JP3567477B2 - Utterance deformed speech recognition device - Google Patents
Utterance deformed speech recognition device Download PDFInfo
- Publication number
- JP3567477B2 JP3567477B2 JP05060594A JP5060594A JP3567477B2 JP 3567477 B2 JP3567477 B2 JP 3567477B2 JP 05060594 A JP05060594 A JP 05060594A JP 5060594 A JP5060594 A JP 5060594A JP 3567477 B2 JP3567477 B2 JP 3567477B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- utterance
- model
- deformation
- transformation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【0001】
【産業上の利用分野】
本発明は、環境騒音による発声変形が生じた音声を対象とする音声認識装置に関するものである。
【0002】
【従来の技術】
騒音下音声認識を実現する上で、環境騒音による発声変形(ロンバード効果)は、雑音重畳による音声信号の品質劣化と並ぶ重要な問題となっている。ロンバード効果による音韻スペクトルの変形に対して、音韻や話者に依存しない補正手法がこれまでに提案されている。
【0003】
特開平4−296799号公報に記載された音声認識装置や特開平5−6196号公報に記載された音声認識装置では、ロンバード効果により300Hz〜1500Hz内のホルマントが大きく変動することについて、入力音声に対するホルマント周波数分析と、環境騒音レベルもしくは入力音声のレベルによって規定される周波数変動量により、ケプストラムパラメータ上で補正する手法が提案されている。特開平4−257898号公報に記載されたロンバード音声認識方法においても前述の帯域におけるホルマント周波数の変動に着目して、標準パタンのスペクトルと入力パタンのスペクトルのマッチングの際に、1.5kHz以下のズレをDPマッチングで補正する方法を提案している。
しかしながらこれらの手法は、ロンバード効果によるスペクトル変形の個人性や音韻依存性を考慮しておらず、また前記帯域以外の変動については具体的補正手法を示すに至っていない。そのため、語彙数の多い認識では十分な認識率が得られないという欠点があった。
【0004】
これに対し近年、スペクトル変形の様態を表現する発声変形モデルを定義し、このモデルのパラメータを大量の発声変形音声データを用いて音韻ごとに学習、認識に用いる手法が、文献“高騒音下音声認識における発声変形対処法の検討”(鈴木、中島、日本音響学会講演論文集 平成5年10月 pp.147−148)において提案されている。
図4はこの手法に基づく発声変形音声認識装置の構成図の一例である。図において、2は入力端1より入力された入力音声信号に対し音響分析を行い、入力音声特徴ベクトル時系列3を出力する音響分析手段、4は音韻ごとに学習された発声変形モデルを格納する発声変形モデルメモリ、5は発声変形がない音声データを学習データとして得られた発声変形なし音声標準モデルを格納する発声変形なし音声標準モデルメモリ、6は発声変形モデルメモリ4に格納されている発声変形モデルと、発声変形なし音声標準モデルメモリ5に記憶されている発声変形なし音声標準モデルとを入力として、音声認識処理を行う発声変形音声認識手段、7は発声変形音声認識手段6の出力である認識結果である。図5に発声変形音声認識手段6の構成図の一例を示す。8は前記発声変形なし音声標準モデルに対し前記発声変形モデルを用いて音韻スペクトルの変形を行うスペクトル変形手段、9はスペクトル変形手段8の出力であるところの変形音声標準モデルと発声変形なし音声標準モデルメモリ5に格納されている発声変形なし音声標準モデルとを合成し、混合型音声標準モデルを生成する音声モデル合成手段、10は音声モデル合成手段9の出力である混合型音声標準モデルと、入力音声特徴ベクトル時系列3に対する尤度を演算する尤度演算手段、11は尤度演算手段の出力である尤度データを用いて、照合処理を行い認識結果7を出力する照合手段である。
【0005】
次に動作について、連続分布型音素片HMMによる離散単語認識の場合を例にとり説明を行う。発声変形なし音声標準モデルメモリ5には、発声変形のない音声データを用いて学習した音素片HMMが発声変形なし音声標準モデルとして格納されている。認識対象となる各単語音声は音素片HMMの連鎖で表現される。発声変形モデルは各音素片のスペクトル変形に対応して生成され、発声変形モデルメモリ4に格納されているものとする。
【0006】
入力端1より入力された未知入力単語音声信号は、音響分析手段2における音響分析により各分析フレームごとに特徴ベクトルが抽出され、入力音声特徴ベクトル時系列3{X(n)|n=1...N}に変換される。ここでX(n)は第nフレームの特徴ベクトル、Nはフレーム数である。
スペクトル変形手段8は、発声変形なし音声標準モデルメモリ5に格納されているところの音素片L(Lは音素片の種類を表すラベルとする)に対応する発声変形なし音素片HMMの平均ベクトルに対し、発声変形モデルメモリ4に格納されている発声変形モデルL T を用いてスペクトル変形処理を施す。平均ベクトル以外のパラメータは何等所作を加えない。この処理をすべての音素片について行う。
音声モデル合成手段9は、発声変形なし音声標準モデルメモリ5に格納されている発声変形なし音素片HMMと、これに対しスペクトル変形手段8でスペクトル変形処理を施されて得られた発声変形音素片HMMとを用い、2混合等確率の混合連続分布型音素片HMMを生成する。
尤度演算手段10は前記入力音声特徴ベクトル時系列3の各特徴ベクトルX(n)と、音響モデル合成手段9の出力であるところの混合連続分布型音素片HMMとの尤度演算を行い、尤度データを出力する。尤度データP(n,L)は、ラベルLの音素片HMMに対する入力音声特徴ベクトル時系列中の特徴ベクトルX(n)の尤度を表し、すべてのLについて1≦n≦Nの範囲で求める。
照合手段11は、尤度演算手段10の出力である尤度データを用いて、認識語彙の単語音声を表す音素片の連鎖に従い、各単語に対する尤度をビタビ演算もしくはトレリス演算により求め、尤度が最大になる単語のカテゴリを認識結果として出力する。
【0007】
【発明が解決しようとする課題】
従来の装置は以上のように構成されているため、発声変形モデルにより表現された一定の変形様態に従った変形音声標準モデルが生成されることになる。発声変形モデルは、前記文献における学習手順によれば、ある騒音環境下において発声された音声の、音素片ごとの平均的な変形様態を表現している。ところが実際には発声変形音声の変形の強度は、同一騒音環境下においても、アクセントの有無や声の大きさによって大きく変動している。そのため、発声変形モデルが表現する固定的なスペクトル変形処理を施した変形音声標準モデルでは、十分な認識性能が得られないという問題があった。
また、従来の発声変形モデルは、スペクトルの変形にのみ注目していたが、ロンバード効果による音声の変形は、発話時間の伸長としても現れる。現在、HMMを用いた音声認識方式においては、音韻の継続時間による尤度ペナルティを併用することで、認識性能の向上を実現している。これに対し、前述の発話時間の伸長は、音韻継続時間による尤度ペナルティの精度を劣化させ、認識性能の劣化につながっていた。
【0008】
本発明は上記の問題を解決するためになされたもので、発声変形の強度を表すパラメータの関数として定義される発声変形モデルを従来の発声変形モデルから生成し、入力音声に対する尤度を最大にする発声変形の強度パラメータを求める機能を持たせることで、発声変形の強度の変動による認識性能の劣化を免れることを目的としている。
また、発声変形なし音声標準モデルに含まれる音韻継続時間パラメータに対し、ロンバード効果による変動を補償するように変更する機能を付加することで、発声変形音声の認識率の向上を図る。
【0009】
【課題を解決するための手段】
この発明に係る発声変形音声認識装置は、
適応型発声変形モデル生成手段と、スペクトル変形手段と、発声変形音声認識手段と、適応型尤度演算手段と、照合手段と、を有する発声変形音声認識手段をさらに備え、
前記適応型発声変形モデル生成手段は、前記適応型尤度演算手段が求めた発声変形度パラメータを入力し、前記発声変形モデルメモリに格納されている発声変形モデルから前記発声変形度パラメータに従う適応型発声変形モデルを生成し、前記スペクトル変形手段は、前記発声変形なし音声標準モデルメモリに格納されている音声標準モデルに対し、前記適応型発声変形モデルに基づくスペクトル変形処理を施し、
前記適応型尤度演算手段は、前記入力音声特徴ベクトル時系列と前記スペクトル変形手段が出力した音声標準パタンとの尤度を最大にする前記発声変形度パラメータを求めるとともに、前記適応型発声変形モデル生成手段に入力して、前記発声変形度パラメータに基づく尤度を求め、
前記照合手段は、前記適応型尤度演算手段の出力を用いて照合処理を行い、認識結果を出力することを特徴とする。
【0011】
また請求項3の発明における発声変形音声認識装置は、発声変形なし音声標準モデルメモリと音声認識手段との間に、発声変形なし音声標準モデルの継続時間パラメータを変更する継続時間パラメータ変更手段を入れたことを特徴とする。
【0012】
【作用】
この発明において、適応型発声変形モデル生成手段は、適応型尤度演算手段が出力した発声変形度パラメータに従い、発声変形モデルメモリに格納されている発声変形モデルから適応型発声変形モデルを生成する。
本発明におけるスペクトル変形手段は、適応型発声変形モデル生成手段の出力であるところの適応型発声変形モデルに従い、発声変形なし音声標準モデルメモリに格納されている発声変形なし音声標準モデルに対しスペクトル変形処理を施し、変形音声標準モデルを生成する。
また適応型尤度演算手段は、入力音声特徴ベクトル時系列に対し、尤度を最大にする発声変形度パラメータを求め、そのパラメータに対応してスペクトル変形手段が生成した変形音声標準モデルに対する入力音声特徴ベクトルの尤度データを演算し、照合手段に出力する。
【0013】
また他の発明によるマルチ発声変形モデル生成手段は、発声変形モデルメモリ上の発声変形モデルから、変形度メモリに格納されている発声変形度パラメータに則り、発声変形の強度の異なる発声変形モデルを生成する。
選択型尤度演算手段は、入力音声特徴ベクトルに対し、発声変形の強度が異なる発声変形モデルに基づきスペクトル変形手段で生成された変形音声標準モデルの中での尤度最大値を尤度データとして、照合手段に出力する。
【0014】
また別の発明においては、継続時間パラメータ変更手段は、発声変形なし音声標準モデルメモリに格納されている発声変形なし音声標準モデルの音韻継続時間パラメータに対し、ロンバード効果による発話時間の伸長を補正するように変更を行い、発声変形音声認識手段へ送る。
【0015】
【実施例】
実施例1.
図1は、請求項1の発明にかかわる発声変形音声認識装置に使われる発声変形音声認識手段の一実施例の構成を示すブロック図である。図において、4は発声変形モデルを格納する発声変形モデルメモリ、5は発声変形がない音声データから学習した発声変形なし音声標準モデルを格納する発声変形なし音声標準モデルメモリ、12は発声変形モデルメモリ4に格納されている発声変形モデルから、入力される発声変形度パラメータに従う適応型発声変形モデルを生成する適応型発声変形モデル生成手段、8は入力される適応型声変形モデルを用いて、発声変形なし音声標準モデルメモリ5に格納されている発声変形なし音声標準モデルに対し、スペクトル変形処理を施すスペクトル変形手段、14は適応型発声変形モデル生成手段12に出力した発声変形度パラメータと、その値に対応してスペクトル変形手段から出力された発声変形モデルに対する入力音声特徴ベクトル時系列3の尤度とを用いて、入力音声特徴ベクトル時系列に対し最適な発声変形度パラメータによる尤度データ15を照合手段に出力する適応型尤度演算手段、11は尤度データ15を用いて、照合処理を行い認識結果7を出力する照合手段である。
【0016】
次に動作について、従来例の説明と同じく連続分布型音素片HMMによる離散単語認識の場合を例にとって説明する。発声変形なし音声標準モデルメモリ5には、発声変形のない音声データを用いて学習した音素片HMMが発声変形なし音声標準モデルとして格納されている。認識対象となる各単語音声は音素片HMMの連鎖で表現される。発声変形モデルは各音素片のスペクトル変形に対応して生成され、発声変形モデルメモリ4に格納されているものとする。従来例と重複する部分は説明を省略する。
【0017】
適応型発声変形モデル生成手段12は、発声変形モデルメモリ4に格納されている発声変形モデルから、後述する適応型尤度演算手段が決定した発声変形度パラメータ13に従う発声変形の強度をもつ適応型発声変形モデルを生成する。
発声変形モデルは、従来例である前記文献と同じくロンバード効果によるスペクトルの変形について、以下の3つの要素で構成される。
(1)ホルマント周波数の移動を表す周波数軸非線形伸縮関数
(2)スペクトルの全体傾斜の変化を表すフィルタ
(3)ホルマントQの変化を表すフィルタ
発声変形モデルメモリ4に格納されている発声変形モデルL T に対する適応型発声変形モデルは、発声変形度パラメータwの関数として以下のように定義される。
ΔL t(w) = w・ΔL t
δL t(w) = w・δL t
QLt(w) = w・QL t
ここで、ΔL tは(1)から得られる周波数tにおける周波数シフト量、δL tおよびQL tはそれぞれ(2)(3)の各フィルタに対応する対数スペクトルでtは周波数を表している。wは0以上の値をとり、w=0では変形なし、徐々にwを大きくすることで変形度が増し、w=1では元の発声変形モデルと同じになる。wを1以上にすることでより強い変形も表現できる。
【0018】
スペクトル変形手段8は、従来例と同じく入力された適応型発声変形モデルを用いて、発声変形なし音声標準パタンメモリ5に格納されているラベルLの発声変形なし音素片HMMに対し、同じラベルLに対応する適応型発声変形モデルによるスペクトル変形処理を施し、発声変形音素片HMMとして出力する。スペクトル変形処理の対象は、音素片HMMの場合、各状態における平均ベクトルとなる。
適応型尤度演算手段14は、適応型発声変形モデル生成手段12に対し出力する発声変形度パラメータ13の値の変更と、それに対応してスペクトル変形手段8が出力した発声変形音素片HMM(ラベルL)に対する入力音声特徴ベクトル時系列3の特徴ベクトルX(n)の尤度演算を繰り返し、最も大きい尤度を尤度データP(n,L)として出力する。これをすべてのL、1≦n≦Nについて行う。これにより発声変形の強さの変動の影響を受けない尤度が得られる。
照合手段11は、従来例と同じように、尤度データ15を用いて各単語に対する尤度をビタビ演算もしくはトレリス演算により求め、尤度最大となる単語のカテゴリを認識結果として出力する。
【0019】
実施例2.
図2は、請求項2の発明に係る発声変形音声認識装置に使われる発声変形音声認識手段の一実施例の構成を示すブロック図である。図において、16は各発声変形モデルについて設定される複数個の相異なる発声変形度パラメータを記憶する変形度メモリ、17は発声変形モデルメモリ4に記憶されている各発声変形モデルを入力として、変形度メモリ16に格納されている発声変形度パラメータを用いて発声変形の強さの相異なる複数の発声変形モデルを生成するマルチ発声変形モデル生成手段、8はマルチ発声変形モデル生成手段17の出力であるところの発声変形モデルを用いて、発声変形なし音声標準モデルメモリ5に格納されている発声変形なし音声標準モデルに対しスペクトル変形処理を施すスペクトル変形手段、18はスペクトル変形手段8の出力であるところの変形音声標準モデルに対する入力音声特徴ベクトル時系列3の尤度を求め、同一の発声変形なし音声標準モデルから生成された変形音声標準モデルの中での最大尤度を尤度データとして照合手段に出力する選択型尤度演算手段、11は選択型尤度演算手段18の出力であるところの尤度データを用いて、照合処理を行い認識結果7を出力する照合手段である。
【0020】
次に動作について、従来例と同じく連続分布型音素片HMMによる離散単語認識の場合を例にとって説明する。発声変形なし音声標準モデルメモリ5には、発声変形のない音声データを用いて学習した音素片HMMが発声変形なし音声標準モデルとして格納されている。認識対象となる各単語音声は音素片HMMの連鎖で表現される。発声変形モデルは各音素片のスペクトル変形に対応して生成され、発声変形モデルメモリ4に格納されているものとする。従来例と重複する部分は説明を省略する。
【0021】
変形度メモリ16には、ラベルLの音素片における発声変形の強さの変動の分布を近似する複数個の発声変形度パラメータ{wL(k)|k=1...KL}(KLはラベルLの音素片に対する発声変形度パラメータの数)が、すべてのラベルについて記憶されている。
マルチ発声変形モデル生成手段17は、発声変形モデルメモリ4に記憶されている、各音素片に対応する発声変形モデルに対し、変形度メモリ16に格納されている該音素片に対応する複数個の発声変形度パラメータに従い、前述の実施例1における適応型発声変形モデル生成手段における適応型発声変形モデルの定義に則り発声変形度パラメータの個数と等しい数の発声変形モデルを生成する。
スペクトル変形手段8は、発声変形なし音声標準モデルメモリ5に記憶されているラベルLの発声変形なし音素片HMMに対し、マルチ発声変形モデル生成手段17の出力であるところのラベルLに対応する複数個の発声変形モデルによる、スペクトル変形処理を施し、発声変形音素片HMMとして出力する。これをすべてのLについて行う。
選択型尤度演算手段18は、スペクトル変形手段の出力であるところのラベルLに対応する複数個の発声変形音素片HMMに対する、入力音声特徴ベクトル時系列3の特徴ベクトルX(n)の尤度を求め、その中で最大の尤度を尤度データP(n,L)として出力する。これをすべてのL、1≦n≦Nについて行う。
照合手段は、従来例と同じように、尤度データ15を用いて各単語に対する尤度をビタビ演算もしくはトレリス演算により求め、尤度最大となる単語のカテゴリを認識結果として出力する。
【0022】
実施例3.
図3は、請求項3の発明に係る発声変形音声認識装置の位置実施例の構成を示すブロック図である。図において、19は発声変形なし音声標準モデルメモリ5に格納されている発声変形なし音声標準モデルを入力とし、該発声変形なし音声標準モデルの音韻継続時間パラメータに対し変更を加えて、発声変形音声認識手段へ出力する、継続時間パラメータ変更手段である。その他の構成要素は、前述の従来例におけるものと全く同一であるので説明を省略する。
【0023】
次に動作について、継続時間制御付き連続分布型音素片HMMによる離散単語認識の場合を例にとって説明する。従来例と重複する部分は説明を省略する。
発声変形なし音声標準モデルメモリ5には、発声変形がない音声データから生成した発声変形なし音声標準モデルが格納されている。各単語音声の発声変形音声標準モデルは、連続分布型音素片HMMの連鎖で表されている。また各音素片について継続時間の平均と分散が求められており、認識時には継続時間によるペナルティを含めた尤度計算が行われる。
継続時間パラメータ変更手段19は、ロンバード効果による各音素片の継続時間の変化についての情報として、発声変形音声における音素片継続時間の平均の伸び率と分散の増大率を多数話者について調査した得た平均値を保持しており、これに従い、発声変形なし音声標準モデルメモリ5に記憶されている発声変形なし音声標準モデルの音素片継続時間パラメータを変更し、出力する。
これにより、継続時間によるペナルティを用いた照合方式において、ロンバード効果による発話時間の伸長による認識精度の劣化が抑えられる。
この継続時間補正手法は、音素片への適用に限定されるものではなく、半音素、音素、音節、CVC、VCV、単語など如何なる音声単位であってもかまわない。
【0024】
【発明の効果】
この発明は、以上説明したように構成されているので、以下に記載されるような効果を奏する。
【0025】
請求項1の発明においては、適応型尤度演算手段が設定した発声変形度パラメータに従って適応型発声変形モデルが生成され、この適応型発声変形モデルに基づくスペクトル変形を発声変形なし音声標準モデルに施し、得られた変形音声標準モデルに対する入力音声特徴ベクトル時系列との尤度に従って発声変形度パラメータが更新されているので、入力音声における発声変形の強さの変動の影響を受けにくい発声変形音声認識装置を得ることができる。
【0027】
また、請求項2の発明においては、発声変形なし音声標準モデルにおける音韻継続時間に関するパラメータに対し、ロンバード効果による発話時間の伸長に適合した補正を施しているため、音韻継続時間によるペナルティを用いる音声認識装置においてロンバード効果による発話時間伸長による認識精度劣化が生じ難くなっている。
【図面の簡単な説明】
【図1】この発明の実施例1を示すブロック図である。
【図2】この発明の実施例2を示すブロック図である。
【図3】この発明の実施例3を示すブロック図である。
【図4】従来の音声認識装置の全体構成を示すブロック図である。
【図5】従来の音声認識装置の構成する機能の一つである発声変形音声認識手段の構成を示すブロック図である。
【符号の説明】
1 入力端
2 音響分析手段
3 入力音声特徴ベクトル時系列
4 発声変形モデルメモリ
5 発声変形なし音声標準モデルメモリ
6 発声変形音声認識手段
7 認識結果
8 スペクトル変形手段
9 音声モデル合成手段
10 尤度演算手段
11 照合手段
12 適応型発声変形モデル生成手段
13 発声変形度パラメータ
14 適応型尤度演算手段
15 尤度データ
16 変形度メモリ
17 マルチ発声変形モデル生成手段
18 選択型尤度演算手段
19 継続時間パラメータ変更手段[0001]
[Industrial applications]
The present invention relates to a voice recognition device for voice that has undergone vocal deformation due to environmental noise.
[0002]
[Prior art]
In realizing speech recognition under noise, utterance deformation (Lombard effect) due to environmental noise is an important problem along with quality degradation of a speech signal due to superimposition of noise. A correction method that does not depend on phonemes or speakers has been proposed for the deformation of the phoneme spectrum due to the Lombard effect.
[0003]
In the speech recognition device described in JP-A-4-296799 and the speech recognition device described in JP-A-5-6196, the fact that the formant within 300 Hz to 1500 Hz fluctuates greatly due to the Lombard effect is described with respect to the input speech. A method has been proposed in which correction is performed on cepstrum parameters based on formant frequency analysis and a frequency fluctuation amount defined by an environmental noise level or an input voice level. Also in the Lombard speech recognition method described in Japanese Patent Application Laid-Open No. H4-257898, focusing on the variation of the formant frequency in the aforementioned band, when matching the spectrum of the standard pattern with the spectrum of the input pattern, the frequency of 1.5 kHz or less is used. A method for correcting the displacement by DP matching has been proposed.
However, these methods do not take into account the personality and phoneme dependence of spectrum deformation due to the Lombard effect, and have not yet shown a specific correction method for fluctuations other than the band. Therefore, there is a defect that a sufficient recognition rate cannot be obtained with recognition having a large number of words.
[0004]
On the other hand, in recent years, a method of defining an utterance deformation model that expresses a form of spectrum deformation and using the parameters of this model for learning and recognition for each phoneme using a large amount of utterance deformation voice data has been described in the literature “Speech under high noise. Examination of Speech Deformation Coping Method in Recognition "(Suzuki, Nakajima, Proceedings of the Acoustical Society of Japan, October 1993, pp. 147-148).
FIG. 4 is an example of a configuration diagram of an uttered speech recognition apparatus based on this technique. In the figure,
[0005]
Next, the operation will be described by taking as an example the case of discrete word recognition by a continuous distribution type phoneme HMM. The speech standard model without
[0006]
From the unknown input word speech signal input from the
The spectrum deforming means 8 calculates the average vector of the speech-transformation-free phoneme HMM corresponding to the phoneme L (where L is a label representing the type of phoneme) stored in the speech-transformation-free speech
The speech
The likelihood calculating means 10 performs likelihood calculation of each feature vector X (n) of the input speech feature
The matching means 11 uses the likelihood data output from the likelihood calculating means 10 to determine the likelihood for each word by Viterbi calculation or trellis calculation in accordance with a chain of phonemic segments representing word speech in the recognized vocabulary. Is output as a recognition result.
[0007]
[Problems to be solved by the invention]
Since the conventional apparatus is configured as described above, a modified voice standard model according to a certain modification mode represented by the utterance modification model is generated. According to the learning procedure in the literature, the utterance deformation model expresses an average deformation mode of each utterance of a voice uttered in a certain noise environment. However, in practice, the intensity of the deformation of the deformed uttered voice greatly varies depending on the presence or absence of an accent and the volume of the voice even under the same noise environment. For this reason, there is a problem that the modified speech standard model that has been subjected to the fixed spectrum modification process represented by the utterance modification model cannot obtain sufficient recognition performance.
Further, the conventional utterance deformation model pays attention only to spectrum deformation, but voice deformation due to the Lombard effect also appears as an increase in utterance time. At present, in the speech recognition method using the HMM, the recognition performance is improved by using a likelihood penalty based on the duration of a phoneme. On the other hand, the extension of the utterance time described above deteriorates the accuracy of the likelihood penalty due to the phoneme duration, leading to deterioration of the recognition performance.
[0008]
The present invention has been made to solve the above problem, and generates an utterance deformation model defined as a function of a parameter representing the intensity of utterance deformation from a conventional utterance deformation model to maximize the likelihood for input speech. An object of the present invention is to avoid a deterioration in recognition performance due to a variation in the intensity of the utterance deformation by providing a function for calculating an intensity parameter of the utterance deformation.
In addition, by adding a function of changing the phoneme duration parameter included in the unvoiced speech standard model so as to compensate for the variation due to the Lombard effect, the recognition rate of the uttered voice is improved.
[0009]
[Means for Solving the Problems]
The utterance-modified voice recognition device according to the present invention includes:
Adaptive utterance deformation model generation means, spectrum deformation means, utterance deformation speech recognition means, adaptive likelihood calculation means, and matching means, further comprising utterance deformation speech recognition means,
The adaptive utterance deformation model generation means inputs the utterance deformation degree parameter obtained by the adaptive likelihood calculating means, and outputs an adaptive utterance deformation model according to the utterance deformation degree parameter from the utterance deformation model stored in the utterance deformation model memory. An utterance deformation model is generated, and the spectrum deforming unit performs a spectrum deformation process based on the adaptive utterance deformation model on a voice standard model stored in the voice standard model memory without utterance deformation,
The adaptive likelihood calculating means obtains the utterance deformation degree parameter that maximizes the likelihood between the input speech feature vector time series and the voice standard pattern output by the spectrum deforming means, and the adaptive utterance deformation model Input to the generating means to determine a likelihood based on the utterance deformation degree parameter,
The matching means performs a matching process using an output of the adaptive likelihood calculating means, and outputs a recognition result .
[0011]
In the utterance-deformed speech recognition apparatus according to the third aspect of the present invention, a duration parameter changing means for changing a duration parameter of the utterance-deformed speech standard model is provided between the speech standard model without utterance deformation and the speech recognition means. It is characterized by having.
[0012]
[Action]
In the present invention, the adaptive utterance deformation model generation means generates an adaptive utterance deformation model from the utterance deformation model stored in the utterance deformation model memory according to the utterance deformation degree parameter output from the adaptive likelihood calculation means.
According to the adaptive utterance transformation model output from the adaptive utterance transformation model generation means, the spectrum transformation means according to the present invention performs spectrum transformation with respect to the speech utterance-free speech standard model stored in the speech utterance-free speech standard model memory. Processing is performed to generate a modified voice standard model.
The adaptive likelihood calculating means obtains an utterance deformation degree parameter which maximizes the likelihood with respect to the input voice feature vector time series, and the input voice for the deformed voice standard model generated by the spectrum deformation means corresponding to the parameter. The likelihood data of the feature vector is calculated and output to the matching means.
[0013]
The multi-utterance deformation model generation means according to another invention generates an utterance deformation model having a different utterance deformation intensity from the utterance deformation model stored in the utterance deformation model memory in accordance with the utterance deformation degree parameter stored in the deformation degree memory. I do.
The selection-type likelihood calculation means uses the maximum likelihood value in the deformed speech standard model generated by the spectrum deformation means based on the utterance deformation model having a different utterance deformation strength as the likelihood data for the input speech feature vector. , Output to the matching means.
[0014]
In still another invention, the duration parameter changing means corrects the extension of the utterance time due to the Lombard effect on the phoneme duration parameter of the speech standard model without speech transformation stored in the speech standard model without speech transformation. And then send it to the utterance deformed speech recognition means.
[0015]
【Example】
FIG. 1 is a block diagram showing the configuration of an embodiment of a modified utterance speech recognition means used in an utterance modification speech recognition apparatus according to the first aspect of the present invention. In the figure, reference numeral 4 denotes an utterance deformation model memory for storing utterance deformation models, 5 denotes an utterance deformation-free speech standard model memory for storing a utterance deformation-free speech standard model learned from speech data having no utterance deformation, and 12 denotes an utterance deformation model memory. An adaptive utterance deformation model generating means for generating an adaptive utterance deformation model in accordance with the input utterance deformation degree parameter from the utterance deformation model stored in 4; Spectral transformation means 14 for performing spectrum transformation processing on the speech standard model without utterance deformation stored in the speech standard model memory without
[0016]
Next, the operation will be described by taking as an example the case of discrete word recognition by a continuous distribution type speech unit HMM as in the description of the conventional example. The speech standard model without
[0017]
The adaptive utterance deformation model generation means 12 generates an adaptive utterance deformation model having an utterance deformation intensity according to the utterance deformation degree parameter 13 determined by the adaptive likelihood calculation means described later from the utterance deformation model stored in the utterance deformation model memory 4. Generate an utterance transformation model.
The utterance deformation model is composed of the following three elements with respect to spectrum deformation due to the Lombard effect, similarly to the above-mentioned literature as a conventional example.
(1) Frequency axis non-linear expansion / contraction function representing movement of formant frequency (2) Filter representing change in overall slope of spectrum (3) Filter representing change in formant Q Voice transformation model L stored in memory 4 The adaptive utterance transformation model for T is defined as a function of the utterance transformation degree parameter w as follows.
Δ L t (w) = w · Δ L t
δ L t (w) = w · δ L t
QL t (w) = w · Q L t
Here, the delta L t represents a t frequency in logarithmic spectrum corresponding to each filter of the frequency shift amount in the frequency t obtained from (1), [delta] L t and Q L t each (2) (3) I have. w takes a value of 0 or more, there is no deformation when w = 0, and the degree of deformation increases by gradually increasing w. When w = 1, the original utterance deformation model becomes the same. By setting w to 1 or more, stronger deformation can be expressed.
[0018]
Using the adaptive utterance transformation model input as in the conventional example, the spectrum transformation means 8 applies the same label L to the utterance-free speech unit HMM of the label L stored in the speech
The adaptive likelihood calculating means 14 changes the value of the utterance deformation degree parameter 13 output to the adaptive utterance deformation model generation means 12 and correspondingly changes the utterance deformed speech unit HMM (label) output by the spectrum deformation means 8. L), the likelihood calculation of the feature vector X (n) of the input speech feature
The matching unit 11 obtains the likelihood of each word by the Viterbi operation or the trellis operation using the
[0019]
FIG. 2 is a block diagram showing a configuration of an embodiment of a modified utterance voice recognition means used in the modified utterance voice recognition apparatus according to the second aspect of the present invention. In the figure, reference numeral 16 denotes a deformation degree memory for storing a plurality of different utterance deformation degree parameters set for each utterance deformation model, and 17 denotes a deformation based on each utterance deformation model stored in the utterance deformation model memory 4. Means for generating a plurality of utterance transformation models having different utterance transformation strengths using the utterance transformation degree parameters stored in the degree memory 16; Using a certain utterance transformation model, spectrum transformation means for performing spectrum transformation processing on the speech standard model without speech transformation stored in the speech standard model without
[0020]
Next, the operation will be described by taking as an example the case of discrete word recognition by a continuous distribution type speech element HMM as in the conventional example. The speech standard model without
[0021]
The deformation degree memory 16 stores a plurality of utterance deformation degree parameters {w L (k) | k = 1. . . K L} is (K L is the number of utterance variation degree parameters for phoneme label L), are stored for all labels.
The multi-utterance deformation
The spectrum deforming means 8 applies a plurality of speech units HMM of the label L stored in the speech
The selection-type likelihood calculating means 18 calculates the likelihood of the feature vector X (n) of the input speech feature
As in the conventional example, the matching unit obtains the likelihood for each word by using the
[0022]
FIG. 3 is a block diagram showing the configuration of a position embodiment of the utterance-modified voice recognition apparatus according to the third aspect of the present invention. In the figure,
[0023]
Next, the operation will be described by taking as an example a case of discrete word recognition by a continuous distribution type speech unit HMM with duration control. The description of the same parts as the conventional example will be omitted.
The speech standard model without
The duration parameter changing means 19 obtains information on the change in duration of each phoneme due to the Lombard effect by examining the average growth rate and variance growth rate of the phoneme duration in a vocal deformed voice for a large number of speakers. In accordance with the average value, the speech unit duration parameter of the speech standard model without speech transformation stored in the speech standard model without
As a result, in the matching method using the penalty based on the duration, deterioration in recognition accuracy due to extension of the speech time due to the Lombard effect can be suppressed.
This duration correction method is not limited to application to phoneme segments, and may be any speech unit such as a half phoneme, phoneme, syllable, CVC, VCV, or word.
[0024]
【The invention's effect】
Since the present invention is configured as described above, it has the following effects.
[0025]
According to the first aspect of the present invention, an adaptive utterance deformation model is generated according to the utterance deformation degree parameter set by the adaptive likelihood calculating means, and a spectrum deformation based on the adaptive utterance deformation model is applied to the speech standard model without utterance deformation. Since the utterance deformation degree parameter is updated according to the likelihood of the obtained deformed speech standard model and the input speech feature vector time series, the utterance deformation speech recognition is less susceptible to the fluctuation of the utterance deformation strength in the input speech. A device can be obtained.
[0027]
According to the second aspect of the present invention, since the parameter relating to the phoneme duration in the speech standard model without speech transformation is subjected to correction adapted to the extension of the speech time due to the Lombard effect, the speech using the penalty based on the phoneme duration is applied. In the recognition device, the recognition accuracy is hardly degraded due to the extension of the utterance time due to the Lombard effect.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a first embodiment of the present invention.
FIG. 2 is a block
FIG. 3 is a block diagram showing a third embodiment of the present invention.
FIG. 4 is a block diagram showing an overall configuration of a conventional speech recognition device.
FIG. 5 is a block diagram showing a configuration of an utterance-modified voice recognition unit which is one of the functions included in the conventional voice recognition device.
[Explanation of symbols]
DESCRIPTION OF
Claims (2)
騒音環境下で発声された音声に生じる音韻スペクトルの変形の様態を表現する発声変形モデルを記憶する発声変形モデルメモリと、
発声変形の無い音声データで学習した音声標準モデルを記憶する発声変形無し音声標準モデルメモリと、
前記音響分析手段の出力である入力音声特徴ベクトル時系列に対し、該発声変形モデルと該音声標準モデルとを用いて認識処理を行い、認識結果を出力する発声変形音声認識手段とで構成される音声認識装置において、
適応型発声変形モデル生成手段と、スペクトル変形手段と、発声変形音声認識手段と、適応型尤度演算手段と、照合手段と、を有する発声変形音声認識手段をさらに備え、
前記適応型発声変形モデル生成手段は、前記適応型尤度演算手段が求めた発声変形度パラメータを入力し、前記発声変形モデルメモリに格納されている発声変形モデルから前記発声変形度パラメータに従う適応型発声変形モデルを生成し、
前記スペクトル変形手段は、前記発声変形なし音声標準モデルメモリに格納されている音声標準モデルに対し、前記適応型発声変形モデルに基づくスペクトル変形処理を施し、
前記適応型尤度演算手段は、前記入力音声特徴ベクトル時系列と前記スペクトル変形手段が出力した音声標準パタンとの尤度を最大にする前記発声変形度パラメータを求めるとともに、前記適応型発声変形モデル生成手段に入力して、前記発声変形度パラメータに基づく尤度を求め、
前記照合手段は、前記適応型尤度演算手段の出力を用いて照合処理を行い、認識結果を出力することを特徴とする発声変形音声認識装置。Sound analysis means for performing sound analysis on the input sound signal and outputting an input sound feature vector time series,
An utterance deformation model memory for storing an utterance deformation model expressing a mode of deformation of a phoneme spectrum generated in a voice uttered in a noisy environment;
A speech standard model memory without speech transformation that stores a speech standard model learned from speech data without speech transformation,
The input speech feature vector time series output from the acoustic analysis means is subjected to a recognition process using the utterance transformation model and the speech standard model, and comprises a utterance transformation speech recognition means for outputting a recognition result. In a speech recognition device,
Adaptive utterance deformation model generation means, spectrum deformation means, utterance deformation speech recognition means, adaptive likelihood calculation means, and matching means, further comprising utterance deformation speech recognition means,
The adaptive utterance deformation model generation means inputs the utterance deformation degree parameter obtained by the adaptive likelihood calculating means, and outputs an adaptive utterance deformation model according to the utterance deformation degree parameter from the utterance deformation model stored in the utterance deformation model memory. Generate an utterance deformation model,
The spectrum transformation means performs a spectrum transformation process based on the adaptive speech transformation model on the speech standard model stored in the speech transformation model without speech transformation,
The adaptive likelihood calculating means obtains the utterance deformation degree parameter that maximizes the likelihood between the input speech feature vector time series and the voice standard pattern output by the spectrum deforming means, and the adaptive utterance deformation model Input to the generating means to determine a likelihood based on the utterance deformation degree parameter,
The uttered speech recognition apparatus according to claim 1, wherein the matching unit performs a matching process using an output of the adaptive likelihood calculating unit and outputs a recognition result.
騒音環境下で発声された音声に生じる音韻スペクトルの変形の様態を表現する発声変形モデルを記憶する発声変形モデルメモリと、
発声変形の無い音声データで学習した音声標準モデルを記憶する発声変形無し音声標準モデルメモリと、
前記音響分析手段の出力である入力音声特徴ベクトル時系列に対し、該発声変形モデルと該音声標準モデルとを用いて認識処理を行い、認識結果を出力する発声変形音声認識手段とで構成される音声認識装置に対し、
前記発声変形なし音声標準モデルメモリと前記音声認識手段との間に、発声変形なし音声標準モデルの継続時間パラメータを変更する継続時間パラメータ変更手段を入れたことを特徴とする発声変形音声認識装置。Sound analysis means for performing sound analysis on the input sound signal and outputting an input sound feature vector time series,
An utterance deformation model memory for storing an utterance deformation model expressing a mode of deformation of a phoneme spectrum generated in a voice uttered in a noisy environment;
A speech standard model memory without speech transformation that stores a speech standard model learned from speech data without speech transformation,
The input speech feature vector time series output from the acoustic analysis means is subjected to a recognition process using the utterance transformation model and the speech standard model, and comprises a utterance transformation speech recognition means for outputting a recognition result. For a speech recognition device,
An utterance-modified voice recognition apparatus, characterized in that a duration parameter changing means for changing a duration parameter of the voice-standard model without utterance is inserted between the voice standard model memory without utterance deformation and the voice recognition means.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP05060594A JP3567477B2 (en) | 1994-03-22 | 1994-03-22 | Utterance deformed speech recognition device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP05060594A JP3567477B2 (en) | 1994-03-22 | 1994-03-22 | Utterance deformed speech recognition device |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH07261780A JPH07261780A (en) | 1995-10-13 |
JP3567477B2 true JP3567477B2 (en) | 2004-09-22 |
Family
ID=12863608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP05060594A Expired - Fee Related JP3567477B2 (en) | 1994-03-22 | 1994-03-22 | Utterance deformed speech recognition device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3567477B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1185976B1 (en) * | 2000-02-25 | 2006-08-16 | Philips Electronics N.V. | Speech recognition device with reference transformation means |
-
1994
- 1994-03-22 JP JP05060594A patent/JP3567477B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH07261780A (en) | 1995-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yu et al. | DurIAN: Duration Informed Attention Network for Speech Synthesis. | |
JP2733955B2 (en) | Adaptive speech recognition device | |
US8898055B2 (en) | Voice quality conversion device and voice quality conversion method for converting voice quality of an input speech using target vocal tract information and received vocal tract information corresponding to the input speech | |
JP3515039B2 (en) | Pitch pattern control method in text-to-speech converter | |
US7792672B2 (en) | Method and system for the quick conversion of a voice signal | |
JP3563772B2 (en) | Speech synthesis method and apparatus, and speech synthesis control method and apparatus | |
US20030083878A1 (en) | System and method for speech synthesis using a smoothing filter | |
Song et al. | ExcitNet vocoder: A neural excitation model for parametric speech synthesis systems | |
JPH11126090A (en) | Method and device for recognizing voice, and recording medium recorded with program for operating voice recognition device | |
JP2002108383A (en) | Speech recognition system | |
US5943647A (en) | Speech recognition based on HMMs | |
JPH0632020B2 (en) | Speech synthesis method and apparatus | |
Lee | MLP-based phone boundary refining for a TTS database | |
Gao et al. | Multistage coarticulation model combining articulatory, formant and cepstral features. | |
JP2002358090A (en) | Speech synthesizing method, speech synthesizer and recording medium | |
Shechtman et al. | Controllable sequence-to-sequence neural TTS with LPCNET backend for real-time speech synthesis on CPU | |
Lee et al. | A segmental speech coder based on a concatenative TTS | |
JP5474713B2 (en) | Speech synthesis apparatus, speech synthesis method, and speech synthesis program | |
JP2021067885A (en) | Acoustic feature amount conversion model learning device, method and program, neural vocoder learning device, method and program, and, voice synthesis device, method and program | |
JP3567477B2 (en) | Utterance deformed speech recognition device | |
US5864791A (en) | Pitch extracting method for a speech processing unit | |
JP4461557B2 (en) | Speech recognition method and speech recognition apparatus | |
JPH08211897A (en) | Speech recognition device | |
JP2600384B2 (en) | Voice synthesis method | |
WO2022046781A1 (en) | Reference-fee foreign accent conversion system and method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20040217 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040326 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20040423 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040525 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040607 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080625 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |