JP3652753B2

JP3652753B2 - 発声変形音声認識装置及び音声認識方法

Info

Publication number: JP3652753B2
Application number: JP28063595A
Authority: JP
Inventors: 鈴木　　忠
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1994-10-28
Filing date: 1995-10-27
Publication date: 2005-05-25
Anticipated expiration: 2015-10-27
Also published as: JPH08211887A

Description

【０００１】
【発明の属する技術分野】
本発明は、例えば環境騒音のもとでおこるような発声変形が生じた音声を対象とする音声認識装置に関するものである。
【０００２】
【従来の技術】
騒音下音声認識を実現する上で、環境騒音による発声変形（ロンバード効果）は、雑音重畳による音声信号の品質劣化と並ぶ重要な問題となっている。ロンバード効果による音韻スペクトルの変形に対して、音韻や話者に依存しない補正手法がこれまでに提案されている。
【０００３】
特開平４−２９６７９９号公報に示された「音声認識装置」や特開平５−６１９６号公報に示された「音声認識装置」では、ロンバード効果により３００Ｈｚ〜１５００Ｈｚ内のホルマントが大きく変動することについて、入力音声に対するホルマント周波数分析と、環境騒音レベルもしくは入力音声のレベルによって規定される周波数変動量により、ケプストラムパラメータ上で補正する手法が提案されている。
特開平４−２５７８９８号公報に示された「ロンバード音声認識方法」においても前述の帯域におけるホルマント周波数の変動に着目して、標準パタンのスペクトルと入力パタンのスペクトルのマッチングの際に、１．５ｋＨｚ以下のズレをＤＰマッチングで補正する方法を提案している。
しかしながらこれらの手法は、ロンバード効果によるスペクトル変形の個人性や音韻依存性を考慮しておらず、また前記帯域以外の変動については、具体的補正手法を示すに至っていない。そのため、語彙数の多い認識では十分な認識率が得られないという欠点があった。
【０００４】
また、ロンバード効果による発話時間の伸長は、音素や音素片、音節など様々な音声単位における継続時間の情報を認識評価尺度として利用する継続時間制御付き認識手法において、その性能劣化の原因となる。
【０００５】
これに対し、スペクトル変形の様態を表現する発声変形モデルを定義し、このモデルのパラメータを大量の発声変形音声データを用いて音韻毎に学習、認識に用いる手法が、文献“高騒音下音声認識における発声変形対処法の検討”（鈴木、中島、日本音響学会平成５年度秋季研究発表会講演論文集平成５年１０月５日発行ｐｐ．１４７−１４８）において提案されている。
【０００６】
また、文献“高騒音下における発声変形音声の認識”（鈴木、中島、阿部、日本音響学会平成６年度春季研究発表会講演論文集平成６年３月２３日発行ｐｐ．１３−１４）において、ロンバード効果による音素片継続時間の平均と標準偏差の変動量について、予め複数話者の平均値を求めておき、これを用いて補正を加える手法が提案されている。
【０００７】
図１８は、これらの手法に基づく発声変形音声認識装置の構成図の一例である。
図において、２は入力端１より入力された発声変形音声信号に対し音響分析を行い、発声変形音声特徴ベクトル時系列３を出力する音響分析手段、４は発声変形モデル学習時と発声変形音声認識時とで前記発声変形音声特徴ベクトル時系列３の出力先を変更するスイッチ、５は発声変形なし音声標準モデルメモリ６に格納されている音声標準モデル７と前記発声変形音声特徴ベクトル時系列３を用いて発声変形モデルの学習を行う発声変形モデル学習手段、９は前記発声変形モデル学習手段５の出力であるところの発声変形モデル８を記憶する発声変形モデルメモリである。
【０００８】
１０は音素や音素片などの音声を構成する要素の継続時間における平均と標準偏差の発声変形による平均変動量を記憶する継続時間変動量メモリ、１１は前記継続時間変動量メモリ１０に格納されている継続時間変動量データを用いて、前記発声変形なし音声標準モデルメモリ６上の音声標準モデル７における継続時間パラメータを変更する継続時間パラメータ変更手段、１２は前記発声変形モデルメモリ９上の発声変形モデルと前記継続時間パラメータ変更手段により継続時間パラメータを変更された変形なし音声標準パタンとを用いて、前記発声変形音声特徴ベクトル時系列に対する音声認識処理を実行する発声変形音声認識手段である。１３は発声変形音声認識手段からの音声認識処理の認識結果である。
【０００９】
また、図１９は、発声変形モデル学習手段５の構成図の一例である。
１４は初期状態においては前記発声変形なし音声標準モデルメモリ６上の音声標準モデル７を読み込み保持する音声標準モデルバッファ、１５は前記音声標準モデルバッファ１４上の音声標準モデルを用いて、入力される発声変形音声特徴ベクトル時系列３における音声標準モデルのセグメントデータを求めるセグメントデータ作成手段、１６はこのセグメントデータと前記音声標準モデルバッファ１４上の音声標準モデルと前記発声変形なし音声標準モデルメモリ６上の音声標準モデル７とを用いて発声変形モデルの各パラメータを求めるパラメータ演算手段、１７は前記パラメータ演算手段１６の出力であるところの発声変形モデルを記憶する発声変形モデルバッファ、１８ａは前記発声変形モデルバッファ１７上の発声変形モデルを用いて、前記音声標準モデルに対するスペクトル変形処理を施し、前記音声標準モデルバッファ１４上に書き込むスペクトル変形手段である。
【００１０】
また、図２０は、発声変形音声認識手段１２の構成図の一例である。
１８ｂは前記発声変形モデルメモリ９に格納されている発声変形モデルを用いて、継続時間パラメータ変更手段１１を介して入力される発声変形なし音声標準モデルメモリ６に格納されている音声標準モデルに対し、音韻スペクトルの変形処理を施すスペクトル変形手段である。
【００１１】
１９はこのスペクトル変形手段１８ｂの出力であるところの変形音声標準モデルと継続時間パラメータ変更手段１１を介して入力される前記音声標準モデルとを合成し、混合型音声標準モデルを生成する音声モデル合成手段、２０はこの音声モデル合成手段１９の出力であるところの混合型音声標準モデルを用いて、入力されてくる発声変形音声特徴ベクトル時系列３に対する尤度データを演算する尤度演算手段、２１はこの尤度演算手段２０の出力であるところの尤度データを用いて、照合処理を行い認識結果１３を出力する照合手段である。
すなわち、本実施例では、スペクトル変形手段１８ｂの出力する変形音声標準モデルと、継続時間パラメータ変更手段１１を介して入力される前記音声標準モデルとから、前記発声変形音声特徴ベクトル時系列３に対する尤度を計算し、この尤度に基づく認識結果を出力する発声変形音声照合手段が、前記尤度演算手段２０、照合手段２１により構成されている。
【００１２】
次に動作について、連続分布型音素片ＨＭＭによる離散単語認識の場合を例に取り説明を行う。
発声変形なし音声標準モデルメモリ６には、音声標準モデルとして、発声変形のない音声データを用いて学習した音素片ＨＭＭと、その継続時間パラメータであるところの音素片継続時間の平均と分散とが格納されている。認識対象語彙であるところの単語を表すモデルは、音素片ＨＭＭの連鎖により表現されている。連鎖は、発声変形なし音声標準モデルメモリ６に記憶されている。連鎖は、発声変形なし音声標準モデルメモリ６から尤度計算手段２０を経て照合手段２１に入力されて用いられる。
【００１３】
また、継続時間変動量メモリ１０には、予備学習によって得られているところの各音素片の平均継続時間と、継続時間の分布における標準偏差についての変形なし音声と発声変形音声との比を、複数話者についての平均した値が継続時間変動量データとして格納されている。
【００１４】
まず、発声変形モデルの学習動作について説明する。
入力端１より入力された発声変形モデル学習用であるところのカテゴリ既知の発声変形音声信号は、音響分析手段２により音響分析され、発声変形音声特徴ベクトル時系列３に変換される。発声変形モデル学習時には、スイッチ４はａ側に入れられており、該発声変形音声特徴ベクトル時系列３は発声変形モデル学習手段５に入力される。
発声変形モデル学習手段５における動作を図２１の動作フロー図に沿って説明する。
【００１５】
発声変形モデル学習手段５では、まず初期化処理として、学習における繰り返し処理の回数をカウントするループカウンタをステップＳ１において０にクリアし、ついでステップＳ２において前記発声変形なし音声標準モデルメモリ６上の音声標準モデル７を音声標準モデルバッファ１４に読み込む。
【００１６】
セグメントデータ作成手段１５は、ステップＳ３において、前記音声標準モデルバッファ１４上の音声標準モデルを用いて、カテゴリ既知の前記発声変形音声特徴ベクトル時系列３に対する各音素片のセグメントデータを、当該カテゴリの単語音声モデルとのビタビパスから求める。パラメータ演算手段１６は、ステップＳ４において、該セグメントデータから得られる、音声標準モデル７の各音素片ＨＭＭと発声変形音声特徴ベクトル時系列３の各特徴ベクトルとの対応づけに従い、音素片ＨＭＭの平均ベクトルを表すスペクトル包絡７０、発声変形音声特徴ベクトルを表すスペクトル包絡３０及び音声標準モデルバッファ上の音素片ＨＭＭの平均ベクトルを表すスペクトル包絡７０ａを用いて、発声変形モデルの各パラメータを計算する。ループカウンタの値が０の場合には、音声標準モデル７から出力される音素片ＨＭＭの平均ベクトルを表すスペクトル包絡７０と、音声標準モデルバッファ上の音素片ＨＭＭの平均ベクトルを表すスペクトル包絡７０ａは同じものである。得られたパラメータは、発声変形モデルバッファ１７に書き込まれる。
図２２に示すように、発声変形音声特徴ベクトルのスペクトル包絡３０と発声変形なし音声標準モデルのスペクトル包絡７０は差があり、この差をパラメータ演算手段１６が以下に述べる３つのパラメータを用いて、発声変形モデルとして演算し記憶する。
図２３にパラメータ演算手段が出力するパラメータを図示する。
パラメータ演算手段１６は、発声変形音声特徴ベクトルを表すスペクトル包絡３０及び音声標準モデルバッファ上の音素片ＨＭＭの平均ベクトルを表すスペクトル包絡７０ａ（ループカウンタが０の場合には、スペクトル包絡７０と同じもの）をＤＰマッチングのアルゴリズムを用いてマッチングさせ、非線形伸縮関数（フリーケンシーワーピングファンクション）を検出する。この非線形伸縮関数は、ホルマントの移動を示すパラメータである。次に、パラメータ演算手段は、非線形伸縮関数を用いてスペクトル包絡７０に対してスペクトル変形をかけ、スペクトル包絡３０との差分を取り、平均差分スペクトルを求める。更に、平均差分スペクトルから全体傾斜の変化及びバンド幅の変化を求める。このようにして、パラメータ演算手段は、（１）ホルマントの移動を示す非線形伸縮関数（以下、パラメータＨという）、（２）全体傾斜の変化（以下、パラメータＴという）、（３）バンド幅の変化（以下、パラメータＱという）という３つのパラメータを算出し、この３つのパラメータを発声変形モデル８として記憶する。
【００１７】
ステップＳ５でループカウンタに１を加え、ステップＳ６において、ループカウンタ値が予め与えられている所定のループ数最大値との大小比較を行う。所定の値に達していれば、発声変形モデルバッファ上の発声変形モデルを前記発声変形モデルメモリ９に書き出して学習動作を終了する。
【００１８】
所定の値に達しない場合は、ステップＳ７としてスペクトル変形手段１８ａが、前記発声変形モデルバッファ１７上に保持されている発声変形モデルを用いて、前記音声標準モデルの平均ベクトルに対し変形処理を施し、変形された音声標準モデルとして前記音声標準モデルバッファ１４上に上書きする。スペクトル変形手段１８ａが行う変形処理は、図２４，図２５，図２６に示すように、パラメータ演算手段１６が求めた３つのパラメータを用いて、音声標準モデルのスペクトル包絡７０に対して変形処理を行うものである。
図２４は、スペクトル包絡７０に対して、非線形伸縮関数Ｈを用いてホルマントの移動を施す変形処理を示している。
図２５は、スペクトル包絡７０に対して、全体傾斜の変化を示すパラメータＴを用いてスペクトル包絡の傾斜を修正する処理を示している。
図２６は、スペクトル包絡７０に対して、バンド幅の変化を示すパラメータＨを用いて修正処理を施す場合を示している。
このようにして、変形処理をされたスペクトル包絡は、変形された音声標準モデルを表すスペクトル包絡７０ａとして、音声標準モデルバッファ１４に書き込まれる。ついで、ステップＳ３の処理に戻る。スペクトル変形手段１８ａは、繰り返し発声変形モデルを作成し、パラメータ演算手段が入力された発声変形音声特徴ベクトルとのマッチングを繰り返し行うことにより、次第に学習効果が高まっていく。
以上の動作により発声変形モデルが学習され、発声変形モデルメモリ９上に格納される。
【００１９】
次に、認識時の動作について説明する。
入力端１より入力されたカテゴリ未知の発声変形音声信号は、音響分析手段２により音響分析され、発声変形音声特徴ベクトル時系列３に変換される。未知入力発声変形音声を認識する際には、スイッチ４はｂ側に入れられ、該発声変形音声特徴ベクトル時系列３は、発声変形音声認識手段１２に入力される。
【００２０】
継続時間パラメータ変更手段１１は、前記発声変形なし音声標準モデルメモリ６上の音素片ＨＭＭの継続時間パラメータを、継続時間変動量メモリ１０上に保持されている各音素片の継続時間変動量データに従って変更する。
発声変形音声認識手段１２において、スペクトル変形手段１８ｂは、継続時間パラメータ変更手段１１を介して入力される前記発声変形なし音声標準モデルメモリ６上の音声標準モデル７を構成する各音素片ＨＭＭの平均ベクトルに対し、前記発声変形モデルメモリ９に格納されている発声変形モデルを用いてスペクトル変形処理を施す。このスペクトル変形手段１８ｂの動作は、前述したスペクトル変形手段１８ａと同じである。即ち、スペクトル変形手段１８ｂは、図２４，図２５，図２６に示した３つのパラメータを発声変形モデルメモリ９から入力する。そして、継続時間パラメータ変更手段１１から入力した音声標準モデル７のスペクトル包絡に対して、図２４，図２５，図２６に示した３つの変形処理を行い、発声変形音声モデルに基づくスペクトル包絡を音声モデル合成手段１９へ出力する。スペクトル変形手段１８ｂは、発声変形モデルメモリ９に記憶された既に学習された音素片に対してはスペクトル変形を行えるが、発声変形モデルメモリ９に記憶されていない未学習の音素片に対してはスペクトル変形を行わない（行えない）。
【００２１】
音声モデル合成手段１９は、継続時間パラメータ変更手段１１を介して入力される前記発声変形なし音声標準メモリ６に格納されている音声標準モデル７を構成する音素片ＨＭＭと、これに対しスペクトル変形手段１８ｂでスペクトル変形処理を施されて得られた発声変形音声標準モデルであるところの発声変形音素片ＨＭＭとを用い、等しい分岐確率を持つ２混合の連続分布型音素片ＨＭＭを生成する。
【００２２】
尤度演算手段２０は、前記発声変形音声特徴ベクトル時系列３の各特徴ベクトルと、前記音声モデル合成手段１９の出力であるところの混合連続分布型音素片ＨＭＭとの尤度演算を行い、得られた尤度データを出力する。照合手段２１は、該尤度データを用いて認識語彙の単語音声を表す音素片の連鎖に従い、各単語に対する単語尤度をビタビ演算もしくはトレリス演算により求め、この単語尤度が最大になる単語のカテゴリを認識結果１３として出力する。
以上の動作により、カテゴリ未知の発声変形音声の認識が実行され、その認識結果が得られる。
【００２３】
【発明が解決しようとする課題】
従来の装置は以上のように構成されているため、発声変形モデル学習用の発声変形音声データの中に含まれない音素片に対応する発声変形モデルは学習することができず、すべての発声変形モデルを生成するためには、大量の学習用発声変形音声データを必要とするという問題があった。
【００２４】
また、学習用発声変形音声データの中にある音素片であっても、発声変形モデル学習用の発声変形音声データが少ない場合、偏倚した発声変形モデルが生成されてしまい、認識性能の劣化要因になっていた。
【００２５】
また、音素片の継続時間変動量データを求めるためには、すべての音素片を含む発声変形音声データを複数の話者について収集しなくてはならず、莫大なコストが必要となるという問題があった。加えて、継続時間変動量の話者依存性が無視されているため、十分な認識性能が得られない場合もあった。
【００２６】
本発明は上記の問題を解決するためになされたもので、音声標準モデルに対するスペクトル変形処理において、学習がなされた発声変形モデルを１個以上用いるようにする事で、少ない学習用発声変形音声データでもすべての音声標準モデルに対する変形処理を可能にすることを目的としている。また、発声変形モデルの学習処理においても同様に、学習がなされた発声変形モデルを１個以上用いるようにすることで、少ない学習用発声変形音声データでも偏倚の小さい発声変形モデルの生成を可能にすることを目的としている。
【００２７】
加えて、発声変形モデルの学習時に継続時間データを抽出し、これを用いて継続時間変動量を学習する機能を持たせることで、継続時間変動量データの作成にかかるコストを減らし、同時に、継続時間変動量の話者依存性による認識精度劣化に対処することを目的としている。
【００２８】
【課題を解決するための手段】
この発明に係る発声変形音声認識装置は、
入力音声信号に対し音響分析を行い発声変形音声特徴ベクトル時系列を出力する音響分析手段と、
発声変形のない音声データで学習した音声標準モデルを記憶する発声変形なし音声標準モデルメモリと、
発声変形された音声に生じる音韻スペクトルの変形を表現する発声変形モデルを記憶する発声変形モデルメモリと、
前記発声変形モデルメモリに格納されている１以上の発声変形モデルを用いて、前記発声変形なし音声標準モデルメモリに格納されている音声標準モデルに対し、変形音声標準モデルを作成して前記音響分析手段から出力される発声変形音声特徴ベクトル時系列に対する音声認識結果を出力する音声認識手段とを備えたことを特徴とする。
【００２９】
上記音声認識手段は、発声変形モデルメモリに記憶された複数の発声変形モデルを用いて、前記発声変形なし音声標準モデルメモリに格納されている音声標準モデルに対し、スペクトルの変形処理を施し変形音声標準モデルとして出力するスペクトル変形手段と、
このスペクトル変形手段の出力する変形音声標準モデルと前記発声変形なし音声標準モデルメモリに記憶された音声標準モデルとの合成を行う音声モデル合成手段と、
この音声モデル合成手段の出力する合成モデルを用いて、前記音響分析手段から出力される発声変形音声特徴ベクトル時系列に対する尤度を計算し、この尤度に基づく認識結果を出力する発声変形音声照合手段とを備えたことを特徴とする。
【００３０】
上記発声変形音声認識装置は、更に、この発声変形なし音声標準モデルメモリに記憶された音声標準モデルと、発声変形された音声信号が前記音響分析手段に入力された場合に出力される発声変形音声特徴ベクトル時系列とから、発声変形された音声に生じる音韻スペクトルの変形を表現する発声変形モデルと学習して、発声変形モデルメモリに出力する発声変形モデル学習手段とを備えたことを特徴とする。
【００３１】
この発明に係る発声変形音声認識装置は、
入力音声信号に対し音響分析を行い発声変形音声特徴ベクトル時系列を出力する音響分析手段と、
発声変形のない音声データで学習した音声標準モデルを記憶する発声変形なし音声標準モデルメモリと、
この発声変形なし音声標準モデルメモリに記憶された音声標準モデルと、発声変形された音声信号が前記音響分析手段に入力された場合に出力される発声変形音声特徴ベクトル時系列とから、発声変形された音声に生じる音韻スペクトルの変形を表現する発声変形モデルを１以上の発声変形モデルに基づいて学習する発声変形モデル学習手段と、
この発声変形モデル学習手段により学習された発声変形モデルを記憶する発声変形モデルメモリとを備えたことを特徴とする。
【００３２】
前記発声変形モデル学習手段は、
前記発声変形なし音声標準モデルメモリに記憶されている音声標準モデルを一時的に保持する音声標準モデルバッファと、
この音声標準モデルバッファに保持された音声標準モデルを用いて、前記音響分析手段からの発声変形音声特徴ベクトル時系列における各音声標準モデルのセグメントデータを求めるセグメントデータ作成手段と、
このセグメントデータ作成手段からのセグメントデータと、前記音声標準モデルバッファに保持された音声標準モデルと、前記発声変形なし音声標準モデルメモリに記憶された音声標準モデルとを用いて、発声変形モデルのパラメータを求めるパラメータ演算手段と、
このパラメータ演算手段の出力する発声変形モデルのパラメータを保持する発声変形モデルバッファと、
この発声変形モデルバッファに保持された複数の発声変形モデルのパラメータを用いて、前記発声変形なし音声標準モデルメモリの音声標準モデルに対しスペクトル変形処理を施し、前記音声標準モデルバッファに書き込むスペクトル変形手段とにより構成されたことを特徴とする。
【００３３】
上記発声変形音声認識装置は、更に、この発声変形モデルメモリに記憶された発声変形モデルと、前記発声変形なし音声標準モデルメモリに格納されている音声標準モデルとを用いて、前記音響分析手段から出力される発声変形音声特徴ベクトル時系列に対する音声認識結果を出力する音声認識手段とを備えたことを特徴とする。
【００３４】
上記発生変形音声認識装置は、更に、音声標準モデル間のスペクトルの近似を示す重みを算出して算出した重みを記憶する重み記憶手段を備え、上記スペクトル変形手段は、上記重み記憶手段が記憶した重みの大きい順に学習済みの複数の発声変形モデルを選択してスペクトルの変形処理を行うことを特徴とする。
【００３５】
上記重み記憶手段は、自己の音声標準モデルに対して最大の重みを付すことを特徴とする。
【００３６】
上記スペクトル変形手段は、選択した複数の発声変形モデルの各々を用いてスペクトル変形処理を行い、その平均値を算出し、変形音声標準モデルとする平均値算出手段を備えたことを特徴とする。
【００３７】
上記平均値算出手段は、上記重みを用いて平均値を算出することを特徴とする。
【００３８】
上記スペクトル変形手段は、既に学習がなされた発声変形モデルに対応する音声標準モデルに対して、既に学習がなされた発声変形モデルとその他の発声変形モデルを用いてスペクトル変形処理をすることを特徴とする。
【００３９】
上記スペクトル変形手段は、未学習の発声変形モデルに対応する音声標準モデルに対して、既に学習がなされた発声変形モデルを複数用いてスペクトル変形処理をすることを特徴とする。
【００４０】
この発明に係る発声変形音声認識装置は、
入力音声信号に対し音響分析を行い発声変形音声特徴ベクトル時系列を出力する音響分析手段と、
発声変形のない音声データで学習した音声標準モデルを記憶する発声変形なし音声標準モデルメモリと、
この発声変形なし音声標準モデルメモリに記憶された音声標準モデルと、発声変形された音声信号が前記音響分析手段に入力された場合に出力される発声変形音声特徴ベクトル時系列とから、発声変形された音声に生じる音韻スペクトルの変形を表現する発声変形モデルを学習する発声変形モデル学習手段と、
音声を構成する要素の継続時間変動量を記憶する継続時間変動量メモリと、
前記発声変形モデル学習手段から出力される発声変形モデルと前記発声変形なし音声標準モデルメモリに記憶された音声標準モデルとから、音声標準モデルにおける音声を構成する要素の継続時間の変動量を求め、前記継続時間変動量メモリに記憶させる継続時間変動量学習手段とを備えたことを特徴とする。
【００４１】
上記発生変形音声認識装置は、更に、発声変形モデル学習手段により学習された発声変形モデルを記憶する発声変形モデルメモリと、
継続時間変動量メモリに記憶された継続時間変動量に基づき前記発声変形なし音声標準モデルメモリ上に格納されている音声標準モデルの継続時間パラメータの補正を行う継続時間パラメータ変更手段と、
継続時間パラメータ変更手段により継続時間パラメータが補正された前記音声標準モデルと前記発声変形モデルメモリに記憶された発声変形モデルとを用いて、前記音響分析手段から出力される発声変形音声特徴ベクトル時系列に対する音声認識結果を出力する音声認識手段とを備えたことを特徴とする。
【００４２】
この発明に係る発声変形音声認識装置は、継続時間変動量学習手段において、求める継続時間の変動量を母音部について求めるようにしたことを特徴とする。
【００４３】
この発明に係る発声変形音声認識装置は、継続時間変動量学習手段において、「あ」「い」「う」「え」「お」の５母音について平均した継続時間変動量を求めるようにしたことを特徴とする。
【００４４】
この発明に係る音声認識方法は、以下の工程を備えたことを特徴とする。
（ａ）複数の音声標準モデルと上記音声標準モデルの一部に対する発声変形モデルと音声標準モデル間の近似を示す重みとを予め記憶する工程、
（ｂ）上記複数の音声標準モデルの中の１つの音声標準モデルに対して、上記重みの大きい順に１つ以上の発声変形モデルを選択し、選択した発声変形モデルを用いてスペクトル変形を行う工程、
（ｃ）上記複数の発声変形モデルによるスペクトル変形の結果の平均値を上記音声標準モデルの変形音声標準モデルとして出力する工程、
（ｄ）発声変形のある音声データと、上記変形音声標準モデルを入力し、音声データと変形音声標準モデルとを比較して比較結果を出力する照合工程。
【００４５】
上記音声認識方法は、更に、上記照合工程の比較結果を入力して、音声を認識する工程を備えたことを特徴とする。
【００４６】
上記音声認識方法は、更に、上記照合工程の比較結果を入力して、発声変形モデルを学習する学習工程を備えたことを特徴とする。
【００４７】
この発明に係る音声認識方法は、以下の工程を備えたことを特徴とする。
（ａ）入力音声信号に対し音響分析を行い発声変形音声特徴ベクトル時系列を出力する工程、
（ｂ）発声変形のない音声データで学習した音声標準モデルを記憶する工程、
（ｃ）この記憶された音声標準モデルと、発声変形音声特徴ベクトル時系列とから、発声変形された音声に生じる音韻スペクトルの変形を表現する発声変形モデルを学習する工程、
（ｄ）前記発声変形モデルと前記音声標準モデルとから、音声標準モデルにおける音声を構成する要素の継続時間の変動量を求め、前記継続時間変動量として記憶させる工程、
（ｅ）この継続時間変動量に基づき前記音声標準モデルの継続時間パラメータの補正を行う工程、
（ｆ）この継続時間パラメータが補正された前記音声標準モデルと前記発声変形モデルとを用いて、前記発声変形音声特徴ベクトル時系列に対する音声認識結果を出力する工程。
【００４８】
【発明の実施の形態】
実施の形態１．
図１は、この発明に係る音声認識システムの構成図である。
発声変形音声認識システム６０は、ディスプレイユニット６１、キーボード６２、マウス６３、マウスパット６４、システムユニット６５、マイク６６、音声認識装置１００を備えている。この発明の音声認識システムは、例えば、図１に示すように、マイク６６から入力した音声を音声認識装置１００で認識し、認識した音声をシステムユニット６５に転送し、ディスプレイユニット６１に文字として表示するものである。しかし、この発明に係る音声認識システムは、このようにパーソナルコンピューターやワークステーションと一緒に用いられる必要はなく、以下に述べる音声認識装置１００が用いられるシステムであれば、どのような形式のものであっても良い。例えば、マイク６６の替わりにテープレコーダを入力装置にしても構わないし、ネットワークからの音声データを入力するようにしても構わない。また、入力するデータはアナログデータであっても構わないし、デジタルデータであっても構わない。また、音声認識装置１００は独立した筐体で存在しても構わないが、システムユニット６５の内部に納められているものでも構わないし、その他の測定機や計算機のシステムボードの一部分として存在している場合であっても構わない。また、認識結果を文字として表示する場合に限らず、認識結果に基づいてデータ検索や加工作業や測定作業を行わせるようにしても良い。
【００４９】
図２は、図１に示した音声認識装置１００の構成を示すブロック図である。
図２において、従来の音声認識装置と異なる点は、改良された発声変形音声認識手段１２０が備えられている点である。
図３は、この発明に関わる発声変形音声認識装置に使われる発声変形音声認識手段１２０の一実施の形態の構成を表すブロック図である。
図において、６は発声変形のない音声標準モデルを格納する発声変形なし音声標準モデルメモリ、９は発声変形モデル学習により得られた発声変形モデルを格納する発声変形モデルメモリ、２２ａは前記発声変形なし音声標準モデルメモリ６に格納されている音声標準モデルに対し、前記発声変形モデルメモリ９に格納されている発声変形モデルを用いて、音韻スペクトルの変形処理を施す平滑型スペクトル変形手段である。
【００５０】
１９は前記平滑型スペクトル変形手段２２ａの出力であるところの変形音声標準モデルと、前記音声標準モデルとを合成し、混合型音声標準モデルを生成する音声モデル合成手段、２０はこの音声モデル合成手段１９の出力であるところの混合型音声標準モデルを用いて、入力された発声変形音声特徴ベクトル時系列に対する尤度を演算する尤度演算手段、２１はこの尤度演算手段２０の出力であるところの尤度データを用いて、照合処理を行い認識結果を出力する照合手段である。
【００５１】
次に、動作について説明する。従来例と同じく連続分布型音素片ＨＭＭによる離散単語認識の場合を例に取り説明を行う。
発声変形なし音声標準モデルメモリ６には、発声変形のない音声データを用いて学習した音素片ＨＭＭが音声標準モデルとして格納されている。認識対象語彙であるところの単語を表すモデルは音素片ＨＭＭの連鎖により表現されている。従来例と重複する部分は説明を省略する。
【００５２】
この実施の形態の平滑型スペクトル変形手段２２ａは、前記発声変形モデルメモリ９に格納されている学習がなされた発声変形モデルを１個以上用いて、前記発声変形なし音声標準モデルメモリ６に格納されている音声標準モデルを構成するすべての音素片ＨＭＭについて、該音素片ＨＭＭの平均ベクトルに対し、ロンバード効果によるスペクトルの変形処理を施すことができるようになっている。この平滑型スペクトル変形手段２２ａにおけるスペクトル変形処理は、下式（１）のように表される。
【００５３】
【数１】

【００５４】
但し、音声標準モデルにおける第ｉ音素片の平均ベクトルをＸｉ、該平滑型スペクトル変形手段２２ａにより変形処理された後の同第ｉ音素片の平均ベクトルをＹｉ、発声変形モデルの学習がなされた第ｊ音素片に対応する該発声変形モデルによる第ｉ音素片の平均ベクトルに対するスペクトル変形処理をＭｊ（Ｘｉ）とする。ｊについての総和は、重み係数Ｗ（ｉ，ｊ）が大きいものからｎ個分（ｎ≧１）行い、発声変形モデルの学習ができた音素片の総数に対し、一定の割合に達したところで打ち切る。この割合を制御することで、第ｉ音素片に対するスペクトル変形処理に用いる学習済み発声変形モデルの数を変えることができる。
【００５５】
重み係数Ｗ（ｉ，ｊ）は、第ｉ音素片の平均ベクトルＸｉと第ｊ音素片の平均ベクトルＸｊとの間で定義される距離ｄ（Ｘｉ，Ｘｊ）に逆比例するように定義される。即ち、重み係数が大きいと、スペクトル包絡が近似していることを示している。重み係数の一例を下式（２）に示す。
【００５６】
【数２】

【００５７】
ここで、ｐとｑは、距離ｄ（Ｘｉ，Ｘｊ）に対する重み係数Ｗ（ｉ，ｊ）を制御するパラメータでともに正の値を取る。また、距離ｄ（Ｘｉ，Ｘｊ）は、第ｉ音素片の平均ベクトルと第ｊ音素片の平均ベクトルとの間で定義される適当な距離尺度で、例えば、ケプストラムのユークリッド距離やＷＬＲ距離尺度などがある。
【００５８】
次に、この実施例の具体例について図４から図７を用いて説明する。
図４は、音声標準モデルの平均ベクトルＸｉを示す図である。
ここでは、音素片の種類が全部で３００種類ある場合を示している。音声標準モデルは、全ての音素片に対して平均ベクトルＸ１からＸ３００を予め登録してある。
図５は、学習の結果、発声変形モデルとして記憶された音素片のパラメータＨ，Ｔ，Ｑを示す図である。
３００種類ある音素片の中で、学習できたものと学習できないものが存在している。例えば、第３音素片及び第２９９音素片は、未だ学習されていない状態を示している。
図６は重み係数を示す図である。
重み係数は、図７に示すように、第ｉ音素片の平均ベクトルＸｉと第ｊ音素片の平均ベクトルＸｊとの距離に基づいて求めたものである。図７においては、平均ベクトルＸｉとＸｊの差分の平方を距離としている。この距離を用いて、前述した式（２）から重み係数を計算した場合の一例を図６に示す。ｐ＝１及びｑ＝１とした場合には、第ｉ音素片同士の距離ｄ（Ｘｉ，Ｘｉ）は０になり、第ｉ音素片の重み係数Ｗ（ｉ，ｉ）＝（０＋１）^-1＝１^-1＝１となる。ここで、式（１）を用いて未学習の第２音素片の平均ベクトルＹ２を求める場合を考える。ここで、式（１）におけるｊについての総和の個数ｎを２（ｎ＝２）とする。また、図６において、第２音素片の中で重み係数の大きい上位２つの音素片を第１と第３の音素片であるものとする。ここで、第２の音素片の重み係数は１．０であり、重み係数が最大値を示しているが、自分自身の発声変形モデルが存在していない。従って、自分自身の発声変形モデルを計算する際には、自分自身を用いることはできない。そこで、重み係数が自分自身を除くものの中で、最大値及び次に大きな値を示す２つの音素片を用いることになる。従って、図４に示す音声標準モデルの第２音素片の平均ベクトルＸ２に対して、図５に示す発声変形モデルの第１音素片のパラメータＨ１，Ｔ１，Ｑ１を用いて、スペクトル変形処理を行い、Ｍ１（Ｘ２）を求める。同様にして、平均ベクトルＸ２に対して、第３音素片のパラメータＨ３，Ｔ３，Ｑ３を用いてスペクトル変形処理を行い、Ｍ３（Ｘ２）を求める。このようにして、第２音素片の発声変形後の平均ベクトルＹ２を以下の式で求めることができる。
Ｙ２＝｛０．９Ｍ１（Ｘ２）＋０．８Ｍ３（Ｘ２）｝／（０．９＋０．８）
【００５９】
前述した例においては、発声変形モデルが未学習である場合について説明したが、発声変形モデルが既に学習済みのものに対しても、前述したアルゴリズムを適用することが望ましい。例えば、図５において、第１音素片のパラメータは、既に学習済みとなっているが、平滑形スペクトル変形手段２２ａは、例えば、ｊについての総和の個数ｎ＝２の場合は、図６に示すように第１音素片の中で重み係数の最大値と次の音素片のパラメータを用いて、変形処理がされた第１音素片の平均ベクトルＹ１を生成する。この図６に示す例では、第１音素片は、自分自身であるため、重み係数が最大値である１．０を示している。また、２番目に大きい重み係数を第２音素片の０．９であるとすると、平滑型スペクトル変形手段２２ａは、第１音素片のパラメータＨ１，Ｔ１，Ｑ１と第２音素片のパラメータＨ２，Ｔ２，Ｑ２を用いて、第１音素片の平均ベクトルに対するスペクトル変形処理をそれぞれ行い、式（１）を用いて第１音素片の変形処理された後の平均ベクトルＹ１を出力する。
このように、この実施の形態においては、既に発声変形モデルの学習がされた音素片のスペクトル変形を行う場合にも、重み係数によりスペクトルが近似している音素片の発声変形モデルのパラメータも加味して、スペクトル変形を行う点がこの実施例の大きな特徴である。このように、他の音素片の変形様態を考慮することにより、偏りのないスペクトル変形処理を行える。
【００６０】
図８は、前述した平滑型スペクトル変形手段２２ａのスペクトル変形手順を示すフローチャート図である。
ステップＳ１１において、スペクトル変形を行う第ｉ音素片を音声標準モデルから取得する。ステップＳ１２において、第ｉ音素片と似通った音素片を探すため重み変数を参照し、第ｊ音素片を検出する。ステップＳ１３において、検出した第ｊ音素片が音声変形モデルに既に学習済みとしてパラメータが登録されているかどうかをチェックする。パラメータが登録されていない場合には、再びステップＳ１２に戻り、次に値の大きい重み変数に基づき別な音素片を検出する。ステップＳ１３において、第ｊ音素片が学習済みである場合は、第ｊ音素片のパラメータＨｊ，Ｔｊ，Ｑｊを用いて、第ｉ音素片のスペクトル変形処理を行う。
ステップＳ１５においては、前述した式（１）の分子と分母をそれぞれ計算する。ステップＳ１６においては、前述したステップＳ１２からステップＳ１５の処理をｎ回繰り返す判断を行う。ステップＳ１６において、ｎ回処理が済んだと判断された場合には、ステップＳ１７において式（１）からＹｉを計算する。
【００６１】
図８に示したフローチャート図によれば、ステップＳ１１で取得した第ｉ音素片は、既に学習済みであるかどうかを問わず、以下のステップＳ１２からステップＳ１７の処理を行うようになっている。従って、ｎ≧２であれば、学習済みの音素片に対しても、他の音素片の学習済みのパラメータが反映されることになる。また、既に第ｉ音素片が学習済みの場合であって、ｎ≧２の場合は、ステップＳ１２において、最初に選択される第ｊ音素片は常に第ｉ音素片自身であり、ステップＳ１３において、第ｉ音素片が学習済みであると判断されることから、ステップＳ１４とステップＳ１５の処理は、第ｉ音素片のパラメータを用いて、第ｉ音素片のスペクトル変形処理を行うことになる。ステップＳ１６によって生ずる２回目からｎ回目までのループ処理では、ステップＳ１４において、第ｉ音素片に対して第ｉ音素片以外の第ｊ音素片の学習済みパラメータを用いて第ｉ音素片に対するスペクトル変形処理が行われ、ステップＳ１５において、第ｊ音素片に基づく変形が加算される。
もし、既に第ｉ音素片が学習済みの場合であって、かつ、ｎ＝１の場合は、第ｉ音素片の学習済みパラメータのみが第ｉ音素片に対するスペクトル変形処理に用いられる。もし、第ｉ音素片が未学習の場合であって、かつ、ｎ＝１の場合は、第ｉ音素片以外の第ｊ音素片の学習済みパラメータを用いて第ｉ音素片に対するスペクトル変形処理が行われる。
【００６２】
上記のような処理を行うことで、スペクトル距離の近い音素片におけるスペクトル変形の様態を考慮したスペクトル変形処理が施される。これにより、発声変形モデルの学習がなされなかった音素片についてもスペクトル変形が可能になる。また、発声変形モデルの学習がなされた音素片もスペクトル距離が近い音素片の変形様態を考慮するので、発声変形モデルにおける偏倚の影響を受けにくいスペクトル変形処理が実現できる。
【００６３】
以上のように、発声変形音声認識手段において平滑型スペクトル変形手段は、発声変形モデルメモリに格納されている学習がなされた発声変形モデルを１個以上用いて、発声変形なし音声標準モデルメモリに格納されている音声標準モデルを構成するすべての音素片ＨＭＭについて、該音素片ＨＭＭの平均ベクトルに対し、ロンバード効果によるスペクトルの変形処理を施すようにしたので、発声変形モデルの学習がなされなかった音素片についてもスペクトル変形がなされ、変形が可能になる。
【００６４】
加えて、発声変形モデルの学習がなされた音素片のスペクトル変形においても、発声変形モデルの学習がなされた音素片を除く他の音素片の変形様態を考慮するので、発声変形モデルにおける偏倚の影響を受けにくいスペクトル変形処理が実現できる。この結果、高精度認識が実現できる。
【００６５】
実施の形態２．
図９は、音声認識装置１００ａのブロック図である。
実施の形態１の音声認識装置１００と異なる点は、改良された発声変形モデル学習手段５０を備えている点である。
図１０は、この発明に関わる発声変形音声認識装置に使われる発声変形モデル学習手段５０の一実施の形態の構成を表すブロック図である。
図において、１４は初期状態においては、発声変形なし音声標準モデルメモリ６に格納されている音声標準モデル７を読み込み保持する音声標準モデルバッファ、１５はこの音声標準モデルバッファ１４上の音声標準モデルを用いて、入力される発声変形音声特徴ベクトル時系列３における音声標準モデルのセグメントデータを求めるセグメントデータ作成手段、１６はこのセグメントデータと前記音声標準モデルバッファ１４上の音声標準モデルと前記発声変形なし音声標準モデルメモリ６上の音声標準モデル７とを用いて発声変形モデルの各パラメータを求めるパラメータ演算手段、１７はこのパラメータ演算手段１６の出力であるところの発声変形モデルを記憶する発声変形モデルバッファ、２２ｂはこの発声変形モデルバッファ１７上の発声変形モデルを用いて、前記発声変形なし音声標準モデルメモリ６に格納されている音声標準モデル７すべてに対しスペクトル変形処理を施し、前記音声標準モデルバッファ１４に書き込む平滑型スペクトル変形手段である。
【００６６】
次に、動作について説明する。従来例と同じく連続分布型音素片ＨＭＭによる離散単語認識の場合を例に取り説明を行う。
発声変形なし音声標準モデルメモリには、発声変形のない音声データを用いて学習した音素片ＨＭＭが音声標準モデルとして格納されている。認識対象語彙であるところの単語を表すモデルは、音素片ＨＭＭの連鎖により表現されている。従来例と重複する部分は、説明を省略する。
【００６７】
発声変形モデル学習手段５０における平滑型スペクトル変形手段２２ｂは、前記発声変形モデルバッファ１７に書き込まれた発声変形モデルを１個以上用いて、前記発声変形なし音声標準モデルメモリ６に格納されている音声標準モデル７を構成するすべての音素片ＨＭＭについて、該音素片ＨＭＭの平均ベクトルに対し、ロンバード効果によるスペクトルの変形処理を施す。
【００６８】
この平滑型スペクトル変形手段２２ｂにおけるスペクトル変形処理は、前記実施の形態１における発声変形音声認識手段１２０における平滑型スペクトル変形手段２２ａと同じである。平滑型スペクトル変形手段２２ｂは、発声変形モデル内に未学習の音素片がある場合には、重み係数の大きい音素片、即ち未学習である音素片とより似たスペクトルを持つ他の音素片のパラメータを用いてスペクトル変形を行う。また、音声標準モデルの中に、既に学習済みであると登録されている音素片に対しても自分自身と、自分自身及び自分自身に似たスペクトルを持つ音素片のパラメータを用いて、スペクトル変形を行うものである。発声変形モデル学習手段５０は、スペクトルの変形処理を複数回繰り返して行い、最終的に発声変形モデルのパラメータＨ，Ｔ，Ｑを出力する。
【００６９】
発声変形モデル学習手段５０において、平滑型スペクトル変形手段２２ｂを用いることで、図２１に示した発声変形モデル学習手段５の動作フロー中のステップＳ３におけるセグメントデータ作成において、発声変形モデルの偏倚によるセグメントデータの精度が向上し、発声変形モデルの高精度化とそれによる認識性能の向上が図れる。
【００７０】
以上のように、発声変形モデル学習手段において、平滑型スペクトル変形手段は、発声変形モデルバッファに書き込まれた発声変形モデルを１個以上用いて、発声変形なし音声標準モデルメモリに格納されている音声標準モデルを構成するすべての音素片ＨＭＭについて、該音素片ＨＭＭの平均ベクトルに対し、ロンバード効果によるスペクトルの変形処理を施すようにしたので、発声変形モデルの学習がなされた音素片のスペクトル変形においても、これを除く他の音素片の変形様態を考慮するので、発声変形モデルにおける偏倚の影響を受けにくいスペクトル変形処理が実現できる。この結果、発声変形モデル学習用の発声変形音声データに対するセグメントデータの精度が向上し、発声変形モデルの高精度化が実現され、認識性能の向上が図れる。
【００７１】
実施の形態３．
図１１は、実施の形態２に示した音声認識装置１００ａからスイッチ４と発声変形モデル学習手段５０を削除した音声認識装置１００ｂを示す図である。
図１１に示した音声認識装置１００ｂは、学習機能がなく予め学習した発声変形モデルを発声変形モデルメモリ９に備えているものである。この発声変形モデルは、フロッピーディスクからロードされたり、オンラインにより遠隔地から伝送されてきて発声変形モデルメモリに格納される。この装置は、音声を学習する手段を持たず、単に音声を認識する動作だけを行う。
【００７２】
図１２に示す音声認識装置１００ｃは、音声認識装置１００ａからスイッチ４と発声変形音声認識手段１２０と継続時間変動量メモリ１０と継続時間パラメータ変更手段１１を削除したものである。図１２に示す装置は、発声変形モデルを作成するための音声学習装置として用いることができる。この装置により、発声変形モデルを作成し、前述した図１１の音声認識装置に対してフロッピーディスクや通信回線を用いて、発声変形モデルを供給することができる。
【００７３】
実施の形態４．
図１３は、この発明に関わる発声変形音声認識装置の一実施の形態の構成を示すブロック図である。
図において、２４は発声変形モデル学習手段５０ａにおいて得られる発声変形モデル学習用音声に対する音声標準モデルのセグメントデータ２３と、発声変形なし音声標準モデルメモリ６に格納されている音声標準モデルとを用いて、各音声標準モデルについてロンバード効果による継続時間パラメータの変動量を求め、継続時間変動量メモリ１０に出力する継続時間変動量学習手段である。その他の構成要素は、前述の従来例と同一である。
図１４は、発声変形モデル学習手段５０ａを示すブロック図である。
発声変形モデル学習手段５０ａは、セグメントデータ２３を図１３に示す継続時間変動量学習手段２４へ出力する。
【００７４】
次に、動作について説明する。従来例と同じく連続分布型音素片ＨＭＭによる離散単語認識の場合を例に取り説明を行う。また、音素片継続時間による継続時間制御を例に取る。
発声変形なし音声標準モデルメモリ６には音声標準モデルとして、図１５に示すように、発声変形のない音声データを用いて学習した音素片ＨＭＭ，Ｘ１，Ｘ２，Ｘ３，・・・と、その継続時間パラメータである平均Ｎ１，Ｎ２，Ｎ３，・・・と分散σ１，σ２，σ３，・・・が格納されている。認識対象語彙であるところの単語を表すモデルは、音素片ＨＭＭの連鎖により表現されている。従来例と重複する部分は、説明を省略する。
【００７５】
継続時間変動量学習手段２４は、発声変形モデル学習手段５が発声変形モデルメモリ９に書き込む発声変形モデルの学習に用いた発声変形モデル学習用の発声変形音声データに対する音素片ＨＭＭのセグメントデータ２３を入力として、発声変形音声における音素片継続時間パラメータを演算し、発声変形なし音声標準モデルメモリ６に格納されている音声標準モデルの音素片ＨＭＭの継続時間パラメータとの比較を行い、図１６に示すような継続時間変動量データΔＮ１，ΔＮ２，・・・及びΔσ１，Δσ２，・・・を求め、継続時間変動量メモリ１０に書き込む。
【００７６】
継続時間変動量データΔＮ１，ΔＮ２，・・・及びΔσ１，Δσ２，・・・は、継続時間パラメータであるところの音素片継続時間の平均と分散について、発声変形音声と変形のない音声との差異を表現するもので、音素片継続時間の平均については、例えば、発声変形による伸縮倍率で表しても、伸縮時間で表現してもかまわず、また、その他の同様な効果を生むパラメータでもかまわない。同様に、音素片継続時間の分散についても、例えば、分散もしくは標準偏差の変動倍率で表現しても、変動量で表現してもかまわない。
【００７７】
これにより、継続時間変動量メモリ１０に格納される継続時間変動量データは、発声変形モデル学習用の発声変形音声における継続時間の変動を表現するものとなり、継続時間変動の話者依存性による認識精度の劣化を抑えることが可能になる。
【００７８】
以上のように、継続時間変動量学習手段は、発声変形モデル学習手段が発声変形モデルメモリに書き込む発声変形モデルの学習に用いた発声変形モデル学習用の発声変形音声データに対する音素片ＨＭＭのセグメントデータを入力として、発声変形音声における音素片継続時間パラメータを演算し、発声変形なし音声標準モデルメモリ６に格納されている音声標準モデルの音素片ＨＭＭの継続時間パラメータとの比較を行い、継続時間変動量データを求め継続時間変動量メモリ１０に書き込むようにしたので、継続時間変動量メモリ１０に格納される継続時間変動量データは、発声変形モデル学習用の発声変形音声における継続時間の変動を表現するものとなり、継続時間変動の話者依存性による認識精度の劣化を抑えることが可能になる。
【００７９】
また、継続時間変動量学習手段２４における継続時間変動量データを求める処理を、すべての音素片について行うのではなく、ロンバード効果による継続時間変動が顕著に現れる５母音の定常部ならびに各母音から語尾への過渡部にのみ限定することで、認識精度を落とすことなく、演算量の削減が図れる。
図１７は、音素について、５母音の継続時間変動量データを示している。
【００８０】
加えて、５母音の定常部及び各母音から語尾への過渡部の継続時間変動量データをそれぞれ５母音で平均し、母音定常部に共通の継続時間変動量データ及び母音から語尾への過渡部に共通の継続時間変動量データとすることで、発声変形モデル学習用の発声変形音声データが少量の場合においても、認識精度の低下を防ぐことができる。
５母音の継続時間変動量データの平均は、以下の式で求めることができる。
ΔＮ＝（ΔＮ１＋ΔＮ２＋ΔＮ３＋ΔＮ４＋ΔＮ５）／５
Δσ＝（Δσ１＋Δσ２＋Δσ３＋Δσ４＋Δσ５）／５
【００８１】
以上述べた全ての実施の形態において、その認識方式は連続分布型音素片ＨＭＭに制限されるものではなく、認識対象も単語に限らず、連続音声であってもかまわない。
【００８２】
また、継続時間制御における音声の構成要素の単位も音素片に限らず、音素、半音節、音節、単語などどのような単位もとりうる。加えて、発声変形モデルは、音素片ＨＭＭ毎に設定しているが、他の音声単位毎であっても、ＨＭＭの各状態毎もしくは複数の状態毎に設定してもかまわない。実現手法も専用ハードウェアに限らず、ソフトウェアであってもかまわない。
【００８３】
以上のように、この発明に係る発声変形音声認識装置は、発声変形モデルメモリに格納されている発声変形モデルを用いて、発声変形なし音声標準モデルメモリに格納されているすべての音声標準モデルに対し、スペクトルの変形処理を施し変形音声標準モデルとして出力する平滑型スペクトル変形手段を備え、学習がなされた発声変形モデルに対応する音声標準モデルについて、その発声変形モデルを含む学習済み発声変形モデルを用い、また発声変形モデル学習時に未学習となった発声変形モデルに対応する音声標準モデルについても、学習済み発声変形モデルを用いて、スペクトル変形処理が行われるようにしたものである。
この発明では、平滑型スペクトル変形手段は、発声変形モデルメモリに格納されている学習がなされた発声変形モデルを用いて、発声変形なし音声標準モデルメモリに格納されているすべての音声標準モデルに対して、スペクトルの変形処理を施すので、発声変形モデルの学習がなされなかった音素片についてもスペクトル変形がなされる。加えて、発声変形モデルの学習がなされた音素片のスペクトル変形においても、これを除く他の音素片の変形様態を考慮するので、発声変形モデルにおける偏倚の影響を受けにくいスペクトル変形処理が実現できる。この結果、高精度認識が実現できる。
【００８４】
また、この発明における発声変形音声認識装置は、発声変形モデル学習手段を、発声変形なし音声標準モデルメモリに記憶されている音声標準モデルを一時的に保持する音声標準モデルバッファと、この音声標準モデルバッファに保持された音声標準モデルを用いて、前記音響分析手段からの発声変形音声特徴ベクトル時系列における各音声標準モデルのセグメントデータを求めるセグメントデータ作成手段と、このセグメントデータ作成手段からのセグメントデータと、前記音声標準モデルバッファに保持された音声標準モデルと、前記発声変形なし音声標準モデルメモリに記憶された音声標準モデルとを用いて、発声変形モデルのパラメータを求めるパラメータ演算手段と、このパラメータ演算手段の出力する発声変形モデルのパラメータを保持する発声変形モデルバッファと、この発声変形モデルバッファに保持された発声変形モデルのパラメータを用いて、前記発声変形なし音声標準モデルメモリに記憶された音声標準モデルに対しスペクトル変形処理を施し、前記音声標準モデルバッファに書き込む平滑型スペクトル変形手段とで構成し、学習できた発声変形モデルに対応する音声標準モデルについてその発声変形モデルを含む学習済み発声変形モデルを用い、未学習の発声変形モデルに対応する音声標準モデルについても、学習できた発声変形モデルを用いて、スペクトル変形処理が行われるようにしたものである。
また、この発明では、発声変形モデル学習手段において、平滑型スペクトル変形手段は、発声変形モデルバッファに書き込まれた発声変形モデルを用いて、発声変形なし音声標準モデルメモリに格納されているすべての音声標準モデルについてスペクトルの変形処理を施すので、発声変形モデルの学習がなされた音素片のスペクトル変形においても、これを除く他の音素片の変形様態を考慮するので、発声変形モデルにおける偏倚の影響を受けにくいスペクトル変形処理が実現できる。この結果、発声変形モデル学習用の発声変形音声データに対するセグメントデータの精度が向上し、発声変形モデルの高精度化が実現され、認識性能の向上が図れる。
【００８５】
また、この発明における発声変形音声認識装置は、発声変形モデル学習手段から出力されるセグメントデータと、前記発声変形なし音声標準モデルメモリ上の音声標準モデルとを用いて、音声標準モデルにおける継続時間の変動量を求める継続時間変動量学習手段を備え、継続時間変動量学習手段の出力する継続時間変動量データを継続時間変動量メモリに記憶し、継続時間パラメータ変更手段が、前記発声変形なし音声標準モデルメモリ上に格納されている音声標準モデルに対し、前記継続時間変動量メモリ上の継続時間変動量データを用いて、継続時間についてのパラメータを変更するようにしたものである。
この発明では、継続時間変動量学習手段は、発声変形モデル学習手段が発声変形モデルメモリに書き込む発声変形モデルを入力として、発声変形音声における音声構成要素の継続時間を演算し、発声変形なし音声標準モデルメモリに格納されている音声標準モデルの継続時間の変動量を求め、継続時間変動量メモリに書き込むので、継続時間変動量メモリに格納される継続時間変動量は、発声変形モデル学習用の発声変形音声における継続時間の変動を表現するものとなり、継続時間変動の話者依存性による認識精度の劣化を抑えることが可能になる。
【００８６】
また、この発明における発声変形音声認識装置は、継続時間変動量学習手段において求める継続時間の変動量を母音部についてのみ求めるようにしたものである。
この発明では、継続時間変動量学習手段における継続時間変動量を求める処理を、すべての音素片について行うのではなく、ロンバード効果による継続時間変動が顕著に現れる５母音の定常部ならびに各母音から語尾への過渡部にのみ限定することで、認識精度を落とすことなく演算量の削減が図れる。
【００８７】
また、この発明における発声変形音声認識装置は、継続時間変動量学習手段において、５母音について平均した継続時間変動量を求めるようにしたものである。
この発明では、継続時間変動量学習手段における継続時間変動量を求める処理を、ロンバード効果による継続時間変動が顕著に現れる５母音の定常部ならびに各母音から語尾への過渡部にのみ限定し、かつ、５母音の定常部および各母音から語尾への過渡部の継続時間変動量をそれぞれ５母音で平均し、母音定常部に共通の継続時間変動量および母音から語尾への過渡部に共通の継続時間変動量とすることで、発声変形モデル学習用の発声変形音声データが少量の場合においても、認識精度の低下を防ぐことができる。
【図面の簡単な説明】
【図１】この発明の実施の形態１における音声認識システムの構成を示す図である。
【図２】この発明の実施の形態１における音声認識システムを示すブロック図である。
【図３】この発明の実施の形態１における発声変形音声認識手段を示すブロック図である。
【図４】この発明の音声標準モデルの一例を示す図である。
【図５】この発明の発声変形モデルの一例を示す図である。
【図６】この発明の重み係数の一例を示す図である。
【図７】この発明の平均ベクトルの距離を求める一例を示す図である。
【図８】この発明のスペクトル変形手順を示すフローチャート図である。
【図９】この発明の実施の形態２における音声認識装置を示すブロック図である。
【図１０】この発明の実施の形態２における発声変形モデル学習手段を示すブロック図である。
【図１１】この発明の音声認識装置の他の例を示すブロック図である。
【図１２】この発明の音声認識装置の他の例を示すブロック図である。
【図１３】この発明の実施の形態３における発声変形音声認識装置を示すブロック図である。
【図１４】この発明の発声変形モデル学習手段の他の例を示すブロック図である。
【図１５】この発明の発声標準モデルにおける継続時間パラメータを示す図である。
【図１６】この発明の継続時間変動量データを示す図である。
【図１７】この発明の母音の継続時間変動量データを示す図である。
【図１８】従来の発声変形音声認識装置の全体構成を示すブロック図である。
【図１９】従来の発声変形音声認識装置における発声変形モデル学習手段の構成を示すブロック図である。
【図２０】従来の発声変形音声認識装置における発声変形音声認識手段の構成を示すブロック図である。
【図２１】発声変形音声認識装置における発声変形モデル学習手段の動作を示すフロー図である。
【図２２】発声変形がある場合とない場合のスペクトル包絡を示す図である。
【図２３】発声変形モデルの学習動作を示す図である。
【図２４】ホルマントの移動を示すパラメータによるスペクトル変形を示す図である。
【図２５】全体傾斜の変化を示すパラメータによるスペクトル包絡の変形を示す図である。
【図２６】バンド幅の変化を示すパラメータによるスペクトル包絡の変形を示す図である。
【符号の説明】
１入力端、２音響分析手段、３発声変形音声特徴ベクトル時系列、４スイッチ、５，５０，５０ａ発声変形モデル学習手段、６発声変形なし音声標準モデルメモリ、７音声標準モデル、８発声変形モデル、９発声変形モデルメモリ、１０継続時間変動量メモリ、１１継続時間パラメータ変更手段、１２発声変形音声認識手段、１３認識結果、１４音声標準モデルバッファ、１５セグメントデータ作成手段、１６パラメータ演算手段、１７発声変形モデルバッファ、１９音声モデル合成手段、２０尤度演算手段、２１照合手段、２２ａ，２２ｂ平滑型スペクトル変形手段、２３セグメントデータ、２４継続時間変動量学習手段、１２０発声変形音声認識手段。

Claims

入力音声信号に対し音響分析を行い発声変形音声特徴ベクトル時系列を出力する音響分析手段と、
発声変形のない音声データで学習した音声標準モデルを記憶する発声変形なし音声標準モデルメモリと、
発声変形された音声に生じる音韻スペクトルの変形を表現する複数の発声変形モデルを記憶する発声変形モデルメモリと、
前記発声変形モデルメモリに格納されている複数の発声変形モデルを用いて、前記発声変形なし音声標準モデルメモリに格納されている音声標準モデルに対し、変形音声標準モデルを作成して前記音響分析手段から出力される発声変形音声特徴ベクトル時系列に対する音声認識結果を出力する音声認識手段と、
音声標準モデル間のスペクトルの近似を示す重みを算出して算出した重みを記憶する重み記憶手段とを備え、
上記音声認識手段は、発声変形モデルメモリに記憶された複数の発声変形モデルを用いて、前記発声変形なし音声標準モデルメモリに格納されている音声標準モデルに対し、スペクトルの変形処理を施し変形音声標準モデルとして出力するスペクトル変形手段を備え、
上記スペクトル変形手段は、上記重み記憶手段が記憶した重みの大きい順に学習済みの複数の発声変形モデルを選択してスペクトルの変形処理を行うことを特徴とする発声変形音声認識装置。
入力音声信号に対し音響分析を行い発声変形音声特徴ベクトル時系列を出力する音響分析手段と、
発声変形のない音声データで学習した音声標準モデルを記憶する発声変形なし音声標準モデルメモリと、
発声変形された音声に生じる音韻スペクトルの変形を表現する複数の発声変形モデルを記憶する発声変形モデルメモリと、
前記発声変形モデルメモリに格納されている複数の発声変形モデルを用いて、前記発声変形なし音声標準モデルメモリに格納されている音声標準モデルに対し、変形音声標準モデルを作成して前記音響分析手段から出力される発声変形音声特徴ベクトル時系列に対する音声認識結果を出力する音声認識手段とを備え、
上記音声認識手段は、発声変形モデルメモリに記憶された複数の発声変形モデルを用いて、前記発声変形なし音声標準モデルメモリに格納されている音声標準モデルに対し、スペクトルの変形処理を施し変形音声標準モデルとして出力するスペクトル変形手段を備え、
上記スペクトル変形手段は、既に学習がなされた発声変形モデルに対応する音声標準モデルに対して、既に学習がなされた発声変形モデルとその他の発声変形モデルを用いてスペクトル変形処理をすることを特徴とする発声変形音声認識装置。
入力音声信号に対し音響分析を行い発声変形音声特徴ベクトル時系列を出力する音響分析手段と、
発声変形のない音声データで学習した音声標準モデルを記憶する発声変形なし音声標準モデルメモリと、
発声変形された音声に生じる音韻スペクトルの変形を表現する複数の発声変形モデルを記憶する発声変形モデルメモリと、
前記発声変形モデルメモリに格納されている複数の発声変形モデルを用いて、前記発声変形なし音声標準モデルメモリに格納されている音声標準モデルに対し、変形音声標準モデルを作成して前記音響分析手段から出力される発声変形音声特徴ベクトル時系列に対する音声認識結果を出力する音声認識手段とを備え、
上記音声認識手段は、発声変形モデルメモリに記憶された複数の発声変形モデルを用いて、前記発声変形なし音声標準モデルメモリに格納されている音声標準モデルに対し、スペクトルの変形処理を施し変形音声標準モデルとして出力するスペクトル変形手段を備え、
上記スペクトル変形手段は、未学習の発声変形モデルに対応する音声標準モデルに対して、既に学習がなされた発声変形モデルを複数用いてスペクトル変形処理をすることを特徴とする発声変形音声認識装置。
上記音声認識手段は、さらに、上記スペクトル変形手段の出力する変形音声標準モデルと前記発声変形なし音声標準モデルメモリに記憶された音声標準モデルとの合成を行う音声モデル合成手段と、
この音声モデル合成手段の出力する合成モデルを用いて、前記音響分析手段から出力される発声変形音声特徴ベクトル時系列に対する尤度を計算し、この尤度に基づく認識結果を出力する発声変形音声照合手段とを備えたことを特徴とする請求項１から３のいずれかに記載の発声変形音声認識装置。
上記発声変形音声認識装置は、更に、この発声変形なし音声標準モデルメモリに記憶された音声標準モデルと、発声変形された音声信号が前記音響分析手段に入力された場合に出力される発声変形音声特徴ベクトル時系列とから、発声変形された音声に生じる音韻スペクトルの変形を表現する発声変形モデルを学習して、発声変形モデルメモリに出力する発声変形モデル学習手段とを備えたことを特徴とする請求項１から３のいずれかに記載の発声変形音声認識装置。
入力音声信号に対し音響分析を行い発声変形音声特徴ベクトル時系列を出力する音響分析手段と、
発声変形のない音声データで学習した音声標準モデルを記憶する発声変形なし音声標準モデルメモリと、
この発声変形なし音声標準モデルメモリに記憶された音声標準モデルと、発声変形された音声信号が前記音響分析手段に入力された場合に出力される発声変形音声特徴ベクトル時系列とから、発声変形された音声に生じる音韻スペクトルの変形を表現する発声変形モデルを１以上の発声変形モデルに基づいて学習する発声変形モデル学習手段と、
この発声変形モデル学習手段により学習された発声変形モデルを記憶する発声変形モデルメモリと、
音声標準モデル間のスペクトルの近似を示す重みを算出して算出した重みを記憶する重み記憶手段とを備え、
前記発声変形モデル学習手段は、
前記発声変形なし音声標準モデルメモリに記憶されている音声標準モデルを一時的に保持する音声標準モデルバッファと、
この音声標準モデルバッファに保持された音声標準モデルを用いて、前記音響分析手段からの発声変形音声特徴ベクトル時系列における各音声標準モデルのセグメントデータを求めるセグメントデータ作成手段と、
このセグメントデータ作成手段からのセグメントデータと、前記音声標準モデルバッファに保持された音声標準モデルと、前記発声変形なし音声標準モデルメモリに記憶された音声標準モデルとを用いて、発声変形モデルのパラメータを求めるパラメータ演算手段と、
このパラメータ演算手段の出力する発声変形モデルのパラメータを保持する発声変形モデルバッファと、
この発声変形モデルバッファに保持された複数の発声変形モデルのパラメータを用いて、前記発声変形なし音声標準モデルメモリの音声標準モデルに対しスペクトル変形処理を施し、前記音声標準モデルバッファに書き込むスペクトル変形手段とにより構成され、
上記スペクトル変形手段は、上記重み記憶手段が記憶した重みの大きい順に学習済みの複数の発声変形モデルを選択してスペクトルの変形処理を行うことを特徴とする発声変形音声認識装置。
入力音声信号に対し音響分析を行い発声変形音声特徴ベクトル時系列を出力する音響分析手段と、
発声変形のない音声データで学習した音声標準モデルを記憶する発声変形なし音声標準モデルメモリと、
この発声変形なし音声標準モデルメモリに記憶された音声標準モデルと、発声変形された音声信号が前記音響分析手段に入力された場合に出力される発声変形音声特徴ベクトル時系列とから、発声変形された音声に生じる音韻スペクトルの変形を表現する発声変形モデルを１以上の発声変形モデルに基づいて学習する発声変形モデル学習手段と、
この発声変形モデル学習手段により学習された発声変形モデルを記憶する発声変形モデルメモリとを備え、
前記発声変形モデル学習手段は、
前記発声変形なし音声標準モデルメモリに記憶されている音声標準モデルを一時的に保持する音声標準モデルバッファと、
この音声標準モデルバッファに保持された音声標準モデルを用いて、前記音響分析手段からの発声変形音声特徴ベクトル時系列における各音声標準モデルのセグメントデータを求めるセグメントデータ作成手段と、
このセグメントデータ作成手段からのセグメントデータと、前記音声標準モデルバッファに保持された音声標準モデルと、前記発声変形なし音声標準モデルメモリに記憶された音声標準モデルとを用いて、発声変形モデルのパラメータを求めるパラメータ演算手段と、
このパラメータ演算手段の出力する発声変形モデルのパラメータを保持する発声変形モデルバッファと、
この発声変形モデルバッファに保持された複数の発声変形モデルのパラメータを用いて、前記発声変形なし音声標準モデルメモリの音声標準モデルに対しスペクトル変形処理を施し、前記音声標準モデルバッファに書き込むスペクトル変形手段とにより構成され、
上記スペクトル変形手段は、既に学習がなされた発声変形モデルに対応する音声標準モデルに対して、既に学習がなされた発声変形モデルとその他の発声変形モデルを用いてスペクトル変形処理をすることを特徴とする発声変形音声認識装置。
入力音声信号に対し音響分析を行い発声変形音声特徴ベクトル時系列を出力する音響分析手段と、
発声変形のない音声データで学習した音声標準モデルを記憶する発声変形なし音声標準モデルメモリと、
この発声変形なし音声標準モデルメモリに記憶された音声標準モデルと、発声変形された音声信号が前記音響分析手段に入力された場合に出力される発声変形音声特徴ベクトル時系列とから、発声変形された音声に生じる音韻スペクトルの変形を表現する発声変形モデルを１以上の発声変形モデルに基づいて学習する発声変形モデル学習手段と、
この発声変形モデル学習手段により学習された発声変形モデルを記憶する発声変形モデルメモリとを備え、
前記発声変形モデル学習手段は、
前記発声変形なし音声標準モデルメモリに記憶されている音声標準モデルを一時的に保持する音声標準モデルバッファと、
この音声標準モデルバッファに保持された音声標準モデルを用いて、前記音響分析手段からの発声変形音声特徴ベクトル時系列における各音声標準モデルのセグメントデータを求めるセグメントデータ作成手段と、
このセグメントデータ作成手段からのセグメントデータと、前記音声標準モデルバッファに保持された音声標準モデルと、前記発声変形なし音声標準モデルメモリに記憶された音声標準モデルとを用いて、発声変形モデルのパラメータを求めるパラメータ演算手段と、
このパラメータ演算手段の出力する発声変形モデルのパラメータを保持する発声変形モデルバッファと、
この発声変形モデルバッファに保持された複数の発声変形モデルのパラメータを用いて、前記発声変形なし音声標準モデルメモリの音声標準モデルに対しスペクトル変形処理を施し、前記音声標準モデルバッファに書き込むスペクトル変形手段とにより構成され、
上記スペクトル変形手段は、未学習の発声変形モデルに対応する音声標準モデルに対して、既に学習がなされた発声変形モデルを複数用いてスペクトル変形処理をすることを特徴とする発声変形音声認識装置。
上記発声変形音声認識装置は、更に、この発声変形モデルメモリに記憶された発声変形モデルと、前記発声変形なし音声標準モデルメモリに格納されている音声標準モデルとを用いて、前記音響分析手段から出力される発声変形音声特徴ベクトル時系列に対する音声認識結果を出力する音声認識手段とを備えたことを特徴とする請求項６から８のいずれかに記載の発声変形音声認識装置。
上記重み記憶手段は、自己の音声標準モデルに対して最大の重みを付すことを特徴とする請求項１または６記載の発声変形音声認識装置。
上記スペクトル変形手段は、選択した複数の発声変形モデルの各々を用いてスペクトル変形処理を行い、その平均値を算出し、変形音声標準モデルとする平均値算出手段を備えたことを特徴とする請求項１０記載の発声変形音声認識装置。
上記平均値算出手段は、上記重みを用いて平均値を算出することを特徴とする請求項１１記載の発声変形音声認識装置。
以下の工程を備えた音声認識方法
（ａ）複数の音声標準モデルと上記音声標準モデルの一部に対する発声変形モデルと音声標準モデル間の近似を示す重みとを予め記憶する工程、
（ｂ）上記複数の音声標準モデルの中の１つの音声標準モデルに対して、上記重みの大きい順に１つ以上の発声変形モデルを選択し、選択した発声変形モデルを用いてスペクトル変形を行う工程、
（ｃ）上記複数の発声変形モデルによるスペクトル変形の結果の平均値を上記音声標準モデルの変形音声標準モデルとして出力する工程、
（ｄ）発声変形のある音声データと、上記変形音声標準モデルを入力し、音声データと変形音声標準モデルとを比較して比較結果を出力する照合工程。
上記音声認識方法は、更に、上記照合工程の比較結果を入力して、音声を認識する工程を備えたことを特徴とする請求項１３記載の音声認識方法。
上記音声認識方法は、更に、上記照合工程の比較結果を入力して、発声変形モデルを学習する学習工程を備えたことを特徴とする請求項１３記載の音声認識方法。