JP4103639B2

JP4103639B2 - 音響モデル作成方法および音響モデル作成装置ならびに音声認識装置

Info

Publication number: JP4103639B2
Application number: JP2003070543A
Authority: JP
Inventors: 正信西谷; 康永宮澤; 弘松本; 一公山本
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2003-03-14
Filing date: 2003-03-14
Publication date: 2008-06-18
Anticipated expiration: 2023-03-14
Also published as: US7366669B2; US20040236577A1; JP2004279701A

Description

【０００１】
【発明の属する技術分野】
本発明は、音響モデルとして混合連続分布型ＨＭＭを作成する音響モデル作成方法および音響モデル作成装置ならびにそれによって作成された音響モデルを用いた音声認識装置に関する。
【０００２】
【従来の技術】
音声認識において、音響モデルとして音素や音節単位のＨＭＭを用い、この音素ＨＭＭや音節ＨＭＭを連結して、単語や文節といった単位の音声言語を認識する方法が一般的に用いられている。
【０００３】
しかし、従来の音素ＨＭＭや音節ＨＭＭでは、音節よりも長い区間での音素環境の変動を表現しにくく、結果的に音声認識率を低下させるという問題がある。
【０００４】
この問題を解決するために、特開平８−１２３４７７号公報「不定長音響モデル作成装置および音声認識装置」に記載されているように、ＨＭＭの単位を音素よりも長くして数音素を表現する不定長音響モデルが知られている。
【０００５】
【特許文献１】
特開平８−１２３４７７号公報
【０００６】
【発明が解決しようとする課題】
この特許文献１に記載の不定長音響モデルは、ある１名の特定話者の発話特性に適応して学習的に音響モデルの単位を決めるため、不特定多数の話者に対する最適な音響モデルを学習することは困難であり、不特定話者音声認識への適用は難しいという問題がある。
【０００７】
また、不定長音響モデルを多種用意することによる不定長音響モデル数の増加はＨＭＭパラメータ数の増加を伴い、さらに、音素方向の単位（組み合わせる音素の数）が不定長であること、不定長音響モデルを接続して音声認識を行うことなどが原因で音声認識デコーダ部のソフトウエア規模が大きくなり、結果的に、小型、低価格、低消費電力型のハードウエアで構成される機器への適用は不向きである。
【０００８】
そこで本発明は、これらの問題を解決し、音響モデルのパラメータ数を小さく抑えながら、音節よりも長い区間での音素環境の変動を吸収できる音響モデルとするための音響モデル作成方法および音響モデル作成装置を提供するとともに、これによって作成された音響モデルを用いることにより、演算能力やメモリ容量などハードウエア資源に大きな制約のある安価なシステムに適用できる音声認識装置を提供することを目的としている。
【０００９】
【課題を解決するための手段】
上述した目的を達成するために、本発明の音響モデル作成方法は、音響モデルとしての音節ＨＭＭを作成する音響モデル作成方法であって、それぞれの音素対応の音素ＨＭＭからなる音素ＨＭＭセットを生成し、この音素ＨＭＭセットの音素ＨＭＭを組み合わせて、それぞれの音節対応の初期音素連鎖音節ＨＭＭからなる初期音素連鎖音節ＨＭＭセットを生成し、その初期音素連鎖音節ＨＭＭセットを学習することによって、前記音響モデルとしての音素連鎖音節ＨＭＭセットを生成することを特徴としている。
【００１０】
このような音響モデル作成方法において、前記音素連鎖音節ＨＭＭセットに対して学習用音声データを用いた予備認識実験を行い、その予備認識実験結果と前記学習用音声データに対応して用意された音節ラベルデータとを用いて、誤認識された音節とその誤認識された音節につながる音節を調べ、その誤認識された音節に対する正解音節と前記誤認識された音節につながる音節との組み合わせを音節連鎖として抽出し、この音節連鎖に対応する音節連鎖ＨＭＭを前記音素連鎖音節ＨＭＭセットに追加して、初期音素連鎖音節ＨＭＭ／音節連鎖ＨＭＭセットを生成したのち、この初期音素連鎖音節ＨＭＭ／音節連鎖ＨＭＭセットを前記学習用音声データと前記音節ラベルデータを用いて学習することによって前記音響モデルとしての音素連鎖音節ＨＭＭ／音節連鎖ＨＭＭセットを生成するようにしている。
【００１１】
また、この音響モデル作成方法において、前記予備認識実験結果における前記音節連鎖の誤認識回数をカウントし、この予備認識実験結果により抽出された前記音節連鎖のうち、前記誤認識回数が予め設定された回数以上の音節連鎖に対応する音節連鎖ＨＭＭを前記音素連鎖音節ＨＭＭセットへの追加候補としている。
【００１２】
また、この音響モデル作成方法において、前記誤認識回数に加えて、その音節連鎖が前記学習用音声データに対応する音節ラベルデータ中に出現する回数をカウントし、前記誤認識回数が予め設定された回数以上の音節連鎖の中で、前記学習用音声データに対応する音節ラベルデータ中の出現回数が予め設定した回数以下の音節連鎖に対応する音節連鎖ＨＭＭは、前記音素連鎖音節ＨＭＭセットへの追加候補から除外することが好ましい。
【００１３】
また、この音響モデル作成方法において、前記音節ラベルデータは、前記音素連鎖音節ＨＭＭセットへの追加候補とされた前記音節連鎖ＨＭＭに対応する音節連鎖によって音節ラベルデータの修正がなされ、その音節ラベルデータの修正は、前記音素連鎖音節ＨＭＭセットへの追加候補とされた前記音節連鎖ＨＭＭに対応する音節連鎖を前記音節ラベルデータに適用する際、複数の音節連鎖が重複して適用可能となる場合は、前記誤認識回数の多い音節連鎖を優先して適用して、当該音節ラベルデータの修正を行うようにしている。
【００１４】
また、この音響モデル作成方法において、前記音素連鎖音節ＨＭＭセットを生成する際に行われる初期音素連鎖音節ＨＭＭの学習および前記音素連鎖音節ＨＭＭ／音節連鎖ＨＭＭセットを生成する際に行われる初期音素連鎖音節ＨＭＭ／音節連鎖ＨＭＭの学習を行う際、共通の音素ＨＭＭが用いられる場合、その共通の音素ＨＭＭの各状態ごとにガウス分布共有を行うことが好ましい。
【００１５】
また、この音響モデル作成方法において、前記誤認識された音節につながる音節は、当該誤認識された音節の先行音節であって、この先行音節と前記誤認識された音節に対する正解音節との組み合わせを前記音節連鎖として抽出するようにしている。
【００１６】
また、この音響モデル作成方法において、前記音素連鎖音節ＨＭＭセットに対し、記述長最小基準を用いた分布数最適化処理を行って分布数の最適化された音素連鎖音節ＨＭＭセットを生成し、それを以降の処理に用いるようにすることも可能である。
【００１７】
また、本発明の音響モデル作成装置は、音響モデルとしての音節ＨＭＭを作成する音響モデル作成装置であって、それぞれの音素対応に学習された音素ＨＭＭを組み合わせて、それぞれの音節対応の初期音素連鎖音節ＨＭＭからなる初期音素連鎖音節ＨＭＭセットを生成する初期音素連鎖音節ＨＭＭセット生成手段と、前記初期音素連鎖音節ＨＭＭセットを再学習して前記音響モデルとしての音素連鎖音節ＨＭＭセットを生成するＨＭＭ再学習手段とを有することを特徴としている。
【００１８】
このような音響モデル作成装置において、前記構成要素に加え、音素連鎖音節ＨＭＭセットに対して学習用音声データを用いた予備認識実験を行う予備認識実験手段と、その予備認識実験手段により得られた予備認識実験結果と前記学習用音声データに対応して用意された音節ラベルデータとを用いて、誤認識された音節とその誤認識された音節につながる音節を調べ、その誤認識された音節に対する正解音節と前記誤認識された音節につながる音節との組み合わせを音節連鎖として抽出する誤認識音節箇所抽出手段と、この誤認識音節箇所抽出手段によって抽出された音節連鎖に対応する音節連鎖ＨＭＭを前記音素連鎖音節ＨＭＭセットに追加して、初期音素連鎖音節ＨＭＭ／音節連鎖ＨＭＭセットを生成する初期音素連鎖音節ＨＭＭ／音節連鎖ＨＭＭセット生成手段と、この初期音素連鎖音節ＨＭＭ／音節連鎖ＨＭＭセット生成手段により生成された初期音素連鎖音節ＨＭＭ／音節連鎖ＨＭＭセットを前記学習用音声データと前記音節ラベルデータを用いて再学習することによって前記音響モデルとしての音素連鎖音節ＨＭＭ／音節連鎖ＨＭＭセットを生成するＨＭＭ再学習手段とを有している。
【００１９】
また、この音響モデル作成装置において、前記誤認識音節箇所抽出手段は、予備認識実験結果における前記音節連鎖の誤認識回数をカウントし、この予備認識実験結果により抽出された前記音節連鎖のうち、前記誤認識回数が予め設定された回数以上の音節連鎖に対応する音節連鎖ＨＭＭを前記音素連鎖音節ＨＭＭセットへの追加候補としている。
【００２０】
また、この音響モデル作成装置において、前記誤認識回数に加えて、その音節連鎖が前記学習用音声データに対応する音節ラベルデータ中に出現する回数をカウントし、前記誤認識回数が予め設定された回数以上の音節連鎖の中で、前記学習用音声データに対応する音節ラベルデータ中の出現回数が予め設定した回数以下の音節連鎖に対応する音節連鎖ＨＭＭは、前記音素連鎖音節ＨＭＭセットへの追加候補から除外することが好ましい。
【００２１】
また、この音響モデル作成装置において、前記音節ラベルデータを修正する音節ラベルデータ修正手段を設け、この音節ラベルデータ修正手段は、前記音素連鎖音節ＨＭＭセットへの追加候補とされた前記音節連鎖ＨＭＭに対応する音節連鎖によって音節ラベルデータの修正を行い、その音節ラベルデータの修正処理は、前記音素連鎖音節ＨＭＭセットへの追加候補とされた前記音節連鎖ＨＭＭに対応する音節連鎖を前記音節ラベルデータに適用する際、複数の音節連鎖が重複して適用可能となる場合は、前記誤認識回数の多い音節連鎖を優先して適用して、当該音節ラベルデータの修正を行うようにしている。
【００２２】
また、この音響モデル作成装置において、前記音素連鎖音節ＨＭＭセットを生成する際に行われる初期音素連鎖音節ＨＭＭの学習および前記音素連鎖音節ＨＭＭ／音節連鎖ＨＭＭセットを生成する際に行われる初期音素連鎖音節ＨＭＭ／音節連鎖ＨＭＭの学習を行う際、共通の音素ＨＭＭが用いられる場合、その共通の音素ＨＭＭの各状態ごとにガウス分布共有を行うことが好ましい。
【００２３】
また、この音響モデル作成装置において、前記誤認識された音節につながる音節は、当該誤認識された音節の先行音節であって、この先行音節と前記誤認識された音節に対する正解音節との組み合わせを前記音節連鎖として抽出するようにしている。
【００２４】
また、この音響モデル作成装置において、前記音素連鎖音節ＨＭＭセットに対して記述長最小基準を用いた分布数最適化処理を行う分布数最適化手段を設け、この分布数最適化手段によって分布数の最適化された音素連鎖音節ＨＭＭセットを生成し、それを以降の処理に用いることも可能である。
【００２５】
また、本発明の音声認識装置は、入力音声を特徴分析して得られた特徴データに対し音響モデルとしてＨＭＭを用いて前記入力音声を認識する音声認識装置であって、前記音響モデルとしてのＨＭＭとして、上述した音響モデル作成方法または音響モデル作成装置によって作成された音響モデルを用いることを特徴としている。
【００２６】
このように本発明では、まず、音素ＨＭＭを組み合わせて音素連鎖音節ＨＭＭを生成し、それをそれぞれの音節対応の音節ＨＭＭとして用いることを可能としている。このように、音素ＨＭＭを組み合わせて音素連鎖音節ＨＭＭ（音節ＨＭＭ）を生成することによって、少ない学習用音声データによってより効率的に学習ができるために、より高性能なＨＭＭとすることができる。
【００２７】
また、上述の音素ＨＭＭを組み合わせてなる音素連鎖音節ＨＭＭを用いて予備認識実験を行い、その予備認識実験結果において、認識しやすい音節箇所については、その誤認識された音節に対する正解音節と当該誤認識された音節につながる音節との組み合わせを音節連鎖として抽出し、この音節連鎖に対応する音節連鎖ＨＭＭを前記音素連鎖音節ＨＭＭセットに追加して初期音素連鎖音節ＨＭＭ／音節連鎖ＨＭＭセットを生成したのち、この初期音素連鎖音節ＨＭＭ／音節連鎖ＨＭＭセットを学習することによって音響モデルとしての音素連鎖音節ＨＭＭ／音節連鎖ＨＭＭセットを生成するようにしているので、音節内のみならず、音節間の調音結合も考慮された音素連鎖音節ＨＭＭ／音節連鎖ＨＭＭセットを生成することができ、この音素連鎖音節ＨＭＭ／音節連鎖ＨＭＭセットを音響モデルとして用いることで、高い認識率を得ることができる。
【００２８】
また、予備認識実験結果における音節連鎖の誤認識回数をカウントし、この予備認識実験結果に基づいて抽出された前記音節連鎖のうち、前記誤認識回数が予め設定された回数以上の音節連鎖に対応する音節連鎖ＨＭＭを前記音素連鎖音節ＨＭＭセットに追加候補とするようにしているので、音素連鎖音節ＨＭＭに追加する音節連鎖ＨＭＭをむやみに増やすことなく、実際の認識を行う際に有効な音節連鎖ＨＭＭだけを効率よく抽出することができる。
【００２９】
さらに、誤認識回数に加えて、その音節連鎖が学習用音声データに対応する音節ラベルデータ中に出現する回数をカウントし、誤認識回数が予め設定された回数以上の音節連鎖の中で、前記出現回数が予め設定した回数以下の音節連鎖に対応する音節連鎖ＨＭＭに対しては、音素連鎖音節ＨＭＭセットへの追加候補から除外するようにしているので、これによって、実際の認識時に有効な音節連鎖ＨＭＭをより一層絞り込んで抽出することができる。
【００３０】
また、音節ラベルデータは、音素連鎖音節ＨＭＭセットへの追加候補とされた音節連鎖ＨＭＭに対応する音節連鎖によって音節ラベルデータの修正がなされ、その音節ラベルデータの修正は、前記音素連鎖音節ＨＭＭセットへの追加候補とされた前記音節連鎖ＨＭＭに対応する音節連鎖を前記音節ラベルデータに適用する際、複数の音節連鎖が重複して適用可能となる場合は、前記誤認識回数の多い音節連鎖を優先して適用して、当該音節ラベルデータの音節ラベルデータの修正を行うようにしている。このように誤認識回数の多い音節連鎖を優先して適用することによって、音節ラベルデータ修正を行うようにしているので、音節連鎖ＨＭＭ（初期音節連鎖ＨＭＭ）に対し学習用音声データとこの修正後の音節ラベルデータを用いた学習を行うことによって、より高精度な音素連鎖音節ＨＭＭ／音節連鎖ＨＭＭを生成することができる。
【００３１】
また、前記音素連鎖音節ＨＭＭセットを生成する際に行われるＨＭＭの学習および前記音素連鎖音節ＨＭＭ／音節連鎖ＨＭＭセットを生成する際に行われるＨＭＭの学習を行う際、共通の音素ＨＭＭが用いられる場合、その共通の音素ＨＭＭの各状態ごとにガウス分布共有を行うようにしているので、認識の単位が長くなることによる学習データ不足の問題に対処することができ、それによって、認識率の低下を防ぐことができる。
【００３２】
また、誤認識された音節につながる音節は、当該誤認識された音節の先行音節であって、この先行音節と前記誤認識された音節に対する正解音節との組み合わせを前記音節連鎖とするようにしている。これは、誤認識された音節の後続音節との組み合わせでもよいが、実験の結果、先行音節との組み合わせの方がより好結果が得られたので、先行音節との組み合わせを音節連鎖とすることが実際の認識においても高い認識率が得られると考えられる。
【００３３】
また、音素連鎖音節ＨＭＭに対して、分布数最適化手段によって分布数最適化処理を行うことで、その分布数最適化処理がなされたあとの個々の音素連鎖音節ＨＭＭは、それぞれの状態ごとに分布数の最適化がなされているので、十分な認識性能を確保した上でパラメータ数の大幅な削減が可能となり、それによって、使用メモリ量の削減、演算量の削減が図れ、処理能力の低いＣＰＵでの動作が可能となり、低消費電力化も図れるので、低価格が要求されるシステムへの適用が可能となる。
【００３４】
また、本発明の音声認識装置は、上述の本発明の音響モデル作成方法によって作成された音素連鎖音節ＨＭＭ／音節連鎖ＨＭＭセットを用いている。この音素連鎖音節ＨＭＭ／音節連鎖ＨＭＭセットは、音節内のみならず、音節間の調音結合も考慮されたものとなっているので、この音素連鎖音節ＨＭＭ／音節連鎖ＨＭＭセットを音響モデルとして用いることで、高い認識率を得ることができる。また、音節連鎖ＨＭＭは、誤認識されやすい音節連鎖に対して作成されるので、音響モデルの規模が必要以上に大きくなるのを防ぐことができ、かつ、認識に有効な必要な最小限の音節連鎖ＨＭＭを持つことから、高い認識率を維持した上で、演算量の削減、使用メモリ量の削減が可能となり、それによって、処理速度の高速化、低価格化、低消費電力化も可能となるので、ハードウエア資源に大きな制約のある小型・安価なシステムに搭載する音声認識装置として極めて有用なものとなる。
【００３５】
【発明の実施の形態】
以下、本発明の実施の形態について説明する。
【００３６】
図１は本発明の音響モデル作成方法の実施形態を説明する全体的な処理の流れを説明するための図であり、この図１に沿って本発明の音響モデル作成方法および音響モデル作成装置について説明する。
【００３７】
まず、ＨＭＭ学習部２がそれぞれの音素ＨＭＭのパラメータについて、学習用音声データ１と音素ラベルデータ４を用いて最尤推定法により学習し、それによって、ある任意の最大分布数（たとえば分布数２００）の音素ＨＭＭセット３が作成される。
【００３８】
図２はこのような音素ＨＭＭセットの作成手順を説明する図である。図２において、ＨＭＭ学習部２では、学習用音声データ１と音素ラベルデータ４を用いて最尤推定法によってそれぞれの音素（ここでは、音素/a/、音素/k/、・・・など４３音素とする）に対応する音素ＨＭＭついて学習を行った結果、最大分布数として、この場合、分布数２００の音素ＨＭＭセット３が作成される。なお、この例では、個々の音素対応の音素ＨＭＭは、自己ループを有する３つの状態Ｓ０，Ｓ１，Ｓ２と、自己ループを持たない最終状態Ｓ３で構成されるものとする。
【００３９】
なお、図２において、音素ＨＭＭセット３の各音素ＨＭＭの自己ループを有する各状態Ｓ０，Ｓ１，Ｓ２の下に描かれている楕円形枠Ａ内のガウス分布がそれぞれの状態における分布例を示すもので、この音素ＨＭＭセット３は、どの音素ＨＭＭについても２００個の分布を有している。
【００４０】
次に、図１に説明が戻って、ＨＭＭ学習部２の学習によって得られた音素ＨＭＭセット３を用いて、初期音素連鎖音節ＨＭＭセット生成部５が初期音素連鎖音節ＨＭＭセット６を生成する。この初期音素連鎖音節ＨＭＭセット６の生成について図３を参照しながら説明する。
【００４１】
なお、この初期音素連鎖音節ＨＭＭセット６の“初期”というのは、ここでは学習前のＨＭＭであることを意味している。また、音素連鎖音節ＨＭＭというのは、２つの音素ＨＭＭを接続することによって生成された音節ＨＭＭのことであって、これをここでは音素連鎖音節ＨＭＭと呼んでいる。
【００４２】
この図３の例では、同図（ａ）に示すような/ｋ/の音素に対応する音素ＨＭＭと/ａ/の音素に対応する音素ＨＭＭを接続することによって、同図（ｂ）に示すような/ｋａ/の音節に対応する音素連鎖音節ＨＭＭを生成する例と、同図（ｄ）に示すような/ｓ/の音素に対応する音素ＨＭＭと/ａ/の音素に対応する音素ＨＭＭを接続することによって、同図（ｃ）に示すような/ｓａ/の音節に対応する音素連鎖音節ＨＭＭを生成する例が示されているが、このように、２つ音素ＨＭＭを接続することよって、すべての音節（たとえば、１２４音節）に対応するＨＭＭセット（初期音素連鎖音節ＨＭＭセット６）を生成する。
【００４３】
このような初期音素連鎖音節ＨＭＭセット６を生成する際、同じ音素ＨＭＭを共有する場合があるが、その場合、その音素ＨＭＭ（図３の例では、/ａ/の音素に対応する音素ＨＭＭ）の自己ループを有するそれぞれの状態（Ｓ０，Ｓ１，Ｓ２）ごとにパラメータを共有（分布共有）する。そして、その初期音素連鎖音節ＨＭＭセット６の各音節連鎖音節ＨＭＭに対してＨＭＭ再学習部８が学習用音声データ１と音節ラベルデータ７を用いて最尤推定法により再学習し、それによって、音素連鎖音節ＨＭＭセット９が生成される。
【００４４】
このＨＭＭ再学習部８によるＨＭＭ再学習によって得られる各音節対応の音素連鎖音節ＨＭＭは、同じ音素ＨＭＭにおいて各状態ごとの分布共有がなされることによって、その音素ＨＭＭの各状態における平均値、分散、重みといったパラメータのうち重みがそれぞれの音素連鎖音節ＨＭＭに対応した値に変化したものとなり、それによって、たとえば、同じ/ａ/の音素に対応する音素ＨＭＭを用いた/ｋａ/と/ｓａ/の各音節に対応する音素連鎖音節ＨＭＭであっても、調音結合の考慮された音素連鎖音節ＨＭＭとなる。
【００４５】
以上の処理手順によって生成された音素連鎖音節ＨＭＭセット９は、それ自体を音響モデルとして用いることができる。この音素ＨＭＭを組み合わせて生成された音素連鎖音節ＨＭＭからなる音素連鎖音節ＨＭＭセット９は、従来の音節ＨＭＭセットと比べると、少ない学習用音声データによってより効率的に学習ができるためにより高性能なＨＭＭセットとすることができ、それによって、音響モデルとして従来の音節ＨＭＭセットを用いた音声認識よりも、より高い認識率が得られる。なお、この実施形態では、この音素連鎖音節ＨＭＭセット９を用いた、さらに、以下の処理を行う。
【００４６】
まず、この音素連鎖音節ＨＭＭセット９のそれぞれの音節（たとえば１２４音節）に対応するそれぞれ音素連鎖音節ＨＭＭを用いて予備認識実験を行う。この予備認識実験は図１で示した予備認識実験部１０が音素連鎖音節ＨＭＭセット９に存在する個々の音素連鎖音節ＨＭＭと学習用音声データ１を用いて行う。
【００４７】
この予備認識実験部１０による認識実験を行った結果は、予備認識実験結果１１として保存される。この予備認識実験結果１１は、たとえば、様々な学習用音声データに対応してその認識結果としての連続音節列が記述されたものとして保存される。
【００４８】
次に、この予備認識実験結果１１を用いて、誤認識された音節箇所を抽出する。この誤認識された音節箇所の抽出は、誤認識音節箇所抽出部１１が音節ラベルデータ７と予備認識実験結果１１を用いて行う。この誤認識音節箇所抽出処理について図４を参照しながら説明する。
【００４９】
ここで行われる処理は、予備認識実験結果１１と正解データ（音節ラベルデータ７）とをたとえばパターンマッチングなどによって比較して、どの音節箇所が誤認識したかを見つけ、その誤認識した音節に対する正解音節とその誤認識した音節につながる音節の組み合わせを音節連鎖（ここでは、２つの音節の組み合わせを音節連鎖と呼んでいる）として抽出するものである。ここで、誤認識した音節につながる音節というのは、誤認識した音節の直前の音節（先行音節）、または、誤認識した音節の直後の音節（後続音節）が考えられるが、この実施形態では、前者、すなわち、誤認識した音節の先行音節であるとする。
【００５０】
なお、音節ラベルデータ７は、すべての学習用音声データ（学習用音声データ１に格納されている音声データ）に対する正解の音節列が記述されているもので、たとえば、「黒い車（ｋｕｒｏｉｋｕｒｕｍａ）」という学習用音声データに対しては、/ｋｕ/、/ｒｏ/、/ｉ/、/ｋｕ/、/ｒｕ/、/ｍａ/というような音節列が正解データとして記述されている。
【００５１】
ここで、たとえば、「黒い車」という学習用音声データに対する予備認識実験の結果が、図４（ａ）に示すように、/ｋｕ/、/ｔｏ/、/ｉ/、/ｋｕ/、/ｕ/、/ｍａ/であったとすると、それに対応する音節ラベルデータ（正解データ）は図４（ｂ）に示すように、その音節列は/ｋｕ/、/ｒｏ/、/ｉ/、/ｋｕ/、/ｒｕ/、/ｍａ/である。
【００５２】
ここで、両者を比較すると、この図４からもわかるように、四角い破線枠Ｂで囲った音節箇所が誤認識されている。すなわち、/ｒｏ/の音節箇所が/ｔｏ/と誤認識され、同様に、/ｒｕ/の音節箇所が/ｕ/と誤認識されている。そこで、誤認識した音節に対する正解音節とその誤認識した音節につながる音節（先行音節）の組み合わせでなる２音節を音節連鎖として抽出する。
【００５３】
すなわち、この図４の例では、楕円形枠Ｃで囲まれた箇所/ｋｕｒｏ/と/ｋｕｒｕ/が、誤認識した音節に対する正解音節とその誤認識した音節につながる先行音節の組み合わせでなる２音節が音節連鎖としてそれぞれ抽出されることになる。
【００５４】
なお、これら/ｋｕｒｏ/と/ｋｕｒｕ/は、それぞれが２つの音節を接続してなる音節連鎖であり、これらそれぞれの音節ＨＭＭとしては、/ｋｕｒｏ/の場合は、/ｋｕ/の音節に対応する音節ＨＭＭと/ｒｏ/の音節に対応する音節ＨＭＭの２つの音節ＨＭＭの組み合わせであり、また、/ｋｕｒｕ/は/ｋｕ/の音節に対応する音節ＨＭＭと/ｒｕ/の音節に対応する音節ＨＭＭの２つの音節ＨＭＭの組み合わせである。このように、２つの音節ＨＭＭを接続してなる２音節ＨＭＭをここでは音節連鎖ＨＭＭと呼ぶ。
【００５５】
このようにして、予備認識実験結果１１すべてについて誤認識音節箇所を調べ、誤認識した音節に対する正解音節とその誤認識した音節につながる先行音節の組み合わせでなる２音節を音節連鎖として抽出し、抽出されたすべての音節連鎖に対応する音節連鎖ＨＭＭを、音素連鎖音節ＨＭＭセット９に追加する候補とし、その追加候補としての音節連鎖ＨＭＭと、そのそれぞれの音節連鎖に対して予備認識実験を行った結果、何回誤認識されたかをカウントし、その誤認識回数を保持する。
【００５６】
図５はその一例であり、幾つかの音節連鎖に対する誤認識回数のカウント結果を示すもので、この図５は上述した図４の音節ラベルデータ以外の音節ラベルデータとのパターンマッチングによって誤認識とされた音節連鎖も幾つか示されている。
【００５７】
この図５の例では、/ｋｕ/と/ｒａ/の組み合わせによる音節連鎖（２つの音節の組み合わせによる音節連鎖を以下では/ｋｕ−ｒａ/というように表す）の誤認識回数は１３４、/ｋｕ−ｒｕ/の音節連鎖の誤認識回数は１８９、/ｋｕ−ｒｅ/の音節連鎖の誤認識回数は７５、/ｋｕ−ｒｏ/の音節連鎖の誤認識回数は１６５、/ｒｏ−ｉ/の音節連鎖の誤認識回数は２８６、/ｉ−ｋｕ/の音節連鎖の誤認識回数は２４１というように、追加候補となるそれぞれの音節連鎖ＨＭＭに対応するそれぞれの音節連鎖ごとの誤認識回数が記述される。なお、この音節連鎖とそれに対する誤認識回数を保存する際、誤認識回数でソートし、誤認識回数の多い順での並びで保存するようにしてもよい。
【００５８】
そして、この図５に示す各音節連鎖とそれに対する誤認識回数において、まず、誤認識回数がＮ回（この実施形態ではＮ＝１００とする）以上の音節連鎖を検索し、誤認識回数が１００回以上の音節連鎖について、その音節連鎖が全学習用音声データ１に対応する全音節ラベルデータ７の中に出現する回数をカウントする。
【００５９】
この図５に示す各音節連鎖とそれに対する誤認識回数の関係から誤認識回数が１００回以上の音節連鎖を検索すると、この場合、/ｋｕ−ｒｅ/の音節連鎖は誤認識回数が７５であるので１００以下であり、誤認識回数が１００以上のものは、/ｋｕ−ｒａ/、/ｋｕ−ｒｕ/、/ｋｕ−ｒｏ/、/ｒｏ−ｉ/、/ｉ−ｋｕ/の各音節連鎖である。したがって、この図５の例では、これら/ｋｕ−ｒａ/、/ｋｕ−ｒｕ/、/ｋｕ−ｒｏ/、/ｒｏ−ｉ/、/ｉ−ｋｕ/の各音節連鎖に対応するそれぞれの音節連鎖ＨＭＭが追加候補の音節連鎖ＨＭＭとなる。
【００６０】
次に、これら/ｋｕ−ｒａ/、/ｋｕ−ｒｕ/、/ｋｕ−ｒｏ/、/ｒｏ−ｉ/、/ｉ−ｋｕ/の各音節連鎖について、その音節連鎖が全学習用音声データ１に対応する全音節ラベルデータ７の中に出現する回数をカウントする。これは、音節ラベルデータから検索すればよい。この検索結果の一例を図６に示す。
【００６１】
図６において、/ｋｕ−ｒａ/の音節連鎖が全音節ラベルデータ７の中に出現する回数は１８５、/ｋｕ−ｒｕ/の音節連鎖が全音節ラベルデータ７の中に出現する回数は２３４、/ｋｕ−ｒｏ/の音節連鎖が全音節ラベルデータ７の中に出現する回数は２１５、/ｒｏ−ｉ/の音節連鎖が全音節ラベルデータ７の中に出現する回数は３０５、/ｉ−ｋｕ/の音節連鎖が全音節ラベルデータ７の中に出現する回数は２７６である。なお、この図５や図６で示された音節連鎖の例は、ほんの一部である。
【００６２】
そして、図６に示された出現回数において、その出現回数がＭ回以下（ここではＭ＝２００とする）の音節連鎖に対応する音節連鎖ＨＭＭを追加候補から外す。図６の例では、/ｋｕ−ｒａ/の音節連鎖は出現回数が１８５であり２００回以下であるので、その音節連鎖に対応する音節連鎖ＨＭＭを追加候補から外す。
【００６３】
したがって、この図６に示されている内容に限っていえば、/ｋｕ−ｒｕ/の音節連鎖に対応する音節連鎖ＨＭＭ、/ｋｕ−ｒｏ/の音節連鎖に対応する音節連鎖ＨＭＭ、/ｒｏ−ｉ/の音節連鎖に対応する音節連鎖ＨＭＭ、/ｉ−ｋｕ/の音節連鎖に対応する音節連鎖ＨＭＭが音素連鎖音節ＨＭＭセット９に追加される音節連鎖ＨＭＭとなる。
【００６４】
このように、まず、第１段階として誤認識回数がＮ回（ここではＮ＝１００）以上の音節連鎖を抽出し、第２段階としてその誤認識回数がＮ回以上の音節連鎖について全音節ラベルデータ７中の出現回数がＭ回以下の音節連鎖に対応するＨＭＭを候補から除外し、残った音節連鎖に対応する音節連鎖ＨＭＭを音素連鎖音節ＨＭＭセット９への追加候補とする。
【００６５】
これによって、この例に限っていえば、/ｋｕ−ｒｕ/の音節連鎖に対応する音節連鎖ＨＭＭ、/ｋｕ−ｒｏ/の音節連鎖に対応する音節連鎖ＨＭＭ、/ｒｏ−ｉ/の音節連鎖に対応する音節連鎖ＨＭＭ、/ｉ−ｋｕ/の音節連鎖に対応する音節連鎖ＨＭＭが音素連鎖音節ＨＭＭセット９に追加される音節連鎖ＨＭＭとなり、図７に示すような追加候補音節連鎖ＨＭＭリスト１３が生成され、音素連鎖音節ＨＭＭセット９に追加される音節連鎖ＨＭＭに対応するそれぞれの音節連鎖とその誤認識回数が記述される。なお、この図７に示すデータは、それぞれの音節連鎖が誤認識回数でソートされていて、誤認識回数の多い順に並べられている。
【００６６】
そして、この図７のデータは、図１に示すように音節ラベルデータ修正部１４と初期音素連鎖音節ＨＭＭ／音節連鎖ＨＭＭセット生成部１５に渡される。なお、この初期音素連鎖音節ＨＭＭ／音節連鎖ＨＭＭセット生成部１５の“初期”も前述同様、学習前のＨＭＭであることを意味している。
【００６７】
音節ラベルデータ修正部１４は、図７に示すデータを用いて音節ラベルデータ７の音節ラベルデータ修正（音節の区切り）を行う。この音節ラベルデータ修正処理について、ここでは、「黒い車（ｋｕｒｏｉｋｕｒｕｍａ）」という学習用音声データに対応する音節ラベルデータ/ｋｕ/ /ｒｏ/ /ｉ/ /ｋｕ/ /ｒｕ/ /ｍａ/を例にとって説明する。
【００６８】
このような音節ラベルデータに対し、音素連鎖音節ＨＭＭセット９への追加候補とされた音節連鎖ＨＭＭに対応する音節連鎖を適用する際、複数の候補が重複する場合がある。この/ｋｕ/ /ｒｏ/ /ｉ/ /ｋｕ/ /ｒｕ/ /ｍａ/という音節ラベルデータに、たとえば、図７に示すような音節連鎖を適用しようとすると、この場合、図８に示すように、幾つかの音節連鎖が重複する。
【００６９】
図８において、（ａ）に示す/ｋｕ/ /ｒｏ/ /ｉ/ /ｋｕ/ /ｒｕ/ /ｍａ/という音節ラベルデータに対し、図７に示す音節連鎖を適用しようとすると、図８（ｂ）に示すように/ｋｕ−ｒｏ/、図８（ｃ）に示すように/ｒｏ−ｉ/、図８（ｄ）に示すように/ｉ−ｋｕ/、図８（ｅ）に示すように/ｋｕ−ｒｕ/が適用可能であることがわかる。この場合、音節としては/ｋｕ−ｒｏ/の/ｒｏ/と/ｒｏ−ｉ/の/ｒｏ/が重複し、/ｒｏ−ｉ/の/ｉ/と/ｉ−ｋｕ/の/ｉ/が重複し、また、/ｉ−ｋｕ/の/ｋｕ/と/ｋｕ−ｒｕ/の/ｋｕ/が重複することになる。
【００７０】
このように、ある音節ラベルデータに対し、音節連鎖を適用しようとするとき、音節連鎖が重複する場合は、誤認識回数の多い音節連鎖を優先して適用する。これについて図９を参照しながら説明する。
【００７１】
図９において、（ａ）に示す/ｋｕ/ /ｒｏ/ /ｉ/ /ｋｕ/ /ｒｕ/ /ｍａ/という音節ラベルデータに対し、この例では、/ｋｕ−ｒｏ/、/ｒｏ−ｉ/、/ｉ−ｋｕ/、/ｋｕ−ｒｕ/の各音節連鎖が適用可能であるが、これらの音節連鎖のなかで、まず、最も誤認識回数の多い/ｒｏ−ｉ/の音節連鎖（図７によれば誤認識回数が２８６で最も多い）を適用する。これによって、この段階では図９（ｂ）のように、音節ラベルデータは/ｒｏ/と/ｉ/が接続され、/ｋｕ/ /ｒｏ−ｉ/ /ｋｕ/ /ｒｕ/ /ｍａ/のように置き換えられる。
【００７２】
続いて、この図９（ｂ）に対して音節連鎖を適用するが、このとき、置き換え後の音節の前後の音節との組み合わせの置き換えはできないものとする。つまり、次に適用される音節連鎖としては、/ｒｏ−ｉ/の次に誤認識回数の多い/ｉ−ｋｕ/の音節連鎖であるが、置き換え後の音節の前後の音節との組み合わせの置き換えはできないとしているので、この/ｉ−ｋｕ/の音節連鎖は適用できないため、次に誤認識回数の多い/ｋｕ−ｒｕ/の音節連鎖を適用する。これによって、この段階では図９（ｃ）のように、音節ラベルデータは、/ｋｕ/ /ｒｏ−ｉ/ /ｋｕ−ｒｕ/ /ｍａ/というように置き換えられる。
【００７３】
続いて、この図９（ｃ）に対して音節連鎖を適用する。ここで、適用される音節連鎖としては、/ｋｕ−ｒｏ/の音節連鎖であるが、この場合も、置き換え後の音節の前後の音節との組み合わせの置き換えはできないとしているので、この/ｋｕ−ｒｏ/の音節連鎖は適用できない。したがって、ここで処理を終了し、結局、図９（ｄ）のような修正後の音節ラベルデータが修正結果として得られ、この修正後の音声ラベルデータは、/ｋｕ/ /ｒｏ−ｉ/ /ｋｕ−ｒｕ/ /ｍａ/となる。
【００７４】
このような処理をすべての音節ラベルデータに対して行い、それぞれの音声ラベルデータに対する修正音節ラベルデータ１６（図１参照）として保存する。
【００７５】
以上のようにして、追加候補音節連鎖ＨＭＭリスト１３（図７参照）を用いた音節ラベルデータの修正処理が終了する。また、この追加候補音節連鎖ＨＭＭリスト１３（図７参照）のデータは、初期音素連鎖音節ＨＭＭ／音節連鎖ＨＭＭセット生成部１５にも与えられ、音素連鎖音節ＨＭＭセット９に保存されたそれぞれの音素連鎖音節ＨＭＭ（個々の音素連鎖音節ＨＭＭは２つの音素ＨＭＭの組み合わせで構成されている）に、新たに生成された音節連鎖ＨＭＭ（図７に示す音節連鎖に対応する音節連鎖ＨＭＭ）を追加することによって、初期音素連鎖音節ＨＭＭ／音節連鎖ＨＭＭセット１７が生成される。このとき、前述した初期音素連鎖音節ＨＭＭセット生成部５による初期音素連鎖音節ＨＭＭセット生成時と同様、同一音素ＨＭＭを共用する場合は、共用する音素ＨＭＭ同士の各状態ごとに分布共有を行う。この分布共有の一例を図１０に示す。
【００７６】
図１０は新たに追加された音節連鎖ＨＭＭ例として、たとえば、/ｋｕ−ｒｏ/の音節連鎖に対応する音節連鎖ＨＭＭと/ｋｅ−ｒｏ/の音節連鎖に対応する音節連鎖ＨＭＭを示すもので、図１０（ａ）に示される/ｋｕ−ｒｏ/の音節連鎖に対応する音節連鎖ＨＭＭは、/ｋｕ/の音節に対応する音節ＨＭＭと/ｒｏ/の音節に対応する音節ＨＭＭが接続されてなるもので、また、/ｋｕ/の音節に対応する音節ＨＭＭは/ｋ/と/ｕ/の各音素に対応する音素ＨＭＭが接続されてなり、/ｒｏ/の音節に対応する音節ＨＭＭは/ｒ/と/ｏ/の各音素に対応する音素ＨＭＭが接続されてなるものである。同様に、図１０（ｂ）に示される/ｋｅ−ｒｏ/の音節連鎖に対応する音節連鎖ＨＭＭは、/ｋｅ/の音節に対応する音節ＨＭＭと/ｒｏ/の音節に対応する音節ＨＭＭが接続されてなるもので、また、/ｋｅ/の音節に対応する音節ＨＭＭは/ｋ/と/ｅ/の各音素に対応する音素ＨＭＭが接続されてなり、/ｒｏ/の音節に対応する音節ＨＭＭは/ｒ/と/ｏ/の各音素に対応する音素ＨＭＭが接続されてなるものである。
【００７７】
このような/ｋｕ−ｒｏ/の音節連鎖に対応する音節連鎖ＨＭＭと/ｋｅ−ｒｏ/の音節連鎖に対応する音節連鎖ＨＭＭは、同一音素のＨＭＭとして、/ｋ/、/ｒ/、/ｏ/の各音素に対応する音素ＨＭＭが共用可能である。そこで、共用可能な音素ＨＭＭは、それぞれの状態ごとに分布共有する。
【００７８】
そして、このように生成された初期音素連鎖音節ＨＭＭ／音節連鎖ＨＭＭセット１７について、ＨＭＭ再学習部１８が学習用音声データ１と修正音節ラベルデータ１６を用いて最尤推定法により再学習する。このＨＭＭ再学習部１８によるＨＭＭ再学習によって得られるそれぞれの音節連鎖ＨＭＭは、共有する音素ＨＭＭの各状態における平均値、分散、重みといったパラメータのうち重みがそれぞれのＨＭＭに対応した値に変化したものとなり、それによって、たとえば、この図１０のように、同じ/ｋ/、/ｒ/、/ｏ/の各音素に対応する音素ＨＭＭを用いた/ｋｕ−ｒｏ/の音節連鎖に対応する音節連鎖ＨＭＭと/ｋe−ｒｏ/の音節連鎖に対応する音節連鎖ＨＭＭであっても、それぞれに調音結合の考慮された音節連鎖ＨＭＭとなる。
【００７９】
このようにして、初期音素連鎖音節ＨＭＭ／音節連鎖ＨＭＭセット１７に存在するそれぞれの音素連鎖音節ＨＭＭ／音節連鎖ＨＭＭを再学習してなる学習済みの音素連鎖音節ＨＭＭ／音節連鎖ＨＭＭセット１９が作成される。この音素連鎖音節ＨＭＭ／音節連鎖ＨＭＭセット１９は、この実施形態において得ようとする最終的な音響モデルであり、この音素連鎖音節ＨＭＭ／音節連鎖ＨＭＭセット１９を音響モデルとして用いて音声認識を行うことで、より高い認識率を得ることができる。
【００８０】
なお、上述の実施形態では、予備認識実験結果１１を用いて誤認識音節箇所を抽出し、それに基づいて追加候補音節連鎖ＨＭＭリスト１３を生成する際に、まず、第１段階として誤認識回数がＮ回（ここではＮ＝１００）以上の音節連鎖を抽出し、第２段階として、その誤認識回数がＮ回以上の音節連鎖について全学習用音声データ１に対応する全音節ラベルデータ７の中の出現回数がＭ回以下の音節連鎖を候補から除外し、残った音節連鎖に対応する音節連鎖ＨＭＭを音素連鎖音節ＨＭＭセット９への追加候補とするというように、２段階の手順を行い、その２段階の処理を行ったあと、残った音節連鎖を追加候補音節連鎖として追加候補音節連鎖ＨＭＭリスト１３に保存するようにしたが、２段階目の処理を行わず、第１段階のみの処理によって、追加候補音節連鎖を取得するようにしてもよく、それによっても、高い認識率を得ることができる。なお、２段階目までの処理を行った方が、追加すべき音節連鎖の数をより絞り込むことができ、全体的なデータ量を削減することができ、かつ、実際の認識を行う際も高い認識率を得ることができる。
【００８１】
また、音素連鎖音節ＨＭＭセット９に保存された各音素連鎖音節ＨＭＭに対してＭＤＬ（記述長最小：ＭｉｎｉｍｕｍＤｅｓｃｒｉｐｔｉｏｎＬｅｎｇｔｈ）基準を用いた分布数の最適化処理を行い、その分布数の最適化処理が行われたあとの各音素連鎖音節ＨＭＭからなる音素連鎖音節ＨＭＭセットを予備認識実験部１０と初期音素連鎖音節ＨＭＭ／音節連鎖ＨＭＭセット生成部１５に渡すようにしてもよい。このＭＤＬ基準を用いた分布数の最適化処理を追加した構成図を図１１に示す。
【００８２】
この図１１は図１の構成において、音素連鎖音節ＨＭＭセット９の出力側に、ＭＤＬ基準を用いた分布数の最適化処理を行う分布数最適化部２１が設けられ、この分布数最適化部２１によって、分布数の最適化がなされた音素連鎖音節ＨＭＭセット２２が作成され、この音素連鎖音節ＨＭＭセット２２が予備認識実験部１０と初期音節連鎖音節ＨＭＭ／音節連鎖ＨＭＭセット生成部１５に渡されるようになっている点が異なるだけで、その他は図１と同様であるので、同一部分には同一符号を付すことでそれらの説明は省略する。
【００８３】
この分布数最適化部２１は、それを要約すれば、ＨＭＭを構成する複数の状態の各状態ごとに、ガウス分布数をある値から最大分布数までの複数種類の分布数に設定し、この複数種類のガウス分布数に設定されたそれぞれの状態に対して、それぞれのガウス分布数ごとに記述長最小基準を用いて記述長を求め、この記述長が最小となるガウス分布数を持つ状態をそれぞれの状態ごとに選択し、このそれぞれの状態ごとに選択された記述長が最小となるガウス分布数を持つ状態によってそのＨＭＭを構築し、その構築されたＨＭＭを学習用音声データ１を用いて再学習するというものであり、それによって、それぞれの状態のガウス分布数がそれぞれの状態ごとに最適化された音素連鎖音節ＨＭＭでなる音素連鎖音節ＨＭＭセット２２が生成される。
【００８４】
このＭＤＬ基準を用いた分布数の最適化処理については、本発明の発明者等による論文、山本一公池田太郎松本弘西谷正信宮澤康永“コンパクトで高精度な音節モデルの検討”、日本音響学会２００２年秋季研究発表会講演論文集、１−９−２２に記載されている。
【００８５】
この分布数最適化部２１によって分布数最適化処理がなされたあとの個々の音素連鎖音節ＨＭＭは、それぞれの状態ごとに分布数の最適化がなされているので、十分な認識性能を確保した上でパラメータ数の大幅な削減が可能となり、それによって、使用メモリ量の削減、演算量の削減が図れ、処理能力の低いＣＰＵでの動作が可能となり、低消費電力化も図れるので、低価格が要求されるシステムへの適用が可能となる。
【００８６】
さらに、上述した論文の中にも示されているように、同一子音や同一母音を持つ音素連鎖音節ＨＭＭにおいて、これらの音素連鎖音節ＨＭＭを構成する複数の状態（自己ループを有する状態）のうち、たとえば、初期状態または最終状態を共有した音素連鎖音節ＨＭＭを構築し、その状態共有がなされた音素連鎖音節ＨＭＭに対して、前述の分布数を最適化する技術を適用することもできる。このような状態共有がなされることによって、パラメータ数をより多く削減することができる。
【００８７】
また、本発明は、音素ＨＭＭを接続して音素連鎖音節ＨＭＭを生成するということも特徴の１つとしており、その音素連鎖音節ＨＭＭ（図１においては音素連鎖音節ＨＭＭセット９、図１１においては、ＭＤＬ基準を用いて生成された音素連鎖音節ＨＭＭセット２２）を音響モデルとして用いることも可能である。
【００８８】
このような、音素連鎖音節ＨＭＭセット９または音素連鎖音節ＨＭＭセット２２は、従来の音節ＨＭＭセットと比べると、少ない学習用音声データによってより効率的に学習ができるためにより高性能なＨＭＭセットとすることができ、それによって、従来の音節ＨＭＭセットを用いた音声認識よりも、より高い認識率が得られる。
【００８９】
図１２はこれまで説明した実施形態によって作成された音響モデル（ここでは図１の音素連鎖音節ＨＭＭ／音節連鎖ＨＭＭセット１９）を用いた音声認識装置の構成を示す図であり、音声入力用のマイクロホン３１、このマイクロホン３１から入力された音声を増幅するとともにディジタル信号に変換する入力信号処理部３２、入力信号処理部からのディジタル変換された音声信号から特徴データ（特徴ベクトル）を抽出する特徴分析部３３、この特徴分析部３３から出力される特徴データに対し、音響モデル３４や言語モデル３５を用いて音声認識する音声認識処理部３６から構成され、この音響モデル３４として、図１の音素連鎖音節ＨＭＭ／音節連鎖ＨＭＭセット１９を用いる。
【００９０】
このように、この音声認識装置は、その音声認識を行うための音響モデル３４としての音素連鎖音節ＨＭＭ／音節連鎖ＨＭＭセット１９は、簡単にいえば、音素ＨＭＭを組み合わせてなる音素連鎖音節ＨＭＭセット９を構成し、その音素連鎖音節ＨＭＭセット９に対して予備認識実験を行った結果、誤認識されやすい音素連鎖音節ＨＭＭを抽出して、誤認識された音節箇所については、その誤認識された音節に対する正解音節とその先行音節との組み合わせを抽出し、その正解音節と先行音節との組み合わせ（誤認識回数や出現回数などを考慮する）でなる音節連鎖に対応する音節連鎖ＨＭＭを音素連鎖音節ＨＭＭセット９に追加して、それを再学習したものである。
【００９１】
このような音素連鎖音節ＨＭＭ／音節連鎖ＨＭＭセット１９は、音節内のみならず、音節間の調音結合も考慮された高精度な音響モデルとなるので、高い認識性能を維持した上で、パラメータ数を削減することができ、それによって、演算量の削減、使用メモリ量の削減が図れ、処理速度の高速化が図れ、さらに、低価格、低消費電力化も可能となるので、ハードウエア資源に大きな制約のある小型・安価なシステムにも搭載する音声認識装置として極めて有用なものとなる。
【００９２】
ところで、この音素連鎖音節ＨＭＭ／音節連鎖ＨＭＭセット１９を音響モデルとして用いて実際に音声認識を行った結果について以下に述べる。
【００９３】
まず、１２４音節（ただし単音節）の従来の音節ＨＭＭセットを用いた連続音節認識実験では、認識率が６８．１３％であったものが、音素連鎖音節ＨＭＭセットとすることで、認識率を７０．４２％とすることができ、さらに、このような音素連鎖音節ＨＭＭセットに対し上述したＭＤＬ基準を用いて分布数の最適化がなされ、それによって、分布数が削減された場合は、分布数が削減されたにもかかわらず７０．６５％の認識率を得ることができる。
【００９４】
そして、この音素連鎖音節ＨＭＭセットを用いて前述の実施形態で説明したような手順によって生成された音素連鎖音節ＨＭＭ／音節連鎖ＨＭＭセットにおいては、たとえば、図５で説明した誤認識回数（Ｎ＝１００とし、誤認識回数が１００回以上を抽出）を考慮した場合は、７２．５４％の認識率を得ることができた。さらに、誤認識回数と出現頻度（Ｍ＝２００とし、２００回以下の出現回数は除外）を考慮した場合は、７３．４２％の認識率を得ることができた。
【００９５】
この実験結果からも明らかなように、本発明により生成された音素連鎖音節ＨＭＭ／音節連鎖ＨＭＭセット１９は、高い認識率を得ることができ、この音素連鎖音節ＨＭＭ／音節連鎖ＨＭＭセット１９を音響モデルとして用いることで認識性能の大幅な改善が期待できる。また、前述したように、単に、音素ＨＭＭを２つ組み合わせてなる音素連鎖音節ＨＭＭとした場合であっても、従来の単音節の音節ＨＭＭを用いた場合に比べれば、認識率の向上が図れる。
【００９６】
なお、本発明は上述の実施の形態に限られるものではなく、本発明の要旨を逸脱しない範囲で種々変形実施可能となるものである。たとえば、前述の実施形態では、予備認識実験を行った結果、誤認識されやすい音節を抽出して、誤認識された音節部分については、その誤認識された音節に対する正解音節とその先行音節との組み合わせを抽出したが、先行音節との組み合わせに限られることはなく、広い意味で言えば、誤認識された音節に対する正解音節を含む音節であって、たとえば、後続音節との組み合わせであってもよく、または、前後の音節との組み合わせであってもよい。
【００９７】
また、本発明は以上説明した本発明を実現するための処理手順が記述された処理プログラムを作成し、その処理プログラムをフロッピィディスク、光ディスク、ハードディスクなどの記録媒体に記録させておくこともでき、本発明は、その処理プログラムの記録された記録媒体をも含むものである。また、ネットワークから当該処理プログラムを得るようにしてもよい。
【００９８】
【発明の効果】
以上説明したように本発明の音響モデル作成方法および音響モデル作成装置によれば、音素ＨＭＭを組み合わせて音素連鎖音節ＨＭＭを生成し、それをそれぞれの音節対応の音節ＨＭＭとして用いることを可能としている。このように、音素ＨＭＭを組み合わせて音素連鎖音節ＨＭＭ（音節ＨＭＭ）を生成することによって、少ない学習用音声データによってより効率的に学習ができるためにより高性能なＨＭＭとすることができる。
【００９９】
また、本発明の音響モデル生成方法および音響モデル作成装置では、さらに、音素ＨＭＭを組み合わせた音素連鎖音節ＨＭＭからなる音素連鎖音節ＨＭＭセットを用いて認識実験を行い、その実験結果に基づいて、誤認識しやすい音節箇所については、その誤認識された音節に対する正解音節と当該誤認識された音節につながる音節との組み合わせを音節連鎖として抽出し、この音節連鎖に対応する音節連鎖ＨＭＭを前記音素連鎖音節ＨＭＭセットに追加して、音素連鎖音節ＨＭＭ／音節連鎖ＨＭＭセットを生成するようにしているので、音節内のみならず、音節間の調音結合も考慮された音節連鎖ＨＭＭセットを生成することができ、この音素連鎖音節ＨＭＭ／音節連鎖ＨＭＭセットを音響モデルとして用いることで、高い認識率を得ることができる。
【０１００】
また、認識実験結果を用いて音節連鎖の誤認識回数をカウントし、その誤認識回数が予め設定された回数以上の音節連鎖に対応する音節連鎖ＨＭＭを前記音素連鎖音節ＨＭＭセットに追加候補とするようにしているので、音素連鎖音節ＨＭＭに追加する音節連鎖ＨＭＭをむやみに増やすことなく、実際の認識時に有効な音節連鎖ＨＭＭだけを効率よく抽出することができる。さらに、その誤認識回数に加えて、その音節連鎖が前記学習用音声データに対応する音節ラベルデータ中に出現する回数をカウントし、前記誤認識回数が予め設定された回数以上の音節連鎖の中で、前記学習用音声データ中の出現回数が予め設定した回数以下の音節連鎖に対応する音節連鎖ＨＭＭを前記音素連鎖音節ＨＭＭセットへの追加候補から除外するようにしているので、実際の認識に有効な音節連鎖ＨＭＭをより一層絞り込んで抽出することができる。
【０１０１】
また、音節ラベルデータは、音素連鎖音節ＨＭＭセットへの追加候補とされた前記音節連鎖ＨＭＭに対応する音節連鎖を前記音節ラベルデータに適用する際、複数の音節連鎖が重複して適用可能である場合は、前記誤認識回数の多い音節連鎖を優先して適用し、当該音節ラベルデータの音節区切りを修正するようにしている。このように誤認識回数の多い音節連鎖を優先して適用することで音節ラベルデータ修正を行うようにしているので、初期音素連鎖音節ＨＭＭ／音節連鎖ＨＭＭセットに対し学習用音声データとこの修正後の音節ラベルデータを用いた学習を行うことによって、より高精度な音素連鎖音節ＨＭＭ／音節連鎖ＨＭＭセットを生成することができる。
【０１０２】
また、前記音素連鎖音節ＨＭＭセットを生成する際に行われるＨＭＭの学習および前記音素連鎖音節ＨＭＭ／音節連鎖ＨＭＭセットを生成する際に行われるＨＭＭの学習を行う際、共通の音素ＨＭＭが用いられる場合、その共通の音素ＨＭＭの各状態ごとにガウス分布共有を行うようにしているので、認識の単位が長くなることによる学習データ不足の問題に対処することができ、それによって、認識率の低下を防ぐことができる。
【０１０３】
また、誤認識された音節につながる音節は、当該誤認識された音節の先行音節であって、この先行音節と前記誤認識された音節に対する正解音節との組み合わせを前記音節連鎖とするようにしている。これは、誤認識された音節の後続音節との組み合わせでもよいが、実験の結果、先行音節との組み合わせの方がより好結果が得られたので、先行音節との組み合わせを音節連鎖とすることが実際の認識においても高い認識率が得られると考えられる。
【０１０４】
また、本発明の音声認識装置は、上述の本発明の音響モデル作成方法によって作成された音素連鎖音節ＨＭＭ／音節連鎖ＨＭＭセット用いている。この音素連鎖音節ＨＭＭ／音節連鎖ＨＭＭセットは、音節内のみならず、音節間の調音結合も考慮されたものとなっているので、この音素連鎖音節ＨＭＭ／音節連鎖ＨＭＭセットを音響モデルとして用いることで、高い認識率を得ることができる。また、音節連鎖ＨＭＭは、誤認識されやすい音節連鎖に対して作成されるので、音響モデルの規模が必要以上に大きくなるのを防ぐことができ、かつ、認識に有効な音節連鎖ＨＭＭを持つことから高い認識率を得ることができ、さらに、演算量の削減、使用メモリ量の削減が可能となり、それによって、処理速度の高速化、低価格化、低消費電力化も可能となるので、ハードウエア資源に大きな制約のある小型・安価なシステムに搭載する音声認識装置として極めて有用なものとなる。
【図面の簡単な説明】
【図１】本発明の音響モデル作成処理の実施形態を説明する図である。
【図２】図１で示した音響モデル作成処理において音素ＨＭＭセットを学習することによる音素ＨＭＭ生成処理を説明する図である。
【図３】図２で生成された音素ＨＭＭセットを用いて初期音素連鎖音節ＨＭＭセットの生成処理を説明する図である。
【図４】図１の音響モデル作成処理において予備認識実験結果と正解データ（音節ラベルデータ）とを比較することで、誤認識された音節に対する正解音節とその先行音節との組み合わせを音節連鎖として抽出する具体例を説明する図である。
【図５】図４によって抽出された音節連鎖とその誤認識回数の一例を示す図である。
【図６】図４によって抽出された音節連鎖が全学習用音声データ中に出現した回数をカウントした結果の一例を示す図である。
【図７】図５の結果において誤認識回数が予め設定した回数以上の音節連鎖の中で、図６の出現回数が予め設定した回数以下の音節連鎖を除外した例を追加候補音節連鎖ＨＭＭリストとして示す図である。
【図８】図７に示す音節連鎖を音節ラベルデータに適用したとき、複数の音節連鎖が重複する例を説明する図である。
【図９】図９の例に対して音節ラベルデータの修正を行う例を説明する図である。
【図１０】音素連鎖音節ＨＭＭセットに追加された音節連鎖ＨＭＭの一例を示す図である。
【図１１】図１の構成にＭＤＬ基準を用いた分布数の最適化処理を加えた構成図である。
【図１２】本発明の音声認識装置の概略的な構成図である。
【符号の説明】
１学習用音声データ
２ＨＭＭ学習部
３音素ＨＭＭセット
４音素ラベルデータ
５初期音素連鎖音節ＨＭＭ生成部
６初期音素連鎖音節ＨＭＭセット
７音節ラベルデータ
８ＨＭＭ学習部
９音素連鎖音節ＨＭＭセット
１０予備認識実験部
１１認識実験結果
１２誤認識音節箇所抽出部
１３追加候補音節連鎖ＨＭＭリスト
１４音節ラベルデータ修正部
１５初期音素連鎖音節ＨＭＭ／音節連鎖ＨＭＭ生成部
１６修正音節ラベルデータ
１７初期音素連鎖音節ＨＭＭ／音節連鎖ＨＭＭセット
１８ＨＭＭ再学習部
１９音素連鎖音節ＨＭＭ／音節連鎖ＨＭＭセット
２１分布数最適化処理部
２２音素連鎖音節ＨＭＭセット
３１マイクロホン
３２入力信号処理部
３３特徴分析部
３４ＨＭＭモデル
３５言語モデル
３６音声認識処理部
Ｓ０，Ｓ１，Ｓ２，・・・状態

Claims

音響モデルとしての音節ＨＭＭ（隠れマルコフモデル）を作成する音響モデル作成方法であって、
それぞれの音素に対応する音素ＨＭＭからなる音素ＨＭＭセットを生成し、前記音素ＨＭＭセットの音素ＨＭＭを組み合わせて、それぞれの音節に対応する初期音素連鎖音節ＨＭＭからなる初期音素連鎖音節ＨＭＭセットを生成し、
前記初期音素連鎖音節ＨＭＭセットを学習することによって、前記音響モデルとしての音素連鎖音節ＨＭＭセットを生成し、
前記音素連鎖音節ＨＭＭセットに対して学習用音声データを用いた予備認識実験を行い、
前記予備認識実験の結果と前記学習用音声データに対応して用意された音節ラベルデータとを用いて、誤認識された音節と前記誤認識された音節につながる音節を調べ、
前記誤認識された音節に対する正解音節と前記誤認識された音節につながる音節との組み合わせを音節連鎖として抽出し、
前記音節連鎖に対応する音節連鎖ＨＭＭを前記音素連鎖音節ＨＭＭセットに追加して、初期音素連鎖音節ＨＭＭ及び音節連鎖ＨＭＭセットを生成し、
前記初期音素連鎖音節ＨＭＭ及び音節連鎖ＨＭＭセットを前記学習用音声データと前記音節ラベルデータを用いて学習することによって前記音響モデルとしての音素連鎖音節ＨＭＭ及び音節連鎖ＨＭＭセットを生成することを特徴とする音響モデル作成方法。
音響モデルとしての音節ＨＭＭ（隠れマルコフモデル）を作成する音響モデル作成装置であって、
それぞれの音素に対応する音素ＨＭＭを組み合わせて、それぞれの音節に対応する初期音素連鎖音節ＨＭＭからなる初期音素連鎖音節ＨＭＭセットを生成する初期音素連鎖音節ＨＭＭセット生成手段と、
前記初期音素連鎖音節ＨＭＭセットを学習して前記音響モデルとしての音素連鎖音節ＨＭＭセットを生成するＨＭＭ学習手段と、
前記音素連鎖音節ＨＭＭセットに対して学習用音声データを用いた予備認識実験を行う予備認識実験手段と、
前記予備認識実験手段により得られた予備認識実験の結果と前記学習用音声データに対応して用意された音節ラベルデータとを用いて、誤認識された音節と前記誤認識された音節につながる音節を調べ、前記誤認識された音節に対する正解音節と前記誤認識された音節につながる音節との組み合わせを音節連鎖として抽出する誤認識音節箇所抽出手段と、
前記誤認識音節箇所抽出手段によって抽出された音節連鎖に対応する音節連鎖ＨＭＭを前記音素連鎖音節ＨＭＭセットに追加して、初期音素連鎖音節ＨＭＭ及び音節連鎖ＨＭＭセットを生成する初期音素連鎖音節ＨＭＭ及び音節連鎖ＨＭＭセット生成手段と、
前記初期音素連鎖音節ＨＭＭ及び音節連鎖ＨＭＭセット生成手段により生成された初期音素連鎖音節ＨＭＭ及び音節連鎖ＨＭＭセットを前記学習用音声データと前記音節ラベルデータを用いて再学習することによって前記音響モデルとしての音素連鎖音節ＨＭＭ及び音節連鎖ＨＭＭセットを生成するＨＭＭ再学習手段と、
を有することを特徴とする音響モデル作成装置。