JP4103639B2 - 音響モデル作成方法および音響モデル作成装置ならびに音声認識装置 - Google Patents
音響モデル作成方法および音響モデル作成装置ならびに音声認識装置 Download PDFInfo
- Publication number
- JP4103639B2 JP4103639B2 JP2003070543A JP2003070543A JP4103639B2 JP 4103639 B2 JP4103639 B2 JP 4103639B2 JP 2003070543 A JP2003070543 A JP 2003070543A JP 2003070543 A JP2003070543 A JP 2003070543A JP 4103639 B2 JP4103639 B2 JP 4103639B2
- Authority
- JP
- Japan
- Prior art keywords
- syllable
- hmm
- chain
- phoneme
- acoustic model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 44
- 238000002474 experimental method Methods 0.000 claims abstract description 47
- 238000012549 training Methods 0.000 claims abstract description 8
- 238000000605 extraction Methods 0.000 claims description 4
- 238000009826 distribution Methods 0.000 description 50
- 238000012545 processing Methods 0.000 description 26
- 238000005457 optimization Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 14
- 238000012937 correction Methods 0.000 description 7
- 230000008878 coupling Effects 0.000 description 6
- 238000010168 coupling process Methods 0.000 description 6
- 238000005859 coupling reaction Methods 0.000 description 6
- 238000007476 Maximum Likelihood Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 206010023497 kuru Diseases 0.000 description 3
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/027—Syllables being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrically Operated Instructional Devices (AREA)
Description
【発明の属する技術分野】
本発明は、音響モデルとして混合連続分布型HMMを作成する音響モデル作成方法および音響モデル作成装置ならびにそれによって作成された音響モデルを用いた音声認識装置に関する。
【0002】
【従来の技術】
音声認識において、音響モデルとして音素や音節単位のHMMを用い、この音素HMMや音節HMMを連結して、単語や文節といった単位の音声言語を認識する方法が一般的に用いられている。
【0003】
しかし、従来の音素HMMや音節HMMでは、音節よりも長い区間での音素環境の変動を表現しにくく、結果的に音声認識率を低下させるという問題がある。
【0004】
この問題を解決するために、特開平8−123477号公報「不定長音響モデル作成装置および音声認識装置」に記載されているように、HMMの単位を音素よりも長くして数音素を表現する不定長音響モデルが知られている。
【0005】
【特許文献1】
特開平8−123477号公報
【0006】
【発明が解決しようとする課題】
この特許文献1に記載の不定長音響モデルは、ある1名の特定話者の発話特性に適応して学習的に音響モデルの単位を決めるため、不特定多数の話者に対する最適な音響モデルを学習することは困難であり、不特定話者音声認識への適用は難しいという問題がある。
【0007】
また、不定長音響モデルを多種用意することによる不定長音響モデル数の増加はHMMパラメータ数の増加を伴い、さらに、音素方向の単位(組み合わせる音素の数)が不定長であること、不定長音響モデルを接続して音声認識を行うことなどが原因で音声認識デコーダ部のソフトウエア規模が大きくなり、結果的に、小型、低価格、低消費電力型のハードウエアで構成される機器への適用は不向きである。
【0008】
そこで本発明は、これらの問題を解決し、音響モデルのパラメータ数を小さく抑えながら、音節よりも長い区間での音素環境の変動を吸収できる音響モデルとするための音響モデル作成方法および音響モデル作成装置を提供するとともに、これによって作成された音響モデルを用いることにより、演算能力やメモリ容量などハードウエア資源に大きな制約のある安価なシステムに適用できる音声認識装置を提供することを目的としている。
【0009】
【課題を解決するための手段】
上述した目的を達成するために、本発明の音響モデル作成方法は、音響モデルとしての音節HMMを作成する音響モデル作成方法であって、それぞれの音素対応の音素HMMからなる音素HMMセットを生成し、この音素HMMセットの音素HMMを組み合わせて、それぞれの音節対応の初期音素連鎖音節HMMからなる初期音素連鎖音節HMMセットを生成し、その初期音素連鎖音節HMMセットを学習することによって、前記音響モデルとしての音素連鎖音節HMMセットを生成することを特徴としている。
【0010】
このような音響モデル作成方法において、前記音素連鎖音節HMMセットに対して学習用音声データを用いた予備認識実験を行い、その予備認識実験結果と前記学習用音声データに対応して用意された音節ラベルデータとを用いて、誤認識された音節とその誤認識された音節につながる音節を調べ、その誤認識された音節に対する正解音節と前記誤認識された音節につながる音節との組み合わせを音節連鎖として抽出し、この音節連鎖に対応する音節連鎖HMMを前記音素連鎖音節HMMセットに追加して、初期音素連鎖音節HMM/音節連鎖HMMセットを生成したのち、この初期音素連鎖音節HMM/音節連鎖HMMセットを前記学習用音声データと前記音節ラベルデータを用いて学習することによって前記音響モデルとしての音素連鎖音節HMM/音節連鎖HMMセットを生成するようにしている。
【0011】
また、この音響モデル作成方法において、前記予備認識実験結果における前記音節連鎖の誤認識回数をカウントし、この予備認識実験結果により抽出された前記音節連鎖のうち、前記誤認識回数が予め設定された回数以上の音節連鎖に対応する音節連鎖HMMを前記音素連鎖音節HMMセットへの追加候補としている。
【0012】
また、この音響モデル作成方法において、前記誤認識回数に加えて、その音節連鎖が前記学習用音声データに対応する音節ラベルデータ中に出現する回数をカウントし、前記誤認識回数が予め設定された回数以上の音節連鎖の中で、前記学習用音声データに対応する音節ラベルデータ中の出現回数が予め設定した回数以下の音節連鎖に対応する音節連鎖HMMは、前記音素連鎖音節HMMセットへの追加候補から除外することが好ましい。
【0013】
また、この音響モデル作成方法において、前記音節ラベルデータは、前記音素連鎖音節HMMセットへの追加候補とされた前記音節連鎖HMMに対応する音節連鎖によって音節ラベルデータの修正がなされ、その音節ラベルデータの修正は、前記音素連鎖音節HMMセットへの追加候補とされた前記音節連鎖HMMに対応する音節連鎖を前記音節ラベルデータに適用する際、複数の音節連鎖が重複して適用可能となる場合は、前記誤認識回数の多い音節連鎖を優先して適用して、当該音節ラベルデータの修正を行うようにしている。
【0014】
また、この音響モデル作成方法において、前記音素連鎖音節HMMセットを生成する際に行われる初期音素連鎖音節HMMの学習および前記音素連鎖音節HMM/音節連鎖HMMセットを生成する際に行われる初期音素連鎖音節HMM/音節連鎖HMMの学習を行う際、共通の音素HMMが用いられる場合、その共通の音素HMMの各状態ごとにガウス分布共有を行うことが好ましい。
【0015】
また、この音響モデル作成方法において、前記誤認識された音節につながる音節は、当該誤認識された音節の先行音節であって、この先行音節と前記誤認識された音節に対する正解音節との組み合わせを前記音節連鎖として抽出するようにしている。
【0016】
また、この音響モデル作成方法において、前記音素連鎖音節HMMセットに対し、記述長最小基準を用いた分布数最適化処理を行って分布数の最適化された音素連鎖音節HMMセットを生成し、それを以降の処理に用いるようにすることも可能である。
【0017】
また、本発明の音響モデル作成装置は、音響モデルとしての音節HMMを作成する音響モデル作成装置であって、それぞれの音素対応に学習された音素HMMを組み合わせて、それぞれの音節対応の初期音素連鎖音節HMMからなる初期音素連鎖音節HMMセットを生成する初期音素連鎖音節HMMセット生成手段と、前記初期音素連鎖音節HMMセットを再学習して前記音響モデルとしての音素連鎖音節HMMセットを生成するHMM再学習手段とを有することを特徴としている。
【0018】
このような音響モデル作成装置において、前記構成要素に加え、音素連鎖音節HMMセットに対して学習用音声データを用いた予備認識実験を行う予備認識実験手段と、その予備認識実験手段により得られた予備認識実験結果と前記学習用音声データに対応して用意された音節ラベルデータとを用いて、誤認識された音節とその誤認識された音節につながる音節を調べ、その誤認識された音節に対する正解音節と前記誤認識された音節につながる音節との組み合わせを音節連鎖として抽出する誤認識音節箇所抽出手段と、この誤認識音節箇所抽出手段によって抽出された音節連鎖に対応する音節連鎖HMMを前記音素連鎖音節HMMセットに追加して、初期音素連鎖音節HMM/音節連鎖HMMセットを生成する初期音素連鎖音節HMM/音節連鎖HMMセット生成手段と、この初期音素連鎖音節HMM/音節連鎖HMMセット生成手段により生成された初期音素連鎖音節HMM/音節連鎖HMMセットを前記学習用音声データと前記音節ラベルデータを用いて再学習することによって前記音響モデルとしての音素連鎖音節HMM/音節連鎖HMMセットを生成するHMM再学習手段とを有している。
【0019】
また、この音響モデル作成装置において、前記誤認識音節箇所抽出手段は、予備認識実験結果における前記音節連鎖の誤認識回数をカウントし、この予備認識実験結果により抽出された前記音節連鎖のうち、前記誤認識回数が予め設定された回数以上の音節連鎖に対応する音節連鎖HMMを前記音素連鎖音節HMMセットへの追加候補としている。
【0020】
また、この音響モデル作成装置において、前記誤認識回数に加えて、その音節連鎖が前記学習用音声データに対応する音節ラベルデータ中に出現する回数をカウントし、前記誤認識回数が予め設定された回数以上の音節連鎖の中で、前記学習用音声データに対応する音節ラベルデータ中の出現回数が予め設定した回数以下の音節連鎖に対応する音節連鎖HMMは、前記音素連鎖音節HMMセットへの追加候補から除外することが好ましい。
【0021】
また、この音響モデル作成装置において、前記音節ラベルデータを修正する音節ラベルデータ修正手段を設け、この音節ラベルデータ修正手段は、前記音素連鎖音節HMMセットへの追加候補とされた前記音節連鎖HMMに対応する音節連鎖によって音節ラベルデータの修正を行い、その音節ラベルデータの修正処理は、前記音素連鎖音節HMMセットへの追加候補とされた前記音節連鎖HMMに対応する音節連鎖を前記音節ラベルデータに適用する際、複数の音節連鎖が重複して適用可能となる場合は、前記誤認識回数の多い音節連鎖を優先して適用して、当該音節ラベルデータの修正を行うようにしている。
【0022】
また、この音響モデル作成装置において、前記音素連鎖音節HMMセットを生成する際に行われる初期音素連鎖音節HMMの学習および前記音素連鎖音節HMM/音節連鎖HMMセットを生成する際に行われる初期音素連鎖音節HMM/音節連鎖HMMの学習を行う際、共通の音素HMMが用いられる場合、その共通の音素HMMの各状態ごとにガウス分布共有を行うことが好ましい。
【0023】
また、この音響モデル作成装置において、前記誤認識された音節につながる音節は、当該誤認識された音節の先行音節であって、この先行音節と前記誤認識された音節に対する正解音節との組み合わせを前記音節連鎖として抽出するようにしている。
【0024】
また、この音響モデル作成装置において、前記音素連鎖音節HMMセットに対して記述長最小基準を用いた分布数最適化処理を行う分布数最適化手段を設け、この分布数最適化手段によって分布数の最適化された音素連鎖音節HMMセットを生成し、それを以降の処理に用いることも可能である。
【0025】
また、本発明の音声認識装置は、入力音声を特徴分析して得られた特徴データに対し音響モデルとしてHMMを用いて前記入力音声を認識する音声認識装置であって、前記音響モデルとしてのHMMとして、上述した音響モデル作成方法または音響モデル作成装置によって作成された音響モデルを用いることを特徴としている。
【0026】
このように本発明では、まず、音素HMMを組み合わせて音素連鎖音節HMMを生成し、それをそれぞれの音節対応の音節HMMとして用いることを可能としている。このように、音素HMMを組み合わせて音素連鎖音節HMM(音節HMM)を生成することによって、少ない学習用音声データによってより効率的に学習ができるために、より高性能なHMMとすることができる。
【0027】
また、上述の音素HMMを組み合わせてなる音素連鎖音節HMMを用いて予備認識実験を行い、その予備認識実験結果において、認識しやすい音節箇所については、その誤認識された音節に対する正解音節と当該誤認識された音節につながる音節との組み合わせを音節連鎖として抽出し、この音節連鎖に対応する音節連鎖HMMを前記音素連鎖音節HMMセットに追加して初期音素連鎖音節HMM/音節連鎖HMMセットを生成したのち、この初期音素連鎖音節HMM/音節連鎖HMMセットを学習することによって音響モデルとしての音素連鎖音節HMM/音節連鎖HMMセットを生成するようにしているので、音節内のみならず、音節間の調音結合も考慮された音素連鎖音節HMM/音節連鎖HMMセットを生成することができ、この音素連鎖音節HMM/音節連鎖HMMセットを音響モデルとして用いることで、高い認識率を得ることができる。
【0028】
また、予備認識実験結果における音節連鎖の誤認識回数をカウントし、この予備認識実験結果に基づいて抽出された前記音節連鎖のうち、前記誤認識回数が予め設定された回数以上の音節連鎖に対応する音節連鎖HMMを前記音素連鎖音節HMMセットに追加候補とするようにしているので、音素連鎖音節HMMに追加する音節連鎖HMMをむやみに増やすことなく、実際の認識を行う際に有効な音節連鎖HMMだけを効率よく抽出することができる。
【0029】
さらに、誤認識回数に加えて、その音節連鎖が学習用音声データに対応する音節ラベルデータ中に出現する回数をカウントし、誤認識回数が予め設定された回数以上の音節連鎖の中で、前記出現回数が予め設定した回数以下の音節連鎖に対応する音節連鎖HMMに対しては、音素連鎖音節HMMセットへの追加候補から除外するようにしているので、これによって、実際の認識時に有効な音節連鎖HMMをより一層絞り込んで抽出することができる。
【0030】
また、音節ラベルデータは、音素連鎖音節HMMセットへの追加候補とされた音節連鎖HMMに対応する音節連鎖によって音節ラベルデータの修正がなされ、その音節ラベルデータの修正は、前記音素連鎖音節HMMセットへの追加候補とされた前記音節連鎖HMMに対応する音節連鎖を前記音節ラベルデータに適用する際、複数の音節連鎖が重複して適用可能となる場合は、前記誤認識回数の多い音節連鎖を優先して適用して、当該音節ラベルデータの音節ラベルデータの修正を行うようにしている。このように誤認識回数の多い音節連鎖を優先して適用することによって、音節ラベルデータ修正を行うようにしているので、音節連鎖HMM(初期音節連鎖HMM)に対し学習用音声データとこの修正後の音節ラベルデータを用いた学習を行うことによって、より高精度な音素連鎖音節HMM/音節連鎖HMMを生成することができる。
【0031】
また、前記音素連鎖音節HMMセットを生成する際に行われるHMMの学習および前記音素連鎖音節HMM/音節連鎖HMMセットを生成する際に行われるHMMの学習を行う際、共通の音素HMMが用いられる場合、その共通の音素HMMの各状態ごとにガウス分布共有を行うようにしているので、認識の単位が長くなることによる学習データ不足の問題に対処することができ、それによって、認識率の低下を防ぐことができる。
【0032】
また、誤認識された音節につながる音節は、当該誤認識された音節の先行音節であって、この先行音節と前記誤認識された音節に対する正解音節との組み合わせを前記音節連鎖とするようにしている。これは、誤認識された音節の後続音節との組み合わせでもよいが、実験の結果、先行音節との組み合わせの方がより好結果が得られたので、先行音節との組み合わせを音節連鎖とすることが実際の認識においても高い認識率が得られると考えられる。
【0033】
また、音素連鎖音節HMMに対して、分布数最適化手段によって分布数最適化処理を行うことで、その分布数最適化処理がなされたあとの個々の音素連鎖音節HMMは、それぞれの状態ごとに分布数の最適化がなされているので、十分な認識性能を確保した上でパラメータ数の大幅な削減が可能となり、それによって、使用メモリ量の削減、演算量の削減が図れ、処理能力の低いCPUでの動作が可能となり、低消費電力化も図れるので、低価格が要求されるシステムへの適用が可能となる。
【0034】
また、本発明の音声認識装置は、上述の本発明の音響モデル作成方法によって作成された音素連鎖音節HMM/音節連鎖HMMセットを用いている。この音素連鎖音節HMM/音節連鎖HMMセットは、音節内のみならず、音節間の調音結合も考慮されたものとなっているので、この音素連鎖音節HMM/音節連鎖HMMセットを音響モデルとして用いることで、高い認識率を得ることができる。また、音節連鎖HMMは、誤認識されやすい音節連鎖に対して作成されるので、音響モデルの規模が必要以上に大きくなるのを防ぐことができ、かつ、認識に有効な必要な最小限の音節連鎖HMMを持つことから、高い認識率を維持した上で、演算量の削減、使用メモリ量の削減が可能となり、それによって、処理速度の高速化、低価格化、低消費電力化も可能となるので、ハードウエア資源に大きな制約のある小型・安価なシステムに搭載する音声認識装置として極めて有用なものとなる。
【0035】
【発明の実施の形態】
以下、本発明の実施の形態について説明する。
【0036】
図1は本発明の音響モデル作成方法の実施形態を説明する全体的な処理の流れを説明するための図であり、この図1に沿って本発明の音響モデル作成方法および音響モデル作成装置について説明する。
【0037】
まず、HMM学習部2がそれぞれの音素HMMのパラメータについて、学習用音声データ1と音素ラベルデータ4を用いて最尤推定法により学習し、それによって、ある任意の最大分布数(たとえば分布数200)の音素HMMセット3が作成される。
【0038】
図2はこのような音素HMMセットの作成手順を説明する図である。図2において、HMM学習部2では、学習用音声データ1と音素ラベルデータ4を用いて最尤推定法によってそれぞれの音素(ここでは、音素/a/、音素/k/、・・・など43音素とする)に対応する音素HMMついて学習を行った結果、最大分布数として、この場合、分布数200の音素HMMセット3が作成される。なお、この例では、個々の音素対応の音素HMMは、自己ループを有する3つの状態S0,S1,S2と、自己ループを持たない最終状態S3で構成されるものとする。
【0039】
なお、図2において、音素HMMセット3の各音素HMMの自己ループを有する各状態S0,S1,S2の下に描かれている楕円形枠A内のガウス分布がそれぞれの状態における分布例を示すもので、この音素HMMセット3は、どの音素HMMについても200個の分布を有している。
【0040】
次に、図1に説明が戻って、HMM学習部2の学習によって得られた音素HMMセット3を用いて、初期音素連鎖音節HMMセット生成部5が初期音素連鎖音節HMMセット6を生成する。この初期音素連鎖音節HMMセット6の生成について図3を参照しながら説明する。
【0041】
なお、この初期音素連鎖音節HMMセット6の“初期”というのは、ここでは学習前のHMMであることを意味している。また、音素連鎖音節HMMというのは、2つの音素HMMを接続することによって生成された音節HMMのことであって、これをここでは音素連鎖音節HMMと呼んでいる。
【0042】
この図3の例では、同図(a)に示すような/k/の音素に対応する音素HMMと/a/の音素に対応する音素HMMを接続することによって、同図(b)に示すような/ka/の音節に対応する音素連鎖音節HMMを生成する例と、同図(d)に示すような/s/の音素に対応する音素HMMと/a/の音素に対応する音素HMMを接続することによって、同図(c)に示すような/sa/の音節に対応する音素連鎖音節HMMを生成する例が示されているが、このように、2つ音素HMMを接続することよって、すべての音節(たとえば、124音節)に対応するHMMセット(初期音素連鎖音節HMMセット6)を生成する。
【0043】
このような初期音素連鎖音節HMMセット6を生成する際、同じ音素HMMを共有する場合があるが、その場合、その音素HMM(図3の例では、/a/の音素に対応する音素HMM)の自己ループを有するそれぞれの状態(S0,S1,S2)ごとにパラメータを共有(分布共有)する。そして、その初期音素連鎖音節HMMセット6の各音節連鎖音節HMMに対してHMM再学習部8が学習用音声データ1と音節ラベルデータ7を用いて最尤推定法により再学習し、それによって、音素連鎖音節HMMセット9が生成される。
【0044】
このHMM再学習部8によるHMM再学習によって得られる各音節対応の音素連鎖音節HMMは、同じ音素HMMにおいて各状態ごとの分布共有がなされることによって、その音素HMMの各状態における平均値、分散、重みといったパラメータのうち重みがそれぞれの音素連鎖音節HMMに対応した値に変化したものとなり、それによって、たとえば、同じ/a/の音素に対応する音素HMMを用いた/ka/と/sa/の各音節に対応する音素連鎖音節HMMであっても、調音結合の考慮された音素連鎖音節HMMとなる。
【0045】
以上の処理手順によって生成された音素連鎖音節HMMセット9は、それ自体を音響モデルとして用いることができる。この音素HMMを組み合わせて生成された音素連鎖音節HMMからなる音素連鎖音節HMMセット9は、従来の音節HMMセットと比べると、少ない学習用音声データによってより効率的に学習ができるためにより高性能なHMMセットとすることができ、それによって、音響モデルとして従来の音節HMMセットを用いた音声認識よりも、より高い認識率が得られる。なお、この実施形態では、この音素連鎖音節HMMセット9を用いた、さらに、以下の処理を行う。
【0046】
まず、この音素連鎖音節HMMセット9のそれぞれの音節(たとえば124音節)に対応するそれぞれ音素連鎖音節HMMを用いて予備認識実験を行う。この予備認識実験は図1で示した予備認識実験部10が音素連鎖音節HMMセット9に存在する個々の音素連鎖音節HMMと学習用音声データ1を用いて行う。
【0047】
この予備認識実験部10による認識実験を行った結果は、予備認識実験結果11として保存される。この予備認識実験結果11は、たとえば、様々な学習用音声データに対応してその認識結果としての連続音節列が記述されたものとして保存される。
【0048】
次に、この予備認識実験結果11を用いて、誤認識された音節箇所を抽出する。この誤認識された音節箇所の抽出は、誤認識音節箇所抽出部11が音節ラベルデータ7と予備認識実験結果11を用いて行う。この誤認識音節箇所抽出処理について図4を参照しながら説明する。
【0049】
ここで行われる処理は、予備認識実験結果11と正解データ(音節ラベルデータ7)とをたとえばパターンマッチングなどによって比較して、どの音節箇所が誤認識したかを見つけ、その誤認識した音節に対する正解音節とその誤認識した音節につながる音節の組み合わせを音節連鎖(ここでは、2つの音節の組み合わせを音節連鎖と呼んでいる)として抽出するものである。ここで、誤認識した音節につながる音節というのは、誤認識した音節の直前の音節(先行音節)、または、誤認識した音節の直後の音節(後続音節)が考えられるが、この実施形態では、前者、すなわち、誤認識した音節の先行音節であるとする。
【0050】
なお、音節ラベルデータ7は、すべての学習用音声データ(学習用音声データ1に格納されている音声データ)に対する正解の音節列が記述されているもので、たとえば、「黒い車(kuroikuruma)」という学習用音声データに対しては、/ku/、/ro/、/i/、/ku/、/ru/、/ma/というような音節列が正解データとして記述されている。
【0051】
ここで、たとえば、「黒い車」という学習用音声データに対する予備認識実験の結果が、図4(a)に示すように、/ku/、/to/、/i/、/ku/、/u/、/ma/であったとすると、それに対応する音節ラベルデータ(正解データ)は図4(b)に示すように、その音節列は/ku/、/ro/、/i/、/ku/、/ru/、/ma/である。
【0052】
ここで、両者を比較すると、この図4からもわかるように、四角い破線枠Bで囲った音節箇所が誤認識されている。すなわち、/ro/の音節箇所が/to/と誤認識され、同様に、/ru/の音節箇所が/u/と誤認識されている。そこで、誤認識した音節に対する正解音節とその誤認識した音節につながる音節(先行音節)の組み合わせでなる2音節を音節連鎖として抽出する。
【0053】
すなわち、この図4の例では、楕円形枠Cで囲まれた箇所/kuro/と/kuru/が、誤認識した音節に対する正解音節とその誤認識した音節につながる先行音節の組み合わせでなる2音節が音節連鎖としてそれぞれ抽出されることになる。
【0054】
なお、これら/kuro/と/kuru/は、それぞれが2つの音節を接続してなる音節連鎖であり、これらそれぞれの音節HMMとしては、/kuro/の場合は、/ku/の音節に対応する音節HMMと/ro/の音節に対応する音節HMMの2つの音節HMMの組み合わせであり、また、/kuru/は/ku/の音節に対応する音節HMMと/ru/の音節に対応する音節HMMの2つの音節HMMの組み合わせである。このように、2つの音節HMMを接続してなる2音節HMMをここでは音節連鎖HMMと呼ぶ。
【0055】
このようにして、予備認識実験結果11すべてについて誤認識音節箇所を調べ、誤認識した音節に対する正解音節とその誤認識した音節につながる先行音節の組み合わせでなる2音節を音節連鎖として抽出し、抽出されたすべての音節連鎖に対応する音節連鎖HMMを、音素連鎖音節HMMセット9に追加する候補とし、その追加候補としての音節連鎖HMMと、そのそれぞれの音節連鎖に対して予備認識実験を行った結果、何回誤認識されたかをカウントし、その誤認識回数を保持する。
【0056】
図5はその一例であり、幾つかの音節連鎖に対する誤認識回数のカウント結果を示すもので、この図5は上述した図4の音節ラベルデータ以外の音節ラベルデータとのパターンマッチングによって誤認識とされた音節連鎖も幾つか示されている。
【0057】
この図5の例では、/ku/と/ra/の組み合わせによる音節連鎖(2つの音節の組み合わせによる音節連鎖を以下では/ku−ra/というように表す)の誤認識回数は134、/ku−ru/の音節連鎖の誤認識回数は189、/ku−re/の音節連鎖の誤認識回数は75、/ku−ro/の音節連鎖の誤認識回数は165、/ro−i/の音節連鎖の誤認識回数は286、/i−ku/の音節連鎖の誤認識回数は241というように、追加候補となるそれぞれの音節連鎖HMMに対応するそれぞれの音節連鎖ごとの誤認識回数が記述される。なお、この音節連鎖とそれに対する誤認識回数を保存する際、誤認識回数でソートし、誤認識回数の多い順での並びで保存するようにしてもよい。
【0058】
そして、この図5に示す各音節連鎖とそれに対する誤認識回数において、まず、誤認識回数がN回(この実施形態ではN=100とする)以上の音節連鎖を検索し、誤認識回数が100回以上の音節連鎖について、その音節連鎖が全学習用音声データ1に対応する全音節ラベルデータ7の中に出現する回数をカウントする。
【0059】
この図5に示す各音節連鎖とそれに対する誤認識回数の関係から誤認識回数が100回以上の音節連鎖を検索すると、この場合、/ku−re/の音節連鎖は誤認識回数が75であるので100以下であり、誤認識回数が100以上のものは、/ku−ra/、/ku−ru/、/ku−ro/、/ro−i/、/i−ku/の各音節連鎖である。したがって、この図5の例では、これら/ku−ra/、/ku−ru/、/ku−ro/、/ro−i/、/i−ku/の各音節連鎖に対応するそれぞれの音節連鎖HMMが追加候補の音節連鎖HMMとなる。
【0060】
次に、これら/ku−ra/、/ku−ru/、/ku−ro/、/ro−i/、/i−ku/の各音節連鎖について、その音節連鎖が全学習用音声データ1に対応する全音節ラベルデータ7の中に出現する回数をカウントする。これは、音節ラベルデータから検索すればよい。この検索結果の一例を図6に示す。
【0061】
図6において、/ku−ra/の音節連鎖が全音節ラベルデータ7の中に出現する回数は185、/ku−ru/の音節連鎖が全音節ラベルデータ7の中に出現する回数は234、/ku−ro/の音節連鎖が全音節ラベルデータ7の中に出現する回数は215、/ro−i/の音節連鎖が全音節ラベルデータ7の中に出現する回数は305、/i−ku/の音節連鎖が全音節ラベルデータ7の中に出現する回数は276である。なお、この図5や図6で示された音節連鎖の例は、ほんの一部である。
【0062】
そして、図6に示された出現回数において、その出現回数がM回以下(ここではM=200とする)の音節連鎖に対応する音節連鎖HMMを追加候補から外す。図6の例では、/ku−ra/の音節連鎖は出現回数が185であり200回以下であるので、その音節連鎖に対応する音節連鎖HMMを追加候補から外す。
【0063】
したがって、この図6に示されている内容に限っていえば、/ku−ru/の音節連鎖に対応する音節連鎖HMM、/ku−ro/の音節連鎖に対応する音節連鎖HMM、/ro−i/の音節連鎖に対応する音節連鎖HMM、/i−ku/の音節連鎖に対応する音節連鎖HMMが音素連鎖音節HMMセット9に追加される音節連鎖HMMとなる。
【0064】
このように、まず、第1段階として誤認識回数がN回(ここではN=100)以上の音節連鎖を抽出し、第2段階としてその誤認識回数がN回以上の音節連鎖について全音節ラベルデータ7中の出現回数がM回以下の音節連鎖に対応するHMMを候補から除外し、残った音節連鎖に対応する音節連鎖HMMを音素連鎖音節HMMセット9への追加候補とする。
【0065】
これによって、この例に限っていえば、/ku−ru/の音節連鎖に対応する音節連鎖HMM、/ku−ro/の音節連鎖に対応する音節連鎖HMM、/ro−i/の音節連鎖に対応する音節連鎖HMM、/i−ku/の音節連鎖に対応する音節連鎖HMMが音素連鎖音節HMMセット9に追加される音節連鎖HMMとなり、図7に示すような追加候補音節連鎖HMMリスト13が生成され、音素連鎖音節HMMセット9に追加される音節連鎖HMMに対応するそれぞれの音節連鎖とその誤認識回数が記述される。なお、この図7に示すデータは、それぞれの音節連鎖が誤認識回数でソートされていて、誤認識回数の多い順に並べられている。
【0066】
そして、この図7のデータは、図1に示すように音節ラベルデータ修正部14と初期音素連鎖音節HMM/音節連鎖HMMセット生成部15に渡される。なお、この初期音素連鎖音節HMM/音節連鎖HMMセット生成部15の“初期”も前述同様、学習前のHMMであることを意味している。
【0067】
音節ラベルデータ修正部14は、図7に示すデータを用いて音節ラベルデータ7の音節ラベルデータ修正(音節の区切り)を行う。この音節ラベルデータ修正処理について、ここでは、「黒い車(kuroikuruma)」という学習用音声データに対応する音節ラベルデータ/ku/ /ro/ /i/ /ku/ /ru/ /ma/を例にとって説明する。
【0068】
このような音節ラベルデータに対し、音素連鎖音節HMMセット9への追加候補とされた音節連鎖HMMに対応する音節連鎖を適用する際、複数の候補が重複する場合がある。この/ku/ /ro/ /i/ /ku/ /ru/ /ma/という音節ラベルデータに、たとえば、図7に示すような音節連鎖を適用しようとすると、この場合、図8に示すように、幾つかの音節連鎖が重複する。
【0069】
図8において、(a)に示す/ku/ /ro/ /i/ /ku/ /ru/ /ma/という音節ラベルデータに対し、図7に示す音節連鎖を適用しようとすると、図8(b)に示すように/ku−ro/、図8(c)に示すように/ro−i/、図8(d)に示すように/i−ku/、図8(e)に示すように/ku−ru/が適用可能であることがわかる。この場合、音節としては/ku−ro/の/ro/と/ro−i/の/ro/が重複し、/ro−i/の/i/と/i−ku/の/i/が重複し、また、/i−ku/の/ku/と/ku−ru/の/ku/が重複することになる。
【0070】
このように、ある音節ラベルデータに対し、音節連鎖を適用しようとするとき、音節連鎖が重複する場合は、誤認識回数の多い音節連鎖を優先して適用する。これについて図9を参照しながら説明する。
【0071】
図9において、(a)に示す/ku/ /ro/ /i/ /ku/ /ru/ /ma/という音節ラベルデータに対し、この例では、/ku−ro/、/ro−i/、/i−ku/、/ku−ru/の各音節連鎖が適用可能であるが、これらの音節連鎖のなかで、まず、最も誤認識回数の多い/ro−i/の音節連鎖(図7によれば誤認識回数が286で最も多い)を適用する。これによって、この段階では図9(b)のように、音節ラベルデータは/ro/と/i/が接続され、/ku/ /ro−i/ /ku/ /ru/ /ma/のように置き換えられる。
【0072】
続いて、この図9(b)に対して音節連鎖を適用するが、このとき、置き換え後の音節の前後の音節との組み合わせの置き換えはできないものとする。つまり、次に適用される音節連鎖としては、/ro−i/の次に誤認識回数の多い/i−ku/の音節連鎖であるが、置き換え後の音節の前後の音節との組み合わせの置き換えはできないとしているので、この/i−ku/の音節連鎖は適用できないため、次に誤認識回数の多い/ku−ru/の音節連鎖を適用する。これによって、この段階では図9(c)のように、音節ラベルデータは、/ku/ /ro−i/ /ku−ru/ /ma/というように置き換えられる。
【0073】
続いて、この図9(c)に対して音節連鎖を適用する。ここで、適用される音節連鎖としては、/ku−ro/の音節連鎖であるが、この場合も、置き換え後の音節の前後の音節との組み合わせの置き換えはできないとしているので、この/ku−ro/の音節連鎖は適用できない。したがって、ここで処理を終了し、結局、図9(d)のような修正後の音節ラベルデータが修正結果として得られ、この修正後の音声ラベルデータは、/ku/ /ro−i/ /ku−ru/ /ma/となる。
【0074】
このような処理をすべての音節ラベルデータに対して行い、それぞれの音声ラベルデータに対する修正音節ラベルデータ16(図1参照)として保存する。
【0075】
以上のようにして、追加候補音節連鎖HMMリスト13(図7参照)を用いた音節ラベルデータの修正処理が終了する。また、この追加候補音節連鎖HMMリスト13(図7参照)のデータは、初期音素連鎖音節HMM/音節連鎖HMMセット生成部15にも与えられ、音素連鎖音節HMMセット9に保存されたそれぞれの音素連鎖音節HMM(個々の音素連鎖音節HMMは2つの音素HMMの組み合わせで構成されている)に、新たに生成された音節連鎖HMM(図7に示す音節連鎖に対応する音節連鎖HMM)を追加することによって、初期音素連鎖音節HMM/音節連鎖HMMセット17が生成される。このとき、前述した初期音素連鎖音節HMMセット生成部5による初期音素連鎖音節HMMセット生成時と同様、同一音素HMMを共用する場合は、共用する音素HMM同士の各状態ごとに分布共有を行う。この分布共有の一例を図10に示す。
【0076】
図10は新たに追加された音節連鎖HMM例として、たとえば、/ku−ro/の音節連鎖に対応する音節連鎖HMMと/ke−ro/の音節連鎖に対応する音節連鎖HMMを示すもので、図10(a)に示される/ku−ro/の音節連鎖に対応する音節連鎖HMMは、/ku/の音節に対応する音節HMMと/ro/の音節に対応する音節HMMが接続されてなるもので、また、/ku/の音節に対応する音節HMMは/k/と/u/の各音素に対応する音素HMMが接続されてなり、/ro/の音節に対応する音節HMMは/r/と/o/の各音素に対応する音素HMMが接続されてなるものである。同様に、図10(b)に示される/ke−ro/の音節連鎖に対応する音節連鎖HMMは、/ke/の音節に対応する音節HMMと/ro/の音節に対応する音節HMMが接続されてなるもので、また、/ke/の音節に対応する音節HMMは/k/と/e/の各音素に対応する音素HMMが接続されてなり、/ro/の音節に対応する音節HMMは/r/と/o/の各音素に対応する音素HMMが接続されてなるものである。
【0077】
このような/ku−ro/の音節連鎖に対応する音節連鎖HMMと/ke−ro/の音節連鎖に対応する音節連鎖HMMは、同一音素のHMMとして、/k/、/r/、/o/の各音素に対応する音素HMMが共用可能である。そこで、共用可能な音素HMMは、それぞれの状態ごとに分布共有する。
【0078】
そして、このように生成された初期音素連鎖音節HMM/音節連鎖HMMセット17について、HMM再学習部18が学習用音声データ1と修正音節ラベルデータ16を用いて最尤推定法により再学習する。このHMM再学習部18によるHMM再学習によって得られるそれぞれの音節連鎖HMMは、共有する音素HMMの各状態における平均値、分散、重みといったパラメータのうち重みがそれぞれのHMMに対応した値に変化したものとなり、それによって、たとえば、この図10のように、同じ/k/、/r/、/o/の各音素に対応する音素HMMを用いた/ku−ro/の音節連鎖に対応する音節連鎖HMMと/ke−ro/の音節連鎖に対応する音節連鎖HMMであっても、それぞれに調音結合の考慮された音節連鎖HMMとなる。
【0079】
このようにして、初期音素連鎖音節HMM/音節連鎖HMMセット17に存在するそれぞれの音素連鎖音節HMM/音節連鎖HMMを再学習してなる学習済みの音素連鎖音節HMM/音節連鎖HMMセット19が作成される。この音素連鎖音節HMM/音節連鎖HMMセット19は、この実施形態において得ようとする最終的な音響モデルであり、この音素連鎖音節HMM/音節連鎖HMMセット19を音響モデルとして用いて音声認識を行うことで、より高い認識率を得ることができる。
【0080】
なお、上述の実施形態では、予備認識実験結果11を用いて誤認識音節箇所を抽出し、それに基づいて追加候補音節連鎖HMMリスト13を生成する際に、まず、第1段階として誤認識回数がN回(ここではN=100)以上の音節連鎖を抽出し、第2段階として、その誤認識回数がN回以上の音節連鎖について全学習用音声データ1に対応する全音節ラベルデータ7の中の出現回数がM回以下の音節連鎖を候補から除外し、残った音節連鎖に対応する音節連鎖HMMを音素連鎖音節HMMセット9への追加候補とするというように、2段階の手順を行い、その2段階の処理を行ったあと、残った音節連鎖を追加候補音節連鎖として追加候補音節連鎖HMMリスト13に保存するようにしたが、2段階目の処理を行わず、第1段階のみの処理によって、追加候補音節連鎖を取得するようにしてもよく、それによっても、高い認識率を得ることができる。なお、2段階目までの処理を行った方が、追加すべき音節連鎖の数をより絞り込むことができ、全体的なデータ量を削減することができ、かつ、実際の認識を行う際も高い認識率を得ることができる。
【0081】
また、音素連鎖音節HMMセット9に保存された各音素連鎖音節HMMに対してMDL(記述長最小:Minimum Description Length)基準を用いた分布数の最適化処理を行い、その分布数の最適化処理が行われたあとの各音素連鎖音節HMMからなる音素連鎖音節HMMセットを予備認識実験部10と初期音素連鎖音節HMM/音節連鎖HMMセット生成部15に渡すようにしてもよい。このMDL基準を用いた分布数の最適化処理を追加した構成図を図11に示す。
【0082】
この図11は図1の構成において、音素連鎖音節HMMセット9の出力側に、MDL基準を用いた分布数の最適化処理を行う分布数最適化部21が設けられ、この分布数最適化部21によって、分布数の最適化がなされた音素連鎖音節HMMセット22が作成され、この音素連鎖音節HMMセット22が予備認識実験部10と初期音節連鎖音節HMM/音節連鎖HMMセット生成部15に渡されるようになっている点が異なるだけで、その他は図1と同様であるので、同一部分には同一符号を付すことでそれらの説明は省略する。
【0083】
この分布数最適化部21は、それを要約すれば、HMMを構成する複数の状態の各状態ごとに、ガウス分布数をある値から最大分布数までの複数種類の分布数に設定し、この複数種類のガウス分布数に設定されたそれぞれの状態に対して、それぞれのガウス分布数ごとに記述長最小基準を用いて記述長を求め、この記述長が最小となるガウス分布数を持つ状態をそれぞれの状態ごとに選択し、このそれぞれの状態ごとに選択された記述長が最小となるガウス分布数を持つ状態によってそのHMMを構築し、その構築されたHMMを学習用音声データ1を用いて再学習するというものであり、それによって、それぞれの状態のガウス分布数がそれぞれの状態ごとに最適化された音素連鎖音節HMMでなる音素連鎖音節HMMセット22が生成される。
【0084】
このMDL基準を用いた分布数の最適化処理については、本発明の発明者等による論文、山本一公 池田太郎 松本 弘 西谷正信 宮澤康永“コンパクトで高精度な音節モデルの検討”、日本音響学会2002年秋季研究発表会講演論文集、1−9−22に記載されている。
【0085】
この分布数最適化部21によって分布数最適化処理がなされたあとの個々の音素連鎖音節HMMは、それぞれの状態ごとに分布数の最適化がなされているので、十分な認識性能を確保した上でパラメータ数の大幅な削減が可能となり、それによって、使用メモリ量の削減、演算量の削減が図れ、処理能力の低いCPUでの動作が可能となり、低消費電力化も図れるので、低価格が要求されるシステムへの適用が可能となる。
【0086】
さらに、上述した論文の中にも示されているように、同一子音や同一母音を持つ音素連鎖音節HMMにおいて、これらの音素連鎖音節HMMを構成する複数の状態(自己ループを有する状態)のうち、たとえば、初期状態または最終状態を共有した音素連鎖音節HMMを構築し、その状態共有がなされた音素連鎖音節HMMに対して、前述の分布数を最適化する技術を適用することもできる。このような状態共有がなされることによって、パラメータ数をより多く削減することができる。
【0087】
また、本発明は、音素HMMを接続して音素連鎖音節HMMを生成するということも特徴の1つとしており、その音素連鎖音節HMM(図1においては音素連鎖音節HMMセット9、図11においては、MDL基準を用いて生成された音素連鎖音節HMMセット22)を音響モデルとして用いることも可能である。
【0088】
このような、音素連鎖音節HMMセット9または音素連鎖音節HMMセット22は、従来の音節HMMセットと比べると、少ない学習用音声データによってより効率的に学習ができるためにより高性能なHMMセットとすることができ、それによって、従来の音節HMMセットを用いた音声認識よりも、より高い認識率が得られる。
【0089】
図12はこれまで説明した実施形態によって作成された音響モデル(ここでは図1の音素連鎖音節HMM/音節連鎖HMMセット19)を用いた音声認識装置の構成を示す図であり、音声入力用のマイクロホン31、このマイクロホン31から入力された音声を増幅するとともにディジタル信号に変換する入力信号処理部32、入力信号処理部からのディジタル変換された音声信号から特徴データ(特徴ベクトル)を抽出する特徴分析部33、この特徴分析部33から出力される特徴データに対し、音響モデル34や言語モデル35を用いて音声認識する音声認識処理部36から構成され、この音響モデル34として、図1の音素連鎖音節HMM/音節連鎖HMMセット19を用いる。
【0090】
このように、この音声認識装置は、その音声認識を行うための音響モデル34としての音素連鎖音節HMM/音節連鎖HMMセット19は、簡単にいえば、音素HMMを組み合わせてなる音素連鎖音節HMMセット9を構成し、その音素連鎖音節HMMセット9に対して予備認識実験を行った結果、誤認識されやすい音素連鎖音節HMMを抽出して、誤認識された音節箇所については、その誤認識された音節に対する正解音節とその先行音節との組み合わせを抽出し、その正解音節と先行音節との組み合わせ(誤認識回数や出現回数などを考慮する)でなる音節連鎖に対応する音節連鎖HMMを音素連鎖音節HMMセット9に追加して、それを再学習したものである。
【0091】
このような音素連鎖音節HMM/音節連鎖HMMセット19は、音節内のみならず、音節間の調音結合も考慮された高精度な音響モデルとなるので、高い認識性能を維持した上で、パラメータ数を削減することができ、それによって、演算量の削減、使用メモリ量の削減が図れ、処理速度の高速化が図れ、さらに、低価格、低消費電力化も可能となるので、ハードウエア資源に大きな制約のある小型・安価なシステムにも搭載する音声認識装置として極めて有用なものとなる。
【0092】
ところで、この音素連鎖音節HMM/音節連鎖HMMセット19を音響モデルとして用いて実際に音声認識を行った結果について以下に述べる。
【0093】
まず、124音節(ただし単音節)の従来の音節HMMセットを用いた連続音節認識実験では、認識率が68.13%であったものが、音素連鎖音節HMMセットとすることで、認識率を70.42%とすることができ、さらに、このような音素連鎖音節HMMセットに対し上述したMDL基準を用いて分布数の最適化がなされ、それによって、分布数が削減された場合は、分布数が削減されたにもかかわらず70.65%の認識率を得ることができる。
【0094】
そして、この音素連鎖音節HMMセットを用いて前述の実施形態で説明したような手順によって生成された音素連鎖音節HMM/音節連鎖HMMセットにおいては、たとえば、図5で説明した誤認識回数(N=100とし、誤認識回数が100回以上を抽出)を考慮した場合は、72.54%の認識率を得ることができた。さらに、誤認識回数と出現頻度(M=200とし、200回以下の出現回数は除外)を考慮した場合は、73.42%の認識率を得ることができた。
【0095】
この実験結果からも明らかなように、本発明により生成された音素連鎖音節HMM/音節連鎖HMMセット19は、高い認識率を得ることができ、この音素連鎖音節HMM/音節連鎖HMMセット19を音響モデルとして用いることで認識性能の大幅な改善が期待できる。また、前述したように、単に、音素HMMを2つ組み合わせてなる音素連鎖音節HMMとした場合であっても、従来の単音節の音節HMMを用いた場合に比べれば、認識率の向上が図れる。
【0096】
なお、本発明は上述の実施の形態に限られるものではなく、本発明の要旨を逸脱しない範囲で種々変形実施可能となるものである。たとえば、前述の実施形態では、予備認識実験を行った結果、誤認識されやすい音節を抽出して、誤認識された音節部分については、その誤認識された音節に対する正解音節とその先行音節との組み合わせを抽出したが、先行音節との組み合わせに限られることはなく、広い意味で言えば、誤認識された音節に対する正解音節を含む音節であって、たとえば、後続音節との組み合わせであってもよく、または、前後の音節との組み合わせであってもよい。
【0097】
また、本発明は以上説明した本発明を実現するための処理手順が記述された処理プログラムを作成し、その処理プログラムをフロッピィディスク、光ディスク、ハードディスクなどの記録媒体に記録させておくこともでき、本発明は、その処理プログラムの記録された記録媒体をも含むものである。また、ネットワークから当該処理プログラムを得るようにしてもよい。
【0098】
【発明の効果】
以上説明したように本発明の音響モデル作成方法および音響モデル作成装置によれば、音素HMMを組み合わせて音素連鎖音節HMMを生成し、それをそれぞれの音節対応の音節HMMとして用いることを可能としている。このように、音素HMMを組み合わせて音素連鎖音節HMM(音節HMM)を生成することによって、少ない学習用音声データによってより効率的に学習ができるためにより高性能なHMMとすることができる。
【0099】
また、本発明の音響モデル生成方法および音響モデル作成装置では、さらに、音素HMMを組み合わせた音素連鎖音節HMMからなる音素連鎖音節HMMセットを用いて認識実験を行い、その実験結果に基づいて、誤認識しやすい音節箇所については、その誤認識された音節に対する正解音節と当該誤認識された音節につながる音節との組み合わせを音節連鎖として抽出し、この音節連鎖に対応する音節連鎖HMMを前記音素連鎖音節HMMセットに追加して、音素連鎖音節HMM/音節連鎖HMMセットを生成するようにしているので、音節内のみならず、音節間の調音結合も考慮された音節連鎖HMMセットを生成することができ、この音素連鎖音節HMM/音節連鎖HMMセットを音響モデルとして用いることで、高い認識率を得ることができる。
【0100】
また、認識実験結果を用いて音節連鎖の誤認識回数をカウントし、その誤認識回数が予め設定された回数以上の音節連鎖に対応する音節連鎖HMMを前記音素連鎖音節HMMセットに追加候補とするようにしているので、音素連鎖音節HMMに追加する音節連鎖HMMをむやみに増やすことなく、実際の認識時に有効な音節連鎖HMMだけを効率よく抽出することができる。さらに、その誤認識回数に加えて、その音節連鎖が前記学習用音声データに対応する音節ラベルデータ中に出現する回数をカウントし、前記誤認識回数が予め設定された回数以上の音節連鎖の中で、前記学習用音声データ中の出現回数が予め設定した回数以下の音節連鎖に対応する音節連鎖HMMを前記音素連鎖音節HMMセットへの追加候補から除外するようにしているので、実際の認識に有効な音節連鎖HMMをより一層絞り込んで抽出することができる。
【0101】
また、音節ラベルデータは、音素連鎖音節HMMセットへの追加候補とされた前記音節連鎖HMMに対応する音節連鎖を前記音節ラベルデータに適用する際、複数の音節連鎖が重複して適用可能である場合は、前記誤認識回数の多い音節連鎖を優先して適用し、当該音節ラベルデータの音節区切りを修正するようにしている。このように誤認識回数の多い音節連鎖を優先して適用することで音節ラベルデータ修正を行うようにしているので、初期音素連鎖音節HMM/音節連鎖HMMセットに対し学習用音声データとこの修正後の音節ラベルデータを用いた学習を行うことによって、より高精度な音素連鎖音節HMM/音節連鎖HMMセットを生成することができる。
【0102】
また、前記音素連鎖音節HMMセットを生成する際に行われるHMMの学習および前記音素連鎖音節HMM/音節連鎖HMMセットを生成する際に行われるHMMの学習を行う際、共通の音素HMMが用いられる場合、その共通の音素HMMの各状態ごとにガウス分布共有を行うようにしているので、認識の単位が長くなることによる学習データ不足の問題に対処することができ、それによって、認識率の低下を防ぐことができる。
【0103】
また、誤認識された音節につながる音節は、当該誤認識された音節の先行音節であって、この先行音節と前記誤認識された音節に対する正解音節との組み合わせを前記音節連鎖とするようにしている。これは、誤認識された音節の後続音節との組み合わせでもよいが、実験の結果、先行音節との組み合わせの方がより好結果が得られたので、先行音節との組み合わせを音節連鎖とすることが実際の認識においても高い認識率が得られると考えられる。
【0104】
また、本発明の音声認識装置は、上述の本発明の音響モデル作成方法によって作成された音素連鎖音節HMM/音節連鎖HMMセット用いている。この音素連鎖音節HMM/音節連鎖HMMセットは、音節内のみならず、音節間の調音結合も考慮されたものとなっているので、この音素連鎖音節HMM/音節連鎖HMMセットを音響モデルとして用いることで、高い認識率を得ることができる。また、音節連鎖HMMは、誤認識されやすい音節連鎖に対して作成されるので、音響モデルの規模が必要以上に大きくなるのを防ぐことができ、かつ、認識に有効な音節連鎖HMMを持つことから高い認識率を得ることができ、さらに、演算量の削減、使用メモリ量の削減が可能となり、それによって、処理速度の高速化、低価格化、低消費電力化も可能となるので、ハードウエア資源に大きな制約のある小型・安価なシステムに搭載する音声認識装置として極めて有用なものとなる。
【図面の簡単な説明】
【図1】 本発明の音響モデル作成処理の実施形態を説明する図である。
【図2】 図1で示した音響モデル作成処理において音素HMMセットを学習することによる音素HMM生成処理を説明する図である。
【図3】 図2で生成された音素HMMセットを用いて初期音素連鎖音節HMMセットの生成処理を説明する図である。
【図4】 図1の音響モデル作成処理において予備認識実験結果と正解データ(音節ラベルデータ)とを比較することで、誤認識された音節に対する正解音節とその先行音節との組み合わせを音節連鎖として抽出する具体例を説明する図である。
【図5】 図4によって抽出された音節連鎖とその誤認識回数の一例を示す図である。
【図6】 図4によって抽出された音節連鎖が全学習用音声データ中に出現した回数をカウントした結果の一例を示す図である。
【図7】 図5の結果において誤認識回数が予め設定した回数以上の音節連鎖の中で、図6の出現回数が予め設定した回数以下の音節連鎖を除外した例を追加候補音節連鎖HMMリストとして示す図である。
【図8】 図7に示す音節連鎖を音節ラベルデータに適用したとき、複数の音節連鎖が重複する例を説明する図である。
【図9】 図9の例に対して音節ラベルデータの修正を行う例を説明する図である。
【図10】 音素連鎖音節HMMセットに追加された音節連鎖HMMの一例を示す図である。
【図11】 図1の構成にMDL基準を用いた分布数の最適化処理を加えた構成図である。
【図12】 本発明の音声認識装置の概略的な構成図である。
【符号の説明】
1 学習用音声データ
2 HMM学習部
3 音素HMMセット
4 音素ラベルデータ
5 初期音素連鎖音節HMM生成部
6 初期音素連鎖音節HMMセット
7 音節ラベルデータ
8 HMM学習部
9 音素連鎖音節HMMセット
10 予備認識実験部
11 認識実験結果
12 誤認識音節箇所抽出部
13 追加候補音節連鎖HMMリスト
14 音節ラベルデータ修正部
15 初期音素連鎖音節HMM/音節連鎖HMM生成部
16 修正音節ラベルデータ
17 初期音素連鎖音節HMM/音節連鎖HMMセット
18 HMM再学習部
19 音素連鎖音節HMM/音節連鎖HMMセット
21 分布数最適化処理部
22 音素連鎖音節HMMセット
31 マイクロホン
32 入力信号処理部
33 特徴分析部
34 HMMモデル
35 言語モデル
36 音声認識処理部
S0,S1,S2,・・・ 状態
Claims (2)
- 音響モデルとしての音節HMM(隠れマルコフモデル)を作成する音響モデル作成方法であって、
それぞれの音素に対応する音素HMMからなる音素HMMセットを生成し、前記音素HMMセットの音素HMMを組み合わせて、それぞれの音節に対応する初期音素連鎖音節HMMからなる初期音素連鎖音節HMMセットを生成し、
前記初期音素連鎖音節HMMセットを学習することによって、前記音響モデルとしての音素連鎖音節HMMセットを生成し、
前記音素連鎖音節HMMセットに対して学習用音声データを用いた予備認識実験を行い、
前記予備認識実験の結果と前記学習用音声データに対応して用意された音節ラベルデータとを用いて、誤認識された音節と前記誤認識された音節につながる音節を調べ、
前記誤認識された音節に対する正解音節と前記誤認識された音節につながる音節との組み合わせを音節連鎖として抽出し、
前記音節連鎖に対応する音節連鎖HMMを前記音素連鎖音節HMMセットに追加して、初期音素連鎖音節HMM及び音節連鎖HMMセットを生成し、
前記初期音素連鎖音節HMM及び音節連鎖HMMセットを前記学習用音声データと前記音節ラベルデータを用いて学習することによって前記音響モデルとしての音素連鎖音節HMM及び音節連鎖HMMセットを生成することを特徴とする音響モデル作成方法。 - 音響モデルとしての音節HMM(隠れマルコフモデル)を作成する音響モデル作成装置であって、
それぞれの音素に対応する音素HMMを組み合わせて、それぞれの音節に対応する初期音素連鎖音節HMMからなる初期音素連鎖音節HMMセットを生成する初期音素連鎖音節HMMセット生成手段と、
前記初期音素連鎖音節HMMセットを学習して前記音響モデルとしての音素連鎖音節HMMセットを生成するHMM学習手段と、
前記音素連鎖音節HMMセットに対して学習用音声データを用いた予備認識実験を行う予備認識実験手段と、
前記予備認識実験手段により得られた予備認識実験の結果と前記学習用音声データに対応して用意された音節ラベルデータとを用いて、誤認識された音節と前記誤認識された音節につながる音節を調べ、前記誤認識された音節に対する正解音節と前記誤認識された音節につながる音節との組み合わせを音節連鎖として抽出する誤認識音節箇所抽出手段と、
前記誤認識音節箇所抽出手段によって抽出された音節連鎖に対応する音節連鎖HMMを前記音素連鎖音節HMMセットに追加して、初期音素連鎖音節HMM及び音節連鎖HMMセットを生成する初期音素連鎖音節HMM及び音節連鎖HMMセット生成手段と、
前記初期音素連鎖音節HMM及び音節連鎖HMMセット生成手段により生成された初期音素連鎖音節HMM及び音節連鎖HMMセットを前記学習用音声データと前記音節ラベルデータを用いて再学習することによって前記音響モデルとしての音素連鎖音節HMM及び音節連鎖HMMセットを生成するHMM再学習手段と、
を有することを特徴とする音響モデル作成装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003070543A JP4103639B2 (ja) | 2003-03-14 | 2003-03-14 | 音響モデル作成方法および音響モデル作成装置ならびに音声認識装置 |
US10/793,859 US7366669B2 (en) | 2003-03-14 | 2004-03-08 | Acoustic model creation method as well as acoustic model creation apparatus and speech recognition apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003070543A JP4103639B2 (ja) | 2003-03-14 | 2003-03-14 | 音響モデル作成方法および音響モデル作成装置ならびに音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004279701A JP2004279701A (ja) | 2004-10-07 |
JP4103639B2 true JP4103639B2 (ja) | 2008-06-18 |
Family
ID=33287266
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003070543A Expired - Fee Related JP4103639B2 (ja) | 2003-03-14 | 2003-03-14 | 音響モデル作成方法および音響モデル作成装置ならびに音声認識装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7366669B2 (ja) |
JP (1) | JP4103639B2 (ja) |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7398209B2 (en) | 2002-06-03 | 2008-07-08 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7693720B2 (en) | 2002-07-15 | 2010-04-06 | Voicebox Technologies, Inc. | Mobile systems and methods for responding to natural language speech utterance |
US8938390B2 (en) | 2007-01-23 | 2015-01-20 | Lena Foundation | System and method for expressive language and developmental disorder assessment |
US10223934B2 (en) | 2004-09-16 | 2019-03-05 | Lena Foundation | Systems and methods for expressive language, developmental disorder, and emotion assessment, and contextual feedback |
US9355651B2 (en) | 2004-09-16 | 2016-05-31 | Lena Foundation | System and method for expressive language, developmental disorder, and emotion assessment |
US9240188B2 (en) | 2004-09-16 | 2016-01-19 | Lena Foundation | System and method for expressive language, developmental disorder, and emotion assessment |
US8078465B2 (en) * | 2007-01-23 | 2011-12-13 | Lena Foundation | System and method for detection and analysis of speech |
US7640160B2 (en) * | 2005-08-05 | 2009-12-29 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7620549B2 (en) | 2005-08-10 | 2009-11-17 | Voicebox Technologies, Inc. | System and method of supporting adaptive misrecognition in conversational speech |
US7949529B2 (en) | 2005-08-29 | 2011-05-24 | Voicebox Technologies, Inc. | Mobile systems and methods of supporting natural language human-machine interactions |
EP1934971A4 (en) * | 2005-08-31 | 2010-10-27 | Voicebox Technologies Inc | DYNAMIC LANGUAGE SCRIPTURE |
US7680664B2 (en) * | 2006-08-16 | 2010-03-16 | Microsoft Corporation | Parsimonious modeling by non-uniform kernel allocation |
US8073681B2 (en) | 2006-10-16 | 2011-12-06 | Voicebox Technologies, Inc. | System and method for a cooperative conversational voice user interface |
WO2008091947A2 (en) | 2007-01-23 | 2008-07-31 | Infoture, Inc. | System and method for detection and analysis of speech |
US7818176B2 (en) | 2007-02-06 | 2010-10-19 | Voicebox Technologies, Inc. | System and method for selecting and presenting advertisements based on natural language processing of voice-based input |
US8140335B2 (en) | 2007-12-11 | 2012-03-20 | Voicebox Technologies, Inc. | System and method for providing a natural language voice user interface in an integrated voice navigation services environment |
JP4829910B2 (ja) * | 2008-02-20 | 2011-12-07 | 日本電信電話株式会社 | 音声認識誤り分析装置、方法、プログラム及びその記録媒体 |
US8589161B2 (en) | 2008-05-27 | 2013-11-19 | Voicebox Technologies, Inc. | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US9305548B2 (en) | 2008-05-27 | 2016-04-05 | Voicebox Technologies Corporation | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US8326637B2 (en) | 2009-02-20 | 2012-12-04 | Voicebox Technologies, Inc. | System and method for processing multi-modal device interactions in a natural language voice services environment |
WO2011059997A1 (en) | 2009-11-10 | 2011-05-19 | Voicebox Technologies, Inc. | System and method for providing a natural language content dedication service |
US9171541B2 (en) | 2009-11-10 | 2015-10-27 | Voicebox Technologies Corporation | System and method for hybrid processing in a natural language voice services environment |
JP5749187B2 (ja) * | 2012-02-07 | 2015-07-15 | 日本電信電話株式会社 | パラメタ推定装置、パラメタ推定方法、音声認識装置、音声認識方法及びプログラム |
US9159319B1 (en) * | 2012-12-03 | 2015-10-13 | Amazon Technologies, Inc. | Keyword spotting with competitor models |
EP3195145A4 (en) | 2014-09-16 | 2018-01-24 | VoiceBox Technologies Corporation | Voice commerce |
US9898459B2 (en) | 2014-09-16 | 2018-02-20 | Voicebox Technologies Corporation | Integration of domain information into state transitions of a finite state transducer for natural language processing |
EP3207467A4 (en) | 2014-10-15 | 2018-05-23 | VoiceBox Technologies Corporation | System and method for providing follow-up responses to prior natural language inputs of a user |
US10431214B2 (en) | 2014-11-26 | 2019-10-01 | Voicebox Technologies Corporation | System and method of determining a domain and/or an action related to a natural language input |
US10614799B2 (en) | 2014-11-26 | 2020-04-07 | Voicebox Technologies Corporation | System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance |
KR102437689B1 (ko) * | 2015-09-16 | 2022-08-30 | 삼성전자주식회사 | 음성 인식 서버 및 그 제어 방법 |
US10331784B2 (en) | 2016-07-29 | 2019-06-25 | Voicebox Technologies Corporation | System and method of disambiguating natural language processing requests |
WO2019113477A1 (en) | 2017-12-07 | 2019-06-13 | Lena Foundation | Systems and methods for automatic determination of infant cry and discrimination of cry from fussiness |
CN112185356A (zh) * | 2020-09-29 | 2021-01-05 | 北京百度网讯科技有限公司 | 语音识别方法、装置、电子设备以及存储介质 |
CN112133325B (zh) * | 2020-10-14 | 2024-05-07 | 北京猿力未来科技有限公司 | 错误音素识别方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5502790A (en) * | 1991-12-24 | 1996-03-26 | Oki Electric Industry Co., Ltd. | Speech recognition method and system using triphones, diphones, and phonemes |
JPH08123477A (ja) | 1994-10-28 | 1996-05-17 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 不定長音響モデル作成装置及び音声認識装置 |
JP3092491B2 (ja) * | 1995-08-30 | 2000-09-25 | 日本電気株式会社 | 記述長最小基準を用いたパターン適応化方式 |
US6711541B1 (en) * | 1999-09-07 | 2004-03-23 | Matsushita Electric Industrial Co., Ltd. | Technique for developing discriminative sound units for speech recognition and allophone modeling |
US20060074664A1 (en) * | 2000-01-10 | 2006-04-06 | Lam Kwok L | System and method for utterance verification of chinese long and short keywords |
-
2003
- 2003-03-14 JP JP2003070543A patent/JP4103639B2/ja not_active Expired - Fee Related
-
2004
- 2004-03-08 US US10/793,859 patent/US7366669B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US7366669B2 (en) | 2008-04-29 |
US20040236577A1 (en) | 2004-11-25 |
JP2004279701A (ja) | 2004-10-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4103639B2 (ja) | 音響モデル作成方法および音響モデル作成装置ならびに音声認識装置 | |
US11587551B2 (en) | Leveraging unpaired text data for training end-to-end spoken language understanding systems | |
KR100815115B1 (ko) | 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치 | |
Takashima et al. | Two-step acoustic model adaptation for dysarthric speech recognition | |
JP6110945B2 (ja) | 自動音声認識システムにおける選択的にバイアスをかけられた線形判別分析の方法及びシステム | |
WO2021109856A1 (zh) | 一种针对认知障碍的语音识别系统 | |
WO2005096271A1 (ja) | 音声認識装置及び音声認識方法 | |
US6546369B1 (en) | Text-based speech synthesis method containing synthetic speech comparisons and updates | |
Liu et al. | Graph-based semi-supervised acoustic modeling in DNN-based speech recognition | |
Shibata et al. | Composite embedding systems for zerospeech2017 track1 | |
Hu et al. | The USTC system for blizzard challenge 2017 | |
WO2019212375A1 (ru) | Способ получения дикторозависимых малоразмерных высокоуровневых акустических признаков речи | |
Razavi et al. | An HMM-based formalism for automatic subword unit derivation and pronunciation generation | |
Rasipuram | Improving grapheme-based ASR by probabilistic lexical modeling approach | |
JP3589044B2 (ja) | 話者適応化装置 | |
Nock | Techniques for modelling phonological processes in automatic speech recognition | |
Rasipuram | Probabilistic lexical modeling and grapheme-based automatic speech recognition | |
US10600407B2 (en) | Generation device, recognition system, and generation method for generating finite state transducer | |
Siniscalchi | Combining speech attribute detection and penalized logistic regression for phoneme recognition | |
Imseng et al. | Applying multi-and cross-lingual stochastic phone space transformations to non-native speech recognition | |
US20240119922A1 (en) | Text to speech synthesis without using parallel text-audio data | |
Mokbel et al. | Derivation of the optimal set of phonetic transcriptions for a word from its acoustic realizations | |
Weweler | Single-Speaker End-To-End Neural Text-To-Speech Synthesis | |
Chang et al. | A back-off discriminative acoustic model for automatic speech recognition | |
JPH1097270A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050621 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20070403 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20071217 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071225 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080213 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080304 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080317 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110404 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110404 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120404 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130404 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130404 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140404 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |