JPH07503559A

JPH07503559A - 子供用音声訓練補助装置

Info

Publication number: JPH07503559A
Application number: JP6510846A
Authority: JP
Inventors: ラツセル，マーテイン・ジエイムズ; シリーズ，ロバート・ウイリアム; ワランス，ジユリー・リン
Original assignee: イギリス国
Priority date: 1992-11-04
Filing date: 1993-11-02
Publication date: 1995-04-13
Also published as: WO1994010666A1; GB2278708B; DE69311303T2; US5679001A; EP0619911A1; US5791904A; DE69311303D1; EP0619911B1; GB9223066D0; GB2278708A; GB9412792D0

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】子供用音声訓練補助装置本発明は、子供用音声訓練補助装置に関する。こういう補助装置は、子供の発音と、正しい発音の表示を与えるための所望値と比較するのに有用である。この表示が、音声治療の必要な子供達を識別するために、オペレータ、つまり、先生やセラピスト等により使用され、または受け入れ可能になるまで発音を変えるために子供により使用される。

複雑さや正確度の違う、多くの音声認識装置がある。大部分のものは、−まとまりの記憶した単語の中から１つの単語を識別し、その単語が識別されると、次のステップを起動し、たとえばスイッチを操作する。多くの音声認識装置は、オペレータによる大変な訓練を必要とし、少ない単語でしか動作しない。

１つの単語を話すように言われると、多くの子供達は、ウーとかニーといった追加音を出し、話しに要する時間を変える。さらに、教室の環境には、種々の非音声型暗雑音があり、ときには、読めない子供のために先生の読む声がする場合もある。これは音声認識をより難しくする。というのは、非音声音は余分なものとして認識され、捨てられなければならないからである。

多くの市販の音声認識装置は、所望の単語の一部しか話されない時でさえ、一致を示す場合がある。例えば、’　ｃ＋＋ｗｍ１７’という単語は、’ｃｏｗ’　、ｃｏｌｎｔ’　、または’ｌｅｔ’　、または正しく’ｃｏｓ１７’と認識される可能性がある。

１つの話し言葉の中の個々の単語は、個々の単語を発音するために単独または組み合わせで使われうる約４０音素、つまり４０の異なる音に分解できる。ある音素は文脈に依存せず、他の音素は文脈に依存する。つまり、音素はそれより以前および進行中の音素の組み合わせに応じて異なって聞こえる。これらの音素を表現するために採用された合意事項は、例えば、下記の文献にある。

ｆｌｌ　Ｉ　Ｌｌｌ＋　ｅｌ　１１．　’５ｐｅｃ百ｉｃ＊１ｉｏｎ　ｏｆ　ＳＡＭ　ｐｈｏｉｅｌｉｃｔｌｐｈｘｂｅｌ（ＳＡＭＰＡ）、’　１ｎｃｌＩｌｄｅｄ　ｉｎ：　Ｐ　Ｗｉｎ＋ｋｉ、　Ｗ　Ｉ　Ｂｓｒｒｒ　＆　ＡＦｏａ＋１ｅｎ（Ｅｄｌ、　’５ａｐｐｏ＋ｌ　５ｙｔｉｌｓｂｌｅ　Ｉｔｏｔｓ　ＳＡＭ　ｐｒｏｉｅｃｌ　ｌｏ＋ｏｔｈｅ「ＥＳＰＲＩＴ　＋ｐｅｅｅｈ　ａｎｄ　ｌ＊ｎｇ■ｇｔ　ｗｏｒｋ、’　Ｔｈｅ　ＳＡＭ　Ｐｒｏｉｅｃｌ。

Ｄｅｐｌ　ｏｆ　Ｐｈｏｎｅｌｉｃ＋、　ｌ１ｌＩｉｙｅ＋５ｉｌｌ　ＣｏＣｏ１１ｅ、　Ｌｏｎｄｏｎ。

本発明は、非音声と雑音に囲まれて、所望の標準に対する完結した音声語の正しさに関する。

本発明によれば、子供の音声訓練補助装置は、その子供が正しく話したか否かを表示するために、子供の音声と記憶済みの音響モデルと一般の非音声音により生成された音声とを比較する。

本発明によれば、子供の音声訓練補助装置は、多くの子供達による音声の処理結果を代表する文脈依存型音素の音響モデルを記憶するための音響モデル記憶、その音響モデル記憶から単語の音響モデルを構築するために情報と共に単語の一覧表を記憶する辞書、一般音声音の音響モデルと共に必要単語の音響モデルを生成するためのネットワーク生成装置、その必要単語の音響モデルの生成を要求するための入力手段、子供の発声を受け取る手段、子供の発声を音声の音響モデルとの比較に適した形式に処理する手段、処理済みの子供の発声とその必要単語と一般的な音声の音響モデルとを比較するための音声パターン照合器、およびその必要単語の発音の正確性の表示と共に、その子供の発声がその単語であるか否かを表示する手段を含む。

本訓練補助装置の音響モデルは、隠れマルコフ・モデルである。

一連の特徴ベクトルを形成する連続的時間枠期間内にＮ次元の特徴ベクトルを提供するために、子供の発声はＮ個のチャネルにサンプリングされ、処理される。

音声パターン照合器は、特徴ベクトルの順序の相対的な確率が音響単語モデルと同じか、または一般音響音声モデルと同じかを計算する。

音声パターン照合器は、その必要単語が連続的な音声の中で認識されるように、連続的に動作する。

音声パターン照合器は、認識した子供の話した単語の最初と終わりの累計コスト差を計算し、この差を子供の話した単語の正確性の表示をするために使用する。

また、その訓練補助装置は、子供の話した単語の正確性の表示のために調整可能な標準を形成の際に、一般音響音声モデルと協力するように準備された可変のペナルティ制御も含む。ペナルティ値は、種々の必要単語に関して設定した値に応じて変化する。さらに、そのペナルティ値は、個々の子供に合うように成人のオペレータによって変更される。

その入力手段は各検査面談毎に訓練補助装置に必要単語を入力するためのキーボードを含む。

音声訓練補助装置は、必要単語を話すように子供を促すための手段、つまり音声合成器と拡声器、またはメツセージの表示用画面付きの画像モニタあるいはこれらすべてを含む。

音声訓練補助装置は、子供の音声の検査結果の記録と、必要単語と正しく話された単語およびどの程度正しく話されたかの表示の手段を含む。

音響モデルは、１つの単語または一連の部分語モデルと一般音声モデルを加えたモデルであり、音声パターン照合器は、必要単語の分割部分の発声の正しさを表示する。

子供の発声の時の吃音が、その単語を分割するので、音響単語モデルの前に追加の音響モデルを含む。

記憶済みの音響モデルは、単語の所定の一覧表から複数の子供達により複数の単語を記録することにより形成されることが望ましい。これらの記録は、個々の単語あるいは個々の音素に対する受け入れ可能な、または正しい音の基本的音響モデルを作るためにオフラインで処理される。子供の連続的リアルタイム検査は、これらの記録済み基本音響モデルに対して行われ、話者には無関係である。つまり、検査される子供は、当初の記録の部分を提供した子供である必要はない。

教室での使用例では、子供は訓練補助装置に接続されたヘッドホンとマイクロホンを着ける。オペレータは、コンピュータ・ターミナルのキーボードから訓練補助装置に単語または一連の単語を入力する。この操作は、必要単語の音響モデルを用意する。次に、子供はコンピュータ・モニタ画面上の単語を読むか、または音声合成器の拡声器からの指示を聞くことで必要単語を話すことを促される。そのかわりに、オペレータは子供が話すべき単語を読むことも可能である。その子供の全対話は、必要単語の記憶済みの音響モデルおよび一般音響音声モデルと比較するために訓練補助装置を通過する。単語が正しく話されると、その子供の発声は音響単語モデルを通過し、モニタ画面または音声合成器による音声で、その子供に通知される。その単語が、正しく話されないと、その発声は、一般音響音声モデルを通過し、これが子供とオペレータに表示される。

図面の簡単な説明本発明は、下記の添付図面を参照しながら、単なる例として説明される。

第１図は音声訓練補助装置のブロック図である。

第２図は第１図の一部である前処理分析器のブロック図である。

第３ａ図は、話された単語目ＷＥ−ＮＩＩＩＥ’　に対する第２図の前処理分析器におけるＶＦＲ分析前の信号の概略図である。

第３ｂ図は話された単ｐ’ＦＩＶＥ−ＮＩＮＥ’　に対する第２図の前処理分析器におけるＶＦＲ分析後の信号の概略図である。

第４図は一般音声モデルとともに、認識される単語の隠れマルコフ・モデルの音響モデルの説明図である。

第５図は音響モデル記憶に保持され、文脈依存性音素から得られる単語レベルの隠れマルコフ・モデルの説明図である。

第６図は３値の隠れマルコフ・モデルの概略図である。

第７図は単語’Ｔｅｌ’　またはｌｎｏ＋を認識するために隠れマルコフ・モデルを用いた簡単な音響モデルの概略図である。

第８図は第７図のモデルに対する局部的コスト計算の説明図である。

第９図は第７図のモデルに対する累積コストと経路表の説明図である。

第１０ａ図は第７図のモデルの処理中の累積コストと経路表の説明図である。

第１０ｂ図は第７図のモデルの処理後の累積コストと経路表の説明図である。

第１１図はオペレータによって聴覚で判断されて、受は入れ可能と受け入れ難いと判断された、話された単語に対する累積単語コストの累積度数分布表である。

第１２ａ図は単語モデルを通過する発声の累積単語コストを比較するために配置されたモデルの説明図である。

第１２ｂ図は一般音声モデルを通過する発声の累積単語コストを比較ト÷央（支）に配置されたモデルの説明図である。

第１３図はオペレータによって聴覚で判断されて、受は入れ可能と受け入れ難いと判断された、話された単語に対する累積単語コスト差の累積度数分布表である。

第１４図は第４図の音響モデルに適用された一般音響音声モデルのペナルティ値に対する誤り率のグラフである。

第１５図は第４図に示したモデル以外の音響モデルである。

第１６図は第４図に示したモデル以外の音響モデルである。

第１７図は第４図に示したモデル以外の音響モデルである。

第１図に示す音声訓練補助装置は、小型コンピュータとターミナル１、音声合成器２、音声人カンステム３、および音声パターン照合器４を含む。

コンピユータ１内部には、辞書５、音響モデル記憶６、ネットワーク生成装置７、および全システムを制御するシステム制御装［８がある。キーボード９とモニタ１０が制御装！！！８に接続されている。

音声入力システム３は、検査される子供が装着するヘッドホン１１とマイクロホン１２を含む。マイクロホン１２の出力は、増幅器１３で増幅され、前処理分析器１４に供給される。

分析器１４は、第２図にさらに詳しく示されており、入力波Ｓｉを２０．０００ＨｚでサンプリングするＤＡ変換器を含み、その出力を、並列でそのディジタル信号Ｓｉを受け取るＮチャネルのフィルタ網１６に入れるが、通常、Ｎ；２７である。フィルタ特性の詳細は、下記の表１に示す。

表　１チャネル番号　中心周波数１１＋　帯域幅Ｈ！３　．３６０　１２０各Ｎ本のチャネルは、それぞれ通常３００から５００　ＩＴ　ｚの周波数で、これは大人の５０から２００　ＩＩ　ｚの周波数とは対照的であるが、子供の喉頭からのパルス状出力を平滑化するための平滑回路である。各チャネル出力は、毎秒１００回のサンプリングをされる。つまりサンプリング間隔はｌＱｍｓである。

フィルタ網１６の集中出力を、単語’　ＦＩＶＥ−ＮＩＭＥ’　に対する第３図に示す。水平軸は応答時間であり、垂直軸はＮ個の各チャネルであり（従って下部により低い周波数を持つ、種々の周波数から成る）、さらに暗さ、つまり濃度階調は音の強さである。

Ｎ個の各フィルタ・チャネルの出力は、１０ｍ５毎にサンプリングされる「次元」である。各１０ｍ５の時間枠のために、フィルタ網１６の集中出力は、２７次元ベクトル、つまり１つの時間枠にわたる２７個の異なる値を表す数の行列である。説明の簡略化のために、第３図は１４個のフィルタ・チャネルのみを示している。第３図に示すように、小区画は音声学的に’　１．　＊１．　ｗ、　ｎ、　ｔｌ、　ｎ、″で表される単語’　ＦＩＶＥ−ＮＩＭＥ’　の中の１つの音素を表す明確な領域を示している。

フィルタ網１６の出力１７は、第３図に示す各フレームや単語の情報量を減らすように設置できる可変型フレーム率回路１８を通過する。可変型フレーム率（Ｖ　Ｆ　Ｒ）分析は、自動音声認識のための固定フレーム率分析を超える改良性能を得られることが示されているデータ率低減法である（’Ｓ　１１　ＰｅｔｌｉＢ＊ｎｄ　Ｋ　Ｍ　Ｐｏｎ１ｉｎ（、Ｖｘ＋目ｂｌｅ　ｌ５ｓｕｅ　５ｎｓｌｙ＋ｉ＠ｉｎ　ｔｈｅ　ＡＲＭｃｏｎｌｉｎｏｏｕ＋　＋ｐｅｅｅｈ　「ｅｃｏｇＩｌｉｔｉｏＩｌｉ７＋ｌｕ＋、Ｓｐｅ！ｅｈＣｏｍＩＩｕｎｉｃｓｌｉｏｎ　ｔｏ、ＰＰ　１５５−１６２．　１９９１’　を参照のこと）。その最も単純な形で、ＶＦＲは観測結果からベクトルを除去するために使用される。

現在の観測ベクトルと最も新しい保持データとの間の距離が計算され、この距離がしきい値Ｔ以下であれば、現在の観測ベクトルは排除される。新しい観測ベクトルによりその距離がしきい値を超えると、その新しいベクトルは保存され、最新の保持ベクトルとなる。ＶＦＲ分析は一連の類似のベクトルを１つのベクトルに置換し、従って、認識に必要な計算量を低減する。

本図はＶＦＲ分析が認識の正確性を改善できることも示している。

第３ａ図と第３ｂ図は、それぞれＶＦＲ分析の前と後のフィルタ網１６からの未処理信号を示す。第３ａ図に示すように、発声期間内に信号がほぼ均一な時間がある。その期間内は、瞬間的なＭ（断面サンプル）を示す信号が生成され、かつ値の長さはほぼ一定値を保っている。この圧縮が情報の表現に必要なベクトルの数を低減する。ある場合には、フレーム率圧縮の使用で正確性が低下し、可変型フレーム率回路がゼロに調整される。つまり、その回路は信号をそのまま通過させる。第３ｂ図には、表示されている１４個のチャネルの下に圧縮された特徴ベクトル類に各特徴ベクトルに対する圧縮値を表す追加情報がある。

音１モデル記憶６の中のモデルの過程と一貫性を持たせるか、または異なる音声音に対応するベクトル間の差を強調するために、直線または非直線変換を用いて、可変型フレーム率回路１９の出力は、変換回路２０で変換される。この変換の例は、デルタ・セブストラル変換である。

シ、＝シフ７．し、２１．　し、７′を時間ｔでのフィルタ網１６からの出力とする。デルタ・セプストラル変換は、下記の段階から成る。

（ｉ）　１１幅の正規化：　平均チャネル振幅が次式１で計算され、各チャネル値ν、１から差し引かれる。この結果、２７次元のペクトＪしω、となる。ここで、ω１２ν１喝−ν、（ｉ＝１・・・・・２７）とする。

（１１）　コサイン変換：　新しい２７次元のベクトルＸ、を得るためにコサイン変換Ｃを使って、値ω、を回転する。ここで、ｘ１＝Ｃω、とする。

（ｉｉｉ　）　切り捨て　９次元の特徴ベクトルｘＩ　、はχ、の下位８要素から作成され、その振幅項はν、である。

（ｌマ）　時間差の追加、１８次元のベクトルは、ｘ’　＋−＋　とＸ″　１゜、との差てｘ゛１を増大することにより得られる。

要約、　各フィルタ・チャネルの出力は、１０ｍ５毎にサンプリングされる「次元」である。各１０ｍ５の時間枠の間、フィルタ網１６の集中出力は、２７次元のベクトルである。変換回路２０の出力２１は、特徴ベクトルＹ１とし、順番に並んだ変換済みベクトルである。

ＶＦＲ１８と変換回路２０の順序は変更できる。勿論、可変型フレーム率分析の間、可変型フレーム率累算数（つまり、保持されたベクトルが交代したベクトルの数）は保持され、追加のチャネルとして特徴ベクトルに追加される（第３ｂ図の下部参照）。この追加のチャネル・パラメータは、振幅の正規化段では無視され、その後の処理の間も振幅項として同じように処置される。

辞書辞書５は、小型コンピュータ１のディスクまたは読み取り専用メモリに記憶される。辞書５は、２つの機能を持つ。システムで使える単語の文字一覧表を含み、また、音響モデル記憶６にある音響モデルからこれらの単語の音響モデルを構築するための音素系列を含む。

表２は、単語と関連する音素の数例を示す。

表　２単語　音素＞　０ｎａｎｔ　）　マＱｎ田川　〉　８日１＋２ｔｅｎ　＞　＋Ｅｙ＋＋＋ｅｖｅｎｌｈ　）　Ｉ　Ｅ　ｙ　ｎ　Ｔ＋ｅｗｅ＋　＞　ｓＥｙ＠＋ｅｔｅｚｌ　）　Ｉ　Ｅ　ｔ　ｆ　ｌ辞書５の中の情報は、初期の準備段階または新しく必要単語入力の際に、キーボード９から人手により入力される。新しい単語の制隈は、これらの新しい単語に対する文脈依存型音素が、既に音響モデル記憶６に存在していなければならないことである。

音響モデル記憶−ＡＭＳ音響モデル記憶（ＡＭＳ）６は、小型コンピュータ１のディスクまたは読み取り専用メモリにファイルとして保持される情報である。ＡＭＳ　６は、辞書５にある単語が転写されている音素の統計的な音響モデルを定義する複数組のパラメータを含ンでいる。ＡＭＳ　５は、文脈依存型隠れマルコフ・モデル群（ｔ（ＭＭｓ）、文脈に依存しないＨＭＭｓ、１つ以上の無音モデル、および１組の非音声（Ｂ、ｕａｍ＋　、層ｂ＋等）、または雑音モデル（教室の背景雑音）を含む。

ＡＭＳ　６にある情報は、隠れマルコフ・モデル音素のモデルを得るために以下に詳述するよぅに、多くの子供達の声を録音し、彼等の音声を処理することによって得られる。

文脈依り音素レベル・モデルを用いて良い音声認識性能を得るためには、特定の音素の作成に応じた音響パターンが、それに先行する音素および後続する複数系列の音素に大きく依存するという事実を念頭に置く必要がある。これは、文脈依存型音素モデルの使用により達成される。従って、各音素に対して１つの音響モデルを含めるよりも、音響モデル記憶は、各音素に幾つかのモデルと各重要文脈に１つのモデルを含む。文脈依存型音素レベル単位の例は３重音であり、これには、１つの音素の作成における唯一の重要な文脈上の影響は、直前および直後の音素によるものであるという仮定がある。例えば、単語’Ｉｌｋ＋’（’＋ｉｔ’　）の中の音素′Ｉ′　は、′富′に先行され、′ｔ′　に後続される′１′　に対応する３重音（１＋＋　ｋ　）によって表される。

３重音アプローチの限界は、「給電依存」である。辞書に追加される新しい単語は、初めの給電の中の単語に存在せず、音響モデル記憶の中のモデルも存在しない３重音文脈を含む場合がある。この問題は、音素決定木に基づく方法で解決できる。

この方法に関する解説は、下記の文献にある。

（ＩＩ　Ｌ　ＲＢｚｈｌ　！ｌ　直ｌ、’Ｄｅｃｉｔｉｏｎ　Ｔｒｅｅｔ　ｆａｔ　Ｐｈ０ｅｌａｌｉｃｓｌＲｎｌｅ＋　ｉｎ　Ｃｏｎ１ｉｎａｏａ＋　５ｐｅｅｃｈ、’　Ｐ＋ｏｃ　ＩＣＡＳＳＰ　１９９１．　Ｔ＋ｏｅｌｏ。

（２１Ｓ　Ｄｏｗｎｅ７　ｔｎｄ　１１　Ｒａｓ＋ｅｌ、’Ａ　Ｄｅｃｉｓｉｏｎ　Ｔｒｅｅ　Ａｐｐｔｏｓｃｈ１ｏＴ１＋ｋｌｎｄｅｐｓｎｄｅｎｌ＋ｐｃ＋ｃｈＲｅｃｏｇｎｉｌｉｏｎ、’Ｐ＋ｏｃＩｎｓｔｉｔｕｔｅｏｆ　Ａｃｏｏｓｌｉｃ３　＾ｕｌｎｍｎ　Ｃｏｎ１．　Ｗｉｎｄｅ＋ｉｅ＋ｅ、　Ｎｏｙ　１９９２゜各音素は２値の決定木と関係する。本来、この決定木の端末節は、その音素の音の実現に同じ影響を持つ等価なりラスの文脈に対応し、文脈依存モデルはこれらの端末節電に構築される。

決定木の各非端末節に関係するのは疑問であり、一対の後続する節である。その２つの後続する節は、その疑問に対する肯定的と否定的な答えとに対応する。疑問は「−組の音素」と「位置」から成り、「現在の音素に関係する位置にある音素は、この−組の音素の中の１つですか？」と解釈される。疑問′１ｐ。

１、ｋｌ、−１’　は、「現在の音素のすぐ左にある音素は、ｐ、Ｉ。

またはｋのうちの１つですか？」と解釈される。ある与えられた文脈の中の音素を関連する決定木の端末節に（つまり、以下で定義された音素レベル隠れマルコフ・モデル（ＩＩＭＭ）に）割り当てするプロセスは、その音素に対応する決定木の上節での疑問の適用で始まる。次に、プロセスは、その質問に対する答えが肯定か否定かに応じて、２つの後続節のうちの１つに移動する。新しい節が端末節である場合には、文脈中の音素はモデルと関連づけられ、そのプロセスは終了する。さもなければ、新しい節に対する質問がなされ、そのプロセスは継続する。

隠れマルコフ・モデルとバウム・ウエルチ論理隠れマルコフ・モデル（ＨＭＭ）と呼ばれる音響モデルは、文脈中の各音素毎に構築され、音響モデル記憶に記憶される。

１１ＭＭＭは、統計モデルである。これは一連のＮ個の状態から成り、対応する文脈中の音素を構成している音の系列に対応していると考えることができる。逐次的構造（つまり、その状態が発生する順序）と継続期間的構造（つまり、その状態が占有されている時間の長さ）は、状態遷移確率行列により決定される・　＾”　［ａ　ｚｌ　１．＋−＋、　Ｈであり、ここで、ａｔ、は、時間ｉ１での状態が１であり、時間１での状態が１である確率である。

行列Ａは、Ｎ状態マルコフ過程を定義する。状態と一連の音響特徴ベクトルとを関係づけるために、各状態１は、確率密度関数１ｚ　と関連づけられる。数値す、ｆ！、）は、音響ベクトルＹ１が状態１に対応する確率である。通常、ｂ、は音響ベクトル空間で定義される多変量の正規分布であり、平均ベクトルと共変行列によりパラメータ化される。

一連の音響ベクトルをＹ　”！＋　１．、、、、！＋　、、、、、、７丁とし一連の状態を１　＝ｒ、　１．、、、、！＋　、、、、、、ＩＴ　（ＩＩ　＝　ｉ、ｉ　＝　ｌ、、、、、、Ｎ）とすると、賛が発生した場合のＹと１の結合確率は下記の式で与えられる。

閘が発生した場合のＹの確率Ｐ（Ｙ　ＩＭＩ　は、下記の式で与えらＹを生成した状態の系列！は、下記の式で与えられる。

認識中の目標は、式（３）を解（ことであり、訓練中の目標は、式（２）を最大化することである。

訓練の目標は、式（２）を最大化するＨＭＭＭを見付けることである。この問題は、バウム・ウエルチ論理１４］　を用いて局部的に解くことができる。

闘で代表させたい音声音の発声に対応するＨＭＭＭと一連の音響特徴ベクトルが与えられると、バウム・ウエルチ論理は、Ｐ（Ｔ　ＩＭ）≧Ｐ（ｙ　ＩＭＩ　という属性を持った新しいＨＭＭＭを定義するための手順を細か＜　ｒａ定する。

幾つかの訓練過程に適用し、部分的発声が訓練過程の中のどこで開始し、終了するかという明確な知識なしに、これら複数のＨＭ　Ｍに対応する数系列の音に対応する訓練過程を用いて一組のＨＭＭを訓練するために（これを埋込み訓練と称する）、基本的な論理は拡張された。

従って、−組の訓練課程Ｙが与えられると、−組のＨＭ　Ｍを訓練する典型的な手順は、下記の通りである。

初期化最初の評価は、音素毎に１つずつ、−組のＨＭＭＭ、に対して得られる（これを単音１１　Ｍ　Ｍと呼ぶ）。これは幾つかの方法で達成できる。例えば、１つの方法では、ある与えられたモデルに対応する後続の全音響ベクトルを識別するために探索し、個々の副系列をＨ個の等しい区分に分け、対応する初期モデルの１番目の状態のパラメータを評価するために個々の副系列にある１番目の区分の中のベクトルを使うことができる。

単音の再評価−バウム・ウェルチ論理は、Ｐ（７１Ｌ　）　＞ｐ（ｒｌＭｌ）　という新しい組のモデルＭ１を生成するために一組の初期モデルと訓練課程に適用される。Ｍ、は、−組の初期モデルとなり、バウム・ウエルチ論理は、Ｐｆｒ　ＩＬ　ｌ　＞Ｐ（ｒ　ＩＭＩ　）という別の組のモデルＭ２を生成するために再び適用される。

この手順は、Ｐｉ　ＩＭ、　ｌ　とＰ（７１Ｍ、−一の差が、あるしきい値以下になるまで繰り返される。

文脈依存モデルの初期化：　単音のＨＭ　Ｍ　Ｍ　＋は、−組の文脈依存性ＨＭ　Ｍに対する初期評価値を得るために使用される：ある与えられた音素に対する個々の文脈依存モデルは、その音素に対する単音のＨＭ　Ｍのパラメータによってシードされる。

文脈依存モデルの再評価：　バウム・ウェルチ論理は再度繰り返し適用され、Ｐ（Ｆ　ＩＭ）が局部的に最適化されるように文脈依存音素レベル・モデルＭを生成するために、文脈依存型音素モデルの初期評価で開始する。集合Ｍは、音響モデル記憶で使用される。

訓練材料に不足がある場合には、パラメータ共有を再評価プロセスの中に加えることが有用である。例えば、各音響モデルの各状態は、共通の「壮大な」共変数行列を共有することができる。

ネットワーク生成装置ネットワーク生成装置７は、第４図に示すように、辞ｉ１５とＡＭＳ　６から関係あるデータを１つのデータ構造に結合し、これは、音声パターン照合器４により処理されるのに適している。

辞書５からの与えられた単語に対して、このデータ構造は、２つの並行な半分に分けられる。第１のものは、その単語の音響モデルを構成する部分語モデルの系列を指定する。これは、そのネットワークの単語モデルと呼ばれる。単語モデルの目的は、その単語の受け入れ可能な発音に対応する音声パターンと一致することである。第２のものは、全て並行な約５０の文脈依存型単音ＩＴ　Ｍ　Ｍと無音および非音声ＨＭ　Ｍの完全な集合がら成る。

これはネットワークの一般音声部品と呼ばれる。一般音声部品の目的は、その単語の受け入れ可能な発音ではない発声に対応する音声パターンと一致することである。

一般音声モデルは、表３の単音の全てまたは一部から別のＨＭＭを形成する。

表　３音素　例　音素　例ｇ　ｇｏｏｄ　Ｄ　ｌｈｓｌ１　１１ｋｅ　ｖ　ｖ　ｉｎ第５図は単語’　５ＥＶＥＮ’　に対する単語モデル定義をする過程を示す。実際にはもつと多いが、各音素は１つの３値１１　Ｍ　Ｍを持つことが共通に示されている。辞書に記憶され、上記の表１１こ示されているように、音素の順序は、＋、Ｅ、マ、ｎである。

従って、例えば、’　５ＥＶＥＮ’　に対する３重音の順序は：（＋ニーーＥ）、ＩＥ：ｓ　−ｗｌ、（ｗ：Ｅ　ｎ）、（ｎ：ｖ　−１である。

’　５ＥＶＥＮ’　に対する単語レベルＩ（Ｍ　Ｍは、図示のようにＡＭＳから関連する４つの３重音ＨＭ　Ｍを連結して得る。また、図示のように、例えば、音素ＥＳｎ、＋ｌ二対して選択されなｔ１１３重音が存在する。

一般音声モデルは、第４図に示すように、表３に記載されている全てまたは一部の音素、無音のＨＭＭ　Ｅおよび非音声ＨＭＭである＜；＞　、　＜？）　、（？？＞等から、並列状に形成される。

一般音声モデルは全ての単語に対して同一である。従って、ネットワークのこの部分は、永続的に記憶されるので、単語モデルだけが個々の新しい単語に対して構築される必要がある。繰り返すが、本図は、各ＨＭ　Ｍにおける幾つかの状態を図示しているにすぎない。

第４図は単語’　５ＥＶＥＮ’　の場合に対する完結したネットワークを図示している。一般音声モデルが大きくかつ精巧であればあるほど、最終結果は正確になる。この理由は、子供の音声は短い表にある単一または複数の単語と一致するよりも、第４図に示す完結したネットワークに一致するからである。

音声パターン照合器音声パターン照合器Ｓ　ＰＭ４の機能は、子供の発声を捉えて、それと第４図に示すようなモデルと比較することである。

Ｓ　ＰＭ４は、モデルのどの要素が子供の発声と似ているかを計算する。次に、話された単語がそのモデルまたは一般音声モデルに用意された単語であるか否かをを識別する。さらに、ＳＩ’Ｍ４は、その子供の発声が所望の標準にどれだけ近いかの測定値を表示する。これは、記憶されたモデルと話された単語の一致（相関）に対して点数を与えるシステムとは対照的であり；　これらシステムは、所要の単語の一部のみの正しい発音によって誤判断させられる可能性がある。

子供の発声の単語’　５ＥＶＥＮ’　に対する一致を説明する前に、より単純なタスクの音声認識に関係する原理に対する参照をする。

第６図は３値ＨＭ　Ｍの概略表現である。認識の間、問題は可能性のあるＩＩ　Ｍ　Ｍモデルのどれが観測された一連の特徴ベクトル（子供の音声）と同一になる確率が最も高いかを計算することであるが、そのモデルはある系列のベクトルを生じさせる過程の見地から最も容易に説明される。第６図の３つの実線の円は３つの状態を表す。いかなる時間でも、そのモデルは、３つの状態の内の１つであると言われている。時間の経過につれて、そのモデルはある状態から別の状態に遷移する。状態間の遷移は、支障のない遷移を示す矢印つきの細い実線で示される。

第６図に示すモデルで、遷移は状態１から２．２から３、および各状態自身への回帰のみが支障ないものとされる。この例で、モデルは状態２を通過せずに状態１から３には変化できない。各遷移は関連する遷移の確率を表す数と関係する。

つまり、数ａ＋、は状態１から状態１への遷移の確率を表す。

モデルが遷移を発生させると、特徴ベクトルが生成される。

その特徴ベクトルは観察できる。その特徴ベクトルの生成を管理するパラメータは各状態に関連する。実際には、その特徴ベクトルの生成は、特徴ベクトル確率密度関数の平均と共変数行列を含むｂ　（ｉｌによって特徴づけられるある多次元ガウス分布に従うと仮定されている。ガウス分布は唯一の可能な分布ではない。共通な実施戦略は、その観測した特徴ベクトルを数値化して、具体的な分布に適したｂｌに対するパラメータを使用することである。他の多くの変種が可能である。

以上、いかにＨＭ　Ｍは観測できる特徴ベクトルに発生する確率論的な（偶然の要素を持つ無秩序な）モデルと見られるかを説明した。音声中に認識するためには、モデルと、観測された系列が同じである相対的な確率を計算する必要がある。直接的に確率を扱うよりも、確率の対数に関係する数値を扱うことが普通である。これらの数値を「コスト」という。コストは、任意の特徴ベクトルまたは状態の組み合わせと関連し、その状態が特徴ベクトル（１０ｍｓの時間枠に２０個の数値）を発生させる確率に関係する。コストは、局部的コストと呼ばれることもある。コストは特徴ベクトルと状態の順序にも関係する。この例で、コストは一連の特徴ベクトルが与えられた状態の系列によって生成される確率に関係する。このコストは、累積コストと呼ばれる。認識論理の機能は、どの系列の状態が観測された系列の特徴ベクトル（第３ｂ図に示す）に対する最小の累積コストを発生させるかを見付けることである。この系列は、最良の通路としてよく知られている。認識論理はビテルビ（Ｙｉｌｔｔｂｉ　）論理に基づいている。

ビテルビ論理の動作例を第７図に示す。第７図は単語１　、ｅ、ｌ　、１ｌｌｏ ′、および暗雑音モデル、つまり無音１＜、＞１　というの３つのモデルを認識するために単純なＨＭＭに基づいた訓練補助装置のための文法図の例を示す。モデルは一連の部分語単位を連結して構築されるか、または全体の単語モデルである。実際にはより多くの状態が使用されるが、単純化のために、各単語モデルは３つの状態のみを含むものとして示されている。任意の系列の単語１．、、ｌ　、ｌ、ｏｌが１つ以上の無音１＜、＞１　で区切られていれば、文法図は訓練補助装置がそれらの単語をモデル化することを示している。

第８図は各モデルＴｅｌ’　、Ｉ、、、およびｌ＜、＞ｌ　の各状態１から３に対する局部的コスト表の表現を示している；　各局部的コストの値は空の四角で表されている。最新の計算結果が右端にある。表の上部が特徴ベクトル系列（第３図と同一）の表現である。各特徴ベクトルＬ（１０ｍｓ毎に測定された音声を表す）が受け取られると、その特徴ベクトルに対する局部的コスト　Ｃ０ｈが、３つのモデル’７ｅｌ’　、’ｌ’、および’＜；＞’のそれぞれにある３つの状態の個々について計算される；ｔ＋１ｈはモデルＪの状態ｋに対する時間枠１で受け取られた特徴ベクトルに対するコストである。これは、算術的には下記のように表現されるここで、μ１．とσ口１は、モデルｊの状態にの部品１に関連したがウス分布の平均および標準偏差であり、ｂＩｋは正規化定数である。別の方法では、各モデルに対する局部的コストは、そのモデルから取り出した値と共に、観測された特徴ベクトル値から計算される。

各局部的コスト、つまり第８図の空の四角で示される数は、次の処理のために一時的に記憶される。その局部的コスト値は、そのモデルのある状態がある観測された特徴ベクトルを発生させる確率に関係するので、局部的コスト表の数値のパターンは、各モデルの各状態がそのモデルの状態間の支障のない遷移または適用文法に関係なく、観測された特徴ベクトルを発生させる確率を表す。

計算の次の段階は、状態間の結合効果、遷移確率、および適用文法の結合である。計算のこの段階は、３つのモデル゛７ｅｌ’、′ｎＯ゛、およびｌ＜、＞ｌ　に対する累積コストと経路を示す第９図に図示されている；　各状態毎に１つの空の円は累積コスト値（数字）を表し、状態間の矢印付き直線は、最も可能性の高い遷移とその開始点を表す。第７図の検査は少数の遷移のみが可能であることを示している。例えば、モデル゛μＳ′の状態２は前の時間枠で状態２または状態１からの遷移を受け取ることができるだけである。同様に、モデル’＜；＞’ 　の状態１は、（モデルｌ＜、＞ｊ　の）状態１か、モデルｌ、、Ｋｌの状態３か、モデルｌｎｏ＋の状態３からの遷移しか受け取れない。

各折しい特徴ベクトルが受け取られると（１０ｍｓ毎に音声を変換して）、２つの値が計算される；（１）　ある開始点からある状態で終わっている現在の時間枠まで、状態の最良の（最も確率の高い）系列に対する累積コスト（数字）、および（１１）　ある状態から直前の状態までの遷移（矢印付きの直線）により選ばれる可能性の高い経路。これらの計算の論理は、ビテルビ論理であり、以下のように実施される：時間枠１でモデル１の状態ｋに到るためには、そのシステムは、適用文法と単語または部分語モデルの支障のない遷移で決定され、第７図に示すように、時間枠ｉ−１に限定された数の状態の１つの状態でなければならない。時間枠１での状態への最適経路に対する累積コストは、時間ｉ−１での可能な先発状態から時間ｉでの考慮中の状態までのどの経路が、最少の累積コストを与えるかを考慮することで見つけだせる。累積コストは先発状態ｅｌ−１，１・、、に到るための時間枠ｉ−１での累積コストと、モデルの一部であるモデルｉの状態ｋからの遷移確率の対数と、前に計算した局部的コスト　Ｃ１１ｋとの和で与えらる。計算式は下記の通りである：Ｃ＋、１．ｈ　＝ｍ　ｆ　ｎ　ｌ（Ｃ＋−＋、＋、ｈ、＋　十ｐ　ｌｋｌ　）　＋Ｃ＋＋ｋｆ３）累積コスト（数字）の値Ｃ＋１ｈは、各単語モデルの各状態１、２、および３に対して計算され、空の円で表された第９図の表に入れられる。

各計算値（１−１，１・　、・１は、前の累積コストを考慮する特別な状態での累積コストである。数値ｐ１□は、単語モデルにおける「ペナルティ」、つまり遷移の重み、または片寄りを表す。数値Ｃ１１ｋは、第８図で得て、説明済みの局部的コストである。数字の桁あぶれを避けるために、数字は計算中は正規化される。

より多くの特徴ベクトルが処理され、表が更新されると、累積コスト値やその関連経路は、観測された一連の特徴ベクトルと矛盾のない最も可能性の高い系列の状態の記録を形成する。

第９図の検討により、第７図のモデルの整備により観察された系列の（音声信号で変換された）特徴ベクトルが通った可能性が最も高い経路が分かる。尋ねられるべき質問は、無音からモデルｌ、ｅ、ｌ　またはモデル゛ｎｏ’を通過する観測された音声の前になされる；　もしその観測された音声が１ＹｅＩ′　モデルを通過したら、発声された単語はｌｎｏ＋であるより１．、、ｌ　である方がより確実である。

この質問に答えるために、部分的トレースバックとして知られる処理方法を採用するのが普通である。これは第１０ａ図と１０ｂに図解されていて、第９図と似てはいるが、第１０ａ図は発声の半ばまで処理され、第１０ｂ図はそれよりさらに後の状態である。部分的トレースバックの間、現在の時間枠（右端の空の円の桁）で終了している全ての経路は、検査される。低い値のコストはその事象の発生確率の高さを表し：　高いコスト値は殆ど起こり得ない事象を表し、ある場合には無視されうる。各経路は時間的に遡る状態の系列を表し、関連する累積コストはその経路が観測された特徴ベクトルを発生させる確率をの状況を表す。その経路が第１０ａ図の右から左へトレースバックされると、その経路は収束する。

一度、２本の経路が収束すると、トレースバック中には二度と分散することはないことは証明されている。第１と第２の時間枠、つまり左端の２桁の間で、全経路が（１）および（ｂ）の印のついた１本の経路に収束している。この領域は解決済み領域といわれる。時間枠３と１０との間に、複数の可能性のある経路がある。時間枠１ｏで最も少ない累積コストを持つ経路は、時間枠１ｏへのデータを説明するための状態の最も可能性の高い順序を表しているが、より多くの特徴ベクトルが処理されると、これが最良の経路ではなくなる可能性がある。

第１０ａ図には数値は何も記載されてはいないが、その代わりに、全ての値は空の円で表されている。つまり、計算された数字の知識無しの検査は、時間枠１０への最も可能性の高い経路を表示しない。従って、より多くの特徴ベクトルが処理されると、第１０ａ図の時間枠１０に見える最良の経路が、変わる可能性がある。これは’！＋ｋｅｄ’　のような単語の発声の間に、単語’Ｉ＋ｋｅｄ’　と’Ｉｓｋ″に対する単語モデルを用いると発生する可能性がある。その単語が完了する前にトレースバックが実行されると、単語’ｔｓｋｅｄ’　と’ｔ＋に ’　に対するモデルにおける状態の累積コストは同じになりがちである。その発声が終わった時にのみ、その累積コストの本質的な差が出る。

第１０ａ図で、時間枠７より前の時間枠に対して、全ての可能な経路は、１本の経路に収束していることが分かる。その論理は、以前の時間枠に対する経路の履歴を変えることはしないので、点（Ｉ）と（ｂｌの間の経路の部分は決して変わらず、信頼できる報告がなされるはずである。この例で、無音モデルは時間枠１と２の間の特徴ベクトルに対する最も可能性の高い状態の系列であった。

第１０ｂ図は少し後のトレースバック過程を示す。解決済み領域は、単語１．、、Ｉ　に対するモデルを通過し、以前に単語＋ｎｏ＋に対するモデルを通過した経路には、現在の時間枠２０からは到達できない。つまり、発声された単語の開始は時間枠４のｔｅｌ　で検知されている；　単語の終わりは時間枠（ｄ）で検知されている；また、発声された単語は、ｌ、、、ｌ　であることが見付けられている。

残念ながら、この装置はこれ自身では発音の正しさを示すことにはならない。従って、音声訓練補助装置が音声障害や貧弱な発音の認識用に使われる場合は、追加処理を含む必要がある。

更に、受は入れ可能と受け入れ不可能の音声の標準または境界を変えられることが望ましい。例えば、貧弱な話者は、最初はより緩い標準が必要で、その後、徐々に厳しさを加えた標準が必要となる。このような標準は、成人のオペレータまたは音声セラピストの管理の下で変える必要がある。

上記計算中に見付けられた値の１つが、１つの経路が単語モデル″２ｅｓ’　にあった時間枠に関連する累積コスト　Ｃ１である。

Ｃ−の値は単語モデルのコストといわれる；　っまり単語の終子爪ｆｄｌ　での累積コストは、単語の開始点（ｃｌ　での累積コストよりすくない。Ｃ−の値はそのモデルが観測された系列の特徴ベクトルを発生させる確率に関係するので、Ｃ１の値はその発声がどれ程モデルに近いかの表示値として使える。

第１１図は、累積単語コストに対する累積度数分布であり、点線は受け入れ可能単語に対するデータを示し、実線は受け入れ不可能な単語に対するデータを示す；　受は入れ可能または受け入れ不可能の決定は、その記録から成人のオペレータによって行われる。残念ながら、正しく話された平均単語コスト値、に対して個々の累積単語コスト値Ｃ−を比較することによって分かったように、正しい発音と受け入れ不可能な発音との差は、はんの少ししかない。

累積単語コスト値Ｃ−の感度の悪さの１つの原因は、異なった子供達の間の異なった音声器官にある。個々の子供達の音声器官の測定法を作り出し、単語コスト値ｃ５の測定の基本線に使うことは有用である。

第１１図の作成用に取った記録データは、下記のように処理された。第１２ａ図に示すＨＭ　Ｍが構築された：　これは単語ＨＭ　Ｍの片側の無音Ｉｆ　Ｍ　Ｍ　Ｌか含んでい・ない。一連の記録された単語は処理され、各単語毎にＣ−の平均値が計算された。

さらに、一般音声モデルＨＭＭが、第４図の上部に示されたものと同じく第１２ｂ図に示すように構築された。つまり、それは単語全体を含むのではなく、単に単音を含むだけである。

この第１２ｂ図の一般音声モデルにより、第１２ａ図で使われたものと同一の記録された単語が、コスト値Ｃｂを得るために処理された：　このＣ１は第１２ａ図の単語モデルへの類似度を変化させる大量の音素や雑音に対して、発声された単語を比較することに注意が必要である。個々の発声に対し、Ｃ１と０５との差りが計算される。第１１図で使用された全データに対するＤの値が計算され、Ｃ −−Ｃ，に対する累積度数分布である第１３図に書き込まれた。第１３図は、正しくおよび正しくな（話された言葉の本質的な分離を示す。繰り返すが、録音における正しいおよび正しくない単語の選択は、成人の熟練者によって行われる。

Ｃ−−Ｃｂの値は、第４図に示す１１　Ｍ　Ｍで使用される。つまり、単語ＨＭＭと一般音声モデルの両方によって、通過に伴う単語コストが計算される。トレースバック計算の終了時に、つまり、第１０図において、単語モデルと一般音声モデルの両方に関係する累積コストがあるが、最低のコストは、どちらの経路が最も単語モデルまたは一般音声モデルに近いかを表す。さらに、ペナルティコスト生成装置は、一般音声モデルに追加される；その生成装置は、一般音声モデルを通過するコストに、ある数を加算する。このペナルティコスト生成装置は、間違った発音に対するシステムの感度を調節するオペレータ用の変数であり、一般音声モデルのコストにあるコスト値を追加する。

また、異なる単語は正しい認識について同じ正確性を達成するためには、異なるペナルティ値が必要であることが分がっている。個々の新しい音響単語モデルが形成されると、そのペナルティ値が適正になるように変更されるように、検索表が辞書５に用意されている。この事前設定のペナルティは、個々の子供に合うように教師によって設定された任意の値に加算される。

高いペナルティ値は、一般音声モデルよりも単語モデルを通過する特徴ベクトルの確率を増加し、従って、下手に話された単語を受け入れ可能とする確率を増加する。低いペナルティ値は、一般音声モデルを通過する発声の確率を高めるので、下手に話された言葉という表示を増加する。

第１４図は、第４図のシステムに対するペナルティコスト値の変更の効果を示す。この場合、音声障害の程度を変えながら子供達は、合計１０００語を話した。

成人の熟練者達の研究チームは、個々の単語の発音を受け入れ可能か不可能かを評価するように依頼された。使用した特定のデータについて見ると、７のペナルティで、受は入れ可能または不可能というシステムの判定が、７０％以上の言葉について研究チームと一致している。

まとめると、子供の発声は、オペレータが設定した単語モデルを通過する累積単語コスト間の差を、一般音声モデルを通過する累積コストおよび調整可能なペナルティコストの和と比較することにより、受は入れ可能または受け入れ不可能として計算される。

別のＴ（ＭＭは、開始時の吃音を考慮に入れるが、または正しく認識された単語の中の発音の正しさを追加検査するように配置されている。

第１５ａ図は、吃音の量が予期される場合の文法を示す。これは、追加の一般音声モデルが初期の無音ＨＭＭと並列になっている第４図の文法とは違う。この配置の目的は、吃音と要求した単語の発声を区別するためである。

第１６図は、一連の一般音声モデルを持っている所が第４図と相違する。一般音声モデルの数は、単語モデルの音素の数と等しい。第１７図は、個々の音素または部分語モデルと一般音声モデルとを別々に比較する所が第１６図と相違する。

従って、要求した単語の個々の音素または部分語は、一般音声モデルと比較され、個々の音素または部分語がどれ程正しく発音されたかの表示がなされる。これは、ある子供にとってどの音素または部分語が問題を引き起こしているかを識別する診断の補助となる。

こともの音声検査に使う場合、モニタ上にメツセージがプロンプトされるように、オペレータは小型コンピュータ１にキーボードから単語や言葉を入力する。入力された単語は、モニタ１０上に表示される。次に、オペレータは必要な量のペナルティの入力を促される。これら２つの入力は、第４図に示すように記憶された一般音声モデルと結合するために入力された単語に対する音響単語モデルを形成するために、訓練補助装置を設定すると、装置は使用可能になる。

子供は、ヘッドホンとマイクロホンを着け、準備完了になると話すように案内される。この案内は、簡単なメツセージ、っまり「私の後で繰り返しなさい。」とか設定単語の’　１ｅｆｅｌ″等を話す音声合成器から音声で行なわれる。訓練補助装置が子供の発声の処理後、さらに「良くできました。」とか「もう一度言って下さい。」といったメツセージが出される。これに代わって、案内が視覚的に、つまりキーボード上のキーを押す指示がある場合もない場合もあるが、モニタ上のメツセージであることもある。他の使用状態では、オペレータが案内をする、つまり設定された単語を話し、子供に真似をするように言う。そして、オペレータは子供の発声の正しさを表示した訓練補助装置からの出力を見る。

訓練の終わりに、コンピュータは、各単語に対して計算された正確性と共に、子供が話した言葉の記録を出力する。この記録は、その後の訓練か治療上の援助かの判断のために、後に使われる。

第４図の音響モデルは、単に１つの単語モデル、つまり’ＩｅマｅＮ’　に対するものと一般音声モデルだけしか含んでいなかった。計算能力によるが、異なった設定単語を認識できるように、１つの単語モデル以上のモデルが用意できる。

これは単語の順序が重要でなくなる利点があるが、各単語は短時間の区切りを入れて話されなければならない。その代わりであり、かつ好ましいのは、最初の単語が正しく話された後、第４図の単一単語モデルが新しい単語用に変われるものである。従って、教師は選ばれた順序で話されるために一連の単語を設定する。

音声訓練補助装置は、音声パターン照合器４が使う新しい単語モデルを構築するのに、約ｌｏｏｍｓを要する。

Ｆｉｇ、３（ａ）　″変ｆｉ７″′−４４’Ｆ　（ＶＦＲ）分析Ｔｉｍｅ叫（ｂ）ｒｉｍｅ叫ｗ−Ｃｂ０　５　１０　１５　Ｚ）　２５　３０　３５　４０バブルモデルペナルティフロントページの続き（７２）発明者　シリーズ、ロバート・ウィリアムイギリス国、ウスターシャー・ダブリュ・アール・１４・３・ピー・ニス、マルバーン、セント・アンドリューズ・ロード、ディー・アール・エイ・マルバーン（番地なし）（７２）発明者　ワランス、ジュリー・リンイギリス国、ウスターシャー・ダブリュ・アール・１・３・エイ・ジー、ウスター、キャスル・ストリート、ヒアフォード・ニス・ウスター・カランティ・カランシル（番地なし）

Claims

【特許請求の範囲】

１．多数の子供達による音声の処理結果を表す文脈依存性音素の音響モデルを記憶するための音響モデル記憶装置と、単語の一覧表を、上記音響モデル記憶装置からこれらの単語の音響モデルを構築するための情報と共に記憶した辞書と、一般音声音の音響モデルと共に、必要単語の音響モデルを生成するためのネットワーク生成装置と、上記の必要単語の音響モデルの生成を要求する入力手段と、子供の発声を受け取る手段と、上記の子供の発声を音声の音響モデルとの比較に適した形に処理する手段と、上記の処理された子供の発声を上記の必要単語と一般音声の上語音響モデルと比較するための音声パターン照合器と、上記の子供の発声が上記の必要単語であるか否かを、その必要単語の発音の正確性の指示と共に示す手段とを含むことを特徴とする子供用音声訓練補助装置。
２．音響モデルが隠れマルコフ・モデルであることを特徴とする請求の範囲第１項に記載の訓練補助装置。
３．一連の特徴ベクトルを形成する連続的な時間枠の期間内に士つのＮ次元特徴ベクトルを供給するために、上記の子供の発声をサンプリングし、Ｎ本のチャネルに処理することを特徴とする請求の範囲第１項に記載の訓練補助装置。
４．上記一連の特徴ベクトルが上記音響単語モデルまたは上記音響一般音声モデルのどちらかと同一となる相対的確率を、上記音声パターン照合器が計算することを特徴とする請求の範囲第３項に記載の訓練補助装置。
５．上記音声パターン照合器が連続的に動作し、上記の必要単語が連続音声中で認識されることを特徴とする請求の範囲第１項に記載の訓練補助装置。
６．記識された子供の話した単語の開始と終了の間の上記累積コストの差を、上記音声パターン照合器が計算することを特徴とする請求の範囲第１項に記載の訓練補助装置。
７．上記累積コスト差が子供の話した単語の正確性を示すために使用されることを特徴とする請求の範囲第６項に記載の訓練補助装置。
８．上記一般音声音響モデルと協働して、子供の話した単語の正確性を示すための、調節可能な標準を形成するように配置された可変型ペナルティ制御をさらに含むことを特徴とする請求の範囲第１項に記載の訓練補助装置。
９．異なる必要単語に関連した設定値に応じて、ペナルティ値が変化することを特徴とする請求の範囲第８項に記載の訓練補助装置。
１０．上記設定ペナルティ値が個々の子供に合わせてオペレータにより変更されることを特徴とする請求の範囲第９項に記載の訓練補助装置。
１１．各校査セッションの間、必要単語を訓練補助装置に入力するためのキーボードを含むことを特徴とする請求の範囲第１項に記載の訓練補助装置。
１２．子供に上記必要単語を話すように促すための手段を含むことを特徴とする請求の範囲第１項に記載の訓練補助装置。
１３．音声合成器と拡声器を含む促進手段を含むことを特徴とする請求の範囲第１２項に記載の訓練補助装置。
１４．促進手段がメッセージ表示用画面を持つ画像モニタを含むことを特徴とする請求の範囲第１２項に記載の訓練補助装置。
１５．必要単語、正しく話された単語、およびいかに正しく話されたかを示す、１セッションの子供の音声の結果を記録する手段を含むことを特徴とする請求の範囲第１項に記載の訓練補助装置。
１６．上記音響単語モデルが、一連の部分単語モデルと一般音声モデルであり、上記音声パターン照合器が、上記必要単語の発声の正しさを示すことを特徴とする請求の範囲第１項に記載の訓練補助装置。
１７．上記音響単語モデルが、子供の発声における中断が別に処理されるように、上記音響単語モデルの前に追加の音響モデルを含むことを特徴とする請求の範囲第１項に記載の訓練補助装置。