JPH01204099A

JPH01204099A - 音声認識装置

Info

Publication number: JPH01204099A
Application number: JP63029678A
Authority: JP
Inventors: Kenichi Iso; 健一磯
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1988-02-09
Filing date: 1988-02-09
Publication date: 1989-08-16
Anticipated expiration: 2011-09-04
Also published as: JP2531227B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（産業上の利用分野）本発明は音素などの単語より短い単位を基に音声を認識
する音声認識装置の改良に関する。

（従来の技術）従来から大語粟の単語音声認識装置を実現するために、
音素や音節などの単語より短い音声の単位（以下音素と
称する）を定義して、各音素毎に標準パターンを用意し
、音素標準パターンを音素表記の単語辞書に従って接続
して構成した単語標準パターンと入力音声パターンとを
ＤＰマツチングによって比較照合することによって単語
認識を行なう方法が検討されている。その詳細に関して
は電子情報通信学会論文誌り分冊、Ｖｏｌ、Ｊ７０−Ｄ
、Ｎｏ、１２、第２４６０頁（１９８７年１２月）　ｒ
語中のＣＶ音節を標準パターンとする不特定話者の大語
禦単語音声認識」に解説されている。

また、ＤＰマツチング以外にも統計的認識アルゴリズム
として隠れマルコフ・モデルによる音素モデルを用意し
て、その接続によって単語を認識する方法も検討されて
いる。その詳細はアール・シュワルツ（Ｒ，Ｓｃｈｗａ
ｒｚ）他により１９８５年音響・音声・信号処理国際会
議（Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｖｃ
ｅ　ｏｎ　Ａｃｏｕｓｔｉｃｓ、　５ｐｅｅｃｈ　ａｎ
ｄ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇ）論文集３１
．３．１、第１２０５頁以下に発表された論文「コンチ
クスト　デイペンデントモデリング　フォー　アコース
ティック　フォーネティク　レコグニツション　オブ　
コンティニュアス　スピーチ（Ｃｏｎｔ、ｅｘｔ−ｄｅ
ｐｅｎｄｅｎｔ　ＭｏｄｅｌｉＢｆｏｒ　Ａｃｏｕｓｔ
ｉｃ−ｐｈｏｎｅｔｉｃ　Ｒｅｃｏｇｎｉｔｉｏｎ　ｏ
ｆ　Ｃｏｎｔｉｎｕ′ｏｕｓ　５ｐｅｅｃｈ）　」に解
説されている。

（発明が解決しようとする問題点）上記のような音素に基づいて単語を認識する方式は、大
語禦の音声認識を実現するためには必須と考えられるが
、現状では音素認識率が低いために必ずしも成功してい
るとは言えない。

その原因として、ＤＰマツチングや隠れマルコフ・モデ
ルでは音素パターンの話者内或は間の時間軸方向・周波
数軸方向の変動を吸収しきれていない為と考えられる。

即ち、ＤＰマツチングの場合には音素パターンの周波数
軸方向の変動を吸収するために、代表的な変動を表わす
標準パターンを複数個用意して対応しているが、必ずし
も音声の複雑な変動を捉えきれていない。

また、隠れマルコフ・モデルは統計的手法を導入するこ
とよって、音素パターンの変動を少数のパラメータで効
率良く記述しようとしているが、音声時系列の時間構造
としてマルコフ性を仮定しているために、時系列のある
時点での判断を行なう際に過去の影響をうまく反映させ
ることができず、満足なものとは言えない。

本発明の目的は、音声系列パターン内の前後音素の影響
を音素認識に反映させると共に、さまざまな変動を含む
音声パターンを提示して教師付き学習を行なうことによ
ってパターンの変動に強い認識処理を行なうように構成
するとができる音素に基づく音素認識装置を提供するこ
とにある。

（問題点を解決するための手段）本発明はＮｐ個の単語より短い単位（以下音素と称する
）を基に音声パターンを認識するに際して、入力音声データをフレーム単位に分析して、各フレーム
の特徴ベクトルを逐次出力する音声分析部と、前記音声分析部がら出力される特徴ベクトルの時系列か
ら始点を１フレームづつ移動しながら固定フレーム長分
だけの特徴ベクトル列を切り出して逐次出力するバッフ
ァ部と、バッファ部から固定フレーム長の特徴ベクトル列を入力
層に入力されるユニット間結合係数記憶部に記憶されて
いるユニット間結合係数を用いて、前記入力特徴ベクト
ル列の中央のフレームに対する音素記号の推定結果を、
ＮＰ個の各々が音素記号に対応している出力ユニットの
活性度のパターン、即ちＮ、次元の出力活性度ベクトル
として出力する階層型ニューラル・ネットワーク前方伝
播部と、前記階層型ニューラル・ネットワーク前方伝播部から出
力される出力活性度ベクトルの成分の内で最大値を持つ
成分に対応する音素記号を推定音素記号として出力する
判定結果出力部と、前記判定結果出力部からフレーム単
位に逐次出力される推定音素記号列を音素表記単語辞書
部に記憶されている全ての単語を表わす音素列と比較照
合し、最も類似度の高い単語を認識結果として出力する
単語照合部とを有することを特徴とする。

（作用）本発明の基本的な原理は、入力音声をフレーム単位に分
析して特徴ベクトルの時系列に変換して、その各フレー
ム・ベクトル毎に対応する音素記号を定めるようなニュ
ーラル・ネットワークを構成しようというものである。

このニューラル・ネットワークを用いて入力音声時系列
を音素記号列に変換する。こうして得られる音素記号列
は必ずしも１００％の精度で音素記号が対応付けられて
いるとは限らず、誤りも含まれている。そこで、単語認
識を行なうためにこの音素記号列を音素表記の単語辞書
と記号レベルでＤＰマツチングを行ない、継続時間長の
相違と部分的な音素認識誤りを吸収して、累積距離の最
も小さい単語を認識結果とする。

このように本発明では、音素認識を行なうニューラル・
ネットワークを構成しておくので、認識したい対象語禦
を増やす場合には単語辞書にその単語の音素記号表記を
加えるだけでよく、語禦の追加が容易で大語禦の音声認
識に向いている。

以下に本発明の内容について詳細に説明する。

本発明ではフレーム単位の音素認識を行なうニューラル
・ネットワークとして有効な学習アルゴリズムが知られ
ているバックプロパゲーション・ネットワークを用いる
。このネットワークの学習アルゴリズム（バックプロパ
ゲーション学習と呼ばれている）に関しては［日経エレ
クトロニクス」誌、第４２７号の第１１５頁（昭和６２
年８月１０日発行）　［ニューラル・ネットをパターン
認識、信号処理、知識処理に使う」に解説されている。

（以下、文献１と称する。）バックプロパゲーション・ネットワークは階層構造を有
するネットワークで、入力データを受は取る入力層と、
計算結果を出力する出力層と、その間の何層かの隠れ層
とから構成されている。入力データが入力層のユニット
の活性度の組としてネットワークに入力されると、入力
層から順次隣接する層へ活性度が伝播され、最後に出力
層の出力ユニットの活性度が定まると、その活性度の組
が音素認識結果となる。

このようなニューラル・ネットワークを用いて、フレー
ム単位の音素認識を行なうためには出力層には各音素記
号に対応するユニットを用意すれば良いが、入力層に音
声パターンをどのように提示するかという点が問題にな
る。本発明では入力音声より一定フレーム長の特徴ベク
トルの時系列を切り出して、ニューラル・ネットワーク
に入力する。ニューラル・ネットワークは入力された特
徴ベクトル列の中央のフレームのベクトルに対する音素
認識結果を出力層に出力する。このような構成にするこ
とによってニューラル・ネットワークは入力音声データ
のある１フレームに対応する音素記号を決定する際に前
後の数フレーム分の音声データを参考にすることができ
るので、音声時系列の前後の影響を考慮にいれた音素認
識を実現することができる。

ニューラル・ネットワークへの音声の入力法として、特
徴ベクトルを直接入力する代わりにフレーム単位のベク
トル量子化によって求められた量子化符号を入力するこ
ともできる。以下ではベクトル量子化を用いる場合につ
いて説明する。

ベクトル量子化法の詳細に関しては文献Ｉ　ＥＥＥトラ
ンザクションズ　オン　アコウスティックススピーチ　
アンド　シグナル　プロセッシング（ＩＥＥＥ　　Ｔｒ
ａｎｓａｃｔｉｏｎｓ　　ｏｎ　　Ａｃｏｕｓｔｉｃｓ
、　　５ｐｅｅｃｈ、　　ａｎｄ　　Ｓｉｇｎａｌ　　
Ｐｒｏｃｅｓｓｉｎｇ）、　Ｖｏ　　１．　　ＡＳＳＰ
−３０，Ｎｏ、２．（１９８２年春）　「デイクストー
ション　パフォーマンス　オブ　ベクトル　クアンティ
ゼイション　フォー　エル・ビー・シーボイスコーティ
ング（Ｄｉｓｔｏｒｔｉｏｎ　Ｐｅｒｆｏｒｍａｎｃｅ
　。

ｆ　　Ｖｅｃｔｏｒ　　Ｑｕａｎｔｉｚａｔｉｏｎ　　
ｆｏｒ　　ＬＰＣＶｏｉｃｅ　　Ｃｏｄｉｎｇ）１に解
説されている。

本発明の認識的に於ける処理の流れは以下の通りである
。

入力された音声データはフレーム単位に分析されて、特
徴ベクトルの時系列に変換される。更にこの特徴ベクト
ルの時系列はあらかじめ用意された大きさＮｖ、、の符
号帳を用いてベクトル量子化されて、量子化符号列に変
換される。各量子化符号は後の便宜のためにＮｖｑ次元
のベクトルで表わす。このベクトルは符号帳の符号ベク
トルに０番からＮｖ９１番の番号をつけておき、量子化
によって対応付けられた符号ベクトルの番号に対応する
成分だけを１にして他の成分は０にした２値のベクトル
である。結局、入力音声データは次のような２値ベクト
ルの時系列として表わされる。

ａ（ｌｌａ（２１−・・ａ（ｉ）　・−ａ（Ｔ）（Ｔは
入力音声データのフレーム数）・・・・・・（１）ここ
で上述のａ　（ｉ）はＮｖＱ次元の２値ベクトルで、そ
の第ｊ成分をａ　（ｉ；ｊ）とすると以下のように表わ
せる。

ａ（ｉ；ｊ）　　＝Ｏ（ｉｆ　ｊ＃−ｎ）　　　　　　
　−１２１＝　１　　（ｉｆ　ｊ＝ｎ）但しｎは量子化符号の番号である。

このような２値ベクトル時系列をニューラル・ネットワ
ークに入力するために長さＮｗの固定長２値ベクトル時
系列を逐次切り出す。ｋ番目に切り出した固定長２値ベ
クトル時系列をｂ　（ｋ、Ｃｊ）とする。

ｂ　（ｋ、ｓ；ｊ）　　＝　　ａ　＜ｋ＋園；ｊ）（ｍ
＝１〜Ｎｗ、　　ｋ＝１〜Ｔ　　Ｎｗ＞・’＝・１３１
こうして入力音声データから長さＮｖ、×Ｎｗの２値パ
ターンが切り出されたので、このデータをニューラル・
ネットワークの入力層のＮｙ＋１ＸＮＩｆ個の入力ユニ
ットの活性度パターンｘ（ｐ）（ｐ−１〜ＮｖｑＸＮｗ
）としてネットワークに入力する。

ｘ（ｌ＊Ｎｖｑ＋ｊ）　＝ｂ（ｋ、鵬；ｊ）　　　　　
　　　　　　・・・・・・（４１ニユーラル・ネットワ
ークはこの人力ｘ（ｐ）を受は取るとユニット間結合係
数を用いて出力層の出力ユニットの活性度パターンｙ（
ｑ）を出力する。ここで出力ユニットは各音素記号に対
応しており、音素記号の種類数ＮＰ個個用型る。第９番
目の音素記号に対応する出力ユニットの活性度ｙ（ｑ）
は０．０から１．０の実数値をとる。

ｙ　（ｑ）−［０，１］　　（ｑ＝１〜Ｎｐ）・・・・
・・（５）ニユーラル・ネットワークが入力層の活性度
パターンからユニット間結合係数を用いて出力層の活性
度パターンを計算する過程については、文献１に詳しい
記述があるので省略する。

ｋ番目の固定長２値ベクトル時系列に対する音素認識結
果は活性度が最大値をとる出力ユニットの番号ｚ（ｋ）
として得られる。

ｚ　（ｋ　）　＝ａｒｇｍａｘ　［３／　（Ｑ　）　］
　　　　　−−（６１結局、長さＴフレームの入力音声
データから同じ長さＴの音素記号列ｚ　（ｋ）が得られ
る。またこの方法のように入力音声の各フレーム毎に逐
次対応する音素記号を求める代わりに、入力音声の数フ
レーム毎に上述の処理を行なって対応する間引きされた
音素記号列を求めることもできる。この場合には以下の
認識処理の計算量を低減することができる。

この音素記号列と音素表記された単語辞書とを記号レベ
ルで比較照合することにより、単語認識を行なう。音素
記号列と辞書中の単語音素列は長さが異なり、またニュ
ーラル・ネットワークによって求められた音素記号列に
は音素認識誤りも含まれている可能性があるので、比較
照合には音素記号間の距離を定義して、ＤＰマツチング
を行なう。

音素記号ｉと音素記号ｊの間の距離Ｄｉｊとしては、あ
らかじめ正解音素記号列が知られている試験用音声デー
タ時系列を上記ニューラル・ネ・・ｌトワークで音素記
号列に変換して、正解音素記号列と比較することによっ
て、音素記号ｉの音素を音素記号ｊの音素と誤認識して
しまう割合Ｃｉｊ（コンフユージヨン行列）が得られる
ので、Ｃｉｊの値が大きいほどＤｉｊが小さくなるよう
に定義すれば良い。

例えば、ｒを正の定数として、Ｄ、、＝Ｏ（ｉ＝ｊ＞・・・・・・（力＝１／（（１：
＋ｊ）’　　　（ｉ≠ｊ）このようにコンフユージヨン
行列を用いて距離を定義すれば誤り易い音素間の距離は
小さくなるので、ニューラル・ネットワークによる音素
認識結果に誤認識があってもＤＰマツチングの累積距離
には大きな寄与をしないので精度の高い単語認識結果を
得ることができる。

次に、上述のような構成の音声認識装置に於てニューラ
ル・ネットワークの音素認識精度を決定するパラメータ
であるユニット間結合係数を学習によって決める方法に
ついて説明する。

まず、学習用の音声データに上記の音声分析、音声符号
化、固定長２値ベクトルの切り出し処理を行なって、ニ
ューラル・ネットワークに人力できる形態のデータに変
換する。このデータを入力データとし、学習用音声デー
タの各フレームでの対応する正解音素記号列を教師信号
として前記文献１に詳しいバックプロパゲーション学習
を行なって、ニューラル・ネットワークが学習用音声デ
ータに対しては正しい音素認識を行なうようにユニッ′
ト間結合係数を決定する。

最後に冗長な学習の繰り返しを避けて、学習に要する時
間を短縮する方法について説明する。即ち、符号化され
た学習用音声データの時系列中に於て、同じ符号がＮｗ
個以上連続している場合には、ニューラル・ネットワー
クに入力される固定長２値ベクトル時系列は全く同じパ
ターンが繰り返されることになるので、同じ符号がＮｗ
個以上連続しないように学習データから省いてしまうこ
とができる。このようにすることによって母音部分など
の同じパターンが繰り返されることが多い部分に学習が
偏ることなく、より識別が困難な子音部分の学習を重点
的に行なうことができるようになる。

また、この方法を認識的に適用することによって、母音
部分などで同じ音素記号の連続する部分が長くなり過ぎ
て、ＤＰマツチングの累積距離に大きな寄与をしてしま
い、子音部分の累積距離がマスクされて誤認識に至ると
いうことを防ぐことができる。

（実施例）第１図は本発明を実現した装置の一実施例を示したブロ
ック図である。認識時には入力された音声は音声分析部
１でフレーム単位に分析されて特徴ベクトルの時系列に
変換され、各特徴ベクトルは音声符号化部２で符号帳記
憶部３に記憶されている０番から（Ｎｖｑ　１）番に番
号付けされなＮｖ９個の符号帳ベクトルと比較され、最
も類似した符号帳ベクトルの番号をｎとして、第ｎ成分
のみが１で他の成分はＯであるＮｖ４次元の２値符号ベ
クトルに変換される。バッファ部５は２値符号ベクトル
の時系列から固定長の符号ベクトル列を切り出して逐次
階層型ニューラル・ネットワーク前方伝播部６へ入力す
る。階層型ニューラル・ネットワーク前方伝播部６はユ
ニット間結合係数記憶部１０に記憶されているユニット
間結合を用いて出力層の活性度を算出して活性度ベクト
ルとして出力する。判定結果出力部７は階層型ニューラ
ル・ネットワーク前方伝播部６の出力である出力層の活
性度ベクトルの最大値を持つ成分を判定して対応する音
素記号を音素認識結果として出力する。判定結果出力部
７から出力される音素記号の時系列はＤＰ照合部８で、
コンフユージヨン行列記憶部１３に記憶されているコン
フユージヨン行列から音素記号間距離計算部１４によっ
て計算され、音素記号間距離記憶部１５に格納・記憶さ
れている音素間距離を用いて、音素表記単語辞書部９に
記憶されている単語音素列とＤＰ照合されて、累積距離
が最小となる単語が認識結果として出力される。

学習時には、音声分析部１への入力として学習用音声を
入力して、認識時と同じ処理の流れで階層型ニューラル
・ネットワーク前方伝播部６の出力として出力層の活性
度ベクトルが出力されると、ユニット間結合係数修正部
１１がその活性度ベクトルと学習用音声に対応する教師
信号を比較してバックプロパゲーション学習法によって
ユニット間結合係数の修正量を算出して、ユニット間結
合係数記憶部１０に記憶されているユニット間結合係数
を修正する。

ＤＰ照合時に用いられる音素記号間距離を算出するため
のコンフユージヨン行列の決定は次のように行なわれる
。上記のユニット間結合係数の学習が終了した後で、試
験用の音声データを音声分析部１に入力して、認識時と
同じ処理の流れで判定結果出力部７から認識結果として
得られる音素記号列をコンフユージヨン行列要素計算部
１２が正解音素記号列と比較して、音素記号ｉの音素を
音素記号ｊの音素と誤認識としている割合をｉ行ｊ列の
要素として算出し、コンフユージヨン行列記憶部１３に
格納する。

また認識時、学習時共に音声符号化部２の出力である２
値打号ベクトル時系列における同じ２値打号ベクトルの
繰り返しがバッファ部５で切り出される長さＮｗより長
くなっている場合には時系列圧縮部４で繰り返しがＮｗ
より長くならないように圧縮して次のバッファに部に入
力するようにする事ができる。

（発明の効果）以上述べたように本発明によれば、音声時系列パターン
内の前後音素の影響を音素認識に反映させることができ
ると共に、さまざまな変動を含む音声パターンを提示し
て教師付き学習を行なうことによってパターンの変動に
強い音素単位の認識に基づく音声認識装置を構成するこ
とができる。

【図面の簡単な説明】

第１図は本発明の一実施例を示すブロック図である。第
１図において、１は音声分析部、２は音声符号化部、３
は符号帳記憶部、４は時系列圧縮部、５はバッファ部、
６は階層型ニューラル・ネットワーク前方伝播部、７は
判定結果出力部、８はＤＰ照合部、９は音素表記辞書部
、１０はユニット間結合係数記憶部、１１はユニット間
結合係数修正部、１２はコンフユージヨン行列要素計算
部、１３はコンフユージヨン行列記憶部、１４は音素記
号間距離計算部、１５は音素記号間距離記憶部である。

Claims

【特許請求の範囲】

（１）Ｎ＿Ｐ個の単語より短い単位（以下音素と称する
）を基に音声パターンを認識するに際して、入力音声デ
ータをフレーム単位に分析して、各フレームの特徴ベク
トルを逐次出力する音声分析部と、前記音声分析部から出力される特徴ベクトルの時系列か
ら始点を１フレームづつ移動しながら固定フレーム長分
だけの特徴ベクトル列を切り出して逐次出力するバッフ
ァ部と、バッファ部から固定フレーム長の特徴ベクトル列が入力
層に入力されるとユニット間結合係数記憶部に記憶され
ているユニット間結合係数を用いて、前記入力特徴ベク
トル列の中央のフレームに対する音素記号の推定結果を
、Ｎ＿Ｐ個の各々が音素記号に対応している出力ユニッ
トの活性度パターン、即ちＮ＿Ｐ次元の出力活性度ベク
トルとして出力する階層型ニューラル・ネットワーク前
方伝播部と、前記階層型ニューラル・ネットワーク前方伝播部から出
力される出力活性度ベクトルの成分の内で最大値を持つ
成分に対応する音素記号を推定音素記号として出力する
判定結果出力部と、前記判定結果出力部からフレーム単位に逐次出力される
推定音素記号列を音素表記単語辞書部に記憶されている
全ての単語を表わす音素列と比較照合し、最も類似度の
高い単語を認識結果として出力する単語照合部とを有す
ることを特徴とする音声認識装置。
（２）請求項１記載の音声認識装置において、音声分析
部から出力される特徴ベクトルを符号帳記憶部に記憶さ
れている０番から（Ｎ＿ｖ＿ｑ−１）番に番号付けされ
たＮ＿ｖ＿ｑ個の符号帳ベクトルと比較し、最も類似し
た符号帳ベクトルの番号をｎとして、第ｎ成分のみが１
で他の成分は０であるＮ＿ｖ＿ｑ次元の符号ベクトルを
出力する音声符号化部を有し、前記音声符号化部から出力される符号ベクトルの時系列
から始点を１フレームづつ移動しながら固定フレーム長
（長さＮ＿ｗフレーム）分だけの符号ベクトル列を切り
出して逐次出力するバッファ部と、入力層としてＮ＿ｗ×Ｎ＿ｖ＿ｑ個の入力ユニットを有
し、前記バッファ部の出力である固定長の符号ベクトル
列の２値パターンを入力ユニットの活性度パターンとし
て入力したときに、ユニット間結合係数記憶部に記憶さ
れているユニット間結合係数を用いて、前記入力符号ベ
クトル列の中央のフレームに対する音素記号の推定結果
を、Ｎ＿Ｐ個の各々が音素記号に対応している出力ユニ
ットの活性度のパターン、即ち、Ｎ＿Ｐ次元の出力活性
度ベクトルとして出力する階層型ニューラル・ネットワ
ーク前方伝播部とを有することを特徴とする音声認識装
置。
（３）請求項１または、２記載の音声認識装置において
、学習用音声データ時系列とその各時刻点での対応すべき
音素記号を与える音素記号データ時系列を用いて、教師
付き学習によって前記ユニット間結合係数を定めるに際
して、前記学習用音声データ時系列を入力音声として前記音声
分析部に入力することにより、ニューラル・ネッワーク
前方伝播部から出力される出力活性度ベクトルと、前記
音素記号データ時系列の対応するフレームの音素記号に
対応する成分のみが１で他の成分は０である教師活性度
ベクトルの差を用いて、バックプロパゲーション法によ
ってユニット間結合係数の修正量を算出し、前記ユニッ
ト間結合係数記憶部に記憶されているユニット間結合係
数を修正するユニット間結合係数修正部を有することを
特徴とする音声認識装置。
（４）請求項２または３記載の音声認識装置において、前記音声符号化部から出力される符号ベクトルの時系列
に於て、同じ符号ベクトルがＮ＿ｗフレーム以上連続し
ている場合には、長さＮ＿ｗフレームに圧縮して出力す
る入力データ圧縮部を有することを特徴とする音声認識
装置。
（５）請求項２、３または４記載の音声認識装置のバッ
ファ部において、固定長の特徴ベクトル列を切り出す始点を１フレームづ
つでなく、数フレームづつ移動しながら、特徴ベクトル
列を切り出して出力することを特徴とする音声認識装置
。
（６）請求項１、２、３、４または５記載の音声認識装
置において、長さの異なる推定音素記号列と辞書の単語音素列を比較
照合する前記単語照合部が、音素記号ｉの音素と音素記号ｊの音素の間の距離Ｄ＿ｉ
＿ｊを記憶しておく音素間距離記憶部と、前記音素間距
離記憶部に記載されている距離を用いて推定音素記号列
と辞書の単語音素列をＤＰマッチング法によって照合す
るＤＰ照合部とから構成されることを特徴とする音声認
識装置。
（７）特許請求項６記載の音声認識装置において、音素
記号ｉの音素を音素記号ｊの音素と誤ってしまう割合Ｃ
＿ｉ＿ｊを行列要素とするＮ＿ｐ×Ｎ＿ｐ次元のコンフ
ュージョン行列（Ｃ＿ｉ＿ｊ）を記憶しているコンフュ
ージョン行列記憶部と、コンフュージョン行列記憶部から読みだした行列要素Ｃ
＿ｉ＿ｊの値が大きいほど距離が小さくなるように音素
ｉと音素ｊの間の距離Ｄ＿ｉ＿ｊを算出する音素間距離
計算部と、予め前記音素間距離計算部によって計算された音素記号
間距離を記憶しておく音声間距離記憶部と、前記音素間距離記憶部に記憶されている距離を用いて推
定音素記号列と辞書の単語音素列をＤＰマッチング法に
よって照合するＤＰ照合部とから構成される単語照合部
を有することを特徴とする音声認識装置。
（８）請求項７記載の音声認識装置において、試験用音
声データ時系列を前記音声分析部に入力して、前記判定
結果出力部から出力される推定音素記号を試験用音声デ
ータ時系列の対応する時刻点での正解音素記号と比較し
て一致・不一致を判定し、試験用音声データ時系列全体
に於て音素記号ｉの音素を音素記号ｊの音素として誤つ
た推定結果を出力した割合、即ちコンフュージョン行列
の行列要素Ｃ＿ｉ＿ｊを算出してコンフュージョン行列
記憶部に格納するコンフュージョン行列要素計算部を有
することを特徴とする音声認識装置。