JPH0438356B2

JPH0438356B2 -

Info

Publication number: JPH0438356B2
Application number: JP59245477A
Authority: JP
Priority date: 1984-11-20
Filing date: 1984-11-20
Publication date: 1992-06-24
Also published as: JPS61123892A

Description

【発明の詳細な説明】（産業上の利用分野）この発明は音が未知である未知音声データと音
声が既知である既知音声データを照合して未知音
声データの音を決定する音声認識装置に係り、詳
しくはそれぞれ時間の経過に対応して多数個の値
が列をなしてなる１つの音の未知音声データ及び
既知音声データをそれぞれ予め定めた区間データ
に区切りその両区間を互いに照合することによつ
てその未知音声データの音を決定する音声認識装
置に関するものである。

（従来技術）従来、この種の音声認識装置は音が未知である
未知音声データと音が既知である既知音声データ
とを照合して未知音声データの音を決定する方式
として、まず、未知音声データと既知音声データ
とを比較するための照合区間を単音節（子音、母
音）ごとに区切り（単音節切り出し）り設定し、
つぎに、動的計画法（DP法；Dynamic
Programming）を応用して時間軸の整合を行な
つた後、その互いに照合する照合区間における類
似度の基準として、例えば、WLR（Weighted
Likelihood Ratio）距離を算出していた。

そして、そのWLR距離を他の既知音声データ
についても同様に算出し、その算出した各WLR
距離の最も短い距離の既知音声データの音を当該
未知音声データのものであると判断して未知音を
決定するようにしていた。

従つて、精度の高い音声認識を行なう上で前記
未知音声データの単音節（子音、母音）の照合区
間を正確に切り出し選定することが非常に重要と
なつていた。

（発明が解決しようとする問題点）ところが、認識率の高い音声認識を行なう上で
前記未知音声データ及び既知音声データの照合区
間の切り出しが非常に重要な要素となつているの
にもかかわらず、子音及び母音区間の境界付近は
極めて複雑であり、単純に一義的に各区間を決定
することはできない。従つて、実際にはその音声
データの音の特徴が良く現れている最適な照合区
間を設定することは非常に難しく、精度の高い照
合が望めないのが現状であつた。

（発明の目的）この発明は前記問題点を解決するためになされ
たものであつて、その目的は照合区間の切り出し
の精度を上げることなく認識率を向上を図ること
ができる音声認識装置を提供するにある。

（問題点を解決するための手段）第１図は本発明の全体構成を示すブロツク図で
あつて、本発明の音声認識装置は未知音声データ
及び既知音声データのうち未知音声データに第１
の照合区間を設定する第１の照合区間設定手段１
０１と、前記既知音声データに前記第１の照合区
間より長い区間を有する第２の照合区間を設定す
る第２の照合区間設定手段１０２と、前記第１の
照合区間と等しい長さを有し互いに位置の異なる
対象区間を第２の照合区間において順次設定する
対象区間設定手段１０３と、前記第１の照合区間
に対する前記各対象区間において対応するそれぞ
れの時点の値の距離に基づいた代表値を前記各対
象区間毎に算出する代表値算出手段１０４と、前
記各代表値のうち前記距離が最も短いことを示す
代表値を前記第１の照合区間と前記第２の照合区
間との間の基準値として設定する基準値設定手段
１０５とを有し、１つの前記未知音声データについて複数の前記
既知音声データに対する前記基準値をそれぞれ算
出しその基準値に基づいて未知音声データの音を
決定する。

（作用）音が未知である未知音声データ及び音がわかつ
ている既知音声データのうち未知音声データを入
力する第１の照合区間設定手段１０１はその入力
された未知音声データに第１の照合区間を設定す
る。既知音声データを入力する第２の照合区間設
定手段１０２はその入力された既知音声データに
前記第１の照合区間より長い区間となる第２の照
合区間を設定する。対象区間設定手段１０３は前
記第２の照合区間設定手段１０２にて設定された
第２の照合区間において前記第１の照合区間と等
しい長さを有し互いに位置の異なる対象区間を順
次設定する。

そして、代表値算出手段１０４は前記第１の照
合区間設定手段１０１で設定した未知音声データ
の第１の照合区間と前記対象区間設定手段１０３
で設定した既知音声データの第２の照合区間にお
ける各対象区間において対応するそれぞれの時点
の値の距離に基づいた代表値をその各対象区間毎
に算出する。

基準値設定手段１０５は前記代表値算出手段１
０４で算出した各対象区間毎に算出した各代表値
の中から前記距離が最も短い値を示す代表値を前
記第１の照合区間と第２の照合区間における基準
値として設定する。

そして、１つの未知音声データについて、この
ように設定した既知音声データに対する前記基準
値を他の複数の既知音声データに対してもその基
準値をそれぞれ算出し、そのそれぞれの基準値に
基づいて未知音声データの音を決定するようにし
たものである。

（実施例）以下、この発明を具体化した好適な一実施例を
図面に従つて説明する。

第２図はこの発明を具体化した音声認識装置の
電気ブロツク回路図を示し、マイクロホン１はそ
のスイツチがオンされることにより、音声入力の
開始を示す信号を後記するCPU４に出力するよ
うになついる。そして、話者の発音した音声を集
音し、その集音した音声信号を増幅器２にて以後
の処理に適するレベルに増幅した後次段のＡ／Ｄ
変換器３に出力する。そして、Ａ／Ｄ変換器３は
この所定のレベルに増幅された音声信号を4KHz
までの音声波形の情報を得るために8KHzのサン
プリング周波数でサンプリングしその時刻におけ
る振幅レベルを量子化してなる離散信号に変換し
て中央処理装置（以下、CPUという）４に出力
するようになつている。

CPU４は読み出し専用のメモリ（ROM）より
なるプログラムメモリ５に記憶された制御プログ
ラムに従つて動作され、そのプログラムに従つて
各演算処理動作によつて得られた各演算処理結果
を読み出し及び書き込み可能なメモリ（RAM）
よりなるワークメモリ６に一時記憶するようにな
つている。

前記プログラムメモリ５は制御プログラムの他
にマイクロホン１から入力された未知の音声を認
識する処理に使用するための多数個の既知音声の
離散信号データ（既知音声が8KHzでサンプリン
グされ、その時刻における振幅レベルを量子化し
てなるデータ）が予め記憶されている。

又、前記ワークメモリ６は多数の記憶領域を有
し、振幅記憶領域６ａ、２乗記憶領域６ｂ、エネ
ルギー記憶領域６ｃ、未知音声及び既知音声デー
タ記憶領域６ｄ，６ｅ、第１及び第２の照合区間
記憶領域６ｆ，６ｇ、対象区間記憶領域６ｈ、平
均値記憶領域６ｉ、基準値記憶領域６ｊ等を有し
ている。

前記CPU４は前記Ａ／Ｄ変換器３から出力さ
れてくる未知音声の振幅レベルが量子化された離
散信号を離散信号データとして前記ワークメモリ
６の振幅記憶領域６ａに順次記憶していく。従つ
て、CPU４はサンプリングされた音声波形の離
散信号データを１秒間に8000個（125マイクロ秒
毎に１個）振幅記憶領域６ａに記憶させていくこ
とになる。

又、CPU４はこの離散信号データを２乗しそ
の２乗値を前記２乗記憶領域６ｂに順次記憶させ
る。そして、CPU４はこの２乗値の64個（８ミ
リ秒）ごとの和を順次とることにより短時間エネ
ルギー値を算出しその短時間エネルギー値を前記
ワークメモリ６のエネルギー記憶領域６ｃに順次
書き込んで行く。

尚、前記短時間エネルギー値は時間を横軸に
し、この短時間エネルギー値を縦軸にしその最大
値を、基準にして表わせば第３図に示すようにな
る。

一方、CPU４は前記プログラムメモリ５から
既知音声の離散信号データを読み出し、前記未知
音声の場合と同様にその離散信号データに基づい
て２乗値、短時間エネルギー値を算出し、既知音
声用の記憶領域へやはり前記未知音声の場合と同
様に順次書き込んでいく。

又、CPU４は未知音声及び既知音声のそれぞ
れの離散信号データに対し、まず、１次差分値を
とつて高域強調し、続いて各処理のためのフレー
ムのその切り出し点における不連続性の影響によ
るスペクトル漏れを低減するためにハミング窓
（ウインド）関数を１フレーム毎に乗じる。ここ
で、フレーム長は32ミリ秒であり、隣接するフレ
ームは８ミリ秒ずつ時間的に移動している。

次に、自己相関分析により10次の自己相関係数
を算出し、ラグ窓（ウインド）関数を乗じてスペ
クトルの局部的な鋭いピークを抑えて平滑化す
る。

そして、このラグ窓関数を乗じた自己相関係数
を用いて線形予測分析（LPC分析）をして10次
の線形予測係数を求め、これら値に基づいて
WLR距離の算出のために24次のLPC相関係数、
24次のLPCケプストラムを算出し当該マイクロ
ホン１で集音した１つの未知音声に対する未知音
声データ及び既知音声データとして未知音声デー
タ記憶領域６ｄ及び既知音声データ記憶領域６ｅ
にそれぞれ記憶するようになつている。

又、CPU４はこの作成した未知音声データの
子音と既知音声データ子音とを照合するための未
知音声データにおける第１の照合区間としての未
知側照合区間Ｘ（第６図参照）と既知音声データ
の第２の照合区間としての既知側照合区間（第５
図参照）を切り出し設定するようになつている。

この設定では、未知音声データの場合、前述し
た未知音声の短時間エネルギー値の列において音
声が発せられる前の雑音のみの区間のレベルの２
倍のレベルＥ１に達する時点ｔ１からその音声の
短時間エネルギー値の最大値の30％のレベルＥ２
に達する時点ｔ２までを未知側子音照合区間Ｘと
している。

又、既知音声データの既知側照合区間Ｙの設定
については、まず、前記未知音声の場合と同様
に、既知側照合区間Ｙの終端（右端）を求める。
次に前記未知音声の未知側照合区間Ｘのフレーム
数を算出しその未知側照合区間Ｘのフレーム数よ
り４フレーム多い区間となるように前記終端を基
点に時間的に遡つて既知側照合区間Ｙの始端（左
端）を決めている。

既知側照合区間Ｙを設定すると、CPU４は前
記既知音声データの既知側照合区間Ｙにおいて未
知側照合区間Ｘと等しい長さを有し互いに位置の
異なる対象区間としての複数個の既知側対象区間
yn（実施例ではｎは１から５までの整数をとる）
を順次設定する機能を有している。従つて、第６
図に示すように未知側照合区間Ｘに対する複数個
の既知側対象区間ｙ１〜ｙ５が設定されることに
なる。

尚、第４図乃至第６図には説明の都合上、離散
信号データを示したが、照合に使用する各区間の
データは前記処理動作により得られた未知及び既
知音声データである。

CPU４はこの未知側照合区間Ｘに対して複数
個の既知側対象区間ｙ１〜ｙ５を設定すると、そ
の未知側照合区間Ｘに対する各既知側対象区間
yn毎に対応する各フレーム毎にWLR距離を算出
するとともに、その１つの既知側対象区間yn毎
に求められたWLR距離の平均値Ｐ（ｎ）を代表値
として算出し平均値領域６ｉに記憶するようにな
つている。

そして、CPU４はこの未知側対象区間Ｘに対
して各対象区間yn毎に算出した平均値Ｐ（ｎ）の
内から最小の平均値を求めて基準値Ｚ（ｍ）とし、
基準値記憶領域６ｊに記憶する。

ここで、ｍは１からプログラムメモリ５に予め
離散信号データの形で記憶されている既知音声の
総数までの整数をとり、各既知音声にそれぞれ対
応している。

そして、CPU４はその既知音声データに対す
る基準値Ｚ（ｍ）を選定すると、次の新たな既知
音声の離散信号データをプログラムメモリ５から
読み出し、前記各処理により新たな既知音声デー
タを算出して新たな既知音声データと前記未知音
声データにおける基準値Ｚ（ｍ）を前記と同様に
算出するようになつている。

そして、この未知音声データに対するプログラ
ムメモリ５に記憶した全ての既知音声の離散信号
データを読み出し算出した既知音声データについ
て基準値Ｚ（ｍ）を算出すると、CPU４は全ての
既知音声について算出した各基準値Ｚ（ｍ）の中
か最小の基準値を選定し、その選定した最小の基
準値Ｚ（ｍ）の得られた既知音声の子音をこの未
知音声データの子音と決定することになつてい
る。

次に上記したように構成した音声の認識装置の
作用について説明する。

今、話者が１つの音を発すると、マイクロホン
１にてその音が集音される。そして、その音声信
号は増幅器２及びＡ／Ｄ変換器３を介して8KHz
でサンプリングされ振幅レベルが量子化された離
散信号に変換されてCPU４に出力される。

CPU４は離散信号を離散信号データとして順
次ワークメモリ６の振幅記憶領域６ａに記憶する
とともに、その離散信号データを２乗してその２
乗値をワークメモリ６の２乗記憶領域６ｂに順次
記憶させる。次にCPU４はこの２乗値に基づい
て短時間エネルギー値を算出し、その短時間エネ
ルギー値を前記ワークメモリ６のエネルギー記憶
領域６ｃに記憶させる。又、離散信号データに対
して自己相関分析、線形予測分析等を行ない、
LPC相関係数、LPCケプストラムよりなる未知
音声データを作成する（ステツプ１）。

このように、未知音声データを作成すると、次
にCPU４のこの未知音声データの未知側照合区
間Ｘを設定して切り出すとともに、その未知側照
合区間Ｘのフレーム数を算出する（ステツプ２、
３）。

次に、CPU４はプログラムメモリ５に記憶さ
れた多数個の既知音声の離散信号データの中から
第１の既知音声の離散信号データを読み出す（ス
テツプ４）。

次に、未知音声データの場合と同様に当該既知
音声における短時間エネルギーの算出及び算出し
た短時間エネルギーの所定記憶領域への記憶や
LPC相関係数、LPCケプトラムよりなる既知音
声データの作成を行なう（ステツプ５）。

次に、CPU４は前記作成した既知音声データ
の既知側照合区間Ｙを未知側照合区間Ｘのフレー
ム数より４フレーム多い長さとなるように設定す
る（ステツプ６）。CPU４はこの既知側照合区間
Ｙにおいて、第６図に示すように前記未知側照合
区間Ｘと等しい長さを有し互いに位置の異なる複
数個の既知側対象区間ｙ１〜ｙ５を複数個順次設
定する（ステツプ７）。

次に、CPU４はこの未知側照合区間Ｘに対す
る最初の既知側対象区間ｙ１との間で対応するフ
レーム毎にWLR距離を算出し（ステツプ８）、そ
の距離の平均値Ｐ１を算出し、ワークメモリ６の
平均値記憶領域６ｉに記憶する（ステツプ９）。

CPU４は未知側照合区間Ｘと最初の既知側対
象区間ｙ１におけるWLR距離の平均値Ｐ１の算
出が終了すると、このWLR距離の算出が未知側
照合区間Ｘに対する最後の既知側対象区間ｙ５に
おける平均値Ｐ５の算出が行なわれたかどうかチ
エツクする（ステツプ10）。

そして、この場合にはまだ最初の既知側対象区
間ｙ１なので、CPU４は次の既知側対象区間ｙ
２の既知音声データを読み出し未知側照合区間Ｘ
の未知音声データとの間でWLR距離を算出し
（ステツプ11、８）、前記同様にその距離の平均値
Ｐ２を算出する（ステツプ９）。

そして、以後同様にCPU４は既知側対象区間
ｙ５までの各WLR距離の平均値Ｐ（ｎ）をそれぞ
れ算出し前記ワークメモリ６の平均値記憶領域６
ｉに記憶する。

全ての既知側対象区間ｙ１〜ｙ５についての平
均値Ｐ（ｎ）の算出が終了すると、CPU４はこの
算出した未知側照合区間Ｘにおける各既知側対象
区間ｙ１〜ｙ５の平均値Ｐ１〜Ｐ５の中から最も
小さな値を当該未知音声データに対する第１の既
知音声データの基準値Ｚ１として選定しワークメ
モリ６の基準値記憶領域６ｊに記憶する（ステツ
プ12）。

未知音声データに対する第１の既知音声データ
の基準値Ｚ１の選定が終了すると、CPU４はプ
ログラムメモリ５にまだ読み出されていない既知
音声の離散信号データがあるかどうかをチエツク
（ステツプ13）した後、次の新たな第２の既知音
声の離散信号データをプログラムメモリ５から読
み出す（ステツプ14）。

そして、前記と同様にして既知音声データにお
ける基準値Ｚ２を前記と同様に設定する。このよ
うな処理動作をプログラムメモリ５に記憶されて
いる全ての既知音声について行なう。

そして、CPU４が全ての既知音声データにつ
いて基準値Ｚ（ｍ）を設定すると、CPU４はその
各基準値の中から最小値の基準値Ｚ（ｍ）を求め
てその最小の基準値Ｚ（ｍ）が得られた既知音声
の子音を当該未知音声の子音とCPU４は決定す
る（ステツプ15）。

このように、本実施例においては未知音声デー
タの未知側照合区間Ｘに対して既知音声データの
前記未知側照合区間Ｘより長い既知側照合区間Ｙ
を設定するとともに、同既知側照合区間Ｙにおい
て未知側照合区間Ｘと同じ長さで異なる位置に対
象区間ｙ１〜ｙ５を設定し、未知側照合区間Ｘに
対して既知音声データの各対象区間yn毎にそれ
ぞれ平均値Ｐ（ｎ）を算出して、その各平均値Ｐ
（ｎ）の中から基準値Ｚ（ｍ）を設定するようにし
たので、未知音声データ及び既知音声データの両
照合区間を正確に設定する必要がなくラフに設定
でき照合区間の設定の精度に影響を受けることな
く音声の認識率の向上を図ることができる。

すなわち、未知音声データは、たとえ同一の音
が入力された場合であつても入力される毎に始端
から終端までの長さにばらつきがあるため、もし
未知側照合区間Ｘを既知側照合区間Ｙより長い区
間に設定する構成としたとすれば、未知音声デー
タのばらつきのために未知側照合区間Ｘに対象区
間を設定する際に充分な長さを得ることができな
い可能性があり、音声の認識率の低下を招く要因
となる。しかしながら、本実施例においては、予
め入力されている長さにばらつきのない既知音声
データの既知側照合区間Ｙの方を長い区間とした
ため、未知音声データの長さの不安定さに影響さ
れることなく音声の認識率を上げることができる
のである。

なお、前記実施例では各音声データの子音区間
を照合区間とする場合について説明したが、これ
を母音区間として応用してもよい。又、子音区間
は照合区間とした場合であつても、母音について
はその前半を子音区間と同様なものとみなして照
合区間とすれば、同様な処理による認識が可能と
なる。

（発明の効果）以上詳述したように、この発明によれば既知音
声データの照合区間を未知音声データの照合区間
より長く設定し、既知側の照合区間に未知音声デ
ータの照合区間と長さの等しい対象区間を設定す
るようにしたことにより、未知音声データの始端
から終端までの長さの不安定さに対する影響が減
少するため、音声認識率のより一層の向上を図る
ことができる効果を有する。

【図面の簡単な説明】

第１図は本発明の構成を示すブロツク図、第２
図は本発明を具体化した一実施例の電気ブロツク
回路図、第３図は音声の短時間エネルギー値を示
す図、第４図は未知側照合区間を示す図、第５図
は既知側照合区間を示す図、第６図は未知側照合
区間と既知音声の対象区間の関係を示す説明図、
第７図はこの音声の認識装置の作用を説明するた
めのフローチヤートである。図中、１はマイクロホン、２は増幅器、３は
Ａ／Ｄ変換器、４はCPU、５はプログラムメモ
リ、６はワークメモリ、１０１は第１の照合区間
設定手段としての未知側照合区間設定手段、１０
２は第２の照合区間設定手段としての既知側照合
区間設定手段、１０３は対象区間設定手段、１０
４は代表値算出手段、１０５は基準値設定手段で
ある。

Claims

【特許請求の範囲】１音が未知である未知音声データと音が既知で
ある既知音声データとを照合して未知音声データ
の音を決定する音声認識装置において、前記未知音声データに第１の照合区間Ｘを設定
する手段１０１と、前記既知音声データに前記第１の照合区間Ｘよ
り長い区間を有する第２の照合区間Ｙを設定する
手段１０２と、前記第１の照合区間Ｘと等しい長さを有し互い
に位置の異なる対象区間ynを第２の照合区間Ｙ
において順次設定する手段１０３と、前記第１の照合区間Ｘ及び前記各対象区間yn
において対応するそれぞれの時点の値の距離に基
づいた代表値Ｐ（ｎ）を前記各対象区間yn毎に算
出する手段１０４と、前記各代表値Ｐ（ｎ）のうち前記距離が最も短
いことを示す代表値Ｐ（ｎ）を前記第１の照合区
間Ｘと前記第２の照合区間Ｙとの間の基準値Ｚ
（ｍ）として設定する手段１０５とを有し、１つの前記未知音声データについて複数の前記
既知音声データに対する前記基準値Ｚ（ｍ）をそ
れぞれ算出し、前記基準値Ｚ（ｍ）に基づいて未
知音声データの音を決定することを特徴とする音
声認識装置。