JPH0341839B2

JPH0341839B2 -

Info

Publication number: JPH0341839B2
Application number: JP56041865A
Authority: JP
Priority date: 1981-03-23
Filing date: 1981-03-23
Publication date: 1991-06-25
Also published as: JPS57157299A

Description

【発明の詳細な説明】

本発明は改良された音声識別装置に関する。近年、入力音声を識別（認識）する音声識別装
置が種々開発され、実用化されてきている。この
ような音声識別装置では、音声入力信号を帯域フ
イルタ等により周波数領域に順次変換することに
よつて抽出された周波数特徴の時系列を動的計画
法によつて標準パターンとの整合をとるか、或い
は周波数特徴から音素系列に変換した後、標準の
音素系列と比較することによつて、音声の識別を
行なう手段が一般に採用されている。このような
従来の音声識別装置では、音声入力信号（入力音
声）の分析区間および始点の決定が固定的であ
り、入力音声に対する分析条件の最適化が充分に
図られているとは言い難かつた。このため、入力
音声の種々の条件下での変動に対し、識別精度を
維持することが困難となり、識別誤り或いは識別
不能が生じやすい欠点があつた。また、このよう
な欠点を補なうため、上述の変動に対応した種々
の変形パターンを用意しておく方法もあるが、適
切な変形パターンの設定は極めて困難であるとと
もに、辞書（メモリ容量）が膨大なものとなる不
都合があつた。本発明は上記事情に鑑みてなされたものでその
目的は、入力音声に対する分析区間、分析始点等
の分析条件の決定の最適化が図れ、もつて入力音
声の種々の条件下での変動に対応する多種類の変
形パターンを準備することなく識別精度が著しく
向上する音声識別装置を提供することにある。以下、本発明の一実施例を図面を参照して説明
する。第１図は音声識別装置の構成を示すもの
で、１１は図示せぬ音声入力部たとえばマイクロ
ホンから入力された音声信号（入力音声）を適当
な電圧レベルに増幅するプリアンプである。この
プリアンプ１１の出力はアナログ／デジタル変換
器（以下、Ａ／Ｄ変換器と称する）１２に入力さ
れる。Ａ／Ｄ変換器１２はプリアンプ１１の出力
を所定のサンプリング周期でデジタル信号の列Ｓ
（t_i）に変換する。Ａ／Ｄ変換器１２の出力Ｓ（t_i）
すなわち量子化された入力音声Ｓ（t_i）は、音声
バツフア１３に入力され、該音声バツフア１３内
に順次記憶される。１４は切り出し／重みづけ回路（以下、単に切
り出し回路と称する）である。切り出し回路１４
は、与えられた分析区間すなわち分析窓の幅Ｔお
よびその始点αの分析条件に従つて、音声バツフ
ア１３内に記憶されている量子化された入力音声
Ｓ（t_i）の切り出しを行なうと共に、窓関数W_T1α
（t_i）を用いて重みづけを行ない、分析すべき信
号Ｉ（t_i）を得る。切り出し回路１４は、通常状
態（１回目の分析）における上記入力音声Ｓ（t_i）
の切り出しを、特定の分析条件すなわちＴ＝T₀、
α＝α₀に従つて実行する。このT₀、α₀としては、
音声識別に際し、比較的高い識別精度が得られて
いる値があらかじめ設定されている。この場合、
窓関数はW_T0、α₀（t_i）で表わされ、したがつて切
り出し回路１４の出力（分析すべき信号）Ｉ（t_i）
はＩ（t_i）＝Ｓ（t_i）×W_T0、α₀（t_i）となる。なお、窓関数としては、ハニング関数等
適当なものを用いる。切り出し回路１４の出力す
なわち分析すべき信号Ｉ（t_i）は周波数分析器た
とえば高速フーリエ変換装置（以下、FFTと称
する）１５に入力される。FFT１５は上記信号
Ｉ（t_i）の周波数分析を行ない、対応する周波数
パターンＦ（ω_i）に変換する。ここでＦ（ω_i）は周
知のようにＦ（ω_i）＝f〓（Ｉ（t_i））で示される。なお、f〓は離散フーリエ変換DFTを
意味している。 FFT１５で得られた周波数パターンＦ（ω_i）
は、平滑化、プリエンフアシス、標本化等の処理
を施された後（回路は図示せず）、類似度計算部
１６に入力される。類似度計算部１６は辞書１７
および類似度計算回路１８を備えている。この辞
書１７には、標準音声の周波数パターン、更には
登録話者毎の周波数パターン（変形パターン）が
母音、子音の音素別にあらかじめ記憶されてい
る。類似度計算回路１８は、類似度計算部１６に
入力された入力音声の周波数パターンＦ（ω_i）と、
辞書１７に記憶されている周波数パターンとの類
似度を各音素別に計算する。そして、類似度計算
回路１８は、類似度値の高得点の音素を上位ｎ位
まで選び、始点α₀とする分析窓における類似度値
と音素のペアのパターン列として出力する。類似
度計算回路１８の出力は、回帰判定部１９に入力
される。回帰判定部１９は記憶装置２０および回帰判定
回路２１を備えている。この記憶装置２０には、
音素系列とその類似度値（閾値θ）との２次元の
リスト（パターン列）が標準音声、更には登録話
者の音声毎に記憶されている。また、記憶装置２
０には回帰判定回路２１が後述する回帰判定を行
なうための判定条件等も記憶されている。分析条件を決定するために、例えば予め回帰判
定回路２１の記憶装置２０には分析条件（Ti、
αi）についてのテーブルが記憶されている。この
分析条件テーブルは予め実行された大量のシミユ
レーシヨンにより作成される。このテーブルの例
を次の表に示す。

【表】この表でΔθ1は類似度順位の１位の類似度値と
２位の類似度値との差を示し、同様にΔθ2は類似
度順位の２位の類似度値と３位の類似度値との差
を示す。回帰判定回路２１は、初めに類似度計算回路１
８より出力される分析窓の幅Ti、分析窓の始点
αiとする分析条件における音素と類似度値のペア
のパターン列と、記憶装置２０に予め記憶された
標準音素の類似度値（閾値θ）とを比較する。そ
して、この閾値θとの比較結果によつて、類似度
計算回路１８より出力されたパターン列の中から
答を出力するか、または再分析を行うための分析
条件を求めるかの判断を行う。類似度計算回路１８より出力される分析条件
（T₀、α₀）とする分析窓における音素と類似度値
のペアのパターン列は、第２図に示されるよう
に、類似度値の最高得点の音素エ（［ｅ］）（類似
度値0.4）が類似度順位第１位で、次に得点の高
い類似度値の音素ア（［ａ］）（類似度値0.3）が類
似度順位第２位…であるものとする。なお、第３
位以下の類似度値の音素については、示されてい
ない。一方、記憶装置１０に記憶されている上述
の音素に対するパターン列の類似度値（閾値θ）
は、エ（［ｅ］）、ア（［ａ］）共に0.5であるものと
する。回帰判定回路２１は、類似度計算回路１８
から受信したパターン列（エ（［ｅ］）、ア（［ａ］）
…）内の第１位のデータに注目し、記憶装置２０
に記憶された類似度値（閾値θ）との比較を行な
う。この場合、受信したパターン列の第１位の音
素エ（［ｅ］）（類似度値0.4）は、閾値0.5を下回
つており、回帰判定回路２１は音声識別結果
（答）の出力を行なわずに、再分析のための分析
条件の設定を行なう処理を実行する。そこで、回
帰判定回路２１は、再分析のための分析条件を設
定するために、再び記憶装置２０に記憶されてい
る前記表に示したテーブルを参照する。回帰判定
回路２１は分析条件を設定するためにテーブルの
中から、類似度計算回路１８から出力される音素
の類似度順位および類似度差のパターン列に対応
する分析条件Ti、αiを選択し、切り出し回路１
４に出力する。上述したように、分析条件（T₀、α₀）におけ
る類似度計算回路１８から出力されるパターン列
において、第１位の音素エ（［ｅ］）の類似度値は
0.4で、第２位の音素ア（［ａ］）の類似度値は0.3
である。この第１位音素エ（［ｅ］）と第２位の音
素ア（［ａ］）との類似度差Δθ1は0.1である。た
だし、ここでは説明簡略化のために第２位までの
順位を示している。回帰判定回路２１は前記テー
ブルから、類似度順位が第１位音素エ（［ｅ］）、
第２位の音素ア（［ａ］）…であり、また類似度差
Δθ1が0.1以下となるパターン列とマツチングす
るものがあるかどうか判定する。回帰判定回路２
１は、前記テーブルから再分析のための分析条件
（T₁、α₁）を選択し、この分析条件（T₁、α₁）を
切り出し回路１４に出力する。さらに、回帰判定
回路２１は、回帰コマンドを切り出し回路１４に
出力して、再分析を指令する。切り出し回路１４は、これにより再び入力音声
Ｓ（ti）の切り出し／重み付けを行なう。以下、
FFT１５、類似度計算部１６で前述した場合と
同様の処理が再度行なわれ、第２図に示される音
素と類似度値のペアのパターン列が回帰判定回路
２１に入力される。ここで、類似度計算回路１８
から出力されるパターン列は、類似度値の最高得
点の音素ア（［ａ］）（類似度値0.73）が類似度順
位第１位で、次に得点の高い類似度値の音素エ
（［ｅ］）（類似度値0.45）が類似度順位第２位…で
あるものとする。回帰判定回路２１は、類似度計
算回路１８から受信したパターン列（エ（［ｅ］）、
ア（［ａ］）…）の第１位のデータに注目し、記憶
装置２０に記憶された類似度値（閾値θ）との比
較を行なう。この場合、受信したパターン列の第
１位の音素ア（［ａ］）（類似度値0.73）は、閾値
0.5を上回る。回帰判定回路２１は、回帰処理を
行なわずに、答を出力する処理に移る。そして、
音素ア（［ａ］）をひとつの音素の最終的な答（識
別結果）として出力する。なお、本実施例では第２図から明らかなように
第１次近似の答(エ)と再分析時の答(ア)とが異なつて
いる。このような場合、回帰判定回路２１は新た
な分析条件Ｔ＝T₂、α＝α₂を例えば前記のよう
な分析条件テーブルを利用して決定し、この分析
条件に基づいて再々分析を行なわしめ、第２図に
示されるように再々分析によつて得られたパター
ン列の中で最も高い類似度値を有する音素が再び
ア（〔ａ〕）であることをもつて答を出力するよう
にしてもよい。また、第１次近似の答に無関係
に、同一の音素が２度（またはそれ以上）連続し
て最高得点の類似度値となることをもつて答を出
力するようにしてもよい。なお、最も高い類似度
値が閾値θを越さないために、分析をやり直す
（回帰分析）場合、今回の分析で得られた類似度
値が前回の分析結果に比べて閾値θに近づいたか
否かによつて、分析条件の設定内容を変えること
が好ましい。この場合、分析条件の設定内容を変
更する方式としては、例えば回帰分析結果におけ
るパターン（例えば分析回数に応じて類似度値が
増大するパターン、また類似度値が上下するよう
に振動するパターン等を想定する）に応じた前記
のような分析条件テーブルを複数種用意して、そ
のパターンに対応する分析に適正な分析条件テー
ブルを選択する方式がある。そして、許される分
析時間の範囲で繰り返し回帰分析を行なつても、
最も高い類似度値が閾値θに達しない場合、回帰
判定回路２１はリジエクト判定を行なう。ところで、確実な音声識別を行なうためには上
述のように同一の音素が２度（またはそれ以上）
連続して最高得点の類似度値となることをもつて
当該音素を答とすることが好ましい。この場合、
最高得点の類似度値が閾値θを越しているもの
の、該当する音素がその都度異なる、いわゆる答
が振動する場合がある。このような場合には回帰
判定回路２１はリジエクト判定することが好まし
い。更に音素の判定には、上述の内容のほかに、
図示せぬ測定回路によつて音圧レベルを測定し、
このレベレが或る一定値を越えていることを判定
条件に付加するようにしてもよい。なお、前記実
施例では音素の如何に無関係に閾値θが一定
（0.5）であるものとして説明したが、音素毎に閾
値θを設定するようにしてもよい。以上詳述したように本発明の音声識別装置によ
れば、入力音声の分析結果に応じて新たな分析条
件を決定し、異なる分析条件で繰り返し入力音声
の分析（回帰分析）を行なうことによつて、分析
条件決定の最適化が図れるので、多種類の変形パ
ターンを準備せずとも識別精度を著しく向上する
ことができる。

【図面の簡単な説明】

第１図は本発明の音声識別装置の一実施例を示
すブロツク図、第２図は上記実施例において類似
度計算回路より出力される類似度値と音素のパタ
ーン列と閾値θとの関係を具体的に示す図であ
る。１２……アナログ／デジタル変換器（Ａ／Ｄ変
換器）、１３……音声バツフア、１４……切り出
し／重みづけ回路（切り出し回路）、１５……高
速フーリエ変換装置（FFT）、１７……辞書、１
８……類似度計算回路、２０……記憶装置、２１
……回帰判定回路。

Claims

【特許請求の範囲】

１入力音声を量子化する量子化手段と、この手
段によつて量子化された入力音声を記憶する音声
バツフアと、窓関数を用い、与えられた分析窓の
幅および分析始点の分析条件に従つて上記音声バ
ツフアに記憶されている上記量子化された入力音
声の切り出し／重みづけを行う切り出し／重みづ
け回路と、この切り出し／重みづけ回路によつて
切り出された上記入力音声の周波数分析を行い対
応する周波数パターンを出力する周波数分析器
と、この周波数分析器から出力される上記周波数
パターンと予め記憶されている標準音声の周波数
パターンとの類似度を計算し、音素と類似度のペ
アのパターン列を出力する類似度計算部と、この
類似度計算部から出力される上記パターン列に応
じて音声識別結果を出力するか、或いは上記分析
条件とは異なる分析条件を上記切り出し／重みづ
け回路に出力して再分析を行なわしめる回帰判定
部とを具備することを特徴とする音声識別装置。