JPH04198997A

JPH04198997A - 音声認識方法

Info

Publication number: JPH04198997A
Application number: JP2325814A
Authority: JP
Inventors: Toru Miyamae; 徹宮前; Naoto Shinoda; 信太　直人
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1990-11-29
Filing date: 1990-11-29
Publication date: 1992-07-20

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（産業上の利用分野）本発明は、入力音声を単語毎に識別判定して音声認識を
行なう音声認識方法に関する。

（従来の技術）金融期間等においては、顧客臼らが入出金等の取引操作
を行なう現金自動取引装置が広く使用されている。また
、窓口事務においては、各種の端末装置が使用されてい
る。この種の装置一般に、デイスプレィ等に案内が表示
され、その案内に従って、オペレータや顧客がキーボー
ドを操作し、装置に対し自己の意思を伝える。しかしな
がら、オペレータ等による操作が、音声を用いて行なわ
れれば、目や手を他の目的に使用することができ、非常
に便利である。そこで端末装置等より音声で案内を行な
い、オペレータ等が音声で指示をする装置が種々開発さ
れている。この種の装置においては、音声の認識のため
に、入力音声を単語毎に区切って認識処理を行なう必要
がある。

第２図、入力音声の波形図を示す。

図の横軸は時間、縦軸はパワーを示す。

図のように入力音声は、単語毎にそれぞれ一定のパワー
分布を示し、単語と単語の間には、所定のパワーレベル
の極小部分が存在する。１単語の存在する区間を音声区
間と呼ぶが、この音声区間の切出しには、このような音
声パワー変化を用いることか多い。

即ち音声パワーは、ノイズパワー等から算出されたある
一定の閾値ＴＨを越えた状態が所定時間を継続した場合
、これを音声区間であると認識する。従って第２図の場
合、Ａ点及びＢ点において、入力音声が切出される。ま
た、１つの音声区間がそのパワー分布によって幾つかの
ブロックに分かれたような場合、各ブロックの最大パワ
ー比がある閾値を越えるか否かによって、そのブロック
が統合されるか、音声区間から削除されるかを判定して
いた。この最大パワー比というのは、第２図に示すＭＡ
Ｘ　（最大値）の部分と、ＭＩＮ（最小値）の部分の比
のことをいう。

この他にもスペクトル変化量やゼロクロス数を用いた音
声区間切出し法がある。

第３図に、その説明図を示す。

第３図（ａ）は、スペクトル変化量説明図である。

図の横軸はスペクトル、縦軸はレベルを示す。

図のように、ある瞬間において実線のようなスペクトル
Ｔ１が得られたとき次の時点において破線のようなスペ
クトルＴ２が得られると、スペクトル変化量が矢印のよ
うに非常に大きくなる。このような場合に音声区間の区
切りと認識する。

また、第３図（ｂ）は、ゼロクロス数説明図を示す。

図のグラフの横軸は時間、縦軸はパワーを示しているこのように音声区間の区切りをＴＷの部分とすると、こ
のＴＷの部分でゼロクロス数を計数すると、所定の値と
なる。ＴＷの時間を適当な時間にとって、ゼロクロス数
が所定値以上になった場合に、これを無音区間と判断し
、音声区間の区切りを認識する。

（発明が解決しようとする課題）ところが、先に述べたような音声区間の切出し方法では
、例えば吐息や咳を音声区間として切出してしまう可能
性がある。また、周囲の雑音の影響による切出しの誤り
が多いという問題点もある。この原因としてはある閾値
を越えたか否かによる２分法を用いているためと考えら
れる。即ち、音声パワー変化、スペクトル変化量、ゼロ
クロス数等、それぞれのパラメータを一つの次元とする
空間上で、音声領域と非音声領域とが線形分離可能であ
るという仮定に基づいて、判断を行なっているためであ
る。しかしながら、実際には音声領域と非音声領域とは
必ずしも明確に線形分離可能であるとは限らない。この
ことは次のような事実によっても明らかである。例えば
、ｒｓＨＩＪと発音したとき、最初の摩擦音「シュ」は
非常に小さく、しかも音声始端のパワー変化も小さい場
合がある。もし、このような摩擦音を音声区間として切
出すほどパワー閾値やパワー変化閾値が小さければ、他
の音声を切出すとき雑音や吐息を音声区間として切出し
てしまう可能性が大きくなる。その逆に音声パワーの始
端において、その変化が十分に大きい音声に対して、雑
音等の影響を受けずに適切に切出すことができる閾値を
設けると、今度は音声パワーやその変化が小さい音声に
対して適切な切出しを行なうことができない。他のパラ
メータについてもそれぞれ同様のことがいえる。

これらの問題を解決するために、一定のパラメータに加
えて他のパラメータによる判断も同時に行なえ、その論
理和や論理積を取る方法が考えられる。

しかしながらこれらのパラメータは、互いに全く独立な
ものではなく、単純に論理和や論理積で判断することが
難しい。従って、音声領域と非音声領域との境界は明確
な超平面によって線形分離することは通常の方法では容
易ではない。

本発明は以上の点に着目してなされたもので、より確度
の高いアルゴリズムによって、音声区間の切出しを行な
うことができる音声認識方法を提供することを目的とす
るものである。

（課題を解決するための手段）本発明の音声認識方法は、入力音声を所定の単語から成
る音声区間で切出して、標準パターンと比較して音声認
識を行なう場合において、前記入力音声のパワー及びス
ペクトルを含むデータから得られる前記検出に適する複
数の特徴パラメータを、学習の機能を備えた演算回路を
用いて、前記学習により前記特徴パラメータの重み付け
を設定し、誤差逆伝幡法則に基づ−き前記入力音声の始
端及び終端の識別をするものである。

（作用）この方法は、入力音声のパワー及びスペクトルを含むデ
ータから得られる複数の特徴パラメータをそれぞれ重み
付けして、入力音声の始端及び終端の識別に利用する。

学習の機能を備えた演算回路において、予め実施される
学習により各種パラメータに重み付けを設定し、種々の
誤差を考慮した上で、誤差逆伝幡法則に基づき、始端終
端の最も確度の高い判定を行なう、これにより従来に比
べて、より信頼性及び認識率の高い音声認識方法を提供
できる。

（実施例）第１図は、本発明の方法実施例を示す説明図である。

図において、まずアナログ音声が入力すると（ステップ
Ｓ１）、ディジタル処理のためＡ／Ｄ（アナログ／ディ
ジタル）変換が実行される（ステップＳ２）。その後、
ＢＰＦ　（バンドパスフィルタ）計算が実行される。

これはいわゆるディジタルフィルタ演算で、音声周波数
帯域のみを取出すための処理である。そして、この演算
によりスペクトル及びパワーが導き出され、そのスペク
トルから特徴パラメータ演算が行なわれる。この特徴パ
ラメータには、標準パターンとのパターンマツチングの
際必要な、ローカルビーク、子音、スペクトル変化方向
等のデータが含まれる。ローカルビーク、子音性情報は
、先に従来技術の部分で説明した通りの情報である。ス
ペクトル変化方向とは、スペクトルの時間的な変化をベ
クトル的に捕らえたデータである。このような特徴パラ
メータは、ステップＳ３において標準パターンと比較さ
れる。

ステップＳ３の処理により、図のように音声パワー変化
率、ゼロクロス数、スペクトル変化率及びスペクトルと
いう種々のパラメータが得られる（ステップＳ４〜Ｓ８
）。なお、音声パワーは、音声の時間変化を示す、音声
パワー変化率は、音声パワーのグラフの微分値を取った
もので、またゼロクロス数は、先に第３図で示した通り
所定のゼロレベルをクロスした回数をカウントするもの
である。スペクトル変化率は、先に第３図（ａ）、で説
明したとおりのスペクトルの時間変化を示すものである
。ステップＳ８におけるスペクトルは、スペクトルのパ
ターン自体を示すものである。このようなパラメータの
内、音声パワー、音声パワー変化率、ゼロクロス数及び
スペクトル変化率は、ステップＳ９において学習の機能
を備えた演算回路、例えばニューラルネットによる処理
が実行される。

このニューラルネットは、文献「材料（１９７８）：神
経回路網の数理、産業図書」及び「麻生（１９８８）　
　：ニューラルネットワーク情報処理、産業図書」等に
示されているように、多数の入カバターンと、これら入
カバターンに対応する出カバターンの対応関係が所望の
内容になるように学習させた後、実際に利用するもので
、ニューロコンピュータ等の演算回路に利用されるもの
である。

第４図に、ニューラルネットの動作説明図を示す。　　
　　・図において、入力データから抽出されたパラメータｘｉ
、ｘ２．”・ｘｎは、それぞれニューラルネットによっ
て、予め実施された学習により設定された重み付は係数
ｗｌ　、　ｗ２　、・・・ｗｎと乗算される。・そして
、これらの結果が加算され、所定の判定基準と比較され
る。このようにして、各パラメータの重みを考慮した認
識が行なわれる。

従来よく知られた誤差逆伝幡法則によれば、誤差を加味
した上で一定の範囲でカテゴリ間に線引きを行なうこと
ができる。ニューラルネットによりカテゴリ間の組合わ
せを、それぞれについて十分な学習を行ない、上記重み
付は係数を設定すれば、ニューラルネットの入力層に与
えられた特徴パラメータが中間層を通過することによっ
て、最終的に線形分離可能な表現に変換される。

これにより出力層に設けられた始端ユニット、音声認識
ユニット及び止端ユニットから所定の情報が出力される
。始端ユニットが発火した場合にはそのときのフレーム
が音声始端を示している。

また、終端ユニットが発火した場合には、フレームが終
端であることを示す。何れのユニットも発火しない場合
にはノイズ区間を示し、また、始端ユニットが発火して
いる間は音声区間を示す。

第５図に、音声始端終端検出動作説明図を示す。

このグラフは横軸に時間、縦軸にパワーをとったもので
ある。

図において第１図のステップＳ９の処理が実行されると
、その始端ユニットからＴ１のタイミングで、音声区間
Ｘの始端を示す情報が出力される。また、Ｔ２のタイミ
ングで、終端ユニットから音声区間の終端を示す情報が
出力される。

このようにして始端と終端の間に挟まれた音声区間の情
報は、ステップＳＩＯにおいて受入れられ、その判定に
利用される。一方、上記のような始端終端検出において
、音声区間を切出した場合、本来１種の単語に含まれる
べき単語がブロックに分離されてしまう場合もある。

ステップＳｌｌにおいては、ステップＳＩＯで始端終端
を判定した場合、その判定が適切か否かを判断する。適
切であれば、ステップＳ１７に移行し、音声切出し情報
としてそのまま出力される。しかしながら、不適切な場
合には、次のステップＳ１２に移行し、詳細判定のため
のニューラルネットを動作させる。例えば始端と終端の
フレームの間にノイズ区間があるような場合、そのノイ
ズ区間が真に音声区間であるかをスペクトルに基づいて
判断する。また、このステップＳＬ２における詳細判定
のニューラルネットには、音声パワーも入力され、先に
示したと同様の学習によりその重み付けを行ない音声ユ
ニットあるいは非音声ユニットの発火が行なわれる。音
声ユニットが発火した場合は、非音声区間である。この
ようにその結果音声切出し情報として出力される（ステ
ップ５１７）。なお、ステップＳ１３において音声パワ
ーからＭＡＸパワー比を得て、ステップＳ１４において
スペクトルからブロック間スペクトル距離を抽出し、こ
れらのパラメータをステップＳ１５において処理し、ブ
ロック統合削除処理を行なう、なお、パワーの大きな雑
音等が一つのブロックとして検出されてしまい、それが
統合されてしまう可能性もあるため、そのような場合、
その統合ユニット、削除ユニット共に発火することのな
いようニューラルネットを学習させておく、ステップＳ
１５のブロック統合削除処理が行なわれると、ステップ
Ｓ１６においてそのブロック統合削除情報が、生成され
これが適切か否かが再びステップＳｌｌにおいて判断さ
れる。なお、ブロック統合削除等の変更が無ければステ
ップＳ１７に移行し、音声切出し結果がそのまま出力さ
れることになる。

本発明は以上の実施例に限定されない。

上記実施例において使用された各ニューラルネットのパ
ラメータは、音声の切出しのための検出に適する、種々
のパラメータを任意に選定して差し支えない、またその
ニューラルネットの種類や数は適宜自由に選定すること
ができる。

（発明の効果）以上の構成の本発明の音声認識方法は、入力音声のパワ
ー及びスペクトルを含むデータから得られる特徴パラメ
ータをニューラルネットの学習により重み付けを行ない
、誤差逆伝播法則に基づいてその始端及び終端の識別を
するようにしたので、従来のアルゴリズムより雑音や不
必要な音声の影響の少ない切出しを行なうことが可能と
なる。また、パワーの小さい音声区間の切出しも可能と
なり、より理論値に近い確度で音声認識を行なうことが
可能となる。

【図面の簡単な説明】

第１図は本発明の方法実施例を示す説明図、第２図は入
力音声波形図、第３図（ａ）はスペクトル変化量説明図
、第３図（ｂ）はゼロクロス数説明図、第４図はニュー
ラルネットの動作説明図、第５図は音声始端終端検出動
作説明図である。特許出願人　沖電気工業株式会社第２図（ａ）セロクロス＠説明図（ｂ）第３図第４図

Claims

【特許請求の範囲】入力音声を所定の単語から成る音声区間で切出して、標
準パターンと比較して音声認識を行なう場合において、前記入力音声のパワー及びスペクトルを含むデータから
得られる前記検出に適する複数の特徴パラメータを、学
習の機能を備えた演算回路を用いて、前記学習により前
記特徴パラメータの重み付けを設定し、誤差逆伝幡法則
に基づき前記入力音声の始端及び終端の識別をすること
を特徴とする音声認識方法。