JPH0343639B2

JPH0343639B2 -

Info

Publication number: JPH0343639B2
Application number: JP21600682A
Authority: JP
Inventors: Hidekazu Tsuboka
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1982-12-09
Filing date: 1982-12-09
Publication date: 1991-07-03
Also published as: JPS59105697A

Description

【発明の詳細な説明】産業上の利用分野本発明は音声認識装置に関する。

従来例の構成とその問題点離散的に発声された単語音声等を認識する場
合、実際に音声信号が存在する区間を正しく検出
する必要がある。

第１図は音声認識装置の従来例を示す。１は音
声信号入力端子、２はフイルタバンク等で構成さ
れ、入力音声信号を一定時間毎に特徴ベクトルに
変換する特徴抽出部、３は特徴抽出部２の出力か
ら電力を計算する電力計算部、４はあらかじめ閾
値を設定する閾値設定部、５は前記電力計算部３
の出力と前記閾値設定部４の出力から音声区間を
切り出す音声区間切出部、６は認識に先立つて、
認識すべき全語彙を前記特徴ベクトルの系列とし
て登録されている標準パターン記憶部、７は音声
区間切出部５の出力として得られる入力音声信号
に対する特徴ベクトルの系列を前記標準パターン
記憶部６のそれぞれの特徴ベクトルの系列と照合
して系列間の距離を計算するパターンマツチング
部、８はパターンマツチング部７で計算されたそ
れぞれの距離のうち最小値を与える標準パターン
に対応する単語を今入力された単語音声の認識結
果として出力端子９に出力する判定部である。

特徴抽出部２としては、ｎ個の帯域フイルタを
周波数軸上に対数間隔で並べたいわゆるｎチヤン
ネルのフイルタバンクがよく用いられ、それぞれ
の帯域フイルタの出力を整流平滑したものはそれ
ぞれの周波数成分の大きさを表わしていると考え
られる。この出力を10〜30ｍsec位の間隔で標本
化し、特徴ベクトルの系列を得る。すなわち、第
ｋチヤンネルの前記平滑回路の第ｉ番（第ｉフレ
ーム）の標本値をa_ikとすると特徴抽出部２の出
力は、Ａ＝a₁a₂…a₁、ただしa₁＝（a_i1、a_i2…a_io）、
なる特徴ベクトルの系列になる。この場合、電力
については色々と定義することができる。すなわ
ち、第ｉフレームの電力としては W_i1＝√_i1 ²＋_i2 ²＋…＋_io ² ……(1) W_i1＝a_i1＋a_i2＋…＋a_io ……(2) 等が良く用いられる。(1)式はベクトルa_iの大きさ
である。これらの対数を取つたものも良く用いら
れる。

音声区間の切り出しは、最も簡単には、入力
音声の電力があらかじめ設定した閾値を越えた時
点からその閾値以上の期間がある期間以上続いた
とき前記閾値を越えた時点を音声区間の開始時点
とし、入力音声の電力が前記閾値以下になる時
点からその閾値以下の期間がある期間以上続いた
とき前記閾値以下となつた時点を音声区間の終了
時点とする。は前記電力が前記閾値以上である
区間がある期間以下の場合は雑音とみなし音声信
号とはみなさないということであり、は語中に
もしばしば無声区間が存在するので、前記電力が
前記閾値以下になる期間がある程度長くならない
と音声が終つたとみなさないということである。

この閾値は外部の雑音の大きさで決定される。
すなわち、外部の雑音の電力がこの閾値を越える
期間が一定値以上になると音声信号と区別がつか
なくなつたり、音声信号の切り出しが正確に行な
われなくなる。従つて、この閾値は外部雑音の電
力より大きく設定しなければならない。

ところが、外部雑音の大きさに応じて閾値を変
えるとなると一つの問題が生じる。第２図はこれ
を説明する図である。１０は電力計算部３の出力
であつて、入力音声信号の電力の時間的変化を示
す図である。いま、標準パターンを登録すると
き、閾値T₁を採用したとすると、切り出される
音声区間はt_1s〜t_1eの区間となる。認識させると
き、外部雑音の影響を避けるために閾値T₂を採
用すると、同じ音声信号に対して切り出される音
声区間はt_2s〜t_2eの区間となり、語頭と語尾の近
くで差を生じることになる。この差は誤認識の原
因となる。しからば、最初から閾値を高めに設定
しておけばどうかというと、閾値はなるべく低く
して語頭の子音などを落さないようにする方が認
識率の点から当然良いわけで、最初から閾値を高
めに設定しておくのはあまり好ましくない。

発明の目的本発明は以上述べたような音声区間の切り出し
の際に生じる問題点を解決し、認識率を大幅に向
上できる音声認識装置を提供することを目的とす
るものである。

発明の構成本発明は、上記欠点が音声を登録するときと認
識するときとで、音声区間切り生しのための閾値
が変ることによつて生じていることに着目し、認
識の際設定する閾値を入力音声信号に対すると共
に、標準パターンの読み出しに対しても適用する
ことによつて等価的に登録するときと認識すると
きと同じ閾値になるようにして所期の目的を達成
したものであり、従つて、登録は静かな外部雑音
の少ないところで、なるべく低い閾値レベルで行
うのが望ましい。

実施例の説明以下本発明の実施例を図面に基づいて説明す
る。第３図は本発明の一実施例を示す構成図であ
る。第１図と同一の番号を付したブロツクは第１
図で説明したものと同一の機能を有し、第１図と
の相違点は、電力計算部３′と音声区間切出部
５′を標準パターンに対しても設けたところにあ
る。これらは電力計算部３と音声区間切出部５と
同じ働きをし、閾値設定部４によつて設定される
閾値をもつて標準音声パターンの区間を設定す
る。このような構成とすることにより標準パター
ンに対しても電力を計算し、それに対して入力音
声信号に適用するのと同じ閾値を適用して、登録
のときと認識のときが等価的に同じ閾値（従つて
切り出し位置）になるようにしている。

なお、本実施例では電力の計算は特徴ベクトル
で行つたが、入力端子１に到来する信号そのもの
から計算することもできる。このときは、登録の
際、このようにして得られた電力値のフレーム毎
の値をも標準パターンとして登録しておく必要が
あり、認識の場合の標準パターンに対する電力の
計算は不要となる。その代り記憶してある電力値
を読み出すことになる。

発明の効果以上本発明によれば登録のときと、認識のとき
の入力音声の音声区間を切り出すための閾値が等
価的に同じになるようにしたので、登録のときと
認識のときの音声区間の切り出し位置の相違に基
づく誤認識が減り、雑音の少い静かなところでは
低い閾値が適用できるので認識率が大いに向上す
る。

【図面の簡単な説明】

第１図は音声認識装置の従来例を示す構成図、
第２図はその動作を示す波形図、第３図は本発明
による音声認識装置の一実施例を示す構成図であ
る。２……特徴抽出部、３，３′……電力計算部、
４……閾値設定部、５，５′……音声区間切出部、
６……標準パターン記憶部。

Claims

【特許請求の範囲】

１闘値を設定する闘値設定手段と、入力音声パ
ターンの電力がこの闘値を所定期間越えて続いた
ときにその闘値を越した点を始端、闘値以下が所
定時間続いたときにその闘値以下になつた点を終
端とする入力音声パターン区間設定手段と、認識
語彙としてあらかじめ登録されている標準音声パ
ターンに対して、その電力が前記闘値を越える語
頭に最も近い点を始端、前記闘値以下になる語尾
に最も近い点を終端とする標準音声パターン区間
設定手段とを設け、前記区間検出された入力音声
パターンを前記区間設定された標準音声パターン
のそれぞれと比較照合することによつて入力音声
の認識を行うことを特徴とする音声認識装置。