JPH0343639B2 - - Google Patents
Info
- Publication number
- JPH0343639B2 JPH0343639B2 JP21600682A JP21600682A JPH0343639B2 JP H0343639 B2 JPH0343639 B2 JP H0343639B2 JP 21600682 A JP21600682 A JP 21600682A JP 21600682 A JP21600682 A JP 21600682A JP H0343639 B2 JPH0343639 B2 JP H0343639B2
- Authority
- JP
- Japan
- Prior art keywords
- threshold value
- section
- power
- speech
- point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 230000005236 sound signal Effects 0.000 description 8
- 239000013598 vector Substances 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Description
【発明の詳細な説明】
産業上の利用分野
本発明は音声認識装置に関する。
従来例の構成とその問題点
離散的に発声された単語音声等を認識する場
合、実際に音声信号が存在する区間を正しく検出
する必要がある。
合、実際に音声信号が存在する区間を正しく検出
する必要がある。
第1図は音声認識装置の従来例を示す。1は音
声信号入力端子、2はフイルタバンク等で構成さ
れ、入力音声信号を一定時間毎に特徴ベクトルに
変換する特徴抽出部、3は特徴抽出部2の出力か
ら電力を計算する電力計算部、4はあらかじめ閾
値を設定する閾値設定部、5は前記電力計算部3
の出力と前記閾値設定部4の出力から音声区間を
切り出す音声区間切出部、6は認識に先立つて、
認識すべき全語彙を前記特徴ベクトルの系列とし
て登録されている標準パターン記憶部、7は音声
区間切出部5の出力として得られる入力音声信号
に対する特徴ベクトルの系列を前記標準パターン
記憶部6のそれぞれの特徴ベクトルの系列と照合
して系列間の距離を計算するパターンマツチング
部、8はパターンマツチング部7で計算されたそ
れぞれの距離のうち最小値を与える標準パターン
に対応する単語を今入力された単語音声の認識結
果として出力端子9に出力する判定部である。
声信号入力端子、2はフイルタバンク等で構成さ
れ、入力音声信号を一定時間毎に特徴ベクトルに
変換する特徴抽出部、3は特徴抽出部2の出力か
ら電力を計算する電力計算部、4はあらかじめ閾
値を設定する閾値設定部、5は前記電力計算部3
の出力と前記閾値設定部4の出力から音声区間を
切り出す音声区間切出部、6は認識に先立つて、
認識すべき全語彙を前記特徴ベクトルの系列とし
て登録されている標準パターン記憶部、7は音声
区間切出部5の出力として得られる入力音声信号
に対する特徴ベクトルの系列を前記標準パターン
記憶部6のそれぞれの特徴ベクトルの系列と照合
して系列間の距離を計算するパターンマツチング
部、8はパターンマツチング部7で計算されたそ
れぞれの距離のうち最小値を与える標準パターン
に対応する単語を今入力された単語音声の認識結
果として出力端子9に出力する判定部である。
特徴抽出部2としては、n個の帯域フイルタを
周波数軸上に対数間隔で並べたいわゆるnチヤン
ネルのフイルタバンクがよく用いられ、それぞれ
の帯域フイルタの出力を整流平滑したものはそれ
ぞれの周波数成分の大きさを表わしていると考え
られる。この出力を10〜30msec位の間隔で標本
化し、特徴ベクトルの系列を得る。すなわち、第
kチヤンネルの前記平滑回路の第i番(第iフレ
ーム)の標本値をaikとすると特徴抽出部2の出
力は、A=a1a2…a1、ただしa1=(ai1、ai2…aio)、
なる特徴ベクトルの系列になる。この場合、電力
については色々と定義することができる。すなわ
ち、第iフレームの電力としては Wi1=√i1 2+i2 2+…+io 2 ……(1) Wi1=ai1+ai2+…+aio ……(2) 等が良く用いられる。(1)式はベクトルaiの大きさ
である。これらの対数を取つたものも良く用いら
れる。
周波数軸上に対数間隔で並べたいわゆるnチヤン
ネルのフイルタバンクがよく用いられ、それぞれ
の帯域フイルタの出力を整流平滑したものはそれ
ぞれの周波数成分の大きさを表わしていると考え
られる。この出力を10〜30msec位の間隔で標本
化し、特徴ベクトルの系列を得る。すなわち、第
kチヤンネルの前記平滑回路の第i番(第iフレ
ーム)の標本値をaikとすると特徴抽出部2の出
力は、A=a1a2…a1、ただしa1=(ai1、ai2…aio)、
なる特徴ベクトルの系列になる。この場合、電力
については色々と定義することができる。すなわ
ち、第iフレームの電力としては Wi1=√i1 2+i2 2+…+io 2 ……(1) Wi1=ai1+ai2+…+aio ……(2) 等が良く用いられる。(1)式はベクトルaiの大きさ
である。これらの対数を取つたものも良く用いら
れる。
音声区間の切り出しは、最も簡単には、入力
音声の電力があらかじめ設定した閾値を越えた時
点からその閾値以上の期間がある期間以上続いた
とき前記閾値を越えた時点を音声区間の開始時点
とし、入力音声の電力が前記閾値以下になる時
点からその閾値以下の期間がある期間以上続いた
とき前記閾値以下となつた時点を音声区間の終了
時点とする。は前記電力が前記閾値以上である
区間がある期間以下の場合は雑音とみなし音声信
号とはみなさないということであり、は語中に
もしばしば無声区間が存在するので、前記電力が
前記閾値以下になる期間がある程度長くならない
と音声が終つたとみなさないということである。
音声の電力があらかじめ設定した閾値を越えた時
点からその閾値以上の期間がある期間以上続いた
とき前記閾値を越えた時点を音声区間の開始時点
とし、入力音声の電力が前記閾値以下になる時
点からその閾値以下の期間がある期間以上続いた
とき前記閾値以下となつた時点を音声区間の終了
時点とする。は前記電力が前記閾値以上である
区間がある期間以下の場合は雑音とみなし音声信
号とはみなさないということであり、は語中に
もしばしば無声区間が存在するので、前記電力が
前記閾値以下になる期間がある程度長くならない
と音声が終つたとみなさないということである。
この閾値は外部の雑音の大きさで決定される。
すなわち、外部の雑音の電力がこの閾値を越える
期間が一定値以上になると音声信号と区別がつか
なくなつたり、音声信号の切り出しが正確に行な
われなくなる。従つて、この閾値は外部雑音の電
力より大きく設定しなければならない。
すなわち、外部の雑音の電力がこの閾値を越える
期間が一定値以上になると音声信号と区別がつか
なくなつたり、音声信号の切り出しが正確に行な
われなくなる。従つて、この閾値は外部雑音の電
力より大きく設定しなければならない。
ところが、外部雑音の大きさに応じて閾値を変
えるとなると一つの問題が生じる。第2図はこれ
を説明する図である。10は電力計算部3の出力
であつて、入力音声信号の電力の時間的変化を示
す図である。いま、標準パターンを登録すると
き、閾値T1を採用したとすると、切り出される
音声区間はt1s〜t1eの区間となる。認識させると
き、外部雑音の影響を避けるために閾値T2を採
用すると、同じ音声信号に対して切り出される音
声区間はt2s〜t2eの区間となり、語頭と語尾の近
くで差を生じることになる。この差は誤認識の原
因となる。しからば、最初から閾値を高めに設定
しておけばどうかというと、閾値はなるべく低く
して語頭の子音などを落さないようにする方が認
識率の点から当然良いわけで、最初から閾値を高
めに設定しておくのはあまり好ましくない。
えるとなると一つの問題が生じる。第2図はこれ
を説明する図である。10は電力計算部3の出力
であつて、入力音声信号の電力の時間的変化を示
す図である。いま、標準パターンを登録すると
き、閾値T1を採用したとすると、切り出される
音声区間はt1s〜t1eの区間となる。認識させると
き、外部雑音の影響を避けるために閾値T2を採
用すると、同じ音声信号に対して切り出される音
声区間はt2s〜t2eの区間となり、語頭と語尾の近
くで差を生じることになる。この差は誤認識の原
因となる。しからば、最初から閾値を高めに設定
しておけばどうかというと、閾値はなるべく低く
して語頭の子音などを落さないようにする方が認
識率の点から当然良いわけで、最初から閾値を高
めに設定しておくのはあまり好ましくない。
発明の目的
本発明は以上述べたような音声区間の切り出し
の際に生じる問題点を解決し、認識率を大幅に向
上できる音声認識装置を提供することを目的とす
るものである。
の際に生じる問題点を解決し、認識率を大幅に向
上できる音声認識装置を提供することを目的とす
るものである。
発明の構成
本発明は、上記欠点が音声を登録するときと認
識するときとで、音声区間切り生しのための閾値
が変ることによつて生じていることに着目し、認
識の際設定する閾値を入力音声信号に対すると共
に、標準パターンの読み出しに対しても適用する
ことによつて等価的に登録するときと認識すると
きと同じ閾値になるようにして所期の目的を達成
したものであり、従つて、登録は静かな外部雑音
の少ないところで、なるべく低い閾値レベルで行
うのが望ましい。
識するときとで、音声区間切り生しのための閾値
が変ることによつて生じていることに着目し、認
識の際設定する閾値を入力音声信号に対すると共
に、標準パターンの読み出しに対しても適用する
ことによつて等価的に登録するときと認識すると
きと同じ閾値になるようにして所期の目的を達成
したものであり、従つて、登録は静かな外部雑音
の少ないところで、なるべく低い閾値レベルで行
うのが望ましい。
実施例の説明
以下本発明の実施例を図面に基づいて説明す
る。第3図は本発明の一実施例を示す構成図であ
る。第1図と同一の番号を付したブロツクは第1
図で説明したものと同一の機能を有し、第1図と
の相違点は、電力計算部3′と音声区間切出部
5′を標準パターンに対しても設けたところにあ
る。これらは電力計算部3と音声区間切出部5と
同じ働きをし、閾値設定部4によつて設定される
閾値をもつて標準音声パターンの区間を設定す
る。このような構成とすることにより標準パター
ンに対しても電力を計算し、それに対して入力音
声信号に適用するのと同じ閾値を適用して、登録
のときと認識のときが等価的に同じ閾値(従つて
切り出し位置)になるようにしている。
る。第3図は本発明の一実施例を示す構成図であ
る。第1図と同一の番号を付したブロツクは第1
図で説明したものと同一の機能を有し、第1図と
の相違点は、電力計算部3′と音声区間切出部
5′を標準パターンに対しても設けたところにあ
る。これらは電力計算部3と音声区間切出部5と
同じ働きをし、閾値設定部4によつて設定される
閾値をもつて標準音声パターンの区間を設定す
る。このような構成とすることにより標準パター
ンに対しても電力を計算し、それに対して入力音
声信号に適用するのと同じ閾値を適用して、登録
のときと認識のときが等価的に同じ閾値(従つて
切り出し位置)になるようにしている。
なお、本実施例では電力の計算は特徴ベクトル
で行つたが、入力端子1に到来する信号そのもの
から計算することもできる。このときは、登録の
際、このようにして得られた電力値のフレーム毎
の値をも標準パターンとして登録しておく必要が
あり、認識の場合の標準パターンに対する電力の
計算は不要となる。その代り記憶してある電力値
を読み出すことになる。
で行つたが、入力端子1に到来する信号そのもの
から計算することもできる。このときは、登録の
際、このようにして得られた電力値のフレーム毎
の値をも標準パターンとして登録しておく必要が
あり、認識の場合の標準パターンに対する電力の
計算は不要となる。その代り記憶してある電力値
を読み出すことになる。
発明の効果
以上本発明によれば登録のときと、認識のとき
の入力音声の音声区間を切り出すための閾値が等
価的に同じになるようにしたので、登録のときと
認識のときの音声区間の切り出し位置の相違に基
づく誤認識が減り、雑音の少い静かなところでは
低い閾値が適用できるので認識率が大いに向上す
る。
の入力音声の音声区間を切り出すための閾値が等
価的に同じになるようにしたので、登録のときと
認識のときの音声区間の切り出し位置の相違に基
づく誤認識が減り、雑音の少い静かなところでは
低い閾値が適用できるので認識率が大いに向上す
る。
第1図は音声認識装置の従来例を示す構成図、
第2図はその動作を示す波形図、第3図は本発明
による音声認識装置の一実施例を示す構成図であ
る。 2……特徴抽出部、3,3′……電力計算部、
4……閾値設定部、5,5′……音声区間切出部、
6……標準パターン記憶部。
第2図はその動作を示す波形図、第3図は本発明
による音声認識装置の一実施例を示す構成図であ
る。 2……特徴抽出部、3,3′……電力計算部、
4……閾値設定部、5,5′……音声区間切出部、
6……標準パターン記憶部。
Claims (1)
- 1 闘値を設定する闘値設定手段と、入力音声パ
ターンの電力がこの闘値を所定期間越えて続いた
ときにその闘値を越した点を始端、闘値以下が所
定時間続いたときにその闘値以下になつた点を終
端とする入力音声パターン区間設定手段と、認識
語彙としてあらかじめ登録されている標準音声パ
ターンに対して、その電力が前記闘値を越える語
頭に最も近い点を始端、前記闘値以下になる語尾
に最も近い点を終端とする標準音声パターン区間
設定手段とを設け、前記区間検出された入力音声
パターンを前記区間設定された標準音声パターン
のそれぞれと比較照合することによつて入力音声
の認識を行うことを特徴とする音声認識装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP57216006A JPS59105697A (ja) | 1982-12-09 | 1982-12-09 | 音声認識装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP57216006A JPS59105697A (ja) | 1982-12-09 | 1982-12-09 | 音声認識装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS59105697A JPS59105697A (ja) | 1984-06-19 |
| JPH0343639B2 true JPH0343639B2 (ja) | 1991-07-03 |
Family
ID=16681826
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP57216006A Granted JPS59105697A (ja) | 1982-12-09 | 1982-12-09 | 音声認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS59105697A (ja) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0673079B2 (ja) * | 1985-03-29 | 1994-09-14 | 沖電気工業株式会社 | 音声区間検出回路 |
| JPS63259690A (ja) * | 1987-04-17 | 1988-10-26 | 松下電器産業株式会社 | 音声認識応答装置 |
| NO941999L (no) * | 1993-06-15 | 1994-12-16 | Ontario Hydro | Automatisert intelligent overvåkingssystem |
-
1982
- 1982-12-09 JP JP57216006A patent/JPS59105697A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS59105697A (ja) | 1984-06-19 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP0077194B1 (en) | Speech recognition system | |
| US5842162A (en) | Method and recognizer for recognizing a sampled sound signal in noise | |
| JP3180655B2 (ja) | パターンマッチングによる単語音声認識方法及びその方法を実施する装置 | |
| ES2286014T3 (es) | Esquema de rechazo de reconocimiento de voz. | |
| JPH0222960B2 (ja) | ||
| JPH0343639B2 (ja) | ||
| JPS6138479B2 (ja) | ||
| JPS6367197B2 (ja) | ||
| JPH0774960B2 (ja) | テンプレ−ト連鎖モデルを使用するキ−ワ−ド認識方法およびシステム | |
| JP2666296B2 (ja) | 音声認識装置 | |
| JP2891259B2 (ja) | 音声区間検出装置 | |
| JP2901976B2 (ja) | パターン照合予備選択方式 | |
| JPH0336436B2 (ja) | ||
| JP2844592B2 (ja) | 離散単語音声認識装置 | |
| JPH0424697A (ja) | 音声認識装置 | |
| JPH0311478B2 (ja) | ||
| JPS59211098A (ja) | 音声認識装置 | |
| JPS607492A (ja) | 単音節音声認識方式 | |
| JPH0731506B2 (ja) | 音声認識方法 | |
| Angus et al. | Low-cost speech recognizer | |
| JPS59124390A (ja) | 候補削減音声認識方式 | |
| JPH09297596A (ja) | 音声認識装置 | |
| JPS6048100A (ja) | 音声認識装置 | |
| JPS6027000A (ja) | パタンマツチング方法 | |
| JPS59176794A (ja) | 単語音声認識装置 |