JPH0462597A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPH0462597A JPH0462597A JP2173036A JP17303690A JPH0462597A JP H0462597 A JPH0462597 A JP H0462597A JP 2173036 A JP2173036 A JP 2173036A JP 17303690 A JP17303690 A JP 17303690A JP H0462597 A JPH0462597 A JP H0462597A
- Authority
- JP
- Japan
- Prior art keywords
- noise level
- recurrence formula
- cumulative distance
- word
- distance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004364 calculation method Methods 0.000 claims abstract description 31
- 230000001186 cumulative effect Effects 0.000 claims abstract description 18
- 239000013598 vector Substances 0.000 claims description 11
- 238000001514 detection method Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 5
- 230000000694 effects Effects 0.000 description 3
- 238000000034 method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔産業上の利用分野〕
本発明は発声された単語音声を自動的に認識する音声認
識装置に関する。
識装置に関する。
[従来の技術]
従来、この種の音声認識装置は、DPマツチングの漸化
式計算量を減らすために、時刻iにおける累積距離g”
(i、j)が最小となるg siアに余裕分α(以
下、ビーム幅ファクタと称す)を加えた閾値θ(i)を
設定し、g” (i、j)<θ(i)となる(n、i
、j)を漸化式計算の対象として残すビームサーチ法を
取り入れたDPマツチングを行っているが、ビーム幅フ
ァクタαは、一定かまたは時刻iに比例した関数であっ
た。ビームサーチを導入したDPマツチング方弐による
音声認識に関しては以下の文献がある。
式計算量を減らすために、時刻iにおける累積距離g”
(i、j)が最小となるg siアに余裕分α(以
下、ビーム幅ファクタと称す)を加えた閾値θ(i)を
設定し、g” (i、j)<θ(i)となる(n、i
、j)を漸化式計算の対象として残すビームサーチ法を
取り入れたDPマツチングを行っているが、ビーム幅フ
ァクタαは、一定かまたは時刻iに比例した関数であっ
た。ビームサーチを導入したDPマツチング方弐による
音声認識に関しては以下の文献がある。
(a)迫江、藤井: “ビームサーチとベクトル量子化
によるDPマツチングの高速化゛、信学技報5P87−
26 (1987) (b)IN井、迫江: “ビームサーチとベクトル量子
化によるDPマツチングの高速化の評価パ、音響学会講
論集、 2−5−3 PP、55−56 (1987)
(発明が解決しようとする課題) 上述した従来の音声認識装置では、周囲の雑音レベルが
大きくなると、入カバターンと標準パターンの累積距離
g’ (i、j)も大きくなる。また、ビーム幅ファ
クタαが周囲の雑音レベルが変わっても一定であるため
、雑音レベルが大きくなると、閾値θ(i)内に残る点
(n、i、j)が少なくなる。このため、本来最も入力
単語に類似している標準単語が、漸化式計算の途中で捨
てられ、認識結果に1つも単語が残らなかったり、誤認
識してしまうことが多くなるという問題がある。
によるDPマツチングの高速化゛、信学技報5P87−
26 (1987) (b)IN井、迫江: “ビームサーチとベクトル量子
化によるDPマツチングの高速化の評価パ、音響学会講
論集、 2−5−3 PP、55−56 (1987)
(発明が解決しようとする課題) 上述した従来の音声認識装置では、周囲の雑音レベルが
大きくなると、入カバターンと標準パターンの累積距離
g’ (i、j)も大きくなる。また、ビーム幅ファ
クタαが周囲の雑音レベルが変わっても一定であるため
、雑音レベルが大きくなると、閾値θ(i)内に残る点
(n、i、j)が少なくなる。このため、本来最も入力
単語に類似している標準単語が、漸化式計算の途中で捨
てられ、認識結果に1つも単語が残らなかったり、誤認
識してしまうことが多くなるという問題がある。
本発明の目的は、雑音下の認識においても、正しいと思
われる単語パターンが漸化式の計算の途中で捨てられた
り、そのため誤認識が増えたりすることを防ぐことがで
きる音声認識装置を提供することにある。
われる単語パターンが漸化式の計算の途中で捨てられた
り、そのため誤認識が増えたりすることを防ぐことがで
きる音声認識装置を提供することにある。
本発明の音声認識装置は、ビームサーチを導入したDP
マツチング方式による音声認識手段と、周囲の雑音レベ
ルを推定する手段と、ビーム幅ファクタを雑音レベルの
関数として決定し、漸化式計算による累積距離の閾値を
求める手段を有している。
マツチング方式による音声認識手段と、周囲の雑音レベ
ルを推定する手段と、ビーム幅ファクタを雑音レベルの
関数として決定し、漸化式計算による累積距離の閾値を
求める手段を有している。
本発明によれば、周囲の雑音レベルを推定してビーム幅
ファクタを雑音レベルの関数として決定することで、雑
音下の認識においても漸化式計算を好適に実行する。
ファクタを雑音レベルの関数として決定することで、雑
音下の認識においても漸化式計算を好適に実行する。
次に、本発明を図面を参照して説明する。
本発明では、DPマツチングの漸化式計算を入カバター
ンAの時間軸iに同期させて行い、時刻iにおいて全て
の標準パターンnの時刻jに対する累積距離g’(i、
j)を求める。DPマツチングの漸化式は、 g″ (i、j)=d’ (i、j)+min (
g′I(i−L j−p)) p=o、1.2・・
・(1)である。ただし、d’ (i、j)は時刻i
における入カバターンaと時刻jにおける標準パターン
bとの距離である。ビームサーチの基準としては、時刻
iにおけるg” (i、j)の最小値g wniゎに
ビーム幅ファクタαを加えたものを時刻iにおける閾値
θ(i)とする。
ンAの時間軸iに同期させて行い、時刻iにおいて全て
の標準パターンnの時刻jに対する累積距離g’(i、
j)を求める。DPマツチングの漸化式は、 g″ (i、j)=d’ (i、j)+min (
g′I(i−L j−p)) p=o、1.2・・
・(1)である。ただし、d’ (i、j)は時刻i
における入カバターンaと時刻jにおける標準パターン
bとの距離である。ビームサーチの基準としては、時刻
iにおけるg” (i、j)の最小値g wniゎに
ビーム幅ファクタαを加えたものを時刻iにおける閾値
θ(i)とする。
θ(i)=g*i、+α ・・・(2)(3)式を満た
す(n、i、j)を漸化式計算の対象として残す方法を
用いることにする。
す(n、i、j)を漸化式計算の対象として残す方法を
用いることにする。
g” (i、 j)<θ(i) ・・・(3)ここ
で、ビーム幅ファクタαは、周囲雑音レベル2の関数と
し、 α(2)=α。x(z/zo) ・・・(4)である
。α。は基準雑音レベルにおいて最適なビーム幅ファク
タ、2は音声を入力したときの雑音レベル、zoは基準
となる雑音レベルである。
で、ビーム幅ファクタαは、周囲雑音レベル2の関数と
し、 α(2)=α。x(z/zo) ・・・(4)である
。α。は基準雑音レベルにおいて最適なビーム幅ファク
タ、2は音声を入力したときの雑音レベル、zoは基準
となる雑音レベルである。
雑音レベルZが大きくなると、ビーム幅ファクタαも雑
音レベルに比例して大きくなる。ここで、α。及びZo
を最適に選ぶことにより、高い雑音下においても、静か
な環境と同様な認識率が得られる。
音レベルに比例して大きくなる。ここで、α。及びZo
を最適に選ぶことにより、高い雑音下においても、静か
な環境と同様な認識率が得られる。
次に、本発明の具体的な構成図を第1図に示す。
音声分析部20は、入力される音声信号を分析し一定時
間ごとに特徴ベクトルを出力する。この連続分析は例え
ば、多チャンネルのフィルタより構成すれるフィルタバ
ンクによる周波数分析などがある。
間ごとに特徴ベクトルを出力する。この連続分析は例え
ば、多チャンネルのフィルタより構成すれるフィルタバ
ンクによる周波数分析などがある。
雑音レベル推定部30では、常に入力レベルを監視し、
音声と検出された以外は雑音とみなす。
音声と検出された以外は雑音とみなす。
推定された雑音レベルを音声検出部40とビーム幅決定
部50に伝える。
部50に伝える。
音声検出部40では入力音声のレベルを監視し、雑音レ
ベルから音声の始端、終端を検出し、その検出した時点
を制御部10へ信号SPにより伝える。
ベルから音声の始端、終端を検出し、その検出した時点
を制御部10へ信号SPにより伝える。
入力パターンバッファ70は音声の始端が検出された後
、信号11に従って音声分析部20より与えられる特徴
ヘクトルaiを記憶する。信号iは入カバターンの時間
点1に対応した信号である。
、信号11に従って音声分析部20より与えられる特徴
ヘクトルaiを記憶する。信号iは入カバターンの時間
点1に対応した信号である。
標準パターンメモリ部80は、N個の単語標準パターン
B’ 、B2.・・・BNを記憶している。
B’ 、B2.・・・BNを記憶している。
制御部10は標準パターンの単語nを指示する信号n1
を標準パターンメモリ部80に発し、単語標準パターン
の時間点jに対応する信号j1を発生する。信号j1に
従って入力パターンバッファ70より入カバターンの特
徴ベクトルaiが読み出され、標準パターンメモリ部よ
りb4″が順次読み出され、距離計算部90において、
aiとbJ′のベクトル間距離d” (i、j)が計
算される。入力パターンバッファ70と標準パターンメ
モリ部80より信号r1に従ってR個のデータが読み込
まれ、距離d” (i、j)が漸化式計算部100へ
入力される。
を標準パターンメモリ部80に発し、単語標準パターン
の時間点jに対応する信号j1を発生する。信号j1に
従って入力パターンバッファ70より入カバターンの特
徴ベクトルaiが読み出され、標準パターンメモリ部よ
りb4″が順次読み出され、距離計算部90において、
aiとbJ′のベクトル間距離d” (i、j)が計
算される。入力パターンバッファ70と標準パターンメ
モリ部80より信号r1に従ってR個のデータが読み込
まれ、距離d” (i、j)が漸化式計算部100へ
入力される。
漸化式計算部100では、制御部から信号Cl ’sに
よって指示された(n、 i、 j)における漸化
式計算(1)を行い、累積距離g’ (i、j)を求
め、ビームサーチ判定部60へ送る。
よって指示された(n、 i、 j)における漸化
式計算(1)を行い、累積距離g’ (i、j)を求
め、ビームサーチ判定部60へ送る。
ビーム幅決定部50では信号CIIにより、音声が入力
される直前の雑音レベルZを雑音レベル推定部より受け
て、(4)式と(2)式を計算し、ビーム幅ファクタα
と閾値θ(i)を求める。そして、閾値θ(i)をビー
ムサーチ判定部60へ送る。
される直前の雑音レベルZを雑音レベル推定部より受け
て、(4)式と(2)式を計算し、ビーム幅ファクタα
と閾値θ(i)を求める。そして、閾値θ(i)をビー
ムサーチ判定部60へ送る。
ビームサーチ判定部60では、ビーム幅決定部50より
受けた閾値θ(i)と、漸化式計算部100より受けた
累積距離g’ (i、j)より(3)式を満たすかど
うかの判定を行い、その結果を制御部10へ信号す、に
より伝える。従って、漸化式計算部100では、(3)
式を満たさない累積距離g’ (i、j)は捨てられ
る。この漸化式計算がj=1よりJ′″まで算出され、
この結果である相違度D (n、J” )=g” (1
,J)が各nに対して算出される。
受けた閾値θ(i)と、漸化式計算部100より受けた
累積距離g’ (i、j)より(3)式を満たすかど
うかの判定を行い、その結果を制御部10へ信号す、に
より伝える。従って、漸化式計算部100では、(3)
式を満たさない累積距離g’ (i、j)は捨てられ
る。この漸化式計算がj=1よりJ′″まで算出され、
この結果である相違度D (n、J” )=g” (1
,J)が各nに対して算出される。
音声の終端が検出されると音声検出部40より信号SP
によって制御部10へ通知され、続いて制御部10は認
識結果判定部110へ信号12を発し、認識結果判定部
110は、漸化式計算部100より各単語nに対する相
違度D(n、J’)を受けて、この中で最小のD(n、
J’)となるnを決定し、認識結果として出力する。
によって制御部10へ通知され、続いて制御部10は認
識結果判定部110へ信号12を発し、認識結果判定部
110は、漸化式計算部100より各単語nに対する相
違度D(n、J’)を受けて、この中で最小のD(n、
J’)となるnを決定し、認識結果として出力する。
なお、ビーム幅ファクタαは(4)式の形の他にも種々
考えられる。
考えられる。
以上説明したように本発明は、ビーム幅ファクタを周囲
の雑音レベルに対応して求めることにより、雑音下の認
識においても、正しいと思われる単語パターンが漸化式
の計算の途中で捨てられたり、そのため誤認識が増えた
りすることを防く効果がある。
の雑音レベルに対応して求めることにより、雑音下の認
識においても、正しいと思われる単語パターンが漸化式
の計算の途中で捨てられたり、そのため誤認識が増えた
りすることを防く効果がある。
第1図は本発明の音声認識装置の一実施例の構成図であ
る。 10・・・制御部、20・・・音声分析部、30・・・
雑音レベル推定部、40・・・音声検出部、50・・・
ビーム幅決定部、60・・・ビームサーチ判定部、70
・・・入力パターンバッファ、80・・・標準パターン
メモリ部、90・・・距離計算部、100・・・漸化式
計算部、■ 0・・・認識結果判定部。
る。 10・・・制御部、20・・・音声分析部、30・・・
雑音レベル推定部、40・・・音声検出部、50・・・
ビーム幅決定部、60・・・ビームサーチ判定部、70
・・・入力パターンバッファ、80・・・標準パターン
メモリ部、90・・・距離計算部、100・・・漸化式
計算部、■ 0・・・認識結果判定部。
Claims (1)
- 【特許請求の範囲】 1、特徴ベクトルの時系列である単語入力パターンA=
a_1、a_2、・・・a_i・・・a_Iと、予め記
憶されているN個の単語標準パターンB^n=b_1^
n、b_2^n、・・・b_j^n・・・b_J^n(
n=1、2、・・・、N)との間で、入力パターンの時
間点を示す信号iを1からIまで変化させ、各iに関し
て単語を示す信号nを1からNまで変化させ、さらに各
nに関して標準パターンの時間点を示す信号jを1から
J^nまで変化させて、DPマッチングの漸化式計算を
行って入力パターンa_iと標準パターンb_jのベク
トル間距離d^n(a_i、b_j)を求め、かつ前記
ベクトル間距離d^n(a_i、b_j)の累積距離g
^n(i、j)を求める際に、時刻iにおける累積距離
g^n(i、j)の最小値g_m_i_nに余裕分αを
加えたものを時刻iにおける閾値θ(i)とし、累積距
離g^n(i、j)が閾値θ(i)より小なる点(n、
i、j)を漸化式計算の対象として残し、入力単語Aの
終端において累積距離g^n(I、J)が最小となる標
準単語Nを認識結果として出力する音声認識装置におい
て、周囲の雑音レベルを推定する手段と、前記雑音レベ
ルの関数として前記累積距離の余裕分αを決定し、前記
閾値θ(i)を求める手段を有することを特徴とする音
声認識装置。 2、入力される音声信号を分析する音声分析部と、入力
レベルを監視して雑音を推定する雑音レベル推定部と、
雑音レベルから音声の始端、終端を検出する音声検出部
と、前記音声分析部から出力される特徴ベクトルを記憶
する入力パターンバッファと、単語標準パターンを記憶
している標準パターンメモリ部と、前記入力パターンバ
ッファと標準パターンメモリ部の各出力によりベクトル
間距離を罫線する距離計算部と、漸化式計算によって前
記距離の累積距離を求める漸化式計算部と、前記雑音レ
ベル推定部の出力によりビーム幅ファクタと閾値を求め
るビーム幅決定部と、前記累積距離と閾値とで判定を行
うビームサーチ判定部と、前記漸化式計算部からの出力
に基づいて認識結果を出力する認識結果判定部と、前記
各部を相互制御する制御部とで構成してなる音声認識装
置。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2173036A JPH0462597A (ja) | 1990-06-30 | 1990-06-30 | 音声認識装置 |
CA002042926A CA2042926C (en) | 1990-05-22 | 1991-05-21 | Speech recognition method with noise reduction and a system therefor |
US07/704,160 US5201004A (en) | 1990-05-22 | 1991-05-22 | Speech recognition method with noise reduction and a system therefor |
AU77273/91A AU644875B2 (en) | 1990-05-22 | 1991-05-22 | Speech recognition method with noise reduction and a system therefor |
EP91304628A EP0458615B1 (en) | 1990-05-22 | 1991-05-22 | Speech recognition method with noise reduction and a system therefor |
DE69112705T DE69112705T2 (de) | 1990-05-22 | 1991-05-22 | Methode und System zur Spracherkennung mit Rauschverminderung. |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2173036A JPH0462597A (ja) | 1990-06-30 | 1990-06-30 | 音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0462597A true JPH0462597A (ja) | 1992-02-27 |
Family
ID=15953013
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2173036A Pending JPH0462597A (ja) | 1990-05-22 | 1990-06-30 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0462597A (ja) |
-
1990
- 1990-06-30 JP JP2173036A patent/JPH0462597A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7447634B2 (en) | Speech recognizing apparatus having optimal phoneme series comparing unit and speech recognizing method | |
US4918732A (en) | Frame comparison method for word recognition in high noise environments | |
JPH04182700A (ja) | 音声認識装置 | |
US5201004A (en) | Speech recognition method with noise reduction and a system therefor | |
GB2380644A (en) | Speech detection | |
CA1301338C (en) | Frame comparison method for word recognition in high noise environments | |
KR20180127020A (ko) | 자연어 대화체 음성 인식 방법 및 장치 | |
WO2003107326A1 (ja) | 音声認識方法及びその装置 | |
JPH0462597A (ja) | 音声認識装置 | |
JPH09258783A (ja) | 音声認識装置 | |
US7912715B2 (en) | Determining distortion measures in a pattern recognition process | |
EP1079370A2 (en) | Method for training a speech recognition system with detection of confusable words | |
JP2748383B2 (ja) | 音声認識方式 | |
JPH0546196A (ja) | 音声認識装置 | |
JPH04264596A (ja) | 雑音下音声認識方法 | |
JPH0619491A (ja) | 音声認識装置 | |
JP3026855B2 (ja) | 音声認識装置 | |
JPH01138596A (ja) | 音声認識装置 | |
JPH0228876B2 (ja) | ||
JPH0651793A (ja) | 音声認識装置 | |
JPH06118987A (ja) | 音声認識方法 | |
JPH06105399B2 (ja) | 音声認識方式 | |
JPS59205680A (ja) | 音声パターン比較方法 | |
JPH0134399B2 (ja) | ||
JPS62294297A (ja) | 音声入力装置 |