JPH0443600B2 - - Google Patents
Info
- Publication number
- JPH0443600B2 JPH0443600B2 JP61134460A JP13446086A JPH0443600B2 JP H0443600 B2 JPH0443600 B2 JP H0443600B2 JP 61134460 A JP61134460 A JP 61134460A JP 13446086 A JP13446086 A JP 13446086A JP H0443600 B2 JPH0443600 B2 JP H0443600B2
- Authority
- JP
- Japan
- Prior art keywords
- digits
- distance
- digit
- input
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 238000000034 method Methods 0.000 claims description 13
- 238000012795 verification Methods 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 11
- 238000007796 conventional method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 240000001973 Ficus microcarpa Species 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Description
【発明の詳細な説明】
〔概要〕
単純に桁数による正規化距離をもつて入力桁数
の決定を行うのではなく、その前後の認識結果の
セグメンテーシヨンと距離を比較し、それぞれの
共通しない部分のみを対象にして正規化を行い、
桁数を決定する連続数字音声認識方式である。
の決定を行うのではなく、その前後の認識結果の
セグメンテーシヨンと距離を比較し、それぞれの
共通しない部分のみを対象にして正規化を行い、
桁数を決定する連続数字音声認識方式である。
本発明は連続数字認識時の桁数誤りを減少させ
る連続数字音声認識方式に関するものである。
る連続数字音声認識方式に関するものである。
〔従来の技術〕
従来の連続数字音声認識では、最初に終端レベ
ルDP(Dynamic Programmig:動的計画法)を
行い、次に始終端レベルDPを行い、最後に文レ
ベルDPを行つている。第4図は終端レベルDPを
説明する図である。終端レベルDPにいては、入
力パターンAと登録パターンB(n)との照合を行
う。照合終了時に入力側の各フレームを終端とす
る最適なマツチング・ルートを通つたDP距離DC
(m,n)が計算される。但し、mは入力パター
ンのフレーム位置、nは登録語を指す。このDC
(m,n)を登録パターン長の2倍で割つて時間
正規化した距離DR(m,n)を閾値により削減
する。これにより終端候補を限定する方法であ
る。なお、フレームとは入力音声をサンプリング
する時間間隔を意味しており、時間間隔は例えば
10m秒である。第5図は始終端レベルDPを説明
する図である。始終端レベルDPでは、終端レベ
ルDPで限定された終端から登録パターンと始端
方向にDP照合を行う。照合終了後に入力側の各
フレームを始端とするDP距離DI(m,l,n)
が計算される。但し、mは部分パターンの終端、
lは始端、nは登録語である。このDI(m,l,
n)を登録パターン長と部分パターン長の和で時
間正規化した距離DI(m,l,n)を求める。こ
れにより、部分パターンm〜lを求める方法であ
る。第6図は文レベルDPを説明する図である。
文レベルDPでは、始終端DPにより求められた部
分パターンを用いて、最適な単語の結合を求め
る。文レベルDPを行い、音声の入力終端におけ
る各桁毎の累積距離をその桁数で正規化した距離
が最小のものを認識結果としている。第6図の場
合には、2桁として認識される。
ルDP(Dynamic Programmig:動的計画法)を
行い、次に始終端レベルDPを行い、最後に文レ
ベルDPを行つている。第4図は終端レベルDPを
説明する図である。終端レベルDPにいては、入
力パターンAと登録パターンB(n)との照合を行
う。照合終了時に入力側の各フレームを終端とす
る最適なマツチング・ルートを通つたDP距離DC
(m,n)が計算される。但し、mは入力パター
ンのフレーム位置、nは登録語を指す。このDC
(m,n)を登録パターン長の2倍で割つて時間
正規化した距離DR(m,n)を閾値により削減
する。これにより終端候補を限定する方法であ
る。なお、フレームとは入力音声をサンプリング
する時間間隔を意味しており、時間間隔は例えば
10m秒である。第5図は始終端レベルDPを説明
する図である。始終端レベルDPでは、終端レベ
ルDPで限定された終端から登録パターンと始端
方向にDP照合を行う。照合終了後に入力側の各
フレームを始端とするDP距離DI(m,l,n)
が計算される。但し、mは部分パターンの終端、
lは始端、nは登録語である。このDI(m,l,
n)を登録パターン長と部分パターン長の和で時
間正規化した距離DI(m,l,n)を求める。こ
れにより、部分パターンm〜lを求める方法であ
る。第6図は文レベルDPを説明する図である。
文レベルDPでは、始終端DPにより求められた部
分パターンを用いて、最適な単語の結合を求め
る。文レベルDPを行い、音声の入力終端におけ
る各桁毎の累積距離をその桁数で正規化した距離
が最小のものを認識結果としている。第6図の場
合には、2桁として認識される。
この方法であると、入力桁数の前後桁での桁数
正規化距離が殆ど等しい場合があり、単純にその
距離の大小で桁数を決定しているため入力桁数の
前後桁へバラつく傾向があつた。中でも、音声辞
書のパターンと入力数字列の一部の数字パターン
とが特に良くマツチングし、その認識距離が小さ
くなつた場合など、実際の入力桁数より小さい桁
数として認識されてしまうものが見られた。
正規化距離が殆ど等しい場合があり、単純にその
距離の大小で桁数を決定しているため入力桁数の
前後桁へバラつく傾向があつた。中でも、音声辞
書のパターンと入力数字列の一部の数字パターン
とが特に良くマツチングし、その認識距離が小さ
くなつた場合など、実際の入力桁数より小さい桁
数として認識されてしまうものが見られた。
本発明は、この点に鑑みて創作されたものであ
つて、連続数字認識時の桁数誤りを減少させて、
可能な限り桁数既知時の認識率に近づけることを
目的としている。
つて、連続数字認識時の桁数誤りを減少させて、
可能な限り桁数既知時の認識率に近づけることを
目的としている。
従来の方法で求めた桁数の前後桁において認識
結果のセグメンテーシヨンと距離とを比較し、共
通部分のパスは充分信用できるパスとして外し、
その他の共通しない部分のパスは曖味なパスと見
做し、その部分のみを対象として残りの桁で正規
化距離を求め、その値が小さい方の桁数を最適桁
数として選択する。第1図の例においては、従来
の方法では正規化距離がそれぞれ138,137で3桁
となるが、本発明を適用すると、175,180とな
り、4桁であると認識される。
結果のセグメンテーシヨンと距離とを比較し、共
通部分のパスは充分信用できるパスとして外し、
その他の共通しない部分のパスは曖味なパスと見
做し、その部分のみを対象として残りの桁で正規
化距離を求め、その値が小さい方の桁数を最適桁
数として選択する。第1図の例においては、従来
の方法では正規化距離がそれぞれ138,137で3桁
となるが、本発明を適用すると、175,180とな
り、4桁であると認識される。
第2図は本発明のハードウエア構成の1例を示
す図である。第2図において、1はマイクロプロ
セツサ、2はフイルタ、3はDP処理装置、4は
音声出力アダプタ、5は直列インタフエース、6
はフロツピイ・デイスク装置をそれぞれ示してい
る。マイクロプロセツサ1は、インテル8086−2
(8MHz)を使用しており、処理速度−命令平均
3μ秒、メモリ容量768KB(音声出力情報,認識辞
書各256KB)である。フイルタ2は200Hz〜5KHz
の周波数帯を16に分割し、各チヤンネル12bitの
値をサンプリングして10m秒毎に割り込みを発生
するものである。DP処理装置3は、パターン照
合によつて近似度を求めるのである。音声出力ア
ダプタ4は、PACOR方式により最大400秒の音
声合成を行うものである。フロツピイ・デイスク
装置6は、5 1/4インチ2HDフロツピイ・デイ
スクであり、音声出力情報や認識単語情報、個人
辞書を保持する。
す図である。第2図において、1はマイクロプロ
セツサ、2はフイルタ、3はDP処理装置、4は
音声出力アダプタ、5は直列インタフエース、6
はフロツピイ・デイスク装置をそれぞれ示してい
る。マイクロプロセツサ1は、インテル8086−2
(8MHz)を使用しており、処理速度−命令平均
3μ秒、メモリ容量768KB(音声出力情報,認識辞
書各256KB)である。フイルタ2は200Hz〜5KHz
の周波数帯を16に分割し、各チヤンネル12bitの
値をサンプリングして10m秒毎に割り込みを発生
するものである。DP処理装置3は、パターン照
合によつて近似度を求めるのである。音声出力ア
ダプタ4は、PACOR方式により最大400秒の音
声合成を行うものである。フロツピイ・デイスク
装置6は、5 1/4インチ2HDフロツピイ・デイ
スクであり、音声出力情報や認識単語情報、個人
辞書を保持する。
次に本発明の詳細について説明する。終端レベ
ルDP、始終端レベルDP及び文レベルDPを行い、
複数の候補が得られたとする、今、kを桁数で正
規化した距離比較で最も近いと見做されたものの
桁数とし、B(K)をを桁数kの候補数字列とした場
合、B(K)とB(k+1),B(K)とB(K−1)につ
いてそれぞれ、候補と位置が共に一致する部分が
あつた場合に限り、そこを除いた部分を再照合対
象として再度距離の正規化を行い、照合する。再
照合対象部分は、現候補削減方法においては終端
と候補テンプレートが一致する部分を除いた部分
であり、また、単語区間中点による候補削減方法
においては単語区間中点と候補テンプレートが一
致する部分を除いた部分である。次に正規化方法
を説明する。B(K)のB(j)に対する再照合距離Dk,j
を次のように定義する。
ルDP、始終端レベルDP及び文レベルDPを行い、
複数の候補が得られたとする、今、kを桁数で正
規化した距離比較で最も近いと見做されたものの
桁数とし、B(K)をを桁数kの候補数字列とした場
合、B(K)とB(k+1),B(K)とB(K−1)につ
いてそれぞれ、候補と位置が共に一致する部分が
あつた場合に限り、そこを除いた部分を再照合対
象として再度距離の正規化を行い、照合する。再
照合対象部分は、現候補削減方法においては終端
と候補テンプレートが一致する部分を除いた部分
であり、また、単語区間中点による候補削減方法
においては単語区間中点と候補テンプレートが一
致する部分を除いた部分である。次に正規化方法
を説明する。B(K)のB(j)に対する再照合距離Dk,j
を次のように定義する。
但し、
n(k,j)はB(j)に対するB(k)の再照合対象
の数字の個数、 Dk,j,iはB(j)に対するB(k)の再照合対象のi番目の
数字に対する正規化距離、 Lk,j,iはその数字の入力側のフレーム数である。判
定方法は下記のようなものである。
の数字の個数、 Dk,j,iはB(j)に対するB(k)の再照合対象のi番目の
数字に対する正規化距離、 Lk,j,iはその数字の入力側のフレーム数である。判
定方法は下記のようなものである。
(1) B(k)とB(k+1),B(k)とB(k−1)とが
一致部分を持たない場合には、k桁を最終桁数
とする。
一致部分を持たない場合には、k桁を最終桁数
とする。
(2) B(k)とB(k+1)は一致部分を持つけれど
も、B(k)とB(k−1)は一致部を持たない場
合は、次のようにする。
も、B(k)とB(k−1)は一致部を持たない場
合は、次のようにする。
(a) k+1,k≧k,k+1ならばk桁を最終桁数とす
る。
る。
(b) k+1,k≦k,k+1ならばk桁を最終桁数とす
る。
る。
(3) B(k)とB(k−1)は一致部分を持つけれど
も、B(k)とB(k+1)は一致部分を持たない
場合は、次のようにする。
も、B(k)とB(k+1)は一致部分を持たない
場合は、次のようにする。
(a) k,k-1≦k-1,kならばk桁を最終桁数とす
る。
る。
(b) k,k-1≧k-1,kならばk−1桁を最終桁数
とする。
とする。
(4) B(k)とB(k−1),B(k)とB(k−1)とが
共に一致部分を持つ場合は次のようにする。
共に一致部分を持つ場合は次のようにする。
(a) k+1,k≧k,k+1且つk,k-1>k-1,kならば
k−1桁を最終桁数とする。
k−1桁を最終桁数とする。
(b) k-1,k≧k+k+1且つk,k-1≦k-1,kならば
k桁を最終桁数とする。
k桁を最終桁数とする。
(c) k+1,k<k,k+1且つk,k-1≦k-1,kならば
k+1を最終桁数とする。
k+1を最終桁数とする。
(d) k+1,k<k,k+1且つk,k-1>k-1,kならば
k桁を最終桁数とする。
k桁を最終桁数とする。
第3図は第2図のマイクロプロセツサの処理を
説明する図である。
説明する図である。
フイルタからフイルタ・パラメータを読み出
す。
す。
フイルタ・パラメータから音声パラメータを
計算する。
計算する。
DPPに入力音声パラメータと登録パラメー
タを書き込み、DPPハードをスタートさせる。
タを書き込み、DPPハードをスタートさせる。
DPPからDP距離を読み出し、距離を正規化
し、終端候補を限定する。
し、終端候補を限定する。
DPPに入力音声パラメータと終端候補の登
録パラメータを書き込み、DPPハードをスタ
ートさせる。
録パラメータを書き込み、DPPハードをスタ
ートさせる。
DPPからDP距離を読み出し、距離を正規化
し、始端を求める。
し、始端を求める。
部分パターンを用いて最最適な結合を求め
る。
る。
全ての終端候補について終了したか否かを調
べ、Yesのときはの処理を行い、Noのとき
はの処理に戻る。
べ、Yesのときはの処理を行い、Noのとき
はの処理に戻る。
桁数を決定する。
桁数の再生規化を行う。
得られた結果を送信する。
音声出力ありか否かを調べる。Yesのときは
の処理を行う。
の処理を行う。
(G) 音声を出力する。
以上の説明から明らかなように、本発明によれ
ば、認識率の高い人には大した効果が期待できな
いが、認識率の低い人(大抵の場合、桁数未知時
と桁数既知時の認識率の差は大きい)の場合に
は、可なりの認識率の向上が期待できる。
ば、認識率の高い人には大した効果が期待できな
いが、認識率の低い人(大抵の場合、桁数未知時
と桁数既知時の認識率の差は大きい)の場合に
は、可なりの認識率の向上が期待できる。
第1図は本発明の概要を説明する図、第2図は
本発明のハードウエア構成例を示す図、第3図は
マイクロプロセツサの処理を示す図、第4図は終
端レベルDPを説明する図、第5図は始終端レベ
ルDPを説明する図、第6図は文レベルDPを説明
する図である。 1……マイクロプロセツサ、2……フイルタ、
3……DP処理装置、4……音声出力アダプタ、
5……直列インタフエース、6……フロツピイ・
デイスク装置。
本発明のハードウエア構成例を示す図、第3図は
マイクロプロセツサの処理を示す図、第4図は終
端レベルDPを説明する図、第5図は始終端レベ
ルDPを説明する図、第6図は文レベルDPを説明
する図である。 1……マイクロプロセツサ、2……フイルタ、
3……DP処理装置、4……音声出力アダプタ、
5……直列インタフエース、6……フロツピイ・
デイスク装置。
Claims (1)
- 1 終端レベル動的計画法で得られた終端候補に
ついて始終端レベル動的計画法及び文レベル動的
計画法を行つて音声の入力終端における各桁毎の
累積距離をその桁数で正規化して距離を求める連
続数字音声認識方式において、正規化した距離が
最小である桁数kの候補数字列をB(k)とすると
き、B(k)とB(k+1)又はB(k)とB(k−1)に
ついてそれぞれ候補と位置が共に一致する部分が
あつた場合に限り、そこを除いた部分を再照合対
象として再度距離の正規化を行つて再照合距離
k+1,k,k,k+1,k,k-1,k-1,kを求め、これ
らの
再照合距離をも参照して、入力された連続数字音
声の認識結果を求めることを特徴とする連続数字
音声認識方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61134460A JPS62291700A (ja) | 1986-06-10 | 1986-06-10 | 連続数字音声認識方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61134460A JPS62291700A (ja) | 1986-06-10 | 1986-06-10 | 連続数字音声認識方式 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS62291700A JPS62291700A (ja) | 1987-12-18 |
JPH0443600B2 true JPH0443600B2 (ja) | 1992-07-17 |
Family
ID=15128849
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP61134460A Granted JPS62291700A (ja) | 1986-06-10 | 1986-06-10 | 連続数字音声認識方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS62291700A (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5956675A (en) * | 1997-07-31 | 1999-09-21 | Lucent Technologies Inc. | Method and apparatus for word counting in continuous speech recognition useful for reliable barge-in and early end of speech detection |
-
1986
- 1986-06-10 JP JP61134460A patent/JPS62291700A/ja active Granted
Also Published As
Publication number | Publication date |
---|---|
JPS62291700A (ja) | 1987-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPS61252594A (ja) | 音声パタ−ン照合方式 | |
JPH0443600B2 (ja) | ||
JP3100208B2 (ja) | 音声認識装置 | |
JPS6147999A (ja) | 音声認識装置 | |
JP3004749B2 (ja) | 標準パターン登録方法 | |
JP2744622B2 (ja) | 破裂子音識別方式 | |
JPH0336436B2 (ja) | ||
JPS6147994A (ja) | 音声認識方式 | |
JPS58159598A (ja) | 単音節音声認識方式 | |
JP3011984B2 (ja) | パターン照合方法 | |
JP2655637B2 (ja) | 音声パターン照合方式 | |
JP2665543B2 (ja) | 音声認識装置 | |
JPH0119597B2 (ja) | ||
JPS62144199A (ja) | 連続音声認識装置 | |
JP2901976B2 (ja) | パターン照合予備選択方式 | |
JPS60147797A (ja) | 音声認識装置 | |
JPS6287995A (ja) | 音声パタ−ン登録方式 | |
JPH103296A (ja) | 音声認識システムにおける単語予備選択装置 | |
JPH0634180B2 (ja) | パタン認識装置 | |
JPS61182100A (ja) | 音声認識後処理方式 | |
JPS63259598A (ja) | 音声認識装置 | |
JPS632100A (ja) | 音声認識装置 | |
JPH0336437B2 (ja) | ||
JPS617894A (ja) | 音声認識方法 | |
JPS61105598A (ja) | 連続音声認識装置 |