JPH0443600B2

JPH0443600B2 -

Info

Publication number: JPH0443600B2
Application number: JP61134460A
Authority: JP
Inventors: Takashi Yoshihara
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1986-06-10
Filing date: 1986-06-10
Publication date: 1992-07-17
Also published as: JPS62291700A

Description

【発明の詳細な説明】〔概要〕単純に桁数による正規化距離をもつて入力桁数
の決定を行うのではなく、その前後の認識結果の
セグメンテーシヨンと距離を比較し、それぞれの
共通しない部分のみを対象にして正規化を行い、
桁数を決定する連続数字音声認識方式である。

〔産業上の利用分野〕

本発明は連続数字認識時の桁数誤りを減少させ
る連続数字音声認識方式に関するものである。

〔従来の技術〕従来の連続数字音声認識では、最初に終端レベ
ルDP（Dynamic Programmig：動的計画法）を
行い、次に始終端レベルDPを行い、最後に文レ
ベルDPを行つている。第４図は終端レベルDPを
説明する図である。終端レベルDPにいては、入
力パターンＡと登録パターンＢ(n)との照合を行
う。照合終了時に入力側の各フレームを終端とす
る最適なマツチング・ルートを通つたDP距離DC
（ｍ，ｎ）が計算される。但し、ｍは入力パター
ンのフレーム位置、ｎは登録語を指す。このDC
（ｍ，ｎ）を登録パターン長の２倍で割つて時間
正規化した距離DR（ｍ，ｎ）を閾値により削減
する。これにより終端候補を限定する方法であ
る。なお、フレームとは入力音声をサンプリング
する時間間隔を意味しており、時間間隔は例えば
10m秒である。第５図は始終端レベルDPを説明
する図である。始終端レベルDPでは、終端レベ
ルDPで限定された終端から登録パターンと始端
方向にDP照合を行う。照合終了後に入力側の各
フレームを始端とするDP距離DI（ｍ，ｌ，ｎ）
が計算される。但し、ｍは部分パターンの終端、
ｌは始端、ｎは登録語である。このDI（ｍ，ｌ，
ｎ）を登録パターン長と部分パターン長の和で時
間正規化した距離DI（ｍ，ｌ，ｎ）を求める。こ
れにより、部分パターンｍ〜ｌを求める方法であ
る。第６図は文レベルDPを説明する図である。
文レベルDPでは、始終端DPにより求められた部
分パターンを用いて、最適な単語の結合を求め
る。文レベルDPを行い、音声の入力終端におけ
る各桁毎の累積距離をその桁数で正規化した距離
が最小のものを認識結果としている。第６図の場
合には、２桁として認識される。

〔解決しようとする問題点〕

この方法であると、入力桁数の前後桁での桁数
正規化距離が殆ど等しい場合があり、単純にその
距離の大小で桁数を決定しているため入力桁数の
前後桁へバラつく傾向があつた。中でも、音声辞
書のパターンと入力数字列の一部の数字パターン
とが特に良くマツチングし、その認識距離が小さ
くなつた場合など、実際の入力桁数より小さい桁
数として認識されてしまうものが見られた。

本発明は、この点に鑑みて創作されたものであ
つて、連続数字認識時の桁数誤りを減少させて、
可能な限り桁数既知時の認識率に近づけることを
目的としている。

〔問題点を解決するための手段〕

従来の方法で求めた桁数の前後桁において認識
結果のセグメンテーシヨンと距離とを比較し、共
通部分のパスは充分信用できるパスとして外し、
その他の共通しない部分のパスは曖味なパスと見
做し、その部分のみを対象として残りの桁で正規
化距離を求め、その値が小さい方の桁数を最適桁
数として選択する。第１図の例においては、従来
の方法では正規化距離がそれぞれ138，137で３桁
となるが、本発明を適用すると、175，180とな
り、４桁であると認識される。

〔実施例〕

第２図は本発明のハードウエア構成の１例を示
す図である。第２図において、１はマイクロプロ
セツサ、２はフイルタ、３はDP処理装置、４は
音声出力アダプタ、５は直列インタフエース、６
はフロツピイ・デイスク装置をそれぞれ示してい
る。マイクロプロセツサ１は、インテル8086−２
（8MHz）を使用しており、処理速度−命令平均
3μ秒、メモリ容量768KB（音声出力情報，認識辞
書各256KB）である。フイルタ２は200Hz〜5KHz
の周波数帯を16に分割し、各チヤンネル12bitの
値をサンプリングして10m秒毎に割り込みを発生
するものである。DP処理装置３は、パターン照
合によつて近似度を求めるのである。音声出力ア
ダプタ４は、PACOR方式により最大400秒の音
声合成を行うものである。フロツピイ・デイスク
装置６は、５ 1/4インチ2HDフロツピイ・デイ
スクであり、音声出力情報や認識単語情報、個人
辞書を保持する。

次に本発明の詳細について説明する。終端レベ
ルDP、始終端レベルDP及び文レベルDPを行い、
複数の候補が得られたとする、今、ｋを桁数で正
規化した距離比較で最も近いと見做されたものの
桁数とし、Ｂ(K)をを桁数ｋの候補数字列とした場
合、Ｂ(K)とＢ（ｋ＋１），Ｂ(K)とＢ（Ｋ−１）につ
いてそれぞれ、候補と位置が共に一致する部分が
あつた場合に限り、そこを除いた部分を再照合対
象として再度距離の正規化を行い、照合する。再
照合対象部分は、現候補削減方法においては終端
と候補テンプレートが一致する部分を除いた部分
であり、また、単語区間中点による候補削減方法
においては単語区間中点と候補テンプレートが一
致する部分を除いた部分である。次に正規化方法
を説明する。Ｂ(K)のＢ(j)に対する再照合距離D_k,j
を次のように定義する。

但し、ｎ（ｋ，ｊ）はＢ(j)に対するＢ(k)の再照合対象
の数字の個数、 D_k,j,iはＢ(j)に対するＢ(k)の再照合対象のｉ番目の
数字に対する正規化距離、 L_k,j,iはその数字の入力側のフレーム数である。判
定方法は下記のようなものである。

(1) Ｂ(k)とＢ（ｋ＋１），Ｂ(k)とＢ（ｋ−１）とが
一致部分を持たない場合には、ｋ桁を最終桁数
とする。

(2) Ｂ(k)とＢ（ｋ＋１）は一致部分を持つけれど
も、Ｂ(k)とＢ（ｋ−１）は一致部を持たない場
合は、次のようにする。

(a) _k+1,k≧_k,k+1ならばｋ桁を最終桁数とす
る。

(b) _k+1,k≦_k,k+1ならばｋ桁を最終桁数とす
る。

(3) Ｂ(k)とＢ（ｋ−１）は一致部分を持つけれど
も、Ｂ(k)とＢ（ｋ＋１）は一致部分を持たない
場合は、次のようにする。

(a) _k,k-1≦_k-1,kならばｋ桁を最終桁数とす
る。

(b) _k,k-1≧_k-1,kならばｋ−１桁を最終桁数
とする。

(4) Ｂ(k)とＢ（ｋ−１），Ｂ(k)とＢ（ｋ−１）とが
共に一致部分を持つ場合は次のようにする。

(a) _k+1,k≧_k,k+1且つ_k,k-1＞_k-1,kならば
ｋ−１桁を最終桁数とする。

(b) _k-1,k≧_k+k+1且つ_k,k-1≦_k-1,kならば
ｋ桁を最終桁数とする。

(c) _k+1,k＜_k,k+1且つ_k,k-1≦_k-1,kならば
ｋ＋１を最終桁数とする。

(d) _k+1,k＜_k,k+1且つ_k,k-1＞_k-1,kならば
ｋ桁を最終桁数とする。

第３図は第２図のマイクロプロセツサの処理を
説明する図である。

フイルタからフイルタ・パラメータを読み出
す。

フイルタ・パラメータから音声パラメータを
計算する。

DPPに入力音声パラメータと登録パラメー
タを書き込み、DPPハードをスタートさせる。

DPPからDP距離を読み出し、距離を正規化
し、終端候補を限定する。

DPPに入力音声パラメータと終端候補の登
録パラメータを書き込み、DPPハードをスタ
ートさせる。

DPPからDP距離を読み出し、距離を正規化
し、始端を求める。

部分パターンを用いて最最適な結合を求め
る。

全ての終端候補について終了したか否かを調
べ、Yesのときはの処理を行い、Noのとき
はの処理に戻る。

桁数を決定する。

桁数の再生規化を行う。

得られた結果を送信する。

音声出力ありか否かを調べる。Yesのときは
の処理を行う。

(G) 音声を出力する。

〔発明の効果〕

以上の説明から明らかなように、本発明によれ
ば、認識率の高い人には大した効果が期待できな
いが、認識率の低い人（大抵の場合、桁数未知時
と桁数既知時の認識率の差は大きい）の場合に
は、可なりの認識率の向上が期待できる。

【図面の簡単な説明】

第１図は本発明の概要を説明する図、第２図は
本発明のハードウエア構成例を示す図、第３図は
マイクロプロセツサの処理を示す図、第４図は終
端レベルDPを説明する図、第５図は始終端レベ
ルDPを説明する図、第６図は文レベルDPを説明
する図である。１……マイクロプロセツサ、２……フイルタ、
３……DP処理装置、４……音声出力アダプタ、
５……直列インタフエース、６……フロツピイ・
デイスク装置。

Claims

【特許請求の範囲】

１終端レベル動的計画法で得られた終端候補に
ついて始終端レベル動的計画法及び文レベル動的
計画法を行つて音声の入力終端における各桁毎の
累積距離をその桁数で正規化して距離を求める連
続数字音声認識方式において、正規化した距離が
最小である桁数ｋの候補数字列をＢ(k)とすると
き、Ｂ(k)とＢ（ｋ＋１）又はＢ(k)とＢ（ｋ−１）に
ついてそれぞれ候補と位置が共に一致する部分が
あつた場合に限り、そこを除いた部分を再照合対
象として再度距離の正規化を行つて再照合距離
_{ｋ＋１，ｋ}，_k,k+1，_k,k-1，_k-1,kを求め、これ
らの
再照合距離をも参照して、入力された連続数字音
声の認識結果を求めることを特徴とする連続数字
音声認識方式。