JPH0534679B2

JPH0534679B2 -

Info

Publication number: JPH0534679B2
Application number: JP58016972A
Authority: JP
Inventors: Riichi Yasue; Yoshiaki Kitatsume; Ryoichi Ito; Michihiro Mese
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1983-02-04
Filing date: 1983-02-04
Publication date: 1993-05-24
Also published as: JPS59143200A

Description

【発明の詳細な説明】＜発明の利用分野＞本発明は、連続音声認識装置に関し、特に連続
入力音声を自動的に認識する際に、実在しない単
語が発生する現象、つまり音声の湧出しを効率よ
く抑止できる認識装置に関するものである。

＜従来技術＞近年、音声認識を採用する分野が広がりつつあ
り、国鉄の自動座席予約システムや銀行の預金残
高照会システムでは、すでに実用の段階に到つて
いる。しかし、現在実用化されている技術では、
区切つて発声した単語を認識するように運営され
ているため、認識処理が遅くなつてシステムとし
ての効率が悪く、しかも１単語ずつ区切つて発声
しなければならないために、発声が不自然とな
り、発声エラーの原因にもなつている。この傾向
は、数字において特に顕著である。電話番号で説
明すると、電話番号は通常「何万何千何百何十
何」と桁数字で呼ばれることは少なく、０〜９の
数字を単純に配列した３連数字あるいは４連数字
で呼ばれ、かつ連続的に発声される。

従来、電話番号の発声音を音声認識装置で自動
的に認識する場合、数字間に区切り音等を挿入し
て１数字ずつ発声させ、音声認識装置では区切ら
れた入力音声に対して最も類似した０〜９の数字
を１数字ずつ判別し、それを認識結果として出力
している。

上記の例からも明らかなように、４連数字は、
0000〜9999の１万種類に及ぶが、それらの中に含
まれる単語の種類は、たかだか０〜９の10数字で
ある。それにもかかわらず、実際に連続発声音声
の認識を実行すると、正確に認識することが困難
である。認識を困難にしている最大の原因は、音
声と音声の区分けができないことである。区分け
ができず音声境界が不明である場合、（）標準
数字を入力音声のどの部分と整合をとればよいか
判断できないこと、および（）特定の２組の数
字間に誤つて別の数字が挿入されやすいこと（こ
れを湧出し現象と呼ぶ）等の問題が生ずる。これ
らの場合を、図面により説明する。

第１図は、連続音声認識の説明図であつて、(a)
−Ｍは発声音声の分解図(a)−Ｎは擬似音声の発声
図、(b)は発声音声パワーを示す図、(c)は標準音声
との整合度を示す図である。

いま、４連数字／3177／（サンイチナナナナ）
を例にとると、その分解状態は(a)−Ｍに示すよう
になり、音声パワーの分布は(b)に示すようにな
る。音声パワーは、音声の瞬時振幅レベルあるい
は長時間実効レベル、つまり発声者、発声環境に
より変動する分を考慮した実効音声レベルであ
る。(b)では、横軸に時間、縦軸にパワーが示され
ており、母音はパワーが大きく、子音はパワーが
小さい。この場合、認識装置は数字の境界が識別
できないので、前記（）を解決するためにも、
この境界を自動的に判別する作業が必要である。
これに対しては、例えば「連続DPマツチング法」
（岡隆一：連続単語認識のためのDPアルゴリズ
ム、日本音響学会講演論文、４−１−22，
May1978参照）によつて、ある程度は解決する
ことができる。この連続DP手法（連続的な動的
計画法）は、入力音声を区分することなく標準数
字音声と照合していく方法であつて、入力音声に
対して連続的に評価する。入力の一部と標準音声
と最適整合がとれたとき、整合度が最大となり、
そのときの入力の位置情報が音声境界となる。第
１図ｃでは、下方の時間軸に近いほど整合度が大
であつて、候補番号の／３／との／７／で最
適整合がとれたことを表わしている。

次に、前記（）の問題、つまり湧出しについ
て説明する。第１図ａに示すように、入力音声を
音韻に分解すると、／３／と／１／の間では、／
３／の語尾“ｎ”と／１／の語頭“ｉ”とが結合
して“ni”／２／が発生している。すなわち／
３／と／１／の間に実在しない／２／が音韻構造
的に表われ、これが湧出しの原因となる。その結
果、入力の桁数が不明の場合には、／321／と湧
出しエラーが生じたり、／３／が／２／と重なり
合つて／21／と誤認識することにもなる。この現
象は、／77／の間でも、同じようにして発生す
る。すなわち、第１図aNに示すように／７／の
語尾“na”と次の／７／の語頭“na”が結合し
て“nana”／７／がもう１つ発生し、／777／と
湧出しエラーが生ずることになる。

＜発明の目的＞本発明の目的は、このような従来の問題を改善
するため、特に湧出し現象の発生を抑止して、連
続的に発声された音声を正しく認識できる連続音
声認識装置を提供することにある。

＜発明の概要＞本発明の上述の目的は、連続発声の入力音声を
音響分析して特徴パラメータを得る手段と、前記
特徴パラメータと予め用意されている標準単位音
声の特徴パラメータとを比較して、時間軸方向に
１個ないし複数個の音声候補を得る手段、およ
び、前記音声候補の中から選択した候補列を認識
結果として出力する選択手段を有する連続音声認
識装置において、前記選択手段内に、前後の単位
音声との音韻的結合より発生する擬似的候補が挿
入された３連単位音声列情報群を記憶する連結辞
書を備えるとともに、前記音声候補の中の３連の
音声候補の連結性を判定し、連結性のあるものに
ついて、前記連結辞書を用いて当該３連音声候補
の各音声候補間の結合度を判定して擬似的候補を
除去する湧き出し抑止手段を設けたことを特徴と
する連続音声認識装置によつて達成される。

＜発明の実施例＞以下、本発明の原理および実施例を、図面によ
り説明する。

本発明においては、認識の性能を上げるため、
数多くの数字候補群の中から適切な候補を選択
し、その際に湧出しの発生を抑止する。適切な候
補とは、整合の度合が高く、その候補が湧出した
もの（湧出し音声、擬似音声あるいは擬似単位音
声と呼ぶ）ではないことである。すなわち、時間
的に重なつている候補は整合度の高い方を採用す
ればよいが、その候補が擬似数字ではないことが
条件となる。つまり、候補の中から擬似数字を検
出することができれば、真の単位音声列を決定し
て、正しい認識が可能となる。このことを、第１
図ｃにより詳述する。第１図ｃは、第１図ａの入
力音声から得た候補群に対して、横軸に時間、縦
軸に標準音声との非整合度を表わしたものであつ
て、整合のとれた範囲を四角で囲み、その中に標
準音声名称を記してある。第１図ｃの中で、候補
、がそれぞれ／31／，／77／の間に湧出した
擬似数字である。もし、この状態で整合度を優先
させて認識すれば、認識結果は、例えば−−
−／3217／となつてしまい、誤認識となる。

本発明では、このような湧出しあるいは誤認識
の原因となる擬似数字を検出し、これを除去する
ために、次のような処理を行う。

擬似数字は、前述のように、前後の数字と密接
に関係があり、その音韻的結合により存在するも
のであつて、話者に依存しない一般的な規則とみ
ることができる。したがつて、この一般的な規則
をテーブルにあらかじめ登録しておき、これを参
照して擬似数字を検出する。このテーブルを、連
結辞書と呼ぶことにする。

第２図は、連結辞書の一例を示す図である。連
結辞書は、３数字のＡ，Ｘ，Ｂをサブセツトにし
た集合であつて、３数字は互いに順列が決つてお
り、先行数字をＡ、擬似数字をＸ、後続数字をＢ
としている。本発明の湧出し抑止は、基本的に
は、この連結辞書を用いて対策を施すことにな
る。

次に、湧出し抑止方法について詳述する。数字
の各候補は、４つの情報を有しているものとす
る。それらは、（）整合のとれた標準音声名Ne
（ただし、Ｎは０〜９の集合の１つの元Ｎ（０〜
９）、（）非整合度Ｄ、（）入力音声の整合範
囲の開始時点Ｓ、（）入力音声の整合範囲の終
了時点Ｅ、である。

いま、湧出し判定の対象となる候補をＸ、時間
的に先行する候補をＡ、後続の候補をＢとし、そ
れぞれの情報を_X＝（N^X，D^X，S^X，E^X），_A＝
（N^A，D^A，S^A，E^A），_B＝（N^B，D^B，S^B，E^B）と
する。Ｘが擬似数字、つまり湧出しであるか否か
の判定は、次の３つの条件によつて行う。

(イ) Ｘ，Ａ，Ｂの種類の組合わせ (ロ) Ｘ，Ａ，Ｂの連結性 (ハ) Ｘ，Ａ，Ｂの結合度種類の組合わせは、すでに登録されている連結
辞書を調べ、Ａ（）＝N^A，Ｘ（）＝N^X，Ｂ（）＝N^B ……(1) 上記(1)に適合するサブセツトを探すことにな
る。

連結性は、擬似数字が前後の数字と音韻を共通
化している点から、ＸとＡ，ＸとＢが時間的に重
複しているか否かを調べることによつて判断する
ことができる。例えば、単純に互いに僅かでも重
複しているとき「連結性あり」とするならば、次
式の条件を満たすか否かを判定すればよいことに
なる。

E^A−S^X＞０かつE^X−S^B＞０ ……(2) 連結性があつても、必ずしも擬似数字とは判断
できない場合がある。例えば、擬似数字と思われ
る候補の整合度が非常に高いときには、擬似では
なく、真の数字と判断すべきであろうし、また逆
に整合度が低く、先行、後続の数字の整合度に近
くなつてくれば、擬似数字の可能性は高くなる。
これが、結合度に関する条件である。いま、結合
度をＣとして、簡単のために次式のように相対レ
ベルで定義する。

Ｃ＝（D^X−D^A）＋（D^X−D^B） ……(3) 結合度Ｃがある閾値θ_cと比較して、Ｃ＞θ_cであ
れば候補Ｘは擬似音声と判断する。

擬似音声と判断された候補は、候補群の中から
順次取り除かれていく。

このように、本発明の湧出し抑止法は、擬似音
声を検出して、候補の中から除去するという単純
な処理を行うもので、候補選択の１つの手段でも
ある。したがつて、幾つかの候補選択過程の中
に、この湧出し抑止処理を挿入することは簡単に
実現でき、特に弊害になることはない。

第３図は、本発明の実施例を示す連続音声認識
装置のブロツク図である。

１０は入力音声１を分析する音響分析部、２０
は入力音声と標準音声との間で候補を抽出する候
補抽出部、３０は標準音声を格納する標準音声格
納部、４０は抽出された候補の中から真の候補に
絞つて最終認識結果として出力する候補選択部で
ある。なお、湧出し抑止処理は、上記候補選択部
４０内で行われる。

連続入力音声１が入力すると、適切なプリエン
フアシスおよび増幅が施された後、音響分析部１
０により音声の特徴を表わすパラメータ２に変換
される。分析には、種々のものが考えられるが、
ここでは発声の本質には関係がないので、最も簡
単でかつ普通に行われているスペクトル分析とす
る。すなわち、音響分析部１０には、バンドパ
ス・フイルタ群が設けられ、これらにより強度に
よる相対的な正規化を施して、スペクトル分析を
行う。スペクトル分析を施された特徴パラメータ
２は、標準音声格納部３０から出力された標準音
声特徴パラメータ３との間でマツチングを行い、
適切な候補４を出力する。

第４図は、第３図の候補抽出部の詳細ブロツク
図である。

第４図に示すように、候補抽出部２０は、距離
計算部２１と連続DPマツチング部２２と候補抽
出部２３に分かれている。Ｎチヤネルのバンドパ
ス・フイルタ群で分析された特徴パラメータ２
は、１フレームについて｛Ｘ｝_=I〜Nで表わさ
れる。ここでXは第番目の分析フイルタの出
力である。また、フレーム周期は、10〜20ミリ秒
にとられるのが普通である。同じ方法で分析され
た標準音声特徴パラメータ｛ａ｝_=I〜Nは、標
準音声格納部３０に記憶されている。第４図の距
離計算部２１は、これら２つのデータからユーク
リツド距離daxまたは絶対値距離｜dax｜を計算
する。

dax＝_N 〓ⁱ⁼¹ （ａ−ｘ）² ｜dax｜＝_N 〓ⁱ⁼¹ ｜ａ−ｘ｜ ……(4) これらの値は、入力のある時点ｔにおける１フ
レーム｛Ｘ｝に対するある１つの標準パターン
Ａの１フレーム｛ａ｝との距離であるが、連続
DPマツチングを行うためには、入力の１フレー
ム｛Ｘ｝と標準パターンＡのすべてのフレーム
との間の距離の計算が必要であつて、この演算は
高速かつ時分割的に行われる。いま、その演算を
下式で表わすものとする。

ｄ＝｛（dax）^k _j｝，ｊ＝ｌ〜Ｍ ……(5) ここで、ｋは入力のフレーム番号、Ｍは標準音
声Ａの全フレーム数である。入力音声１の各フレ
ーム｛Xi｝^kごとに、上記の距離ｄが計算され、
その結果出力4″が連続DPマツチング部２２に入
力される。この連続DPマツチング部２２は、
｛｛（dax）^k _j｝，ｊ＝ｌ〜Ｍが入力されるごとに、そ
れらの値と、それらの過去の値から連続DPマツ
チング量D_k(A)を算出して、その結果出力4′を次段
の候補抽出部２３に送出する。また、同時にその
最適な整合の入力音声フレーム長L_k(A)も送出す
る。連続DPマツチング量D_k(A)は、上述のよう
に、距離値を基本にしており、ある時点ｔまでの
入力音声と標準音声との非整合度ということがで
きる。

第５図は、入力音声と標準音声との非整合度を
示す図である。

第１図の入力音声に対する標準音声／１／，／
２／，／３／，／７／，／８／との連続DPマツ
チング量Ｄ(1)，Ｄ(2)，Ｄ(3)，Ｄ(7)，Ｄ(8)を示して
いる。第５図では、×−×が／１／、・−・が／
２／、○−○が／３／、▲−▲が／７／、−が／
８／の各連続マツチング量を示し、◎は極小点つ
まり候補点を示している。

候補抽出部２３では、連続DPマツチング量D_k
(A)の極小点を検出し、ここから候補系列の情報
_N＝（Ｎ，Ｄ，Ｓ，Ｅ）を作成する。Ｎが標準音
声の名称Ａであり、非整合度Ｄはこのときの連続
DPマツチング量D_k(A)であり、整合の開始時点Ｓ
はＳ＝ｋ−L_k(A)であり、整合の終了時点ＥはＥ
＝ｋである。これらの候補の情報が次段の候補選
択部４０に送出され、これらの中から正しい答が
最終的に出力される。

第６図は、第３図における候補選択部の詳細ブ
ロツク図である。

第６図に示すように、候補選択部４０は、湧出
し抑止部４１、整合度優先選択部４２および連結
辞書４３に分けられている。湧出し抑止部４１で
は、候補抽出部３０から送出された候補情報４を
候補テーブルに格納し、あらかじめ登録されてい
る連結辞書４３により湧出し候補を検出して、候
補テーブルの中から取り除くことを行う。

第７図は、湧出し抑止処理の動作フローチヤー
トである。

先ず、入力のフレームＸの初期化および更新を
行い（ステツプ51，52）、また標準音声のフレー
ムａ，ｂの初期化および更新を行う（ステツプ
53，54）。次に、フレームａ，ｘ，ｂの連結性を
判別するため、前式(2)を用いてE^A−S^X＞０でか
つE^X−S^B＞０を計算し、成立すれば連結性あり
とする（ステツプ55）。連結性ありのときには、
次にフレームａ，ｘ，ｂが連結辞書に存在するか
否かを判別するため、前式(1)を用いて、Ａ（）＝
N^A，Ｘ（）＝N^X，Ｂ（）＝N^Bのサブセツト
（）を検索する（ステツプ56）。連結辞書にサブ
セツトが存在したときには、フレームａ，ｘ，ｂ
の結合度Ｃ＞θ_cが成立するか否かを判別する（ス
テツプ57）。このときの結合度Ｃは、前式(3)から
求められる。結合度Ｃが閾値θ_cより大であれば、
候補ｘは擬似音声と判断し、候補テーブルからｘ
を除去する（ステツプ58）。以上の処理を全候補
すべてについて繰り返し行うことにより、湧出し
抑止が行われたことになる。

このように、全候補は、湧出しの対象ｘとし
て、式(1)，(2)，(3)を用いて判定される。判定は、
ｘの他に前後の候補ａ，ｂとの３候補の間で行わ
れ、擬似音声と判断された場合には候補テーブル
から取り除かれる。

第６図における整合度優先選択部４２では、時
間的に重複している候補を、整合度により選択す
る。これは、候補を連続DPマツチング量D_k(A)の
極小点から単純に抽出してきたために、多数の候
補が時間的に重なつた状態で存在するからであ
る。

第８図は、整合度優先選択処理の動作フローチ
ヤートである。

先ず、２つの候補ａ，ｂについて、初期化と更
新を行い（ステツプ61〜64）、次にａ，ｂが時間
的に重複しているか否かを判別し、重複していれ
ば次に非整合度Ｄ(a)＞Ｄ(b)が成立するか否かを判
別する（ステツプ65，66）。上式が成立するとき
には、ａを候補テーブルから除去し（ステツプ
67）、上式が不成立のときにはｂを候補テーブル
から除去する（ステツプ68）。

これらの処理を全候補について行い、全部が終
了したならば、ａを答の一部として出力する（ス
テツプ69，70）。

このようにして、選択処理は、２つの候補_A
＝（N^A，D^A，S^A，E^A），_B＝（N^B，D^B，S^B，E^B）
の間で繰り返し行われる。選択の基準となる重複
率を、重複しているフレーム長／短い候補のフレ
ーム長（Ｅ−Ｓ）とし、ある閾値θ₀より大きい場
合にのみ、両者の非整合度を比較して、大きい方
を候補テーブルから除去する。これにより、重複
していない候補列が得られるので、これを認識結
果５として出力する。

なお、本発明は、話者条件（特定／不特定話
者）や認識単位である単位音声の種類（数字／単
語／子音−母音／母音−子音−母音）で制限を受
けることはなく、認識音声の違いによつて連続辞
書を変えれば、全く同じ効果が得られる。また、
実施例では、候補抽出手段として連続DPマツチ
ング方法を用いたが、候補を抽出できるものであ
れば、連続線形マツチングや構造解析的な手法で
も勿論差し支えない。また、湧出し判定では、連
結性や結合度を式(2)および式(3)のように定義した
が、これは一例を示しただけで、他にも種々の定
義がある。特に、結合度に対する閾値θ_cに関して
は、連結辞書のサブセツトごとに変えると効果的
である。さらに、実施例では、音声入力終了後に
湧出し対策を施しているが、入力音声に対して順
次、部分的に区切つて湧出し抑止処理を行うこと
もでき、この場合には無限連続音声の入力が可能
となる。

＜発明の効果＞以上、詳細に説明したように、本発明によれ
ば、連結辞書を用いて連結性の判定を行う湧き出
し抑止手段を設けたことにより、簡単な構成で、
擬似的候補の湧き出しを抑止することが可能な連
続音声認識装置を実現できるという顕著な効果を
奏するものである。

【図面の簡単な説明】

第１図は連続音声認識の説明図、第２図は連結
辞書の一例を示す図、第３図は本発明の実施例を
示す連続音声認識装置のブロツク図、第４図は第
３図の候補抽出部の詳細ブロツク図、第５図は入
力音声と標準音声との非整合度を示す図、第６図
は第３図における候補選択部の詳細ブロツク図、
第７図は本発明の実施例を示す湧出し抑止処理の
動作フローチヤート、第８図は本発明の実施例を
示す整合度優先選択処理の動作フローチヤートで
ある。１０……音響分析部、２０……候補抽出部、３
０……標準音声格納部、４０……候補選択部、２
１……距離計算部、２２……連続DPマツチング
部、２３……候補抽出部、４１……湧出し抑止
部、４２……整合度優先選択部、４３……連結辞
書。

Claims

【特許請求の範囲】１連続発声の入力音声を音響分析して特徴パラ
メータを得る手段と、前記特徴パラメータと予め
用意されている標準単位音声の特徴パラメータと
を比較して、時間軸方向に１個ないし複数個の音
声候補を得る手段、および、前記音声候補の中か
ら選択した候補列を認識結果として出力する選択
手段を有する連続音声認識装置において、前記選
択手段内に、前後の単位音声との音韻的結合によ
り発声する擬似的候補が挿入された３連単位音声
列情報群を記憶する連結辞書を備えるとともに、
前記音声候補の中の３連の音声候補の連結性を判
定し、連結性のあるものについて、前記連結辞書
を用いて当該３連音声候補の各音声候補間の結合
度を判定して擬似的候補を除去する湧き出し抑止
手段を設けたことを特徴とする連続音声認識装
置。２前記湧き出し抑止手段は、前記３連の音声候
補の連結性の判定から擬似的候補を除去するまで
の処理を、入力音声に対して、順次、部分的に区
切つて行う如く構成されたものであることを特徴
とする特許請求の範囲第１項記載の連続音声認識
装置。３前記湧き出し抑止手段は、前記３連の音声候
補の連結性の判定を行う際に、当該３連の音声候
補が互いに時間的に重複しているか否かを調べて
行う如く構成されたものであることを特徴とする
特許請求の範囲第１項または第２項記載の連続音
声認識装置。