JPH0950292A

JPH0950292A - 音声認識装置

Info

Publication number: JPH0950292A
Application number: JP8027428A
Authority: JP
Inventors: Shuji Kubota; 修司久保田
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1995-05-31
Filing date: 1996-01-23
Publication date: 1997-02-18

Abstract

(57)【要約】【課題】辞書作成時における発声長と音声入力時の発声
長に変動がある場合、正確な音声認識ができなくなる。【解決手段】１フレ−ム毎の入力音声信号と音声標準パ
タ−ンの類似度を辞書照合部４で求め、類似度がしきい
値αを超えたときに認識結果候補とする。入力信号中の
音声区間内で各認識結果候補のフレ−ムが他の認識結果
候補のフレ−ムと重なり合っているかを認識結果選択部
７で判断し、フレ−ムが重なり合っていない認識結果候
補はそのまま認識結果として出力する。認識結果候補の
フレ−ムが他の認識結果候補のフレ−ムと重なり合って
いる場合は最も長いフレ−ム長の認識結果候補を認識結
果の第一位とする。

Description

【発明の詳細な説明】【産業上の利用分野】

【０００１】

【発明の属する技術分野】この発明は、マイクロホン，
電話機などの入力端末から入力された音声波に含まれる
情報を抽出して判定する音声認識装置に関するものであ
る。

【０００２】

【従来の技術】連続的に発生された音声の中から特定の
単語を同定し抜き出す音声認識方法としてワ−ドスポッ
ティング法が採用されている。ワ−ドスポッティングの
考え方により連続単語音声の認識を行う方法として連続
ＤＰ（Dynamic Programming)法が採用されている。連続
ＤＰ法では、単語を単位とする場合、各単語の標準パタ
−ンを入力音声の始端から１フレ−ムずつずらしなが
ら、入力音声の部分区間とＤＰマッチングを行い、マッ
チング結果としての距離があるしきい値以下になったと
き、その時点にその標準パタ−ンの単語が存在すると判
定する方法である。

【０００３】このワ−ドスポッティング法で音声認識す
る場合、長い単語の一部がより短い単語に一致する部分
マッチングが生じる。例えば、辞書に「Save」と「Save a
s］の単語が登録してある状況で、「Save as」と音声入
力した場合、認識結果としては「Save as」を期待する
が、音声入力「Save as」の「Save」が辞書の「Save」と
一致するため、「Save」が１位の認識結果になることがあ
る。このような誤認識を避ける音声認識方法が例えば特
開平４−362699号公報や特開平５−127696号公報に開示
されている。

【０００４】特開平４−362699号公報に開示された音声
認識方法は、入力した音声情報と標準パタ−ンの類似度
を求め、類似度に標準パタ−ンの長さに対応じた重みを
付加することにより、単語長の長いものに認識結果が傾
くようにして、同じ音韻列をもつ標準パタ−ンの誤認識
を避けるようにしている。また、特開平５−127696号公
報に開示された音声認識方法は、一次照合では音声入力
と一次照合用の標準パタ−ンとの照合を行い類似度と音
声区間の長さの列を得る。この一次照合によって、多く
の人が発生した音声を全認識対象の標準パタ−ンと照合
し、その結果得られる類似度と音声区間の長さの統計的
な傾向を求め、これを二次照合のための標準パタ−ンと
する。そして、この類似度傾向を示す標準パタ−ンを用
い二次照合して類似度を求めることにより、誤認識を避
けるようにしている。

【０００５】

【発明が解決しようとする課題】しかしながら上記のよ
うに類似度に標準パタ−ンの単語長に対応する重みづけ
を行う方法では辞書の標準パタ−ンを作成するときの発
声長が問題になる。すなわち、辞書を作成するときの発
声長と音声入力のときの発声長に変動がある場合には最
適な重み付けができなくなってしまう。さらに発声変動
により、１位と２位の認識結果が変動する場合もあり、
場合によっては正確な認識結果が得られなくなってしま
う。

【０００６】また、一次照合結果の類似度とその音声区
間の長さの傾向を統計的な量として標準パタ−ンに反映
させて類似度を求める方法は、二次照合のための処理量
が非常に多くなるという短所があった。

【０００７】この発明はかかる短所を解消するためにな
されたものであり、辞書作成時における発声長や音声入
力時の発声長に影響されずに、かつ極めて少ない処理量
で音声入力の誤認識を避けることができる音声認識装置
を得ることを目的とするものである。

【０００８】

【課題を解決するための手段】この発明に係る音声認識
装置は、音声入力手段と特徴抽出手段と辞書照合手段と
認識候補保存手段と音声区間検出手段と認識結果選択手
段及び認識結果出力手段を有し、音声入力手段は音声を
入力し、特徴抽出手段は入力した音声信号を１フレ−ム
毎の特徴ベクトル時系列に変換し、辞書照合手段は１フ
レ−ム毎の特徴ベクトルとあらかじめ登録された音声標
準パタ−ンの類似度を求め、類似度があらかじめ定めた
しきい値αを超えたときに認識結果候補として出力し、
認識候補保存手段は辞書照合手段から出力する認識結果
候補と各認識結果候補毎の類似度及び各認識結果候補毎
の終端位置とフレ−ム長を示すフレ−ム情報を記憶し、
音声区間検出手段は入力信号中の音声区間の始端および
終端を検出し、認識結果選択手段はフレ−ム重なり判定
手段とフレ−ム長比較手段及び類似度判定手段を有し、
フレ−ム重なり判定手段は音声区間検出手段で検出した
同一音声区間内で各認識結果候補のフレ−ムが他の認識
結果候補のフレ−ムと重なり合っているかどうかを判断
し、他の認識結果候補のフレ−ムと重なり合っていない
認識結果候補を認識結果出力手段に送り、他の認識結果
候補のフレ−ムと重なり合っている認識結果候補をフレ
−ム長比較手段に送り、フレ−ム長比較手段はフレ−ム
重なり判定手段でフレ−ムが重なり合ったと判断された
認識結果候補の各フレ−ム長を比較し、互いに重なり合
った認識結果候補のフレ−ム長が異なるときは最も長い
フレ−ム長の認識結果候補を認識結果出力手段に送り、
フレ−ム長に差がない互いに重なり合った認識結果候補
を類似度判定手段に送り、類似度判定手段は送られた認
識結果候補の類似度を比較し、フレ−ム長に差がない認
識結果候補の中から類似度が最大値を示す認識結果候補
を選択して認識結果出力手段に送り、認識結果出力手段
は送られた認識結果候補を認識結果として出力すること
を特徴とする。

【０００９】上記フレ−ム長比較手段はフレ−ム長に差
がない互いに重なり合った認識結果候補のフレ−ム長と
最大フレ−ム長の差があらかじめ定められたしきい値Ｘ
以下のときに、該当する認識結果候補を類似度判定手段
に送ることが望ましい。

【００１０】また、上記認識結果選択手段に後続第１状
態フレ−ム長比較手段を有し、上記フレ−ム重なり判定
手段は音声区間検出手段で検出した同一音声区間内で各
認識結果候補のフレ−ムが他の認識結果候補のフレ−ム
と重なり合っている認識結果候補を後続第１状態フレ−
ム長比較手段に送り、後続第１状態フレ−ム長比較手段
はフレ−ムが重なり合っている認識結果候補の重なりフ
レ−ム長と後続の認識結果候補の第１状態フレ−ム長と
を比較し、重なりフレ−ム長が後続の認識結果候補の第
１状態フレ−ム長以下のときに重なり判定を破棄し、互
いに独立した結果認識候補として認識結果出力手段に送
り、重なりフレ−ム長が後続の認識結果候補の第１状態
フレ−ム長より大きいときに認識結果候補をフレ−ム長
比較手段に送ることが望ましい。

【００１１】

【発明の実施の形態】この発明においては、音声認識装
置に音声入力手段と特徴抽出手段と辞書照合手段と認識
候補保存手段と音声区間検出手段と認識結果選択手段及
び認識結果出力手段を有する。認識結果選択手段にはフ
レ−ム重なり判定手段とフレ−ム長比較手段及び類似度
判定手段を有する。

【００１２】そして音声入力手段で入力した音声を特徴
抽出手段で１フレ−ム毎の特徴ベクトル時系列に変換す
る。この１フレ−ム毎の入力音声信号と音声標準パタ−
ンの類似度を辞書照合手段で求め、類似度があらかじめ
定めたしきい値αを超えたときに認識結果候補とする。
この各認識結果候補と各認識結果候補毎の類似度及び各
認識結果候補毎の終端位置とフレ−ム長を示すフレ−ム
情報を認識候補保存手段に記憶する。一方、入力信号中
の音声区間を音声区間検出手段で検出し、検出した音声
区間内で各認識結果候補のフレ−ムが他の認識結果候補
のフレ−ムと重なり合っているかどうかをフレ−ム重な
り判定手段で判断し、フレ−ムが重なり合っていない認
識結果候補は独立しているのでそのまま認識結果として
認識結果出力手段に出力する。

【００１３】認識結果候補のフレ−ムが他の認識結果候
補のフレ−ムと重なり合っている場合はフレ−ム長比較
手段で重なり合ったフレ−ム長を比較し、重なり合った
フレ−ム長に差があるときは、最も長いフレ−ム長の認
識結果候補を認識結果の第一位として認識結果出力手段
に出力し、部分マッチングによる誤認識を避ける。

【００１４】また、認識結果候補のフレ−ムが他の認識
結果候補のフレ−ムと重なり合い、かつ重なり合ったフ
レ−ム長に差がないときは、類似度判定手段で類似度が
最も高い認識結果候補を認識結果の第一位とする。この
場合、認識結果候補のフレ−ム長が最大フレ−ム長に対
して一定範囲内にはいっているときのみ類似度が最も高
い認識結果候補を認識結果として認識結果出力手段に出
力し、不要音を認識結果として出力することを避ける。

【００１５】さらに、認識結果選択手段に後続第１状態
フレ−ム長比較手段も設け、フレ−ム重なり判定手段で
認識結果候補のフレ−ムが他の認識結果候補のフレ−ム
と重なり合っていると判断したときに、フレ−ムが重な
り合っている認識結果候補の重なりフレ−ム長と後続の
認識結果候補の第１状態フレ−ム長とを後続第１状態フ
レ−ム長比較手段で比較し、重なりフレ−ム長が後続の
認識結果候補の第１状態フレ−ム長以下のときに重なり
判定を破棄し、互いに独立した結果候補として認識結果
出力手段に送り、連続発声による単語境界の母音フレ−
ム共有化が生じたことを明らかにして、連続発声による
単語接続による誤認識を防ぐ。また、重なりフレ−ム長
が後続の認識結果候補の第１状態フレ−ム長より大きい
ときに認識結果候補をフレ−ム長比較手段に送って上記
と同様な処理を行う。

【００１６】

【実施例】図１はこの発明の一実施例の構成を示すブロ
ック図である。図に示すように、連続ＤＰ法を用いた音
声認識装置は、単語辞書１と、例えばマイクロホンから
なり音声を入力する音声入力部２と、特徴抽出部３，辞
書照合部４，認識候補保存部５，音声区間検出部６，認
識結果選択部７及び認識結果出力部８を有する。

【００１７】単語辞書１にはあらかじめ単語の音声標準
パタ−ンが登録されている。特徴抽出部３は音声入力部
２から音声が入力した時点でその都度入力した音声信号
を１フレ−ム毎の特徴ベクトル時系列に変換する。辞書
照合部４は特徴抽出部３で変換された１フレ−ム毎の特
徴ベクトルと単語辞書１に登録された音声標準パタ−ン
の類似度を求め、類似度があらかじめ定めたしきい値α
を超えたときに認識結果候補として出力する。認識候補
保存部５は辞書照合部４から出力する認識結果候補と各
認識結果候補毎の類似度及び各認識結果候補毎の終端位
置とフレ−ム長を示すフレ−ム情報を一時記憶する。音
声区間検出部６は一定のしきい値以上のの値の短時間パ
ワ−が一定時間以上継続したか否かにより入力信号中の
音声区間を検出する。

【００１８】認識結果選択部７は認識候補保存部５に保
存された認識結果候補から認識結果を選択するものであ
り、フレ−ム重なり判定部９とフレ−ム長比較部１０及
び類似度判定部１１を有する。フレ−ム重なり判定部９
は音声区間検出部６で検出した同一音声区間内で各認識
結果候補のフレ−ムが他の認識結果候補のフレ−ムと重
なり合っているかどうかを判断し、他の認識結果候補の
フレ−ムと重なり合っていない認識結果候補を認識結果
出力部８に送り、他の認識結果候補のフレ−ムと重なり
合っている認識結果候補をフレ−ム長比較部１０に送
る。フレ−ム長比較部１０はフレ−ム重なり判定部９で
フレ−ムが重なり合ったと判断された認識結果候補の各
フレ−ム長を比較し、互いに重なり合った認識結果候補
のフレ−ム長が異なるときは、異なるフレ−ム長の中か
ら最も長いフレ−ム長の認識結果候補を選択して認識結
果出力部８に送り、互いに重なり合っているがフレ−ム
長に差がない認識結果候補を類似度判定部１１に送る。
類似度判定部１１は送られた認識結果候補の類似度を比
較し、フレ−ム長に差がない認識結果候補の中から類似
度が最大値を示す認識結果候補を選択して認識結果出力
部８に送る。認識結果出力部８は送られた認識結果候補
を認識結果として出力する。

【００１９】上記のように構成された音声認識装置で音
声入力部２に入力した音声波に含まれる意味内容に関す
る情報を抽出，判定して出力するときの動作を図２の音
声波形図及び図３のフレ−ム重なり状態を示す類似度特
性図を参照して説明する。

【００２０】例えば図２に示すように、音声入力部２か
ら入力された音声入力信号は、入力した各時点で特徴抽
出部３で短時間スペクトル分析され、短時間スペクトル
を表現する特徴ベクトルに変換されたのち辞書照合部４
に送られる。辞書照合部４は送られた特徴ベクトルの各
状態とあらかじめ単語辞書１に登録されている一定の状
態数を持つ各単語毎の状態系列（各状態毎に状態を代表
する特徴ベクトル及び状態の継続時間を記憶したもの）
の各状態とをフレ−ム毎に比較照合し、図３に示すよう
に各状態毎の類似度を求める。そして各状態系列の最終
状態の類似度があらかじめ定められたしきい値αを越え
たときに認識結果候補として出力し結果候補保存部５に
保存し、認識結果候補の情報として類似度，終端位置，
フレ−ム長及び最終状態の継続フレ−ム長を保存する。
なおフレ−ム長は類似度がしきい値αを越えたフレ−ム
から過去にさかのぼってパスを決定することによって求
められる。

【００２１】この辞書照合部４における照合と並行して
音声区間検出部６で音声入力信号内の音声区間の検出が
行われる。音声区間は例えばパワ−情報やゼロクロス等
により検出し、図２に示すように、無音時間が一定の時
間であるしきい値τ以下の場合には音声入力が継続して
いると判断し、無音時間がしきい値τ以上継続した場合
に音声入力が終了したと判断することにより音声区間の
終端を検出する。このしきい値τは音声中の破裂性の子
音の前の無音や促音の無音と発声終了後の無音を区別す
るために、単語内無音区間の最大時間とみなして問題の
ない時間、例えば日本語の場合350msecに設定すればよ
い。このようにして音声区間を検出することにより、図
２に示す入力信号は第１音声区間と第２音声区間の２つ
の音声区間に分離される。

【００２２】音声入力の認識結果候補が認識候補保存部
５の保存され、音声区間を検出したら、認識結果選択部
７のフレ−ム重なり判定部９は同一音声区間内で各認識
結果候補のそれぞれのフレ−ムが重なっているか否を判
断する。例えば図２に示す音声入力信号は第１音声区間
に類似度がしきい値αを越えた認識結果候補は、図３に
示すように、Ｎｏ．１からＮｏ．６までの６候補存在
し、これらの認識結果候補の中で互いにフレ−ムを共有
し、重なっているのはＮｏ．１とＮｏ．２の認識結果候
補及びＮｏ．４とＮｏ．５の認識結果候補であるからＮ
ｏ．１とＮｏ．２の認識結果候補及びＮｏ．４とＮｏ．
５の認識結果候補は重なり合っていると判断し、Ｎｏ．
３とＮｏ．６の認識結果候補は独立しているから重なり
合っていないと判断する。そして、この判断結果によ
り、Ｎｏ．１とＮｏ．２の認識結果候補及びＮｏ．４と
Ｎｏ．５の認識結果候補をフレ−ム長比較部１０に送
り、Ｎｏ．３とＮｏ．６の認識結果候補を認識結果出力
部８に送る。

【００２３】フレ−ム長比較部８はフレ−ム重なり判定
部７からの判断結果が送られると、フレ−ムが重なり合
ったと判断された認識結果候補のフレ−ム長を比較し、
重なり合った認識結果候補のいずれのフレ−ム長が長い
かを判定するする。例えば図３に示す場合にはＮｏ．１
とＮｏ．２の認識結果候補の各フレ−ム長を比較し、Ｎ
ｏ．４とＮｏ．５の認識結果候補の各フレ−ム長を比較
する。Ｎｏ．１とＮｏ．２の認識結果候補を比較した結
果、図３に示すによりＮｏ．２の認識結果候補のフレ−
ム長がＮｏ．１の認識結果候補のフレ−ム長より長いの
でＮｏ．２の認識結果候補を認識結果出力部８に送る。
このように重なり合ったフレ−ム長に差があるときは、
最も長いフレ−ム長の認識結果候補を認識結果の第一位
として部分マッチングによる誤認識を避ける。

【００２４】また、フレ−ム長比較部８はフレ−ムが重
なり合ったと判断された認識結果候補のフレ−ム長を比
較した結果、図３のＮｏ．４とＮｏ．５の認識結果候補
のように重なり合った認識結果候補のフレ−ム長に差が
ない場合はその認識結果候補を類似度判定部１１に送
る。類似度判定部１１は送られた各認識結果候補の類似
度を比較し、類似度の最も高い認識結果候補、図３の場
合にはＮｏ．５の認識結果候補を選択して認識結果出力
部８に送る。このように重なり合ったフレ−ム長に差が
ないときは、類似度が最も高い認識結果候補を選択する
ことにより、誤認識が生じる可能性を低減する。

【００２５】認識結果出力部８は認識結果選択部７から
送られた認識結果候補、図３の場合はＮｏ，２の認識結
果候補とＮｏ，３の認識結果候補とＮｏ，５の認識結果
候補及びＮｏ，６の認識結果候補を認識結果として出力
する。

【００２６】なお、上記実施例は重なり合った認識結果
候補のフレ−ム長に差がない場合に、該当する認識結果
候補を直ちに類似度判定部１１に送り類似度を比較して
類似度が最も高い認識結果候補を選択した場合について
説明したが、互いに重なり合った認識結果候補のフレ−
ム長に差がないときに、フレ−ム長比較部１０でフレ−
ム長に差がない互いに重なり合った認識結果候補のフレ
−ム長と最大フレ−ム長とを比較し、重なり合った認識
結果候補のフレ−ム長と最大フレ−ム長の差があらかじ
め定められたしきい値Ｘ以下、すなわち認識結果候補の
フレ−ム長が最大フレ−ム長に対して一定範囲内にはい
っているときのみ、該当する認識結果候補を類似度判定
部１１に送り、類似度が最も高い認識結果候補を認識結
果として出力するようにしても良い。このように最大フ
レ−ム長の差が一定範囲にはいっている認識結果候補を
認識結果として出力することにより、不要音を認識結果
として出力することを避けることができる。

【００２７】なお、上記実施例においては、類似度がし
きい値αを超える認識結果候補のフレ−ム長とフレ−ム
の重なりを判定しているが、連続発声では、母音が連続
したときに母音の境界がなくなってしまう。例えば図４
に示すように、「ファイル・上書き」と連続発声したと
きに、単語辞書１に「ファイル」と「上書き」が存在す
る場合、「ファイル」と「上書き」の音声入力信号は、
共に類似度がしきい値αを超え認識結果候補として選択
される。これらの単語発声境界では母音が「う」を共有
するので、それぞれの結果フレ−ム長が重なり合う結果
になる。このようなときに、フレ−ム長の差があらかじ
め定めたしきい値Ｘ以上の場合には、無条件にフレ−ム
長の長い候補が選択されてしまう。

【００２８】このように連続発声で母音が連続したとき
に母音の境界がなくなってしまうときの誤認識を防ぐた
め、図５のブロック図に示すように、認識結果選択部７
のフレ−ム重なり判定部９とフレ−ム長比較部１０の間
に後続第１状態フレ−ム長比較部１２を設ければ良い。

【００２９】この場合は、フレ−ム重なり判定部９で認
識結果候補のフレ−ムが他の認識結果候補のフレ−ムと
重なり合っていると判断したとき、フレ−ムが重なり合
っている認識結果候補を後続第１状態フレ−ム長比較部
１２に送る。後続第１状態フレ−ム長比較部１２はフレ
−ムが重なり合っている認識結果候補の重なりフレ−ム
長と後続の認識結果候補の第１状態フレ−ム長とを比較
する。例えば図４に示すように、共に類似度がしきい値
αを超えた「ファイル」と「上書き」の音声入力信号の
重なり合った母音「う」の重なりフレ−ム長Ｌと後続の
「上書き」の「う」に該当する第１状態フレ−ム長Ｊ１
とを比較し、Ｌ≦Ｊ１のときに、重なり判定を破棄し、
互いに独立した結果認識候補として認識結果出力部８に
送る。このようにして、連続発声による単語境界の母音
フレ−ム共有化が生じたことを明らかにして、連続発声
による単語接続による誤認識を防ぐことができる。ま
た、重なりフレ−ム長Ｌが後続の認識結果候補の第１状
態フレ−ム長Ｊ１より大きいときに認識結果候補をフレ
−ム長比較部１０に送って上記と同様な通常の処理を行
う。

【００３０】

【発明の効果】この発明は以上説明したように、１フレ
−ム毎の入力音声信号と音声標準パタ−ンの類似度を求
め、類似度があらかじめ定めたしきい値αを超えたとき
に認識結果候補とし、同一音声区間内で各認識結果候補
のフレ−ムが他の認識結果候補のフレ−ムと重なり合っ
ているかどうかを判断し、フレ−ムが重なり合っていな
い認識結果候補は独立しているのでそのまま認識結果と
して出力し、認識結果候補のフレ−ムが他の認識結果候
補のフレ−ムと重なり合っている場合は重なり合ったフ
レ−ム長を比較し、重なり合ったフレ−ム長に差がある
ときは、最も長いフレ−ム長の認識結果候補を認識結果
の第一位として出力し、重なり合ったフレ−ム長に差が
ないときは、類似度が最も高い認識結果候補を認識結果
の第一位ととして出力するようにしたから、辞書作成時
における発声長や認識時の発声長に左右されずに、かつ
極めて少ない処理量で部分マッチングによる誤認識を避
けることができる。

【００３１】また、重なり合った認識結果候補のフレ−
ム長に差がない場合に、その認識結果候補のフレ−ム長
が最大フレ−ム長に対して一定範囲内にはいっていると
きのみ類似度を不比較して、類似度が最も高い認識結果
候補を認識結果として出力することにより、不要音を認
識結果として出力することを避けることができる。

【００３２】さらに、認識結果候補のフレ−ムが他の認
識結果候補のフレ−ムと重なり合っていると判断したと
きに、フレ−ムが重なり合っている認識結果候補の重な
りフレ−ム長と後続の認識結果候補の第１状態フレ−ム
長とを比較し、重なりフレ−ム長が後続の認識結果候補
の第１状態フレ−ム長以下のときに、重なり判定を破棄
し、互いに独立した結果認識候補とすることにより、極
めて少ない処理量で連続発声による単語境界の母音フレ
−ム共有化が生じたことを明らかにして、連続発声によ
る単語接続による誤認識を防ぐことができる。

【図面の簡単な説明】

【図１】この発明の実施例の構成を示すブロック図であ
る。

【図２】上記実施例の動作を示す音声波形図である。

【図３】上記実施例の動作を示す類似度特性図である。

【図４】連続発声における母音フレ−ムが共有化した場
合を示す音声波形図である。

【図５】他の実施例の構成を示すブロック図である。

【符号の説明】

１単語辞書２音声入力部３特徴抽出部４辞書照合部５認識候補保存部６音声区間検出部７認識結果選択部８認識結果出力部９フレ−ム重なり判定部１０フレ−ム長比較部１１類似度判定部１２後続第１状態フレ−ム長比較部

Claims

【特許請求の範囲】

【請求項１】音声入力手段と特徴抽出手段と辞書照合
手段と認識候補保存手段と音声区間検出手段と認識結果
選択手段及び認識結果出力手段を有し、音声入力手段は音声を入力し、特徴抽出手段は入力した
音声信号を１フレ−ム毎の特徴ベクトル時系列に変換
し、辞書照合手段は１フレ−ム毎の特徴ベクトルとあら
かじめ登録された音声標準パタ−ンの類似度を求め、類
似度があらかじめ定めたしきい値αを超えたときに認識
結果候補として出力し、認識候補保存手段は辞書照合手
段から出力する認識結果候補と各認識結果候補毎の類似
度及び各認識結果候補毎の終端位置とフレ−ム長を示す
フレ−ム情報を記憶し、音声区間検出手段は入力信号中
の音声区間の始端および終端を検出し、認識結果選択手段はフレ−ム重なり判定手段とフレ−ム
長比較手段及び類似度判定手段を有し、フレ−ム重なり判定手段は音声区間検出手段で検出した
同一音声区間内で各認識結果候補のフレ−ムが他の認識
結果候補のフレ−ムと重なり合っているかどうかを判断
し、他の認識結果候補のフレ−ムと重なり合っていない
認識結果候補を認識結果出力手段に送り、他の認識結果
候補のフレ−ムと重なり合っている認識結果候補をフレ
−ム長比較手段に送り、フレ−ム長比較手段はフレ−ム重なり判定手段でフレ−
ムが重なり合ったと判断された認識結果候補の各フレ−
ム長を比較し、互いに重なり合った認識結果候補のフレ
−ム長が異なるときは最も長いフレ−ム長の認識結果候
補を認識結果出力手段に送り、フレ−ム長に差がない互
いに重なり合った認識結果候補を類似度判定手段に送
り、類似度判定手段は送られた認識結果候補の類似度を比較
し、フレ−ム長に差がない認識結果候補の中から類似度
が最大値を示す認識結果候補を選択して認識結果出力手
段に送り、認識結果出力手段は送られた認識結果候補を認識結果と
して出力することを特徴とする音声認識装置。
【請求項２】上記フレ−ム長比較手段はフレ−ム長に
差がない互いに重なり合った認識結果候補のフレ−ム長
と最大フレ−ム長の差があらかじめ定められたしきい値
Ｘ以下のときに、該当する認識結果候補を類似度判定手
段に送る請求項１記載の音声認識装置。
【請求項３】上記認識結果選択手段に後続第１状態フ
レ−ム長比較手段を有し、上記フレ−ム重なり判定手段
は音声区間検出手段で検出した同一音声区間内で各認識
結果候補のフレ−ムが他の認識結果候補のフレ−ムと重
なり合っている認識結果候補を後続第１状態フレ−ム長
比較手段に送り、後続第１状態フレ−ム長比較手段はフ
レ−ムが重なり合っている認識結果候補の重なりフレ−
ム長と後続の認識結果候補の第１状態フレ−ム長とを比
較し、重なりフレ−ム長が後続の認識結果候補の第１状
態フレ−ム長以下のときに重なり判定を破棄し、互いに
独立した結果認識候補として認識結果出力手段に送り、
重なりフレ−ム長が後続の認識結果候補の第１状態フレ
−ム長より大きいときに認識結果候補をフレ−ム長比較
手段に送る請求項２記載の音声認識装置。