JPH0950292A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH0950292A
JPH0950292A JP8027428A JP2742896A JPH0950292A JP H0950292 A JPH0950292 A JP H0950292A JP 8027428 A JP8027428 A JP 8027428A JP 2742896 A JP2742896 A JP 2742896A JP H0950292 A JPH0950292 A JP H0950292A
Authority
JP
Japan
Prior art keywords
recognition result
frame
candidate
frame length
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8027428A
Other languages
English (en)
Inventor
Shuji Kubota
修司 久保田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP8027428A priority Critical patent/JPH0950292A/ja
Publication of JPH0950292A publication Critical patent/JPH0950292A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】辞書作成時における発声長と音声入力時の発声
長に変動がある場合、正確な音声認識ができなくなる。 【解決手段】1フレ−ム毎の入力音声信号と音声標準パ
タ−ンの類似度を辞書照合部4で求め、類似度がしきい
値αを超えたときに認識結果候補とする。入力信号中の
音声区間内で各認識結果候補のフレ−ムが他の認識結果
候補のフレ−ムと重なり合っているかを認識結果選択部
7で判断し、フレ−ムが重なり合っていない認識結果候
補はそのまま認識結果として出力する。認識結果候補の
フレ−ムが他の認識結果候補のフレ−ムと重なり合って
いる場合は最も長いフレ−ム長の認識結果候補を認識結
果の第一位とする。

Description

【発明の詳細な説明】 【産業上の利用分野】
【0001】
【発明の属する技術分野】この発明は、マイクロホン,
電話機などの入力端末から入力された音声波に含まれる
情報を抽出して判定する音声認識装置に関するものであ
る。
【0002】
【従来の技術】連続的に発生された音声の中から特定の
単語を同定し抜き出す音声認識方法としてワ−ドスポッ
ティング法が採用されている。ワ−ドスポッティングの
考え方により連続単語音声の認識を行う方法として連続
DP(Dynamic Programming)法が採用されている。連続
DP法では、単語を単位とする場合、各単語の標準パタ
−ンを入力音声の始端から1フレ−ムずつずらしなが
ら、入力音声の部分区間とDPマッチングを行い、マッ
チング結果としての距離があるしきい値以下になったと
き、その時点にその標準パタ−ンの単語が存在すると判
定する方法である。
【0003】このワ−ドスポッティング法で音声認識す
る場合、長い単語の一部がより短い単語に一致する部分
マッチングが生じる。例えば、辞書に「Save」と「Save a
s]の単語が登録してある状況で、「Save as」と音声入
力した場合、認識結果としては「Save as」を期待する
が、音声入力「Save as」の「Save」が辞書の「Save」と
一致するため、「Save」が1位の認識結果になることがあ
る。このような誤認識を避ける音声認識方法が例えば特
開平4−362699号公報や特開平5−127696号公報に開示
されている。
【0004】特開平4−362699号公報に開示された音声
認識方法は、入力した音声情報と標準パタ−ンの類似度
を求め、類似度に標準パタ−ンの長さに対応じた重みを
付加することにより、単語長の長いものに認識結果が傾
くようにして、同じ音韻列をもつ標準パタ−ンの誤認識
を避けるようにしている。また、特開平5−127696号公
報に開示された音声認識方法は、一次照合では音声入力
と一次照合用の標準パタ−ンとの照合を行い類似度と音
声区間の長さの列を得る。この一次照合によって、多く
の人が発生した音声を全認識対象の標準パタ−ンと照合
し、その結果得られる類似度と音声区間の長さの統計的
な傾向を求め、これを二次照合のための標準パタ−ンと
する。そして、この類似度傾向を示す標準パタ−ンを用
い二次照合して類似度を求めることにより、誤認識を避
けるようにしている。
【0005】
【発明が解決しようとする課題】しかしながら上記のよ
うに類似度に標準パタ−ンの単語長に対応する重みづけ
を行う方法では辞書の標準パタ−ンを作成するときの発
声長が問題になる。すなわち、辞書を作成するときの発
声長と音声入力のときの発声長に変動がある場合には最
適な重み付けができなくなってしまう。さらに発声変動
により、1位と2位の認識結果が変動する場合もあり、
場合によっては正確な認識結果が得られなくなってしま
う。
【0006】また、一次照合結果の類似度とその音声区
間の長さの傾向を統計的な量として標準パタ−ンに反映
させて類似度を求める方法は、二次照合のための処理量
が非常に多くなるという短所があった。
【0007】この発明はかかる短所を解消するためにな
されたものであり、辞書作成時における発声長や音声入
力時の発声長に影響されずに、かつ極めて少ない処理量
で音声入力の誤認識を避けることができる音声認識装置
を得ることを目的とするものである。
【0008】
【課題を解決するための手段】この発明に係る音声認識
装置は、音声入力手段と特徴抽出手段と辞書照合手段と
認識候補保存手段と音声区間検出手段と認識結果選択手
段及び認識結果出力手段を有し、音声入力手段は音声を
入力し、特徴抽出手段は入力した音声信号を1フレ−ム
毎の特徴ベクトル時系列に変換し、辞書照合手段は1フ
レ−ム毎の特徴ベクトルとあらかじめ登録された音声標
準パタ−ンの類似度を求め、類似度があらかじめ定めた
しきい値αを超えたときに認識結果候補として出力し、
認識候補保存手段は辞書照合手段から出力する認識結果
候補と各認識結果候補毎の類似度及び各認識結果候補毎
の終端位置とフレ−ム長を示すフレ−ム情報を記憶し、
音声区間検出手段は入力信号中の音声区間の始端および
終端を検出し、認識結果選択手段はフレ−ム重なり判定
手段とフレ−ム長比較手段及び類似度判定手段を有し、
フレ−ム重なり判定手段は音声区間検出手段で検出した
同一音声区間内で各認識結果候補のフレ−ムが他の認識
結果候補のフレ−ムと重なり合っているかどうかを判断
し、他の認識結果候補のフレ−ムと重なり合っていない
認識結果候補を認識結果出力手段に送り、他の認識結果
候補のフレ−ムと重なり合っている認識結果候補をフレ
−ム長比較手段に送り、フレ−ム長比較手段はフレ−ム
重なり判定手段でフレ−ムが重なり合ったと判断された
認識結果候補の各フレ−ム長を比較し、互いに重なり合
った認識結果候補のフレ−ム長が異なるときは最も長い
フレ−ム長の認識結果候補を認識結果出力手段に送り、
フレ−ム長に差がない互いに重なり合った認識結果候補
を類似度判定手段に送り、類似度判定手段は送られた認
識結果候補の類似度を比較し、フレ−ム長に差がない認
識結果候補の中から類似度が最大値を示す認識結果候補
を選択して認識結果出力手段に送り、認識結果出力手段
は送られた認識結果候補を認識結果として出力すること
を特徴とする。
【0009】上記フレ−ム長比較手段はフレ−ム長に差
がない互いに重なり合った認識結果候補のフレ−ム長と
最大フレ−ム長の差があらかじめ定められたしきい値X
以下のときに、該当する認識結果候補を類似度判定手段
に送ることが望ましい。
【0010】また、上記認識結果選択手段に後続第1状
態フレ−ム長比較手段を有し、上記フレ−ム重なり判定
手段は音声区間検出手段で検出した同一音声区間内で各
認識結果候補のフレ−ムが他の認識結果候補のフレ−ム
と重なり合っている認識結果候補を後続第1状態フレ−
ム長比較手段に送り、後続第1状態フレ−ム長比較手段
はフレ−ムが重なり合っている認識結果候補の重なりフ
レ−ム長と後続の認識結果候補の第1状態フレ−ム長と
を比較し、重なりフレ−ム長が後続の認識結果候補の第
1状態フレ−ム長以下のときに重なり判定を破棄し、互
いに独立した結果認識候補として認識結果出力手段に送
り、重なりフレ−ム長が後続の認識結果候補の第1状態
フレ−ム長より大きいときに認識結果候補をフレ−ム長
比較手段に送ることが望ましい。
【0011】
【発明の実施の形態】この発明においては、音声認識装
置に音声入力手段と特徴抽出手段と辞書照合手段と認識
候補保存手段と音声区間検出手段と認識結果選択手段及
び認識結果出力手段を有する。認識結果選択手段にはフ
レ−ム重なり判定手段とフレ−ム長比較手段及び類似度
判定手段を有する。
【0012】そして音声入力手段で入力した音声を特徴
抽出手段で1フレ−ム毎の特徴ベクトル時系列に変換す
る。この1フレ−ム毎の入力音声信号と音声標準パタ−
ンの類似度を辞書照合手段で求め、類似度があらかじめ
定めたしきい値αを超えたときに認識結果候補とする。
この各認識結果候補と各認識結果候補毎の類似度及び各
認識結果候補毎の終端位置とフレ−ム長を示すフレ−ム
情報を認識候補保存手段に記憶する。一方、入力信号中
の音声区間を音声区間検出手段で検出し、検出した音声
区間内で各認識結果候補のフレ−ムが他の認識結果候補
のフレ−ムと重なり合っているかどうかをフレ−ム重な
り判定手段で判断し、フレ−ムが重なり合っていない認
識結果候補は独立しているのでそのまま認識結果として
認識結果出力手段に出力する。
【0013】認識結果候補のフレ−ムが他の認識結果候
補のフレ−ムと重なり合っている場合はフレ−ム長比較
手段で重なり合ったフレ−ム長を比較し、重なり合った
フレ−ム長に差があるときは、最も長いフレ−ム長の認
識結果候補を認識結果の第一位として認識結果出力手段
に出力し、部分マッチングによる誤認識を避ける。
【0014】また、認識結果候補のフレ−ムが他の認識
結果候補のフレ−ムと重なり合い、かつ重なり合ったフ
レ−ム長に差がないときは、類似度判定手段で類似度が
最も高い認識結果候補を認識結果の第一位とする。この
場合、認識結果候補のフレ−ム長が最大フレ−ム長に対
して一定範囲内にはいっているときのみ類似度が最も高
い認識結果候補を認識結果として認識結果出力手段に出
力し、不要音を認識結果として出力することを避ける。
【0015】さらに、認識結果選択手段に後続第1状態
フレ−ム長比較手段も設け、フレ−ム重なり判定手段で
認識結果候補のフレ−ムが他の認識結果候補のフレ−ム
と重なり合っていると判断したときに、フレ−ムが重な
り合っている認識結果候補の重なりフレ−ム長と後続の
認識結果候補の第1状態フレ−ム長とを後続第1状態フ
レ−ム長比較手段で比較し、重なりフレ−ム長が後続の
認識結果候補の第1状態フレ−ム長以下のときに重なり
判定を破棄し、互いに独立した結果候補として認識結果
出力手段に送り、連続発声による単語境界の母音フレ−
ム共有化が生じたことを明らかにして、連続発声による
単語接続による誤認識を防ぐ。また、重なりフレ−ム長
が後続の認識結果候補の第1状態フレ−ム長より大きい
ときに認識結果候補をフレ−ム長比較手段に送って上記
と同様な処理を行う。
【0016】
【実施例】図1はこの発明の一実施例の構成を示すブロ
ック図である。図に示すように、連続DP法を用いた音
声認識装置は、単語辞書1と、例えばマイクロホンから
なり音声を入力する音声入力部2と、特徴抽出部3,辞
書照合部4,認識候補保存部5,音声区間検出部6,認
識結果選択部7及び認識結果出力部8を有する。
【0017】単語辞書1にはあらかじめ単語の音声標準
パタ−ンが登録されている。特徴抽出部3は音声入力部
2から音声が入力した時点でその都度入力した音声信号
を1フレ−ム毎の特徴ベクトル時系列に変換する。辞書
照合部4は特徴抽出部3で変換された1フレ−ム毎の特
徴ベクトルと単語辞書1に登録された音声標準パタ−ン
の類似度を求め、類似度があらかじめ定めたしきい値α
を超えたときに認識結果候補として出力する。認識候補
保存部5は辞書照合部4から出力する認識結果候補と各
認識結果候補毎の類似度及び各認識結果候補毎の終端位
置とフレ−ム長を示すフレ−ム情報を一時記憶する。音
声区間検出部6は一定のしきい値以上のの値の短時間パ
ワ−が一定時間以上継続したか否かにより入力信号中の
音声区間を検出する。
【0018】認識結果選択部7は認識候補保存部5に保
存された認識結果候補から認識結果を選択するものであ
り、フレ−ム重なり判定部9とフレ−ム長比較部10及
び類似度判定部11を有する。フレ−ム重なり判定部9
は音声区間検出部6で検出した同一音声区間内で各認識
結果候補のフレ−ムが他の認識結果候補のフレ−ムと重
なり合っているかどうかを判断し、他の認識結果候補の
フレ−ムと重なり合っていない認識結果候補を認識結果
出力部8に送り、他の認識結果候補のフレ−ムと重なり
合っている認識結果候補をフレ−ム長比較部10に送
る。フレ−ム長比較部10はフレ−ム重なり判定部9で
フレ−ムが重なり合ったと判断された認識結果候補の各
フレ−ム長を比較し、互いに重なり合った認識結果候補
のフレ−ム長が異なるときは、異なるフレ−ム長の中か
ら最も長いフレ−ム長の認識結果候補を選択して認識結
果出力部8に送り、互いに重なり合っているがフレ−ム
長に差がない認識結果候補を類似度判定部11に送る。
類似度判定部11は送られた認識結果候補の類似度を比
較し、フレ−ム長に差がない認識結果候補の中から類似
度が最大値を示す認識結果候補を選択して認識結果出力
部8に送る。認識結果出力部8は送られた認識結果候補
を認識結果として出力する。
【0019】上記のように構成された音声認識装置で音
声入力部2に入力した音声波に含まれる意味内容に関す
る情報を抽出,判定して出力するときの動作を図2の音
声波形図及び図3のフレ−ム重なり状態を示す類似度特
性図を参照して説明する。
【0020】例えば図2に示すように、音声入力部2か
ら入力された音声入力信号は、入力した各時点で特徴抽
出部3で短時間スペクトル分析され、短時間スペクトル
を表現する特徴ベクトルに変換されたのち辞書照合部4
に送られる。辞書照合部4は送られた特徴ベクトルの各
状態とあらかじめ単語辞書1に登録されている一定の状
態数を持つ各単語毎の状態系列(各状態毎に状態を代表
する特徴ベクトル及び状態の継続時間を記憶したもの)
の各状態とをフレ−ム毎に比較照合し、図3に示すよう
に各状態毎の類似度を求める。そして各状態系列の最終
状態の類似度があらかじめ定められたしきい値αを越え
たときに認識結果候補として出力し結果候補保存部5に
保存し、認識結果候補の情報として類似度,終端位置,
フレ−ム長及び最終状態の継続フレ−ム長を保存する。
なおフレ−ム長は類似度がしきい値αを越えたフレ−ム
から過去にさかのぼってパスを決定することによって求
められる。
【0021】この辞書照合部4における照合と並行して
音声区間検出部6で音声入力信号内の音声区間の検出が
行われる。音声区間は例えばパワ−情報やゼロクロス等
により検出し、図2に示すように、無音時間が一定の時
間であるしきい値τ以下の場合には音声入力が継続して
いると判断し、無音時間がしきい値τ以上継続した場合
に音声入力が終了したと判断することにより音声区間の
終端を検出する。このしきい値τは音声中の破裂性の子
音の前の無音や促音の無音と発声終了後の無音を区別す
るために、単語内無音区間の最大時間とみなして問題の
ない時間、例えば日本語の場合350msecに設定すればよ
い。このようにして音声区間を検出することにより、図
2に示す入力信号は第1音声区間と第2音声区間の2つ
の音声区間に分離される。
【0022】音声入力の認識結果候補が認識候補保存部
5の保存され、音声区間を検出したら、認識結果選択部
7のフレ−ム重なり判定部9は同一音声区間内で各認識
結果候補のそれぞれのフレ−ムが重なっているか否を判
断する。例えば図2に示す音声入力信号は第1音声区間
に類似度がしきい値αを越えた認識結果候補は、図3に
示すように、No.1からNo.6までの6候補存在
し、これらの認識結果候補の中で互いにフレ−ムを共有
し、重なっているのはNo.1とNo.2の認識結果候
補及びNo.4とNo.5の認識結果候補であるからN
o.1とNo.2の認識結果候補及びNo.4とNo.
5の認識結果候補は重なり合っていると判断し、No.
3とNo.6の認識結果候補は独立しているから重なり
合っていないと判断する。そして、この判断結果によ
り、No.1とNo.2の認識結果候補及びNo.4と
No.5の認識結果候補をフレ−ム長比較部10に送
り、No.3とNo.6の認識結果候補を認識結果出力
部8に送る。
【0023】フレ−ム長比較部8はフレ−ム重なり判定
部7からの判断結果が送られると、フレ−ムが重なり合
ったと判断された認識結果候補のフレ−ム長を比較し、
重なり合った認識結果候補のいずれのフレ−ム長が長い
かを判定するする。例えば図3に示す場合にはNo.1
とNo.2の認識結果候補の各フレ−ム長を比較し、N
o.4とNo.5の認識結果候補の各フレ−ム長を比較
する。No.1とNo.2の認識結果候補を比較した結
果、図3に示すによりNo.2の認識結果候補のフレ−
ム長がNo.1の認識結果候補のフレ−ム長より長いの
でNo.2の認識結果候補を認識結果出力部8に送る。
このように重なり合ったフレ−ム長に差があるときは、
最も長いフレ−ム長の認識結果候補を認識結果の第一位
として部分マッチングによる誤認識を避ける。
【0024】また、フレ−ム長比較部8はフレ−ムが重
なり合ったと判断された認識結果候補のフレ−ム長を比
較した結果、図3のNo.4とNo.5の認識結果候補
のように重なり合った認識結果候補のフレ−ム長に差が
ない場合はその認識結果候補を類似度判定部11に送
る。類似度判定部11は送られた各認識結果候補の類似
度を比較し、類似度の最も高い認識結果候補、図3の場
合にはNo.5の認識結果候補を選択して認識結果出力
部8に送る。このように重なり合ったフレ−ム長に差が
ないときは、類似度が最も高い認識結果候補を選択する
ことにより、誤認識が生じる可能性を低減する。
【0025】認識結果出力部8は認識結果選択部7から
送られた認識結果候補、図3の場合はNo,2の認識結
果候補とNo,3の認識結果候補とNo,5の認識結果
候補及びNo,6の認識結果候補を認識結果として出力
する。
【0026】なお、上記実施例は重なり合った認識結果
候補のフレ−ム長に差がない場合に、該当する認識結果
候補を直ちに類似度判定部11に送り類似度を比較して
類似度が最も高い認識結果候補を選択した場合について
説明したが、互いに重なり合った認識結果候補のフレ−
ム長に差がないときに、フレ−ム長比較部10でフレ−
ム長に差がない互いに重なり合った認識結果候補のフレ
−ム長と最大フレ−ム長とを比較し、重なり合った認識
結果候補のフレ−ム長と最大フレ−ム長の差があらかじ
め定められたしきい値X以下、すなわち認識結果候補の
フレ−ム長が最大フレ−ム長に対して一定範囲内にはい
っているときのみ、該当する認識結果候補を類似度判定
部11に送り、類似度が最も高い認識結果候補を認識結
果として出力するようにしても良い。このように最大フ
レ−ム長の差が一定範囲にはいっている認識結果候補を
認識結果として出力することにより、不要音を認識結果
として出力することを避けることができる。
【0027】なお、上記実施例においては、類似度がし
きい値αを超える認識結果候補のフレ−ム長とフレ−ム
の重なりを判定しているが、連続発声では、母音が連続
したときに母音の境界がなくなってしまう。例えば図4
に示すように、「ファイル・上書き」と連続発声したと
きに、単語辞書1に「ファイル」と「上書き」が存在す
る場合、「ファイル」と「上書き」の音声入力信号は、
共に類似度がしきい値αを超え認識結果候補として選択
される。これらの単語発声境界では母音が「う」を共有
するので、それぞれの結果フレ−ム長が重なり合う結果
になる。このようなときに、フレ−ム長の差があらかじ
め定めたしきい値X以上の場合には、無条件にフレ−ム
長の長い候補が選択されてしまう。
【0028】このように連続発声で母音が連続したとき
に母音の境界がなくなってしまうときの誤認識を防ぐた
め、図5のブロック図に示すように、認識結果選択部7
のフレ−ム重なり判定部9とフレ−ム長比較部10の間
に後続第1状態フレ−ム長比較部12を設ければ良い。
【0029】この場合は、フレ−ム重なり判定部9で認
識結果候補のフレ−ムが他の認識結果候補のフレ−ムと
重なり合っていると判断したとき、フレ−ムが重なり合
っている認識結果候補を後続第1状態フレ−ム長比較部
12に送る。後続第1状態フレ−ム長比較部12はフレ
−ムが重なり合っている認識結果候補の重なりフレ−ム
長と後続の認識結果候補の第1状態フレ−ム長とを比較
する。例えば図4に示すように、共に類似度がしきい値
αを超えた「ファイル」と「上書き」の音声入力信号の
重なり合った母音「う」の重なりフレ−ム長Lと後続の
「上書き」の「う」に該当する第1状態フレ−ム長J1
とを比較し、L≦J1のときに、重なり判定を破棄し、
互いに独立した結果認識候補として認識結果出力部8に
送る。このようにして、連続発声による単語境界の母音
フレ−ム共有化が生じたことを明らかにして、連続発声
による単語接続による誤認識を防ぐことができる。ま
た、重なりフレ−ム長Lが後続の認識結果候補の第1状
態フレ−ム長J1より大きいときに認識結果候補をフレ
−ム長比較部10に送って上記と同様な通常の処理を行
う。
【0030】
【発明の効果】この発明は以上説明したように、1フレ
−ム毎の入力音声信号と音声標準パタ−ンの類似度を求
め、類似度があらかじめ定めたしきい値αを超えたとき
に認識結果候補とし、同一音声区間内で各認識結果候補
のフレ−ムが他の認識結果候補のフレ−ムと重なり合っ
ているかどうかを判断し、フレ−ムが重なり合っていな
い認識結果候補は独立しているのでそのまま認識結果と
して出力し、認識結果候補のフレ−ムが他の認識結果候
補のフレ−ムと重なり合っている場合は重なり合ったフ
レ−ム長を比較し、重なり合ったフレ−ム長に差がある
ときは、最も長いフレ−ム長の認識結果候補を認識結果
の第一位として出力し、重なり合ったフレ−ム長に差が
ないときは、類似度が最も高い認識結果候補を認識結果
の第一位ととして出力するようにしたから、辞書作成時
における発声長や認識時の発声長に左右されずに、かつ
極めて少ない処理量で部分マッチングによる誤認識を避
けることができる。
【0031】また、重なり合った認識結果候補のフレ−
ム長に差がない場合に、その認識結果候補のフレ−ム長
が最大フレ−ム長に対して一定範囲内にはいっていると
きのみ類似度を不比較して、類似度が最も高い認識結果
候補を認識結果として出力することにより、不要音を認
識結果として出力することを避けることができる。
【0032】さらに、認識結果候補のフレ−ムが他の認
識結果候補のフレ−ムと重なり合っていると判断したと
きに、フレ−ムが重なり合っている認識結果候補の重な
りフレ−ム長と後続の認識結果候補の第1状態フレ−ム
長とを比較し、重なりフレ−ム長が後続の認識結果候補
の第1状態フレ−ム長以下のときに、重なり判定を破棄
し、互いに独立した結果認識候補とすることにより、極
めて少ない処理量で連続発声による単語境界の母音フレ
−ム共有化が生じたことを明らかにして、連続発声によ
る単語接続による誤認識を防ぐことができる。
【図面の簡単な説明】
【図1】この発明の実施例の構成を示すブロック図であ
る。
【図2】上記実施例の動作を示す音声波形図である。
【図3】上記実施例の動作を示す類似度特性図である。
【図4】連続発声における母音フレ−ムが共有化した場
合を示す音声波形図である。
【図5】他の実施例の構成を示すブロック図である。
【符号の説明】
1 単語辞書 2 音声入力部 3 特徴抽出部 4 辞書照合部 5 認識候補保存部 6 音声区間検出部 7 認識結果選択部 8 認識結果出力部 9 フレ−ム重なり判定部 10 フレ−ム長比較部 11 類似度判定部 12 後続第1状態フレ−ム長比較部

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 音声入力手段と特徴抽出手段と辞書照合
    手段と認識候補保存手段と音声区間検出手段と認識結果
    選択手段及び認識結果出力手段を有し、 音声入力手段は音声を入力し、特徴抽出手段は入力した
    音声信号を1フレ−ム毎の特徴ベクトル時系列に変換
    し、辞書照合手段は1フレ−ム毎の特徴ベクトルとあら
    かじめ登録された音声標準パタ−ンの類似度を求め、類
    似度があらかじめ定めたしきい値αを超えたときに認識
    結果候補として出力し、認識候補保存手段は辞書照合手
    段から出力する認識結果候補と各認識結果候補毎の類似
    度及び各認識結果候補毎の終端位置とフレ−ム長を示す
    フレ−ム情報を記憶し、音声区間検出手段は入力信号中
    の音声区間の始端および終端を検出し、 認識結果選択手段はフレ−ム重なり判定手段とフレ−ム
    長比較手段及び類似度判定手段を有し、 フレ−ム重なり判定手段は音声区間検出手段で検出した
    同一音声区間内で各認識結果候補のフレ−ムが他の認識
    結果候補のフレ−ムと重なり合っているかどうかを判断
    し、他の認識結果候補のフレ−ムと重なり合っていない
    認識結果候補を認識結果出力手段に送り、他の認識結果
    候補のフレ−ムと重なり合っている認識結果候補をフレ
    −ム長比較手段に送り、 フレ−ム長比較手段はフレ−ム重なり判定手段でフレ−
    ムが重なり合ったと判断された認識結果候補の各フレ−
    ム長を比較し、互いに重なり合った認識結果候補のフレ
    −ム長が異なるときは最も長いフレ−ム長の認識結果候
    補を認識結果出力手段に送り、フレ−ム長に差がない互
    いに重なり合った認識結果候補を類似度判定手段に送
    り、 類似度判定手段は送られた認識結果候補の類似度を比較
    し、フレ−ム長に差がない認識結果候補の中から類似度
    が最大値を示す認識結果候補を選択して認識結果出力手
    段に送り、 認識結果出力手段は送られた認識結果候補を認識結果と
    して出力することを特徴とする音声認識装置。
  2. 【請求項2】 上記フレ−ム長比較手段はフレ−ム長に
    差がない互いに重なり合った認識結果候補のフレ−ム長
    と最大フレ−ム長の差があらかじめ定められたしきい値
    X以下のときに、該当する認識結果候補を類似度判定手
    段に送る請求項1記載の音声認識装置。
  3. 【請求項3】 上記認識結果選択手段に後続第1状態フ
    レ−ム長比較手段を有し、上記フレ−ム重なり判定手段
    は音声区間検出手段で検出した同一音声区間内で各認識
    結果候補のフレ−ムが他の認識結果候補のフレ−ムと重
    なり合っている認識結果候補を後続第1状態フレ−ム長
    比較手段に送り、後続第1状態フレ−ム長比較手段はフ
    レ−ムが重なり合っている認識結果候補の重なりフレ−
    ム長と後続の認識結果候補の第1状態フレ−ム長とを比
    較し、重なりフレ−ム長が後続の認識結果候補の第1状
    態フレ−ム長以下のときに重なり判定を破棄し、互いに
    独立した結果認識候補として認識結果出力手段に送り、
    重なりフレ−ム長が後続の認識結果候補の第1状態フレ
    −ム長より大きいときに認識結果候補をフレ−ム長比較
    手段に送る請求項2記載の音声認識装置。
JP8027428A 1995-05-31 1996-01-23 音声認識装置 Pending JPH0950292A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8027428A JPH0950292A (ja) 1995-05-31 1996-01-23 音声認識装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP7-155530 1995-05-31
JP15553095 1995-05-31
JP8027428A JPH0950292A (ja) 1995-05-31 1996-01-23 音声認識装置

Publications (1)

Publication Number Publication Date
JPH0950292A true JPH0950292A (ja) 1997-02-18

Family

ID=26365336

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8027428A Pending JPH0950292A (ja) 1995-05-31 1996-01-23 音声認識装置

Country Status (1)

Country Link
JP (1) JPH0950292A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5974381A (en) * 1996-12-26 1999-10-26 Ricoh Company, Ltd. Method and system for efficiently avoiding partial matching in voice recognition
JP2013195685A (ja) * 2012-03-19 2013-09-30 Fuji Xerox Co Ltd 言語モデル作成プログラム、言語モデル作成装置及び音声認識装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5974381A (en) * 1996-12-26 1999-10-26 Ricoh Company, Ltd. Method and system for efficiently avoiding partial matching in voice recognition
JP2013195685A (ja) * 2012-03-19 2013-09-30 Fuji Xerox Co Ltd 言語モデル作成プログラム、言語モデル作成装置及び音声認識装置

Similar Documents

Publication Publication Date Title
JP3180655B2 (ja) パターンマッチングによる単語音声認識方法及びその方法を実施する装置
JP4237713B2 (ja) 音声処理装置
US20220343895A1 (en) User-defined keyword spotting
JPS62217295A (ja) 音声認識方式
US4769844A (en) Voice recognition system having a check scheme for registration of reference data
JPH04255900A (ja) 音声認識装置
JP3069531B2 (ja) 音声認識方法
US5799274A (en) Speech recognition system and method for properly recognizing a compound word composed of a plurality of words
JP2996019B2 (ja) 音声認識装置
JPH05119792A (ja) 音声認識装置
JP3578587B2 (ja) 音声認識装置および音声認識方法
JPH0950292A (ja) 音声認識装置
JP4475380B2 (ja) 音声認識装置及び音声認識プログラム
JPH10187181A (ja) 音声認識装置
JP3615088B2 (ja) 音声認識方法及び装置
JP3039453B2 (ja) 音声認識装置
KR100677224B1 (ko) 안티워드 모델을 이용한 음성인식 방법
JPH0997095A (ja) 音声認識装置
JPH01185599A (ja) 音声認識装置
JPS6336678B2 (ja)
JPH08146996A (ja) 音声認識装置
JPS5926800A (ja) 音声認識装置
JPS63223694A (ja) 単音節登録・認識方式
JPH0756595A (ja) 音声認識装置
JPH0744188A (ja) 音声認識装置