JP3484559B2 - 音声認識装置および音声認識方法 - Google Patents

音声認識装置および音声認識方法

Info

Publication number
JP3484559B2
JP3484559B2 JP22045296A JP22045296A JP3484559B2 JP 3484559 B2 JP3484559 B2 JP 3484559B2 JP 22045296 A JP22045296 A JP 22045296A JP 22045296 A JP22045296 A JP 22045296A JP 3484559 B2 JP3484559 B2 JP 3484559B2
Authority
JP
Japan
Prior art keywords
similarity
recognition
average value
threshold
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP22045296A
Other languages
English (en)
Other versions
JPH1049190A (ja
Inventor
章次 栗木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP22045296A priority Critical patent/JP3484559B2/ja
Publication of JPH1049190A publication Critical patent/JPH1049190A/ja
Application granted granted Critical
Publication of JP3484559B2 publication Critical patent/JP3484559B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識装置およ
び音声認識方法に関する。
【0002】
【従来の技術】従来、例えば特開昭62−111293
号(以下、従来技術1と称す)には、認識すべき音声とそ
の前後の騒音を含む十分長い区間を入力信号区間とし、
この区間内でワードスポッティングを行ない、類似度が
最大となる認識対象を認識結果として出力することによ
り、音声区間検出を行なうことなく騒音環境化で発声し
た音声を、認識対象音声とその前後に騒音を含んだ十分
長い入力の中から切り出し、認識する技術が示されてい
る。
【0003】従来技術1では、十分長い入力音声区間内
で認識を行なうため、騒音などにより類似度が上がる認
識対象があっても、対象音声による認識対象の類似度が
それを上回って大きくなり、入力音声区間内の最大類似
度が得られた認識対象を結果出力することで、騒音によ
る誤認識を結果出力することを避けることができる。
【0004】図9はこの従来技術1において認識処理さ
れた認識対象a,b,cの類似度の時間変化を示す図で
ある。図9の例では、非音声区間で、認識対象b,cは
認識対象aより大きな類似度を得ているが、音声が入る
と(音声区間では)、正解である認識対象aの類似度が大
きくなる。これにより、認識結果としては、入力音声区
間内で最大の類似度を得た認識対象aが出力され、非音
声区間でaよりも大きな類似度を得た認識対象b,cは
無視される。
【0005】このように、従来技術1によれば、認識す
べき音声とその前後の騒音を含む十分長い区間を入力信
号区間とし、この区間内でワードスポッティングを行な
い、類似度が最大となる認識対象を認識結果として出力
することにより、騒音による誤認識結果が出力されるこ
とを避けることができる。
【0006】しかしながら、上述の従来技術1では、十
分長い入力音声区間が終了しなければ認識結果が出力さ
れないため、実際の機器に使用する場合、長い反応時間
が必要となり、認識対象音声を発声してから認識結果が
出力されるまで時間がかかり実用的ではない。
【0007】そのため、入力音声区間の終了を待たずに
類似度の変化のピークを検出し、ピークを検出後、一定
時間(図9ではt1で示す)内に、他の認識対象の類似度
がピークを越えなければ、いまピークが検出された認識
対象を結果出力することで、反応時間が短かい認識結果
の出力が可能である。但し、この場合、非音声区間で誤
認識結果が出力されるため(認識対象bとcが非音声区
間で認識結果として出力されるため)、リジェクト閾値
を定め、類似度が閾値以下の場合には、認識結果をリジ
ェクトすることで、誤認識結果が出力されるのを避ける
必要がある。
【0008】しかしながら、環境が変化すると非音声区
間の誤認識となる認識対象の類似度が変化するため、1
つのリジェクト閾値で全ての環境変化に対応することは
できない。
【0009】このような問題に対処するため、例えば特
公昭60−60080号(以下、従来技術2と称す),特
開平1−321499号(以下、従来技術3と称す)に
は、騒音下でのリジェクトを効果的に行なうためリジェ
クト処理を行なう閾値を環境により変化させる技術が示
されている。すなわち、従来技術2では、周囲騒音によ
りリジェクト閾値を変化させ、また、従来技術3では、
入力音声のS/Nにより閾値を変化させるようになって
いる。
【0010】
【発明が解決しようとする課題】このように、従来技術
2,従来技術3では、環境の変化により、リジェクト閾
値を変化させることができるため、最適なリジェクト閾
値を設定することができる。しかしながら、従来技術2
では、雑音レベルを検出する必要があり、また、従来技
術3においても、S/Nを検出するためには雑音レベル
と音声レベルを検出しなければならないという問題があ
った。すなわち、雑音レベルを検出するためには、非音
声区間の検出が必要であり、非音声区間はパワー情報を
使用して検出されるが、雑音が大きくなり音声とのパワ
ー差が少なくなると非音声区間の検出ができなくなり、
雑音レベルの検出も不可能になる。このため、従来技術
2,従来技術3では、高騒音下においてはリジェクト閾
値を環境に対応して設定することができないという問題
があった。
【0011】本発明は、高騒音下においても、雑音レベ
ル等の環境の変化を容易に検出することができ、これに
より、高騒音下においても、環境の変化に追従させて使
用勝手の良く、正しい認識結果を得ることの可能な音声
認識を実現できて、かつ、従来に比べて、短かい反応時
間で認識結果を出力することが可能な音声認識装置およ
び音声認識方法を提供することを目的としている。
【0012】
【課題を解決するための手段】上記目的を達成するため
に、請求項1記載の発明は、音声入力信号から音声特徴
データを抽出する特徴抽出手段と、抽出された音声特徴
データを全ての認識対象の標準パターンと比較して類似
度を計算する類似度計算手段と、所定のリジェクト閾値
を設定するリジェクト閾値設定手段と、全ての認識対象
の類似度が所定のリジェクト閾値を越えない場合は全て
の認識対象の類似度の平均値を計算し、全ての認識対象
の類似度のうち1つでも所定のリジェクト閾値を越える
場合は、その直前の平均値を保持する類似度平均値計算
手段と、所定のリジェクト閾値を越えた認識対象の類似
度のピーク値を検出する類似度ピーク検出手段と、認識
結果を出力する結果出力手段と、ある認識対象の類似度
について所定のリジェクト閾値を越えたピーク値が前記
類似度ピーク検出手段により検出されたときに、少なく
とも、類似度平均値計算手段で保持されている類似度の
平均値に基づいて認識結果を出力するまでの保留時間を
決定する保留時間決定手段とを備え、結果出力手段は、
保留時間中にピーク値を越える類似度を与える認識対象
が無い場合に、ピーク値を与えた認識対象を認識結果と
して出力することを特徴としている。
【0013】また、請求項2記載の発明は、音声入力信
号から音声特徴データを抽出する特徴抽出手段と、抽出
された音声特徴データを全ての認識対象の標準パターン
と比較して類似度を計算する類似度計算手段と、平均値
保持用の閾値を設定する第1の閾値設定手段と、結果出
力用のリジェクト閾値を設定する第2の閾値設定手段
と、全ての認識対象の類似度が平均値保持用の閾値を越
えない場合は全ての認識対象の類似度の平均値を計算
し、全ての認識対象の類似度のうち1つでも平均値保持
用の閾値を越える場合は、その直前の平均値を保持する
類似度平均値計算手段と、平均値保持用の閾値を越えた
認識対象の類似度のピーク値を検出する類似度ピーク検
出手段と、認識結果を出力する結果出力手段と、ある認
識対象の類似度について平均値保持用の閾値を越えたピ
ーク値が類似度ピーク検出手段により検出されたとき
に、少なくとも、類似度平均値計算手段で保持されてい
る類似度の平均値に基づいて認識結果を出力するまでの
保留時間を決定する保留時間決定手段とを備え、結果出
力手段は、保留時間中にピーク値を越える類似度を与え
る認識対象が無く、かつ、ピーク値を与えた認識対象の
類似度が結果出力用のリジェクト閾値を越えた場合に、
ピーク値を与えた認識対象を認識結果として出力するこ
とを特徴としている。
【0014】また、請求項3記載の発明は、請求項2記
載の音声認識装置において、結果出力用のリジェクト閾
値は、平均値保持用の閾値よりも高く設定されることを
特徴としている。
【0015】また、請求項4記載の発明は、請求項1ま
たは請求項2記載の音声認識装置において、結果出力手
段は、保留時間中にピーク値を越える類似度を与える認
識対象がある場合は、ピーク値を与えた認識対象を認識
結果として出力せず、ピーク値を越えた認識対象の類似
度について新たにピーク値が類似度ピーク検出手段によ
り検出されるとき、保留時間決定部に新たな保留時間を
決定させ設定させることを特徴としている。
【0016】また、請求項5記載の発明は、請求項1,
請求項2,請求項4のいずれか一項に記載の音声認識装
置において、保留時間決定手段は、直前に保持された平
均値から保留時間を決定することを特徴としている。
【0017】また、請求項6記載の発明は、請求項1,
請求項2,請求項4のいずれか一項に記載の音声認識装
置において、保留時間決定手段は、類似度ピーク検出手
段により検出された類似度のピーク値と直前に保持され
た平均値との差から保留時間を決定することを特徴とし
ている。
【0018】また、請求項7記載の発明は、請求項1,
請求項2,請求項4のいずれか一項に記載の音声認識装
置において、保留時間決定手段は、類似度ピーク検出手
段により検出された類似度のピーク値と直前に保持され
た平均値との比から保留時間を決定することを特徴とし
ている。
【0019】また、請求項8記載の発明は、請求項1,
請求項2,請求項4のいずれか一項に記載の音声認識装
置において、類似度平均値計算手段は、平均値を、該音
声認識装置の動作開始時からの平均値、または、一定時
間内のフレーム当たりの平均値を時間方向に移動させな
がら平均をとった移動平均、または、時間方向のローパ
スフィルタリングとして算出することを特徴としてい
る。
【0020】また、請求項9記載の発明は、音声入力信
号から音声特徴データを抽出し標準パターンと比較して
類似度を計算し、全ての認識対象の類似度が所定のリジ
ェクト閾値を越えない場合は全ての認識対象の類似度の
平均値を計算し、全ての認識対象の類似度のうち1つで
も所定のリジェクト閾値を越える場合は、その直前の平
均値を保持し、ある認識対象の類似度について所定のリ
ジェクト閾値を越えたピーク値が検出された場合、少な
くとも、直前に保持された平均値に基づいて認識結果を
出力するまでの保留時間を決定し、保留時間中にピーク
値を越える類似度を与える認識対象が無い場合は、ピー
ク値を与えた認識対象を認識結果として出力することを
特徴としている。
【0021】また、請求項10記載の発明は、音声入力
信号から音声特徴データを抽出し標準パターンと比較し
て類似度を計算し、全ての認識対象の類似度が平均値保
持用の閾値を越えない場合は全ての認識対象の類似度の
平均値を計算し、全ての認識対象の類似度のうち1つで
も平均値保持用の閾値を越える場合は、その直前の平均
値を保持し、ある認識対象の類似度について平均値保持
用の閾値を越えたピーク値が検出された場合、少なくと
も、直前に保持された平均値に基づいて認識結果を出力
するまでの保留時間を決定し、保留時間中にピーク値を
越える類似度を与える認識対象が無く、かつ、ピーク値
を与えた認識対象の類似度が平均値保持用の閾値よりも
高く設定されている結果出力用のリジェクト閾値を越え
た場合には、ピーク値を与えた認識対象を認識結果とし
て出力することを特徴としている。
【0022】また、請求項1,請求項4乃至請求項9記
載の発明は、音声入力信号から音声特徴データを抽出し
標準パターンと比較して類似度を計算し、全ての認識対
象の類似度が所定のリジェクト閾値を越えない場合は全
ての認識対象の類似度の平均値を計算し、全ての認識対
象の類似度のうち1つでも所定のリジェクト閾値を越え
る場合は、その直前の平均値を保持し、ある認識対象の
類似度について所定のリジェクト閾値を越えたピーク値
が検出された場合、少なくとも、直前に保持された平均
値に基づいて認識結果を出力するまでの保留時間を決定
し、保留時間中にピーク値を越える類似度を与える認識
対象が無い場合は、ピーク値を与えた認識対象を認識結
果として出力するので、少なくとも静かな環境下では短
かい反応時間で認識結果を出力することができ、また、
高騒音下においても、正しい認識結果を得ることが可能
な、環境の変化に追従する使い勝手の良い音声認識を実
現できる。
【0023】また、請求項2乃至請求項8,請求項10
記載の発明は、音声入力信号から音声特徴データを抽出
し標準パターンと比較して類似度を計算し、全ての認識
対象の類似度が平均値保持用の閾値を越えない場合は全
ての認識対象の類似度の平均値を計算し、全ての認識対
象の類似度のうち1つでも平均値保持用の閾値を越える
場合は、その直前の平均値を保持し、ある認識対象の類
似度について平均値保持用の閾値を越えたピーク値が検
出された場合、少なくとも、直前に保持された平均値に
基づいて認識結果を出力するまでの保留時間を決定し、
保留時間中にピーク値を越える類似度を与える認識対象
が無く、かつ、ピーク値を与えた認識対象の類似度が平
均値保持用の閾値よりも高く設定されている結果出力用
のリジェクト閾値を越えた場合には、ピーク値を与えた
認識対象を認識結果として出力するので、上記効果に加
えて、より一層、アプリケーション等に応じた適切な認
識処理を行なうことが可能になる。
【0024】
【発明の実施の形態】以下、本発明の実施形態を図面に
基づいて説明する。図1は本発明に係る音声認識装置の
構成例を示す。図1を参照すると、この音声認識装置
は、入力された音声を電気信号(アナログ音声信号)に変
換する入力部(例えばマイクロホン)1と、入力部1から
のアナログ音声信号をデジタル音声信号に変換するA/
D変換部2と、デジタル音声信号をフレーム毎に音声特
徴データに変換する特徴抽出部3と、全ての認識対象の
標準パターンが予め格納されている標準パターン格納部
4と、特徴抽出部3からの音声特徴データを標準パター
ン格納部4に格納されている各認識対象の標準パターン
と比較し、各認識対象との類似度を計算する類似度計算
部5と、リジェクト閾値THが設定されるリジェクト閾
値設定部6と、全ての認識対象の類似度がリジェクト閾
値THを越えない場合は、全ての認識対象の類似度の平
均値を計算し、全ての認識対象のうちの1つでも、その
類似度がリジェクト閾値THを越えた場合には、その直
前の類似度の平均値を保持する類似度平均値計算部7
と、リジェクト閾値THを越えた認識対象の類似度のピ
ークを検出する類似度ピーク検出部8と、リジェクト閾
値THを越えた認識対象のピークが類似度ピーク検出部
8によって検出されたとき、少なくとも、類似度平均値
計算部7で保持されている類似度の平均値(全ての認識
対象のうちの1つでも、その類似度がリジェクト閾値T
Hを越えた場合には、その直前の類似度の平均値)に基
づいて、ピーク値が検出された認識対象を認識結果とし
て出力するまでの保留時間を決定する保留時間決定部9
と、保留時間中にピーク値を越える類似度を与える認識
対象が無い場合に、リジェクト閾値THを越えてピーク
値が検出された認識対象を認識結果として出力する結果
出力部10とを備えている。
【0025】ここで、特徴抽出部3,標準パターン格納
部4,類似度計算部5には、一般的な音声認識技術を用
いることができる。
【0026】すなわち、図1の音声認識装置において
も、基本的には、一般的な音声認識技術が用いられる。
例えば、音声の開始点と終了点を検出して音声区間と
し、この音声区間に対して音声パターン認識等を行な
い、最大の類似度が得られた標準パターン(認識対象で
ある)の単語番号や属性データを認識結果として出力す
る形式のものを用いることができる。
【0027】あるいは、音声区間を必要としないワード
スポッティング法による認識のものを用いることもでき
る。例えば継続時間制御型状態遷移モデルを用いた単語
音声認識法を用いることもでき、単語音声認識法による
認識を行なえば、音声の終了付近で類似度が最大とな
り、類似度のピーク点を検出することで認識結果を出力
することができる。
【0028】また、類似度平均値計算部7は、全ての認
識対象の類似度の平均として、例えば次式のように、フ
レーム毎に計算された認識対象の類似度の平均値を算出
することができる。
【0029】
【数1】
【0030】ここで、Sim(i)はあるフレームでの認
識対象iの類似度であり、nは認識対象の数である。
【0031】また、保留時間決定部9は、保留時間を、
例えば次のように決定するようになっている。
【0032】すなわち、類似度平均値計算部7で保持さ
れている平均値が大きい程、保留時間を長くする。ある
いは、類似度ピーク検出部8で検出された類似度のピー
ク値と類似度平均値計算部7で保持されている類似度の
平均値との差が小さい程、すなわち、(類似度ピーク値
−保持されている平均値)が小さい程、保留時間を長く
する。あるいは、類似度ピーク検出部8で検出された類
似度のピーク値と類似度平均値計算部7で保持されてい
る類似度の平均値との比が小さい程、すなわち、(類似
度ピーク値/保持されている平均値)が小さい程、保留
時間を長くする。
【0033】すなわち、保留時間tnは、少なくとも、
ピーク値が得られた時点で類似度平均値計算部7に保持
されている類似度の平均値に基づいて求められる。すな
わち、平均値とピーク値の差が小さい場合、および/ま
たは、ピーク値と平均値の比が小さい場合、および/ま
たは、平均値の類似度が大きい場合には、保留時間tn
を長く設定する。例えば、保留時間tnは、次式のよう
に設定される。
【0034】
【数2】 tn=α1・{1/(P−A)}+α2・(A/P)+α3・A
【0035】ここで、Pは類似度のピーク値、Aは保持
されている類似度の平均値、α1,α2,α3は実験的に
得られた係数である。
【0036】なお、この場合、保留時間決定部9で決定
される保留時間は、実験により求めたテーブルを使用す
ることで実現可能である。一例として静かな環境で10
0〜200ms、高騒音下で1秒程度であれば一般的な
アプリケーションに適応できる。
【0037】また、結果出力部10は、ピーク値が検出
された後、保留時間決定部9で決定された保留時間tn
が経過するまでの間に、このピーク値を越える類似度が
得られた認識対象がなければ、そのピーク値を与えた認
識対象を認識結果として出力する一方、ピーク値が検出
された後、保留時間tnが経過するまでの間に、このピ
ーク値を越える類似度を与える認識対象があれば、この
ピーク値を与えた認識対象を認識結果として出力せず
(結果を無効とし)、このピーク値を越えた認識対象の類
似度について新たな保留時間が設定され、新たな保留動
作を行なうようになっている。
【0038】次に、図1の音声認識装置の動作について
説明する。入力部1から入力された音声は、入力部1で
電気信号(アナログ音声信号)に変換され、A/D変換部
2でデジタル値に変換される。デジタル化された音声デ
ータは、特徴抽出部3でフレーム毎に音声特徴データに
変換される。ここで、音声特徴データは周波数帯域での
パワー値を示すTSPやケプストラム値などが一般的で
ある。
【0039】特徴抽出部3で得られた音声特徴データ
は、類似度計算部5において、標準パターン格納部4に
予め格納されている各認識対象の標準パターンと比較さ
れ、各認識対象の類似度が計算される。各認識対象の類
似度はフレーム周期毎に更新され、時間により変化す
る。類似度平均値計算部7は、全認識対象の類似度がリ
ジェクト閾値THより小さい場合には、全認識対象の類
似度の平均値を計算する。この平均値はフレーム周期毎
に更新される。
【0040】音声が入力された場合や騒音の影響で、1
つでも認識対象の類似度がリジェクト閾値THを越えた
場合、類似度平均値計算部7では、リジェクト閾値TH
を越える直前の類似度の平均値を保持し、フレーム周期
後の更新を行なわない。また、類似度ピーク検出部8で
は、リジェクト閾値THを越えた認識対象の類似度のピ
ーク値を検出する。類似度ピーク検出部8によりピーク
値が検出されると、保留時間決定部9は、例えば、類似
度ピーク検出部8に保持されている平均値と類似度ピー
ク検出部8で検出された類似度のピーク値とに基づき、
例えば数2を用いて、結果出力するまでの保留時間tn
を決定する。
【0041】結果出力部10は、ピーク値が検出された
後、保留時間決定部9で決定された保留時間tnが経過
するまでの間に、このピーク値を越える類似度を与える
認識対象がなければ、そのピーク値を与えた認識対象を
認識結果として出力する。これに対し、ピーク値が検出
された後、保留時間tnが経過するまでの間に、このピ
ーク値を越える類似度を与える認識対象があれば、この
ピーク値を与えた認識対象を認識結果として出力せず
(結果を無効とし)、このピーク値を越えた認識対象の類
似度について新たな保留時間が設定され、新たな保留動
作を行なう。
【0042】次に、具体的な動作例について説明する。
図2は静かな環境での各認識対象a,b,cの類似度の
変化を示す図であり、図2の例では、認識対象a,b,
cのいずれも、音声が無い区間では低い類似度を保って
いる。これは静かな環境の音声特徴抽出値が音声が入力
された音声特徴抽出値と大きく異なるため、パターン距
離が大きくなり類似度が低くなることによるものであ
る。図2には、さらに、全ての認識対象の類似度の平均
値を計算した結果が、×−×線で示されている。
【0043】各認識対象の類似度は時間的に変化するた
め、一般にフレームという単位時間(数ms〜数十ms
程度に設定される)内の音声波形から特徴抽出した音声
特徴データに対して類似度を計算する。従って、類似度
はフレーム周期毎に更新され、また、全ての認識対象の
類似度の平均値もフレーム毎に更新されるが、平均値の
計算は認識対象の類似度がリジェクト閾値TH以下であ
る場合に行ない、1つでもリジェクト閾値THを越えた
場合(図2の例では、認識対象aに対応する音声が入力
されて音声区間内で認識対象aの類似度が高くなり、リ
ジェクト閾値THを越えた場合)は直前の平均値A1が
保持される。ここで、保持された平均値A1は、周囲の
環境の状態を反映したものとなっている。図2の例で
は、周囲の環境は静かな環境であり、全ての認識対象の
類似度が低くなるため、平均値A1は小さくなる。一
方、入力音声の認識対象aとの類似度は、音声区間内
で、リジェクト閾値THを越えた後、音声区間終了付近
でピーク値P0を得て、その後小さくなる。
【0044】この場合、例えば、ピーク値P0が得られ
た時点で保持されている平均値A1とピーク値P0との
類似度の差(P0−A1)が大きい場合には、ピーク値P
0を与えた認識対象aは非音声区間の類似度の平均値A
1に比べて著しく極だっているため、ピーク値P0が得
られた時点から短かい時間(短かい保留時間)t2の後
に,認識結果(ピーク値P0を与えた認識対象a)を出力
する。ここで、t2としては、100ms〜200ms
程度が適している。
【0045】このように、本発明によれば、静かな環境
下では、短かい反応時間で認識結果を出力することがで
きる。
【0046】なお、非音声区間の平均値が小さい場合に
は、リジェクト閾値THを越える認識対象が非音声区間
では無いため、音声区間以外で認識結果が出力されるこ
とはない。また、例えば、正解認識対象の類似度のピー
ク値と非音声区間の平均値との差が大きい場合には、リ
ジェクト閾値THは実験的に容易に設定できる。
【0047】一方、騒音が大きくなってくると、騒音区
間(非音声区間)でも類似度が高くなる認識対象が出てく
る。また、音声区間においても、音声に騒音が付加され
ることで音声特徴抽出値が歪んでくるため、正解認識対
象の類似度のピーク値が下がる。
【0048】従来の方式では、図9に示したように、騒
音区間のピーク値P1,P3と最大類似度を与えるピー
ク値P0との間にリジェクト閾値THを設定すること
で、誤認識結果b,cをリジェクトしているが、さらに
騒音が大きくなった場合、騒音区間のピーク値P1,P
3と最大類似度を与えるピーク値P0との差が小さくな
り、リジェクト閾値THの設定ができなくなる。
【0049】図3には、この様子が示されている。すな
わち、図3の例では、騒音が大きくなり、騒音区間での
ピーク値P1,P3がリジェクト閾値THを越えている
ため、従来の方式によっては、リジェクト閾値THによ
る誤認識結果P1,P3のリジェクトを行なうことがで
きない。
【0050】これに対し、本発明では、図3のような場
合、図4に示すように、例えば、認識対象bの類似度が
ピーク値P1を与えた時点で保持されている平均値A2
とピーク値P1との差(P1−A2)は小さいため、結果
出力するまでの時間(保留時間)t3を長く設定する。こ
れにより、図3のような場合、誤認識結果が出力される
前に、正解認識対象aの類似度がピーク値P1を越える
ため、ピーク値P1の結果は無効となり、誤認識結果b
が出力されるのを防ぐことができる。
【0051】そして、正解認識対象aの類似度のピーク
値P0が得られると、その場合、ピーク値P0が得られ
た時点で保持されている平均値A3は、例えば図2の平
均値A1よりも大きく(騒音がある場合は騒音の音声特
徴データが音声の特徴データと似ているため、パターン
距離が小さく類似度が高くなることによる)、従って、
ピーク値P0と平均値A3との差(P0−A3)は、図2
におけるピーク値P0と平均値A1との差(P0−A1)
に比べて小さく、この場合、結果出力するまでの時間t
4は図2のt2に比べて長く設定される。
【0052】これにより、図4の例では、ピーク値P0
が得られた認識対象aを認識結果として出力するための
保留時間t4を経過するまでに、認識対象cの類似度が
ピーク値P3をとるが、ピーク値P3はピーク値P0よ
りも類似度が低いためピーク値P3による認識結果出
力,すなわち認識対象cの結果は棄却される。
【0053】このように、本発明によれば、図4の例か
らわかるように、ピーク値P0が得られた後、保留時間
4を経過した時点で、認識対象aの正解認識結果が出
力され、この場合、非音声区間(騒音区間)の認識対象
b,cの誤認識結果は棄却される。すなわち、本発明に
よれば、高騒音下においても、正しい認識結果を得るこ
とができる。
【0054】上述の例では、認識対象の類似度の平均と
して、フレーム毎に計算された認識対象の類似度の平均
値を用いたが、これ以外にも、種々のものを用いること
ができる。
【0055】例えば、保留時間決定に使用される平均値
として、リジェクト閾値THを越える類似度を持つ認識
対象が現われる直前のフレームの平均値を用いる場合、
直前のフレームの平均値のみでは周囲環境を代表してい
ない場合がある。例えば直前に突発性ノイズがあった場
合、保持した平均値のみが大きな値を示すこともありう
る。そのため、フレーム毎の平均値を時間軸方向にフィ
ルタリングすることによって、突発性ノイズに対応する
ことも可能である。
【0056】図5はこの音声認識装置の動作開始時から
のフレーム毎の平均値を時間方向へ平均する仕方を示す
図である。この場合、認識対象の類似度がリジェクト閾
値THを越えた期間は除外する。すなわち、図5の例で
は、図中矢印実線で示すように、動作開始時からのフレ
ーム毎の平均値を認識対象の類似度がリジェクト閾値T
Hを越えた期間を除外して、時間軸方向へ平均して、最
新の平均値としている。これにより、周囲環境を代表し
た平均値を使用することができる。
【0057】また、図6は一定時間内のフレームの平均
値を時間方向へ平均する仕方、すなわち移動平均をとる
場合を示す図である。図6の例では、図中矢印実線区間
で平均をとり、時間軸に対して移動平均を求めている。
これにより、周囲環境の変化に追随した平均値を使用す
ることができる。
【0058】また、時間軸方向のフィルタリングとし
て、例えば次式によって時間平均をとって良い。
【0059】
【数3】時間平均値=(現フレームの平均値+前フレー
ムの平均値)/2
【0060】数3によって時間平均をとる場合には、周
囲環境に追随した平均値を簡易に得られる。
【0061】また、上述の構成例では、類似度のピーク
検出処理を開始するためのリジェクト閾値(すなわち、
誤認識を避けるための結果出力用のリジェクト閾値)と
平均値の保持処理を開始するための平均値保持用のリジ
ェクト閾値とに、同じ閾値THを使用している。しかし
ながら、アプリケーションによっては誤認識を避けるた
めに、結果出力用のリジェクト閾値を高く設定する場合
があり、この場合、平均値保持用のリジェクト閾値が結
果出力用のリジェクト閾値と同じであると、音声が入力
されて類似度が上がる区間まで平均値として計算される
ため、保持される平均値が高くなってしまう。
【0062】図7には、この様子が示されている。すな
わち、図7において、結果出力用のリジェクト閾値,平
均値保持用のリジェクト閾値をともに低い値TH1に設
定する場合には、保持される平均値を符号A5で示すよ
うに、低く維持することができるが、結果出力用のリジ
ェクト閾値が低い値TH1に設定されていることから、
アプリケーションによっては、誤認識の割合いが増加す
る恐れがある。
【0063】これに対し、図7において、結果出力用の
リジェクト閾値,平均値保持用のリジェクト閾値をとも
に高い値TH2に設定する場合には、誤認識の割合いを
低減することができるが、保持される平均値は、符号A
4で示すように、符号A5に比べて高くなってしまう。
すなわち、値の大きなリジェクト閾値TH2を使用する
場合には、音声に対応した正解認識対象の類似度が大き
な時点で平均値が保持されるため(図中A4)、全認識対
象の平均値が音声に対応した認識対象のために高くなっ
てしまい、適切な認識処理を行なう上で、支障の生ずる
ことがある。
【0064】このように、アプリケーションによって結
果出力用のリジェクト閾値を高く設定する必要がある場
合における上述の問題を回避するため、図1の構成を図
8のように変形することができる。
【0065】すなわち、図8の構成例では、図1のリジ
ェクト閾値設定部6のかわりに、平均値保持用の閾値T
H1が設定される第1の閾値設定部21と、結果出力用
のリジェクト閾値TH2が設定される第2の閾値設定部
22とが設けられている。
【0066】このような構成では、第1の閾値設定部2
1において、平均値保持用の閾値TH1を設定でき、ま
た、第2の閾値設定部22においては、平均値保持用の
閾値TH1とは独立して、別個に、結果出力用のリジェ
クト閾値TH2を設定できる。そして、類似度平均計算
部7は、第1の閾値設定部21で設定された平均値保持
用の閾値TH1を用いて、類似度平均処理(すなわち、
1つでも平均値保持用の閾値TH1を越えたときに、こ
のときの平均値を保持する処理)を行なうことができ、
また、類似度ピーク検出部8は、平均値保持用の閾値T
H1を越えた認識対象の類似度のピークの検出を行な
い、保留時間決定部9は、平均値保持用の閾値TH1を
越えた認識対象のピークが類似度ピーク検出部8によっ
て検出されたとき、少なくとも、類似度平均値計算部7
で保持されている類似度の平均値(全ての認識対象のう
ちの1つでも、その類似度がリジェクト閾値THを越え
た場合には、その直前の類似度の平均値)に基づいて、
ピーク値が検出された認識対象を認識結果として出力す
るまでの保留時間を決定することができる。
【0067】また、結果出力部10は、第2の閾値設定
部22で設定された結果出力用のリジェクト閾値TH2
を用いて、結果出力処理(類似度がリジェクト閾値TH
2を越えた認識結果を採用し、類似度がリジェクト閾値
以下の認識結果を棄却する処理)を行なうことができ
る。
【0068】従って、アプリケーションによって結果出
力用のリジェクト閾値を高く設定する必要がある場合に
は、結果出力用のリジェクト閾値TH2を図7のような
高い値に設定する一方、平均値保持用の閾値TH1につ
いては、図7のように、結果出力用のリジェクト閾値T
H2に比べて低い値に設定することができる。このよう
に、結果出力用のリジェクト閾値TH2を高い値に設定
することで、誤認識の割合いを低減することができ、ま
た、平均値保持用の閾値TH1を低い値に設定すること
で、結果出力用のリジェクト閾値TH2が高い値に設定
される場合にも、保持される平均値を図7に符号A5で
示すような低い値に維持することができ、適切な認識処
理を行なうことが可能となる。
【0069】
【発明の効果】以上に説明したように、請求項1,請求
項4乃至請求項9記載の発明によれば、音声入力信号か
ら音声特徴データを抽出し標準パターンと比較して類似
度を計算し、全ての認識対象の類似度が所定のリジェク
ト閾値を越えない場合は全ての認識対象の類似度の平均
値を計算し、全ての認識対象の類似度のうち1つでも所
定のリジェクト閾値を越える場合は、その直前の平均値
を保持し、ある認識対象の類似度について所定のリジェ
クト閾値を越えたピーク値が検出された場合、少なくと
も、直前に保持された平均値に基づいて認識結果を出力
するまでの保留時間を決定し、保留時間中にピーク値を
越える類似度を与える認識対象が無い場合は、ピーク値
を与えた認識対象を認識結果として出力するので、少な
くとも静かな環境下では短かい反応時間で認識結果を出
力することができ、また、高騒音下においても、正しい
認識結果を得ることが可能な、環境の変化に追従する使
い勝手の良い音声認識を実現できる。
【0070】また、請求項2乃至請求項8,請求項10
記載の発明によれば、音声入力信号から音声特徴データ
を抽出し標準パターンと比較して類似度を計算し、全て
の認識対象の類似度が平均値保持用の閾値を越えない場
合は全ての認識対象の類似度の平均値を計算し、全ての
認識対象の類似度のうち1つでも平均値保持用の閾値を
越える場合は、その直前の平均値を保持し、ある認識対
象の類似度について平均値保持用の閾値を越えたピーク
値が検出された場合、少なくとも、直前に保持された平
均値に基づいて認識結果を出力するまでの保留時間を決
定し、保留時間中にピーク値を越える類似度を与える認
識対象が無く、かつ、ピーク値を与えた認識対象の類似
度が平均値保持用の閾値よりも高く設定されている結果
出力用のリジェクト閾値を越えた場合には、ピーク値を
与えた認識対象を認識結果として出力するので、上記効
果に加えて、より一層、アプリケーション等に応じた適
切な認識処理を行なうことが可能になる。
【図面の簡単な説明】
【図1】本発明に係る音声認識装置の構成例を示す図で
ある。
【図2】静かな環境での各認識対象a,b,cの類似度
の変化を示す図である。
【図3】騒音環境での各認識対象a,b,cの類似度の
変化を示す図である。
【図4】図3のように騒音環境下での各認識対象a,
b,cの類似度の変化に対して本発明を適用する場合を
示す図である。
【図5】音声認識装置の動作開始時からのフレーム毎の
平均値を時間方向へ平均する仕方を示す図である。
【図6】一定時間内のフレームの平均値を時間方向へ平
均する仕方、すなわち移動平均をとる場合を示す図であ
る。
【図7】結果出力用のリジェクト閾値,平均値保持用の
リジェクト閾値をともに同じ値に設定する場合の問題を
説明するための図である。
【図8】図1の音声認識装置の変形例を示す図である。
【図9】従来の音声認識方式を説明するための図であ
る。
【符号の説明】
1 入力部 2 A/D変換部 3 特徴抽出部 4 標準パターン格納部 5 類似度計算部 6 リジェクト閾値設定部 7 類似度平均値計算部 8 類似度ピーク検出部 9 保留時間決定部 10 結果出力部 21 第1のリジェクト閾値設定部 22 第2のリジェクト閾値設定部
フロントページの続き (56)参考文献 特開 平2−125299(JP,A) 特開 平8−63183(JP,A) 特開 昭62−134699(JP,A) 特開 平10−222191(JP,A) 特開 平10−187181(JP,A) 特許2627745(JP,B2) 特許3360978(JP,B2) 特許3499602(JP,B2) (58)調査した分野(Int.Cl.7,DB名) G10L 15/00 - 15/28

Claims (10)

    (57)【特許請求の範囲】
  1. 【請求項1】 音声入力信号から音声特徴データを抽出
    する特徴抽出手段と、抽出された音声特徴データを全て
    の認識対象の標準パターンと比較して類似度を計算する
    類似度計算手段と、所定のリジェクト閾値を設定するリ
    ジェクト閾値設定手段と、全ての認識対象の類似度が所
    定のリジェクト閾値を越えない場合は全ての認識対象の
    類似度の平均値を計算し、全ての認識対象の類似度のう
    ち1つでも所定のリジェクト閾値を越える場合は、その
    直前の平均値を保持する類似度平均値計算手段と、所定
    のリジェクト閾値を越えた認識対象の類似度のピーク値
    を検出する類似度ピーク検出手段と、認識結果を出力す
    る結果出力手段と、ある認識対象の類似度について所定
    のリジェクト閾値を越えたピーク値が前記類似度ピーク
    検出手段により検出されたときに、少なくとも、類似度
    平均値計算手段で保持されている類似度の平均値に基づ
    いて認識結果を出力するまでの保留時間を決定する保留
    時間決定手段とを備え、前記結果出力手段は、保留時間
    中に前記ピーク値を越える類似度を与える認識対象が無
    い場合に、前記ピーク値を与えた認識対象を認識結果と
    して出力することを特徴とする音声認識装置。
  2. 【請求項2】 音声入力信号から音声特徴データを抽出
    する特徴抽出手段と、抽出された音声特徴データを全て
    の認識対象の標準パターンと比較して類似度を計算する
    類似度計算手段と、平均値保持用の閾値を設定する第1
    の閾値設定手段と、結果出力用のリジェクト閾値を設定
    する第2の閾値設定手段と、全ての認識対象の類似度が
    平均値保持用の閾値を越えない場合は全ての認識対象の
    類似度の平均値を計算し、全ての認識対象の類似度のう
    ち1つでも平均値保持用の閾値を越える場合は、その直
    前の平均値を保持する類似度平均値計算手段と、平均値
    保持用の閾値を越えた認識対象の類似度のピーク値を検
    出する類似度ピーク検出手段と、認識結果を出力する結
    果出力手段と、ある認識対象の類似度について平均値保
    持用の閾値を越えたピーク値が前記類似度ピーク検出手
    段により検出されたときに、少なくとも、類似度平均値
    計算手段で保持されている類似度の平均値に基づいて認
    識結果を出力するまでの保留時間を決定する保留時間決
    定手段とを備え、前記結果出力手段は、保留時間中に前
    記ピーク値を越える類似度を与える認識対象が無く、か
    つ、前記ピーク値を与えた認識対象の類似度が結果出力
    用のリジェクト閾値を越えた場合に、前記ピーク値を与
    えた認識対象を認識結果として出力することを特徴とす
    る音声認識装置。
  3. 【請求項3】 請求項2記載の音声認識装置において、
    前記結果出力用のリジェクト閾値は、平均値保持用の閾
    値よりも高く設定されることを特徴とする音声認識装
    置。
  4. 【請求項4】 請求項1または請求項2記載の音声認識
    装置において、前記結果出力手段は、前記保留時間中に
    前記ピーク値を越える類似度を与える認識対象がある場
    合は、前記ピーク値を与えた認識対象を認識結果として
    出力せず、前記ピーク値を越えた認識対象の類似度につ
    いて新たにピーク値が前記類似度ピーク検出手段により
    検出されるとき、前記保留時間決定部に新たな保留時間
    を決定させ設定させることを特徴とする音声認識装置。
  5. 【請求項5】 請求項1,請求項2,請求項4のいずれ
    か一項に記載の音声認識装置において、前記保留時間決
    定手段は、前記直前に保持された平均値から保留時間を
    決定することを特徴とする音声認識装置。
  6. 【請求項6】 請求項1,請求項2,請求項4のいずれ
    か一項に記載の音声認識装置において、前記保留時間決
    定手段は、前記類似度ピーク検出手段により検出された
    類似度のピーク値と前記直前に保持された平均値との差
    から保留時間を決定することを特徴とする音声認識装
    置。
  7. 【請求項7】 請求項1,請求項2,請求項4のいずれ
    か一項に記載の音声認識装置において、前記保留時間決
    定手段は、前記類似度ピーク検出手段により検出された
    類似度のピーク値と前記直前に保持された平均値との比
    から保留時間を決定することを特徴とする音声認識装
    置。
  8. 【請求項8】 請求項1,請求項2,請求項4のいずれ
    か一項に記載の音声認識装置において、前記類似度平均
    値計算手段は、前記平均値を、該音声認識装置の動作開
    始時からの平均値、または、一定時間内のフレーム当た
    りの平均値を時間方向に移動させながら平均をとった移
    動平均、または、時間方向のローパスフィルタリングと
    して算出することを特徴とする音声認識装置。
  9. 【請求項9】 音声入力信号から音声特徴データを抽出
    し標準パターンと比較して類似度を計算し、全ての認識
    対象の類似度が所定のリジェクト閾値を越えない場合は
    全ての認識対象の類似度の平均値を計算し、全ての認識
    対象の類似度のうち1つでも所定のリジェクト閾値を越
    える場合は、その直前の平均値を保持し、ある認識対象
    の類似度について所定のリジェクト閾値を越えたピーク
    値が検出された場合、少なくとも、前記直前に保持され
    た平均値に基づいて認識結果を出力するまでの保留時間
    を決定し、保留時間中に前記ピーク値を越える類似度を
    与える認識対象が無い場合は、前記ピーク値を与えた認
    識対象を認識結果として出力することを特徴とする音声
    認識方法。
  10. 【請求項10】 音声入力信号から音声特徴データを抽
    出し標準パターンと比較して類似度を計算し、全ての認
    識対象の類似度が平均値保持用の閾値を越えない場合は
    全ての認識対象の類似度の平均値を計算し、全ての認識
    対象の類似度のうち1つでも平均値保持用の閾値を越え
    る場合は、その直前の平均値を保持し、ある認識対象の
    類似度について平均値保持用の閾値を越えたピーク値が
    検出された場合、少なくとも、前記直前に保持された平
    均値に基づいて認識結果を出力するまでの保留時間を決
    定し、保留時間中に前記ピーク値を越える類似度を与え
    る認識対象が無く、かつ、前記ピーク値を与えた認識対
    象の類似度が平均値保持用の閾値よりも高く設定されて
    いる結果出力用のリジェクト閾値を越えた場合には、前
    記ピーク値を与えた認識対象を認識結果として出力する
    ことを特徴とする音声認識方法。
JP22045296A 1996-08-02 1996-08-02 音声認識装置および音声認識方法 Expired - Fee Related JP3484559B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP22045296A JP3484559B2 (ja) 1996-08-02 1996-08-02 音声認識装置および音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP22045296A JP3484559B2 (ja) 1996-08-02 1996-08-02 音声認識装置および音声認識方法

Publications (2)

Publication Number Publication Date
JPH1049190A JPH1049190A (ja) 1998-02-20
JP3484559B2 true JP3484559B2 (ja) 2004-01-06

Family

ID=16751345

Family Applications (1)

Application Number Title Priority Date Filing Date
JP22045296A Expired - Fee Related JP3484559B2 (ja) 1996-08-02 1996-08-02 音声認識装置および音声認識方法

Country Status (1)

Country Link
JP (1) JP3484559B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4845118B2 (ja) 2006-11-20 2011-12-28 富士通株式会社 音声認識装置、音声認識方法、および、音声認識プログラム
JP5105912B2 (ja) * 2007-03-13 2012-12-26 アルパイン株式会社 音声明瞭度改善装置およびその騒音レベル推定方法

Also Published As

Publication number Publication date
JPH1049190A (ja) 1998-02-20

Similar Documents

Publication Publication Date Title
CN105989836B (zh) 一种语音采集方法、装置及终端设备
US8046215B2 (en) Method and apparatus to detect voice activity by adding a random signal
JP3451146B2 (ja) スペクトルサブトラクションを用いた雑音除去システムおよび方法
JP3484559B2 (ja) 音声認識装置および音声認識方法
JP2000330587A (ja) 音声認識方法および装置
JP2000310993A (ja) 音声検出装置
JPH05119792A (ja) 音声認識装置
JP2992324B2 (ja) 音声区間検出方法
JP3091537B2 (ja) 音声パターン作成方法
JP3114757B2 (ja) 音声認識装置
KR100345402B1 (ko) 피치 정보를 이용한 실시간 음성 검출 장치 및 그 방법
JP3360978B2 (ja) 音声認識装置
JP3474072B2 (ja) 音声認識装置および音声認識方法
JP3065739B2 (ja) 音声区間検出装置
JP3533773B2 (ja) 時系列パターン認識処理におけるリジェクト方法およびそれを実装した時系列パターン認識装置
KR100501919B1 (ko) 2개의 증폭기를 구비한 음성인식기 및 그 음성인식 방법
JP2737109B2 (ja) 音声区間検出方式
JPH09127982A (ja) 音声認識装置
JP2532618B2 (ja) ピッチ抽出装置
JP3439602B2 (ja) 音声認識装置
JP2891259B2 (ja) 音声区間検出装置
JP2005107384A (ja) 音声認識装置および方法、プログラム並びに記録媒体
JP3411074B2 (ja) 母音区間検出装置及び母音区間検出方法
JP3008404B2 (ja) 音声認識装置
JP3450972B2 (ja) パターン認識装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071024

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081024

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081024

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091024

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101024

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111024

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121024

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131024

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees