JP3484559B2

JP3484559B2 - 音声認識装置および音声認識方法

Info

Publication number: JP3484559B2
Application number: JP22045296A
Authority: JP
Inventors: 章次栗木
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1996-08-02
Filing date: 1996-08-02
Publication date: 2004-01-06
Anticipated expiration: 2016-08-02
Also published as: JPH1049190A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識装置およ
び音声認識方法に関する。

【０００２】

【従来の技術】従来、例えば特開昭６２−１１１２９３
号(以下、従来技術１と称す)には、認識すべき音声とそ
の前後の騒音を含む十分長い区間を入力信号区間とし、
この区間内でワードスポッティングを行ない、類似度が
最大となる認識対象を認識結果として出力することによ
り、音声区間検出を行なうことなく騒音環境化で発声し
た音声を、認識対象音声とその前後に騒音を含んだ十分
長い入力の中から切り出し、認識する技術が示されてい
る。

【０００３】従来技術１では、十分長い入力音声区間内
で認識を行なうため、騒音などにより類似度が上がる認
識対象があっても、対象音声による認識対象の類似度が
それを上回って大きくなり、入力音声区間内の最大類似
度が得られた認識対象を結果出力することで、騒音によ
る誤認識を結果出力することを避けることができる。

【０００４】図９はこの従来技術１において認識処理さ
れた認識対象ａ，ｂ，ｃの類似度の時間変化を示す図で
ある。図９の例では、非音声区間で、認識対象ｂ，ｃは
認識対象ａより大きな類似度を得ているが、音声が入る
と(音声区間では)、正解である認識対象ａの類似度が大
きくなる。これにより、認識結果としては、入力音声区
間内で最大の類似度を得た認識対象ａが出力され、非音
声区間でａよりも大きな類似度を得た認識対象ｂ，ｃは
無視される。

【０００５】このように、従来技術１によれば、認識す
べき音声とその前後の騒音を含む十分長い区間を入力信
号区間とし、この区間内でワードスポッティングを行な
い、類似度が最大となる認識対象を認識結果として出力
することにより、騒音による誤認識結果が出力されるこ
とを避けることができる。

【０００６】しかしながら、上述の従来技術１では、十
分長い入力音声区間が終了しなければ認識結果が出力さ
れないため、実際の機器に使用する場合、長い反応時間
が必要となり、認識対象音声を発声してから認識結果が
出力されるまで時間がかかり実用的ではない。

【０００７】そのため、入力音声区間の終了を待たずに
類似度の変化のピークを検出し、ピークを検出後、一定
時間(図９ではｔ₁で示す)内に、他の認識対象の類似度
がピークを越えなければ、いまピークが検出された認識
対象を結果出力することで、反応時間が短かい認識結果
の出力が可能である。但し、この場合、非音声区間で誤
認識結果が出力されるため(認識対象ｂとｃが非音声区
間で認識結果として出力されるため)、リジェクト閾値
を定め、類似度が閾値以下の場合には、認識結果をリジ
ェクトすることで、誤認識結果が出力されるのを避ける
必要がある。

【０００８】しかしながら、環境が変化すると非音声区
間の誤認識となる認識対象の類似度が変化するため、１
つのリジェクト閾値で全ての環境変化に対応することは
できない。

【０００９】このような問題に対処するため、例えば特
公昭６０−６００８０号(以下、従来技術２と称す)，特
開平１−３２１４９９号(以下、従来技術３と称す)に
は、騒音下でのリジェクトを効果的に行なうためリジェ
クト処理を行なう閾値を環境により変化させる技術が示
されている。すなわち、従来技術２では、周囲騒音によ
りリジェクト閾値を変化させ、また、従来技術３では、
入力音声のＳ／Ｎにより閾値を変化させるようになって
いる。

【００１０】

【発明が解決しようとする課題】このように、従来技術
２，従来技術３では、環境の変化により、リジェクト閾
値を変化させることができるため、最適なリジェクト閾
値を設定することができる。しかしながら、従来技術２
では、雑音レベルを検出する必要があり、また、従来技
術３においても、Ｓ／Ｎを検出するためには雑音レベル
と音声レベルを検出しなければならないという問題があ
った。すなわち、雑音レベルを検出するためには、非音
声区間の検出が必要であり、非音声区間はパワー情報を
使用して検出されるが、雑音が大きくなり音声とのパワ
ー差が少なくなると非音声区間の検出ができなくなり、
雑音レベルの検出も不可能になる。このため、従来技術
２，従来技術３では、高騒音下においてはリジェクト閾
値を環境に対応して設定することができないという問題
があった。

【００１１】本発明は、高騒音下においても、雑音レベ
ル等の環境の変化を容易に検出することができ、これに
より、高騒音下においても、環境の変化に追従させて使
用勝手の良く、正しい認識結果を得ることの可能な音声
認識を実現できて、かつ、従来に比べて、短かい反応時
間で認識結果を出力することが可能な音声認識装置およ
び音声認識方法を提供することを目的としている。

【００１２】

【課題を解決するための手段】上記目的を達成するため
に、請求項１記載の発明は、音声入力信号から音声特徴
データを抽出する特徴抽出手段と、抽出された音声特徴
データを全ての認識対象の標準パターンと比較して類似
度を計算する類似度計算手段と、所定のリジェクト閾値
を設定するリジェクト閾値設定手段と、全ての認識対象
の類似度が所定のリジェクト閾値を越えない場合は全て
の認識対象の類似度の平均値を計算し、全ての認識対象
の類似度のうち１つでも所定のリジェクト閾値を越える
場合は、その直前の平均値を保持する類似度平均値計算
手段と、所定のリジェクト閾値を越えた認識対象の類似
度のピーク値を検出する類似度ピーク検出手段と、認識
結果を出力する結果出力手段と、ある認識対象の類似度
について所定のリジェクト閾値を越えたピーク値が前記
類似度ピーク検出手段により検出されたときに、少なく
とも、類似度平均値計算手段で保持されている類似度の
平均値に基づいて認識結果を出力するまでの保留時間を
決定する保留時間決定手段とを備え、結果出力手段は、
保留時間中にピーク値を越える類似度を与える認識対象
が無い場合に、ピーク値を与えた認識対象を認識結果と
して出力することを特徴としている。

【００１３】また、請求項２記載の発明は、音声入力信
号から音声特徴データを抽出する特徴抽出手段と、抽出
された音声特徴データを全ての認識対象の標準パターン
と比較して類似度を計算する類似度計算手段と、平均値
保持用の閾値を設定する第１の閾値設定手段と、結果出
力用のリジェクト閾値を設定する第２の閾値設定手段
と、全ての認識対象の類似度が平均値保持用の閾値を越
えない場合は全ての認識対象の類似度の平均値を計算
し、全ての認識対象の類似度のうち１つでも平均値保持
用の閾値を越える場合は、その直前の平均値を保持する
類似度平均値計算手段と、平均値保持用の閾値を越えた
認識対象の類似度のピーク値を検出する類似度ピーク検
出手段と、認識結果を出力する結果出力手段と、ある認
識対象の類似度について平均値保持用の閾値を越えたピ
ーク値が類似度ピーク検出手段により検出されたとき
に、少なくとも、類似度平均値計算手段で保持されてい
る類似度の平均値に基づいて認識結果を出力するまでの
保留時間を決定する保留時間決定手段とを備え、結果出
力手段は、保留時間中にピーク値を越える類似度を与え
る認識対象が無く、かつ、ピーク値を与えた認識対象の
類似度が結果出力用のリジェクト閾値を越えた場合に、
ピーク値を与えた認識対象を認識結果として出力するこ
とを特徴としている。

【００１４】また、請求項３記載の発明は、請求項２記
載の音声認識装置において、結果出力用のリジェクト閾
値は、平均値保持用の閾値よりも高く設定されることを
特徴としている。

【００１５】また、請求項４記載の発明は、請求項１ま
たは請求項２記載の音声認識装置において、結果出力手
段は、保留時間中にピーク値を越える類似度を与える認
識対象がある場合は、ピーク値を与えた認識対象を認識
結果として出力せず、ピーク値を越えた認識対象の類似
度について新たにピーク値が類似度ピーク検出手段によ
り検出されるとき、保留時間決定部に新たな保留時間を
決定させ設定させることを特徴としている。

【００１６】また、請求項５記載の発明は、請求項１，
請求項２，請求項４のいずれか一項に記載の音声認識装
置において、保留時間決定手段は、直前に保持された平
均値から保留時間を決定することを特徴としている。

【００１７】また、請求項６記載の発明は、請求項１，
請求項２，請求項４のいずれか一項に記載の音声認識装
置において、保留時間決定手段は、類似度ピーク検出手
段により検出された類似度のピーク値と直前に保持され
た平均値との差から保留時間を決定することを特徴とし
ている。

【００１８】また、請求項７記載の発明は、請求項１，
請求項２，請求項４のいずれか一項に記載の音声認識装
置において、保留時間決定手段は、類似度ピーク検出手
段により検出された類似度のピーク値と直前に保持され
た平均値との比から保留時間を決定することを特徴とし
ている。

【００１９】また、請求項８記載の発明は、請求項１，
請求項２，請求項４のいずれか一項に記載の音声認識装
置において、類似度平均値計算手段は、平均値を、該音
声認識装置の動作開始時からの平均値、または、一定時
間内のフレーム当たりの平均値を時間方向に移動させな
がら平均をとった移動平均、または、時間方向のローパ
スフィルタリングとして算出することを特徴としてい
る。

【００２０】また、請求項９記載の発明は、音声入力信
号から音声特徴データを抽出し標準パターンと比較して
類似度を計算し、全ての認識対象の類似度が所定のリジ
ェクト閾値を越えない場合は全ての認識対象の類似度の
平均値を計算し、全ての認識対象の類似度のうち１つで
も所定のリジェクト閾値を越える場合は、その直前の平
均値を保持し、ある認識対象の類似度について所定のリ
ジェクト閾値を越えたピーク値が検出された場合、少な
くとも、直前に保持された平均値に基づいて認識結果を
出力するまでの保留時間を決定し、保留時間中にピーク
値を越える類似度を与える認識対象が無い場合は、ピー
ク値を与えた認識対象を認識結果として出力することを
特徴としている。

【００２１】また、請求項１０記載の発明は、音声入力
信号から音声特徴データを抽出し標準パターンと比較し
て類似度を計算し、全ての認識対象の類似度が平均値保
持用の閾値を越えない場合は全ての認識対象の類似度の
平均値を計算し、全ての認識対象の類似度のうち１つで
も平均値保持用の閾値を越える場合は、その直前の平均
値を保持し、ある認識対象の類似度について平均値保持
用の閾値を越えたピーク値が検出された場合、少なくと
も、直前に保持された平均値に基づいて認識結果を出力
するまでの保留時間を決定し、保留時間中にピーク値を
越える類似度を与える認識対象が無く、かつ、ピーク値
を与えた認識対象の類似度が平均値保持用の閾値よりも
高く設定されている結果出力用のリジェクト閾値を越え
た場合には、ピーク値を与えた認識対象を認識結果とし
て出力することを特徴としている。

【００２２】また、請求項１，請求項４乃至請求項９記
載の発明は、音声入力信号から音声特徴データを抽出し
標準パターンと比較して類似度を計算し、全ての認識対
象の類似度が所定のリジェクト閾値を越えない場合は全
ての認識対象の類似度の平均値を計算し、全ての認識対
象の類似度のうち１つでも所定のリジェクト閾値を越え
る場合は、その直前の平均値を保持し、ある認識対象の
類似度について所定のリジェクト閾値を越えたピーク値
が検出された場合、少なくとも、直前に保持された平均
値に基づいて認識結果を出力するまでの保留時間を決定
し、保留時間中にピーク値を越える類似度を与える認識
対象が無い場合は、ピーク値を与えた認識対象を認識結
果として出力するので、少なくとも静かな環境下では短
かい反応時間で認識結果を出力することができ、また、
高騒音下においても、正しい認識結果を得ることが可能
な、環境の変化に追従する使い勝手の良い音声認識を実
現できる。

【００２３】また、請求項２乃至請求項８，請求項１０
記載の発明は、音声入力信号から音声特徴データを抽出
し標準パターンと比較して類似度を計算し、全ての認識
対象の類似度が平均値保持用の閾値を越えない場合は全
ての認識対象の類似度の平均値を計算し、全ての認識対
象の類似度のうち１つでも平均値保持用の閾値を越える
場合は、その直前の平均値を保持し、ある認識対象の類
似度について平均値保持用の閾値を越えたピーク値が検
出された場合、少なくとも、直前に保持された平均値に
基づいて認識結果を出力するまでの保留時間を決定し、
保留時間中にピーク値を越える類似度を与える認識対象
が無く、かつ、ピーク値を与えた認識対象の類似度が平
均値保持用の閾値よりも高く設定されている結果出力用
のリジェクト閾値を越えた場合には、ピーク値を与えた
認識対象を認識結果として出力するので、上記効果に加
えて、より一層、アプリケーション等に応じた適切な認
識処理を行なうことが可能になる。

【００２４】

【発明の実施の形態】以下、本発明の実施形態を図面に
基づいて説明する。図１は本発明に係る音声認識装置の
構成例を示す。図１を参照すると、この音声認識装置
は、入力された音声を電気信号(アナログ音声信号)に変
換する入力部(例えばマイクロホン)１と、入力部１から
のアナログ音声信号をデジタル音声信号に変換するＡ／
Ｄ変換部２と、デジタル音声信号をフレーム毎に音声特
徴データに変換する特徴抽出部３と、全ての認識対象の
標準パターンが予め格納されている標準パターン格納部
４と、特徴抽出部３からの音声特徴データを標準パター
ン格納部４に格納されている各認識対象の標準パターン
と比較し、各認識対象との類似度を計算する類似度計算
部５と、リジェクト閾値ＴＨが設定されるリジェクト閾
値設定部６と、全ての認識対象の類似度がリジェクト閾
値ＴＨを越えない場合は、全ての認識対象の類似度の平
均値を計算し、全ての認識対象のうちの１つでも、その
類似度がリジェクト閾値ＴＨを越えた場合には、その直
前の類似度の平均値を保持する類似度平均値計算部７
と、リジェクト閾値ＴＨを越えた認識対象の類似度のピ
ークを検出する類似度ピーク検出部８と、リジェクト閾
値ＴＨを越えた認識対象のピークが類似度ピーク検出部
８によって検出されたとき、少なくとも、類似度平均値
計算部７で保持されている類似度の平均値(全ての認識
対象のうちの１つでも、その類似度がリジェクト閾値Ｔ
Ｈを越えた場合には、その直前の類似度の平均値)に基
づいて、ピーク値が検出された認識対象を認識結果とし
て出力するまでの保留時間を決定する保留時間決定部９
と、保留時間中にピーク値を越える類似度を与える認識
対象が無い場合に、リジェクト閾値ＴＨを越えてピーク
値が検出された認識対象を認識結果として出力する結果
出力部１０とを備えている。

【００２５】ここで、特徴抽出部３，標準パターン格納
部４，類似度計算部５には、一般的な音声認識技術を用
いることができる。

【００２６】すなわち、図１の音声認識装置において
も、基本的には、一般的な音声認識技術が用いられる。
例えば、音声の開始点と終了点を検出して音声区間と
し、この音声区間に対して音声パターン認識等を行な
い、最大の類似度が得られた標準パターン(認識対象で
ある)の単語番号や属性データを認識結果として出力す
る形式のものを用いることができる。

【００２７】あるいは、音声区間を必要としないワード
スポッティング法による認識のものを用いることもでき
る。例えば継続時間制御型状態遷移モデルを用いた単語
音声認識法を用いることもでき、単語音声認識法による
認識を行なえば、音声の終了付近で類似度が最大とな
り、類似度のピーク点を検出することで認識結果を出力
することができる。

【００２８】また、類似度平均値計算部７は、全ての認
識対象の類似度の平均として、例えば次式のように、フ
レーム毎に計算された認識対象の類似度の平均値を算出
することができる。

【００２９】

【数１】

【００３０】ここで、Ｓｉｍ(ｉ)はあるフレームでの認
識対象ｉの類似度であり、ｎは認識対象の数である。

【００３１】また、保留時間決定部９は、保留時間を、
例えば次のように決定するようになっている。

【００３２】すなわち、類似度平均値計算部７で保持さ
れている平均値が大きい程、保留時間を長くする。ある
いは、類似度ピーク検出部８で検出された類似度のピー
ク値と類似度平均値計算部７で保持されている類似度の
平均値との差が小さい程、すなわち、(類似度ピーク値
−保持されている平均値)が小さい程、保留時間を長く
する。あるいは、類似度ピーク検出部８で検出された類
似度のピーク値と類似度平均値計算部７で保持されてい
る類似度の平均値との比が小さい程、すなわち、(類似
度ピーク値／保持されている平均値)が小さい程、保留
時間を長くする。

【００３３】すなわち、保留時間ｔ_nは、少なくとも、
ピーク値が得られた時点で類似度平均値計算部７に保持
されている類似度の平均値に基づいて求められる。すな
わち、平均値とピーク値の差が小さい場合、および／ま
たは、ピーク値と平均値の比が小さい場合、および／ま
たは、平均値の類似度が大きい場合には、保留時間ｔ_n
を長く設定する。例えば、保留時間ｔ_nは、次式のよう
に設定される。

【００３４】

【数２】ｔ_n＝α₁・｛１／(Ｐ−Ａ)｝＋α₂・(Ａ／Ｐ)＋α₃・Ａ

【００３５】ここで、Ｐは類似度のピーク値、Ａは保持
されている類似度の平均値、α₁，α₂，α₃は実験的に
得られた係数である。

【００３６】なお、この場合、保留時間決定部９で決定
される保留時間は、実験により求めたテーブルを使用す
ることで実現可能である。一例として静かな環境で１０
０〜２００ｍｓ、高騒音下で１秒程度であれば一般的な
アプリケーションに適応できる。

【００３７】また、結果出力部１０は、ピーク値が検出
された後、保留時間決定部９で決定された保留時間ｔ_n
が経過するまでの間に、このピーク値を越える類似度が
得られた認識対象がなければ、そのピーク値を与えた認
識対象を認識結果として出力する一方、ピーク値が検出
された後、保留時間ｔ_nが経過するまでの間に、このピ
ーク値を越える類似度を与える認識対象があれば、この
ピーク値を与えた認識対象を認識結果として出力せず
(結果を無効とし)、このピーク値を越えた認識対象の類
似度について新たな保留時間が設定され、新たな保留動
作を行なうようになっている。

【００３８】次に、図１の音声認識装置の動作について
説明する。入力部１から入力された音声は、入力部１で
電気信号(アナログ音声信号)に変換され、Ａ／Ｄ変換部
２でデジタル値に変換される。デジタル化された音声デ
ータは、特徴抽出部３でフレーム毎に音声特徴データに
変換される。ここで、音声特徴データは周波数帯域での
パワー値を示すＴＳＰやケプストラム値などが一般的で
ある。

【００３９】特徴抽出部３で得られた音声特徴データ
は、類似度計算部５において、標準パターン格納部４に
予め格納されている各認識対象の標準パターンと比較さ
れ、各認識対象の類似度が計算される。各認識対象の類
似度はフレーム周期毎に更新され、時間により変化す
る。類似度平均値計算部７は、全認識対象の類似度がリ
ジェクト閾値ＴＨより小さい場合には、全認識対象の類
似度の平均値を計算する。この平均値はフレーム周期毎
に更新される。

【００４０】音声が入力された場合や騒音の影響で、１
つでも認識対象の類似度がリジェクト閾値ＴＨを越えた
場合、類似度平均値計算部７では、リジェクト閾値ＴＨ
を越える直前の類似度の平均値を保持し、フレーム周期
後の更新を行なわない。また、類似度ピーク検出部８で
は、リジェクト閾値ＴＨを越えた認識対象の類似度のピ
ーク値を検出する。類似度ピーク検出部８によりピーク
値が検出されると、保留時間決定部９は、例えば、類似
度ピーク検出部８に保持されている平均値と類似度ピー
ク検出部８で検出された類似度のピーク値とに基づき、
例えば数２を用いて、結果出力するまでの保留時間ｔ_n
を決定する。

【００４１】結果出力部１０は、ピーク値が検出された
後、保留時間決定部９で決定された保留時間ｔ_nが経過
するまでの間に、このピーク値を越える類似度を与える
認識対象がなければ、そのピーク値を与えた認識対象を
認識結果として出力する。これに対し、ピーク値が検出
された後、保留時間ｔ_nが経過するまでの間に、このピ
ーク値を越える類似度を与える認識対象があれば、この
ピーク値を与えた認識対象を認識結果として出力せず
(結果を無効とし)、このピーク値を越えた認識対象の類
似度について新たな保留時間が設定され、新たな保留動
作を行なう。

【００４２】次に、具体的な動作例について説明する。
図２は静かな環境での各認識対象ａ，ｂ，ｃの類似度の
変化を示す図であり、図２の例では、認識対象ａ，ｂ，
ｃのいずれも、音声が無い区間では低い類似度を保って
いる。これは静かな環境の音声特徴抽出値が音声が入力
された音声特徴抽出値と大きく異なるため、パターン距
離が大きくなり類似度が低くなることによるものであ
る。図２には、さらに、全ての認識対象の類似度の平均
値を計算した結果が、×−×線で示されている。

【００４３】各認識対象の類似度は時間的に変化するた
め、一般にフレームという単位時間(数ｍｓ〜数十ｍｓ
程度に設定される)内の音声波形から特徴抽出した音声
特徴データに対して類似度を計算する。従って、類似度
はフレーム周期毎に更新され、また、全ての認識対象の
類似度の平均値もフレーム毎に更新されるが、平均値の
計算は認識対象の類似度がリジェクト閾値ＴＨ以下であ
る場合に行ない、１つでもリジェクト閾値ＴＨを越えた
場合(図２の例では、認識対象ａに対応する音声が入力
されて音声区間内で認識対象ａの類似度が高くなり、リ
ジェクト閾値ＴＨを越えた場合)は直前の平均値Ａ１が
保持される。ここで、保持された平均値Ａ１は、周囲の
環境の状態を反映したものとなっている。図２の例で
は、周囲の環境は静かな環境であり、全ての認識対象の
類似度が低くなるため、平均値Ａ１は小さくなる。一
方、入力音声の認識対象ａとの類似度は、音声区間内
で、リジェクト閾値ＴＨを越えた後、音声区間終了付近
でピーク値Ｐ０を得て、その後小さくなる。

【００４４】この場合、例えば、ピーク値Ｐ０が得られ
た時点で保持されている平均値Ａ１とピーク値Ｐ０との
類似度の差(Ｐ０−Ａ１)が大きい場合には、ピーク値Ｐ
０を与えた認識対象ａは非音声区間の類似度の平均値Ａ
１に比べて著しく極だっているため、ピーク値Ｐ０が得
られた時点から短かい時間(短かい保留時間)ｔ₂の後
に，認識結果(ピーク値Ｐ０を与えた認識対象ａ)を出力
する。ここで、ｔ₂としては、１００ｍｓ〜２００ｍｓ
程度が適している。

【００４５】このように、本発明によれば、静かな環境
下では、短かい反応時間で認識結果を出力することがで
きる。

【００４６】なお、非音声区間の平均値が小さい場合に
は、リジェクト閾値ＴＨを越える認識対象が非音声区間
では無いため、音声区間以外で認識結果が出力されるこ
とはない。また、例えば、正解認識対象の類似度のピー
ク値と非音声区間の平均値との差が大きい場合には、リ
ジェクト閾値ＴＨは実験的に容易に設定できる。

【００４７】一方、騒音が大きくなってくると、騒音区
間(非音声区間)でも類似度が高くなる認識対象が出てく
る。また、音声区間においても、音声に騒音が付加され
ることで音声特徴抽出値が歪んでくるため、正解認識対
象の類似度のピーク値が下がる。

【００４８】従来の方式では、図９に示したように、騒
音区間のピーク値Ｐ１，Ｐ３と最大類似度を与えるピー
ク値Ｐ０との間にリジェクト閾値ＴＨを設定すること
で、誤認識結果ｂ，ｃをリジェクトしているが、さらに
騒音が大きくなった場合、騒音区間のピーク値Ｐ１，Ｐ
３と最大類似度を与えるピーク値Ｐ０との差が小さくな
り、リジェクト閾値ＴＨの設定ができなくなる。

【００４９】図３には、この様子が示されている。すな
わち、図３の例では、騒音が大きくなり、騒音区間での
ピーク値Ｐ１，Ｐ３がリジェクト閾値ＴＨを越えている
ため、従来の方式によっては、リジェクト閾値ＴＨによ
る誤認識結果Ｐ１，Ｐ３のリジェクトを行なうことがで
きない。

【００５０】これに対し、本発明では、図３のような場
合、図４に示すように、例えば、認識対象ｂの類似度が
ピーク値Ｐ１を与えた時点で保持されている平均値Ａ２
とピーク値Ｐ１との差(Ｐ１−Ａ２)は小さいため、結果
出力するまでの時間(保留時間)ｔ₃を長く設定する。こ
れにより、図３のような場合、誤認識結果が出力される
前に、正解認識対象ａの類似度がピーク値Ｐ１を越える
ため、ピーク値Ｐ１の結果は無効となり、誤認識結果ｂ
が出力されるのを防ぐことができる。

【００５１】そして、正解認識対象ａの類似度のピーク
値Ｐ０が得られると、その場合、ピーク値Ｐ０が得られ
た時点で保持されている平均値Ａ３は、例えば図２の平
均値Ａ１よりも大きく(騒音がある場合は騒音の音声特
徴データが音声の特徴データと似ているため、パターン
距離が小さく類似度が高くなることによる)、従って、
ピーク値Ｐ０と平均値Ａ３との差(Ｐ０−Ａ３)は、図２
におけるピーク値Ｐ０と平均値Ａ１との差(Ｐ０−Ａ１)
に比べて小さく、この場合、結果出力するまでの時間ｔ
₄は図２のｔ₂に比べて長く設定される。

【００５２】これにより、図４の例では、ピーク値Ｐ０
が得られた認識対象ａを認識結果として出力するための
保留時間ｔ₄を経過するまでに、認識対象ｃの類似度が
ピーク値Ｐ３をとるが、ピーク値Ｐ３はピーク値Ｐ０よ
りも類似度が低いためピーク値Ｐ３による認識結果出
力，すなわち認識対象ｃの結果は棄却される。

【００５３】このように、本発明によれば、図４の例か
らわかるように、ピーク値Ｐ０が得られた後、保留時間
ｔ₄を経過した時点で、認識対象ａの正解認識結果が出
力され、この場合、非音声区間(騒音区間)の認識対象
ｂ，ｃの誤認識結果は棄却される。すなわち、本発明に
よれば、高騒音下においても、正しい認識結果を得るこ
とができる。

【００５４】上述の例では、認識対象の類似度の平均と
して、フレーム毎に計算された認識対象の類似度の平均
値を用いたが、これ以外にも、種々のものを用いること
ができる。

【００５５】例えば、保留時間決定に使用される平均値
として、リジェクト閾値ＴＨを越える類似度を持つ認識
対象が現われる直前のフレームの平均値を用いる場合、
直前のフレームの平均値のみでは周囲環境を代表してい
ない場合がある。例えば直前に突発性ノイズがあった場
合、保持した平均値のみが大きな値を示すこともありう
る。そのため、フレーム毎の平均値を時間軸方向にフィ
ルタリングすることによって、突発性ノイズに対応する
ことも可能である。

【００５６】図５はこの音声認識装置の動作開始時から
のフレーム毎の平均値を時間方向へ平均する仕方を示す
図である。この場合、認識対象の類似度がリジェクト閾
値ＴＨを越えた期間は除外する。すなわち、図５の例で
は、図中矢印実線で示すように、動作開始時からのフレ
ーム毎の平均値を認識対象の類似度がリジェクト閾値Ｔ
Ｈを越えた期間を除外して、時間軸方向へ平均して、最
新の平均値としている。これにより、周囲環境を代表し
た平均値を使用することができる。

【００５７】また、図６は一定時間内のフレームの平均
値を時間方向へ平均する仕方、すなわち移動平均をとる
場合を示す図である。図６の例では、図中矢印実線区間
で平均をとり、時間軸に対して移動平均を求めている。
これにより、周囲環境の変化に追随した平均値を使用す
ることができる。

【００５８】また、時間軸方向のフィルタリングとし
て、例えば次式によって時間平均をとって良い。

【００５９】

【数３】時間平均値＝(現フレームの平均値＋前フレー
ムの平均値)／２

【００６０】数３によって時間平均をとる場合には、周
囲環境に追随した平均値を簡易に得られる。

【００６１】また、上述の構成例では、類似度のピーク
検出処理を開始するためのリジェクト閾値(すなわち、
誤認識を避けるための結果出力用のリジェクト閾値)と
平均値の保持処理を開始するための平均値保持用のリジ
ェクト閾値とに、同じ閾値ＴＨを使用している。しかし
ながら、アプリケーションによっては誤認識を避けるた
めに、結果出力用のリジェクト閾値を高く設定する場合
があり、この場合、平均値保持用のリジェクト閾値が結
果出力用のリジェクト閾値と同じであると、音声が入力
されて類似度が上がる区間まで平均値として計算される
ため、保持される平均値が高くなってしまう。

【００６２】図７には、この様子が示されている。すな
わち、図７において、結果出力用のリジェクト閾値，平
均値保持用のリジェクト閾値をともに低い値ＴＨ１に設
定する場合には、保持される平均値を符号Ａ５で示すよ
うに、低く維持することができるが、結果出力用のリジ
ェクト閾値が低い値ＴＨ１に設定されていることから、
アプリケーションによっては、誤認識の割合いが増加す
る恐れがある。

【００６３】これに対し、図７において、結果出力用の
リジェクト閾値，平均値保持用のリジェクト閾値をとも
に高い値ＴＨ２に設定する場合には、誤認識の割合いを
低減することができるが、保持される平均値は、符号Ａ
４で示すように、符号Ａ５に比べて高くなってしまう。
すなわち、値の大きなリジェクト閾値ＴＨ２を使用する
場合には、音声に対応した正解認識対象の類似度が大き
な時点で平均値が保持されるため(図中Ａ４)、全認識対
象の平均値が音声に対応した認識対象のために高くなっ
てしまい、適切な認識処理を行なう上で、支障の生ずる
ことがある。

【００６４】このように、アプリケーションによって結
果出力用のリジェクト閾値を高く設定する必要がある場
合における上述の問題を回避するため、図１の構成を図
８のように変形することができる。

【００６５】すなわち、図８の構成例では、図１のリジ
ェクト閾値設定部６のかわりに、平均値保持用の閾値Ｔ
Ｈ１が設定される第１の閾値設定部２１と、結果出力用
のリジェクト閾値ＴＨ２が設定される第２の閾値設定部
２２とが設けられている。

【００６６】このような構成では、第１の閾値設定部２
１において、平均値保持用の閾値ＴＨ１を設定でき、ま
た、第２の閾値設定部２２においては、平均値保持用の
閾値ＴＨ１とは独立して、別個に、結果出力用のリジェ
クト閾値ＴＨ２を設定できる。そして、類似度平均計算
部７は、第１の閾値設定部２１で設定された平均値保持
用の閾値ＴＨ１を用いて、類似度平均処理(すなわち、
１つでも平均値保持用の閾値ＴＨ１を越えたときに、こ
のときの平均値を保持する処理)を行なうことができ、
また、類似度ピーク検出部８は、平均値保持用の閾値Ｔ
Ｈ１を越えた認識対象の類似度のピークの検出を行な
い、保留時間決定部９は、平均値保持用の閾値ＴＨ１を
越えた認識対象のピークが類似度ピーク検出部８によっ
て検出されたとき、少なくとも、類似度平均値計算部７
で保持されている類似度の平均値(全ての認識対象のう
ちの１つでも、その類似度がリジェクト閾値ＴＨを越え
た場合には、その直前の類似度の平均値)に基づいて、
ピーク値が検出された認識対象を認識結果として出力す
るまでの保留時間を決定することができる。

【００６７】また、結果出力部１０は、第２の閾値設定
部２２で設定された結果出力用のリジェクト閾値ＴＨ２
を用いて、結果出力処理(類似度がリジェクト閾値ＴＨ
２を越えた認識結果を採用し、類似度がリジェクト閾値
以下の認識結果を棄却する処理)を行なうことができ
る。

【００６８】従って、アプリケーションによって結果出
力用のリジェクト閾値を高く設定する必要がある場合に
は、結果出力用のリジェクト閾値ＴＨ２を図７のような
高い値に設定する一方、平均値保持用の閾値ＴＨ１につ
いては、図７のように、結果出力用のリジェクト閾値Ｔ
Ｈ２に比べて低い値に設定することができる。このよう
に、結果出力用のリジェクト閾値ＴＨ２を高い値に設定
することで、誤認識の割合いを低減することができ、ま
た、平均値保持用の閾値ＴＨ１を低い値に設定すること
で、結果出力用のリジェクト閾値ＴＨ２が高い値に設定
される場合にも、保持される平均値を図７に符号Ａ５で
示すような低い値に維持することができ、適切な認識処
理を行なうことが可能となる。

【００６９】

【発明の効果】以上に説明したように、請求項１，請求
項４乃至請求項９記載の発明によれば、音声入力信号か
ら音声特徴データを抽出し標準パターンと比較して類似
度を計算し、全ての認識対象の類似度が所定のリジェク
ト閾値を越えない場合は全ての認識対象の類似度の平均
値を計算し、全ての認識対象の類似度のうち１つでも所
定のリジェクト閾値を越える場合は、その直前の平均値
を保持し、ある認識対象の類似度について所定のリジェ
クト閾値を越えたピーク値が検出された場合、少なくと
も、直前に保持された平均値に基づいて認識結果を出力
するまでの保留時間を決定し、保留時間中にピーク値を
越える類似度を与える認識対象が無い場合は、ピーク値
を与えた認識対象を認識結果として出力するので、少な
くとも静かな環境下では短かい反応時間で認識結果を出
力することができ、また、高騒音下においても、正しい
認識結果を得ることが可能な、環境の変化に追従する使
い勝手の良い音声認識を実現できる。

【００７０】また、請求項２乃至請求項８，請求項１０
記載の発明によれば、音声入力信号から音声特徴データ
を抽出し標準パターンと比較して類似度を計算し、全て
の認識対象の類似度が平均値保持用の閾値を越えない場
合は全ての認識対象の類似度の平均値を計算し、全ての
認識対象の類似度のうち１つでも平均値保持用の閾値を
越える場合は、その直前の平均値を保持し、ある認識対
象の類似度について平均値保持用の閾値を越えたピーク
値が検出された場合、少なくとも、直前に保持された平
均値に基づいて認識結果を出力するまでの保留時間を決
定し、保留時間中にピーク値を越える類似度を与える認
識対象が無く、かつ、ピーク値を与えた認識対象の類似
度が平均値保持用の閾値よりも高く設定されている結果
出力用のリジェクト閾値を越えた場合には、ピーク値を
与えた認識対象を認識結果として出力するので、上記効
果に加えて、より一層、アプリケーション等に応じた適
切な認識処理を行なうことが可能になる。

【図面の簡単な説明】

【図１】本発明に係る音声認識装置の構成例を示す図で
ある。

【図２】静かな環境での各認識対象ａ，ｂ，ｃの類似度
の変化を示す図である。

【図３】騒音環境での各認識対象ａ，ｂ，ｃの類似度の
変化を示す図である。

【図４】図３のように騒音環境下での各認識対象ａ，
ｂ，ｃの類似度の変化に対して本発明を適用する場合を
示す図である。

【図５】音声認識装置の動作開始時からのフレーム毎の
平均値を時間方向へ平均する仕方を示す図である。

【図６】一定時間内のフレームの平均値を時間方向へ平
均する仕方、すなわち移動平均をとる場合を示す図であ
る。

【図７】結果出力用のリジェクト閾値，平均値保持用の
リジェクト閾値をともに同じ値に設定する場合の問題を
説明するための図である。

【図８】図１の音声認識装置の変形例を示す図である。

【図９】従来の音声認識方式を説明するための図であ
る。

【符号の説明】

１入力部２Ａ／Ｄ変換部３特徴抽出部４標準パターン格納部５類似度計算部６リジェクト閾値設定部７類似度平均値計算部８類似度ピーク検出部９保留時間決定部１０結果出力部２１第１のリジェクト閾値設定部２２第２のリジェクト閾値設定部

フロントページの続き (56)参考文献特開平２−125299（ＪＰ，Ａ) 特開平８−63183（ＪＰ，Ａ) 特開昭62−134699（ＪＰ，Ａ) 特開平10−222191（ＪＰ，Ａ) 特開平10−187181（ＪＰ，Ａ) 特許2627745（ＪＰ，Ｂ２) 特許3360978（ＪＰ，Ｂ２) 特許3499602（ＪＰ，Ｂ２) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/00 - 15/28

Claims

(57)【特許請求の範囲】

【請求項１】音声入力信号から音声特徴データを抽出
する特徴抽出手段と、抽出された音声特徴データを全て
の認識対象の標準パターンと比較して類似度を計算する
類似度計算手段と、所定のリジェクト閾値を設定するリ
ジェクト閾値設定手段と、全ての認識対象の類似度が所
定のリジェクト閾値を越えない場合は全ての認識対象の
類似度の平均値を計算し、全ての認識対象の類似度のう
ち１つでも所定のリジェクト閾値を越える場合は、その
直前の平均値を保持する類似度平均値計算手段と、所定
のリジェクト閾値を越えた認識対象の類似度のピーク値
を検出する類似度ピーク検出手段と、認識結果を出力す
る結果出力手段と、ある認識対象の類似度について所定
のリジェクト閾値を越えたピーク値が前記類似度ピーク
検出手段により検出されたときに、少なくとも、類似度
平均値計算手段で保持されている類似度の平均値に基づ
いて認識結果を出力するまでの保留時間を決定する保留
時間決定手段とを備え、前記結果出力手段は、保留時間
中に前記ピーク値を越える類似度を与える認識対象が無
い場合に、前記ピーク値を与えた認識対象を認識結果と
して出力することを特徴とする音声認識装置。
【請求項２】音声入力信号から音声特徴データを抽出
する特徴抽出手段と、抽出された音声特徴データを全て
の認識対象の標準パターンと比較して類似度を計算する
類似度計算手段と、平均値保持用の閾値を設定する第１
の閾値設定手段と、結果出力用のリジェクト閾値を設定
する第２の閾値設定手段と、全ての認識対象の類似度が
平均値保持用の閾値を越えない場合は全ての認識対象の
類似度の平均値を計算し、全ての認識対象の類似度のう
ち１つでも平均値保持用の閾値を越える場合は、その直
前の平均値を保持する類似度平均値計算手段と、平均値
保持用の閾値を越えた認識対象の類似度のピーク値を検
出する類似度ピーク検出手段と、認識結果を出力する結
果出力手段と、ある認識対象の類似度について平均値保
持用の閾値を越えたピーク値が前記類似度ピーク検出手
段により検出されたときに、少なくとも、類似度平均値
計算手段で保持されている類似度の平均値に基づいて認
識結果を出力するまでの保留時間を決定する保留時間決
定手段とを備え、前記結果出力手段は、保留時間中に前
記ピーク値を越える類似度を与える認識対象が無く、か
つ、前記ピーク値を与えた認識対象の類似度が結果出力
用のリジェクト閾値を越えた場合に、前記ピーク値を与
えた認識対象を認識結果として出力することを特徴とす
る音声認識装置。
【請求項３】請求項２記載の音声認識装置において、
前記結果出力用のリジェクト閾値は、平均値保持用の閾
値よりも高く設定されることを特徴とする音声認識装
置。
【請求項４】請求項１または請求項２記載の音声認識
装置において、前記結果出力手段は、前記保留時間中に
前記ピーク値を越える類似度を与える認識対象がある場
合は、前記ピーク値を与えた認識対象を認識結果として
出力せず、前記ピーク値を越えた認識対象の類似度につ
いて新たにピーク値が前記類似度ピーク検出手段により
検出されるとき、前記保留時間決定部に新たな保留時間
を決定させ設定させることを特徴とする音声認識装置。
【請求項５】請求項１，請求項２，請求項４のいずれ
か一項に記載の音声認識装置において、前記保留時間決
定手段は、前記直前に保持された平均値から保留時間を
決定することを特徴とする音声認識装置。
【請求項６】請求項１，請求項２，請求項４のいずれ
か一項に記載の音声認識装置において、前記保留時間決
定手段は、前記類似度ピーク検出手段により検出された
類似度のピーク値と前記直前に保持された平均値との差
から保留時間を決定することを特徴とする音声認識装
置。
【請求項７】請求項１，請求項２，請求項４のいずれ
か一項に記載の音声認識装置において、前記保留時間決
定手段は、前記類似度ピーク検出手段により検出された
類似度のピーク値と前記直前に保持された平均値との比
から保留時間を決定することを特徴とする音声認識装
置。
【請求項８】請求項１，請求項２，請求項４のいずれ
か一項に記載の音声認識装置において、前記類似度平均
値計算手段は、前記平均値を、該音声認識装置の動作開
始時からの平均値、または、一定時間内のフレーム当た
りの平均値を時間方向に移動させながら平均をとった移
動平均、または、時間方向のローパスフィルタリングと
して算出することを特徴とする音声認識装置。
【請求項９】音声入力信号から音声特徴データを抽出
し標準パターンと比較して類似度を計算し、全ての認識
対象の類似度が所定のリジェクト閾値を越えない場合は
全ての認識対象の類似度の平均値を計算し、全ての認識
対象の類似度のうち１つでも所定のリジェクト閾値を越
える場合は、その直前の平均値を保持し、ある認識対象
の類似度について所定のリジェクト閾値を越えたピーク
値が検出された場合、少なくとも、前記直前に保持され
た平均値に基づいて認識結果を出力するまでの保留時間
を決定し、保留時間中に前記ピーク値を越える類似度を
与える認識対象が無い場合は、前記ピーク値を与えた認
識対象を認識結果として出力することを特徴とする音声
認識方法。
【請求項１０】音声入力信号から音声特徴データを抽
出し標準パターンと比較して類似度を計算し、全ての認
識対象の類似度が平均値保持用の閾値を越えない場合は
全ての認識対象の類似度の平均値を計算し、全ての認識
対象の類似度のうち１つでも平均値保持用の閾値を越え
る場合は、その直前の平均値を保持し、ある認識対象の
類似度について平均値保持用の閾値を越えたピーク値が
検出された場合、少なくとも、前記直前に保持された平
均値に基づいて認識結果を出力するまでの保留時間を決
定し、保留時間中に前記ピーク値を越える類似度を与え
る認識対象が無く、かつ、前記ピーク値を与えた認識対
象の類似度が平均値保持用の閾値よりも高く設定されて
いる結果出力用のリジェクト閾値を越えた場合には、前
記ピーク値を与えた認識対象を認識結果として出力する
ことを特徴とする音声認識方法。