JP3474072B2 - 音声認識装置および音声認識方法 - Google Patents

音声認識装置および音声認識方法

Info

Publication number
JP3474072B2
JP3474072B2 JP03308597A JP3308597A JP3474072B2 JP 3474072 B2 JP3474072 B2 JP 3474072B2 JP 03308597 A JP03308597 A JP 03308597A JP 3308597 A JP3308597 A JP 3308597A JP 3474072 B2 JP3474072 B2 JP 3474072B2
Authority
JP
Japan
Prior art keywords
similarity
peak
recognition
recognition target
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP03308597A
Other languages
English (en)
Other versions
JPH10222191A (ja
Inventor
章次 栗木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP03308597A priority Critical patent/JP3474072B2/ja
Publication of JPH10222191A publication Critical patent/JPH10222191A/ja
Application granted granted Critical
Publication of JP3474072B2 publication Critical patent/JP3474072B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識装置およ
び音声認識方法に関する。
【0002】
【従来の技術】従来、例えば特開昭62−111293
号(以下、従来技術1と称す)には、認識すべき音声とそ
の前後の騒音を含む十分長い区間を入力信号区間とし、
この区間内でワードスポッティングを行ない、類似度が
最大となる認識対象を認識結果として出力することによ
り、音声区間検出を行なうことなく騒音環境下で発声し
た音声を、認識対象音声とその前後に騒音を含んだ十分
長い入力の中から切り出し、認識する技術が示されてい
る。
【0003】従来技術1では、十分長い入力音声区間内
で認識を行なうため、騒音などにより類似度が上がる認
識対象があっても、対象音声による認識対象の類似度が
それを上回って大きくなり、入力音声区間内の最大類似
度が得られた認識対象を結果出力することで、騒音によ
る誤認識を結果出力することを避けることができる。
【0004】図9はこの従来技術1において認識処理さ
れた認識対象a,b,cの類似度の時間変化を示す図で
ある。図9の例では、非音声区間で、認識対象b,cは
認識対象aより大きな類似度を得ているが、音声が入る
と(音声区間では)、正解である認識対象aの類似度が大
きくなる。これにより、認識結果としては、入力音声区
間内で最大の類似度を得た認識対象aが出力され、非音
声区間でaよりも大きな類似度を得た認識対象b,cは
無視される。
【0005】このように、従来技術1によれば、認識す
べき音声とその前後の騒音を含む十分長い区間を入力信
号区間とし、この区間内でワードスポッティングを行な
い、類似度が最大となる認識対象を認識結果として出力
することにより、騒音による誤認識結果が出力されるこ
とを避けることができる。
【0006】しかしながら、上述の従来技術1では、十
分長い入力音声区間が終了しなければ認識結果が出力さ
れないため、実際の機器に使用する場合、長い反応時間
が必要となり、認識対象音声を発声してから認識結果が
出力されるまで時間がかかり実用的ではない。
【0007】そのため、入力音声区間の終了を待たずに
類似度の変化のピークを検出し、ピークを検出後、一定
の保留時間(図9ではt1で示す)内に、他の認識対象の
類似度がピークを越えなければ、いまピークが検出され
た認識対象を結果出力することで、反応時間が短かい認
識結果の出力が可能である。但し、この場合、非音声区
間で誤認識結果が出力されるため(認識対象bとcが非
音声区間で認識結果として出力されるため)、リジェク
ト閾値を定め、類似度が閾値以下の場合には、認識結果
をリジェクトすることで、誤認識結果が出力されるのを
避ける必要がある。
【0008】しかしながら、環境が変化すると非音声区
間の誤認識となる認識対象の類似度が変化するため、1
つのリジェクト閾値で全ての環境変化に対応することは
できない。
【0009】このような問題に対処するため、例えば特
公昭60−60080号(以下、従来技術2と称す),特
開平1−321499号(以下、従来技術3と称す)に
は、騒音下でのリジェクトを効果的に行なうためリジェ
クト処理を行なう閾値を環境により変化させる技術が示
されている。すなわち、従来技術2では、周囲騒音によ
りリジェクト閾値を変化させ、また、従来技術3では、
入力音声のS/Nにより閾値を変化させるようになって
いる。
【0010】
【発明が解決しようとする課題】このように、従来技術
2,従来技術3では、環境の変化により、リジェクト閾
値を変化させることができるため、最適なリジェクト閾
値を設定することができる。しかしながら、従来技術2
では、雑音レベルを検出する必要があり、また、従来技
術3においても、S/Nを検出するためには雑音レベル
と音声レベルを検出しなければならないという問題があ
った。すなわち、雑音レベルを検出するためには、非音
声区間の検出が必要であり、非音声区間はパワー情報を
使用して検出されるが、雑音が大きくなり音声とのパワ
ー差が少なくなると非音声区間の検出ができなくなり、
雑音レベルの検出も不可能になる。このため、従来技術
2,従来技術3では、高騒音下においてはリジェクト閾
値を環境に対応して設定することができないという問題
があった。
【0011】本発明は、環境の変化に追従させて使用勝
手の良く、正しい認識結果を得ることの可能な音声認識
を実現できて、かつ、環境の変化に対応させて短かい反
応時間で認識結果を出力することが可能な音声認識装置
および音声認識方法を提供することを目的としている。
【0012】
【課題を解決するための手段】上記目的を達成するため
に、請求項1記載の発明は、音声入力信号から音声特徴
データを抽出する特徴抽出手段と、抽出された音声特徴
データを全ての認識対象の標準パターンと比較して類似
度を計算する類似度計算手段と、所定のリジェクト閾値
を設定するリジェクト閾値設定手段と、前記所定のリジ
ェクト閾値を越えた認識対象の類似度のピークを検出す
る類似度ピーク検出手段と、前記所定のリジェクト閾値
を越えた認識対象の類似度のピークが検出された時点か
ら所定の保留時間の間、該類似度のピークを保留するピ
ーク保留手段と、認識結果を出力する結果出力手段とを
備え、前記結果出力手段は、類似度のピークが保留され
た認識対象について、保留時間中に、この認識対象の類
似度の一定時間当たりの低下率が所定の低下率閾値より
も大きくなった場合には、保留時間中であっても、類似
度のピークが保留されている認識対象を認識結果として
出力することを特徴としている。
【0013】また、請求項2記載の発明は、音声入力信
号から音声特徴データを抽出する特徴抽出手段と、抽出
された音声特徴データを全ての認識対象の標準パターン
と比較して類似度を計算する類似度計算手段と、所定の
リジェクト閾値を設定するリジェクト閾値設定手段と、
前記所定のリジェクト閾値を越えた認識対象の類似度の
ピーク値を検出する類似度ピーク検出手段と、前記所定
のリジェクト閾値を越えた認識対象の類似度のピークが
検出された時点から所定の保留時間の間、該類似度のピ
ークを保留するピーク保留手段と、認識結果を出力する
結果出力手段とを備え、前記結果出力手段は、類似度の
ピークが保留された認識対象について、保留時間中に、
この認識対象の類似度が前記ピークから所定の類似度差
閾値以上、低下した場合には、保留時間中であっても、
類似度のピークが保留されている認識対象を認識結果と
して出力することを特徴としている。
【0014】また、請求項3記載の発明は、音声入力信
号から音声特徴データを抽出し、抽出した音声特徴デー
タを全ての認識対象の標準パターンと比較して類似度を
計算し、ある認識対象について、その類似度が所定のリ
ジェクト閾値を越えた場合に、その認識対象の類似度の
ピークを検出して該認識対象の類似度のピークが検出さ
れた時点から所定の保留時間の間、該類似度のピークを
保留し、類似度のピークが保留された認識対象につい
て、保留時間中に、この認識対象の類似度の一定時間当
たりの低下率が所定の低下率閾値よりも大きくなった場
合には、保留時間中であっても、類似度のピークが保留
されている認識対象を認識結果として出力する一方、類
似度のピークが保留された認識対象について、保留時間
中に、この認識対象の類似度の一定時間当たりの低下率
が所定の低下率閾値よりも大きくはならないが、保留さ
れた類似度のピークを越える類似度を与える認識対象が
前記保留時間中に無い場合には、前記保留時間の経過
後、前記ピーク保留手段に類似度のピークが保留されて
いる認識対象を認識結果として出力することを特徴とし
ている。
【0015】また、請求項4記載の発明は、音声入力信
号から音声特徴データを抽出し、抽出した音声特徴デー
タを全ての認識対象の標準パターンと比較して類似度を
計算し、ある認識対象について、その類似度が所定のリ
ジェクト閾値を越えるときに、その認識対象の類似度の
ピークを検出して該認識対象の類似度のピークが検出さ
れた時点から所定の保留時間の間、該類似度のピークを
保留し、類似度のピークが保留された認識対象につい
て、保留時間中に、この認識対象の類似度が前記ピーク
から所定の類似度差閾値以上、低下した場合には、保留
時間中であっても、類似度のピークが保留されている認
識対象を認識結果として出力する一方、類似度のピーク
が保留された認識対象について、保留時間中に、この認
識対象の類似度が前記ピークから所定の類似度差閾値以
上は低下しないが、保留された類似度のピークを越える
類似度を与える認識対象が前記保留時間中に無い場合に
は、前記保留時間の経過後、前記ピーク保留手段に類似
度のピークが保留されている認識対象を認識結果として
出力することを特徴としている。
【0016】
【発明の実施の形態】以下、本発明の実施形態を図面に
基づいて説明する。図1は本発明に係る音声認識装置の
構成例を示す。図1を参照すると、この音声認識装置
は、入力された音声を電気信号(アナログ音声信号)に変
換する入力部(例えばマイクロホン)1と、入力部1から
のアナログ音声信号をデジタル音声信号に変換するA/
D変換部2と、デジタル音声信号をフレーム毎に音声特
徴データに変換する特徴抽出部3と、全ての認識対象の
標準パターンが予め格納されている標準パターン格納部
4と、特徴抽出部3からの音声特徴データを標準パター
ン格納部4に格納されている各認識対象の標準パターン
と比較し、各認識対象との類似度を計算する類似度計算
部5と、リジェクト閾値THが設定されるリジェクト閾
値設定部6と、リジェクト閾値THを越えた認識対象の
類似度のピークを検出する類似度ピーク検出部7と、リ
ジェクト閾値THを越えた認識対象の類似度のピークが
検出された時点から所定の保留時間t2の間、該類似度
のピークを保留するピーク保留部8と、リジェクト閾値
THを越えた認識対象の類似度のピークが類似度ピーク
検出部7によって検出されて前記ピーク保留部8に保留
されたとき、保留された類似度のピークを越える類似度
を与える認識対象が保留時間t2中にない場合には、所
定の保留時間t2の経過後、前記ピーク保留部8に類似
度のピークが保留されている認識対象を認識結果として
出力する結果出力部9とを備えている。
【0017】ここで、特徴抽出部3,標準パターン格納
部4,類似度計算部5には、一般的な音声認識技術を用
いることができる。
【0018】すなわち、図1の音声認識装置において
も、基本的には、一般的な音声認識技術が用いられる。
例えば、音声の開始点と終了点を検出して音声区間と
し、この音声区間に対して音声パターン認識等を行な
い、最大の類似度が得られた標準パターン(認識対象で
ある)の単語番号や属性データを認識結果として出力す
る形式のものを用いることができる。
【0019】あるいは、音声区間を必要としないワード
スポッティング法による認識のものを用いることもでき
る。例えば継続時間制御型状態遷移モデルを用いた単語
音声認識法を用いることもでき、単語音声認識法による
認識を行なえば、音声の終了付近で類似度が最大とな
り、類似度のピーク点を検出することで認識結果を出力
することができる。
【0020】また、前記所定の保留時間t2としては、
高騒音下をも考慮して、図9に示した保留時間t1より
も長い一定の時間,例えば1秒程度の時間を用いること
ができる。
【0021】図2は騒音が大きい環境での各認識対象
a,b,cの類似度の変化を示す図である。一般に、騒
音が大きくなると音声に騒音が重畳されることにより入
力音声パターンが歪み、正解単語であっても高い類似度
のピークが得られなくなり、リジェクト閾値を下げなけ
れば正解単語の結果が出力されなくなる一方、騒音区間
での他の単語の類似度が静かな環境に比べて大きくな
り、リジェクト閾値を越えやすくなる。図2の例では、
実際、認識対象(単語)b,cの類似度ピークP1,P3
がリジェクト閾値THを越えている。従って、図9に示
したような短かい保留時間t1では、認識対象b,cが
リジェクトされずに誤認識結果として出力されることに
なる。これを避けるためには、所定の保留時間として、
図2に示すように、図9の保留時間t1よりも長い保留
時間t2を設定する必要がある。
【0022】ところで、このように所定の保留時間とし
て、図2の例のように長い保留時間t2を用いることで
誤認識は避けられるが、その反面、反応時間が大きく必
要となり、入力音声区間の終了を待って結果出力する場
合と同様に、認識結果が出力されるまでに相当の時間を
要してしまう。すなわち、保留時間を図2のような長い
保留時間t2に固定すると、静かな環境でも反応時間が
長く、使用しにくい装置になる。
【0023】図3は静かな環境での各認識対象a,b,
cの類似度の変化を示す図であり、図3の例では、音声
が無い区間では、認識対象a,b,cのいずれも低い類
似度を保っている。これは静かな環境の音声特徴抽出値
が音声が入力された音声特徴抽出値と大きく異なるため
パターン距離が大きくなり類似度が低くなることによ
る。
【0024】図3において、認識対象aに対応する音声
が入力されると、音声区間内で認識対象aの類似度が高
くなり、音声区間終了付近でピークP2を得て、その後
小さくなる。このような静かな環境下では、認識対象
b,cの類似度ピークP1,P3はリジェクト閾値TH
を越えないことから、保留時間を図2におけるような長
い保留時間t2に設定しなくても、認識対象aだけを認
識結果として出力することができる。しかしながら、騒
音が大きくなっても誤認識結果が出力されないようにす
るためには、音声認識装置に図2に示すように長い保留
時間t2を設定しておくことが必要となり、従って、静
かな環境下での使用においては反応時間の大きな音声認
識装置になっていた。
【0025】このような問題を回避するため、図1の音
声認識装置では、基本的には、保留時間t2として長い
保留時間を設定し、結果出力部9は、基本的には、リジ
ェクト閾値THを越えた認識対象の類似度のピークが類
似度ピーク検出部7によって検出されて前記ピーク保留
部8に保留されたとき、保留された類似度のピークを越
える類似度を与える認識対象が保留時間t2中にない場
合には、所定の保留時間t2の経過後、類似度のピーク
が保留されている認識対象を認識結果として出力するよ
うになっているが、結果出力部9は、さらに、類似度の
ピークが保留された認識対象について、保留時間t2
に、この認識対象の類似度の一定時間Δt当たりの低下
率(この類似度が低下するときの一定時間Δt当たりの
類似度差)ΔSを検出し、この低下率ΔSが所定の低下
率閾値ΔSTHよりも大きくなった場合には、保留時間t
2中であっても、類似度のピークが保留されている認識
対象を認識結果として出力するようになっている。
【0026】すなわち、結果出力の条件として、類似度
のピークが保留されている認識対象についての類似度が
一定時間Δtの間に所定の低下率閾値ΔSTH以上、低下
した場合は、保留時間t2内であっても、この認識対象
を認識結果として出力するという条件がさらに加わった
ものとなっている。
【0027】ここで、一定時間Δtは類似度の低下率Δ
Sを確実に検出できるに十分な時間として設定される必
要であり、例えば100〜200ms程度の時間に設定
される。また、低下率閾値ΔSTHは実験により容易に設
定することができる。
【0028】なお、一定時間Δt当たりの低下率ΔSの
検出処理は、上述のように結果出力部9内で行なうこと
もできるが、図1のように類似度差計算部10を別途に
設け、低下率ΔSの検出処理を結果出力部9ではなく、
例えば類似度差計算部10で行なうこともできる。以下
では、低下率ΔSの検出処理を類似度差計算部10で行
なうとして説明する。
【0029】次に、図1の音声認識装置の動作について
説明する。音声が入力部1に入力されると、音声は、入
力部1で電気信号(アナログ音声信号)に変換され、A/
D変換部2でデジタル値に変換される。デジタル化され
た音声データは、特徴抽出部3でフレーム毎に音声特徴
データに変換される。ここで、音声特徴データは周波数
帯域でのパワー値を示すTSPやケプストラム値などが
一般的である。
【0030】特徴抽出部3で得られた音声特徴データ
は、類似度計算部5において、標準パターン格納部4に
予め格納されている各認識対象の標準パターンと比較さ
れ、各認識対象の類似度が計算される。各認識対象の類
似度はフレーム周期毎に更新され、時間により変化す
る。
【0031】すなわち、各認識対象の類似度は時間的に
変化するため、一般にフレームという単位時間(数ms
〜数十ms程度に設定される)内の音声波形から特徴抽
出した音声特徴データに対して類似度を計算する。従っ
て、類似度はフレーム周期毎に更新され、また、全ての
認識対象の類似度の平均値もフレーム毎に更新される。
【0032】音声が入力された場合や騒音の影響で、1
つでも認識対象の類似度がリジェクト閾値THを越えた
場合、類似度ピーク検出部7では、リジェクト閾値TH
を越えた認識対象の類似度のピークを検出する。類似度
ピーク検出部7によりピークが検出されると、ピーク保
留部8は、例えば、類似度ピーク検出部7で検出された
類似度のピークを所定の保留時間t2が経過するまで保
持する。
【0033】結果出力部9は、リジェクト閾値THを越
えた類似度のピークが検出された後、基本的には、一定
の保留時間t2が経過するまでの間に、このピークを越
える類似度を与える認識対象がなければ、保留時間t2
を経過した時点で、そのピークを与えた認識対象を認識
結果として出力する。さらに、本発明では、ピークが検
出された後、一定の保留時間t2が経過するまでの間
に、類似度差計算部10で算出された低下率ΔSが所定
の低下率閾値ΔSTHよりも大きくなったときには、保留
時間t2の経過を待たずに、そのピークを与えた認識対
象を認識結果として出力する。
【0034】換言すれば、結果出力部9は、ピークが検
出された後、一定の保留時間t2が経過するまでの間
に、類似度差計算部10で算出された低下率ΔSが所定
の低下率閾値ΔSTHよりも大きくなったときには、保留
時間t2の経過を待たずに、そのピークを与えた認識対
象を認識結果として出力する一方、一定の保留時間t2
が経過するまでの間に、類似度差計算部10で算出され
た低下率ΔSが所定の低下率閾値ΔSTHよりも大きくは
ならないが、一定の保留時間t2が経過するまでの間
に、このピークを越える類似度を与える認識対象がなけ
れば、保留時間t2を経過した時点で、そのピークを与
えた認識対象を認識結果として出力する。
【0035】これに対し、リジェクト閾値THを越えた
類似度のピークが検出された後、一定の保留時間t2
経過するまでの間に、低下率ΔSが所定の閾値ΔSTH
りも大きくはならず、一定の保留時間t2が経過するま
での間に、このピークを越える類似度を与える認識対象
があれば、このピークを与えた認識対象を認識結果とし
て出力せず(結果を無効とし)、このピークを越えた認識
対象の類似度についてさらにピークが検出されたとき
に、この時点から新たに一定の保留時間t2が設定さ
れ、新たな保留動作を行なう。
【0036】次に、具体的な動作例について説明する。
図4は静かな環境での各認識対象a,b,cの類似度の
変化を示す図であり、図4の例では、認識対象a,b,
cのいずれも、音声が無い区間では低い類似度を保って
いる。これは静かな環境の音声特徴抽出値が音声が入力
された音声特徴抽出値と大きく異なるため、パターン距
離が大きくなり類似度が低くなることによるものであ
る。
【0037】しかる後、図4の例では、認識対象aに対
応する音声が入力されることで、音声区間内において認
識対象aの類似度が高くなり、リジェクト閾値THを越
え、音声区間終了付近でピーク値P2を得て、その後小
さくなる。
【0038】この場合、本発明では、音声区間終了付近
でピーク値P2が得られた時点から保留時間t2が経過
するまでの間、一定時間Δtの間に低下する類似度差
(低下率)ΔSを検出する。図4の例では、認識対象aの
類似度のピーク値P2が得られた時点から保留時間t2
が経過するまでの間、一定時間Δtの間に低下する類似
度の低下率ΔSを検出する。図4の例では、認識対象a
の類似度は保留時間t2が経過する前の時点T,すなわ
ち、音声区間を過ぎた時点Tで大きく低下し、この時点
Tでの一定時間Δt当たりの低下率ΔSがあらかじめ決
められた低下率閾値ΔSTHを越え、条件(ΔS>ΔSTH)
が満たされる。従って、保留時間t2の経過を待つこと
なく、上記条件が満たされた時点Tで認識結果として認
識対象aを出力することができる。
【0039】このように、本発明によれば、静かな環境
下では、短かい反応時間で正しい認識結果を出力するこ
とができる。
【0040】一方、騒音が大きくなってくると、騒音区
間(非音声区間)でも類似度が高くなる認識対象が出てく
る。また、音声区間においても、音声に騒音が付加され
ることで音声特徴抽出値が歪んでくるため、正解認識対
象の類似度のピーク値が下がる。
【0041】図5には騒音が大きくなったときの様子が
示されている。騒音が大きくなると、騒音区間でも類似
度が高くなる認識対象がでてくる。また音声区間でも音
声に騒音が付加されることで音声特徴量が歪み、正解認
識対象の類似度のピーク値が下がる。
【0042】図5の例では、リジェクト閾値THを越え
る類似度のピーク値として、先ず、騒音区間において、
認識対象bの類似度のピーク値P1が得られ、認識対象
bの類似度のピーク値P1が得られた時点から保留時間
2が経過するまでの間、一定時間Δtの間に低下する
認識対象bの類似度の低下率ΔSを検出する。しかしな
がら、認識対象bの類似度の低下率ΔSは小さく、低下
率閾値ΔSTHを越えることはないため、保留時間t2
にこの認識対象bが認識結果として出力されることはな
い。また、図5の例では、認識対象bの類似度のピーク
値P1が検出された時点から保留時間t2内に認識対象
aの類似度が認識対象bのピーク値P1を越えるため、
認識対象bは認識結果として出力されない。
【0043】そして、この場合、新たに認識対象aの類
似度のピーク値P2が得られ、このピーク値P2が得ら
れた時点から保留時間t2が経過するまでの間、一定時
間Δtの間に低下する認識対象aの類似度の低下率ΔS
を検出する。ところで、騒音が大きな環境では、類似度
のピーク値P2は小さく、また騒音区間での類似度が大
きくなることから、認識対象aの類似度の低下率ΔSは
低下率閾値ΔSTHよりも小さく、従って、保留時間t2
内にこの認識対象aが認識結果として出力されることは
ない。しかし、認識対象aのピーク値P2が得られた時
点から保留時間t2が経過するまでの間、この認識対象
aのピーク値P2を越える類似度を与える認識対象はな
い。すなわち、この保留時間t2内に認識対象cの類似
度のピークP3が検出されるが、このピークP3は認識
対象aのピーク値P2よりも小さいため、認識対象cの
ピークP3は無視される。従って、高騒音下では、認識
対象aのピーク値P2が得られてから保留時間t2内に
この認識対象aが認識結果として出力されることはない
が、ピーク値P2が得られてから保留時間t2経過後
に、この認識対象aが認識結果として出力される。
【0044】このように、図1の音声認識装置では、あ
る認識対象の類似度のピーク値が検出されると、このピ
ーク値が所定の保留時間t2の間、保留され、この保留
時間t2中に、このピーク値を与えた認識対象のこの保
留時間t2中に、このピーク値を与えた認識対象の類似
度の低下率ΔSが低下率閾値ΔSTHを越えない場合は、
保留時間t2が経過した後、このピーク値を与えた認識
対象を認識結果として出力する一方、この保留時間t2
中に、このピーク値を与えた認識対象の類似度の低下率
ΔSが所定の低下率閾値ΔSTHを越えた場合は、この時
点で、このピーク値を与えた認識対象を認識結果として
出力するようにしているので、所定の保留時間t2とし
て、高騒音下をも考慮して、例えば1秒程度の長い時間
を用いる場合にも、静かな環境では、反応時間を短くす
ることができ、正しい認識結果を迅速に出力することが
可能になる。
【0045】なお、上述の条件は、類似度のピークが保
留された認識対象について、保留時間t2中に、この認
識対象の類似度の一定時間Δt当たりの低下率(この類
似度が低下するときの一定時間Δt当たりの類似度差)
ΔSを検出し、この類似度差ΔSが所定の低下率閾値Δ
THよりも大きくなった場合には、保留時間t2中であ
っても、類似度のピークが保留されている認識対象を認
識結果として出力するものであるが、これのかわりに、
ある認識対象について類似度のピーク値が検出された
後、この認識対象の類似度がそのピーク値から所定の類
似度差閾値DTH以上低下した値になった場合には保留時
間t2以内でも、出力するというようにすることもでき
る。
【0046】すなわち、図1の構成例において、結果出
力部9(さらには、類似度差検出部10)は、保留時間t
2中にこの認識対象についての類似度のピーク値からの
類似度差Dを検出し、ピーク値からの類似度差Dが所定
の類似度差閾値DTHを越えた場合には、保留時間t2
であっても、このピーク値を与えた認識対象を認識結果
として出力するというように構成されていても良い。
【0047】この場合の具体的な動作例について説明す
る。図6は静かな環境での各認識対象a,b,cの類似
度の変化を示す図であり、図6の例でも、図4と同様
に、認識対象aに対応する音声が入力されることで、音
声区間内において認識対象aの類似度が高くなり、リジ
ェクト閾値THを越え、音声区間終了付近でピーク値P
2を得て、その後小さくなる。
【0048】この場合、図6の例では、認識対象aのピ
ーク値P2が得られた時点から保留時間t2が経過する
までの間、ピーク値P2からの類似度差Dを検出する。
図6の例では、認識対象aの類似度は保留時間t2が経
過する前の時点T',すなわち、音声区間を過ぎた時点
T'までにピーク値P2から大きく低下し、この時点T'
でのピーク値からの類似度差Dがあらかじめ決められた
類似度差閾値DTHを越え、条件(D>DTH)が満たされ
る。従って、保留時間t2の経過を待つことなく、上記
条件が満たされた時点T'で認識結果として認識対象a
を出力することができる。
【0049】このように、図6の例でも、図4の例と同
様に、静かな環境下では、短かい反応時間で正しい認識
結果を出力することができる。
【0050】一方、図7には騒音が大きくなったときの
様子が示されている。騒音が大きくなると、騒音区間で
も類似度が高くなる認識対象がでてくる。また音声区間
でも音声に騒音が付加されることで音声特徴量が歪み、
正解認識対象の類似度のピーク値が下がる。
【0051】この場合、図7の例では、リジェクト閾値
THを越える類似度のピーク値として、先ず、騒音区間
において、認識対象bの類似度のピーク値P1が得ら
れ、認識対象bの類似度のピーク値P1が得られた時点
から保留時間t2が経過するまでの間、ピーク値P1か
らの類似度差Dを検出する。しかしながら、ピーク値P
1からの類似度差Dは小さく、類似度差閾値DTHを越え
ることはないため、保留時間t2内にこの認識対象bが
認識結果として出力されることはない。また、図7の例
では、認識対象bの類似度のピーク値P1が検出された
時点から保留時間t2内に認識対象aの類似度が認識対
象bのピーク値P1を越えるため、認識対象bは認識結
果として出力されない。
【0052】そして、この場合、新たに認識対象aの類
似度のピーク値P2が得られ、このピーク値P2が得ら
れた時点から保留時間t2が経過するまでの間、ピーク
値P2からの類似度差Dを検出する。ところで、騒音が
大きな環境では、類似度のピーク値P2は小さく、また
騒音区間での類似度が大きくなることから、認識対象a
のピーク値P2からの類似度差Dは類似度差閾値DTH
りも小さく、従って、保留時間t2内にこの認識対象a
が認識結果として出力されることはない。しかし、認識
対象aのピーク値P2が得られた時点から保留時間t2
が経過するまでの間、この認識対象aのピーク値P2を
越える類似度を与える認識対象はない。すなわち、この
保留時間t2内に認識対象cの類似度のピークP3が検
出されるが、このピークP3は認識対象aのピーク値P
2よりも小さいため、認識対象cのピークP3は無視さ
れる。従って、高騒音下では、認識対象aのピーク値P
2が得られてから保留時間t2内にこの認識対象aが認
識結果として出力されることはないが、ピーク値P2が
得られてから保留時間t2経過後に、この認識対象aが
認識結果として出力される。
【0053】このように、本発明の音声認識装置におい
ては、静かな環境では反応時間が短かい結果出力が期待
でき、騒音が大きい環境では騒音による誤認識結果が出
力されない、使いやすい音声認識装置が実現できる。
【0054】図8は図1の音声認識装置のハードウェア
構成例を示す図である。図8を参照すると、この音声認
識装置は、例えばパーソナルコンピュータ等で実現さ
れ、全体を制御するCPU21と、CPU21の制御プ
ログラム等が記憶されているROM22と、CPU21
のワークエリア等として使用されるRAM23と、音声
を入力する入力装置24と、音声認識結果を出力する結
果出力装置(例えば、ディスプレイやプリンタなど)26
とを有している。
【0055】ここで、CPU21は、図1のA/D変換
部2,特徴抽出部3,類似度計算部5,類似度ピーク検
出部7,ピーク保留部8,類似度差計算部10などの機
能を有している。
【0056】なお、CPU21におけるこのようなA/
D変換部2,特徴抽出部3,類似度計算部5,類似度ピ
ーク検出部7,ピーク保留部8,類似度差計算部10等
としての機能は、例えばソフトウェアパッケージ(具体
的には、CD−ROM等の情報記録媒体)の形で提供す
ることができ、このため、図8の例では、情報記録媒体
30がセットさせるとき、これを駆動する媒体駆動装置
31が設けられている。
【0057】換言すれば、本発明の音声認識装置は、汎
用の計算機システムにCD−ROM等の情報記録媒体に
記録されたプログラムを読み込ませて、この汎用計算機
システムのマイクロプロセッサに音声認識処理を実行さ
せる装置構成においても実施することが可能である。こ
の場合、本発明の音声認識処理を実行するためのプログ
ラム(すなわち、ハードウェアシステムで用いられるプ
ログラム)は、媒体に記録された状態で提供される。プ
ログラムなどが記録される情報記録媒体としては、CD
−ROMに限られるものではなく、ROM,RAM,フ
レキシブルディスク,メモリカード等が用いられても良
い。媒体に記録されたプログラムは、ハードウェアシス
テムに組み込まれている記憶装置、例えばハードディス
ク装置にインストールされることにより、このプログラ
ムを実行して、上述した本発明の音声認識処理機能を実
現する音声認識装置の構築に寄与する。
【0058】また、本発明の音声認識処理機能を実現す
るためのプログラムは、媒体の形で提供されるのみなら
ず、通信によって(例えばサーバによって)提供されるも
のであっても良い。
【0059】
【発明の効果】以上に説明したように、請求項1,請求
項3記載の発明によれば、音声入力信号から音声特徴デ
ータを抽出する特徴抽出手段と、抽出された音声特徴デ
ータを全ての認識対象の標準パターンと比較して類似度
を計算する類似度計算手段と、所定のリジェクト閾値を
設定するリジェクト閾値設定手段と、前記所定のリジェ
クト閾値を越えた認識対象の類似度のピークを検出する
類似度ピーク検出手段と、前記所定のリジェクト閾値を
越えた認識対象の類似度のピークが検出された時点から
所定の保留時間の間、該類似度のピークを保留するピー
ク保留手段と、認識結果を出力する結果出力手段とを備
え、前記結果出力手段は、類似度のピークが保留された
認識対象について、保留時間中に、この認識対象の類似
度の一定時間当たりの低下率が所定の低下率閾値よりも
大きくなった場合には、保留時間中であっても、類似度
のピークが保留されている認識対象を認識結果として出
力することを特徴としているので、環境の変化に追従さ
せて使用勝手の良く、正しい認識結果を得ることの可能
な音声認識を実現できて、かつ、環境の変化に対応させ
て短かい反応時間で認識結果を出力することが可能とな
る。
【0060】また、請求項2,請求項4記載の発明によ
れば、音声入力信号から音声特徴データを抽出する特徴
抽出手段と、抽出された音声特徴データを全ての認識対
象の標準パターンと比較して類似度を計算する類似度計
算手段と、所定のリジェクト閾値を設定するリジェクト
閾値設定手段と、前記所定のリジェクト閾値を越えた認
識対象の類似度のピーク値を検出する類似度ピーク検出
手段と、前記所定のリジェクト閾値を越えた認識対象の
類似度のピークが検出された時点から所定の保留時間の
間、該類似度のピークを保留するピーク保留手段と、認
識結果を出力する結果出力手段とを備え、前記結果出力
手段は、類似度のピークが保留された認識対象につい
て、保留時間中に、この認識対象の類似度が前記ピーク
から所定の類似度差閾値以上、低下した場合には、保留
時間中であっても、類似度のピークが保留されている認
識対象を認識結果として出力することを特徴としている
ので、環境の変化に追従させて使用勝手の良く、正しい
認識結果を得ることの可能な音声認識を実現できて、か
つ、環境の変化に対応させて短かい反応時間で認識結果
を出力することが可能となる。
【図面の簡単な説明】
【図1】本発明に係る音声認識装置の構成例を示す図で
ある。
【図2】騒音環境での認識対象a,b,cの類似度の変
化を示す図である。
【図3】静かな環境での認識対象a,b,cの類似度の
変化を示す図である。
【図4】静かな環境下での認識対象a,b,cの類似度
の変化に対して本発明を適用する場合を示す図である。
【図5】騒音環境下での認識対象a,b,cの類似度の
変化に対して本発明を適用する場合を示す図である。
【図6】静かな環境下での認識対象a,b,cの類似度
の変化に対して本発明を適用する場合を示す図である。
【図7】騒音環境下での認識対象a,b,cの類似度の
変化に対して本発明を適用する場合を示す図である。
【図8】本発明の音声認識装置のハードウェア構成例を
示す図である。
【図9】従来の音声認識方式を説明するための図であ
る。
【符号の説明】
1 入力部 2 A/D変換部 3 特徴抽出部 4 標準パターン格納部 5 類似度計算部 6 リジェクト閾値設定部 7 類似度ピーク検出部 8 ピーク保留部 9 結果出力部 10 類似度差計算部
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G10L 15/00 - 15/28 JICSTファイル(JOIS)

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】 音声入力信号から音声特徴データを抽出
    する特徴抽出手段と、抽出された音声特徴データを全て
    の認識対象の標準パターンと比較して類似度を計算する
    類似度計算手段と、所定のリジェクト閾値を設定するリ
    ジェクト閾値設定手段と、前記所定のリジェクト閾値を
    越えた認識対象の類似度のピークを検出する類似度ピー
    ク検出手段と、前記所定のリジェクト閾値を越えた認識
    対象の類似度のピークが検出された時点から所定の保留
    時間の間、該類似度のピークを保留するピーク保留手段
    と、認識結果を出力する結果出力手段とを備え、前記結
    果出力手段は、類似度のピークが保留された認識対象に
    ついて、保留時間中に、この認識対象の類似度の一定時
    間当たりの低下率が所定の低下率閾値よりも大きくなっ
    た場合には、保留時間中であっても、類似度のピークが
    保留されている認識対象を認識結果として出力すること
    を特徴とする音声認識装置。
  2. 【請求項2】 音声入力信号から音声特徴データを抽出
    する特徴抽出手段と、抽出された音声特徴データを全て
    の認識対象の標準パターンと比較して類似度を計算する
    類似度計算手段と、所定のリジェクト閾値を設定するリ
    ジェクト閾値設定手段と、前記所定のリジェクト閾値を
    越えた認識対象の類似度のピーク値を検出する類似度ピ
    ーク検出手段と、前記所定のリジェクト閾値を越えた認
    識対象の類似度のピークが検出された時点から所定の保
    留時間の間、該類似度のピークを保留するピーク保留手
    段と、認識結果を出力する結果出力手段とを備え、前記
    結果出力手段は、類似度のピークが保留された認識対象
    について、保留時間中に、この認識対象の類似度が前記
    ピークから所定の類似度差閾値以上、低下した場合に
    は、保留時間中であっても、類似度のピークが保留され
    ている認識対象を認識結果として出力することを特徴と
    する音声認識装置。
  3. 【請求項3】 音声入力信号から音声特徴データを抽出
    し、抽出した音声特徴データを全ての認識対象の標準パ
    ターンと比較して類似度を計算し、ある認識対象につい
    て、その類似度が所定のリジェクト閾値を越えた場合
    に、その認識対象の類似度のピークを検出して該認識対
    象の類似度のピークが検出された時点から所定の保留時
    間の間、該類似度のピークを保留し、類似度のピークが
    保留された認識対象について、保留時間中に、この認識
    対象の類似度の一定時間当たりの低下率が所定の低下率
    閾値よりも大きくなった場合には、保留時間中であって
    も、類似度のピークが保留されている認識対象を認識結
    果として出力する一方、類似度のピークが保留された認
    識対象について、保留時間中に、この認識対象の類似度
    の一定時間当たりの低下率が所定の低下率閾値よりも大
    きくはならないが、保留された類似度のピークを越える
    類似度を与える認識対象が前記保留時間中に無い場合に
    は、前記保留時間の経過後、前記ピーク保留手段に類似
    度のピークが保留されている認識対象を認識結果として
    出力することを特徴とする音声認識方法。
  4. 【請求項4】 音声入力信号から音声特徴データを抽出
    し、抽出した音声特徴データを全ての認識対象の標準パ
    ターンと比較して類似度を計算し、ある認識対象につい
    て、その類似度が所定のリジェクト閾値を越えるとき
    に、その認識対象の類似度のピークを検出して該認識対
    象の類似度のピークが検出された時点から所定の保留時
    間の間、該類似度のピークを保留し、類似度のピークが
    保留された認識対象について、保留時間中に、この認識
    対象の類似度が前記ピークから所定の類似度差閾値以
    上、低下した場合には、保留時間中であっても、類似度
    のピークが保留されている認識対象を認識結果として出
    力する一方、類似度のピークが保留された認識対象につ
    いて、保留時間中に、この認識対象の類似度が前記ピー
    クから所定の類似度差閾値以上は低下しないが、保留さ
    れた類似度のピークを越える類似度を与える認識対象が
    前記保留時間中に無い場合には、前記保留時間の経過
    後、前記ピーク保留手段に類似度のピークが保留されて
    いる認識対象を認識結果として出力することを特徴とす
    る音声認識方法。
JP03308597A 1997-01-31 1997-01-31 音声認識装置および音声認識方法 Expired - Fee Related JP3474072B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP03308597A JP3474072B2 (ja) 1997-01-31 1997-01-31 音声認識装置および音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP03308597A JP3474072B2 (ja) 1997-01-31 1997-01-31 音声認識装置および音声認識方法

Publications (2)

Publication Number Publication Date
JPH10222191A JPH10222191A (ja) 1998-08-21
JP3474072B2 true JP3474072B2 (ja) 2003-12-08

Family

ID=12376865

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03308597A Expired - Fee Related JP3474072B2 (ja) 1997-01-31 1997-01-31 音声認識装置および音声認識方法

Country Status (1)

Country Link
JP (1) JP3474072B2 (ja)

Also Published As

Publication number Publication date
JPH10222191A (ja) 1998-08-21

Similar Documents

Publication Publication Date Title
CN110428810B (zh) 一种语音唤醒的识别方法、装置及电子设备
US7756707B2 (en) Signal processing apparatus and method
JP3284832B2 (ja) 音声認識対話処理方法および音声認識対話装置
JP4950930B2 (ja) 音声/非音声を判定する装置、方法およびプログラム
JP3789246B2 (ja) 音声区間検出装置、音声区間検出方法、音声認識装置、音声認識方法および記録媒体
EP1355296B1 (en) Keyword detection in a speech signal
JP3045510B2 (ja) 音声認識処理装置
JP3886024B2 (ja) 音声認識装置及びそれを用いた情報処理装置
JP5098613B2 (ja) 音声認識装置及びコンピュータプログラム
KR101888058B1 (ko) 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치
CN110689887B (zh) 音频校验方法、装置、存储介质及电子设备
CN117636872A (zh) 音频处理方法、装置、电子设备和可读存储介质
JPH07306692A (ja) 音声認識装置及び音声入力装置
US6823304B2 (en) Speech recognition apparatus and method performing speech recognition with feature parameter preceding lead voiced sound as feature parameter of lead consonant
CN102959618A (zh) 声音识别装置
JP3474072B2 (ja) 音声認識装置および音声認識方法
JP2000310993A (ja) 音声検出装置
US20070106511A1 (en) Speaker identifying apparatus and computer program product
JPH10274993A (ja) 音声認識装置および音声認識方法
JP2992324B2 (ja) 音声区間検出方法
JP3484559B2 (ja) 音声認識装置および音声認識方法
JP3474949B2 (ja) 音声認識装置
JP2004219918A (ja) 音声認識環境判定方法
JP3533773B2 (ja) 時系列パターン認識処理におけるリジェクト方法およびそれを実装した時系列パターン認識装置
JP2000155600A (ja) 音声認識システムおよび入力音声レベル警告方法

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080919

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080919

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090919

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090919

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100919

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110919

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120919

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130919

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees