JP3581752B2

JP3581752B2 - 音声認識装置及び音声認識方法

Info

Publication number: JP3581752B2
Application number: JP05000896A
Authority: JP
Inventors: 勝黒田
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1995-10-09
Filing date: 1996-03-07
Publication date: 2004-10-27
Anticipated expiration: 2016-03-07
Also published as: JPH09166995A; US5799274A

Description

【０００１】
【発明の属する技術分野】
本発明は、音声認識装置及び音声認識方法に関し、特にワードスポッティング法により音声認識を行うものであり、さらに第１単語若しくは第２単語がある観念を想起させる単語でありかつ上記第１単語と上記第２単語とがこの順に連続することで他の観念を想起させる一単語を形成する結合単語が被認識音声として入力された場合にも認識結果を正しく送出することができる音声認識装置及び音声認識方法に関する。
【０００２】
【従来の技術】
従来の音声認識装置では、音声のパワー情報などを使用して、認識すべき音声区間の始端と終端とを決定し、この音声区間情報に基づいて認識処理を行っていた。このとき音声区間の始端はパワー情報によって容易に検出できるが、終端の検出は、例えば、被認識音声中の破裂性の子音の前の無音と促音の無音との区別が困難等の問題から容易ではない。よって例えば特開昭５９−１１９３９７号公報等に開示されるように、無音区間が一定時間以上継続する場合に音声入力の終了の判定を行うようにしたものがある。又、音声区間検出の不具合を改善する方法として、特開平５−１２７６９６号公報に開示されるように、被認識音声について１次照合にて類似度と音声区間との列を作成し、第２照合部において２次照合用の標準パターンと上記１次照合にて得た類似度及び音声区間と照合することで認識率の向上を図る方法がある。又、音声区間の終端検出のための一定時間以上の継続時間待ちを必要としない方法として、例えば特開平６−４３８９５号公報に開示されるように、音声区間終了時の類似度としきい値とを比較して音声区間の終了を判定する方法がある。
【０００３】
【発明が解決しようとする課題】
上記特開昭５９−１１９３９７号公報に開示される発明によると、一定時間の無音の持続により音声入力の終了を判定する。無音持続時間は、一般に２５０〜３５０ｍｓ程度である。この方法によると、促音にも対応させるため無音継続時間が必要であり音声入力が終了しても一定時間が経過するまで認識結果が出力できない。そのため、認識結果が発声を終了してもなかなか得られず、応答の遅い認識システムとなってしまう。逆に、上記応答を速くするために無音継続時間を短くすると、発声が終了する前に促音の場合にて認識結果が出力されてしまい、誤った認識結果が出力されるという欠点があった。
又、一般的にある発声をするときに話者は、「えー」や「あのー」といった音声認識とは無関係な不要語を発声することがよくある。認識の対象となる被認識音声に対して、音声の始端から照合が開始されるので、「えー」や「あのー］という発声が入ると著しく類似度が悪くなり、誤認識の原因となる。
このような各々の欠点を解消する方法として、ワードスポッティング法がある。ワードスポッティング法は、音声区間検出を必要としないので応答の早いシステムにしやすい。又、不要語に対しても発声全体から不要語を取り除いて認識結果を出力するので良好な認識結果を得ることができる。
【０００４】
しかし、ワードスポッティング法においても以下のような問題が生ずる。即ち、被認識音声の認識を行うための辞書に登録されている辞書単語の中に、別の単語が含まれる場合である。例えば「はちのへ」と「はち（８）」のような関係である。発声が「はちのへ」であったとき、「はち（８）」まで発声した時点で辞書単語の「はち」との照合類似度が大きな値となりさらに「のへ」と発声した時点で辞書単語の「はちのへ」との類似度が大きくなる。しかし、「のへ」と発声している区間は音声区間であり無音区間ではないので、上記特開昭５９−１１９３９７号公報に開示されるような無音の持続に基づく出力ができない。また「のへ」の発声は時間的には０．１〜０．２秒程度であるので「はち」の認識結果を出力した後にすぐ「はちのへ」の認識結果出力が行われるために、発声者からみると「はち」が正しい認識結果であるのか「はちのへ」が正しい認識結果であるのかわからなくなる。即ち、仮に「はちのへ」の類似度が「はち」の類似度より大きな値であれば「はちのへ」が時系列的にも後からでてくるので認識後の後処理ができるが、「はち」のほうが「はちのへ」よりも類似度が高い場合は、被認識音声が例えば「はちから」であったとも考えられるので「はち」を正解として「のへ」を不要語と判断するのか、あるいは「はちのへ」を正解単語とするのか判断ができなくなる。
本発明はこのような問題点を解決するためになされたもので、ワードスポッティング法における照合結果の正答率を向上させる音声認識装置及び音声認識方法を提供することを目的とする。
【０００５】
【課題を解決するための手段】
本発明の第１態様によれば音声認識装置は、予め作成した標準情報と、入力された被認識音声から抽出された特徴情報との照合を行いその照合結果を送出する音声認識装置であって、
第１単語と第２単語とを有し上記第１単語と上記第２単語とがこの順に連続する結合単語が被認識音声として入力される場合、
上記標準情報は、全単語毎に、特徴パターンと、それぞれの単語における標準的な音声区間時間に基づき設定した継続長時間とを有し、
上記照合により、第１時刻にて第１類似度を得て、上記第２単語もしくは上記結合単語について第２時刻にて最大類似度を得たとき、上記第２時刻から上記最大類似度を得た単語における第２継続長時間分逆上った時刻に相当する判断時刻と上記第１時刻との時間的先後を判断し該判断に基づき上記第１類似度、上記最大類似度の少なくとも一方を送出することを特徴とする。
【０００６】
ここで、標準情報と特徴情報との照合動作は例えば照合手段にて行われ、照合結果の送出は例えば送出手段にて行われる。さらに、上記判断時刻と第１時刻との時間的先後関係の判断、第１類似度及び最大類似度の送出は例えば送出手段にて行われる。
上記判断時刻を設定し該判断時刻と第１時刻との時間的先後の判断により送出する照合結果を選択するようにしたので、誤った照合結果のみを送出することがなくなり、照合結果の正答率を向上させるように作用する。
【０００７】
又、本発明の第２態様によれば音声認識装置は、予め作成した標準情報と、入力された被認識音声から抽出された特徴情報との照合を行う照合手段と、上記照合手段に接続され上記照合結果を送出する送出手段とを有する音声認識装置であって、
第１単語と第２単語とを有し上記第１単語と上記第２単語とがこの順に連続する結合単語が被認識音声として入力される場合、
上記標準情報は、全単語毎に、特徴パターンと、それぞれの単語における標準的な音声区間時間に基づき設定した継続長時間とを有し、
上記送出手段は、上記照合手段から、第１時刻にて第１類似度を得て、上記第２単語もしくは上記結合単語について第２時刻にて最大類似度を得たとき、上記第２時刻から上記最大類似度を得た単語における第２継続長時間分逆上った時刻に相当する判断時刻と上記第１時刻との時間的先後を判断し該判断に基づき上記第１類似度、上記最大類似度の少なくとも一方を送出することを特徴とする。
【０００８】
照合手段は、標準情報と第１単語、第２単語又は結合単語との照合を行うことで、第１時刻にて第１類似度を送出し、上記第２単語もしくは結合単語について第２時刻にて最大類似度を送出する。送出手段は、上記照合手段から、第１時刻にて第１類似度を得て、第２時刻にて最大類似度を得て、上記第２時刻から最大類似度を得た単語における第２継続長時間分逆上った判断時刻を設定する。さらに送出手段は、上記判断時刻と上記第１時刻との先後判断に基づき上記第１類似度、上記最大類似度の少なくとも一方を送出するようにしたので、誤った照合結果のみを送出することがなくなり、照合結果の正答率を向上させるように作用する。
【０００９】
又、本発明の第３態様によれば音声認識方法は、予め作成した標準情報と、入力された被認識音声から抽出された特徴情報との照合を行いその照合結果を送出する音声認識方法であって、
第１単語と第２単語とを有し上記第１単語と上記第２単語とがこの順に連続する結合単語が被認識音声として入力される場合、
上記標準情報は、全単語毎に、特徴パターンと、それぞれの単語における標準的な音声区間時間に基づき設定した継続長時間とを有し、
第１時刻にて第１類似度を得て、上記第２単語もしくは上記結合単語について第２時刻にて最大類似度を得、
上記第２時刻から上記最大類似度を得た単語における第２継続長時間分逆上った時刻に相当する判断時刻を設定し、
上記判断時刻と上記第１時刻とについて時間的な先後を判断し該判断に基づき上記第１類似度、上記最大類似度の少なくとも一方を送出することを特徴とする。
【００１０】
【発明の実施の形態】
本発明の一実施形態である音声認識装置及び音声認識方法について図を参照しながら以下に説明する。尚、上記音声認識方法は上記音声認識装置にて実行されるものである。
上記音声認識装置は、図１に示すように、照合手段１と、送出手段２と、標準情報格納手段３とを備える。標準情報格納手段３には、当該音声認識装置に入力された被認識音声を認識するための元となる予め作成された各標準情報、いわゆる特徴パターンが格納されている。さらにそれぞれの標準情報には、本音声認識装置において特徴的なものである継続長という時間情報が付加されている。この継続長情報とは、各単語毎にその単語の音声区間に相当する時間に、ある割合を乗算して得られる時間情報である。例えば「ひだりいけ」という単語について、その音声区間の時間が例えば１秒であったとすると、ほぼ１．０に近い例えば０．９を乗算して得られる０．９秒が「ひだりいけ」に対する継続長情報となる。このように継続長情報が各単語毎に予め設けられている。又、上記割合は、経験上得た数値が使用される。
【００１１】
照合手段１には従来と同様に、入力された被認識音声から抽出された特徴情報と、上述した標準情報とが供給され、照合手段１は従来と同様に、経時的に供給されてくる上記特徴情報を経時的に順次上記標準情報と照合することで、順次類似度を送出する。例えば、被認識音声が「ひだりいけ」であったとすると、実際には例えば母音や子音単位のようにもっと細かな単位で照合を行うが説明上の便宜のため簡略化して説明するが、「ひ」，「だ」，「り」，「い」，「け」と順次、標準情報との照合を行い、これらの照合についてそれぞれ類似度と該類似度を得た時刻とを送出する。照合が「ひだり」まで到達した時点においては「ひだり」には「左」の標準情報があることから、図３に示すように類似度は一つのピークを形成する。このときにも照合手段１は、このピークに対応する類似度を形成した時刻と、該類似度と、さらに「ひだり」に付加されている上記継続長情報とを送出手段２へ送出する。その後「い」，「け」ではある観念を想起する単語がないことから送出される類似度は低くなっていく。さらに、「いけ」まで照合したときには、「行け」の標準情報が該当することから類似度はもう一つのピークを形成する。よって照合手段１は、類似度がピークを形成した時刻と、該類似度と、さらに「行け」に付加されている上記継続長情報とを送出手段２へ送出する。
【００１２】
尚、上述のように例えば２つの単語が連続してさらに一つの結合単語を形成するような場合において、以後の説明上、上記例にあっては「ひだり」に相当する先頭の単語を第１単語とし、該第１単語に連続する「いけ」に相当する次の単語を第２単語とし、第２単語もしくは結合単語にて得られた類似度であり当該入力音声に対する類似度のうち最大のものを最大類似度とし、該最大類似度よりも低い類似度を第１類似度とし、上記第１類似度を形成した時刻を第１時刻とし、上記最大類似度を形成した時刻を第２時刻とする。尚、第１類似度は、第１単語で得られる場合が多いが、これに限らず第２単語によって得られる場合もある。
又、後述するように、例えば地名の「はちのへ」のように、上記第１単語に相当し例えば数字の「８」を想起させる「はち」と、上記第２単語に相当し無意味な「のへ」とからなり、結合単語が地名の「八戸」という観念を想起させるような場合についても照合手段は処理を行う。
尚、入力された被認識音声が結合単語の場合に、その被認識音声が上述した例えば２つの場合のいずれに該当するかの判断は、上述のような結合単語については予め各単語毎に「ひだりいけ」タイプ、「はちのへ」タイプ等に分類がなされその分類情報が該当する単語の上記標準情報に付されているものとし、この分類情報に基づき判断がなされる。
【００１３】
送出手段２には、図１に示すように、判断時刻設定手段２ａと出力選択手段２ｂとを含む。判断時刻設定手段２ａは、上述した結合単語の場合、上記第２単語もしくは結合単語における上記最大類似度を形成した第２時刻から、該第２単語が有する上記継続長である第２継続長の時間分逆上った時刻である判断時刻を設定する。
出力選択手段２ｂは、判断時刻設定手段２ａにて設定された上記判断時刻と、上記第１類似度を形成した第１時刻とについて、時間的な先後を判断し、上記判断時刻が上記第１時刻よりも時間的に後である場合には上記第１類似度と、上記最大類似度との両方を送出し、上記判断時刻が上記第１時刻よりも時間的に先である場合には、例えば、上記第１類似度のみを送出する。
このように構成される音声認識装置の動作を以下に説明する。
【００１４】
入力された被認識音声が結合単語である場合を例に説明する。又、標準情報格納手段３には、上記第１単語の特徴パターンであるＹ_１ｉとその継続長Ｌ_１とが格納され、第２単語の特徴パターンＹ_２ｉとその継続長Ｌ_２とが格納されているものとする。
今、第１単語を「左」、第２単語を「行け」とした場合に、入力の発声が「左行け」とされたとき、概略上述したように、類似度と時間経過との関係は図３に示すように第１時刻に対応する時刻ｔ_１において第１単語の「左」との照合による類似度Ｓ_１が最大となり、第２時刻に対応する時刻ｔ_２において第２単語の「行け」との照合による類似度Ｓ_２が最大となる。尚、第１単語の第１最大類似度及び第２単語の第２最大類似度をそれぞれＳ_１ｍａｘ，Ｓ_２ｍａｘとする。又、この第１単語、第２単語の照合動作は、図２に示すステップ（図内ではＳにて示す）１に対応する。
このような場合、上述したように、被認識音声である「左行け」の照合結果である類似度がＳ_１ｍａｘ≧Ｓ_２ｍａｘであれば第１最大類似度Ｓ_１ｍａｘを出力した後、第２最大類似度Ｓ_２ｍａｘが出力されるので、後処理においても問題は生じないが、Ｓ_１ｍａｘ＜Ｓ_２ｍａｘのときは、たとえ上記第１単語に対応する第１発声がされたとしても、上記第２単語に対応する第２発声の類似度が上回るので、第１発声の類似度が第２位の類似度となってしまい、第１発声の認識結果はあたかも不正解のようになって結果出力されないという問題が生じる。このような問題の発生を防ぐために、本音声認識装置では以下のように動作する。
【００１５】
即ち、図２のステップ２に示すように、上記第２最大類似度Ｓ_２ｍａｘの現れる第２時刻ｔ_２から当該第２単語の継続長である第２継続長Ｌ_２分の時間だけ時間的に逆上った時刻である判断時刻ｔ’を設定する。尚、この場合、上記第２最大類似度が最大類似度に相当し上記第１最大類似度が第１類似度に相当する。上記判断時刻ｔ’が第２単語の音声の始端と考えることができる。もし上記判断時刻ｔ’が第１時刻ｔ_１よりも時系列的に後ろにあれば、第１時刻ｔ_１で得られた第１最大類似度Ｓ_１ｍａｘは、第２最大類似度Ｓ_２ｍａｘを有する単語とは異なる単語の認識結果と考えられる。逆に、判断時刻ｔ’が第１時刻ｔ_１よりも時系列的に前にあれば、上記第１最大類似度Ｓ_１ｍａｘを有する上記第１単語は、例えば、第２単語の発声に含まれる不要語と見なしても問題ない。
本音声認識装置はこのような考えに基づき、図２のステップ３，４に示すように、時系列的に、第２発声による結果出力の前であって、上記判断時刻ｔ’までに、第１発声による第１最大類似度Ｓ_１ｍａｘが存在する場合には、第１及び第２の最大類似度Ｓ_１ｍａｘ、Ｓ_２ｍａｘを共に出力し、逆に、上記判断時刻ｔ’までに、第１発声による第１最大類似度Ｓ_１ｍａｘが存在しない場合には、上記第２最大類似度Ｓ_２ｍａｘのみを出力する。
【００１６】
又、発声者は一般に発声変動があり特に時間的に早くなったり遅くなったりするので、上記第２時刻ｔ_２から第２継続長Ｌ_２だけ時間的に逆上るときも発声変動を考慮しなければならない。そこで上記発声変動の幅は経験的に±３０％であるので、本音声認識装置では、上記第２継続長Ｌ_２±３０％の時間分だけ逆上った時間幅内にある判断時刻より時間的に前に第１時刻ｔ_１があれば第１最大類似度Ｓ_１ｍａｘ及び第２最大類似度Ｓ_２ｍａｘを共に出力するようにしている。
【００１７】
又、「行け」のような短い単語に対しては、その継続長Ｌも小さな値となるので、上述の発声変動を考慮するのが困難になる。これを解決する方法として、本音声認識装置では、継続長Ｌに閾値Ｌｔｈを設定し、認識した単語に付されている継続長Ｌが上記閾値Ｌｔｈよりも短い単語である場合には、判断時刻を使用した上述の、結果出力方法を使用せずに、第１最大類似度Ｓ_１ｍａｘ及び第２最大類似度Ｓ_２ｍａｘの両方を結果出力するようにしている。
【００１８】
このように、本音声認識装置においては、連続して発声された単語をワードスポッティング法により弁別して結果出力することができ、しかも各々の単語を不要語と区別して出力することができる。
【００１９】
又、図４に示すように例えば「仮名記号」と「記号」のように、結合単語である「仮名記号」に第２単語である「記号」が含まれる場合について考える。上述した、結合単語に第１単語が含まれる「はちのへ」と「はち」の場合には、図５に示すように、第１単語の「はち」に対応する第１最大類似度Ｓ_１ｍａｘ（上記第１類似度に相当）と結合単語の「はちのへ」に対応する類似度Ｓ_ｍａｘ（上記最大類似度に相当）とが発生する時刻が時系列的にずれているが、図４に示すように「仮名記号」と「記号」の場合にあっては「仮名記号」に対する類似度Ｓ_ｍａｘ（上記最大類似度に相当）と、「記号」に対する類似度Ｓ_２ｍａｘ（上記第１類似度に相当）とがほとんど同じ時刻ｔ_３に現れる。このような場合、どちらかの単語を正解単語としてもう一方を不正解とする方法と、両者共に正解とする方法とに分けることができる。
本音声認識装置では、どちらかを正解とし、他方を不正解とする場合には、類似度において低閾値と該低閾値よりも類似度の高い値に設定される高閾値との例えば２つの閾値を設定し、上記時刻ｔ_３において発生する結合単語に対応する最大類似度Ｓ_ｍａｘと第２単語の「記号」に対応する第１類似度Ｓ_２ｍａｘとがともに上記低閾値を越えるときには、上記最大類似度Ｓ_ｍａｘと第１類似度Ｓ_２ｍａｘのうち、上記高閾値を越える類似度を有する単語を正解とし該単語の類似度を出力するものとする。この方法によれば、結合単語の「仮名記号」と、第２単語の「記号」とのどちらかが上記高閾値を越えたときには、上記高閾値を越える類似度を有する単語の結果出力を行い、他方は結果出力の対象から外すことになる。これは図６に示すように「記号」と発声したときは「仮名記号」の標準情報との照合による類似度があまり大きくならないことを利用するものである。一方、「仮名記号」と発声されたときは、「記号」及び「仮名記号」の両方の類似度が上がってくるので、上述のように高、低の閾値を設け、一方を結果出力し他方は不要語付の発声と考えて出力しないようにするものである。
【００２０】
又、この場合、上記低閾値のみを設定した場合には、「仮名記号」と「記号」との類似度が共に結果出力される。両者が出力された場合には、音声認識装置のアプリケーションによってどちらかを選択するかあるいは両方ともに選択するかをユーザが決定可能となる。又、例えば「仮名記号」という上記標準情報について異なる発声がなされたときや、「仮名記号」という標準情報を作成するときの周囲の騒音等により正しく標準情報が作成されなかったときのように、標準情報の作成状態の良否によっては入力音声の「仮名記号」についてどうしても高い類似度が得られないときに、補完的に「かな」＋「記号」のような別々の単語の組み合わせを使って「仮名記号」を認識させるようなときにも使用できる。即ち、標準情報として「仮名」と「記号」を含むことで、「仮名記号」と発声したときには、その発声の短い時間に「仮名」の類似度と「記号」の類似度とを両方とも出力するので、音声認識アプリケーションにて「仮名」と「記号」とをつなげて「仮名記号」を認識することができる。
【００２１】
さらに又、結果出力は、一般には、発声終了後２５０〜３５０ｍｓ程度待ってから行う。これは従来技術でも説明したように発声終了と促音とを識別するためである。しかしワードスポッティング法によれば、音声区間の検出は行わないので、発声の始点、終点というのは存在し得ない。そこで、従来便宜的に図９に示すように、得られる類似度の最大値Ｓｉ_ｍａｘの現れた時刻ｔｉを発声終了として、該時刻ｔｉから離散時間ｔ_ｉｓｏｌ（＝２５０〜３５０ｍｓ）経ったときに結果を出力する方法がとられることがある。
一方、本音声認識装置では、例えば「はちのへ」のように、第１単語である「はち」が結合単語の「はちのへ」に含まれているような単語の認識を行う場合には以下のように動作する。即ち、「はち」まで発声した時点ｔｉでは第１単語「はち」の類似度Ｓ_１ _ｍａｘが最大となる。上述のように従来にあっては結果出力はｔｉ＋ｔ_ｉｓｏｌにて算出される時刻で行われるが、第１単語「はち」は結合単語「はちのへ」に含まれるので、図７に示すようにさらに付加時間（ｔ_ｉｎｃ）を設け、ｔ_１＋ｔ_ｉｓｏｌ＋ｔ_ｉｎｃとして算出される時間の終了時刻ｔ’_ｉｓｏｌにて結果出力するようにして、結果出力する時刻を遅らせる。こうすることで、「はちのへ」まで発声し終わった時点で結合単語「はちのへ」の類似度Ｓ_ｍａｘ（最大類似度に相当）と第１単語「はち」の類似度Ｓ_１ _ｍａｘ（第１類似度に相当）の比較により認識結果が出力される。図７に示す例の場合には、「はちのへ」の類似度が「はち」の類似度よりも大きいので、「はちのへ」の類似度が結果として出力される。このような動作を行わせることで、従来においては、「はちのへ」の発声に対して「はち」も「はちのへ」も共に結果出力される場合があったが、本音声認識装置では不要な「はち」まで出力するのを排除することができる。尚、上記付加時間は、それぞれの結合単語にて適宜に予め設定されるものであり、例えば２００ｍｓである。
【００２２】
尚、ある第１単語に対して複数の結合単語が存在する場合には、上記付加時間は、これらの付加時間の内で最大の付加時間とする。例えば、第１単語「はち」を含む結合単語として「はちのへ」以外に例えば「はちおうじ」が含まれている場合、各結合単語から第１単語である「はち」を除いた第２単語は「のへ」、「おうじ」となり、「おうじ」の音声区間時間が「のへ」の音声区間時間よりも長いので、第１単語「はち」に予め付加される付加時間ｔ_ｉｎｃの情報は「おうじ」に対応する時間情報とする。
【００２３】
又、上述の説明では、終了時刻ｔ’_ｉｓｏｌにて、入力音声から得られた類似度の内いずれの類似度を出力するかを判断しその結果を出力するようにしたが、一方、上記終了時刻ｔ’_ｉｓｏｌにおいては上記判断のみを行うものとすることもできる。即ち、例えば「はちのへ」の入力音声に対して、最初に得られた類似度、即ち第１単語の「はち」に対する類似度Ｓ_１ｍａｘよりも大きい類似度が上記時刻ｔ_１から、上記（ｔ_１＋ｔ_ｉｓｏｌ＋ｔ_ｉｎｃ）時刻、即ち上記終了時刻ｔ’_ｉｓｏｌまでの時間に発生したか否かが上記終了時刻ｔ’_ｉｓｏｌにて判断される。そして、もし、上記ｔ_１時刻から上記終了時刻ｔ’_ｉｓｏｌまでに第１単語の「はち」に対する類似度Ｓ_１ｍａｘしか得られなかった場合には、上記終了時刻ｔ’_ｉｓｏｌにて類似度Ｓ_１ｍａｘを出力することになる。一方、図８の場合、上記時刻ｔ_１から上記終了時刻ｔ’_ｉｓｏｌまでの間の時刻ｔ_２にて結合単語「はちのへ」に対する類似度Ｓ_２ｍａｘが生じる。よって、上記終了時刻ｔ’_ｉｓｏｌにて類似度Ｓ_１ｍａｘと類似度Ｓ_２ｍａｘとの大きさが判断され、図８に示す例の場合、類似度Ｓ_２ｍａｘは類似度Ｓ_１ｍａｘよりも大きくかつ時刻ｔ_１から終了時刻ｔ’_ｉｓｏｌまでに得られ類似度で最大のものであるので、「はちのへ」の入力音声において最大の類似度が得られた時刻ｔ_２にさらに離散時間ｔ_ｉｓｏｌを加えた時刻Ｔｘにて上記最大の類似度である類似度Ｓ_２ｍａｘを結果出力する。
このような動作を採ることで、「はち」よりも「はちのへ」の方が高い類似度を得たことになり「はちのへ」を認識結果として出力することができる。このとき、「はち」は「はちのへ」という結合単語の一部分として判断したことになる。又、ユーザから見ると「はちのへ」と発声したときに「はち」が排除されて「はちのへ」のみが結果出力されるのでユーザが使い易くなる。
【００２４】
このように、さらに上記高閾値、低閾値や付加時間を設けることで、認識対象となる単語の文字列に制約を設けることなく自由な認識対象単語を設定でき、このような認識対象に対して正しい認識結果を速やかに出力することができる。
このようにして、上述した従来のワードスポッティング法の結果出力の問題点を解決することができる。
【００２５】
尚、上述した実施形態では、結合単語は第１単語及び第２単語から構成される場合を示したが、これに限らず結合単語内に２以上の別の単語が含まれるような場合についても適用可能なことは明らかである。
【００２６】
【発明の効果】
以上詳述したように本発明の第１から第３の態様による音声認識装置及び音声認識方法によれば、各単語の標準情報には特徴パターンと継続長時間とを備え、第２単語もしくは結合単語における最大類似度が得られる第２時刻から当該最大類似度が得られる単語の上記継続長時間分時間的に逆上った判断時刻を求め、該判断時刻と、第１類似度が得られる第１時刻との時間的な先後を判断するようにしたことより、連続して発声された単語をワードスポッティングにより弁別して結果出力することができ、しかも各々の単語を不要語と区別して出力することができる。又、類似度に閾値を設けたり、結果出力の時刻を調整することで、認識対象となる単語の文字列に制約を設けることなく自由な認識対象単語を設定でき、さらに正しい認識結果をすみやかに出力することができる。
【図面の簡単な説明】
【図１】本発明の一実施例である音声認識装置の構成を示すブロック図である。
【図２】図１に示す音声認識装置にて実行される音声認識方法を説明するためのフローチャートである。
【図３】図１に示す音声認識装置及び図２に示す音声認識方法における一動作を説明するための図である。
【図４】図１に示す音声認識装置及び図２に示す音声認識方法における他の動作を説明するための図である。
【図５】第１単語と第２単語とにおける最大類似度の発生時刻がずれる場合を説明するための図である。
【図６】「記号」と発声した場合「仮名記号」の標準情報との照合による類似度があまり大きくならないことを示す図である。
【図７】図１に示す音声認識装置において結果出力を行う時刻を説明するための図である。
【図８】図１に示す音声認識装置において、図７に示す結果出力を行う時刻とは別の時刻を説明するための図である。
【図９】従来の場合において、結果出力を行う時刻を説明するための図である。
【符号の説明】
１…照合手段、２…送出手段、２ａ…判断時刻設定手段、
２ｂ…出力選択手段、３…標準情報格納手段。

Claims

予め作成した標準情報と、入力された被認識音声から抽出された特徴情報との照合を行いその照合結果を送出する音声認識装置であって、
第１単語と第２単語とを有し上記第１単語と上記第２単語とがこの順に連続する結合単語が被認識音声として入力される場合、
上記標準情報は、全単語毎に、特徴パターンと、それぞれの単語における標準的な音声区間時間に基づき設定した継続長時間とを有し、
上記照合により、第１時刻にて第１類似度を得て、上記第２単語もしくは上記結合単語について第２時刻にて最大類似度を得たとき、上記第２時刻から上記最大類似度を得た単語における第２継続長時間分逆上った時刻に相当する判断時刻と上記第１時刻との時間的先後を判断し該判断に基づき上記第１類似度、上記最大類似度の少なくとも一方を送出することを特徴とする音声認識装置。
予め作成した標準情報と、入力された被認識音声から抽出された特徴情報との照合を行う照合手段と、上記照合手段に接続され上記照合結果を送出する送出手段とを有する音声認識装置であって、
第１単語と第２単語とを有し上記第１単語と上記第２単語とがこの順に連続する結合単語が被認識音声として入力される場合、
上記標準情報は、全単語毎に、特徴パターンと、それぞれの単語における標準的な音声区間時間に基づき設定した継続長時間とを有し、
上記送出手段は、上記照合手段から、第１時刻にて第１類似度を得て、上記第２単語もしくは上記結合単語について第２時刻にて最大類似度を得たとき、上記第２時刻から上記最大類似度を得た単語における第２継続長時間分逆上った時刻に相当する判断時刻と上記第１時刻との時間的先後を判断し該判断に基づき上記第１類似度、上記最大類似度の少なくとも一方を送出することを特徴とする音声認識装置。
上記判断時刻が上記第１時刻よりも後であるときには、上記第１類似度及び上記最大類似度を送出する、請求項１又は２記載の音声認識装置。
上記判断時刻を元に判断時間を設定し該判断時間と上記第１時刻との時間的先後を判断し該判断に基づき上記第１類似度、上記最大類似度の少なくとも一方を送出する、請求項１ないし３のいずれかに記載の音声認識装置。
上記継続長時間に対して継続長閾値を設定し、上記最大類似度を得た単語における上記第２継続長時間が上記継続長閾値より短い場合には、上記判断時刻を用いることなく上記第１類似度及び上記最大類似度の両方を送出する、請求項１ないし３のいずれかに記載の音声認識装置。
上記第１単語がある観念を想起させる単語でありかつ上記結合単語としても他の観念を想起させる単語であり、かつ上記第２時刻が上記第１時刻に離散時間を加えた時間に含まれる場合、上記最大類似度は上記第１時刻に離散時間及び付加時間を加えた時間の終了時刻にて送出される、請求項１ないし５のいずれかに記載の音声認識装置。
上記第１単語に相当する単語と同一の単語を含む上記結合単語が複数存在するときには、上記付加時間は上記結合単語の内最も音声区間時間の長い第２単語に相当する時間である、請求項６記載の音声認識装置。
上記最大類似度は、上記第２時刻に上記離散時間を加えた時間の終了時刻にて送出される、請求項６又は７に記載の音声認識装置。
上記第１類似度と上記最大類似度とがほぼ同時刻に得られる場合、上記判断時刻を用いることなく、設定した類似度閾値を越えた類似度を送出する、請求項１ないし３のいずれかに記載の音声認識装置。
上記類似度閾値は、低閾値と該低閾値よりも類似度が高いレベルに設定される高閾値とを有し、上記第１類似度及び上記最大類似度がともに上記低閾値を超えるときには上記高閾値を超える類似度を送出する、請求項９記載の音声認識装置。
予め作成した標準情報と、入力された被認識音声から抽出された特徴情報との照合を行いその照合結果を送出する音声認識方法であって、
第１単語と第２単語とを有し上記第１単語と上記第２単語とがこの順に連続する結合単語が被認識音声として入力される場合、
上記標準情報は、全単語毎に、特徴パターンと、それぞれの単語における標準的な音声区間時間に基づき設定した継続長時間とを有し、
第１時刻にて第１類似度を得て、上記第２単語もしくは上記結合単語について第２時刻にて最大類似度を得、
上記第２時刻から上記最大類似度を得た単語における第２継続長時間分逆上った時刻に相当する判断時刻を設定し、
上記判断時刻と上記第１時刻とについて時間的な先後を判断し該判断に基づき上記第１類似度、上記最大類似度の少なくとも一方を送出することを特徴とする音声認識方法。