JP3581752B2 - 音声認識装置及び音声認識方法 - Google Patents

音声認識装置及び音声認識方法 Download PDF

Info

Publication number
JP3581752B2
JP3581752B2 JP05000896A JP5000896A JP3581752B2 JP 3581752 B2 JP3581752 B2 JP 3581752B2 JP 05000896 A JP05000896 A JP 05000896A JP 5000896 A JP5000896 A JP 5000896A JP 3581752 B2 JP3581752 B2 JP 3581752B2
Authority
JP
Japan
Prior art keywords
time
word
similarity
voice
recognition device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP05000896A
Other languages
English (en)
Other versions
JPH09166995A (ja
Inventor
勝 黒田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP05000896A priority Critical patent/JP3581752B2/ja
Priority to US08/715,108 priority patent/US5799274A/en
Publication of JPH09166995A publication Critical patent/JPH09166995A/ja
Application granted granted Critical
Publication of JP3581752B2 publication Critical patent/JP3581752B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1807Speech classification or search using natural language modelling using prosody or stress
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Description

【0001】
【発明の属する技術分野】
本発明は、音声認識装置及び音声認識方法に関し、特にワードスポッティング法により音声認識を行うものであり、さらに第1単語若しくは第2単語がある観念を想起させる単語でありかつ上記第1単語と上記第2単語とがこの順に連続することで他の観念を想起させる一単語を形成する結合単語が被認識音声として入力された場合にも認識結果を正しく送出することができる音声認識装置及び音声認識方法に関する。
【0002】
【従来の技術】
従来の音声認識装置では、音声のパワー情報などを使用して、認識すべき音声区間の始端と終端とを決定し、この音声区間情報に基づいて認識処理を行っていた。このとき音声区間の始端はパワー情報によって容易に検出できるが、終端の検出は、例えば、被認識音声中の破裂性の子音の前の無音と促音の無音との区別が困難等の問題から容易ではない。よって例えば特開昭59−119397号公報等に開示されるように、無音区間が一定時間以上継続する場合に音声入力の終了の判定を行うようにしたものがある。又、音声区間検出の不具合を改善する方法として、特開平5−127696号公報に開示されるように、被認識音声について1次照合にて類似度と音声区間との列を作成し、第2照合部において2次照合用の標準パターンと上記1次照合にて得た類似度及び音声区間と照合することで認識率の向上を図る方法がある。又、音声区間の終端検出のための一定時間以上の継続時間待ちを必要としない方法として、例えば特開平6−43895号公報に開示されるように、音声区間終了時の類似度としきい値とを比較して音声区間の終了を判定する方法がある。
【0003】
【発明が解決しようとする課題】
上記特開昭59−119397号公報に開示される発明によると、一定時間の無音の持続により音声入力の終了を判定する。無音持続時間は、一般に250〜350ms程度である。この方法によると、促音にも対応させるため無音継続時間が必要であり音声入力が終了しても一定時間が経過するまで認識結果が出力できない。そのため、認識結果が発声を終了してもなかなか得られず、応答の遅い認識システムとなってしまう。逆に、上記応答を速くするために無音継続時間を短くすると、発声が終了する前に促音の場合にて認識結果が出力されてしまい、誤った認識結果が出力されるという欠点があった。
又、一般的にある発声をするときに話者は、「えー」や「あのー」といった音声認識とは無関係な不要語を発声することがよくある。認識の対象となる被認識音声に対して、音声の始端から照合が開始されるので、「えー」や「あのー]という発声が入ると著しく類似度が悪くなり、誤認識の原因となる。
このような各々の欠点を解消する方法として、ワードスポッティング法がある。ワードスポッティング法は、音声区間検出を必要としないので応答の早いシステムにしやすい。又、不要語に対しても発声全体から不要語を取り除いて認識結果を出力するので良好な認識結果を得ることができる。
【0004】
しかし、ワードスポッティング法においても以下のような問題が生ずる。即ち、被認識音声の認識を行うための辞書に登録されている辞書単語の中に、別の単語が含まれる場合である。例えば「はちのへ」と「はち(8)」のような関係である。発声が「はちのへ」であったとき、「はち(8)」まで発声した時点で辞書単語の「はち」との照合類似度が大きな値となりさらに「のへ」と発声した時点で辞書単語の「はちのへ」との類似度が大きくなる。しかし、「のへ」と発声している区間は音声区間であり無音区間ではないので、上記特開昭59−119397号公報に開示されるような無音の持続に基づく出力ができない。また「のへ」の発声は時間的には0.1〜0.2秒程度であるので「はち」の認識結果を出力した後にすぐ「はちのへ」の認識結果出力が行われるために、発声者からみると「はち」が正しい認識結果であるのか「はちのへ」が正しい認識結果であるのかわからなくなる。即ち、仮に「はちのへ」の類似度が「はち」の類似度より大きな値であれば「はちのへ」が時系列的にも後からでてくるので認識後の後処理ができるが、「はち」のほうが「はちのへ」よりも類似度が高い場合は、被認識音声が例えば「はちから」であったとも考えられるので「はち」を正解として「のへ」を不要語と判断するのか、あるいは「はちのへ」を正解単語とするのか判断ができなくなる。
本発明はこのような問題点を解決するためになされたもので、ワードスポッティング法における照合結果の正答率を向上させる音声認識装置及び音声認識方法を提供することを目的とする。
【0005】
【課題を解決するための手段】
本発明の第1態様によれば音声認識装置は、予め作成した標準情報と、入力された被認識音声から抽出された特徴情報との照合を行いその照合結果を送出する音声認識装置であって、
第1単語と第2単語とを有し上記第1単語と上記第2単語とがこの順に連続する結合単語が被認識音声として入力される場合、
上記標準情報は、全単語毎に、特徴パターンと、それぞれの単語における標準的な音声区間時間に基づき設定した継続長時間とを有し、
上記照合により、第1時刻にて第1類似度を得て、上記第2単語もしくは上記結合単語について第2時刻にて最大類似度を得たとき、上記第2時刻から上記最大類似度を得た単語における第2継続長時間分逆上った時刻に相当する判断時刻と上記第1時刻との時間的先後を判断し該判断に基づき上記第1類似度、上記最大類似度の少なくとも一方を送出することを特徴とする。
【0006】
ここで、標準情報と特徴情報との照合動作は例えば照合手段にて行われ、照合結果の送出は例えば送出手段にて行われる。さらに、上記判断時刻と第1時刻との時間的先後関係の判断、第1類似度及び最大類似度の送出は例えば送出手段にて行われる。
上記判断時刻を設定し該判断時刻と第1時刻との時間的先後の判断により送出する照合結果を選択するようにしたので、誤った照合結果のみを送出することがなくなり、照合結果の正答率を向上させるように作用する。
【0007】
又、本発明の第2態様によれば音声認識装置は、予め作成した標準情報と、入力された被認識音声から抽出された特徴情報との照合を行う照合手段と、上記照合手段に接続され上記照合結果を送出する送出手段とを有する音声認識装置であって、
第1単語と第2単語とを有し上記第1単語と上記第2単語とがこの順に連続する結合単語が被認識音声として入力される場合、
上記標準情報は、全単語毎に、特徴パターンと、それぞれの単語における標準的な音声区間時間に基づき設定した継続長時間とを有し、
上記送出手段は、上記照合手段から、第1時刻にて第1類似度を得て、上記第2単語もしくは上記結合単語について第2時刻にて最大類似度を得たとき、上記第2時刻から上記最大類似度を得た単語における第2継続長時間分逆上った時刻に相当する判断時刻と上記第1時刻との時間的先後を判断し該判断に基づき上記第1類似度、上記最大類似度の少なくとも一方を送出することを特徴とする。
【0008】
照合手段は、標準情報と第1単語、第2単語又は結合単語との照合を行うことで、第1時刻にて第1類似度を送出し、上記第2単語もしくは結合単語について第2時刻にて最大類似度を送出する。送出手段は、上記照合手段から、第1時刻にて第1類似度を得て、第2時刻にて最大類似度を得て、上記第2時刻から最大類似度を得た単語における第2継続長時間分逆上った判断時刻を設定する。さらに送出手段は、上記判断時刻と上記第1時刻との先後判断に基づき上記第1類似度、上記最大類似度の少なくとも一方を送出するようにしたので、誤った照合結果のみを送出することがなくなり、照合結果の正答率を向上させるように作用する。
【0009】
又、本発明の第3態様によれば音声認識方法は、予め作成した標準情報と、入力された被認識音声から抽出された特徴情報との照合を行いその照合結果を送出する音声認識方法であって、
第1単語と第2単語とを有し上記第1単語と上記第2単語とがこの順に連続する結合単語が被認識音声として入力される場合、
上記標準情報は、全単語毎に、特徴パターンと、それぞれの単語における標準的な音声区間時間に基づき設定した継続長時間とを有し、
第1時刻にて第1類似度を得て、上記第2単語もしくは上記結合単語について第2時刻にて最大類似度を得、
上記第2時刻から上記最大類似度を得た単語における第2継続長時間分逆上った時刻に相当する判断時刻を設定し、
上記判断時刻と上記第1時刻とについて時間的な先後を判断し該判断に基づき上記第1類似度、上記最大類似度の少なくとも一方を送出することを特徴とする。
【0010】
【発明の実施の形態】
本発明の一実施形態である音声認識装置及び音声認識方法について図を参照しながら以下に説明する。尚、上記音声認識方法は上記音声認識装置にて実行されるものである。
上記音声認識装置は、図1に示すように、照合手段1と、送出手段2と、標準情報格納手段3とを備える。標準情報格納手段3には、当該音声認識装置に入力された被認識音声を認識するための元となる予め作成された各標準情報、いわゆる特徴パターンが格納されている。さらにそれぞれの標準情報には、本音声認識装置において特徴的なものである継続長という時間情報が付加されている。この継続長情報とは、各単語毎にその単語の音声区間に相当する時間に、ある割合を乗算して得られる時間情報である。例えば「ひだりいけ」という単語について、その音声区間の時間が例えば1秒であったとすると、ほぼ1.0に近い例えば0.9を乗算して得られる0.9秒が「ひだりいけ」に対する継続長情報となる。このように継続長情報が各単語毎に予め設けられている。又、上記割合は、経験上得た数値が使用される。
【0011】
照合手段1には従来と同様に、入力された被認識音声から抽出された特徴情報と、上述した標準情報とが供給され、照合手段1は従来と同様に、経時的に供給されてくる上記特徴情報を経時的に順次上記標準情報と照合することで、順次類似度を送出する。例えば、被認識音声が「ひだりいけ」であったとすると、実際には例えば母音や子音単位のようにもっと細かな単位で照合を行うが説明上の便宜のため簡略化して説明するが、「ひ」,「だ」,「り」,「い」,「け」と順次、標準情報との照合を行い、これらの照合についてそれぞれ類似度と該類似度を得た時刻とを送出する。照合が「ひだり」まで到達した時点においては「ひだり」には「左」の標準情報があることから、図3に示すように類似度は一つのピークを形成する。このときにも照合手段1は、このピークに対応する類似度を形成した時刻と、該類似度と、さらに「ひだり」に付加されている上記継続長情報とを送出手段2へ送出する。その後「い」,「け」ではある観念を想起する単語がないことから送出される類似度は低くなっていく。さらに、「いけ」まで照合したときには、「行け」の標準情報が該当することから類似度はもう一つのピークを形成する。よって照合手段1は、類似度がピークを形成した時刻と、該類似度と、さらに「行け」に付加されている上記継続長情報とを送出手段2へ送出する。
【0012】
尚、上述のように例えば2つの単語が連続してさらに一つの結合単語を形成するような場合において、以後の説明上、上記例にあっては「ひだり」に相当する先頭の単語を第1単語とし、該第1単語に連続する「いけ」に相当する次の単語を第2単語とし、第2単語もしくは結合単語にて得られた類似度であり当該入力音声に対する類似度のうち最大のものを最大類似度とし、該最大類似度よりも低い類似度を第1類似度とし、上記第1類似度を形成した時刻を第1時刻とし、上記最大類似度を形成した時刻を第2時刻とする。尚、第1類似度は、第1単語で得られる場合が多いが、これに限らず第2単語によって得られる場合もある。
又、後述するように、例えば地名の「はちのへ」のように、上記第1単語に相当し例えば数字の「8」を想起させる「はち」と、上記第2単語に相当し無意味な「のへ」とからなり、結合単語が地名の「八戸」という観念を想起させるような場合についても照合手段は処理を行う。
尚、入力された被認識音声が結合単語の場合に、その被認識音声が上述した例えば2つの場合のいずれに該当するかの判断は、上述のような結合単語については予め各単語毎に「ひだりいけ」タイプ、「はちのへ」タイプ等に分類がなされその分類情報が該当する単語の上記標準情報に付されているものとし、この分類情報に基づき判断がなされる。
【0013】
送出手段2には、図1に示すように、判断時刻設定手段2aと出力選択手段2bとを含む。判断時刻設定手段2aは、上述した結合単語の場合、上記第2単語もしくは結合単語における上記最大類似度を形成した第2時刻から、該第2単語が有する上記継続長である第2継続長の時間分逆上った時刻である判断時刻を設定する。
出力選択手段2bは、判断時刻設定手段2aにて設定された上記判断時刻と、上記第1類似度を形成した第1時刻とについて、時間的な先後を判断し、上記判断時刻が上記第1時刻よりも時間的に後である場合には上記第1類似度と、上記最大類似度との両方を送出し、上記判断時刻が上記第1時刻よりも時間的に先である場合には、例えば、上記第1類似度のみを送出する。
このように構成される音声認識装置の動作を以下に説明する。
【0014】
入力された被認識音声が結合単語である場合を例に説明する。又、標準情報格納手段3には、上記第1単語の特徴パターンであるY1iとその継続長Lとが格納され、第2単語の特徴パターンY2iとその継続長Lとが格納されているものとする。
今、第1単語を「左」、第2単語を「行け」とした場合に、入力の発声が「左行け」とされたとき、概略上述したように、類似度と時間経過との関係は図3に示すように第1時刻に対応する時刻tにおいて第1単語の「左」との照合による類似度Sが最大となり、第2時刻に対応する時刻tにおいて第2単語の「行け」との照合による類似度Sが最大となる。尚、第1単語の第1最大類似度及び第2単語の第2最大類似度をそれぞれS1max ,S2maxとする。又、この第1単語、第2単語の照合動作は、図2に示すステップ(図内ではSにて示す)1に対応する。
このような場合、上述したように、被認識音声である「左行け」の照合結果である類似度がS1max≧S2maxであれば第1最大類似度S1maxを出力した後、第2最大類似度S2maxが出力されるので、後処理においても問題は生じないが、S1max<S2maxのときは、たとえ上記第1単語に対応する第1発声がされたとしても、上記第2単語に対応する第2発声の類似度が上回るので、第1発声の類似度が第2位の類似度となってしまい、第1発声の認識結果はあたかも不正解のようになって結果出力されないという問題が生じる。このような問題の発生を防ぐために、本音声認識装置では以下のように動作する。
【0015】
即ち、図2のステップ2に示すように、上記第2最大類似度S2maxの現れる第2時刻tから当該第2単語の継続長である第2継続長L分の時間だけ時間的に逆上った時刻である判断時刻t’を設定する。尚、この場合、上記第2最大類似度が最大類似度に相当し上記第1最大類似度が第1類似度に相当する。上記判断時刻t’が第2単語の音声の始端と考えることができる。もし上記判断時刻t’が第1時刻tよりも時系列的に後ろにあれば、第1時刻tで得られた第1最大類似度S1maxは、第2最大類似度S2maxを有する単語とは異なる単語の認識結果と考えられる。逆に、判断時刻t’が第1時刻tよりも時系列的に前にあれば、上記第1最大類似度S1maxを有する上記第1単語は、例えば、第2単語の発声に含まれる不要語と見なしても問題ない。
本音声認識装置はこのような考えに基づき、図2のステップ3,4に示すように、時系列的に、第2発声による結果出力の前であって、上記判断時刻t’までに、第1発声による第1最大類似度S1maxが存在する場合には、第1及び第2の最大類似度S1max、S2maxを共に出力し、逆に、上記判断時刻t’までに、第1発声による第1最大類似度S1maxが存在しない場合には、上記第2最大類似度S2maxのみを出力する。
【0016】
又、発声者は一般に発声変動があり特に時間的に早くなったり遅くなったりするので、上記第2時刻tから第2継続長Lだけ時間的に逆上るときも発声変動を考慮しなければならない。そこで上記発声変動の幅は経験的に±30%であるので、本音声認識装置では、上記第2継続長L±30%の時間分だけ逆上った時間幅内にある判断時刻より時間的に前に第1時刻tがあれば第1最大類似度S1max及び第2最大類似度S2maxを共に出力するようにしている。
【0017】
又、「行け」のような短い単語に対しては、その継続長Lも小さな値となるので、上述の発声変動を考慮するのが困難になる。これを解決する方法として、本音声認識装置では、継続長Lに閾値Lthを設定し、認識した単語に付されている継続長Lが上記閾値Lthよりも短い単語である場合には、判断時刻を使用した上述の、結果出力方法を使用せずに、第1最大類似度S1max及び第2最大類似度S2maxの両方を結果出力するようにしている。
【0018】
このように、本音声認識装置においては、連続して発声された単語をワードスポッティング法により弁別して結果出力することができ、しかも各々の単語を不要語と区別して出力することができる。
【0019】
又、図4に示すように例えば「仮名記号」と「記号」のように、結合単語である「仮名記号」に第2単語である「記号」が含まれる場合について考える。上述した、結合単語に第1単語が含まれる「はちのへ」と「はち」の場合には、図5に示すように、第1単語の「はち」に対応する第1最大類似度S1max(上記第1類似度に相当)と結合単語の「はちのへ」に対応する類似度Smax(上記最大類似度に相当)とが発生する時刻が時系列的にずれているが、図4に示すように「仮名記号」と「記号」の場合にあっては「仮名記号」に対する類似度Smax(上記最大類似度に相当)と、「記号」に対する類似度S2max(上記第1類似度に相当)とがほとんど同じ時刻tに現れる。このような場合、どちらかの単語を正解単語としてもう一方を不正解とする方法と、両者共に正解とする方法とに分けることができる。
本音声認識装置では、どちらかを正解とし、他方を不正解とする場合には、類似度において低閾値と該低閾値よりも類似度の高い値に設定される高閾値との例えば2つの閾値を設定し、上記時刻tにおいて発生する結合単語に対応する最大類似度Smaxと第2単語の「記号」に対応する第1類似度S2maxとがともに上記低閾値を越えるときには、上記最大類似度Smaxと第1類似度S2maxのうち、上記高閾値を越える類似度を有する単語を正解とし該単語の類似度を出力するものとする。この方法によれば、結合単語の「仮名記号」と、第2単語の「記号」とのどちらかが上記高閾値を越えたときには、上記高閾値を越える類似度を有する単語の結果出力を行い、他方は結果出力の対象から外すことになる。これは図6に示すように「記号」と発声したときは「仮名記号」の標準情報との照合による類似度があまり大きくならないことを利用するものである。一方、「仮名記号」と発声されたときは、「記号」及び「仮名記号」の両方の類似度が上がってくるので、上述のように高、低の閾値を設け、一方を結果出力し他方は不要語付の発声と考えて出力しないようにするものである。
【0020】
又、この場合、上記低閾値のみを設定した場合には、「仮名記号」と「記号」との類似度が共に結果出力される。両者が出力された場合には、音声認識装置のアプリケーションによってどちらかを選択するかあるいは両方ともに選択するかをユーザが決定可能となる。又、例えば「仮名記号」という上記標準情報について異なる発声がなされたときや、「仮名記号」という標準情報を作成するときの周囲の騒音等により正しく標準情報が作成されなかったときのように、標準情報の作成状態の良否によっては入力音声の「仮名記号」についてどうしても高い類似度が得られないときに、補完的に「かな」+「記号」のような別々の単語の組み合わせを使って「仮名記号」を認識させるようなときにも使用できる。即ち、標準情報として「仮名」と「記号」を含むことで、「仮名記号」と発声したときには、その発声の短い時間に「仮名」の類似度と「記号」の類似度とを両方とも出力するので、音声認識アプリケーションにて「仮名」と「記号」とをつなげて「仮名記号」を認識することができる。
【0021】
さらに又、結果出力は、一般には、発声終了後250〜350ms程度待ってから行う。これは従来技術でも説明したように発声終了と促音とを識別するためである。しかしワードスポッティング法によれば、音声区間の検出は行わないので、発声の始点、終点というのは存在し得ない。そこで、従来便宜的に図9に示すように、得られる類似度の最大値Simaxの現れた時刻tiを発声終了として、該時刻tiから離散時間tisol(=250〜350ms)経ったときに結果を出力する方法がとられることがある。
一方、本音声認識装置では、例えば「はちのへ」のように、第1単語である「はち」が結合単語の「はちのへ」に含まれているような単語の認識を行う場合には以下のように動作する。即ち、「はち」まで発声した時点tiでは第1単語「はち」の類似度S maxが最大となる。上述のように従来にあっては結果出力はti+tisolにて算出される時刻で行われるが、第1単語「はち」は結合単語「はちのへ」に含まれるので、図7に示すようにさらに付加時間(tinc)を設け、t+tisol+tincとして算出される時間の終了時刻t’isolにて結果出力するようにして、結果出力する時刻を遅らせる。こうすることで、「はちのへ」まで発声し終わった時点で結合単語「はちのへ」の類似度Smax(最大類似度に相当)と第1単語「はち」の類似度S max(第1類似度に相当)の比較により認識結果が出力される。図7に示す例の場合には、「はちのへ」の類似度が「はち」の類似度よりも大きいので、「はちのへ」の類似度が結果として出力される。このような動作を行わせることで、従来においては、「はちのへ」の発声に対して「はち」も「はちのへ」も共に結果出力される場合があったが、本音声認識装置では不要な「はち」まで出力するのを排除することができる。尚、上記付加時間は、それぞれの結合単語にて適宜に予め設定されるものであり、例えば200msである。
【0022】
尚、ある第1単語に対して複数の結合単語が存在する場合には、上記付加時間は、これらの付加時間の内で最大の付加時間とする。例えば、第1単語「はち」を含む結合単語として「はちのへ」以外に例えば「はちおうじ」が含まれている場合、各結合単語から第1単語である「はち」を除いた第2単語は「のへ」、「おうじ」となり、「おうじ」の音声区間時間が「のへ」の音声区間時間よりも長いので、第1単語「はち」に予め付加される付加時間tincの情報は「おうじ」に対応する時間情報とする。
【0023】
又、上述の説明では、終了時刻t’isolにて、入力音声から得られた類似度の内いずれの類似度を出力するかを判断しその結果を出力するようにしたが、一方、上記終了時刻t’isolにおいては上記判断のみを行うものとすることもできる。即ち、例えば「はちのへ」の入力音声に対して、最初に得られた類似度、即ち第1単語の「はち」に対する類似度S1maxよりも大きい類似度が上記時刻tから、上記(t+tisol+tinc)時刻、即ち上記終了時刻t’isolまでの時間に発生したか否かが上記終了時刻t’isolにて判断される。そして、もし、上記t時刻から上記終了時刻t’isolまでに第1単語の「はち」に対する類似度S1maxしか得られなかった場合には、上記終了時刻t’isolにて類似度S1maxを出力することになる。一方、図8の場合、上記時刻tから上記終了時刻t’isolまでの間の時刻tにて結合単語「はちのへ」に対する類似度S2maxが生じる。よって、上記終了時刻t’isolにて類似度S1maxと類似度S2maxとの大きさが判断され、図8に示す例の場合、類似度S2maxは類似度S1maxよりも大きくかつ時刻tから終了時刻t’isolまでに得られ類似度で最大のものであるので、「はちのへ」の入力音声において最大の類似度が得られた時刻tにさらに離散時間tisolを加えた時刻Txにて上記最大の類似度である類似度S2maxを結果出力する。
このような動作を採ることで、「はち」よりも「はちのへ」の方が高い類似度を得たことになり「はちのへ」を認識結果として出力することができる。このとき、「はち」は「はちのへ」という結合単語の一部分として判断したことになる。又、ユーザから見ると「はちのへ」と発声したときに「はち」が排除されて「はちのへ」のみが結果出力されるのでユーザが使い易くなる。
【0024】
このように、さらに上記高閾値、低閾値や付加時間を設けることで、認識対象となる単語の文字列に制約を設けることなく自由な認識対象単語を設定でき、このような認識対象に対して正しい認識結果を速やかに出力することができる。
このようにして、上述した従来のワードスポッティング法の結果出力の問題点を解決することができる。
【0025】
尚、上述した実施形態では、結合単語は第1単語及び第2単語から構成される場合を示したが、これに限らず結合単語内に2以上の別の単語が含まれるような場合についても適用可能なことは明らかである。
【0026】
【発明の効果】
以上詳述したように本発明の第1から第3の態様による音声認識装置及び音声認識方法によれば、各単語の標準情報には特徴パターンと継続長時間とを備え、第2単語もしくは結合単語における最大類似度が得られる第2時刻から当該最大類似度が得られる単語の上記継続長時間分時間的に逆上った判断時刻を求め、該判断時刻と、第1類似度が得られる第1時刻との時間的な先後を判断するようにしたことより、連続して発声された単語をワードスポッティングにより弁別して結果出力することができ、しかも各々の単語を不要語と区別して出力することができる。 又、類似度に閾値を設けたり、結果出力の時刻を調整することで、認識対象となる単語の文字列に制約を設けることなく自由な認識対象単語を設定でき、さらに正しい認識結果をすみやかに出力することができる。
【図面の簡単な説明】
【図1】本発明の一実施例である音声認識装置の構成を示すブロック図である。
【図2】図1に示す音声認識装置にて実行される音声認識方法を説明するためのフローチャートである。
【図3】図1に示す音声認識装置及び図2に示す音声認識方法における一動作を説明するための図である。
【図4】図1に示す音声認識装置及び図2に示す音声認識方法における他の動作を説明するための図である。
【図5】第1単語と第2単語とにおける最大類似度の発生時刻がずれる場合を説明するための図である。
【図6】「記号」と発声した場合「仮名記号」の標準情報との照合による類似度があまり大きくならないことを示す図である。
【図7】図1に示す音声認識装置において結果出力を行う時刻を説明するための図である。
【図8】図1に示す音声認識装置において、図7に示す結果出力を行う時刻とは別の時刻を説明するための図である。
【図9】従来の場合において、結果出力を行う時刻を説明するための図である。
【符号の説明】
1…照合手段、2…送出手段、2a…判断時刻設定手段、
2b…出力選択手段、3…標準情報格納手段。

Claims (11)

  1. 予め作成した標準情報と、入力された被認識音声から抽出された特徴情報との照合を行いその照合結果を送出する音声認識装置であって、
    第1単語と第2単語とを有し上記第1単語と上記第2単語とがこの順に連続する結合単語が被認識音声として入力される場合、
    上記標準情報は、全単語毎に、特徴パターンと、それぞれの単語における標準的な音声区間時間に基づき設定した継続長時間とを有し、
    上記照合により、第1時刻にて第1類似度を得て、上記第2単語もしくは上記結合単語について第2時刻にて最大類似度を得たとき、上記第2時刻から上記最大類似度を得た単語における第2継続長時間分逆上った時刻に相当する判断時刻と上記第1時刻との時間的先後を判断し該判断に基づき上記第1類似度、上記最大類似度の少なくとも一方を送出することを特徴とする音声認識装置。
  2. 予め作成した標準情報と、入力された被認識音声から抽出された特徴情報との照合を行う照合手段と、上記照合手段に接続され上記照合結果を送出する送出手段とを有する音声認識装置であって、
    第1単語と第2単語とを有し上記第1単語と上記第2単語とがこの順に連続する結合単語が被認識音声として入力される場合、
    上記標準情報は、全単語毎に、特徴パターンと、それぞれの単語における標準的な音声区間時間に基づき設定した継続長時間とを有し、
    上記送出手段は、上記照合手段から、第1時刻にて第1類似度を得て、上記第2単語もしくは上記結合単語について第2時刻にて最大類似度を得たとき、上記第2時刻から上記最大類似度を得た単語における第2継続長時間分逆上った時刻に相当する判断時刻と上記第1時刻との時間的先後を判断し該判断に基づき上記第1類似度、上記最大類似度の少なくとも一方を送出することを特徴とする音声認識装置。
  3. 上記判断時刻が上記第1時刻よりも後であるときには、上記第1類似度及び上記最大類似度を送出する、請求項1又は2記載の音声認識装置。
  4. 上記判断時刻を元に判断時間を設定し該判断時間と上記第1時刻との時間的先後を判断し該判断に基づき上記第1類似度、上記最大類似度の少なくとも一方を送出する、請求項1ないし3のいずれかに記載の音声認識装置。
  5. 上記継続長時間に対して継続長閾値を設定し、上記最大類似度を得た単語における上記第2継続長時間が上記継続長閾値より短い場合には、上記判断時刻を用いることなく上記第1類似度及び上記最大類似度の両方を送出する、請求項1ないし3のいずれかに記載の音声認識装置。
  6. 上記第1単語がある観念を想起させる単語でありかつ上記結合単語としても他の観念を想起させる単語であり、かつ上記第2時刻が上記第1時刻に離散時間を加えた時間に含まれる場合、上記最大類似度は上記第1時刻に離散時間及び付加時間を加えた時間の終了時刻にて送出される、請求項1ないし5のいずれかに記載の音声認識装置。
  7. 上記第1単語に相当する単語と同一の単語を含む上記結合単語が複数存在するときには、上記付加時間は上記結合単語の内最も音声区間時間の長い第2単語に相当する時間である、請求項6記載の音声認識装置。
  8. 上記最大類似度は、上記第2時刻に上記離散時間を加えた時間の終了時刻にて送出される、請求項6又は7に記載の音声認識装置。
  9. 上記第1類似度と上記最大類似度とがほぼ同時刻に得られる場合、上記判断時刻を用いることなく、設定した類似度閾値を越えた類似度を送出する、請求項1ないし3のいずれかに記載の音声認識装置。
  10. 上記類似度閾値は、低閾値と該低閾値よりも類似度が高いレベルに設定される高閾値とを有し、上記第1類似度及び上記最大類似度がともに上記低閾値を超えるときには上記高閾値を超える類似度を送出する、請求項9記載の音声認識装置。
  11. 予め作成した標準情報と、入力された被認識音声から抽出された特徴情報との照合を行いその照合結果を送出する音声認識方法であって、
    第1単語と第2単語とを有し上記第1単語と上記第2単語とがこの順に連続する結合単語が被認識音声として入力される場合、
    上記標準情報は、全単語毎に、特徴パターンと、それぞれの単語における標準的な音声区間時間に基づき設定した継続長時間とを有し、
    第1時刻にて第1類似度を得て、上記第2単語もしくは上記結合単語について第2時刻にて最大類似度を得、
    上記第2時刻から上記最大類似度を得た単語における第2継続長時間分逆上った時刻に相当する判断時刻を設定し、
    上記判断時刻と上記第1時刻とについて時間的な先後を判断し該判断に基づき上記第1類似度、上記最大類似度の少なくとも一方を送出することを特徴とする音声認識方法。
JP05000896A 1995-10-09 1996-03-07 音声認識装置及び音声認識方法 Expired - Fee Related JP3581752B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP05000896A JP3581752B2 (ja) 1995-10-09 1996-03-07 音声認識装置及び音声認識方法
US08/715,108 US5799274A (en) 1995-10-09 1996-09-18 Speech recognition system and method for properly recognizing a compound word composed of a plurality of words

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP7-261524 1995-10-09
JP26152495 1995-10-09
JP05000896A JP3581752B2 (ja) 1995-10-09 1996-03-07 音声認識装置及び音声認識方法

Publications (2)

Publication Number Publication Date
JPH09166995A JPH09166995A (ja) 1997-06-24
JP3581752B2 true JP3581752B2 (ja) 2004-10-27

Family

ID=26390443

Family Applications (1)

Application Number Title Priority Date Filing Date
JP05000896A Expired - Fee Related JP3581752B2 (ja) 1995-10-09 1996-03-07 音声認識装置及び音声認識方法

Country Status (2)

Country Link
US (1) US5799274A (ja)
JP (1) JP3581752B2 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3578587B2 (ja) * 1997-03-28 2004-10-20 株式会社リコー 音声認識装置および音声認識方法
JP4279909B2 (ja) * 1997-08-08 2009-06-17 ドーサ アドバンスズ エルエルシー 音声認識装置における認識対象表示方式
US5987411A (en) * 1997-12-17 1999-11-16 Northern Telecom Limited Recognition system for determining whether speech is confusing or inconsistent
US6393399B1 (en) * 1998-09-30 2002-05-21 Scansoft, Inc. Compound word recognition
EP1083545A3 (en) * 1999-09-09 2001-09-26 Xanavi Informatics Corporation Voice recognition of proper names in a navigation apparatus
SE519636C2 (sv) * 2000-07-06 2003-03-25 Hapax Information Systems Ab Förfarande och anordning för analys av sammansatta ord
AU2003218909B2 (en) * 2002-04-26 2007-09-13 Queensland University Of Technology Optometry measurement device
MX2010014134A (es) 2008-06-30 2011-01-21 Basf Se Polimero anfoterico para el tratamiento de superficies duras.
CN105632499B (zh) * 2014-10-31 2019-12-10 株式会社东芝 用于优化语音识别结果的方法和装置
KR102413693B1 (ko) * 2015-07-23 2022-06-27 삼성전자주식회사 음성 인식 장치 및 방법, 그를 위한 모델 생성 장치 및 방법
JP6585112B2 (ja) * 2017-03-17 2019-10-02 株式会社東芝 音声キーワード検出装置および音声キーワード検出方法
CN111027793B (zh) * 2019-03-27 2023-06-30 广东小天才科技有限公司 一种词语掌握程度的确定方法及系统、电子设备
KR20210029354A (ko) * 2019-09-06 2021-03-16 삼성전자주식회사 전자장치 및 그 제어방법

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4831653A (en) * 1980-11-12 1989-05-16 Canon Kabushiki Kaisha System for registering speech information to make a voice dictionary
US4592086A (en) * 1981-12-09 1986-05-27 Nippon Electric Co., Ltd. Continuous speech recognition system
JPS59119397A (ja) * 1982-12-25 1984-07-10 富士通株式会社 音声認識装置
GB8517918D0 (en) * 1985-07-16 1985-08-21 British Telecomm Recognition system
US5023911A (en) * 1986-01-10 1991-06-11 Motorola, Inc. Word spotting in a speech recognition system without predetermined endpoint detection
US5315689A (en) * 1988-05-27 1994-05-24 Kabushiki Kaisha Toshiba Speech recognition system having word-based and phoneme-based recognition means
IT1229782B (it) * 1989-05-22 1991-09-11 Face Standard Ind Metodo ed apparato per riconoscere parole verbali sconosciute mediante estrazione dei parametri e confronto con parole di riferimento
US5062137A (en) * 1989-07-27 1991-10-29 Matsushita Electric Industrial Co., Ltd. Method and apparatus for speech recognition
DE4031421C2 (de) * 1989-10-05 1995-08-24 Ricoh Kk Musteranpassungssystem für eine Spracherkennungseinrichtung
JP2853418B2 (ja) * 1991-11-08 1999-02-03 松下電器産業株式会社 音声認識方法
JP2996019B2 (ja) * 1992-07-22 1999-12-27 日本電気株式会社 音声認識装置
DE4306508A1 (de) * 1993-03-03 1994-09-08 Philips Patentverwaltung Verfahren und Anordnung zum Ermitteln von Wörtern in einem Sprachsignal
US5526466A (en) * 1993-04-14 1996-06-11 Matsushita Electric Industrial Co., Ltd. Speech recognition apparatus
JP3311460B2 (ja) * 1994-01-28 2002-08-05 富士通株式会社 音声認識装置

Also Published As

Publication number Publication date
JPH09166995A (ja) 1997-06-24
US5799274A (en) 1998-08-25

Similar Documents

Publication Publication Date Title
JP3581752B2 (ja) 音声認識装置及び音声認識方法
US7003456B2 (en) Methods and systems of routing utterances based on confidence estimates
US6134527A (en) Method of testing a vocabulary word being enrolled in a speech recognition system
US6640208B1 (en) Voiced/unvoiced speech classifier
JP3069531B2 (ja) 音声認識方法
JPH08185196A (ja) 音声区間検出装置
CN114155839A (zh) 一种语音端点检测方法、装置、设备及存储介质
US6081772A (en) Proofreading aid based on closed-class vocabulary
US20020042709A1 (en) Method and device for analyzing a spoken sequence of numbers
US6230126B1 (en) Word-spotting speech recognition device and system
JP2007072331A (ja) 音声対話方法および音声対話システム
CN115512687B (zh) 一种语音断句方法、装置、存储介质及电子设备
JP7096707B2 (ja) 電子機器、電子機器を制御する制御装置、制御プログラムおよび制御方法
JP3578587B2 (ja) 音声認識装置および音声認識方法
JPH10187181A (ja) 音声認識装置
JPH0643895A (ja) 音声認識装置
JP6966374B2 (ja) 音声認識システム及びコンピュータプログラム
EP1193686B1 (en) Method and device for analyzing a spoken sequence of numbers
JPH09258765A (ja) 音声認識のための音声区間始端補正方法及び装置並びに音声認識方法
JPH05108091A (ja) 音声認識装置
JP3360978B2 (ja) 音声認識装置
KR20000056849A (ko) 음향 기기의 음성인식 방법
JP7373348B2 (ja) 音声対話装置、音声対話用学習済みモデル、及び音声対話方法
JPH08146996A (ja) 音声認識装置
JPH09311694A (ja) 音声認識装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040329

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040720

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040726

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070730

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080730

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080730

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090730

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees