JPH09166995A - 音声認識装置及び音声認識方法 - Google Patents

音声認識装置及び音声認識方法

Info

Publication number
JPH09166995A
JPH09166995A JP8050008A JP5000896A JPH09166995A JP H09166995 A JPH09166995 A JP H09166995A JP 8050008 A JP8050008 A JP 8050008A JP 5000896 A JP5000896 A JP 5000896A JP H09166995 A JPH09166995 A JP H09166995A
Authority
JP
Japan
Prior art keywords
time
word
similarity
recognition device
voice recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8050008A
Other languages
English (en)
Other versions
JP3581752B2 (ja
Inventor
Masaru Kuroda
勝 黒田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP05000896A priority Critical patent/JP3581752B2/ja
Priority to US08/715,108 priority patent/US5799274A/en
Publication of JPH09166995A publication Critical patent/JPH09166995A/ja
Application granted granted Critical
Publication of JP3581752B2 publication Critical patent/JP3581752B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1807Speech classification or search using natural language modelling using prosody or stress
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

(57)【要約】 【課題】 ワードスポッティング法における照合結果の
正答率を向上させる音声認識装置及び音声認識方法を提
供する。 【解決手段】 標準情報には、全単語毎に、特徴パター
ンと、それぞれの単語における標準的な音声区間時間に
基づき得られる継続長時間Lとを有し、照合手段1に
て、第1時刻にて第1類似度を得て、第2単語もしくは
結合単語について第2時刻にて最大類似度を得たとき、
送出手段2は、第2時刻から当該最大類似度を得た単語
における第2継続長時間分逆上った時刻に相当する判断
時刻が、上記第1時刻よりも後であるときには、上記第
1類似度及び上記最大類似度の両方を送出する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識装置及び
音声認識方法に関し、特にワードスポッティング法によ
り音声認識を行うものであり、さらに第1単語若しくは
第2単語がある観念を想起させる単語でありかつ上記第
1単語と上記第2単語とがこの順に連続することで他の
観念を想起させる一単語を形成する結合単語が被認識音
声として入力された場合にも認識結果を正しく送出する
ことができる音声認識装置及び音声認識方法に関する。
【0002】
【従来の技術】従来の音声認識装置では、音声のパワー
情報などを使用して、認識すべき音声区間の始端と終端
とを決定し、この音声区間情報に基づいて認識処理を行
っていた。このとき音声区間の始端はパワー情報によっ
て容易に検出できるが、終端の検出は、例えば、被認識
音声中の破裂性の子音の前の無音と促音の無音との区別
が困難等の問題から容易ではない。よって例えば特開昭
59−119397号公報等に開示されるように、無音
区間が一定時間以上継続する場合に音声入力の終了の判
定を行うようにしたものがある。又、音声区間検出の不
具合を改善する方法として、特開平5−127696号
公報に開示されるように、被認識音声について1次照合
にて類似度と音声区間との列を作成し、第2照合部にお
いて2次照合用の標準パターンと上記1次照合にて得た
類似度及び音声区間と照合することで認識率の向上を図
る方法がある。又、音声区間の終端検出のための一定時
間以上の継続時間待ちを必要としない方法として、例え
ば特開平6−43895号公報に開示されるように、音
声区間終了時の類似度としきい値とを比較して音声区間
の終了を判定する方法がある。
【0003】
【発明が解決しようとする課題】上記特開昭59−11
9397号公報に開示される発明によると、一定時間の
無音の持続により音声入力の終了を判定する。無音持続
時間は、一般に250〜350ms程度である。この方
法によると、促音にも対応させるため無音継続時間が必
要であり音声入力が終了しても一定時間が経過するまで
認識結果が出力できない。そのため、認識結果が発声を
終了してもなかなか得られず、応答の遅い認識システム
となってしまう。逆に、上記応答を速くするために無音
継続時間を短くすると、発声が終了する前に促音の場合
にて認識結果が出力されてしまい、誤った認識結果が出
力されるという欠点があった。又、一般的にある発声を
するときに話者は、「えー」や「あのー」といった音声
認識とは無関係な不要語を発声することがよくある。認
識の対象となる被認識音声に対して、音声の始端から照
合が開始されるので、「えー」や「あのー]という発声
が入ると著しく類似度が悪くなり、誤認識の原因とな
る。このような各々の欠点を解消する方法として、ワー
ドスポッティング法がある。ワードスポッティング法
は、音声区間検出を必要としないので応答の早いシステ
ムにしやすい。又、不要語に対しても発声全体から不要
語を取り除いて認識結果を出力するので良好な認識結果
を得ることができる。
【0004】しかし、ワードスポッティング法において
も以下のような問題が生ずる。即ち、被認識音声の認識
を行うための辞書に登録されている辞書単語の中に、別
の単語が含まれる場合である。例えば「はちのへ」と
「はち(8)」のような関係である。発声が「はちの
へ」であったとき、「はち(8)」まで発声した時点で
辞書単語の「はち」との照合類似度が大きな値となりさ
らに「のへ」と発声した時点で辞書単語の「はちのへ」
との類似度が大きくなる。しかし、「のへ」と発声して
いる区間は音声区間であり無音区間ではないので、上記
特開昭59−119397号公報に開示されるような無
音の持続に基づく出力ができない。また「のへ」の発声
は時間的には0.1〜0.2秒程度であるので「はち」
の認識結果を出力した後にすぐ「はちのへ」の認識結果
出力が行われるために、発声者からみると「はち」が正
しい認識結果であるのか「はちのへ」が正しい認識結果
であるのかわからなくなる。即ち、仮に「はちのへ」の
類似度が「はち」の類似度より大きな値であれば「はち
のへ」が時系列的にも後からでてくるので認識後の後処
理ができるが、「はち」のほうが「はちのへ」よりも類
似度が高い場合は、被認識音声が例えば「はちから」で
あったとも考えられるので「はち」を正解として「の
へ」を不要語と判断するのか、あるいは「はちのへ」を
正解単語とするのか判断ができなくなる。本発明はこの
ような問題点を解決するためになされたもので、ワード
スポッティング法における照合結果の正答率を向上させ
る音声認識装置及び音声認識方法を提供することを目的
とする。
【0005】
【課題を解決するための手段】本発明の第1態様によれ
ば音声認識装置は、予め作成した標準情報と、入力され
た被認識音声から抽出された特徴情報との照合を行いそ
の照合結果を送出する音声認識装置であって、第1単語
と第2単語とを有し上記第1単語と上記第2単語とがこ
の順に連続する結合単語が被認識音声として入力される
場合、上記標準情報は、全単語毎に、特徴パターンと、
それぞれの単語における標準的な音声区間時間に基づき
設定した継続長時間とを有し、上記照合により、第1時
刻にて第1類似度を得て、上記第2単語もしくは上記結
合単語について第2時刻にて最大類似度を得たとき、上
記第2時刻から上記最大類似度を得た単語における第2
継続長時間分逆上った時刻に相当する判断時刻と上記第
1時刻との時間的先後を判断し該判断に基づき上記第1
類似度、上記最大類似度の少なくとも一方を送出するこ
とを特徴とする。
【0006】ここで、標準情報と特徴情報との照合動作
は例えば照合手段にて行われ、照合結果の送出は例えば
送出手段にて行われる。さらに、上記判断時刻と第1時
刻との時間的先後関係の判断、第1類似度及び最大類似
度の送出は例えば送出手段にて行われる。上記判断時刻
を設定し該判断時刻と第1時刻との時間的先後の判断に
より送出する照合結果を選択するようにしたので、誤っ
た照合結果のみを送出することがなくなり、照合結果の
正答率を向上させるように作用する。
【0007】又、本発明の第2態様によれば音声認識装
置は、予め作成した標準情報と、入力された被認識音声
から抽出された特徴情報との照合を行う照合手段と、上
記照合手段に接続され上記照合結果を送出する送出手段
とを有する音声認識装置であって、第1単語と第2単語
とを有し上記第1単語と上記第2単語とがこの順に連続
する結合単語が被認識音声として入力される場合、上記
標準情報は、全単語毎に、特徴パターンと、それぞれの
単語における標準的な音声区間時間に基づき設定した継
続長時間とを有し、上記送出手段は、上記照合手段か
ら、第1時刻にて第1類似度を得て、上記第2単語もし
くは上記結合単語について第2時刻にて最大類似度を得
たとき、上記第2時刻から上記最大類似度を得た単語に
おける第2継続長時間分逆上った時刻に相当する判断時
刻と上記第1時刻との時間的先後を判断し該判断に基づ
き上記第1類似度、上記最大類似度の少なくとも一方を
送出することを特徴とする。
【0008】照合手段は、標準情報と第1単語、第2単
語又は結合単語との照合を行うことで、第1時刻にて第
1類似度を送出し、上記第2単語もしくは結合単語につ
いて第2時刻にて最大類似度を送出する。送出手段は、
上記照合手段から、第1時刻にて第1類似度を得て、第
2時刻にて最大類似度を得て、上記第2時刻から最大類
似度を得た単語における第2継続長時間分逆上った判断
時刻を設定する。さらに送出手段は、上記判断時刻と上
記第1時刻との先後判断に基づき上記第1類似度、上記
最大類似度の少なくとも一方を送出するようにしたの
で、誤った照合結果のみを送出することがなくなり、照
合結果の正答率を向上させるように作用する。
【0009】又、本発明の第3態様によれば音声認識方
法は、予め作成した標準情報と、入力された被認識音声
から抽出された特徴情報との照合を行いその照合結果を
送出する音声認識方法であって、第1単語と第2単語と
を有し上記第1単語と上記第2単語とがこの順に連続す
る結合単語が被認識音声として入力される場合、上記標
準情報は、全単語毎に、特徴パターンと、それぞれの単
語における標準的な音声区間時間に基づき設定した継続
長時間とを有し、第1時刻にて第1類似度を得て、上記
第2単語もしくは上記結合単語について第2時刻にて最
大類似度を得、上記第2時刻から上記最大類似度を得た
単語における第2継続長時間分逆上った時刻に相当する
判断時刻を設定し、上記判断時刻と上記第1時刻とにつ
いて時間的な先後を判断し該判断に基づき上記第1類似
度、上記最大類似度の少なくとも一方を送出することを
特徴とする。
【0010】
【発明の実施の形態】本発明の一実施形態である音声認
識装置及び音声認識方法について図を参照しながら以下
に説明する。尚、上記音声認識方法は上記音声認識装置
にて実行されるものである。上記音声認識装置は、図1
に示すように、照合手段1と、送出手段2と、標準情報
格納手段3とを備える。標準情報格納手段3には、当該
音声認識装置に入力された被認識音声を認識するための
元となる予め作成された各標準情報、いわゆる特徴パタ
ーンが格納されている。さらにそれぞれの標準情報に
は、本音声認識装置において特徴的なものである継続長
と記す時間情報が付加されている。この継続長情報と
は、各単語毎にその単語の音声区間に相当する時間に、
ある割合を乗算して得られる時間情報である。例えば
「ひだりいけ」という単語について、その音声区間の時
間が例えば1秒であったとすると、ほぼ1.0に近い例
えば0.9を乗算して得られる0.9秒が「ひだりい
け」に対する継続長情報となる。このように継続長情報
が各単語毎に予め設けられている。又、上記割合は、経
験上得た数値が使用される。
【0011】照合手段1には従来と同様に、入力された
被認識音声から抽出された特徴情報と、上述した標準情
報とが供給され、照合手段1は従来と同様に、経時的に
供給されてくる上記特徴情報を経時的に順次上記標準情
報と照合することで、順次類似度を送出する。例えば、
被認識音声が「ひだりいけ」であったとすると、実際に
は例えば母音や子音単位のようにもっと細かな単位で照
合を行うが説明上の便宜のため簡略化して説明するが、
「ひ」,「だ」,「り」,「い」,「け」と順次、標準
情報との照合を行い、これらの照合についてそれぞれ類
似度と該類似度を得た時刻とを送出する。照合が「ひだ
り」まで到達した時点においては「ひだり」には「左」
の標準情報があることから、図3に示すように類似度は
一つのピークを形成する。このときにも照合手段1は、
このピークに対応する類似度を形成した時刻と、該類似
度と、さらに「ひだり」に付加されている上記継続長情
報とを送出手段2へ送出する。その後「い」,「け」で
はある観念を想起する単語がないことから送出される類
似度は低くなっていく。さらに、「いけ」まで照合した
ときには、「行け」の標準情報が該当することから類似
度はもう一つのピークを形成する。よって照合手段1
は、類似度がピークを形成した時刻と、該類似度と、さ
らに「行け」に付加されている上記継続長情報とを送出
手段2へ送出する。
【0012】尚、上述のように例えば2つの単語が連続
してさらに一つの結合単語を形成するような場合におい
て、以後の説明上、上記例にあっては「ひだり」に相当
する先頭の単語を第1単語とし、該第1単語に連続する
「いけ」に相当する次の単語を第2単語とし、第2単語
もしくは結合単語にて得られた類似度であり当該入力音
声に対する類似度のうち最大のものを最大類似度とし、
該最大類似度よりも低い類似度を第1類似度とし、上記
第1類似度を形成した時刻を第1時刻とし、上記最大類
似度を形成した時刻を第2時刻とする。尚、第1類似度
は、第1単語で得られる場合が多いが、これに限らず第
2単語によって得られる場合もある。又、後述するよう
に、例えば地名の「はちのへ」のように、上記第1単語
に相当し例えば数字の「8」を想起させる「はち」と、
上記第2単語に相当し無意味な「のへ」とからなり、結
合単語が地名の「八戸」という観念を想起させるような
場合についても照合手段は処理を行う。尚、入力された
被認識音声が結合単語の場合に、その被認識音声が上述
した例えば2つの場合のいずれに該当するかの判断は、
上述のような結合単語については予め各単語毎に「ひだ
りいけ」タイプ、「はちのへ」タイプ等に分類がなされ
その分類情報が該当する単語の上記標準情報に付されて
いるものとし、この分類情報に基づき判断がなされる。
【0013】送出手段2には、図1に示すように、判断
時刻設定手段2aと出力選択手段2bとを含む。判断時
刻設定手段2aは、上述した結合単語の場合、上記第2
単語もしくは結合単語における上記最大類似度を形成し
た第2時刻から、該第2単語が有する上記継続長である
第2継続長の時間分逆上った時刻である判断時刻を設定
する。出力選択手段2bは、判断時刻設定手段2aにて
設定された上記判断時刻と、上記第1類似度を形成した
第1時刻とについて、時間的な先後を判断し、上記判断
時刻が上記第1時刻よりも時間的に後である場合には上
記第1類似度と、上記最大類似度との両方を送出し、上
記判断時刻が上記第1時刻よりも時間的に先である場合
には、例えば、上記第1類似度のみを送出する。このよ
うに構成される音声認識装置の動作を以下に説明する。
【0014】入力された被認識音声が結合単語である場
合を例に説明する。又、標準情報格納手段3には、上記
第1単語の特徴パターンであるY1iとその継続長L1
が格納され、第2単語の特徴パターンY2iとその継続長
2とが格納されているものとする。今、第1単語を
「左」、第2単語を「行け」とした場合に、入力の発声
が「左行け」とされたとき、概略上述したように、類似
度と時間経過との関係は図3に示すように第1時刻に対
応する時刻t1において第1単語の「左」との照合によ
る類似度S1が最大となり、第2時刻に対応する時刻t2
において第2単語の「行け」との照合による類似度S2
が最大となる。尚、第1単語の第1最大類似度及び第2
単語の第2最大類似度をそれぞれS1max ,S2maxとす
る。又、この第1単語、第2単語の照合動作は、図2に
示すステップ(図内ではSにて示す)1に対応する。こ
のような場合、上述したように、被認識音声である「左
行け」の照合結果である類似度がS1max≧S2maxであれ
ば第1最大類似度S1maxを出力した後、第2最大類似度
2maxが出力されるので、後処理においても問題は生じ
ないが、S1max<S2maxのときは、たとえ上記第1単語
に対応する第1発声がされたとしても、上記第2単語に
対応する第2発声の類似度が上回るので、第1発声の類
似度が第2位の類似度となってしまい、第1発声の認識
結果はあたかも不正解のようになって結果出力されない
という問題が生じる。このような問題の発生を防ぐため
に、本音声認識装置では以下のように動作する。
【0015】即ち、図2のステップ2に示すように、上
記第2最大類似度S2maxの現れる第2時刻t2から当該
第2単語の継続長である第2継続長L2分の時間だけ時
間的に逆上った時刻である判断時刻t’を設定する。
尚、この場合、上記第2最大類似度が最大類似度に相当
し上記第1最大類似度が第1類似度に相当する。上記判
断時刻t’が第2単語の音声の始端と考えることができ
る。もし上記判断時刻t’が第1時刻t1よりも時系列
的に後ろにあれば、第1時刻t1で得られた第1最大類
似度S1maxは、第2最大類似度S2maxを有する単語とは
異なる単語の認識結果と考えられる。逆に、判断時刻
t’が第1時刻t1よりも時系列的に前にあれば、上記
第1最大類似度S1maxを有する上記第1単語は、例え
ば、第2単語の発声に含まれる不要語と見なしても問題
ない。本音声認識装置はこのような考えに基づき、図2
のステップ3,4に示すように、時系列的に、第2発声
による結果出力の前であって、上記判断時刻t’まで
に、第1発声による第1最大類似度S1maxが存在する場
合には、第1及び第2の最大類似度S1max、S2maxを共
に出力し、逆に、上記判断時刻t’までに、第1発声に
よる第1最大類似度S1maxが存在しない場合には、上記
第2最大類似度S2maxのみを出力する。
【0016】又、発声者は一般に発声変動があり特に時
間的に早くなったり遅くなったりするので、上記第2時
刻t2から第2継続長L2だけ時間的に逆上るときも発声
変動を考慮しなければならない。そこで上記発声変動の
幅は経験的に±30%であるので、本音声認識装置で
は、上記第2継続長L2±30%の時間分だけ逆上った
時間幅内にある判断時刻より時間的に前に第1時刻t1
があれば第1最大類似度S1max及び第2最大類似度S
2maxを共に出力するようにしている。
【0017】又、「行け」のような短い単語に対して
は、その継続長Lも小さな値となるので、上述の発声変
動を考慮するのが困難になる。これを解決する方法とし
て、本音声認識装置では、継続長Lに閾値Lthを設定
し、認識した単語に付されている継続長Lが上記閾値L
thよりも短い単語である場合には、判断時刻を使用した
上述の、結果出力方法を使用せずに、第1最大類似度S
1max及び第2最大類似度S2maxの両方を結果出力するよ
うにしている。
【0018】このように、本音声認識装置においては、
連続して発声された単語をワードスポッティング法によ
り弁別して結果出力することができ、しかも各々の単語
を不要語と区別して出力することができる。
【0019】又、図4に示すように例えば「仮名記号」
と「記号」のように、結合単語である「仮名記号」に第
2単語である「記号」が含まれる場合について考える。
上述した、結合単語に第1単語が含まれる「はちのへ」
と「はち」の場合には、図5に示すように、第1単語の
「はち」に対応する第1最大類似度S1max(上記第1類
似度に相当)と結合単語の「はちのへ」に対応する類似
度Smax(上記最大類似度に相当)とが発生する時刻が
時系列的にずれているが、図4に示すように「仮名記
号」と「記号」の場合にあっては「仮名記号」に対する
類似度Smax(上記最大類似度に相当)と、「記号」に
対する類似度S2max(上記第1類似度に相当)とがほと
んど同じ時刻t3に現れる。このような場合、どちらか
の単語を正解単語としてもう一方を不正解とする方法
と、両者共に正解とする方法とに分けることができる。
本音声認識装置では、どちらかを正解とし、他方を不正
解とする場合には、類似度において低閾値と該低閾値よ
りも類似度の高い値に設定される高閾値との例えば2つ
の閾値を設定し、上記時刻t3において発生する結合単
語に対応する最大類似度Smaxと第2単語の「記号」に
対応する第1類似度S2maxとがともに上記低閾値を越え
るときには、上記最大類似度Smaxと第1類似度S2max
のうち、上記高閾値を越える類似度を有する単語を正解
とし該単語の類似度を出力するものとする。この方法に
よれば、結合単語の「仮名記号」と、第2単語の「記
号」とのどちらかが上記高閾値を越えたときには、上記
高閾値を越える類似度を有する単語の結果出力を行い、
他方は結果出力の対象から外すことになる。これは図6
に示すように「記号」と発声したときは「仮名記号」の
標準情報との照合による類似度があまり大きくならない
ことを利用するものである。一方、「仮名記号」と発声
されたときは、「記号」及び「仮名記号」の両方の類似
度が上がってくるので、上述のように高、低の閾値を設
け、一方を結果出力し他方は不要語付の発声と考えて出
力しないようにするものである。
【0020】又、この場合、上記低閾値のみを設定した
場合には、「仮名記号」と「記号」との類似度が共に結
果出力される。両者が出力された場合には、音声認識装
置のアプリケーションによってどちらかを選択するかあ
るいは両方ともに選択するかをユーザが決定可能とな
る。又、例えば「仮名記号」という上記標準情報につい
て異なる発声がなされたときや、「仮名記号」という標
準情報を作成するときの周囲の騒音等により正しく標準
情報が作成されなかったときのように、標準情報の作成
状態の良否によっては入力音声の「仮名記号」について
どうしても高い類似度が得られないときに、補完的に
「かな」+「記号」のような別々の単語の組み合わせを
使って「仮名記号」を認識させるようなときにも使用で
きる。即ち、標準情報として「仮名」と「記号」を含む
ことで、「仮名記号」と発声したときには、その発声の
短い時間に「仮名」の類似度と「記号」の類似度とを両
方とも出力するので、音声認識アプリケーションにて
「仮名」と「記号」とをつなげて「仮名記号」を認識す
ることができる。
【0021】さらに又、結果出力は、一般には、発声終
了後250〜350ms程度待ってから行う。これは従
来技術でも説明したように発声終了と促音とを識別する
ためである。しかしワードスポッティング法によれば、
音声区間の検出は行わないので、発声の始点、終点とい
うのは存在し得ない。そこで、従来便宜的に図9に示す
ように、得られる類似度の最大値Simaxの現れた時刻
tiを発声終了として、該時刻tiから離散時間tisol
(=250〜350ms)経ったときに結果を出力する
方法がとられることがある。一方、本音声認識装置で
は、例えば「はちのへ」のように、第1単語である「は
ち」が結合単語の「はちのへ」に含まれているような単
語の認識を行う場合には以下のように動作する。即ち、
「はち」まで発声した時点tiでは第1単語「はち」の
類似度S1maxが最大となる。上述のように従来にあっ
ては結果出力はti+tisolにて算出される時刻で行わ
れるが、第1単語「はち」は結合単語「はちのへ」に含
まれるので、図7に示すようにさらに付加時間
(tinc)を設け、t1+tisol+tincとして算出され
る時間の終了時刻t’isolにて結果出力するようにし
て、結果出力する時刻を遅らせる。こうすることで、
「はちのへ」まで発声し終わった時点で結合単語「はち
のへ」の類似度Smax(最大類似度に相当)と第1単語
「はち」の類似度S1max(第1類似度に相当)の比較
により認識結果が出力される。図7に示す例の場合に
は、「はちのへ」の類似度が「はち」の類似度よりも大
きいので、「はちのへ」の類似度が結果として出力され
る。このような動作を行わせることで、従来において
は、「はちのへ」の発声に対して「はち」も「はちの
へ」も共に結果出力される場合があったが、本音声認識
装置では不要な「はち」まで出力するのを排除すること
ができる。尚、上記付加時間は、それぞれの結合単語に
て適宜に予め設定されるものであり、例えば200ms
である。
【0022】尚、ある第1単語に対して複数の結合単語
が存在する場合には、上記付加時間は、これらの付加時
間の内で最大の付加時間とする。例えば、第1単語「は
ち」を含む結合単語として「はちのへ」以外に例えば
「はちおうじ」が含まれている場合、各結合単語から第
1単語である「はち」を除いた第2単語は「のへ」、
「おうじ」となり、「おうじ」の音声区間時間が「の
へ」の音声区間時間よりも長いので、第1単語「はち」
に予め付加される付加時間tincの情報は「おうじ」に
対応する時間情報とする。
【0023】又、上述の説明では、終了時刻t’isol
て、入力音声から得られた類似度の内いずれの類似度を
出力するかを判断しその結果を出力するようにしたが、
一方、上記終了時刻t’isolにおいては上記判断のみを
行うものとすることもできる。即ち、例えば「はちの
へ」の入力音声に対して、最初に得られた類似度、即ち
第1単語の「はち」に対する類似度S1maxよりも大きい
類似度が上記時刻t1から、上記(t1+tisol
inc)時刻、即ち上記終了時刻t’isolまでの時間に
発生したか否かが上記終了時刻t’isolにて判断され
る。そして、もし、上記t1時刻から上記終了時刻t’
isolまでに第1単語の「はち」に対する類似度S1max
か得られなかった場合には、上記終了時刻t’isolにて
類似度S1maxを出力することになる。一方、図8の場
合、上記時刻t1から上記終了時刻t’isolまでの間の
時刻t2にて結合単語「はちのへ」に対する類似度S
2maxが生じる。よって、上記終了時刻t’isolにて類似
度S1maxと類似度S2maxとの大きさが判断され、図8に
示す例の場合、類似度S2maxは類似度S1maxよりも大き
くかつ時刻t1から終了時刻t’isolまでに得られ類似
度で最大のものであるので、「はちのへ」の入力音声に
おいて最大の類似度が得られた時刻t2にさらに離散時
間tisolを加えた時刻Txにて上記最大の類似度である
類似度S2maxを結果出力する。このような動作を採るこ
とで、「はち」よりも「はちのへ」の方が高い類似度を
得たことにない「はちのへ」を認識結果として出力する
ことができる。このとき、「はち」は「はちのへ」とい
う結合単語の一部分として判断したことになる。又、ユ
ーザから見ると「はちのへ」と発声したときに「はち」
が排除されて「はちのへ」のみが結果出力されるのでユ
ーザが使い易くなる。
【0024】このように、さらに上記高閾値、低閾値や
付加時間を設けることで、認識対象となる単語の文字列
に制約を設けることなく自由な認識対象単語を設定で
き、このような認識対象に対して正しい認識結果を速や
かに出力することができる。このようにして、上述した
従来のワードスポッティング法の結果出力の問題点を解
決することができる。
【0025】尚、上述した実施形態では、結合単語は第
1単語及び第2単語から構成される場合を示したが、こ
れに限らず結合単語内に2以上の別の単語が含まれるよ
うな場合についても適用可能なことは明らかである。
【0026】
【発明の効果】以上詳述したように本発明の第1から第
3の態様による音声認識装置及び音声認識方法によれ
ば、各単語の標準情報には特徴パターンと継続長時間と
を備え、第2単語もしくは結合単語における最大類似度
が得られる第2時刻から当該最大類似度が得られる単語
の上記継続長時間分時間的に逆上った判断時刻を求め、
該判断時刻と、第1類似度が得られる第1時刻との時間
的な先後を判断するようにしたことより、連続して発声
された単語をワードスポッティングにより弁別して結果
出力することができ、しかも各々の単語を不要語と区別
して出力することができる。 又、類似度に閾値を設け
たり、結果出力の時刻を調整することで、認識対象とな
る単語の文字列に制約を設けることなく自由な認識対象
単語を設定でき、さらに正しい認識結果をすみやかに出
力することができる。
【図面の簡単な説明】
【図1】 本発明の一実施例である音声認識装置の構成
を示すブロック図である。
【図2】 図1に示す音声認識装置にて実行される音声
認識方法を説明するためのフローチャートである。
【図3】 図1に示す音声認識装置及び図2に示す音声
認識方法における一動作を説明するための図である。
【図4】 図1に示す音声認識装置及び図2に示す音声
認識方法における他の動作を説明するための図である。
【図5】 第1単語と第2単語とにおける最大類似度の
発生時刻がずれる場合を説明するための図である。
【図6】 「記号」と発声した場合「仮名記号」の標準
情報との照合による類似度があまり大きくならないこと
を示す図である。
【図7】 図1に示す音声認識装置において結果出力を
行う時刻を説明するための図である。
【図8】 図1に示す音声認識装置において、図7に示
す結果出力を行う時刻とは別の時刻を説明するための図
である。
【図9】 従来の場合において、結果出力を行う時刻を
説明するための図である。
【符号の説明】
1…照合手段、2…送出手段、2a…判断時刻設定手
段、2b…出力選択手段、3…標準情報格納手段。

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 予め作成した標準情報と、入力された被
    認識音声から抽出された特徴情報との照合を行いその照
    合結果を送出する音声認識装置であって、 第1単語と第2単語とを有し上記第1単語と上記第2単
    語とがこの順に連続する結合単語が被認識音声として入
    力される場合、 上記標準情報は、全単語毎に、特徴パターンと、それぞ
    れの単語における標準的な音声区間時間に基づき設定し
    た継続長時間とを有し、 上記照合により、第1時刻にて第1類似度を得て、上記
    第2単語もしくは上記結合単語について第2時刻にて最
    大類似度を得たとき、上記第2時刻から上記最大類似度
    を得た単語における第2継続長時間分逆上った時刻に相
    当する判断時刻と上記第1時刻との時間的先後を判断し
    該判断に基づき上記第1類似度、上記最大類似度の少な
    くとも一方を送出することを特徴とする音声認識装置。
  2. 【請求項2】 予め作成した標準情報と、入力された被
    認識音声から抽出された特徴情報との照合を行う照合手
    段と、上記照合手段に接続され上記照合結果を送出する
    送出手段とを有する音声認識装置であって、 第1単語と第2単語とを有し上記第1単語と上記第2単
    語とがこの順に連続する結合単語が被認識音声として入
    力される場合、 上記標準情報は、全単語毎に、特徴パターンと、それぞ
    れの単語における標準的な音声区間時間に基づき設定し
    た継続長時間とを有し、 上記送出手段は、上記照合手段から、第1時刻にて第1
    類似度を得て、上記第2単語もしくは上記結合単語につ
    いて第2時刻にて最大類似度を得たとき、上記第2時刻
    から上記最大類似度を得た単語における第2継続長時間
    分逆上った時刻に相当する判断時刻と上記第1時刻との
    時間的先後を判断し該判断に基づき上記第1類似度、上
    記最大類似度の少なくとも一方を送出することを特徴と
    する音声認識装置。
  3. 【請求項3】 上記判断時刻が上記第1時刻よりも後で
    あるときには、上記第1類似度及び上記最大類似度を送
    出する、請求項1又は2記載の音声認識装置。
  4. 【請求項4】 上記判断時刻を元に判断時間を設定し該
    判断時間と上記第1時刻との時間的先後を判断し該判断
    に基づき上記第1類似度、上記最大類似度の少なくとも
    一方を送出する、請求項1ないし3のいずれかに記載の
    音声認識装置。
  5. 【請求項5】 上記継続長時間に対して継続長閾値を設
    定し、上記最大類似度を得た単語における上記第2継続
    長時間が上記継続長閾値より短い場合には、上記判断時
    刻を用いることなく上記第1類似度及び上記最大類似度
    の両方を送出する、請求項1ないし3のいずれかに記載
    の音声認識装置。
  6. 【請求項6】 上記第1単語がある観念を想起させる単
    語でありかつ上記結合単語としても他の観念を想起させ
    る単語であり、かつ上記第2時刻が上記第1時刻に離散
    時間を加えた時間に含まれる場合、上記最大類似度は上
    記第1時刻に離散時間及び付加時間を加えた時間の終了
    時刻にて送出される、請求項1ないし5のいずれかに記
    載の音声認識装置。
  7. 【請求項7】 上記第1単語に相当する単語と同一の単
    語を含む上記結合単語が複数存在するときには、上記付
    加時間は上記結合単語の内最も音声区間時間の長い第2
    単語に相当する時間である、請求項6記載の音声認識装
    置。
  8. 【請求項8】 上記最大類似度は、上記第2時刻に上記
    離散時間を加えた時間の終了時刻にて送出される、請求
    項6又は7に記載の音声認識装置。
  9. 【請求項9】 上記第1類似度と上記最大類似度とがほ
    ぼ同時刻に得られる場合、上記判断時刻を用いることな
    く、設定した類似度閾値を越えた類似度を送出する、請
    求項1ないし3のいずれかに記載の音声認識装置。
  10. 【請求項10】 上記類似度閾値は、低閾値と該低閾値
    よりも類似度が高いレベルに設定される高閾値とを有
    し、上記低閾値を越える類似度を送出する、請求項9記
    載の音声認識装置。
  11. 【請求項11】 予め作成した標準情報と、入力された
    被認識音声から抽出された特徴情報との照合を行いその
    照合結果を送出する音声認識方法であって、 第1単語と第2単語とを有し上記第1単語と上記第2単
    語とがこの順に連続する結合単語が被認識音声として入
    力される場合、 上記標準情報は、全単語毎に、特徴パターンと、それぞ
    れの単語における標準的な音声区間時間に基づき設定し
    た継続長時間とを有し、 第1時刻にて第1類似度を得て、上記第2単語もしくは
    上記結合単語について第2時刻にて最大類似度を得、 上記第2時刻から上記最大類似度を得た単語における第
    2継続長時間分逆上った時刻に相当する判断時刻を設定
    し、 上記判断時刻と上記第1時刻とについて時間的な先後を
    判断し該判断に基づき上記第1類似度、上記最大類似度
    の少なくとも一方を送出することを特徴とする音声認識
    方法。
JP05000896A 1995-10-09 1996-03-07 音声認識装置及び音声認識方法 Expired - Fee Related JP3581752B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP05000896A JP3581752B2 (ja) 1995-10-09 1996-03-07 音声認識装置及び音声認識方法
US08/715,108 US5799274A (en) 1995-10-09 1996-09-18 Speech recognition system and method for properly recognizing a compound word composed of a plurality of words

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP7-261524 1995-10-09
JP26152495 1995-10-09
JP05000896A JP3581752B2 (ja) 1995-10-09 1996-03-07 音声認識装置及び音声認識方法

Publications (2)

Publication Number Publication Date
JPH09166995A true JPH09166995A (ja) 1997-06-24
JP3581752B2 JP3581752B2 (ja) 2004-10-27

Family

ID=26390443

Family Applications (1)

Application Number Title Priority Date Filing Date
JP05000896A Expired - Fee Related JP3581752B2 (ja) 1995-10-09 1996-03-07 音声認識装置及び音声認識方法

Country Status (2)

Country Link
US (1) US5799274A (ja)
JP (1) JP3581752B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2003218909B2 (en) * 2002-04-26 2007-09-13 Queensland University Of Technology Optometry measurement device
US8741831B2 (en) 2008-06-30 2014-06-03 Basf Se Amphoteric polymer for treating hard surfaces

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3578587B2 (ja) * 1997-03-28 2004-10-20 株式会社リコー 音声認識装置および音声認識方法
JP4279909B2 (ja) * 1997-08-08 2009-06-17 ドーサ アドバンスズ エルエルシー 音声認識装置における認識対象表示方式
US5987411A (en) * 1997-12-17 1999-11-16 Northern Telecom Limited Recognition system for determining whether speech is confusing or inconsistent
US6393399B1 (en) * 1998-09-30 2002-05-21 Scansoft, Inc. Compound word recognition
EP1083545A3 (en) * 1999-09-09 2001-09-26 Xanavi Informatics Corporation Voice recognition of proper names in a navigation apparatus
SE519636C2 (sv) * 2000-07-06 2003-03-25 Hapax Information Systems Ab Förfarande och anordning för analys av sammansatta ord
CN105632499B (zh) * 2014-10-31 2019-12-10 株式会社东芝 用于优化语音识别结果的方法和装置
KR102413693B1 (ko) * 2015-07-23 2022-06-27 삼성전자주식회사 음성 인식 장치 및 방법, 그를 위한 모델 생성 장치 및 방법
JP6585112B2 (ja) * 2017-03-17 2019-10-02 株式会社東芝 音声キーワード検出装置および音声キーワード検出方法
CN111027793B (zh) * 2019-03-27 2023-06-30 广东小天才科技有限公司 一种词语掌握程度的确定方法及系统、电子设备
KR20210029354A (ko) * 2019-09-06 2021-03-16 삼성전자주식회사 전자장치 및 그 제어방법

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4831653A (en) * 1980-11-12 1989-05-16 Canon Kabushiki Kaisha System for registering speech information to make a voice dictionary
US4592086A (en) * 1981-12-09 1986-05-27 Nippon Electric Co., Ltd. Continuous speech recognition system
JPS59119397A (ja) * 1982-12-25 1984-07-10 富士通株式会社 音声認識装置
GB8517918D0 (en) * 1985-07-16 1985-08-21 British Telecomm Recognition system
US5023911A (en) * 1986-01-10 1991-06-11 Motorola, Inc. Word spotting in a speech recognition system without predetermined endpoint detection
US5315689A (en) * 1988-05-27 1994-05-24 Kabushiki Kaisha Toshiba Speech recognition system having word-based and phoneme-based recognition means
IT1229782B (it) * 1989-05-22 1991-09-11 Face Standard Ind Metodo ed apparato per riconoscere parole verbali sconosciute mediante estrazione dei parametri e confronto con parole di riferimento
US5062137A (en) * 1989-07-27 1991-10-29 Matsushita Electric Industrial Co., Ltd. Method and apparatus for speech recognition
DE4031421C2 (de) * 1989-10-05 1995-08-24 Ricoh Kk Musteranpassungssystem für eine Spracherkennungseinrichtung
JP2853418B2 (ja) * 1991-11-08 1999-02-03 松下電器産業株式会社 音声認識方法
JP2996019B2 (ja) * 1992-07-22 1999-12-27 日本電気株式会社 音声認識装置
DE4306508A1 (de) * 1993-03-03 1994-09-08 Philips Patentverwaltung Verfahren und Anordnung zum Ermitteln von Wörtern in einem Sprachsignal
US5526466A (en) * 1993-04-14 1996-06-11 Matsushita Electric Industrial Co., Ltd. Speech recognition apparatus
JP3311460B2 (ja) * 1994-01-28 2002-08-05 富士通株式会社 音声認識装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2003218909B2 (en) * 2002-04-26 2007-09-13 Queensland University Of Technology Optometry measurement device
US8741831B2 (en) 2008-06-30 2014-06-03 Basf Se Amphoteric polymer for treating hard surfaces

Also Published As

Publication number Publication date
US5799274A (en) 1998-08-25
JP3581752B2 (ja) 2004-10-27

Similar Documents

Publication Publication Date Title
JP3004883B2 (ja) 終話検出方法及び装置並びに連続音声認識方法及び装置
JPH09166995A (ja) 音声認識装置及び音声認識方法
JP2007057844A (ja) 音声認識システムおよび音声処理システム
JP3069531B2 (ja) 音声認識方法
Boite et al. A new approach towards keyword spotting.
US6230126B1 (en) Word-spotting speech recognition device and system
JP2007072331A (ja) 音声対話方法および音声対話システム
US20020042709A1 (en) Method and device for analyzing a spoken sequence of numbers
JP3578587B2 (ja) 音声認識装置および音声認識方法
JP2001331196A (ja) 音声応答装置
JP2001343983A (ja) 音声始端検出方法、音声認識装置における音声区間検出方法および音声認識装置
JPH10187181A (ja) 音声認識装置
JPH0643895A (ja) 音声認識装置
JPH08263092A (ja) 応答音声生成方法および音声対話システム
JP4094255B2 (ja) コマンド入力機能つきディクテーション装置
JP3428805B2 (ja) 音声認識のための音声区間始端補正方法及び装置並びに音声認識方法
JP6966374B2 (ja) 音声認識システム及びコンピュータプログラム
JPH06161488A (ja) 音声認識装置
EP1193686B1 (en) Method and device for analyzing a spoken sequence of numbers
JPH07230293A (ja) 音声認識装置
JP2000122678A (ja) 音声認識機器制御装置
JP3624997B2 (ja) 音声認識装置
JPH05108091A (ja) 音声認識装置
JPH086590A (ja) 音声対話のための音声認識方法及び装置
JP3360978B2 (ja) 音声認識装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040329

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040720

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040726

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070730

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080730

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080730

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090730

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees