JPH09166995A

JPH09166995A - 音声認識装置及び音声認識方法

Info

Publication number: JPH09166995A
Application number: JP8050008A
Authority: JP
Inventors: Masaru Kuroda; 勝黒田
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1995-10-09
Filing date: 1996-03-07
Publication date: 1997-06-24
Anticipated expiration: 2016-03-07
Also published as: US5799274A; JP3581752B2

Abstract

(57)【要約】【課題】ワードスポッティング法における照合結果の
正答率を向上させる音声認識装置及び音声認識方法を提
供する。【解決手段】標準情報には、全単語毎に、特徴パター
ンと、それぞれの単語における標準的な音声区間時間に
基づき得られる継続長時間Ｌとを有し、照合手段１に
て、第１時刻にて第１類似度を得て、第２単語もしくは
結合単語について第２時刻にて最大類似度を得たとき、
送出手段２は、第２時刻から当該最大類似度を得た単語
における第２継続長時間分逆上った時刻に相当する判断
時刻が、上記第１時刻よりも後であるときには、上記第
１類似度及び上記最大類似度の両方を送出する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識装置及び
音声認識方法に関し、特にワードスポッティング法によ
り音声認識を行うものであり、さらに第１単語若しくは
第２単語がある観念を想起させる単語でありかつ上記第
１単語と上記第２単語とがこの順に連続することで他の
観念を想起させる一単語を形成する結合単語が被認識音
声として入力された場合にも認識結果を正しく送出する
ことができる音声認識装置及び音声認識方法に関する。

【０００２】

【従来の技術】従来の音声認識装置では、音声のパワー
情報などを使用して、認識すべき音声区間の始端と終端
とを決定し、この音声区間情報に基づいて認識処理を行
っていた。このとき音声区間の始端はパワー情報によっ
て容易に検出できるが、終端の検出は、例えば、被認識
音声中の破裂性の子音の前の無音と促音の無音との区別
が困難等の問題から容易ではない。よって例えば特開昭
５９−１１９３９７号公報等に開示されるように、無音
区間が一定時間以上継続する場合に音声入力の終了の判
定を行うようにしたものがある。又、音声区間検出の不
具合を改善する方法として、特開平５−１２７６９６号
公報に開示されるように、被認識音声について１次照合
にて類似度と音声区間との列を作成し、第２照合部にお
いて２次照合用の標準パターンと上記１次照合にて得た
類似度及び音声区間と照合することで認識率の向上を図
る方法がある。又、音声区間の終端検出のための一定時
間以上の継続時間待ちを必要としない方法として、例え
ば特開平６−４３８９５号公報に開示されるように、音
声区間終了時の類似度としきい値とを比較して音声区間
の終了を判定する方法がある。

【０００３】

【発明が解決しようとする課題】上記特開昭５９−１１
９３９７号公報に開示される発明によると、一定時間の
無音の持続により音声入力の終了を判定する。無音持続
時間は、一般に２５０〜３５０ｍｓ程度である。この方
法によると、促音にも対応させるため無音継続時間が必
要であり音声入力が終了しても一定時間が経過するまで
認識結果が出力できない。そのため、認識結果が発声を
終了してもなかなか得られず、応答の遅い認識システム
となってしまう。逆に、上記応答を速くするために無音
継続時間を短くすると、発声が終了する前に促音の場合
にて認識結果が出力されてしまい、誤った認識結果が出
力されるという欠点があった。又、一般的にある発声を
するときに話者は、「えー」や「あのー」といった音声
認識とは無関係な不要語を発声することがよくある。認
識の対象となる被認識音声に対して、音声の始端から照
合が開始されるので、「えー」や「あのー］という発声
が入ると著しく類似度が悪くなり、誤認識の原因とな
る。このような各々の欠点を解消する方法として、ワー
ドスポッティング法がある。ワードスポッティング法
は、音声区間検出を必要としないので応答の早いシステ
ムにしやすい。又、不要語に対しても発声全体から不要
語を取り除いて認識結果を出力するので良好な認識結果
を得ることができる。

【０００４】しかし、ワードスポッティング法において
も以下のような問題が生ずる。即ち、被認識音声の認識
を行うための辞書に登録されている辞書単語の中に、別
の単語が含まれる場合である。例えば「はちのへ」と
「はち（８）」のような関係である。発声が「はちの
へ」であったとき、「はち（８）」まで発声した時点で
辞書単語の「はち」との照合類似度が大きな値となりさ
らに「のへ」と発声した時点で辞書単語の「はちのへ」
との類似度が大きくなる。しかし、「のへ」と発声して
いる区間は音声区間であり無音区間ではないので、上記
特開昭５９−１１９３９７号公報に開示されるような無
音の持続に基づく出力ができない。また「のへ」の発声
は時間的には０．１〜０．２秒程度であるので「はち」
の認識結果を出力した後にすぐ「はちのへ」の認識結果
出力が行われるために、発声者からみると「はち」が正
しい認識結果であるのか「はちのへ」が正しい認識結果
であるのかわからなくなる。即ち、仮に「はちのへ」の
類似度が「はち」の類似度より大きな値であれば「はち
のへ」が時系列的にも後からでてくるので認識後の後処
理ができるが、「はち」のほうが「はちのへ」よりも類
似度が高い場合は、被認識音声が例えば「はちから」で
あったとも考えられるので「はち」を正解として「の
へ」を不要語と判断するのか、あるいは「はちのへ」を
正解単語とするのか判断ができなくなる。本発明はこの
ような問題点を解決するためになされたもので、ワード
スポッティング法における照合結果の正答率を向上させ
る音声認識装置及び音声認識方法を提供することを目的
とする。

【０００５】

【課題を解決するための手段】本発明の第１態様によれ
ば音声認識装置は、予め作成した標準情報と、入力され
た被認識音声から抽出された特徴情報との照合を行いそ
の照合結果を送出する音声認識装置であって、第１単語
と第２単語とを有し上記第１単語と上記第２単語とがこ
の順に連続する結合単語が被認識音声として入力される
場合、上記標準情報は、全単語毎に、特徴パターンと、
それぞれの単語における標準的な音声区間時間に基づき
設定した継続長時間とを有し、上記照合により、第１時
刻にて第１類似度を得て、上記第２単語もしくは上記結
合単語について第２時刻にて最大類似度を得たとき、上
記第２時刻から上記最大類似度を得た単語における第２
継続長時間分逆上った時刻に相当する判断時刻と上記第
１時刻との時間的先後を判断し該判断に基づき上記第１
類似度、上記最大類似度の少なくとも一方を送出するこ
とを特徴とする。

【０００６】ここで、標準情報と特徴情報との照合動作
は例えば照合手段にて行われ、照合結果の送出は例えば
送出手段にて行われる。さらに、上記判断時刻と第１時
刻との時間的先後関係の判断、第１類似度及び最大類似
度の送出は例えば送出手段にて行われる。上記判断時刻
を設定し該判断時刻と第１時刻との時間的先後の判断に
より送出する照合結果を選択するようにしたので、誤っ
た照合結果のみを送出することがなくなり、照合結果の
正答率を向上させるように作用する。

【０００７】又、本発明の第２態様によれば音声認識装
置は、予め作成した標準情報と、入力された被認識音声
から抽出された特徴情報との照合を行う照合手段と、上
記照合手段に接続され上記照合結果を送出する送出手段
とを有する音声認識装置であって、第１単語と第２単語
とを有し上記第１単語と上記第２単語とがこの順に連続
する結合単語が被認識音声として入力される場合、上記
標準情報は、全単語毎に、特徴パターンと、それぞれの
単語における標準的な音声区間時間に基づき設定した継
続長時間とを有し、上記送出手段は、上記照合手段か
ら、第１時刻にて第１類似度を得て、上記第２単語もし
くは上記結合単語について第２時刻にて最大類似度を得
たとき、上記第２時刻から上記最大類似度を得た単語に
おける第２継続長時間分逆上った時刻に相当する判断時
刻と上記第１時刻との時間的先後を判断し該判断に基づ
き上記第１類似度、上記最大類似度の少なくとも一方を
送出することを特徴とする。

【０００８】照合手段は、標準情報と第１単語、第２単
語又は結合単語との照合を行うことで、第１時刻にて第
１類似度を送出し、上記第２単語もしくは結合単語につ
いて第２時刻にて最大類似度を送出する。送出手段は、
上記照合手段から、第１時刻にて第１類似度を得て、第
２時刻にて最大類似度を得て、上記第２時刻から最大類
似度を得た単語における第２継続長時間分逆上った判断
時刻を設定する。さらに送出手段は、上記判断時刻と上
記第１時刻との先後判断に基づき上記第１類似度、上記
最大類似度の少なくとも一方を送出するようにしたの
で、誤った照合結果のみを送出することがなくなり、照
合結果の正答率を向上させるように作用する。

【０００９】又、本発明の第３態様によれば音声認識方
法は、予め作成した標準情報と、入力された被認識音声
から抽出された特徴情報との照合を行いその照合結果を
送出する音声認識方法であって、第１単語と第２単語と
を有し上記第１単語と上記第２単語とがこの順に連続す
る結合単語が被認識音声として入力される場合、上記標
準情報は、全単語毎に、特徴パターンと、それぞれの単
語における標準的な音声区間時間に基づき設定した継続
長時間とを有し、第１時刻にて第１類似度を得て、上記
第２単語もしくは上記結合単語について第２時刻にて最
大類似度を得、上記第２時刻から上記最大類似度を得た
単語における第２継続長時間分逆上った時刻に相当する
判断時刻を設定し、上記判断時刻と上記第１時刻とにつ
いて時間的な先後を判断し該判断に基づき上記第１類似
度、上記最大類似度の少なくとも一方を送出することを
特徴とする。

【００１０】

【発明の実施の形態】本発明の一実施形態である音声認
識装置及び音声認識方法について図を参照しながら以下
に説明する。尚、上記音声認識方法は上記音声認識装置
にて実行されるものである。上記音声認識装置は、図１
に示すように、照合手段１と、送出手段２と、標準情報
格納手段３とを備える。標準情報格納手段３には、当該
音声認識装置に入力された被認識音声を認識するための
元となる予め作成された各標準情報、いわゆる特徴パタ
ーンが格納されている。さらにそれぞれの標準情報に
は、本音声認識装置において特徴的なものである継続長
と記す時間情報が付加されている。この継続長情報と
は、各単語毎にその単語の音声区間に相当する時間に、
ある割合を乗算して得られる時間情報である。例えば
「ひだりいけ」という単語について、その音声区間の時
間が例えば１秒であったとすると、ほぼ１．０に近い例
えば０．９を乗算して得られる０．９秒が「ひだりい
け」に対する継続長情報となる。このように継続長情報
が各単語毎に予め設けられている。又、上記割合は、経
験上得た数値が使用される。

【００１１】照合手段１には従来と同様に、入力された
被認識音声から抽出された特徴情報と、上述した標準情
報とが供給され、照合手段１は従来と同様に、経時的に
供給されてくる上記特徴情報を経時的に順次上記標準情
報と照合することで、順次類似度を送出する。例えば、
被認識音声が「ひだりいけ」であったとすると、実際に
は例えば母音や子音単位のようにもっと細かな単位で照
合を行うが説明上の便宜のため簡略化して説明するが、
「ひ」，「だ」，「り」，「い」，「け」と順次、標準
情報との照合を行い、これらの照合についてそれぞれ類
似度と該類似度を得た時刻とを送出する。照合が「ひだ
り」まで到達した時点においては「ひだり」には「左」
の標準情報があることから、図３に示すように類似度は
一つのピークを形成する。このときにも照合手段１は、
このピークに対応する類似度を形成した時刻と、該類似
度と、さらに「ひだり」に付加されている上記継続長情
報とを送出手段２へ送出する。その後「い」，「け」で
はある観念を想起する単語がないことから送出される類
似度は低くなっていく。さらに、「いけ」まで照合した
ときには、「行け」の標準情報が該当することから類似
度はもう一つのピークを形成する。よって照合手段１
は、類似度がピークを形成した時刻と、該類似度と、さ
らに「行け」に付加されている上記継続長情報とを送出
手段２へ送出する。

【００１２】尚、上述のように例えば２つの単語が連続
してさらに一つの結合単語を形成するような場合におい
て、以後の説明上、上記例にあっては「ひだり」に相当
する先頭の単語を第１単語とし、該第１単語に連続する
「いけ」に相当する次の単語を第２単語とし、第２単語
もしくは結合単語にて得られた類似度であり当該入力音
声に対する類似度のうち最大のものを最大類似度とし、
該最大類似度よりも低い類似度を第１類似度とし、上記
第１類似度を形成した時刻を第１時刻とし、上記最大類
似度を形成した時刻を第２時刻とする。尚、第１類似度
は、第１単語で得られる場合が多いが、これに限らず第
２単語によって得られる場合もある。又、後述するよう
に、例えば地名の「はちのへ」のように、上記第１単語
に相当し例えば数字の「８」を想起させる「はち」と、
上記第２単語に相当し無意味な「のへ」とからなり、結
合単語が地名の「八戸」という観念を想起させるような
場合についても照合手段は処理を行う。尚、入力された
被認識音声が結合単語の場合に、その被認識音声が上述
した例えば２つの場合のいずれに該当するかの判断は、
上述のような結合単語については予め各単語毎に「ひだ
りいけ」タイプ、「はちのへ」タイプ等に分類がなされ
その分類情報が該当する単語の上記標準情報に付されて
いるものとし、この分類情報に基づき判断がなされる。

【００１３】送出手段２には、図１に示すように、判断
時刻設定手段２ａと出力選択手段２ｂとを含む。判断時
刻設定手段２ａは、上述した結合単語の場合、上記第２
単語もしくは結合単語における上記最大類似度を形成し
た第２時刻から、該第２単語が有する上記継続長である
第２継続長の時間分逆上った時刻である判断時刻を設定
する。出力選択手段２ｂは、判断時刻設定手段２ａにて
設定された上記判断時刻と、上記第１類似度を形成した
第１時刻とについて、時間的な先後を判断し、上記判断
時刻が上記第１時刻よりも時間的に後である場合には上
記第１類似度と、上記最大類似度との両方を送出し、上
記判断時刻が上記第１時刻よりも時間的に先である場合
には、例えば、上記第１類似度のみを送出する。このよ
うに構成される音声認識装置の動作を以下に説明する。

【００１４】入力された被認識音声が結合単語である場
合を例に説明する。又、標準情報格納手段３には、上記
第１単語の特徴パターンであるＹ_1iとその継続長Ｌ₁と
が格納され、第２単語の特徴パターンＹ_2iとその継続長
Ｌ₂とが格納されているものとする。今、第１単語を
「左」、第２単語を「行け」とした場合に、入力の発声
が「左行け」とされたとき、概略上述したように、類似
度と時間経過との関係は図３に示すように第１時刻に対
応する時刻ｔ₁において第１単語の「左」との照合によ
る類似度Ｓ₁が最大となり、第２時刻に対応する時刻ｔ₂
において第２単語の「行け」との照合による類似度Ｓ₂
が最大となる。尚、第１単語の第１最大類似度及び第２
単語の第２最大類似度をそれぞれＳ_1max ,Ｓ_2maxとす
る。又、この第１単語、第２単語の照合動作は、図２に
示すステップ（図内ではＳにて示す）１に対応する。こ
のような場合、上述したように、被認識音声である「左
行け」の照合結果である類似度がＳ_1max≧Ｓ_2maxであれ
ば第１最大類似度Ｓ_1maxを出力した後、第２最大類似度
Ｓ_2maxが出力されるので、後処理においても問題は生じ
ないが、Ｓ_1max＜Ｓ_2maxのときは、たとえ上記第１単語
に対応する第１発声がされたとしても、上記第２単語に
対応する第２発声の類似度が上回るので、第１発声の類
似度が第２位の類似度となってしまい、第１発声の認識
結果はあたかも不正解のようになって結果出力されない
という問題が生じる。このような問題の発生を防ぐため
に、本音声認識装置では以下のように動作する。

【００１５】即ち、図２のステップ２に示すように、上
記第２最大類似度Ｓ_2maxの現れる第２時刻ｔ₂から当該
第２単語の継続長である第２継続長Ｌ₂分の時間だけ時
間的に逆上った時刻である判断時刻ｔ’を設定する。
尚、この場合、上記第２最大類似度が最大類似度に相当
し上記第１最大類似度が第１類似度に相当する。上記判
断時刻ｔ’が第２単語の音声の始端と考えることができ
る。もし上記判断時刻ｔ’が第１時刻ｔ₁よりも時系列
的に後ろにあれば、第１時刻ｔ₁で得られた第１最大類
似度Ｓ_1maxは、第２最大類似度Ｓ_2maxを有する単語とは
異なる単語の認識結果と考えられる。逆に、判断時刻
ｔ’が第１時刻ｔ₁よりも時系列的に前にあれば、上記
第１最大類似度Ｓ_1maxを有する上記第１単語は、例え
ば、第２単語の発声に含まれる不要語と見なしても問題
ない。本音声認識装置はこのような考えに基づき、図２
のステップ３，４に示すように、時系列的に、第２発声
による結果出力の前であって、上記判断時刻ｔ’まで
に、第１発声による第１最大類似度Ｓ_1maxが存在する場
合には、第１及び第２の最大類似度Ｓ_1max、Ｓ_2maxを共
に出力し、逆に、上記判断時刻ｔ’までに、第１発声に
よる第１最大類似度Ｓ_1maxが存在しない場合には、上記
第２最大類似度Ｓ_2maxのみを出力する。

【００１６】又、発声者は一般に発声変動があり特に時
間的に早くなったり遅くなったりするので、上記第２時
刻ｔ₂から第２継続長Ｌ₂だけ時間的に逆上るときも発声
変動を考慮しなければならない。そこで上記発声変動の
幅は経験的に±３０％であるので、本音声認識装置で
は、上記第２継続長Ｌ₂±３０％の時間分だけ逆上った
時間幅内にある判断時刻より時間的に前に第１時刻ｔ₁
があれば第１最大類似度Ｓ_1max及び第２最大類似度Ｓ
_2maxを共に出力するようにしている。

【００１７】又、「行け」のような短い単語に対して
は、その継続長Ｌも小さな値となるので、上述の発声変
動を考慮するのが困難になる。これを解決する方法とし
て、本音声認識装置では、継続長Ｌに閾値Ｌthを設定
し、認識した単語に付されている継続長Ｌが上記閾値Ｌ
thよりも短い単語である場合には、判断時刻を使用した
上述の、結果出力方法を使用せずに、第１最大類似度Ｓ
_1max及び第２最大類似度Ｓ_2maxの両方を結果出力するよ
うにしている。

【００１８】このように、本音声認識装置においては、
連続して発声された単語をワードスポッティング法によ
り弁別して結果出力することができ、しかも各々の単語
を不要語と区別して出力することができる。

【００１９】又、図４に示すように例えば「仮名記号」
と「記号」のように、結合単語である「仮名記号」に第
２単語である「記号」が含まれる場合について考える。
上述した、結合単語に第１単語が含まれる「はちのへ」
と「はち」の場合には、図５に示すように、第１単語の
「はち」に対応する第１最大類似度Ｓ_1max（上記第１類
似度に相当）と結合単語の「はちのへ」に対応する類似
度Ｓ_max（上記最大類似度に相当）とが発生する時刻が
時系列的にずれているが、図４に示すように「仮名記
号」と「記号」の場合にあっては「仮名記号」に対する
類似度Ｓ_max（上記最大類似度に相当）と、「記号」に
対する類似度Ｓ_2max（上記第１類似度に相当）とがほと
んど同じ時刻ｔ₃に現れる。このような場合、どちらか
の単語を正解単語としてもう一方を不正解とする方法
と、両者共に正解とする方法とに分けることができる。
本音声認識装置では、どちらかを正解とし、他方を不正
解とする場合には、類似度において低閾値と該低閾値よ
りも類似度の高い値に設定される高閾値との例えば２つ
の閾値を設定し、上記時刻ｔ₃において発生する結合単
語に対応する最大類似度Ｓ_maxと第２単語の「記号」に
対応する第１類似度Ｓ_2maxとがともに上記低閾値を越え
るときには、上記最大類似度Ｓ_maxと第１類似度Ｓ_2max
のうち、上記高閾値を越える類似度を有する単語を正解
とし該単語の類似度を出力するものとする。この方法に
よれば、結合単語の「仮名記号」と、第２単語の「記
号」とのどちらかが上記高閾値を越えたときには、上記
高閾値を越える類似度を有する単語の結果出力を行い、
他方は結果出力の対象から外すことになる。これは図６
に示すように「記号」と発声したときは「仮名記号」の
標準情報との照合による類似度があまり大きくならない
ことを利用するものである。一方、「仮名記号」と発声
されたときは、「記号」及び「仮名記号」の両方の類似
度が上がってくるので、上述のように高、低の閾値を設
け、一方を結果出力し他方は不要語付の発声と考えて出
力しないようにするものである。

【００２０】又、この場合、上記低閾値のみを設定した
場合には、「仮名記号」と「記号」との類似度が共に結
果出力される。両者が出力された場合には、音声認識装
置のアプリケーションによってどちらかを選択するかあ
るいは両方ともに選択するかをユーザが決定可能とな
る。又、例えば「仮名記号」という上記標準情報につい
て異なる発声がなされたときや、「仮名記号」という標
準情報を作成するときの周囲の騒音等により正しく標準
情報が作成されなかったときのように、標準情報の作成
状態の良否によっては入力音声の「仮名記号」について
どうしても高い類似度が得られないときに、補完的に
「かな」＋「記号」のような別々の単語の組み合わせを
使って「仮名記号」を認識させるようなときにも使用で
きる。即ち、標準情報として「仮名」と「記号」を含む
ことで、「仮名記号」と発声したときには、その発声の
短い時間に「仮名」の類似度と「記号」の類似度とを両
方とも出力するので、音声認識アプリケーションにて
「仮名」と「記号」とをつなげて「仮名記号」を認識す
ることができる。

【００２１】さらに又、結果出力は、一般には、発声終
了後２５０〜３５０ｍｓ程度待ってから行う。これは従
来技術でも説明したように発声終了と促音とを識別する
ためである。しかしワードスポッティング法によれば、
音声区間の検出は行わないので、発声の始点、終点とい
うのは存在し得ない。そこで、従来便宜的に図９に示す
ように、得られる類似度の最大値Ｓｉ_maxの現れた時刻
ｔｉを発声終了として、該時刻ｔｉから離散時間ｔ_isol
（＝２５０〜３５０ｍｓ）経ったときに結果を出力する
方法がとられることがある。一方、本音声認識装置で
は、例えば「はちのへ」のように、第１単語である「は
ち」が結合単語の「はちのへ」に含まれているような単
語の認識を行う場合には以下のように動作する。即ち、
「はち」まで発声した時点ｔｉでは第１単語「はち」の
類似度Ｓ_１maxが最大となる。上述のように従来にあっ
ては結果出力はｔｉ＋ｔ_isolにて算出される時刻で行わ
れるが、第１単語「はち」は結合単語「はちのへ」に含
まれるので、図７に示すようにさらに付加時間
（ｔ_inc）を設け、ｔ₁＋ｔ_isol＋ｔ_incとして算出され
る時間の終了時刻ｔ’_isolにて結果出力するようにし
て、結果出力する時刻を遅らせる。こうすることで、
「はちのへ」まで発声し終わった時点で結合単語「はち
のへ」の類似度Ｓ_max（最大類似度に相当）と第１単語
「はち」の類似度Ｓ_１max（第１類似度に相当）の比較
により認識結果が出力される。図７に示す例の場合に
は、「はちのへ」の類似度が「はち」の類似度よりも大
きいので、「はちのへ」の類似度が結果として出力され
る。このような動作を行わせることで、従来において
は、「はちのへ」の発声に対して「はち」も「はちの
へ」も共に結果出力される場合があったが、本音声認識
装置では不要な「はち」まで出力するのを排除すること
ができる。尚、上記付加時間は、それぞれの結合単語に
て適宜に予め設定されるものであり、例えば２００ｍｓ
である。

【００２２】尚、ある第１単語に対して複数の結合単語
が存在する場合には、上記付加時間は、これらの付加時
間の内で最大の付加時間とする。例えば、第１単語「は
ち」を含む結合単語として「はちのへ」以外に例えば
「はちおうじ」が含まれている場合、各結合単語から第
１単語である「はち」を除いた第２単語は「のへ」、
「おうじ」となり、「おうじ」の音声区間時間が「の
へ」の音声区間時間よりも長いので、第１単語「はち」
に予め付加される付加時間ｔ_incの情報は「おうじ」に
対応する時間情報とする。

【００２３】又、上述の説明では、終了時刻ｔ’_isolに
て、入力音声から得られた類似度の内いずれの類似度を
出力するかを判断しその結果を出力するようにしたが、
一方、上記終了時刻ｔ’_isolにおいては上記判断のみを
行うものとすることもできる。即ち、例えば「はちの
へ」の入力音声に対して、最初に得られた類似度、即ち
第１単語の「はち」に対する類似度Ｓ_1maxよりも大きい
類似度が上記時刻ｔ₁から、上記（ｔ₁＋ｔ_isol＋
ｔ_inc）時刻、即ち上記終了時刻ｔ’_isolまでの時間に
発生したか否かが上記終了時刻ｔ’_isolにて判断され
る。そして、もし、上記ｔ₁時刻から上記終了時刻ｔ’
_isolまでに第１単語の「はち」に対する類似度Ｓ_1maxし
か得られなかった場合には、上記終了時刻ｔ’_isolにて
類似度Ｓ_1maxを出力することになる。一方、図８の場
合、上記時刻ｔ₁から上記終了時刻ｔ’_isolまでの間の
時刻ｔ₂にて結合単語「はちのへ」に対する類似度Ｓ
_2maxが生じる。よって、上記終了時刻ｔ’_isolにて類似
度Ｓ_1maxと類似度Ｓ_2maxとの大きさが判断され、図８に
示す例の場合、類似度Ｓ_2maxは類似度Ｓ_1maxよりも大き
くかつ時刻ｔ₁から終了時刻ｔ’_isolまでに得られ類似
度で最大のものであるので、「はちのへ」の入力音声に
おいて最大の類似度が得られた時刻ｔ₂にさらに離散時
間ｔ_isolを加えた時刻Ｔｘにて上記最大の類似度である
類似度Ｓ_2maxを結果出力する。このような動作を採るこ
とで、「はち」よりも「はちのへ」の方が高い類似度を
得たことにない「はちのへ」を認識結果として出力する
ことができる。このとき、「はち」は「はちのへ」とい
う結合単語の一部分として判断したことになる。又、ユ
ーザから見ると「はちのへ」と発声したときに「はち」
が排除されて「はちのへ」のみが結果出力されるのでユ
ーザが使い易くなる。

【００２４】このように、さらに上記高閾値、低閾値や
付加時間を設けることで、認識対象となる単語の文字列
に制約を設けることなく自由な認識対象単語を設定で
き、このような認識対象に対して正しい認識結果を速や
かに出力することができる。このようにして、上述した
従来のワードスポッティング法の結果出力の問題点を解
決することができる。

【００２５】尚、上述した実施形態では、結合単語は第
１単語及び第２単語から構成される場合を示したが、こ
れに限らず結合単語内に２以上の別の単語が含まれるよ
うな場合についても適用可能なことは明らかである。

【００２６】

【発明の効果】以上詳述したように本発明の第１から第
３の態様による音声認識装置及び音声認識方法によれ
ば、各単語の標準情報には特徴パターンと継続長時間と
を備え、第２単語もしくは結合単語における最大類似度
が得られる第２時刻から当該最大類似度が得られる単語
の上記継続長時間分時間的に逆上った判断時刻を求め、
該判断時刻と、第１類似度が得られる第１時刻との時間
的な先後を判断するようにしたことより、連続して発声
された単語をワードスポッティングにより弁別して結果
出力することができ、しかも各々の単語を不要語と区別
して出力することができる。又、類似度に閾値を設け
たり、結果出力の時刻を調整することで、認識対象とな
る単語の文字列に制約を設けることなく自由な認識対象
単語を設定でき、さらに正しい認識結果をすみやかに出
力することができる。

【図面の簡単な説明】

【図１】本発明の一実施例である音声認識装置の構成
を示すブロック図である。

【図２】図１に示す音声認識装置にて実行される音声
認識方法を説明するためのフローチャートである。

【図３】図１に示す音声認識装置及び図２に示す音声
認識方法における一動作を説明するための図である。

【図４】図１に示す音声認識装置及び図２に示す音声
認識方法における他の動作を説明するための図である。

【図５】第１単語と第２単語とにおける最大類似度の
発生時刻がずれる場合を説明するための図である。

【図６】「記号」と発声した場合「仮名記号」の標準
情報との照合による類似度があまり大きくならないこと
を示す図である。

【図７】図１に示す音声認識装置において結果出力を
行う時刻を説明するための図である。

【図８】図１に示す音声認識装置において、図７に示
す結果出力を行う時刻とは別の時刻を説明するための図
である。

【図９】従来の場合において、結果出力を行う時刻を
説明するための図である。

【符号の説明】

１…照合手段、２…送出手段、２ａ…判断時刻設定手
段、２ｂ…出力選択手段、３…標準情報格納手段。

Claims

【特許請求の範囲】

【請求項１】予め作成した標準情報と、入力された被
認識音声から抽出された特徴情報との照合を行いその照
合結果を送出する音声認識装置であって、第１単語と第２単語とを有し上記第１単語と上記第２単
語とがこの順に連続する結合単語が被認識音声として入
力される場合、上記標準情報は、全単語毎に、特徴パターンと、それぞ
れの単語における標準的な音声区間時間に基づき設定し
た継続長時間とを有し、上記照合により、第１時刻にて第１類似度を得て、上記
第２単語もしくは上記結合単語について第２時刻にて最
大類似度を得たとき、上記第２時刻から上記最大類似度
を得た単語における第２継続長時間分逆上った時刻に相
当する判断時刻と上記第１時刻との時間的先後を判断し
該判断に基づき上記第１類似度、上記最大類似度の少な
くとも一方を送出することを特徴とする音声認識装置。
【請求項２】予め作成した標準情報と、入力された被
認識音声から抽出された特徴情報との照合を行う照合手
段と、上記照合手段に接続され上記照合結果を送出する
送出手段とを有する音声認識装置であって、第１単語と第２単語とを有し上記第１単語と上記第２単
語とがこの順に連続する結合単語が被認識音声として入
力される場合、上記標準情報は、全単語毎に、特徴パターンと、それぞ
れの単語における標準的な音声区間時間に基づき設定し
た継続長時間とを有し、上記送出手段は、上記照合手段から、第１時刻にて第１
類似度を得て、上記第２単語もしくは上記結合単語につ
いて第２時刻にて最大類似度を得たとき、上記第２時刻
から上記最大類似度を得た単語における第２継続長時間
分逆上った時刻に相当する判断時刻と上記第１時刻との
時間的先後を判断し該判断に基づき上記第１類似度、上
記最大類似度の少なくとも一方を送出することを特徴と
する音声認識装置。
【請求項３】上記判断時刻が上記第１時刻よりも後で
あるときには、上記第１類似度及び上記最大類似度を送
出する、請求項１又は２記載の音声認識装置。
【請求項４】上記判断時刻を元に判断時間を設定し該
判断時間と上記第１時刻との時間的先後を判断し該判断
に基づき上記第１類似度、上記最大類似度の少なくとも
一方を送出する、請求項１ないし３のいずれかに記載の
音声認識装置。
【請求項５】上記継続長時間に対して継続長閾値を設
定し、上記最大類似度を得た単語における上記第２継続
長時間が上記継続長閾値より短い場合には、上記判断時
刻を用いることなく上記第１類似度及び上記最大類似度
の両方を送出する、請求項１ないし３のいずれかに記載
の音声認識装置。
【請求項６】上記第１単語がある観念を想起させる単
語でありかつ上記結合単語としても他の観念を想起させ
る単語であり、かつ上記第２時刻が上記第１時刻に離散
時間を加えた時間に含まれる場合、上記最大類似度は上
記第１時刻に離散時間及び付加時間を加えた時間の終了
時刻にて送出される、請求項１ないし５のいずれかに記
載の音声認識装置。
【請求項７】上記第１単語に相当する単語と同一の単
語を含む上記結合単語が複数存在するときには、上記付
加時間は上記結合単語の内最も音声区間時間の長い第２
単語に相当する時間である、請求項６記載の音声認識装
置。
【請求項８】上記最大類似度は、上記第２時刻に上記
離散時間を加えた時間の終了時刻にて送出される、請求
項６又は７に記載の音声認識装置。
【請求項９】上記第１類似度と上記最大類似度とがほ
ぼ同時刻に得られる場合、上記判断時刻を用いることな
く、設定した類似度閾値を越えた類似度を送出する、請
求項１ないし３のいずれかに記載の音声認識装置。
【請求項１０】上記類似度閾値は、低閾値と該低閾値
よりも類似度が高いレベルに設定される高閾値とを有
し、上記低閾値を越える類似度を送出する、請求項９記
載の音声認識装置。
【請求項１１】予め作成した標準情報と、入力された
被認識音声から抽出された特徴情報との照合を行いその
照合結果を送出する音声認識方法であって、第１単語と第２単語とを有し上記第１単語と上記第２単
語とがこの順に連続する結合単語が被認識音声として入
力される場合、上記標準情報は、全単語毎に、特徴パターンと、それぞ
れの単語における標準的な音声区間時間に基づき設定し
た継続長時間とを有し、第１時刻にて第１類似度を得て、上記第２単語もしくは
上記結合単語について第２時刻にて最大類似度を得、上記第２時刻から上記最大類似度を得た単語における第
２継続長時間分逆上った時刻に相当する判断時刻を設定
し、上記判断時刻と上記第１時刻とについて時間的な先後を
判断し該判断に基づき上記第１類似度、上記最大類似度
の少なくとも一方を送出することを特徴とする音声認識
方法。