JP3580643B2 - 音声認識方法及び音声認識装置 - Google Patents
音声認識方法及び音声認識装置 Download PDFInfo
- Publication number
- JP3580643B2 JP3580643B2 JP19482096A JP19482096A JP3580643B2 JP 3580643 B2 JP3580643 B2 JP 3580643B2 JP 19482096 A JP19482096 A JP 19482096A JP 19482096 A JP19482096 A JP 19482096A JP 3580643 B2 JP3580643 B2 JP 3580643B2
- Authority
- JP
- Japan
- Prior art keywords
- recognition result
- recognition
- voice
- input
- predetermined
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Landscapes
- Instructional Devices (AREA)
Description
【発明の属する技術分野】
本発明は、音声認識方法及び音声認識装置に関し、例えばナビゲーションシステムにおける目的地の設定や空調システムにおける設定温度を音声によって入力できるようにする場合などに有効な音声認識の方法及び装置に関する。
【0002】
【従来の技術】
従来より、入力された音声を予め記憶されている複数の比較対象パターン候補と比較し、一致度合の高いものを認識結果とする音声認識方法あるいはその方法を用いた装置が既に実用化されている。但し、現在の認識技術ではその認識結果が完全に正確なものとは限らない。例えばナビゲーションシステムにおいて設定すべき目的地を利用者が地名を音声で入力するために音声認識装置を用いる場合を考える。利用者は例えば「愛知県刈谷市昭和(ショーワ)町」と設定したいためにその地名を音声で入力した場合に、例えば「愛知県刈谷市松栄(ショーエー)町」と誤って認識してしまうことが考えられる。そして、このような誤認識には所定の傾向があり、発音の似た単語などが誤って認識され易い。つまり、上述の「愛知県刈谷市昭和町」は、誤認識される場合にはいつも「愛知県刈谷市松栄町」になるといったようなことである。
【0003】
このような誤認識が生じることを念頭においたものとして、複数の上位候補を提示して最終的な決定を利用者に委ねる方法も普通に用いられている。つまり、上位候補として上述の「愛知県刈谷市昭和町」及び「愛知県刈谷市松栄町」、あるいはその他の地名も含めて提示する。しかしこの場合は複数候補からの選択を利用者がしなくてはならない。また表示装置の画面に候補を表示させるといった方法が採れない場合には、例えば音声で全て読み上げるといったような方法となり、提示及び利用者の対処がしづらいといった不都合がある。
【0004】
また、特開平1−154098号公報には、認識結果の合否を利用者が入力する入力手段を持ち、前回の認識結果が誤認識であった場合にはその認識結果(例えば単語)を次回の認識に用いる辞書から除外する、あるいは次回の認識結果候補から前回の認識結果を除外して最終的な認識結果を決定するという音声認識装置が提案されている。この装置では、認識結果が誤っている場合、利用者が「誤認識ボタン」を操作したり「いいえ」という音声を入力してしたりすることで誤認識であることを通知する構成である。その後、利用者がもう一度「愛知県刈谷市昭和町」と言い直して音声入力する。音声認識装置では、前回の誤った認識結果であった「愛知県刈谷市松栄町」を認識に用いる辞書から除外した上で今回の認識を行なうことにより、同じ誤りを繰り返すことを回避するのである。
【0005】
【発明が解決しようとする課題】
このように、上述の特開平1−154098号公報記載の音声認識装置によれば、似ているために誤って認識してしまい易いカテゴリの単語等が一時的に辞書から除外された上で認識処理を実行するため、同じ誤りを繰り返すことが回避され、言い直した場合の認識性能が向上する。
【0006】
しかしながら、この従来装置の場合には、上述したように認識結果が誤っていることを音声認識装置側に利用者が通知する明確な動作が必要となってくる。つまり、利用者が「誤認識ボタン」を操作したり「いいえ」という音声を入力するという動作である。そのため、誤認識が複数回連続してしまうと、認識結果が誤っていることを音声認識装置側に利用者が通知する明確な動作がその都度必要となり、面倒である。特に、カーナビゲーションシステムにおいて目的地等を音声で入力しようとするためにこの音声認識装置を用いた場合などを想定すると、運転中の利用者にとって音声入力できることは非常に便利ではあるが、誤認識の度に「誤認識ボタン」の操作や「いいえ」という音声入力が必要となってくるのは、面倒であると共に、車両の運転という優先度のより高い操作への集中度合を下げてしまう可能性があり、好ましいことではない。
【0007】
本発明は、このような問題を解決して、過去の誤認識を考慮することで同じ認識誤りを繰り返さないようにして認識精度を向上させることができながら、利用者が誤認識であることのみを明確な動作で通知することが不要にでき、利用者の利便を向上させることを目的とするものである。
【0008】
【課題を解決するための手段及び発明の効果】
本発明の音声認識方法によれば、一度認識結果が報知された後の所定期間内に再度音声入力がなされ、その入力音声が前回の認識結果と同じ所定のカテゴリに属する場合には、前回の認識結果及びそれを実質的同一と見なされるものに対応する比較対象パターンを除外して認識結果を決定する。この比較対象パターンを除外して認識結果を決定する方法としては、例えば次回の認識処理において、除外すべき比較対象パターンを予め比較対象パターン候補から除外した上で比較をするようにしてもよいし、あるいは比較する際には前回と同様とし、その比較結果としての比較対象パターン候補から除外すべき比較対象パターンを除外して最終的な認識結果を決定するようにしてもよい。
【0009】
このようにすることで、今回の認識処理においては、前回の認識結果及びそれを実質的同一と見なされるものに対応する比較対象パターンが認識結果として得られることはない。つまり、再度音声入力がなされ、その入力音声が前回の認識結果と同じ所定のカテゴリに属する場合というのは、前回の認識結果が利用者の意図したものと異なっている誤認識である場合が考えられるため、本方法によれば、同じ誤認識を繰り返さないという利点がある。
【0010】
そして、上述の特開平1−154098号公報記載の音声認識と比較しても次のような利点がある。つまり、この公報記載の場合には、認識結果が誤っていた場合には、利用者自身が「誤認識ボタン」を操作したり「いいえ」という音声を入力して音声認識装置側に通知する明確な動作と行った後で、再度、言い直すことになっていたため、誤認識が複数回連続してしまうと、認識結果が誤っていることを音声認識装置側に利用者が通知する明確な動作がその都度必要となり、面倒であった。これに対して、本発明方法によれば、認識結果が誤っていた場合でも、利用者が誤認識であることのみを明確な動作で通知する必要がなく、そのまま言い直すだけでよい。それでいて、過去の誤認識を考慮することで同じ認識誤りを繰り返さないようにして認識精度を向上させることができるため、利用者の利便の向上の点で優れている。
【0011】
特に、カーナビゲーションシステムの目的地等を音声で入力しようとするためにこの音声認識装置を用いた場合などを想定すると、運転中の利用者にとって音声入力できることは非常に便利ではあるが、上記公報記載の発明のように、誤認識の度に「誤認識ボタン」の操作や「いいえ」という音声入力が必要となってくるのは好ましくないため、直接言い直しの動作につなげることのできる本発明方法はこのような状況において非常に有効である。
【0012】
なお、認識結果の報知後に所定の確定指示がなされた場合には、その認識結果を確定したものとして所定の確定後処理へ移行する。この「所定の確定後処理」とは、例えばナビゲーションシステムに用いられた場合には、認識結果としての目的地を設定する処理自体あるいは目的地設定処理を実行する装置側へその目的地を設定するよう指示する処理などが考えられる。また、認識結果の報知後の「所定の確定指示」に関しては、やはり音声で入力(例えば「はい」と発声することで入力)したり、確定ボタンのようなスイッチ類の操作によって指示したりすることが考えられる。
【0013】
また、本発明方法では、比較対象パターンを除外して認識結果を決定する場合の条件として、認識結果を報知した後の所定期間内に再度音声入力がなされることを挙げているが、この「所定期間内」としては、認識結果の報知後に前記所定の確定指示がなされるまでとすることが考えられる。つまり、確定指示がなされて所定の確定後処理へ移行するということは正しい認識結果であったことを意味するため、次回の音声入力についての最初の認識処理については、比較対象パターンを除外しないで行なうことが好ましいからである。
【0014】
さらに、前記認識結果の報知に関しては、例えば請求項3に示すように、音声発生装置から、認識結果の内容を音声にて出力することにより行うことが考えられる。カーナビゲーションシステムなどの車載機器用として用いる場合には、音声で出力されれば、ドライバーは視点を表示装置にずらしたりする必要がないので、安全運転のより一層の確保の点では有利であると言える。但し、音声出力に限定されるものではなく、画面上に文字または記号を表示できる表示装置に、認識結果の内容を、文字または記号による画像にて表示することにより行ったり、音声及び画像の両方にて報知するようにしてもよいし、それら以外の報知の手法を採用してもよい。車載機器として適用する場合に音声出力が有利であることを述べたが、もちろん車両が走行中でない状況もあるので、音声及び画像の両方で報知すれば、ドライバーは表示による確認と音声による確認との両方が可能となる。
【0015】
上述した音声認識方法を装置として構成した場合には、例えば、請求項4のような構成を挙げることができる。
利用者が音声入力手段を介して音声を入力すると、認識手段は、その入力音声を、予め辞書手段に記憶されている複数の比較対象パターン候補と比較して一致度合の高いものを認識結果とし、報知手段がその認識結果を報知する。そして、認識結果が報知された後に所定の確定指示がなされた場合には、確定後処理手段が、その認識結果を確定したものとして所定の確定後処理を実行する。「所定の確定指示」及び「所定の確定後処理」については上述したので省略する。
【0016】
そして、認識結果を報知した後の所定期間内に音声入力手段を介して音声入力がなされ、その入力音声が前回の認識結果と同じ所定のカテゴリに属する場合、認識手段は、前回の認識結果及び当該認識結果と実質的同一と見なされるものに対応する比較対象パターンを除外して認識結果を決定する。
【0017】
したがって、本音声認識装置によれば、認識結果が誤っていた場合でも、利用者が誤認識であることのみを明確な動作で通知する必要がなく、そのまま言い直すだけでよく、それでいて、過去の誤認識を考慮することで同じ認識誤りを繰り返さないようにして認識精度を向上させることができるため、利用者の利便が向上する。
【0018】
なお、上述したように、確定指示がなされて所定の確定後処理へ移行するということは正しい認識結果であったことを意味するため、次回の音声入力についての最初の認識処理については、比較対象パターンを除外しないで行なうことが好ましい。したがって、請求項5に示すように、認識手段が比較対象パターンを除外して認識結果を決定することの許容される所定期間は、認識結果の報知後に所定の確定指示がなされるまでとすることが考えられる。
【0019】
また、請求項6に示すように、報知手段が、音声を出力することにより報知する手段であれば、認識結果の内容が音声として報知手段から出力されることとなる。このように音声で出力されれば、例えば車載機器用として用いた場合に、認識結果の確認のためにドライバーが視点を移動する必要がないので、一層の安全運転に貢献できる。報知手段については、それ以外にも、画面上に文字または記号を表示することにより報知する手段が考えられる。
【0020】
もちろん、報知手段を、音声を出力することにより報知すると共に画面上に 文字または記号を表示することにより報知するようにしてもよい。
また、請求項4〜6のいずれか記載の音声認識装置をナビゲーションシステム用として用いる場合には、請求項7に示すように構成することが考えられる。
【0021】
すなわち、音声入力手段は、ナビゲーションシステムがナビゲート処理をする上で指定される必要のある所定のナビゲート処理関連情報の指示を、利用者が音声にて入力するために用いる。そして、確定後処理手段による所定の確定後処理は、ナビゲーションシステムに対するナビゲート処理関連情報の指示を含むものとする。この場合の「所定のナビゲート処理関連情報」としては、目的地が代表的なものとして挙げられるが、それ以外にもルート探索に関する条件選択など、ナビゲート処理をする上で指定の必要のある指示が含まれる。
【0022】
そしてこの場合は、認識結果としてのナビゲート処理関連情報を報知することとなるが、その報知後の所定期間内に再度ナビゲート処理関連指示が音声入力された場合には、前回の認識結果と同じカテゴリであると判断し、認識手段は、前回の認識結果としてのナビゲート処理関連情報及び当該ナビゲート処理関連情報と実質的同一と見なされるものに対応する比較対象パターンを除外して認識結果を決定する。
【0023】
目的地のように単語のみで構成されることの多い場合にはナビゲート処理関連情報そのものだけとなるが、条件選択などにおいては、例えば「使用しない」が標準パターンであったとしても、「使わない」あるいは「不使用」という言葉でも対処できるようにしておくことが好ましいので、このように実質的同一、つまり同一の指示を意味していると見なされる場合にも除外して認識結果を決定することで、余分な誤認識の繰り返しをより好適に防止することができる。
【0024】
なお、このようにナビゲーションシステムを前提して構成する場合には、報知手段を画面上に文字または記号を表示することにより報知する手段として構成すると共に、その報知手段を、ナビゲーションシステムの地図情報を表示するための表示手段と兼ねさせてもよい。もちろん、兼用させずに別個に構成しても構わない。また、この場合の音声認識装置は、ナビゲーションシステム自体に含めても構わないし、別体とし、その他の機器にも対応する汎用装置として構成してもよい。そして、ナビゲーションシステムにおいて地図情報が利用されるため、辞書手段はその地図情報中の地名情報などの必要な情報のみを読み出して記憶しておくようにすればよい。
【0025】
一方、請求項4〜6のいずれか記載の音声認識装置を空調システム用として用いる場合には、請求項8に示すように構成することが考えられる。
すなわち、音声入力手段は、空調システムにおける空調状態関連指示を利用者が音声にて入力するために用いる。確定後処理手段による所定の確定後処理は、空調システムに対する空調状態関連指示を含むものとする。この場合の「空調状態関連情報」は、設定温度や空調モード選択(冷房・暖房・ドライ)、あるいは風向モード選択といった種々の指示に対応したものが考えられる。そして、この場合にも、認識結果としての空調状態関連情報を報知した後の所定期間内に再度空調状態関連指示が音声入力された場合には、認識手段が、前回の認識結果としての空調状態関連情報及び当該空調状態関連情報と実質的同一と見なされるものに対応する比較対象パターンを除外して認識結果を決定する。
【0026】
空調状態関連情報そのものだけでなく、その空調状態関連情報と実質的同一と見なされるものについても除外しているのは、上記ナビゲーションシステムを前提とした場合と同様の理由である。例えば、温度設定を指示する場合を考えてみると、設定したい温度そのものを指示する場合もあれば、現在の設定温度からの変更を指示する場合も考えられる。例えば、利用者が「気温を2度下げる」と発声したにも関わらず「気温を5度下げる」と誤認識した場合、除外するものとしては、「気温を5度下げる」だけでなく、それと同一の意味と見なされるもの、例えば「5度下げる」あるいは「5度冷やす」といったものも全て含めて除外するのである。
【0027】
なお、上述のナビゲーションシステム及び空調システムは、例えば携帯型ナビゲーション装置や屋内用空調装置などのように、車載機器として用いられる場合だけではない。但し、これまで説明したように車載機器用として用いる場合には利用者がドライバーであることが考えられ、その場合には運転自体が最重要であり、それ以外の車載機器については、なるべく運転に支障がないことが好ましい。したがって、車載機器としてのナビゲーションシステムや空調システムを前提とした音声認識装置の場合には、より一層の利点がある。もちろん、このような視点で考えるならば、ナビゲーションシステムや空調システム以外の車載機器に対しても同様に利用することができる。例えば、カーオーディオ機器などは有効である。また、いわゆるパワーウインドウの開閉やミラー角度の調整などを音声によって指示するような構成を考えれば、そのような状況でも有効である。
【0028】
また、車載機器用とした場合にはそれ特有の利点があることは述べたが、本発明の音声認識方法あるいは装置の適用先としては、利用者がスイッチ操作や音声入力等によって指示したものを受けて制御装置が間接的に対象物を操作・制御しているような物であれば同様に考えられる。
【0029】
【発明の実施の形態】
[実施の形態1]
図1は本発明の実施の形態1としてのカーナビゲーションシステム2の全体構成を示すブロック図である。本カーナビゲーションシステム2は、位置検出器4、地図データ入力器6、操作スイッチ群8、これらに接続された制御回路10、制御回路10に接続された外部メモリ12、表示装置14及びリモコンセンサ15及び音声認識装置30を備えている。尚、制御回路10は通常のコンピュータとして構成されており、内部には、CPU、ROM、RAM、I/O及びこれらの構成を接続するバスラインが備えられている。
【0030】
位置検出器4は、周知の地磁気センサ16、ジャイロスコープ18、距離センサ20、及び衛星からの電波に基づいて車両の位置を検出するGPS(GlobalPositioning System)のためのGPS受信機22を有している。
これらのセンサ等16,18,20,22は各々が性質の異なる誤差を持っているため、複数のセンサにより、各々補間しながら使用するように構成されている。なお、精度によっては上述した内の一部で構成してもよく、更に、ステアリングの回転センサ、各転動輪の車輪センサ等を用いてもよい。
【0031】
地図データ入力器6は、位置検出の精度向上のためのいわゆるマップマッチング用データ、地図データ及び目印データを含む各種データを入力するための装置である。媒体としては、そのデータ量からCD−ROMを用いるのが一般的であるが、メモリカード等の他の媒体を用いても良い。
【0032】
表示装置14はカラー表示装置であり、表示装置14の画面には、位置検出器4から入力された車両現在位置マークと、地図データ入力器6より入力された地図データと、更に地図上に表示する誘導経路や後述する設定地点の目印等の付加データとを重ねて表示することができる。
【0033】
また、本カーナビゲーションシステム2は、リモートコントロール端末(以下、リモコンと称する。)15aを介してリモコンセンサ15から、あるいは操作スイッチ群8により目的地の位置を入力すると、現在位置からその目的地までの最適な経路を自動的に選択して誘導経路を形成し表示する、いわゆる経路案内機能も備えている。このような自動的に最適な経路を設定する手法は、ダイクストラ法等の手法が知られている。操作スイッチ群8は、例えば、表示装置14と一体になったタッチスイッチもしくはメカニカルなスイッチ等が用いられ、各種入力に使用される。
【0034】
そして、音声認識装置30は、上記操作スイッチ群8あるいはリモコン15aが手動操作により目的地などを指示するために用いられるのに対して、利用者が音声で入力することによっても同様に目的地などを指示することができるようにするための装置である。
【0035】
この音声認識装置30は、「認識手段」及び「確定後処理手段」としての音声認識部31及び対話制御部32と、音声合成部33と、音声入力部34と、「音声入力手段」としてのマイク35と、PTT(Push−To−Talk)スイッチ36と、「報知手段」としてのスピーカ37とを備えている。
【0036】
音声認識部31は、音声入力部34から入力された音声データを、対話制御部32からの指示により入力音声の認識処理を行い、その認識結果を対話制御部32に返す。対話制御部32は、その認識結果及び自身が管理する内部状態から、音声合成部33への応答音声の発声指示や、システム自体の処理を実行する制御回路10に対して例えばナビゲート処理のために必要な目的地を通知して設定処理を実行させるよう指示する処理を実行する。このような処理が確定後処理であり、結果として、この音声認識装置30を利用すれば、上記操作スイッチ群8あるいはリモコン15aを手動しなくても、音声入力によりナビゲーションシステムに対する目的地の指示などが可能となるのである。
【0037】
また前記音声入力部34は、マイク35にて取り込んだ周囲の音声をデジタルデータに変換して音声認識部31に出力するものであり、本実施形態においては、利用者がPTTスイッチ36を押しながらマイク35を介して音声を入力するようにされている。つまり、PTTスイッチ36が押されていない場合には、音声入力部34は音声認識部31へ音声データを出力しないようにされている。
【0038】
ここで、音声認識部31と対話制御部32についてさらに説明する。図2は、この音声認識部31と対話制御部32の構成をさらに詳しく示したものであり、(A),(B)の2つの構成例を説明する。
まず、図2(A)に示す構成では、音声認識部31が照合部31aと辞書部31bとで構成されており、対話制御部32が候補決定部32a、記憶部32b及び後処理部32cで構成されている。
【0039】
音声認識部31においては、照合部31aが、音声入力部34から取得した音声データに対し、辞書部31b内に記憶されている辞書データを用いて照合を行ない、詳しくは複数の比較対象パターン候補と比較して一致度の高い上位比較対象パターンを対話制御部32の候補決定部32aへ出力する。そして候補決定部32aでは、この上位比較対象パターンに対し、記憶部32bに記憶されている除外すべき比較対象パターンを削除して最終的な認識結果としての上位比較対象パターンを決定する。それと共に、記憶部32bに、次回の認識にて除外すべき比較対象パターンを除外パターンとして記憶させたり、あるいは所定の確定指示がなされた場合には記憶されている除外パターンをクリアしたりする処理を行なう。
【0040】
そして、後処理部32cでは、例えば上記所定の確定指示がなされた場合に制御回路10へデータを送って所定の処理をするように指示する「確定後処理」を実行したり、あるいは音声合成部33へ音声データを送って発音させるように指示する処理を実行する。なお、この場合の制御回路10へ送るデータとしては、最終的な認識結果としての上位比較対象パターンの全てでもよいし、あるいはその内の最上位のものだけでもよい。
【0041】
一方、図2(B)に示す構成では、音声認識部31が照合部131aと辞書部131bとで構成されており、対話制御部32が記憶部132a、辞書制御部132b及び後処理部132cで構成されている。
上記図2(A)に示す構成では、対話制御部32の候補決定部32aが照合部31aからの照合結果を得て、記憶部32b内の辞書データに基づいて候補を決定していたが、図2(B)の構成では、照合部131aからの照合結果が対話制御部32の記憶部132a及び後処理部132cへ出力され、辞書制御部132bが音声認識部31における認識処理に先だって、記憶部132aに記憶されている除外パターンを、辞書部131b内の辞書データから一時的に削除あるいは利用しないように制御する。照合部131aは、その状態での辞書部131b内の辞書データを用いて照合を行い、上位比較対象パターンを後処理部132c及び記憶部132aへ出力することとなる。記憶部132aでは、次回の認識にて除外すべき比較対象パターンを除外パターンとして記憶させるか、あるいは所定の確定指示がなされた場合には記憶されている除外パターンをクリアするかの処理を行なう。
【0042】
なお、後処理部132cの動作は、上記図2(A)の場合と同様なので、ここでは説明を省略する。
次に、本実施形態1のカーナビゲーションシステム2の動作について説明する。なお、音声認識装置30に関係する部分が特徴であるので、カナビゲーションシステムとしての一般的な動作を簡単に説明した後、音声認識装置30に関係する部分の動作について詳しく説明することとする。
【0043】
カーナビゲーションシステム2の電源オン後に、表示装置14上に表示されるメニューから、ドライバーがリモコン15a(操作スイッチ群8でも同様に操作できる。以後の説明においても同じ)により、案内経路を表示装置14に表示させるために経路情報表示処理を選択した場合、あるいは、音声認識装置30を介して希望するメニューをマイク35を介して音声入力することで、対話制御部32から制御回路10へ、リモコン15aを介して選択されるのを同様の指示がなされた場合、次のような処理を実施する。
【0044】
すなわち、ドライバーが表示装置14上の地図に基づいて、音声あるいはリモコンなどの操作によって目的地を入力すると、GPS受信機22から得られる衛星のデータに基づき車両の現在地が求められ、目的地と現在地との間に、ダイクストラ法によりコスト計算して、現在地から目的地までの最も短距離の経路を誘導経路として求める処理が行われる。そして、表示装置14上の道路地図に重ねて誘導経路を表示して、ドライバーに適切なルートを案内する。このような誘導経路を求める計算処理や案内処理は一般的に良く知られた処理であるので説明は省略する。
【0045】
次に、音声認識装置30における動作について、上述の経路案内のための目的地を音声入力する場合を例にとって説明する。
図3は、その場合の音声認識部31及び対話制御部32における処理を示すフローチャートである。まず最初のステップS10においては音声入力があるかどうかを判断する。
【0046】
音声入力があれば、S20へ移行して音声認識処理を実行する。この音声認識処理については後で詳述することとして、続くS30では、S20での音声認識処理による認識結果が、「はい」という音声入力であるかどうかを判断する。そして、「はい」という音声入力でなければ(S30:NO)、続くS40にて認識結果が所定カテゴリに属するものであるかどうかを判断する。ここでは経路案内のための目的地を設定する処理を前提としているので、この所定カテゴリとは、地名に関するカテゴリである。
【0047】
この所定カテゴリであれば(S40:YES)、S50へ移行して、その認識結果を除外すべき比較対象パターン(以下、除外パターンと称す。)として記憶部32b(図2参照)に記憶させる。そして、続くS60にて、音声応答処理を実行する。これは、音声合成部33及びスピーカを介して認識結果を音声として出力する処理である。
【0048】
一方、所定カテゴリでなければ(S40:NO)、S70へ移行してその他の処理を実行する。S30あるいはS70の処理の後はS10へ戻って、処理を繰り返す。
また、S30で肯定判断、すなわち認識結果が「はい」という音声入力であった場合には、S80へ移行して認識結果を確定する。そして続くS90にて、所定の確定後処理を実行する。この場合の確定後処理とは、認識結果としての「経路案内のための目的地」に関するデータを、制御回路10へ(図1参照)へ出力する処理などとなる。
【0049】
このような確定後処理が終了した後は、S100へ移行して、S50の処理で記憶部32bに記憶されていた除外パターンをクリアする。その後、S10へ戻る。
次に、上記S20での音声認識処理の詳細について説明する。なお、この音声認識処理は、音声認識部31及び対話制御部32が図2(A)の構成の場合と、図2(B)の構成の場合とで処理手順が多少異なるため、それぞれの場合を分けて説明する。
【0050】
最初に図2(A)に示す構成の場合の処理を説明する。まず、取得した音声データに対して辞書部31b内に記憶されている辞書データを用いて照合を行なう。そしてその照合結果により定まった上位比較対象パターンを、対話制御部32の候補決定部32aへ通知する。候補決定部32aでは、通知された上位比較対象パターンに対して、S50の処理によって記憶部32bに記憶されている除外パターンを削除した上で、最終的な認識結果としての上位比較対象パターンを決定する。これにより認識結果が決定される。なお、上述の図3の処理にて説明したように、確定はS80の処理によって行われるため、ここでは一応の決定ということとなる。
【0051】
次に図2(B)に示す構成の場合の処理を説明する。この場合は、辞書制御部132bが音声認識部31における認識処理に先だって、図3のS50の処理で記憶部132aに記憶された除外パターンを、辞書部131b内の辞書データから一時的に削除あるいは利用しないように制御する。その後、照合部131aは、取得した音声データに対して辞書部131b内に記憶されている辞書データを用いて照合する。
【0052】
さらに、この場合は、照合部131aが図3のS30〜S50及びS80,S100に相当する処理まで実行することとなる。つまり、「はい」という音声入力がされたと判断した場合(S30:YES)には、その認識結果を確定して(S80)、後処理部132cへ認識結果を送出し、S100に相当する処理として、記憶部132aに記憶されている除外パターンをクリアさせる処理を行なうこととなる。また、所定カテゴリであった場合(S40:YES)の、認識結果を除外パターンとして記憶部132aへ記憶させるまでの処理も実行することとなる。
【0053】
以上が、経路案内のための目的地を音声入力する場合を例にとった場合の動作説明であるが、本発明の音声認識に係る特徴をより明確に理解するために、目的地として「愛知県刈谷市昭和(ショーワ)町」を指定するという具体例で説明を続ける。
【0054】
利用者がマイク35を介して「愛知県刈谷市昭和町」と音声入力したとする。音声認識の精度が100%でない場合には誤認識してしまう可能性がある。例えば「愛知県刈谷市松栄(ショーエー)町」と誤って認識してしまった場合には、音声認識装置30はその音声をスピーカ37を介して出力する。
【0055】
これにより利用者は誤って認識されていることが判るので、再度「愛知県刈谷市昭和町」と音声入力する。この場合の音声入力に対する処理においては、前回の音声入力に対応する一連の処理において図3のS50に示すように認識結果が除外パターンとして記憶されている。そのため、例えば図2(A)に示す構成であれば、今回の音声認識処理の際には、「愛知県刈谷市松栄町」が照合部31aからの照合結果として候補決定部32aに通知されたとしても、記憶部32bには「愛知県刈谷市松栄町」が記憶されているので、候補決定部32aにおいてそれが除外されることとなる。一方、図2(B)に示す構成であれば、記憶部132aに記憶されている「愛知県刈谷市松栄町」が辞書制御部132bの制御によって辞書部131b内の辞書データから自動的に除外された状態で照合部131aによる照合が実施される。したがって、再度「愛知県刈谷市松栄町」が認識結果とされることは決してなく、認識精度は向上する。
【0056】
さらに、今回もまた誤認識があり、例えば「愛知県刈谷市大正(タイショー)町」と認識してしまった場合には、利用者が再度「愛知県刈谷市昭和町」と音声入力することによって、この場合の音声認識処理の際には、「愛知県刈谷市松栄町」に加えて「愛知県刈谷市大正町」が自動的に除外される。したがって、「愛知県刈谷市松栄町」及び「愛知県刈谷市大正町」が認識結果とされることは決してなく、認識精度は向上する。
【0057】
そして、今度は正しく認識して「愛知県刈谷市昭和町」と応答してきた場合には、利用者が「はい」と音声入力することで、図3のS90の確定後処理として、制御回路10(図1参照)にその「愛知県刈谷市昭和町」が目的地として通知される。これにより、制御回路10は、「愛知県刈谷市昭和町」を目的地として設定し、その後の所定の経路案内処理を実行することとなる。なお、「はい」という音声入力がされて確定後処理がされているので、次回の認識処理においては、「愛知県刈谷市松栄町」及び「愛知県刈谷市大正町」は除外されることなく、比較対象パターンとして適格を有することとなる。
【0058】
なお、従来技術として提示した特開平1−154098号公報記載の音声認識装置と比較した利点を確認しておく。この公報記載の場合には、認識結果が誤っていた場合には、利用者自身が「誤認識ボタン」を操作したり「いいえ」という音声を入力して音声認識装置側に通知する明確な動作と行った後で、再度、言い直すことになっていたため、誤認識が複数回連続してしまうと、認識結果が誤っていることを音声認識装置側に利用者が通知する明確な動作がその都度必要となり、面倒であった。
【0059】
これに対して、本カーナビゲーションシステム2における音声認識装置30によれば、認識結果が誤っていた場合でも、利用者が誤認識であることのみを明確な動作で通知する必要がなく、そのまま言い直すだけでよい。つまり、上記具体例で言えば、「愛知県刈谷市松栄町」と誤認識された場合でも、利用者自身が「誤認識ボタン」を操作したり「いいえ」という音声を入力する必要がなく、再度「愛知県刈谷市昭和町」と音声入力するだけでよいのである。
【0060】
つまり、過去の誤認識を考慮することで同じ認識誤りを繰り返さないようにして認識精度を向上させることができるという利点を保持したまま、認識結果が誤っていた場合でも、利用者が誤認識であることのみを明確な動作で通知する必要がなく、そのまま言い直すだけでよいため、利用者の利便の向上の点で優れているのである。
【0061】
また、本実施形態では、図3に示すように、「はい」という音声入力がされ(S30:YES)、確定後処理(S90)がされた後でS100にて、除外パターンをクリアしている。つまり、確定指示がなされて所定の確定後処理へ移行するということは正しい認識結果であったことを意味するため、次回の音声入力についての最初の認識処理については、除外パターンがない状態で始めることによって、適切な認識処理が行えるのである。
なお、本実施形態では、「報知手段」としてスピーカ37を用い、音声出力により認識結果を報知するようにしたが、このように音声で出力されれば、認識結果の確認のためにドライバーが視点を移動する必要がないので、一層の安全運転に貢献できる。つまり、ナビゲーションシステムを車載機器用として用いているので、このような音声出力には利点がある。もちろん、画面上に文字または記号を表示することにより認識結果を報知してもよいし、音声を出力することにより報知すると共に画面上に文字または記号を表示することにより報知するようにしてもよい。そして、画面上に認識結果を表示させる場合には、ナビゲーションシステムの地図情報を表示するための表示装置14(図1参照)に表示させるような構成を採用することもできる。
【0062】
なお、上記図3のS40の処理においては、認識結果が所定カテゴリに属するものであるかどうかを判断するものとし、その所定カテゴリとは目的地の設定を前提にするため地名に関するカテゴリであると説明した。しかしながら、本発明の主旨はこのような地名等に限定されるものではなく、抽象的に言えば、認識結果を出力し、利用者の確認を得てから正式に確定する必要があるような情報に関するカテゴリということである。具体的に上述のカーナビゲーションシステム2で言うならば、ナビゲート処理をする上で指定される必要のある所定のナビゲート処理関連情報の指示ということとなる。この「所定のナビゲート処理関連情報」の代表的なものが目的地がであるが、それ以外にもルート探索に関する条件選択など、ナビゲート処理をする上で指定の必要のある指示が含まれる。
【0063】
そして、目的地の設定に関する上記例では、「愛知県刈谷市昭和町」に対する誤認識結果としての「愛知県刈谷市松栄町」や「愛知県刈谷市大正町」そのものだけを次回の認識において除外するようにしたが、実質的同一と見なされるものについても除外することが考えられる。これは、目的地であれば単語のみの一致度合だけを考慮すればよい場合が多いが、条件選択などにおいては、例えば「使用しない」が標準パターンであったとしても、「使わない」あるいは「不使用」という言葉でも対処できるようにしておくことが好ましいので、このように実質的同一、つまり同一の指示を意味していると見なされる場合にも次回の認識において除外しておくことで、余分な誤認識の繰り返しをより好適に防止することができる。
【0064】
[実施の形態2]
上述の実施形態1では、カーナビゲーションシステムに適用した場合を説明したが、この実施の形態2では、車載空調装置(いわゆるカーエアコン)に適用した場合を説明する。
【0065】
基本的な構成は、図1に示したカーナビゲーションシステム2の場合と同様であり、音声認識装置30によって空調状態関連指示を利用者が音声にて入力することができるようにされており、図1における制御回路10が空調の関する各種制御、例えば温度変更や空調モード(冷房・暖房・ドライ)の変更、あるいは風向の変更といった制御を実行することとなる。
【0066】
この場合の音声認識装置の動作についても、基本的には上記カーナビゲーションシステム2の場合と同様であるので詳しくは説明しないが、音声で入力指示する空調状態関連情報に対する認識処理においては、単語の一致度合だけで判断できる場合だけでないことが多いと考えられるので、その点を説明しておく。
【0067】
空調状態の指示において、温度設定を「25度」や「28度」と指示したり、空調モードを「冷房」、「暖房」あるいは「ドライ」というように指示したりする場合は単語の一致度合だけで判断しても構わない。しかし、利用者の使い勝手を考慮すると、現在の温度から「5度下げる」あるいは「5度冷やす」というように多少表現が異なる指示であっても許容することが好ましい。つまり、「5度」という数値的指示と「下げる」あるいは「冷やす」といった制御方向の指示が合体したものであり、その両者を限定的に単語の一致度合だけで捉えていると、「5度下げる」が誤認識であった場合に、実質的に同一の「5度冷やす」が次回の認識結果とされる可能性があり、余分な認識処理となってしまうからである。
【0068】
したがって、この場合の音声認識処理においては、例えば温度設定を指示する場合に利用者が「気温を2度下げる」と発声したにも関わらず「気温を5度下げる」と誤認識した場合、次回の認識処理においては、「気温を5度下げる」だけでなく、それと同一の意味と見なされるもの、例えば「5度下げる」あるいは「5度冷やす」といったものも全て含めて除外するのである。
【0069】
[その他]
前記各実施の形態では、ナビゲーションシステムや空調システムを車載機器として捉えた例として説明したが、例えば携帯型ナビゲーション装置や屋内用空調装置などのように車載機器として用いられる場合だけではないため、そのような実施形態としても実現可能である。但し、これまで説明したように車載機器用として用いる場合には利用者がドライバーであることが考えられ、その場合には運転自体が最重要であり、それ以外の車載機器に対する操作については、なるべく運転に支障がないことが好ましい。したがって、車載機器としてのカーナビゲーションシステム2や空調システムを前提とした音声認識装置30の場合には、より一層の利点がある。
【0070】
もちろん、このような視点で考えるならば、ナビゲーションシステムや空調システム以外の車載機器に対しても同様に利用することができ、例えばカーオーディオ機器などは有効である。また、それ以外にも、いわゆるパワーウインドウの開閉やミラー角度の調整などを音声によって指示するような構成を考えれば、そのような制御対象についても同様に適用でき、やはり有効である。
【図面の簡単な説明】
【図1】本発明の実施の形態1としてのカーナビゲーションシステムの概略構成を示すブロック図である。
【図2】音声認識装置における音声認識部と対話制御部の構成を示すブロック図である。
【図3】音声認識装置における音声認識及び対話制御に係る処理を示すフローチャートである。
【符号の説明】
2…カーナビゲーションシステム 4…位置検出器
6…地図データ入力器 8…操作スイッチ群
10…制御回路 12…外部メモリ
14…表示装置 15…リモコンセンサ
15a…リモコン 16…地磁気センサ
18…ジャイロスコープ 20…距離センサ
22…GPS受信機 30…音声認識装置
31…音声認識部 31a…照合部
31b…辞書部 32…対話制御部
32a…候補決定部 32b…記憶部
32c…後処理部 33…音声合成部
34…音声入力部 35…マイク
36…PTTスイッチ 37…スピーカ
131a…照合部 131b…辞書部
132a…記憶部 132b…辞書制御部
132c…後処理部
Claims (8)
- 入力された音声を予め記憶されている複数の比較対象パターン候補と比較して、一致度合の高いものを認識結果として報知し、その認識結果の報知後に所定の確定指示がなされた場合には、当該認識結果を確定したものとして所定の確定後処理へ移行するカーナビゲーションシステムに用いられる音声認識方法であって、
前記認識結果を報知した後の所定期間内に再度音声入力がなされ、その入力音声が前回の認識結果と同じ所定のカテゴリに属する場合、前回の認識結果及び当該認識結果と実質的同一と見なされるものに対応する比較対象パターンを除外して認識結果を決定するようにしたことを特徴とする音声認識方法。 - 請求項1記載の音声認識方法において、
前記比較対象パターンを除外して認識結果を決定することの許容される所定期間は、前記認識結果の報知後に前記所定の確定指示がなされるまでであることを特徴とする音声認識方法。 - 請求項1又は2記載の音声認識方法において、
前記認識結果の報知は、音声発生装置から、前記認識結果の内容を音声にて出力することにより行われることを特徴とする音声認識方法。 - 音声を入力するための音声入力手段と、
該音声入力手段を介して入力された音声を、予め辞書手段に記憶されている複数の比較対象パターン候補と比較して一致度合の高いものを認識結果とする認識手段と、
該認識手段による認識結果を報知する報知手段と、
該報知手段によって認識結果が報知された後に所定の確定指示がなされた場合には、当該認識結果を確定したものとして所定の確定後処理を実行する確定後処理手段とを備え、
車載機器として用いられる音声認識装置であって、
前記認識結果を報知した後の所定期間内に前記音声入力手段を介して音声入力がなされ、その入力音声が前回の認識結果と同じ所定のカテゴリに属する場合、前記認識手段は、前回の認識結果及び当該認識結果と実質的同一と見なされるものに対応する比較対象パターンを除外して認識結果を決定するよう構成されていることを特徴とする音声認識装置。 - 請求項4記載の音声認識装置において、
前記認識手段が比較対象パターンを除外して認識結果を決定することの許容される所定期間は、前記認識結果の報知後に前記所定の確定指示がなされるまでであることを特徴とする音声認識方法。 - 請求項4又は5記載の音声認識装置において、
前記報知手段は、音声を出力することにより報知する手段であり、前記認識結果の報知は、前記認識結果の内容を音声として前記音声出力手段から出力することによって行われることを特徴とする音声認識装置。 - 請求項4〜6のいずれか記載の音声認識装置において、
前記音声入力手段は、ナビゲーションシステムがナビゲート処理をする上で指定される必要のある所定のナビゲート処理関連情報の指示を、利用者が音声にて入力するために用いられ、前記確定後処理手段による所定の確定後処理は、ナビゲーションシステムに対するナビゲート処理関連情報の指示を含むものであり、前記認識結果としてのナビゲート処理関連情報を報知した後の所定期間内に再度音声入力手段を介してナビゲート処理関連指示が音声入力された場合には、前回の認識結果と同じカテゴリであると判断し、前記認識手段は、前回の認識結果としてのナビゲート処理関連情報及び当該ナビゲート処理関連情報と実質的同一と見なされるものに対応する比較対象パターンを除外して認識結果を決定するよう構成されていることを特徴とする音声認識装置。 - 請求項4〜6のいずれか記載の音声認識装置において、
前記音声入力手段は、空調システムにおける空調状態関連指示を利用者が音声にて入力するために用いられ、前記確定後処理手段による所定の確定後処理は、空調システムに対する空調状態関連指示を含むものであり、前記認識結果としての空調状態関連情報を報知した後の所定期間内に再度音声入力手段を介して空調状態関連指示が音声入力された場合には、前回の認識結果と同じカテゴリであると判断し、前記認識手段は、前回の認識結果としての空調状態関連情報及び当該空調状態関連情報と実質的同一と見なされるものに対応する比較対象パターンを除外して認識結果を決定するよう構成されていることを特徴とする音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP19482096A JP3580643B2 (ja) | 1996-07-24 | 1996-07-24 | 音声認識方法及び音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP19482096A JP3580643B2 (ja) | 1996-07-24 | 1996-07-24 | 音声認識方法及び音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH1039892A JPH1039892A (ja) | 1998-02-13 |
JP3580643B2 true JP3580643B2 (ja) | 2004-10-27 |
Family
ID=16330805
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP19482096A Expired - Lifetime JP3580643B2 (ja) | 1996-07-24 | 1996-07-24 | 音声認識方法及び音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3580643B2 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11143487A (ja) * | 1997-11-11 | 1999-05-28 | Osaka Gas Co Ltd | 音声文字変換方法と音声文字変換装置 |
DE19908137A1 (de) * | 1998-10-16 | 2000-06-15 | Volkswagen Ag | Verfahren und Vorrichtung zur automatischen Steuerung mindestens eines Gerätes per Sprachdialog |
JP2001236091A (ja) * | 2000-02-23 | 2001-08-31 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識結果の誤り訂正方法およびその装置 |
JP3542026B2 (ja) * | 2000-05-02 | 2004-07-14 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識システム、音声認識方法およびコンピュータ可読な記録媒体 |
JP2005114964A (ja) * | 2003-10-07 | 2005-04-28 | Xanavi Informatics Corp | 音声認識方法および音声認識処理装置 |
JP4736423B2 (ja) * | 2004-12-27 | 2011-07-27 | 日産自動車株式会社 | 音声認識装置および音声認識方法 |
JP4542974B2 (ja) | 2005-09-27 | 2010-09-15 | 株式会社東芝 | 音声認識装置、音声認識方法および音声認識プログラム |
CN103328364B (zh) * | 2011-03-11 | 2015-09-30 | 三菱电机株式会社 | 电梯呼梯登记装置 |
KR101598948B1 (ko) | 2014-07-28 | 2016-03-02 | 현대자동차주식회사 | 음성 인식 장치, 이를 포함하는 차량 및 음성 인식 방법 |
-
1996
- 1996-07-24 JP JP19482096A patent/JP3580643B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH1039892A (ja) | 1998-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7392194B2 (en) | Voice-controlled navigation device requiring voice or manual user affirmation of recognized destination setting before execution | |
JP4997796B2 (ja) | 音声認識装置、及びナビゲーションシステム | |
JP3580643B2 (ja) | 音声認識方法及び音声認識装置 | |
WO2013069060A1 (ja) | ナビゲーション装置および方法 | |
JPH09292255A (ja) | ナビゲーション方法及び装置 | |
JPH11288296A (ja) | 情報処理装置 | |
US9128517B2 (en) | Vehicular terminal with input switching | |
JP4258890B2 (ja) | 音声認識装置、その装置を用いたナビゲーションシステム | |
JP3890774B2 (ja) | ナビゲーションシステム | |
JP3654262B2 (ja) | 音声認識装置及びナビゲーションシステム | |
JP2002287792A (ja) | 音声認識装置 | |
JP4201411B2 (ja) | 音声認識装置及びナビゲーションシステム | |
JP3358498B2 (ja) | 音声認識装置及びナビゲーションシステム | |
JP2947143B2 (ja) | 音声認識装置及びナビゲーション装置 | |
JP2007057805A (ja) | 車両用情報処理装置 | |
JP3677833B2 (ja) | ナビゲーション装置,ナビゲート方法及び自動車 | |
JP3849283B2 (ja) | 音声認識装置 | |
JP4113698B2 (ja) | 入力装置、プログラム | |
JP2008164809A (ja) | 音声認識装置 | |
JPH1138995A (ja) | 音声認識装置及びナビゲーションシステム | |
JP4938719B2 (ja) | 車載情報システム | |
JP3911835B2 (ja) | 音声認識装置及びナビゲーションシステム | |
JP3925368B2 (ja) | 制御システム | |
JPH11231889A (ja) | 音声認識装置 | |
JP2001075589A (ja) | 音声認識方法及び音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040720 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110730 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120730 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120730 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130730 Year of fee payment: 9 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |