JP2006162782A - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP2006162782A
JP2006162782A JP2004351488A JP2004351488A JP2006162782A JP 2006162782 A JP2006162782 A JP 2006162782A JP 2004351488 A JP2004351488 A JP 2004351488A JP 2004351488 A JP2004351488 A JP 2004351488A JP 2006162782 A JP2006162782 A JP 2006162782A
Authority
JP
Japan
Prior art keywords
recognition
dictionary
speech recognition
voice
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004351488A
Other languages
English (en)
Other versions
JP4498906B2 (ja
Inventor
Reiko Okada
玲子 岡田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2004351488A priority Critical patent/JP4498906B2/ja
Publication of JP2006162782A publication Critical patent/JP2006162782A/ja
Application granted granted Critical
Publication of JP4498906B2 publication Critical patent/JP4498906B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】 簡単な構成によって高い認識率で目的とする語彙を認識させることができる音声認識装置を提供する。
【解決手段】 音声を認識するための複数の認識辞書#1〜#4と、音声認識を開始させる認識開始ボタン15と、認識開始ボタンが操作された回数に応じて複数の認識辞書の1つを有効に設定する制御手段4と、制御手段により有効に設定された認識辞書を用いて音声認識を行う音声認識手段3とを備えている。
【選択図】 図1

Description

この発明は、例えばナビゲーションシステムを音声で操作するために使用される音声認識装置に関し、特に音声の認識率を向上させる技術に関する。
従来、ユーザが発話した音声を認識して認識結果を出力する音声認識装置が知られている。通常の声認識装置においては、音声認識処理で用いられる認識辞書が用意されており、認識辞書の内部には認識対象とする語彙が格納されている。音声認識処理では、ユーザが発話した語彙を分析し、認識辞書に格納されている語彙と照らし含わせることにより、認識結果を提示する。
音声認識に関連する技術として、特許文献1は、入力すべきデータをあらかじめ複数のグループに分類して辞書中に収容するようにした音声入力識別方式を開示している。この音声入力識別方式では、音声に対応する文字を、清音グループ、濁音グループおよび半濁音グループといった3つのグループに分類して辞書に格納しておき、スイッチによって選択された辞書を用いて認識処理を行うことにより、指定した任意の1音の文字を音声入力することを可能としている。
また、特許文献2は、携帯型電子辞書に、アルファベットボタンを持たせず辞書引きするという操作方法を用い、リアルタイムで辞書引きを可能とする電子辞書装置を開示している。この電子辞書装置では、1つの音声認識ボタンを複数の操作方法に用いるものであり、音声認識開始や中止や候補提示の操作を、複数のスイッチを用いずに単一のボタンで可能にしたものである。音声認識ボタンを1秒以上押すと音声入力を行い、0.5秒以内に1度押すことにより誤認識時に認識結果の次の候補提示を行い、0.5秒以内に2度音声認識ボタンを押すことにより、音声認識の中断を行う。
特開昭55−2040号公報 特開平10−171492号公報
ところで、上述した従来の音声認識装置では、多数の認識辞書を用いて音声認識を行うことによって音声認識処理で認識可能となる語彙が多くなり、一度に多くの認識語彙を受け付けることが可能となる。しかしながら、認識対象とする語彙を多くすればするほど、誤認識が多く発生するという問題がある。
なお、上述した特許文献1に開示された技術では、文字を1文字ずつしか入力できないため、連続語の入力を一度にすることができず、複数文字を入力する場合には、入力語の文字数だけ操作を繰り返すという手間が必要になる。また、辞書を切り替えるためには、各辞書に対応したスイッチを辞書の数だけ用意しなければならない。また、特許文献2に開示された技術では、音声認識ボタン操作により、単に認識開始、訂正、中断を可能にしただけであり、利用する辞書を指定したり切り替えることによって認識率を向上させることはできない。
この発明は、上述した問題を解消するためになされたものであり、その課題は、簡単な構成によって高い認識率で目的とする語彙を認識させることができる音声認識装置を提供することにある。
この発明に係る音声認識装置は、音声を認識するための複数の認識辞書と、音声認識を開始させる認識開始ボタンと、認識開始ボタンが操作された回数に応じて複数の認識辞書の1つを有効に設定する制御手段と、制御手段により有効に設定された認識辞書を用いて音声認識を行う音声認識手段とを備えている。
この発明によれば、音声認識に使用する辞書を認識開始ボタンの押下によって選択した後、認識処理を行わせるように構成したので、確実な認識辞書の選択による語彙の絞り込みが可能となり、高い認識率で目的とする語彙を認識できる。また、音声認識に使用する認識辞書は、音声認識を開始させるための認識開始ボタンを共用して、該認識開始ボタンを押下した回数によって選択するように構成したので、音声認識装置を簡単且つ安価に構成できる。
以下、この発明の実施の形態を、図面を参照しながら詳細に説明する。
実施の形態1.
図1は、この発明の実施の形態1に係る音声認識装置の構成を示すブロック図である。この音声認識装置は、音声認識辞書1、認識辞書管理手段2、音声認識手段3、制御手段4、出力情報制御手段4、手動入力手段6、キーコード判別手段7、音声入力手段8、画面出力手段9、音声出力手段10、リモートコントローラ(以下、「リモコン」と略する)11、マイクロフォン(以下、「マイク」と略する)12、モニタ13およびスピーカ14から構成されている。リモコン11には、音声認識を開始させるための認識開始ボタン15が設けられている。この認識開始ボタン15が押下されることにより、認識処理が開始され、マイク12に向かって発話された音声の認識処理が行われる。
音声認識辞書1は、複数の認識辞書から構成されている。この実施の形態1に係る音声認識装置では、音声認識辞書1は、語彙の種別によって分類された4個の認識辞書#1〜#4から構成されている。具体的には、認識辞書#1は住所に使用される語彙(県名、市町村名など)を含む「住所辞書」、認識辞書#2は施設名に使用される語彙(東京タワー等)を含む「施設名辞書」、認識辞書#3は電話番号に使用される語彙(数字)を含む「電話番号辞書」、認識辞書#4は楽曲の曲名に使用される語彙(曲名)を含む「曲名辞書」から構成されている。
認識辞書管理手段2は、音声認識辞書1を構成する複数の認識辞書#1〜#4を管理する。この認識辞書管理手段2は、図2に示すような管理テーブル21を保持している。管理テーブル21は、辞書番号(#1〜#4)、辞書名(住所、施設名、電話番号、曲名)および状態(無効または有効)を記憶している。そして、制御手段4から送られてくる辞書切替要求に応じて、認識対象とする1つの認識辞書を選択し、その選択した認識辞書の状態を「有効」に設定するとともに他の認識辞書を「無効」に設定する。また、認識辞書管理手段2は、音声認識が行われる際に、「有効」に設定された認識辞書の内容を読み出して音声認識手段3に送る。
音声認識手段3は、音声認識辞書1を参照して音声認識処理を実行する。この音声認識手段3は、音声分析処理部31とマッチング処理部32とから構成されている。音声分析処理部31は、制御手段4から認識開始の指示がなされた場合に、音声入力手段8から送られてくる音声データを分析する。この音声分析処理部31における分析結果は、マッチング処理部32に送られる。マッチング処理部32は、音声分析処理部31から送られてくる分析結果と音声認識辞書1から認識辞書管理手段2を介して送られてくる語彙とを比較するマッチング処理を実行する。マッチング処理部32におけるマッチング処理によって得られた認識結果、具体的には認識語彙およびその正解確率(以下、「スコア」という)は制御手段4に送られる。
制御手段4は、認識辞書管理手段2、音声認識手段3、出力情報制御手段5、手動入力手段6およびキーコード判別手段7との間でデータを送受することにより音声認識装置の全体を制御する。この制御手段4の詳細は後述する。
出力情報制御手段5は、画面表示や音声出力を制御する。この出力情報制御手段5は、出力情報テーブル51、画面出力生成手段52および音声出力生成手段53から構成されている。出力情報テーブル51は、図3に示すように、出力される情報の番号に対応させて、モニタ13に表示される画面表示文字および発話例文字とスピーカ14から音声で出力される音声ガイダンス文字を記憶している。この出力情報テーブル51に記憶されている画面表示文字および発話例は画面出力生成手段52によって読み出され、音声ガイダンス文字は音声出力生成手段53によって読み出される。
画面出力生成手段52は、制御手段4から送られてくる画面表示情報(詳細は後述する)に従って出力情報テーブル51から読み出した画面表示文字および発話例文字に基づき画面出力データを生成する。また、画面出力生成手段52は、制御手段4から送られてくる認識語彙に基づき画面出力データを生成する。この画面出力生成手段52で生成された画面出力データは、画面出力手段9に送られる。音声出力生成手段53は、制御手段4から送られてくる画面表示情報に従って出力情報テーブル51から読み出した音声ガイダンス文字に基づき音声出力データを生成する。また、音声出力生成手段53は、制御手段4から送られてくる認識語彙に基づき音声出力データを生成する。この音声出力生成手段53で生成された音声出力データは、音声出力手段10に送られる。
手動入力手段6は、リモコン11のキーが押されることにより該リモコン11から送られてくるキーコードを受け付けてキーイベントを発生する。この手動入力手段6で発生されたキーイベントおよびキーコードは制御手段4に送られる。なお、キーイベントおよびキーコードを発生させる手段としては、リモコン11の代わりに、タッチパネル、押釦スイッチといった他の入力手段を用いることもできる。
キーコード判別手段7は、制御手段4から送られてくるキーコードを判別する。例えば、キーコード判別手段7は、制御手段4から認識開始ボタン15のキーコードが送られてきた場合は、そのキーコードが認識開始ボタン15に対応する旨を判別し、判別結果を制御手段4に返送する。
音声入力手段8は、例えばA/D変換器から構成されており、人が発話することによってマイク12で生成された音声信号を入力し、音声認識手段3で取り扱い可能なデジタル形式の音声データに変換する。この音声入力手段8で音声信号を変換することにより得られた音声データは、音声認識手段3の音声分析処理部31に送られる。
画面出力手段9は、例えばD/A変換器から構成されており、出力情報制御手段5から送られてくる画面出力データをアナログの映像信号に変換し、モニタ13に送る。これにより、モニタ13に画面出力データに応じた文字や絵から成る画像が表示される。モニタ13は、例えば液晶ディスプレイ装置やCRT装置から構成することができる。
音声出力手段10は、例えばD/A変換器から構成されており、出力情報制御手段5から送られてくる音声出力データをアナログの音声信号に変換し、スピーカ14に送る。これにより、スピーカ14から音声出力データに応じた音声が出力される。
次に、制御手段4の詳細を説明する。制御手段4は、切替回数カウント処理部41、切替対応テーブル42、辞書切替処理部43、認識エンジン制御処理部44、画面切替処理部45および認識結果判定処理部46から構成されている。
切替回数カウント処理部41は、手動入力手段6からのキーイベントを受け、該キーイベントと同時に送られてきたキーコードをキーコード判別手段7に送る。そして、キーコード判別手段7から認識開始ボタン15のキーコードであることが送り返されてきた場合に、認識開始ボタン15が押された回数、つまり認識辞書の切替回数をカウントする。また、切替回数カウント処理部41は、カウントされた切替回数に応じて切替対応テーブル42を参照することにより認識対象とする認識辞書を決定し、その辞書番号を辞書切替処理部43に送るとともに、その辞書番号に対応する画面表示情報を画面切替処理部45に送る。
切替対応テーブル42は、図4に示すように、切替回数(認識開始ボタン15の押下回数(n))に対応させて、「認識対象」、「辞書番号」および「画面表示情報」を記憶している。「認識対象」は、切替回数が住所、施設名、電話番号または曲名の何れに対応するかを表している。「辞書番号」は、切替回数が認識辞書#1〜#4の何れに対応するかを表している。「画面表示情報」は、切替回数が図3に示した出力される情報の番号1〜4の何れに対応するかを表している。この切替対応テーブル42は、上述したように、切替回数カウント処理部41によって参照される。
辞書切替処理部43は、切替回数カウント処理部41から送られてくる辞書番号に応じて、該辞書番号で指定される認識辞書に切り替えるべき旨の辞書切替要求を発生し、認識辞書管理手段2に送る。また、辞書切替処理部43は、辞書切替要求を発生した場合に、その旨を認識エンジン制御処理部44に通知する。
認識エンジン制御処理部44は、辞書切替処理部43から送られてくる辞書切替要求が発生された旨の通知に応答して、音声認識手段3の音声分析処理部31に対して認識開始の要求および認識停止の要求を送る。これら認識開始の要求および認識停止の要求に応じて、音声認識手段3は、音声認識処理を開始または停止する。
画面切替処理部45は、切替回数カウント処理部41から送られてくる画面表示情報に応じて、該画面表示情報で指定される画面に切り替えるべき旨の画面切替要求を発生し、出力情報制御手段5に送る。また、画面切替処理部45は、認識結果判定処理部46から送られてくる認識語彙を出力情報制御手段5に送る。
認識結果判定処理部46は、音声認識手段3のマッチング処理部32から認識結果として送られてくる認識語彙およびそのスコアに基づき最終的な判定を行って認識語彙を確定する。この認識結果判定処理部46における判定によって確定された認識語彙は、画面切替処理部45に送られる。また、認識結果判定処理部46によって確定された認識語彙は、詳細な説明は省略するが、種々のアプリケーションで使用される。
次に、上記のように構成される、この発明の実施の形態1に係る音声認識装置の動作を、図5に示すフローチャートを参照しながら説明する。
音声認識装置が起動されると、まず、辞書番号nが「1」に初期化される(ステップST1)。次いで、リモコン11からのキー入力の有無が調べられる(ステップST2)。すなわち、制御手段4は、手動入力手段6からキーイベントが送られてきたかどうかを調べる。ここで、キー入力がないことが判断されると、このステップST2を繰り返し実行しながらキー入力がなされるのを待って待機状態に入る。
このステップST2の繰り返し実行による待機状態において、キー入力がなされると、認識開始ボタン15の押下であるかどうかが調べられる(ステップST3)。すなわち、制御手段4の切替回数カウント処理部41は、手動入力手段6からキーイベントとともに送られてくるキーコードをキーコード判別手段7へ送る。そして、これに応答してキーコード判別手段7から送り返されてくる判別結果に基づいて認識開始ボタン15のキーイベントであるかどうかを調べる。
このステップST3で認識開始ボタン15の押下であることが判断されると、認識辞書の切り替えが行われる(ステップST4)。すなわち、切替回数カウント処理部41は、切替回数nをカウントアップし、切替対応テーブル42を参照して認識対象とする認識辞書を決定する。そして、決定された認識辞書の辞書番号を辞書切替処理部43に送るとともに、その辞書番号に対応する画面表示情報を画面切替処理部45に送る。辞書切替処理部43は、この辞書番号に応じて辞書切替要求を発生し、認識辞書管理手段2に送る。認識辞書管理手段2は、この辞書切替要求に応じて認識対象とする1つの認識辞書を選択し、その選択した認識辞書の状態を「有効」に設定するとともに他の認識辞書を「無効」に設定する。なお、最初は切替回数nが「1」に設定されるので、認識辞書#1、つまり住所辞書が選択される。
次いで、画面表示および音声出力の切り替えが行われる(ステップST5)。すなわち、画面切替処理部45は、切替回数カウント処理部41から送られてきた画面表示情報に応じて画面切替要求を生成し、出力情報制御手段5に送る。次いで、画面表示および音声出力が行われる(ステップST6)。すなわち、画面切替要求を受け取った出力情報制御手段5の画面出力生成手段52は、この画面切替要求に応答して、出力情報テーブル51(図3参照)からn番目の認識辞書に対応する画面表示文字および発話例文字を読み出して画面出力データを生成し、画面出力手段9に送る。これにより、モニタ13に、画面表示文字および発話例文字が表示される。最初は切替回数が「1」に設定されて住所辞書が選択されているので、図6(a)に示すような、住所を認識するための画面がモニタ13に表示される。また、出力情報制御手段5の音声出力生成手段53は、画面切替処理部45からの画面切替要求に応答して、出力情報テーブル51からn番目の認識辞書に対応する音声ガイダンス文字を読み出して音声出力データを生成し、音声出力手段10に送る。これにより、スピーカ14から、音声ガイダンスが出力される。最初は切替回数が「1」に設定されて住所辞書が選択されているので、図6(a)に示すような、「住所をお話ください」という音声が出力される。
次いで、音声認識が開始される(ステップST7)。すなわち、制御手段4の認識エンジン制御処理部44は、辞書切替処理部43から辞書切替要求が発生された旨が通知された場合は、認識開始命令を発生し、音声認識手段3の音声分析処理部31に送る。これにより、音声認識処理が開始される。
次いで、一定時間内(例えば1秒以内等)にキー入力がなされたかどうかが調べられる(ステップST8)。ここで、キー入力がなされたことが判断された場合には、辞書番号nがインクリメント(+1)され(ステップST9)、その後、シーケンスはステップST3に戻る。以下、上述した処理が繰り返される。従って、認識対象辞書は、認識開始ボタン15が押される毎に、認識辞書#1(住所辞書)→認識辞書#2(施設名辞書)→認識辞書#3(電話番号辞書)→認識辞書#4(曲名辞書)→認識辞書#1(住所辞書)・・・とサイクリックに変化する。また、モニタ13への画面表示およびスピーカ14からの音声出力は、図6(a)に示す状態→図6(b)に示す状態→図6(c)に示す状態→図6(d)に示す状態→図6(a)に示す状態・・・とサイクリックに変化する。図6(a)は、認識開始ボタン15が1、5、9、・・・回押下された時、図6(b)は、認識開始ボタン15が2、6、10、・・・回押下された時、図6(c)は、認識開始ボタン15が3、7、11、・・・回押下された時、図6(d)は、認識開始ボタン15が4、8、12、・・・回押下された時の表示画面および音声出力の状態を示している。
上記ステップST8において、一定時間内にキー入力がなされなかったことが判断されると、音声認識処理が実行される(ステップST10)。すなわち、マイク12から入力された音声が音声入力手段8で音声データに変換されて音声分析処理部31に送られる。音声分析処理部31は、音声入力手段8から送られてくる音声データを分析し、分析結果をマッチング処理部32に送る。マッチング処理部32は、音声分析処理部31から送られてくる分析結果とその時点で選択されている認識辞書の語彙とを比較するマッチング処理を実行し、得られた認識語彙およびそのスコアを認識結果として制御手段4の認識結果判定処理部46に送る。認識結果判定処理部46は、音声認識手段3のマッチング処理部32から認識結果として送られてくる認識語彙およびそのスコアに基づき認識語彙を確定し、画面切替処理部45に送る。画面切替処理部45は、認識結果判定処理部46から送られてくる認識語彙を出力情報制御手段5に送る。
次いで、認識結果の提示が行われる(ステップST11)。すなわち、画面切替処理部45から認識語彙を受け取った出力情報制御手段5の画面出力生成手段52は、この認識語彙に基づいて画面出力データを生成し、画面出力手段9に送る。これにより、モニタ13に、認識結果の文字が表示される。また、出力情報制御手段5の音声出力生成手段53は、画面切替処理部45からの認識語彙に基づいて、音声出力データを生成し、音声出力手段10に送る。これにより、スピーカ14から、認識結果が音声により出力される。
上記ステップST3において、認識開始ボタン15の押下でないことが判断された場合は、音声認識処理が既に開始されている状態であれば音声認識処理が終了され(ステップST13)、そのキーコードに応じた処理が実行される(ステップST14)。
上記のように構成される実施の形態1に係る音声認識装置では、ユーザは、住所検索を行いたい場合は、認識開始ボタン15を1度押下してからマイク12に向けて発話し、曲名を検索したい場合は、認識開始ボタン15を4度押下してからマイク12に向けて発話する。これにより、認識開始ボタン15の押下と一度の発話により、高い認識率で目的とする語彙を認識させることができる。
以上説明したように、この発明の実施の形態1に係る音声認識装置によれば、音声認識に使用する辞書を認識開始ボタン15の押下によって選択した後、認識処理を行わせるように構成したので、確実な認識辞書の選択による語彙の絞り込みが可能となり、高い認識率で目的とする語彙を認識できる。また、認識辞書の切り替えと同時に、切り替えられた認識辞書をモニタ13に表示するとともに音声で出力するようにしたので、認識可能な語彙をユーザに提示できる。また、音声認識に使用する認識辞書は、音声認識を開始させるための認識開始ボタン15を共用して、該認識開始ボタン15を押下した回数によって選択するように構成したので、音声認識装置を簡単且つ安価に構成できる。さらに、一音でない連続語に対しても、認識開始ボタン15の押下と、一度の連続語の発話により、高い認識率で目的とする語彙を認識させることができる。
実施の形態2.
この発明の実施の形態2に係る音声認識装置は、音声認識辞書1を、語彙の先頭の表音文字によって分類された複数の認識辞書によって構成したものである。
この実施の形態2に係る音声認識装置の構成は、音声認識辞書1の構成を除けば、図1に示した実施の形態1に係る音声認識装置のそれと同じである。音声認識辞書1は、50音表の行によって分類された10個の認識辞書#1〜#10から構成されている。認識辞書#1はア行(あ、い、う、え、お)で始まる語彙(例えば、江ノ島水族館)を含む「ア行辞書」、認識辞書#2はカ行(か、き、く、け、こ)で始まる語彙(例えば、葛西臨海公園)を含む「カ行辞書」、同様に、認識辞書#3は「サ行辞書」、認識辞書#4は「タ行辞書」、認識辞書#5は「ナ行辞書」、認識辞書#6は「ハ行辞書」、認識辞書#7は「マ行辞書」、認識辞書#8は「ヤ行辞書」、認識辞書#9は「ラ行辞書」および認識辞書#10は「ワ行辞書」から構成できる。
上記のように構成される実施の形態2に係る音声認識装置の動作は、認識開始ボタン15の押下によって音声認識辞書1を構成する10個の認識辞書#1〜#10が順次切り替えられる点を除けば、上述した実施の形態1に係る音声認識装置の動作と同じである。
以上説明したように、この発明の実施の形態2に係る音声認識装置によれば、認識開始ボタン15が押下されるたびに、認識辞書が順に切り替えられ、また同時に、モニタ13の画面およびスピーカ14には、選択された認識辞書に応じた内容(例えば、「あいうえおで始まる語彙を発話できます」等)が出力される。従って、ユーザは、発話したい語彙が含まれる認識辞書に切り替えてから発話する。例えば、「葛西臨海公園」を発話したい場合には、カ行の辞書であるので、認識開始ボタン15を2度押下してから発話する。これにより、認識開始ボタン15の押下と一度の発話により、高い認識率で目的とする語彙を認識させることができる。
なお、この実施の形態2では、音声認識辞書1を、50音表の行によって分類された10個の認識辞書#1〜#10から構成しているが、50音表の列(アカサタナハマヤラワ等)によって分類された5個の認識辞書#1〜#5、各表音文字単位で分類された50個の認識辞書#1〜#50、または任意の表音文字をグループ化した複数の認識辞書から構成することもできる。
実施の形態3.
この発明の実施の形態3に係る音声認識装置は、特定の認識辞書を常に認識対象辞書に設定できるようにしたものである。特定の認識辞書としては、例えば優先度の高い語彙を含む認識辞書を割り当てることができる。
この実施の形態3に係る音声認識装置の構成は、認識辞書管理手段2に保持されている管理テーブル21の記憶内容を除けば、図1に示した実施の形態1に係る音声認識装置の構成と同じである。
図7は、認識辞書管理手段2に保持されている管理テーブル21の構成を示す図である。この管理テーブル21は、辞書番号(#1〜#4)、辞書名(住所、施設名、電話番号、曲名)および状態(無効、有効または常時有効)を記憶している。そして、実施の形態1に係る管理テーブル21と同様に、制御手段4から送られてくる辞書切替要求に応じて、認識対象とする1つの認識辞書が選択され、その選択された認識辞書の状態が「有効」に設定されるとともに、他の認識辞書は「無効」に設定される。ただし、「常時有効」に設定されている認識辞書は、認識開始ボタン15の通常の押下によって発生される辞書切替要求によっては変更されない。
所望の認識辞書を「常時有効」に設定する場合は、その認識辞書に対応する画面が表示されている状態で認識開始ボタン15の長時間押しが行われる。例えば、曲名辞書を常時有効にするためには、図6(d)に示す画面がモニタ13に出力されている状態で、認識開始ボタン15を長時間押しする。これにより、曲名辞書が「常時有効」に設定されて常に認識対象辞書とされる。従って、曲名辞書を常に認識対象辞書としながら、認識辞書を切り替えることができるので、例えば曲名辞書と施設名辞書といった複数の認識辞書を同時に認識対象辞書とすることができる。認識辞書管理手段2は、音声認識が行われる際に、有効および常時有効に設定された認識辞書の内容を音声認識手段3に送る。
次に、この発明の実施の形態3に係る音声認識装置の動作を、図8に示すフローチャートを参照しながら説明する。この図8に示したフローチャートは、図5に示した実施の形態1のフローチャートにステップST21およびST22が追加されて構成されている。以下では、図5に示したフローチャートと相違する部分についてのみ説明する。
ステップST3で認識開始ボタン15のキーイベントであることが判断されると、次いで、認識開始ボタン15の長時間押しがなされているかどうかが調べられる(ステップST21)。具体的には、切替回数カウント処理部41は、手動入力手段6からキー押下のキーイベントを受け取ってからキーリリースのキーイベントを受け取るまでの時間を計測し、この時間が所定値以上である場合に長時間押しがなされたと判断する。このステップST21で、認識開始ボタン15の長時間押しであることが判断されると、辞書を「常時有効」に設定する処理が行われる(ステップST22)。すなわち、切替回数カウント処理部41は、その時点で選択されている画面に対応する認識辞書の辞書番号を辞書切替処理部43に送る。辞書切替処理部43は、この辞書番号に応じて常時有効設定要求を発生し、認識辞書管理手段2に送る。認識辞書管理手段2は、この常時有効設定要求に応じて該当する認識辞書の状態を「常時有効」に設定する。ステップST21で、認識開始ボタン15の長時間押しでないことが判断されると、シーケンスはステップST4に進み、図5に示すフローチャートを参照して既に説明した処理が実行される。
以上説明したように、この発明の実施の形態3に係る音声認識装置によれば、例えば優先度の高い語彙を含む認識辞書を認識開始ボタン15の長時間押しによって「常時有効」に設定するとともに、他の認識辞書は認識開始ボタン15の押下により切り替えることができるので、認識対象とする語彙の範囲を広げることができる。また、音声認識を開始させるための認識開始ボタン15を共用して、該認識開始ボタン15を長時間押下することによって選択するように構成したので、音声認識装置を簡単且つ安価に構成できる。
なお、常時有効に設定された認識辞書を無効状態に戻すのは、例えば、その認識辞書に対応する画面がモニタ13に出力されている状態で、再度、認識開始ボタン15を長時間押して行うように構成できる。
実施の形態4.
この発明の実施の形態4に係る音声認識装置は、実施の形態2に係る音声認識装置において、修飾語句を付けた語彙を発話させて音声認識し、この認識結果から語彙を絞り込むようにしたものである。
上述したように、認識辞書管理手段2に保持されている管理テーブル21に記憶されている複数の認識辞書の名称はモニタ13上に表示される。従って、ユーザは、音声認識装置が保持している認識辞書の分類を把握できるので、辞書名を修飾語句として付加した認識語彙の発話、つまり、辞書名と認識語彙との発話を行う。例えば、「カ行の葛西臨海公園」という発話語彙をする。
この実施の形態4に係る音声認識装置の構成は、図9に示すように、制御手段4の認識結果判定処理部46から認識辞書管理手段2に辞書選択指令が送られる点が実施の形態2に係る音声認識装置の構成と異なる。また、認識辞書管理手段2の機能および認識結果判定処理部46の機能が、実施の形態2に係る音声認識装置のそれらと異なる。以下では、実施の形態2に係る音声認識装置と異なる点についてのみ説明する。
この実施の形態4に係る音声認識装置の認識結果判定処理部46および認識辞書管理手段2は、実施の形態2に係る音声認識装置のそれらに以下の機能が追加されることにより構成されている。すなわち、認識結果判定処理部46は、音声認識手段3のマッチング処理部32から送られてくる認識結果が、「ア行」、「カ行」、・・・という語彙である場合は、各語彙に対応する認識辞書を選択すべく旨の辞書選択指令を認識辞書管理手段2に通知する。認識辞書管理手段2は、認識結果判定処理部46から送られてくる辞書選択指令に応じて認識対象とする1つの認識辞書を選択し、その選択した認識辞書の状態を有効に設定するとともに他の認識辞書を無効に設定する。
次に、この発明の実施の形態4に係る音声認識装置の動作を説明する。今、「カ行の葛西臨海公園」と発話されたとすると、音声認識手段3は、まず、「カ行」という語彙を認識し、その旨を認識結果判定処理部46に通知する。認識結果判定処理部46は、「カ行」という語彙を認識した旨の通知を受けると、「カ行」の辞書を選択すべき旨の辞書選択指令を認識辞書管理手段2に送る。認識辞書管理手段2は、この辞書選択指令を受けて、「カ行」の認識辞書を選択する。これにより、次の音声認識では、「カ行」の認識辞書が使用される。
次に、音声認識手段3は、「葛西臨海公園」という語彙を認識し、その認識語彙とスコアを認識結果判定処理部46に通知する。認識結果判定処理部46は、音声認識手段3から認識結果として送られてくる認識語彙およびそのスコアに基づき認識語彙を確定し、画面切替処理部45に送る。画面切替処理部45は、認識結果判定処理部46から送られてくる認識語彙を出力情報制御手段5に送る。これにより、モニタ13に、認識結果の「葛西臨海公園」という文字が表示され、また、スピーカ14から、認識結果の「葛西臨海公園」という音声が出力される。
以上説明したように、この発明の実施の形態4に係る音声認識装置によれば、ユーザの一度の発話により、辞書を絞り込んで認識処理が実行されるので、高い認識結果を得ることができる。
実施の形態5.
この発明の実施の形態5に係る音声認識装置は、実施の形態2に係る音声認識装置において、音声認識手段3が認識結果を唯一に特定できなかった場合に、ユーザに語彙を絞り込むための言葉を付加した発話を促すようにしたものである。
この実施の形態5に係る音声認識装置の構成は、認識結果判定処理部46の機能を除き、実施の形態4に係る音声認識装置の構成と同じである。以下では、実施の形態4に係る音声認識装置と異なる点についてのみ説明する。
すなわち、認識結果判定処理部46は、音声認識手段3のマッチング処理部32から認識結果として送られてくる認識語彙およびそのスコアが所定の条件を満たしていない場合、例えば、スコアが所定値より小さい複数の認識語彙が得られた場合に、再発話を促すメッセージを生成して画面切替処理部45に送る。画面切替処理部45は、認識結果判定処理部46から送られてくるメッセージを出力情報制御手段5に送る。これにより、モニタ13に、再発話を促す文字が表示され、また、スピーカ14から、再発話を促す音声が出力される。例えば、ユーザが「赤坂」と発話し、音声認識手段3から認識結果として「赤坂」と「高坂」の2通りの結果が得られた場合に、「あいうえおの赤坂ですか、たちつてとの高坂ですか?」というメッセージをモニタ13に表示するとともにスピーカから音声で出力する。
これに応答して、ユーザが例えば「あいうえおの赤坂」と再発話を行った場合は、音声認識手段3は、まず、「あいうえおの赤坂」という語彙を認識し、その旨を認識結果判定処理部46に通知する。認識結果判定処理部46は、「あいうえおの赤坂」という語彙を認識した旨の通知を受けると、「ア行」の辞書を選択すべき旨の辞書選択指令を認識辞書管理手段2に送る。認識辞書管理手段2は、この辞書選択指令を受けて、「カ行」の認識辞書を選択する。これにより、「ア行」の認識辞書が使用される状態に設定される。次いで、音声認識手段3は、「ア行」の認識辞書を使用して再度認識処理を実行する。これにより、「赤坂」という語彙が最終的な認識結果として得られる。
以上説明したように、この発明の実施の形態5に係る音声認識装置によれば、再発話を促すメッセージに応答して選択された認識辞書を用いた認識結果を取得するように構成したので、認識結果を絞り込むことが可能となり、認識率を向上させることができる。
この発明の実施の形態1に係る音声認識装置の構成を示すブロック図である。 この発明の実施の形態1に係る音声認識装置で使用される管理テーブルの記憶内容を示す図である。 この発明の実施の形態1に係る音声認識装置で使用される出力情報テーブルの記憶内容を示す図である。 この発明の実施の形態1に係る音声認識装置で使用される切替対応テーブルの記憶内容を示す図である。 この発明の実施の形態1に係る音声認識装置の動作を説明するためのフローチャートである。 この発明の実施の形態1に係る音声認識装置で出力される画面表示および音声出力の例を説明するための図である。 この発明の実施の形態3に係る音声認識装置で使用される管理テーブルの記憶内容を示す図である。 この発明の実施の形態3に係る音声認識装置の動作を説明するためのフローチャートである。 この発明の実施の形態4に係る音声認識装置の構成を示すブロック図である。
符号の説明
1 音声認識辞書、2 認識辞書管理手段、3 音声認識手段、4 制御手段、5 出力情報制御手段、6 手動入力手段、7 キーコード判別手段、8 音声入力手段、9 画面出力手段(出力手段)、10 音声出力手段(出力手段)、11 リモコン、12 マイク、13 モニタ(出力手段)、14 スピーカ(出力手段)、15 認識開始ボタン、21 管理テーブル、31 音声分析処理部、32 マッチング処理部、41 切替回数カウント処理部、42 切り替え対応テーブル、43 辞書切替処理部、44 認識エンジン制御処理部、45 画面切替処理部、46 認識結果判定処理部、51 出力情報テーブル、52 画面出力生成手段、53 音声出力生成手段。

Claims (7)

  1. 音声を認識するための複数の認識辞書と、
    音声認識を開始させる認識開始ボタンと、
    前記認識開始ボタンが操作された回数に応じて前記複数の認識辞書の1つを有効に設定する制御手段と、
    前記制御手段により有効に設定された認識辞書を用いて音声認識を行う音声認識手段
    とを備えた音声認識装置。
  2. 複数の認識辞書は、語彙の種類によって分類された、住所に使用される語彙を含む住所辞書、施設名に使用される語彙を含む施設名辞書、電話番号に使用される語彙を含む電話番号辞書および楽曲の名称に使用される語彙を含む曲名辞書を含むことを特徴とする請求項1記載の音声認識装置。
  3. 複数の認識辞書は、語彙の先頭の表音文字によって分類されていることを特徴とする請求項1記載の音声認識装置。
  4. 複数の認識辞書は、50音表の行によって分類された「ア行辞書」、「カ行辞書」、「サ行辞書」、「タ行辞書」、「ナ行辞書」、「ハ行辞書」、「マ行辞書」、「ヤ行辞書」、「ラ行辞書」および「ワ行辞書」を含むことを特徴とする請求項3記載の音声認識装置。
  5. 制御手段は、1つの認識辞書が選択された状態で認識開始ボタンが所定時間以上押下され続けたときに、該選択された認識辞書を常時有効に設定し、
    音声認識手段は、有効および常時有効に設定された認識辞書を用いて音声認識を行うことを特徴とする請求項1記載の音声認識装置。
  6. 複数の認識辞書の分類を表す情報を出力する出力手段を備え、
    制御手段は、前記出力手段に出力された前記分類を表す情報の発話に応じて複数の認識辞書の1つを有効に設定することを特徴とする請求項1記載の音声認識装置。
  7. メッセージを表す情報を出力する出力手段を備え、
    制御手段は、音声認識手段による音声認識によって複数の認識語彙が得られた場合に、前記出力手段に語彙を絞り込むための発話を促すメッセージを出力し、該メッセージに応答してなされた発話に応じて複数の認識辞書の1つを有効に設定し、
    音声認識手段は、前記制御手段により有効に設定された認識辞書を用いて再度音声認識を行うことを特徴とする請求項1記載の音声認識装置。
JP2004351488A 2004-12-03 2004-12-03 音声認識装置 Expired - Fee Related JP4498906B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004351488A JP4498906B2 (ja) 2004-12-03 2004-12-03 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004351488A JP4498906B2 (ja) 2004-12-03 2004-12-03 音声認識装置

Publications (2)

Publication Number Publication Date
JP2006162782A true JP2006162782A (ja) 2006-06-22
JP4498906B2 JP4498906B2 (ja) 2010-07-07

Family

ID=36664903

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004351488A Expired - Fee Related JP4498906B2 (ja) 2004-12-03 2004-12-03 音声認識装置

Country Status (1)

Country Link
JP (1) JP4498906B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008176221A (ja) * 2007-01-22 2008-07-31 Denso Corp 車載音声認識システム
JP2010128144A (ja) * 2008-11-27 2010-06-10 Toyota Central R&D Labs Inc 音声認識装置及びプログラム
JP2010139826A (ja) * 2008-12-12 2010-06-24 Toyota Motor Corp 音声認識システム
JP2011059676A (ja) * 2009-09-10 2011-03-24 Mitsubishi Electric Research Laboratories Inc 発話入力に基づいて複数の機能を有効にするためのシステム及び方法
JP2011059659A (ja) * 2009-09-10 2011-03-24 Mitsubishi Electric Research Laboratories Inc 第1の機能及び第2の機能を含む複数の機能を有効にするためのシステムおよび方法
JP2013512476A (ja) * 2009-12-01 2013-04-11 本田技研工業株式会社 複数の辞書を用いたスピーチ認識

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1195788A (ja) * 1997-09-16 1999-04-09 Ricoh Co Ltd 音楽再生装置
JP2002073075A (ja) * 2000-09-05 2002-03-12 Pioneer Electronic Corp 音声認識装置ならびにその方法
JP2003295891A (ja) * 2002-02-04 2003-10-15 Matsushita Electric Ind Co Ltd インタフェース装置、動作制御方法、画面表示方法
JP2004037813A (ja) * 2002-07-03 2004-02-05 Auto Network Gijutsu Kenkyusho:Kk 車載用音声認識装置およびそれを用いた音声認識システム
JP2004219728A (ja) * 2003-01-15 2004-08-05 Matsushita Electric Ind Co Ltd 音声認識装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1195788A (ja) * 1997-09-16 1999-04-09 Ricoh Co Ltd 音楽再生装置
JP2002073075A (ja) * 2000-09-05 2002-03-12 Pioneer Electronic Corp 音声認識装置ならびにその方法
JP2003295891A (ja) * 2002-02-04 2003-10-15 Matsushita Electric Ind Co Ltd インタフェース装置、動作制御方法、画面表示方法
JP2004037813A (ja) * 2002-07-03 2004-02-05 Auto Network Gijutsu Kenkyusho:Kk 車載用音声認識装置およびそれを用いた音声認識システム
JP2004219728A (ja) * 2003-01-15 2004-08-05 Matsushita Electric Ind Co Ltd 音声認識装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008176221A (ja) * 2007-01-22 2008-07-31 Denso Corp 車載音声認識システム
JP2010128144A (ja) * 2008-11-27 2010-06-10 Toyota Central R&D Labs Inc 音声認識装置及びプログラム
JP2010139826A (ja) * 2008-12-12 2010-06-24 Toyota Motor Corp 音声認識システム
JP2011059676A (ja) * 2009-09-10 2011-03-24 Mitsubishi Electric Research Laboratories Inc 発話入力に基づいて複数の機能を有効にするためのシステム及び方法
JP2011059659A (ja) * 2009-09-10 2011-03-24 Mitsubishi Electric Research Laboratories Inc 第1の機能及び第2の機能を含む複数の機能を有効にするためのシステムおよび方法
JP2013512476A (ja) * 2009-12-01 2013-04-11 本田技研工業株式会社 複数の辞書を用いたスピーチ認識

Also Published As

Publication number Publication date
JP4498906B2 (ja) 2010-07-07

Similar Documents

Publication Publication Date Title
US11887590B2 (en) Voice enablement and disablement of speech processing functionality
JP6570651B2 (ja) 音声対話装置および音声対話方法
KR102100389B1 (ko) 개인화된 엔티티 발음 학습
JP3662780B2 (ja) 自然言語を用いた対話システム
JP3968133B2 (ja) 音声認識対話処理方法および音声認識対話装置
JP5706384B2 (ja) 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム
JP2011504624A (ja) 自動同時通訳システム
JP2004029270A (ja) 音声制御装置
JP5189858B2 (ja) 音声認識装置
JP2006189730A (ja) 音声対話方法および音声対話装置
JP4498906B2 (ja) 音声認識装置
US20010056345A1 (en) Method and system for speech recognition of the alphabet
JP2012003090A (ja) 音声認識装置および音声認識方法
JP2018045675A (ja) 情報提示方法、情報提示プログラム及び情報提示システム
JP2007127896A (ja) 音声認識装置及び音声認識方法
JP2007286376A (ja) 音声案内システム
US10854196B1 (en) Functional prerequisites and acknowledgments
JP4498902B2 (ja) 音声認識装置
JP2015143866A (ja) 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム
JP2010230852A (ja) コマンド認識装置
WO2015102039A1 (ja) 音声認識装置
JP2000242295A (ja) 音声認識装置および音声対話装置
JPH06110495A (ja) 音声認識装置
JP2008083165A (ja) 音声認識処理プログラム及び音声認識処理方法
JP2005148764A (ja) 音声認識対話処理方法および音声認識対話装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070116

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20071012

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080718

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100106

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100406

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100414

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130423

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4498906

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130423

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140423

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees