JP2006154476A

JP2006154476A - 音声認識装置

Info

Publication number: JP2006154476A
Application number: JP2004346788A
Authority: JP
Inventors: Yuki Sumiyoshi; 悠希住吉; Reiko Okada; 玲子岡田
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2004-11-30
Filing date: 2004-11-30
Publication date: 2006-06-15
Anticipated expiration: 2024-11-30
Also published as: JP4498902B2

Abstract

【課題】機器の音声操作に好適な音声コマンドをユーザに提示できる操作性に優れた音声認識装置を提供する。
【解決手段】音声を入力する音声入力手段７と、入力された音声を音声コマンドとして認識する音声認識手段１６と、手動操作により入力を行う手動入力手段６と、手動操作により生じた状態が所期の目的が達成された目的達成状態であるかどうかを記憶した状態管理テーブル１０と、手動操作により生じた状態と音声コマンドとの対応関係を記憶した音声コマンド対応表と、手動操作により順次生じた状態を状態管理テーブルの内容と照合して目的達成状態になったことを判断した時に、手動操作により生じた目的達成状態に対応する音声コマンドが音声コマンド対応表に存在すれば、該音声コマンドによって手動操作に対応する機能を実現できる旨を表すメッセージを生成する制御手段８と、生成されたメッセージを出力する出力手段１４、５、１５、４とを備えている。
【選択図】図１

Description

この発明は、例えばナビゲーションシステムを音声で操作するために使用される音声認識装置に関し、特にその操作性を向上させる技術に関する。

従来、ユーザが発話した音声を認識して認識結果を出力する音声認識装置が知られている。このような音声認識装置として、例えば、特許文献１は、音声によるコマンド入力の利用促進を図るためのコマンド受付装置を開示している。このコマンド受付装置は、タッチパネルやリモコン等による手動操作と音声操作の両方を受け付けることができ、音声入力可能なコマンドがスイッチ装置等を介して手動入力された場合には、音声認識機能を用いてもそれらのコマンドを認識できるため、音声によるコマンド入力ができる旨を、例えば表示装置の表示画面上に適応画面とコマンドを表示してユーザに案内（教示）する。例えば、手動入力操作でメニュー画面を表示させた場合であれば、『音声入力で操作できます。“地図画面”で「メニュー画面」とお話し下さい。』と表示する。音声ガイドであれば、スピーカから同じ内容を発声して案内する。このような案内があれば、次回からは、相対的に操作が面倒であると考えられる手動入力等の入力方法に代えて音声入力による簡便なコマンド入力方法をユーザが採用することが期待される。

また、特許文献２は、キー入力操作または音声入力によって自動車等の現在位置を地図と共に通知装置に通知できる走行位置表示装置を開示している。この走行位置表示装置は、音声認識手段の変換結果をキー入力手段から入力されたキーイベントと関連付けて音声コマンドとして登録する音声コマンド登録手段を備えている。これにより、ユーザの指定した任意のキー操作列を１つの音声コマンドに登録することにより、認識できる音声を拡張することができる。

特開２００３−１１４６９８号公報特開２００１−１１７５８６号公報

しかしながら、上述した従来の音声認識装置では、手動操作に対応する音声コマンドが存在するか否かのみを判断し、手動操作で入力したコマンドが音声によっても入力可能な場合には、音声コマンドをユーザに提示するので、目的を達成するまでに複数ステップの手動操作による入力が必要となる場合に、目的を達成するまでの途中段階の各ステップで音声コマンドが提示される。その結果、ユーザが目的を達成するまでの一連の音声操作方法を理解できないという問題がある。

また、従来の音声認識装置では、手動操作に対応する音声コマンドが存在するか否かのみを判断して、ユーザに音声コマンドを提示するため、音声対話機能を有することにより音声コマンドを覚える必要がない場合であっても音声コマンドが提示される。その結果、ユーザは不要な音声コマンドを覚えてしまうという問題がある。

さらに、従来の音声認識装置では、常に全ての音声認識辞書が有効状態に設定されるため、ユーザが覚えているか、または曖昧に覚えていて試しに発話した音声コマンドを誤認識するという問題、および発話した音声コマンドが本当に存在するか否か判断できないという問題がある。

この発明は、上述した諸問題を解消するためになされたものであり、その課題は、機器の音声操作に好適な音声コマンドをユーザに提示できる操作性に優れた音声認識装置を提供することにある。

この発明に係る音声認識装置は、音声を入力する音声入力手段と、音声入力手段から入力された音声を音声コマンドとして認識する音声認識手段と、手動操作により入力を行う手動入力手段と、手動入力手段の手動操作により生じた状態が所期の目的が達成された目的達成状態であるかどうかを記憶した状態管理テーブルと、手動入力手段の手動操作により生じた状態と音声入力手段から入力される音声コマンドとの対応関係を記憶した音声コマンド対応表と、手動入力手段の手動操作により順次生じた状態を状態管理テーブルの内容と照合して目的達成状態になったことを判断した時に、手動入力手段の手動操作により生じた目的達成状態に対応する音声コマンドが音声コマンド対応表に存在すれば、該音声コマンドによって手動入力手段の手動操作に対応する機能を実現できる旨を表すメッセージを生成する制御手段と、制御手段で生成されたメッセージを出力する出力手段とを備えている。

この発明によれば、手動操作と音声コマンドによる音声操作との両方が可能であり、所期の目的を達成するために複数回の手動操作を行った場合に、手動入力手段の手動操作により順次生じた状態が目的達成状態になった時に、その目的達成状態に対応する音声コマンドが存在すれば、該音声コマンドによって手動入力手段の手動操作に対応する機能を実現できる旨を表すメッセージを生成して出力する。従って、目的達成状態に至る途中段階では、手動操作に対応する音声コマンドが存在しても出力されないので、ユーザは目的達成のために最適な音声コマンドを理解することができ、目的達成までの一連の音声操作方法の理解が容易になる。その結果、機器の音声操作に好適な音声コマンドをユーザに提示できる操作性に優れた音声認識装置を提供できる。

以下、この発明の実施の形態を、図面を参照しながら詳細に説明する。
実施の形態１．
この発明の実施の形態１に係る音声認識装置は、手動入力の途中段階では音声コマンドを提示せず、目的達成状態に至ったときにユーザに音声コマンドを提示するようにしたものである。

図１は、この発明の実施の形態１に係る音声認識装置の構成を示すブロック図である。この音声認識装置は、音声認識処理装置１、リモートコントローラ（以下、「リモコン」と略する）２、マイクロフォン（以下、「マイク」と略する）３、モニタ４およびスピーカ５から構成されている。

リモコン２は、音声認識装置を手動によって操作するために使用される。このリモコン２は、キー（図示は省略する）の操作に応じて該キーに対応するキーコードを生成し、例えば赤外線により音声認識処理装置１に送る。なお、手動操作に使用する機器としては、リモコン２の代わりに、タッチパネル、押釦スイッチといった他の入力手段を用いることもできる。マイク３は、音声認識装置を音声によって操作するために使用される。このマイク３は、ユーザによって発話された音声を電気信号に変換し、アナログの音声信号として音声認識処理装置１に送る。

モニタ４は、音声認識処理装置１から送られてくるアナログの映像信号に応じて画像やテロップを、その画面に表示する。モニタ４は、例えば液晶ディスプレイ装置やＣＲＴ装置から構成することができる。スピーカ５は、音声認識処理装置１から送られてくるアナログの音声信号に応じて音声を出力する。

音声認識処理装置１は、キー入力手段６、音声入力手段７、制御手段８、操作履歴保存手段９、状態管理テーブル１０、音声コマンド対応表１１、音声ガイド生成手段１２、画面テロップ生成手段１３、音声出力手段１４、画面出力手段１５、音声認識手段１６、音声認識辞書１７および認識辞書管理手段１８から構成されている。この発明の手動入力手段は、キー入力手段６に対応する。また、この発明の出力手段は、音声出力手段１４および画面出力手段１５に対応する。

キー入力手段６は、リモコン２から赤外線によって送られてくるキーコードを受信してデジタルの電気信号に変換する。このキー入力手段６でデジタルの電気信号に変換されたキーコードは制御手段８に送られる。音声入力手段７は、例えばＡ／Ｄ変換器から構成されており、人が発話することによってマイク３で生成されたアナログの音声信号を入力し、音声認識手段１６で取り扱い可能なデジタルの音声データに変換する。この音声入力手段７における変換によって得られた音声データは、音声認識手段１６に送られる。

制御手段８は、キー入力手段６、操作履歴保存手段９、状態管理テーブル１０、音声コマンド対応表１１、音声ガイド生成手段１２、画面テロップ生成手段１３、音声認識手段１６および認識辞書管理手段１８との間でデータを送受することにより音声認識処理装置１の全体を制御する。この制御手段８の詳細は後述する。

操作履歴保存手段９は、ユーザの手動操作によってリモコン２から送られてくるキーの操作状態や、このキーの操作に応答して実行された処理によって変更された音声認識装置の状態の履歴を保存する。この操作履歴保存手段９は、制御手段８によってアクセスされる。

状態管理テーブル１０は、上述したリモコン２のキーの操作状態や音声認識装置の状態を管理するために使用される。図２は、状態管理テーブル１０に記憶される情報の例を示す。この状態管理テーブル１０は、音声認識装置の様々な状態（手動入力／状態）と、その状態が目的達成状態であるか否かを表す情報を記憶している。ここで、目的達成状態は、所望の情報を得るための一連の操作手順を完了した状態、例えば、目的地を設定した状態、周辺施設を選択した状態、場所または施設を表示した状態などとすることができる。図２に示す例では、目的達成状態として、目的地の設定完了により「“目的地を設定しました”テロップ表示」された状態または電話番号検索の終了により「電話番号検索の［検索］キー押下」がなされた状態が規定されている。この状態管理テーブル１０は、制御手段８によってアクセスされる。

音声コマンド対応表１１は、上述したリモコン２のキーの操作状態や音声認識装置の状態に対応する音声コマンドの一覧を記憶している。図３は、音声コマンド対応表１１に記憶される情報の例を示す。音声コマンド対応表１１は、音声認識装置の様々な状態（手動入力／状態）と、その状態を実現させるための音声コマンドが存在する場合には、その状態に対応する音声コマンドを記憶している。この音声コマンド対応表は制御手段８によって参照される。

音声ガイド生成手段１２は、制御手段８からの指示に応じて、スピーカ５を介して音声でユーザに提示するための音声出力データを生成する。この音声ガイド生成手段１２で生成された音声出力データは、音声出力手段１４に送られる。画面テロップ生成手段１３は、制御手段８からの指示に応じて、モニタ４を介してテロップでユーザに提示するための画面出力データを生成する。この画面テロップ生成手段１３で生成された画面出力データは、画面出力手段１５に送られる。

音声出力手段１４は、例えばＤ／Ａ変換器から構成されており、音声ガイド生成手段１２から送られてくる音声出力データをアナログの音声信号に変換し、スピーカ５に送る。これにより、スピーカ５から音声出力データに応じたメッセージ、つまり音声ガイドが出力される。画面出力手段１５は、例えばＤ／Ａ変換器から構成されており、画面テロップ生成手段１３から送られてくる画面出力データをアナログの映像信号に変換し、モニタ４に送る。これにより、モニタ４に画面出力データに応じたメッセージ、つまり画面テロップを含む画像が表示される。

音声認識手段１６は、音声認識辞書１７を参照して音声認識処理を行う。この音声認識手段１６は、音声入力手段７から送られてくる音声データを分析し、この分析結果と音声認識辞書１７から認識辞書管理手段１８を介して取得した語彙とを比較するマッチング処理を行う。このマッチング処理によって得られた認識結果は、制御手段８に送られる。音声認識辞書１７は、語彙の種別によって分類された複数の認識辞書、例えば住所に使用される語彙（県名、市町村名など）を含む「住所辞書」、施設名に使用される語彙（東京タワー等）を含む「施設名辞書」、電話番号に使用される語彙（数字）を含む「電話番号辞書」などから構成されている。各認識辞書は、固有の辞書番号を有する。

認識辞書管理手段１８は、音声認識辞書１７を構成する複数の認識辞書を、辞書管理テーブル１９を用いて管理する。図４は、辞書管理テーブル１９に記憶される情報の例を示す。この辞書管理テーブル１９は、辞書情報として、「認識語彙情報」、「辞書番号」、「辞書状態」および「最終使用日時」を記憶している。認識語彙情報は、認識辞書に含まれる複数の語彙（音声コマンド）を含む。辞書番号は、各認識辞書に付される固有の番号である。辞書状態は、有効状態または無効状態のいずれかであり、有効状態であれば、その認識辞書に対応する音声コマンドを認識できるが、無効状態であれば認識不可能である。また、最終使用日時は、認識語彙（音声コマンド）を使用した年月日であり、当該認識辞書が参照される毎に更新される。

この認識辞書管理手段１８は、制御手段８から送られてくる辞書切替要求に応じて、辞書管理テーブル１９の辞書状態を変更して、認識対象とする１つの認識辞書を選択する。また、認識辞書管理手段１８は、音声認識が行われる際に、選択された認識辞書の内容を読み出して音声認識手段１６に送る。

次に、制御手段８の詳細を説明する。制御手段８は、状態管理部８１、状態確認部８２、音声コマンド取得部８３、タイマ部８４、認識辞書状態変更部８５、認識辞書無効化部８６および現時刻取得部８７から構成されている。

状態管理部８１は、キー入力手段６からキーコードが送られてきた場合に、そのキーコードに対応するように音声認識装置の状態を変更し、変更後の状態を操作履歴保存手段９に保存する。状態確認部８２は、操作履歴保存手段９から現状態を取得し、この現状態と状態管理テーブル１０に記憶されている情報とを比較し、目的達成状態であるか否かを判断する。そして、目的達成状態であれば音声コマンド取得部８３に対して現状態を送り、音声コマンドの取得を指示する。一方、目的達成状態でなければタイマ部８４に対して現状態を送り、時間の計測を開始させる。

音声コマンド取得部８３は、状態確認部８２またはタイマ部８４から現状態が送られてきた場合に、その現状態に対応する音声コマンドを、音声コマンド対応表１１から取得する。そして、音声コマンド対応表１１から取得した音声コマンドを音声ガイド生成手段１２および画面テロップ生成手段１３へ送る。また、音声コマンド取得部８３は、音声コマンド対応表１１から取得した音声コマンドを認識辞書状態変更部８５に送る。

タイマ部８４は、リモコン２からキー入力がない状態の継続時間を計測する。このタイマ部８４は、タイマ作動中でもキー入力手段６を監視する。そして、タイマ作動中にキー入力があれば計測を停止する。一方、タイマ作動中にキー入力がなければ、状態確認部８２から受け取った現状態を音声コマンド取得部８３に送る。

認識辞書状態変更部８５は、音声コマンド取得部８３から送られてくる音声コマンドを含む認識辞書を特定し、その特定された認識辞書に切り替えるように辞書切替要求を認識辞書管理手段１８に送る。認識辞書無効化部８６は、音声認識装置の起動後に、未使用辞書を無効状態に変更するための要求を、認識辞書管理手段１８に送る。現時刻取得部８７は、図示しない時計から現在の時刻（年月日）を取得し、認識辞書管理手段１８に送る。

次に、上記のように構成される、この発明の実施の形態１に係る音声認識装置の動作を説明する。なお、以下では、この音声認識装置がカーナビゲーションシステム（以下、「カーナビ」と略する）に適用された場合を例に挙げて説明する。

まず、カーナビの施設検索機能を用いて検索した○○公園を目的地として設定する場合の手動操作の手順を、図５を参照しながら説明する。この場合、図５に示すように、［メニュー］キー押下（ステップ１）→［目的地を設定する］を選択（ステップ２）→［名称から設定］を選択（ステップ３）→［○○公園］と入力（ステップ４）→［リスト］を選択（ステップ５）→名称を選択（ステップ６）→［実行］キー押下（ステップ７）、といった７回の手動入力が必要となる。

上記手動操作の手順では、例えばステップ１の「［メニュー］キー押下」に対応する音声コマンド「メニュー画面」が存在し、「メニュー画面」と発話すれば“［メニュー］キー押下”と同じ動作を実現できるが、目的を達成する途中段階の操作であるため音声コマンドは提示されない。この発明の実施の形態１に係る音声認識装置では、上記のような手動操作に対しては、ステップ７の「［実行］キー押下」によって目的地の設定を終了後に、例えば『音声では、「○○公園」→「目的地に設定」と発話して操作できます』のようなメッセージがユーザに提示される。

次に、上述した機能を実現するための音声認識装置の動作を、図６に示すフローチャートを参照しながら説明する。

電源投入により音声認識装置が起動されると、まず、キー入力があるかどうかが調べられる（ステップＳＴ１）。具体的には、制御手段８の状態管理部８１は、キー入力手段６からキーコードが送られてきたかどうかを調べる。このステップＳＴ１でキー入力がないことが判断されると、このステップＳＴ１を一定の周期で繰り返し実行しながら待機状態に入る。そして、このステップＳＴ１の繰り返し実行による待機状態で、キー入力があることが判断されると、手動入カコマンドＣ１が取得される（ステップＳＴ２）。

次いで、状態管理部８１から現在の状態が取得され、初期状態Ｑ１とされる（ステップＳＴ３）。次いで、ステップＳＴ３で取得された初期状態Ｑ１が操作履歴保存手段９に保存され（ステップＳＴ４）、受け付けた手動入カコマンドに対する処理が行われる（ステップＳＴ５）。例えば、手動入カコマンドがメニューキーの押下を表している場合は、それに対する処理としてメニュー画面を表示させる処理が行われる。このように、コマンドに対する処理によって状態が変化するため、次いで、状態管理テーブル１０から現在の状態が取得され、現状態Ｑ２とされる（ステップＳＴ６）。そして、手動入カコマンドＣ１と現状態Ｑ２とが操作履歴保存手段９に保存される（ステップＳＴ７）。

次いで、現状態Ｑ２が目的達成状態であるか否かが調べられる（ステップＳＴ８）。すなわち、状態確認部８２は、操作履歴保存手段９から現状態Ｑ２を取得し、状態管理テーブル１０に記憶されている情報（図２参照）を参照して、現状態Ｑ２が目的達成状態であるか否か（目的達成状態が○または×か）判断する。このステップＳＴ８で、目的達成状態でないことが判断されると、次の手動入力を待つために、シーケンスはステップＳＴ１に戻る。一方、ステップＳＴ８で、目的達成状態であることが判断されると、状態確認部８２は、現状態Ｑ２を音声コマンド取得部８３に渡し、音声コマンドを提示させる必要があるか否かを判断するためにステップＳＴ９に進む。

ステップＳＴ９においては、手動入力に対応する音声コマンドがあるかどうかが調べられる。具体的には、操作履歴保存手段９に保存されている手動操作に対応する音声コマンドが存在するか否かが、手動操作とそれに対応する音声コマンドの一覧が記載されている音声コマンド対応表１１（図３参照）を用いて判断される。このステップＳＴ９において、手動操作に対応する音声コマンドがないことが判断されると、シーケンスはステップＳＴ１３へ進む。

一方、ステップＳＴ９において、手動入力に対応する音声コマンドがあることが判断されると、その音声コマンドが音声コマンド対応表１１から取得される（ステップＳＴ１０）。すなわち、音声コマンド取得部８３は、現状態Ｑ２に対応する音声コマンドを音声コマンド対応表１１から取得する。次いで、音声ガイド生成手段１２で音声ガイドが生成され、画面テロップ生成手段１３で画面テロップが生成される（ステップＳＴ１１）。次いで、音声出力手段１４で生成された音声ガイドと画面出力手段１５で生成された画面テロップがスピーカ５およびモニタ４にそれぞれ送られ、ユーザに提示される（ステップＳＴ１２）。その後、操作履歴が初期化される（ステップＳＴ１３）。具体的には、初期状態Ｑ１、現状態Ｑ２、手動入カコマンドＣ１といった操作履歴が初期化される。

以上説明したように、この発明の実施の形態１に係る音声認識装置によれば、手動操作と音声コマンドによる音声操作との両方が可能であり、所期の目的を達成するために複数回の手動操作を行った場合に、リモコン２の手動操作により順次生じた状態が状態管理テーブル１０を参照することにより目的達成状態になったことが判断された時に、その目的達成状態に対応する音声コマンドが音声コマンド対応表１１に存在すれば、その音声コマンドによってリモコン２の手動操作に対応する機能を実現できる旨を表すメッセージ（音声ガイドと画面テロップ）を生成して出力する。従って、目的達成状態に至る途中段階では、手動操作に対応する音声コマンドが存在しても出力されないので、ユーザは目的達成のために最適な音声コマンドを理解することができ、目的達成までの一連の音声操作方法の理解が容易になる。その結果、機器の音声操作に好適な音声コマンドをユーザに提示できる操作性に優れた音声認識装置を提供できる。

実施の形態２．
この発明の実施の形態２に係る音声認識装置は、目的を達成するためにリモコン２を操作している途中で、一定時間以上操作されなかった場合に、目的達成状態に至ったものとみなしてユーザにメッセージを提示するようにしたものである。

この発明の実施の形態２に係る音声認識装置の構成は、上述した実施の形態１に係る音声認識装置の構成と同じである。

次に、この発明の実施の形態２に係る音声認識装置の動作を、図７に示すフローチャートを参照しながら説明する。なお、実施の形態１に係る音声認識装置と同一の処理が行われるステップには、図６のフローチャートで使用した符号と同一の符号を付して説明を省略する。

ステップＳＴ８で、目的達成状態であることが判断されると、上述したように、音声コマンドを提示させる必要があるか否かを判断するためにステップＳＴ９に進む。一方、ステップＳＴ８で、目的達成状態でないことが判断されると、まず、タイマ部８４が初期化される（ステップＳＴ１４）。具体的には、タイマ部８４のカウント値Ｔがゼロに設定される。次いで、タイマ部８４におけるカウントが開始される（ステップＳＴ１５）。すなわち、状態確認部８２は、タイマ部８４に現状態Ｑ２を渡してカウントを開始させる。

次いで、キー入力があるかどうかが調べられる（ステップＳＴ１６）。このステップＳＴ１６の処理は、ステップＳＴ１の処理と同じである。このステップＳＴ１６において、キー入力があることが判断されると、目的を達成するための次の操作がなされたことが認識され、シーケンスはステップＳＴ２に戻る。一方、ステップＳＴ１６において、キー入力がないことが判断されると、次いで、カウント値Ｔは５秒（ｓｅｃ）以上になったかどうかが調べられる（ステップＳＴ１７）。ここで、カウント値Ｔが５秒以上になっていないことが判断されると、シーケンスはステップＳＴ１６に戻り、上述した処理が繰り返される。そして、この繰り返し実行の途中で、ステップＳＴ１７において、カウント値Ｔが５秒以上になったことが判断されると、現状態をユーザの目的達成状態と認識し、シーケンスはステップＳＴ９に進む。

以上説明したように、この発明の実施の形態２に係る音声認識装置によれば、目的を達成するためにリモコン２を操作している途中で、一定時間以上操作されなかった場合に、その状態を目的達成状態として、その状態に至るまでの手動操作に対応する音声コマンドをユーザに提示するように構成したので、任意の状態に対しても、ユーザは手動操作に対応する音声コマンドを知ることができる。

実施の形態３．
この発明の実施の形態３に係る音声認識装置は、音声対話機能を有する場合は、必要な音声コマンドのみをユーザに提示するようにしたものである。

この発明の実施の形態３に係る音声認識装置の構成は、上述した実施の形態１に係る音声認識装置の構成と同じである。ただし、制御手段８は、音声対話機能を有するものとする。なお、音声対話機能を実現するための構成および動作は周知であるので、説明を省略する。

次に、この発明の実施の形態３に係る音声認識装置の動作を説明する。なお、以下では、この音声認識装置がカーナビに適用され、電話番号を検索する場合を例に挙げて説明する。この音声認識装置の動作は、図１のフローチャートを参照して説明した動作と同じである。

手動操作で電話番号を検索する場合は、図８に示すように、［メニュー］キー押下（ステップ１）→［場所・施設を探す］を選択（ステップ２）→［電話番号から設定］を選択（ステップ３）→［電話番号］を入力（ステップ４）→［検索］キー押下（ステップ５）という手順で進められる。そして、ステップ５で［検索］キーが押下されると、電話番号検索の［検索］キー押下は、図２に示すように、目的達成状態を表しており、その電話番号検索の［検索］キー押下に対応する音声コマンドは、図３に示すように、「電話番号検索」であるので、例えば、『音声では、「電話番号検索」と発話して操作できます』のようなメッセージがユーザに提示される。

従って、次回に音声操作で電話番号を検索する場合は、図９に示すように、「電話番号検索」と発話（ステップ１）→『電話番号をお話ください』というガイダンス（ステップ２）→電話番号発話（ステップ３）→『検索または修正とお話ください』というガイダンス（ステップ４）→「検索」と発話（ステップ５）という音声対話の手順で進めることができる。

このように、手動操作のステップ５に［検索］キー押下に対応する音声コマンド「検索」が存在するので、「検索」と発話すれば“［検索］キー押下”と同じ動作を実現できるが、この音声認識装置では、音声ガイダンス『検索または修正とお話ください』に従って入力すればよいので、発話すべき語彙（「検索」）や発話のタイミングを知らなくても電話番号検索を開始させることができる。

以上説明したように、この発明の実施の形態３に係る音声認識装置によれば、音声認識装置が音声認識機能を有する場合は、音声対話の開始に必要な音声コマンドのみがユーザに提示されるので、ユーザは不要な音声コマンドを覚える必要がない。

実施の形態４．
この発明の実施の形態４に係る音声認識装置は、ユーザに提示した音声コマンドに対応する認識辞書のみを有効状態にするようにしたものである。

この発明の実施の形態４に係る音声認識装置の構成は、上述した実施の形態１に係る音声認識装置の構成と同じである。

次に、この発明の実施の形態４に係る音声認識装置の動作を、図１０に示すフローチャートを参照しながら説明する。なお、実施の形態１に係る音声認識装置と同一の処理が行われるステップには、図６のフローチャートで使用した符号と同一の符号を付して説明を省略する。なお、初期状態では、音声認識辞書１７を構成する複数の認識辞書の全ては無効状態にされているものとする。

ステップＳＴ１２において、音声出力手段１４で生成された音声ガイドと画面出力手段１５で生成された画面テロップがスピーカ５およびモニタ４にそれぞれ送られ、ユーザに提示されると、次いで、提示した音声コマンドに対応する認識辞書が認識辞書管理手段１８から検出される（ステップＳＴ１８）。次いで、認識辞書の状態が取得される（ステップＳＴ１９）。次いで、ステップＳＴ１８で検出された認識辞書が無効状態であるか否かが調べられる（ステップＳＴ２０）。このステップＳＴ２０で、無効状態でない、つまり有効状態であると判断された場合は、シーケンスはステップＳＴ１３へ進む。

上記ステップＳＴ２０において、無効状態であると判断された場合は、ユーザに提示した音声コマンドを利用できるようにするために、その音声コマンドに対応する認識辞書の状態が無効状態から有効状態に変更される（ステップＳＴ２１）。そして、有効状態に変更した認識辞書の情報が初期化される（ステップＳＴ２２）。具体的には、辞書管理テーブル１９の最終使用日時が、認識辞書を有効状態にした日付、つまり現時刻取得部８７で取得された時刻（年月日）に変更される。その後、シーケンスはステップＳＴ１３に進む。

以上説明したように、この発明の実施の形態４に係る音声認識装置によれば、初期状態では、音声コマンドを認識するための認識辞書を全て無効状態としておき、ユーザに提示した音声コマンドに対応する認識辞書のみを有効状態にし、その後に利用できるようにしたので、無効状態の認識辞書は利用できず、ユーザは認識率が高い状態で音声コマンドを利用することができる。また、利用可能な音声入カコマンドがユーザに対して明確になるため、ユーザが発話した音声コマンドが認識されなかった場合に、発話した音声コマンドが存在しないのか、または誤認識されたのか判断できないという状況の発生を回避することができる。

実施の形態５．
この発明の実施の形態５に係る音声認識装置は、実施の形態４に係る音声認識装置において、有効状態にした認識辞書が一定期間使用されなかった場合、無効状態にするようにしたものである。

この発明の実施の形態５に係る音声認識装置の構成は、上述した実施の形態１に係る音声認識装置の構成と同じである。

次に、この発明の実施の形態５に係る音声認識装置の動作を、図１１に示すフローチャートを参照しながら説明する。なお、実施の形態４に係る音声認識装置と同一の処理が行われるステップには、図１０のフローチャートで使用した符号と同一の符号を付して説明を省略する。

電源投入により音声認識装置が起動されると、まず、長期間（例えば６月間）未使用の認識辞書が抽出される（ステップＳＴ２３）。すなわち、認識辞書管理手段１８の辞書管理テーブル１９から各認識辞書の辞書情報を取得され、この辞書情報に含まれる最終使用日時を参照することにより長期間使用されていない認識辞書が抽出される。次いで、抽出された認識辞書の状態が有効状態から無効状態へ変更される（ステップＳＴ２４）。すなわち、制御手段８の認識辞書無効化部８６は、認識辞書管理手段１８に対し、抽出された認識辞書を無効状態に変更すべき旨を指示する認識辞書状態変更要求を送る。これにより、有効状態にされた認識辞書が一定期間使用されなかった場合に無効状態にされて利用不可能にされる。その後、シーケンスはステップＳＴ１に進む。

以上説明したように、この発明の実施の形態５に係る音声認識装置によれば、有効状態にした認識辞書が一定期間使用されなかった場合は無効状態にされるので、ユーザが頻繁に利用する音声コマンドの認識率が高くなる。

この発明の実施の形態１に係る音声認識装置の構成を示すブロック図である。この発明の実施の形態１に係る音声認識装置で使用される状態管理テーブルの記憶内容を示す図である。この発明の実施の形態１に係る音声認識装置で使用される音声コマンド対応表の記憶内容を示す図である。この発明の実施の形態１に係る音声認識装置で使用される辞書管理テーブルの記憶内容を示す図である。この発明の実施の形態１に係る音声認識装置の手動操作の手順を説明するための図である。この発明の実施の形態１に係る音声認識装置の動作を説明するためのフローチャートである。この発明の実施の形態２に係る音声認識装置の動作を説明するためのフローチャートである。この発明の実施の形態３に係る音声認識装置の手動操作の手順を説明するための図である。この発明の実施の形態３に係る音声認識装置の音声操作の手順を説明するための図である。この発明の実施の形態４に係る音声認識装置の動作を説明するためのフローチャートである。この発明の実施の形態５に係る音声認識装置の動作を説明するためのフローチャートである。

符号の説明

１音声認識処理装置、２リモコン、３マイク、４モニタ、５スピーカ、６キー入力手段、７音声入力手段、８制御手段、９操作履歴保存手段、１０状態管理テーブル、１１音声コマンド対応表、１２音声ガイド生成手段、１３画面テロップ生成手段、１４音声出力手段、１５画面出力手段、１６音声認識手段、１７音声認識辞書、１８認識辞書管理手段、１９辞書管理テーブル、８１状態管理部、８２状態確認部、８３音声コマンド取得部、８４タイマ部、８５認識辞書状態変更部、８６認識辞書無効化部、８７現時刻取得部。

Claims

音声を入力する音声入力手段と、
前記音声入力手段から入力された音声を音声コマンドとして認識する音声認識手段と、
手動操作により入力を行う手動入力手段と、
前記手動入力手段の手動操作により生じた状態が所期の目的が達成された目的達成状態であるかどうかを記憶した状態管理テーブルと、
前記手動入力手段の手動操作により生じた状態と前記音声入力手段から入力される音声コマンドとの対応関係を記憶した音声コマンド対応表と、
前記手動入力手段の手動操作により順次生じた状態を前記状態管理テーブルの内容と照合して目的達成状態になったことを判断した時に、前記手動入力手段の手動操作により生じた目的達成状態に対応する音声コマンドが前記音声コマンド対応表に存在すれば、該音声コマンドによって前記手動入力手段の手動操作に対応する機能を実現できる旨を表すメッセージを生成する制御手段と、
前記制御手段で生成されたメッセージを出力する出力手段
とを備えた音声認識装置。
制御手段は、
手動入力手段が手動操作されない時間を計測するタイマ部を備え、
前記手動入力手段の手動操作により順次生じた状態を状態管理テーブルの内容と照合して目的達成状態になったことを判断する前に、前記タイマ手段によって手動入力手段が一定時間以上操作されなかったことが計測された時は、その時点までに前記手動入力手段の手動操作により生じた状態に対応する音声コマンドが前記音声コマンド対応表に存在すれば、該音声コマンドによって前記手動入力手段の手動操作に対応する機能を実現できる旨を表すメッセージを生成することを特徴とする請求項１記載の音声認識装置。
制御手段は、音声対話機能を有し、
手動入力手段の手動操作により順次生じた状態を前記状態管理テーブルの内容と照合して目的達成状態になったことを判断した時に、音声対話の開始のための所定の音声コマンドによって前記手動入力手段の手動操作に対応する機能を実現できる旨を表すメッセージを生成することを特徴とする請求項１記載の音声認識装置。
音声認識手段で音声を認識するために使用される複数の認識辞書と、
前記複数の認識辞書の各々を有効状態または無効状態に設定して管理する認識辞書管理手段とを備え、
制御手段は、初期状態で無効状態に設定されている前記複数の認識辞書のうち、生成したメッセージに含まれる音声コマンドに対応する認識辞書を有効状態に変更するように前記認識辞書管理手段に指示する認識辞書状態変更部を備えたことを特徴とする請求項１記載の音声認識装置。
制御手段は、有効状態に設定されている認識辞書が一定期間使用されなかった場合に該認識辞書を無効状態に変更するように前記認識辞書管理手段に指示する認識辞書無効化部を備えたことを特徴とする請求項４記載の音声認識装置。