JP2006078791A

JP2006078791A - 音声認識装置

Info

Publication number: JP2006078791A
Application number: JP2004262816A
Authority: JP
Inventors: Akihiro Oya; 章博大矢
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2004-09-09
Filing date: 2004-09-09
Publication date: 2006-03-23

Abstract

【課題】ユーザが、音声認識に利用する音声認識辞書がいずれかのものであるかを把握することができること。
【解決手段】音声認識に利用する音声認識辞書と一義的に対応するものであって、当該音声認識に利用する音声認識辞書を特定するためのキャラクターを表示部６０に表示する。また、音声認識に利用する音声認識辞書が選択された場合であっても、選択された音声認識に利用する音声認識辞書を特定するためのキャラクターが表示部６０に表示される。このようにすることにより、ユーザは、キャラクターから音声認識に利用する音声認識辞書を常に特定することができる。これにより、ユーザが、音声認識に利用する音声認識辞書がいずれかのものであるかを把握することができる。
【選択図】図１

Description

本発明は、音声認識装置に関する。

従来、認識率及び認識速度の性能を低下させずに、大語彙音声認識システムを低価格で実現する音声認識装置が提案されている（例えば、特許文献１参照。）。この特許文献１に開示されている音声認識装置によれば、例えば、認識すべき語彙を複数のグループに分けそれぞれを音声認識辞書として記憶する第１のメモリと、音声認識辞書切り換え情報にしたがって、音声認識に利用する音声認識辞書を切り換える音声認識切換部と、音声認識に利用する１つの音声認識辞書を記憶する第２のメモリと、音声認識処理を行なう音声認識部とを備え、必要に応じて音声認識辞書を切り換えて音声認識を行なう。

具体的には、例えば、当該装置は周知のナビゲーションシステムの入力装置として利用されており、音声認識辞書切り換え情報としては、自車両の現在位置が所定のエリア内に属したという情報が用いられる。例として、自車両の現在位置がＸ地点からＹ地点へ向かって走行しているとしたときには、自車両の現在位置がＸ地点を含む所定のエリアＥＸ内にある場合には、エリアＥＸ内で用いる音声認識辞書ＤＸを用い、自車両の現在位置がＹ地点を含む所定のエリアＥＹ内に入った場合には、エリアＥＹ内で音声認識に利用する音声認識辞書ＤＹに切り換える。
特開平１０−１４３１９１号公報

しかしながら、ユーザは、上述した所定のエリアを知らないため、いつ音声認識に利用する音声認識辞書が切り換えられたかを認識することができない。このため、ユーザは、現在、音声認識に利用する音声認識辞書がいずれかのものであるかを把握することができなかった。

本発明は、上述した点に鑑みてなされたもので、ユーザが、音声認識に利用する音声認識辞書がいずれかのものであるかを把握することが可能な音声認識装置を提供することを目的とする。

上記目的を達成するために、請求項１に記載の音声認識装置は、
認識語彙を複数のグループに分け、それぞれのグループに含まれる認識語彙を音声認識辞書として記憶する第１の記憶手段と、
複数の音声認識辞書から、音声認識に利用する音声認識辞書を選択する選択手段と、
選択手段によって選択された音声認識に利用する音声認識辞書に基づいて、ユーザが発話した音声を認識する音声認識手段とを備えた音声認識装置であって、
表示部と、
各音声認識辞書と一義的に対応しているものであって、音声認識に利用する音声認識辞書を特定するための表示データを記憶する第２の記憶手段と、
音声認識に利用する音声認識辞書と対応する記憶された表示データを、表示部に表示する表示制御手段とを備えることを特徴とする。

上述したように、請求項１に記載の音声認識装置は、音声認識に利用する音声認識辞書と一義的に対応するものであって、当該音声認識に利用する音声認識辞書を特定するための表示データを表示部に表示する。また、音声認識に利用する音声認識辞書が選択された場合であっても、選択された音声認識に利用する音声認識辞書を特定するための表示データが表示部に表示される。このようにすることにより、ユーザは、表示データから音声認識に利用する音声認識辞書を常に特定することができる。これにより、ユーザが、音声認識に利用する音声認識辞書がいずれかのものであるかを把握することができる。

請求項２に記載したように、表示データは、キャラクターデータ、テキストデータ、及びアイコンデータの少なくともいずれか１つであることが好ましい。このように、表示データとして、キャラクターデータ、テキストデータ、及びアイコンデータの少なくとも１つを使用することによって、ユーザはこの表示データから音声認識に利用する音声認識辞書を特定することが容易になる。また、表示データとしてキャラクターデータを使用する場合には、キャラクター非表示の音声認識装置に対して発話する場合と比べて、ユーザはキャラクターと対話をするような感覚になり、当該装置に対する発話の違和感を低減することができる。

請求項３に記載したように、表示制御手段による表示データの表示の有無が、ユーザによって変更可能に構成されていることもできる。これにより、ユーザは、表示データの表示の有無を設定することができる。

請求項４に記載したように、複数の音声認識辞書は、ローカルモード用音声認識辞書とローカルモード選択用音声認識辞書との２種類があり、ローカルモード選択用音声認識辞書は、複数のローカルモード用音声認識辞書を選択するための選択用認識語彙を有し、選択手段は、ユーザの発話した音声と選択用認識語彙とに基づいて、音声認識に利用するローカルモード用音声認識辞書を選択することが好ましい。これにより、ユーザは、所望する音声認識に利用するローカルモード用音声認識辞書を選択することができる。

以下、本発明の好ましい実施形態について図面を参照して説明する。図１は、本実施形態による音声認識装置１００の概略構成を示すブロック図である。以下、本実施形態による音声認識装置１００について詳細に説明する。

図１に示すように、音声認識装置１００は、音声認識部３０、及び出力制御部４０から構成されている。また、音声認識装置１００は、音声入力に用いられる音声入力部１０、トークスイッチ２０、スピーカ５０、表示部６０、及び制御対象機器７０が接続されている。

音声入力部１０、及びトークスイッチ２０は、音声入力に用いられる装置である。音声を入力する場合には、例えば、トークスイッチ２０の押しボタンを押すことで、入力トリガが後述する音声認識部３０に送信され、この音声認識部３０は、入力トリガを受信すると、音声入力部１０から音声入力を受け付けるモードに変更される。

この音声入力を受け付けるモードのとき、ユーザが、例えば「ＣＤを再生して」と発話すると、その音声が音声入力部１０によって音声信号に変換され、音声認識部３０に送られる。音声認識部３０は、この音声を認識して、音声に対応するメッセージを生成し、出力制御部４０に与える。例えば、入力された音声が「ＣＤを再生して」と認識されると、それに応答して「ＣＤを再生します」というメッセージが生成される。このメッセージは、出力制御部４０にて、音声信号に変換され、スピーカ５０から出力される。なお、このメッセージは、後述するメッセージコードからなるものである。

スピーカ５０は、車室内に設けられており、上述したメッセージを音声で出力するために使用するものである。表示部６０は、後述するローカルモード用認識辞書と一義的に対応するものであって、音声認識に利用するローカルモード用認識辞書を特定するためのキャラクターを表示するものである。制御対象機器７０は、音声認識部３０によって認識された発話内容に応じて、所定の制御が実行される機器である。なお、この制御対象機器７０は、車両に搭載され、ユーザによって操作可能な全ての機器が含まれる。

次に、音声認識装置１００の音声認識部３０について、図２を用いて説明する。図２は、音声認識部３０の構成を示すブロック図である。同図に示すように音声認識部３０は、ＡＤ変換回路３１、認識プログラム処理部３２、音響モデル記憶部３３、認識辞書記憶部３４、メッセージコード記憶部３５、コマンドコード記憶部３６、及び認識辞書コード記憶部３７によって構成される。

ＡＤ変換回路３１は、音声入力部１０を介して入力されるアナログの音声信号を受信し、この信号をデジタル化した信号に変換する。変換されたデジタル音声信号は、認識プログラム処理部３２に送信される。

認識プログラム処理部３２は、音響モデル記憶部３３、及び認識辞書記憶部３４を用いて、デジタル音声信号を認識語コードに変換するものである。まず、認識プログラム処理部３２は、音響モデル記憶部３３に記憶される、例えば、周知の隠れマルコフモデル等の手法を用いて、デジタル音声信号に対応する発話内容を解析する。

ここで、認識辞書記憶部３４について説明する。認識辞書記憶部３４は、例えば、制御対象機器を操作するためのコマンドに対応する認識語彙を、制御対象機器毎に複数のグループに分け、それぞれのグループに含まれる認識語彙を認識辞書として記憶している。この複数の認識辞書には、複数のローカルモード用認識辞書と１つのローカルモード選択用認識辞書の２種類がある。ローカルモード用認識辞書は、所定の制御対象機器７０に、所定の制御をさせるための認識語彙が記憶されているものである。具体的には、例えば、ＣＤプレーヤーに所定の制御をさせるための認識語彙は、ＣＤを再生させるための「ＣＤを再生して」、ＣＤを停止させるための「ＣＤを停止して」、及びＣＤを一時停止させるための「ＣＤを一時停止して」などがある。また、ローカルモード用認識辞書として、このＣＤプレーヤーに所定の制御をさせるための認識語彙を記憶している「ＣＤプレーヤー操作モード用認識辞書」がある。

ローカルモード選択用認識辞書は、ユーザの発話内容に基づいて、音声認識に利用するローカルモード用認識辞書を選択するための選択用認識語彙を記憶している。具体的には、例えば、図４に示すように、選択用認識語彙は、「しーでぃーをそうさする」、「でぃーぶいでぃーをそうさする」、「みゅーじっくさーばーをそうさする」などがある。また、この選択用認識語彙は、ローカルモード用認識辞書と一義的に対応している。

ここで、ローカルモード選択用認識辞書を用いて、音声認識に利用するローカルモード用認識辞書の選択方法について説明する。まず、ユーザの音声が入力され、発話内容が解析される。この解析された発話内容と、予めローカルモード選択用認識辞書に記憶されている選択用認識語彙とを照合し、ローカルモード選択用認識辞書に最も確からしい選択用認識語彙があるか否かを判定する。最も確からしい選択用認識語彙があると判定された場合、この最も確からしい選択用認識語彙に対応するローカルモード用認識辞書が、音声認識に利用するローカルモード用認識辞書として選択される。このようにすることにより、ユーザは、所望する音声認識に利用するローカルモード用認識辞書を選択することができる。

再度、図４を例として用いる。ユーザの発話内容に対して、ローカルモード選択用認識辞書に最も確からしい選択用認識語彙「しーでぃーをそうさする」があると判定された場合、この選択用認識語彙に対応する「ＣＤプレーヤー操作モード用認識辞書」が音声認識に利用される。

なお、音声認識に利用するローカルモード用認識辞書Ａが選択されている状態において、ユーザの発話内容に基づいて、音声認識に利用するローカルモード用認識辞書Ｂが選択された場合には、音声認識に利用するローカルモード用認識辞書は、ローカルモード用認識辞書Ａからローカルモード用認識辞書Ｂに切り換えられる。具体的には、例えば、音声認識に利用する「ＣＤ操作モード用認識辞書」が選択されている状態において、ユーザが「ＤＶＤを操作する」という発話を行い、「ＤＶＤ操作モード用認識辞書」が選択されると、音声認識に利用するローカルモード用認識辞書は、「ＣＤ操作モード用認識辞書」から「ＤＶＤ操作モード用認識辞書」に切り換えられる。なお、ユーザの発話内容に応じて、音声認識に利用するローカルモード用認識辞書を選択するために、ローカルモード選択用認識辞書は常に音声認識に利用される。

上述した解析された発話内容は、認識辞書記憶部３４にて、音声認識に利用するローカルモード用認識辞書に記憶された認識語彙と照合され、最も確からしい認識語彙、及びその認識語彙に対応する認識語コードが抽出される。

この認識辞書記憶部３４におけるローカルモード用認識辞書は、図５に示すように、認識語彙と、その認識語彙と一対一に対応する認識語コードが記憶された構成となっている。

また、認識プログラム処理部３２は、メッセージコード記憶部３５、及びコマンドコード記憶部３６を参照して、この認識語コードに対応するメッセージコード、及びコマンドコードを抽出する。メッセージコード記憶部３５は、図６に示すように、認識語コードと、その認識語コードと一対一に対応するメッセージコードが記憶された構成となっている。同様に、コマンドコード記憶部３６は、図７に示すように、認識語コードと、その認識語コードと一対一に対応するコマンドコードが記憶された構成となっている。このメッセージコードとは、出力制御部４０のメッセージ出力部４２が識別可能なコードであり、メッセージコードをメッセージ出力部４２に与えることで、そのメッセージコードに対応するメッセージを出力することができる。また、このコマンドコードとは、出力制御部４０の制御実行部４５が識別可能なコードであり、コマンドコードに対応する制御が実行されるように制御対象機器７０に制御信号を出力する。

さらに、認識プログラム処理部３２は、認識辞書コード記憶部３７を参照し、認識辞書記憶部３４にて音声認識に利用するローカルモード用認識辞書と対応する認識辞書コードを抽出する。認識辞書コード記憶部３７は、図８に示すように、ローカルモード用認識辞書と一対一に対応する認識辞書コードが記憶された構成となっている。この認識辞書コードとは、出力制御部４０のキャラクター出力部４４が識別可能なコードであり、認識辞書コードをキャラクター出力部４４に与えることで、その認識辞書コードに対応するキャラクターを表示部６０に表示することができる。

なお、認識辞書コード記憶部３７は、ローカルモード選択用認識辞書に対応する認識辞書コードを記憶していない。上述したように、ローカルモード選択用認識辞書は常に音声認識に利用されている。このため、ローカルモード選択用認識辞書を特定するためのキャラクターを表示部６０に表示することは必要ない。したがって、ローカルモード選択用認識辞書に対応するキャラクター、及び認識辞書コードの記憶は必要ない。

そして、認識プログラム処理部３２は、上述の処理により得られたメッセージコード、コマンドコード、及び認識辞書コードを出力制御部４０に出力する。

続いて、音声認識装置１００の出力制御部４０について、図３を用いて説明する。図３は、出力制御部４０の構成を示すブロック図である。同図に示すように出力制御部４０は、メッセージ記憶部４１、メッセージ出力部４２、キャラクター記憶部４３、キャラクター出力部４４、及び制御実行部４５から構成される。

メッセージ出力部４２は、メッセージ記憶部４１を参照して、音声認識部３０から受け取ったメッセージコードに対応するメッセージを抽出する。メッセージ記憶部４１は、図９に示すように、メッセージコードと、そのメッセージコードと一対一に対応するメッセージが記憶された構成となっている。そして、メッセージ出力部４２は、スピーカ５０を介して、抽出したメッセージを出力する。

キャラクター出力部４４は、キャラクター記憶部４３を参照して、音声認識部３０から受け取った認識辞書コードに対応するキャラクターを抽出する。キャラクター記憶部４４は、図１０に示すように、認識辞書コードと、そのキャラクターと一対一に対応するものであって、音声認識に利用するローカルモード用認識辞書を特定するためのキャラクターが記憶された構成となっている。そして、キャラクター出力部４４は、表示部６０に、抽出したキャラクターを表示する。

制御実行部４５は、制御対象機器７０に対して、音声認識部３０から受け取ったコマンドコードに対応する制御を実行する。例えば、制御対象機器７０は、ＣＤプレーヤーであり、ＣＤプレーヤーに対して実行される制御は、ＣＤの再生、ＣＤの停止などである。

次に、上述した本実施形態の音声認識装置の処理について、図１１〜図１３のフローチャートを用いて説明する。図１１は、音声認識装置のメインルーチンを示すフローチャートであり、図１２は、ローカルモード用認識辞書選択処理のルーチンを示すフローチャートである。そして、図１３は、出力制御処理を示すフローチャートである。なお、具体的な例として、ローカルモード用認識辞書が選択されておらず、「ＣＤを操作する」という音声が入力され、続けて、「ＣＤを再生して」という音声が入力された場合を想定して説明を進める。

まず、図１１のステップＳ１０では、トークスイッチ２０が操作されたか否かを判定する。操作されなかったと判定された場合、そのまま待機状態となる。一方、操作されたと判定された場合、ステップＳ２０に進む。ステップＳ２０では、音声認識部３０が入力モードに切り換わり、音声の入力を受け付ける状態となる。ここで、例えば、「ＣＤを操作する」と言った音声が入力された場合には、ステップＳ３０に進む。ステップＳ３０では、ステップＳ２０にて入力された発話内容「ＣＤを操作する」が解析される。

ステップＳ４０では、ステップＳ３０にて解析された発話内容がローカルモード用認識辞書の選択に関する発話内容か否かを判定する。具体的には、例えば、ステップＳ３０にて解析された発話内容とローカルモード選択用認識辞書とを照合し、ローカルモード選択用認識辞書に最も確からしい選択用認識語彙があるか否かを判定する。最も確からしい選択用認識語彙がないと判定された場合、ステップＳ６０に進む。一方、最も確からしい選択用認識語彙があると判定された場合、ステップＳ５０に進む。ここでは、最も確からしい選択用認識語彙「しーでぃーをそうさする」があると判定される（図４参照。）ので、ステップＳ５０に進む。

ステップＳ５０では、ローカルモード用認識辞書選択処理が実行される。このローカルモード用認識辞書選択処理を図１２のフローチャートを用いて説明する。

図１２のフローチャートにおいて、まず、ステップＳ１１０では、最も確からしい選択用認識語彙に対応するローカルモード用認識辞書が抽出される。ここでは、図１１のステップＳ４０における最も確からしい選択認識語彙「しーでぃーをそうさする」に対応するローカルモード用認識辞書「ＣＤプレーヤー操作用認識辞書」が抽出される（図４参照）。

ステップＳ１２０では、現在の選択されているローカルモード用認識辞書と、ステップＳ１１０にて抽出されたローカルモード用認識辞書とが一致するか否かを判定する。一致すると判定された場合、処理が終了される。一方、一致しない（現在、ローカルモード用認識辞書が選択されていない場合も含む）と判定された場合、ステップＳ１３０に進む。ここでは、ローカルモード選択用認識辞書が選択されていないので、ステップＳ１３０に進む。

ステップＳ１３０では、ステップＳ１１０にて抽出されたローカルモード用認識辞書が、音声認識に利用されるローカルモード用認識辞書として選択される。ここでは、「ＣＤプレーヤー操作用認識辞書」が、音声認識に利用されるローカルモード用認識辞書として選択される。

ステップＳ１４０では、ステップＳ１３０にて選択されたローカルモード用認識辞書に対応する認識辞書コードが認識辞書コード記憶部３７から抽出される。ここでは、ローカルモード用認識辞書「ＣＤプレーヤー操作用認識辞書」に対応する認識辞書コード「Ｄ０００１」が抽出される（図８参照）。

ステップＳ１５０では、抽出された認識辞書コードが出力制御部４０に送信される。ステップＳ１６０では、キャラクター出力部４４は、認識辞書コードに対応するキャラクターをキャラクター記憶部４３から抽出する。ここでは、認識辞書コード「Ｄ０００１」に対応するキャラクター「ＤＪキャラ（タイプ１）」が抽出される（図１０参照）。

ステップＳ１７０では、キャラクター出力部４４は、ステップＳ１６０にて抽出されたキャラクターを表示部６０に出力する。ここでは、キャラクター「ＤＪキャラ（タイプ１）」を表示部６０に表示する。例えば、図１４に示すようなキャラクター表示画面４００が表示部６０に表示される。キャラクター表示画面４００には、画面右下にキャラクター「ＤＪキャラ（タイプ１）」が道路地図に重ねて表示されている。このようにすることにより、ユーザはこのキャラクターから音声認識に利用するローカルモード用認識辞書を特定することが容易になる。また、キャラクターを表示することにより、キャラクター非表示の音声認識装置に対して発話する場合と比べて、ユーザはキャラクターと対話をするような感覚になり、音声認識装置１００に対する発話の違和感を低減することができる。

図１１のフローチャートに戻り、ステップＳ１０に戻る。ステップＳ１０にて、トークスイッチ２０が操作されたと判定され、ステップＳ２０に進む。ステップＳ２０にて、ここで、例えば、「ＣＤを再生して」と言った音声が入力された場合には、ステップＳ３０に進む。ステップＳ３０にて、ステップＳ２０にて入力された発話内容「ＣＤを再生して」が解析される。

ステップＳ４０にて、ここでは、ローカルモード選択用認識辞書に最も確からしい選択用認識語彙がないと判定される（図４参照。）ので、ステップＳ６０に進む。

ステップＳ６０では、出力制御処理が実行される。この出力制御処理を図１３のフローチャートを用いて説明する。

図１３のフローチャートにおいて、まず、ステップＳ２１０では、ローカルモード選択用認識辞書が選択されているか否かを判定する。選択さていないと判定された場合、ステップＳ３００に進む。ステップＳ３００では、エラーが報知される。具体的には、例えば、メッセージ「認識できませんでした」が、スピーカ５０を介して音声で出力されるとともに、表示部６０に表示される。

一方、ステップＳ２１０にて、選択されていると判定された場合、ステップＳ２２０に進む。ここでは、「ＣＤプレーヤー操作用認識辞書」が選択されているので、ステップＳ２２０に進む。

ステップＳ２２０では、図１１のステップＳ３０にて解析された発話内容と、選択されているローカルモード用認識辞書とを照合し、ローカルモード用認識辞書に最も確からしい認識語彙があるか否かを判定する。最も確からしい認識語彙がないと判定された場合、ステップＳ３００に進む。一方、最も確からしい認識語彙があると判定された場合、ステップＳ２３０に進む。ここでは、最も確からしい認識語彙「しーでぃーをさいせいする」があると判定される（図５参照。）ので、ステップＳ２３０に進む。

ステップＳ２３０では、ステップＳ２２０における最も確からしい認識語彙に対応する認識語コードが抽出される。ここでは、「しーでぃーをさいせいして」という最も確からしい認識語彙に対応する認識語コード「Ｒ０００１」が抽出される（図５参照）。

ステップＳ２４０では、ステップＳ２３０にて抽出された認識語コードに対応するメッセージコードを、メッセージコード記憶部３５から抽出する。ここでは、認識語コード「Ｒ０００１」に対応するメッセージコード「Ｍ０００１」が抽出される（図６参照）。

ステップＳ２５０では、ステップＳ２３０にて抽出された認識語コードに対応するコマンドコードを、コマンドコード記憶部３６から抽出する。ここでは、認識語コード「Ｒ０００１」に対応するコマンドコード「Ｃ０００１」が抽出される（図７参照）。

ステップＳ２６０では、抽出されたメッセージコード、及びコマンドコードが出力制御部４０に送信される。ステップＳ２７０では、メッセージ出力部４２は、メッセージコードに対応するメッセージを、メッセージ記憶部４１から抽出する。ここでは、メッセージコード「Ｍ０００１」であるため、「ＣＤを再生します」というメッセージが抽出される（図９参照）。

ステップＳ２８０では、メッセージ出力部４２は、スピーカ５０を介して、抽出したメッセージを音声で出力する。ステップＳ２９０では、制御実行部４５は、コマンドコードに対応する制御を実行する。ここでは、コマンドコード「Ｃ０００１」に基づいて、ＣＤを再生する。

以上、説明したように本実施形態によれば、音声認識に利用するローカルモード用認識辞書と一義的に対応するものであって、当該音声認識に利用するローカルモード用認識辞書を特定するためのキャラクターを表示部６０に表示することができるようにした。また、音声認識に利用するローカルモード用認識辞書が選択された場合であっても、選択された音声認識に利用するローカルモード用認識辞書を特定するためのキャラクターが表示部６０に表示することができるようにした。このようにすることにより、ユーザは、キャラクターから音声認識に利用するローカルモード用認識辞書を常に特定することができる。これにより、ユーザが、音声認識に利用するローカルモード用認識辞書がいずれかのものであるかを把握することができる。

なお、本発明は、上述した実施形態になんら制限されることなく、本発明の主旨を逸脱しない範囲において、種々変形して実施することができる。

例えば、上述した実施形態においては、音声認識に利用するローカルモード用認識辞書を特定するためのキャラクターを表示部６０に表示する例を説明した。しかしながら、音声認識に利用するローカルモード用認識辞書を特定するためのテキスト及び／又はアイコンを表示しても良い。

また、上述した実施形態では、キャラクターが表示部６０に表示される例について説明した。しかしながら、キャラクターの表示の有無を、ユーザが設定できるようにしても良い。これにより、ユーザは、キャラクターの表示の有無を設定することができる。

さらに、上述した実施形態では、音声認識に利用するローカルモード用認識辞書を１つ選択する例について説明した。しかしながら、音声認識に利用するローカルモード用認識辞書を複数選択できる場合には、各々ローカルモード用認識辞書を特定するためのキャラクターを表示しても良い。

本実施形態における、音声認識装置１００の概略構成を示すブロック図である。本実施形態における、音声認識部３０の構成を示すブロック図である。本実施形態における、出力制御部４０の構成を示すブロック図である。本実施形態における、選択用認識語彙とローカルモード用認識辞書との対応関係を示す表である。本実施形態における、認識語彙と認識語コードとの対応関係を示す表である。本実施形態における、認識語コードとメッセージコードとの対応関係を示す表である。本実施形態における、認識語コードとコマンドコードの対応関係を示す表である。本実施形態における、ローカルモード用認識辞書と認識辞書コードとの対応関係を示す表である。本実施形態における、メッセージコードとメッセージとの対応関係を示す表である。本実施形態における、認識辞書コードとキャラクターとの対応関係を示す表である。本実施形態における、音声認識装置のメインルーチンを示すフローチャートである。本実施形態において、ローカルモード用認識辞書選択処理のルーチンを示すフローチャートである。本実施形態において、出力制御処理のルーチンを示すフローチャートである。本実施形態における、キャラクター表示画面４００の表示例を示すイメージ図である。

符号の説明

１０…音声入力部
２０…トークスイッチ
３０…音声認識部
４０…メッセージ出力制御部
５０…スピーカ
６０…表示部
７０…制御対象機器

Claims

認識語彙を複数のグループに分け、それぞれのグループに含まれる認識語彙を音声認識辞書として記憶する第１の記憶手段と、
複数の音声認識辞書から、音声認識に利用する音声認識辞書を選択する選択手段と、
前記選択手段によって選択された音声認識に利用する音声認識辞書に基づいて、ユーザが発話した音声を認識する音声認識手段とを備えた音声認識装置であって、
表示部と、
各音声認識辞書と一義的に対応しているものであって、音声認識に利用する音声認識辞書を特定するための表示データを記憶する第２の記憶手段と、
音声認識に利用する音声認識辞書と対応する前記記憶された表示データを、前記表示部に表示する表示制御手段とを備えることを特徴とする音声認識装置。
前記表示データは、キャラクターデータ、テキストデータ、及びアイコンデータの少なくともいずれか１つであることを特徴とする請求項１に記載の音声認識装置。
前記表示制御手段による前記表示データの表示の有無が、ユーザによって変更可能に構成されていることを特徴とする請求項１または請求項２に記載の音声認識装置。
前記複数の音声認識辞書は、ローカルモード用音声認識辞書とローカルモード選択用音声認識辞書との２種類があり、
前記ローカルモード選択用音声認識辞書は、複数のローカルモード用音声認識辞書を選択するための選択用認識語彙を有し、
前記選択手段は、ユーザの発話した音声と前記選択用認識語彙とに基づいて、音声認識に利用するローカルモード用音声認識辞書を選択することを特徴とする請求項１乃至請求項３のいずれかに記載の音声認識装置。