JP2004029270A

JP2004029270A - 音声制御装置

Info

Publication number: JP2004029270A
Application number: JP2002183927A
Authority: JP
Inventors: Masahiko Tateishi; 立石　雅彦; Kunio Yokoi; 横井　邦雄
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2002-06-25
Filing date: 2002-06-25
Publication date: 2004-01-29
Anticipated expiration: 2022-06-25
Also published as: JP3702867B2; US7027565B2; US20030235276A1

Abstract

【課題】音声制御装置において、ユーザが誤認識されたと勘違いを起こさないメッセージを報知する。
【解決手段】音声認識部１０は、制御対象の機能を実行するコマンドコード２２とともに、ユーザの発話内容に一致する認識語コード２１を認識する。機能実行部１１０は、音声認識部１０からのコマンドコード２２に対応した機能を実行し、メッセージ出力部１１１は、音声認識部１０からの認識語コード２１に対応する認識語を認識語記憶部１１３から抽出し、この抽出した認識語を用いて最終的なメッセージを生成する。この最終的に生成されるメッセージを、表示装置４やスピーカ５等を介して報知することで、ユーザは自ら発話した内容が正常に認識されたことを確認することができる。
【選択図】　　　　図３

Description

【０００１】
【発明の属する技術分野】
本発明は、音声制御装置に関するものである。
【０００２】
【従来の技術】
従来、話者の発する音声によってカメラのストロボ制御やシャッター制御等の機能を行うものがある。例えば、特開昭６４−５６４２８号公報では、カメラを操作する際に、所望の操作に対応する音声を入力し、この入力された音声を音声認識手段により認識し、認識結果に対応する制御内容に基づいてカメラの機能を制御するといった、音声入力によるカメラの制御方式が記載されている。
【０００３】
このような音声制御カメラにおいて、ある特定の機能を実行するには、その特定の機能に一対一に割り付けられた音声を入力することで実現される。例えば、撮影時にストロボの発光を禁止する機能を実行するには、「ノーストロボ」という音声を入力する。しかしながら、カメラの機能に対する呼称は、ユーザによって異なることがあり、上述の機能の場合にも、「ストロボオフ」，「ストロボ禁止」，「フラッシュオフ」等の様々な呼称がある。そのため、ユーザは、一対一に割り付けられた音声以外の呼称を使用することができなかった。
【０００４】
これに対し、例えば、特開２０００−２１４５２５号公報に開示されている音声制御カメラがある。この音声制御カメラは、同一のカメラの機能に対して異なった呼称の音声が入力された場合でも、同一のコマンドコードを出力するものである。この音声制御カメラは、同一のカメラの機能に対して異なった呼称を記憶しており、記憶した呼称の何れか一つの音声が入力されれば、その同一のカメラの機能を実行する。
【０００５】
このような、異なる呼称の音声入力にも対応する音声制御カメラは、カメラに限らず、例えば、カーナビゲーション装置にも適用されている。例えば、道路地図の縮尺切り換え機能において、道路地図を詳細表示にしたい場合、ユーザは「詳細」「拡大」何れの呼称で音声を入力しても、カーナビゲーション装置は、道路地図を詳細表示する動作を実行する。さらに、このカーナビゲーション装置は、実行する機能の名称を案内音によってユーザへ報知する。例えば、話者が「詳細」と発話すると、カーナビゲーション装置は「地図を詳細表示にします」という案内音を報知する。
【０００６】
【発明が解決しようとする課題】
しかしながら、上述のカーナビゲーション装置では、ユーザが異なる呼称によって音声を入力しても、呼称に対応して実行される機能の名称が同一であれば、同一の案内音を報知していた。すなわち、例えば、ユーザが「拡大」と発話しても「地図を詳細表示にします」という案内音を報知していた。この場合、ユーザの発話した「拡大」とは異なる「詳細」という語句が案内音に含まれるため、ユーザは、自らが発話した音声が、異なる機能に誤認識されたと勘違いを起こすことがあった。
【０００７】
本発明は、かかる問題を鑑みてなされたもので、ユーザが誤認識されたと勘違いを起こさない音声制御装置を提供することを目的とする。
【０００８】
【課題を解決するための手段】
請求項１に記載の音声制御装置は、ユーザが発話した音声を入力する音声入力手段と、発話内容と制御対象の各種機能を実行するコマンドコードとを関連付けて記憶するコマンドコード記憶手段と、音声入力手段によって入力された音声を認識して、この認識した発話内容に対応するコマンドコードをコマンドコード記憶手段から抽出する抽出手段と、抽出手段によって抽出されたコマンドコードによって、制御対象の機能を実行する制御手段と、制御手段によって実行される機能に対応するメッセージを生成するメッセージ生成手段と、メッセージ生成手段によって生成されたメッセージを報知する報知手段とを備え、コマンドコード記憶手段に記憶されるコマンドコードは、同一のコマンドコードに対して単一、または複数個の異なる発話内容が割り付けられ、メッセージ生成手段は、同一のコマンドコードによる機能が実行される際、認識した発話内容を用いてメッセージを生成することを特徴とする。
【０００９】
このように、本発明の音声制御装置は、認識した発話内容を用いてメッセージを生成しているため、報知されるメッセージは、話者自らが発話した音声に対応した内容となる。これにより、話者の発話した音声が、異なる機能に誤認識されたと勘違いを起こすことを防止することができる。
【００１０】
請求項２に記載の音声制御装置では、メッセージ生成手段は、メッセージ中に認識した発話内容をそのまま用いてメッセージを生成することを特徴とする。例えば、カーナビゲーション装置において道路地図表示を詳細な表示に変更する際、ユーザが「詳細」と発話した場合には、「地図を（詳細）表示にします」というように、発話内容をそのままメッセージ中に用いて、最終的なメッセージを生成する。この最終的なメッセージを報知することで、ユーザは、自ら発話した内容が正常に認識されたことを確認することができる。
【００１１】
請求項３に記載のように、メッセージは、コマンドコードに対応する基本メッセージに基づいて生成することで、制御対象の機能に合致したメッセージを報知することが可能となる。
【００１２】
請求項４に記載の音声制御装置によれば、メッセージ生成手段は、制御手段が実行した機能の実行結果に基づいてメッセージを生成することを特徴とする。
【００１３】
例えば、カーナビゲーション装置の道路地図表示が最も詳細な表示になっていたとする。このとき、ユーザが誤って「詳細」と発話した場合には、制御手段はより詳細な表示に対応する機能を実行できないため、この場合には「これ以上（詳細）に出来ません」というメッセージを生成する。このように、制御手段の実行結果に応じたメッセージを生成することで、ユーザが誤った発話をした場合でも、実行結果に対応したメッセージを報知することができる。
【００１４】
請求項５に記載の音声制御装置では、メッセージ生成手段は、制御手段が実行する機能に対応する基本メッセージと認識した発話内容とを組み合わせてメッセージを生成することを特徴とする。
【００１５】
例えば、カーナビゲーション装置において道路地図表示を詳細な表示に変更する際、「地図を（発話内容）表示にします」というような、実行する機能に対応した基本メッセージを採用する。そして、基本メッセージの（発話内容）の箇所を、ユーザが発話した「詳細」という発話内容に置き換えて最終的なメッセージを生成する。これにより、最終的なメッセージを容易に生成することが可能となる。
【００１６】
請求項６に記載の音声制御装置のように、制御対象はカーナビゲーション装置であって、コマンドコードは、少なくともカーナビゲーション装置の表示部に表示される道路地図の縮尺切り換え機能に対応するものであれば、上述のような道路地図を詳細表示にしたい場合であっても、ユーザが勘違いを起こすことを防止することができる。
【００１７】
【発明の実施の形態】
以下、本発明の実施の形態における音声制御装置に関して、図面に基づいて説明する。なお、本実施形態では、本発明の音声制御装置をカーナビゲーション装置に適用した例について説明する。
【００１８】
図１は、本実施形態に係わるカーナビゲーション装置の概略構成を示すブロック図である。同図に示すように、本実施形態のカーナビゲーション装置１は、音声認識部１０、経路案内部１１、車両位置・車両向き計算部１２から構成されている。また、カーナビゲーション装置１は、図示しない道路地図描画部等を有している。さらに、カーナビゲーション装置１は、音声入力に用いられるマイク２、トークスイッチ３、表示装置４、スピーカ５、ＧＰＳ受信機６、車速センサ７、ヨーレートセンサ８、及び地図データベース９等と接続されている。
【００１９】
マイク２、及びトークスイッチ３は、音声入力に用いられる装置である。音声を入力する場合には、例えば、トークスイッチ３の押しボタンを押すことで、入力トリガ１４が後述する音声認識部１０に送信され、この音声認識部１０は、入力トリガ１４を受信すると、マイク２から音声入力を受け付けるモードに変更される。
【００２０】
この音声入力を受け付けるモードのとき、ユーザが、例えば「現在地」と発話すると、その音声がマイク２によって音声信号１３に変換され、音声認識部１０に送られる。音声認識部１０は、この音声を認識して、音声に対応する操作コマンドに変換し、経路案内部１１等に与える。例えば、「現在地」と認識された音声は、「現在地を表示する」という操作コマンドに変換される。この操作コマンドを受けた経路案内部１１は、最終的に現在地を中心とする道路地図を表示装置４に表示する。なお、この操作コマンドは、後述する認識語コード２１及びコマンドコード２２からなるものである。
【００２１】
表示装置４は、道路地図等を表示する液晶ディスプレイによって構成され、また、ディスプレイに表示される道路地図は、音声や図示しないリモコンや操作パネルの操作によって縮尺切り換えが可能になっている。なお、このディスプレイにタッチパネルが採用されるものであっても良い。
【００２２】
スピーカ５は、音声案内や各種警告音等の出力に使用されるものであり、例えば、車両に装備されたスピーカであっても良いし、カーナビゲーション装置１に内蔵されたものであっても良い。
【００２３】
ＧＰＳ受信機６、車速センサ７、及びヨーレートセンサ８は、周知のごとく、車両の現在位置や車両進行方向等を算出するのに必要な信号（以下、センサ信号１７と呼ぶ）を生成するものである。生成されたセンサ信号１７は、車両位置・車両向き計算部１２に送られる。
【００２４】
地図データベース９は、図示しない記憶媒体に格納されるもので、地図情報、道路情報からなる。なお、記憶媒体としては、そのデータ量からＣＤ−ＲＯＭやＤＶＤ−ＲＯＭを用いるのが一般的であるが、メモリカードやハードディスクなどの媒体を用いてもよい。
【００２５】
次に、カーナビゲーション装置１の音声認識部１０について、図２を用いて説明する。同図に示すように音声認識部１０は、ＡＤ変換回路１０１、認識プログラム処理部１０２、音響モデル記憶部１０３、認識辞書記憶部１０４、及びコマンドコード記憶部１０５等によって構成される。
【００２６】
ＡＤ変換回路１０１は、マイク２を介して入力されるアナログの音声信号１３を受信し、この信号をデジタル化した信号に変換する。変換されたデジタル音声信号１０６は、認識プログラム処理部１０２に送信される。
【００２７】
認識プログラム処理部１０２は、音響モデル記憶部１０３、及び認識辞書記憶部１０４を用いて、デジタル音声信号１０６を認識語コード２１に変換するものである。まず、認識プログラム処理部１０２は、音響モデル記憶部１０３に記憶される、例えば、周知の隠れマルコフモデル（Ｈｉｄｄｅｎ　Ｍａｒｋｏｖ　Ｍｏｄｅｌ）等の手法を用いて、デジタル音声信号１０６に対応する発話内容（以後、認識語読みと呼ぶ）を解析する。
【００２８】
この解析された認識語読みは、認識辞書記憶部１０４に記憶された認識語読みと照合され、最も確からしい認識語読み、及びその認識語読みに対応する認識語コード２１が抽出される。この認識辞書記憶部１０４は、図４に示すように、認識語読みと、その認識語読みと一対一に対応する認識語コード２１が記憶された構成となっている。例えば、認識語読みが「げんざいち」である場合には、これに対応する認識語コード２１であるＲ０００１が抽出される。この認識語コード２１とは、経路案内部１１のメッセージ出力部１１１が認識可能なコードである。
【００２９】
また、認識プログラム処理部１０２は、コマンドコード記憶部１０５を参照して、この認識語コード２１に対応するコマンドコード２２を抽出する。コマンドコード記憶部１０５の構成を図５に示す。例えば、認識語コード２１のＲ０００１に対するコマンドコード２２はＣ０００１といったように抽出される。このコマンドコード２２とは、経路案内部１１の機能実行部１１０が識別可能なコードである。
【００３０】
そして、認識プログラム処理部１０２は、上述の処理により得られた認識語コード２１およびコマンドコード２２を経路案内部１１に出力する。例えば、「現在地」という音声が入力された場合には、認識語コード２１（Ｒ０００１）及びコマンドコード２２（Ｃ０００１）を出力する。
【００３１】
なお、認識語読みと認識語コード２１とは一対一に対応するが、認識語コード２１とコマンドコード２２とは、図５に示すように、複数対一で対応する場合がある。この複数対一の対応により、ユーザの異なる呼称に対応可能となる。例えば、音声入力「詳細」「拡大」は、図６に示すように、同一のコマンドコード２２であるＣ０００２に変換される。このコマンドコードＣ０００２は、後述する機能実行部１１０において、「地図を詳細表示にする」という操作に対応する。
【００３２】
続いて、カーナビゲーション装置１の経路案内部１１について、図３を用いて説明する。同図に示すように経路案内部１１は、機能実行部１１０、メッセージ出力部１１１、メッセージ記憶部１１２、及び認識語記憶部１１３から構成される。
【００３３】
機能実行部１１０は、音声認識部１０から受け取ったコマンドコード２２に対応する機能を実行する。この機能実行部１１０が実行する機能としては、例えば、表示装置４に表示される道路地図の縮尺変更や、道路地図表示の向きを変更する機能等がある。例えば、車両の現在位置周辺の道路地図を描画するコマンドコードを受け取った場合には、車両位置・車両向き計算部１２から車両位置・車両の進行方向信号１９を受信し、地図データベース９から車両位置周辺の地図データ１８を読み出し、画像信号１５に変換して表示装置４に表示したりする。
【００３４】
さらに、機能実行部１１０は、コマンドコード２２と実行した機能の実行結果１１４とをメッセージ出力部１１１に送信する。ここで実行結果１１４は、「成功」又は「失敗」のいずれかであり、すなわち、コマンドコード２２に対する機能の実行に成功したか否かを意味するものである。
【００３５】
メッセージ出力部１１１は、コマンドコード２２と実行結果１１４を受け取り、これらに対応するメッセージフォーマットをメッセージ記憶部１１２から抽出する。そして、抽出したメッセージフォーマットから、出力メッセージを生成する。さらに、メッセージ出力部１１１は、音声認識部１０から認識語コード２１を受け取り、受け取った認識語コード２１に対応する認識語を認識語記憶部１１３から検索し、検索した認識語を上述のメッセージフォーマットに追加する。
【００３６】
図７に、メッセージ記憶部１１２が記憶するメッセージフォーマットを示す。同図に示すように、各々のメッセージフォーマットは、コマンドコード２２及び実行結果１１４の組み合わせによって区分けされており、メッセージ出力部１１１へ対応するメッセージフォーマットを出力する。
【００３７】
なお、メッセージフォーマットには、（認識語）と表記された箇所を持つものがある。この（認識語）の箇所には、図８に示すように、認識語記憶部１１３が記憶する認識語が挿入される。この挿入作業は、メッセージ出力部１１１において実行され、メッセージ出力部１１１は、認識語コード２１に対応する認識語をメッセージフォーマットに挿入することで、最終的なメッセージを生成する。そして、その最終的なメッセージは、表示装置４やスピーカ５等の装置を介して出力される。
【００３８】
なお、図８に示すように、認識語記憶部１１３が記憶する認識語は、音声認識部１０が認識する認識語コード２１に対応する認識語が割り付けられており、これら認識語は、認識プログラム１０２が認識したユーザの発話内容と一致するものとなっている。
【００３９】
このように、表示装置４やスピーカ５等によって出力される最終的なメッセージには、音声認識部１０から送信される認識語コード２１に対応する認識語が含まれる。従って、話者の発話した内容と一致する認識語が報知される。
【００４０】
次に、上述のカーナビゲーション装置１において、音声入力によってカーナビゲーション装置１の機能が実行され、かつ、実行結果に対応するメッセージが報知されるまでの一連の処理の流れについて、図９〜図１１のフローチャートを用いて説明する。なお、具体的な例として、表示装置４に表示される道路地図の縮尺を変更する際に発せられる「拡大」という音声が入力された場合を想定して説明を進める。
【００４１】
先ず、ステップＳ１は、トークスイッチ３がユーザに押されるまで待機状態を維持し、トークスイッチ３が押された場合には、ステップＳ２に処理を進める。
【００４２】
ステップＳ２では、音声認識部１０が入力モードに切り換わり、音声の入力を受け付ける状態となる。ここで、例えば、「拡大」といった音声が入力された場合には、ステップＳ３の音声認識処理に処理を進める。
【００４３】
ステップＳ３における処理を、図１０を用いて説明する。まず、ステップＳ３０では、入力された音声から認識語読みを解析する。そして、認識語読みに対応する認識語コード２１を認識辞書記憶部１０４から抽出する。ここでは、「拡大」という音声が解析されることで「かくだい」という認識語読みに判定され、この認識語読みに対応する認識語コード２１であるＲ０００３が抽出される。
【００４４】
ステップＳ３１は、ステップＳ３０で抽出された認識語コード２１に対応するコマンドコード２２を、コマンドコード記憶部１０５から抽出する。ここでは、認識語コード２１のＲ０００３に対応するコマンドコードＣ０００２が抽出される。ステップＳ３２では、抽出された認識語コード２１及びコマンドコード２２を経路案内部１１に送信する。
【００４５】
次に、ステップＳ４のコマンド実行処理について、図１１のフローチャートを用いて説明する。ステップＳ４０では、機能実行部１１０において、音声認識部１０から送信されたコマンドコード２２に対応する機能を実行する。ここでは、Ｃ０００２に対応する機能である、表示装置４に表示される道路地図の拡大表示の機能が実行される。さらに、機能実行部１１０は、実行が成功したか否かを判定し、実行が成功した場合には、実行結果１１４「成功」をメッセージ出力部１１１に送信し、実行が成功しなかった場合には、実行結果１１４「失敗」をメッセージ出力部１１１に送信する。ここでは、実行結果１１４「成功」を送信したとする。
【００４６】
ステップＳ４１では、メッセージ出力部１１１は、機能実行部１１０から送信されるコマンドコード２２及び実行結果１１４に対応するメッセージフォーマットを、メッセージ記憶部１１２から抽出する。ここでは、コマンドコード２２がＣ０００２、実行結果１１４が「成功」であるため、「地図を（認識語）表示にします」というメッセージフォーマットが抽出される。
【００４７】
ステップＳ４２において、メッセージ出力部１１１は、音声認識部１０から送出される認識語コード２１に対応する認識語を認識語記憶部１１３から抽出する。ここでは、認識語コード２１はＲ０００３であるため、「拡大」という認識語が抽出される。
【００４８】
ステップＳ４３では、メッセージ出力部１１１において、抽出したメッセージフォーマットの（認識語）の箇所に、同じく抽出した認識語を挿入して、最終的なメッセージを生成する。ここでは、最終的なメッセージとして「地図を拡大表示にします」が生成される。
【００４９】
そして、ステップＳ４４において、最終的なメッセージは画像信号１５や案内音１６にそれぞれ変換され、表示装置４やスピーカ５から出力される。このようにして、本実施形態のカーナビゲーション装置１では、ユーザの発話に対して望ましいメッセージをユーザに報知することができる。
【００５０】
このように、本発明の音声制御装置は、認識した発話内容を用いてメッセージを生成しているため、報知されるメッセージは、話者自らが発話した音声に対応した内容となる。例えば、本実施形態のように、表示装置４に表示される道路地図の縮尺を拡大する場合、報知されるメッセージには、ユーザの発話した内容に対応した認識語が挿入される。従って、ユーザは「拡大」又は「詳細」のどちらを発話しても、発話した内容に対応する認識語を含むメッセージが報知される。これにより、ユーザの発話した音声が、異なる機能に誤認識されたと勘違いを起こすことを防止することができる。
【００５１】
さらに、本実施形態のカーナビゲーション装置１においては、実行結果に対応したメッセージが報知される。例えば、表示装置４に表示される道路地図の縮尺が最も詳細になっていたとする。このとき、ユーザが誤って「詳細」と発話した場合には、制御手段はより詳細な表示に対応する機能を実行できないため、この場合には「これ以上（詳細）に出来ません」というメッセージを生成する。このように、実行結果に応じたメッセージが生成されるため、ユーザが誤った発話をした場合でも、実行結果に対応したメッセージを報知することができる。
【００５２】
なお、上述した実施形態においては、メッセージ出力部１１にコマンドコードと実行結果を送信して、対応するメッセージフォーマットをメッセージ記憶部１１２から抽出した。しかしながら、音声認識部１０からメッセージ出力部１１１に送信される認識語コードと実行結果から、対応するメッセージフォーマットを抽出することも可能である。
【００５３】
また、本発明の適用範囲はカーナビゲーション装置に限定されるものではなく、音声認識により機能を発揮できる機構を備えた、例えば、家電製品やロボット等にも同様に適用できることはいうまでもない。
【図面の簡単な説明】
【図１】本実施形態に係わる、カーナビゲーション装置１の概略構成を示すブロック図である。
【図２】本実施形態に係わる、音声認識部１０の構成を示すブロック図である。
【図３】本実施形態に係わる、経路案内部１１の構成を示すブロック図である。
【図４】本実施形態に係わる、認識語読みと認識語コード２１との対応関係を示す図である。
【図５】本実施形態に係わる、認識語コード２１とコマンドコード２２との対応関係を示す図である。
【図６】本実施形態に係わる、音声入力、認識語読み、認識語コード２１、及びコマンドコード２２との対応関係を示す図である。
【図７】本実施形態に係わる、コマンドコード２１、実行結果１１４、及びメッセージフォーマットとの対応関係を示す図である。
【図８】本実施形態に係わる、認識語コード２１と認識語との対応関係を示す図である。
【図９】本実施形態に係わる、カーナビゲーション装置１の全体の処理の流れを示すフローチャートである。
【図１０】本実施形態に係わる、音声認識処理の流れを示すフローチャートである。
【図１１】本実施形態に係わる、コマンド実行処理の流れを示すフローチャートである。
【符号の説明】
１　カーナビゲーション装置
２　マイク
３　トークスイッチ
４　表示装置
５　スピーカ
６　ＧＰＳ受信機
７　車速センサ
８　ヨーレートセンサ
９　地図データベース
１０　音声認識部
１１　経路案内部
１２　車両位置・車両向き計算部

Claims

ユーザが発話した音声を入力する音声入力手段と、
発話内容と制御対象の各種機能を実行するコマンドコードとを関連付けて記憶するコマンドコード記憶手段と、
前記音声入力手段によって入力された音声を認識して、この認識した発話内容に対応するコマンドコードを前記コマンドコード記憶手段から抽出する抽出手段と、
該抽出手段によって抽出されたコマンドコードによって、前記制御対象の機能を実行する制御手段と、
該制御手段によって実行される機能に対応するメッセージを生成するメッセージ生成手段と、
該メッセージ生成手段によって生成されたメッセージを報知する報知手段とを備え、
前記コマンドコード記憶手段に記憶されるコマンドコードは、同一のコマンドコードに対して単一、または複数個の異なる発話内容が割り付けられ、
前記メッセージ生成手段は、前記同一のコマンドコードによる機能が実行される際、前記認識した発話内容を用いてメッセージを生成することを特徴とする音声制御装置。
前記メッセージ生成手段は、前記メッセージ中に前記認識した発話内容をそのまま用いてメッセージを生成することを特徴とする請求項１記載の音声制御装置。
前記メッセージは、前記コマンドコードに対応する基本メッセージに基づいて生成することを特徴とする請求項１又は２記載の音声制御装置。
前記メッセージ生成手段は、前記制御手段が実行する機能の実行結果に基づいてメッセージを生成することを特徴とする請求項１〜３のいずれかに記載の音声制御装置。
前記メッセージ生成手段は、前記制御手段が実行する機能に対応する基本メッセージと前記認識した発話内容とを組み合わせてメッセージを生成することを特徴とする請求項１〜４のいずれかに記載の音声制御装置。
前記制御対象はカーナビゲーション装置であって、
前記コマンドコードは、少なくとも前記カーナビゲーション装置の表示部に表示される道路地図の縮尺切り換え機能に対応するものであることを特徴とする請求項１〜５のいずれかに記載の音声制御装置。