JP2010281855A

JP2010281855A - 音声対話装置および音声対話方法

Info

Publication number: JP2010281855A
Application number: JP2009132746A
Authority: JP
Inventors: Takeshi Ono; 健大野; Minoru Togashi; 実冨樫
Original assignee: Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd
Priority date: 2009-06-02
Filing date: 2009-06-02
Publication date: 2010-12-16

Abstract

【課題】騒音などのノイズによる誤作動を有効に防止できる音声対話装置を提供する。
【解決手段】ユーザに対するメッセージ情報をユーザに提示する提示手段と、音声を入力する入力手段２０と、入力手段２０により入力された音声のうち、所定の検出条件を満たす音声を、メッセージ情報に対するユーザの発話音声として検出する検出手段と、ユーザの状態を推定する推定手段と、推定手段により推定されたユーザの状態に基づいて、検出手段によるユーザの発話音声の検出条件を設定する設定手段と、を備えることを特徴とする音声対話装置。
【選択図】図１

Description

本発明は、音声対話装置および音声対話方法に関するものである。

ナビゲーション装置の操作に必要となる情報の入力をユーザに促すメッセージ情報を出力し、該操作に応じた会話場面を特定して、メッセージ情報に対するユーザの発話音声を認識する技術が知られている（特許文献１）。

特開平１１−３２７５９０号公報

しかしながら、従来技術では、ユーザがメッセージ情報に気が付かない場合であっても、予め設定された所定時間を経過するまでは、ユーザによる音声入力を待ち続けるため、騒音などのノイズがユーザの発話音声として誤って認識されてしまい、ユーザが要求しない情報がユーザに提示されるなどの誤作動を生じる可能性があった。

本発明が解決しようとする課題は、騒音などのノイズによる誤作動を有効に防止できる音声対話装置を提供することである。

本発明は、入力された音声のうち、所定の検出条件を満たす音声を、ユーザの発話音声として検出する際に、ユーザの状態を推定し、推定されたユーザの状態に基づいて、ユーザの発話音声を検出する際の検出条件を設定することで、上記課題を解決する。

本発明の音声対話装置によれば、騒音などのノイズによる誤作動を有効に防止することができるため、ユーザに提示すべき情報を、ユーザの音声に応じて、適切に提示することができる。

本実施形態に係るナビゲーション装置の構成図である。提示情報の重要度と、注意喚起情報の提示態様との関係の一例を示す図である。提示情報の重要度が低い場合における注意喚起情報の提示態様を説明するための図である。提示情報の重要度が中程度の場合における注意喚起情報の提示態様を説明するための図である。提示情報の重要度が高い場合における注意喚起情報の提示態様を説明するための図である。第１実施形態に係るユーザ音声信号の検出方法を説明するための図である。第１実施形態に係るユーザ音声信号の検出条件を変更する手法例を説明するための図である。音声対話処理のフローチャート（その１）である。音声対話処理のフローチャート（その２）である。第２実施形態に係るユーザ音声信号の検出方法を説明するための図である。第２実施形態に係るユーザ音声信号の検出条件を変更する手法例を説明するための図である。第３実施形態に係るユーザ音声信号の検出方法を説明するための図である。第３実施形態に係るユーザ音声信号の検出条件を変更する手法例を説明するための図である。

以下、本発明の実施形態を図面に基づいて説明する。

≪第１実施形態≫
図１は、本実施形態に係るナビゲーション装置１００の構成を示す図である。図１に示すように、ナビゲーション装置１００はナビゲーション装置本体１０を備え、ナビゲーション装置本体１０に、マイク２０、ディスプレイ３０、スピーカ４０および入力スイッチ５０が、ＣＡＮ（Controller Area Network）その他の車載ＬＡＮを介して、それぞれ接続されている。

本実施形態において、ナビゲーション装置１００は、例えば、タイヤの空気圧が低下していることを示すタイヤ空気圧警報などの警報情報または受信したメールのメール情報などのユーザに提示すべき提示情報を取得した場合、提示情報が存在することをユーザに知らせるための情報である注意喚起情報を、ディスプレイ３０やスピーカ４０を介して、ユーザに提示する。なお、ナビゲーション装置１００は、図示しない通信装置または車両コントローラと接続しており、例えば、通信装置からメール情報を取得し、また車両コントローラからタイヤ空気圧警報などの警報を取得する。また、ナビゲーション装置１００は、注意喚起情報に対してユーザが発話した音声を、マイク２０で集音し、集音したユーザの音声を音声認識処理することで、ユーザの要求に応じて、提示情報をユーザに提示する。

以下、ナビゲーション装置１００の各構成について説明する。

マイク２０は、車両室内に設置され、車両室内に出力された音声を集音し、集音した音声をアナログの音声信号に変換し、アナログの音声信号をナビゲーション装置本体１０に送信する。

ディスプレイ３０は、ナビゲーション装置本体１０から送信された画像信号に基づいて、ディスプレイ３０が備える画面上に、注意喚起情報としてのアイコンや、コントローラ１２による音声認識処理結果である応答画像を表示する。なお、ディスプレイ３０は、ナビゲーション装置本体１０から送信された自車両の現在位置、自車両の周辺の地図情報、および目的地までの経路誘導情報などをも画面上に表示する。

スピーカ４０は、ナビゲーション装置本体１０から送信されたアナログの音声信号に基づいて、車両室内に音声を出力する。なお、スピーカ４０から出力される音声としては、ユーザに提示すべき情報である提示情報の音声、および提示情報の存在をユーザに知らせるための注意喚起情報などが挙げられる。

入力スイッチ５０には、例えば、ユーザによって押下される音声認識開始スイッチ、およびナビゲーション装置１００の各機能について、ユーザが操作するためのスイッチなどが含まれる。ナビゲーション装置本体１０は、後述するように、注意喚起情報の提示後にユーザの発話音声の取り込みを開始する他、音声認識開始スイッチが押下された場合に、ユーザの発話音声の取り込みを開始する。

続いて、ナビゲーション装置本体１０について説明する。ナビゲーション装置本体１０は、図１に示すように、Ａ／Ｄコンバータ１１、コントローラ１２、外部記憶装置１３、Ｄ／Ａコンバータ１４、およびアンプ１５を備える。

Ａ／Ｄコンバータ１１は、マイク２０から送信されたアナログの音声信号をサンプリングし、さらに量子化することで、マイク２０から送信されたアナログの音声信号を、音声出力用のデジタル信号に変換し、コントローラ１２に送信する。

また、Ｄ／Ａコンバータ１４は、コントローラ１２から送信された音声出力用のデジタル信号をアナログの音声信号に変換し、アンプ１５に送信する。アンプ１５は、Ｄ／Ａコンバータ１４から送信されたアナログの音声信号を増幅し、スピーカ４０に送信する。

外部記憶装置１３は、ユーザの音声を認識するための音声認識処理で使用される認識対象データ、システム応答用の音声データなどを記憶している。認識対象データには、音声認識処理で音声認識の対象となる認識対象語彙や、認識対象語彙の音響モデル、さらに、認識対象語彙とその接続関係を規定したネットワーク文法などの言語モデルが含まれる。なお、認識対象語彙の音響モデルは、音響的に意味を持つ部分単語モデルを定義したものである。

また、外部記憶装置１３は、必要に応じて、ユーザの発話音声を検出する際に、ユーザがナビゲーション装置１００またはその他各種車載装置を操作した操作履歴および／または上記操作が行なわれた際の状況履歴を、ユーザの発話音声に関連付けて記憶する構成としてもよい。

コントローラ１２は、音声対話プログラムを格納したＲＯＭ（Read Only Memory）と、このＲＯＭに格納されたプログラムを実行するＣＰＵ（Central Processing Unit）と、アクセス可能な記憶装置として機能するＲＡＭ（Random Access Memory）とから構成される。なお、動作回路としては、ＣＰＵ（Central Processing Unit）に代えて又はこれとともに、ＭＰＵ（Micro Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field Programmable Gate Array）などを用いることができる。

コントローラ１２は、ＲＯＭに格納したプログラムをＣＰＵにより実行することにより、取得機能、提示機能、推定機能、検出機能、認識機能、および設定機能の各機能を実現する。以下に、コントローラ１２が備える各機能について詳細に説明する。

取得機能は、ユーザに提示すべき提示情報を取得する機能である。取得機能は、例えば、図示しない通信装置から、自車両の現在位置の周辺のお勧めのレストラン情報、または受信したメールのメール情報を提示情報として取得する。さらに、取得機能は、例えば、図示しない車両コントローラから、タイヤ空気圧警報などの警報情報を提示情報として取得する。

提示機能は、取得機能によりユーザに提示すべき提示情報が取得された場合、提示情報の存在をユーザに知らせるための注意喚起情報、例えば、『ポン』という告知音や、ディスプレイ３０に表示されるアイコンを、ユーザに提示するよう、ディスプレイ３０およびスピーカ４０に各種信号を送信する。また、提示機能は、注意喚起情報の提示の後に、ユーザが注意喚起情報の提示を受容する意図を検出した場合に、提示情報をユーザに提示するよう、ディスプレイ３０およびスピーカ４０に各種信号を送信する。

さらに、提示機能は、提示情報の重要度に応じて、注意喚起情報の提示態様を決定する。なお、提示情報の重要度は、例えば、その提示情報がユーザにとって必要とされる有用な情報であるかなどにより適宜決定される。なお、ユーザが、ユーザの嗜好に合わせて、提示情報の重要度を設定できるような構成としてもよい。

図２は、提示情報の重要度と、注意喚起情報の提示態様との関係の一例を示す図である。図２に示すように、提示情報の重要度と注意喚起情報の提示態様は関連付けられており、提示情報の重要度が高くなるほど、ユーザが注意喚起情報に気付き易くなるよう提示態様が決定される。

例えば、図２に示すように、提示情報の重要度が低い場合に、提示機能は、注意喚起情報としてアイコンのみをディスプレイ３０の画面上に表示する。図３は、提示情報の重要度が低い場合における注意喚起情報の提示態様を説明するための図である。なお、図３では、自車両の現在位置の周辺のお勧めのレストラン情報をユーザに提示する場面例を示している。お勧めのレストラン情報は、ユーザにとって必ずしも有用な情報ではなく、その重要度が低く設定される。

図３（Ａ）に示すように、提示情報の重要度が低い場合、提示機能は、注意喚起情報として人を模したアイコンをディスプレイ３０の画面上に表示する。このように、アイコンをディスプレイ３０の画面上に表示することで、アイコンに気が付いたユーザは、何らかの提示情報が存在することを知ることができる。

そして、図３（Ａ）に示すように、アイコンの表示に気が付いたユーザにより、例えば「何？」などの提示情報の受容を意図する音声が発話され、その発話音声が検出された場合、提示機能は、例えば、図３（Ｂ）に示すように、スピーカ４０を介して、自車両の現在位置の周辺に存在するお勧めのレストランの情報を表示するかをユーザに問い合わせる内容の提示情報、例えば「近くにお勧めのレストランがあります。情報を表示しますか？」を出力する。

一方、図２に示すように、提示情報の重要度が中程度の場合、提示機能は、注意喚起情報としてディスプレイ３０にアイコンを表示し、さらにスピーカ４０から、例えば『ポン』という告知音を出力する。

図４は、提示情報の重要度が中程度の場合における注意喚起情報の提示態様を説明するための図である。なお、図４では、受信したメールの内容をユーザに提示する場面例を例示している。受信したメールの内容は、図３に示すお勧めのレストラン情報と比べると、ユーザに必要とされる情報であると想定されるため、その重要度は中程度に設定される。

提示機能は、提示情報が存在する場合、図４（Ａ）に示すように、注意喚起情報として、人を模したアイコンをディスプレイ３０の画面上に表示する。さらに、提示機能は、提示情報の重要度が中程度の場合においては、図４（Ａ）に示すように、注意喚起情報として、例えば、『ポン』という告知音をスピーカ４０から出力する。これにより、ユーザはアイコンのみならず告知音により注意喚起情報に気が付くことができ、アイコンのみがディスプレイ３０の画面上に表示される提示情報の重要度が低い場合と比べて、ユーザが注意喚起情報に気が付く可能性が高くなる。

そして、アイコンの表示または告知音に気が付いたユーザにより、図４（Ａ）に示すように、例えば、「何？」などの提示情報の受容を意図する音声を発話され、その発話音声が検出された場合、提示機能は、スピーカ４０を介して、図４（Ｂ）に示すように、メールの内容を読み上げるかを問い合わせる内容の提示情報、例えば「メールが届きました。読み上げますか？」を出力する。

また、図２に示すように、提示情報の重要度が高い場合は、注意喚起情報として、ディスプレイ３０にアイコンが表示されると同時に、スピーカ４０から告知音が出力され、加えて、告知音に続いてスピーカ４０から音声メッセージが出力される。

図５は、提示情報の重要度が高い場合における注意喚起情報の提示態様を説明するための図である。なお、図５では、タイヤの空気圧が低下していることを示すタイヤ空気圧警報をユーザに提示する場面例を例示している。タイヤ空気圧警報は、車両を安全に運転するために重要な情報であるため、その重要度は高く設定される。

提示機能は、提示情報が存在する場合、図５（Ａ）に示すように、注意喚起情報として、人を模したアイコンをディスプレイ３０の画面上に表示する。さらに、提示機能は、提示情報の重要度が高い場合には、図５（Ａ）に示すように、注意喚起情報として、例えば、『ポン』という告知音と、告知音に続いて、例えば、「○○さん」のようにユーザの名前を呼び掛ける音声メッセージとをスピーカ４０から出力する。このように、注意喚起情報として、「○○さん」のように音声メッセージを出力することで、アイコンのみを表示する場合、およびアイコンを表示し、かつ、告知音を出力する場合に比べて、ユーザが注意喚起情報に気が付く可能性を高くできる。

また、これら注意喚起情報に気が付いたユーザにより、図５（Ａ）に示すように、例えば、「何？」などの提示情報の受容を意図する音声が発話され、この発話音声が検出された場合、提示機能は、図５（Ｂ）に示すように、スピーカ４０を介して、タイヤ空気圧警報を示す提示情報、例えば「空気圧が低くなっています。ガソリンスタンドなどでお早めに対応して下さい。」を出力することで、ユーザにタイヤ空気圧警報を提示することができる。

推定機能は、ユーザが注意喚起情報に気が付いているか否かを推定する。ユーザが注意喚起情報に気が付いていているか否かは、特に限定されず、本実施形態では、第１に、ユーザの運転負荷に基づく推定方法、第２に、ユーザの視線方向に基づく推定方法、第３に、ユーザの運転操作の安定性に基づく推定方法のうち少なくとも１つの方法により推定される。さらに、推定機能は、これら第１から第３の方法で推定する際に、注意喚起情報の提示態様に応じて、ユーザが注意喚起情報に気が付いている否かを推定してもよい。以下において、各方法の詳細について説明する。

第１の方法として、推定機能は、ユーザの運転負荷に基づいて、ユーザが注意喚起情報に気が付いているか否かを推定する。すなわち、推定機能は、ユーザの運転負荷を推定し、ユーザの運転負荷が高いと推定された場合、ユーザは、運転に集中し、注意喚起情報に気が付いていてないと推定する。一方、ユーザの運転負荷が低い場合、ユーザは、注意喚起情報に注意を払う余裕があり、注意喚起情報に気が付いていると推定する。

なお、ユーザの運転負荷を推定する方法としては、特に限定されないが、例えば、ユーザの心拍信号または呼吸信号に基づいて運転負荷を推定できる。すなわち、図示しないシートに内設された超音波センサーを用いてユーザの心拍信号を検出し、検出された心拍信号に基づいて拍動間隔の分散値を算出する。そして、拍動間隔の分散値と運転負荷との相関関係に基づいて、算出された拍動間隔の分散値から運転負荷を推定することができる。なお、拍動間隔の分散値と運転負荷との関係を統計的に解析することで、拍動間隔の分散値から運転負荷を求めることができる。また、図示しないシートベルトに設置された呼吸センサーを用いてユーザの呼吸信号を検出し、検出された呼吸信号を周波数成分に変換して、呼吸周波数を得る。そして、この呼吸周波数と運転負荷との相関関係に基づいて、呼吸周波数からユーザの運転負荷を推定することができる。

第２の方法として、推定機能は、ユーザの視線方向に基づいて、ユーザが注意喚起情報に気が付いているか否か推定する。すなわち、推定機能は、ユーザの視線方向を検出し、例えば、注意喚起情報としてディスプレイ３０の画面上に表示されたアイコンに、ユーザが視線を向けなかった場合、ユーザは注意喚起情報に気が付いていないと推定し、一方、注意喚起情報としてディスプレイ３０の画面上に表示されたアイコンに、ユーザが視線を向けた場合、ユーザは注意喚起情報に気が付いていると推定する。なお、ユーザの視線方向を検出する方法は、特に限定されず、例えば、不可視光をユーザの眼球に照射し、その反射光に基づいて、ユーザの視線方向を検出できる。

第３の方法として、推定機能は、ユーザの運転操作の安定性に基づいて、ユーザが注意喚起情報に気が付いていているか否かを推定する。すなわち、推定機能は、ユーザの運転操作の安定性を検出し、ユーザの運転操作の安定性が変化しなかった場合に、ユーザは注意喚起情報に気が付いていないと推定し、一方、ユーザの運転操作の安定性が変化した場合に、ユーザは注意喚起情報に気が付いていると推定する。なお、ユーザの運転操作の安定性は、例えば、ユーザによるステアリング操作のスムーズさ、アクセル操作のスムーズさを検出することで判断される。

さらに推定機能は、上述した第１から第３の方法で推定する際に、注意喚起情報を提示する提示態様に応じて、ユーザが注意喚起情報に気付いていているか否かを推定してもよい。例えば、図２に示すように、提示情報の重要度が低く、注意喚起情報として、ディスプレイ３０の画面上にアイコンのみが提示される場合は、ユーザが注意喚起情報に気が付く可能性は低いと判断し、ユーザが注意喚起情報に気が付いていないとの推定する要因とする。一方、提示情報の重要度が高く、注意喚起情報として、ディスプレイ３０の画面上にアイコンが表示され、さらに告知音および音声メッセージがスピーカ４０から出力される場合は、ユーザが注意喚起情報に気が付く可能性は高いと判断し、ユーザが注意喚起情報に気が付いているとの推定の要因とする。すなわち、推定機能は、第１から第３の方法のうち少なくても１つの方法で得られた推定結果に、注意喚起情報を提示する提示態様に基づいて得られた推定要因を加味することで、ユーザが注意喚起情報に気が付いていているか否かを推定できる。

検出機能は、マイク２０から入力された音声信号の中から、ユーザが発話した音声に基づく音声信号であるユーザ音声信号を検出する。ここで、マイク２０により入力される音声信号の中には、ユーザが発話した音声に基づくユーザ音声信号の他に、騒音に基づく音声信号が含まれる。そこで、検出機能は、入力された音声信号の中から、所定の検出条件を満たす音声信号をユーザ音声信号として検出する。具体的には、以下に説明する手法でユーザ音声信号が検出される。

図６は、第１実施形態に係るユーザ音声信号の検出方法を説明するための図である。図６において、注意喚起情報の提示を開始した時刻を時刻Ｔ１、音声の取り込みを開始した時刻を時刻Ｔ２とする。また、図６（Ａ）に示すように、音声の取り込みを開始した時刻Ｔ２から時刻Ｔ３までの時間が最大待ち受け時間ｔ_０として設定される。検出機能は、図（Ａ）に示す時刻Ｔ２から時刻Ｔ３までの最大待ち受け時間ｔ_０内に、マイク２０により入力された音声信号があった場合に、入力された音声信号をユーザ音声信号として検出する。例えば、図６（Ｂ）の場面例では、音声信号が最大待ち受け時間内ｔ_０内に入力されているため、この音声信号はユーザ音声信号として検出される。

認識機能は、ユーザによって発話された発話音声の音声特徴パターンと、認識対象語彙の音響モデルの音声パターンとの一致度を演算することで音声認識処理を行う。具体的には、まず、認識機能は、認識対象データとして外部記憶装置１３に記憶されている音声認識処理の対象となる認識対象語彙や、認識対象語彙の音響モデル、さらには、認識対象語彙とその接続関係を規定したネットワーク文法などの言語モデルを読み出し、ＲＡＭに読み込む。そして、入力された音声信号の音声特徴パターンとＲＡＭに読み込まれたそれぞれの認識対象語彙の音声特徴パターンとの一致度を演算する。そして、一致度演算の結果、その一致度の大きさを示すスコアを認識対象語彙ごとに算出し、このスコアが最も高い認識対象語彙、すなわち最も一致度の高い認識対象語彙を音声認識結果として抽出する。

設定機能は、ユーザ音声信号を検出する際の検出条件を設定する。すなわち、設定機能は、図６（Ａ）に示すように、最大待ち受け時間ｔ_０を設定し、音声信号が最大待ち受け時間ｔ_０内に入力されることを、ユーザ音声信号を検出する際の検出条件として設定する。またこれに加え、ユーザが注意喚起情報に気が付いていないと推定された場合に、以下に説明するように、設定された検出条件を変更する。

図７は、第１実施形態に係るユーザ音声信号の検出条件を変更する手法例を説明するための図である。図７（Ａ）は、ユーザが注意喚起情報に気が付いておらず、かつ、騒音に基づく音声信号が最大待ち受け時間ｔ_０内に入力された場面例である。設定機能は、最大待ち受け時間ｔ_０内に入力された音声信号をユーザ音声信号として検出するよう検出条件を設定するため、図７（Ａ）に示すように、最大待ち受け時間ｔ_０内に入力された騒音に基づく音声信号は、ユーザの音声信号として検出される。これに対し、ユーザが注意喚起情報に気が付いていない場合に、設定機能は、図７（Ａ）に示すように時刻Ｔ２から時刻Ｔ３までの最大待ち受け時間ｔ_０を、図７（Ｂ）に示すように、時刻Ｔ２から時刻Ｔ４までの最大待ち受け時間ｔ_１に短縮する。これにより、図７（Ａ）に示すように、偶発的に発声した騒音に基づく音声信号が最大待ち時間ｔ_０内に検出され、騒音に基づく音声信号がユーザ音声信号として検出されるような場面例であっても、図７（Ｂ）に示すように、最大待ち受け時間を短縮することで、騒音に基づく音声信号が最大待ち受け時間ｔ_１内で検出されなくなり、騒音に基づく音声信号をユーザ音声信号として検出する可能性を低減できる。

次に、図８および図９に基づき本実施形態に係る走行支援処理について説明する。図８および図９は、音声対話処理を示すフローチャートである。以下に説明する音声対話処理は、コントローラ１２により一定時間間隔で実行される。

まず、ステップＳ１０１では、取得機能により、図示しない車両コントローラおよび通信装置から、ユーザに提示すべき提示情報が取得される。ユーザに提示すべき提示情報を取得できた場合は、ステップＳ１０２に進む。一方、ユーザに提示すべき提示情報を取得できない場合は、所定時間経過後、再度ステップＳ１０１を繰り返す。

ステップＳ１０２では、提示機能により、ステップＳ１０１で取得された提示情報に基づいて、提示情報の重要度が決定される。なお、提示情報の重要度を決定する手法は、特に限定されず、例えば、ユーザが提示情報を必要とする有用性に応じて、提示情報の重要度を決定してもよいし、またユーザの嗜好を加味して提示情報の重要度を決定してもよい。

ステップＳ１０３では、提示機能により、ステップＳ１０２で決定された提示情報の重要度に応じて、注意喚起情報の提示態様が決定される。続くステップＳ１０４では、決定された提示態様により、注意喚起情報が提示される。提示情報の重要度と注意喚起情報の提示態様との関係は、例えば、図２に示す関係のようになる。すなわち、提示情報の重要度が低い場合は、図３に示すように、アイコンのみがディスプレイ３０の画面上に表示され、提示情報の重要度が中程度の場合は、図４に示すように、アイコンの表示と同時に告知音が出力される。また、提示情報の重要度が高い場合は、図５に示すように、アイコンの表示と、告知音の出力、さらに、告知音に続いて、音声メッセージが出力される。なお、図２に示す提示情報の重要度と注意喚起情報の提示態様との関係は一例であって、適宜設定される。

次に、ステップＳ１０５では、推定機能により、推定フラグが０にセットされる。推定フラグは、ユーザが注意喚起情報に気が付いたか否かを推定している状態を示している。具体的には、ユーザが注意喚起情報に気が付いたか否かの推定を継続している期間は、推定フラグは０にセットされ、一方、ユーザが注意喚起情報に気が付いたか否かの推定が終了した場合、すなわち、ステップＳ１２４においてユーザが注意喚起情報に気が付いていると推定された場合、あるいはステップＳ１２４においてユーザが注意喚起情報に気が付いていないと推定され、ステップＳ１２７においてユーザ音声信号を検出する際の検出条件が変更された場合に、推定フラグは１にセットされる。

次に、ステップＳ１０６では、検出機能により、音声の取り込みが開始される。ステップＳ１０４で注意喚起情報をユーザに提示し、ユーザが提示された注意喚起情報に気が付いた場合、ユーザは注意喚起情報に対して提示情報を受容する、または受容しないとの意図を発話する。例えば、ユーザは、提示情報を受容する意図として、「何」、「どうぞ」、あるいは「情報」などの音声を発話し、提示情報を受容しない意図として、「いいえ」または「要らない」などの音声を発話するものと想定される。ステップＳ１０６では、このようにユーザが発話した音声の取り込みを開始する。なお、ステップＳ１０６で、音声の取り込みを開始した後は、ステップＳ１１０またはステップＳ１１８で音声の取り込みを終了するまで、音声の取り込みが継続される。

ステップＳ１０７では、マイク２０により入力された音声信号の中から、ユーザの発話音声に基づくユーザ音声信号が検出されたか判断される。例えば、図６に示すように、検出機能は、最大待ち受け時間ｔ_０内に入力された音声信号をユーザ音声信号として検出する。そして、ユーザ音声信号が検出された場合は、ステップＳ１０８に進み、一方、ユーザ音声信号が検出されない場合は、図９に示すステップＳ１１７に進む。

ステップＳ１０８では、認識機能により、検出されたユーザ音声信号の音声パターンと、ＲＡＭに読み込まれた認識対象語彙の音声パターンとの一致度が演算され、一致度の大きさを示すスコアが認識対象語彙ごとに算出される。なお、認識機能により一致度演算を実行している間も、並列して、検出機能による音声取り込みが継続して実行される。

続いてステップＳ１０９では、ユーザの発話が終了したか判断される。ユーザの発話が終了したか否かの判断は特に限定されず、本実施形態では、入力される音声信号の瞬間パワーが所定時間以上にわたって所定閾値以下となった場合に、ユーザの発話が終了したものと判断する。ユーザの発話が終了したと判断された場合は、ステップＳ１１０に進み、一方、ユーザの発話が終了していないと判断された場合は、ステップＳ１０７に戻り、ユーザ音声信号の検出を継続する。

ステップＳ１１０では、ステップＳ１０９において、ユーザの発話が終了したものと判断されているため、音声の取り込みを終了する。続く、ステップＳ１１１では、推定フラグが０にセットされる。

次に、ステップＳ１１２では、ステップＳ１０８の一致度演算が終了するまで待機した後、この一致度演算の結果に基づいて、一致度の大きさを示すスコアが最も高かった認識対象語彙が抽出される。これにより、注意喚起情報に対してユーザが発話した音声が、「何？」、「どうぞ」、あるいは「情報」などの提示情報の受容する意図を示すものか、「いいえ」や「要らない」などの提示情報の受容しない意図を示すものであるかを判断することができる。

そして、ステップＳ１１３では、提示機能により、提示情報を提示する必要があるか否か判断される。すなわち、ステップＳ１１２で抽出されたユーザの発話音声が「何？」、「どうぞ」、あるいは「情報」などの提示情報を受容する意図を示す場合には、ユーザに提示情報を提示する必要があると判断し、一方、ステップＳ１１２で抽出されたユーザの発話音声が「いいえ」または「要らない」などの提示情報を受容しない意図を示す場合には、ユーザに提示情報を提示する必要がないと判断する。ユーザに提示情報を提示する必要があると判断された場合はステップＳ１１４に進み、一方、ユーザに提示情報を提示する必要がないと判断された場合は、ステップＳ１１６に進む。

ステップＳ１１４では、提示機能により、提示情報が提示される。例えば、図３に示す場面例では、ユーザの「何？」との発話音声に対して、車両の現在位置周辺に存在するレストラン情報である提示情報「近くにお勧めのレストランがあります。情報を表示しますか？」が出力される。

ステップＳ１１４で提示情報が提示された後は、ステップＳ１１５に進み、ディスプレイ３０の画面上に表示されたアイコンなどの注意喚起情報が消去され、この音声対話処理が終了する。また、ステップＳ１１６で提示情報を提示しない旨決定された後も、音声対話処理を終了する。なお、注意喚起情報は提示情報を提示する前に消去してもよい。

続いて、図９に示す音声対話処理について説明する。ステップＳ１０７において、ユーザ音声信号が検出されなかった場合には、図９に示すステップＳ１１７に進む。

ステップＳ１１７では、音声の取り込みを開始してからの経過時間が、最大待ち受け時間を越えたか否か判定される。音声の取り込みを開始してからの経過時間が、最大待ち受け時間を越えた場合は、ステップＳ１１８に進む。一方、音声取り込みを開始してからの経過時間が、最大待ち受け時間を越えていない場合は、ステップＳ１２２に進む。

ステップＳ１１８では、音声取り込みを開始してからの経過時間が最大待ち受け時間を経過しているため、音声の取り込みが終了される。続くステップＳ１１９で推定フラグが０にセットされ、ステップＳ１２０でディスプレイ３０の画面上に表示される注意喚起情報が消去される。そして、ステップＳ１２１で、提示情報を提示しない旨が決定され、この音声対話処理が終了する。

また、ステップＳ１１７で、音声取り込みを開始してからの経過時間が、最大待ち受け時間を越えていない場合は、ステップＳ１２２に進み、推定フラグが１にセットされているか判断される。推定フラグが１にセットされている場合は、ユーザが注意喚起情報に気が付いているか否かの推定がされているため、ステップＳ１０７に戻り、最大待ち受け時間が経過するまで、ユーザ音声信号が検出される。一方、推定フラグが０にセットされている場合は、ユーザが注意喚起情報に気が付いているか否かの推定が継続されており、ステップＳ１２３に進む。

ステップＳ１２３では、推定機能により、ユーザが注意喚起情報に気が付いたか否か推定される。なお、ユーザが注意喚起情報に気が付いたか否かを推定する方法は、ユーザの運転負荷に基づく方法、ユーザの視線方向に基づく方法、ユーザの運転操作が安定性に基づく方法、またはこれら方法のうち少なくとも１の方法に、注意喚起情報の提示態様を加味した方法のいずれでもよく、またこれら方法を組み合わせた方法でもよい。

続くステップＳ１２４では、ステップＳ１２３の推定結果に基づいて、ユーザが注意喚起情報に気が付いたか否か判断される。ユーザが注意喚起情報に気が付いたと推定された場合はステップＳ１２５に進み、一方、ユーザが注意喚起情報に気が付いていないと推定された場合はステップＳ１２６に進む。

ステップＳ１２５では、ユーザが注意喚起情報に気が付いたと推定されており、推定状態を示す推定フラグを、推定を継続している状態を示す０から、推定を終了した状態を示す１に変更し、ユーザが注意喚起情報に気が付いたか否かの推定を終了する。ステップＳ１２５で、推定フラグが１に設定された後は、ステップＳ１０７に戻り、最大待ち受け時間が経過するまで、ユーザ音声信号が検出される。

一方、ステップＳ１２４で、ユーザが注意喚起情報に気が付いていないと推定された場合は、ステップＳ１２６に進む。ステップＳ１２６では、ユーザが注意喚起情報に気が付いたか否かを推定するための時間であるユーザ観測時間を経過したか否か判断される。例えば、推定機能は、図７（Ａ）および図７（Ｂ）に示すように、ユーザが注意喚起情報に気が付いたか否かの推定を、時刻Ｔ５から時刻Ｔ６までのユーザ観測時間を経過するまで継続し、このユーザ観測時間内に、ユーザが注意喚起情報に気が付いたと推定されない場合に、ユーザが注意喚起情報に気が付いていないと推定する。ユーザ観測時間を経過した場合はステップＳ１２７に進み、一方、ユーザ観測時間を経過していない場合は、ステップＳ１０７に戻り、ユーザが注意喚起情報に気が付いたか否かの推定が継続される。

ステップＳ１２７では、ユーザが注意喚起情報に気が付いていないと推定されており、設定機能は、最大待ち受け時間を短縮することで、ユーザ音声信号を検出する際の検出条件を変更する。例えば、図７（Ａ）に示すように、時刻Ｔ２から時刻Ｔ３までの最大待ち受け時間ｔ_０を、図７（Ｂ）に示すように、時刻Ｔ２から時刻Ｔ４までの最大待ち受け時間ｔ_１に短縮する。これにより、図７（Ａ）に示すように、偶発的に発声した騒音に基づく音声信号が最大待ち時間ｔ_０内に検出され、騒音に基づく音声信号がユーザ音声信号として検出されるような場面例であっても、図７（Ｂ）に示すように、最大待ち受け時間を短縮することで、騒音に基づく音声信号が最大待ち受け時間ｔ_１内に検出されなくなる。

ステップＳ１２７で、最大待ち受け時間が短縮された後は、ステップＳ１２５に進み、推定フラグが１にセットされ、最大待ち受け時間が経過するまで、ユーザ音声信号の検出が継続される。

以上のように、本実施形態では、ユーザが注意喚起情報に気が付いたか否かを推定し、ユーザが注意喚起情報に気が付いていないと推定された場合に、ユーザ音声信号を待ち受けるための時間である最大待ち受け時間を短縮することで、ユーザ音声信号を検出する際の検出条件を変更する。ユーザが注意喚起情報に気が付いていない場合、提示情報の存在を知らせるための注意喚起情報に対して、ユーザが提示情報を受容する意図、または提示情報を受容しない意図を発話する可能性は低いと想定される。またこのような場合、騒音などのノイズが混入し、これらノイズがユーザ音声信号として検出されてしまう場合がある。これに対し、ユーザが注意喚起情報に気が付いていないと推定される場合に、最大待ち受け時間を短縮することで、騒音などのノイズの混入を有効に防ぐことができる。その結果、ユーザが要求しない提示情報が誤ってユーザに提示され、ユーザに煩わしさを与えることを解消することができる。

また、本実施形態では、ユーザの運転負荷を推定することで、ユーザが注意喚起情報に気が付いているか否かを推定する。すなわち、ユーザの運転負荷が大きいと推定された場合に、ユーザは運転に集中するものと想定されるため、ユーザが注意喚起情報に気が付いていないと推定し、一方、ユーザの運転負荷が小さいと推定された場合は、ユーザは注意喚起情報に注意を払う余裕があり、注意喚起情報に気が付いたと推定する。これにより、この推定結果に基づいて、ユーザ音声信号の検出条件を適切に設定することができるため、騒音などのノイズに基づく音声信号をユーザ音声信号として誤って検出してしまう可能性を低減することができる。

さらに、本実施形態では、ユーザの視線方向を検出することで、ユーザが注意喚起情報に気が付いているか否かを推定する。すなわち、注意喚起情報であるアイコンが表示されているディスプレイ３０の画面方向に、ユーザの視線が移動した場合は、ユーザが注意喚起情報に気が付いていると推定し、一方、アイコンが表示されているディスプレイ３０の画面方向に、ユーザの視線が移動しなかった場合は、ユーザが注意喚起情報に気が付いていないと推定する。このように、ユーザの視線方向を検出することで、ユーザが注意喚起情報に気が付いているか否かを精度よく推定することができる。これにより、この推定結果に基づいて、ユーザ音声信号の検出条件を適切に設定することができるため、騒音などのノイズに基づく音声信号をユーザ音声信号として誤って検出してしまう可能性を低減することができる。

加えて、本実施形態では、ユーザの運転操作の安定性を検出することで、ユーザが注意喚起情報に気が付いているか否かを推定する。すなわち、ユーザのステアリング操作、アクセル操作を検出し、ステアリング操作、アクセル操作がスムーズになされ、運転操作が安定している場合には、ユーザは注意喚起情報に気が付いていないと推定する。このように、ユーザの運転操作の安定性を検出することで、比較的簡単な処理によりユーザが注意喚起情報に気が付いているか否かを推定することができる。これにより、この推定結果に基づいて、ユーザ音声信号の検出条件を適切に設定することができるため、騒音などのノイズに基づく音声信号をユーザ音声信号として誤って検出してしまう可能性を低減することができる。

また、本実施形態では、ユーザが注意喚起情報に気が付いているか否かを推定する際に、上述したユーザの運転負荷に基づく方法、ユーザの視線方向に基づく方法、およびユーザの運転操作の安定性に基づく方法のうち少なくともいずれか１つの方法に、注意喚起情報の提示態様を加味して推定する。すなわち、提示情報の重要度が低く、注意喚起情報として、ディスプレイ３０の画面上にアイコンのみが提示される提示態様では、ユーザが注意喚起情報に気が付く可能性は低いと判断し、ユーザが注意喚起情報に気が付いていないとの推定要因とする。一方、提示情報の重要度が高く、注意喚起情報として、ディスプレイ３０の画面上にアイコンが表示され、さらに告知音および音声メッセージがスピーカ４０から出力される提示態様では、ユーザが注意喚起情報に気が付く可能性は高いと判断し、ユーザが注意喚起情報に気が付いているとの推定要因とする。そして、推定機能は、第１から第３の方法のうち少なくても１つの方法で得られた推定結果に、注意喚起情報を提示する提示態様に基づいて得られた推定要因を加味することで、ユーザが注意喚起情報に気が付いていているか否かを推定する。これにより、この推定結果に基づいて、ユーザ音声信号の検出条件を適切に推定することができるため、騒音などのノイズに基づく音声信号をユーザ音声信号として誤って検出してしまう可能性を低減することができる。

しかも、本実施形態では、提示情報の重要度に応じて、注意喚起情報の提示態様が決定される。すなわち、図２に示すように、提示情報の重要度が低い場合には、注意喚起情報としてディスプレイ３０にアイコンが表示されるのみであり、ユーザが注意喚起情報に気が付く可能性は低くなる。一方、提示情報の重要度が高い場合には、注意喚起情報としてディスプレイ３０にアイコンが表示され、またスピーカ４０を介して、『ポン』という告知音と、告知音に続けて音声メッセージを出力するため、ユーザが注意喚起情報に気が付く可能性が高くなる。このように、提示情報の重要度に応じて、ユーザが注意喚起情報を提示する提示態様を決定することで、重要な提示情報をユーザが見落とす可能性を低減することができる。

≪第２実施形態≫
続いて、本発明の第２実施形態について説明する。第２実施形態では、コントローラ１２の検出機能が、最大待ち受け時間内に入力された音声信号の平均パワーが所定のパワー閾値を越える場合に、入力された音声信号をユーザ音声信号として検出すること、およびコントローラ１２の設定機能が、ユーザが注意喚起情報に気が付いていないと推定された場合に、パワー閾値を大きくすること以外は、第１実施形態と同様の構成を有する。以下において、第１実施形態と異なるコントローラ１２の検出機能および設定機能について説明する。

コントローラ１２の検出機能は、最大待ち受け時間内に入力された入力された音声信号の平均パワーが、所定のパワー閾値を越える場合に、入力された音声信号をユーザ音声信号として検出する。図１０は、第２実施形態に係るユーザ音声信号の検出方法を説明するための図である。なお、図１０において、図１０（Ａ）では、入力された音声信号を示しており、音声信号の振幅を縦軸とする。一方、図１０（Ｂ）では、入力された音声信号の平均パワーを示しており、振幅の大きさ（強度）を示すパワーを縦軸とする。検出機能は、まず、最大待ち受け時間内に入力された音声信号の一定時間における平均パワーを算出する。例えば、図１０（Ａ）に示すようなユーザの発話音声に基づく音声信号から、図１０（Ｂ）に示すような音声信号の平均パワーが算出される。そして、検出機能は、算出された音声信号の平均パワーが、所定のパワー閾値を越えるか否かを判断する。例えば、図１０（Ｂ）に示すように、音声信号の平均パワーがパワー閾値ｐ_０を越える場合、検出機能は、入力された音声信号をユーザ音声信号として検出する。

コントローラ１２の設定機能は、推定機能による推定結果に基づいて、ユーザ音声信号を検出するための検出条件を設定する。具体的には、設定機能は、図１０（Ｂ）に示すようにパワー閾値ｐ_０を設定する他、ユーザが注意喚起情報に気が付いていないと推定された場合に、パワー閾値を大きくすることで、ユーザ音声信号を検出するための検出条件を変更する。

図１１は、第２実施形態に係るユーザ音声信号の検出条件を変更する手法例を説明するための図である。設定機能は、パワー閾値ｐ_０を設定することで、最大待ち受け時間内に入力された音声信号から算出された音声信号の一定時間における平均パワーが、設定されたパワー閾値ｐ_０を越えることをユーザ音声信号の検出条件に設定する。そのため、図１１（Ａ）に示す最大待ち受け時間内に入力された音声信号から算出された音声信号の一定時間における平均パワーが、図１１（Ｂ）に示すように、所定のパワー閾値ｐ_０を越える場合、入力された音声信号がユーザ音声信号として検出される。また、設定機能は、ユーザが注意喚起情報に気が付いていないと推定される場合には、図１１（Ｂ）に示すパワー閾値ｐ_０を、図１１（Ｃ）に示すように、パワー閾値ｐ_０よりも大きいパワー閾値ｐ_１に変更する。これにより、図１１（Ｂ）に示すように、偶発的に発声した騒音に基づく音声信号から算出された平均パワーがパワー閾値ｐ_０を越え、騒音に基づく音声信号がユーザ音声信号として検出されるような場面例であっても、図１１（Ｃ）に示すように、パワー閾値をパワー閾値ｐ_０からパワー閾値ｐ_１へと大きくすることで、騒音に基づく音声信号から算出された平均パワーが、変更されたパワー閾値ｐ_１を越えなくなり、騒音に基づく音声信号がユーザ音声信号として検出されなくなる。このように、ユーザが注意喚起情報に気が付いていない場合に、設定機能により、パワー閾値を大きくしてユーザ音声信号を検出する際の検出条件を変更することで、騒音に基づく音声信号をユーザ音声信号として検出する可能性を低減することができる。

続いて第２実施形態に係る音声対話処理について説明する。なお、第２実施形態に係る音声対話処理は、ステップＳ１０６で音声取り込みが開始された後のユーザ音声信号検出処理、およびユーザ音声信号を検出する際の検出条件を変更するステップＳ１２７のみにおいて、第１実施形態に係る音声対話処理と異なる。そこで、以下においては、ステップＳ１０６の後のユーザ音声信号検出処理、およびステップＳ１２７について説明する。

ステップＳ１０６において音声の取り込みが開始された後、ユーザ音声信号が検出される。具体的には、図１０（Ｂ）に示すように、最大待ち受け時間内に入力された音声信号の一定時間ごとの平均パワーが算出され、算出された平均パワーが所定のパワー閾値ｐ_０を越える音声信号が、ユーザ音声信号として検出される。

また、ユーザが注意喚起情報に気が付いていないと推定された後のステップＳ１２７では、パワー閾値を大きくすることで、ユーザ音声信号を検出する際の検出条件が変更される。例えば、図１１に示す場面例では、図１１（Ｂ）に示すパワー閾値ｐ_０から、図１１（Ｃ）に示すパワー閾値ｐ_１に大きくする。これにより、偶発的に発生した騒音に基づく音声信号が、ユーザ音声信号として検出される可能性を低減することができる。

以上のように、第２実施形態では、最大待ち受け時間内に入力された音声信号の一定時間における平均パワーを算出し、算出された平均パワーが所定のパワー閾値を越えた場合に、この音声信号をユーザ音声信号として検出するとともに、ユーザが注意喚起情報に気が付いていない場合には、パワー閾値を大きくして、ユーザ音声信号を検出する際の検出条件を変更する。これにより、ユーザにより十分な大きさで発話されたユーザの発話音声に基づく音声信号を、ユーザ音声信号として適切に検出することができる一方、音量の小さい騒音などのノイズの混入を有効に防ぐことができる。その結果、ユーザが要求しない提示情報が誤ってユーザに提示され、ユーザに煩わしさを与えることを解消することができる。

≪第３実施形態≫
続いて、本発明の第３実施形態について説明する。第３実施形態では、コントローラ１２の検出機能が、最大待ち受け時間内に入力された音声信号の平均パワーを算出し、算出された平均パワーが所定のパワー値を越えた状態が所定の継続時間以上続く場合に、入力された音声信号をユーザ音声信号として検出すること、およびコントローラ１２の設定機能が、ユーザが注意喚起情報に気が付いていないと推定された場合に、継続時間を延長すること以外は、第１実施形態と同様の構成を有する。以下において、第１実施形態と異なるコントローラ１２の検出機能および設定機能について説明する。

コントローラ１２の検出機能は、最大待ち受け時間内に入力された音声信号の平均パワーが所定のパワー値を越えた状態が、所定の継続時間以上続く場合に、入力された音声信号をユーザ音声信号として検出する。図１２は、第３実施形態に係るユーザ音声信号の検出方法を説明するための図である。検出機能は、まず、最大待ち受け時間内に入力された音声信号の一定時間における平均パワーを算出する。例えば、図１２（Ａ）に示すようなユーザの発話音声に基づく音声信号から、図１２（Ｂ）に示すような音声信号の平均パワーが算出される。そして、検出機能は、算出された音声信号の平均パワーが、所定のパワー値を越えるか判断する。算出された音声信号の平均パワーが所定のパワー値を越える場合、検出機能は、さらに音声信号の平均パワーが所定のパワー値を越えた状態が、継続時間以上続くか判断される。例えば、図１２（Ｂ）に示すように、入力された音声信号の平均パワーが所定のパワー値を越えて、継続時間ｔ_２以上続いた場合に、検出機能は、入力された音声信号をユーザ音声信号として検出する。

コントローラ１２の設定機能は、推定機能による推定結果に基づいて、ユーザ音声信号を検出するための検出条件を設定する。具体的には、設定機能は、図１２（Ｂ）に示すように所定のパワー値及び所定の継続時間ｔ_２を設定することに加えて、ユーザが注意喚起情報に気が付いていないと推定された場合に、継続時間を延長することで、ユーザ音声信号を検出するための検出条件を変更する。

図１３は、第３実施形態に係るユーザ音声信号の検出条件を変更する手法例を説明するための図である。設定機能は、所定のパワー値および所定の継続時間ｔ_２を設定することで、最大待ち受け時間内に入力された音声信号から算出された音声信号の一定時間における平均パワーが所定のパワー値を越え、かつ、算出された平均パワーが所定のパワー値を越えた状態が、継続時間ｔ_２以上続くことをユーザ音声信号の検出条件として設定する。そのため、図１３（Ａ）に示す最大待ち受け時間内に入力された音声信号から算出された音声信号の一定時間における平均パワーが、図１３（Ｂ）に示すように、所定のパワー値を越える状態で所定の継続時間ｔ_２以上続く場合、入力された音声信号は、ユーザ音声信号として検出される。また、設定機能は、ユーザが注意喚起情報に気が付いていない場合には、図１３（Ｂ）に示す時刻Ｔ７から時刻Ｔ８までの継続時間ｔ_２を、図１３（Ｃ）に示すように、継続時間ｔ_２よりも長い時刻Ｔ７から時刻Ｔ９までの継続時間ｔ_３に延長する。これにより、図１３（Ｂ）に示すように、偶発的に発声した騒音に基づく音声信号から算出された平均パワーが所定のパワー値を越えた状態で継続時間ｔ_２以上続くことにより、騒音に基づく音声信号がユーザ音声信号として検出されるような場合例であっても、継続時間を継続時間ｔ_２から継続時間ｔ_３へと延長することで、図１３（Ｃ）に示す場面例のように、偶発的に発生した騒音に基づく音声信号の平均パワーが所定のパワー値を越える状態が継続時間ｔ_３以上継続しなくなり、騒音に基づく音声信号がユーザ音声信号として検出されない。このように、ユーザが注意喚起情報に気が付いていないと推定される場合に、設定機能により、継続時間を延長してユーザ音声信号を検出する際の検出条件を変更することで、騒音に基づく音声信号をユーザ音声信号として検出する可能性を低減することができる。

続いて第３実施形態に係る音声対話処理について説明する。なお、第３実施形態に係る音声対話処理は、ステップＳ１０６で音声取り込みが開始された後のユーザ音声信号検出処理、およびユーザ音声信号を検出する際の検出条件を変更するステップＳ１２７のみにおいて、第１実施形態に係る音声対話処理と異なる。そこで、以下においては、ステップＳ１０６の後のユーザ音声信号検出処理、およびステップＳ１２７について説明する。

まず、ステップＳ１０６において音声の取り込みが開始された後、ユーザ音声信号が検出される。具体的には、図１２（Ｂ）に示すように、最大待ち受け時間内に入力された音声信号の一定時間ごとの平均パワーが算出され、算出された平均パワーが所定のパワー値を越える状態が継続時間ｔ_２以上続く場合に、この音声信号がユーザ音声信号として検出される。

また、ユーザが注意喚起情報に気が付いていないと推定された後のステップＳ１２７では、継続時間を大きくすることで、ユーザ音声信号を検出する際の検出条件が変更される。例えば、図１３に示す場面例では、図１３（Ｂ）に示すように、時刻Ｔ７から時刻Ｔ８までの継続時間ｔ_２を、図１３（Ｃ）に示すように、時刻Ｔ７から時刻Ｔ９までの継続時間ｔ_３に延長する。これにより、偶発的に発声した騒音に基づく音声信号が、ユーザ音声信号として検出される可能性を低減することができる。

以上のように、第３実施形態では、入力された音声信号の平均パワーが所定のパワー値を越える状態が、所定の継続時間以上続く場合に、入力された音声信号をユーザ音声信号として検出する。そして、ユーザが注意喚起情報に気が付いていないと推定された場合に、継続時間を延長することで、ユーザ音声信号を検出する際の検出条件を変更する。これにより、ユーザにより十分な長さで発話されたユーザの発話音声に基づく音声信号を、ユーザ音声信号として適切に検出することができる一方、音声の長さが短い騒音などのノイズの混入を有効に防ぐことができる。その結果、ユーザが要求しない提示情報が誤ってユーザに提示され、ユーザに煩わしさを与えることを解消することができる。

以上説明した実施形態は、本発明の理解を容易にするために記載されたものであって、本発明を限定するために記載されたものではない。したがって、上記の実施形態に開示された各要素は、本発明の技術的範囲に属する全ての設計変更や均等物をも含む趣旨である。例えば、本発明の実施形態は、上述した第１実施形態から第３実施形態に限られるものではなく、また上述した第１実施形態から第３実施形態を組み合わせてもよい。

例えば、第３実施形態では、入力された音声信号から算出された音声信号の一定時間における平均パワーが、所定のパワー値を越えた状態で、所定の継続時間以上続くことを、ユーザ音声信号の検出条件としているが、入力された音声信号が所定の継続時間以上続くことのみを検出条件としてもよい。

なお、上述した実施形態の提示機能は本発明の提示手段に、マイク２０は本発明の入力手段に、検出機能及び認識機能は本発明の検出手段に、推定機能は本発明の推定手段に、設定機能は本発明の設定手段にそれぞれ相当する。

１００…ナビゲーション装置
１０…ナビゲーション装置本体
１１…Ａ／Ｄコンバータ
１２…コントローラ
１３…外部記憶装置
１４…Ｄ／Ａコンバータ
１５…アンプ
２０…カメラ
３０…ディスプレイ
４０…スピーカ
５０…入力スイッチ

Claims

ユーザに対するメッセージ情報をユーザに提示する提示手段と、
音声を入力する入力手段と、
前記入力手段により入力された音声のうち、所定の検出条件を満たす音声を、前記メッセージ情報に対するユーザの発話音声として検出する検出手段と、
ユーザの状態を推定する推定手段と、
前記推定手段により推定されたユーザの状態に基づいて、前記検出手段によるユーザの発話音声を検出する際の検出条件を設定する設定手段と、を備えることを特徴とする音声対話装置。
請求項１に記載の音声対話装置であって、
前記メッセージ情報は、ユーザに提示すべき提示情報の存在をユーザに知らせるための情報であることを特徴とする音声対話装置。
請求項１または２に記載の音声対話装置であって、
前記検出条件は、音声が所定の待機時間内に入力されることを含むことを特徴とする音声対話装置。
請求項３に記載の音声対話装置であって、
前記設定手段は、前記推定されたユーザの状態に基づいて、前記所定の待機時間を変更することを特徴とする音声対話装置。
請求項１〜４のいずれかに記載の音声対話装置であって、
前記検出条件は、入力された音声の音声レベルが所定の閾値を越えることを含むことを特徴とする音声対話装置。
請求項５に記載の音声対話装置であって、
前記設定手段は、前記推定されたユーザの状態に基づいて、前記所定の閾値を変更することを特徴とする音声対話装置。
請求項１〜６のいずれかに記載の音声対話装置であって、
前記検出条件は、音声が所定の継続時間以上継続して入力されることを含むことを特徴とする音声対話装置。
請求項７に記載の音声対話装置であって、
前記設定手段は、前記推定されたユーザの状態に基づいて、前記継続時間を変更することを特徴とする音声対話装置。
請求項１〜８のいずれかに記載の音声対話装置であって、
前記推定手段は、ユーザの運転負荷に基づいて、前記ユーザの状態を推定することを特徴とする音声対話装置。
請求項１〜９のいずれかに記載の音声対話装置であって、
前記推定手段は、ユーザの視線方向に基づいて、前記ユーザの状態を推定することを特徴とする音声対話装置。
請求項１〜１０のいずれかに記載の音声対話装置であって、
前記推定手段は、ユーザによる運転操作の安定性に基づいて、前記ユーザの状態を推定することを特徴とする音声対話装置。
請求項２〜１１のいずれかに記載の音声対話装置であって、
前記提示手段は、前記ユーザの発話音声が検出された場合に、検出された前記ユーザの発話音声に基づいて、前記メッセージ情報に続いて、前記提示情報をさらに提示することを特徴とする音声対話装置。
請求項２〜１２のいずれかに記載の音声対話装置であって、
前記提示手段は、前記提示情報の重要度に応じて、ユーザに対する前記メッセージ情報の提示態様を決定することを特徴とする音声対話装置。
請求項１３に記載の音声対話装置であって、
前記推定手段は、前記メッセージ情報の提示態様に基づいて、前記ユーザの状態を推定することを特徴とする音声対話装置。
ユーザに対するメッセージ情報を提示し、前記メッセージ情報の提示の後に入力された音声のうち、所定の検出条件を満たす音声を、前記メッセージ情報に対するユーザの発話音声として検出する音声対話方法であって、
ユーザの状態を推定し、推定された前記ユーザの状態に基づいて、前記ユーザの発話音声を検出する際の検出条件を設定することを特徴とする音声対話方法。