JP2010281855A - 音声対話装置および音声対話方法 - Google Patents
音声対話装置および音声対話方法 Download PDFInfo
- Publication number
- JP2010281855A JP2010281855A JP2009132746A JP2009132746A JP2010281855A JP 2010281855 A JP2010281855 A JP 2010281855A JP 2009132746 A JP2009132746 A JP 2009132746A JP 2009132746 A JP2009132746 A JP 2009132746A JP 2010281855 A JP2010281855 A JP 2010281855A
- Authority
- JP
- Japan
- Prior art keywords
- user
- voice
- information
- presentation
- interaction device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】騒音などのノイズによる誤作動を有効に防止できる音声対話装置を提供する。
【解決手段】ユーザに対するメッセージ情報をユーザに提示する提示手段と、音声を入力する入力手段20と、入力手段20により入力された音声のうち、所定の検出条件を満たす音声を、メッセージ情報に対するユーザの発話音声として検出する検出手段と、ユーザの状態を推定する推定手段と、推定手段により推定されたユーザの状態に基づいて、検出手段によるユーザの発話音声の検出条件を設定する設定手段と、を備えることを特徴とする音声対話装置。
【選択図】 図1
【解決手段】ユーザに対するメッセージ情報をユーザに提示する提示手段と、音声を入力する入力手段20と、入力手段20により入力された音声のうち、所定の検出条件を満たす音声を、メッセージ情報に対するユーザの発話音声として検出する検出手段と、ユーザの状態を推定する推定手段と、推定手段により推定されたユーザの状態に基づいて、検出手段によるユーザの発話音声の検出条件を設定する設定手段と、を備えることを特徴とする音声対話装置。
【選択図】 図1
Description
本発明は、音声対話装置および音声対話方法に関するものである。
ナビゲーション装置の操作に必要となる情報の入力をユーザに促すメッセージ情報を出力し、該操作に応じた会話場面を特定して、メッセージ情報に対するユーザの発話音声を認識する技術が知られている(特許文献1)。
しかしながら、従来技術では、ユーザがメッセージ情報に気が付かない場合であっても、予め設定された所定時間を経過するまでは、ユーザによる音声入力を待ち続けるため、騒音などのノイズがユーザの発話音声として誤って認識されてしまい、ユーザが要求しない情報がユーザに提示されるなどの誤作動を生じる可能性があった。
本発明が解決しようとする課題は、騒音などのノイズによる誤作動を有効に防止できる音声対話装置を提供することである。
本発明は、入力された音声のうち、所定の検出条件を満たす音声を、ユーザの発話音声として検出する際に、ユーザの状態を推定し、推定されたユーザの状態に基づいて、ユーザの発話音声を検出する際の検出条件を設定することで、上記課題を解決する。
本発明の音声対話装置によれば、騒音などのノイズによる誤作動を有効に防止することができるため、ユーザに提示すべき情報を、ユーザの音声に応じて、適切に提示することができる。
以下、本発明の実施形態を図面に基づいて説明する。
≪第1実施形態≫
図1は、本実施形態に係るナビゲーション装置100の構成を示す図である。図1に示すように、ナビゲーション装置100はナビゲーション装置本体10を備え、ナビゲーション装置本体10に、マイク20、ディスプレイ30、スピーカ40および入力スイッチ50が、CAN(Controller Area Network)その他の車載LANを介して、それぞれ接続されている。
図1は、本実施形態に係るナビゲーション装置100の構成を示す図である。図1に示すように、ナビゲーション装置100はナビゲーション装置本体10を備え、ナビゲーション装置本体10に、マイク20、ディスプレイ30、スピーカ40および入力スイッチ50が、CAN(Controller Area Network)その他の車載LANを介して、それぞれ接続されている。
本実施形態において、ナビゲーション装置100は、例えば、タイヤの空気圧が低下していることを示すタイヤ空気圧警報などの警報情報または受信したメールのメール情報などのユーザに提示すべき提示情報を取得した場合、提示情報が存在することをユーザに知らせるための情報である注意喚起情報を、ディスプレイ30やスピーカ40を介して、ユーザに提示する。なお、ナビゲーション装置100は、図示しない通信装置または車両コントローラと接続しており、例えば、通信装置からメール情報を取得し、また車両コントローラからタイヤ空気圧警報などの警報を取得する。また、ナビゲーション装置100は、注意喚起情報に対してユーザが発話した音声を、マイク20で集音し、集音したユーザの音声を音声認識処理することで、ユーザの要求に応じて、提示情報をユーザに提示する。
以下、ナビゲーション装置100の各構成について説明する。
マイク20は、車両室内に設置され、車両室内に出力された音声を集音し、集音した音声をアナログの音声信号に変換し、アナログの音声信号をナビゲーション装置本体10に送信する。
ディスプレイ30は、ナビゲーション装置本体10から送信された画像信号に基づいて、ディスプレイ30が備える画面上に、注意喚起情報としてのアイコンや、コントローラ12による音声認識処理結果である応答画像を表示する。なお、ディスプレイ30は、ナビゲーション装置本体10から送信された自車両の現在位置、自車両の周辺の地図情報、および目的地までの経路誘導情報などをも画面上に表示する。
スピーカ40は、ナビゲーション装置本体10から送信されたアナログの音声信号に基づいて、車両室内に音声を出力する。なお、スピーカ40から出力される音声としては、ユーザに提示すべき情報である提示情報の音声、および提示情報の存在をユーザに知らせるための注意喚起情報などが挙げられる。
入力スイッチ50には、例えば、ユーザによって押下される音声認識開始スイッチ、およびナビゲーション装置100の各機能について、ユーザが操作するためのスイッチなどが含まれる。ナビゲーション装置本体10は、後述するように、注意喚起情報の提示後にユーザの発話音声の取り込みを開始する他、音声認識開始スイッチが押下された場合に、ユーザの発話音声の取り込みを開始する。
続いて、ナビゲーション装置本体10について説明する。ナビゲーション装置本体10は、図1に示すように、A/Dコンバータ11、コントローラ12、外部記憶装置13、D/Aコンバータ14、およびアンプ15を備える。
A/Dコンバータ11は、マイク20から送信されたアナログの音声信号をサンプリングし、さらに量子化することで、マイク20から送信されたアナログの音声信号を、音声出力用のデジタル信号に変換し、コントローラ12に送信する。
また、D/Aコンバータ14は、コントローラ12から送信された音声出力用のデジタル信号をアナログの音声信号に変換し、アンプ15に送信する。アンプ15は、D/Aコンバータ14から送信されたアナログの音声信号を増幅し、スピーカ40に送信する。
外部記憶装置13は、ユーザの音声を認識するための音声認識処理で使用される認識対象データ、システム応答用の音声データなどを記憶している。認識対象データには、音声認識処理で音声認識の対象となる認識対象語彙や、認識対象語彙の音響モデル、さらに、認識対象語彙とその接続関係を規定したネットワーク文法などの言語モデルが含まれる。なお、認識対象語彙の音響モデルは、音響的に意味を持つ部分単語モデルを定義したものである。
また、外部記憶装置13は、必要に応じて、ユーザの発話音声を検出する際に、ユーザがナビゲーション装置100またはその他各種車載装置を操作した操作履歴および/または上記操作が行なわれた際の状況履歴を、ユーザの発話音声に関連付けて記憶する構成としてもよい。
コントローラ12は、音声対話プログラムを格納したROM(Read Only Memory)と、このROMに格納されたプログラムを実行するCPU(Central Processing Unit)と、アクセス可能な記憶装置として機能するRAM(Random Access Memory)とから構成される。なお、動作回路としては、CPU(Central Processing Unit)に代えて又はこれとともに、MPU(Micro Processing Unit)、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)などを用いることができる。
コントローラ12は、ROMに格納したプログラムをCPUにより実行することにより、取得機能、提示機能、推定機能、検出機能、認識機能、および設定機能の各機能を実現する。以下に、コントローラ12が備える各機能について詳細に説明する。
取得機能は、ユーザに提示すべき提示情報を取得する機能である。取得機能は、例えば、図示しない通信装置から、自車両の現在位置の周辺のお勧めのレストラン情報、または受信したメールのメール情報を提示情報として取得する。さらに、取得機能は、例えば、図示しない車両コントローラから、タイヤ空気圧警報などの警報情報を提示情報として取得する。
提示機能は、取得機能によりユーザに提示すべき提示情報が取得された場合、提示情報の存在をユーザに知らせるための注意喚起情報、例えば、『ポン』という告知音や、ディスプレイ30に表示されるアイコンを、ユーザに提示するよう、ディスプレイ30およびスピーカ40に各種信号を送信する。また、提示機能は、注意喚起情報の提示の後に、ユーザが注意喚起情報の提示を受容する意図を検出した場合に、提示情報をユーザに提示するよう、ディスプレイ30およびスピーカ40に各種信号を送信する。
さらに、提示機能は、提示情報の重要度に応じて、注意喚起情報の提示態様を決定する。なお、提示情報の重要度は、例えば、その提示情報がユーザにとって必要とされる有用な情報であるかなどにより適宜決定される。なお、ユーザが、ユーザの嗜好に合わせて、提示情報の重要度を設定できるような構成としてもよい。
図2は、提示情報の重要度と、注意喚起情報の提示態様との関係の一例を示す図である。図2に示すように、提示情報の重要度と注意喚起情報の提示態様は関連付けられており、提示情報の重要度が高くなるほど、ユーザが注意喚起情報に気付き易くなるよう提示態様が決定される。
例えば、図2に示すように、提示情報の重要度が低い場合に、提示機能は、注意喚起情報としてアイコンのみをディスプレイ30の画面上に表示する。図3は、提示情報の重要度が低い場合における注意喚起情報の提示態様を説明するための図である。なお、図3では、自車両の現在位置の周辺のお勧めのレストラン情報をユーザに提示する場面例を示している。お勧めのレストラン情報は、ユーザにとって必ずしも有用な情報ではなく、その重要度が低く設定される。
図3(A)に示すように、提示情報の重要度が低い場合、提示機能は、注意喚起情報として人を模したアイコンをディスプレイ30の画面上に表示する。このように、アイコンをディスプレイ30の画面上に表示することで、アイコンに気が付いたユーザは、何らかの提示情報が存在することを知ることができる。
そして、図3(A)に示すように、アイコンの表示に気が付いたユーザにより、例えば「何?」などの提示情報の受容を意図する音声が発話され、その発話音声が検出された場合、提示機能は、例えば、図3(B)に示すように、スピーカ40を介して、自車両の現在位置の周辺に存在するお勧めのレストランの情報を表示するかをユーザに問い合わせる内容の提示情報、例えば「近くにお勧めのレストランがあります。情報を表示しますか?」を出力する。
一方、図2に示すように、提示情報の重要度が中程度の場合、提示機能は、注意喚起情報としてディスプレイ30にアイコンを表示し、さらにスピーカ40から、例えば『ポン』という告知音を出力する。
図4は、提示情報の重要度が中程度の場合における注意喚起情報の提示態様を説明するための図である。なお、図4では、受信したメールの内容をユーザに提示する場面例を例示している。受信したメールの内容は、図3に示すお勧めのレストラン情報と比べると、ユーザに必要とされる情報であると想定されるため、その重要度は中程度に設定される。
提示機能は、提示情報が存在する場合、図4(A)に示すように、注意喚起情報として、人を模したアイコンをディスプレイ30の画面上に表示する。さらに、提示機能は、提示情報の重要度が中程度の場合においては、図4(A)に示すように、注意喚起情報として、例えば、『ポン』という告知音をスピーカ40から出力する。これにより、ユーザはアイコンのみならず告知音により注意喚起情報に気が付くことができ、アイコンのみがディスプレイ30の画面上に表示される提示情報の重要度が低い場合と比べて、ユーザが注意喚起情報に気が付く可能性が高くなる。
そして、アイコンの表示または告知音に気が付いたユーザにより、図4(A)に示すように、例えば、「何?」などの提示情報の受容を意図する音声を発話され、その発話音声が検出された場合、提示機能は、スピーカ40を介して、図4(B)に示すように、メールの内容を読み上げるかを問い合わせる内容の提示情報、例えば「メールが届きました。読み上げますか?」を出力する。
また、図2に示すように、提示情報の重要度が高い場合は、注意喚起情報として、ディスプレイ30にアイコンが表示されると同時に、スピーカ40から告知音が出力され、加えて、告知音に続いてスピーカ40から音声メッセージが出力される。
図5は、提示情報の重要度が高い場合における注意喚起情報の提示態様を説明するための図である。なお、図5では、タイヤの空気圧が低下していることを示すタイヤ空気圧警報をユーザに提示する場面例を例示している。タイヤ空気圧警報は、車両を安全に運転するために重要な情報であるため、その重要度は高く設定される。
提示機能は、提示情報が存在する場合、図5(A)に示すように、注意喚起情報として、人を模したアイコンをディスプレイ30の画面上に表示する。さらに、提示機能は、提示情報の重要度が高い場合には、図5(A)に示すように、注意喚起情報として、例えば、『ポン』という告知音と、告知音に続いて、例えば、「○○さん」のようにユーザの名前を呼び掛ける音声メッセージとをスピーカ40から出力する。このように、注意喚起情報として、「○○さん」のように音声メッセージを出力することで、アイコンのみを表示する場合、およびアイコンを表示し、かつ、告知音を出力する場合に比べて、ユーザが注意喚起情報に気が付く可能性を高くできる。
また、これら注意喚起情報に気が付いたユーザにより、図5(A)に示すように、例えば、「何?」などの提示情報の受容を意図する音声が発話され、この発話音声が検出された場合、提示機能は、図5(B)に示すように、スピーカ40を介して、タイヤ空気圧警報を示す提示情報、例えば「空気圧が低くなっています。ガソリンスタンドなどでお早めに対応して下さい。」を出力することで、ユーザにタイヤ空気圧警報を提示することができる。
推定機能は、ユーザが注意喚起情報に気が付いているか否かを推定する。ユーザが注意喚起情報に気が付いていているか否かは、特に限定されず、本実施形態では、第1に、ユーザの運転負荷に基づく推定方法、第2に、ユーザの視線方向に基づく推定方法、第3に、ユーザの運転操作の安定性に基づく推定方法のうち少なくとも1つの方法により推定される。さらに、推定機能は、これら第1から第3の方法で推定する際に、注意喚起情報の提示態様に応じて、ユーザが注意喚起情報に気が付いている否かを推定してもよい。以下において、各方法の詳細について説明する。
第1の方法として、推定機能は、ユーザの運転負荷に基づいて、ユーザが注意喚起情報に気が付いているか否かを推定する。すなわち、推定機能は、ユーザの運転負荷を推定し、ユーザの運転負荷が高いと推定された場合、ユーザは、運転に集中し、注意喚起情報に気が付いていてないと推定する。一方、ユーザの運転負荷が低い場合、ユーザは、注意喚起情報に注意を払う余裕があり、注意喚起情報に気が付いていると推定する。
なお、ユーザの運転負荷を推定する方法としては、特に限定されないが、例えば、ユーザの心拍信号または呼吸信号に基づいて運転負荷を推定できる。すなわち、図示しないシートに内設された超音波センサーを用いてユーザの心拍信号を検出し、検出された心拍信号に基づいて拍動間隔の分散値を算出する。そして、拍動間隔の分散値と運転負荷との相関関係に基づいて、算出された拍動間隔の分散値から運転負荷を推定することができる。なお、拍動間隔の分散値と運転負荷との関係を統計的に解析することで、拍動間隔の分散値から運転負荷を求めることができる。また、図示しないシートベルトに設置された呼吸センサーを用いてユーザの呼吸信号を検出し、検出された呼吸信号を周波数成分に変換して、呼吸周波数を得る。そして、この呼吸周波数と運転負荷との相関関係に基づいて、呼吸周波数からユーザの運転負荷を推定することができる。
第2の方法として、推定機能は、ユーザの視線方向に基づいて、ユーザが注意喚起情報に気が付いているか否か推定する。すなわち、推定機能は、ユーザの視線方向を検出し、例えば、注意喚起情報としてディスプレイ30の画面上に表示されたアイコンに、ユーザが視線を向けなかった場合、ユーザは注意喚起情報に気が付いていないと推定し、一方、注意喚起情報としてディスプレイ30の画面上に表示されたアイコンに、ユーザが視線を向けた場合、ユーザは注意喚起情報に気が付いていると推定する。なお、ユーザの視線方向を検出する方法は、特に限定されず、例えば、不可視光をユーザの眼球に照射し、その反射光に基づいて、ユーザの視線方向を検出できる。
第3の方法として、推定機能は、ユーザの運転操作の安定性に基づいて、ユーザが注意喚起情報に気が付いていているか否かを推定する。すなわち、推定機能は、ユーザの運転操作の安定性を検出し、ユーザの運転操作の安定性が変化しなかった場合に、ユーザは注意喚起情報に気が付いていないと推定し、一方、ユーザの運転操作の安定性が変化した場合に、ユーザは注意喚起情報に気が付いていると推定する。なお、ユーザの運転操作の安定性は、例えば、ユーザによるステアリング操作のスムーズさ、アクセル操作のスムーズさを検出することで判断される。
さらに推定機能は、上述した第1から第3の方法で推定する際に、注意喚起情報を提示する提示態様に応じて、ユーザが注意喚起情報に気付いていているか否かを推定してもよい。例えば、図2に示すように、提示情報の重要度が低く、注意喚起情報として、ディスプレイ30の画面上にアイコンのみが提示される場合は、ユーザが注意喚起情報に気が付く可能性は低いと判断し、ユーザが注意喚起情報に気が付いていないとの推定する要因とする。一方、提示情報の重要度が高く、注意喚起情報として、ディスプレイ30の画面上にアイコンが表示され、さらに告知音および音声メッセージがスピーカ40から出力される場合は、ユーザが注意喚起情報に気が付く可能性は高いと判断し、ユーザが注意喚起情報に気が付いているとの推定の要因とする。すなわち、推定機能は、第1から第3の方法のうち少なくても1つの方法で得られた推定結果に、注意喚起情報を提示する提示態様に基づいて得られた推定要因を加味することで、ユーザが注意喚起情報に気が付いていているか否かを推定できる。
検出機能は、マイク20から入力された音声信号の中から、ユーザが発話した音声に基づく音声信号であるユーザ音声信号を検出する。ここで、マイク20により入力される音声信号の中には、ユーザが発話した音声に基づくユーザ音声信号の他に、騒音に基づく音声信号が含まれる。そこで、検出機能は、入力された音声信号の中から、所定の検出条件を満たす音声信号をユーザ音声信号として検出する。具体的には、以下に説明する手法でユーザ音声信号が検出される。
図6は、第1実施形態に係るユーザ音声信号の検出方法を説明するための図である。図6において、注意喚起情報の提示を開始した時刻を時刻T1、音声の取り込みを開始した時刻を時刻T2とする。また、図6(A)に示すように、音声の取り込みを開始した時刻T2から時刻T3までの時間が最大待ち受け時間t0として設定される。検出機能は、図(A)に示す時刻T2から時刻T3までの最大待ち受け時間t0内に、マイク20により入力された音声信号があった場合に、入力された音声信号をユーザ音声信号として検出する。例えば、図6(B)の場面例では、音声信号が最大待ち受け時間内t0内に入力されているため、この音声信号はユーザ音声信号として検出される。
認識機能は、ユーザによって発話された発話音声の音声特徴パターンと、認識対象語彙の音響モデルの音声パターンとの一致度を演算することで音声認識処理を行う。具体的には、まず、認識機能は、認識対象データとして外部記憶装置13に記憶されている音声認識処理の対象となる認識対象語彙や、認識対象語彙の音響モデル、さらには、認識対象語彙とその接続関係を規定したネットワーク文法などの言語モデルを読み出し、RAMに読み込む。そして、入力された音声信号の音声特徴パターンとRAMに読み込まれたそれぞれの認識対象語彙の音声特徴パターンとの一致度を演算する。そして、一致度演算の結果、その一致度の大きさを示すスコアを認識対象語彙ごとに算出し、このスコアが最も高い認識対象語彙、すなわち最も一致度の高い認識対象語彙を音声認識結果として抽出する。
設定機能は、ユーザ音声信号を検出する際の検出条件を設定する。すなわち、設定機能は、図6(A)に示すように、最大待ち受け時間t0を設定し、音声信号が最大待ち受け時間t0内に入力されることを、ユーザ音声信号を検出する際の検出条件として設定する。またこれに加え、ユーザが注意喚起情報に気が付いていないと推定された場合に、以下に説明するように、設定された検出条件を変更する。
図7は、第1実施形態に係るユーザ音声信号の検出条件を変更する手法例を説明するための図である。図7(A)は、ユーザが注意喚起情報に気が付いておらず、かつ、騒音に基づく音声信号が最大待ち受け時間t0内に入力された場面例である。設定機能は、最大待ち受け時間t0内に入力された音声信号をユーザ音声信号として検出するよう検出条件を設定するため、図7(A)に示すように、最大待ち受け時間t0内に入力された騒音に基づく音声信号は、ユーザの音声信号として検出される。これに対し、ユーザが注意喚起情報に気が付いていない場合に、設定機能は、図7(A)に示すように時刻T2から時刻T3までの最大待ち受け時間t0を、図7(B)に示すように、時刻T2から時刻T4までの最大待ち受け時間t1に短縮する。これにより、図7(A)に示すように、偶発的に発声した騒音に基づく音声信号が最大待ち時間t0内に検出され、騒音に基づく音声信号がユーザ音声信号として検出されるような場面例であっても、図7(B)に示すように、最大待ち受け時間を短縮することで、騒音に基づく音声信号が最大待ち受け時間t1内で検出されなくなり、騒音に基づく音声信号をユーザ音声信号として検出する可能性を低減できる。
次に、図8および図9に基づき本実施形態に係る走行支援処理について説明する。図8および図9は、音声対話処理を示すフローチャートである。以下に説明する音声対話処理は、コントローラ12により一定時間間隔で実行される。
まず、ステップS101では、取得機能により、図示しない車両コントローラおよび通信装置から、ユーザに提示すべき提示情報が取得される。ユーザに提示すべき提示情報を取得できた場合は、ステップS102に進む。一方、ユーザに提示すべき提示情報を取得できない場合は、所定時間経過後、再度ステップS101を繰り返す。
ステップS102では、提示機能により、ステップS101で取得された提示情報に基づいて、提示情報の重要度が決定される。なお、提示情報の重要度を決定する手法は、特に限定されず、例えば、ユーザが提示情報を必要とする有用性に応じて、提示情報の重要度を決定してもよいし、またユーザの嗜好を加味して提示情報の重要度を決定してもよい。
ステップS103では、提示機能により、ステップS102で決定された提示情報の重要度に応じて、注意喚起情報の提示態様が決定される。続くステップS104では、決定された提示態様により、注意喚起情報が提示される。提示情報の重要度と注意喚起情報の提示態様との関係は、例えば、図2に示す関係のようになる。すなわち、提示情報の重要度が低い場合は、図3に示すように、アイコンのみがディスプレイ30の画面上に表示され、提示情報の重要度が中程度の場合は、図4に示すように、アイコンの表示と同時に告知音が出力される。また、提示情報の重要度が高い場合は、図5に示すように、アイコンの表示と、告知音の出力、さらに、告知音に続いて、音声メッセージが出力される。なお、図2に示す提示情報の重要度と注意喚起情報の提示態様との関係は一例であって、適宜設定される。
次に、ステップS105では、推定機能により、推定フラグが0にセットされる。推定フラグは、ユーザが注意喚起情報に気が付いたか否かを推定している状態を示している。具体的には、ユーザが注意喚起情報に気が付いたか否かの推定を継続している期間は、推定フラグは0にセットされ、一方、ユーザが注意喚起情報に気が付いたか否かの推定が終了した場合、すなわち、ステップS124においてユーザが注意喚起情報に気が付いていると推定された場合、あるいはステップS124においてユーザが注意喚起情報に気が付いていないと推定され、ステップS127においてユーザ音声信号を検出する際の検出条件が変更された場合に、推定フラグは1にセットされる。
次に、ステップS106では、検出機能により、音声の取り込みが開始される。ステップS104で注意喚起情報をユーザに提示し、ユーザが提示された注意喚起情報に気が付いた場合、ユーザは注意喚起情報に対して提示情報を受容する、または受容しないとの意図を発話する。例えば、ユーザは、提示情報を受容する意図として、「何」、「どうぞ」、あるいは「情報」などの音声を発話し、提示情報を受容しない意図として、「いいえ」または「要らない」などの音声を発話するものと想定される。ステップS106では、このようにユーザが発話した音声の取り込みを開始する。なお、ステップS106で、音声の取り込みを開始した後は、ステップS110またはステップS118で音声の取り込みを終了するまで、音声の取り込みが継続される。
ステップS107では、マイク20により入力された音声信号の中から、ユーザの発話音声に基づくユーザ音声信号が検出されたか判断される。例えば、図6に示すように、検出機能は、最大待ち受け時間t0内に入力された音声信号をユーザ音声信号として検出する。そして、ユーザ音声信号が検出された場合は、ステップS108に進み、一方、ユーザ音声信号が検出されない場合は、図9に示すステップS117に進む。
ステップS108では、認識機能により、検出されたユーザ音声信号の音声パターンと、RAMに読み込まれた認識対象語彙の音声パターンとの一致度が演算され、一致度の大きさを示すスコアが認識対象語彙ごとに算出される。なお、認識機能により一致度演算を実行している間も、並列して、検出機能による音声取り込みが継続して実行される。
続いてステップS109では、ユーザの発話が終了したか判断される。ユーザの発話が終了したか否かの判断は特に限定されず、本実施形態では、入力される音声信号の瞬間パワーが所定時間以上にわたって所定閾値以下となった場合に、ユーザの発話が終了したものと判断する。ユーザの発話が終了したと判断された場合は、ステップS110に進み、一方、ユーザの発話が終了していないと判断された場合は、ステップS107に戻り、ユーザ音声信号の検出を継続する。
ステップS110では、ステップS109において、ユーザの発話が終了したものと判断されているため、音声の取り込みを終了する。続く、ステップS111では、推定フラグが0にセットされる。
次に、ステップS112では、ステップS108の一致度演算が終了するまで待機した後、この一致度演算の結果に基づいて、一致度の大きさを示すスコアが最も高かった認識対象語彙が抽出される。これにより、注意喚起情報に対してユーザが発話した音声が、「何?」、「どうぞ」、あるいは「情報」などの提示情報の受容する意図を示すものか、「いいえ」や「要らない」などの提示情報の受容しない意図を示すものであるかを判断することができる。
そして、ステップS113では、提示機能により、提示情報を提示する必要があるか否か判断される。すなわち、ステップS112で抽出されたユーザの発話音声が「何?」、「どうぞ」、あるいは「情報」などの提示情報を受容する意図を示す場合には、ユーザに提示情報を提示する必要があると判断し、一方、ステップS112で抽出されたユーザの発話音声が「いいえ」または「要らない」などの提示情報を受容しない意図を示す場合には、ユーザに提示情報を提示する必要がないと判断する。ユーザに提示情報を提示する必要があると判断された場合はステップS114に進み、一方、ユーザに提示情報を提示する必要がないと判断された場合は、ステップS116に進む。
ステップS114では、提示機能により、提示情報が提示される。例えば、図3に示す場面例では、ユーザの「何?」との発話音声に対して、車両の現在位置周辺に存在するレストラン情報である提示情報「近くにお勧めのレストランがあります。情報を表示しますか?」が出力される。
ステップS114で提示情報が提示された後は、ステップS115に進み、ディスプレイ30の画面上に表示されたアイコンなどの注意喚起情報が消去され、この音声対話処理が終了する。また、ステップS116で提示情報を提示しない旨決定された後も、音声対話処理を終了する。なお、注意喚起情報は提示情報を提示する前に消去してもよい。
続いて、図9に示す音声対話処理について説明する。ステップS107において、ユーザ音声信号が検出されなかった場合には、図9に示すステップS117に進む。
ステップS117では、音声の取り込みを開始してからの経過時間が、最大待ち受け時間を越えたか否か判定される。音声の取り込みを開始してからの経過時間が、最大待ち受け時間を越えた場合は、ステップS118に進む。一方、音声取り込みを開始してからの経過時間が、最大待ち受け時間を越えていない場合は、ステップS122に進む。
ステップS118では、音声取り込みを開始してからの経過時間が最大待ち受け時間を経過しているため、音声の取り込みが終了される。続くステップS119で推定フラグが0にセットされ、ステップS120でディスプレイ30の画面上に表示される注意喚起情報が消去される。そして、ステップS121で、提示情報を提示しない旨が決定され、この音声対話処理が終了する。
また、ステップS117で、音声取り込みを開始してからの経過時間が、最大待ち受け時間を越えていない場合は、ステップS122に進み、推定フラグが1にセットされているか判断される。推定フラグが1にセットされている場合は、ユーザが注意喚起情報に気が付いているか否かの推定がされているため、ステップS107に戻り、最大待ち受け時間が経過するまで、ユーザ音声信号が検出される。一方、推定フラグが0にセットされている場合は、ユーザが注意喚起情報に気が付いているか否かの推定が継続されており、ステップS123に進む。
ステップS123では、推定機能により、ユーザが注意喚起情報に気が付いたか否か推定される。なお、ユーザが注意喚起情報に気が付いたか否かを推定する方法は、ユーザの運転負荷に基づく方法、ユーザの視線方向に基づく方法、ユーザの運転操作が安定性に基づく方法、またはこれら方法のうち少なくとも1の方法に、注意喚起情報の提示態様を加味した方法のいずれでもよく、またこれら方法を組み合わせた方法でもよい。
続くステップS124では、ステップS123の推定結果に基づいて、ユーザが注意喚起情報に気が付いたか否か判断される。ユーザが注意喚起情報に気が付いたと推定された場合はステップS125に進み、一方、ユーザが注意喚起情報に気が付いていないと推定された場合はステップS126に進む。
ステップS125では、ユーザが注意喚起情報に気が付いたと推定されており、推定状態を示す推定フラグを、推定を継続している状態を示す0から、推定を終了した状態を示す1に変更し、ユーザが注意喚起情報に気が付いたか否かの推定を終了する。ステップS125で、推定フラグが1に設定された後は、ステップS107に戻り、最大待ち受け時間が経過するまで、ユーザ音声信号が検出される。
一方、ステップS124で、ユーザが注意喚起情報に気が付いていないと推定された場合は、ステップS126に進む。ステップS126では、ユーザが注意喚起情報に気が付いたか否かを推定するための時間であるユーザ観測時間を経過したか否か判断される。例えば、推定機能は、図7(A)および図7(B)に示すように、ユーザが注意喚起情報に気が付いたか否かの推定を、時刻T5から時刻T6までのユーザ観測時間を経過するまで継続し、このユーザ観測時間内に、ユーザが注意喚起情報に気が付いたと推定されない場合に、ユーザが注意喚起情報に気が付いていないと推定する。ユーザ観測時間を経過した場合はステップS127に進み、一方、ユーザ観測時間を経過していない場合は、ステップS107に戻り、ユーザが注意喚起情報に気が付いたか否かの推定が継続される。
ステップS127では、ユーザが注意喚起情報に気が付いていないと推定されており、設定機能は、最大待ち受け時間を短縮することで、ユーザ音声信号を検出する際の検出条件を変更する。例えば、図7(A)に示すように、時刻T2から時刻T3までの最大待ち受け時間t0を、図7(B)に示すように、時刻T2から時刻T4までの最大待ち受け時間t1に短縮する。これにより、図7(A)に示すように、偶発的に発声した騒音に基づく音声信号が最大待ち時間t0内に検出され、騒音に基づく音声信号がユーザ音声信号として検出されるような場面例であっても、図7(B)に示すように、最大待ち受け時間を短縮することで、騒音に基づく音声信号が最大待ち受け時間t1内に検出されなくなる。
ステップS127で、最大待ち受け時間が短縮された後は、ステップS125に進み、推定フラグが1にセットされ、最大待ち受け時間が経過するまで、ユーザ音声信号の検出が継続される。
以上のように、本実施形態では、ユーザが注意喚起情報に気が付いたか否かを推定し、ユーザが注意喚起情報に気が付いていないと推定された場合に、ユーザ音声信号を待ち受けるための時間である最大待ち受け時間を短縮することで、ユーザ音声信号を検出する際の検出条件を変更する。ユーザが注意喚起情報に気が付いていない場合、提示情報の存在を知らせるための注意喚起情報に対して、ユーザが提示情報を受容する意図、または提示情報を受容しない意図を発話する可能性は低いと想定される。またこのような場合、騒音などのノイズが混入し、これらノイズがユーザ音声信号として検出されてしまう場合がある。これに対し、ユーザが注意喚起情報に気が付いていないと推定される場合に、最大待ち受け時間を短縮することで、騒音などのノイズの混入を有効に防ぐことができる。その結果、ユーザが要求しない提示情報が誤ってユーザに提示され、ユーザに煩わしさを与えることを解消することができる。
また、本実施形態では、ユーザの運転負荷を推定することで、ユーザが注意喚起情報に気が付いているか否かを推定する。すなわち、ユーザの運転負荷が大きいと推定された場合に、ユーザは運転に集中するものと想定されるため、ユーザが注意喚起情報に気が付いていないと推定し、一方、ユーザの運転負荷が小さいと推定された場合は、ユーザは注意喚起情報に注意を払う余裕があり、注意喚起情報に気が付いたと推定する。これにより、この推定結果に基づいて、ユーザ音声信号の検出条件を適切に設定することができるため、騒音などのノイズに基づく音声信号をユーザ音声信号として誤って検出してしまう可能性を低減することができる。
さらに、本実施形態では、ユーザの視線方向を検出することで、ユーザが注意喚起情報に気が付いているか否かを推定する。すなわち、注意喚起情報であるアイコンが表示されているディスプレイ30の画面方向に、ユーザの視線が移動した場合は、ユーザが注意喚起情報に気が付いていると推定し、一方、アイコンが表示されているディスプレイ30の画面方向に、ユーザの視線が移動しなかった場合は、ユーザが注意喚起情報に気が付いていないと推定する。このように、ユーザの視線方向を検出することで、ユーザが注意喚起情報に気が付いているか否かを精度よく推定することができる。これにより、この推定結果に基づいて、ユーザ音声信号の検出条件を適切に設定することができるため、騒音などのノイズに基づく音声信号をユーザ音声信号として誤って検出してしまう可能性を低減することができる。
加えて、本実施形態では、ユーザの運転操作の安定性を検出することで、ユーザが注意喚起情報に気が付いているか否かを推定する。すなわち、ユーザのステアリング操作、アクセル操作を検出し、ステアリング操作、アクセル操作がスムーズになされ、運転操作が安定している場合には、ユーザは注意喚起情報に気が付いていないと推定する。このように、ユーザの運転操作の安定性を検出することで、比較的簡単な処理によりユーザが注意喚起情報に気が付いているか否かを推定することができる。これにより、この推定結果に基づいて、ユーザ音声信号の検出条件を適切に設定することができるため、騒音などのノイズに基づく音声信号をユーザ音声信号として誤って検出してしまう可能性を低減することができる。
また、本実施形態では、ユーザが注意喚起情報に気が付いているか否かを推定する際に、上述したユーザの運転負荷に基づく方法、ユーザの視線方向に基づく方法、およびユーザの運転操作の安定性に基づく方法のうち少なくともいずれか1つの方法に、注意喚起情報の提示態様を加味して推定する。すなわち、提示情報の重要度が低く、注意喚起情報として、ディスプレイ30の画面上にアイコンのみが提示される提示態様では、ユーザが注意喚起情報に気が付く可能性は低いと判断し、ユーザが注意喚起情報に気が付いていないとの推定要因とする。一方、提示情報の重要度が高く、注意喚起情報として、ディスプレイ30の画面上にアイコンが表示され、さらに告知音および音声メッセージがスピーカ40から出力される提示態様では、ユーザが注意喚起情報に気が付く可能性は高いと判断し、ユーザが注意喚起情報に気が付いているとの推定要因とする。そして、推定機能は、第1から第3の方法のうち少なくても1つの方法で得られた推定結果に、注意喚起情報を提示する提示態様に基づいて得られた推定要因を加味することで、ユーザが注意喚起情報に気が付いていているか否かを推定する。これにより、この推定結果に基づいて、ユーザ音声信号の検出条件を適切に推定することができるため、騒音などのノイズに基づく音声信号をユーザ音声信号として誤って検出してしまう可能性を低減することができる。
しかも、本実施形態では、提示情報の重要度に応じて、注意喚起情報の提示態様が決定される。すなわち、図2に示すように、提示情報の重要度が低い場合には、注意喚起情報としてディスプレイ30にアイコンが表示されるのみであり、ユーザが注意喚起情報に気が付く可能性は低くなる。一方、提示情報の重要度が高い場合には、注意喚起情報としてディスプレイ30にアイコンが表示され、またスピーカ40を介して、『ポン』という告知音と、告知音に続けて音声メッセージを出力するため、ユーザが注意喚起情報に気が付く可能性が高くなる。このように、提示情報の重要度に応じて、ユーザが注意喚起情報を提示する提示態様を決定することで、重要な提示情報をユーザが見落とす可能性を低減することができる。
≪第2実施形態≫
続いて、本発明の第2実施形態について説明する。第2実施形態では、コントローラ12の検出機能が、最大待ち受け時間内に入力された音声信号の平均パワーが所定のパワー閾値を越える場合に、入力された音声信号をユーザ音声信号として検出すること、およびコントローラ12の設定機能が、ユーザが注意喚起情報に気が付いていないと推定された場合に、パワー閾値を大きくすること以外は、第1実施形態と同様の構成を有する。以下において、第1実施形態と異なるコントローラ12の検出機能および設定機能について説明する。
続いて、本発明の第2実施形態について説明する。第2実施形態では、コントローラ12の検出機能が、最大待ち受け時間内に入力された音声信号の平均パワーが所定のパワー閾値を越える場合に、入力された音声信号をユーザ音声信号として検出すること、およびコントローラ12の設定機能が、ユーザが注意喚起情報に気が付いていないと推定された場合に、パワー閾値を大きくすること以外は、第1実施形態と同様の構成を有する。以下において、第1実施形態と異なるコントローラ12の検出機能および設定機能について説明する。
コントローラ12の検出機能は、最大待ち受け時間内に入力された入力された音声信号の平均パワーが、所定のパワー閾値を越える場合に、入力された音声信号をユーザ音声信号として検出する。図10は、第2実施形態に係るユーザ音声信号の検出方法を説明するための図である。なお、図10において、図10(A)では、入力された音声信号を示しており、音声信号の振幅を縦軸とする。一方、図10(B)では、入力された音声信号の平均パワーを示しており、振幅の大きさ(強度)を示すパワーを縦軸とする。検出機能は、まず、最大待ち受け時間内に入力された音声信号の一定時間における平均パワーを算出する。例えば、図10(A)に示すようなユーザの発話音声に基づく音声信号から、図10(B)に示すような音声信号の平均パワーが算出される。そして、検出機能は、算出された音声信号の平均パワーが、所定のパワー閾値を越えるか否かを判断する。例えば、図10(B)に示すように、音声信号の平均パワーがパワー閾値p0を越える場合、検出機能は、入力された音声信号をユーザ音声信号として検出する。
コントローラ12の設定機能は、推定機能による推定結果に基づいて、ユーザ音声信号を検出するための検出条件を設定する。具体的には、設定機能は、図10(B)に示すようにパワー閾値p0を設定する他、ユーザが注意喚起情報に気が付いていないと推定された場合に、パワー閾値を大きくすることで、ユーザ音声信号を検出するための検出条件を変更する。
図11は、第2実施形態に係るユーザ音声信号の検出条件を変更する手法例を説明するための図である。設定機能は、パワー閾値p0を設定することで、最大待ち受け時間内に入力された音声信号から算出された音声信号の一定時間における平均パワーが、設定されたパワー閾値p0を越えることをユーザ音声信号の検出条件に設定する。そのため、図11(A)に示す最大待ち受け時間内に入力された音声信号から算出された音声信号の一定時間における平均パワーが、図11(B)に示すように、所定のパワー閾値p0を越える場合、入力された音声信号がユーザ音声信号として検出される。また、設定機能は、ユーザが注意喚起情報に気が付いていないと推定される場合には、図11(B)に示すパワー閾値p0を、図11(C)に示すように、パワー閾値p0よりも大きいパワー閾値p1に変更する。これにより、図11(B)に示すように、偶発的に発声した騒音に基づく音声信号から算出された平均パワーがパワー閾値p0を越え、騒音に基づく音声信号がユーザ音声信号として検出されるような場面例であっても、図11(C)に示すように、パワー閾値をパワー閾値p0からパワー閾値p1へと大きくすることで、騒音に基づく音声信号から算出された平均パワーが、変更されたパワー閾値p1を越えなくなり、騒音に基づく音声信号がユーザ音声信号として検出されなくなる。このように、ユーザが注意喚起情報に気が付いていない場合に、設定機能により、パワー閾値を大きくしてユーザ音声信号を検出する際の検出条件を変更することで、騒音に基づく音声信号をユーザ音声信号として検出する可能性を低減することができる。
続いて第2実施形態に係る音声対話処理について説明する。なお、第2実施形態に係る音声対話処理は、ステップS106で音声取り込みが開始された後のユーザ音声信号検出処理、およびユーザ音声信号を検出する際の検出条件を変更するステップS127のみにおいて、第1実施形態に係る音声対話処理と異なる。そこで、以下においては、ステップS106の後のユーザ音声信号検出処理、およびステップS127について説明する。
ステップS106において音声の取り込みが開始された後、ユーザ音声信号が検出される。具体的には、図10(B)に示すように、最大待ち受け時間内に入力された音声信号の一定時間ごとの平均パワーが算出され、算出された平均パワーが所定のパワー閾値p0を越える音声信号が、ユーザ音声信号として検出される。
また、ユーザが注意喚起情報に気が付いていないと推定された後のステップS127では、パワー閾値を大きくすることで、ユーザ音声信号を検出する際の検出条件が変更される。例えば、図11に示す場面例では、図11(B)に示すパワー閾値p0から、図11(C)に示すパワー閾値p1に大きくする。これにより、偶発的に発生した騒音に基づく音声信号が、ユーザ音声信号として検出される可能性を低減することができる。
以上のように、第2実施形態では、最大待ち受け時間内に入力された音声信号の一定時間における平均パワーを算出し、算出された平均パワーが所定のパワー閾値を越えた場合に、この音声信号をユーザ音声信号として検出するとともに、ユーザが注意喚起情報に気が付いていない場合には、パワー閾値を大きくして、ユーザ音声信号を検出する際の検出条件を変更する。これにより、ユーザにより十分な大きさで発話されたユーザの発話音声に基づく音声信号を、ユーザ音声信号として適切に検出することができる一方、音量の小さい騒音などのノイズの混入を有効に防ぐことができる。その結果、ユーザが要求しない提示情報が誤ってユーザに提示され、ユーザに煩わしさを与えることを解消することができる。
≪第3実施形態≫
続いて、本発明の第3実施形態について説明する。第3実施形態では、コントローラ12の検出機能が、最大待ち受け時間内に入力された音声信号の平均パワーを算出し、算出された平均パワーが所定のパワー値を越えた状態が所定の継続時間以上続く場合に、入力された音声信号をユーザ音声信号として検出すること、およびコントローラ12の設定機能が、ユーザが注意喚起情報に気が付いていないと推定された場合に、継続時間を延長すること以外は、第1実施形態と同様の構成を有する。以下において、第1実施形態と異なるコントローラ12の検出機能および設定機能について説明する。
続いて、本発明の第3実施形態について説明する。第3実施形態では、コントローラ12の検出機能が、最大待ち受け時間内に入力された音声信号の平均パワーを算出し、算出された平均パワーが所定のパワー値を越えた状態が所定の継続時間以上続く場合に、入力された音声信号をユーザ音声信号として検出すること、およびコントローラ12の設定機能が、ユーザが注意喚起情報に気が付いていないと推定された場合に、継続時間を延長すること以外は、第1実施形態と同様の構成を有する。以下において、第1実施形態と異なるコントローラ12の検出機能および設定機能について説明する。
コントローラ12の検出機能は、最大待ち受け時間内に入力された音声信号の平均パワーが所定のパワー値を越えた状態が、所定の継続時間以上続く場合に、入力された音声信号をユーザ音声信号として検出する。図12は、第3実施形態に係るユーザ音声信号の検出方法を説明するための図である。検出機能は、まず、最大待ち受け時間内に入力された音声信号の一定時間における平均パワーを算出する。例えば、図12(A)に示すようなユーザの発話音声に基づく音声信号から、図12(B)に示すような音声信号の平均パワーが算出される。そして、検出機能は、算出された音声信号の平均パワーが、所定のパワー値を越えるか判断する。算出された音声信号の平均パワーが所定のパワー値を越える場合、検出機能は、さらに音声信号の平均パワーが所定のパワー値を越えた状態が、継続時間以上続くか判断される。例えば、図12(B)に示すように、入力された音声信号の平均パワーが所定のパワー値を越えて、継続時間t2以上続いた場合に、検出機能は、入力された音声信号をユーザ音声信号として検出する。
コントローラ12の設定機能は、推定機能による推定結果に基づいて、ユーザ音声信号を検出するための検出条件を設定する。具体的には、設定機能は、図12(B)に示すように所定のパワー値及び所定の継続時間t2を設定することに加えて、ユーザが注意喚起情報に気が付いていないと推定された場合に、継続時間を延長することで、ユーザ音声信号を検出するための検出条件を変更する。
図13は、第3実施形態に係るユーザ音声信号の検出条件を変更する手法例を説明するための図である。設定機能は、所定のパワー値および所定の継続時間t2を設定することで、最大待ち受け時間内に入力された音声信号から算出された音声信号の一定時間における平均パワーが所定のパワー値を越え、かつ、算出された平均パワーが所定のパワー値を越えた状態が、継続時間t2以上続くことをユーザ音声信号の検出条件として設定する。そのため、図13(A)に示す最大待ち受け時間内に入力された音声信号から算出された音声信号の一定時間における平均パワーが、図13(B)に示すように、所定のパワー値を越える状態で所定の継続時間t2以上続く場合、入力された音声信号は、ユーザ音声信号として検出される。また、設定機能は、ユーザが注意喚起情報に気が付いていない場合には、図13(B)に示す時刻T7から時刻T8までの継続時間t2を、図13(C)に示すように、継続時間t2よりも長い時刻T7から時刻T9までの継続時間t3に延長する。これにより、図13(B)に示すように、偶発的に発声した騒音に基づく音声信号から算出された平均パワーが所定のパワー値を越えた状態で継続時間t2以上続くことにより、騒音に基づく音声信号がユーザ音声信号として検出されるような場合例であっても、継続時間を継続時間t2から継続時間t3へと延長することで、図13(C)に示す場面例のように、偶発的に発生した騒音に基づく音声信号の平均パワーが所定のパワー値を越える状態が継続時間t3以上継続しなくなり、騒音に基づく音声信号がユーザ音声信号として検出されない。このように、ユーザが注意喚起情報に気が付いていないと推定される場合に、設定機能により、継続時間を延長してユーザ音声信号を検出する際の検出条件を変更することで、騒音に基づく音声信号をユーザ音声信号として検出する可能性を低減することができる。
続いて第3実施形態に係る音声対話処理について説明する。なお、第3実施形態に係る音声対話処理は、ステップS106で音声取り込みが開始された後のユーザ音声信号検出処理、およびユーザ音声信号を検出する際の検出条件を変更するステップS127のみにおいて、第1実施形態に係る音声対話処理と異なる。そこで、以下においては、ステップS106の後のユーザ音声信号検出処理、およびステップS127について説明する。
まず、ステップS106において音声の取り込みが開始された後、ユーザ音声信号が検出される。具体的には、図12(B)に示すように、最大待ち受け時間内に入力された音声信号の一定時間ごとの平均パワーが算出され、算出された平均パワーが所定のパワー値を越える状態が継続時間t2以上続く場合に、この音声信号がユーザ音声信号として検出される。
また、ユーザが注意喚起情報に気が付いていないと推定された後のステップS127では、継続時間を大きくすることで、ユーザ音声信号を検出する際の検出条件が変更される。例えば、図13に示す場面例では、図13(B)に示すように、時刻T7から時刻T8までの継続時間t2を、図13(C)に示すように、時刻T7から時刻T9までの継続時間t3に延長する。これにより、偶発的に発声した騒音に基づく音声信号が、ユーザ音声信号として検出される可能性を低減することができる。
以上のように、第3実施形態では、入力された音声信号の平均パワーが所定のパワー値を越える状態が、所定の継続時間以上続く場合に、入力された音声信号をユーザ音声信号として検出する。そして、ユーザが注意喚起情報に気が付いていないと推定された場合に、継続時間を延長することで、ユーザ音声信号を検出する際の検出条件を変更する。これにより、ユーザにより十分な長さで発話されたユーザの発話音声に基づく音声信号を、ユーザ音声信号として適切に検出することができる一方、音声の長さが短い騒音などのノイズの混入を有効に防ぐことができる。その結果、ユーザが要求しない提示情報が誤ってユーザに提示され、ユーザに煩わしさを与えることを解消することができる。
以上説明した実施形態は、本発明の理解を容易にするために記載されたものであって、本発明を限定するために記載されたものではない。したがって、上記の実施形態に開示された各要素は、本発明の技術的範囲に属する全ての設計変更や均等物をも含む趣旨である。例えば、本発明の実施形態は、上述した第1実施形態から第3実施形態に限られるものではなく、また上述した第1実施形態から第3実施形態を組み合わせてもよい。
例えば、第3実施形態では、入力された音声信号から算出された音声信号の一定時間における平均パワーが、所定のパワー値を越えた状態で、所定の継続時間以上続くことを、ユーザ音声信号の検出条件としているが、入力された音声信号が所定の継続時間以上続くことのみを検出条件としてもよい。
なお、上述した実施形態の提示機能は本発明の提示手段に、マイク20は本発明の入力手段に、検出機能及び認識機能は本発明の検出手段に、推定機能は本発明の推定手段に、設定機能は本発明の設定手段にそれぞれ相当する。
100…ナビゲーション装置
10…ナビゲーション装置本体
11…A/Dコンバータ
12…コントローラ
13…外部記憶装置
14…D/Aコンバータ
15…アンプ
20…カメラ
30…ディスプレイ
40…スピーカ
50…入力スイッチ
10…ナビゲーション装置本体
11…A/Dコンバータ
12…コントローラ
13…外部記憶装置
14…D/Aコンバータ
15…アンプ
20…カメラ
30…ディスプレイ
40…スピーカ
50…入力スイッチ
Claims (15)
- ユーザに対するメッセージ情報をユーザに提示する提示手段と、
音声を入力する入力手段と、
前記入力手段により入力された音声のうち、所定の検出条件を満たす音声を、前記メッセージ情報に対するユーザの発話音声として検出する検出手段と、
ユーザの状態を推定する推定手段と、
前記推定手段により推定されたユーザの状態に基づいて、前記検出手段によるユーザの発話音声を検出する際の検出条件を設定する設定手段と、を備えることを特徴とする音声対話装置。 - 請求項1に記載の音声対話装置であって、
前記メッセージ情報は、ユーザに提示すべき提示情報の存在をユーザに知らせるための情報であることを特徴とする音声対話装置。 - 請求項1または2に記載の音声対話装置であって、
前記検出条件は、音声が所定の待機時間内に入力されることを含むことを特徴とする音声対話装置。 - 請求項3に記載の音声対話装置であって、
前記設定手段は、前記推定されたユーザの状態に基づいて、前記所定の待機時間を変更することを特徴とする音声対話装置。 - 請求項1〜4のいずれかに記載の音声対話装置であって、
前記検出条件は、入力された音声の音声レベルが所定の閾値を越えることを含むことを特徴とする音声対話装置。 - 請求項5に記載の音声対話装置であって、
前記設定手段は、前記推定されたユーザの状態に基づいて、前記所定の閾値を変更することを特徴とする音声対話装置。 - 請求項1〜6のいずれかに記載の音声対話装置であって、
前記検出条件は、音声が所定の継続時間以上継続して入力されることを含むことを特徴とする音声対話装置。 - 請求項7に記載の音声対話装置であって、
前記設定手段は、前記推定されたユーザの状態に基づいて、前記継続時間を変更することを特徴とする音声対話装置。 - 請求項1〜8のいずれかに記載の音声対話装置であって、
前記推定手段は、ユーザの運転負荷に基づいて、前記ユーザの状態を推定することを特徴とする音声対話装置。 - 請求項1〜9のいずれかに記載の音声対話装置であって、
前記推定手段は、ユーザの視線方向に基づいて、前記ユーザの状態を推定することを特徴とする音声対話装置。 - 請求項1〜10のいずれかに記載の音声対話装置であって、
前記推定手段は、ユーザによる運転操作の安定性に基づいて、前記ユーザの状態を推定することを特徴とする音声対話装置。 - 請求項2〜11のいずれかに記載の音声対話装置であって、
前記提示手段は、前記ユーザの発話音声が検出された場合に、検出された前記ユーザの発話音声に基づいて、前記メッセージ情報に続いて、前記提示情報をさらに提示することを特徴とする音声対話装置。 - 請求項2〜12のいずれかに記載の音声対話装置であって、
前記提示手段は、前記提示情報の重要度に応じて、ユーザに対する前記メッセージ情報の提示態様を決定することを特徴とする音声対話装置。 - 請求項13に記載の音声対話装置であって、
前記推定手段は、前記メッセージ情報の提示態様に基づいて、前記ユーザの状態を推定することを特徴とする音声対話装置。 - ユーザに対するメッセージ情報を提示し、前記メッセージ情報の提示の後に入力された音声のうち、所定の検出条件を満たす音声を、前記メッセージ情報に対するユーザの発話音声として検出する音声対話方法であって、
ユーザの状態を推定し、推定された前記ユーザの状態に基づいて、前記ユーザの発話音声を検出する際の検出条件を設定することを特徴とする音声対話方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009132746A JP2010281855A (ja) | 2009-06-02 | 2009-06-02 | 音声対話装置および音声対話方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009132746A JP2010281855A (ja) | 2009-06-02 | 2009-06-02 | 音声対話装置および音声対話方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010281855A true JP2010281855A (ja) | 2010-12-16 |
Family
ID=43538673
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009132746A Pending JP2010281855A (ja) | 2009-06-02 | 2009-06-02 | 音声対話装置および音声対話方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010281855A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015219440A (ja) * | 2014-05-20 | 2015-12-07 | パナソニックIpマネジメント株式会社 | 操作補助装置および操作補助方法 |
JP2016061888A (ja) * | 2014-09-17 | 2016-04-25 | 株式会社デンソー | 音声認識装置、音声認識対象区間設定方法、及び音声認識区間設定プログラム |
CN105556595A (zh) * | 2013-09-17 | 2016-05-04 | 高通股份有限公司 | 用于调整用于激活话音辅助功能的检测阈值的方法及设备 |
CN109920407A (zh) * | 2017-12-12 | 2019-06-21 | 上海博泰悦臻网络技术服务有限公司 | 智能终端及其饮食搜寻方法、及无人驾驶车辆 |
WO2023144573A1 (ja) * | 2022-01-26 | 2023-08-03 | 日産自動車株式会社 | 音声認識方法及び音声認識装置 |
-
2009
- 2009-06-02 JP JP2009132746A patent/JP2010281855A/ja active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105556595A (zh) * | 2013-09-17 | 2016-05-04 | 高通股份有限公司 | 用于调整用于激活话音辅助功能的检测阈值的方法及设备 |
JP2016536648A (ja) * | 2013-09-17 | 2016-11-24 | クゥアルコム・インコーポレイテッドQualcomm Incorporated | ボイスアシスタント機能をアクティブにするための検出しきい値を調整するための方法および装置 |
JP2015219440A (ja) * | 2014-05-20 | 2015-12-07 | パナソニックIpマネジメント株式会社 | 操作補助装置および操作補助方法 |
US9489941B2 (en) | 2014-05-20 | 2016-11-08 | Panasonic Intellectual Property Management Co., Ltd. | Operation assisting method and operation assisting device |
JP2016061888A (ja) * | 2014-09-17 | 2016-04-25 | 株式会社デンソー | 音声認識装置、音声認識対象区間設定方法、及び音声認識区間設定プログラム |
CN109920407A (zh) * | 2017-12-12 | 2019-06-21 | 上海博泰悦臻网络技术服务有限公司 | 智能终端及其饮食搜寻方法、及无人驾驶车辆 |
WO2023144573A1 (ja) * | 2022-01-26 | 2023-08-03 | 日産自動車株式会社 | 音声認識方法及び音声認識装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6515764B2 (ja) | 対話装置及び対話方法 | |
JP6720359B2 (ja) | 発語トリガを常時リッスンするための動的閾値 | |
JP5709980B2 (ja) | 音声認識装置およびナビゲーション装置 | |
US9218812B2 (en) | Vehicular device, server, and information processing method | |
JP2010281855A (ja) | 音声対話装置および音声対話方法 | |
JP4973722B2 (ja) | 音声認識装置、音声認識方法、及びナビゲーション装置 | |
JP5137853B2 (ja) | 車載用音声認識装置 | |
US20120052907A1 (en) | Hands-Free, Eyes-Free Mobile Device for In-Car Use | |
JP2009020423A (ja) | 音声認識装置および音声認識方法 | |
JP5844418B2 (ja) | エレベータ制御装置およびエレベータ制御方法 | |
JPWO2019130399A1 (ja) | 音声認識装置、音声認識システム及び音声認識方法 | |
JP2000322098A (ja) | 音声認識装置 | |
JP2008046299A (ja) | 音声認識装置 | |
US9148501B2 (en) | Systems and methods for hands-off control of a mobile communication device | |
JP2018116206A (ja) | 音声認識装置、音声認識方法及び音声認識システム | |
JP2016033530A (ja) | 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム | |
JP2010179875A (ja) | 情報提示システムおよび移動端末 | |
JP4320880B2 (ja) | 音声認識装置及び車載ナビゲーションシステム | |
US20200388268A1 (en) | Information processing apparatus, information processing system, and information processing method, and program | |
JP2001014599A (ja) | 覚醒度管理装置、覚醒度管理方法および覚醒度管理プログラムを格納するコンピュータ読み取り可能な記録媒体 | |
JP2010206365A (ja) | 対話装置 | |
JP2008249893A (ja) | 音声応答装置及びその方法 | |
JP2021536692A (ja) | ヒューマンマシン音声対話装置及びその操作方法 | |
JP6595324B2 (ja) | 車載装置、音声認識システム | |
WO2018056169A1 (ja) | 対話装置、処理方法、プログラム |