JP2015028566A

JP2015028566A - 応答制御システム、車載器、およびセンター

Info

Publication number: JP2015028566A
Application number: JP2013158282A
Authority: JP
Inventors: 星野　賢一; Kenichi Hoshino; 賢一星野; 健浩阿部田; Takehiro Abeta
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2013-07-30
Filing date: 2013-07-30
Publication date: 2015-02-12
Anticipated expiration: 2033-07-30
Also published as: JP6281202B2

Abstract

【課題】複数の応答システムが利用可能な構成において、ユーザは音声入力する際に当該音声入力に対する回答を求める応答システムを選択するためのユーザ操作を省略可能な応答制御システム、車載器、およびセンターを提供する。
【解決手段】回答側判定部３２Ａが第１センター３による音声認識処理の結果に基づいて第１センター３及び第２センター４のうち、いずれのセンターが入力音声データに対して応答するべきかを判定する。そして、回答出力部１８Ｄは、回答側判定部３２Ａにおいて応答するべきであると判定された方のセンターからの応答音声データをスピーカ１４に音声出力させる。
【選択図】図１

Description

本発明は、ユーザの入力した音声データに対して自動応答する技術に関する。

従来、ユーザから入力された音声データに対して音声認識処理を実施し、その認識処理結果に応じた種々の情報をユーザに提供する応答システムがある（例えば特許文献１）。この特許文献１に開示の応答システムは、車載器、及び車両外部に設けられて当該車載器と無線通信を実施する情報センターを備えている。

特許文献１に開示の応答システムでは、車載器は、ユーザの音声データを取得して情報センターに当該音声データを送信する。一方、情報センターは、当該音声データに対して音声認識処理を実施して、その認識処理結果に応じた応答音声データを車載器に返送する。そして、応答音声データの返送を受けた車載器では、当該応答音声データに従った音声出力を行う。

一方、携帯電話機においても、携帯電話会社の管理する情報センターと携帯電話機が無線通信することによって、ユーザの音声入力に対して種々の情報を提供する応答システムが普及してきている。なお、携帯電話機に限らず、様々な場面、環境においてユーザの入力した音声に対して自動応答する応答システムは利用されつつある。

特開２００４−３４８６５８号公報

近年では、車載器と携帯電話機とを連携させて動作させる技術も開発されている。このように、車載器と携帯電話機とを連携して動作させる場合には、車載器を介して複数の応答システムが利用可能な構成となる。

しかしながら、このような構成ではユーザは、車載器を操作するなどして、複数の応答システムのうち、目的に応じた応答システムを選択してから音声入力をしなければならない。また、いったん応答システムを選択した後に、異なる応答システムを利用したい場合には、利用する応答システムを切り替えるための操作をしなければならない。

本発明は、この事情に基づいて成されたものであり、その目的とするところは、ユーザの音声入力に対する応答を行う応答システムを複数利用可能な場合に、応答を行わせる応答システムをユーザが選択する手間を省くことを可能にする応答制御システム、車載器、およびセンターを提供することにある。

その目的を達成するための応答制御システムの発明は、マイク（１２）を介してユーザによる入力音声を入力音声データとして取得する音声取得部（１８Ａ）と、音声取得部が取得した入力音声データに対して音声認識処理を実施し、当該音声認識処理の結果に基づいて、入力音声データに対する応答となる第１の応答音声データを生成する第１の応答システム（３）と、音声取得部が取得した入力音声データに対して音声認識処理を実施し、当該音声認識処理の結果に基づいて、入力音声データに対する応答となる音声データである第２の応答音声データを生成する第２の応答システム（４）と、第１の応答システムによる音声認識処理の結果に基づいて、第１、第２の応答システムのうち、いずれの応答システムが入力音声データに対して応答するべきかを判定する回答側システム判定部（３２Ａ）と、回答側システム判定部において入力音声データに対して応答するべきと判定された方の応答システムである回答側応答システムが生成した応答音声データをスピーカ（１４）に音声出力させる回答出力部（１８Ｄ）と、を備えることを特徴とする。

以上の構成では、回答側システム判定部が第１の応答システムによる音声認識処理の結果に基づいて第１、第２の応答システムのうち、いずれの応答システムが入力音声データに対して応答するべきかを判定する。そして、回答出力部は、回答判定部において応答するべきであると判定された方の応答システムからの応答音声データをスピーカに音声出力させる。

このような構成によれば、回答側システム判定部が自動的に入力音声データの内容に応じた応答システムを選択するため、ユーザは質問する度に当該質問に対する回答を求める応答システムを選択する手間を省略することができ、ユーザの利便性を向上させる事ができる。

また、車載器の発明は、前記音声取得部と、前記回答出力部と、を備えることを特徴とする。

センターの発明は、前記第１の応答システムとしての機能を担うとともに、前記回答側システム判定部を備えることを特徴とする。

本実施形態にかかる応答制御システム１００の概略的な構成の一例を示すブロック図である。第１センター３の概略的な構成の一例を示すブロック図である。制御部１８の概略的な構成の一例を示すブロック図である。制御部１８が実施する応答切替処理の流れを示すフローチャートである。第１センター側制御部３２が実施する第１センター応答処理の流れを示すフローチャートである。表示装置１３の表示画面の例である。変形例４の応答制御システム１００Ａの概略的な構成の一例を示すブロック図である。

以下、本発明の実施形態を図１〜図６を用いて説明する。図１は、本実施形態に係る応答制御システム１００の概略的な構成の一例を示す図である。図１に示すように応答制御システム１００は、ナビゲーション装置１、携帯電話機２、第１センター３、および第２センター４を備えている。ナビゲーション装置１と第１センター３、ナビゲーション装置１と携帯電話機２、携帯電話機２と第２センター４とは、それぞれ公知の無線通信技術を用いてデータの送受信を実施する。

本実施形態において第１センター３および第２センター４がそれぞれ応答システムとして動作し、ナビゲーション装置１は各応答システムを利用するためのユーザインターフェース（背景技術欄および請求項に記載の車載器）として動作する。第１センター３が請求項に記載の第１の応答システムに、第２センター４が請求項に記載の第２の応答システムに相当する。なお、以降ではナビゲーション装置１を搭載している車両を自車両と呼ぶ。

第１センター３は、一例として自動車会社の情報センターであって、ナビゲーション装置の操作や、渋滞情報、自車両の操作に関連する質問に対応したり、ナビゲーション装置１の機能を利用するための音声入力による命令（これを命令コマンドとする）に対応する。第１センター３の動作の概要としては、ナビゲーション装置１から送信されてくる音声データをもとに、音声認識処理を実施することでユーザの質問内容を解析する。そして、ユーザの質問に対して自センターが応答すべきかどうかを判定するとともに、ユーザの質問への応答となる応答音声データを生成してナビゲーション装置１に返送する。例えば、第１センター３は、ユーザの「コンビニはどこ？」という質問に対し、ユーザの現在地から最寄りのコンビニの位置を教えてくれるものである。以降では、この第１センター３の構成について図２を用いてより詳細に説明する。

図２に示すように第１センター３は、第１センター側通信部３１、第１センター側制御部３２、音声認識部３３、音声認識データベース（以降、データベースはＤＢと略す）３４、第１センター側メモリ３５、および音声合成部３６を備えている。第１センター側通信部３１、第１センター側制御部３２、音声認識部３３、音声認識ＤＢ３４、第１センター側メモリ３５、音声合成部３６は、それぞれ例えば公知の通信規格に準拠したバス３７を介して相互通信可能に接続されている。

第１センター側通信部３１は、データの送受信をするための変調／復調などの種々の信号処理を実施する機能を備え、例えば携帯電話網やインターネット網などのネットワークを介してナビゲーション装置１と通信を実施する。第１センター側通信部３１は、ナビゲーション装置１から送られてくるデータを第１センター側制御部３２に出力し、また、第１センター側制御部３２から入力されるデータをナビゲーション装置１に送信する。なお、ナビゲーション装置１から第１センター３に送られてくるデータとしては、ユーザが発話した音声データの他、ナビゲーション装置１の現在地情報などがある。現在地情報などは逐次（例えば１００ミリ秒毎）に送られてくるものとする。

音声認識ＤＢ３４には、音声認識処理に必要なデータとして、例えば、人間の発声の小さな単位（音素）の音響特徴が記述されている音響モデル、音素の音響特徴と単語とを対応付ける認識辞書、単語間の連接関係を表現する言語モデルが格納されている。なお、本実施形態における音声認識ＤＢ３４は、例えば千語から数万語に対応する大規模なデータベースであるものとする。また、音声認識ＤＢ３４には、音声合成部３６が応答音声データを生成するために用いる音声データも格納されている。

音声認識部３３は、第１センター側制御部３２から入力される入力音声データから、音声認識ＤＢ３４に格納されている種々のデータを用いて、音声認識処理を実施する。音声認識処理は、公知の技術を用いればよいため、ここでの説明は省略する。音声認識処理の結果は、第１センター側制御部３２に出力される。音声合成部３６は、第１センター側制御部３２からの指示に基づいて音声認識ＤＢ３４に格納されている音声波形データを合成することで、応答音声データを生成する。生成された応答音声データは第１センター側制御部３２に出力される。この第１センター３において生成される応答音声データが請求項に記載の第１の応答音声データに相当する。

第１センター側メモリ３５は、書き込み可能なＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）等の大容量記憶装置である。第１センター側メモリ３５には、対応リスト３５Ａおよび応答用データ３５Ｂが保存されている。対応リスト３５Ａには自センターが対応すべき質問や命令コマンドのリストが登録されている。また、応答用データ３５Ｂは、ユーザからの質問や命令コマンドに応答するためのデータである。

例えば、応答用データ３５Ｂには、対応リスト３５Ａに登録されている各質問に対応する回答や、命令コマンドに対応してナビゲーション装置１の動作を制御するための制御信号のパターンが登録されている。第１センター側制御部３２は、応答用データ３５Ｂに基づいて、ユーザの質問に対する応答音声データを返送したり、ナビゲーション装置１の動作を制御するための制御信号をナビゲーション装置１に返送したりする。

本実施形態において、応答音声データを生成するための応答用データ３５Ｂは、応答音声データを生成するために必要な音声波形データを指定するコマンドの群とするが、これに限らない。対応リスト３５Ａに登録されている質問に対応する回答として予め登録してある音声データであってもよい。この場合、この音声データを応答音声データとしてナビゲーション装置１に返送すればよいため、第１センター３は音声合成部３６を備える必要はない。

なお、本実施形態では第１センター側メモリ３５としてＨＤＤを用いる構成とするが、その他、ＤＶＤやフラッシュメモリなど公知の記憶媒体を用いてもよい。この第１センター側メモリ３５が請求項に記載の対応リスト記憶部に相当する。

第１センター側制御部３２は、コンピュータとして構成されており、周知のＣＰＵ、ＲＯＭやＥＥＰＲＯＭなどの不揮発性メモリ、ＲＡＭなどの揮発性メモリ、Ｉ／Ｏ、及びこれらの構成を接続するバスライン（いずれも図示略）などを備えている。不揮発性メモリには、種々の処理を実行するためのプログラムが格納されている。第１センター側制御部３２は、第１センター側通信部３１や音声認識部３３、音声合成部３６が実施する処理を制御する。

例えば第１センター側制御部３２は、ナビゲーション装置１から送られてくる音声データ（これを入力音声データとする）を第１センター側通信部３１から取得した場合には、当該音声データを音声認識部３３に出力し、音声認識部３３に音声認識処理を実施させる。

そして、音声認識部３３から取得する音声認識処理の結果をもとに、第１センター側メモリ３５に保存されている応答用データ３５Ｂを参照し、入力音声データに応じた応答音声データを音声合成部３６に生成させる。応答音声データを音声合成部３６から取得すると、当該応答音声データを第１センター側通信部３１からナビゲーション装置１に送信させる。

また、第１センター側制御部３２は、図２に示すように、機能ブロックとして回答側判定部３２Ａと、更新部３２Ｂと、を備えている。更新部３２Ｂは、図５に示すフローチャートのステップＳ２１９を実施する。更新部３２Ｂについての詳細な説明は後述する。

回答側判定部３２Ａは、音声認識部３３から取得する音声認識処理の結果と、対応リスト３５Ａと、から、入力音声データに対して自センターが応答すべきか否かを判定する。例えば、音声認識処理の結果、ユーザの質問がこの対応リスト３５Ａに登録されている範囲の質問である場合には、当該入力音声データに対して自センターが応答すべきであると判定する。

また、ユーザの質問がこの対応リスト３５Ａに登録されている範囲外の質問である場合には、当該入力音声データに対して自センターが応答すべきではないと判定する。判定の結果は、応答音声データの送信に先立って、判定結果信号としてナビゲーション装置１に送信する。この回答側判定部３２Ａが請求項に記載の回答側システム判定部に相当する。

なお、回答側判定部３２Ａにおいて自センターが回答すべきではないと判定された場合であっても、第１センター側制御部３２は音声合成部３６などと協働して「すみません。認識出来ませんでした」などの応答音声データを生成し、ナビゲーション装置１に返送する構成としておけば良い。回答側判定部３２Ａにおいて自センターが回答すべきではないと判定された場合の処理は、適宜設計されればよいが、何らかの応答音声データを生成してナビゲーション装置１に返送するものとする。

また、ナビゲーション装置１の動作を制御する制御信号を送信する場合でも、どのような動作をさせるのかをユーザが認識できるような応答音声データも送信するものとする。ただし、後述するように、入力音声データの内容が他のセンターからの回答を出力するように要求するものであった場合には、特に応答音声データを返送せずに、他のセンターからの回答を出力させる制御信号を送信すれば良い。

したがって、本実施形態においては、入力音声データの内容が他のセンターからの回答を出力するように要求するものであった場合を除いて、入力音声データを取得すると応答音声データを返送するものとする。もちろん、他の構成として、入力音声データの内容が命令コマンドであった場合には、応答音声データを返送しない構成としても良い。

携帯電話機２は、周知の携帯電話機であって、第２センター４とネットワークを介して通信を実施するとともに、ナビゲーション装置１が備える第２通信部１７とも通信を実施する。例えば携帯電話機２は、第２通信部１７から受信する信号を、携帯電話機２と第２センター４間の通信の規格に応じた信号に変換して、第２センター４に送信する。また、第２センター４から受信する信号を、携帯電話機２と第２通信部１７間の通信の規格に応じた信号に変換して、第２通信部１７に送信する。

第２センター４は、例えば携帯電話会社の情報センターであって、当該携帯電話会社の管理する携帯電話網を利用する携帯電話機２のユーザに対して種々のサービスを提供する。第２センター４は、回答側判定部３２Ａを備えていないことを除けば、第１センター３と同様の構成である。すなわち、ナビゲーション装置１から送信されてくる音声データをもとに、音声認識処理を実施することでユーザの質問内容を解析する。そして、ユーザの質問への応答となる応答音声データを生成してナビゲーション装置１に返送する。ただし、第２センター４は、回答側判定部３２Ａに相当する機能を備えていないため、ユーザの質問に対して自センターが応答すべきかどうかの判定は実施しない。

携帯電話会社が提供するサービスとしてスケジュール管理機能を想定した場合を例にとると、例えば、第２センター４は、ユーザの「今日の予定は？」という質問に対し、予め登録されているユーザのその日の予定を教えてくれるものである。なお、応答音声データを生成するための元となるデータ（その日のスケジュールの情報など）は、携帯電話機２と第２センター４とが種々のデータ通信を実施することで、第２センター４が取得する構成としてもよい。この第２センター４が生成する応答音声データが請求項に記載の第２の応答音声データに相当する。

ナビゲーション装置１は、車両に搭載されるものであって、一般的なナビゲーション装置と同様の経路案内を行う機能を有している他に、例えば、第１センター３や、携帯電話機２を介して第２センター４と通信を行う機能を有している。ナビゲーション装置１は、図１に示すように、トークスイッチ（以降、トークＳＷ）１１、マイクロフォン（以降、マイク）１２、表示装置１３、スピーカ１４、メモリ１５、第１通信部１６、第２通信部１７、および制御部１８を備えている。

トークＳＷ１１は、ユーザ（運転者）が音声入力を開始する旨を指示するためのもので、例えばステアリングコラムカバーの側面部やシフトレバーの近傍などユーザが操作しやすい位置に設けられている。なお、トークＳＷ１１は一例として、いわゆるクリック方式のスイッチとし、トークＳＷ１１がユーザの操作によってオンに設定されると（すなわち、クリックされると）、オン信号を制御部１８に出力する。

制御部１８は、トークＳＷ１１からオン信号が入力されると、音声データを取得するための処理を実施するとともに、第１センター３および第２センター４との接続を開始する。ユーザは、トークＳＷ１１をオン操作した後、一定時間内（例えば１．５秒以内に）に発話し始めることで、その発話した音声をナビゲーション装置１に入力することができる。

なお、トークＳＷ１１を押下してから一定時間内に発話し始めた場合の、音声入力を終了するタイミングは後述するようにマイク１２から入力される音声信号の電力レベルが一定閾値以下となった時とする。

マイク１２は、例えば無指向性の小型マイクであり、ユーザが発話した音声や雑音などの周囲の音を集音し、電気的な音声信号に変換して、制御部１８に出力する。マイク１２は、例えばステアリングコラムカバーの上面部や運転席側のサンバイザー等のユーザの音声を拾いやすい位置に設けられる。

表示装置１３は、制御部１８からの入力に基づいてテキストや画像を表示し、種々の情報をユーザに報知する。表示装置１３は、例えばインスツルメントパネルの中央、又は運転席の前方に設けられたコンビネーションメータ内等に配置されている。表示装置１３は、例えばフルカラー表示が可能なものであり、液晶ディスプレイ、有機ＥＬディスプレイ、プラズマディスプレイ等を用いて構成することができる。

スピーカ１４は、制御部１８から入力された電気的な音声信号を音声（単なる音を含む）に変換して出力する。メモリ１５は、種々のデータを記憶する記憶装置であり、主として、種々の通信部１６、１７を介して第１センター３や第２センター４から取得する応答音声データや、ユーザの音声データを保存する。メモリ１５は、公知の記憶媒体を用いて構成すればよく、ＨＤＤや、比較的記憶容量の小さいリムーバブルなメモリ（例えばＳＤカードなど）であってもよい。

第１通信部１６は、送受信アンテナ（図示略）を備え、通信網を介して、第１センター３との間で通信を行う。第１通信部１６は、例えばテレマティクス通信に用いられるＤＣＭ（ＤａｔａＣｏｍｍｕｎｉｃａｔｉｏｎＭｏｄｕｌｅ）といった車載通信モジュールなどの様々なものを採用することができる。第１通信部１６は、第１センター３から受信した信号を復調して制御部１８に入力し、また、制御部１８から入力されたデータを変調して第１センター３に送信する。

第２通信部１７は、送受信アンテナ（図示略）を備え、携帯電話機２との間でＢｌｕｅｔｏｏｔｈ（登録商標）の規格に従った通信（以下、ＢＴ通信）を行うことで、情報のやり取りを行う。なお、本実施形態では、携帯電話機２と第２通信部１７との間での通信を、ＢＴ通信で行う構成を示したが、必ずしもこれに限らない。例えばＺｉｇＢｅｅ（登録商標）等の近距離無線通信規格やＩＥＥＥ８０２．１１等の無線ＬＡＮ規格などに従った無線通信によって行う構成としてもよいし、ＵＳＢ通信等の有線通信によって行う構成としてもよい。第２通信部１７は、携帯電話機２との通信規格に応じた変調／復調などの機能を備えていればよい。

制御部１８は、通常のコンピュータとして構成されており、周知のＣＰＵ、ＲＯＭやＥＥＰＲＯＭなどの不揮発性メモリ、ＲＡＭなどの揮発性メモリ、Ｉ／Ｏ、及びこれらの構成を接続するバスライン（いずれも図示略）などを備えている。不揮発性メモリには、種々の処理を実行するためのプログラムが格納されている。制御部１８は、種々の処理を実行するための機能ブロックとして、図３に示すように、音声取得部１８Ａ、回答一時保存部１８Ｂ、回答側センター設定部１８Ｃ、回答出力部１８Ｄ、回答フィードバック部１８Ｅ、エージェント表示制御部１８Ｆ、および別回答要求判定部１８Ｇを備える。

音声取得部１８Ａは、トークＳＷ１１からのオン信号に基づいて、マイク１２から入力される音声信号からノイズ成分を除去した音声データを取得する処理を実施する。例えば音声取得部１８Ａは、オン信号が入力されると、マイク１２から入力される音声信号を音声データに変換可能な状態である待機状態となる。そして、待機状態となってから音声が入力されない状態が一定時間（例えば、１．５秒）以上継続すると、自動的に変換不可状態となる。一定時間内に音声が入力されているとの判定が為された場合には、音声の入力が終わったと判定されるまでのマイク１２から入力される音声信号を音声データに変換する。

音声が入力されているか否か、および音声入力が終了したか否かは、公知技術を用いればよく、例えば音声信号の電力レベルが所定の閾値以上となったか否かによって判定すればよい。もちろん、このような構成においては閾値以上の電力レベルとなっている音声信号が入力された場合に、音声が入力されたと判定する。これら音声データの取得方法は、公知の技術を用いればよい。音声取得部１８Ａで取得した音声データは、ＶｏＩＰ（ＶｏｉｃｅｏｖｅｒＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）などの公知の技術を用いてデジタルのパケット信号に変換して第１通信部１６を介して第１センター３に送信される。

回答一時保存部１８Ｂは、第１センター３および第２センター４から受信した応答音声データをメモリ１５に一時保存する。回答一時保存部１８Ｂは、これらの音声データを受信してから、少なくとも例えば図４のステップＳ１１５でＮＯと判定されるまでは保存しておくものとする。この回答一時保存部１８Ｂが請求項に記載の一時保存部に相当する。

回答側センター設定部１８Ｃは、第１センター３から送られてくる判定結果信号に応じて、第１センター３および第２センター４のどちらから取得する応答音声データを、ユーザから入力された質問への回答としてスピーカ１４から出力するかを決定する。そして、ユーザから入力された質問に回答する側のセンターを回答側センターに設定し、回答側センターに設定されていないほうのセンターを準回答側センターに設定する。

より具体的には、判定結果信号が、第１センター３が応答すべきであるという内容であった場合には、回答側センターとして第１センター３を採用し、第１センター３から取得した応答音声データを出力するように回答出力部１８Ｄに指示する。また、判定結果信号が、第１センター３が応答すべきでないという内容であった場合には、回答側センターとして第２センター４を採用し、第２センター４から取得した応答音声データを出力するように回答出力部１８Ｄに指示する。

なお、本実施形態ではこのように回答側センター設定部１８Ｃにおいて、第１センター３および第２センター４のそれぞれを、回答側センターおよび準回答側センターに設定する構成とするが、この回答側センター設定部１８Ｃは発明を実施する上で任意の要素である。回答側センターが請求項に記載の回答側応答システムに、準回答側センターが請求項に記載の準回答側応答システムにそれぞれ相当する。

回答出力部１８Ｄは、回答側センター設定部１８Ｃの指示またはユーザ操作に基づいて、第１センター３または第２センター４のどちらから取得した応答音声データを音声信号に変換してスピーカ１４に出力し、スピーカ１４に音声として出力させる。回答フィードバック部１８Ｅ、エージェント表示制御部１８Ｆ、別回答要求判定部１８Ｇについては後述する。

（応答切替処理）
ここで、図４に示すフローチャートを用いて、ナビゲーション装置１の制御部１８が実施する応答切替処理の流れを説明する。図４のフローチャートは、例えば自車両のイグニッションスイッチがオンされてナビゲーション装置１に電源供給されたときに開始されるものとする。

まず、ステップＳ１０１では、トークＳＷ１１からオン信号が入力された否かを判定する。トークＳＷ１１からオン信号が入力された場合には、ステップＳ１０１がＹＥＳとなってステップＳ１０３に移る。また、トークＳＷ１１からオン信号が入力されていない場合には、ステップＳ１０１がＮＯとなって、ステップＳ１０１に戻る。すなわち、ユーザによってトークＳＷ１１が押下されるまで待機する。

ステップＳ１０３では、制御部１８は、第１センター３に接続し、第１センター３による応答システムを利用可能な状態にするとともに、携帯電話機２を介して第２センター４にも接続し、第２センター４による応答システムを利用可能な状態とする。すなわち、各応答システムは、ナビゲーション装置１から送信される音声データの受信を待機している状態とする。

また、それぞれの応答システムが利用可能な状態となると、エージェント表示制御部１８Ｆは、表示装置１３に図６（Ａ）に示すように、それぞれの応答システムに対応するエージェントＡ、Ｂを同時に表示させる。図６中のエージェントＡは、第１センター３による応答システムに対応するエージェントの画像であり、エージェントＢが第２センター４による応答システムに対応するエージェントの画像である。なお、エージェントとは、架空の人物や擬人化された動物などのキャラクターである。

ある応答システムに応じたエージェントを表示する技術としては、例えば特開２００６−１９５５７８に開示されている技術を適用すれば良い。ただし、特許文献１は、複数の応答システムのそれぞれに対応する複数のエージェントを表示するものではない。本実施形態のエージェント表示制御部１８Ｆは、特許文献１などの公知の技術を用いて、それぞれの応答システムに対応するエージェント画像を生成し、それら複数のエージェントの画像を１つの画面に表示されるように合成または重畳して表示するものとする。

ステップＳ１０３での処理が終了すると、ステップＳ１０５に移る。なお、Ｓ１０３を実施している間も音声取得部１８Ａは、マイク１２から音声データを取得している。

ステップＳ１０５では、マイク１２からユーザによる音声が入力されたか否かを判定する。すなわち、ステップＳ１０１でトークＳＷ１１が押下されてから一定時間内にユーザからの音声が入力されなかった場合には、ステップＳ１０５がＮＯとなってステップＳ１０１に戻る。一方、ユーザから音声が入力された場合には、ステップＳ１０５がＹＥＳとなってステップＳ１０７に移る。ステップＳ１０７では、音声取得部１８Ａが取得した音声データを、ＶｏＩＰ技術などを用いて第１センター３および第２センター４に送信してステップＳ１０９に移る。

ステップＳ１０９では、第１センター３から送られてくる判定結果信号を、第１通信部１６を介して取得して、ステップＳ１１１に移る。なお、判定結果信号を受信すると、回答側センター設定部１８Ｃが、当該判定結果信号に基づいて、第１センター３および第２センター４をそれぞれ回答側センターまたは準回答側センターに設定する。

ステップＳ１１１では、第１センター３および第２センター４から送信される応答音声データを取得する。ここで、準回答側センターからの応答音声データは、回答一時保存部１８Ｂによってメモリ１５に一時保存される。なお、本実施形態では回答側センターからの応答音声データを取得したタイミングでステップＳ１１１からステップＳ１１３に移る構成とするが、両方のセンター３，４から応答音声データを取得してからステップＳ１１３に移る構成でもよい。

ステップＳ１１３では、回答出力部１８Ｄが、回答側センター設定部１８Ｃによって回答側センターからの応答音声データをスピーカ１４に音声出力させる。また、回答側センターの応答音声データをスピーカ１４から音声出力させるとともに、図６の（Ｂ）や（Ｃ）に示すように回答側センターに対応するエージェントを相対的に大きく表示し、かつ、当該エージェントが話しているように画像を表示させる。ステップＳ１１３を実施すると、ステップＳ１１５に移る。

なお、各センターから応答音声データとともに応答音声データの内容に対応するテキストデータも取得できる場合には、当該エージェントのそばに当該テキストを表示しても良い。当該エージェントが話しているように画像を表示させる視覚効果は適宜設計されれば良い。

ステップＳ１１５では、別回答要求判定部１８Ｇが、ユーザから別の回答を要求する操作を受け付けたか否かを判定する。別の回答を要求する操作を受け付けた場合としては、例えば、表示装置１３に積層されたタッチパネル（図示略）に対して、準回答側センターのエージェントが表示されている領域をユーザがタッチしたことを検出した場合とすればよい。

その他、ユーザは、準回答側センターに対応するエージェントの名前を音声入力することによって、別の回答を制御部１８に要求してもよい。ただし、この場合、対応リスト３５Ａに、両センターの応答システムに対応するエージェントの名前をそれぞれ登録しておく必要がある。そして、第１センター側制御部３２は、準回答側センターのエージェントの名前が呼ばれたことを検出することによって、準回答側センターの応答音声データを出力させる制御信号をナビゲーション装置１に送信する。

なお、ステップＳ１１５に遷移してから一定時間（例えば２秒）経過してもユーザから別の回答を要求する操作を受け付けていない場合には、ユーザから別の回答を要求する操作が為されなかったと判定する。

ユーザから別の回答を要求する操作を受け付けた場合には、ステップＳ１１５がＹＥＳとなってステップＳ１１７に移る。また、ユーザから別の回答を要求する操作が為されなかった場合には、ステップＳ１１５がＮＯとなってステップＳ１１９に移る。ステップＳ１１７では、準回答側センターからの応答音声データを、メモリ１５から読み出し、スピーカ１４から音声出力させる。また、準回答側センターの応答音声データをスピーカ１４から音声出力するとともに、図６の（Ｂ）や（Ｃ）のように準回答側センターに対応するエージェントを相対的に大きく表示し、当該エージェントが話しているように画像を表示させる。ステップＳ１１７を実施すると、ステップＳ１１９に移る。

ステップＳ１１９では、回答フィードバック処理を実施して、再びステップＳ１０１の待機状態に戻る。この回答フィードバック処理では、判定結果信号の内容、すなわち、回答側判定部３２Ａの判定結果が正しかったか否かを第１センター３に送信する。例えば、ステップＳ１１５においてユーザから別の回答を要求する操作が為されなかった場合には、回答側判定部３２Ａの判定が正しかったとする内容の信号を第１センター３に送信する。一方、ステップＳ１１５においてユーザから別の回答を要求する操作を受け付けた場合には、回答側判定部３２Ａの判定が誤っていたとする内容の信号を第１センター３に送信する。

なお、本実施形態においては、いったんステップＳ１０３を実施した場合には、以降においても常に第１センター３および第２センター４との接続を維持するとともに、表示装置１３にも図６の（Ａ）を表示させておく構成とする。接続を維持する場合には一定周期（例えば２００ミリ秒ごと）で接続が維持できているかを確認するための信号を送受信すればよい。そして、接続が切断している状態において、オン信号が入力された場合には再度ステップＳ１０３を実施すれば良い。もちろん、他の構成として、ステップＳ１１９を実施する度に、第１センター３および第２センター４との接続を切断する構成でもよい。

（第１センター応答処理）
次に、ナビゲーション装置１が実施する応答切替処理における各処理を受けて第１センター側制御部３２が実施する第１センター応答処理について、図５に示すフローチャートを用いて説明する。図５に示すフローチャートは、ナビゲーション装置１から接続要求信号を受信したとき（図４のステップＳ１０３）に開始される。

まず、ステップＳ２０１では、ナビゲーション装置１からの接続要求信号に対して応答信号を返送し、ナビゲーション装置１および第１センター３間の接続を確立する。ナビゲーション装置１および第１センター３間の接続を確立すると、ステップＳ２０３に移る。ステップＳ２０３では、ナビゲーション装置１から入力音声データを取得したか否かを判定する。入力音声データを取得した場合には、ステップＳ２０３がＹＥＳとなってステップＳ２０５に移る。入力音声データを取得していない場合には、ステップＳ２０３がＮＯとなってステップＳ２０３に戻る。すなわち、入力音声データを取得するまで第１センター側制御部３２は待機している状態である。

ステップＳ２０５では、入力音声データを音声認識部３３に出力し、公知の音声認識処理を実施させる。音声認識部３３から音声認識処理の結果を取得すると、ステップＳ２０７に移る。ステップＳ２０７では、回答側判定部３２Ａが、音声認識部３３から取得する音声認識処理の結果と、対応リスト３５Ａと、から、入力音声データに対して自センターが応答すべきか否かを判定する。入力音声データに対して自センターが応答すべきであると判定した場合には、ステップＳ２０９がＹＥＳとなってステップＳ２１１に移る。また、入力音声データに対して自センターが応答すべきではないと判定した場合には、ステップＳ２０９がＮＯとなってステップＳ２１３に移る。

ステップＳ２１１では、回答側センターとして自センターを設定した判定結果信号をナビゲーション装置１に返送し、ステップＳ２１５に移る。またステップＳ２１３では、回答側センターとして他のセンターを設定した判定結果信号をナビゲーション装置１に返送し、ステップＳ２１５に移る。

ステップＳ２１５では、音声認識処理の結果をもとに、第１センター側メモリ３５に保存されている応答用データ３５Ｂを参照し、入力音声データの内容に応じた応答音声データを音声合成部３６に生成させる。音声合成部３６から応答音声データを取得するとステップＳ２１７に移る。ステップＳ２１７では、当該応答音声データを第１センター側通信部３１からナビゲーション装置１に送信させ、ステップＳ２１９に移る。

ステップＳ２１９では、更新部３２Ｂがフィードバック処理を実施する。このフィードバック処理では、まず、ナビゲーション装置１から回答側判定部３２Ａの判定結果が正しかったか否かの結果を取得する（図４のステップＳ１１９）。ナビゲーション装置１から回答側判定部３２Ａの判定が正しかったとする内容を取得した場合には、次回以降の判定も今回と同様に判定すれば良い。また、ナビゲーション装置１から回答側判定部３２Ａの判定が誤っていたとする内容を取得した場合には、次回以降の判定に対して今回とは異なる判定をするように対応リスト３５Ａを更新する。

なお、ナビゲーション装置１による応答切替処理を受けて、第２センターが実施する応答処理も、図５のステップＳ２０７〜Ｓ２１３を実施しない点を除けば、第１センター応答処理と同様であるため、ここでの詳細な説明は省略する。

以上で述べた応答制御システム１００における、ユーザ操作に対する一連の作動について説明する。まず、ユーザがトークＳＷ１１を押下すると、表示装置１３には図６（Ａ）に示すように第１センター３および第２センター４のそれぞれの応答システムに対応するエージェントＡ，Ｂを表示する（ステップＳ１０３）。そして、ユーザから例えば「コンビニはどこ？」という発話に対応する音声信号が入力された場合には、ナビゲーション装置１は、この音声信号を音声データに変換して、第１センター３および第２センター４に送信する（ステップＳ１０７）。

第１センター３では、この音声データ（すなわち入力音声データ）を取得すると、音声認識処理を実施し（ステップＳ２０５）、回答判定処理を実施する（ステップＳ２０７）。ここでの例では入力音声データの内容がコンビニの位置を質問しているものであるため、音声認識処理の結果、道路案内の質問であると判定し、自センターが回答するべきであると判定する（ステップＳ２０９ＹＥＳ）。そして、回答側センターとして自センター（すなわち、第１センター３）を設定した判定結果信号を出力する（ステップＳ２１１）。

ナビゲーション装置１の回答側センター設定部１８Ｃは、この判定結果信号を受けて第１センター３を回答側センターに設定し、かつ、第２センター４を準回答側センターに設定して、各センター３，４から応答音声データから送られてくるのを待機する。その後、各センター３，４から応答音声データを取得すると、第１センター３からの応答音声データをスピーカ１４から音声出力させ、第２センター４からの応答音声データを回答一時保存部１８Ｂがメモリ１５に一時保存する（ステップＳ１１３）。

なお、第１センター３からの応答音声データをスピーカ１４から出力している間は、図６（Ｂ）に示すように第１センター３に対応するエージェントＡを相対的に大きく表示するとともに、エージェントＡが話しているように表示する。

その後、一定時間内にユーザから別の回答を要求する操作を受け付けた場合には（ステップＳ１１５ＹＥＳ）、第２センター４からの応答音声データをスピーカ１４から出力させる（ステップＳ１１７）。そして、ナビゲーション装置１は回答フィードバック処理を実施して、この「コンビニはどこ？」というユーザの発話に対する一連の応答切替処理を終了する。なお、以上では第１センター３が回答側センターとなる例を述べたが、第２センター４が回答側センターとなる場合であっても同様に処理すればよい。

（本実施形態のまとめ）
以上の構成では、回答側判定部３２Ａが第１センター３による音声認識処理の結果に基づいて前記第１、第２センターのうち、いずれのセンターが前記入力音声データに対して応答するべきかを判定し、その判定結果をナビゲーション装置１に送信する。ナビゲーション装置１では、回答側センター設定部１８Ｃが当該判定結果に基づいて、回答側センターおよび準回答側センターを設定し、回答出力部が、回答側センターからの応答音声データをスピーカに音声出力させる。

このような構成によれば、回答側判定部３２Ａが自動的に入力音声データの内容に応じて、ユーザの音声入力に対して応答すべきセンター（すなわち応答システム）を選択するため、ユーザは応答を行わせる応答システムを選択する手間を省くことができ、ユーザの利便性を向上させる事ができる。

また、本実施形態では車両外のセンター（ここでは第１センター３）に回答側判定部３２Ａを備える構成とすることで、より多くのユーザからの回答フィードバック処理を受け付けることができる。これにともなって、回答側判定部３２Ａは、より的確な回答判定処理を実施することができるようになる。

また、回答一時保存部１８Ｂが準回答側センターからの応答音声データをメモリ１５に一時保存しておき、ステップＳ１１５においてユーザからの所定の操作入力（エージェント画像のタッチなど）を受け付けると、準回答側センターからの応答音声を音声出力する。これによって、回答側判定部３２Ａの判定結果が不適切であった場合であっても、同じ音声内容を再度入力すること無く、速やかに他のセンターからの回答を聞くことができる。

また、回答フィードバック処理およびフィードバック処理を実施する構成とした。これによって、回答側判定部３２Ａの判定結果に対するユーザの反応（回答側センターからの応答内容に満足したか否か）を、次回からの判定に反映することができ、より回答判定処理の精度を向上させることができる。

さらに、エージェント表示制御部が、表示装置１３に各センターに対応するエージェントＡ、Ｂを表示し、回答出力部１８Ｄによってスピーカ１４から音声出力されている応答音声データを生成したセンターに対応するエージェントが話しているように表示する。これによって、ユーザは、自身の音声入力に対してどちらのセンターが対応しているのかが一目で認識することができる。

なお、本実施形態では、複数の応答システムを利用する際のインターフェースとしてナビゲーション装置１を用いる構成としたが、これに限らない。ナビゲーション機能を備えない車載器を、複数の応答システムを利用する際のインターフェースとして用いてもよい。

以上、本発明の実施形態を説明したが、本発明は上述の実施形態に限定されるものではなく、以降に述べる種々の変形例も本発明の技術的範囲に含まれ、さらに、下記以外にも要旨を逸脱しない範囲内で種々変更して実施することができる。

（変形例１）
上述の実施形態では回答側判定部３２Ａを第１センター３に備えさせたが、もちろん、回答側判定部３２Ａは第２センター４に備えさせても良い。また、第１センター３として自動車会社の情報センターを想定し、第２センター４として携帯電話会社の情報センターを想定したが、これら以外の情報センターであってもよい。

（変形例２）
また、上述した実施形態では、第２センター４との通信は携帯電話機２を介して実施する構成としたが、これに限らない。携帯電話機２を介さずに、ナビゲーション装置１と第２センター４とが通信する構成でもよい。さらに、携帯電話機２に代わって、無線通信機能を有する他の携帯端末（例えば公知のタブレット端末など）を用いる構成であってもよい。なお、メモリ１５は任意の要素としてもよい。

（変形例３）
前述の実施形態では、第１センター３が回答するのか、第２センター４が回答するのかを判定する回答側判定部３２Ａを第１センター３に備えさせたが、これに限らない。例えばナビゲーション装置１に、対応リスト３５Ａおよび回答側判定部３２Ａに相当する機能を備えさせても良い。

回答判定処理に用いる音声認識の結果は、第１センター３または第２センター４から取得する構成でも良いし、音声認識部３３、音声認識ＤＢ３４に相当する機能をナビゲーション装置１に備えさせても良い。この変形例１の構成によれば、ナビゲーション装置１において、回答側センターを判定できるため、応答制御システムの構成をより簡単にすることができる。

（変形例４）
なお、以上では、ユーザの入力音声データに応答する複数の応答システムがいずれも車両外のセンターに備えられている構成を示したが、これに限らない。たとえば図７に示すように、ナビゲーション装置１に第１センター３に相当する応答システム１９が備えられている構成でもよい。この場合、通信は第２センター４とだけ実施するため、通信費を前述の実施形態よりも抑制することができる。

（変形例５）
一般に、音声認識処理はＣＰＵに対して比較的高い処理能力を必要とするため、変形例４のようにナビゲーション装置１に音声認識処理などの機能を備えさせると、ナビゲーション装置１は高性能のＣＰＵを備える必要性が生じ、ナビゲーション装置１が高価になってしまうことが懸念される。そこで、公知のＤＳＲ（ＤｉｓｔｒｉｂｕｔｅｄＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ）技術を用いて、音声認識処理をナビゲーション装置１と、外部のセンター３，４とで、分担する構成としても良い。

例えば、ナビゲーション装置１にユーザの音声データに対して音響分析のみを実施する機能を実装し、音響分析によって得られる特徴量を外部のセンター３，４に送信する。外部のセンター３，４は、ナビゲーション装置１から送られてくる特徴量に基づいて音声認識処理を実行し、応答音声データをナビゲーション装置１に返送する。

（変形例６）
また、前述の実施形態では、回答側判定部３２Ａによる判定の精度を向上させるための学習方法として、ステップＳ１１９での回答フィードバック処理およびステップＳ２１９でのフィードバック処理を実施する構成としたが、これに限らない。

例えば、センター側制御部３２は、ユーザが同じ或いは類似性の高い内容の質問を繰り返し入力したかどうかで、ユーザが回答に満足したかを判定してもよい。すなわち、センター側制御部３２は、音声認識処理の結果、同じ或いは類似性の高い内容と推定される質問が一定時間（例えば１分）以内に再度為された場合には、前回（すなわち一回目に）スピーカ１４より出力された回答に対してユーザが満足していなかったと判定する。この場合、回答側判定部３２Ａは、一回目では準回答側センターに設定したセンターを回答側センターに設定するとともに、対応リスト３５Ａの内容を、一回目で準回答側センターに設定したセンターを回答側センターに設定するように修正すればよい。

なお、入力音声データの内容が、以前に入力された入力音声データと同じ或いは類似性の高いものであるか否かの判定は、音声認識処理の結果、それぞれの入力音声データに出現する単語（その単語の類似語も含む）の一致度合いによって評価すれば良い。

ただし、ユーザが最初の応答音声データによる回答に満足していないからといって、回答側センターが不適切だったとは限らない。ユーザは、同じ回答側センターに対して異なる回答を求めている場合も考えられる。

そこで、回答側判定部３２Ａは、音声認識処理の結果と、対応リスト３５Ａとの一致度合いに基づいて、判定結果に対する確からしさを算出する。そして、その確からしさが所定閾値以上である場合には、対応リスト３５Ａは修正せずに、応答用データ３５Ｂを修正してより適切な応答音声データが生成できるようにしてもよい。

なお、音声認識処理の結果と、対応リスト３５Ａとの一致度合いとは、対応リストと、ユーザの入力音声と対応リストに登録されている質問との意味の近さを評価したものと言い換えられる。

例えば、１回目に「近くのガソリンスタンドは？」という質問に対して、第１センター３が近くのＡ社のガソリンスタンドの場所を提示した後に、「Ｂ社のガソリンスタンドは？」という質問が入力された場合を想定する。

なお、第１センター３が応答すべき質問の内容として「ガソリンスタンドの場所」が対応リストに登録されており、１回目の入力音声も、２回目の入力音声も、ガソリンスタンドの場所を尋ねているため、第１センター３が応答すべきであるという判定結果の確からしさは所定の閾値以上となっているものとする。

このような場合には、回答側センターの判定結果は維持したまま、次回からはＢ社のガソリンスタンドを優先的に案内するように応答用データを修正する構成とすれば良い。この場合、各センターはユーザ毎の嗜好を反映した応答用データ３５Ｂを備えていることが好ましい。

（変形例７）
なお、回答側判定部３２Ａを備えている第１センター３は、第２センター４の応答音声データを取り込んでもよい。第１センター３は、第２センター４の応答音声データを解析することにより、第１センター３の回答判定処理や応答用データ３５Ｂに反映することで、ユーザの質問に対する回答の精度を向上させる事ができる。

特に、第１センター３と第２センター４とが、同様なサービス（周辺のレストラン検索など）を実施している場合には、第２センター４の応答音声データを取り込むことで、ユーザの嗜好などを反映することが期待される。

この場合、ナビゲーション装置１は、第２センター４から取得した応答音声データを回答一時保存部１８Ｂに一時保存するとともに、第１通信部１６を介して第１センター３に送信する。なお、第２センターの応答音声データを取り込む処理は、第１センター応答処理とは独立して行うことが好ましい。

（変形例８）
また、音声認識処理の結果、質問の内容が相対的にあいまいであった場合に、車両の状況によって質問の意図を推測する構成としても良い。例えば、のろのろ運転、ブレーキを頻繁に踏む、ウインカの急な操作等の運転動作や、現在の車両位置がユーザの普段の行動範囲外である場合に、「お腹すいた」といった内容の入力音声データを取得した場合には、レストランなどを探していると推定し、道案内が必要だと判定する。

そして、「この先にレストランがあります。目的地設定しますか？」といった応答音声データを返送する。車両の状況を推定するための車両情報（車両の速度、ブレーキ、ウインカ、車両位置など）は、ナビゲーション装置１を通して自動車会社のセンターへ送信するものとする。また、目的物を探している／道に迷っている等の判定は、自動車会社のセンターで行うものとする。なお、ナビゲーション装置１で車両情報に基づいて車両の状況を判定し、その判定結果を自動車会社のセンターへ送信してもよい。

このような構成によれば、ユーザの音声入力の内容が、あいまいなものであった場合にも車両情報から、ユーザの状況を推定することで、より適切な応答を実施することができるようになる。

（変形例９）
上述した実施形態では、対応リスト３５Ａには、第１センター３が対応すべき質問や命令コマンドのリストが登録されており、他のセンターが対応すべき質問や命令コマンドのリストについては登録されていない構成としたがこれに限らない。

すなわち、対応リスト３５Ａには、第１センター３が対応すべき質問や命令コマンドのリストに加えて、第２センター４が対応すべき質問や命令コマンドのリストを備えていてもよい。これによって、ユーザの質問の内容が、第２センター４が対応すべき質問であると対応リスト３５Ａに登録されている場合には、回答側判定部３２Ａは、単に自センター３が応答すべきではない、というだけでなく、当該ユーザの質問に対しては第２センター４が応答すべきであることまで判定することができるようになる。

また、これに伴って、回答側判定部３２Ａは、音声認識処理の結果と、センター毎の対応リスト３５Ａの内容との一致度に基づいて、センター毎にそのセンターが応答することの尤もらしさ（尤度）を算出し、尤度が高い方を回答側センターに設定しても良い。なお、回答側判定部３２Ａは、音声認識処理の結果と、センター毎の対応リスト３５Ａの内容との一致度が高いほど、尤度は高くなるものとする。

（変形例１０）
なお、変形例９において、対応リスト３５Ａには各センターが対応すべき質問や命令コマンドのリストが登録されているものとしたが、これに限らない。例えば、対応リスト３５Ａには、センター毎に、そのセンターが実施するサービスと関連性の強い単語や薄い単語を定義しておき、回答側判定部３２Ａは、音声認識処理の結果に含まれる単語と各センターとの関連性を評価して、回答側センターを判定しても良い。

例えば、「道」「目的地」「道路」「渋滞」などの単語が含まれていた場合には、第１センター３を回答側センターに設定し、「電話」「（人物名詞）さん」「スケジュール」などの単語が含まれていた場合には、第２センター４を回答側センターに設定すればよい。センターが対応すべき質問と入力音声データとの一致度合いを評価する際に、これらの単語毎の重み付けを適用してもよい。

（変形例１１）
また、以上の例では、ユーザが利用可能な応答システムとして、２つの応答システム（すなわち、センター）が利用可能な構成について説明したが、これに限らない。ユーザが利用可能なセンターは３つ以上であっても良い。すなわち、請求項に記載の第１の応答システムに相当する１つのセンターに対して、第２の応答システムに相当するセンターが複数あってもよい。

この場合、対応リスト３５Ａには、それぞれのセンターが応答するべき入力音声の内容を、センター毎に登録しておく。そして、回答側判定部３２Ａは、音声認識処理の結果と、対応リストと、に基づいて、ユーザが利用な可能な複数の応答システムのうち、いずれの応答システムが当該入力音声データに対して応答するべきかを判定すればよい。

例えば回答側判定部３２Ａは、音声認識処理の結果と、センター毎の対応リスト３５Ａの内容との一致度合いに基づいて、センター毎に尤度を算出する。そして最も尤度が高いセンターの応答音声データから優先的に音声出力させれば良い。

１００応答制御システム、１ナビゲーション装置（車載器）、１２マイク、１４スピーカ、１８制御部、１８Ａ音声取得部、１８Ｂ回答一時保存部、１８Ｃ回答側センター設定部、１８Ｄ回答出力部、１８Ｅ回答フィードバック部、１８Ｆエージェント表示制御部、１８Ｇ別回答要求判定部、２携帯電話機、３第１センター（第１の応答システム）、３２第１センター側制御部、３２Ａ回答側判定部、３２Ｂ更新部、３３音声認識部、３４音声認識データベース、３５第１センター側メモリ、３５Ａ対応リスト、３５Ｂ応答用データ、４…第２センター（第２の応答システム）

Claims

マイク（１２）を介してユーザによる入力音声を入力音声データとして取得する音声取得部（１８Ａ）と、
前記音声取得部が取得した前記入力音声データに対して音声認識処理を実施し、当該音声認識処理の結果に基づいて、前記入力音声データに対する応答となる第１の応答音声データを生成する第１の応答システム（３）と、
前記音声取得部が取得した前記入力音声データに対して音声認識処理を実施し、当該音声認識処理の結果に基づいて、前記入力音声データに対する応答となる音声データである第２の応答音声データを生成する第２の応答システム（４）と、
前記第１の応答システムによる前記音声認識処理の結果に基づいて、前記第１、第２の応答システムのうち、いずれの応答システムが前記入力音声データに対して応答するべきかを判定する回答側システム判定部（３２Ａ）と、
前記回答側システム判定部において前記入力音声データに対して応答するべきと判定された方の応答システムである回答側応答システムが生成した応答音声データをスピーカ（１４）に音声出力させる回答出力部（１８Ｄ）と、を備えることを特徴とする応答制御システム。
請求項１において、
前記第１の応答システムが応答するべき入力音声データの内容を記述した対応リスト（３５Ａ）を記憶する対応リスト記憶部（３５）を備え、
前記回答側システム判定部は、
前記音声認識処理の結果が前記対応リストに対応付けられている場合には、前記入力音声データに対して前記第１の応答システムが応答するべきであると判定する一方、
前記音声認識処理の結果が前記対応リストに対応付けられていない場合には、前記入力音声データに対して前記第２の応答システムが応答するべきであると判定することを特徴とする応答制御システム。
請求項２において、
前記回答側システム判定部によって前記入力音声データに対して応答するべきと判定されなかった方の応答システムである準回答側応答システムが生成した応答音声データを前記スピーカに出力することを要求するユーザ操作を、受け付けたか否かを判定する別回答要求判定部（１８Ｇ）を備え、
前記回答出力部は、前記準回答側応答システムで前記ユーザ操作を受け付けたと前記別回答要求判定部が判定した場合には、前記準回答側応答システムの応答音声データを前記スピーカに音声出力させることを特徴とする応答制御システム。
請求項３において、
前記準回答側応答システムより取得した前記応答音声データを、前記別回答要求判定部で前記ユーザ操作を受け付けなかったと判定されるまでは一時保存する一時保存部（１８Ｂ）を備え、
前記別回答要求判定部で前記ユーザ操作を受け付けたと判定した場合には、前記一時保存部に保存されている前記準回答側応答システムの前記応答音声データを前記スピーカに音声出力させることを特徴とする応答制御システム。
請求項４において、
前記別回答要求判定部で前記ユーザ操作を受け付けたと判定した場合には、前記入力音声データへの前記音声認識処理の結果に対して、今回前記準回答側応答システムとした応答システムが次回以降は前記回答側応答システムとされるように、前記対応リストの内容を更新する更新部（３２Ｂ）を備えることを特徴とする応答制御システム。
請求項３から５の何れか１項において、
前記第１の応答システムによる前記音声認識処理の結果から同一或いは類似性の高い内容と判定される前記入力音声データが、一定時間以内に再度入力された場合には、
前回に前記準回答側応答システムとした応答システムを前記回答側応答システムとするとともに、
前回に前記準回答側応答システムとした応答システムが次回以降は前記回答側応答システムとされるように、前記対応リストの内容を更新することを特徴とする応答制御システム。
請求項１から６の何れか１項において、
前記応答制御システムは、表示装置（１３）と、
前記第１、第２の応答システムのそれぞれに対応するエージェント画像を前記表示装置に同時に表示するエージェント表示制御部（１８Ｆ）と、を備え、
前記エージェント表示制御部は、前記回答出力部によって前記スピーカに出力されている前記応答音声データを生成した前記応答システムに対応する前記エージェント画像が話しているように表示することを特徴とする応答制御システム。
請求項１から７の何れか１項において、
前記応答制御システムは、車両に搭載されている車載器（１）と、車両外部に設けられて前記車載器と無線通信を実施する第１センター（３）と、車両外部に設けられて前記車載器と無線通信を実施する第２センター（４）と、を備え、
前記車載器が、前記音声取得部と、前記回答出力部と、を備え、
前記第１センターが、前記第１の応答システムとしての機能を担うとともに、前記回答側システム判定部を備え、
前記第２センターが、前記第２の応答システムとしての機能を担うことを特徴とする応答制御システム。
請求項８に記載の前記車載器の機能を備えることを特徴とする車載器。
請求項８に記載の前記第１センターの機能を備えることを特徴とするセンター。