JP2020142721A

JP2020142721A - エージェントシステム、車載機器の制御方法、及びプログラム

Info

Publication number: JP2020142721A
Application number: JP2019041995A
Authority: JP
Inventors: 昌宏暮橋; Masahiro Kurehashi; 慎一菊池; Shinichi Kikuchi
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2019-03-07
Filing date: 2019-03-07
Publication date: 2020-09-10

Abstract

【課題】利用者をより満足させることができる。【解決手段】エージェントシステムは、車両の複数の座席のそれぞれに対応して設けられ、少なくとも一つ以上のマイクロフォンを含み、かつ前記座席にいるユーザの端末装置と有線または無線を介して接続される音響設備と、前記音響設備に含まれる前記マイクロフォンから、前記ユーザの発話を示す音声データを取得する取得部と、前記取得部によって取得された前記音声データに基づいて、前記複数の座席のそれぞれにいるユーザの中から、特定のフレーズを発話した第１ユーザを判定する判定部と、前記判定部の判定結果に基づいて、前記第１ユーザがいる第１座席と異なる第２座席に対応して設けられた前記音響設備と、前記端末装置との接続を制限する接続制御部と、を備える。【選択図】図２

Description

本発明は、エージェントシステム、車載機器の制御方法、及びプログラムに関する。

従来、車両の乗員と対話を行いながら、乗員の要求に応じた運転支援に関する情報や車両の制御、その他のアプリケーション等を提供するエージェント機能に関する技術が開示されている（例えば、特許文献１参照）。

特開２００６−３３５２３１号公報

近年では、エージェント機能を車両に搭載することについて実用化が進められているが、エージェント機能におけるサービスの提供について十分に検討されていなかった。このため、従来の技術では、エージェント機能のサービスの提供について利用者の満足度が低い場合があった。

本発明は、このような事情を考慮してなされたものであり、利用者をより満足させることができるエージェントシステム、車載機器の制御方法、及びプログラムを提供することを目的の一つとする。

本発明に係るエージェントシステム、車載機器の制御方法、及びプログラムは、以下の構成を採用した。

（１）本発明の一態様は、車両の複数の座席のそれぞれに対応して設けられ、少なくとも一つ以上のマイクロフォンを含み、かつ前記座席にいるユーザの端末装置と有線または無線を介して接続される音響設備と、前記音響設備に含まれる前記マイクロフォンから、前記ユーザの発話を示す音声データを取得する取得部と、前記取得部によって取得された前記音声データに基づいて、前記複数の座席のそれぞれにいるユーザの中から、特定のフレーズを発話した第１ユーザを判定する判定部と、前記判定部の判定結果に基づいて、前記第１ユーザがいる第１座席と異なる第２座席に対応して設けられた前記音響設備と、前記端末装置との接続を制限する接続制御部と、を備えるエージェントシステムである。

（２）の態様は、上記（１）の態様のエージェントシステムにおいて、前記接続制御部は、前記第１座席に対応して設けられた前記音響設備と、前記端末装置との接続を制限せず、前記第１座席に対応して設けられた前記音響設備に含まれる前記マイクロフォンから前記取得部が取得した前記音声データに基づいて、前記第１座席に対応して設けられた前記音響設備に接続された前記端末装置に対して、音声対話を含むサービスを提供する提供部を更に備えるものである。

（３）の態様は、上記（１）または（２）の態様のエージェントシステムにおいて、前記判定部は、前記取得部によって前記音声データが取得された複数の前記マイクロフォンのうち、最も音圧レベルの大きい前記音声データの取得先である第１マイクロフォンを含む前記音響設備に対応した座席にいるユーザを、前記第１ユーザと判定するものである。

（４）の態様は、上記（１）から（３）のうちいずれか一つの態様のエージェントシステムにおいて、前記判定部は、前記取得部によって前記音声データが取得された複数の前記マイクロフォンのうち、最も早く前記音声データが取得された第１マイクロフォンを含む前記音響設備に対応した座席にいるユーザを、前記第１ユーザと判定するものである。

（５）の態様は、上記（３）または（４）の態様のエージェントシステムにおいて、前記端末装置は、前記音響設備と有線または無線を介して接続する通信部と、前記通信部を介して、前記第１マイクロフォンによって収音されたユーザの発話に基づく情報を取得し、前記取得した情報に基づいて、前記ユーザの発話に対する応答を含む第１サービスを提供する端末制御部と、を備えるものである。

（６）の態様は、上記（５）の態様のエージェントシステムにおいて、前記端末装置は、更に、第２マイクロフォンを備え、前記端末制御部は、前記第２マイクロフォンによって収音されたユーザの発話に基づいて、前記ユーザの発話に対する応答を含む第２サービスを提供し、前記通信部が前記音響設備と接続した場合、前記第２サービスを提供せず、前記第１サービスを提供するものである。

（７）本発明の他の態様は、車両の複数の座席のそれぞれに対応して設けられ、少なくとも一つ以上のマイクロフォンを含み、かつ前記座席にいるユーザの端末装置と有線または無線を介して接続される音響設備と、前記音響設備に含まれる前記マイクロフォンから、前記ユーザの発話を示す音声データを取得する取得部と、前記取得部によって取得された前記音声データに基づいて、前記複数の座席の中から、特定のフレーズを発話したユーザがいる第１座席を判定する判定部と、前記判定部の判定結果に基づいて、前記複数の座席のそれぞれに対応して設けられた前記音響設備のうち、前記第１座席と異なる第２座席に対応して設けられた前記音響設備と、前記端末装置との接続を制限する接続制御部と、を備えるエージェントシステムである。

（８）本発明の他の態様は、車両に搭載されたコンピュータが、前記車両の複数の座席のそれぞれに対応して設けられ、少なくとも一つ以上のマイクロフォンを含み、かつ前記座席にいるユーザの端末装置と有線または無線を介して接続される音響設備から、前記ユーザの発話を示す音声データを取得し、前記取得した音声データに基づいて、前記複数の座席のそれぞれにいるユーザの中から、特定のフレーズを発話した第１ユーザを判定し、前記判定した結果に基づいて、前記第１ユーザがいる第１座席と異なる第２座席に対応して設けられた前記音響設備と、前記端末装置との接続を制限する、車載機器の制御方法である。

（９）本発明の他の態様は、車両に搭載されたコンピュータに、前記車両の複数の座席のそれぞれに対応して設けられ、少なくとも一つ以上のマイクロフォンを含み、かつ前記座席にいるユーザの端末装置と有線または無線を介して接続される音響設備から、前記ユーザの発話を示す音声データを取得する処理と、前記取得した音声データに基づいて、前記複数の座席のそれぞれにいるユーザの中から、特定のフレーズを発話した第１ユーザを判定する処理と、前記判定した結果に基づいて、前記第１ユーザがいる第１座席と異なる第２座席に対応して設けられた前記音響設備と、前記端末装置との接続を制限する処理と、を実行させるためのプログラムである。

上記のいずれかの態様によれば、利用者をより満足させることができる。

実施形態に係るエージェントシステム１の構成図である。実施形態に係るエージェント装置１００の構成と、車両Ｍに搭載された機器との一例を示す図である。車内のマイクロフォン１０の配置の一例を示す図である。車内の表示・操作装置２０の配置の一例を示す図である。車内のスピーカ３０の配置の一例を示す図である。後部座席ＢＳ１に着座したユーザから見た音響設備ＡＥの一例を示す図である。音像が定位する位置が定まる原理について説明するための図である。実施形態に係る端末装置４００の構成の一例を示す図である。エージェントサーバ２００の構成と、エージェント装置１００および端末装置４００の構成の一部とを示す図である。実施形態に係る端末装置４００による一連の処理の流れを示すフローチャートである。実施形態に係るエージェント装置１００による一連の処理の流れを示すフローチャートである。音響設備ＡＥと端末装置４００との接続を制限する場面の一例を示す図である。音響設備ＡＥと端末装置４００との接続を制限する場面の一例を示す図である。音響設備ＡＥと端末装置４００との接続を制限する場面の一例を示す図である。実施形態に係るエージェント装置１００の構成の他の例を示す図である。

以下、図面を参照し、本発明のエージェントシステム、車載機器の制御方法、及びプログラムの実施形態について説明する。

エージェント装置は、エージェントシステムの一部または全部を実現する装置である。エージェント装置は、典型的には、車両Ｍに搭載される。エージェント装置は、複数種類のエージェント機能を備える。例えば、エージェント機能は、ユーザと対話をしながら、ユーザの発話の中に含まれる要求（コマンド）に基づいて、各種情報をユーザに提供したり、ネットワークサービスを仲介したりする機能である。複数種類のエージェントはそれぞれに果たす機能、処理手順、制御、出力態様・内容がそれぞれ異なってもよい。また、エージェント装置が備える複数のエージェント機能の中には、車両Ｍに搭載された車載機器（例えば運転制御や車体制御に関わる機器）の制御等を行う機能を有する機能が含まれる。

エージェント機能は、例えば、乗員の音声を認識する音声認識機能（音声をテキスト化する機能）に加え、自然言語処理機能（テキストの構造や意味を理解する機能）、対話管理機能、ネットワークを介して他装置のデータベースを検索し、或いは自装置のデータベースを検索するネットワーク検索機能等を統合的に利用して実現される。これらの機能の一部または全部は、ＡＩ（Artificial Intelligence）技術によって実現されてよい。また、これらの機能を行うための構成の一部（特に、音声認識機能や自然言語処理機能）は、エージェントサーバ（外部装置）に搭載されてもよい。エージェントサーバは、例えば、車両Ｍに搭載された通信装置と通信したり、車両Ｍ内に持ち込まれた端末装置と通信したりする。以下の説明では、構成の一部がエージェントサーバに搭載されており、エージェント装置とエージェントサーバが協働してエージェントシステムを実現することを前提とする。また、エージェント装置とエージェントサーバが協働して仮想的に出現させるサービス提供主体（サービス・エンティティ）をエージェントＡＧと称する。エージェントＡＧは、音声アシスタントとも呼ばれる。

＜システムの全体構成＞
図１は、実施形態に係るエージェントシステム１の構成図である。エージェントシステム１は、例えば、エージェント装置１００と、複数のエージェントサーバ２００−１、２００−２、２００−３、…と、端末装置４００とを備える。符号の末尾のハイフン以下の数字は、エージェントＡＧを区別するための識別子であるものとする。いずれのエージェントサーバであるのかを区別しない場合、エージェントサーバ２００と総称する場合がある。図１では３つのエージェントサーバ２００を示しているが、エージェントサーバ２００の数は２つであってもよいし、４つ以上であってもよい。以下、符号「２００−１」が付されるエージェントサーバを、「第１エージェントサーバ」と称し、符号「２００−２」が付されるエージェントサーバを、「第２エージェントサーバ」と称し、符号「２００−３」が付されるエージェントサーバを、「第３エージェントサーバ」と称して説明する。これらのエージェントサーバ２００は、互いに異なる事業者によって運営される。例えば、自動車メーカー、ネットワークサービス事業者、電子商取引事業者、携帯電話の販売事業者や製造事業者などが、それぞれのエージェントサーバ２００を運営および管理してよい。この場合、エージェントＡＧは、任意の主体（法人、団体、個人等）によって提供される。

エージェントシステム１に含まれる各装置はネットワークＮＷを介して接続される。ネットワークＮＷは、例えば、インターネット、セルラー網、Ｗｉ−Ｆｉ網、ＷＡＮ（Wide Area Network）、ＬＡＮ（Local Area Network）、公衆回線、電話回線、無線基地局などのうち一部または全部を含む。ネットワークＮＷには、各種ウェブサーバ３００が接続されており、エージェントサーバ２００、エージェント装置１００、または端末装置４００は、ネットワークＮＷを介して各種ウェブサーバ３００からウェブページを取得することができる。

第１エージェントサーバ２００−１は、第１事業者によって運営および管理されるサーバである。第１事業者は、例えば、自動車メーカーである。例えば、第１エージェントサーバ２００−１は、ネットワークＮＷを介して、他のエージェントサーバ２００と通信したり、エージェント装置１００や端末装置４００と通信したりする。第１エージェントサーバ２００−１は、例えば、エージェント装置１００や端末装置４００に、自動車メーカー独自のエージェント（以下、第１エージェントＡＧ１と称する）をサービスとして提供させる。

第２エージェントサーバ２００−２は、第２事業者によって運営および管理されるサーバである。第２事業者は、例えば、ショッピングサイトなどを提供するネットワークサービス事業者である。例えば、第２エージェントサーバ２００−２は、ネットワークＮＷを介して、他のエージェントサーバ２００と通信したり、エージェント装置１００や端末装置４００と通信したりする。第２エージェントサーバ２００−２は、例えば、エージェント装置１００や端末装置４００に、第２事業者独自のエージェント（以下、第２エージェントＡＧ２と称する）をサービスとして提供させる。

第３エージェントサーバ２００−３は、第３事業者によって運営および管理されるサーバである。第３事業者は、例えば、自動車メーカーや、ネットワークサービス事業者、その他事業者であってよい。例えば、第３エージェントサーバ２００−３は、ネットワークＮＷを介して、他のエージェントサーバ２００と通信したり、エージェント装置１００や端末装置４００と通信したりする。第３エージェントサーバ２００−３は、例えば、エージェント装置１００や端末装置４００に、第３事業者独自のエージェント（以下、第３エージェントＡＧ３と称する）をサービスとして提供させる。

エージェント装置１００は、車両Ｍに乗車したユーザと対話を行い、ユーザから得られた質問などをエージェントサーバ２００に送信し、エージェントサーバ２００から得られた回答を、音声として出力したり、画像として表示したりする。

［車両の構成］
図２は、実施形態に係るエージェント装置１００の構成と、車両Ｍに搭載された機器との一例を示す図である。車両Ｍには、例えば、複数の音響設備ＡＥと、ナビゲーション装置５０と、車両機器６０と、車載通信装置７０と、乗員認識装置８０と、エージェント装置１００とが搭載される。これらの装置は、ＣＡＮ（Controller Area Network）通信線等の多重通信線やシリアル通信線、無線通信網等によって互いに接続される。なお、図２に示す構成はあくまで一例であり、構成の一部が省略されてもよいし、更に別の構成が追加されてもよい。

音響設備ＡＥは、車両Ｍの室内に設けられた複数の座席のそれぞれに対応して少なくとも１台ずつ設置される。例えば、車両Ｍに、運転席ＤＳ、助手席ＡＳ、運転席ＤＳの後方の後部座席ＢＳ１、および助手席ＡＳの後方の後部座席ＢＳ２の計４つの座席が設けられている場合、音響設備ＡＥは、４つの座席のそれぞれの内部や表面、或いはその近傍に設置される。すなわち、「座席に対応する」とは、座席の内部（in the seat）や表面（on the seat）、或いはその近傍（near the seat）に設置されることを意味する。以下、一例として、車両Ｍに４つの座席が設けられているものとして説明する。また、運転席ＤＳに対応した音響設備ＡＥを「第１音響設備ＡＥ_Ａ」と称し、助手席ＡＳに対応した音響設備ＡＥを「第２音響設備ＡＥ_Ｂ」と称し、後部座席ＢＳ１に対応した音響設備ＡＥを「第３音響設備ＡＥ_Ｃ」と称し、後部座席ＢＳ２に対応した音響設備ＡＥを「第４音響設備ＡＥ_Ｄ」と称して説明する。

各音響設備ＡＥは、マイクロフォン１０と、表示・操作装置２０と、スピーカ３０と、通信インターフェース４０とを備える。

マイクロフォン１０は、車両Ｍの室内の音声を収音する音声入力装置である。マイクロフォン１０は、車内のユーザの発話音声やその他の環境音を収音すると、その収音した音声を示す音声データ（音響データともいう）をエージェント装置１００に出力する。

表示・操作装置２０は、画像を表示すると共に、入力操作を受付可能な装置（或いは装置群）である。表示・操作装置２０は、例えば、タッチパネルとして構成されたディスプレイを含む。表示・操作装置２０は、更に、ＨＵＤ（Head Up Display）や機械式の入力装置を含んでもよい。表示・操作装置２０は、エージェント装置１００とナビゲーション装置５０とで共用されてもよい。これらの詳細については後述する。

スピーカ３０は、車両Ｍの室内に音声を出力する音声出力装置である。スピーカ３０は、エージェント装置１００や端末装置４００の指示に応じて音声を出力する。

通信インターフェース４０は、車両Ｍの車内に持ち込まれた端末装置４００と、有線または無線によって接続するハードウェアインターフェースである。例えば、端末装置４００と有線接続する場合、通信インターフェース４０には、ＵＳＢ（Universal Serial Bus）やＬｉｇｈｔｎｉｎｇ（登録商標、以下省略）などのシリアルバスのケーブルＣＢなどが含まれる。また、例えば、端末装置４００と無線接続する場合、通信インターフェース４０には、Ｗｉ−ＦｉやＢｌｕｅｔｏｏｔｈ（登録商標、以下省略）などのアクセスポイント（無線機器）が含まれる。なお、車内に持ち込まれた全ての端末装置４００が無線通信によって接続可能な場合、アクセスポイントは、車内に少なくとも一つあればよい。従って、複数の音響設備ＡＥのうち、少なくとも一つが通信インターフェース４０を備えていればよく、残りの音響設備ＡＥは、必ずしも通信インターフェース４０を備えていなくてもよい。

図３は、車内のマイクロフォン１０の配置の一例を示す図である。図中１０Ａは、第１音響設備ＡＥ_Ａに含まれるマイクロフォンを表し、１０Ｂは、第２音響設備ＡＥ_Ｂに含まれるマイクロフォンを表し、１０Ｃは、第３音響設備ＡＥ_Ｃに含まれるマイクロフォンを表し、１０Ｄは、第４音響設備ＡＥ_Ｄに含まれるマイクロフォンを表している。また、Ｘ軸は、車両Ｍの進行方向を表し、Ｙ軸は、車両Ｍの幅方向を表し、Ｚ軸は、鉛直方向を表している。

図示のように、例えば、マイクロフォン１０Ａは運転席ＤＳの前のインストルメントパネル（ダッシュボードともいう）やステアリングホイールＳＷなどに設置され、マイクロフォン１０Ｂは助手席ＡＳの前のインストルメントパネルに設置され、マイクロフォン１０Ｃは運転席ＤＳの後面やその近傍に設置され、マイクロフォン１０Ｄは助手席ＡＳの後面やその近傍に設置される。

図４は、車内の表示・操作装置２０の配置の一例を示す図である。表示・操作装置２０は、例えば、第１ディスプレイ２０Ａと、第２ディスプレイ２０Ｂと、操作スイッチアッセンブリ２０Ｘとを含む。表示・操作装置２０は、更に、ＨＵＤ２０Ｙを含んでもよい。

第１ディスプレイ２０Ａ、第２ディスプレイ２０Ｂ、およびＨＵＤ２０Ｙのうちの少なくとも一つは、第１音響設備ＡＥ_Ａに含まれる表示・操作装置２０を表し、第１ディスプレイ２０Ａまたは第２ディスプレイ２０Ｂの少なくとも一方は、第２音響設備ＡＥ_Ｂに含まれる表示・操作装置２０を表している。

例えば、第１ディスプレイ２０Ａは、インストルメントパネルにおける運転席ＤＳと助手席ＡＳとの中間辺りから、助手席ＡＳの左端部に対向する位置まで延在する長方形状のディスプレイ装置である。第２ディスプレイ２０Ｂは、運転席ＤＳと助手席ＡＳとの車幅方向に関する中間あたり、且つ第１ディスプレイの下方に設置されている。例えば、第１ディスプレイ２０Ａと第２ディスプレイ２０Ｂは、共にタッチパネルとして構成され、表示部としてＬＣＤ（Liquid Crystal Display）や有機ＥＬ（Electroluminescence）ディスプレイ、プラズマディスプレイなどを備えるものである。操作スイッチアッセンブリ２０Ｘは、ダイヤルスイッチやボタン式スイッチなどの部品が一つに集積されたものである。表示・操作装置２０は、乗員の操作内容を示す信号をエージェント装置１００に出力する。第１ディスプレイ２０Ａまたは第２ディスプレイ２０Ｂに表示される情報は、エージェント装置１００によって決定されてよい。

また、表示・操作装置２０は、上述した第１ディスプレイ２０Ａ、第２ディスプレイ２０Ｂ、操作スイッチアッセンブリ２０Ｘなどに加えて、更に、第３ディスプレイ２０Ｃと、第４ディスプレイ２０Ｄとを含む。第３ディスプレイ２０Ｃは、第３音響設備ＡＥ_Ｃに含まれる表示・操作装置２０を表し、第４ディスプレイ２０Ｄは、第４音響設備ＡＥ_Ｄに含まれる表示・操作装置２０を表している。

例えば、第３ディスプレイ２０Ｃは、運転席ＤＳの後面に設置され、第４ディスプレイ２０Ｄは助手席ＡＳの後面に設置される。第３ディスプレイ２０Ｃおよび第４ディスプレイ２０Ｄは、ＬＣＤや有機ＥＬディスプレイ、プラズマディスプレイなどを含む。

図５は、車内のスピーカ３０の配置の一例を示す図である。例えば、車内には、スピーカ３０Ａ〜３０Ｈが配置される。スピーカ３０Ａは、運転席ＤＳ側の窓柱（いわゆるＡピラー）に設置されている。スピーカ３０Ｂは、運転席ＤＳに近いドアの下部に設置されている。スピーカ３０Ｃは、助手席ＡＳ側の窓柱に設置されている。スピーカ３０Ｄは、助手席ＡＳに近いドアの下部に設置されている。スピーカ３０Ｅは、右側の後部座席ＢＳ１側に近いドアの下部に設置されている。スピーカ３０Ｆは、左側の後部座席ＢＳ２側に近いドアの下部に設置されている。スピーカ３０Ｇは、第２ディスプレイ２０Ｂの近傍に設置されている。スピーカ３０Ｈは、車内の天井に設置されている。

スピーカ３０Ａ、３０Ｂ、３０Ｇのうち、少なくとも３０Ａおよび３０Ｂは、第１音響設備ＡＥ_Ａに含まれるスピーカ３０を表している。スピーカ３０Ｃ、３０Ｄ、３０Ｇのうち、少なくとも３０Ｃおよび３０Ｄは、第２音響設備ＡＥ_Ｂに含まれるスピーカ３０を表している。スピーカ３０Ｅ、３０Ｈのうち、少なくとも３０Ｅは、第３音響設備ＡＥ_Ｃに含まれるスピーカ３０を表している。スピーカ３０Ｆ、３０Ｈのうち、少なくとも３０Ｆは、第４音響設備ＡＥ_Ｄに含まれるスピーカ３０を表している。

係る配置において、例えば、エージェント装置１００が、専らスピーカ３０Ａおよび３０Ｂに音を出力させた場合、音像は運転席ＤＳ付近に定位することになる。また、エージェント装置１００が、専らスピーカ３０Ｃおよび３０Ｄに音を出力させた場合、音像は助手席ＡＳ付近に定位することになる。また、エージェント装置１００が、専らスピーカ３０Ｅに音を出力させた場合、音像は右側の後部座席ＢＳ１付近に定位することになる。また、エージェント装置１００が、専らスピーカ３０Ｆに音を出力させた場合、音像は左側の後部座席ＢＳ２付近に定位することになる。また、エージェント装置１００が、専らスピーカ３０Ｇに音を出力させた場合、音像は車室の前方付近に定位することになり、専らスピーカ３０Ｈに音を出力させた場合、音像は車室の上方付近に定位することになる。これに限らず、エージェント装置１００は、ミキサーやアンプを用いて各スピーカの出力する音の配分を調整することで、車室内の任意の位置に音像を定位させることができる。

図６は、後部座席ＢＳ１に着座したユーザから見た音響設備ＡＥの一例を示す図である。図示の例のように、マイクロフォン１０Ｃおよび第３ディスプレイ２０Ｃは、運転席ＤＳの後面に設置される、また、通信インターフェース４０が端末装置４００と有線接続される場合、運転席ＤＳの後面側からシリアルバスなどのケーブルＣＢが引き出される。なお、通信インターフェース４０が端末装置４００と無線接続される場合、ケーブルＣＢは省略されてよい。

図２の説明に戻る。ナビゲーション装置５０は、ナビＨＭＩ（Human machine Interface）と、ＧＰＳ（Global Positioning System）などの位置測位装置と、地図情報を記憶した記憶装置と、経路探索などを行う制御装置（ナビゲーションコントローラ）とを備える。マイクロフォン１０、表示・操作装置２０、およびスピーカ３０のうち一部または全部がナビＨＭＩとして用いられてもよい。ナビゲーション装置５０は、位置測位装置によって特定された車両Ｍの位置から、乗員によって入力された目的地まで移動するための経路（ナビ経路）を探索し、経路に沿って車両Ｍが走行できるように、ナビＨＭＩを用いて案内情報を出力する。経路探索機能は、ネットワークＮＷを介してアクセス可能なナビゲーションサーバにあってもよい。この場合、ナビゲーション装置５０は、ナビゲーションサーバから経路を取得して案内情報を出力する。なお、エージェント装置１００は、ナビゲーションコントローラを基盤として構築されてもよく、この場合、ナビゲーションコントローラとエージェント装置１００は、一つのハードウェア上で一体に構成される。

車両機器６０は、例えば、エンジンや走行用モータなどの駆動力出力装置、エンジンの始動モータ（スターター）、ドアロック装置、ドア開閉装置、窓、窓の開閉装置及び窓の開閉制御装置、シート、シート位置の制御装置、ルームミラー及びその角度位置制御装置、車両内外の照明装置及びその制御装置、ワイパーやデフォッガー及びそれぞれの制御装置、方向指示灯及びその制御装置、空調装置、走行距離やタイヤの空気圧の情報や燃料の残量情報などの情報装置などを含む。

車載通信装置７０は、例えば、セルラー網やＷｉ−Ｆｉ網を利用してネットワークＮＷにアクセス可能な無線通信装置である。

乗員認識装置８０は、例えば、着座センサ、車室内カメラ、画像認識装置などを含む。着座センサは座席の下部に設けられた圧力センサ、シートベルトに取り付けられた張力センサなどを含む。車室内カメラは、車室内に設けられたＣＣＤ（Charge Coupled Device）カメラやＣＭＯＳ（Complementary Metal Oxide Semiconductor）カメラである。画像認識装置は、車室内カメラの画像を解析し、座席ごとの乗員の有無、顔向きなどを認識する。

［エージェント装置］
エージェント装置１００は、管理部１１０と、第１エージェント機能部１５０−１と、第２エージェント機能部１５０−２と、第３エージェント機能部１５０−３と、接続制御部１５２と、記憶部１６０とを備える。管理部１１０は、例えば、音響処理部１１２と、エージェントごとＷＵ（Wake Up）判定部１１４と、表示制御部１１６と、音声制御部１１８と、ユーザ判定部１２０とを備える。第１エージェント機能部１５０−１、第２エージェント機能部１５０−２、および第３エージェント機能部１５０−３のうち、いずれかのエージェント機能部であるのか区別しない場合、単にエージェント機能部１５０と称する。３つのエージェント機能部１５０を示しているのは、図１におけるエージェントサーバ２００の数に対応させた一例に過ぎず、エージェント機能部１５０の数は、２つであってもよいし、４つ以上であってもよい。図２に示すソフトウェア配置は説明のために簡易に示しており、実際には、例えば、エージェント機能部１５０と車載通信装置７０の間に管理部１１０が介在してもよいように、任意に改変することができる。

エージェント装置１００の各構成要素は、例えば、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）などのハードウェアプロセッサがプログラム（ソフトウェア）を実行することにより実現される。これらの構成要素のうち一部または全部は、ＬＳＩ（Large Scale Integration）やＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）などのハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予め記憶部１６０に格納されていてもよいし、ＤＶＤやＣＤ−ＲＯＭなどの着脱可能な記憶媒体（非一過性の記憶媒体）に格納されており、その記憶媒体がドライブ装置に装着されることで記憶部１６０にインストールされてもよい。

記憶部１６０は、ＨＤＤ（Hard Disk Drive）、フラッシュメモリ、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）、ＲＯＭ（Read Only Memory）、またはＲＡＭ（Random Access Memory）等により実現される。記憶部１６０には、例えば、プロセッサによって参照されるプログラムなどが格納される。

管理部１１０は、例えば、ＯＳ（Operating System）やミドルウェアなどのプログラムがプロセッサによって実行されることで機能する。

管理部１１０の音響処理部１１２は、各座席の音響設備ＡＥに含まれるマイクロフォン１０から音声データを取得し、取得した音声データに対して、ウェイクアップワードが認識しやすくなるように音響処理を行う。ウェイクアップワードとは、提供可能な複数のエージェントＡＧの中から、起動すべきエージェントＡＧを呼び出すワード或いはフレーズである。ウェイクアップワードは、ホットワードとも呼ばれる。なお、「取得する」ことの意味は、典型的には、マイクロフォン１０から音声データを受動的に取得することであるが、能動的に取得することであってもよい。音響処理部１１２は、「取得部」の一例である。ウェイクアップワードは、「特定のフレーズ」の一例である。

エージェントごとＷＵ判定部１１４は、音響処理部１１２によって音響処理が行われた一つまたは複数の音声データに、第１エージェント機能部１５０−１に対応した第１エージェントＡＧ１のウェイクアップワードが含まれるのか、第２エージェント機能部１５０−２に対応した第２エージェントＡＧ２のウェイクアップワードが含まれるのか、或いは第３エージェント機能部１５０−３に対応した第３エージェントＡＧ３のウェイクアップワードが含まれるのかを判定する。

例えば、エージェントごとＷＵ判定部１１４は、音響処理が行われた音声データ（以下、音声ストリーム）から音声の意味を認識する。具体的には、エージェントごとＷＵ判定部１１４は、音声ストリームにおける音声波形の振幅と零交差に基づいて、ユーザが発話した音声区間を検出する。エージェントごとＷＵ判定部１１４は、混合ガウス分布モデル（ＧＭＭ；Gaussian mixture model）に基づくフレーム単位の音声識別および非音声識別に基づく区間検出を行ってよい。

エージェントごとＷＵ判定部１１４は、音声区間を検出すると、その音声区間における音声をテキストに変換する。そして、エージェントごとＷＵ判定部１１４は、テキストがウェイクアップワードに該当するか否かを判定する。ウェイクアップワードであると判定した場合、エージェントごとＷＵ判定部１１４は、対応するエージェント機能部１５０を起動させる。なお、エージェントごとＷＵ判定部１１４に相当する機能部がエージェントサーバ２００に搭載されてもよい。この場合、例えば、管理部１１０は、音響処理部１１２によって音響処理が行われた音声ストリームをエージェントサーバ２００に送信し、エージェントサーバ２００がウェイクアップワードであると判定した場合、エージェントサーバ２００からの指示に従ってエージェント機能部１５０が起動する。なお、各エージェント機能部１５０は、常時起動しており且つウェイクアップワードの判定を自ら行うものであってよい。この場合、管理部１１０がエージェントごとＷＵ判定部１１４を備える必要はない。

エージェント機能部１５０は、対応するエージェントサーバ２００と協働して、音声による応答を含むサービスをエージェントＡＧとして乗員に提供する。例えば、第１エージェント機能部１５０−１は、車載通信装置７０を介して第１エージェントサーバ２００−１と通信し、第１エージェントＡＧ１を乗員に提供する。また、第２エージェント機能部１５０−２は、車載通信装置７０を介して第２エージェントサーバ２００−２と通信し、第２エージェントＡＧ２を乗員に提供する。また、第３エージェント機能部１５０−３は、接続制御部１５２を介して端末装置４００と連携することで、第３エージェントサーバ２００−３と通信し、第３エージェントＡＧ３を乗員に提供する。エージェント機能部１５０は、「提供部」の一例である。

これらの複数のエージェント機能部１５０には、法律や条例、エージェントＡＧを提供する事業者同士の契約などに応じて、車載機器を制御する権限が割り振られる。例えば、第１エージェント機能部１５０−１には、ナビゲーション装置５０および車両機器６０を制御する権限が付与され、第２エージェント機能部１５０−２および第３エージェント機能部１５０−３には、ナビゲーション装置５０および車両機器６０を制御する権限が付与されさない。すなわち、第１エージェント機能部１５０−１は、少なくともナビゲーション装置５０および車両機器６０の制御を含むサービスを第１エージェントＡＧ１として提供し、第２エージェント機能部１５０−２および第３エージェント機能部１５０−３は、少なくともナビゲーション装置５０および車両機器６０の制御を含まないサービスを第２エージェントＡＧ２や第３エージェントＡＧ３として提供する。

接続制御部１５２は、通信インターフェース４０を介して、第３エージェント機能部１５０−３と端末装置４００とを互いに接続させる。例えば、接続制御部１５２は、Ｂｌｕｅｔｏｏｔｈなどを利用して、第３エージェント機能部１５０−３と端末装置４００とのペアリングを行い、ペアリングが完了した第３エージェント機能部１５０−３と端末装置４００とを互いに接続させる。また、例えば、接続制御部１５２は、ＵＳＢなどの有線ケーブルＣＢに端末装置４００が接続された場合、有線ケーブルＣＢを介して第３エージェント機能部１５０−３と端末装置４００とを互いに接続させてもよい。

表示制御部１１６は、エージェント機能部１５０による指示に応じて各種ディスプレイに画像を表示させる。例えば、表示制御部１１６は、車内で乗員とのコミュニケーションを行う擬人化されたエージェントの画像（以下、エージェント画像と称する）を生成し、生成したエージェント画像をディスプレイに表示させる。エージェント画像は、例えば、乗員に対して話しかける態様の画像である。エージェント画像は、例えば、少なくとも観者（乗員）によって表情や顔向きが認識される程度の顔画像を含んでよい。例えば、エージェント画像は、顔領域の中に目や鼻に擬したパーツが表されており、顔領域の中のパーツの位置に基づいて表情や顔向きが認識されるものであってよい。また、エージェント画像は、観者によって、立体的に感じられ、三次元空間における頭部画像を含むことでエージェントの顔向きが認識される画像である。エージェント画像は、エージェントの動作や振る舞い、姿勢等が認識された本体（胴体や手足）の画像を含むものであってもよい。また、エージェント画像は、アニメーション画像であってもよい。

音声制御部１１８は、エージェント機能部１５０による指示に応じて、スピーカ３０に音声を出力させる。音声制御部１１８は、複数のスピーカ３０を用いて、エージェント画像が表示されるディスプレイの位置に合わせてエージェント音声の音像を定位させてもよい。音像が定位するとは、例えば、乗員の左右の耳に伝達される音の大きさが調節されることにより、乗員が感じる音源の空間的な位置を定めることである。

図７は、音像が定位する位置が定まる原理について説明するための図である。図７では、説明を簡略化するために、上述したスピーカ３０Ｂ、３０Ｄ、および３０Ｇを用いる例を示しているが、任意のスピーカ３０が使用されてよい。音声制御部１１８は、各スピーカに接続されたアンプ（ＡＭＰ）３２およびミキサー３４を制御して音像を定位させる。例えば、図７に示す空間位置ＭＰ１に音像を定位させる場合、音声制御部１１８は、アンプ３２およびミキサー３４を制御することにより、スピーカ３０Ｂに最大強度の５％の出力を行わせ、スピーカ３０Ｄに最大強度の８０％の出力を行わせ、スピーカ３０Ｇに最大強度の１５％の出力を行わせる。この結果、乗員Ｐの位置からは、図７に示す空間位置ＭＰ１に音像が定位しているように感じることになる。

また、図７に示す空間位置ＭＰ２に音像を定位させる場合、音声制御部１１８は、アンプ３２およびミキサー３４を制御することにより、スピーカ３０Ｂに最大強度の４５％の出力を行わせ、スピーカ３０Ｄに最大強度の４５％の出力を行わせ、スピーカ３０Ｇに最大強度の４５％の出力を行わせる。この結果、乗員Ｐの位置からは、図７に示す空間位置ＭＰ２に音像が定位しているように感じることになる。このように、車室内に設けられる複数のスピーカとそれぞれのスピーカから出力される音の大きさを調整することで、音像が定位される位置を変化させることができる。なお、より詳細には、音像の定位する位置は、音源が元々保有している音特性や、車室内環境の情報、頭部伝達関数（HRTF；Head-related transfer function）に基づいて定まるため、音声制御部１１８は、予め官能試験などで得られた最適な出力配分で複数のスピーカ３０を制御することで、音像を任意の位置に定位させる。

ユーザ判定部１２０は、複数のマイクロフォン１０のそれぞれから取得され、かつ音響処理部１１２によって音響処理が行われた音声データ、すなわち複数の音声ストリームに基づいて、複数の座席のそれぞれにいるユーザの中から、ウェイクアップワードを発話したユーザ（以下、対話ユーザと称する）を判定する。対話ユーザの判定方法の詳細については後述する。

［端末装置］
図８は、実施形態に係る端末装置４００の構成の一例を示す図である。実施形態に係る端末装置４００は、例えば、通信インターフェース４０２と、タッチパネル４０４と、マイクロフォン４０６と、スピーカ４０８と、端末制御部４１０と、記憶部４３０とを備える。図８に示す構成はあくまで一例であり、構成の一部が省略されてもよいし、更に別の構成が追加されてもよい。

通信インターフェース４０２は、例えば、音響設備ＡＥに含まれる通信インターフェース４０と有線接続することが可能なハードウェアインターフェースである。具体的には、通信インターフェース４０２は、ＵＳＢ端子やＬｉｇｈｔｎｉｎｇ端子などである。また、通信インターフェース４０２は、音響設備ＡＥに含まれる通信インターフェース４０と無線接続することが可能なハードウェアインターフェースであってもよい。例えば、通信インターフェース４０２には、Ｗｉ−ＦｉのアンテナやＢｌｕｅｔｏｏｔｈのアンテナなどが含まれる。

タッチパネル４０４は、端末制御部４１０による指示に基づいて画像を表示すると共に、タッチ操作を受け付けるユーザインタフェースである。

マイクロフォン４０６は、端末装置４００の周囲の音声を収音する音声入力装置である。マイクロフォン４０６は、音声を収音すると、その音声を示す音声データを端末制御部４１０に出力する。マイクロフォン４０６は、「第２マイクロフォン」の一例である。

スピーカ４０８は、端末制御部４１０の指示に応じて音声を出力する。

端末制御部４１０は、例えば、音響処理部４１２と、表示制御部４１４と、音声制御部４１６と、判定部４１８と、エージェント機能部４２０とを備える。これらの構成要素は、例えば、ＣＰＵやＧＰＵなどのハードウェアプロセッサがプログラム（ソフトウェア）やアプリケーションを実行することにより実現される。これらの構成要素のうち一部または全部は、ＬＳＩやＡＳＩＣ、ＦＰＧＡなどのハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムやアプリケーションは、予め記憶部４３０に格納されていてもよいし、ＤＶＤやＣＤ−ＲＯＭなどの着脱可能な記憶媒体（非一過性の記憶媒体）に格納されており、その記憶媒体がドライブ装置に装着されることで記憶部４３０にインストールされてもよい。

記憶部４３０は、ＨＤＤ、フラッシュメモリ、ＥＥＰＲＯＭ、ＲＯＭ、またはＲＡＭ等により実現される。記憶部４３０には、例えば、プロセッサによって参照されるプログラムの他に、エージェントアプリケーション４３２などが格納される。

エージェントアプリケーション４３２は、例えば、端末装置４００を操作するユーザによって発話された音声を解析または分析し、そのユーザの発話に応じた応答を返すためのアプリケーションプログラムである。例えば、プロセッサがエージェントアプリケーション４３２を実行することで、音響処理部４１２、表示制御部４１４、音声制御部４１６、判定部４１８、およびエージェント機能部４２０が実現される。

音響処理部４１２は、マイクロフォン４０６から音声データを取得し、取得した音声データに対して、ウェイクアップワードが認識しやすくなるように音響処理を行う。

表示制御部４１４は、エージェント機能部４２０の指示に応じて、タッチパネル４０４に画像を表示させる。例えば、表示制御部４１４は、タッチパネル４０４にエージェント画像を表示させる。

音声制御部４１６は、エージェント機能部４２０の指示に応じて、スピーカ４０８に音声を出力させる。

判定部４１８は、音響処理部４１２によって音響処理が行われた音声データ、すなわち音声ストリームに、いずれかのエージェントＡＧを呼び出すためのウェイクアップワードが含まれているか否かを判定する。

エージェント機能部４２０は、判定部４１８によって音声ストリームにウェイクアップワードが含まれていると判定された場合、対応するエージェントサーバ２００と協働して、音声による応答を含むサービスをエージェントＡＧとして乗員に提供する。

［エージェントサーバ］
図９は、エージェントサーバ２００の構成と、エージェント装置１００および端末装置４００の構成の一部とを示す図である。ここでは、エージェントサーバ２００の構成と共にエージェント機能部１５０、４２０等の動作について説明する。エージェント装置１００からネットワークＮＷまでの物理的な通信については、説明を省略する。

各エージェントサーバ２００は、通信部２１０を備える。通信部２１０は、例えばＮＩＣ（Network Interface Card）などのネットワークインターフェースである。更に、エージェントサーバ２００は、例えば、音声認識部２２０と、自然言語処理部２２２と、対話管理部２２４と、ネットワーク検索部２２６と、応答文生成部２２８とを備える。これらの構成要素は、例えば、ＣＰＵやＧＰＵなどのハードウェアプロセッサがプログラム（ソフトウェア）を実行することにより実現される。これらの構成要素のうち一部または全部は、ＬＳＩやＡＳＩＣ、ＦＰＧＡなどのハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予め記憶部２５０に格納されていてもよいし、ＤＶＤやＣＤ−ＲＯＭなどの着脱可能な記憶媒体（非一過性の記憶媒体）に格納されており、その記憶媒体がドライブ装置に装着されることで記憶部２５０にインストールされてもよい。

エージェントサーバ２００は、記憶部２５０を備える。記憶部２５０は、ＨＤＤ、フラッシュメモリ、ＥＥＰＲＯＭ、ＲＯＭ、またはＲＡＭ等により実現される。記憶部２５０には、例えば、プロセッサによって参照されるプログラムの他に、パーソナルプロファイル２５２、辞書ＤＢ（データベース）２５４、知識ベースＤＢ２５６、応答規則ＤＢ２５８などのデータやプログラムが格納される。

エージェント装置１００に含まれる各エージェント機能部１５０と、端末装置４００に含まれるエージェント機能部４２０とは、圧縮や符号化、暗号化などの処理を行った音声ストリーム、またはこれらの処理を行っていない音声ストリームを、エージェントサーバ２００に送信する。例えば、第１エージェント機能部１５０−１は、音声ストリームを第１エージェントサーバ２００−１に送信する。また、第２エージェント機能部１５０−２は、音声ストリームを第２エージェントサーバ２００−２に送信する。また、第３エージェント機能部１５０−３は、音声ストリームを第３エージェントサーバ２００−３に送信する。

これらのエージェント機能部１５０、４２０は、音声ストリームをエージェントサーバ２００に送信することに加えて、或いは代えて、音声ストリームに含まれる音声コマンドに基づいて、自らが音声コマンドに応じた処理を行ってもよい。例えば、エージェント機能部１５０は、音声ストリームからローカル処理（エージェントサーバ２００を介さない処理）が可能な音声コマンドを認識した場合、その認識した音声コマンドに応じた処理を行う。ローカル処理が可能な音声コマンドとは、例えば、エージェント装置１００が備える記憶部１６０を参照することで回答可能な音声コマンドである。例えば、音声コマンドが第１エージェント機能部１５０−１によって認識される場合、ローカル処理が可能な音声コマンドは、例えば、車両機器６０やナビゲーション装置５０の遠隔制御を指示する音声コマンド（例えば、空調装置をオンにするコマンドなど）であってよい。このように、エージェント機能部１５０は、エージェントサーバ２００が備える機能の一部を有してもよい。

エージェントサーバ２００の音声認識部２２０は、通信部２１０によって受信された音声ストリームに対して音声認識を行って、音声ストリームをテキスト化した文字情報を生成する。文字情報は、例えば、発話の内容が文字として記述されたテキストデータである。

例えば、音声認識部２２０は、音声ストリームを、ＢｉＬＳＴＭ（Bi-directional Long short-term memory）やアテンション機構などを含むリカレントニューラルネットワークに入力することで、音声信号が低周波数や高周波数などの複数の周波数帯に分離され、その各周波数帯の音声信号がフーリエ変換されたスペクトログラム（メルスペクトログラム）を得る。リカレントニューラルネットワークは、例えば、学習用の音声信号から生成されたスペクトログラムに対して、その学習用の音声信号が教師ラベルとして対応付けられた教師データを利用することで、予め学習されていてよい。

そして、音声認識部２２０は、スペクトログラムを、複数の隠れ層を含む畳み込みニューラルネットワークに入力することで、スペクトログラムから文字列を得る。畳み込みニューラルネットワークは、例えば、学習用のスペクトログラムに対して、その学習用のスペクトログラムを生成するのに使われた音声信号に対応する文字列が教師ラベルとして対応付けられた教師データを利用することで、予め学習されていてよい。音声認識部２２０は、畳み込みニューラルネットワークから得た文字列のテキストデータを、文字情報として生成する。

自然言語処理部２２２は、辞書ＤＢ２５４を参照しながら、音声認識部２２０によって生成された文字情報の意味を解釈する。辞書ＤＢ２５４は、文字情報に対して抽象化された意味情報が対応付けられたものである。辞書ＤＢ２５４は、同義語や類義語の一覧情報を含んでもよい。音声認識と自然言語処理は、段階が明確に分かれるものではなく、自然言語処理部２２２の処理結果を受けて音声認識部２２０が認識結果を修正するなど、相互に影響し合って行われてよい。

自然言語処理部２２２は、例えば、認識結果として、「今日の天気は」、「天気はどうですか」等の意味が認識された場合、標準文字情報「今日の天気」に置き換えたコマンドを生成する。これにより、リクエストの音声に文字揺らぎがあった場合にも要求にあった対話をし易くすることができる。また、自然言語処理部２２２は、辞書ＤＢ２５４を一つのルールとして利用して意味解釈を行うことに加えて、或いは代えて、例えば、確率を利用した機械学習処理等の人工知能処理を用いて文字情報の意味を認識したり、認識結果に基づくコマンドを生成したりしてもよい。

対話管理部２２４は、自然言語処理部２２２によって生成されたコマンドに基づいて、パーソナルプロファイル２５２や知識ベースＤＢ２５６、応答規則ＤＢ２５８を参照しながら車両Ｍの乗員に対する発話の内容を決定する。パーソナルプロファイル２５２は、乗員ごとに保存されている乗員の個人情報、趣味嗜好、過去の対話の履歴などを含む。知識ベースＤＢ２５６は、物事の関係性を規定した情報である。応答規則ＤＢ２５８は、コマンドに対してエージェントが行うべき動作（回答や機器制御の内容など）を規定した情報である。

また、対話管理部２２４は、音声ストリームから得られる特徴情報を用いて、パーソナルプロファイル２５２と照合を行うことで、乗員を特定してもよい。この場合、パーソナルプロファイル２５２には、例えば、音声の特徴情報に、個人情報が対応付けられている。音声の特徴情報とは、例えば、声の高さ、イントネーション、リズム（音の高低のパターン）等の喋り方の特徴や、メル周波数ケプストラム係数（Mel Frequency Cepstrum Coefficients）等による特徴量に関する情報である。音声の特徴情報は、例えば、乗員の初期登録時に所定の単語や文章等を乗員に発声させ、発声させた音声を認識することで得られる情報である。

対話管理部２２４は、コマンドが、ネットワークＮＷを介して検索可能な情報を要求するものである場合、ネットワーク検索部２２６に検索を行わせる。ネットワーク検索部２２６は、ネットワークＮＷを介して各種ウェブサーバ３００にアクセスし、所望の情報を取得する。「ネットワークＮＷを介して検索可能な情報」とは、例えば、車両Ｍの周辺にあるレストランの一般ユーザによる評価結果であったり、その日の車両Ｍの位置に応じた天気予報であったりする。

応答文生成部２２８は、対話管理部２２４により決定された発話の内容が車両Ｍの乗員に伝わるように応答文を生成し、生成した応答文を、音声ストリームの送信元であるエージェント装置１００に送信する。応答文には、例えば、発音記号が含まれていてもよいし、合成したい音声をテキストに置き換えた文字列が含まれていてもよい。応答文生成部２２８は、乗員がパーソナルプロファイルに登録された乗員であることが特定されている場合に、乗員の名前を呼んだり、乗員の話し方に似せた話し方にした応答文を生成したりしてもよい。

エージェント装置１００のエージェント機能部１５０、または端末装置４００のエージェント機能部４２０は、エージェントサーバ２００から応答文を取得すると、その応答文に基づいて人工的な音声を合成する。例えば、エージェント機能部１５０またはエージェント機能部４２０は、波形接続型音声合成（Concatenative synthesis）と、フォルマント合成（Formant synthesis）とを行って、応答文に含まれる発音記号を読み上げる音声を合成する。また、エージェント機能部１５０またはエージェント機能部４２０は、応答文に発音記号が含まれず、音声として合成すべき文字列が含まれる場合、その文字列を発音記号に変換し、変換した発音記号を読み上げる音声を合成してよい。また、エージェント機能部１５０またはエージェント機能部４２０は、予め決められた複数のフレーズのそれぞれに対して音声が対応付けられている場合、それらの音声を組み合わせることで音声を合成してもよい。

エージェント機能部１５０は、合成した音声を出力するように音声制御部１１８に指示する。また、エージェント機能部１５０は、音声出力に合わせてエージェントの画像を表示するように表示制御部１１６に指示してよい。同様に、エージェント機能部４２０は、合成した音声を出力するように音声制御部４１６に指示したり、音声出力に合わせてエージェントの画像を表示するように表示制御部４１４に指示したりしてよい。このようにして、質問や要求などに対して応答する仮想的なエージェントＡＧが車両Ｍの乗員に提供される。

［端末装置の処理フロー］
以下、実施形態に係る端末装置４００による一連の処理の流れをフローチャートを用いて説明する。図１０は、実施形態に係る端末装置４００による一連の処理の流れを示すフローチャートである。本フローチャートの処理は、例えば、所定の周期で繰り返し行われる。

まず、判定部４１８は、通信インターフェース４０２を介して、端末装置４００と音響設備ＡＥとが接続されたか否かを判定する（ステップＳ１００）。

判定部４１８が、端末装置４００と音響設備ＡＥとが接続されていないと判定した場合、音響処理部４１２は、音声データの取得の有無に応じて、マイクロフォン４０６によって音声が収音されたか否かを判定する（ステップＳ１０２）。

音響処理部４１２は、マイクロフォン４０６によって音声が収音された場合、すなわちマイクロフォン４０６から音声データを取得した場合、音声データに対して音響処理を行う（ステップＳ１０４）。例えば、音響処理部４１２は、発話の音声データから、車両Ｍの走行時発生するノイズを除去したり、独り言や咳払いといった乗員が意図して発話していない音声を除去したりする。

次に、判定部４１８は、音響処理部４１２によって音響処理が行われた音声データ、すなわち音声ストリームに、いずれかのエージェントＡＧを呼び出すためのウェイクアップワードが含まれているか否かを判定する（ステップＳ１０６）。

判定部４１８は、マイクロフォン４０６によって音声が収音されなかった場合、或いは、マイクロフォン４０６によって音声が収音されたものの、その音声を示す音声ストリームの中にウェイクアップワードが含まれていない場合、本フローチャートの処理を終了する。

一方、マイクロフォン４０６によって音声が収音され、更にその音声を示す音声ストリームの中にウェイクアップワードが含まれている場合、エージェント機能部４２０は、ウェイクアップワードが発話された以降にマイクロフォン４０６から取得された音声データを、通信インターフェース４０２を介してをエージェントサーバ２００に送信する（ステップＳ１０８）。エージェントサーバ２００には、音響処理が行われた音声データである音声ストリームが送信されてもよい。

これを受けて、エージェントサーバ２００は、音声データをテキストに変換し、そのテキストの意味を解釈して、応答文を生成する。そして、エージェントサーバ２００は、応答文を端末装置４００に送信する。

一方、Ｓ１００の処理において、判定部４１８が、端末装置４００と音響設備ＡＥとが接続されていると判定した場合、エージェント機能部４２０は、マイクロフォン４０６をオフ（ミュート）にする（ステップＳ１１０）。「オフにする」とは、例えば、マイクロフォン４０６に対して電力を供給することを停止したり、マイクロフォン４０６から音声データを取得することを停止したりすることが含まれる。このように、端末装置４００と音響設備ＡＥとが接続している場合、端末装置４００に内蔵されたマイクロフォン４０６の機能がオフになるため、端末装置４００に対してユーザがウェイクアップワードを発話したとしてもエージェントＡＧが呼び出されなくなる（起動しなくなる）。

次に、エージェント機能部４２０は、通信インターフェース４０２がエージェントサーバ２００から、或いはエージェント装置１００から応答文を受信したか否かを判定し（ステップＳ１１２）、通信インターフェース４０２が応答文を受信した場合、応答文に基づいて合成音声を生成する（ステップＳ１１４）。エージェントサーバ２００から受信した応答文は、「前記第１マイクロフォンによって収音されたユーザの発話に基づく情報」の一例である。

次に、音声制御部４１６は、エージェント機能部４２０によって生成された合成音声を、スピーカ４０８に出力させる（ステップＳ１１６）。この際、表示制御部４１４は、エージェント画像をタッチパネル４０４に表示させてよい。これによって本フローチャートの処理が終了する。エージェント装置１００から受信した応答文に基づいて合成音声を出力したり、エージェント画像を表示したりすることは、「第１サービス」の一例である。また、エージェントサーバ２００から受信した応答文に基づいて合成音声を出力したり、エージェント画像を表示したりすることは、「第２サービス」の一例である。

［エージェント装置の処理フロー］
以下、実施形態に係るエージェント装置１００による一連の処理の流れをフローチャートを用いて説明する。図１１は、実施形態に係るエージェント装置１００による一連の処理の流れを示すフローチャートである。本フローチャートの処理は、例えば、所定の周期で繰り返し行われる。

まず、接続制御部１５２は、通信インターフェース４０を介して、一台以上の端末装置４００と第３エージェント機能部１５０−３とが互いに接続されたか否かを判定する（ステップＳ２００）。

一台以上の端末装置４００と第３エージェント機能部１５０−３とが互いに接続された場合、音響処理部１１２は、各座席の音響設備ＡＥに含まれるマイクロフォン１０から音声データを取得する（ステップＳ２０２）。

次に、音響処理部１１２は、複数のマイクロフォン１０のそれぞれから取得した音声データに対して音響処理を行う（ステップＳ２０４）。

次に、エージェントごとＷＵ判定部１１４は、音響処理部１１２によって音響処理が行われた複数の音声データ、すなわち複数の音声ストリームのいずれかに、ウェイクアップワードが含まれているか否かを判定する（ステップＳ２０６）。

複数の音声ストリームのいずれにもウェイクアップワードが含まれていない場合、エージェントごとＷＵ判定部１１４は、本フローチャートの処理を終了する。

一方、複数の音声ストリームの少なくともいずれか一つにウェイクアップワードが含まれている場合、ユーザ判定部１２０は、複数のマイクロフォン１０のそれぞれから取得され、かつ音響処理部１１２によって音響処理が行われた音声データ、すなわち複数の音声ストリームに基づいて、複数の座席のそれぞれにいるユーザの中から、ウェイクアップワードを発話したユーザである対話ユーザを判定する（ステップＳ２０８）。

例えば、運転席ＤＳに対応した第１音響設備ＡＥ_Ａに含まれるマイクロフォン１０Ａと、助手席ＡＳに対応した第２音響設備ＡＥ_Ｂに含まれるマイクロフォン１０Ｂと、後部座席ＢＳ１に対応した第３音響設備ＡＥ_Ｃに含まれるマイクロフォン１０Ｃと、後部座席ＢＳ２に対応した第４音響設備ＡＥ_Ｄに含まれるマイクロフォン１０Ｄとのそれぞれから音声データが取得されたとする。この場合、ユーザ判定部１２０は、４つの音声データのそれぞれからウェイクアップワードが発話された区間の音声データ（すなわち一部の音声データ）を抽出し、抽出した音声データ同士を互いに比較することで、対話ユーザを判定する。

例えば、車内に複数のユーザがそれぞれの座席に着座している状況下で、後部座席ＢＳ１に着座したユーザがウェイクアップワードを発話したとする。この場合、後部座席ＢＳ１のユーザに最も近いマイクロフォン１０Ｄは、他のマイクロフォン１０に比してウェイクアップワードを収音する蓋然性が高い。しかしながら、車内という限られた空間では座席同士の距離が比較的近いため、他のマイクロフォン１０も、後部座席ＢＳ１のユーザが発話したウェイクアップワードを収音し得る。特に、後部座席ＢＳ２に対応したマイクロフォン１０Ｄは、隣の後部座席ＢＳ１に近いため、後部座席ＢＳ１のユーザが発話した音声を拾いやすい。そこで、感度が強い方向がユーザに向けられているというマイクロフォン１０の指向性を考慮したり、音源からの距離の二乗に比例して音が小さくなることを考慮したりして、複数のユーザの中から対話ユーザを判定する。

具体的には、ユーザ判定部１２０は、比較対象である４つの音声データのうち、最も音量の大きい音声データ、あるいは最も音圧レベルの大きい音声データを選択する。ユーザ判定部１２０は、最も音量や音圧レベルの大きい音声データを選択すると、その選択した音声データの取得先であるマイクロフォン１０（第１マイクロフォンの一例）を含む音響設備ＡＥに対応した座席に着座するユーザを、対話ユーザと判定する。例えば、マイクロフォン１０Ｄから取得された音声データの音圧レベルが最も大きい場合、後部座席ＢＳ１に着座したユーザが対話ユーザであると判定される。

また、ユーザ判定部１２０は、音響処理部１１２によって音声データが取得された複数のマイクロフォン１０の中から、最も早く（最も応答速度が良く）音声データが取得されたマイクロフォン１０（第１マイクロフォンの他の例）を選択し、その選択したマイクロフォン１０を含む音響設備ＡＥに対応した座席にいるユーザを、対話ユーザと判定してもよい。

次に、接続制御部１５２は、ユーザ判定部１２０の判定結果に基づいて、対話ユーザがいる座席と異なる他の座席に対応して設けられた音響設備ＡＥと、端末装置４００との接続を制限する（ステップＳ２１０）。

図１２から図１４は、音響設備ＡＥと端末装置４００との接続を制限する場面の一例を示す図である。図１２に例示する場面では、車内の４つの座席のそれぞれにユーザが着座している。これらの複数のユーザのうち、助手席ＡＳに着座したユーザＵ_Ｂは、端末装置４００_Ｂを第２音響設備ＡＥ_Ｂに接続しており、後部座席ＢＳ１に着座したユーザＵ_Ｃは、端末装置４００_Ｃを第３音響設備ＡＥ_Ｃに接続しており、後部座席ＢＳ２に着座したユーザＵ_Ｄは、端末装置４００_Ｄを第４音響設備ＡＥ_Ｄに接続している。

このような状況下で、後部座席ＢＳ２に着座したユーザＵ_Ｄがウェイクアップワードを発話した場合、図１３に例示するように、音響処理部１１２は、各音響設備ＡＥのマイクロフォン１０から音声データを取得する。図示の例では、第４音響設備ＡＥ_Ｄのマイクロフォン１０Ｄの音声データの音圧レベルが最も大きいため、ユーザ判定部１２０は、後部座席ＢＳ２に着座したユーザを対話ユーザと判定する。

これを受けて、接続制御部１５２は、図１４に示すように、助手席ＡＳに対応して設けられた第２音響設備ＡＥ_Ｂと端末装置４００_Ｂとの接続を制限し、後部座席ＢＳ１に対応して設けられた第３音響設備ＡＥ_Ｃと端末装置４００_Ｃとの接続を制限し、後部座席ＢＳ２に対応して設けられた第４音響設備ＡＥ_Ｄと端末装置４００_Ｄとの接続を維持する。

「接続を制限する」とは、例えば、既に音響設備ＡＥと端末装置４００とが接続されている場合、それら機器の接続を切ることである。また、「接続を制限する」ことは、未だ音響設備ＡＥと端末装置４００とが接続されていない場合、それら機器の接続を禁止することであってもよい。上述した場面例では、運転席ＤＳに着座したユーザＵ_Ａは、端末装置４００_Ａを第１音響設備ＡＥ_Ａに接続していない。このような場合、接続制御部１５２は、第１音響設備ＡＥ_Ａに対して、端末装置４００_Ａなどが接続されることを禁止する。また、音響設備ＡＥと端末装置４００とがケーブルＣＢなどで有線接続されており、音響設備ＡＥを介して端末装置４００の二次電池が充電される場合、「接続を制限する」ことは、音響設備ＡＥから端末装置４００への電力供給を許可し、音響設備ＡＥと端末装置４００との互いの通信を禁止することであってもよい。

このように、ウェイクアップワードを発話したユーザを特定したうえで、そのユーザの端末装置４００のみを音響設備ＡＥに接続させておき、他のユーザの端末装置４００と音響設備ＡＥとの接続を制限することで、ウェイクアップワードを発話したユーザの端末装置４００のみにエージェントＡＧを提供することができる。

図１１のフローチャートの説明に戻る。音響処理部１１２は、接続制御部１５２によって音響設備ＡＥと端末装置４００との接続が制限されると、端末装置４００との接続が制限されていない音響設備ＡＥのマイクロフォン１０から音声データを取得し、音響処理を行う（ステップＳ２１２）。上述した場面例では、第４音響設備ＡＥ_Ｄと端末装置４００_Ｄとの接続が制限されず維持されているため、音響処理部１１２は、第４音響設備ＡＥ_Ｄのマイクロフォン１０_Ｄから音声データを取得し、音響処理を行う。

次に、第３エージェント機能部１５０−３は、音響処理部１１２によって取得され、その後音響処理が行われた音声データを、車載通信装置７０を介してを第３エージェントサーバ２００−３に送信する（ステップＳ２１４）。

これを受けて、第３エージェントサーバ２００−３は、音声データをテキストに変換し、そのテキストの意味を解釈して、応答文を生成する。そして、第３エージェントサーバ２００−３は、応答文をエージェント装置１００に送信する。

次に、第３エージェント機能部１５０−３は、車載通信装置７０が第３エージェントサーバ２００−３から応答文を受信したか否かを判定し（ステップＳ２１６）、車載通信装置７０がが応答文を受信した場合、音響設備ＡＥとの接続が制限されていない端末装置４００に対して応答文を転送する（ステップＳ２１８）。

エージェント装置１００から応答文を受信した場合、端末装置４００は、応答文に基づいて合成音声を生成し、その生成した合成音声を出力する。これによって、端末装置４００には、音声による応答を行う第３エージェントＡＧ３が提供される。

なお、第３エージェント機能部１５０−３は、端末装置４００に対して応答文を転送することに加えて、更に、応答文を転送する先の端末装置４００と接続された音響設備ＡＥを用いて、応答文に基づく合成音声を出力したり、エージェント画像を表示したりしてもよい。これによって本フローチャートの処理が終了する。

以上説明した実施形態によれば、エージェント装置１００は、車両Ｍの複数の座席のそれぞれに対応して設けられ、少なくとも一つ以上のマイクロフォン１０を含み、かつ座席にいるユーザの端末装置４００と有線または無線を介して接続される音響設備ＡＥから、ユーザの発話を示す音声データを取得する。エージェント装置１００は、取得した音声データに基づいて、複数の座席のそれぞれにいるユーザの中から、ウェイクアップワードを発話した対話ユーザを判定する。エージェント装置１００は、対話ユーザを判定した結果に基づいて、対話ユーザがいる座席と異なる他の座席に対応して設けられた音響設備ＡＥと、端末装置４００との接続を制限する。これによって、例えば、車内Ｍにいる複数のユーザのそれぞれがエージェント機能（エージェントＡＧ）を利用できるときに、どのユーザがウェイクアップワードを発話して、エージェント機能を利用しようと試みているのかを識別した上で、利用するつもりのない他のユーザに対して、音声対話などを含むサービスがエージェント機能として提供されるのを抑制しつつ、利用することを望んでいるユーザ（ウェイクアップワードを発話したユーザ）に対して、音声対話などを含むサービスをエージェント機能として提供することができる。この結果、ユーザをより満足させることができる。

＜実施形態の変形例＞
以下、実施形態の変形例について説明する。上述した実施形態では、ユーザ判定部１２０が、マイクロフォン１０から取得された音声データに基づいて、各座席にいるユーザの中から、ウェイクアップワードを発話した対話ユーザを判定するものとして説明したがこれに限られない。例えば、ユーザ判定部１２０は、音声データに基づいて、複数の座席の中から、対話ユーザがいる座席を判定してもよい。これを受けて、接続制御部１５２は、複数の座席のそれぞれに対応して設けられた音響設備ＡＥのうち、対話ユーザがいる座席と異なる他の座席、すなわち、ウェイクアップワードを発話していない他のユーザがいる座席に対応して設けられた音響設備ＡＥと、端末装置４００との接続を制限する。これによって、上述した実施形態と同様に、利用するつもりのない他のユーザに対して、音声対話などを含むサービスがエージェント機能として提供されるのを抑制しつつ、利用することを望んでいるユーザに対して、音声対話などを含むサービスをエージェント機能として提供することができる。この結果、ユーザをより満足させることができる。

上述した実施形態では、エージェント装置１００が、音声ストリームをエージェントサーバ２００に送信し、エージェントサーバ２００が受信した音声ストリームの音声認識を行うものとして説明したがこれに限られない。例えば、エージェント装置１００が、音声ストリームの音声認識を行ってよい。

図１５は、実施形態に係るエージェント装置１００の構成の他の例を示す図である。図示のように、管理部１１０は、上述した音響処理部１１２、エージェントごとＷＵ判定部１１４、表示制御部１１６、音声制御部１１８、およびユーザ判定部１２０に加えて、更に音声認識部１２２を備える。音声認識部１２２は、例えば、エージェントごとＷＵ判定部１１４によってウェイクアップワードが判定された後に、マイクロフォン１０に対して入力された音声ストリームに対して音声認識を行い、音声ストリームをテキスト化した文字情報を生成する。そして、音声認識部１２２は、車載通信装置７０を介して、生成した文字情報をエージェントサーバ２００に送信する。

このように、エージェントサーバ２００に送信する前に、音声データをテキストデータに変換することで、データ転送に係る処理時間を短くしたり、処理負荷を軽減したりすることができる。

上記説明した実施形態は、以下のように表現することができる。
プログラムを記憶したストレージと、
プロセッサと、を備え、
前記プロセッサが前記プログラムを実行することにより、
車両の複数の座席のそれぞれに対応して設けられ、少なくとも一つ以上のマイクロフォンを含み、かつ前記座席にいるユーザの端末装置と有線または無線を介して接続される音響設備から、前記ユーザの発話を示す音声データを取得し、
前記取得した音声データに基づいて、前記複数の座席のそれぞれにいるユーザの中から、特定のフレーズを発話した第１ユーザを判定し、
前記判定した結果に基づいて、前記第１ユーザがいる第１座席と異なる第２座席に対応して設けられた前記音響設備と、前記端末装置との接続を制限する、
ように構成されている、エージェント装置。

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

１…エージェントシステム、ＡＥ…音響設備、１０…マイクロフォン、２０…表示・操作装置、３０…スピーカ、４０…通信インターフェース、７０…車載通信装置、１００…エージェント装置、１１０…管理部、１１２…音響処理部、１１４…エージェントごとＷＵ判定部、１１６…表示制御部、１１８…音声制御部、１２０…ユーザ判定部、１５０…エージェント機能部、１６０…記憶部、２００…エージェントサーバ、２１０…通信部、２２０…音声認識部、２２２…自然言語処理部、２２４…対話管理部、２２６…ネットワーク検索部、２２８…応答文生成部、２５０…記憶部、４００…端末装置、４０２…通信インターフェース、４０４…タッチパネル、４０６…マイクロフォン、４０８…スピーカ、４１０…端末制御部、４１２…音響処理部、４１４…表示制御部、４１６…音声制御部、４１８…判定部、４２０…エージェント機能部、４３０…記憶部

Claims

車両の複数の座席のそれぞれに対応して設けられ、少なくとも一つ以上のマイクロフォンを含み、かつ前記座席にいるユーザの端末装置と有線または無線を介して接続される音響設備と、
前記音響設備に含まれる前記マイクロフォンから、前記ユーザの発話を示す音声データを取得する取得部と、
前記取得部によって取得された前記音声データに基づいて、前記複数の座席のそれぞれにいるユーザの中から、特定のフレーズを発話した第１ユーザを判定する判定部と、
前記判定部の判定結果に基づいて、前記第１ユーザがいる第１座席と異なる第２座席に対応して設けられた前記音響設備と、前記端末装置との接続を制限する接続制御部と、
を備えるエージェントシステム。
前記接続制御部は、前記第１座席に対応して設けられた前記音響設備と、前記端末装置との接続を制限せず、
前記第１座席に対応して設けられた前記音響設備に含まれる前記マイクロフォンから前記取得部が取得した前記音声データに基づいて、前記第１座席に対応して設けられた前記音響設備に接続された前記端末装置に対して、音声対話を含むサービスを提供する提供部を更に備える、
請求項１に記載のエージェントシステム。
前記判定部は、前記取得部によって前記音声データが取得された複数の前記マイクロフォンのうち、最も音圧レベルの大きい前記音声データの取得先である第１マイクロフォンを含む前記音響設備に対応した座席にいるユーザを、前記第１ユーザと判定する、
請求項１または２に記載のエージェントシステム。
前記判定部は、前記取得部によって前記音声データが取得された複数の前記マイクロフォンのうち、最も早く前記音声データが取得された第１マイクロフォンを含む前記音響設備に対応した座席にいるユーザを、前記第１ユーザと判定する、
請求項１から３のうちいずれか一項に記載のエージェントシステム。
前記端末装置は、
前記音響設備と有線または無線を介して接続する通信部と、
前記通信部を介して、前記第１マイクロフォンによって収音されたユーザの発話に基づく情報を取得し、前記取得した情報に基づいて、前記ユーザの発話に対する応答を含む第１サービスを提供する端末制御部と、を備える、
請求項３または４に記載のエージェントシステム。
前記端末装置は、更に、第２マイクロフォンを備え、
前記端末制御部は、
前記第２マイクロフォンによって収音されたユーザの発話に基づいて、前記ユーザの発話に対する応答を含む第２サービスを提供し、
前記通信部が前記音響設備と接続した場合、前記第２サービスを提供せず、前記第１サービスを提供する、
請求項５に記載のエージェントシステム。
車両の複数の座席のそれぞれに対応して設けられ、少なくとも一つ以上のマイクロフォンを含み、かつ前記座席にいるユーザの端末装置と有線または無線を介して接続される音響設備と、
前記音響設備に含まれる前記マイクロフォンから、前記ユーザの発話を示す音声データを取得する取得部と、
前記取得部によって取得された前記音声データに基づいて、前記複数の座席の中から、特定のフレーズを発話したユーザがいる第１座席を判定する判定部と、
前記判定部の判定結果に基づいて、前記複数の座席のそれぞれに対応して設けられた前記音響設備のうち、前記第１座席と異なる第２座席に対応して設けられた前記音響設備と、前記端末装置との接続を制限する接続制御部と、
を備えるエージェントシステム。
車両に搭載されたコンピュータが、
前記車両の複数の座席のそれぞれに対応して設けられ、少なくとも一つ以上のマイクロフォンを含み、かつ前記座席にいるユーザの端末装置と有線または無線を介して接続される音響設備から、前記ユーザの発話を示す音声データを取得し、
前記取得した音声データに基づいて、前記複数の座席のそれぞれにいるユーザの中から、特定のフレーズを発話した第１ユーザを判定し、
前記判定した結果に基づいて、前記第１ユーザがいる第１座席と異なる第２座席に対応して設けられた前記音響設備と、前記端末装置との接続を制限する、
車載機器の制御方法。
車両に搭載されたコンピュータに、
前記車両の複数の座席のそれぞれに対応して設けられ、少なくとも一つ以上のマイクロフォンを含み、かつ前記座席にいるユーザの端末装置と有線または無線を介して接続される音響設備から、前記ユーザの発話を示す音声データを取得する処理と、
前記取得した音声データに基づいて、前記複数の座席のそれぞれにいるユーザの中から、特定のフレーズを発話した第１ユーザを判定する処理と、
前記判定した結果に基づいて、前記第１ユーザがいる第１座席と異なる第２座席に対応して設けられた前記音響設備と、前記端末装置との接続を制限する処理と、
を実行させるためのプログラム。