JP2020079865A

JP2020079865A - 情報処理装置、エージェントシステム、情報処理方法、およびプログラム

Info

Publication number: JP2020079865A
Application number: JP2018212916A
Authority: JP
Inventors: 慎一笠原; Shinichi Kasahara
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2018-11-13
Filing date: 2018-11-13
Publication date: 2020-05-28

Abstract

【課題】人間と自然な会話を行うこと。【解決手段】情報処理装置は、第１車両の乗員の音声に基づく第１音声関連データと、少なくとも前記第１車両の位置を示す第１位置データとを、前記第１車両から取得する取得部と、前記取得部によって取得された前記第１音声関連データおよび前記第１位置データのうち、前記第１車両の乗員が発話した第１時点における前記第１車両の位置を示す前記第１位置データに対して、前記第１時点に前記乗員が発話した音声に基づく前記第１音声関連データを対応付けたパターンデータを生成する第１生成部とを備える。【選択図】図５

Description

本発明は、情報処理装置、エージェントシステム、情報処理方法、およびプログラムに関する。

人間と音声対話することでコミュニケーションを取るヒューマンマシンインターフェースの研究が進められている。これに関連し、語彙が登録された辞書を利用して、乗員が発話した音声を認識し、車室内の複数の制御対象機器を、認識した音声の内容に応じて制御する技術や、位置に応じてロボットに発話させる際の音量や口調が決められた地図情報と、ロボットのコミュニケーションの対象とする人物の状況とに基づいて、コミュニケーションの対象とする人物に対する発話の可否や発話音量、発話口調を決定する技術が知られている（例えば、特許文献１、２参照）。

特開２００７−２８６１３６号公報特開２００８−２５４１２２号公報

しかしながら、従来の技術では、人間と自然な会話を行うことができない場合があった。

本発明の態様は、このような事情を考慮してなされたものであり、人間と自然な会話を行うことができる情報処理装置、エージェントシステム、情報処理方法、およびプログラムを提供することを目的の一つとする。

本発明に係る情報処理装置、エージェントシステム、情報処理方法、およびプログラムは、以下の構成を採用した。
（１）本発明の一態様は、第１車両の乗員の音声に基づく第１音声関連データと、少なくとも前記第１車両の位置を示す第１位置データとを、前記第１車両から取得する取得部と、前記取得部によって取得された前記第１音声関連データおよび前記第１位置データのうち、前記第１車両の乗員が発話した第１時点における前記第１車両の位置を示す前記第１位置データに対して、前記第１時点に前記乗員が発話した音声に基づく前記第１音声関連データを対応付けたパターンデータを生成する第１生成部と、を備える情報処理装置である。

（２）の態様は、上記（１）の態様の情報処理装置において、一以上の車両と通信する通信部と、前記第１生成部によって生成された前記パターンデータに含まれる前記第１位置データが示す位置に、前記第１車両と異なる第２車両が存在する場合、前記パターンデータとして前記第１位置データに対応付けられた前記第１音声関連データに基づくエージェントデータを、前記通信部を介して前記第２車両に送信する通信制御部と、を更に備えるものである。

（３）の態様は、上記（２）の態様の情報処理装置において、前記取得部は、前記第１車両の位置に加えて、更に前記第１車両の方位を示す前記第１位置データを前記第１車両から取得し、前記通信制御部は、前記第２車両の位置および方位が、前記第１位置データが示す位置および方位と同じ場合、前記第１位置データに対応付けられた前記第１音声関連データに基づくエージェントデータを、前記通信部を介して前記第２車両に送信するものである。

（４）の態様は、上記（２）または（３）の態様の情報処理装置において、前記取得部は、更に、前記第１車両の運転操作に関する運転操作データを前記第１車両から取得し、前記通信制御部は、前記運転操作データが示す運転操作と同じ運転操作によって前記第２車両が運転される場合、前記第１位置データに対応付けられた前記第１音声関連データに基づくエージェントデータを、前記通信部を介して前記第２車両に送信するものである。

（５）の態様は、上記（２）から（４）のうちいずれか一つの態様の情報処理装置において、前記取得部は、前記エージェントデータが送信された前記第２車両の乗員の音声に基づく第２音声関連データを、前記第２車両から取得し、前記第１生成部は、前記取得部により取得された前記第２音声関連データを前記パターンデータに対応付けるものである。

（６）の態様は、上記（５）の態様の情報処理装置において、前記取得部は、前記第１車両の乗員が質問として発話した音声に基づく音声関連データを前記第１音声関連データとして前記第１車両から取得し、前記第２車両の乗員が前記質問への回答として発話した音声に基づく音声関連データを前記第２音声関連データとして前記第２車両から取得するものである。

（７）の態様は、上記（５）または（６）の態様の情報処理装置において、前記取得部は、前記第１車両および前記第２車両を含む複数の車両のいずれかの車両を示す第３車両が、前記第１位置データが示す位置に存在する場合、前記第３車両の乗員の音声に基づく第３音声関連データを、前記第３車両から取得し、前記通信制御部は、前記取得部によって前記第３音声関連データが取得された場合に、前記第３音声関連データと、前記第１位置データに対応付けられた前記第１音声関連データとが同じ場合、前記パターンデータ対応付けられた前記第２音声関連データに基づくエージェントデータを、前記通信部を介して前記第３車両に送信するものである。

（８）の態様は、上記（２）から（７）のうちいずれか一つの態様の情報処理装置において、前記第１車両に複数の乗員が乗車している場合に、前記複数の乗員のそれぞれの生体情報に基づいて、前記複数の乗員のそれぞれを識別する識別部と、前記識別部によって識別された前記複数の乗員のそれぞれの音声に基づく前記第１音声関連データのうち、第１乗員の音声に基づく前記第１音声関連データに基づいて、前記複数の乗員のうち、前記第１乗員と異なる第２乗員に対して発話する人工音声の元となるエージェントデータを生成する第２生成部と、前記第２生成部により生成された前記エージェントデータを、前記通信部を介して前記第１車両に送信する通信制御部と、を更に備えるものである。

（９）本発明の他の態様は、乗員が乗る第１移動体に設置された第１マイクロフォン、および少なくとも前記第１移動体の位置を検出する第１センサ、を有する前記第１移動体と、乗員が乗る第２移動体に設置された第２マイクロフォン、少なくとも前記第２移動体の位置を検出する第２センサ、および前記第２移動体に設置された第２スピーカ、を有する前記第２移動体と、第１時点において前記第１センサによって検出された前記第１移動体の位置と、前記第１時点よりも後の第２時点において前記第２センサによって検出された前記第２移動体の位置とが同じ場合、前記第１時点において前記第１マイクロフォンによって収音された前記第１移動体の乗員の音声に基づく人工音声を、前記第２スピーカに出力させる出力制御部と、前記第２スピーカによって前記人工音声が出力された後に、前記第２マイクロフォンによって収音された前記第２移動体の乗員の音声に基づく第２音声関連データと、前記第１時点において前記第１マイクロフォンによって収音された前記第１移動体の乗員の音声に基づく第１音声関連データとを対応付けたパターンデータを生成する第１生成部と、を備えるエージェントシステムである。

（１０）の態様は、上記（９）の態様のエージェントシステムにおいて、前記第１移動体は、更に第１スピーカを有し、前記第１移動体に複数の乗員が乗車している場合に、前記複数の乗員のそれぞれの生体情報に基づいて、前記複数の乗員のそれぞれを識別する識別部と、前記識別部によって識別された前記複数の乗員のうち、ある第１乗員の音声が前記第１マイクロフォンによって収音された場合、前記第１乗員の音声に基づいて、前記複数の乗員のうち、前記第１乗員と異なる第２乗員に対して発話する人工音声を生成する第２生成部と、を更に備え、前記出力制御部は、前記第２生成部によって生成された前記人工音声を前記第１スピーカに出力させるものである。

（１１）の態様は、上記（１０）の態様のエージェントシステムにおいて、前記第１生成部は、前記第１スピーカによって前記人工音声が出力された後に、前記第１マイクロフォンによって収音された前記第２乗員の音声に基づく前記第１音声関連データと、前記第１乗員の音声に基づく前記第１音声関連データとを対応付けた前記パターンデータを生成するものである。

（１２）本発明の他の態様は、コンピュータが、第１移動体の乗員の音声に基づく第１音声関連データと、少なくとも前記第１移動体の位置を示す第１位置データとを、前記第１移動体から取得するプロセスと、前記取得した前記第１音声関連データおよび前記第１位置データのうち、前記第１移動体の乗員が発話した第１時点における前記第１移動体の位置を示す前記第１位置データに対して、前記第１時点に前記乗員が発話した音声に基づく前記第１音声関連データを対応付けたパターンデータを生成するプロセスと、を実行する、情報処理方法である。

（１３）本発明の他の態様は、単一または複数のコンピュータにインストールされ、第１移動体の乗員の音声に基づく第１音声関連データと、少なくとも前記第１移動体の位置を示す第１位置データとを、前記第１移動体から取得する処理と、前記取得した前記第１音声関連データおよび前記第１位置データのうち、前記第１移動体の乗員が発話した第１時点における前記第１移動体の位置を示す前記第１位置データに対して、前記第１時点に前記乗員が発話した音声に基づく前記第１音声関連データを対応付けたパターンデータを生成する処理と、を前記コンピュータに実行させるためのプログラムである。

（１）〜（１３）の態様によれば、人間と自然な会話を行うことができる。

第１実施形態に係るエージェントシステム１の構成の一例を示す図である。第１実施形態に係るエージェント装置１００の構成の一例を示す図である。運転席から見た車室内の一例を示す図である。車両Ｍを上から見た車室内の一例を示す図である。第１実施形態に係るサーバ装置２００の構成の一例を示す図である。会話パターンデータＰＴＮの一例を示す図である。第１実施形態に係るエージェントシステム１の一連の処理の流れを示すシーケンス図である。第１実施形態に係るエージェント装置１００の一連の処理の流れを示すフローチャートである。第１実施形態に係るサーバ装置２００の一連の処理の流れを示すフローチャートである。会話パターンの生成処理について説明するための図である。ある場面の一例を示す図である。図１１に例示する場面で、第１車両Ｍ１の乗員が発話し得るフレーズを表した図である。図１１に例示する場面で乗員が発話する音声に対して第１車両Ｍ１のエージェント装置１００が出力し得るエージェント音声を表した図である。図１１に例示した場面の他の例を示す図である。図１４に例示する場面で、第２車両Ｍ２のエージェント装置１００が出力し得るエージェント音声を表した図である。図１４に例示する場面で出力されたエージェント音声に対して第２車両Ｍ２の乗員が発話し得るフレーズを表した図である。ある場面の一例を示す図である。第１実施形態に係るエージェント装置１００の他の例を示す図である。第２実施形態に係るサーバ装置２００の構成の一例を示す図である。第１車両Ｍ１に複数の乗員が乗車している場面の一例を示す図である。複数の乗員が乗車した第１車両Ｍ１のエージェント装置１００が出力し得るエージェント音声を表した図である。図２１に例示する場面で出力されたエージェント音声に対して第１車両Ｍ１の乗員が発話し得るフレーズを表した図である。第２車両Ｍ２のエージェント装置１００が出力し得るエージェント音声を表した図である。エージェント音声が出力された後に第２車両Ｍ２の乗員が発話し得るフレーズを表した図である。第１エージェントデータが再送された第２車両Ｍ２のエージェント装置１００が出力し得るエージェント音声を表した図である。再度エージェント音声が出力された後に第２車両Ｍ２の乗員が発話し得るフレーズを表した図である。第３実施形態に係るサーバ装置２００の構成の一例を示す図である。

以下、図面を参照し、本発明の情報処理装置、エージェントシステム、情報処理方法、およびプログラムの実施形態について説明する。

＜第１実施形態＞
［システム構成］
図１は、第１実施形態に係るエージェントシステム１の構成の一例を示す図である。第１実施形態に係るエージェントシステム１は、例えば、複数のエージェント装置１００と、サーバ装置２００とを備える。図示の例のように、各エージェント装置１００は、車両Ｍに搭載される。車両Ｍは、例えば、二輪や三輪、四輪等の車両である。これらの車両の駆動源は、ディーゼルエンジンやガソリンエンジン等の内燃機関、電動機、或いはこれらの組み合わせであってよい。電動機は、内燃機関に連結された発電機による発電電力、或いは二次電池や燃料電池の放電電力を使用して動作する。

エージェント装置１００とサーバ装置２００とは、ネットワークＮＷを介して通信可能に接続される。ネットワークＮＷは、ＬＡＮ（Local Area Network）やＷＡＮ（Wide Area Network）などが含まれる。ネットワークＮＷには、例えば、Ｗｉ−ＦｉやＢｌｕｅｔｏｏｔｈ（登録商標、以下省略）など無線通信を利用したネットワークが含まれてよい。

エージェント装置１００は、車両Ｍの乗員と音声対話を行ったり、乗員同士の対話を支援したりする機能（以下、エージェント機能と称する）を有する装置である。エージェント機能は、ある種の人工知能的機能を持つソフトウェアエージェント（インテリジェントエージェント）によって実現される。

サーバ装置２００は、各車両Ｍに搭載されたエージェント装置１００と通信し、エージェント装置１００から各種データを収集する。サーバ装置２００は、収集したデータを解析することで、各エージェント装置１００のエージェント機能を、より高精度な機能に更新する。サーバ装置２００は、「情報処理装置」の一例である。

［エージェント装置の構成］
図２は、第１実施形態に係るエージェント装置１００の構成の一例を示す図である。第１実施形態に係るエージェント装置１００は、例えば、エージェント側通信部１０２と、車室内カメラ１０４と、マイクロフォン１０６と、スピーカ１０８と、表示部１１０と、入力部１１２と、車両センサ１１４と、ＧＮＳＳ（Global Navigation Satellite System）受信機１１６と、エージェント側制御部１２０と、エージェント側記憶部１５０とを備える。これらの装置や機器は、ＣＡＮ（Controller Area Network）通信線等の多重通信線やシリアル通信線、無線通信網等によって互いに接続されてよい。なお、図２に示すエージェント装置１００の構成はあくまでも一例であり、構成の一部が省略されてもよいし、更に別の構成が追加されてもよい。

エージェント側通信部１０２は、ＮＩＣなどの通信インターフェースを含む。エージェント側通信部１０２は、ネットワークＮＷを介してサーバ装置２００などと通信する。

車室内カメラ１０４は、例えば、エージェント装置１００が搭載された車両Ｍの車室内に設置され、車室内のシートに着座する各乗員の顔などを撮像する。車室内カメラ１０４は、例えば、ＣＣＤ（Charge Coupled Device）やＣＭＯＳ（Complementary Metal Oxide Semiconductor）等の固体撮像素子を利用したデジタルカメラである。車室内カメラ１０４は、例えば、所定のタイミングで各乗員を繰り返し撮像する。車室内カメラ１０４は、乗員を撮像した画像のデータ（以下、画像データ）を生成し、生成した画像データをエージェント側制御部１２０に出力する。

マイクロフォン１０６は、車室内の音声を電気信号化し収音する音声入力装置である。マイクロフォン１０６は、収音した音声のデータ（以下、音声データ）をエージェント側制御部１２０に出力する。例えば、マイクロフォン１０６は、乗員が車室内のシートに着座したときの前方付近に設置される。例えば、マイクロフォン１０６は、マットランプ、ステアリングホイール、インストルメントパネル、またはシートの付近に設置される。マイクロフォン１０６は、車室内に複数設置されてよい。後述する第１車両Ｍ１のマイクロフォン１０６は、「第１マイクロフォン」の一例であり、後述する第２車両Ｍ２のマイクロフォン１０６は、「第２マイクロフォン」の一例である。

スピーカ１０８は、例えば、車室内のシート付近または表示部１１０付近に設置される。スピーカ１０８は、エージェント側制御部１２０により出力される情報に基づいて音声を出力する。後述する第１車両Ｍ１のスピーカ１０８は、「第１スピーカ」の一例であり、後述する第２車両Ｍ２のスピーカ１０８は、「第２スピーカ」の一例である。

表示部１１０は、ＬＣＤ（Liquid Crystal Display）や有機ＥＬ（Electroluminescence）ディスプレイなどの表示装置を含む。表示部１１０は、エージェント側制御部１２０により出力される情報に基づいて画像を表示する。

入力部１１２は、例えば、ボタン、キーボードやマウス等のユーザインターフェースである。入力部１１２は、乗員の操作を受け付けて、受け付けた操作に応じた信号をエージェント側制御部１２０に出力する。入力部１１２は、表示部１１０と一体として構成されるタッチパネルであってもよい。

図３は、運転席から見た車室内の一例を示す図である。図示の例の車室内には、マイクロフォン１０６Ａ、１０６Ｂと、スピーカ１０８Ａ〜１０８Ｃと、表示部１１０Ａ〜１１０Ｃとが設置されている。マイクロフォン１０６Ａは、例えば、ステアリングホイールに設けられ、主に運転者が発話した音声を収音する。マイクロフォン１０６Ｂは、例えば、助手席正面のインストルメントパネル（ダッシュボードまたはガーニッシュ）ＩＰに設けられ、主に助手席の乗員が発話した音声を収音する。

スピーカ１０８Ａは、例えば、表示部１１０Ｃの付近、つまり、インストルメントパネルＩＰの中央付近に設置される。スピーカ１０８Ａは、例えば、運転席側のドアの下部に設置され、スピーカ１０８Ｃは、例えば、助手席側のドアの下部に設置される。

表示部１１０Ａは、例えば運転者が車外を視認する際の視線の先に虚像を表示させるＨＵＤ（Head-Up Display）装置である。ＨＵＤ装置は、例えば、車両Ｍのフロントウインドシールド、或いはコンバイナーと呼ばれる光の透過性を有する透明な部材に光を投光することで、乗員に虚像を視認させる装置である。乗員は、主に運転者であるが、運転者以外の乗員であってもよい。

表示部１１０Ｂは、運転席（ステアリングホイールに最も近い座席）の正面付近のインストルメントパネルＩＰに設けられ、乗員がステアリングホイールの間隙から、或いはステアリングホイール越しに視認可能な位置に設置される。表示部１１０Ｂは、例えば、ＬＣＤや有機ＥＬ表示装置等である。表示部１１０Ｂには、例えば、車両Ｍの速度、エンジン回転数、燃料残量、ラジエータ水温、走行距離、その他の情報の画像が表示される。

表示部１１０Ｃは、インストルメントパネルＩＰの中央付近に設置される。表示部１１０Ｃは、例えば、表示部１１０Ｂと同様に、ＬＣＤや有機ＥＬ表示装置等である。表示部１１０Ｃは、テレビ番組や映画等のコンテンツを表示する。

なお、車両Ｍには、更に、後部座席付近にマイクロフォンとスピーカが設けられてよい。図４は、車両Ｍを上から見た車室内の一例を示す図である。車室内には、図３で例示したマイクロフォンスピーカに加えて、更に、マイクロフォン１０６Ｃ、１０６Ｄと、スピーカ１０８Ｄ、１０８Ｅとが設置されてよい。

マイクロフォン１０６Ｃは、例えば、助手席ＳＴ２の後方に設置された後部座席ＳＴ３の付近（例えば、助手席ＳＴ２の後面）に設けられ、主に、後部座席ＳＴ３に着座する乗員が発話した音声を収音する。マイクロフォン１０６Ｄは、例えば、運転席ＳＴ１の後方に設置された後部座席ＳＴ４の付近（例えば、運転席ＳＴ１の後面）に設けられ、主に、後部座席ＳＴ４に着座する乗員が発話した音声を収音する。

スピーカ１０８Ｄは、例えば、後部座席ＳＴ３側のドアの下部に設置され、スピーカ１０８Ｅは、例えば、後部座席ＳＴ４側のドアの下部に設置される。

なお、図１に例示した車両Ｍは、図３または図４に例示するように、乗員である運転手が操作可能なステアリングホイールを備える車両であるものとして説明したがこれに限られない。例えば、車両Ｍは、ルーフがない、すなわち車室がない（またはその明確な区分けがない）自動車であってもよい。また、図３または図４の例では、車両Ｍを運転操作する運転手が座る運転席と、その他の運転操作をしない乗員が座る助手席や後部座席とが一つの室内にあるものとして説明しているがこれに限られない。例えば、車両Ｍは、電車や機関車がけん引する列車のように、運転手が座る運転席に対して他の運転操作をしない乗員が座る座席とは隔離されているような車両であってもよい。また、図３または図４の例では、車両Ｍが、ステアリングホイールを備える車両であるものとして説明しているがこれに限られない。例えば、車両Ｍは、ステアリングホイールのような運転操作機器が設けられていない自動運転車であってもよい。

図２の説明に戻り、車両センサ１１４は、車両Ｍの向きを検出する方位センサや、車両Ｍの速度を検出する車速センサ、車両Ｍの加速度を検出する加速度センサ、車両Ｍの鉛直軸回りの角速度を検出するヨーレートセンサ、操舵トルクを検出するトルクセンサなどを含む。車両センサ１１４は、検出した方位や速度、加速度などを含むデータをエージェント側制御部１２０に出力する。

ＧＮＳＳ受信機１１６は、ＧＰＳ（Global Positioning System）衛星などのＧＮＳＳ衛星から受信した電波に基づいて、車両Ｍの位置を検出する。ＧＮＳＳ受信機１１６によって検出される位置は、例えば、緯度および経度によって表される絶対座標であってよい。ＧＮＳＳ受信機１１６は、検出した車両Ｍの位置を示すデータ（以下、位置データ）をエージェント側制御部１２０に出力する。後述する第１車両Ｍ１のＧＮＳＳ受信機１１６は、「第１センサ」の一例であり、後述する第２車両Ｍ２のＧＮＳＳ受信機１１６は、「第２センサ」の一例である。

エージェント側制御部１２０は、例えば、取得部１２２と、音声合成部１２４と、出力制御部１２６と、通信制御部１２８とを備える。

これらの構成要素は、例えば、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）等のプロセッサがプログラム（ソフトウェア）を実行することにより実現される。また、これらの構成要素のうち一部または全部は、ＬＳＩ（Large Scale Integration）やＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）等のハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めエージェント側記憶部１５０に格納されていてもよいし、ＤＶＤやＣＤ−ＲＯＭ等の着脱可能な記憶媒体に格納されており、記憶媒体がドライブ装置に装着されることでエージェント側記憶部１５０にインストールされてもよい。

エージェント側記憶部１５０は、ＨＤＤ、フラッシュメモリ、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）、ＲＯＭ（Read Only Memory）、またはＲＡＭ（Random Access Memory）等により実現される。エージェント側記憶部１５０には、例えば、プロセッサによって参照されるプログラムなどが格納される。

取得部１２２は、車室内カメラ１０４から画像データを取得したり、マイクロフォン１０６から音声データを取得したり、車両センサ１１４から方位や速度などのデータを取得したり、ＧＮＳＳ受信機１１６から位置データを取得したりする。

音声合成部１２４は、エージェント側通信部１０２がサーバ装置２００から受信したデータ（後述するエージェントデータ）に基づいて、人工的な合成音声（以下、エージェント音声と称する）を生成する。音声合成部１２４は、「人工音声を生成する第２生成部」の一例である。

出力制御部１２６は、音声合成部１２４によってエージェント音声が生成されると、そのエージェント音声をスピーカ１０８に出力させる。また、出力制御部１２６は、エージェント音声の元となったフレーズ（テキストデータ）を画像として表示部１１０に表示させてもよい。

通信制御部１２８は、エージェント側通信部１０２を介して、取得部１２２によって取得された音声データおよび位置データをサーバ装置２００に送信する。また、通信制御部１２８は、エージェント側通信部１０２を介して、取得部１２２によって取得された画像データや速度などのデータをサーバ装置２００に送信してもよい。

［サーバ装置の構成］
図５は、第１実施形態に係るサーバ装置２００の構成の一例を示す図である。第１実施形態に係るサーバ装置２００は、例えば、サーバ側通信部２０２と、サーバ側制御部２１０と、サーバ側記憶部２３０とを備える。

サーバ側通信部２０２は、ＮＩＣなどの通信インターフェースを含む。サーバ側通信部２０２は、ネットワークＮＷを介して各車両Ｍに搭載されたエージェント装置１００などと通信する。

サーバ側制御部２１０は、例えば、取得部２１２と、発話期間抽出部２１４と、音声認識部２１６と、判定部２１８と、エージェントデータ生成部２２０と、通信制御部２２２と、パターンデータ生成部２２４とを備える。エージェントデータ生成部２２０は、「人工音声の元となるエージェントデータを生成する第２生成部」の一例であり、パターンデータ生成部２２４は、「第１生成部」の一例である。

これらの構成要素は、例えば、ＣＰＵやＧＰＵ等のプロセッサがプログラム（ソフトウェア）を実行することにより実現される。また、これらの構成要素のうち一部または全部は、ＬＳＩやＡＳＩＣ、ＦＰＧＡ等のハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めサーバ側記憶部２３０に格納されていてもよいし、ＤＶＤやＣＤ−ＲＯＭ等の着脱可能な記憶媒体に格納されており、記憶媒体がドライブ装置に装着されることでサーバ側記憶部２３０にインストールされてもよい。

サーバ側記憶部２３０は、ＨＤＤ、フラッシュメモリ、ＥＥＰＲＯＭ、ＲＯＭ、またはＲＡＭ等により実現される。サーバ側記憶部２３０には、例えば、プロセッサによって参照されるプログラムのほかに、会話パターンデータＰＴＮなどが格納される。

図６は、会話パターンデータＰＴＮの一例を示す図である。図示の例のように、会話パターンデータＰＴＮは、地図座標ごとに、会話パターンがテキストとして対応付けられたデータである。会話パターンとは、例えば、ある人物Ａが、あるフレーズ（語句）の言葉を発話した場合、人物Ａが発話したフレーズに続いて、他の人物Ｂが発話したフレーズが順序付けられたパターンである。このような会話パターンは、複数人の会話に基づいて決められてよく、その人数は、２人や３人、或いはこれ以上の人数であってよい。

図中の第１フレーズは、一連の会話のきっかけとなった（会話の始まりとなった）フレーズを表しており、第２フレーズは、第１フレーズに続いて発話されたフレーズを表しており、第３フレーズは、第２フレーズに続いて発話されたフレーズを表している。このように、会話パターンデータＰＴＮでは、ある地図座標が示す地点においてなされた一連の会話がテキスト化されている。なお、会話パターンデータＰＴＮに含まれる会話のテキストデータは、必ずしもフレーズである必要はなく、ワード（単語）であってもよいし、センテンス（文章）であってもよい。会話パターンデータＰＴＮに含まれる会話のテキストデータは、「音声関連データ」の一例である。

また、会話パターンデータＰＴＮは、地図座標ごとに、会話としてなされた音声データが対応付けられたデータであってもよい。この場合、会話パターンデータＰＴＮに含まれる会話の音声データは、「音声関連データ」の他の例である。

取得部２１２は、サーバ側通信部２０２を介して、エージェント装置１００から、音声データおよび位置データを取得する。

発話期間抽出部２１４は、取得部１２２によって取得された音声データから、乗員が発話している期間（以下、発話期間と称する）を抽出する。例えば、発話期間抽出部２１４は、零交差法を利用して、音声データに含まれる音声信号の振幅に基づいて発話期間を抽出してよい。また、発話期間抽出部２１４は、混合ガウス分布モデル（ＧＭＭ；Gaussian mixture model）に基づいて、音声データから発話期間を抽出してもよいし、発話期間特有の音声信号をテンプレート化したデータベースとテンプレートマッチング処理を行うことで、音声データから発話期間を抽出してもよい。

音声認識部２１６は、発話期間抽出部２１４によって抽出された発話期間ごとに音声を認識し、認識した音声をテキスト化することで、発話の内容を表すテキストデータを生成する。

例えば、音声認識部２１６は、発話期間の音声信号を、低周波数や高周波数などの複数の周波数帯に分離し、分類した各音声信号をフーリエ変換することで、スペクトログラムを生成する。音声認識部２１６は、生成したスペクトログラムを、再帰的ニューラルネットワークに入力することで、スペクトログラムから文字列を得る。再帰的ニューラルネットワークは、例えば、学習用の音声から生成したスペクトログラムに対して、その学習用の音声に対応した既知の文字列が教師ラベルとして対応付けられた教師データを利用することで、予め学習されていてよい。そして、音声認識部２１６は、再帰的ニューラルネットワークから得た文字列のデータを、テキストデータとして出力する。

判定部２１８は、取得部１２２によって取得された位置データと、会話パターンデータＰＴＮとを参照し、その取得された位置データが示す車両Ｍの位置と同じ位置でなされた会話パターンの中に、音声認識部２１６によってテキスト化された音声（発話）の後に続くフレーズが存在するか否かを判定する。図６に例示した会話パターンデータＰＴＮの場合、音声認識部２１６によってテキスト化された音声が「フレーズＡ」であった場合、その「フレーズＡ」には「フレーズＸ」が続いているため、判定部２１８は、後に続くフレーズが存在すると判定する。

エージェントデータ生成部２２０は、判定部２１８によって、会話パターンの中に音声認識部２１６によってテキスト化された音声の後に続くフレーズが存在しないと判定された場合、すなわち、既存の会話パターンの中には乗員の発話に対して続けるべき発話が見当たらず、乗員との会話が途切れる場合、第１エージェントデータを生成する。

第１エージェントデータとは、どのように乗員と会話を続けるのかを学習するために、音声データを取得した車両（以下、第１車両Ｍ１と称する）とは異なる別の車両（以下、第２車両Ｍ２と称する）のエージェント装置１００にエージェント音声を出力させ、その第２車両Ｍ２の乗員に、会話を継続させるためのお手本となる言葉を発話させるためのデータである。第２車両Ｍ２は、第１車両Ｍ１から音声データとともに取得された位置データが示す位置に存在する車両である。例えば、ある第１時刻において、第１車両Ｍ１の乗員が発話した場合、第２車両Ｍ２は、第１時刻と同じ時刻、または第１時刻よりも後の第２時刻に、第１車両Ｍ１の乗員が発話した地点に存在する車両である。なお、第１車両Ｍ１から音声データを取得してから十分な時間（例えば１週間や１か月など）が経過した場合、その第１車両Ｍ１は、第２車両Ｍ２として扱われてよい。

例えば、エージェントデータ生成部２２０は、会話パターンデータＰＴＮが示す会話パターンの中で、後に続くフレーズが存在しないと判定された音声に基づいて、第２車両Ｍ２のエージェント装置１００に出力させるエージェント音声の元となるテキストデータを第１エージェントデータとして生成する。第１エージェントデータがテキストデータである場合、そのテキストデータには、フレーズを表す文字列が含まれていてもよいし、その文字列の各文字の一つ一つに対応した発音記号（音声字母または音標文字とも呼ばれる）が含まれていてもよい。

例えば、第１車両Ｍ１から取得された音声データが「あの〇〇〇ビルはなに」という質問を表すフレーズであった場合、エージェントデータ生成部２２０は、「あの〇〇〇ビルはなに」というフレーズが文字列として含まれるテキストデータを第１エージェントデータとして生成してよい。具体的には、エージェントデータ生成部２２０は、「あの〇〇〇ビルはなに」というフレーズを表す文字列に、第２車両Ｍ２の乗員の氏名を表す文字列を加えた「太郎さん、あの〇〇〇ビルはなに」というフレーズや、第２車両Ｍ２の乗員のうち、質問の回答者として運転者を指名する「運転手さん、あの〇〇〇ビルはなに」というフレーズのテキストデータを第１エージェントデータとして生成してよい。また、エージェントデータ生成部２２０は、第１車両Ｍ１の乗員が発話した音声データが、第２車両Ｍ２の乗員に聞かれることが好ましくない個人情報を含むフレーズである場合、そのフレーズから個人情報を取り除いたテキストデータを第１エージェントデータとして生成してよい。第１エージェントデータは、「前記第１音声関連データに基づくエージェントデータ」の一例である。

一方、判定部２１８によって、会話パターンの中に音声認識部２１６によってテキスト化された音声の後に続くフレーズが存在すると判定された場合、すなわち、既存の会話パターンの中には乗員の発話に対して続けるべき発話があり、乗員との会話が成立する場合、エージェントデータ生成部２２０は、会話パターンデータＰＴＮの中から、後に続くフレーズのテキストデータを抽出し、その抽出したテキストデータを第２エージェントデータとする。第２エージェントデータとするテキストデータには、第１エージェントデータと同様に、フレーズを表す文字列が含まれていてもよいし、その文字列の各文字の一つ一つに対応した発音記号が含まれていてもよい。第２エージェントデータは、「前記第２音声関連データに基づくエージェントデータ」の一例である。

また、エージェントデータ生成部２２０は、判定部２１８によって、会話パターンの中に音声認識部２１６によってテキスト化された音声の後に続くフレーズが存在しないと判定された場合、すなわち、既存の会話パターンの中には乗員の発話に対して続けるべき発話が見当たらず、乗員との会話が途切れる場合、予め決められた定型文に基づいて、第１車両Ｍ１に送信する第３エージェントデータを生成する。定型文は、例えば、「わかりません」や「知りません」といった乗員の発話内容が理解できないことを示すフレーズであってよい。

なお、第１エージェントデータ、第２エージェントデータ、および第３エージェントデータは、テキストデータである代わりに、音声データであってもよい。第１エージェントデータが音声データである場合、その音声データは、例えば、第１車両Ｍ１から取得された音声データ、すなわち、第１車両Ｍ１の乗員が発話した音声データそのもの、或いはこれを変調するなどして加工した音声データであってよい。また、第２エージェントデータが音声データである場合、その音声データは、例えば、後に続くフレーズを発話した乗員の音声データそのもの、或いはこれを変調するなどして加工した音声データであってよい。この場合、会話パターンデータＰＴＮは、地図座標ごとに、会話パターンが音声データとして対応付けられたデータであるものとする。また、第３エージェントデータが音声データである場合、その音声データは、例えば、定型文を読み上げた人物（乗員に限られない）の音声データそのもの、或いはこれを変調するなどして加工した音声データであってよい。

通信制御部２２２は、エージェントデータ生成部２２０によって第１エージェントデータおよび第３エージェントデータが生成されると、サーバ側通信部２０２を介して、第１エージェントデータを第２車両Ｍ２に送信し、第３エージェントデータを第１車両Ｍ１に送信する。また、通信制御部２２２は、エージェントデータ生成部２２０によって第２エージェントデータが生成されると、サーバ側通信部２０２を介して、第２エージェントデータを第１車両Ｍ１に送信する。第２エージェントデータが送信される第１車両Ｍ１は、「第３車両」の一例である。

パターンデータ生成部２２４は、判定部２１８によって、会話パターンの中に音声認識部２１６によってテキスト化された音声の後に続くフレーズが存在しないと判定された場合、取得部２１２によって取得された音声データおよび位置データのうち、第１車両Ｍ１の乗員が発話した第１時点における第１車両の位置に対して、第１時点に第１車両Ｍ１の乗員が発話した音声を示す音声データをテキスト化したフレーズ（音声関連データの一例）を対応付けた会話パターンデータＰＴＮを生成する。なお、パターンデータ生成部２２４は、第１車両Ｍ１の乗員が発話した第１時点における第１車両Ｍ１の位置データに対して、第１時点に第１車両の乗員の音声データ（音声関連データの他の例）を対応付けた会話パターンデータＰＴＮを生成してもよい。

そして、パターンデータ生成部２２４は、第１エージェントデータが送信された第２車両Ｍ２から取得部２１２が音声データおよび位置データを取得した場合、その音声データをテキスト化したフレーズと、第１エージェントデータの元となった音声データをテキスト化したフレーズとを対応付けた会話パターンを生成する。パターンデータ生成部２２４は、生成した会話パターンを、第１車両Ｍ１または第２車両Ｍ２から取得された位置データが示す位置（地図座標）に対応付けることで、新たな会話パターンデータＰＴＮを生成する。

［システムシーケンス］
以下、第１実施形態に係るエージェントシステム１の一連の処理の流れについてシーケンス図を用いて説明する。図７は、第１実施形態に係るエージェントシステム１の一連の処理の流れを示すシーケンス図である。

まず、第１車両Ｍ１のエージェント装置１００は、マイクロフォン１０６によって乗員が発話した音声が収音された場合、マイクロフォン１０６から乗員の音声データを取得するとともに、ＧＮＳＳ受信機１１６から第１車両Ｍ１の位置データを取得する（ステップＳ１００）。次に、第１車両Ｍ１のエージェント装置１００は、取得した音声データおよび位置データを、サーバ装置２００に送信する（ステップＳ１０２）。

サーバ装置２００は、第１車両Ｍ１のエージェント装置１００から音声データおよび位置データを受信すると、その音声データが示す地点において行われた会話パターンの中に、受信した音声データが示すフレーズの後に続くフレーズが存在するか否かを判定する（ステップＳ１０４）。第１車両Ｍ１のエージェント装置１００から受信される音声データは、「第１音声関連データ」の一例であり、第１車両Ｍ１のエージェント装置１００から受信される位置データは、「第１位置データ」の一例である。

例えば、サーバ装置２００は、会話パターンの中に後に続くフレーズが存在しないと判定すると、「わかりません」といったような定型文のテキストデータを第３エージェントデータとして第１車両Ｍ１に送信する（ステップＳ１０６）。

第１車両Ｍ１のエージェント装置１００は、サーバ装置２００から第３エージェントデータを受信すると、その第３エージェントデータに基づいてエージェント音声を生成し、スピーカ１０８からエージェント音声を出力する（ステップＳ１０８）。

また、サーバ装置２００は、会話パターンの中に後に続くフレーズが存在しないと判定すると、第１車両Ｍ１のエージェント装置１００から受信した音声データが示すフレーズを表す文字列が少なくとも含まれるテキストデータを第１エージェントデータとして第２車両Ｍ２に送信する（ステップＳ１１０）。

第２車両Ｍ２のエージェント装置１００は、サーバ装置２００から第１エージェントデータを受信すると、その第１エージェントデータに基づいてエージェント音声を生成し、スピーカ１０８からエージェント音声を出力する（ステップＳ１１２）。

例えば、第２車両Ｍ２のエージェント装置１００は、マイクロフォン１０６によって乗員が発話した音声が収音された場合、マイクロフォン１０６から乗員の音声データを取得するとともに、ＧＮＳＳ受信機１１６から第２車両Ｍ２の位置データを取得する（ステップＳ１１４）。次に、第２車両Ｍ２のエージェント装置１００は、取得した音声データおよび位置データを、サーバ装置２００に送信する（ステップＳ１１６）。

サーバ装置２００は、第２車両Ｍ２のエージェント装置１００から音声データおよび位置データを受信すると、第１エージェントデータの元にした第１車両Ｍ１の乗員の音声をテキスト化したフレーズと、受信した第２車両Ｍ２の乗員の音声をテキスト化したフレーズとを対応付けた会話パターンを生成する（ステップＳ１１８）。第２車両Ｍ２のエージェント装置１００から受信される音声データは、「第２音声関連データ」の一例であり、第２車両Ｍ２のエージェント装置１００から受信される位置データは、「第２位置データ」の一例である。

［エージェント装置の処理フロー］
以下、第１実施形態に係るエージェント装置１００の一連の処理の流れについてフローチャートを用いて説明する。図８は、第１実施形態に係るエージェント装置１００の一連の処理の流れを示すフローチャートである。本フローチャートの処理は、所定の周期で繰り返し行われてよい。

まず、取得部１２２は、エージェント側通信部１０２によってサーバ装置２００から第１エージェントデータまたは第２エージェントデータが受信されたか否かを判定し（ステップＳ２００）、エージェント側通信部１０２によって第１エージェントデータまたは第２エージェントデータが受信されたと判定した場合、エージェント側通信部１０２から第１エージェントデータまたは第２エージェントデータを取得する。

音声合成部１２４は、エージェント側通信部１０２によって第１エージェントデータまたは第２エージェントデータが受信された場合、そのエージェントデータに基づいて、エージェント音声を生成する（ステップＳ２０２）。

例えば、音声合成部１２４は、エージェントデータがテキストデータである場合、波形接続型音声合成（Concatenative synthesis）と、フォルマント合成（Formant synthesis）とを行って、テキストデータに含まれる発音記号を読み上げるエージェント音声を生成する。また、音声合成部１２４は、テキストデータに発音記号が含まれず、フレーズを表す文字列が含まれる場合、その文字列を発音記号に変換し、変換した発音記号を読み上げるエージェント音声を生成してよい。また、音声合成部１２４は、エージェントデータが音声データである場合、その音声データを変調した音声をエージェント音声としてもよい。

次に、出力制御部１２６は、音声合成部１２４によって生成されたエージェント音声をスピーカ１０８に出力させる（ステップＳ２０４）。この際、出力制御部１２６は、エージェント音声の元となったフレーズ（テキストデータ）を画像として表示部１１０に表示させてもよい。

一方、取得部１２２は、Ｓ２００の処理で、エージェント側通信部１０２によって第１エージェントデータまたは第２エージェントデータが受信されなかったと判定した場合、マイクロフォン１０６によって乗員が発話した音声が収音されたか否か、すなわち、乗員が発話したか否かを判定する（ステップＳ２０６）。

通信制御部１２８は、乗員が発話したと判定された場合、エージェント側通信部１０２を介して、音声データおよび位置データをサーバ装置２００に送信する（ステップＳ２０８）。これによって本フローチャートの処理が終了する。

［サーバ装置の処理フロー］
以下、第１実施形態に係るサーバ装置２００の一連の処理の流れについてフローチャートを用いて説明する。図９は、第１実施形態に係るサーバ装置２００の一連の処理の流れを示すフローチャートである。本フローチャートの処理は、所定の周期で繰り返し行われてよい。

まず、発話期間抽出部２１４は、サーバ側通信部２０２によって第１車両Ｍ１から音声データおよび位置データが受信されるまで待機し（ステップＳ３００）、サーバ側通信部２０２によって音声データおよび位置データが受信されると、音声データから発話期間を抽出する（ステップＳ３０２）。

次に、音声認識部２１６は、発話期間抽出部２１４によって抽出された発話期間の音声を認識し、認識した音声をテキスト化する（ステップＳ３０４）。

次に、判定部２１８は、サーバ側通信部２０２によって受信された位置データと、会話パターンデータＰＴＮとを参照し、その位置データが示す車両Ｍの位置と同じ位置でなされた会話パターンの中に、音声認識部２１６によって音声（発話）がテキスト化されたフレーズと同じ第ｋフレーズが存在し、その第ｋフレーズの後に続く第ｋ＋１フレーズが存在するか否かを判定する（ステップＳ３０６）。

例えば、判定部２１８が、音声認識部２１６によって音声（発話）がテキスト化されたフレーズと同じ第ｋフレーズが存在し、その第ｋフレーズの後に続く第ｋ＋１フレーズが存在すると判定した場合、すなわち、既存の会話パターンの中には乗員の発話に対して続けるべき発話があり、乗員との会話が成立する場合、エージェントデータ生成部２２０は、会話パターンの中から第ｋ＋１フレーズを抽出し、抽出した第ｋ＋１フレーズの発話記号などを含むテキストデータを第２エージェントデータとして生成する（ステップＳ３０８）。

次に、通信制御部２２２は、サーバ側通信部２０２を介して、第１車両Ｍ１に第２エージェントデータを送信する（ステップＳ３１０）。これによって、ある地点で第１車両Ｍ１の乗員が発話した場合、第１車両Ｍ１のエージェント装置１００は、乗員が発話した地点で頻繁になされる不特定多数の会話を基に、第１車両Ｍ１の乗員に対して回答するようなエージェント音声を出力することができる。

一方、判定部２１８が、音声認識部２１６によって音声（発話）がテキスト化されたフレーズと同じ第ｋフレーズが存在しない、または第ｋフレーズの後に続く第ｋ＋１フレーズが存在しないと判定した場合、既存の会話パターンの中には乗員の発話に対して続けるべき発話が見当たらず、乗員との会話が途切れる場合、パターンデータ生成部２２４は、Ｓ３００の処理で取得された位置データが示す第１車両の位置に対して、Ｓ３０４の処理でテキスト化した音声データを対応付けた会話パターンを新たに生成する（ステップＳ３１２）。

次に、エージェントデータ生成部２２０は、サーバ側通信部２０２によって受信された音声データに基づいて第１エージェントデータを生成するとともに、予め決められた定型文に基づいて第３エージェントデータを生成する（ステップＳ３１４）。

次に、通信制御部２２２は、サーバ側通信部２０２を介して、第１車両Ｍ１に第３エージェントデータを送信するとともに（ステップＳ３１６）、第２車両Ｍ２に第１エージェントデータを送信する（ステップＳ３１８）。なお、第１エージェントデータは、第３エージェントデータと同時に送信される必要はなく、第１車両Ｍ１の乗員が発話した地点に、第２車両Ｍ２が到達した時点に送信されてよい。

次に、発話期間抽出部２１４は、第１エージェントデータが第２車両Ｍ２に送信されてから所定時間が経過するまでの期間に、サーバ側通信部２０２が第２車両Ｍ２から音声データおよび位置データを受信したか否かを判定する（ステップＳ３２０）。第１エージェントデータが第２車両Ｍ２に送信されてから所定時間が経過するまでの期間にサーバ側通信部２０２が第２車両Ｍ２から音声データおよび位置データを受信しない場合、本フローチャートの処理は終了してよい。

第１エージェントデータが第２車両Ｍ２に送信されてから所定時間が経過するまでの期間にサーバ側通信部２０２が第２車両Ｍ２から音声データおよび位置データを受信した場合、発話期間抽出部２１４は、音声データから発話期間を抽出する（ステップＳ３２２）。

次に、音声認識部２１６は、発話期間抽出部２１４によって抽出された発話期間の音声を認識し、認識した音声をテキスト化する（ステップＳ３２４）。

次に、パターンデータ生成部２２４は、Ｓ３１２の処理で生成した会話パターンに対して、新たに第２車両Ｍ２から受信された音声データをテキスト化したフレーズを対応付けることで、会話パターンを更新する。すなわち、パターンデータ生成部２２４は、Ｓ３００の処理で取得された位置データが示す第１車両Ｍ１の位置に対して、Ｓ３０４の処理で得られた音声のフレーズ（第１エージェントデータの元となった音声データをテキスト化したフレーズ）の後に、第２車両Ｍ２から受信された音声データをテキスト化したフレーズを対応付けることで、会話パターンを更新する。言い換えれば、パターンデータ生成部２２４は、第２車両Ｍ２の乗員が発話した音声をテキスト化したフレーズと、第１車両Ｍ１の乗員が発話した音声をテキスト化したフレーズとを対応付けた会話パターンを生成する。この際、パターンデータ生成部２２４は、第２車両Ｍ２の乗員が発話した音声をテキスト化したフレーズが複数ある場合、第１エージェントデータを送信した第２車両Ｍ２の乗員の発話頻度などに応じて、第１車両Ｍ１の乗員が発話した音声をテキスト化したフレーズに対応付けるフレーズを決定してよい。そして、パターンデータ生成部２２４は、生成した会話パターンを、第１車両Ｍ１または第２車両Ｍ２から取得された位置データが示す位置（地図座標）に対応付けることで、会話パターンデータＰＴＮを更新する（ステップＳ３２６）。これによって本フローチャートの処理が終了する。

図１０は、会話パターンの生成処理について説明するための図である。図示の例は、第１車両Ｍ１の乗員が「あのビルはなに」というフレーズを発話したときの第２車両Ｍ２の乗員の発話フレーズの頻度を表している。例えば、第２車両Ｍ２のエージェント装置１００に、第１車両Ｍ１の乗員による「あのビルはなに」というフレーズのエージェント音声を再生させた場合、第２車両Ｍ２の乗員からは、「〇〇〇ビルだよ」というフレーズが最も発話され、次に、「□□□ビルだよ」というフレーズが発話されていることを表している。このように、複数の会話パターンの候補が存在する場合、パターンデータ生成部２２４は、最も頻度が大きい（最も発話回数の多い）フレーズの会話パターンを会話パターンデータＰＴＮに残してよい。図示の例では、「あのビルはなに」というフレーズを第ｋフレーズとした場合、「〇〇〇ビルだよ」というフレーズが第ｋ＋１フレーズとして対応付けられる。これによって、第１車両Ｍ１のエージェント装置１００に、第２エージェントデータに基づくエージェント音声を出力させた場合に、第１車両Ｍ１の乗員との会話が成立しやすくなる。

以下、具体的な場面を例示しながら、上述したエージェントシステム１の処理について説明する。図１１は、ある場面の一例を示す図である。図１１に例示する場面では、「２０２０年１０月２０日」という時点において、第１車両Ｍ１の前方にＴ字路の交差点が存在し、その交差点の後方に複数のビルが建造されていることを表している。

図１２は、図１１に例示する場面で、第１車両Ｍ１の乗員が発話し得るフレーズを表した図である。例えば、第１車両Ｍ１の乗員から見て、第１車両Ｍ１の前方に複数のビルが存在する場合、第１車両Ｍ１の乗員は、エージェント装置１００に対して「エージェント、あの新しいビルはなに？」と質問を投げかけてくる場合がある。この場合、第１車両Ｍ１のエージェント装置１００は、その質問の音声データと、Ｔ字路の交差点付近に第１車両Ｍ１が存在することを示す位置データとをサーバ装置２００に送信する。

図１３は、図１１に例示する場面で乗員が発話する音声に対して第１車両Ｍ１のエージェント装置１００が出力し得るエージェント音声を表した図である。例えば、図１２に例示するように、第１車両Ｍ１の乗員が「エージェント、あの新しいビルはなに？」と質問した場合に、サーバ装置２００は、会話パターンデータＰＴＮを参照し、Ｔ字路の交差点付近でなされた一以上の会話パターンの中に、「あの新しいビルはなに？」というフレーズに対して後に続くフレーズが存在する会話パターンが存在するか否かを判定する。サーバ装置２００は、Ｔ字路の交差点付近でなされたいずれの会話パターンの中にも、「あの新しいビルはなに？」というフレーズに対して後に続くフレーズが存在しない場合、第１車両Ｍ１のエージェント装置１００に、「わかりません」といった定型文の第３エージェントデータを送信する。これを受けた第１車両Ｍ１のエージェント装置１００は、スピーカ１０８Ａなどを介して、車室内に「わかりません」といったエージェント音声を出力する。

図１４は、図１１に例示した場面の他の例を示す図である。図１４に例示する場面は、「２０２０年１０月２０日」よりも後の「２０２０年１１月１１日」の時点において、図１１に例示した場面のＴ字路の交差点に第２車両Ｍ２が存在することを表している。

図１５は、図１４に例示する場面で、第２車両Ｍ２のエージェント装置１００が出力し得るエージェント音声を表した図である。図１４に例示する場面では、エージェント装置１００が、第１車両Ｍ１の乗員に対して適切な回答をできず、会話が途切れてしまったＴ字路の交差点に第２車両Ｍ２が存在している。このような場面では、サーバ装置２００は、第２車両Ｍ２のエージェント装置１００に、「あの新しいビルはなに？」というフレーズを含む第１エージェントデータを送信する。これを受けて、第２車両Ｍ２のエージェント装置１００は、スピーカ１０８Ａなどを介して、車室内に「ねぇドライバーさん、あの新しいビルはなに？」といったエージェント音声を出力する。

図１６は、図１４に例示する場面で出力されたエージェント音声に対して第２車両Ｍ２の乗員が発話し得るフレーズを表した図である。例えば、図１５に例示するように、「ねぇドライバーさん、あの新しいビルはなに？」というエージェント音声が出力された場合、第２車両の乗員は、「あれは〇〇〇ビルだよ」と答える場合がある。この場合、第２車両Ｍ２のエージェント装置１００は、「あれは〇〇〇ビルだよ」という音声データとともに、第２車両Ｍ２の位置データをサーバ装置２００に送信する。

これを受けて、サーバ装置２００は、「あの新しいビルはなに？」というフレーズの後に、「あれは〇〇〇ビルだよ」というフレーズを対応付けた新たな会話パターンを生成し、この会話パターンをＴ字路の交差点を表す地図座標に対応付けることで、会話パターンデータＰＴＮを更新する。これによって、次回以降、乗員が「あの新しいビルはなに？」とエージェント装置１００に質問した場合であっても、その質問に対して正解となる蓋然性の高い「あれは〇〇〇ビルだよ」という応答をすることができる。

なお、エージェント装置１００は、サーバ装置２００に音声データを送信する際に、ＧＮＳＳ受信機１１６によって検出された車両Ｍの位置に加えて、更に、車両センサ１１４によって検出された車両Ｍの方位などを含む位置データを送信してよい。この場合、第２車両Ｍ２には、第１車両Ｍ１の乗員に対して適切な回答をできなかったときの第１車両Ｍ１の位置および方位を同じ他車両が選択される。

図１７は、ある場面の一例を示す図である。図示の場面では、五叉路の交差点を表している。例えば、ある第１時点において、第１車両Ｍ１が五叉路に含まれるある第１車線Ｌ１を走行しているときに、その第１車両Ｍ１の乗員が「あの新しいビルはなに？」とエージェント装置１００に質問し、エージェント装置１００がこれに回答できなかったとする。この場合、第１車両Ｍ１のエージェント装置１００は、音声データとともに、ＧＮＳＳ受信機１１６によって検出された車両Ｍの位置と、車両センサ１１４によって検出された車両Ｍの方位θ１とを少なくとも含む位置データをサーバ装置２００に送信する。

サーバ装置２００は、音声データと、位置および方位を含む位置データとを受信すると、位置（地図座標）および方位ごとに、テキスト化された会話パターンを対応付けた会話パターンデータＰＴＮを生成する。そして、サーバ装置２００は、第１時点、または第１時点よりも後の第２時点において、第１車両Ｍ１と同じ位置および同じ方位である車両Ｍを、第１エージェントデータの送信対象とする第２車両Ｍ２として選択する。図示の例では、ある第２車線Ｌ２を走行している車両ＭＸが第２車両Ｍ２の候補となる。しかしながら、第１車両Ｍ１の方位θ１は、およそ北東４５度（真北を方位０度基準）であるのに対して、車両ＭＸの方位θＸは、およそ北西３１５度であることから、サーバ装置２００は、車両ＭＸを第２車両Ｍ２として選択しない。

一般的に、ＧＮＳＳの検出値には数メートル程度の測位誤差が含まれる場合があり、第１エージェントデータの送信対象とする第２車両Ｍ２を、ＧＮＳＳの測位結果だけを頼りに探索した場合、図中の第１車両Ｍ１と車両ＭＸは同位置であると判定され得る。これに対して、各車両Ｍの方位θを利用して第２車両Ｍ２を探索する場合、第１車両Ｍ１の乗員が発話するに至った状況により近い状況に置かれた車両を第２車両Ｍ２として選択することができる。

例えば、第１車線Ｌ１を走行する車両Ｍ１の進行方向前方には、建物Ｂ２が存在しており、仮に、その車両Ｍ１の乗員が「あのビルはなに？」とエージェント装置１００に質問した場合、「あのビル」は、建物Ｂ２を指している蓋然性が高くなる。一方、第２車線Ｌ２を走行する車両ＭＸの進行方向前方には、建物Ｂ１が存在しており、仮に、その車両ＭＸのエージェント装置１００が「あのビルはなに？」というエージェント音声を出力した場合、第２車線Ｌ２を走行する車両ＭＸの乗員は、「あのビル」の「あの」という指示語が「建物Ｂ１」を指しているものだと解釈し得る。この結果、建物Ｂ２に関する質問に対して、建物Ｂ１に関する回答がなされる場合がある。

従って、乗員が発話するフレーズに、「これ」、「あれ」、「あの」、「その」といった指示語（英語であれば「this」や「that」など）が含まれている場合、各車両Ｍの位置および方位に基づいて、乗員（話し手）がそれらの指示語を無意識に使用するに至った地点と状況をより正確に再現している車両を、第１エージェントデータの送信対象とする第２車両Ｍ２に決定する。この結果、指示語の意味を正確に解釈せずとも、より乗員と自然な会話をすることができる会話パターンを生成することができる。

また、第１車両Ｍ１のエージェント装置１００は、音声データおよび位置データに加えて、更に、車両センサ１１４によって検出された車両Ｍの速度や、加速度、ヨーレート、操舵トルクといったような、乗員がどのように車両Ｍを運転しているのかを表すデータ（以下、運転操作データと称する）をサーバ装置２００に送信してよい。この場合、サーバ装置２００は、車両Ｍの位置および運転操作ごとに、テキスト化された会話パターンを対応付けた会話パターンデータＰＴＮを生成する。サーバ装置２００の通信制御部２２２は、第１エージェントデータの送信対象とする第２車両Ｍ２候補が複数台存在する場合、第１車両Ｍ１の運転操作データと類似した運転操作データを送信している候補車両を、第２車両Ｍ２に決定する。この結果、サーバ装置２００は、傾斜が大きい地点や大きな加減速を伴う地点などでなされやすい会話パターンを生成することができる。

以上説明した第１実施形態によれば、第１車両Ｍ１の乗員の音声を示す音声データと、第１車両Ｍ１の位置および方位のうち少なくとも第１車両Ｍ１の位置を含む位置データとを、サーバ側通信部２０２を介して、第１車両Ｍ１から取得する取得部２１２と、取得部２１２によって取得された音声データおよび位置データのうち、第１車両Ｍ１の乗員が発話した第１時点における第１車両の位置を示す位置データに対して、第１時点に第１車両の乗員が発話した音声を示す音声データをテキスト化したフレーズ（音声関連データの一例）を対応付けた会話パターンデータＰＴＮを生成するパターンデータ生成部２２４と、を備えることによって、例えば、会話パターンデータＰＴＮに存在する、ある第ｋフレーズを発話した乗員に、その第ｋフレーズに続く第ｋ＋１フレーズのエージェント音声を出力することができるため、人間と自然な会話を行うことができる。

上述したように、車両Ｍに乗車した乗員と音声対話を行う場合、乗員が、風景やランドマークなどについてエージェント装置１００（ヒューマンマシンインターフェース）に質問することがある。このような質問には、「これ」、「あれ」、「あの」、「その」といった指示語が含まれることが多く、言葉の抽象度が高い傾向にある。そのため、従来の技術では、乗員が発話した言葉の意味を正確に認識できず、乗員の質問に対して適切に回答できない場合がある。また、車両Ｍの進行方向前方をカメラで撮像し、そのカメラの画像を画像解析することで乗員が指し示しているものを視覚的に認識することも考えられるが、上述したように、乗員が使った指示語が、乗員から見てどの方向のなにを指し示しているのかがわからない限り、認識対象を特定することが困難である。

これに対して、第１実施形態では、ある第１車両Ｍ１の乗員が発話した音声に基づくエージェント音声を第２車両Ｍ２の乗員に聞かせ、その乗員が発話した音声を、第１車両Ｍ１の乗員の音声に対して会話が成立する会話パターンとすることで、乗員が発話した音声の意味を解釈せずとも、人間と自然な会話を行うことができる。特に、第１車両Ｍ１の乗員がなにげなく発話した「あそこにデパートなんてできたんだ…」というような独り言のような音声に対して、第２車両Ｍ２の乗員が「そうみたいだね」のような相槌（間投詞）を伴うような発話をすれば、この相槌を独り言に対応付けることで、質問と、その回答というような特定の会話のパターンに限られず、人間同士が自然に行うあらゆる会話パターンを学習することができる。

＜第１実施形態の変形例＞
以下、第１実施形態の変形例について説明する。上述した第１実施形態では、各車両Ｍに搭載されたエージェント装置１００と、サーバ装置２００とが互いに異なる装置であるものとして説明したがこれに限られない。例えば、サーバ装置２００は、エージェント装置１００のエージェント側制御部１２０の構成要素であってよい。すなわち、サーバ装置２００は、エージェント装置１００のエージェント側制御部１２０によって仮想的に実現される仮想マシンであってもよい。この場合、エージェント装置１００は、「情報処理装置」の他の例である。

図１８は、第１実施形態に係るエージェント装置１００の他の例を示す図である。図１８に示すように、エージェント装置１００のエージェント側制御部１２０は、上述した取得部１２２、音声合成部１２４、出力制御部１２６、および通信制御部１２８に加えて、更に、発話期間抽出部２１４と、音声認識部２１６と、判定部２１８と、エージェントデータ生成部２２０と、パターンデータ生成部２２４を備えてよい。

また、エージェント装置１００のエージェント側記憶部１５０には、会話パターンデータＰＴＮが格納されてよい。

このような構成によって、エージェント装置１００単体で、乗員が発話したフレーズに対して、他の乗員が発話しやすいフレーズのエージェント音声を出力することができるため、人間と自然な会話を行うことができる。

＜第２実施形態＞
以下、第２実施形態について説明する。第２実施形態では、車両Ｍに複数の乗員が乗車している場合、顔画像や音声といった乗員の生体情報に基づいて、各乗員を識別する点で上述した第１実施形態と相違する。以下、第１実施形態との相違点を中心に説明し、第１実施形態と共通する点については説明を省略する。なお、第２実施形態の説明において、第１実施形態と同じ部分については同一符号を付して説明する。

図１９は、第２実施形態に係るサーバ装置２００の構成の一例を示す図である。第２実施形態に係るサーバ装置２００のサーバ側制御部２１０は、例えば、上述した取得部２１２、発話期間抽出部２１４、音声認識部２１６、判定部２１８、エージェントデータ生成部２２０、通信制御部２２２、およびパターンデータ生成部２２４に加えて、更に乗員識別部２２６を備える。

第２実施形態における取得部２１２は、サーバ側通信部２０２を介して、第１車両Ｍ１から、音声データ、位置データ、および車室内カメラ１０４により生成された画像データを取得する。また、取得部２１２は、サーバ側通信部２０２を介して、第２車両Ｍ２から、音声データ、位置データ、および車室内カメラ１０４により生成された画像データを取得してもよい。

乗員識別部２２６は、取得部２１２によって取得された音声データまたは画像データの少なくとも一方（好ましくは双方）に基づいて、第１車両Ｍ１または第２車両Ｍ２に乗車した各乗員を識別する。例えば、乗員識別部２２６は、音声データを解析して、声の高さ、イントネーション、リズム（音の高低のパターン）、メル周波数ケプストラム係数等の特徴量を抽出し、各乗員を識別してよい。また、乗員識別部２２６は、音声データを解析して、目や口、鼻といった顔の部位の特徴点を抽出し、各乗員を識別してよい。

第２実施形態におけるエージェントデータ生成部２２０は、乗員識別部２２６によって各乗員が識別されると、その識別された複数の乗員のうち、発話した第１乗員の音声データに基づいて、第１乗員とは異なる第２乗員に対して発話するエージェント音声の元となる第１エージェントデータを生成する。

図２０は、第１車両Ｍ１に複数の乗員が乗車している場面の一例を示す図である。例えば、第１車両Ｍ１に乗車した複数の乗員のうち、乗員Ａがエージェント装置１００に対して「エージェント、あの新しいビルはなに？」と質問したとする。この場合、第１車両Ｍ１のエージェント装置１００は、その質問の音声データと、第１車両Ｍ１の位置データとをサーバ装置２００に送信する。

図２１は、複数の乗員が乗車した第１車両Ｍ１のエージェント装置１００が出力し得るエージェント音声を表した図である。例えば、図２０に例示するように、第１車両Ｍ１の乗員Ａが「エージェント、あの新しいビルはなに？」と質問した場合に、サーバ装置２００の判定部２１８は、会話パターンデータＰＴＮを参照し、「あの新しいビルはなに？」というフレーズに対して後に続くフレーズが存在する会話パターンが存在するか否かを判定する。サーバ装置２００の乗員識別部２２６は、会話パターンの中に「あの新しいビルはなに？」というフレーズに対して後に続くフレーズが存在しない場合、各乗員の顔画像や音声に基づいて第１車両Ｍ１に乗車した各乗員を識別する。

サーバ装置２００のエージェントデータ生成部２２０は、乗員識別部２２６によって識別された複数の乗員のうち、質問した乗員Ａと異なる乗員Ｂまたは乗員Ｃに対して、乗員Ａの質問をテキスト化した第１エージェントデータを生成する。例えば、エージェントデータ生成部２２０は、乗員Ａの質問を表すフレーズに加えて、乗員Ｂや乗員Ｃの氏名などを含む第１エージェントデータを生成する。そして、サーバ装置２００の通信制御部２２２は、第１エージェントデータを第１車両Ｍ１のエージェント装置１００に送信する。これを受けて第１車両Ｍ１のエージェント装置１００は、「ねぇＢさん、あの新しいビルはなに？」というエージェント音声を、乗員Ｂが着座する助手席に最も近いスピーカ１０８Ｃから出力する。

図２２は、図２１に例示する場面で出力されたエージェント音声に対して第１車両Ｍ１の乗員が発話し得るフレーズを表した図である。例えば、図２１に例示するように、「ねぇＢさん、あの新しいビルはなに？」というエージェント音声が出力された場合、第１車両の乗員Ｂは、「あれは〇〇〇ビルだよ」と答える場合がある。この場合、第１車両Ｍ１のエージェント装置１００は、「あれは〇〇〇ビルだよ」という乗員Ｂの音声データとともに、第１車両Ｍ１の位置データをサーバ装置２００に送信する。

これを受けて、サーバ装置２００は、第１車両Ｍ１の乗員Ａが発話した「あの新しいビルはなに？」というフレーズの後に、同じ車両に乗車する乗員Ｂが発話した「あれは〇〇〇ビルだよ」というフレーズを対応付けた新たな会話パターンを生成する。このように、同じ車両Ｍに複数名の乗員が乗車している場合、何かを発言した第１乗員（図示の例では乗員Ａ）とは異なる第２乗員（図示の例では乗員ＢまたはＣ）に、第１乗員が発話したことをオウム返しで問いかけることで、他車両と通信せずとも、会話パターンを生成することができる。

また、サーバ装置２００は、第１エージェントデータを第１車両Ｍ１とは異なる第２車両Ｍ２に送信し、第２車両Ｍ２のエージェント装置１００にエージェント音声を出力させた後に、第２車両Ｍ２の第１乗員が何も回答しなかったり、「わからない」のような予め決められた定型文を回答したりした場合、第２車両Ｍ２のさらに別の第２乗員に向けたエージェント音声を出力させてもよい。

図２３は、第２車両Ｍ２のエージェント装置１００が出力し得るエージェント音声を表した図である。例えば、第２車両Ｍ２のエージェント装置１００は、スピーカ１０８Ａなどを介して、第１車両Ｍ１の乗員が質問した「あの新しいビルはなに？」というフレーズを含むエージェント音声を出力する。

図２４は、エージェント音声が出力された後に第２車両Ｍ２の乗員が発話し得るフレーズを表した図である。例えば、図２３に例示するように、「ねぇドライバーさん、あの新しいビルはなに？」というエージェント音声が出力された場合、第２車両Ｍ２に乗車する複数の乗員のうち、運転手である乗員Ｄが、「わからない」と答える場合がある。この場合、第２車両Ｍ２のエージェント装置１００は、「わからない」という音声データとともに、第２車両Ｍ２の位置データをサーバ装置２００に送信する。

これを受けてサーバ装置２００は、第１エージェントデータを送信した第２車両Ｍ２から受信した音声データが「わからない」という定型文であるため、第２車両Ｍ２に乗車する別の乗員の氏名などを含む第１エージェントデータを、再度第２車両Ｍ２に送信する。

図２５は、第１エージェントデータが再送された第２車両Ｍ２のエージェント装置１００が出力し得るエージェント音声を表した図である。例えば、第２車両Ｍ２のエージェント装置１００は、再送された第１エージェントデータが助手席の乗員Ｅに向けたものである場合、助手席に最も近いスピーカ１０８Ｃを介して、第１車両Ｍ１の乗員が質問した「あの新しいビルはなに？」というフレーズに対して乗員Ｅの氏名が含まれる「ねぇＥさん、あの新しいビルはなに？」というフレーズのエージェント音声を出力する。

図２６は、再度エージェント音声が出力された後に第２車両Ｍ２の乗員が発話し得るフレーズを表した図である。例えば、図２５に例示するように、「ねぇＥさん、あの新しいビルはなに？」というエージェント音声が出力された場合、第２車両Ｍ２の乗員Ｅは、「あれは〇〇〇ビルだよ」と答える場合がある。この場合、第２車両Ｍ２のエージェント装置１００は、「あれは〇〇〇ビルだよ」という乗員Ｅの音声データとともに、第２車両Ｍ２の位置データをサーバ装置２００に送信する。

これを受けて、サーバ装置２００は、第１車両Ｍ１の乗員が発話した「あの新しいビルはなに？」というフレーズの後に、第２車両Ｍ２に乗車する乗員Ｅが発話した「あれは〇〇〇ビルだよ」というフレーズを対応付けた新たな会話パターンを生成する。このように、第１エージェントデータを第２車両Ｍ２に送信したときに、その第２車両Ｍ２の第１乗員が第１車両Ｍ１の乗員の質問に答えられなかった場合であっても、同じ第２車両Ｍ２の第２乗員が回答するこができた場合、それらの受け答えを会話パターンとして生成することができる。

以上説明した第２実施形態によれば、何かを発言した第１乗員の音声に基づくエージェント音声を第２乗員に向けて出力することで、より精度よく会話パターンを生成することができる。この結果、更に人間と自然な会話を行うことができる。

＜第３実施形態＞
以下、第３実施形態について説明する。第３実施形態では、テキスト化された音声の意味を認識する点で上述した第１または第２実施形態と相違する。以下、第１または第２実施形態との相違点を中心に説明し、第１または第２実施形態と共通する点については説明を省略する。なお、第３実施形態の説明において、第１または第２実施形態と同じ部分については同一符号を付して説明する。

図２７は、第３実施形態に係るサーバ装置２００の構成の一例を示す図である。第３実施形態に係るサーバ装置２００のサーバ側制御部２１０は、例えば、上述した取得部２１２、発話期間抽出部２１４、音声認識部２１６、判定部２１８、エージェントデータ生成部２２０、通信制御部２２２、およびパターンデータ生成部２２４に加えて、更に言語処理部２２８を備える。

言語処理部２２８は、音声認識部２１６が音声データをテキスト化したテキストデータに対して、形態素解析、構文解析、意味解析、文脈解析などの自然言語処理を行って、音声の意味を解釈する。形態素解析は、例えば、文字情報を、意味を持つ最小の表現要素の単位に分割し、分割した単位（形態素）ごとの品詞等を解析する。構文解析は、例えば、形態素解析により得られた形態素をもとに、文の構造を解析する。意味解析は、例えば、構文解析により得られた構文をもとに、意味を持つまとまりを判別する。文脈解析は、例えば、文単位や文脈単位で意味を認識する。

第３実施形態におけるパターンデータ生成部２２４は、例えば、言語処理部２２８による意味解釈の結果に基づいて、会話パターンとして残すべきパターンとそうでないパターンとを分類し、残すべきパターンのみを会話パターンデータＰＴＮとしてサーバ側記憶部２３０に格納する。

例えば、パターンデータ生成部２２４は、第１車両Ｍ１の乗員の音声データをテキスト化したフレーズが、言語処理部２２８によってランドマークなどに関する質問であると解釈された場合に、第１エージェントデータが送信された第２車両Ｍ２の乗員の音声データをテキスト化したフレーズが、言語処理部２２８によってランドマークとは関係のないゴシップに関する話題であると解釈された場合、それらを対応付けた会話パターンを残すべきでないパターンに分類する。

以上説明した第３実施形態によれば、乗員の発話内容の意味を解釈したうえで、会話パターンを生成することで、更に人間と自然な会話を行うことができる。

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

例えば、上述した実施形態では、一例として、移動体が車両であるものとして説明したがこれに限られない。例えば、移動体は、船舶や飛行物体などの他の移動体であってもよい。この場合、例えば、複数の遊覧船や複数の遊覧飛行機等のキャビン等にエージェント装置１００が配設されていればよい。さらに、これらの移動体には、移動体を運転操作する操舵手がいれば、エージェント装置１００が、運転操作をしない他の乗員（乗客）と音声対話を行うことで接客することができるため、キャビンアテンダントは乗客への他のサービスに注力することができる。また、エージェント装置１００は、タクシーやバス等に配設されてもよい。この場合、エージェント装置１００が乗客と音声対話を行うことで接客することができるため、それらの車両の運転手は運転操作に注力することができる。なお、ある車両に搭載されたエージェント装置１００が乗員の質問に答えられない場合、いずれかの車両の乗員が、その質問に答えることができれば、全ての車両のエージェント装置１００が、自然な会話としてシステム的に対応することができる。

１…エージェントシステム、１００…エージェント装置、１０２…エージェント側通信部、１０４…車室内カメラ、１０６…マイクロフォン、１０８…スピーカ、１１０…表示部、１１２…入力部、１１４…車両センサ、１１６…ＧＮＳＳ受信機、１２０…エージェント側制御部、１２２…取得部、１２４…音声合成部、１２６…出力制御部、１２８…通信制御部、１５０…エージェント側記憶部、２００…サーバ装置、２０２…サーバ側通信部、２１０…サーバ側制御部、２１２…取得部、２１４…発話期間抽出部、２１６…音声認識部、２１８…判定部、２２０…エージェントデータ生成部、２２２…通信制御部、２２４…パターンデータ生成部、２２６…乗員識別部、２２８…言語処理部、２３０…サーバ側記憶部

Claims

第１車両の乗員の音声に基づく第１音声関連データと、少なくとも前記第１車両の位置を示す第１位置データとを、前記第１車両から取得する取得部と、
前記取得部によって取得された前記第１音声関連データおよび前記第１位置データのうち、前記第１車両の乗員が発話した第１時点における前記第１車両の位置を示す前記第１位置データに対して、前記第１時点に前記乗員が発話した音声に基づく前記第１音声関連データを対応付けたパターンデータを生成する第１生成部と、
を備える情報処理装置。
請求項１に記載の情報処理装置において、
一以上の車両と通信する通信部と、
前記第１生成部によって生成された前記パターンデータに含まれる前記第１位置データが示す位置に、前記第１車両と異なる第２車両が存在する場合、前記パターンデータとして前記第１位置データに対応付けられた前記第１音声関連データに基づくエージェントデータを、前記通信部を介して前記第２車両に送信する通信制御部と、を更に備える、
情報処理装置。
請求項２に記載の情報処理装置において、
前記取得部は、前記第１車両の位置に加えて、更に前記第１車両の方位を示す前記第１位置データを前記第１車両から取得し、
前記通信制御部は、前記第２車両の位置および方位が、前記第１位置データが示す位置および方位と同じ場合、前記第１位置データに対応付けられた前記第１音声関連データに基づくエージェントデータを、前記通信部を介して前記第２車両に送信する、
情報処理装置。
請求項２または３に記載の情報処理装置において、
前記取得部は、更に、前記第１車両の運転操作に関する運転操作データを前記第１車両から取得し、
前記通信制御部は、前記運転操作データが示す運転操作と同じ運転操作によって前記第２車両が運転される場合、前記第１位置データに対応付けられた前記第１音声関連データに基づくエージェントデータを、前記通信部を介して前記第２車両に送信する、
情報処理装置。
請求項２から４のうちいずれか一項に記載の情報処理装置において、
前記取得部は、前記エージェントデータが送信された前記第２車両の乗員の音声に基づく第２音声関連データを、前記第２車両から取得し、
前記第１生成部は、前記取得部により取得された前記第２音声関連データを前記パターンデータに対応付ける、
情報処理装置。
請求項５に記載の情報処理装置において、
前記取得部は、
前記第１車両の乗員が質問として発話した音声に基づく音声関連データを前記第１音声関連データとして前記第１車両から取得し、
前記第２車両の乗員が前記質問への回答として発話した音声に基づく音声関連データを前記第２音声関連データとして前記第２車両から取得する、
情報処理装置。
請求項５または６に記載の情報処理装置において、
前記取得部は、前記第１車両および前記第２車両を含む複数の車両のいずれかの車両を示す第３車両が、前記第１位置データが示す位置に存在する場合、前記第３車両の乗員の音声に基づく第３音声関連データを、前記第３車両から取得し、
前記通信制御部は、前記取得部によって前記第３音声関連データが取得された場合に、前記第３音声関連データと、前記第１位置データに対応付けられた前記第１音声関連データとが同じ場合、前記パターンデータに対応付けられた前記第２音声関連データに基づくエージェントデータを、前記通信部を介して前記第３車両に送信する、
情報処理装置。
請求項２から７のうちいずれか一項に記載の情報処理装置において、
前記第１車両に複数の乗員が乗車している場合に、前記複数の乗員のそれぞれの生体情報に基づいて、前記複数の乗員のそれぞれを識別する識別部と、
前記識別部によって識別された前記複数の乗員のそれぞれの音声に基づく前記第１音声関連データのうち、第１乗員の音声に基づく前記第１音声関連データに基づいて、前記複数の乗員のうち、前記第１乗員と異なる第２乗員に対して発話する人工音声の元となるエージェントデータを生成する第２生成部と、
前記第２生成部により生成された前記エージェントデータを、前記通信部を介して前記第１車両に送信する通信制御部と、を更に備える、
情報処理装置。
乗員が乗る第１移動体に設置された第１マイクロフォン、および少なくとも前記第１移動体の位置を検出する第１センサ、を有する前記第１移動体と、
乗員が乗る第２移動体に設置された第２マイクロフォン、少なくとも前記第２移動体の位置を検出する第２センサ、および前記第２移動体に設置された第２スピーカ、を有する前記第２移動体と、
第１時点において前記第１センサによって検出された前記第１移動体の位置と、前記第１時点よりも後の第２時点において前記第２センサによって検出された前記第２移動体の位置とが同じ場合、前記第１時点において前記第１マイクロフォンによって収音された前記第１移動体の乗員の音声に基づく人工音声を、前記第２スピーカに出力させる出力制御部と、
前記第２スピーカによって前記人工音声が出力された後に、前記第２マイクロフォンによって収音された前記第２移動体の乗員の音声に基づく第２音声関連データと、前記第１時点において前記第１マイクロフォンによって収音された前記第１移動体の乗員の音声に基づく第１音声関連データとを対応付けたパターンデータを生成する第１生成部と、
を備えるエージェントシステム。
請求項９に記載のエージェントシステムにおいて、
前記第１移動体は、更に第１スピーカを有し、
前記第１移動体に複数の乗員が乗車している場合に、前記複数の乗員のそれぞれの生体情報に基づいて、前記複数の乗員のそれぞれを識別する識別部と、
前記識別部によって識別された前記複数の乗員のうち、ある第１乗員の音声が前記第１マイクロフォンによって収音された場合、前記第１乗員の音声に基づいて、前記複数の乗員のうち、前記第１乗員と異なる第２乗員に対して発話する人工音声を生成する第２生成部と、を更に備え、
前記出力制御部は、前記第２生成部によって生成された前記人工音声を前記第１スピーカに出力させる、
エージェントシステム。
請求項１０に記載のエージェントシステムにおいて、
前記第１生成部は、前記第１スピーカによって前記人工音声が出力された後に、前記第１マイクロフォンによって収音された前記第２乗員の音声に基づく前記第１音声関連データと、前記第１乗員の音声に基づく前記第１音声関連データとを対応付けた前記パターンデータを生成する、
エージェントシステム。
コンピュータが、
第１移動体の乗員の音声に基づく第１音声関連データと、少なくとも前記第１移動体の位置を示す第１位置データとを、前記第１移動体から取得するプロセスと、
前記取得した前記第１音声関連データおよび前記第１位置データのうち、前記第１移動体の乗員が発話した第１時点における前記第１移動体の位置を示す前記第１位置データに対して、前記第１時点に前記乗員が発話した音声に基づく前記第１音声関連データを対応付けたパターンデータを生成するプロセスと、
を実行する、情報処理方法。
単一または複数のコンピュータにインストールされ、
第１移動体の乗員の音声に基づく第１音声関連データと、少なくとも前記第１移動体の位置を示す第１位置データとを、前記第１移動体から取得する処理と、
前記取得した前記第１音声関連データおよび前記第１位置データのうち、前記第１移動体の乗員が発話した第１時点における前記第１移動体の位置を示す前記第１位置データに対して、前記第１時点に前記乗員が発話した音声に基づく前記第１音声関連データを対応付けたパターンデータを生成する処理と、
を前記コンピュータに実行させるためのプログラム。