JP2020079865A - 情報処理装置、エージェントシステム、情報処理方法、およびプログラム - Google Patents
情報処理装置、エージェントシステム、情報処理方法、およびプログラム Download PDFInfo
- Publication number
- JP2020079865A JP2020079865A JP2018212916A JP2018212916A JP2020079865A JP 2020079865 A JP2020079865 A JP 2020079865A JP 2018212916 A JP2018212916 A JP 2018212916A JP 2018212916 A JP2018212916 A JP 2018212916A JP 2020079865 A JP2020079865 A JP 2020079865A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- vehicle
- data
- occupant
- agent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】人間と自然な会話を行うこと。【解決手段】情報処理装置は、第1車両の乗員の音声に基づく第1音声関連データと、少なくとも前記第1車両の位置を示す第1位置データとを、前記第1車両から取得する取得部と、前記取得部によって取得された前記第1音声関連データおよび前記第1位置データのうち、前記第1車両の乗員が発話した第1時点における前記第1車両の位置を示す前記第1位置データに対して、前記第1時点に前記乗員が発話した音声に基づく前記第1音声関連データを対応付けたパターンデータを生成する第1生成部とを備える。【選択図】図5
Description
本発明は、情報処理装置、エージェントシステム、情報処理方法、およびプログラムに関する。
人間と音声対話することでコミュニケーションを取るヒューマンマシンインターフェースの研究が進められている。これに関連し、語彙が登録された辞書を利用して、乗員が発話した音声を認識し、車室内の複数の制御対象機器を、認識した音声の内容に応じて制御する技術や、位置に応じてロボットに発話させる際の音量や口調が決められた地図情報と、ロボットのコミュニケーションの対象とする人物の状況とに基づいて、コミュニケーションの対象とする人物に対する発話の可否や発話音量、発話口調を決定する技術が知られている(例えば、特許文献1、2参照)。
しかしながら、従来の技術では、人間と自然な会話を行うことができない場合があった。
本発明の態様は、このような事情を考慮してなされたものであり、人間と自然な会話を行うことができる情報処理装置、エージェントシステム、情報処理方法、およびプログラムを提供することを目的の一つとする。
本発明に係る情報処理装置、エージェントシステム、情報処理方法、およびプログラムは、以下の構成を採用した。
(1)本発明の一態様は、第1車両の乗員の音声に基づく第1音声関連データと、少なくとも前記第1車両の位置を示す第1位置データとを、前記第1車両から取得する取得部と、前記取得部によって取得された前記第1音声関連データおよび前記第1位置データのうち、前記第1車両の乗員が発話した第1時点における前記第1車両の位置を示す前記第1位置データに対して、前記第1時点に前記乗員が発話した音声に基づく前記第1音声関連データを対応付けたパターンデータを生成する第1生成部と、を備える情報処理装置である。
(1)本発明の一態様は、第1車両の乗員の音声に基づく第1音声関連データと、少なくとも前記第1車両の位置を示す第1位置データとを、前記第1車両から取得する取得部と、前記取得部によって取得された前記第1音声関連データおよび前記第1位置データのうち、前記第1車両の乗員が発話した第1時点における前記第1車両の位置を示す前記第1位置データに対して、前記第1時点に前記乗員が発話した音声に基づく前記第1音声関連データを対応付けたパターンデータを生成する第1生成部と、を備える情報処理装置である。
(2)の態様は、上記(1)の態様の情報処理装置において、一以上の車両と通信する通信部と、前記第1生成部によって生成された前記パターンデータに含まれる前記第1位置データが示す位置に、前記第1車両と異なる第2車両が存在する場合、前記パターンデータとして前記第1位置データに対応付けられた前記第1音声関連データに基づくエージェントデータを、前記通信部を介して前記第2車両に送信する通信制御部と、を更に備えるものである。
(3)の態様は、上記(2)の態様の情報処理装置において、前記取得部は、前記第1車両の位置に加えて、更に前記第1車両の方位を示す前記第1位置データを前記第1車両から取得し、前記通信制御部は、前記第2車両の位置および方位が、前記第1位置データが示す位置および方位と同じ場合、前記第1位置データに対応付けられた前記第1音声関連データに基づくエージェントデータを、前記通信部を介して前記第2車両に送信するものである。
(4)の態様は、上記(2)または(3)の態様の情報処理装置において、前記取得部は、更に、前記第1車両の運転操作に関する運転操作データを前記第1車両から取得し、前記通信制御部は、前記運転操作データが示す運転操作と同じ運転操作によって前記第2車両が運転される場合、前記第1位置データに対応付けられた前記第1音声関連データに基づくエージェントデータを、前記通信部を介して前記第2車両に送信するものである。
(5)の態様は、上記(2)から(4)のうちいずれか一つの態様の情報処理装置において、前記取得部は、前記エージェントデータが送信された前記第2車両の乗員の音声に基づく第2音声関連データを、前記第2車両から取得し、前記第1生成部は、前記取得部により取得された前記第2音声関連データを前記パターンデータに対応付けるものである。
(6)の態様は、上記(5)の態様の情報処理装置において、前記取得部は、前記第1車両の乗員が質問として発話した音声に基づく音声関連データを前記第1音声関連データとして前記第1車両から取得し、前記第2車両の乗員が前記質問への回答として発話した音声に基づく音声関連データを前記第2音声関連データとして前記第2車両から取得するものである。
(7)の態様は、上記(5)または(6)の態様の情報処理装置において、前記取得部は、前記第1車両および前記第2車両を含む複数の車両のいずれかの車両を示す第3車両が、前記第1位置データが示す位置に存在する場合、前記第3車両の乗員の音声に基づく第3音声関連データを、前記第3車両から取得し、前記通信制御部は、前記取得部によって前記第3音声関連データが取得された場合に、前記第3音声関連データと、前記第1位置データに対応付けられた前記第1音声関連データとが同じ場合、前記パターンデータ対応付けられた前記第2音声関連データに基づくエージェントデータを、前記通信部を介して前記第3車両に送信するものである。
(8)の態様は、上記(2)から(7)のうちいずれか一つの態様の情報処理装置において、前記第1車両に複数の乗員が乗車している場合に、前記複数の乗員のそれぞれの生体情報に基づいて、前記複数の乗員のそれぞれを識別する識別部と、前記識別部によって識別された前記複数の乗員のそれぞれの音声に基づく前記第1音声関連データのうち、第1乗員の音声に基づく前記第1音声関連データに基づいて、前記複数の乗員のうち、前記第1乗員と異なる第2乗員に対して発話する人工音声の元となるエージェントデータを生成する第2生成部と、前記第2生成部により生成された前記エージェントデータを、前記通信部を介して前記第1車両に送信する通信制御部と、を更に備えるものである。
(9)本発明の他の態様は、乗員が乗る第1移動体に設置された第1マイクロフォン、および少なくとも前記第1移動体の位置を検出する第1センサ、を有する前記第1移動体と、乗員が乗る第2移動体に設置された第2マイクロフォン、少なくとも前記第2移動体の位置を検出する第2センサ、および前記第2移動体に設置された第2スピーカ、を有する前記第2移動体と、第1時点において前記第1センサによって検出された前記第1移動体の位置と、前記第1時点よりも後の第2時点において前記第2センサによって検出された前記第2移動体の位置とが同じ場合、前記第1時点において前記第1マイクロフォンによって収音された前記第1移動体の乗員の音声に基づく人工音声を、前記第2スピーカに出力させる出力制御部と、前記第2スピーカによって前記人工音声が出力された後に、前記第2マイクロフォンによって収音された前記第2移動体の乗員の音声に基づく第2音声関連データと、前記第1時点において前記第1マイクロフォンによって収音された前記第1移動体の乗員の音声に基づく第1音声関連データとを対応付けたパターンデータを生成する第1生成部と、を備えるエージェントシステムである。
(10)の態様は、上記(9)の態様のエージェントシステムにおいて、前記第1移動体は、更に第1スピーカを有し、前記第1移動体に複数の乗員が乗車している場合に、前記複数の乗員のそれぞれの生体情報に基づいて、前記複数の乗員のそれぞれを識別する識別部と、前記識別部によって識別された前記複数の乗員のうち、ある第1乗員の音声が前記第1マイクロフォンによって収音された場合、前記第1乗員の音声に基づいて、前記複数の乗員のうち、前記第1乗員と異なる第2乗員に対して発話する人工音声を生成する第2生成部と、を更に備え、前記出力制御部は、前記第2生成部によって生成された前記人工音声を前記第1スピーカに出力させるものである。
(11)の態様は、上記(10)の態様のエージェントシステムにおいて、前記第1生成部は、前記第1スピーカによって前記人工音声が出力された後に、前記第1マイクロフォンによって収音された前記第2乗員の音声に基づく前記第1音声関連データと、前記第1乗員の音声に基づく前記第1音声関連データとを対応付けた前記パターンデータを生成するものである。
(12)本発明の他の態様は、コンピュータが、第1移動体の乗員の音声に基づく第1音声関連データと、少なくとも前記第1移動体の位置を示す第1位置データとを、前記第1移動体から取得するプロセスと、前記取得した前記第1音声関連データおよび前記第1位置データのうち、前記第1移動体の乗員が発話した第1時点における前記第1移動体の位置を示す前記第1位置データに対して、前記第1時点に前記乗員が発話した音声に基づく前記第1音声関連データを対応付けたパターンデータを生成するプロセスと、を実行する、情報処理方法である。
(13)本発明の他の態様は、単一または複数のコンピュータにインストールされ、第1移動体の乗員の音声に基づく第1音声関連データと、少なくとも前記第1移動体の位置を示す第1位置データとを、前記第1移動体から取得する処理と、前記取得した前記第1音声関連データおよび前記第1位置データのうち、前記第1移動体の乗員が発話した第1時点における前記第1移動体の位置を示す前記第1位置データに対して、前記第1時点に前記乗員が発話した音声に基づく前記第1音声関連データを対応付けたパターンデータを生成する処理と、を前記コンピュータに実行させるためのプログラムである。
(1)〜(13)の態様によれば、人間と自然な会話を行うことができる。
以下、図面を参照し、本発明の情報処理装置、エージェントシステム、情報処理方法、およびプログラムの実施形態について説明する。
<第1実施形態>
[システム構成]
図1は、第1実施形態に係るエージェントシステム1の構成の一例を示す図である。第1実施形態に係るエージェントシステム1は、例えば、複数のエージェント装置100と、サーバ装置200とを備える。図示の例のように、各エージェント装置100は、車両Mに搭載される。車両Mは、例えば、二輪や三輪、四輪等の車両である。これらの車両の駆動源は、ディーゼルエンジンやガソリンエンジン等の内燃機関、電動機、或いはこれらの組み合わせであってよい。電動機は、内燃機関に連結された発電機による発電電力、或いは二次電池や燃料電池の放電電力を使用して動作する。
[システム構成]
図1は、第1実施形態に係るエージェントシステム1の構成の一例を示す図である。第1実施形態に係るエージェントシステム1は、例えば、複数のエージェント装置100と、サーバ装置200とを備える。図示の例のように、各エージェント装置100は、車両Mに搭載される。車両Mは、例えば、二輪や三輪、四輪等の車両である。これらの車両の駆動源は、ディーゼルエンジンやガソリンエンジン等の内燃機関、電動機、或いはこれらの組み合わせであってよい。電動機は、内燃機関に連結された発電機による発電電力、或いは二次電池や燃料電池の放電電力を使用して動作する。
エージェント装置100とサーバ装置200とは、ネットワークNWを介して通信可能に接続される。ネットワークNWは、LAN(Local Area Network)やWAN(Wide Area Network)などが含まれる。ネットワークNWには、例えば、Wi−FiやBluetooth(登録商標、以下省略)など無線通信を利用したネットワークが含まれてよい。
エージェント装置100は、車両Mの乗員と音声対話を行ったり、乗員同士の対話を支援したりする機能(以下、エージェント機能と称する)を有する装置である。エージェント機能は、ある種の人工知能的機能を持つソフトウェアエージェント(インテリジェントエージェント)によって実現される。
サーバ装置200は、各車両Mに搭載されたエージェント装置100と通信し、エージェント装置100から各種データを収集する。サーバ装置200は、収集したデータを解析することで、各エージェント装置100のエージェント機能を、より高精度な機能に更新する。サーバ装置200は、「情報処理装置」の一例である。
[エージェント装置の構成]
図2は、第1実施形態に係るエージェント装置100の構成の一例を示す図である。第1実施形態に係るエージェント装置100は、例えば、エージェント側通信部102と、車室内カメラ104と、マイクロフォン106と、スピーカ108と、表示部110と、入力部112と、車両センサ114と、GNSS(Global Navigation Satellite System)受信機116と、エージェント側制御部120と、エージェント側記憶部150とを備える。これらの装置や機器は、CAN(Controller Area Network)通信線等の多重通信線やシリアル通信線、無線通信網等によって互いに接続されてよい。なお、図2に示すエージェント装置100の構成はあくまでも一例であり、構成の一部が省略されてもよいし、更に別の構成が追加されてもよい。
図2は、第1実施形態に係るエージェント装置100の構成の一例を示す図である。第1実施形態に係るエージェント装置100は、例えば、エージェント側通信部102と、車室内カメラ104と、マイクロフォン106と、スピーカ108と、表示部110と、入力部112と、車両センサ114と、GNSS(Global Navigation Satellite System)受信機116と、エージェント側制御部120と、エージェント側記憶部150とを備える。これらの装置や機器は、CAN(Controller Area Network)通信線等の多重通信線やシリアル通信線、無線通信網等によって互いに接続されてよい。なお、図2に示すエージェント装置100の構成はあくまでも一例であり、構成の一部が省略されてもよいし、更に別の構成が追加されてもよい。
エージェント側通信部102は、NICなどの通信インターフェースを含む。エージェント側通信部102は、ネットワークNWを介してサーバ装置200などと通信する。
車室内カメラ104は、例えば、エージェント装置100が搭載された車両Mの車室内に設置され、車室内のシートに着座する各乗員の顔などを撮像する。車室内カメラ104は、例えば、CCD(Charge Coupled Device)やCMOS(Complementary Metal Oxide Semiconductor)等の固体撮像素子を利用したデジタルカメラである。車室内カメラ104は、例えば、所定のタイミングで各乗員を繰り返し撮像する。車室内カメラ104は、乗員を撮像した画像のデータ(以下、画像データ)を生成し、生成した画像データをエージェント側制御部120に出力する。
マイクロフォン106は、車室内の音声を電気信号化し収音する音声入力装置である。マイクロフォン106は、収音した音声のデータ(以下、音声データ)をエージェント側制御部120に出力する。例えば、マイクロフォン106は、乗員が車室内のシートに着座したときの前方付近に設置される。例えば、マイクロフォン106は、マットランプ、ステアリングホイール、インストルメントパネル、またはシートの付近に設置される。マイクロフォン106は、車室内に複数設置されてよい。後述する第1車両M1のマイクロフォン106は、「第1マイクロフォン」の一例であり、後述する第2車両M2のマイクロフォン106は、「第2マイクロフォン」の一例である。
スピーカ108は、例えば、車室内のシート付近または表示部110付近に設置される。スピーカ108は、エージェント側制御部120により出力される情報に基づいて音声を出力する。後述する第1車両M1のスピーカ108は、「第1スピーカ」の一例であり、後述する第2車両M2のスピーカ108は、「第2スピーカ」の一例である。
表示部110は、LCD(Liquid Crystal Display)や有機EL(Electroluminescence)ディスプレイなどの表示装置を含む。表示部110は、エージェント側制御部120により出力される情報に基づいて画像を表示する。
入力部112は、例えば、ボタン、キーボードやマウス等のユーザインターフェースである。入力部112は、乗員の操作を受け付けて、受け付けた操作に応じた信号をエージェント側制御部120に出力する。入力部112は、表示部110と一体として構成されるタッチパネルであってもよい。
図3は、運転席から見た車室内の一例を示す図である。図示の例の車室内には、マイクロフォン106A、106Bと、スピーカ108A〜108Cと、表示部110A〜110Cとが設置されている。マイクロフォン106Aは、例えば、ステアリングホイールに設けられ、主に運転者が発話した音声を収音する。マイクロフォン106Bは、例えば、助手席正面のインストルメントパネル(ダッシュボードまたはガーニッシュ)IPに設けられ、主に助手席の乗員が発話した音声を収音する。
スピーカ108Aは、例えば、表示部110Cの付近、つまり、インストルメントパネルIPの中央付近に設置される。スピーカ108Aは、例えば、運転席側のドアの下部に設置され、スピーカ108Cは、例えば、助手席側のドアの下部に設置される。
表示部110Aは、例えば運転者が車外を視認する際の視線の先に虚像を表示させるHUD(Head-Up Display)装置である。HUD装置は、例えば、車両Mのフロントウインドシールド、或いはコンバイナーと呼ばれる光の透過性を有する透明な部材に光を投光することで、乗員に虚像を視認させる装置である。乗員は、主に運転者であるが、運転者以外の乗員であってもよい。
表示部110Bは、運転席(ステアリングホイールに最も近い座席)の正面付近のインストルメントパネルIPに設けられ、乗員がステアリングホイールの間隙から、或いはステアリングホイール越しに視認可能な位置に設置される。表示部110Bは、例えば、LCDや有機EL表示装置等である。表示部110Bには、例えば、車両Mの速度、エンジン回転数、燃料残量、ラジエータ水温、走行距離、その他の情報の画像が表示される。
表示部110Cは、インストルメントパネルIPの中央付近に設置される。表示部110Cは、例えば、表示部110Bと同様に、LCDや有機EL表示装置等である。表示部110Cは、テレビ番組や映画等のコンテンツを表示する。
なお、車両Mには、更に、後部座席付近にマイクロフォンとスピーカが設けられてよい。図4は、車両Mを上から見た車室内の一例を示す図である。車室内には、図3で例示したマイクロフォンスピーカに加えて、更に、マイクロフォン106C、106Dと、スピーカ108D、108Eとが設置されてよい。
マイクロフォン106Cは、例えば、助手席ST2の後方に設置された後部座席ST3の付近(例えば、助手席ST2の後面)に設けられ、主に、後部座席ST3に着座する乗員が発話した音声を収音する。マイクロフォン106Dは、例えば、運転席ST1の後方に設置された後部座席ST4の付近(例えば、運転席ST1の後面)に設けられ、主に、後部座席ST4に着座する乗員が発話した音声を収音する。
スピーカ108Dは、例えば、後部座席ST3側のドアの下部に設置され、スピーカ108Eは、例えば、後部座席ST4側のドアの下部に設置される。
なお、図1に例示した車両Mは、図3または図4に例示するように、乗員である運転手が操作可能なステアリングホイールを備える車両であるものとして説明したがこれに限られない。例えば、車両Mは、ルーフがない、すなわち車室がない(またはその明確な区分けがない)自動車であってもよい。また、図3または図4の例では、車両Mを運転操作する運転手が座る運転席と、その他の運転操作をしない乗員が座る助手席や後部座席とが一つの室内にあるものとして説明しているがこれに限られない。例えば、車両Mは、電車や機関車がけん引する列車のように、運転手が座る運転席に対して他の運転操作をしない乗員が座る座席とは隔離されているような車両であってもよい。また、図3または図4の例では、車両Mが、ステアリングホイールを備える車両であるものとして説明しているがこれに限られない。例えば、車両Mは、ステアリングホイールのような運転操作機器が設けられていない自動運転車であってもよい。
図2の説明に戻り、車両センサ114は、車両Mの向きを検出する方位センサや、車両Mの速度を検出する車速センサ、車両Mの加速度を検出する加速度センサ、車両Mの鉛直軸回りの角速度を検出するヨーレートセンサ、操舵トルクを検出するトルクセンサなどを含む。車両センサ114は、検出した方位や速度、加速度などを含むデータをエージェント側制御部120に出力する。
GNSS受信機116は、GPS(Global Positioning System)衛星などのGNSS衛星から受信した電波に基づいて、車両Mの位置を検出する。GNSS受信機116によって検出される位置は、例えば、緯度および経度によって表される絶対座標であってよい。GNSS受信機116は、検出した車両Mの位置を示すデータ(以下、位置データ)をエージェント側制御部120に出力する。後述する第1車両M1のGNSS受信機116は、「第1センサ」の一例であり、後述する第2車両M2のGNSS受信機116は、「第2センサ」の一例である。
エージェント側制御部120は、例えば、取得部122と、音声合成部124と、出力制御部126と、通信制御部128とを備える。
これらの構成要素は、例えば、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)等のプロセッサがプログラム(ソフトウェア)を実行することにより実現される。また、これらの構成要素のうち一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)等のハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めエージェント側記憶部150に格納されていてもよいし、DVDやCD−ROM等の着脱可能な記憶媒体に格納されており、記憶媒体がドライブ装置に装着されることでエージェント側記憶部150にインストールされてもよい。
エージェント側記憶部150は、HDD、フラッシュメモリ、EEPROM(Electrically Erasable Programmable Read Only Memory)、ROM(Read Only Memory)、またはRAM(Random Access Memory)等により実現される。エージェント側記憶部150には、例えば、プロセッサによって参照されるプログラムなどが格納される。
取得部122は、車室内カメラ104から画像データを取得したり、マイクロフォン106から音声データを取得したり、車両センサ114から方位や速度などのデータを取得したり、GNSS受信機116から位置データを取得したりする。
音声合成部124は、エージェント側通信部102がサーバ装置200から受信したデータ(後述するエージェントデータ)に基づいて、人工的な合成音声(以下、エージェント音声と称する)を生成する。音声合成部124は、「人工音声を生成する第2生成部」の一例である。
出力制御部126は、音声合成部124によってエージェント音声が生成されると、そのエージェント音声をスピーカ108に出力させる。また、出力制御部126は、エージェント音声の元となったフレーズ(テキストデータ)を画像として表示部110に表示させてもよい。
通信制御部128は、エージェント側通信部102を介して、取得部122によって取得された音声データおよび位置データをサーバ装置200に送信する。また、通信制御部128は、エージェント側通信部102を介して、取得部122によって取得された画像データや速度などのデータをサーバ装置200に送信してもよい。
[サーバ装置の構成]
図5は、第1実施形態に係るサーバ装置200の構成の一例を示す図である。第1実施形態に係るサーバ装置200は、例えば、サーバ側通信部202と、サーバ側制御部210と、サーバ側記憶部230とを備える。
図5は、第1実施形態に係るサーバ装置200の構成の一例を示す図である。第1実施形態に係るサーバ装置200は、例えば、サーバ側通信部202と、サーバ側制御部210と、サーバ側記憶部230とを備える。
サーバ側通信部202は、NICなどの通信インターフェースを含む。サーバ側通信部202は、ネットワークNWを介して各車両Mに搭載されたエージェント装置100などと通信する。
サーバ側制御部210は、例えば、取得部212と、発話期間抽出部214と、音声認識部216と、判定部218と、エージェントデータ生成部220と、通信制御部222と、パターンデータ生成部224とを備える。エージェントデータ生成部220は、「人工音声の元となるエージェントデータを生成する第2生成部」の一例であり、パターンデータ生成部224は、「第1生成部」の一例である。
これらの構成要素は、例えば、CPUやGPU等のプロセッサがプログラム(ソフトウェア)を実行することにより実現される。また、これらの構成要素のうち一部または全部は、LSIやASIC、FPGA等のハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めサーバ側記憶部230に格納されていてもよいし、DVDやCD−ROM等の着脱可能な記憶媒体に格納されており、記憶媒体がドライブ装置に装着されることでサーバ側記憶部230にインストールされてもよい。
サーバ側記憶部230は、HDD、フラッシュメモリ、EEPROM、ROM、またはRAM等により実現される。サーバ側記憶部230には、例えば、プロセッサによって参照されるプログラムのほかに、会話パターンデータPTNなどが格納される。
図6は、会話パターンデータPTNの一例を示す図である。図示の例のように、会話パターンデータPTNは、地図座標ごとに、会話パターンがテキストとして対応付けられたデータである。会話パターンとは、例えば、ある人物Aが、あるフレーズ(語句)の言葉を発話した場合、人物Aが発話したフレーズに続いて、他の人物Bが発話したフレーズが順序付けられたパターンである。このような会話パターンは、複数人の会話に基づいて決められてよく、その人数は、2人や3人、或いはこれ以上の人数であってよい。
図中の第1フレーズは、一連の会話のきっかけとなった(会話の始まりとなった)フレーズを表しており、第2フレーズは、第1フレーズに続いて発話されたフレーズを表しており、第3フレーズは、第2フレーズに続いて発話されたフレーズを表している。このように、会話パターンデータPTNでは、ある地図座標が示す地点においてなされた一連の会話がテキスト化されている。なお、会話パターンデータPTNに含まれる会話のテキストデータは、必ずしもフレーズである必要はなく、ワード(単語)であってもよいし、センテンス(文章)であってもよい。会話パターンデータPTNに含まれる会話のテキストデータは、「音声関連データ」の一例である。
また、会話パターンデータPTNは、地図座標ごとに、会話としてなされた音声データが対応付けられたデータであってもよい。この場合、会話パターンデータPTNに含まれる会話の音声データは、「音声関連データ」の他の例である。
取得部212は、サーバ側通信部202を介して、エージェント装置100から、音声データおよび位置データを取得する。
発話期間抽出部214は、取得部122によって取得された音声データから、乗員が発話している期間(以下、発話期間と称する)を抽出する。例えば、発話期間抽出部214は、零交差法を利用して、音声データに含まれる音声信号の振幅に基づいて発話期間を抽出してよい。また、発話期間抽出部214は、混合ガウス分布モデル(GMM;Gaussian mixture model)に基づいて、音声データから発話期間を抽出してもよいし、発話期間特有の音声信号をテンプレート化したデータベースとテンプレートマッチング処理を行うことで、音声データから発話期間を抽出してもよい。
音声認識部216は、発話期間抽出部214によって抽出された発話期間ごとに音声を認識し、認識した音声をテキスト化することで、発話の内容を表すテキストデータを生成する。
例えば、音声認識部216は、発話期間の音声信号を、低周波数や高周波数などの複数の周波数帯に分離し、分類した各音声信号をフーリエ変換することで、スペクトログラムを生成する。音声認識部216は、生成したスペクトログラムを、再帰的ニューラルネットワークに入力することで、スペクトログラムから文字列を得る。再帰的ニューラルネットワークは、例えば、学習用の音声から生成したスペクトログラムに対して、その学習用の音声に対応した既知の文字列が教師ラベルとして対応付けられた教師データを利用することで、予め学習されていてよい。そして、音声認識部216は、再帰的ニューラルネットワークから得た文字列のデータを、テキストデータとして出力する。
判定部218は、取得部122によって取得された位置データと、会話パターンデータPTNとを参照し、その取得された位置データが示す車両Mの位置と同じ位置でなされた会話パターンの中に、音声認識部216によってテキスト化された音声(発話)の後に続くフレーズが存在するか否かを判定する。図6に例示した会話パターンデータPTNの場合、音声認識部216によってテキスト化された音声が「フレーズA」であった場合、その「フレーズA」には「フレーズX」が続いているため、判定部218は、後に続くフレーズが存在すると判定する。
エージェントデータ生成部220は、判定部218によって、会話パターンの中に音声認識部216によってテキスト化された音声の後に続くフレーズが存在しないと判定された場合、すなわち、既存の会話パターンの中には乗員の発話に対して続けるべき発話が見当たらず、乗員との会話が途切れる場合、第1エージェントデータを生成する。
第1エージェントデータとは、どのように乗員と会話を続けるのかを学習するために、音声データを取得した車両(以下、第1車両M1と称する)とは異なる別の車両(以下、第2車両M2と称する)のエージェント装置100にエージェント音声を出力させ、その第2車両M2の乗員に、会話を継続させるためのお手本となる言葉を発話させるためのデータである。第2車両M2は、第1車両M1から音声データとともに取得された位置データが示す位置に存在する車両である。例えば、ある第1時刻において、第1車両M1の乗員が発話した場合、第2車両M2は、第1時刻と同じ時刻、または第1時刻よりも後の第2時刻に、第1車両M1の乗員が発話した地点に存在する車両である。なお、第1車両M1から音声データを取得してから十分な時間(例えば1週間や1か月など)が経過した場合、その第1車両M1は、第2車両M2として扱われてよい。
例えば、エージェントデータ生成部220は、会話パターンデータPTNが示す会話パターンの中で、後に続くフレーズが存在しないと判定された音声に基づいて、第2車両M2のエージェント装置100に出力させるエージェント音声の元となるテキストデータを第1エージェントデータとして生成する。第1エージェントデータがテキストデータである場合、そのテキストデータには、フレーズを表す文字列が含まれていてもよいし、その文字列の各文字の一つ一つに対応した発音記号(音声字母または音標文字とも呼ばれる)が含まれていてもよい。
例えば、第1車両M1から取得された音声データが「あの〇〇〇ビルはなに」という質問を表すフレーズであった場合、エージェントデータ生成部220は、「あの〇〇〇ビルはなに」というフレーズが文字列として含まれるテキストデータを第1エージェントデータとして生成してよい。具体的には、エージェントデータ生成部220は、「あの〇〇〇ビルはなに」というフレーズを表す文字列に、第2車両M2の乗員の氏名を表す文字列を加えた「太郎さん、あの〇〇〇ビルはなに」というフレーズや、第2車両M2の乗員のうち、質問の回答者として運転者を指名する「運転手さん、あの〇〇〇ビルはなに」というフレーズのテキストデータを第1エージェントデータとして生成してよい。また、エージェントデータ生成部220は、第1車両M1の乗員が発話した音声データが、第2車両M2の乗員に聞かれることが好ましくない個人情報を含むフレーズである場合、そのフレーズから個人情報を取り除いたテキストデータを第1エージェントデータとして生成してよい。第1エージェントデータは、「前記第1音声関連データに基づくエージェントデータ」の一例である。
一方、判定部218によって、会話パターンの中に音声認識部216によってテキスト化された音声の後に続くフレーズが存在すると判定された場合、すなわち、既存の会話パターンの中には乗員の発話に対して続けるべき発話があり、乗員との会話が成立する場合、エージェントデータ生成部220は、会話パターンデータPTNの中から、後に続くフレーズのテキストデータを抽出し、その抽出したテキストデータを第2エージェントデータとする。第2エージェントデータとするテキストデータには、第1エージェントデータと同様に、フレーズを表す文字列が含まれていてもよいし、その文字列の各文字の一つ一つに対応した発音記号が含まれていてもよい。第2エージェントデータは、「前記第2音声関連データに基づくエージェントデータ」の一例である。
また、エージェントデータ生成部220は、判定部218によって、会話パターンの中に音声認識部216によってテキスト化された音声の後に続くフレーズが存在しないと判定された場合、すなわち、既存の会話パターンの中には乗員の発話に対して続けるべき発話が見当たらず、乗員との会話が途切れる場合、予め決められた定型文に基づいて、第1車両M1に送信する第3エージェントデータを生成する。定型文は、例えば、「わかりません」や「知りません」といった乗員の発話内容が理解できないことを示すフレーズであってよい。
なお、第1エージェントデータ、第2エージェントデータ、および第3エージェントデータは、テキストデータである代わりに、音声データであってもよい。第1エージェントデータが音声データである場合、その音声データは、例えば、第1車両M1から取得された音声データ、すなわち、第1車両M1の乗員が発話した音声データそのもの、或いはこれを変調するなどして加工した音声データであってよい。また、第2エージェントデータが音声データである場合、その音声データは、例えば、後に続くフレーズを発話した乗員の音声データそのもの、或いはこれを変調するなどして加工した音声データであってよい。この場合、会話パターンデータPTNは、地図座標ごとに、会話パターンが音声データとして対応付けられたデータであるものとする。また、第3エージェントデータが音声データである場合、その音声データは、例えば、定型文を読み上げた人物(乗員に限られない)の音声データそのもの、或いはこれを変調するなどして加工した音声データであってよい。
通信制御部222は、エージェントデータ生成部220によって第1エージェントデータおよび第3エージェントデータが生成されると、サーバ側通信部202を介して、第1エージェントデータを第2車両M2に送信し、第3エージェントデータを第1車両M1に送信する。また、通信制御部222は、エージェントデータ生成部220によって第2エージェントデータが生成されると、サーバ側通信部202を介して、第2エージェントデータを第1車両M1に送信する。第2エージェントデータが送信される第1車両M1は、「第3車両」の一例である。
パターンデータ生成部224は、判定部218によって、会話パターンの中に音声認識部216によってテキスト化された音声の後に続くフレーズが存在しないと判定された場合、取得部212によって取得された音声データおよび位置データのうち、第1車両M1の乗員が発話した第1時点における第1車両の位置に対して、第1時点に第1車両M1の乗員が発話した音声を示す音声データをテキスト化したフレーズ(音声関連データの一例)を対応付けた会話パターンデータPTNを生成する。なお、パターンデータ生成部224は、第1車両M1の乗員が発話した第1時点における第1車両M1の位置データに対して、第1時点に第1車両の乗員の音声データ(音声関連データの他の例)を対応付けた会話パターンデータPTNを生成してもよい。
そして、パターンデータ生成部224は、第1エージェントデータが送信された第2車両M2から取得部212が音声データおよび位置データを取得した場合、その音声データをテキスト化したフレーズと、第1エージェントデータの元となった音声データをテキスト化したフレーズとを対応付けた会話パターンを生成する。パターンデータ生成部224は、生成した会話パターンを、第1車両M1または第2車両M2から取得された位置データが示す位置(地図座標)に対応付けることで、新たな会話パターンデータPTNを生成する。
[システムシーケンス]
以下、第1実施形態に係るエージェントシステム1の一連の処理の流れについてシーケンス図を用いて説明する。図7は、第1実施形態に係るエージェントシステム1の一連の処理の流れを示すシーケンス図である。
以下、第1実施形態に係るエージェントシステム1の一連の処理の流れについてシーケンス図を用いて説明する。図7は、第1実施形態に係るエージェントシステム1の一連の処理の流れを示すシーケンス図である。
まず、第1車両M1のエージェント装置100は、マイクロフォン106によって乗員が発話した音声が収音された場合、マイクロフォン106から乗員の音声データを取得するとともに、GNSS受信機116から第1車両M1の位置データを取得する(ステップS100)。次に、第1車両M1のエージェント装置100は、取得した音声データおよび位置データを、サーバ装置200に送信する(ステップS102)。
サーバ装置200は、第1車両M1のエージェント装置100から音声データおよび位置データを受信すると、その音声データが示す地点において行われた会話パターンの中に、受信した音声データが示すフレーズの後に続くフレーズが存在するか否かを判定する(ステップS104)。第1車両M1のエージェント装置100から受信される音声データは、「第1音声関連データ」の一例であり、第1車両M1のエージェント装置100から受信される位置データは、「第1位置データ」の一例である。
例えば、サーバ装置200は、会話パターンの中に後に続くフレーズが存在しないと判定すると、「わかりません」といったような定型文のテキストデータを第3エージェントデータとして第1車両M1に送信する(ステップS106)。
第1車両M1のエージェント装置100は、サーバ装置200から第3エージェントデータを受信すると、その第3エージェントデータに基づいてエージェント音声を生成し、スピーカ108からエージェント音声を出力する(ステップS108)。
また、サーバ装置200は、会話パターンの中に後に続くフレーズが存在しないと判定すると、第1車両M1のエージェント装置100から受信した音声データが示すフレーズを表す文字列が少なくとも含まれるテキストデータを第1エージェントデータとして第2車両M2に送信する(ステップS110)。
第2車両M2のエージェント装置100は、サーバ装置200から第1エージェントデータを受信すると、その第1エージェントデータに基づいてエージェント音声を生成し、スピーカ108からエージェント音声を出力する(ステップS112)。
例えば、第2車両M2のエージェント装置100は、マイクロフォン106によって乗員が発話した音声が収音された場合、マイクロフォン106から乗員の音声データを取得するとともに、GNSS受信機116から第2車両M2の位置データを取得する(ステップS114)。次に、第2車両M2のエージェント装置100は、取得した音声データおよび位置データを、サーバ装置200に送信する(ステップS116)。
サーバ装置200は、第2車両M2のエージェント装置100から音声データおよび位置データを受信すると、第1エージェントデータの元にした第1車両M1の乗員の音声をテキスト化したフレーズと、受信した第2車両M2の乗員の音声をテキスト化したフレーズとを対応付けた会話パターンを生成する(ステップS118)。第2車両M2のエージェント装置100から受信される音声データは、「第2音声関連データ」の一例であり、第2車両M2のエージェント装置100から受信される位置データは、「第2位置データ」の一例である。
[エージェント装置の処理フロー]
以下、第1実施形態に係るエージェント装置100の一連の処理の流れについてフローチャートを用いて説明する。図8は、第1実施形態に係るエージェント装置100の一連の処理の流れを示すフローチャートである。本フローチャートの処理は、所定の周期で繰り返し行われてよい。
以下、第1実施形態に係るエージェント装置100の一連の処理の流れについてフローチャートを用いて説明する。図8は、第1実施形態に係るエージェント装置100の一連の処理の流れを示すフローチャートである。本フローチャートの処理は、所定の周期で繰り返し行われてよい。
まず、取得部122は、エージェント側通信部102によってサーバ装置200から第1エージェントデータまたは第2エージェントデータが受信されたか否かを判定し(ステップS200)、エージェント側通信部102によって第1エージェントデータまたは第2エージェントデータが受信されたと判定した場合、エージェント側通信部102から第1エージェントデータまたは第2エージェントデータを取得する。
音声合成部124は、エージェント側通信部102によって第1エージェントデータまたは第2エージェントデータが受信された場合、そのエージェントデータに基づいて、エージェント音声を生成する(ステップS202)。
例えば、音声合成部124は、エージェントデータがテキストデータである場合、波形接続型音声合成(Concatenative synthesis)と、フォルマント合成(Formant synthesis)とを行って、テキストデータに含まれる発音記号を読み上げるエージェント音声を生成する。また、音声合成部124は、テキストデータに発音記号が含まれず、フレーズを表す文字列が含まれる場合、その文字列を発音記号に変換し、変換した発音記号を読み上げるエージェント音声を生成してよい。また、音声合成部124は、エージェントデータが音声データである場合、その音声データを変調した音声をエージェント音声としてもよい。
次に、出力制御部126は、音声合成部124によって生成されたエージェント音声をスピーカ108に出力させる(ステップS204)。この際、出力制御部126は、エージェント音声の元となったフレーズ(テキストデータ)を画像として表示部110に表示させてもよい。
一方、取得部122は、S200の処理で、エージェント側通信部102によって第1エージェントデータまたは第2エージェントデータが受信されなかったと判定した場合、マイクロフォン106によって乗員が発話した音声が収音されたか否か、すなわち、乗員が発話したか否かを判定する(ステップS206)。
通信制御部128は、乗員が発話したと判定された場合、エージェント側通信部102を介して、音声データおよび位置データをサーバ装置200に送信する(ステップS208)。これによって本フローチャートの処理が終了する。
[サーバ装置の処理フロー]
以下、第1実施形態に係るサーバ装置200の一連の処理の流れについてフローチャートを用いて説明する。図9は、第1実施形態に係るサーバ装置200の一連の処理の流れを示すフローチャートである。本フローチャートの処理は、所定の周期で繰り返し行われてよい。
以下、第1実施形態に係るサーバ装置200の一連の処理の流れについてフローチャートを用いて説明する。図9は、第1実施形態に係るサーバ装置200の一連の処理の流れを示すフローチャートである。本フローチャートの処理は、所定の周期で繰り返し行われてよい。
まず、発話期間抽出部214は、サーバ側通信部202によって第1車両M1から音声データおよび位置データが受信されるまで待機し(ステップS300)、サーバ側通信部202によって音声データおよび位置データが受信されると、音声データから発話期間を抽出する(ステップS302)。
次に、音声認識部216は、発話期間抽出部214によって抽出された発話期間の音声を認識し、認識した音声をテキスト化する(ステップS304)。
次に、判定部218は、サーバ側通信部202によって受信された位置データと、会話パターンデータPTNとを参照し、その位置データが示す車両Mの位置と同じ位置でなされた会話パターンの中に、音声認識部216によって音声(発話)がテキスト化されたフレーズと同じ第kフレーズが存在し、その第kフレーズの後に続く第k+1フレーズが存在するか否かを判定する(ステップS306)。
例えば、判定部218が、音声認識部216によって音声(発話)がテキスト化されたフレーズと同じ第kフレーズが存在し、その第kフレーズの後に続く第k+1フレーズが存在すると判定した場合、すなわち、既存の会話パターンの中には乗員の発話に対して続けるべき発話があり、乗員との会話が成立する場合、エージェントデータ生成部220は、会話パターンの中から第k+1フレーズを抽出し、抽出した第k+1フレーズの発話記号などを含むテキストデータを第2エージェントデータとして生成する(ステップS308)。
次に、通信制御部222は、サーバ側通信部202を介して、第1車両M1に第2エージェントデータを送信する(ステップS310)。これによって、ある地点で第1車両M1の乗員が発話した場合、第1車両M1のエージェント装置100は、乗員が発話した地点で頻繁になされる不特定多数の会話を基に、第1車両M1の乗員に対して回答するようなエージェント音声を出力することができる。
一方、判定部218が、音声認識部216によって音声(発話)がテキスト化されたフレーズと同じ第kフレーズが存在しない、または第kフレーズの後に続く第k+1フレーズが存在しないと判定した場合、既存の会話パターンの中には乗員の発話に対して続けるべき発話が見当たらず、乗員との会話が途切れる場合、パターンデータ生成部224は、S300の処理で取得された位置データが示す第1車両の位置に対して、S304の処理でテキスト化した音声データを対応付けた会話パターンを新たに生成する(ステップS312)。
次に、エージェントデータ生成部220は、サーバ側通信部202によって受信された音声データに基づいて第1エージェントデータを生成するとともに、予め決められた定型文に基づいて第3エージェントデータを生成する(ステップS314)。
次に、通信制御部222は、サーバ側通信部202を介して、第1車両M1に第3エージェントデータを送信するとともに(ステップS316)、第2車両M2に第1エージェントデータを送信する(ステップS318)。なお、第1エージェントデータは、第3エージェントデータと同時に送信される必要はなく、第1車両M1の乗員が発話した地点に、第2車両M2が到達した時点に送信されてよい。
次に、発話期間抽出部214は、第1エージェントデータが第2車両M2に送信されてから所定時間が経過するまでの期間に、サーバ側通信部202が第2車両M2から音声データおよび位置データを受信したか否かを判定する(ステップS320)。第1エージェントデータが第2車両M2に送信されてから所定時間が経過するまでの期間にサーバ側通信部202が第2車両M2から音声データおよび位置データを受信しない場合、本フローチャートの処理は終了してよい。
第1エージェントデータが第2車両M2に送信されてから所定時間が経過するまでの期間にサーバ側通信部202が第2車両M2から音声データおよび位置データを受信した場合、発話期間抽出部214は、音声データから発話期間を抽出する(ステップS322)。
次に、音声認識部216は、発話期間抽出部214によって抽出された発話期間の音声を認識し、認識した音声をテキスト化する(ステップS324)。
次に、パターンデータ生成部224は、S312の処理で生成した会話パターンに対して、新たに第2車両M2から受信された音声データをテキスト化したフレーズを対応付けることで、会話パターンを更新する。すなわち、パターンデータ生成部224は、S300の処理で取得された位置データが示す第1車両M1の位置に対して、S304の処理で得られた音声のフレーズ(第1エージェントデータの元となった音声データをテキスト化したフレーズ)の後に、第2車両M2から受信された音声データをテキスト化したフレーズを対応付けることで、会話パターンを更新する。言い換えれば、パターンデータ生成部224は、第2車両M2の乗員が発話した音声をテキスト化したフレーズと、第1車両M1の乗員が発話した音声をテキスト化したフレーズとを対応付けた会話パターンを生成する。この際、パターンデータ生成部224は、第2車両M2の乗員が発話した音声をテキスト化したフレーズが複数ある場合、第1エージェントデータを送信した第2車両M2の乗員の発話頻度などに応じて、第1車両M1の乗員が発話した音声をテキスト化したフレーズに対応付けるフレーズを決定してよい。そして、パターンデータ生成部224は、生成した会話パターンを、第1車両M1または第2車両M2から取得された位置データが示す位置(地図座標)に対応付けることで、会話パターンデータPTNを更新する(ステップS326)。これによって本フローチャートの処理が終了する。
図10は、会話パターンの生成処理について説明するための図である。図示の例は、第1車両M1の乗員が「あのビルはなに」というフレーズを発話したときの第2車両M2の乗員の発話フレーズの頻度を表している。例えば、第2車両M2のエージェント装置100に、第1車両M1の乗員による「あのビルはなに」というフレーズのエージェント音声を再生させた場合、第2車両M2の乗員からは、「〇〇〇ビルだよ」というフレーズが最も発話され、次に、「□□□ビルだよ」というフレーズが発話されていることを表している。このように、複数の会話パターンの候補が存在する場合、パターンデータ生成部224は、最も頻度が大きい(最も発話回数の多い)フレーズの会話パターンを会話パターンデータPTNに残してよい。図示の例では、「あのビルはなに」というフレーズを第kフレーズとした場合、「〇〇〇ビルだよ」というフレーズが第k+1フレーズとして対応付けられる。これによって、第1車両M1のエージェント装置100に、第2エージェントデータに基づくエージェント音声を出力させた場合に、第1車両M1の乗員との会話が成立しやすくなる。
以下、具体的な場面を例示しながら、上述したエージェントシステム1の処理について説明する。図11は、ある場面の一例を示す図である。図11に例示する場面では、「2020年10月20日」という時点において、第1車両M1の前方にT字路の交差点が存在し、その交差点の後方に複数のビルが建造されていることを表している。
図12は、図11に例示する場面で、第1車両M1の乗員が発話し得るフレーズを表した図である。例えば、第1車両M1の乗員から見て、第1車両M1の前方に複数のビルが存在する場合、第1車両M1の乗員は、エージェント装置100に対して「エージェント、あの新しいビルはなに?」と質問を投げかけてくる場合がある。この場合、第1車両M1のエージェント装置100は、その質問の音声データと、T字路の交差点付近に第1車両M1が存在することを示す位置データとをサーバ装置200に送信する。
図13は、図11に例示する場面で乗員が発話する音声に対して第1車両M1のエージェント装置100が出力し得るエージェント音声を表した図である。例えば、図12に例示するように、第1車両M1の乗員が「エージェント、あの新しいビルはなに?」と質問した場合に、サーバ装置200は、会話パターンデータPTNを参照し、T字路の交差点付近でなされた一以上の会話パターンの中に、「あの新しいビルはなに?」というフレーズに対して後に続くフレーズが存在する会話パターンが存在するか否かを判定する。サーバ装置200は、T字路の交差点付近でなされたいずれの会話パターンの中にも、「あの新しいビルはなに?」というフレーズに対して後に続くフレーズが存在しない場合、第1車両M1のエージェント装置100に、「わかりません」といった定型文の第3エージェントデータを送信する。これを受けた第1車両M1のエージェント装置100は、スピーカ108Aなどを介して、車室内に「わかりません」といったエージェント音声を出力する。
図14は、図11に例示した場面の他の例を示す図である。図14に例示する場面は、「2020年10月20日」よりも後の「2020年11月11日」の時点において、図11に例示した場面のT字路の交差点に第2車両M2が存在することを表している。
図15は、図14に例示する場面で、第2車両M2のエージェント装置100が出力し得るエージェント音声を表した図である。図14に例示する場面では、エージェント装置100が、第1車両M1の乗員に対して適切な回答をできず、会話が途切れてしまったT字路の交差点に第2車両M2が存在している。このような場面では、サーバ装置200は、第2車両M2のエージェント装置100に、「あの新しいビルはなに?」というフレーズを含む第1エージェントデータを送信する。これを受けて、第2車両M2のエージェント装置100は、スピーカ108Aなどを介して、車室内に「ねぇドライバーさん、あの新しいビルはなに?」といったエージェント音声を出力する。
図16は、図14に例示する場面で出力されたエージェント音声に対して第2車両M2の乗員が発話し得るフレーズを表した図である。例えば、図15に例示するように、「ねぇドライバーさん、あの新しいビルはなに?」というエージェント音声が出力された場合、第2車両の乗員は、「あれは〇〇〇ビルだよ」と答える場合がある。この場合、第2車両M2のエージェント装置100は、「あれは〇〇〇ビルだよ」という音声データとともに、第2車両M2の位置データをサーバ装置200に送信する。
これを受けて、サーバ装置200は、「あの新しいビルはなに?」というフレーズの後に、「あれは〇〇〇ビルだよ」というフレーズを対応付けた新たな会話パターンを生成し、この会話パターンをT字路の交差点を表す地図座標に対応付けることで、会話パターンデータPTNを更新する。これによって、次回以降、乗員が「あの新しいビルはなに?」とエージェント装置100に質問した場合であっても、その質問に対して正解となる蓋然性の高い「あれは〇〇〇ビルだよ」という応答をすることができる。
なお、エージェント装置100は、サーバ装置200に音声データを送信する際に、GNSS受信機116によって検出された車両Mの位置に加えて、更に、車両センサ114によって検出された車両Mの方位などを含む位置データを送信してよい。この場合、第2車両M2には、第1車両M1の乗員に対して適切な回答をできなかったときの第1車両M1の位置および方位を同じ他車両が選択される。
図17は、ある場面の一例を示す図である。図示の場面では、五叉路の交差点を表している。例えば、ある第1時点において、第1車両M1が五叉路に含まれるある第1車線L1を走行しているときに、その第1車両M1の乗員が「あの新しいビルはなに?」とエージェント装置100に質問し、エージェント装置100がこれに回答できなかったとする。この場合、第1車両M1のエージェント装置100は、音声データとともに、GNSS受信機116によって検出された車両Mの位置と、車両センサ114によって検出された車両Mの方位θ1とを少なくとも含む位置データをサーバ装置200に送信する。
サーバ装置200は、音声データと、位置および方位を含む位置データとを受信すると、位置(地図座標)および方位ごとに、テキスト化された会話パターンを対応付けた会話パターンデータPTNを生成する。そして、サーバ装置200は、第1時点、または第1時点よりも後の第2時点において、第1車両M1と同じ位置および同じ方位である車両Mを、第1エージェントデータの送信対象とする第2車両M2として選択する。図示の例では、ある第2車線L2を走行している車両MXが第2車両M2の候補となる。しかしながら、第1車両M1の方位θ1は、およそ北東45度(真北を方位0度基準)であるのに対して、車両MXの方位θXは、およそ北西315度であることから、サーバ装置200は、車両MXを第2車両M2として選択しない。
一般的に、GNSSの検出値には数メートル程度の測位誤差が含まれる場合があり、第1エージェントデータの送信対象とする第2車両M2を、GNSSの測位結果だけを頼りに探索した場合、図中の第1車両M1と車両MXは同位置であると判定され得る。これに対して、各車両Mの方位θを利用して第2車両M2を探索する場合、第1車両M1の乗員が発話するに至った状況により近い状況に置かれた車両を第2車両M2として選択することができる。
例えば、第1車線L1を走行する車両M1の進行方向前方には、建物B2が存在しており、仮に、その車両M1の乗員が「あのビルはなに?」とエージェント装置100に質問した場合、「あのビル」は、建物B2を指している蓋然性が高くなる。一方、第2車線L2を走行する車両MXの進行方向前方には、建物B1が存在しており、仮に、その車両MXのエージェント装置100が「あのビルはなに?」というエージェント音声を出力した場合、第2車線L2を走行する車両MXの乗員は、「あのビル」の「あの」という指示語が「建物B1」を指しているものだと解釈し得る。この結果、建物B2に関する質問に対して、建物B1に関する回答がなされる場合がある。
従って、乗員が発話するフレーズに、「これ」、「あれ」、「あの」、「その」といった指示語(英語であれば「this」や「that」など)が含まれている場合、各車両Mの位置および方位に基づいて、乗員(話し手)がそれらの指示語を無意識に使用するに至った地点と状況をより正確に再現している車両を、第1エージェントデータの送信対象とする第2車両M2に決定する。この結果、指示語の意味を正確に解釈せずとも、より乗員と自然な会話をすることができる会話パターンを生成することができる。
また、第1車両M1のエージェント装置100は、音声データおよび位置データに加えて、更に、車両センサ114によって検出された車両Mの速度や、加速度、ヨーレート、操舵トルクといったような、乗員がどのように車両Mを運転しているのかを表すデータ(以下、運転操作データと称する)をサーバ装置200に送信してよい。この場合、サーバ装置200は、車両Mの位置および運転操作ごとに、テキスト化された会話パターンを対応付けた会話パターンデータPTNを生成する。サーバ装置200の通信制御部222は、第1エージェントデータの送信対象とする第2車両M2候補が複数台存在する場合、第1車両M1の運転操作データと類似した運転操作データを送信している候補車両を、第2車両M2に決定する。この結果、サーバ装置200は、傾斜が大きい地点や大きな加減速を伴う地点などでなされやすい会話パターンを生成することができる。
以上説明した第1実施形態によれば、第1車両M1の乗員の音声を示す音声データと、第1車両M1の位置および方位のうち少なくとも第1車両M1の位置を含む位置データとを、サーバ側通信部202を介して、第1車両M1から取得する取得部212と、取得部212によって取得された音声データおよび位置データのうち、第1車両M1の乗員が発話した第1時点における第1車両の位置を示す位置データに対して、第1時点に第1車両の乗員が発話した音声を示す音声データをテキスト化したフレーズ(音声関連データの一例)を対応付けた会話パターンデータPTNを生成するパターンデータ生成部224と、を備えることによって、例えば、会話パターンデータPTNに存在する、ある第kフレーズを発話した乗員に、その第kフレーズに続く第k+1フレーズのエージェント音声を出力することができるため、人間と自然な会話を行うことができる。
上述したように、車両Mに乗車した乗員と音声対話を行う場合、乗員が、風景やランドマークなどについてエージェント装置100(ヒューマンマシンインターフェース)に質問することがある。このような質問には、「これ」、「あれ」、「あの」、「その」といった指示語が含まれることが多く、言葉の抽象度が高い傾向にある。そのため、従来の技術では、乗員が発話した言葉の意味を正確に認識できず、乗員の質問に対して適切に回答できない場合がある。また、車両Mの進行方向前方をカメラで撮像し、そのカメラの画像を画像解析することで乗員が指し示しているものを視覚的に認識することも考えられるが、上述したように、乗員が使った指示語が、乗員から見てどの方向のなにを指し示しているのかがわからない限り、認識対象を特定することが困難である。
これに対して、第1実施形態では、ある第1車両M1の乗員が発話した音声に基づくエージェント音声を第2車両M2の乗員に聞かせ、その乗員が発話した音声を、第1車両M1の乗員の音声に対して会話が成立する会話パターンとすることで、乗員が発話した音声の意味を解釈せずとも、人間と自然な会話を行うことができる。特に、第1車両M1の乗員がなにげなく発話した「あそこにデパートなんてできたんだ…」というような独り言のような音声に対して、第2車両M2の乗員が「そうみたいだね」のような相槌(間投詞)を伴うような発話をすれば、この相槌を独り言に対応付けることで、質問と、その回答というような特定の会話のパターンに限られず、人間同士が自然に行うあらゆる会話パターンを学習することができる。
<第1実施形態の変形例>
以下、第1実施形態の変形例について説明する。上述した第1実施形態では、各車両Mに搭載されたエージェント装置100と、サーバ装置200とが互いに異なる装置であるものとして説明したがこれに限られない。例えば、サーバ装置200は、エージェント装置100のエージェント側制御部120の構成要素であってよい。すなわち、サーバ装置200は、エージェント装置100のエージェント側制御部120によって仮想的に実現される仮想マシンであってもよい。この場合、エージェント装置100は、「情報処理装置」の他の例である。
以下、第1実施形態の変形例について説明する。上述した第1実施形態では、各車両Mに搭載されたエージェント装置100と、サーバ装置200とが互いに異なる装置であるものとして説明したがこれに限られない。例えば、サーバ装置200は、エージェント装置100のエージェント側制御部120の構成要素であってよい。すなわち、サーバ装置200は、エージェント装置100のエージェント側制御部120によって仮想的に実現される仮想マシンであってもよい。この場合、エージェント装置100は、「情報処理装置」の他の例である。
図18は、第1実施形態に係るエージェント装置100の他の例を示す図である。図18に示すように、エージェント装置100のエージェント側制御部120は、上述した取得部122、音声合成部124、出力制御部126、および通信制御部128に加えて、更に、発話期間抽出部214と、音声認識部216と、判定部218と、エージェントデータ生成部220と、パターンデータ生成部224を備えてよい。
また、エージェント装置100のエージェント側記憶部150には、会話パターンデータPTNが格納されてよい。
このような構成によって、エージェント装置100単体で、乗員が発話したフレーズに対して、他の乗員が発話しやすいフレーズのエージェント音声を出力することができるため、人間と自然な会話を行うことができる。
<第2実施形態>
以下、第2実施形態について説明する。第2実施形態では、車両Mに複数の乗員が乗車している場合、顔画像や音声といった乗員の生体情報に基づいて、各乗員を識別する点で上述した第1実施形態と相違する。以下、第1実施形態との相違点を中心に説明し、第1実施形態と共通する点については説明を省略する。なお、第2実施形態の説明において、第1実施形態と同じ部分については同一符号を付して説明する。
以下、第2実施形態について説明する。第2実施形態では、車両Mに複数の乗員が乗車している場合、顔画像や音声といった乗員の生体情報に基づいて、各乗員を識別する点で上述した第1実施形態と相違する。以下、第1実施形態との相違点を中心に説明し、第1実施形態と共通する点については説明を省略する。なお、第2実施形態の説明において、第1実施形態と同じ部分については同一符号を付して説明する。
図19は、第2実施形態に係るサーバ装置200の構成の一例を示す図である。第2実施形態に係るサーバ装置200のサーバ側制御部210は、例えば、上述した取得部212、発話期間抽出部214、音声認識部216、判定部218、エージェントデータ生成部220、通信制御部222、およびパターンデータ生成部224に加えて、更に乗員識別部226を備える。
第2実施形態における取得部212は、サーバ側通信部202を介して、第1車両M1から、音声データ、位置データ、および車室内カメラ104により生成された画像データを取得する。また、取得部212は、サーバ側通信部202を介して、第2車両M2から、音声データ、位置データ、および車室内カメラ104により生成された画像データを取得してもよい。
乗員識別部226は、取得部212によって取得された音声データまたは画像データの少なくとも一方(好ましくは双方)に基づいて、第1車両M1または第2車両M2に乗車した各乗員を識別する。例えば、乗員識別部226は、音声データを解析して、声の高さ、イントネーション、リズム(音の高低のパターン)、メル周波数ケプストラム係数等の特徴量を抽出し、各乗員を識別してよい。また、乗員識別部226は、音声データを解析して、目や口、鼻といった顔の部位の特徴点を抽出し、各乗員を識別してよい。
第2実施形態におけるエージェントデータ生成部220は、乗員識別部226によって各乗員が識別されると、その識別された複数の乗員のうち、発話した第1乗員の音声データに基づいて、第1乗員とは異なる第2乗員に対して発話するエージェント音声の元となる第1エージェントデータを生成する。
図20は、第1車両M1に複数の乗員が乗車している場面の一例を示す図である。例えば、第1車両M1に乗車した複数の乗員のうち、乗員Aがエージェント装置100に対して「エージェント、あの新しいビルはなに?」と質問したとする。この場合、第1車両M1のエージェント装置100は、その質問の音声データと、第1車両M1の位置データとをサーバ装置200に送信する。
図21は、複数の乗員が乗車した第1車両M1のエージェント装置100が出力し得るエージェント音声を表した図である。例えば、図20に例示するように、第1車両M1の乗員Aが「エージェント、あの新しいビルはなに?」と質問した場合に、サーバ装置200の判定部218は、会話パターンデータPTNを参照し、「あの新しいビルはなに?」というフレーズに対して後に続くフレーズが存在する会話パターンが存在するか否かを判定する。サーバ装置200の乗員識別部226は、会話パターンの中に「あの新しいビルはなに?」というフレーズに対して後に続くフレーズが存在しない場合、各乗員の顔画像や音声に基づいて第1車両M1に乗車した各乗員を識別する。
サーバ装置200のエージェントデータ生成部220は、乗員識別部226によって識別された複数の乗員のうち、質問した乗員Aと異なる乗員Bまたは乗員Cに対して、乗員Aの質問をテキスト化した第1エージェントデータを生成する。例えば、エージェントデータ生成部220は、乗員Aの質問を表すフレーズに加えて、乗員Bや乗員Cの氏名などを含む第1エージェントデータを生成する。そして、サーバ装置200の通信制御部222は、第1エージェントデータを第1車両M1のエージェント装置100に送信する。これを受けて第1車両M1のエージェント装置100は、「ねぇBさん、あの新しいビルはなに?」というエージェント音声を、乗員Bが着座する助手席に最も近いスピーカ108Cから出力する。
図22は、図21に例示する場面で出力されたエージェント音声に対して第1車両M1の乗員が発話し得るフレーズを表した図である。例えば、図21に例示するように、「ねぇBさん、あの新しいビルはなに?」というエージェント音声が出力された場合、第1車両の乗員Bは、「あれは〇〇〇ビルだよ」と答える場合がある。この場合、第1車両M1のエージェント装置100は、「あれは〇〇〇ビルだよ」という乗員Bの音声データとともに、第1車両M1の位置データをサーバ装置200に送信する。
これを受けて、サーバ装置200は、第1車両M1の乗員Aが発話した「あの新しいビルはなに?」というフレーズの後に、同じ車両に乗車する乗員Bが発話した「あれは〇〇〇ビルだよ」というフレーズを対応付けた新たな会話パターンを生成する。このように、同じ車両Mに複数名の乗員が乗車している場合、何かを発言した第1乗員(図示の例では乗員A)とは異なる第2乗員(図示の例では乗員BまたはC)に、第1乗員が発話したことをオウム返しで問いかけることで、他車両と通信せずとも、会話パターンを生成することができる。
また、サーバ装置200は、第1エージェントデータを第1車両M1とは異なる第2車両M2に送信し、第2車両M2のエージェント装置100にエージェント音声を出力させた後に、第2車両M2の第1乗員が何も回答しなかったり、「わからない」のような予め決められた定型文を回答したりした場合、第2車両M2のさらに別の第2乗員に向けたエージェント音声を出力させてもよい。
図23は、第2車両M2のエージェント装置100が出力し得るエージェント音声を表した図である。例えば、第2車両M2のエージェント装置100は、スピーカ108Aなどを介して、第1車両M1の乗員が質問した「あの新しいビルはなに?」というフレーズを含むエージェント音声を出力する。
図24は、エージェント音声が出力された後に第2車両M2の乗員が発話し得るフレーズを表した図である。例えば、図23に例示するように、「ねぇドライバーさん、あの新しいビルはなに?」というエージェント音声が出力された場合、第2車両M2に乗車する複数の乗員のうち、運転手である乗員Dが、「わからない」と答える場合がある。この場合、第2車両M2のエージェント装置100は、「わからない」という音声データとともに、第2車両M2の位置データをサーバ装置200に送信する。
これを受けてサーバ装置200は、第1エージェントデータを送信した第2車両M2から受信した音声データが「わからない」という定型文であるため、第2車両M2に乗車する別の乗員の氏名などを含む第1エージェントデータを、再度第2車両M2に送信する。
図25は、第1エージェントデータが再送された第2車両M2のエージェント装置100が出力し得るエージェント音声を表した図である。例えば、第2車両M2のエージェント装置100は、再送された第1エージェントデータが助手席の乗員Eに向けたものである場合、助手席に最も近いスピーカ108Cを介して、第1車両M1の乗員が質問した「あの新しいビルはなに?」というフレーズに対して乗員Eの氏名が含まれる「ねぇEさん、あの新しいビルはなに?」というフレーズのエージェント音声を出力する。
図26は、再度エージェント音声が出力された後に第2車両M2の乗員が発話し得るフレーズを表した図である。例えば、図25に例示するように、「ねぇEさん、あの新しいビルはなに?」というエージェント音声が出力された場合、第2車両M2の乗員Eは、「あれは〇〇〇ビルだよ」と答える場合がある。この場合、第2車両M2のエージェント装置100は、「あれは〇〇〇ビルだよ」という乗員Eの音声データとともに、第2車両M2の位置データをサーバ装置200に送信する。
これを受けて、サーバ装置200は、第1車両M1の乗員が発話した「あの新しいビルはなに?」というフレーズの後に、第2車両M2に乗車する乗員Eが発話した「あれは〇〇〇ビルだよ」というフレーズを対応付けた新たな会話パターンを生成する。このように、第1エージェントデータを第2車両M2に送信したときに、その第2車両M2の第1乗員が第1車両M1の乗員の質問に答えられなかった場合であっても、同じ第2車両M2の第2乗員が回答するこができた場合、それらの受け答えを会話パターンとして生成することができる。
以上説明した第2実施形態によれば、何かを発言した第1乗員の音声に基づくエージェント音声を第2乗員に向けて出力することで、より精度よく会話パターンを生成することができる。この結果、更に人間と自然な会話を行うことができる。
<第3実施形態>
以下、第3実施形態について説明する。第3実施形態では、テキスト化された音声の意味を認識する点で上述した第1または第2実施形態と相違する。以下、第1または第2実施形態との相違点を中心に説明し、第1または第2実施形態と共通する点については説明を省略する。なお、第3実施形態の説明において、第1または第2実施形態と同じ部分については同一符号を付して説明する。
以下、第3実施形態について説明する。第3実施形態では、テキスト化された音声の意味を認識する点で上述した第1または第2実施形態と相違する。以下、第1または第2実施形態との相違点を中心に説明し、第1または第2実施形態と共通する点については説明を省略する。なお、第3実施形態の説明において、第1または第2実施形態と同じ部分については同一符号を付して説明する。
図27は、第3実施形態に係るサーバ装置200の構成の一例を示す図である。第3実施形態に係るサーバ装置200のサーバ側制御部210は、例えば、上述した取得部212、発話期間抽出部214、音声認識部216、判定部218、エージェントデータ生成部220、通信制御部222、およびパターンデータ生成部224に加えて、更に言語処理部228を備える。
言語処理部228は、音声認識部216が音声データをテキスト化したテキストデータに対して、形態素解析、構文解析、意味解析、文脈解析などの自然言語処理を行って、音声の意味を解釈する。形態素解析は、例えば、文字情報を、意味を持つ最小の表現要素の単位に分割し、分割した単位(形態素)ごとの品詞等を解析する。構文解析は、例えば、形態素解析により得られた形態素をもとに、文の構造を解析する。意味解析は、例えば、構文解析により得られた構文をもとに、意味を持つまとまりを判別する。文脈解析は、例えば、文単位や文脈単位で意味を認識する。
第3実施形態におけるパターンデータ生成部224は、例えば、言語処理部228による意味解釈の結果に基づいて、会話パターンとして残すべきパターンとそうでないパターンとを分類し、残すべきパターンのみを会話パターンデータPTNとしてサーバ側記憶部230に格納する。
例えば、パターンデータ生成部224は、第1車両M1の乗員の音声データをテキスト化したフレーズが、言語処理部228によってランドマークなどに関する質問であると解釈された場合に、第1エージェントデータが送信された第2車両M2の乗員の音声データをテキスト化したフレーズが、言語処理部228によってランドマークとは関係のないゴシップに関する話題であると解釈された場合、それらを対応付けた会話パターンを残すべきでないパターンに分類する。
以上説明した第3実施形態によれば、乗員の発話内容の意味を解釈したうえで、会話パターンを生成することで、更に人間と自然な会話を行うことができる。
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
例えば、上述した実施形態では、一例として、移動体が車両であるものとして説明したがこれに限られない。例えば、移動体は、船舶や飛行物体などの他の移動体であってもよい。この場合、例えば、複数の遊覧船や複数の遊覧飛行機等のキャビン等にエージェント装置100が配設されていればよい。さらに、これらの移動体には、移動体を運転操作する操舵手がいれば、エージェント装置100が、運転操作をしない他の乗員(乗客)と音声対話を行うことで接客することができるため、キャビンアテンダントは乗客への他のサービスに注力することができる。また、エージェント装置100は、タクシーやバス等に配設されてもよい。この場合、エージェント装置100が乗客と音声対話を行うことで接客することができるため、それらの車両の運転手は運転操作に注力することができる。なお、ある車両に搭載されたエージェント装置100が乗員の質問に答えられない場合、いずれかの車両の乗員が、その質問に答えることができれば、全ての車両のエージェント装置100が、自然な会話としてシステム的に対応することができる。
1…エージェントシステム、100…エージェント装置、102…エージェント側通信部、104…車室内カメラ、106…マイクロフォン、108…スピーカ、110…表示部、112…入力部、114…車両センサ、116…GNSS受信機、120…エージェント側制御部、122…取得部、124…音声合成部、126…出力制御部、128…通信制御部、150…エージェント側記憶部、200…サーバ装置、202…サーバ側通信部、210…サーバ側制御部、212…取得部、214…発話期間抽出部、216…音声認識部、218…判定部、220…エージェントデータ生成部、222…通信制御部、224…パターンデータ生成部、226…乗員識別部、228…言語処理部、230…サーバ側記憶部
Claims (13)
- 第1車両の乗員の音声に基づく第1音声関連データと、少なくとも前記第1車両の位置を示す第1位置データとを、前記第1車両から取得する取得部と、
前記取得部によって取得された前記第1音声関連データおよび前記第1位置データのうち、前記第1車両の乗員が発話した第1時点における前記第1車両の位置を示す前記第1位置データに対して、前記第1時点に前記乗員が発話した音声に基づく前記第1音声関連データを対応付けたパターンデータを生成する第1生成部と、
を備える情報処理装置。 - 請求項1に記載の情報処理装置において、
一以上の車両と通信する通信部と、
前記第1生成部によって生成された前記パターンデータに含まれる前記第1位置データが示す位置に、前記第1車両と異なる第2車両が存在する場合、前記パターンデータとして前記第1位置データに対応付けられた前記第1音声関連データに基づくエージェントデータを、前記通信部を介して前記第2車両に送信する通信制御部と、を更に備える、
情報処理装置。 - 請求項2に記載の情報処理装置において、
前記取得部は、前記第1車両の位置に加えて、更に前記第1車両の方位を示す前記第1位置データを前記第1車両から取得し、
前記通信制御部は、前記第2車両の位置および方位が、前記第1位置データが示す位置および方位と同じ場合、前記第1位置データに対応付けられた前記第1音声関連データに基づくエージェントデータを、前記通信部を介して前記第2車両に送信する、
情報処理装置。 - 請求項2または3に記載の情報処理装置において、
前記取得部は、更に、前記第1車両の運転操作に関する運転操作データを前記第1車両から取得し、
前記通信制御部は、前記運転操作データが示す運転操作と同じ運転操作によって前記第2車両が運転される場合、前記第1位置データに対応付けられた前記第1音声関連データに基づくエージェントデータを、前記通信部を介して前記第2車両に送信する、
情報処理装置。 - 請求項2から4のうちいずれか一項に記載の情報処理装置において、
前記取得部は、前記エージェントデータが送信された前記第2車両の乗員の音声に基づく第2音声関連データを、前記第2車両から取得し、
前記第1生成部は、前記取得部により取得された前記第2音声関連データを前記パターンデータに対応付ける、
情報処理装置。 - 請求項5に記載の情報処理装置において、
前記取得部は、
前記第1車両の乗員が質問として発話した音声に基づく音声関連データを前記第1音声関連データとして前記第1車両から取得し、
前記第2車両の乗員が前記質問への回答として発話した音声に基づく音声関連データを前記第2音声関連データとして前記第2車両から取得する、
情報処理装置。 - 請求項5または6に記載の情報処理装置において、
前記取得部は、前記第1車両および前記第2車両を含む複数の車両のいずれかの車両を示す第3車両が、前記第1位置データが示す位置に存在する場合、前記第3車両の乗員の音声に基づく第3音声関連データを、前記第3車両から取得し、
前記通信制御部は、前記取得部によって前記第3音声関連データが取得された場合に、前記第3音声関連データと、前記第1位置データに対応付けられた前記第1音声関連データとが同じ場合、前記パターンデータに対応付けられた前記第2音声関連データに基づくエージェントデータを、前記通信部を介して前記第3車両に送信する、
情報処理装置。 - 請求項2から7のうちいずれか一項に記載の情報処理装置において、
前記第1車両に複数の乗員が乗車している場合に、前記複数の乗員のそれぞれの生体情報に基づいて、前記複数の乗員のそれぞれを識別する識別部と、
前記識別部によって識別された前記複数の乗員のそれぞれの音声に基づく前記第1音声関連データのうち、第1乗員の音声に基づく前記第1音声関連データに基づいて、前記複数の乗員のうち、前記第1乗員と異なる第2乗員に対して発話する人工音声の元となるエージェントデータを生成する第2生成部と、
前記第2生成部により生成された前記エージェントデータを、前記通信部を介して前記第1車両に送信する通信制御部と、を更に備える、
情報処理装置。 - 乗員が乗る第1移動体に設置された第1マイクロフォン、および少なくとも前記第1移動体の位置を検出する第1センサ、を有する前記第1移動体と、
乗員が乗る第2移動体に設置された第2マイクロフォン、少なくとも前記第2移動体の位置を検出する第2センサ、および前記第2移動体に設置された第2スピーカ、を有する前記第2移動体と、
第1時点において前記第1センサによって検出された前記第1移動体の位置と、前記第1時点よりも後の第2時点において前記第2センサによって検出された前記第2移動体の位置とが同じ場合、前記第1時点において前記第1マイクロフォンによって収音された前記第1移動体の乗員の音声に基づく人工音声を、前記第2スピーカに出力させる出力制御部と、
前記第2スピーカによって前記人工音声が出力された後に、前記第2マイクロフォンによって収音された前記第2移動体の乗員の音声に基づく第2音声関連データと、前記第1時点において前記第1マイクロフォンによって収音された前記第1移動体の乗員の音声に基づく第1音声関連データとを対応付けたパターンデータを生成する第1生成部と、
を備えるエージェントシステム。 - 請求項9に記載のエージェントシステムにおいて、
前記第1移動体は、更に第1スピーカを有し、
前記第1移動体に複数の乗員が乗車している場合に、前記複数の乗員のそれぞれの生体情報に基づいて、前記複数の乗員のそれぞれを識別する識別部と、
前記識別部によって識別された前記複数の乗員のうち、ある第1乗員の音声が前記第1マイクロフォンによって収音された場合、前記第1乗員の音声に基づいて、前記複数の乗員のうち、前記第1乗員と異なる第2乗員に対して発話する人工音声を生成する第2生成部と、を更に備え、
前記出力制御部は、前記第2生成部によって生成された前記人工音声を前記第1スピーカに出力させる、
エージェントシステム。 - 請求項10に記載のエージェントシステムにおいて、
前記第1生成部は、前記第1スピーカによって前記人工音声が出力された後に、前記第1マイクロフォンによって収音された前記第2乗員の音声に基づく前記第1音声関連データと、前記第1乗員の音声に基づく前記第1音声関連データとを対応付けた前記パターンデータを生成する、
エージェントシステム。 - コンピュータが、
第1移動体の乗員の音声に基づく第1音声関連データと、少なくとも前記第1移動体の位置を示す第1位置データとを、前記第1移動体から取得するプロセスと、
前記取得した前記第1音声関連データおよび前記第1位置データのうち、前記第1移動体の乗員が発話した第1時点における前記第1移動体の位置を示す前記第1位置データに対して、前記第1時点に前記乗員が発話した音声に基づく前記第1音声関連データを対応付けたパターンデータを生成するプロセスと、
を実行する、情報処理方法。 - 単一または複数のコンピュータにインストールされ、
第1移動体の乗員の音声に基づく第1音声関連データと、少なくとも前記第1移動体の位置を示す第1位置データとを、前記第1移動体から取得する処理と、
前記取得した前記第1音声関連データおよび前記第1位置データのうち、前記第1移動体の乗員が発話した第1時点における前記第1移動体の位置を示す前記第1位置データに対して、前記第1時点に前記乗員が発話した音声に基づく前記第1音声関連データを対応付けたパターンデータを生成する処理と、
を前記コンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018212916A JP2020079865A (ja) | 2018-11-13 | 2018-11-13 | 情報処理装置、エージェントシステム、情報処理方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018212916A JP2020079865A (ja) | 2018-11-13 | 2018-11-13 | 情報処理装置、エージェントシステム、情報処理方法、およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020079865A true JP2020079865A (ja) | 2020-05-28 |
Family
ID=70802456
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018212916A Pending JP2020079865A (ja) | 2018-11-13 | 2018-11-13 | 情報処理装置、エージェントシステム、情報処理方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2020079865A (ja) |
-
2018
- 2018-11-13 JP JP2018212916A patent/JP2020079865A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9202465B2 (en) | Speech recognition dependent on text message content | |
US11107464B2 (en) | Feeling estimation device, feeling estimation method, and storage medium | |
JP6173477B2 (ja) | ナビゲーション用サーバ、ナビゲーションシステムおよびナビゲーション方法 | |
US11443747B2 (en) | Artificial intelligence apparatus and method for recognizing speech of user in consideration of word usage frequency | |
WO2014057540A1 (ja) | ナビゲーション装置およびナビゲーション用サーバ | |
US20200058290A1 (en) | Artificial intelligence apparatus for correcting synthesized speech and method thereof | |
US20190385591A1 (en) | Artificial intelligence device for learning de-identified speech signal and method therefor | |
JP7250547B2 (ja) | エージェントシステム、情報処理装置、情報処理方法、およびプログラム | |
JP2021033048A (ja) | 車載装置、発声を処理する方法およびプログラム | |
US20200111489A1 (en) | Agent device, agent presenting method, and storage medium | |
EP1024476A1 (en) | Speech recognizing device and method, navigation device, portable telephone, and information processor | |
CN107885720B (zh) | 关键词生成装置以及关键词生成方法 | |
JP7222757B2 (ja) | エージェント装置、エージェント装置の制御方法、およびプログラム | |
JP2020079865A (ja) | 情報処理装置、エージェントシステム、情報処理方法、およびプログラム | |
CN114690896A (zh) | 信息处理装置、信息处理方法及存储介质 | |
JP2020144285A (ja) | エージェントシステム、情報処理装置、移動体搭載機器制御方法、及びプログラム | |
JP2020166073A (ja) | 音声インタフェイスシステム、制御方法及びプログラム | |
JP7274376B2 (ja) | エージェント装置、エージェント装置の制御方法、およびプログラム | |
JP7178983B2 (ja) | エージェント装置、エージェント方法、及びプログラム | |
JP2020060623A (ja) | エージェントシステム、エージェント方法、およびプログラム | |
JP2020166074A (ja) | 音声インタフェイスシステム | |
JP2020142721A (ja) | エージェントシステム、車載機器の制御方法、及びプログラム | |
JP7217209B2 (ja) | 音声対話装置、音声対話方法、及びプログラム | |
JP2020166075A (ja) | 音声インタフェイスシステム | |
JP7254689B2 (ja) | エージェントシステム、エージェント方法、及びプログラム |