JP2020060623A - エージェントシステム、エージェント方法、およびプログラム - Google Patents
エージェントシステム、エージェント方法、およびプログラム Download PDFInfo
- Publication number
- JP2020060623A JP2020060623A JP2018190242A JP2018190242A JP2020060623A JP 2020060623 A JP2020060623 A JP 2020060623A JP 2018190242 A JP2018190242 A JP 2018190242A JP 2018190242 A JP2018190242 A JP 2018190242A JP 2020060623 A JP2020060623 A JP 2020060623A
- Authority
- JP
- Japan
- Prior art keywords
- occupant
- unit
- vehicle
- voice
- agent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
Abstract
【課題】適切な被回答者と対話することができるエージェントシステム、エージェント方法、およびプログラムを提供すること。【解決手段】エージェントシステムは、車両の車室内の音声を収集するマイク(30)と、前記車室内に音声を出力するスピーカ(50)と、前記マイクによって収集された音声を取得し、取得した前記音声に含まれる乗員の発話の内容を解釈する解釈部(210)と、前記解釈部によって解釈された前記発話の内容に応じて、前記スピーカに前記乗員に話しかける音声を出力させるエージェント制御部であって、前記解釈部によって解釈された前記発話の内容に基づいて、複数の乗員の中から、自装置の回答を受ける被回答者を推定するエージェント制御部(220)と、を備える。【選択図】図1
Description
本発明は、エージェントシステム、エージェント方法、およびプログラムに関する。
近年、種々の機器のインターフェースとして、エージェントシステムが提供する対話を用いる技術が知られている(例えば、特許文献1参照)。
ここで、エージェントシステムが車両において用いられる場合、エージェントシステムは、運転者以外の乗員とエージェントシステムとの対話が、運転者の運転の妨げにならなように、又は運転者とエージェントシステムとの対話が、他の乗員の快適性を損なわないように、エージェント装置の被回答者を推定し、推定した被回答者と対話することが求められる。しかしながら、従来の技術では、発話の有無を検出することができても、被回答者を推定することまでは困難である場合があった。
本発明の態様は、このような事情を考慮してなされたものであり、適切な被回答者と対話することができるエージェントシステム、エージェント方法、およびプログラムを提供することを目的の一つとする。
この発明に係るエージェントシステム、エージェント方法、およびプログラムは、以下の構成を採用した。
(1):この発明の一態様に係るエージェントシステムは、車両の車室内の音声を収集するマイクと、前記車室内に音声を出力するスピーカと、前記マイクによって収集された音声を取得し、取得した前記音声に含まれる乗員の発話の内容を解釈する解釈部と、前記解釈部によって解釈された前記発話の内容に応じて、前記スピーカに前記乗員に話しかける音声を出力させるエージェント制御部であって、前記解釈部によって解釈された前記発話の内容に基づいて、複数の乗員の中から、自装置の回答を受ける被回答者を推定するエージェント制御部と、を備える。
(1):この発明の一態様に係るエージェントシステムは、車両の車室内の音声を収集するマイクと、前記車室内に音声を出力するスピーカと、前記マイクによって収集された音声を取得し、取得した前記音声に含まれる乗員の発話の内容を解釈する解釈部と、前記解釈部によって解釈された前記発話の内容に応じて、前記スピーカに前記乗員に話しかける音声を出力させるエージェント制御部であって、前記解釈部によって解釈された前記発話の内容に基づいて、複数の乗員の中から、自装置の回答を受ける被回答者を推定するエージェント制御部と、を備える。
(2):上記(1)の態様において、エージェントシステムは、画像を表示する表示部をさらに備え、前記エージェント制御部は、前記解釈部によって解釈された前記発話の内容に応じて、前記表示部に前記乗員に提示する画像を出力させる、ものである。
(3):上記(1)〜(2)の態様において、前記エージェント制御部は、前記解釈部によって解釈された前記発話の内容に含まれる、前記被回答者を特定するキーワードに基づいて、前記被回答者を特定するものである。
(4):上記(3)の態様において、前記エージェント制御部は、前記解釈部によって解釈された前記発話の内容に前記キーワードが含まれていない場合、前記車室内が撮像された撮像画像と、乗員の質量を乗員毎に検出した検出結果と、乗員の音声を乗員毎に取得した取得結果とのうち、少なくともいずれか1つに基づいて、前記被回答者を推定するものである。
(5):上記(1)〜(4)の態様において、前記エージェント制御部は、特定の前記被回答者がいない場合、前記車両の乗員の全てが前記被回答者であると推定するものである。
(6):上記(5)の態様において、前記エージェント制御部は、前記車両の乗員の全てが前記被回答者であると推定した場合、前記スピーカに大きい音量、又は低い周波数の音によって前記回答を出力させるものである。
(7):この発明の一態様に係るエージェント方法は、車両の車室内の音声を収集するマイクと、前記車室内に音声を出力するスピーカと、を備える車両に搭載されたコンピュータに、前記マイクによって収集された音声を取得し、取得した前記音声に含まれる乗員の発話の内容を解釈させ、解釈された前記発話の内容に応じて、前記スピーカに前記乗員に話しかける音声を出力させ、前記解釈部によって解釈された前記発話の内容に基づいて、複数の乗員の中から、自装置の回答を受ける被回答者を推定させる。
(8):この発明の一態様に係るプログラムは、車両の車室内の音声を収集するマイクと、前記車室内に音声を出力するスピーカと、を備える車両に搭載されたコンピュータが、前記マイクによって収集された音声を取得し、取得した前記音声に含まれる乗員の発話の内容を解釈し、解釈された前記発話の内容に応じて、前記スピーカに前記乗員に話しかける音声を出力し、前記解釈部によって解釈された前記発話の内容に基づいて、複数の乗員の中から、自装置の回答を受ける被回答者を推定する。
(1)〜(8)によれば、適切な被回答者と対話することができる。
(3)〜(5)によれば、より適切に被回答者と対話することができる。
(6)によれば、より被回答者がわかりやすい形態によって対話することができる。
以下、図面を参照し、本発明のエージェントシステム、エージェント方法、およびプログラムの実施形態について説明する。また、以下では、車両に搭載され、対話型エージェント機能を備えたエージェント装置によって、エージェントシステムが構成される場合について説明する。エージェント装置とは、例えば、車両の乗員と対話をしながら、乗員の要求に基づく各種の情報提供や車両内の機器の制御を行うものである。また、エージェント装置は、乗員の表情や声の調子から乗員の状態を判断して運転支援を行ったり、乗員のライフスタイルや嗜好を学習して、状況に応じた選択肢の提案を行うこともできる。エージェント装置は、乗員に対話者を視認させるため、擬人化された動物やキャラクタ等の画像(以下、エージェント画像と称する)を表示部に表示させる。エージェント装置は、例えば、乗員の音声を認識する音声認識処理(音声をテキスト化する処理)に加え、自然言語機能(テキストの構造や意味を理解する処理)、対話制御処理、検索処理等を統合的に利用して実現される。また、これらの処理の一部または全部は、AI(Artificial Intelligence)技術によって実現される。また、これらの処理を行う構成の一部または全部は、車両と通信可能なサーバ装置等に設けられる。以降の説明では、これらの処理を行う構成のすべてを、車両に搭載されるエージェント装置が備える場合について説明する。
[全体構成]
図1は、第1実施形態に係るエージェント装置1の構成図である。エージェント装置1は、車両Mの乗員と対話を行い、乗員からの音声等による問い合わせに対して、問い合わせに対する回答を、所定の出力態様で乗員に提示する。以下の説明において、乗員とは、例えば、運転席に着座する乗員(以下、運転者)であるが、これに加えて助手席や後部座席に着座する乗員(同乗者)でもよい。エージェント装置1は、エージェントシステムの一例である。
図1は、第1実施形態に係るエージェント装置1の構成図である。エージェント装置1は、車両Mの乗員と対話を行い、乗員からの音声等による問い合わせに対して、問い合わせに対する回答を、所定の出力態様で乗員に提示する。以下の説明において、乗員とは、例えば、運転席に着座する乗員(以下、運転者)であるが、これに加えて助手席や後部座席に着座する乗員(同乗者)でもよい。エージェント装置1は、エージェントシステムの一例である。
エージェント装置1は、通信装置10と、車室内カメラ20と、マイク30と、表示部40と、スピーカ50と、着座センサ60と、操作部70と、ナビゲーション装置80と、エージェント制御装置100とを備える。これらの装置や機器は、CAN(Controller Area Network)通信線等の多重通信線やシリアル通信線、無線通信網等によって互いに接続される。なお、図1に示す構成はあくまで一例であり、構成の一部が省略されてもよいし、更に別の構成が追加されてもよい。
通信装置10は、例えば、セルラー網やWi−Fi網、Bluetooth(登録商標)、DSRC(Dedicated Short Range Communication)等を利用して、ネットワークNWを介して他車両やサーバ装置等の他の装置(不図示)と通信する。
車室内カメラ20は、例えば、車両Mの車室内に設置されたシートに着座する乗員の顔を含む画像を撮像する。車室内カメラ20は、例えば、CCD(Charge Coupled Device)やCMOS(Complementary Metal Oxide Semiconductor)等の固体撮像素子を利用したデジタルカメラである。車室内カメラ20は、例えば、所定のタイミングで乗員を撮像する。車室内カメラ20の撮像画像は、エージェント制御装置100に出力される。
マイク30は、車室内の音声を集音する音声入力装置である。例えば、マイク30は、ステアリングホイールに設置される。また、マイク30は、乗員が車室内のシートに着座したときの前方付近に設置される。例えば、マイク30は、ステアリングホイール、インストルメントパネル、またはシートに設置される。
表示部40は、車室内のシートに着座する乗員の前方付近に設置される。また、スピーカ50は、車室内のシート付近または表示部40付近に設置される。表示部40およびスピーカ50は、車室内に複数設置されてよい。また、着座センサ60は、車室内のシートにそれぞれ設けられる。
図2は、車両Mに設置される表示部およびスピーカを模式的に示す図である。図2の車室内には、表示部40A〜40Dと、スピーカ50A〜50Fとが設置されている。表示部40Aは、例えば、HUD(Head-Up Display)装置である。HUD装置は、風景に重畳させて画像を視認させる装置であり、一例として、車両Mのフロントウインドシールドやコンバイナーに画像を含む光を投光することで、乗員に虚像を視認させる装置である。乗員は、主に運転者であるが、運転者以外の乗員であってもよい。表示部40Aは、ナビゲーション装置80により実行されるナビゲーション処理に対応する画像、その他の画像等を表示する。
表示部40B〜40Dは、例えば、LCD(Liquid Crystal Display)や有機EL(Electro Luminescence)表示装置等である。表示部40Bは、インストルメントパネルIPにおける運転席(例えばステアリングホイールに最も近い座席)の正面付近に設けられ、乗員がステアリングホイールの間隙から、或いはステアリングホイール越しに視認可能な位置に設置され、車両Mの乗員の中で、特に運転席ST1に着座する運転手が視認すべき情報を提示する。表示部40Bは、例えば、車両Mの速度、エンジン回転数、燃料残量、ラジエータ水温、走行距離、その他の情報の画像を表示する。
表示部40Cは、インストルメントパネルIPの中央付近に設けられ、車両Mの乗員の中で、特に運転手と助手席(運転席の隣の座席)ST2に着座する乗員とが視認すべき情報を提示する。表示部40Cは、例えば、ナビゲーション装置80により実行されるナビゲーション処理に対応する画像、その他の画像等を表示する。また、表示部40Cは、テレビ番組を表示したり、DVDを再生したり、ダウンロードされた映画等のコンテンツを表示してもよい。
表示部40Dは、インストルメントパネルIPにおける助手席ST2の正面付近に設けられ、車両Mの乗員の中で、特に助手席ST2に着座する乗員が視認すべき情報を提示する。表示部40Dは、例えば、表示部40Cと同様に、ナビゲーション装置80により実行されるナビゲーション処理に対応する画像、テレビ番組、DVDを再生した動画、ダウンロードされた映画等のコンテンツを表示する。
スピーカ50Aおよびスピーカ50Bは、例えば、車両Mの左右の前方の窓柱(いわゆるAピラー)に設置される。また、スピーカ50Cは、運転席側のドアの下部に設置され、スピーカ50Dは、助手席側のドアの下部に設置される。スピーカ50Eは、表示部40C付近、つまり、インストルメントパネルIPの中央付近に設置される。スピーカ50Fは、車室内の天井の中央部付近に設置される。スピーカ50A、および50Cは、例えば、運転者が傾聴すべき情報(例えば、表示部40A〜40Cに表示される画像に応じた音声)を出力する。また、スピーカ50B、および50Dは、例えば、助手席ST2に着座する乗員が傾聴すべき情報(例えば、表示部40C〜40Dに表示される画像に応じた音声)を出力する。
図3は、車両Mの後部座席に設置される表示部を模式的に示す図である。図3の車室内には、表示部40E〜40Fが設置されている。表示部40E〜40Fは、例えば、LCDや有機EL表示装置等である。表示部40Eは、例えば、運転席ST1のヘッドレストの後ろに設けられ、車両Mの乗員の中で、特に運転席ST1の後ろの座席(以下、後部座席ST3)に着座する乗員が視聴すべき情報を提示する。表示部40Eは、例えば、表示部40C〜40Dと同様に、ナビゲーション装置80により実行されるナビゲーション処理に対応する画像、テレビ番組、DVDを再生した動画、ダウンロードされた映画等のコンテンツを表示する。
表示部40Fは、例えば、助手席ST2のヘッドレストの後ろに設けられ、車両Mの乗員の中で、特に助手席ST2の後ろの座席(以下、後部座席ST4)に着座する乗員が視聴するべき情報を提示する。表示部40Eは、例えば、表示部40C〜40Fと同様に、ナビゲーション装置80により実行されるナビゲーション処理に対応する画像、テレビ番組、DVDを再生した動画、ダウンロードされた映画等のコンテンツを表示する。以降の説明において、運転席ST1、助手席ST2、後部座席ST3、および後部座席ST4を互いに区別しない場合には、単にシートSTと記載する。
なお、上述した表示部40A〜40Fの設置位置は、一例であり、これに限られない。また、車室内には、乗員が車両Mのサイドミラーによって視認可能な情報を車外カメラによって取得し、取得した情報を表示する表示部が設置されていてもよい。
また、車両Mには、後部座席付近にスピーカが設けられる。図4は、後部座席付近のスピーカの位置を説明するための図である。図4の例では、図2に示すスピーカ50A〜50Fの他に、運転席ST1と助手席ST2の後方に設置された後部座席ST3付近にスピーカ50Gおよび50Hが設けられている。具体的には、スピーカ50Gおよび50Hは、左右の方向ドアの下部に設けられる。また、スピーカ50は、車両Mの前方ドアと後方ドアとの間に設けられる窓柱(いわゆるBピラー)に設けられてもよく、後部座席の方向に設けられてもよい。スピーカ50Gは、例えば、後部座席ST3に着座する乗員が傾聴すべき情報(例えば、表示部40Eに表示される画像に応じた音声)を出力する。また、スピーカ50Hは、例えば、後部座席ST4に着座する乗員が傾聴すべき情報(例えば、表示部40Fに表示される画像に応じた音声)を出力する。
また、車両Mには、運転席ST1、助手席ST2、後部座席ST3、および後部座席ST4のそれぞれに着座センサ60(図示する着座センサ60A〜60D)が設けられる。着座センサ60は、例えば、圧力センサによって実現され、シートSTに乗員が着座していることを示す信号をエージェント制御装置100に出力する。
図1に戻り、操作部70は、乗員からの手動による操作を受け付ける。操作部70は、例えば、スイッチやボタン、キー等を備える。操作部70は、例えば、ステアリングホイールやインストルメントパネルに設けられる。また、操作部70は、タッチパネルとして、表示部40と一体に構成されてもよい。
ナビゲーション装置80は、例えば、GNSS(Global Navigation Satellite System)衛星から受信した信号に基づいて、車両Mの位置を特定する。また、ナビゲーション装置80は、特定された車両Mの位置(或いは入力された任意の位置)から、操作部70や表示部40を用いて乗員により入力された目的地までの経路(以下、地図上経路)を、地図情報82を参照して決定する。地図情報82は、例えば、道路を示すリンクと、リンクによって接続されたノードとによって道路形状が表現された情報である。地図情報82は、道路の曲率やPOI(Point Of Interest)情報等を含んでもよい。
ナビゲーション装置80は、地図上経路に基づいて、表示部40を用いた経路案内を行ってもよい。ナビゲーション装置80は、例えば、乗員の保有するスマートフォンやタブレット端末等の端末装置の機能によって実現されてもよい。ナビゲーション装置80は、通信装置10を介してナビゲーションサーバ(不図示)に現在位置と目的地を送信し、ナビゲーションサーバから地図上経路と同等の経路を取得してもよい。
ナビゲーション装置80は、地図上経路に基づいて、表示部40による地図画像表示やスピーカによる音声出力によって、経路案内を行ってもよい。なお、ナビゲーション装置80は、エージェント制御装置100の機能の一つとしてエージェント制御装置100に備えられてもよい。
[エージェント制御装置100]
エージェント制御装置100は、例えば、音声入力部110と、乗員状態解析部120と、提示制御部130と、画像生成部140と、音声生成部150と、アプリ呼出部160と、第1記憶部180と、第2記憶部190と、制御部200とを備える。これらの構成要素は、例えば、CPU(Central Processing Unit)等のコンピュータプロセッサがプログラム(ソフトウェア)を実行することにより実現される。また、これらの構成要素のうち一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)等のハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予め第1記憶部180に格納されていてもよいし、DVDやCD−ROM等の着脱可能な記憶媒体に格納されており、記憶媒体がドライブ装置に装着されることで第1記憶部180、または第2記憶部190にインストールされてもよい。
エージェント制御装置100は、例えば、音声入力部110と、乗員状態解析部120と、提示制御部130と、画像生成部140と、音声生成部150と、アプリ呼出部160と、第1記憶部180と、第2記憶部190と、制御部200とを備える。これらの構成要素は、例えば、CPU(Central Processing Unit)等のコンピュータプロセッサがプログラム(ソフトウェア)を実行することにより実現される。また、これらの構成要素のうち一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)等のハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予め第1記憶部180に格納されていてもよいし、DVDやCD−ROM等の着脱可能な記憶媒体に格納されており、記憶媒体がドライブ装置に装着されることで第1記憶部180、または第2記憶部190にインストールされてもよい。
第1記憶部180は、例えば、HDD、フラッシュメモリ、EEPROM(Electrically Erasable Programmable Read Only Memory)、ROM(Read Only Memory)、またはRAM(Random Access Memory)等により実現される。第1記憶部180は、例えば、電話アプリ182、ラジオアプリ184等のプロセッサによって読み出されて実行されるプログラム、その他の情報等が格納される。電話アプリ182と、ラジオアプリ184の詳細については、後述する。
第2記憶部190は、例えば、HDD、フラッシュメモリ、EEPROM、ROM、またはRAM等により実現される。第2記憶部190は、例えば、回答情報192、パーソナルプロファイル194等の情報が格納される。回答情報192には、文字情報や画像、音声等が含まれ、これらはエージェント装置1の対話に際に用いられる。パーソナルプロファイル194には、発話者の音声の特徴情報や、発話者に関する情報(例えば、性別や年齢、好きなジャンル)等が含まれる。パーソナルプロファイル194は、車両Mの購入時等において、車両Mの所有者によって操作部70から入力された情報に基づいて生成され、第2記憶部190に記憶されてもよく、車両Mにおける乗員の発話の蓄積によって生成(学習)されてもよい。
音声入力部110は、マイク30による音声の入力を受け付ける。音声入力部110は、受け付けられた音声(音声ストリーム)を、制御部200に供給する。
乗員状態解析部120は、車室内カメラ20により撮像された画像に対する解析処理を行い、人物形状や顔形状等の特徴情報を抽出することで車室内のシートに着座する乗員の位置や、乗員の挙動、視線に関する情報を取得する。乗員の挙動には、例えば、乗員の顔の向きや体の姿勢が含まれる。また、乗員状態解析部120は、シートに設けられた圧力センサやその他の検知センサにより、シートに着座する乗員の位置を検知してもよい。
また、乗員状態解析部120は、マイク30により収音された音声を解析し、解析した声の調子から乗員の特徴を解析してもよい。
提示制御部130は、音声入力部110から取得した音声に対する回答情報192に基づいて、乗員に提示する内容を制御する。音声を乗員に提示する内容には、例えば、表示部40により画面に表示させる内容と、スピーカ50により出力させる内容と、車両内の各機能を実現するアプリケーション(以下、アプリと称する)を実行する内容とが含まれる。
また、提示制御部130は、乗員状態解析部120により解析された乗員の状態に基づいて、乗員に提示する内容を制御してもよい。また、提示制御部130は、乗員からの入力情報や乗員に提示した内容の履歴情報を第1記憶部180に記憶しておき、記憶した履歴情報から乗員のライフスタイルや嗜好を学習して、状況に応じた提示内容の制御を行ってもよい。
画像生成部140は、エージェント画像を生成するとともに、生成したエージェント画像を表示する表示部40および画面上における表示位置を設定し、設定した表示部40の表示位置にエージェント画像を表示させる。エージェント画像は、例えば、少なくとも観者によって表情や顔向きが認識される程度の顔画像を含む。例えば、エージェント画像は、顔領域の中に目や鼻に擬したパーツが表されており、顔領域の中のパーツの位置に基づいて顔向きが認識されるものである。また、エージェント画像は、立体的に感じられ、観者によって三次元空間における頭部画像を含むことで、顔向きが認識されるものであってもよい。
例えば、画像生成部140は、音声の内容や回答情報の内容に基づいて、エージェントの表情を変化させたエージェント画像を生成してもよい。例えば、画像生成部140は、乗員からのリクエストに対して適切な回答が得られていない場合には、悲しそうな表情のエージェントの画像を生成し、「ありがとう」等の音声が入力された場合には、うれしそうな表情のエージェントの画像を生成する。また、画像生成部140は、回答情報を表示部40に表示するための画像(以下、回答画像と称する)を生成し、生成した回答画像を表示部40に表示させる。
音声生成部150は、乗員に出力する対話用の音声を生成する。例えば、音声生成部150は、一以上のスピーカ50を用いて、エージェント画像の表示位置に対応する位置に音像を定位させるための音声を生成する。音像が定位するとは、例えば、スピーカ50から出力されて乗員の左右の耳に伝達される音の大きさを調節することにより、乗員が感じる音源の空間的な位置を定めることである。音像は、例えば、音源が元々保有している音特性や、車室内環境の情報、頭部伝達関数(HRTF;Head-related transfer function)に基づいて定まる。音声生成部150は、このような原理を利用して、音像を所定の位置に定位させることができる。
アプリ呼出部160は、提示制御部130により選択されたアプリを第1記憶部180により呼び出し、呼び出したアプリを制御部200で実行することで、そのアプリの機能を実現させる。例えば、制御部200により電話アプリ182が実行された場合には、通信装置10を介して外部の通話機能を備えた端末と通信を行い、マイク30やスピーカ50を用いて、端末所持者との通話が実現される。また、制御部200によりラジオアプリ184が実行された場合には、通信装置10を介してラジオ局から乗員が指定した周波数で発信された音声情報を取得し、取得した音声情報をスピーカ50から出力する機能が実現される。また、制御部200によりナビアプリ176が実行された場合には、ナビゲーション装置80と連携した経路案内機能等が実現される。
[エージェント装置1が応対する乗員について]
制御部200の説明に先立って、エージェント装置1が応対する乗員について説明する。上述したように、車両Mの乗員は、エージェント装置1に対して質問や指示等を発話し、エージェント装置1は、乗員が発話した内容に応じた回答を出力する。この場合、エージェント画像は、質問や指示等を発話した乗員が視認し易い表示部40に表示され、且つ回答を示す音声は、質問や指示等を発話した乗員が傾聴し易いスピーカ50から出力されることが好ましい。本実施形態のエージェント装置1は、発話した乗員を推定し、推定した乗員に対して応対を行う。以下、制御部200の処理の内容について説明する。
制御部200の説明に先立って、エージェント装置1が応対する乗員について説明する。上述したように、車両Mの乗員は、エージェント装置1に対して質問や指示等を発話し、エージェント装置1は、乗員が発話した内容に応じた回答を出力する。この場合、エージェント画像は、質問や指示等を発話した乗員が視認し易い表示部40に表示され、且つ回答を示す音声は、質問や指示等を発話した乗員が傾聴し易いスピーカ50から出力されることが好ましい。本実施形態のエージェント装置1は、発話した乗員を推定し、推定した乗員に対して応対を行う。以下、制御部200の処理の内容について説明する。
[制御部200]
制御部200は、例えば、エージェント制御装置100の各機能部に実行および停止を制御する。制御部200は、例えば、各機能部からの要求をAPI(Application Programming Interface)によって受け付け、受け付けた要求に基づく処理を実行する機能部を選択し、選択した機能部に、APIを介して処理を実行させる。制御部200は、受け付けた要求に基づく処理を実行する機能部として、解釈部210と、第1推定部220と、対話生成部230とを備える。
制御部200は、例えば、エージェント制御装置100の各機能部に実行および停止を制御する。制御部200は、例えば、各機能部からの要求をAPI(Application Programming Interface)によって受け付け、受け付けた要求に基づく処理を実行する機能部を選択し、選択した機能部に、APIを介して処理を実行させる。制御部200は、受け付けた要求に基づく処理を実行する機能部として、解釈部210と、第1推定部220と、対話生成部230とを備える。
解釈部210には、例えば、音声区間検出部212と、音声認識部214と、自然言語処理部216とが含まれる。音声区間検出部212は、音声ストリームから音声区間を検出する。例えば、音声区間検出部212は、例えば、音声ストリームにおける音声波形の振幅と零交差に基づいて音声区間を検出する。また、音声区間検出部212は、混合ガウス分布モデル(GMM;Gaussian mixture model) に基づくフレーム単位の音声・非音声識別に基づく区間検出を行ってもよく、予め第2記憶部190等に記憶された音声区間を検出するためのデータベースとのマッチング処理により区間検出を行ってもよい。
音声認識部214は、音声区間検出部212による音声区間における音声を認識し、音声を文字情報としてテキスト化する。また、音声認識部214は、音声から発話者の特徴を特定してもよい。発話者の特徴には、例えば、性別や年齢、運転者であるか、同乗者であるかの情報が含まれる。また、音声認識部214は、第2記憶部190に記憶されたパーソナルプロファイル194に記憶された個人の音声の特徴情報と照合して、個人を特定してもよい。
自然言語処理部216は、音声認識部214によりテキスト化された文字情報に対する自然言語処理を実行し、文字情報の意味を解釈する。自然言語処理には、形態素解析、構文解析、意味解析、文脈解析等が含まれる。形態素解析は、例えば、文字情報を、意味を持つ最小の表現要素の単位に分割し、分割した単位(形態素)ごとの品詞等を解析する。構文解析は、例えば、形態素解析により得られた形態素をもとに、文の構造を解析する。意味解析は、例えば、構文解析により得られた構文をもとに、意味を持つまとまりを判別する。文脈解析は、例えば、文単位や文脈単位で意味を解釈する。
また、自然言語処理部216は、解釈した意味に対応するコマンドを生成する。例えば、解釈結果として、「東京駅まで何キロ?」、「東京駅までどのくらい走る?」等の意味が解釈された場合、自然言語処理部216は、標準文字情報「東京駅までの距離は?」に置き換えたコマンドを生成する。これにより、文字揺らぎがあった場合にも回答情報を取得しやすくすることができる。
また、自然言語処理部216は、例えば、確率を利用した機械学習処理等の人工知能処理を用いて文字情報の意味を解釈し、解釈結果に基づくコマンドを生成してもよい。自然言語処理部216は、生成されたコマンドを用いて第2記憶部190に記憶された回答情報192のコマンドを参照し、合致するコマンドに対応する回答情報192を取得する。自然言語処理部216は、音声認識部214によりテキスト化された文字情報の構造や意味を理解し、理解した意味に基づいて、第2記憶部190に記憶された回答情報192を検索し、対応する文字情報や画像、音声等を取得する。
次に、第1推定部220について説明する。第1推定部220は、エージェント装置1に対して発話した乗員(つまり、発話者)を推定する機能部である。第1推定部220には、例えば、発話者推定部222と、操作判定部224と、指示対象判定部226とが含まれる。
発話者推定部222は、エージェント装置1に対して行われた発話の内容に基づいて、発話者を推定する。以下、発話者推定部222が、発話者が車両Mの運転者であると推定する場合について説明し、次に、発話者が車両Mの運転者以外であると推定する場合について説明する。
[発話者が運転者;発話の内容が車両Mの運行に係る内容である場合]
発話者推定部222は、発話の内容が、車両Mの運行に係る内容であるか否かを判定する。発話者推定部222は、発話の内容が車両Mの運行に係る内容であると判定した場合、発話者が車両Mの運転者であると推定する。車両Mの運行に係る内容とは、例えば、車両Mが走行する車線の制限速度を確認する内容(例えば、「この道路の制限速度は何kmか?」)や、周辺に存在する一方通行の位置を確認する内容(例えば、「この辺りに一方通行あるか?」)等である。発話の内容がこのような内容と合致する場合、発話者推定部222は、発話者が運転者であると推定する。
発話者推定部222は、発話の内容が、車両Mの運行に係る内容であるか否かを判定する。発話者推定部222は、発話の内容が車両Mの運行に係る内容であると判定した場合、発話者が車両Mの運転者であると推定する。車両Mの運行に係る内容とは、例えば、車両Mが走行する車線の制限速度を確認する内容(例えば、「この道路の制限速度は何kmか?」)や、周辺に存在する一方通行の位置を確認する内容(例えば、「この辺りに一方通行あるか?」)等である。発話の内容がこのような内容と合致する場合、発話者推定部222は、発話者が運転者であると推定する。
[発話者が運転者;発話の内容が車両Mの操作に係る内容である場合]
発話者推定部222は、発話の内容が、運転席ST1から実行可能な車両Mの操作に係る内容であるか否かを判定する。発話者推定部222は、発話の内容が、運転席ST1から実行可能な車両Mの操作に係る内容であると判定した場合、発話者が車両Mの運転者であると推定する。運転席ST1から実行可能な車両Mの操作は、例えば、運転席ST1の近傍に設けられる運転操作子の操作である。運転操作子は、例えば、ステアリングホイールや、アクセルペダル、ブレーキペダル、シフトレバー、ウインカレバーなどの各種操作子である。運転席ST1から実行可能な車両Mの操作に係る内容とは、例えば、運転操作子の操作方法や場所を確認する内容(例えば、「ウインカレバーは左右どっち?」、「ハザードランプの場所はどこ?」)等である。発話の内容がこのような内容と合致する場合、発話者推定部222は、発話者が運転者であると推定する。
発話者推定部222は、発話の内容が、運転席ST1から実行可能な車両Mの操作に係る内容であるか否かを判定する。発話者推定部222は、発話の内容が、運転席ST1から実行可能な車両Mの操作に係る内容であると判定した場合、発話者が車両Mの運転者であると推定する。運転席ST1から実行可能な車両Mの操作は、例えば、運転席ST1の近傍に設けられる運転操作子の操作である。運転操作子は、例えば、ステアリングホイールや、アクセルペダル、ブレーキペダル、シフトレバー、ウインカレバーなどの各種操作子である。運転席ST1から実行可能な車両Mの操作に係る内容とは、例えば、運転操作子の操作方法や場所を確認する内容(例えば、「ウインカレバーは左右どっち?」、「ハザードランプの場所はどこ?」)等である。発話の内容がこのような内容と合致する場合、発話者推定部222は、発話者が運転者であると推定する。
[発話者が運転者以外;発話の内容が車両Mの運行や操作に係る内容ではない場合]
発話者推定部222は、発話の内容が、車両Mの運行や、運転席ST1から実行可能な操作に係る内容ではないと判定した場合、発話者が車両Mの運転者以外の乗員であると推定する。車両Mの運行や、運転席ST1から実行可能な操作ではない内容とは、例えば、(例えば、「明日のスーパーのセールの目玉は何?」や、「昨日のワールドカップのハイライト見せて」)等である。
発話者推定部222は、発話の内容が、車両Mの運行や、運転席ST1から実行可能な操作に係る内容ではないと判定した場合、発話者が車両Mの運転者以外の乗員であると推定する。車両Mの運行や、運転席ST1から実行可能な操作ではない内容とは、例えば、(例えば、「明日のスーパーのセールの目玉は何?」や、「昨日のワールドカップのハイライト見せて」)等である。
対話生成部230は、発話者推定部222によって推定された発話者と、自然言語処理部216によって解釈された発話の内容を示す文字情報に基づいて、乗員と対話を行うための文章、或いは文節(以下、単に文章)を生成する。
画像生成部140は、対話生成部230によって生成された文章に基づいて、エージェント画像を生成する。提示制御部130は、画像生成部140によって生成されたエージェント画像を表示する表示部40および画面上における表示位置を設定し、設定した表示部40の表示位置にエージェント画像を表示させる画像生成部140は、例えば、対話生成部230によって生成された文章が疑問文である場合には、質問しているような表情のエージェント画像を生成し、文章が否定形である場合には、悲しそうな表情のエージェント画像を生成する。否定形である文章とは、例えば、対話によってリクエストされた処理を実行不能であることを伝える文章である。提示制御部130は、例えば、画像生成部140によって生成されたエージェント画像を、発話者推定部222によって推定された発話者が視認し易い表示部40(発話者が運転者であれば表示部40A〜40Cの少なくともいずれか)にエージェント画像を表示させる。
音声生成部150は、対話生成部230によって生成された文節に基づいて、乗員に出力する対話用の音声を生成する。提示制御部130は、例えば、発話者推定部222によって推定された発話者が傾聴し易いスピーカ50(発話者が運転者であれば、スピーカ50A、および50C)に生成した音声を出力させる。
[処理フロー]
図5は、第1実施形態に係るエージェント制御装置100の処理の一連の流れを示すフローチャートである。まず、解釈部210は、車両Mの乗員が発話したか否かを判定する(ステップS100)。解釈部210は、例えば、エージェント装置1に対する対話を開始する際に用いられるウェイクワードが、車両Mの乗員によって発話された場合、車両Mの乗員が発話したと判定する。なお、解釈部210は、車両Mの乗員の発話が疑問形である(例えば、末尾の抑揚が上がっている)場合、車両Mの乗員が発話したと判定してもよい。解釈部210は、車両Mの乗員によって発話されるまでの間、待機する。
図5は、第1実施形態に係るエージェント制御装置100の処理の一連の流れを示すフローチャートである。まず、解釈部210は、車両Mの乗員が発話したか否かを判定する(ステップS100)。解釈部210は、例えば、エージェント装置1に対する対話を開始する際に用いられるウェイクワードが、車両Mの乗員によって発話された場合、車両Mの乗員が発話したと判定する。なお、解釈部210は、車両Mの乗員の発話が疑問形である(例えば、末尾の抑揚が上がっている)場合、車両Mの乗員が発話したと判定してもよい。解釈部210は、車両Mの乗員によって発話されるまでの間、待機する。
解釈部210は、車両Mの乗員が発話したと判定した場合、音声区間検出部212、音声認識部214、および自然言語処理部216の処理によって、発話の内容の意味を解釈(理解)する(ステップS102)。次に、発話者推定部222は、解釈部210によって理解された発話の内容が車両Mの運行に係る内容であるか否かを判定する(ステップS104)。発話者推定部222は、発話の内容が車両Mの運行に係る内容であると判定した場合、発話者が運転者であると推定する(ステップS106)。対話生成部230は、発話者推定部222によって発話者が運転者であると推定された場合、運転者と対話を行うための文章を生成する(ステップS108)。発話者推定部222は、発話の内容が車両Mの運行に係る内容ではないと判定した場合、発話者が運転者以外の乗員であると推定する(ステップS110)。対話生成部230は、発話者推定部222によって発話者推定部222によって発話者が運転者以外の乗員であると推定された場合、当該乗員と対話を行うための文章を生成する(ステップS108)。
提示制御部130は、対話生成部230によって生成された文章に基づいて画像生成部140が生成したエージェント画像を表示部40に表示させ、当該文章に基づいて音声生成部150が生成した音声をスピーカ50に出力させる(ステップS114)。提示制御部130は、例えば、発話者が運転者である場合、運転者が視認しやすい表示部40にエージェント画像を表示させ、且つ運転者が傾聴し易いスピーカ50に音声を出力させる。また、提示制御部130は、発話者が運転者以外の乗員である場合、当該乗員が視認しやすい表示部40にエージェント画像を表示させ、且つ当該乗員が傾聴し易いスピーカ50に音声を出力させる。提示制御部130は、車両Mに運転者以外の乗員が複数存在する場合、着座センサ60によって着座が検出されている乗員と対話を行うための音声を生成する。
なお、対話生成部230は、運転者以外の乗員が複数存在する場合、運転者以外の乗員全員と対話を行うための音声を生成してもよい。また、対話生成部230は、車室内カメラ20によって発話が検出されたタイミングに口の動き(つまり、発話)が撮像されている特定の乗員と対話を行うための音声を生成してもよい。
また、発話者推定部222は、発話の内容に、乗員の体調の変化や疲労に係る内容が含まれる場合には、発話者が運転者であると推定してもよい。乗員の体調の変化や疲労に係る内容は、例えば、「そろそろ眠い」、「疲れた」等である。
[第1実施形態のまとめ]
以上説明したように、本実施形態のエージェント装置1は、車両Mの車室内の音声を収集するマイク30と、車室内に音声を出力するスピーカ50と、マイク30によって収集された音声を取得し、取得した前記音声に含まれる乗員の発話の内容を解釈する解釈部210と、解釈部210によって解釈された発話の内容に応じて、スピーカ50に乗員に話しかける音声を出力させるエージェント装置1であって、解釈部210により解釈された発話の内容がエージェント装置1への話しかけを意味する場合、発話の内容に基づいて、複数の乗員の中から、発話を行った発話者を推定する第1推定部220とを備えることにより、適切な発話者と対話することができる。
以上説明したように、本実施形態のエージェント装置1は、車両Mの車室内の音声を収集するマイク30と、車室内に音声を出力するスピーカ50と、マイク30によって収集された音声を取得し、取得した前記音声に含まれる乗員の発話の内容を解釈する解釈部210と、解釈部210によって解釈された発話の内容に応じて、スピーカ50に乗員に話しかける音声を出力させるエージェント装置1であって、解釈部210により解釈された発話の内容がエージェント装置1への話しかけを意味する場合、発話の内容に基づいて、複数の乗員の中から、発話を行った発話者を推定する第1推定部220とを備えることにより、適切な発話者と対話することができる。
<変形例>
以下、第1実施形態に係る変形例について説明する。第1実施形態では、発話の内容が、車両の運行に係る内容である場合において、発話者を推定する場合について説明した。変形例では、発話の内容が車両の操作に係る内容である場合において、発話者を推定する場合について説明する。なお、上述した実施形態と同様の構成については、同一の符号を付して説明を省略する。
以下、第1実施形態に係る変形例について説明する。第1実施形態では、発話の内容が、車両の運行に係る内容である場合において、発話者を推定する場合について説明した。変形例では、発話の内容が車両の操作に係る内容である場合において、発話者を推定する場合について説明する。なお、上述した実施形態と同様の構成については、同一の符号を付して説明を省略する。
図6は、変形例に係る操作機器情報196の内容の一例を示す図である。変形例のエージェント装置1おいて、第2記憶部190には、操作機器情報196が記憶される。図6に示される通り、操作機器情報196は、例えば、車両Mが備える機器であり、車両Mの乗員が操作可能な機器(図示する操作対象機器)を示す情報と、当該操作対象機器を操作可能な乗員が着座するシートSTを示す情報とが互いに対応付けられた情報である。
変形例の発話者推定部222は、発話の内容が車両Mの操作に係る内容であり、且つ発話の内容に含まれる操作の操作対象機器が操作中であるか否かを判定する。車両Mの操作に係る内容とは、例えば、操作対象機器の操作方法を質問する内容(「これの使い方教えて?」、「これの動かし方教えて?」)等である。発話者推定部222は、発話の内容が車両Mの操作に係る内容であり、且つ発話の内容に含まれる操作の操作対象機器が操作中であると判定した場合、当該操作対象機器を操作可能な乗員が発話者であると推定する。発話者推定部222は、操作機器情報196を参照し、当該操作対象機器に対応付けられたシートSTに着座する乗員を発話者と推定する。
ここで、乗員は、操作方法を知りたい操作対象機器を操作しつつ、エージェント装置1に対して操作対象機器の操作方法を質問する内容の発話をする場合がある。このような状況において、変形例のエージェント装置1は、適切な乗員(この場合、操作方法を知りたい乗員)と対話することができる。
また、変形例の発話者推定部222は、発話の内容が車両Mの操作に係る内容であり、且つ発話の内容に含まれる操作の操作対象機器が操作中ではないか否かを判定する。発話者推定部222は、発話の内容が車両Mの操作に係る内容であり、且つ発話の内容に含まれる操作の操作対象機器が操作中ではないと判定した場合、当該操作対象機器から物理的に遠い乗員が発話者であると推定する。発話者推定部222は、操作機器情報196を参照し、当該操作対象機器に対応付けられたシートSTとは異なるシートSTに着座する乗員を発話者と推定する。
ここで、乗員は、物理的に遠い位置(つまり、自身で操作することができない)の操作対象機器の操作をエージェント装置1に依頼する場合がある。例えば、助手席ST2の乗員が、「後部座席のテレビを消して?」と発話する場合がある。このような状況において、変形例のエージェント装置1によれば、適切な乗員(この場合、操作対象機器から物理的に遠い位置に着座する乗員)と対話することができる。
[処理フロー]
図7は、変形例に係るエージェント制御装置100の処理の一連の流れを示すフローチャートである。まず、解釈部210は、車両Mの乗員が発話したか否かを判定する(ステップS200)。解釈部210は、車両Mの乗員によって発話されるまでの間、待機する。解釈部210は、車両Mの乗員が発話したと判定した場合、音声区間検出部212、音声認識部214、および自然言語処理部216の処理によって、発話の内容の意味を解釈(理解)する(ステップS202)。次に、発話者推定部222は、解釈部210によって理解された発話の内容が車両Mの操作に係る内容であるか否かを判定する(ステップS204)。発話者推定部222は、解釈部210によって理解された発話の内容が車両Mの操作に係る内容ではないと判定した場合、図7に示されるフローチャートの処理では発話者を特定することができないものとみなし、処理を終了する。
図7は、変形例に係るエージェント制御装置100の処理の一連の流れを示すフローチャートである。まず、解釈部210は、車両Mの乗員が発話したか否かを判定する(ステップS200)。解釈部210は、車両Mの乗員によって発話されるまでの間、待機する。解釈部210は、車両Mの乗員が発話したと判定した場合、音声区間検出部212、音声認識部214、および自然言語処理部216の処理によって、発話の内容の意味を解釈(理解)する(ステップS202)。次に、発話者推定部222は、解釈部210によって理解された発話の内容が車両Mの操作に係る内容であるか否かを判定する(ステップS204)。発話者推定部222は、解釈部210によって理解された発話の内容が車両Mの操作に係る内容ではないと判定した場合、図7に示されるフローチャートの処理では発話者を特定することができないものとみなし、処理を終了する。
発話者推定部222は、解釈部210によって理解された発話の内容が車両Mの操作に係る内容である場合、発話の内容に含まれる操作の操作対象機器が操作中であるか否かを判定する(ステップS206)。発話者推定部222は、発話の内容に含まれる操作の操作対象機器が操作中であると判定した場合、当該操作対象機器を操作可能な乗員が発話者であると推定する(ステップS208)。対話生成部230は、発話者推定部222によって発話者と推定された操作対象機器を操作可能な乗員と対話を行うための文章を生成する(ステップS210)。発話者推定部222は、発話の内容に含まれる操作の操作対象機器が操作中ではないと判定した場合、当該操作対象機器から物理的に遠い位置に着座する乗員が発話者であると推定する(ステップS212)。対話生成部230は、発話者と推定された操作対象機器から物理的に遠い位置の乗員と対話を行うための文章を生成する(ステップS214)。提示制御部130は、対話生成部230によって生成された文章に基づいて画像生成部140が生成したエージェント画像を表示部40に表示させ、当該文章に基づいて音声生成部150が生成した音声をスピーカ50に出力させる(ステップS216)。
なお、対話生成部230は、操作対象機器を操作可能な乗員、或いは操作対象機器から物理的に遠い位置の乗員が複数該当する場合、操作対象機器を操作可能な乗員全員、或いは操作対象機器から物理的に遠い位置の乗員全員と対話を行うための音声を生成してもよい。また、対話生成部230は、操作対象機器を操作可能な複数の乗員の中で、車室内カメラ20によって発話が検出されたタイミングに発話が撮像されている特定の乗員、或いは、操作対象機器から物理的に遠い位置の複数の乗員の中で、車室内カメラ20によって発話が検出されたタイミングに発話が撮像されている特定の乗員と対話を行うための音声を生成してもよい。
<第2実施形態>
以下、第2実施形態について説明する。第1実施形態では、エージェント装置1が発話者と対話する場合について説明した。第2実施形態では、エージェント装置2が発話者の発話の内容に適した乗員と対話する場合について説明する。なお、上述した実施形態と同様の構成については、同一の符号を付して説明を省略する。
以下、第2実施形態について説明する。第1実施形態では、エージェント装置1が発話者と対話する場合について説明した。第2実施形態では、エージェント装置2が発話者の発話の内容に適した乗員と対話する場合について説明する。なお、上述した実施形態と同様の構成については、同一の符号を付して説明を省略する。
[全体構成]
図8は、第2実施形態に係るエージェント装置2の構成図である。エージェント装置2は、エージェント装置1が備えるエージェント制御装置100に代えて(或いは、加えて)、エージェント制御装置100aを備える。エージェント制御装置100aは、例えば、音声入力部110と、乗員状態解析部120と、提示制御部130と、画像生成部140と、音声生成部150と、アプリ呼出部160と、第1記憶部180と、第2記憶部190aと、制御部200aを備える。なお、本実施形態において、エージェント装置2が備える着座センサ60は、シートSTに乗員が着座していることを示す信号に代えて(或いは、加えて)圧力値を示す信号をエージェント制御装置100aに供給する。
図8は、第2実施形態に係るエージェント装置2の構成図である。エージェント装置2は、エージェント装置1が備えるエージェント制御装置100に代えて(或いは、加えて)、エージェント制御装置100aを備える。エージェント制御装置100aは、例えば、音声入力部110と、乗員状態解析部120と、提示制御部130と、画像生成部140と、音声生成部150と、アプリ呼出部160と、第1記憶部180と、第2記憶部190aと、制御部200aを備える。なお、本実施形態において、エージェント装置2が備える着座センサ60は、シートSTに乗員が着座していることを示す信号に代えて(或いは、加えて)圧力値を示す信号をエージェント制御装置100aに供給する。
第2記憶部190aには、第2記憶部190に記憶される情報に代えて(或いは、加えて)回答情報192と、パーソナルプロファイル194と、操作機器情報196と、家族構成情報198とが記憶される。
図9は、家族構成情報198の内容の一例を示す図である。家族構成情報198は、例えば、エージェント装置2が発話に対して回答すべき被回答者を推定する際に用いられ、車両Mに乗車する頻度の高い乗員に係る情報である。車両Mに乗車する頻度の高い乗員は、例えば、車両Mの所有者の家族や親族である。以降の説明では、家族構成情報198が、車両Mの所有者の家族に係る情報である場合について説明する。図9に示される一例において、家族構成情報198は、車両Mの乗員の氏名と、年齢と、親族呼称(または、通称)と、体重とを示す情報が互いに対応付けられた乗員毎のレコードを複数含む情報である。親族呼称は、例えば、「パパ」、「ママ」、「お兄ちゃん」、「おじいちゃん」、「おばあちゃん」、或いはそれらを推定可能な類義語(「お父さん」、「お母さん」等)である。家族構成情報198は、例えば、車両Mの購入時等において、車両Mの所有者によって操作部70から入力された情報に基づいて生成され、第2記憶部190aに記憶される。
[エージェント装置2が応対する乗員について]
図8に戻り、制御部200aの説明に先立って、エージェント装置2が応対する乗員について説明する。上述したように、車両Mの乗員は、エージェント装置2に対して質問や指示等を発話し、エージェント装置2は、乗員が発話した内容に応じた回答を出力する。ここで、発話の内容には、回答を出力すべき乗員(以下、被回答者)を指示、或いは示唆する内容が含まれる場合がある。被回答者を指示、或いは示唆する発話の内容は、例えば、「助手席の人にカーマニュアルを見せて」、「今どのあたりにいるか後ろの人に教えてあげて」等である。この場合、エージェント画像は、被回答者が視認し易い表示部40に表示され、且つ回答を示す音声は、被回答者が傾聴し易いスピーカ50から出力されることが好ましい。本実施形態のエージェント装置2は、発話した乗員の発話内容に基づいて応対する被回答者を推定し、推定した被回答者に対して応対を行う。以下、制御部200aの処理の内容について説明する。
図8に戻り、制御部200aの説明に先立って、エージェント装置2が応対する乗員について説明する。上述したように、車両Mの乗員は、エージェント装置2に対して質問や指示等を発話し、エージェント装置2は、乗員が発話した内容に応じた回答を出力する。ここで、発話の内容には、回答を出力すべき乗員(以下、被回答者)を指示、或いは示唆する内容が含まれる場合がある。被回答者を指示、或いは示唆する発話の内容は、例えば、「助手席の人にカーマニュアルを見せて」、「今どのあたりにいるか後ろの人に教えてあげて」等である。この場合、エージェント画像は、被回答者が視認し易い表示部40に表示され、且つ回答を示す音声は、被回答者が傾聴し易いスピーカ50から出力されることが好ましい。本実施形態のエージェント装置2は、発話した乗員の発話内容に基づいて応対する被回答者を推定し、推定した被回答者に対して応対を行う。以下、制御部200aの処理の内容について説明する。
制御部200aは、制御部200が備える構成に代えて(或いは、加えて)、解釈部210と、第1推定部220と、対話生成部230と、第2推定部240とを備える。第2推定部240は、エージェント装置2に対して発話者が発話した発話の内容に基づいて、被回答者を推定する機能部である。第2推定部240には、被回答者推定部242と、乗員位置推定部244とが含まれる。
被回答者推定部242は、エージェント装置2に対して行われた発話の内容に基づいて、被回答者を推定する。以下、被回答者推定部242が、被回答者を推定する処理の内容について説明する。
[発話の内容に被回答者を示すキーワードが含まれる場合]
被回答者推定部242は、発話の内容に被回答者を特定するキーワードが含まれるか否かを判定する。被回答者を特定するキーワードは、例えば、「運転者」、「助手席の人」、「後部座席の人」、或いはそれらを推定可能な類義語(例えば、「前の人」「後ろの人」、「右の人」、「左の人」)等の、被回答者(の着座位置)を即座に特定可能なキーワードである。被回答者推定部242は、発話の内容に被回答者を特定するキーワードが含まれている場合、当該キーワードが示す乗員を被回答者として推定する。
被回答者推定部242は、発話の内容に被回答者を特定するキーワードが含まれるか否かを判定する。被回答者を特定するキーワードは、例えば、「運転者」、「助手席の人」、「後部座席の人」、或いはそれらを推定可能な類義語(例えば、「前の人」「後ろの人」、「右の人」、「左の人」)等の、被回答者(の着座位置)を即座に特定可能なキーワードである。被回答者推定部242は、発話の内容に被回答者を特定するキーワードが含まれている場合、当該キーワードが示す乗員を被回答者として推定する。
[発話の内容に被回答者を示すキーワードが含まれない場合]
また、被回答者推定部242は、発話の内容に被回答者を特定するキーワードが含まれていない場合、発話の内容と、家族構成情報198とに基づいて、被回答者を推定する。ここで、発話の内容には、被回答者を即座に特定可能ではなくとも、被回答者を推定可能なキーワードが含まれる場合がある。被回答者を推定可能なキーワードは、例えば、親族呼称や通称であり、この場合の発話の内容は、例えば、「パパに今聞いていた曲を聞かせてあげて」等である。被回答者推定部242は、発話の内容に被回答者を推定可能なキーワードを検索キーとして家族構成情報198を検索し、当該キーワードの親族呼称や通称によって呼ばれる乗員のレコードを取得する。被回答者推定部242は、取得したレコードと、乗員の体重、乗員の音声、または乗員が撮像された画像とに基づいて、被回答者を推定する。
また、被回答者推定部242は、発話の内容に被回答者を特定するキーワードが含まれていない場合、発話の内容と、家族構成情報198とに基づいて、被回答者を推定する。ここで、発話の内容には、被回答者を即座に特定可能ではなくとも、被回答者を推定可能なキーワードが含まれる場合がある。被回答者を推定可能なキーワードは、例えば、親族呼称や通称であり、この場合の発話の内容は、例えば、「パパに今聞いていた曲を聞かせてあげて」等である。被回答者推定部242は、発話の内容に被回答者を推定可能なキーワードを検索キーとして家族構成情報198を検索し、当該キーワードの親族呼称や通称によって呼ばれる乗員のレコードを取得する。被回答者推定部242は、取得したレコードと、乗員の体重、乗員の音声、または乗員が撮像された画像とに基づいて、被回答者を推定する。
乗員の体重に基づいて被回答者を推定する場合、被回答者推定部242は、各シートSTに設けられる各着座センサ60から圧電センサの圧力値を示す情報を取得する。被回答者推定部242は、取得したレコードに示される体重と、着座センサ60から取得した圧力値によって換算される体重とが合致する乗員を特定し、特定した乗員を被回答者として推定する。
乗員の音声に基づいて被回答者を推定する場合、被回答者推定部242は、マイク30によって取得された各乗員の音声を示す情報を取得する。被回答者推定部242は、取得した音声に基づいて、乗員の年齢を解析する。被回答者推定部242は、例えば、音声の音の高低や、周波数、声の特徴等に基づいて、乗員の年齢を解析する。被回答者推定部242は、取得したレコードに示される年齢と、解析した年齢とが合致する乗員を特定し、特定した乗員を被回答者として推定する。
なお、家族構成情報198のレコードには、乗員の音声のサンプルデータが含まれていてもよい。この場合、被回答者推定部242は、マイク30によって取得された各乗員の音声の中で、取得したレコードに含まれる音声のサンプルデータと一致度が高い音声の乗員を特定し、特定した乗員を被回答者として推定する。
乗員が撮像された画像に基づいて被回答者を推定する場合、被回答者推定部242は、車室内カメラ20によって各乗員(特に顔部)が撮像された画像を示す情報を取得する。被回答者推定部242は、取得した撮像された画像に基づいて、乗員の年齢を解析する。被回答者推定部242は、例えば、撮像された乗員の顔の特徴に基づいて、乗員の年齢を解析する。被回答者推定部242は、取得したレコードに示される年齢と、解析した年齢とが合致する乗員を特定し、特定した乗員を被回答者として推定する。
なお、家族構成情報198のレコードには、乗員が撮像された画像のサンプルデータが含まれていてもよい。この場合、被回答者推定部242は、車室内カメラ20によって各乗員が撮像された画像の中で、取得したレコードに含まれる画像に示される乗員と一致度が高い撮像された画像の乗員を特定し、特定した乗員を被回答者として推定する。
乗員位置推定部244は、被回答者推定部242によって被回答者として推定された乗員の位置(例えば、どのシートSTに着座しているか)を推定する。乗員位置推定部244は、被回答者推定部242が被回答者の着座位置を即座に特定可能なキーワードによって被回答者を推定した場合、当該着座位置を被回答者の位置として推定する。また、乗員位置推定部244は、被回答者推定部242が体重によって被回答者を推定した場合、取得したレコードに示される体重と、合致する体重を検出した着座センサ60が設けられているシートSTの位置を、被回答者の位置として推定する。また、乗員位置推定部244は、被回答者推定部242が音声によって被回答者を推定した場合、取得したレコードに示される年齢と、合致する年齢の音声であると解析された音声による発話が検出されたタイミングに口の動き(つまり、発話)が撮像された乗員のシートSTの位置を、被回答者の位置として推定する。また、乗員位置推定部244は、被回答者推定部242が画像によって被回答者を推定した場合、取得したレコードに示される年齢と、合致する年齢であると解析された乗員が撮像された画像において、当該乗員が着座しているシートSTの位置を、被回答者の位置として推定する。
対話生成部230は、被回答者推定部242によって推定された被回答者と、自然言語処理部216によって解釈された発話の内容を示す文字情報に基づいて、乗員と対話を行うための文章を生成する。
画像生成部140がエージェント画像を生成する処理、音声生成部150が音声を生成する処理、および提示制御部130がエージェント画像や音声を表示部40やスピーカ50に出力させる処理は、上述した処理と同様であるため、説明を省略する。
[処理フロー]
図10は、第2実施形態に係るエージェント制御装置100aの処理の一連の流れを示すフローチャートである。まず、解釈部210は、車両Mの乗員が発話したか否かを判定する(ステップS300)。解釈部210は、車両Mの乗員によって発話されるまでの間、待機する。解釈部210は、車両Mの乗員が発話したと判定した場合、音声区間検出部212、音声認識部214、および自然言語処理部216の処理によって、発話の内容の意味を解釈(理解)する(ステップS302)。
図10は、第2実施形態に係るエージェント制御装置100aの処理の一連の流れを示すフローチャートである。まず、解釈部210は、車両Mの乗員が発話したか否かを判定する(ステップS300)。解釈部210は、車両Mの乗員によって発話されるまでの間、待機する。解釈部210は、車両Mの乗員が発話したと判定した場合、音声区間検出部212、音声認識部214、および自然言語処理部216の処理によって、発話の内容の意味を解釈(理解)する(ステップS302)。
次に、被回答者推定部242は、解釈部210によって理解された発話の内容に被回答者を特定するキーワードが含まれるか否かを判定する(ステップS304)。被回答者推定部242は、発話の内容に被回答者を特定するキーワード(例えば、「運転者」、「助手席の人」、「後部座席の人」)が含まれていると判定した場合、当該キーワードが示す乗員を被回答者として推定する(ステップS306)。
被回答者推定部242は、解釈部210によって理解された発話の内容に被回答者を特定するキーワードが含まれていないと判定した場合、発話の内容に被回答者を推定可能なキーワードが含まれているか否かを判定する(ステップS308)。被回答者推定部242は、発話の内容に被回答者を特定するキーワードが含まれておらず、且つ被回答者を推定可能なキーワードも含まれていないと判定した場合、図10に示されるフローチャートの処理では、被回答者を推定することができないものとみなし、処理を終了する。
被回答者推定部242は、発話の内容に被回答者を推定可能なキーワード(例えば、「パパ」、「ママ」、「お兄ちゃん」、「おじいちゃん」、「おばあちゃん」等)が含まれていると判定した場合、家族構成情報198に含まれる当該キーワードが示す乗員のレコードと、各種情報(例えば、体重、音声、乗員が撮像された画像)とに基づいて、被回答者を推定する(ステップS310)。被回答者推定部242は、ステップS310の処理において、特定の被回答者が推定されたか否かを判定する(ステップS312)。被回答者推定部242は、特定の被回答者を推定した場合、処理をステップS318に進める。
被回答者推定部242は、特定の被回答者を推定していない場合、発話の内容に車両Mの乗員のすべてを示すキーワードが含まれるか否かを判定する(ステップS314)。車両Mの乗員のすべてを示すキーワードは、例えば、「みんな」、「全員」、「すべての乗員」等である。被回答者推定部242は、発話の内容に車両Mの乗員のすべてを示すキーワードが含まれないと判定した場合、図10に示されるフローチャートの処理では、被回答者を推定することができないものとみなし、処理を終了する。被回答者推定部242は、発話の内容に車両Mの乗員のすべてを示すキーワードが含まれると判定した場合、車両Mの乗員全員を被回答者と推定する(ステップS316)。
対話生成部230は、被回答者推定部242によって推定された被回答者と対話を行うための文章を生成する(ステップS318)。提示制御部130は、対話生成部230によって生成された文章に基づいて画像生成部140が生成したエージェント画像を表示部40に表示させ、当該文章に基づいて音声生成部150が生成した音声をスピーカ50に出力させる(ステップS320)。ここで、提示制御部130は、乗員位置推定部244によって推定された被回答者が視認しやすい表示部40、および傾聴し易いスピーカ50に各種情報を出力する。
なお、被回答者推定部242がステップS308において被回答者を推定可能なキーワードが含まれていないと判定した場合、被回答者推定部242は、車両Mの乗員全員を被回答者として推定してもよい。また、被回答者推定部242がステップS312において特定の被回答者を推定していないと判定した場合、車両Mの乗員全員を被回答者として推定してもよい。
[第2実施形態のまとめ]
以上説明したように、本実施形態のエージェント装置2は、車両Mの車室内の音声を収集するマイク30と、車室内に音声を出力するスピーカ50と、マイク30によって収集された音声を取得し、取得した前記音声に含まれる乗員の発話の内容を解釈する解釈部210と、解釈部210によって解釈された発話の内容に応じて、スピーカ50に乗員に話しかける音声を出力させるエージェント装置2であって、解釈部210により解釈された発話の内容がエージェント装置2への話しかけを意味する場合、発話の内容に基づいて、複数の乗員の中から、エージェント装置2の回答を受ける被回答者を推定する第2推定部240とを備えることにより、適切な被回答者と対話することができる。
以上説明したように、本実施形態のエージェント装置2は、車両Mの車室内の音声を収集するマイク30と、車室内に音声を出力するスピーカ50と、マイク30によって収集された音声を取得し、取得した前記音声に含まれる乗員の発話の内容を解釈する解釈部210と、解釈部210によって解釈された発話の内容に応じて、スピーカ50に乗員に話しかける音声を出力させるエージェント装置2であって、解釈部210により解釈された発話の内容がエージェント装置2への話しかけを意味する場合、発話の内容に基づいて、複数の乗員の中から、エージェント装置2の回答を受ける被回答者を推定する第2推定部240とを備えることにより、適切な被回答者と対話することができる。
なお、被回答者推定部242は、発話の内容に車両Mの乗員全員に係る内容が含まれると判定した場合、車両Mの乗員全員を被回答者として推定してもよい。車両Mの乗員全員に係る内容は、例えば、「この先一本道?」等の車両Mの周囲環境に係る内容、車両Mの行先に係る内容、車両Mの現在位置に係る内容、車両Mの進行方向に存在する施設に係る内容等である。この結果、エージェント装置2は、車両Mの乗員全員に係る内容を、適切に全員に提示することができる。
また、被回答者推定部242が車両Mの乗員全員を被回答者として推定する場合や、高齢の乗員を被回答者として推定する場合、提示制御部130は、スピーカ50から出力させる対話を、通常の音声よりも低い周波数、及び大きい音量によって出力させてもよい。これにより、エージェント装置2は、より被回答者にわかりやすい形態によって対話することができる。
また、被回答者推定部242は、発話の内容に、乗員の興味関心がある内容が含まれる場合には、当該興味関心がある乗員を被回答者として推定してもよい。乗員の興味関心がある内容とは、例えば、「ワールドカップ、私の好きなベルギー代表の結果教えて」等である。この場合、家族構成情報198のレコードには、乗員の興味関心に関する情報(この場合、応援するサッカーチームの情報)が含まれる。また、この場合、発話者推定部222は、発話の内容に、乗員の興味関心がある内容が含まれる場合には、家族構成情報198を参照し、当該内容に興味関心がある乗員を発話者として推定してもよい。
[エージェント装置の他の構成例]
なお、エージェント装置1、およびエージェント装置2(以下、単にエージェント装置)は、その機能の一部がサーバ装置に設けられていてもよい。この場合、エージェント装置が備える構成のうち、例えば、解釈部210、および第2記憶部190がサーバ装置に備えられていてもよい。この場合、エージェント装置とサーバ装置とは、例えば、インターネットやWAN(Wide Area Network)、LAN(Local Area Network)等のネットワークNWによりデータの送受信が可能な状態で接続されている。サーバ装置は、複数のエージェント装置との通信が可能であってもよい。サーバ装置が備える通信部は、例えば、セルラー網やWi−Fi網、Bluetooth、DSRC等を利用して、ネットワークNWを介してエージェント装置と通信する。この通信部は、エージェント装置から送信された音声ストリームを受信する。また、通信部は、対話生成部230により生成された音声や文字情報、画像等の回答情報をエージェント装置に送信する。この場合、エージェント装置とサーバー装置とは、エージェントシステムの一例である。
なお、エージェント装置1、およびエージェント装置2(以下、単にエージェント装置)は、その機能の一部がサーバ装置に設けられていてもよい。この場合、エージェント装置が備える構成のうち、例えば、解釈部210、および第2記憶部190がサーバ装置に備えられていてもよい。この場合、エージェント装置とサーバ装置とは、例えば、インターネットやWAN(Wide Area Network)、LAN(Local Area Network)等のネットワークNWによりデータの送受信が可能な状態で接続されている。サーバ装置は、複数のエージェント装置との通信が可能であってもよい。サーバ装置が備える通信部は、例えば、セルラー網やWi−Fi網、Bluetooth、DSRC等を利用して、ネットワークNWを介してエージェント装置と通信する。この通信部は、エージェント装置から送信された音声ストリームを受信する。また、通信部は、対話生成部230により生成された音声や文字情報、画像等の回答情報をエージェント装置に送信する。この場合、エージェント装置とサーバー装置とは、エージェントシステムの一例である。
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
1、2…エージェント装置、10…通信装置、20…車室内カメラ、30…マイク、40、40A、40B、40C、40D、40E、40F…表示部、50、50A、50B、50C、50D、50E、50F、50G、50H…スピーカ、60、60A、60B、60C、60D…着座センサ、70…操作部、80…ナビゲーション装置、82…地図情報、100、100a…エージェント制御装置、110…音声入力部、120…乗員状態解析部、130…提示制御部、140…画像生成部、150…音声生成部、160…アプリ呼出部、176…ナビアプリ、180…第1記憶部、182…電話アプリ、184…ラジオアプリ、190、190a…第2記憶部、192…回答情報、194…パーソナルプロファイル、196…操作機器情報、198…家族構成情報、200、200a…制御部、210…解釈部、212…音声区間検出部、214…音声認識部、216…自然言語処理部、220…第1推定部、222…発話者推定部、224…操作判定部、226…指示対象判定部、230…対話生成部、240…第2推定部、242…被回答者推定部、244…乗員位置推定部、ST…シート、ST1…運転席、ST2…助手席、ST3、ST4…後部座席
Claims (8)
- 車両の車室内の音声を収集するマイクと、
前記車室内に音声を出力するスピーカと、
前記マイクによって収集された音声を取得し、取得した前記音声に含まれる乗員の発話の内容を解釈する解釈部と、
前記解釈部によって解釈された前記発話の内容に応じて、前記スピーカに前記乗員に話しかける音声を出力させるエージェント制御部であって、前記解釈部によって解釈された前記発話の内容に基づいて、複数の乗員の中から、自装置の回答を受ける被回答者を推定するエージェント制御部と、
を備えるエージェントシステム。 - 画像を表示する表示部をさらに備え、
前記エージェント制御部は、前記解釈部によって解釈された前記発話の内容に応じて、前記表示部に前記乗員に提示する画像を出力させる、
請求項1に記載のエージェントシステム。 - 前記エージェント制御部は、前記解釈部によって解釈された前記発話の内容に含まれる、前記被回答者を特定するキーワードに基づいて、前記被回答者を特定する、
請求項1に記載のエージェントシステム。 - 前記エージェント制御部は、前記解釈部によって解釈された前記発話の内容に前記キーワードが含まれていない場合、前記車室内が撮像された撮像画像と、乗員の質量を乗員毎に検出した検出結果と、乗員の音声を乗員毎に取得した取得結果とのうち、少なくともいずれか1つに基づいて、前記被回答者を推定する、
請求項3に記載のエージェントシステム。 - 前記エージェント制御部は、特定の前記被回答者がいない場合、前記車両の乗員の全てが前記被回答者であると推定する、
請求項1から請求項4のうちずれか一項に記載のエージェントシステム。 - 前記エージェント制御部は、前記車両の乗員の全てが前記被回答者であると推定した場合、前記スピーカに大きい音量、又は低い周波数の音によって前記回答を出力させる、
請求項5に記載のエージェントシステム。 - 車両の車室内の音声を収集するマイクと、前記車室内に音声を出力するスピーカと、を備える車両に搭載されたコンピュータに、
前記マイクによって収集された音声を取得し、取得した前記音声に含まれる乗員の発話の内容を解釈させ、
解釈された前記発話の内容に応じて、前記スピーカに前記乗員に話しかける音声を出力させ、
前記解釈部によって解釈された前記発話の内容に基づいて、複数の乗員の中から、自装置の回答を受ける被回答者を推定させる、
エージェント方法。 - 車両の車室内の音声を収集するマイクと、前記車室内に音声を出力するスピーカと、を備える車両に搭載されたコンピュータが、
前記マイクによって収集された音声を取得し、取得した前記音声に含まれる乗員の発話の内容を解釈し、
解釈された前記発話の内容に応じて、前記スピーカに前記乗員に話しかける音声を出力し、
前記解釈部によって解釈された前記発話の内容に基づいて、複数の乗員の中から、自装置の回答を受ける被回答者を推定する、
プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018190242A JP2020060623A (ja) | 2018-10-05 | 2018-10-05 | エージェントシステム、エージェント方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018190242A JP2020060623A (ja) | 2018-10-05 | 2018-10-05 | エージェントシステム、エージェント方法、およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020060623A true JP2020060623A (ja) | 2020-04-16 |
Family
ID=70219740
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018190242A Pending JP2020060623A (ja) | 2018-10-05 | 2018-10-05 | エージェントシステム、エージェント方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2020060623A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111816189A (zh) * | 2020-07-03 | 2020-10-23 | 斑马网络技术有限公司 | 一种车辆用多音区语音交互方法及电子设备 |
-
2018
- 2018-10-05 JP JP2018190242A patent/JP2020060623A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111816189A (zh) * | 2020-07-03 | 2020-10-23 | 斑马网络技术有限公司 | 一种车辆用多音区语音交互方法及电子设备 |
CN111816189B (zh) * | 2020-07-03 | 2023-12-26 | 斑马网络技术有限公司 | 一种车辆用多音区语音交互方法及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11176948B2 (en) | Agent device, agent presentation method, and storage medium | |
JP7340940B2 (ja) | エージェント装置、エージェント装置の制御方法、およびプログラム | |
JP7133029B2 (ja) | エージェント装置、エージェント制御方法、およびプログラム | |
US11450316B2 (en) | Agent device, agent presenting method, and storage medium | |
JP7068986B2 (ja) | エージェントシステム、エージェント制御方法、およびプログラム | |
US10901503B2 (en) | Agent apparatus, agent control method, and storage medium | |
JP2020060861A (ja) | エージェントシステム、エージェント方法、およびプログラム | |
CN111016824A (zh) | 交流支援系统、交流支援方法及存储介质 | |
CN111661065B (zh) | 智能体装置、智能体装置的控制方法及存储介质 | |
CN111746435B (zh) | 信息提供装置、信息提供方法及存储介质 | |
JP7274404B2 (ja) | 情報提供装置、情報提供方法、およびプログラム | |
JP7340943B2 (ja) | エージェント装置、エージェント装置の制御方法、およびプログラム | |
JP2020060623A (ja) | エージェントシステム、エージェント方法、およびプログラム | |
JP7245695B2 (ja) | サーバ装置、情報提供システム、および情報提供方法 | |
CN111559317B (zh) | 智能体装置、智能体装置的控制方法及存储介质 | |
US11518399B2 (en) | Agent device, agent system, method for controlling agent device, and storage medium | |
JP2019159559A (ja) | 情報提供装置 | |
CN111667823B (zh) | 智能体装置、智能体装置的控制方法及存储介质 | |
JP2020059401A (ja) | 車両制御装置、車両制御方法、プログラム | |
JP2021105770A (ja) | 会話アシスタント装置及び方法 | |
JP2021026124A (ja) | 音声対話装置、音声対話方法、及びプログラム | |
JP2020160108A (ja) | エージェント装置、エージェント装置の制御方法、およびプログラム |