JP2020142721A - エージェントシステム、車載機器の制御方法、及びプログラム - Google Patents

エージェントシステム、車載機器の制御方法、及びプログラム Download PDF

Info

Publication number
JP2020142721A
JP2020142721A JP2019041995A JP2019041995A JP2020142721A JP 2020142721 A JP2020142721 A JP 2020142721A JP 2019041995 A JP2019041995 A JP 2019041995A JP 2019041995 A JP2019041995 A JP 2019041995A JP 2020142721 A JP2020142721 A JP 2020142721A
Authority
JP
Japan
Prior art keywords
user
agent
seat
audio equipment
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019041995A
Other languages
English (en)
Inventor
昌宏 暮橋
Masahiro Kurehashi
昌宏 暮橋
慎一 菊池
Shinichi Kikuchi
慎一 菊池
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2019041995A priority Critical patent/JP2020142721A/ja
Publication of JP2020142721A publication Critical patent/JP2020142721A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

【課題】利用者をより満足させることができる。【解決手段】エージェントシステムは、車両の複数の座席のそれぞれに対応して設けられ、少なくとも一つ以上のマイクロフォンを含み、かつ前記座席にいるユーザの端末装置と有線または無線を介して接続される音響設備と、前記音響設備に含まれる前記マイクロフォンから、前記ユーザの発話を示す音声データを取得する取得部と、前記取得部によって取得された前記音声データに基づいて、前記複数の座席のそれぞれにいるユーザの中から、特定のフレーズを発話した第1ユーザを判定する判定部と、前記判定部の判定結果に基づいて、前記第1ユーザがいる第1座席と異なる第2座席に対応して設けられた前記音響設備と、前記端末装置との接続を制限する接続制御部と、を備える。【選択図】図2

Description

本発明は、エージェントシステム、車載機器の制御方法、及びプログラムに関する。
従来、車両の乗員と対話を行いながら、乗員の要求に応じた運転支援に関する情報や車両の制御、その他のアプリケーション等を提供するエージェント機能に関する技術が開示されている(例えば、特許文献1参照)。
特開2006−335231号公報
近年では、エージェント機能を車両に搭載することについて実用化が進められているが、エージェント機能におけるサービスの提供について十分に検討されていなかった。このため、従来の技術では、エージェント機能のサービスの提供について利用者の満足度が低い場合があった。
本発明は、このような事情を考慮してなされたものであり、利用者をより満足させることができるエージェントシステム、車載機器の制御方法、及びプログラムを提供することを目的の一つとする。
本発明に係るエージェントシステム、車載機器の制御方法、及びプログラムは、以下の構成を採用した。
(1)本発明の一態様は、車両の複数の座席のそれぞれに対応して設けられ、少なくとも一つ以上のマイクロフォンを含み、かつ前記座席にいるユーザの端末装置と有線または無線を介して接続される音響設備と、前記音響設備に含まれる前記マイクロフォンから、前記ユーザの発話を示す音声データを取得する取得部と、前記取得部によって取得された前記音声データに基づいて、前記複数の座席のそれぞれにいるユーザの中から、特定のフレーズを発話した第1ユーザを判定する判定部と、前記判定部の判定結果に基づいて、前記第1ユーザがいる第1座席と異なる第2座席に対応して設けられた前記音響設備と、前記端末装置との接続を制限する接続制御部と、を備えるエージェントシステムである。
(2)の態様は、上記(1)の態様のエージェントシステムにおいて、前記接続制御部は、前記第1座席に対応して設けられた前記音響設備と、前記端末装置との接続を制限せず、前記第1座席に対応して設けられた前記音響設備に含まれる前記マイクロフォンから前記取得部が取得した前記音声データに基づいて、前記第1座席に対応して設けられた前記音響設備に接続された前記端末装置に対して、音声対話を含むサービスを提供する提供部を更に備えるものである。
(3)の態様は、上記(1)または(2)の態様のエージェントシステムにおいて、前記判定部は、前記取得部によって前記音声データが取得された複数の前記マイクロフォンのうち、最も音圧レベルの大きい前記音声データの取得先である第1マイクロフォンを含む前記音響設備に対応した座席にいるユーザを、前記第1ユーザと判定するものである。
(4)の態様は、上記(1)から(3)のうちいずれか一つの態様のエージェントシステムにおいて、前記判定部は、前記取得部によって前記音声データが取得された複数の前記マイクロフォンのうち、最も早く前記音声データが取得された第1マイクロフォンを含む前記音響設備に対応した座席にいるユーザを、前記第1ユーザと判定するものである。
(5)の態様は、上記(3)または(4)の態様のエージェントシステムにおいて、前記端末装置は、前記音響設備と有線または無線を介して接続する通信部と、前記通信部を介して、前記第1マイクロフォンによって収音されたユーザの発話に基づく情報を取得し、前記取得した情報に基づいて、前記ユーザの発話に対する応答を含む第1サービスを提供する端末制御部と、を備えるものである。
(6)の態様は、上記(5)の態様のエージェントシステムにおいて、前記端末装置は、更に、第2マイクロフォンを備え、前記端末制御部は、前記第2マイクロフォンによって収音されたユーザの発話に基づいて、前記ユーザの発話に対する応答を含む第2サービスを提供し、前記通信部が前記音響設備と接続した場合、前記第2サービスを提供せず、前記第1サービスを提供するものである。
(7)本発明の他の態様は、車両の複数の座席のそれぞれに対応して設けられ、少なくとも一つ以上のマイクロフォンを含み、かつ前記座席にいるユーザの端末装置と有線または無線を介して接続される音響設備と、前記音響設備に含まれる前記マイクロフォンから、前記ユーザの発話を示す音声データを取得する取得部と、前記取得部によって取得された前記音声データに基づいて、前記複数の座席の中から、特定のフレーズを発話したユーザがいる第1座席を判定する判定部と、前記判定部の判定結果に基づいて、前記複数の座席のそれぞれに対応して設けられた前記音響設備のうち、前記第1座席と異なる第2座席に対応して設けられた前記音響設備と、前記端末装置との接続を制限する接続制御部と、を備えるエージェントシステムである。
(8)本発明の他の態様は、車両に搭載されたコンピュータが、前記車両の複数の座席のそれぞれに対応して設けられ、少なくとも一つ以上のマイクロフォンを含み、かつ前記座席にいるユーザの端末装置と有線または無線を介して接続される音響設備から、前記ユーザの発話を示す音声データを取得し、前記取得した音声データに基づいて、前記複数の座席のそれぞれにいるユーザの中から、特定のフレーズを発話した第1ユーザを判定し、前記判定した結果に基づいて、前記第1ユーザがいる第1座席と異なる第2座席に対応して設けられた前記音響設備と、前記端末装置との接続を制限する、車載機器の制御方法である。
(9)本発明の他の態様は、車両に搭載されたコンピュータに、前記車両の複数の座席のそれぞれに対応して設けられ、少なくとも一つ以上のマイクロフォンを含み、かつ前記座席にいるユーザの端末装置と有線または無線を介して接続される音響設備から、前記ユーザの発話を示す音声データを取得する処理と、前記取得した音声データに基づいて、前記複数の座席のそれぞれにいるユーザの中から、特定のフレーズを発話した第1ユーザを判定する処理と、前記判定した結果に基づいて、前記第1ユーザがいる第1座席と異なる第2座席に対応して設けられた前記音響設備と、前記端末装置との接続を制限する処理と、を実行させるためのプログラムである。
上記のいずれかの態様によれば、利用者をより満足させることができる。
実施形態に係るエージェントシステム1の構成図である。 実施形態に係るエージェント装置100の構成と、車両Mに搭載された機器との一例を示す図である。 車内のマイクロフォン10の配置の一例を示す図である。 車内の表示・操作装置20の配置の一例を示す図である。 車内のスピーカ30の配置の一例を示す図である。 後部座席BS1に着座したユーザから見た音響設備AEの一例を示す図である。 音像が定位する位置が定まる原理について説明するための図である。 実施形態に係る端末装置400の構成の一例を示す図である。 エージェントサーバ200の構成と、エージェント装置100および端末装置400の構成の一部とを示す図である。 実施形態に係る端末装置400による一連の処理の流れを示すフローチャートである。 実施形態に係るエージェント装置100による一連の処理の流れを示すフローチャートである。 音響設備AEと端末装置400との接続を制限する場面の一例を示す図である。 音響設備AEと端末装置400との接続を制限する場面の一例を示す図である。 音響設備AEと端末装置400との接続を制限する場面の一例を示す図である。 実施形態に係るエージェント装置100の構成の他の例を示す図である。
以下、図面を参照し、本発明のエージェントシステム、車載機器の制御方法、及びプログラムの実施形態について説明する。
エージェント装置は、エージェントシステムの一部または全部を実現する装置である。エージェント装置は、典型的には、車両Mに搭載される。エージェント装置は、複数種類のエージェント機能を備える。例えば、エージェント機能は、ユーザと対話をしながら、ユーザの発話の中に含まれる要求(コマンド)に基づいて、各種情報をユーザに提供したり、ネットワークサービスを仲介したりする機能である。複数種類のエージェントはそれぞれに果たす機能、処理手順、制御、出力態様・内容がそれぞれ異なってもよい。また、エージェント装置が備える複数のエージェント機能の中には、車両Mに搭載された車載機器(例えば運転制御や車体制御に関わる機器)の制御等を行う機能を有する機能が含まれる。
エージェント機能は、例えば、乗員の音声を認識する音声認識機能(音声をテキスト化する機能)に加え、自然言語処理機能(テキストの構造や意味を理解する機能)、対話管理機能、ネットワークを介して他装置のデータベースを検索し、或いは自装置のデータベースを検索するネットワーク検索機能等を統合的に利用して実現される。これらの機能の一部または全部は、AI(Artificial Intelligence)技術によって実現されてよい。また、これらの機能を行うための構成の一部(特に、音声認識機能や自然言語処理機能)は、エージェントサーバ(外部装置)に搭載されてもよい。エージェントサーバは、例えば、車両Mに搭載された通信装置と通信したり、車両M内に持ち込まれた端末装置と通信したりする。以下の説明では、構成の一部がエージェントサーバに搭載されており、エージェント装置とエージェントサーバが協働してエージェントシステムを実現することを前提とする。また、エージェント装置とエージェントサーバが協働して仮想的に出現させるサービス提供主体(サービス・エンティティ)をエージェントAGと称する。エージェントAGは、音声アシスタントとも呼ばれる。
<システムの全体構成>
図1は、実施形態に係るエージェントシステム1の構成図である。エージェントシステム1は、例えば、エージェント装置100と、複数のエージェントサーバ200−1、200−2、200−3、…と、端末装置400とを備える。符号の末尾のハイフン以下の数字は、エージェントAGを区別するための識別子であるものとする。いずれのエージェントサーバであるのかを区別しない場合、エージェントサーバ200と総称する場合がある。図1では3つのエージェントサーバ200を示しているが、エージェントサーバ200の数は2つであってもよいし、4つ以上であってもよい。以下、符号「200−1」が付されるエージェントサーバを、「第1エージェントサーバ」と称し、符号「200−2」が付されるエージェントサーバを、「第2エージェントサーバ」と称し、符号「200−3」が付されるエージェントサーバを、「第3エージェントサーバ」と称して説明する。これらのエージェントサーバ200は、互いに異なる事業者によって運営される。例えば、自動車メーカー、ネットワークサービス事業者、電子商取引事業者、携帯電話の販売事業者や製造事業者などが、それぞれのエージェントサーバ200を運営および管理してよい。この場合、エージェントAGは、任意の主体(法人、団体、個人等)によって提供される。
エージェントシステム1に含まれる各装置はネットワークNWを介して接続される。ネットワークNWは、例えば、インターネット、セルラー網、Wi−Fi網、WAN(Wide Area Network)、LAN(Local Area Network)、公衆回線、電話回線、無線基地局などのうち一部または全部を含む。ネットワークNWには、各種ウェブサーバ300が接続されており、エージェントサーバ200、エージェント装置100、または端末装置400は、ネットワークNWを介して各種ウェブサーバ300からウェブページを取得することができる。
第1エージェントサーバ200−1は、第1事業者によって運営および管理されるサーバである。第1事業者は、例えば、自動車メーカーである。例えば、第1エージェントサーバ200−1は、ネットワークNWを介して、他のエージェントサーバ200と通信したり、エージェント装置100や端末装置400と通信したりする。第1エージェントサーバ200−1は、例えば、エージェント装置100や端末装置400に、自動車メーカー独自のエージェント(以下、第1エージェントAG1と称する)をサービスとして提供させる。
第2エージェントサーバ200−2は、第2事業者によって運営および管理されるサーバである。第2事業者は、例えば、ショッピングサイトなどを提供するネットワークサービス事業者である。例えば、第2エージェントサーバ200−2は、ネットワークNWを介して、他のエージェントサーバ200と通信したり、エージェント装置100や端末装置400と通信したりする。第2エージェントサーバ200−2は、例えば、エージェント装置100や端末装置400に、第2事業者独自のエージェント(以下、第2エージェントAG2と称する)をサービスとして提供させる。
第3エージェントサーバ200−3は、第3事業者によって運営および管理されるサーバである。第3事業者は、例えば、自動車メーカーや、ネットワークサービス事業者、その他事業者であってよい。例えば、第3エージェントサーバ200−3は、ネットワークNWを介して、他のエージェントサーバ200と通信したり、エージェント装置100や端末装置400と通信したりする。第3エージェントサーバ200−3は、例えば、エージェント装置100や端末装置400に、第3事業者独自のエージェント(以下、第3エージェントAG3と称する)をサービスとして提供させる。
エージェント装置100は、車両Mに乗車したユーザと対話を行い、ユーザから得られた質問などをエージェントサーバ200に送信し、エージェントサーバ200から得られた回答を、音声として出力したり、画像として表示したりする。
[車両の構成]
図2は、実施形態に係るエージェント装置100の構成と、車両Mに搭載された機器との一例を示す図である。車両Mには、例えば、複数の音響設備AEと、ナビゲーション装置50と、車両機器60と、車載通信装置70と、乗員認識装置80と、エージェント装置100とが搭載される。これらの装置は、CAN(Controller Area Network)通信線等の多重通信線やシリアル通信線、無線通信網等によって互いに接続される。なお、図2に示す構成はあくまで一例であり、構成の一部が省略されてもよいし、更に別の構成が追加されてもよい。
音響設備AEは、車両Mの室内に設けられた複数の座席のそれぞれに対応して少なくとも1台ずつ設置される。例えば、車両Mに、運転席DS、助手席AS、運転席DSの後方の後部座席BS1、および助手席ASの後方の後部座席BS2の計4つの座席が設けられている場合、音響設備AEは、4つの座席のそれぞれの内部や表面、或いはその近傍に設置される。すなわち、「座席に対応する」とは、座席の内部(in the seat)や表面(on the seat)、或いはその近傍(near the seat)に設置されることを意味する。以下、一例として、車両Mに4つの座席が設けられているものとして説明する。また、運転席DSに対応した音響設備AEを「第1音響設備AE」と称し、助手席ASに対応した音響設備AEを「第2音響設備AE」と称し、後部座席BS1に対応した音響設備AEを「第3音響設備AE」と称し、後部座席BS2に対応した音響設備AEを「第4音響設備AE」と称して説明する。
各音響設備AEは、マイクロフォン10と、表示・操作装置20と、スピーカ30と、通信インターフェース40とを備える。
マイクロフォン10は、車両Mの室内の音声を収音する音声入力装置である。マイクロフォン10は、車内のユーザの発話音声やその他の環境音を収音すると、その収音した音声を示す音声データ(音響データともいう)をエージェント装置100に出力する。
表示・操作装置20は、画像を表示すると共に、入力操作を受付可能な装置(或いは装置群)である。表示・操作装置20は、例えば、タッチパネルとして構成されたディスプレイを含む。表示・操作装置20は、更に、HUD(Head Up Display)や機械式の入力装置を含んでもよい。表示・操作装置20は、エージェント装置100とナビゲーション装置50とで共用されてもよい。これらの詳細については後述する。
スピーカ30は、車両Mの室内に音声を出力する音声出力装置である。スピーカ30は、エージェント装置100や端末装置400の指示に応じて音声を出力する。
通信インターフェース40は、車両Mの車内に持ち込まれた端末装置400と、有線または無線によって接続するハードウェアインターフェースである。例えば、端末装置400と有線接続する場合、通信インターフェース40には、USB(Universal Serial Bus)やLightning(登録商標、以下省略)などのシリアルバスのケーブルCBなどが含まれる。また、例えば、端末装置400と無線接続する場合、通信インターフェース40には、Wi−FiやBluetooth(登録商標、以下省略)などのアクセスポイント(無線機器)が含まれる。なお、車内に持ち込まれた全ての端末装置400が無線通信によって接続可能な場合、アクセスポイントは、車内に少なくとも一つあればよい。従って、複数の音響設備AEのうち、少なくとも一つが通信インターフェース40を備えていればよく、残りの音響設備AEは、必ずしも通信インターフェース40を備えていなくてもよい。
図3は、車内のマイクロフォン10の配置の一例を示す図である。図中10Aは、第1音響設備AEに含まれるマイクロフォンを表し、10Bは、第2音響設備AEに含まれるマイクロフォンを表し、10Cは、第3音響設備AEに含まれるマイクロフォンを表し、10Dは、第4音響設備AEに含まれるマイクロフォンを表している。また、X軸は、車両Mの進行方向を表し、Y軸は、車両Mの幅方向を表し、Z軸は、鉛直方向を表している。
図示のように、例えば、マイクロフォン10Aは運転席DSの前のインストルメントパネル(ダッシュボードともいう)やステアリングホイールSWなどに設置され、マイクロフォン10Bは助手席ASの前のインストルメントパネルに設置され、マイクロフォン10Cは運転席DSの後面やその近傍に設置され、マイクロフォン10Dは助手席ASの後面やその近傍に設置される。
図4は、車内の表示・操作装置20の配置の一例を示す図である。表示・操作装置20は、例えば、第1ディスプレイ20Aと、第2ディスプレイ20Bと、操作スイッチアッセンブリ20Xとを含む。表示・操作装置20は、更に、HUD20Yを含んでもよい。
第1ディスプレイ20A、第2ディスプレイ20B、およびHUD20Yのうちの少なくとも一つは、第1音響設備AEに含まれる表示・操作装置20を表し、第1ディスプレイ20Aまたは第2ディスプレイ20Bの少なくとも一方は、第2音響設備AEに含まれる表示・操作装置20を表している。
例えば、第1ディスプレイ20Aは、インストルメントパネルにおける運転席DSと助手席ASとの中間辺りから、助手席ASの左端部に対向する位置まで延在する長方形状のディスプレイ装置である。第2ディスプレイ20Bは、運転席DSと助手席ASとの車幅方向に関する中間あたり、且つ第1ディスプレイの下方に設置されている。例えば、第1ディスプレイ20Aと第2ディスプレイ20Bは、共にタッチパネルとして構成され、表示部としてLCD(Liquid Crystal Display)や有機EL(Electroluminescence)ディスプレイ、プラズマディスプレイなどを備えるものである。操作スイッチアッセンブリ20Xは、ダイヤルスイッチやボタン式スイッチなどの部品が一つに集積されたものである。表示・操作装置20は、乗員の操作内容を示す信号をエージェント装置100に出力する。第1ディスプレイ20Aまたは第2ディスプレイ20Bに表示される情報は、エージェント装置100によって決定されてよい。
また、表示・操作装置20は、上述した第1ディスプレイ20A、第2ディスプレイ20B、操作スイッチアッセンブリ20Xなどに加えて、更に、第3ディスプレイ20Cと、第4ディスプレイ20Dとを含む。第3ディスプレイ20Cは、第3音響設備AEに含まれる表示・操作装置20を表し、第4ディスプレイ20Dは、第4音響設備AEに含まれる表示・操作装置20を表している。
例えば、第3ディスプレイ20Cは、運転席DSの後面に設置され、第4ディスプレイ20Dは助手席ASの後面に設置される。第3ディスプレイ20Cおよび第4ディスプレイ20Dは、LCDや有機ELディスプレイ、プラズマディスプレイなどを含む。
図5は、車内のスピーカ30の配置の一例を示す図である。例えば、車内には、スピーカ30A〜30Hが配置される。スピーカ30Aは、運転席DS側の窓柱(いわゆるAピラー)に設置されている。スピーカ30Bは、運転席DSに近いドアの下部に設置されている。スピーカ30Cは、助手席AS側の窓柱に設置されている。スピーカ30Dは、助手席ASに近いドアの下部に設置されている。スピーカ30Eは、右側の後部座席BS1側に近いドアの下部に設置されている。スピーカ30Fは、左側の後部座席BS2側に近いドアの下部に設置されている。スピーカ30Gは、第2ディスプレイ20Bの近傍に設置されている。スピーカ30Hは、車内の天井に設置されている。
スピーカ30A、30B、30Gのうち、少なくとも30Aおよび30Bは、第1音響設備AEに含まれるスピーカ30を表している。スピーカ30C、30D、30Gのうち、少なくとも30Cおよび30Dは、第2音響設備AEに含まれるスピーカ30を表している。スピーカ30E、30Hのうち、少なくとも30Eは、第3音響設備AEに含まれるスピーカ30を表している。スピーカ30F、30Hのうち、少なくとも30Fは、第4音響設備AEに含まれるスピーカ30を表している。
係る配置において、例えば、エージェント装置100が、専らスピーカ30Aおよび30Bに音を出力させた場合、音像は運転席DS付近に定位することになる。また、エージェント装置100が、専らスピーカ30Cおよび30Dに音を出力させた場合、音像は助手席AS付近に定位することになる。また、エージェント装置100が、専らスピーカ30Eに音を出力させた場合、音像は右側の後部座席BS1付近に定位することになる。また、エージェント装置100が、専らスピーカ30Fに音を出力させた場合、音像は左側の後部座席BS2付近に定位することになる。また、エージェント装置100が、専らスピーカ30Gに音を出力させた場合、音像は車室の前方付近に定位することになり、専らスピーカ30Hに音を出力させた場合、音像は車室の上方付近に定位することになる。これに限らず、エージェント装置100は、ミキサーやアンプを用いて各スピーカの出力する音の配分を調整することで、車室内の任意の位置に音像を定位させることができる。
図6は、後部座席BS1に着座したユーザから見た音響設備AEの一例を示す図である。図示の例のように、マイクロフォン10Cおよび第3ディスプレイ20Cは、運転席DSの後面に設置される、また、通信インターフェース40が端末装置400と有線接続される場合、運転席DSの後面側からシリアルバスなどのケーブルCBが引き出される。なお、通信インターフェース40が端末装置400と無線接続される場合、ケーブルCBは省略されてよい。
図2の説明に戻る。ナビゲーション装置50は、ナビHMI(Human machine Interface)と、GPS(Global Positioning System)などの位置測位装置と、地図情報を記憶した記憶装置と、経路探索などを行う制御装置(ナビゲーションコントローラ)とを備える。マイクロフォン10、表示・操作装置20、およびスピーカ30のうち一部または全部がナビHMIとして用いられてもよい。ナビゲーション装置50は、位置測位装置によって特定された車両Mの位置から、乗員によって入力された目的地まで移動するための経路(ナビ経路)を探索し、経路に沿って車両Mが走行できるように、ナビHMIを用いて案内情報を出力する。経路探索機能は、ネットワークNWを介してアクセス可能なナビゲーションサーバにあってもよい。この場合、ナビゲーション装置50は、ナビゲーションサーバから経路を取得して案内情報を出力する。なお、エージェント装置100は、ナビゲーションコントローラを基盤として構築されてもよく、この場合、ナビゲーションコントローラとエージェント装置100は、一つのハードウェア上で一体に構成される。
車両機器60は、例えば、エンジンや走行用モータなどの駆動力出力装置、エンジンの始動モータ(スターター)、ドアロック装置、ドア開閉装置、窓、窓の開閉装置及び窓の開閉制御装置、シート、シート位置の制御装置、ルームミラー及びその角度位置制御装置、車両内外の照明装置及びその制御装置、ワイパーやデフォッガー及びそれぞれの制御装置、方向指示灯及びその制御装置、空調装置、走行距離やタイヤの空気圧の情報や燃料の残量情報などの情報装置などを含む。
車載通信装置70は、例えば、セルラー網やWi−Fi網を利用してネットワークNWにアクセス可能な無線通信装置である。
乗員認識装置80は、例えば、着座センサ、車室内カメラ、画像認識装置などを含む。着座センサは座席の下部に設けられた圧力センサ、シートベルトに取り付けられた張力センサなどを含む。車室内カメラは、車室内に設けられたCCD(Charge Coupled Device)カメラやCMOS(Complementary Metal Oxide Semiconductor)カメラである。画像認識装置は、車室内カメラの画像を解析し、座席ごとの乗員の有無、顔向きなどを認識する。
[エージェント装置]
エージェント装置100は、管理部110と、第1エージェント機能部150−1と、第2エージェント機能部150−2と、第3エージェント機能部150−3と、接続制御部152と、記憶部160とを備える。管理部110は、例えば、音響処理部112と、エージェントごとWU(Wake Up)判定部114と、表示制御部116と、音声制御部118と、ユーザ判定部120とを備える。第1エージェント機能部150−1、第2エージェント機能部150−2、および第3エージェント機能部150−3のうち、いずれかのエージェント機能部であるのか区別しない場合、単にエージェント機能部150と称する。3つのエージェント機能部150を示しているのは、図1におけるエージェントサーバ200の数に対応させた一例に過ぎず、エージェント機能部150の数は、2つであってもよいし、4つ以上であってもよい。図2に示すソフトウェア配置は説明のために簡易に示しており、実際には、例えば、エージェント機能部150と車載通信装置70の間に管理部110が介在してもよいように、任意に改変することができる。
エージェント装置100の各構成要素は、例えば、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)などのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。これらの構成要素のうち一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)などのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予め記憶部160に格納されていてもよいし、DVDやCD−ROMなどの着脱可能な記憶媒体(非一過性の記憶媒体)に格納されており、その記憶媒体がドライブ装置に装着されることで記憶部160にインストールされてもよい。
記憶部160は、HDD(Hard Disk Drive)、フラッシュメモリ、EEPROM(Electrically Erasable Programmable Read Only Memory)、ROM(Read Only Memory)、またはRAM(Random Access Memory)等により実現される。記憶部160には、例えば、プロセッサによって参照されるプログラムなどが格納される。
管理部110は、例えば、OS(Operating System)やミドルウェアなどのプログラムがプロセッサによって実行されることで機能する。
管理部110の音響処理部112は、各座席の音響設備AEに含まれるマイクロフォン10から音声データを取得し、取得した音声データに対して、ウェイクアップワードが認識しやすくなるように音響処理を行う。ウェイクアップワードとは、提供可能な複数のエージェントAGの中から、起動すべきエージェントAGを呼び出すワード或いはフレーズである。ウェイクアップワードは、ホットワードとも呼ばれる。なお、「取得する」ことの意味は、典型的には、マイクロフォン10から音声データを受動的に取得することであるが、能動的に取得することであってもよい。音響処理部112は、「取得部」の一例である。ウェイクアップワードは、「特定のフレーズ」の一例である。
エージェントごとWU判定部114は、音響処理部112によって音響処理が行われた一つまたは複数の音声データに、第1エージェント機能部150−1に対応した第1エージェントAG1のウェイクアップワードが含まれるのか、第2エージェント機能部150−2に対応した第2エージェントAG2のウェイクアップワードが含まれるのか、或いは第3エージェント機能部150−3に対応した第3エージェントAG3のウェイクアップワードが含まれるのかを判定する。
例えば、エージェントごとWU判定部114は、音響処理が行われた音声データ(以下、音声ストリーム)から音声の意味を認識する。具体的には、エージェントごとWU判定部114は、音声ストリームにおける音声波形の振幅と零交差に基づいて、ユーザが発話した音声区間を検出する。エージェントごとWU判定部114は、混合ガウス分布モデル(GMM;Gaussian mixture model)に基づくフレーム単位の音声識別および非音声識別に基づく区間検出を行ってよい。
エージェントごとWU判定部114は、音声区間を検出すると、その音声区間における音声をテキストに変換する。そして、エージェントごとWU判定部114は、テキストがウェイクアップワードに該当するか否かを判定する。ウェイクアップワードであると判定した場合、エージェントごとWU判定部114は、対応するエージェント機能部150を起動させる。なお、エージェントごとWU判定部114に相当する機能部がエージェントサーバ200に搭載されてもよい。この場合、例えば、管理部110は、音響処理部112によって音響処理が行われた音声ストリームをエージェントサーバ200に送信し、エージェントサーバ200がウェイクアップワードであると判定した場合、エージェントサーバ200からの指示に従ってエージェント機能部150が起動する。なお、各エージェント機能部150は、常時起動しており且つウェイクアップワードの判定を自ら行うものであってよい。この場合、管理部110がエージェントごとWU判定部114を備える必要はない。
エージェント機能部150は、対応するエージェントサーバ200と協働して、音声による応答を含むサービスをエージェントAGとして乗員に提供する。例えば、第1エージェント機能部150−1は、車載通信装置70を介して第1エージェントサーバ200−1と通信し、第1エージェントAG1を乗員に提供する。また、第2エージェント機能部150−2は、車載通信装置70を介して第2エージェントサーバ200−2と通信し、第2エージェントAG2を乗員に提供する。また、第3エージェント機能部150−3は、接続制御部152を介して端末装置400と連携することで、第3エージェントサーバ200−3と通信し、第3エージェントAG3を乗員に提供する。エージェント機能部150は、「提供部」の一例である。
これらの複数のエージェント機能部150には、法律や条例、エージェントAGを提供する事業者同士の契約などに応じて、車載機器を制御する権限が割り振られる。例えば、第1エージェント機能部150−1には、ナビゲーション装置50および車両機器60を制御する権限が付与され、第2エージェント機能部150−2および第3エージェント機能部150−3には、ナビゲーション装置50および車両機器60を制御する権限が付与されさない。すなわち、第1エージェント機能部150−1は、少なくともナビゲーション装置50および車両機器60の制御を含むサービスを第1エージェントAG1として提供し、第2エージェント機能部150−2および第3エージェント機能部150−3は、少なくともナビゲーション装置50および車両機器60の制御を含まないサービスを第2エージェントAG2や第3エージェントAG3として提供する。
接続制御部152は、通信インターフェース40を介して、第3エージェント機能部150−3と端末装置400とを互いに接続させる。例えば、接続制御部152は、Bluetoothなどを利用して、第3エージェント機能部150−3と端末装置400とのペアリングを行い、ペアリングが完了した第3エージェント機能部150−3と端末装置400とを互いに接続させる。また、例えば、接続制御部152は、USBなどの有線ケーブルCBに端末装置400が接続された場合、有線ケーブルCBを介して第3エージェント機能部150−3と端末装置400とを互いに接続させてもよい。
表示制御部116は、エージェント機能部150による指示に応じて各種ディスプレイに画像を表示させる。例えば、表示制御部116は、車内で乗員とのコミュニケーションを行う擬人化されたエージェントの画像(以下、エージェント画像と称する)を生成し、生成したエージェント画像をディスプレイに表示させる。エージェント画像は、例えば、乗員に対して話しかける態様の画像である。エージェント画像は、例えば、少なくとも観者(乗員)によって表情や顔向きが認識される程度の顔画像を含んでよい。例えば、エージェント画像は、顔領域の中に目や鼻に擬したパーツが表されており、顔領域の中のパーツの位置に基づいて表情や顔向きが認識されるものであってよい。また、エージェント画像は、観者によって、立体的に感じられ、三次元空間における頭部画像を含むことでエージェントの顔向きが認識される画像である。エージェント画像は、エージェントの動作や振る舞い、姿勢等が認識された本体(胴体や手足)の画像を含むものであってもよい。また、エージェント画像は、アニメーション画像であってもよい。
音声制御部118は、エージェント機能部150による指示に応じて、スピーカ30に音声を出力させる。音声制御部118は、複数のスピーカ30を用いて、エージェント画像が表示されるディスプレイの位置に合わせてエージェント音声の音像を定位させてもよい。音像が定位するとは、例えば、乗員の左右の耳に伝達される音の大きさが調節されることにより、乗員が感じる音源の空間的な位置を定めることである。
図7は、音像が定位する位置が定まる原理について説明するための図である。図7では、説明を簡略化するために、上述したスピーカ30B、30D、および30Gを用いる例を示しているが、任意のスピーカ30が使用されてよい。音声制御部118は、各スピーカに接続されたアンプ(AMP)32およびミキサー34を制御して音像を定位させる。例えば、図7に示す空間位置MP1に音像を定位させる場合、音声制御部118は、アンプ32およびミキサー34を制御することにより、スピーカ30Bに最大強度の5%の出力を行わせ、スピーカ30Dに最大強度の80%の出力を行わせ、スピーカ30Gに最大強度の15%の出力を行わせる。この結果、乗員Pの位置からは、図7に示す空間位置MP1に音像が定位しているように感じることになる。
また、図7に示す空間位置MP2に音像を定位させる場合、音声制御部118は、アンプ32およびミキサー34を制御することにより、スピーカ30Bに最大強度の45%の出力を行わせ、スピーカ30Dに最大強度の45%の出力を行わせ、スピーカ30Gに最大強度の45%の出力を行わせる。この結果、乗員Pの位置からは、図7に示す空間位置MP2に音像が定位しているように感じることになる。このように、車室内に設けられる複数のスピーカとそれぞれのスピーカから出力される音の大きさを調整することで、音像が定位される位置を変化させることができる。なお、より詳細には、音像の定位する位置は、音源が元々保有している音特性や、車室内環境の情報、頭部伝達関数(HRTF;Head-related transfer function)に基づいて定まるため、音声制御部118は、予め官能試験などで得られた最適な出力配分で複数のスピーカ30を制御することで、音像を任意の位置に定位させる。
ユーザ判定部120は、複数のマイクロフォン10のそれぞれから取得され、かつ音響処理部112によって音響処理が行われた音声データ、すなわち複数の音声ストリームに基づいて、複数の座席のそれぞれにいるユーザの中から、ウェイクアップワードを発話したユーザ(以下、対話ユーザと称する)を判定する。対話ユーザの判定方法の詳細については後述する。
[端末装置]
図8は、実施形態に係る端末装置400の構成の一例を示す図である。実施形態に係る端末装置400は、例えば、通信インターフェース402と、タッチパネル404と、マイクロフォン406と、スピーカ408と、端末制御部410と、記憶部430とを備える。図8に示す構成はあくまで一例であり、構成の一部が省略されてもよいし、更に別の構成が追加されてもよい。
通信インターフェース402は、例えば、音響設備AEに含まれる通信インターフェース40と有線接続することが可能なハードウェアインターフェースである。具体的には、通信インターフェース402は、USB端子やLightning端子などである。また、通信インターフェース402は、音響設備AEに含まれる通信インターフェース40と無線接続することが可能なハードウェアインターフェースであってもよい。例えば、通信インターフェース402には、Wi−FiのアンテナやBluetoothのアンテナなどが含まれる。
タッチパネル404は、端末制御部410による指示に基づいて画像を表示すると共に、タッチ操作を受け付けるユーザインタフェースである。
マイクロフォン406は、端末装置400の周囲の音声を収音する音声入力装置である。マイクロフォン406は、音声を収音すると、その音声を示す音声データを端末制御部410に出力する。マイクロフォン406は、「第2マイクロフォン」の一例である。
スピーカ408は、端末制御部410の指示に応じて音声を出力する。
端末制御部410は、例えば、音響処理部412と、表示制御部414と、音声制御部416と、判定部418と、エージェント機能部420とを備える。これらの構成要素は、例えば、CPUやGPUなどのハードウェアプロセッサがプログラム(ソフトウェア)やアプリケーションを実行することにより実現される。これらの構成要素のうち一部または全部は、LSIやASIC、FPGAなどのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムやアプリケーションは、予め記憶部430に格納されていてもよいし、DVDやCD−ROMなどの着脱可能な記憶媒体(非一過性の記憶媒体)に格納されており、その記憶媒体がドライブ装置に装着されることで記憶部430にインストールされてもよい。
記憶部430は、HDD、フラッシュメモリ、EEPROM、ROM、またはRAM等により実現される。記憶部430には、例えば、プロセッサによって参照されるプログラムの他に、エージェントアプリケーション432などが格納される。
エージェントアプリケーション432は、例えば、端末装置400を操作するユーザによって発話された音声を解析または分析し、そのユーザの発話に応じた応答を返すためのアプリケーションプログラムである。例えば、プロセッサがエージェントアプリケーション432を実行することで、音響処理部412、表示制御部414、音声制御部416、判定部418、およびエージェント機能部420が実現される。
音響処理部412は、マイクロフォン406から音声データを取得し、取得した音声データに対して、ウェイクアップワードが認識しやすくなるように音響処理を行う。
表示制御部414は、エージェント機能部420の指示に応じて、タッチパネル404に画像を表示させる。例えば、表示制御部414は、タッチパネル404にエージェント画像を表示させる。
音声制御部416は、エージェント機能部420の指示に応じて、スピーカ408に音声を出力させる。
判定部418は、音響処理部412によって音響処理が行われた音声データ、すなわち音声ストリームに、いずれかのエージェントAGを呼び出すためのウェイクアップワードが含まれているか否かを判定する。
エージェント機能部420は、判定部418によって音声ストリームにウェイクアップワードが含まれていると判定された場合、対応するエージェントサーバ200と協働して、音声による応答を含むサービスをエージェントAGとして乗員に提供する。
[エージェントサーバ]
図9は、エージェントサーバ200の構成と、エージェント装置100および端末装置400の構成の一部とを示す図である。ここでは、エージェントサーバ200の構成と共にエージェント機能部150、420等の動作について説明する。エージェント装置100からネットワークNWまでの物理的な通信については、説明を省略する。
各エージェントサーバ200は、通信部210を備える。通信部210は、例えばNIC(Network Interface Card)などのネットワークインターフェースである。更に、エージェントサーバ200は、例えば、音声認識部220と、自然言語処理部222と、対話管理部224と、ネットワーク検索部226と、応答文生成部228とを備える。これらの構成要素は、例えば、CPUやGPUなどのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。これらの構成要素のうち一部または全部は、LSIやASIC、FPGAなどのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予め記憶部250に格納されていてもよいし、DVDやCD−ROMなどの着脱可能な記憶媒体(非一過性の記憶媒体)に格納されており、その記憶媒体がドライブ装置に装着されることで記憶部250にインストールされてもよい。
エージェントサーバ200は、記憶部250を備える。記憶部250は、HDD、フラッシュメモリ、EEPROM、ROM、またはRAM等により実現される。記憶部250には、例えば、プロセッサによって参照されるプログラムの他に、パーソナルプロファイル252、辞書DB(データベース)254、知識ベースDB256、応答規則DB258などのデータやプログラムが格納される。
エージェント装置100に含まれる各エージェント機能部150と、端末装置400に含まれるエージェント機能部420とは、圧縮や符号化、暗号化などの処理を行った音声ストリーム、またはこれらの処理を行っていない音声ストリームを、エージェントサーバ200に送信する。例えば、第1エージェント機能部150−1は、音声ストリームを第1エージェントサーバ200−1に送信する。また、第2エージェント機能部150−2は、音声ストリームを第2エージェントサーバ200−2に送信する。また、第3エージェント機能部150−3は、音声ストリームを第3エージェントサーバ200−3に送信する。
これらのエージェント機能部150、420は、音声ストリームをエージェントサーバ200に送信することに加えて、或いは代えて、音声ストリームに含まれる音声コマンドに基づいて、自らが音声コマンドに応じた処理を行ってもよい。例えば、エージェント機能部150は、音声ストリームからローカル処理(エージェントサーバ200を介さない処理)が可能な音声コマンドを認識した場合、その認識した音声コマンドに応じた処理を行う。ローカル処理が可能な音声コマンドとは、例えば、エージェント装置100が備える記憶部160を参照することで回答可能な音声コマンドである。例えば、音声コマンドが第1エージェント機能部150−1によって認識される場合、ローカル処理が可能な音声コマンドは、例えば、車両機器60やナビゲーション装置50の遠隔制御を指示する音声コマンド(例えば、空調装置をオンにするコマンドなど)であってよい。このように、エージェント機能部150は、エージェントサーバ200が備える機能の一部を有してもよい。
エージェントサーバ200の音声認識部220は、通信部210によって受信された音声ストリームに対して音声認識を行って、音声ストリームをテキスト化した文字情報を生成する。文字情報は、例えば、発話の内容が文字として記述されたテキストデータである。
例えば、音声認識部220は、音声ストリームを、BiLSTM(Bi-directional Long short-term memory)やアテンション機構などを含むリカレントニューラルネットワークに入力することで、音声信号が低周波数や高周波数などの複数の周波数帯に分離され、その各周波数帯の音声信号がフーリエ変換されたスペクトログラム(メルスペクトログラム)を得る。リカレントニューラルネットワークは、例えば、学習用の音声信号から生成されたスペクトログラムに対して、その学習用の音声信号が教師ラベルとして対応付けられた教師データを利用することで、予め学習されていてよい。
そして、音声認識部220は、スペクトログラムを、複数の隠れ層を含む畳み込みニューラルネットワークに入力することで、スペクトログラムから文字列を得る。畳み込みニューラルネットワークは、例えば、学習用のスペクトログラムに対して、その学習用のスペクトログラムを生成するのに使われた音声信号に対応する文字列が教師ラベルとして対応付けられた教師データを利用することで、予め学習されていてよい。音声認識部220は、畳み込みニューラルネットワークから得た文字列のテキストデータを、文字情報として生成する。
自然言語処理部222は、辞書DB254を参照しながら、音声認識部220によって生成された文字情報の意味を解釈する。辞書DB254は、文字情報に対して抽象化された意味情報が対応付けられたものである。辞書DB254は、同義語や類義語の一覧情報を含んでもよい。音声認識と自然言語処理は、段階が明確に分かれるものではなく、自然言語処理部222の処理結果を受けて音声認識部220が認識結果を修正するなど、相互に影響し合って行われてよい。
自然言語処理部222は、例えば、認識結果として、「今日の天気は」、「天気はどうですか」等の意味が認識された場合、標準文字情報「今日の天気」に置き換えたコマンドを生成する。これにより、リクエストの音声に文字揺らぎがあった場合にも要求にあった対話をし易くすることができる。また、自然言語処理部222は、辞書DB254を一つのルールとして利用して意味解釈を行うことに加えて、或いは代えて、例えば、確率を利用した機械学習処理等の人工知能処理を用いて文字情報の意味を認識したり、認識結果に基づくコマンドを生成したりしてもよい。
対話管理部224は、自然言語処理部222によって生成されたコマンドに基づいて、パーソナルプロファイル252や知識ベースDB256、応答規則DB258を参照しながら車両Mの乗員に対する発話の内容を決定する。パーソナルプロファイル252は、乗員ごとに保存されている乗員の個人情報、趣味嗜好、過去の対話の履歴などを含む。知識ベースDB256は、物事の関係性を規定した情報である。応答規則DB258は、コマンドに対してエージェントが行うべき動作(回答や機器制御の内容など)を規定した情報である。
また、対話管理部224は、音声ストリームから得られる特徴情報を用いて、パーソナルプロファイル252と照合を行うことで、乗員を特定してもよい。この場合、パーソナルプロファイル252には、例えば、音声の特徴情報に、個人情報が対応付けられている。音声の特徴情報とは、例えば、声の高さ、イントネーション、リズム(音の高低のパターン)等の喋り方の特徴や、メル周波数ケプストラム係数(Mel Frequency Cepstrum Coefficients)等による特徴量に関する情報である。音声の特徴情報は、例えば、乗員の初期登録時に所定の単語や文章等を乗員に発声させ、発声させた音声を認識することで得られる情報である。
対話管理部224は、コマンドが、ネットワークNWを介して検索可能な情報を要求するものである場合、ネットワーク検索部226に検索を行わせる。ネットワーク検索部226は、ネットワークNWを介して各種ウェブサーバ300にアクセスし、所望の情報を取得する。「ネットワークNWを介して検索可能な情報」とは、例えば、車両Mの周辺にあるレストランの一般ユーザによる評価結果であったり、その日の車両Mの位置に応じた天気予報であったりする。
応答文生成部228は、対話管理部224により決定された発話の内容が車両Mの乗員に伝わるように応答文を生成し、生成した応答文を、音声ストリームの送信元であるエージェント装置100に送信する。応答文には、例えば、発音記号が含まれていてもよいし、合成したい音声をテキストに置き換えた文字列が含まれていてもよい。応答文生成部228は、乗員がパーソナルプロファイルに登録された乗員であることが特定されている場合に、乗員の名前を呼んだり、乗員の話し方に似せた話し方にした応答文を生成したりしてもよい。
エージェント装置100のエージェント機能部150、または端末装置400のエージェント機能部420は、エージェントサーバ200から応答文を取得すると、その応答文に基づいて人工的な音声を合成する。例えば、エージェント機能部150またはエージェント機能部420は、波形接続型音声合成(Concatenative synthesis)と、フォルマント合成(Formant synthesis)とを行って、応答文に含まれる発音記号を読み上げる音声を合成する。また、エージェント機能部150またはエージェント機能部420は、応答文に発音記号が含まれず、音声として合成すべき文字列が含まれる場合、その文字列を発音記号に変換し、変換した発音記号を読み上げる音声を合成してよい。また、エージェント機能部150またはエージェント機能部420は、予め決められた複数のフレーズのそれぞれに対して音声が対応付けられている場合、それらの音声を組み合わせることで音声を合成してもよい。
エージェント機能部150は、合成した音声を出力するように音声制御部118に指示する。また、エージェント機能部150は、音声出力に合わせてエージェントの画像を表示するように表示制御部116に指示してよい。同様に、エージェント機能部420は、合成した音声を出力するように音声制御部416に指示したり、音声出力に合わせてエージェントの画像を表示するように表示制御部414に指示したりしてよい。このようにして、質問や要求などに対して応答する仮想的なエージェントAGが車両Mの乗員に提供される。
[端末装置の処理フロー]
以下、実施形態に係る端末装置400による一連の処理の流れをフローチャートを用いて説明する。図10は、実施形態に係る端末装置400による一連の処理の流れを示すフローチャートである。本フローチャートの処理は、例えば、所定の周期で繰り返し行われる。
まず、判定部418は、通信インターフェース402を介して、端末装置400と音響設備AEとが接続されたか否かを判定する(ステップS100)。
判定部418が、端末装置400と音響設備AEとが接続されていないと判定した場合、音響処理部412は、音声データの取得の有無に応じて、マイクロフォン406によって音声が収音されたか否かを判定する(ステップS102)。
音響処理部412は、マイクロフォン406によって音声が収音された場合、すなわちマイクロフォン406から音声データを取得した場合、音声データに対して音響処理を行う(ステップS104)。例えば、音響処理部412は、発話の音声データから、車両Mの走行時発生するノイズを除去したり、独り言や咳払いといった乗員が意図して発話していない音声を除去したりする。
次に、判定部418は、音響処理部412によって音響処理が行われた音声データ、すなわち音声ストリームに、いずれかのエージェントAGを呼び出すためのウェイクアップワードが含まれているか否かを判定する(ステップS106)。
判定部418は、マイクロフォン406によって音声が収音されなかった場合、或いは、マイクロフォン406によって音声が収音されたものの、その音声を示す音声ストリームの中にウェイクアップワードが含まれていない場合、本フローチャートの処理を終了する。
一方、マイクロフォン406によって音声が収音され、更にその音声を示す音声ストリームの中にウェイクアップワードが含まれている場合、エージェント機能部420は、ウェイクアップワードが発話された以降にマイクロフォン406から取得された音声データを、通信インターフェース402を介してをエージェントサーバ200に送信する(ステップS108)。エージェントサーバ200には、音響処理が行われた音声データである音声ストリームが送信されてもよい。
これを受けて、エージェントサーバ200は、音声データをテキストに変換し、そのテキストの意味を解釈して、応答文を生成する。そして、エージェントサーバ200は、応答文を端末装置400に送信する。
一方、S100の処理において、判定部418が、端末装置400と音響設備AEとが接続されていると判定した場合、エージェント機能部420は、マイクロフォン406をオフ(ミュート)にする(ステップS110)。「オフにする」とは、例えば、マイクロフォン406に対して電力を供給することを停止したり、マイクロフォン406から音声データを取得することを停止したりすることが含まれる。このように、端末装置400と音響設備AEとが接続している場合、端末装置400に内蔵されたマイクロフォン406の機能がオフになるため、端末装置400に対してユーザがウェイクアップワードを発話したとしてもエージェントAGが呼び出されなくなる(起動しなくなる)。
次に、エージェント機能部420は、通信インターフェース402がエージェントサーバ200から、或いはエージェント装置100から応答文を受信したか否かを判定し(ステップS112)、通信インターフェース402が応答文を受信した場合、応答文に基づいて合成音声を生成する(ステップS114)。エージェントサーバ200から受信した応答文は、「前記第1マイクロフォンによって収音されたユーザの発話に基づく情報」の一例である。
次に、音声制御部416は、エージェント機能部420によって生成された合成音声を、スピーカ408に出力させる(ステップS116)。この際、表示制御部414は、エージェント画像をタッチパネル404に表示させてよい。これによって本フローチャートの処理が終了する。エージェント装置100から受信した応答文に基づいて合成音声を出力したり、エージェント画像を表示したりすることは、「第1サービス」の一例である。また、エージェントサーバ200から受信した応答文に基づいて合成音声を出力したり、エージェント画像を表示したりすることは、「第2サービス」の一例である。
[エージェント装置の処理フロー]
以下、実施形態に係るエージェント装置100による一連の処理の流れをフローチャートを用いて説明する。図11は、実施形態に係るエージェント装置100による一連の処理の流れを示すフローチャートである。本フローチャートの処理は、例えば、所定の周期で繰り返し行われる。
まず、接続制御部152は、通信インターフェース40を介して、一台以上の端末装置400と第3エージェント機能部150−3とが互いに接続されたか否かを判定する(ステップS200)。
一台以上の端末装置400と第3エージェント機能部150−3とが互いに接続された場合、音響処理部112は、各座席の音響設備AEに含まれるマイクロフォン10から音声データを取得する(ステップS202)。
次に、音響処理部112は、複数のマイクロフォン10のそれぞれから取得した音声データに対して音響処理を行う(ステップS204)。
次に、エージェントごとWU判定部114は、音響処理部112によって音響処理が行われた複数の音声データ、すなわち複数の音声ストリームのいずれかに、ウェイクアップワードが含まれているか否かを判定する(ステップS206)。
複数の音声ストリームのいずれにもウェイクアップワードが含まれていない場合、エージェントごとWU判定部114は、本フローチャートの処理を終了する。
一方、複数の音声ストリームの少なくともいずれか一つにウェイクアップワードが含まれている場合、ユーザ判定部120は、複数のマイクロフォン10のそれぞれから取得され、かつ音響処理部112によって音響処理が行われた音声データ、すなわち複数の音声ストリームに基づいて、複数の座席のそれぞれにいるユーザの中から、ウェイクアップワードを発話したユーザである対話ユーザを判定する(ステップS208)。
例えば、運転席DSに対応した第1音響設備AEに含まれるマイクロフォン10Aと、助手席ASに対応した第2音響設備AEに含まれるマイクロフォン10Bと、後部座席BS1に対応した第3音響設備AEに含まれるマイクロフォン10Cと、後部座席BS2に対応した第4音響設備AEに含まれるマイクロフォン10Dとのそれぞれから音声データが取得されたとする。この場合、ユーザ判定部120は、4つの音声データのそれぞれからウェイクアップワードが発話された区間の音声データ(すなわち一部の音声データ)を抽出し、抽出した音声データ同士を互いに比較することで、対話ユーザを判定する。
例えば、車内に複数のユーザがそれぞれの座席に着座している状況下で、後部座席BS1に着座したユーザがウェイクアップワードを発話したとする。この場合、後部座席BS1のユーザに最も近いマイクロフォン10Dは、他のマイクロフォン10に比してウェイクアップワードを収音する蓋然性が高い。しかしながら、車内という限られた空間では座席同士の距離が比較的近いため、他のマイクロフォン10も、後部座席BS1のユーザが発話したウェイクアップワードを収音し得る。特に、後部座席BS2に対応したマイクロフォン10Dは、隣の後部座席BS1に近いため、後部座席BS1のユーザが発話した音声を拾いやすい。そこで、感度が強い方向がユーザに向けられているというマイクロフォン10の指向性を考慮したり、音源からの距離の二乗に比例して音が小さくなることを考慮したりして、複数のユーザの中から対話ユーザを判定する。
具体的には、ユーザ判定部120は、比較対象である4つの音声データのうち、最も音量の大きい音声データ、あるいは最も音圧レベルの大きい音声データを選択する。ユーザ判定部120は、最も音量や音圧レベルの大きい音声データを選択すると、その選択した音声データの取得先であるマイクロフォン10(第1マイクロフォンの一例)を含む音響設備AEに対応した座席に着座するユーザを、対話ユーザと判定する。例えば、マイクロフォン10Dから取得された音声データの音圧レベルが最も大きい場合、後部座席BS1に着座したユーザが対話ユーザであると判定される。
また、ユーザ判定部120は、音響処理部112によって音声データが取得された複数のマイクロフォン10の中から、最も早く(最も応答速度が良く)音声データが取得されたマイクロフォン10(第1マイクロフォンの他の例)を選択し、その選択したマイクロフォン10を含む音響設備AEに対応した座席にいるユーザを、対話ユーザと判定してもよい。
次に、接続制御部152は、ユーザ判定部120の判定結果に基づいて、対話ユーザがいる座席と異なる他の座席に対応して設けられた音響設備AEと、端末装置400との接続を制限する(ステップS210)。
図12から図14は、音響設備AEと端末装置400との接続を制限する場面の一例を示す図である。図12に例示する場面では、車内の4つの座席のそれぞれにユーザが着座している。これらの複数のユーザのうち、助手席ASに着座したユーザUは、端末装置400を第2音響設備AEに接続しており、後部座席BS1に着座したユーザUは、端末装置400を第3音響設備AEに接続しており、後部座席BS2に着座したユーザUは、端末装置400を第4音響設備AEに接続している。
このような状況下で、後部座席BS2に着座したユーザUがウェイクアップワードを発話した場合、図13に例示するように、音響処理部112は、各音響設備AEのマイクロフォン10から音声データを取得する。図示の例では、第4音響設備AEのマイクロフォン10Dの音声データの音圧レベルが最も大きいため、ユーザ判定部120は、後部座席BS2に着座したユーザを対話ユーザと判定する。
これを受けて、接続制御部152は、図14に示すように、助手席ASに対応して設けられた第2音響設備AEと端末装置400との接続を制限し、後部座席BS1に対応して設けられた第3音響設備AEと端末装置400との接続を制限し、後部座席BS2に対応して設けられた第4音響設備AEと端末装置400との接続を維持する。
「接続を制限する」とは、例えば、既に音響設備AEと端末装置400とが接続されている場合、それら機器の接続を切ることである。また、「接続を制限する」ことは、未だ音響設備AEと端末装置400とが接続されていない場合、それら機器の接続を禁止することであってもよい。上述した場面例では、運転席DSに着座したユーザUは、端末装置400を第1音響設備AEに接続していない。このような場合、接続制御部152は、第1音響設備AEに対して、端末装置400などが接続されることを禁止する。また、音響設備AEと端末装置400とがケーブルCBなどで有線接続されており、音響設備AEを介して端末装置400の二次電池が充電される場合、「接続を制限する」ことは、音響設備AEから端末装置400への電力供給を許可し、音響設備AEと端末装置400との互いの通信を禁止することであってもよい。
このように、ウェイクアップワードを発話したユーザを特定したうえで、そのユーザの端末装置400のみを音響設備AEに接続させておき、他のユーザの端末装置400と音響設備AEとの接続を制限することで、ウェイクアップワードを発話したユーザの端末装置400のみにエージェントAGを提供することができる。
図11のフローチャートの説明に戻る。音響処理部112は、接続制御部152によって音響設備AEと端末装置400との接続が制限されると、端末装置400との接続が制限されていない音響設備AEのマイクロフォン10から音声データを取得し、音響処理を行う(ステップS212)。上述した場面例では、第4音響設備AEと端末装置400との接続が制限されず維持されているため、音響処理部112は、第4音響設備AEのマイクロフォン10から音声データを取得し、音響処理を行う。
次に、第3エージェント機能部150−3は、音響処理部112によって取得され、その後音響処理が行われた音声データを、車載通信装置70を介してを第3エージェントサーバ200−3に送信する(ステップS214)。
これを受けて、第3エージェントサーバ200−3は、音声データをテキストに変換し、そのテキストの意味を解釈して、応答文を生成する。そして、第3エージェントサーバ200−3は、応答文をエージェント装置100に送信する。
次に、第3エージェント機能部150−3は、車載通信装置70が第3エージェントサーバ200−3から応答文を受信したか否かを判定し(ステップS216)、車載通信装置70がが応答文を受信した場合、音響設備AEとの接続が制限されていない端末装置400に対して応答文を転送する(ステップS218)。
エージェント装置100から応答文を受信した場合、端末装置400は、応答文に基づいて合成音声を生成し、その生成した合成音声を出力する。これによって、端末装置400には、音声による応答を行う第3エージェントAG3が提供される。
なお、第3エージェント機能部150−3は、端末装置400に対して応答文を転送することに加えて、更に、応答文を転送する先の端末装置400と接続された音響設備AEを用いて、応答文に基づく合成音声を出力したり、エージェント画像を表示したりしてもよい。これによって本フローチャートの処理が終了する。
以上説明した実施形態によれば、エージェント装置100は、車両Mの複数の座席のそれぞれに対応して設けられ、少なくとも一つ以上のマイクロフォン10を含み、かつ座席にいるユーザの端末装置400と有線または無線を介して接続される音響設備AEから、ユーザの発話を示す音声データを取得する。エージェント装置100は、取得した音声データに基づいて、複数の座席のそれぞれにいるユーザの中から、ウェイクアップワードを発話した対話ユーザを判定する。エージェント装置100は、対話ユーザを判定した結果に基づいて、対話ユーザがいる座席と異なる他の座席に対応して設けられた音響設備AEと、端末装置400との接続を制限する。これによって、例えば、車内Mにいる複数のユーザのそれぞれがエージェント機能(エージェントAG)を利用できるときに、どのユーザがウェイクアップワードを発話して、エージェント機能を利用しようと試みているのかを識別した上で、利用するつもりのない他のユーザに対して、音声対話などを含むサービスがエージェント機能として提供されるのを抑制しつつ、利用することを望んでいるユーザ(ウェイクアップワードを発話したユーザ)に対して、音声対話などを含むサービスをエージェント機能として提供することができる。この結果、ユーザをより満足させることができる。
<実施形態の変形例>
以下、実施形態の変形例について説明する。上述した実施形態では、ユーザ判定部120が、マイクロフォン10から取得された音声データに基づいて、各座席にいるユーザの中から、ウェイクアップワードを発話した対話ユーザを判定するものとして説明したがこれに限られない。例えば、ユーザ判定部120は、音声データに基づいて、複数の座席の中から、対話ユーザがいる座席を判定してもよい。これを受けて、接続制御部152は、複数の座席のそれぞれに対応して設けられた音響設備AEのうち、対話ユーザがいる座席と異なる他の座席、すなわち、ウェイクアップワードを発話していない他のユーザがいる座席に対応して設けられた音響設備AEと、端末装置400との接続を制限する。これによって、上述した実施形態と同様に、利用するつもりのない他のユーザに対して、音声対話などを含むサービスがエージェント機能として提供されるのを抑制しつつ、利用することを望んでいるユーザに対して、音声対話などを含むサービスをエージェント機能として提供することができる。この結果、ユーザをより満足させることができる。
上述した実施形態では、エージェント装置100が、音声ストリームをエージェントサーバ200に送信し、エージェントサーバ200が受信した音声ストリームの音声認識を行うものとして説明したがこれに限られない。例えば、エージェント装置100が、音声ストリームの音声認識を行ってよい。
図15は、実施形態に係るエージェント装置100の構成の他の例を示す図である。図示のように、管理部110は、上述した音響処理部112、エージェントごとWU判定部114、表示制御部116、音声制御部118、およびユーザ判定部120に加えて、更に音声認識部122を備える。音声認識部122は、例えば、エージェントごとWU判定部114によってウェイクアップワードが判定された後に、マイクロフォン10に対して入力された音声ストリームに対して音声認識を行い、音声ストリームをテキスト化した文字情報を生成する。そして、音声認識部122は、車載通信装置70を介して、生成した文字情報をエージェントサーバ200に送信する。
このように、エージェントサーバ200に送信する前に、音声データをテキストデータに変換することで、データ転送に係る処理時間を短くしたり、処理負荷を軽減したりすることができる。
上記説明した実施形態は、以下のように表現することができる。
プログラムを記憶したストレージと、
プロセッサと、を備え、
前記プロセッサが前記プログラムを実行することにより、
車両の複数の座席のそれぞれに対応して設けられ、少なくとも一つ以上のマイクロフォンを含み、かつ前記座席にいるユーザの端末装置と有線または無線を介して接続される音響設備から、前記ユーザの発話を示す音声データを取得し、
前記取得した音声データに基づいて、前記複数の座席のそれぞれにいるユーザの中から、特定のフレーズを発話した第1ユーザを判定し、
前記判定した結果に基づいて、前記第1ユーザがいる第1座席と異なる第2座席に対応して設けられた前記音響設備と、前記端末装置との接続を制限する、
ように構成されている、エージェント装置。
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
1…エージェントシステム、AE…音響設備、10…マイクロフォン、20…表示・操作装置、30…スピーカ、40…通信インターフェース、70…車載通信装置、100…エージェント装置、110…管理部、112…音響処理部、114…エージェントごとWU判定部、116…表示制御部、118…音声制御部、120…ユーザ判定部、150…エージェント機能部、160…記憶部、200…エージェントサーバ、210…通信部、220…音声認識部、222…自然言語処理部、224…対話管理部、226…ネットワーク検索部、228…応答文生成部、250…記憶部、400…端末装置、402…通信インターフェース、404…タッチパネル、406…マイクロフォン、408…スピーカ、410…端末制御部、412…音響処理部、414…表示制御部、416…音声制御部、418…判定部、420…エージェント機能部、430…記憶部

Claims (9)

  1. 車両の複数の座席のそれぞれに対応して設けられ、少なくとも一つ以上のマイクロフォンを含み、かつ前記座席にいるユーザの端末装置と有線または無線を介して接続される音響設備と、
    前記音響設備に含まれる前記マイクロフォンから、前記ユーザの発話を示す音声データを取得する取得部と、
    前記取得部によって取得された前記音声データに基づいて、前記複数の座席のそれぞれにいるユーザの中から、特定のフレーズを発話した第1ユーザを判定する判定部と、
    前記判定部の判定結果に基づいて、前記第1ユーザがいる第1座席と異なる第2座席に対応して設けられた前記音響設備と、前記端末装置との接続を制限する接続制御部と、
    を備えるエージェントシステム。
  2. 前記接続制御部は、前記第1座席に対応して設けられた前記音響設備と、前記端末装置との接続を制限せず、
    前記第1座席に対応して設けられた前記音響設備に含まれる前記マイクロフォンから前記取得部が取得した前記音声データに基づいて、前記第1座席に対応して設けられた前記音響設備に接続された前記端末装置に対して、音声対話を含むサービスを提供する提供部を更に備える、
    請求項1に記載のエージェントシステム。
  3. 前記判定部は、前記取得部によって前記音声データが取得された複数の前記マイクロフォンのうち、最も音圧レベルの大きい前記音声データの取得先である第1マイクロフォンを含む前記音響設備に対応した座席にいるユーザを、前記第1ユーザと判定する、
    請求項1または2に記載のエージェントシステム。
  4. 前記判定部は、前記取得部によって前記音声データが取得された複数の前記マイクロフォンのうち、最も早く前記音声データが取得された第1マイクロフォンを含む前記音響設備に対応した座席にいるユーザを、前記第1ユーザと判定する、
    請求項1から3のうちいずれか一項に記載のエージェントシステム。
  5. 前記端末装置は、
    前記音響設備と有線または無線を介して接続する通信部と、
    前記通信部を介して、前記第1マイクロフォンによって収音されたユーザの発話に基づく情報を取得し、前記取得した情報に基づいて、前記ユーザの発話に対する応答を含む第1サービスを提供する端末制御部と、を備える、
    請求項3または4に記載のエージェントシステム。
  6. 前記端末装置は、更に、第2マイクロフォンを備え、
    前記端末制御部は、
    前記第2マイクロフォンによって収音されたユーザの発話に基づいて、前記ユーザの発話に対する応答を含む第2サービスを提供し、
    前記通信部が前記音響設備と接続した場合、前記第2サービスを提供せず、前記第1サービスを提供する、
    請求項5に記載のエージェントシステム。
  7. 車両の複数の座席のそれぞれに対応して設けられ、少なくとも一つ以上のマイクロフォンを含み、かつ前記座席にいるユーザの端末装置と有線または無線を介して接続される音響設備と、
    前記音響設備に含まれる前記マイクロフォンから、前記ユーザの発話を示す音声データを取得する取得部と、
    前記取得部によって取得された前記音声データに基づいて、前記複数の座席の中から、特定のフレーズを発話したユーザがいる第1座席を判定する判定部と、
    前記判定部の判定結果に基づいて、前記複数の座席のそれぞれに対応して設けられた前記音響設備のうち、前記第1座席と異なる第2座席に対応して設けられた前記音響設備と、前記端末装置との接続を制限する接続制御部と、
    を備えるエージェントシステム。
  8. 車両に搭載されたコンピュータが、
    前記車両の複数の座席のそれぞれに対応して設けられ、少なくとも一つ以上のマイクロフォンを含み、かつ前記座席にいるユーザの端末装置と有線または無線を介して接続される音響設備から、前記ユーザの発話を示す音声データを取得し、
    前記取得した音声データに基づいて、前記複数の座席のそれぞれにいるユーザの中から、特定のフレーズを発話した第1ユーザを判定し、
    前記判定した結果に基づいて、前記第1ユーザがいる第1座席と異なる第2座席に対応して設けられた前記音響設備と、前記端末装置との接続を制限する、
    車載機器の制御方法。
  9. 車両に搭載されたコンピュータに、
    前記車両の複数の座席のそれぞれに対応して設けられ、少なくとも一つ以上のマイクロフォンを含み、かつ前記座席にいるユーザの端末装置と有線または無線を介して接続される音響設備から、前記ユーザの発話を示す音声データを取得する処理と、
    前記取得した音声データに基づいて、前記複数の座席のそれぞれにいるユーザの中から、特定のフレーズを発話した第1ユーザを判定する処理と、
    前記判定した結果に基づいて、前記第1ユーザがいる第1座席と異なる第2座席に対応して設けられた前記音響設備と、前記端末装置との接続を制限する処理と、
    を実行させるためのプログラム。
JP2019041995A 2019-03-07 2019-03-07 エージェントシステム、車載機器の制御方法、及びプログラム Pending JP2020142721A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019041995A JP2020142721A (ja) 2019-03-07 2019-03-07 エージェントシステム、車載機器の制御方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019041995A JP2020142721A (ja) 2019-03-07 2019-03-07 エージェントシステム、車載機器の制御方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2020142721A true JP2020142721A (ja) 2020-09-10

Family

ID=72353030

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019041995A Pending JP2020142721A (ja) 2019-03-07 2019-03-07 エージェントシステム、車載機器の制御方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2020142721A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113689852A (zh) * 2021-08-09 2021-11-23 东风汽车集团股份有限公司 一种基于声源定位的车载语音控制方法和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113689852A (zh) * 2021-08-09 2021-11-23 东风汽车集团股份有限公司 一种基于声源定位的车载语音控制方法和系统
CN113689852B (zh) * 2021-08-09 2023-11-10 东风汽车集团股份有限公司 一种基于声源定位的车载语音控制方法和系统

Similar Documents

Publication Publication Date Title
JP2020147214A (ja) エージェント装置、システム、エージェント装置の制御方法、およびプログラム
JP2020149106A (ja) エージェント装置、エージェントシステム、サーバ装置、エージェント装置の制御方法、およびプログラム
US11518398B2 (en) Agent system, agent server, method of controlling agent server, and storage medium
US20200319634A1 (en) Agent device, method of controlling agent device, and storage medium
CN111717142A (zh) 智能体装置、智能体装置的控制方法及存储介质
CN111559328A (zh) 智能体装置、智能体装置的控制方法及存储介质
JP2020144264A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JP2020142721A (ja) エージェントシステム、車載機器の制御方法、及びプログラム
US11437035B2 (en) Agent device, method for controlling agent device, and storage medium
CN111724778B (zh) 车载装置、车载装置的控制方法及存储介质
CN111667823B (zh) 智能体装置、智能体装置的控制方法及存储介质
US20200320997A1 (en) Agent apparatus, agent apparatus control method, and storage medium
JP2020160285A (ja) エージェント装置、情報提供方法、及びプログラム
JP2020160848A (ja) サーバ装置、情報提供システム、情報提供方法、およびプログラム
JP2020152298A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JP2020157808A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JP2020157853A (ja) 車載エージェントシステム、車載エージェントシステムの制御方法、およびプログラム
CN111559317B (zh) 智能体装置、智能体装置的控制方法及存储介质
US11518399B2 (en) Agent device, agent system, method for controlling agent device, and storage medium
JP7297483B2 (ja) エージェントシステム、サーバ装置、エージェントシステムの制御方法、およびプログラム
JP2020153917A (ja) 車両制御システム、エージェント装置、車両制御方法、及びプログラム
JP2020157864A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
CN111824174A (zh) 智能体装置、智能体装置的控制方法及存储介质
JP2020160108A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JP2020154082A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム