JP2020157864A - エージェント装置、エージェント装置の制御方法、およびプログラム - Google Patents

エージェント装置、エージェント装置の制御方法、およびプログラム Download PDF

Info

Publication number
JP2020157864A
JP2020157864A JP2019057814A JP2019057814A JP2020157864A JP 2020157864 A JP2020157864 A JP 2020157864A JP 2019057814 A JP2019057814 A JP 2019057814A JP 2019057814 A JP2019057814 A JP 2019057814A JP 2020157864 A JP2020157864 A JP 2020157864A
Authority
JP
Japan
Prior art keywords
agent
voice
unit
image
display
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019057814A
Other languages
English (en)
Inventor
善史 我妻
Yoshifumi Wagatsuma
善史 我妻
裕貴 中山
Yuki Nakayama
裕貴 中山
基嗣 久保田
Mototsugu Kubota
基嗣 久保田
佐和子 古屋
Sawako Furuya
佐和子 古屋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2019057814A priority Critical patent/JP2020157864A/ja
Publication of JP2020157864A publication Critical patent/JP2020157864A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Navigation (AREA)
  • Stored Programmes (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】エージェント機能による発話の認識状態を直感的に確認させることができるエージェント装置、エージェント装置の制御方法、およびプログラムを提供すること。【解決手段】車両の乗員により発せられ、音収集部により収集された音声を音声認識した結果に応じたサービスを提供する少なくとも1つのエージェント機能部と、音収集部により収集された音声に関連するレベル情報を、エージェント機能部を表すキャラクタ画像に関連させて表示部に表示させる表示制御部と、を備えるエージェント装置。【選択図】図2

Description

本発明は、エージェント装置、エージェント装置の制御方法、およびプログラムに関する。
従来、車両の乗員と対話を行いながら、乗員の要求に応じた運転支援に関する情報や車両の制御、その他のアプリケーション等を提供するエージェント機能に関する技術が開示されている(例えば、特許文献1参照)。
特開2006−335231号公報
ところで、エージェント機能が搭載された車両では、エージェント機能に対して乗員が発話する声の大きさ(音量レベル)やエージェント機能を構成するマイクに収音されるノイズの大きさ(ノイズレベル)が変化することが想定される。しかしながら、特許文献1に開示されたエージェント機能に関する技術では、上述したようなエージェント機能に入力される音の状況についての検討が十分になされていない。このため、特許文献1に開示されたエージェント機能に関する技術では、エージェント機能に対する乗員の発話を正しく認識することができない場合があるが、このことを乗員に直感的に示すことができない。この場合、乗員は、エージェント機能に対して同じ発話や指示を繰り返し行うことが必要となり、エージェント機能の使用に煩わしさを感じてしまうことになる。
本発明は、上記の課題認識に基づいてなされたものであり、エージェント機能による発話の認識状態を直感的に確認させることができるエージェント装置、エージェント装置の制御方法、およびプログラムを提供することを目的としている。
この発明に係るエージェント装置、エージェント装置の制御方法、およびプログラムは、以下の構成を採用した。
(1):本発明の一態様に係るエージェント装置は、車両の乗員により発せられ、音収集部により収集された音声を音声認識した結果に応じたサービスを提供する少なくとも1つのエージェント機能部と、前記音収集部により収集された音声に関連するレベル情報を、前記エージェント機能部を表すキャラクタ画像に関連させて表示部に表示させる表示制御部と、を備えるものである。
(2):上記(1)の態様において、前記音声に関連するレベル情報は、前記音収集部により収集された音声の音量レベルに関する情報であるものである。
(3):上記(1)または(2)の態様において、前記音声に関連するレベル情報は、前記音収集部により収集された音声に含まれるノイズのノイズレベルに関する情報であるものである。
(4):上記(1)〜(3)のうちいずれか一態様において、前記音声に関連するレベル情報は、前記音収集部により収集された音声の音量レベルに関する情報と、前記音収集部により収集された音声に含まれるノイズのノイズレベルに関する情報とを含み、前記表示制御部は、前記音量レベルに関する情報と前記ノイズレベルに関する情報とを異なる形態で前記表示部に表示させるものである。
(5):上記(1)〜(4)のうちいずれか一態様において、前記音声に関連するレベル情報は、前記音収集部により収集された音声に含まれるノイズのノイズレベルに関する情報であり、前記表示制御部は、前記ノイズレベルが所定のレベル以上である場合には、前記キャラクタ画像の目の部分を、前記ノイズレベルが所定のレベル未満である場合と異ならせて前記表示部に表示させるものである。
(6):上記(1)〜(5)のうちいずれか一態様において、前記表示制御部は、前記音収集部、または前記音収集部により収集された音声を音声認識する構成要素の故障によって前記音収集部により収集された音声を音声認識することができない場合に、故障を表す画像を、前記キャラクタ画像に組み合わせて前記表示部に表示させるものである。
(7):上記(6)の態様において、前記故障を表す画像は、前記キャラクタ画像の横に壁を表す画像を配置した画像であるものである。
(8):上記(6)または(7)の態様において、前記故障を表す画像は、前記キャラクタ画像の横にクエスチョンマークを配置した画像であるものである。
(9):上記(1)〜(8)のうちいずれか一態様において、前記表示制御部は、乗員を表す画像を、前記キャラクタ画像と組み合わせて前記表示部に表示させるものである。
(10):上記(9)の態様において、前記音声に関連するレベル情報は、前記音収集部により収集された音声に含まれるノイズのノイズレベルに関する情報であり、前記表示制御部は、前記ノイズレベルが所定のレベル未満である場合には、前記キャラクタ画像と前記乗員を表す画像との間に発話を表す画像を配置した画像を前記表示部に表示させ、前記ノイズレベルが所定のレベル以上である場合には、前記キャラクタ画像と前記乗員を表す画像との間にノイズを表す画像を配置した画像を前記表示部に表示させるものである。
(11):また、本発明の一態様に係るエージェント装置は、車両の乗員により発せられ、音収集部により収集された音声を予め設定した言語で音声認識した結果に応じたサービスを提供する少なくとも1つのエージェント機能部と、前記音声認識の前提とした言語を表すキャラクタ画像を表示部に表示させる表示制御部と、を備えるものである。
(12):上記(11)の態様において、前記表示制御部は、前記音声認識の前提とした言語に対応する国旗を模擬した形態の前記キャラクタ画像を、前記表示部に表示させるものである。
(13):また、本発明の一態様に係るエージェント装置の制御方法は、エージェント装置のコンピュータが、少なくとも1つのエージェント機能部として、車両の乗員により発せられ、音収集部により収集された音声を音声認識した結果に応じたサービスを提供し、前記音収集部により収集された音声に関連するレベル情報を、前記エージェント機能部を表すキャラクタ画像に関連させて表示部に表示させるものである。
(14):また、本発明の一態様に係るプログラムは、エージェント装置のコンピュータに、少なくとも1つのエージェント機能部として、車両の乗員により発せられ、音収集部により収集された音声を音声認識した結果に応じたサービスを提供させ、前記音収集部により収集された音声に関連するレベル情報を、前記エージェント機能部を表すキャラクタ画像に関連させて表示部に表示させることを行わせるものである。
上述した(1)〜(14)の態様によれば、エージェント機能による発話の認識状態を直感的に確認させることができる。
エージェント装置100を含むエージェントシステム1の構成図である。 エージェント装置100の構成と、車両Mに搭載された機器とを示す図である。 表示・操作装置20の配置例を示す図である。 エージェントサーバ200の構成と、エージェント装置100の構成の一部とを示す図である。 表示・操作装置20にエージェント画像AGを表示させた一例を示す図である。 エージェント画像AGの第1例を示す図である。 エージェント画像AGの第2例を示す図である。 エージェント画像AGの第3例を示す図である。 エージェント画像AGの第4例を示す図である。 エージェント画像AGの第5例を示す図である。 エージェント画像AGの第6例を示す図である。
以下、図面を参照し、本発明のエージェント装置、エージェント装置の制御方法、およびプログラムの実施形態について説明する。エージェント装置は、エージェントシステムの一部または全部を実現する装置である。以下では、エージェント装置の一例として、車両(以下、車両M)に搭載され、複数種類のエージェント機能を備えたエージェント装置について説明する。エージェント機能とは、例えば、車両Mの乗員と対話をしながら、乗員の発話の中に含まれる要求(コマンド)に基づく各種の情報提供を行ったり、ネットワークサービスを仲介したりする機能である。複数種類のエージェントはそれぞれに果たす機能、処理手順、制御、出力態様・内容がそれぞれ異なってもよい。また、エージェント機能の中には、車両M内の機器(例えば、運転制御や車体制御に関わる機器)の制御等を行う機能を有するものがあってよい。
エージェント機能は、例えば、乗員の音声を認識する音声認識機能(音声をテキスト化する機能)に加え、自然言語処理機能(テキストの構造や意味を理解する機能)、対話管理機能、ネットワークを介して他装置を検索し、或いは自装置が保有する所定のデータベースを検索するネットワーク検索機能等を統合的に利用して実現される。これらの機能の一部または全部は、AI(Artificial Intelligence)技術によって実現されてよい。また、これらの機能を行うための構成の一部(特に、音声認識機能や自然言語処理解釈機能)は、車両Mの車載通信装置または車両Mに持ち込まれた汎用通信装置と通信可能なエージェントサーバ(外部装置)に搭載されてもよい。以下の説明では、構成の一部がエージェントサーバに搭載されており、エージェント装置とエージェントサーバが協働してエージェントシステムを実現することを前提とする。また、エージェント装置とエージェントサーバが協働して仮想的に出現させるサービス提供主体(サービス・エンティティ)をエージェントと称する。
<全体構成>
図1は、エージェント装置100を含むエージェントシステム1の構成図である。エージェントシステム1は、例えば、エージェント装置100と、複数のエージェントサーバ200−1、200−2、200−3、…とを備える。符号の末尾のハイフン以下数字は、エージェントを区別するための識別子であるものとする。いずれのエージェントサーバであるかを区別しない場合、単にエージェントサーバ200と称する場合がある。図1では3つのエージェントサーバ200を示しているが、エージェントサーバ200の数は1つや2つであってもよいし、4つ以上であってもよい。それぞれのエージェントサーバ200は、互いに異なるエージェントシステムの提供者が運営するものである。従って、本発明におけるエージェントは、互いに異なる提供者により実現されるエージェントである。提供者としては、例えば、自動車メーカー、ネットワークサービス事業者、電子商取引事業者、携帯端末の販売者や製造者などが挙げられ、任意の主体(法人、団体、個人等)がエージェントシステムの提供者となり得る。
エージェント装置100は、ネットワークNWを介してエージェントサーバ200と通信する。ネットワークNWは、例えば、インターネット、セルラー網、Wi−Fi網、WAN(Wide Area Network)、LAN(Local Area Network)、公衆回線、電話回線、無線基地局などのうち一部または全部を含む。ネットワークNWには、各種ウェブサーバ300が接続されており、エージェントサーバ200またはエージェント装置100は、ネットワークNWを介して各種ウェブサーバ300からウェブページを取得することができる。
エージェント装置100は、車両Mの乗員と対話を行い、乗員からの音声をエージェントサーバ200に送信し、エージェントサーバ200から得られた回答を、音声出力や画像表示の形で乗員に提示する。
[車両]
図2は、エージェント装置100の構成と、車両Mに搭載された機器とを示す図である。車両Mには、例えば、一以上のマイク10と、表示・操作装置20と、スピーカユニット30と、ナビゲーション装置40と、車両機器50と、車載通信装置60と、乗員認識装置80と、エージェント装置100とが搭載される。また、スマートフォンなどの汎用通信装置70が車室内に持ち込まれ、通信装置として使用される場合がある。これらの装置は、CAN(Controller Area Network)通信線等の多重通信線やシリアル通信線、無線通信網等によって互いに接続される。なお、図2に示す構成はあくまで一例であり、構成の一部が省略されてもよいし、更に別の構成が追加されてもよい。
マイク10は、車室内で発せられた音声を収集する収音部である。マイク10は、例えば、車室内の互いに異なる位置に配設された複数のマイクを含んでもよい。マイク10は、収音した車室内で発せられた音声をエージェント装置100に出力する。なお、マイク10が出力する音声には、乗員が発話した音声のみではなく、車室内のノイズ(例えば、車室内に流れている音楽や、車室内に漏れ込んだ車室外の雑音など)も含まれる。本実施形態において、マイク10は、音収集部の一例である。
表示・操作装置20は、画像を表示すると共に、入力操作を受付可能な装置(或いは装置群)である。表示・操作装置20は、例えば、タッチパネルとして構成されたディスプレイ装置を含む。表示・操作装置20は、更に、HUD(Head Up Display)や機械式の入力装置を含んでもよい。本実施形態において、表示・操作装置20は、表示部の一例である。
図3は、表示・操作装置20の配置例を示す図である。表示・操作装置20は、例えば、第1ディスプレイ22と、第2ディスプレイ24と、操作スイッチASSY26とを含む。表示・操作装置20は、更に、HUD28を含んでもよい。
車両Mには、例えば、ステアリングホイールSWが設けられた運転席DSと、運転席DSに対して車幅方向(図中Y方向)に設けられた助手席ASとが存在する。第1ディスプレイ22は、インストルメントパネルにおける運転席DSと助手席ASとの中間辺りから、助手席ASの左端部に対向する位置まで延在する横長形状のディスプレイ装置である。第2ディスプレイ24は、運転席DSと助手席ASとの車幅方向に関する中間あたり、且つ第1ディスプレイの下方に設置されている。例えば、第1ディスプレイ22と第2ディスプレイ24は、共にタッチパネルとして構成され、表示部としてLCD(Liquid Crystal Display)や有機EL(Electroluminescence)、プラズマディスプレイなどを備えるものである。操作スイッチASSY26は、ダイヤルスイッチやボタン式スイッチなどが集積されたものである。
表示・操作装置20は、乗員によってなされた操作の内容をエージェント装置100に出力する。第1ディスプレイ22または第2ディスプレイ24が表示する内容は、エージェント装置100によって決定されてよい。表示・操作装置20は、エージェント装置100とナビゲーション装置40とで共用されてもよい。
図2に戻り、スピーカユニット30は、例えば、車室内の互いに異なる位置に配設された複数のスピーカ(音出力部)を含む。
ナビゲーション装置40は、ナビHMI(Human machine Interface)と、GPS(Global Positioning System)などの位置測位装置と、地図情報を記憶した記憶装置と、経路探索などを行う制御装置(ナビゲーションコントローラ)とを備える。マイク10、表示・操作装置20、およびスピーカユニット30のうち一部または全部がナビHMIとして用いられてもよい。ナビゲーション装置40は、位置測位装置によって特定された車両Mの位置から、乗員によって入力された目的地まで移動するための経路(ナビ経路)を探索し、経路に沿って車両Mが走行できるように、ナビHMIを用いて案内情報を出力する。ナビゲーション装置40における経路探索機能は、ネットワークNWを介してアクセス可能なナビゲーションサーバにあってもよい。この場合、ナビゲーション装置40は、ナビゲーションサーバから経路を取得して案内情報を出力する。なお、エージェント装置100は、ナビゲーションコントローラを基盤として構築されてもよく、その場合、ナビゲーションコントローラとエージェント装置100は、ハードウェア上は一体に構成される。
車両機器50は、例えば、エンジンや走行用モータなどの駆動力出力装置、エンジンの始動モータ、ドアロック装置、ドア開閉装置、窓、窓の開閉装置及び窓の開閉制御装置、シート、シート位置の制御装置、ルームミラー及びその角度位置制御装置、車両内外の照明装置及びその制御装置、ワイパーやデフォッガー及びそれぞれの制御装置、方向指示灯及びその制御装置、空調装置、走行距離やタイヤの空気圧の情報や燃料の残量情報などの車両情報装置などを含む。
車載通信装置60は、例えば、セルラー網やWi−Fi網を利用してネットワークNWにアクセス可能な無線通信装置である。
乗員認識装置80は、例えば、着座センサ、車室内カメラ、画像認識装置などを含む。着座センサは座席の下部に設けられた圧力センサ、シートベルトに取り付けられた張力センサなどを含む。車室内カメラは、車室内に設けられたCCD(Charge Coupled Device)カメラやCMOS(Complementary Metal Oxide Semiconductor)カメラである。画像認識装置は、車室内カメラの画像を解析し、座席ごとの乗員の有無、顔向きなどを認識する。
[エージェント装置]
エージェント装置100は、例えば、管理部110と、エージェント機能部150−1、150−2、150−3と、ペアリングアプリ実行部152とを備える。管理部110は、例えば、音響処理部112と、エージェントごとWU(Wake Up)判定部114と、表示制御部116と、音声制御部118とを備える。いずれのエージェント機能部であるか区別しない場合、単にエージェント機能部150と称する。3つのエージェント機能部150を示しているのは、図1におけるエージェントサーバ200の数に対応させた一例に過ぎず、エージェント機能部150の数は、1つや2つであってもよいし、4つ以上であってもよい。図2に示すソフトウェア配置は説明のために簡易に示しており、実際には、例えば、エージェント機能部150と車載通信装置60の間に管理部110が介在してもよいように、任意に改変することができる。
エージェント装置100の各構成要素は、例えば、CPU(Central Processing Unit)などのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。これらの構成要素のうち一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)などのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めHDD(Hard Disk Drive)やフラッシュメモリなどの記憶装置(非一過性の記憶媒体を備える記憶装置)に格納されていてもよいし、DVDやCD−ROMなどの着脱可能な記憶媒体(非一過性の記憶媒体)に格納されており、記憶媒体がドライブ装置に装着されることでインストールされてもよい。
管理部110は、OS(Operating System)やミドルウェアなどのプログラムが実行されることで機能する。
管理部110の音響処理部112は、エージェントごとに予め設定されているウエイクアップワードを認識するのに適した状態になるように、入力された音に対して音響処理を行う。例えば、音響処理部112は、マイク10から入力された音声のレベル調整やノイズ除去などを行う。
エージェントごとWU判定部114は、エージェント機能部150−1、150−2、150−3のそれぞれに対応して存在し、エージェントごとに予め定められているウエイクアップワードを認識する。エージェントごとWU判定部114は、音響処理が行われた音声(音声ストリーム)から音声の意味を認識する。まず、エージェントごとWU判定部114は、音声ストリームにおける音声波形の振幅と零交差に基づいて音声区間を検出する。エージェントごとWU判定部114は、混合ガウス分布モデル(GMM;Gaussian mixture model)に基づくフレーム単位の音声識別および非音声識別に基づく区間検出を行ってもよい。
次に、エージェントごとWU判定部114は、検出した音声区間における音声をテキスト化し、文字情報とする。そして、エージェントごとWU判定部114は、テキスト化した文字情報がウエイクアップワードに該当するか否かを判定する。ウエイクアップワードであると判定した場合。エージェントごとWU判定部114は、対応するエージェント機能部150を起動させる。
なお、上述したように、マイク10が出力する音声には、乗員が発話した音声のみではなく、車室内のノイズも含まれる。このため、音響処理部112によって音響処理が行われた音声ストリームにも乗員が発話した声の大きさ(音量レベル)の音声と、車室内のノイズの大きさ(ノイズレベル)の音声とが含まれる。従って、エージェントごとWU判定部114は、音声ストリームから必ずしもウエイクアップワードを認識することができるとは限らない。また、エージェントごとWU判定部114がウエイクアップワードを認識することができない要因としては、乗員(発話者)の位置がマイク10と離れている場合や、近すぎる場合も考えられる。また、エージェントごとWU判定部114がウエイクアップワードを認識することができない要因としては、さらに、マイク10が故障している場合も考えられる。また、エージェントごとWU判定部114がウエイクアップワードを認識することができない要因としては、音響処理部112やエージェントごとWU判定部114の不具合や故障も考えられる。このため、エージェントごとWU判定部114は、ウエイクアップワードを認識することができたか否か、すなわち、テキスト化した文字情報がウエイクアップワードに該当するか否かを判定した結果を出力する。そして、後述する表示制御部116が、エージェントごとWU判定部114がウエイクアップワードを判定した結果を乗員に通知する。このウエイクアップワードを判定した結果の乗員への通知方法の詳細については、後述する。
なお、エージェントごとWU判定部114に相当する機能がエージェントサーバ200に搭載されてもよい。この場合、管理部110は、音響処理部112によって音響処理が行われた音声ストリームをエージェントサーバ200に送信し、エージェントサーバ200がウエイクアップワードを判定した結果を返信する。そして、エージェントサーバ200がウエイクアップワードであると判定した場合、エージェントサーバ200からの指示に従ってエージェント機能部150が起動する。なお、各エージェント機能部150は、常時起動しており且つウエイクアップワードの判定を自ら行うものであってよい。この場合、管理部110がエージェントごとWU判定部114を備える必要はなく、ウエイクアップワードを判定した結果は、各エージェント機能部150が出力する。
エージェント機能部150は、対応するエージェントサーバ200と協働してエージェントを出現させ、車両の乗員の発話に応じて、音声による応答を含むサービスを提供する。エージェント機能部150には、車両機器50を制御する権限が付与されたものが含まれてよい。また、エージェント機能部150には、ペアリングアプリ実行部152を介して汎用通信装置70と連携し、エージェントサーバ200と通信するものがあってよい。例えば、エージェント機能部150−1には、車両機器50を制御する権限が付与されている。エージェント機能部150−1は、車載通信装置60を介してエージェントサーバ200−1と通信する。エージェント機能部150−2は、車載通信装置60を介してエージェントサーバ200−2と通信する。エージェント機能部150−3は、ペアリングアプリ実行部152を介して汎用通信装置70と連携し、エージェントサーバ200−3と通信する。
ペアリングアプリ実行部152は、例えば、Bluetooth(登録商標)によって汎用通信装置70とペアリングを行い、エージェント機能部150−3と汎用通信装置70とを接続させる。なお、エージェント機能部150−3は、USB(Universal Serial Bus)などを利用した有線通信によって汎用通信装置70に接続されるようにしてもよい。
以下、エージェント機能部150−1とエージェントサーバ200−1が協働して出現させるエージェントをエージェント−1、エージェント機能部150−2とエージェントサーバ200−2が協働して出現させるエージェントをエージェント−2、エージェント機能部150−3とエージェントサーバ200−3が協働して出現させるエージェントをエージェント−3と称する場合がある。
表示制御部116は、エージェント機能部150からの指示に応じて第1ディスプレイ22または第2ディスプレイ24に画像を表示させる。以下では、第1ディスプレイ22を使用するものとする。表示制御部116は、一部のエージェント機能部150の制御により、例えば、車室内で乗員とのコミュニケーションを行う擬人化されたエージェントのキャラクタ画像を生成し、生成したキャラクタ画像をエージェント画像として第1ディスプレイ22に表示させる。また、表示制御部116は、エージェントごとWU判定部114がウエイクアップワードを判定した結果を、第1ディスプレイ22に表示させることによって乗員に通知する。このとき、表示制御部116は、エージェント画像によってウエイクアップワードを判定した結果を乗員に通知してもよい。
エージェントのキャラクタ画像は、例えば、乗員に対して話しかける態様の画像である。エージェントのキャラクタ画像は、例えば、少なくとも観者(乗員)によって表情や顔向きが認識される程度の顔画像を含んでよい。例えば、エージェントのキャラクタ画像は、顔領域の中に目や鼻に擬したパーツが表されており、顔領域の中のパーツの位置に基づいて表情や顔向きが認識されるものであってよい。また、エージェントのキャラクタ画像は、立体的に感じられ、観者によって三次元空間における頭部画像を含むことでエージェントの顔向きが認識されたり、本体(胴体や手足)の画像を含むことで、エージェントの動作や振る舞い、姿勢等が認識されるものであってもよい。また、エージェントのキャラクタ画像は、アニメーション画像であってもよい。
音声制御部118は、エージェント機能部150からの指示に応じて、スピーカユニット30に含まれるスピーカのうち一部または全部に音声を出力させる。また、音声制御部118は、エージェントごとWU判定部114がウエイクアップワードを判定した結果を、スピーカユニット30に含まれるスピーカのうち一部または全部に音声を出力させることによって乗員に通知してもよい。音声制御部118は、複数のスピーカユニット30を用いて、エージェント画像の表示位置に対応する位置にエージェント音声の音像を定位させる制御を行ってもよい。エージェント画像の表示位置に対応する位置とは、例えば、エージェント画像がエージェント音声を喋っていると乗員が感じると予測される位置であり、具体的には、エージェント画像の表示位置付近(例えば、2〜3[cm]以内)の位置である。また、音像が定位するとは、例えば、乗員の左右の耳に伝達される音の大きさを調節することにより、乗員が感じる音源の空間的な位置を定めることである。なお、本発明においては、音像が定位する位置を定める方法や構成に関しては特に規定しない。従って、音像の定位する位置は、音源が元々保有している音特性や、車室内環境の情報、頭部伝達関数(HRTF;Head-related transfer function)に基づいて定まるため、音声制御部118は、予め官能試験などで得られた最適な出力配分でスピーカユニット30を制御することで、音像を所定の位置に定位させてもよい。
[エージェントサーバ]
図4は、エージェントサーバ200の構成と、エージェント装置100の構成の一部とを示す図である。以下、エージェントサーバ200の構成と共にエージェント機能部150等の動作について説明する。ここでは、エージェント装置100からネットワークNWまでの物理的な通信についての説明を省略する。
エージェントサーバ200は、通信部210を備える。通信部210は、例えば、NIC(Network Interface Card)などのネットワークインターフェースである。更に、エージェントサーバ200は、例えば、音声認識部220と、自然言語処理部222と、対話管理部224と、ネットワーク検索部226と、応答文生成部228とを備える。これらの構成要素は、例えば、CPUなどのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。これらの構成要素のうち一部または全部は、LSIやASIC、FPGA、GPUなどのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めHDDやフラッシュメモリなどの記憶装置(非一過性の記憶媒体を備える記憶装置)に格納されていてもよいし、DVDやCD−ROMなどの着脱可能な記憶媒体(非一過性の記憶媒体)に格納されており、記憶媒体がドライブ装置に装着されることでインストールされてもよい。
エージェントサーバ200は、記憶部250を備える。記憶部250は、上記の各種記憶装置により実現される。記憶部250には、パーソナルプロファイル252、辞書DB(データベース)254、知識ベースDB256、応答規則DB258などのデータやプログラムが格納される。
エージェント装置100において、エージェント機能部150は、音声ストリーム、或いは圧縮や符号化などの処理を行った音声ストリームを、エージェントサーバ200に送信する。エージェント機能部150は、ローカル処理(エージェントサーバ200を介さない処理)が可能な音声コマンドを認識した場合は、音声コマンドで要求された処理を行ってよい。ローカル処理が可能な音声コマンドとは、エージェント装置100が備える記憶部(不図示)を参照することで回答可能な音声コマンドであったり、エージェント機能部150−1の場合は車両機器50を制御する音声コマンド(例えば、空調装置をオンにするコマンドなど)であったりする。従って、エージェント機能部150は、エージェントサーバ200が備える機能の一部を有してもよい。
音声ストリームを取得すると、音声認識部220が音声認識を行ってテキスト化された文字情報を出力し、自然言語処理部222が文字情報に対して辞書DB254を参照しながら意味解釈を行う。辞書DB254は、文字情報に対して抽象化された意味情報が対応付けられたものである。辞書DB254は、同義語や類義語の一覧情報を含んでもよい。音声認識部220の処理と、自然言語処理部222の処理は、段階が明確に分かれるものではなく、自然言語処理部222の処理結果を受けて音声認識部220が認識結果を修正するなど、相互に影響し合って行われてよい。
自然言語処理部222は、例えば、認識結果として、「今日の天気は」、「天気はどうですか」等の意味が認識された場合、標準文字情報「今日の天気」に置き換えたコマンドを生成する。これにより、リクエストの音声に文字揺らぎがあった場合にも要求にあった対話をし易くすることができる。また、自然言語処理部222は、例えば、確率を利用した機械学習処理等の人工知能処理を用いて文字情報の意味を認識したり、認識結果に基づくコマンドを生成してもよい。
対話管理部224は、自然言語処理部222の処理結果(コマンド)に基づいて、パーソナルプロファイル252や知識ベースDB256、応答規則DB258を参照しながら車両Mの乗員に対する発話の内容を決定する。パーソナルプロファイル252は、乗員ごとに保存されている乗員の個人情報、趣味嗜好、過去の対話の履歴などを含む。知識ベースDB256は、物事の関係性を規定した情報である。応答規則DB258は、コマンドに対してエージェントが行うべき動作(回答や機器制御の内容など)を規定した情報である。
また、対話管理部224は、音声ストリームから得られる特徴情報を用いて、パーソナルプロファイル252と照合を行うことで、乗員を特定してもよい。この場合、パーソナルプロファイル252には、例えば、音声の特徴情報に、個人情報が対応付けられている。音声の特徴情報とは、例えば、声の高さ、イントネーション、リズム(音の高低のパターン)等の喋り方の特徴や、メル周波数ケプストラム係数(Mel Frequency Cepstrum Coefficients)等による特徴量に関する情報である。音声の特徴情報は、例えば、乗員の初期登録時に所定の単語や文章等を乗員に発声させ、発声させた音声を認識することで得られる情報である。
対話管理部224は、コマンドが、ネットワークNWを介して検索可能な情報を要求するものである場合、ネットワーク検索部226に検索を行わせる。ネットワーク検索部226は、ネットワークNWを介して各種ウェブサーバ300にアクセスし、所望の情報を取得する。「ネットワークNWを介して検索可能な情報」とは、例えば、車両Mの周辺にあるレストランの一般ユーザによる評価結果であったり、その日の車両Mの位置に応じた天気予報であったりする。
本実施形態において、音声認識部220や、自然言語処理部222、対話管理部224は、エージェントサーバ200における音声認識部の一例である。
応答文生成部228は、対話管理部224により決定された発話の内容が車両Mの乗員に伝わるように、応答文を生成し、エージェント装置100に送信する。応答文生成部228は、乗員がパーソナルプロファイルに登録された乗員であることが特定されている場合に、乗員の名前を呼んだり、乗員の話し方に似せた話し方にした応答文を生成してもよい。
エージェント機能部150は、応答文を取得すると、音声合成を行って音声を出力するように音声制御部118に指示する。また、エージェント機能部150は、音声出力に合わせてエージェントの画像を表示するように表示制御部116に指示する。このようにして、仮想的に出現したエージェントが車両Mの乗員に応答するエージェント機能が実現される。
なお、エージェントサーバ200は、取得した音声ストリームに含まれる乗員が発話した音声の音声認識を正常に行えなかった場合、このことを表す情報を応答文として生成し、エージェント装置100に送信する。具体的には、取得した音声ストリームに対して音声認識を行ったが、乗員が発話した音声の意味解釈をすることができなかった場合、音声認識部220は、意味解釈が不可であることを表す認識結果を出力し、自然言語処理部222が、このことを表す処理結果(コマンド)を出力する。これにより、応答文生成部228は、音声認識ができなかったことを表す応答文を生成し、エージェント装置100に送信する。この場合、エージェント機能部150は、音声認識ができなかったことを表す音声合成をするように音声制御部118に指示し、音声出力に合わせてエージェントの画像を表示するように表示制御部116に指示する。
[音声認識結果の通知]
以下、エージェント装置100において音声認識の結果を乗員に通知する方法について説明する。エージェント装置100では、表示制御部116によるエージェント画像の表示と、音声制御部118による音声合成とによって、音声認識の結果を乗員に通知する。このとき、エージェント装置100は、音声認識した音声に関連するレベルの情報(レベル情報)も併せて通知する。なお、エージェントごとWU判定部114がウエイクアップワードを判定した結果、つまり、ウエイクアップワードの認識結果を乗員に通知する方法も同様である。以下は、表示制御部116がエージェント画像を表示することによって、音声認識の結果を乗員に通知する場合を例示したものである。以下の説明では、表示制御部116が、第1ディスプレイ22を使用して音声認識の結果を乗員に通知するものとする。
図5は、表示・操作装置20にエージェント画像AGを表示させた一例を示す図である。図5には、運転席DSに着座して車両Mを運転している乗員(運転者)が発話者である場合において、この運転者の発話の音声を音声認識した結果を通知するために、例えば、エージェントを擬人化したキャラクタ画像をエージェント画像AGとして第1ディスプレイ22に表示させた場合の一例を示している。ここでは、第1ディスプレイ22内の車両Mの車幅方向(図中Y方向)の運転席DSに近い位置に、エージェント画像AGを表示させている。なお、エージェント画像AGは、運転席DSの方を向いているように感じられるグラフィックでエージェントを擬人化したキャラクタ画像が形成されてもよい。このようにエージェント画像AGを表示させることによって、エージェントを使用する機会が多いと考えられる運転席DSに着座した運転者は、エージェントが自身の発話を認識したか否かを直感的に確認して、エージェント機能を利用することができる。
なお、図5では、エージェント画像AGを第1ディスプレイ22に表示させた場合を示したが、エージェント画像AGは、例えば、第2ディスプレイ24やHUD28に表示させてもよい。
(第1例)
ここで、エージェント画像AGによって音声認識の結果を通知する例について説明する。図6は、エージェント画像AGの第1例を示す図である。図6の(a)には、運転者が発した音声を正常に音声認識した場合のエージェント画像AGの一例を示し、図6の(b)には、運転者が発した音声の音声認識が不可である場合のエージェント画像AGの一例を示している。より具体的には、図6の(a)には、エージェントを擬人化したキャラクタ画像の一例であるキャラクタ画像CAと、運転者(発話者)を表すキャラクタ画像の一例であるキャラクタ画像CSと、発話者の音声を表すキャラクタ画像の一例であるキャラクタ画像CVとの組み合わせで、運転者が発した音声を正常に音声認識したことを表すエージェント画像AGを示している。なお、キャラクタ画像CVは、運転者が発話した声の大きさ(音量レベル)もレベル情報として表す。例えば、図6の(a)に示したキャラクタ画像CVでは、キャラクタ画像CVの大きさや、キャラクタ画像CVに含まれる円弧の数によって、音量レベルを表す。また、図6の(b)には、キャラクタ画像CAと、キャラクタ画像CSと、ノイズレベルが所定のレベル以上であるため、発話者の音声がノイズとして認識されたことを表すキャラクタ画像の一例であるキャラクタ画像CNとの組み合わせで、運転者が発した音声の音声認識が不可であることを表すエージェント画像AGを示している。つまり、図6の(b)に示したエージェント画像AGでは、図6の(a)に示したノイズレベルが所定のレベル未満であるエージェント画像AGにおけるキャラクタ画像CAとキャラクタ画像CSとの間のキャラクタ画像CVに代えて、キャラクタ画像CNを示している。なお、キャラクタ画像CNは、運転者が発話した声とともに含まれるノイズ(例えば、車室内のノイズ)の大きさ(ノイズレベル)もレベル情報として表す。例えば、図6の(b)に示したキャラクタ画像CNでは、キャラクタ画像CNの大きさや、キャラクタ画像CNの形状によって、ノイズレベルを表す。エージェント装置100は、このようなエージェント画像AGを第1ディスプレイ22に表示させることによって、音声認識した結果を発話者(運転者)に通知する。この結果、発話者(運転者)は、エージェントが自身の発話を認識したか否かを直感的に確認することができる。そして、発話者(運転者)は、確認した状態に応じて、再度エージェントに対して発話するなど、エージェントが正しく音声を認識することができるようにして、エージェント機能を利用することができる。
(第2例)
図7は、エージェント画像AGの第2例を示す図である。図7の(a)には、運転者が発した音声を正常に音声認識した場合のエージェント画像AGの一例を示し、図7の(b)および図7の(c)には、運転者が発した音声の音声認識が不可である場合のエージェント画像AGの一例を示している。より具体的には、図7の(a)には、キャラクタ画像CAが表す向きとキャラクタ画像CVとの組み合わせで、運転者が発した音声を正常に音声認識したことを表すエージェント画像AGを示している。また、図7の(b)には、キャラクタ画像CAが表す向きとキャラクタ画像CNとの組み合わせで、運転者が発した音声の音声認識が不可であることを表すエージェント画像AGを示している。また、図7の(c)には、音声認識の状態を表す記号(図7の(c)ではクエスチョンマーク「?」)が追加されたキャラクタ画像CAとキャラクタ画像CNとの組み合わせで、運転者が発した音声の音声認識が不可であることを表すエージェント画像AGを示している。エージェント装置100は、図7に示したようなエージェント画像AGを第1ディスプレイ22に表示させることによっても、音声認識した結果を発話者(運転者)に通知する。この結果、発話者(運転者)は、エージェントが自身の発話を認識したか否かを直感的に確認することができる。そして、発話者(運転者)は、確認した状態に応じて、再度エージェントに対して発話するなど、エージェントが正しく音声を認識することができるようにして、エージェント機能を利用することができる。
(第3例)
図8は、エージェント画像AGの第3例を示す図である。図8の(a)には、運転者が発した音声を正常に音声認識した場合のエージェント画像AGの一例を示し、図8の(b)および図8の(c)には、運転者が発した音声の音声認識が不可である場合のエージェント画像AGの一例を示している。より具体的には、図8の(a)には、キャラクタ画像CAと複数のキャラクタ画像CVとの組み合わせで、運転者が発した音声を正常に音声認識したことを表すエージェント画像AGを示している。また、図8の(b)には、ノイズレベルが所定のレベル以上であることを表すために目の部分を通常の丸のマークと異なるクエスチョンマーク「?」としたキャラクタ画像CAが表す表情と、異なる形状の複数のキャラクタ画像CNとの組み合わせで、運転者が発した音声の音声認識が不可、あるいは、ノイズが大きい状態であることを表すエージェント画像AGを示している。また、図8の(c)には、ノイズレベルが所定のレベル以上であることを表すために目の部分をクエスチョンマーク「?」としたキャラクタ画像CAが表す向きおよび表情とキャラクタ画像CVとの組み合わせで、運転者が発した音声は取得することができたが音声認識が不可であることを表すエージェント画像AGを示している。つまり、図8の(b)および図8の(c)に示したエージェント画像AGでは、図8の(a)に示したノイズレベルが所定のレベル未満であるエージェント画像AGにおけるキャラクタ画像CAの目の部分をクエスチョンマーク「?」に代えて、ノイズが大きい状態であるため音声認識が不可であることを示している。エージェント装置100は、図8に示したようなエージェント画像AGを第1ディスプレイ22に表示させることによっても、音声認識した結果を発話者(運転者)に通知する。この結果、発話者(運転者)は、エージェントが自身の発話を認識したか否かを直感的に確認することができる。そして、発話者(運転者)は、確認した状態に応じて、ノイズが少ない状態にして再度エージェントに対して発話するなど、エージェントが正しく音声を認識することができるようにして、エージェント機能を利用することができる。
(第4例)
図9は、エージェント画像AGの第4例を示す図である。図9の(a)には、運転者が発した音声を正常に音声認識した場合のエージェント画像AGの一例を示し、図9の(b)〜図9の(f)には、運転者が発した音声の音声認識が不可である場合のエージェント画像AGの一例を示している。より具体的には、図9の(a)には、キャラクタ画像CAが表す表情とキャラクタ画像CVとの組み合わせで、運転者が発した音声を正常に音声認識したことを表すエージェント画像AGを示している。また、図9の(b)には、キャラクタ画像CAが表す表情とキャラクタ画像CVとの組み合わせで、運転者が発した音声の音声認識が不可、あるいは、運転者が発した音声が小さい状態であることを表すエージェント画像AGを示している。また、図9の(c)には、キャラクタ画像CAが表す表情と、キャラクタ画像CVおよびキャラクタ画像CNとの組み合わせで、運転者が発した音声は取得することができたがノイズが大きい状態であるため音声認識が不可であることを表すエージェント画像AGを示している。また、図9の(d)には、キャラクタ画像CAが表す表情と、音声認識の状態を表す記号(図9の(d)では「×△☆□」)が追加されたキャラクタ画像CVとの組み合わせで、運転者が発した音声は取得することができたが発話内容を認識することができない状態であるため音声認識が不可であることを表すエージェント画像AGを示している。また、図9の(e)には、キャラクタ画像CAが表す表情と、異なる形状のキャラクタ画像CNとの組み合わせで、車室外からのノイズが大きい状態であるため音声認識が不可であることを表すエージェント画像AGを示している。また、図9の(f)には、キャラクタ画像CAが表す表情によって音声認識が不可であることを表すエージェント画像AGを示している。エージェント装置100は、図9に示したようなエージェント画像AGを第1ディスプレイ22に表示させることによっても、音声認識した結果を発話者(運転者)に通知する。この結果、発話者(運転者)は、エージェントが自身の発話を認識したか否かを直感的に確認することができる。そして、発話者(運転者)は、確認した状態に応じて、ノイズが少ない状態にして再度エージェントに対して発話するなど、エージェントが正しく音声を認識することができるようにして、エージェント機能を利用することができる。
(第5例)
上述した音声認識の結果を乗員に通知する方法の第1例から第4例では、音声認識の可否の状態を乗員に通知する場合について説明した。しかし、エージェント装置100は、発話者(運転者)に通知する音声認識の結果として、音声認識の可否以外の状態も通知するようにしてもよい。図10は、エージェント画像AGの第5例を示す図である。図10の(a)には、マイク10の故障や音声認識機能の不具合などによって運転者が発した音声を収音することができない状態である場合のエージェント画像AGの一例を示し、図10の(b)には、何らかの異常によって運転者が発した音声を収音することができない状態である場合のエージェント画像AGの一例を示している。より具体的には、図10の(a)には、音声認識の状態を表す記号(図10の(a)ではクエスチョンマーク「?」)が追加されたキャラクタ画像CAと、音声が遮断されていることを表す壁などのキャラクタ画像の一例であるキャラクタ画像CMと、キャラクタ画像CVとの組み合わせで、運転者が発した音声を収音することができないため音声認識が不可の状態であることを表すエージェント画像AGを示している。また、図10の(b)には、キャラクタ画像CAが表す表情と、異なる形状のキャラクタ画像CVとの組み合わせで、運転者が発した音声を正常に音声認識することができない状態であることを表すエージェント画像AGを示している。エージェント装置100は、このようなエージェント画像AGを第1ディスプレイ22に表示させることによって、音声認識する際の異常状態を発話者(運転者)に通知する。この結果、発話者(運転者)は、エージェントが自身の発話を認識することができる状態であるか否かを直感的に確認することができる。そして、発話者(運転者)は、確認した状態に応じて、マイク10の修理を行ったり、明確な口調で再度エージェントに対して発話するなど、エージェントが正しく音声を認識することができるような状態にして、エージェント機能を利用することができる。
なお、音声認識機能の不具合の要因としては、例えば、音声認識部220、自然言語処理部222、対話管理部224、記憶部250の故障や不具合、記憶部250に格納されたデータ(パーソナルプロファイル252、辞書DB254、知識ベースDB256、応答規則DB258)の不具合などが考えられる。
(第6例)
図11は、エージェント画像AGの第6例を示す図である。図11の(a)には、運転者が発した音声を日本語として音声認識した場合のエージェント画像AGの一例を示し、図11の(b)には、運転者が発した音声を英語として音声認識した場合のエージェント画像AGの一例を示している。より具体的には、図11の(a)には、エージェントを日本国国旗を模擬したキャラクタ画像の一例であるキャラクタ画像CJとキャラクタ画像CVとの組み合わせで、運転者が発した音声を日本語として正常に音声認識したことを表すエージェント画像AGを示している。また、図11の(b)には、エージェントを英国国旗を模擬したキャラクタ画像の一例であるキャラクタ画像CEとキャラクタ画像CVとの組み合わせで、運転者が発した音声を英語として音声認識したことを表すエージェント画像AGを示している。また、図11の(b)に示したエージェント画像AGでは、キャラクタ画像CEに問い合わせを表す記号(図11の(b)ではクエスチョンマーク「?」)を追加することによって、音声を英語として音声認識したことが正しいか否かを問い合わせている状態を示している。エージェント装置100は、このようなエージェント画像AGを第1ディスプレイ22に表示させることによって、音声認識した言語を発話者(運転者)に通知する。この結果、発話者(運転者)は、エージェントが自身の発話を、エージェントと対話するために予め設定した言語(以下、対話言語と称する)で正しく認識することができたか否かを直感的に確認することができる。そして、発話者(運転者)は、確認した状態に応じて、例えば、明確な言語で再度エージェントに対して発話するなど、エージェントが正しく音声を認識することができるようにして、エージェント機能を利用することができる。なお、予め設定した対話言語が日本語であり、発話者(運転者)が日本語で発話してエージェントに要求(コマンド)を出している場合において図11の(b)に示したエージェント画像AGが第1ディスプレイ22に表示されたときには、例えば、「いいえ」と発話することによってエージェントの音声認識が正しくないことを知らせ、正しく音声認識するように再度エージェントに要求する発話を行うことができる。一方、予め設定した対話言語が英語であり、発話者(運転者)が英語で発話してエージェントに要求(コマンド)を出している場合において図11の(b)に示したエージェント画像AGが第1ディスプレイ22に表示されたときには、例えば、「Yes」と発話することによってエージェントの音声認識が正しいことを知らせることができる。
なお、上述した第1例から第6例に示したエージェント画像AGはあくまで一例であり、エージェント装置100が発話者に通知する内容に応じてエージェント画像AGの構成や形式は適宜変更されてもよい。また、音声認識した際の認識の程度(音声認識の確度や度合い)に応じてエージェント画像AGの構成や形式は適宜変更されてもよい。例えば、第1例において図6の(a)に示した運転者が発した音声を正常に音声認識したことを示す場合でも、キャラクタ画像CAとキャラクタ画像CSとの間の距離を長くしたり、キャラクタ画像CVの大きさを小さくしたり、キャラクタ画像CVの波の数を少なくしたりすることによって、運転者の位置とマイク10とが離れている、あるいは、運転者が発話した声の大きさ(音量レベル)が小さいことを示してもよい。また、例えば、第1例において図6の(a)に示した運転者が発した音声を正常に音声認識したことを示す場合でも、キャラクタ画像CAとキャラクタ画像CSとの間の距離を短くしたり、キャラクタ画像CVの大きさを大きくしたり、キャラクタ画像CVの波の数を多くしたりすることによって、運転者の位置とマイク10とが近すぎる、あるいは、運転者が発話した声の大きさ(音量レベル)が大きすぎることを示してもよい。これにより、運転者は、自身が発話した声の大きさ(音量レベル)が、エージェントが容易に認識することができる音量レベルであるか否かを直感的に確認することができる。そして、発話者(運転者)は、自身が発話する際の声の大きさを調整して再度エージェントに対して発話するなど、エージェントが正しく音声を認識することができるようにして、エージェント機能を利用することができる。
上記に述べたとおり、本発明を実施するための形態によれば、エージェント装置100は、車両Mの乗員が発話した音声をエージェント機能部150が認識した結果を、エージェント画像AGを表示・操作装置20に表示させることによって通知する。これにより、発話者は、エージェントが自身の発話を認識したか否かを直感的に確認して、エージェント機能を利用することができる。
なお、本発明を実施するための形態では、音声認識した結果を通知するエージェント機能部150を区別せずに説明した。これは、エージェント装置100に1つのエージェント機能(エージェント機能部150)を備えている場合と同様である。しかしながら、図2に示したエージェント装置100の構成では、複数種類のエージェント機能(エージェント機能部150)を備えている。このため、エージェント装置100は、それぞれのエージェント機能を区別するため、それぞれのエージェント機能ごとに、エージェントのキャラクタ画像を変更したエージェント画像AGを表示・操作装置20に表示させてもよい。例えば、それぞれのエージェント機能ごとに、エージェント画像AGを構成するキャラクタ画像CAの形状を異なる形状にしてもよい。これにより、発話者は、意図したエージェントが自身の発話を認識したか否かを直感的に確認することができる。
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何ら限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形および置換を加えることができる。
1・・・エージェントシステム
10・・・マイク
20・・・表示・操作装置
22・・・第1ディスプレイ
24・・・第2ディスプレイ
26・・・操作スイッチASSY
28・・・HUD
30・・・スピーカユニット
40・・・ナビゲーション装置
50・・・車両機器
60・・・車載通信装置
70・・・汎用通信装置
80・・・乗員認識装置
100・・・エージェント装置
110・・・管理部
112・・・音響処理部
114・・・エージェントごとWU判定部
116・・・表示制御部
118・・・音声制御部
150,150−1,150−2,150−3・・・エージェント機能部
152・・・ペアリングアプリ実行部
200,200−1,200−2,200−3・・・エージェントサーバ
210・・・通信部
220・・・音声認識部
222・・・自然言語処理部
224・・・対話管理部
226・・・ネットワーク検索部
228・・・応答文生成部
250・・・記憶部
252・・・パーソナルプロファイル
254・・・辞書DB
256・・・知識ベースDB
258・・・応答規則DB
300・・・各種ウェブサーバ
NW・・・ネットワーク
M・・・車両
SW・・・ステアリングホイール
DS・・・運転席
AS・・・助手席
AG・・・エージェント画像
CA・・・キャラクタ画像
CS・・・キャラクタ画像
CV・・・キャラクタ画像
CN・・・キャラクタ画像
CM・・・キャラクタ画像
CJ・・・キャラクタ画像
CE・・・キャラクタ画像

Claims (14)

  1. 車両の乗員により発せられ、音収集部により収集された音声を音声認識した結果に応じたサービスを提供する少なくとも1つのエージェント機能部と、
    前記音収集部により収集された音声に関連するレベル情報を、前記エージェント機能部を表すキャラクタ画像に関連させて表示部に表示させる表示制御部と、
    を備えるエージェント装置。
  2. 前記音声に関連するレベル情報は、前記音収集部により収集された音声の音量レベルに関する情報である、
    請求項1に記載のエージェント装置。
  3. 前記音声に関連するレベル情報は、前記音収集部により収集された音声に含まれるノイズのノイズレベルに関する情報である、
    請求項1または請求項2に記載のエージェント装置。
  4. 前記音声に関連するレベル情報は、前記音収集部により収集された音声の音量レベルに関する情報と、前記音収集部により収集された音声に含まれるノイズのノイズレベルに関する情報とを含み、
    前記表示制御部は、前記音量レベルに関する情報と前記ノイズレベルに関する情報とを異なる形態で前記表示部に表示させる、
    請求項1から請求項3のうちいずれか1項に記載のエージェント装置。
  5. 前記音声に関連するレベル情報は、前記音収集部により収集された音声に含まれるノイズのノイズレベルに関する情報であり、
    前記表示制御部は、前記ノイズレベルが所定のレベル以上である場合には、前記キャラクタ画像の目の部分を、前記ノイズレベルが所定のレベル未満である場合と異ならせて前記表示部に表示させる、
    請求項1から請求項4のうちいずれか1項に記載のエージェント装置。
  6. 前記表示制御部は、前記音収集部、または前記音収集部により収集された音声を音声認識する構成要素の故障によって前記音収集部により収集された音声を音声認識することができない場合に、故障を表す画像を、前記キャラクタ画像に組み合わせて前記表示部に表示させる、
    請求項1から請求項5のうちいずれか1項に記載のエージェント装置。
  7. 前記故障を表す画像は、前記キャラクタ画像の横に壁を表す画像を配置した画像である、
    請求項6に記載のエージェント装置。
  8. 前記故障を表す画像は、前記キャラクタ画像の横にクエスチョンマークを配置した画像である、
    請求項6または請求項7に記載のエージェント装置。
  9. 前記表示制御部は、乗員を表す画像を、前記キャラクタ画像と組み合わせて前記表示部に表示させる、
    請求項1から請求項8のうちいずれか1項に記載のエージェント装置。
  10. 前記音声に関連するレベル情報は、前記音収集部により収集された音声に含まれるノイズのノイズレベルに関する情報であり、
    前記表示制御部は、前記ノイズレベルが所定のレベル未満である場合には、前記キャラクタ画像と前記乗員を表す画像との間に発話を表す画像を配置した画像を前記表示部に表示させ、前記ノイズレベルが所定のレベル以上である場合には、前記キャラクタ画像と前記乗員を表す画像との間にノイズを表す画像を配置した画像を前記表示部に表示させる、
    請求項9に記載のエージェント装置。
  11. 車両の乗員により発せられ、音収集部により収集された音声を予め設定した言語で音声認識した結果に応じたサービスを提供する少なくとも1つのエージェント機能部と、
    前記音声認識の前提とした言語を表すキャラクタ画像を表示部に表示させる表示制御部と、
    を備えるエージェント装置。
  12. 前記表示制御部は、前記音声認識の前提とした言語に対応する国旗を模擬した形態の前記キャラクタ画像を、前記表示部に表示させる、
    請求項11に記載のエージェント装置。
  13. エージェント装置のコンピュータが、
    少なくとも1つのエージェント機能部として、車両の乗員により発せられ、音収集部により収集された音声を音声認識した結果に応じたサービスを提供し、
    前記音収集部により収集された音声に関連するレベル情報を、前記エージェント機能部を表すキャラクタ画像に関連させて表示部に表示させる、
    エージェント装置の制御方法。
  14. エージェント装置のコンピュータに、
    少なくとも1つのエージェント機能部として、車両の乗員により発せられ、音収集部により収集された音声を音声認識した結果に応じたサービスを提供させ、
    前記音収集部により収集された音声に関連するレベル情報を、前記エージェント機能部を表すキャラクタ画像に関連させて表示部に表示させることを行わせる、
    プログラム。
JP2019057814A 2019-03-26 2019-03-26 エージェント装置、エージェント装置の制御方法、およびプログラム Pending JP2020157864A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019057814A JP2020157864A (ja) 2019-03-26 2019-03-26 エージェント装置、エージェント装置の制御方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019057814A JP2020157864A (ja) 2019-03-26 2019-03-26 エージェント装置、エージェント装置の制御方法、およびプログラム

Publications (1)

Publication Number Publication Date
JP2020157864A true JP2020157864A (ja) 2020-10-01

Family

ID=72641389

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019057814A Pending JP2020157864A (ja) 2019-03-26 2019-03-26 エージェント装置、エージェント装置の制御方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP2020157864A (ja)

Similar Documents

Publication Publication Date Title
JP2020144663A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JP2020144260A (ja) 車載エージェントシステム、車載エージェントシステムの制御方法、およびプログラム
JP2020157855A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JP2020149106A (ja) エージェント装置、エージェントシステム、サーバ装置、エージェント装置の制御方法、およびプログラム
US11240342B2 (en) Agent device, method of controlling agent device, and computer-readable non-transient storage medium
US11608076B2 (en) Agent device, and method for controlling agent device
JP2020144264A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
CN111660966A (zh) 智能体装置、智能体装置的控制方法及存储介质
JP2020152183A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JP2020162003A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JP2020144081A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
US11797261B2 (en) On-vehicle device, method of controlling on-vehicle device, and storage medium
JP2020157853A (ja) 車載エージェントシステム、車載エージェントシステムの制御方法、およびプログラム
JP7175221B2 (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JP2020152298A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JP2020160133A (ja) エージェントシステム、エージェントシステムの制御方法、およびプログラム
JP2020157864A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JP2020142721A (ja) エージェントシステム、車載機器の制御方法、及びプログラム
JP2020154942A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JP2020157808A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JP2020160285A (ja) エージェント装置、情報提供方法、及びプログラム
JP2020154994A (ja) エージェントシステム、エージェントサーバ、エージェントサーバの制御方法、およびプログラム
JP2020160848A (ja) サーバ装置、情報提供システム、情報提供方法、およびプログラム
JP2020148583A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JP2020144712A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム