JP2020160832A

JP2020160832A - エージェント装置、エージェントシステム、エージェント装置の制御方法、およびプログラム

Info

Publication number: JP2020160832A
Application number: JP2019060021A
Authority: JP
Inventors: 善史我妻; Yoshifumi Wagatsuma; 賢吾内木; Kengo Uchiki; 裕介大井; Yusuke Oi
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2019-03-27
Filing date: 2019-03-27
Publication date: 2020-10-01
Anticipated expiration: 2039-03-27
Also published as: CN111754999B; JP7169921B2; US20200307620A1; US11518399B2; CN111754999A

Abstract

【課題】エージェントの使い勝手を向上させること。【解決手段】エージェント装置は、音声に応じて、音声による応答を含むサービスを提供するエージェントが起動している場合にエージェント画像を第１表示部に表示させる表示制御部と、音声による入力を受け付ける外部端末が受け付けた音声の大きさに基づいて、第２表示部に前記エージェント画像を表示させるための特定制御を実行する制御部とを備える。【選択図】図３

Description

本発明は、エージェント装置、エージェントシステム、エージェント装置の制御方法、およびプログラムに関する。

従来、車両の利用者と対話を行いながら、利用者の要求に応じた運転支援に関する情報や車両の制御、その他のアプリケーション等を提供するエージェント機能に関する技術が開示されている（例えば、特許文献１参照）。

特開２００６−３３５２３１号公報

近年では、エージェント機能を車両に搭載することについて実用化が進められているが、車両ごとに搭載されたエージェント機能におけるサービスの提供について十分に検討されていなかった。このため、従来の技術では、エージェント機能について使い勝手がよくない場合があった。

本発明は、このような事情を考慮してなされたものであり、エージェントの使い勝手を向上させることができるエージェント装置、エージェントシステム、エージェント装置の制御方法、およびプログラムを提供することを目的の一つとする。

この発明に係るエージェント装置、エージェントシステム、サーバ装置、エージェント装置の制御方法、およびプログラムは、以下の構成を採用した。
（１）：この発明の一態様に係るエージェント装置は、音声に応じて、音声による応答を含むサービスを提供するエージェントが起動している場合にエージェント画像を第１表示部に表示させる表示制御部と、音声による入力を受け付ける外部端末が受け付けた音声の大きさに基づいて、第２表示部に前記エージェント画像を表示させる特定制御を実行する制御部と、を備えるエージェント装置である。

（２）：上記（１）の態様において、前記制御部は、音声による入力を受け付ける外部端末が受け付けた音声の大きさが所定の大きさ未満である場合に、前記第２表示部に前記特定制御を行うものである。

（３）：上記（１）または（２）の態様において、前記第２表示部は前記外部端末が有する。

（４）：上記（１）から（３）のいずれかの態様において、前記表示制御部は、前記制御部が特定制御を実行する場合、前記エージェント画像を前記第１表示部に表示させないものである。

（５）：上記（１）から（４）のいずれかの態様において、前記表示制御部は、前記制御部が特定制御を実行しない場合、前記エージェント画像を前記第１表示部に表示させるものである。

（６）：上記（１）から（５）のいずれかの態様において、前記制御部は、前記外部端末が受け付けた音声の大きさが所定の大きさ未満である場合であっても、音声の入力を受け付ける受付部が音声を受け付けた場合は、前記エージェント画像を前記第１表示部に表示させるものである。

（７）：上記（６）の態様において、前記受付部は、車両、施設、または所定位置に設けられた据え置き型のマイクであるものである。

（８）：上記（１）から（７）のいずれかの態様において、前記第１表示部は、車両、施設、または所定位置に設けられた据え置き型の表示部であるものである。

（９）：上記（１）から（８）のいずれかの態様において、前記外部端末は、携帯式の端末装置であるものである。

（１０）：上記（１）から（９）のいずれかの態様において、前記表示制御部は、前記制御部が前記特定制御を実行している場合において、前記外部端末により送信された指示情報に応じて、前記エージェント画像を前記第１表示部に表示させるものである。

（１１）：上記（１）から（９）のいずれかの態様において、前記エージェント装置は、前記外部端末と連携し、前記エージェントは、前記外部端末が受け付けた音声に応じて、音声による応答を含むサービスを提供するものである。

（１２）：上記（１）から（１１）のいずれかの態様において、前記エージェント装置は、前記外部端末と連携し、前記表示制御部は、前記外部端末が受け付けた所定の大きさ以上の音声に応じて、前記エージェント画像を前記第１表示部に表示させ、前記制御部は、前記外部端末が受け付けた所定の大きさ以上の音声に応じて、前記特定制御を実行しないものである。

（１３）：この発明の一態様に係るエージェント装置は、音声に応じて、音声による応答を含むサービスを提供するエージェントが起動している場合に、視認者を制限しないような態様で設けられた第１表示部にエージェント画像を表示させる表示制御部と、音声による入力を受け付ける第１端末が受け付けた音声の大きさが所定の大きさ未満である場合、視認者を前記第１端末が受け付けた音声を入力した利用者に制限するような態様で設けられた第２表示部にエージェント画像を表示させるための特定制御を実行する制御部と、を備えるエージェント装置である。

（１４）：この発明の一態様に係るエージェントシステムは、コンピュータに、音声による入力を受け付ける受付部に音声を受け付けさせ、前記受付部に受け付けさせた音声に基づく情報をエージェント装置に送信させ、前記送信させた音声に基づく情報に応じて、エージェント装置から取得した特定制御の指示に基づいて、第１の特定表示部にエージェント画像を出現させるアプリケーションプログラムと、音声に応じて、音声による応答を含むサービスを提供するエージェントが起動している場合にエージェント画像を第２の特定表示部に表示させる表示制御部、および前記受付部が受け付けた音声の大きさが所定の大きさ未満である場合、第２特定表示部に前記エージェント画像を表示させるための前記特定制御を前記コンピュータに実行させる制御部、を備えるエージェント装置と
を含むエージェントシステムである。

（１５）：この発明の一態様に係るエージェント装置の制御方法は、コンピュータが、コンピュータが、音声に応じて、音声による応答を含むサービスを提供するエージェントが起動している場合にエージェント画像を第１表示部に表示させ、音声による入力を受け付ける外部端末が受け付けた音声の大きさに基づいて、第２表示部に前記エージェント画像を表示させるための特定制御を実行させる、エージェントの制御方法である。

（１６）：この発明の一態様に係るプログラムは、コンピュータに、音声に応じて、音声による応答を含むサービスを提供するエージェントが起動している場合にエージェント画像を第１表示部に表示させ、音声による入力を受け付ける外部端末が受け付けた音声の大きさに基づいて、第２表示部に前記エージェント画像を表示させるための特定制御を実行させるプログラムである。

（１）〜（５）、（７）〜（９）、（１１）、（１２）〜（１６）によれば、エージェント装置が、受け付けた音声の大きさが所定の大きさ未満である場合、所定の表示部にエージェント画像を表示させることにより、エージェントの使い勝手を向上させることができる。

（６）によれば、エージェン装置は、音声の入力を受け付ける受付部が音声を受け付けた場合は、エージェント画像を前記第１表示部に表示させることにより、利用者の意図を反映した制御を実現することができる。

（１０）によれば、エージェン装置は、外部端末により送信された指示情報に応じて、エージェント画像を第１表示部に表示させることにより、利用者の意図を反映した制御を実現することができる。

エージェント装置１００を含むエージェントシステム１の構成図である。汎用通信装置７０の機能構成の一例を示す図である。第１実施形態に係るエージェント装置１００の構成と、車両Ｍに搭載された機器とを示す図である。表示・操作装置２０の配置例を示す図である。スピーカユニット３０の配置例を示す図である。音像が定位する位置が定まる原理について説明するための図である。エージェントサーバ２００の構成と、エージェント装置１００の構成の一部とを示す図である。汎用端末装置７０とエージェント装置１００とが利用される場面の一例を示す図である。汎用端末装置７０とエージェント装置１００とにより実行される処理の流れの一例を示すフローチャート（その１）である。エージェントが通常出現制御により出現した様子の一例を示す図である。エージェントが通常出現制御により出現した様子の他の一例を示す図である。エージェントがプライベート出現制御により出現した様子の一例を示す図である。汎用通信装置７０とエージェント装置１００とにより実行される特定コマンド処理の流れの一例を示すフローチャート（その２）である。第２実施形態の汎用端末装置７０とエージェント装置１００とにより実行される処理の流れの一例を示すフローチャートである。第３実施形態の車両Ｍ１のマイク１０およびディスプレイの配置の一例を示す図である。第３実施形態のエージェント装置１００により実行される処理の流れの一例を示すフローチャートである。第３実施形態においてプライベート出現制御が行われた様子の一例を示す図である。自宅に設けられたエージェント装置１００Ａの一例を示す図である。汎用端末装置７０とエージェント装置１００とにより実行される処理の流れの一例を示すフローチャートである。

以下、図面を参照し、本発明のエージェント装置、エージェントシステム、エージェント装置の制御方法、およびプログラムの実施形態について説明する。

＜第１実施形態＞

エージェント装置は、エージェントシステムの一部または全部を実現する装置である。以下では、エージェント装置の一例として、車両（以下、車両Ｍ）に搭載され、複数種類のエージェント機能を備えたエージェント装置について説明する。エージェント機能とは、例えば、車両Ｍの利用者と対話をしながら、利用者の発話の中に含まれる要求（コマンド）に基づく各種の情報提供を行ったり、ネットワークサービスを仲介したりする機能である。また、エージェント機能の中には、車両内の機器（例えば運転制御や車体制御に関わる機器）の制御等を行う機能を有するものがあってよい。

エージェント機能は、例えば、利用者の音声を認識する音声認識機能（音声をテキスト化する機能）に加え、自然言語処理機能（テキストの構造や意味を理解する機能）、対話管理機能、ネットワークを介して他装置を検索し、或いは自装置が保有する所定のデータベースを検索するネットワーク検索機能等を統合的に利用して実現される。これらの機能の一部または全部は、ＡＩ（Artificial Intelligence）技術によって実現されてよい。また、これらの機能を行うための構成の一部（特に、音声認識機能や自然言語処理解釈機能）は、車両Ｍの車載通信装置または車両Ｍに持ち込まれた汎用通信装置と通信可能なエージェントサーバ（外部装置）に搭載されてもよい。以下の説明では、構成の一部がエージェントサーバに搭載されており、エージェント装置とエージェントサーバが協働してエージェントシステムを実現することを前提とする。また、エージェント装置とエージェントサーバが協働して仮想的に出現させるサービス、またはその提供主体（サービス・エンティティ）をエージェントと称する。

＜全体構成＞
図１は、エージェント装置１００を含むエージェントシステム１の構成図である。エージェントシステム１は、例えば、汎用通信装置７０と、エージェント装置１００−１、１００−２と、複数のエージェントサーバ２００−１、２００−２、２００−３、…と、情報処理サーバ３００とを備える。エージェント装置１００−１と、１００−２とを区別しない場合は、単にエージェント装置１００と称する場合がある。エージェントサーバ２００の符号の末尾のハイフン以下の数字は、エージェントを区別するための識別子であるものとする。いずれのエージェントサーバであるかを区別しない場合、単にエージェントサーバ２００と称する場合がある。図１では３つのエージェントサーバ２００を示しているが、エージェントサーバ２００の数は２つであってもよいし、４つ以上であってもよい。それぞれのエージェントサーバ２００は、互いに異なるエージェントシステムの提供者が運営するものである。従って、本発明におけるエージェントは、互いに異なる提供者により実現されるエージェントである。提供者としては、例えば、自動車メーカー、ネットワークサービス事業者、電子商取引事業者、携帯端末の販売者などが挙げられ、任意の主体（法人、団体、個人等）がエージェントシステムの提供者となり得る。

エージェント装置１００は、ネットワークＮＷを介してエージェントサーバ２００と通信する。ネットワークＮＷは、例えば、インターネット、セルラー網、Ｗｉ−Ｆｉ網、ＷＡＮ（Wide Area Network）、ＬＡＮ（Local Area Network）、公衆回線、電話回線、無線基地局などのうち一部または全部を含む。ネットワークＮＷには、各種ウェブサーバ５００が接続されており、エージェントサーバ２００またはエージェント装置１００は、ネットワークＮＷを介して各種ウェブサーバ５００からウェブページを取得することができる。

エージェント装置１００は、車両Ｍの利用者と対話を行い、利用者からの音声をエージェントサーバ２００に送信し、エージェントサーバ２００から得られた回答を、音声出力や画像表示の形で利用者に提示する。

［汎用通信装置］
図２は、汎用通信装置７０の機能構成の一例を示す図である。汎用通信装置７０は、スマートフォンやタブレット端末などの可搬型または携帯型の装置である。汎用通信装置７０は、例えば、表示部７１と、スピーカ７２と、マイク７３と、通信部７４と、ペアリング実行部７５と、音響処理部７６と、制御部７７と、記憶部７８とを備える。記憶部７８には、連携アプリケーションプログラム（連携アプリ７９）が記憶されている。連携アプリ７９は、不図示のアプリ提供サーバにより提供されたものであってもよいし、車両Ｍにより提供されたものであってもよい。

連携アプリ７９は、利用者が汎用通信装置７００に対して行った操作に基づいて、汎用通信装置７０が取得した情報をエージェント装置１００に送信したり、エージェント装置１００により送信された情報を利用者に提供したりする。

表示部７１は、ＬＣＤ（Liquid Crystal Display）や有機ＥＬ（Electroluminescence）ディスプレイなどの表示装置を含む。表示部７１は、制御部７７の制御に基づいて画像を表示する。スピーカ７２は、制御部７７の制御に基づいて音声を出力する。マイク７３は、利用者により入力された音声を収集する。

通信部７４は、エージェント装置１００と通信するための通信インタフェースである。
ペアリング実行部７５は、例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）等の無線通信を用いてエージェント装置１００とのペアリングを実行する。音響処理部７６は、入力された音に対して音響処理を行う。

制御部７７は、ＣＰＵ（Central Processing Unit）などのプロセッサが連携アプリ７９（ソフトウェア）を実行することで実現される。制御部７７は、汎用通信装置７０の各部（例えば表示部７１やスピーカ７２等）を制御する。制御部７７は、自装置に入力させた情報をエージェント装置１００に管理したり、エージェント装置１００によりされた情報を管理したりする。

［車両］
図３は、第１実施形態に係るエージェント装置１００の構成と、車両Ｍに搭載された機器とを示す図である。車両Ｍには、例えば、一以上のマイク１０と、表示・操作装置２０と、スピーカユニット３０と、ナビゲーション装置４０と、車両機器５０と、車載通信装置６０と、乗員認識装置８０と、エージェント装置１００とが搭載される。また、汎用通信装置７０が車室内に持ち込まれ、通信装置として使用される場合がある。これらの装置は、ＣＡＮ（Controller Area Network）通信線等の多重通信線やシリアル通信線、無線通信網等によって互いに接続される。なお、図２に示す構成はあくまで一例であり、構成の一部が省略されてもよいし、更に別の構成が追加されてもよい。

マイク１０は、車室内で発せられた音声を収集する収音部である。表示・操作装置２０は、画像を表示すると共に、入力操作を受付可能な装置（或いは装置群）である。表示・操作装置２０は、例えば、タッチパネルとして構成されたディスプレイ装置を含む。表示・操作装置２０は、更に、ＨＵＤ（Head Up Display）や機械式の入力装置を含んでもよい。スピーカユニット３０は、例えば、車室内の互いに異なる位置に配設された複数のスピーカ（音出力部）を含む。表示・操作装置２０は、エージェント装置１００とナビゲーション装置４０とで共用されてもよい。これらの詳細については後述する。

ナビゲーション装置４０は、ナビＨＭＩ（Human machine Interface）と、ＧＰＳ（Global Positioning System）などの位置測位装置と、地図情報を記憶した記憶装置と、経路探索などを行う制御装置（ナビゲーションコントローラ）とを備える。マイク１０、表示・操作装置２０、およびスピーカユニット３０のうち一部または全部がナビＨＭＩとして用いられてもよい。ナビゲーション装置４０は、位置測位装置によって特定された車両Ｍの位置から、利用者によって入力された目的地まで移動するための経路（ナビ経路）を探索し、経路に沿って車両Ｍが走行できるように、ナビＨＭＩを用いて案内情報を出力する。経路探索機能は、ネットワークＮＷを介してアクセス可能なナビゲーションサーバにあってもよい。この場合、ナビゲーション装置４０は、ナビゲーションサーバから経路を取得して案内情報を出力する。なお、エージェント装置１００は、ナビゲーションコントローラを基盤として構築されてもよく、その場合、ナビゲーションコントローラとエージェント装置１００は、ハードウェア上は一体に構成される。

車両機器５０は、例えば、エンジンや走行用モータなどの駆動力出力装置、エンジンの始動モータ、ドアロック装置、ドア開閉装置、空調装置などを含む。

車載通信装置６０は、例えば、セルラー網やＷｉ−Ｆｉ網を利用してネットワークＮＷにアクセス可能な無線通信装置である。

乗員認識装置８０は、例えば、着座センサ、車室内カメラ、画像認識装置などを含む。着座センサは座席の下部に設けられた圧力センサ、シートベルトに取り付けられた張力センサなどを含む。車室内カメラは、車室内に設けられたＣＣＤ（Charge Coupled Device）カメラやＣＭＯＳ（Complementary Metal Oxide Semiconductor）カメラである。画像認識装置は、車室内カメラの画像を解析し、座席ごとの利用者の有無、顔向きなどを認識する。本実施形態において、乗員認識装置８０は、着座位置認識部の一例である。

図４は、表示・操作装置２０の配置例を示す図である。表示・操作装置２０は、例えば、第１ディスプレイ２２と、第２ディスプレイ２４と、操作スイッチＡＳＳＹ２６とを含む。表示・操作装置２０は、更に、ＨＵＤ２８を含んでもよい。

車両Ｍには、例えば、ステアリングホイールＳＷが設けられた運転席ＤＳと、運転席ＤＳに対して車幅方向（図中Ｙ方向）に設けられた助手席ＡＳとが存在する。第１ディスプレイ２２は、インストルメントパネルにおける運転席ＤＳと助手席ＡＳとの中間辺りから、助手席ＡＳの左端部に対向する位置まで延在する横長形状のディスプレイ装置である。第２ディスプレイ２４は、運転席ＤＳと助手席ＡＳとの車幅方向に関する中間あたり、且つ第１ディスプレイ２２の下方に設置されている。例えば、第１ディスプレイ２２と第２ディスプレイ２４は、共にタッチパネルとして構成され、表示部としてＬＣＤ（Liquid Crystal Display）や有機ＥＬ（Electroluminescence）、プラズマディスプレイなどを備えるものである。操作スイッチＡＳＳＹ２６は、ダイヤルスイッチやボタン式スイッチなどが集積されたものである。表示・操作装置２０は、利用者によってなされた操作の内容をエージェント装置１００に出力する。第１ディスプレイ２２または第２ディスプレイ２４が表示する内容は、エージェント装置１００によって決定されてよい。

図５は、スピーカユニット３０の配置例を示す図である。スピーカユニット３０は、例えば、スピーカ３０Ａ〜３０Ｈを含む。スピーカ３０Ａは、運転席ＤＳ側の窓柱（いわゆるＡピラー）に設置されている。スピーカ３０Ｂは、運転席ＤＳに近いドアの下部に設置されている。スピーカ３０Ｃは、助手席ＡＳ側の窓柱に設置されている。スピーカ３０Ｄは、助手席ＡＳに近いドアの下部に設置されている。スピーカ３０Ｅは、右側後部座席ＢＳ１側に近いドアの下部に設置されている。スピーカ３０Ｆは、左側後部座席ＢＳ２側に近いドアの下部に設置されている。スピーカ３０Ｇは、第２ディスプレイ２４の近傍に設置されている。スピーカ３０Ｈは、車室の天井（ルーフ）に設置されている。

係る配置において、例えば、専らスピーカ３０Ａおよび３０Ｂに音を出力させた場合、音像は運転席ＤＳ付近に定位することになる。また、専らスピーカ３０Ｃおよび３０Ｄに音を出力させた場合、音像は助手席ＡＳ付近に定位することになる。また、専らスピーカ３０Ｅに音を出力させた場合、音像は右側後部座席ＢＳ１付近に定位することになる。また、専らスピーカ３０Ｆに音を出力させた場合、音像は左側後部座席ＢＳ２付近に定位することになる。また、専らスピーカ３０Ｇに音を出力させた場合、音像は車室の前方付近に定位することになり、専らスピーカ３０Ｈに音を出力させた場合、音像は車室の上方付近に定位することになる。これに限らず、スピーカユニット３０は、ミキサーやアンプを用いて各スピーカの出力する音の配分を調整することで、車室内の任意の位置に音像を定位させることができる。

［エージェント装置］
図３に戻り、エージェント装置１００は、管理部１１０と、エージェント機能部１５０−１、１５０−２、１５０−３と、ペアリングアプリ実行部１５２とを備える。管理部１１０は、例えば、音響処理部１１２と、エージェントごとＷＵ（Wake Up）判定部１１４と、連携制御部１１５と、表示制御部１１６と、音声制御部１１８とを備える。いずれのエージェント機能部であるかを区別しない場合、単にエージェント機能部１５０と称する。３つのエージェント機能部１５０を示しているのは、図１におけるエージェントサーバ２００の数に対応させた一例に過ぎず、エージェント機能部１５０の数は、２つであってもよいし、４つ以上であってもよい。図３に示すソフトウェア配置は説明のために簡易に示しており、実際には、例えば、エージェント機能部１５０と車載通信装置６０の間に管理部１１０が介在してもよいし、任意に改変することができる。

エージェント装置１００の各構成要素は、例えば、ＣＰＵなどのハードウェアプロセッサがプログラム（ソフトウェア）を実行することにより実現される。これらの構成要素のうち一部または全部は、ＬＳＩ（Large Scale Integration）やＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）、ＧＰＵ（Graphics Processing Unit）などのハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めＨＤＤ（Hard Disk Drive）やフラッシュメモリなどの記憶装置（非一過性の記憶媒体を備える記憶装置）に格納されていてもよいし、ＤＶＤやＣＤ−ＲＯＭなどの着脱可能な記憶媒体（非一過性の記憶媒体）に格納されており、記憶媒体がドライブ装置に装着されることでインストールされてもよい。

管理部１１０は、ＯＳ（Operating System）やミドルウェアなどのプログラムが実行されることで機能する。

管理部１１０の音響処理部１１２は、エージェントごとに予め設定されているウエイクアップワードを認識するのに適した状態になるように、入力された音に対して音響処理を行う。

エージェントごとＷＵ判定部１１４は、エージェント機能部１５０−１、１５０−２、１５０−３のそれぞれに対応して存在し、エージェントごとに予め定められているウエイクアップワードを認識する。エージェントごとＷＵ判定部１１４は、音響処理が行われた音声（音声ストリーム）から音声の意味を認識する。まず、エージェントごとＷＵ判定部１１４は、音声ストリームにおける音声波形の振幅と零交差に基づいて音声区間を検出する。エージェントごとＷＵ判定部１１４は、混合ガウス分布モデル（ＧＭＭ；Gaussian mixture model)に基づくフレーム単位の音声識別および非音声識別に基づく区間検出を行ってもよい。

次に、エージェントごとＷＵ判定部１１４は、検出した音声区間における音声をテキスト化し、文字情報とする。そして、エージェントごとＷＵ判定部１１４は、テキスト化した文字情報がウエイクアップワードに該当するか否かを判定する。ウエイクアップワードであると判定した場合、エージェントごとＷＵ判定部１１４は、対応するエージェント機能部１５０を起動させる。なお、エージェントごとＷＵ判定部１１４に相当する機能がエージェントサーバ２００に搭載されてもよい。この場合、管理部１１０は、音響処理部１１２によって音響処理が行われた音声ストリームをエージェントサーバ２００に送信し、エージェントサーバ２００がウエイクアップワードであると判定した場合、エージェントサーバ２００からの指示に従ってエージェント機能部１５０が起動する。なお、各エージェント機能部１５０は、常時起動しており且つウエイクアップワードの判定を自ら行うものであってよい。この場合、管理部１１０がエージェントごとＷＵ判定部１１４を備える必要はない。

エージェント機能部１５０は、対応するエージェントサーバ２００と協働してエージェントを出現させ、車両Ｍの利用者の発話に応じて、音声による応答を含むサービスを提供する。エージェント機能部１５０には、車両機器５０を制御する権限が付与されたものが含まれてよい。また、エージェント機能部１５０には、ペアリングアプリ実行部１５２を介して汎用通信装置７０と連携し、エージェントサーバ２００と通信するものであってよい。例えば、エージェント機能部１５０−１には、車両機器５０を制御する権限が付与されている。エージェント機能部１５０−１は、車載通信装置６０を介してエージェントサーバ２００−１と通信する。エージェント機能部１５０−２は、車載通信装置６０を介してエージェントサーバ２００−２と通信する。エージェント機能部１５０−３は、ペアリングアプリ実行部１５２を介して汎用通信装置７０と連携し、エージェントサーバ２００−３と通信する。

ペアリングアプリ実行部１５２は、例えば、汎用通信装置７０とペアリングを行い、エージェント機能部１５０−３と汎用通信装置７０とを接続させる。なお、エージェント機能部１５０−３は、ＵＳＢ（Universal Serial Bus）などを利用した有線通信によって汎用通信装置７０に接続されるようにしてもよい。以下、エージェント機能部１５０−１とエージェントサーバ２００−１が協働して出現させるエージェントをエージェント１、エージェント機能部１５０−２とエージェントサーバ２００−２が協働して出現させるエージェントをエージェント２、エージェント機能部１５０−３とエージェントサーバ２００−３が協働して出現させるエージェントをエージェント３と称する場合がある。

連携制御部１１５は、音声による入力を受け付ける汎用通信装置７０が受け付けた音声の大きさが所定の大きさ以下である場合、汎用通信装置７０の表示部にエージェント画像を表示させるための特定制御を汎用通信装置７０に実行させる。この処理の詳細については後述する［連携処理の概要］で説明する。なお、「所定の大きさ」とは例えば４０ｄＢ以下、好ましくは３０ｄＢの入力であってもよい、また、車両Ｍの発話の通常の音声の大きさ以下であると判定された場合であってもよい。さらに車両Ｍの走行音や環境音などをオフセットした上で判定されてもよい。

表示制御部１１６は、エージェント機能部１５０による指示に応じて第１ディスプレイ２２または第２ディスプレイ２４に画像を表示させる。以下では、第１ディスプレイ２２を使用するものとする。表示制御部１１６は、一部のエージェント機能部１５０の制御により、例えば、車室内で利用者とのコミュニケーションを行う擬人化されたエージェントの画像（以下、エージェント画像と称する）を生成し、生成したエージェント画像を第１ディスプレイ２２に表示させる。エージェント画像は、例えば、利用者に対して話しかける態様の画像である。エージェント画像は、例えば、少なくとも観者（利用者）によって表情や顔向きが認識される程度の顔画像を含んでよい。例えば、エージェント画像は、顔領域の中に目や鼻に擬したパーツが表されており、顔領域の中のパーツの位置に基づいて表情や顔向きが認識されるものであってよい。また、エージェント画像は、観者によって、立体的に感じられ、三次元空間における頭部画像を含むことでエージェントの顔向きが認識される画像である。エージェント画像は、エージェントの動作や振る舞い、姿勢等が認識され本体（胴体や手足）の画像を含むものであってもよい。また、エージェント画像は、アニメーション画像であってもよい。

音声制御部１１８は、エージェント機能部１５０による指示に応じて、スピーカユニット３０に含まれるスピーカのうち一部または全部に音声を出力させる。音声制御部１１８は、複数のスピーカユニット３０を用いて、エージェント画像の表示位置に対応する位置にエージェント音声の音像を定位させる制御を行ってもよい。エージェント画像の表示位置に対応する位置とは、例えば、エージェント画像がエージェント音声を喋っていると利用者が感じると予測される位置であり、具体的には、エージェント画像の表示位置付近（例えば、２〜３［ｃｍ］以内）の位置である。また、音像が定位するとは、例えば、利用者の左右の耳に伝達される音の大きさが調節されることにより、利用者が感じる音源の空間的な位置が定められることである。

図６は、音像が定位する位置が定まる原理について説明するための図である。図６では、説明を簡略化するために、上述したスピーカ３０Ｂ、３０Ｄ、および３０Ｇを用いる例を示しているが、スピーカユニット３０に含まれる任意のスピーカが使用されてよい。音声制御部１１８は、各スピーカに接続されたアンプ（ＡＭＰ）３２およびミキサー３４を制御して音像を定位させる。例えば、図６に示す空間位置ＭＰ１に音像を定位させる場合、音声制御部１１８は、アンプ３２およびミキサー３４を制御することにより、スピーカ３０Ｂに最大強度の５％の出力を行わせ、スピーカ３０Ｄに最大強度の８０％の出力を行わせ、スピーカ３０Ｇに最大強度の１５％の出力を行わせる。この結果、利用者Ｐの位置からは、図６に示す空間位置ＭＰ１に音像が定位しているように感じることになる。

また、図６に示す空間位置ＭＰ２に音像を定位させる場合、音声制御部１１８は、アンプ３２およびミキサー３４を制御することにより、スピーカ３０Ｂに最大強度の４５％の出力を行わせ、スピーカ３０Ｄに最大強度の４５％の出力を行わせ、スピーカ３０Ｇに最大強度の４５％の出力を行わせる。この結果、利用者Ｐの位置からは、図６に示す空間位置ＭＰ２に音像が定位しているように感じることになる。このように、車室内に設けられる複数のスピーカとそれぞれのスピーカから出力される音の大きさを調整することで、音像が定位される位置を変化させることができる。なお、より詳細には、音像の定位する位置は、音源が元々保有している音特性や、車室内環境の情報、頭部伝達関数（HRTF；Head-related transfer function）に基づいて定まるため、音声制御部１１８は、予め官能試験などで得られた最適な出力配分でスピーカユニット３０を制御することで、音像を所定の位置に定位させる。

［エージェントサーバ］
図７は、エージェントサーバ２００の構成と、エージェント装置１００の構成の一部とを示す図である。以下、エージェントサーバ２００の構成と共にエージェント機能部１５０等の動作について説明する。ここでは、エージェント装置１００からネットワークＮＷまでの物理的な通信についての説明を省略する。

エージェントサーバ２００は、通信部２１０を備える。通信部２１０は、例えばＮＩＣ（Network Interface Card）などのネットワークインターフェースである。更に、エージェントサーバ２００は、例えば、音声認識部２２０と、自然言語処理部２２２と、対話管理部２２４と、ネットワーク検索部２２６と、応答文生成部２２８とを備える。これらの構成要素は、例えば、ＣＰＵなどのハードウェアプロセッサがプログラム（ソフトウェア）を実行することにより実現される。これらの構成要素のうち一部または全部は、ＬＳＩやＡＳＩＣ、ＦＰＧＡ、ＧＰＵなどのハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めＨＤＤやフラッシュメモリなどの記憶装置（非一過性の記憶媒体を備える記憶装置）に格納されていてもよいし、ＤＶＤやＣＤ−ＲＯＭなどの着脱可能な記憶媒体（非一過性の記憶媒体）に格納されており、記憶媒体がドライブ装置に装着されることでインストールされてもよい。

エージェントサーバ２００は、記憶部２５０を備える。記憶部２５０は、上記の各種記憶装置により実現される。記憶部２５０には、パーソナルプロファイル２５２、辞書ＤＢ（データベース）２５４、知識ベースＤＢ２５６、応答規則ＤＢ２５８などのデータやプログラムが格納される。

エージェント装置１００において、エージェント機能部１５０は、音声ストリーム、或いは圧縮や符号化などの処理を行った音声ストリームを、エージェントサーバ２００に送信する。エージェント機能部１５０は、ローカル処理（エージェントサーバ２００を介さない処理）が可能な音声コマンドを認識した場合は、音声コマンドで要求された処理を行ってよい。ローカル処理が可能な音声コマンドとは、エージェント装置１００が備える記憶部（不図示）を参照することで回答可能な音声コマンドであったり、エージェント機能部１５０−１の場合は車両機器５０を制御する音声コマンド（例えば、空調装置をオンにするコマンドなど）であったりする。従って、エージェント機能部１５０は、エージェントサーバ２００が備える機能の一部を有してもよい。

エージェント装置１００は、音声ストリームを取得すると、音声認識部２２０が音声認識を行ってテキスト化された文字情報を出力し、自然言語処理部２２２が文字情報に対して辞書ＤＢ２５４を参照しながら意味解釈を行う。辞書ＤＢ２５４は、文字情報に対して抽象化された意味情報が対応付けられたものである。辞書ＤＢ２５４は、同義語や類義語の一覧情報を含んでもよい。音声認識部２２０の処理と、自然言語処理部２２２の処理は、段階が明確に分かれるものではなく、自然言語処理部２２２の処理結果を受けて音声認識部２２０が認識結果を修正するなど、相互に影響し合って行われてよい。

自然言語処理部２２２は、例えば、認識結果として、「今日の天気は」、「天気はどうですか」等の意味が認識された場合、標準文字情報「今日の天気」に置き換えたコマンドを生成する。これにより、リクエストの音声に文字揺らぎがあった場合にも要求にあった対話をし易くすることができる。また、自然言語処理部２２２は、例えば、確率を利用した機械学習処理等の人工知能処理を用いて文字情報の意味を認識したり、認識結果に基づくコマンドを生成したりしてもよい。

対話管理部２２４は、自然言語処理部２２２の処理結果（コマンド）に基づいて、パーソナルプロファイル２５２や知識ベースＤＢ２５６、応答規則ＤＢ２５８を参照しながら車両Ｍの利用者に対する発話の内容を決定する。パーソナルプロファイル２５２は、利用者ごとに保存されている利用者の個人情報、趣味嗜好、過去の対話の履歴などを含む。知識ベースＤＢ２５６は、物事の関係性を規定した情報である。応答規則ＤＢ２５８は、コマンドに対してエージェントが行うべき動作（回答や機器制御の内容など）を規定した情報である。

また、対話管理部２２４は、音声ストリームから得られる特徴情報を用いて、パーソナルプロファイル２５２と照合を行うことで、利用者を特定してもよい。この場合、パーソナルプロファイル２５２には、例えば、音声の特徴情報に、個人情報が対応付けられている。音声の特徴情報とは、例えば、声の高さ、イントネーション、リズム（音の高低のパターン）等の喋り方の特徴や、メル周波数ケプストラム係数（Mel Frequency Cepstrum Coefficients）等による特徴量に関する情報である。音声の特徴情報は、例えば、利用者の初期登録時に所定の単語や文章等を利用者に発声させ、発声させた音声を認識することで得られる情報である。

対話管理部２２４は、コマンドが、ネットワークＮＷを介して検索可能な情報を要求するものである場合、ネットワーク検索部２２６に検索を行わせる。ネットワーク検索部２２６は、ネットワークＮＷを介して各種ウェブサーバ５００にアクセスし、所望の情報を取得する。「ネットワークＮＷを介して検索可能な情報」とは、例えば、車両Ｍの周辺にあるレストランの一般ユーザによる評価結果であったり、その日の車両Ｍの位置に応じた天気予報であったりする。

応答文生成部２２８は、対話管理部２２４により決定された発話の内容が車両Ｍの利用者に伝わるように、応答文を生成し、生成した応答文をエージェント装置１００に送信する。応答文生成部２２８は、利用者がパーソナルプロファイルに登録された利用者であることが特定されている場合に、利用者の名前を呼んだり、利用者の話し方に似せた話し方にした応答文を生成したりしてもよい。なお、対話管理部２２４が、利用者に音楽を提供すると決定した場合、応答文生成部２２８の処理は省略され、ネットワーク検索部２２６の検索結果に基づいて得られた楽曲の情報がエージェント機能部１５０に提供される。以下、応答文と、楽曲などの利用者に提供される情報とを区別しない場合は、「応答情報」と称する場合がある。

エージェント機能部１５０は、応答文を取得すると、音声合成を行って音声を出力するように音声制御部１１８に指示する。また、エージェント機能部１５０は、音声出力に合わせてエージェントの画像を表示するように表示制御部１１６に指示する。このようにして、仮想的に出現したエージェントが車両Ｍの利用者に応答するエージェント機能が実現される。

［連携処理の概要］
汎用端末装置７０（外部端末）とエージェント装置１００とが連携することで、エージェントが乗員にサービスを提供する。図８は、汎用端末装置７０とエージェント装置１００とが利用される場面の一例を示す図である。例えば、車両Ｍの乗員が連携アプリ７９を起動させると、汎用通信装置７０はエージェント装置１００と連携する。そして、乗員が汎用端末装置７０のマイク７３に音声を入力すると、エージェント装置１００は、連携している汎用端末装置７０から入力された音声を取得し、取得した情報に基づいて、表示・操作装置２０、スピーカユニット３０、汎用端末装置７０の表示部７１、または汎用端末装置７０のスピーカ７２のうち、一以上の機能構成にエージェントを出現させる。「出現」とは、乗員が認識することが可能な態様でエージェントが現れることである。「出現」とは、例えば、エージェントが音声としてスピーカにより出力されたり、エージェント画像が表示部に表示されたりすることである。

表示・操作装置２０に含まれる表示部は、「第１表示部」の一例である。汎用通信装置７０に含まれる表示部は、「第２表示部」の一例である。なお、第２表示部は、汎用通信装置７０とは異なる装置に含まれてもよい。

また、第１ディスプレイ２２または第２ディスプレイ２４は、「視認者を制限しないような態様で設けられた第１表示部」の一例である。汎用通信装置７０は、「音声による入力を受け付ける第１端末」の一例である。汎用通信装置７０の表示部７１または不図示の他の表示部は「視認者を第１端末が受け付けた音声を入力した利用者に制限するような態様で設けられた第２表示部」の一例である。

例えば、乗員は、自身が入力した音声に応じて出現したエージェントや、エージェントが提供するサービスを、他の乗員に知られたくない場合がある。その場合、下記のような連携処理が適用される。

［連携処理のフローチャート］
図９は、汎用端末装置７０とエージェント装置１００とにより実行される処理の流れの一例を示すフローチャート（その１）である。まず、汎用通信装置７０が、連携アプリ７９が起動したか否かを判定する（ステップＳ１００）。連携アプリ７９が起動した場合、制御部７７が、エージェント装置１００に連携を要求する（ステップＳ１０２）。

エージェント装置１００は、制御部７７の連携の要求を受信したか否かを判定する（ステップＳ２００）。制御部７７の連携の要求を受信した場合、エージェント装置１００は、連携の要求に応じて連携を承諾し、承諾したことを示す情報を汎用通信装置７０に送信する（ステップＳ２０２）。これにより、汎用通信装置７０とエージェント装置１００とが連携する。連携によって、汎用通信装置７０に入力された音声がエージェント装置１００に送信されたり、エージェントが汎用通信装置７０に出現したりする。

次に、汎用通信装置７０は、乗員の発話が入力されたか否かを判定する（ステップＳ１０４）。乗員の発話が入力されたと判定した場合、汎用通信装置７０は、発話に基づく情報をエージェント装置１００に送信する（ステップＳ１０６）。発話に基づく情報は、音響処理が行われた音声ストリームであってもよいし、音響処理前の情報であってもよい。音響処理前の情報が送信される場合、エージェント装置１００が、発話に基づく情報に対して音響処理を行う。エージェント装置１００は、ステップＳ１０６で送信された発話に基づく情報を取得した場合、エージェントサーバ２００に発話に基づく情報を送信して、エージェントサーバ２００から応答情報を取得する。

また、発話に基づく情報には、汎用通信装置７０に入力された音声の大きさを示す情報または音声の大きさを導出するための情報が含まれる。なお、汎用通信装置７０が、音声の大きさを示す情報を導出してもよいし、エージェント装置１００が、音声の大きさを示す情報を導出してもよい。以下、音声の大きさを示す情報を「発話音圧Ｄ１」と称する。

発話音圧Ｄ１が、エージェント装置１００に代えて、汎用通信装置７０において取得される場合、汎用通信装置７０が、発話音圧Ｄ１の情報をエージェント装置１００に送信する。そして、エージェント装置１００が、後述するように汎用通信装置７０により送信された発話音圧Ｄ１が閾値音圧Ｔｈ１以上であるか否かを判定する。

エージェント装置１００は、発話音圧Ｄ１が閾値音圧Ｔｈ１以上であるか否を判定する（ステップＳ２０４）。発話音圧Ｄ１が閾値音圧Ｔｈ１以上である場合、エージェント装置１００は、エージェント画像を表示・操作装置２０（車室内の表示部）に表示させる（ステップＳ２０６）。次に、エージェント装置１００は、スピーカユニット３０を用いてエージェントに応答情報を出力させる（ステップＳ２０８）。すなわち、エージェント装置１００は、汎用通信装置７０と連携し、汎用通信装置７０が受け付けた音声に応じて、音声による応答を含むサービスを乗員に提供する。また、エージェント装置１００は、汎用通信装置７０と連携し、汎用通信装置７０が受け付けた閾値音圧Ｔｈ１以上の音声に応じて、エージェントを車室内の表示部に表示させ、エージェントを汎用通信装置７０に出現させる制御を実行させない。以下、エージェント装置１００が、ステップＳ２０６、およびステップＳ２０８のようにエージェントを出現させる制御を「通常出現制御」と称する場合がある。

図１０は、エージェントが通常出現制御により出現した様子の一例を示す図である。図示する例では、第２ディスプレイ２４およびスピーカユニット３０においてエージェントが出現している。なお、第２ディスプレイ２４に、代えて（加えて）第１ディスプレイ２２においてエージェントが出現してもよい。すなわち、エージェント装置１００は、通常出現制御を実行する場合（後述するプライベート出現制御を実行しない場合）、エージェントを車室内の表示部に表示させる。

例えば、エージェント装置１００は、汎用通信装置７０にエージェントを出現させてもよい。この場合、エージェント装置１００は、汎用通信装置７０にエージェントを出現させることを指示する。図１１は、エージェントが通常出現制御により出現した様子の他の一例を示す図である。図示する例では、第２ディスプレイ２４およびスピーカユニット３０に加えて、汎用通信装置７０の表示部７１、およびスピーカ７２にエージェントが出現している。

上記のように、乗員は、汎用通信装置７０を利用して、エージェントを出現させることができるため、乗員の利便性が向上する。

図９の説明に戻る。発話音圧Ｄ１が閾値音圧Ｔｈ１以上でない場合（発話音圧Ｄ１が閾値音圧Ｔｈ１未満である場合）、エージェント装置１００は、エージェント画像を汎用通信装置７０の表示部７１に表示させる（ステップＳ２１０）。すなわち、エージェント装置１００は、音声による入力を受け付ける外部端末が受け付けた音声の大きさに基づいて、第２表示部にエージェント画像を表示させる。次に、エージェント装置１００は、汎用通信装置７０に応答情報を出力させる（ステップＳ２１２）。換言すると、エージェント装置１００は、エージェントを汎用通信装置７０のスピーカ７２の音声によって出現させる。例えば、エージェント装置１００は、汎用通信装置７０に、応答情報や、応答情報を出力することを指示する情報、表示部７１にエージェント画像を表示させることを指示する情報を汎用通信装置７０に送信する。汎用通信装置７０は、エージェント装置１００により送信された情報に基づいて、ステップＳ２１０またはステップＳ２１２の処理を行う。以下、エージェント装置１００が、ステップＳ２１０、およびステップＳ２１２のように汎用通信装置７０にエージェントを出現させる制御を「プライベート出現制御（特定制御）」と称する場合がある。

図１２は、エージェントがプライベート出現制御により出現した様子の一例を示す図である。図示する例では、車室内の表示部およびスピーカユニット３０にはエージェントが出現せず、汎用通信装置７０の表示部７１、およびスピーカ７２にエージェントが出現している。すなわち、エージェント装置１００は、汎用通信装置７０が受け付けた音声の大きさが閾値音圧Ｔｈ１未満である場合、汎用通信装置７０の表示部７１にエージェント画像を表示させるためのプライベ−ト出現制御を実行する。これにより汎用通信装置７０がエージェント画像を表示部７１に表示させる処理を実行する。また、エージェント装置１００は、汎用通信装置７０が受け付けた音声の大きさが閾値音圧Ｔｈ１未満である場合（プライベート制御を実行させる場合）、車室内の表示部にエージェント画像を表示させない。

上記のように、乗員が、例えば小声で汎用通信装置７０に音声を入力した場合、他の乗員にエージェントの出現や応答情報等が知られることを抑制することができるので、乗員にとってエージェントは使い勝手がよい。

上述したように、エージェントが通常出現制御またはプライベート出現制御が実行した後、（１）通常出現制御またはプライベート出現制御が継続されてもよいし、（２）次に取得した発話の発話音圧Ｄ１の大きさが閾値音圧Ｔｈ１以上であるか否かの判定結果に基づいて、いずれの態様でエージェントが出現するかが決定されてもよい。

例えば、上記の（１）のように、プライベート出現制御が継続されるものと仮定する。この場合において、プライベート出現制御が実行された場合、以下の特定コマンド処理が開始される。

図１３は、汎用通信装置７０とエージェント装置１００とにより実行される特定コマンド処理の流れの一例を示すフローチャート（その２）である。まず、汎用通信装置７０が、特定コマンド（指示情報）が入力されたか否かを判定する（ステップＳ３００）。例えば、特定コマンドの入力は、特定コマンドに対応する音声の入力または汎用端末装置７０に対する所定の操作によって実行される。特定コマンドが入力されたと判定した場合、汎用通信装置７０は、特定コマンドが入力されたことを示す情報をエージェント装置１００に送信する（ステップＳ３０２）。

次に、エージェント装置１００は、特定コマンドが入力されたか否かを判定する（ステップＳ４００）。特定コマンドが入力されたと判定した場合、エージェント装置１００は、プライベート出現制御を解除して、通常出現制御を実行する（ステップＳ４０２）。すなわち、エージェント装置１００は、汎用通信装置７０にプライベート制御を実行させている場合において、汎用通信装置７０により送信された特定コマンドに応じて、車室内の表示部にエージェントを出現させる。これにより、本フローチャートの処理が終了する。

上述した処理により、乗員の意思に応じて、エージェントが出現するため、乗員の満足度が向上する。

以上説明した第１実施形態によれば、エージェント装置１００は、汎用通信装置７０が受け付けた音声の大きさが閾値音圧Ｔｈ１未満である場合、汎用通信装置７０の表示部７１にエージェント画像を表示させるためのプライベート制御を実行することにより、エージェントの使い勝手を向上させることができる。

＜第２実施形態＞
以下、第２実施形態について説明する。第２実施形態では、エージェント装置１００は、発話音圧Ｄ１が閾値音圧Ｔｈ１以上であるか否かの判定に加え、乗員の発話が車室内のマイク１０に入力されたか否かを判定し、判定結果を用いてエージェントの出現態様を決定する。以下、第１実施形態との相違点を中心に説明する。

図１４は、第２実施形態の汎用端末装置７０とエージェント装置１００とにより実行される処理の流れの一例を示すフローチャートである。図９のフローチャートの処理との相違点について説明する。

ステップＳ２０４で、発話音圧Ｄ１が閾値音圧Ｔｈ１以上でない場合（発話音圧Ｄ１が閾値音圧Ｔｈ１未満である場合）、エージェント装置１００は、車室内のマイク１０が、音声を認識したか否かを判定する（ステップＳ２０９）。車室内のマイク１０（「受付部」の一例）とは、車室内に設けられたいずれかのマイクであってもよいし、所定のマイク１０であってもよい。

例えば、所定のマイク１０は、汎用通信装置７０に発話を入力した乗員が着座している座席付近に設けられたマイクであってもよい。例えば、エージェント装置１００は、乗員認識装置８０の着座センサの検知結果と、汎用通信装置７０とエージェント装置１００との通信結果とに基づいて、乗員の着座位置を特定する。通信結果とは、汎用通信装置７０が出力する電波に基づいて推定される汎用通信装置７０が存在する方向である。エージェント装置１００は、汎用通信装置７０が出力する電波の受信結果に基づいて、電波の出力元である汎用通信装置７０が存在する方向を特定する。

ステップＳ２０９で、車室内のマイク１０が音声を認識した場合、ステップＳ２０６の処理に進む。すなわち、エージェント装置１００は、汎用通信装置７０が受け付けた音声の大きさが閾値音圧Ｔｈ未満である場合であっても、音声の入力を受け付ける車室内のマイク１０が音声を受け付けた場合は、エージェント画像を車室内の表示部に表示させる。ステップＳ２０９で、車室内のマイク１０が音声を認識しなかった場合、ステップＳ２１０の処理に進む。

なお、ステップＳ２０９において、車室内のマイク１０が音声を認識したか否かの判定に代えて、エージェント装置１００は、乗員が汎用通信装置７０に入力した発話の内容を、車室内のマイク１０を介して取得した音声に基づいて認識できたか否かを判定してもよい。例えば、乗員が、汎用通信装置７０に、「〇〇について教えて」と入力したものとする。この入力された発話の発話音圧Ｄ１は、閾値音圧Ｔｈ１未満であるものとする。この場合、エージェント装置１００は、車室内のマイク１０を介して乗員の発話の音声を取得し、取得した音声に基づいて「〇〇について教えて」という発話の内容を認識した場合、ステップＳ２０６の処理に進み、発話の内容を認識でなかった場合、ステップＳ２１０の処理に進んでもよい。

例えば、連携アプリ７９が起動した状態の汎用通信装置７０が、乗員から第１の距離の位置に存在し、音声を受け付けるマイク１０が、乗員から第２の距離の位置に存在する場合がある。第１の距離は、第２の距離よりも短い距離である。このような場合、乗員がマイク１０に音声を入力して通常出現制御の実行を意図したときでも、汎用通信装置７０が受け付けた音声の大きさが閾値音圧Ｔｈ１未満であり、且つマイク１０が音声を受け付ける場合がある。この際に、エージェント装置１００は、通常出現制御を実行するため、乗員の意図した実現される。

以上説明した第２実施形態によれば、エージェント装置１００が、汎用通信装置７０が受け付けた音声の大きさが閾値音圧Ｔｈ１未満である場合であっても、マイク１０が音声を受け付けた場合は、エージェント画像を車室内の表示部に表示させることにより、エージェントの使い勝手を向上させることができる。

＜第３実施形態＞
以下、第３実施形態について説明する。第３実施形態では、エージェント装置１００は、着目する乗員が使用するために設けられたマイクに入力された音声に基づいて、エージェントの出現態様を決定する。以下、第１実施形態および第２実施形態との相違点を中心に説明する。

図１５は、第３実施形態の車両Ｍ１のマイク１０およびディスプレイの配置の一例を示す図である。例えば、車両Ｍ１の車室内には、第１実施形態および第２実施形態の機能構成に加え、更に、マイク１０−１と、マイク１０−２と、ディスプレイ２９が設けられている。マイク１０−２は、「受付部」の他の一例である。

第１ディスプレイ２２または第２ディスプレイ２４は、「視認者を制限しないような態様で設けられた第１表示部」の一例である。エージェン装置１００またはマイク１０−１は、「音声による入力を受け付ける第１端末」の他の一例である。ディスプレイ２９または不図示の他の表示部は「視認者を第１端末が受け付けた音声を入力した利用者に制限するような態様で設けられた第２表示部」の他の一例である。

マイク１０−１は、着目する乗員が使用するために設けられたマイクである。マイク１０−１は、例えば、着目する乗員が着座した座席付近に設けられる。図１５の例では、乗員は左側後部座席ＢＳ２に着座しているものとする。この場合、左側後部座席ＢＳ２の近傍に設けられたマイクがマイク１０−１である。例えば、助手席ＡＳに着座した乗員が着目する乗員である場合、助手席ＡＳ２の近傍に設けられたマイクがマイク１０−１である。マイク１０−１は、例えば、着目する乗員が着座した座席に最も近いドア付近や、着目する乗員が着座した座席の前方、着目する乗員が着座した座席の天井などに設けられる。また、マイク１０−１は、乗員の口元にマイクを近づけさせるようにケーブルによって車両に接続されてもよい。これにより、乗員は、マイク１０−１を口付近に近づけて、発話を入力することができる。

マイク１０−２は、着目する乗員が使用するための設けられたマイクとは異なるマイクである。マイク１０−２は、例えば、着目する乗員が着座した座席付近とは異なる箇所に設けられる。図１５の例では、マイク１０−２は、車両Ｍ１のインストルメントパネルにおける運転席ＤＳと助手席ＡＳとの中間近傍に設けられている。

ディスプレイ２９は、着目する乗員が視認可能な位置であり、他の乗員が視認しにくい位置に設けられる。ディスプレイ２９は、例えば、図１４の例では、助手席ＡＳの座席の背もたれの後側であって、左側後部座席ＢＳ２に乗員が着座した際に乗員と対面する位置に設けられている。

図１６は、第３実施形態のエージェント装置１００により実行される処理の流れの一例を示すフローチャートである。まず、エージェント装置１００は、エージェント機能部１５０が起動したか否かを判定する（ステップＳ５００）。エージェント機能部１５０が起動した場合、エージェント装置１００は、着目する乗員に対応して設定されたマイク１０−１に発話が入力されたか否を判定する（ステップＳ５０２）。マイク１０−１に発話が入力されたと判定した場合、エージェント装置１００は、入力された発話の発話音圧Ｄ１が閾値音圧Ｔｈ１以上であるか否かを判定する（ステップＳ５０４）。

入力された発話の発話音圧Ｄ１が閾値音圧Ｔｈ１以上である場合、エージェント装置１００は、第１ディスプレイ２２、または第２ディスプレイ２４にエージェント画像を表示させ（ステップＳ５０６）、スピーカユニット３０を用いてエージェントに応答情報を出力させる（ステップＳ５０８）。例えば、車室内の乗員がエージェントの出現を認識するように、スピーカユニット３０の一部または全部にエージェントを出現させる。ステップＳ５０６、およびステップＳ５０８の処理は、「通常出現制御」の他の一例である。

発話音圧Ｄ１が閾値音圧Ｔｈ１以上でない場合（発話音圧Ｄ１が閾値音圧Ｔｈ１未満である場合）、エージェント装置１００は、着目する乗員に対応して設定されたマイク１０−１とは異なるマイク１０−２に発話が入力されたか否かを判定する（ステップＳ５１０）。マイク１０−２に発話が入力されたと判定した場合、ステップＳ５０６の処理に進む。

マイク１０−２に発話が入力されていない場合、エージェント装置１００は、エージェント画像をディスプレイ２９に表示させ（ステップＳ５１２）、着目する乗員に対応して設定されたスピーカユニット３０を用いてエージェントに応答情報を出力させる（ステップＳ５１４）。着目する乗員に対応して設定されたスピーカユニット３０は、例えば、スピーカ３０Ｆである。図１７は、第３実施形態においてプライベート出現制御が行われた様子の一例を示す図である。ステップＳ５１２、およびステップＳ５１４の処理は、「プライベート出現制御」の他の一例である。例えば、スピーカ３０Ｆが出力する音は、左側後部座席ＢＳ２に着座した乗員には聞こえ、他の座席に着座した乗員には聞こえない程度の大きさの音である。また、スピーカ３０Ｆが出力する音は、他の座席に着座した乗員が音に含まれる情報の意味を認識できないような大きさの音であってもよい。

以上説明した第３実施形態によれば、エージェント装置１００は、着目する乗員が使用するために設けられたマイクに入力された音声に基づいて、エージェントの出現態様を決定することにより、汎用通信装置７０を使用しなくても、第１実施形態と同様の効果を奏することができる。

＜第４実施形態＞
以下、第４実施形態について説明する。第４実施形態では、エージェント装置が、乗員の自宅や所定の施設、所定の位置など車両とは異なる位置に設けられる。以下、第１実施形態との相違点を中心に説明する。

図１８は、自宅に設けられたエージェント装置１００Ａの一例を示す図である。エージェント装置１００Ａは、例えば、乗員の自宅や、所定の施設、または所定位置に設けられた据え置き型の装置である。すなわち、エージェント装置１００Ａに含まれる後述する表示部１０５（「第１表示部」の一例）または後述するマイク１０２（「受付部」の他の一例）は、施設または所定の位置に設けられた据え置き型である。据え置き型とは、移動可能であるが施設内など限られた範囲において使用されることが前提であることである。後述するマイク１０２は「受付部」の一例である。

また、後述する表示部１０５は、「視認者を制限しないような態様で設けられた第１表示部」の他の一例である。汎用通信装置７０は、「音声による入力を受け付ける第１端末」の一例である。汎用通信装置７０の表示部７１または不図示の他の表示部は「視認者を第１端末が受け付けた音声を入力した利用者に制限するような態様で設けられた第２表示部」の一例である。

エージェント装置１００Ａは、例えば、マイク１０２と、表示・操作部１０４と、スピーカユニット１０６と、管理部１１０と、エージェント機能部１５０と、ペアリングアプリ実行部１５２とを備える。音響処理部１１２は、マイク１０２に入力された音声に対して音響処理を行う。表示制御部１１６は、エージェント機能部１５０による指示に応じて表示・操作部１０４に含まれる表示部１０５に画像を表示させる。音声制御部１１８は、エージェント機能部１５０による指示に応じて、スピーカユニット１０６に含まれるスピーカのうち一部または全部に音声を出力させる。

汎用通信装置７０に乗員の発話が入力されたと判定した場合、汎用通信装置７０は、発話に基づく情報をエージェント装置１００に送信する。エージェント装置１００は、汎用通信装置７０から取得した発話の発話音圧Ｄ１が閾値音圧Ｔｈ１以上であるか否を判定する。発話音圧Ｄ１が閾値音圧Ｔｈ１以上である場合、エージェント装置１００は、エージェント画像を表示・操作装置１０４の表示部１０５に表示させ、スピーカユニット１０６にエージェントを出現させる。すなわち「通常出現制御」が実行される。

発話音圧Ｄ１が閾値音圧Ｔｈ１以上でない場合（発話音圧Ｄ１が閾値音圧Ｔｈ１未満である場合）、エージェント装置１００は、エージェント画像を汎用通信装置７０の表示部７１に表示させ、汎用通信装置７０に応答情報を出力させる。すなわち「プライベート出現制御」の処理が行われる。

以上説明した第４実施形態によれば、エージェント装置１００が、車両以外の場所で使用される場合であっても、第１実施形態と同様の効果を奏することができる。

＜第５実施形態＞
以下、第５実施形態について説明する。第５実施形態では、エージェント装置に代えて、汎用通信装置７０が、発話音圧Ｄ１が閾値音圧Ｔｈ１以上であるか否かを判定し、判定結果に基づいてエージェントの出現態様を決定する。以下、第２実施形態との相違点を中心に説明する。

図１９は、汎用端末装置７０とエージェント装置１００とにより実行される処理の流れの一例を示すフローチャートである。図１９のステップＳ６００〜Ｓ６０４、ステップＳ７００、Ｓ７０２の処理は、図９のステップＳ１００〜Ｓ１０４、ステップＳ２００、Ｓ２０２の処理と同様であるため説明を省略する。

ステップＳ６０４で乗員の発話が入力されたと判定した場合、汎用通信装置７０は、入力された発話の発話音圧Ｄ１を取得する（ステップＳ６０６）。次に、汎用通信装置７０は、発話に基づく情報をエージェント装置１００に送信する（ステップＳ６０８）。

エージェント装置１００は、マイク１０２が音声を認識したか否かを判定する（ステップＳ７０４）。マイク１０２が音声を認識した場合、エージェント装置１００は、車室内の表示部にエージェント画像を表示させ（ステップ７０６）、スピーカユニット３０を用いてエージェントに応答情報を出力させる（ステップＳ７０８）。すなわち「通常出現制御」が実行される。

マイク１０２が音声を認識しなかった場合、エージェント装置１００は、ステップＳ７０４の判定結果を汎用通信装置７０に送信する（ステップＳ７１０）。ステップＳ７１０において、例えばステップＳ７０４の判定結果に加え、応答情報も汎用通信装置７０に送信される。なお、エージェント装置１００は、ステップＳ６０８で送信された情報を取得した後、取得した情報に応じた応答情報をエージェンサーバ２００から取得している。

汎用通信装置７０は、ステップＳ７１０により送信された判定結果に基づいて、マイク１０２が音声を認識したか否かを判定する（ステップＳ６１０）。マイク１０２が音声を認識している場合、ステップＳ６１２〜Ｓ６１６の処理をスキップする。

マイク１０２が音声を認識していない場合、汎用通信装置７０は、発話音圧Ｄ１が閾値音圧Ｔｈ１以上であるか否を判定する（ステップＳ６１２）。発話音圧Ｄ１が閾値音圧Ｔｈ１以上である場合、汎用通信装置７０が、出力指示をエージェント装置１００に送信して、エージェント装置１００が、ステップＳ７０６、Ｓ７０８の処理を行う。

発話音圧Ｄ１が閾値音圧Ｔｈ１以上でない場合（発話音圧Ｄ１が閾値音圧Ｔｈ１未満である場合）、汎用通信装置７０は、エージェント画像を汎用通信装置７０の表示部７１に表示させ（ステップＳ６１４）、汎用通信装置７０のスピーカ７２を用いてエージェントに応答情報を出力させる（ステップＳ６１６）。すなわち「プライベート出現制御」が実行される。

以上説明した第５実施形態によれば、汎用通信装置７０が、発話音圧Ｄ１が閾値音圧Ｔｈ１以上であるか否かの判定を行うことにより、エージェン装置１００における処理負荷が軽減する。

なお、上記の各実施形態の機能の一部は、他の装置に含まれてもよいし、上記の各フローチャートの処理の一部は省略されてもよいし、各処理の順序は入れ替えられてもよい。また、各実施形態の処理や機能構成は、組み合わされて適用されてもよい。

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

１‥エージェントシステム、２０‥表示・操作装置、３０‥スピーカユニット、７０‥汎用通信装置、７１‥表示部、７９‥連携アプリ７９、１００、１００Ａ、１００Ｂ‥エージェント装置、１１０‥管理部、１１５‥連携制御部１１５、１１６‥表示制御部、１１８‥音声制御部、１３０‥記憶部、１２２‥判定部、１５０‥エージェント機能部、２００‥エージェントサーバ

Claims

音声に応じて、音声による応答を含むサービスを提供するエージェントが起動している場合にエージェント画像を第１表示部に表示させる表示制御部と、
音声による入力を受け付ける外部端末が受け付けた音声の大きさに基づいて、第２表示部に前記エージェント画像を表示させる特定制御を実行する制御部と、
を備えるエージェント装置。
前記制御部は、音声による入力を受け付ける外部端末が受け付けた音声の大きさが所定の大きさ未満である場合に、前記第２表示部に前記特定制御を行う、
請求項１に記載のエージェント装置。
前記第２表示部は前記外部端末が有する、
請求項１または２に記載のエージェント装置。
前記表示制御部は、前記制御部が特定制御を実行する場合、前記エージェント画像を前記第１表示部に表示させない、
請求項１から３のうちいずれか１項に記載のエージェント装置。
前記表示制御部は、前記制御部が特定制御を実行しない場合、前記エージェント画像を前記第１表示部に表示させる、
請求項１から４のうちいずれか１項に記載のエージェント装置。
前記制御部は、前記外部端末が受け付けた音声の大きさが所定の大きさ未満である場合であっても、音声の入力を受け付ける受付部が音声を受け付けた場合は、前記エージェント画像を前記第１表示部に表示させる、
請求項１から５のうちいずれか１項に記載のエージェント装置。
前記受付部は、車両、施設、または所定位置に設けられた据え置き型のマイクである、
請求項６に記載のエージェント装置。
前記第１表示部は、車両、施設、または所定位置に設けられた据え置き型の表示部である、
請求項１から７のうちいずれか１項に記載のエージェント装置。
前記外部端末は、携帯式の端末装置である、
請求項１から８のうちいずれか１項に記載のエージェント装置。
前記表示制御部は、
前記制御部が前記特定制御を実行している場合において、
前記外部端末により送信された指示情報に応じて、前記エージェント画像を前記第１表示部に表示させる、
請求項１から９のうちいずれか１項に記載のエージェント装置。
前記エージェント装置は、前記外部端末と連携し、
前記エージェントは、前記外部端末が受け付けた音声に応じて、音声による応答を含むサービスを提供する、
請求項１から９のうちいずれか１項に記載のエージェント装置。
前記エージェント装置は、前記外部端末と連携し、
前記表示制御部は、前記外部端末が受け付けた所定の大きさ以上の音声に応じて、前記エージェント画像を前記第１表示部に表示させ、
前記制御部は、前記外部端末が受け付けた所定の大きさ以上の音声に応じて、前記特定制御を実行しない、
請求項１から１１のうちいずれか１項に記載のエージェント装置。
音声に応じて、音声による応答を含むサービスを提供するエージェントが起動している場合に、視認者を制限しないような態様で設けられた第１表示部にエージェント画像を表示させる表示制御部と、
音声による入力を受け付ける第１端末が受け付けた音声の大きさが所定の大きさ未満である場合、視認者を前記第１端末が受け付けた音声を入力した利用者に制限するような態様で設けられた第２表示部にエージェント画像を表示させるための特定制御を実行する制御部と、
を備えるエージェント装置。
コンピュータに
音声による入力を受け付ける受付部に音声を受け付けさせ、
前記受付部に受け付けさせた音声に基づく情報をエージェント装置に送信させ、
前記送信させた音声に基づく情報に応じて、エージェント装置から取得した特定制御の指示に基づいて、第１の特定表示部にエージェント画像を出現させる、
アプリケーションプログラムと、
音声に応じて、音声による応答を含むサービスを提供するエージェントが起動している場合にエージェント画像を第２の特定表示部に表示させる表示制御部、および
前記受付部が受け付けた音声の大きさが所定の大きさ未満である場合、第２特定表示部に前記エージェント画像を表示させるための前記特定制御を前記コンピュータに実行させる制御部、を備えるエージェント装置と
を含むエージェントシステム。
コンピュータが、
音声に応じて、音声による応答を含むサービスを提供するエージェントが起動している場合にエージェント画像を第１表示部に表示させ、
音声による入力を受け付ける外部端末が受け付けた音声の大きさに基づいて、第２表示部に前記エージェント画像を表示させるための特定制御を実行させる、
エージェントの制御方法。
コンピュータに、
音声に応じて、音声による応答を含むサービスを提供するエージェントが起動している場合にエージェント画像を第１表示部に表示させ、
音声による入力を受け付ける外部端末が受け付けた音声の大きさに基づいて、第２表示部に前記エージェント画像を表示させるための特定制御を実行させる、
プログラム。