JP2020152298A

JP2020152298A - エージェント装置、エージェント装置の制御方法、およびプログラム

Info

Publication number: JP2020152298A
Application number: JP2019054367A
Authority: JP
Inventors: 真也安原; Shinya Yasuhara; 俊克倉持; Toshikatsu Kuramochi; 基嗣久保田; Mototsugu Kubota; 正樹栗原; Masaki Kurihara
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2019-03-22
Filing date: 2019-03-22
Publication date: 2020-09-24

Abstract

【課題】エージェント機能をより自然に起動させることができるエージェント装置、エージェント装置の制御方法、およびプログラムを提供すること。【解決手段】車両の乗員の発話に応じて、音声による応答を含むサービスを提供するエージェント機能部と、前記乗員の発話を認識して、前記エージェント機能部を起動させる起動部と、を備えるエージェント装置であって、前記起動部は、前記乗員のウエイクアップワードを認識した場合と、前記乗員のウエイクアップワードとは異なる発話を含む所定の発話行為を認識した場合との双方において、前記エージェント機能部を起動させる、エージェント装置。【選択図】図２

Description

本発明は、エージェント装置、エージェント装置の制御方法、およびプログラムに関する。

従来、車両の乗員と対話を行いながら、乗員の要求に応じた運転支援に関する情報や車両の制御、その他のアプリケーション等を提供するエージェント機能に関する技術が開示されている（例えば、特許文献１参照）。

特開２００６−３３５２３１号公報

一般に、音声入力によりエージェントを起動させる場合、まずエージェントを起動させるきっかけとなる音声（以下、ウエイクアップワードと称する）の入力を要することが多い。その場合、ウエイクアップワードが認識されなければ、エージェントが起動されない。特に、乗員が１名であり車内に会話がない場合であってもウエイクアップワードが認識されなければ、エージェントが起動されず、使い勝手が悪い場合があった。

本発明は、このような事情を考慮してなされたものであり、利便性を向上させることができるエージェント装置、エージェント装置の制御方法、およびプログラムを提供することを目的の一つとする。

この発明に係るエージェント装置、エージェント装置の制御方法、およびプログラムは、以下の構成を採用した。
（１）：この発明の一態様に係るエージェント装置は、車両の乗員の発話に応じて、音声による応答を含むサービスを提供するエージェント機能部と、前記乗員の発話を認識して、前記エージェント機能部を起動させる起動部と、を備えるエージェント装置であって、前記起動部は、前記乗員のウエイクアップワードを認識した場合と、前記乗員のウエイクアップワードとは異なる発話を含む所定の発話行為を認識した場合との双方において、前記エージェント機能部を起動させるものである。

（２）：上記（１）の態様において、前記所定の発話行為とは、前記エージェント機能部に対する問いかけの内容を含む発話をし、前記発話の直後に基準時間の間、沈黙をする行為である。

（３）：上記（２）の態様において、前記乗員の発話の内容が記憶される記憶部を更に備え、前記所定の発話行為が認識されることで起動した前記エージェント機能部は、前記所定の発話行為に含まれる問いかけの内容を前記記憶部から読み出して、前記問いかけに応答するものである。

（４）：上記（２）または（３）の態様において、前記エージェント機能部は、複数のエージェント機能を制御するものである場合、前記起動部は、前記乗員の所定の発話行為を認識して前記エージェント機能部を起動させる場合、所定の判断基準に基づいて、複数の前記エージェント機能のうち起動させるエージェント機能を選択するものである。

（５）：上記（４）の態様において、前記起動部は、前記乗員の所定の発話行為を認識して前記エージェント機能部を起動させる場合、前記複数のエージェント機能のうち最後に起動したエージェント機能を優先的に起動させるものである。

（６）：上記（２）〜（５）の態様において、前記乗員の数を認識する乗員認識部をさらに備え、前記起動部は、前記乗員認識部により前記乗員の数が１人であると認識された場合、前記乗員の数が複数人であると認識された場合とは異なる判断基準を用いるものである。

（７）：上記（６）の態様において、前記起動部は、前記乗員認識部により前記乗員の数が複数人であると認識された場合、前記乗員の数が１人であると認識された場合の所定の発話行為に含まれる前記判断基準よりも、前記エージェント機能部を起動しにくい側に前記判断基準を変更するものである。

（８）：本発明の他の態様に係るエージェント装置の制御方法は、コンピュータが、車両の乗員の発話に応じて、音声による応答を含むサービスを提供するエージェント機能部と、前記乗員の発話を認識して、前記エージェント機能部を起動させる起動部と、を備えるエージェント装置の制御方法であって、前記起動部は、前記乗員のウエイクアップワードを認識した場合と、前記乗員のウエイクアップワードとは異なる発話を含む所定の発話行為を認識した場合との双方において、前記エージェント機能部を起動させるものである。

（９）：本発明の他の態様に係るプログラムは、コンピュータに、車両の乗員の発話を認識して、前記乗員のウエイクアップワードを認識した場合と、前記乗員のウエイクアップワードとは異なる発話を含む所定の発話行為を認識した場合との双方において、音声による応答を含むサービスを提供するエージェント機能部を起動させる処理と、前記乗員の発話に応じて、前記エージェント機能部によるサービスを提供させる処理と、を実行させるものである。

（１）〜（９）の態様によれば、エージェント機能の利便性を向上させることができる。

エージェント装置１００を含むエージェントシステム１の構成図である。実施形態に係るエージェント装置１００の構成と、車両Ｍに搭載された機器とを示す図である。表示・操作装置２０の配置例を示す図である。スピーカユニット３０の配置例を示す図である。エージェントサーバ２００の構成と、エージェント装置１００の構成の一部とを示す図である。エージェント装置１００による処理の流れの一例を示すフローチャートである。起動制御部１２０による処理を説明するための図である。

以下、図面を参照し、本発明のエージェント装置、エージェント装置の制御方法、およびプログラムの実施形態について説明する。エージェント装置は、エージェントシステムの一部または全部を実現する装置である。以下では、エージェント装置の一例として、車両（以下、車両Ｍ）に搭載され、複数種類のエージェント機能を備えたエージェント装置について説明する。エージェント機能とは、例えば、車両Ｍの乗員と対話をしながら、乗員の発話の中に含まれる要求（コマンド）に基づく各種の情報提供を行ったり、ネットワークサービスを仲介したりする機能である。複数種類のエージェントはそれぞれに果たす機能、処理手順、制御、出力態様・内容がそれぞれ異なってもよい。また、エージェント機能の中には、車両内の機器（例えば運転制御や車体制御に関わる機器）の制御等を行う機能を有するものがあってよい。

エージェント機能は、例えば、乗員の音声を認識する音声認識機能（音声をテキスト化する機能）に加え、自然言語処理機能（テキストの構造や意味を理解する機能）、対話管理機能、ネットワークを介して他装置を検索し、或いは自装置が保有する所定のデータベースを検索するネットワーク検索機能等を統合的に利用して実現される。これらの機能の一部または全部は、ＡＩ（Artificial Intelligence）技術によって実現されてよい。また、これらの機能を行うための構成の一部（特に、音声認識機能や自然言語処理解釈機能）は、車両Ｍの車載通信装置または車両Ｍに持ち込まれた汎用通信装置と通信可能なエージェントサーバ（外部装置）に搭載されてもよい。以下の説明では、構成の一部がエージェントサーバに搭載されており、エージェント装置とエージェントサーバが協働してエージェントシステムを実現することを前提とする。また、エージェント装置とエージェントサーバが協働して仮想的に出現させるサービス提供主体（サービス・エンティティ）をエージェントと称する。

＜全体構成＞
図１は、エージェント装置１００を含むエージェントシステム１の構成図である。エージェントシステム１は、例えば、エージェント装置１００と、複数のエージェントサーバ２００−１、２００−２、２００−３、…とを備える。符号の末尾のハイフン以下数字は、エージェントを区別するための識別子であるものとする。いずれのエージェントサーバであるかを区別しない場合、単にエージェントサーバ２００と称する場合がある。図１では３つのエージェントサーバ２００を示しているが、エージェントサーバ２００の数は２つであってもよいし、４つ以上であってもよい。それぞれのエージェントサーバ２００は、互いに異なるエージェントシステムの提供者が運営するものである。従って、本発明におけるエージェントは、互いに異なる提供者により実現されるエージェントである。提供者としては、例えば、自動車メーカー、ネットワークサービス事業者、電子商取引事業者、携帯端末の販売者や製造者などが挙げられ、任意の主体（法人、団体、個人等）がエージェントシステムの提供者となり得る。

エージェント装置１００は、ネットワークＮＷを介してエージェントサーバ２００と通信する。ネットワークＮＷは、例えば、インターネット、セルラー網、Ｗｉ−Ｆｉ網、ＷＡＮ（Wide Area Network）、ＬＡＮ（Local Area Network）、公衆回線、電話回線、無線基地局などのうち一部または全部を含む。ネットワークＮＷには、各種ウェブサーバ３００が接続されており、エージェントサーバ２００またはエージェント装置１００は、ネットワークＮＷを介して各種ウェブサーバ３００からウェブページを取得することができる。

エージェント装置１００は、車両Ｍの乗員と対話を行い、乗員からの音声をエージェントサーバ２００に送信し、エージェントサーバ２００から得られた回答を、音声出力や画像表示の形で乗員に提示する。

［車両］
図２は、実施形態に係るエージェント装置１００の構成と、車両Ｍに搭載された機器とを示す図である。車両Ｍには、例えば、一以上のマイク１０と、表示・操作装置２０と、スピーカユニット３０と、ナビゲーション装置４０と、車両機器５０と、車載通信装置６０と、乗員認識装置８０と、エージェント装置１００とが搭載される。また、スマートフォンなどの汎用通信装置７０が車室内に持ち込まれ、通信装置として使用される場合がある。これらの装置は、ＣＡＮ（Controller Area Network）通信線等の多重通信線やシリアル通信線、無線通信網等によって互いに接続される。なお、図２に示す構成はあくまで一例であり、構成の一部が省略されてもよいし、更に別の構成が追加されてもよい。

マイク１０は、車室内で発せられた音声を収集する収音部である。表示・操作装置２０は、画像を表示すると共に、入力操作を受付可能な装置（或いは装置群）である。表示・操作装置２０は、例えば、タッチパネルとして構成されたディスプレイ装置を含む。表示・操作装置２０は、更に、ＨＵＤ（Head Up Display）や機械式の入力装置を含んでもよい。スピーカユニット３０は、例えば、車室内の互いに異なる位置に配設された複数のスピーカ（音出力部）を含む。表示・操作装置２０は、エージェント装置１００とナビゲーション装置４０とで共用されてもよい。これらの詳細については後述する。

ナビゲーション装置４０は、ナビＨＭＩ（Human machine Interface）と、ＧＰＳ（Global Positioning System）などの位置測位装置と、地図情報を記憶した記憶装置と、経路探索などを行う制御装置（ナビゲーションコントローラ）とを備える。マイク１０、表示・操作装置２０、およびスピーカユニット３０のうち一部または全部がナビＨＭＩとして用いられてもよい。ナビゲーション装置４０は、位置測位装置によって特定された車両Ｍの位置から、乗員によって入力された目的地まで移動するための経路（ナビ経路）を探索し、経路に沿って車両Ｍが走行できるように、ナビＨＭＩを用いて案内情報を出力する。経路探索機能は、ネットワークＮＷを介してアクセス可能なナビゲーションサーバにあってもよい。この場合、ナビゲーション装置４０は、ナビゲーションサーバから経路を取得して案内情報を出力する。なお、エージェント装置１００は、ナビゲーションコントローラを基盤として構築されてもよく、その場合、ナビゲーションコントローラとエージェント装置１００は、ハードウェア上は一体に構成される。

車両機器５０は、例えば、エンジンや走行用モータなどの駆動力出力装置、エンジンの始動モータ、ドアロック装置、ドア開閉装置、窓、窓の開閉装置及び窓の開閉制御装置、シート、シート位置の制御装置、ルームミラー及びその角度位置制御装置、車両内外の照明装置及びその制御装置、ワイパーやデフォッガー及びそれぞれの制御装置、方向指示灯及びその制御装置、空調装置、走行距離やタイヤの空気圧の情報や燃料の残量情報などの車両情報装置などを含む。

車載通信装置６０は、例えば、セルラー網やＷｉ−Ｆｉ網を利用してネットワークＮＷにアクセス可能な無線通信装置である。

乗員認識装置８０は、例えば、着座センサ、車室内カメラ、画像認識装置などを含む。着座センサは座席の下部に設けられた圧力センサ、シートベルトに取り付けられた張力センサなどを含む。車室内カメラは、車室内に設けられたＣＣＤ（Charge Coupled Device）カメラやＣＭＯＳ（Complementary Metal Oxide Semiconductor）カメラである。画像認識装置は、車室内カメラの画像を解析し、座席ごとの乗員の有無、顔向きなどを認識する。本実施形態において、乗員認識装置８０は、「乗員認識部」の一例である。

図３は、表示・操作装置２０の配置例を示す図である。表示・操作装置２０は、例えば、第１ディスプレイ２２と、第２ディスプレイ２４と、操作スイッチＡＳＳＹ２６とを含む。表示・操作装置２０は、更に、ＨＵＤ２８を含んでもよい。

車両Ｍには、例えば、ステアリングホイールＳＷが設けられた運転席ＤＳと、運転席ＤＳに対して車幅方向（図中Ｙ方向）に設けられた助手席ＡＳとが存在する。第１ディスプレイ２２は、インストルメントパネルにおける運転席ＤＳと助手席ＡＳとの中間辺りから、助手席ＡＳの左端部に対向する位置まで延在する横長形状のディスプレイ装置である。第２ディスプレイ２４は、運転席ＤＳと助手席ＡＳとの車幅方向に関する中間あたり、且つ第１ディスプレイの下方に設置されている。例えば、第１ディスプレイ２２と第２ディスプレイ２４は、共にタッチパネルとして構成され、表示部としてＬＣＤ（Liquid Crystal Display）や有機ＥＬ（Electroluminescence）、プラズマディスプレイなどを備えるものである。操作スイッチＡＳＳＹ２６は、ダイヤルスイッチやボタン式スイッチなどが集積されたものである。表示・操作装置２０は、乗員によってなされた操作の内容をエージェント装置１００に出力する。第１ディスプレイ２２または第２ディスプレイ２４が表示する内容は、エージェント装置１００によって決定されてよい。

図４は、スピーカユニット３０の配置例を示す図である。スピーカユニット３０は、例えば、スピーカ３０Ａ〜３０Ｈを含む。スピーカ３０Ａは、運転席ＤＳ側の窓柱（いわゆるＡピラー）に設置されている。スピーカ３０Ｂは、運転席ＤＳに近いドアの下部に設置されている。スピーカ３０Ｃは、助手席ＡＳ側の窓柱に設置されている。スピーカ３０Ｄは、助手席ＡＳに近いドアの下部に設置されている。スピーカ３０Ｅは、右側後部座席ＢＳ１側に近いドアの下部に設置されている。スピーカ３０Ｆは、左側後部座席ＢＳ２側に近いドアの下部に設置されている。スピーカ３０Ｇは、第２ディスプレイ２４の近傍に設置されている。スピーカ３０Ｈは、車室の天井（ルーフ）に設置されている。

係る配置において、例えば、専らスピーカ３０Ａおよび３０Ｂに音を出力させた場合、音像は運転席ＤＳ付近に定位することになる。また、専らスピーカ３０Ｃおよび３０Ｄに音を出力させた場合、音像は助手席ＡＳ付近に定位することになる。また、専らスピーカ３０Ｅに音を出力させた場合、音像は右側後部座席ＢＳ１付近に定位することになる。また、専らスピーカ３０Ｆに音を出力させた場合、音像は左側後部座席ＢＳ２付近に定位することになる。また、専らスピーカ３０Ｇに音を出力させた場合、音像は車室の前方付近に定位することになり、専らスピーカ３０Ｈに音を出力させた場合、音像は車室の上方付近に定位することになる。これに限らず、スピーカユニット３０は、ミキサーやアンプを用いて各スピーカの出力する音の配分を調整することで、車室内の任意の位置に音像を定位させることができる。

［エージェント装置］
図２に戻り、エージェント装置１００は、管理部１１０と、エージェント機能部１５０−１、１５０−２、１５０−３と、ペアリングアプリ実行部１５２とを備える。管理部１１０は、例えば、音響処理部１１２と、表示制御部１１６と、音声制御部１１８と、起動制御部１２０と、記憶部１３０とを備える。いずれのエージェント機能部であるか区別しない場合、単にエージェント機能部１５０と称する。３つのエージェント機能部１５０を示しているのは、図１におけるエージェントサーバ２００の数に対応させた一例に過ぎず、エージェント機能部１５０の数は、２つであってもよいし、４つ以上であってもよい。図２に示すソフトウェア配置は説明のために簡易に示しており、実際には、例えば、エージェント機能部１５０と車載通信装置６０の間に管理部１１０が介在してもよいように、任意に改変することができる。

エージェント装置１００の記憶部１３０を除く各構成要素は、例えば、ＣＰＵ（Central Processing Unit）などのハードウェアプロセッサがプログラム（ソフトウェア）を実行することにより実現される。これらの構成要素のうち一部または全部は、ＬＳＩ（Large Scale Integration）やＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）、ＧＰＵ（Graphics Processing Unit）などのハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予め記憶部１３０やＨＤＤ（Hard Disk Drive）やフラッシュメモリなどの記憶装置（非一過性の記憶媒体を備える記憶装置）に格納されていてもよいし、ＤＶＤやＣＤ−ＲＯＭなどの着脱可能な記憶媒体（非一過性の記憶媒体）に格納されており、記憶媒体がドライブ装置に装着されることでインストールされてもよい。記憶部１３０は、例えば、ＨＤＤやフラッシュメモリなどの記憶装置（非一過性の記憶媒体を備える記憶装置）であってもよいし、ＤＶＤやＣＤ−ＲＯＭなどの着脱可能な記憶媒体に格納されており、記憶媒体（非一過性の記憶媒体）がドライブ装置に装着されることでＨＤＤやフラッシュメモリにインストールされてもよい。

管理部１１０は、ＯＳ（Operating System）やミドルウェアなどのプログラムが実行されることで機能する。

管理部１１０の音響処理部１１２は、エージェントごとに予め設定されているウエイクアップワードを認識するのに適した状態になるように、入力された音に対して音響処理を行う。音響処理部１１２は、例えば、発話していた乗員が沈黙状態になることを認識して、乗員による発話の区切りを認識して音響処理を行う。また、音響処理部１１２は、乗員が複数人である場合、発話する乗員が変わったことを認識して乗員による発話の区切りを認識して音響処理を行ってもよい。

起動制御部１２０は、乗員のウエイクアップワードを認識した場合と、乗員のウエイクアップワードとは異なる発話を含む所定の発話行為を認識した場合との双方において、エージェント機能部１５０を起動させる。起動制御部１２０は、音響処理部１１２による音響処理結果に基づいて、起動させるエージェントを選択して対応するエージェント機能部１５０に音響処理結果を出力する。起動制御部１２０は、例えば、エージェントごとＷＵ（Wake Up）判定部１２２と、特定起動制御部１２４とを備える。起動制御部１２０は、「起動部」の一例である。

エージェントごとＷＵ判定部１２２は、エージェント機能部１５０−１、１５０−２、１５０−３のそれぞれに対応して存在し、エージェントごとに予め定められているウエイクアップワードを認識する。エージェントごとＷＵ判定部１２２は、音響処理が行われた音声（音声ストリーム）から音声の意味を認識する。まず、エージェントごとＷＵ判定部１２２は、音声ストリームにおける音声波形の振幅と零交差に基づいて音声区間を検出する。エージェントごとＷＵ判定部１２２は、混合ガウス分布モデル（ＧＭＭ；Gaussian mixture model）に基づくフレーム単位の音声識別および非音声識別に基づく区間検出を行ってもよい。

次に、エージェントごとＷＵ判定部１２２は、検出した音声区間における音声をテキスト化し、文字情報とする。そして、エージェントごとＷＵ判定部１２２は、テキスト化した文字情報がウエイクアップワードに該当するか否かを判定する。ウエイクアップワードであると判定した場合、エージェントごとＷＵ判定部１２２は、対応するエージェント機能部１５０を起動させる。なお、エージェントごとＷＵ判定部１２２に相当する機能がエージェントサーバ２００に搭載されてもよい。この場合、管理部１１０は、音響処理部１１２によって音響処理が行われた音声ストリームをエージェントサーバ２００に送信し、エージェントサーバ２００がウエイクアップワードであると判定した場合、エージェントサーバ２００からの指示に従ってエージェント機能部１５０が起動する。なお、各エージェント機能部１５０は、常時起動しており且つウエイクアップワードの判定を自ら行うものであってよい。この場合、管理部１１０がエージェントごとＷＵ判定部１２２を備える必要はない。

特定起動制御部１２４は、エージェントごとＷＵ判定部１２２によりウエイクアップワードが認識されなかった場合、音響処理部１１２により音響処理が行われ、発話一時記憶情報１３２に格納された音声ストリームを読み出して、所定の発話行為に該当するか否かを判定する。特定起動制御部１２４は、所定の発話行為に該当すると判定した場合、エージェントごとＷＵ判定部１２２によりウエイクアップワードであると判定した場合と同様に、音響処理部１１２によって音響処理が行われた音声ストリームをエージェントサーバ２００に送信してエージェントを起動させる。以下、特定起動制御部１２４によりエージェントが起動されることを「特定起動」と称する。なお、「特定起動」は、「フリー起動」と称される場合がある。所定の発話行為については後述する。

なお、特定起動制御部１２４による所定の発話行為に該当する音声入力がされたのか否かを判定する処理の途中で乗員の新たな発話が行われた場合、所定の発話行為に該当する音声入力がなされなかったと判定して実行中の処理を中断し、新たな発話に対してエージェントごとＷＵ判定部１２２による判定処理を行わせる。

記憶部１３０には、例えば、発話一時記憶情報１３２が格納される。発話一時記憶情報１３２には、ウエイクアップワードが認識されていない状態で発話された音声が音響処理部１１２により処理された発話の区切り毎の音声ストリームが識別可能な状態で格納される。発話一時記憶情報１３２に格納される音声ストリームには、車両Ｍの車室内の第２所定時間（長くても３０［ｓｅｃ］程度）の音声が一時的に記憶される。

特定起動制御部１２４は、特定起動を行うために発話一時記憶情報１３２から直前の一区切りの音声ストリームを読み出して、音声認識や意味解釈などの音声解析を行う。

特定起動制御部１２４は、所定の発話行為が行われたと判定された場合、対応するエージェントに乗員に対する対応を行わせるよう、対応付いたエージェント機能部１５０を特定起動させる。特定起動されたエージェント機能部１５０は、自ら音声を認識してもよいし、エージェントサーバ２００に音声を送信して、音声認識と意味解釈を行わせてもよい。

エージェント機能部１５０は、対応するエージェントサーバ２００と協働してエージェントを出現させ、車両の乗員の発話に応じて、音声による応答を含むサービスを提供する。エージェント機能部１５０には、車両機器５０を制御する権限が付与されたものが含まれてよい。また、エージェント機能部１５０には、ペアリングアプリ実行部１５２を介して汎用通信装置７０と連携し、エージェントサーバ２００と通信するものがあってよい。例えば、エージェント機能部１５０−１には、車両機器５０を制御する権限が付与されている。エージェント機能部１５０−１は、車載通信装置６０を介してエージェントサーバ２００−１と通信する。エージェント機能部１５０−２は、車載通信装置６０を介してエージェントサーバ２００−２と通信する。エージェント機能部１５０−３は、ペアリングアプリ実行部１５２を介して汎用通信装置７０と連携し、エージェントサーバ２００−３と通信する。ペアリングアプリ実行部１５２は、例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）によって汎用通信装置７０とペアリングを行い、エージェント機能部１５０−３と汎用通信装置７０とを接続させる。なお、エージェント機能部１５０−３は、ＵＳＢ（Universal Serial Bus）などを利用した有線通信によって汎用通信装置７０に接続されるようにしてもよい。以下、エージェント機能部１５０−１とエージェントサーバ２００−１が協働して出現させるエージェントをエージェント１、エージェント機能部１５０−２とエージェントサーバ２００−２が協働して出現させるエージェントをエージェント２、エージェント機能部１５０−３とエージェントサーバ２００−３が協働して出現させるエージェントをエージェント３と称する場合がある。

表示制御部１１６は、エージェント機能部１５０からの指示に応じて第１ディスプレイ２２または第２ディスプレイ２４に画像を表示させる。以下では、第１ディスプレイ２２を使用するものとする。表示制御部１１６は、一部のエージェント機能部１５０の制御により、例えば、車室内で乗員とのコミュニケーションを行う擬人化されたエージェントの画像（以下、エージェント画像と称する）を生成し、生成したエージェント画像を第１ディスプレイ２２に表示させる。エージェント画像は、例えば、乗員に対して話しかける態様の画像である。エージェント画像は、例えば、少なくとも観者（乗員）によって表情や顔向きが認識される程度の顔画像を含んでよい。例えば、エージェント画像は、顔領域の中に目や鼻に擬したパーツが表されており、顔領域の中のパーツの位置に基づいて表情や顔向きが認識されるものであってよい。また、エージェント画像は、立体的に感じられ、観者によって三次元空間における頭部画像を含むことでエージェントの顔向きが認識されたり、本体（胴体や手足）の画像を含むことで、エージェントの動作や振る舞い、姿勢等が認識されたりするものであってもよい。また、エージェント画像は、アニメーション画像であってもよい。

音声制御部１１８は、エージェント機能部１５０からの指示に応じて、スピーカユニット３０に含まれるスピーカのうち一部または全部に音声を出力させる。音声制御部１１８は、複数のスピーカユニット３０を用いて、エージェント画像の表示位置に対応する位置にエージェント音声の音像を定位させる制御を行ってもよい。エージェント画像の表示位置に対応する位置とは、例えば、エージェント画像がエージェント音声を喋っていると乗員が感じると予測される位置であり、具体的には、エージェント画像の表示位置付近（例えば、２〜３［ｃｍ］以内）の位置である。また、音像が定位するとは、例えば、乗員の左右の耳に伝達される音の大きさを調節することにより、乗員が感じる音源の空間的な位置を定めることである。

［エージェントサーバ］
図５は、エージェントサーバ２００の構成と、エージェント装置１００の構成の一部とを示す図である。以下、エージェントサーバ２００の構成と共にエージェント機能部１５０等の動作について説明する。ここでは、エージェント装置１００からネットワークＮＷまでの物理的な通信についての説明を省略する。

エージェントサーバ２００は、通信部２１０を備える。通信部２１０は、例えばＮＩＣ（Network Interface Card）などのネットワークインターフェースである。更に、エージェントサーバ２００は、例えば、音声認識部２２０と、自然言語処理部２２２と、対話管理部２２４と、ネットワーク検索部２２６と、応答文生成部２２８とを備える。これらの構成要素は、例えば、ＣＰＵなどのハードウェアプロセッサがプログラム（ソフトウェア）を実行することにより実現される。これらの構成要素のうち一部または全部は、ＬＳＩやＡＳＩＣ、ＦＰＧＡ、ＧＰＵなどのハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めＨＤＤやフラッシュメモリなどの記憶装置（非一過性の記憶媒体を備える記憶装置）に格納されていてもよいし、ＤＶＤやＣＤ−ＲＯＭなどの着脱可能な記憶媒体（非一過性の記憶媒体）に格納されており、記憶媒体がドライブ装置に装着されることでインストールされてもよい。

エージェントサーバ２００は、記憶部２５０を備える。記憶部２５０は、上記の各種記憶装置により実現される。記憶部２５０には、パーソナルプロファイル２５２、辞書ＤＢ（データベース）２５４、知識ベースＤＢ２５６、応答規則ＤＢ２５８などのデータやプログラムが格納される。

エージェント装置１００において、エージェント機能部１５０は、音声ストリーム、或いは圧縮や符号化などの処理を行った音声ストリームを、エージェントサーバ２００に送信する。エージェント機能部１５０は、ローカル処理（エージェントサーバ２００を介さない処理）が可能な音声コマンドを認識した場合は、音声コマンドで要求された処理を行ってよい。ローカル処理が可能な音声コマンドとは、エージェント装置１００が備える記憶部（不図示）を参照することで回答可能な音声コマンドであったり、エージェント機能部１５０−１の場合は車両機器５０を制御する音声コマンド（例えば、空調装置をオンにするコマンドなど）であったりする。従って、エージェント機能部１５０は、エージェントサーバ２００が備える機能の一部を有してもよい。

音声ストリームを取得すると、音声認識部２２０が音声認識を行ってテキスト化された文字情報を出力し、自然言語処理部２２２が文字情報に対して辞書ＤＢ２５４を参照しながら意味解釈を行う。辞書ＤＢ２５４は、文字情報に対して抽象化された意味情報が対応付けられたものである。辞書ＤＢ２５４は、同義語や類義語の一覧情報を含んでもよい。音声認識部２２０の処理と、自然言語処理部２２２の処理は、段階が明確に分かれるものではなく、自然言語処理部２２２の処理結果を受けて音声認識部２２０が認識結果を修正するなど、相互に影響し合って行われてよい。

自然言語処理部２２２は、例えば、認識結果として、「今日の天気は」、「天気はどうですか」等の意味が認識された場合、標準文字情報「今日の天気」に置き換えたコマンドを生成する。これにより、リクエストの音声に文字揺らぎがあった場合にも要求にあった対話をし易くすることができる。また、自然言語処理部２２２は、例えば、確率を利用した機械学習処理等の人工知能処理を用いて文字情報の意味を認識したり、認識結果に基づくコマンドを生成したりしてもよい。

対話管理部２２４は、自然言語処理部２２２の処理結果（コマンド）に基づいて、パーソナルプロファイル２５２や知識ベースＤＢ２５６、応答規則ＤＢ２５８を参照しながら車両Ｍの乗員に対する発話の内容を決定する。パーソナルプロファイル２５２は、乗員ごとに保存されている乗員の個人情報、趣味嗜好、過去の対話の履歴などを含む。知識ベースＤＢ２５６は、物事の関係性を規定した情報である。応答規則ＤＢ２５８は、コマンドに対してエージェントが行うべき動作（回答や機器制御の内容など）を規定した情報である。

また、対話管理部２２４は、音声ストリームから得られる特徴情報を用いて、パーソナルプロファイル２５２と照合を行うことで、乗員を特定してもよい。この場合、パーソナルプロファイル２５２には、例えば、音声の特徴情報に、個人情報が対応付けられている。音声の特徴情報とは、例えば、声の高さ、イントネーション、リズム（音の高低のパターン）等の喋り方の特徴や、メル周波数ケプストラム係数（Mel Frequency Cepstrum Coefficients）等による特徴量に関する情報である。音声の特徴情報は、例えば、乗員の初期登録時に所定の単語や文章等を乗員に発声させ、発声させた音声を認識することで得られる情報である。

対話管理部２２４は、コマンドが、ネットワークＮＷを介して検索可能な情報を要求するものである場合、ネットワーク検索部２２６に検索を行わせる。ネットワーク検索部２２６は、ネットワークＮＷを介して各種ウェブサーバ３００にアクセスし、所望の情報を取得する。「ネットワークＮＷを介して検索可能な情報」とは、例えば、車両Ｍの周辺にあるレストランの一般ユーザによる評価結果であったり、その日の車両Ｍの位置に応じた天気予報であったりする。

応答文生成部２２８は、対話管理部２２４により決定された発話の内容が車両Ｍの乗員に伝わるように、応答文を生成し、エージェント装置１００に送信する。応答文生成部２２８は、乗員がパーソナルプロファイルに登録された乗員であることが特定されている場合に、乗員の名前を呼んだり、乗員の話し方に似せた話し方にした応答文を生成したりしてもよい。

エージェント機能部１５０は、応答文を取得すると、音声合成を行って音声を出力するように音声制御部１１８に指示する。また、エージェント機能部１５０は、音声出力に合わせてエージェントの画像を表示するように表示制御部１１６に指示する。このようにして、仮想的に出現したエージェントが車両Ｍの乗員に応答するエージェント機能が実現される。

［所定の発話行為］
特定起動制御部１２４は、所定の発話行為を認識した場合、特定起動を行う。所定の発話行為とは、例えば、乗員によるエージェントに対する問いかけの内容を含む発話と、その発話の直後に基準時間（以下、第１所定時間と称する場合がある）の間、沈黙をする行為である。

特定起動制御部１２４は、例えば、乗員による発話の音声ストリームの音声認識と意味解釈をした結果、ウエイクアップワードを発言することなく「今日の天気は」の発話の後、第１所定時間（例えば、１〜２［ｓｅｃ］程度）の沈黙をする行為があったと認識した場合に所定の発話行為がなされたと判定する。特定起動制御部１２４は、自ら音声認識および意味解釈をしてもよいし、任意のエージェント機能部１５０に音響処理結果を出力して、エージェントサーバ２００に音声認識と意味解釈をさせ、その認識結果を取得して問いかけを含む発話の後に第１所定時間以上の沈黙時間があったか否かを判定してもよい。

特定起動制御部１２４は、音声ストリームの全部、または問いかけの内容を抜粋したものをエージェント機能部１５０に受け渡す。エージェント機能部１５０は、問いかけの内容の音声認識と意味解釈とを行って、自らが制御するエージェント機能に問いかけに応答するサービス提供を行わせる。

特定起動制御部１２４が認識する沈黙をする行為の基準時間は、エージェント装置１００の初期値が設定されるものであってもよいし、車両Ｍの乗員によってあらかじめ設定されるものであってもよいし、同一の乗員の利用結果を機械学習した結果が反映されるものであってもよい。なお、問いかけの内容を含む発話であったか否かを判断する基準には、乗員数、声の大きさ（音圧）、発話のイントネーションなどが含まれてもよい。

なお、図２に示すように複数のエージェントが選択可能である場合、特定起動制御部１２４は、乗員の所定の発話行為を認識してエージェント機能部１５０を起動させる際に、発話内容および所定の判断基準に基づいて、複数のエージェント機能部１５０のうち好適なエージェント機能部１５０を選択して起動させる。所定の判断基準には、例えば、複数のエージェント機能部１５０のうち最後に起動したエージェント（直近で乗員と会話したエージェント）を優先的に起動することが規定されていてもよいし、最も多機能なエージェント機能部１５０が優先的に起動することが規定されていてもよいし、最も音声認識機能の高いエージェント機能部１５０が優先的に起動することが規定されていてもよい。

特定起動制御部１２４によって所定の発話行為が行われたと判定されなかった場合には、発話一時記憶情報１３２に記憶された音声は一定時間経過後に消去されてよい。

［判断基準の変更］
特定起動制御部１２４は、乗員認識装置８０により認識された乗員の数が１名であると認識された場合、乗員の数が複数人であると認識された場合とは異なる判断基準を用いる。判断基準の変更には、第１所定時間の変更が含まれてよい。特定起動制御部１２４は、例えば、車両Ｍの乗員の数が１名である場合、その乗員が発話した場合にはエージェント機能に対する発話である可能性が高いため、第１所定時間を、乗員数が複数人である場合に比して短い時間（例えば０．５〜１［ｓｅｃ］程度）に設定する。

また、特定起動制御部１２４は、車両Ｍの乗員が複数である場合、乗員同士の会話であるか、エージェントを起動させる会話であるかをより慎重に判断するために、第１所定時間を、乗員数が１名である場合に比して長い時間（例えば、１〜２［ｓｅｃ］程度）に設定し、特定起動しにくい方に変更する。これにより、乗員同士の会話をエージェント起動の発話と誤検知する可能性を低減させることができる。また、特定起動制御部１２４は、車両Ｍの乗員が複数であり、音響処理部１１２による処理結果に基づいて乗員が会話中であると推定される場合には、乗員同士の会話と特定起動の所定の発話行為との識別が困難であるため、特定起動の判定処理を一時的に行わないようにしてもよい。

ただし、特定起動制御部１２４は、乗員が１名である場合であっても、乗員が会話中であると推定される場合には、乗員が複数人であるときと同様に判断基準を変更してもよい。例えば、特定起動制御部１２４は、車室内カメラ（不図示）による乗員の認識結果や、音響処理部１１２による処理結果に基づいて、その乗員が電話中であると推定される場合には、乗員が複数人であるときと同様に特定起動しにくい方に判断基準を変更したり、特定起動の判定処理を一時的に行わないようにしたりしてもよい。

［処理フロー］
図６は、エージェント装置１００による処理の流れの一例を示すフローチャートである。

まず、乗員認識装置８０は、車両Ｍの乗員（乗員数）を認識する（ステップＳ１００）。次に、起動制御部１２０は、乗員認識装置８０により認識された乗員数に応じて判断基準を設定する（ステップＳ１０２）。

次に、起動制御部１２０は、音響処理部１１２による音響処理結果を取得して、乗員の音声を認識する（ステップＳ１０４）。起動制御部１２０は、乗員の発話を認識したか否かを判定する（ステップＳ１０６）。発話を認識したと判定しなかった場合、起動制御部１２０は、再度ステップＳ１０４に処理を戻す。発話を認識したと判定した場合、起動制御部１２０は、ウエイクアップワードを認識したか否かを判定する（ステップＳ１０８）。

ウエイクアップワードを認識したと判定した場合、起動制御部１２０は、エージェントごとＷＵ判定部１２２に処理を移して、ウエイクアップワードに対応付いたエージェント機能部１５０にエージェントを起動させて、音声ストリームの音声認識と意味解釈とを行わせた後、エージェントによるサービスを提供させる（ステップＳ１１０）。ウエイクアップワードを認識しなかったと判定した場合、特定起動制御部１２４は、所定の発話行為に該当する問いかけの発話を認識したか否かを判定する（ステップＳ１１２）。問いかけの発話を認識したと判定した場合、特定起動制御部１２４は、基準時間の沈黙をする行為が行われたかを計測するタイマーをスタートさせ（ステップＳ１１４）、タイマーが第１所定時間を計時したか否かを判定する（ステップＳ１１６）。第１所定時間を計時したと判定しなかった場合、起動制御部１２０は処理をステップＳ１０４に戻して、既に認識した発話の発話または沈黙をする行為の検出を行う。第１所定時間を計時したと判定した場合、特定起動制御部１２４は、所定の発話行為が行われたと判定し、判断基準に基づいて好適なエージェントを選択して、選択したエージェントに対応付いたエージェント機能部１５０にエージェントを特定起動させて、発話一時記憶情報１３２の音声ストリームの音声認識と意味解釈とを行わせた後、エージェントにサービスを提供させる（ステップＳ１１８）。以上、本フローチャートの処理の説明を終了する。

なお、特定起動制御部１２４は、上述のフローチャートのステップＳ１１４の処理において基準時間の沈黙をする行為の計時中に、新たな発話（ウエイクアップワードが認識された場合を含む）が認識された場合には、計時を中止して、タイマーをリセットする。

［特定起動の処理例］
図７は、起動制御部１２０による処理を説明するための図である。図７の上図のケース１は、起動制御部１２０が特定起動を行う場面を説明する図である。また、図７の中央図のケース２、および下図のケース３は起動制御部１２０が特定起動を行わない場面を説明する図である。

［特定起動する場合（ケース１）］
図７の上図に示すケース１において、マイク１０は乗員の「あと何分で着くかな……」という発話Ｖ１を収音して音響処理部１１２に出力する。以下の説明において発話の「……」は乗員の発話がない状態、すなわち沈黙をする行為の状態であることを示す。音響処理部１１２は、発話Ｖ１の集音結果である音声ストリームＶＳ１を発話一時記憶情報１３２に格納する。起動制御部１２０は、音声ストリームＶＳ１にはウエイクアップワードが含まれないため特定起動制御部１２４に処理を移す。図７の上図に示すケース１において起動制御部１２０が音声認識と意味解釈とをする音声ストリームＶＳ１には、問いかけの発話「あと何分で着くかな」と基準時間の間の沈黙をする行為の情報が含まれる。以下、音声ストリームＶＳ１のうち発話に関する部分を発話音声ストリームＶＳ１−１、沈黙をする行為を沈黙時間ＶＳ１−２と称して説明する。

特定起動制御部１２４は、例えば、まず発話音声ストリームＶＳ１−１の音声認識と意味解釈とを行って、発話音声ストリームＶＳ１−１が問いかけの発話であるか否かを判定する。問いかけの発話であると判定した場合、特定起動制御部１２４は、次に発話音声ストリームＶＳ１−１の後、基準時間の沈黙をする行為が認識されるか否かを判定する。特定起動制御部１２４は、沈黙時間ＶＳ１−２が基準時間の沈黙をする行為に該当すると判定した場合（または沈黙をする行為の時間を計時した場合）、エージェント機能部１５０に発話音声ストリームＶＳ１−１を出力して特定起動させる。

［特定起動しない場合（ケース２）］
図７の中央図に示すケース２において、マイク１０は乗員の「あと何分で着くかな…ねぇエージェント１、あと何分で着く」という発話Ｖ２を収音して音響処理部１１２に出力する。音響処理部１１２は、発話Ｖ２の集音結果である音声ストリームＶＳ２を発話一時記憶情報１３２に格納する。なお、エージェント１を起動させるウエイクアップワードＷＵが「ねぇエージェント１」であるものとして説明する。

起動制御部１２０は、音声ストリームＶＳ２の音声認識と意味解釈とを行って、音声ストリームＶＳ２をさらに意味のまとまった区間に区切る音声区間判定を行ってもよい。例えば、特定起動制御部１２４は、音声ストリームＶＳ２の前半部分「あと何分で着くかな」（以下、発話音声ストリームＶＳ２−１）にはウエイクアップワードが含まれないため特定起動制御部１２４に処理を移す。特定起動制御部１２４は、ケース１と同様に発話音声ストリームＶＳ２−１の音声認識と意味解釈とを行って、発話音声ストリームＶＳ２−１が問いかけの発話であるか否かの判定を開始してもよい。

起動制御部１２０は、音声ストリームＶＳ２の後半部分にウエイクアップワードＷＵの「ねぇエージェント１」が含まれ、さらにウエイクアップワードの発話の後、「あと何分で着く」という発話がなされたことを認識する。「あと何分で着く」という発話を以下の説明において、発話音声ストリームＶＳ２−２と称する。

起動制御部１２０は、発話音声ストリームＶＳ２−１のあとにさらに発話が認識されたことから、発話音声ストリームＶＳ２−１の後に基準時間の沈黙をする行為を計時中であっても（または、基準時間の沈黙をする行為が認識された場合であっても）特定起動制御部１２４による処理を中断して、エージェントごとＷＵ判定部１２２にウエイクアップワードＷＵを判定させる。エージェントごとＷＵ判定部１２２は、エージェント１に対応付いたウエイクアップワードを識別して、ウエイクアップワードＷＵに対応付いたエージェント１を機能させるエージェント機能部１５０−１を起動させる。さらにエージェント機能部１５０−１は、発話音声ストリームＶＳ２−２の意味解釈を行って、エージェント１に発話音声ストリームＶＳ２−２に対する応答を行わせる。

なお、発話音声ストリームＶＳ２−２は、発話一時記憶情報１３２に格納されてもよいし、発話一時記憶情報１３２に格納されることなく直接エージェント機能部１５０に出力されてもよい。

［特定起動しない場合（ケース３）］
図７の下図に示すケース３において、マイク１０は乗員の「あと何分で着くかな…まあ焦らずに行こう」という発話Ｖ３を収音して音響処理部１１２に出力する。音響処理部１１２は、発話Ｖ３の集音結果である音声ストリームＶＳ３を発話一時記憶情報１３２に格納する。

起動制御部１２０は、音声ストリームＶＳ３の前半部分「あと何分で着くかな」（以下、発話音声ストリームＶＳ３−１）にはウエイクアップワードが含まれないため特定起動制御部１２４に処理を移す。

起動制御部１２０は、音声ストリームＶＳ３の音声認識と意味解釈とを行って、音声ストリームＶＳ２をさらに意味のまとまった区間に区切る音声区間判定を行う。以下、発話Ｖ３の前半部分の問いかけの発話「あと何分で着くかな」に該当する部分の音声ストリームＶＳ３を発話音声ストリームＶＳ３−１、発話Ｖ３の後半部分の問いかけに該当しない発話「まあ焦らずに行こう」に該当する部分の音声ストリームＶＳ３を発話音声ストリームＶＳ３−２と称する。なお、発話音声ストリームＶＳ３−１と発話音声ストリームＶＳ３−２との間には、基準時間の沈黙をする行為は認識されなかったものとして説明する。

特定起動制御部１２４は、例えば、ケース１およびケース２と同様に発話音声ストリームＶＳ３−１の音声認識と意味解釈とを行って、発話音声ストリームＶＳ３−１「あと何分で着くかな」が問いかけの発話であるか否かの判定を開始する。特定起動制御部１２４は、発話音声ストリームＶＳ３−１の後に基準時間の沈黙をする行為が認識さないため、発話音声ストリームＶＳ３−１が問いかけの発話であると解釈されるものであったとしても所定の発話行為に該当しないと判定して、後続処理を行わない。

次に、特定起動制御部１２４は、発話音声ストリームＶＳ３−２「まあ焦らずに行こう」の音声認識と意味解釈とを行って、発話音声ストリームＶＳ３−２が問いかけの発話であるか否かの判定を開始し、問いかけの発話に該当しないと判定して、後続処理を行わない。

上述のように、特定起動制御部１２４は、ケース２のように特定起動を判定する処理の途中でウエイクアップワードを認識した場合や、ケース３のように特定の発話行為に該当しない音声を認識した場合には、問いかけの発話を認識した場合であっても所定の発話行為に該当するとは判定しない。

上記説明した実施形態のエージェント装置１００によれば、乗員によるウエイクアップワードの発話が認識されない場合であっても、エージェント機能部１５０をより自然に起動させることができる。

また、エージェント装置１００によれば、ウエイクアップワードが認識されなかった場合であっても、判断基準に基づいて複数のエージェント機能のうち好適なエージェント機能を選択して起動させることができ、起動させたエージェントは、発話一時記憶情報１３２に格納された音声ストリームを認識することで乗員にサービス提供ができる。

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

例えば、音響処理部１１２が基準時間の沈黙をする行為を認識してもよい。その場合、発話一時記憶情報１３２には発話後の沈黙時間の有無を示す情報（例えば識別フラグ）が併せて格納される。

１０マイク、２０表示・操作装置、３０スピーカユニット、４０ナビゲーション装置、５０車両機器、６０車載通信装置、７０汎用通信装置、８０乗員認識装置、１００エージェント装置、１１０管理部、１１２音響処理部、１１６表示制御部、１１８音声制御部、１２０起動制御部、１２２エージェントごとＷＵ判定部、１２４特定起動制御部、１５０エージェント機能部、１５２ペアリングアプリ実行部、２００エージェントサーバ

Claims

車両の乗員の発話に応じて、音声による応答を含むサービスを提供するエージェント機能部と、
前記乗員の発話を認識して、前記エージェント機能部を起動させる起動部と、
を備えるエージェント装置であって、
前記起動部は、前記乗員のウエイクアップワードを認識した場合と、前記乗員のウエイクアップワードとは異なる発話を含む所定の発話行為を認識した場合との双方において、前記エージェント機能部を起動させる、
エージェント装置。
前記所定の発話行為とは、前記エージェント機能部に対する問いかけの内容を含む発話をし、前記発話の直後に基準時間の間、沈黙をする行為である、
請求項１に記載のエージェント装置。
前記乗員の発話の内容が記憶される記憶部を更に備え、
前記所定の発話行為が認識されることで起動した前記エージェント機能部は、前記所定の発話行為に含まれる問いかけの内容を前記記憶部から読み出して、前記問いかけに応答する、
請求項２に記載のエージェント装置。
前記エージェント機能部は、複数のエージェント機能を制御するものである場合、
前記起動部は、前記乗員の所定の発話行為を認識して前記エージェント機能部を起動させる場合、所定の判断基準に基づいて、複数の前記エージェント機能のうち起動させるエージェント機能を選択する、
請求項２または３に記載のエージェント装置。
前記起動部は、前記乗員の所定の発話行為を認識して前記エージェント機能部を起動させる場合、前記複数のエージェント機能のうち最後に起動したエージェント機能を優先的に起動させる、
請求項４に記載のエージェント装置。
前記乗員の数を認識する乗員認識部をさらに備え、
前記起動部は、前記乗員認識部により前記乗員の数が１人であると認識された場合、前記乗員の数が複数人であると認識された場合とは異なる判断基準を用いる、
請求項２から５のうちいずれか１項に記載のエージェント装置。
前記起動部は、前記乗員認識部により前記乗員の数が複数人であると認識された場合、前記乗員の数が１人であると認識された場合の所定の発話行為に含まれる前記判断基準よりも、前記エージェント機能部を起動しにくい側に前記判断基準を変更する、
請求項６に記載のエージェント装置。
コンピュータが、
車両の乗員の発話に応じて、音声による応答を含むサービスを提供するエージェント機能部と、
前記乗員の発話を認識して、前記エージェント機能部を起動させる起動部と、
を備えるエージェント装置の制御方法であって、
前記起動部は、前記乗員のウエイクアップワードを認識した場合と、前記乗員のウエイクアップワードとは異なる発話を含む所定の発話行為を認識した場合との双方において、前記エージェント機能部を起動させる、
エージェント装置の制御方法。
コンピュータに、
車両の乗員の発話を認識して、前記乗員のウエイクアップワードを認識した場合と、前記乗員のウエイクアップワードとは異なる発話を含む所定の発話行為を認識した場合との双方において、音声による応答を含むサービスを提供するエージェント機能部を起動させる処理と、
前記乗員の発話に応じて、前記エージェント機能部によるサービスを提供させる処理と、
を実行させるプログラム。