JP2021105636A

JP2021105636A - エージェントシステム、エージェント方法、及びプログラム

Info

Publication number: JP2021105636A
Application number: JP2019235788A
Authority: JP
Inventors: 将郎小池; Masaro Koike; 孝浩田中; Takahiro Tanaka; 智彰萩原; Tomoaki Hagiwara; 佐和子古屋; Sawako Furuya; 幸治石井; Koji Ishii; 昌宏暮橋; Masahiro Kurehashi
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2021-07-26
Anticipated expiration: 2039-12-26
Also published as: JP7254689B2; CN113053372A

Abstract

【課題】発話による操作者の指示を特定しつつ、指示を特定できない場合には、操作者の習慣に基づいて操作対象の機器に対する指示を特定することができるエージェントシステム、エージェント方法、及びプログラムを提供すること。【解決手段】エージェントシステムは、利用者が発話した音声を示すデータを取得する取得部と、データに基づいて利用者の発話内容を認識する音声認識部と、利用者と自システムとのやり取りに基づいて利用者の習慣を推定する推定部と、発話内容に含まれる指示を特定する指示特定部と、指示に応じた処理を特定する、又は指示に応じた処理を特定できない場合には習慣に基づいて指示に応じた処理を特定する処理特定部と、指示特定部により特定された指示を示す情報と処理特定部により特定された処理を示す情報とを、スピーカを含む情報出力装置に音声により出力させる出力制御部と、を備えるものである。【選択図】図１

Description

本発明は、エージェントシステム、エージェント方法、及びプログラムに関する。

近年、操作者が手操作により操作対象の機器に対する指示等を入力することに代えて、操作者が発話し、発話に含まれる指示等を音声認識させることにより、音声により簡便に入力操作をできるようにする技術が知られている（例えば、特許文献１参照）。また、操作者の食習慣に係る情報を蓄積し、操作者に対して食事に係る情報を提供する技術が知られている（例えば、特許文献２参照）。

特開２００８−１４８１８号公報特開２０１４−１８２０７５号公報

ここで、操作者は、自身の習慣に応じた簡潔な語句により操作対象の機器に対する指示を発話する場合がある。しかしながら、従来の技術では、操作者の習慣に応じた簡潔な語句により操作対象の機器に対する指示の発話がされても、予め登録された指示でない場合には、指示を認識することが困難であった。

本発明の態様は、このような事情を考慮してなされたものであり、発話による操作者の指示を特定しつつ、操作者の指示を特定できない場合には、操作者の習慣に基づいて操作対象の機器に対する指示を特定することができるエージェントシステム、エージェント方法、及びプログラムを提供することを目的の一つとする。

この発明に係るエージェントシステム、エージェント方法、及びプログラムは、以下の構成を採用した。
（１）この発明の一態様のエージェントシステムは、利用者が発話した音声を示すデータを取得する取得部と、前記取得部により取得された前記データに基づいて前記利用者の発話内容を認識する音声認識部と、前記利用者と自システムとのやり取りに基づいて前記利用者の習慣を推定する推定部と、前記音声認識部により認識された前記発話内容に含まれる指示を特定する指示特定部と、前記指示特定部により特定された前記指示に応じた処理を特定する、又は前記指示特定部により特定された前記指示に応じた処理を特定できない場合には前記推定部により推定された前記習慣に基づいて前記指示に応じた前記処理を特定する、処理特定部と、前記指示特定部により特定された前記指示を示す情報と前記処理特定部により特定された前記処理を示す情報とを、スピーカを含む情報出力装置に音声により出力させる出力制御部と、を備えるものである。

（２）の態様は、上記（１）の態様に係るエージェントシステムにおいて、前記処理特定部は、指示を示す情報と処理を示す情報とが互いに対応付けられた対応情報に基づいて、前記処理を特定し、前記推定部により推定された前記習慣に基づいて前記処理を特定した場合、前記指示特定部により特定された前記指示を示す情報と特定した前記処理を示す情報とにより前記対応情報を更新するものである。

（３）の態様は、上記（２）の態様に係るエージェントシステムにおいて、前記指示特定部は、前記指示特定部により特定された前記発話内容に基づいて特定した指示が、予め定められた所定指示以外の指示である場合、特定した前記指示と前記処理とにより前記対応情報を更新するものである。

（４）の態様は、上記（３）の態様に係るエージェントシステムにおいて、前記所定指示は、目的地の場所、目的地への出発時刻、目的地の到着時刻、目的地の評価、及び目的地のカテゴリのうち、少なくとも一つを指示するものであって、前記処理特定部は、前記指示特定部により特定された前記指示が前記所定指示である場合、前記所定指示に応じた目的地に係る処理を特定し、前記指示特定部により特定された前記指示が前記所定指示ではない場合、前記推定部により推定された前記習慣に基づいて、前記指示に応じた前記処理を特定するものである。

（５）の態様は、上記（２）から（４）のいずれかの態様に係るエージェントシステムにおいて、前記出力制御部は、前記処理特定部により前記対応情報が更新されることを示す情報を、前記情報出力装置に出力させるものである。

（６）の態様は、上記（２）から（５）のいずれかの態様に係るエージェントシステムにおいて、前記指示特定部は、前記指示を示す情報と、前記処理を示す情報とが前記情報出力装置により出力された際に、前記音声認識部により認識された前記発話内容に、前記指示を示す情報を訂正する内容が含まれる場合、前記指示を特定し直し、特定し直した前記指示を示す情報と前記処理を示す情報とにより前記対応情報を更新するものである。

（７）の態様は、上記（２）から（６）のいずれかの態様に係るエージェントシステムにおいて、前記推定部は、前記利用者の習慣に基づき特定された前記処理を示す情報が前記情報出力装置により出力された際に、前記音声認識部により認識された前記発話内容に、前記処理を訂正する内容が含まれる場合、前記利用者の習慣を推定し直すものである。

（８）の態様は、上記（１）から（７）のいずれかの態様に係るエージェントシステムにおいて、前記処理特定部は、更に、前記音声認識部により認識された前記発話内容に含まれる前記利用者の識別情報に基づいて前記処理を特定するものである。

（９）の態様は、上記（１）から（７）のいずれかの態様に係るエージェントシステムにおいて、前記音声認識部により認識された前記発話内容に係る当該発話をした利用者を特定する利用者特定部を、更に備え、前記処理特定部は、前記利用者特定部によって特定された前記利用者毎に、前記処理を特定するものである。

（１０）この発明の他の態様のエージェント方法は、コンピュータが、利用者が発話した音声を示すデータを取得し、取得された前記データに基づいて、前記利用者の発話内容を認識し、前記利用者と自システムとのやり取りに基づいて、前記利用者の習慣を推定し、認識された前記発話内容に含まれる指示を特定し、特定された前記指示に応じた処理を特定し、又は特定された前記指示に応じた処理を特定できない場合には、推定された前記習慣に基づいて前記指示に応じた前記処理を特定し、特定された前記指示を示す情報と、特定された前記処理を示す情報とを、スピーカを含む情報出力装置に音声により出力させるものである。

（１１）この発明の他の態様のプログラムは、コンピュータに、利用者が発話した音声を示すデータを取得させ、取得された前記データに基づいて、前記利用者の発話内容を認識させ、前記利用者と自システムとのやり取りに基づいて、前記利用者の習慣を推定させ、認識された前記発話内容に含まれる指示を特定させ、特定された前記指示に応じた処理を特定させ、又は特定された前記指示に応じた処理を特定できない場合には、推定された前記習慣に基づいて前記指示に応じた前記処理を特定させ、特定された前記指示を示す情報と、特定された前記処理を示す情報とを、スピーカを含む情報出力装置に音声により出力させるものである。

（１）〜（１０）の態様によれば、発話による操作者の指示を特定しつつ、指示を特定できない場合には、操作者の習慣に基づいて操作対象の機器に対する指示を特定することができる。

（２）の態様によれば、操作者の習慣に基づいて操作対象の機器に対する指示を特定しやすくすることができる。

（３）の態様によれば、操作者が新たに発話した簡潔な語句を指示として更新することができる。

（４）の態様によれば、操作者の習慣に基づいて操作者の目的地に係る指示を特定することができる。

（５）の態様によれば、簡潔な語句が指示として更新されたことを操作者に通知することができる。

（６）〜（７）の態様によれば、適切に簡潔な語句の指示を登録することができる。

（８）の態様によれば、操作者毎に操作者に応じた指示を特定することができる。

実施形態に係るエージェントシステム１の構成の一例を示す図である。実施形態に係るエージェント装置１００の構成の一例を示す図である。運転席から見た車室内の一例を示す図である。車両Ｍを上から見た車室内の一例を示す図である。実施形態に係るサーバ装置２００の構成の一例を示す図である。回答情報２３２の内容の一例を示す図である。乗員の習慣を推定する場面の一例を示す図である。習慣情報２３４の内容の一例を示す図である。簡潔な語句により指示できるように乗員に促す場面の一例を示す図である。対応情報２３６の内容の一例を示す図である。乗員が簡潔な語句により指示する場面の一例を示す図である。乗員が習慣に基づいて指示を特定する場面の一例を示す図である。指示を特定し直す場面の一例を示す図である。乗員により指示が訂正されたことに伴い更新された対応情報２３６の内容の一例を示す図である。習慣を推定し直す場面の一例を示す図である。乗員により習慣が訂正されたことに伴い更新された習慣情報２３４の内容の一例を示す図である。実施形態に係るエージェント装置１００の一連の処理の流れを示すフローチャートである。実施形態に係るサーバ装置２００の一例の処理の流れを示すフローチャートである。実施形態に係るサーバ装置２００の一例の処理の流れを示すフローチャートである。合成情報の内容の一例を示す図である。変形例に係るエージェント装置１００Ａの構成の一例を示す図である。

以下、図面を参照し、本発明のエージェントシステム、エージェント方法、及びプログラムの実施形態について説明する。

＜実施形態＞
［システム構成］
図１は、実施形態に係るエージェントシステム１の構成の一例を示す図である。実施形態に係るエージェントシステム１は、例えば、車両Ｍに搭載されるエージェント装置１００と、車両Ｍ外に存在するサーバ装置２００とを備える。車両Ｍは、例えば、二輪や三輪、四輪等の車両である。これらの車両の駆動源は、ディーゼルエンジンやガソリンエンジン等の内燃機関、電動機、或いはこれらの組み合わせであってよい。電動機は、内燃機関に連結された発電機による発電電力、或いは二次電池や燃料電池の放電電力を使用して動作する。

エージェント装置１００とサーバ装置２００とは、ネットワークＮＷを介して通信可能に接続される。ネットワークＮＷは、ＬＡＮ（Local Area Network）やＷＡＮ（Wide Area Network）等が含まれる。ネットワークＮＷには、例えば、Ｗｉ−ＦｉやＢｌｕｅｔｏｏｔｈ（登録商標、以下省略）等無線通信を利用したネットワークが含まれてよい。

エージェントシステム１は、複数のエージェント装置１００および複数のサーバ装置２００により構成されてもよい。以降は、エージェントシステム１が一つのエージェント装置１００と、一つのサーバ装置２００とを備える場合について説明する。

エージェント装置１００は、エージェント機能を用いて車両Ｍの乗員からの音声を取得し、取得した音声をサーバ装置２００に送信する。また、エージェント装置１００は、サーバ装置から得られるデータ（以下、エージェントデータ）等に基づいて、乗員と対話したり、画像や映像等の情報を提供したり、車両Ｍに搭載される車載機器ＶＥや他の装置を制御したりする。乗員は、「利用者」の一例である。以下、エージェント装置１００とサーバ装置２００が協働して仮想的に出現させるサービス提供主体（サービス・エンティティ）をエージェントと称する。

サーバ装置２００は、車両Ｍに搭載されたエージェント装置１００と通信し、エージェント装置１００から各種データを取得する。サーバ装置２００は、取得したデータに基づいて車両Ｍの乗員に対する応答として適したエージェントデータを生成し、生成したエージェントデータをエージェント装置１００に提供する。

［エージェント装置の構成］
図２は、実施形態に係るエージェント装置１００の構成の一例を示す図である。実施形態に係るエージェント装置１００は、例えば、通信部１０２と、マイク（マイクロフォン）１０６と、スピーカ１０８と、表示部１１０と、制御部１２０と、記憶部１５０とを備える。これらの装置や機器は、ＣＡＮ（Controller Area Network）通信線等の多重通信線やシリアル通信線、無線通信網等により互いに接続されてよい。なお、図２に示すエージェント装置１００の構成はあくまでも一例であり、構成の一部が省略されてもよいし、更に別の構成が追加されてもよい。

通信部１０２は、ＮＩＣ（Network Interface controller）等の通信インターフェースを含む。通信部１０２は、ネットワークＮＷを介してサーバ装置２００等と通信する。

マイク１０６は、車室内の音声を電気信号化し収音する音声入力装置である。マイク１０６は、収音した音声のデータ（以下、音声データ）を制御部１２０に出力する。例えば、マイク１０６は、乗員が車室内のシートに着座したときの前方付近に設置される。例えば、マイク１０６は、マットランプ、ステアリングホイール、インストルメントパネル、またはシートの付近に設置される。マイク１０６は、車室内に複数設置されていてもよい。

スピーカ１０８は、例えば、車室内のシート付近または表示部１１０付近に設置される。スピーカ１０８は、制御部１２０により出力される情報に基づいて音声を出力する。

表示部１１０は、ＬＣＤ（Liquid Crystal Display）や有機ＥＬ（Electroluminescence）ディスプレイ等の表示装置を含む。表示部１１０は、制御部１２０により出力される情報に基づいて画像を表示する。スピーカ１０８と、表示部１１０とを組み合わせたものは、「情報出力装置」の一例である。

図３は、運転席から見た車室内の一例を示す図である。図示の例の車室内には、マイク１０６Ａ〜１０６Ｃと、スピーカ１０８Ａ〜１０８Ｃと、表示部１１０Ａ〜１１０Ｃとが設置される。マイク１０６Ａは、例えば、ステアリングホイールに設けられ、主に運転者が発話した音声を収音する。マイク１０６Ｂは、例えば、助手席正面のインストルメントパネル（ダッシュボードまたはガーニッシュ）ＩＰに設けられ、主に助手席の乗員が発話した音声を収音する。マイク１０６Ｃは、例えば、インストルメントパネルの中央（運転席と助手席との間）付近に設置される。

スピーカ１０８Ａは、例えば、運転席側のドアの下部に設置され、スピーカ１０８Ｂは、例えば、助手席側のドアの下部に設置され、スピーカ１０８Ｃは、例えば、表示部１１０Ｃの付近、つまり、インストルメントパネルＩＰの中央付近に設置される。

表示部１１０Ａは、例えば運転者が車外を視認する際の視線の先に虚像を表示させるＨＵＤ（Head-Up Display）装置である。ＨＵＤ装置は、例えば、車両Ｍのフロントウインドシールド、或いはコンバイナーと呼ばれる光の透過性を有する透明な部材に光を投光することで、乗員に虚像を視認させる装置である。乗員は、主に運転者であるが、運転者以外の乗員であってもよい。

表示部１１０Ｂは、運転席（ステアリングホイールに最も近い座席）の正面付近のインストルメントパネルＩＰに設けられ、乗員がステアリングホイールの間隙から、或いはステアリングホイール越しに視認可能な位置に設置される。表示部１１０Ｂは、例えば、ＬＣＤや有機ＥＬ表示装置等である。表示部１１０Ｂには、例えば、車両Ｍの速度、エンジン回転数、燃料残量、ラジエータ水温、走行距離、その他の情報の画像が表示される。

表示部１１０Ｃは、インストルメントパネルＩＰの中央付近に設置される。表示部１１０Ｃは、例えば、表示部１１０Ｂと同様に、ＬＣＤや有機ＥＬ表示装置等である。表示部１１０Ｃは、テレビ番組や映画等のコンテンツを表示する。

なお、車両Ｍには、更に、後部座席付近にマイクとスピーカが設けられてよい。図４は、車両Ｍを上から見た車室内の一例を示す図である。車室内には、図３で例示したマイクスピーカに加えて、更に、マイク１０６Ｄ、１０６Ｅと、スピーカ１０８Ｄ、１０８Ｅとが設置されてよい。

マイク１０６Ｄは、例えば、助手席ＳＴ２の後方に設置された後部座席ＳＴ３の付近（例えば、助手席ＳＴ２の後面）に設けられ、主に、後部座席ＳＴ３に着座する乗員が発話した音声を収音する。マイク１０６Ｅは、例えば、運転席ＳＴ１の後方に設置された後部座席ＳＴ４の付近（例えば、運転席ＳＴ１の後面）に設けられ、主に、後部座席ＳＴ４に着座する乗員が発話した音声を収音する。

スピーカ１０８Ｄは、例えば、後部座席ＳＴ３側のドアの下部に設置され、スピーカ１０８Ｅは、例えば、後部座席ＳＴ４側のドアの下部に設置される。

なお、図１に例示した車両Ｍは、図３または図４に例示するように、乗員である運転手が操作可能なステアリングホイールを備える車両であるものとして説明したがこれに限られない。例えば、車両Ｍは、ルーフがない、すなわち車室がない（またはその明確な区分けがない）車両であってもよい。

また、図３または図４の例では、車両Ｍを運転操作する運転手が座る運転席と、その他の運転操作をしない乗員が座る助手席や後部座席とが一つの室内にあるものとして説明しているがこれに限られない。例えば、車両Ｍは、ステアリングホイールに代えて、ステアリングハンドルを備えた鞍乗り型自動二輪車両であってもよい。

また、図３または図４の例では、車両Ｍが、ステアリングホイールを備える車両であるものとして説明しているがこれに限られない。例えば、車両Ｍは、ステアリングホイールのような運転操作機器が設けられていない自動運転車両であってもよい。自動運転車両とは、例えば、乗員の操作に依らずに車両の操舵または加減速のうち一方または双方を制御して運転制御を実行することである。

図２の説明に戻り、制御部１２０は、例えば、取得部１２１と、音声合成部１２２と、通信制御部１２３と、出力制御部１２４と、機器制御部１２５とを備える。これらの構成要素は、例えば、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）等のプロセッサがプログラム（ソフトウェア）を実行することにより実現される。また、これらの構成要素のうち一部または全部は、ＬＳＩ（Large Scale Integration）やＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）等のハードウェア（回路部；circuitryを含む）により実現されてもよいし、ソフトウェアとハードウェアの協働により実現されてもよい。プログラムは、予め記憶部１５０（非一過性の記憶媒体を備える記憶装置）に格納されていてもよいし、ＤＶＤやＣＤ−ＲＯＭ等の着脱可能な記憶媒体（非一過性の記憶媒体）に格納されており、記憶媒体がドライブ装置に装着されることで記憶部１５０にインストールされてもよい。

記憶部１５０は、ＨＤＤ、フラッシュメモリ、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）、ＲＯＭ（Read Only Memory）、またはＲＡＭ（Random Access Memory）等により実現される。記憶部１５０には、例えば、プロセッサにより参照されるプログラム等と、車載機器情報１５２が格納される。車載機器情報１５２は、車両Ｍに搭載されている車載機器ＶＥの一覧を示す情報である。

取得部１２１は、マイク１０６から音声データや、他の情報を取得する。

音声合成部１２２は、通信部１０２がサーバ装置２００から受信したエージェントデータに音声指示内容が含まれる場合に、音声制御として発話により音声指示された音声データに対応する、人工的な合成音声を生成する。以下、音声合成部１２２が生成する人工的な合成音声を、エージェント音声とも記載する。

通信制御部１２３は、取得部１２１により取得された音声データを通信部１０２によりサーバ装置２００に送信させる。通信制御部１２３は、サーバ装置２００から送信されたエージェントデータを通信部１０２により受信させる。

出力制御部１２４は、例えば、エージェントデータに含まれる各種指示に応じて、情報出力装置を制御し、各種情報を情報出力装置に出力させる。例えば、出力制御部１２４は、エージェントデータに含まれる指示に応じて、音声合成部１２２によりエージェント音声が生成されると、そのエージェント音声をスピーカ１０８に出力させる。出力制御部１２４は、エージェントデータに含まれる指示に応じて、画像データを表示部１１０に表示させる。なお、出力制御部１２４は、音声データの認識結果（フレーズ等のテキストデータ）の画像を表示部１１０に表示させてもよい。

機器制御部１２５は、例えば、エージェントデータに含まれる各種指示に応じて、車載機器ＶＥを制御する。

なお、出力制御部１２４と機器制御部１２５とは、エージェントデータに含まれる各種指示に応じて、車載機器ＶＥを制御するように、一体に構成されてもよい。以下、説明の便宜上、車載機器ＶＥのうち、情報出力装置を制御する処理を出力制御部１２４が行い、情報出力装置以外の他の車載機器ＶＥを制御する処理を機器制御部１２５が行うものとして説明する。

［サーバ装置の構成］
図５は、実施形態に係るサーバ装置２００の構成の一例を示す図である。実施形態に係るサーバ装置２００は、例えば、通信部２０２と、制御部２１０と、記憶部２３０とを備える。

通信部２０２は、ＮＩＣ等の通信インターフェースを含む。通信部２０２は、ネットワークＮＷを介して各車両Ｍに搭載されたエージェント装置１００等と通信する。

制御部２１０は、例えば、取得部２１１と、発話区間抽出部２１２と、音声認識部２１３と、推定部２１４と、指示特定部２１５と、処理特定部２１６と、エージェントデータ生成部２１７と、通信制御部２１８とを備える。これらの構成要素は、例えば、ＣＰＵやＧＰＵ等のプロセッサがプログラム（ソフトウェア）を実行することにより実現される。また、これらの構成要素のうち一部または全部は、ＬＳＩやＡＳＩＣ、ＦＰＧＡ等のハードウェア（回路部；circuitryを含む）により実現されてもよいし、ソフトウェアとハードウェアの協働により実現されてもよい。プログラムは、予め記憶部２３０（非一過性の記憶媒体を備える記憶装置）に格納されていてもよいし、ＤＶＤやＣＤ−ＲＯＭ等の着脱可能な記憶媒体（非一過性の記憶媒体）に格納されており、記憶媒体がドライブ装置に装着されることで記憶部２３０にインストールされてもよい。

記憶部２３０は、ＨＤＤ、フラッシュメモリ、ＥＥＰＲＯＭ、ＲＯＭ、またはＲＡＭ等により実現される。記憶部２３０には、例えば、プロセッサにより参照されるプログラムのほかに、回答情報２３２、習慣情報２３４、及び対応情報２３６等が格納される。以下、回答情報２３２について説明し、習慣情報２３４、及び対応情報２３６の詳細については、後述する。

図６は、回答情報２３２の内容の一例を示す図である。回答情報２３２には、例えば、意味情報に、制御部１２０に実行させる処理（制御）内容が対応付けられている。意味情報とは、例えば、音声認識部２１３により発話内容全体から認識される意味である。処理内容には、例えば、車載機器ＶＥの制御に関する車載機器制御内容や、エージェント音声を出力する音声の内容と制御内容、表示部１１０に表示させる表示制御内容等が含まれる。例えば、回答情報２３２では、「ナビゲーション装置の目的地検索」という意味情報に対して、「ナビゲーション装置に指定した条件に合致する目的地を検索させる」という車載機器制御と、「（検索結果の数）件、見つかりました。」という音声制御内容と、検索結果の位置を示す画像を表示する表示制御内容とが対応付けられている。

図５に戻り、取得部２１１は、通信部２０２によりエージェント装置１００から送信された、音声データを取得する。

発話区間抽出部２１２は、取得部１２１により取得された音声データから、乗員が発話している期間（以下、発話区間と称する）を抽出する。例えば、発話区間抽出部２１２は、零交差法を利用して、音声データに含まれる音声信号の振幅に基づいて発話区間を抽出してよい。また、発話区間抽出部２１２は、混合ガウス分布モデル（ＧＭＭ；Gaussian mixture model）に基づいて、音声データから発話区間を抽出してもよいし、発話区間特有の音声信号をテンプレート化したデータベースとテンプレートマッチング処理を行うことで、音声データから発話区間を抽出してもよい。

音声認識部２１３は、発話区間抽出部２１２により抽出された発話区間ごとに音声データを認識し、抽出された音声データをテキスト化することで、発話内容を含むテキストデータを生成する。例えば、音声認識部２１３は、発話区間の音声信号を、低周波数や高周波数等の複数の周波数帯に分離し、分類した各音声信号をフーリエ変換することで、スペクトログラムを生成する。音声認識部２１３は、生成したスペクトログラムを、再帰的ニューラルネットワークに入力することで、スペクトログラムから文字列を得る。再帰的ニューラルネットワークは、例えば、学習用の音声から生成したスペクトログラムに対して、その学習用の音声に対応した既知の文字列が教師ラベルとして対応付けられた教師データを利用することで、予め学習されていてよい。そして、音声認識部２１３は、再帰的ニューラルネットワークから得た文字列のデータを、テキストデータとして出力する。

また、音声認識部２１３は、自然言語のテキストデータの構文解析を行って、テキストデータを形態素に分け、各形態素からテキストデータに含まれる文言の意味を解釈する。

推定部２１４は、乗員と、エージェントとのやり取りに基づいて、乗員の習慣を推定する。推定部２１４は、推定した乗員の習慣に基づいて、習慣情報２３４を生成（更新）する。推定部２１４の処理の詳細については、後述する。

指示特定部２１５は、音声認識部２１３により認識された乗員の発話内容（音声データ）に含まれる指示を特定する。指示特定部２１５は、例えば、音声認識部２１３により解釈された発話内容の意味に基づいて、回答情報２３２の意味情報を参照し、合致する意味情報の指示を特定する。なお、音声認識部２１３の認識結果として、「エアコンをつけて」、「エアコンの電源を入れてください」等の意味が解釈された場合、指示特定部２１５は、上述の意味を標準文字情報「エアコンの起動」等に置き換える。これにより、発話内容の要求に表現揺らぎやテキスト化の文字揺らぎ等があった場合にも要求にあった指示を取得し易くすることができる。

処理特定部２１６は、指示特定部２１５により特定された指示に応じた処理であって、車載機器ＶＥに行わせる処理を特定する。処理特定部２１６は、例えば、回答情報２３２において指示特定部２１５に特定された指示に対応付けられている処理内容を、車載機器ＶＥに行わせる処理として特定する。また、処理特定部２１６は、指示特定部２１５により特定された指示に応じた処理を特定できなかった場合、推定部２１４により推定された乗員の習慣に基づいて、指示に応じた処理を特定する。処理特定部２１６の処理の詳細については、後述する。

エージェントデータ生成部２１７は、取得した処理内容（例えば、車載機器制御、音声制御、または表示制御のうち少なくとも一つ）に対応する処理を実行させるためのエージェントデータを生成する。

通信制御部２１８は、エージェントデータ生成部２１７により生成されたエージェントデータを、通信部２０２によりエージェント装置１００に送信させる。これにより、エージェント装置１００は、制御部１２０により、エージェントデータに対応する制御が実行することができる。

以下、推定部２１４の処理との詳細と、処理特定部２１６が乗員の習慣に基づいて処理を特定する処理の詳細について説明する。

［乗員の習慣の推定］
図７は、乗員の習慣を推定する場面の一例を示す図である（なお、この図における「エージェント」は乗員に向けて表示部１１０に表示されるエージェントを表した画像である）。まず、乗員は、エージェントに対して車載機器ＶＥに行わせる処理を指示する発話ＣＶ１１を行う。発話ＣＶ１１は、例えば、「『ねぇ〇〇（エージェント名）』（ウェイクアップワード）、この周辺にある１０００円以下のランチを提供している評価３点以上のレストラン（条件１）を検索して？（指示１）」等の言葉である。発話ＣＶ１１には、車載機器ＶＥであるナビゲーション装置に目的地を検索させる処理を指示する言葉（指示１）と、検索条件を表す言葉（条件１）とが含まれる。これを受けて、サーバ装置２００は、ナビゲーション装置に（指示１）を（条件１）により実行させるエージェントデータや、指示に応じた処理の結果を乗員に通知させるエージェントデータを生成する。エージェント装置１００は、エージェントデータに基づいて、各種処理を実行する。そして、エージェントは、発話ＣＶ１１に対応する応答文ＲＰ１１を回答する。応答文ＲＰ１１は、例えば、「２件見つかりました。Ａ店とＢ店どちらに向かいますか？」等の言葉である。

応答文ＲＰ１１には、乗員の回答を促す言葉が含まれるため、乗員は、応答文ＲＰ１１に対応する発話ＣＶ１２を行う。発話ＣＶ１２は、例えば、「Ａ店（条件２）に向かって。(指示２）」等の言葉である。発話ＣＶ１２には、車載機器ＶＥであるナビゲーション装置に経路の案内をさせる処理を指示する言葉（指示２）と、経路の案内の条件を表す言葉（条件２）とが含まれる。これを受けて、サーバ装置２００は、ナビゲーション装置に（指示２）を（条件２）により実行させるエージェントデータや、指示に応じた処理の結果を乗員に通知させるエージェントデータを生成する。エージェント装置１００は、エージェントデータに基づいて、各種処理を実行する。そして、エージェントは、発話ＣＶ１２に対応する応答文ＲＰ１２を回答する。応答文ＲＰ１２は、例えば、「Ａ店までの経路を検索しました。」等の言葉である。

推定部２１４は、乗員が発話した指示に習慣性があるか（つまり、指示が繰り返しなされているか）を推定する。推定部２１４は、例えば、乗員の発話内容を示す情報と、指示特定部２１５により特定された指示を示す情報と、処理特定部２１６により特定された処理を示す情報と、当該発話、当該指示、又は当該処理が行われた日時を示す情報とが対応付けられた履歴情報（不図示）を参照し、指示を含む発話が、過去に同様のタイミングにされているか否かを判定する。同様のタイミングとは、例えば、同様の曜日、一様に平日、一様に休日、同様の時刻、車両Ｍの位置が同様の位置、一様に乗車する（或いは、一様に乗車してから所定時間後の）タイミング、一様に降車する（或いは、一様に降車予定時刻から所定時間前の）タイミング等である。図７において、乗員は、平日の午前１１時３０分頃に、ナビゲーション装置に（条件１）により（指示１）を行わせる発話を習慣的に行っている。推定部２１４は、例えば、同様のタイミングに所定回数以上、同様の処理を行わせる指示を乗員が発話している場合、当該指示に習慣性があると推定する。

なお、推定部２１４は、履歴情報に含まれる指示を含む発話の内容と、指示を含む発話の一致の程度に基づいて、当該指示に習慣性があると推定してもよい。この場合、推定部２１４は、同じような発話（例えば、お決まりの発話等）を所定回数以上している場合、当該指示に習慣性があると推定する。また、推定部２１４は、目的地の場所、目的地への出発時刻、目的地の到着時刻、目的地の評価、及び目的地のカテゴリ等に基づいて、当該指示に習慣性があると推定してもよい。推定部２１４は、例えば、口コミサイト等の評価を参照して目的地の評価を特定してもよい。

推定部２１４は、乗員が発話した指示に習慣性があると推定した場合、習慣化されている内容について習慣情報２３４を生成する。図８は、習慣情報２３４の内容の一例を示す図である。習慣情報２３４は、例えば、習慣性がある指示が行われるタイミングを示す情報と、指示の内容を示す情報と、当該指示に応じて行われた処理の内容を示す情報とが互いに対応付けられたレコードを一以上含む情報である。推定部２１４は、習慣性があると推定した指示を含む発話が行われたタイミングを特定し、特定したタイミングと、指示特定部２１５により特定された指示と、処理特定部２１６により特定された処理とを互いに対応付けてレコードを生成し、習慣情報２３４を生成（更新）する。

図８において、推定部２１４は、「平日の午前１１時３０分頃」というタイミングを示す情報と、処理内容として「ナビゲーション装置にこの周辺にある１０００円以下のランチを提供している評価３点以上のレストラン（条件１）に合致する目的地を検索させる（指示１）」車載機器制御と「（検索結果の数）件、見つかりました。」という音声制御内容と検索結果の位置を示す画像を表示する表示制御内容とが互いに対応付けられたレコードを生成し、習慣情報２３４を生成（更新）する。

［簡潔な語句による指示］
ここで、サーバ装置２００は、推定部２１４により習慣性があると推定された指示について、簡潔な語句により指示できるようにすることを、乗員に促してもよい。図９は、簡潔な語句により指示できるように乗員に促す場面の一例を示す図である。図９に示す場面では、乗員により発話ＣＶ１１の習慣性のある発話がなされたタイミングにおいて、推定部２１４が、乗員が発話した指示には習慣性があると推定する。そして、エージェントデータ生成部２１７は、発話ＣＶ１１に係る処理が、応答文ＲＰ１２において完結した後に、推定部２１４により習慣性があると推定された指示について、予め定められた簡潔な語句により当該指示に応じた処理を実行できるようにすることを促させるエージェントデータを生成する。予め定められた簡潔な語句とは、例えば、「いつもの」、「あれやって」、「ショートカット」等の語句である。以下、予め定められた簡潔な語句が「いつもの」であるものとする。予め定められた簡潔な語句は、「所定指示」の一例である。

エージェント装置１００は、エージェントデータに基づいて、各種処理を実行する。そして、エージェントは、応答文ＲＰ１３を回答する。応答文ＲＰ１３は、例えば、「平日のこの時間帯に同様の指示をされていますね、…(条件１）で検索する処理（指示１）を、『いつもの』（簡潔な語句の一例）という指示で登録されますか？」等の言葉である。応答文ＲＰ１３中の「平日のこの時間帯に同様の指示をされていますね」等の言葉は、推定部２１４により習慣性があると推定されたタイミングに応じた言葉である。図９では、応答文ＲＰ１３には、乗員の回答を促す言葉が含まれるため、乗員は、応答文ＲＰ１３に対応する発話ＣＶ１３を行う。発話ＣＶ１３は、例えば、「お願い。(指示３）」等の応答文ＲＰ１３に同意するような言葉である。処理特定部２１６は、応答文ＲＰ１３に対して乗員から好適な回答が得られた場合、対応情報２３６を生成（更新）する。

図１０は、対応情報２３６の内容の一例を示す図である。対応情報２３６は、予め定められた簡潔な語句を示す情報と、習慣性があると推定された指示に応じて行われる処理内容を示す情報とが互いに対応付けられたレコードが一以上含まれる情報である。推定部２１４は、簡潔な語句により指示できるようにすることを促して、好適な回答が得られた場合、簡潔な語句を示す意味情報と、簡潔な語句の指示により行われる処理の内容を示す情報とを互いに対応付けたレコードを生成し、習慣情報２３４を生成（更新）する。図１０において、対応情報２３６は、「いつもの」という意味情報と、「いつもの」と指示した場合に行われる処理として、処理内容として「ナビゲーション装置にこの周辺にある１０００円以下のランチを提供している評価３点以上のレストラン（条件１）に合致する目的地を検索させる（指示１）」車載機器制御と「（検索結果の数）件、見つかりました。」という音声制御内容と検索結果の位置を示す画像を表示する表示制御内容とが互いに対応付けられたレコードを生成し、対応情報２３６を生成（更新）する。

図１１は、乗員が簡潔な語句により指示する場面の一例を示す図である。まず、乗員は、エージェントに対して車載機器ＶＥに行わせる処理を指示する発話ＣＶ２１を行う。発話ＣＶ２１は、例えば、「『ねぇ〇〇（エージェント名）』（ウェイクアップワード）、いつもの（指示４）お願い。」等の言葉である。これを受けて、指示特定部２１５は、音声認識部２１３により認識された乗員の発話内容（音声データ）に含まれる指示として、「いつもの」（指示４）を特定する。処理特定部２１６は、指示特定部２１５により特定された指示である「いつもの」（指示４）を検索キーとして対応情報２３６を検索する。処理特定部２１６は、検索した結果、「いつもの」（指示４）に対応付けられた処理内容を、車載機器ＶＥに行わせる処理として特定する。

エージェントデータ生成部２１７は、処理特定部２１６により特定された処理を車載機器ＶＥに実行させるためのエージェントデータを生成する。エージェント装置１００は、エージェントデータに基づいて、各種処理を実行する。そして、エージェントは、発話ＣＶ２１に対応する応答文ＲＰ２１を回答する。応答文ＲＰ２１には、例えば、「この周辺にある１０００円以下のランチを提供している評価３点以上のレストラン（条件１）が２件見つかりました。Ａ店とＢ店どちらに向かいますか？」等の乗員の簡単な語句によってされた指示（の意図）を復唱する言葉と、指示に応じた処理の結果を示す言葉とが含まれる。以降の乗員の発話ＣＶに対応する処理は、上述した処理と同様であるため、説明を省略する。

これにより、エージェントシステム１は、車両Ｍの乗員の簡潔な語句の発話により、乗員の習慣的な指示に応じた処理を車載機器ＶＥに行わせることができる。また、これにより、エージェントシステム１は、習慣情報２３４や対応情報２３６を用いて、乗員の指示を特定することにより、乗員の習慣に基づいて操作対象の車載機器ＶＥに対する指示を特定しやすくすることができる。

［乗員の習慣に基づく指示の特定］
ここで、車両Ｍの乗員が、未だ処理が対応付けられていない簡潔な語句により指示を行ってしまう場合がある。この場合、処理特定部２１６は、習慣情報２３４に基づいて、乗員の指示に応じた処理を特定する。

図１２は、乗員が習慣に基づいて指示を特定する場面の一例を示す図である。まず、乗員は、エージェントに対して車載機器ＶＥに行わせる処理を指示する発話ＣＶ３１を行う。発話ＣＶ３１は、例えば、「『ねぇ〇〇（エージェント名）』（ウェイクアップワード）、あれやって（指示５）。」等の言葉である。これを受けて、指示特定部２１５は、音声認識部２１３により認識された乗員の発話内容（音声データ）に含まれる指示として、「あれやって」（指示５）を特定する。処理特定部２１６は、指示特定部２１５により特定された指示である「あれやって」（指示５）を検索キーとして対応情報２３６を検索する。図１０の対応情報２３６に示されるように、「あれやって」（指示５）という簡潔な語句による指示を示すレコードは、未だ対応情報２３６のレコードとして登録されていない。また、同様に、回答情報２３２には、「あれやって」という意味情報が含まれるレコードが登録されていない。したがって、処理特定部２１６は、回答情報２３２や対応情報２３６に基づいて、乗員の指示に対応する処理を特定することができない。

この場合、処理特定部２１６は、習慣情報２３４に基づいて、乗員の指示に対応する処理を特定する。処理特定部２１６は、乗員の発話が行われたタイミングの特徴を特定する。タイミングの特徴とは、例えば、何曜日か、平日と休日とのどちらか、時刻、車両Ｍの位置、乗車するタイミング（或いは、乗車してから所定時間後のタイミング）であるか、降車するタイミング（或いは、降車予定時刻から所定時間前のタイミング）であるか等である。

図１２において、処理特定部２１６は、乗員の発話が行われたタイミングが平日の午前１１：３０頃であると特定する。処理特定部２１６は、特定したタイミングを検索キーとして習慣情報２３４を検索する。処理特定部２１６は、検索した結果、特定したタイミングと合致するタイミング、或いは特定したタイミングと合致の程度が高いタイミングに対応付けられた処理内容を特定する。

エージェントデータ生成部２１７は、処理特定部２１６により特定された処理を車載機器ＶＥに実行させるためのエージェントデータを生成する。また、エージェントデータ生成部２１７は、習慣情報２３４において処理特定部２１６により特定された処理に対応付けられた指示内容を乗員に確認するためのエージェントデータを生成する。エージェント装置１００は、エージェントデータに基づいて、各種処理を実行する。そして、エージェントは、発話ＣＶ３１に対応する応答文ＲＰ３１を回答する。応答文ＲＰ３１には、例えば、「『あれやって（指示５）』が分かりませんでした。とりあえず、Ａさんの習慣から、この周辺にある１０００円以下のランチを提供している評価３点以上のレストラン（条件１）を検索し、２件見つかりました。Ａ店とＢ店どちらに向かいますか？」等の乗員の簡単な語句によってされた指示（の意図）を復唱する言葉と、指示に応じた処理の結果を示す言葉とが含まれる。以降の乗員の発話ＣＶに対応する処理は、上述した処理と同様であるため、説明を省略する。

なお、未だ対応情報２３６のレコードとして登録されていない簡潔な語句の指示について、習慣情報２３４に基づいて処理特定部２１６が処理を特定し、特定した指示が乗員に受けられ入れられた場合、処理特定部２１６は、当該簡潔な語句の指示を示す情報と、処理の内容を示す情報とが互いに対応付けられたレコードを生成し、対応情報２３６を更新してもよい。また、この時、エージェントデータ生成部２１７は、新たなレコードを生成して習慣情報２３４に登録することを乗員に通知するためのエージェントデータを生成し、エージェント装置１００の情報出力装置は、エージェントデータに基づいて、乗員に通知を行ってもよい。

これにより、エージェントシステム１は、発話による乗員の指示を特定しつつ、乗員の指示を特定できない場合には、乗員の習慣に基づいて操作対象の車載機器ＶＥに対する指示を特定することができる。また、これにより、エージェントシステム１は、乗員が新たに発話した簡潔な語句を指示として更新することができる。また、これにより、エージェントシステム１は、簡潔な語句が指示として更新されたことを乗員に通知することができる。

［指示の訂正］
ここで、車両Ｍの乗員は、誤った語句を用いて指示を行ってしまったり、想定していた語句とは異なる語句と指示とを対応付けてしまったりする場合がある。乗員の発話内容に指示を訂正する内容が含まれる場合には、指示特定部２１５は、指示を特定し直す処理を行う。以下、指示特定部２１５による指示の訂正に係る処理について説明する。

図１３は、指示を特定し直す場面の一例を示す図である。まず、乗員は、エージェントに対して車載機器ＶＥに行わせる処理を指示する発話ＣＶ２１を行う。発話ＣＶ２１は、例えば、「『ねぇ〇〇（エージェント名）』（ウェイクアップワード）、いつもの（指示４）お願い。」等の言葉である。これを受けて、指示特定部２１５は、音声認識部２１３により認識された乗員の発話内容（音声データ）に含まれる指示として、「いつもの」（指示４）を特定する。処理特定部２１６は、指示特定部２１５により特定された指示である「いつもの」（指示４）を検索キーとして対応情報２３６を検索する。処理特定部２１６は、検索した結果、「いつもの」（指示４）に対応付けられた処理内容を、車載機器ＶＥに行わせる処理として特定する。

エージェントデータ生成部２１７は、処理特定部２１６により特定された処理を車載機器ＶＥに実行させるためのエージェントデータを生成する。エージェント装置１００は、エージェントデータに基づいて、各種処理を実行する。そして、エージェントは、発話ＣＶ２１に対応する応答文ＲＰ２１を回答する。応答文ＲＰ２１には、例えば、「この周辺にある１０００円以下のランチを提供している評価３点以上のレストラン（条件１）が２件見つかりました。Ａ店とＢ店どちらに向かいますか？」等の乗員の簡単な語句によってされた指示（の意図）を復唱する言葉と、指示に応じた処理の結果を示す言葉とが含まれる。

ここで、応答文ＲＰ２１の回答は、乗員が想定していた指示と異なる指示に対応する処理を行う旨の回答である。したがって、乗員は、応答文ＲＰ２１に応じて、指示を訂正する発話ＣＶ５１を行う。発話ＣＶ５１は、例えば、「違うよ（訂正）。朝にお茶できる評価３以上のカフェ(条件３）を検索して？（指示１）」等の言葉である。発話ＣＶ５１には、応答文ＲＰ２１において提示した指示を訂正する言葉（この場合、「違うよ」）と、車載機器ＶＥであるナビゲーション装置に目的地を検索させる処理を指示する言葉（指示１）と、検索条件を表す言葉（条件３）とが含まれる。これを受けて、指示特定部２１５は、例えば、音声認識部２１３により認識された発話内容の意味に基づいて、ナビゲーション装置に（指示１）を（条件３）により実行させることを指示として特定し直す。

処理特定部２１６は、指示特定部２１５により特定し直された指示に応じた処理であって、車載機器ＶＥに行わせる処理を特定し直す。処理特定部２１６は、例えば、回答情報２３２において指示特定部２１５に特定された指示に対応付けられている処理内容を、車載機器ＶＥに行わせる処理として特定する。

なお、処理特定部２１６は、指示特定部２１５により指示が特定し直された場合、音声認識部２１３により認識された乗員の発話内容（音声データ）に基づいて、当該発話内容に含まれる処理（この場合、（指示１）を（条件３）により実行する処理）を特定してもよい。

エージェントデータ生成部２１７は、処理特定部２１６により特定された処理を車載機器ＶＥに実行させるためのエージェントデータを生成する。エージェント装置１００は、エージェントデータに基づいて、各種処理を実行する。そして、エージェントは、発話ＣＶ５１に対応する応答文ＲＰ５２を回答する。応答文ＲＰ５２は、例えば、「朝にお茶できる評価３以上のカフェ(条件３）が２件見つかりました。Ｃ店とＤ店どちらに向かいますか？」等の言葉である。以降の乗員の発話ＣＶに対応する処理は、上述した処理と同様であるため、説明を省略する。

指示特定部２１５は、乗員により指示が訂正された場合、当該訂正された指示を示す意味情報と、処理内容とが互いに対応付けられたレコードを対応情報２３６から削除してもよい。また、処理特定部２１６は、指示特定部２１５により特定し直された指示を示す情報と、特定し直された指示に応じた処理を示す情報とを互いに対応付けたレコードを生成し、対応情報２３６に登録（更新）してもよい。以下、乗員により指示が訂正された場合、処理特定部２１６がレコードを生成し、対応情報２３６を更新するものとする。

図１４は、乗員により指示が訂正されたことに伴い更新された対応情報２３６の内容の一例を示す図である。この場合、処理特定部２１６は、訂正された指示を表す簡潔な語句の意味情報と、指示特定部２１５により特定し直された指示に応じた処理を示す情報とを互いに対応付けたレコードを生成し、対応情報２３６に更新する。これにより、対応情報２３６には、「いつもの」（指示４）という意味情報と、「いつもの」と指示した場合に行われる処理として、処理内容として「朝にお茶できる評価３以上のカフェ（条件３）に合致する目的地を検索させる（指示１）」車載機器制御と「（検索結果の数）件、見つかりました。」という音声制御と検索結果の位置を示す画像を表示する表示制御とが互いに対応付けられたレコードが含まれる。

なお、指示特定部２１５は、対応情報２３６において、ある一つの指示に対して複数の処理が対応付けられている場合、習慣情報２３４とタイミングの特徴とに基づいて、複数の処理のうち、特定したタイミングの特徴と合致するタイミング、或いは特定したタイミングの特徴と合致の程度が高いタイミングに対応付けられた処理内容を特定してもよい。

これにより、エージェントシステム１は、適切に簡潔な語句の指示を乗員に登録させつつ、簡便な方法により乗員に指示を訂正させることができる。

［習慣の訂正］
ここで、推定部２１４が車両Ｍの乗員の習慣として推定した内容が誤りである場合がある。この場合、処理特定部２１６は、誤った習慣に基づいて、乗員の指示に応じた処理を特定してしまう場合がある。乗員の発話内容に習慣を訂正する内容が含まれる場合には、推定部２１４は、習慣を推定し直す処理を行う。以下、推定部２１４による習慣の訂正に係る処理について説明する。

図１５は、習慣を推定し直す場面の一例を示す図である。まず、乗員は、エージェントに対して車載機器ＶＥに行わせる処理を指示する発話ＣＶ２１を行う。発話ＣＶ２１は、例えば、「『ねぇ〇〇（エージェント名）』（ウェイクアップワード）、あれやって（指示５）」等の言葉である。これを受けて、指示特定部２１５は、音声認識部２１３により認識された乗員の発話内容（音声データ）に含まれる指示として、「あれやって」（指示５）を特定する。処理特定部２１６は、指示特定部２１５により特定された指示である「あれやって」（指示５）を検索キーとして対応情報２３６を検索する。図１０の対応情報２３６に示されるように、「あれやって」（指示５）という簡潔な語句による指示を示すレコードは、未だ対応情報２３６のレコードとして登録されていない。また、同様に、回答情報２３２には、「あれやって」という意味情報が含まれるレコードが登録されていない。したがって、処理特定部２１６は、回答情報２３２や対応情報２３６に基づいて、乗員の指示に対応する処理を特定することができない。

この場合、処理特定部２１６は、習慣情報２３４に基づいて、乗員の指示に対応する処理を特定する。処理特定部２１６は、乗員の発話が行われたタイミングの特徴を特定する。図１５において、処理特定部２１６は、乗員の発話が行われたタイミングが日曜日の午前１０：００頃であると特定する。処理特定部２１６は、特定したタイミングを検索キーとして習慣情報２３４を検索する。処理特定部２１６は、検索した結果、特定したタイミングと合致或いは特定したタイミングと合致の程度が高いタイミングに対応付けられた処理内容を特定する。図８に示す習慣情報２３４には、日曜日の午前１０：００頃と合致するタイミングのレコードは存在しないものの、午前１０：００頃と合致の程度が高いタイミングのレコードが存在する。したがって、処理特定部２１６は、「平日の午前１１時３０分頃」というタイミングを示す情報と、処理内容として「ナビゲーション装置にこの周辺にある１０００円以下のランチを提供している評価３点以上のレストラン（条件１）に合致する目的地を検索させる（指示１）」車載機器制御と「（検索結果の数）件、見つかりました。」という音声制御と検索結果の位置を示す画像を表示する表示制御とが互いに対応付けられたレコードを、乗員の指示に応じた処理として特定する。

エージェントデータ生成部２１７は、処理特定部２１６により特定された処理を車載機器ＶＥに実行させるためのエージェントデータを生成する。エージェント装置１００は、エージェントデータに基づいて、各種処理を実行する。そして、エージェントは、発話ＣＶ２１に対応する応答文ＲＰ３１を回答する。応答文ＲＰ３１には、例えば、「『あれやって（指示５）』が分かりませんでした。とりあえず、Ａさんの習慣から、この周辺にある１０００円以下のランチを提供している評価３点以上のレストラン（条件１）を検索し、２件見つかりました。Ａ店とＢ店どちらに向かいますか？」等の乗員の簡単な語句によってされた指示（の意図）を復唱する言葉と、指示に応じた処理の結果を示す言葉とが含まれる。

ここで、応答文ＲＰ３１の回答は、乗員が想定していた指示と異なる指示に対応する処理を行う旨の回答である。したがって、乗員は、応答文ＲＰ３１に応じて、指示を訂正する発話ＣＶ６１を行う。発話ＣＶ６１は、例えば、「違うよ（訂正）。この曜日のこの時間帯（タイミング）には、朝にお茶できる評価３以上のカフェ(条件３）を検索して？（指示１）」等の言葉である。発話ＣＶ６１には、応答文ＲＰ３１において提示した指示の根拠となる習慣を訂正する言葉（この場合、「違うよ」）と、習慣のタイミングの特徴を示す言葉（この場合、「この曜日のこの時間帯」）と、車載機器ＶＥであるナビゲーション装置に目的地を検索させる処理を指示する言葉（指示１）と、検索条件を表す言葉（条件３）とが含まれる。これを受けて、指示特定部２１５は、例えば、音声認識部２１３により認識された発話内容の意味に基づいて、ナビゲーション装置に（指示１）を（条件３）により実行させることを指示として特定し直す。

推定部２１４は、乗員により習慣が訂正された場合、当該訂正された習慣に係るレコードを習慣情報２３４から削除してもよい。また、推定部２１４は、指示特定部２１５により特定し直された指示を示す情報と、特定し直された指示に応じて処理特定部２１６によりと特定された処理を示す情報とを互いに対応付けたレコードを生成し、習慣情報２３４に登録（更新）してもよい。以下、乗員により指示が訂正された場合、推定部２１４がレコードを生成し、習慣情報２３４を更新するものとする。

図１６は、乗員により習慣が訂正されたことに伴い更新された習慣情報２３４の内容の一例を示す図である。この場合、推定部２１４は、訂正された習慣のタイミングを示す情報と、指示特定部２１５により特定し直された指示の内容を示す情報と、特定し直された指示に応じて処理特定部２１６によりと特定された処理を示す情報とを互いに対応付けたレコードを生成し、習慣情報２３４を更新する。これにより、習慣情報２３４には、「日曜日の午前１０時００分頃」というタイミングを示す情報と、処理内容として「ナビゲーション装置に朝にお茶できる評価３以上のカフェ（条件３）に合致する目的地を検索させる（指示１）」車載機器制御と「（検索結果の数）件、見つかりました。」という音声制御と検索結果の位置を示す画像を表示する表示制御とが互いに対応付けられたレコードが含まれる。

［処理フロー］
次に、実施形態に係るエージェントシステム１の処理の流れについてフローチャートを用いて説明する。なお、以下では、エージェント装置１００の処理と、サーバ装置２００との処理を分けて説明するものとする。また、以下に示す処理の流れは、所定のタイミングで繰り返し実行されてよい。所定のタイミングとは、例えば、音声データからエージェント装置を起動させる特定ワード（例えば、ウェイクアップワード）が抽出されたタイミングや、車両Ｍに搭載される各種スイッチのうち、エージェント装置１００を起動させるスイッチの選択を受け付けたタイミング等である。

図１７は、実施形態に係るエージェント装置１００の一連の処理の流れを示すフローチャートである。まず、取得部１２１は、ウェイクアップワードが認識された後に、マイク１０６により乗員の音声データが収集されたか（つまり、乗員の発話があったか）否かを判定する（ステップＳ１００）。取得部１２１は、乗員の音声データが収集されるまでの間、待機する。次に、通信制御部１２３は、サーバ装置２００に対して音声データを通信部１０２に送信させる（ステップＳ１０２）。次に、通信制御部１２３は、通信部１０２にエージェントデータをサーバ装置２００から受信させる（ステップＳ１０４）。

出力制御部１２４や、機器制御部１２５は、エージェントデータに基づいて車載機器ＶＥを制御し、エージェントデータに含まれる処理を実行する（ステップＳ１０６）。例えば、出力制御部１２４は、音声制御に係るエージェントデータが受信された場合、スピーカ１０８にエージェント音声を出力させ、表示制御に係るエージェントデータが受信された場合、指示された画像データを表示部１１０に表示させる。機器制御部１２５は、エージェントデータが音声制御や表示制御以外の制御（つまり、スピーカ１０８、及び表示部１１０以外の車載機器ＶＥに係る制御）である場合、エージェントデータに基づいて各車載機器ＶＥを制御する。

図１８〜図１９は、実施形態に係るサーバ装置２００の一例の処理の流れを示すフローチャートである。まず、通信部２０２は、エージェント装置１００から音声データを取得する（ステップＳ２００）。次に、発話区間抽出部２１２は、音声データに含まれる発話区間を抽出する（ステップＳ２０２）。次に、音声認識部２１３は、抽出された発話区間における音声データから、発話内容を認識する。具体的には、音声認識部２１３は、音声データをテキストデータにして、最終的にはテキストデータに含まれる文言を認識する（ステップＳ２０４）。

指示特定部２１５は、音声認識部２１３により認識された発話内容に、指示、又は習慣を訂正する内容が含まれるか否かを判定する（ステップＳ２０６）。指示特定部２１５は、訂正する内容が含まれると判定する場合、処理をステップＳ２２４に進める。指示特定部２１５は、訂正する内容が含まれないと判定する場合、音声認識部２１３により認識された乗員の発話内容（音声データ）に含まれる指示を特定し、特定された指示が対応情報２３６に含まれるか否かを判定する（ステップＳ２０８）。エージェントデータ生成部２１７は、指示特定部２１５により指示が対応情報２３６に含まれると判定された場合、対応情報２３６に基づくエージェントデータを生成する（ステップＳ２１０）。

具体的には、処理特定部２１６は、対応情報２３６のレコードのうち、指示特定部２１５により特定された指示に対応付けられたレコードを特定し、当該レコードに含まれる処理内容を、乗員の指示に対応する処理として特定する。エージェントデータ生成部２１７は、処理特定部２１６により特定された処理を車載機器ＶＥに実行させるためのエージェントデータを生成する。次に、通信制御部２１８は、通信部２０２を介して、エージェントデータをエージェント装置１００に送信する（ステップＳ２２２）。

処理特定部２１６は、指示特定部２１５により乗員の発話内容に含まれる指示が、対応情報２３６に含まれないと判定した場合、回答情報２３２に基づいて、発話内容の意味情報から、指示に応じた処理を特定できるか否かを判定する（ステップＳ２１２）。処理特定部２１６は、例えば、乗員の指示が簡潔な語句によりなされている場合であって、且つ対応情報２３６に当該簡潔な語句の指示に処理内容が対応付けられたレコードが存在しない場合に、指示に応じた処理を特定できないと判定する。処理特定部２１６は、例えば、乗員の指示が、簡潔な語句の指示ではなく、文章によりなされている場合に、指示に応じた処理を特定できると判定する。

エージェントデータ生成部２１７は、処理特定部２１６により発話内容の意味情報から指示に応じた処理を特定できると判定された場合、車載機器ＶＥに当該処理を行わせるエージェントデータを生成する（ステップＳ２１４）。推定部２１４は、乗員が発話した指示に習慣性があるか（つまり、指示が繰り返しなされているか）を推定する（ステップＳ２１６）。推定部２１４は、指示に習慣性があると判定した場合、指示特定部２１５により特定された指示と、処理特定部２１６により特定された処理と、乗員の発話が行われたタイミングの特徴とに基づいて、習慣情報２３４を更新する（ステップＳ２１８）。推定部２１４は、指示に習慣性がないと判定した場合、処理をステップＳ２２２に進める。

処理特定部２１６は、発話内容の意味情報から指示に応じた処理を特定できないと判定する場合、習慣情報２３４に基づいて、指示に応じた処理を特定する（ステップＳ２２０）。処理特定部２１６は、例えば、乗員の発話が行われたタイミングを特定し、習慣情報２３４に基づいて、特定したタイミングと合致するタイミング、或いは特定したタイミングと合致の程度が高いタイミングに対応付けられた処理内容を、乗員の指示に応じた処理として特定する。エージェントデータ生成部２１７は、処理特定部２１６により特定された処理を車載機器ＶＥに行わせるためのエージェントデータを生成し（ステップＳ２２１）、処理をステップＳ２２２に進める。

指示特定部２１５は、発話に訂正する内容が含まれると判定する場合、発話が指示を訂正する内容であるか否かを判定する（ステップＳ２２４）。指示特定部２１５は、発話内容が指示を訂正する内容であると判定した場合、音声認識部２１３により認識された発話内容全体の意味に基づいて、乗員の指示を特定し直す（ステップＳ２２６）。処理特定部２１６は、指示特定部２１５により特定し直された指示に対応する処理を特定する（ステップＳ２２８）。エージェントデータ生成部２１７は、処理特定部２１６により特定された処理を車載機器ＶＥに行わせるエージェントデータを生成し（ステップＳ２３０）、処理をステップＳ２２２に進める。

指示特定部２１５は、訂正する内容が指示を訂正する内容ではないと判定した場合、発話が習慣を訂正する内容であるか否かを判定する（ステップＳ２３２）。指示特定部２１５は、発話が習慣を訂正する内容ではないと判定した場合、発話に係る指示や処理を特定できず、且つ訂正に係る内容も特定することができなかったものとして、処理を終了する。なお、この場合、エージェントシステム１は、認識できなかったため、再度、乗員の発話を促すような通知を行ってもよい。

指示特定部２１５は、発話内容が習慣を訂正する内容であると判定した場合、音声認識部２１３により認識された発話内容全体の意味に基づいて、乗員の指示を特定し直す（ステップＳ２３４）。処理特定部２１６は、指示特定部２１５により特定し直された指示に対応する処理を特定する（ステップＳ２３６）。エージェントデータ生成部２１７は、処理特定部２１６により特定された処理を車載機器ＶＥに行わせるエージェントデータを生成する（ステップＳ２３８）。推定部２１４は、指示特定部２１５により特定し直された指示と、処理特定部２１６により特定された処理とに基づいて、習慣情報２３４を更新し（ステップＳ２４０）、処理をステップＳ２２２に進める。

なお、車両Ｍの乗員が一意に定まらない場合には、習慣情報２３４や対応情報２３６には、乗員を識別可能な識別情報（以下、ユーザＩＤ）が含まれていてもよい。例えば、取得部１２１は、車両Ｍに乗員が乗車した際に、車両Ｍが備えるＨＭＩ（Human machine Interface）等を用いて乗員からユーザＩＤを取得するものであってもよく、車両Ｍの車内に乗員を撮像可能に設けられたカメラが乗員を撮像した画像を画像認識処理することにより乗員を認識し、ユーザＩＤのデータベースから乗員のユーザＩＤを取得するものであってもよく、マイク１０６が収音した音声のデータを生体認証することにより乗員を認識するものであってもよい。乗員が用いる車両Ｍのスマートキー毎にユーザＩＤが定められており、車両Ｍのスマートキーと情報を送受信することにより、ユーザＩＤを取得するものであってもよい。指示特定部２１５や、処理特定部２１６は、ユーザＩＤが対応付けられた習慣情報２３４や対応情報２３６のレコードのうち、取得部１２１により取得されたユーザＩＤと合致するユーザＩＤが対応付けられたレコードに基づいて、乗員の指示や、当該指示に対応付けられた処理を特定する。指示特定部２１５や、処理特定部２１６は、ユーザＩＤが対応付けられた習慣情報２３４や対応情報２３６のレコードのうち、取得部１２１により取得されたユーザＩＤと合致するユーザＩＤが対応付けられたレコードを特定する処理において、「利用者特定部」の一例である。

これにより、エージェントシステム１は、より乗員に適した指示に応じて車載機器ＶＥに行わせる処理を特定することができる。

［習慣情報２３４と対応情報２３６との合成］
また、上述では、記憶部１５０には、習慣情報２３４と対応情報２３６とがそれぞれ記憶される場合について説明したが、これに限られない。記憶部１５０には、例えば、習慣情報２３４と、対応情報２３６とに代えて、習慣情報２３４と、対応情報２３６とを合成した合成情報が記憶されていてもよい。図２０は、合成情報の内容の一例を示す図である。合成情報は、例えば、予め定められた簡潔な語句を示す情報と、習慣性があると推定された指示が行われるタイミングを示す情報と、指示の内容を示す情報と、当該指示に応じて行われた処理の内容を示す情報とが互いに対応付けられたレコードを一以上含む情報である。推定部２１４や、処理特定部２１６は、上述した処理によって、合成情報を生成（更新）する。また、推定部２１４は、合成情報に基づいて、習慣を推定し、処理特定部２１６は、合成情報に基づいて、指示や処理を特定する。これにより、エージェントシステム１は、簡潔な語句（例えば『いつもの』という語句）をタイミングにより使い分け、聞き分けることができる。

［実施形態のまとめ］
以上説明したように、本実施形態のエージェントシステム１は、利用者が発話した音声を示すデータを取得する取得部１２１と、取得部１２１により取得されたデータに基づいて、利用者の発話内容を認識する音声認識部２１３と、利用者とエージェントシステム１（エージェント）とのやり取りに基づいて、利用者の習慣を推定する推定部２１４と、音声認識部２１３により認識された発話内容に含まれる指示を特定する指示特定部２１５と、指示特定部２１５により特定された指示に応じた処理を特定する、又は指示特定部２１５により特定された指示に応じた処理を特定できない場合には、推定部２１４により推定された習慣に基づいて指示に応じた処理を特定する処理特定部２１６と、指示特定部２１５により特定された指示を示す情報と、処理特定部２１６により特定された処理を示す情報とを、スピーカ１０８を含む情報出力装置に音声により出力させる出力制御部１２４と、を備える。これにより、本実施形態のエージェントシステム１は、操作者の指示を特定できない場合には、操作者の習慣に基づいて操作対象の機器に対する指示を特定することができる。

＜変形例＞
上述した実施形態では、車両Ｍに搭載されたエージェント装置１００と、サーバ装置２００とが互いに異なる装置であるものとして説明したがこれに限定されるものではない。例えば、エージェント機能に係るサーバ装置２００の構成要素は、エージェント装置１００の構成要素に含まれてもよい。この場合、サーバ装置２００は、エージェント装置１００の制御部１２０により仮想的に実現される仮想マシンとして機能させてもよい。以下、サーバ装置２００の構成要素を含むエージェント装置１００Ａを変形例として説明する。なお、変形例において、上述した実施形態と同様の構成要素については、同様の符号を付するものとし、ここでの具体的な説明は省略する。

図２１は、変形例に係るエージェント装置１００Ａの構成の一例を示す図である。エージェント装置１００Ａは、例えば、通信部１０２と、マイク１０６と、スピーカ１０８と、表示部１１０と、制御部１２０ａと、記憶部１５０ａとを備える。制御部１２０ａは、例えば、取得部１２１と、音声合成部１２２と、通信制御部１２３と、出力制御部１２４と、発話区間抽出部２１２と、音声認識部２１３と、推定部２１４と、指示特定部２１５と、処理特定部２１６と、エージェントデータ生成部２１７とを備える。

また、記憶部１５０ａは、例えば、プロセッサにより参照されるプログラムのほかに、車載機器情報１５２、回答情報２３２、及び習慣情報２３４、対応情報２３６が含まれる。回答情報２３２は、サーバ装置２００から取得した最新の情報により更新されてもよい。

エージェント装置１００Ａの処理は、例えば、図１７に示すフローチャートのステップＳ１００の処理の後に、図１８〜図１９に示すフローチャートのステップＳ２０２〜ステップＳ２２２の処理を実行し、その後、図１７に示すフローチャートのステップＳ１０６以降の処理を実行する処理である。

以上説明した変形例のエージェント装置１００Ａによれば、第１実施形態と同様の効果を奏する他、乗員からの音声を取得するたびに、ネットワークＮＷを介してサーバ装置２００との通信を行う必要がないため、より迅速に発話内容を認識することができる。また、車両Ｍがサーバ装置２００と通信できない状態であっても、エージェントデータを生成して、乗員に情報を提供することができる。

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

１…エージェントシステム、１００、１００Ａ…エージェント装置、１０２、２０２…通信部、１０６、１０６Ａ、１０６Ｂ、１０６Ｃ、１０６Ｄ、１０６Ｅ…マイク、１０８、１０８Ａ、１０８Ｂ、１０８Ｃ、１０８Ｄ、１０８Ｅ…スピーカ、１１０、１１０Ａ、１１０Ｂ、１１０Ｃ…表示部、１２０、１２０ａ、２１０…制御部、１２１、２１１…取得部、１２２…音声合成部、１２３、２１８…通信制御部、１２４…出力制御部、１２５…機器制御部、１５０、１５０ａ、２３０…記憶部、１５２…車載機器情報、２００…サーバ装置、２１２…発話区間抽出部、２１３…音声認識部、２１４…推定部、２１５…指示特定部、２１６…処理特定部、２１７…エージェントデータ生成部、２３２…回答情報、２３４…習慣情報、２３６…対応情報、Ｍ…車両、ＶＥ…車載機器

Claims

利用者が発話した音声を示すデータを取得する取得部と、
前記取得部により取得された前記データに基づいて前記利用者の発話内容を認識する音声認識部と、
前記利用者と自システムとのやり取りに基づいて前記利用者の習慣を推定する推定部と、
前記音声認識部により認識された前記発話内容に含まれる指示を特定する指示特定部と、
前記指示特定部により特定された前記指示に応じた処理を特定する、又は前記指示特定部により特定された前記指示に応じた処理を特定できない場合には前記推定部により推定された前記習慣に基づいて前記指示に応じた前記処理を特定する、処理特定部と、
前記指示特定部により特定された前記指示を示す情報と前記処理特定部により特定された前記処理を示す情報とを、スピーカを含む情報出力装置に音声により出力させる出力制御部と、
を備えるエージェントシステム。
前記処理特定部は、
指示を示す情報と処理を示す情報とが互いに対応付けられた対応情報に基づいて、前記処理を特定し、
前記推定部により推定された前記習慣に基づいて前記処理を特定した場合、前記指示特定部により特定された前記指示を示す情報と特定した前記処理を示す情報とにより前記対応情報を更新する、
請求項１に記載のエージェントシステム。
前記指示特定部は、前記指示特定部により特定された前記発話内容に基づいて特定した指示が、予め定められた所定指示以外の指示である場合、特定した前記指示と前記処理とにより前記対応情報を更新する、
請求項２に記載のエージェントシステム。
前記所定指示は、目的地の場所、目的地への出発時刻、目的地の到着時刻、目的地の評価、及び目的地のカテゴリのうち、少なくとも一つを指示するものであって、
前記処理特定部は、前記指示特定部により特定された前記指示が前記所定指示である場合、前記所定指示に応じた目的地に係る処理を特定し、前記指示特定部により特定された前記指示が前記所定指示ではない場合、前記推定部により推定された前記習慣に基づいて、前記指示に応じた前記処理を特定する、
請求項３に記載のエージェントシステム。
前記出力制御部は、前記処理特定部により前記対応情報が更新されることを示す情報を、前記情報出力装置に出力させる、
請求項２から４のいずれか一項に記載のエージェントシステム。
前記指示特定部は、前記指示を示す情報と、前記処理を示す情報とが前記情報出力装置により出力された際に、前記音声認識部により認識された前記発話内容に、前記指示を示す情報を訂正する内容が含まれる場合、前記指示を特定し直し、特定し直した前記指示を示す情報と前記処理を示す情報とにより前記対応情報を更新する、
請求項２から５のうちいずれか一項に記載のエージェントシステム。
前記推定部は、前記利用者の習慣に基づき特定された前記処理を示す情報が前記情報出力装置により出力された際に、前記音声認識部により認識された前記発話内容に、前記処理を訂正する内容が含まれる場合、前記利用者の習慣を推定し直す、
請求項２から６のうちいずれか一項に記載のエージェントシステム。
前記処理特定部は、更に、前記音声認識部により認識された前記発話内容に含まれる前記利用者の識別情報に基づいて前記処理を特定する、
請求項１から７のうちいずれか一項に記載のエージェントシステム。
前記音声認識部により認識された前記発話内容に係る当該発話をした利用者を特定する利用者特定部を、更に備え、
前記処理特定部は、前記利用者特定部によって特定された前記利用者毎に、前記処理を特定する、
請求項１から８のうちいずれか一項に記載のエージェントシステム。
コンピュータが、
利用者が発話した音声を示すデータを取得し、
取得された前記データに基づいて、前記利用者の発話内容を認識し、
前記利用者と自システムとのやり取りに基づいて、前記利用者の習慣を推定し、
認識された前記発話内容に含まれる指示を特定し、
特定された前記指示に応じた処理を特定し、又は特定された前記指示に応じた処理を特定できない場合には、推定された前記習慣に基づいて前記指示に応じた前記処理を特定し、
特定された前記指示を示す情報と、特定された前記処理を示す情報とを、スピーカを含む情報出力装置に音声により出力させる、
エージェント方法。
コンピュータに、
利用者が発話した音声を示すデータを取得させ、
取得された前記データに基づいて、前記利用者の発話内容を認識させ、
前記利用者と自システムとのやり取りに基づいて、前記利用者の習慣を推定させ、
認識された前記発話内容に含まれる指示を特定させ、
特定された前記指示に応じた処理を特定させ、又は特定された前記指示に応じた処理を特定できない場合には、推定された前記習慣に基づいて前記指示に応じた前記処理を特定させ、
特定された前記指示を示す情報と、特定された前記処理を示す情報とを、スピーカを含む情報出力装置に音声により出力させる、
プログラム。