JP2021117296A

JP2021117296A - エージェントシステム、端末装置およびエージェントプログラム

Info

Publication number: JP2021117296A
Application number: JP2020009263A
Authority: JP
Inventors: 幸輝竹下; Yukiteru Takeshita
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2020-01-23
Filing date: 2020-01-23
Publication date: 2021-08-10
Also published as: DE102020131203A1; CN113160830A; US20210233538A1

Abstract

【課題】複数の音声対話エージェントのサービスが利用可能な場合に、ユーザが求める機能を有する音声対話エージェントを精度良く呼び出すことができるエージェントシステム、端末装置およびエージェントプログラムを提供すること。【解決手段】エージェントシステムは、ハードウェアを有する第一のプロセッサであって、ユーザの発話音声を認識し、ユーザの発話音声に含まれる指示が、複数の音声対話エージェントのうちのどの音声対話エージェントへの指示であるのかを判定し、判定した音声対話エージェントの機能を実現するエージェントサーバに対して、ユーザの発話音声を転送する第一のプロセッサを備える端末装置と、ハードウェアを有する第二のプロセッサであって、端末装置から転送されたユーザの発話音声を認識し、その認識結果を端末装置に出力する第二のプロセッサを備えるエージェントサーバと、を備える。【選択図】図２

Description

本開示は、エージェントシステム、端末装置およびエージェントプログラムに関する。

特許文献１には、異なる機能を有する複数の音声対話エージェントのサービスを利用するための音声対話方法が開示されている。この音声対話方法では、音声認識処理の結果およびエージェント情報に基づいて、入力音声信号に基づく処理を、どの音声対話エージェントに実行させるのかを決定する。

特開２０１８−１８９９８４号公報

複数の音声対話エージェントのサービスが利用可能な場合に、ユーザが求める機能を有する音声対話エージェントを精度良く呼び出すことができる技術が求められていた。

本開示は、上記に鑑みてなされたものであって、複数の音声対話エージェントのサービスが利用可能な場合に、ユーザが求める機能を有する音声対話エージェントを精度良く呼び出すことができるエージェントシステム、端末装置およびエージェントプログラムを提供することを目的とする。

本開示に係るエージェントシステムは、ハードウェアを有する第一のプロセッサであって、ユーザの発話音声を認識し、前記ユーザの発話音声に含まれる指示が、複数の音声対話エージェントのうちのどの音声対話エージェントへの指示であるのかを判定し、判定した音声対話エージェントの機能を実現するエージェントサーバに対して、前記ユーザの発話音声を転送する第一のプロセッサを備える端末装置と、ハードウェアを有する第二のプロセッサであって、前記端末装置から転送された前記ユーザの発話音声を認識し、その認識結果を前記端末装置に出力する第二のプロセッサを備えるエージェントサーバと、を備える。

本開示に係る端末装置は、ハードウェアを有するプロセッサを備え、前記プロセッサは、ユーザの発話音声を認識し、前記ユーザの発話音声に含まれる指示が、複数の音声対話エージェントのうちのどの音声対話エージェントへの指示であるのかを判定し、判定した音声対話エージェントの機能を実現するエージェントサーバに対して、前記ユーザの発話音声を転送し、前記エージェントサーバから、前記ユーザの発話音声の認識結果を取得する。

本開示に係るエージェントプログラムは、ハードウェアを有するプロセッサに、ユーザの発話音声を認識し、前記ユーザの発話音声に含まれる指示が、複数の音声対話エージェントのうちのどの音声対話エージェントへの指示であるのかを判定し、判定した音声対話エージェントの機能を実現するエージェントサーバに対して、前記ユーザの発話音声を転送する、ことを実行させる。

本開示によれば、異なる機能を有する複数の音声対話エージェントのサービスを利用する際に、ユーザが求める機能を有する音声対話エージェントを精度良く呼び出すことができる。

図１は、実施形態に係るエージェントシステムおよび端末装置を概略的に示す図である。図２は、実施形態に係るエージェントシステムおよび端末装置の構成を概略的に示すブロック図である。図３は、実施形態に係るエージェントシステム、端末装置およびエージェントプログラムが実行する音声対話方法の処理手順の一例を示すフローチャートである。

本開示の実施形態に係るエージェントシステム、端末装置およびエージェントプログラムについて、図面を参照しながら説明する。なお、下記実施形態における構成要素には、当業者が置換可能かつ容易なもの、あるいは実質的に同一のものが含まれる。

（エージェントシステム／端末装置）
本実施形態に係るエージェントシステムおよび端末装置の構成について、図１および図２を参照しながら説明する。本実施形態に係るエージェントシステム、端末装置およびエージェントプログラムは、ユーザに対して、複数の音声対話エージェント（以下、「エージェント」という）のサービスを提供するためのものである。

ここで、「ユーザ」とは、端末装置を通じて複数のエージェントのサービスを利用する者である。本実施形態における端末装置は、車両に搭載されている車載装置を想定している。そのため、ユーザは、例えば車両の運転者を含む乗員である。なお、端末装置は、車両に搭載されている車載装置には限定されず、例えばユーザが所持する情報端末装置であってもよい。この情報端末装置としては、例えば携帯電話、タブレット端末、ウェアラブルコンピュータ、パーソナルコンピュータ等が挙げられる。

エージェントシステム１は、図１に示すように、車載装置１１を備える車両１０と、第一ＶＰＡ（Virtual Personal Assistant：バーチャルパーソナルアシスタント）サーバ２０と、第二ＶＰＡサーバ３０と、を有している。本実施形態に係る端末装置は、具体的には車載装置１１によって実現される。車両１０、第一ＶＰＡサーバ２０および第二ＶＰＡサーバ３０は、ネットワークＮＷを通じて相互に通信可能に構成されている。このネットワークＮＷは、例えばインターネット回線網、携帯電話回線網等から構成される。

本実施形態におけるエージェントシステム１は、二つのＶＰＡサーバを利用しているが、ＶＰＡサーバの数は三つ以上でもよい。また、本実施形態において、第一ＶＰＡサーバ２０は、エージェントＡの機能を実現するためのサーバ装置であり、第二ＶＰＡサーバ３０は、エージェントＢの機能を実現するためのサーバ装置である。このエージェントＡおよびエージェントＢは、同じ種類のサービス（例えば音楽ストリーミングサービス）を提供するものであってもよく、あるいは異なる種類のサービス（例えばエージェントＡは音楽ストリーミングサービス、エージェントＢは天気情報サービス）を提供するものであってもよい。なお、本実施形態において、エージェントＡ，Ｂを総称する場合は「エージェント」と表記し、第一ＶＰＡサーバ２０および第二ＶＰＡサーバ３０を総称する場合は「ＶＰＡサーバ」または「エージェントサーバ」と表記する。

（車両）
車両１０は、図２に示すように、車載装置１１と、通信部１２と、記憶部１３と、を備えている。車載装置１１は、例えば車両１０に搭載されるカーナビゲーション装置である。車載装置１１は、制御部１１１と、表示部（ディスプレイ）１１２と、ボタン１１３と、マイク１１４と、スピーカ１１５と、を備えている。

制御部１１１は、具体的には、ＣＰＵ（Central Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＦＰＧＡ（Field-Programmable Gate Array）等からなるプロセッサと、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）等からなるメモリ（主記憶部）と、を備えている。

制御部１１１は、記憶部１３に格納されたプログラムを主記憶部の作業領域にロードして実行し、プログラムの実行を通じて各構成部等を制御することにより、所定の目的に合致した機能を実現する。制御部１１１は、記憶部１３に格納されたプログラムの実行を通じて、表示制御部１１１ａおよび音声認識部１１１ｂとして機能する。

表示制御部１１１ａは、表示部１１２の表示内容を制御する。表示制御部１１１ａは、ユーザの操作に基づいて、操作に対応する画面を表示部１１２に表示させる。また、表示制御部１１１ａは、第一ＶＰＡサーバ２０、第二ＶＰＡサーバ３０から入力される所定の情報を、表示部１１２に表示させる。「所定の情報」としては、例えばユーザの発話音声の認識結果、ユーザの指示に基づく処理に関する応答データが挙げられる。

ここで、「ユーザの指示に基づく処理」とは、例えばユーザがエージェント（ＶＰＡサーバ）に対して「音楽を再生して」と指示した場合、ＶＰＡサーバが、音楽ストリーミングサービスを提供するサーバ（以下、「サービスサーバ」という）から音楽ストリーミングデータを取得して車載装置１１に送信する処理のことを示している。また、その際にＶＰＡサーバから車載装置１１に送信される「応答データ」は、音楽ストリーミングデータである。

表示制御部１１１ａは、音声認識部１１１ｂによって、ユーザの発話音声に含まれる指示が、複数のエージェントＡ，Ｂのうちのどのエージェントへの指示であるのかが判定された際に、判定されたエージェントの名称を表示部１１２に表示させてもよい。これにより、ユーザがどのエージェントに指示を行ったのかを確認することができる。また、ユーザの意図とは異なるエージェントに指示が渡ってしまった場合でも、指示を訂正する等の対処を行うことができるため、利便性が向上する。

音声認識部１１１ｂは、自動音声認識（Automatic Speech Recognition：ＡＳＲ）処理および自然言語理解（Natural language understanding：ＮＬＵ）を行う音声認識エンジンである。

音声認識部１１１ｂは、マイク１１４から入力されたユーザの発話音声を認識し、ユーザの発話音声に含まれる指示が、複数のエージェントＡ，Ｂのどのエージェントへの指示であるのかを判定する。次に、音声認識部１１１ｂは、判定したエージェントの機能を実現するエージェントサーバ（第一ＶＰＡサーバ２０または第二ＶＰＡサーバ３０）に対して、ユーザの発話音声を転送する。次に、音声認識部１１１ｂは、エージェントサーバから所定の情報（音声認識結果、応答データ）を取得する。

音声認識部１１１ｂは、具体的には、ユーザの発話音声をテキストデータに変換し、当該テキストデータに、エージェントを特定するフレーズが含まれる場合、そのエージェントへの指示であると判定する。ここで、「エージェントを特定するフレーズ」とは、エージェントを呼び出すためのウェイクアップフレーズ（Wake up Phrase：ＷｕＰという）を示している。なお、ウェイクアップフレーズは、「ウェイクワード（Wake Word）」とも呼ばれる。

音声認識部１１１ｂは、音声認識処理の結果をそのままエージェントサーバ（第一ＶＰＡサーバ２０または第二ＶＰＡサーバ３０）に出力してもよい。この場合、音声認識部１１１ｂは、エージェントサーバに対してユーザの発話音声に代えて、当該ユーザの発話音声の認識結果を出力する。次に、音声認識部１１１ｂは、エージェントサーバから所定の情報（応答データ等）を取得する。これにより、エージェントサーバにおける音声認識処理を省略することができるため、エージェントサーバの応答速度が向上する。

表示部１１２は、例えばＬＣＤ（液晶ディスプレイ）、ＯＬＥＤ（有機ＥＬディスプレイ）等から構成され、表示制御部１１１ａの制御に基づいて情報を表示する。ボタン１１３は、発話の際にユーザが押下するボタンである。ボタン１１３は、例えば車両１０のハンドル等に設けられるプッシュ式の物理的な押しボタン、または表示部１１２に表示される仮想的な押しボタンから構成される。

ここで、本実施形態におけるエージェントには、複数の呼び出し方法（起動方法）がある。例えばエージェントＢ（第二ＶＰＡサーバ３０）に対して天気情報の提供を指示する場合、ユーザは以下の（１）、（２）のように発話する。
（１）「エージェントＢ、今日の天気を教えて」と発話
（２）ボタン１１３を押下して「今日の天気を教えて」と発話

（１）は、ウェイクアップフレーズを用いた方法であり、ユーザは、エージェントＢを特定するフレーズと、エージェントＢに対する指示とを含むフレーズを発話する。

（２）は、ウェイクアップフレーズの代わりにボタン１１３を用いた方法である。なお、「ボタン１１３を押下して発話」には、ボタン１１３を押して離してから発話する場合（Push-to-Talk／Tap-to-Talk）と、ボタン１１３を押しっぱなしの状態で発話し、発話が完了したらボタン１１３を離す場合（Hold-to-Talk）と、の２パターンが含まれる。このように、ボタン１１３を押下して発話することにより、ウェイクアップフレーズを省略することができる。

また、エージェントを利用する際に、特定のエージェントを介してその他のエージェントを呼び出すこともできる。例えばエージェントＡ（第一ＶＰＡサーバ２０）を介して、エージェントＢ（第二ＶＰＡサーバ３０）に対して天気情報の提供を指示する場合、ユーザは以下の（３）のように発話する。
（３）「エージェントＡ、エージェントＢ、今日の天気を教えて」と発話

ここで、（３）の場合、ユーザの発話音声に複数のエージェントのウェイクアップフレーズが含まれている。そのため、（１）、（２）と比較して、ユーザの意図しないエージェントが呼び出される可能性が高くなる。そこで、本実施形態に係るエージェントシステム１、端末装置およびエージェントプログラムでは、ユーザの指示がどのエージェントへの指示であるかを車載装置１１側で判定し、その判定結果に基づいてユーザの発話音声をＶＰＡサーバに転送する。

マイク１１４は、ユーザからの音声入力を受け付ける入力部である。マイク１１４は、例えばユーザがエージェント（ＶＰＡサーバ）に対して指示を行う際に用いられる。スピーカ１１５は、ユーザに対して音声を出力する出力部である。スピーカ１１５は、例えばユーザの指示に基づいて、エージェントがユーザに対して応答を行う際に用いられる。

通信部１２は、例えばＤＣＭ（Data Communication Module）等から構成され、ネットワークＮＷを介した無線通信により、第一ＶＰＡサーバ２０および第二ＶＰＡサーバ３０との間で通信を行う。

記憶部１３は、ＥＰＲＯＭ（Erasable Programmable ROM）、ハードディスクドライブ（Hard Disk Drive：ＨＤＤ）およびリムーバブルメディア等の記録媒体から構成される。リムーバブルメディアとしては、例えばＵＳＢ（Universal Serial Bus）メモリ、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、ＢＤ（Blu-ray（登録商標） Disc）のようなディスク記録媒体が挙げられる。また、記憶部１３には、オペレーティングシステム（Operating System：ＯＳ）、各種プログラム、各種テーブル、各種データベース等が格納可能である。記憶部１３には、必要に応じて、例えばユーザの対話内容のデータ、ユーザの発話音声の認識結果のデータ等が格納される。

（第一ＶＰＡサーバ）
第一ＶＰＡサーバ２０は、制御部２１と、通信部２２と、記憶部２３と、を備えている。通信部２２および記憶部２３の物理的な構成は、通信部１２および記憶部１３と同様である。

制御部２１は、具体的には、ＣＰＵ（Central Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＦＰＧＡ（Field-Programmable Gate Array）等からなるプロセッサと、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）等からなるメモリ（主記憶部）と、を備えている。制御部２１は、記憶部２３に格納された音声対話エージェントのプログラムの実行を通じて、音声対話エージェントの機能を実現する。また、制御部２１は、記憶部２３に格納されたプログラムの実行を通じて、音声認識部２１１として機能する。

音声認識部２１１は、音声認識部１１１ｂと同様の機能を有しており、車載装置１１から転送されたユーザの発話音声を認識し、所定の情報（音声認識結果、応答データ）を車載装置１１に出力する。

音声認識部２１１は、ユーザとの対話内容を当該ユーザの嗜好情報として記憶部２３に蓄積し、車載装置１１から転送されたユーザの発話音声の認識結果に基づく処理を行う際に、ユーザの嗜好情報を考慮した処理を行ってもよい。例えばユーザがエージェントＡに対して、特定のジャンル（例えばクラッシック）の音楽の再生を頻繁に指示している場合、音声認識部２１１は「ユーザの好きな音楽のジャンル：クラッシック」という情報を嗜好情報として記憶部２３に蓄積する。そして、音声認識部２１１は、ユーザからエージェントＡに対して「音楽の再生」の指示がなされた場合、サービスサーバからクラッシックの音楽ストリーミングデータを取得し、車載装置１１に送信する。これにより、ユーザの嗜好に沿ったサービスを受けることができるため、利便性が向上する。

記憶部２３には、第一ＶＰＡサーバ２０が実現する音声対話エージェントのプログラムが格納されている。また、記憶部２３には、必要に応じて、例えばユーザの対話内容のデータ、ユーザの発話音声の認識結果のデータ等が格納される。なお、これらの情報は、プライバシー保護の観点から、利用後に記憶部２３から削除してもよい。

（第二ＶＰＡサーバ）
第二ＶＰＡサーバ３０は、制御部３１と、通信部３２と、記憶部３３と、を備えている。制御部３１、通信部３２および記憶部３３の物理的な構成は、制御部２１、通信部１２および記憶部１３と同様である。制御部３１は、記憶部３３に格納された音声対話エージェントのプログラムの実行を通じて、音声対話エージェントの機能を実現する。また、制御部３１は、記憶部３３に格納されたプログラムの実行を通じて、音声認識部３１１として機能する。

音声認識部３１１は、音声認識部１１１ｂと同様の機能を有しており、車載装置１１から転送されたユーザの発話音声を認識し、所定の情報（音声認識結果、応答データ）を車載装置１１に出力する。音声認識部３１１は、音声認識部２１１と同様に、ユーザとの対話内容を当該ユーザの嗜好情報として記憶部３３に蓄積し、車載装置１１から転送されたユーザの発話音声の認識結果に基づく処理を行う際に、ユーザの嗜好情報を考慮した処理を行ってもよい。これにより、ユーザの嗜好に沿ったサービスを受けることができるため、利便性が向上する。

記憶部３３には、第二ＶＰＡサーバ３０が実現する音声対話エージェントのプログラムが格納されている。また、記憶部３３には、必要に応じて、例えばユーザの対話内容のデータ、ユーザの発話音声の認識結果のデータ等が格納される。なお、これらの情報は、プライバシー保護の観点から、利用後に記憶部３３から削除してもよい。

（音声対話方法）
本実施形態に係るエージェントシステム１および端末装置が実行する音声対話方法の処理手順について、図３を参照しながら説明する。以下では、ユーザが特定のエージェントを介してその他のエージェントを呼び出す場合の音声対話方法について説明する。また、図３では、説明の便宜上、ユーザが発話するステップについても、音声対話方法のフローチャート内に図示している。

まず、ユーザが「エージェントＡ、エージェントＢ、○○して」と発話すると（ステップＳ１）、その発話音声のデータがマイク１１４を通じて車載装置１１に入力される。続いて、車載装置１１の音声認識部１１１ｂは、ユーザの発話を検知し（ステップＳ２）、音声認識処理および意図理解処理を行う（ステップＳ３）。

音声認識部１１１ｂは、エージェントＢ宛の指示であると判定し（ステップＳ４）、ユーザの発話音声を第二ＶＰＡサーバ３０に転送する（ステップＳ５）。続いて、第二ＶＰＡサーバ３０の音声認識部３１１は、音声認識処理および意図理解処理を行い（ステップＳ６）、その認識結果を車載装置１１に出力する（ステップＳ７）。

なお、例えばステップＳ１において、ユーザが「エージェントＢ、エージェントＡ、○○して」と発話した場合は、次のような処理を行う。音声認識部１１１ｂは、ステップＳ２でユーザの発話を検知し、ステップＳ３で音声認識処理および意図理解処理を行う。続いて、音声認識部１１１ｂは、ステップＳ４でエージェントＡ宛の指示であると判定し、ステップＳ５でユーザの発話音声を第一ＶＰＡサーバ２０に転送する。続いて、第一ＶＰＡサーバ２０の音声認識部２１１は、ステップＳ６で音声認識処理および意図理解処理を行い、ステップＳ７で認識結果を車載装置１１に出力する。

以上説明した実施形態に係るエージェントシステム１、端末装置およびエージェントプログラムによれば、ユーザの指示がどのエージェントへの指示であるかを車載装置１１側で判定し、その判定結果に基づいてユーザの発話音声をＶＰＡサーバに転送する。これにより、異なる機能を有する複数のエージェントのサービスを利用する際に、ユーザが求める機能を有するエージェントを精度良く呼び出すことができるため、ユーザが期待するサービスを受けることができる。

さらなる効果や変形例は、当業者によって容易に導き出すことができる。よって、本発明のより広範な態様は、以上のように表わしかつ記述した特定の詳細および代表的な実施形態に限定されるものではない。したがって、添付のクレームおよびその均等物によって定義される総括的な発明の概念の精神または範囲から逸脱することなく、様々な変更が可能である。

例えば実施形態に係るエージェントシステム１、端末装置およびエージェントプログラムでは、ユーザから「音楽の再生」の指示があった場合、ＶＰＡサーバ（第一ＶＰＡサーバ２０および第二ＶＰＡサーバ３０）がサービスサーバから音楽ストリーミングデータを取得して車載装置１１に送信していた。この方法に代えて、ＶＰＡサーバがサービスサーバを制御し、サービスサーバから車載装置１１へと音楽ストリーミングデータを直接送信させてもよい。

１エージェントシステム
１０車両
１１車載装置
１１１制御部
１１１ａ表示制御部
１１１ｂ音声認識部
１１２表示部
１１３ボタン
１１４マイク
１１５スピーカ
１２通信部
１３記憶部
２０第一ＶＰＡサーバ
２１制御部
２１１音声認識部
２２通信部
２３記憶部
３０第二ＶＰＡサーバ
３１制御部
３１１音声認識部
３２通信部
３３記憶部
ＮＷネットワーク

Claims

ハードウェアを有する第一のプロセッサであって、ユーザの発話音声を認識し、前記ユーザの発話音声に含まれる指示が、複数の音声対話エージェントのうちのどの音声対話エージェントへの指示であるのかを判定し、
判定した音声対話エージェントの機能を実現するエージェントサーバに対して、前記ユーザの発話音声を転送する第一のプロセッサを備える端末装置と、
ハードウェアを有する第二のプロセッサであって、前記端末装置から転送された前記ユーザの発話音声を認識し、その認識結果を前記端末装置に出力する第二のプロセッサを備えるエージェントサーバと、
を備えるエージェントシステム。
前記第二のプロセッサは、前記端末装置から転送された前記ユーザの発話音声を認識し、その認識結果に基づく処理を行い、前記処理に関する応答データを前記端末装置に出力する、
請求項１に記載のエージェントシステム。
前記第一のプロセッサは、前記エージェントサーバに対して、前記ユーザの発話音声に代えて、前記ユーザの発話音声の認識結果を出力し、
前記第二のプロセッサは、前記端末装置から転送された前記ユーザの発話音声の認識結果に基づく処理を行い、前記処理に関する応答データを前記端末装置に出力する、
請求項１に記載のエージェントシステム。
前記端末装置は、ディスプレイを備え、
前記第一のプロセッサは、前記ユーザの発話音声に含まれる指示が、複数の音声対話エージェントのうちのどの音声対話エージェントへの指示であるのかを判定した際に、判定した音声対話エージェントの名称を前記ディスプレイに表示させる、
請求項１から請求項３のいずれか一項に記載のエージェントシステム。
前記第二のプロセッサは、
前記ユーザとの対話内容を前記ユーザの嗜好情報として記憶部に蓄積し、
前記端末装置から転送された前記ユーザの発話音声の認識結果に基づく処理を行う際に、前記ユーザの嗜好情報を考慮した処理を行う、
請求項３に記載のエージェントシステム。
前記第一のプロセッサは、
前記ユーザの発話音声をテキストデータに変換し、
前記テキストデータに、音声対話エージェントを特定するフレーズが含まれる場合、その音声対話エージェントへの指示であると判定する、
請求項１から請求項５のいずれか一項に記載のエージェントシステム。
前記ユーザの発話音声は、音声対話エージェントを特定するフレーズと、前記音声対話エージェントに対する指示とを含む、
請求項１から請求項６のいずれか一項に記載のエージェントシステム。
前記端末装置は、発話の際に前記ユーザが押下するボタンを備える、
請求項７に記載のエージェントシステム。
前記端末装置は、車両に搭載されている車載装置である、
請求項１から請求項８のいずれか一項に記載のエージェントシステム。
前記端末装置は、前記ユーザが所持する情報端末装置である、
請求項１から請求項８のいずれか一項に記載のエージェントシステム。
ハードウェアを有するプロセッサを備え、
前記プロセッサは、
ユーザの発話音声を認識し、前記ユーザの発話音声に含まれる指示が、複数の音声対話エージェントのうちのどの音声対話エージェントへの指示であるのかを判定し、
判定した音声対話エージェントの機能を実現するエージェントサーバに対して、前記ユーザの発話音声を転送し、
前記エージェントサーバから、前記ユーザの発話音声の認識結果を取得する、
端末装置。
前記プロセッサは、
前記エージェントサーバに対して、前記ユーザの発話音声に代えて、前記ユーザの発話音声の認識結果を出力し、
前記エージェントサーバから、前記ユーザの発話音声の認識結果に基づく処理に関する応答データを取得する、
請求項１１に記載の端末装置。
ディスプレイを備え、
前記プロセッサは、前記ユーザの発話音声に含まれる指示が、複数の音声対話エージェントのうちのどの音声対話エージェントへの指示であるのかを判定した際に、判定した音声対話エージェントの名称を前記ディスプレイに表示させる、
請求項１１または請求項１２に記載の端末装置。
前記プロセッサは、
前記ユーザの発話音声をテキストデータに変換し、
前記テキストデータに、音声対話エージェントを特定するフレーズが含まれる場合、その音声対話エージェントへの指示であると判定する、
請求項１１から請求項１３のいずれか一項に記載の端末装置。
前記ユーザの発話音声は、音声対話エージェントを特定するフレーズと、前記音声対話エージェントに対する指示とを含む、
請求項１１から請求項１４のいずれか一項に記載の端末装置。
発話の際に前記ユーザが押下するボタンを備える、
請求項１５に記載の端末装置。
車両に搭載されている車載装置である、
請求項１１から請求項１６のいずれか一項に記載の端末装置。
前記ユーザが所持する情報端末装置である、
請求項１１から請求項１６のいずれか一項に記載の端末装置。
ハードウェアを有するプロセッサに、
ユーザの発話音声を認識し、前記ユーザの発話音声に含まれる指示が、複数の音声対話エージェントのうちのどの音声対話エージェントへの指示であるのかを判定し、
判定した音声対話エージェントの機能を実現するエージェントサーバに対して、前記ユーザの発話音声を転送する、
ことを実行させるエージェントプログラム。
前記プロセッサに、
前記エージェントサーバに対して、前記ユーザの発話音声に代えて、前記ユーザの発話音声の認識結果を出力し、
前記エージェントサーバから、前記ユーザの発話音声の認識結果に基づく処理に関する応答データを取得する、
ことを実行させる請求項１９に記載のエージェントプログラム。