JP2021117301A

JP2021117301A - エージェントシステム、端末装置およびエージェントプログラム

Info

Publication number: JP2021117301A
Application number: JP2020009343A
Authority: JP
Inventors: 聖相原; Satoshi Aihara
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2020-01-23
Filing date: 2020-01-23
Publication date: 2021-08-10
Also published as: CN113162964B; CN113162964A; US11587566B2; US20210233527A1

Abstract

【課題】複数の音声対話エージェントを跨いで複数のサービスを同時に利用することができるエージェントシステム、端末装置およびエージェントプログラムを提供すること。【解決手段】ユーザの要求に応じて第一のコンテンツを端末装置に出力する第一のプロセッサを備える第一のサーバと、ユーザの要求に応じて第二のコンテンツを端末装置に出力する第二のプロセッサを備える第二のサーバと、第一のサーバから取得した第一のコンテンツの実行中に、ユーザから第二のコンテンツの実行が要求された場合、第二のサーバから第二のコンテンツを取得し、予め設定される競合処理方針に基づいて、第一のコンテンツおよび第二のコンテンツの実行の可否を決定する第三のプロセッサを備える第三のサーバと、を備える。【選択図】図２

Description

本開示は、エージェントシステム、端末装置およびエージェントプログラムに関する。

特許文献１には、単一の音声対話エージェントを通じて複数のサービスを利用するための音声対話方法が開示されている。この音声対話方法では、あるサービスの利用中に別のサービスを利用しようとする場合、各サービスが競合しないように、例えば一方のサービスを中断して他方のサービスを実行する等のサービスの割り込み処理を行う。

特開２０１８−１８９９８４号公報

複数の音声対話エージェントを通じて複数のサービスを利用する場合においても、各サービスを競合させることなく、複数の音声対話エージェントを跨いで複数のサービスを同時に利用することができる技術が求められていた。

本開示は、上記に鑑みてなされたものであって、複数の音声対話エージェントを跨いで複数のサービスを同時に利用することができるエージェントシステム、端末装置およびエージェントプログラムを提供することを目的とする。

本開示に係るエージェントシステムは、ハードウェアを有する第一のプロセッサであって、ユーザの要求に応じて第一のコンテンツを端末装置に出力する第一のプロセッサを備える第一のサーバと、ハードウェアを有する第二のプロセッサであって、前記ユーザの要求に応じて第二のコンテンツを端末装置に出力する第二のプロセッサを備える第二のサーバと、ハードウェアを有する第三のプロセッサであって、前記第一のサーバから取得した前記第一のコンテンツの実行中に、前記ユーザから前記第二のコンテンツの実行が要求された場合、前記第二のサーバから前記第二のコンテンツを取得し、予め設定される競合処理方針に基づいて、前記第一のコンテンツおよび前記第二のコンテンツの実行の可否を決定する第三のプロセッサを備える第三のサーバと、を備える。

本開示に係る端末装置は、ハードウェアを有するプロセッサを備え、前記プロセッサは、第一のサーバから取得した第一のコンテンツの実行中に、ユーザから第二のコンテンツの実行が要求された場合、第二のサーバから前記第二のコンテンツを取得し、予め設定される競合処理方針に基づいて、前記第一のコンテンツおよび前記第二のコンテンツの実行の可否を決定する。

本開示に係るエージェントプログラムは、ハードウェアを有するプロセッサに、第一のサーバから取得した第一のコンテンツの実行中に、ユーザから第二のコンテンツの実行が要求された場合、第二のサーバから前記第二のコンテンツを取得し、予め設定される競合処理方針に基づいて、前記第一のコンテンツおよび前記第二のコンテンツの実行の可否を決定する、ことを実行させる。

本開示によれば、複数の音声対話エージェントを通じて複数のサービスを利用する場合においても、各サービスを競合させることなく、複数の音声対話エージェントを跨いで複数のサービスを同時に利用することができる。

図１は、実施形態に係るエージェントシステムおよび端末装置を概略的に示す図である。図２は、実施形態に係るエージェントシステムおよび端末装置の構成を概略的に示すブロック図である。図３は、実施形態に係るエージェントシステム、端末装置およびエージェントプログラムが実行する音声対話方法の処理手順の一例を示すフローチャートである。

本開示の実施形態に係るエージェントシステム、端末装置およびエージェントプログラムについて、図面を参照しながら説明する。なお、下記実施形態における構成要素には、当業者が置換可能かつ容易なもの、あるいは実質的に同一のものが含まれる。

（エージェントシステム／端末装置）
本実施形態に係るエージェントシステムおよび端末装置の構成について、図１および図２を参照しながら説明する。本実施形態に係るエージェントシステム、端末装置およびエージェントプログラムは、ユーザに対して、複数の音声対話エージェント（以下、「エージェント」という）のサービスを提供するためのものである。

ここで、「ユーザ」とは、端末装置を通じて複数のエージェントのサービスを利用する者である。本実施形態における端末装置は、車両に搭載されている車載装置を想定している。そのため、ユーザは、例えば車両の運転者を含む乗員である。なお、端末装置は、車両に搭載されている車載装置には限定されず、例えばユーザが所持する情報端末装置であってもよい。この情報端末装置としては、例えば携帯電話、タブレット端末、ウェアラブルコンピュータ、パーソナルコンピュータ等が挙げられる。

エージェントシステム１は、図１に示すように、車載装置１１を備える車両１０と、第一ＶＰＡ（Virtual Personal Assistant：バーチャルパーソナルアシスタント）サーバ２０と、第二ＶＰＡサーバ３０と、第一サービスサーバ４０と、第二サービスサーバ５０と、を有している。本実施形態に係る端末装置は、具体的には車載装置１１によって実現される。車両１０、第一ＶＰＡサーバ２０、第二ＶＰＡサーバ３０、第一サービスサーバ４０とおよび第二サービスサーバ５０は、ネットワークＮＷを通じて相互に通信可能に構成されている。このネットワークＮＷは、例えばインターネット回線網、携帯電話回線網等から構成される。

本実施形態におけるエージェントシステム１は、二つのＶＰＡサーバを利用しているが、ＶＰＡサーバの数は三つ以上でもよい。また、本実施形態において、第一ＶＰＡサーバ２０は、エージェントＡの機能を実現するためのサーバ装置であり、第二ＶＰＡサーバ３０は、エージェントＢの機能を実現するためのサーバ装置である。エージェントＡは、ユーザの要求に応じて、第一サービスサーバ４０のサービスＣと、第二サービスサーバ５０のサービスＤとをユーザに提供する。同様に、エージェントＢは、ユーザの要求に応じて、第一サービスサーバ４０のサービスＣと、第二サービスサーバ５０のサービスＤとをユーザに提供する。なお、本実施形態において、エージェントＡ，Ｂを総称する場合は「エージェント」と表記し、第一ＶＰＡサーバ２０および第二ＶＰＡサーバ３０を総称する場合は「ＶＰＡサーバ」または「エージェントサーバ」と表記する。

サービスＣおよびサービスＤは、同じ種類のサービス（例えば音楽ストリーミングサービス）であってもよく、あるいは異なる種類のサービス（例えばサービスＣは音楽ストリーミングサービス、サービスＤは天気情報サービス）であってもよい。なお、本実施形態において、サービスＣ，Ｄを総称する場合は「サービス」と表記する。

また、本実施形態におけるエージェントシステム１は、二つのサービスサーバを利用しているが、サービスサーバの数は三つ以上でもよい。また、本実施形態において、第一サービスサーバ４０は、コンテンツＥを用いたサービスＣを提供するためのサーバ装置であり、第二サービスサーバ５０は、コンテンツＦを用いたサービスＤを提供するためのサーバ装置である。このコンテンツＥおよびコンテンツＦは、同じ種類のコンテンツ（例えば音楽）であってもよく、あるいは異なる種類のコンテンツ（例えばコンテンツＥは音楽、コンテンツＦは天気情報）であってもよい。なお、本実施形態において、コンテンツＥ，Ｆを総称する場合は「コンテンツ」と表記し、第一サービスサーバ４０および第二サービスサーバ５０を総称する場合は「サービスサーバ」と表記する。

（車両）
車両１０は、図２に示すように、車載装置１１と、通信部１２と、記憶部１３と、を備えている。車載装置１１は、例えば車両１０に搭載されるカーナビゲーション装置である。車載装置１１は、制御部１１１と、表示部（ディスプレイ）１１２と、ボタン１１３と、マイク１１４と、スピーカ１１５と、を備えている。

制御部１１１は、具体的には、ＣＰＵ（Central Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＦＰＧＡ（Field-Programmable Gate Array）等からなるプロセッサと、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）等からなるメモリ（主記憶部）と、を備えている。

制御部１１１は、記憶部１３に格納されたプログラムを主記憶部の作業領域にロードして実行し、プログラムの実行を通じて各構成部等を制御することにより、所定の目的に合致した機能を実現する。制御部１１１は、記憶部１３に格納されたプログラムの実行を通じて、表示制御部１１１ａ、音声認識部１１１ｂおよび競合処理部１１１ｃとして機能する。

表示制御部１１１ａは、表示部１１２の表示内容を制御する。表示制御部１１１ａは、ユーザの操作に基づいて、操作に対応する画面を表示部１１２に表示させる。また、表示制御部１１１ａは、ユーザの要求に応じて第一サービスサーバ４０および第二サービスサーバ５０から入力されるコンテンツデータを、表示部１１２に表示させる。「コンテンツデータ」としては、例えば音楽や天気情報等が挙げられる。

音声認識部１１１ｂは、自動音声認識（Automatic Speech Recognition：ＡＳＲ）処理および自然言語理解（Natural language understanding：ＮＬＵ）を行う音声認識エンジンである。

音声認識部１１１ｂは、マイク１１４から入力されたユーザの発話音声に基づいて、ユーザの発話を検知し、発話内容を認識する。次に、音声認識部１１１ｂは、ユーザの発話音声に含まれる指示が、複数のエージェントＡ，Ｂのどのエージェントへの指示であるのかを判定する。次に、音声認識部１１１ｂは、判定したエージェントの機能を実現するエージェントサーバ（第一ＶＰＡサーバ２０または第二ＶＰＡサーバ３０）に対して、ユーザの発話音声を転送する。次に、音声認識部１１１ｂは、サービスサーバ（第一サービスサーバ４０または第二サービスサーバ５０）からコンテンツデータを取得する。

音声認識部１１１ｂは、具体的には、ユーザの発話音声をテキストデータに変換し、当該テキストデータに、エージェントを特定するフレーズが含まれる場合、そのエージェントへの指示であると判定する。ここで、「エージェントを特定するフレーズ」とは、エージェントを呼び出すためのウェイクアップフレーズ（Wake up Phrase：ＷｕＰという）を示している。なお、ウェイクアップフレーズは、「ウェイクワード（Wake Word）」とも呼ばれる。

競合処理部１１１ｃは、あるサービスサーバ（例えば第一サービスサーバ４０）から取得した先発コンテンツ（例えば音楽）の実行中に、ユーザから別の後発コンテンツ（例えば天気情報）の実行が要求された場合、後発コンテンツを管理するサービスサーバ（例えば第一サービスサーバ４０）から後発コンテンツを取得する。そして、競合処理部１１１ｃは、予め設定される競合処理方針に基づいて、二つのコンテンツの実行の可否を決定する。

競合処理方針は、例えば各エージェントで競合しうるコンテンツ間の優先度を、予めマトリクス等により定めておく。また、競合処理方針は、コンテンツの種類（例えばバイナリファイル、ストリーミングデータ等）ごとに実行の優先度を設けて決定される。

競合処理部１１１ｃは、具体的には、競合処理方針に基づいて、先発コンテンツおよび後発コンテンツのいずれか一方を先に実行した後に、先発コンテンツおよび後発コンテンツのいずれか他方を実行する。これにより、例えば先発コンテンツの実行中に後発コンテンツが重畳して実行される（例えばある音楽の再生中に天気情報の音声が同時に再生される）ことがなくなるため、複数のサービスを互いに競合させることなく利用することができる。

表示部１１２は、例えばＬＣＤ（液晶ディスプレイ）、ＯＬＥＤ（有機ＥＬディスプレイ）等から構成され、表示制御部１１１ａの制御に基づいて情報を表示する。ボタン１１３は、発話の際にユーザが押下するボタンである。ボタン１１３は、例えば車両１０のハンドル等に設けられるプッシュ式の物理的な押しボタン、または表示部１１２に表示される仮想的な押しボタンから構成される。

ここで、本実施形態におけるエージェントには、複数の呼び出し方法（起動方法）がある。例えばエージェントＢ（第二ＶＰＡサーバ３０）に対して天気情報の提供を指示する場合、ユーザは以下の（１）、（２）のように発話する。
（１）「エージェントＢ、今日の天気を教えて」と発話
（２）ボタン１１３を押下して「今日の天気を教えて」と発話

（１）は、ウェイクアップフレーズを用いた方法であり、ユーザは、エージェントＢを特定するフレーズと、エージェントＢに対する指示とを含むフレーズを発話する。

（２）は、ウェイクアップフレーズの代わりにボタン１１３を用いた方法である。なお、「ボタン１１３を押下して発話」には、ボタン１１３を押して離してから発話する場合（Push-to-Talk／Tap-to-Talk）と、ボタン１１３を押しっぱなしの状態で発話し、発話が完了したらボタン１１３を離す場合（Hold-to-Talk）と、の２パターンが含まれる。このように、ボタン１１３を押下して発話することにより、ウェイクアップフレーズを省略することができる。

また、エージェントを利用する際に、特定のエージェントを介してその他のエージェントを呼び出すこともできる。例えばエージェントＡ（第一ＶＰＡサーバ２０）を介して、エージェントＢ（第二ＶＰＡサーバ３０）に対して天気情報の提供を指示する場合、ユーザは以下の（３）のように発話する。
（３）「エージェントＡ、エージェントＢ、今日の天気を教えて」と発話

マイク１１４は、ユーザからの音声入力を受け付ける入力部である。マイク１１４は、例えばユーザがエージェント（ＶＰＡサーバ）に対して指示を行う際に用いられる。スピーカ１１５は、ユーザに対して音声を出力する出力部である。スピーカ１１５は、例えばユーザの指示に基づいて、エージェントがユーザに対して応答を行う際に用いられる。

通信部１２は、例えばＤＣＭ（Data Communication Module）等から構成され、ネットワークＮＷを介した無線通信により、第一ＶＰＡサーバ２０、第二ＶＰＡサーバ３０および第一サービスサーバ４０および第二サービスサーバ５０との間で通信を行う。

記憶部１３は、ＥＰＲＯＭ（Erasable Programmable ROM）、ハードディスクドライブ（Hard Disk Drive：ＨＤＤ）およびリムーバブルメディア等の記録媒体から構成される。リムーバブルメディアとしては、例えばＵＳＢ（Universal Serial Bus）メモリ、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、ＢＤ（Blu-ray（登録商標） Disc）のようなディスク記録媒体が挙げられる。また、記憶部１３には、オペレーティングシステム（Operating System：ＯＳ）、各種プログラム、各種テーブル、各種データベース等が格納可能である。記憶部１３には、必要に応じて、例えばユーザの対話内容のデータ、ユーザの発話音声の認識結果のデータ等が格納される。

（第一ＶＰＡサーバ）
第一ＶＰＡサーバ２０は、制御部２１と、通信部２２と、記憶部２３と、を備えている。通信部２２および記憶部２３の物理的な構成は、通信部１２および記憶部１３と同様である。

制御部２１は、具体的には、ＣＰＵ（Central Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＦＰＧＡ（Field-Programmable Gate Array）等からなるプロセッサと、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）等からなるメモリ（主記憶部）と、を備えている。制御部２１は、記憶部２３に格納された音声対話エージェントのプログラムの実行を通じて、音声対話エージェントの機能を実現する。また、制御部２１は、記憶部２３に格納されたプログラムの実行を通じて、音声認識部２１１として機能する。

音声認識部２１１は、音声認識部１１１ｂと同様の機能を有しており、車載装置１１から転送されたユーザの発話音声をテキストデータに変換することにより、当該ユーザの発話音声を認識する。そして、音声認識部２１１は、ユーザの発話音声に含まれる要求に応じて、第一サービスサーバ４０または第二サービスサーバ５０から車載装置１１へとコンテンツデータを出力させる。

音声認識部２１１は、ユーザとの対話内容を当該ユーザの嗜好情報として記憶部２３に蓄積し、車載装置１１から転送されたユーザの発話音声の認識結果に基づく処理を行う際に、ユーザの嗜好情報を考慮した処理を行ってもよい。例えばユーザがエージェントＡに対して、特定のジャンル（例えばクラッシック）の音楽の再生を頻繁に指示している場合、音声認識部２１１は「ユーザの好きな音楽のジャンル：クラッシック」という情報を嗜好情報として記憶部２３に蓄積する。そして、音声認識部２１１は、ユーザからエージェントＡに対して「音楽の再生」の指示がなされた場合、第一サービスサーバ４０または第二サービスサーバ５０から車載装置１１へと、クラッシックの音楽ストリーミングデータを出力させる。これにより、ユーザの嗜好に沿ったサービスを受けることができるため、利便性が向上する。

記憶部２３には、第一ＶＰＡサーバ２０が実現する音声対話エージェントのプログラムが格納されている。また、記憶部２３には、必要に応じて、例えばユーザの対話内容のデータ、ユーザの発話音声の認識結果のデータ等が格納される。なお、これらの情報は、プライバシー保護の観点から、利用後に記憶部２３から削除してもよい。

（第二ＶＰＡサーバ）
第二ＶＰＡサーバ３０は、制御部３１と、通信部３２と、記憶部３３と、を備えている。制御部３１、通信部３２および記憶部３３の物理的な構成は、制御部２１、通信部１２および記憶部１３と同様である。制御部３１は、記憶部３３に格納された音声対話エージェントのプログラムの実行を通じて、音声対話エージェントの機能を実現する。また、制御部３１は、記憶部３３に格納されたプログラムの実行を通じて、音声認識部３１１として機能する。

音声認識部３１１は、音声認識部１１１ｂと同様の機能を有しており、車載装置１１から転送されたユーザの発話音声をテキストデータに変換することにより、当該ユーザの発話音声を認識する。そして、音声認識部３１１は、ユーザの発話音声に含まれる要求に応じて第一サービスサーバ４０または第二サービスサーバ５０から車載装置１１へとコンテンツデータを出力させる。また、音声認識部３１１は、音声認識部２１１と同様に、ユーザとの対話内容を当該ユーザの嗜好情報として記憶部３３に蓄積し、車載装置１１から転送されたユーザの発話音声の認識結果に基づく処理を行う際に、ユーザの嗜好情報を考慮した処理を行ってもよい。これにより、ユーザの嗜好に沿ったサービスを受けることができるため、利便性が向上する。

記憶部３３には、第二ＶＰＡサーバ３０が実現する音声対話エージェントのプログラムが格納されている。また、記憶部３３には、必要に応じて、例えばユーザの対話内容のデータ、ユーザの発話音声の認識結果のデータ等が格納される。なお、これらの情報は、プライバシー保護の観点から、利用後に記憶部３３から削除してもよい。

（第一サービスサーバ）
第一サービスサーバ４０は、コンテンツを管理するサーバ装置であり、第一ＶＰＡサーバ２０または第二ＶＰＡサーバ３０の制御に基づいて、車載装置１１にコンテンツデータを出力する。第一サービスサーバ４０は、制御部４１と、通信部４２と、記憶部４３と、を備えている。制御部４１、通信部４２および記憶部４３の物理的な構成は、制御部２１、通信部１２および記憶部１３と同様である。

（第二サービスサーバ）
第二サービスサーバ５０は、コンテンツを管理するサーバ装置であり、第一ＶＰＡサーバ２０または第二ＶＰＡサーバ３０の制御に基づいて、車載装置１１にコンテンツデータを出力する。第二サービスサーバ５０は、制御部５１と、通信部５２と、記憶部５３と、を備えている。制御部５１、通信部５２および記憶部５３の物理的な構成は、制御部２１、通信部１２および記憶部１３と同様である。

（音声対話方法）
本実施形態に係るエージェントシステム１および端末装置が実行する音声対話方法の処理手順について、図３を参照しながら説明する。以下では、「音楽のコンテンツよりも天気情報のコンテンツを優先して実行する」という競合処理方針のもとで複数のサービスを利用する場合の音声対話方法について説明する。また、図３では、説明の便宜上、ユーザが発話するステップについても、音声対話方法のフローチャート内に図示している。

まず、ユーザが「エージェントＢ、サービスＣで○○の曲を再生して」と発話すると（ステップＳ１）、その発話音声のデータがマイク１１４を通じて車載装置１１に入力される。続いて、車載装置１１の音声認識部１１１ｂは、ユーザの発話を検知し（ステップＳ２）、ユーザの発話音声を第二ＶＰＡサーバ３０に転送する（ステップＳ３）。

続いて、第二ＶＰＡサーバ３０の音声認識部３１１は、音声認識処理および意図理解処理を行う（ステップＳ４）。続いて、第二ＶＰＡサーバ３０の制御部３１は、認識結果に基づいてコンテンツ制御信号を生成し、当該コンテンツ制御信号を第一サービスサーバ４０に出力する（ステップＳ５）。これを受けて、第一サービスサーバ４０の制御部４１は、ユーザが要求するコンテンツデータ（音楽ストリーミングデータ）を車載装置１１に出力する（ステップＳ６）。続いて、車載装置１１の制御部１１１は、第一サービスサーバ４０から取得したコンテンツ（音楽）を実行する（ステップＳ７）。この場合、制御部１１１は、スピーカ１１５によって音楽を再生する。

続いて、音楽の再生中に、ユーザが「エージェントＡ、東京の天気は？」と発話すると（ステップＳ８）、その発話音声のデータがマイク１１４を通じて車載装置１１に入力される。続いて、音声認識部１１１ｂは、ユーザの発話を検知し（ステップＳ９）、ユーザの発話音声を第一ＶＰＡサーバ２０に転送する（ステップＳ１０）。

続いて、第一ＶＰＡサーバ２０の音声認識部２１１は、音声認識処理および意図理解処理を行う（ステップＳ１１）。続いて、第一ＶＰＡサーバ２０の制御部２１は、認識結果に基づいてコンテンツ制御信号を生成し、当該コンテンツ制御信号を第二サービスサーバ５０に出力する（ステップＳ１２）。これを受けて、第二サービスサーバ５０の制御部５１は、ユーザが要求するコンテンツデータ（天気情報）を車載装置１１に出力する（ステップＳ１３）。

続いて、競合処理部１１１ｃは、コンテンツ（音楽）の実行を停止し（ステップＳ１４）、ステータス情報を第二ＶＰＡサーバ３０に出力する（ステップＳ１５）。なお、「ステータス情報」とは、車載装置１１で実行中のコンテンツのステータスに関する情報である。例えば音楽ストリーミングデータの場合のステータス情報としては、曲名、アルバム名、歌手名等の曲を特定できる情報と、曲の中断位置等の情報が含まれる。

続いて、制御部３１は、ステータス情報に基づいてコンテンツ制御信号を生成し、当該コンテンツ制御信号を第一サービスサーバ４０に出力する（ステップＳ１６）。これを受けて、制御部４１は、コンテンツデータ（音楽ストリーミングデータ）の出力を中断する（ステップＳ１７）。続いて、制御部１１１は、第二サービスサーバ５０から取得したコンテンツ（天気）を実行する（ステップＳ１８）。この場合、制御部１１１は、例えば表示部１１２およびスピーカ１１５によって東京の天気情報を提示する。

コンテンツ（天気）の実行が完了すると、競合処理部１１１ｃは、ステータス情報を第二ＶＰＡサーバ３０に出力する（ステップＳ１９）。続いて、制御部３１は、ステータス情報に基づいてコンテンツ制御信号を生成し、当該コンテンツ制御信号を第一サービスサーバ４０に出力する（ステップＳ２０）。これを受けて、制御部４１は、コンテンツデータ（音楽ストリーミングデータ）の出力を再開する（ステップＳ２１）。続いて、制御部１１１は、第一サービスサーバ４０から取得したコンテンツ（音楽）の実行を再開する（ステップＳ２２）。

ここで、従来のエージェントシステムでは、単一のエージェント内で複数のサービスを同時に利用する場合（例えばエージェントＡの音楽ストリーミングの利用中にエージェントＡの天気情報サービスを利用する場合）、音楽の音量を下げて天気情報の音声を再生する等、コンテンツ間の割り込みを考慮した設計となっている。しかしながら、従来のエージェントシステムでは、例えば複数のエージェントを跨いで複数のサービスを利用する場合（例えばエージェントＡの音楽ストリーミングの利用中にエージェントＢの天気情報サービスを利用する場合）については想定していない。そのため、従来のエージェントシステムでは、複数のコンテンツの音声を重畳させて出力してしまったり、各エージェントのサーバおよびクライアント間の状態不一致が発生したりする等の問題が生じる。

一方、本実施形態に係るエージェントシステム１、端末装置およびエージェントプログラムによれば、あるコンテンツの実行中に、ユーザが別のコンテンツの実行を要求した場合、先発後発のコンテンツが競合しないような処理を行う。従って、複数のエージェントを通じて複数のサービスを利用する場合においても、各サービスを競合させることなく、複数のエージェントを跨いで複数のサービスを同時に利用することができる。

さらなる効果や変形例は、当業者によって容易に導き出すことができる。よって、本発明のより広範な態様は、以上のように表わしかつ記述した特定の詳細および代表的な実施形態に限定されるものではない。したがって、添付のクレームおよびその均等物によって定義される総括的な発明の概念の精神または範囲から逸脱することなく、様々な変更が可能である。

例えば実施形態に係るエージェントシステム１、端末装置およびエージェントプログラムでは、第一ＶＰＡサーバ２０と第一サービスサーバ４０とをそれぞれ別の構成として説明したが、第一ＶＰＡサーバ２０と第一サービスサーバ４０とが一つで構成されていてもよい。同様に、実施形態に係るエージェントシステム１、端末装置およびエージェントプログラムでは、第二ＶＰＡサーバ３０と第二サービスサーバ５０とをそれぞれ別の構成として説明したが、第二ＶＰＡサーバ３０と第二サービスサーバ５０とが一つで構成されていてもよい。

１エージェントシステム
１０車両
１１車載装置
１１１制御部
１１１ａ表示制御部
１１１ｂ音声認識部
１１１ｃ競合処理部
１１２表示部
１１３ボタン
１１４マイク
１１５スピーカ
１２通信部
１３記憶部
２０第一ＶＰＡサーバ
２１制御部
２１１音声認識部
２２通信部
２３記憶部
３０第二ＶＰＡサーバ
３１制御部
３１１音声認識部
３２通信部
３３記憶部
ＮＷネットワーク

Claims

ハードウェアを有する第一のプロセッサであって、ユーザの要求に応じて第一のコンテンツを端末装置に出力する第一のプロセッサを備える第一のサーバと、
ハードウェアを有する第二のプロセッサであって、前記ユーザの要求に応じて第二のコンテンツを端末装置に出力する第二のプロセッサを備える第二のサーバと、
ハードウェアを有する第三のプロセッサであって、前記第一のサーバから取得した前記第一のコンテンツの実行中に、前記ユーザから前記第二のコンテンツの実行が要求された場合、前記第二のサーバから前記第二のコンテンツを取得し、
予め設定される競合処理方針に基づいて、前記第一のコンテンツおよび前記第二のコンテンツの実行の可否を決定する第三のプロセッサを備える第三のサーバと、
を備えるエージェントシステム。
前記第三のプロセッサは、
前記第一のサーバから取得した前記第一のコンテンツの実行中に、前記ユーザから前記第二のコンテンツの実行が要求された場合、前記第二のサーバから前記第二のコンテンツを取得し、
前記競合処理方針に基づいて、前記第一のコンテンツおよび前記第二のコンテンツのいずれか一方を先に実行した後に、前記第一のコンテンツおよび前記第二のコンテンツのいずれか他方を実行する、
請求項１に記載のエージェントシステム。
前記競合処理方針は、コンテンツの種類ごとに実行の優先度を設けて決定されたものである、
請求項１または請求項２に記載のエージェントシステム。
前記第一のサーバは、
前記第一のコンテンツを管理する第一のサービスサーバと、
前記ユーザの発話音声を認識し、前記ユーザの発話音声に含まれる要求に応じて前記第一のサービスサーバから前記端末装置へと前記第一のコンテンツを出力させる第一のエージェントサーバと、
を備え、
前記第二のサーバは、
前記第二のコンテンツを管理する第二のサービスサーバと、
前記ユーザの発話音声を認識し、前記ユーザの発話音声に含まれる要求に応じて前記第二のサービスサーバから前記端末装置へと前記第二のコンテンツを出力させる第二のエージェントサーバと、
を備える、
請求項１から請求項３のいずれか一項に記載のエージェントシステム。
前記第一のプロセッサおよび前記第二のプロセッサは、前記ユーザの発話音声をテキストデータに変換することにより、前記ユーザの発話音声を認識する、
請求項４に記載のエージェントシステム。
前記ユーザの発話音声は、前記第一のエージェントサーバまたは前記第二のエージェントサーバに対応する音声対話エージェントを特定するフレーズと、前記音声対話エージェントに対する指示とを含む、
請求項４または請求項５に記載のエージェントシステム。
前記端末装置は、発話の際に前記ユーザが押下するボタンを備える、
請求項６に記載のエージェントシステム。
前記端末装置は、車両に搭載されている車載装置である、
請求項１から請求項７のいずれか一項に記載のエージェントシステム。
前記端末装置は、前記ユーザが所持する情報端末装置である、
請求項１から請求項７のいずれか一項に記載のエージェントシステム。
ハードウェアを有するプロセッサを備え、
前記プロセッサは、
第一のサーバから取得した第一のコンテンツの実行中に、ユーザから第二のコンテンツの実行が要求された場合、第二のサーバから前記第二のコンテンツを取得し、
予め設定される競合処理方針に基づいて、前記第一のコンテンツおよび前記第二のコンテンツの実行の可否を決定する、
端末装置。
前記プロセッサは、
前記第一のサーバから取得した前記第一のコンテンツの実行中に、前記ユーザから前記第二のコンテンツの実行が要求された場合、前記第二のサーバから前記第二のコンテンツを取得し、
前記競合処理方針に基づいて、前記第一のコンテンツおよび前記第二のコンテンツのいずれか一方を先に実行した後に、前記第一のコンテンツおよび前記第二のコンテンツのいずれか他方を実行する、
請求項１０に記載の端末装置。
前記競合処理方針は、コンテンツの種類ごとに実行の優先度を設けて決定されたものである、
請求項１０または請求項１１に記載の端末装置。
前記ユーザの発話音声は、前記第一のサーバまたは前記第二のサーバに対応する音声対話エージェントを特定するフレーズと、前記音声対話エージェントに対する指示とを含む、
請求項１０から請求項１２のいずれか一項に記載の端末装置。
発話の際に前記ユーザが押下するボタンを備える、
請求項１３に記載の端末装置。
車両に搭載されている車載装置である、
請求項１０から請求項１４のいずれか一項に記載の端末装置。
前記ユーザが所持する情報端末装置である、
請求項１０から請求項１４のいずれか一項に記載の端末装置。
ハードウェアを有するプロセッサに、
第一のサーバから取得した第一のコンテンツの実行中に、ユーザから第二のコンテンツの実行が要求された場合、第二のサーバから前記第二のコンテンツを取得し、
予め設定される競合処理方針に基づいて、前記第一のコンテンツおよび前記第二のコンテンツの実行の可否を決定する、
ことを実行させるエージェントプログラム。
前記プロセッサに、
前記第一のサーバから取得した前記第一のコンテンツの実行中に、前記ユーザから前記第二のコンテンツの実行が要求された場合、前記第二のサーバから前記第二のコンテンツを取得し、
前記競合処理方針に基づいて、前記第一のコンテンツおよび前記第二のコンテンツのいずれか一方を先に実行した後に、前記第一のコンテンツおよび前記第二のコンテンツのいずれか他方を実行する、
ことを実行させる請求項１７に記載のエージェントプログラム。
前記競合処理方針は、コンテンツの種類ごとに実行の優先度を設けて決定されたものである、
請求項１７または請求項１８に記載のエージェントプログラム。
前記ユーザの発話音声は、前記第一のサーバまたは前記第二のサーバに対応する音声対話エージェントを特定するフレーズと、前記音声対話エージェントに対する指示とを含む、
請求項１７から請求項１９のいずれか一項に記載のエージェントプログラム。