JP7264071B2

JP7264071B2 - 情報処理システム、情報処理装置、及びプログラム

Info

Publication number: JP7264071B2
Application number: JP2020009449A
Authority: JP
Inventors: 聖相原
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2020-01-23
Filing date: 2020-01-23
Publication date: 2023-04-25
Anticipated expiration: 2040-01-23
Also published as: CN113160824A; US20210233536A1; JP2021117308A; US11646034B2

Description

本開示は、情報処理システム、情報処理装置、及びプログラムに関する。

特許文献１には、複数のエージェントのサービスを利用するための音声対話方法が開示されている。特許文献１に記載された技術においては、音声認識処理の結果と、エージェント情報とに基づいて、入力音声信号に基づく処理を、複数のエージェントの何れで行うかを決定している。

さて、ＶＰＡ（Virtual Personal Assistant）サービスにおいて利用可能な機能の中に、複数の異なるＶＰＡサービス事業体によって提供される、互いに類似したサービスが存在する。このようなサービスとして、例えば楽曲提供サービス等がある。これらの互いに類似した複数のサービスは、それぞれ単体で機能するように提供される。

特開２０１８－１８９９８４号公報

類似した複数のサービスを利用するユーザにとっては、類似したサービスが複数の異なる音声対話エージェント事業者から互いに独立して提供されることになる。そのため、類似したサービスであっても、音声対話エージェントごとにそれぞれ独立して指示を行う必要があった。この場合、例えば、ユーザがまず、「エージェントＡ、曲をかけて」と発話すると、所定の１つの事業者が提供するエージェントＡの音声対話エージェントによって楽曲の再生が開始される。次に、ユーザが、「エージェントＢ、次の曲をかけて」と発話しても、他の事業者が提供するエージェントＢの音声対話エージェントは、「次の曲」に対応する前の曲を認識できないため、ユーザが所望する次の楽曲の再生動作ができなかった。すなわち、音声対話エージェントごとにそれぞれ提供するサービスが独立しているため、類似したサービスであっても、複数の音声対話エージェントを相互に連携させた制御を行うことが困難であった。

本開示は、上記に鑑みてなされたものであって、その目的は、複数の音声対話エージェントによって提供される類似のサービスを連携させた制御を行うことができる情報処理システム、情報処理装置、及びプログラムを提供することにある。

本開示による情報処理システムは、ハードウェアを有する第１のプロセッサであって、ユーザの発話音声を取得し、音声対話エージェントをそれぞれ実現する第２の装置及び第３の装置のうちの少なくとも１つに対して、ユーザの発話音声を転送し、転送先から制御コマンドを取得した場合に、取得した制御コマンドに基づく制御信号を第２の装置に適合する制御信号に変換して第２の装置に送信する第１のプロセッサを有する第１の装置と、ハードウェアを有する第２のプロセッサであって、第１の装置から転送された発話音声を認識し、発話音声を認識した認識結果に関する制御コマンドと、第１の装置から取得した制御信号に基づいた応答データとを、第１の装置に出力する第２のプロセッサを有する第２の装置と、ハードウェアを有する第３のプロセッサであって、第１の装置から転送された発話音声を認識し、発話音声を認識した認識結果に関する制御コマンドを第１の装置に出力する第３のプロセッサを有する第３の装置と、を備える。

本開示による情報処理装置は、ハードウェアを有するプロセッサを備え、プロセッサは、ユーザの発話音声を取得し、音声対話エージェントをそれぞれ実現するメインサーバ及びサブサーバのうちの少なくとも１つに対して、ユーザの発話音声を転送し、発話音声を認識した認識結果に関する制御コマンドを転送先から取得した場合に、取得した制御コマンドに基づく制御信号をメインサーバに適合する制御信号に変換して、メインサーバに送信する。

本開示によるプログラムは、ハードウェアを有するプロセッサに、ユーザの発話音声を取得し、音声対話エージェントをそれぞれ実現するメインサーバ及びサブサーバのうちの少なくとも１つに対して、ユーザの発話音声を転送し、発話音声を認識した認識結果に関する制御コマンドを転送先から取得した場合に、取得した制御コマンドに基づく制御信号をメインサーバに適合する制御信号に変換して、メインサーバに送信する。

本開示によれば、複数の音声対話エージェントによって提供される類似のサービスを連携させた制御を行うことが可能となる。

図１は、一実施形態によるエージェントシステムを概略的に示すブロック図である。図２は、一実施形態によるエージェントシステムの構成を概略的に示すブロック図である。図３は、一実施形態による情報処理システム、及び情報処理装置が、プログラムによって実行する音声対話方法の一例を示すフロー図である。

以下、本開示の一実施形態について図面を参照しつつ説明する。なお、以下の一実施形態の全図においては、同一又は対応する部分には同一の符号を付す。また、本開示は以下に説明する一実施形態によって限定されるものではない。

（エージェントシステム／端末装置）
まず、本開示の一実施形態による情報処理システムであるエージェントシステム、情報処理装置である端末装置、及びエージェントシステムや端末装置において実行されるプログラムについて説明する。図１は、エージェントシステム１を示すブロック図であり、図２は、エージェントシステム１を構成する各種サーバ及び情報処理装置としての端末装置の構成を概略的に示すブロック図である。本実施形態によるエージェントシステム、及び端末装置は、ユーザに対して、複数の音声対話エージェント（以下、エージェント）のサービスを提供する。なお、以下の実施形態における構成要素には、当業者が置換可能かつ容易なもの、又は実質的に同一のものが含まれる。

ここで、本実施形態による端末装置は例えば、車両に搭載されている車載装置を想定する。「ユーザ」とは、端末装置を通じて複数のエージェントのサービスを利用する者であり、例えば車両の運転者を含む乗員である。なお、端末装置は、車両に搭載されている車載装置に限定されず、例えばユーザが所持する情報端末装置であっても良い。この情報端末装置としては、例えば携帯電話、タブレット端末、ウェアラブルコンピュータ、パーソナルコンピュータ等が挙げられる。

図１に示すように、一実施形態によるエージェントシステム１は、車載装置１１を備える車両１０と、メインＶＰＡ（Virtual Personal Assistant）サーバ２０と、サブ第一ＶＰＡサーバ３０Ａと、サブ第二ＶＰＡサーバ３０Ｂと、コンテンツ提供サーバ４０とを有する。本実施形態による端末装置は、具体的には車載装置１１によって実現される。車両１０、メインＶＰＡサーバ２０、サブ第一ＶＰＡサーバ３０Ａ、及びサブ第二ＶＰＡサーバ３０Ｂは、ネットワーク２を通じて相互に通信可能に構成されている。ネットワーク２は、例えばインターネット回線網、携帯電話回線網等から構成される。

本実施形態におけるエージェントシステム１は、３つのＶＰＡサーバを利用しているが、ＶＰＡサーバの数は４つ以上でも良い。本実施形態において、メインＶＰＡサーバ２０は、エージェントＡを実現するためのサーバ装置である。サブ第一ＶＰＡサーバ３０Ａは、エージェントＢを実現するためのサーバ装置であり、サブ第二ＶＰＡサーバ３０Ｂは、エージェントＣを実現するためのサーバ装置である。エージェントＡ、エージェントＢ、及びエージェントＣはそれぞれ、例えば音楽配信サービス等の同じサービスを提供する。なお、エージェントＡ、エージェントＢ、及びエージェントＣは、異なるサービスを提供するものであっても良い。具体的に例えば、エージェントＡ，Ｂは音楽配信サービス、エージェントＣは天気情報配信サービス等であっても良い。本実施形態において、エージェントＡ，Ｂ，Ｃを総称する場合は「エージェント」と表記する。サブ第一ＶＰＡサーバ３０Ａ及びサブ第二ＶＰＡサーバ３０Ｂを総称する場合には、「サブＶＰＡサーバ３０」と標記する。メインＶＰＡサーバ２０、サブ第一ＶＰＡサーバ３０Ａ、サブ第二ＶＰＡサーバ３０Ｂを総称する場合は「ＶＰＡサーバ」又は「エージェントサーバ」と表記する。

（車両）
図２に示すように、車両１０は、車載装置１１、通信部１２、及び記憶部１３を備える。車載装置１１は、例えば車両１０に搭載されるカーナビゲーション装置や、ユーザが所有して車両１０と連携された携帯端末等である。第１の装置としての車載装置１１は、制御部１１１、表示部（ディスプレイ）１１２、ボタン１１３、マイク１１４、及びスピーカ１１５を備える。

ハードウェアを有する第１のプロセッサとしての制御部１１１は、具体的に、ＣＰＵ（Central Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＦＰＧＡ（Field-Programmable Gate Array）等のプロセッサ、及びＲＡＭ（Random Access Memory）やＲＯＭ（Read Only Memory）等の主記憶部を備える。記憶部１３は、ＥＰＲＯＭ（Erasable Programmable ROM）、ハードディスクドライブ（ＨＤＤ、Hard Disk Drive）、及びリムーバブルメディア等から選ばれた記憶媒体から構成される。なお、リムーバブルメディアは、例えば、ＵＳＢ（Universal Serial Bus）メモリ、又は、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、又はＢＤ（Blu-ray（登録商標） Disc）のようなディスク記録媒体である。記憶部１３には、オペレーティングシステム（Operating System :ＯＳ）、各種プログラム、各種テーブル、各種データベース等が格納可能である。制御部１１１は、記憶部１３に格納されたプログラム、ここでは連携アプリケーション１３１又はコンテンツアプリケーション１３２を主記憶部の作業領域にロードして実行し、プログラムの実行を通じて各構成部等を制御する。これにより、制御部１１１は、所定の目的に合致した、連携制御部１１１ａ及びコンテンツ制御部１１１ｂの機能を実現できる。

連携制御部１１１ａは、自動音声認識（Automatic Speech Recognition：ＡＳＲ）処理及び自然言語理解（Natural language understanding：ＮＬＵ）を行う音声認識エンジンを備えていても良い。連携制御部１１１ａは、例えば、ユーザの発話音声（ユーザ発話音声）をテキストデータに変換し、当該テキストデータに、エージェントを特定するフレーズが含まれる場合、そのエージェントへの指示であると判定する。ここで、「エージェントを特定するフレーズ」とは、エージェントを呼び出すためのウェイクワード（Wake Word：ＷＷという）を示す。

連携制御部１１１ａは、マイク１１４から入力されたユーザ発話音声を認識し、情報の送受信を行うＶＰＡサーバ２０，３０Ａ，３０Ｂを判定する。すなわち、連携制御部１１１ａは、ユーザの発話音声に含まれる指示が、複数のエージェントＡ，Ｂ，Ｃのうちのどのエージェントへの指示であるかを判定する。連携制御部１１１ａは、ユーザの発話音声に含まれる指示が、複数のエージェントＡ，Ｂ，Ｃのうちのどのエージェントへの指示であるのかを判定した際に、判定されたエージェントの名称を表示部１１２に表示させても良い。これにより、ユーザがどのエージェントに指示を行ったのかを確認できる。

連携制御部１１１ａは、判定したエージェントを実現するエージェントサーバ、すなわち、メインＶＰＡサーバ２０、サブ第一ＶＰＡサーバ３０Ａ、又はサブ第二ＶＰＡサーバ３０Ｂを転送先として、ユーザ発話音声を転送する。エージェントサーバから出力された所定の情報、例えば認識結果情報は、連携制御部１１１ａが取得してもよく、コンテンツデータ等の応答データは、コンテンツ制御部１１１ｂが取得しても良い。ここで、コンテンツとは、映画、音楽、演劇、文芸、写真、漫画、アニメーション、コンピュータゲームその他の文字、図形、色彩、音声、動作もしくは映像もしくはこれらを組み合わせたもの又はこれらに係る情報を、情報処理装置を介して提供できるもので良い。コンテンツは、人間の創造的活動により生み出されるもののうち、教養又は娯楽の範囲に属するものにできる。

なお、連携制御部１１１ａが音声認識エンジンを備えていない場合、自動音声認識及び自然言語理解は、メインＶＰＡサーバ２０や、サブＶＰＡサーバ３０で行うようにしても良い。すなわち、連携制御部１１１ａは、マイク１１４から入力されたユーザ発話音声をそれぞれのＶＰＡサーバ２０，３０Ａ，３０Ｂに送信する。ＶＰＡサーバ２０，３０Ａ，３０Ｂにおいて、ユーザ発話音声のウェイクワードに含まれる特定のエージェントを実現する１つ又は複数のＶＰＡサーバが応答しても良い。

連携制御部１１１ａは、判定したＶＰＡサーバ２０，３０Ａ，３０Ｂから受信した認識結果や制御コマンドを、所定のエージェント、例えばエージェントＡを実現するメインＶＰＡサーバ２０に適合した認識結果や制御信号に変換する。具体的に例えば、連携制御部１１１ａは、エージェントＢ，ＣのサブＶＰＡサーバ３０から出力されたそれらのエージェントに特有の制御コマンドを変換して、エージェントＡを実現するメインＶＰＡサーバ２０に適合する制御信号に変換する。

コンテンツ制御部１１１ｂは、メインＶＰＡサーバ２０から受信した制御コマンドに基づいて、表示部１１２に表示させる内容を制御したり、スピーカ１１５から出力させる内容を制御したりする。具体的に、コンテンツ制御部１１１ｂは、特に、メインＶＰＡサーバ２０から入力される所定の情報を、表示部１１２に表示させる。「所定の情報」としては、例えばユーザの発話音声の認識結果や、ユーザの指示に基づく処理に関する応答データ等が挙げられるが、これらに限定されない。「ユーザの指示に基づく処理」とは、例えばユーザがエージェント（ＶＰＡサーバ）に対して「音楽を再生して」と指示した場合、ＶＰＡサーバが、コンテンツ提供サーバ４０から音楽データを取得して車載装置１１に送信する処理のことを示す。この場合、メインＶＰＡサーバ２０から車載装置１１に送信される「応答データ」は、音楽データ等のコンテンツデータである。なお、コンテンツデータは音楽データに限定されず、所定の表示データや映像データ等、表示部１１２やスピーカ１１５から出力可能な種々のデータであって良い。コンテンツ制御部１１１ｂは、ユーザの操作に基づいて、操作に対応する画面を表示部１１２に表示させても良い。コンテンツ制御部１１１ｂは、コンテンツ提供サーバ４０から受信したコンテンツデータを、表示部１１２に表示させたり、スピーカ１１５から出力させたりする制御を行っても良い。

連携制御部１１１ａは、音声認識処理の結果をそのままエージェントサーバ（メインＶＰＡサーバ２０又はサブ第一ＶＰＡサーバ３０Ａ）に出力しても良い。この場合、コンテンツ制御部１１１ｂは、エージェントサーバに対してユーザの発話音声に代えて、当該ユーザの発話音声の認識結果を出力できる。次に、コンテンツ制御部１１１ｂが、エージェントサーバから所定の情報（応答データ等）を取得する。これにより、エージェントサーバにおける音声認識処理を省略することができるため、エージェントサーバの応答速度が向上する。

表示部１１２は、例えばＬＣＤ（液晶ディスプレイ）、ＯＬＥＤ（有機ＥＬディスプレイ）等から構成され、コンテンツ制御部１１１ｂの制御に基づいて情報を表示する。ボタン１１３は、発話の際にユーザが押下するボタンである。ボタン１１３は、例えば車両１０のハンドル等に設けられるプッシュ式の物理的な押しボタン、又は表示部１１２に表示される仮想的な押しボタンから構成される。

ここで、本実施形態におけるエージェントには、複数の呼び出し方法（起動方法）がある。例えばエージェントＢ（サブ第一ＶＰＡサーバ３０Ａ）に対して天気情報の提供を指示する場合、ユーザは以下の（１）、（２）のように発話する。
（１）「エージェントＢ、今日の天気を教えて」と発話
（２）ボタン１１３におけるエージェントＢに対応する部分を押下して「今日の天気を教えて」と発話
ここで、押下して発話とは、ボタン１１３を押下して離した後に発話する場合、またはボタン１１３を押下した状態を維持しつつ発話し、発話が完了したらボタン１１３を離す場合のいずれの場合でもよい。

（１）は、ウェイクワードを用いた方法であり、ユーザは、エージェントＢを特定するフレーズと、エージェントＢに対する指示とを含むフレーズを発話する。（２）は、ウェイクワードの代わりにボタン１１３を用いた方法である。このように、ボタン１１３を押下して発話することで、ウェイクワードを省略できる。

マイク１１４は、ユーザからの音声入力を受け付ける入力部である。マイク１１４は、例えばユーザがエージェント（ＶＰＡサーバ）に対して指示を行う際に用いられる。スピーカ１１５は、音声や楽曲を出力する出力部である。スピーカ１１５は、例えばユーザの指示に基づいて、エージェントがユーザに対して応答を行う際に用いられる。

通信部１２は、例えばＤＣＭ（Data Communication Module）等から構成され、ネットワーク２を介した無線通信により、メインＶＰＡサーバ２０、サブ第一ＶＰＡサーバ３０Ａ、及びサブ第二ＶＰＡサーバ３０Ｂとの間で通信を行う。

（メインＶＰＡサーバ）
第２の装置又はメインサーバとしてのメインＶＰＡサーバ２０は、制御部２１と、通信部２２と、記憶部２３と、を備える。制御部２１、通信部２２、及び記憶部２３はそれぞれ、物理的には上述した制御部１１１、通信部１２、及び記憶部１３と同様である。

ハードウェアを有する第２のプロセッサとしての制御部２１は、記憶部２３に格納されたプログラムの実行を通じて、音声認識部２１１として機能する。音声認識部２１１は、連携制御部１１１ａと同様の機能を有し、車載装置１１から転送されたユーザ発話音声を認識し、所定の情報（認識結果情報、応答データ）を出力して、車載装置１１に送信する。

音声認識部２１１は、ユーザとの対話内容を当該ユーザの嗜好情報として記憶部２３に蓄積し、車載装置１１から転送されたユーザ発話音声の認識結果に基づく処理を行う際に、ユーザの嗜好情報を考慮した処理を行っても良い。例えばユーザがエージェントＡに対して、特定のジャンル（例えばクラッシック）の音楽の再生を頻繁に指示している場合、音声認識部２１１は「ユーザの好きな音楽のジャンル：クラッシック」という情報を嗜好情報として記憶部２３に蓄積する。そして、音声認識部２１１は、ユーザからエージェントＡに対して「音楽の再生」の指示がなされた場合、コンテンツ提供サーバ４０などのサービスサーバからクラッシックの音楽データを取得し、車載装置１１に送信する。これにより、ユーザの嗜好に沿ったサービスを受けることができるため、利便性が向上する。

記憶部２３には、必要に応じて、例えばユーザの対話内容のデータ、ユーザ発話音声の認識結果のデータ等が格納される。なお、これらの情報は、プライバシー保護の観点から、利用後に記憶部２３から削除しても良い。

（サブＶＰＡサーバ）
第３の装置又はサブサーバとしてのサブＶＰＡサーバ３０（サブ第一ＶＰＡサーバ３０Ａ及びサブ第二ＶＰＡサーバ３０Ｂ）は、制御部３１と、通信部３２と、記憶部３３と、を備える。制御部３１、通信部３２、及び記憶部３３はそれぞれ、物理的には、上述した制御部１１１、通信部１２、及び記憶部１３と同様である。ハードウェアを有する第３のプロセッサとしての制御部３１は、記憶部３３に格納されたプログラムの実行を通じて、音声認識部３１１として機能する。

音声認識部３１１は、連携制御部１１１ａと同様の機能を有し、車載装置１１から転送されたユーザ発話音声を認識し、所定の情報（認識結果情報、応答データ）を出力して、車載装置１１に送信する。音声認識部３１１は、音声認識部２１１と同様に、ユーザとの対話内容を当該ユーザの嗜好情報として記憶部３３に蓄積し、車載装置１１から転送されたユーザ発話音声の認識結果に基づく処理を行う際に、ユーザの嗜好情報を考慮した処理を行っても良い。これにより、ユーザの嗜好に沿ったサービスを受けることができるため、利便性が向上する。

記憶部３３には、必要に応じて、例えばユーザの対話内容の情報、ユーザ発話音声の認識結果情報等が格納される。なお、これらの情報は、プライバシー保護の観点から、利用後に記憶部３３から削除しても良い。

（コンテンツ提供サーバ）
第４の装置としてのコンテンツ提供サーバ４０は、制御部４１と、通信部４２と、記憶部４３と、を備える。制御部４１、通信部４２、及び記憶部４３はそれぞれ、物理的には上述した制御部１１１、通信部１２、及び記憶部１３と同様である。

ハードウェアを有する第４のプロセッサとしての制御部４１は、記憶部４３に格納されたプログラムの実行を通じて、コンテンツ提供部４１１として機能する。コンテンツ提供部４１１は、外部から受信したコンテンツ制御信号に基づいて、要求された所定のコンテンツ情報を記憶部４３から検索して出力し、コンテンツデータとしてＶＰＡサーバ２０，３０Ａ，３０Ｂに送信する。なお、コンテンツ提供サーバ４０から車載装置１１にコンテンツ情報を送信しても良い。

（音声対話方法）
本実施形態によるエージェントシステム１における音声対話方法の処理手順について、図３を参照しながら説明する。以下では、ユーザが特定のエージェントに指示した後、その他のエージェントに関連した指示を行う場合の音声対話方法について説明する。

まず、ユーザが例えば、「エージェントＡ、○○の曲を流して」と発話すると（ステップＳＴ１）、そのユーザ発話音声のデータが車載装置１１のマイク１１４を通じて入力される。車載装置１１の連携制御部１１１ａは、ユーザの発話を検知し、音声認識処理及び意図理解処理を行って、エージェントＡ宛の指示であると判定し、メインＶＰＡサーバ２０にユーザ発話情報を送信する（ステップＳＴ２）。なお、連携制御部１１１ａが音声認識エンジンを備えていない場合、連携制御部１１１ａは、マイク１１４から入力されたユーザ発話音声をそれぞれのＶＰＡサーバ２０，３０Ａ，３０Ｂに転送する。この場合、ユーザ発話音声のウェイクワードに含まれる「エージェントＡ」を実現するメインＶＰＡサーバ２０が、ユーザの指示に基づく処理を実行する。

続いて、メインＶＰＡサーバ２０の音声認識部２１１は、音声認識処理及び意図理解処理を行って、その認識結果情報及び制御コマンドを出力して、車載装置１１に送信する（ステップＳＴ３）。車載装置１１は、受信した認識結果情報及び制御コマンドを制御部１１１に入力する。制御部１１１の連携制御部１１１ａが、受信した認識結果情報及び制御コマンドがメインＶＰＡサーバ２０から受信したデータであると判定すると、コンテンツ制御部１１１ｂは、メインＶＰＡサーバ２０に適合したコンテンツ制御信号を送信する（ステップＳＴ４）。メインＶＰＡサーバ２０は、受信したコンテンツ制御信号をコンテンツ提供サーバ４０に転送する。

コンテンツ制御信号を受信したコンテンツ提供サーバ４０のコンテンツ提供部４１１は、コンテンツ制御信号に基づいて、要求された所定のコンテンツ情報を記憶部４３から検索して出力する。コンテンツ提供サーバ４０は、出力したコンテンツ情報を、コンテンツデータとしてメインＶＰＡサーバ２０を経由して車載装置１１に送信する（ステップＳＴ５）。コンテンツデータを受信した車載装置１１のコンテンツ制御部１１１ｂは、コンテンツデータを表示部１１２に表示したり、コンテンツデータに含まれる楽曲データ等をスピーカ１１５から出力したりして、コンテンツを実行する（ステップＳＴ６）。なお、コンテンツデータはストリーミングデータとして、メインＶＰＡサーバ２０や車載装置１１に送信しても良い。

その後、ユーザが例えば、「エージェントＢ、次の曲を流して」と発話する（ステップＳＴ７）と、そのユーザ発話音声のデータが車載装置１１のマイク１１４を通じて入力される。車載装置１１の連携制御部１１１ａは、ユーザの発話を検知し、音声認識処理及び意図理解処理を行って、エージェントＢ宛の指示であると判定し、サブ第一ＶＰＡサーバ３０Ａにユーザ発話情報を送信する（ステップＳＴ８）。なお、図３においては、統一的にサブＶＰＡサーバ３０と記載している。連携制御部１１１ａが音声認識エンジンを備えていない場合、連携制御部１１１ａは、マイク１１４から入力されたユーザ発話音声をそれぞれのＶＰＡサーバ２０，３０Ａ，３０Ｂに転送する。ユーザ発話音声のウェイクワードに含まれる「エージェントＢ」を実現するサブ第一ＶＰＡサーバ３０Ａが、ユーザの指示に基づく処理を実行する。

続いて、サブ第一ＶＰＡサーバ３０Ａの音声認識部３１１は、音声認識処理及び意図理解処理を行って、その認識結果情報及び制御コマンドを出力して、車載装置１１に送信する（ステップＳＴ９）。車載装置１１は、受信した認識結果情報及び制御コマンドを制御部１１１に入力する。制御部１１１の連携制御部１１１ａは、受信した認識結果情報及び制御コマンドがサブ第一ＶＰＡサーバ３０Ａから受信したデータであると判定すると、受信した制御コマンドをメインＶＰＡサーバ２０に適合したコンテンツ制御信号に変換する（ステップＳＴ１０）。

コンテンツ制御部１１１ｂは、変換後のメインＶＰＡサーバ２０に適合したコンテンツ制御信号を、メインＶＰＡサーバ２０に送信する（ステップＳＴ１１）。メインＶＰＡサーバ２０は、受信したコンテンツ制御信号をコンテンツ提供サーバ４０に転送する。ここで、具体的に例えば、上述したユーザが発話したうちの「次の曲を流して」の指示の情報は、メインＶＰＡサーバ２０に対する指示の情報に変換されている。これにより、メインＶＰＡサーバ２０は、例えば「○○の曲」の次の楽曲のコンテンツデータを取得するコンテンツ制御信号を、コンテンツ提供サーバ４０に送信できる。

コンテンツ制御信号を受信したコンテンツ提供サーバ４０のコンテンツ提供部４１１は、コンテンツ制御信号に基づいて、要求された所定のコンテンツ情報、例えば次の楽曲のコンテンツ情報を記憶部４３から検索して出力する。コンテンツ提供サーバ４０は、出力したコンテンツ情報を、コンテンツデータとしてメインＶＰＡサーバ２０を経由して車載装置１１に送信する（ステップＳＴ１２）。コンテンツデータを受信した車載装置１１のコンテンツ制御部１１１ｂは、コンテンツデータを表示部１１２に表示したり、コンテンツデータに含まれる楽曲データ等をスピーカ１１５から出力したりして、コンテンツを実行する（ステップＳＴ１３）。なお、コンテンツデータはストリーミングデータとして、メインＶＰＡサーバ２０や車載装置１１に送信しても良い。

以上説明した一実施形態によれば、ユーザが、メインＶＰＡサーバ２０が実現する所定のエージェントＡと、サブＶＰＡサーバ３０が実現する他のエージェントＢ，Ｃとの複数のエージェントを利用する場合に有用である。すなわち、ユーザがエージェントＢ，Ｃに向けて指示した場合でも、この指示を所定のエージェントＡに指示した処理として実行できる。この場合であっても、ユーザ発話音声に対する音声認識処理及び意図理解処理は、ユーザが要求したエージェント、例えばエージェントＢのサブ第一ＶＰＡサーバ３０Ａによって実行される。そのため、所定のエージェントＡを実現するメインＶＰＡサーバ２０への負荷は増加しない。また、複数のエージェントによって互いに類似する複数のサービスが提供されている場合であっても、メインＶＰＡサーバ２０によって統一的にコンテンツの制御処理ができるので、ユーザにとっては、違和感なく、複数のエージェントＡ，Ｂ、Ｃを横断的に跨いで使用することができる。

（記録媒体）
上述の一実施形態において、車載装置１１やメインＶＰＡサーバ２０による処理方法を実行可能なプログラムを、コンピュータその他の機械や装置（以下、コンピュータ等、という）が読み取り可能な記録媒体に記録することができる。コンピュータ等に、この記録媒体のプログラムを読み込ませて実行させることにより、当該コンピュータが車載装置１１やメインＶＰＡサーバ２０として機能する。ここで、コンピュータ等が読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的、又は化学的作用によって蓄積し、コンピュータ等から読み取ることができる非一時的な記録媒体をいう。このような記録媒体のうちコンピュータ等から取り外し可能なものとしては、例えばフレキシブルディスク、光磁気ディスク、ＣＤ－ＲＯＭ、ＣＤ－Ｒ／Ｗ、ＤＶＤ（Digital Versatile Disk）、ＢＤ、ＤＡＴ、磁気テープ、フラッシュメモリ等のメモリカード等がある。また、コンピュータ等に固定された記録媒体としてハードディスク、ＲＯＭ等がある。さらに、ＳＳＤは、コンピュータ等から取り外し可能な記録媒体としても、コンピュータ等に固定された記録媒体としても利用可能である。

以上、本開示の一実施形態について具体的に説明したが、本開示は、上述の一実施形態に限定されるものではなく、本開示の技術的思想に基づく各種の変形が可能である。本開示の趣旨はこれらの記載に限定されるものではなく、特許請求の範囲の記載に基づいて広く解釈されなければならない。例えば、上述の一実施形態において挙げた数値はあくまでも例に過ぎず、必要に応じてこれと異なる数値を用いても良い。また、これらの記載に基づいて種々変更、改変等したものも本開示の趣旨に含まれる。

例えば、上述した一実施形態においては、ユーザから「音楽の再生」等のコンテンツの実行の指示があった場合、ＶＰＡサーバ２０，３０Ａ，３０Ｂがコンテンツ提供サーバ４０からコンテンツデータを取得して車載装置１１に送信していた。この方法に代えて、ＶＰＡサーバ２０，３０Ａ，３０Ｂがコンテンツ提供サーバ４０を制御し、コンテンツ提供サーバ４０から車載装置１１に音楽データ等のコンテンツデータを直接送信させても良い。

（その他の実施形態）
また、一実施形態に係る情報処理装置、情報処理サーバ、及び車両においては、上述してきた「部」は、「回路」等に読み替えることができる。例えば、通信部は、通信回路に読み替えることができる。

また、一実施形態に係る情報処理装置に実行させるプログラムは、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。

なお、本明細書におけるフローチャートの説明では、「まず」、「その後」、「続いて」等の表現を用いてステップ間の処理の前後関係を明示していたが、本実施形態を実施するために必要な処理の順序は、それらの表現によって一意的に定められるわけではない。すなわち、本明細書で記載したフローチャートにおける処理の順序は、矛盾のない範囲で変更することができる。

さらなる効果や変形例は、当業者によって容易に導き出すことができる。本開示のより広範な態様は、以上のように表しかつ記述した特定の詳細及び代表的な実施形態に限定されるものではない。したがって、添付のクレーム及びその均等物によって定義される総括的な発明の概念の精神又は範囲から逸脱することなく、様々な変更が可能である。

１エージェントシステム
２ネットワーク
１０車両
１１車載装置
１２，２２，３２，４２通信部
１３，２３，３３，４３記憶部
２０メインＶＰＡサーバ
２１，３１，４１，１１１制御部
３０サブＶＰＡサーバ
３０Ａサブ第一ＶＰＡサーバ
３０Ｂサブ第二ＶＰＡサーバ
４０コンテンツ提供サーバ
１１１ａ連携制御部
１１１ｂコンテンツ制御部
１１２表示部
１３１連携アプリケーション
１３２コンテンツアプリケーション
２１１，３１１音声認識部

Claims

ハードウェアを有する第１のプロセッサであって、ユーザの発話音声を取得し、音声対話エージェントをそれぞれ実現する第２の装置及び第３の装置のうちの少なくとも１つに対して、前記ユーザの発話音声を転送し、転送先から制御コマンドを取得した場合に、取得した制御コマンドに基づく制御信号を前記第２の装置に適合する制御信号に変換して前記第２の装置に送信する第１のプロセッサを有する第１の装置と、
ハードウェアを有する第２のプロセッサであって、前記第１の装置から転送された前記発話音声を認識し、前記発話音声を認識した認識結果に関する制御コマンドと、前記第１の装置から取得した制御信号に基づいた応答データとを、前記第１の装置に出力する第２のプロセッサを有する第２の装置と、
ハードウェアを有する第３のプロセッサであって、前記第１の装置から転送された前記発話音声を認識し、前記発話音声を認識した認識結果に関する制御コマンドを前記第１の装置に出力する第３のプロセッサを有する第３の装置と、
を備える情報処理システム。
前記応答データが格納されたメモリと、
ハードウェアを有する第４のプロセッサであって、前記第２の装置から制御信号を受信した場合に、前記制御信号に基づいた応答データを、前記メモリから読み出して、前記第１の装置又は前記第２の装置に送信する第４のプロセッサと、
を有する第４の装置を備える
請求項１に記載の情報処理システム。
前記第１のプロセッサは、前記第２の装置から取得した制御コマンドに基づいて、前記第２の装置による処理を指示する制御信号を生成し、前記第２の装置に出力する
請求項１又は２に記載の情報処理システム。
前記第１のプロセッサは、
前記発話音声を認識し、前記発話音声に含まれる指示が、前記第２の装置又は前記第３の装置が実現する音声対話エージェントのうちの何れの音声対話エージェントへの指示かを判定し、
判定した音声対話エージェントを実現する第２の装置又は第３の装置に対して、前記発話音声を転送する
請求項１～３のいずれか１項に記載の情報処理システム。
前記第１のプロセッサは、前記第２の装置及び前記第３の装置に前記発話音声を転送し、
前記第２のプロセッサは、前記発話音声に含まれる音声対話エージェントが前記第２の装置が実現する音声対話エージェントであるか否かを判定し、
前記第３のプロセッサは、前記発話音声に含まれる音声対話エージェントが前記第３の装置が実現する音声対話エージェントであるか否かを判定し、
前記第２のプロセッサ及び前記第３のプロセッサのうちの、肯定の判定をしたプロセッサが、前記発話音声を認識した結果と前記発話音声を認識した結果に関する制御コマンドとを前記第１の装置に送信する
請求項１～４のいずれか１項に記載の情報処理システム。
前記第１のプロセッサは、前記第２の装置又は前記第３の装置に対して、前記発話音声に代えて、前記発話音声を認識した結果を出力し、
前記第２のプロセッサ又は前記第３のプロセッサは、前記第１の装置から転送された前記発話音声を認識した結果に基づく処理を行い、当該処理に関する制御コマンドを前記第１の装置に出力する
請求項１～３のいずれか１項に記載の情報処理システム。
前記第１のプロセッサは、取得した前記発話音声をテキストデータに変換し、
前記テキストデータに、音声対話エージェントを特定するフレーズが含まれた場合に、前記発話音声が、特定された音声対話エージェントを実現する第２の装置又は第３の装置に対する指示を含むと判定する
請求項１～６のいずれか１項に記載の情報処理システム。
前記発話音声は、音声対話エージェントを特定するフレーズと、当該音声対話エージェントに対する指示とを含む、
請求項１～７のいずれか１項に記載の情報処理システム。
前記第３の装置を複数備える
請求項１～８のいずれか１項に記載の情報処理システム。
前記第１の装置は、車両に搭載されている
請求項１～９のいずれか１項に記載の情報処理システム。
前記第１の装置は、前記ユーザが所持する情報端末装置である
請求項１～９のいずれか１項に記載の情報処理システム。
ハードウェアを有するプロセッサを備え、
前記プロセッサは、ユーザの発話音声を取得し、
音声対話エージェントをそれぞれ実現するメインサーバ及びサブサーバのうちの少なくとも１つに対して、前記ユーザの発話音声を転送し、
前記発話音声を認識した認識結果に関する制御コマンドを転送先から取得した場合に、取得した制御コマンドに基づく制御信号を前記メインサーバに適合する制御信号に変換して、前記メインサーバに送信する
情報処理装置。
前記プロセッサは、
前記発話音声を認識し、
前記発話音声に含まれる指示が、前記メインサーバ又は前記サブサーバが実現する音声対話エージェントのうちの何れの音声対話エージェントへの指示かを判定し、
判定した音声対話エージェントを実現するメインサーバ又はサブサーバに対して、前記ユーザの発話音声を転送する
請求項１２に記載の情報処理装置。
前記プロセッサは、
取得した前記発話音声をテキストデータに変換し、
前記テキストデータに、音声対話エージェントを特定するフレーズが含まれた場合に、特定された音声対話エージェントを実現する前記メインサーバ又は前記サブサーバに対する指示であると判定する
請求項１３に記載の情報処理装置。
ディスプレイを有し、
前記プロセッサは、前記発話音声に含まれる指示が、前記メインサーバ又は前記サブサーバが実現する音声対話エージェントのうちの何れの音声対話エージェントへの指示かが確定した際に、確定した音声対話エージェントの名称を前記ディスプレイに表示する
請求項１２～１４のいずれか１項に記載の情報処理装置。
前記プロセッサは、
前記メインサーバ又は前記サブサーバに対して、前記発話音声に代えて、前記発話音声を認識した結果を出力し、
前記メインサーバ又は前記サブサーバから、前記発話音声を認識した結果に基づく処理に関する制御コマンドを取得する
請求項１２～１５のいずれか１項に記載の情報処理装置。
前記発話音声は、音声対話エージェントを特定するフレーズと、前記音声対話エージェントに対する指示とを含む、
請求項１２～１６のいずれか１項に記載の情報処理装置。
車両に搭載可能な端末装置である
請求項１２～１７のいずれか１項に記載の情報処理装置。
ハードウェアを有するプロセッサに、
ユーザの発話音声を取得し、
音声対話エージェントをそれぞれ実現するメインサーバ及びサブサーバのうちの少なくとも１つに対して、前記ユーザの発話音声を転送し、
前記発話音声を認識した認識結果に関する制御コマンドを転送先から取得した場合に、取得した制御コマンドに基づく制御信号を前記メインサーバに適合する制御信号に変換して、前記メインサーバに送信する
ことを実行させるプログラム。
前記プロセッサに、
前記発話音声を認識し、
前記発話音声に含まれる指示が、前記メインサーバ又は前記サブサーバが実現する音声対話エージェントのうちの何れの音声対話エージェントへの指示かを判定し、
指示対象であると判定した音声対話エージェントを実現するメインサーバ又はサブサーバに対して、前記ユーザの発話音声を転送する
ことを実行させる請求項１９に記載のプログラム。