JP7264071B2 - 情報処理システム、情報処理装置、及びプログラム - Google Patents

情報処理システム、情報処理装置、及びプログラム Download PDF

Info

Publication number
JP7264071B2
JP7264071B2 JP2020009449A JP2020009449A JP7264071B2 JP 7264071 B2 JP7264071 B2 JP 7264071B2 JP 2020009449 A JP2020009449 A JP 2020009449A JP 2020009449 A JP2020009449 A JP 2020009449A JP 7264071 B2 JP7264071 B2 JP 7264071B2
Authority
JP
Japan
Prior art keywords
voice
processor
server
agent
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020009449A
Other languages
English (en)
Other versions
JP2021117308A (ja
Inventor
聖 相原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2020009449A priority Critical patent/JP7264071B2/ja
Priority to US17/144,202 priority patent/US11646034B2/en
Priority to CN202110076094.0A priority patent/CN113160824A/zh
Publication of JP2021117308A publication Critical patent/JP2021117308A/ja
Application granted granted Critical
Publication of JP7264071B2 publication Critical patent/JP7264071B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/34Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Description

本開示は、情報処理システム、情報処理装置、及びプログラムに関する。
特許文献1には、複数のエージェントのサービスを利用するための音声対話方法が開示されている。特許文献1に記載された技術においては、音声認識処理の結果と、エージェント情報とに基づいて、入力音声信号に基づく処理を、複数のエージェントの何れで行うかを決定している。
さて、VPA(Virtual Personal Assistant)サービスにおいて利用可能な機能の中に、複数の異なるVPAサービス事業体によって提供される、互いに類似したサービスが存在する。このようなサービスとして、例えば楽曲提供サービス等がある。これらの互いに類似した複数のサービスは、それぞれ単体で機能するように提供される。
特開2018-189984号公報
類似した複数のサービスを利用するユーザにとっては、類似したサービスが複数の異なる音声対話エージェント事業者から互いに独立して提供されることになる。そのため、類似したサービスであっても、音声対話エージェントごとにそれぞれ独立して指示を行う必要があった。この場合、例えば、ユーザがまず、「エージェントA、曲をかけて」と発話すると、所定の1つの事業者が提供するエージェントAの音声対話エージェントによって楽曲の再生が開始される。次に、ユーザが、「エージェントB、次の曲をかけて」と発話しても、他の事業者が提供するエージェントBの音声対話エージェントは、「次の曲」に対応する前の曲を認識できないため、ユーザが所望する次の楽曲の再生動作ができなかった。すなわち、音声対話エージェントごとにそれぞれ提供するサービスが独立しているため、類似したサービスであっても、複数の音声対話エージェントを相互に連携させた制御を行うことが困難であった。
本開示は、上記に鑑みてなされたものであって、その目的は、複数の音声対話エージェントによって提供される類似のサービスを連携させた制御を行うことができる情報処理システム、情報処理装置、及びプログラムを提供することにある。
本開示による情報処理システムは、ハードウェアを有する第1のプロセッサであって、ユーザの発話音声を取得し、音声対話エージェントをそれぞれ実現する第2の装置及び第3の装置のうちの少なくとも1つに対して、ユーザの発話音声を転送し、転送先から制御コマンドを取得した場合に、取得した制御コマンドに基づく制御信号を第2の装置に適合する制御信号に変換して第2の装置に送信する第1のプロセッサを有する第1の装置と、ハードウェアを有する第2のプロセッサであって、第1の装置から転送された発話音声を認識し、発話音声を認識した認識結果に関する制御コマンドと、第1の装置から取得した制御信号に基づいた応答データとを、第1の装置に出力する第2のプロセッサを有する第2の装置と、ハードウェアを有する第3のプロセッサであって、第1の装置から転送された発話音声を認識し、発話音声を認識した認識結果に関する制御コマンドを第1の装置に出力する第3のプロセッサを有する第3の装置と、を備える。
本開示による情報処理装置は、ハードウェアを有するプロセッサを備え、プロセッサは、ユーザの発話音声を取得し、音声対話エージェントをそれぞれ実現するメインサーバ及びサブサーバのうちの少なくとも1つに対して、ユーザの発話音声を転送し、発話音声を認識した認識結果に関する制御コマンドを転送先から取得した場合に、取得した制御コマンドに基づく制御信号をメインサーバに適合する制御信号に変換して、メインサーバに送信する。
本開示によるプログラムは、ハードウェアを有するプロセッサに、ユーザの発話音声を取得し、音声対話エージェントをそれぞれ実現するメインサーバ及びサブサーバのうちの少なくとも1つに対して、ユーザの発話音声を転送し、発話音声を認識した認識結果に関する制御コマンドを転送先から取得した場合に、取得した制御コマンドに基づく制御信号をメインサーバに適合する制御信号に変換して、メインサーバに送信する。
本開示によれば、複数の音声対話エージェントによって提供される類似のサービスを連携させた制御を行うことが可能となる。
図1は、一実施形態によるエージェントシステムを概略的に示すブロック図である。 図2は、一実施形態によるエージェントシステムの構成を概略的に示すブロック図である。 図3は、一実施形態による情報処理システム、及び情報処理装置が、プログラムによって実行する音声対話方法の一例を示すフロー図である。
以下、本開示の一実施形態について図面を参照しつつ説明する。なお、以下の一実施形態の全図においては、同一又は対応する部分には同一の符号を付す。また、本開示は以下に説明する一実施形態によって限定されるものではない。
(エージェントシステム/端末装置)
まず、本開示の一実施形態による情報処理システムであるエージェントシステム、情報処理装置である端末装置、及びエージェントシステムや端末装置において実行されるプログラムについて説明する。図1は、エージェントシステム1を示すブロック図であり、図2は、エージェントシステム1を構成する各種サーバ及び情報処理装置としての端末装置の構成を概略的に示すブロック図である。本実施形態によるエージェントシステム、及び端末装置は、ユーザに対して、複数の音声対話エージェント(以下、エージェント)のサービスを提供する。なお、以下の実施形態における構成要素には、当業者が置換可能かつ容易なもの、又は実質的に同一のものが含まれる。
ここで、本実施形態による端末装置は例えば、車両に搭載されている車載装置を想定する。「ユーザ」とは、端末装置を通じて複数のエージェントのサービスを利用する者であり、例えば車両の運転者を含む乗員である。なお、端末装置は、車両に搭載されている車載装置に限定されず、例えばユーザが所持する情報端末装置であっても良い。この情報端末装置としては、例えば携帯電話、タブレット端末、ウェアラブルコンピュータ、パーソナルコンピュータ等が挙げられる。
図1に示すように、一実施形態によるエージェントシステム1は、車載装置11を備える車両10と、メインVPA(Virtual Personal Assistant)サーバ20と、サブ第一VPAサーバ30Aと、サブ第二VPAサーバ30Bと、コンテンツ提供サーバ40とを有する。本実施形態による端末装置は、具体的には車載装置11によって実現される。車両10、メインVPAサーバ20、サブ第一VPAサーバ30A、及びサブ第二VPAサーバ30Bは、ネットワーク2を通じて相互に通信可能に構成されている。ネットワーク2は、例えばインターネット回線網、携帯電話回線網等から構成される。
本実施形態におけるエージェントシステム1は、3つのVPAサーバを利用しているが、VPAサーバの数は4つ以上でも良い。本実施形態において、メインVPAサーバ20は、エージェントAを実現するためのサーバ装置である。サブ第一VPAサーバ30Aは、エージェントBを実現するためのサーバ装置であり、サブ第二VPAサーバ30Bは、エージェントCを実現するためのサーバ装置である。エージェントA、エージェントB、及びエージェントCはそれぞれ、例えば音楽配信サービス等の同じサービスを提供する。なお、エージェントA、エージェントB、及びエージェントCは、異なるサービスを提供するものであっても良い。具体的に例えば、エージェントA,Bは音楽配信サービス、エージェントCは天気情報配信サービス等であっても良い。本実施形態において、エージェントA,B,Cを総称する場合は「エージェント」と表記する。サブ第一VPAサーバ30A及びサブ第二VPAサーバ30Bを総称する場合には、「サブVPAサーバ30」と標記する。メインVPAサーバ20、サブ第一VPAサーバ30A、サブ第二VPAサーバ30Bを総称する場合は「VPAサーバ」又は「エージェントサーバ」と表記する。
(車両)
図2に示すように、車両10は、車載装置11、通信部12、及び記憶部13を備える。車載装置11は、例えば車両10に搭載されるカーナビゲーション装置や、ユーザが所有して車両10と連携された携帯端末等である。第1の装置としての車載装置11は、制御部111、表示部(ディスプレイ)112、ボタン113、マイク114、及びスピーカ115を備える。
ハードウェアを有する第1のプロセッサとしての制御部111は、具体的に、CPU(Central Processing Unit)、DSP(Digital Signal Processor)、FPGA(Field-Programmable Gate Array)等のプロセッサ、及びRAM(Random Access Memory)やROM(Read Only Memory)等の主記憶部を備える。記憶部13は、EPROM(Erasable Programmable ROM)、ハードディスクドライブ(HDD、Hard Disk Drive)、及びリムーバブルメディア等から選ばれた記憶媒体から構成される。なお、リムーバブルメディアは、例えば、USB(Universal Serial Bus)メモリ、又は、CD(Compact Disc)、DVD(Digital Versatile Disc)、又はBD(Blu-ray(登録商標) Disc)のようなディスク記録媒体である。記憶部13には、オペレーティングシステム(Operating System :OS)、各種プログラム、各種テーブル、各種データベース等が格納可能である。制御部111は、記憶部13に格納されたプログラム、ここでは連携アプリケーション131又はコンテンツアプリケーション132を主記憶部の作業領域にロードして実行し、プログラムの実行を通じて各構成部等を制御する。これにより、制御部111は、所定の目的に合致した、連携制御部111a及びコンテンツ制御部111bの機能を実現できる。
連携制御部111aは、自動音声認識(Automatic Speech Recognition:ASR)処理及び自然言語理解(Natural language understanding:NLU)を行う音声認識エンジンを備えていても良い。連携制御部111aは、例えば、ユーザの発話音声(ユーザ発話音声)をテキストデータに変換し、当該テキストデータに、エージェントを特定するフレーズが含まれる場合、そのエージェントへの指示であると判定する。ここで、「エージェントを特定するフレーズ」とは、エージェントを呼び出すためのウェイクワード(Wake Word:WWという)を示す。
連携制御部111aは、マイク114から入力されたユーザ発話音声を認識し、情報の送受信を行うVPAサーバ20,30A,30Bを判定する。すなわち、連携制御部111aは、ユーザの発話音声に含まれる指示が、複数のエージェントA,B,Cのうちのどのエージェントへの指示であるかを判定する。連携制御部111aは、ユーザの発話音声に含まれる指示が、複数のエージェントA,B,Cのうちのどのエージェントへの指示であるのかを判定した際に、判定されたエージェントの名称を表示部112に表示させても良い。これにより、ユーザがどのエージェントに指示を行ったのかを確認できる。
連携制御部111aは、判定したエージェントを実現するエージェントサーバ、すなわち、メインVPAサーバ20、サブ第一VPAサーバ30A、又はサブ第二VPAサーバ30Bを転送先として、ユーザ発話音声を転送する。エージェントサーバから出力された所定の情報、例えば認識結果情報は、連携制御部111aが取得してもよく、コンテンツデータ等の応答データは、コンテンツ制御部111bが取得しても良い。ここで、コンテンツとは、映画、音楽、演劇、文芸、写真、漫画、アニメーション、コンピュータゲームその他の文字、図形、色彩、音声、動作もしくは映像もしくはこれらを組み合わせたもの又はこれらに係る情報を、情報処理装置を介して提供できるもので良い。コンテンツは、人間の創造的活動により生み出されるもののうち、教養又は娯楽の範囲に属するものにできる。
なお、連携制御部111aが音声認識エンジンを備えていない場合、自動音声認識及び自然言語理解は、メインVPAサーバ20や、サブVPAサーバ30で行うようにしても良い。すなわち、連携制御部111aは、マイク114から入力されたユーザ発話音声をそれぞれのVPAサーバ20,30A,30Bに送信する。VPAサーバ20,30A,30Bにおいて、ユーザ発話音声のウェイクワードに含まれる特定のエージェントを実現する1つ又は複数のVPAサーバが応答しても良い。
連携制御部111aは、判定したVPAサーバ20,30A,30Bから受信した認識結果や制御コマンドを、所定のエージェント、例えばエージェントAを実現するメインVPAサーバ20に適合した認識結果や制御信号に変換する。具体的に例えば、連携制御部111aは、エージェントB,CのサブVPAサーバ30から出力されたそれらのエージェントに特有の制御コマンドを変換して、エージェントAを実現するメインVPAサーバ20に適合する制御信号に変換する。
コンテンツ制御部111bは、メインVPAサーバ20から受信した制御コマンドに基づいて、表示部112に表示させる内容を制御したり、スピーカ115から出力させる内容を制御したりする。具体的に、コンテンツ制御部111bは、特に、メインVPAサーバ20から入力される所定の情報を、表示部112に表示させる。「所定の情報」としては、例えばユーザの発話音声の認識結果や、ユーザの指示に基づく処理に関する応答データ等が挙げられるが、これらに限定されない。「ユーザの指示に基づく処理」とは、例えばユーザがエージェント(VPAサーバ)に対して「音楽を再生して」と指示した場合、VPAサーバが、コンテンツ提供サーバ40から音楽データを取得して車載装置11に送信する処理のことを示す。この場合、メインVPAサーバ20から車載装置11に送信される「応答データ」は、音楽データ等のコンテンツデータである。なお、コンテンツデータは音楽データに限定されず、所定の表示データや映像データ等、表示部112やスピーカ115から出力可能な種々のデータであって良い。コンテンツ制御部111bは、ユーザの操作に基づいて、操作に対応する画面を表示部112に表示させても良い。コンテンツ制御部111bは、コンテンツ提供サーバ40から受信したコンテンツデータを、表示部112に表示させたり、スピーカ115から出力させたりする制御を行っても良い。
連携制御部111aは、音声認識処理の結果をそのままエージェントサーバ(メインVPAサーバ20又はサブ第一VPAサーバ30A)に出力しても良い。この場合、コンテンツ制御部111bは、エージェントサーバに対してユーザの発話音声に代えて、当該ユーザの発話音声の認識結果を出力できる。次に、コンテンツ制御部111bが、エージェントサーバから所定の情報(応答データ等)を取得する。これにより、エージェントサーバにおける音声認識処理を省略することができるため、エージェントサーバの応答速度が向上する。
表示部112は、例えばLCD(液晶ディスプレイ)、OLED(有機ELディスプレイ)等から構成され、コンテンツ制御部111bの制御に基づいて情報を表示する。ボタン113は、発話の際にユーザが押下するボタンである。ボタン113は、例えば車両10のハンドル等に設けられるプッシュ式の物理的な押しボタン、又は表示部112に表示される仮想的な押しボタンから構成される。
ここで、本実施形態におけるエージェントには、複数の呼び出し方法(起動方法)がある。例えばエージェントB(サブ第一VPAサーバ30A)に対して天気情報の提供を指示する場合、ユーザは以下の(1)、(2)のように発話する。
(1)「エージェントB、今日の天気を教えて」と発話
(2)ボタン113におけるエージェントBに対応する部分を押下して「今日の天気を教えて」と発話
ここで、押下して発話とは、ボタン113を押下して離した後に発話する場合、またはボタン113を押下した状態を維持しつつ発話し、発話が完了したらボタン113を離す場合のいずれの場合でもよい。
(1)は、ウェイクワードを用いた方法であり、ユーザは、エージェントBを特定するフレーズと、エージェントBに対する指示とを含むフレーズを発話する。(2)は、ウェイクワードの代わりにボタン113を用いた方法である。このように、ボタン113を押下して発話することで、ウェイクワードを省略できる。
マイク114は、ユーザからの音声入力を受け付ける入力部である。マイク114は、例えばユーザがエージェント(VPAサーバ)に対して指示を行う際に用いられる。スピーカ115は、音声や楽曲を出力する出力部である。スピーカ115は、例えばユーザの指示に基づいて、エージェントがユーザに対して応答を行う際に用いられる。
通信部12は、例えばDCM(Data Communication Module)等から構成され、ネットワーク2を介した無線通信により、メインVPAサーバ20、サブ第一VPAサーバ30A、及びサブ第二VPAサーバ30Bとの間で通信を行う。
(メインVPAサーバ)
第2の装置又はメインサーバとしてのメインVPAサーバ20は、制御部21と、通信部22と、記憶部23と、を備える。制御部21、通信部22、及び記憶部23はそれぞれ、物理的には上述した制御部111、通信部12、及び記憶部13と同様である。
ハードウェアを有する第2のプロセッサとしての制御部21は、記憶部23に格納されたプログラムの実行を通じて、音声認識部211として機能する。音声認識部211は、連携制御部111aと同様の機能を有し、車載装置11から転送されたユーザ発話音声を認識し、所定の情報(認識結果情報、応答データ)を出力して、車載装置11に送信する。
音声認識部211は、ユーザとの対話内容を当該ユーザの嗜好情報として記憶部23に蓄積し、車載装置11から転送されたユーザ発話音声の認識結果に基づく処理を行う際に、ユーザの嗜好情報を考慮した処理を行っても良い。例えばユーザがエージェントAに対して、特定のジャンル(例えばクラッシック)の音楽の再生を頻繁に指示している場合、音声認識部211は「ユーザの好きな音楽のジャンル:クラッシック」という情報を嗜好情報として記憶部23に蓄積する。そして、音声認識部211は、ユーザからエージェントAに対して「音楽の再生」の指示がなされた場合、コンテンツ提供サーバ40などのサービスサーバからクラッシックの音楽データを取得し、車載装置11に送信する。これにより、ユーザの嗜好に沿ったサービスを受けることができるため、利便性が向上する。
記憶部23には、必要に応じて、例えばユーザの対話内容のデータ、ユーザ発話音声の認識結果のデータ等が格納される。なお、これらの情報は、プライバシー保護の観点から、利用後に記憶部23から削除しても良い。
(サブVPAサーバ)
第3の装置又はサブサーバとしてのサブVPAサーバ30(サブ第一VPAサーバ30A及びサブ第二VPAサーバ30B)は、制御部31と、通信部32と、記憶部33と、を備える。制御部31、通信部32、及び記憶部33はそれぞれ、物理的には、上述した制御部111、通信部12、及び記憶部13と同様である。ハードウェアを有する第3のプロセッサとしての制御部31は、記憶部33に格納されたプログラムの実行を通じて、音声認識部311として機能する。
音声認識部311は、連携制御部111aと同様の機能を有し、車載装置11から転送されたユーザ発話音声を認識し、所定の情報(認識結果情報、応答データ)を出力して、車載装置11に送信する。音声認識部311は、音声認識部211と同様に、ユーザとの対話内容を当該ユーザの嗜好情報として記憶部33に蓄積し、車載装置11から転送されたユーザ発話音声の認識結果に基づく処理を行う際に、ユーザの嗜好情報を考慮した処理を行っても良い。これにより、ユーザの嗜好に沿ったサービスを受けることができるため、利便性が向上する。
記憶部33には、必要に応じて、例えばユーザの対話内容の情報、ユーザ発話音声の認識結果情報等が格納される。なお、これらの情報は、プライバシー保護の観点から、利用後に記憶部33から削除しても良い。
(コンテンツ提供サーバ)
第4の装置としてのコンテンツ提供サーバ40は、制御部41と、通信部42と、記憶部43と、を備える。制御部41、通信部42、及び記憶部43はそれぞれ、物理的には上述した制御部111、通信部12、及び記憶部13と同様である。
ハードウェアを有する第4のプロセッサとしての制御部41は、記憶部43に格納されたプログラムの実行を通じて、コンテンツ提供部411として機能する。コンテンツ提供部411は、外部から受信したコンテンツ制御信号に基づいて、要求された所定のコンテンツ情報を記憶部43から検索して出力し、コンテンツデータとしてVPAサーバ20,30A,30Bに送信する。なお、コンテンツ提供サーバ40から車載装置11にコンテンツ情報を送信しても良い。
(音声対話方法)
本実施形態によるエージェントシステム1における音声対話方法の処理手順について、図3を参照しながら説明する。以下では、ユーザが特定のエージェントに指示した後、その他のエージェントに関連した指示を行う場合の音声対話方法について説明する。
まず、ユーザが例えば、「エージェントA、○○の曲を流して」と発話すると(ステップST1)、そのユーザ発話音声のデータが車載装置11のマイク114を通じて入力される。車載装置11の連携制御部111aは、ユーザの発話を検知し、音声認識処理及び意図理解処理を行って、エージェントA宛の指示であると判定し、メインVPAサーバ20にユーザ発話情報を送信する(ステップST2)。なお、連携制御部111aが音声認識エンジンを備えていない場合、連携制御部111aは、マイク114から入力されたユーザ発話音声をそれぞれのVPAサーバ20,30A,30Bに転送する。この場合、ユーザ発話音声のウェイクワードに含まれる「エージェントA」を実現するメインVPAサーバ20が、ユーザの指示に基づく処理を実行する。
続いて、メインVPAサーバ20の音声認識部211は、音声認識処理及び意図理解処理を行って、その認識結果情報及び制御コマンドを出力して、車載装置11に送信する(ステップST3)。車載装置11は、受信した認識結果情報及び制御コマンドを制御部111に入力する。制御部111の連携制御部111aが、受信した認識結果情報及び制御コマンドがメインVPAサーバ20から受信したデータであると判定すると、コンテンツ制御部111bは、メインVPAサーバ20に適合したコンテンツ制御信号を送信する(ステップST4)。メインVPAサーバ20は、受信したコンテンツ制御信号をコンテンツ提供サーバ40に転送する。
コンテンツ制御信号を受信したコンテンツ提供サーバ40のコンテンツ提供部411は、コンテンツ制御信号に基づいて、要求された所定のコンテンツ情報を記憶部43から検索して出力する。コンテンツ提供サーバ40は、出力したコンテンツ情報を、コンテンツデータとしてメインVPAサーバ20を経由して車載装置11に送信する(ステップST5)。コンテンツデータを受信した車載装置11のコンテンツ制御部111bは、コンテンツデータを表示部112に表示したり、コンテンツデータに含まれる楽曲データ等をスピーカ115から出力したりして、コンテンツを実行する(ステップST6)。なお、コンテンツデータはストリーミングデータとして、メインVPAサーバ20や車載装置11に送信しても良い。
その後、ユーザが例えば、「エージェントB、次の曲を流して」と発話する(ステップST7)と、そのユーザ発話音声のデータが車載装置11のマイク114を通じて入力される。車載装置11の連携制御部111aは、ユーザの発話を検知し、音声認識処理及び意図理解処理を行って、エージェントB宛の指示であると判定し、サブ第一VPAサーバ30Aにユーザ発話情報を送信する(ステップST8)。なお、図3においては、統一的にサブVPAサーバ30と記載している。連携制御部111aが音声認識エンジンを備えていない場合、連携制御部111aは、マイク114から入力されたユーザ発話音声をそれぞれのVPAサーバ20,30A,30Bに転送する。ユーザ発話音声のウェイクワードに含まれる「エージェントB」を実現するサブ第一VPAサーバ30Aが、ユーザの指示に基づく処理を実行する。
続いて、サブ第一VPAサーバ30Aの音声認識部311は、音声認識処理及び意図理解処理を行って、その認識結果情報及び制御コマンドを出力して、車載装置11に送信する(ステップST9)。車載装置11は、受信した認識結果情報及び制御コマンドを制御部111に入力する。制御部111の連携制御部111aは、受信した認識結果情報及び制御コマンドがサブ第一VPAサーバ30Aから受信したデータであると判定すると、受信した制御コマンドをメインVPAサーバ20に適合したコンテンツ制御信号に変換する(ステップST10)。
コンテンツ制御部111bは、変換後のメインVPAサーバ20に適合したコンテンツ制御信号を、メインVPAサーバ20に送信する(ステップST11)。メインVPAサーバ20は、受信したコンテンツ制御信号をコンテンツ提供サーバ40に転送する。ここで、具体的に例えば、上述したユーザが発話したうちの「次の曲を流して」の指示の情報は、メインVPAサーバ20に対する指示の情報に変換されている。これにより、メインVPAサーバ20は、例えば「○○の曲」の次の楽曲のコンテンツデータを取得するコンテンツ制御信号を、コンテンツ提供サーバ40に送信できる。
コンテンツ制御信号を受信したコンテンツ提供サーバ40のコンテンツ提供部411は、コンテンツ制御信号に基づいて、要求された所定のコンテンツ情報、例えば次の楽曲のコンテンツ情報を記憶部43から検索して出力する。コンテンツ提供サーバ40は、出力したコンテンツ情報を、コンテンツデータとしてメインVPAサーバ20を経由して車載装置11に送信する(ステップST12)。コンテンツデータを受信した車載装置11のコンテンツ制御部111bは、コンテンツデータを表示部112に表示したり、コンテンツデータに含まれる楽曲データ等をスピーカ115から出力したりして、コンテンツを実行する(ステップST13)。なお、コンテンツデータはストリーミングデータとして、メインVPAサーバ20や車載装置11に送信しても良い。
以上説明した一実施形態によれば、ユーザが、メインVPAサーバ20が実現する所定のエージェントAと、サブVPAサーバ30が実現する他のエージェントB,Cとの複数のエージェントを利用する場合に有用である。すなわち、ユーザがエージェントB,Cに向けて指示した場合でも、この指示を所定のエージェントAに指示した処理として実行できる。この場合であっても、ユーザ発話音声に対する音声認識処理及び意図理解処理は、ユーザが要求したエージェント、例えばエージェントBのサブ第一VPAサーバ30Aによって実行される。そのため、所定のエージェントAを実現するメインVPAサーバ20への負荷は増加しない。また、複数のエージェントによって互いに類似する複数のサービスが提供されている場合であっても、メインVPAサーバ20によって統一的にコンテンツの制御処理ができるので、ユーザにとっては、違和感なく、複数のエージェントA,B、Cを横断的に跨いで使用することができる。
(記録媒体)
上述の一実施形態において、車載装置11やメインVPAサーバ20による処理方法を実行可能なプログラムを、コンピュータその他の機械や装置(以下、コンピュータ等、という)が読み取り可能な記録媒体に記録することができる。コンピュータ等に、この記録媒体のプログラムを読み込ませて実行させることにより、当該コンピュータが車載装置11やメインVPAサーバ20として機能する。ここで、コンピュータ等が読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的、又は化学的作用によって蓄積し、コンピュータ等から読み取ることができる非一時的な記録媒体をいう。このような記録媒体のうちコンピュータ等から取り外し可能なものとしては、例えばフレキシブルディスク、光磁気ディスク、CD-ROM、CD-R/W、DVD(Digital Versatile Disk)、BD、DAT、磁気テープ、フラッシュメモリ等のメモリカード等がある。また、コンピュータ等に固定された記録媒体としてハードディスク、ROM等がある。さらに、SSDは、コンピュータ等から取り外し可能な記録媒体としても、コンピュータ等に固定された記録媒体としても利用可能である。
以上、本開示の一実施形態について具体的に説明したが、本開示は、上述の一実施形態に限定されるものではなく、本開示の技術的思想に基づく各種の変形が可能である。本開示の趣旨はこれらの記載に限定されるものではなく、特許請求の範囲の記載に基づいて広く解釈されなければならない。例えば、上述の一実施形態において挙げた数値はあくまでも例に過ぎず、必要に応じてこれと異なる数値を用いても良い。また、これらの記載に基づいて種々変更、改変等したものも本開示の趣旨に含まれる。
例えば、上述した一実施形態においては、ユーザから「音楽の再生」等のコンテンツの実行の指示があった場合、VPAサーバ20,30A,30Bがコンテンツ提供サーバ40からコンテンツデータを取得して車載装置11に送信していた。この方法に代えて、VPAサーバ20,30A,30Bがコンテンツ提供サーバ40を制御し、コンテンツ提供サーバ40から車載装置11に音楽データ等のコンテンツデータを直接送信させても良い。
(その他の実施形態)
また、一実施形態に係る情報処理装置、情報処理サーバ、及び車両においては、上述してきた「部」は、「回路」等に読み替えることができる。例えば、通信部は、通信回路に読み替えることができる。
また、一実施形態に係る情報処理装置に実行させるプログラムは、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。
なお、本明細書におけるフローチャートの説明では、「まず」、「その後」、「続いて」等の表現を用いてステップ間の処理の前後関係を明示していたが、本実施形態を実施するために必要な処理の順序は、それらの表現によって一意的に定められるわけではない。すなわち、本明細書で記載したフローチャートにおける処理の順序は、矛盾のない範囲で変更することができる。
さらなる効果や変形例は、当業者によって容易に導き出すことができる。本開示のより広範な態様は、以上のように表しかつ記述した特定の詳細及び代表的な実施形態に限定されるものではない。したがって、添付のクレーム及びその均等物によって定義される総括的な発明の概念の精神又は範囲から逸脱することなく、様々な変更が可能である。
1 エージェントシステム
2 ネットワーク
10 車両
11 車載装置
12,22,32,42 通信部
13,23,33,43 記憶部
20 メインVPAサーバ
21,31,41,111 制御部
30 サブVPAサーバ
30A サブ第一VPAサーバ
30B サブ第二VPAサーバ
40 コンテンツ提供サーバ
111a 連携制御部
111b コンテンツ制御部
112 表示部
131 連携アプリケーション
132 コンテンツアプリケーション
211,311 音声認識部

Claims (20)

  1. ハードウェアを有する第1のプロセッサであって、ユーザの発話音声を取得し、音声対話エージェントをそれぞれ実現する第2の装置及び第3の装置のうちの少なくとも1つに対して、前記ユーザの発話音声を転送し、転送先から制御コマンドを取得した場合に、取得した制御コマンドに基づく制御信号を前記第2の装置に適合する制御信号に変換して前記第2の装置に送信する第1のプロセッサを有する第1の装置と、
    ハードウェアを有する第2のプロセッサであって、前記第1の装置から転送された前記発話音声を認識し、前記発話音声を認識した認識結果に関する制御コマンドと、前記第1の装置から取得した制御信号に基づいた応答データとを、前記第1の装置に出力する第2のプロセッサを有する第2の装置と、
    ハードウェアを有する第3のプロセッサであって、前記第1の装置から転送された前記発話音声を認識し、前記発話音声を認識した認識結果に関する制御コマンドを前記第1の装置に出力する第3のプロセッサを有する第3の装置と、
    を備える情報処理システム。
  2. 前記応答データが格納されたメモリと、
    ハードウェアを有する第4のプロセッサであって、前記第2の装置から制御信号を受信した場合に、前記制御信号に基づいた応答データを、前記メモリから読み出して、前記第1の装置又は前記第2の装置に送信する第4のプロセッサと、
    を有する第4の装置を備える
    請求項1に記載の情報処理システム。
  3. 前記第1のプロセッサは、前記第2の装置から取得した制御コマンドに基づいて、前記第2の装置による処理を指示する制御信号を生成し、前記第2の装置に出力する
    請求項1又は2に記載の情報処理システム。
  4. 前記第1のプロセッサは、
    前記発話音声を認識し、前記発話音声に含まれる指示が、前記第2の装置又は前記第3の装置が実現する音声対話エージェントのうちの何れの音声対話エージェントへの指示かを判定し、
    判定した音声対話エージェントを実現する第2の装置又は第3の装置に対して、前記発話音声を転送する
    請求項1~3のいずれか1項に記載の情報処理システム。
  5. 前記第1のプロセッサは、前記第2の装置及び前記第3の装置に前記発話音声を転送し、
    前記第2のプロセッサは、前記発話音声に含まれる音声対話エージェントが前記第2の装置が実現する音声対話エージェントであるか否かを判定し、
    前記第3のプロセッサは、前記発話音声に含まれる音声対話エージェントが前記第3の装置が実現する音声対話エージェントであるか否かを判定し、
    前記第2のプロセッサ及び前記第3のプロセッサのうちの、肯定の判定をしたプロセッサが、前記発話音声を認識した結果と前記発話音声を認識した結果に関する制御コマンドとを前記第1の装置に送信する
    請求項1~4のいずれか1項に記載の情報処理システム。
  6. 前記第1のプロセッサは、前記第2の装置又は前記第3の装置に対して、前記発話音声に代えて、前記発話音声を認識した結果を出力し、
    前記第2のプロセッサ又は前記第3のプロセッサは、前記第1の装置から転送された前記発話音声を認識した結果に基づく処理を行い、当該処理に関する制御コマンドを前記第1の装置に出力する
    請求項1~3のいずれか1項に記載の情報処理システム。
  7. 前記第1のプロセッサは、取得した前記発話音声をテキストデータに変換し、
    前記テキストデータに、音声対話エージェントを特定するフレーズが含まれた場合に、前記発話音声が、特定された音声対話エージェントを実現する第2の装置又は第3の装置に対する指示を含むと判定する
    請求項1~6のいずれか1項に記載の情報処理システム。
  8. 前記発話音声は、音声対話エージェントを特定するフレーズと、当該音声対話エージェントに対する指示とを含む、
    請求項1~7のいずれか1項に記載の情報処理システム。
  9. 前記第3の装置を複数備える
    請求項1~8のいずれか1項に記載の情報処理システム。
  10. 前記第1の装置は、車両に搭載されている
    請求項1~9のいずれか1項に記載の情報処理システム。
  11. 前記第1の装置は、前記ユーザが所持する情報端末装置である
    請求項1~9のいずれか1項に記載の情報処理システム。
  12. ハードウェアを有するプロセッサを備え、
    前記プロセッサは、ユーザの発話音声を取得し、
    音声対話エージェントをそれぞれ実現するメインサーバ及びサブサーバのうちの少なくとも1つに対して、前記ユーザの発話音声を転送し、
    前記発話音声を認識した認識結果に関する制御コマンドを転送先から取得した場合に、取得した制御コマンドに基づく制御信号を前記メインサーバに適合する制御信号に変換して、前記メインサーバに送信する
    情報処理装置。
  13. 前記プロセッサは、
    前記発話音声を認識し、
    前記発話音声に含まれる指示が、前記メインサーバ又は前記サブサーバが実現する音声対話エージェントのうちの何れの音声対話エージェントへの指示かを判定し、
    判定した音声対話エージェントを実現するメインサーバ又はサブサーバに対して、前記ユーザの発話音声を転送する
    請求項12に記載の情報処理装置。
  14. 前記プロセッサは、
    取得した前記発話音声をテキストデータに変換し、
    前記テキストデータに、音声対話エージェントを特定するフレーズが含まれた場合に、特定された音声対話エージェントを実現する前記メインサーバ又は前記サブサーバに対する指示であると判定する
    請求項13に記載の情報処理装置。
  15. ディスプレイを有し、
    前記プロセッサは、前記発話音声に含まれる指示が、前記メインサーバ又は前記サブサーバが実現する音声対話エージェントのうちの何れの音声対話エージェントへの指示かが確定した際に、確定した音声対話エージェントの名称を前記ディスプレイに表示する
    請求項12~14のいずれか1項に記載の情報処理装置。
  16. 前記プロセッサは、
    前記メインサーバ又は前記サブサーバに対して、前記発話音声に代えて、前記発話音声を認識した結果を出力し、
    前記メインサーバ又は前記サブサーバから、前記発話音声を認識した結果に基づく処理に関する制御コマンドを取得する
    請求項12~15のいずれか1項に記載の情報処理装置。
  17. 前記発話音声は、音声対話エージェントを特定するフレーズと、前記音声対話エージェントに対する指示とを含む、
    請求項12~16のいずれか1項に記載の情報処理装置。
  18. 車両に搭載可能な端末装置である
    請求項12~17のいずれか1項に記載の情報処理装置。
  19. ハードウェアを有するプロセッサに、
    ユーザの発話音声を取得し、
    音声対話エージェントをそれぞれ実現するメインサーバ及びサブサーバのうちの少なくとも1つに対して、前記ユーザの発話音声を転送し、
    前記発話音声を認識した認識結果に関する制御コマンドを転送先から取得した場合に、取得した制御コマンドに基づく制御信号を前記メインサーバに適合する制御信号に変換して、前記メインサーバに送信する
    ことを実行させるプログラム。
  20. 前記プロセッサに、
    前記発話音声を認識し、
    前記発話音声に含まれる指示が、前記メインサーバ又は前記サブサーバが実現する音声対話エージェントのうちの何れの音声対話エージェントへの指示かを判定し、
    指示対象であると判定した音声対話エージェントを実現するメインサーバ又はサブサーバに対して、前記ユーザの発話音声を転送する
    ことを実行させる請求項19に記載のプログラム。
JP2020009449A 2020-01-23 2020-01-23 情報処理システム、情報処理装置、及びプログラム Active JP7264071B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2020009449A JP7264071B2 (ja) 2020-01-23 2020-01-23 情報処理システム、情報処理装置、及びプログラム
US17/144,202 US11646034B2 (en) 2020-01-23 2021-01-08 Information processing system, information processing apparatus, and computer readable recording medium
CN202110076094.0A CN113160824A (zh) 2020-01-23 2021-01-20 信息处理系统、信息处理装置及程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020009449A JP7264071B2 (ja) 2020-01-23 2020-01-23 情報処理システム、情報処理装置、及びプログラム

Publications (2)

Publication Number Publication Date
JP2021117308A JP2021117308A (ja) 2021-08-10
JP7264071B2 true JP7264071B2 (ja) 2023-04-25

Family

ID=76878745

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020009449A Active JP7264071B2 (ja) 2020-01-23 2020-01-23 情報処理システム、情報処理装置、及びプログラム

Country Status (3)

Country Link
US (1) US11646034B2 (ja)
JP (1) JP7264071B2 (ja)
CN (1) CN113160824A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021117301A (ja) * 2020-01-23 2021-08-10 トヨタ自動車株式会社 エージェントシステム、端末装置およびエージェントプログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004212802A (ja) 2003-01-07 2004-07-29 Fujitsu Ltd 対話情報処理システム
JP2016114395A (ja) 2014-12-12 2016-06-23 クラリオン株式会社 音声入力補助装置、音声入力補助システムおよび音声入力方法
JP2018181330A (ja) 2017-04-13 2018-11-15 ハーマン インターナショナル インダストリーズ インコーポレイテッド 複数のインテリジェントパーソナルアシスタントサービスに対する管理レイヤ
WO2019103006A1 (ja) 2017-11-24 2019-05-31 株式会社Nttドコモ 情報処理装置及び情報処理方法
JP2019086903A (ja) 2017-11-02 2019-06-06 東芝映像ソリューション株式会社 音声対話端末、および音声対話端末制御方法
JP2019086535A (ja) 2017-11-01 2019-06-06 ソフトバンク株式会社 送信制御装置及びプログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USRE46153E1 (en) * 1998-09-11 2016-09-20 Genesys Telecommunications Laboratories, Inc. Method and apparatus enabling voice-based management of state and interaction of a remote knowledge worker in a contact center environment
TWI266287B (en) * 2000-08-18 2006-11-11 Sony Corp Communication system, communication apparatus, communication method, record medium, and program
US8838454B1 (en) * 2004-12-10 2014-09-16 Sprint Spectrum L.P. Transferring voice command platform (VCP) functions and/or grammar together with a call from one VCP to another
US20110157480A1 (en) * 2008-05-07 2011-06-30 Curl Douglas D Integration system for medical instruments with remote control
KR102177830B1 (ko) * 2012-09-10 2020-11-11 삼성전자주식회사 디바이스에 연결된 외부 기기를 제어하는 시스템 및 방법
CN108806690B (zh) 2013-06-19 2023-05-09 松下电器(美国)知识产权公司 声音对话方法及声音对话代理服务器
CN107527610A (zh) * 2016-06-21 2017-12-29 北京新岸线网络技术有限公司 一种分布式语音识别及检索方法
US10311856B2 (en) * 2016-10-03 2019-06-04 Google Llc Synthesized voice selection for computational agents
KR102643501B1 (ko) * 2016-12-26 2024-03-06 현대자동차주식회사 대화 처리 장치, 이를 포함하는 차량 및 대화 처리 방법
US11164570B2 (en) * 2017-01-17 2021-11-02 Ford Global Technologies, Llc Voice assistant tracking and activation
US20190013019A1 (en) * 2017-07-10 2019-01-10 Intel Corporation Speaker command and key phrase management for muli -virtual assistant systems
WO2019026313A1 (ja) * 2017-08-02 2019-02-07 パナソニックIpマネジメント株式会社 情報処理装置、音声認識システム、及び、情報処理方法
JP2019086805A (ja) * 2017-11-01 2019-06-06 トヨタ自動車株式会社 車内システム
US20190164556A1 (en) * 2017-11-30 2019-05-30 Dean Weber Master-slave personal digital assistant data and knowledge exchange system and method

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004212802A (ja) 2003-01-07 2004-07-29 Fujitsu Ltd 対話情報処理システム
JP2016114395A (ja) 2014-12-12 2016-06-23 クラリオン株式会社 音声入力補助装置、音声入力補助システムおよび音声入力方法
JP2018181330A (ja) 2017-04-13 2018-11-15 ハーマン インターナショナル インダストリーズ インコーポレイテッド 複数のインテリジェントパーソナルアシスタントサービスに対する管理レイヤ
JP2019086535A (ja) 2017-11-01 2019-06-06 ソフトバンク株式会社 送信制御装置及びプログラム
JP2019086903A (ja) 2017-11-02 2019-06-06 東芝映像ソリューション株式会社 音声対話端末、および音声対話端末制御方法
WO2019103006A1 (ja) 2017-11-24 2019-05-31 株式会社Nttドコモ 情報処理装置及び情報処理方法

Also Published As

Publication number Publication date
CN113160824A (zh) 2021-07-23
US20210233536A1 (en) 2021-07-29
JP2021117308A (ja) 2021-08-10
US11646034B2 (en) 2023-05-09

Similar Documents

Publication Publication Date Title
JP7083270B2 (ja) 複数のインテリジェントパーソナルアシスタントサービスに対する管理レイヤ
US20220277743A1 (en) Voice recognition system for use with a personal media streaming appliance
US20210074289A1 (en) Voice recognition system for use with a personal media streaming appliance
JP6862632B2 (ja) 音声インタラクション方法、装置、設備、コンピュータ記憶媒体及びコンピュータプログラム
US11836415B2 (en) Adaptive voice communication
JP5320064B2 (ja) 音声制御型ワイヤレス通信デバイス・システム
US8898568B2 (en) Audio user interface
JP2019040603A (ja) 音楽推薦方法、装置、設備及びプログラム
US8177643B2 (en) Out-of-band voice communication with interactive voice response services during gameplay
JP6276503B2 (ja) オーディオ装置
JP7264071B2 (ja) 情報処理システム、情報処理装置、及びプログラム
JP2022180282A (ja) ペルソナチャットボット制御方法及びシステム
US11587566B2 (en) Agent system, terminal device, and computer readable recording medium using speech interaction for services
US20210233538A1 (en) Agent system, terminal device, and computer readable recording medium
EP3855305A1 (en) Agent system, agent server, and agent program
JP2020113150A (ja) 音声翻訳対話システム
JP2015076040A (ja) 情報処理方法、情報処理装置、及びプログラム
Taylor “Striking a healthy balance”: speech technology in the mobile ecosystem
Wang et al. Designing Speech-Controlled Media File Selection for Automotive Systems
JP2004294764A (ja) 音声対話装置、音声対話方法及び音声対話処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220118

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221223

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230314

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230327

R151 Written notification of patent or utility model registration

Ref document number: 7264071

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151