JP2021117301A - エージェントシステム、端末装置およびエージェントプログラム - Google Patents

エージェントシステム、端末装置およびエージェントプログラム Download PDF

Info

Publication number
JP2021117301A
JP2021117301A JP2020009343A JP2020009343A JP2021117301A JP 2021117301 A JP2021117301 A JP 2021117301A JP 2020009343 A JP2020009343 A JP 2020009343A JP 2020009343 A JP2020009343 A JP 2020009343A JP 2021117301 A JP2021117301 A JP 2021117301A
Authority
JP
Japan
Prior art keywords
content
server
user
agent
terminal device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020009343A
Other languages
English (en)
Inventor
聖 相原
Satoshi Aihara
聖 相原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2020009343A priority Critical patent/JP2021117301A/ja
Priority to US17/109,200 priority patent/US11587566B2/en
Priority to CN202110012700.2A priority patent/CN113162964B/zh
Publication of JP2021117301A publication Critical patent/JP2021117301A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)
  • Navigation (AREA)

Abstract

【課題】複数の音声対話エージェントを跨いで複数のサービスを同時に利用することができるエージェントシステム、端末装置およびエージェントプログラムを提供すること。【解決手段】ユーザの要求に応じて第一のコンテンツを端末装置に出力する第一のプロセッサを備える第一のサーバと、ユーザの要求に応じて第二のコンテンツを端末装置に出力する第二のプロセッサを備える第二のサーバと、第一のサーバから取得した第一のコンテンツの実行中に、ユーザから第二のコンテンツの実行が要求された場合、第二のサーバから第二のコンテンツを取得し、予め設定される競合処理方針に基づいて、第一のコンテンツおよび第二のコンテンツの実行の可否を決定する第三のプロセッサを備える第三のサーバと、を備える。【選択図】図2

Description

本開示は、エージェントシステム、端末装置およびエージェントプログラムに関する。
特許文献1には、単一の音声対話エージェントを通じて複数のサービスを利用するための音声対話方法が開示されている。この音声対話方法では、あるサービスの利用中に別のサービスを利用しようとする場合、各サービスが競合しないように、例えば一方のサービスを中断して他方のサービスを実行する等のサービスの割り込み処理を行う。
特開2018−189984号公報
複数の音声対話エージェントを通じて複数のサービスを利用する場合においても、各サービスを競合させることなく、複数の音声対話エージェントを跨いで複数のサービスを同時に利用することができる技術が求められていた。
本開示は、上記に鑑みてなされたものであって、複数の音声対話エージェントを跨いで複数のサービスを同時に利用することができるエージェントシステム、端末装置およびエージェントプログラムを提供することを目的とする。
本開示に係るエージェントシステムは、ハードウェアを有する第一のプロセッサであって、ユーザの要求に応じて第一のコンテンツを端末装置に出力する第一のプロセッサを備える第一のサーバと、ハードウェアを有する第二のプロセッサであって、前記ユーザの要求に応じて第二のコンテンツを端末装置に出力する第二のプロセッサを備える第二のサーバと、ハードウェアを有する第三のプロセッサであって、前記第一のサーバから取得した前記第一のコンテンツの実行中に、前記ユーザから前記第二のコンテンツの実行が要求された場合、前記第二のサーバから前記第二のコンテンツを取得し、予め設定される競合処理方針に基づいて、前記第一のコンテンツおよび前記第二のコンテンツの実行の可否を決定する第三のプロセッサを備える第三のサーバと、を備える。
本開示に係る端末装置は、ハードウェアを有するプロセッサを備え、前記プロセッサは、第一のサーバから取得した第一のコンテンツの実行中に、ユーザから第二のコンテンツの実行が要求された場合、第二のサーバから前記第二のコンテンツを取得し、予め設定される競合処理方針に基づいて、前記第一のコンテンツおよび前記第二のコンテンツの実行の可否を決定する。
本開示に係るエージェントプログラムは、ハードウェアを有するプロセッサに、第一のサーバから取得した第一のコンテンツの実行中に、ユーザから第二のコンテンツの実行が要求された場合、第二のサーバから前記第二のコンテンツを取得し、予め設定される競合処理方針に基づいて、前記第一のコンテンツおよび前記第二のコンテンツの実行の可否を決定する、ことを実行させる。
本開示によれば、複数の音声対話エージェントを通じて複数のサービスを利用する場合においても、各サービスを競合させることなく、複数の音声対話エージェントを跨いで複数のサービスを同時に利用することができる。
図1は、実施形態に係るエージェントシステムおよび端末装置を概略的に示す図である。 図2は、実施形態に係るエージェントシステムおよび端末装置の構成を概略的に示すブロック図である。 図3は、実施形態に係るエージェントシステム、端末装置およびエージェントプログラムが実行する音声対話方法の処理手順の一例を示すフローチャートである。
本開示の実施形態に係るエージェントシステム、端末装置およびエージェントプログラムについて、図面を参照しながら説明する。なお、下記実施形態における構成要素には、当業者が置換可能かつ容易なもの、あるいは実質的に同一のものが含まれる。
(エージェントシステム/端末装置)
本実施形態に係るエージェントシステムおよび端末装置の構成について、図1および図2を参照しながら説明する。本実施形態に係るエージェントシステム、端末装置およびエージェントプログラムは、ユーザに対して、複数の音声対話エージェント(以下、「エージェント」という)のサービスを提供するためのものである。
ここで、「ユーザ」とは、端末装置を通じて複数のエージェントのサービスを利用する者である。本実施形態における端末装置は、車両に搭載されている車載装置を想定している。そのため、ユーザは、例えば車両の運転者を含む乗員である。なお、端末装置は、車両に搭載されている車載装置には限定されず、例えばユーザが所持する情報端末装置であってもよい。この情報端末装置としては、例えば携帯電話、タブレット端末、ウェアラブルコンピュータ、パーソナルコンピュータ等が挙げられる。
エージェントシステム1は、図1に示すように、車載装置11を備える車両10と、第一VPA(Virtual Personal Assistant:バーチャルパーソナルアシスタント)サーバ20と、第二VPAサーバ30と、第一サービスサーバ40と、第二サービスサーバ50と、を有している。本実施形態に係る端末装置は、具体的には車載装置11によって実現される。車両10、第一VPAサーバ20、第二VPAサーバ30、第一サービスサーバ40とおよび第二サービスサーバ50は、ネットワークNWを通じて相互に通信可能に構成されている。このネットワークNWは、例えばインターネット回線網、携帯電話回線網等から構成される。
本実施形態におけるエージェントシステム1は、二つのVPAサーバを利用しているが、VPAサーバの数は三つ以上でもよい。また、本実施形態において、第一VPAサーバ20は、エージェントAの機能を実現するためのサーバ装置であり、第二VPAサーバ30は、エージェントBの機能を実現するためのサーバ装置である。エージェントAは、ユーザの要求に応じて、第一サービスサーバ40のサービスCと、第二サービスサーバ50のサービスDとをユーザに提供する。同様に、エージェントBは、ユーザの要求に応じて、第一サービスサーバ40のサービスCと、第二サービスサーバ50のサービスDとをユーザに提供する。なお、本実施形態において、エージェントA,Bを総称する場合は「エージェント」と表記し、第一VPAサーバ20および第二VPAサーバ30を総称する場合は「VPAサーバ」または「エージェントサーバ」と表記する。
サービスCおよびサービスDは、同じ種類のサービス(例えば音楽ストリーミングサービス)であってもよく、あるいは異なる種類のサービス(例えばサービスCは音楽ストリーミングサービス、サービスDは天気情報サービス)であってもよい。なお、本実施形態において、サービスC,Dを総称する場合は「サービス」と表記する。
また、本実施形態におけるエージェントシステム1は、二つのサービスサーバを利用しているが、サービスサーバの数は三つ以上でもよい。また、本実施形態において、第一サービスサーバ40は、コンテンツEを用いたサービスCを提供するためのサーバ装置であり、第二サービスサーバ50は、コンテンツFを用いたサービスDを提供するためのサーバ装置である。このコンテンツEおよびコンテンツFは、同じ種類のコンテンツ(例えば音楽)であってもよく、あるいは異なる種類のコンテンツ(例えばコンテンツEは音楽、コンテンツFは天気情報)であってもよい。なお、本実施形態において、コンテンツE,Fを総称する場合は「コンテンツ」と表記し、第一サービスサーバ40および第二サービスサーバ50を総称する場合は「サービスサーバ」と表記する。
(車両)
車両10は、図2に示すように、車載装置11と、通信部12と、記憶部13と、を備えている。車載装置11は、例えば車両10に搭載されるカーナビゲーション装置である。車載装置11は、制御部111と、表示部(ディスプレイ)112と、ボタン113と、マイク114と、スピーカ115と、を備えている。
制御部111は、具体的には、CPU(Central Processing Unit)、DSP(Digital Signal Processor)、FPGA(Field-Programmable Gate Array)等からなるプロセッサと、RAM(Random Access Memory)、ROM(Read Only Memory)等からなるメモリ(主記憶部)と、を備えている。
制御部111は、記憶部13に格納されたプログラムを主記憶部の作業領域にロードして実行し、プログラムの実行を通じて各構成部等を制御することにより、所定の目的に合致した機能を実現する。制御部111は、記憶部13に格納されたプログラムの実行を通じて、表示制御部111a、音声認識部111bおよび競合処理部111cとして機能する。
表示制御部111aは、表示部112の表示内容を制御する。表示制御部111aは、ユーザの操作に基づいて、操作に対応する画面を表示部112に表示させる。また、表示制御部111aは、ユーザの要求に応じて第一サービスサーバ40および第二サービスサーバ50から入力されるコンテンツデータを、表示部112に表示させる。「コンテンツデータ」としては、例えば音楽や天気情報等が挙げられる。
音声認識部111bは、自動音声認識(Automatic Speech Recognition:ASR)処理および自然言語理解(Natural language understanding:NLU)を行う音声認識エンジンである。
音声認識部111bは、マイク114から入力されたユーザの発話音声に基づいて、ユーザの発話を検知し、発話内容を認識する。次に、音声認識部111bは、ユーザの発話音声に含まれる指示が、複数のエージェントA,Bのどのエージェントへの指示であるのかを判定する。次に、音声認識部111bは、判定したエージェントの機能を実現するエージェントサーバ(第一VPAサーバ20または第二VPAサーバ30)に対して、ユーザの発話音声を転送する。次に、音声認識部111bは、サービスサーバ(第一サービスサーバ40または第二サービスサーバ50)からコンテンツデータを取得する。
音声認識部111bは、具体的には、ユーザの発話音声をテキストデータに変換し、当該テキストデータに、エージェントを特定するフレーズが含まれる場合、そのエージェントへの指示であると判定する。ここで、「エージェントを特定するフレーズ」とは、エージェントを呼び出すためのウェイクアップフレーズ(Wake up Phrase:WuPという)を示している。なお、ウェイクアップフレーズは、「ウェイクワード(Wake Word)」とも呼ばれる。
競合処理部111cは、あるサービスサーバ(例えば第一サービスサーバ40)から取得した先発コンテンツ(例えば音楽)の実行中に、ユーザから別の後発コンテンツ(例えば天気情報)の実行が要求された場合、後発コンテンツを管理するサービスサーバ(例えば第一サービスサーバ40)から後発コンテンツを取得する。そして、競合処理部111cは、予め設定される競合処理方針に基づいて、二つのコンテンツの実行の可否を決定する。
競合処理方針は、例えば各エージェントで競合しうるコンテンツ間の優先度を、予めマトリクス等により定めておく。また、競合処理方針は、コンテンツの種類(例えばバイナリファイル、ストリーミングデータ等)ごとに実行の優先度を設けて決定される。
競合処理部111cは、具体的には、競合処理方針に基づいて、先発コンテンツおよび後発コンテンツのいずれか一方を先に実行した後に、先発コンテンツおよび後発コンテンツのいずれか他方を実行する。これにより、例えば先発コンテンツの実行中に後発コンテンツが重畳して実行される(例えばある音楽の再生中に天気情報の音声が同時に再生される)ことがなくなるため、複数のサービスを互いに競合させることなく利用することができる。
表示部112は、例えばLCD(液晶ディスプレイ)、OLED(有機ELディスプレイ)等から構成され、表示制御部111aの制御に基づいて情報を表示する。ボタン113は、発話の際にユーザが押下するボタンである。ボタン113は、例えば車両10のハンドル等に設けられるプッシュ式の物理的な押しボタン、または表示部112に表示される仮想的な押しボタンから構成される。
ここで、本実施形態におけるエージェントには、複数の呼び出し方法(起動方法)がある。例えばエージェントB(第二VPAサーバ30)に対して天気情報の提供を指示する場合、ユーザは以下の(1)、(2)のように発話する。
(1)「エージェントB、今日の天気を教えて」と発話
(2)ボタン113を押下して「今日の天気を教えて」と発話
(1)は、ウェイクアップフレーズを用いた方法であり、ユーザは、エージェントBを特定するフレーズと、エージェントBに対する指示とを含むフレーズを発話する。
(2)は、ウェイクアップフレーズの代わりにボタン113を用いた方法である。なお、「ボタン113を押下して発話」には、ボタン113を押して離してから発話する場合(Push-to-Talk/Tap-to-Talk)と、ボタン113を押しっぱなしの状態で発話し、発話が完了したらボタン113を離す場合(Hold-to-Talk)と、の2パターンが含まれる。このように、ボタン113を押下して発話することにより、ウェイクアップフレーズを省略することができる。
また、エージェントを利用する際に、特定のエージェントを介してその他のエージェントを呼び出すこともできる。例えばエージェントA(第一VPAサーバ20)を介して、エージェントB(第二VPAサーバ30)に対して天気情報の提供を指示する場合、ユーザは以下の(3)のように発話する。
(3)「エージェントA、エージェントB、今日の天気を教えて」と発話
マイク114は、ユーザからの音声入力を受け付ける入力部である。マイク114は、例えばユーザがエージェント(VPAサーバ)に対して指示を行う際に用いられる。スピーカ115は、ユーザに対して音声を出力する出力部である。スピーカ115は、例えばユーザの指示に基づいて、エージェントがユーザに対して応答を行う際に用いられる。
通信部12は、例えばDCM(Data Communication Module)等から構成され、ネットワークNWを介した無線通信により、第一VPAサーバ20、第二VPAサーバ30および第一サービスサーバ40および第二サービスサーバ50との間で通信を行う。
記憶部13は、EPROM(Erasable Programmable ROM)、ハードディスクドライブ(Hard Disk Drive:HDD)およびリムーバブルメディア等の記録媒体から構成される。リムーバブルメディアとしては、例えばUSB(Universal Serial Bus)メモリ、CD(Compact Disc)、DVD(Digital Versatile Disc)、BD(Blu-ray(登録商標) Disc)のようなディスク記録媒体が挙げられる。また、記憶部13には、オペレーティングシステム(Operating System:OS)、各種プログラム、各種テーブル、各種データベース等が格納可能である。記憶部13には、必要に応じて、例えばユーザの対話内容のデータ、ユーザの発話音声の認識結果のデータ等が格納される。
(第一VPAサーバ)
第一VPAサーバ20は、制御部21と、通信部22と、記憶部23と、を備えている。通信部22および記憶部23の物理的な構成は、通信部12および記憶部13と同様である。
制御部21は、具体的には、CPU(Central Processing Unit)、DSP(Digital Signal Processor)、FPGA(Field-Programmable Gate Array)等からなるプロセッサと、RAM(Random Access Memory)、ROM(Read Only Memory)等からなるメモリ(主記憶部)と、を備えている。制御部21は、記憶部23に格納された音声対話エージェントのプログラムの実行を通じて、音声対話エージェントの機能を実現する。また、制御部21は、記憶部23に格納されたプログラムの実行を通じて、音声認識部211として機能する。
音声認識部211は、音声認識部111bと同様の機能を有しており、車載装置11から転送されたユーザの発話音声をテキストデータに変換することにより、当該ユーザの発話音声を認識する。そして、音声認識部211は、ユーザの発話音声に含まれる要求に応じて、第一サービスサーバ40または第二サービスサーバ50から車載装置11へとコンテンツデータを出力させる。
音声認識部211は、ユーザとの対話内容を当該ユーザの嗜好情報として記憶部23に蓄積し、車載装置11から転送されたユーザの発話音声の認識結果に基づく処理を行う際に、ユーザの嗜好情報を考慮した処理を行ってもよい。例えばユーザがエージェントAに対して、特定のジャンル(例えばクラッシック)の音楽の再生を頻繁に指示している場合、音声認識部211は「ユーザの好きな音楽のジャンル:クラッシック」という情報を嗜好情報として記憶部23に蓄積する。そして、音声認識部211は、ユーザからエージェントAに対して「音楽の再生」の指示がなされた場合、第一サービスサーバ40または第二サービスサーバ50から車載装置11へと、クラッシックの音楽ストリーミングデータを出力させる。これにより、ユーザの嗜好に沿ったサービスを受けることができるため、利便性が向上する。
記憶部23には、第一VPAサーバ20が実現する音声対話エージェントのプログラムが格納されている。また、記憶部23には、必要に応じて、例えばユーザの対話内容のデータ、ユーザの発話音声の認識結果のデータ等が格納される。なお、これらの情報は、プライバシー保護の観点から、利用後に記憶部23から削除してもよい。
(第二VPAサーバ)
第二VPAサーバ30は、制御部31と、通信部32と、記憶部33と、を備えている。制御部31、通信部32および記憶部33の物理的な構成は、制御部21、通信部12および記憶部13と同様である。制御部31は、記憶部33に格納された音声対話エージェントのプログラムの実行を通じて、音声対話エージェントの機能を実現する。また、制御部31は、記憶部33に格納されたプログラムの実行を通じて、音声認識部311として機能する。
音声認識部311は、音声認識部111bと同様の機能を有しており、車載装置11から転送されたユーザの発話音声をテキストデータに変換することにより、当該ユーザの発話音声を認識する。そして、音声認識部311は、ユーザの発話音声に含まれる要求に応じて第一サービスサーバ40または第二サービスサーバ50から車載装置11へとコンテンツデータを出力させる。また、音声認識部311は、音声認識部211と同様に、ユーザとの対話内容を当該ユーザの嗜好情報として記憶部33に蓄積し、車載装置11から転送されたユーザの発話音声の認識結果に基づく処理を行う際に、ユーザの嗜好情報を考慮した処理を行ってもよい。これにより、ユーザの嗜好に沿ったサービスを受けることができるため、利便性が向上する。
記憶部33には、第二VPAサーバ30が実現する音声対話エージェントのプログラムが格納されている。また、記憶部33には、必要に応じて、例えばユーザの対話内容のデータ、ユーザの発話音声の認識結果のデータ等が格納される。なお、これらの情報は、プライバシー保護の観点から、利用後に記憶部33から削除してもよい。
(第一サービスサーバ)
第一サービスサーバ40は、コンテンツを管理するサーバ装置であり、第一VPAサーバ20または第二VPAサーバ30の制御に基づいて、車載装置11にコンテンツデータを出力する。第一サービスサーバ40は、制御部41と、通信部42と、記憶部43と、を備えている。制御部41、通信部42および記憶部43の物理的な構成は、制御部21、通信部12および記憶部13と同様である。
(第二サービスサーバ)
第二サービスサーバ50は、コンテンツを管理するサーバ装置であり、第一VPAサーバ20または第二VPAサーバ30の制御に基づいて、車載装置11にコンテンツデータを出力する。第二サービスサーバ50は、制御部51と、通信部52と、記憶部53と、を備えている。制御部51、通信部52および記憶部53の物理的な構成は、制御部21、通信部12および記憶部13と同様である。
(音声対話方法)
本実施形態に係るエージェントシステム1および端末装置が実行する音声対話方法の処理手順について、図3を参照しながら説明する。以下では、「音楽のコンテンツよりも天気情報のコンテンツを優先して実行する」という競合処理方針のもとで複数のサービスを利用する場合の音声対話方法について説明する。また、図3では、説明の便宜上、ユーザが発話するステップについても、音声対話方法のフローチャート内に図示している。
まず、ユーザが「エージェントB、サービスCで○○の曲を再生して」と発話すると(ステップS1)、その発話音声のデータがマイク114を通じて車載装置11に入力される。続いて、車載装置11の音声認識部111bは、ユーザの発話を検知し(ステップS2)、ユーザの発話音声を第二VPAサーバ30に転送する(ステップS3)。
続いて、第二VPAサーバ30の音声認識部311は、音声認識処理および意図理解処理を行う(ステップS4)。続いて、第二VPAサーバ30の制御部31は、認識結果に基づいてコンテンツ制御信号を生成し、当該コンテンツ制御信号を第一サービスサーバ40に出力する(ステップS5)。これを受けて、第一サービスサーバ40の制御部41は、ユーザが要求するコンテンツデータ(音楽ストリーミングデータ)を車載装置11に出力する(ステップS6)。続いて、車載装置11の制御部111は、第一サービスサーバ40から取得したコンテンツ(音楽)を実行する(ステップS7)。この場合、制御部111は、スピーカ115によって音楽を再生する。
続いて、音楽の再生中に、ユーザが「エージェントA、東京の天気は?」と発話すると(ステップS8)、その発話音声のデータがマイク114を通じて車載装置11に入力される。続いて、音声認識部111bは、ユーザの発話を検知し(ステップS9)、ユーザの発話音声を第一VPAサーバ20に転送する(ステップS10)。
続いて、第一VPAサーバ20の音声認識部211は、音声認識処理および意図理解処理を行う(ステップS11)。続いて、第一VPAサーバ20の制御部21は、認識結果に基づいてコンテンツ制御信号を生成し、当該コンテンツ制御信号を第二サービスサーバ50に出力する(ステップS12)。これを受けて、第二サービスサーバ50の制御部51は、ユーザが要求するコンテンツデータ(天気情報)を車載装置11に出力する(ステップS13)。
続いて、競合処理部111cは、コンテンツ(音楽)の実行を停止し(ステップS14)、ステータス情報を第二VPAサーバ30に出力する(ステップS15)。なお、「ステータス情報」とは、車載装置11で実行中のコンテンツのステータスに関する情報である。例えば音楽ストリーミングデータの場合のステータス情報としては、曲名、アルバム名、歌手名等の曲を特定できる情報と、曲の中断位置等の情報が含まれる。
続いて、制御部31は、ステータス情報に基づいてコンテンツ制御信号を生成し、当該コンテンツ制御信号を第一サービスサーバ40に出力する(ステップS16)。これを受けて、制御部41は、コンテンツデータ(音楽ストリーミングデータ)の出力を中断する(ステップS17)。続いて、制御部111は、第二サービスサーバ50から取得したコンテンツ(天気)を実行する(ステップS18)。この場合、制御部111は、例えば表示部112およびスピーカ115によって東京の天気情報を提示する。
コンテンツ(天気)の実行が完了すると、競合処理部111cは、ステータス情報を第二VPAサーバ30に出力する(ステップS19)。続いて、制御部31は、ステータス情報に基づいてコンテンツ制御信号を生成し、当該コンテンツ制御信号を第一サービスサーバ40に出力する(ステップS20)。これを受けて、制御部41は、コンテンツデータ(音楽ストリーミングデータ)の出力を再開する(ステップS21)。続いて、制御部111は、第一サービスサーバ40から取得したコンテンツ(音楽)の実行を再開する(ステップS22)。
ここで、従来のエージェントシステムでは、単一のエージェント内で複数のサービスを同時に利用する場合(例えばエージェントAの音楽ストリーミングの利用中にエージェントAの天気情報サービスを利用する場合)、音楽の音量を下げて天気情報の音声を再生する等、コンテンツ間の割り込みを考慮した設計となっている。しかしながら、従来のエージェントシステムでは、例えば複数のエージェントを跨いで複数のサービスを利用する場合(例えばエージェントAの音楽ストリーミングの利用中にエージェントBの天気情報サービスを利用する場合)については想定していない。そのため、従来のエージェントシステムでは、複数のコンテンツの音声を重畳させて出力してしまったり、各エージェントのサーバおよびクライアント間の状態不一致が発生したりする等の問題が生じる。
一方、本実施形態に係るエージェントシステム1、端末装置およびエージェントプログラムによれば、あるコンテンツの実行中に、ユーザが別のコンテンツの実行を要求した場合、先発後発のコンテンツが競合しないような処理を行う。従って、複数のエージェントを通じて複数のサービスを利用する場合においても、各サービスを競合させることなく、複数のエージェントを跨いで複数のサービスを同時に利用することができる。
さらなる効果や変形例は、当業者によって容易に導き出すことができる。よって、本発明のより広範な態様は、以上のように表わしかつ記述した特定の詳細および代表的な実施形態に限定されるものではない。したがって、添付のクレームおよびその均等物によって定義される総括的な発明の概念の精神または範囲から逸脱することなく、様々な変更が可能である。
例えば実施形態に係るエージェントシステム1、端末装置およびエージェントプログラムでは、第一VPAサーバ20と第一サービスサーバ40とをそれぞれ別の構成として説明したが、第一VPAサーバ20と第一サービスサーバ40とが一つで構成されていてもよい。同様に、実施形態に係るエージェントシステム1、端末装置およびエージェントプログラムでは、第二VPAサーバ30と第二サービスサーバ50とをそれぞれ別の構成として説明したが、第二VPAサーバ30と第二サービスサーバ50とが一つで構成されていてもよい。
1 エージェントシステム
10 車両
11 車載装置
111 制御部
111a 表示制御部
111b 音声認識部
111c 競合処理部
112 表示部
113 ボタン
114 マイク
115 スピーカ
12 通信部
13 記憶部
20 第一VPAサーバ
21 制御部
211 音声認識部
22 通信部
23 記憶部
30 第二VPAサーバ
31 制御部
311 音声認識部
32 通信部
33 記憶部
NW ネットワーク

Claims (20)

  1. ハードウェアを有する第一のプロセッサであって、ユーザの要求に応じて第一のコンテンツを端末装置に出力する第一のプロセッサを備える第一のサーバと、
    ハードウェアを有する第二のプロセッサであって、前記ユーザの要求に応じて第二のコンテンツを端末装置に出力する第二のプロセッサを備える第二のサーバと、
    ハードウェアを有する第三のプロセッサであって、前記第一のサーバから取得した前記第一のコンテンツの実行中に、前記ユーザから前記第二のコンテンツの実行が要求された場合、前記第二のサーバから前記第二のコンテンツを取得し、
    予め設定される競合処理方針に基づいて、前記第一のコンテンツおよび前記第二のコンテンツの実行の可否を決定する第三のプロセッサを備える第三のサーバと、
    を備えるエージェントシステム。
  2. 前記第三のプロセッサは、
    前記第一のサーバから取得した前記第一のコンテンツの実行中に、前記ユーザから前記第二のコンテンツの実行が要求された場合、前記第二のサーバから前記第二のコンテンツを取得し、
    前記競合処理方針に基づいて、前記第一のコンテンツおよび前記第二のコンテンツのいずれか一方を先に実行した後に、前記第一のコンテンツおよび前記第二のコンテンツのいずれか他方を実行する、
    請求項1に記載のエージェントシステム。
  3. 前記競合処理方針は、コンテンツの種類ごとに実行の優先度を設けて決定されたものである、
    請求項1または請求項2に記載のエージェントシステム。
  4. 前記第一のサーバは、
    前記第一のコンテンツを管理する第一のサービスサーバと、
    前記ユーザの発話音声を認識し、前記ユーザの発話音声に含まれる要求に応じて前記第一のサービスサーバから前記端末装置へと前記第一のコンテンツを出力させる第一のエージェントサーバと、
    を備え、
    前記第二のサーバは、
    前記第二のコンテンツを管理する第二のサービスサーバと、
    前記ユーザの発話音声を認識し、前記ユーザの発話音声に含まれる要求に応じて前記第二のサービスサーバから前記端末装置へと前記第二のコンテンツを出力させる第二のエージェントサーバと、
    を備える、
    請求項1から請求項3のいずれか一項に記載のエージェントシステム。
  5. 前記第一のプロセッサおよび前記第二のプロセッサは、前記ユーザの発話音声をテキストデータに変換することにより、前記ユーザの発話音声を認識する、
    請求項4に記載のエージェントシステム。
  6. 前記ユーザの発話音声は、前記第一のエージェントサーバまたは前記第二のエージェントサーバに対応する音声対話エージェントを特定するフレーズと、前記音声対話エージェントに対する指示とを含む、
    請求項4または請求項5に記載のエージェントシステム。
  7. 前記端末装置は、発話の際に前記ユーザが押下するボタンを備える、
    請求項6に記載のエージェントシステム。
  8. 前記端末装置は、車両に搭載されている車載装置である、
    請求項1から請求項7のいずれか一項に記載のエージェントシステム。
  9. 前記端末装置は、前記ユーザが所持する情報端末装置である、
    請求項1から請求項7のいずれか一項に記載のエージェントシステム。
  10. ハードウェアを有するプロセッサを備え、
    前記プロセッサは、
    第一のサーバから取得した第一のコンテンツの実行中に、ユーザから第二のコンテンツの実行が要求された場合、第二のサーバから前記第二のコンテンツを取得し、
    予め設定される競合処理方針に基づいて、前記第一のコンテンツおよび前記第二のコンテンツの実行の可否を決定する、
    端末装置。
  11. 前記プロセッサは、
    前記第一のサーバから取得した前記第一のコンテンツの実行中に、前記ユーザから前記第二のコンテンツの実行が要求された場合、前記第二のサーバから前記第二のコンテンツを取得し、
    前記競合処理方針に基づいて、前記第一のコンテンツおよび前記第二のコンテンツのいずれか一方を先に実行した後に、前記第一のコンテンツおよび前記第二のコンテンツのいずれか他方を実行する、
    請求項10に記載の端末装置。
  12. 前記競合処理方針は、コンテンツの種類ごとに実行の優先度を設けて決定されたものである、
    請求項10または請求項11に記載の端末装置。
  13. 前記ユーザの発話音声は、前記第一のサーバまたは前記第二のサーバに対応する音声対話エージェントを特定するフレーズと、前記音声対話エージェントに対する指示とを含む、
    請求項10から請求項12のいずれか一項に記載の端末装置。
  14. 発話の際に前記ユーザが押下するボタンを備える、
    請求項13に記載の端末装置。
  15. 車両に搭載されている車載装置である、
    請求項10から請求項14のいずれか一項に記載の端末装置。
  16. 前記ユーザが所持する情報端末装置である、
    請求項10から請求項14のいずれか一項に記載の端末装置。
  17. ハードウェアを有するプロセッサに、
    第一のサーバから取得した第一のコンテンツの実行中に、ユーザから第二のコンテンツの実行が要求された場合、第二のサーバから前記第二のコンテンツを取得し、
    予め設定される競合処理方針に基づいて、前記第一のコンテンツおよび前記第二のコンテンツの実行の可否を決定する、
    ことを実行させるエージェントプログラム。
  18. 前記プロセッサに、
    前記第一のサーバから取得した前記第一のコンテンツの実行中に、前記ユーザから前記第二のコンテンツの実行が要求された場合、前記第二のサーバから前記第二のコンテンツを取得し、
    前記競合処理方針に基づいて、前記第一のコンテンツおよび前記第二のコンテンツのいずれか一方を先に実行した後に、前記第一のコンテンツおよび前記第二のコンテンツのいずれか他方を実行する、
    ことを実行させる請求項17に記載のエージェントプログラム。
  19. 前記競合処理方針は、コンテンツの種類ごとに実行の優先度を設けて決定されたものである、
    請求項17または請求項18に記載のエージェントプログラム。
  20. 前記ユーザの発話音声は、前記第一のサーバまたは前記第二のサーバに対応する音声対話エージェントを特定するフレーズと、前記音声対話エージェントに対する指示とを含む、
    請求項17から請求項19のいずれか一項に記載のエージェントプログラム。
JP2020009343A 2020-01-23 2020-01-23 エージェントシステム、端末装置およびエージェントプログラム Pending JP2021117301A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2020009343A JP2021117301A (ja) 2020-01-23 2020-01-23 エージェントシステム、端末装置およびエージェントプログラム
US17/109,200 US11587566B2 (en) 2020-01-23 2020-12-02 Agent system, terminal device, and computer readable recording medium using speech interaction for services
CN202110012700.2A CN113162964B (zh) 2020-01-23 2021-01-06 代理系统、终端装置以及代理程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020009343A JP2021117301A (ja) 2020-01-23 2020-01-23 エージェントシステム、端末装置およびエージェントプログラム

Publications (1)

Publication Number Publication Date
JP2021117301A true JP2021117301A (ja) 2021-08-10

Family

ID=76878597

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020009343A Pending JP2021117301A (ja) 2020-01-23 2020-01-23 エージェントシステム、端末装置およびエージェントプログラム

Country Status (3)

Country Link
US (1) US11587566B2 (ja)
JP (1) JP2021117301A (ja)
CN (1) CN113162964B (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102596436B1 (ko) * 2018-02-20 2023-11-01 삼성전자주식회사 사용자 발화를 처리하는 시스템 및 그 시스템의 제어 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009265278A (ja) * 2008-04-23 2009-11-12 Konica Minolta Business Technologies Inc 音声出力管理システムおよび音声出力装置
JP2018189984A (ja) * 2013-06-19 2018-11-29 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声対話方法、及び、音声対話エージェントサーバ
WO2019087546A1 (ja) * 2017-10-30 2019-05-09 ソニー株式会社 情報処理装置及び情報処理方法
JP2019086535A (ja) * 2017-11-01 2019-06-06 ソフトバンク株式会社 送信制御装置及びプログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1245299C (zh) * 2001-09-25 2006-03-15 公信电子股份有限公司 单键控制语音指令的声控方法及其装置
JP5171392B2 (ja) * 2008-05-27 2013-03-27 オリンパス株式会社 通信システム、情報保有装置、および管理装置
US9110739B2 (en) * 2011-06-07 2015-08-18 Microsoft Technology Licensing, Llc Subscribing to multiple resources through a common connection
CN102831894B (zh) * 2012-08-09 2014-07-09 华为终端有限公司 指令处理方法、装置和系统
KR102053820B1 (ko) * 2013-07-02 2019-12-09 삼성전자주식회사 서버 및 그 제어방법과, 영상처리장치 및 그 제어방법
CN106982155A (zh) * 2016-01-18 2017-07-25 中兴通讯股份有限公司 一种语音指令处理方法、装置及智能网关
CN107680591A (zh) * 2017-09-21 2018-02-09 百度在线网络技术(北京)有限公司 基于车载终端的语音交互方法、装置及其设备
US10684871B2 (en) * 2018-06-03 2020-06-16 Apple Inc. Multi-process model for cross-platform applications
JP2021117302A (ja) * 2020-01-23 2021-08-10 トヨタ自動車株式会社 エージェントシステム、エージェントサーバおよびエージェントプログラム
JP2021117296A (ja) * 2020-01-23 2021-08-10 トヨタ自動車株式会社 エージェントシステム、端末装置およびエージェントプログラム
JP7264071B2 (ja) * 2020-01-23 2023-04-25 トヨタ自動車株式会社 情報処理システム、情報処理装置、及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009265278A (ja) * 2008-04-23 2009-11-12 Konica Minolta Business Technologies Inc 音声出力管理システムおよび音声出力装置
JP2018189984A (ja) * 2013-06-19 2018-11-29 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声対話方法、及び、音声対話エージェントサーバ
WO2019087546A1 (ja) * 2017-10-30 2019-05-09 ソニー株式会社 情報処理装置及び情報処理方法
JP2019086535A (ja) * 2017-11-01 2019-06-06 ソフトバンク株式会社 送信制御装置及びプログラム

Also Published As

Publication number Publication date
CN113162964A (zh) 2021-07-23
US11587566B2 (en) 2023-02-21
CN113162964B (zh) 2024-03-19
US20210233527A1 (en) 2021-07-29

Similar Documents

Publication Publication Date Title
US11676601B2 (en) Voice assistant tracking and activation
US11520471B1 (en) Systems and methods for identifying a set of characters in a media file
US11356730B2 (en) Systems and methods for routing content to an associated output device
KR102360589B1 (ko) 관련 출력 디바이스에 컨텐츠를 라우팅하기 위한 시스템 및 방법
US20030158731A1 (en) Word training interface
US20170206059A1 (en) Apparatus and method for voice recognition device in vehicle
EP3855305A1 (en) Agent system, agent server, and agent program
US11721332B1 (en) Modifying follow on actions based on user activity
CN113162964B (zh) 代理系统、终端装置以及代理程序
CN114995779A (zh) 一种车载音频焦点的仲裁方法、仲裁装置及电子设备
US11740865B2 (en) Agent coordination device, agent coordination method and recording medium
CN113160824B (zh) 信息处理系统
JP2021117296A (ja) エージェントシステム、端末装置およびエージェントプログラム
US11663035B2 (en) Agent control device
JP2019028160A (ja) 電子装置および情報端末システム
CN113157245A (zh) 电子书呈现信息的播放交互方法、计算设备及存储介质
JP7380416B2 (ja) エージェント制御装置
US9191742B1 (en) Enhancing audio at a network-accessible computing platform
JP2024082829A (ja) 情報処理装置、情報処理方法、及び、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210121

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211104

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220107

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220125