JP2021117296A - エージェントシステム、端末装置およびエージェントプログラム - Google Patents

エージェントシステム、端末装置およびエージェントプログラム Download PDF

Info

Publication number
JP2021117296A
JP2021117296A JP2020009263A JP2020009263A JP2021117296A JP 2021117296 A JP2021117296 A JP 2021117296A JP 2020009263 A JP2020009263 A JP 2020009263A JP 2020009263 A JP2020009263 A JP 2020009263A JP 2021117296 A JP2021117296 A JP 2021117296A
Authority
JP
Japan
Prior art keywords
user
voice
agent
terminal device
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020009263A
Other languages
English (en)
Inventor
幸輝 竹下
Yukiteru Takeshita
幸輝 竹下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2020009263A priority Critical patent/JP2021117296A/ja
Priority to US17/101,492 priority patent/US20210233538A1/en
Priority to DE102020131203.2A priority patent/DE102020131203A1/de
Priority to CN202110068902.9A priority patent/CN113160830A/zh
Publication of JP2021117296A publication Critical patent/JP2021117296A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

【課題】複数の音声対話エージェントのサービスが利用可能な場合に、ユーザが求める機能を有する音声対話エージェントを精度良く呼び出すことができるエージェントシステム、端末装置およびエージェントプログラムを提供すること。【解決手段】エージェントシステムは、ハードウェアを有する第一のプロセッサであって、ユーザの発話音声を認識し、ユーザの発話音声に含まれる指示が、複数の音声対話エージェントのうちのどの音声対話エージェントへの指示であるのかを判定し、判定した音声対話エージェントの機能を実現するエージェントサーバに対して、ユーザの発話音声を転送する第一のプロセッサを備える端末装置と、ハードウェアを有する第二のプロセッサであって、端末装置から転送されたユーザの発話音声を認識し、その認識結果を端末装置に出力する第二のプロセッサを備えるエージェントサーバと、を備える。【選択図】図2

Description

本開示は、エージェントシステム、端末装置およびエージェントプログラムに関する。
特許文献1には、異なる機能を有する複数の音声対話エージェントのサービスを利用するための音声対話方法が開示されている。この音声対話方法では、音声認識処理の結果およびエージェント情報に基づいて、入力音声信号に基づく処理を、どの音声対話エージェントに実行させるのかを決定する。
特開2018−189984号公報
複数の音声対話エージェントのサービスが利用可能な場合に、ユーザが求める機能を有する音声対話エージェントを精度良く呼び出すことができる技術が求められていた。
本開示は、上記に鑑みてなされたものであって、複数の音声対話エージェントのサービスが利用可能な場合に、ユーザが求める機能を有する音声対話エージェントを精度良く呼び出すことができるエージェントシステム、端末装置およびエージェントプログラムを提供することを目的とする。
本開示に係るエージェントシステムは、ハードウェアを有する第一のプロセッサであって、ユーザの発話音声を認識し、前記ユーザの発話音声に含まれる指示が、複数の音声対話エージェントのうちのどの音声対話エージェントへの指示であるのかを判定し、判定した音声対話エージェントの機能を実現するエージェントサーバに対して、前記ユーザの発話音声を転送する第一のプロセッサを備える端末装置と、ハードウェアを有する第二のプロセッサであって、前記端末装置から転送された前記ユーザの発話音声を認識し、その認識結果を前記端末装置に出力する第二のプロセッサを備えるエージェントサーバと、を備える。
本開示に係る端末装置は、ハードウェアを有するプロセッサを備え、前記プロセッサは、ユーザの発話音声を認識し、前記ユーザの発話音声に含まれる指示が、複数の音声対話エージェントのうちのどの音声対話エージェントへの指示であるのかを判定し、判定した音声対話エージェントの機能を実現するエージェントサーバに対して、前記ユーザの発話音声を転送し、前記エージェントサーバから、前記ユーザの発話音声の認識結果を取得する。
本開示に係るエージェントプログラムは、ハードウェアを有するプロセッサに、ユーザの発話音声を認識し、前記ユーザの発話音声に含まれる指示が、複数の音声対話エージェントのうちのどの音声対話エージェントへの指示であるのかを判定し、判定した音声対話エージェントの機能を実現するエージェントサーバに対して、前記ユーザの発話音声を転送する、ことを実行させる。
本開示によれば、異なる機能を有する複数の音声対話エージェントのサービスを利用する際に、ユーザが求める機能を有する音声対話エージェントを精度良く呼び出すことができる。
図1は、実施形態に係るエージェントシステムおよび端末装置を概略的に示す図である。 図2は、実施形態に係るエージェントシステムおよび端末装置の構成を概略的に示すブロック図である。 図3は、実施形態に係るエージェントシステム、端末装置およびエージェントプログラムが実行する音声対話方法の処理手順の一例を示すフローチャートである。
本開示の実施形態に係るエージェントシステム、端末装置およびエージェントプログラムについて、図面を参照しながら説明する。なお、下記実施形態における構成要素には、当業者が置換可能かつ容易なもの、あるいは実質的に同一のものが含まれる。
(エージェントシステム/端末装置)
本実施形態に係るエージェントシステムおよび端末装置の構成について、図1および図2を参照しながら説明する。本実施形態に係るエージェントシステム、端末装置およびエージェントプログラムは、ユーザに対して、複数の音声対話エージェント(以下、「エージェント」という)のサービスを提供するためのものである。
ここで、「ユーザ」とは、端末装置を通じて複数のエージェントのサービスを利用する者である。本実施形態における端末装置は、車両に搭載されている車載装置を想定している。そのため、ユーザは、例えば車両の運転者を含む乗員である。なお、端末装置は、車両に搭載されている車載装置には限定されず、例えばユーザが所持する情報端末装置であってもよい。この情報端末装置としては、例えば携帯電話、タブレット端末、ウェアラブルコンピュータ、パーソナルコンピュータ等が挙げられる。
エージェントシステム1は、図1に示すように、車載装置11を備える車両10と、第一VPA(Virtual Personal Assistant:バーチャルパーソナルアシスタント)サーバ20と、第二VPAサーバ30と、を有している。本実施形態に係る端末装置は、具体的には車載装置11によって実現される。車両10、第一VPAサーバ20および第二VPAサーバ30は、ネットワークNWを通じて相互に通信可能に構成されている。このネットワークNWは、例えばインターネット回線網、携帯電話回線網等から構成される。
本実施形態におけるエージェントシステム1は、二つのVPAサーバを利用しているが、VPAサーバの数は三つ以上でもよい。また、本実施形態において、第一VPAサーバ20は、エージェントAの機能を実現するためのサーバ装置であり、第二VPAサーバ30は、エージェントBの機能を実現するためのサーバ装置である。このエージェントAおよびエージェントBは、同じ種類のサービス(例えば音楽ストリーミングサービス)を提供するものであってもよく、あるいは異なる種類のサービス(例えばエージェントAは音楽ストリーミングサービス、エージェントBは天気情報サービス)を提供するものであってもよい。なお、本実施形態において、エージェントA,Bを総称する場合は「エージェント」と表記し、第一VPAサーバ20および第二VPAサーバ30を総称する場合は「VPAサーバ」または「エージェントサーバ」と表記する。
(車両)
車両10は、図2に示すように、車載装置11と、通信部12と、記憶部13と、を備えている。車載装置11は、例えば車両10に搭載されるカーナビゲーション装置である。車載装置11は、制御部111と、表示部(ディスプレイ)112と、ボタン113と、マイク114と、スピーカ115と、を備えている。
制御部111は、具体的には、CPU(Central Processing Unit)、DSP(Digital Signal Processor)、FPGA(Field-Programmable Gate Array)等からなるプロセッサと、RAM(Random Access Memory)、ROM(Read Only Memory)等からなるメモリ(主記憶部)と、を備えている。
制御部111は、記憶部13に格納されたプログラムを主記憶部の作業領域にロードして実行し、プログラムの実行を通じて各構成部等を制御することにより、所定の目的に合致した機能を実現する。制御部111は、記憶部13に格納されたプログラムの実行を通じて、表示制御部111aおよび音声認識部111bとして機能する。
表示制御部111aは、表示部112の表示内容を制御する。表示制御部111aは、ユーザの操作に基づいて、操作に対応する画面を表示部112に表示させる。また、表示制御部111aは、第一VPAサーバ20、第二VPAサーバ30から入力される所定の情報を、表示部112に表示させる。「所定の情報」としては、例えばユーザの発話音声の認識結果、ユーザの指示に基づく処理に関する応答データが挙げられる。
ここで、「ユーザの指示に基づく処理」とは、例えばユーザがエージェント(VPAサーバ)に対して「音楽を再生して」と指示した場合、VPAサーバが、音楽ストリーミングサービスを提供するサーバ(以下、「サービスサーバ」という)から音楽ストリーミングデータを取得して車載装置11に送信する処理のことを示している。また、その際にVPAサーバから車載装置11に送信される「応答データ」は、音楽ストリーミングデータである。
表示制御部111aは、音声認識部111bによって、ユーザの発話音声に含まれる指示が、複数のエージェントA,Bのうちのどのエージェントへの指示であるのかが判定された際に、判定されたエージェントの名称を表示部112に表示させてもよい。これにより、ユーザがどのエージェントに指示を行ったのかを確認することができる。また、ユーザの意図とは異なるエージェントに指示が渡ってしまった場合でも、指示を訂正する等の対処を行うことができるため、利便性が向上する。
音声認識部111bは、自動音声認識(Automatic Speech Recognition:ASR)処理および自然言語理解(Natural language understanding:NLU)を行う音声認識エンジンである。
音声認識部111bは、マイク114から入力されたユーザの発話音声を認識し、ユーザの発話音声に含まれる指示が、複数のエージェントA,Bのどのエージェントへの指示であるのかを判定する。次に、音声認識部111bは、判定したエージェントの機能を実現するエージェントサーバ(第一VPAサーバ20または第二VPAサーバ30)に対して、ユーザの発話音声を転送する。次に、音声認識部111bは、エージェントサーバから所定の情報(音声認識結果、応答データ)を取得する。
音声認識部111bは、具体的には、ユーザの発話音声をテキストデータに変換し、当該テキストデータに、エージェントを特定するフレーズが含まれる場合、そのエージェントへの指示であると判定する。ここで、「エージェントを特定するフレーズ」とは、エージェントを呼び出すためのウェイクアップフレーズ(Wake up Phrase:WuPという)を示している。なお、ウェイクアップフレーズは、「ウェイクワード(Wake Word)」とも呼ばれる。
音声認識部111bは、音声認識処理の結果をそのままエージェントサーバ(第一VPAサーバ20または第二VPAサーバ30)に出力してもよい。この場合、音声認識部111bは、エージェントサーバに対してユーザの発話音声に代えて、当該ユーザの発話音声の認識結果を出力する。次に、音声認識部111bは、エージェントサーバから所定の情報(応答データ等)を取得する。これにより、エージェントサーバにおける音声認識処理を省略することができるため、エージェントサーバの応答速度が向上する。
表示部112は、例えばLCD(液晶ディスプレイ)、OLED(有機ELディスプレイ)等から構成され、表示制御部111aの制御に基づいて情報を表示する。ボタン113は、発話の際にユーザが押下するボタンである。ボタン113は、例えば車両10のハンドル等に設けられるプッシュ式の物理的な押しボタン、または表示部112に表示される仮想的な押しボタンから構成される。
ここで、本実施形態におけるエージェントには、複数の呼び出し方法(起動方法)がある。例えばエージェントB(第二VPAサーバ30)に対して天気情報の提供を指示する場合、ユーザは以下の(1)、(2)のように発話する。
(1)「エージェントB、今日の天気を教えて」と発話
(2)ボタン113を押下して「今日の天気を教えて」と発話
(1)は、ウェイクアップフレーズを用いた方法であり、ユーザは、エージェントBを特定するフレーズと、エージェントBに対する指示とを含むフレーズを発話する。
(2)は、ウェイクアップフレーズの代わりにボタン113を用いた方法である。なお、「ボタン113を押下して発話」には、ボタン113を押して離してから発話する場合(Push-to-Talk/Tap-to-Talk)と、ボタン113を押しっぱなしの状態で発話し、発話が完了したらボタン113を離す場合(Hold-to-Talk)と、の2パターンが含まれる。このように、ボタン113を押下して発話することにより、ウェイクアップフレーズを省略することができる。
また、エージェントを利用する際に、特定のエージェントを介してその他のエージェントを呼び出すこともできる。例えばエージェントA(第一VPAサーバ20)を介して、エージェントB(第二VPAサーバ30)に対して天気情報の提供を指示する場合、ユーザは以下の(3)のように発話する。
(3)「エージェントA、エージェントB、今日の天気を教えて」と発話
ここで、(3)の場合、ユーザの発話音声に複数のエージェントのウェイクアップフレーズが含まれている。そのため、(1)、(2)と比較して、ユーザの意図しないエージェントが呼び出される可能性が高くなる。そこで、本実施形態に係るエージェントシステム1、端末装置およびエージェントプログラムでは、ユーザの指示がどのエージェントへの指示であるかを車載装置11側で判定し、その判定結果に基づいてユーザの発話音声をVPAサーバに転送する。
マイク114は、ユーザからの音声入力を受け付ける入力部である。マイク114は、例えばユーザがエージェント(VPAサーバ)に対して指示を行う際に用いられる。スピーカ115は、ユーザに対して音声を出力する出力部である。スピーカ115は、例えばユーザの指示に基づいて、エージェントがユーザに対して応答を行う際に用いられる。
通信部12は、例えばDCM(Data Communication Module)等から構成され、ネットワークNWを介した無線通信により、第一VPAサーバ20および第二VPAサーバ30との間で通信を行う。
記憶部13は、EPROM(Erasable Programmable ROM)、ハードディスクドライブ(Hard Disk Drive:HDD)およびリムーバブルメディア等の記録媒体から構成される。リムーバブルメディアとしては、例えばUSB(Universal Serial Bus)メモリ、CD(Compact Disc)、DVD(Digital Versatile Disc)、BD(Blu-ray(登録商標) Disc)のようなディスク記録媒体が挙げられる。また、記憶部13には、オペレーティングシステム(Operating System:OS)、各種プログラム、各種テーブル、各種データベース等が格納可能である。記憶部13には、必要に応じて、例えばユーザの対話内容のデータ、ユーザの発話音声の認識結果のデータ等が格納される。
(第一VPAサーバ)
第一VPAサーバ20は、制御部21と、通信部22と、記憶部23と、を備えている。通信部22および記憶部23の物理的な構成は、通信部12および記憶部13と同様である。
制御部21は、具体的には、CPU(Central Processing Unit)、DSP(Digital Signal Processor)、FPGA(Field-Programmable Gate Array)等からなるプロセッサと、RAM(Random Access Memory)、ROM(Read Only Memory)等からなるメモリ(主記憶部)と、を備えている。制御部21は、記憶部23に格納された音声対話エージェントのプログラムの実行を通じて、音声対話エージェントの機能を実現する。また、制御部21は、記憶部23に格納されたプログラムの実行を通じて、音声認識部211として機能する。
音声認識部211は、音声認識部111bと同様の機能を有しており、車載装置11から転送されたユーザの発話音声を認識し、所定の情報(音声認識結果、応答データ)を車載装置11に出力する。
音声認識部211は、ユーザとの対話内容を当該ユーザの嗜好情報として記憶部23に蓄積し、車載装置11から転送されたユーザの発話音声の認識結果に基づく処理を行う際に、ユーザの嗜好情報を考慮した処理を行ってもよい。例えばユーザがエージェントAに対して、特定のジャンル(例えばクラッシック)の音楽の再生を頻繁に指示している場合、音声認識部211は「ユーザの好きな音楽のジャンル:クラッシック」という情報を嗜好情報として記憶部23に蓄積する。そして、音声認識部211は、ユーザからエージェントAに対して「音楽の再生」の指示がなされた場合、サービスサーバからクラッシックの音楽ストリーミングデータを取得し、車載装置11に送信する。これにより、ユーザの嗜好に沿ったサービスを受けることができるため、利便性が向上する。
記憶部23には、第一VPAサーバ20が実現する音声対話エージェントのプログラムが格納されている。また、記憶部23には、必要に応じて、例えばユーザの対話内容のデータ、ユーザの発話音声の認識結果のデータ等が格納される。なお、これらの情報は、プライバシー保護の観点から、利用後に記憶部23から削除してもよい。
(第二VPAサーバ)
第二VPAサーバ30は、制御部31と、通信部32と、記憶部33と、を備えている。制御部31、通信部32および記憶部33の物理的な構成は、制御部21、通信部12および記憶部13と同様である。制御部31は、記憶部33に格納された音声対話エージェントのプログラムの実行を通じて、音声対話エージェントの機能を実現する。また、制御部31は、記憶部33に格納されたプログラムの実行を通じて、音声認識部311として機能する。
音声認識部311は、音声認識部111bと同様の機能を有しており、車載装置11から転送されたユーザの発話音声を認識し、所定の情報(音声認識結果、応答データ)を車載装置11に出力する。音声認識部311は、音声認識部211と同様に、ユーザとの対話内容を当該ユーザの嗜好情報として記憶部33に蓄積し、車載装置11から転送されたユーザの発話音声の認識結果に基づく処理を行う際に、ユーザの嗜好情報を考慮した処理を行ってもよい。これにより、ユーザの嗜好に沿ったサービスを受けることができるため、利便性が向上する。
記憶部33には、第二VPAサーバ30が実現する音声対話エージェントのプログラムが格納されている。また、記憶部33には、必要に応じて、例えばユーザの対話内容のデータ、ユーザの発話音声の認識結果のデータ等が格納される。なお、これらの情報は、プライバシー保護の観点から、利用後に記憶部33から削除してもよい。
(音声対話方法)
本実施形態に係るエージェントシステム1および端末装置が実行する音声対話方法の処理手順について、図3を参照しながら説明する。以下では、ユーザが特定のエージェントを介してその他のエージェントを呼び出す場合の音声対話方法について説明する。また、図3では、説明の便宜上、ユーザが発話するステップについても、音声対話方法のフローチャート内に図示している。
まず、ユーザが「エージェントA、エージェントB、○○して」と発話すると(ステップS1)、その発話音声のデータがマイク114を通じて車載装置11に入力される。続いて、車載装置11の音声認識部111bは、ユーザの発話を検知し(ステップS2)、音声認識処理および意図理解処理を行う(ステップS3)。
音声認識部111bは、エージェントB宛の指示であると判定し(ステップS4)、ユーザの発話音声を第二VPAサーバ30に転送する(ステップS5)。続いて、第二VPAサーバ30の音声認識部311は、音声認識処理および意図理解処理を行い(ステップS6)、その認識結果を車載装置11に出力する(ステップS7)。
なお、例えばステップS1において、ユーザが「エージェントB、エージェントA、○○して」と発話した場合は、次のような処理を行う。音声認識部111bは、ステップS2でユーザの発話を検知し、ステップS3で音声認識処理および意図理解処理を行う。続いて、音声認識部111bは、ステップS4でエージェントA宛の指示であると判定し、ステップS5でユーザの発話音声を第一VPAサーバ20に転送する。続いて、第一VPAサーバ20の音声認識部211は、ステップS6で音声認識処理および意図理解処理を行い、ステップS7で認識結果を車載装置11に出力する。
以上説明した実施形態に係るエージェントシステム1、端末装置およびエージェントプログラムによれば、ユーザの指示がどのエージェントへの指示であるかを車載装置11側で判定し、その判定結果に基づいてユーザの発話音声をVPAサーバに転送する。これにより、異なる機能を有する複数のエージェントのサービスを利用する際に、ユーザが求める機能を有するエージェントを精度良く呼び出すことができるため、ユーザが期待するサービスを受けることができる。
さらなる効果や変形例は、当業者によって容易に導き出すことができる。よって、本発明のより広範な態様は、以上のように表わしかつ記述した特定の詳細および代表的な実施形態に限定されるものではない。したがって、添付のクレームおよびその均等物によって定義される総括的な発明の概念の精神または範囲から逸脱することなく、様々な変更が可能である。
例えば実施形態に係るエージェントシステム1、端末装置およびエージェントプログラムでは、ユーザから「音楽の再生」の指示があった場合、VPAサーバ(第一VPAサーバ20および第二VPAサーバ30)がサービスサーバから音楽ストリーミングデータを取得して車載装置11に送信していた。この方法に代えて、VPAサーバがサービスサーバを制御し、サービスサーバから車載装置11へと音楽ストリーミングデータを直接送信させてもよい。
1 エージェントシステム
10 車両
11 車載装置
111 制御部
111a 表示制御部
111b 音声認識部
112 表示部
113 ボタン
114 マイク
115 スピーカ
12 通信部
13 記憶部
20 第一VPAサーバ
21 制御部
211 音声認識部
22 通信部
23 記憶部
30 第二VPAサーバ
31 制御部
311 音声認識部
32 通信部
33 記憶部
NW ネットワーク

Claims (20)

  1. ハードウェアを有する第一のプロセッサであって、ユーザの発話音声を認識し、前記ユーザの発話音声に含まれる指示が、複数の音声対話エージェントのうちのどの音声対話エージェントへの指示であるのかを判定し、
    判定した音声対話エージェントの機能を実現するエージェントサーバに対して、前記ユーザの発話音声を転送する第一のプロセッサを備える端末装置と、
    ハードウェアを有する第二のプロセッサであって、前記端末装置から転送された前記ユーザの発話音声を認識し、その認識結果を前記端末装置に出力する第二のプロセッサを備えるエージェントサーバと、
    を備えるエージェントシステム。
  2. 前記第二のプロセッサは、前記端末装置から転送された前記ユーザの発話音声を認識し、その認識結果に基づく処理を行い、前記処理に関する応答データを前記端末装置に出力する、
    請求項1に記載のエージェントシステム。
  3. 前記第一のプロセッサは、前記エージェントサーバに対して、前記ユーザの発話音声に代えて、前記ユーザの発話音声の認識結果を出力し、
    前記第二のプロセッサは、前記端末装置から転送された前記ユーザの発話音声の認識結果に基づく処理を行い、前記処理に関する応答データを前記端末装置に出力する、
    請求項1に記載のエージェントシステム。
  4. 前記端末装置は、ディスプレイを備え、
    前記第一のプロセッサは、前記ユーザの発話音声に含まれる指示が、複数の音声対話エージェントのうちのどの音声対話エージェントへの指示であるのかを判定した際に、判定した音声対話エージェントの名称を前記ディスプレイに表示させる、
    請求項1から請求項3のいずれか一項に記載のエージェントシステム。
  5. 前記第二のプロセッサは、
    前記ユーザとの対話内容を前記ユーザの嗜好情報として記憶部に蓄積し、
    前記端末装置から転送された前記ユーザの発話音声の認識結果に基づく処理を行う際に、前記ユーザの嗜好情報を考慮した処理を行う、
    請求項3に記載のエージェントシステム。
  6. 前記第一のプロセッサは、
    前記ユーザの発話音声をテキストデータに変換し、
    前記テキストデータに、音声対話エージェントを特定するフレーズが含まれる場合、その音声対話エージェントへの指示であると判定する、
    請求項1から請求項5のいずれか一項に記載のエージェントシステム。
  7. 前記ユーザの発話音声は、音声対話エージェントを特定するフレーズと、前記音声対話エージェントに対する指示とを含む、
    請求項1から請求項6のいずれか一項に記載のエージェントシステム。
  8. 前記端末装置は、発話の際に前記ユーザが押下するボタンを備える、
    請求項7に記載のエージェントシステム。
  9. 前記端末装置は、車両に搭載されている車載装置である、
    請求項1から請求項8のいずれか一項に記載のエージェントシステム。
  10. 前記端末装置は、前記ユーザが所持する情報端末装置である、
    請求項1から請求項8のいずれか一項に記載のエージェントシステム。
  11. ハードウェアを有するプロセッサを備え、
    前記プロセッサは、
    ユーザの発話音声を認識し、前記ユーザの発話音声に含まれる指示が、複数の音声対話エージェントのうちのどの音声対話エージェントへの指示であるのかを判定し、
    判定した音声対話エージェントの機能を実現するエージェントサーバに対して、前記ユーザの発話音声を転送し、
    前記エージェントサーバから、前記ユーザの発話音声の認識結果を取得する、
    端末装置。
  12. 前記プロセッサは、
    前記エージェントサーバに対して、前記ユーザの発話音声に代えて、前記ユーザの発話音声の認識結果を出力し、
    前記エージェントサーバから、前記ユーザの発話音声の認識結果に基づく処理に関する応答データを取得する、
    請求項11に記載の端末装置。
  13. ディスプレイを備え、
    前記プロセッサは、前記ユーザの発話音声に含まれる指示が、複数の音声対話エージェントのうちのどの音声対話エージェントへの指示であるのかを判定した際に、判定した音声対話エージェントの名称を前記ディスプレイに表示させる、
    請求項11または請求項12に記載の端末装置。
  14. 前記プロセッサは、
    前記ユーザの発話音声をテキストデータに変換し、
    前記テキストデータに、音声対話エージェントを特定するフレーズが含まれる場合、その音声対話エージェントへの指示であると判定する、
    請求項11から請求項13のいずれか一項に記載の端末装置。
  15. 前記ユーザの発話音声は、音声対話エージェントを特定するフレーズと、前記音声対話エージェントに対する指示とを含む、
    請求項11から請求項14のいずれか一項に記載の端末装置。
  16. 発話の際に前記ユーザが押下するボタンを備える、
    請求項15に記載の端末装置。
  17. 車両に搭載されている車載装置である、
    請求項11から請求項16のいずれか一項に記載の端末装置。
  18. 前記ユーザが所持する情報端末装置である、
    請求項11から請求項16のいずれか一項に記載の端末装置。
  19. ハードウェアを有するプロセッサに、
    ユーザの発話音声を認識し、前記ユーザの発話音声に含まれる指示が、複数の音声対話エージェントのうちのどの音声対話エージェントへの指示であるのかを判定し、
    判定した音声対話エージェントの機能を実現するエージェントサーバに対して、前記ユーザの発話音声を転送する、
    ことを実行させるエージェントプログラム。
  20. 前記プロセッサに、
    前記エージェントサーバに対して、前記ユーザの発話音声に代えて、前記ユーザの発話音声の認識結果を出力し、
    前記エージェントサーバから、前記ユーザの発話音声の認識結果に基づく処理に関する応答データを取得する、
    ことを実行させる請求項19に記載のエージェントプログラム。
JP2020009263A 2020-01-23 2020-01-23 エージェントシステム、端末装置およびエージェントプログラム Pending JP2021117296A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2020009263A JP2021117296A (ja) 2020-01-23 2020-01-23 エージェントシステム、端末装置およびエージェントプログラム
US17/101,492 US20210233538A1 (en) 2020-01-23 2020-11-23 Agent system, terminal device, and computer readable recording medium
DE102020131203.2A DE102020131203A1 (de) 2020-01-23 2020-11-25 Agentensystem, Endgerät und Agentenprogramm
CN202110068902.9A CN113160830A (zh) 2020-01-23 2021-01-19 代理系统、终端装置及记录介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020009263A JP2021117296A (ja) 2020-01-23 2020-01-23 エージェントシステム、端末装置およびエージェントプログラム

Publications (1)

Publication Number Publication Date
JP2021117296A true JP2021117296A (ja) 2021-08-10

Family

ID=76753617

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020009263A Pending JP2021117296A (ja) 2020-01-23 2020-01-23 エージェントシステム、端末装置およびエージェントプログラム

Country Status (4)

Country Link
US (1) US20210233538A1 (ja)
JP (1) JP2021117296A (ja)
CN (1) CN113160830A (ja)
DE (1) DE102020131203A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021117301A (ja) * 2020-01-23 2021-08-10 トヨタ自動車株式会社 エージェントシステム、端末装置およびエージェントプログラム

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002116797A (ja) * 2000-10-11 2002-04-19 Canon Inc 音声処理装置、音声処理方法及び記憶媒体
WO2005076258A1 (ja) * 2004-02-03 2005-08-18 Matsushita Electric Industrial Co., Ltd. ユーザ適応型装置およびその制御方法
JP2008058465A (ja) * 2006-08-30 2008-03-13 Toshiba Corp インタフェース装置及びインタフェース処理方法
WO2014020835A1 (ja) * 2012-07-31 2014-02-06 日本電気株式会社 エージェント制御システム、方法およびプログラム
WO2017134935A1 (ja) * 2016-02-03 2017-08-10 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US20180204569A1 (en) * 2017-01-17 2018-07-19 Ford Global Technologies, Llc Voice Assistant Tracking And Activation
US20180293484A1 (en) * 2017-04-11 2018-10-11 Lenovo (Singapore) Pte. Ltd. Indicating a responding virtual assistant from a plurality of virtual assistants
JP2018181330A (ja) * 2017-04-13 2018-11-15 ハーマン インターナショナル インダストリーズ インコーポレイテッド 複数のインテリジェントパーソナルアシスタントサービスに対する管理レイヤ
JP2018189984A (ja) * 2013-06-19 2018-11-29 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声対話方法、及び、音声対話エージェントサーバ

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7324947B2 (en) * 2001-10-03 2008-01-29 Promptu Systems Corporation Global speech user interface

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002116797A (ja) * 2000-10-11 2002-04-19 Canon Inc 音声処理装置、音声処理方法及び記憶媒体
WO2005076258A1 (ja) * 2004-02-03 2005-08-18 Matsushita Electric Industrial Co., Ltd. ユーザ適応型装置およびその制御方法
JP2008058465A (ja) * 2006-08-30 2008-03-13 Toshiba Corp インタフェース装置及びインタフェース処理方法
WO2014020835A1 (ja) * 2012-07-31 2014-02-06 日本電気株式会社 エージェント制御システム、方法およびプログラム
JP2018189984A (ja) * 2013-06-19 2018-11-29 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声対話方法、及び、音声対話エージェントサーバ
WO2017134935A1 (ja) * 2016-02-03 2017-08-10 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US20180204569A1 (en) * 2017-01-17 2018-07-19 Ford Global Technologies, Llc Voice Assistant Tracking And Activation
US20180293484A1 (en) * 2017-04-11 2018-10-11 Lenovo (Singapore) Pte. Ltd. Indicating a responding virtual assistant from a plurality of virtual assistants
JP2018181330A (ja) * 2017-04-13 2018-11-15 ハーマン インターナショナル インダストリーズ インコーポレイテッド 複数のインテリジェントパーソナルアシスタントサービスに対する管理レイヤ

Also Published As

Publication number Publication date
DE102020131203A1 (de) 2021-07-29
CN113160830A (zh) 2021-07-23
US20210233538A1 (en) 2021-07-29

Similar Documents

Publication Publication Date Title
US11676601B2 (en) Voice assistant tracking and activation
US10867596B2 (en) Voice assistant system, server apparatus, device, voice assistant method therefor, and program to be executed by computer
US8775189B2 (en) Control center for a voice controlled wireless communication device system
US9679562B2 (en) Managing in vehicle speech interfaces to computer-based cloud services due recognized speech, based on context
US20120219142A1 (en) Call transfer process and system
US20050288927A1 (en) Quality of service call routing system using counselor and speech recognition engine and method thereof
US7555533B2 (en) System for communicating information from a server via a mobile communication device
JP2016109897A (ja) 電子機器、発話制御方法、およびプログラム
EP3855305A1 (en) Agent system, agent server, and agent program
JP2021117296A (ja) エージェントシステム、端末装置およびエージェントプログラム
JP7026004B2 (ja) 会話補助装置、会話補助方法及びプログラム
CN113162964B (zh) 代理系统、终端装置以及代理程序
JP2015028566A (ja) 応答制御システム、車載器、およびセンター
US11646034B2 (en) Information processing system, information processing apparatus, and computer readable recording medium
Tchankue et al. Are mobile in-car communication systems feasible? a usability study
JP2020113150A (ja) 音声翻訳対話システム
US20210358495A1 (en) Agent control device
JP7451033B2 (ja) データ処理システム
JP2023006606A (ja) 通話支援システムおよび通話支援装置
CN113506571A (zh) 控制方法、移动终端及存储介质
KR20060098128A (ko) 다단계 음성인식 기술을 이용한 음성인식 콜센터 시스템

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220214

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230221

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230516