JP7347324B2 - エージェント連携装置 - Google Patents

エージェント連携装置 Download PDF

Info

Publication number
JP7347324B2
JP7347324B2 JP2020086957A JP2020086957A JP7347324B2 JP 7347324 B2 JP7347324 B2 JP 7347324B2 JP 2020086957 A JP2020086957 A JP 2020086957A JP 2020086957 A JP2020086957 A JP 2020086957A JP 7347324 B2 JP7347324 B2 JP 7347324B2
Authority
JP
Japan
Prior art keywords
agent
voice
control unit
music
sound output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020086957A
Other languages
English (en)
Other versions
JP2021182051A (ja
Inventor
幸輝 竹下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2020086957A priority Critical patent/JP7347324B2/ja
Priority to US17/213,959 priority patent/US11740865B2/en
Priority to CN202110346177.7A priority patent/CN113689062A/zh
Publication of JP2021182051A publication Critical patent/JP2021182051A/ja
Application granted granted Critical
Publication of JP7347324B2 publication Critical patent/JP7347324B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06311Scheduling, planning or task assignment for a person or group
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60KARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
    • B60K35/00Instruments specially adapted for vehicles; Arrangement of instruments in or on vehicles
    • B60K35/10Input arrangements, i.e. from user to vehicle, associated with vehicle functions or specially adapted therefor
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60KARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
    • B60K35/00Instruments specially adapted for vehicles; Arrangement of instruments in or on vehicles
    • B60K35/20Output arrangements, i.e. from vehicle to user, associated with vehicle functions or specially adapted therefor
    • B60K35/26Output arrangements, i.e. from vehicle to user, associated with vehicle functions or specially adapted therefor using acoustic output
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60KARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
    • B60K35/00Instruments specially adapted for vehicles; Arrangement of instruments in or on vehicles
    • B60K35/20Output arrangements, i.e. from vehicle to user, associated with vehicle functions or specially adapted therefor
    • B60K35/28Output arrangements, i.e. from vehicle to user, associated with vehicle functions or specially adapted therefor characterised by the type of the output information, e.g. video entertainment or vehicle dynamics information; characterised by the purpose of the output information, e.g. for attracting the attention of the driver
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60KARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
    • B60K35/00Instruments specially adapted for vehicles; Arrangement of instruments in or on vehicles
    • B60K35/85Arrangements for transferring vehicle- or driver-related data
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60KARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
    • B60K37/00Dashboards
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60KARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
    • B60K2360/00Indexing scheme associated with groups B60K35/00 or B60K37/00 relating to details of instruments or dashboards
    • B60K2360/11Instrument graphical user interfaces or menu aspects
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60KARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
    • B60K2360/00Indexing scheme associated with groups B60K35/00 or B60K37/00 relating to details of instruments or dashboards
    • B60K2360/143Touch sensitive instrument input devices
    • B60K2360/1434Touch panels
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60KARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
    • B60K2360/00Indexing scheme associated with groups B60K35/00 or B60K37/00 relating to details of instruments or dashboards
    • B60K2360/148Instrument input by voice
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60KARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
    • B60K2360/00Indexing scheme associated with groups B60K35/00 or B60K37/00 relating to details of instruments or dashboards
    • B60K2360/16Type of output information
    • B60K2360/164Infotainment
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60KARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
    • B60K2360/00Indexing scheme associated with groups B60K35/00 or B60K37/00 relating to details of instruments or dashboards
    • B60K2360/589Wireless data transfers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Combustion & Propulsion (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Marketing (AREA)
  • Artificial Intelligence (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Educational Administration (AREA)
  • Tourism & Hospitality (AREA)
  • Development Economics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephonic Communication Services (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Description

本発明は、複数のエージェントが提供するサービスを利用可能なエージェント連携装置に関する。
特許文献1には、2つのエージェントのサービスを利用するための音声対話方法として、エージェントを識別するキーワード等のエージェント情報に基づいて、2つのエージェントの何れかで対応するかを決定することが開示されている。具体的には、家エージェントである音声対話エージェントは、入力音声信号を受け付け、入力音声信号に対して音声認識処理を行い音声認識処理の結果と、エージェント情報とに基づいて、当該入力音声信号に基づく処理を、家エージェントと、他の車エージェントとのいずれで行うかを決定する。決定において、家エージェントで行うと決定された場合、音声認識処理の結果に基づく処理を行い、当該処理に係る応答音声信号を生成して出力する。一方、車エージェントで行うと決定された場合、入力音声信号を車エージェントサーバへ転送する。
特開2018-189984号公報
しかしながら、特許文献1では、複数のエージェントのサービスを利用することができるが、複数のエージェントのサービスを同時に利便的に利用するためには、改善の余地がある。
本発明は、上記事実を考慮して成されたもので、複数のエージェントが提供するサービスを同時に利便的に利用可能なエージェント連携装置を提供することを目的とする。
上記目的を達成するために請求項1に記載のエージェント連携装置は、それぞれ異なるエージェントサーバに対応して設けられて、音声対話により前記エージェントサーバが提供する予め定めたサービスを音声対話により指示可能な複数のエージェントからの指示による音出力を制御する音出力部と、前記複数のエージェントのうち1つのエージェントが前記サービスとしてオーディオブック及び音楽のうち一方を再生中に、他のエージェントが前記サービスとしてオーディオブック及び音楽のうち他方を再生する場合に、音楽再生の音量を減少してオーディオブックを再生するように、前記音出力部を制御する制御部と、を含み、前記制御部は、前記1つのエージェントが前記一方を再生中に、前記他のエージェントに対する音声対話が行われて前記他のエージェントが音声対話に対する応答音声を出力する際に、再生中の音を減少または停止してから、前記応答音声を出力して利用者の意思を確認し、前記1つのエージェントによる前記一方の再生の継続が指示された場合に、音楽再生の音量を減少してオーディオブックを再生するように、前記音出力部を制御する
請求項1に記載の発明によれば、音出力部では、それぞれ異なるエージェントサーバに対応して設けられて、音声対話により前記エージェントサーバが提供する予め定めたサービスを音声対話により指示可能な複数のエージェントからの指示による音出力が制御される。
そして、制御部では、複数のエージェントのうち1つのエージェントがサービスとしてオーディオブック及び音楽のうち一方を再生中に、他のエージェントがサービスとしてオーディオブック及び音楽のうち他方を再生する場合に、音楽再生の音量を減少してオーディオブックを再生するように、前記音出力部が制御される。これにより、音楽を背景音楽としてオーディオブックを再生することができ、複数のエージェントが提供するサービスを同時に利便的に利用することが可能となる。
また、制御部は、1つのエージェントがオーディオブック及び音楽のうち一方を再生中に、他のエージェントに対する音声対話が行われて他のエージェントが音声対話に対する応答音声を出力する際に、再生中の音を減少または停止してから応答音声を出力して利用者の意思を確認するように、音出力部を制御する。これにより、オーディオブックまたは音楽を再生中に、エージェントと対話を聞き易くすることが可能となる。
さらに、制御部は、1つのエージェントによる一方の再生の継続が指示された場合に、音楽再生の音量を減少してオーディオブックを再生するように、音出力部を制御する。これにより、利用者の意思を反映して音楽再生とオーディオブックの再生とを同時に行うことが可能となる。
更に、制御部は、請求項に記載の発明のように、利用者の意思を確認し、オーディオブックの非継続が指示された場合は、オーディオブックの再生を停止して音楽を再生するように、音出力部を制御してもよい。これにより、背景音楽が不要な場合はオーディオブックのみの再生が可能となる。
以上説明したように本発明によれば、複数のエージェントが提供するサービスを同時に利便的に利用可能なエージェント連携装置を提供できる、という効果がある。
本実施形態に係るエージェント連携装置の概略構成を示すブロック図である。 本実施形態に係るエージェント連携装置における音声検知部で行われる処理の流れの一例を示すフローチャートである。 本実施形態に係るエージェント連携装置におけるA2A連携制御部で行われる具体的な処理の流れの一例を示すフローチャートである。 応答出力処理の一例を示すフローチャートである。 第2エージェントによりオーディオブックを再生中に、第1エージェントに対して音楽再生を指示する場合のシーケンス図である。
以下、図面を参照して本発明の実施の形態の一例を詳細に説明する。図1は、本実施形態に係るエージェント連携装置の概略構成を示すブロック図である。
本実施形態に係るエージェント連携装置10は、車載器として搭載されたヘッドユニット(H/U)に実装された例を一例として説明する。
エージェント連携装置10は、通信装置16を介して、複数のエージェントサーバに接続されている。本実施形態では、エージェント連携装置10は、一例として、第1エージェントサーバ12と第2エージェントサーバ14の2つのエージェントサーバに接続されている。エージェント連携装置10は、2つのエージェントサーバと通信を行うことで、各エージェントサーバが提供するサービスを利用者に提供する。また、エージェント連携装置10は、各エージェントサーバからの音出力を制御する機能を有する。
第1エージェントサーバ12及び第2エージェントサーバ14の各々は、所謂、VPA(Virtual Personal Assistant)と称される音声対話アシスタントの機能を提供する。具体的には、音声対話により、音楽再生、オーディオブック再生、天気予報等の予め定めたサービスをエージェント連携装置10を介して利用者に提供する。詳細な構成については周知の種々の技術が適用可能であるため、説明を省略する。
通信装置16は、本実施形態では、車両専用の通信機とされ、エージェント連携装置10と第1エージェントサーバ12との通信、及び、エージェント連携装置10と第2エージェントサーバ14との通信を行う。例えば、各々の通信は、携帯電話などの無線通信網を介して通信を行う。一例としては、DCM(Data Communication Module)と称される通信装置が適用される。
エージェント連携装置10は、例えば、CPU(Central Processing Unit)、ROM(Read Only Memory)、及びRAM(Random Access Memory)等を含む一般的なマイクロコンピュータで構成され、音出力部の一例としての音出力制御部18、制御部の一例としてのA2A連携制御部20、及び、音声検知部26の機能を有する。
音出力制御部18は、スピーカ28に接続され、第1エージェントサーバ12及び第2エージェントサーバ14からの音出力を制御する。
A2A連携制御部20は、タッチパネル30、音出力制御部18、及び音声検知部26に接続され、それぞれと情報の授受を行う。また、A2A連携制御部20は、第1エージェント22及び第2エージェント24の機能を有する。第1エージェント22は、第1エージェントサーバ12に対応して設けられ、第1エージェントサーバ12とのやり取りを制御する。また、第2エージェント24は、第2エージェントサーバ14に対応して設けられ、第2エージェントサーバ14とのやり取りを制御する。A2A連携制御部20は、各エージェントサーバから音声対話に関する情報を受信した場合、音出力制御部18に通知する。これにより、音出力制御部18は、音声対話に関する情報に基づくスピーカ28からの音出力を制御する。
音声検知部26は、マイク32に接続され、マイク32から得られる音声情報を検知して、検知結果をA2A連携制御部20に通知する。例えば、音声検知部26は、各エージェントを起動するためのウェイクアップワードを検知する。
続いて、上述のように構成された本実施形態に係るエージェント連携装置10の各部で行われる具体的な動作の一例について説明する。
本実施形態に係るエージェント連携装置10では、音声検知部26がウェイクアップワードを検知して、A2A連携制御部20に通知し、A2A連携制御部20が対応するエージェントサーバに通信装置16を介して接続する。
音出力制御部18は、各エージェントサーバからの音出力(音声対話、音楽、オーディオブック等)の要求に応じてスピーカ28からの音の出力を制御する。
A2A連携制御部20は、第1エージェント22及び第2エージェント24の何れか一方のエージェントがオーディオブック及び音楽のうち一方を再生中に、他方のエージェントがオーディオブック及び音楽のうち他方を再生する場合に、音楽再生の音量を減少してオーディオブックを再生するように、音出力制御部18を制御する。
続いて、本実施形態に係るエージェント連携装置10の各部で行われる具体的な処理について説明する。
まず、音声検知部26で行われる処理について説明する。図2は、本実施形態に係るエージェント連携装置10における音声検知部26で行われる処理の流れの一例を示すフローチャートである。なお、図2の処理は、例えば、音声検知部26にマイク32から音声が入力された場合に開始する。
ステップ100では、音声検知部26が、音声検出を行ってステップ102へ移行する。すなわち、マイク32から入力された音声を検出する。
ステップ102では、音声検知部26が、ウェイクアップワードを検出したか否かを判定する。該判定は、第1エージェント22を起動するための予め定めたウェイクアップワード、または第2エージェント24を起動するための予め定めたウェイクアップワードを検出したか否かを判定する。該判定が肯定された場合にはステップ104へ移行し、否定された場合には一連の処理を終了する。
ステップ104では、音声検知部26が、ウェイクアップワードに対応するエージェントが起動中であるか否かを判定する。該判定が否定された場合にはステップ106へ移行し、肯定された場合にはステップ112へ移行する。
ステップ106では、音声検知部26が、検出したウェイクアップワードが第1エージェント用であるか否かを判定する。該判定が肯定された場合にはステップ108へ移行し、第2エージェント用のウェイクアップワードが検出されて否定された場合にはステップ110へ移行する。
ステップ108では、音声検知部26が、第1エージェント22に起動を通知してステップ112へ移行する。
一方、ステップ110では、音声検知部26が、第2エージェント24に起動を通知してステップ112へ移行する。
ステップ112では、音声検知部26が、予め定めた時間内に音声を検知したか否かを判定する。該判定が否定された場合、すなわち、予め定めた時間内に音声を検知しなかった場合には、一連の処理を終了し、該判定が肯定された場合にはステップ114へ移行する。
ステップ114では、音声検知部26が、検知した音声を対応するエージェントに通知して一連の処理を終了する。すなわち、第1エージェント22のウェイクアップワード検知後に予め定めた時間以内に音声を検知した場合には、検知した音声を第1エージェントに通知する。一方、第2エージェント24のウェイクアップワード検知後に予め定めた時間以内に音声を検知した場合には、検知した音声を第2エージェントに通知する。
次に、A2A連携制御部20で行われる処理について説明する。図3は、本実施形態に係るエージェント連携装置10におけるA2A連携制御部20で行われる具体的な処理の流れの一例を示すフローチャートである。なお、図3の処理は、音声検知部26からエージェントの起動通知を受信した場合に開始する。
ステップ200では、A2A連携制御部20が、エージェント起動通知を受信してステップ202へ移行する。すなわち、図2のステップ108またはステップ110によるエージェントの起動通知を受信する。
ステップ202では、A2A連携制御部20が、音声検知部26から受信したエージェントの起動通知が第1エージェント22の起動通知であるか否かを判定する。該判定が肯定された場合にはステップ204へ移行し、否定された場合にはステップ206へ移行する。
ステップ204では、第1エージェント22を起動してステップ208へ移行する。具体的には、第1エージェント22と第1エージェントサーバ12との通信を確立して第1エージェントサーバ12からのサービス提供が可能な状態に移行する。
一方、ステップ206では、第2エージェント24を起動してステップ208へ移行する。具体的には、第2エージェント24と第2エージェントサーバ14との通信を確立して第2エージェントサーバ14からのサービス提供が可能な状態に移行する。
ステップ208では、A2A連携制御部20が、予め定めた時間内に音声検知部26から音声通知を受信したか否かを判定する。該判定は、上述のステップ114により音声の通知を受信したか否かを判定する。該判定が肯定された場合にはステップ210へ移行し、否定された場合には一連の処理を終了する。
ステップ210では、A2A連携制御部20が、対応するエージェントから対応するエージェントサーバに音声情報を送信してステップ212へ移行する。すなわち、第1エージェント22が起動されて音声通知を受信した場合には、第1エージェント22が第1エージェントサーバ12に音声情報を送信する。一方、第2エージェント24が起動されて音声通知を受信した場合には、第2エージェント24が第2エージェントサーバ14に音声情報を送信する。
ステップ212では、A2A連携制御部20が、エージェントサーバから音声情報を受信してステップ214へ移行する。例えば、ステップ210において、オーディオブックや音楽を再生する内容の音声情報をエージェントサーバに送信した場合には、エージェントサーバが音声情報に基づいて意図理解を行って対応するオーディオブックや音楽を再生する音声情報を受信する。
ステップ214では、A2A連携制御部20が、他のエージェントが起動中であるか否かを判定する。該判定は、第1エージェント22及び第2エージェント24の一方が音声情報を受信した場合に、第1エージェント22及び第2エージェント24の他方が起動中であるか否かを判定する。該判定が否定された場合にはステップ216へ移行し、肯定された場合にはステップ218へ移行する。
ステップ216では、A2A連携制御部20が、エージェントサーバからの応答を出力して一連の処理を終了する。すなわち、エージェントサーバから受信した応答音声や、オーディオブックの音声、音楽の音声をスピーカ28から出力するように、音出力制御部18を制御する。
一方、ステップ218では、A2A連携制御部20が、先に起動しているエージェントによる音出力の音量を減少してステップ220へ移行する。すなわち、A2A連携制御部20が、音出力制御部18に対して先に起動しているエージェントによる音出力(例えば、オーディオブックや音楽等)の音量の減少を指示する。これにより、既に出力されている音源の音量が減少され、エージェントとの対話が聞き易くなる。なお、ステップ218は、音量の減少ではなく、対話中の音出力を一時停止するようにしてもよい。
ステップ220では、A2A連携制御部20が、応答出力処理を行って一連の処理を終了する。応答出力処理は、利用者からの対話に対する応答を行う処理であり、例えば、図4で示す処理が行われる。図4は、応答出力処理の一例を示すフローチャートである。なお、本実施形態では、一方のエージェントがオーディオブック及び音楽のうち一方を再生中に他方のエージェントにオーディオブック及び音楽のうち他方の再生を要求または要求して途中で要求をキャンセルする場合を一例として説明する。
すなわち、ステップ300では、A2A連携制御部20が、先に起動しているエージェントによる音出力(オーディオブックまたは音楽の再生)を終了するか否かのメッセージを出力してステップ302へ移行する。例えば、A2A連携制御部20が、音出力制御部18を制御して、先に起動しているエージェントによる音量減少中の音出力を終了するか否かのメッセージを音声出力してもよい。或いは、A2A連携制御部20が、タッチパネル30に先に起動しているエージェントによる音量減少中の音出力を終了するか否かのメッセージを表示してもよい。
ステップ302では、A2A連携制御部20が、先に起動しているエージェントによる音量減少中の音出力を終了するか否かを判定する。該判定は、例えば、A2A連携制御部20が、音声検知部26による音声の検知結果を取得して、対話によって終了を表す音声を検知したか否か判定してもよい。或いは、A2A連携制御部20が、タッチパネル30を介して終了を表す操作が入力されたか否かを判定してもよい。該判定が肯定された場合にはステップ304へ移行し、否定された場合にはステップ308へ移行する。
ステップ304では、A2A連携制御部20が、再生中の音源を停止してステップ306へ移行する。例えば、オーディオブックや音楽が再生されていた場合には再生されているオーディオブックや音楽を停止してステップ306へ移行する。
ステップ306では、A2A連携制御部20が、後から起動されたエージェントに要求した音を、対応するエージェントサーバから取得して再生し、図4の処理をリターンして一連の処理を終了する。
一方、ステップ308では、A2A連携制御部20が、後から起動されたエージェントに要求した音の再生をキャンセルするか否かを判定する。該判定は、例えば、ステップ302と同様に、利用者との音声対話または利用者によるタッチパネル30の操作によって要求の音再生がキャンセルされたか否かを判定する。該判定が肯定された場合にはステップ310へ移行し、否定された場合にはステップ312へ移行する。
ステップ310では、A2A連携制御部20が、音出力制御部18を制御して、出力中の再生の音量を低減する前の状態に復元して図4の処理をリターンして一連の処理を終了する。
一方、ステップ312では、A2A連携制御部20が、音楽の音量を減少しながらオーディオブックを再生するように、音出力制御部18を制御して図4の処理をリターンして一連の処理を終了する。
ここで、図4の応答出力処理について、具体例を挙げて説明する。図5は、第2エージェント24によりオーディオブックを再生中に、第1エージェント22に対して音楽再生を指示する場合のシーケンス図である。
図5に示すように、第2エージェント24がオーディオブックを再生しているときに、利用者が第1エージェント22のウェイクアップワードである「Hey Toyota」を発話する。これにより、音声検知部26では、上述のステップ100により音声が検出されてステップ102が肯定され、ステップ104が否定される。そして、ステップ106が肯定されてステップ108により第1エージェント22に起動が通知される。第1エージェント22の起動が通知されるとA2A連携制御部20では、上述のステップ200により起動通知を受信して、ステップ202の判定が肯定されてステップ204により第1エージェント22が起動される。
また、ウェイクアップワードに続いて予め定めた時間内に「音楽かけて」と発話すると、音声検知部26では、ステップ112の判定が肯定されてステップ114により第1エージェント22に音声を通知する。音声が通知されるとA2A連携制御部20では、上述のステップ208の判定が肯定されてステップ210により第1エージェントサーバ12に発話音声が送信される。そして、第1エージェントサーバ12により意図理解が行われて、ステップ212によりA2A連携制御部20の第1エージェント22が応答を受信する。ここで、他のエージェントである第2エージェント24が起動中であるので、ステップ214の判定が肯定されてステップ218により第2エージェント24によるオーディオブックの再生の音量が減少されてステップ220により応答処理が行われる。
応答処理では、上述のステップ300で第1エージェント22により「オーディオブックの再生を停止しますか?」のように終了の要否のメッセージが出力される。ここで、図5の例では、利用者が「継続して」のように発話することにより、ステップ302及びステップ308の判定が否定され、ステップ312により第1エージェント22による音楽の音量を減少しながら第2エージェント24によるオーディオブックの再生が行われる。
このように、本実施形態に係るエージェント連携装置10では、2つのエージェントのうち一方のエージェントがオーディオブック及び音楽のうち一方を再生中に、他方のエージェントがオーディオブック及び音楽のうち他方を再生する場合に、音楽再生の音量を減少してオーディオブックが再生される。これにより、複数のエージェントが提供するサービスを同時に利便的に利用することが可能となる。
なお、上記の実施形態では、第1エージェント22と第2エージェント24の2つのエージェントを有する例を説明したが、これに限るものではなく、3以上の複数のエージェントを有してもよい。この場合、A2A連携制御部20が、複数のエージェントのうち1つのエージェントがオーディオブック及び音楽のうち一方を再生中に、他のエージェントがオーディオブック及び音楽のうち他方を再生する場合に、音楽再生の音量を減少してオーディオブックを再生するように、音出力制御部を制御すればよい。
また、上記の各実施形態におけるエージェント連携装置10で行われる処理は、プログラムを実行することにより行われるソフトウエア処理として説明したが、これに限るものではない。例えば、GPU(Graphics Processing Unit)、ASIC(Application Specific Integrated Circuit)、及びFPGA(Field-Programmable Gate Array)等のハードウエアで行う処理としてもよい。或いは、ソフトウエア及びハードウエアの双方を組み合わせた処理としてもよい。また、ソフトウエアの処理とした場合には、プログラムを各種記憶媒体に記憶して流通させるようにしてもよい。
さらに、本発明は、上記に限定されるものでなく、上記以外にも、その主旨を逸脱しない範囲内において種々変形して実施可能であることは勿論である。
10 エージェント連携装置
12 第1エージェントサーバ
14 第2エージェントサーバ
18 音出力制御部(音出力部)
20 A2A連携制御部(制御部)
22 第1エージェント
24 第2エージェント
26 音声検知部
28 スピーカ
32 マイク

Claims (2)

  1. それぞれ異なるエージェントサーバに対応して設けられて、音声対話により前記エージェントサーバが提供する予め定めたサービスを音声対話により指示可能な複数のエージェントからの指示による音出力を制御する音出力部と、
    前記複数のエージェントのうち1つのエージェントが前記サービスとしてオーディオブック及び音楽のうち一方を再生中に、他のエージェントが前記サービスとしてオーディオブック及び音楽のうち他方を再生する場合に、音楽再生の音量を減少してオーディオブックを再生するように、前記音出力部を制御する制御部と、
    を含み、
    前記制御部は、前記1つのエージェントが前記一方を再生中に、前記他のエージェントに対する音声対話が行われて前記他のエージェントが音声対話に対する応答音声を出力する際に、再生中の音を減少または停止してから、前記応答音声を出力して利用者の意思を確認し、前記1つのエージェントによる前記一方の再生の継続が指示された場合に、音楽再生の音量を減少してオーディオブックを再生するように、前記音出力部を制御するエージェント連携装置。
  2. 前記制御部は、利用者の意思を確認し、オーディオブックの非継続が指示された場合は、オーディオブックの再生を停止して音楽を再生するように、前記音出力部を制御する請求項1に記載のエージェント連携装置。
JP2020086957A 2020-05-18 2020-05-18 エージェント連携装置 Active JP7347324B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2020086957A JP7347324B2 (ja) 2020-05-18 2020-05-18 エージェント連携装置
US17/213,959 US11740865B2 (en) 2020-05-18 2021-03-26 Agent coordination device, agent coordination method and recording medium
CN202110346177.7A CN113689062A (zh) 2020-05-18 2021-03-31 智能体协调装置,智能体协调方法以及记录有智能体协调程序的记录介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020086957A JP7347324B2 (ja) 2020-05-18 2020-05-18 エージェント連携装置

Publications (2)

Publication Number Publication Date
JP2021182051A JP2021182051A (ja) 2021-11-25
JP7347324B2 true JP7347324B2 (ja) 2023-09-20

Family

ID=78512417

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020086957A Active JP7347324B2 (ja) 2020-05-18 2020-05-18 エージェント連携装置

Country Status (3)

Country Link
US (1) US11740865B2 (ja)
JP (1) JP7347324B2 (ja)
CN (1) CN113689062A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220375466A1 (en) * 2021-05-18 2022-11-24 Apple Inc. Siri integration with guest voices

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003058198A (ja) 2001-08-21 2003-02-28 Canon Inc 音声出力装置、音声出力方法、及び、プログラム
JP2007226642A (ja) 2006-02-24 2007-09-06 Honda Motor Co Ltd 音声認識機器制御装置
JP2012098100A (ja) 2010-10-31 2012-05-24 Alpine Electronics Inc 誘導経路音声案内出力オーディオ制御装置
JP2017535823A (ja) 2014-10-01 2017-11-30 エクスブレイン・インコーポレーテッド 音声および接続プラットフォーム
WO2019172943A1 (en) 2018-03-08 2019-09-12 Google Llc Mitigation of client device latency in rendering of remotely generated automated assistant content

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3678115B2 (ja) * 2000-05-22 2005-08-03 日本ビクター株式会社 携帯端末の通信方法
JP2007210462A (ja) 2006-02-09 2007-08-23 Mitsubishi Motors Corp 車両用表示制御装置および車両用表示システム
JP5803132B2 (ja) * 2011-02-18 2015-11-04 日本電気株式会社 音声切替装置、プログラム及び方法
EP3151576A1 (en) * 2012-10-12 2017-04-05 Spotify AB Systems and methods for multi-context media control and playback
JP6389171B2 (ja) 2013-06-19 2018-09-12 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声対話方法、及び機器
US11152003B2 (en) * 2018-09-27 2021-10-19 International Business Machines Corporation Routing voice commands to virtual assistants
US10514888B1 (en) * 2018-10-05 2019-12-24 Oracle International Corporation User-adaptive volume selection

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003058198A (ja) 2001-08-21 2003-02-28 Canon Inc 音声出力装置、音声出力方法、及び、プログラム
JP2007226642A (ja) 2006-02-24 2007-09-06 Honda Motor Co Ltd 音声認識機器制御装置
JP2012098100A (ja) 2010-10-31 2012-05-24 Alpine Electronics Inc 誘導経路音声案内出力オーディオ制御装置
JP2017535823A (ja) 2014-10-01 2017-11-30 エクスブレイン・インコーポレーテッド 音声および接続プラットフォーム
WO2019172943A1 (en) 2018-03-08 2019-09-12 Google Llc Mitigation of client device latency in rendering of remotely generated automated assistant content

Also Published As

Publication number Publication date
US11740865B2 (en) 2023-08-29
US20210357179A1 (en) 2021-11-18
JP2021182051A (ja) 2021-11-25
CN113689062A (zh) 2021-11-23

Similar Documents

Publication Publication Date Title
JP7053687B2 (ja) ラストマイル等化
CN111045642A (zh) 一种音量调节方法、车载终端及计算机存储介质
JP7347324B2 (ja) エージェント連携装置
JPWO2018034077A1 (ja) 情報処理装置、情報処理方法、及びプログラム
JP2014219617A (ja) 音声案内システム及び音声案内方法
JP2001236205A (ja) 情報処理装置および情報処理方法、ならびに情報処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2005520459A (ja) テキスト音声変換システムを備える携帯電話に使用される半導体チップ、携帯電話から聴覚的に通知またはテキストメッセージを表示する方法、及び携帯電話
JP2001042891A (ja) 音声認識装置、音声認識搭載装置、音声認識搭載システム、音声認識方法、及び記憶媒体
JP5979303B2 (ja) 音声制御システム、音声制御方法、音声制御用プログラムおよび耐雑音音声出力用プログラム
JP2015002394A (ja) 情報処理装置及びコンピュータプログラム
CN110400582A (zh) 一种音频管理方法、音频管理系统和车载系统
CN113687731B (zh) 智能体控制装置、智能体控制方法以及非临时性的记录介质
JP2021182052A (ja) エージェント連携装置
CN113162964B (zh) 代理系统、终端装置以及代理程序
US20050262256A1 (en) Method and device for multimedia processing
CN113160824A (zh) 信息处理系统、信息处理装置及程序
JP2005024869A (ja) 音声応答装置
CN115223582B (zh) 一种音频的噪声处理方法、系统、电子装置及介质
WO2021245871A1 (ja) 通話環境生成方法、通話環境生成装置、プログラム
JP7474548B2 (ja) オーディオデータの再生の制御
JP2020052145A (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
WO2024009465A1 (ja) 音声認識装置、プログラム、音声認識方法、及び音声認識システム
WO2024003988A1 (ja) 制御装置、制御方法、およびプログラム
KR0168799B1 (ko) 차량용 핸즈프리키트의 녹음/재생장치
WO2021199382A1 (ja) 再生装置、その方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220314

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230419

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230808

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230821

R151 Written notification of patent or utility model registration

Ref document number: 7347324

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151