JP2021182057A - エージェント制御装置 - Google Patents

エージェント制御装置 Download PDF

Info

Publication number
JP2021182057A
JP2021182057A JP2020087038A JP2020087038A JP2021182057A JP 2021182057 A JP2021182057 A JP 2021182057A JP 2020087038 A JP2020087038 A JP 2020087038A JP 2020087038 A JP2020087038 A JP 2020087038A JP 2021182057 A JP2021182057 A JP 2021182057A
Authority
JP
Japan
Prior art keywords
agent
company
voice
unit
mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020087038A
Other languages
English (en)
Other versions
JP7318587B2 (ja
Inventor
健司 藤木
Kenji Fujiki
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2020087038A priority Critical patent/JP7318587B2/ja
Priority to CN202110372236.8A priority patent/CN113689849B/zh
Priority to US17/225,579 priority patent/US11636857B2/en
Publication of JP2021182057A publication Critical patent/JP2021182057A/ja
Application granted granted Critical
Publication of JP7318587B2 publication Critical patent/JP7318587B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

【課題】エージェントが複数存在する場合に、ユーザが呼び出しているエージェントを特定することができ、エージェントとの対話が不成立となることを抑制する。【解決手段】ヘッドユニット20は、複数のエージェントを実行可能であって、実行される前記エージェントの情報をスピーカ26に対して出力する出力部と、前記エージェント毎にスピーカ26に対する報知態様を変更させる変更部と、を備えている。【選択図】図2

Description

本発明は、ユーザの要求に応じてエージェントに係る処理を実行するエージェント制御装置に関する。
特許文献1には、入力音声信号を受け付け、前記入力音声信号に対して音声認識処理を行い音声認識処理の結果と、エージェント情報とに基づいて、当該入力音声信号に基づく処理を何れのエージェントで行うかを決定する音声対話エージェントが開示されている。
特開2018−189984号公報
ここで、エージェントが複数存在する場合、各エージェントの話し方、声質等が同じであると、ユーザがどのエージェントを呼び出しているか分からなくなり、エージェントとの対話が必要な場合に上手くできないなどの問題が発生する。
本発明は、エージェントが複数存在する場合に、ユーザが呼び出しているエージェントを特定することができ、エージェントとの対話が不成立となることを抑制可能なエージェント制御装置を提供することを目的とする。
請求項1に記載のエージェント制御装置は、複数のエージェントを実行可能なエージェント制御装置であって、実行される前記エージェントの情報を報知部に対して出力する出力部と、前記エージェント毎に前記報知部に対する報知態様を変更させる変更部と、を備えている。
請求項1に記載のエージェント制御装置は複数のエージェントを実行可能としている。当該エージェント制御装置では、出力部が実行されるエージェントの情報を報知部に対して出力することで、ユーザとの間で対話を行うことを可能としている。そして、当該エージェント装置では、変更部がエージェント毎に報知部に対する報知態様を変更させることで、ユーザは呼び出しているエージェントを特定することができる。これにより、エージェントとの対話が不成立となることを抑制することができる。
請求項2に記載のエージェント制御装置は、請求項1に記載のエージェント制御装置において、前記報知部はスピーカを含み、前記変更部は、前記エージェント毎に音声態様を変更する。
請求項2に記載のエージェント制御装置は、ユーザに対してエージェントの情報を音声で提供する。提供される音声は、変更部によりエージェント毎の音声態様に変更される。ここで、「音声態様」とは、男性女性の別、声のトーン、話し方等を含む。当該エージェント制御装置によれば、音声によってエージェントを識別させることで、運転中のユーザに対して運転中の安全を損なわない対話を提供することができる。
請求項3に記載のエージェント制御装置は、請求項2に記載のエージェント制御装置において、前記音声態様は、複数の態様からユーザが一の態様を選択可能である。
請求項3に記載のエージェント制御装置によれば、ユーザが好む音声態様を選択できるため、対話をする場合の不慣れな音声態様による不快感を抑制することができる。
請求項4に記載のエージェント制御装置は、請求項1〜3の何れか1項に記載のエージェント制御装置において、前記報知部は表示装置を含み、前記変更部は、前記エージェント毎に各前記エージェントを特定する特定画像を変化させる。
請求項4に記載のエージェント制御装置は、ユーザに対してエージェントを特定する特定画像を提供する。提供される特定画像は、変更部によりエージェント毎の特定画像に変更される。ここで、「特定画像」とは、エージェントに対応するロゴの画像、色彩の画像、並びに点滅、スライドイン等の動的な画像を含む。当該エージェント制御装置によれば、音声による対話が途切れた際中であってもエージェントを識別することができる。
本発明によれば、エージェントが複数存在する場合に、ユーザが呼び出しているエージェントを特定することができ、エージェントとの対話が不成立となることを抑制することができる。
第1の実施形態に係るエージェントシステムの概略構成を示す図である。 第1の実施形態の車両のハードウェア構成を示すブロック図である。 第1の実施形態の設定データの内容を示す図である。 第1の実施形態のヘッドユニットの機能構成を示すブロック図である。 第1の実施形態のエージェントシステムにおける設定モードの処理の流れを示すシーケンス図である。 第1の実施形態のエージェントシステムにおける起動処理の流れを示すシーケンス図である。 第2の実施形態のエージェントシステムにおける起動処理の流れを示すシーケンス図である。 第2の実施形態のエージェントシステムにおける起動処理の流れを示すシーケンス図であって、図7の続きの図である。
[第1の実施形態]
図1及び図2に示されるように、第1の実施形態のエージェントシステム10は、車両12と、自社サーバ14と、他社サーバ16と、を含んで構成されている。車両12には、エージェント制御装置としてのヘッドユニット20と、通信装置22と、タッチパネル24と、スピーカ26と、マイク28と、が搭載されている。タッチパネル24及びスピーカ26はそれぞれ報知部の一例である。車両12の通信装置22、自社サーバ14及び他社サーバ16は、それぞれ、ネットワークNを介して相互に接続されている。
自社サーバ14は、車両12の製造元としての自社が保有するサーバである。自社サーバ14は、自社のサービスである自社エージェントの機能が実現されるようにユーザUの発話の意図を推定する機能を有している。自社エージェントには、通話、決済、天気・ニュース取得、車両情報取得、カーナビゲーション、救援要請等の機能がある。
他社サーバ16は、車両12の製造元ではない他社が保有するサーバである。他社サーバ16は、他社のサービスである他社エージェントの機能が実現されるようにユーザUの発話の意図を推定する機能を有している。他社エージェントには、音楽提供、オーディオブック、通話、天気・ニュース取得等の機能がある。なお、自社エージェントと他社エージェントとで同種の機能が実現されてもよい。
(車両)
図2に示されるように、ヘッドユニット20は、CPU(Central Processing Unit)20A、ROM(Read Only Memory)20B、RAM(Random Access Memory)20C、ストレージ20D、通信I/F(Inter Face)20E及び入出力I/F20Fを含んで構成されている。CPU20A、ROM20B、RAM20C、ストレージ20D、通信I/F20E及び入出力I/F20Fは、内部バス20Gを介して相互に通信可能に接続されている。
CPU20Aは、中央演算処理ユニットであり、各種プログラムを実行したり、各部を制御したりする。すなわち、CPU20Aは、ROM20B又はストレージ20Dからプログラムを読み出し、RAM20Cを作業領域としてプログラムを実行する。
ROM20Bは、各種プログラム及び各種データを記憶している。本実施形態のROM20Bには、ヘッドユニット20を制御するための制御プログラムが記憶されている。
RAM20Cは、作業領域として一時的にプログラム又はデータを記憶する。
記憶部としてのストレージ20Dは、HDD(Hard Disk Drive)又はSSD(Solid State Drive)により構成され、各種プログラム及び各種データを記憶している。本実施形態のストレージ20Dは、処理プログラム100と、態様データ110と、設定データ120とを記憶している。
処理プログラム100は、自社エージェント及び他社エージェントを制御するためのプログラムである。
態様データ110は、自社エージェント及び他社エージェントの音声態様と表示態様とが記憶されたデータである。音声態様はスピーカ26から出力される音声の種別を示すデータであって、男性女性の別、声のトーン、話し方等を含む。本実施形態の音声態様としては、例えば、男性の声であって、声質の異なる男性A、男性B及び男性C、並びに、女性の声であって、声質の異なる女性A、女性B及び女性Cの計6種別のデータがある。
また、表示態様はタッチパネル24に表示される特定画像に係るデータであって、エージェントに対応するロゴの画像、色彩の画像、並びに点滅、スライドイン等の動的な画像を含む。本実施形態の特定画像には、自社エージェントを示す自社ロゴ、及び他社エージェントを示す他社ロゴがある。
設定データ120は、自社エージェントに対して設定されている音声態様及び表示態様、並びに他社エージェントに対して設定されている音声態様及び表示態様が記憶されたデータである。設定データ120に記憶されている音声態様及び表示態様は、ユーザUにより選択され、設定されている。
図3に示されるように、例えば、設定データ120には、自社エージェントにおいて、「男性C」の音声態様と「自社ロゴ」点滅の表示態様が設定され、他社エージェントにおいて、「女性A」の音声態様と「他社ロゴ」スライドインの表示態様が設定されている。
図2に示されるように、通信I/F20Eは、通信装置22と接続するためのインタフェースである。当該インタフェースは、例えば、CANプロトコルによる通信規格が用いられる。通信I/F20Eは、外部バス20Hに対して接続されている。
入出力I/F20Fは、車両12に搭載されるタッチパネル24、スピーカ26及びマイク28と通信するためのインタフェースである。なお、タッチパネル24、スピーカ26及びマイク28は、内部バス20Gに対して直接接続されていてもよい。
通信装置22は、自社サーバ14及び他社サーバ16と通信するための無線通信モジュールである。当該無線通信モジュールは、例えば、5G、LTE、Wi−Fi(登録商標)等の通信規格が用いられる。通信装置22は、ネットワークNに対して接続されている。
タッチパネル24は、インストルメントパネル等に設けられ、表示装置としての液晶ディスプレイと、入力装置としてのタッチパッドとを兼ねている。
スピーカ26は、インストルメントパネル、センタコンソール、フロントピラー、ダッシュボード等に設けられ、自社エージェント及び他社エージェントに係る音声を出力するための装置である。
マイク28は、車両12のフロントピラーやダッシュボード等に設けられ、車両12の乗員であるユーザUが発した音声を集音する装置である。
図4に示されるように本実施形態のヘッドユニット20では、CPU20Aが、処理プログラム100を実行することで、要求部200、第一実行部220、第二実行部230、出力部240、変更部250、及び設定部260として機能する。
要求部200は、所定の契機にエージェントの実行を要求する機能を有している。ここで、「所定の契機」には、ユーザUのマイク28に対する発話、ステアリング等に設けられた図示しないPTT(プッシュ・トゥ・トーク)スイッチの押下などがある。要求部200は、ユーザUの発話による音声情報に自社エージェント用のウェイクワードが含まれる場合、当該音声情報を自社サーバ14に送信して自社エージェントの実行を要求する。また、要求部200は、ユーザUの発話による音声情報に他社エージェント用のウェイクワードが含まれる場合、当該音声情報を他社サーバ16に送信して他社エージェントの実行を要求する。
第一実行部220は、自社エージェントを実行する機能を有している。第一実行部220は、発話による音声情報を送信した自社サーバ14から提供された意図情報を基に自社エージェントの機能を実行する。
第二実行部230は、他社エージェントを実行する機能を有している。第二実行部230は、発話による音声情報を送信した他社サーバ16から提供された意図情報を基に他社エージェントの機能を実行する。
出力部240は、実行されるエージェントの情報を報知部としてのタッチパネル24及びスピーカ26に対して出力する機能を有している。例えば、出力部240は、自社エージェントがカーナビゲーション機能における目的地検索を行う場合には、検索された目的地の地図情報をタッチパネル24に出力し、目的地のテキスト情報を音声化したデータをスピーカ26に出力する。また、例えば、出力部240は、他社エージェントが音楽提供を行う場合には、提供する楽曲のアーティスト及びタイトルをタッチパネル24に出力し、楽曲データをスピーカ26に出力する。
タッチパネル24には、エージェントの情報と共に設定データ120から読み出された表示態様に基づくエージェントのロゴが表示される。また、ユーザUと対話を行う音声については、設定データ120から読み出された音声態様に基づく音声がスピーカ26から出力される。
変更部250は、エージェント毎にタッチパネル24及びスピーカ26に対する報知態様を変更させる機能を有している。具体的に、変更部250は、何れかのエージェントが起動された場合、設定データ120を参照して各エージェントに対応する音声態様及び表示態様を変更する。
設定部260は、態様データ110に記憶されている複数の態様からユーザUが選択した一の態様を設定する機能を有している。具体的に、設定部260は、設定モードに移行した場合に、ユーザUによる音声態様及び表示態様の選択を受け付けると共に、受け付けられた音声態様及び表示態様を設定データ120に記憶する。
なお、自社エージェントの音声態様及び表示態様は、自社サーバ14から態様情報として取得することができる。また、他社エージェントの音声態様及び表示態様は、他社サーバ16から態様情報として取得することができる。
(制御の流れ)
本実施形態のエージェントシステム10において実行される処理の流れについて、図5及び図6のシーケンス図を用いて説明する。ヘッドユニット20における処理は、CPU20Aが、上述した要求部200、第一実行部220、第二実行部230、出力部240、変更部250及び設定部260として機能することにより実現される。
まず、各エージェントの音声態様及び表示態様を設定する設定モードの処理について説明する。
図5のステップS10において、自社サーバ14は自社エージェントに係る音声態様及び表示態様に係る態様情報をヘッドユニット20に向けて送信する。
ステップS11において、他社サーバ16は他社エージェントに係る音声態様及び表示態様に係る態様情報をヘッドユニット20に向けて送信する。
各サーバから取得した音声態様及び表示態様は態様データ110に記憶される。なお、音声態様及び表示態様は、必ずしも設定モードにおいて各サーバから取得する必要なく、予め態様データ110に記憶されていてもよいし、エージェントのアプリケーションプログラムと共に各サーバから取得してもよい。
そして、ステップS12において、ユーザUはタッチパネル24を操作すると、ステップS13において、ヘッドユニット20はユーザUの選択操作に基づいて、音声態様及び表示態様を設定する。設定された各態様は、設定データ120に記憶される。
次に、各エージェントの起動処理について説明する。
車両12が始動した場合、図6のステップS20において、ヘッドユニット20は各エージェントの音声態様及び表示態様を読み込む。
ステップS21において、ユーザUはヘッドユニット20に向けて発話を行う。例えば、ユーザUは「Agent、Xさんに電話して」、「Assistant、音楽を掛けて」などと発話をしてエージェントに対して要求を行う。
ステップS22において、ヘッドユニット20はユーザUの発話による音声の音声認識を行う。
ステップS23において、ヘッドユニット20は音声認識による音声情報を基に、起動する自社エージェント及び他社エージェントのいずれかを検出する。例えば、ヘッドユニット20は発話の音声に「Agent」のウェイクワードが存在している場合、自社エージェントを起動するエージェントとして検出する。また、ヘッドユニット20は発話の音声に「Assistant」のウェイクワードが存在している場合、他社エージェントを起動するエージェントとして検出する。
ステップS23において自社エージェントが検出された場合、ステップS24〜ステップS28の処理に移行する。
ステップS24において、ヘッドユニット20はステップS23において検出されたエージェントのサーバに対して、音声情報を送信する。例えば、「Agent、Xさんに電話して」とユーザUが発話した場合、「Xさんに電話して」という内容の音声情報が自社サーバ14に送信される。
ステップS25において、自社サーバ14は受信した音声情報を基に音声認識を行い、意図抽出を実行する。例えば、「Xさんに電話して」の音声情報からXさんに電話を掛けるという意図を抽出する。
ステップS26において、自社サーバ14は抽出された意図を意図情報としてヘッドユニット20に送信する。
ステップS27において、ヘッドユニット20は自社エージェントの態様を設定する。すなわち、ヘッドユニット20は、設定データ120を参照して自社エージェントの音声態様及び表示態様を設定する。
ステップS28において、ヘッドユニット20は自社エージェントの実行を開始する。すなわち、ヘッドユニット20は自社サーバ14からXさんに電話を掛けるという意図情報を受信すると通話機能を起動し、自社サーバ14から取得した、又はストレージ20Dに記憶されているXさんの連絡先を参照してXさんに電話を掛ける。これにより、ヘッドユニット20では通話が開始される。
なお、図3の設定データ120を参照した結果、自社エージェントが実行される際、ガイダンス等の対話の音声は「男性C」の声質でスピーカ26から出力され、タッチパネル24には自社ロゴが点滅した態様で表示される。
一方、図6のステップS23において他社エージェントが検出された場合、ステップS29〜ステップS33の処理に移行する。
ステップS29において、ヘッドユニット20はステップS23において検出されたエージェントのサーバに対して、音声情報を送信する。例えば、「Assistant、音楽を掛けて」とユーザUが発話した場合、「音楽を掛けて」という内容の音声情報が他社サーバ16に送信される。
ステップS30において、他社サーバ16は受信した音声情報を基に音声認識を行い、意図抽出を実行する。例えば、「音楽を掛けて」の音声情報から音楽を再生するという意図を抽出する。
ステップS31において、他社サーバ16は抽出された意図を意図情報としてヘッドユニット20に送信する。
ステップS32において、ヘッドユニット20は他社エージェントの態様を設定する。すなわち、ヘッドユニット20は、設定データ120を参照して他社エージェントの音声態様及び表示態様を設定する。
ステップS33において、ヘッドユニット20は他社エージェントの実行を開始する。すなわち、ヘッドユニット20は他社サーバ16から音楽を再生するという意図情報を受信するとプレーヤを起動し、他社サーバ16から受信した音楽を再生する。
なお、図3の設定データ120を参照した結果、他社エージェントが実行される際、ガイダンス等の対話の音声は「女性A」の声質でスピーカ26から出力され、タッチパネル24には他社ロゴがスライドインの態様で表示される。
(第1の実施形態のまとめ)
本実施形態のヘッドユニット20は複数のエージェントを実行可能としている。ヘッドユニット20では、出力部240が実行されるエージェントの情報をタッチパネル24及びスピーカ26に対して出力することで、ユーザUとの間で対話を行うことを可能としている。そして、本実施形態では、変更部250がエージェント毎にタッチパネル24及びスピーカ26に対する報知態様を変更させることで、ユーザUは呼び出しているエージェントを特定することができる。したがって、本実施形態によれば、エージェントとの対話が不成立となることを抑制することができる。
また、本実施形態は、ユーザUに対してエージェントの情報を音声で提供する。提供される音声は、変更部250によりエージェント毎の音声態様に変更される。本実施形態によれば、音声によってエージェントを識別させることで、運転中のユーザUに対して運転中の安全を損なわない対話を提供することができる。
また、本実施形態によれば、ユーザUが好む音声態様を選択できるため、対話をする場合の不慣れな音声態様による不快感を抑制することができる。
さらに、本実施形態のヘッドユニット20は、ユーザUに対してエージェントの情報を画像で提供する。提供される画像は、変更部250によりエージェント毎のロゴ等の特定画像に変更される。本実施形態によれば、音声による対話が途切れた際中であってもエージェントを識別することができる。
[第2の実施形態]
第1の実施形態は、自社エージェントと他社エージェントが独立して実行される。これに対して、第2の実施形態は、自社エージェントの実行中に他社エージェントが実行されるものである。以下、第1の実施形態との相違点について説明する。なお、その他の構成については、第1の実施形態と同様であり、詳細な説明は省略する。
本実施形態のエージェントシステム10において実行される起動処理は図7及び図8に示すとおりである。
車両12が始動した場合、図7のステップS40において、ヘッドユニット20は各エージェントの音声態様及び表示態様を読み込む。
ステップS41において、ユーザUはヘッドユニット20に向けて発話を行う。例えば、ユーザUは「Agent、Yに行きたい」と発話をしてエージェントに対して要求を行う。
ステップS42において、ヘッドユニット20はユーザUの発話による音声の音声認識を行う。
ステップS43において、ヘッドユニット20は音声認識による音声情報を基に、起動する自社エージェント及び他社エージェントのいずれかを検出する。ステップS41の発話の例では、発話の音声に「Agent」のウェイクワードが存在しているので、ヘッドユニット20は自社エージェントを起動するエージェントとして検出する。
ステップS44において、ヘッドユニット20はステップS43において検出されたエージェントのサーバに対して、音声情報を送信する。「Agent、Yに行きたい」との発話においては、「Yに行きたい」という内容の音声情報が自社サーバ14に送信される。
ステップS45において、自社サーバ14は受信した音声情報を基に音声認識を行い、意図抽出を実行する。例えば、「Yに行きたい」の音声情報からYへのルート案内をするという意図を抽出する。
ステップS46において、自社サーバ14は抽出された意図を意図情報としてヘッドユニット20に送信する。
ステップS47において、ヘッドユニット20は自社エージェントの態様を設定する。すなわち、ヘッドユニット20は、設定データ120を参照して自社エージェントの音声態様及び表示態様を設定する。
ステップS48において、ヘッドユニット20は自社エージェントの実行を開始する。すなわち、ヘッドユニット20は自社サーバ14からYへのルート案内をするという意図情報を受信するとカーナビゲーション機能を起動し、自社サーバ14から取得したYの位置情報を車両12の目的地に設定する。これにより、ヘッドユニット20では目的地Yへのナビゲーションが開始される。
なお、図3の設定データ120を参照した結果、自社エージェントが実行される際、ガイダンス等の対話の音声は「男性C」の声質でスピーカ26から出力され、タッチパネル24には自社ロゴが点滅した態様で表示される。
ここで、自社エージェントがカーナビゲーション機能を実行中にユーザUが他社エージェントを起動した場合、以下の処理が実行される。
図8のステップS49において、ユーザUはヘッドユニット20に向けて発話を行う。例えば、ユーザUは「Assistant、Y付近のレストランを教えて」と発話をしてエージェントに対して要求を行う。
ステップS50において、ヘッドユニット20はユーザUの発話による音声の音声認識を行う。
ステップS51において、ヘッドユニット20は音声認識による音声情報を基に、起動する自社エージェント及び他社エージェントのいずれかを検出する。ステップS49の発話の例では、発話の音声に「Assistant」のウェイクワードが存在しているので、ヘッドユニット20は他社エージェントを起動するエージェントとして検出する。
ステップS52において、ヘッドユニット20はステップS51において検出されたエージェントのサーバに対して、音声情報を送信する。「Assistant、Y付近のレストランを教えて」との発話においては、「Y付近のレストランを教えて」という内容の音声情報が他社サーバ16に送信される。
ステップS53において、他社サーバ16は受信した音声情報を基に音声認識を行い、意図抽出を実行する。例えば、「Y付近のレストランを教えて」の音声情報からY付近に存在するレストランの情報を提供するという意図を抽出する。
ステップS54において、他社サーバ16は抽出された意図を意図情報としてヘッドユニット20に送信する。
ステップS55において、ヘッドユニット20は受信した意図が、現在実行中の自社エージェントの機能に関連があるか否かの判定を行う。ヘッドユニット20は受信した意図が、現在実行中の自社エージェントの機能に関連があると判定した場合、ステップS56に進む。一方、ヘッドユニット20は受信した意図が、現在実行中の自社エージェントの機能とは関連がないと判定した場合、ステップS57に進む。
ステップS56において、ヘッドユニット20は自社エージェントとして他社エージェントを実行する。本実施形態では、ヘッドユニット20が他社サーバ16からY付近に存在するレストランの情報を提供するという、目的地Yへのナビゲーションに関係する意図情報を受信すると、他社サーバ16から受信したレストランの情報をタッチパネル24に表示させる。この際、ガイダンス等の対話の音声は「男性C」の声質でスピーカ26から出力され、タッチパネル24には自社ロゴが点滅した態様で表示される。したがって、ユーザUは自社エージェントとの対話の中でレストランの情報を取得したと認識することができる。
一方、ステップS55において、受信した意図が現在実行中の自社エージェントの機能とは関連がないと判定された場合、ステップS57において、ヘッドユニット20は他社エージェントの態様を設定する。例えば、音楽を再生するというナビゲーションとは関係のない意図情報を受信した場合、ヘッドユニット20は、設定データ120を参照して他社エージェントの音声態様及び表示態様を設定する。
ステップS58において、ヘッドユニット20は他社エージェントの実行を開始する。ヘッドユニット20は他社サーバ16から音楽を再生するという意図情報を受信するとプレーヤを起動し、他社サーバ16から受信した音楽を再生する。
本実施形態では、実行中の自社エージェントを経由して他社エージェントを実行する場合、音声態様及び表示態様は変化しない。具体的に本実施形態では、実行中の自社エージェントの機能と関連のある他社エージェントの機能を実行する場合は、自社エージェントの音声態様で対話が行われ、自社エージェントの表示態様がタッチパネル24に表示される。
ユーザUは必要なサービスを受けることができれば、どのエージェントにより提供されたかを問わない場合がある。本実施形態の例のように、目的地へのナビゲーションの流れの中で目的地付近のレストラン情報を照会した場合、対話の都度、音声態様や表示態様が変わるとかえって違和感を覚える場合がある。そのため、本実施形態のように、自社エージェントを経由して他社エージェントを実行する場合には音声態様及び表示態様を固定することで、対話毎にエージェントが切り替わる違和感を抑制することができる。
なお、音声態様はエージェント毎に固定して、表示態様のみを変化させてもよい。この場合、対話においてエージェントが切り替わる違和感を抑制しつつ、実際に起動しているエージェントをユーザUに知らせることができる。
また、本実施形態では、自社エージェントを経由して他社エージェントを実行する場合を例示したが、これに限らず、他社エージェントを経由して自社エージェントを実行する場合においても音声態様及び表示態様を固定するように構成してもよい。
[備考]
上記各実施形態では、音声態様としてスピーカ26から出力される音声の種別を変えていたが、これに限らず、エージェント毎に音の出る方向を変えてもよい。例えば、自社エージェントは右側のスピーカ26から音声を出力し、他社エージェントは左側のスピーカ26から音声を出力させてもよい。
なお、上記実施形態でCPU20Aがソフトウェア(プログラム)を読み込んで実行した各種処理を、CPU以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、FPGA(Field−Programmable Gate Array)等の製造後に回路構成を変更可能なPLD(Programmable Logic Device)、及びASIC(Application Specific Integrated Circuit)等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、上述した受付処理を、これらの各種のプロセッサのうちの1つで実行してもよいし、同種又は異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGA、及びCPUとFPGAとの組み合わせ等)で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。
また、上記実施形態において、各プログラムはコンピュータが読み取り可能な非一時的記録媒体に予め記憶(インストール)されている態様で説明した。例えば、ヘッドユニット20における処理プログラム100は、ストレージ20Dに予め記憶されている。しかしこれに限らず、各プログラムは、CD−ROM(Compact Disc Read Only Memory)、DVD−ROM(Digital Versatile Disc Read Only Memory)、及びUSB(Universal Serial Bus)メモリ等の非一時的記録媒体に記録された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。
上記実施形態で説明した処理の流れも、一例であり、主旨を逸脱しない範囲内において不要なステップを削除したり、新たなステップを追加したり、処理順序を入れ替えたりしてもよい。
20 ヘッドユニット(エージェント制御装置)
24 タッチパネル(報知部、表示装置)
26 スピーカ(報知部)
240 出力部
250 変更部
U ユーザ

Claims (4)

  1. 複数のエージェントを実行可能なエージェント制御装置であって、
    実行される前記エージェントの情報を報知部に対して出力する出力部と、
    前記エージェント毎に前記報知部に対する報知態様を変更させる変更部と、
    を備えるエージェント制御装置。
  2. 前記報知部はスピーカを含み、
    前記変更部は、前記エージェント毎に音声態様を変更する請求項1に記載のエージェント制御装置。
  3. 前記音声態様は、複数の態様からユーザが一の態様を選択可能である請求項2に記載のエージェント制御装置。
  4. 前記報知部は表示装置を含み、
    前記変更部は、前記エージェント毎に各前記エージェントを特定する特定画像を変化させる請求項1〜3の何れか1項に記載のエージェント制御装置。
JP2020087038A 2020-05-18 2020-05-18 エージェント制御装置 Active JP7318587B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2020087038A JP7318587B2 (ja) 2020-05-18 2020-05-18 エージェント制御装置
CN202110372236.8A CN113689849B (zh) 2020-05-18 2021-04-07 智能体控制装置、智能体控制方法以及记录有程序的记录介质
US17/225,579 US11636857B2 (en) 2020-05-18 2021-04-08 Agent control device, agent control method, and storage medium storing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020087038A JP7318587B2 (ja) 2020-05-18 2020-05-18 エージェント制御装置

Publications (2)

Publication Number Publication Date
JP2021182057A true JP2021182057A (ja) 2021-11-25
JP7318587B2 JP7318587B2 (ja) 2023-08-01

Family

ID=78512771

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020087038A Active JP7318587B2 (ja) 2020-05-18 2020-05-18 エージェント制御装置

Country Status (3)

Country Link
US (1) US11636857B2 (ja)
JP (1) JP7318587B2 (ja)
CN (1) CN113689849B (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014203495A1 (ja) * 2013-06-19 2014-12-24 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音声対話方法、及び機器
US20190066672A1 (en) * 2017-08-28 2019-02-28 Roku, Inc. Media System with Multiple Digital Assistants
WO2020070878A1 (ja) * 2018-10-05 2020-04-09 本田技研工業株式会社 エージェント装置、エージェント制御方法、およびプログラム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11194804A (ja) * 1997-12-26 1999-07-21 Hitachi Ltd インテリジェント機器および機器制御装置
JP2005149480A (ja) * 2003-10-21 2005-06-09 Zenrin Datacom Co Ltd 音声認識を用いた情報入力を伴う情報処理装置
WO2006046357A1 (ja) * 2004-10-26 2006-05-04 Matsushita Electric Industrial Co., Ltd. 情報出力装置、情報出力制御方法、情報出力制御プログラム
JP6089384B2 (ja) * 2011-04-11 2017-03-08 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
WO2014020835A1 (ja) * 2012-07-31 2014-02-06 日本電気株式会社 エージェント制御システム、方法およびプログラム
US9965553B2 (en) * 2013-05-29 2018-05-08 Philip Scott Lyren User agent with personality
US9774672B2 (en) * 2014-09-03 2017-09-26 Commvault Systems, Inc. Consolidated processing of storage-array commands by a snapshot-control media agent
KR101574064B1 (ko) * 2014-11-20 2015-12-03 (주)지플러스 상황 설정별 예약 실행 시스템 및 그 예약 실행 방법
KR102429260B1 (ko) * 2015-10-12 2022-08-05 삼성전자주식회사 음성 에이전트 기반의 제어 명령 처리 장치 및 방법과, 에이전트 장치
US10852813B2 (en) * 2016-02-26 2020-12-01 Sony Corporation Information processing system, client terminal, information processing method, and recording medium
WO2018067403A1 (en) * 2016-10-03 2018-04-12 Google Inc. Multi computational agent performance of tasks
JP2020042074A (ja) * 2018-09-06 2020-03-19 トヨタ自動車株式会社 音声対話装置、音声対話方法および音声対話プログラム
JP7068986B2 (ja) * 2018-10-09 2022-05-17 本田技研工業株式会社 エージェントシステム、エージェント制御方法、およびプログラム
JP2020067785A (ja) * 2018-10-24 2020-04-30 本田技研工業株式会社 制御装置、エージェント装置及びプログラム
JP2020077135A (ja) * 2018-11-06 2020-05-21 本田技研工業株式会社 制御装置、エージェント装置及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014203495A1 (ja) * 2013-06-19 2014-12-24 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音声対話方法、及び機器
US20190066672A1 (en) * 2017-08-28 2019-02-28 Roku, Inc. Media System with Multiple Digital Assistants
WO2020070878A1 (ja) * 2018-10-05 2020-04-09 本田技研工業株式会社 エージェント装置、エージェント制御方法、およびプログラム

Also Published As

Publication number Publication date
US11636857B2 (en) 2023-04-25
CN113689849B (zh) 2023-11-17
CN113689849A (zh) 2021-11-23
US20210358494A1 (en) 2021-11-18
JP7318587B2 (ja) 2023-08-01

Similar Documents

Publication Publication Date Title
JP6501217B2 (ja) 情報端末システム
JP4918179B2 (ja) 車載情報装置
JP7338493B2 (ja) エージェント装置、エージェントシステム及びプログラム
JP2020086571A (ja) 車載装置及び音声認識方法
JP2014219617A (ja) 音声案内システム及び音声案内方法
JP7318587B2 (ja) エージェント制御装置
JP2015028566A (ja) 応答制御システム、車載器、およびセンター
JP7347244B2 (ja) エージェント装置、エージェントシステム及びプログラム
US11663035B2 (en) Agent control device
JP5979303B2 (ja) 音声制御システム、音声制御方法、音声制御用プログラムおよび耐雑音音声出力用プログラム
US20200082820A1 (en) Voice interaction device, control method of voice interaction device, and non-transitory recording medium storing program
JP6221739B2 (ja) 車載用電子機器、制御方法、およびプログラム
CN113162964B (zh) 代理系统、终端装置以及代理程序
EP3855305A1 (en) Agent system, agent server, and agent program
US11710484B2 (en) Agent control device
CN113160824A (zh) 信息处理系统、信息处理装置及程序
KR101788188B1 (ko) 스마트 기기의 음향 출력을 고려한 차량의 음향 모드 변경 방법 및 그를 위한 장치
CN115223582B (zh) 一种音频的噪声处理方法、系统、电子装置及介质
JP2019028160A (ja) 電子装置および情報端末システム
WO2015111256A1 (ja) 音声調整システム、サーバ及び車載装置
JP7000257B2 (ja) 音声認識システム
CN115297401A (zh) 用于车辆座舱的方法、装置、设备、存储介质和程序产品
JP2023008023A (ja) 情報処理装置、車両、及び、情報処理方法
CN114827834A (zh) 基于耳机的车内多音频播放方法、装置及存储介质
JP2021110886A (ja) データ処理システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220314

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230314

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230403

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230620

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230703

R151 Written notification of patent or utility model registration

Ref document number: 7318587

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151