JP2021004950A - 情報処理装置、情報処理システムおよび情報処理方法 - Google Patents

情報処理装置、情報処理システムおよび情報処理方法 Download PDF

Info

Publication number
JP2021004950A
JP2021004950A JP2019117841A JP2019117841A JP2021004950A JP 2021004950 A JP2021004950 A JP 2021004950A JP 2019117841 A JP2019117841 A JP 2019117841A JP 2019117841 A JP2019117841 A JP 2019117841A JP 2021004950 A JP2021004950 A JP 2021004950A
Authority
JP
Japan
Prior art keywords
voice assistant
utterance
user
control unit
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019117841A
Other languages
English (en)
Inventor
穣 山川
Minori Yamakawa
穣 山川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Ten Ltd
Original Assignee
Denso Ten Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Ten Ltd filed Critical Denso Ten Ltd
Priority to JP2019117841A priority Critical patent/JP2021004950A/ja
Publication of JP2021004950A publication Critical patent/JP2021004950A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)

Abstract

【課題】複数の音声アシスタントを利用する場合のユーザの利便性を向上させること。【解決手段】実施形態に係る情報処理装置は、複数の音声アシスタントを利用可能に設けられた情報処理装置であって、マスター制御部を備える。マスター制御部は、ユーザの発話の内容に基づき、音声アシスタントそれぞれに対する発話指示を生成して音声アシスタントのサーバ装置へ送信する。【選択図】図2

Description

開示の実施形態は、情報処理装置、情報処理システムおよび情報処理方法に関する。
従来、対話型の音声操作に対応した音声アシスタントの機能を有し、かかる音声アシスタントを介して、ユーザの発話指示に応じた各種情報の提供を行うスマートスピーカといった情報処理装置が知られている(たとえば、特許文献1参照)。
上記した音声アシスタントの機能は、たとえばスマートスピーカのメーカによりクラウドサーバとして提供され、インターネットや携帯電話回線網を介してスマートスピーカと相互通信可能に設けられた音声アシスタントサーバを介して提供される。
こうした音声アシスタントの機能は、異なるメーカからそれぞれ提供される複数の音声アシスタントサーバを介して利用できる場合もある。なお、以下では、「音声アシスタント」を「音声アシスタントサーバ」と読み替えてもよい。
特開2018−182692号公報
しかしながら、上述した従来技術は、複数の音声アシスタントを利用する場合のユーザの利便性を向上させるうえで、さらなる改善の余地がある。
具体的には、複数の音声アシスタントを利用するといっても、現状では異なるメーカから提供される各音声アシスタントは、たとえばプラットフォームが異なる場合が多く、音声アシスタント間での連携機能も提供されていない。
このため、たとえばある発話指示に対するある音声アシスタントの提供情報にユーザが満足できなかった場合に、ユーザが他の音声アシスタントから満足のいく情報提供を受けようとしても、ユーザは、改めて前回と同等の内容の発話指示をはじめからやり直す必要がある。
実施形態の一態様は、上記に鑑みてなされたものであって、複数の音声アシスタントを利用する場合のユーザの利便性を向上させることができる情報処理装置、情報処理システムおよび情報処理方法を提供することを目的とする。
実施形態の一態様に係る情報処理装置は、複数の音声アシスタントを利用可能に設けられた情報処理装置であって、マスター制御部を備える。前記マスター制御部は、ユーザの発話の内容に基づき、音声アシスタントそれぞれに対する発話指示を生成して音声アシスタントのサーバ装置へ送信する。
実施形態の一態様によれば、複数の音声アシスタントを利用する場合のユーザの利便性を向上させることができる。
図1Aは、比較例に係る情報処理方法の概要説明図である。 図1Bは、実施形態に係る情報処理方法の概要説明図である。 図2は、実施形態に係る情報処理システムの構成例を示すブロック図である。 図3Aは、実施形態に係る車載装置の配置例を示す図である。 図3Bは、実施形態に係る車載装置が実行する各処理の処理説明図(その1)である。 図3Cは、実施形態に係る車載装置が実行する各処理の処理説明図(その2)である。 図3Dは、実施形態に係る車載装置が実行する各処理の処理説明図(その3)である。 図3Eは、実施形態に係る車載装置が実行する各処理の処理説明図(その4)である。 図3Fは、実施形態に係る車載装置が実行する各処理の処理説明図(その5)である。 図3Gは、実施形態に係る車載装置が実行する各処理の処理説明図(その6)である。 図4Aは、車載装置および音声アシスタントサーバ間の対話の一例を示す図(その1)である。 図4Bは、車載装置および音声アシスタントサーバ間の対話の一例を示す図(その2)である。 図5は、実施形態に係る対話情報の一例を示す図である。 図6は、実施形態に係る車載装置が実行する処理手順を示すフローチャートである。 図7は、その他の実施形態に係る情報処理方法の概要説明図である。
以下、添付図面を参照して、本願の開示する情報処理装置、情報処理システムおよび情報処理方法の実施形態を詳細に説明する。なお、以下に示す実施形態によりこの発明が限定されるものではない。
また、以下では、実施形態に係る情報処理装置が、車両Vに搭載され、カーナビゲーション機能等を有する車載装置10である場合を例に挙げて説明を行う。また、以下では、音声アシスタントサーバが2つである場合を例に挙げるが、無論、2以上であってもよい。
まず、実施形態に係る情報処理方法の概要について、図1Aおよび図1Bを用いて説明する。図1Aは、比較例に係る情報処理方法の概要説明図である。また、図1Bは、実施形態に係る情報処理方法の概要説明図である。
図1Aに示すように、たとえば比較例に係る情報処理方法では、プラットフォームの異なる複数の音声アシスタントサーバ100−1,100−2を利用する場合、ユーザUは、それぞれのサーバに独自の情報提供サービスを受けることができるというメリットはある。
ただし、音声アシスタントサーバ100−1,100−2は、互いに連携してはいない。このため、ユーザUが、たとえば音声アシスタントサーバ100−1への発話指示に対する応答に満足できない場合、ユーザUは、音声アシスタントサーバ100−2に対し、改めて音声アシスタントサーバ100−1に対するものと同等の内容の発話指示を行う必要がある。なお、ここで同等の内容とは、同じ指示内容であるが、たとえば起動ワード(以下、「WuW」と記載する場合がある)等は異なることを指す。
すなわち、こうしたケースの場合、ユーザUにとっては操作が煩雑であり、利便性に乏しい。そこで、実施形態に係る情報処理方法では、複数の音声アシスタントの機能を利用する場合に、各音声アシスタントサーバに対する発話指示の間で、ユーザUの発話の内容を引き継ぐようにした。
具体的には、図1Bに示すように、実施形態に係る情報処理方法では、ユーザUと、音声アシスタントサーバ100−1,100−2との間に、マスター制御部13cを介在させることとした。マスター制御部13cは、音声アシスタントサーバ100−1,100−2をスレーブとした場合の、音声アシスタントサーバ100−1,100−2への指示制御を司るマスター制御処理を行う。
そして、同図に示すように、実施形態に係る情報処理方法では、かかるマスター制御部13cが、ユーザUの発話の内容を引き継ぎつつ、各音声アシスタントへの発話指示を自動生成することとした。
すなわち、同図に示すように、マスター制御部13cは、ユーザUの発話を受け付けた場合に、その内容を引き継ぎつつ、たとえば音声アシスタントサーバ100−1に対しては発話指示(i)を自動生成して送信し、その応答(i)を受けてユーザUへ返す。
一方で、マスター制御部13cは、たとえば応答(i)にユーザUが満足できなかった場合に、音声アシスタントサーバ100−2に対して発話指示(ii)を自動生成して送信し、その応答(ii)を受けてユーザUへ返す。
これにより、複数の音声アシスタントの機能を利用する場合に、ユーザUは、同様の内容の発話指示を音声アシスタントに応じて繰り返し行う必要がなくなる。すなわち、ユーザUは、煩雑な手順を踏むことなく、満足のいく応答を得ることが可能となる。
したがって、実施形態に係る情報処理方法によれば、複数の音声アシスタントを利用する場合のユーザUの利便性を向上させることができる。以下、上述した実施形態に係る情報処理方法を適用した情報処理システム1の構成例について、より具体的に説明する。
図2は、実施形態に係る情報処理システム1の構成例を示すブロック図である。なお、図2では、実施形態の特徴を説明するために必要な構成要素のみを表しており、一般的な構成要素についての記載を省略している。
換言すれば、図2に図示される各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。例えば、各ブロックの分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することが可能である。
また、図2を用いた説明では、既に説明済みの構成要素については、説明を簡略するか、省略する場合がある。
図2に示すように、実施形態に係る情報処理システム1は、車載装置10と、音声アシスタントサーバ100と、アプリサーバ200と、オンプレミスサーバ300とを含む。なお、ここでは、音声アシスタントサーバ100は、たとえばプラットフォームの異なる複数の音声アシスタントサーバ100−1,100−2を含むものとする。
車載装置10、音声アシスタントサーバ100、アプリサーバ200およびオンプレミスサーバ300は、インターネットや携帯電話回線網等であるネットワークNを介して相互通信可能に設けられる。
音声アシスタントサーバ100は、車載装置10から入力され、自然言語処理された発話指示を音声認識し、かかる音声認識結果への応答の最適解をディープラーニング等により常に機械学習する。そして、音声アシスタントサーバ100は、かかる機械学習結果に基づき、入力された発話指示に対する最適解を車載装置10へ応答する。
アプリサーバ200は、たとえばクラウドサーバとして提供され、音声アシスタントサーバ100が車載装置10への応答に際して必要となる種々のアプリケーション処理を実行するサーバ装置である。
オンプレミスサーバ300は、たとえば車載装置10のメーカによって運用され、車載装置10のユーザUのアカウント情報等を管理するサーバ装置である。なお、ここでは、アプリサーバ200およびオンプレミスサーバ300を1つずつ示したが、2以上であってもよい。
車載装置10は、通信部11と、記憶部12と、制御部13と、各種機能部14とを備える。通信部11は、たとえば、NIC(Network Interface Card)等によって実現される。通信部11は、ネットワークNと無線で接続され、ネットワークNを介して、音声アシスタントサーバ100やアプリサーバ200、オンプレミスサーバ300との間で情報の送受信を行う。
記憶部12は、たとえば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現され、図2の例では、音声認識モデル12aと、各種機能関連情報12bと、対話情報12cと、音声アシスタント情報12dとを記憶する。
音声認識モデル12aは、後述するVUI(Voice User Interface)制御部13aが実行する音声認識処理に用いられる言語モデルであって、たとえば隠れマルコフモデル等である。
各種機能関連情報12bは、車載装置10が有し、各種機能部14が実行する各種機能、たとえばカーナビゲーション機能やオーディオ機能等に関する情報である。たとえばカーナビゲーション機能に関しては、目的地や経由地、ルート情報等を含む。また、たとえばオーディオ機能に関しては、オーディオデータや再生履歴等を含む。
対話情報12cは、車載装置10と、音声アシスタントサーバ100との間の対話に関する情報であって、ユーザUが発話した内容や、実際に音声アシスタントサーバ100へ送信された発話指示とこれに対する応答の履歴等を含む。
音声アシスタント情報12dは、各音声アシスタントに関する情報であって、たとえば音声アシスタントごとの起動ワードや、通信プロトコル等に関する情報を含む。
制御部13は、コントローラ(controller)であり、たとえば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、車載装置10内部のROM(Read Only Memory)といった記憶デバイスに記憶されている各種プログラムがRAMを作業領域として実行されることにより実現される。また、制御部13は、たとえば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現することができる。
制御部13は、VUI制御部13aと、取得部13bと、マスター制御部13cとを有し、以下に説明する情報処理の機能や作用を実現または実行する。
VUI制御部13aは、ユーザUに対する音声ユーザインタフェースに関する制御処理を行う。具体的には、VUI制御部13aは、マイク2から入力される音声の音声認識処理を実行する。たとえば、VUI制御部13aは、所定の起動ワードを検知する。起動ワードは、音声アシスタント機能を呼び出すトリガとなる音声コマンドであり、VUI制御部13aは、たとえば常時かかる起動ワードを検知する待機状態となっている。
VUI制御部13aは、かかる起動ワードを検知すると、これに続くユーザの発話区間を発話指示に相当する内容として抽出する。また、VUI制御部13aは、抽出した発話の内容を音声認識モデル12aを用いて自然文による命令として解釈する。
また、VUI制御部13aは、解釈した内容に応じて、取得部13bに、発話指示の自動生成に必要となる情報を取得させる。また、VUI制御部13aは、起動ワード、および、抽出した発話の内容をマスター制御部13cへ渡す。
なお、VUI制御部13aは、起動ワードの検知なしにユーザUの発話を受け付けることもできる。かかる場合、たとえばユーザUは発話ボタンを押下する等の所定の操作を行い、発話指示に相当する内容の発話(たとえば「○○して」(○○は、任意の指示文言))を行う。
そして、VUI制御部13aは、かかる発話の内容を音声認識モデル12aを用いて自然文による命令として解釈し、取得部13bに発話指示の自動生成に必要となる情報を取得させるとともに、発話の内容をマスター制御部13cへ渡すこととなる。
また、VUI制御部13aは、マスター制御部13cを介して送信された発話指示に対する応答をマスター制御部13cから受け取った場合に、出力部3からユーザUに向け出力させる。
また、VUI制御部13aは、出力された応答に対するユーザUの意思表示(たとえば、後述する「切替の意思表示」や「完了の意思表示」)を受け付けた場合に、その内容に応じてマスター制御部13cに音声アシスタントを切り替えさせたり、各種機能部14に対応する各種機能を実行させたりする。
取得部13bは、発話指示の自動生成に必要となる情報を取得する。取得部13bは、たとえばユーザUが「○○へ行きたい」といったカーナビゲーション機能の目的地設定に関する内容の発話をした場合、各種センサ4に含まれるGPS(Global Positioning System)センサから車両V(図3A参照)の現在地の位置情報を取得する。
また、たとえば取得部13bは、各種機能関連情報12bに含まれるカーナビゲーション機能に関する情報から車両Vの目的地や経由地等の位置情報を取得する。また、取得部13bは、取得した情報をマスター制御部13cへ渡す。
マスター制御部13cは、VUI制御部13aから渡されたユーザUの発話の内容を対話情報12cへ保存する。また、マスター制御部13cは、かかる保存した内容を引き継ぎつつ、音声アシスタント情報12d、および、取得部13bから渡された情報等に基づいて、音声アシスタントサーバ100へ送信する発話指示を自動生成する。
また、マスター制御部13cは、上述の対話情報12cに含まれる、実際に音声アシスタントサーバ100へ送信された発話指示とこれに対する応答の履歴に基づき、音声アシスタントサーバ100へ送信する発話指示を自動生成することもできる。
また、マスター制御部13cは、生成した発話指示を音声アシスタントサーバ100へ通信部11を介して送信するとともに、送信した発話指示に対する応答を音声アシスタントサーバ100から通信部11を介して受信する。また、マスター制御部13cは、受信した応答をVUI制御部13aへ渡し、VUI制御部13aから出力部3を介して出力させる。
また、マスター制御部13cは、出力部3から出力させた応答にユーザUが満足できず、音声アシスタントを切り替える切替の意思表示を示した場合に、他の音声アシスタントサーバ100向けの発話指示を自動生成し、通信部11を介して送信する。
なお、マスター制御部13cは、ユーザUが上述の切替の意思表示を示す前に、バックグラウンドで他の音声アシスタントサーバ100向けの発話指示を自動生成して送信し、その応答を蓄積しておいてもよい。かかる場合、ユーザUが切替の意思表示を示したならば、蓄積しておいた応答へ切り替えればよい。
また、マスター制御部13cは、出力部3から出力させた応答にユーザUが満足したことを示す完了の意思表示を示した場合に、次なるユーザUの発話が受け付けられるまで待機する。
次に、図2を用いて説明した内容について、図3A〜図3Gを参照しつつより具体的に説明する。図3Aは、実施形態に係る車載装置10の配置例を示す図である。また、図3B〜図3Gは、実施形態に係る車載装置10が実行する各処理の処理説明図(その1)〜(その6)である。
まず、図3Aに示すように、実施形態に係る車載装置10の本体部は、たとえば車両Vのダッシュボードの内部等に設けられる。また、マイク2および出力部3を含む実施形態に係る車載装置10の入出力部SPは、ユーザUの着座する運転席付近、たとえばダッシュボードの上部等に設けられる。
次に、図3Bでは、ユーザUが、たとえば発話ボタンを押下し、音声アシスタントサーバ100ごとの起動ワードなしに発話を行ったものとする。かかる場合、同図に示すように、ユーザUが、起動ワードなしに、たとえば「○○して」といった発話を行うと、VUI制御部13aが、マイク2から入力されたかかる発話の発話区間「○○して」との内容を抽出する。そして、VUI制御部13aは、かかる抽出した内容をマスター制御部13cへ渡す。
そして、マスター制御部13cは、受け取った内容を対話情報12cへ保存するとともに、かかる保存した内容および音声アシスタント情報12dに含まれる音声アシスタントサーバ100ごとの起動ワード等に基づき、音声アシスタントサーバ100それぞれに向けた発話指示を自動生成する。
同図に示した例で言えば、音声アシスタントサーバ100−1向けの起動ワード「WuW#1」が「Hey、△△」である場合、マスター制御部13cは、音声アシスタントサーバ100−1向けには、「Hey、△△」+「○○して」の内容で音声合成した発話指示を生成する。
同様に、音声アシスタントサーバ100−2向けの起動ワード「WuW#2」が「OK、××」である場合、マスター制御部13cは、音声アシスタントサーバ100−2向けには、「OK、××」+「○○して」の内容で音声合成した発話指示を生成する。
一方、図3Cでは、ユーザUが、音声アシスタントサーバ100ごとの起動ワードを指定して発話を行ったものとする。たとえば図中に下線で示すように、ユーザUが、音声アシスタントサーバ100−1向けの起動ワード「Hey、△△」とともに「○○して」といった発話を行うと、マスター制御部13cは、かかる起動ワードに対応する音声アシスタントサーバ100−1向けの発話指示を最優先に処理する。ここに言う最優先とは、たとえば最初に音声アシスタントサーバ100−1との対話を行うことである。
また、ユーザUが起動ワードを指定して発話を行った場合、マスター制御部13cは、ユーザUの発話の内容から、起動ワード部分と、音声アシスタントを問わない共通部分(ここでは、「○○して」の部分)とを分離し、かかる共通部分を対話情報12cへ保存する。
なお、図3Bおよび図3Cでは図示を略しているが、マスター制御部13cは、取得部13bから受け取った情報も付与しつつ、音声アシスタントサーバ100向けの発話指示を音声合成することができる。付与の方法は、たとえば音声アシスタントサーバ100ごとのプラットフォームで規定された通信プロトコル等に応じたものとなる。
次に、図3Dに示すように、マスター制御部13cが、生成した発話指示をたとえばまず音声アシスタントサーバ100−1へ送信し、これに対応する応答を受けて出力部3から出力させたものとする。
かかる場合に、図中に示すように、ユーザUから上述の切替の意思表示があった場合、マスター制御部13cは、つづいて音声アシスタントサーバ100−2向けの発話指示を生成してこれを送信する。すなわち、同図の例の場合、マスター制御部13cは、常にユーザUの切替の意思表示に基づいて音声アシスタントを切り替える。したがって、かかる場合、通信コストの低減に資することができる。
これに対し、既に述べてはいるが、図3Eに示すように、マスター制御部13cは、ユーザUが切替の意思表示を示す前に、複数の音声アシスタントサーバ100にそれぞれ応じた発話指示を生成して送信し、応答を蓄積しておくようにしてもよい。すなわち、同図の例の場合、マスター制御部13cは、ユーザUが切替の意思表示を示す前に、バックグラウンドで他の音声アシスタントサーバ100向けの発話指示を生成して送信し、その応答を蓄積する。
かかる場合、同図に示すように、応答を蓄積しつつ1つずつ出力して、ユーザUから切替の意思表示があれば、出力する応答を切り替えればよい。かかる場合、ユーザUが満足のいく結果が得られるまでの応答性能を向上させることができる。
次に、図3Fには上述の切替の意思表示の例を、図3Gには上述の完了の意思表示の例を、それぞれ示した。図3Fに示すように、切替の意思表示としては、ユーザUへ向けて応答が出力されてから、たとえば所定時間の無音を検知した場合であってもよいし、ユーザUが「他には?」や「NO」といった所定の発話を行ったことを検知した場合であってもよい。
また、図3Gに示すように、完了の意思表示としては、ユーザUへ向けて応答が出力されてから、たとえばユーザUが「いいね」や「サンキュー」といった所定の発話を行ったことを検知した場合であってもよい。
ここで、これまでの説明を踏まえた、車載装置10および音声アシスタントサーバ100間の対話の一例を挙げる。図4Aおよび図4Bは、車載装置10および音声アシスタントサーバ100間の対話の一例を示す図(その1)および(その2)である。
図4Aに示すように、ユーザUがたとえば「この辺のラーメン屋」との発話を行ったものとする。かかる場合、車載装置10のマスター制御部13cは、たとえばまず音声アシスタントサーバ100−1向けに「Hey、△△。この辺のラーメン屋」との発話指示を生成し、音声アシスタントサーバ100−1へ送信する。
そして、音声アシスタントサーバ100−1は、これに対し、「みそラーメンの○×亭があります。」との応答を返したものとする。かかる応答に対し、たとえばユーザUが、所定時間何も発話しないことで切替の意思表示を示すと、マスター制御部13cは、つづいて音声アシスタントサーバ100−2向けに「OK、××。この辺のラーメン屋」との発話指示を生成し、音声アシスタントサーバ100−2へ送信する。
そして、かかる発話指示に対し、音声アシスタントサーバ100−2が「とんこつラーメンの○□家があります。」との応答を返し、かかる応答に対し、ユーザUが「いいね」と発話して完了の意思表示を示すと、たとえばVUI制御部13aが各種機能部14にカーナビゲーション機能の目的地設定を行わせる。
なお、かかる場合、VUI制御部13aは、たとえば音声アシスタントサーバ100−2の応答に踏まれる「とんこつラーメンの○□家」との内容を音声認識および解釈し、カーナビゲーション機能の目的地として抽出することで、目的地設定を行わせる。
また、図4Bに示すように、ユーザUがたとえば「バンド○○の曲をかけて」との発話を行ったものとする。かかる場合、車載装置10のマスター制御部13cは、たとえばまず音声アシスタントサーバ100−1向けに「Hey、△△。バンド○○の曲をかけて」との発話指示を生成し、音声アシスタントサーバ100−1へ送信する。
そして、音声アシスタントサーバ100−1は、これに対し、「○△を再生します。♪〜」(「♪〜」は実際の楽曲を示す)との応答を返したものとする。かかる応答に対し、たとえばユーザUが「他には?」と発話することで切替の意思表示を示すと、マスター制御部13cは、つづいて音声アシスタントサーバ100−2向けに「OK、××。バンド○○の曲をかけて」との発話指示を生成し、音声アシスタントサーバ100−2へ送信する。
そして、かかる発話指示に対し、音声アシスタントサーバ100−2が「□□を再生します。♪〜」との応答を返し、かかる応答に対し、ユーザUが「サンキュー」と発話して完了の意思表示を示すと、たとえばVUI制御部13aが各種機能部14にオーディオ機能の楽曲再生を行わせる。
なお、同図では、音声アシスタントサーバ100−2からのストリーミング再生である例を示しているが、車載装置10がたとえば各種機能関連情報12bに保持するオーディオデータの中から、音声アシスタントサーバ100が指定した楽曲を再生することとしてもよい。
ところで、実施形態に係る情報処理方法では、ユーザUが指定した場合を除いては、マスター制御部13cが音声アシスタントサーバ100を順次選択して、それぞれに応じた発話指示を生成する必要があるが、たとえば上述の対話情報12cを利用して、かかる選択の優先度を決定することができる。
図5は、実施形態に係る対話情報12cの一例を示す図である。対話情報12cには、ユーザUが発話した内容や、実際に音声アシスタントサーバ100へ送信された発話指示とこれに対する応答の履歴のほかに、たとえば音声アシスタントごとの評価内容を含むことができる。
そして、マスター制御部13cは、その評価内容に基づき、選択する音声アシスタントの優先順位を決定することができる。具体的には、図5に示すように、対話情報12cには、過去に音声アシスタントの機能を利用した履歴を、たとえばカテゴリ分けして記録することができる。
そして、かかるカテゴリごとの履歴において、実際に応答が採用された音声アシスタントの採用回数を、上述の評価内容である評価値として見なすことができる。
より具体的に、同図に示した例では、「グルメ検索」における「ラーメン」については、音声アシスタント#1よりも音声アシスタント#2の方が採用回数が多いことがわかる。このような評価内容を前提として、ユーザUから新たに「グルメ検索」における「ラーメン」についての発話を受け付けた場合、マスター制御部13cは、たとえば音声アシスタント#1よりも音声アシスタント#2の方を優先して選択する。
また、別の例では、「楽曲再生」における「ロック」については、音声アシスタント#2よりも音声アシスタント#1の方が採用回数が多いことがわかる。このような評価内容を前提として、ユーザUから新たに「楽曲再生」における「ロック」についての発話を受け付けた場合、マスター制御部13cは、たとえば音声アシスタント#2よりも音声アシスタント#1の方を優先して選択する。
このようにすることで、ユーザUの嗜好性から適正度が高いと推定される音声アシスタントを選択することが可能となる。また、これにより、ユーザUが満足のいく結果が得られるまでの応答性能の向上や、通信コストの低減を図ることができる。
次に、実施形態に係る車載装置10が実行する処理手順について、図6を用いて説明する。図6は、実施形態に係る車載装置10が実行する処理手順を示すフローチャートである。なお、図6では、これまでと同様に、音声アシスタントが2つであるものとする。
図6に示される車載装置10が実行する処理手順は、車載装置10の電源投入後、たとえばユーザUが発話ボタンを押下し、発話指示に相当する内容の発話(たとえば「○○して」(○○は、任意の指示文言))を行うことにより開始される。まず、VUI制御部13aが、ユーザUの発話の内容を音声認識する(ステップS101)。そして、マスター制御部13cが、VUI制御部13aにより音声認識され抽出された発話の内容を対話情報12cへ保存する(ステップS102)。
また、取得部13bは、発話指示の生成に必要となる各種情報を取得し(ステップS103)、取得した情報をマスター制御部13cへ渡す。そして、マスター制御部13cが、ユーザUの指定もしくは上述の評価内容に基づく優先順位にしたがって音声アシスタントを選択する(ステップS104)。
第1の音声アシスタントについては、マスター制御部13cは、第1の音声アシスタント向けの発話指示を自動生成し(ステップS105)、第1の音声アシスタントへ送信する(ステップS106)。そして、マスター制御部13cは、第1の音声アシスタントから応答を受信して、ユーザUへ向けて出力させる(ステップS107)。
同様に、第2の音声アシスタントについては、マスター制御部13cは、第2の音声アシスタント向けの発話指示を自動生成し(ステップS108)、第2の音声アシスタントへ送信する(ステップS109)。そして、マスター制御部13cは、第2の音声アシスタントから応答を受信して、ユーザUへ向けて出力させる(ステップS110)。
そして、ユーザUが完了の意思表示を示した場合(ステップS111,Yes)、VUI制御部13aが各種機能部14に、対話の内容に該当する各種機能を実行させる(ステップS112)。そして、再度ユーザUが発話ボタンを押下し、発話指示に相当する内容の発話を行う場合、ステップS101からの処理を繰り返すが、ユーザUが発話ボタンを押下しなければ、繰り返し処理は実行されず終了される。
一方、ユーザUが完了の意思表示を示さなかった場合(ステップS111,No)、言い換えれば切替の意思表示を示した場合、ステップS104からの処理を繰り返すこととなる。
上述してきたように、実施形態に係る車載装置10(「情報処理装置」の一例に相当)は、複数の音声アシスタントを利用可能に設けられた車載装置であって、マスター制御部13cを備える。マスター制御部13cは、ユーザUの発話の内容に基づき、音声アシスタントそれぞれに対する発話指示を生成して音声アシスタントサーバ100(「音声アシスタントのサーバ装置」の一例に相当)へ送信する。
したがって、実施形態に係る車載装置10によれば、複数の音声アシスタントを利用する場合のユーザUの利便性を向上させることができる。
また、マスター制御部13cは、ユーザUの発話の内容を保持しつつ、ユーザUの発話の内容に基づいて自動的に発話指示を生成する。
したがって、実施形態に係る車載装置10によれば、ユーザUは、同様の内容の発話を繰り返す必要がなくなる。すなわち、ユーザUに煩わしさを感じさせることなく、複数の音声アシスタントを利用させることができる。
また、マスター制御部13cは、発話指示および当該発話指示に対する応答の履歴を保持しつつ、当該履歴に基づいて発話指示を自動的に生成する。
したがって、実施形態に係る車載装置10によれば、対話の履歴に基づく最適な発話指示を自動的に生成して送信することが可能となる。
また、マスター制御部13cは、ユーザUの発話の内容、および、音声アシスタントそれぞれに関する情報を音声合成した音声データとして発話指示を自動的に生成する。
したがって、実施形態に係る車載装置10によれば、音声インタフェースしかない音声アシスタントに対し、適切な発話指示を自動的に生成して送信することが可能となる。
また、マスター制御部13cは、発話指示に対する応答に対し、ユーザUから音声アシスタントを切り替える意思表示が示された場合に、当該応答を返した一の音声アシスタント以外の他の音声アシスタントへ向けた発話指示を生成する。
したがって、実施形態に係る車載装置10によれば、常にユーザUの指示に基づいて音声アシスタントを切り替えるので、通信コストを低減させるのに資することができる。
また、マスター制御部13cは、発話指示および当該発話指示に対する応答の履歴に基づく音声アシスタントごとの評価値に基づき、選択する音声アシスタントの優先順位を決定する。
したがって、実施形態に係る車載装置10によれば、ユーザUの嗜好性から適正度が高いと推定される音声アシスタントを選択することが可能となる。また、これにより、ユーザUが満足のいく結果が得られるまでの応答性能の向上や、通信コストの低減を図ることができる。
なお、上述した実施形態では、発話指示をマスター制御部13cから音声アシスタントサーバ100へ直接送信する場合を例に挙げたが、これに限られるものではない。他の実施形態としては、たとえば、各音声アシスタント用のスマートスピーカを設けることとしたうえで、マスター制御部13cがスマートスピーカに対し、生成した発話指示を音声入力により行い、入力された発話指示をスマートスピーカから各音声アシスタントサーバ100へ送信するようにしてもよい。
具体的に図7を用いて説明する。図7は、その他の実施形態に係る情報処理方法の概要説明図である。図7に示すように、その他の実施形態に係る情報処理方法では、マスター制御部13cと、音声アシスタントサーバ100−1,100−2との間に、各音声アシスタント用のスマートスピーカSS−1,SS−2が介在する。
そして、同図に示すように、マスター制御部13cは、ユーザUの発話を受け付けた場合に、たとえばスマートスピーカSS−1に対しては発話指示(i)を自動生成して音声入力する。そして、スマートスピーカSS−1は、音声入力された発話指示(i)を音声アシスタントサーバ100−1へ送信してその応答(i)を受け、かかる応答(i)をたとえばスマートスピーカSS−1自体がユーザUへ返す。
また、マスター制御部13cは、たとえば応答(i)にユーザUが満足できなければ、ユーザUの発話の内容を引き継ぎつつ、スマートスピーカSS−2に対して発話指示(ii)を自動生成して音声入力する。そして、スマートスピーカSS−2は、音声入力された発話指示(ii)を音声アシスタントサーバ100−2へ送信してその応答(ii)を受け、かかる応答(ii)をたとえばスマートスピーカSS−2自体がユーザUへ返す。応答(i)、応答(ii)ともマスター制御部13cがユーザUへ返すようにしてもよい。
なお、ユーザUが起動ワードを指定して特定のスマートスピーカSSに対し直接発話を行い、かかるスマートスピーカSSが直接音声アシスタントサーバ100へ音声入力を行うこともできる。この場合、マスター制御部13cは、特定のスマートスピーカSSに対し行われた発話の内容を保持しておき、これを引き継ぎながら他のスマートスピーカSSに対する発話指示を自動生成し、他のスマートスピーカSSへ音声入力するようにしてもよい。
これにより、複数のスマートスピーカSSを設け、複数の音声アシスタントの機能を利用する場合に、ユーザUは、同様の内容の発話指示を音声アシスタントに応じて繰り返し行う必要がなくなる。すなわち、ユーザUは、煩雑な手順を踏むことなく、満足のいく応答を得ることが可能となる。
また、上述した各実施形態では、ユーザUが、車両Vの運転席に着座するドライバである場合を例に挙げたが、ユーザの一例であって、車両Vに搭乗するドライバ以外の搭乗者であってもよい。したがって、入出力部SPの配置位置もダッシュボードの上部等に限られるものではない。
また、上述した各実施形態では、情報処理装置が、移動体である車両Vに搭載される車載装置10であることとしたが、無論、移動体に搭載されるか否かを問わず、種々の設置環境に設けられるものであってもよい。たとえば、情報処理装置は、家庭に設けられるスマートスピーカであってもよい。
さらなる効果や変形例は、当業者によって容易に導き出すことができる。このため、本発明のより広範な態様は、以上のように表しかつ記述した特定の詳細および代表的な実施形態に限定されるものではない。したがって、添付の特許請求の範囲およびその均等物によって定義される総括的な発明の概念の精神または範囲から逸脱することなく、様々な変更が可能である。
1 情報処理システム
10 車載装置
13a VUI制御部
13b 取得部
13c マスター制御部
100 音声アシスタントサーバ
N ネットワーク
SP 入出力部
U ユーザ
V 車両

Claims (9)

  1. 複数の音声アシスタントを利用可能に設けられた情報処理装置であって、
    ユーザの発話の内容に基づき、音声アシスタントそれぞれに対する発話指示を生成して音声アシスタントのサーバ装置へ送信するマスター制御部
    を備えることを特徴とする情報処理装置。
  2. 前記マスター制御部は、
    ユーザの発話の内容を保持しつつ、ユーザの発話の内容に基づいて自動的に発話指示を生成する
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記マスター制御部は、
    発話指示および当該発話指示に対する応答の履歴を保持しつつ、当該履歴に基づいて発話指示を自動的に生成する
    ことを特徴とする請求項1または2に記載の情報処理装置。
  4. 前記マスター制御部は、
    ユーザの発話の内容、および、音声アシスタントそれぞれに関する情報を音声合成した音声データとして発話指示を自動的に生成する
    ことを特徴とする請求項1、2または3に記載の情報処理装置。
  5. 前記マスター制御部は、
    発話指示に対する応答に対し、ユーザから音声アシスタントを切り替える意思表示が示された場合に、当該応答を返した一の音声アシスタント以外の他の音声アシスタントへ向けた発話指示を生成する
    ことを特徴とする請求項1〜4のいずれか一つに記載の情報処理装置。
  6. 前記マスター制御部は、
    発話指示および当該発話指示に対する応答の履歴に基づく音声アシスタントごとの評価値に基づき、選択する音声アシスタントの優先順位を決定する
    ことを特徴とする請求項1〜5のいずれか一つに記載の情報処理装置。
  7. 車両に搭載されることを特徴とする請求項1〜6のいずれか一つに記載の情報処理装置。
  8. 請求項1〜7のいずれか一つに記載の情報処理装置と、
    前記サーバ装置と
    を備えることを特徴とする情報処理システム。
  9. 複数の音声アシスタントを利用可能に設けられた情報処理装置を用いた情報処理方法であって、
    ユーザの発話の内容に基づき、音声アシスタントそれぞれに対する発話指示を生成して音声アシスタントのサーバ装置へ送信するマスター制御工程
    を含むことを特徴とする情報処理方法。
JP2019117841A 2019-06-25 2019-06-25 情報処理装置、情報処理システムおよび情報処理方法 Pending JP2021004950A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019117841A JP2021004950A (ja) 2019-06-25 2019-06-25 情報処理装置、情報処理システムおよび情報処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019117841A JP2021004950A (ja) 2019-06-25 2019-06-25 情報処理装置、情報処理システムおよび情報処理方法

Publications (1)

Publication Number Publication Date
JP2021004950A true JP2021004950A (ja) 2021-01-14

Family

ID=74097210

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019117841A Pending JP2021004950A (ja) 2019-06-25 2019-06-25 情報処理装置、情報処理システムおよび情報処理方法

Country Status (1)

Country Link
JP (1) JP2021004950A (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018125345A1 (en) * 2016-12-30 2018-07-05 Google Llc Generating and transmitting invocation request to appropriate third-party agent
JP2018181330A (ja) * 2017-04-13 2018-11-15 ハーマン インターナショナル インダストリーズ インコーポレイテッド 複数のインテリジェントパーソナルアシスタントサービスに対する管理レイヤ

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018125345A1 (en) * 2016-12-30 2018-07-05 Google Llc Generating and transmitting invocation request to appropriate third-party agent
JP2018181330A (ja) * 2017-04-13 2018-11-15 ハーマン インターナショナル インダストリーズ インコーポレイテッド 複数のインテリジェントパーソナルアシスタントサービスに対する管理レイヤ

Similar Documents

Publication Publication Date Title
US10991374B2 (en) Request-response procedure based voice control method, voice control device and computer readable storage medium
JP6571118B2 (ja) 音声認識処理のための方法、車載システム及び不揮発性記憶媒体
US10679620B2 (en) Speech recognition arbitration logic
US9159322B2 (en) Services identification and initiation for a speech-based interface to a mobile device
US9679562B2 (en) Managing in vehicle speech interfaces to computer-based cloud services due recognized speech, based on context
US20150039316A1 (en) Systems and methods for managing dialog context in speech systems
US9183835B2 (en) Speech-based user interface for a mobile device
CN106816149A (zh) 车辆自动语音识别系统的优先化内容加载
US20190122661A1 (en) System and method to detect cues in conversational speech
JP6202041B2 (ja) 車両用音声対話システム
US20140067392A1 (en) Centralized speech logger analysis
JP2004506971A (ja) 音声入出力の制御方法
US20180075842A1 (en) Remote speech recognition at a vehicle
KR102087202B1 (ko) 인공 지능 비서 서비스 제공 방법, 및 이에 사용되는 음성 인식 장비
US20130103404A1 (en) Mobile voice platform architecture
JP6281202B2 (ja) 応答制御システム、およびセンター
US11709065B2 (en) Information providing device, information providing method, and storage medium
JP2021004950A (ja) 情報処理装置、情報処理システムおよび情報処理方法
WO2014108981A1 (ja) 車載情報システムおよび音声認識適応方法
JP6226911B2 (ja) サーバ装置、システム、音声認識機能を管理するための方法、および、情報通信端末を制御するためのプログラム
CN113314115A (zh) 终端设备的语音处理方法、终端设备及可读存储介质
JP7062958B2 (ja) 通信システム、及び通信方法
JP2006023444A (ja) 音声対話装置
JP2019212168A (ja) 音声認識システムおよび情報処理装置
JP7132206B2 (ja) 案内システム、案内システムの制御方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211228

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221206

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230606