JP2021004950A

JP2021004950A - 情報処理装置、情報処理システムおよび情報処理方法

Info

Publication number: JP2021004950A
Application number: JP2019117841A
Authority: JP
Inventors: 穣山川; Minori Yamakawa
Original assignee: Denso Ten Ltd
Current assignee: Denso Ten Ltd
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2021-01-14

Abstract

【課題】複数の音声アシスタントを利用する場合のユーザの利便性を向上させること。【解決手段】実施形態に係る情報処理装置は、複数の音声アシスタントを利用可能に設けられた情報処理装置であって、マスター制御部を備える。マスター制御部は、ユーザの発話の内容に基づき、音声アシスタントそれぞれに対する発話指示を生成して音声アシスタントのサーバ装置へ送信する。【選択図】図２

Description

開示の実施形態は、情報処理装置、情報処理システムおよび情報処理方法に関する。

従来、対話型の音声操作に対応した音声アシスタントの機能を有し、かかる音声アシスタントを介して、ユーザの発話指示に応じた各種情報の提供を行うスマートスピーカといった情報処理装置が知られている（たとえば、特許文献１参照）。

上記した音声アシスタントの機能は、たとえばスマートスピーカのメーカによりクラウドサーバとして提供され、インターネットや携帯電話回線網を介してスマートスピーカと相互通信可能に設けられた音声アシスタントサーバを介して提供される。

こうした音声アシスタントの機能は、異なるメーカからそれぞれ提供される複数の音声アシスタントサーバを介して利用できる場合もある。なお、以下では、「音声アシスタント」を「音声アシスタントサーバ」と読み替えてもよい。

特開２０１８−１８２６９２号公報

しかしながら、上述した従来技術は、複数の音声アシスタントを利用する場合のユーザの利便性を向上させるうえで、さらなる改善の余地がある。

具体的には、複数の音声アシスタントを利用するといっても、現状では異なるメーカから提供される各音声アシスタントは、たとえばプラットフォームが異なる場合が多く、音声アシスタント間での連携機能も提供されていない。

このため、たとえばある発話指示に対するある音声アシスタントの提供情報にユーザが満足できなかった場合に、ユーザが他の音声アシスタントから満足のいく情報提供を受けようとしても、ユーザは、改めて前回と同等の内容の発話指示をはじめからやり直す必要がある。

実施形態の一態様は、上記に鑑みてなされたものであって、複数の音声アシスタントを利用する場合のユーザの利便性を向上させることができる情報処理装置、情報処理システムおよび情報処理方法を提供することを目的とする。

実施形態の一態様に係る情報処理装置は、複数の音声アシスタントを利用可能に設けられた情報処理装置であって、マスター制御部を備える。前記マスター制御部は、ユーザの発話の内容に基づき、音声アシスタントそれぞれに対する発話指示を生成して音声アシスタントのサーバ装置へ送信する。

実施形態の一態様によれば、複数の音声アシスタントを利用する場合のユーザの利便性を向上させることができる。

図１Ａは、比較例に係る情報処理方法の概要説明図である。図１Ｂは、実施形態に係る情報処理方法の概要説明図である。図２は、実施形態に係る情報処理システムの構成例を示すブロック図である。図３Ａは、実施形態に係る車載装置の配置例を示す図である。図３Ｂは、実施形態に係る車載装置が実行する各処理の処理説明図（その１）である。図３Ｃは、実施形態に係る車載装置が実行する各処理の処理説明図（その２）である。図３Ｄは、実施形態に係る車載装置が実行する各処理の処理説明図（その３）である。図３Ｅは、実施形態に係る車載装置が実行する各処理の処理説明図（その４）である。図３Ｆは、実施形態に係る車載装置が実行する各処理の処理説明図（その５）である。図３Ｇは、実施形態に係る車載装置が実行する各処理の処理説明図（その６）である。図４Ａは、車載装置および音声アシスタントサーバ間の対話の一例を示す図（その１）である。図４Ｂは、車載装置および音声アシスタントサーバ間の対話の一例を示す図（その２）である。図５は、実施形態に係る対話情報の一例を示す図である。図６は、実施形態に係る車載装置が実行する処理手順を示すフローチャートである。図７は、その他の実施形態に係る情報処理方法の概要説明図である。

以下、添付図面を参照して、本願の開示する情報処理装置、情報処理システムおよび情報処理方法の実施形態を詳細に説明する。なお、以下に示す実施形態によりこの発明が限定されるものではない。

また、以下では、実施形態に係る情報処理装置が、車両Ｖに搭載され、カーナビゲーション機能等を有する車載装置１０である場合を例に挙げて説明を行う。また、以下では、音声アシスタントサーバが２つである場合を例に挙げるが、無論、２以上であってもよい。

まず、実施形態に係る情報処理方法の概要について、図１Ａおよび図１Ｂを用いて説明する。図１Ａは、比較例に係る情報処理方法の概要説明図である。また、図１Ｂは、実施形態に係る情報処理方法の概要説明図である。

図１Ａに示すように、たとえば比較例に係る情報処理方法では、プラットフォームの異なる複数の音声アシスタントサーバ１００−１，１００−２を利用する場合、ユーザＵは、それぞれのサーバに独自の情報提供サービスを受けることができるというメリットはある。

ただし、音声アシスタントサーバ１００−１，１００−２は、互いに連携してはいない。このため、ユーザＵが、たとえば音声アシスタントサーバ１００−１への発話指示に対する応答に満足できない場合、ユーザＵは、音声アシスタントサーバ１００−２に対し、改めて音声アシスタントサーバ１００−１に対するものと同等の内容の発話指示を行う必要がある。なお、ここで同等の内容とは、同じ指示内容であるが、たとえば起動ワード（以下、「ＷｕＷ」と記載する場合がある）等は異なることを指す。

すなわち、こうしたケースの場合、ユーザＵにとっては操作が煩雑であり、利便性に乏しい。そこで、実施形態に係る情報処理方法では、複数の音声アシスタントの機能を利用する場合に、各音声アシスタントサーバに対する発話指示の間で、ユーザＵの発話の内容を引き継ぐようにした。

具体的には、図１Ｂに示すように、実施形態に係る情報処理方法では、ユーザＵと、音声アシスタントサーバ１００−１，１００−２との間に、マスター制御部１３ｃを介在させることとした。マスター制御部１３ｃは、音声アシスタントサーバ１００−１，１００−２をスレーブとした場合の、音声アシスタントサーバ１００−１，１００−２への指示制御を司るマスター制御処理を行う。

そして、同図に示すように、実施形態に係る情報処理方法では、かかるマスター制御部１３ｃが、ユーザＵの発話の内容を引き継ぎつつ、各音声アシスタントへの発話指示を自動生成することとした。

すなわち、同図に示すように、マスター制御部１３ｃは、ユーザＵの発話を受け付けた場合に、その内容を引き継ぎつつ、たとえば音声アシスタントサーバ１００−１に対しては発話指示（ｉ）を自動生成して送信し、その応答（ｉ）を受けてユーザＵへ返す。

一方で、マスター制御部１３ｃは、たとえば応答（ｉ）にユーザＵが満足できなかった場合に、音声アシスタントサーバ１００−２に対して発話指示（ｉｉ）を自動生成して送信し、その応答（ｉｉ）を受けてユーザＵへ返す。

これにより、複数の音声アシスタントの機能を利用する場合に、ユーザＵは、同様の内容の発話指示を音声アシスタントに応じて繰り返し行う必要がなくなる。すなわち、ユーザＵは、煩雑な手順を踏むことなく、満足のいく応答を得ることが可能となる。

したがって、実施形態に係る情報処理方法によれば、複数の音声アシスタントを利用する場合のユーザＵの利便性を向上させることができる。以下、上述した実施形態に係る情報処理方法を適用した情報処理システム１の構成例について、より具体的に説明する。

図２は、実施形態に係る情報処理システム１の構成例を示すブロック図である。なお、図２では、実施形態の特徴を説明するために必要な構成要素のみを表しており、一般的な構成要素についての記載を省略している。

換言すれば、図２に図示される各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。例えば、各ブロックの分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することが可能である。

また、図２を用いた説明では、既に説明済みの構成要素については、説明を簡略するか、省略する場合がある。

図２に示すように、実施形態に係る情報処理システム１は、車載装置１０と、音声アシスタントサーバ１００と、アプリサーバ２００と、オンプレミスサーバ３００とを含む。なお、ここでは、音声アシスタントサーバ１００は、たとえばプラットフォームの異なる複数の音声アシスタントサーバ１００−１，１００−２を含むものとする。

車載装置１０、音声アシスタントサーバ１００、アプリサーバ２００およびオンプレミスサーバ３００は、インターネットや携帯電話回線網等であるネットワークＮを介して相互通信可能に設けられる。

音声アシスタントサーバ１００は、車載装置１０から入力され、自然言語処理された発話指示を音声認識し、かかる音声認識結果への応答の最適解をディープラーニング等により常に機械学習する。そして、音声アシスタントサーバ１００は、かかる機械学習結果に基づき、入力された発話指示に対する最適解を車載装置１０へ応答する。

アプリサーバ２００は、たとえばクラウドサーバとして提供され、音声アシスタントサーバ１００が車載装置１０への応答に際して必要となる種々のアプリケーション処理を実行するサーバ装置である。

オンプレミスサーバ３００は、たとえば車載装置１０のメーカによって運用され、車載装置１０のユーザＵのアカウント情報等を管理するサーバ装置である。なお、ここでは、アプリサーバ２００およびオンプレミスサーバ３００を１つずつ示したが、２以上であってもよい。

車載装置１０は、通信部１１と、記憶部１２と、制御部１３と、各種機能部１４とを備える。通信部１１は、たとえば、ＮＩＣ（Network Interface Card）等によって実現される。通信部１１は、ネットワークＮと無線で接続され、ネットワークＮを介して、音声アシスタントサーバ１００やアプリサーバ２００、オンプレミスサーバ３００との間で情報の送受信を行う。

記憶部１２は、たとえば、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現され、図２の例では、音声認識モデル１２ａと、各種機能関連情報１２ｂと、対話情報１２ｃと、音声アシスタント情報１２ｄとを記憶する。

音声認識モデル１２ａは、後述するＶＵＩ（Voice User Interface）制御部１３ａが実行する音声認識処理に用いられる言語モデルであって、たとえば隠れマルコフモデル等である。

各種機能関連情報１２ｂは、車載装置１０が有し、各種機能部１４が実行する各種機能、たとえばカーナビゲーション機能やオーディオ機能等に関する情報である。たとえばカーナビゲーション機能に関しては、目的地や経由地、ルート情報等を含む。また、たとえばオーディオ機能に関しては、オーディオデータや再生履歴等を含む。

対話情報１２ｃは、車載装置１０と、音声アシスタントサーバ１００との間の対話に関する情報であって、ユーザＵが発話した内容や、実際に音声アシスタントサーバ１００へ送信された発話指示とこれに対する応答の履歴等を含む。

音声アシスタント情報１２ｄは、各音声アシスタントに関する情報であって、たとえば音声アシスタントごとの起動ワードや、通信プロトコル等に関する情報を含む。

制御部１３は、コントローラ（controller）であり、たとえば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって、車載装置１０内部のＲＯＭ（Read Only Memory）といった記憶デバイスに記憶されている各種プログラムがＲＡＭを作業領域として実行されることにより実現される。また、制御部１３は、たとえば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現することができる。

制御部１３は、ＶＵＩ制御部１３ａと、取得部１３ｂと、マスター制御部１３ｃとを有し、以下に説明する情報処理の機能や作用を実現または実行する。

ＶＵＩ制御部１３ａは、ユーザＵに対する音声ユーザインタフェースに関する制御処理を行う。具体的には、ＶＵＩ制御部１３ａは、マイク２から入力される音声の音声認識処理を実行する。たとえば、ＶＵＩ制御部１３ａは、所定の起動ワードを検知する。起動ワードは、音声アシスタント機能を呼び出すトリガとなる音声コマンドであり、ＶＵＩ制御部１３ａは、たとえば常時かかる起動ワードを検知する待機状態となっている。

ＶＵＩ制御部１３ａは、かかる起動ワードを検知すると、これに続くユーザの発話区間を発話指示に相当する内容として抽出する。また、ＶＵＩ制御部１３ａは、抽出した発話の内容を音声認識モデル１２ａを用いて自然文による命令として解釈する。

また、ＶＵＩ制御部１３ａは、解釈した内容に応じて、取得部１３ｂに、発話指示の自動生成に必要となる情報を取得させる。また、ＶＵＩ制御部１３ａは、起動ワード、および、抽出した発話の内容をマスター制御部１３ｃへ渡す。

なお、ＶＵＩ制御部１３ａは、起動ワードの検知なしにユーザＵの発話を受け付けることもできる。かかる場合、たとえばユーザＵは発話ボタンを押下する等の所定の操作を行い、発話指示に相当する内容の発話（たとえば「○○して」（○○は、任意の指示文言））を行う。

そして、ＶＵＩ制御部１３ａは、かかる発話の内容を音声認識モデル１２ａを用いて自然文による命令として解釈し、取得部１３ｂに発話指示の自動生成に必要となる情報を取得させるとともに、発話の内容をマスター制御部１３ｃへ渡すこととなる。

また、ＶＵＩ制御部１３ａは、マスター制御部１３ｃを介して送信された発話指示に対する応答をマスター制御部１３ｃから受け取った場合に、出力部３からユーザＵに向け出力させる。

また、ＶＵＩ制御部１３ａは、出力された応答に対するユーザＵの意思表示（たとえば、後述する「切替の意思表示」や「完了の意思表示」）を受け付けた場合に、その内容に応じてマスター制御部１３ｃに音声アシスタントを切り替えさせたり、各種機能部１４に対応する各種機能を実行させたりする。

取得部１３ｂは、発話指示の自動生成に必要となる情報を取得する。取得部１３ｂは、たとえばユーザＵが「○○へ行きたい」といったカーナビゲーション機能の目的地設定に関する内容の発話をした場合、各種センサ４に含まれるＧＰＳ（Global Positioning System）センサから車両Ｖ（図３Ａ参照）の現在地の位置情報を取得する。

また、たとえば取得部１３ｂは、各種機能関連情報１２ｂに含まれるカーナビゲーション機能に関する情報から車両Ｖの目的地や経由地等の位置情報を取得する。また、取得部１３ｂは、取得した情報をマスター制御部１３ｃへ渡す。

マスター制御部１３ｃは、ＶＵＩ制御部１３ａから渡されたユーザＵの発話の内容を対話情報１２ｃへ保存する。また、マスター制御部１３ｃは、かかる保存した内容を引き継ぎつつ、音声アシスタント情報１２ｄ、および、取得部１３ｂから渡された情報等に基づいて、音声アシスタントサーバ１００へ送信する発話指示を自動生成する。

また、マスター制御部１３ｃは、上述の対話情報１２ｃに含まれる、実際に音声アシスタントサーバ１００へ送信された発話指示とこれに対する応答の履歴に基づき、音声アシスタントサーバ１００へ送信する発話指示を自動生成することもできる。

また、マスター制御部１３ｃは、生成した発話指示を音声アシスタントサーバ１００へ通信部１１を介して送信するとともに、送信した発話指示に対する応答を音声アシスタントサーバ１００から通信部１１を介して受信する。また、マスター制御部１３ｃは、受信した応答をＶＵＩ制御部１３ａへ渡し、ＶＵＩ制御部１３ａから出力部３を介して出力させる。

また、マスター制御部１３ｃは、出力部３から出力させた応答にユーザＵが満足できず、音声アシスタントを切り替える切替の意思表示を示した場合に、他の音声アシスタントサーバ１００向けの発話指示を自動生成し、通信部１１を介して送信する。

なお、マスター制御部１３ｃは、ユーザＵが上述の切替の意思表示を示す前に、バックグラウンドで他の音声アシスタントサーバ１００向けの発話指示を自動生成して送信し、その応答を蓄積しておいてもよい。かかる場合、ユーザＵが切替の意思表示を示したならば、蓄積しておいた応答へ切り替えればよい。

また、マスター制御部１３ｃは、出力部３から出力させた応答にユーザＵが満足したことを示す完了の意思表示を示した場合に、次なるユーザＵの発話が受け付けられるまで待機する。

次に、図２を用いて説明した内容について、図３Ａ〜図３Ｇを参照しつつより具体的に説明する。図３Ａは、実施形態に係る車載装置１０の配置例を示す図である。また、図３Ｂ〜図３Ｇは、実施形態に係る車載装置１０が実行する各処理の処理説明図（その１）〜（その６）である。

まず、図３Ａに示すように、実施形態に係る車載装置１０の本体部は、たとえば車両Ｖのダッシュボードの内部等に設けられる。また、マイク２および出力部３を含む実施形態に係る車載装置１０の入出力部ＳＰは、ユーザＵの着座する運転席付近、たとえばダッシュボードの上部等に設けられる。

次に、図３Ｂでは、ユーザＵが、たとえば発話ボタンを押下し、音声アシスタントサーバ１００ごとの起動ワードなしに発話を行ったものとする。かかる場合、同図に示すように、ユーザＵが、起動ワードなしに、たとえば「○○して」といった発話を行うと、ＶＵＩ制御部１３ａが、マイク２から入力されたかかる発話の発話区間「○○して」との内容を抽出する。そして、ＶＵＩ制御部１３ａは、かかる抽出した内容をマスター制御部１３ｃへ渡す。

そして、マスター制御部１３ｃは、受け取った内容を対話情報１２ｃへ保存するとともに、かかる保存した内容および音声アシスタント情報１２ｄに含まれる音声アシスタントサーバ１００ごとの起動ワード等に基づき、音声アシスタントサーバ１００それぞれに向けた発話指示を自動生成する。

同図に示した例で言えば、音声アシスタントサーバ１００−１向けの起動ワード「ＷｕＷ＃１」が「Ｈｅｙ、△△」である場合、マスター制御部１３ｃは、音声アシスタントサーバ１００−１向けには、「Ｈｅｙ、△△」＋「○○して」の内容で音声合成した発話指示を生成する。

同様に、音声アシスタントサーバ１００−２向けの起動ワード「ＷｕＷ＃２」が「ＯＫ、××」である場合、マスター制御部１３ｃは、音声アシスタントサーバ１００−２向けには、「ＯＫ、××」＋「○○して」の内容で音声合成した発話指示を生成する。

一方、図３Ｃでは、ユーザＵが、音声アシスタントサーバ１００ごとの起動ワードを指定して発話を行ったものとする。たとえば図中に下線で示すように、ユーザＵが、音声アシスタントサーバ１００−１向けの起動ワード「Ｈｅｙ、△△」とともに「○○して」といった発話を行うと、マスター制御部１３ｃは、かかる起動ワードに対応する音声アシスタントサーバ１００−１向けの発話指示を最優先に処理する。ここに言う最優先とは、たとえば最初に音声アシスタントサーバ１００−１との対話を行うことである。

また、ユーザＵが起動ワードを指定して発話を行った場合、マスター制御部１３ｃは、ユーザＵの発話の内容から、起動ワード部分と、音声アシスタントを問わない共通部分（ここでは、「○○して」の部分）とを分離し、かかる共通部分を対話情報１２ｃへ保存する。

なお、図３Ｂおよび図３Ｃでは図示を略しているが、マスター制御部１３ｃは、取得部１３ｂから受け取った情報も付与しつつ、音声アシスタントサーバ１００向けの発話指示を音声合成することができる。付与の方法は、たとえば音声アシスタントサーバ１００ごとのプラットフォームで規定された通信プロトコル等に応じたものとなる。

次に、図３Ｄに示すように、マスター制御部１３ｃが、生成した発話指示をたとえばまず音声アシスタントサーバ１００−１へ送信し、これに対応する応答を受けて出力部３から出力させたものとする。

かかる場合に、図中に示すように、ユーザＵから上述の切替の意思表示があった場合、マスター制御部１３ｃは、つづいて音声アシスタントサーバ１００−２向けの発話指示を生成してこれを送信する。すなわち、同図の例の場合、マスター制御部１３ｃは、常にユーザＵの切替の意思表示に基づいて音声アシスタントを切り替える。したがって、かかる場合、通信コストの低減に資することができる。

これに対し、既に述べてはいるが、図３Ｅに示すように、マスター制御部１３ｃは、ユーザＵが切替の意思表示を示す前に、複数の音声アシスタントサーバ１００にそれぞれ応じた発話指示を生成して送信し、応答を蓄積しておくようにしてもよい。すなわち、同図の例の場合、マスター制御部１３ｃは、ユーザＵが切替の意思表示を示す前に、バックグラウンドで他の音声アシスタントサーバ１００向けの発話指示を生成して送信し、その応答を蓄積する。

かかる場合、同図に示すように、応答を蓄積しつつ１つずつ出力して、ユーザＵから切替の意思表示があれば、出力する応答を切り替えればよい。かかる場合、ユーザＵが満足のいく結果が得られるまでの応答性能を向上させることができる。

次に、図３Ｆには上述の切替の意思表示の例を、図３Ｇには上述の完了の意思表示の例を、それぞれ示した。図３Ｆに示すように、切替の意思表示としては、ユーザＵへ向けて応答が出力されてから、たとえば所定時間の無音を検知した場合であってもよいし、ユーザＵが「他には？」や「ＮＯ」といった所定の発話を行ったことを検知した場合であってもよい。

また、図３Ｇに示すように、完了の意思表示としては、ユーザＵへ向けて応答が出力されてから、たとえばユーザＵが「いいね」や「サンキュー」といった所定の発話を行ったことを検知した場合であってもよい。

ここで、これまでの説明を踏まえた、車載装置１０および音声アシスタントサーバ１００間の対話の一例を挙げる。図４Ａおよび図４Ｂは、車載装置１０および音声アシスタントサーバ１００間の対話の一例を示す図（その１）および（その２）である。

図４Ａに示すように、ユーザＵがたとえば「この辺のラーメン屋」との発話を行ったものとする。かかる場合、車載装置１０のマスター制御部１３ｃは、たとえばまず音声アシスタントサーバ１００−１向けに「Ｈｅｙ、△△。この辺のラーメン屋」との発話指示を生成し、音声アシスタントサーバ１００−１へ送信する。

そして、音声アシスタントサーバ１００−１は、これに対し、「みそラーメンの○×亭があります。」との応答を返したものとする。かかる応答に対し、たとえばユーザＵが、所定時間何も発話しないことで切替の意思表示を示すと、マスター制御部１３ｃは、つづいて音声アシスタントサーバ１００−２向けに「ＯＫ、××。この辺のラーメン屋」との発話指示を生成し、音声アシスタントサーバ１００−２へ送信する。

そして、かかる発話指示に対し、音声アシスタントサーバ１００−２が「とんこつラーメンの○□家があります。」との応答を返し、かかる応答に対し、ユーザＵが「いいね」と発話して完了の意思表示を示すと、たとえばＶＵＩ制御部１３ａが各種機能部１４にカーナビゲーション機能の目的地設定を行わせる。

なお、かかる場合、ＶＵＩ制御部１３ａは、たとえば音声アシスタントサーバ１００−２の応答に踏まれる「とんこつラーメンの○□家」との内容を音声認識および解釈し、カーナビゲーション機能の目的地として抽出することで、目的地設定を行わせる。

また、図４Ｂに示すように、ユーザＵがたとえば「バンド○○の曲をかけて」との発話を行ったものとする。かかる場合、車載装置１０のマスター制御部１３ｃは、たとえばまず音声アシスタントサーバ１００−１向けに「Ｈｅｙ、△△。バンド○○の曲をかけて」との発話指示を生成し、音声アシスタントサーバ１００−１へ送信する。

そして、音声アシスタントサーバ１００−１は、これに対し、「○△を再生します。♪〜」（「♪〜」は実際の楽曲を示す）との応答を返したものとする。かかる応答に対し、たとえばユーザＵが「他には？」と発話することで切替の意思表示を示すと、マスター制御部１３ｃは、つづいて音声アシスタントサーバ１００−２向けに「ＯＫ、××。バンド○○の曲をかけて」との発話指示を生成し、音声アシスタントサーバ１００−２へ送信する。

そして、かかる発話指示に対し、音声アシスタントサーバ１００−２が「□□を再生します。♪〜」との応答を返し、かかる応答に対し、ユーザＵが「サンキュー」と発話して完了の意思表示を示すと、たとえばＶＵＩ制御部１３ａが各種機能部１４にオーディオ機能の楽曲再生を行わせる。

なお、同図では、音声アシスタントサーバ１００−２からのストリーミング再生である例を示しているが、車載装置１０がたとえば各種機能関連情報１２ｂに保持するオーディオデータの中から、音声アシスタントサーバ１００が指定した楽曲を再生することとしてもよい。

ところで、実施形態に係る情報処理方法では、ユーザＵが指定した場合を除いては、マスター制御部１３ｃが音声アシスタントサーバ１００を順次選択して、それぞれに応じた発話指示を生成する必要があるが、たとえば上述の対話情報１２ｃを利用して、かかる選択の優先度を決定することができる。

図５は、実施形態に係る対話情報１２ｃの一例を示す図である。対話情報１２ｃには、ユーザＵが発話した内容や、実際に音声アシスタントサーバ１００へ送信された発話指示とこれに対する応答の履歴のほかに、たとえば音声アシスタントごとの評価内容を含むことができる。

そして、マスター制御部１３ｃは、その評価内容に基づき、選択する音声アシスタントの優先順位を決定することができる。具体的には、図５に示すように、対話情報１２ｃには、過去に音声アシスタントの機能を利用した履歴を、たとえばカテゴリ分けして記録することができる。

そして、かかるカテゴリごとの履歴において、実際に応答が採用された音声アシスタントの採用回数を、上述の評価内容である評価値として見なすことができる。

より具体的に、同図に示した例では、「グルメ検索」における「ラーメン」については、音声アシスタント＃１よりも音声アシスタント＃２の方が採用回数が多いことがわかる。このような評価内容を前提として、ユーザＵから新たに「グルメ検索」における「ラーメン」についての発話を受け付けた場合、マスター制御部１３ｃは、たとえば音声アシスタント＃１よりも音声アシスタント＃２の方を優先して選択する。

また、別の例では、「楽曲再生」における「ロック」については、音声アシスタント＃２よりも音声アシスタント＃１の方が採用回数が多いことがわかる。このような評価内容を前提として、ユーザＵから新たに「楽曲再生」における「ロック」についての発話を受け付けた場合、マスター制御部１３ｃは、たとえば音声アシスタント＃２よりも音声アシスタント＃１の方を優先して選択する。

このようにすることで、ユーザＵの嗜好性から適正度が高いと推定される音声アシスタントを選択することが可能となる。また、これにより、ユーザＵが満足のいく結果が得られるまでの応答性能の向上や、通信コストの低減を図ることができる。

次に、実施形態に係る車載装置１０が実行する処理手順について、図６を用いて説明する。図６は、実施形態に係る車載装置１０が実行する処理手順を示すフローチャートである。なお、図６では、これまでと同様に、音声アシスタントが２つであるものとする。

図６に示される車載装置１０が実行する処理手順は、車載装置１０の電源投入後、たとえばユーザＵが発話ボタンを押下し、発話指示に相当する内容の発話（たとえば「○○して」（○○は、任意の指示文言））を行うことにより開始される。まず、ＶＵＩ制御部１３ａが、ユーザＵの発話の内容を音声認識する（ステップＳ１０１）。そして、マスター制御部１３ｃが、ＶＵＩ制御部１３ａにより音声認識され抽出された発話の内容を対話情報１２ｃへ保存する（ステップＳ１０２）。

また、取得部１３ｂは、発話指示の生成に必要となる各種情報を取得し（ステップＳ１０３）、取得した情報をマスター制御部１３ｃへ渡す。そして、マスター制御部１３ｃが、ユーザＵの指定もしくは上述の評価内容に基づく優先順位にしたがって音声アシスタントを選択する（ステップＳ１０４）。

第１の音声アシスタントについては、マスター制御部１３ｃは、第１の音声アシスタント向けの発話指示を自動生成し（ステップＳ１０５）、第１の音声アシスタントへ送信する（ステップＳ１０６）。そして、マスター制御部１３ｃは、第１の音声アシスタントから応答を受信して、ユーザＵへ向けて出力させる（ステップＳ１０７）。

同様に、第２の音声アシスタントについては、マスター制御部１３ｃは、第２の音声アシスタント向けの発話指示を自動生成し（ステップＳ１０８）、第２の音声アシスタントへ送信する（ステップＳ１０９）。そして、マスター制御部１３ｃは、第２の音声アシスタントから応答を受信して、ユーザＵへ向けて出力させる（ステップＳ１１０）。

そして、ユーザＵが完了の意思表示を示した場合（ステップＳ１１１，Ｙｅｓ）、ＶＵＩ制御部１３ａが各種機能部１４に、対話の内容に該当する各種機能を実行させる（ステップＳ１１２）。そして、再度ユーザＵが発話ボタンを押下し、発話指示に相当する内容の発話を行う場合、ステップＳ１０１からの処理を繰り返すが、ユーザＵが発話ボタンを押下しなければ、繰り返し処理は実行されず終了される。

一方、ユーザＵが完了の意思表示を示さなかった場合（ステップＳ１１１，Ｎｏ）、言い換えれば切替の意思表示を示した場合、ステップＳ１０４からの処理を繰り返すこととなる。

上述してきたように、実施形態に係る車載装置１０（「情報処理装置」の一例に相当）は、複数の音声アシスタントを利用可能に設けられた車載装置であって、マスター制御部１３ｃを備える。マスター制御部１３ｃは、ユーザＵの発話の内容に基づき、音声アシスタントそれぞれに対する発話指示を生成して音声アシスタントサーバ１００（「音声アシスタントのサーバ装置」の一例に相当）へ送信する。

したがって、実施形態に係る車載装置１０によれば、複数の音声アシスタントを利用する場合のユーザＵの利便性を向上させることができる。

また、マスター制御部１３ｃは、ユーザＵの発話の内容を保持しつつ、ユーザＵの発話の内容に基づいて自動的に発話指示を生成する。

したがって、実施形態に係る車載装置１０によれば、ユーザＵは、同様の内容の発話を繰り返す必要がなくなる。すなわち、ユーザＵに煩わしさを感じさせることなく、複数の音声アシスタントを利用させることができる。

また、マスター制御部１３ｃは、発話指示および当該発話指示に対する応答の履歴を保持しつつ、当該履歴に基づいて発話指示を自動的に生成する。

したがって、実施形態に係る車載装置１０によれば、対話の履歴に基づく最適な発話指示を自動的に生成して送信することが可能となる。

また、マスター制御部１３ｃは、ユーザＵの発話の内容、および、音声アシスタントそれぞれに関する情報を音声合成した音声データとして発話指示を自動的に生成する。

したがって、実施形態に係る車載装置１０によれば、音声インタフェースしかない音声アシスタントに対し、適切な発話指示を自動的に生成して送信することが可能となる。

また、マスター制御部１３ｃは、発話指示に対する応答に対し、ユーザＵから音声アシスタントを切り替える意思表示が示された場合に、当該応答を返した一の音声アシスタント以外の他の音声アシスタントへ向けた発話指示を生成する。

したがって、実施形態に係る車載装置１０によれば、常にユーザＵの指示に基づいて音声アシスタントを切り替えるので、通信コストを低減させるのに資することができる。

また、マスター制御部１３ｃは、発話指示および当該発話指示に対する応答の履歴に基づく音声アシスタントごとの評価値に基づき、選択する音声アシスタントの優先順位を決定する。

したがって、実施形態に係る車載装置１０によれば、ユーザＵの嗜好性から適正度が高いと推定される音声アシスタントを選択することが可能となる。また、これにより、ユーザＵが満足のいく結果が得られるまでの応答性能の向上や、通信コストの低減を図ることができる。

なお、上述した実施形態では、発話指示をマスター制御部１３ｃから音声アシスタントサーバ１００へ直接送信する場合を例に挙げたが、これに限られるものではない。他の実施形態としては、たとえば、各音声アシスタント用のスマートスピーカを設けることとしたうえで、マスター制御部１３ｃがスマートスピーカに対し、生成した発話指示を音声入力により行い、入力された発話指示をスマートスピーカから各音声アシスタントサーバ１００へ送信するようにしてもよい。

具体的に図７を用いて説明する。図７は、その他の実施形態に係る情報処理方法の概要説明図である。図７に示すように、その他の実施形態に係る情報処理方法では、マスター制御部１３ｃと、音声アシスタントサーバ１００−１，１００−２との間に、各音声アシスタント用のスマートスピーカＳＳ−１，ＳＳ−２が介在する。

そして、同図に示すように、マスター制御部１３ｃは、ユーザＵの発話を受け付けた場合に、たとえばスマートスピーカＳＳ−１に対しては発話指示（ｉ）を自動生成して音声入力する。そして、スマートスピーカＳＳ−１は、音声入力された発話指示（ｉ）を音声アシスタントサーバ１００−１へ送信してその応答（ｉ）を受け、かかる応答（ｉ）をたとえばスマートスピーカＳＳ−１自体がユーザＵへ返す。

また、マスター制御部１３ｃは、たとえば応答（ｉ）にユーザＵが満足できなければ、ユーザＵの発話の内容を引き継ぎつつ、スマートスピーカＳＳ−２に対して発話指示（ｉｉ）を自動生成して音声入力する。そして、スマートスピーカＳＳ−２は、音声入力された発話指示（ｉｉ）を音声アシスタントサーバ１００−２へ送信してその応答（ｉｉ）を受け、かかる応答（ｉｉ）をたとえばスマートスピーカＳＳ−２自体がユーザＵへ返す。応答（ｉ）、応答（ｉｉ）ともマスター制御部１３ｃがユーザＵへ返すようにしてもよい。

なお、ユーザＵが起動ワードを指定して特定のスマートスピーカＳＳに対し直接発話を行い、かかるスマートスピーカＳＳが直接音声アシスタントサーバ１００へ音声入力を行うこともできる。この場合、マスター制御部１３ｃは、特定のスマートスピーカＳＳに対し行われた発話の内容を保持しておき、これを引き継ぎながら他のスマートスピーカＳＳに対する発話指示を自動生成し、他のスマートスピーカＳＳへ音声入力するようにしてもよい。

これにより、複数のスマートスピーカＳＳを設け、複数の音声アシスタントの機能を利用する場合に、ユーザＵは、同様の内容の発話指示を音声アシスタントに応じて繰り返し行う必要がなくなる。すなわち、ユーザＵは、煩雑な手順を踏むことなく、満足のいく応答を得ることが可能となる。

また、上述した各実施形態では、ユーザＵが、車両Ｖの運転席に着座するドライバである場合を例に挙げたが、ユーザの一例であって、車両Ｖに搭乗するドライバ以外の搭乗者であってもよい。したがって、入出力部ＳＰの配置位置もダッシュボードの上部等に限られるものではない。

また、上述した各実施形態では、情報処理装置が、移動体である車両Ｖに搭載される車載装置１０であることとしたが、無論、移動体に搭載されるか否かを問わず、種々の設置環境に設けられるものであってもよい。たとえば、情報処理装置は、家庭に設けられるスマートスピーカであってもよい。

さらなる効果や変形例は、当業者によって容易に導き出すことができる。このため、本発明のより広範な態様は、以上のように表しかつ記述した特定の詳細および代表的な実施形態に限定されるものではない。したがって、添付の特許請求の範囲およびその均等物によって定義される総括的な発明の概念の精神または範囲から逸脱することなく、様々な変更が可能である。

１情報処理システム
１０車載装置
１３ａＶＵＩ制御部
１３ｂ取得部
１３ｃマスター制御部
１００音声アシスタントサーバ
Ｎネットワーク
ＳＰ入出力部
Ｕユーザ
Ｖ車両

Claims

複数の音声アシスタントを利用可能に設けられた情報処理装置であって、
ユーザの発話の内容に基づき、音声アシスタントそれぞれに対する発話指示を生成して音声アシスタントのサーバ装置へ送信するマスター制御部
を備えることを特徴とする情報処理装置。
前記マスター制御部は、
ユーザの発話の内容を保持しつつ、ユーザの発話の内容に基づいて自動的に発話指示を生成する
ことを特徴とする請求項１に記載の情報処理装置。
前記マスター制御部は、
発話指示および当該発話指示に対する応答の履歴を保持しつつ、当該履歴に基づいて発話指示を自動的に生成する
ことを特徴とする請求項１または２に記載の情報処理装置。
前記マスター制御部は、
ユーザの発話の内容、および、音声アシスタントそれぞれに関する情報を音声合成した音声データとして発話指示を自動的に生成する
ことを特徴とする請求項１、２または３に記載の情報処理装置。
前記マスター制御部は、
発話指示に対する応答に対し、ユーザから音声アシスタントを切り替える意思表示が示された場合に、当該応答を返した一の音声アシスタント以外の他の音声アシスタントへ向けた発話指示を生成する
ことを特徴とする請求項１〜４のいずれか一つに記載の情報処理装置。
前記マスター制御部は、
発話指示および当該発話指示に対する応答の履歴に基づく音声アシスタントごとの評価値に基づき、選択する音声アシスタントの優先順位を決定する
ことを特徴とする請求項１〜５のいずれか一つに記載の情報処理装置。
車両に搭載されることを特徴とする請求項１〜６のいずれか一つに記載の情報処理装置。
請求項１〜７のいずれか一つに記載の情報処理装置と、
前記サーバ装置と
を備えることを特徴とする情報処理システム。
複数の音声アシスタントを利用可能に設けられた情報処理装置を用いた情報処理方法であって、
ユーザの発話の内容に基づき、音声アシスタントそれぞれに対する発話指示を生成して音声アシスタントのサーバ装置へ送信するマスター制御工程
を含むことを特徴とする情報処理方法。