JP2020112732A

JP2020112732A - 情報処理装置および情報処理方法

Info

Publication number: JP2020112732A
Application number: JP2019004712A
Authority: JP
Inventors: 修久木元; Osamu Kukimoto; 龍也桑本; Tatsuya Kuwamoto
Original assignee: Denso Ten Ltd
Current assignee: Denso Ten Ltd
Priority date: 2019-01-15
Filing date: 2019-01-15
Publication date: 2020-07-27

Abstract

【課題】動的に状態が変化する移動体において、音声アシスタントを介し、移動体の状態に関連する各種情報の提供を受けること。【解決手段】実施形態に係る情報処理装置は、ユーザの発話指示に応じる音声アシスタントの機能を有し、移動体に搭載される情報処理装置であって、取得部と、変換部と、送信部とを備える。取得部は、移動体の状態に関する情報を取得する。変換部は、取得部によって取得された情報を音声データへ変換する。送信部は、変換部によって変換された音声データを音声アシスタントのサーバ装置へ送信する。【選択図】図２

Description

開示の実施形態は、情報処理装置および情報処理方法に関する。

従来、家庭等に設けられ、対話型の音声操作に対応した音声アシスタントの機能を有し、かかる音声アシスタントを介して、ユーザの発話指示に応じた各種情報の提供を行うスマートスピーカが知られている（たとえば、特許文献１参照）。

特開２０１８−１８２６９２号公報

しかしながら、上述した従来技術は、動的に状態が変化する車両において、音声アシスタントを介し、かかる車両の状態に関連する各種情報の提供を受けるうえで、さらなる改善の余地がある。

具体的には、家庭等で用いられるスマートスピーカにおいては、事前にテキスト入力された自宅住所等からスマートスピーカの状態の一つである位置が特定され、かかる静的な位置が、音声アシスタントを介した情報提供のための条件の一つとして反映されている。

今後、こうしたスマートスピーカのような、音声アシスタントを介した情報提供サービスが可能な情報処理装置は、車両にも搭載され、普及していくことが予想される。ただし、車両に搭載される場合、走行中は車両の状態が動的に変化するため、音声アシスタントに対し、かかる動的に変化する状態を車載システム側から入力する必要がある。

なお、かかる課題は、車両に限らず、ユーザが搭乗可能な移動体全般に共通する課題である。

実施形態の一態様は、上記に鑑みてなされたものであって、動的に状態が変化する移動体において、音声アシスタントを介し、移動体の状態に関連する各種情報の提供を受けることができる情報処理装置および情報処理方法を提供することを目的とする。

実施形態の一態様に係る情報処理装置は、ユーザの発話指示に応じる音声アシスタントの機能を有し、移動体に搭載される情報処理装置であって、取得部と、変換部と、送信部とを備える。前記取得部は、前記移動体の状態に関する情報を取得する。前記変換部は、前記取得部によって取得された情報を音声データへ変換する。前記送信部は、前記変換部によって変換された前記音声データを前記音声アシスタントのサーバ装置へ送信する。

実施形態の一態様によれば、動的に状態が変化する移動体において、音声アシスタントを介し、移動体の状態に関連する各種情報の提供を受けることができる。

図１Ａは、比較例に係る情報処理方法の概要説明図である。図１Ｂは、実施形態に係る情報処理方法の概要説明図である。図２は、実施形態に係る情報処理システムの構成例を示すブロック図である。図３Ａは、実施形態に係る車載装置の配置例を示す図である。図３Ｂは、実施形態に係る車載装置が実行する各処理の概要説明図である。図４Ａは、実施形態に係る取得部の処理説明図（その１）である。図４Ｂは、実施形態に係る取得部の処理説明図（その２）である。図４Ｃは、実施形態に係る取得部の処理説明図（その３）である。図４Ｄは、実施形態に係る取得部の処理説明図（その４）である。図４Ｅは、実施形態に係る取得部の処理説明図（その５）である。図４Ｆは、実施形態に係る取得部の処理説明図（その６）である。図４Ｇは、実施形態に係る取得部の処理説明図（その７）である。図４Ｈは、実施形態に係る取得部の処理説明図（その８）である。図５Ａは、実施形態に係る付与部の処理説明図（その１）である。図５Ｂは、実施形態に係る付与部の処理説明図（その２）である。図５Ｃは、実施形態に係る付与部の処理説明図（その３）である。図５Ｄは、実施形態に係る付与部の処理説明図（その４）である。図６は、実施形態に係る車載装置が実行する処理手順を示すフローチャートである。

以下、添付図面を参照して、本願の開示する情報処理装置および情報処理方法の実施形態を詳細に説明する。なお、以下に示す実施形態によりこの発明が限定されるものではない。

また、以下では、実施形態に係る情報処理装置が、車両Ｖに搭載され、カーナビゲーション機能等を有する車載装置１０である場合を例に挙げて説明を行う。

まず、実施形態に係る情報処理方法の概要について、図１Ａおよび図１Ｂを用いて説明する。図１Ａは、比較例に係る情報処理方法の概要説明図である。また、図１Ｂは、実施形態に係る情報処理方法の概要説明図である。

図１Ａに示すように、たとえば比較例に係る情報処理方法を適用した情報処理システム１’は、スマートスピーカＳＰ’と、音声アシスタントサーバ１００と、アプリサーバ２００とを含む。

スマートスピーカＳＰ’は、たとえばユーザの自宅Ｈ等に設けられ、対話型の音声操作に対応した音声アシスタントの機能を有する。音声アシスタントサーバ１００は、たとえばスピーカメーカがクラウドサーバとして提供する音声アシスタントのサーバ装置であり、インターネットや携帯電話回線網等であるネットワークＮを介してスマートスピーカＳＰ’と相互通信可能に設けられる。

音声アシスタントサーバ１００は、スマートスピーカＳＰ’から入力され、自然言語処理されたユーザの発話指示を音声認識し、かかる音声認識結果への応答の最適解をディープラーニング等により常に機械学習する。そして、音声アシスタントサーバ１００は、かかる機械学習結果に基づき、入力された発話指示に対する最適解をスマートスピーカＳＰ’へ応答する。

アプリサーバ２００は、たとえばクラウドサーバとして提供され、音声アシスタントサーバ１００がスマートスピーカＳＰ’への応答に際して必要となる種々のアプリケーション処理を実行するサーバ装置である。なお、ここでは、音声アシスタントサーバ１００およびアプリサーバ２００を１つずつ示したが、音声アシスタントの種々のプラットフォームに応じて、音声アシスタントサーバ１００およびアプリサーバ２００は複数設けられ、連携可能であってもよい。

このように構成された比較例に係る情報処理システム１’では、同図に「事前登録された静的な状態情報あり」として示すように、スマートスピーカＳＰ’は、たとえば事前にテキスト入力された自宅Ｈの住所等の静的な状態情報を有している。

そして、スマートスピーカＳＰ’は、「当該状態情報に基づくサービス提供要求」、すなわちユーザの発話指示へ当該状態情報を反映しつつ音声アシスタントサーバ１００へ送信し、かかる要求に対する応答としての「サービス提供」を受けることとなる。

ところで、こうした音声アシスタントを介した情報提供サービスが可能なスマートスピーカＳＰ’のような情報処理装置は、車両Ｖにも搭載され、今後普及していくことが予想される。

ここで、図１Ｂに示すように、車両Ｖに搭載された車載装置１０は、入出力部ＳＰを有するものとする。入出力部ＳＰは、後述するマイク２および出力部４（図２参照）を有しており、車載装置１０は、かかる入出力部ＳＰを介して、ユーザの発話指示を受け付け、かかる発話指示に対する応答であるサービス提供を受けるものとする。

ただし、車両Ｖは、移動体である。したがって、走行中は、状態情報が動的に変化することとなる（図中の事象Ｅ１）。このため、図１Ａに示した比較例に係るスマートスピーカＳＰ’の静的な状態情報をサービス提供要求に反映させる技術は利用することができない。また、音声アシスタントは、対話型の音声操作に対応したバーチャルアシスタントであり、一般に音声入力以外の入力インタフェースを有していない。

そこで、実施形態に係る情報処理方法では、車両Ｖの状態に関する情報を取得し、取得した状態に関する情報を音声データへ変換するとともに、変換した音声データを音声アシスタントサーバ１００へ送信することとした。

具体的には、図１Ｂに示すように、実施形態に係る情報処理方法では、情報処理システム１の車載装置１０が、動的に変化する車両Ｖの状態に関する状態情報を取得する（ステップＳ１）。

そして、車載装置１０は、取得した状態情報を音声データ化して、サービス提供要求に付与する（ステップＳ２）。すなわち、車載装置１０は、取得した状態情報を音声データに変換し、変換した音声データを、ユーザの発話指示に付与して音声アシスタントサーバ１００へ送信する。

これにより、音声アシスタントサーバ１００は、音声データとしての状態情報が付与された発話指示を受け付け、これを音声認識し、かかる音声認識結果への応答としてのサービス提供を行うこととなる。

したがって、実施形態に係る情報処理方法によれば、動的に状態が変化する車両Ｖにおいて、音声アシスタントを介し、かかる車両Ｖの状態に関連する各種情報の提供を受けることができる。以下、実施形態に係る情報処理方法を適用した情報処理システム１の構成例について、より具体的に説明する。

図２は、実施形態に係る情報処理システム１の構成例を示すブロック図である。なお、図２では、実施形態の特徴を説明するために必要な構成要素のみを表しており、一般的な構成要素についての記載を省略している。

換言すれば、図２に図示される各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。例えば、各ブロックの分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することが可能である。

また、図２を用いた説明では、既に説明済みの構成要素については、説明を簡略するか、省略する場合がある。

図２に示すように、実施形態に係る情報処理システム１は、車載装置１０と、音声アシスタントサーバ１００とを含む。なお、ここでは、音声アシスタントサーバ１００は、たとえばプラットフォームの異なる複数の音声アシスタントサーバ１００−１，１００−２，１００−３，…を含むものとする。また、図１Ｂに示したアプリサーバ２００については図示を省略している。

車載装置１０は、通信部１１と、記憶部１２と、制御部１３とを備える。通信部１１は、たとえば、ＮＩＣ（Network Interface Card）等によって実現される。通信部１１は、ネットワークＮと無線で接続され、ネットワークＮを介して、音声アシスタントサーバ１００やアプリサーバ２００との間で情報の送受信を行う。

記憶部１２は、たとえば、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現され、図２の例では、音声認識モデル１２ａと、ナビ情報１２ｂと、オーディオ情報１２ｃと、ユーザ情報１２ｄとを記憶する。

音声認識モデル１２ａは、後述する音声認識部１３ａが実行する音声認識処理に用いられる言語モデルであって、たとえば隠れマルコフモデル等である。ナビ情報１２ｂは、車載装置１０が有するカーナビゲーション機能に関する情報であって、たとえばユーザにより設定された目的地や経由地、ルート情報、走行中の道路種別等を含む。

オーディオ情報１２ｃは、車載装置１０に保持されている楽曲データに関する情報であり、楽曲のアーティスト名や、再生履歴等を含む。ユーザ情報１２ｄは、車両Ｖに搭乗中のユーザに関する情報であり、たとえばユーザの嗜好を示す情報や、過去の行動情報等を含む。

制御部１３は、コントローラ（controller）であり、たとえば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって、車載装置１０内部の記憶デバイスに記憶されている各種プログラムがＲＡＭを作業領域として実行されることにより実現される。また、制御部１３は、たとえば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現することができる。

制御部１３は、音声認識部１３ａと、取得部１３ｂと、変換部１３ｃと、付与部１３ｄと、送信部１３ｅと、受信部１３ｆと、提供部１３ｇとを有し、以下に説明する情報処理の機能や作用を実現または実行する。

音声認識部１３ａは、マイク２から入力される音声の音声認識処理を実行する。具体的には、音声認識部１３ａは、所定のウェイクワードを検知する。ウェイクワードは、音声アシスタント機能を呼び出すトリガとなる音声コマンドであり、音声認識部１３ａは、常時かかるウェイクワードを検知する待機状態となっている。

音声認識部１３ａは、かかるウェイクワードを検知すると、これに続くユーザの発話区間を発話指示として抽出する。また、音声認識部１３ａは、抽出した発話指示を音声認識モデル１２ａを用いて自然文による命令として解釈する。

また、音声認識部１３ａは、解釈した発話指示の内容に応じて、取得部１３ｂに、車両Ｖの状態に関する情報を取得させる。かかる点の具体例については、図４Ａ〜図４Ｈを用いた説明で後述する。また、音声認識部１３ａは、発話指示として抽出した発話区間の音声データを付与部１３ｄへ渡す。

取得部１３ｂは、車両Ｖの状態に関する情報を取得する。たとえば取得部１３ｂは、車両Ｖに搭載された各種センサ３に含まれるＧＰＳ（Global Positioning System）センサから車両Ｖの現在地の位置情報を取得する。また、たとえば取得部１３ｂは、ナビ情報１２ｂから車両Ｖの目的地や経由地等の位置情報を取得する。

また、各種センサ３には、搭乗者を検出および識別するためのカメラや認証センサ、外気温を検出する気温センサ、燃料タンクの残量センサ、車両Ｖの制御状態を検出するためのＥＣＵ（Electronic Control Unit）モニタ等が含まれている。取得部１３ｂは、こうした各種センサ３の検出結果に基づいて、車両Ｖに関する各種の状態情報を取得する。

また、取得部１３ｂは、取得した状態情報を変換部１３ｃへ渡す。変換部１３ｃは、取得部１３ｂから渡された状態情報を音声データへ変換する。また、変換部１３ｃは、変換した音声データを付与部１３ｄへ渡す。

付与部１３ｄは、変換部１３ｃから渡された状態情報の音声データを、音声認識部１３ａから渡された発話指示へ付与する。また、付与部１３ｄは、状態情報の音声データが付与された発話指示を送信部１３ｅへ渡す。

送信部１３ｅは、付与部１３ｄによって状態情報の音声データが付与された発話指示を、通信部１１を介して音声アシスタントサーバ１００へ送信する。

なお、このとき、送信部１３ｅは、送信する発話指示に応じて、音声アシスタントサーバ１００−１，１００−２，１００−３，…を連携させる送信制御をあわせて行う。かかる連携では、たとえば送信部１３ｅは、発話指示の受付順や優先順に応じた送信順序の調停等を行う。

受信部１３ｆは、発話指示に対する音声アシスタントサーバ１００からの応答を通信部１１を介して受信する。また、受信部１３ｆは、受信した応答を提供部１３ｇへ渡す。提供部１３ｇは、受信部１３ｆから渡された応答を、出力部４からユーザに向け出力させる。

ここで、図２を用いて説明した内容について、図３Ａ〜図５Ｄを参照しつつより具体的に説明する。図３Ａは、実施形態に係る車載装置１０の配置例を示す図である。また、図３Ｂは、実施形態に係る車載装置１０が実行する各処理の概要説明図である。

また、図４Ａ〜図４Ｈは、実施形態に係る取得部１３ｂの処理説明図（その１）〜（その８）である。また、図５Ａ〜図５Ｄは、実施形態に係る付与部１３ｄの処理説明図（その１）〜（その４）である。

まず、図３Ａに示すように、実施形態に係る車載装置１０の本体部は、たとえば車両Ｖのダッシュボードの内部等に設けられる。また、マイク２および出力部４を含む実施形態に係る車載装置１０の入出力部ＳＰは、ユーザＵの着座する運転席付近、たとえばダッシュボードの上部等に設けられる。

そして、図３Ｂに示すように、ユーザＵが、前述のウェイクワードの発話を経て、「○○して」といった発話を行うと、音声認識部１３ａが、マイク２から入力されたかかる発話の発話区間を、「○○して」との発話指示として抽出する。そして、音声認識部１３ａは、かかる発話指示の音声データを付与部１３ｄへ渡す。

一方で、取得部１３ｂは、車両Ｖの状態情報を取得する。ここでは、同図に示すように、「神戸市兵庫区…」とのテキストデータとして車両Ｖの位置情報を、状態情報の一つとして取得したものとする。すると、変換部１３ｃは、かかる「神戸市兵庫区…」のテキストデータを音声データへ変換し、付与部１３ｄへ渡す。

そして、付与部１３ｄは、変換部１３ｃから渡された「神戸市兵庫区…」の音声データを、音声認識部１３ａから渡された「○○して」との音声データへ付与して、音声アシスタントサーバ１００側へ渡すこととなる。

ところで、取得部１３ｂは、車両Ｖの状態情報を、音声認識部１３ａが解釈した発話指示の内容に応じて取得することができる。図４Ａに示すように、ユーザＵが、「近くのコンビニ探して」といった発話指示を行ったものとする。

ここで、たとえば「近くのコンビニ探して」には、「近くの」といった車両Ｖの位置に関する要素が含まれている。かかる場合、取得部１３ｂは、状態情報の一つとして、各種センサ３から車両Ｖの現在地の位置情報を取得し、発話指示にはかかる現在地の位置情報が付与される。これにより、音声アシスタントサーバ１００は、かかる現在地の近くのコンビニを探索して、探索結果を応答として車載装置１０へ返すこととなる。

一方で、図４Ｂに示すように、ユーザＵが、「目的地周辺の駐車場探して」といった発話指示を行ったものとする。

ここで、かかる発話指示には、「目的地」という車両Ｖの位置に関する要素が含まれている。かかる場合、取得部１３ｂは、状態情報の一つとして、ナビ情報１２ｂから車両Ｖの目的地の位置情報を取得し、発話指示にはかかる目的地の位置情報が付与される。これにより、音声アシスタントサーバ１００は、かかる目的地周辺の駐車場を探索して、探索結果を応答として車載装置１０へ返すこととなる。

このように取得部１３ｂが、ユーザＵの発話指示に応じた車両Ｖの位置情報を取得することで、効率よく適正に、音声アシスタントのサービス提供を受けることが可能となる。

なお、音声アシスタントサーバ１００は、たとえばプラットフォームの異なる音声アシスタントサーバ１００−１，１００−２，１００−３，…において、それぞれ状態情報の認識方法が異なることが考えられる。図４Ａおよび図４Ｂと同様に、状態情報の一つとして位置情報を例に挙げて説明する。こうした場合、図４Ｃに示すように、取得部１３ｂは、たとえば同一地点を示す位置情報につき、音声アシスタントに応じて、音声変換前の位置情報の内容を変更することができる。

図４Ｃには、取得部１３ｂが、たとえば音声アシスタントサーバ１００−１に対しては、位置情報を「神戸市兵庫区…」の住所表記の内容とする例を示している。また、たとえば音声アシスタントサーバ１００−２に対しては、位置情報を緯度および経度の内容とする例を示している。また、たとえば音声アシスタントサーバ１００−３に対しては、位置情報を郵便番号を含む住所表記の内容とする例を示している。

これにより、音声アシスタントサーバ１００の各種プラットフォーム、言い換えれば、音声アシスタントの種別に応じた適正な位置情報の受け渡しを行うことができる。すなわち、音声アシスタントの種別に応じた適正なサービス提供を受けることが可能となる。

なお、ここでは、音声アシスタントサーバ１００のそれぞれに適した内容へ位置情報を変更することとしたが、取得部１３ｂが取得した、同一地点を示す複数の位置情報の内容すべてを、発話指示に付与して送信部１３ｅに送信させることとしてもよい。

かかる場合、音声アシスタントの種別に応じた位置情報を選択する必要がなくなるので、処理の効率化を図ることが可能となる。

また、図４Ｄに示すように、ユーザＵが、「おすすめの音楽をかけて」といった発話指示を行ったものとする。かかる場合、取得部１３ｂは、各種センサ３、ナビ情報１２ｂ、オーディオ情報１２ｃおよびユーザ情報１２ｄから、状態情報として、「１．経由地」、「２．走行中の道路種別」、「３．アーティスト名」、「４．再生履歴」、「５．搭乗中のユーザ情報」等の組み合わせを取得する。「２．走行中の道路種別」は、たとえば一般道や高速道といった種別であり、「０」や「１」といった記号で表してもよい。

なお、「１．経由地」、「２．走行中の道路種別」等は、これから向かう場所に適した楽曲を音声アシスタントサーバ１００に提案させる場合に有効である。また、「３．アーティスト名」、「４．再生履歴」等は、履歴から好みの楽曲のプレイリストを音声アシスタントサーバ１００に提案させる場合に有効である。

また、図４Ｅに示すように、ユーザＵが、「おすすめのお店を教えて」といった発話指示を行ったものとする。かかる場合、取得部１３ｂは、各種センサ３、ナビ情報１２ｂ、ユーザ情報１２ｄおよびユーザＵのスマートフォン５０等から、状態情報として、「１．目的地＆履歴」、「２．経由地＆履歴」、「３．搭乗中のユーザ情報」、「４．外気温」、「５．燃料残量」、「６．利用中のクーポンアプリ」等の組み合わせを取得する。

なお、「４．外気温」等は、気候の寒暖に応じた食事を音声アシスタントサーバ１００に提案させる場合に有効である。また、「５．燃料残量」等は、食事とともに給油もできる場所を音声アシスタントサーバ１００に提案させる場合に有効である。また、「６．利用中のクーポンアプリ」等は、いつも使っているクーポンアプリのクーポンが使える店を音声アシスタントサーバ１００に提案させる場合に有効である。

また、図４Ｆに示すように、ユーザＵが、「お天気を教えて」といった発話指示を行ったものとする。かかる場合、取得部１３ｂは、各種センサ３およびナビ情報１２ｂ等から、状態情報として、「１．現在地」、「２．目的地＋到着予想時刻」、「３．目的地＋到着予想時刻」、「４．外気温」等の組み合わせを取得する。

なお、「１．現在地」、「２．目的地＋到着予想時刻」、「３．目的地＋到着予想時刻」は、現在地、経由地および目的地の天気をまとめて音声アシスタントサーバ１００に提示させる場合に有効である。「４．外気温」は、寒い時に音声アシスタントサーバ１００に路面凍結情報等を提示させる場合に有効である。

また、図４Ｇに示すように、ユーザＵが、「ニュースを教えて」といった発話指示を行ったものとする。かかる場合、取得部１３ｂは、各種センサ３、ナビ情報１２ｂおよびユーザ情報１２ｄ等から、状態情報として、「１．目的地＆履歴」、「２．経由地＆履歴」、「３．走行中の道路種別」、「４．搭乗中のユーザ情報」等の組み合わせを取得する。

なお、「１．目的地＆履歴」、「２．経由地＆履歴」および「３．走行中の道路種別」は、行き先に関する情報を音声アシスタントサーバ１００に提示させる場合に有効である。「履歴」は、行き先を推定させる場合に用いることができる。「４．搭乗中のユーザ情報」は、ユーザＵの好みのニュースを音声アシスタントサーバ１００に提示させる場合に有効である。

また、図４Ｈに示すように、ユーザＵが、「退屈なんだけど、何かない？」といった発話指示を行ったものとする。かかる場合、取得部１３ｂは、各種センサ３、ナビ情報１２ｂおよびユーザ情報１２ｄ等から、状態情報として、「１．経由地」、「２．走行中の道路種別」、「３．搭乗中のユーザ情報」、「４．搭乗者数」、「５．車両制御状態」等の組み合わせを取得する。

なお、「１．経由地」、「２．走行中の道路種別」および「５．車両制御状態」は、運転負荷を推定して音声アシスタントサーバ１００にゲームを提案させる場合に有効である。たとえば、「５．車両制御状態」が、アダプティブクルーズコントロールがオンであることや、自動運転制御中であることを示す場合、音声アシスタントサーバ１００は難易度の高いゲームを提案することが可能となる。また、「４．搭乗者数」は、参加できる人数に応じて音声アシスタントサーバ１００にゲームを提案させる場合に有効である。

次に、付与部１３ｄは、上述したように、変換部１３ｃによって変換された状態情報の音声データを発話指示へ付与するが、図５Ａに示すように、発話指示の前方（時間的に発話指示より前）に付与することができる。

また、図５Ｂに示すように、付与部１３ｄは、状態情報の音声データを、発話指示の後方（時間的に発話指示より後）に付与してもよい。なお、発話指示の後方に付与する場合、ユーザＵの発話が終了してから付与することとなるので、処理の高速化の観点からは、付与部１３ｄは、状態情報の音声データを発話指示の前方に付与する方が好ましい。

また、図５Ｃに示すように、付与部１３ｄは、状態情報の音声データを付与するに際して、発話指示との間に、無音区間Ｓｉを設けることが好ましい。これにより、音声アシスタントサーバ１００が発話区間を抽出するに際して、状態情報と発話指示とを明確に区別でき、音声アシスタントサーバ１００側において意図通りに音声認識がなされるように支援することができる。

なお、音声アシスタントサーバ１００は、たとえばプラットフォームの異なる音声アシスタントサーバ１００−１，１００−２，１００−３，…においては、発話区間の抽出を含む音声認識機能の仕様も異なることが考えられる。こうした場合、図５Ｄに示すように、付与部１３ｄは、音声アシスタントに応じて、無音区間Ｓｉの長さを変更することができる。

図５Ｄには、付与部１３ｄが、たとえば音声アシスタントサーバ１００−１に対しては無音区間Ｓｉ−１を設定し、音声アシスタントサーバ１００−２に対しては無音区間Ｓｉ−２を設定し、音声アシスタントサーバ１００−３に対しては無音区間Ｓｉ−３を設定する例を示している（Ｓｉ−１≠Ｓｉ−２≠Ｓｉ−３）。

これにより、音声アシスタントサーバ１００の各種プラットフォーム、言い換えれば、音声アシスタントの種別に応じた音声認識の適正化を図ることができる。すなわち、音声アシスタントの種別に応じた、精度のよい適正なサービス提供を受けることが可能となる。

なお、図５Ａ〜図５Ｄでは、状態情報と発話指示との間に無音区間Ｓｉを設けることとしたが、状態情報が複数の要素からなるならば、各要素間にも無音区間Ｓｉを設けることが好ましい。ここで、状態情報の要素とは、たとえば図４Ｄ〜図４Ｈに「１．…」、「２．…」のように示した、状態情報の組み合わせの要素のことである。かかる要素間への無音区間Ｓｉの設定は、たとえば変換部１３ｃが、取得部１３ｂから渡された状態情報を音声データへ変換する際に行うようにしてもよい。

次に、実施形態に係る車載装置１０が実行する処理手順について、図６を用いて説明する。図６は、実施形態に係る車載装置１０が実行する処理手順を示すフローチャートである。なお、ここでは、ウェイクワードの検知を経た後、１つの発話指示が音声アシスタントサーバ１００へ送信されるまでの処理手順を示している。

まず、音声認識部１３ａが、ユーザＵの発話指示を音声認識する（ステップＳ１０１）。そして、取得部１３ｂは、車両Ｖの状態情報を取得する（ステップＳ１０２）。

つづいて、変換部１３ｃは、取得部１３ｂによって取得された状態情報を音声データへ変換する（ステップＳ１０３）。そして、付与部１３ｄが、変換後の状態情報を発話指示へ付与する（ステップＳ１０４）。

そして、送信部１３ｅが、状態情報の付与された発話指示を音声アシスタントサーバ１００へ送信し（ステップＳ１０５）、処理を終了する。

上述してきたように、実施形態に係る車載装置１０（「情報処理装置」の一例に相当）は、ユーザＵの発話指示に応じる音声アシスタントの機能を有し、車両Ｖ（「移動体」の一例に相当）に搭載される車載装置１０であって、取得部１３ｂと、変換部１３ｃと、送信部１３ｅとを備える。取得部１３ｂは、車両Ｖの状態に関する情報を取得する。変換部１３ｃは、取得部１３ｂによって取得された情報を音声データへ変換する。送信部１３ｅは、変換部１３ｃによって変換された音声データを音声アシスタントサーバ１００（「音声アシスタントのサーバ装置」の一例に相当）へ送信する。

したがって、実施形態に係る車載装置１０によれば、動的に状態が変化する車両Ｖにおいて、音声アシスタントを介し、かかる車両Ｖの状態に関連する各種情報の提供を受けることができる。

また、実施形態に係る車載装置１０は、付与部１３ｄをさらに備える。付与部１３ｄは、上記音声データを発話指示へ付与する。また、送信部１３ｅは、付与部１３ｄによって上記音声データが付与された発話指示を音声アシスタントサーバ１００へ送信する。

したがって、実施形態に係る車載装置１０によれば、音声入力以外の入力インタフェースを持たない音声アシスタントに対し、発話指示とともに車両Ｖの状態に関する情報を入力することができる。

また、付与部１３ｄは、上記音声データを発話指示の前方に付与する。したがって、実施形態に係る車載装置１０によれば、ユーザＵの発話の終了を待たずに上記音声データを付与することができ、処理の高速化を図ることができる。

また、付与部１３ｄは、上記音声データと発話指示との間に無音区間Ｓｉを設ける。したがって、実施形態に係る車載装置１０によれば、音声アシスタントサーバ１００が発話区間を抽出するに際して、状態情報と発話指示とを明確に区別でき、音声アシスタントサーバ１００側において意図通りに音声認識がなされるのを支援することができる。

また、取得部１３ｂは、車両Ｖに搭載された各種センサ３の検出結果、車両Ｖのナビゲーションに関する情報、車両Ｖに保持されている楽曲データに関する情報、および、車両Ｖに搭乗中のユーザＵに関する情報の少なくともいずれかに基づいて、車両Ｖの状態に関する情報を取得する。したがって、実施形態に係る車載装置１０によれば、車両Ｖの位置や走行状態だけでなく、楽曲や、ユーザＵの嗜好、行動履歴等に関連した音声指示までもが可能となるので、ユーザＵに対し、音声アシスタントを介した満足度の高いサービス提供を行うことが可能となる。

なお、上述した実施形態では、ユーザＵが、車両Ｖの運転席に着座するドライバである場合を例に挙げたが、ユーザの一例であって、車両Ｖに搭乗するドライバ以外の搭乗者であってもよい。したがって、入出力部ＳＰの配置位置もダッシュボードの上部等に限られるものではない。

また、上述した実施形態では、移動体は車両Ｖであることとしたが、発話指示を行うユーザＵが搭乗可能な移動体であれば、無論、車両Ｖに限られるものではない。

さらなる効果や変形例は、当業者によって容易に導き出すことができる。このため、本発明のより広範な態様は、以上のように表しかつ記述した特定の詳細および代表的な実施形態に限定されるものではない。したがって、添付の特許請求の範囲およびその均等物によって定義される総括的な発明の概念の精神または範囲から逸脱することなく、様々な変更が可能である。

１情報処理システム
１０車載装置
１３ａ音声認識部
１３ｂ取得部
１３ｃ変換部
１３ｄ付与部
１３ｅ送信部
１３ｆ受信部
１３ｇ提供部
１００音声アシスタントサーバ
Ｈ自宅
Ｎネットワーク
ＳＰ入出力部
Ｓｉ無音区間
Ｕユーザ
Ｖ車両

Claims

ユーザの発話指示に応じる音声アシスタントの機能を有し、移動体に搭載される情報処理装置であって、
前記移動体の状態に関する情報を取得する取得部と、
前記取得部によって取得された情報を音声データへ変換する変換部と、
前記変換部によって変換された前記音声データを前記音声アシスタントのサーバ装置へ送信する送信部と
を備えることを特徴とする情報処理装置。
前記音声データを前記発話指示へ付与する付与部
をさらに備え、
前記送信部は、
前記付与部によって前記音声データが付与された前記発話指示を前記サーバ装置へ送信する
ことを特徴とする請求項１に記載の情報処理装置。
前記付与部は、
前記音声データを前記発話指示の前方に付与する
ことを特徴とする請求項２に記載の情報処理装置。
前記付与部は、
前記音声データと前記発話指示との間に無音区間を設ける
ことを特徴とする請求項２または３に記載の情報処理装置。
前記移動体は、車両である
ことを特徴とする請求項１〜４のいずれか一つに記載の情報処理装置。
前記取得部は、
前記車両に搭載された各種センサの検出結果、前記車両のナビゲーションに関する情報、前記車両に保持されている楽曲データに関する情報、および、前記車両に搭乗中のユーザに関する情報の少なくともいずれかに基づいて、前記車両の状態に関する情報を取得する
ことを特徴とする請求項５に記載の情報処理装置。
ユーザの発話指示に応じる音声アシスタントの機能を有し、移動体に搭載される情報処理装置を用いた情報処理方法であって、
前記移動体の状態に関する情報を取得する取得工程と、
前記取得工程によって取得された情報を音声データへ変換する変換工程と、
前記変換工程によって変換された前記音声データを前記音声アシスタントのサーバ装置へ送信する送信工程と
を含むことを特徴とする情報処理方法。