JP2019212168A

JP2019212168A - 音声認識システムおよび情報処理装置

Info

Publication number: JP2019212168A
Application number: JP2018109707A
Authority: JP
Inventors: 鈴木　秀伸; Hidenobu Suzuki; 秀伸鈴木; 真眞鍋; Makoto Manabe
Original assignee: Denso Corp; Toyota Motor Corp
Current assignee: Denso Corp; Toyota Motor Corp
Priority date: 2018-06-07
Filing date: 2018-06-07
Publication date: 2019-12-12
Also published as: WO2019234486A1; WO2019234486A8

Abstract

【課題】発話したユーザの位置に応じて、認識し易い方法で応答する音声認識システムおよび情報処理装置を提供する。【解決手段】音声認識システム１は、互いに通信可能な情報処理装置１０およびサーバ２０を備え、情報処理装置１０は、音声信号の入力元の位置を特定する位置特定部１６１と、複数の出力装置を備える出力部１３と、を備え、サーバ２０は、音声信号に対して音声認識を行う音声認識部２３１と、音声認識の内容に対する応答を生成する応答生成部２３２と、位置特定部によって特定された位置に基づいて複数の出力装置から応答を出力する出力装置を選択する対話制御部２３３と、を備える。【選択図】図１

Description

本開示は、音声認識システムおよび情報処理装置に関する。

従来、各座席の乗員の発話をマイク（マイクロフォン）で取得し、音声認識を行う車両用の音声認識システムが存在する。例えば、特許文献１に記載されたシステムは、各乗員の発話をディスプレイに表示する。そのため、特許文献１に記載されたシステムは、乗員が他の乗員の発言を確認することを可能にし、円滑な車内の会話を支援する。

特開２０１４−１７０１５４号公報特開２０１０−０４７０９３号公報特開２００３−３４５３８９号公報

ここで、特許文献１に記載されたシステムでは、ディスプレイの数および配置場所が限られている場合に、座席ごとの見易さを考慮するものではない。また、特許文献２は、音声信号の入力元の座席を特定し、座席ごとの音響制御を実行する音声認識処理装置を開示する。また、特許文献３は、発話した乗員の座席に応じて音声認識辞書を切り替えて、音声入力操作を容易にする音声認識装置を開示する。しかし、特許文献２および特許文献３の技術は、ディスプレイの数および配置場所が限られている場合に、座席ごとのディスプレイの見易さ等を考慮するものではない。

かかる事情に鑑みてなされた本開示の目的は、発話したユーザの位置に応じて、認識し易い方法で応答する音声認識システムおよび情報処理装置を提供することにある。

本開示の一実施形態に係る音声認識システムは、互いに通信可能な情報処理装置およびサーバを備える音声認識システムである。前記情報処理装置は、音声信号の入力元の位置を特定する位置特定部と、複数の出力装置を備える出力部と、を備える。前記サーバは、前記音声信号に対して音声認識を行う音声認識部と、前記音声認識の内容に対する応答を生成する応答生成部と、前記位置特定部によって特定された位置に基づいて前記複数の出力装置から前記応答を出力する出力装置を選択する対話制御部と、を備える。

本開示の一実施形態に係る情報処理装置は、音声信号の入力元の位置を特定する位置特定部と、複数の出力装置を備える出力部と、前記音声信号に対して音声認識を行う音声認識部と、前記音声認識の内容に対する応答を生成する応答生成部と、前記位置特定部によって特定された位置に基づいて前記複数の出力装置から前記応答を出力する出力装置を選択する対話制御部と、を備える。

本開示の一実施形態に係る音声認識システムおよび情報処理装置によれば、発話したユーザの位置に応じて、認識し易い方法で応答することができる。

音声認識システムの概略構成を示す図である。音声認識システムの概略構成を示す別の図である。車両の入出力装置の配置例を示す図である。前席の乗員に対する応答例を示す図である。後席の乗員に対する応答例を示す図である。情報処理装置の動作（制御方法）を示すフローチャートである別の情報処理装置の概略構成を示す図である。

（音声認識システム）
図１は、本開示の一実施形態に係る音声認識システム１の概略構成を示す図である。音声認識システム１は、情報処理装置１０と、サーバ２０と、を備える。

本実施形態において、情報処理装置１０は車両に搭載される車載装置である。本実施形態において、車両は自動車である。車載装置は、例えばナビゲーション装置等である。ここで、情報処理装置１０は、ユーザによって使用されるその他の装置であり得る。また、車両は自動車に限られない。

サーバ２０は、１つまたは互いに通信可能な複数のサーバ装置で構成され得る。サーバ２０は、１以上の車両に搭載された情報処理装置１０と通信を行う。サーバ２０は、例えば車両に関する情報を収集および解析する情報センターに設置される。

音声認識システム１において、サーバ２０は、情報処理装置１０とネットワークを介して通信可能に接続される。つまり、情報処理装置１０とサーバ２０とは互いに通信可能である。ネットワークは、例えばインターネットを含むが、任意の他のネットワークを含んでよい。

（情報処理装置）
図１に示すように、情報処理装置１０は、入力部１２と、出力部１３と、通信部１４と、記憶部１５と、制御部１６と、を備える。

入力部１２は、ユーザによる入力を受け付ける１つ以上の入力インタフェースを含む。入力インタフェースは例えば入力装置で構成される。本実施形態において、入力部１２は、前席マイク１２１と、後席マイク１２２と、タッチパネル１２３と、を含む。ここで、別の例として、入力部１２は、文字入力を受け付けるキーボードを含み得る。

前席マイク１２１は、情報処理装置１０が搭載された車両の前席（助手席および運転席）の近くに設けられるマイクである。前席マイク１２１は、前席側のドア（フロントドア）に設けられてよい。また、後席マイク１２２は、車両の後席の近くに設けられるマイクである。後席マイク１２２は、後席側のドア（リヤドア）に設けられてよい。前席マイク１２１および後席マイク１２２はユーザの音声入力を受け付ける。本実施形態において、ユーザは車両の乗員である。

タッチパネル１２３は、ユーザの接触による入力を受け付ける。本実施形態において、タッチパネル１２３は、ディスプレイ１３３と一体となってタッチパネルディスプレイを構成する。また、本実施形態において、タッチパネルディスプレイは、車両のダッシュボードに設けられる。

出力部１３は、ユーザに情報を出力する１つ以上の出力インタフェースを含む。出力インタフェースは例えば出力装置で構成される。本実施形態において、出力部１３は、前席スピーカ１３１と、後席スピーカ１３２と、ディスプレイ１３３と、を含む。

前席スピーカ１３１は、車両の前席の近くに設けられるスピーカである。前席スピーカ１３１は、フロントドアに設けられてよい。また、後席スピーカ１３２は、車両の後席の近くに設けられるスピーカである。後席スピーカ１３２は、リヤドアに設けられてよい。前席スピーカ１３１および後席スピーカ１３２はユーザに音声情報を出力する。

ディスプレイ１３３は情報を表示する装置である。ディスプレイ１３３は、例えば液晶パネルおよび有機ＥＬ（Electro Luminescence）パネル等のフラットパネルディスプレイであり得る。上記のように、本実施形態において、ディスプレイ１３３とタッチパネル１２３とが一体となったタッチパネルディスプレイは、車両のダッシュボードに設けられる。

通信部１４は、１つ以上の通信インタフェースを含む。通信部１４は、４Ｇ（4th Generation）等のモバイル通信規格、有線ＬＡＮ（Local Area Network）規格および無線ＬＡＮ規格等のそれぞれに対応する通信インタフェースを含み得る。また、通信部１４は、ＣＡＮ（Controller Area Network）の通信インタフェースを含み得る。通信部１４は、ＣＡＮ経由で、車両の速度または燃料残量等の車両情報を車両のＥＣＵ（Electronic Control Unit、電子制御ユニット）から受信できる。また、通信部１４は、ＧＰＳ（Global Positioning System）衛星からの信号（ＧＰＳ信号）を受信し得る。

本実施形態において、通信部１４は、サーバ２０のサーバ通信部２１との通信を行う。通信部１４は、後述する位置特定部１６１が特定した音声信号の入力元の位置をサーバ２０に送信する。音声信号の入力元の位置は、例えば発話した乗員の座席である。また、通信部１４は、後述する機器構成情報１５１をサーバ２０に送信する。また、通信部１４は、タッチパネル１２３が取得したユーザの指示をサーバ２０に送信し得る。ユーザの指示は、例えば応答を出力する出力装置を指定する内容であり得る。また、通信部１４は、後述する応答生成部２３２によって生成された応答を、サーバ２０から受信する。また、通信部１４は、後述する対話制御部２３３によって選択された出力装置の情報を、サーバ２０から受信し得る。

記憶部１５は、１つ以上のメモリを含む。メモリは、例えば半導体メモリ、磁気メモリ、および光メモリ等を含んでよい。記憶部１５に含まれる各メモリは、例えば主記憶装置、補助記憶装置、またはキャッシュメモリとして機能してよい。記憶部１５は、情報処理装置１０の動作に用いられる任意の情報を記憶する。

本実施形態において、記憶部１５は、機器構成情報１５１を記憶する。機器構成情報１５１は、入力装置および出力装置の位置を、車両の各座席と関連付けた情報である。言い換えると、機器構成情報１５１は、各座席の近くに設けられた入出力機器を示す情報である。機器構成情報１５１の具体例については後述する。また、記憶部１５は、タッチパネル１２３が取得したユーザの指示を記憶し得る。

制御部１６は、１つ以上のプロセッサを含む。プロセッサは、例えば汎用のプロセッサ、および特定の処理に特化した専用のプロセッサを含んでよい。例えば制御部１６はＣＰＵ（Central Processing Unit）であり得る。制御部１６は、情報処理装置１０の全体の動作を制御する。本実施形態において、制御部１６は、位置特定部１６１、表示出力制御部１６２、音声入力制御部１６３、音声出力制御部１６４および入出力制御部１６５を備える。

位置特定部１６１は、音声信号の入力元の位置を特定する。本実施形態において、音声信号は、車両の乗員が発した音声を信号化したものである。また、本実施形態において、入力元の位置は、発話した乗員の座席である。位置特定部１６１は、前席マイク１２１および後席マイク１２２からの音声信号に基づいて、発話した乗員の座席を判定する。

表示出力制御部１６２は、ディスプレイ１３３に情報を表示させる。

音声入力制御部１６３は、前席マイク１２１および後席マイク１２２の動作を制御する。本実施形態において、音声入力制御部１６３は、前席マイク１２１および後席マイク１２２を動作させて、車両の乗員が発した音声を取得する。また、音声入力制御部１６３は、取得した発話を信号化して例えば位置特定部１６１および入出力制御部１６５に出力する。

音声出力制御部１６４は、前席スピーカ１３１および後席スピーカ１３２の動作（音声出力）を制御する。

入出力制御部１６５は、音声認識および応答生成の処理におけるサーバ２０との通信を制御する。例えば、入出力制御部１６５は、通信部１４に、音声信号の入力元の位置をサーバ２０へ送信させる。また、例えば、入出力制御部１６５は、通信部１４に、機器構成情報１５１をサーバ２０へ送信させる。また、例えば、入出力制御部１６５は、通信部１４に、サーバ２０が生成した応答を取得させる。

（サーバ）
図１に示すように、サーバ２０は、サーバ通信部２１と、サーバ記憶部２２と、サーバ制御部２３と、を備える。

サーバ通信部２１は、１つ以上の通信インタフェースを含む。サーバ通信部２１は、４Ｇ等のモバイル通信規格、有線ＬＡＮ規格および無線ＬＡＮ規格等のそれぞれに対応する通信インタフェースを含み得る。本実施形態において、サーバ通信部２１は、情報処理装置１０の通信部１４との通信を行う。また、サーバ通信部２１は、音声認識システム１の外部のサーバ等との通信を行ってよい。

サーバ記憶部２２は、１つ以上のメモリを含む。メモリは、例えば半導体メモリ、磁気メモリ、および光メモリ等を含んでよい。サーバ記憶部２２に含まれる各メモリは、例えば主記憶装置、補助記憶装置、またはキャッシュメモリとして機能してよい。サーバ記憶部２２は、サーバ２０の動作に用いられる任意の情報を記憶する。

本実施形態において、サーバ記憶部２２は、応答ルール情報２２１を記憶する。応答ルール情報２２１は、応答内容を決定するためのルールを含む。例えば、応答ルール情報２２１は、ディスプレイ１３３を使用できる場合における、質問に対する応答のパターンを含み得る。ディスプレイ１３３を使用できる場合の応答パターンは、音声だけでなく画像を含み得る。また、応答ルール情報２２１は、ディスプレイ１３３を使用できない場合における、質問に対する応答のパターンを含み得る。ディスプレイ１３３を使用できない場合の応答パターンは、音声だけを含み得る。応答ルール情報２２１は、後述する応答生成部２３２が応答を生成する際に用いられる。

サーバ制御部２３は、１つ以上のプロセッサを含む。プロセッサは、例えば汎用のプロセッサ、および特定の処理に特化した専用のプロセッサを含んでよい。例えばサーバ制御部２３はＣＰＵであり得る。サーバ制御部２３は、サーバ２０全体の動作を制御する。本実施形態において、サーバ制御部２３は、音声認識部２３１、応答生成部２３２および対話制御部２３３を備える。

音声認識部２３１は、ユーザの音声（発話内容）を解析して質問の内容を認識する。音声認識部２３１は、種々提案されている音声認識の手法のいずれかを用いてよい。音声認識部２３１は、例えば隠れマルコフモデル（ＨＭＭ：Hidden Markov Model）を用いて音声認識を実行し得る。また、別の例として、音声認識部２３１は、学習用データから音声の特徴を蓄積し、その特徴とユーザの音声とを比較してキーワードを抽出する手法を用いてよい。ここで、音声認識部２３１が音声認識の処理で用いる辞書およびデータは、サーバ記憶部２２に記憶されてよい。

応答生成部２３２は、音声認識部２３１によって認識された内容に対する応答を生成する。応答生成部２３２は、種々提案されている応答生成の手法のいずれかを用いてよい。応答生成部２３２は、例えば質問と応答とのデータベース（例えば質問に対する応答のパターン）からユーザの質問と同じ意味を持つ質問を探して、適切な応答を選択してよい。また、応答生成部２３２は、外部のサーバ等にアクセスして、質問に含まれるキーワードに基づく検索の結果から応答を生成してよい。ここで、応答生成部２３２が応答生成の処理で用いるデータベースは、サーバ記憶部２２に記憶されてよい。別の例として、応答生成部２３２が応答生成の処理で用いるデータベースは、サーバ通信部２１を介してアクセス可能な外部のサーバ等にあってよい。

対話制御部２３３は、ユーザとの対話の全体の動作を制御する。例えば、対話制御部２３３は、サーバ通信部２１を介してユーザの発話内容のデータである音声信号を取得した場合に、音声認識部２３１に音声認識を実行させる。また、例えば、対話制御部２３３は、サーバ通信部２１を介して音声信号の入力元の位置を取得した場合に、その位置に適した応答を応答生成部２３２に生成させる。また、例えば、対話制御部２３３は、サーバ通信部２１に、応答生成部２３２が生成した応答を情報処理装置１０へ送信させる。

図２は、音声認識システム１の概略構成を示す別の図である。図２は、機能ブロック間の主要なデータの流れを示す。ここで、図２においては、図１の機能ブロックの一部が示されている。

前席マイク１２１および後席マイク１２２は音声信号を音声入力制御部１６３に出力する。また、表示出力制御部１６２は、サーバ２０によって生成された応答をディスプレイ１３３に表示させる。また、音声出力制御部１６４は、サーバ２０によって生成された応答を前席スピーカ１３１および後席スピーカ１３２の少なくとも１つに出力させる。入出力制御部１６５は、必要なデータを、位置特定部１６１、表示出力制御部１６２、音声入力制御部１６３および音声出力制御部１６４との間で送受信する。また、入出力制御部１６５は、音声認識および応答生成の処理において必要なデータを、対話制御部２３３との間で送受信する。本実施形態において、入出力制御部１６５は、通信部１４およびサーバ通信部２１を介して、対話制御部２３３との間でデータを送受信する。対話制御部２３３は応答ルール情報２２１にアクセスする。また、対話制御部２３３は、音声認識部２３１および応答生成部２３２の動作を制御する。例えば、対話制御部２３３は、応答生成部２３２が応答ルール情報２２１を要求した場合に、応答生成部２３２にアクセスして必要な情報を応答生成部２３２に提供し得る。前席入出力装置および後席入出力装置については後述する。

（入出力装置）
図３は本実施形態における車両の入出力装置の配置を示す。入出力装置は、入力装置である前席マイク１２１と、後席マイク１２２と、タッチパネル１２３と、を含む。また、入出力装置は、出力装置である前席スピーカ１３１と、後席スピーカ１３２と、ディスプレイ１３３と、を含む。ここで、車両に設けられる出力装置は複数（２種類以上）である。

図３の例では、前席マイク１２１は、運転席側（進行方向右側）の前席マイク１２１Ａと、助手席側（進行方向左側）の前席マイク１２１Ｂと、を備える。また、前席スピーカ１３１は、運転席側の前席スピーカ１３１Ａと、助手席側の前席スピーカ１３１Ｂと、を備える。図３に示すように、前席入出力装置は、前席マイク１２１Ａと、前席マイク１２１Ｂと、前席スピーカ１３１Ａと、前席スピーカ１３１Ｂと、タッチパネル１２３が一体化されたディスプレイ１３３（以下、タッチパネルディスプレイともいう）と、で構成される。前席入出力装置の構成は、前席に関連づけられて、上記の機器構成情報１５１として記憶部１５に記憶される。ここで、運転席の乗員Ｐ１および助手席の乗員Ｐ２は、ディスプレイ１３３と近いため、良好にディスプレイ１３３の表示画像を視認できる。また、乗員Ｐ１および乗員Ｐ２は、容易にタッチパネル１２３に接触して操作できる。

また、図３の例では、後席マイク１２２は、進行方向右側の後席マイク１２２Ａと、進行方向左側の後席マイク１２２Ｂと、を備える。また、後席スピーカ１３２は、進行方向右側の後席スピーカ１３２Ａと、進行方向左側の後席スピーカ１３２Ｂと、を備える。図３に示すように、後席入出力装置は、後席マイク１２２Ａと、後席マイク１２２Ｂと、後席スピーカ１３２Ａと、後席スピーカ１３２Ｂと、で構成される。後席入出力装置の構成は、後席に関連づけられて、上記の機器構成情報１５１として記憶部１５に記憶される。ここで、後席の乗員Ｐ３および乗員Ｐ４は、ディスプレイ１３３から遠く、前席によって遮られるため、ディスプレイ１３３の表示画像を視認しにくい。また、乗員Ｐ３および乗員Ｐ４は、タッチパネル１２３を操作することが困難である。

一般に、車両における前席入出力装置の構成と後席入出力装置の構成とは異なることがある。少なくとも、一部の席の近くの入出力装置の構成が、他の席の近くの入出力装置の構成と異なることはあり得る。本実施形態に係る音声認識システム１は、以下に説明するように、発話したユーザの位置に応じて、認識し易い方法で応答する。

（位置特定）
車内において発話した乗員Ｐ１〜Ｐ４の音声は、前席マイク１２１Ａ、１２１Ｂおよび後席マイク１２２Ａ、１２２Ｂによって拾われる。位置特定部１６１は、前席マイク１２１Ａ、１２１Ｂおよび後席マイク１２２Ａ、１２２Ｂからの音声信号の時間および音圧の少なくとも一つを解析する。位置特定部１６１は、例えば前席マイク１２１Ｂが最も早い時間に音声を拾った場合に、前席マイク１２１Ｂに近い乗員Ｐ２の発話であると判定してよい。つまり、位置特定部１６１は、音声信号の入力元の位置が助手席であると判定してよい。また、位置特定部１６１は、例えば後席マイク１２２Ｂの音声信号の音圧が最も高い場合に、後席マイク１２２Ｂに近い乗員Ｐ４の発話であると判定してよい。つまり、位置特定部１６１は、音声信号の入力元の位置が車両の進行方向左側の後席（以下、後席左側とする）であると判定してよい。

（応答）
図４は、前席の乗員Ｐ２に対する応答例を示す図である。図４の例では、助手席の乗員Ｐ２は「この辺りのお勧めの鰻屋さん探して」と発言している。位置特定部１６１は、上記の手法によって、音声信号の入力元の位置が助手席であると判定する。入出力制御部１６５は、音声信号、音声信号の入力元の位置が助手席であるとの位置情報および機器構成情報１５１を、通信部１４を介してサーバ２０に出力する。

対話制御部２３３はサーバ通信部２１を介して音声信号、位置情報および機器構成情報１５１を取得する。そして、対話制御部２３３は位置情報に基づいて、発話した乗員Ｐ２が助手席にいることを特定する。対話制御部２３３は、機器構成情報１５１に基づいて、助手席付近に前席マイク１２１Ｂ、前席スピーカ１３１Ｂおよびタッチパネルディスプレイが存在することを把握する。そして、対話制御部２３３は、応答を出力する出力装置として、前席スピーカ１３１Ｂおよびタッチパネルディスプレイ（ディスプレイ１３３）を選択する。また、対話制御部２３３は、音声認識部２３１に音声認識を実行させる。対話制御部２３３は、音声認識部２３１によって解析された質問に対する応答を、応答生成部２３２に生成させる。このとき、対話制御部２３３は、乗員Ｐ２の近くにタッチパネルディスプレイが存在することを前提とした応答を、応答生成部２３２に生成させる。応答生成部２３２は、応答ルール情報２２１の質問に対する応答パターンのうち、例えば音声だけでなく、タッチパネルディスプレイへの表示を含むものを選択してよい。対話制御部２３３は、サーバ通信部２１に、応答生成部２３２が生成した応答を情報処理装置１０へ送信させる。このとき、対話制御部２３３は、サーバ通信部２１に、音声および画像を出力する出力装置（図４の例では前席スピーカ１３１Ｂおよびディスプレイ１３３）を指定する情報も送信させてよい。

図４に示すように、情報処理装置１０は、前席スピーカ１３１Ｂから「この辺りで４件見つかりました。どちらにしますか？」という音声を出力する。また、情報処理装置１０は、４件の店名を評価の高い順に並べた一覧を、タッチパネルディスプレイに表示する。例えば、乗員Ｐ２がタッチパネルディスプレイへの接触によって４件のうちの１件を選択した場合に、情報処理装置１０は、乗員Ｐ２によって選択された１件の店までの経路の案内サービスを開始してよい。このように、前席入出力装置が備えるタッチパネルディスプレイを操作可能な前席の乗員Ｐ２からの質問に対して、対話制御部２３３はタッチパネルディスプレイの利用を想定した応答を行う。ここで、乗員Ｐ２は、タッチパネルディスプレイへの接触に代えて、表示された４件の店名を見ながら音声で１件を選択することも可能である。対話制御部２３３は、前席の乗員Ｐ１からの質問に対しても、同様にタッチパネルディスプレイを用いた応答を行ってよい。

応答生成部２３２は、特にタッチパネルディスプレイが利用可能である場合に、ユーザが選択可能な情報を含む応答を生成することが好ましい。例えば図４に示されるように、候補をリスト形式で提示することによって、ユーザの選択の自由度を高めて、利便性を向上させることが可能である。

また、図５は、後席の乗員Ｐ４に対する図４と同じ質問への応答例を示す図である。位置特定部１６１は、上記の手法によって、音声信号の入力元の位置が後席左側であると判定する。入出力制御部１６５は、音声信号、音声信号の入力元の位置が後席左側であるとの位置情報および機器構成情報１５１を、通信部１４を介してサーバ２０に出力する。

対話制御部２３３はサーバ通信部２１を介して音声信号、位置情報および機器構成情報１５１を取得する。そして、対話制御部２３３は位置情報に基づいて、発話した乗員Ｐ４が後席左側にいることを特定する。対話制御部２３３は、機器構成情報１５１に基づいて、後席左側付近に後席マイク１２２Ｂおよび後席スピーカ１３２Ｂが存在することを把握する。また、対話制御部２３３は、機器構成情報１５１に基づいて後席左側付近にタッチパネルディスプレイが存在しないことを把握する。そして、対話制御部２３３は、応答を出力する出力装置として、後席スピーカ１３２Ｂを選択する。また、対話制御部２３３は、音声認識部２３１に音声認識を実行させる。対話制御部２３３は、音声認識部２３１によって解析された質問に対する応答を、応答生成部２３２に生成させる。このとき、対話制御部２３３は、乗員Ｐ４の近くにタッチパネルディスプレイが存在しないことを前提とした応答を、応答生成部２３２に生成させる。応答生成部２３２は、応答ルール情報２２１の質問に対する応答パターンのうち、例えば音声だけを含むものを選択してよい。対話制御部２３３は、サーバ通信部２１に、応答生成部２３２が生成した応答を情報処理装置１０へ送信させる。このとき、対話制御部２３３は、サーバ通信部２１に、音声を出力する出力装置（図５の例では後席スピーカ１３２Ｂ）を指定する情報も送信させてよい。

図５に示すように、情報処理装置１０は、後席スピーカ１３２Ｂから「この辺りで４件見つかりました。お勧めは鰻丸です。」という音声を出力する。ここで、応答生成部２３２は、検索結果で得られた４件の店名のうち評価の最も高い店だけを応答に含める。例えば、乗員Ｐ４が後席マイク１２２Ｂに「鰻丸にする。」と発話することによって、情報処理装置１０は鰻丸までの経路の案内サービスを開始してよい。このように、タッチパネルディスプレイが近くにない後席の乗員Ｐ４からの質問に対して、対話制御部２３３は表示を用いない音声だけの応答を行う。対話制御部２３３は、後席の乗員Ｐ３からの質問に対しても、同様に音声だけの応答を行ってよい。

図４および図５の例のように、ユーザの位置（座席）に応じて出力装置が選択されて適した応答が生成されるため、ユーザは認識し易い方法で応答の内容を確認することが可能である。よって、ユーザの利便性を向上させることができる。

ここで、対話制御部２３３は、ディスプレイ１３３が利用できない場合に、応答生成部２３２に、なるべく短いメッセージを生成させることが好ましい。例えば、音声だけで図４のディスプレイ１３３に示される候補を全て出力すると、ユーザは記憶することが難しい。そこで、対話制御部２３３は、応答生成部２３２に、提示情報を分割すること、要約すること、または優先度の高い候補の情報に絞ること、を実行させてよい。

具体的には、対話制御部２３３は、ディスプレイ１３３が利用できない場合に、次のような修正処理を応答生成部２３２に実行させてよい。修正処理として、音声だけで情報提示内容がわかるように応答の文言が切り替えられてよい。例えば、より聞き取りやすい同意語が使用されるようにしてよい。また、修正処理として、応答の長さがユーザの聞き取り易い分量に調整されてよい。例えば、より短い同意語が使用されるようにしてよい。また、修正処理として、応答が長い場合に、要約または一部の抽出がされてよい。また、ディスプレイ１３３が利用できない場合だけでなく、ユーザの聞き直しが多いような場合に、このような修正処理が実行されてよい。

（フローチャート）
図６は、上記の音声認識および応答生成の処理を実行する場合のサーバ２０の動作（制御方法）を示すフローチャートである。

サーバ２０は、サーバ通信部２１を介して情報処理装置１０から音声信号を取得する（ステップＳ１）。また、サーバ２０は、音声信号の入力元の位置を示す位置情報および機器構成情報１５１を取得する。

サーバ２０は、位置情報に基づいて、発話した乗員の座席を特定する（ステップＳ２）。

サーバ２０は、音声認識を実行して、乗員の質問を解析する（ステップＳ３）。

サーバ２０は、応答ルール情報２２１を用いて、解析された質問に対する応答を生成する（ステップＳ４）。ここで、サーバ２０は、機器構成情報１５１に基づいて、発話した乗員の座席付近の出力装置を把握する。そして、サーバ２０は、特定された位置（座席）に基づいて、車両に設けられた複数の出力装置から、応答を出力する出力装置を選択する。サーバ２０は、上記の図４および図５の例のように、選択した出力装置に応じた応答（例えば音声のみの応答、または表示画像を含む応答等）を生成する。

サーバ２０は、生成した応答を情報処理装置１０に出力する（ステップＳ５）。情報処理装置１０は、サーバ２０から取得した応答を出力する。

以上のように、音声認識システム１は、上記の構成を備えることによって、発話したユーザの位置に応じて、認識し易い方法で応答することができる。

本開示を諸図面および実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形および修正を行うことが容易であることに注意されたい。したがって、これらの変形および修正は本開示の範囲に含まれることに留意されたい。例えば、各手段または各ステップ等に含まれる機能等は論理的に矛盾しないように再配置可能であり、複数の手段またはステップ等を１つに組み合わせたり、或いは分割したりすることが可能である。

上記の実施形態において、情報処理装置１０はサーバ２０と通信して音声認識および応答生成の処理を実行する。ここで、別の実施形態として、情報処理装置１０Ａがサーバ２０との通信を必要とすることなく音声認識および応答生成の処理を実行してよい。

図７は、情報処理装置１０Ａの概略構成を示す図である。情報処理装置１０Ａは、入力部１２と、出力部１３と、通信部１４と、記憶部１５と、制御部１６と、を備える。情報処理装置１０Ａの入力部１２、出力部１３および通信部１４は、情報処理装置１０と同じである。ただし、情報処理装置１０Ａの通信部１４は、音声認識および応答生成の処理においてサーバ２０と通信することがない。また、情報処理装置１０Ａの記憶部１５は、応答ルール情報２２１を備える。また、情報処理装置１０Ａの制御部１６は、音声認識部２３１、応答生成部２３２および対話制御部２３３を備える。応答ルール情報２２１、音声認識部２３１、応答生成部２３２および対話制御部２３３は、上記の実施形態でサーバ２０が備えるものと同じである。また、情報処理装置１０Ａの制御部１６は、入出力制御部１６５を備えない。

情報処理装置１０Ａは、上記の構成によって、単独で音声認識および応答生成の処理を実行できる。このとき、サーバ２０との通信が不要であるため、応答までの時間を短縮することが可能である。つまり、ユーザの質問に対してより早く応答することが可能になる。

また、例えば、ユーザが応答を出力する出力装置を設定可能であってよい。一例として、ユーザは、タッチパネル１２３を用いて出力装置を指定する指示を入力する。対話制御部２３３は、タッチパネル１２３が受け取った指示を、例えばサーバ通信部２１を介して受け取る。そして、対話制御部２３３は、上記のように機器構成情報１５１に基づいて応答を出力する出力装置を選択した後に、ユーザの指示に基づいて選択した出力装置を調整する。例えば、ユーザは運転手である乗員Ｐ１に対してディスプレイ１３３を応答を出力する出力装置に用いないことを指示できる。このとき、対話制御部２３３は、ユーザの指示に基づいて、応答が前席スピーカ１３１Ａだけから出力されるように調整する。つまり、対話制御部２３３は、応答生成部２３２に音声だけの応答を生成させる。また、別の例として、ユーザは、タッチパネル１２３を用いて機器構成情報１５１を編集することで、応答を出力する出力装置を設定してよい。また、別の例として、ユーザは、前席マイク１２１または後席マイク１２２を用いて、音声で出力装置を指定する指示を入力してよい。ユーザが出力装置を設定可能であることは、更に利便性を向上させ得る。

また、上記の実施形態において、情報処理装置１０が応答を出力する装置は、車両に設けられる前席スピーカ１３１と、後席スピーカ１３２と、ディスプレイ１３３と、であった。ここで、情報処理装置１０は、通信部１４によって応答を他の電子機器に送信可能であってよい。例えば、発話した乗員が端末装置（例えばスマートフォン）を有する場合に、情報処理装置１０は、スマートフォンに応答を送信してよい。このとき、応答の音声は、スマートフォンのスピーカから出力されてよい。また、応答の画像は、スマートフォンのディスプレイに表示されてよい。このように、音声認識システム１は、情報処理装置１０と通信可能な他の電子機器を更に含むことが可能である。ここで、ユーザは機器構成情報１５１を編集して他の電子機器を追加してよい。例えば、後席の乗員が有するスマートフォンが機器構成情報１５１に追加された場合に、応答生成部２３２は表示画像を含む応答を生成してよい。

また、上記の実施形態において、運転席側と助手席側とで入出力装置は同じ構成であった。また、後席左側と後席右側とで入出力装置は同じ構成であった。ここで、運転席側と、助手席側と、後席左側と、後席右側とは、それぞれ異なる入出力装置の構成であってよい。つまり、各座席の入出力装置は、他の座席の入出力装置と無関係に構成されてよい。

また、上記の実施形態において、情報処理装置１０は、入力部１２および出力部１３を備える。ここで、情報処理装置１０は、入力部１２および出力部１３の少なくとも一部を含まない構成であってよい。すなわち、入力部１２および出力部１３は、情報処理装置１０および音声認識システム１の構成から除かれ得る。例えば、前席スピーカ１３１および後席スピーカ１３２が車両に予め設けられており、情報処理装置１０は、前席マイク１２１、後席マイク１２２およびタッチパネルディスプレイを備える構成であってよい。この例において、前席スピーカ１３１および後席スピーカ１３２は、情報処理装置１０が備える音声出力制御部１６４と有線または無線で接続され得る。

また、各座席に、ユーザが音声認識の実行開始を指示する音声認識開始ボタンが設けられていてよい。このとき、位置特定部１６１は、どの座席の音声認識開始ボタンが押されたかに基づいて、発話した乗員の座席を判定してよい。

また、例えばナビゲーション装置およびサーバ装置等の汎用の電子機器（情報処理装置１０、情報処理装置１０Ａおよびサーバ２０に対応）に搭載されたプロセッサを、上記の制御部１６およびサーバ制御部２３として機能させることができる。具体的には、電子機器の各機能を実現する処理内容を記述したプログラムを、電子機器の記憶部（メモリ）に格納し、電子機器のプロセッサによってプログラムを読み出して実行させることによって実現可能である。

１音声認識システム
１０、１０Ａ情報処理装置
１２入力部
１３出力部
１４通信部
１５記憶部
１６制御部
２０サーバ
２１サーバ通信部
２２サーバ記憶部
２３サーバ制御部
１２１、１２１Ａ、１２１Ｂ前席マイク
１２２、１２２Ａ、１２２Ｂ後席マイク
１２３タッチパネル
１３１、１３１Ａ、１３１Ｂ前席スピーカ
１３２、１３２Ａ、１３２Ｂ後席スピーカ
１３３ディスプレイ
１５１機器構成情報
１６１位置特定部
１６２表示出力制御部
１６３音声入力制御部
１６４音声出力制御部
１６５入出力制御部
２２１応答ルール情報
２３１音声認識部
２３２応答生成部
２３３対話制御部
Ｐ１、Ｐ２、Ｐ３、Ｐ４乗員

Claims

互いに通信可能な情報処理装置およびサーバを備える音声認識システムであって、
前記情報処理装置は、
音声信号の入力元の位置を特定する位置特定部と、
複数の出力装置を備える出力部と、を備え、
前記サーバは、
前記音声信号に対して音声認識を行う音声認識部と、
前記音声認識の内容に対する応答を生成する応答生成部と、
前記位置特定部によって特定された位置に基づいて前記複数の出力装置から前記応答を出力する出力装置を選択する対話制御部と、を備える、音声認識システム。
前記応答生成部は、
選択された出力装置に応じた前記応答を生成する、請求項１に記載の音声認識システム。
前記応答生成部は、
ユーザが選択可能な情報を含む前記応答を生成する、請求項２に記載の音声認識システム。
前記情報処理装置は、
ユーザの指示を受け取る入力部を備え、
前記対話制御部は、
前記ユーザの指示に基づいて選択した出力装置を調整する、請求項１から３のいずれか一項に記載の音声認識システム。
音声信号の入力元の位置を特定する位置特定部と、
複数の出力装置を備える出力部と、
前記音声信号に対して音声認識を行う音声認識部と、
前記音声認識の内容に対する応答を生成する応答生成部と、
前記位置特定部によって特定された位置に基づいて前記複数の出力装置から前記応答を出力する出力装置を選択する対話制御部と、を備える、情報処理装置。