JP2019212168A - 音声認識システムおよび情報処理装置 - Google Patents

音声認識システムおよび情報処理装置 Download PDF

Info

Publication number
JP2019212168A
JP2019212168A JP2018109707A JP2018109707A JP2019212168A JP 2019212168 A JP2019212168 A JP 2019212168A JP 2018109707 A JP2018109707 A JP 2018109707A JP 2018109707 A JP2018109707 A JP 2018109707A JP 2019212168 A JP2019212168 A JP 2019212168A
Authority
JP
Japan
Prior art keywords
unit
response
control unit
server
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018109707A
Other languages
English (en)
Inventor
鈴木 秀伸
Hidenobu Suzuki
秀伸 鈴木
真 眞鍋
Makoto Manabe
真 眞鍋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Toyota Motor Corp
Original Assignee
Denso Corp
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp, Toyota Motor Corp filed Critical Denso Corp
Priority to JP2018109707A priority Critical patent/JP2019212168A/ja
Priority to PCT/IB2019/000422 priority patent/WO2019234486A1/en
Publication of JP2019212168A publication Critical patent/JP2019212168A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Telephonic Communication Services (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Navigation (AREA)

Abstract

【課題】発話したユーザの位置に応じて、認識し易い方法で応答する音声認識システムおよび情報処理装置を提供する。【解決手段】音声認識システム1は、互いに通信可能な情報処理装置10およびサーバ20を備え、情報処理装置10は、音声信号の入力元の位置を特定する位置特定部161と、複数の出力装置を備える出力部13と、を備え、サーバ20は、音声信号に対して音声認識を行う音声認識部231と、音声認識の内容に対する応答を生成する応答生成部232と、位置特定部によって特定された位置に基づいて複数の出力装置から応答を出力する出力装置を選択する対話制御部233と、を備える。【選択図】図1

Description

本開示は、音声認識システムおよび情報処理装置に関する。
従来、各座席の乗員の発話をマイク(マイクロフォン)で取得し、音声認識を行う車両用の音声認識システムが存在する。例えば、特許文献1に記載されたシステムは、各乗員の発話をディスプレイに表示する。そのため、特許文献1に記載されたシステムは、乗員が他の乗員の発言を確認することを可能にし、円滑な車内の会話を支援する。
特開2014−170154号公報 特開2010−047093号公報 特開2003−345389号公報
ここで、特許文献1に記載されたシステムでは、ディスプレイの数および配置場所が限られている場合に、座席ごとの見易さを考慮するものではない。また、特許文献2は、音声信号の入力元の座席を特定し、座席ごとの音響制御を実行する音声認識処理装置を開示する。また、特許文献3は、発話した乗員の座席に応じて音声認識辞書を切り替えて、音声入力操作を容易にする音声認識装置を開示する。しかし、特許文献2および特許文献3の技術は、ディスプレイの数および配置場所が限られている場合に、座席ごとのディスプレイの見易さ等を考慮するものではない。
かかる事情に鑑みてなされた本開示の目的は、発話したユーザの位置に応じて、認識し易い方法で応答する音声認識システムおよび情報処理装置を提供することにある。
本開示の一実施形態に係る音声認識システムは、互いに通信可能な情報処理装置およびサーバを備える音声認識システムである。前記情報処理装置は、音声信号の入力元の位置を特定する位置特定部と、複数の出力装置を備える出力部と、を備える。前記サーバは、前記音声信号に対して音声認識を行う音声認識部と、前記音声認識の内容に対する応答を生成する応答生成部と、前記位置特定部によって特定された位置に基づいて前記複数の出力装置から前記応答を出力する出力装置を選択する対話制御部と、を備える。
本開示の一実施形態に係る情報処理装置は、音声信号の入力元の位置を特定する位置特定部と、複数の出力装置を備える出力部と、前記音声信号に対して音声認識を行う音声認識部と、前記音声認識の内容に対する応答を生成する応答生成部と、前記位置特定部によって特定された位置に基づいて前記複数の出力装置から前記応答を出力する出力装置を選択する対話制御部と、を備える。
本開示の一実施形態に係る音声認識システムおよび情報処理装置によれば、発話したユーザの位置に応じて、認識し易い方法で応答することができる。
音声認識システムの概略構成を示す図である。 音声認識システムの概略構成を示す別の図である。 車両の入出力装置の配置例を示す図である。 前席の乗員に対する応答例を示す図である。 後席の乗員に対する応答例を示す図である。 情報処理装置の動作(制御方法)を示すフローチャートである 別の情報処理装置の概略構成を示す図である。
(音声認識システム)
図1は、本開示の一実施形態に係る音声認識システム1の概略構成を示す図である。音声認識システム1は、情報処理装置10と、サーバ20と、を備える。
本実施形態において、情報処理装置10は車両に搭載される車載装置である。本実施形態において、車両は自動車である。車載装置は、例えばナビゲーション装置等である。ここで、情報処理装置10は、ユーザによって使用されるその他の装置であり得る。また、車両は自動車に限られない。
サーバ20は、1つまたは互いに通信可能な複数のサーバ装置で構成され得る。サーバ20は、1以上の車両に搭載された情報処理装置10と通信を行う。サーバ20は、例えば車両に関する情報を収集および解析する情報センターに設置される。
音声認識システム1において、サーバ20は、情報処理装置10とネットワークを介して通信可能に接続される。つまり、情報処理装置10とサーバ20とは互いに通信可能である。ネットワークは、例えばインターネットを含むが、任意の他のネットワークを含んでよい。
(情報処理装置)
図1に示すように、情報処理装置10は、入力部12と、出力部13と、通信部14と、記憶部15と、制御部16と、を備える。
入力部12は、ユーザによる入力を受け付ける1つ以上の入力インタフェースを含む。入力インタフェースは例えば入力装置で構成される。本実施形態において、入力部12は、前席マイク121と、後席マイク122と、タッチパネル123と、を含む。ここで、別の例として、入力部12は、文字入力を受け付けるキーボードを含み得る。
前席マイク121は、情報処理装置10が搭載された車両の前席(助手席および運転席)の近くに設けられるマイクである。前席マイク121は、前席側のドア(フロントドア)に設けられてよい。また、後席マイク122は、車両の後席の近くに設けられるマイクである。後席マイク122は、後席側のドア(リヤドア)に設けられてよい。前席マイク121および後席マイク122はユーザの音声入力を受け付ける。本実施形態において、ユーザは車両の乗員である。
タッチパネル123は、ユーザの接触による入力を受け付ける。本実施形態において、タッチパネル123は、ディスプレイ133と一体となってタッチパネルディスプレイを構成する。また、本実施形態において、タッチパネルディスプレイは、車両のダッシュボードに設けられる。
出力部13は、ユーザに情報を出力する1つ以上の出力インタフェースを含む。出力インタフェースは例えば出力装置で構成される。本実施形態において、出力部13は、前席スピーカ131と、後席スピーカ132と、ディスプレイ133と、を含む。
前席スピーカ131は、車両の前席の近くに設けられるスピーカである。前席スピーカ131は、フロントドアに設けられてよい。また、後席スピーカ132は、車両の後席の近くに設けられるスピーカである。後席スピーカ132は、リヤドアに設けられてよい。前席スピーカ131および後席スピーカ132はユーザに音声情報を出力する。
ディスプレイ133は情報を表示する装置である。ディスプレイ133は、例えば液晶パネルおよび有機EL(Electro Luminescence)パネル等のフラットパネルディスプレイであり得る。上記のように、本実施形態において、ディスプレイ133とタッチパネル123とが一体となったタッチパネルディスプレイは、車両のダッシュボードに設けられる。
通信部14は、1つ以上の通信インタフェースを含む。通信部14は、4G(4th Generation)等のモバイル通信規格、有線LAN(Local Area Network)規格および無線LAN規格等のそれぞれに対応する通信インタフェースを含み得る。また、通信部14は、CAN(Controller Area Network)の通信インタフェースを含み得る。通信部14は、CAN経由で、車両の速度または燃料残量等の車両情報を車両のECU(Electronic Control Unit、電子制御ユニット)から受信できる。また、通信部14は、GPS(Global Positioning System)衛星からの信号(GPS信号)を受信し得る。
本実施形態において、通信部14は、サーバ20のサーバ通信部21との通信を行う。通信部14は、後述する位置特定部161が特定した音声信号の入力元の位置をサーバ20に送信する。音声信号の入力元の位置は、例えば発話した乗員の座席である。また、通信部14は、後述する機器構成情報151をサーバ20に送信する。また、通信部14は、タッチパネル123が取得したユーザの指示をサーバ20に送信し得る。ユーザの指示は、例えば応答を出力する出力装置を指定する内容であり得る。また、通信部14は、後述する応答生成部232によって生成された応答を、サーバ20から受信する。また、通信部14は、後述する対話制御部233によって選択された出力装置の情報を、サーバ20から受信し得る。
記憶部15は、1つ以上のメモリを含む。メモリは、例えば半導体メモリ、磁気メモリ、および光メモリ等を含んでよい。記憶部15に含まれる各メモリは、例えば主記憶装置、補助記憶装置、またはキャッシュメモリとして機能してよい。記憶部15は、情報処理装置10の動作に用いられる任意の情報を記憶する。
本実施形態において、記憶部15は、機器構成情報151を記憶する。機器構成情報151は、入力装置および出力装置の位置を、車両の各座席と関連付けた情報である。言い換えると、機器構成情報151は、各座席の近くに設けられた入出力機器を示す情報である。機器構成情報151の具体例については後述する。また、記憶部15は、タッチパネル123が取得したユーザの指示を記憶し得る。
制御部16は、1つ以上のプロセッサを含む。プロセッサは、例えば汎用のプロセッサ、および特定の処理に特化した専用のプロセッサを含んでよい。例えば制御部16はCPU(Central Processing Unit)であり得る。制御部16は、情報処理装置10の全体の動作を制御する。本実施形態において、制御部16は、位置特定部161、表示出力制御部162、音声入力制御部163、音声出力制御部164および入出力制御部165を備える。
位置特定部161は、音声信号の入力元の位置を特定する。本実施形態において、音声信号は、車両の乗員が発した音声を信号化したものである。また、本実施形態において、入力元の位置は、発話した乗員の座席である。位置特定部161は、前席マイク121および後席マイク122からの音声信号に基づいて、発話した乗員の座席を判定する。
表示出力制御部162は、ディスプレイ133に情報を表示させる。
音声入力制御部163は、前席マイク121および後席マイク122の動作を制御する。本実施形態において、音声入力制御部163は、前席マイク121および後席マイク122を動作させて、車両の乗員が発した音声を取得する。また、音声入力制御部163は、取得した発話を信号化して例えば位置特定部161および入出力制御部165に出力する。
音声出力制御部164は、前席スピーカ131および後席スピーカ132の動作(音声出力)を制御する。
入出力制御部165は、音声認識および応答生成の処理におけるサーバ20との通信を制御する。例えば、入出力制御部165は、通信部14に、音声信号の入力元の位置をサーバ20へ送信させる。また、例えば、入出力制御部165は、通信部14に、機器構成情報151をサーバ20へ送信させる。また、例えば、入出力制御部165は、通信部14に、サーバ20が生成した応答を取得させる。
(サーバ)
図1に示すように、サーバ20は、サーバ通信部21と、サーバ記憶部22と、サーバ制御部23と、を備える。
サーバ通信部21は、1つ以上の通信インタフェースを含む。サーバ通信部21は、4G等のモバイル通信規格、有線LAN規格および無線LAN規格等のそれぞれに対応する通信インタフェースを含み得る。本実施形態において、サーバ通信部21は、情報処理装置10の通信部14との通信を行う。また、サーバ通信部21は、音声認識システム1の外部のサーバ等との通信を行ってよい。
サーバ記憶部22は、1つ以上のメモリを含む。メモリは、例えば半導体メモリ、磁気メモリ、および光メモリ等を含んでよい。サーバ記憶部22に含まれる各メモリは、例えば主記憶装置、補助記憶装置、またはキャッシュメモリとして機能してよい。サーバ記憶部22は、サーバ20の動作に用いられる任意の情報を記憶する。
本実施形態において、サーバ記憶部22は、応答ルール情報221を記憶する。応答ルール情報221は、応答内容を決定するためのルールを含む。例えば、応答ルール情報221は、ディスプレイ133を使用できる場合における、質問に対する応答のパターンを含み得る。ディスプレイ133を使用できる場合の応答パターンは、音声だけでなく画像を含み得る。また、応答ルール情報221は、ディスプレイ133を使用できない場合における、質問に対する応答のパターンを含み得る。ディスプレイ133を使用できない場合の応答パターンは、音声だけを含み得る。応答ルール情報221は、後述する応答生成部232が応答を生成する際に用いられる。
サーバ制御部23は、1つ以上のプロセッサを含む。プロセッサは、例えば汎用のプロセッサ、および特定の処理に特化した専用のプロセッサを含んでよい。例えばサーバ制御部23はCPUであり得る。サーバ制御部23は、サーバ20全体の動作を制御する。本実施形態において、サーバ制御部23は、音声認識部231、応答生成部232および対話制御部233を備える。
音声認識部231は、ユーザの音声(発話内容)を解析して質問の内容を認識する。音声認識部231は、種々提案されている音声認識の手法のいずれかを用いてよい。音声認識部231は、例えば隠れマルコフモデル(HMM:Hidden Markov Model)を用いて音声認識を実行し得る。また、別の例として、音声認識部231は、学習用データから音声の特徴を蓄積し、その特徴とユーザの音声とを比較してキーワードを抽出する手法を用いてよい。ここで、音声認識部231が音声認識の処理で用いる辞書およびデータは、サーバ記憶部22に記憶されてよい。
応答生成部232は、音声認識部231によって認識された内容に対する応答を生成する。応答生成部232は、種々提案されている応答生成の手法のいずれかを用いてよい。応答生成部232は、例えば質問と応答とのデータベース(例えば質問に対する応答のパターン)からユーザの質問と同じ意味を持つ質問を探して、適切な応答を選択してよい。また、応答生成部232は、外部のサーバ等にアクセスして、質問に含まれるキーワードに基づく検索の結果から応答を生成してよい。ここで、応答生成部232が応答生成の処理で用いるデータベースは、サーバ記憶部22に記憶されてよい。別の例として、応答生成部232が応答生成の処理で用いるデータベースは、サーバ通信部21を介してアクセス可能な外部のサーバ等にあってよい。
対話制御部233は、ユーザとの対話の全体の動作を制御する。例えば、対話制御部233は、サーバ通信部21を介してユーザの発話内容のデータである音声信号を取得した場合に、音声認識部231に音声認識を実行させる。また、例えば、対話制御部233は、サーバ通信部21を介して音声信号の入力元の位置を取得した場合に、その位置に適した応答を応答生成部232に生成させる。また、例えば、対話制御部233は、サーバ通信部21に、応答生成部232が生成した応答を情報処理装置10へ送信させる。
図2は、音声認識システム1の概略構成を示す別の図である。図2は、機能ブロック間の主要なデータの流れを示す。ここで、図2においては、図1の機能ブロックの一部が示されている。
前席マイク121および後席マイク122は音声信号を音声入力制御部163に出力する。また、表示出力制御部162は、サーバ20によって生成された応答をディスプレイ133に表示させる。また、音声出力制御部164は、サーバ20によって生成された応答を前席スピーカ131および後席スピーカ132の少なくとも1つに出力させる。入出力制御部165は、必要なデータを、位置特定部161、表示出力制御部162、音声入力制御部163および音声出力制御部164との間で送受信する。また、入出力制御部165は、音声認識および応答生成の処理において必要なデータを、対話制御部233との間で送受信する。本実施形態において、入出力制御部165は、通信部14およびサーバ通信部21を介して、対話制御部233との間でデータを送受信する。対話制御部233は応答ルール情報221にアクセスする。また、対話制御部233は、音声認識部231および応答生成部232の動作を制御する。例えば、対話制御部233は、応答生成部232が応答ルール情報221を要求した場合に、応答生成部232にアクセスして必要な情報を応答生成部232に提供し得る。前席入出力装置および後席入出力装置については後述する。
(入出力装置)
図3は本実施形態における車両の入出力装置の配置を示す。入出力装置は、入力装置である前席マイク121と、後席マイク122と、タッチパネル123と、を含む。また、入出力装置は、出力装置である前席スピーカ131と、後席スピーカ132と、ディスプレイ133と、を含む。ここで、車両に設けられる出力装置は複数(2種類以上)である。
図3の例では、前席マイク121は、運転席側(進行方向右側)の前席マイク121Aと、助手席側(進行方向左側)の前席マイク121Bと、を備える。また、前席スピーカ131は、運転席側の前席スピーカ131Aと、助手席側の前席スピーカ131Bと、を備える。図3に示すように、前席入出力装置は、前席マイク121Aと、前席マイク121Bと、前席スピーカ131Aと、前席スピーカ131Bと、タッチパネル123が一体化されたディスプレイ133(以下、タッチパネルディスプレイともいう)と、で構成される。前席入出力装置の構成は、前席に関連づけられて、上記の機器構成情報151として記憶部15に記憶される。ここで、運転席の乗員P1および助手席の乗員P2は、ディスプレイ133と近いため、良好にディスプレイ133の表示画像を視認できる。また、乗員P1および乗員P2は、容易にタッチパネル123に接触して操作できる。
また、図3の例では、後席マイク122は、進行方向右側の後席マイク122Aと、進行方向左側の後席マイク122Bと、を備える。また、後席スピーカ132は、進行方向右側の後席スピーカ132Aと、進行方向左側の後席スピーカ132Bと、を備える。図3に示すように、後席入出力装置は、後席マイク122Aと、後席マイク122Bと、後席スピーカ132Aと、後席スピーカ132Bと、で構成される。後席入出力装置の構成は、後席に関連づけられて、上記の機器構成情報151として記憶部15に記憶される。ここで、後席の乗員P3および乗員P4は、ディスプレイ133から遠く、前席によって遮られるため、ディスプレイ133の表示画像を視認しにくい。また、乗員P3および乗員P4は、タッチパネル123を操作することが困難である。
一般に、車両における前席入出力装置の構成と後席入出力装置の構成とは異なることがある。少なくとも、一部の席の近くの入出力装置の構成が、他の席の近くの入出力装置の構成と異なることはあり得る。本実施形態に係る音声認識システム1は、以下に説明するように、発話したユーザの位置に応じて、認識し易い方法で応答する。
(位置特定)
車内において発話した乗員P1〜P4の音声は、前席マイク121A、121Bおよび後席マイク122A、122Bによって拾われる。位置特定部161は、前席マイク121A、121Bおよび後席マイク122A、122Bからの音声信号の時間および音圧の少なくとも一つを解析する。位置特定部161は、例えば前席マイク121Bが最も早い時間に音声を拾った場合に、前席マイク121Bに近い乗員P2の発話であると判定してよい。つまり、位置特定部161は、音声信号の入力元の位置が助手席であると判定してよい。また、位置特定部161は、例えば後席マイク122Bの音声信号の音圧が最も高い場合に、後席マイク122Bに近い乗員P4の発話であると判定してよい。つまり、位置特定部161は、音声信号の入力元の位置が車両の進行方向左側の後席(以下、後席左側とする)であると判定してよい。
(応答)
図4は、前席の乗員P2に対する応答例を示す図である。図4の例では、助手席の乗員P2は「この辺りのお勧めの鰻屋さん探して」と発言している。位置特定部161は、上記の手法によって、音声信号の入力元の位置が助手席であると判定する。入出力制御部165は、音声信号、音声信号の入力元の位置が助手席であるとの位置情報および機器構成情報151を、通信部14を介してサーバ20に出力する。
対話制御部233はサーバ通信部21を介して音声信号、位置情報および機器構成情報151を取得する。そして、対話制御部233は位置情報に基づいて、発話した乗員P2が助手席にいることを特定する。対話制御部233は、機器構成情報151に基づいて、助手席付近に前席マイク121B、前席スピーカ131Bおよびタッチパネルディスプレイが存在することを把握する。そして、対話制御部233は、応答を出力する出力装置として、前席スピーカ131Bおよびタッチパネルディスプレイ(ディスプレイ133)を選択する。また、対話制御部233は、音声認識部231に音声認識を実行させる。対話制御部233は、音声認識部231によって解析された質問に対する応答を、応答生成部232に生成させる。このとき、対話制御部233は、乗員P2の近くにタッチパネルディスプレイが存在することを前提とした応答を、応答生成部232に生成させる。応答生成部232は、応答ルール情報221の質問に対する応答パターンのうち、例えば音声だけでなく、タッチパネルディスプレイへの表示を含むものを選択してよい。対話制御部233は、サーバ通信部21に、応答生成部232が生成した応答を情報処理装置10へ送信させる。このとき、対話制御部233は、サーバ通信部21に、音声および画像を出力する出力装置(図4の例では前席スピーカ131Bおよびディスプレイ133)を指定する情報も送信させてよい。
図4に示すように、情報処理装置10は、前席スピーカ131Bから「この辺りで4件見つかりました。どちらにしますか?」という音声を出力する。また、情報処理装置10は、4件の店名を評価の高い順に並べた一覧を、タッチパネルディスプレイに表示する。例えば、乗員P2がタッチパネルディスプレイへの接触によって4件のうちの1件を選択した場合に、情報処理装置10は、乗員P2によって選択された1件の店までの経路の案内サービスを開始してよい。このように、前席入出力装置が備えるタッチパネルディスプレイを操作可能な前席の乗員P2からの質問に対して、対話制御部233はタッチパネルディスプレイの利用を想定した応答を行う。ここで、乗員P2は、タッチパネルディスプレイへの接触に代えて、表示された4件の店名を見ながら音声で1件を選択することも可能である。対話制御部233は、前席の乗員P1からの質問に対しても、同様にタッチパネルディスプレイを用いた応答を行ってよい。
応答生成部232は、特にタッチパネルディスプレイが利用可能である場合に、ユーザが選択可能な情報を含む応答を生成することが好ましい。例えば図4に示されるように、候補をリスト形式で提示することによって、ユーザの選択の自由度を高めて、利便性を向上させることが可能である。
また、図5は、後席の乗員P4に対する図4と同じ質問への応答例を示す図である。位置特定部161は、上記の手法によって、音声信号の入力元の位置が後席左側であると判定する。入出力制御部165は、音声信号、音声信号の入力元の位置が後席左側であるとの位置情報および機器構成情報151を、通信部14を介してサーバ20に出力する。
対話制御部233はサーバ通信部21を介して音声信号、位置情報および機器構成情報151を取得する。そして、対話制御部233は位置情報に基づいて、発話した乗員P4が後席左側にいることを特定する。対話制御部233は、機器構成情報151に基づいて、後席左側付近に後席マイク122Bおよび後席スピーカ132Bが存在することを把握する。また、対話制御部233は、機器構成情報151に基づいて後席左側付近にタッチパネルディスプレイが存在しないことを把握する。そして、対話制御部233は、応答を出力する出力装置として、後席スピーカ132Bを選択する。また、対話制御部233は、音声認識部231に音声認識を実行させる。対話制御部233は、音声認識部231によって解析された質問に対する応答を、応答生成部232に生成させる。このとき、対話制御部233は、乗員P4の近くにタッチパネルディスプレイが存在しないことを前提とした応答を、応答生成部232に生成させる。応答生成部232は、応答ルール情報221の質問に対する応答パターンのうち、例えば音声だけを含むものを選択してよい。対話制御部233は、サーバ通信部21に、応答生成部232が生成した応答を情報処理装置10へ送信させる。このとき、対話制御部233は、サーバ通信部21に、音声を出力する出力装置(図5の例では後席スピーカ132B)を指定する情報も送信させてよい。
図5に示すように、情報処理装置10は、後席スピーカ132Bから「この辺りで4件見つかりました。お勧めは鰻丸です。」という音声を出力する。ここで、応答生成部232は、検索結果で得られた4件の店名のうち評価の最も高い店だけを応答に含める。例えば、乗員P4が後席マイク122Bに「鰻丸にする。」と発話することによって、情報処理装置10は鰻丸までの経路の案内サービスを開始してよい。このように、タッチパネルディスプレイが近くにない後席の乗員P4からの質問に対して、対話制御部233は表示を用いない音声だけの応答を行う。対話制御部233は、後席の乗員P3からの質問に対しても、同様に音声だけの応答を行ってよい。
図4および図5の例のように、ユーザの位置(座席)に応じて出力装置が選択されて適した応答が生成されるため、ユーザは認識し易い方法で応答の内容を確認することが可能である。よって、ユーザの利便性を向上させることができる。
ここで、対話制御部233は、ディスプレイ133が利用できない場合に、応答生成部232に、なるべく短いメッセージを生成させることが好ましい。例えば、音声だけで図4のディスプレイ133に示される候補を全て出力すると、ユーザは記憶することが難しい。そこで、対話制御部233は、応答生成部232に、提示情報を分割すること、要約すること、または優先度の高い候補の情報に絞ること、を実行させてよい。
具体的には、対話制御部233は、ディスプレイ133が利用できない場合に、次のような修正処理を応答生成部232に実行させてよい。修正処理として、音声だけで情報提示内容がわかるように応答の文言が切り替えられてよい。例えば、より聞き取りやすい同意語が使用されるようにしてよい。また、修正処理として、応答の長さがユーザの聞き取り易い分量に調整されてよい。例えば、より短い同意語が使用されるようにしてよい。また、修正処理として、応答が長い場合に、要約または一部の抽出がされてよい。また、ディスプレイ133が利用できない場合だけでなく、ユーザの聞き直しが多いような場合に、このような修正処理が実行されてよい。
(フローチャート)
図6は、上記の音声認識および応答生成の処理を実行する場合のサーバ20の動作(制御方法)を示すフローチャートである。
サーバ20は、サーバ通信部21を介して情報処理装置10から音声信号を取得する(ステップS1)。また、サーバ20は、音声信号の入力元の位置を示す位置情報および機器構成情報151を取得する。
サーバ20は、位置情報に基づいて、発話した乗員の座席を特定する(ステップS2)。
サーバ20は、音声認識を実行して、乗員の質問を解析する(ステップS3)。
サーバ20は、応答ルール情報221を用いて、解析された質問に対する応答を生成する(ステップS4)。ここで、サーバ20は、機器構成情報151に基づいて、発話した乗員の座席付近の出力装置を把握する。そして、サーバ20は、特定された位置(座席)に基づいて、車両に設けられた複数の出力装置から、応答を出力する出力装置を選択する。サーバ20は、上記の図4および図5の例のように、選択した出力装置に応じた応答(例えば音声のみの応答、または表示画像を含む応答等)を生成する。
サーバ20は、生成した応答を情報処理装置10に出力する(ステップS5)。情報処理装置10は、サーバ20から取得した応答を出力する。
以上のように、音声認識システム1は、上記の構成を備えることによって、発話したユーザの位置に応じて、認識し易い方法で応答することができる。
本開示を諸図面および実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形および修正を行うことが容易であることに注意されたい。したがって、これらの変形および修正は本開示の範囲に含まれることに留意されたい。例えば、各手段または各ステップ等に含まれる機能等は論理的に矛盾しないように再配置可能であり、複数の手段またはステップ等を1つに組み合わせたり、或いは分割したりすることが可能である。
上記の実施形態において、情報処理装置10はサーバ20と通信して音声認識および応答生成の処理を実行する。ここで、別の実施形態として、情報処理装置10Aがサーバ20との通信を必要とすることなく音声認識および応答生成の処理を実行してよい。
図7は、情報処理装置10Aの概略構成を示す図である。情報処理装置10Aは、入力部12と、出力部13と、通信部14と、記憶部15と、制御部16と、を備える。情報処理装置10Aの入力部12、出力部13および通信部14は、情報処理装置10と同じである。ただし、情報処理装置10Aの通信部14は、音声認識および応答生成の処理においてサーバ20と通信することがない。また、情報処理装置10Aの記憶部15は、応答ルール情報221を備える。また、情報処理装置10Aの制御部16は、音声認識部231、応答生成部232および対話制御部233を備える。応答ルール情報221、音声認識部231、応答生成部232および対話制御部233は、上記の実施形態でサーバ20が備えるものと同じである。また、情報処理装置10Aの制御部16は、入出力制御部165を備えない。
情報処理装置10Aは、上記の構成によって、単独で音声認識および応答生成の処理を実行できる。このとき、サーバ20との通信が不要であるため、応答までの時間を短縮することが可能である。つまり、ユーザの質問に対してより早く応答することが可能になる。
また、例えば、ユーザが応答を出力する出力装置を設定可能であってよい。一例として、ユーザは、タッチパネル123を用いて出力装置を指定する指示を入力する。対話制御部233は、タッチパネル123が受け取った指示を、例えばサーバ通信部21を介して受け取る。そして、対話制御部233は、上記のように機器構成情報151に基づいて応答を出力する出力装置を選択した後に、ユーザの指示に基づいて選択した出力装置を調整する。例えば、ユーザは運転手である乗員P1に対してディスプレイ133を応答を出力する出力装置に用いないことを指示できる。このとき、対話制御部233は、ユーザの指示に基づいて、応答が前席スピーカ131Aだけから出力されるように調整する。つまり、対話制御部233は、応答生成部232に音声だけの応答を生成させる。また、別の例として、ユーザは、タッチパネル123を用いて機器構成情報151を編集することで、応答を出力する出力装置を設定してよい。また、別の例として、ユーザは、前席マイク121または後席マイク122を用いて、音声で出力装置を指定する指示を入力してよい。ユーザが出力装置を設定可能であることは、更に利便性を向上させ得る。
また、上記の実施形態において、情報処理装置10が応答を出力する装置は、車両に設けられる前席スピーカ131と、後席スピーカ132と、ディスプレイ133と、であった。ここで、情報処理装置10は、通信部14によって応答を他の電子機器に送信可能であってよい。例えば、発話した乗員が端末装置(例えばスマートフォン)を有する場合に、情報処理装置10は、スマートフォンに応答を送信してよい。このとき、応答の音声は、スマートフォンのスピーカから出力されてよい。また、応答の画像は、スマートフォンのディスプレイに表示されてよい。このように、音声認識システム1は、情報処理装置10と通信可能な他の電子機器を更に含むことが可能である。ここで、ユーザは機器構成情報151を編集して他の電子機器を追加してよい。例えば、後席の乗員が有するスマートフォンが機器構成情報151に追加された場合に、応答生成部232は表示画像を含む応答を生成してよい。
また、上記の実施形態において、運転席側と助手席側とで入出力装置は同じ構成であった。また、後席左側と後席右側とで入出力装置は同じ構成であった。ここで、運転席側と、助手席側と、後席左側と、後席右側とは、それぞれ異なる入出力装置の構成であってよい。つまり、各座席の入出力装置は、他の座席の入出力装置と無関係に構成されてよい。
また、上記の実施形態において、情報処理装置10は、入力部12および出力部13を備える。ここで、情報処理装置10は、入力部12および出力部13の少なくとも一部を含まない構成であってよい。すなわち、入力部12および出力部13は、情報処理装置10および音声認識システム1の構成から除かれ得る。例えば、前席スピーカ131および後席スピーカ132が車両に予め設けられており、情報処理装置10は、前席マイク121、後席マイク122およびタッチパネルディスプレイを備える構成であってよい。この例において、前席スピーカ131および後席スピーカ132は、情報処理装置10が備える音声出力制御部164と有線または無線で接続され得る。
また、各座席に、ユーザが音声認識の実行開始を指示する音声認識開始ボタンが設けられていてよい。このとき、位置特定部161は、どの座席の音声認識開始ボタンが押されたかに基づいて、発話した乗員の座席を判定してよい。
また、例えばナビゲーション装置およびサーバ装置等の汎用の電子機器(情報処理装置10、情報処理装置10Aおよびサーバ20に対応)に搭載されたプロセッサを、上記の制御部16およびサーバ制御部23として機能させることができる。具体的には、電子機器の各機能を実現する処理内容を記述したプログラムを、電子機器の記憶部(メモリ)に格納し、電子機器のプロセッサによってプログラムを読み出して実行させることによって実現可能である。
1 音声認識システム
10、10A 情報処理装置
12 入力部
13 出力部
14 通信部
15 記憶部
16 制御部
20 サーバ
21 サーバ通信部
22 サーバ記憶部
23 サーバ制御部
121、121A、121B 前席マイク
122、122A、122B 後席マイク
123 タッチパネル
131、131A、131B 前席スピーカ
132、132A、132B 後席スピーカ
133 ディスプレイ
151 機器構成情報
161 位置特定部
162 表示出力制御部
163 音声入力制御部
164 音声出力制御部
165 入出力制御部
221 応答ルール情報
231 音声認識部
232 応答生成部
233 対話制御部
P1、P2、P3、P4 乗員

Claims (5)

  1. 互いに通信可能な情報処理装置およびサーバを備える音声認識システムであって、
    前記情報処理装置は、
    音声信号の入力元の位置を特定する位置特定部と、
    複数の出力装置を備える出力部と、を備え、
    前記サーバは、
    前記音声信号に対して音声認識を行う音声認識部と、
    前記音声認識の内容に対する応答を生成する応答生成部と、
    前記位置特定部によって特定された位置に基づいて前記複数の出力装置から前記応答を出力する出力装置を選択する対話制御部と、を備える、音声認識システム。
  2. 前記応答生成部は、
    選択された出力装置に応じた前記応答を生成する、請求項1に記載の音声認識システム。
  3. 前記応答生成部は、
    ユーザが選択可能な情報を含む前記応答を生成する、請求項2に記載の音声認識システム。
  4. 前記情報処理装置は、
    ユーザの指示を受け取る入力部を備え、
    前記対話制御部は、
    前記ユーザの指示に基づいて選択した出力装置を調整する、請求項1から3のいずれか一項に記載の音声認識システム。
  5. 音声信号の入力元の位置を特定する位置特定部と、
    複数の出力装置を備える出力部と、
    前記音声信号に対して音声認識を行う音声認識部と、
    前記音声認識の内容に対する応答を生成する応答生成部と、
    前記位置特定部によって特定された位置に基づいて前記複数の出力装置から前記応答を出力する出力装置を選択する対話制御部と、を備える、情報処理装置。
JP2018109707A 2018-06-07 2018-06-07 音声認識システムおよび情報処理装置 Pending JP2019212168A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018109707A JP2019212168A (ja) 2018-06-07 2018-06-07 音声認識システムおよび情報処理装置
PCT/IB2019/000422 WO2019234486A1 (en) 2018-06-07 2019-05-28 Speech recognition system, information processing device and server

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018109707A JP2019212168A (ja) 2018-06-07 2018-06-07 音声認識システムおよび情報処理装置

Publications (1)

Publication Number Publication Date
JP2019212168A true JP2019212168A (ja) 2019-12-12

Family

ID=66867573

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018109707A Pending JP2019212168A (ja) 2018-06-07 2018-06-07 音声認識システムおよび情報処理装置

Country Status (2)

Country Link
JP (1) JP2019212168A (ja)
WO (1) WO2019234486A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102331882B1 (ko) * 2020-05-28 2021-11-29 주식회사대성엘텍 음성 인식 기반의 차량 제어 방법 및 장치

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003345389A (ja) 2002-05-22 2003-12-03 Nissan Motor Co Ltd 音声認識装置
JP2010047093A (ja) 2008-08-20 2010-03-04 Fujitsu Ten Ltd 音声認識処理装置および音声認識処理方法
US8649533B2 (en) * 2009-10-02 2014-02-11 Ford Global Technologies, Llc Emotive advisory system acoustic environment
JP2014170154A (ja) 2013-03-05 2014-09-18 Panasonic Corp 車内会話支援装置
US10976998B2 (en) * 2016-09-23 2021-04-13 Sony Corporation Information processing apparatus and information processing method for controlling a response to speech

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102331882B1 (ko) * 2020-05-28 2021-11-29 주식회사대성엘텍 음성 인식 기반의 차량 제어 방법 및 장치

Also Published As

Publication number Publication date
WO2019234486A1 (en) 2019-12-12
WO2019234486A8 (en) 2020-05-07

Similar Documents

Publication Publication Date Title
CN111661068B (zh) 智能体装置、智能体装置的控制方法及存储介质
US11508370B2 (en) On-board agent system, on-board agent system control method, and storage medium
US20200319841A1 (en) Agent apparatus, agent apparatus control method, and storage medium
US20200320997A1 (en) Agent apparatus, agent apparatus control method, and storage medium
US20200286479A1 (en) Agent device, method for controlling agent device, and storage medium
US11240342B2 (en) Agent device, method of controlling agent device, and computer-readable non-transient storage medium
US11518398B2 (en) Agent system, agent server, method of controlling agent server, and storage medium
US20200321006A1 (en) Agent apparatus, agent apparatus control method, and storage medium
JP7274404B2 (ja) 情報提供装置、情報提供方法、およびプログラム
US11608076B2 (en) Agent device, and method for controlling agent device
JP2020060861A (ja) エージェントシステム、エージェント方法、およびプログラム
US20200317055A1 (en) Agent device, agent device control method, and storage medium
KR20220073513A (ko) 대화 시스템, 차량 및 대화 시스템의 제어 방법
JP2019212168A (ja) 音声認識システムおよび情報処理装置
JP2018141742A (ja) ナビゲーション装置、ナビゲーション方法、及びナビゲーション用プログラム
JP2020144264A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
CN116798415A (zh) 对话管理方法、用户终端和计算机可读记录介质
CN111559317B (zh) 智能体装置、智能体装置的控制方法及存储介质
JP2019159559A (ja) 情報提供装置
US11518399B2 (en) Agent device, agent system, method for controlling agent device, and storage medium
US11542744B2 (en) Agent device, agent device control method, and storage medium
JP2020142721A (ja) エージェントシステム、車載機器の制御方法、及びプログラム
JP2020060623A (ja) エージェントシステム、エージェント方法、およびプログラム
JP7217209B2 (ja) 音声対話装置、音声対話方法、及びプログラム
CN111739524B (zh) 智能体装置、智能体装置的控制方法及存储介质