JP2020091435A - 音声認識システム、音声認識システムの通知方法、プログラム、及び移動体搭載機器 - Google Patents
音声認識システム、音声認識システムの通知方法、プログラム、及び移動体搭載機器 Download PDFInfo
- Publication number
- JP2020091435A JP2020091435A JP2018229441A JP2018229441A JP2020091435A JP 2020091435 A JP2020091435 A JP 2020091435A JP 2018229441 A JP2018229441 A JP 2018229441A JP 2018229441 A JP2018229441 A JP 2018229441A JP 2020091435 A JP2020091435 A JP 2020091435A
- Authority
- JP
- Japan
- Prior art keywords
- information
- notification
- speaker
- voice
- processing unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Navigation (AREA)
Abstract
【課題】正しい認識結果が得られるまでの発話の回数を低減可能な音声認識システム、音声認識システムの通知方法、プログラム、及び移動体搭載機器を提供する。【解決手段】音声認識システム1は、認識処理部2と、通知処理部5とを備える。認識処理部2は、話者が発した音声を認識する。通知処理部5は、誤認識が発生する複数の要因のそれぞれに関連した複数の通知情報の各々が通知された履歴を示す履歴情報に基づいて、複数の通知情報の中から選択した通知情報を話者に対して通知する。【選択図】図1
Description
本開示は、音声認識システム、音声認識システムの通知方法、プログラム、及び移動体搭載機器に関する。より詳細には、本開示は、話者が発した音声を認識する音声認識システム、音声認識システムの通知方法、プログラム、及び移動体搭載機器に関する。
特許文献1は、音声認識辞書に収録されている単語のデータに基づいてユーザが発声した音声を認識する音声認識エンジンを備えた音声認識装置を開示する。特許文献1の音声認識装置では、音声認識エンジンで認識エラーと判断した場合、誤認識の要因に注意して再音声入力させるためのガイダンス(通知情報)を音声で出力し、ユーザに再音声入力を促している。
特許文献1に開示された音声認識装置では、音声認識エンジンが誤認識を繰り返す場合、複数の要因に対応した複数のガイダンスを、同じ内容のガイダンスが再度提示されないように順次提示している。そのため、直前に発生した誤認識の要因に対応したガイダンスが提示されるとは限らず、直前に発生した誤認識に対応していないガイダンスが提示された場合、その後に再音声入力が行われても誤認識が発生する可能性が高くなる。したがって、正しい認識結果が得られるまでの発話の回数が多くなるという問題があった。
本開示の目的は、正しい認識結果が得られるまでの発話の回数を低減可能な音声認識システム、音声認識システムの通知方法、プログラム、及び移動体搭載機器を提供することにある。
本開示の一態様の音声認識システムは、認識処理部と、通知処理部と、を備える。前記認識処理部は、話者が発した音声を認識する。前記通知処理部は、複数の通知情報の各々が通知された履歴を示す履歴情報に基づいて、前記複数の通知情報の中から選択した通知情報を前記話者に対して通知する。前記複数の通知情報は、誤認識が発生する複数の要因のそれぞれに関連した情報である。
本開示の一態様の音声認識システムの通知方法は、認識処理と、通知処理と、を含む。前記認識処理では、話者が発した音声を認識する。前記通知処理では、複数の通知情報の各々が通知された履歴を示す履歴情報に基づいて、前記複数の通知情報の中から選択した通知情報を前記話者に対して通知する。前記複数の通知情報は、誤認識が発生する複数の要因のそれぞれに関連した情報である。
本開示の一態様のプログラムは、コンピュータシステムに、認識処理と、通知処理と、を実行させるためのプログラムである。前記認識処理では、話者が発した音声を認識する。前記通知処理では、複数の通知情報の各々が通知された履歴を示す履歴情報に基づいて、前記複数の通知情報の中から選択した通知情報を前記話者に対して通知する。前記複数の通知情報は、誤認識が発生する複数の要因のそれぞれに関連した情報である。
本開示の一態様の移動体搭載機器は、前記音声認識システムを備える。前記認識処理部は、移動体に配置されたマイクに入力される前記音声を認識する。
本開示によれば、正しい認識結果が得られるまでの発話の回数を低減可能な音声認識システム、音声認識システムの通知方法、プログラム、及び移動体搭載機器を提供することができる。
以下に説明する実施形態は、本開示の種々の実施形態の一つに過ぎない。本開示の実施形態は、下記実施形態に限定されることはなく、この実施形態以外も含み得る。また、下記の実施形態は、本開示に係る技術的思想を逸脱しない範囲であれば、設計等に応じて種々の変更が可能である。
(実施形態)
(1)概要
本実施形態の音声認識システム1は、図1に示すように、認識処理部2と、通知処理部5と、を備える。認識処理部2は、話者が発した音声を認識する。通知処理部5は、複数の通知情報の各々が通知された履歴を示す履歴情報に基づいて、前記複数の通知情報の中から選択した通知情報を前記話者に対して通知する。複数の通知情報は、誤認識が発生する複数の要因のそれぞれに関連した情報である。
(1)概要
本実施形態の音声認識システム1は、図1に示すように、認識処理部2と、通知処理部5と、を備える。認識処理部2は、話者が発した音声を認識する。通知処理部5は、複数の通知情報の各々が通知された履歴を示す履歴情報に基づいて、前記複数の通知情報の中から選択した通知情報を前記話者に対して通知する。複数の通知情報は、誤認識が発生する複数の要因のそれぞれに関連した情報である。
ここにおいて、認識処理部2による音声の認識処理において誤認識が発生する要因は様々である。音声の誤認識の要因としては、例えば、話者が発した音声の音量が適正な音量範囲よりも大きい又は小さい、話者が発した音声の速度が適正な速度範囲よりも遅い又は速い、話者が発する音声の滑舌が悪い、等の要因がある。本実施形態の音声認識システム1では、認識処理部2によって音声が正しく認識されるように、誤認識の要因に関連する通知情報を話者に対して通知する。ここにおいて、通知情報は、要因自体を示す要因情報と、誤認識の要因を正すような発話の仕方を指導するためのガイダンス情報との少なくとも一方を含む。以下の実施形態では、通知処理部5が、ガイダンス情報のみを含む通知情報を話者に通知する場合を例に説明しており、話者は通知情報に含まれるガイダンス情報に従って発話の仕方を修正することができる。なお、通知処理部5は、要因情報とガイダンス情報とを含む通知情報を話者に通知してもよいし、要因情報のみを含む通知情報を話者に通知してもよい。この場合においても話者は要因情報に基づいて、誤認識の要因に注意しながら発話することができる。
ここで、誤認識が発生する要因は複数あるので、音声認識システム1では、下記の表1に示すように、複数の要因にそれぞれ対応した複数の要因情報と、複数の要因情報(要因)にそれぞれ対応した複数のガイダンス情報を用意している。
なお、表1に示す要因情報及びガイダンス情報は一例であり、他の要因を示す要因情報と当該要因情報に対応したガイダンス情報を含んでいてもよい。例えば、話者が話す「内容が詳しすぎる(話が長い)」という要因情報に対しては、「簡潔に話してください」というガイダンス情報が対応付けて保持されればよい。また、話者が話す「内容が簡潔すぎる(情報が足りない)」という要因情報に対しては、「もう少し詳しく話してください」というガイダンス情報が対応付けて保持されればよい。また、要因情報及びガイダンス情報の内容は、話者が話す言語(標準語、方言、外国語等)、話者の年齢、性別等に応じて適宜変更が可能である。
また、履歴情報とは、複数の通知情報の各々が通知された履歴を示す情報である。履歴情報は、例えば複数の通知情報の各々が通知された頻度(回数)に関する頻度情報を含んでもよい。履歴情報は、複数の通知情報の各々が通知されたときの時間に関する時間情報を含んでもよい。通知処理部5は、例えば履歴情報に含まれる時間情報に基づいて、ある時間帯(例えば誤認識が発生した時間帯と同じ時間帯)に通知された通知情報、又はある期間(直近の1週間等)に通知された通知情報を選択することができる。また、音声認識システム1が、例えば移動体に搭載されるナビゲーションシステムのような移動体搭載機器10に備えられる場合、履歴情報は、複数の通知情報の各々が通知されたときの話者の周囲環境に関する環境情報を含んでもよい。通知処理部5は、例えば、履歴情報に含まれる環境情報に基づいて、話者の現在の周囲環境と似たような周囲環境で以前に提案された通知情報を選択することができる。また、履歴情報は、複数の通知情報の各々が通知された後で、話者が再入力した音声を認識処理部2が認識した結果を示す成否情報(つまり、正しく認識されたか、又は、誤認識が発生したかを示す情報)を含んでもよい。通知処理部5は、例えば履歴情報に含まれる成否情報に基づいて、通知情報を提案することによって音声認識が成功したときに通知された通知情報を優先的に選択することができる。
本実施形態では、通知処理部5が、履歴情報に基づいて複数の通知情報の中から選択した通知情報を話者に通知するので、複数の通知情報を固定された順番で話者に通知する場合に比べて、誤認識の要因に対応した通知情報を通知しやすくなる。したがって、正しい認識結果が得られるまでの発話の回数を低減可能な音声認識システム1を提供できる。また、話者は、正しい認識結果が得られるまでに何度も発話しなくてよいので、発話の仕方や発話の内容に気を取られにくくなる、という利点もある。
(2)詳細
(2.1)構成
以下、本実施形態に係る音声認識システム1、及び音声認識システム1を備えた移動体搭載機器10について図面を参照して詳しく説明する。
(2.1)構成
以下、本実施形態に係る音声認識システム1、及び音声認識システム1を備えた移動体搭載機器10について図面を参照して詳しく説明する。
音声認識システム1は、認識処理部2と、音声認識辞書3と、対話処理部4と、通知処理部5とを備える。通知処理部5は、履歴情報保持部6と、ガイダンス提案部7とを備える。
また、本実施形態の音声認識システム1は、自動車のような移動体に搭載される移動体搭載機器10に備えられている。移動体搭載機器10は、移動体の乗員(例えば移動体の運転手等)と音声対話を行うことによって操作される機器である。移動体搭載機器10は、移動体に配置されたマイク11及びスピーカ12と、音声認識システム1とを備える。換言すると、移動体搭載機器10は、音声認識システム1を備え、認識処理部2は、移動体に配置されたマイク11に入力される音声を認識する。
移動体搭載機器10では、移動体の乗員が発した音声がマイク11を介して音声認識システム1に入力されると、音声認識システム1によって音声の認識処理が行われる。そして、移動体搭載機器10は、音声認識システム1による音声の認識結果に基づいて、移動体の乗員が音声で発した指示に基づく動作を行う。移動体搭載機器10がナビゲーションシステムである場合、移動体の乗員が目的地を示す言葉又は目的地を検索するための言葉(検索語)を音声で発すると、音声認識システム1によって音声の内容が認識される。ナビゲーションシステムは、音声の認識結果に基づいて、例えば目的地までの経路を検索したり、目的地を検索するための検索語から目的地の候補を検索したりして、検索結果を話者に提示する動作を行う。そして、目的地が決定されると、ナビゲーションシステムは、決定された目的地までの経路を案内する動作を行う。
音声認識システム1は、例えば、コンピュータシステムを含んでいる。コンピュータシステムは、ハードウェアとしてのプロセッサ及びメモリを主構成とする。コンピュータシステムのメモリに記録されたプログラムをプロセッサが実行することによって、音声認識システム1の機能(例えば、認識処理部2、対話処理部4、及び通知処理部5等の機能)が実現される。プログラムは、コンピュータシステムのメモリに予め記録されている。なお、プログラムは、電気通信回線を通じて提供されてもよいし、コンピュータシステムで読み取り可能なメモリカード、光学ディスク、ハードディスクドライブ等の非一時的記録媒体に記録されて提供されてもよい。
音声認識辞書3は、音声認識の対象となる複数の単語と、複数の単語をそれぞれ表す複数の音響モデルとを対応付けて記憶する。音響モデルは、対応する単語の音響特徴量(例えばパワー及び周波数特性等)に関する統計量を含む。音響モデルは、例えば年齢、性別、体格等がばらばらの多数の話者が発した音声から音響特徴量を抽出することによって作成されている。音声認識辞書3は、例えばコンピュータシステムが備えるメモリに記憶されている。
履歴情報保持部6は、複数の要因情報と、複数の要因の各々に対応する複数のガイダンス情報と、複数のガイダンス情報の各々が通知された履歴を示す履歴情報とを対応付けて記憶する。ここにおいて、本実施形態の履歴情報保持部6は、履歴情報として、複数のガイダンス情報の各々が通知された頻度(回数)を示す頻度情報を含んでいる。ここでいう頻度情報は、複数の通知情報の各々が話者に通知された後に、話者が発した音声が正しく認識された頻度に関する情報である。下記の表2は、履歴情報保持部6に保持された履歴情報の一例を示している。本実施形態では、履歴情報保持部6には、誤認識が発生する複数の要因情報と、複数の要因情報にそれぞれ対応する複数のガイダンス情報と、複数のガイダンス情報の各々が以前に通知された頻度を示す頻度情報とが対応付けて記憶されている。履歴情報保持部6は、例えばコンピュータシステムが有するメモリ、例えば電気的に書き換え可能なEEPROM(Electrically Erasable Programmable Read Only Memory)等で実現されている。
認識処理部2は、話者が発した音声がマイク11によって電気信号である音声信号に変換されると、音声信号から音響特徴量を抽出する。認識処理部2は、例えば、音声信号から抽出した音響特徴量を元に、音声認識辞書3に記憶された音響モデルを参照して、単語ごとに一致度合いを示す確率(スコア)を求める。認識処理部2は、スコアが最も高い単語を音声の認識結果として出力する。
対話処理部4は、認識処理部2による音声の認識結果に基づいて、話者に応答する応答メッセージを作成し、作成した応答メッセージを音声合成してスピーカ12から出力させる。
通知処理部5のガイダンス提案部7は、対話処理部4が出力した音声メッセージと認識処理部2での認識結果とに基づいて、通知情報としてガイダンス情報を通知する処理を行うか否かを決定する。ガイダンス提案部7は、例えば認識処理部2による音声の認識処理において誤認識が発生すると、履歴情報保持部6に保持された履歴情報に基づいて、複数のガイダンス情報の中から話者に提案するガイダンス情報を選択する。ガイダンス提案部7が、選択したガイダンス情報を対話処理部4に出力すると、対話処理部4は、ガイダンス提案部7から入力されたガイダンス情報を音声合成してスピーカ12に出力し、スピーカ12からガイダンス情報を音声で出力させる。
ところで、通知処理部5が通知情報を例えばディスプレイ装置に表示する場合、話者はディスプレイ装置に表示された通知情報を目視する必要がある。それに対して、本実施形態では、通知処理部5は、通知情報(ガイダンス情報)を話者に対して音声で通知しているので、話者は視線を動かさなくても、通知情報を耳で聞くことで確認できる。したがって、話者が移動体の乗員である場合には、通知情報を音声で通知することによって、移動体の乗員は視線を動かさなくても通知情報を確認できるようになり、作業中(例えば移動体の運転作業中)の話者の注意が作業対象からそれにくいという利点がある。
(2.2)動作
次に、本実施形態の音声認識システム1の動作を図2に基づいて説明する。
次に、本実施形態の音声認識システム1の動作を図2に基づいて説明する。
音声認識システム1は、音声が入力されると音声の認識処理を行うが、音声認識システム1を備えた移動体搭載機器10は、ウェイクワード(Wake Word)が発話されるまでは、音声の認識結果に基づく動作を行わない。
音声認識システム1及び移動体搭載機器10のユーザである話者(例えば移動体の乗員)がウェイクワードを発話すると、マイク11がユーザの発した音声を電気信号(音声信号)に変換して、音声認識システム1に出力する。音声認識システム1の認識処理部2は、マイク11からウェイクワードの音声信号が入力されると、入力された音声信号の音声認識を行っており、音声がウェイクワードであると認識されると、移動体搭載機器10は音声の認識結果に基づく動作を開始する。このとき、音声認識システム1の対話処理部4は、移動体搭載機器10が音声の認識結果に基づく動作を開始したことを示す音声メッセージを音声合成してスピーカ12から出力させてもよい。これにより、話者は、移動体搭載機器10が音声で操作可能な状態になったことを把握できる。
移動体搭載機器10が音声で操作可能な状態になると、話者は、例えば、移動体の目的地を検索するために、目的地を絞り込むための検索語(例えば「渋谷のパン屋」等)を発話する。話者が音声を発すると、マイク11がユーザの発した音声を電気信号に変換して、音声認識システム1に出力する(S1)。
音声認識システム1の認識処理部2は、マイク11から音声信号が入力されると、入力された音声信号の音声認識を行い、認識結果を対話処理部4に出力する。対話処理部4は、認識処理部2の認識結果を音声合成し、音声合成して得た音声信号をスピーカ12に出力し、スピーカ12から認識結果を音声で出力させることによって認識結果を話者に提示する(S2)。
話者は、スピーカ12から音声で出力された認識結果を聞き、認識結果が正しければ肯定の言葉(例えば「はい」)を、認識結果が間違っていれば否定の言葉(例えば「いいえ」)を発話する。話者が発した言葉はマイク11によって電気信号に変換され、認識処理部2によって音声認識が行われる。
認識結果の提示後に話者が発した音声が肯定の言葉であれば、認識処理部2は、ステップS1で話者が発した音声が正しく認識されたと判断する(S3:Yes)。この場合、移動体搭載機器10は、ステップS2の認識結果に応じた動作を行う。例えば、ステップS1で入力された音声が目的地を検索するための検索語であった場合、移動体搭載機器10は検索語をもとに目的地を検索する処理を行い、検索結果を示す音声メッセージを対話処理部4により音声合成させて、スピーカ12から音声で出力させる(S4)。これにより、話者は、ステップS1で発した音声に基づいて移動体搭載機器10が行った動作の結果を音声で受け取ることができる。
一方、認識結果の提示後に話者が発した音声が否定の言葉であれば、認識処理部2は、ステップS1で話者が発した音声が誤認識されたと判断する(S3:No)。このとき、ガイダンス提案部7は、履歴情報保持部6に保持された履歴情報に基づいて、話者に提案するガイダンス情報を選択する(S5)。本実施形態では、履歴情報に頻度情報が含まれており、ガイダンス提案部7は、複数のガイダンス情報の中から話者に通知するガイダンス情報を頻度が多い順番に選択する。ここで、複数のガイダンス情報の頻度が全て同じだった場合、ガイダンス提案部7は、予め定めた順番でガイダンス情報を選択すればよい。ガイダンス提案部7は、選択したガイダンス情報(例えば「ゆっくりとお話しください」)を対話処理部4に出力する。対話処理部4は、ガイダンス提案部7からガイダンス情報が入力されると、ガイダンス情報を音声合成した音声データをスピーカ12に出力し、スピーカ12からガイダンス情報を音声で出力させる(S6)。
話者は、ステップS6でスピーカ12から音声で出力されたガイダンス情報を聞くと、ガイダンス情報で指導された発話の仕方に気をつけて、誤認識された音声を再び発話する(S7)。例えば、ステップS6で出力されたガイダンス情報が「ゆっくりとお話しください」であれば、話者は、ステップS1で発話したときに比べて発話の速度を遅くして音声を発話する。
ガイダンス情報を聞いた話者がステップS7で発話した音声はマイク11から認識処理部2に入力され、認識処理部2によって認識処理が行われる。このとき、対話処理部4が、認識処理部2の認識結果を音声合成してスピーカ12から出力させることで、認識結果を話者に提示する(S8)。
話者は、スピーカ12から音声で出力された認識結果を聞き、認識結果が正しければ肯定の言葉(例えば「はい」)を、認識結果が間違っていれば否定の言葉(例えば「いいえ」)を発話する。このとき話者が発した言葉はマイク11によって電気信号に変換され、認識処理部2が音声認識を行う。
認識結果の提示後に話者が発した音声が否定の言葉であれば、認識処理部2は、ステップS7で話者が発した音声が誤認識されたと判断する(S9:No)。このとき、ガイダンス提案部7は、履歴情報保持部6に保持された履歴情報に基づいて、次に通知するガイダンス情報を選択する選択処理を行う(S10)。例えば、ガイダンス提案部7は、ステップS6で通知したガイダンス情報の次に頻度が高いガイダンス情報を選択するように選択処理を行う。
S10の選択処理において、次に提案するガイダンス情報が選択されれば(S11:No)、音声認識システム1は、ステップS6に戻ってステップS6以降の処理を実行する。
S10の選択処理において、次に提案するガイダンス情報が無かった場合(S11:Yes)、ガイダンス提案部7はガイダンス情報を出力させない。このとき、対話処理部4は、話者に対して音声の認識処理が失敗したことを通知し、音声の再入力を促す音声メッセージを音声合成してスピーカ12から出力させて、音声の認識処理を一旦終了する。その後、話者が音声を再び発話すると、音声認識システム1はステップS1以降の処理を再び実行する。
また、ステップS9の判定において、認識結果の提示後に話者が発した音声が肯定の言葉であれば、認識処理部2は、ステップS7で話者が発した音声が正しく認識されたと判断する(S9:Yes)。このとき、ガイダンス提案部7は、ステップS6で通知したガイダンス情報が、誤認識の要因に対応したガイダンス情報であると判断し、当該ガイダンス情報の頻度を1つ増やすように履歴情報を更新し、更新後の履歴情報を履歴情報保持部6に保持させる(S12)。なお、ガイダンス提案部7は、ガイダンス情報を通知しても誤認識が発生しり、音声の認識精度が低下したりした場合、このガイダンス情報の頻度を1つ減らすように履歴情報を更新してもよい。
そして、移動体搭載機器10は、ステップS8の認識結果に応じた動作を行う。例えば、ステップS7で入力された音声が目的地を検索するための検索語であった場合、移動体搭載機器10は検索語をもとに目的地を検索する処理を行い、検索結果を示す音声メッセージを対話処理部4により音声合成させて、スピーカ12から音声で出力させる(S13)。これにより、話者は、ステップS7で発した音声に基づいて移動体搭載機器10が行った動作の結果を音声で受け取ることができる。
なお、音声認識システム1は、話者が発した音声の音声認識を行った場合、認識結果を提示し(S2)、認識結果に対する話者の発話内容に基づいて誤認識が発生したか否かを判定しているが(S3)、他の方法で誤認識が発生したか否かを判定しもよい。例えば、音声認識システム1は、認識結果を提示した後に(S2)、話者によって所定の操作部が操作されると誤認識が発生したと判定してもよい。また、音声認識システム1は、認識結果を提示してから、所定の待機時間が経過するまでの間に話者からの発話がなければ、誤認識が発生してもよい。また、音声認識システム1は、ステップS1で話者が発した音声の音声認識を行った場合に、認識結果のスコアが所定のしきい値よりも低ければ、正しい認識結果が得られていないと判断してもよい。
また、ステップS1又はS7で入力された音声が認識不能だった場合、音声認識システム1は、再入力を促すメッセージ(例えば「もう一度話してください」)を出力してもよいし、ガイダンス提案部7が、履歴情報に基づいて選択したガイダンス情報を出力させてもよい。
次に、上述した音声認識システム1が話者と音声対話を行う場合の動作について図3及び図4のシーケンス図を参照して更に詳しく説明する。図3及び図4は、移動体の乗員である話者が、渋谷にあるパン屋を検索するために、「渋谷のパン屋」と発話した場合の音声認識システム1の動作を示している。ここで、図3は、履歴情報保持部6に履歴情報が十分に蓄積されていない場合の音声認識システム1の動作を示し、図4は、履歴情報保持部6に履歴情報が十分に蓄積されている場合の音声認識システム1の動作を示している。
まず、図3のシーケンス図を参照して音声認識システム1の動作を説明する。
音声認識システム1のユーザである話者が、渋谷にあるパン屋を検索するために、「渋谷のパン屋」と発話した場合に(S21)、音声認識システム1の認識処理部2が「渋谷 本屋」と音声認識すると(S22)、対話処理部4が認識結果を音声で提示する。対話処理部4は、例えば『「渋谷 本屋」で探しますか』との音声メッセージを音声合成し、スピーカ12から音声で出力させる(S23)。
認識結果の提示を受けた話者は、認識結果が間違っているので「いいえ」と発話し(S24)、認識処理部2は、認識結果の提示後に話者が発した音声が「いいえ」である場合(S25)、ステップS22での認識処理で誤認識が発生したと判断する。このとき、ガイダンス提案部7は、履歴情報保持部6に保持された履歴情報に基づき、複数のガイダンス情報の中から頻度が多い順番にガイダンス情報を選択し、選択したガイダンス情報を音声で出力する。例えば、頻度が最も多いガイダンス情報は、「声が小さい」という要因情報に対応したガイダンス情報であり、対話処理部4は、このガイダンス情報(例えば「声を大きくしてお話しください」)を音声合成してスピーカ12から出力させる(S26)。
図3の例では、誤認識の要因が、発話の速度が速いという要因であるので、ステップS26でガイダンス情報が通知された後に話者が声を大きくして発話しても(S27)、認識処理部2によって再び誤認識が発生する(S28〜S31)。誤認識が再び発生すると、ガイダンス提案部7は、履歴情報保持部6に保持された履歴情報に基づき、次に頻度が多いガイダンス情報(例えば「滑舌が悪い」という要因情報に対応したガイダンス情報)を選択し、選択したガイダンス情報を音声で出力する(S32)。例えば、対話処理部4は、滑舌が悪いという要因情報に対応して、「はっきりとお話しください」というガイダンス情報をスピーカ12から音声で出力させる。
図3の例では、誤認識の要因が、発話の速度が速いという要因であるので、ステップS32でガイダンス情報を提案した後に話者がはっきりと発話しても(S33)、認識処理部2によって再び誤認識が発生する(S34〜S37)。誤認識が再び発生すると、ガイダンス提案部7は、履歴情報保持部6に保持された履歴情報に基づき、次に頻度が多いガイダンス情報(例えば「話す速度が速い」という要因情報に対応したガイダンス情報)を選択し、選択したガイダンス情報を音声で出力する(S38)。例えば、対話処理部4は、話す速度が速いという要因情報に対応して、「ゆっくりとお話しください」というガイダンス情報をスピーカ12から音声で出力させる。
図3の例では、誤認識の要因が、発話の速度が速いという要因であるので、ステップS38でガイダンス情報が通知された後に話者がゆっくりと発話すると(S39)、認識処理部2によって音声が正しく認識される(S40〜S43)。ここで、ガイダンス情報を提案することによって正しい認識結果が得られると、音声認識システム1は、ステップS38で提案したガイダンス情報の頻度を1つ増やすように履歴情報を更新し、履歴情報保持部6に保持させる。また、移動体搭載機器10は、音声認識システム1によって正しく認識された認識結果に基づいて、ステップS39で話者が発話した音声に従った動作を行う。例えば、移動体搭載機器10は、ステップS39で話者が発話した音声に基づいて、渋谷のパン屋を検索する。そして、対話処理部4が検索結果を音声合成してスピーカ12から音声で出力させており、話者は、ステップS39で発話した音声に基づいて移動体搭載機器10が検索した結果を音声で取得できる。
このように、通知処理部5は、履歴情報に基づいて頻度が高い順番でガイダンス情報を選択しているので、複数のガイダンス情報を固定の順番で選択したり、無作為に選択したりする場合に比べて、正しいガイダンス情報が通知されるまでの回数を低減可能になる。
次に、図4のシーケンス図を参照して、履歴情報が十分に蓄積された状態での音声認識システム1の動作を説明する。
履歴情報が十分に蓄積された状態で、ステップS51において話者が発話した音声が誤認識された場合(S52〜S55)、履歴情報に基づいて頻度が最も多いガイダンス情報が話者に通知される(S56)。履歴情報が十分に蓄積された状態では、音声認識システム1を利用する話者や音声認識システム1を利用する時間帯及び周囲環境によって、誤認識の要因がある程度絞り込まれる。したがって、ガイダンス提案部7が、履歴情報に基づいて頻度が最も多いガイダンス情報を選択して、スピーカ12から音声で出力すると、当該音声認識システム1で発生しやすい誤認識の要因に対応したガイダンス情報が通知される可能性が高くなる。例えば、音声認識システム1による誤認識の要因として「発話の速度が速い」という要因情報が最も多かった場合、この要因情報に対応したガイダンス情報(例えば「ゆっくりとお話しください」)を通知処理部5が通知する。したがって、通知処理部5は、音声認識システム1において多発する要因に対応したガイダンス情報を通知するので、誤認識の要因に適したガイダンス情報が通知される可能性が高くなる。
図4の例では、誤認識の要因が、発話の速度が速いという要因であるので、ステップS56でガイダンス情報を通知した後に話者がゆっくりと発話すると(S57)、認識処理部2によって音声が正しく認識される(S58〜S61)。ここで、ガイダンス情報を通知することによって正しい認識結果が得られると、音声認識システム1は、ステップS56で通知したガイダンス情報の頻度を1つ増やすように履歴情報を更新し、履歴情報保持部6に保持させる。また、移動体搭載機器10は、音声認識システム1によって正しく認識された認識結果に基づいて、ステップS57で話者が発話した音声に従った動作を行う。
このように、履歴情報が十分に蓄積された後では、話者が発した音声が誤認識された場合に、通知処理部5が、誤認識が発生しやすい要因情報に対応したガイダンス情報を早めに通知するようになり、正しい認識結果が得られるまでの発話の回数を低減できる。
また、本実施形態の音声認識システム1では、通知処理部5は、認識処理部2による音声の誤認識が発生すると、所定の処理を行う。所定の処理とは、通知処理部5が、履歴情報に基づいて複数のガイダンス情報の中から順番に選択したガイダンス情報を話者に対して通知する処理である。通知処理部5は、誤認識が発生した場合、履歴情報に基づいて選択されたガイダンス情報を順番に出力しているので、正しい認識結果が得られるまでの発話の回数を低減できる。
また、本実施形態の音声認識システム1では、通知処理部5は、認識処理部2が音声を誤認識した場合に、通知情報を話者に対して通知している。認識処理部2が音声を誤認識した場合に、通知処理部5が通知情報を話者に通知することで、話者に対して、誤認識が発生しにくい発話の仕方で発話するように促すことができる。
また、本実施形態の音声認識システム1では、履歴情報は、通知処理部5が通知した通知情報の履歴に関する情報である。つまり、履歴情報は、1つの音声認識システム1の通知処理部5が以前に通知した通知情報の履歴に関する情報である。したがって、本実施形態の音声認識システム1では、当該音声認識システム1を利用する話者の話し方に応じた通知情報を通知できる。
なお、複数の音声認識システム1と通信ネットワークを介して通信するサーバが、複数の音声認識システム1から通知処理部5が通知した通知情報を収集し、収集した情報に基づいて履歴情報を蓄積してもよい。そして、各音声認識システム1の通知処理部5が、サーバで蓄積された履歴情報に基づいて、複数の通知情報の中から選択した通知情報を話者に対して通知してもよい。この場合、サーバは、各々の音声認識システム1よりも多くの履歴情報を収集することができるので、誤認識が発生しやすい要因に対応した通知情報をを通知することができる。
(3)変形例
上記実施形態は、本開示の様々な実施形態の一つに過ぎない。上記実施形態は、本開示の目的を達成できれば、設計等に応じて種々の変更が可能である。また、音声認識システム1と同様の機能は、音声認識システム1の通知方法、コンピュータプログラム、又はプログラムを記録した非一時的な記録媒体等で具現化されてもよい。一態様に係る音声認識システム1の通知方法は、認識処理と、通知処理とを含む。認識処理では、話者が発した音声を認識する。通知処理では、複数の通知情報の各々が通知された履歴を示す履歴情報に基づいて、複数の通知情報の中から選択した通知情報を話者に対して通知する。複数の通知情報は、誤認識が発生する複数の要因のそれぞれに関連した情報である。一態様に係る(コンピュータ)プログラムは、コンピュータシステムに、認識処理と、通知処理と、を実行させるためのプログラムである。
上記実施形態は、本開示の様々な実施形態の一つに過ぎない。上記実施形態は、本開示の目的を達成できれば、設計等に応じて種々の変更が可能である。また、音声認識システム1と同様の機能は、音声認識システム1の通知方法、コンピュータプログラム、又はプログラムを記録した非一時的な記録媒体等で具現化されてもよい。一態様に係る音声認識システム1の通知方法は、認識処理と、通知処理とを含む。認識処理では、話者が発した音声を認識する。通知処理では、複数の通知情報の各々が通知された履歴を示す履歴情報に基づいて、複数の通知情報の中から選択した通知情報を話者に対して通知する。複数の通知情報は、誤認識が発生する複数の要因のそれぞれに関連した情報である。一態様に係る(コンピュータ)プログラムは、コンピュータシステムに、認識処理と、通知処理と、を実行させるためのプログラムである。
以下、上記の実施形態の変形例を列挙する。以下に説明する変形例は、適宜組み合わせて適用可能である。なお、以下では、上記実施形態を「基本例」と呼ぶこともある。
本開示における音声認識システム1及び移動体搭載機器10は、コンピュータシステムを含んでいる。コンピュータシステムは、ハードウェアとしてのプロセッサ及びメモリを主構成とする。コンピュータシステムのメモリに記録されたプログラムをプロセッサが実行することによって、本開示における音声認識システム1及び移動体搭載機器10としての機能が実現される。プログラムは、コンピュータシステムのメモリに予め記録されてもよく、電気通信回線を通じて提供されてもよく、コンピュータシステムで読み取り可能なメモリカード、光学ディスク、ハードディスクドライブ等の非一時的記録媒体に記録されて提供されてもよい。コンピュータシステムのプロセッサは、半導体集積回路(IC)又は大規模集積回路(LSI)を含む1ないし複数の電子回路で構成される。ここでいうIC又はLSI等の集積回路は、集積の度合いによって呼び方が異なっており、システムLSI、VLSI(Very Large Scale Integration)、又はULSI(Ultra Large Scale Integration)と呼ばれる集積回路を含む。さらに、LSIの製造後にプログラムされる、FPGA(Field-Programmable Gate Array)、又はLSI内部の接合関係の再構成若しくはLSI内部の回路区画の再構成が可能な論理デバイスについても、プロセッサとして採用することができる。複数の電子回路は、1つのチップに集約されていてもよいし、複数のチップに分散して設けられていてもよい。複数のチップは、1つの装置に集約されていてもよいし、複数の装置に分散して設けられていてもよい。ここでいうコンピュータシステムは、1以上のプロセッサ及び1以上のメモリを有するマイクロコントローラを含む。したがって、マイクロコントローラについても、半導体集積回路又は大規模集積回路を含む1ないし複数の電子回路で構成される。
また、音声認識システム1における複数の機能(認識処理部2及び通知処理部5の機能)が、1つの筐体内に集約されていることは音声認識システム1に必須の構成ではなく、音声認識システム1の構成要素は、複数の筐体に分散して設けられていてもよい。さらに、音声認識システム1の少なくとも一部の機能、例えば、認識処理部2又は通知処理部5の一部の機能がクラウド(クラウドコンピューティング)等によって実現されてもよい。
(3.1)変形例1
変形例1の音声認識システム1は、誤認識が発生した場合に、通知処理部5が、まず初めに、前回提案した通知情報を話者に提案する点で上記の基本例と相違する。なお、音声認識システム1の構成は基本例と同様であるので、同一の構成要素には同一の符号を付して、その説明は省略する。
変形例1の音声認識システム1は、誤認識が発生した場合に、通知処理部5が、まず初めに、前回提案した通知情報を話者に提案する点で上記の基本例と相違する。なお、音声認識システム1の構成は基本例と同様であるので、同一の構成要素には同一の符号を付して、その説明は省略する。
図5は変形例1の音声認識システム1の動作を説明するフローチャートである。なお、変形例1の音声認識システム1の動作は、基本例の音声認識システム1の動作とステップS5Aの処理のみ相違し、他のステップの処理は図2のフローチャートの処理と同様である。したがって、以下では、変形例1の特徴部分に関連する動作について説明し、基本例と同様の処理については説明を省略する。
基本例の音声認識システム1では、図2に示すように、ステップS1で話者が発した音声が誤認識された場合(S3:No)、通知処理部5が、履歴情報に基づいて、頻度が最も多いガイダンス情報を選択している(S5)。
一方、本変形例では、図5に示すように、ステップS1で話者が発した音声が誤認識された場合(S3:No)、通知処理部5は、前回通知したガイダンス情報を選択し(S5A)、選択したガイダンス情報をスピーカ12から音声で出力させている(S6)。
ここで、誤認識が発生した場合、前回と同じ要因で誤認識が発生する可能性もある。本変形例では、誤認識が発生した場合、通知処理部5が、前回通知したガイダンス情報を話者に提案しているので、同じ要因で繰り返し誤認識が発生した場合には、正しい認識結果が得られるまでの発話の回数を低減できる。
なお、前回通知したガイダンス情報を通知した後に誤認識が発生した場合(S9:No)、通知処理部5は、履歴情報に基づいて、複数のガイダンス情報の中から提案するガイダンス情報を選択し(S10)、選択したガイダンス情報を音声で出力する(S6)。
したがって、前回通知したガイダンス情報を通知した後も誤認識が発生する場合、通知処理部5が、履歴情報に基づいてガイダンス情報を選択し、選択したガイダンス情報を出力するので、正しい認識結果が得られるまでの発話の回数を低減できる。
(3.2)変形例2
変形例2の音声認識システム1は、図6に示すように、話者を特定する話者特定部8を、更に備える点で上記の基本例と相違する。また、変形例2の音声認識システム1では、複数の話者のそれぞれについて履歴情報を保持する複数の履歴情報保持部6を有している。なお、話者特定部8以外の音声認識システム1の構成は基本例と同様であるので、同一の構成要素には同一の符号を付して、その説明は省略する。
変形例2の音声認識システム1は、図6に示すように、話者を特定する話者特定部8を、更に備える点で上記の基本例と相違する。また、変形例2の音声認識システム1では、複数の話者のそれぞれについて履歴情報を保持する複数の履歴情報保持部6を有している。なお、話者特定部8以外の音声認識システム1の構成は基本例と同様であるので、同一の構成要素には同一の符号を付して、その説明は省略する。
話者特定部8は、マイク11に入力された音声の声紋等に基づいて、話者を特定する。なお、話者特定部8は、声紋以外の生体情報に基づいて話者を特定してもよく、例えば指紋センサで検出した指紋の情報に基づいて話者を特定してもよいし、画像センサで検出した虹彩画像又は顔画像に基づいて話者を特定してもよい。また、話者特定部8は、話者が操作部(例えば選択ボタン等)を操作することによって、操作部から入力される操作信号に基づいて、話者を特定してもよい。
ガイダンス提案部7は、複数の履歴情報保持部6の中から、話者特定部8が特定した話者に対応する履歴情報保持部6を選択する。そして、誤認識が発生した場合、ガイダンス提案部7は、選択した履歴情報保持部6に保持されている履歴情報に基づいて複数の通知情報から話者に対して通知する通知情報を選択し、選択した通知情報を話者に対して通知させる。すなわち、通知処理部5は、複数の通知情報の中から、話者特定部8によって特定された話者に応じた通知情報を選択する。
図7は変形例2の動作を説明するフローチャートである。なお、変形例2の音声認識システム1の動作は、基本例の音声認識システム1の動作とステップS5B〜S5Dの処理のみ相違し、他のステップの処理は図2のフローチャートの処理と同様である。したがって、以下では、変形例2の特徴部分に関連する動作について説明し、基本例と同様の処理については説明を省略する。
変形例2の音声認識システム1では、ステップS1で話者が発した音声が誤認識された場合(S3:No)、話者特定部8が、話者が発した音声の声紋認証を行うことによって、ステップS1で発話した話者を特定する(S5B)。話者が特定されると、ガイダンス提案部7は、履歴情報を参照する履歴情報保持部6を、複数の履歴情報保持部6のうち、話者特定部8が特定した話者に対応する履歴情報保持部6に切り替える(S5C)。そして、ガイダンス提案部7は、ステップS5Cで選択した履歴情報保持部6に保持されている履歴情報に基づいて、例えば頻度が高い順番にガイダンス情報を選択し(S5D)、選択したガイダンス情報を音声で出力させる(S7)。
このように、変形例2の音声認識システム1では、話者ごとに履歴情報を保持する履歴情報保持部6を備え、発話した話者に対応する履歴情報保持部6の履歴情報に基づいて通知するガイダンス情報(通知情報)を選択している。複数の話者の各々で誤認識の要因が異なる場合、通知処理部5は、複数の話者の各々で蓄積された履歴情報に基づいて通知情報を選択しているので、話者ごとに最適な通知情報を通知することができ、正しい認識結果が得られるまでの発話の回数を低減できる。
(3.3)その他の変形例
基本例の音声認識システム1では、誤認識が発生すると通知処理部5が通知情報を通知していたが、通知処理部5は認識処理部2が音声の認識処理を開始する前に、通知情報を話者に対して提案してもよい。例えば、話者がウェイクワードを発話し、移動体搭載機器10が音声認識システム1の認識結果に基づいて動作を開始したタイミングで、通知処理部5が履歴情報に基づいて選択した通知情報を音声により出力させてもよい。これにより、通知情報によって通知される通知内容(要因及びガイダンス情報の少なくとも一方)に応じた仕方で発話するように話者に促すことができ、認識処理部2による誤認識が発生しにくくなるという利点がある。
基本例の音声認識システム1では、誤認識が発生すると通知処理部5が通知情報を通知していたが、通知処理部5は認識処理部2が音声の認識処理を開始する前に、通知情報を話者に対して提案してもよい。例えば、話者がウェイクワードを発話し、移動体搭載機器10が音声認識システム1の認識結果に基づいて動作を開始したタイミングで、通知処理部5が履歴情報に基づいて選択した通知情報を音声により出力させてもよい。これにより、通知情報によって通知される通知内容(要因及びガイダンス情報の少なくとも一方)に応じた仕方で発話するように話者に促すことができ、認識処理部2による誤認識が発生しにくくなるという利点がある。
基本例の音声認識システム1において、履歴情報は、複数の通知情報の各々が話者に通知された後に、話者が発した音声を認識処理部2が認識した結果に関する情報を含んでもよい。例えば、履歴情報には、通知情報が通知された後の音声認識で正しく認識された情報、誤認識が発生した情報、音声認識の認識結果の確度等の情報を含んでもよい。これにより、通知処理部5は、複数の通知情報のうち、通知情報を通知することによって音声認識の認識結果が改善した通知情報を優先的に選択することが可能になり、正しい認識結果が得られるまでの発話の回数を低減できる。
基本例の音声認識システム1では、通知処理部5が、話者に対してガイダンス情報を音声で提案しているが、通知処理部5は、ガイダンス情報をディスプレイ装置に表示させることによって話者に提示してもよい。
基本例では、移動体搭載機器10がナビゲーションシステムであったが、移動体搭載機器10は、移動体に搭載されて使用される機器であればよく、空調機器及び音響機器でもよいし、移動体を自動運転する自動運転システムでもよい。
基本例では、移動体搭載機器10を搭載する移動体が自動車であったが、移動体搭載機器10を搭載する移動体は、例えば、鉄道車両、船舶、航空機等の自動車以外の移動体でもよい。
また、音声認識システム1は、移動体搭載機器10に備えられるものに限定されず、家電機器又は検索エンジンを搭載した検索システムのHMI(Human Machine Interface)に適用されてもよい。
(まとめ)
以上説明したように、第1の態様に係る音声認識システム(1)は、認識処理部(2)と、通知処理部(5)と、を備える。認識処理部(2)は、話者が発した音声を認識する。通知処理部(5)は、複数の通知情報の各々が通知された履歴を示す履歴情報に基づいて、複数の通知情報の中から選択した通知情報を話者に対して通知する。複数の通知情報は、誤認識が発生する複数の要因のそれぞれに関連した情報である。
以上説明したように、第1の態様に係る音声認識システム(1)は、認識処理部(2)と、通知処理部(5)と、を備える。認識処理部(2)は、話者が発した音声を認識する。通知処理部(5)は、複数の通知情報の各々が通知された履歴を示す履歴情報に基づいて、複数の通知情報の中から選択した通知情報を話者に対して通知する。複数の通知情報は、誤認識が発生する複数の要因のそれぞれに関連した情報である。
この態様によれば、通知処理部(5)が、履歴情報に基づいて通知情報を選択するので、無作為に選択した通知情報を通知したり、複数の通知情報を固定の順番で通知したりする場合に比べて、誤認識の要因に対応した通知情報を提案しやすくなる。したがって、正しい認識結果が得られるまでの発話の回数を低減可能な音声認識システム(1)を提供できる。
第2の態様に係る音声認識システム(1)では、第1の態様において、履歴情報は、通知処理部(5)が通知した通知情報の履歴に関する情報である。
この態様によれば、音声認識システム(1)を利用する話者に合わせた通知情報を提案できる。
第3の態様に係る音声認識システム(1)では、第1又は第2の態様において、通知処理部(5)は、認識処理部(2)による音声の誤認識が発生した場合に、通知情報を話者に対して通知する。
この態様によれば、認識処理部(2)が音声を誤認識した場合に、通知処理部(5)が通知情報を話者に提案することで、話者に対して、正しく認識されるような発話の仕方で発話するように促すことができる。
第4の態様に係る音声認識システム(1)では、第1又は第2の態様において、通知処理部(5)は、認識処理部(2)が音声の認識処理を開始する前に、通知情報を話者に対して通知する。
この態様によれば、認識処理を開始する前に通知情報を通知することで、誤認識が発生しにくくなるという利点がある。
第5の態様に係る音声認識システム(1)では、第1〜第4のいずれかの態様において、履歴情報は、複数の通知情報の各々が話者に通知された後に、話者が発した音声を認識処理部(2)が認識した結果に関する情報を含む。
この態様によれば、通知情報が通知された後の認識結果を含めた履歴情報に基づいて通知情報を選択できる。
第6の態様に係る音声認識システム(1)では、第1〜第5のいずれかの態様において、履歴情報は、複数の通知情報の各々が話者に通知された後に、話者が発した音声が正しく認識された頻度に関する頻度情報を含む。
この態様によれば、通知情報が通知された後に音声が正しく認識された頻度に関する頻度情報を含めた履歴情報に基づいて通知情報を選択できる。
第7の態様に係る音声認識システム(1)では、第1〜第6のいずれかの態様において、履歴情報は、複数の通知情報の各々が通知されたときの時間情報を含む。
この態様によれば、通知処理部(5)は、通知情報が通知されたときの時間情報を含む履歴情報に基づいて通知情報を選択できる。例えば、通知処理部(5)は、時間情報に基づいて同じような時間帯で通知された通知情報を選択したり、ある期間(例えば、直近の所定期間)に通知された通知情報を選択したりすることができる。
第8の態様に係る音声認識システム(1)では、第1〜第7のいずれかの態様において、履歴情報は、複数の通知情報の各々が通知されたときの話者の周囲環境に関する環境情報を含む。
この態様によれば、通知処理部(5)は、通知情報が通知されたときの話者の周囲環境に関する環境情報を含む履歴情報に基づいて通知情報を選択できる。例えば、通知処理部(5)は、環境情報に基づいて同じような周囲環境で通知された通知情報を選択することができる。
第9の態様に係る音声認識システム(1)では、第1〜第8のいずれかの態様において、通知処理部(5)は、認識処理部(2)による音声の誤認識が発生すると、所定の処理を行う。所定の処理とは、通知処理部(5)が、履歴情報に基づいて複数の通知情報の中から順番に選択した通知情報を話者に対して通知する処理である。
この態様によれば、通知処理部(5)は、誤認識が発生した場合、履歴情報に基づいて選択されたガイダンス情報を順番に出力しているので、正しい認識結果が得られるまでの発話の回数を低減できる。
第10の態様に係る音声認識システム(1)は、第1〜第9のいずれかの態様において、話者を特定する話者特定部(8)を、更に備える。
この態様によれば、認識処理部(2)に入力される音声の話者を特定できる。
第11の態様に係る音声認識システム(1)では、第10の態様において、通知処理部(5)は、複数の通知情報の中から、話者特定部(8)によって特定された話者に応じた通知情報を選択する。
この態様によれば、通知処理部(5)は、話者に応じた通知情報を提案できる。
第12の態様に係る音声認識システム(1)では、第1〜第11のいずれかの態様において、通知処理部(5)は、通知情報を話者に対して音声で通知する。
この態様によれば、話者は通知情報を音声で受け取ることができる。
第13の態様に係る音声認識システム(1)の通知方法は、認識処理と、提案処理と、を含む。認識処理では、話者が発した音声を認識する。提案処理では、複数の通知情報の各々が過去に提案された履歴を示す履歴情報に基づいて、複数の通知情報の中から選択した通知情報を話者に対して提案する。複数の通知情報の各々は発話の仕方を指導するための情報である。
この態様によれば、提案処理では、履歴情報に基づいて複数の通知情報の中から選択した通知情報を話者に提案するので、無作為に選択した通知情報を提案する場合に比べて、誤認識の要因に対応した通知情報を提案しやすくなる。したがって、正しい認識結果が得られるまでの発話の回数を低減可能な音声認識システム(1)の通知方法を提供できる。
第14の態様に係るプログラムは、コンピュータシステムに、認識処理と、提案処理と、を実行させるためのプログラムである。認識処理では、話者が発した音声を認識する。提案処理では、複数の通知情報の各々が過去に提案された履歴を示す履歴情報に基づいて、複数の通知情報の中から選択した通知情報を話者に対して提案する。複数の通知情報の各々は発話の仕方を指導するための情報である。
この態様によれば、提案処理では、履歴情報に基づいて複数の通知情報の中から選択した通知情報を話者に提案するので、無作為に選択した通知情報を提案する場合に比べて、誤認識の要因に対応した通知情報を提案しやすくなる。したがって、正しい認識結果が得られるまでの発話の回数を低減できる。
第15の態様に係る移動体搭載機器(10)は、第1〜第12のいずれかの態様に係る音声認識システム(1)を備える。認識処理部(2)は、移動体に配置されたマイク(11)に入力される音声を認識する。
この態様によれば、通知処理部(5)が、履歴情報に基づいて複数の通知情報の中から選択した通知情報を話者に提案するので、無作為に選択した通知情報を提案する場合に比べて、誤認識の要因に対応した通知情報を提案しやすくなる。したがって、正しい認識結果が得られるまでの発話の回数を低減可能な音声認識システム(1)を提供できる。
第16の態様に係る音声認識システム(1)では、通知情報は、誤認識の要因を示す要因情報と、誤認識の要因を正すような発話の仕方を指導するためのガイダンス情報との少なくとも一方である。
上記態様に限らず、上記の実施形態に係る音声認識システム(1)の種々の構成(変形例を含む)は、音声認識システム(1)の通知方法、(コンピュータ)プログラム、又はプログラムを記録した非一時的記録媒体等で具現化可能である。
第2〜第12の態様に係る構成については、音声認識システム(1)に必須の構成ではなく、適宜省略可能である。
1 音声認識システム
2 認識処理部
5 通知処理部
8 話者特定部
10 移動体搭載機器
2 認識処理部
5 通知処理部
8 話者特定部
10 移動体搭載機器
Claims (15)
- 話者が発した音声を認識する認識処理部と、
誤認識が発生する複数の要因のそれぞれに関連した複数の通知情報の各々が通知された履歴を示す履歴情報に基づいて、前記複数の通知情報の中から選択した通知情報を前記話者に対して通知する通知処理部と、を備える、
音声認識システム。 - 前記履歴情報は、前記通知処理部が通知した前記通知情報の履歴に関する情報である、
請求項1に記載の音声認識システム。 - 前記通知処理部は、前記認識処理部による音声の誤認識が発生した場合に、前記通知情報を前記話者に対して通知する、
請求項1又は2に記載の音声認識システム。 - 前記通知処理部は、前記認識処理部が前記音声の認識処理を開始する前に、前記通知情報を前記話者に対して通知する、
請求項1又は2に記載の音声認識システム。 - 前記履歴情報は、前記複数の通知情報の各々が前記話者に通知された後に、前記話者が発した音声を前記認識処理部が認識した結果に関する情報を含む、
請求項1〜4のいずれか1項に記載の音声認識システム。 - 前記履歴情報は、前記複数の通知情報の各々が前記話者に通知された後に、前記話者が発した音声が正しく認識された頻度に関する頻度情報を含む、
請求項1〜5のいずれか1項に記載の音声認識システム。 - 前記履歴情報は、前記複数の通知情報の各々が通知されたときの時間情報を含む、
請求項1〜6のいずれか1項に記載の音声認識システム。 - 前記履歴情報は、前記複数の通知情報の各々が通知されたときの前記話者の周囲環境に関する環境情報を含む、
請求項1〜7のいずれか1項に記載の音声認識システム。 - 前記通知処理部は、前記認識処理部による前記音声の誤認識が発生すると、前記履歴情報に基づいて前記複数の通知情報の中から順番に選択した通知情報を前記話者に対して通知する、
請求項1〜8のいずれか1項に記載の音声認識システム。 - 前記話者を特定する話者特定部を、更に備える、
請求項1〜9のいずれか1項に記載の音声認識システム。 - 前記通知処理部は、前記複数の通知情報の中から、前記話者特定部によって特定された前記話者に応じた通知情報を選択する、
請求項10に記載の音声認識システム。 - 前記通知処理部は、前記通知情報を前記話者に対して音声で通知する、
請求項1〜11のいずれか1項に記載の音声認識システム。 - 話者が発した音声を認識する認識処理と、
誤認識が発生する複数の要因のそれぞれに関連した複数の通知情報の各々が通知された履歴を示す履歴情報に基づいて、前記複数の通知情報の中から選択した通知情報を前記話者に対して通知する通知処理と、を含む、
音声認識システムの通知方法。 - コンピュータシステムに、
話者が発した音声を認識する認識処理と、
誤認識が発生する複数の要因のそれぞれに関連した複数の通知情報の各々が通知された履歴を示す履歴情報に基づいて、前記複数の通知情報の中から選択した通知情報を前記話者に対して通知する通知処理と、を実行させるための、
プログラム。 - 請求項1〜12のいずれか1項に記載の音声認識システムを備え、
前記認識処理部は、移動体に配置されたマイクに入力される前記音声を認識する、
移動体搭載機器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018229441A JP2020091435A (ja) | 2018-12-06 | 2018-12-06 | 音声認識システム、音声認識システムの通知方法、プログラム、及び移動体搭載機器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018229441A JP2020091435A (ja) | 2018-12-06 | 2018-12-06 | 音声認識システム、音声認識システムの通知方法、プログラム、及び移動体搭載機器 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020091435A true JP2020091435A (ja) | 2020-06-11 |
Family
ID=71012799
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018229441A Pending JP2020091435A (ja) | 2018-12-06 | 2018-12-06 | 音声認識システム、音声認識システムの通知方法、プログラム、及び移動体搭載機器 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2020091435A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022171300A (ja) * | 2021-04-30 | 2022-11-11 | グリー株式会社 | コンピュータプログラム、方法及びサーバ装置 |
-
2018
- 2018-12-06 JP JP2018229441A patent/JP2020091435A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022171300A (ja) * | 2021-04-30 | 2022-11-11 | グリー株式会社 | コンピュータプログラム、方法及びサーバ装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9159319B1 (en) | Keyword spotting with competitor models | |
US7826945B2 (en) | Automobile speech-recognition interface | |
EP1936606B1 (en) | Multi-stage speech recognition | |
US8484033B2 (en) | Speech recognizer control system, speech recognizer control method, and speech recognizer control program | |
US10506088B1 (en) | Phone number verification | |
US10176806B2 (en) | Motor vehicle operating device with a correction strategy for voice recognition | |
JP6812843B2 (ja) | 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法 | |
JP2002091466A (ja) | 音声認識装置 | |
JP6731581B2 (ja) | 音声認識システム、音声認識装置、音声認識方法、および制御プログラム | |
US8566091B2 (en) | Speech recognition system | |
WO2020210050A1 (en) | Automated control of noise reduction or noise masking | |
US20210183362A1 (en) | Information processing device, information processing method, and computer-readable storage medium | |
JP6690484B2 (ja) | 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法 | |
US10866948B2 (en) | Address book management apparatus using speech recognition, vehicle, system and method thereof | |
JP2020095121A (ja) | 音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体 | |
US20170270923A1 (en) | Voice processing device and voice processing method | |
JP4074543B2 (ja) | 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体 | |
JP2012168349A (ja) | 音声認識システムおよびこれを用いた検索システム | |
JP2020091435A (ja) | 音声認識システム、音声認識システムの通知方法、プログラム、及び移動体搭載機器 | |
JP2018116206A (ja) | 音声認識装置、音声認識方法及び音声認識システム | |
JP2011180416A (ja) | 音声合成装置、音声合成方法およびカーナビゲーションシステム | |
JP6966374B2 (ja) | 音声認識システム及びコンピュータプログラム | |
US20200168221A1 (en) | Voice recognition apparatus and method of voice recognition | |
JP2020101778A (ja) | 音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体 | |
US20230335120A1 (en) | Method for processing dialogue and dialogue system |