JP2020091435A

JP2020091435A - 音声認識システム、音声認識システムの通知方法、プログラム、及び移動体搭載機器

Info

Publication number: JP2020091435A
Application number: JP2018229441A
Authority: JP
Inventors: 功野口; Isao Noguchi; 一臣加藤; Kazutomi Kato; 憲壱柴田; Kenichi Shibata; 視野竹川; Shino Takegawa
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2018-12-06
Filing date: 2018-12-06
Publication date: 2020-06-11

Abstract

【課題】正しい認識結果が得られるまでの発話の回数を低減可能な音声認識システム、音声認識システムの通知方法、プログラム、及び移動体搭載機器を提供する。【解決手段】音声認識システム１は、認識処理部２と、通知処理部５とを備える。認識処理部２は、話者が発した音声を認識する。通知処理部５は、誤認識が発生する複数の要因のそれぞれに関連した複数の通知情報の各々が通知された履歴を示す履歴情報に基づいて、複数の通知情報の中から選択した通知情報を話者に対して通知する。【選択図】図１

Description

本開示は、音声認識システム、音声認識システムの通知方法、プログラム、及び移動体搭載機器に関する。より詳細には、本開示は、話者が発した音声を認識する音声認識システム、音声認識システムの通知方法、プログラム、及び移動体搭載機器に関する。

特許文献１は、音声認識辞書に収録されている単語のデータに基づいてユーザが発声した音声を認識する音声認識エンジンを備えた音声認識装置を開示する。特許文献１の音声認識装置では、音声認識エンジンで認識エラーと判断した場合、誤認識の要因に注意して再音声入力させるためのガイダンス（通知情報）を音声で出力し、ユーザに再音声入力を促している。

特開２０１０−２１０７５６号公報

特許文献１に開示された音声認識装置では、音声認識エンジンが誤認識を繰り返す場合、複数の要因に対応した複数のガイダンスを、同じ内容のガイダンスが再度提示されないように順次提示している。そのため、直前に発生した誤認識の要因に対応したガイダンスが提示されるとは限らず、直前に発生した誤認識に対応していないガイダンスが提示された場合、その後に再音声入力が行われても誤認識が発生する可能性が高くなる。したがって、正しい認識結果が得られるまでの発話の回数が多くなるという問題があった。

本開示の目的は、正しい認識結果が得られるまでの発話の回数を低減可能な音声認識システム、音声認識システムの通知方法、プログラム、及び移動体搭載機器を提供することにある。

本開示の一態様の音声認識システムは、認識処理部と、通知処理部と、を備える。前記認識処理部は、話者が発した音声を認識する。前記通知処理部は、複数の通知情報の各々が通知された履歴を示す履歴情報に基づいて、前記複数の通知情報の中から選択した通知情報を前記話者に対して通知する。前記複数の通知情報は、誤認識が発生する複数の要因のそれぞれに関連した情報である。

本開示の一態様の音声認識システムの通知方法は、認識処理と、通知処理と、を含む。前記認識処理では、話者が発した音声を認識する。前記通知処理では、複数の通知情報の各々が通知された履歴を示す履歴情報に基づいて、前記複数の通知情報の中から選択した通知情報を前記話者に対して通知する。前記複数の通知情報は、誤認識が発生する複数の要因のそれぞれに関連した情報である。

本開示の一態様のプログラムは、コンピュータシステムに、認識処理と、通知処理と、を実行させるためのプログラムである。前記認識処理では、話者が発した音声を認識する。前記通知処理では、複数の通知情報の各々が通知された履歴を示す履歴情報に基づいて、前記複数の通知情報の中から選択した通知情報を前記話者に対して通知する。前記複数の通知情報は、誤認識が発生する複数の要因のそれぞれに関連した情報である。

本開示の一態様の移動体搭載機器は、前記音声認識システムを備える。前記認識処理部は、移動体に配置されたマイクに入力される前記音声を認識する。

本開示によれば、正しい認識結果が得られるまでの発話の回数を低減可能な音声認識システム、音声認識システムの通知方法、プログラム、及び移動体搭載機器を提供することができる。

図１は、本開示の一実施形態に係る音声認識システムのブロック図である。図２は、同上の音声認識システムの動作を説明するフローチャートである。図３は、同上の音声認識システムの動作を説明するシーケンス図である。図４は、同上の音声認識システムの動作を説明するシーケンス図である。図５は、本開示の一実施形態の変形例１に係る音声認識システムの動作を説明するフローチャートである。図６は、本開示の一実施形態の変形例２に係る音声認識システムのブロック図である。図７は、同上の音声認識システムの動作を説明するフローチャートである。

以下に説明する実施形態は、本開示の種々の実施形態の一つに過ぎない。本開示の実施形態は、下記実施形態に限定されることはなく、この実施形態以外も含み得る。また、下記の実施形態は、本開示に係る技術的思想を逸脱しない範囲であれば、設計等に応じて種々の変更が可能である。

（実施形態）
（１）概要
本実施形態の音声認識システム１は、図１に示すように、認識処理部２と、通知処理部５と、を備える。認識処理部２は、話者が発した音声を認識する。通知処理部５は、複数の通知情報の各々が通知された履歴を示す履歴情報に基づいて、前記複数の通知情報の中から選択した通知情報を前記話者に対して通知する。複数の通知情報は、誤認識が発生する複数の要因のそれぞれに関連した情報である。

ここにおいて、認識処理部２による音声の認識処理において誤認識が発生する要因は様々である。音声の誤認識の要因としては、例えば、話者が発した音声の音量が適正な音量範囲よりも大きい又は小さい、話者が発した音声の速度が適正な速度範囲よりも遅い又は速い、話者が発する音声の滑舌が悪い、等の要因がある。本実施形態の音声認識システム１では、認識処理部２によって音声が正しく認識されるように、誤認識の要因に関連する通知情報を話者に対して通知する。ここにおいて、通知情報は、要因自体を示す要因情報と、誤認識の要因を正すような発話の仕方を指導するためのガイダンス情報との少なくとも一方を含む。以下の実施形態では、通知処理部５が、ガイダンス情報のみを含む通知情報を話者に通知する場合を例に説明しており、話者は通知情報に含まれるガイダンス情報に従って発話の仕方を修正することができる。なお、通知処理部５は、要因情報とガイダンス情報とを含む通知情報を話者に通知してもよいし、要因情報のみを含む通知情報を話者に通知してもよい。この場合においても話者は要因情報に基づいて、誤認識の要因に注意しながら発話することができる。

ここで、誤認識が発生する要因は複数あるので、音声認識システム１では、下記の表１に示すように、複数の要因にそれぞれ対応した複数の要因情報と、複数の要因情報（要因）にそれぞれ対応した複数のガイダンス情報を用意している。

なお、表１に示す要因情報及びガイダンス情報は一例であり、他の要因を示す要因情報と当該要因情報に対応したガイダンス情報を含んでいてもよい。例えば、話者が話す「内容が詳しすぎる（話が長い）」という要因情報に対しては、「簡潔に話してください」というガイダンス情報が対応付けて保持されればよい。また、話者が話す「内容が簡潔すぎる（情報が足りない）」という要因情報に対しては、「もう少し詳しく話してください」というガイダンス情報が対応付けて保持されればよい。また、要因情報及びガイダンス情報の内容は、話者が話す言語（標準語、方言、外国語等）、話者の年齢、性別等に応じて適宜変更が可能である。

また、履歴情報とは、複数の通知情報の各々が通知された履歴を示す情報である。履歴情報は、例えば複数の通知情報の各々が通知された頻度（回数）に関する頻度情報を含んでもよい。履歴情報は、複数の通知情報の各々が通知されたときの時間に関する時間情報を含んでもよい。通知処理部５は、例えば履歴情報に含まれる時間情報に基づいて、ある時間帯（例えば誤認識が発生した時間帯と同じ時間帯）に通知された通知情報、又はある期間（直近の１週間等）に通知された通知情報を選択することができる。また、音声認識システム１が、例えば移動体に搭載されるナビゲーションシステムのような移動体搭載機器１０に備えられる場合、履歴情報は、複数の通知情報の各々が通知されたときの話者の周囲環境に関する環境情報を含んでもよい。通知処理部５は、例えば、履歴情報に含まれる環境情報に基づいて、話者の現在の周囲環境と似たような周囲環境で以前に提案された通知情報を選択することができる。また、履歴情報は、複数の通知情報の各々が通知された後で、話者が再入力した音声を認識処理部２が認識した結果を示す成否情報（つまり、正しく認識されたか、又は、誤認識が発生したかを示す情報）を含んでもよい。通知処理部５は、例えば履歴情報に含まれる成否情報に基づいて、通知情報を提案することによって音声認識が成功したときに通知された通知情報を優先的に選択することができる。

本実施形態では、通知処理部５が、履歴情報に基づいて複数の通知情報の中から選択した通知情報を話者に通知するので、複数の通知情報を固定された順番で話者に通知する場合に比べて、誤認識の要因に対応した通知情報を通知しやすくなる。したがって、正しい認識結果が得られるまでの発話の回数を低減可能な音声認識システム１を提供できる。また、話者は、正しい認識結果が得られるまでに何度も発話しなくてよいので、発話の仕方や発話の内容に気を取られにくくなる、という利点もある。

（２）詳細
（２．１）構成
以下、本実施形態に係る音声認識システム１、及び音声認識システム１を備えた移動体搭載機器１０について図面を参照して詳しく説明する。

音声認識システム１は、認識処理部２と、音声認識辞書３と、対話処理部４と、通知処理部５とを備える。通知処理部５は、履歴情報保持部６と、ガイダンス提案部７とを備える。

また、本実施形態の音声認識システム１は、自動車のような移動体に搭載される移動体搭載機器１０に備えられている。移動体搭載機器１０は、移動体の乗員（例えば移動体の運転手等）と音声対話を行うことによって操作される機器である。移動体搭載機器１０は、移動体に配置されたマイク１１及びスピーカ１２と、音声認識システム１とを備える。換言すると、移動体搭載機器１０は、音声認識システム１を備え、認識処理部２は、移動体に配置されたマイク１１に入力される音声を認識する。

移動体搭載機器１０では、移動体の乗員が発した音声がマイク１１を介して音声認識システム１に入力されると、音声認識システム１によって音声の認識処理が行われる。そして、移動体搭載機器１０は、音声認識システム１による音声の認識結果に基づいて、移動体の乗員が音声で発した指示に基づく動作を行う。移動体搭載機器１０がナビゲーションシステムである場合、移動体の乗員が目的地を示す言葉又は目的地を検索するための言葉（検索語）を音声で発すると、音声認識システム１によって音声の内容が認識される。ナビゲーションシステムは、音声の認識結果に基づいて、例えば目的地までの経路を検索したり、目的地を検索するための検索語から目的地の候補を検索したりして、検索結果を話者に提示する動作を行う。そして、目的地が決定されると、ナビゲーションシステムは、決定された目的地までの経路を案内する動作を行う。

音声認識システム１は、例えば、コンピュータシステムを含んでいる。コンピュータシステムは、ハードウェアとしてのプロセッサ及びメモリを主構成とする。コンピュータシステムのメモリに記録されたプログラムをプロセッサが実行することによって、音声認識システム１の機能（例えば、認識処理部２、対話処理部４、及び通知処理部５等の機能）が実現される。プログラムは、コンピュータシステムのメモリに予め記録されている。なお、プログラムは、電気通信回線を通じて提供されてもよいし、コンピュータシステムで読み取り可能なメモリカード、光学ディスク、ハードディスクドライブ等の非一時的記録媒体に記録されて提供されてもよい。

音声認識辞書３は、音声認識の対象となる複数の単語と、複数の単語をそれぞれ表す複数の音響モデルとを対応付けて記憶する。音響モデルは、対応する単語の音響特徴量（例えばパワー及び周波数特性等）に関する統計量を含む。音響モデルは、例えば年齢、性別、体格等がばらばらの多数の話者が発した音声から音響特徴量を抽出することによって作成されている。音声認識辞書３は、例えばコンピュータシステムが備えるメモリに記憶されている。

履歴情報保持部６は、複数の要因情報と、複数の要因の各々に対応する複数のガイダンス情報と、複数のガイダンス情報の各々が通知された履歴を示す履歴情報とを対応付けて記憶する。ここにおいて、本実施形態の履歴情報保持部６は、履歴情報として、複数のガイダンス情報の各々が通知された頻度（回数）を示す頻度情報を含んでいる。ここでいう頻度情報は、複数の通知情報の各々が話者に通知された後に、話者が発した音声が正しく認識された頻度に関する情報である。下記の表２は、履歴情報保持部６に保持された履歴情報の一例を示している。本実施形態では、履歴情報保持部６には、誤認識が発生する複数の要因情報と、複数の要因情報にそれぞれ対応する複数のガイダンス情報と、複数のガイダンス情報の各々が以前に通知された頻度を示す頻度情報とが対応付けて記憶されている。履歴情報保持部６は、例えばコンピュータシステムが有するメモリ、例えば電気的に書き換え可能なＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）等で実現されている。

認識処理部２は、話者が発した音声がマイク１１によって電気信号である音声信号に変換されると、音声信号から音響特徴量を抽出する。認識処理部２は、例えば、音声信号から抽出した音響特徴量を元に、音声認識辞書３に記憶された音響モデルを参照して、単語ごとに一致度合いを示す確率（スコア）を求める。認識処理部２は、スコアが最も高い単語を音声の認識結果として出力する。

対話処理部４は、認識処理部２による音声の認識結果に基づいて、話者に応答する応答メッセージを作成し、作成した応答メッセージを音声合成してスピーカ１２から出力させる。

通知処理部５のガイダンス提案部７は、対話処理部４が出力した音声メッセージと認識処理部２での認識結果とに基づいて、通知情報としてガイダンス情報を通知する処理を行うか否かを決定する。ガイダンス提案部７は、例えば認識処理部２による音声の認識処理において誤認識が発生すると、履歴情報保持部６に保持された履歴情報に基づいて、複数のガイダンス情報の中から話者に提案するガイダンス情報を選択する。ガイダンス提案部７が、選択したガイダンス情報を対話処理部４に出力すると、対話処理部４は、ガイダンス提案部７から入力されたガイダンス情報を音声合成してスピーカ１２に出力し、スピーカ１２からガイダンス情報を音声で出力させる。

ところで、通知処理部５が通知情報を例えばディスプレイ装置に表示する場合、話者はディスプレイ装置に表示された通知情報を目視する必要がある。それに対して、本実施形態では、通知処理部５は、通知情報（ガイダンス情報）を話者に対して音声で通知しているので、話者は視線を動かさなくても、通知情報を耳で聞くことで確認できる。したがって、話者が移動体の乗員である場合には、通知情報を音声で通知することによって、移動体の乗員は視線を動かさなくても通知情報を確認できるようになり、作業中（例えば移動体の運転作業中）の話者の注意が作業対象からそれにくいという利点がある。

（２．２）動作
次に、本実施形態の音声認識システム１の動作を図２に基づいて説明する。

音声認識システム１は、音声が入力されると音声の認識処理を行うが、音声認識システム１を備えた移動体搭載機器１０は、ウェイクワード（Wake Word）が発話されるまでは、音声の認識結果に基づく動作を行わない。

音声認識システム１及び移動体搭載機器１０のユーザである話者（例えば移動体の乗員）がウェイクワードを発話すると、マイク１１がユーザの発した音声を電気信号（音声信号）に変換して、音声認識システム１に出力する。音声認識システム１の認識処理部２は、マイク１１からウェイクワードの音声信号が入力されると、入力された音声信号の音声認識を行っており、音声がウェイクワードであると認識されると、移動体搭載機器１０は音声の認識結果に基づく動作を開始する。このとき、音声認識システム１の対話処理部４は、移動体搭載機器１０が音声の認識結果に基づく動作を開始したことを示す音声メッセージを音声合成してスピーカ１２から出力させてもよい。これにより、話者は、移動体搭載機器１０が音声で操作可能な状態になったことを把握できる。

移動体搭載機器１０が音声で操作可能な状態になると、話者は、例えば、移動体の目的地を検索するために、目的地を絞り込むための検索語（例えば「渋谷のパン屋」等）を発話する。話者が音声を発すると、マイク１１がユーザの発した音声を電気信号に変換して、音声認識システム１に出力する（Ｓ１）。

音声認識システム１の認識処理部２は、マイク１１から音声信号が入力されると、入力された音声信号の音声認識を行い、認識結果を対話処理部４に出力する。対話処理部４は、認識処理部２の認識結果を音声合成し、音声合成して得た音声信号をスピーカ１２に出力し、スピーカ１２から認識結果を音声で出力させることによって認識結果を話者に提示する（Ｓ２）。

話者は、スピーカ１２から音声で出力された認識結果を聞き、認識結果が正しければ肯定の言葉（例えば「はい」）を、認識結果が間違っていれば否定の言葉（例えば「いいえ」）を発話する。話者が発した言葉はマイク１１によって電気信号に変換され、認識処理部２によって音声認識が行われる。

認識結果の提示後に話者が発した音声が肯定の言葉であれば、認識処理部２は、ステップＳ１で話者が発した音声が正しく認識されたと判断する（Ｓ３：Ｙｅｓ）。この場合、移動体搭載機器１０は、ステップＳ２の認識結果に応じた動作を行う。例えば、ステップＳ１で入力された音声が目的地を検索するための検索語であった場合、移動体搭載機器１０は検索語をもとに目的地を検索する処理を行い、検索結果を示す音声メッセージを対話処理部４により音声合成させて、スピーカ１２から音声で出力させる（Ｓ４）。これにより、話者は、ステップＳ１で発した音声に基づいて移動体搭載機器１０が行った動作の結果を音声で受け取ることができる。

一方、認識結果の提示後に話者が発した音声が否定の言葉であれば、認識処理部２は、ステップＳ１で話者が発した音声が誤認識されたと判断する（Ｓ３：Ｎｏ）。このとき、ガイダンス提案部７は、履歴情報保持部６に保持された履歴情報に基づいて、話者に提案するガイダンス情報を選択する（Ｓ５）。本実施形態では、履歴情報に頻度情報が含まれており、ガイダンス提案部７は、複数のガイダンス情報の中から話者に通知するガイダンス情報を頻度が多い順番に選択する。ここで、複数のガイダンス情報の頻度が全て同じだった場合、ガイダンス提案部７は、予め定めた順番でガイダンス情報を選択すればよい。ガイダンス提案部７は、選択したガイダンス情報（例えば「ゆっくりとお話しください」）を対話処理部４に出力する。対話処理部４は、ガイダンス提案部７からガイダンス情報が入力されると、ガイダンス情報を音声合成した音声データをスピーカ１２に出力し、スピーカ１２からガイダンス情報を音声で出力させる（Ｓ６）。

話者は、ステップＳ６でスピーカ１２から音声で出力されたガイダンス情報を聞くと、ガイダンス情報で指導された発話の仕方に気をつけて、誤認識された音声を再び発話する（Ｓ７）。例えば、ステップＳ６で出力されたガイダンス情報が「ゆっくりとお話しください」であれば、話者は、ステップＳ１で発話したときに比べて発話の速度を遅くして音声を発話する。

ガイダンス情報を聞いた話者がステップＳ７で発話した音声はマイク１１から認識処理部２に入力され、認識処理部２によって認識処理が行われる。このとき、対話処理部４が、認識処理部２の認識結果を音声合成してスピーカ１２から出力させることで、認識結果を話者に提示する（Ｓ８）。

話者は、スピーカ１２から音声で出力された認識結果を聞き、認識結果が正しければ肯定の言葉（例えば「はい」）を、認識結果が間違っていれば否定の言葉（例えば「いいえ」）を発話する。このとき話者が発した言葉はマイク１１によって電気信号に変換され、認識処理部２が音声認識を行う。

認識結果の提示後に話者が発した音声が否定の言葉であれば、認識処理部２は、ステップＳ７で話者が発した音声が誤認識されたと判断する（Ｓ９：Ｎｏ）。このとき、ガイダンス提案部７は、履歴情報保持部６に保持された履歴情報に基づいて、次に通知するガイダンス情報を選択する選択処理を行う（Ｓ１０）。例えば、ガイダンス提案部７は、ステップＳ６で通知したガイダンス情報の次に頻度が高いガイダンス情報を選択するように選択処理を行う。

Ｓ１０の選択処理において、次に提案するガイダンス情報が選択されれば（Ｓ１１：Ｎｏ）、音声認識システム１は、ステップＳ６に戻ってステップＳ６以降の処理を実行する。

Ｓ１０の選択処理において、次に提案するガイダンス情報が無かった場合（Ｓ１１：Ｙｅｓ）、ガイダンス提案部７はガイダンス情報を出力させない。このとき、対話処理部４は、話者に対して音声の認識処理が失敗したことを通知し、音声の再入力を促す音声メッセージを音声合成してスピーカ１２から出力させて、音声の認識処理を一旦終了する。その後、話者が音声を再び発話すると、音声認識システム１はステップＳ１以降の処理を再び実行する。

また、ステップＳ９の判定において、認識結果の提示後に話者が発した音声が肯定の言葉であれば、認識処理部２は、ステップＳ７で話者が発した音声が正しく認識されたと判断する（Ｓ９：Ｙｅｓ）。このとき、ガイダンス提案部７は、ステップＳ６で通知したガイダンス情報が、誤認識の要因に対応したガイダンス情報であると判断し、当該ガイダンス情報の頻度を１つ増やすように履歴情報を更新し、更新後の履歴情報を履歴情報保持部６に保持させる（Ｓ１２）。なお、ガイダンス提案部７は、ガイダンス情報を通知しても誤認識が発生しり、音声の認識精度が低下したりした場合、このガイダンス情報の頻度を１つ減らすように履歴情報を更新してもよい。

そして、移動体搭載機器１０は、ステップＳ８の認識結果に応じた動作を行う。例えば、ステップＳ７で入力された音声が目的地を検索するための検索語であった場合、移動体搭載機器１０は検索語をもとに目的地を検索する処理を行い、検索結果を示す音声メッセージを対話処理部４により音声合成させて、スピーカ１２から音声で出力させる（Ｓ１３）。これにより、話者は、ステップＳ７で発した音声に基づいて移動体搭載機器１０が行った動作の結果を音声で受け取ることができる。

なお、音声認識システム１は、話者が発した音声の音声認識を行った場合、認識結果を提示し（Ｓ２）、認識結果に対する話者の発話内容に基づいて誤認識が発生したか否かを判定しているが（Ｓ３）、他の方法で誤認識が発生したか否かを判定しもよい。例えば、音声認識システム１は、認識結果を提示した後に（Ｓ２）、話者によって所定の操作部が操作されると誤認識が発生したと判定してもよい。また、音声認識システム１は、認識結果を提示してから、所定の待機時間が経過するまでの間に話者からの発話がなければ、誤認識が発生してもよい。また、音声認識システム１は、ステップＳ１で話者が発した音声の音声認識を行った場合に、認識結果のスコアが所定のしきい値よりも低ければ、正しい認識結果が得られていないと判断してもよい。

また、ステップＳ１又はＳ７で入力された音声が認識不能だった場合、音声認識システム１は、再入力を促すメッセージ（例えば「もう一度話してください」）を出力してもよいし、ガイダンス提案部７が、履歴情報に基づいて選択したガイダンス情報を出力させてもよい。

次に、上述した音声認識システム１が話者と音声対話を行う場合の動作について図３及び図４のシーケンス図を参照して更に詳しく説明する。図３及び図４は、移動体の乗員である話者が、渋谷にあるパン屋を検索するために、「渋谷のパン屋」と発話した場合の音声認識システム１の動作を示している。ここで、図３は、履歴情報保持部６に履歴情報が十分に蓄積されていない場合の音声認識システム１の動作を示し、図４は、履歴情報保持部６に履歴情報が十分に蓄積されている場合の音声認識システム１の動作を示している。

まず、図３のシーケンス図を参照して音声認識システム１の動作を説明する。

音声認識システム１のユーザである話者が、渋谷にあるパン屋を検索するために、「渋谷のパン屋」と発話した場合に（Ｓ２１）、音声認識システム１の認識処理部２が「渋谷本屋」と音声認識すると（Ｓ２２）、対話処理部４が認識結果を音声で提示する。対話処理部４は、例えば『「渋谷本屋」で探しますか』との音声メッセージを音声合成し、スピーカ１２から音声で出力させる（Ｓ２３）。

認識結果の提示を受けた話者は、認識結果が間違っているので「いいえ」と発話し（Ｓ２４）、認識処理部２は、認識結果の提示後に話者が発した音声が「いいえ」である場合（Ｓ２５）、ステップＳ２２での認識処理で誤認識が発生したと判断する。このとき、ガイダンス提案部７は、履歴情報保持部６に保持された履歴情報に基づき、複数のガイダンス情報の中から頻度が多い順番にガイダンス情報を選択し、選択したガイダンス情報を音声で出力する。例えば、頻度が最も多いガイダンス情報は、「声が小さい」という要因情報に対応したガイダンス情報であり、対話処理部４は、このガイダンス情報（例えば「声を大きくしてお話しください」）を音声合成してスピーカ１２から出力させる（Ｓ２６）。

図３の例では、誤認識の要因が、発話の速度が速いという要因であるので、ステップＳ２６でガイダンス情報が通知された後に話者が声を大きくして発話しても（Ｓ２７）、認識処理部２によって再び誤認識が発生する（Ｓ２８〜Ｓ３１）。誤認識が再び発生すると、ガイダンス提案部７は、履歴情報保持部６に保持された履歴情報に基づき、次に頻度が多いガイダンス情報（例えば「滑舌が悪い」という要因情報に対応したガイダンス情報）を選択し、選択したガイダンス情報を音声で出力する（Ｓ３２）。例えば、対話処理部４は、滑舌が悪いという要因情報に対応して、「はっきりとお話しください」というガイダンス情報をスピーカ１２から音声で出力させる。

図３の例では、誤認識の要因が、発話の速度が速いという要因であるので、ステップＳ３２でガイダンス情報を提案した後に話者がはっきりと発話しても（Ｓ３３）、認識処理部２によって再び誤認識が発生する（Ｓ３４〜Ｓ３７）。誤認識が再び発生すると、ガイダンス提案部７は、履歴情報保持部６に保持された履歴情報に基づき、次に頻度が多いガイダンス情報（例えば「話す速度が速い」という要因情報に対応したガイダンス情報）を選択し、選択したガイダンス情報を音声で出力する（Ｓ３８）。例えば、対話処理部４は、話す速度が速いという要因情報に対応して、「ゆっくりとお話しください」というガイダンス情報をスピーカ１２から音声で出力させる。

図３の例では、誤認識の要因が、発話の速度が速いという要因であるので、ステップＳ３８でガイダンス情報が通知された後に話者がゆっくりと発話すると（Ｓ３９）、認識処理部２によって音声が正しく認識される（Ｓ４０〜Ｓ４３）。ここで、ガイダンス情報を提案することによって正しい認識結果が得られると、音声認識システム１は、ステップＳ３８で提案したガイダンス情報の頻度を１つ増やすように履歴情報を更新し、履歴情報保持部６に保持させる。また、移動体搭載機器１０は、音声認識システム１によって正しく認識された認識結果に基づいて、ステップＳ３９で話者が発話した音声に従った動作を行う。例えば、移動体搭載機器１０は、ステップＳ３９で話者が発話した音声に基づいて、渋谷のパン屋を検索する。そして、対話処理部４が検索結果を音声合成してスピーカ１２から音声で出力させており、話者は、ステップＳ３９で発話した音声に基づいて移動体搭載機器１０が検索した結果を音声で取得できる。

このように、通知処理部５は、履歴情報に基づいて頻度が高い順番でガイダンス情報を選択しているので、複数のガイダンス情報を固定の順番で選択したり、無作為に選択したりする場合に比べて、正しいガイダンス情報が通知されるまでの回数を低減可能になる。

次に、図４のシーケンス図を参照して、履歴情報が十分に蓄積された状態での音声認識システム１の動作を説明する。

履歴情報が十分に蓄積された状態で、ステップＳ５１において話者が発話した音声が誤認識された場合（Ｓ５２〜Ｓ５５）、履歴情報に基づいて頻度が最も多いガイダンス情報が話者に通知される（Ｓ５６）。履歴情報が十分に蓄積された状態では、音声認識システム１を利用する話者や音声認識システム１を利用する時間帯及び周囲環境によって、誤認識の要因がある程度絞り込まれる。したがって、ガイダンス提案部７が、履歴情報に基づいて頻度が最も多いガイダンス情報を選択して、スピーカ１２から音声で出力すると、当該音声認識システム１で発生しやすい誤認識の要因に対応したガイダンス情報が通知される可能性が高くなる。例えば、音声認識システム１による誤認識の要因として「発話の速度が速い」という要因情報が最も多かった場合、この要因情報に対応したガイダンス情報（例えば「ゆっくりとお話しください」）を通知処理部５が通知する。したがって、通知処理部５は、音声認識システム１において多発する要因に対応したガイダンス情報を通知するので、誤認識の要因に適したガイダンス情報が通知される可能性が高くなる。

図４の例では、誤認識の要因が、発話の速度が速いという要因であるので、ステップＳ５６でガイダンス情報を通知した後に話者がゆっくりと発話すると（Ｓ５７）、認識処理部２によって音声が正しく認識される（Ｓ５８〜Ｓ６１）。ここで、ガイダンス情報を通知することによって正しい認識結果が得られると、音声認識システム１は、ステップＳ５６で通知したガイダンス情報の頻度を１つ増やすように履歴情報を更新し、履歴情報保持部６に保持させる。また、移動体搭載機器１０は、音声認識システム１によって正しく認識された認識結果に基づいて、ステップＳ５７で話者が発話した音声に従った動作を行う。

このように、履歴情報が十分に蓄積された後では、話者が発した音声が誤認識された場合に、通知処理部５が、誤認識が発生しやすい要因情報に対応したガイダンス情報を早めに通知するようになり、正しい認識結果が得られるまでの発話の回数を低減できる。

また、本実施形態の音声認識システム１では、通知処理部５は、認識処理部２による音声の誤認識が発生すると、所定の処理を行う。所定の処理とは、通知処理部５が、履歴情報に基づいて複数のガイダンス情報の中から順番に選択したガイダンス情報を話者に対して通知する処理である。通知処理部５は、誤認識が発生した場合、履歴情報に基づいて選択されたガイダンス情報を順番に出力しているので、正しい認識結果が得られるまでの発話の回数を低減できる。

また、本実施形態の音声認識システム１では、通知処理部５は、認識処理部２が音声を誤認識した場合に、通知情報を話者に対して通知している。認識処理部２が音声を誤認識した場合に、通知処理部５が通知情報を話者に通知することで、話者に対して、誤認識が発生しにくい発話の仕方で発話するように促すことができる。

また、本実施形態の音声認識システム１では、履歴情報は、通知処理部５が通知した通知情報の履歴に関する情報である。つまり、履歴情報は、１つの音声認識システム１の通知処理部５が以前に通知した通知情報の履歴に関する情報である。したがって、本実施形態の音声認識システム１では、当該音声認識システム１を利用する話者の話し方に応じた通知情報を通知できる。

なお、複数の音声認識システム１と通信ネットワークを介して通信するサーバが、複数の音声認識システム１から通知処理部５が通知した通知情報を収集し、収集した情報に基づいて履歴情報を蓄積してもよい。そして、各音声認識システム１の通知処理部５が、サーバで蓄積された履歴情報に基づいて、複数の通知情報の中から選択した通知情報を話者に対して通知してもよい。この場合、サーバは、各々の音声認識システム１よりも多くの履歴情報を収集することができるので、誤認識が発生しやすい要因に対応した通知情報をを通知することができる。

（３）変形例
上記実施形態は、本開示の様々な実施形態の一つに過ぎない。上記実施形態は、本開示の目的を達成できれば、設計等に応じて種々の変更が可能である。また、音声認識システム１と同様の機能は、音声認識システム１の通知方法、コンピュータプログラム、又はプログラムを記録した非一時的な記録媒体等で具現化されてもよい。一態様に係る音声認識システム１の通知方法は、認識処理と、通知処理とを含む。認識処理では、話者が発した音声を認識する。通知処理では、複数の通知情報の各々が通知された履歴を示す履歴情報に基づいて、複数の通知情報の中から選択した通知情報を話者に対して通知する。複数の通知情報は、誤認識が発生する複数の要因のそれぞれに関連した情報である。一態様に係る（コンピュータ）プログラムは、コンピュータシステムに、認識処理と、通知処理と、を実行させるためのプログラムである。

以下、上記の実施形態の変形例を列挙する。以下に説明する変形例は、適宜組み合わせて適用可能である。なお、以下では、上記実施形態を「基本例」と呼ぶこともある。

本開示における音声認識システム１及び移動体搭載機器１０は、コンピュータシステムを含んでいる。コンピュータシステムは、ハードウェアとしてのプロセッサ及びメモリを主構成とする。コンピュータシステムのメモリに記録されたプログラムをプロセッサが実行することによって、本開示における音声認識システム１及び移動体搭載機器１０としての機能が実現される。プログラムは、コンピュータシステムのメモリに予め記録されてもよく、電気通信回線を通じて提供されてもよく、コンピュータシステムで読み取り可能なメモリカード、光学ディスク、ハードディスクドライブ等の非一時的記録媒体に記録されて提供されてもよい。コンピュータシステムのプロセッサは、半導体集積回路（ＩＣ）又は大規模集積回路（ＬＳＩ）を含む１ないし複数の電子回路で構成される。ここでいうＩＣ又はＬＳＩ等の集積回路は、集積の度合いによって呼び方が異なっており、システムＬＳＩ、ＶＬＳＩ（Very Large Scale Integration）、又はＵＬＳＩ（Ultra Large Scale Integration）と呼ばれる集積回路を含む。さらに、ＬＳＩの製造後にプログラムされる、ＦＰＧＡ（Field-Programmable Gate Array）、又はＬＳＩ内部の接合関係の再構成若しくはＬＳＩ内部の回路区画の再構成が可能な論理デバイスについても、プロセッサとして採用することができる。複数の電子回路は、１つのチップに集約されていてもよいし、複数のチップに分散して設けられていてもよい。複数のチップは、１つの装置に集約されていてもよいし、複数の装置に分散して設けられていてもよい。ここでいうコンピュータシステムは、１以上のプロセッサ及び１以上のメモリを有するマイクロコントローラを含む。したがって、マイクロコントローラについても、半導体集積回路又は大規模集積回路を含む１ないし複数の電子回路で構成される。

また、音声認識システム１における複数の機能（認識処理部２及び通知処理部５の機能）が、１つの筐体内に集約されていることは音声認識システム１に必須の構成ではなく、音声認識システム１の構成要素は、複数の筐体に分散して設けられていてもよい。さらに、音声認識システム１の少なくとも一部の機能、例えば、認識処理部２又は通知処理部５の一部の機能がクラウド（クラウドコンピューティング）等によって実現されてもよい。

（３．１）変形例１
変形例１の音声認識システム１は、誤認識が発生した場合に、通知処理部５が、まず初めに、前回提案した通知情報を話者に提案する点で上記の基本例と相違する。なお、音声認識システム１の構成は基本例と同様であるので、同一の構成要素には同一の符号を付して、その説明は省略する。

図５は変形例１の音声認識システム１の動作を説明するフローチャートである。なお、変形例１の音声認識システム１の動作は、基本例の音声認識システム１の動作とステップＳ５Ａの処理のみ相違し、他のステップの処理は図２のフローチャートの処理と同様である。したがって、以下では、変形例１の特徴部分に関連する動作について説明し、基本例と同様の処理については説明を省略する。

基本例の音声認識システム１では、図２に示すように、ステップＳ１で話者が発した音声が誤認識された場合（Ｓ３：Ｎｏ）、通知処理部５が、履歴情報に基づいて、頻度が最も多いガイダンス情報を選択している（Ｓ５）。

一方、本変形例では、図５に示すように、ステップＳ１で話者が発した音声が誤認識された場合（Ｓ３：Ｎｏ）、通知処理部５は、前回通知したガイダンス情報を選択し（Ｓ５Ａ）、選択したガイダンス情報をスピーカ１２から音声で出力させている（Ｓ６）。

ここで、誤認識が発生した場合、前回と同じ要因で誤認識が発生する可能性もある。本変形例では、誤認識が発生した場合、通知処理部５が、前回通知したガイダンス情報を話者に提案しているので、同じ要因で繰り返し誤認識が発生した場合には、正しい認識結果が得られるまでの発話の回数を低減できる。

なお、前回通知したガイダンス情報を通知した後に誤認識が発生した場合（Ｓ９：Ｎｏ）、通知処理部５は、履歴情報に基づいて、複数のガイダンス情報の中から提案するガイダンス情報を選択し（Ｓ１０）、選択したガイダンス情報を音声で出力する（Ｓ６）。

したがって、前回通知したガイダンス情報を通知した後も誤認識が発生する場合、通知処理部５が、履歴情報に基づいてガイダンス情報を選択し、選択したガイダンス情報を出力するので、正しい認識結果が得られるまでの発話の回数を低減できる。

（３．２）変形例２
変形例２の音声認識システム１は、図６に示すように、話者を特定する話者特定部８を、更に備える点で上記の基本例と相違する。また、変形例２の音声認識システム１では、複数の話者のそれぞれについて履歴情報を保持する複数の履歴情報保持部６を有している。なお、話者特定部８以外の音声認識システム１の構成は基本例と同様であるので、同一の構成要素には同一の符号を付して、その説明は省略する。

話者特定部８は、マイク１１に入力された音声の声紋等に基づいて、話者を特定する。なお、話者特定部８は、声紋以外の生体情報に基づいて話者を特定してもよく、例えば指紋センサで検出した指紋の情報に基づいて話者を特定してもよいし、画像センサで検出した虹彩画像又は顔画像に基づいて話者を特定してもよい。また、話者特定部８は、話者が操作部（例えば選択ボタン等）を操作することによって、操作部から入力される操作信号に基づいて、話者を特定してもよい。

ガイダンス提案部７は、複数の履歴情報保持部６の中から、話者特定部８が特定した話者に対応する履歴情報保持部６を選択する。そして、誤認識が発生した場合、ガイダンス提案部７は、選択した履歴情報保持部６に保持されている履歴情報に基づいて複数の通知情報から話者に対して通知する通知情報を選択し、選択した通知情報を話者に対して通知させる。すなわち、通知処理部５は、複数の通知情報の中から、話者特定部８によって特定された話者に応じた通知情報を選択する。

図７は変形例２の動作を説明するフローチャートである。なお、変形例２の音声認識システム１の動作は、基本例の音声認識システム１の動作とステップＳ５Ｂ〜Ｓ５Ｄの処理のみ相違し、他のステップの処理は図２のフローチャートの処理と同様である。したがって、以下では、変形例２の特徴部分に関連する動作について説明し、基本例と同様の処理については説明を省略する。

変形例２の音声認識システム１では、ステップＳ１で話者が発した音声が誤認識された場合（Ｓ３：Ｎｏ）、話者特定部８が、話者が発した音声の声紋認証を行うことによって、ステップＳ１で発話した話者を特定する（Ｓ５Ｂ）。話者が特定されると、ガイダンス提案部７は、履歴情報を参照する履歴情報保持部６を、複数の履歴情報保持部６のうち、話者特定部８が特定した話者に対応する履歴情報保持部６に切り替える（Ｓ５Ｃ）。そして、ガイダンス提案部７は、ステップＳ５Ｃで選択した履歴情報保持部６に保持されている履歴情報に基づいて、例えば頻度が高い順番にガイダンス情報を選択し（Ｓ５Ｄ）、選択したガイダンス情報を音声で出力させる（Ｓ７）。

このように、変形例２の音声認識システム１では、話者ごとに履歴情報を保持する履歴情報保持部６を備え、発話した話者に対応する履歴情報保持部６の履歴情報に基づいて通知するガイダンス情報（通知情報）を選択している。複数の話者の各々で誤認識の要因が異なる場合、通知処理部５は、複数の話者の各々で蓄積された履歴情報に基づいて通知情報を選択しているので、話者ごとに最適な通知情報を通知することができ、正しい認識結果が得られるまでの発話の回数を低減できる。

（３．３）その他の変形例
基本例の音声認識システム１では、誤認識が発生すると通知処理部５が通知情報を通知していたが、通知処理部５は認識処理部２が音声の認識処理を開始する前に、通知情報を話者に対して提案してもよい。例えば、話者がウェイクワードを発話し、移動体搭載機器１０が音声認識システム１の認識結果に基づいて動作を開始したタイミングで、通知処理部５が履歴情報に基づいて選択した通知情報を音声により出力させてもよい。これにより、通知情報によって通知される通知内容（要因及びガイダンス情報の少なくとも一方）に応じた仕方で発話するように話者に促すことができ、認識処理部２による誤認識が発生しにくくなるという利点がある。

基本例の音声認識システム１において、履歴情報は、複数の通知情報の各々が話者に通知された後に、話者が発した音声を認識処理部２が認識した結果に関する情報を含んでもよい。例えば、履歴情報には、通知情報が通知された後の音声認識で正しく認識された情報、誤認識が発生した情報、音声認識の認識結果の確度等の情報を含んでもよい。これにより、通知処理部５は、複数の通知情報のうち、通知情報を通知することによって音声認識の認識結果が改善した通知情報を優先的に選択することが可能になり、正しい認識結果が得られるまでの発話の回数を低減できる。

基本例の音声認識システム１では、通知処理部５が、話者に対してガイダンス情報を音声で提案しているが、通知処理部５は、ガイダンス情報をディスプレイ装置に表示させることによって話者に提示してもよい。

基本例では、移動体搭載機器１０がナビゲーションシステムであったが、移動体搭載機器１０は、移動体に搭載されて使用される機器であればよく、空調機器及び音響機器でもよいし、移動体を自動運転する自動運転システムでもよい。

基本例では、移動体搭載機器１０を搭載する移動体が自動車であったが、移動体搭載機器１０を搭載する移動体は、例えば、鉄道車両、船舶、航空機等の自動車以外の移動体でもよい。

また、音声認識システム１は、移動体搭載機器１０に備えられるものに限定されず、家電機器又は検索エンジンを搭載した検索システムのＨＭＩ（Human Machine Interface）に適用されてもよい。

（まとめ）
以上説明したように、第１の態様に係る音声認識システム（１）は、認識処理部（２）と、通知処理部（５）と、を備える。認識処理部（２）は、話者が発した音声を認識する。通知処理部（５）は、複数の通知情報の各々が通知された履歴を示す履歴情報に基づいて、複数の通知情報の中から選択した通知情報を話者に対して通知する。複数の通知情報は、誤認識が発生する複数の要因のそれぞれに関連した情報である。

この態様によれば、通知処理部（５）が、履歴情報に基づいて通知情報を選択するので、無作為に選択した通知情報を通知したり、複数の通知情報を固定の順番で通知したりする場合に比べて、誤認識の要因に対応した通知情報を提案しやすくなる。したがって、正しい認識結果が得られるまでの発話の回数を低減可能な音声認識システム（１）を提供できる。

第２の態様に係る音声認識システム（１）では、第１の態様において、履歴情報は、通知処理部（５）が通知した通知情報の履歴に関する情報である。

この態様によれば、音声認識システム（１）を利用する話者に合わせた通知情報を提案できる。

第３の態様に係る音声認識システム（１）では、第１又は第２の態様において、通知処理部（５）は、認識処理部（２）による音声の誤認識が発生した場合に、通知情報を話者に対して通知する。

この態様によれば、認識処理部（２）が音声を誤認識した場合に、通知処理部（５）が通知情報を話者に提案することで、話者に対して、正しく認識されるような発話の仕方で発話するように促すことができる。

第４の態様に係る音声認識システム（１）では、第１又は第２の態様において、通知処理部（５）は、認識処理部（２）が音声の認識処理を開始する前に、通知情報を話者に対して通知する。

この態様によれば、認識処理を開始する前に通知情報を通知することで、誤認識が発生しにくくなるという利点がある。

第５の態様に係る音声認識システム（１）では、第１〜第４のいずれかの態様において、履歴情報は、複数の通知情報の各々が話者に通知された後に、話者が発した音声を認識処理部（２）が認識した結果に関する情報を含む。

この態様によれば、通知情報が通知された後の認識結果を含めた履歴情報に基づいて通知情報を選択できる。

第６の態様に係る音声認識システム（１）では、第１〜第５のいずれかの態様において、履歴情報は、複数の通知情報の各々が話者に通知された後に、話者が発した音声が正しく認識された頻度に関する頻度情報を含む。

この態様によれば、通知情報が通知された後に音声が正しく認識された頻度に関する頻度情報を含めた履歴情報に基づいて通知情報を選択できる。

第７の態様に係る音声認識システム（１）では、第１〜第６のいずれかの態様において、履歴情報は、複数の通知情報の各々が通知されたときの時間情報を含む。

この態様によれば、通知処理部（５）は、通知情報が通知されたときの時間情報を含む履歴情報に基づいて通知情報を選択できる。例えば、通知処理部（５）は、時間情報に基づいて同じような時間帯で通知された通知情報を選択したり、ある期間（例えば、直近の所定期間）に通知された通知情報を選択したりすることができる。

第８の態様に係る音声認識システム（１）では、第１〜第７のいずれかの態様において、履歴情報は、複数の通知情報の各々が通知されたときの話者の周囲環境に関する環境情報を含む。

この態様によれば、通知処理部（５）は、通知情報が通知されたときの話者の周囲環境に関する環境情報を含む履歴情報に基づいて通知情報を選択できる。例えば、通知処理部（５）は、環境情報に基づいて同じような周囲環境で通知された通知情報を選択することができる。

第９の態様に係る音声認識システム（１）では、第１〜第８のいずれかの態様において、通知処理部（５）は、認識処理部（２）による音声の誤認識が発生すると、所定の処理を行う。所定の処理とは、通知処理部（５）が、履歴情報に基づいて複数の通知情報の中から順番に選択した通知情報を話者に対して通知する処理である。

この態様によれば、通知処理部（５）は、誤認識が発生した場合、履歴情報に基づいて選択されたガイダンス情報を順番に出力しているので、正しい認識結果が得られるまでの発話の回数を低減できる。

第１０の態様に係る音声認識システム（１）は、第１〜第９のいずれかの態様において、話者を特定する話者特定部（８）を、更に備える。

この態様によれば、認識処理部（２）に入力される音声の話者を特定できる。

第１１の態様に係る音声認識システム（１）では、第１０の態様において、通知処理部（５）は、複数の通知情報の中から、話者特定部（８）によって特定された話者に応じた通知情報を選択する。

この態様によれば、通知処理部（５）は、話者に応じた通知情報を提案できる。

第１２の態様に係る音声認識システム（１）では、第１〜第１１のいずれかの態様において、通知処理部（５）は、通知情報を話者に対して音声で通知する。

この態様によれば、話者は通知情報を音声で受け取ることができる。

第１３の態様に係る音声認識システム（１）の通知方法は、認識処理と、提案処理と、を含む。認識処理では、話者が発した音声を認識する。提案処理では、複数の通知情報の各々が過去に提案された履歴を示す履歴情報に基づいて、複数の通知情報の中から選択した通知情報を話者に対して提案する。複数の通知情報の各々は発話の仕方を指導するための情報である。

この態様によれば、提案処理では、履歴情報に基づいて複数の通知情報の中から選択した通知情報を話者に提案するので、無作為に選択した通知情報を提案する場合に比べて、誤認識の要因に対応した通知情報を提案しやすくなる。したがって、正しい認識結果が得られるまでの発話の回数を低減可能な音声認識システム（１）の通知方法を提供できる。

第１４の態様に係るプログラムは、コンピュータシステムに、認識処理と、提案処理と、を実行させるためのプログラムである。認識処理では、話者が発した音声を認識する。提案処理では、複数の通知情報の各々が過去に提案された履歴を示す履歴情報に基づいて、複数の通知情報の中から選択した通知情報を話者に対して提案する。複数の通知情報の各々は発話の仕方を指導するための情報である。

この態様によれば、提案処理では、履歴情報に基づいて複数の通知情報の中から選択した通知情報を話者に提案するので、無作為に選択した通知情報を提案する場合に比べて、誤認識の要因に対応した通知情報を提案しやすくなる。したがって、正しい認識結果が得られるまでの発話の回数を低減できる。

第１５の態様に係る移動体搭載機器（１０）は、第１〜第１２のいずれかの態様に係る音声認識システム（１）を備える。認識処理部（２）は、移動体に配置されたマイク（１１）に入力される音声を認識する。

この態様によれば、通知処理部（５）が、履歴情報に基づいて複数の通知情報の中から選択した通知情報を話者に提案するので、無作為に選択した通知情報を提案する場合に比べて、誤認識の要因に対応した通知情報を提案しやすくなる。したがって、正しい認識結果が得られるまでの発話の回数を低減可能な音声認識システム（１）を提供できる。

第１６の態様に係る音声認識システム（１）では、通知情報は、誤認識の要因を示す要因情報と、誤認識の要因を正すような発話の仕方を指導するためのガイダンス情報との少なくとも一方である。

上記態様に限らず、上記の実施形態に係る音声認識システム（１）の種々の構成（変形例を含む）は、音声認識システム（１）の通知方法、（コンピュータ）プログラム、又はプログラムを記録した非一時的記録媒体等で具現化可能である。

第２〜第１２の態様に係る構成については、音声認識システム（１）に必須の構成ではなく、適宜省略可能である。

１音声認識システム
２認識処理部
５通知処理部
８話者特定部
１０移動体搭載機器

Claims

話者が発した音声を認識する認識処理部と、
誤認識が発生する複数の要因のそれぞれに関連した複数の通知情報の各々が通知された履歴を示す履歴情報に基づいて、前記複数の通知情報の中から選択した通知情報を前記話者に対して通知する通知処理部と、を備える、
音声認識システム。
前記履歴情報は、前記通知処理部が通知した前記通知情報の履歴に関する情報である、
請求項１に記載の音声認識システム。
前記通知処理部は、前記認識処理部による音声の誤認識が発生した場合に、前記通知情報を前記話者に対して通知する、
請求項１又は２に記載の音声認識システム。
前記通知処理部は、前記認識処理部が前記音声の認識処理を開始する前に、前記通知情報を前記話者に対して通知する、
請求項１又は２に記載の音声認識システム。
前記履歴情報は、前記複数の通知情報の各々が前記話者に通知された後に、前記話者が発した音声を前記認識処理部が認識した結果に関する情報を含む、
請求項１〜４のいずれか１項に記載の音声認識システム。
前記履歴情報は、前記複数の通知情報の各々が前記話者に通知された後に、前記話者が発した音声が正しく認識された頻度に関する頻度情報を含む、
請求項１〜５のいずれか１項に記載の音声認識システム。
前記履歴情報は、前記複数の通知情報の各々が通知されたときの時間情報を含む、
請求項１〜６のいずれか１項に記載の音声認識システム。
前記履歴情報は、前記複数の通知情報の各々が通知されたときの前記話者の周囲環境に関する環境情報を含む、
請求項１〜７のいずれか１項に記載の音声認識システム。
前記通知処理部は、前記認識処理部による前記音声の誤認識が発生すると、前記履歴情報に基づいて前記複数の通知情報の中から順番に選択した通知情報を前記話者に対して通知する、
請求項１〜８のいずれか１項に記載の音声認識システム。
前記話者を特定する話者特定部を、更に備える、
請求項１〜９のいずれか１項に記載の音声認識システム。
前記通知処理部は、前記複数の通知情報の中から、前記話者特定部によって特定された前記話者に応じた通知情報を選択する、
請求項１０に記載の音声認識システム。
前記通知処理部は、前記通知情報を前記話者に対して音声で通知する、
請求項１〜１１のいずれか１項に記載の音声認識システム。
話者が発した音声を認識する認識処理と、
誤認識が発生する複数の要因のそれぞれに関連した複数の通知情報の各々が通知された履歴を示す履歴情報に基づいて、前記複数の通知情報の中から選択した通知情報を前記話者に対して通知する通知処理と、を含む、
音声認識システムの通知方法。
コンピュータシステムに、
話者が発した音声を認識する認識処理と、
誤認識が発生する複数の要因のそれぞれに関連した複数の通知情報の各々が通知された履歴を示す履歴情報に基づいて、前記複数の通知情報の中から選択した通知情報を前記話者に対して通知する通知処理と、を実行させるための、
プログラム。
請求項１〜１２のいずれか１項に記載の音声認識システムを備え、
前記認識処理部は、移動体に配置されたマイクに入力される前記音声を認識する、
移動体搭載機器。