JP6999236B2 - 音声認識システム - Google Patents
音声認識システム Download PDFInfo
- Publication number
- JP6999236B2 JP6999236B2 JP2018070655A JP2018070655A JP6999236B2 JP 6999236 B2 JP6999236 B2 JP 6999236B2 JP 2018070655 A JP2018070655 A JP 2018070655A JP 2018070655 A JP2018070655 A JP 2018070655A JP 6999236 B2 JP6999236 B2 JP 6999236B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- recognition
- voice
- voice recognition
- reference value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Navigation (AREA)
Description
そこで、本発明は、音声認識において、できるだけ誤棄却率(FRR;False Rejection Rate)を増加することなく、誤受理率(FAR;False Acceptance Rate)を低減することを課題とする。
以上のような音声認識システムでは、同じワードの認識と所定期間内のキャンセルが所定値回以上発生した場合にのみ、当該ワードの基準値のより高い整合の度合を表す値への変更、または、当該変更の提案を行う。ここで、同じワードの認識とキャンセルが繰り返される状況は、ユーザの同じワードの発話に対して誤認識が繰り返されている状況である蓋然性が大きい。なお、同じワードの認識と所定期間内のキャンセルが2回以上繰り返された状況は、同様の形態の誤認識が複数回発生している状況であるので、特に、当該蓋然性が大きい。
図示するように、情報処理システムは、データ処理部1、マイクロフォン2、音声入力部3、入力装置4、表示装置5、カメラやオーディオ機器やGPS受信器等のその他の周辺装置6を備えている。
そして、データ処理部1は、カーナビゲーション機能やミュージックプレイヤ機能やカメラ撮影画像の表示機能などの各種機能を備えており、音声入力部3から入力する認識結果に応じた処理を行う。
ここで、このような情報処理システムは、CPUやメモリや周辺デバイスなどを備えたコンピュータを用いて構成されるものであってよく、この場合、上述したデータ処理部1や音声入力部3は、CPUがコンピュータプログラムを実行することにより実現されるものであってよい。
また、しきい値テーブル33には、音声認識エンジン31において認識の対象とする各ワードについて、そのワードの識別番号(No.)と、そのワードのしきい値Thと、そのワードのしきい値の調整を行うか否かを示す調整有無が登録されている。
音声認識エンジン31は、マイクロフォン2から入力する音声である認識対象音声の入力と並行して、認識対象音声に対する音声認識辞書32に格納された各ワードのスコアを算定する。
ここで、認識対象音声に対する音声認識辞書32に登録された各ワードのスコアは、当該ワードと認識対象音声が表す語句との相違の大きさの予測値を表すものであり、より大きい相違を予測しているときほど、スコアはより大きくなる。
次に、音声入力制御部34が誤棄却率(FRR;False Rejection Rate)を低減するために行うFR対応しきい値調整処理について説明する。
図示するように、音声入力制御部34は、FR対応しきい値調整処理において、音声認識エンジン31からの予備認識ワードの出力の発生と(ステップ402)、後述するタイマのタイムアウトの発生と(ステップ404)、音声認識エンジン31からの認識ワードの出力の発生と(ステップ406)を監視する。
一方、予備認識されたワードのワードのしきい値テーブル33に登録されている調整有無が調整有りとなっている場合には(ステップ412)、予備認識されたワードに対してフラグをセットし(ステップ414)、セットしたフラグに対応づけたタイマをスタートし(ステップ416)、ステップ402、404、406の監視に戻る。ここで、ステップ416でスタートするタイマは、所定時間(たとえば、10秒)がタイムアウト時間として設定されている。ただし、タイマのタイムアウト時間は、予備認識されたワードの長さ(文字数)に応じて、長さが長いワードほどタイムアウト時間長が大きくなるように設定するようにしてもよい。
以上、音声入力制御部34が行うFR対応しきい値調整処理について説明した。
なお、以上のFR対応しきい値調整処理において、各ワードのフラグは、フラグ数がカウント値を表す当該ワードのカウンタとして機能しており、以上のFR対応しきい値調整処理は、ステップ414で予備認識されたワードのカウンタを1増加する処理とし、ステップ416を、予備認識されたワードに対応づけたタイマをスタートする処理とし、ステップ422を、タイムアウトが発生したタイマに対応づけられているワードのカウンタをクリアする処理とし、ステップ438を、全てのワードのカウンタをクリアする処理とすると共に、認識されたワードのカウンタのカウンタ値が、当該ワードのフラグ数を表すものとしてステップ434を行うようにしても等価である。
図示した例は、ユーザが「ちずかくだい」と発話しても何のワードも認識されないため、再度、「ちずかくだい」と発話することを繰り返した結果、ユーザの3度目の「ちずかくだい」との発話に対してワード「ちずかくだい」が認識された場合についてのものである。
この場合、図示するように、「ちずかくだい」をユーザが発話した音声がマイクロフォン2から、認識対象音声として、音声認識エンジン31に3度繰り返し入力する。
この場合、音声認識エンジン31は、1度目の認識対象音声「ちずかくだい」と2度目の認識対象音声「ちずかくだい」については、いずれのワードのスコアとしても、当該ワードのしきい値Th以下となるスコアを算出せず、認識ワードを出力しない。そして、その後、音声認識エンジン31は、3度目の認識対象音声「ちずかくだい」については、音声認識辞書32に登録された各ワードのうちのワード「ちずかくだい」に対して、最初に、ワードのしきい値Th以下となるスコアを算出し、認識ワード「ちずかくだい」を出力する(t4)。
そして、以上に説明してきたようにFR対応しきい値調整処理では、認識ワードの認識の直前の期間に、当該認識ワードを発話した音声と類似した音声(予備認識ワードが検出された音声)が複数回入力されている場合にのみ、当該ワードのしきい値Thの増加を行う。また、このような認識ワードの認識の直前の期間に、当該認識したワードを発話した音声と類似した音声が複数回入力されている状況は、ユーザが同じワードを認識されるまで繰り返し発話した状況、すなわち、誤棄却(FR;False Rejection)が発生したワードの再発話に対して、当該ワードを正しく認識ワードとして認識できた状況である蓋然性が大きい。なお、認識ワードの認識の直前の期間に、当該認識ワードを発話した音声と類似した音声が3回以上の入力されている状況は、認識ワードを発話した音声と類似した音声が3回以上入力した状況であるので、特に、当該蓋然性が大きい。
図7に、このFA対応しきい値調整処理の手順を示す。
図示するように、FA対応しきい値調整処理において、音声入力制御部34は、音声認識エンジン31からの認識ワードの出力の発生(ステップ702)を監視する。
そして、認識ワードの出力が発生したならば(ステップ702)、認識されたワード(認識ワードとなっているワード)のワードのしきい値テーブル33に登録されている調整有無が調整有りとなっているかどうかを調べ(ステップ704)、調整有りとなっていなければステップ702の監視に戻る。
ここで、ステップ708で発生を検出するキャンセルとは、ステップ702で出力を検出した認識ワードの入力の取り消しであり、ステップ708では、音声認識エンジン31が認識ワード「キャンセル」を認識したときや、所定のキャンセル操作が発生したときにキャンセルの発生を検出する。または、ステップ708では、データ処理部1において、音声入力制御部34から入力した認識結果に応じてデータ処理部1において行われた処理に対する拒否を表すユーザ操作が発生したときに、データ処理部1から、音声入力制御部34にキャンセル発生を通知し、当該通知が発生したときに音声入力制御部34において、キャンセルの発生を検出するようにしてもよい。ここで、認識結果に応じてデータ処理部1において行われた処理に対する拒否を表すユーザ操作としては、当該処理の停止を指示するユーザ操作や、当該処理前の状態への復帰を指示するユーザ操作(たとえば、「前に戻る」や「前画面」などのメニューコマンドの選択操作)などを予め設定する。
一方、当該カウンタ値が所定値m以上であれば、ステップ702で出力を検出した認識ワードとして認識されたワードの、しきい値テーブル33に登録されているしきい値Thを、所定値分減少する(ステップ720)。そして、ステップ702で出力を検出した認識ワードとして認識されたワードに対するカウント値を0にクリアし(ステップ714)、ステップ708、710、712の監視に戻る。
以上、音声入力制御部34が行うFA対応しきい値調整処理について説明した。
図示した例は、ユーザが発話した認識対象音声「るーとしょうさい」に対して、認識ワードとしてワード「るーとしょうきょ」が誤認識された(t1)ため、ユーザがキャンセルを行って(t2)、再発話した「るーとしょうさい」に対しても、再び認識ワードとしてワード「るーとしょうきょ」が誤認識され(t3)、ユーザが再度キャンセルを行った(t4)場合について示している。
この場合、最初のキャンセルが行われると(t2)、誤認識されたワード「るーとしょうきょ」に対するカウント値は増加し1となる。また、2回目のキャンセルが行われると(t4)、誤認識されたワード「るーとしょうきょ」に対するカウント値は増加し2となり、所定値m以上となるので、このワード「るーとしょうきょ」のしきい値Thの減少が行われる。
Claims (10)
- ワードを音声認識する音声認識システムであって、
マイクロフォンと、
整合の度合を表す基準値が各々設定された複数のワードが登録された音声認識辞書と、
前記音声認識辞書に登録されたワードであって、前記マイクロフォンがピックアップした音声に、当該ワードに設定されている前記基準値が表す度合以上高い度合で整合するワードを認識結果として出力する音声認識手段と、
前記音声認識手段が前記ワードを認識結果として出力した後の所定期間内において、認識結果に対する承認を直接的もしくは間接的に表す操作である第1種の操作が発生する前に、認識結果に対する拒否を直接的もしくは間接的に表す操作である第2種の操作が発生した場合に、当該ワードのカウンタ値をインクリメントし、前記所定期間内において、前記第2種の操作の発生する前に前記第1種の操作が発生した場合に、当該ワードのカウンタ値をクリアするカウント手段と、
前記カウンタ値が所定値以上となったワードの前記基準値を、より高い整合の度合を表すように変更する基準値変更手段とを有することを特徴とする音声認識システム。 - ワードを音声認識する音声認識システムであって、
マイクロフォンと、
整合の度合を表す基準値が各々設定された複数のワードが登録された音声認識辞書と、
前記音声認識辞書に登録されたワードであって、前記マイクロフォンがピックアップした音声に、当該ワードに設定されている前記基準値が表す度合以上高い度合で整合するワードを認識結果として出力する音声認識手段と、
前記音声認識手段が前記ワード認識結果として出力した後の所定期間内において、認識結果に対する承認を直接的もしくは間接的に表す操作である第1種の操作が発生する前に、認識結果に対する拒否を直接的もしくは間接的に表す操作である第2種の操作が発生した場合に、当該ワードのカウンタ値をインクリメントし、前記所定期間内において、前記第2種の操作の発生する前に前記第1種の操作が発生した場合と、前記所定期間内に前記第1種の操作も前記第2種の操作も発生しなかった場合とに、当該ワードのカウンタ値をクリアするカウント手段と、
前記カウンタ値が所定値以上となったワードの前記基準値を、より高い整合の度合を表すように変更する基準値変更手段とを有することを特徴とする音声認識システム。 - ワードを音声認識する音声認識システムであって、
マイクロフォンと、
整合の度合を表す基準値が各々設定された複数のワードが登録された音声認識辞書と、
前記音声認識辞書に登録されたワードであって、前記マイクロフォンがピックアップした音声に、当該ワードに設定されている前記基準値が表す度合以上高い度合で整合するワードを認識結果として出力する音声認識手段と、
前記音声認識手段が前記ワードを認識結果として出力した後の所定期間内に、認識結果に対する拒否を直接的もしくは間接的に表す操作が発生した場合に当該ワードのカウンタ値をインクリメントし、前記所定期間内に前記操作が発生しなかった場合に、当該ワードのカウンタ値をクリアするカウント手段と、
ユーザに対して、前記カウンタ値が所定値以上となったワードの前記基準値を、より高い整合の度合を表すように変更することを提案する基準値変更提案手段と、
ユーザの操作に応じて、前記ワードの前記基準値を変更する基準値編集手段とを有することを特徴とする音声認識システム。 - ワードを音声認識する音声認識システムであって、
マイクロフォンと、
整合の度合を表す基準値が各々設定された複数のワードが登録された音声認識辞書と、
前記音声認識辞書に登録されたワードであって、前記マイクロフォンがピックアップした音声に、当該ワードに設定されている前記基準値が表す度合以上高い度合で整合するワードを認識結果として出力する音声認識手段と、
前記音声認識手段が前記ワードを認識結果として出力した後の所定期間内において、認識結果に対する承認を直接的もしくは間接的に表す操作である第1種の操作が発生する前に、認識結果に対する拒否を直接的もしくは間接的に表す操作である第2種の操作が発生した場合に、当該ワードのカウンタ値をインクリメントし、前記所定期間内において、前記第2種の操作の発生する前に前記第1種の操作が発生した場合に、当該ワードのカウンタ値をクリアするカウント手段と、
ユーザに対して、前記カウンタ値が所定値以上となったワードの前記基準値を、より高い整合の度合を表すように変更することを提案する基準値変更提案手段と、
ユーザの操作に応じて、前記ワードの前記基準値を変更する基準値編集手段とを有することを特徴とする音声認識システム。 - ワードを音声認識する音声認識システムであって、
マイクロフォンと、
整合の度合を表す基準値が各々設定された複数のワードが登録された音声認識辞書と、
前記音声認識辞書に登録されたワードであって、前記マイクロフォンがピックアップした音声に、当該ワードに設定されている前記基準値が表す度合以上高い度合で整合するワードを認識結果として出力する音声認識手段と、
前記音声認識手段が前記ワード認識結果として出力した後の所定期間内において、認識結果に対する承認を直接的もしくは間接的に表す操作である第1種の操作が発生する前に、認識結果に対する拒否を直接的もしくは間接的に表す操作である第2種の操作が発生した場合に、当該ワードのカウンタ値をインクリメントし、前記所定期間内において、前記第2種の操作の発生する前に前記第1種の操作が発生した場合と、前記所定期間内に前記第1種の操作も前記第2種の操作も発生しなかった場合とに、当該ワードのカウンタ値をクリアするカウント手段と、
ユーザに対して、前記カウンタ値が所定値以上となったワードの前記基準値を、より高い整合の度合を表すように変更することを提案する基準値変更提案手段と、
ユーザの操作に応じて、前記ワードの前記基準値を変更する基準値編集手段とを有することを特徴とする音声認識システム。 - 請求項1、2、3、4または5記載の音声認識システムであって、
前記音声認識手段は、前記音声認識辞書に登録されたワードであって、前記マイクロフォンがピックアップした音声に、当該ワードに対して当該ワードに設定されている前記基準値よりも低い整合の度合いを表すように設定した予備基準値が表す度合以上高い度合で整合するワードを予備認識ワードとして検出し、
当該音声認識システムは、前記音声認識手段が、前記予備認識ワードを検出したときに、当該予備認識ワードとして検出されたワードの予備認識計数値を1増加し、その後、所定期間経過したならば、当該ワードの前記予備認識計数値を1減少する予備認識計数手段と、
前記音声認識手段が、前記認識結果を出力したときに、当該認識結果として出力されたワードの前記予備認識計数値が所定値以上である場合に、当該認識結果として出力されたワードの前記基準値を、より低い整合の度合いを表すように変更する第2基準値変更手段を有することを特徴とする音声認識システム。 - 請求項1または2記載の音声認識システムであって、
前記音声認識手段は、前記音声認識辞書に登録されたワードであって、前記マイクロフォンがピックアップした音声に、当該ワードに対して当該ワードに設定されている前記基準値よりも低い整合の度合いを表すように設定した予備基準値が表す度合以上高い度合で整合するワードを予備認識ワードとして検出し、
当該音声認識システムは、
前記音声認識手段が、前記予備認識ワードを検出したときに、当該予備認識ワードとして検出されたワードの予備認識計数値を1増加し、その後、所定期間経過したならば、当該ワードの前記予備認識計数値を1減少する予備認識計数手段と、
前記音声認識手段が、前記認識結果を出力したときに、当該認識結果として出力されたワードの前記予備認識計数値が予め定めた値以上である場合に、ユーザに対して、当該認識結果として出力された当該ワードの前記基準値を、より低い整合の度合いを表すように変更することを提案する基準値変更提案手段と、
ユーザの操作に応じて、前記ワードの前記基準値を変更する基準値編集手段とを有することを特徴とする音声認識システム。 - 請求項3、4または5記載の音声認識システムであって、
前記音声認識手段は、前記音声認識辞書に登録されたワードであって、前記マイクロフォンがピックアップした音声に、当該ワードに対して当該ワードに設定されている前記基準値よりも低い整合の度合いを表すように設定した予備基準値が表す度合以上高い度合で整合するワードを予備認識ワードとして検出し、
当該音声認識システムは、
前記音声認識手段が、前記予備認識ワードを検出したときに、当該予備認識ワードとして検出されたワードの予備認識計数値を1増加し、その後、所定期間経過したならば、当該ワードの前記予備認識計数値を1減少する予備認識計数手段と、
前記音声認識手段が、前記認識結果を出力したときに、当該認識結果として出力されたワードの前記予備認識計数値が予め定めた値以上である場合に、ユーザに対して、当該認識結果として出力された当該ワードの前記基準値を、より低い整合の度合いを表すように変更することを提案する第2基準値変更提案手段とを有することを特徴とする音声認識システム。 - 請求項1、2、3、4、5、6、7または8記載の音声認識システムであって、
前記所定値は2以上の整数であることを特徴とする音声認識システム。 - 請求項1、2、3、4、5、6、7、8または9記載の音声認識システムであって、
当該音声認識システムは、自動車に搭載された情報処理システムにおいて音声入力に用いられる音声認識システムであることを特徴とする音声認識システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018070655A JP6999236B2 (ja) | 2018-04-02 | 2018-04-02 | 音声認識システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018070655A JP6999236B2 (ja) | 2018-04-02 | 2018-04-02 | 音声認識システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019184633A JP2019184633A (ja) | 2019-10-24 |
JP6999236B2 true JP6999236B2 (ja) | 2022-01-18 |
Family
ID=68340143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018070655A Active JP6999236B2 (ja) | 2018-04-02 | 2018-04-02 | 音声認識システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6999236B2 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001228894A (ja) | 2000-02-18 | 2001-08-24 | Denso Corp | 音声認識装置 |
WO2009008115A1 (ja) | 2007-07-09 | 2009-01-15 | Mitsubishi Electric Corporation | 音声認識装置およびナビゲーションシステム |
JP2011022476A (ja) | 2009-07-17 | 2011-02-03 | Fujitsu Ltd | 音声認識用の閾値管理プログラム、音声認識用の閾値管理方法、音声認識装置 |
-
2018
- 2018-04-02 JP JP2018070655A patent/JP6999236B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001228894A (ja) | 2000-02-18 | 2001-08-24 | Denso Corp | 音声認識装置 |
WO2009008115A1 (ja) | 2007-07-09 | 2009-01-15 | Mitsubishi Electric Corporation | 音声認識装置およびナビゲーションシステム |
JP2011022476A (ja) | 2009-07-17 | 2011-02-03 | Fujitsu Ltd | 音声認識用の閾値管理プログラム、音声認識用の閾値管理方法、音声認識装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2019184633A (ja) | 2019-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106796786B (zh) | 语音识别系统 | |
JP6233650B2 (ja) | 操作補助装置および操作補助方法 | |
JP2006251800A (ja) | ユーザ適応型の音声認識方法及び音声認識装置 | |
JP2008009153A (ja) | 音声対話システム | |
JP5431282B2 (ja) | 音声対話装置、方法、プログラム | |
JP6350903B2 (ja) | 操作補助装置および操作補助方法 | |
JP5189858B2 (ja) | 音声認識装置 | |
KR20230002690A (ko) | 발화의 음성 인식 오류 교정 | |
JP2008033198A (ja) | 音声対話システム、音声対話方法、音声入力装置、プログラム | |
JP2009015148A (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
JP6468258B2 (ja) | 音声対話装置および音声対話方法 | |
JP6459330B2 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
JP2006208486A (ja) | 音声入力装置 | |
JP2018116206A (ja) | 音声認識装置、音声認識方法及び音声認識システム | |
JP6716968B2 (ja) | 音声認識装置、音声認識プログラム | |
JP6966374B2 (ja) | 音声認識システム及びコンピュータプログラム | |
US20090106025A1 (en) | Speaker model registering apparatus and method, and computer program | |
JP6999236B2 (ja) | 音声認識システム | |
JP2001154694A (ja) | 音声認識装置及び方法 | |
JP4951422B2 (ja) | 音声認識装置、および音声認識方法 | |
JP2006337942A (ja) | 音声対話装置及び割り込み発話制御方法 | |
JP5157596B2 (ja) | 音声認識装置 | |
JP6912985B2 (ja) | 音声認識システム及びコンピュータプログラム | |
JP2007183516A (ja) | 音声対話装置及び音声認識方法 | |
JP2020091435A (ja) | 音声認識システム、音声認識システムの通知方法、プログラム、及び移動体搭載機器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210108 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211025 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211102 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211126 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211221 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211221 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6999236 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |