JP6999236B2

JP6999236B2 - 音声認識システム

Info

Publication number: JP6999236B2
Application number: JP2018070655A
Authority: JP
Inventors: 信範工藤; 貴雄江尻; 和範櫻井; 智也 ▲高▼木; 真浩遠藤; 重巳渡邉
Original assignee: Alpine Electronics Inc
Current assignee: Alpine Electronics Inc
Priority date: 2018-04-02
Filing date: 2018-04-02
Publication date: 2022-01-18
Anticipated expiration: 2038-04-02
Also published as: JP2019184633A

Description

本発明は、ユーザの発話音声を認識する音声認識の技術に関するものである。

ユーザの発話音声を認識する音声認識の技術としては、予め音声認識辞書に登録した各ワードについて、当該ワードが発話音声が表すワードであることの尤もらしさを表す尤度を算定し、尤度が最大のワードを、当該尤度が所定のしきい値を超えたときにのみ、ユーザが発話したワードとして認識する技術が知られている。

また、このような音声認識の技術において、ワードを認識後に、ユーザの、当該ワードの認識に応答して提供されるサービスの中断の意思表示が発生した場合に、当該ワードの誤受理（FA；False Acceptance)が発生したものと判定して、しばらくの間、当該ワードに対して算定された尤度を、より低い値に補正する技術が知られている（たとえば、特許文献１）。

特開２００８-３３１９８号公報

上述した尤度を補正する技術によれば、ユーザの、ワードの認識に応答して提供されるサービスの中断の意思表示が、当該ワードの誤認識によるものではない場合、たとえば、ユーザの言い間違いや提供を受けたいサービスの心変わりであった場合でも、以降、当該ワードの尤度が、より低い値に補正されてしまうことになる。

そして、このような場合には、当該ワードを正しく認識できない誤棄却率（FRR；False Rejection Rate）が増加してしまうこととなる。
そこで、本発明は、音声認識において、できるだけ誤棄却率（FRR；False Rejection Rate）を増加することなく、誤受理率（FAR；False Acceptance Rate)を低減することを課題とする。

前記課題達成のために、本発明は、ワードを音声認識する音声認識システムに、マイクロフォンと、整合の度合を表す基準値が各々設定された複数のワードが登録された音声認識辞書と、前記音声認識辞書に登録されたワードであって、前記マイクロフォンがピックアップした音声に、当該ワードに設定されている前記基準値が表す度合以上高い度合で整合するワードを認識結果として出力する音声認識手段と、前記音声認識手段が前記ワードを認識結果として出力した後の所定期間内に、認識結果に対する拒否を直接的もしくは間接的に表す操作が発生した場合に当該ワードのカウンタ値をインクリメントし、前記所定期間内に前記操作が発生しなかった場合に、当該ワードのカウンタ値をクリアするカウント手段と、前記カウンタ値が所定値以上となったワードの前記基準値を、より高い整合の度合を表すように変更する基準値変更手段とを備えたものである。

また、本発明は、前記課題達成のために、ワードを音声認識する音声認識システムに、マイクロフォンと、整合の度合を表す基準値が各々設定された複数のワードが登録された音声認識辞書と、前記音声認識辞書に登録されたワードであって、前記マイクロフォンがピックアップした音声に、当該ワードに設定されている前記基準値が表す度合以上高い度合で整合するワードを認識結果として出力する音声認識手段と、前記音声認識手段が前記ワードを認識結果として出力した後の所定期間内において、認識結果に対する承認を直接的もしくは間接的に表す操作である第１種の操作が発生する前に、認識結果に対する拒否を直接的もしくは間接的に表す操作である第２種の操作が発生した場合に、当該ワードのカウンタ値をインクリメントし、前記所定期間内において、前記第２種の操作の発生する前に前記第１種の操作が発生した場合に、当該ワードのカウンタ値をクリアするカウント手段と、前記カウンタ値が所定値以上となったワードの前記基準値を、より高い整合の度合を表すように変更する基準値変更手段とを設けたものである。

また、本発明は、前記課題達成のために、ワードを音声認識する音声認識システムであって、マイクロフォンと、整合の度合を表す基準値が各々設定された複数のワードが登録された音声認識辞書と、前記音声認識辞書に登録されたワードであって、前記マイクロフォンがピックアップした音声に、当該ワードに設定されている前記基準値が表す度合以上高い度合で整合するワードを認識結果として出力する音声認識手段と、前記音声認識手段が前記ワード認識結果として出力した後の所定期間内において、認識結果に対する承認を直接的もしくは間接的に表す操作である第１種の操作が発生する前に、認識結果に対する拒否を直接的もしくは間接的に表す操作である第２種の操作が発生した場合に、当該ワードのカウンタ値をインクリメントし、前記所定期間内において、前記第２種の操作の発生する前に前記第１種の操作が発生した場合と、前記所定期間内に前記第１種の操作も前記第２種の操作も発生しなかった場合とに、当該ワードのカウンタ値をクリアするカウント手段と、前記カウンタ値が所定値以上となったワードの前記基準値を、より高い整合の度合を表すように変更する基準値変更手段とを備えたものである。

ここで、以上のような音声認識システムは、当該音声認識システムに、ユーザの操作に応じて、前記ワードの前記基準値を変更する基準値編集手段を設け、前記基準値変更手段に代えて、ユーザに対して、前記カウンタ値が所定値以上となったワードの前記基準値を、より高い整合の度合を表すように変更することを提案する基準値変更提案手段を設けるようにしてもよい。

また、以上の音声認識システムにおいて、前記所定値は２以上の整数としてもよい。
以上のような音声認識システムでは、同じワードの認識と所定期間内のキャンセルが所定値回以上発生した場合にのみ、当該ワードの基準値のより高い整合の度合を表す値への変更、または、当該変更の提案を行う。ここで、同じワードの認識とキャンセルが繰り返される状況は、ユーザの同じワードの発話に対して誤認識が繰り返されている状況である蓋然性が大きい。なお、同じワードの認識と所定期間内のキャンセルが２回以上繰り返された状況は、同様の形態の誤認識が複数回発生している状況であるので、特に、当該蓋然性が大きい。

したがって、以上のような音声認識システムによれば、所定値を適当に設定することにより、真に誤受理（FA；False Acceptance）が発生したワードについてのみ、その基準値をより高い整合の度合を表すように変更して、認識され難くすることができる。よって、誤棄却率（FRR；False Rejection Rate）を増加することなく、誤受理率（FAR；False Acceptance Rate）を低減することができる。

ここで、以上のような音声認識システムは、前記音声認識手段において、前記音声認識辞書に登録されたワードであって、前記マイクロフォンがピックアップした音声に、当該ワードに対して当該ワードに設定されている前記基準値よりも低い整合の度合いを表すように設定した予備基準値が表す度合以上高い度合で整合するワードを予備認識ワードとして検出するようにすると共に、当該音声認識システムに、前記音声認識手段が、前記予備認識ワードを検出したときに、当該予備認識ワードとして検出されたワードの予備認識計数値を１増加し、その後、所定期間経過したならば、当該ワードの前記予備認識計数値を１減少する予備認識計数手段と、前記音声認識手段が、前記認識結果を出力したときに、当該認識結果として出力されたワードの前記予備認識計数値が予め定めた値以上である場合に、当該認識結果として出力されたワードの前記基準値を、より低い整合の度合いを表すように変更する第２基準値変更手段とを設けるようにしてもよい。

また、この場合には、第２基準値変更手段に代えて、前記音声認識手段が、前記認識結果を出力したときに、当該認識結果として出力されたワードの前記予備認識計数値が予め定めた値以上である場合に、ユーザに対して、当該認識結果として出力された当該ワードの前記基準値を、より低い整合の度合いを表すように変更することを提案する手段を設けるようにしてもよい。

以上のような音声認識システムでは、音声認識システムでは、ワードの認識の直前の期間に、当該認識したワードを発話した音声と類似した音声が複数回入力されている場合にのみ、当該ワードの基準値のより低い整合の度合を表す値への変更、または、当該変更の提案を行う。ここで、このようなワードの認識の直前の期間に、当該認識したワードを発話した音声と類似した音声が複数回入力されている状況は、ユーザが同じワードを認識されるまで繰り返し発話した状況、すなわち、誤棄却（FR；False Rejection）が発生したワードの再発話に対して、当該ワードを正しく認識できた状況である蓋然性が大きい。なお、ワードの認識の直前の期間に、当該認識したワードを発話した音声と類似した音声が３回以上の入力されている状況は、認識したワードを発話した音声と類似した音声が３回以上入力した状況であるので、特に、当該蓋然性が大きい。

したがって、以上のような音声認識システムによれば、真に誤棄却（False Rejection；FR）が発生したワードについてのみ、その基準値をより低い整合の度合を表すように変更して、当該ワードを認識されやすくすることができる。よって、誤受理率（FAR；False Acceptance Rate）を増加することなく、誤棄却率（FRR；False Rejection Rate）を低減することができる。

なお、以上のような音声認識システムでは、ワードの認識の直前の期間に入力した音声が、当該認識したワードを発話した音声と類似した音声であるかどうかを、当該音声が、当該ワードの予備基準値が表す度合以上高い度合で整合しているかどうかで判別しているので、ワードの認識の直前の期間に入力した音声が最も整合したワードが当該認識したワードでなくても、誤棄却（False Rejection；FR）を検出して、基準値のより低い整合の度合を表す値への変更、または、当該変更の提案を行うことができる。また、一方で、ワードの認識の直前の期間に入力した音声が最も整合したワードが当該認識したワードであっても、その整合度が低い場合には、認識したワードを発話した音声と類似した音声として検出しないので、誤って誤棄却（False Rejection；FR）を検出して、基準値の変更や、当該変更の提案を行ってしまうことを抑制できる。

また、以上の音声認識システムは、自動車に搭載された情報処理システムにおいて音声入力に用いられる音声認識システムであってもよい。

以上のように、本発明によれば、できるだけ誤棄却率（FRR；False Rejection Rate）を増加することなく、誤受理率（FAR；False Acceptance Rate)を低減することができる。

本発明の実施形態に係る情報処理システムの構成を示すブロック図である。本発明の実施形態に係る音声認識辞書としきい値テーブルを示す図である。本発明の実施形態に係る音声認識エンジンの音声認識の手法を示す図である。本発明の実施形態に係るFR対応しきい値調整処理を示すフローチャートである。本発明の実施形態に係るFR対応しきい値調整処理の処理例を示す図である。本発明の実施形態に係るしきい値調整画面を示す図である。。本発明の実施形態に係るFA対応しきい値調整処理を示すフローチャートである。本発明の実施形態に係るFA対応しきい値調整処理の処理例を示す図である。本発明の実施形態に係るしきい値調整画面を示す図である。

以下、本発明の実施形態を、自動車に搭載される情報処理システムへの適用を例にとり説明する。
図示するように、情報処理システムは、データ処理部１、マイクロフォン２、音声入力部３、入力装置４、表示装置５、カメラやオーディオ機器やＧＰＳ受信器等のその他の周辺装置６を備えている。

ここで、音声入力部３は、マイクロフォン２から入力するユーザの発話音声を音声認識し認識結果をデータ処理部１に出力する。
そして、データ処理部１は、カーナビゲーション機能やミュージックプレイヤ機能やカメラ撮影画像の表示機能などの各種機能を備えており、音声入力部３から入力する認識結果に応じた処理を行う。

次に、また、音声入力部３は、音声認識エンジン３１、音声認識辞書３２、しきい値テーブル３３、音声入力制御部３４を備えている。
ここで、このような情報処理システムは、CPUやメモリや周辺デバイスなどを備えたコンピュータを用いて構成されるものであってよく、この場合、上述したデータ処理部１や音声入力部３は、CPUがコンピュータプログラムを実行することにより実現されるものであってよい。

次に、図２ａに示すように、音声認識辞書３２には、音声認識エンジン３１において認識の対象とする複数のワードと、当該ワードの識別番号（No.）とが登録されている。
また、しきい値テーブル３３には、音声認識エンジン３１において認識の対象とする各ワードについて、そのワードの識別番号（No.）と、そのワードのしきい値Thと、そのワードのしきい値の調整を行うか否かを示す調整有無が登録されている。

次に、音声認識エンジン３１で行う音声認識の動作について説明する。
音声認識エンジン３１は、マイクロフォン２から入力する音声である認識対象音声の入力と並行して、認識対象音声に対する音声認識辞書３２に格納された各ワードのスコアを算定する。
ここで、認識対象音声に対する音声認識辞書３２に登録された各ワードのスコアは、当該ワードと認識対象音声が表す語句との相違の大きさの予測値を表すものであり、より大きい相違を予測しているときほど、スコアはより大きくなる。

より具体的には、スコアの算定は、予め定めておいた初期値をスコアとして設定した上で、認識対象音声の各音声区間（たとえば、音素毎の音声区間）の音が入力する度に、当該音声区間の音と、音声認識辞書３２に登録されている各ワードの当該音声区間に対応する部分の発音との整合の有無を算定し、整合していればスコアを所定値減少し、整合していなければスコアを所定値増加することにより行う。なお、認識対象音声の音声区間毎のスコアの増加値／減少値は、たとえば、当該音声区間のワードの全音声区間に対する割合を、スコアの初期値に乗じた大きさとする。

このような音声認識によれば、認識対象音声が「あいうえおか」であるときに、ワード「あいうえお」に対して算出されるスコアの推移を図３ａに示し、ワード「あいうあい」に対して算出されるスコアの推移を図３ｂに示すように、ワードと一致する認識対象音声の音が入力されている間は、ワードとのスコアは順次減少しワードと一致しない認識対象音声の音が入力されている間はワードのスコアは順次増加する。

すなわち、たとえば、図３ａに示したように、認識対象音声「あいうえおか」と、ワード「あいうえお」とスコアは、認識対象音声の「あいうえお」の音が入力されている期間は順次減少し、その後、認識対象音声の「か」が入力されると増加する。

また、同様に、図３ｂに示したように、認識対象音声「あいうえおか」と、ワード「あいうあい」とスコアは、認識対象音声の「あいう」の音が入力されている期間は順次減少し、その後の、認識対象音声の「えおか」が入力されている期間は順次増加する。

さて、音声認識エンジン３１は、以上のようにして算出される認識対象音声といずれかのワードとのスコアが、そのワードのしきい値テーブル３３に登録されているしきい値Th以下となったならば、当該スコアがしきい値Th以下となったワードを認識ワードとして音声入力制御部３４に出力し、音声入力制御部３４は音声認識エンジン３１から出力された認識ワードを認識結果としてデータ処理部１に出力する。

すなわち、たとえば、図３ａに示したワード「あいうえお」の場合では、ワード「あいうえお」についてのスコアは、認識対象音声の「あいうえおか」の「え」が入力されるとしきい値Th以下となるので、この時点で、認識ワード「あいうえお」が出力される。

一方、図３ｂに示したワード「あいうあい」の場合では、ワード「あいうあい」についてのスコアがのしきい値Th以下となることはないので、このワード「あいうあい」は認識ワードとして出力されない。

また、音声認識エンジン３１は、以上のようにして算出される認識対象音声といずれかのワードとのスコアが、そのワードに対して設定される予備認識しきい値Pth以下となったならば、当該スコアが予備認識しきい値Pth以下となったワードを予備認識し予備認識ワードとして音声入力制御部３４に出力する処理も行う。

ここで、各ワードの予備認識しきい値Pth以下は、そのワードのしきい値テーブル３３に登録されているしきい値Thに所定値を加算した値、または、そのワードのしきい値テーブル３３に登録されているしきい値Thを、当該しきい値Thの所定割合分増加したものとする。

このように予備認識しきい値Pthを設定することにより、たとえば、図３ａに示したワード「あいうえお」の場合では、認識対象音声の「あいうえおか」の「え」が入力されてスコアがしきい値Th以下となって認識ワード「あいうえお」が出力される前に、認識対象音声の「あいうえおか」の「う」が入力された時点でスコアが予備認識しきい値PTh以下となってワード「あいうえお」が予備認識され予備認識ワード「あいうえお」が出力される。

一方、図３ｂに示したワード「あいうあい」は、スコアがしきい値Th以下とならず認識ワードとして出力されることはないが、認識対象音声の「あいうえおか」の「う」が入力された時点でスコアが予備認識しきい値PTh以下となってワード「あいうあい」が予備認識され予備認識ワード「あいうあい」が出力される
次に、音声入力制御部３４が誤棄却率（FRR；False Rejection Rate）を低減するために行うFR対応しきい値調整処理について説明する。

図４に、このFR対応しきい値調整処理の手順を示す。
図示するように、音声入力制御部３４は、FR対応しきい値調整処理において、音声認識エンジン３１からの予備認識ワードの出力の発生と（ステップ４０２）、後述するタイマのタイムアウトの発生と（ステップ４０４）、音声認識エンジン３１からの認識ワードの出力の発生と（ステップ４０６）を監視する。

そして、ステップ４０２、４０４、４０６の監視中に、予備認識ワードの出力が発生したならば、予備認識されたワード（予備認識ワードとなっているワード）のしきい値テーブル３３に登録されている調整有無が調整有りとなっているかどうかを調べ（ステップ４１２）、調整有りとなっていなければステップ４０２、４０４、４０６の監視に戻る。

なお、しきい値テーブル３３に登録されている調整有無の初期値は全てのワードについて調整有りとなっている。
一方、予備認識されたワードのワードのしきい値テーブル３３に登録されている調整有無が調整有りとなっている場合には（ステップ４１２）、予備認識されたワードに対してフラグをセットし（ステップ４１４）、セットしたフラグに対応づけたタイマをスタートし（ステップ４１６）、ステップ４０２、４０４、４０６の監視に戻る。ここで、ステップ４１６でスタートするタイマは、所定時間（たとえば、１０秒）がタイムアウト時間として設定されている。ただし、タイマのタイムアウト時間は、予備認識されたワードの長さ（文字数）に応じて、長さが長いワードほどタイムアウト時間長が大きくなるように設定するようにしてもよい。

次に、ステップ４０２、４０４、４０６の監視中に、いずれかのタイマのタイムアウトが発生した場合には（ステップ４０４）、タイムアウトが発生したタイマに対応づけられているフラグをクリアする（ステップ４２２）。そして、ステップ４０２、４０４、４０６の監視に戻る。

次に、ステップ４０２、４０４、４０６の監視中に、音声認識エンジン３１からの認識ワードの出力が発生した場合には（ステップ４０６）、認識されたワード（認識ワードとなっているワード）のワードのしきい値テーブル３３に登録されている調整有無が調整有りとなっているかどうかを調べ（ステップ４３２）、調整有りとなっていなければステップ４０２、４０４、４０６の監視に戻る。

一方、認識されたワードのワードのしきい値テーブル３３に登録されている調整有無が調整有りとなっている場合には（ステップ４３２）、認識されたワードに対してセットされているフラグ数が所定値ｎ（ｎはたとえば３）以上であるかどうかを調べ（ステップ４３４）、所定値ｎ以上でなければ、ステップ４０２、４０４、４０６の監視に戻る。

一方、認識されたワードに対してセットされているフラグ数が所定値ｎ以上であれば（ステップ４３４）、認識されたワードに対してしきい値テーブル３３に登録されているしきい値Thを、所定値分増加する（ステップ４３６）。

そして、現時点でセットされている各ワードのフラグの全てをクリアし（ステップ４３８）ステップ４０２、４０４、４０６の監視に戻る。
以上、音声入力制御部３４が行うFR対応しきい値調整処理について説明した。
なお、以上のFR対応しきい値調整処理において、各ワードのフラグは、フラグ数がカウント値を表す当該ワードのカウンタとして機能しており、以上のFR対応しきい値調整処理は、ステップ４１４で予備認識されたワードのカウンタを１増加する処理とし、ステップ４１６を、予備認識されたワードに対応づけたタイマをスタートする処理とし、ステップ４２２を、タイムアウトが発生したタイマに対応づけられているワードのカウンタをクリアする処理とし、ステップ４３８を、全てのワードのカウンタをクリアする処理とすると共に、認識されたワードのカウンタのカウンタ値が、当該ワードのフラグ数を表すものとしてステップ４３４を行うようにしても等価である。

なお、このようにFR対応しきい値調整処理をカウンタを用いて行う場合、以下の説明においては、各ワードのカウンタのカウンタ値が、当該ワードのフラグ数を表すものとして取り扱う。

ここで、図５に、このようなFR対応しきい値調整処理の処理例を示す。
図示した例は、ユーザが「ちずかくだい」と発話しても何のワードも認識されないため、再度、「ちずかくだい」と発話することを繰り返した結果、ユーザの３度目の「ちずかくだい」との発話に対してワード「ちずかくだい」が認識された場合についてのものである。

すなわち、同じワードを表すに対して、誤棄却（FR；False Rejection）が二度繰り返された後に、当該ワードを表す３度目の発話に対して正しく当該ワードを認識できた場合についてのものである。

また、この例では、図４に示したFR対応しきい値調整処理出用いるタイマのタイムアウト時間は１０秒であり、所定値ｎは３であるものとしている。
この場合、図示するように、「ちずかくだい」をユーザが発話した音声がマイクロフォン２から、認識対象音声として、音声認識エンジン３１に３度繰り返し入力する。
この場合、音声認識エンジン３１は、１度目の認識対象音声「ちずかくだい」と２度目の認識対象音声「ちずかくだい」については、いずれのワードのスコアとしても、当該ワードのしきい値Th以下となるスコアを算出せず、認識ワードを出力しない。そして、その後、音声認識エンジン３１は、３度目の認識対象音声「ちずかくだい」については、音声認識辞書３２に登録された各ワードのうちのワード「ちずかくだい」に対して、最初に、ワードのしきい値Th以下となるスコアを算出し、認識ワード「ちずかくだい」を出力する(t4)。

一方、ワード「ちずかくだい」を発話した音声は少なくとも各回の認識対象音声「ちずかくだい」と類似しているので、音声認識エンジン３１は、１度目の認識対象音声「ちずかくだい」と２度目の認識対象音声「ちずかくだい」について、ワード「ちずかくだい」のスコアとしてワード「ちずかくだい」の予備認識しきい値PTh以下となるスコアを算出し、予備認識ワード「ちずかくだい」を出力する（t1,t2)。また、３度目の認識対象音声「ちずかくだい」についても、認識ワード「ちずかくだい」を出力する前に、ワード「ちずかくだい」のスコアとしてワード「ちずかくだい」の予備認識しきい値PTh以下となるスコアを算出し、予備認識ワード「ちずかくだい」を出力する(t3)。そして、音声入力制御部３４は、予備認識ワード「ちずかくだい」が出力されるたび、ワード「ちずかくだい」に対するフラグをセットし、セット後、１０秒間セット状態のまま維持する。

なお、音声認識エンジン３１は、各回の認識対象音声「ちずかくだい」に対して、ワード「ちずかくだい」以外の、認識対象音声「ちずかくだい」に所定レベル以上、発話が類似する他のワードについても、当該他のワードのスコアとして当該他のワードの予備認識しきい値PTh以下となるスコアを算出し、当該他のワードを予備認識ワードとして出力し、音声入力制御部３４は、当該他のワードが予備認識ワードとして出力されるたび、当該他のワードに対するフラグをセットし、セット後、１０秒間セット状態のまま維持する。

そして、時刻t4において、認識ワード「ちずかくだい」が出力されたならば、音声入力制御部３４は、認識ワードとして出力されたワード「ちずかくだい」に対してセットされているフラグの数を調べ、図示した例では、所定値ｎである３以上であるので、ワード「ちずかくだい」のしきい値Thを増加する。ただし、時刻t1最初の予備認識ワード「ちずかくだい」の出力から、時刻t4の認識ワード「ちずかくだい」の出力までの時間は、タイムアウト時間の１０秒以内であったものとする。

なお、このようなFR対応しきい値調整処理では、１度目の認識対象音声「ちずかくだい」と２度目の認識対象音声「ちずかくだい」に対して、ワード「ちずかくだい」を含む複数のワードが予備認識ワードとして出力されており、予備認識ワードとして出力されたワードのスコアのうちで、ワード「ちずかくだい」のスコアが最小でない場合であっても、認識ワード「ちずかくだい」が認識されたときに、ワード「ちずかくだい」のしきい値Thの増加は行われる。すなわち、以上のようなFR対応しきい値調整処理によれば、１度目の認識対象音声と２度目の認識対象音声の双方に対して予備認識ワードとして出力されたワードが複数存在する場合、その複数のワードのうちの、３度目の認識対象音声に対して認識ワードとして出力されたワードのしきい値Thの増加が行われる。

そして、このようなワード「ちずかくだい」のしきい値Thの増加により、ワード「ちずかくだい」はより認識されやすくなり、以降、ワード「ちずかくだい」の誤棄却率（FRR；False Rejection Rate）は低減する。

たとば、ワード「ちずかくだい」のしきい値Thを、図４中Xの値まで増加させれば、図４の１度目や２度目の認識対象音声「ちずかくだい」と同じ認識対象音声に対して、ワード「ちずかくだい」を認識ワードとして認識できるようになる。

さて、ここで、認識ワードとして認識されたワードと同じワードが予備認識ワードとして検出された音声は、当該認識ワードを発話した音声と類似した音声である。
そして、以上に説明してきたようにFR対応しきい値調整処理では、認識ワードの認識の直前の期間に、当該認識ワードを発話した音声と類似した音声（予備認識ワードが検出された音声）が複数回入力されている場合にのみ、当該ワードのしきい値Thの増加を行う。また、このような認識ワードの認識の直前の期間に、当該認識したワードを発話した音声と類似した音声が複数回入力されている状況は、ユーザが同じワードを認識されるまで繰り返し発話した状況、すなわち、誤棄却（FR；False Rejection）が発生したワードの再発話に対して、当該ワードを正しく認識ワードとして認識できた状況である蓋然性が大きい。なお、認識ワードの認識の直前の期間に、当該認識ワードを発話した音声と類似した音声が３回以上の入力されている状況は、認識ワードを発話した音声と類似した音声が３回以上入力した状況であるので、特に、当該蓋然性が大きい。

したがって、真に誤棄却（FR；False Rejection）が発生したワードについてのみ、しきい値Thの増加を行って、当該ワードを認識されやすくすることができ、誤受理率（FAR；False Acceptance Rate）を増加することなく、誤棄却率（FRR；False Rejection Rate）を低減することができる。

なお、以上のように認識ワードの認識の直前の期間に入力した音声が、当該認識した認識ワードを発話した音声と類似した音声であるかどうかを、当該音声に対して、当該認識ワードの予備認識しきい値PTh以下のスコアが算出されるかどうかで判別しているので、認識ワードの認識の直前の期間に入力した音声が最も整合したワードが当該認識ワードと同じワードでなくても、誤棄却（FR；False Rejection）を検出して、当該ワードのしきい値Thの増加を行うことができる。また、一方で、認識ワードの認識の直前の期間に入力した音声が最も整合したワードが当該認識ワードと同じワードであっても、そのスコアが予備認識しきい値PTh以下とならない場合には、当該音声を認識ワードを発話した音声と類似した音声として検出しないので、誤って誤棄却（FR；False Rejection）を検出して、当該ワードのしきい値Thの増加を行ってしまうことは抑制される。

さて、ここで、以上のFR対応しきい値調整処理では、ステップ４３６で、認識ワードとして認識されたワードに対してしきい値テーブル３３に登録されているしきい値Thを所定値分増加したが、ステップ４３６は、たとえば、”「ちずかくだい」は、しきい値を増加すると認識されやすくなります”といったような、認識ワードとして認識されたワードのしきい値の増加を促すメッセージを表示もしくは音声出力する処理としてもよい。ただし、この場合には、データ処理部１に、ユーザ操作に応じて、しきい値テーブル３３の各ワードのしきい値Thを変更する機能を設け、ユーザが自身でワードのしきい値を調整できるようにする。

または、データ処理部１に、図６ａに示すような、各ワード用のしきい値調整画面を表示装置５に表示して、当該しきい値調整画面に対するユーザ操作に応じて、しきい値テーブル３３のしきい値Thを変更するしきい値変更処理を行うしきい値編集機能を設け、ユーザが自身でワードのしきい値を調整できるようにする共に、ステップ４３６を、しきい値編集機能の、認識ワードとして認識されたワードのしきい値変更処理を、しきい値増加提案型の属性で起動する処理としてもよい。ここで、しきい値編集機能は、特定のワードのしきい値変更処理を起動したならば、図６ａに示す当該ワード用のしきい値調整画面を表示装置５に表示し、しきい値調整画面に設けた増加キー６０１、減少キー６０２のユーザ操作をしきい値調整操作として図６ｂ、ｃに示すように受け付けながら、しきい値テーブル３３の当該ワードのしきい値Thを変更する。また、しきい値編集機能は、しきい値増加提案型の属性でしきい値変更処理を起動した場合、しきい値調整画面には、「設定を大きくすると"地図拡大"が認識されやすくなります」といったような、しきい値を減少することを提案するメッセージの表示を含める。

さて、音声入力制御部３４は、以上の処理の他、FR対応しきい値調整処理によってしきい値Thを増加したワードについて、その後に、ユーザ操作に応じてしきい値を減少したならば、当該ワードのしきい値テーブル３３の調整有無を調整無しに設定する処理等も行う。

次に、音声入力制御部３４が誤受理率（FAR；False Acceptance Rate)を低減するために行うFA対応しきい値調整処理について説明する。
図７に、このFA対応しきい値調整処理の手順を示す。
図示するように、FA対応しきい値調整処理において、音声入力制御部３４は、音声認識エンジン３１からの認識ワードの出力の発生（ステップ７０２）を監視する。
そして、認識ワードの出力が発生したならば（ステップ７０２）、認識されたワード（認識ワードとなっているワード）のワードのしきい値テーブル３３に登録されている調整有無が調整有りとなっているかどうかを調べ（ステップ７０４）、調整有りとなっていなければステップ７０２の監視に戻る。

一方、調整有りとなっていれば（ステップ７０４）、所定のタイムアウト時間をセットしたタイマをスタートする（ステップ７０６）。ここで、このタイムアウト時間の時間長は、当該時間長、何のユーザ操作も発生しなかった場合に、認識結果に応じてデータ処理部１において行われた処理をユーザが承認していると見なせる時間長（たとえば、１０秒）を設定する。

そして、キャンセルの発生と（ステップ７０８）、受け入れ通知の発生と（ステップ７１０）、タイマのタイムアウトの発生と（ステップ７１２）とを監視する。
ここで、ステップ７０８で発生を検出するキャンセルとは、ステップ７０２で出力を検出した認識ワードの入力の取り消しであり、ステップ７０８では、音声認識エンジン３１が認識ワード「キャンセル」を認識したときや、所定のキャンセル操作が発生したときにキャンセルの発生を検出する。または、ステップ７０８では、データ処理部１において、音声入力制御部３４から入力した認識結果に応じてデータ処理部１において行われた処理に対する拒否を表すユーザ操作が発生したときに、データ処理部１から、音声入力制御部３４にキャンセル発生を通知し、当該通知が発生したときに音声入力制御部３４において、キャンセルの発生を検出するようにしてもよい。ここで、認識結果に応じてデータ処理部１において行われた処理に対する拒否を表すユーザ操作としては、当該処理の停止を指示するユーザ操作や、当該処理前の状態への復帰を指示するユーザ操作（たとえば、「前に戻る」や「前画面」などのメニューコマンドの選択操作）などを予め設定する。

また、ステップ７１０で発生を検出する受け入れ通知は、データ処理部１から音声入力制御部３４に通知される、音声入力制御部３４から入力した認識結果に応じてデータ処理部１において行われた処理の、ユーザの承認を表す通知であり、データ処理部１は、予め定めておいた認識結果に応じてデータ処理部１において行う処理の結果を利用するユーザ操作が行われた場合に受け入れ通知を音声入力制御部３４に出力する。

そして、ステップ７０８、７１０、７１２の監視中に、キャンセルが発生した場合には（ステップ７０８）、ステップ７０２で出力を検出した認識ワードとして認識されたワードに対するカウンタ値を１増加し（ステップ７１６）、当該カウンタ値が所定値ｍ（所定値ｍはたとえば２）以上であるかどうかを調べる（ステップ７１８）。

そして、当該カウンタ値が所定値ｍ以上でなければ、ステップ７０８、７１０、７１２の監視に戻る。
一方、当該カウンタ値が所定値ｍ以上であれば、ステップ７０２で出力を検出した認識ワードとして認識されたワードの、しきい値テーブル３３に登録されているしきい値Thを、所定値分減少する（ステップ７２０）。そして、ステップ７０２で出力を検出した認識ワードとして認識されたワードに対するカウント値を０にクリアし（ステップ７１４）、ステップ７０８、７１０、７１２の監視に戻る。

一方、ステップ７０８、７１０、７１２の監視中に、タイムアウトが発生した場合や（ステップ７１０）、受け入れ通知が発生した場合（ステップ７１２）には、ステップ７０２で出力を検出した認識ワードとして認識されたワードに対するカウント値を０にクリアし（ステップ７１４）、ステップ７０８、７１０、７１２の監視に戻る
以上、音声入力制御部３４が行うFA対応しきい値調整処理について説明した。

ここで、図８に、このようなFA対応しきい値調整処理の処理例を示す。
図示した例は、ユーザが発話した認識対象音声「るーとしょうさい」に対して、認識ワードとしてワード「るーとしょうきょ」が誤認識された（t1)ため、ユーザがキャンセルを行って（t2)、再発話した「るーとしょうさい」に対しても、再び認識ワードとしてワード「るーとしょうきょ」が誤認識され（t3)、ユーザが再度キャンセルを行った(t4)場合について示している。

また、この例では、所定値ｍを２としている。
この場合、最初のキャンセルが行われると（t2)、誤認識されたワード「るーとしょうきょ」に対するカウント値は増加し１となる。また、２回目のキャンセルが行われると（t4)、誤認識されたワード「るーとしょうきょ」に対するカウント値は増加し２となり、所定値ｍ以上となるので、このワード「るーとしょうきょ」のしきい値Thの減少が行われる。

そして、このようなワード「るーとしょうきょ」のしきい値Thの減少により、ワード「るーとしょうきょ」はより認識され難くなり、以降、ワード「るーとしょうきょ」の誤受理率（FAR；False Acceptance Rate)は低減する。

ここで、このようなFA対応しきい値調整処理では、所定値ｍ回以上、同じワードの認識ワードとしての認識と、当該認識ワードに対するタイマのタイムアウト時間以内のキャンセルが繰り返された場合のみ、当該ワードのしきい値Thを減少する。そして、このような同じワードの認識とキャンセルが繰り返される状況は、ユーザの同じワードの発話に対して誤認識が繰り返されている状況である蓋然性が大きい。したがって、以上のようなFA対応しきい値調整処理によれば、真に誤受理（FA；False Acceptance）ワードについてのみ、そのしきい値Thを減少して、認識され難くすることができ、誤棄却率（FRR；False Rejection Rate）を増加することなく、誤受理率（FAR；False Acceptance Rate）を低減することができる。

さて、ここで、以上のFA対応しきい値調整処理では、ステップ７２０で、認識ワードとして認識されたワードに対してしきい値テーブル３３に登録されているしきい値Thを所定値分減少したが、ステップ７２０は、たとえば、”「るーとしょうきょ」は、しきい値を減少すると誤認識され難くなります”といったような、認識ワードとして認識されたワードのしきい値の減少を促すメッセージを表示もしくは音声出力する処理としてもよい。ただし、この場合には、データ処理部１に、ユーザ操作に応じて、しきい値テーブル３３の各ワードのしきい値Thを変更する機能を設け、ユーザが自身でワードのしきい値を調整できるようにする。

または、データ処理部１に、図９ａに示すような、各ワード用のしきい値調整画面を表示装置５に表示して、当該しきい値調整画面に対するユーザ操作に応じて、しきい値テーブル３３のしきい値Thを変更するしきい値変更処理を行うしきい値編集機能を設け、ユーザが自身でワードのしきい値を調整できるようにする共に、ステップ７２０を、しきい値編集機能の、認識ワードとして認識されたワードのしきい値変更処理を、しきい値減少提案型の属性で起動する処理としてもよい。ここで、しきい値編集機能は、特定のワードのしきい値変更処理を起動したならば、図９ａに示す当該ワード用のしきい値調整画面を表示装置５に表示し、しきい値調整画面に設けた増加キー６０１、減少キー６０２のユーザ操作をしきい値調整操作として図９ｂ、ｃに示すように受け付けながら、しきい値テーブル３３の当該ワードのしきい値Thを変更する。また、しきい値編集機能は、しきい値減少提案型の属性でしきい値変更処理を起動した場合、しきい値調整画面には、「設定を小さくすると"ルート消去"は誤認識され難くなります」といったような、しきい値を減少することを提案するメッセージの表示を含める。

さて、音声入力制御部３４は、以上の処理の他、FR対応しきい値調整処理とFA対応しきい値調整処理によって、しきい値Thが増減を繰り返すワードの発生を監視し、しきい値Thが増減を繰り返すワードが発生したならば、当該ワードのしきい値テーブル３３の調整有無を調整無しに設定する処理を行う。

また、音声入力制御部３４は、FA対応しきい値調整処理によってしきい値Thが予め定めた最小値まで減少したワードの音声認識を停止するかどうかをユーザに問い合わせて、停止の旨を指示された場合に、当該ワードを音声認識対象とするワードから除外するように音声認識エンジン３１を制御する処理なども行う。

以上、本発明の実施形態について説明した。

１…データ処理部、２…マイクロフォン、３…音声入力部、４…入力装置、５…表示装置、６…周辺装置、３１…音声認識エンジン、３２…音声認識辞書、３３…値テーブル、３４…音声入力制御部。

Claims

ワードを音声認識する音声認識システムであって、
マイクロフォンと、
整合の度合を表す基準値が各々設定された複数のワードが登録された音声認識辞書と、
前記音声認識辞書に登録されたワードであって、前記マイクロフォンがピックアップした音声に、当該ワードに設定されている前記基準値が表す度合以上高い度合で整合するワードを認識結果として出力する音声認識手段と、
前記音声認識手段が前記ワードを認識結果として出力した後の所定期間内において、認識結果に対する承認を直接的もしくは間接的に表す操作である第１種の操作が発生する前に、認識結果に対する拒否を直接的もしくは間接的に表す操作である第２種の操作が発生した場合に、当該ワードのカウンタ値をインクリメントし、前記所定期間内において、前記第２種の操作の発生する前に前記第１種の操作が発生した場合に、当該ワードのカウンタ値をクリアするカウント手段と、
前記カウンタ値が所定値以上となったワードの前記基準値を、より高い整合の度合を表すように変更する基準値変更手段とを有することを特徴とする音声認識システム。
ワードを音声認識する音声認識システムであって、
マイクロフォンと、
整合の度合を表す基準値が各々設定された複数のワードが登録された音声認識辞書と、
前記音声認識辞書に登録されたワードであって、前記マイクロフォンがピックアップした音声に、当該ワードに設定されている前記基準値が表す度合以上高い度合で整合するワードを認識結果として出力する音声認識手段と、
前記音声認識手段が前記ワード認識結果として出力した後の所定期間内において、認識結果に対する承認を直接的もしくは間接的に表す操作である第１種の操作が発生する前に、認識結果に対する拒否を直接的もしくは間接的に表す操作である第２種の操作が発生した場合に、当該ワードのカウンタ値をインクリメントし、前記所定期間内において、前記第２種の操作の発生する前に前記第１種の操作が発生した場合と、前記所定期間内に前記第１種の操作も前記第２種の操作も発生しなかった場合とに、当該ワードのカウンタ値をクリアするカウント手段と、
前記カウンタ値が所定値以上となったワードの前記基準値を、より高い整合の度合を表すように変更する基準値変更手段とを有することを特徴とする音声認識システム。
ワードを音声認識する音声認識システムであって、
マイクロフォンと、
整合の度合を表す基準値が各々設定された複数のワードが登録された音声認識辞書と、
前記音声認識辞書に登録されたワードであって、前記マイクロフォンがピックアップした音声に、当該ワードに設定されている前記基準値が表す度合以上高い度合で整合するワードを認識結果として出力する音声認識手段と、
前記音声認識手段が前記ワードを認識結果として出力した後の所定期間内に、認識結果に対する拒否を直接的もしくは間接的に表す操作が発生した場合に当該ワードのカウンタ値をインクリメントし、前記所定期間内に前記操作が発生しなかった場合に、当該ワードのカウンタ値をクリアするカウント手段と、
ユーザに対して、前記カウンタ値が所定値以上となったワードの前記基準値を、より高い整合の度合を表すように変更することを提案する基準値変更提案手段と、
ユーザの操作に応じて、前記ワードの前記基準値を変更する基準値編集手段とを有することを特徴とする音声認識システム。
ワードを音声認識する音声認識システムであって、
マイクロフォンと、
整合の度合を表す基準値が各々設定された複数のワードが登録された音声認識辞書と、
前記音声認識辞書に登録されたワードであって、前記マイクロフォンがピックアップした音声に、当該ワードに設定されている前記基準値が表す度合以上高い度合で整合するワードを認識結果として出力する音声認識手段と、
前記音声認識手段が前記ワードを認識結果として出力した後の所定期間内において、認識結果に対する承認を直接的もしくは間接的に表す操作である第１種の操作が発生する前に、認識結果に対する拒否を直接的もしくは間接的に表す操作である第２種の操作が発生した場合に、当該ワードのカウンタ値をインクリメントし、前記所定期間内において、前記第２種の操作の発生する前に前記第１種の操作が発生した場合に、当該ワードのカウンタ値をクリアするカウント手段と、
ユーザに対して、前記カウンタ値が所定値以上となったワードの前記基準値を、より高い整合の度合を表すように変更することを提案する基準値変更提案手段と、
ユーザの操作に応じて、前記ワードの前記基準値を変更する基準値編集手段とを有することを特徴とする音声認識システム。
ワードを音声認識する音声認識システムであって、
マイクロフォンと、
整合の度合を表す基準値が各々設定された複数のワードが登録された音声認識辞書と、
前記音声認識辞書に登録されたワードであって、前記マイクロフォンがピックアップした音声に、当該ワードに設定されている前記基準値が表す度合以上高い度合で整合するワードを認識結果として出力する音声認識手段と、
前記音声認識手段が前記ワード認識結果として出力した後の所定期間内において、認識結果に対する承認を直接的もしくは間接的に表す操作である第１種の操作が発生する前に、認識結果に対する拒否を直接的もしくは間接的に表す操作である第２種の操作が発生した場合に、当該ワードのカウンタ値をインクリメントし、前記所定期間内において、前記第２種の操作の発生する前に前記第１種の操作が発生した場合と、前記所定期間内に前記第１種の操作も前記第２種の操作も発生しなかった場合とに、当該ワードのカウンタ値をクリアするカウント手段と、
ユーザに対して、前記カウンタ値が所定値以上となったワードの前記基準値を、より高い整合の度合を表すように変更することを提案する基準値変更提案手段と、
ユーザの操作に応じて、前記ワードの前記基準値を変更する基準値編集手段とを有することを特徴とする音声認識システム。
請求項１、２、３、４または５記載の音声認識システムであって、
前記音声認識手段は、前記音声認識辞書に登録されたワードであって、前記マイクロフォンがピックアップした音声に、当該ワードに対して当該ワードに設定されている前記基準値よりも低い整合の度合いを表すように設定した予備基準値が表す度合以上高い度合で整合するワードを予備認識ワードとして検出し、
当該音声認識システムは、前記音声認識手段が、前記予備認識ワードを検出したときに、当該予備認識ワードとして検出されたワードの予備認識計数値を１増加し、その後、所定期間経過したならば、当該ワードの前記予備認識計数値を１減少する予備認識計数手段と、
前記音声認識手段が、前記認識結果を出力したときに、当該認識結果として出力されたワードの前記予備認識計数値が所定値以上である場合に、当該認識結果として出力されたワードの前記基準値を、より低い整合の度合いを表すように変更する第２基準値変更手段を有することを特徴とする音声認識システム。
請求項１または２記載の音声認識システムであって、
前記音声認識手段は、前記音声認識辞書に登録されたワードであって、前記マイクロフォンがピックアップした音声に、当該ワードに対して当該ワードに設定されている前記基準値よりも低い整合の度合いを表すように設定した予備基準値が表す度合以上高い度合で整合するワードを予備認識ワードとして検出し、
当該音声認識システムは、
前記音声認識手段が、前記予備認識ワードを検出したときに、当該予備認識ワードとして検出されたワードの予備認識計数値を１増加し、その後、所定期間経過したならば、当該ワードの前記予備認識計数値を１減少する予備認識計数手段と、
前記音声認識手段が、前記認識結果を出力したときに、当該認識結果として出力されたワードの前記予備認識計数値が予め定めた値以上である場合に、ユーザに対して、当該認識結果として出力された当該ワードの前記基準値を、より低い整合の度合いを表すように変更することを提案する基準値変更提案手段と、
ユーザの操作に応じて、前記ワードの前記基準値を変更する基準値編集手段とを有することを特徴とする音声認識システム。
請求項３、４または５記載の音声認識システムであって、
前記音声認識手段は、前記音声認識辞書に登録されたワードであって、前記マイクロフォンがピックアップした音声に、当該ワードに対して当該ワードに設定されている前記基準値よりも低い整合の度合いを表すように設定した予備基準値が表す度合以上高い度合で整合するワードを予備認識ワードとして検出し、
当該音声認識システムは、
前記音声認識手段が、前記予備認識ワードを検出したときに、当該予備認識ワードとして検出されたワードの予備認識計数値を１増加し、その後、所定期間経過したならば、当該ワードの前記予備認識計数値を１減少する予備認識計数手段と、
前記音声認識手段が、前記認識結果を出力したときに、当該認識結果として出力されたワードの前記予備認識計数値が予め定めた値以上である場合に、ユーザに対して、当該認識結果として出力された当該ワードの前記基準値を、より低い整合の度合いを表すように変更することを提案する第２基準値変更提案手段とを有することを特徴とする音声認識システム。
請求項１、２、３、４、５、６、７または８記載の音声認識システムであって、
前記所定値は２以上の整数であることを特徴とする音声認識システム。
請求項１、２、３、４、５、６、７、８または９記載の音声認識システムであって、
当該音声認識システムは、自動車に搭載された情報処理システムにおいて音声入力に用いられる音声認識システムであることを特徴とする音声認識システム。