JP6716968B2

JP6716968B2 - 音声認識装置、音声認識プログラム

Info

Publication number: JP6716968B2
Application number: JP2016043348A
Authority: JP
Inventors: 鈴木　一久; 一久鈴木
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2016-03-07
Filing date: 2016-03-07
Publication date: 2020-07-01
Anticipated expiration: 2036-03-07
Also published as: WO2017154358A1; JP2017161581A

Description

本発明は、音声認識装置および音声認識プログラムに関する。

例えば車両に搭載される音声認識装置においては、周囲のノイズやユーザの言い間違えなどにより、正しい音声認識結果を得られない場合がある。そのため、正しい音声認識結果が得られない場合に、ユーザに再度の発話を促す機能を備えた音声認識装置が考えられている。例えば特許文献１には、ユーザの音声の信頼度、即ち、尤らしさが所定の閾値以上であるか否かを判定し、信頼度が所定の閾値以上である場合に音声認識を行う技術が開示されている。そして、特許文献１には、ユーザの発話回数や対話時間に応じて閾値を変更する技術が開示されている。

特開２００８−９１５３号公報

特許文献１に記載の従来技術によれば、ユーザの発話回数や対話時間に応じた閾値に基づいて音声認識を行うことができる。しかしながら、発話の「回数」や対話の「時間」に応じて閾値を変更する従来技術では、例えば前回と今回とでユーザが異なる言葉を発した場合であっても、発話の「回数」や対話の「時間」が所定の条件を満たすのであれば閾値が変更されてしまう。正しい音声認識結果が得られずユーザに再度の発話を促す場合としては、通常、ユーザは、前回と同じ言葉を繰り返し発することが想定される。よって、再度の発話により正しい音声認識結果を得るという観点からは、ユーザが同じ言葉を繰り返す場合に閾値を変更すれば十分である。よって、ユーザが異なる言葉を発する場合にも閾値が変更されてしまう従来技術では、閾値の変更が不要であるにも関わらず閾値が変更されてしまうおそれがある。

そこで、本発明は、ユーザが発する音声の信頼度、即ち、尤度と所定の閾値との大小関係に基づいて音声認識の有効性を判断する音声認識装置および音声認識プログラムにおいて、その判断の基準となる閾値を適切に変更できるようにした構成を提供すること目的とする。

本発明に係る音声認識装置は、音声入力部、音声記憶部、音声認識処理部、尤度算出処理部、有効判定処理部、同一判定処理部、閾値調整処理部を備える。音声入力部は、ユーザの音声が入力される。音声記憶部は、音声入力部に入力される音声を記憶する。音声認識処理部は、音声入力部に入力される音声を認識する。尤度算出処理部は、音声認識処理部による音声の認識結果の尤度を算出する。有効判定処理部は、尤度算出処理部により算出される尤度が所定の閾値以上である場合に、音声認識処理部による音声の認識結果を有効と判定する。同一判定処理部は、音声記憶部に記憶されている前回の音声と今回の音声との一致度に基づいて、前回の音声と今回の音声とが同一であるか否かを判定する。閾値調整処理部は、同一判定処理部により前回の音声と今回の音声とが同一であると判定された場合に、閾値を所定の調整値だけ低くする。

本発明に係る音声認識プログラムは、ユーザの音声が入力される音声入力部と、音声入力部に入力される音声を記憶する音声記憶部と、を備える音声認識装置に、音声認識処理、尤度算出処理、有効判定処理、同一判定処理、閾値調整処理を実行させる。音声認識処理は、音声入力部に入力される音声を認識する。尤度算出処理は、音声認識処理による音声の認識結果の尤度を算出する。有効判定処理は、尤度算出処理により算出される尤度が所定の閾値以上である場合に、音声認識処理による音声の認識結果を有効と判定する。同一判定処理は、音声記憶部に記憶されている前回の音声と今回の音声との一致度に基づいて、前回の音声と今回の音声とが同一であるか否かを判定する。閾値調整処理は、同一判定処理により前回の音声と今回の音声とが同一であると判定された場合に、閾値を所定の調整値だけ低くする。

本発明に係る音声認識装置および音声認識プログラムによれば、音声の認識結果を有効または無効と判定するための判断基準である閾値を、ユーザが同じ言葉の入力を繰り返す場合に限り、適切な値に変更することができる。

本実施形態に係る音声認識装置の構成例を概略的に示す図音声認識画面の一例を示す図音声認識装置の動作例を示すフローチャート

以下、音声認識装置の一実施形態について図面を参照しながら説明する。図１に例示する音声認識装置１０は、例えば車両に搭載されるものであり、制御部１１、音声入力部１２、音声出力部１３、表示出力部１４、操作入力部１５、記憶部１６などを備える。制御部１１は、図示しないマイクロコンピュータを主体として構成されており、音声認識装置１０の動作全般を制御する。

音声入力部１２は、図示しないマイクなどを備えており、ユーザの音声が入力される。音声入力部１２は、入力される音声を音声データに変換して制御部１１に出力する。制御部１１は、音声入力部１２から入力される音声データを記憶部１６に記憶する。記憶部１６は、音声記憶部の一例であり、例えばハードディスクドライブなどの記憶媒体で構成されている。記憶部１６には、音声入力部１２から入力される音声の音声データのほか、音声認識用の辞書データベースなどの音声認識処理に必要な各種のデータが格納されている。

音声出力部１３は、図示しないスピーカなどを備えており、制御部１１から入力される音声出力信号に基づいて、音声認識結果などの各種情報を音声により出力する。表示出力部１４は、図示しない表示パネルなどを備えており、制御部１１から入力される表示出力信号に基づいて、例えば図２に示す音声認識画面Ｇなどの各種画面を表示する。音声認識画面Ｇには、例えば音声認識可能なコマンドが例示されており、ユーザは、音声認識画面Ｇに示されているコマンドを参考に各種の音声、即ち、音声認識装置１０に対するコマンドを発することができる。なお、音声認識画面Ｇに示されるコマンドはあくまでも例であり、音声認識装置１０は、音声認識画面Ｇに示されていない音声も認識可能となっている。操作入力部１５は、図示しない操作スイッチなどを備えており、ユーザにより操作スイッチが操作されると、その操作内容を制御部１１に入力する。

制御部１１は、音声認識プログラムの一例である音声認識用の制御プログラムを実行することにより、音声認識処理部２１、尤度算出処理部２２、有効判定処理部２３、同一判定処理部２４、閾値調整処理部２５をソフトウェアにより仮想的に実現する。なお、これらの処理部は、ハードウェアにより実現してもよいし、ソフトウェアとハードウェアの組み合わせにより実現してもよい。

音声認識処理部２１は、音声入力部１２に入力される音声の音声データと、音声認識用の辞書データベースに格納されている音声データとを照合することにより、両音声データの一致度を特定する。そして、音声認識処理部２１は、両音声データが完全に一致、あるいは、概ね一致している場合には、入力された音声が、照合した辞書データベースの音声データの音声であることを認識する。なお、両音声データが概ね一致しているとは、両音声データが例えば８０％〜９０％以上一致している場合など、完全一致と同視できる程度に一致している場合を意味する。

尤度算出処理部２２は、音声認識処理部２１による音声の認識結果の尤度を算出する。即ち、尤度算出処理部２２は、音声認識処理部２１による音声認識処理時における上記両音声データの一致度に応じ、一致度が高いほど高い尤度を算出し、一致度が低いほど低い尤度を算出する。

有効判定処理部２３は、尤度算出処理部２２により算出される尤度が所定の閾値Ｔ以上である場合には、音声認識処理部２１による音声の認識結果を有効と判定し、閾値Ｔよりも小さい場合には、音声認識処理部２１による音声の認識結果を無効と判定する。なお、有効判定処理部２３は、音声認識処理部２１による音声の認識結果を無効と判定する場合には、その判定理由、例えば、ユーザの音声が小さすぎる、あるいは、大きすぎる旨を示す情報、ユーザの音声が速すぎる、あるいは、遅すぎる旨を示す情報などといった無効判定理由情報を出力するようになっている。

無効判定理由情報は、例えば、音声出力部１３による音声により出力してもよいし、表示出力部１４による画面表示により出力してもよいし、音声出力部１３による聴覚的出力および表示出力部１４による視覚的出力の双方により行ってもよい。また、音声の大きさや速さは、例えば、音声入力部１２が出力する音声データの信号レベルを大きさ判定用の閾値や速さ判定用の閾値と比較することにより特定することができる。

同一判定処理部２４は、記憶部１６に記憶されている前回の入力音声の音声データと今回の入力音声の音声データとの一致度に基づいて、前回入力された音声と今回入力された音声とが同一であるか否かを判定する。即ち、同一判定処理部２４は、前回の入力音声の音声データと今回の入力音声の音声データとの一致度を特定する。そして、同一判定処理部２４は、両音声データが完全に一致、あるいは、概ね一致している場合には、前回入力された音声と今回入力された音声とが同一であると判定する。なお、両音声データが概ね一致しているとは、両音声データが例えば８０％〜９０％以上一致している場合など、完全一致と同視できる程度に一致している場合を意味する。

閾値調整処理部２５は、同一判定処理部２４により前回の音声と今回の音声とが同一であると判定された場合に、上記の閾値Ｔを所定の調整値だけ低くする。閾値調整処理部２５は、尤度算出処理部２２により算出される尤度に応じて調整値を変化させるように構成されている。この場合、閾値調整処理部２５は、算出される尤度が高いほど調整値を大きくする。また、閾値調整処理部２５は、過去における複数の音声認識処理において、尤度算出処理部２２により算出される尤度が閾値Ｔ以上となった回数に応じて調整値を変化させるように構成されている。この場合、閾値調整処理部２５は、算出される尤度が閾値Ｔ以上となった回数が多いほど調整値を大きくする。

次に、音声認識装置１０の動作例について説明する。図３に例示するように、音声認識装置１０は、音声認識画面Ｇを表示すると、音声が入力されたか否かを監視する（Ｓ１）。そして、音声認識装置１０は、音声が入力されると（Ｓ１：ＹＥＳ）、その音声データを記憶する（Ｓ２）。そして、音声認識装置１０は、ステップＳ１時と同一の音声認識画面Ｇを表示している状態において、再度、音声が入力されたか否かを監視する（Ｓ３）。音声認識装置１０は、再度、音声が入力された場合（Ｓ３：ＹＥＳ）には、その音声データを記憶して（Ｓ４）、ステップＳ５に移行する。なお、音声認識装置１０は、所定の待機時間内に、再度、音声が入力されない場合（Ｓ３：ＮＯ）には、ステップＳ１に移行する。

音声認識装置１０は、ステップＳ５に移行すると、音声認識処理部２１による音声認識処理を実行する。そして、音声認識装置１０は、尤度算出処理部２２による尤度算出処理を実行する（Ｓ６）。そして、音声認識装置１０は、同一判定処理部２４による同一判定処理を実行する（Ｓ７）。音声認識装置１０は、同一判定処理により、前回入力された音声と今回入力された音声とが同一であると判定した場合（Ｓ７：ＹＥＳ）には、閾値Ｔを低くする（Ｓ８）。なお、ステップＳ８により閾値調整処理の一例が構成されている。また、音声認識装置１０は、閾値Ｔを低くしたこと、即ち、音声認識結果を有効あるいは無効と判断するための判断基準値をユーザの発話態様に適応させたことを出力して（Ｓ９）、ステップＳ１０に移行する。

なお、判断基準値を適応させたことの出力は、例えば、音声出力部１３による音声により出力してもよいし、表示出力部１４による画面表示により出力してもよいし、音声出力部１３による聴覚的出力および表示出力部１４による視覚的出力の双方により行ってもよい。また、音声認識装置１０は、同一判定処理により、前回入力された音声と今回入力された音声とが同一でないと判定した場合（Ｓ７：ＮＯ）には、ステップＳ８，Ｓ９を実行することなくステップＳ１０に移行する。

音声認識装置１０は、ステップＳ１０に移行すると、ステップＳ６において算出した尤度が閾値Ｔ以上か否かを判定する。ステップＳ１０は、有効判定処理の一例である。音声認識装置１０は、尤度が閾値Ｔ以上である場合（Ｓ１０：ＹＥＳ）には、ステップＳ５における音声の認識結果を有効と判定して（Ｓ１１）、この制御を終了する。一方、音声認識装置１０は、尤度が閾値Ｔよりも小さい場合（Ｓ１０：ＮＯ）には、ステップＳ５における音声の認識結果を無効と判定する（Ｓ１２）。そして、音声認識装置１０は、無効判定理由情報を出力して（Ｓ１３）、この制御を終了する。なお、ステップＳ１０，Ｓ１１，Ｓ１２により、有効判定処理の一例が構成されている。

音声認識装置１０によれば、同一の音声認識画面Ｇを表示している状態においてユーザが何度も音声を入力する場合であって、前回の音声と今回の音声とが同一であると判定できる場合には、音声の認識結果を有効または無効と判定するための判断基準値である閾値Ｔを所定の調整値だけ低くするようにした。これにより、音声の認識結果が有効と判断されやすくなるため、ユーザが何度も同じ音声を入力し続けなければならない事態を回避することができる。このように、音声認識装置１０によれば、音声の認識結果を有効または無効と判定するための判断基準値を、ユーザが同じ言葉の入力を繰り返す場合に限り、適切な値に変更することができる。

また、音声認識装置１０によれば、算出される尤度に応じて閾値Ｔの調整値を変化させるようにした。この場合、音声認識装置１０は、算出される尤度が高いほど調整値を大きくする。即ち、音声認識結果の尤らしさが高いほど閾値Ｔをより小さな値とすることで、尤らしさが高い音声認識結果が有効と判断される確率を高めることができる。

また、音声認識装置１０によれば、過去における複数の音声認識処理において算出される尤度が閾値Ｔ以上となった回数に応じて、閾値Ｔの調整値を変化させるようにした。この場合、音声認識装置１０は、算出される尤度が閾値Ｔ以上となった回数が多いほど調整値を大きくする。即ち、過去における複数の音声認識処理時において音声の認識結果が有効と判断された回数が多いほど閾値Ｔをより小さな値とすることで、例えば、有効と判断されやすいユーザの音声については、その音声認識結果が有効と判断される確率を高めることができる。

また、音声認識装置１０によれば、音声の認識結果を無効と判定する場合には、その判定理由も出力する。これにより、ユーザは、出力された判定理由に基づき発話態様を改善することができ、音声の認識結果が有効と判断される確率を高めることができる。

なお、本発明は、上述した実施形態に限定されるものではなく、その要旨を逸脱しない範囲で種々の実施形態に適用可能である。
例えば、音声認識装置１０は、ステップＳ８において、閾値Ｔを低くするだけでなく、音声認識処理の処理速度を遅くする、あるいは、音声認識処理の処理にかける時間を長くする、といった処理を行うようにしてもよい。即ち、音声認識処理の処理速度を遅くしたり、処理時間を長くしたりすることにより、より正確に音声認識処理を行うことができるようになる。正しい音声認識結果が得られずユーザが同じ言葉を何度も繰り返し入力する場合には、このような正確な音声認識処理を行うための措置を行うことが有効である。

また、音声認識装置１０は、少なくとも前回入力された音声の音声データを記憶すればよい。従って、音声認識装置１０は、過去の音声データを古いものから順に消去する構成としてもよく、この場合、限りある記憶部１６の記憶容量を有効に活用できる。また、音声認識装置１０は、尤度を複数段階、例えば、「高」、「中」、「低」の３段階で算出する構成としてもよいし、例えばパーセンテージによる連続的な数値により算出する構成としてもよい。

また、音声認識装置１０は、算出される尤度が高いほど閾値Ｔの調整値を小さくする構成としてもよい。また、音声認識装置１０は、過去における複数の音声認識処理において、算出される尤度が閾値Ｔ以上となった回数が多いほど閾値Ｔの調整値を小さくする構成としてもよい。

図面中、１０は音声認識装置、１２は音声入力部、１６は音声記憶部、２１は音声認識処理部、２２は尤度算出処理部、２３は有効判定処理部、２４は同一判定処理部、２５は閾値調整処理部を示す。

Claims

ユーザの音声が入力される音声入力部（１２）と、
前記音声入力部に入力される音声を記憶する音声記憶部（１６）と、
前記音声入力部に入力される音声を認識する音声認識処理部（２１）と、
前記音声認識処理部による音声の認識結果の尤度を算出する尤度算出処理部（２２）と、
前記尤度算出処理部により算出される尤度が所定の閾値以上である場合に、前記音声認識処理部による音声の認識結果を有効と判定する有効判定処理部（２３）と、
前記音声記憶部に記憶されている前回の音声と今回の音声との一致度に基づいて、前回の音声と今回の音声とが同一であるか否かを判定する同一判定処理部（２４）と、
前記同一判定処理部により前回の音声と今回の音声とが同一であると判定された場合に、前記閾値を所定の調整値だけ低くする閾値調整処理部（２５）と、
を備え、
前記閾値調整処理部が前記閾値を所定の調整値だけ低くしたことをユーザに出力する音声認識装置。
前記閾値調整処理部は、前記尤度算出処理部により算出される尤度に応じて前記調整値を変化させる請求項１に記載の音声認識装置。
前記閾値調整処理部は、前記尤度算出処理部により算出される尤度が前記閾値以上となった回数に応じて前記調整値を変化させる請求項１または２に記載の音声認識装置。
前記有効判定処理部は、前記尤度算出処理部により算出される尤度が所定の閾値よりも小さい場合に、前記音声認識処理部による音声の認識結果を無効と判定するとともに、その判定理由を出力する請求項１から３の何れか１項に記載の音声認識装置。
ユーザの音声が入力される音声入力部（１２）と、前記音声入力部に入力される音声を記憶する音声記憶部（１６）と、を備える音声認識装置（１０）に、
前記音声入力部に入力される音声を認識する音声認識処理と、
前記音声認識処理による音声の認識結果の尤度を算出する尤度算出処理と、
前記尤度算出処理により算出される尤度が所定の閾値以上である場合に、前記音声認識処理による音声の認識結果を有効と判定する有効判定処理と、
前記音声記憶部に記憶されている前回の音声と今回の音声との一致度に基づいて、前回の音声と今回の音声とが同一であるか否かを判定する同一判定処理と、
前記同一判定処理により前回の音声と今回の音声とが同一であると判定された場合に、前記閾値を所定の調整値だけ低くする閾値調整処理と、
前記閾値調整処理により前記閾値を所定の調整値だけ低くしたことをユーザに出力する処理と、
を実行させる音声認識プログラム。