JP2010186126A

JP2010186126A - 入力音声評価装置、入力音声の評価方法および評価プログラム

Info

Publication number: JP2010186126A
Application number: JP2009031121A
Authority: JP
Inventors: Takayuki Arakawa; 隆行荒川; Takenori Tsujikawa; 剛範辻川; Toru Iwazawa; 透岩沢
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2009-02-13
Filing date: 2009-02-13
Publication date: 2010-08-26
Anticipated expiration: 2029-02-13
Also published as: JP5187584B2

Abstract

【課題】音声認識を行う上での入力音声の品質を適切に評価する入力音声評価装置、入力音声の評価方法および評価プログラムを提供する。
【解決手段】入力音声評価装置は、誤認識要因検知部と、主要因判定部とを具備する。誤認識要因検知部は、音声認識装置が誤認識するときの誤認識要因を検知する。主要因判定部は、誤認識要因毎に設定されるスコアに基づいて、誤認識要因のうちの主たる誤認識原因と推定される主要因を判定する。
【選択図】図１

Description

本発明は、入力される音声の品質を評価する入力音声評価装置、入力音声の評価方法に関する。

音声認識装置の認識性能は、使用環境やユーザの使い方に大きく依存する。例えば、周囲環境の雑音や、ユーザの発声の音量や、マイクボタンを押してから話し始めるまでの時間などさまざまな要因によって、音声認識装置の認識性能は影響を受ける。

最も確からしいと判定されたもの認識結果として出力する音声認識装置では、使用環境やユーザの使い方が適切であるか否かを知ることが出来ない。このため、ユーザは誤認識を引き起こした原因がわからず、何度も同じような誤認識を繰り返してしまうことがあり、ユーザビリティが著しく損なわれる。

このような問題に対して、特許文献１（特開２０００−１５５６００号公報）には、入力音声レベルが適正な範囲内に無いような場合に話者に対して適正な入力音声レベルで話すように警告する音声認識装置が開示されている。しかしながら、この音声認識装置は、入力音声レベルが適正範囲か否かという単一の現象のみを扱っている。そのため、誤認識に至る副次的な要因や間違った要因をユーザに通知する恐れがある。例えば、ユーザが雑音環境下で大きな声で発声した場合、このような音声認識装置は、音声が大きすぎるという副次的な要因をユーザに通知する。したがって、ユーザは小さな声で発声するようになり、かえって誤認識することになってしまう。

また、特許文献２（特開２００２−１１６７９２号公報）には、音声認識で操作するロボット制御装置が開示されている。このロボット制御装置は、音声認識を行う区間の長さが長すぎる場合には、区間が長すぎることをユーザに通知し、区間の長さが短すぎる場合には、区間が短すぎることをユーザに通知する。この装置の場合、音声区間の長さが適正範囲か否かという単一の現象のみを扱っている。そのため、誤認識に至る副次的な要因や間違った要因をユーザに通知する恐れがある。音声区間の長さが適正でないということだけでは、実際に発声した内容が長すぎるのか、短すぎるのか、背景雑音の影響で音声区間の検出に失敗したのかの区別がつかない。

また、特許文献３（特開２００７−１５６０７６号公報）には、音声認識のために入力された音声が適切であるか否かを評価する音声入力評価装置が開示されている。音声入力評価装置は、背景雑音レベル評価部、オーバフロー検出部、話頭切断検出部のうちの少なくとも２つを備える。背景雑音レベル評価部は、背景雑音を測定して一定レベル以上であるかどうかを判定し、一定レベル以上であると判定した場合には背景雑音が大きすぎる旨のメッセージをユーザに送出する。オーバフロー検出部は、入力された音声が音声認識の認識結果に影響を与えるレベル以上となるオーバフローを検出し、その場合には発声が大きすぎる旨のメッセージをユーザに送出する。話頭切断検出部は、入力された音声の話頭切断の有無を判定し、話頭切断が有ると判定した場合にはその旨のメッセージを送出する。この装置は、複数の誤認識の要因を判定しているが、それら複数の要因の因果関係を考慮せずにユーザに通知するため、誤認識の副次的な要因や間違った要因をユーザに通知してしまう可能性がある。また、複数の要因全てをユーザに通知すると通知が頻繁になり、かえってユーザビリティを下げる恐れがある。

また、特許文献４（特開２００３−３３０４９１号公報）には、音声認識の妨げとなる種々の要因を検出し、音声認識が妥当なものでないと判定された場合に、複数の要因それぞれに対応する応答動作を行う音声認識装置が開示されている。この音声認識装置は、音声認識後に音声認識の結果を考慮してユーザに誤認識要因を通知する。そのため、ユーザへの通知が頻繁になってしまうことはない。しかしながら、複数の誤認識要因のうち副次的な要因や間違った要因をユーザに通知してしまうことについては特に考慮されていない。

特許文献５（特開２００４−２７１５９６号公報）には、マイクロホンを介して伝達された音声が音声解析装置によって認識できる環境にあるか否かを使用者に通知する音声認識システムが開示されている。この音声認識システムは、音圧・周波数特性測定装置と、音声認識可否判定装置と、状況通知装置とを備える。音圧・周波数特性測定装置は、音声入力がない時間帯における環境雑音の音圧と周波数特性の時間変化を測定する。音声認識可否判定装置は、音圧・周波数特性測定装置によって測定された環境雑音が音声認識を不可または可能にするか否かを判定する。状況通知装置は、音声認識可否判定装置の判定結果を使用者に通知する。

特許文献６（特開２００４−３２５６３５号公報）には、入力された音声の特徴量と標準モデルとの比較を行う音声処理装置が開示されている。音声処理装置は、要因別ずれ算出部と、ずれ度合変換部と、要因検出部と、誤認識要因出力部とを備える。要因別ずれ算出部は、入力された音声の特徴量に基づいて複数の誤認識の要因に関する特徴量を求め、要因毎に特徴量の標準モデルからのずれの度合いを算出する。ずれ度合変換部は、算出されたずれの度合いが許容範囲を表す閾値内にあるか否かを判定すると共に、閾値内にある場合には、ずれの度合いを許容範囲内にあることを表す所定値に変換する。要因検出部は、算出されたずれの度合いと変換されたずれの度合いとに基づいて、最もずれの度合いが大きい要因を検出する。誤認識要因出力部は、検出された最もずれの大きい要因を誤認識となる要因として出力する。

特許文献７（特開２０００−０７５８９３号公報）には、記録媒体と、読出部と、検出部と、警告部とを具備する音声認識装置が開示されている。記録媒体には、音声データが記録されている。読出部は、この記録媒体から音声データを読み出す。検出部は、この読出部により読み出した音声データのレベルを検出する。警告部は、音声データのレベルが所定の範囲の外である場合には、その旨の警告を行う。

特許文献８（特開２００６−１１３４３９号公報）には、音声入力部と、音声認識部と、制御部とを備える音声自動応答装置が開示されている。音声入力部は、利用者の音声入力を受け付け、入力音声に対応する音声データを生成する。音声認識部は、音声データについて音声認識処理を行う。制御部は、音声認識部による音声認識処理において音声データの誤認識が生じた場合、音声入力の有無と、音声入力のタイミングと、発話音量と、発話速度と、発話長とのうちの少なくとも１つに基づいて誤認識要因を特定し、特定した誤認識要因に対応するガイダンスを出力する。

以上のように、本来ユーザに通知すべきでないような副次的な要因や間違った要因をもユーザに通知してしまう可能性がある。また、複数の誤認識要因を検知した際に、ユーザへの通知が頻繁になってユーザビリティが低下する可能性がある。

特開２０００−１５５６００号公報特開２００２−１１６７９２号公報特開２００７−１５６０７６号公報特開２００３−３３０４９１号公報特開２００４−２７１５９６号公報特開２００４−３２５６３５号公報特開２０００−０７５８９３号公報特開２００６−１１３４３９号公報

本発明の目的は、音声認識を行う上での入力音声の品質を適切に評価する入力音声評価装置、入力音声の評価方法および評価プログラムを提供することにある。

本発明の観点では、入力音声評価装置は、誤認識要因検知部と、主要因判定部とを具備する。誤認識要因検知部は、音声認識装置が誤認識するときの誤認識要因を検知する。主要因判定部は、誤認識要因毎に設定されるスコアに基づいて、誤認識要因のうちの主たる誤認識原因と推定される主要因を判定する。

本発明の他の観点では、入力音声の評価方法は、誤認識要因を検知するステップと、主要因を判定するステップとを具備する。誤認識要因を検知するステップでは、音声認識装置が誤認識するときの誤認識要因が検知される。主要因を判定するステップでは、誤認識要因毎に設定されるスコアに基づいて、誤認識要因のうちの主たる誤認識原因と推定される主要因が判定される。

また、上記の入力音声の評価方法をコンピュータに実現させるための評価プログラムであってもよい。

本発明によれば、音声認識における誤認識となるときの正しい要因を適切な頻度でユーザに通知する入力音声評価装置、入力音声の評価方法および評価プログラムを提供することができる。

本発明の実施の形態に係る入力音声評価装置の構成を示す図である。本発明の第１の実施の形態に係る入力音声評価装置の動作を説明する図である。本発明の第１の実施の形態に係る１次元のスコア表の例を示す。本発明の第２の実施の形態に係る２次元のスコア表の例を示す。本発明の第２の実施の形態に係る非対角成分が０である２次元のスコア表の例を示す。本発明の第３の実施の形態に係る入力音声評価装置の動作を説明する図である。

（第１の実施の形態）
図面を参照して、本発明の実施の形態が説明される。図１に、本発明の第１の実施の形態に係る入力音声評価装置の構成が示される。入力音声評価装置１０は、音声取得部１１と、誤認識要因検知部１２と、主要因判定部１３と、メッセージ通知部１４とを具備する。

音声は、音声取得部１１により入力音声評価装置１０に取り込まれる。誤認識検知部１２は、要因検知部１２１〜１２Ｎを備え、要因検知部１２１〜１２Ｎは、入力された音声に基づいて、誤認識要因を検知する。主要因判定部１３は、検知された複数の誤認識要因に基づいて、その主たる誤認識要因と推定される主要因を判定する。メッセージ通知部１４は、誤認識の主要因をユーザに通知する。

音声取得部１１は、マイクロホン等により音声を電気信号に変換し、ＡＤ変換器によりデジタル化して取り込む。例えば、音声は、１６ビットのリニアＰＣＭ（ｐｕｌｓｅｃｏｄｅｍｏｄｕｌａｔｉｏｎ）データに変換される。他の方式であってもよいが、デジタル信号処理を行う上では、線形的な符号化コードが好ましい。取得されたデジタル音声データは、誤認識要因検知部１２に供給される。

誤認識検知部１２は、要因検知部１２１〜１２Ｎにおいて、それぞれ別の誤認識要因を検知する。要因検知部１２１〜１２Ｎは、各々関連する複数の要因を検知してもよい。誤認識要因検知部１２は、誤認識要因として、例えば、次に示される８要因を検出する。

（１）音量過大：認識対象とする音声が大き過ぎることを検知する。
（２）音量過小：認識対象とする音声が小さ過ぎることを検知する。
（３）雑音過大：雑音の音量が大き過ぎることを検知する。
（４）ＳＮＲ不良：ＳＮＲが小さ過ぎることを検知する。
（５）話頭切断：認識対象とする音声の話頭部分が切れていることを検知する。
（６）話尾切断：認識対象とする音声の話尾部分が切れていること検知する。
（７）音声区間過長：認識対象とする音声区間が長すぎることを検知する。
（８）音声区間過短：認識対象とする音声区間が短すぎることを検知する。

これらの検知された誤認識要因は、主要因判定部１３に送られる。主要因判定部１３は、誤認識要因検知部１２で検知された複数の誤認識要因に基づいて、その主たる誤認識要因と推定される主要因を判定する。主要因の判定は、誤認識要因毎に予め設定されたスコアに基づいて行われる。判定された主要因は、メッセージ通知部１４に送られ、ユーザに通知される。通知は、表示装置への表示、スピーカからの音声等により行われる。この入力音声評価装置は、上記各機能をソフトウエアにより実現したパーソナルコンピュータ等によって具現化することが可能である。

次に、入力音声評価装置の動作を、図２、図３を参照して説明する。

まず、音声取得部１１は、マイクロホンなどを使ってユーザが発声した音声等を取得する（ステップＳ１０１）。ここで、マイクロホンから出力されるアナログデータは、例えば１６ビットＬｉｎｅａｒ−ＰＣＭなどのデジタルデータに変換される。

次に、誤認識要因検知部１２は、入力音声データに基づいて、誤認識の要因を検知する（ステップＳ１０２）。誤認識要因は、取得された音声データの時系列を短時間間隔で切り分けた単位毎あるいは複数単位毎に対して検知される。誤認識要因としては、例えば、以下に示される要因が検知される。

（１）音量過大（認識対象とする音声の音量が大きすぎることを検知）
音声スペクトルのパワーもしくは音声波形の振幅が、予め設定された閾値を越えるか否かを検知する。音声スペクトルのパワーもしくは音声波形の0振幅は瞬時値を用いるだけでなく、一定時間内の平均値を用いても良い。また、音声取得部１１がアナログデータをデジタルデータに変換する際に、振幅が大きすぎて１６ビットＬｉｎｅａｒ−ＰＣＭの振幅値の範囲に収まらないオーバレンジを検知したことなどもここに含まれる。

（２）音量過小（認識対象とする音声の音量が小さすぎることを検知）
音声スペクトルのパワーもしくは波形の振幅をある一定時間に渡って平均した平均パワー、平均振幅やある一定時間内の最大値などが、予め設定される閾値を下回るか否かを検知する。ある一定時間に渡って平均や最大値を求める他にも、音声検出を行って音声区間を求めておき、この音声区間における音声スペクトルのパワーや波形の振幅の平均値や最大値を求めても良い。

（３）雑音過大（雑音の音量が大きすぎることを検知）
認識対象以外の音声、いわゆる雑音のスペクトルのパワーもしくは波形の振幅が、予め設定した閾値を越えるか否かを検知する。

（４）ＳＮＲ不良（ＳＮＲが小さすぎることを検知）
認識対象とする音声と雑音とのスペクトルのパワーの比もしくは波形の振幅の比が、予め設定される閾値を下回るか否かを検知する。

（５）話頭切断（対象音声の先頭部分が切れていることを検知）
ユーザが発声した音声の先頭部分が欠落した状態で入力音声が取得されることがある。例えば、マイクロホンの入力スイッチをオンにすると同時にユーザが発声し始めた場合に、音声の先頭部分が欠けることが多い。特に、マイクロホンや増幅器などのデバイスがアクティブになるまでに時間がかかる場合に著しい。取得された音声の先頭部分のスペクトルパワーもしくは波形の振幅が予め設定された閾値を越えるか否かを判定することにより、話頭切断を検知することができる。例えば、取得音声の先頭から閾値を越える音声パワーもしくは波形の振幅が検出されたときに話頭切断と判定する。この閾値は、雑音の推定レベルや取得された音声の末尾のレベルを用いて設定されることが好ましい。

（６）話尾切断（対象音声の終わりの部分が切れていることを検知）
ユーザの発声が完了する前にマイクロホンの入力スイッチをオフにする等により、ユーザが発声した音声の末尾部分が欠けて取得されることがある。この話尾切断は、取得された音声の末尾部分のスペクトルパワーもしくは波形の振幅が予め設定された閾値を越えるか否かを判定することによって検知される。例えば、末尾部分の音声スペクトルパワーもしくは波形の振幅が閾値を超えている場合に、話尾切断が検出される。この閾値は、雑音推定レベルを用いて設定されることが好ましい。

（７）音声区間過長（音声区間が長すぎることを検知）
検出された音声区間の継続時間が予め設定された最長閾値よりも長いか否かを判定して検知することができる。

（８）音声区間過短（音声区間が短すぎることを検知）
検出された音声区間の継続時間が予め設定された最短閾値よりも短いか否かを判定して検知することができる。

ここでは、上記の８要因を例示するが、他にも誤認識の要因となるさまざまな現象を検知するように拡張することは可能である。要因検知部１２１〜１２Ｎは、それぞれ上記の項目を分担して検知する。１つの要因検知部が全ての要因を検知してもよい。

このとき、誤認識要因検知部１２は、副次的な要因を検知したり、要因を誤って検知したりすることがある。副次的な要因が検知される例として、「雑音過大」と検知すべき状態の音声を「音声過大」と検知してしまうことがあげられる。これは、「雑音過大」という本来の要因があり、それに対してユーザが大きな声で話した結果、「音声過大」という副次的要因を検知するためである。

また、要因が誤って検出される例として、「話頭切断」という本来の要因が検知されるべき状態の音声に対して、「雑音過大」という要因を検知してしまうことがあげられる。これは、一般的な雑音推定アルゴリズムが入力音声の先頭の区間を用いて雑音を推定するようになっていることに起因する。音声の取得の開始からユーザの音声が入力され、周囲の雑音が入力されないような場合には雑音の推定値が実際より大きくなって「話頭切断」が起き易くなる。

また、誤って検知される要因の別の例としては、「雑音過大」という真の要因に対して「音声区間過長」あるいは「音声区間過短」という要因が検知されてしまうことがあげられる。周囲雑音が大きい場合に、雑音を音声として誤検知して「音声区間過長」という要因が検出されたり、音量の小さい音声を検知することができずに「音声区間過短」という要因が検出されたりすることがある。これは一般的な音声検出アルゴリズムでは音声スペクトルのパワーと雑音スペクトルのパワーを比較し音声区間を判定しているが、「雑音過大」が主要因である場合、音声スペクトルのパワーと雑音スペクトルのパワーの差が小さくなり、音声区間判定に失敗し易くなるためである。

音声の入力終了後、主要因判定部１３は、主要因を判定する（ステップＳ１０３）。複数の要因検知部１２１〜１２Ｎで検知された誤認識要因の中には、上述のように副次的に検出されるものや誤って検出されるものがある。主要因判定部１３は、図３に示されるように、１次元のスコア表を用いて、誤認識要因検知部１２で検知された複数の誤認識要因に基づいて主要因を判定する。具体的には、誤認識要因検知部１２で「音声区間過短」と「雑音過大」が検知された場合には、「雑音過大」という誤認識要因のスコアが高いため、主要因判定部１３は、「雑音過大」を誤認識の主要因と判定する。図３に示されるスコア表の順位は、一例であり、これに限定されることはない。スコア表の順位は、誤認識要因が副次的な効果として検出され易いか否か、誤認識要因が誤って検出され易いか否か等を考慮して、予め設定される。また、ここでは誤認識の主要因として一つの要因を判定する方法について述べたが、検知された複数の誤認識要因のうちスコアの高い上位２つを主要因とする等、複数個を主要因として判定しても良い。また、一発声に対して複数回同じ誤認識要因を検知する場合、スコアを累積した値により判定してもよい。

主要因が求まると、メッセージ通知部１０４は、判定された主要因をユーザに通知する（ステップＳ１０４）。通知の手段は、表示であってもよいし、音声であってもよい。

上述のように、本実施の形態では誤認識する要因を検知する誤認識要因検知部を備え、検知された誤認識要因に対応付けられたスコアを比較して、主要因を判定する。主要因によって引き起こされる副次的な誤認識要因や誤って検出された誤認識要因がユーザに伝えられることなく、主となる誤認識要因がユーザに通知される。また、誤認識の主要因だけがユーザに通知されるため、適切な頻度でユーザに通知が行われる。

（第２の実施の形態）
誤認識の主要因の判定方法を変えた本発明の第２の実施の形態を説明する。第２の実施の形態では、２次元のスコア表を用いて誤認識の主要因が判定される。

図４に、２次元のスコア表の例が示される。２次元のスコア表には、予めサンプルデータに基づいて、誤認識要因検知部１２の検知結果の誤り傾向を学習したデータが格納されている。すなわち、誤認識の主要因がわかっている複数の音声データに対して、誤認識要因検知部１２の検知結果の誤り傾向が分析され、その結果に基づいて２次元のスコア表が作成される。例えば、サンプルデータを１０回の発声データとする。その１０回の発声データに対して誤認識要因検知部１２が雑音過大と検知した場合に、その発声データの本来の主要因となるべき誤認識要因が調べられる。実際の主要因が「雑音過大」であったのが８発声、「ＳＮＲ不良」であったのが１発声、「話頭切断」であったのが１発声であり、他の主要因が０であったとする。このとき、図４に示されるように、「雑音過大」に８、「ＳＮＲ不良」に１、「話頭切断」に１が設定される。すなわち、図４では、列方向に検知される要因を並べ、行方向にその要因から推定される主要因の候補が並べられる。数値は、検知された要因がその主要因候補である可能性を示すと見ることができる。それぞれの値は、サンプル数に応じて正規化して用いても良い。

このような２次元スコア表によって主要因を判定する第２の実施の形態に係る入力音声評価装置１０は、図２のステップＳ１０３における動作が第１の実施の形態と異なり、他は同じであるので、ステップＳ１０３における動作を説明する。第２の実施の形態においては、主要因判定部１３は、１次元のスコア表を用いて複数の誤認識要因から主要因を判定する代わりに、２次元のスコア表を用いて各検知結果に対してスコアの累積値を求めて主要因の判定を行う。

例えば、誤認識要因検知部１２が「雑音過大」と「音声過大」とを誤認識要因として検知したとする。図４に示されるように、２次元のスコア表には、「雑音過大」という検知結果に対する主要因候補のスコアとして、「雑音過大」に８、「ＳＮＲ不良」に１、「話頭切断」に１が設定されている。また、「音声過大」という検知結果に対する主要因候補のスコアとして、「雑音過大」に１、「ＳＮＲ不良」に１、「音声過大」に２が設定されている。したがって、各主要因候補のスコアの累積値は、「雑音過大」が９、「ＳＮＲ不良」が２、「話頭切断」が１、「音声過大」が１となる。したがって、主要因判定部１３は、最も累積スコアの大きい「雑音過大」が主要因であると判定する。

ここでは、誤認識の主要因として一つの要因を判定する方法について述べたが、検知された複数の誤認識要因のうちのスコアの高い上位２つを主要因とする等、複数の要因を主要因として判定しても良い。また、一発声に対して複数回同じ誤認識要因が検知される場合、スコアを累積して判定してもよい。また、図５に示されるように、対角要素のみ０以外の値があり、非対角要素は全て０であるような２次元のスコア表は、図３に示される１次元のスコア表と同等の意味を持つ。

このように、検知された誤認識要因を予め誤認識要因検知部１２の誤り傾向に基づいて作成されたスコア表を用いて判定することにより、副次的な誤認識要因や誤って検出された誤認識要因をユーザに伝えることなく、主となる誤認識要因をユーザに通知することが出来る。

（第３の実施の形態）
第１および第２の実施の形態では、主要因の判定が音声の入力終了後に行なわれた。第３の実施の形態では、誤認識要因検知部１２においてスコアの高い誤認識要因が検知された場合に、入力音声の終了を待たずに誤認識要因がユーザに通知される。この点が第１および第２の実施の形態と異なっている。

本実施の形態に係る入力音声評価装置の動作を、図６を参照して説明する。本実施の形態では、第１および第２の実施の形態に比べると、主要因の判定を行う処理であるステップＳ１０３がステップＳ２００からステップＳ２０４までの処理に置き換えられたものとなっている。これらの処理は、入力音声の時系列に対して単位時間毎もしくは複数単位時間毎に行われる。すなわち、音声の取得（ステップＳ１０１）を行いつつ、誤認識要因に関する処理が並行して行われる。

したがって、音声の取得と並行して、着目する単位時間もしくは複数単位時間の誤認識要因の検知が行われる（ステップＳ１０２）。誤認識要因が検知されると（ステップＳ２００−有）、ステップＳ２０１に進む。要因が何も検知されなければ（ステップＳ２００−無）、次の単位時間もしくは複数単位時間の音声の取得が継続される（ステップＳ１０１）。

本実施の形態では、単位時間毎に音声の取得（ステップＳ１０１）が行われ、誤認識要因検知部１２は単位時間或いは複数の単位時間毎に検知できる誤認識要因の検知を行う。したがって、誤認識要因検知部が誤認識要因を検知しなければ（ステップＳ２００−無）、次の単位時間（複数の単位時間）の音声が取得される。

誤認識要因検知部１２が何らかの誤認識要因を検知すると（ステップＳ２００−有）、その検知された要因の分析が開始される。まず、その検知された要因が、その入力音声にとって最初に検知された要因であれば（ステップＳ２０１−ＹＥＳ）、検知された要因のスコアが暫定判定結果として保存される（ステップＳ２０２）。要因の検知が２回目以降であれば場合（ステップＳ２０１−ＮＯ）、検知された要因のスコアが、スコア表に基づいて算定される。検知された要因のスコアが暫定判定結果のスコアと比較される（ステップＳ２０３）。

検知された要因のスコアが暫定判定結果のスコアより高くない場合（ステップＳ２０３−低）、ステップＳ１０１に戻って次の単位時間（あるいは複数の単位時間）の音声が取り込まれる。検知された要因のスコアが暫定判定結果のスコアより高い場合（ステップＳ２０３−高）、検知された要因は、暫定判定結果として保存される。すなわち、検知された要因によって暫定判定結果が更新される（ステップＳ２０２）。

暫定判定結果が更新されると、そのスコアより高いスコアを有する要因が検知される可能性があるか調べられる（ステップＳ２０４）。より高いスコアを有する要因が検知される可能性がある場合（ステップＳ２０４−有）、ステップＳ１０１に戻って次の単位時間（複数の単位時間）の音声が取り込まれる。より高いスコアを有する要因が検知される可能性がなければ（ステップＳ２０４−無）、暫定判定結果が、誤認識の主要因としてユーザに通知される（ステップＳ１０４）。すなわち、その時点で起こり得る最高のスコアを有する要因がユーザに通知されることになる。

より高いスコアを有する要因が検知される可能性は、入力音声の経過時間により異なる。すなわち、ある誤認識要因が検知された時点以降に検知される誤認識要因の最大スコアは、マイクオン直後、ユーザ発声開始後、ユーザ発声終了後、マイクオフ後等のタイミングに応じて異なる。例えば、図３に示されるスコア表を参照して説明すると以下のようになる。

誤認識要因検知部１２が「雑音過大：雑音が大きすぎる」を検知した場合、「雑音過大」に対するスコア８より大きいスコアが無いため、「雑音過大」を検知した時点で、主要因は「雑音過大」と判定される。しかし、一般的な雑音の推定方法では、雑音の推定は、音声が始まる前の非音声区間において行われる。そのため、音声が始まったと判定された以降は誤認識要因として「雑音過大」が検知されることはない。

また、「話頭切断」は、音声入力の開始時点でのみ検出される。したがって、音声入力開始時点で「話頭切断」が検出されず、その後のユーザの発声が始まるまで（始まりを検出するまで）に「雑音過大」を検出しなければ、以降「話頭切断」、「雑音過大」を検出することはない。すなわち、以降検知される可能性がある要因のスコアの最大値は６となる。したがって、スコアが６である「ＳＮＲ不良：ＳＮＲが小さすぎる」が誤認識要因として検出された場合は、その検出時点において「ＳＮＲ不良」が主要因として判定され、ユーザに通知されることになる。なお、このことは、図４に示されるような２次元のスコア表であっても同様である。

以上のように、よりスコアの高い誤認識要因が検知される可能性に基づいて、ユーザに通知するか否かを決定することにより、スコアの高いものが早い段階で検知された場合は即座にユーザに通知することが出来る。

また、暫定判定結果のスコアが予め設定した閾値を越えた場合に、暫定判定結果を主要因と判定してユーザに通知してもよい。このようにすると、スコアの高いものが早い段階で検知された場合は即座にユーザに通知することが出来る。この閾値は、主要因候補毎に設定されていることが好ましい。

上述のように、本発明によれば、音声認識を行う上での入力音声の品質を適切に評価する入力音声評価装置、入力音声の評価方法および評価プログラムを提供することができる。したがって、音声認識における誤認識となるときの正しい要因を適切な頻度でユーザに通知することができる。

１０入力音声評価装置
１１音声取得部
１２誤認識要因検知部
１２１〜１２Ｎ要因検知部
１３主要因判定部
１４メッセージ通知部

Claims

音声認識装置が誤認識するときの誤認識要因を検知する誤認識要因検知部と、
前記誤認識要因毎に設定されるスコアに基づいて、前記誤認識要因のうちの主たる誤認識原因と推定される主要因を判定する主要因判定部と
を具備する入力音声評価装置。
前記スコアは、前記誤認識要因が前記主要因の代わりに検知されたとした場合の主要因候補に対する評価点を含み、
前記主要因判定部は、
前記誤認識要因を一方の軸方向に、前記主要因候補を他方の軸方向に並べた２次元のスコア表を備え、
検知された前記誤認識要因に設定された前記スコアを前記主要因候補毎に合算して累積スコアを求め、前記累積スコアに基づいて前記主要因と判定する要因を選択する
請求項１に記載の入力音声評価装置。
前記評価点は、前記誤認識要因検知部が検知するときの誤り傾向に基づいて設定される
請求項２に記載の入力音声評価装置。
前記２次元のスコア表に示されるスコアのうち、非対角成分が０であり、対角成分が０以外の値とする
請求項２または請求項３に記載の入力音声評価装置。
前記主要因判定部は、前記主要因候補のうちの第１主要因候補のスコアが算出されたときに、以降に算出される他の前記主要因候補のスコアが前記第１主要因候補のスコアを超えないと判定された場合、前記第１主要因候補を主要因と判定する
請求項２から請求項４のいずれかに記載の入力音声評価装置。
前記主要因判定部は、前記主要因候補のうちの第２主要因候補のスコアが所定の閾値を超えて算出されたとき、前記第２主要因候補を主要因と判定する
請求項２から請求項４のいずれかに記載の入力音声評価装置。
前記所定の閾値は、前記主要因候補毎に設定される
請求項６に記載の入力音声評価装置。
前記誤認識要因検知部は、誤認識の要因として、
対象とする入力音声の音量が所定の大音量閾値より大きいこと、
対象とする入力音声の音量が所定の小音量閾値より小さいこと、
対象とする入力音声に含まれる雑音の音量が所定の雑音閾値より大きいこと、
対象とする入力音声と雑音との比（ＳＮＲ）が所定のＳＮＲ閾値より小さいこと、
対象とする入力音声の先頭部分が取り込まれていないこと（話頭切断）、
対象とする入力音声の末尾部分が取り込まれていないこと（話尾切断）、
対象とする入力音声の音声区間が所定の最長区間長より長いこと、
対象とする入力音声の音声区間が所定の最短区間長より短いこと
のうちの少なくとも２つ以上の要因を検知する
請求項１から請求項７のいずれかに記載の入力音声評価装置。
ユーザの発声する音声を取り込む音声取得部と、
判定された誤認識の前記主要因をユーザに通知するメッセージ通知部と
をさらに具備する
請求項１から請求項８のいずれかに記載の入力音声評価装置。
音声認識装置が誤認識するときの誤認識要因を検知するステップと、
前記誤認識要因毎に設定されるスコアに基づいて、前記誤認識要因のうちの主たる誤認識原因と推定される主要因を判定するステップと
を具備する入力音声の評価方法。
前記スコアは、前記誤認識要因が前記主要因の代わりに検知されたとした場合の主要因候補に対する評価点を含み、
前記判定するステップは、
前記誤認識要因を一方の軸方向に、前記主要因候補を他方の軸方向に並べた２次元のスコア表に基づいて、検知された前記誤認識要因に設定された前記スコアを前記主要因候補毎に合算して累積スコアを求めるステップと、
前記累積スコアに基づいて前記主要因と判定する要因を選択するステップと
を備える請求項１０に記載の入力音声の評価方法。
前記誤認識要因が検知されるときの誤り傾向に基づいて、予め前記評価点を設定するステップをさらに具備する
請求項１１に記載の入力音声の評価方法。
前記評価点を設定するステップは、前記２次元のスコア表に示されるスコアのうち、非対角成分の評価点を０に、対角成分の評価点を０以外の値に設定するステップを備える
請求項１１または請求項１２に記載の入力音声の評価方法。
前記判定するステップは、前記主要因候補のうちの第１主要因候補のスコアが算出されたときに、以降に算出される他の前記主要因候補のスコアが前記第１主要因候補のスコアを超えないと判定された場合、前記第１主要因候補を主要因とするステップを備える
請求項１１から請求項１３のいずれかに記載の入力音声の評価方法。
前記判定するステップは、前記主要因候補のうちの第２主要因候補のスコアが所定の閾値を超えて算出されたとき、前記第２主要因候補を主要因とするステップを備える
請求項１１から請求項１３のいずれかに記載の入力音声の評価方法。
前記所定の閾値を前記主要因候補毎に設定するステップを具備する
請求項１５に記載の入力音声の評価方法。
前記検知するステップは、
対象とする入力音声の音量が所定の大音量閾値より大きいことを検知して誤認識要因とするステップ、
対象とする入力音声の音量が所定の小音量閾値より小さいことを検知して誤認識要因とするステップ、
対象とする入力音声に含まれる雑音の音量が所定の雑音閾値より大きいことを検知して誤認識要因とするステップ、
対象とする入力音声と雑音との比（ＳＮＲ）が所定のＳＮＲ閾値より小さいことを検知して誤認識要因とするステップ、
対象とする入力音声の先頭部分が取り込まれていないこと（話頭切断）を検知して誤認識要因とするステップ、
対象とする入力音声の末尾部分が取り込まれていないこと（話尾切断）を検知して誤認識要因とするステップ、
対象とする入力音声の音声区間が所定の最長区間長より長いことを検知して誤認識要因とするステップ、
対象とする入力音声の音声区間が所定の最短区間長より短いことを検知して誤認識要因とするステップ
のうちの少なくとも２以上のステップを備える
請求項１０から請求項１６のいずれかに記載の入力音声の評価方法。
ユーザが発声した音声を取得するステップと、
判定された誤認識の前記主要因を前記ユーザに通知するステップと
を更に具備する
請求項１０から請求項１７のいずれかに記載の入力音声の評価方法。
請求項１０から請求項１８のいずれかに記載の入力音声の評価方法をコンピュータに実現させるための評価プログラム。