JP2010186126A - 入力音声評価装置、入力音声の評価方法および評価プログラム - Google Patents

入力音声評価装置、入力音声の評価方法および評価プログラム Download PDF

Info

Publication number
JP2010186126A
JP2010186126A JP2009031121A JP2009031121A JP2010186126A JP 2010186126 A JP2010186126 A JP 2010186126A JP 2009031121 A JP2009031121 A JP 2009031121A JP 2009031121 A JP2009031121 A JP 2009031121A JP 2010186126 A JP2010186126 A JP 2010186126A
Authority
JP
Japan
Prior art keywords
factor
misrecognition
score
main factor
main
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009031121A
Other languages
English (en)
Other versions
JP5187584B2 (ja
Inventor
Takayuki Arakawa
隆行 荒川
Takenori Tsujikawa
剛範 辻川
Toru Iwazawa
透 岩沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009031121A priority Critical patent/JP5187584B2/ja
Publication of JP2010186126A publication Critical patent/JP2010186126A/ja
Application granted granted Critical
Publication of JP5187584B2 publication Critical patent/JP5187584B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】音声認識を行う上での入力音声の品質を適切に評価する入力音声評価装置、入力音声の評価方法および評価プログラムを提供する。
【解決手段】入力音声評価装置は、誤認識要因検知部と、主要因判定部とを具備する。誤認識要因検知部は、音声認識装置が誤認識するときの誤認識要因を検知する。主要因判定部は、誤認識要因毎に設定されるスコアに基づいて、誤認識要因のうちの主たる誤認識原因と推定される主要因を判定する。
【選択図】図1

Description

本発明は、入力される音声の品質を評価する入力音声評価装置、入力音声の評価方法に関する。
音声認識装置の認識性能は、使用環境やユーザの使い方に大きく依存する。例えば、周囲環境の雑音や、ユーザの発声の音量や、マイクボタンを押してから話し始めるまでの時間などさまざまな要因によって、音声認識装置の認識性能は影響を受ける。
最も確からしいと判定されたもの認識結果として出力する音声認識装置では、使用環境やユーザの使い方が適切であるか否かを知ることが出来ない。このため、ユーザは誤認識を引き起こした原因がわからず、何度も同じような誤認識を繰り返してしまうことがあり、ユーザビリティが著しく損なわれる。
このような問題に対して、特許文献1(特開2000−155600号公報)には、入力音声レベルが適正な範囲内に無いような場合に話者に対して適正な入力音声レベルで話すように警告する音声認識装置が開示されている。しかしながら、この音声認識装置は、入力音声レベルが適正範囲か否かという単一の現象のみを扱っている。そのため、誤認識に至る副次的な要因や間違った要因をユーザに通知する恐れがある。例えば、ユーザが雑音環境下で大きな声で発声した場合、このような音声認識装置は、音声が大きすぎるという副次的な要因をユーザに通知する。したがって、ユーザは小さな声で発声するようになり、かえって誤認識することになってしまう。
また、特許文献2(特開2002−116792号公報)には、音声認識で操作するロボット制御装置が開示されている。このロボット制御装置は、音声認識を行う区間の長さが長すぎる場合には、区間が長すぎることをユーザに通知し、区間の長さが短すぎる場合には、区間が短すぎることをユーザに通知する。この装置の場合、音声区間の長さが適正範囲か否かという単一の現象のみを扱っている。そのため、誤認識に至る副次的な要因や間違った要因をユーザに通知する恐れがある。音声区間の長さが適正でないということだけでは、実際に発声した内容が長すぎるのか、短すぎるのか、背景雑音の影響で音声区間の検出に失敗したのかの区別がつかない。
また、特許文献3(特開2007−156076号公報)には、音声認識のために入力された音声が適切であるか否かを評価する音声入力評価装置が開示されている。音声入力評価装置は、背景雑音レベル評価部、オーバフロー検出部、話頭切断検出部のうちの少なくとも2つを備える。背景雑音レベル評価部は、背景雑音を測定して一定レベル以上であるかどうかを判定し、一定レベル以上であると判定した場合には背景雑音が大きすぎる旨のメッセージをユーザに送出する。オーバフロー検出部は、入力された音声が音声認識の認識結果に影響を与えるレベル以上となるオーバフローを検出し、その場合には発声が大きすぎる旨のメッセージをユーザに送出する。話頭切断検出部は、入力された音声の話頭切断の有無を判定し、話頭切断が有ると判定した場合にはその旨のメッセージを送出する。この装置は、複数の誤認識の要因を判定しているが、それら複数の要因の因果関係を考慮せずにユーザに通知するため、誤認識の副次的な要因や間違った要因をユーザに通知してしまう可能性がある。また、複数の要因全てをユーザに通知すると通知が頻繁になり、かえってユーザビリティを下げる恐れがある。
また、特許文献4(特開2003−330491号公報)には、音声認識の妨げとなる種々の要因を検出し、音声認識が妥当なものでないと判定された場合に、複数の要因それぞれに対応する応答動作を行う音声認識装置が開示されている。この音声認識装置は、音声認識後に音声認識の結果を考慮してユーザに誤認識要因を通知する。そのため、ユーザへの通知が頻繁になってしまうことはない。しかしながら、複数の誤認識要因のうち副次的な要因や間違った要因をユーザに通知してしまうことについては特に考慮されていない。
特許文献5(特開2004−271596号公報)には、マイクロホンを介して伝達された音声が音声解析装置によって認識できる環境にあるか否かを使用者に通知する音声認識システムが開示されている。この音声認識システムは、音圧・周波数特性測定装置と、音声認識可否判定装置と、状況通知装置とを備える。音圧・周波数特性測定装置は、音声入力がない時間帯における環境雑音の音圧と周波数特性の時間変化を測定する。音声認識可否判定装置は、音圧・周波数特性測定装置によって測定された環境雑音が音声認識を不可または可能にするか否かを判定する。状況通知装置は、音声認識可否判定装置の判定結果を使用者に通知する。
特許文献6(特開2004−325635号公報)には、入力された音声の特徴量と標準モデルとの比較を行う音声処理装置が開示されている。音声処理装置は、要因別ずれ算出部と、ずれ度合変換部と、要因検出部と、誤認識要因出力部とを備える。要因別ずれ算出部は、入力された音声の特徴量に基づいて複数の誤認識の要因に関する特徴量を求め、要因毎に特徴量の標準モデルからのずれの度合いを算出する。ずれ度合変換部は、算出されたずれの度合いが許容範囲を表す閾値内にあるか否かを判定すると共に、閾値内にある場合には、ずれの度合いを許容範囲内にあることを表す所定値に変換する。要因検出部は、算出されたずれの度合いと変換されたずれの度合いとに基づいて、最もずれの度合いが大きい要因を検出する。誤認識要因出力部は、検出された最もずれの大きい要因を誤認識となる要因として出力する。
特許文献7(特開2000−075893号公報)には、記録媒体と、読出部と、検出部と、警告部とを具備する音声認識装置が開示されている。記録媒体には、音声データが記録されている。読出部は、この記録媒体から音声データを読み出す。検出部は、この読出部により読み出した音声データのレベルを検出する。警告部は、音声データのレベルが所定の範囲の外である場合には、その旨の警告を行う。
特許文献8(特開2006−113439号公報)には、音声入力部と、音声認識部と、制御部とを備える音声自動応答装置が開示されている。音声入力部は、利用者の音声入力を受け付け、入力音声に対応する音声データを生成する。音声認識部は、音声データについて音声認識処理を行う。制御部は、音声認識部による音声認識処理において音声データの誤認識が生じた場合、音声入力の有無と、音声入力のタイミングと、発話音量と、発話速度と、発話長とのうちの少なくとも1つに基づいて誤認識要因を特定し、特定した誤認識要因に対応するガイダンスを出力する。
以上のように、本来ユーザに通知すべきでないような副次的な要因や間違った要因をもユーザに通知してしまう可能性がある。また、複数の誤認識要因を検知した際に、ユーザへの通知が頻繁になってユーザビリティが低下する可能性がある。
特開2000−155600号公報 特開2002−116792号公報 特開2007−156076号公報 特開2003−330491号公報 特開2004−271596号公報 特開2004−325635号公報 特開2000−075893号公報 特開2006−113439号公報
本発明の目的は、音声認識を行う上での入力音声の品質を適切に評価する入力音声評価装置、入力音声の評価方法および評価プログラムを提供することにある。
本発明の観点では、入力音声評価装置は、誤認識要因検知部と、主要因判定部とを具備する。誤認識要因検知部は、音声認識装置が誤認識するときの誤認識要因を検知する。主要因判定部は、誤認識要因毎に設定されるスコアに基づいて、誤認識要因のうちの主たる誤認識原因と推定される主要因を判定する。
本発明の他の観点では、入力音声の評価方法は、誤認識要因を検知するステップと、主要因を判定するステップとを具備する。誤認識要因を検知するステップでは、音声認識装置が誤認識するときの誤認識要因が検知される。主要因を判定するステップでは、誤認識要因毎に設定されるスコアに基づいて、誤認識要因のうちの主たる誤認識原因と推定される主要因が判定される。
また、上記の入力音声の評価方法をコンピュータに実現させるための評価プログラムであってもよい。
本発明によれば、音声認識における誤認識となるときの正しい要因を適切な頻度でユーザに通知する入力音声評価装置、入力音声の評価方法および評価プログラムを提供することができる。
本発明の実施の形態に係る入力音声評価装置の構成を示す図である。 本発明の第1の実施の形態に係る入力音声評価装置の動作を説明する図である。 本発明の第1の実施の形態に係る1次元のスコア表の例を示す。 本発明の第2の実施の形態に係る2次元のスコア表の例を示す。 本発明の第2の実施の形態に係る非対角成分が0である2次元のスコア表の例を示す。 本発明の第3の実施の形態に係る入力音声評価装置の動作を説明する図である。
(第1の実施の形態)
図面を参照して、本発明の実施の形態が説明される。図1に、本発明の第1の実施の形態に係る入力音声評価装置の構成が示される。入力音声評価装置10は、音声取得部11と、誤認識要因検知部12と、主要因判定部13と、メッセージ通知部14とを具備する。
音声は、音声取得部11により入力音声評価装置10に取り込まれる。誤認識検知部12は、要因検知部121〜12Nを備え、要因検知部121〜12Nは、入力された音声に基づいて、誤認識要因を検知する。主要因判定部13は、検知された複数の誤認識要因に基づいて、その主たる誤認識要因と推定される主要因を判定する。メッセージ通知部14は、誤認識の主要因をユーザに通知する。
音声取得部11は、マイクロホン等により音声を電気信号に変換し、AD変換器によりデジタル化して取り込む。例えば、音声は、16ビットのリニアPCM(pulse code modulation)データに変換される。他の方式であってもよいが、デジタル信号処理を行う上では、線形的な符号化コードが好ましい。取得されたデジタル音声データは、誤認識要因検知部12に供給される。
誤認識検知部12は、要因検知部121〜12Nにおいて、それぞれ別の誤認識要因を検知する。要因検知部121〜12Nは、各々関連する複数の要因を検知してもよい。誤認識要因検知部12は、誤認識要因として、例えば、次に示される8要因を検出する。
(1)音量過大:認識対象とする音声が大き過ぎることを検知する。
(2)音量過小:認識対象とする音声が小さ過ぎることを検知する。
(3)雑音過大:雑音の音量が大き過ぎることを検知する。
(4)SNR不良:SNRが小さ過ぎることを検知する。
(5)話頭切断:認識対象とする音声の話頭部分が切れていることを検知する。
(6)話尾切断:認識対象とする音声の話尾部分が切れていること検知する。
(7)音声区間過長:認識対象とする音声区間が長すぎることを検知する。
(8)音声区間過短:認識対象とする音声区間が短すぎることを検知する。
これらの検知された誤認識要因は、主要因判定部13に送られる。主要因判定部13は、誤認識要因検知部12で検知された複数の誤認識要因に基づいて、その主たる誤認識要因と推定される主要因を判定する。主要因の判定は、誤認識要因毎に予め設定されたスコアに基づいて行われる。判定された主要因は、メッセージ通知部14に送られ、ユーザに通知される。通知は、表示装置への表示、スピーカからの音声等により行われる。この入力音声評価装置は、上記各機能をソフトウエアにより実現したパーソナルコンピュータ等によって具現化することが可能である。
次に、入力音声評価装置の動作を、図2、図3を参照して説明する。
まず、音声取得部11は、マイクロホンなどを使ってユーザが発声した音声等を取得する(ステップS101)。ここで、マイクロホンから出力されるアナログデータは、例えば16ビットLinear−PCMなどのデジタルデータに変換される。
次に、誤認識要因検知部12は、入力音声データに基づいて、誤認識の要因を検知する(ステップS102)。誤認識要因は、取得された音声データの時系列を短時間間隔で切り分けた単位毎あるいは複数単位毎に対して検知される。誤認識要因としては、例えば、以下に示される要因が検知される。
(1)音量過大(認識対象とする音声の音量が大きすぎることを検知)
音声スペクトルのパワーもしくは音声波形の振幅が、予め設定された閾値を越えるか否かを検知する。音声スペクトルのパワーもしくは音声波形の0振幅は瞬時値を用いるだけでなく、一定時間内の平均値を用いても良い。また、音声取得部11がアナログデータをデジタルデータに変換する際に、振幅が大きすぎて16ビットLinear−PCMの振幅値の範囲に収まらないオーバレンジを検知したことなどもここに含まれる。
(2)音量過小(認識対象とする音声の音量が小さすぎることを検知)
音声スペクトルのパワーもしくは波形の振幅をある一定時間に渡って平均した平均パワー、平均振幅やある一定時間内の最大値などが、予め設定される閾値を下回るか否かを検知する。ある一定時間に渡って平均や最大値を求める他にも、音声検出を行って音声区間を求めておき、この音声区間における音声スペクトルのパワーや波形の振幅の平均値や最大値を求めても良い。
(3)雑音過大(雑音の音量が大きすぎることを検知)
認識対象以外の音声、いわゆる雑音のスペクトルのパワーもしくは波形の振幅が、予め設定した閾値を越えるか否かを検知する。
(4)SNR不良(SNRが小さすぎることを検知)
認識対象とする音声と雑音とのスペクトルのパワーの比もしくは波形の振幅の比が、予め設定される閾値を下回るか否かを検知する。
(5)話頭切断(対象音声の先頭部分が切れていることを検知)
ユーザが発声した音声の先頭部分が欠落した状態で入力音声が取得されることがある。例えば、マイクロホンの入力スイッチをオンにすると同時にユーザが発声し始めた場合に、音声の先頭部分が欠けることが多い。特に、マイクロホンや増幅器などのデバイスがアクティブになるまでに時間がかかる場合に著しい。取得された音声の先頭部分のスペクトルパワーもしくは波形の振幅が予め設定された閾値を越えるか否かを判定することにより、話頭切断を検知することができる。例えば、取得音声の先頭から閾値を越える音声パワーもしくは波形の振幅が検出されたときに話頭切断と判定する。この閾値は、雑音の推定レベルや取得された音声の末尾のレベルを用いて設定されることが好ましい。
(6)話尾切断(対象音声の終わりの部分が切れていることを検知)
ユーザの発声が完了する前にマイクロホンの入力スイッチをオフにする等により、ユーザが発声した音声の末尾部分が欠けて取得されることがある。この話尾切断は、取得された音声の末尾部分のスペクトルパワーもしくは波形の振幅が予め設定された閾値を越えるか否かを判定することによって検知される。例えば、末尾部分の音声スペクトルパワーもしくは波形の振幅が閾値を超えている場合に、話尾切断が検出される。この閾値は、雑音推定レベルを用いて設定されることが好ましい。
(7)音声区間過長(音声区間が長すぎることを検知)
検出された音声区間の継続時間が予め設定された最長閾値よりも長いか否かを判定して検知することができる。
(8)音声区間過短(音声区間が短すぎることを検知)
検出された音声区間の継続時間が予め設定された最短閾値よりも短いか否かを判定して検知することができる。
ここでは、上記の8要因を例示するが、他にも誤認識の要因となるさまざまな現象を検知するように拡張することは可能である。要因検知部121〜12Nは、それぞれ上記の項目を分担して検知する。1つの要因検知部が全ての要因を検知してもよい。
このとき、誤認識要因検知部12は、副次的な要因を検知したり、要因を誤って検知したりすることがある。副次的な要因が検知される例として、「雑音過大」と検知すべき状態の音声を「音声過大」と検知してしまうことがあげられる。これは、「雑音過大」という本来の要因があり、それに対してユーザが大きな声で話した結果、「音声過大」という副次的要因を検知するためである。
また、要因が誤って検出される例として、「話頭切断」という本来の要因が検知されるべき状態の音声に対して、「雑音過大」という要因を検知してしまうことがあげられる。これは、一般的な雑音推定アルゴリズムが入力音声の先頭の区間を用いて雑音を推定するようになっていることに起因する。音声の取得の開始からユーザの音声が入力され、周囲の雑音が入力されないような場合には雑音の推定値が実際より大きくなって「話頭切断」が起き易くなる。
また、誤って検知される要因の別の例としては、「雑音過大」という真の要因に対して「音声区間過長」あるいは「音声区間過短」という要因が検知されてしまうことがあげられる。周囲雑音が大きい場合に、雑音を音声として誤検知して「音声区間過長」という要因が検出されたり、音量の小さい音声を検知することができずに「音声区間過短」という要因が検出されたりすることがある。これは一般的な音声検出アルゴリズムでは音声スペクトルのパワーと雑音スペクトルのパワーを比較し音声区間を判定しているが、「雑音過大」が主要因である場合、音声スペクトルのパワーと雑音スペクトルのパワーの差が小さくなり、音声区間判定に失敗し易くなるためである。
音声の入力終了後、主要因判定部13は、主要因を判定する(ステップS103)。複数の要因検知部121〜12Nで検知された誤認識要因の中には、上述のように副次的に検出されるものや誤って検出されるものがある。 主要因判定部13は、図3に示されるように、1次元のスコア表を用いて、誤認識要因検知部12で検知された複数の誤認識要因に基づいて主要因を判定する。具体的には、誤認識要因検知部12で「音声区間過短」と「雑音過大」が検知された場合には、「雑音過大」という誤認識要因のスコアが高いため、主要因判定部13は、「雑音過大」を誤認識の主要因と判定する。図3に示されるスコア表の順位は、一例であり、これに限定されることはない。スコア表の順位は、誤認識要因が副次的な効果として検出され易いか否か、誤認識要因が誤って検出され易いか否か等を考慮して、予め設定される。また、ここでは誤認識の主要因として一つの要因を判定する方法について述べたが、検知された複数の誤認識要因のうちスコアの高い上位2つを主要因とする等、複数個を主要因として判定しても良い。また、一発声に対して複数回同じ誤認識要因を検知する場合、スコアを累積した値により判定してもよい。
主要因が求まると、メッセージ通知部104は、判定された主要因をユーザに通知する(ステップS104)。通知の手段は、表示であってもよいし、音声であってもよい。
上述のように、本実施の形態では誤認識する要因を検知する誤認識要因検知部を備え、検知された誤認識要因に対応付けられたスコアを比較して、主要因を判定する。主要因によって引き起こされる副次的な誤認識要因や誤って検出された誤認識要因がユーザに伝えられることなく、主となる誤認識要因がユーザに通知される。また、誤認識の主要因だけがユーザに通知されるため、適切な頻度でユーザに通知が行われる。
(第2の実施の形態)
誤認識の主要因の判定方法を変えた本発明の第2の実施の形態を説明する。第2の実施の形態では、2次元のスコア表を用いて誤認識の主要因が判定される。
図4に、2次元のスコア表の例が示される。2次元のスコア表には、予めサンプルデータに基づいて、誤認識要因検知部12の検知結果の誤り傾向を学習したデータが格納されている。すなわち、誤認識の主要因がわかっている複数の音声データに対して、誤認識要因検知部12の検知結果の誤り傾向が分析され、その結果に基づいて2次元のスコア表が作成される。例えば、サンプルデータを10回の発声データとする。その10回の発声データに対して誤認識要因検知部12が雑音過大と検知した場合に、その発声データの本来の主要因となるべき誤認識要因が調べられる。実際の主要因が「雑音過大」であったのが8発声、「SNR不良」であったのが1発声、「話頭切断」であったのが1発声であり、他の主要因が0であったとする。このとき、図4に示されるように、「雑音過大」に8、「SNR不良」に1、「話頭切断」に1が設定される。すなわち、図4では、列方向に検知される要因を並べ、行方向にその要因から推定される主要因の候補が並べられる。数値は、検知された要因がその主要因候補である可能性を示すと見ることができる。それぞれの値は、サンプル数に応じて正規化して用いても良い。
このような2次元スコア表によって主要因を判定する第2の実施の形態に係る入力音声評価装置10は、図2のステップS103における動作が第1の実施の形態と異なり、他は同じであるので、ステップS103における動作を説明する。第2の実施の形態においては、主要因判定部13は、1次元のスコア表を用いて複数の誤認識要因から主要因を判定する代わりに、2次元のスコア表を用いて各検知結果に対してスコアの累積値を求めて主要因の判定を行う。
例えば、誤認識要因検知部12が「雑音過大」と「音声過大」とを誤認識要因として検知したとする。図4に示されるように、2次元のスコア表には、「雑音過大」という検知結果に対する主要因候補のスコアとして、「雑音過大」に8、「SNR不良」に1、「話頭切断」に1が設定されている。また、「音声過大」という検知結果に対する主要因候補のスコアとして、「雑音過大」に1、「SNR不良」に1、「音声過大」に2が設定されている。したがって、各主要因候補のスコアの累積値は、「雑音過大」が9、「SNR不良」が2、「話頭切断」が1、「音声過大」が1となる。したがって、主要因判定部13は、最も累積スコアの大きい「雑音過大」が主要因であると判定する。
ここでは、誤認識の主要因として一つの要因を判定する方法について述べたが、検知された複数の誤認識要因のうちのスコアの高い上位2つを主要因とする等、複数の要因を主要因として判定しても良い。また、一発声に対して複数回同じ誤認識要因が検知される場合、スコアを累積して判定してもよい。また、図5に示されるように、対角要素のみ0以外の値があり、非対角要素は全て0であるような2次元のスコア表は、図3に示される1次元のスコア表と同等の意味を持つ。
このように、検知された誤認識要因を予め誤認識要因検知部12の誤り傾向に基づいて作成されたスコア表を用いて判定することにより、副次的な誤認識要因や誤って検出された誤認識要因をユーザに伝えることなく、主となる誤認識要因をユーザに通知することが出来る。
(第3の実施の形態)
第1および第2の実施の形態では、主要因の判定が音声の入力終了後に行なわれた。第3の実施の形態では、誤認識要因検知部12においてスコアの高い誤認識要因が検知された場合に、入力音声の終了を待たずに誤認識要因がユーザに通知される。この点が第1および第2の実施の形態と異なっている。
本実施の形態に係る入力音声評価装置の動作を、図6を参照して説明する。本実施の形態では、第1および第2の実施の形態に比べると、主要因の判定を行う処理であるステップS103がステップS200からステップS204までの処理に置き換えられたものとなっている。これらの処理は、入力音声の時系列に対して単位時間毎もしくは複数単位時間毎に行われる。すなわち、音声の取得(ステップS101)を行いつつ、誤認識要因に関する処理が並行して行われる。
したがって、音声の取得と並行して、着目する単位時間もしくは複数単位時間の誤認識要因の検知が行われる(ステップS102)。誤認識要因が検知されると(ステップS200−有)、ステップS201に進む。要因が何も検知されなければ(ステップS200−無)、次の単位時間もしくは複数単位時間の音声の取得が継続される(ステップS101)。
本実施の形態では、単位時間毎に音声の取得(ステップS101)が行われ、誤認識要因検知部12は単位時間或いは複数の単位時間毎に検知できる誤認識要因の検知を行う。したがって、誤認識要因検知部が誤認識要因を検知しなければ(ステップS200−無)、次の単位時間(複数の単位時間)の音声が取得される。
誤認識要因検知部12が何らかの誤認識要因を検知すると(ステップS200−有)、その検知された要因の分析が開始される。まず、その検知された要因が、その入力音声にとって最初に検知された要因であれば(ステップS201−YES)、検知された要因のスコアが暫定判定結果として保存される(ステップS202)。要因の検知が2回目以降であれば場合(ステップS201−NO)、検知された要因のスコアが、スコア表に基づいて算定される。検知された要因のスコアが暫定判定結果のスコアと比較される(ステップS203)。
検知された要因のスコアが暫定判定結果のスコアより高くない場合(ステップS203−低)、ステップS101に戻って次の単位時間(あるいは複数の単位時間)の音声が取り込まれる。検知された要因のスコアが暫定判定結果のスコアより高い場合(ステップS203−高)、検知された要因は、暫定判定結果として保存される。すなわち、検知された要因によって暫定判定結果が更新される(ステップS202)。
暫定判定結果が更新されると、そのスコアより高いスコアを有する要因が検知される可能性があるか調べられる(ステップS204)。より高いスコアを有する要因が検知される可能性がある場合(ステップS204−有)、ステップS101に戻って次の単位時間(複数の単位時間)の音声が取り込まれる。より高いスコアを有する要因が検知される可能性がなければ(ステップS204−無)、暫定判定結果が、誤認識の主要因としてユーザに通知される(ステップS104)。すなわち、その時点で起こり得る最高のスコアを有する要因がユーザに通知されることになる。
より高いスコアを有する要因が検知される可能性は、入力音声の経過時間により異なる。すなわち、ある誤認識要因が検知された時点以降に検知される誤認識要因の最大スコアは、マイクオン直後、ユーザ発声開始後、ユーザ発声終了後、マイクオフ後等のタイミングに応じて異なる。例えば、図3に示されるスコア表を参照して説明すると以下のようになる。
誤認識要因検知部12が「雑音過大:雑音が大きすぎる」を検知した場合、「雑音過大」に対するスコア8より大きいスコアが無いため、「雑音過大」を検知した時点で、主要因は「雑音過大」と判定される。しかし、一般的な雑音の推定方法では、雑音の推定は、音声が始まる前の非音声区間において行われる。そのため、音声が始まったと判定された以降は誤認識要因として「雑音過大」が検知されることはない。
また、「話頭切断」は、音声入力の開始時点でのみ検出される。したがって、音声入力開始時点で「話頭切断」が検出されず、その後のユーザの発声が始まるまで(始まりを検出するまで)に「雑音過大」を検出しなければ、以降「話頭切断」、「雑音過大」を検出することはない。すなわち、以降検知される可能性がある要因のスコアの最大値は6となる。したがって、スコアが6である「SNR不良:SNRが小さすぎる」が誤認識要因として検出された場合は、その検出時点において「SNR不良」が主要因として判定され、ユーザに通知されることになる。なお、このことは、図4に示されるような2次元のスコア表であっても同様である。
以上のように、よりスコアの高い誤認識要因が検知される可能性に基づいて、ユーザに通知するか否かを決定することにより、スコアの高いものが早い段階で検知された場合は即座にユーザに通知することが出来る。
また、暫定判定結果のスコアが予め設定した閾値を越えた場合に、暫定判定結果を主要因と判定してユーザに通知してもよい。このようにすると、スコアの高いものが早い段階で検知された場合は即座にユーザに通知することが出来る。この閾値は、主要因候補毎に設定されていることが好ましい。
上述のように、本発明によれば、音声認識を行う上での入力音声の品質を適切に評価する入力音声評価装置、入力音声の評価方法および評価プログラムを提供することができる。したがって、音声認識における誤認識となるときの正しい要因を適切な頻度でユーザに通知することができる。
10 入力音声評価装置
11 音声取得部
12 誤認識要因検知部
121〜12N 要因検知部
13 主要因判定部
14 メッセージ通知部

Claims (19)

  1. 音声認識装置が誤認識するときの誤認識要因を検知する誤認識要因検知部と、
    前記誤認識要因毎に設定されるスコアに基づいて、前記誤認識要因のうちの主たる誤認識原因と推定される主要因を判定する主要因判定部と
    を具備する入力音声評価装置。
  2. 前記スコアは、前記誤認識要因が前記主要因の代わりに検知されたとした場合の主要因候補に対する評価点を含み、
    前記主要因判定部は、
    前記誤認識要因を一方の軸方向に、前記主要因候補を他方の軸方向に並べた2次元のスコア表を備え、
    検知された前記誤認識要因に設定された前記スコアを前記主要因候補毎に合算して累積スコアを求め、前記累積スコアに基づいて前記主要因と判定する要因を選択する
    請求項1に記載の入力音声評価装置。
  3. 前記評価点は、前記誤認識要因検知部が検知するときの誤り傾向に基づいて設定される
    請求項2に記載の入力音声評価装置。
  4. 前記2次元のスコア表に示されるスコアのうち、非対角成分が0であり、対角成分が0以外の値とする
    請求項2または請求項3に記載の入力音声評価装置。
  5. 前記主要因判定部は、前記主要因候補のうちの第1主要因候補のスコアが算出されたときに、以降に算出される他の前記主要因候補のスコアが前記第1主要因候補のスコアを超えないと判定された場合、前記第1主要因候補を主要因と判定する
    請求項2から請求項4のいずれかに記載の入力音声評価装置。
  6. 前記主要因判定部は、前記主要因候補のうちの第2主要因候補のスコアが所定の閾値を超えて算出されたとき、前記第2主要因候補を主要因と判定する
    請求項2から請求項4のいずれかに記載の入力音声評価装置。
  7. 前記所定の閾値は、前記主要因候補毎に設定される
    請求項6に記載の入力音声評価装置。
  8. 前記誤認識要因検知部は、誤認識の要因として、
    対象とする入力音声の音量が所定の大音量閾値より大きいこと、
    対象とする入力音声の音量が所定の小音量閾値より小さいこと、
    対象とする入力音声に含まれる雑音の音量が所定の雑音閾値より大きいこと、
    対象とする入力音声と雑音との比(SNR)が所定のSNR閾値より小さいこと、
    対象とする入力音声の先頭部分が取り込まれていないこと(話頭切断)、
    対象とする入力音声の末尾部分が取り込まれていないこと(話尾切断)、
    対象とする入力音声の音声区間が所定の最長区間長より長いこと、
    対象とする入力音声の音声区間が所定の最短区間長より短いこと
    のうちの少なくとも2つ以上の要因を検知する
    請求項1から請求項7のいずれかに記載の入力音声評価装置。
  9. ユーザの発声する音声を取り込む音声取得部と、
    判定された誤認識の前記主要因をユーザに通知するメッセージ通知部と
    をさらに具備する
    請求項1から請求項8のいずれかに記載の入力音声評価装置。
  10. 音声認識装置が誤認識するときの誤認識要因を検知するステップと、
    前記誤認識要因毎に設定されるスコアに基づいて、前記誤認識要因のうちの主たる誤認識原因と推定される主要因を判定するステップと
    を具備する入力音声の評価方法。
  11. 前記スコアは、前記誤認識要因が前記主要因の代わりに検知されたとした場合の主要因候補に対する評価点を含み、
    前記判定するステップは、
    前記誤認識要因を一方の軸方向に、前記主要因候補を他方の軸方向に並べた2次元のスコア表に基づいて、検知された前記誤認識要因に設定された前記スコアを前記主要因候補毎に合算して累積スコアを求めるステップと、
    前記累積スコアに基づいて前記主要因と判定する要因を選択するステップと
    を備える請求項10に記載の入力音声の評価方法。
  12. 前記誤認識要因が検知されるときの誤り傾向に基づいて、予め前記評価点を設定するステップをさらに具備する
    請求項11に記載の入力音声の評価方法。
  13. 前記評価点を設定するステップは、前記2次元のスコア表に示されるスコアのうち、非対角成分の評価点を0に、対角成分の評価点を0以外の値に設定するステップを備える
    請求項11または請求項12に記載の入力音声の評価方法。
  14. 前記判定するステップは、前記主要因候補のうちの第1主要因候補のスコアが算出されたときに、以降に算出される他の前記主要因候補のスコアが前記第1主要因候補のスコアを超えないと判定された場合、前記第1主要因候補を主要因とするステップを備える
    請求項11から請求項13のいずれかに記載の入力音声の評価方法。
  15. 前記判定するステップは、前記主要因候補のうちの第2主要因候補のスコアが所定の閾値を超えて算出されたとき、前記第2主要因候補を主要因とするステップを備える
    請求項11から請求項13のいずれかに記載の入力音声の評価方法。
  16. 前記所定の閾値を前記主要因候補毎に設定するステップを具備する
    請求項15に記載の入力音声の評価方法。
  17. 前記検知するステップは、
    対象とする入力音声の音量が所定の大音量閾値より大きいことを検知して誤認識要因とするステップ、
    対象とする入力音声の音量が所定の小音量閾値より小さいことを検知して誤認識要因とするステップ、
    対象とする入力音声に含まれる雑音の音量が所定の雑音閾値より大きいことを検知して誤認識要因とするステップ、
    対象とする入力音声と雑音との比(SNR)が所定のSNR閾値より小さいことを検知して誤認識要因とするステップ、
    対象とする入力音声の先頭部分が取り込まれていないこと(話頭切断)を検知して誤認識要因とするステップ、
    対象とする入力音声の末尾部分が取り込まれていないこと(話尾切断)を検知して誤認識要因とするステップ、
    対象とする入力音声の音声区間が所定の最長区間長より長いことを検知して誤認識要因とするステップ、
    対象とする入力音声の音声区間が所定の最短区間長より短いことを検知して誤認識要因とするステップ
    のうちの少なくとも2以上のステップを備える
    請求項10から請求項16のいずれかに記載の入力音声の評価方法。
  18. ユーザが発声した音声を取得するステップと、
    判定された誤認識の前記主要因を前記ユーザに通知するステップと
    を更に具備する
    請求項10から請求項17のいずれかに記載の入力音声の評価方法。
  19. 請求項10から請求項18のいずれかに記載の入力音声の評価方法をコンピュータに実現させるための評価プログラム。
JP2009031121A 2009-02-13 2009-02-13 入力音声評価装置、入力音声の評価方法および評価プログラム Active JP5187584B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009031121A JP5187584B2 (ja) 2009-02-13 2009-02-13 入力音声評価装置、入力音声の評価方法および評価プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009031121A JP5187584B2 (ja) 2009-02-13 2009-02-13 入力音声評価装置、入力音声の評価方法および評価プログラム

Publications (2)

Publication Number Publication Date
JP2010186126A true JP2010186126A (ja) 2010-08-26
JP5187584B2 JP5187584B2 (ja) 2013-04-24

Family

ID=42766805

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009031121A Active JP5187584B2 (ja) 2009-02-13 2009-02-13 入力音声評価装置、入力音声の評価方法および評価プログラム

Country Status (1)

Country Link
JP (1) JP5187584B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017026239A1 (ja) * 2015-08-10 2017-02-16 クラリオン株式会社 音声操作システム、サーバー装置、車載機器および音声操作方法
JP2019096365A (ja) * 2019-03-19 2019-06-20 ヤフー株式会社 制御装置、入出力装置、制御方法、および制御プログラム
CN110419078A (zh) * 2017-03-14 2019-11-05 德克萨斯仪器股份有限公司 自动语音识别系统的用户记录关键字的质量反馈
WO2019230065A1 (ja) 2018-05-31 2019-12-05 ソニー株式会社 情報処理装置、情報処理方法、プログラム
WO2019234952A1 (ja) * 2018-06-08 2019-12-12 パナソニックIpマネジメント株式会社 音声処理装置および翻訳装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004325635A (ja) * 2003-04-23 2004-11-18 Sharp Corp 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体
JP2006113439A (ja) * 2004-10-18 2006-04-27 Ntt Data Corp 音声自動応答装置及びプログラム
JP2007156076A (ja) * 2005-12-05 2007-06-21 Kddi Corp 音声入力評価装置
WO2007138741A1 (ja) * 2006-05-26 2007-12-06 Nec Corporation 音声入力システム、対話型ロボット、音声入力方法、および、音声入力プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004325635A (ja) * 2003-04-23 2004-11-18 Sharp Corp 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体
JP2006113439A (ja) * 2004-10-18 2006-04-27 Ntt Data Corp 音声自動応答装置及びプログラム
JP2007156076A (ja) * 2005-12-05 2007-06-21 Kddi Corp 音声入力評価装置
WO2007138741A1 (ja) * 2006-05-26 2007-12-06 Nec Corporation 音声入力システム、対話型ロボット、音声入力方法、および、音声入力プログラム

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017026239A1 (ja) * 2015-08-10 2017-02-16 クラリオン株式会社 音声操作システム、サーバー装置、車載機器および音声操作方法
JP2017037176A (ja) * 2015-08-10 2017-02-16 クラリオン株式会社 音声操作システム、サーバー装置、車載機器および音声操作方法
CN107851437A (zh) * 2015-08-10 2018-03-27 歌乐株式会社 语音操作系统、服务器装置、车载设备和语音操作方法
US10540969B2 (en) 2015-08-10 2020-01-21 Clarion Co., Ltd. Voice operating system, server device, on-vehicle device, and voice operating method
CN107851437B (zh) * 2015-08-10 2021-08-10 歌乐株式会社 语音操作系统、服务器装置、车载设备和语音操作方法
CN110419078A (zh) * 2017-03-14 2019-11-05 德克萨斯仪器股份有限公司 自动语音识别系统的用户记录关键字的质量反馈
CN110419078B (zh) * 2017-03-14 2024-01-23 德克萨斯仪器股份有限公司 用于自动语音识别的系统和方法
WO2019230065A1 (ja) 2018-05-31 2019-12-05 ソニー株式会社 情報処理装置、情報処理方法、プログラム
WO2019234952A1 (ja) * 2018-06-08 2019-12-12 パナソニックIpマネジメント株式会社 音声処理装置および翻訳装置
JP2019096365A (ja) * 2019-03-19 2019-06-20 ヤフー株式会社 制御装置、入出力装置、制御方法、および制御プログラム

Also Published As

Publication number Publication date
JP5187584B2 (ja) 2013-04-24

Similar Documents

Publication Publication Date Title
US10824391B2 (en) Audio user interface apparatus and method
US8892424B2 (en) Audio analysis terminal and system for emotion estimation of a conversation that discriminates utterance of a user and another person
KR100834679B1 (ko) 음성 인식 오류 통보 장치 및 방법
JP6350536B2 (ja) 音声検出装置、音声検出方法及びプログラム
JP5187584B2 (ja) 入力音声評価装置、入力音声の評価方法および評価プログラム
US20130253924A1 (en) Speech Conversation Support Apparatus, Method, and Program
JP2018156044A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP2009192942A (ja) 音声対話装置及び支援方法
JP2008256802A (ja) 音声認識装置および音声認識方法
JP4678773B2 (ja) 音声入力評価装置
JP2007288242A (ja) オペレータ評価方法、装置、オペレータ評価プログラム、記録媒体
WO2009150894A1 (ja) 音声認識システム、音声認識方法および音声認識用プログラムが格納された記憶媒体
JP6565500B2 (ja) 発話状態判定装置、発話状態判定方法、及び判定プログラム
JP2004341033A (ja) 音声媒介起動装置およびその方法
JP2011039222A (ja) 音声認識システム、音声認識方法および音声認識プログラム
CN109271480B (zh) 一种语音搜题方法及电子设备
WO2017085815A1 (ja) 困惑状態判定装置、困惑状態判定方法、及びプログラム
US11922927B2 (en) Learning data generation device, learning data generation method and non-transitory computer readable recording medium
JP2011221101A (ja) コミュニケーション装置
JP6992713B2 (ja) 連続発話推定装置、連続発話推定方法、およびプログラム
US20220215854A1 (en) Speech sound response device and speech sound response method
JP7509255B2 (ja) 連続発話推定装置、連続発話推定方法、およびプログラム
JP7001029B2 (ja) キーワード検出装置、キーワード検出方法、およびプログラム
JP2005107384A (ja) 音声認識装置および方法、プログラム並びに記録媒体
JPS63278100A (ja) 音声認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120106

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121011

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121015

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121227

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130109

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160201

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5187584

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150