JP2005500580A - ロバストな信頼度尺度を用いて音声検証を行う装置及び方法 - Google Patents
ロバストな信頼度尺度を用いて音声検証を行う装置及び方法 Download PDFInfo
- Publication number
- JP2005500580A JP2005500580A JP2003522082A JP2003522082A JP2005500580A JP 2005500580 A JP2005500580 A JP 2005500580A JP 2003522082 A JP2003522082 A JP 2003522082A JP 2003522082 A JP2003522082 A JP 2003522082A JP 2005500580 A JP2005500580 A JP 2005500580A
- Authority
- JP
- Japan
- Prior art keywords
- score
- recognition
- pseudo filler
- calculator
- pseudo
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
Abstract
ロバストな信頼度尺度を用いた音声検証のための装置及び方法(図6)を提供する。音声検証器414は、認識された単語の信頼度尺度を所定の閾値と比較し、認識された単語が有効であるか否かを判定する。認識された単語とは、最も高い認識スコアを得た単語モデルに対応する。信頼度尺度は、認識された単語、バックグラウンドスコア、擬似フィラスコアを用いて、Nベストリスト510の認識候補512から選択された認識スコアの平均値に基づいて算出される。
Description
【関連出願】
【0001】
本出願は、2001年8月14日に出願された米国仮出願番号第60/312,501号「分離されたコマンド認識のためのロバストで効率的な信頼度尺度(Robust And Efficient Confidence Measure For Isolated Command Recognition)」に対する優先権を主張する。この関連出願は、本出願と同一の譲受人に譲渡されている。
【技術分野】
【0002】
本発明は、音声認識装置に関し、詳しくは、ロバストな信頼度尺度(robust confidence measure)を用いた、音声検証のための装置及び方法に関する。
【背景技術】
【0003】
電子機器へのインタフェースとなるロバストで効率的な方法及び装置をシステムユーザに提供することは、システム設計者及び製造業者にとって重要な課題である。電子機器の音声制御操作(voice-controlled operation)は、多くのシステムユーザにとって望ましいインタフェースである。例えば、音声制御操作により、ユーザは同時に他の仕事を行うことができる。例えば、ユーザは、自動車を運転しながら、同時に音声制御によって電子手帳(electronic organizer)を操作することができる。身体的な制約又は特別な条件を有するユーザにとっても、ハンズフリー操作(hands-free operation)が望ましい場合がある。
【0004】
電子機器のハンズフリー操作は、様々な音声起動電子装置(speech activated electronic system)によって実現することができる。音声起動電子装置により、ユーザは、従来の入力装置を用いることが困難又は潜在的に危険であるような状況において、電子機器にインタフェースすることができる。また、電子娯楽装置(Electronic entertainment system)において、音声認識技術を利用することにより、ユーザは、その電子娯楽装置に話しかけることによって、電子娯楽装置とインタラクトすることができるようになる。
【0005】
音声起動電子装置は、産業施設、製造工場、商用車、乗用車、ホーム、オフィス環境等の雑音が多い様々な環境で使用されることがある。環境内の雑音の量が多いと、その雑音は、音声起動電子装置の性能及び有効性を妨げ、これらを低下させる場合がある。システム設計者及び製造業者は、一般的に、雑音が多い環境においても信頼性が高い性能を有する音声起動電子装置の開発を目指している。雑音が多い環境においては、音声起動電子装置によって検出される音響エネルギは、音声とかなりの量の雑音とを含んでいる場合がある。このような環境では、音声は雑音によってマスキングされ、検出できない場合がある。この結果、音声起動電子装置の性能の信頼度が許容できない程に低下する場合がある。
【0006】
また、音声起動電子装置によって検出される音響エネルギは、雑音のみしか含んでいない場合もある。このような雑音は、音声起動電子装置が音声として認識してしまうような性質を有している場合もある。この結果、音声起動電子装置の有効性が低下し、及び性能の信頼度が低下して許容できなくなる。検出された信号が実際に音声であることが検証できれば、音声起動電子装置の有効性及び信頼度が向上する。
【0007】
更に、音声起動電子装置では、その音声起動電子装置が認識するようプログラミングされている単語の辞書(vocabulary)には限界がある場合がある。音声起動電子装置は、その辞書内の単語又は熟語(phrase)に対しては正確に応答する必要があり、辞書にない単語又は熟語に対しては応答すべきではない。したがって、認識された単語が音声起動電子装置の辞書内にあることを検証することにより、音声起動電子装置の精度及び信頼度が向上する。
【0008】
すなわち、システムユーザが電子機器を操作するためのロバストで効率的な方法を実現するために、システム設計者及び製造業者は、上述した課題を解決する必要がある。
【発明の開示】
【課題を解決するための手段】
【0009】
本発明は、ロバストな信頼度尺度を用いて音声検証を行う装置及び方法を提供する。一実施例においては、まず、音声認識器の検索モジュールが所定の発話の特徴ベクトルにアクセスし、この特徴ベクトルを、装置の辞書に対応する単語モデルの特徴ベクトルと比較する。検索モジュールは、この単語モデルとの比較に基づいて、一連の潜在的な認識候補を対応する認識スコアとともに生成する。検索モジュールは、それぞれの認識スコアに基づいて、認識候補をランク付けして、ソートされたNベストリストを生成する。
【0010】
音声検証器の擬似フィラスコア算出器は、ソートされたNベストリストにアクセスし、本発明に基づいて擬似フィラスコアを算出する。擬似フィラスコア算出器は、あらゆる実際の方法により擬似フィラスコアを算出してもよい。例えば、擬似フィラスコア算出器は、Nベストリストから最高の又は最悪の認識スコア及び最低の又は最悪の認識スコアのみを除外した認識スコアの算術平均を算出することにより、擬似フィラスコアを算出してもよい。
【0011】
音声検証器の信頼度尺度算出器は、あらゆる有効な手段又は技術を用いて、信頼度尺度を算出することができる。例えば、信頼度尺度算出器は、擬似フィラスコアと、Nベストリストにおける最高の又は最悪の認識スコア及び最低の又は最悪の認識スコアとにアクセスして、信頼度尺度を算出することができる。
【0012】
音声検証器の比較器は、信頼度尺度を、ローカルの閾値レジスタ又は他の適切なソースから得られた閾値と比較する。本発明では、閾値は、選択可能ないかなる値を含んでいてもよい。例えば、比較器は、単純に1つの閾値のみを用いてもよい。これに代えて、音声認識処理において必要とされる精度に応じて、複数の閾値を用いてもよい。ある実施例として、音声検証器によって評価される最良の各認識候補に応じて、個々に異なる閾値を選択してもよい。
【0013】
比較器において、信頼度尺度が閾値を超えていると判定されると、音声検証器は、最良の認識候補が有効な発話であることを認める。逆に、比較器において、信頼度尺度が閾値を超えていないと判定されると、音声検証器は、最良の認識候補を無効な発話であるとして除外する。
【0014】
本発明は、検索モジュールから標準的に供給される情報(例えば、Nベストリスト510及び対応する認識スコア)のみを用いて、音声検証処理を行う。これにより、本発明は、他の要素を追加することなく、ロバストな音声検証処理を実現することができる。
【発明を実施するための最良の形態】
【0015】
本発明は、音声認識装置の性能の向上に関する。以下の説明では、当業者が本発明を製造及び使用できるように開示し、及び特許出願の明細書及びその要件を満たすものである。当業者は、好ましい実施例の変形例を容易に想到することができ、ここに説明する全般的な原理は、他の実施例にも適用できるものである。したがって、本発明は、ここに説明する実施例に限定されるものではなく、ここに開示する原理及び特徴に矛盾しない最も広い範囲を有するものである。
【0016】
本発明は、ロバストな信頼度尺度(robust confidence measure)を用いた音声検証のための装置及び方法を提供し、好ましくは、最も高い認識スコア(recognition score)を、取得した単語モデルに対応する認識された単語の信頼度尺度を所定の閾値と比較して、認識された単語が有効であるか否かを判定する音声認識装置を提供する。本発明によれば、上述の信頼度尺度は、例えば、認識された単語の認識スコアと、バックグラウンドスコア(background score)と、認識候補のNベストリスト(N-best list)から選択された平均認識スコアに基づく擬似フィラスコア(pseudo filler score)とを有効に利用することによって算出される。
【0017】
図1は、本発明を適用したコンピュータ装置の構成を示すブロック図である。図1に示すコンピュータ装置110(以下、単にシステムという。)は、音声センサ112と、増幅器116と、アナログ/デジタル変換器120と、中央演算処理装置(central processing unit:以下、CPUという。)128と、メモリ130と、入出力インタフェース132とを備える。
【0018】
音声センサ112は、音響エネルギを検出し、検出した音響エネルギをアナログ音声信号に変換し、このアナログ音声信号をライン114を介して増幅器116に供給する。増幅器116は、供給されるアナログ音声信号を増幅し、増幅したアナログ音声信号をライン118を介してアナログ/デジタル変換器120に供給する。そして、アナログ/デジタル変換器120は、増幅されたアナログ音声信号を対応するデジタル音声データに変換する。アナログ/デジタル変換器120は、このデジタル音声データをライン122を介してシステムバス124に供給する。
【0019】
そして、CPU128は、システムバス124に供給されたデジタル音声データにアクセスし、メモリ130に格納されているソフトウェア命令に基づく音声検出を実行するために、デジタル音声データを解析及び処理する。CPU128による処理及びメモリ130に格納されているソフトウェア命令については、図2〜図7を用いて後に説明する。そして、CPU128は、デジタル音声データを処理した後、入出力インタフェース132を介して、音声検出解析の結果を他の装置(図示せず)に供給する。
【0020】
本発明に基づく、図1に示すメモリ1の内部の具体的な構成を図2に示す。メモリ130は、例えばランダムアクセスメモリ(random access memory:以下、RAMという。)及び例えばフロッピディスク又はハードディスク等のストレージ装置を含む様々なストレージ装置からなる。図2に示す実施例では、メモリ130は、以下に限定されるものではないが、音声検出器210と、モデルスコアレジスタ212と、信頼度尺度レジスタ214と、閾値レジスタ216と、擬似フィラスコアレジスタ218と、Nベストリストレジスタ(N-best list register)220とを有する。
【0021】
図2に示す実施例では、音声検出器210は、CPU128によって実行されて、音声データを解析及び検出する一連のソフトウェアモジュールを含み、これらについては、図3〜図4を用いて後に更に詳細に説明する。変形例として、音声検出器210は、他の様々なソフトウェア及び/又はハードウェア構成を用いても容易に実現できる。
【0022】
モデルスコアレジスタ212、信頼度尺度レジスタ214、閾値レジスタ216、擬似フィラスコアレジスタ218、Nベストリストレジスタ220は、本発明に係る音声検証方法を実現する音声検出器210によって算出され、利用される変数の値を保存する。モデルスコアレジスタ212、信頼度尺度レジスタ214、閾値レジスタ216、擬似フィラスコアレジスタ218、Nベストリストレジスタ220については、図3〜図7を用いて、以下に詳細に説明する。
【0023】
本発明に基づく、図2に示す音声検出器210の具体的な構成を図3に示す。音声検出器210は、以下に限定されるものではないが、特徴抽出器310と、端点検出器312と、認識器314とを備える。
【0024】
アナログ/デジタル変換器120(図1)は、システムバス124を介して、デジタル音声データを特徴抽出器310に供給する。特徴抽出器310は、これに応じて特徴ベクトルを生成し、パス320を介して特徴ベクトルを認識器314に供給する。特徴抽出器310は、更に、音声エネルギデータを生成し、パス322を介して音声エネルギデータを端点検出器312に供給する。端点検出器312は、音声エネルギデータを解析し、この音声エネルギデータによって表される発話(utterance)の端点を判定する。端点とは、発話の時間的な開始点及び終了点を指す。端点検出器312は、パス324を介して、この端点データを認識器314に供給する。
【0025】
認識器314は、好ましくはシステム110内の所定の辞書(vocabulary)に基づき、分離された単語又はコマンドを認識する。図3に示す実施例では、認識器314は、約125個の単語又はコマンドを含む語彙(vocabulary)を認識する。なお、本発明は、これらの単語又はコマンドの数を限定するものではない。上述した語彙は、システム110に対する所望のコマンド、命令、又はこの他の通信に対応するものであってもよい。したがって、認識された単語又は熟語が有効であることを検証することは、システム110を適正に動作させるためにも重要である。辞書内の有効と認識された単語又はコマンドは、パス332を介してシステム110に供給される。
【0026】
図4は、本発明に基づく、図3に示す認識器314の具体的な構成を示すブロック図である。認識器314は、以下に限定されるものではないが、検索モジュール416と、モデルバンク412と、音声検証器414とを備える。モデルバンク412は、システム110の辞書内の全ての単語又はコマンドに対する単語モデルを含んでいる。各単語モデルは、好ましくは、辞書内の特定の単語又はコマンドを認識するようトレーニングされた隠れマルコフモデルである。
【0027】
検索モジュール416は、パス320を介して特徴抽出器310から特徴ベクトルが供給されるとともに、パス324を介して端点検出器312から端点データが供給される。検索モジュール416は、発話(端点間の信号)の特徴ベクトルを、モデルバンク412内の各単語モデルと比較する。そして、検索モジュール416は、各単語モデルから発話に関する認識スコアを生成し、これらの認識スコアをモデルスコアレジスタ212に保存する。検索モジュール416は、好ましくは、この発話に関する各認識スコアを最も高いスコアから最も低いスコアまでランク付けし、ランク付けされた認識スコアの指定された数字をNベストリストレジスタ内のNベストリストに登録する。最も高い認識スコアに対応する単語モデルは、第1の認識候補であり、次に高い認識スコアに対応する単語モデルは、第2の認識候補であり、三番目に高い認識スコアに対応する単語モデルは、第3の認識候補である。このように、モデルバンク412内において単語モデルがランク付けされる。通常は、第1の認識候補が認識された単語であると考えられる。
【0028】
検索モジュール416は、パス420を介して、Nベストリストを音声検証器414に供給する。一実施例においては、音声検証器414は、発話に対する信頼度尺度を算出し、算出した信頼度尺度を信頼度尺度レジスタ214に保存する。次に、音声検証器414は、発話に対する信頼度尺度を閾値レジスタ216に格納されている閾値と比較する。信頼度尺度の値は、認識された単語がシステム110の有効な辞書単語(vocabulary word)である信頼度を示す尺度である。
【0029】
発話の信頼度尺度が閾値以上である場合、第1の候補とされた単語、すなわち認識された単語が有効であるとみなされ、認識器314は、結果をパス332に出力する。また、信頼度尺度が閾値未満の場合、第1の候補は無効な辞書単語であるとみなされ、認識器314は、結果を出力しない。
【0030】
多くの場合、閾値レジスタ216に格納されている閾値は、システム110の辞書単語に依存する。音声検証器414においては、システム110に異なる利点を与える様々な閾値のセットを用いることができる。
【0031】
図5は、本発明に基づくNベストリスト510の具体的な構成を示している。図5に示す実施例では、Nベストリスト510は、認識候補1(512(a))〜認識候補N(512(c))を含んでいる。他の実施例として、Nベストリスト510は、図5を用いて説明する要素又は機能に加えて又はこれらに代えて、他の様々な要素又は機能を含んでいてもよい。
【0032】
図5に示す実施例では、Nベストリスト510は、所望のいかなる数の認識候補512を含んでいてもよく、また必要なあらゆる種類の情報を含んでいてもよい。図5に示す実施例では、各認識候補512は、好ましくは、テキストフォーマットの検索結果(単語、熟語又はコマンド)及び対応する認識スコアを含んでいる。図5に示す実施例では、Nベストリスト510の認識候補512は、好ましくは、それぞれの認識スコアに応じてランク付けされて保存されており、認識候補1(512(a))は、最も高い又は最良の認識スコアを有し、認識候補N(512(c))は、最も低い又は最悪の認識スコアを有している。このNベストリスト510の利用については、図6及び図7を用いて以下に説明する。
【0033】
図6は、本発明の一実施例に基づく、音声検証処理を説明する図である。他の実施例として、本発明は、図6を用いて説明する実施例における要素又は機能に加えて、又はこれらに代えて他の様々な要素及び機能を用いて音声検証を行うこともできる。
【0034】
図6に示す実施例では、まず、検索モジュール416は、好ましくは、パス320を介して所定の発話に関する特徴ベクトルにアクセスし、そして、この特徴ベクトルを、パス422を介してアクセスできる単語モデルと比較する。次に、検索モジュール416は、この単語モデルとの比較に基づく認識スコアに応じて、一連の潜在的な認識候補512を生成する。また、検索モジュール416は、それぞれの認識スコアに基づいて認識候補512をランク付けし、Nベストリスト510に保存する。
【0035】
図6に示す実施例では、擬似フィラスコア算出器618は、パス616を介して、保存されているNベストリスト510にアクセスし、本発明に基づいて擬似フィラスコアを算出する。擬似フィラスコア算出器618は、あらゆる実際の方法によって擬似フィラスコアを算出することができる。なお、図6に示す実施例では、擬似フィラスコア算出器618は、Nベストリスト510から最高の又は最悪の認識スコア及び最低の又は最悪の認識スコア(ここでは、バックグラウンドスコアとも呼ぶ。)のみを除外した認識スコアの平均値を求めることによって、擬似フィラスコアを生成する。ある実施例では、擬似フィラスコア算出器618は、以下に示す式に基づいて、Nベストリスト510から選択された認識スコア(最良の認識スコア及び最悪の認識スコアを除く。)の算術平均を求めることによって、擬似フィラスコアを算出する。
【0036】
【数1】
【0037】
ここで、Fは、擬似フィラスコアであり、Siは、Nベストリスト510の「i」番目の単語の認識スコアであり、Nは、Nベストリスト510のNに等しい選択可能な整数である。
【0038】
図6に示す実施例では、信頼度尺度算出器624は、あらゆる有効な方法又は技術を用いて、信頼度尺度(CM)を算出することができる。図6に示す実施例では、信頼度尺度算出器624は、好ましくは、パス620を介して擬似フィラスコア(F)にアクセスし、検索モジュール416から、パス622を介して最高の又は最良の認識スコア(Si)を、パス621を介して最低の又は最悪の認識スコアを読み出して、信頼度尺度を算出する。
【0039】
一実施例においては、信頼度尺度算出器624は、好ましくは、例えば以下の式に基づいて信頼度尺度を算出することができる。
【0040】
【数2】
【0041】
ここで、CMは、信頼度尺度であり、Siは、Nベストリスト510の第1の認識候補512(a)の最良の認識スコアであり、SNは、Nベストリスト510において最も低くランク付けされた認識候補512(c)の最悪の認識スコアであり、Fは、上述した擬似フィラスコアである。
【0042】
図6に示す実施例において、比較器628は、パス626を介して信頼度尺度(CM)にアクセスし、この信頼度尺度を、閾値レジスタ216(図2)又は他の適切なソースから得られる閾値と比較する。本発明においては、閾値は、あらゆる選択可能な値を含むことができる。例えば、比較器628において、単純に1つの閾値のみを用いてもよい。これに代えて、音声認識処理において必要とされる精度に応じて、複数の閾値を用いてもよい。ある実施例として、音声検証器414によって評価される最良の各認識候補に応じて、個々に異なる閾値を選択するようにしてもよい。
【0043】
図6に示す実施例では、比較器628において、信頼度尺度が閾値を超えていると判定されると、音声検証器414は、第1の認識候補512(a)を、ブロック630に示すように有効な発話であると認める。逆に、比較器628において、信頼度尺度が閾値を超えていないと判定されると、音声検証器414は、第1の認識候補512(a)を、ブロック632に示すように無効な発話であるとして除外する。
【0044】
本発明では、検索モジュール416から標準的に供給される情報(Nベストリスト510及び対応する認識スコア)のみを用いて、音声検証処理を行う。これにより、本発明は、他の要素を追加することなく、ロバストな音声検証処理を実現することができる。
【0045】
図7は、本発明に基づく音声検証処理の手順を示すフローチャートである。図7に示す実施例は、例示的なものであり、変形例として、図7に示す実施例に関連して説明する他の様々なステップ又はシーケンスを用いて本発明を実現してもよい。
【0046】
図7に示す実施例では、ステップ708において、検索モジュール416は、好ましくは、特定の発話に対応するソートされたNベストリスト510を生成する。そして、ステップ710において、音声検証器414の擬似フィラスコア算出器618は、好ましくは、ソートされたNベストリスト510にアクセスし、図6を用いて説明したように、擬似フィラスコアを算出する。
【0047】
ステップ712において、音声検証器414の信頼度尺度算出器624は、好ましくは、潜在的な認識された単語に対応する信頼度尺度を判定する。信頼度尺度算出器624は、好ましくは、図6を用いて説明したように、上述の擬似フィラスコアと、Nベストリスト510の最悪の認識候補512(c)の最悪の認識スコアに対応するバックグラウンドスコアと、Nベストリスト510の最良の認識候補512(a)に対応する最良の認識スコアとを用いて、信頼度尺度を算出する。
【0048】
ステップ714において、図6を用いて説明したように、音声検証器414の比較器628は、信頼度尺度を選択された閾値と比較する。ステップ716において、比較器628は、信頼度尺度が閾値を超えているか否かを判定する。信頼度尺度が閾値を超えていると比較器628が判定した場合、音声検証器414は、ステップ718において、第1の認識候補512(a)を有効な発話であると認める。逆に、信頼度尺度が閾値を超えていないと比較器628が判定した場合、音声検証器414は、ステップ720において、第1の認識候補512(a)を無効な発話であるとして除外する。
【0049】
以上、本発明を好ましい実施例を用いて説明した。上述の説明から、当業者は他の実施例を容易に想到できる。例えば、本発明は、上述の実施例において説明した構成及び技術とは異なる構成及び技術を用いても容易に実現できる。更に、本発明は、好ましい実施例において説明したシステムとは異なるシステムを用いても実現できる。したがって、これらの及びこの他の変形例は、本発明の範囲内にあり、本発明は、特許請求の範囲によってのみ限定されるものである。
【図面の簡単な説明】
【0050】
【図1】本発明に基づくコンピュータ装置の構成例を示すブロック図である。
【図2】図1に恣意雌メモリの内部の構成例を示す図である。
【図3】図2に示す音声検出器の具体的構成を示す図である。
【図4】図3に示す認識器の構成を示すブロック図である。
【図5】本発明に基づくNベストリストの実施例を示す図である。
【図6】本発明に基づく音声検証処理を説明するブロック図である。
【図7】本発明に基づく音声検証処理の手順を説明するフローチャートである。
【0001】
本出願は、2001年8月14日に出願された米国仮出願番号第60/312,501号「分離されたコマンド認識のためのロバストで効率的な信頼度尺度(Robust And Efficient Confidence Measure For Isolated Command Recognition)」に対する優先権を主張する。この関連出願は、本出願と同一の譲受人に譲渡されている。
【技術分野】
【0002】
本発明は、音声認識装置に関し、詳しくは、ロバストな信頼度尺度(robust confidence measure)を用いた、音声検証のための装置及び方法に関する。
【背景技術】
【0003】
電子機器へのインタフェースとなるロバストで効率的な方法及び装置をシステムユーザに提供することは、システム設計者及び製造業者にとって重要な課題である。電子機器の音声制御操作(voice-controlled operation)は、多くのシステムユーザにとって望ましいインタフェースである。例えば、音声制御操作により、ユーザは同時に他の仕事を行うことができる。例えば、ユーザは、自動車を運転しながら、同時に音声制御によって電子手帳(electronic organizer)を操作することができる。身体的な制約又は特別な条件を有するユーザにとっても、ハンズフリー操作(hands-free operation)が望ましい場合がある。
【0004】
電子機器のハンズフリー操作は、様々な音声起動電子装置(speech activated electronic system)によって実現することができる。音声起動電子装置により、ユーザは、従来の入力装置を用いることが困難又は潜在的に危険であるような状況において、電子機器にインタフェースすることができる。また、電子娯楽装置(Electronic entertainment system)において、音声認識技術を利用することにより、ユーザは、その電子娯楽装置に話しかけることによって、電子娯楽装置とインタラクトすることができるようになる。
【0005】
音声起動電子装置は、産業施設、製造工場、商用車、乗用車、ホーム、オフィス環境等の雑音が多い様々な環境で使用されることがある。環境内の雑音の量が多いと、その雑音は、音声起動電子装置の性能及び有効性を妨げ、これらを低下させる場合がある。システム設計者及び製造業者は、一般的に、雑音が多い環境においても信頼性が高い性能を有する音声起動電子装置の開発を目指している。雑音が多い環境においては、音声起動電子装置によって検出される音響エネルギは、音声とかなりの量の雑音とを含んでいる場合がある。このような環境では、音声は雑音によってマスキングされ、検出できない場合がある。この結果、音声起動電子装置の性能の信頼度が許容できない程に低下する場合がある。
【0006】
また、音声起動電子装置によって検出される音響エネルギは、雑音のみしか含んでいない場合もある。このような雑音は、音声起動電子装置が音声として認識してしまうような性質を有している場合もある。この結果、音声起動電子装置の有効性が低下し、及び性能の信頼度が低下して許容できなくなる。検出された信号が実際に音声であることが検証できれば、音声起動電子装置の有効性及び信頼度が向上する。
【0007】
更に、音声起動電子装置では、その音声起動電子装置が認識するようプログラミングされている単語の辞書(vocabulary)には限界がある場合がある。音声起動電子装置は、その辞書内の単語又は熟語(phrase)に対しては正確に応答する必要があり、辞書にない単語又は熟語に対しては応答すべきではない。したがって、認識された単語が音声起動電子装置の辞書内にあることを検証することにより、音声起動電子装置の精度及び信頼度が向上する。
【0008】
すなわち、システムユーザが電子機器を操作するためのロバストで効率的な方法を実現するために、システム設計者及び製造業者は、上述した課題を解決する必要がある。
【発明の開示】
【課題を解決するための手段】
【0009】
本発明は、ロバストな信頼度尺度を用いて音声検証を行う装置及び方法を提供する。一実施例においては、まず、音声認識器の検索モジュールが所定の発話の特徴ベクトルにアクセスし、この特徴ベクトルを、装置の辞書に対応する単語モデルの特徴ベクトルと比較する。検索モジュールは、この単語モデルとの比較に基づいて、一連の潜在的な認識候補を対応する認識スコアとともに生成する。検索モジュールは、それぞれの認識スコアに基づいて、認識候補をランク付けして、ソートされたNベストリストを生成する。
【0010】
音声検証器の擬似フィラスコア算出器は、ソートされたNベストリストにアクセスし、本発明に基づいて擬似フィラスコアを算出する。擬似フィラスコア算出器は、あらゆる実際の方法により擬似フィラスコアを算出してもよい。例えば、擬似フィラスコア算出器は、Nベストリストから最高の又は最悪の認識スコア及び最低の又は最悪の認識スコアのみを除外した認識スコアの算術平均を算出することにより、擬似フィラスコアを算出してもよい。
【0011】
音声検証器の信頼度尺度算出器は、あらゆる有効な手段又は技術を用いて、信頼度尺度を算出することができる。例えば、信頼度尺度算出器は、擬似フィラスコアと、Nベストリストにおける最高の又は最悪の認識スコア及び最低の又は最悪の認識スコアとにアクセスして、信頼度尺度を算出することができる。
【0012】
音声検証器の比較器は、信頼度尺度を、ローカルの閾値レジスタ又は他の適切なソースから得られた閾値と比較する。本発明では、閾値は、選択可能ないかなる値を含んでいてもよい。例えば、比較器は、単純に1つの閾値のみを用いてもよい。これに代えて、音声認識処理において必要とされる精度に応じて、複数の閾値を用いてもよい。ある実施例として、音声検証器によって評価される最良の各認識候補に応じて、個々に異なる閾値を選択してもよい。
【0013】
比較器において、信頼度尺度が閾値を超えていると判定されると、音声検証器は、最良の認識候補が有効な発話であることを認める。逆に、比較器において、信頼度尺度が閾値を超えていないと判定されると、音声検証器は、最良の認識候補を無効な発話であるとして除外する。
【0014】
本発明は、検索モジュールから標準的に供給される情報(例えば、Nベストリスト510及び対応する認識スコア)のみを用いて、音声検証処理を行う。これにより、本発明は、他の要素を追加することなく、ロバストな音声検証処理を実現することができる。
【発明を実施するための最良の形態】
【0015】
本発明は、音声認識装置の性能の向上に関する。以下の説明では、当業者が本発明を製造及び使用できるように開示し、及び特許出願の明細書及びその要件を満たすものである。当業者は、好ましい実施例の変形例を容易に想到することができ、ここに説明する全般的な原理は、他の実施例にも適用できるものである。したがって、本発明は、ここに説明する実施例に限定されるものではなく、ここに開示する原理及び特徴に矛盾しない最も広い範囲を有するものである。
【0016】
本発明は、ロバストな信頼度尺度(robust confidence measure)を用いた音声検証のための装置及び方法を提供し、好ましくは、最も高い認識スコア(recognition score)を、取得した単語モデルに対応する認識された単語の信頼度尺度を所定の閾値と比較して、認識された単語が有効であるか否かを判定する音声認識装置を提供する。本発明によれば、上述の信頼度尺度は、例えば、認識された単語の認識スコアと、バックグラウンドスコア(background score)と、認識候補のNベストリスト(N-best list)から選択された平均認識スコアに基づく擬似フィラスコア(pseudo filler score)とを有効に利用することによって算出される。
【0017】
図1は、本発明を適用したコンピュータ装置の構成を示すブロック図である。図1に示すコンピュータ装置110(以下、単にシステムという。)は、音声センサ112と、増幅器116と、アナログ/デジタル変換器120と、中央演算処理装置(central processing unit:以下、CPUという。)128と、メモリ130と、入出力インタフェース132とを備える。
【0018】
音声センサ112は、音響エネルギを検出し、検出した音響エネルギをアナログ音声信号に変換し、このアナログ音声信号をライン114を介して増幅器116に供給する。増幅器116は、供給されるアナログ音声信号を増幅し、増幅したアナログ音声信号をライン118を介してアナログ/デジタル変換器120に供給する。そして、アナログ/デジタル変換器120は、増幅されたアナログ音声信号を対応するデジタル音声データに変換する。アナログ/デジタル変換器120は、このデジタル音声データをライン122を介してシステムバス124に供給する。
【0019】
そして、CPU128は、システムバス124に供給されたデジタル音声データにアクセスし、メモリ130に格納されているソフトウェア命令に基づく音声検出を実行するために、デジタル音声データを解析及び処理する。CPU128による処理及びメモリ130に格納されているソフトウェア命令については、図2〜図7を用いて後に説明する。そして、CPU128は、デジタル音声データを処理した後、入出力インタフェース132を介して、音声検出解析の結果を他の装置(図示せず)に供給する。
【0020】
本発明に基づく、図1に示すメモリ1の内部の具体的な構成を図2に示す。メモリ130は、例えばランダムアクセスメモリ(random access memory:以下、RAMという。)及び例えばフロッピディスク又はハードディスク等のストレージ装置を含む様々なストレージ装置からなる。図2に示す実施例では、メモリ130は、以下に限定されるものではないが、音声検出器210と、モデルスコアレジスタ212と、信頼度尺度レジスタ214と、閾値レジスタ216と、擬似フィラスコアレジスタ218と、Nベストリストレジスタ(N-best list register)220とを有する。
【0021】
図2に示す実施例では、音声検出器210は、CPU128によって実行されて、音声データを解析及び検出する一連のソフトウェアモジュールを含み、これらについては、図3〜図4を用いて後に更に詳細に説明する。変形例として、音声検出器210は、他の様々なソフトウェア及び/又はハードウェア構成を用いても容易に実現できる。
【0022】
モデルスコアレジスタ212、信頼度尺度レジスタ214、閾値レジスタ216、擬似フィラスコアレジスタ218、Nベストリストレジスタ220は、本発明に係る音声検証方法を実現する音声検出器210によって算出され、利用される変数の値を保存する。モデルスコアレジスタ212、信頼度尺度レジスタ214、閾値レジスタ216、擬似フィラスコアレジスタ218、Nベストリストレジスタ220については、図3〜図7を用いて、以下に詳細に説明する。
【0023】
本発明に基づく、図2に示す音声検出器210の具体的な構成を図3に示す。音声検出器210は、以下に限定されるものではないが、特徴抽出器310と、端点検出器312と、認識器314とを備える。
【0024】
アナログ/デジタル変換器120(図1)は、システムバス124を介して、デジタル音声データを特徴抽出器310に供給する。特徴抽出器310は、これに応じて特徴ベクトルを生成し、パス320を介して特徴ベクトルを認識器314に供給する。特徴抽出器310は、更に、音声エネルギデータを生成し、パス322を介して音声エネルギデータを端点検出器312に供給する。端点検出器312は、音声エネルギデータを解析し、この音声エネルギデータによって表される発話(utterance)の端点を判定する。端点とは、発話の時間的な開始点及び終了点を指す。端点検出器312は、パス324を介して、この端点データを認識器314に供給する。
【0025】
認識器314は、好ましくはシステム110内の所定の辞書(vocabulary)に基づき、分離された単語又はコマンドを認識する。図3に示す実施例では、認識器314は、約125個の単語又はコマンドを含む語彙(vocabulary)を認識する。なお、本発明は、これらの単語又はコマンドの数を限定するものではない。上述した語彙は、システム110に対する所望のコマンド、命令、又はこの他の通信に対応するものであってもよい。したがって、認識された単語又は熟語が有効であることを検証することは、システム110を適正に動作させるためにも重要である。辞書内の有効と認識された単語又はコマンドは、パス332を介してシステム110に供給される。
【0026】
図4は、本発明に基づく、図3に示す認識器314の具体的な構成を示すブロック図である。認識器314は、以下に限定されるものではないが、検索モジュール416と、モデルバンク412と、音声検証器414とを備える。モデルバンク412は、システム110の辞書内の全ての単語又はコマンドに対する単語モデルを含んでいる。各単語モデルは、好ましくは、辞書内の特定の単語又はコマンドを認識するようトレーニングされた隠れマルコフモデルである。
【0027】
検索モジュール416は、パス320を介して特徴抽出器310から特徴ベクトルが供給されるとともに、パス324を介して端点検出器312から端点データが供給される。検索モジュール416は、発話(端点間の信号)の特徴ベクトルを、モデルバンク412内の各単語モデルと比較する。そして、検索モジュール416は、各単語モデルから発話に関する認識スコアを生成し、これらの認識スコアをモデルスコアレジスタ212に保存する。検索モジュール416は、好ましくは、この発話に関する各認識スコアを最も高いスコアから最も低いスコアまでランク付けし、ランク付けされた認識スコアの指定された数字をNベストリストレジスタ内のNベストリストに登録する。最も高い認識スコアに対応する単語モデルは、第1の認識候補であり、次に高い認識スコアに対応する単語モデルは、第2の認識候補であり、三番目に高い認識スコアに対応する単語モデルは、第3の認識候補である。このように、モデルバンク412内において単語モデルがランク付けされる。通常は、第1の認識候補が認識された単語であると考えられる。
【0028】
検索モジュール416は、パス420を介して、Nベストリストを音声検証器414に供給する。一実施例においては、音声検証器414は、発話に対する信頼度尺度を算出し、算出した信頼度尺度を信頼度尺度レジスタ214に保存する。次に、音声検証器414は、発話に対する信頼度尺度を閾値レジスタ216に格納されている閾値と比較する。信頼度尺度の値は、認識された単語がシステム110の有効な辞書単語(vocabulary word)である信頼度を示す尺度である。
【0029】
発話の信頼度尺度が閾値以上である場合、第1の候補とされた単語、すなわち認識された単語が有効であるとみなされ、認識器314は、結果をパス332に出力する。また、信頼度尺度が閾値未満の場合、第1の候補は無効な辞書単語であるとみなされ、認識器314は、結果を出力しない。
【0030】
多くの場合、閾値レジスタ216に格納されている閾値は、システム110の辞書単語に依存する。音声検証器414においては、システム110に異なる利点を与える様々な閾値のセットを用いることができる。
【0031】
図5は、本発明に基づくNベストリスト510の具体的な構成を示している。図5に示す実施例では、Nベストリスト510は、認識候補1(512(a))〜認識候補N(512(c))を含んでいる。他の実施例として、Nベストリスト510は、図5を用いて説明する要素又は機能に加えて又はこれらに代えて、他の様々な要素又は機能を含んでいてもよい。
【0032】
図5に示す実施例では、Nベストリスト510は、所望のいかなる数の認識候補512を含んでいてもよく、また必要なあらゆる種類の情報を含んでいてもよい。図5に示す実施例では、各認識候補512は、好ましくは、テキストフォーマットの検索結果(単語、熟語又はコマンド)及び対応する認識スコアを含んでいる。図5に示す実施例では、Nベストリスト510の認識候補512は、好ましくは、それぞれの認識スコアに応じてランク付けされて保存されており、認識候補1(512(a))は、最も高い又は最良の認識スコアを有し、認識候補N(512(c))は、最も低い又は最悪の認識スコアを有している。このNベストリスト510の利用については、図6及び図7を用いて以下に説明する。
【0033】
図6は、本発明の一実施例に基づく、音声検証処理を説明する図である。他の実施例として、本発明は、図6を用いて説明する実施例における要素又は機能に加えて、又はこれらに代えて他の様々な要素及び機能を用いて音声検証を行うこともできる。
【0034】
図6に示す実施例では、まず、検索モジュール416は、好ましくは、パス320を介して所定の発話に関する特徴ベクトルにアクセスし、そして、この特徴ベクトルを、パス422を介してアクセスできる単語モデルと比較する。次に、検索モジュール416は、この単語モデルとの比較に基づく認識スコアに応じて、一連の潜在的な認識候補512を生成する。また、検索モジュール416は、それぞれの認識スコアに基づいて認識候補512をランク付けし、Nベストリスト510に保存する。
【0035】
図6に示す実施例では、擬似フィラスコア算出器618は、パス616を介して、保存されているNベストリスト510にアクセスし、本発明に基づいて擬似フィラスコアを算出する。擬似フィラスコア算出器618は、あらゆる実際の方法によって擬似フィラスコアを算出することができる。なお、図6に示す実施例では、擬似フィラスコア算出器618は、Nベストリスト510から最高の又は最悪の認識スコア及び最低の又は最悪の認識スコア(ここでは、バックグラウンドスコアとも呼ぶ。)のみを除外した認識スコアの平均値を求めることによって、擬似フィラスコアを生成する。ある実施例では、擬似フィラスコア算出器618は、以下に示す式に基づいて、Nベストリスト510から選択された認識スコア(最良の認識スコア及び最悪の認識スコアを除く。)の算術平均を求めることによって、擬似フィラスコアを算出する。
【0036】
【数1】
【0037】
ここで、Fは、擬似フィラスコアであり、Siは、Nベストリスト510の「i」番目の単語の認識スコアであり、Nは、Nベストリスト510のNに等しい選択可能な整数である。
【0038】
図6に示す実施例では、信頼度尺度算出器624は、あらゆる有効な方法又は技術を用いて、信頼度尺度(CM)を算出することができる。図6に示す実施例では、信頼度尺度算出器624は、好ましくは、パス620を介して擬似フィラスコア(F)にアクセスし、検索モジュール416から、パス622を介して最高の又は最良の認識スコア(Si)を、パス621を介して最低の又は最悪の認識スコアを読み出して、信頼度尺度を算出する。
【0039】
一実施例においては、信頼度尺度算出器624は、好ましくは、例えば以下の式に基づいて信頼度尺度を算出することができる。
【0040】
【数2】
【0041】
ここで、CMは、信頼度尺度であり、Siは、Nベストリスト510の第1の認識候補512(a)の最良の認識スコアであり、SNは、Nベストリスト510において最も低くランク付けされた認識候補512(c)の最悪の認識スコアであり、Fは、上述した擬似フィラスコアである。
【0042】
図6に示す実施例において、比較器628は、パス626を介して信頼度尺度(CM)にアクセスし、この信頼度尺度を、閾値レジスタ216(図2)又は他の適切なソースから得られる閾値と比較する。本発明においては、閾値は、あらゆる選択可能な値を含むことができる。例えば、比較器628において、単純に1つの閾値のみを用いてもよい。これに代えて、音声認識処理において必要とされる精度に応じて、複数の閾値を用いてもよい。ある実施例として、音声検証器414によって評価される最良の各認識候補に応じて、個々に異なる閾値を選択するようにしてもよい。
【0043】
図6に示す実施例では、比較器628において、信頼度尺度が閾値を超えていると判定されると、音声検証器414は、第1の認識候補512(a)を、ブロック630に示すように有効な発話であると認める。逆に、比較器628において、信頼度尺度が閾値を超えていないと判定されると、音声検証器414は、第1の認識候補512(a)を、ブロック632に示すように無効な発話であるとして除外する。
【0044】
本発明では、検索モジュール416から標準的に供給される情報(Nベストリスト510及び対応する認識スコア)のみを用いて、音声検証処理を行う。これにより、本発明は、他の要素を追加することなく、ロバストな音声検証処理を実現することができる。
【0045】
図7は、本発明に基づく音声検証処理の手順を示すフローチャートである。図7に示す実施例は、例示的なものであり、変形例として、図7に示す実施例に関連して説明する他の様々なステップ又はシーケンスを用いて本発明を実現してもよい。
【0046】
図7に示す実施例では、ステップ708において、検索モジュール416は、好ましくは、特定の発話に対応するソートされたNベストリスト510を生成する。そして、ステップ710において、音声検証器414の擬似フィラスコア算出器618は、好ましくは、ソートされたNベストリスト510にアクセスし、図6を用いて説明したように、擬似フィラスコアを算出する。
【0047】
ステップ712において、音声検証器414の信頼度尺度算出器624は、好ましくは、潜在的な認識された単語に対応する信頼度尺度を判定する。信頼度尺度算出器624は、好ましくは、図6を用いて説明したように、上述の擬似フィラスコアと、Nベストリスト510の最悪の認識候補512(c)の最悪の認識スコアに対応するバックグラウンドスコアと、Nベストリスト510の最良の認識候補512(a)に対応する最良の認識スコアとを用いて、信頼度尺度を算出する。
【0048】
ステップ714において、図6を用いて説明したように、音声検証器414の比較器628は、信頼度尺度を選択された閾値と比較する。ステップ716において、比較器628は、信頼度尺度が閾値を超えているか否かを判定する。信頼度尺度が閾値を超えていると比較器628が判定した場合、音声検証器414は、ステップ718において、第1の認識候補512(a)を有効な発話であると認める。逆に、信頼度尺度が閾値を超えていないと比較器628が判定した場合、音声検証器414は、ステップ720において、第1の認識候補512(a)を無効な発話であるとして除外する。
【0049】
以上、本発明を好ましい実施例を用いて説明した。上述の説明から、当業者は他の実施例を容易に想到できる。例えば、本発明は、上述の実施例において説明した構成及び技術とは異なる構成及び技術を用いても容易に実現できる。更に、本発明は、好ましい実施例において説明したシステムとは異なるシステムを用いても実現できる。したがって、これらの及びこの他の変形例は、本発明の範囲内にあり、本発明は、特許請求の範囲によってのみ限定されるものである。
【図面の簡単な説明】
【0050】
【図1】本発明に基づくコンピュータ装置の構成例を示すブロック図である。
【図2】図1に恣意雌メモリの内部の構成例を示す図である。
【図3】図2に示す音声検出器の具体的構成を示す図である。
【図4】図3に示す認識器の構成を示すブロック図である。
【図5】本発明に基づくNベストリストの実施例を示す図である。
【図6】本発明に基づく音声検証処理を説明するブロック図である。
【図7】本発明に基づく音声検証処理の手順を説明するフローチャートである。
Claims (44)
- 発話の音声検証を行う音声検証装置において、
上記発話に対応する認識候補512のNベストリスト510を生成する検索モジュール416と、
上記検索モジュール416に接続され、上記認識候補512に対応する認識スコアに基づいて擬似フィラスコアを算出する擬似フィラスコア算出器618と、
上記擬似フィラスコアと、最悪の認識候補512(c)のバックグラウンドスコアと、最良の認識候補512(a)の最良の認識スコアとに基づいて、信頼度尺度を算出する信頼度尺度算出器624と、
上記信頼度尺度を閾値と比較して、上記最良の認識候補512(a)を検証する比較器628とを備える音声検証装置。 - 上記検索モジュール416と、当該音声検証装置の辞書に対応する単語モデルのモデルバンク412と、上記擬似フィラスコア算出器618、上記信頼度尺度算出器624及び上記比較器628を含む音声検証器414とを備える請求項1記載の音声検証装置。
- 上記検索モジュール416は、上記発話に対応する特徴ベクトルを上記単語モデルと比較し、上記認識候補512と、該認識候補512の個々に対応する上記認識スコアとを生成することを特徴とする請求項1記載の音声検証装置。
- 上記Nベストリスト510は、上記最良の認識スコアを有する最良の認識候補512(a)と、上記バックグラウンドスコアを有する最悪の認識候補512(c)と、所定の更なる数の上記認識候補512とを含み、上記検索モジュール416は、上記認識候補512の個々に対応する上記認識スコアに基づいて上記Nベストリスト510をランク付けすることを特徴とする請求項1記載の音声検証装置。
- 上記擬似フィラスコア算出器618は、上記Nベストリスト510から上記最良の認識スコア及び上記バックグラウンドスコアを除く残りの認識スコアを解析することによって上記擬似フィラスコアを算出することを特徴とする請求項1記載の音声検証装置。
- 上記擬似フィラスコア算出器618は、上記Nベストリスト510から選択された認識スコアのみを解析して上記擬似フィラスコアを算出することを特徴とする請求項1記載の音声検証装置。
- 上記擬似フィラスコア算出器618は、上記Nベストリスト510から選択された認識スコアの算術平均を算出することによって上記擬似フィラスコアを算出することを特徴とする請求項1記載の音声検証装置。
- 上記擬似フィラスコア算出器618は、上記Nベストリスト510から上記バックグラウンドスコア及び上記最良の認識スコアを除外した後に算術平均を算出することによって上記擬似フィラスコアを算出することを特徴とする請求項1記載の音声検証装置。
- 上記バックグラウンドスコアは、上記Nベストリスト510において最低にランク付けされた認識候補に対応する最悪のスコアに等しいことを特徴とする請求項1記載の音声検証装置。
- 上記信頼度尺度算出器624は、上記擬似フィラスコアを、上記Nベストリスト510からの少なくとも1つの上記認識スコアと比較することによって上記信頼度尺度を算出することを特徴とする請求項1記載の音声検証装置。
- 上記信頼度尺度算出器624は、上記擬似フィラスコアと、上記Nベストリスト510からの上記バックグラウンドスコアとの比を求めることによって上記信頼度尺度を算出することを特徴とする請求項1記載の音声検証装置。
- 上記信頼度尺度算出器624は、上記最良の認識スコアから上記擬似フィラスコアを減算した差を上記最良の認識結果から上記バックグラウンドスコアを減算した差によって除算することによって上記信頼度尺度を算出することを特徴とする請求項1記載の音声検証装置。
- 上記比較器628は、閾値レジスタ216から上記閾値を選択的に読み出し、上記信頼度尺度を該閾値と比較し、上記最良の認識候補512(a)に対応する検証結果を生成することを特徴とする請求項1記載の音声検証装置。
- 上記比較器628は、音声検証を効率的且つ経済的に実行するよう選択された単一の閾値を用いることを特徴とする請求項1記載の音声検証装置。
- 上記閾値は、音声検証の実行にあたり所定の性能目標を最適に達成するために、複数の閾値オプションから選択されることを特徴とする請求項1記載の音声検証装置。
- 上記比較器628は、それぞれが異なる最良の認識候補512(a)に対応する異なる閾値を選択的に用いることを特徴とする請求項1記載の音声検証装置。
- 上記音声検証器414は、上記信頼度尺度が上記閾値を超えた場合、上記最良の認識候補512(c)を有効であると認め、上記信頼度尺度が上記閾値を超えなかった場合、上記最良の認識候補512(c)を無効であるとして除外することを特徴とする請求項2記載の音声検証装置。
- 上記音声検証器414は、上記Nベストリスト510及び上記認識スコアを含む、上記検索モジュール416から供給される情報のみを単独に用いて音声検証を行うことを特徴とする請求項2記載の音声検証装置。
- 発話の音声検証を行う音声検証方法において、
検索モジュール416を用いて、上記発話に対応する認識候補512のNベストリスト510を生成するステップと、
擬似フィラスコア算出器618を用いて、上記認識候補512に対応する認識スコアに基づいて擬似フィラスコアを算出するステップと、
信頼度尺度算出器624を用いて、上記擬似フィラスコアと、最悪の認識候補512(c)のバックグラウンドスコアと、最良の認識候補512(a)の最良の認識スコアとに基づいて、信頼度尺度を算出するステップと、
比較器628を用いて、上記信頼度尺度を閾値と比較して、上記最良の認識候補512(a)を検証するステップとを有する音声検証方法。 - 上記検索モジュール416と、当該音声検証装置の辞書に対応する単語モデルのモデルバンク412と、上記擬似フィラスコア算出器618、上記信頼度尺度算出器624及び上記比較器628を含む音声検証器414とを準備するステップを有する請求項21記載の音声検証方法。
- 上記検索モジュール416は、上記発話に対応する特徴ベクトルを上記単語モデルと比較し、上記認識候補512と、該認識候補512の個々に対応する上記認識スコアとを生成することを特徴とする請求項21記載の音声検証方法。
- 上記Nベストリスト510は、上記最良の認識スコアを有する最良の認識候補512(a)と、上記バックグラウンドスコアを有する最悪の認識候補512(c)と、所定の更なる数の上記認識候補512とを含み、上記検索モジュール416は、上記認識候補512の個々に対応する上記認識スコアに基づいて上記Nベストリスト510をランク付けすることを特徴とする請求項21記載の音声検証方法。
- 上記擬似フィラスコア算出器618は、上記Nベストリスト510から上記最良の認識スコア及び上記バックグラウンドスコアを除く残りの認識スコアを解析することによって上記擬似フィラスコアを算出することを特徴とする請求項21記載の音声検証方法。
- 上記擬似フィラスコア算出器618は、上記Nベストリスト510から選択された認識スコアのみを解析して上記擬似フィラスコアを算出することを特徴とする請求項21記載の音声検証方法。
- 上記擬似フィラスコア算出器618は、上記Nベストリスト510から選択された認識スコアの算術平均を算出することによって上記擬似フィラスコアを算出することを特徴とする請求項21記載の音声検証方法。
- 上記擬似フィラスコア算出器618は、上記Nベストリスト510から上記バックグラウンドスコア及び上記最良の認識スコアを除外した後に算術平均を算出することによって上記擬似フィラスコアを算出することを特徴とする請求項21記載の音声検証方法。
- 上記バックグラウンドスコアは、上記Nベストリスト510において最低にランク付けされた認識候補に対応する最悪のスコアに等しいことを特徴とする請求項21記載の音声検証方法。
- 上記信頼度尺度算出器624は、上記擬似フィラスコアを、上記Nベストリスト510からの少なくとも1つの上記認識スコアと比較することによって上記信頼度尺度を算出することを特徴とする請求項21記載の音声検証方法。
- 上記信頼度尺度算出器624は、上記擬似フィラスコアと、上記Nベストリスト510からの上記バックグラウンドスコアとの比を求めることによって上記信頼度尺度を算出することを特徴とする請求項21記載の音声検証方法。
- 上記信頼度尺度算出器624は、上記最良の認識スコアから上記擬似フィラスコアを減算した差を上記最良の認識結果から上記バックグラウンドスコアを減算した差によって除算することによって上記信頼度尺度を算出することを特徴とする請求項21記載の音声検証方法。
- 上記比較器628は、閾値レジスタ216から上記閾値を選択的に読み出し、上記信頼度尺度を該閾値と比較し、上記最良の認識候補512(a)に対応する検証結果を生成することを特徴とする請求項21記載の音声検証方法。
- 上記比較器628は、音声検証を効率的且つ経済的に実行するよう選択された単一の閾値を用いることを特徴とする請求項21記載の音声検証方法。
- 上記閾値は、音声検証の実行にあたり所定の性能目標を最適に達成するために、複数の閾値オプションから選択されることを特徴とする請求項21記載の音声検証方法。
- 上記比較器628は、それぞれが異なる最良の認識候補512(a)に対応する異なる閾値を選択的に用いることを特徴とする請求項21記載の音声検証方法。
- 上記音声検証器414は、上記信頼度尺度が上記閾値を超えた場合、上記最良の認識候補512(c)を有効であると認め、上記信頼度尺度が上記閾値を超えなかった場合、上記最良の認識候補512(c)を無効であるとして除外することを特徴とする請求項22記載の音声検証方法。
- 上記音声検証器414は、上記Nベストリスト510及び上記認識スコアを含む、上記検索モジュール416から供給される情報のみを単独に用いて音声検証を行うことを特徴とする請求項22記載の音声検証方法。
- 発話に対応する認識候補512のNベストリスト510を生成するステップと、
上記認識候補512に対応する認識スコアに基づいて擬似フィラスコアを算出するステップと、
上記擬似フィラスコアと、最悪の認識候補512(c)のバックグラウンドスコアと、最良の認識候補512(a)の最良の認識スコアとに基づいて、信頼度尺度を算出するステップと、
上記信頼度尺度を閾値と比較して、上記最良の認識候補512(a)を検証するステップとを実行することにより音声検証を実行するプログラミング命令を有するコンピュータにより読取可能な媒体。 - 発話の音声検証を行う音声検証装置において、
上記発話に対応する認識候補512のNベストリスト510を生成する生成手段と、
上記認識候補512に対応する認識スコアに基づいて擬似フィラスコアを算出する擬似フィラスコア算出手段と、
上記擬似フィラスコアと、最悪の認識候補512(c)のバックグラウンドスコアと、最良の認識候補512(a)の最良の認識スコアとに基づいて、信頼度尺度を算出する信頼度尺度算出手段と、
上記信頼度尺度を閾値と比較して、上記最良の認識候補512(a)を検証する比較手段とを備える音声検証装置。 - 発話の音声検証を行う音声検証方法において、
擬似フィラスコアと、最悪の認識候補512(c)のバックグラウンドスコアと、最良の認識候補512(a)の最良の認識スコアとに基づいて、信頼度尺度を算出するステップと、
上記信頼度尺度を閾値と比較して、上記最良の認識候補512(a)を検証するステップとを有する音声検証方法。 - 発話の音声検証を行う音声検証装置において、
上記発話に対応する認識候補512のNベストリスト510を生成する検索モジュール416と、
上記検索モジュールに接続され、上記認識候補512に対応する認識スコアに基づき、上記擬似フィラスコアをFとし、上記Nベストリスト510の「i」番目の単語の認識スコアをSiとし、上記Nベストリスト510のNに等しい選択可能な整数をNとして、以下の式を用いて上記擬似フィラスコアを算出する擬似フィラスコア算出器618と、
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US31250101P | 2001-08-14 | 2001-08-14 | |
PCT/US2002/025577 WO2003017253A1 (en) | 2001-08-14 | 2002-08-13 | System and method for speech verification using a robust confidence measure |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005500580A true JP2005500580A (ja) | 2005-01-06 |
Family
ID=23211748
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003522082A Withdrawn JP2005500580A (ja) | 2001-08-14 | 2002-08-13 | ロバストな信頼度尺度を用いて音声検証を行う装置及び方法 |
Country Status (4)
Country | Link |
---|---|
EP (1) | EP1425737A4 (ja) |
JP (1) | JP2005500580A (ja) |
GB (1) | GB2394590B (ja) |
WO (1) | WO2003017253A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10803858B2 (en) | 2016-11-11 | 2020-10-13 | Kabushiki Kaisha Toshiba | Speech recognition apparatus, speech recognition method, and computer program product |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3819896B2 (ja) * | 2003-11-14 | 2006-09-13 | 日本電信電話株式会社 | 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 |
CN103426428B (zh) * | 2012-05-18 | 2016-05-25 | 华硕电脑股份有限公司 | 语音识别方法及系统 |
TWI466101B (zh) * | 2012-05-18 | 2014-12-21 | Asustek Comp Inc | 語音識別方法及系統 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5842163A (en) * | 1995-06-21 | 1998-11-24 | Sri International | Method and apparatus for computing likelihood and hypothesizing keyword appearance in speech |
US5737489A (en) * | 1995-09-15 | 1998-04-07 | Lucent Technologies Inc. | Discriminative utterance verification for connected digits recognition |
US6850886B2 (en) | 1999-10-21 | 2005-02-01 | Sony Corporation | System and method for speech verification using an efficient confidence measure |
EP1189202A1 (en) * | 2000-09-18 | 2002-03-20 | Sony International (Europe) GmbH | Duration models for speech recognition |
-
2002
- 2002-08-13 JP JP2003522082A patent/JP2005500580A/ja not_active Withdrawn
- 2002-08-13 EP EP02794872A patent/EP1425737A4/en not_active Withdrawn
- 2002-08-13 WO PCT/US2002/025577 patent/WO2003017253A1/en active Search and Examination
- 2002-08-13 GB GB0402781A patent/GB2394590B/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10803858B2 (en) | 2016-11-11 | 2020-10-13 | Kabushiki Kaisha Toshiba | Speech recognition apparatus, speech recognition method, and computer program product |
Also Published As
Publication number | Publication date |
---|---|
GB2394590B (en) | 2005-02-16 |
EP1425737A1 (en) | 2004-06-09 |
GB2394590A (en) | 2004-04-28 |
GB0402781D0 (en) | 2004-03-10 |
WO2003017253A1 (en) | 2003-02-27 |
EP1425737A4 (en) | 2005-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6778959B1 (en) | System and method for speech verification using out-of-vocabulary models | |
US7103543B2 (en) | System and method for speech verification using a robust confidence measure | |
TWI475558B (zh) | 詞語驗證的方法及裝置 | |
Prabhavalkar et al. | Automatic gain control and multi-style training for robust small-footprint keyword spotting with deep neural networks | |
US9633652B2 (en) | Methods, systems, and circuits for speaker dependent voice recognition with a single lexicon | |
US7228275B1 (en) | Speech recognition system having multiple speech recognizers | |
US8543399B2 (en) | Apparatus and method for speech recognition using a plurality of confidence score estimation algorithms | |
US7447634B2 (en) | Speech recognizing apparatus having optimal phoneme series comparing unit and speech recognizing method | |
EP2216775A1 (en) | Speaker recognition | |
US6850886B2 (en) | System and method for speech verification using an efficient confidence measure | |
US9786295B2 (en) | Voice processing apparatus and voice processing method | |
WO2010128560A1 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
US6473735B1 (en) | System and method for speech verification using a confidence measure | |
US6970818B2 (en) | Methodology for implementing a vocabulary set for use in a speech recognition system | |
CN101123090A (zh) | 通过使用平方根折扣的统计语言的语音识别 | |
JP2005500580A (ja) | ロバストな信頼度尺度を用いて音声検証を行う装置及び方法 | |
US9928832B2 (en) | Method and apparatus for classifying lexical stress | |
US7231352B2 (en) | Method for computer-supported speech recognition, speech recognition system and control device for controlling a technical system and telecommunications device | |
KR102527346B1 (ko) | 차량용 음성 인식 장치, 이를 이용한 차량의 주행상태를 고려한 응답 제공 방법 및 컴퓨터 프로그램 | |
KR101752709B1 (ko) | 음성인식시스템에서 발화검증 방법 및 그 음성인식시스템 | |
KR20100073160A (ko) | 음성인식 시스템의 발화검증 방법 및 장치 | |
JP3533773B2 (ja) | 時系列パターン認識処理におけるリジェクト方法およびそれを実装した時系列パターン認識装置 | |
JP2001215996A (ja) | 音声認識装置 | |
KR101195742B1 (ko) | 키워드별 필러 모델을 구비하는 키워드 검출 시스템 및 키워드별 필러 모델 구현 방법 | |
JPH07295585A (ja) | 車載用音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20051101 |