JP2005500580A

JP2005500580A - ロバストな信頼度尺度を用いて音声検証を行う装置及び方法

Info

Publication number: JP2005500580A
Application number: JP2003522082A
Authority: JP
Inventors: アブレゴ、グスタボ、エルナンデス; ピダル、ザビエル、メネンデス
Original assignee: ソニーエレクトロニクスインク
Priority date: 2001-08-14
Filing date: 2002-08-13
Publication date: 2005-01-06
Also published as: GB2394590B; EP1425737A1; GB2394590A; GB0402781D0; WO2003017253A1; EP1425737A4

Abstract

ロバストな信頼度尺度を用いた音声検証のための装置及び方法（図６）を提供する。音声検証器４１４は、認識された単語の信頼度尺度を所定の閾値と比較し、認識された単語が有効であるか否かを判定する。認識された単語とは、最も高い認識スコアを得た単語モデルに対応する。信頼度尺度は、認識された単語、バックグラウンドスコア、擬似フィラスコアを用いて、Ｎベストリスト５１０の認識候補５１２から選択された認識スコアの平均値に基づいて算出される。

Description

【関連出願】
【０００１】
本出願は、２００１年８月１４日に出願された米国仮出願番号第６０／３１２，５０１号「分離されたコマンド認識のためのロバストで効率的な信頼度尺度（Robust And Efficient Confidence Measure For Isolated Command Recognition）」に対する優先権を主張する。この関連出願は、本出願と同一の譲受人に譲渡されている。
【技術分野】
【０００２】
本発明は、音声認識装置に関し、詳しくは、ロバストな信頼度尺度（robust confidence measure）を用いた、音声検証のための装置及び方法に関する。
【背景技術】
【０００３】
電子機器へのインタフェースとなるロバストで効率的な方法及び装置をシステムユーザに提供することは、システム設計者及び製造業者にとって重要な課題である。電子機器の音声制御操作（voice-controlled operation）は、多くのシステムユーザにとって望ましいインタフェースである。例えば、音声制御操作により、ユーザは同時に他の仕事を行うことができる。例えば、ユーザは、自動車を運転しながら、同時に音声制御によって電子手帳（electronic organizer）を操作することができる。身体的な制約又は特別な条件を有するユーザにとっても、ハンズフリー操作（hands-free operation）が望ましい場合がある。
【０００４】
電子機器のハンズフリー操作は、様々な音声起動電子装置（speech activated electronic system）によって実現することができる。音声起動電子装置により、ユーザは、従来の入力装置を用いることが困難又は潜在的に危険であるような状況において、電子機器にインタフェースすることができる。また、電子娯楽装置（Electronic entertainment system）において、音声認識技術を利用することにより、ユーザは、その電子娯楽装置に話しかけることによって、電子娯楽装置とインタラクトすることができるようになる。
【０００５】
音声起動電子装置は、産業施設、製造工場、商用車、乗用車、ホーム、オフィス環境等の雑音が多い様々な環境で使用されることがある。環境内の雑音の量が多いと、その雑音は、音声起動電子装置の性能及び有効性を妨げ、これらを低下させる場合がある。システム設計者及び製造業者は、一般的に、雑音が多い環境においても信頼性が高い性能を有する音声起動電子装置の開発を目指している。雑音が多い環境においては、音声起動電子装置によって検出される音響エネルギは、音声とかなりの量の雑音とを含んでいる場合がある。このような環境では、音声は雑音によってマスキングされ、検出できない場合がある。この結果、音声起動電子装置の性能の信頼度が許容できない程に低下する場合がある。
【０００６】
また、音声起動電子装置によって検出される音響エネルギは、雑音のみしか含んでいない場合もある。このような雑音は、音声起動電子装置が音声として認識してしまうような性質を有している場合もある。この結果、音声起動電子装置の有効性が低下し、及び性能の信頼度が低下して許容できなくなる。検出された信号が実際に音声であることが検証できれば、音声起動電子装置の有効性及び信頼度が向上する。
【０００７】
更に、音声起動電子装置では、その音声起動電子装置が認識するようプログラミングされている単語の辞書（vocabulary）には限界がある場合がある。音声起動電子装置は、その辞書内の単語又は熟語（phrase）に対しては正確に応答する必要があり、辞書にない単語又は熟語に対しては応答すべきではない。したがって、認識された単語が音声起動電子装置の辞書内にあることを検証することにより、音声起動電子装置の精度及び信頼度が向上する。
【０００８】
すなわち、システムユーザが電子機器を操作するためのロバストで効率的な方法を実現するために、システム設計者及び製造業者は、上述した課題を解決する必要がある。
【発明の開示】
【課題を解決するための手段】
【０００９】
本発明は、ロバストな信頼度尺度を用いて音声検証を行う装置及び方法を提供する。一実施例においては、まず、音声認識器の検索モジュールが所定の発話の特徴ベクトルにアクセスし、この特徴ベクトルを、装置の辞書に対応する単語モデルの特徴ベクトルと比較する。検索モジュールは、この単語モデルとの比較に基づいて、一連の潜在的な認識候補を対応する認識スコアとともに生成する。検索モジュールは、それぞれの認識スコアに基づいて、認識候補をランク付けして、ソートされたＮベストリストを生成する。
【００１０】
音声検証器の擬似フィラスコア算出器は、ソートされたＮベストリストにアクセスし、本発明に基づいて擬似フィラスコアを算出する。擬似フィラスコア算出器は、あらゆる実際の方法により擬似フィラスコアを算出してもよい。例えば、擬似フィラスコア算出器は、Ｎベストリストから最高の又は最悪の認識スコア及び最低の又は最悪の認識スコアのみを除外した認識スコアの算術平均を算出することにより、擬似フィラスコアを算出してもよい。
【００１１】
音声検証器の信頼度尺度算出器は、あらゆる有効な手段又は技術を用いて、信頼度尺度を算出することができる。例えば、信頼度尺度算出器は、擬似フィラスコアと、Ｎベストリストにおける最高の又は最悪の認識スコア及び最低の又は最悪の認識スコアとにアクセスして、信頼度尺度を算出することができる。
【００１２】
音声検証器の比較器は、信頼度尺度を、ローカルの閾値レジスタ又は他の適切なソースから得られた閾値と比較する。本発明では、閾値は、選択可能ないかなる値を含んでいてもよい。例えば、比較器は、単純に１つの閾値のみを用いてもよい。これに代えて、音声認識処理において必要とされる精度に応じて、複数の閾値を用いてもよい。ある実施例として、音声検証器によって評価される最良の各認識候補に応じて、個々に異なる閾値を選択してもよい。
【００１３】
比較器において、信頼度尺度が閾値を超えていると判定されると、音声検証器は、最良の認識候補が有効な発話であることを認める。逆に、比較器において、信頼度尺度が閾値を超えていないと判定されると、音声検証器は、最良の認識候補を無効な発話であるとして除外する。
【００１４】
本発明は、検索モジュールから標準的に供給される情報（例えば、Ｎベストリスト５１０及び対応する認識スコア）のみを用いて、音声検証処理を行う。これにより、本発明は、他の要素を追加することなく、ロバストな音声検証処理を実現することができる。
【発明を実施するための最良の形態】
【００１５】
本発明は、音声認識装置の性能の向上に関する。以下の説明では、当業者が本発明を製造及び使用できるように開示し、及び特許出願の明細書及びその要件を満たすものである。当業者は、好ましい実施例の変形例を容易に想到することができ、ここに説明する全般的な原理は、他の実施例にも適用できるものである。したがって、本発明は、ここに説明する実施例に限定されるものではなく、ここに開示する原理及び特徴に矛盾しない最も広い範囲を有するものである。
【００１６】
本発明は、ロバストな信頼度尺度（robust confidence measure）を用いた音声検証のための装置及び方法を提供し、好ましくは、最も高い認識スコア（recognition score）を、取得した単語モデルに対応する認識された単語の信頼度尺度を所定の閾値と比較して、認識された単語が有効であるか否かを判定する音声認識装置を提供する。本発明によれば、上述の信頼度尺度は、例えば、認識された単語の認識スコアと、バックグラウンドスコア（background score）と、認識候補のＮベストリスト（N-best list）から選択された平均認識スコアに基づく擬似フィラスコア（pseudo filler score）とを有効に利用することによって算出される。
【００１７】
図１は、本発明を適用したコンピュータ装置の構成を示すブロック図である。図１に示すコンピュータ装置１１０（以下、単にシステムという。）は、音声センサ１１２と、増幅器１１６と、アナログ／デジタル変換器１２０と、中央演算処理装置（central processing unit：以下、ＣＰＵという。）１２８と、メモリ１３０と、入出力インタフェース１３２とを備える。
【００１８】
音声センサ１１２は、音響エネルギを検出し、検出した音響エネルギをアナログ音声信号に変換し、このアナログ音声信号をライン１１４を介して増幅器１１６に供給する。増幅器１１６は、供給されるアナログ音声信号を増幅し、増幅したアナログ音声信号をライン１１８を介してアナログ／デジタル変換器１２０に供給する。そして、アナログ／デジタル変換器１２０は、増幅されたアナログ音声信号を対応するデジタル音声データに変換する。アナログ／デジタル変換器１２０は、このデジタル音声データをライン１２２を介してシステムバス１２４に供給する。
【００１９】
そして、ＣＰＵ１２８は、システムバス１２４に供給されたデジタル音声データにアクセスし、メモリ１３０に格納されているソフトウェア命令に基づく音声検出を実行するために、デジタル音声データを解析及び処理する。ＣＰＵ１２８による処理及びメモリ１３０に格納されているソフトウェア命令については、図２〜図７を用いて後に説明する。そして、ＣＰＵ１２８は、デジタル音声データを処理した後、入出力インタフェース１３２を介して、音声検出解析の結果を他の装置（図示せず）に供給する。
【００２０】
本発明に基づく、図１に示すメモリ１の内部の具体的な構成を図２に示す。メモリ１３０は、例えばランダムアクセスメモリ（random access memory：以下、ＲＡＭという。）及び例えばフロッピディスク又はハードディスク等のストレージ装置を含む様々なストレージ装置からなる。図２に示す実施例では、メモリ１３０は、以下に限定されるものではないが、音声検出器２１０と、モデルスコアレジスタ２１２と、信頼度尺度レジスタ２１４と、閾値レジスタ２１６と、擬似フィラスコアレジスタ２１８と、Ｎベストリストレジスタ（N-best list register）２２０とを有する。
【００２１】
図２に示す実施例では、音声検出器２１０は、ＣＰＵ１２８によって実行されて、音声データを解析及び検出する一連のソフトウェアモジュールを含み、これらについては、図３〜図４を用いて後に更に詳細に説明する。変形例として、音声検出器２１０は、他の様々なソフトウェア及び／又はハードウェア構成を用いても容易に実現できる。
【００２２】
モデルスコアレジスタ２１２、信頼度尺度レジスタ２１４、閾値レジスタ２１６、擬似フィラスコアレジスタ２１８、Ｎベストリストレジスタ２２０は、本発明に係る音声検証方法を実現する音声検出器２１０によって算出され、利用される変数の値を保存する。モデルスコアレジスタ２１２、信頼度尺度レジスタ２１４、閾値レジスタ２１６、擬似フィラスコアレジスタ２１８、Ｎベストリストレジスタ２２０については、図３〜図７を用いて、以下に詳細に説明する。
【００２３】
本発明に基づく、図２に示す音声検出器２１０の具体的な構成を図３に示す。音声検出器２１０は、以下に限定されるものではないが、特徴抽出器３１０と、端点検出器３１２と、認識器３１４とを備える。
【００２４】
アナログ／デジタル変換器１２０（図１）は、システムバス１２４を介して、デジタル音声データを特徴抽出器３１０に供給する。特徴抽出器３１０は、これに応じて特徴ベクトルを生成し、パス３２０を介して特徴ベクトルを認識器３１４に供給する。特徴抽出器３１０は、更に、音声エネルギデータを生成し、パス３２２を介して音声エネルギデータを端点検出器３１２に供給する。端点検出器３１２は、音声エネルギデータを解析し、この音声エネルギデータによって表される発話（utterance）の端点を判定する。端点とは、発話の時間的な開始点及び終了点を指す。端点検出器３１２は、パス３２４を介して、この端点データを認識器３１４に供給する。
【００２５】
認識器３１４は、好ましくはシステム１１０内の所定の辞書（vocabulary）に基づき、分離された単語又はコマンドを認識する。図３に示す実施例では、認識器３１４は、約１２５個の単語又はコマンドを含む語彙（vocabulary）を認識する。なお、本発明は、これらの単語又はコマンドの数を限定するものではない。上述した語彙は、システム１１０に対する所望のコマンド、命令、又はこの他の通信に対応するものであってもよい。したがって、認識された単語又は熟語が有効であることを検証することは、システム１１０を適正に動作させるためにも重要である。辞書内の有効と認識された単語又はコマンドは、パス３３２を介してシステム１１０に供給される。
【００２６】
図４は、本発明に基づく、図３に示す認識器３１４の具体的な構成を示すブロック図である。認識器３１４は、以下に限定されるものではないが、検索モジュール４１６と、モデルバンク４１２と、音声検証器４１４とを備える。モデルバンク４１２は、システム１１０の辞書内の全ての単語又はコマンドに対する単語モデルを含んでいる。各単語モデルは、好ましくは、辞書内の特定の単語又はコマンドを認識するようトレーニングされた隠れマルコフモデルである。
【００２７】
検索モジュール４１６は、パス３２０を介して特徴抽出器３１０から特徴ベクトルが供給されるとともに、パス３２４を介して端点検出器３１２から端点データが供給される。検索モジュール４１６は、発話（端点間の信号）の特徴ベクトルを、モデルバンク４１２内の各単語モデルと比較する。そして、検索モジュール４１６は、各単語モデルから発話に関する認識スコアを生成し、これらの認識スコアをモデルスコアレジスタ２１２に保存する。検索モジュール４１６は、好ましくは、この発話に関する各認識スコアを最も高いスコアから最も低いスコアまでランク付けし、ランク付けされた認識スコアの指定された数字をＮベストリストレジスタ内のＮベストリストに登録する。最も高い認識スコアに対応する単語モデルは、第１の認識候補であり、次に高い認識スコアに対応する単語モデルは、第２の認識候補であり、三番目に高い認識スコアに対応する単語モデルは、第３の認識候補である。このように、モデルバンク４１２内において単語モデルがランク付けされる。通常は、第１の認識候補が認識された単語であると考えられる。
【００２８】
検索モジュール４１６は、パス４２０を介して、Ｎベストリストを音声検証器４１４に供給する。一実施例においては、音声検証器４１４は、発話に対する信頼度尺度を算出し、算出した信頼度尺度を信頼度尺度レジスタ２１４に保存する。次に、音声検証器４１４は、発話に対する信頼度尺度を閾値レジスタ２１６に格納されている閾値と比較する。信頼度尺度の値は、認識された単語がシステム１１０の有効な辞書単語（vocabulary word）である信頼度を示す尺度である。
【００２９】
発話の信頼度尺度が閾値以上である場合、第１の候補とされた単語、すなわち認識された単語が有効であるとみなされ、認識器３１４は、結果をパス３３２に出力する。また、信頼度尺度が閾値未満の場合、第１の候補は無効な辞書単語であるとみなされ、認識器３１４は、結果を出力しない。
【００３０】
多くの場合、閾値レジスタ２１６に格納されている閾値は、システム１１０の辞書単語に依存する。音声検証器４１４においては、システム１１０に異なる利点を与える様々な閾値のセットを用いることができる。
【００３１】
図５は、本発明に基づくＮベストリスト５１０の具体的な構成を示している。図５に示す実施例では、Ｎベストリスト５１０は、認識候補１（５１２（ａ））〜認識候補Ｎ（５１２（ｃ））を含んでいる。他の実施例として、Ｎベストリスト５１０は、図５を用いて説明する要素又は機能に加えて又はこれらに代えて、他の様々な要素又は機能を含んでいてもよい。
【００３２】
図５に示す実施例では、Ｎベストリスト５１０は、所望のいかなる数の認識候補５１２を含んでいてもよく、また必要なあらゆる種類の情報を含んでいてもよい。図５に示す実施例では、各認識候補５１２は、好ましくは、テキストフォーマットの検索結果（単語、熟語又はコマンド）及び対応する認識スコアを含んでいる。図５に示す実施例では、Ｎベストリスト５１０の認識候補５１２は、好ましくは、それぞれの認識スコアに応じてランク付けされて保存されており、認識候補１（５１２（ａ））は、最も高い又は最良の認識スコアを有し、認識候補Ｎ（５１２（ｃ））は、最も低い又は最悪の認識スコアを有している。このＮベストリスト５１０の利用については、図６及び図７を用いて以下に説明する。
【００３３】
図６は、本発明の一実施例に基づく、音声検証処理を説明する図である。他の実施例として、本発明は、図６を用いて説明する実施例における要素又は機能に加えて、又はこれらに代えて他の様々な要素及び機能を用いて音声検証を行うこともできる。
【００３４】
図６に示す実施例では、まず、検索モジュール４１６は、好ましくは、パス３２０を介して所定の発話に関する特徴ベクトルにアクセスし、そして、この特徴ベクトルを、パス４２２を介してアクセスできる単語モデルと比較する。次に、検索モジュール４１６は、この単語モデルとの比較に基づく認識スコアに応じて、一連の潜在的な認識候補５１２を生成する。また、検索モジュール４１６は、それぞれの認識スコアに基づいて認識候補５１２をランク付けし、Ｎベストリスト５１０に保存する。
【００３５】
図６に示す実施例では、擬似フィラスコア算出器６１８は、パス６１６を介して、保存されているＮベストリスト５１０にアクセスし、本発明に基づいて擬似フィラスコアを算出する。擬似フィラスコア算出器６１８は、あらゆる実際の方法によって擬似フィラスコアを算出することができる。なお、図６に示す実施例では、擬似フィラスコア算出器６１８は、Ｎベストリスト５１０から最高の又は最悪の認識スコア及び最低の又は最悪の認識スコア（ここでは、バックグラウンドスコアとも呼ぶ。）のみを除外した認識スコアの平均値を求めることによって、擬似フィラスコアを生成する。ある実施例では、擬似フィラスコア算出器６１８は、以下に示す式に基づいて、Ｎベストリスト５１０から選択された認識スコア（最良の認識スコア及び最悪の認識スコアを除く。）の算術平均を求めることによって、擬似フィラスコアを算出する。
【００３６】
【数１】

【００３７】
ここで、Ｆは、擬似フィラスコアであり、Ｓ_ｉは、Ｎベストリスト５１０の「ｉ」番目の単語の認識スコアであり、Ｎは、Ｎベストリスト５１０のＮに等しい選択可能な整数である。
【００３８】
図６に示す実施例では、信頼度尺度算出器６２４は、あらゆる有効な方法又は技術を用いて、信頼度尺度（ＣＭ）を算出することができる。図６に示す実施例では、信頼度尺度算出器６２４は、好ましくは、パス６２０を介して擬似フィラスコア（Ｆ）にアクセスし、検索モジュール４１６から、パス６２２を介して最高の又は最良の認識スコア（Ｓ_ｉ）を、パス６２１を介して最低の又は最悪の認識スコアを読み出して、信頼度尺度を算出する。
【００３９】
一実施例においては、信頼度尺度算出器６２４は、好ましくは、例えば以下の式に基づいて信頼度尺度を算出することができる。
【００４０】
【数２】

【００４１】
ここで、ＣＭは、信頼度尺度であり、Ｓ_ｉは、Ｎベストリスト５１０の第１の認識候補５１２（ａ）の最良の認識スコアであり、Ｓ_Ｎは、Ｎベストリスト５１０において最も低くランク付けされた認識候補５１２（ｃ）の最悪の認識スコアであり、Ｆは、上述した擬似フィラスコアである。
【００４２】
図６に示す実施例において、比較器６２８は、パス６２６を介して信頼度尺度（ＣＭ）にアクセスし、この信頼度尺度を、閾値レジスタ２１６（図２）又は他の適切なソースから得られる閾値と比較する。本発明においては、閾値は、あらゆる選択可能な値を含むことができる。例えば、比較器６２８において、単純に１つの閾値のみを用いてもよい。これに代えて、音声認識処理において必要とされる精度に応じて、複数の閾値を用いてもよい。ある実施例として、音声検証器４１４によって評価される最良の各認識候補に応じて、個々に異なる閾値を選択するようにしてもよい。
【００４３】
図６に示す実施例では、比較器６２８において、信頼度尺度が閾値を超えていると判定されると、音声検証器４１４は、第１の認識候補５１２（ａ）を、ブロック６３０に示すように有効な発話であると認める。逆に、比較器６２８において、信頼度尺度が閾値を超えていないと判定されると、音声検証器４１４は、第１の認識候補５１２（ａ）を、ブロック６３２に示すように無効な発話であるとして除外する。
【００４４】
本発明では、検索モジュール４１６から標準的に供給される情報（Ｎベストリスト５１０及び対応する認識スコア）のみを用いて、音声検証処理を行う。これにより、本発明は、他の要素を追加することなく、ロバストな音声検証処理を実現することができる。
【００４５】
図７は、本発明に基づく音声検証処理の手順を示すフローチャートである。図７に示す実施例は、例示的なものであり、変形例として、図７に示す実施例に関連して説明する他の様々なステップ又はシーケンスを用いて本発明を実現してもよい。
【００４６】
図７に示す実施例では、ステップ７０８において、検索モジュール４１６は、好ましくは、特定の発話に対応するソートされたＮベストリスト５１０を生成する。そして、ステップ７１０において、音声検証器４１４の擬似フィラスコア算出器６１８は、好ましくは、ソートされたＮベストリスト５１０にアクセスし、図６を用いて説明したように、擬似フィラスコアを算出する。
【００４７】
ステップ７１２において、音声検証器４１４の信頼度尺度算出器６２４は、好ましくは、潜在的な認識された単語に対応する信頼度尺度を判定する。信頼度尺度算出器６２４は、好ましくは、図６を用いて説明したように、上述の擬似フィラスコアと、Ｎベストリスト５１０の最悪の認識候補５１２（ｃ）の最悪の認識スコアに対応するバックグラウンドスコアと、Ｎベストリスト５１０の最良の認識候補５１２（ａ）に対応する最良の認識スコアとを用いて、信頼度尺度を算出する。
【００４８】
ステップ７１４において、図６を用いて説明したように、音声検証器４１４の比較器６２８は、信頼度尺度を選択された閾値と比較する。ステップ７１６において、比較器６２８は、信頼度尺度が閾値を超えているか否かを判定する。信頼度尺度が閾値を超えていると比較器６２８が判定した場合、音声検証器４１４は、ステップ７１８において、第１の認識候補５１２（ａ）を有効な発話であると認める。逆に、信頼度尺度が閾値を超えていないと比較器６２８が判定した場合、音声検証器４１４は、ステップ７２０において、第１の認識候補５１２（ａ）を無効な発話であるとして除外する。
【００４９】
以上、本発明を好ましい実施例を用いて説明した。上述の説明から、当業者は他の実施例を容易に想到できる。例えば、本発明は、上述の実施例において説明した構成及び技術とは異なる構成及び技術を用いても容易に実現できる。更に、本発明は、好ましい実施例において説明したシステムとは異なるシステムを用いても実現できる。したがって、これらの及びこの他の変形例は、本発明の範囲内にあり、本発明は、特許請求の範囲によってのみ限定されるものである。
【図面の簡単な説明】
【００５０】
【図１】本発明に基づくコンピュータ装置の構成例を示すブロック図である。
【図２】図１に恣意雌メモリの内部の構成例を示す図である。
【図３】図２に示す音声検出器の具体的構成を示す図である。
【図４】図３に示す認識器の構成を示すブロック図である。
【図５】本発明に基づくＮベストリストの実施例を示す図である。
【図６】本発明に基づく音声検証処理を説明するブロック図である。
【図７】本発明に基づく音声検証処理の手順を説明するフローチャートである。

Claims

発話の音声検証を行う音声検証装置において、
上記発話に対応する認識候補５１２のＮベストリスト５１０を生成する検索モジュール４１６と、
上記検索モジュール４１６に接続され、上記認識候補５１２に対応する認識スコアに基づいて擬似フィラスコアを算出する擬似フィラスコア算出器６１８と、
上記擬似フィラスコアと、最悪の認識候補５１２（ｃ）のバックグラウンドスコアと、最良の認識候補５１２（ａ）の最良の認識スコアとに基づいて、信頼度尺度を算出する信頼度尺度算出器６２４と、
上記信頼度尺度を閾値と比較して、上記最良の認識候補５１２（ａ）を検証する比較器６２８とを備える音声検証装置。
上記検索モジュール４１６と、当該音声検証装置の辞書に対応する単語モデルのモデルバンク４１２と、上記擬似フィラスコア算出器６１８、上記信頼度尺度算出器６２４及び上記比較器６２８を含む音声検証器４１４とを備える請求項１記載の音声検証装置。
上記検索モジュール４１６は、上記発話に対応する特徴ベクトルを上記単語モデルと比較し、上記認識候補５１２と、該認識候補５１２の個々に対応する上記認識スコアとを生成することを特徴とする請求項１記載の音声検証装置。
上記Ｎベストリスト５１０は、上記最良の認識スコアを有する最良の認識候補５１２（ａ）と、上記バックグラウンドスコアを有する最悪の認識候補５１２（ｃ）と、所定の更なる数の上記認識候補５１２とを含み、上記検索モジュール４１６は、上記認識候補５１２の個々に対応する上記認識スコアに基づいて上記Ｎベストリスト５１０をランク付けすることを特徴とする請求項１記載の音声検証装置。
上記擬似フィラスコア算出器６１８は、上記Ｎベストリスト５１０から上記最良の認識スコア及び上記バックグラウンドスコアを除く残りの認識スコアを解析することによって上記擬似フィラスコアを算出することを特徴とする請求項１記載の音声検証装置。
上記擬似フィラスコア算出器６１８は、上記Ｎベストリスト５１０から選択された認識スコアのみを解析して上記擬似フィラスコアを算出することを特徴とする請求項１記載の音声検証装置。
上記擬似フィラスコア算出器６１８は、上記Ｎベストリスト５１０から選択された認識スコアの算術平均を算出することによって上記擬似フィラスコアを算出することを特徴とする請求項１記載の音声検証装置。
上記擬似フィラスコア算出器６１８は、上記擬似フィラスコアをＦとし、上記Ｎベストリスト５１０の「ｉ」番目の単語の認識スコアをＳ_ｉをし、上記Ｎベストリスト５１０のＮに等しい選択可能な整数をＮとして、以下の式に基づいて上記擬似フィラスコアを算出することを特徴とする請求項１記載の音声検証装置。
上記擬似フィラスコア算出器６１８は、上記Ｎベストリスト５１０から上記バックグラウンドスコア及び上記最良の認識スコアを除外した後に算術平均を算出することによって上記擬似フィラスコアを算出することを特徴とする請求項１記載の音声検証装置。
上記バックグラウンドスコアは、上記Ｎベストリスト５１０において最低にランク付けされた認識候補に対応する最悪のスコアに等しいことを特徴とする請求項１記載の音声検証装置。
上記信頼度尺度算出器６２４は、上記擬似フィラスコアを、上記Ｎベストリスト５１０からの少なくとも１つの上記認識スコアと比較することによって上記信頼度尺度を算出することを特徴とする請求項１記載の音声検証装置。
上記信頼度尺度算出器６２４は、上記擬似フィラスコアと、上記Ｎベストリスト５１０からの上記バックグラウンドスコアとの比を求めることによって上記信頼度尺度を算出することを特徴とする請求項１記載の音声検証装置。
上記信頼度尺度算出器６２４は、上記最良の認識スコアから上記擬似フィラスコアを減算した差を上記最良の認識結果から上記バックグラウンドスコアを減算した差によって除算することによって上記信頼度尺度を算出することを特徴とする請求項１記載の音声検証装置。
上記信頼度尺度算出器６２４は、上記信頼度尺度をＣＭとし、上記Ｎベストリスト５１０の第１の認識候補５１２（ａ）の最良の認識スコアをＳ_ｉとし、上記Ｎベストリスト５１０において最も低くランク付けされた認識候補５１２（ｃ）の最悪の認識スコアをＳ_Ｎとし、上記擬似フィラスコアをＦとして、以下の式に基づいて上記信頼度尺度を算出することを特徴とする請求項１記載の音声検証装置。
上記比較器６２８は、閾値レジスタ２１６から上記閾値を選択的に読み出し、上記信頼度尺度を該閾値と比較し、上記最良の認識候補５１２（ａ）に対応する検証結果を生成することを特徴とする請求項１記載の音声検証装置。
上記比較器６２８は、音声検証を効率的且つ経済的に実行するよう選択された単一の閾値を用いることを特徴とする請求項１記載の音声検証装置。
上記閾値は、音声検証の実行にあたり所定の性能目標を最適に達成するために、複数の閾値オプションから選択されることを特徴とする請求項１記載の音声検証装置。
上記比較器６２８は、それぞれが異なる最良の認識候補５１２（ａ）に対応する異なる閾値を選択的に用いることを特徴とする請求項１記載の音声検証装置。
上記音声検証器４１４は、上記信頼度尺度が上記閾値を超えた場合、上記最良の認識候補５１２（ｃ）を有効であると認め、上記信頼度尺度が上記閾値を超えなかった場合、上記最良の認識候補５１２（ｃ）を無効であるとして除外することを特徴とする請求項２記載の音声検証装置。
上記音声検証器４１４は、上記Ｎベストリスト５１０及び上記認識スコアを含む、上記検索モジュール４１６から供給される情報のみを単独に用いて音声検証を行うことを特徴とする請求項２記載の音声検証装置。
発話の音声検証を行う音声検証方法において、
検索モジュール４１６を用いて、上記発話に対応する認識候補５１２のＮベストリスト５１０を生成するステップと、
擬似フィラスコア算出器６１８を用いて、上記認識候補５１２に対応する認識スコアに基づいて擬似フィラスコアを算出するステップと、
信頼度尺度算出器６２４を用いて、上記擬似フィラスコアと、最悪の認識候補５１２（ｃ）のバックグラウンドスコアと、最良の認識候補５１２（ａ）の最良の認識スコアとに基づいて、信頼度尺度を算出するステップと、
比較器６２８を用いて、上記信頼度尺度を閾値と比較して、上記最良の認識候補５１２（ａ）を検証するステップとを有する音声検証方法。
上記検索モジュール４１６と、当該音声検証装置の辞書に対応する単語モデルのモデルバンク４１２と、上記擬似フィラスコア算出器６１８、上記信頼度尺度算出器６２４及び上記比較器６２８を含む音声検証器４１４とを準備するステップを有する請求項２１記載の音声検証方法。
上記検索モジュール４１６は、上記発話に対応する特徴ベクトルを上記単語モデルと比較し、上記認識候補５１２と、該認識候補５１２の個々に対応する上記認識スコアとを生成することを特徴とする請求項２１記載の音声検証方法。
上記Ｎベストリスト５１０は、上記最良の認識スコアを有する最良の認識候補５１２（ａ）と、上記バックグラウンドスコアを有する最悪の認識候補５１２（ｃ）と、所定の更なる数の上記認識候補５１２とを含み、上記検索モジュール４１６は、上記認識候補５１２の個々に対応する上記認識スコアに基づいて上記Ｎベストリスト５１０をランク付けすることを特徴とする請求項２１記載の音声検証方法。
上記擬似フィラスコア算出器６１８は、上記Ｎベストリスト５１０から上記最良の認識スコア及び上記バックグラウンドスコアを除く残りの認識スコアを解析することによって上記擬似フィラスコアを算出することを特徴とする請求項２１記載の音声検証方法。
上記擬似フィラスコア算出器６１８は、上記Ｎベストリスト５１０から選択された認識スコアのみを解析して上記擬似フィラスコアを算出することを特徴とする請求項２１記載の音声検証方法。
上記擬似フィラスコア算出器６１８は、上記Ｎベストリスト５１０から選択された認識スコアの算術平均を算出することによって上記擬似フィラスコアを算出することを特徴とする請求項２１記載の音声検証方法。
上記擬似フィラスコア算出器６１８は、上記擬似フィラスコアをＦとし、上記Ｎベストリスト５１０の「ｉ」番目の単語の認識スコアをＳ_ｉとし、上記Ｎベストリスト５１０のＮに等しい選択可能な整数をＮとして、以下の式に基づいて上記擬似フィラスコアを算出することを特徴とする請求項２１記載の音声検証方法。
上記擬似フィラスコア算出器６１８は、上記Ｎベストリスト５１０から上記バックグラウンドスコア及び上記最良の認識スコアを除外した後に算術平均を算出することによって上記擬似フィラスコアを算出することを特徴とする請求項２１記載の音声検証方法。
上記バックグラウンドスコアは、上記Ｎベストリスト５１０において最低にランク付けされた認識候補に対応する最悪のスコアに等しいことを特徴とする請求項２１記載の音声検証方法。
上記信頼度尺度算出器６２４は、上記擬似フィラスコアを、上記Ｎベストリスト５１０からの少なくとも１つの上記認識スコアと比較することによって上記信頼度尺度を算出することを特徴とする請求項２１記載の音声検証方法。
上記信頼度尺度算出器６２４は、上記擬似フィラスコアと、上記Ｎベストリスト５１０からの上記バックグラウンドスコアとの比を求めることによって上記信頼度尺度を算出することを特徴とする請求項２１記載の音声検証方法。
上記信頼度尺度算出器６２４は、上記最良の認識スコアから上記擬似フィラスコアを減算した差を上記最良の認識結果から上記バックグラウンドスコアを減算した差によって除算することによって上記信頼度尺度を算出することを特徴とする請求項２１記載の音声検証方法。
上記信頼度尺度算出器６２４は、上記信頼度尺度をＣＭとし、上記Ｎベストリスト５１０の第１の認識候補５１２（ａ）の最良の認識スコアをＳ_ｉとし、上記Ｎベストリスト５１０において最も低くランク付けされた認識候補５１２（ｃ）の最悪の認識スコアをＳ_Ｎとし、上記擬似フィラスコアをＦとして、以下の式に基づいて上記信頼度尺度を算出することを特徴とする請求項２１記載の音声検証方法。
上記比較器６２８は、閾値レジスタ２１６から上記閾値を選択的に読み出し、上記信頼度尺度を該閾値と比較し、上記最良の認識候補５１２（ａ）に対応する検証結果を生成することを特徴とする請求項２１記載の音声検証方法。
上記比較器６２８は、音声検証を効率的且つ経済的に実行するよう選択された単一の閾値を用いることを特徴とする請求項２１記載の音声検証方法。
上記閾値は、音声検証の実行にあたり所定の性能目標を最適に達成するために、複数の閾値オプションから選択されることを特徴とする請求項２１記載の音声検証方法。
上記比較器６２８は、それぞれが異なる最良の認識候補５１２（ａ）に対応する異なる閾値を選択的に用いることを特徴とする請求項２１記載の音声検証方法。
上記音声検証器４１４は、上記信頼度尺度が上記閾値を超えた場合、上記最良の認識候補５１２（ｃ）を有効であると認め、上記信頼度尺度が上記閾値を超えなかった場合、上記最良の認識候補５１２（ｃ）を無効であるとして除外することを特徴とする請求項２２記載の音声検証方法。
上記音声検証器４１４は、上記Ｎベストリスト５１０及び上記認識スコアを含む、上記検索モジュール４１６から供給される情報のみを単独に用いて音声検証を行うことを特徴とする請求項２２記載の音声検証方法。
発話に対応する認識候補５１２のＮベストリスト５１０を生成するステップと、
上記認識候補５１２に対応する認識スコアに基づいて擬似フィラスコアを算出するステップと、
上記擬似フィラスコアと、最悪の認識候補５１２（ｃ）のバックグラウンドスコアと、最良の認識候補５１２（ａ）の最良の認識スコアとに基づいて、信頼度尺度を算出するステップと、
上記信頼度尺度を閾値と比較して、上記最良の認識候補５１２（ａ）を検証するステップとを実行することにより音声検証を実行するプログラミング命令を有するコンピュータにより読取可能な媒体。
発話の音声検証を行う音声検証装置において、
上記発話に対応する認識候補５１２のＮベストリスト５１０を生成する生成手段と、
上記認識候補５１２に対応する認識スコアに基づいて擬似フィラスコアを算出する擬似フィラスコア算出手段と、
上記擬似フィラスコアと、最悪の認識候補５１２（ｃ）のバックグラウンドスコアと、最良の認識候補５１２（ａ）の最良の認識スコアとに基づいて、信頼度尺度を算出する信頼度尺度算出手段と、
上記信頼度尺度を閾値と比較して、上記最良の認識候補５１２（ａ）を検証する比較手段とを備える音声検証装置。
発話の音声検証を行う音声検証方法において、
擬似フィラスコアと、最悪の認識候補５１２（ｃ）のバックグラウンドスコアと、最良の認識候補５１２（ａ）の最良の認識スコアとに基づいて、信頼度尺度を算出するステップと、
上記信頼度尺度を閾値と比較して、上記最良の認識候補５１２（ａ）を検証するステップとを有する音声検証方法。
発話の音声検証を行う音声検証装置において、
上記発話に対応する認識候補５１２のＮベストリスト５１０を生成する検索モジュール４１６と、
上記検索モジュールに接続され、上記認識候補５１２に対応する認識スコアに基づき、上記擬似フィラスコアをＦとし、上記Ｎベストリスト５１０の「ｉ」番目の単語の認識スコアをＳ_ｉとし、上記Ｎベストリスト５１０のＮに等しい選択可能な整数をＮとして、以下の式を用いて上記擬似フィラスコアを算出する擬似フィラスコア算出器６１８と、

上記擬似フィラスコアと、最悪の認識候補５１２（ｃ）のバックグラウンドスコアと、最良の認識候補５１２（ａ）の最良の認識スコアとに基づいて、上記信頼度尺度をＣＭとし、上記Ｎベストリスト５１０の第１の認識候補５１２（ａ）の最良の認識スコアをＳ_ｉとし、上記Ｎベストリスト５１０において最も低くランク付けされた認識候補５１２（ｃ）の最悪の認識スコアをＳ_Ｎとし、上記擬似フィラスコアをＦとして、以下の式を用いて上記信頼度尺度を算出する信頼度尺度算出器６２４と、

上記信頼度尺度を閾値と比較して、上記最良の認識候補５１２（ａ）を検証する比較器６２８とを備える音声検証装置。