JP3703991B2

JP3703991B2 - 自由音声評点法を用いた動的音声認識の方法および装置

Info

Publication number: JP3703991B2
Application number: JP09951199A
Authority: JP
Inventors: ダブリュ．アーハートジョージ; エル．ハーチュングロナルド
Original assignee: ルーセントテクノロジーズインコーポレーテッド
Priority date: 1998-04-07
Filing date: 1999-04-07
Publication date: 2005-10-05
Anticipated expiration: 2019-04-07
Also published as: JPH11327585A; EP0949606A3; DE69937854T2; DE69937854D1; EP0949606B1; EP0949606A2; US6243678B1

Description

【０００１】
【発明の分野】
本発明は、一般に、音声認識の方法および装置に関し、更に特定すれば、自由音声評点法(free-phone scoring)を用いた動的音声認識の方法および装置に関する。
【０００２】
【従来の技術の説明】
顧客が銀行またはクレジット・カードの口座情報に対して電話でリモート・アクセスを行うことが一般的になっている。典型的に、顧客は、電話キーパッドによって口座番号を入力し、続けて個人識別番号（Ｐersonal Ｉdentification Ｎumber:ＰＩＮ）を入力する。アプリケーションは、指定された口座情報に自動的にアクセスし、入力されたＰＩＮを口座に格納されたものと比較する。ＰＩＮの間に一致があれば、アプリケーションは、顧客が口座情報に対するアクセスを開始できるようにする。一方、ＰＩＮが一致しない場合、アプリケーションは通常、口座の担当者に呼を転送する等、人の介入を求める。しばしば、顧客がＰＩＮを忘れてしまったためにＰＩＮが一致しない事態が起こる。従って、口座担当者は、顧客が口座にアクセスする権限を有することを識別するために、顧客の母親の旧姓のような「秘密パスワード」を要求しなければならない。かかる人の介入はコストが高く、担当者のチームが介入を待機することを必要とする。
【０００３】
典型的な音声認識システムは、かかる人の介入に取って代わるには不適切である。音声認識システムは、通常、あらゆる単語またはフレーズを表す音声テンプレートまたはモデルを格納するデータベースを含む。このシステムは、収集したデータ・サンプルから構成されるこれらのテンプレートまたはモデルを、受信した口頭の言葉と比較する。結果として、データベースは全ての可能な応答を備えていなければならず、従って、多数のデータ・サンプルの収集および検証を必要とする。顧客の応答が限られているアプリケーションで認識システムを採用する場合、かかるシステムは容認可能であり得る。顧客の応答が実質的に無限であるアプリケーションで認識システムを採用する場合、かかるシステムは許容できない。このため、多数のデータ・サンプルの収集および検証を必要としない改良された音声認識システムに対する必要性が存在する。
【０００４】
音声認識システムの分野で、改良が行われている。例えば、Bocchieri 等の米国特許番号第5,329,608 号は、改良された音声認識システムを対象としている。総じて言えば、Bocchieri は、単語テンプレートを生成するためデータの収集および検証が必要であるという問題に対処するために、予想応答を顧客がコンピュータに入力可能とする。一旦、顧客がキーボードを介して予想応答を入力すると、コンピュータは入力された単語各々の音声表記を生成する。音声表記の生成は、一般的な単語および関連する音声表記を含む辞書データベースにアクセスすることと、入力された単語およびその関連音声表記がすでに存在するか否かを判定することとを伴う。音声表記が存在しない場合、コンピュータは入力された単語をその関連音声表記と共に語彙集データベースに格納し始める。
【０００５】
口頭による単語の入力を受信すると、コンピュータは、１つ以上のサブワード・シーケンスを備えた単語のサブワード・モデルを構築する。各サブワードは、一連の音素からなる。一方、各音素は、別個の音を表す。
【０００６】
コンピュータは、サブワード・モデルを、語彙集データベース内の音声表記と比較して、口頭による入力が、音声表記に対応する入力された予想応答に「合致する」か否かを判定する。このシステムは、サブワード・モデルおよび音声表記の比較に信頼度認識係数を割り当てること、および、信頼度係数が所定の信頼度閾値を超えているか否かを判定することによって、合致が生じたと見なす。しかしながら、このシステムは、口頭によるデータが以前に入力されていない場合には、そのデータを認識することができない。従って、Bocchieri はシステムの容易なカスタマイズを可能とするものの、システムの顧客は、受信する可能性がある口頭データ全てをキーボードを介してシステムに入力可能であるように、それらを予め知っていなければならない。加えて、音声認識システムは信頼性が高くなければならない。従来、音声認識システムの精度を保証するには、サブワード・モデルを音声表記と比較する場合に高い信頼度閾値を設定する。かかる高い信頼度閾値によって、誤ったアクセスを許可しないことを保証する。しかしながら、多くの場合、高い閾値によって、システムは合致を全く見出さずに、認可されている顧客に対してアクセスを拒否するという間違いを犯す。個性の強い音声パターンおよび発音ならびに、多くの場合音素の混成を招く同時調音エラーは、これらの誤ったアクセス拒否の一因となるファクターである。こういった同じ要因が、誤ったアクセス許可の一因となる。
【０００７】
音声認識システムのあるものは、これらの個性の強い音声パターンおよび発音を利用することによって信頼性を保証する。更に具体的には、こういったシステムは、音声表記を利用して訓練済みサブワード・モデル・データベースを生成する。この訓練済みサブワード・モデル・データベースは、顧客依存の音素からなる。信頼性は改善されるが、このシステムは、セットアップおよび動作の費用が高い。
【０００８】
具体的には、訓練済みサブワード・モデル・データベースを設けることは、事前登録を必要とする。通常、訓練において、顧客は、全てではないがほとんどの音素を含む単語を含むいくつかの文章を復唱することを要求される。文章は、顧客依存サブワード・データベースで用いるために、音素に分割されている。このシステムは、ほとんどまたは全ての音素の訓練を伴うので、システムを再訓練することなく秘密パスワードを変更可能であるという利点がある。しかしながら、このシステムは、セットアップおよび動作のコストが高いという欠点を有する。追加の費用は、各訓練済みサブワード・データベースの作成のみならず、音声認識システム全体の作成においても生じる。なぜなら、各顧客毎に別個の顧客依存モデルを生成しなければならないからである。
【０００９】
訓練済みサブワード・モデルを用いた別のタイプの音声認識システムは、秘密パスワードおよびそれに含まれる特定の音素のみを訓練することを伴う。このタイプのシステムは、実施するコストが低い。なぜなら、全ての音素を含む訓練済みサブワード・データベースは必要ないからである。その代わり、事前登録で必要なのは、秘密パスワードの訓練のみである。しかしながら、特定の秘密パスワードのみを訓練するので、パスワードのいかなる変更も、新しいパスワードの再登録および再訓練を必要とする。この場合も、システムはセットアップおよび動作の費用が高い。このため、訓練済みサブワード・データベースを用いるシステムは信頼性が高いが、やや非実用的である。改良された音声認識システム、特に事前登録を必要としないシステムに対する必要性は満足されないままである。
【００１０】
【発明の概要】
これらの必要性は、音声発声を所定の音声単位として認識する方法によって満足される。この方法は、音声発声の自由音声モデル(free-phone model)を生成することと、自由音声モデルが音声発声を正確に表す確度を表す自由音声スコア(free-phone score)を計算することとを含む。この方法は、更に、そのスコアに基づいて、音声発声が所定の音声単位に合致するか否かを判定することを含む。代替的な実施例では、音声発声が所定の音声単位に合致するか否かの判定は、ワード・スコアおよび自由音声スコア双方に基づいて行われる。また、音声発声を所定の音声単位として認識するシステムも提供する。
【００１１】
【発明の詳細な記述】
以下に論じる好ましい実施例は、口座情報に対するリモート・アクセスを管理する状況におけるものであるが、本発明の音声認識システムが他の用途にも等しく適用されることは、当業者には明らかであろう。これより、図面を参照して、本発明のいくつかの好ましい実施例について説明する。
【００１２】
図１を参照して、本発明の一実施例による音声認識システム１０の物理的な構成要素について説明する。全体として、音声認識システム１０は、ディスプレイ１２０およびキーボード１３０を有するコンピュータ１００を備えている。更に詳しくは、コンピュータ１００は、中央処理装置（Ｃentral Ｐrocessing Ｕnit：ＣＰＵ）１４０、メモリ１５０、データ記憶装置１６０、およびインタフェース・ユニット１７０を含む。ＣＰＵ１４０、メモリ１５０、データ記憶装置１６０、およびインタフェース・ユニット１７０は、データ、アクセス、および制御ライン８０によって接続されている。
【００１３】
メモリ１５０には、ＣＰＵ１４０の動作を制御するいくつかのプログラムが格納されている。メモリ１５０は、サブワード・スペル生成プログラム１５２、自動音声認識（Ａutomatic Ｓpeech Ｒecognition:ＡＳＲ）アルゴリズム・プログラム１５４、判別プログラム１５６、および自由音声モデル生成プログラム１５８を含む。これらのプログラムは、ここでは別個のプログラムとして図示し説明するが、かかるプログラムがそのように分割されていることは必須ではないことは理解されよう。したがって、代替的な実施例では、これらのプログラムの機能性は、単一のプログラムによって与えられる。同様に、別の代替的な実施例では、これらのプログラムの機能性は、５つ以上のプログラムによって与えられる。概して、これらのプログラムはＣＰＵ１４０を制御し、一方ＣＰＵ１４０は、データ記憶装置１６０にアクセスして情報を受信および格納する。
【００１４】
データ記憶装置１６０は、ＣＰＵ１４０がアクセスする２つのデータベースを備える。第１に、データ記憶装置１６０は顧客データベース１６２を含む。顧客データベース１６２は多数のレコードを含み、各レコードは特定の顧客に関する情報を含む。例えば、本発明の音声認識システム１を用いて銀行口座の情報に対するアクセスを管理する場合、顧客データベース１６２は、顧客の口座番号、ＰＩＮおよび顧客の母親の旧姓のような顧客識別情報、ならびに利用可能残金のような口座情報を有するフィールドを含む。他の情報には、請求額、最後の支払日、および支払期日が含まれる場合がある。
【００１５】
第２に、データベース１６０はサブワード・モデル・データベース１６４を含む。サブワード・モデル・データベース１６４は、全ての可能な音素を格納する。各音素は、単一の音を表す。例えば、英語では、音素は、「ｃｏｔ」の中に「ａｈ」を含み、「ｈａｙ」の中に「ａｙ」を含み、「ｔｏｏｌ」の中に「ｏｏ」を含み、「ｏｌｄ」の中に「ｏｈ」を含み、「ｃｈｅｃｋ」の中に「ｃｈ」を含み、「ｃｏｗ」の中に「ｋ」を含む。以下に論じるように、サブワード・スペル生成プログラム１５２および自由音声スペル生成プログラム５８は、サブワード・モデル・データベース１６４にアクセスし、これらの音素を用いて、単語のサブワード・スペルを生成する。
【００１６】
最後に、コンピュータ１００は、インタフェース・ユニット１７０を含む。インタフェース・ユニット１７０は、銀行の口座担当者が、顧客データベース１６２に格納するため、キーボード１３０を介して情報を入力することを可能にする。同様に、インタフェース・ユニット１７０は、ＣＰＵ１４０がコンピュータ・ディスプレイ１２０上に情報を表示することを可能にする。更に、インタフェース・ユニット１７０は、外部の電話１９０がコンピュータ１００と通信し得る手段を与える。電話１９０の動作は、通常、顧客データベース１６２に格納された口座情報にアクセスするために顧客が遠隔位置から発呼することによって行われる。
【００１７】
代替的な実施例では、ＡＳＲアルゴリズム・プログラム１５４が設けられ、第２の専用ＣＰＵに結合されている。一方、専用ＣＰＵは、データ、アクセス、および制御ライン８０に結合されて、専用ＣＰＵが入力を受け取り、出力をシステム１の他の構成要素に送出し得るようになっている。
【００１８】
概して、以下で更に詳細に説明するように、顧客が電話１９０を介してシステム１０にアクセスすると、システム１０は顧客に特定の音声の発声を要求する。要求された音声発声は、顧客データベース１６２に格納された特定の識別情報に合致する。例えば、システム１０は、顧客に対し、この特定の顧客に関連する顧客データベースに格納されている顧客の母親の旧姓を言うように要求する場合がある。システム１０は、音声発声が顧客データベース１６２内に格納された情報と合致するか否かを判定するために、顧客データベース１６２内に格納されたデータおよび顧客から受信した音声発声の双方の処理を開始する。
【００１９】
これより、図２および引き続き図１を参照して、システム１０の動作について更に詳細に説明する。図２のステップ２１０に示すように、システム１０は最初に電話１９０を介した顧客の呼を受ける。顧客の呼を受けると、システムは次いで顧客に対し身元証明を要求する。かかる身元証明は通常、顧客の口座番号に対する要求を含む。この要求はシステム１０によって自動的に行うことができ、顧客は、プッシュホン・パッドまたは口頭による入力で口座番号を入力するだけで良い。このため、人の介入は不要である。
【００２０】
ステップ２２０に示すようにシステム１０が身元証明を要求すると、システム１０は次に、受信した口座番号によって識別した顧客データベース１６２内のレコードの検索およびこれに対するアクセスを開始する。先に言及したように、本実施例では、顧客データベース１６２は、顧客の母親の旧姓からなる文字列に関する情報フィールドを含む。しかしながら、秘密パスワードは、サービス・プロバイダによる選択に応じて、顧客の住所等の一般的に知られる情報を含むいかなる所定の情報を含んでも良いことは理解されよう。ＣＰＵ１４０は、母親の旧姓を読み取る。顧客データベース１６２に格納された実際の旧姓は、ステップ１１０で顧客の呼を受ける前に、キーボード１３０を介して銀行の従業員が入力してあり、データベース１６２に格納されている。顧客データベース１６２の検索およびアクセスは、ステップ２３０に示されている。
【００２１】
ステップ２３０でシステム１０がカスタム・データベース１６２にアクセスすると、システムは次に、格納された旧姓のサブワード・スペルを生成する。ステップ２４０では、サブワード・スペル生成プログラム１５２によって、ＣＰＵ１４０は、サブワード・モデル・データベース１６４にアクセスする。ステップ２３０でカスタム・データベース１６２から旧姓を読み取った後、ＣＰＵ１４０は、一連の音素からなるサブワード・モデルの構築を開始する。
【００２２】
一実施例では、システム１０は、ステップ２１０で識別した顧客の呼を受信する前に、格納された旧姓のサブワード・スペルを生成する。サブワード・スペルは、顧客データベース１６２の形成時に生成し、データベース１６２の部分として格納する。このようにして、顧客の呼の受信時のシステム１の速度を増す。
【００２３】
次にステップ２５０を見ると、システム１０は音声発声の要求および受信を開始する。要求される特定の音声発声は、顧客データベース１６２に格納された情報の種類に依存する。本実施例では、システム１０は、顧客に、母親の旧姓を言うように要求する。
【００２４】
ステップ２５０に示すようにシステム１０が音声発声を受信すると、システム１０は次に、音声発声の自由音声モデルの生成を開始する。ステップ２６０における自由音声モデルの生成は、ＣＰＵ１４０によって、自由音声モデル生成プログラム５８が制御するように実行される。モデルにおける音素の数（以下で論じる）以外は、自由音声モデルは、顧客データベース１６２に格納された情報とは独立して生成する。換言すると、システム１０は、音声発声のみに基づいて自由音声モデルを動的に生成する。
【００２５】
一般的には、音声発声を自由音声モデルに変換することは、文字列に基づいたサブワード・モデルと同数の音素からなる音素列を生成することを伴う。音声発声を受け取ると、それは観察ベクトルに分割される。各観察ベクトルは、個別の時間単位を表す。ＣＰＵ１４０は、サブワード・モデル・データベース１６４にアクセスすることによって、各観察ベクトルで受信した周波数情報を、個々の音素を表す周波数情報の既知の統計的モデルと比較する。
【００２６】
個性の強い音声パターンおよび発音によって音素の混成が生じるために、自由音声モデルの生成は不正確である。換言すると、自由音声モデルの生成は、性質上蓋然的であり、自由音声モデルが実際の音声発声を正確に表す確度が存在する。統計的性質および自由音声モデルの生成は、R.C.Rose、E.Lleida、G.W.Erhart、およびR.V.Grubbeによる「音声ラベル認識のための顧客構成可能システム(A Customer-Configurable System For Voice Label Recognition)」において詳細に記載されている。これは、引用により本願にも含まれるものとする。このため、ＣＰＵ１４０は、統計的モデルが、所与の観察ベクトルについて受信した情報と非常に密接に合致するか否かを判定しなければならない。
【００２７】
この比較は、受信した各観察ベクトル毎に繰り返す。ＣＰＵ１４０は、合致する統計的モデルに対応する各音素を一続きにすることによって、自由音声モデルを生成する。しかしながら、本実施例では、自由音声モデルの長さが、旧姓の文字列からなる音素の数に制限されることを注記しておく。このため、自由音声モデルは、長さＮの最適な音素列である。ここで、Ｎは、文字列のサブワード・スペルにおける音素の長さである。
【００２８】
ステップ２７０に示すように、システム１０は、自由音声モデルが実際の音声発声を正確に表す確度に基づいて、自由音声スコアを得る。更に具体的には、自由音声スコアは、発声として受信した情報と、その発声に合致する統計的音素モデルに含まれる情報との間の全体的な差を表す。このため、自由音声スコアが低ければ低いほど、自由音声モデルが音声発声を正確に表す確度が高くなる。
【００２９】
格納された旧姓のサブワード・スペルによって、システム１０は、ステップ２８０で、ワード・スコアの計算を開始する。ワード・スコアは、強制語彙集スコア(forced-lexicon score)とも呼ぶが、文字列のサブワード・スペルが受信音声発声と合致する確度を表す。更に具体的には、本実施例では、ワード・スコアは、音声発声の各観察ベクトルに含まれる情報と、文字列のサブワード・スペルからなる対応する統計的音素モデルの情報との差の総和を表す。このため、ワード・スコアが低ければ低いほど、受信した情報と統計的情報との間の差は小さくなり、音声発声が文字列に合致する確度が高くなる。
【００３０】
このように自由音声スコアおよびワード・スコア双方を計算したなら、システム１０は、ステップ２９０において、顧客データベース１６２に格納された情報に顧客をアクセス可能とするために、音声発声が、格納された旧姓と十分に合致するか否かを判定する。具体的には、判別アルゴリズム・プログラム１５６によって、ＣＰＵ１４０は、自由音声スコアおよびワード・スコア双方に基づいて、受信した音声発声が顧客の母親の旧姓の格納文字列に合致するか否かを判定する。
【００３１】
これより、図３および引き続き図２を参照して、図２のステップ２９０について更に詳細に説明する。最初のステップとして、受信発声と格納文字列との間に合致があるか否かを判定する。ＣＰＵ１４０は、ステップ３１０において、ワード・スコアを自由音声スコアと比較する。ワード・スコアが自由音声スコアよりも高い場合、ＣＰＵ１４０は、ステップ３２０で、受信した発声が格納された文字列に合致すると判定する。このため、顧客は、口座に関する受信情報に対する許可を与えられる。
【００３２】
一方、ワード・スコアが自由音声スコアよりも低い場合は、ステップ３３０において、ＣＰＵ１４０は、自由音声スコアを２で割る。ＣＰＵ１４０は、ステップ３４０に進み、ワード・スコアが自由音声スコアの１／２よりも高いか否かを判定する。ステップ３５０に示すように、ワード・スコアが２で割った自由音声スコアの１／２よりも高い場合、ＣＰＵ１４０は、受信した発声が、格納された文字列に合致すると認識する。このため、システム１０は、顧客に対し、顧客データベース１６２の特定のレコードに格納された情報に対するアクセスを与える。
【００３３】
ワード・スコアが自由音声スコアの１／２よりも低い場合、ステップ３６０において、システム１０は、合致が存在しないこと、および顧客が許可を与えられないことを判定する。合致が存在しない場合、システム１０は、好ましくは、再びステップ２５０からの動作を繰り返し、不明瞭な発声による誤ったアクセス拒否を解消する。実験によって、図２および図３によるシステム１０の動作は、約９５％の正しい合格率および０％の不正確な合格率を生じることが示されている。
【００３４】
ワード・スコアを自由音声スコアの１／２以外の端数と比較する代替的な実施例は、本発明の範囲内であることは理解されよう。加えて、代替的な実施例では、発声と文字列との間に合致があるか否かの判定は、図３のステップ３１０の比較のみを必要とする。
【００３５】
代替的な実施例では、判別アルゴリズム・プログラム１５６は、自由音声スコアとワード・スコアとの差の絶対値を表す信頼度スコアを生成する。かかる実施例では、信頼度スコアが低ければ低いほど、音声発声が文字列に合致する確度が高くなる。別の代替的な実施例では、信頼度認識スコアが、ワード・スコアおよび自由音声スコアの重み付け平均を表す。ＣＰＵ１４０は、この信頼度認識スコアを所定の信頼度認識閾値と比較する。信頼度スコアが閾値よりも低い場合、システム１０は、音声発声と格納された旧姓とが合致すると判定する。この結果、口座情報に対するアクセスが許可される。
【００３６】
一方、ＣＰＵ１４０が、信頼度認識スコアが閾値よりも高いと判定した場合には、システム１は合致を見出さない。口座情報に対する顧客のアクセスは拒否される。
【００３７】
代替的な実施例では、システムは、自由音声モデルおよび自由音声スコアのみを生成する。かかる実施例の１つでは、システムは、自由音声スコアを閾値と比較することによって、受信した発声が格納されている音声単位と一致するか否かを判定する。
【００３８】
いくつかの好ましい実施例に関して本発明を説明したが、他の実施例も等しく本発明の範囲内であることは理解されよう。従って、本発明の範囲は、添付された請求の範囲によってのみ限定されることを意図するものである。
【図面の簡単な説明】
【図１】本発明の一実施例による音声認識システムの全体的な概略を示す図である。
【図２】図１の音声認識システムの動作の全体的なフロー・チャートを示す図である。
【図３】図２のステップ２９０の一実施例の詳細なフロー・チャートを示す図である。

Claims

音声発声を所定の音声単位として認識する方法において、該方法は、
顧客から身元証明を要求しかつ受信する段階と、
該身元証明を求めて、文字列として所定の音声単位が記憶される顧客記録を検索するために顧客データベースにアクセスする段階と、
該文字列のサブワード・スペルを複数の音素を格納するサブワード・モデル・データベースにアクセスすることによって生成する段階とからなり、前記所定の音声単位は前記顧客記録に文字列として記憶されており、各音素は音を表し、前記文字列に対応する一連の音素からなるサブワード・モデルを構築しており、前記サブワード・モデル・データベースはすべての顧客に対して共通であり、該方法はさらに、
前記所定の音声単位を発声するよう前記顧客に要求しかつ該顧客から音声発声を受信する段階と、
音声発声を個別の時間単位を示す観察ベクトルに分割し、各観察ベクトルの周波数情報とサブワード・モデル・データベースに記憶される既知の音素の周波数情報の既知の統計モデルとを比較して前記観察ベクトルに合致する音素列を生成することによって、該顧客データベースへアクセスすることなく、音声発声の自由音声モデルを生成する段階と、
音声発声の各観察ベクトルの周波数情報と自由音声モデルの合致した各音素の周波数情報との間の差の総和を判定することによって、該自由音声モデルが音声発声を正確に表す確度を示す自由音声スコアを計算する段階と、
前記音声発声の各観察ベクトルの周波数情報とサブワード・モデル内の各音素の周波数情報との間の差の総和を判定することによって、該サブワード・スペルが該音声発声を正確に表す確度を示すワード・スコアを計算する段階と、
該自由音声スコアと該ワード・スコアとを比較することによって、該ワード・スコアおよび該自由音声スコアに基づく信頼度スコアを計算することによって、音声発生が所定の音声単位に合致するかどうかを該自由音声スコアおよび該ワード・スコアに基づいて判定する段階とからなることを特徴とする方法。
請求項１に記載の方法において、
該信頼度スコアを信頼度スコア閾値と比較する段階をさらに含むことを特徴とする方法。
請求項２に記載の方法において、該信頼度スコアを計算する段階は、該ワード・スコアおよび該自由音声スコアの重み付け平均を計算する段階を含むことを特徴とする方法。
請求項１に記載の方法において、該判定する段階は、該ワード・スコアと該自由音声スコアとの差を判定する段階を含むことを特徴とする方法。
コンピュータ読み取り可能プログラムコード手段を有するコンピュータ読み取り可能媒体において、該コンピュータ読み取り可能プログラムコード手段は、
顧客から身元証明を要求しかつ受信する手段と、
該身元証明を求めて、文字列として所定の音声単位が記憶される顧客記録を検索するために顧客データベースにアクセスする手段と、
該文字列のサブワード・スペルを複数の音素を格納するサブワード・モデル・データベースにアクセスすることによって生成する手段とからなり、所定の音声単位は前記顧客記録に文字列として記憶されており、各音素は音を表し、前記文字列に対応する一連の音素からなるサブワード・モデルを構築しており、前記サブワード・モデル・データベースはすべての顧客に対して共通であり、該該コンピュータ読み取り可能プログラムコード手段はさらに、
前記所定の音声単位を発声するよう前記顧客に要求しかつ該顧客から音声発声を受信する手段と、
音声発声を個別の時間単位を示す観察ベクトルに分割し、各観察ベクトルの周波数情報とサブワード・モデル・データベースに記憶される既知の音素の周波数情報の既知の統計モデルとを比較して前記観察ベクトルに合致する音素列を生成することによって、該顧客データベースへアクセスすることなく、音声発声の自由音声モデルを生成する手段と、
音声発声の各観察ベクトルの周波数情報と自由音声モデルの合致した各音素の周波数情報との間の差の総和を判定することによって、自由音声スコアを生成する手段と、
該自由音声スコアに基づいて該発声が音声単位に合致するか否かを判定する手段とからなり、
該コンピュータ読み取り可能なプログラムコード手段はさらに、前記音声発声の各観察ベクトルの周波数情報とサブワード・モデル内の各音素の周波数情報との間の差の総和を判定することによって、ワード・スコアを生成する手段を含み、該判定する手段は、該自由音声スコアおよび該ワード・スコアに基づいて、該発声が該音声単位に合致するかどうかを判定することを特徴とするコンピュータ読み取り可能媒体。
音声単位の表現が格納されたメモリ・デバイスと、
該メモリ・デバイスに結合されたプロセッサとからなる装置であって、該プロセッサは、顧客から身元証明を要求しかつ受信し、
該身元証明を求めて、文字列として所定の音声単位が記憶される顧客記録を検索するために顧客データベースにアクセスし、そして、
該文字列のサブワード・スペルを複数の音素を格納するサブワード・モデル・データベースにアクセスすることによって生成するように構成されており、前記音声単位は前記顧客記録に文字列として記憶されており、各音素は音を表し、前記文字列に対応する一連の音素からなるサブワード・モデルを構築しており、前記サブワード・モデル・データベースはすべての顧客に対して共通であり、該装置はさらに、
前記所定の音声単位を発声するよう前記顧客に要求しかつ該顧客から音声発声を受信し、
音声発声を個別の時間単位を示す観察ベクトルに分割し、各観察ベクトルの周波数情報とサブワード・モデル・データベースに記憶される既知の音素の周波数情報の既知の統計モデルとを比較して前記観察ベクトルに合致する音素列を生成することによって、該顧客データベースへアクセスすることなく、音声発声の自由音声モデルを生成し、
前記音声発声の各観察ベクトルの周波数情報とサブワード・モデル内の各音素の周波数情報との間の差の総和を判定することによって、自由音声スコアを生成するよう構成され、そして該プロセッサはさらに、該自由音声スコアに基づいて該音声発声が該音声単位であるか否かを判定するように構成されており、該装置はさらに、
該音声発声を受信する、該プロセッサに結合された入力デバイスからなり、
該プロセッサはさらに、前記音声発声の各観察ベクトルの周波数情報とサブワード・モデル内の各音素の周波数情報との間の差の総和を判定することによって、ワード・スコアを生成し、かつ該音声発声が該所定の音声単位であるかどうかを判定しており、
該プロセッサは、該ワード・スコアと該自由音声スコアとを比較して、該ワード・スコアが該自由音声スコアよりも大きいかどうかを判定することを特徴とする装置。
請求項６に記載の装置において、該プロセッサは更に、該ワード・スコアを該自由音声スコアの端数と比較するように構成されていることを特徴とする装置。
請求項７に記載の装置において、該端数は２分の１であることを特徴とする装置。
請求項６の装置において、該音声単位の表現は、該音声単位のサブワード・スペルであることを特徴とする装置。
音声発声を所定の音声単位として認識する音声認識システムにおいて、該システムは、
顧客から身元証明を要求しかつ受信する手段と、
該身元証明を求めて、文字列として所定の音声単位が記憶される顧客記録を検索するために顧客データベースにアクセスする手段とからなり、
所定の音声単位は、前記顧客記録に文字列として記憶されており、前記システムはさらに、
該文字列のサブワード・スペルを生成する手段と、
複数の音素を格納するサブワード・モデル・データベースにアクセスする手段とからなり、各音素は音を表し、前記文字列に対応する一連の音素からなるサブワード・モデルを構築しており、前記サブワード・モデル・データベースはすべての顧客に対して共通であり、該システムはさらに、
前記所定の音声単位を発声するよう前記顧客に要求しかつ該顧客から音声発声を受信する手段と、
音声発声を個別の時間単位を示す観察ベクトルに分割し、各観察ベクトルの周波数情報とサブワード・モデル・データベースに記憶される既知の音素の周波数情報の既知の統計モデルとを比較して前記観察ベクトルに合致する音素列を生成することによって、該顧客データベースへアクセスすることなく、音声発声の自由音声モデルを生成する手段と、
音声発声の各観察ベクトルの周波数情報と自由音声モデルの合致した各音素の周波数情報との間の差の総和を判定することによって、該自由音声モデルが音声発声を正確に表す確度を示す自由音声スコアを計算する手段と、
前記音声発声の各観察ベクトルの周波数情報とサブワード・モデル内の各音素の周波数情報との間の差の総和を判定することによって、該サブワード・スペルが該音声発声を正確に表す確度を示すワード・スコアを計算する手段と、
（ｉ）該自由音声スコアと該ワード・スコアとを比較することによって、そして（ｉｉ）該ワード・スコアが該自由音声スコアよりも大きくない場合には、該ワード・スコアと該自由音声スコアの端数とを比較することによって該ワード・スコアおよび該自由音声スコアに基づいて信頼度スコアを計算することによって、音声発生が所定の音声単位に合致するかどうかを該自由音声スコアおよび該ワード・スコアに基づいて判定する手段とからなることを特徴とする音声認識システム。