JP3703991B2 - 自由音声評点法を用いた動的音声認識の方法および装置 - Google Patents
自由音声評点法を用いた動的音声認識の方法および装置 Download PDFInfo
- Publication number
- JP3703991B2 JP3703991B2 JP09951199A JP9951199A JP3703991B2 JP 3703991 B2 JP3703991 B2 JP 3703991B2 JP 09951199 A JP09951199 A JP 09951199A JP 9951199 A JP9951199 A JP 9951199A JP 3703991 B2 JP3703991 B2 JP 3703991B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- score
- customer
- utterance
- subword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 13
- 238000013077 scoring method Methods 0.000 title 1
- 239000013598 vector Substances 0.000 claims description 22
- 238000013179 statistical model Methods 0.000 claims description 7
- 230000004044 response Effects 0.000 description 6
- 238000013500 data storage Methods 0.000 description 5
- 230000001755 vocal effect Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 1
- 238000013502 data validation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の分野】
本発明は、一般に、音声認識の方法および装置に関し、更に特定すれば、自由音声評点法(free-phone scoring)を用いた動的音声認識の方法および装置に関する。
【0002】
【従来の技術の説明】
顧客が銀行またはクレジット・カードの口座情報に対して電話でリモート・アクセスを行うことが一般的になっている。典型的に、顧客は、電話キーパッドによって口座番号を入力し、続けて個人識別番号(Personal Identification Number:PIN)を入力する。アプリケーションは、指定された口座情報に自動的にアクセスし、入力されたPINを口座に格納されたものと比較する。PINの間に一致があれば、アプリケーションは、顧客が口座情報に対するアクセスを開始できるようにする。一方、PINが一致しない場合、アプリケーションは通常、口座の担当者に呼を転送する等、人の介入を求める。しばしば、顧客がPINを忘れてしまったためにPINが一致しない事態が起こる。従って、口座担当者は、顧客が口座にアクセスする権限を有することを識別するために、顧客の母親の旧姓のような「秘密パスワード」を要求しなければならない。かかる人の介入はコストが高く、担当者のチームが介入を待機することを必要とする。
【0003】
典型的な音声認識システムは、かかる人の介入に取って代わるには不適切である。音声認識システムは、通常、あらゆる単語またはフレーズを表す音声テンプレートまたはモデルを格納するデータベースを含む。このシステムは、収集したデータ・サンプルから構成されるこれらのテンプレートまたはモデルを、受信した口頭の言葉と比較する。結果として、データベースは全ての可能な応答を備えていなければならず、従って、多数のデータ・サンプルの収集および検証を必要とする。顧客の応答が限られているアプリケーションで認識システムを採用する場合、かかるシステムは容認可能であり得る。顧客の応答が実質的に無限であるアプリケーションで認識システムを採用する場合、かかるシステムは許容できない。このため、多数のデータ・サンプルの収集および検証を必要としない改良された音声認識システムに対する必要性が存在する。
【0004】
音声認識システムの分野で、改良が行われている。例えば、Bocchieri 等の米国特許番号第5,329,608 号は、改良された音声認識システムを対象としている。総じて言えば、Bocchieri は、単語テンプレートを生成するためデータの収集および検証が必要であるという問題に対処するために、予想応答を顧客がコンピュータに入力可能とする。一旦、顧客がキーボードを介して予想応答を入力すると、コンピュータは入力された単語各々の音声表記を生成する。音声表記の生成は、一般的な単語および関連する音声表記を含む辞書データベースにアクセスすることと、入力された単語およびその関連音声表記がすでに存在するか否かを判定することとを伴う。音声表記が存在しない場合、コンピュータは入力された単語をその関連音声表記と共に語彙集データベースに格納し始める。
【0005】
口頭による単語の入力を受信すると、コンピュータは、1つ以上のサブワード・シーケンスを備えた単語のサブワード・モデルを構築する。各サブワードは、一連の音素からなる。一方、各音素は、別個の音を表す。
【0006】
コンピュータは、サブワード・モデルを、語彙集データベース内の音声表記と比較して、口頭による入力が、音声表記に対応する入力された予想応答に「合致する」か否かを判定する。このシステムは、サブワード・モデルおよび音声表記の比較に信頼度認識係数を割り当てること、および、信頼度係数が所定の信頼度閾値を超えているか否かを判定することによって、合致が生じたと見なす。しかしながら、このシステムは、口頭によるデータが以前に入力されていない場合には、そのデータを認識することができない。従って、Bocchieri はシステムの容易なカスタマイズを可能とするものの、システムの顧客は、受信する可能性がある口頭データ全てをキーボードを介してシステムに入力可能であるように、それらを予め知っていなければならない。加えて、音声認識システムは信頼性が高くなければならない。従来、音声認識システムの精度を保証するには、サブワード・モデルを音声表記と比較する場合に高い信頼度閾値を設定する。かかる高い信頼度閾値によって、誤ったアクセスを許可しないことを保証する。しかしながら、多くの場合、高い閾値によって、システムは合致を全く見出さずに、認可されている顧客に対してアクセスを拒否するという間違いを犯す。個性の強い音声パターンおよび発音ならびに、多くの場合音素の混成を招く同時調音エラーは、これらの誤ったアクセス拒否の一因となるファクターである。こういった同じ要因が、誤ったアクセス許可の一因となる。
【0007】
音声認識システムのあるものは、これらの個性の強い音声パターンおよび発音を利用することによって信頼性を保証する。更に具体的には、こういったシステムは、音声表記を利用して訓練済みサブワード・モデル・データベースを生成する。この訓練済みサブワード・モデル・データベースは、顧客依存の音素からなる。信頼性は改善されるが、このシステムは、セットアップおよび動作の費用が高い。
【0008】
具体的には、訓練済みサブワード・モデル・データベースを設けることは、事前登録を必要とする。通常、訓練において、顧客は、全てではないがほとんどの音素を含む単語を含むいくつかの文章を復唱することを要求される。文章は、顧客依存サブワード・データベースで用いるために、音素に分割されている。このシステムは、ほとんどまたは全ての音素の訓練を伴うので、システムを再訓練することなく秘密パスワードを変更可能であるという利点がある。しかしながら、このシステムは、セットアップおよび動作のコストが高いという欠点を有する。追加の費用は、各訓練済みサブワード・データベースの作成のみならず、音声認識システム全体の作成においても生じる。なぜなら、各顧客毎に別個の顧客依存モデルを生成しなければならないからである。
【0009】
訓練済みサブワード・モデルを用いた別のタイプの音声認識システムは、秘密パスワードおよびそれに含まれる特定の音素のみを訓練することを伴う。このタイプのシステムは、実施するコストが低い。なぜなら、全ての音素を含む訓練済みサブワード・データベースは必要ないからである。その代わり、事前登録で必要なのは、秘密パスワードの訓練のみである。しかしながら、特定の秘密パスワードのみを訓練するので、パスワードのいかなる変更も、新しいパスワードの再登録および再訓練を必要とする。この場合も、システムはセットアップおよび動作の費用が高い。このため、訓練済みサブワード・データベースを用いるシステムは信頼性が高いが、やや非実用的である。改良された音声認識システム、特に事前登録を必要としないシステムに対する必要性は満足されないままである。
【0010】
【発明の概要】
これらの必要性は、音声発声を所定の音声単位として認識する方法によって満足される。この方法は、音声発声の自由音声モデル(free-phone model)を生成することと、自由音声モデルが音声発声を正確に表す確度を表す自由音声スコア(free-phone score)を計算することとを含む。この方法は、更に、そのスコアに基づいて、音声発声が所定の音声単位に合致するか否かを判定することを含む。代替的な実施例では、音声発声が所定の音声単位に合致するか否かの判定は、ワード・スコアおよび自由音声スコア双方に基づいて行われる。また、音声発声を所定の音声単位として認識するシステムも提供する。
【0011】
【発明の詳細な記述】
以下に論じる好ましい実施例は、口座情報に対するリモート・アクセスを管理する状況におけるものであるが、本発明の音声認識システムが他の用途にも等しく適用されることは、当業者には明らかであろう。これより、図面を参照して、本発明のいくつかの好ましい実施例について説明する。
【0012】
図1を参照して、本発明の一実施例による音声認識システム10の物理的な構成要素について説明する。全体として、音声認識システム10は、ディスプレイ120およびキーボード130を有するコンピュータ100を備えている。更に詳しくは、コンピュータ100は、中央処理装置(Central Processing Unit:CPU)140、メモリ150、データ記憶装置160、およびインタフェース・ユニット170を含む。CPU140、メモリ150、データ記憶装置160、およびインタフェース・ユニット170は、データ、アクセス、および制御ライン80によって接続されている。
【0013】
メモリ150には、CPU140の動作を制御するいくつかのプログラムが格納されている。メモリ150は、サブワード・スペル生成プログラム152、自動音声認識(Automatic Speech Recognition:ASR)アルゴリズム・プログラム154、判別プログラム156、および自由音声モデル生成プログラム158を含む。これらのプログラムは、ここでは別個のプログラムとして図示し説明するが、かかるプログラムがそのように分割されていることは必須ではないことは理解されよう。したがって、代替的な実施例では、これらのプログラムの機能性は、単一のプログラムによって与えられる。同様に、別の代替的な実施例では、これらのプログラムの機能性は、5つ以上のプログラムによって与えられる。概して、これらのプログラムはCPU140を制御し、一方CPU140は、データ記憶装置160にアクセスして情報を受信および格納する。
【0014】
データ記憶装置160は、CPU140がアクセスする2つのデータベースを備える。第1に、データ記憶装置160は顧客データベース162を含む。顧客データベース162は多数のレコードを含み、各レコードは特定の顧客に関する情報を含む。例えば、本発明の音声認識システム1を用いて銀行口座の情報に対するアクセスを管理する場合、顧客データベース162は、顧客の口座番号、PINおよび顧客の母親の旧姓のような顧客識別情報、ならびに利用可能残金のような口座情報を有するフィールドを含む。他の情報には、請求額、最後の支払日、および支払期日が含まれる場合がある。
【0015】
第2に、データベース160はサブワード・モデル・データベース164を含む。サブワード・モデル・データベース164は、全ての可能な音素を格納する。各音素は、単一の音を表す。例えば、英語では、音素は、「cot」の中に「ah」を含み、「hay」の中に「ay」を含み、「tool」の中に「oo」を含み、「old」の中に「oh」を含み、「check」の中に「ch」を含み、「cow」の中に「k」を含む。以下に論じるように、サブワード・スペル生成プログラム152および自由音声スペル生成プログラム58は、サブワード・モデル・データベース164にアクセスし、これらの音素を用いて、単語のサブワード・スペルを生成する。
【0016】
最後に、コンピュータ100は、インタフェース・ユニット170を含む。インタフェース・ユニット170は、銀行の口座担当者が、顧客データベース162に格納するため、キーボード130を介して情報を入力することを可能にする。同様に、インタフェース・ユニット170は、CPU140がコンピュータ・ディスプレイ120上に情報を表示することを可能にする。更に、インタフェース・ユニット170は、外部の電話190がコンピュータ100と通信し得る手段を与える。電話190の動作は、通常、顧客データベース162に格納された口座情報にアクセスするために顧客が遠隔位置から発呼することによって行われる。
【0017】
代替的な実施例では、ASRアルゴリズム・プログラム154が設けられ、第2の専用CPUに結合されている。一方、専用CPUは、データ、アクセス、および制御ライン80に結合されて、専用CPUが入力を受け取り、出力をシステム1の他の構成要素に送出し得るようになっている。
【0018】
概して、以下で更に詳細に説明するように、顧客が電話190を介してシステム10にアクセスすると、システム10は顧客に特定の音声の発声を要求する。要求された音声発声は、顧客データベース162に格納された特定の識別情報に合致する。例えば、システム10は、顧客に対し、この特定の顧客に関連する顧客データベースに格納されている顧客の母親の旧姓を言うように要求する場合がある。システム10は、音声発声が顧客データベース162内に格納された情報と合致するか否かを判定するために、顧客データベース162内に格納されたデータおよび顧客から受信した音声発声の双方の処理を開始する。
【0019】
これより、図2および引き続き図1を参照して、システム10の動作について更に詳細に説明する。図2のステップ210に示すように、システム10は最初に電話190を介した顧客の呼を受ける。顧客の呼を受けると、システムは次いで顧客に対し身元証明を要求する。かかる身元証明は通常、顧客の口座番号に対する要求を含む。この要求はシステム10によって自動的に行うことができ、顧客は、プッシュホン・パッドまたは口頭による入力で口座番号を入力するだけで良い。このため、人の介入は不要である。
【0020】
ステップ220に示すようにシステム10が身元証明を要求すると、システム10は次に、受信した口座番号によって識別した顧客データベース162内のレコードの検索およびこれに対するアクセスを開始する。先に言及したように、本実施例では、顧客データベース162は、顧客の母親の旧姓からなる文字列に関する情報フィールドを含む。しかしながら、秘密パスワードは、サービス・プロバイダによる選択に応じて、顧客の住所等の一般的に知られる情報を含むいかなる所定の情報を含んでも良いことは理解されよう。CPU140は、母親の旧姓を読み取る。顧客データベース162に格納された実際の旧姓は、ステップ110で顧客の呼を受ける前に、キーボード130を介して銀行の従業員が入力してあり、データベース162に格納されている。顧客データベース162の検索およびアクセスは、ステップ230に示されている。
【0021】
ステップ230でシステム10がカスタム・データベース162にアクセスすると、システムは次に、格納された旧姓のサブワード・スペルを生成する。ステップ240では、サブワード・スペル生成プログラム152によって、CPU140は、サブワード・モデル・データベース164にアクセスする。ステップ230でカスタム・データベース162から旧姓を読み取った後、CPU140は、一連の音素からなるサブワード・モデルの構築を開始する。
【0022】
一実施例では、システム10は、ステップ210で識別した顧客の呼を受信する前に、格納された旧姓のサブワード・スペルを生成する。サブワード・スペルは、顧客データベース162の形成時に生成し、データベース162の部分として格納する。このようにして、顧客の呼の受信時のシステム1の速度を増す。
【0023】
次にステップ250を見ると、システム10は音声発声の要求および受信を開始する。要求される特定の音声発声は、顧客データベース162に格納された情報の種類に依存する。本実施例では、システム10は、顧客に、母親の旧姓を言うように要求する。
【0024】
ステップ250に示すようにシステム10が音声発声を受信すると、システム10は次に、音声発声の自由音声モデルの生成を開始する。ステップ260における自由音声モデルの生成は、CPU140によって、自由音声モデル生成プログラム58が制御するように実行される。モデルにおける音素の数(以下で論じる)以外は、自由音声モデルは、顧客データベース162に格納された情報とは独立して生成する。換言すると、システム10は、音声発声のみに基づいて自由音声モデルを動的に生成する。
【0025】
一般的には、音声発声を自由音声モデルに変換することは、文字列に基づいたサブワード・モデルと同数の音素からなる音素列を生成することを伴う。音声発声を受け取ると、それは観察ベクトルに分割される。各観察ベクトルは、個別の時間単位を表す。CPU140は、サブワード・モデル・データベース164にアクセスすることによって、各観察ベクトルで受信した周波数情報を、個々の音素を表す周波数情報の既知の統計的モデルと比較する。
【0026】
個性の強い音声パターンおよび発音によって音素の混成が生じるために、自由音声モデルの生成は不正確である。換言すると、自由音声モデルの生成は、性質上蓋然的であり、自由音声モデルが実際の音声発声を正確に表す確度が存在する。統計的性質および自由音声モデルの生成は、R.C.Rose、E.Lleida、G.W.Erhart、およびR.V.Grubbeによる「音声ラベル認識のための顧客構成可能システム(A Customer-Configurable System For Voice Label Recognition)」において詳細に記載されている。これは、引用により本願にも含まれるものとする。このため、CPU140は、統計的モデルが、所与の観察ベクトルについて受信した情報と非常に密接に合致するか否かを判定しなければならない。
【0027】
この比較は、受信した各観察ベクトル毎に繰り返す。CPU140は、合致する統計的モデルに対応する各音素を一続きにすることによって、自由音声モデルを生成する。しかしながら、本実施例では、自由音声モデルの長さが、旧姓の文字列からなる音素の数に制限されることを注記しておく。このため、自由音声モデルは、長さNの最適な音素列である。ここで、Nは、文字列のサブワード・スペルにおける音素の長さである。
【0028】
ステップ270に示すように、システム10は、自由音声モデルが実際の音声発声を正確に表す確度に基づいて、自由音声スコアを得る。更に具体的には、自由音声スコアは、発声として受信した情報と、その発声に合致する統計的音素モデルに含まれる情報との間の全体的な差を表す。このため、自由音声スコアが低ければ低いほど、自由音声モデルが音声発声を正確に表す確度が高くなる。
【0029】
格納された旧姓のサブワード・スペルによって、システム10は、ステップ280で、ワード・スコアの計算を開始する。ワード・スコアは、強制語彙集スコア(forced-lexicon score)とも呼ぶが、文字列のサブワード・スペルが受信音声発声と合致する確度を表す。更に具体的には、本実施例では、ワード・スコアは、音声発声の各観察ベクトルに含まれる情報と、文字列のサブワード・スペルからなる対応する統計的音素モデルの情報との差の総和を表す。このため、ワード・スコアが低ければ低いほど、受信した情報と統計的情報との間の差は小さくなり、音声発声が文字列に合致する確度が高くなる。
【0030】
このように自由音声スコアおよびワード・スコア双方を計算したなら、システム10は、ステップ290において、顧客データベース162に格納された情報に顧客をアクセス可能とするために、音声発声が、格納された旧姓と十分に合致するか否かを判定する。具体的には、判別アルゴリズム・プログラム156によって、CPU140は、自由音声スコアおよびワード・スコア双方に基づいて、受信した音声発声が顧客の母親の旧姓の格納文字列に合致するか否かを判定する。
【0031】
これより、図3および引き続き図2を参照して、図2のステップ290について更に詳細に説明する。最初のステップとして、受信発声と格納文字列との間に合致があるか否かを判定する。CPU140は、ステップ310において、ワード・スコアを自由音声スコアと比較する。ワード・スコアが自由音声スコアよりも高い場合、CPU140は、ステップ320で、 受信した発声が格納された文字列に合致すると判定する。このため、顧客は、口座に関する受信情報に対する許可を与えられる。
【0032】
一方、ワード・スコアが自由音声スコアよりも低い場合は、ステップ330において、CPU140は、自由音声スコアを2で割る。CPU140は、ステップ340に進み、ワード・スコアが自由音声スコアの1/2よりも高いか否かを判定する。ステップ350に示すように、ワード・スコアが2で割った自由音声スコアの1/2よりも高い場合、CPU140は、受信した発声が、格納された文字列に合致すると認識する。このため、システム10は、顧客に対し、顧客データベース162の特定のレコードに格納された情報に対するアクセスを与える。
【0033】
ワード・スコアが自由音声スコアの1/2よりも低い場合、ステップ360において、システム10は、合致が存在しないこと、および顧客が許可を与えられないことを判定する。合致が存在しない場合、システム10は、好ましくは、再びステップ250からの動作を繰り返し、不明瞭な発声による誤ったアクセス拒否を解消する。実験によって、図2および図3によるシステム10の動作は、約95%の正しい合格率および0%の不正確な合格率を生じることが示されている。
【0034】
ワード・スコアを自由音声スコアの1/2以外の端数と比較する代替的な実施例は、本発明の範囲内であることは理解されよう。加えて、代替的な実施例では、発声と文字列との間に合致があるか否かの判定は、図3のステップ310の比較のみを必要とする。
【0035】
代替的な実施例では、判別アルゴリズム・プログラム156は、自由音声スコアとワード・スコアとの差の絶対値を表す信頼度スコアを生成する。かかる実施例では、信頼度スコアが低ければ低いほど、音声発声が文字列に合致する確度が高くなる。別の代替的な実施例では、信頼度認識スコアが、ワード・スコアおよび自由音声スコアの重み付け平均を表す。CPU140は、この信頼度認識スコアを所定の信頼度認識閾値と比較する。信頼度スコアが閾値よりも低い場合、システム10は、音声発声と格納された旧姓とが合致すると判定する。この結果、口座情報に対するアクセスが許可される。
【0036】
一方、CPU140が、信頼度認識スコアが閾値よりも高いと判定した場合には、システム1は合致を見出さない。口座情報に対する顧客のアクセスは拒否される。
【0037】
代替的な実施例では、システムは、自由音声モデルおよび自由音声スコアのみを生成する。かかる実施例の1つでは、システムは、自由音声スコアを閾値と比較することによって、受信した発声が格納されている音声単位と一致するか否かを判定する。
【0038】
いくつかの好ましい実施例に関して本発明を説明したが、他の実施例も等しく本発明の範囲内であることは理解されよう。従って、本発明の範囲は、添付された請求の範囲によってのみ限定されることを意図するものである。
【図面の簡単な説明】
【図1】本発明の一実施例による音声認識システムの全体的な概略を示す図である。
【図2】図1の音声認識システムの動作の全体的なフロー・チャートを示す図である。
【図3】図2のステップ290の一実施例の詳細なフロー・チャートを示す図である。
Claims (10)
- 音声発声を所定の音声単位として認識する方法において、該方法は、
顧客から身元証明を要求しかつ受信する段階と、
該身元証明を求めて、文字列として所定の音声単位が記憶される顧客記録を検索するために顧客データベースにアクセスする段階と、
該文字列のサブワード・スペルを複数の音素を格納するサブワード・モデル・データベースにアクセスすることによって生成する段階とからなり、前記所定の音声単位は前記顧客記録に文字列として記憶されており、各音素は音を表し、前記文字列に対応する一連の音素からなるサブワード・モデルを構築しており、前記サブワード・モデル・データベースはすべての顧客に対して共通であり、該方法はさらに、
前記所定の音声単位を発声するよう前記顧客に要求しかつ該顧客から音声発声を受信する段階と、
音声発声を個別の時間単位を示す観察ベクトルに分割し、各観察ベクトルの周波数情報とサブワード・モデル・データベースに記憶される既知の音素の周波数情報の既知の統計モデルとを比較して前記観察ベクトルに合致する音素列を生成することによって、該顧客データベースへアクセスすることなく、音声発声の自由音声モデルを生成する段階と、
音声発声の各観察ベクトルの周波数情報と自由音声モデルの合致した各音素の周波数情報との間の差の総和を判定することによって、該自由音声モデルが音声発声を正確に表す確度を示す自由音声スコアを計算する段階と、
前記音声発声の各観察ベクトルの周波数情報とサブワード・モデル内の各音素の周波数情報との間の差の総和を判定することによって、該サブワード・スペルが該音声発声を正確に表す確度を示すワード・スコアを計算する段階と、
該自由音声スコアと該ワード・スコアとを比較することによって、該ワード・スコアおよび該自由音声スコアに基づく信頼度スコアを計算することによって、音声発生が所定の音声単位に合致するかどうかを該自由音声スコアおよび該ワード・スコアに基づいて判定する段階とからなることを特徴とする方法。 - 請求項1に記載の方法において、
該信頼度スコアを信頼度スコア閾値と比較する段階をさらに含むことを特徴とする方法。 - 請求項2に記載の方法において、該信頼度スコアを計算する段階は、該ワード・スコアおよび該自由音声スコアの重み付け平均を計算する段階を含むことを特徴とする方法。
- 請求項1に記載の方法において、該判定する段階は、該ワード・スコアと該自由音声スコアとの差を判定する段階を含むことを特徴とする方法。
- コンピュータ読み取り可能プログラムコード手段を有するコンピュータ読み取り可能媒体において、該コンピュータ読み取り可能プログラムコード手段は、
顧客から身元証明を要求しかつ受信する手段と、
該身元証明を求めて、文字列として所定の音声単位が記憶される顧客記録を検索するために顧客データベースにアクセスする手段と、
該文字列のサブワード・スペルを複数の音素を格納するサブワード・モデル・データベースにアクセスすることによって生成する手段とからなり、所定の音声単位は前記顧客記録に文字列として記憶されており、各音素は音を表し、前記文字列に対応する一連の音素からなるサブワード・モデルを構築しており、前記サブワード・モデル・データベースはすべての顧客に対して共通であり、該該コンピュータ読み取り可能プログラムコード手段はさらに、
前記所定の音声単位を発声するよう前記顧客に要求しかつ該顧客から音声発声を受信する手段と、
音声発声を個別の時間単位を示す観察ベクトルに分割し、各観察ベクトルの周波数情報とサブワード・モデル・データベースに記憶される既知の音素の周波数情報の既知の統計モデルとを比較して前記観察ベクトルに合致する音素列を生成することによって、該顧客 データベースへアクセスすることなく、音声発声の自由音声モデルを生成する手段と、
音声発声の各観察ベクトルの周波数情報と自由音声モデルの合致した各音素の周波数情報との間の差の総和を判定することによって、自由音声スコアを生成する手段と、
該自由音声スコアに基づいて該発声が音声単位に合致するか否かを判定する手段とからなり、
該コンピュータ読み取り可能なプログラムコード手段はさらに、前記音声発声の各観察ベクトルの周波数情報とサブワード・モデル内の各音素の周波数情報との間の差の総和を判定することによって、ワード・スコアを生成する手段を含み、該判定する手段は、該自由音声スコアおよび該ワード・スコアに基づいて、該発声が該音声単位に合致するかどうかを判定することを特徴とするコンピュータ読み取り可能媒体。 - 音声単位の表現が格納されたメモリ・デバイスと、
該メモリ・デバイスに結合されたプロセッサとからなる装置であって、該プロセッサは、顧客から身元証明を要求しかつ受信し、
該身元証明を求めて、文字列として所定の音声単位が記憶される顧客記録を検索するために顧客データベースにアクセスし、そして、
該文字列のサブワード・スペルを複数の音素を格納するサブワード・モデル・データベースにアクセスすることによって生成するように構成されており、前記音声単位は前記顧客記録に文字列として記憶されており、各音素は音を表し、前記文字列に対応する一連の音素からなるサブワード・モデルを構築しており、前記サブワード・モデル・データベースはすべての顧客に対して共通であり、該装置はさらに、
前記所定の音声単位を発声するよう前記顧客に要求しかつ該顧客から音声発声を受信し、
音声発声を個別の時間単位を示す観察ベクトルに分割し、各観察ベクトルの周波数情報とサブワード・モデル・データベースに記憶される既知の音素の周波数情報の既知の統計モデルとを比較して前記観察ベクトルに合致する音素列を生成することによって、該顧客データベースへアクセスすることなく、音声発声の自由音声モデルを生成し、
前記音声発声の各観察ベクトルの周波数情報とサブワード・モデル内の各音素の周波数情報との間の差の総和を判定することによって、自由音声スコアを生成するよう構成され、そして該プロセッサはさらに、該自由音声スコアに基づいて該音声発声が該音声単位であるか否かを判定するように構成されており、該装置はさらに、
該音声発声を受信する、該プロセッサに結合された入力デバイスからなり、
該プロセッサはさらに、前記音声発声の各観察ベクトルの周波数情報とサブワード・モデル内の各音素の周波数情報との間の差の総和を判定することによって、ワード・スコアを生成し、かつ該音声発声が該所定の音声単位であるかどうかを判定しており、
該プロセッサは、該ワード・スコアと該自由音声スコアとを比較して、該ワード・スコアが該自由音声スコアよりも大きいかどうかを判定することを特徴とする装置。 - 請求項6に記載の装置において、該プロセッサは更に、該ワード・スコアを該自由音声スコアの端数と比較するように構成されていることを特徴とする装置。
- 請求項7に記載の装置において、該端数は2分の1であることを特徴とする装置。
- 請求項6の装置において、該音声単位の表現は、該音声単位のサブワード・スペルであることを特徴とする装置。
- 音声発声を所定の音声単位として認識する音声認識システムにおいて、該システムは、
顧客から身元証明を要求しかつ受信する手段と、
該身元証明を求めて、文字列として所定の音声単位が記憶される顧客記録を検索するために顧客データベースにアクセスする手段とからなり、
所定の音声単位は、前記顧客記録に文字列として記憶されており、前記システムはさらに、
該文字列のサブワード・スペルを生成する手段と、
複数の音素を格納するサブワード・モデル・データベースにアクセスする手段とからなり、各音素は音を表し、前記文字列に対応する一連の音素からなるサブワード・モデルを構築しており、前記サブワード・モデル・データベースはすべての顧客に対して共通であり、該システムはさらに、
前記所定の音声単位を発声するよう前記顧客に要求しかつ該顧客から音声発声を受信する手段と、
音声発声を個別の時間単位を示す観察ベクトルに分割し、各観察ベクトルの周波数情報とサブワード・モデル・データベースに記憶される既知の音素の周波数情報の既知の統計モデルとを比較して前記観察ベクトルに合致する音素列を生成することによって、該顧客データベースへアクセスすることなく、音声発声の自由音声モデルを生成する手段と、
音声発声の各観察ベクトルの周波数情報と自由音声モデルの合致した各音素の周波数情報との間の差の総和を判定することによって、該自由音声モデルが音声発声を正確に表す確度を示す自由音声スコアを計算する手段と、
前記音声発声の各観察ベクトルの周波数情報とサブワード・モデル内の各音素の周波数情報との間の差の総和を判定することによって、該サブワード・スペルが該音声発声を正確に表す確度を示すワード・スコアを計算する手段と、
(i)該自由音声スコアと該ワード・スコアとを比較することによって、そして(ii)該ワード・スコアが該自由音声スコアよりも大きくない場合には、該ワード・スコアと該自由音声スコアの端数とを比較することによって該ワード・スコアおよび該自由音声スコアに基づいて信頼度スコアを計算することによって、音声発生が所定の音声単位に合致するかどうかを該自由音声スコアおよび該ワード・スコアに基づいて判定する手段とからなることを特徴とする音声認識システム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/056346 | 1998-04-07 | ||
US09/056,346 US6243678B1 (en) | 1998-04-07 | 1998-04-07 | Method and system for dynamic speech recognition using free-phone scoring |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11327585A JPH11327585A (ja) | 1999-11-26 |
JP3703991B2 true JP3703991B2 (ja) | 2005-10-05 |
Family
ID=22003805
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP09951199A Expired - Fee Related JP3703991B2 (ja) | 1998-04-07 | 1999-04-07 | 自由音声評点法を用いた動的音声認識の方法および装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US6243678B1 (ja) |
EP (1) | EP0949606B1 (ja) |
JP (1) | JP3703991B2 (ja) |
DE (1) | DE69937854T2 (ja) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001249684A (ja) * | 2000-03-02 | 2001-09-14 | Sony Corp | 音声認識装置および音声認識方法、並びに記録媒体 |
US7139709B2 (en) * | 2000-07-20 | 2006-11-21 | Microsoft Corporation | Middleware layer between speech related applications and engines |
US6931376B2 (en) | 2000-07-20 | 2005-08-16 | Microsoft Corporation | Speech-related event notification system |
US6957184B2 (en) * | 2000-07-20 | 2005-10-18 | Microsoft Corporation | Context free grammar engine for speech recognition system |
US7451075B2 (en) * | 2000-12-29 | 2008-11-11 | Microsoft Corporation | Compressed speech lexicon and method and apparatus for creating and accessing the speech lexicon |
AU2002346211B2 (en) * | 2001-06-27 | 2008-06-12 | Sony Corporation | Integrated circuit device, information processing device, information recording device memory management method, mobile terminal device, semiconductor integrated circuit device, and communication method using mobile terminal device |
DE10147734A1 (de) * | 2001-09-27 | 2003-04-10 | Bosch Gmbh Robert | Verfahren zum Einstellen einer Datenstruktur, insbesondere von phonetischen Transkriptionen für ein sprachbedientes Navigationssystem |
US7203652B1 (en) * | 2002-02-21 | 2007-04-10 | Nuance Communications | Method and system for improving robustness in a speech system |
US7222072B2 (en) * | 2003-02-13 | 2007-05-22 | Sbc Properties, L.P. | Bio-phonetic multi-phrase speaker identity verification |
US20060085189A1 (en) * | 2004-10-15 | 2006-04-20 | Derek Dalrymple | Method and apparatus for server centric speaker authentication |
US20060293898A1 (en) * | 2005-06-22 | 2006-12-28 | Microsoft Corporation | Speech recognition system for secure information |
US8543393B2 (en) * | 2008-05-20 | 2013-09-24 | Calabrio, Inc. | Systems and methods of improving automated speech recognition accuracy using statistical analysis of search terms |
DE102008029264A1 (de) | 2008-06-19 | 2009-12-24 | Schaeffler Kg | Montage- und Transportsicherungsanordnung für einen Schaltmechanismus eines Getriebes |
US9659559B2 (en) * | 2009-06-25 | 2017-05-23 | Adacel Systems, Inc. | Phonetic distance measurement system and related methods |
US8306204B2 (en) * | 2010-02-18 | 2012-11-06 | Avaya Inc. | Variable noise control threshold |
US20110224982A1 (en) * | 2010-03-12 | 2011-09-15 | c/o Microsoft Corporation | Automatic speech recognition based upon information retrieval methods |
TWI466101B (zh) * | 2012-05-18 | 2014-12-21 | Asustek Comp Inc | 語音識別方法及系統 |
CN110459211B (zh) | 2018-05-07 | 2023-06-23 | 阿里巴巴集团控股有限公司 | 人机对话方法、客户端、电子设备及存储介质 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4241329A (en) * | 1978-04-27 | 1980-12-23 | Dialog Systems, Inc. | Continuous speech recognition method for improving false alarm rates |
US4227177A (en) * | 1978-04-27 | 1980-10-07 | Dialog Systems, Inc. | Continuous speech recognition method |
US4481593A (en) * | 1981-10-05 | 1984-11-06 | Exxon Corporation | Continuous speech recognition |
US4489434A (en) * | 1981-10-05 | 1984-12-18 | Exxon Corporation | Speech recognition method and apparatus |
US4489435A (en) * | 1981-10-05 | 1984-12-18 | Exxon Corporation | Method and apparatus for continuous word string recognition |
US4837831A (en) * | 1986-10-15 | 1989-06-06 | Dragon Systems, Inc. | Method for creating and using multiple-word sound models in speech recognition |
US5202952A (en) * | 1990-06-22 | 1993-04-13 | Dragon Systems, Inc. | Large-vocabulary continuous speech prefiltering and processing system |
US5268990A (en) * | 1991-01-31 | 1993-12-07 | Sri International | Method for recognizing speech using linguistically-motivated hidden Markov models |
EP0562138A1 (en) * | 1992-03-25 | 1993-09-29 | International Business Machines Corporation | Method and apparatus for the automatic generation of Markov models of new words to be added to a speech recognition vocabulary |
CA2088080C (en) * | 1992-04-02 | 1997-10-07 | Enrico Luigi Bocchieri | Automatic speech recognizer |
US5909666A (en) * | 1992-11-13 | 1999-06-01 | Dragon Systems, Inc. | Speech recognition system which creates acoustic models by concatenating acoustic models of individual words |
US5699456A (en) * | 1994-01-21 | 1997-12-16 | Lucent Technologies Inc. | Large vocabulary connected speech recognition system and method of language representation using evolutional grammar to represent context free grammars |
US5822730A (en) * | 1996-08-22 | 1998-10-13 | Dragon Systems, Inc. | Lexical tree pre-filtering in speech recognition |
US5913192A (en) * | 1997-08-22 | 1999-06-15 | At&T Corp | Speaker identification with user-selected password phrases |
-
1998
- 1998-04-07 US US09/056,346 patent/US6243678B1/en not_active Expired - Lifetime
-
1999
- 1999-03-29 DE DE69937854T patent/DE69937854T2/de not_active Expired - Fee Related
- 1999-03-29 EP EP99302410A patent/EP0949606B1/en not_active Expired - Lifetime
- 1999-04-07 JP JP09951199A patent/JP3703991B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
EP0949606A3 (en) | 2000-10-11 |
EP0949606B1 (en) | 2008-01-02 |
EP0949606A2 (en) | 1999-10-13 |
JPH11327585A (ja) | 1999-11-26 |
DE69937854D1 (de) | 2008-02-14 |
US6243678B1 (en) | 2001-06-05 |
DE69937854T2 (de) | 2008-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3703991B2 (ja) | 自由音声評点法を用いた動的音声認識の方法および装置 | |
CA2088080C (en) | Automatic speech recognizer | |
USRE38101E1 (en) | Methods and apparatus for performing speaker independent recognition of commands in parallel with speaker dependent recognition of names, words or phrases | |
US5897616A (en) | Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases | |
US6671672B1 (en) | Voice authentication system having cognitive recall mechanism for password verification | |
US7421387B2 (en) | Dynamic N-best algorithm to reduce recognition errors | |
JP4672003B2 (ja) | 音声認証システム | |
US20150112684A1 (en) | Content-Aware Speaker Recognition | |
US9286887B2 (en) | Concise dynamic grammars using N-best selection | |
US9373325B2 (en) | Method of accessing a dial-up service | |
EP0983587A1 (en) | Speaker verification method using multiple class groups | |
US6208965B1 (en) | Method and apparatus for performing a name acquisition based on speech recognition | |
US11537661B2 (en) | Systems and methods for conversing with a user | |
US7630895B2 (en) | Speaker verification method | |
US20040019488A1 (en) | Email address recognition using personal information | |
Stemmer et al. | Acoustic modeling of foreign words in a German speech recognition system | |
JP7339116B2 (ja) | 音声認証装置、音声認証システム、および音声認証方法 | |
JP4245948B2 (ja) | 音声認証装置、音声認証方法及び音声認証プログラム | |
EP1158491A2 (en) | Personal data spoken input and retrieval | |
US9978373B2 (en) | Method of accessing a dial-up service | |
JP2002162991A (ja) | パターン認識装置とパターン認識方法および記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040908 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20041208 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20041215 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050308 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050627 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050721 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080729 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090729 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |