JP2007249179A - バイオメトリック特徴の変化に基づいてバイオメトリックモデルを更新するためのシステム、方法、およびコンピュータプログラム - Google Patents
バイオメトリック特徴の変化に基づいてバイオメトリックモデルを更新するためのシステム、方法、およびコンピュータプログラム Download PDFInfo
- Publication number
- JP2007249179A JP2007249179A JP2006351685A JP2006351685A JP2007249179A JP 2007249179 A JP2007249179 A JP 2007249179A JP 2006351685 A JP2006351685 A JP 2006351685A JP 2006351685 A JP2006351685 A JP 2006351685A JP 2007249179 A JP2007249179 A JP 2007249179A
- Authority
- JP
- Japan
- Prior art keywords
- model
- feature
- biometric
- biometric sample
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 126
- 238000004590 computer program Methods 0.000 title claims description 7
- 230000008859 change Effects 0.000 title description 12
- 238000013500 data storage Methods 0.000 claims abstract description 14
- 238000004458 analytical method Methods 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims description 186
- 238000013139 quantization Methods 0.000 claims description 46
- 230000006978 adaptation Effects 0.000 claims description 25
- 230000000306 recurrent effect Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 description 44
- 238000012549 training Methods 0.000 description 39
- 230000003044 adaptive effect Effects 0.000 description 17
- 230000015654 memory Effects 0.000 description 12
- 238000012545 processing Methods 0.000 description 9
- 238000000605 extraction Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000003252 repetitive effect Effects 0.000 description 6
- 238000005259 measurement Methods 0.000 description 5
- 238000003860 storage Methods 0.000 description 5
- 238000012790 confirmation Methods 0.000 description 4
- 230000005484 gravity Effects 0.000 description 4
- 238000003672 processing method Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 210000000554 iris Anatomy 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 229960000074 biopharmaceutical Drugs 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Collating Specific Patterns (AREA)
Abstract
【課題】
ユーザのバイオメトリック特徴の変化に基づいて、バイオメトリクスシステムに登録されているユーザのバイオメトリックモデルを更新する。
【解決手段】
ユーザから受け取った第1のバイオメトリックサンプルの分析に基づいて、そのユーザが承認される。第1のバイオメトリックサンプルから抽出された特徴と、登録時にユーザから得られた第2のバイオメトリックサンプルを用いて生成された第1のモデルとを比較し、またこの特徴と、以前に承認された第3のバイオメトリックサンプルを用いて生成された第2のモデルとを比較して、この特徴が第1のモデルよりも第2のモデルの方によりぴったりとマッチしているかどうかを決定する。この特徴が第1のモデルよりも第2のモデルの方によりぴったりとマッチしていた場合、抽出された特徴に基づいてデータ記憶装置106の第1および第2のモデルを更新できる。
【選択図】図1
ユーザのバイオメトリック特徴の変化に基づいて、バイオメトリクスシステムに登録されているユーザのバイオメトリックモデルを更新する。
【解決手段】
ユーザから受け取った第1のバイオメトリックサンプルの分析に基づいて、そのユーザが承認される。第1のバイオメトリックサンプルから抽出された特徴と、登録時にユーザから得られた第2のバイオメトリックサンプルを用いて生成された第1のモデルとを比較し、またこの特徴と、以前に承認された第3のバイオメトリックサンプルを用いて生成された第2のモデルとを比較して、この特徴が第1のモデルよりも第2のモデルの方によりぴったりとマッチしているかどうかを決定する。この特徴が第1のモデルよりも第2のモデルの方によりぴったりとマッチしていた場合、抽出された特徴に基づいてデータ記憶装置106の第1および第2のモデルを更新できる。
【選択図】図1
Description
本発明は、バイオメトリクス、より詳しくは、バイオメトリクス認証アプリケーションの適応、特に話者認証システムおよび方法に関する。
認証(承認、あるいは確認としても知られている)は、真のユーザであると主張しているユーザが真のユーザであるかを認証する処理である。認証の目的は、ユーザが、登録されている真のユーザであるかまたは詐称者(インポスタ)であるかどうかを決定することである。一般に、認証は、4つの段階、すなわち、入力を得る段階と、ノイズのような不要な入力をフィルタリングする段階と、入力を変換して、1組の特徴ベクトルを抽出する段階と、特徴ベクトルの統計表示を生成する段階と、登録手続き中に以前に収集された情報との比較を行う段階とを含む。
話者認証システム(音声認証システムとしても知られている)は、話者の音声の同一性が、認識されている音声に対する認証を受けられるように、話者の音声をマッチさせようとする。話者認証システムは、音声発声を用いることによって、安全なアクセスを保証するための手段を提供するのを支援する。所定の単語または語句の発話、あるいは単に、個々の話者のランダムに選択された単語または語句の音声サンプルは、アクセスを求めて話者認識システムおよび/または話者認証システムから承認を得ようとする場合に、要求者によって提供される。真の要求者とは、発声が、主張されている同一性に関連する認識されている特性にマッチした要求者のことである。
話者認証システムをトレーニングするために、要求者は、典型的に、要求者が主張した同一性に対応するモデルに対してスコアリングされる音声サンプルまたは音声発声を提供し、次に、要求者が主張した同一性が実際のものであることを確認するために、要求者のスコアが計算される。
従来の話者認証システムは、典型的に、話者認証を行うための比較的大きいメモリを必要とするという点で、複雑さが望ましくないほど高いという点で、また信頼性が低いという点で問題がある。例えば、多くの話者認証システムでは、話者の音声特性をモデル化するために、隠れマルコフモデル(Hidden Markov Model、HMM)が用いられる。しかし、隠れマルコフモデルを用いると、資源制約付きまたは資源制限付きシステムに使用するには不適切な隠れマルコフモデルを作成する計算資源およびメモリ使用に関連して非常に費用がかかることがある。
他方、ベクトル量子化(Vector Quantization、VQ)スキームを行う話者認証システムは、計算およびメモリ使用を少なく済ませることが可能である。あいにく、ベクトル量子化スキームには、しばしば、時間経過に伴う話者の音声の変化に対処できないという欠点があるが、この理由は、典型的なベクトル量子化スキームが、発声の期間にわたる人の音声の「静的スナップショット」を表すからである。
さらに、話者の気分(例えば、喜び、悲しみ、怒り)および話者の健康状態(例えば病気)のような種々の理由で、人の音声は変化することがある。話者が経年変化するにつれて、その話者の音声も変化し、すなわち、いずれにしても、話者認識アプリケーションにおいて、このような音声変化が音声認識アルゴリズムの適用における失敗の原因となることがある。
結果として、話者の音声の変化に適応させるかまたはそれを学習することができる音声バイオメトリクスアルゴリズムを開発することが望ましいであろう。
ユーザのバイオメトリック特徴の変化に基づいて、バイオメトリクスシステムに登録されているユーザのバイオメトリックモデルを更新するためのシステム、方法およびコンピュータプログラム製品の実施形態が記載されている。一実施形態によれば、ユーザから受け取った第1のバイオメトリックサンプルの分析に基づいて、そのユーザが承認される。第1のバイオメトリックサンプルと第1のモデルとを比較し、また前記サンプルと第2のモデルとを比較し得る。第1のバイオメトリックサンプルが、第1のモデルよりも第2のモデルの方によりぴったりとマッチしていた場合、第1のサンプルの特徴に基づいて第1のおよび第2のモデルを更新できる。第1のモデルは、登録時にユーザから得られた第2のバイオメトリックサンプルを用いて生成され、また第2のモデルは、以前に承認された第3のバイオメトリックサンプルを用いて生成される。
バイオメトリックサンプルが音声を含む実施形態を実施することが可能である。モデルの各々がコードブックを含むように、またベクトル量子化を用いて比較ステップを行うことができるように、それらのモデルを実行することも可能である。データ記憶装置を設けて、更新されたモデルを記憶することが可能である。
一実施形態では、比較ステップは、特徴と第1のモデルとの間で算出された歪みと、特徴と第2のモデルとの間で算出された歪みとを比較するステップを含むことができる。このような実施形態では、ユーザの承認中に、歪みを算出できる。
更新ステップが、各重心からの特徴の歪みに基づいてモデルの重心を再計算するステップを含む実施形態を実施することも可能である。更新ステップは、信頼係数をモデルに適用するステップも含み得る。
一実施形態では、特徴と第1のモデルとの相違点を判断し、また特徴と第2のモデルとの相違点を判断することによって、比較ステップを行うことが可能である。第1のバイオメトリックサンプルを分析して、第1のバイオメトリックサンプルの特徴の繰り返し発生に関する情報を確認することが可能である。次に、第1のバイオメトリックサンプルで発生した特徴の繰り返し発生に関する情報と、ユーザが発したと認識されるバイオメトリックサンプルの少なくとも1つの以前の形態の特徴の繰り返し発生に関する情報とを比較できる。繰り返し発生の比較に基づいて、判断された相違点にペナルティを付与し得る。このような実行方法では、モデルの更新ステップは、第1のバイオメトリックサンプルの特徴の繰り返し発生に関する情報に基づく係数によって、ユーザが発したと認識されるバイオメトリックサンプルの少なくとも1つの以前の形態の特徴の繰り返し発生に関する情報を修正するステップをさらに含むことが可能である。
本発明によれば、話者が本人であることを認証するための、より信頼性に優れたシステム、方法、およびプログラム製品を提供することができる。
概して、バイオメトリクスシステムに用いられている登録者の特定のバイオメトリクスの変化に、バイオメトリクスシステムに登録されているユーザ(すなわち登録者)のバイオメトリックデータ(例えばバイオメトリックモデル)を適応させるためのシステム、方法およびコンピュータプログラム製品の実施形態について説明する。
例えば、本明細書に記載されている実施形態を用いれば、システムに登録されている話者の声紋を適応させて、長時間にわたる話者の音声の変化を追跡することができる話者認識システムを実行することが可能である。声紋の変化の大きさは、例えば、話者の音声で検出された声質の変化に依存し得る。本明細書に記載されている実施形態は、システムの「誤った拒否率」(false rejection rate、FRR)を低減するのを支援して、登録者のバイオメトリック特徴/特性が変化することにより登録者がバイオメトリクスシステムに頻繁に再登録する負担を回避するのを支援することによって、バイオメトリクス認識システムを改良するのを支援する際に有用であり得る。
一般に、ベクトル量子化システムは、典型的にコードブックとして公知のものを用いる。トレーニング中に、話者の音声の明確な特徴を符号化するエントリで、コードブックを構成することが可能である。トレーニングされると、次に、ベクトル量子化システムを使用して、話者の同一性を認証することが可能である。正当な人物であると主張している話者(「要求者」)の特徴と、予めトレーニングされたコードブックとを比較し得る。要求者が、コードブックの対応するエントリにぴったりマッチしていると決定された場合、話者の同一性が認証される。逆に、要求者がぴったりマッチしていないと決定された場合、話者が主張した同一性が否定される。概して、適応処理の実施形態は以下のように実施することが可能である(音声ベースのシステムに関連して)。
最初に、ユーザは、音声サンプル(例えば発声)を提供して声紋を生成することによってバイオメトリクスシステムに登録する。次に、この声紋を基本声紋として記憶できる。ユーザが引き続き認証を試みて、認証が成功した場合には、そのユーザの声紋を更新できる。更新された声紋は追跡声紋として記憶し得る。基本声紋および追跡声紋を共に用いて、ユーザの同一性を決定することが可能である。ユーザの音声は時間の経過と共に変化するので、追跡声紋を用いて、その人物の音声の変化を記録することが可能であり、認証アルゴリズムをユーザの音声に適応させまたその音声を学習することが可能になる。
バイオメトリクスシステム
概して、長時間にわたる登録者のバイオメトリック特徴(例えば特性)の変化に、バイオメトリクスシステムに登録されているユーザ(すなわち登録者または真のユーザ)のバイオメトリックデータを適応させ得る機構として、増分するトレーニング(incremental training)を用いることが可能である。例えば、増分するトレーニングを話者認証システムに用いて、登録者が経年変化するのに伴う登録者の音声の変化に登録者の声紋を適応させてもよい。各成功確認周期(すなわち、要求者が、バイオメトリクスシステムによって真(すなわち主張した登録者)であると決定される確認イベント)では、確認のために要求者から得たバイオメトリックサンプル(例えば音声サンプル)を用いて、登録者のバイオメトリックデータ(例えば登録声紋)を適応させ得る。したがって、増分するトレーニングは、バイオメトリクスシステムが、時間経過に伴う登録者のバイオメトリック特徴の変化に合わせて調節するのを支援するための追跡方法および適応方法であると考えることができる。本明細書の実施形態を説明する際には、バイオメトリックという用語は、例えば人のような生命体の身体特性または行動特性(例えば、音声、指紋、虹彩、外見、筆跡)を指すことが可能である。
バイオメトリクスシステム
概して、長時間にわたる登録者のバイオメトリック特徴(例えば特性)の変化に、バイオメトリクスシステムに登録されているユーザ(すなわち登録者または真のユーザ)のバイオメトリックデータを適応させ得る機構として、増分するトレーニング(incremental training)を用いることが可能である。例えば、増分するトレーニングを話者認証システムに用いて、登録者が経年変化するのに伴う登録者の音声の変化に登録者の声紋を適応させてもよい。各成功確認周期(すなわち、要求者が、バイオメトリクスシステムによって真(すなわち主張した登録者)であると決定される確認イベント)では、確認のために要求者から得たバイオメトリックサンプル(例えば音声サンプル)を用いて、登録者のバイオメトリックデータ(例えば登録声紋)を適応させ得る。したがって、増分するトレーニングは、バイオメトリクスシステムが、時間経過に伴う登録者のバイオメトリック特徴の変化に合わせて調節するのを支援するための追跡方法および適応方法であると考えることができる。本明細書の実施形態を説明する際には、バイオメトリックという用語は、例えば人のような生命体の身体特性または行動特性(例えば、音声、指紋、虹彩、外見、筆跡)を指すことが可能である。
図1は、増分するトレーニングを行うことができる模範的なバイオメトリクスシステム100、より具体的には、話者認識(例えば認証)システムを示している。バイオメトリクスシステム100は、同一性を主張する要求者のバイオメトリックデータと、同一性データとして認識されているバイオメトリックデータ(例えば、バイオメトリクスシステムの登録者のバイオメトリックデータ)とを比較して、同一性を主張した要求者が真であるかどうかを確認する(すなわち認証する)ためにバイオメトリクス認証処理を行うことができる認証モジュール102を含み得る。
図1に示したように、バイオメトリクスシステムに登録されているユーザ(すなわち登録者)の同一性を主張する要求者のバイオメトリックサンプル104(この場合音声サンプル)は、バイオメトリクスシステム100の認証モジュール102によって入力104として受け取ることが可能である。認証モジュール102によって、入力サンプル104から特徴を抽出し得る。音声ベースの実行方法では、認証モジュール102は、当業者に公知の標準的な信号処理方法を用いて特徴抽出を行うことが可能である。特徴を抽出する前に、入力音声サンプル104を前処理して、ノイズ、利得制御等を除去することが可能であることに留意されたい。この前処理は、入力サンプル104が、認証モジュール102によって(例えば、ある種の前処理コンポーネントによって)または認証モジュール102自体によって受け取られる前に行うことが可能である。1つの実行方法では、入力音声サンプル104は、例えば、ほぼ約0.2秒〜4.0秒の短い持続時間の連続音声を含み得る。
バイオメトリクスシステム100は、バイオメトリクスシステム100に登録されているユーザ(すなわち登録者)に関連するバイオメトリックデータを記憶するためのデータベースのようなデータ記憶装置106も含むことが可能である。データ記憶装置106を認証モジュール102に接続することが可能であるので、認証モジュール102は、入力サンプル104から抽出された特徴と比較するために(すなわちバイオメトリクス認証処理中に)、データ記憶装置106に記憶されているバイオメトリックデータにアクセスできる。音声ベースの実行方法では、データ記憶装置106は、1つ以上の声紋を記憶することが可能であり、各声紋はバイオメトリクスシステム100の登録者の固有の音声署名を表す。例えば、バイオメトリクスシステム100によって行われる登録処理および/または適応処理中に、声紋を生成し得る。
要求者の入力サンプル104から抽出された特徴と登録者のバイオメトリックデータ(例えば声紋)との比較に基づいて、認証モジュール102は、比較したデータ間の類似度または逆に相違度を表すマッチングスコア108を出力することが可能である。
要求者が主張した同一性を承認する(すなわち、要求者が「真」であると承認する)かどうかを決定するための決定モジュールをバイオメトリクスシステム100に含み得る。決定モジュール110を認証モジュール102に接続することが可能であるので、決定モジュール110は認証モジュール102からマッチングスコア108を受信することが可能である。決定モジュール110は、出力されたマッチングスコア108を信頼スコアに変換でき、および/または要求者が主張した同一性を承認するかどうかを決定するために「はい/いいえ」の決定を行うことが可能である。
図1に示したように、決定モジュール110が「はい」の決定を出力した場合(「はい」の経路112で図示)、要求者が主張した同一性を承認し得る(すなわち「開」状態になる)。他方、決定モジュール110が「いいえ」の決定を出力した場合(「いいえ」の経路114で図示)、同一性を主張した要求者の要求を拒否することが可能であり(すなわち「閉」状態になり)、このようにして、要求者は詐称者であると決定される(すなわち、主張した同一性は偽である)。
バイオメトリクスシステム100は、増分するトレーニングによってテンプレート適応を行い、これによって、データ記憶装置106に記憶されているバイオメトリックデータを更新できるテンプレート適応モジュール116をさらに含み得る。図1に示したように、テンプレート適応処理の実行は、認証が成功した(すなわち「はい」の経路112に進んだ)かどうかに依存し、おそらくは、1つ以上の付加条件に依存することが可能である。
テンプレート適応
記載されているバイオメトリクスシステム100では、認証中に、要求者の入力サンプルと、主張されている同一性(すなわち登録者)に関連して記憶されているバイオメトリックデータとを比較し得る。一実施形態では、要求者のサンプルと登録者のバイオメトリックデータとの間の歪みが閾値(例えば所定の閾値または予め規定された閾値)未満であった場合、認証は成功であるとみなすことが可能であり、またバイオメトリクスシステムによって、要求者を登録者として承認することが可能である。認証が成功すると、適応処理(「増分するトレーニング処理」と呼ぶことも可能である)に従って、今認証された要求者が入力したサンプルを用いて、バイオメトリクスシステムに記憶されている登録者のバイオメトリックデータを適応させることが可能である。
テンプレート適応
記載されているバイオメトリクスシステム100では、認証中に、要求者の入力サンプルと、主張されている同一性(すなわち登録者)に関連して記憶されているバイオメトリックデータとを比較し得る。一実施形態では、要求者のサンプルと登録者のバイオメトリックデータとの間の歪みが閾値(例えば所定の閾値または予め規定された閾値)未満であった場合、認証は成功であるとみなすことが可能であり、またバイオメトリクスシステムによって、要求者を登録者として承認することが可能である。認証が成功すると、適応処理(「増分するトレーニング処理」と呼ぶことも可能である)に従って、今認証された要求者が入力したサンプルを用いて、バイオメトリクスシステムに記憶されている登録者のバイオメトリックデータを適応させることが可能である。
図2は、例示的な音声ベースのバイオメトリクスシステム(すなわち話者認識システム)に関連する適応処理を行うための模範的なアーキテクチャ200を示している。この実行方法では、バイオメトリクスシステムは、バイオメトリクスシステムで話者を登録する間に話者が発した発声から、初期の声紋を生成し得る。登録者のこの元の声紋(「基本」声紋と呼ぶことが可能である)は、バイオメトリクスシステムによって「現状のままで」記憶することが可能である。要求者の認証が成功した、引き続く認証セッション(すなわち、要求者が、主張されている登録者であると特定された認証セッション)中に、その認証セッションで要求者が発した発声から生成された新たな声紋を用いて、元の声紋を適応させ得る。バイオメトリクスシステムは、要求者の発声から生成された声紋を、元の声紋とは別個の声紋(「適応される」または「追跡する」声紋と呼ぶことが可能である)として記憶することが可能である。一実施形態では、適応される声紋は、認証セッション中に入力された音声サンプルから生成された適応声紋と元の声紋との間の話者の音声の変化を表す増分量と元の声紋との和を含み得る。
図2に示したように、アーキテクチャ200は、パターンマッチングを行うための1対のパターンマッチングモジュール202、204を含むことが可能である。一実施形態では、パターンマッチングモジュール202、204を、図1に示した認証モジュール102のサブモジュールとして含み得る。パターンマッチング処理の実行は、当業者に公知の方法に基づくことが可能であり、またパターンマッチングモジュール202、204は、1つ以上のパターンマッチング方法を行うこともでき得る。
図2に示した模範的な実行方法では、パターンマッチングモジュールの各々は、パターン照合方法を付加してまたは付加することなく、ベクトル量子化(VQ)を用いてパターンマッチングを行うことができ得る。ベクトル量子化を用いて、要求者の音声サンプルから得られた特徴ベクトルと登録者の声紋との差を測定し、また測定された差に基づいてマッチングスコアを出力することが可能である。
認証セッション中に、パターンマッチングモジュール202、204の両方は、認証セッション中に提示された要求者の音声サンプルから抽出された特徴ベクトルを(入力206として)受け取る。次に、パターンマッチングモジュール202、204は、入力された特徴ベクトル206でパターンマッチングを行うことが可能であり、パターンマッチングモジュール202は、入力された特徴ベクトル206と、主張されている同一性の基本声紋208とを比較し、またパターンマッチングモジュール204は、入力された特徴ベクトル206と、主張されている同一性の追跡声紋210とを比較する。基本声紋(すなわち元の声紋)および/または追跡声紋のために、パターンマッチング処理を行い得る。
上述したように、ベクトル量子化を用いて、これらのパターンマッチングの比較を行うことが可能である。このような実行方法では、基本声紋208および追跡声紋210の各々は、コードブック212、214を含み得る。パターンマッチングの一環としてパターン照合も行う実行方法では、基本声紋208および追跡声紋210の各々は、登録者の音声の動的性質の表示を行うパターンテーブル216、218を含むことも可能である。登録者の基本声紋208および/または追跡声紋210は、データ記憶装置、例えば、図1に示したデータ記憶装置106に記憶しまたそこから読み出すことが可能である。
パターンマッチングの結果として、2つの別個のマッチングスコアd1、d2(ベクトル量子化を用いた実施形態において歪みスコアを含み得る)が、パターンマッチングモジュール202、204から出力される。ベクトル量子化を用いて(パターンを追跡してまたはパターンを追跡することなく)パターンマッチングを行う実施形態では、出力されたマッチングスコアd1、d2は、歪みスコアを含み得る。常に、マッチングスコアd1は、パターンマッチングモジュール204から出力され、また入力された特徴ベクトル206と追跡声紋210との相違量または相違度を表す。同様に、マッチングスコアd2は、パターンマッチングモジュール202から出力され、また入力された特徴ベクトル206と基本声紋208との相違量または相違度を表す。一実施形態では、低い値を有するマッチングスコアを用いて、入力された特徴ベクトル206と適切な声紋208、210との相違度が、より高い値を有するマッチングスコアよりも低いことを指示することが可能である(すなわち、マッチングスコア値が低くなるとそれだけ類似性が高くなる)。
代わりに、1対のパターンマッチングモジュールではなく、単一のパターンマッチングモジュールを用いて、実行方法を行い得ることに留意されたい。このような実行方法では、単一のマッチングモジュールは、適応処理に用いられる歪み値の両方を出力するために、入力された特徴ベクトルのパターンマッチングを2回行い、すなわち基本テンプレートで1回行って、追跡テンプレートで1回行うことが可能である。
決定モジュール220をパターンマッチングモジュールに接続して、出力されたマッチングスコアd1、d2の両方を受信することが可能である。決定モジュール220は、入力された特徴ベクトル206が、基本声紋208よりも追跡声紋210の方によりマッチしている(すなわち、よりぴったりとマッチしている)かどうかを決定するために、マッチングスコアd1、d2の比較を行い得る。
図2に示した実行方法では、マッチングスコアd1の値がマッチングスコアd2の値未満であった場合に、入力された特徴ベクトル206は、適応、追跡声紋210により良くマッチしていると決定される(これによって、入力された特徴ベクトル206と基本声紋208とよりも、入力された特徴ベクトル206と追跡声紋210との方が相違点が低い/類似性が高いことが示される)。入力された特徴ベクトル206が基本声紋208よりも適応、追跡声紋210の方によりぴったりとマッチしていることを決定モジュール220が決定した場合、決定モジュール220は、適応モジュール224を呼び出すための出力222(「はい」)を生成し得る。
一実施形態では、決定モジュール220は、マッチングスコアd1、d2の比較の実行を、要求者が主張されている同一性/登録者にマッチしていると決定される(すなわち要求者が真であると決定される)認証セッションに制限し得る。このようにして、要求者が詐称者であると決定された(すなわち、要求者が、主張されている同一性にマッチしていないと決定された)場合、決定モジュール220は、マッチングスコアd1、d2の比較を行わなくてもよい。1つの実行方法において、認証セッションを成功させるには、要求者を承認するかまたは拒否するかどうかを決定するために用いられる決定閾値よりも低い両方のマッチングスコアd1、d2が必要となり得ることに留意されたい。
適応モジュール224は、時間経過に伴う(例えば登録者が経年変化するのに伴う)登録者の音声の変化に登録者の声紋を適応させるための適応処理を行うことができ得る。図2に示した実行方法では、適応モジュール224は、決定モジュール220によって生成された出力222によって呼び出されたときに適応処理の実行を開始し得る。この処理は、基本声紋(すなわち元の声紋)および追跡声紋の両方のために行うことが可能である。
適応処理
図3は、音声ベースのバイオメトリクスシステムの実行方法に関連する模範的な適応処理のフローチャート300を示している。この適応処理は、例えば、図1と図2に示したバイオメトリクスシステム100およびアーキテクチャ200を用いて行うことが可能である。認証が成功した後に、この適応処理を用いて、コードブック値およびパターンテーブル値の両方を再計算し得る。
適応処理
図3は、音声ベースのバイオメトリクスシステムの実行方法に関連する模範的な適応処理のフローチャート300を示している。この適応処理は、例えば、図1と図2に示したバイオメトリクスシステム100およびアーキテクチャ200を用いて行うことが可能である。認証が成功した後に、この適応処理を用いて、コードブック値およびパターンテーブル値の両方を再計算し得る。
演算302では、バイオメトリックサンプル(例えば、話者の発声のような音声サンプル)は、バイオメトリクスシステムの登録者であると主張している(すなわち同一性を主張している)要求者(例えば話者)からの入力として得られる。演算304では、1つ以上の特徴ベクトルは、入力されたバイオメトリックサンプルから発生される。例えば、図1に示した認証モジュール102によって、演算304を行い得る。音声ベースの実行方法では、当業者に公知の音声処理方法を用いて、特徴ベクトルを入力サンプルから抽出することが可能である。
演算306では、マッチングスコアd1とd2(本明細書において「歪みスコア」または単に「歪み」と呼ぶことも可能である)は、要求者のサンプルから(演算304から)発生された特徴ベクトルと、登録者に関連する基本テンプレートおよび適応テンプレートとの間で計算することが可能であり、マッチングスコアd1は、特徴ベクトルと基本テンプレートとを用いて計算され、またマッチングスコアd2は、特徴ベクトルと適応テンプレートとを用いて計算される。図3に示した音声ベースの実行方法によって示したように、基本テンプレートおよび適応テンプレートの各々はコードブックを含むことが可能であり、またマッチングスコアは、ベクトル量子化方法(パターン照合処理を行ってまたは行うことなく)を用いて計算された歪みスコアまたは歪み値を含むことが可能である。例えば、図2に示したパターンマッチングモジュール202と204によって、演算306を行い得る。
決定308では、マッチングスコアd1とd2を用いて、要求者の特徴ベクトルが、基本テンプレートよりも適応テンプレートの方によりぴったりとマッチしているかどうかを決定することが可能である。一実施形態では、要求者が主張した同一性が認証された(すなわち要求者が真であると決定された)場合にのみ、決定308を行い得る。さらに、このような実施形態では、要求者が主張した同一性を承認するためにバイオメトリクスシステムによって設定された決定基準内に両方のマッチングスコアd1とd2の値が存在する(例えば決定閾値未満である)ことが認識されるそれらの認証セッションに、決定308を制限することが可能である。
上述したように、マッチングスコアd1、d2は、要求者の特徴ベクトルと、それに対応するテンプレートとの相違度を表すことができ、マッチングスコアが低くなるということは、特徴ベクトルと所定のテンプレートとの類似度がそれだけ高くなる(すなわち相違点が低くなる)ということを示している。したがって、マッチングスコアd1の値がマッチングスコアd2の値よりも低かった(すなわちマッチングスコアd1<マッチングスコアd2)場合、要求者の特徴ベクトルと基本テンプレートとよりも要求者の特徴ベクトルと適応テンプレートとの方が、類似性が高くなる(すなわち相違点が低くなる)ことを示している。例えば、図2に示した決定モジュール220によって、決定308を行い得る。
特徴ベクトルが、基本テンプレートよりも適応テンプレートの方に類似していないと決定された(すなわちマッチングスコアd1≧マッチングスコアd2)場合、適応処理を決定308で終了することが可能である。
他方、特徴ベクトルと適応テンプレートとの類似性が、特徴ベクトルと基本テンプレート歪みとの類似性よりも高いと決定された場合、処理は、各重心からの特徴ベクトル歪みに基づいて重心が再計算される演算310に進んでもよい。一実施形態では、適応されるテンプレート(すなわち、適応されるコードブック)および/または基本テンプレート(すなわち基本コードブック)の重心は、それぞれの各重心からの関連する特徴ベクトル歪み(例えば、適応されるテンプレートの重心からの歪み「d1」、および元のコードブックの重心からの歪み「d2」)に基づいて再計算することが可能である。例えば、図2に示した適応モジュール224によって、演算310を行い得る。
実行方法において、パターンマッチングの実行時にパターン照合方法が用いられた場合、演算312では、登録者に関連するパターンテーブル値は、例えばアクセスパターンに基づいて再計算される。例えば、図2に示した適応モジュール224によって、演算312を行い得る。
演算314では、演算312で再計算されたパターンテーブル(すなわち、基本パターンテーブルおよび適応されるパターンテーブル)の、および演算312で再計算されたパターンテーブルの形態を更新すると共に、演算310で算出された重心を再計算した状態で、登録者の基本テンプレートおよび適応されるテンプレートを(例えばデータ記憶装置106に)記憶することが可能である。
擬似コードの実施例
以下の模範的な擬似コードは、模範的な音声ベースの実行方法に関連する適応処理(すなわち演算302〜308)の意思決定部分を説明するのをさらに補足するように示されている。
擬似コードの実施例
以下の模範的な擬似コードは、模範的な音声ベースの実行方法に関連する適応処理(すなわち演算302〜308)の意思決定部分を説明するのをさらに補足するように示されている。
すなわち、
特徴_ベクトル = 特徴_抽出(入力_音声);
歪み1 = 計算_間隔(特徴_ベクトル, 適応される_コードブック);
歪み2 = 計算_間隔(特徴_ベクトル, 元の_コードブック);
(歪み1 < 歪み2)であるならば、
重心を再計算
パターンテーブル値を再計算
終了
ここで、
「入力_音声」は、要求者が入力した音声サンプルを表している。
特徴_ベクトル = 特徴_抽出(入力_音声);
歪み1 = 計算_間隔(特徴_ベクトル, 適応される_コードブック);
歪み2 = 計算_間隔(特徴_ベクトル, 元の_コードブック);
(歪み1 < 歪み2)であるならば、
重心を再計算
パターンテーブル値を再計算
終了
ここで、
「入力_音声」は、要求者が入力した音声サンプルを表している。
「特徴_抽出」は、音声サンプル「入力_音声」から特徴ベクトルを抽出するための1つまたは複数の音声処理方法を表している。
「特徴_ベクトル」は、1つまたは複数の音声処理方法「特徴_抽出」を用いて音声サンプル「入力_音声」から抽出された特徴ベクトルを表している。
「適応される_コードブック」は、要求者が主張している登録者の適応テンプレートのベクトル量子化コードブックの実行方法を表している。
「元の_コードブック」は、要求者が主張している登録者の基本テンプレートのベクトル量子化コードブックの実行方法を表している。
「計算_間隔」は、特徴ベクトル「特徴_ベクトル」と所定のコードブックの重心との間隔を算出するためのベクトル量子化方法を表している。
「歪み1」は、方法「計算_間隔」を用いて、特徴ベクトル「特徴_ベクトル」と、適応されるテンプレート「適応される_コードブック」の重心とから算出された歪み(すなわちマッチングスコアd1)を表している。
「歪み2」は、方法「計算_間隔」を用いて、特徴ベクトル「特徴_ベクトル」と、基本テンプレート「元の_コードブック」の重心とから算出された歪み(すなわちマッチングスコアd2)を表している。
「重心を再計算」では、基本テンプレートおよび適応されるテンプレートの重心を再計算するための処理が呼び出される(演算312を参照)。
「パターンテーブル値を再計算」では、基本テンプレートおよび適応されるテンプレートに関連するパターンテーブル値を再計算するための処理が呼び出される(演算314を参照)。
このようにして、上記の擬似コードに従って、要求者の特徴ベクトルのベクトル量子化歪みが、適応されるコードブックおよび基本コードブックの少なくとも1つに対して決定される。適応されるコードブック歪み(歪み1)が、基本コードブック歪み(歪み2)よりも小さい場合、複数のコードブックの内の1つに関する重心およびパターンテーブル値が再計算される。
以下の模範的な擬似コードは、模範的な音声ベースの実行方法に関連する適応処理(すなわち演算310と312)の再計算部分を説明するのをさらに補足するように示されている。
すなわち、
歪み = 計算_間隔(特徴_ベクトル, 元の_コードブック);
j = 1のコードブック_サイズである場合、
適応される_コードブック(j) = 元の_コードブック(j) + (信頼_係数) *平均(重心「j」に対応する特徴_ベクトル);
適応される_パターン_テーブル(j) = パターン_テーブル(j) + パターン_係数 * 新たな_パターン;
終了
ここで、
「特徴_ベクトル」は、要求者が提供したサンプルから抽出された特徴ベクトルを表している(ここで真であると決定される)。
歪み = 計算_間隔(特徴_ベクトル, 元の_コードブック);
j = 1のコードブック_サイズである場合、
適応される_コードブック(j) = 元の_コードブック(j) + (信頼_係数) *平均(重心「j」に対応する特徴_ベクトル);
適応される_パターン_テーブル(j) = パターン_テーブル(j) + パターン_係数 * 新たな_パターン;
終了
ここで、
「特徴_ベクトル」は、要求者が提供したサンプルから抽出された特徴ベクトルを表している(ここで真であると決定される)。
「元の_コードブック」は、認証セッションで用いられる基本テンプレートのベクトル量子化コードブックの実行方法を表している。
「歪み」は、方法「計算_間隔」を用いて特徴ベクトル「特徴_ベクトル」と基本テンプレート「元の_コードブック」の重心とから算出された歪みを表している。
「コードブック_サイズ」は、基本テンプレートの複数の重心を表している。
「適応される_コードブック(j)」は、サイズ「j」の(すなわちjの重心を有する)適応されるコードブックを表している。
「元の_コードブック(j)」は、サイズ「j」の(すなわちjの重心を有する)基本コードブックを表している。
「信頼_係数」は、マッチングスコアに基づいて計算される値を表しており、また具体的な実行方法の利用環境に依存し得る。
「平均(重心「j」に対応する特徴_ベクトル)」は、対応する重心に対して最小の歪みを有する特徴ベクトルの平均を表している。
「適応される_パターン_テーブル(j)」は、適応される_コードブック(j)に関連する適応されるパターンテーブルを表している。
「パターン_テーブル(j)」は、元の_コードブック(j)に関連する元のパターンテーブルまたは「基本」パターンテーブルを表している。
「パターン_係数」は、所定の実行方法が用いられる環境の関数であり得る調整可能なパラメータを表している。
「新たな_パターン」は、基本パターンテーブルと同様に算出されたパターンテーブルを表している。
上記の擬似コードに従って、認証セッションが成功した間に発せられた認証発声を用いることによって、登録者の声紋(すなわちテンプレート)を適応させることが可能である。認証発声から抽出された特徴は、正味の歪みに応じてコードブックの複数の重心に割り当てられる。次に、重心値を再計算し得る。より具体的には、各特徴ベクトルの歪みは、各コードブックエントリ(すなわち重心)に対して計算され、この結果、コードブックの重心の各々からの特徴ベクトルの歪みのすべてのエントリを有する歪み行列を生成できる。次に、コードブックのエントリ(すなわち重心)毎に、存在する重心と、信頼係数(例えば信頼_係数)で修正された(すなわちそれで乗算された)当該特定のエントリに対して最小の歪みを有する特徴ベクトルの平均との和として、変更される重心を計算できる。パターンテーブルの値を再計算するために、同様の処理を適用し得る。コードブックを有する特徴ベクトルのパターンに応じて、パターンテーブルを適応させることができる。適応されるパターンテーブルは、存在するパターンテーブル(すなわち基本パターンテーブルまたは元のパターンテーブル)と、パターン係数(すなわちパターン_係数)で修正された(すなわちそれで乗算された)新たなパターン(元のパターンテーブルと同様に算出された)との和を含み得る。
パターン照合
パターン照合をバイオメトリクス認証システム(例えば話者認証システム)に用いて、例えば短い発声のような範囲の狭いバイオメトリクスに用いるために適用可能であり得る修正されたベクトル量子化スキームを提供するのを支援することが可能である。この修正されたベクトル量子化スキームにより、音声の変化に関する一定の情報量を適時付加することによって、従来のベクトル量子化に基づく認証システムを改良するのを支援することができる。コードブックの長さ(すなわち、コードブックに含まれているエントリ量)は、典型的に、所定の話者の音声の明確な特性のすべてまたはほとんどに対応するように十分に長くなければならない。長い発声が話者認証システムに入力された場合、話者の音声のいくつかの特性が長時間にわたって繰り返され、これにより、コードブックのいくつかのエントリに関する複数の問い合わせが行われる。他方、短い発声のほとんどの特性は固有であると認識されている。結果として、短い発声が用いられるときには、コードブックエントリに関する複数の問い合わせはほとんど行われない場合がある。したがって、所定の話者および発声については、コードブックエントリの問い合わせの頻度を得ることによって、人の音声のいくつかの時間特性を得ることが可能になる。次に、認証中に、これらの特性を比較し得る(標準コードブックの比較に加えて)。
パターン照合
パターン照合をバイオメトリクス認証システム(例えば話者認証システム)に用いて、例えば短い発声のような範囲の狭いバイオメトリクスに用いるために適用可能であり得る修正されたベクトル量子化スキームを提供するのを支援することが可能である。この修正されたベクトル量子化スキームにより、音声の変化に関する一定の情報量を適時付加することによって、従来のベクトル量子化に基づく認証システムを改良するのを支援することができる。コードブックの長さ(すなわち、コードブックに含まれているエントリ量)は、典型的に、所定の話者の音声の明確な特性のすべてまたはほとんどに対応するように十分に長くなければならない。長い発声が話者認証システムに入力された場合、話者の音声のいくつかの特性が長時間にわたって繰り返され、これにより、コードブックのいくつかのエントリに関する複数の問い合わせが行われる。他方、短い発声のほとんどの特性は固有であると認識されている。結果として、短い発声が用いられるときには、コードブックエントリに関する複数の問い合わせはほとんど行われない場合がある。したがって、所定の話者および発声については、コードブックエントリの問い合わせの頻度を得ることによって、人の音声のいくつかの時間特性を得ることが可能になる。次に、認証中に、これらの特性を比較し得る(標準コードブックの比較に加えて)。
図4は、話者認証エンジン用の例示的な認証システムアーキテクチャ400を示している。認証システムアーキテクチャ400は、対象者(すなわち話者)からのバイオメトリック入力を受け取るためのバイオメトリックインタフェースコンポーネント402を含み得る。図4の実行方法に示したように、対象者が発した音声入力404(すなわち音響または発声)を受け取るために、バイオメトリックインタフェースコンポーネント402を適応させることが可能である。バイオメトリックインタフェースコンポーネントによって得られた1つまたは複数のバイオメトリック入力404を受け取り、またバイオメトリック入力404を、バイオメトリックアプリケーションによって利用可能な形態に変換するために、プリプロセッサコンポーネント406をバイオメトリックインタフェースコンポーネントに接続し得る。
プリプロセッサコンポーネント406の出力は、変換されたバイオメトリック入力をプリプロセッサコンポーネント406から受信する特徴抽出コンポーネント408に接続することが可能である。VQトレーニングおよびルックアップコンポーネント410(より具体的にはベクトル量子化トレーニングおよびルックアップコンポーネント)を特徴抽出コンポーネント408に接続することにより、トレーニングおよびルックアップコンポーネント410が、特徴抽出コンポーネント408から出力されたデータを受信することが可能になる。トレーニングおよびルックアップコンポーネント410を用いて、ベクトル量子化を行い、また発声404から抽出された特徴ベクトルに基づいて特徴ベクトル分析を繰り返すことが可能である。
さらに、トレーニングおよびルックアップコンポーネント410をコードブックデータベース412(より具体的にはトークンデータベース用の話者コードブック)と時間タグカウントデータベース414(より具体的には、予めトレーニングされた時間タグカウントデータベースまたは参照ログデータベース)とに接続することが可能であり、これにより、トレーニングおよびルックアップコンポーネント410が、トレーニング中および認証中にデータを読み取りおよび/または書き込むことが可能になる。コードブックデータベース412および時間タグカウントデータベース414の各々は、適切なメモリおよび/または記憶装置に属し得る。
認証システムアーキテクチャ400は決定モジュール/コンポーネント416をさらに含むことが可能であり、この決定モジュール/コンポーネント416をトレーニングおよびルックアップコンポーネント410に接続して、トレーニングおよびルックアップコンポーネント410から出力されたデータ/情報を受信することが可能である。適切なメモリおよび/または記憶装置に属する正当なインポスタモデルデータベース418を決定モジュールに接続して、正当なインポスタモデルデータベース418からデータを読み取りまたそのデータベース418にデータを書き込むことが可能である。決定モジュール416は、音声入力404に関連する対象者に承認420を発行するかまたは拒否422を発行するかどうかを決定するために(すなわち、話者が主張した同一性を認証するかまたは否定するかどうかを決定するために)、トレーニングおよびルックアップコンポーネント410と正当なインポスタモデルデータベース418とから得られたデータを用い得る。
図5Aと図5Bは、一実施形態によるベクトル量子化(VQ)トレーニング処理500のフローチャートを示している。1つの実行方法では、図4に示したトレーニングおよびルックアップコンポーネント410によって、トレーニング処理500を行うことが可能である。典型的な音声認証システムは、話者認証を成功させるために、典型的に、長く発話したパスワードまたは短い発声の組み合わせの入力を要求してくる。このようなシステムでは、発話したパスワードの長さが短くなることによって、話者認証の精度の著しい低下を招くことがある。本明細書に記載されている認証システムアーキテクチャの実行方法は、修正されたあまり複雑ではないベクトル量子化方法を用いることが可能である。これらの修正は、ベクトル量子化方法の実行時間を短くしてその方法をなお用いつつ、ダイナミックプログラミング(Dynamic Time Warping、DTW)およびHMMと同様の時間で音声の変化を考慮するように意図される。
演算502では、ベクトル量子化トレーニングは、所定の音声トークンおよび所定の話者のために行われる。ベクトル量子化トレーニングは、演算502を行うために、任意の公知のベクトル量子化トレーニング方法を用いることが可能である。例えば、トレーニングは、リンデ・ブゾ・グレイ(LBG)アルゴリズム(LBG設計アルゴリズムとも呼ばれる)を用い得る。すべての音声トークンおよび話者のために、ベクトル量子化トレーニング処理が完了するまで、音声トークンおよび話者毎に、演算502のベクトル量子化トレーニングを繰り返すことが可能である。
演算506では、コードブックへの参照リストは、演算502で行われたベクトル量子化トレーニング処理から得られる。コードブックへの参照リストは、発声で発生した特徴ベクトルのすべてのリストを含み得る。図5Aに示したように、演算506は、以下の模範的な擬似コードを用い得る。
すなわち、
フレームインデックス[フレーム番号] = コードブックインデックス
ここで、
「フレームインデックス」は、端から端まで順序付けられたすべての繰り返しに関する音声フレームとコードブックエントリとの間のマップである。
フレームインデックス[フレーム番号] = コードブックインデックス
ここで、
「フレームインデックス」は、端から端まで順序付けられたすべての繰り返しに関する音声フレームとコードブックエントリとの間のマップである。
「フレーム番号」は、設定{1...最大フレーム}と、最も近いマッチングコードブックエントリとの間の値である。
「コードブックインデックス」は、セット{1...コードブック長さ}の値である。
上記の擬似コードに記載されているように、参照リストは、発声で認識された特徴ベクトルを、各特徴ベクトルが認識される発声の1つまたは複数の特定のフレームにマッピングするフレームインデックスを含み得る。例示的な実施例として、フレームx、yおよびzと、特徴ベクトルa、b、cおよびdとを含む発声において、参照リスト(すなわちフレームインデックス)は、特徴ベクトルaがフレームxとフレームzとに発生すること、特徴ベクトルbとcのいずれかがフレームyに発生すること、および特徴ベクトルdがフレームzに発生することを特定することが可能である。
演算508では、トークンコードブックカウント(「tcbCnt」)はゼロに初期化される。演算510では、トークンコードブックカウントはアクセスカウントで構成される。アクセスカウントは、発声において所定の特徴ベクトルが発生するその発生数を反映し得る。上記の例示的な実施例を引き続き説明すると、演算508は、特徴ベクトルaに関するアクセスカウントを5回発生させ、また特徴ベクトルb、cおよびdの各々に関するアクセスカウントを1回発生させる。以下の模範的な擬似コードを用いて、演算510の実行方法についてさらに説明する。
すなわち、
ii = 1から最大フレームである場合、
//増分cbエントリアクセスカウント
RefLog(i(ii)) = RefLog(フレームインデックス[フレーム番号]) + 1;
終了
次に、以下の模範的な擬似コードによって示すように、演算212の繰り返し数に対してトークンコードブックカウントを平均化し得る。
ii = 1から最大フレームである場合、
//増分cbエントリアクセスカウント
RefLog(i(ii)) = RefLog(フレームインデックス[フレーム番号]) + 1;
終了
次に、以下の模範的な擬似コードによって示すように、演算212の繰り返し数に対してトークンコードブックカウントを平均化し得る。
すなわち、
//繰り返し数に対する平均指数
ii = 1からコードブック_サイズである場合、
RefLog(ii) = RefLog(ii)/繰り返し数;
終了
このようにして、演算512では、発声の所定の特徴ベクトルの発生総数を、発声で認識された特徴ベクトルの繰り返し発生の総数で除算して、フレームインデックスの各特徴ベクトルの総アクセスカウントを平均化することが可能である。
//繰り返し数に対する平均指数
ii = 1からコードブック_サイズである場合、
RefLog(ii) = RefLog(ii)/繰り返し数;
終了
このようにして、演算512では、発声の所定の特徴ベクトルの発生総数を、発声で認識された特徴ベクトルの繰り返し発生の総数で除算して、フレームインデックスの各特徴ベクトルの総アクセスカウントを平均化することが可能である。
トークン毎に演算510と512で得られたデータは、メモリおよび/または記憶装置に属し得る参照ログ514(「RefLog」)に記憶することが可能である(例えば図4のデータベース414)。各トークンの参照ログ514は、音声フレームによる参照数を各コードブックエントリに反映する。参照ログ514用の模範的なフォーマットが以下の表1に示されている。
上記の表1に示したように、所定のトークンの参照ログ514は、1に等しいエントリから、当該特定のトークンに関するコードブックサイズに等しいエントリまでのコードブックエントリ(すなわち左側の列)を含むことが可能である。例示的な参照ログ514の右側の列には、所定の特徴ベクトルにおけるその発生数ならびに発声における所定の特徴ベクトルの発生総数を記憶し得る。例えば、上記の表のコードブックエントリ「1」が、話者の以前の例示的なシナリオからの特徴ベクトルaに一致した場合、表の右側の列は、発声における合計で2回の発生(すなわち、特徴ベクトルaに関する2回の繰り返し発生)について特徴ベクトルaがフレームxとzに1回発生するコードブックエントリ「1」に関する行に指示を出すことが可能である。
演算516および決定518を参照すると、トレーニング中に、すべてのトークンに関する参照ログは、最大のコードブック参照数を含む新たな参照ログを生成するように組み合わせられる。参照ログは、多数の話者およびトークンに関する参照ログを有するデータベース520から得られる。コードブックエントリ毎に、最大の参照数フィールドが、すべての参照ログから選択され、またグローバル参照ログ522(GRefLog)を構成するために用いられる。
グローバル参照ログデータベース522に関する模範的なフォーマットが以下の表に示されている(参照ログ514に関する模範的なフォーマットと同様である)。
演算516と518に示したように、コードブックエントリ「1」が第1の参照ログを2回、第2の参照ログを3回、また第3の(最後の)参照ログを5回繰り返したことが認識された場合、GRefLogのコードブックエントリ「1」に関する参照エントリ数は5回の繰り返し値に設定される。1つまたは複数のRefLogと同様に、生成されたGRefLogはメモリおよび/または記憶装置に属し得る(例えば図4のデータベース414)。
図6は、一実施形態によるベクトル量子化認証処理600に関するフローチャートを示している。この認証処理において、特定の同一性を主張する話者(すなわち要求者)の発声を分析して、話者が主張した同一性が実際のものであるかどうかを決定することが可能である。演算602では、所定の言語単語列部分集合(LVS)、トークンおよび話者に関する特徴ベクトルをロードし得る。これらの特徴ベクトルのために、演算604において、最も近いマッチングエントリをコードブックから得ることが可能である。さらに、特徴ベクトルとマッチングエントリとの間隔(すなわち歪み測定値)を演算604で決定することも可能である。
演算606では、パターン照合を行い得る。発生数に関する基準を満たさなかった場合、ペナルティを付与することが可能である。以下の模範的な擬似コードを用いて、演算606の実行方法についてさらに説明する。
すなわち、
認証RefLog = 認証トークンに関する生成RefLog
stg = 認証RefLogからのトークンに関する参照総数
stc = RefLogからのトークンに関する参照総数
総ペナルティ = 0;
//アクセス番号の正規化
実際のもの = stg/stc;
認証RefLog[1...コードブック_サイズ] = 認証RefLog[1...コードブック_サイズ]/実際のもの;
//認証RefLogとRefLogとの差に基づくペナルティの付与
cb = 1 : コードブック_サイズである場合、
mx = 最大(認証RefLog(cb), RefLog(cb));
mn = 最小(認証RefLog(cb), RefLog(cb));
(((mx - mn) >= noiseMin) & (mx >= mn * diffFact))であるならば、
((mx - mn) <= validDiff)であるならば、
patDif = (mx-mn)/2;
さもなければ
patDif = (mx - mn) * 1.5;
終了
ペナルティ = patDif * eer;
総ペナルティ = 総ペナルティ + ペナルティ;
終了
終了
間隔 = VQdist + 総ペナルティ
ここで、
「認証RefLog」は、要求者が発した発声から抽出された特徴ベクトルから生成されたRefLogである。図5Aと図5Bの演算508〜518に記載されているのと同様の処理を用いて、要求者の発声における特徴ベクトルの繰り返し発生に関する情報を得ることによって、認証RefLogを生成することが可能である。
認証RefLog = 認証トークンに関する生成RefLog
stg = 認証RefLogからのトークンに関する参照総数
stc = RefLogからのトークンに関する参照総数
総ペナルティ = 0;
//アクセス番号の正規化
実際のもの = stg/stc;
認証RefLog[1...コードブック_サイズ] = 認証RefLog[1...コードブック_サイズ]/実際のもの;
//認証RefLogとRefLogとの差に基づくペナルティの付与
cb = 1 : コードブック_サイズである場合、
mx = 最大(認証RefLog(cb), RefLog(cb));
mn = 最小(認証RefLog(cb), RefLog(cb));
(((mx - mn) >= noiseMin) & (mx >= mn * diffFact))であるならば、
((mx - mn) <= validDiff)であるならば、
patDif = (mx-mn)/2;
さもなければ
patDif = (mx - mn) * 1.5;
終了
ペナルティ = patDif * eer;
総ペナルティ = 総ペナルティ + ペナルティ;
終了
終了
間隔 = VQdist + 総ペナルティ
ここで、
「認証RefLog」は、要求者が発した発声から抽出された特徴ベクトルから生成されたRefLogである。図5Aと図5Bの演算508〜518に記載されているのと同様の処理を用いて、要求者の発声における特徴ベクトルの繰り返し発生に関する情報を得ることによって、認証RefLogを生成することが可能である。
「noiseMin」は、声質が変化したことによる参照数の観察された変化である。上記の実施例では、noiseMinは2の値に設定される。
「diffFact」は、RefLogの参照数と認証RefLogの参照数との係数差を表している。大きい値を用いることにより、ペナルティが付与される前に、人の音声のより大きい変化を許容できる。小さい値はその逆の効果を生じさせる。上記の実施例では、diffFactは2の値に設定される。
「validDiff」は値である。この値よりも小さい差は、エラー(詐称者)の可能性がより低いことを表し、したがって、小さいペナルティ(50%の差)が付与される。この実施例では、小さいペナルティは5に設定される。validDiffよりも大きい差は、エラーの可能性が高いことを表し、また大きいペナルティ(150%の差)が付与される。代わりに、固定値が2のペナルティではなく、付与されたペナルティとvalidDiffとの間の連続関係を用いてもよい。
「eer」は、音声バイオメトリクス装置の動作特性から導出される等しいエラーレートである。
「間隔」は、入力された音声とトレーニングセッションからの音声との間隔の合計である。大きい間隔は音声サンプルの大きい差を示している。
演算606用の擬似コードはパターンマッチング照合処理を示している。ベクトル量子化アクセスパターンは、登録中に記憶されて、認証中にマッチされる。ペナルティは、マッチしなかった場合に付与される。
演算608では、擬似ノイズおよび/または擬似音響に関する照合を行い得る。任意のエントリが、最大のマッチング数よりも多くのマッチングを有していると決定された場合、ペナルティが付与される。演算606と608において、データベース610から得られたトークン参照ログおよびグローバル参照ログに関するデータを用いることが可能である。以下の模範的な擬似コードを用いて、演算608の実行方法についてさらに説明する。
すなわち、
cb = 1 : コードブック_サイズである場合、
(認証RefLog(cb) >= GRefLog(cb))であるならば、
間隔 = 間隔 + 大きいペナルティ;
終了
終了
ここで、
「大きいペナルティ」は、間隔が詐称者を示すのに十分な大きさであろう値である。音声活動検出器(VAD)が正確に機能せずに、擬似の非音声フレームが承認されてしまうことをノイズ/擬似音響照合が指示し得ることにも留意されたい。大きいペナルティの値は、性質または使用するVADエンジンを考慮するように調整することが可能である。
cb = 1 : コードブック_サイズである場合、
(認証RefLog(cb) >= GRefLog(cb))であるならば、
間隔 = 間隔 + 大きいペナルティ;
終了
終了
ここで、
「大きいペナルティ」は、間隔が詐称者を示すのに十分な大きさであろう値である。音声活動検出器(VAD)が正確に機能せずに、擬似の非音声フレームが承認されてしまうことをノイズ/擬似音響照合が指示し得ることにも留意されたい。大きいペナルティの値は、性質または使用するVADエンジンを考慮するように調整することが可能である。
演算608用の擬似コードは擬似音響/ノイズ照合処理を示している。グローバルパターンマッチングテーブルGRefLogは人の音声の最大の変化を示している。これらの値よりも大きい変化は擬似音響または擬似ノイズの存在を示している。
次に、修正されるベクトル量子化間隔(すなわち歪み)は演算612で決定される。図示したように、1つの実行方法では、演算604で算出された1つまたは複数の標準ベクトル量子化間隔から演算606と608で付与された総ペナルティを(もしあれば)加算(または減算)することによって、修正されるベクトル量子化間隔を算出することが可能である。
演算614では、調整されたベクトル量子化間隔と、所定の言語単語列部分集合および/またはトークンに関連する正当なインポスタモデルとを用いて、要求者の同一性を承認するかまたは否定するかどうかについての決定を行い得る。図示したように、決定モジュールによって、演算614を行うことが可能であり、また正当なインポスタモデルデータベース616から、正当なインポスタモデルを得ることが可能である。
図6の認証処理600に記載されている1つまたは複数のペナルティ付与手順で示されている定数は、安全性および柔軟性の要求間のあるトレードオフを表していることに留意されたい。付与されたペナルティ(すなわち、付与されたペナルティ値)を変更または調整して、種々のアプリケーションシナリオに適合させることが可能である。
図7は、一実施形態による認証システムアーキテクチャを実行するための概略処理フローダイアグラムである。この実施形態では、トランザクションセンタ702はサブジェクト704にインタフェースで接続され、また音声識別エンジン706と通信する。この実施形態では、ベクトル量子化トレーニング708は、入力された音声とトレーニングセッションからの音声との近似を決定するために、ベクトル量子化認証710に利用可能なRefLogを生成し得る。
トランザクションセンタ702は、話者706が名前を提供し、また話者706が、話者に関連していると思われる名前を言って応答することを要求する(演算712と714を参照)。トランザクションセンタ702は話者の発声を得て、その得られた発声を演算716で音声識別エンジン704に転送する。音声識別エンジン704は、話者が認証システムに未だ登録していない場合に、トランザクションセンタ702に指示を出して、話者702が複数回発声を繰り返しおよび/または付加情報を提供することを要求することが可能である(演算718と720を参照)。この指示に応答して、トランザクションセンタ702は、話者から適切な情報/発声を要求する(演算722と724を参照)。図5Aと図5Bに記載されているトレーニング処理500を用いて、演算712〜424を実現し得る。
話者706がトレーニングセッション708を完了し、したがって認証システムに登録した後に、引き続き、話者706は認証710を受けることが可能である。図7に示した実行方法では、話者706は、システムに登録されている話者に関連していると思われる発声(例えば、発話した名前)をトランザクションセンタ702に提供する(演算726を参照)。発声は、トランザクションセンタ702によって得られて、演算728で音声識別エンジン704に転送される。演算730では、音声識別エンジン704は、発声を認証し、また認証結果(すなわち、話者が認証に合格したかまたは失敗したかどうか)をトランザクションセンタに送信しまた話者に伝達する(演算732と734を参照)。図6に記載されている認証処理600を用いて、演算726〜434を実現し得る。
上記の種々のパターン照合の実行方法によれば、話者の同一性の認証を以下のように行うことが可能である。一実施形態では、特定の同一性を主張する話者(要求者とも呼ばれる)が発した発声(トークンとも呼ばれる)から抽出された特徴ベクトルが受け取られる。発声から抽出し得る特徴ベクトルのいくつかの例示的な実施例は、ケプストラム、ピッチ、韻律、および微細構造を含む。次に、主張されている同一性で構成されていることが認識される発声の形態(すなわち、要求者がここで主張している特定の同一性に関連してその話者が発話したこと)に関して、特徴ベクトル(符号語、符号ベクトル、重心とも呼ばれる)を含む同一性に関連するコードブックにアクセスし得る。
このコードブックでは、抽出された特徴ベクトルと、主張されている同一性で構成されていることが認識される発声の形態に関連するコードブックの対応する符号語(すなわち特徴ベクトル)との相違点を判断することが可能である(これに対して、相違点の代わりに、類似性を判断することも可能であることを理解されたい)。相違点/類似性の判断を歪み値、歪み測定値および/または間隔と呼んでもよい。
発声をさらに分析して、発声で認識された異なる特徴ベクトル毎に、繰り返し発生(繰り返し事象とも呼ばれる)に関する情報を確認することが可能である。この分析によって、発声で発生した特徴ベクトルの複数の事象(すなわち繰り返し事象または繰り返し)に関する情報を得て、発声に関する参照ログを生成することが可能である。すなわち、発声で2回以上発生した特徴ベクトルの発生に関する情報を得てもよい。
発声で発生した特徴ベクトルの繰り返し発生/事象に関する情報と、主張されている同一性で構成されていることが認識される発声の形態の特徴ベクトル(すなわち、同一性に関連するコードブックからの符号語)の繰り返し発生/事象に関する情報とを比較して、話者が発した発声と、主張されている同一性で構成されていることが認識される発声との特徴ベクトルの繰り返し発生の差を識別することが可能である。言い換えれば、発声で2回以上発生した事象を有する抽出された特徴ベクトルの発生に関する得られた情報と、主張されている同一性で構成されていることが認識される発声の形態(または少なくとも1つの形態)で2回以上発生した特徴ベクトルに関する情報とを比較し得る。
繰り返し発生/事象に関する情報の比較に基づいて、特徴ベクトルとコードブックとの判断された相違点(すなわち歪み測定値)にペナルティを付与することが可能である。付与されたペナルティによって修正されたような判断された相違点(すなわち歪み測定値)を用いて、話者の同一性を承認するかまたは否定するかどうかについての決定を行い得る。
一実施形態では、発声の特徴ベクトルのいずれかに関する繰り返し発生数(すなわちカウントまたは値)が、所定の最大の繰り返し発生数を超え、これによって、発声の擬似音響および/または擬似ノイズの存在を示した場合に、話者が主張した同一性を否定することが可能である。このような実施形態では、話者による発声の特徴ベクトルのいずれかが、最大の繰り返し発生数を超える繰り返し発生数を有していると決定された場合に、追加のペナルティを相違点に付与し得る。1つの実行方法では、話者が主張した同一性を承認/認定するかどうかについて決定する場合に、追加のペナルティは、発声を否定するのに十分な大きさであり得る。他の実行方法では、複数の話者が発した複数の発声(すなわち、認識されている同一性)を分析して、所定の特徴ベクトルの最大の繰り返し発生数を有する複数の発声の内の1つの発声を識別することによって、所定の特徴ベクトルに関する所定の最大数を得ることが可能である。このような実行方法では、最大数は、所定の特徴ベクトルの識別された最大の繰り返し発生数に関連しおよび/またはそれに等しくてもよい。このことは、一実施形態において、所定の特徴ベクトルを有する複数の発声のすべての発声を識別し、次に、識別された発声のこの部分集合を分析して、その部分集合のどの発声が、所定の特徴ベクトルに関する最大の繰り返し発生数を有しているかを決定することによって実現することが可能である。
他の実施形態では、ベクトル量子化を用いて、話者による発声の特徴ベクトルと、同一性で構成されていることが認識される発声の形態に関連するコードブックとの相違点を判断することが可能である。一実施形態では、発声は約0.1秒〜約5秒の継続時間であり得る。他の実施形態では、発声は約1秒〜約3秒の継続時間を有し得る。さらに他の実施形態では、発声は複数の音節の発声を含み得る(すなわち、発声は複数の音節を有し得る)。発声はまた、複数の単語の発声を含むことが可能である(すなわち、発声を2つ以上の単語から構成することが可能である)。
一実施形態では、付与されたペナルティは、発声の種々の特徴ベクトル毎に付与される別個のペナルティを含み得る。種々の特徴ベクトル毎に付与されるペナルティの測定値(すなわち値または量)は、発声のそれぞれの特徴ベクトルの繰り返し発生数と、同一性で構成されていることが認識される発声の形態の対応する特徴ベクトルの繰り返し発生数との差に基づいてもよい。
1つの実行方法では、発声のそれぞれの特徴ベクトルの繰り返し発生数と、同一性で構成されていることが認識される発声の形態の対応する特徴ベクトルの繰り返し発生数との差の程度に基づいて、所定の特徴ベクトルのために付与されるペナルティの値を調整し得る。別の実行方法では、話者による発声を得るために用いられる装置の動作特性を考慮するように、異なる特徴ベクトル毎に付与されるペナルティの値を調整することが可能である。
さらに他の実行方法では、発声のそれぞれの特徴ベクトルの繰り返し発生数と、同一性で構成されていることが認識される発声の形態の対応する特徴ベクトルの繰り返し発生数との差が、種々の時間に発声を行った場合に生じる可能性がある話者の音声の予想された(すなわち自然な)変化により発生した繰り返し発生の予想された差よりも小さいと決定された場合には、ペナルティを所定の特徴ベクトルに付与しなくてもよい。付加的な実行方法では、発声のそれぞれの特徴ベクトルの繰り返し発生数と、同一性で構成されていることが認識される発声の形態の対応する特徴ベクトルの繰り返し発生数との差が、同一性で構成されているような所定の特徴ベクトルの承認を誤るエラーの可能性が低くなる予め規定された値よりも小さいと決定された場合に、所定の特徴ベクトルのために付与されるペナルティの値を小さくすることが可能である。
付加的な実施形態では、話者の同一性を承認するかまたは否定するかどうかについて決定する場合に、付与されたペナルティによって修正されたような判断された相違点(すなわち歪み測定値)と、発声に関連する正当なインポスタモデルとを比較してもよい。別の実施形態では、発声は複数のフレームを含み得る。このような実施形態では、発声を分析して発声の特徴ベクトルの繰り返し発生/事象に関する情報を確認することが、各フレームに発生した特徴ベクトルを識別することと、発声の異なる各特徴ベクトルがフレームのすべてに発生する事象をカウントして各特徴ベクトルの繰り返し発生の合計を得ることと、各合計を、発声で発生した繰り返し発生の総数で除算することによって前記合計を平均化することを含んでもよい。
一実施形態では、複数のフレームを含みかつ複数の特徴ベクトルを有する発声を得ることによって、話者認証システムをトレーニングし得る。このような実施形態では、各フレームに存在する特徴ベクトルを識別することが可能であり、また発声全体に関するフレームによる特徴ベクトルの存在を表にすることが可能である。次に、発声で各特徴ベクトルが繰り返される事象数を識別することが可能であり、このことから、発声のすべての繰り返し事象の総数を算出することが可能である。その次に、特徴ベクトル毎の繰り返し数を総数で除算して、特徴ベクトル毎の平均値を得ることが可能であり、また特徴ベクトル毎の繰り返し数に関する情報を、発声に関連する参照ログに記憶することが可能である。1つの実行方法では、複数の話者が発した複数の発声の参照ログを検査して、参照ログに存在する種々の特徴ベクトルのすべてを含む1組の特徴ベクトルを識別することが可能である。次に、異なる特徴ベクトル毎に、単一の参照ログの当該特徴ベクトルに関する最大の繰り返し事象数を識別することが可能であり、またすべての特徴ベクトルに関する最大の繰り返し事象数を示すグローバル参照ログを生成することが可能である。
本明細書に記載されている種々の実施形態のために、発声は孤立単語または語句であることが可能であり、また関連音声または連続音声であることも可能である。一実施形態によれば、実行方法のための短い発声は、約4秒よりも短い、好ましくは最長約3秒の継続時間を有する発声であると考え得る。また、短い発声は、複数の音節であってもよく、および/または短い語句(すなわち、単語間の間隔が短い複数の別個の単語)を含む。
言語単語列部分集合は、所定の言語(例えば、英語、ドイツ語、フランス語、中国語等)の論理的または記述的な単語列部分集合を含み得る。例示的な言語単語列部分集合は、例えば、1〜10の整数を含んでもよい。トークンは、話者が発した発声として規定することが可能である。したがって、例示的な言語単語列部分集合では、第1のトークンは発声「1」を含むことが可能であり、第2のトークンは発声「2」を含むことが可能であり、そのようにして、最終的には、第10のトークンが発声「10」を含むことが可能である。
話者認証システムアーキテクチャの実施形態では、時間タグカウントフィールドをコードブックの各エントリに含み得る。トレーニングされて構成されると、コードブックは2回目のトレーニングを受けることが可能になる。
上記の種々の擬似コードで認識される同じ言葉は、それぞれの擬似コードで指摘されない限り、同様に規定され得ることを理解されたい。
したがって、本発明の話者認証システムアーキテクチャの実行方法により、短い発声に関する人の音声の時間情報を考慮し、また暗騒音の影響を低減することによって、従来のベクトル量子化システムを改良するのを支援することが可能になる。本発明の実施形態により、既存の話者認証解決方法に匹敵する認証精度を提供しつつ、話者認証システムを実装するコストを低減するのを支援することが可能になる。さらに、本明細書に記載されている話者認証システムアーキテクチャの実施形態により、認証システムへの登録を行うための時間、ならびに認証を行うのに必要な時間を低減するのを支援することが可能になる。アルゴリズムの実行速度を向上させることによって、話者認証システムアーキテクチャの実行コストを低減し得る。この話者認証システムアーキテクチャにより、データ分類用の修正されたあまり複雑ではないベクトル量子化方法を用いることが可能になる。本発明の話者認証システムアーキテクチャでは、確実な登録および認証のために、認証精度を低下させることなく、短い音声の発声を用いることが可能である。短い音声の発声および短縮された実行時間は、登録時間および認証時間を速くするのを支援し、したがって、登録中にまた認証中にユーザが費やす時間量を低減する。本発明の話者認証システムアーキテクチャの実施形態により、複雑なノイズ抑制ハードウェアおよびソフトウェアを用いることなく、ノイズに対するロバスト性を提供するのを支援することが可能になる。
典型的な環境
本明細書に記載されているバイオメトリクスシステムの実施形態を用いて、例えば、同様のパーソナルコンピュータ、携帯端末(PDA)、携帯電話、ナビゲーションシステム(例えばGPS)、環境制御盤等のような資源制約付き製品に関する安全性または利便性の特徴(例えば個人領域構成)を実行することが可能である。非侵入的利用において、例えば、人が発話した名前を用いて(または典型的に用いて)その人を識別することが可能であると共に、認証処理が進行していることをその人が気付くことなく、その人の同一性を認証し得る実行方法を含むトランザクションシステムにおいて、認証システムアーキテクチャの実施形態を実施し得る。
典型的な環境
本明細書に記載されているバイオメトリクスシステムの実施形態を用いて、例えば、同様のパーソナルコンピュータ、携帯端末(PDA)、携帯電話、ナビゲーションシステム(例えばGPS)、環境制御盤等のような資源制約付き製品に関する安全性または利便性の特徴(例えば個人領域構成)を実行することが可能である。非侵入的利用において、例えば、人が発話した名前を用いて(または典型的に用いて)その人を識別することが可能であると共に、認証処理が進行していることをその人が気付くことなく、その人の同一性を認証し得る実行方法を含むトランザクションシステムにおいて、認証システムアーキテクチャの実施形態を実施し得る。
上記の説明によれば、ユーザのバイオメトリック特徴の変化に基づく、バイオメトリクスシステムに登録されているユーザ(すなわち登録者)のバイオメトリックモデル(例えば、テンプレート、コードブック、パターンテーブル等)の更新を以下のように行うことが可能である。一実施形態によれば、この処理は、認証セッション中にユーザから受け取ったバイオメトリックサンプル(すなわち「第1の」バイオメトリックサンプル)の分析に基づいて、ユーザ(すなわち要求者)がバイオメトリクスシステムで承認された(すなわち認証に成功した)場合に開始し得る。この処理において、第1のバイオメトリックサンプルから抽出された特徴ベクトルが、バイオメトリクスシステムへの登録時にユーザから得られた初期のバイオメトリックサンプル(すなわち「第2の」バイオメトリックサンプル)を用いて生成された(すなわち作成された)第1のモデル(すなわち、基本のまたは元のモデル/テンプレート/コードブック)と比較され、また以前に成功した認証セッションから得られた以前に承認されたバイオメトリックサンプル(すなわち「第3の」バイオメトリックサンプル)を用いて生成された第2のモデル(すなわち、追跡または適応したモデル/テンプレート/コードブック)と比較される。これらの比較は、特徴ベクトルが、基本モデルよりも追跡モデルの方によりぴったりとマッチしているかどうかを決定するために行われる。言い換えれば、抽出された特徴と基本モデルとよりも、抽出された特徴と追跡モデルとの方が類似性が高くなる(すなわち相違点が低くなる)かどうかを決定する。特徴が、基本モデルよりも追跡モデルの方によりぴったりとマッチしていた場合、この認証セッション中にユーザから得られた抽出特徴に基づいて、基本モデルおよび追跡モデルを更新し得る。
この処理の実施形態は、バイオメトリックサンプルがユーザの音声サンプル(すなわち発声)である音声認証システムで実施することが可能である。これらの実施形態は、各発声が短い、例えば約0.1秒〜約5秒の継続時間を有するシステムにおいても実施することができる。ベクトル量子化コードブックを含むモデルを有するベクトル量子化方法を用いて、実施形態を実施することも可能である。例えば、長時間にわたるユーザの音声の変化に基づいて、話者認証システムに登録されているユーザのコードブックを更新するために、実施形態を実施してもよい。このような実行方法では、話者の承認は、認証セッション中に話者から受け取った音声サンプルの分析に基づくことができる。音声サンプルから抽出された特徴ベクトルは、話者認証システムに話者を登録する際に得られた初期の音声サンプルから作成された元のコードブックと比較し、また以前の認証セッションから得られた以前に承認された音声サンプルを用いて計算された追跡コードブックと比較することができる。この比較から、特徴ベクトルが、元のテンプレートよりも追跡コードブックの方によりぴったりとマッチしているかどうかを決定することが可能である。特徴が、第1のテンプレートよりも第2のテンプレートの方によりぴったりとマッチしていた場合、コードブックを更新するために、抽出された特徴を用いて、コードブックの重心を再計算できる。
他の実施形態では、更新されたモデルをデータ記憶装置に記憶できる。別の実施形態では、更新は、信頼係数をモデルに適用することを含むことができる。一実施形態では、更新は、各重心からの特徴の歪みに基づいて第1および第2のモデルの重心を再計算することを含み得る。
一実施形態では、比較は、特徴と第1のモデルとの間で算出された歪みと、特徴と第2のモデルとの間で算出された歪みとを比較することを含んでもよい。このような実施形態では、ユーザの承認中に歪みを算出できる。
別の実施形態によれば、比較は、特徴と第1のモデルとの相違点を判断し、また特徴と第2のモデルとの相違点を判断することを含み得る。第1のバイオメトリックサンプルを分析して、第1のバイオメトリックサンプルの特徴の繰り返し発生に関する情報を確認することも可能である。例えば、音声ベースの実行方法では、発声を分析して、発声の特徴ベクトルの繰り返し発生に関する情報を確認することができる。第1のバイオメトリックサンプルで発生した特徴の繰り返し発生に関する情報と、ユーザが発したと認識されているバイオメトリックサンプルの少なくとも1つの以前の形態の特徴の繰り返し発生に関する情報とを比較し得る。上記の音声ベースの模範的な実行方法に続いて、例えば、発声で発生した特徴ベクトルの繰り返し発生に関する情報と、主張されている同一性で構成されていることが認識される発声の形態の特徴ベクトルの繰り返し発生に関する情報とを比較できる。繰り返し発生の比較に基づいて、判断された相違点にペナルティを付与し得る。このような実行方法では、モデルの更新は、第1のバイオメトリックサンプルの特徴の繰り返し発生に関する情報に基づく係数によって、ユーザが発したと認識されるバイオメトリックサンプルの少なくとも1つの以前の形態の特徴の繰り返し発生に関する情報を修正することをさらに含んでもよい。
コンピュータソフトウェア、ファームウェア、ハードウェア、あるいはそれらの任意の組み合わせまたは部分集合体を含むコンピュータプログラミングまたはエンジニアリング技術を用いて、本明細書に記載されている種々の実施形態をさらに実施し得る。本明細書に記載されているコンポーネントについて、種々のサブコンポーネントを有するものとして説明してきたが、種々のサブコンポーネントをシステムのコンポーネントとみなすことも可能である。例えば、システムの任意のコンポーネントで実行される特定のソフトウェアモジュールをシステムのコンポーネントとみなしてもよい。さらに、そのシステムの実施形態またはコンポーネントは、マイクロプロセッサのような中央処理装置と、バスを介して相互に接続されるいくつかの他の装置とを有するコンピュータで実行することが可能である。また、このようなコンピュータは、ランダムアクセスメモリ(RAM)と、リードオンリメモリ(ROM)と、例えばディスク記憶装置およびプリンタのような周辺装置をバスに接続するためのI/Oアダプタと、例えばキーボード、マウス、スピーカ、マイクロホンのような種々のユーザインタフェース装置を、および/あるいはタッチスクリーンまたはデジタルカメラのような他のユーザインタフェース装置をバスに接続するためのユーザインタフェースアダプタと、コンピュータを通信ネットワーク(例えばデータ処理ネットワーク)に接続するための通信アダプタと、バスを表示装置に接続するためのディスプレイアダプタとを含んでもよい。コンピュータは、例えば、Microsoft Windows(登録商標)オペレーティングシステム(O/S)、Macintosh O/S、Linux(登録商標) O/Sおよび/またはUNIX(登録商標) O/Sのようなオペレーティングシステムを利用することが可能である。当業者は、記載した以外のプラットフォームおよびオペレーティングシステムにおいても、実施形態を実施し得ることを理解するであろう。当業者はまた、ソフトウェアと、適切な汎用コンピュータハードウェアまたは特殊目的コンピュータハードウェアとを組み合わせて、本明細書に記載されている種々の実施形態を実施するためのコンピュータシステムまたはコンピュータサブシステムを形成することができるであろう。使用する条件論理回路は、1つまたは複数のシーケンス機能を行う/果たすことができるハードウェアおよび/またはソフトウェアコンポーネントとして規定し得ることを理解されたい。したがって、論理回路は、コンピュータハードウェア、回路(または回路素子)および/またはソフトウェア、あるいはそれら任意の組み合わせを含むことが可能である。
本発明の実施形態は、例えば、ActiveX(登録商標)、JAVA(登録商標)、C言語、およびC++言語のようなコンピュータプログラム言語を用いて、またオブジェクト指向プログラミング方法を用いて実施することも可能である。コンピュータ読み取り可能なコードを有する任意のこのようなリザルトプログラムを1つ以上のコンピュータ読み取り可能な媒体で具体化するかまたはそれに提供することが可能であり、このようにして、コンピュータプログラム製品(すなわちアーティクルマニファクチャ)が作成される。コンピュータ読み取り可能な媒体は、例えば、固定(ハード)ディスクドライブ、フレキシブルディスク、光ディスク、磁気テープ、リードオンリメモリ(ROM)のような半導体メモリ等であるか、あるいはインターネットまたは他の通信ネットワークまたは通信リンクのような任意の送信/受信媒体であり得る。1つの媒体からコードを直接実行することによって、コードを1つの媒体から他の媒体にコピーすることによって、あるいはネットワークを介してコードを送信することによって、コンピュータコードを含むアーティクルマニファクチャを作成しおよび/または用いることが可能である。
上記の仕様に基づき、コンピュータソフトウェア、ファームウェア、ハードウェア、あるいはそれらの任意の組み合わせまたは部分集合体を含むコンピュータプログラミングまたはエンジニアリング技術を用いて、本発明の実施形態を実施し得る。コンピュータ読み取り可能なコードを有する任意のこのようなリザルトプログラムを1つ以上のコンピュータ読み取り可能な媒体で具体化するかまたはそれに提供することが可能であり、このようにして、本明細書に記載されている1つ以上の実施形態のコンピュータプログラム製品(すなわち、アーティクルマニファクチャ)の実装が行われる。コンピュータ読み取り可能な媒体は、例えば、固定ディスクドライブ(例えばハードディスクドライブ)、フレキシブルディスク、光ディスク、磁気テープ、例えばリードオンリメモリ(ROM)、フラッシュメモリのような半導体メモリ等であり、ならびに/あるいはインターネットおよび/または他の通信ネットワークまたは通信リンクのような任意の送信/受信媒体であり得る。1つの媒体からコードを直接実行することによって、コードを1つの媒体から他の媒体にコピーすることによって、および/あるいはネットワークを介してコードを送信することによって、コンピュータコードを含むアーティクルマニファクチャを作成しおよび/または用いることが可能である。さらに、コンピュータ技術の当業者は、説明してきたように作成されたソフトウェアと、適切な汎用コンピュータハードウェアまたは特殊目的コンピュータハードウェアとを組み合わせて、本明細書に記載されているシステムの実施形態または部分を具体化するコンピュータシステムまたはコンピュータサブシステムを形成することができるであろう。
種々の実施形態について説明してきたが、それらの実施形態は一例として示されているものに過ぎず、限定的なものではない。特に、音声ベースの実行方法において、記載されている多くの実施形態について説明してきたが、当業者は、例えば、指紋、虹彩、顔および他の身体的特徴、さらには筆跡のような他のバイオメトリック特徴および性質を用いて、本明細書に記載されている実施形態を実施することが可能であり得ることを理解すべきである。したがって、任意の実施形態の精神と範囲は、上記の模範的な実施形態のいずれによっても限定されるべきではなく、以下の請求項およびそれらの等価物によってのみ規定されるべきである。
100…バイオメトリクスシステム、102…認証モジュール、104…入力、106…データ記憶装置、116…テンプレート適応/増分するトレーニングモジュール、200…アーキテクチャ、402…クライアントバイオメトリクスインタフェース、406…プリプロセッサ、408…特徴抽出、412…トークン用の話者コードブック、410…VQトレーニングおよびルックアップ、414…予めトレーニングされた時間タグカウント、418…正当なインポスタモデル、416…決定モジュール、420…承認、422…拒否。
Claims (20)
- 1.バイオメトリックシステムにおけるバイオメトリックモデルを更新するための方法であって、
ユーザから受け取った第1のバイオメトリックサンプルの分析に基づいて前記ユーザを承認するステップと、
前記第1のバイオメトリックサンプルから抽出された特徴と、登録時に前記ユーザから得られた第2のバイオメトリックサンプルを用いて生成された第1のモデルとを比較し、また前記特徴と、以前に承認された第3のバイオメトリックサンプルを用いて生成された第2のモデルとを比較して、前記特徴が前記第1のモデルよりも前記第2のモデルの方によりマッチしているかどうかを決定するステップと、
前記抽出された特徴が前記第1のモデルよりも前記第2のモデルの方によりマッチしていた場合に、抽出された前記特徴に基づいて前記第1および第2のモデルを更新するステップと
を含むバイオメトリックモデルを更新するための方法。 - 前記バイオメトリックサンプルが音声を含む請求項1に記載の方法。
- 前記モデルの各々がコードブックを含み、また前記比較が、ベクトル量子化を用いて行われる請求項1に記載の方法。
- 更新された前記モデルがデータ記憶装置に記憶される請求項1に記載の方法。
- 前記比較が、前記特徴と前記第1のモデルとの間で算出された第1の歪みと、前記特徴と前記第2のモデルとの間で算出された第2の歪みとを比較するステップを含む請求項1に記載の方法。
- 前記歪みが前記ユーザの承認中に算出される請求項5に記載の方法。
- 前記更新ステップが、各重心からの前記特徴の歪みに基づいて前記第1および第2のモデルの重心を再計算するステップを含む請求項1に記載の方法。
- 前記更新ステップが、信頼係数を前記モデルに適用するステップを含む請求項1に記載の方法。
- 前記比較が、
前記特徴と前記第1のモデルとの相違点を判断し、また前記特徴と前記第2のモデルとの相違点を判断するステップと、
前記第1のバイオメトリックサンプルを分析して、前記第1のバイオメトリックサンプルの前記特徴の繰り返し発生に関する情報を確認するステップと、
前記第1のバイオメトリックサンプルで発生した前記特徴の前記繰り返し発生に関する情報と、前記ユーザが発したと認識される前記バイオメトリックサンプルの少なくとも1つの以前の形態の特徴の繰り返し発生に関する情報とを比較するステップと、
前記繰り返し発生の比較に基づいて、前記判断された相違点にペナルティを付与するステップと
を含む請求項1に記載の方法。 - 前記更新ステップが、前記第1のバイオメトリックサンプルの前記特徴の前記繰り返し発生に関する情報に基づく係数によって、前記ユーザが発したと認識される前記バイオメトリックサンプルの前記少なくとも1つの以前の形態の前記特徴の前記繰り返し発生に関する情報を修正するステップを含む請求項9に記載の方法。
- バイオメトリックモデルを更新するためのシステムであって、
ユーザから第1のバイオメトリックサンプルを受け取り、また該第1のバイオメトリックサンプルの分析に基づいて前記ユーザを承認するための認証モジュールと、
前記第1のバイオメトリックサンプルから抽出された特徴と、登録時に前記ユーザから得られた第2のバイオメトリックサンプルを用いて生成された第1のモデルとを比較し、また前記特徴と、以前に承認された第3のバイオメトリックサンプルを用いて生成された第2のモデルとを比較して、前記特徴が前記第1のモデルよりも前記第2のモデルの方によりマッチしているかどうかを決定するための決定モジュールと、
前記特徴が前記第1のモデルよりも前記第2のモデルの方によりマッチしていた場合に、抽出された前記特徴に基づいて前記第1および第2のモデルを更新するための適応モジュールと、
を備えるバイオメトリックモデルを更新するためのシステム。 - 前記バイオメトリックサンプルが音声を含む請求項11に記載のシステム。
- 前記モデルの各々がコードブックを含み、また前記比較がベクトル量子化を用いて行われる
請求項11に記載のシステム。 - 前記更新されたモデルが前記システムのデータ記憶装置に記憶される
請求項11に記載のシステム。 - 前記決定モジュールは、前記特徴と前記第1のモデルとの間で算出された第1の歪みと、前記特徴と前記第2のモデルとの間で算出された第2の歪みとを比較する
請求項11に記載のシステム。 - 前記適応モジュールは、各重心からの前記特徴の歪みに基づいて前記第1および第2のモデルの重心を再計算する
請求項11に記載のシステム。 - 前記適応モジュールは、信頼係数を前記モデルに適用する
請求項11に記載のシステム。 - 前記決定モジュールは、
前記特徴と前記第1のモデルとの相違点を判断し、また前記特徴と前記第2のモデルとの相違点を判断し、
第1のバイオメトリックサンプルを分析して、前記第1のバイオメトリックサンプルの前記特徴の繰り返し発生に関する情報を確認し、
前記第1のバイオメトリックサンプルで発生した前記特徴の前記繰り返し発生に関する情報と、前記ユーザが発したと認識される前記バイオメトリックサンプルの少なくとも1つの以前の形態の特徴の繰り返し発生に関する情報とを比較し、
前記繰り返し発生の比較に基づいて、前記判断された相違点にペナルティを付与する
請求項11に記載のシステム。 - 前記更新ステップが、前記第1のバイオメトリックサンプルの前記特徴の前記繰り返し発生に関する情報に基づく係数によって、前記ユーザが発したと認識される前記バイオメトリックサンプルの前記少なくとも1つの以前の形態の前記特徴の前記繰り返し発生に関する情報を修正するステップを含む請求項18に記載のシステム。
- コンピュータで読み取ることができるコンピュータプログラムであって、
ユーザから受け取った第1のバイオメトリックサンプルの分析に基づいて前記ユーザを承認するためのコンピュータコードと、
前記第1のバイオメトリックサンプルから抽出された特徴と、登録時に前記ユーザから得られた第2のバイオメトリックサンプルを用いて生成された第1のモデルとを比較し、また前記特徴と、以前に承認された第3のバイオメトリックサンプルを用いて生成された第2のモデルとを比較して、前記特徴が前記第1のモデルよりも前記第2のモデルの方によりマッチしているかどうかを決定するためのコンピュータコードと、
前記特徴が前記第1のモデルよりも前記第2のモデルの方によりマッチしていた場合に、前記抽出された特徴に基づいて前記第1および第2のモデルを更新するためのコンピュータコードと
を含むコンピュータプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/375,970 US20070219801A1 (en) | 2006-03-14 | 2006-03-14 | System, method and computer program product for updating a biometric model based on changes in a biometric feature of a user |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007249179A true JP2007249179A (ja) | 2007-09-27 |
Family
ID=38519024
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006351685A Pending JP2007249179A (ja) | 2006-03-14 | 2006-12-27 | バイオメトリック特徴の変化に基づいてバイオメトリックモデルを更新するためのシステム、方法、およびコンピュータプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20070219801A1 (ja) |
JP (1) | JP2007249179A (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010102254A (ja) * | 2008-10-27 | 2010-05-06 | Internatl Business Mach Corp <Ibm> | 話者テンプレートを更新する装置及び方法 |
JP2014502374A (ja) * | 2010-12-10 | 2014-01-30 | パナソニック株式会社 | 話者認識のためのモデリング・デバイスおよび方法、ならびに話者認識システム |
CN107958669A (zh) * | 2017-11-28 | 2018-04-24 | 国网电子商务有限公司 | 一种声纹识别的方法及装置 |
JP2018081297A (ja) * | 2016-11-18 | 2018-05-24 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 音声データを処理するための方法及び装置 |
JP2018092122A (ja) * | 2016-11-30 | 2018-06-14 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | ユーザ認証の方法及び装置 |
JP2020523643A (ja) * | 2017-06-16 | 2020-08-06 | アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited | 声識別特徴最適化および動的登録方法、クライアント、ならびにサーバ |
JP2021021955A (ja) * | 2017-06-30 | 2021-02-18 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 声紋の作成・登録の方法及び装置 |
Families Citing this family (99)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US20080256613A1 (en) * | 2007-03-13 | 2008-10-16 | Grover Noel J | Voice print identification portal |
US8086461B2 (en) | 2007-06-13 | 2011-12-27 | At&T Intellectual Property Ii, L.P. | System and method for tracking persons of interest via voiceprint |
JP2009020291A (ja) * | 2007-07-11 | 2009-01-29 | Yamaha Corp | 音声処理装置および通信端末装置 |
US20090216784A1 (en) * | 2008-02-26 | 2009-08-27 | Branda Steven J | System and Method of Storing Probabilistic Data |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
JP5121681B2 (ja) * | 2008-04-30 | 2013-01-16 | 株式会社日立製作所 | 生体認証システム、認証クライアント端末、及び生体認証方法 |
WO2009135517A1 (en) * | 2008-05-09 | 2009-11-12 | Agnitio S.L. | Method and system for localizing and authenticating a person |
US9099085B2 (en) * | 2008-07-21 | 2015-08-04 | Auraya Pty. Ltd. | Voice authentication systems and methods |
CA2736133C (en) * | 2008-09-05 | 2016-11-08 | Auraya Pty Ltd | Voice authentication system and methods |
US8537978B2 (en) * | 2008-10-06 | 2013-09-17 | International Business Machines Corporation | Method and system for using conversational biometrics and speaker identification/verification to filter voice streams |
JP5245971B2 (ja) * | 2009-03-26 | 2013-07-24 | 富士通株式会社 | 生体情報処理装置および方法 |
US8209174B2 (en) * | 2009-04-17 | 2012-06-26 | Saudi Arabian Oil Company | Speaker verification system |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US7698322B1 (en) | 2009-09-14 | 2010-04-13 | Daon Holdings Limited | Method and system for integrating duplicate checks with existing computer systems |
US20140188481A1 (en) * | 2009-12-22 | 2014-07-03 | Cyara Solutions Pty Ltd | System and method for automated adaptation and improvement of speaker authentication in a voice biometric system environment |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8582807B2 (en) * | 2010-03-15 | 2013-11-12 | Nec Laboratories America, Inc. | Systems and methods for determining personal characteristics |
US9118669B2 (en) * | 2010-09-30 | 2015-08-25 | Alcatel Lucent | Method and apparatus for voice signature authentication |
US20140095169A1 (en) * | 2010-12-20 | 2014-04-03 | Auraya Pty Ltd | Voice authentication system and methods |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US9390445B2 (en) | 2012-03-05 | 2016-07-12 | Visa International Service Association | Authentication using biometric technology through a consumer device |
WO2013155628A1 (en) | 2012-04-17 | 2013-10-24 | Zighra Inc. | Fraud detection system, method, and device |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
CN103514876A (zh) * | 2012-06-28 | 2014-01-15 | 腾讯科技(深圳)有限公司 | 噪音消除方法和装置、以及移动终端 |
US20140081637A1 (en) * | 2012-09-14 | 2014-03-20 | Google Inc. | Turn-Taking Patterns for Conversation Identification |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US10438591B1 (en) * | 2012-10-30 | 2019-10-08 | Google Llc | Hotword-based speaker recognition |
US8694315B1 (en) | 2013-02-05 | 2014-04-08 | Visa International Service Association | System and method for authentication using speaker verification techniques and fraud model |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101922663B1 (ko) | 2013-06-09 | 2018-11-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
JP6167733B2 (ja) * | 2013-07-30 | 2017-07-26 | 富士通株式会社 | 生体特徴ベクトル抽出装置、生体特徴ベクトル抽出方法、および生体特徴ベクトル抽出プログラム |
US9690389B2 (en) * | 2013-09-19 | 2017-06-27 | Dell Products L.P. | Force sensing keyboard with automatic adjustment of actuation force base on user typing style |
US9177567B2 (en) * | 2013-10-17 | 2015-11-03 | Globalfoundries Inc. | Selective voice transmission during telephone calls |
US9589560B1 (en) * | 2013-12-19 | 2017-03-07 | Amazon Technologies, Inc. | Estimating false rejection rate in a detection system |
US9472195B2 (en) * | 2014-03-26 | 2016-10-18 | Educational Testing Service | Systems and methods for detecting fraud in spoken tests using voice biometrics |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10187799B2 (en) * | 2014-08-19 | 2019-01-22 | Zighra Inc. | System and method for implicit authentication |
US10127911B2 (en) * | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US20160162900A1 (en) | 2014-12-09 | 2016-06-09 | Zighra Inc. | Fraud detection system, method, and device |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
CN104821934B (zh) * | 2015-03-20 | 2018-11-20 | 百度在线网络技术(北京)有限公司 | 基于人工智能的声纹登录方法和装置 |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US11538126B2 (en) * | 2015-07-30 | 2022-12-27 | The Government of the United States of America, as represented by the Secretary of Homeland Security | Identity verification system and method |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
CN109102812B (zh) * | 2017-06-21 | 2021-08-31 | 北京搜狗科技发展有限公司 | 一种声纹识别方法、系统及电子设备 |
US10896673B1 (en) * | 2017-09-21 | 2021-01-19 | Wells Fargo Bank, N.A. | Authentication of impaired voices |
CN108305615B (zh) * | 2017-10-23 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 一种对象识别方法及其设备、存储介质、终端 |
CN110827366B (zh) * | 2018-08-10 | 2023-05-02 | 北京眼神科技有限公司 | 虹膜特征模板更新方法、装置、可读存储介质及设备 |
US11216541B2 (en) * | 2018-09-07 | 2022-01-04 | Qualcomm Incorporated | User adaptation for biometric authentication |
US11158325B2 (en) * | 2019-10-24 | 2021-10-26 | Cirrus Logic, Inc. | Voice biometric system |
US11899765B2 (en) * | 2019-12-23 | 2024-02-13 | Dts Inc. | Dual-factor identification system and method with adaptive enrollment |
US11664033B2 (en) * | 2020-06-15 | 2023-05-30 | Samsung Electronics Co., Ltd. | Electronic apparatus and controlling method thereof |
WO2022236827A1 (zh) * | 2021-05-14 | 2022-11-17 | 华为技术有限公司 | 一种声纹管理方法及装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3001037B2 (ja) * | 1995-12-13 | 2000-01-17 | 日本電気株式会社 | 音声認識装置 |
AU5359498A (en) * | 1996-11-22 | 1998-06-10 | T-Netix, Inc. | Subword-based speaker verification using multiple classifier fusion, with channel, fusion, model, and threshold adaptation |
US5893059A (en) * | 1997-04-17 | 1999-04-06 | Nynex Science And Technology, Inc. | Speech recoginition methods and apparatus |
US6580814B1 (en) * | 1998-07-31 | 2003-06-17 | International Business Machines Corporation | System and method for compressing biometric models |
US20020143540A1 (en) * | 2001-03-28 | 2002-10-03 | Narendranath Malayath | Voice recognition system using implicit speaker adaptation |
US20020178004A1 (en) * | 2001-05-23 | 2002-11-28 | Chienchung Chang | Method and apparatus for voice recognition |
US7509257B2 (en) * | 2002-12-24 | 2009-03-24 | Marvell International Ltd. | Method and apparatus for adapting reference templates |
JP4497834B2 (ja) * | 2003-04-28 | 2010-07-07 | パイオニア株式会社 | 音声認識装置及び音声認識方法並びに音声認識用プログラム及び情報記録媒体 |
-
2006
- 2006-03-14 US US11/375,970 patent/US20070219801A1/en not_active Abandoned
- 2006-12-27 JP JP2006351685A patent/JP2007249179A/ja active Pending
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010102254A (ja) * | 2008-10-27 | 2010-05-06 | Internatl Business Mach Corp <Ibm> | 話者テンプレートを更新する装置及び方法 |
US8775178B2 (en) | 2008-10-27 | 2014-07-08 | International Business Machines Corporation | Updating a voice template |
US10621974B2 (en) | 2008-10-27 | 2020-04-14 | International Business Machines Corporation | Updating a voice template |
US11335330B2 (en) | 2008-10-27 | 2022-05-17 | International Business Machines Corporation | Updating a voice template |
JP2014502374A (ja) * | 2010-12-10 | 2014-01-30 | パナソニック株式会社 | 話者認識のためのモデリング・デバイスおよび方法、ならびに話者認識システム |
JP2018081297A (ja) * | 2016-11-18 | 2018-05-24 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 音声データを処理するための方法及び装置 |
JP2018092122A (ja) * | 2016-11-30 | 2018-06-14 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | ユーザ認証の方法及び装置 |
JP2020523643A (ja) * | 2017-06-16 | 2020-08-06 | アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited | 声識別特徴最適化および動的登録方法、クライアント、ならびにサーバ |
US11011177B2 (en) | 2017-06-16 | 2021-05-18 | Alibaba Group Holding Limited | Voice identification feature optimization and dynamic registration methods, client, and server |
JP2021021955A (ja) * | 2017-06-30 | 2021-02-18 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 声紋の作成・登録の方法及び装置 |
JP7062851B2 (ja) | 2017-06-30 | 2022-05-09 | バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド | 声紋の作成・登録の方法及び装置 |
CN107958669A (zh) * | 2017-11-28 | 2018-04-24 | 国网电子商务有限公司 | 一种声纹识别的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
US20070219801A1 (en) | 2007-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2007249179A (ja) | バイオメトリック特徴の変化に基づいてバイオメトリックモデルを更新するためのシステム、方法、およびコンピュータプログラム | |
US9646614B2 (en) | Fast, language-independent method for user authentication by voice | |
KR101995547B1 (ko) | 화자 검증을 위한 신경망들 | |
US9336781B2 (en) | Content-aware speaker recognition | |
US10950245B2 (en) | Generating prompts for user vocalisation for biometric speaker recognition | |
US5897616A (en) | Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases | |
TWI423249B (zh) | 用於文字相關之說話者認證之電腦實施方法、電腦可讀取儲存媒體及系統 | |
CN101465123B (zh) | 说话人认证的验证方法和装置以及说话人认证系统 | |
US7490043B2 (en) | System and method for speaker verification using short utterance enrollments | |
US7603275B2 (en) | System, method and computer program product for verifying an identity using voiced to unvoiced classifiers | |
US6401063B1 (en) | Method and apparatus for use in speaker verification | |
US6219639B1 (en) | Method and apparatus for recognizing identity of individuals employing synchronized biometrics | |
US20060222210A1 (en) | System, method and computer program product for determining whether to accept a subject for enrollment | |
TWI475558B (zh) | 詞語驗證的方法及裝置 | |
US6697779B1 (en) | Combined dual spectral and temporal alignment method for user authentication by voice | |
EP1989701A1 (en) | Speaker authentication | |
JP2007133414A (ja) | 音声の識別能力推定方法及び装置、ならびに話者認証の登録及び評価方法及び装置 | |
US20060293898A1 (en) | Speech recognition system for secure information | |
US20070219792A1 (en) | Method and system for user authentication based on speech recognition and knowledge questions | |
Gałka et al. | Voice authentication embedded solution for secured access control | |
JPH1173195A (ja) | 話者の申し出識別を認証する方法 | |
CN110111798B (zh) | 一种识别说话人的方法、终端及计算机可读存储介质 | |
US20030200087A1 (en) | Speaker recognition using dynamic time warp template spotting | |
JP7339116B2 (ja) | 音声認証装置、音声認証システム、および音声認証方法 | |
US6499012B1 (en) | Method and apparatus for hierarchical training of speech models for use in speaker verification |