JP2001501740A

JP2001501740A - アクセス制御アプリケーションのための、予測モデルを使用する話者の音声認識方法

Info

Publication number: JP2001501740A
Application number: JP09539577A
Authority: JP
Inventors: クロードモンタシエ; マリ―ジョゼカラティ; フロクジャン―リュクル
Original assignee: ユニヴェルシテピエールエマリキュリ
Priority date: 1996-05-03
Filing date: 1997-04-25
Publication date: 2001-02-06
Also published as: ES2150246T3; US6349279B1; DE69702602D1; FR2748343B1; WO1997042625A1; DE69702602T2; EP0896711B1; EP0896711A1; FR2748343A1

Abstract

(57)【要約】本発明は、ｑ-オーダー予測モデルを使用した話者の音声認識のための方法であり、１つ又はいくつかの発声に該当する話者の音声サンプルのデジタル獲得のステップを含む統計的特徴を抽出するためのステップと、この音声サンプルを、平均サイズＴであり平均間隔Ｉである解析ウィンドウのシリーズから得られるサイズｐのベクトルのシーケンスへ変換するステップと、このベクトルシーケンスからｑ＋１のマトリックスを決定するステップとからなる。平均サイズＴは１０ｍｓ未満の長さであり、平均間隔Ｉは４．５ｍｓ未満の長さである。本発明は、電気音変換システム（ＨＰ、６）と、本方法のための蓄積プログラム実装システム（５）とを含むサウンドロックに有用である。

Description

【発明の詳細な説明】アクセス制御アプリケーションのための、予測モデルを使用する話者の音声認識方法本発明は、予測モデルを使用する話者の音声認識方法に関し、特に、ベクトル自己回帰タイプの予測モデルを使用する話者の音声認識方法に関する。この方法は、話者を識別することと、話者の変更を識別することに同様に適用される。多くの分野へのアプリケーションがあるが、特に、アクセス制御の分野に応用される。アクセス制御は、話者の１つ又はそれ以上の発声を確認することにより働く。本発明は、これらに限定されるわけではないが、次の２分野に特別のアプリケーションがある。すなわち、サウンドロックを使用するアクセス許可と秘密情報へのアクセス許可、及び、金融オペレーション、及び／又は取引の正当性確認、遠隔情報サービスへの安全なアクセス等である。従来の技術による方法は、普通、学習モードと照合モードを含む。それらは、次のフェーズとステップのいくつかまたは全てを含む。すなわち、身元申告とサービス要求ステップ（フェーズ１）、話者の１つ又はそれ以上の発声の学習を許可するステップ（フェーズ２）、話者の１つ又はそれ以上の発声の照合を許可するステップ（フェーズ３）、１つ又はそれ以上の発声の統計的特徴を抽出するステップ（フェーズ４）、１つ又はそれ以上の発声の統計的特徴から予測モデルを算出するモデル（フェーズ５）、発声から身元を照合するステップ（フェーズ６）、発声から話者を同定するフェーズ（フェーズ７）、最初のフェーズで要求したリソースの全て又はいくつかへのアクセスを許可するステップ（フェーズ８）、統計的特徴の辞書と話者のいくつか又は全ての発声に相当する予測モデルを更新するステップ（フェーズ９）である。第１のフェーズにより、話者は、１つ又はそれ以上のリソースにアクセスする目的で、身元を申告し、オペレーティングモード（学習又は検証）を要求できる。第２のフェーズにより、話者は、アクセスデバイスの学習モードを使用できる。第３のフェーズにより、各話者は、アクセスデバイスの照合モードを使用できる。第４のフェーズは、１つ又はそれ以上の発声のデジタル獲得及びフィルタリングのステップ、サイズｐのベクトルを抽出するステップ、算出されたベクトルのいくつか又は全てのサイズｐ×ｐのｑ＋１の相関マトリックスを算出するステップを含む。ｑ＋１マトリックスは話者の発声の統計的特徴を形成する。第５のフェーズは、相関マトリックスからサイズｐ×ｐのｑの予測マトリックスを算出するステップ、関係するエラーマトリックスの逆を算出するステップを含む。これらのｑ＋１マトリックスは話者の発声の予測モデルを形成する。話者の発声のリファレンスは、統計的特徴と関連する予測モデルからなる。第６のフェーズは、１つ又はそれ以上の発声の統計的特徴と辞書からのいくつか又は全ての発声リファレンスとの間の計測された近似性を算出するステップと、身元照合の確率を算出するステップを含む。第７のフェーズは、１つ又はそれ以上の発声の統計的特徴と辞書からのいくつか又は全てのリファレンスとの間の計測された近似性を算出するステップと、発声に最も近いリファレンスを探索するステップと、話者の同定の確率を算出するステップを含む。第８のフェーズは、第１のフェーズで要求されたリソースのいくつか又は全てのリソースにアクセスすることを許可する。第９のフェーズは、辞書における話者の発声のリファレンスを更新するか、又は、新たな話者のリファレンスを辞書に追加するために使用される。話者の自動照合は、音声サンプルと一致した人の身元を照合することからなる。バイナリスキームに従い、２つの決定が可能である。すなわち、”本人確認” 又は”身元の本人確認がとれず”である。話者照合方法に関する多くの従来技術のドキュメントの中で、Claude Monttac ie及びJean-Luc Le Flochによる記事”Discriminant AR-Vector Models for Fre e-Text Speaker Verification（フリーテキスト話者照合のための判別ＡＲベクトルモデル）”、”Congres EuroSpeech 1993”出版、ページ１６１-１６４は１つの例として挙げることができる。この記事は、自動的に話者を照合する方法を開示しているが、良好に処理し、速く、そして騒音環境で動作する、話者を自動的に表示するシステムを得るためのパラメーターを抽出するための条件を説明していない。既に示した通り話者照合又は話者変更認識に等しく適応される上述の方法において、他の要因の中から、人の声の心理学的特徴を考慮することが必要である。特に、男性が話しているか、又は女性が話しているかにより、複雑な音声信号の基本波の周期は、それぞれ約１００Ｈｚ及び２００Ｈｚの周波数に一致する。以下で定義されるタイムウィンドウは上述の第４のフェーズの間使われる。音声処理技術においては、タイムウィンドウは前述の基本波周期よりも大きくなければならないとされている。言いかえれば、解析が基本波周期よりも大きな周期で適用される。その結果、通常用いられるウィンドウは、典型的には、１５ｍｓから４０ｍｓの範囲である。検証により、この時間間隔が減少するとパフォーマンスが落ち始めることが示されている。また、複数の重なり合うウィンドウが通常用いられる。また、ウィンドウの中央間の時間間隔として定義される、２つの連続するウィンドウの間の間隔は、約１０ｍｓのオーダーか、それより大きくなければならないとされている。驚くことには、前述の値よりずっと低い値を適用することで、パフォーマンスが改善し、より良い結果が得られることが発見されている。より詳細には、本発明によれば、ウィンドウの間隔は１０ｍｓ未満でなければならない。女性の基本波周期は約５ｍｓであり、男性は１０ｍｓであり、基本波の周期の平均（すなわち７．５ｍｓ）と等しいウィンドウが好ましくは選択される。同様にして、選択されるウィンドウ間隔は、４．５ｍｓ以下である。この値よりずっと低い値、例えば２ｍｓが、好ましくは選択される。本発明は、それゆえ、従来技術による方法の技術的特徴及び利点を保有しながらパフォーマンスを改善させる、予測モデルを使用する話者の音声認識の方法に関する。本発明による方法は、特に、ベクトル自己回帰タイプの予測モデルに適合する。本発明は、それゆえ、ｐとｑは０でない整数であって、話者の少なくとも１つの発声に相当する話者の特定の期間Ｄの音声サンプルをデジタル獲得するステップと、平均サイズＴであり平均間隔Ｉを持つ解析ウィンドウのシーケンスから得られた特定のサイズｐのベクトルのシーケンスに上記音声サンプルを変換するステップと、このベクトルのシーケンスからｑ＋１の相関マトリックスを決定するステップとを含む統計的特徴を抽出する少なくとも１つのフェーズからなるｑオーダー予測モデルを使用する話者音声認識の方法からなり、上記平均サイズＴは１０ｍｓ未満の期間を有することを特徴とする。本発明はまた、話者を同定し、話者の変更を捕らえる上記のような方法のアプリケーションからなる。本発明は更に、サウンドロックを使用するアクセス制御を行う上記方法のアプリケーションの方法からなる。最後に、本発明は、秘密情報へのアクセスを制御する上記方法のアプリケーション、特に、金融オペレーション、及び／又は取引の正当性確認、遠隔情報サービスへのアクセスのアプリケーションからなる。添付図面を参照して次の説明を読むことにより、本発明はより良く理解され、本発明の他の特徴及び利点は明らかになる。図面の簡単な説明図１はウィンドウ信号の一例を示す図である。図２は本発明の方法の詳細な説明で用いられるフローチャートである。図３はサウンドロックを使用するアクセスを制御する発明の方法のアプリケーションを示す図である。図４は秘密情報へのリモートアクセスを制御する発明の方法のアプリケーションを示す図である。前述した通り、本発明の方法は従来技術による方法の一般的な特徴を保持している。本発明の範囲を限定するいかなる意図なく、本発明の明確な考えを与えるために、次の説明は、ベクトル自己回帰タイプの予測モデルの特定のコンテクストに言及している。本発明の方法は、特に、オペレーションの３つの主要なファミリーに関係している。すなわち、特にベクトル自己回帰予測モデルに適合する、音声サンプルの統計的特徴を抽出することと、音声サンプル間での計測された近似性を算出すること、及び話者リファレンス辞書を更新することである。これらのオペレーションの主要なファミリーを説明する。本方法のこの部分は、サイズｐのベクトルのセットから算出されるｑ＋１のｐ ×ｐのオーダーの相関マトリックスにより音声サンプルを特徴付けている。そのベクトルを得る方法は、前述したフェーズ４に関係しており、本発明に固有の特徴を含む。音声サンプルの統計的特徴を抽出することに関連するオペレーションを詳細に説明する前に、用いられる用語を定義する必要がある。音声サンプルとは、音信号の任意の表現である（例えば、音、電気的、物理的、磁気的、光学的なもの等である）。音声サンプルのどのようなサブセットも音声サンプルである。音声サンプルのどのような結合も音声サンプルである。音声サンプルのデジタル獲得は、期間Ｄの音声サンプルを表すアナログ信号を、増加するサンプリング時間｛ｔ_i｝（ｉ＝１，…，Ｎ）でＮ個の数値｛ｘ_i｝（ｉ＝１，…，Ｎ）のシーケンスに変換することである。デジタルフィルタリングは、サンプリング時間｛ｔ_i｝（ｉ＝１，…，Ｎ）でのＮ個の数値｛ｘ_i｝（ｉ＝１，…，Ｎ）のシーケンスを、増加するサンプリング時間｛ｔ’_i｝（ｉ＝１，…，Ｎ’）でのＮ’個の数値｛ｘ’_i｝（ｉ＝１，… ，Ｎ’）のシーケンスに変換することである。数値｛ｘ_i｝（ｉ＝１，…，Ｎ）のシーケンスは、必要に応じて、多種類のフィルタリングを受けることができる。このケースでは、数値の新しいシーケンスが使用される。解析ウィンドウＦとは、時間｛ｔ_i｝（ｉ＝１，…，Ｎ）における値｛ｆ_i｝（ｉ＝１，…，Ｎ）の別々の関数ｆである。解析ウィンドウＦは、音声サンプルのデジタル獲得（及び任意のフィルタリング）に関連する。例として、長方形ウィンドウ、ハミングウィンドウ等がある。解析ウィンドウＦの最大Ｍは、次の方程式により定義される。解析ウィンドウＦのゾーンＺは、ｆ_Zi＝ｆ_Z(i)及びＮ_Z≦Ｎである値｛ｆ_Zi｝（ｉ＝１，…，Ｎ_Z）の別々の関数ｆ_Zであり、Ｚ（ｉ）はＺ（ｉ）＝ｉ＋Ｄ_Zの形の関数であり、Ｄ_Zは、０からＮ−Ｎ_Zの範囲の整数値である。解析ウィンドウＦのタイプＡのゾーンＺは、を満足するゾーンＺである。解析ウィンドウＦのタイプＢのゾーンＺは、を満足するゾーンＺである。解析ウィンドウＦは、タイプＡ又はＢのゾーンへ分割され得る。ゾーンＺの期間はｔ_Z(Nz)-ｔ_Z(1)に等しい。ゾーンＺ_Fは、Ｆの全ての分解の上で、より大きな期間のタイプＡのゾーンである。解析ウィンドウＦの期間は、Ｚ_Fの期間である。解析ウィンドウＦの中央は、方程式、により定義される。解析ウィンドウＦによりウィンドウされた音声サンプル｛ｘ_i｝（ｉ＝１，… ，Ｎ）は、Ｎ個の数値｛ｘｆ_i｝（ｉ＝１，…，Ｎ）のセットであり、ｘｆ_i＝ｘ_i ×ｆ_iである。２つの解析ウィンドウＦ₁とＦ₂の間隔は、方程式により定義される。ウィンドウ（Ｔ，Ｉ，Ｎ，Ｄ）のセットは、Ｎ_F個の連続する長さＮの解析ウィンドウ｛Ｆ_j｝（ｊ＝１，…，Ｎ_F）であり、Ｎ_F≦（Ｄ−Ｔ）／Ｉであり、Ｔは解析ウィンドウの平均期間であり、Ｉは２つの解析ウィンドウの間の間隔である。ウィンドウ（Ｔ，Ｉ，Ｎ，Ｄ）のセットは、音声サンプルのデジタル獲得（及び任意のフィルタリング）に関連する。サイズｐのベクトルの抽出は、解析ウィンドウＦによりウィンドウされた音声サンプル｛ｘ_i｝（ｉ＝１，…，Ｎ）からサイズｐのベクトルＹＦを算出する関数である。全ての非ヌルの｛ｘｆ_i｝（ｉ＝１，…，Ｎ）は、この関数を算出するために使用されなければならない。言いかえれば、セット｛ｘｆ_i｝（ｉ＝ｌ，…，Ｎ）の任意の非ヌルの値の大幅な修正は、大幅に関数の結果を修正しなければならない。次のパラメータ化が用いられる。例えば、フーリエ変換、ケプストラム、線形予測等である。ベクトル（｛ｘ_i｝，ｐ，Ｔ，Ｉ，Ｎ，Ｄ）のセットは、ウィンドウ（Ｔ，Ｉ，Ｎ，Ｄ）のセットから算出されるＮ_F個のベクトルのシリーズである° 音声サンプル（｛ｘ_i｝，ｐ，ｑ，Ｔ，Ｉ，Ｎ，Ｄ）の相関マトリックスは、サイズｐ×ｑのｑ＋１マトリックス｛Ｒ_m｝（ｍ＝０，…，ｑ）のセットであり、次の方程式を満足する。それらは、必要に応じて任意の方法で正規化される。本発明の方法の第４のフェーズは、話者照合に関連した音声サンプルに使用される予測モデルのための最良の可能な統計的特徴を得るパラメータ（ｐ，ｑ，Ｔ，Ｉ）を決定することからなる。パラメータｐは、任意の値を持ち得るが、その値は通常６から３０の範囲にある。本発明の１つの重要な特徴によれば、Ｔは１０ｍｓ未満であり、Ｉは４．５ｍｓ未満である。上記の種類の信号が完全であり得ないことは良く知られている。図１は、”振幅Ａ−時間ｔ”の軸の正規直交系におけるウィンドウを表す時間信号ＳＦ（ｔ）の略図である。ウィンドウの幅は、時間軸に平行な直線と信号ＳＦ（ｔ）を表すカーブとの交点を分けている時間間隔Ｔにより定義され得、例えば、振幅Ａ_maxの最大値の２０％のところである。また、ｑ、Ｔ及びＩは、Ｉ＜Ｔ／ｍａｘ（３、ｑ）により関係付けられていなければならない。例えば、もしｑ＝４かつＴ＝８ｍｓならば、Ｉは２ｍｓ未満でなければならない。一般的に、パラメータｑの値が高いほど、より良い統計的特徴が得られる。しかしながら、この改善は、計算オーバヘッドの増加というコストのもとで得られる。また、実際のインプリメンテーションにおいて、良い妥協点としてｑは通常１から１０の範囲で選択される。本発明はまた、前述したフェーズ６及び７で使用される音声サンプル間の計測された近似性に関する。予測モデルの計算は、話者の１つ又はそれ以上の発生の統計的特徴を使用して詳細に説明され、それがフェーズ５を構成する。計測された近似性は、予測モデルと関連するエラーマトリックスの計算を基礎としている。前と同様、使用される用語を定義することから始める。ベクトル（｛ｘ_i｝，ｐ，Ｔ，Ｉ，Ｎ，Ｄ）のセットの直接ベクトル予測モデル（｛ｘ_i｝，ｐ，ｑ，Ｔ，Ｉ，Ｎ，Ｄ）は、相関マトリックス｛Ｒm｝（ｍ＝０，…，ｑ）から算出されるサイズｐ×ｐのｑ個のマトリックス｛Ａ_m｝（ｍ＝１，…，ｑ）のセットである。その目的は、上記のｑベクトルから、最良の可能なベクトルである。ベクトル（｛ｘ_i｝，ｐ，Ｔ，Ｉ，Ｎ，Ｄ）のセットの逆行ベクトル予測モデル（｛ｘ_i｝，ｐ，ｑ，Ｔ，Ｉ，Ｎ，Ｄ）は、相関マトリックス｛Ｒ_m｝（ｍ＝０，…，ｑ）から算出されるサイズｐ×ｐのｑ個のマトリックス｛Ｂ_m｝（ｍ＝１，…，ｑ）のセットである。その目的は、次のｑのベクトルから、最良の可能なベクトル直接予測モデル（｛ｘ_i｝，ｐ，ｑ，Ｔ，Ｉ，Ｎ，Ｄ）によるベクトル（｛ｘ_i ｝，ｐ，Ｔ，Ｉ，Ｎ，Ｄ）のセット上の直接エラーε_j（｛ｘ_i｝，ｐ，ｑ，Ｔ，Ｉ，Ｎ，Ｄ，｛Ａ_m｝）は、直接予測モデル｛Ａ_m｝（ｍ＝１，…，ｑ）によるベクトル（｛ｘ_i｝，ｐ，Ｔ，Ｉ，Ｎ，Ｄ）のセットの逆フィルタリングに等しく、次の方程式が満たされる。逆行予測モデル（｛ｘ_i｝，ｐ，ｑ，Ｔ，Ｉ，Ｎ，Ｄ）によるベクトル（｛ｘ_i ｝，ｐ，Ｔ，Ｉ，Ｎ，Ｄ）のセット上の逆行エラーξ_j（｛ｘ_i｝，ｐ，ｑ，Ｔ，Ｉ，Ｎ，Ｄ，｛Ｂ_m｝）は、逆行予測モデル｛Ｂ_m｝（ｍ＝１，…，ｑ）によるベクトル（｛ｘ_i｝，ｐ，Ｔ，Ｉ，Ｎ，Ｄ）のセットの逆フィルタリングに等しく、次の方程式が満たされる。直接エラー（｛ｘ_i｝，ｐ，ｑ，Ｔ，Ｉ，Ｎ，Ｄ，｛Ａ_m｝）の直接エラーマトリックスＥ_A（｛ｘ_i｝，ｐ，ｑ，Ｔ，Ｉ，Ｎ，Ｄ，｛Ａ_m｝）は、直接エラー（｛ｘ_i｝，ｐ，ｑ，Ｔ，Ｉ，Ｎ，Ｄ，｛Ａ_m｝）のサイズｐ×ｐの共変マトリックスに等しく、次の方程式が満たされる。逆行エラー（｛ｘ_i｝，ｐ，ｑ，Ｔ，Ｉ，Ｎ，Ｄ，｛Ｂ_m｝）の逆行エラーマトリックスＥ_B（｛ｘ_i｝，ｐ，ｑ，Ｔ，Ｉ，Ｎ，Ｄ，｛Ｂ_m｝）は、逆行エラー（｛ｘ_i｝，ｐ，ｑ，Ｔ，Ｉ，Ｎ，Ｄ，｛Ｂ_m｝）のサイズｐ×ｐの共変マトリックスに等しく、次の方程式が満たされる。直接予測モデル｛Ａ_m｝（ｍ＝１，…，ｑ）又は逆行予測モデル｛Ｂ_m｝（ｍ＝１，…，ｑ）を算出するために、Ｅ_AとＥ_Bのトレースを最小とするLevinson-Whi ttle-Robinsonアルゴリズムを、限定しない例として挙げることができ、次のように説明される。次の定義と表記を直接予測モデルに適用する。 a/｛x1_i｝（i=1,..,N₁）は音声サンプル１のN₁のデジタル値のセットである。 b ｛R1_m｝(m=0,..,q)は（｛x1_i｝,p,q,T,I,D）のためのq+1の相関マトリックスを表す。 c/｛A1_m｝(m=1,..,q)は（｛x1_i｝,p,q,T,I,D）のためのｑ-オーダーの直接予測モデルである。 d/｛x2_i｝(i=1,..,N₂)は音声サンプル２のN₂の数値のセットである。 e/｛R2_m｝(m=0,..,q)は（｛x2_i｝,p,q,T,I,D)のためのq+1の相関マトリックスを表す。 f/｛A2_m｝(m=1,..,q)は（｛x2_i｝,p,q,T，I,D)のためのｑ-オーダーの直接予測モデルである。 g/E_A11は直接エラーマトリックス(｛x1_i｝,p,q,T，I,D，{A1_m｝)である。 h/E_A21は直接エラーマトリックス(｛x1_i｝,p,q,T,I,D，｛A2_m｝)である。 i/E_A12は直接エラーマトリックス(｛x2_i｝,p,q,T，I,D，｛A1_m｝)である。 j/E_A22は直接エラーマトリックス(｛x2_i｝,p,q,T，I,D，｛A2_m｝)である。上記のマトリックスは次のアルゴリズムを使用して直接算出できる。 G(E)はサイズｐ×ｐのマトリックスＥの固有値の関数である。例えば、G(E)は固有値（トレース(E)）の合計、又は固有値（行列式(E)）の積に等しくあり得る。２つの音声サンプルの間の計測された近似性は、 G(E_A11E_A12 ^-1)，G(E_A12 ^-1E_A11)，G(E_A22E_A21 ^-1) と G(E_A21 ^-1E_A22) の関数である。例えば、重み付けされた合計が選択され得る。計測された近似性はまた、逆行モデルを基礎として、又は、２つのタイプのモデリングをミックスすることにより定義され得る。本発明の方法はまた、リファレンス辞書、すなわち、統計的特徴（相関マトリックス）と予測モデルの更新に関する。統計的特徴は、相関マトリックスの２つのセットから相関マトリックス｛Ｒ_m｝の新たなセットを得ることができる任意の可能な関数により更新される。相関マトリックスの２つのセットは、辞書｛Ｒ１_m｝のセットと、１又はそれ以上の新たな発声｛Ｒ２_m｝からのセットである。限定しない例により、相関マトリックスの新たなセット｛Ｒ_m｝は次の方程式から得ることができる。本発明の方法を図２に示すフローチャートを参照して詳細に説明する。このフローチャートは共通の幹１から出る２つの主要な枝を有しており、左側の枝は学習（枝２）に関し、右側の枝は照合（枝３）に関する。Ｐ₁からＰ₉の符号が付されたフェーズ１から９は前述したフェーズ１から９に関連する。Ｄ₁からＤ₅の多くの中間での決定が、本方法のフェーズの実行の間に行われる。フェーズ１（Ｐ₁）の間、話者は、可能な手段を使用して身元を申告する。話者は彼にのみ知られたコードをタイプするか、磁気ストライプカードを使用するか、又は同様な手段をしようすることができる。そして、彼は、１つ又はそれ以上のリソースにアクセスする目的で、オペレーションの２つのモードである学習又は照合の１つを要求する。フェーズＰ₁の終了時点（出力１０）に、第１の決定Ｄ₁がなされる。決定Ｄ₁ は、学習（枝２０）又はフェーズＰ₁で要求されたリソースへのアクセスのための照合（枝３０）に関する。例えば、学習は、もしそれが十分でないと考えられる場合は、照合が学習に置き換えられ、もし要求されたオペレーティングモード又はリソースが使用可能でない場合は、拒否が示され（枝１１）得る。前述したリソースは、自然に、もくろまれる特定のアプリケーションに依存する。以下で例を説明する。決定Ｄ₁がプロセスを”学習”の枝２（Ｄ₁の枝２０）に切り替えたと仮定すると、フェーズ２（Ｐ₂）が開始される。フェーズＰ₂は、身元が申告された話者の、１つ又はそれ以上の発声のリファレンスを学習するための全ての動作を開始する。特定のアプリケーションにより、それは音声入力活性化、辞書検索等の問題であり得る。フェーズＰ₂の終了時点（出力２１）で、”学習”枝２におけるプロセスは直接フェーズ４（Ｐ₄）に行く。前述した通り、フェーズＰ₄の間、統計的特徴の抽出は３つのステップを実行する。第１のステップは、１つ又はそれ以上の発声に相当する音声サンプルのデジタル獲得及び可能なフィルタリングである。本発明の主要な特徴の１つにより、第２のステップは、第１のステップによる結果を、平均サイズＴ及び平均間隔Ｉを有する解析ウィンドウのシーケンスから得られたベクトルのシーケンスに変換する。第３のステップは、上記のベクトルの連続からｑ＋１の相関マトリックスを算出する。フェーズＰ₄（出力２２）の終わりの時点で、第２の決定Ｄ₂がなされる。学習の間、発声リファレンスの更新とともに、身元を確認するために、話者の身元の同定が決定され得る。その決定が”ｎｏ”（枝２３）の場合、直接フェーズ９（Ｐ₉）が開始される。フェーズ９は以下で説明される。”ｙｅｓ”（枝２４）の場合は、フェーズ５（Ｐ₅）が開始される。フェーズＰ₅は２ステップで実行される。第１のステップは、１つ又はそれ以上の発声の統計的特徴（相関マトリックス）からｑの予測マトリックスを算出することからなる。予測モデルを算出するための多くの選択肢がある。すなわち、直接予測モデル、逆行予測モデル、又はこれら２モデルのコンビネーションである。第２のステップで、１つ又はそれ以上の発声の音声サンプルから算出されるベクトルのシーケンスと、同じベクトルから算出される予測モデルとの間のエラーマトリックスの逆を算出する。このｑ＋１マトリックスのセットは、話者の発声の予測モデルを定義する。話者の発声のリファレンスは、統計的特徴と関連する予測モデルからなる。この”学習”の枝２において、フェーズＰ₅からの出力２５の点で、フェーズ７（Ｐ₇）がフェーズ６（Ｐ₆）をバイパスして直接開始される。フェーズ７（Ｐ₇）は４つのステップからなる。第１のステップは、全ての可能な話者のリファレンスを含む辞書を抽出することからなる。第２のステップは、前に選択されたリファレンスと同定されるべき音声サンプルのリファレンス（又は統計的特徴のみ）間のエラーマトリックスを算出することからなる。第３のステップは、前のステップで算出されたエラーマトリックスから計測された近似性を算出することからなる。第４のステップで、第３のステップで算出された計測された近似性から話者の同定の確率を算出する。フェーズＰ₇からの出力の時点で、第３の決定Ｄ₃がなされる。決定Ｄ₃はフェーズＰ₇における同定の結果得られた身元とフェーズＰ₁で申告された身元のの妥当性に関する。結果が妥当でなければ、すなわち”ｎｏ”枝２７であれば、そのプロセスは停止する。アプリケーションに応じて、このレベルでアクションがとられ得る。 ”ｙｅｓ”枝２８であれば、プロセスは枝２３（決定Ｄ₂）、枝２８（決定Ｄ₃ ）及び後述する枝３９（決定Ｄ₅）に共通な幹４０に沿って続行する。そして、フェーズ９（Ｐ₉）が開始される。フェーズ９は、辞書から話者の発声のリファレンスを更新、又は、辞書に新たな話者のリファレンスを追加する。リファレンスの更新は、話者のｑ＋１の相関マトリックスを辞書から抽出するステップと、ｑ＋１の新たな相関マトリックスを算出し、辞書に格納することを古いマトリックスと１つ又はそれ以上の発声から抽出されるそれらのマトリックスの蓄積により行うステップと、新たな相関マトリックスに相当する予測モデルを算出し辞書に記録するステップとからなる。新たな話者の発声のリファレンスを辞書に追加することは、話者のｑ＋１の相関マトリックスと関連する予測モデルを記録することからなる。フェーズＰ₉からの出力４１において、使用するアプリケーションに依存するアクションがとられ得る。そのプロセスは通常停止し、新たな話者の場合は、システムはその話者のために更新され、彼を認識できるようになる。ここで、”照合”の枝３（決定Ｄ₁からの出力３０）を考える。その方法は、フェーズ３（Ｐ₃）を直接開始する。フェーズＰ₃は、身元が申告されている話者の照合のための全ての動作を開始する。フェーズＰ₂のように、特定のアプリケーションにより、それは音声入力活性化、辞書検索等の問題であり得る。Ｐ₃からの出力３１の時点で、フェーズＰ’₄が開始される。フェーズＰ’₄は ”学習”枝２のフェーズＰ₄と同一であり、既に説明した。同様に、フェーズＰ’₄からの出力３２の時点で、フェーズＰ’₅が開始され、フェーズＰ’₅は”学習”枝２のフェーズＰ₅と同一である。フェーズＰ’₅からの出力３３において、フェーズ６（Ｐ₆）が開始される。フェーズ６は４ステップからなる。第１のステップは、いくつか又は全ての話者のリファレンス（例えば、計測された近似性が良いＫ個のリファレンス）を辞書から抽出することである。第２のステップで、前に選択されたいくつかまたはすべてのリファレンスと照合されるべき音声サンプルのリファレンス（もしくは、統計的特徴のみ）間のエラーマトリックスを算出する。第３のステップは、前のステップで算出されたエラーマトリックスのいくつか又は全てから計測された近似性を算出することからなる。第４のステップで、第３のステップで算出された計測された近似性から話者の照合の確率を算出する。フェーズ６からの出力３４において、第４の決定Ｄ₄がなされる（”照合”枝３における最初の決定である）。この決定は、認証モードにおける話者の身元の認証又は非認証に関する。認証が失敗、すなわち”ｎｏ”枝３５の場合、プロセスは停止するか、特定のアプリケーションに依存したアクションがとられる。例えば、これは、フェーズＰ₁で挿入された磁気ストライプカードを没収したり、音アラームが作動する等であり得る。 ”ｙｅｓ”枝３６の場合、フェーズ８（Ｐ₈）が開始される。フェーズＰ₈で、第１のフェーズにおいて話者により要求されたリソースのいくつか又は全てにアクセスすることを許可する。例えば、特定のアプリケーションにより、それはドアを開けたり、秘密情報にアクセスさせる等の問題となり得る。第５の決定Ｄ₅はまた、この段階（フェーズＰ₈からの出力３７）においてなされ得る。決定Ｄ₅は、照合モード（枝３）において身元が非常に良く認証された場合における話者の発声リファレンスの可能な更新に関する。決定Ｄ₅の結果が”ｎｏ”（枝３８）である場合、プロセスはたいていの場合停止する。そうでなければ（”ｙｅｓ”枝３９）、プロセスは出口枝４（共通幹４０）に再び切り替わり、フェーズＰ₉が開始される。このフェーズは、既に説明したものである。 ”学習”枝２に関して、フェーズＰ₉からの出力４１におけるアクションは、自然に使用するアプリケーションに依存して、とられ得る。プロセスは通常停止し、システムは現在の話者のために更新され、その話者は要求したリソース（フェーズＰ₈）へのアクセスを得る。本発明による方法のアプリケーションの第１の例を図３を参照して説明する。意図するアプリケーションは、アクセスを許可された人にのみ制限するサウンドロックや任意の種類の制御設備により、構内へのアクセスを保護することに関する。ドアを解錠するために使用されるタイプのキーパッドＫにより、話者Ｕはその身元を申告すると仮定する。この目的のために、話者は、本発明の方法を実装したシステム５にコードを入力しなければならない。他の手段も用いられ得る。磁気ストライプバッジ、スマートカード等である。本システムは、それ自体では従来技術と共通の回路を含む。本システムは、知られている話者を照合するために使用されるデータを保持する辞書５１と、前述した種々の計算と決定を実行するマイクロプロセッサ５０又は任意の適当なデータ処理システムを含む。現状の技術において、そのような計算は、図３には示していないが、リードオンリーメモリ（例えばＲＯＭ又はＲＡＭ）及び／又はバッキング記憶装置（ハードディスク）に保持されたプログラムの制御の下で行われる。簡単のため、この段階ではオペレーションの１つのモード、照合モード、だけ可能であると仮定する。キーパッドＫに加えて、話者をガイドするための手段が提供され得る。例えば、デジタルーアナログコンバーター６を介してシステム５により制御されるラウドスピーカＬＳである。この手段により、話者Ｕへ指示が与えられ得る。その代りにディスプレイスクリーン、例えば液晶ディスプレイが提供され、同様の指示を与え、システム５によりとられる種々の決定のオペレーション及び結果の進行にアドバイスをする。最後に、マイクＭ_i又は任意の適当な電気-音変換器が、話者Ｕの音声をピックアップするために提供される。アナログ-デジタル変換器７がマイク５の電気出力信号をマイクロプロセッサ５０が読めるようなデジタル信号に変換する。この目的のために、変換器７の出力は、パラレル又はシリアルポートに接続され得る（これ自体はよく知られている）。キーパッドＫにコードが入力されると、システム５は、要求者すなわち話者Ｕの推定される身元についてのデータを獲得する。フェーズＰ₃及びそれに続くフェーズ、そして特にフェーズＰ’₄（フェーズ４）が開始され得、システム５により決定がなされる点、すなわちフェーズＰ₆からの出力における決定Ｄ₄がなされる点まで実行され得る。その決定が好ましいものであれば（図２の枝３６）、フェーズＰ₈が実行され、話者は要求したリソースへのアクセスを得る。そのアクセスは例えば、図３におけるモーターによりシンボライズされる電気ロックを備えたドアを持つ家屋へのアクセスである。簡単のため、ロックへの電気エネルギーの供給は、システム５により運ばれる電気信号Ｖ_cにより制御されるリレーＲにより制御されると仮定する。フェーズＰ₈の終わりにおいて、プロセスは停止するか（図２の枝３８、決定Ｄ₅による）又はフェーズＰ₉に進み、そこで辞書５１は話者Ｕのために更新される。ただ１つのオペレーションモード、すなわちこのタイプのアプリケーションにより適している”照合”モードのみを本システムが提供すると仮定したが、”学習”モードも同様にしてインストールされ得る。例えば、その２つのモードの選択を可能とするか又はコード入力を繰り返す特別なキーをキーパッドＫ上に設け、他の場所に音声獲得装置設けることで十分である。この場合、プロセスをフェーズ２又は３へ切り替える（図２の決定Ｄ₁）ための回路と指示Ｐを実装し、そのフェーズ（図２のＰ₂、Ｐ₄、Ｐ₅及びＰ₇）及び枝２に特有の決定（図２のＤ₂とＤ₃）を実行する必要がある。本方法の第２のアプリケーションのシリーズは、図４を参照して説明される。意図されるアプリケーションは、遠隔情報への安全なアクセスに関する。例えば、それは、金融（銀行、株式交換等）オペレーション及び取引の有効性を確認する問題であり得る。関係する人々は、決定センターには近くないので、彼らは、本発明の範囲外である安全なデータ通信手段を持たなければ、標準の電話を使用して要求を入力する。図４は、安全な取引のために本発明の方法を使用するシステムの構成を示す図である。ここでは、”取引（transactions）”という用語は、上述した種々の定義を含む最も広い意味で使用されている。話者Ｕは”指定の情報センタ”８へ電話するために電話９を使用する。例えば、これは銀行や任意の同様な組織（株式ブローカー等）であり得る。例をより具体的にするために、話者が与えられた額を自分の口座から他の口座に移す指示を与えることを欲していると仮定する。認証に最も重要なデータはもちろん指示を与える人の身元である。パスワードのような通常の技術や同様の技術を使用することができ、もしくは、発呼者の身元を確証するために、その銀行が事前に合意した番号で発呼者を呼び返すこともできる。しかしながら、そのような技術による安全性は制限されている。上記の種類の呼は、図３のシステム５と同様に、話者Ｕの身元を認証するためにシステム５に切り替えられる。他の例では、図４に示すように、この種の呼のための電話番号が予約されており、その呼は、システム５に接続されたスペシャリストセンタ（図には記載せず）に直接接続される。システム５はその話者を”歓迎”し、続くオペレーションを通して彼らをガイドする。例えば、音声シンセサイザー（図には記載せず）を使用してこれを行う。電話は数字キーと共にキーパッドＫを含み、話者Ｕは個人の身元番号（Person al identification number）をそのキーパッドを使用して入力することができるものと仮定する。これにより、プロセスのフェーズＰ₁が開始する。ＰＩＮ（Personal identification numberの略）は同様にして、カードリーダを有する”ＭＩＮＩＴＥＬ”タイプの端末を使用して入力される。前述の音声シンセサイザーは、即座な拒否（図２の決定Ｄ₁、”拒否”枝１１）がなければ、”照合”枝（図２の３）に特有の他のフェーズの実行を可能とするための１つ又はそれ以上のフレーズを話者に話させるように要求を行うことができる。この可能性は、キーパッドで入力されたコードがシステムにより認識されない場合に、存在する。すなわち、間違ったコード又は意図した不正である。一般的に行われている方法では、制限された数試行が許容され得る（例えば３回）。失敗した各試行はフェーズＰ₁にループする。Ｎ番目の失敗試行（Ｎは最大数である）の終わりには、リンクは切断され、呼の記録がメモリに保持される。照合フェーズが普通に進めば、フェーズＰ₈の終わりには、話者の身元は正式に照合され、音声が認識されるようになる。それゆえ、これは”電子署名”と同等物であり、この例では音の同等物である。検証により、安全性のレベルは非常に高く、（認識の）成功率は数百の話者に対して９９％のオーダーである。また、話されるテキストの文脈には制限がないということは明確に理解されるべきである。最後に、非認証の場合は、システムは要求リソースへのアクセスを与えない。説明した例において、システム５は自動化システム又は物理的な人８へのアクセスを提供することができる。前者においては、話者Ｕは指示や要求を送信するためにキーパッドＫのキーを使用することができる。後者では、発呼者Ｕの身元を知る他者と直接話すことができる。例えば、制限された情報（口座残高等）を得るために、話者Ｕは同様にして音声サーバに接続され得る。それゆえ、このシステムは、非常に多数のオペレーションの遠隔実行と、全ての種類の情報を最大限の安全性を持って獲得することを可能とする。上述の説明を読むことにより、本発明は前述の目的を達成することが明らかとなる。図３及び４を参照して詳細に説明した２シリーズのアプリケーションに特に良く適合するが、本発明はこの種類のアプリケーションのみに限定されるものでないことは理解されるべきである。他に例えば、特に、 ‐話者の照合、話者の同定及び話者変更の捕捉に関連したマルチメディアデータの索引付け。 ‐法律の目的で使用される生物測定学的同定、合意の節の照合と確認、ＩＤカードの製造。 ‐コミュニケーションチャネルの監視等の多くのアプリケーションがある。

【手続補正書】特許法第１８４条の８第１項【提出日】平成１０年４月３０日（１９９８．４．３０）【補正内容】請求の範囲１．ｐ及びｑは０でない整数であり、話者（Ｕ）の少なくとも１つの発声に該当する話者（Ｕ）の特定の期間Ｄの音声サンプルをデジタル獲得する少なくとも１つのステップと、上記音声サンプルを平均期間Ｔ及び平均間隔Ｉを有する解析ウィンドウのシーケンスから得られる特定サイズｐのベクトルのシーケンスへ変換するステップと、このベクトルのシーケンスからサイズｐ×ｐのｑ＋１の相関マトリックスを決定するステップとを含む統計的特徴（Ｐ₄，Ｐ'₄）を抽出する少なくとも１つのフェーズからなるｑ-オーダー予測モデルを使用する話者音声認識の方法であって、上記平均期間Ｔは１０ｍｓ未満の期間を有することを特徴とする方法。２．上記平均間隔Ｉは４．５ｍｓ未満の期間を有することを特徴とする請求項１記載の方法。３．上記平均間隔Ｉ、上記平均期間Ｔ及び予測モデルの上記オーダーｑは、Ｉ＜Ｔ／ｍａｘ（３，ｑ）の関係を有することを特徴とする請求項２記載の方法。４．上記相関マトリックス及び上記該当する予測モデルは少なくとも１つの辞書（５１）に格納され、上記話者の上記ｑ＋１の相関マトリックスを辞書（５１）から抽出する第１のステップと、話者の新たな音声サンプルを上記ベクトルのシーケンスに変換することにより得られたサイズｐのベクトルからｑ＋１の相関マトリックスの新たなシーケンスを決定する第２のステップと、該第１のステップの間に抽出されたｑ＋１の相関マトリックスと該第２のステップの間に決定されたｑ＋１の相関マトリックスを上記辞書（５１）の１つに蓄積し格納することからなるｑ＋１の更新された相関マトリックスのシーケンスを決定する第３のステップとを少なくとも含む、特定話者（Ｕ）のために上記辞書（５１）の１つを更新するフェーズ（Ｐ₉）を含むことを特徴とする請求項１ないし３のうちいずれか１項記載の方法。５．上記第３のステップは更に、ｑ＋１の更新された相関マトリックスのシーケンスの決定に該当する予測モデルを決定し、それを上記辞書に格納することからなることを特徴とする請求項４記載の方法。６．上記相関マトリックス及び上記該当する予測モデルは少なくとも１つの辞書（５１）に格納され、上記方法は新たな話者（Ｕ）に関連する統計データの学習フェーズ（Ｐ₂，Ｐ₄，Ｐ₅，Ｐ₇，Ｐ₉）のシーケンスからなり、該シーケンスは、新たな話者の新たな音声サンプルを上記ベクトルのシーケンスへ変換することにより得られるサイズｐのベクトルからｑ＋１の相関マトリックスの新たなシーケンスを決定し、上記ｑ＋１の相関マトリックスのシーケンスに該当する予測モデルを決定する第１のステップと、該第１のステップで決定されたｑ＋１の相関マトリックス及び予測モデルを上記辞書（５１）に格納することからなる第２のステップとを少なくとも含む少なくとも１つのフェーズ（Ｐ₉）からなることを特徴とする請求項１ないし３のうちいずれか１項記載の方法。７．上記方法は話者の身元を照合するためのフェーズ（Ｐ₃，Ｐ’₄，Ｐ’₅，Ｐ₆，Ｐ₈）のシーケンスからなり、該シーケンスは少なくとも、 ‐少なくとも１つの発声の上記統計的特徴から、ｑの予測マトリックスを決定することからなる第１のステップと、各発声の音声サンプルから算出されるｐ次元のベクトルのシーケンスと、これらの同様のベクトルから算出される予測モデルである話者の発声の予測モデルを定義するｑ＋１のマトリックスのセット及び上記統計的特徴ならびに関連する予測モデルからなる話者の発声のリファレンスとの間のエラーマトリックスの逆を算出する第２のステップとを含む予測モデルを決定するフェーズ（Ｐ’₅） ‐少なくとも同一の話者の発声リファレンスが辞書から抽出される第１のステップと、前に抽出された少なくともいくつかの発声リファレンスと、照合されるべき音声サンプルの発声リファレンスとの間のエラーマトリックスを算出する第２のステップと、該第２のステップで算出されたエラーマトリックスの少なくともいくつかから計測された近似性を算出することからなる第３のステップと、該第３のステップで算出された計測された近似性から上記話者の照合の確率を算出する第４のステップとを含む、上記話者の身元を照合するフェーズ（Ｐ₆）、及び ‐上記身元の照合が成功のとき、予備のフェーズ（Ｐ₁）の間に上記話者により前に要求された予め定められたリソースの少なくともいくつかのセットにアクセスすることを許可するフェーズ（Ｐ₈）、からなることを特徴とする請求項１ないし３のうちいずれか１項記載の方法。８．上記予測モデルはベクトル自己回帰予測モデルであることを特徴とする請求項１ないし７いずれか１項記載の方法。９．少なくとも１人の許可された話者に制限されたリソースへの安全なアクセスのためのシステムであって、上記システムは請求項７または８に記載の方法を使用し、上記話者の音声サンプルをデジタル信号に変換するためのデバイス（７）に接続された少なくとも１つの電気音変換器と、少なくとも１つの辞書（５１）に接続され、照合されるべき音声サンプルの上記発声リファレンスを決定するための上記デジタル信号を受信し、上記リファレンスから及び辞書（５１）に格納された発声リファレンスから話者（Ｕ）の身元を照合し、１つの状態が上記リソースへのアクセスを許可する許可された話者の身元の照合が肯定的であることを表す、少なくとも２つの状態を有する制御信号（Ｖ_c）を伝達する蓄積プログラム制御計算システム（５、５０）とを含む、照合されるべき話者（Ｕ）の音声サンプルに感応するサウンドロックからなることを特徴とするシステム。１０．少なくとも１人の許可された話者に制限された取引への安全なアクセスのためのシステムであって、上記システムは請求項７または８に記載の方法を使用し、少なくとも１つの電気音変換器を含む少なくとも１つの電話デバイス（９）からなり、該電話デバイス（９）は、少なくとも１つの辞書（５１）に接続した蓄積プログラム制御計算システム（５、５０）において照合される少なくとも１つの話者の音声サンプルを電話線で送り、該システムは照合されるべき音声サンプルの上記発声リファレンスを決定し、上記リファレンスから及び辞書（５１）に格納された発声リファレンスから話者（Ｕ）の身元を照合し、許可された話者の身元の照合が肯定的である場合に上記取引を許可することを特徴とするシステム。

Claims

【特許請求の範囲】１．ｐ及びｑは０でない整数であり、話者（Ｕ）の少なくとも１つの発声に該当する話者（Ｕ）の特定の期間Ｄの音声サンプルをデジタル獲得する少なくとも１つのステップと、上記音声サンプルを平均サイズＴ及び平均間隔Ｉを有する解析ウィンドウのシーケンスから得られる特定サイズｐのベクトルのシーケンスへ変換するステップと、このベクトルのシーケンスからｑ＋１の相関マトリックスを決定するステップとを含む統計的特徴（Ｐ₄，Ｐ'₄）を抽出する少なくとも１つのフェーズからなるｑ-オーダー予測モデルを使用する話者音声認識の方法であって、上記平均サイズＴは１０ｍｓ未満の期間を有することを特徴とする方法。２．上記平均間隔Ｉは４．５ｍｓ未満の期間を有することを特徴とする請求項１記載の方法。３．上記平均間隔Ｉ、上記平均サイズＴ及び予測モデルの上記オーダーｑは、Ｉ＜Ｔ／ｍａｘ（３，ｑ）の関係を有することを特徴とする請求項２記載の方法。４．上記相関マトリックス及び上記該当する予測モデルは少なくとも１つの辞書（５１）に格納され、上記話者の上記ｑ＋１の相関マトリックスを辞書（５１）から抽出する第１のステップと、話者の新たな音声サンプルを上記ベクトルのシーケンスに変換することにより得られるサイズｐのベクトルからｑ＋１の相関マトリックスの新たなシーケンスを決定する第２のステップと、該第１のステップの間に抽出されたｑ＋１の相関マトリックスと該第２のステップの間に決定されたｑ＋１の相関マトリックスを上記辞書（５１）の１つに蓄積し格納することからなるｑ＋１の更新された相関マトリックスのシーケンスを決定する第３のステップとを少なくとも含む、特定話者（Ｕ）のために上記辞書（５１）の１つを更新するフェーズ（Ｐ₉）を含むことを特徴とする請求項１ないし３のうちいずれか１項記載の方法。５．上記第３のステップは更に、ｑ＋１の更新された相関マトリックスのシーケンスの決定に該当する予測モデルを決定し、それを上記辞書に格納することからなることを特徴とする請求項４記載の方法。６．上記相関マトリックス及び上記該当する予測モデルは少なくとも１つの辞書（５１）に格納され、上記方法は新たな話者（Ｕ）に関連する統計データの学習フェーズ（Ｐ₂，Ｐ₄，Ｐ₅，Ｐ₇，Ｐ₉）のシーケンスからなり、該シーケンスは、新たな話者の新たな音声サンプルを上記ベクトルのシーケンスへ変換することにより得られるサイズｐのベクトルからｑ＋１の相関マトリックスの新たなシーケンスを決定し、上記ｑ＋１の相関マトリックスのシーケンスに該当する予測モデルを決定する第１のステップと、該第１のステップで決定されたｑ＋１の相関マトリックス及び予測モデルを上記辞書（５１）に格納することからなる第２のステップとを少なくとも含む少なくとも１つのフェーズ（Ｐ₉）からなることを特徴とする請求項１ないし３のうちいずれか１項記載の方法。７．上記方法は話者の身元を照合するためのフェーズ（Ｐ₃，Ｐ’₄，Ｐ’₅，Ｐ₆，Ｐ₈）のシーケンスからなり、該シーケンスは少なくとも、 ‐少なくとも１つの発声の上記統計的特徴から、ｑの予測マトリックスを決定することからなる第１のステップと、各発声の音声サンプルから算出されるｐ次元のベクトルのシーケンスと、同様のベクトルから算出される予測モデルである話者の発声の予測モデルを定義するｑ＋１のマトリックスのセット及び上記統計的特徴ならびに関連する予測モデルからなる話者の発声のリファレンスとの間のエラーマトリックスの逆を算出する第２のステップとを含む予測モデルを決定するフェーズ（Ｐ’₅） ‐少なくとも同一の話者の発声リファレンスが辞書から抽出される第１のステップと、前に抽出された少なくともいくつかの発声リファレンスと、照合されるべき音声サンプルの発声リファレンスとの間のエラーマトリックスを算出する第２のステップと、該第２のステップで算出されたエラーマトリックスの少なくともいくつかから計測された近似性を算出することからなる第３のステップと、該第３のステップで算出された計測された近似性から上記話者の照合の確率を算出する第４のステップとを含む、上記話者の身元を照合するフェーズ（Ｐ₆）、及び ‐上記身元の照合が成功のとき、予備のフェーズ（Ｐ₁）の間に上記話者により前に要求された予め定められたリソースの少なくともいくつかのセットにアクセスすることを許可するフェーズ（Ｐ₈）、からなることを特徴とする請求項１ないし３のうちいずれか１項記載の方法。８．上記予測モデルはベクトル自己回帰予測モデルであることを特徴とする請求項１ないし７のうちいずれか１項記載の方法。９．少なくとも１人の許可された話者に制限されたリソースへの安全なアクセスのためのシステムであって、上記システムは請求項７または８に記載の方法を使用し、上記話者の音声サンプルをデジタル信号に変換するためのデバイス（７）に接続された少なくとも１つの電気音変換器と、少なくとも１つの辞書（５１）に接続され、照合されるべき音声サンプルの上記発声リファレンスを決定するための上記デジタル信号を受信し、上記リファレンスから及び辞書（５１）に格納された発声リファレンスから話者（Ｕ）の身元を照合し、１つの状態は上記リソースへのアクセスを許可する許可された話者の身元の照合が肯定的であることを表す、少なくとも２つの状態を有する制御信号（Ｖ_c）を伝達する蓄積プログラム制御計算システム（５、５０）を含む、照合されるべき話者（Ｕ）の音声サンプルに感応するサウンドロックからなることを特徴とするシステム。１０．少なくとも１人の許可された話者に制限された取引への安全なアクセスのためのシステムであって、上記システムは請求項７または８に記載の方法を使用し、少なくとも１つの電気音変換器を含む少なくとも１つの電話デバイス（９）からなり、該電話デバイス（９）は、少なくとも１つの辞書（５１）に接続した蓄積プログラム制御計算システム（５、５０）において照合される少なくとも１つの話者の音声サンプルを電話線で送り、該システムは照合されるべき音声サンプルの上記発声リファレンスを決定し、上記リファレンスから及び辞書（５１）に格納された発声リファレンスから話者（Ｕ）の身元を照合し、許可された話者の身元の照合が肯定的である場合に上記取引を許可することを特徴とするシステム。