JP2008509432A

JP2008509432A - 音声パラメータに基づきユーザアクセスを検証及び可能にする方法及びシステム

Info

Publication number: JP2008509432A
Application number: JP2007524460A
Authority: JP
Inventors: バージレイ，ジヴ
Original assignee: セルマックスシステムズリミテッド
Priority date: 2004-08-04
Filing date: 2005-08-01
Publication date: 2008-03-27
Also published as: US7054811B2; US20050096906A1; WO2006013555A2; EP1787286A2; WO2006013555A3

Abstract

ユーザのアクセスを検証及び可能にするシステムであって、該システムには、音声登録サンプル中で話者／ユーザの音声パラメータを見出し、それをデータベースに保存することにより、複数話者／ユーザ其々に関する略固有な初期識別を提供する音声登録部を含む。システムには、上記複数ユーザの１人のアイデンティティを略完全に検証する音声認証部も備える。音声認証部には、音声認証サンプルを提供し、データベースと動作する認識部を含む。音声認証部にはまた、認識部及びデータベースと動作する判定部も含み、ユーザがシステムに登録したアイデンティティの人物と同じか否かを判定し、それにより複数ユーザの１人のアイデンティティを略完全に検証する。
【選択図】図３

Description

本発明は、一般に、安全な、音声に基づくアクセスを提供することに関し、特には、安全な音声に基づきアクセスを、様々な活動及び取引について、登録及び検証する方法及びシステムに関する。

２０００年６月３０日に、連邦法で、認証デジタル署名の使用について、特に電子商取引に関して、法的拘束力があるよう制定した。現在の公開鍵基盤（ＰＫＩ）では、暗号化コードを用いたデジタル証明書を、外部とのポイントツーポイント電子商取引／伝送用認証デジタル署名として、利用している。安全に伝送を完了させるには、内部的に認証されたデジタル署名が、これらのデジタル証明書の使用を許可された担当者に必要となる。担当者に対する認証をまず確立する必要があり、これを特にＰＫＩの遠隔認証に対しては行わねばならない。

デジタル署名には、妥協不可能な（非デジタル、バイオメトリクスの）コアが、我々の安全ではないデジタル世界のＰＣ／電話通信基盤だけでなく、対面での検証にも、必要である。典型的には、コード化した磁気帯を有するカードが使われるが、これらのカード及び該カードを使用可能にするアクセスコードを予め配布しなければならない。

利用されている多様なバイオメトリック認証方法、例えば指紋鑑定及び虹彩スキャン又は網膜スキャン等は、特別なハードウェアを必要とするために実施困難であり、人々を不快にし、又は病気を移す可能性さえある。しかし、何よりもまずこれらの方法は、十分正確に絶対的な識別ができることを証明していない。

人間の声紋は、各周波数成分の振幅を備えており、非デジタルで煩わしくもなく、その全世界での利用を考慮すると、無線を含む既存の通信基盤内での、認証目的に相応しい。何処でも利用できる電話及びマイクでの、音声認証又は検証は、話者認識としても知られるが、これは無理が無く、確かに最も費用効果が高く、何処からでも、何時でも利用可能な技術を発展させた結果である。

“ノンリニア・スピーチ・プロセシング・アプライド・トゥ・スピーカー・レコグニション（Nonlinear Speech Processing Applied To Speaker Recognition）”と題する論文中で、マルコス・ファンデズ−ザヌイ（Marcos Fandez-Zanuy）氏が指摘するように、話者認識には多くの用途があり、音声ダイヤル、電話での銀行取引、機密管理、科学捜査システム及び電話ショッピング等が挙げられる。これにより、現在の話者認識システムの改良に対する関心が増大した。重要な論点は、音声信号から抽出する音響特性セットについてである。このセットにより、できるだけ多くの話者依存情報を伝達する必要がある。信号からこれらの特徴を抽出する標準的方法では、フィルタバンク処理又は線形予測分析（ＬＰＣ）を用いる。両方法は、ある程度、線形手順であって、人間の音声に関する音響特性は主に声道共鳴によるという基本的前提に基づいており、該声道共鳴で音声信号の基本的なスペクトル構造を形成している。

しかしながら、人間のスピーチは非線形現象であり、非線形の生体力学的、空気力学的、音響学的、生理的要因と関係している。ＬＰＣ導出パラメータは、音声ダイナミクスに関して不十分な説明を提供できるのみである。そのため、話者認識用途に用いる非線形モデルに関しての関心が増大している。音声信号は、本質的に、冗長で非定常である。ＬＰＣ符号化方式では冗長性を利用するが、非定常について、及び非線形冗長、例えば狭窄的な気音のフラクタル構造、音声源に於けるサブハーモニクス及び非線形音源域相互作用等について説明する方法を提供していない。

従って、更なる研究が、適当な音響特徴を識別するために必要である。新たな、音響及び知覚両方に基づく、時間−周波数表現が必要であることに、皆賛同するだろう。その上、人間による音声信号の解読は、互いから独立して処理される狭周波数帯域での判定に基づくため、特徴抽出アルゴリズム等の、サブバンド処理技術をまだ活用していない。時間依存性のフラクタル次元及びマルチ時間依存性のフラクタクル次元だけでなく、リアプノフ（Lyapunov）指数、音素信号における次元エントロピー及びメトリックエントロピーは、殆どが音声認識用途に使用されているが、これら特徴の組合せを使用した話者認識用には、まだ変更されていない。

音声（又は話者認識、或いは）検証は、音声識別とは区別され、音声識別はより難題であり、現在既存技術では十分な解決を提供していない。音声検証は、一方、容易であるが、これは音声認証を成立させる判定を事実上基本的に２進符号化して行うためである。音声検証では、主として個人をその本人だと主張する者か否かをその者の発話に基づき決定する。

音声検証には２つのアプローチ方法があり、テキスト依存型及びテキスト独立型がある。テキスト依存型アプローチでは、ユーザは同じテキスト（そのテキストを構成する単語の語順を変更可能とする）を発話するのに対して、テキスト独立型アプローチでは、ユーザは単一テキスト又は単語の集合体を制約されずに、任意のテキストを発話できる。テキスト独立型アプローチには、ユーザの利便性という長所がある反面、広範囲な訓練を必要とし、その性能は実用化には十分ではない。

典型的なテキスト依存型音声検証シナリオでは、ユーザはフレーズを何度も繰返してそれを登録し、検証したい時には同じフレーズを発話する。システムで、登録段階で発話したフレーズを調べ、そのフレーズの発話に関するスペクトル及び時間的規則性についての情報を収集し、検証において、発話したフレーズが類似した特徴を備えているかを推測する。結局、この処理の成功（又は失敗）は、ユーザの受容及びユーザの利便性に極めて依存する。以下の原理を仮定して、音声検証処理を一般人に関してより容易にする：システムがユーザと共に学習し、システム自体を調和した性能に改良する必要がある。

テキスト依存型音声検証に対して２つの主要なアプローチ、即ち動的時間伸縮（ＤＴＷ）及び隠れマルコフモデル（ＨＭＭ）がある。ＤＴＷアプローチは１９７０年代に、大部分はテキサス・インスツルメンツ社（ドジントン（Doddington）氏のグループが彼の検証に関する博士論文に基づき）が開発したもので、発話を特徴ベクトルに分けて、これらの特徴ベクトルと照合して発話間でスコアを求める。このパターン照合を通じて、音声セグメントを（一定の制約内で）伸縮させて、最大スコアを求めるが、１９６０年代にベルマンが展開した動的計画法（Dynamic Programming）と呼ばれる最適化原則を用いる。最初の発話を表す特徴ベクトルを、後続する発話により発話間スコア及びシステム規則に基づいて（“スムージング”と称される）更新しても又はしなくてもよい。検証システムによっては、各ユーザに対して一群の特徴ベクトルを保持するかも知れないが、一方他の検証システムでは１つの特徴ベクトルのみを保持するかも知れない。

関連分野である音声認識（話者とは対照的に、話された内容について認識する）では伝統的に、４次元又は５次元から成る特徴ベクトルを使用してきたが、精度が話者認識で程重要でないため、それより多次元は適用されなかった。音声認識のタスクは話者認識で要求されるより低い精度を許容できるため、今まで先行技術は追加次元を有する特徴ベクトルを適用しなかった。

自然は無秩序で、一見ランダムに行動するように見えるが、根底を成す秩序が存在しており、しかしこれは予測不可能な秩序である。フラクタルは、フラクタル次元を持つ対象物である。これらは縮尺を変化させても、自己対称性を示す。形状（例えば、声紋周波数スペクトルに関する）を評価する際に、しばしば形状の容量次元を求めるのが望ましい。線は１次元であり、内部を満した正方形は２次元であり、立方体は３次元である。フラクタル幾何学は、その容量次元が整数でなくむしろ分数となる対象物に関する。例えば、４つの単位正方形で２ｘ２正方形を充填できるが、この単位正方形は４分の１サイズの２ｘ２正方形の同一複製物である。再帰的に、各単位正方形を、元々の２ｘ２正方形の１６分の１のサイズである４つの正方形等で精確に充填できる。自然界では、シダ類がフラクタルであり、各枝及び小枝等を、小断片としてシダ全体を再現できる。フラクタル信号モデルを、音声のスペクトル及び表現制御に使用する信号に関して、しばしば適用できる。

カオス系が見られる状態の集合は、フラクタルであることが分かる。次元は、不規則性に関する測度である。様々な量のスケーリング挙動を利用して次元を定義でき、カオス的アトラクタは典型的には非整数次元を有する。同様に、アトラクタの次元は、アトラクタに関する量的特徴となる。リアプノフ指数は軌道の安定性特性を説明するのに有用である。正のリアプノフ指数はカオスの存在を示しており、これはλ＞０では、十分小さかった軌道からの逸脱が大きくなり、それによりアトラクタ内で強い不安定性を示すからである。カオス系の持つ本来の不安定性は、初期状態を有限精度でのみ知る場合、将来の予測は限定的なことを意味する。従って、アトラクタ次元及びリアプノフ指数を用いて、カオスをノイズと区別できる。

タルモル（Talmor）氏に付与された、２００３年１月２１日付（出願２０００年３月１５日）の米国特許公開第６，５１０，４１５号では、発明者は音声認証アルゴリズムに焦点を当てている。このシステムでは、リアルタイムに生成された声紋を用いて、ユーザデータベースからの保存した声紋と比較する。その適合が“最も類似”している場合、このシステムのユーザのみに１度だけアクセスが許可される。タルモル氏は、ケプストラム計算及び線形時間軸伸縮（Linear Time Warping）法を教示している。ケプストラム計算は標準的な従来技術の解析であり、該計算では定数／個人パラメータを、ユーザ音声に関する計算中に、使用する。

タルモル氏の線形時間軸伸縮アプローチは、最適化した、重み付けしたＤＴＷ方式であり、ＨＭＭ又はガウス混合モデル（ＧＭＭ）にも適用できる。これには最適経路を求める必要があり、該経路は算出したパラメータが関係する。主に同特許では、音声特徴を用いて声紋照合問題に対処するが、音声特徴は示差的であり、話者を最も厳密に特徴付け、その結果話者を識別するが、タルモル氏が使用するアルゴリズムについての詳細は提供してしない。米国暫定特許第２００３０１３５７４０号で、２００３年７月１７日付（２００３年１０月２日出願）の発明の名称“バイオメトリック‐ベースト・システム・アンド・メソッド・イネーブリング・オーセンティフィケーション・オブ・イー‐メッセージズ・セント・オーバー・ア・ネットワーク（Biometric-based System and Method Enabling Authentication of E-messages Sent over a Network）”において、タルモル氏は、ＰＫＩ暗号化に関する問題に、声紋分析及び声紋と保存データとの比較を用いて対処している。この特許では、デジタル署名の使用、安全なオンライン取引及び安全なメッセージ発信について、同発明のシステムの一部として記述している。掌紋、指紋、顔紋と声紋等のバイオメトリックデータは、ＰＫＩ認証システムを利用する際の、秘密鍵となる。同発明の生体識別に基づくシステムでは、ウェブサーバに３重のセキュリティ構造：（１）バイオメトリックサンプル；（２）固有の装置ＩＤ、及び（３）ＰＩＮ、を備えている。ここでも、声紋認証に関する詳細について開示されていない。

米国特許第６，５３５，５８２号、“ボイス・ベリフィケーション・システム（Voice Verification System）”で、ハリス氏は、検証サーバに接続する複数の双方向音声応答（ＩＶＲ）部について開示している。この技術は一般的に、ネットワーク層及びインターネットを利用した接続でＡＰＩモジュールを使用することに関する。従って、数学的又は革新的な仕組みは開示されていない。

カナダ国特許第ＣＡ２１３０２１１Ｃ、“システム・アンド・メソッド・フォー・パッシブ・ボイス・ベリフィケーション・イン・ア・テレフォン・ネットワーク（System and Method for Passive Voice Verification in a Telephone Network）”では、バーラー（Bahler）氏らは、顧客のテレフォンカードから得られる識別番号の検証について開示している。提供される技術革新及び精度は、僅かである。

米国特許第６，４９６，８００号、“スピーカ・ベリフィケーション・システム・アンド・メソッド・ユージング・スポークン・コンティニアス・ランダム・レングス・デジット・ストリング（Speaker Verification System and Method Using Spoken Continuous, Random Length Digit String）”では、コン（Kong）及びキム（Kim）氏は、電話回線を通じて受動的音声検証‐受動的に発呼者と被呼者との間の会話をモニタして、サンプル信号を得、音声特徴に関する少なくとも１組の参照集合と比較して、発呼者が電話回線の顧客か否かを判定する‐の利用について教示している。同発明では、閾値を活用して、セキュリティを確立している。その構成ブロックに関するアルゴリズム又は要素についての詳細な説明はない。

カンナン（Kannan）氏らは、米国特許第６，７２８，６７７号で、“メソッド・アンド・システム・フォー・ダイナミカリィ・インプルービング・パフォーマンス・オブ・スピーチ・レコグニション・オア・アザー・スピーチ・プロセッシング・システムズ（Method and System for Dynamically Improving Performance of Speech Recognition or Other Speech Processing Systems）”を開示している。同発明では、音声認識性能を向上させる方法を提供しているが、該方法には、音声処理システムにおけるコンピューティング資源利用をモニタし、それに基づき音声処理動作の性能を向上させること、を含む。米国特許第６，２３３，５５６号では、トイネン（Teunen）氏は、“ア・ボイス・プロセッシング・アンド・ベリフィケーション・システム（A Voice Processing and Verification System）”を教示している。この特許では、自動双方向電話システム用音声処理方法を開示しており、該方法には登録音声モデルを、着信するユーザ音声に対応する器材タイプに変換することを含む。詳細について、ニュアンス（Nuance）社に譲渡されたこれらの２特許の何れにおいても、提供されていない。

欧州特許第ＥＰ１，０９６，４７３Ａ３号で、パーセイ（Persay）社に譲渡された、“バックグランド・モデル・クラスタリング・フォー・スピーカ・アイデンティフィケーション・アンド・ベリフィケーション（Background Model Clustering for Speaker Identification and Verification）”で、トレド（Toledo）‐ローネン（Ronen）氏は、未知の話者に対する目標尤度スコアについて開示しているが、該スコアにより未知の話者が入力した音声が目標話者のモデルに適合する程度を測定する。この方法では、目標尤度スコアを正規化し、複数の背景モデル中１モデルを選択背景モデルとして選択するステップを含む。この方法では、入力音声が選択背景モデルに適合する程度を測定するステップも含み、その結果、背景尤度スコアを生成し、該背景尤度スコアで目標尤度スコアを割算する。

従って、時間依存性のフラクタル次元及びマルチ時間依存性のフラクタクル次元、高速フーリエ変換（ＦＦＴ）、リアプノフ指数、及びその他の話者検証システム用非線形技術を組合せて利用する必要がある。

（発明の開示）
従って、本発明の主な目的は、ユーザを検証し、ユーザを広範囲な活動及び場所にアクセス可能にすることである。

本発明の別の目的は、安全な音声ベースの電子商取引を、音声検証アルゴリズムを利用して通信装置上で、登録及び認証する改良した方法及びシステムを提供すること、である。

本発明の更なる目的は、話者の音声パラメータを求める音声登録に関する、他に類を見ない強力な方法及びシステムを提供することである。

また本発明の更なる目的は、３つの主なステップを含む音声登録に関する方法及びシステムを提供することであって、該ステップは：フラクタル分析、分光分析及びリアプノフ指数決定である。

別な本発明の更なる目的は、フラクタル分析を行うことであり、該分析では生データを調べ、各サンプルで話者の音声を固有に特徴付ける１組の無次元数を提供する。

本発明の１つの更なる目的は、検証用キー索引となる、１６次元の音声特徴を持つベクトルを導入すること、である。

また本発明の別の目的は、識別を向上させて、他人の音声を盗んで犯す窃盗及び不正行為を防ぐこと、である。

本発明のもう１つの目的は、分光分析を行うことであり、該分析では生データを調べ、指紋と同様な、略明確な精度を持つ、固有に識別可能なパターンを生成する。

また本発明のもう１つの目的は、グローバル・トランザクションのための改良したセキュリティを、場所、時間、取引相手に関係なく、提供することである。

本発明の好適な実施例によれば、ユーザアクセスを検証し、可能にするシステムを提供するが、該システムには音声登録部を含み、複数の話者／ユーザ其々について略固有な初期の識別を、その話者／ユーザの音声パラメータを音声登録サンプル中で見出し、これをデータベースに保存することで、提供する。システムには、複数ユーザの１人のアイデンティティを略完全に検証する、音声認証部も含む。音声認証部には、音声認証サンプルを提供し、データベースと動作する認識部を含む。音声認証部には、認識部及びデータベースと動作する判定部を含み、ユーザがシステムに登録した同じアイデンティティの人物と同一人物か否かを判定し、それにより複数ユーザの１人のアイデンティティを略完全に検証する。

本発明の更なる特徴及び効果について、以下の図面及び説明から明らかになろう。

本発明を一層理解するために、本発明の実施例に関して、添付図面及び説明について言及するが、同じ番号で対応する要素又はセクションを、全体を通じて表すものとする。

（発明を実施するための最良の形態）
本発明には２段階の操作：音声記録又は登録、及び音声検証としても既知の音声認証、を有する。音声登録に於いての目的は、話者の音声パラメータを求めることである。音声登録には、３主要ステップ：フラクタル分析、分光分析及びリアプノフ指数決定、を含む。フラクタル分析中、生データを調査し、各サンプルで話者音声を固有に特徴付ける１組の無次元数を提供する。

分光分析において、生データを調査し、指紋と同様な、固有のパターンを生成する。これにより、話者の音声に関する幾何学的特性を抽出可能になる。最後に、リアプノフ指数には指数のスペクトル計算を含み、これにより音声登録サンプルを固有に特徴付ける。

数学的には、音は、時系列を形成する一連の値として表現される。幾つかの技術が、時系列の特徴を抽出するために存在するが、それらの中には伝統的な高速フーリエ変換（ＦＦＴ）、つい最近では、フラクタル次元及びリアプノフ指数がある。これらの技術によって、時系列点の其々を個別に分析する必要なく、独自の音波形を分析可能である。

音の波形は、音色の多次元表現となる１組のｎ対（振幅Ａ_ｎ、周波数ｆ_ｎ）である。加えて、一連のＡ_ｎに関するスペクトル包絡には、音声については多くの情報を有する。信号が示す定常性が損なわれると主要周波数成分間のエネルギーとなり、これが付加雑音として自動的に吸収されてしまう。音は、変調又は特異な遷移過程を示し始める場合にのみ、復活する。ある意味では、これは純粋な定常性からの音ずれであり、如何に小さくても、音にアイデンティティを提供しており、それにより音が識別可能となり、音声が検証可能になる。

エントロピーが、分解度を増すに連れて、増大するのは、アトラクタ次元に関係する。確かに、埋込み次元が十分に大きければ、その結果オブジェクトによりシステムの解の集合次元、即ちシステムが決定論的である場合、アトラクタ次元に相当する集合次元を評価する。

非線形モデルの場合、予測面上の任意の関連点付近の局所線形化は、同様な（しかし局所的な）マトリクス形式となる。予測面（即ち観測データ）の関連点に沿った局所的マトリクスの整列させた固有値を平均することで、リアプノフ指数を定義できる。

以下の考察により、音声認証段階の詳細について提供する。しかしながら、殆どの技術的ステップは、前述した音声登録段階での全ての対応するステップの繰返しである。

次に図１を参照すると、本発明に従う音声認証に関する概要フローチャートのブロック図が示されており、そこには３段階：前処理１１０、分析１２０及び検証１３０が含まれる。前処理ブロック１１０には、音声信号のクリーニング、フィルタリング、一般化（規格化）を含む。分析ブロック１２０は、高速フーリエ変換（ＦＦＴ）を実施して最適に音声周波数波形を、其々が特定の振幅、又は音量を表す、その構成純音に分解するためのデジタル信号処理部である。検証部１３０は信号検証部であり、データベース及び入力音声信号と対話する。

音響学では、信号は音波経路に存在する圧力の変動である。この信号をフーリエ変換により、効果的に音を、音楽家が一定ピッチの旋律として認められる程の純音に分解する。高速フーリエ変換は、単なる計算を整理する方法であり、計算がＮの値が大きくなる程速くなるが、ここでＮは系列におけるサンプル数である。ＦＦＴの背後にある考え方は、“分割統治”法であり、元のＮ点サンプルを２つの（Ｎ／２）系列に分解する。

図２は、本発明の典型的なブロック図である。本発明の音声検証アルゴリズムは、定数パラメータＫの展開に関与し、該パラメータは特定ユーザ２１０の音声に固有であり、略１００％の認識性能を備える。音声は、たとえそれが老化、病気、変装又は不自然な創作の試行（例えば、電話で又は録音を利用して、録音の場合は、特に、本発明では区別可能である）によって音が異なったとしても、依然一定である。第１語を音声登録システムで記録した時から、同じ状態のままの特定の調和的内容が存在する。しかしながら、音声の調和振動数は、ユーザ２１０が歳を取るに連れて緩慢な連続体に変化する。認証を行う毎に、本システムはこうした連続体の変化を自動的に学習して、それに適応し、その結果システムは常に必要な検証処理を短縮できる。

アルゴリズムで用いる情報を、音声の周波数スペクトルから取出すが、これで周波数解析をするだけでない。基本的な考えは、定数パラメータＫをユーザ２１０の音声から抽出し、これを該ユーザ本人のアイデンティフィケーションとし、これをシステムが必要とする全目的に使用して、確実に特定の音声を認識可能にすることである。この定数パラメータＫを少数第１５位の精度まで開発することが、本発明の主要な要素である。

本発明では、メル周波数ケプストラム係数（ＭＦＣＣ）を用いて、定数音声パラメータＫを確立するが、該パラメータはユーザ２１０と関連している。ＭｅｌＦｉｌｔｅｒ型のオブジェクトは、音を音響時間−周波数で表現するものである：パワースペクトル密度Ｐ（ｆ，ｔ）を、ｄＢで表わす。等間隔時間ｔ_ｉ及び周波数ｆ_ｊについて（メル周波数軸目盛上で）、多数の点でサンプリングする。コマンドにより、全ての選択した音オブジェクトからＭＦＣＣを作成する。
分析を、２ステップで進める：
１．メル周波数軸目盛でフィルタバンク分析を行う
２．フィルタ値をメル周波数ケプストラム係数に変換する

システムがその固有の音声パラメータＫを有すると、ユーザ２１０を他の話者から選別でき、その人物を絶対に確実に略識別できる。本発明の音声検証アルゴリズムでは、音声パラメータＫを獲得し、Ｍをシステムに登録済みのユーザ数として定義する、式（以下に示す）を使用する。小文字ｍは特定のユーザ２１０の指数であり、ｊは所望の正確さを得るために実施が必要なテスト数を表す。

ユーザ２１０に関する音声分析において、このシステムではベクトル表記法を使用して、本人の音声を定義するパラメータを表現し、ｊをその音声を表す全ベクトルの合計とする。

分析手順を、以下のように開始する。システムを第１段階で開始する際、Ａとして既知の、質問に対する答を分析し、適当な係数又は定数を作成する。係数を、システムが答を準備した種々のテストによって定める。

識別プロセスでは、ユーザ２１０が典型的には、自分の姓を言うことから開始し、システムは情報データベースのこの答に対する関連カテゴリに焦点を当てる。選択する答は予め登録したものに最も近いものであり、そのため該答が姓である場合、姓のカテゴリを次にデータベースから選択して、波形分析に関して、以下の図４〜図７のフローチャートで詳述するように、それと最も近いのはどれかを判断する。その答に最も近いものとして検出したアイテムについて格付けする。

第１答を分析して、データベース中の１個人にのみ適合する場合には、判定が既にできている。データベースで１個人と識別可能である場合、それはその個人の姓自体が独特の音声発音を有するためである。それを発音した際に特定の数を生成し、該数をデータベースにより照合して、決定論的に、それが厳密に同一人物だと言うことができる。

第１答の分析で単一の結果が出ない場合、システムはその目標である話者の識別を未達成である、従って、別の質問が問われ、音声パラメータをより特定していく。これら音声パラメータの各々は、適合可能なアイテム数を１０倍ずつ減少する。決定論的に絶対に確実な識別に達するのに必要な質問数は、データベースのサイズにより異なる。

このループの最後で、格付けが最低、即ち最良な答で、エプシロン（ε）として定義される、誤差限界より小さい、単一アイテムに到達する。
ここでは ε＝１／２Ｍである。

このように、εはデータベースサイズの２倍の逆数である。つまり、１００人がデータベースに存在する場合、２００分の１が誤差限界となる。そのため、システムが問う質問数は、誤差限界に関係する。
Ｍ_ｊ ^ｍ＝Ｍ_ｊ−ｌ ^ｍ・ｆ、
ここでは、ｆ＝ε^１／Ｎｑである。
Ｎｑは、確実な識別のために問われる質問数である。

図２の一般的な認証ブロック図では、ユーザ２１０及び検証システム２２０を示し、該システムには、電子化した対話部２２２、認識部２２４、データベース２２６及び判定部２２８を含む。ユーザ２１０は、用途によって、実際に対面して、或いは電話、携帯電話、又は普通電話ででも、以下に図８〜図１３で説明するように、接続開始する。ユーザ２１０とコールセンタとの間での対話を、電子化した対話部２２２で実行する。電子化した対話部２２２により、ユーザ２１０を認識部２２４と接続する。

大まかに言えば、検証を、システム２２０がユーザ２１０に一般的な又は個人的な自分の特徴について幾つか言わせるよう質問して、双方向的に行なう。識別を段階的に行なうが、そこではシステム２２０を、ユーザ２１０がシステムに登録されているアイデンティティの人物と同一か否かを判定するために進行させる。

システム２２０は、ユーザ２１０がシステム２２０のデータベース２２６に登録されていない場合常に、検出することになっている。このように、識別処理ができないと、ユーザ１０にシステムに登録するよう命じる。このシステムは、識別できない場合、又は判定が不明確である場合に、第２の機会をユーザに与えることも理解している。この場合、システムはユーザに、更なる特徴を提供する、又はそうした特徴の幾つかを繰返すよう求め、進展があれば、識別は成功する。

典型的な例では、識別が不成功な場合、システムは処理を完全に繰返すことを許可する。第２の試みに対する識別も不成功な場合、システムはユーザが試行し続けるのを遮断し、システムはこの特定のユーザによる試行に対する表記を提供し、用途によっては、警告又はアラームを出してもよい。成功した識別がある場合、表記をシステムに提供し、システムはこのユーザについて識別に成功した人物として学習する。これにより、システムはこのユーザの追跡調査でき、システムがこの人物の行動及び習慣について学習するのを支援でき、それにより将来更なる識別をより迅速に行え、不十分な情報による誤識別を削減する。

図３は、図２の認識部の対話型処理に関するフローチャートであり、本発明の原理に従い構成されている。この処理はブロック３１０で、ユーザが電子化した対話部からの質問に対して答Ａ_ｉで回答して応答することで、開始する。答Ａ_ｉをその後データベースと比較して分析し、スコアをその答に対してブロック３２０で計算する。そのスコアをブロック３３０の判定部で保存し、その後これらのスコアをブロック３４０のデータベース情報と比較する。次にこのループを、電子化した対話部でユーザが応答する更なる質問を問いながら継続し、それによりこの処理を、識別をブロック３５０で行えるよう、確実な応答が得られるまで進める。

システムでこの処理を、追加質問をしながら、繰返すことで、‘層’と呼ばれる更なるレベルのセキュリティ、即ちシステムのセキュリティに関して追加層を提供する。上記の処理では、２周の質問、即ち第１層及び第２層について記述している。

第３層では分析中の音声を使用して、“内部的に”その音声を自己分析するが、その同じ会話での音声のセグメントを、それ自体と、及びデータベースと比較することによってこれを行う。第４層では、システムにより異なる音声間の調和振動数内における変化を認識し、それにより会話を開始した音声が最早継続していない場合、不適当な何かが存在する可能性があり、その結果システムがこの状況を認識する。

図４は全体的な概要認証フローチャートであり、本発明の原理に従い構成されている。図４〜図７は、式を含む一組のフローチャートであり、当該技術に精通したプログラマにより理解されるものである。これらフローチャートを、マイクロプロセッサで実装してもよく、適当なプログラム言語、例えばＣ＋＋で、実行可能である。各々の何重にも輪郭を囲んだ参照ブロックは、次なるブロック、例えばブロック４１０、４２０及び４４０用の汎用“ヘッダ”、を表している。ブロック４３７は続き、ブロック５２０〜５２３を含む図５の先頭に繋がる。ブロック４４０は続き、図５の下側に繋がり、ブロック５２５で始まり、その後図６のブロック（Ｄ）に続く。このように、“全サンプル発話に関するループ”（ブロック４４０）を汎用ヘッダとし、該ヘッダには“各サンプル発話に関するループ”（ブロック５２５）を含み、“最後のサンプル発話？”（ブロック５３５）で（Ｄ）“各サンプル発話に関する更なるループ”（図６のブロック６００）への出口を有する。

システム運用を、呼を行なう際に、例えば、そこでユーザに一連の質問をして、開始してもよい。ユーザが発話するかも知れない各答に関して、“分岐限界（Branch and bound）”ループをブロック４１０で実行する。この分岐限界アルゴリズムにより間隔を２つに分断し、ここではダ’ハエス・ダブリュー（D’haes W.）氏らの論文、“アン・エフィシエント・ブランチ・アンド・バウンド・サーチ・アルゴリズム・フォー・コンピューティング・ケー・ニアレスト・ネイバーズ・イン・ア・マルチダイメンショナル・ベクトル・スペース（An efficient branch and bound search algorithm for computing K nearest neighbors in a multidimensional vector space）”ＩＥＥＥ、ベルギー国、ゲント市、９月９〜１１日（２００２年）と同様に適用するが、それは以下のように言換えられる：
多次元ベクトル空間でＮ個の近傍点を検索するのは、ノンパラメトリック密度推定及び分類に使用する技法である。サンプル数が大きい場合、様々な技法により距離計算数を減少させる。サンプルを効果的に分解するために、以下の仮定をする：
１．各サブセットには、好適には同数のベクトルを含む；及び
２．両サブセットで近傍点を持つベクトル数は最小である。

まず、多変量ガウス分布を、このセットに当てはめる。その後、ベクトルを２サブセットに、平均ベクトルを含み、最大固有値を持つ共分散マトリックスの固有ベクトルに対して垂直な超平面に従い、分割する。この分解が多変量ガウス分布に最適であることが知られている。というのは平均ベクトルを含む任意の超平面でこの分布を２等分するため、第１効率基準を自動的に満たすからである。連続分布を、無限精度を有するサンプリングと考えると、厳密に超平面上に存在するベクトルのみが両サブセットの近傍点を有することになる。従って、本システムの目標は、その平面上の分布の積分値が最小となる超平面を決定することとなる。

分岐限界ループのステップを、ブロック４１１〜ブロック４１６で表現する。この分岐及び結合ループ内の主要なサブループは、発話の動的時間伸縮（ＤＴＷ）マトリックス４２０を列方向に拡張したものである。列方向に拡張するステップは、ブロック４２１〜ブロック４２３を含む。これには、時間領域に対する高速フーリエ変換（ＦＦＴ）を含む。ＦＦＴによりユーザ音声周波数波形を２５６（２５６）“ビン”に分割するが、これにより音声特徴の詳細分析が可能になる。

ＤＴＷアプローチ方法では、背景技術で述べたことをここでも明確にするために繰返すが、発話を特徴ベクトルに分解して、発話間でこれらの特徴ベクトルを照合してスコアを求める。このパターン照合中に、該方法では最大スコアのために音声セグメントを伸縮（一定の制約内で）し、動的計画法と呼ばれる最適化原則を用いる。最初の発話を表す特徴ベクトルを、次の発話により、発話間スコア及びシステム規則に基づいて更新（“スムージング”と称される）をしても又はしなくてもよい。本発明の特徴ベクトルは、１６次元（１６）を有する。このように、２５６ビンを１６のフィルタ“バンク”に割当て、それにより各フィルタバンクを特徴ベクトルにより分類し、その結果高精度でユーザ音声を検証可能になる。

本発明によれば、１６次元が必要であり、１６次元は略完全な音声検証に十分な数であること、を見出した。

更なる答を、必要に応じて、全サンプル発話に関して、ブロック４４０に示すように、認識をブロック４３０で完了するまで、ループさせて、分析する。認識を完了せず、且つ分岐及びループ（ブロック４３２）を完了しない場合には、次なるステップとしてブロック４３３〜４４０を含む。ここでは主に判定するのは、ブロック４３６で表すように、“ｐｏｓ≧ＳＬＯＰＰＹ＿ＣＯＲＮＥＲ＋１？”か否かである。Ｙｅｓであれば、システムは直接（Ａ）４３７に進むが、（Ａ）４３７については図５の上側で詳述しており、次に（Ｂ）、次に（Ｃ）に進む。さもなければ、システムはブロック４３８の（Ｂ）“Ｒ＿ｓｔａｔｕｓに反応”に進むが、（Ｂ）については図５の下側で詳述しており、ブロック４４０で表すように、次に（Ｃ）各サンプル発話に関してループを、図６で紹介し概括するように、（Ｃｌ）、（Ｃ２）及び（Ｃ３）として図７で詳述するように、継続させる。“Ｐｏｓ”はサンプリング処理開始時のポインタ位置を指す。

ＳＬＯＰＰＹ＿ＣＯＲＮＥＲは、最小値を求める検索の開始を指す。この概念については、上記で図１を参照して“分割統治法”として紹介した。

図５は、図４のフローチャートの一部分であり、各サンプル発話４４０に関するループに対する前処理の詳細を示す。主な判定ブロック“ｐｏｓ≧ＳＬＯＰＰＹ＿ＣＯＲＮＥＲ＋１？”４３６を、図４から繰返し、図５の上へと展開している。Ｙｅｓ（Ａ）４３７であれば、次にシステムはブロック５２０で表すように“残余フレーム≧３０＆＆ＩＡｂｏｒｔ＿ｒｅｑｕｅｓｔｅｄ？”と質問し、ブロック５２１〜５２３に続く。Ｎｏであれば、次に各サンプル発話に関する処理を、（Ｂ）“Ｒ＿ｓｔａｔｕｓに反応”４３８に続け、次にブロック４４０の展開を、ブロック５３１〜５３３で示す。その後“各サンプル発話に関するループ”を、図６で以下に詳述するように、続ける。

図６は、図４のフローチャートの一部分であり、ブロック４３０の各サンプル発話に関するループについて、ブロック６０１〜６３５で示すように、より詳細に示している。別の処理について、Ｐｏｓの可能な３結果：ブロック６１０で表すＰｏｓ＝０（Ｃ１）；ブロック６２０で表すＰｏｓ＝１（Ｃ２）；及びブロック６３０で表すＰｏｓ＞１（Ｃ３）、に関して示すが、各々について、以下の図７で更に詳しく述べる。

図７は、図４のフローチャートの一部分であり、各サンプル発話に関するループについて個別に詳細を示したものである。Ｐｏｓ＝０（Ｃ１）については、現ＤＴＷマトリクス列の初期化、即ち、全値を“無限”に設定し、ブロック７１０及び７１５の現コラムにおける第１ＳＬＯＰＰＹ＿ＣＯＲＮＥＲアイテムを計算する。Ｐｏｓ＝１（Ｃ２）については、特別な（短い）伸縮関数を使用するが、これは履歴（１マトリクス列のみの）ではまだ完全な伸縮関数を適用できないためである。
その結果、ここでもまた、現ＤＴＷマトリクス列を初期化、即ち、全値を“無限”に設定するが、この場合は、ブロック７２０、７２１及び７２２で第１ＳＬＯＰＰＹ＿ＣＯＲＮＥＲ＋１要素を計算する。

Ｐｏｓ＞１（Ｃ３）については、伸縮関数はマトリクス内に存在し、完全にブロック７３０〜７３９で計算できる。

図８は、本発明の原理による、検証及びセキュリティシステムについての概略ブロック図である。

典型的な取引では、着呼８１０を双方向音声応答（ＩＶＲ）８２０で受信するが、ＩＶＲは、電話発呼者が通常のトーンダイヤル式電話機を使用して、音声又はダイヤルによる指示によりコンピュータと対話できる取引システムに対する総称である。発呼者の各応答により、別の記録されたメッセージを、取引が完了するまで、トリガし続ける。本発明の話者検証システム８３０は、以下の用途において変更版を有し、顧客データベース８４０にアクセスする。システムが顧客のアイデンティティ８５０を否定すると、警告が企業のセキュリティ部門８６０に発せられる。

本発明では、音声を、合法的なユーザを即座に識別し、それ以外の者を完全に拒否する認証システムを用いて、認識する。このシステムは、如何なる既存のアナログ又はデジタルネットワークにも柔軟に適用可能な、オープン・モジュラー型である。このシステムにより、通常の電話回線を介して高信頼性の遠隔識別が、極秘情報を伝える必要なく提供でき、それにより顧客ロイヤルティを向上させ、継続的な取引を増加させ、顧客満足度を高め、逸していた可能性がある販売機会を得、不正行為を減少させて、収益を増大できる。要するに、このシステムは暮らしを正直者にとって便利に、犯罪者にとって不便にする。

図９は、本発明の原理に従う、キーレスエントリシステムに関する概略ブロック図である。例えば、インターコム装置９２０を通して、ある者が施設９１０に入ることを要請する。本発明の話者検証システム８３０は、仮想キー所有者のデータベース９４０にアクセスする。システムがその者のアイデンティティ９５０を否定した場合、警告を企業のセキュリティ部門又は民間の警備会社９６０に発する。

例えば、従業員識別に関して、本発明は、自由及び管理を提供する。従業員が話すだけで、その者のアクセスを、証明書、労働者カード等の必要無く、管理できる。例えば従業員の行動についてチェック、許可、指示、記録、請求書を作成する場合に、全てを、音声とパソコン（ＰＣ）との間の対話によって一層簡単に、経済的に行なえる。

学生の識別及び行動を、例えば講義、試験、又は図書館又は研究所への入室を単に音声検証で管理できるため、一層容易にできる。

個人のセキュリティ及び家庭のセキュリティも提供できるが、これは入室を本人の音声だけで可能にするためである。認証された者のみが入室を許可され、それ以外の者が試行したアクセスは記録される。

図１０は、本発明の原理に従う、空港警備用途での実施例に関する略ブロック図である。最近の９／１１後のセキュリティを意識した世界では、４００名を飛行機に搭乗させる又は１０００名を工場やオフィスビルに入れることは、取るに足らない仕事ではない。

迅速に多数の人々を識別する場合、１つの過ちの結果が災難を引起こしかねないが、緩慢で目立ったセキュリティチェックは、正直者に敬遠される可能性がある。本発明を用いれば、関係者は誰でも、挨拶をするだけで入れる。そして、関係者以外は誰も入れない。例えば、ある者が空港ゲート１０１０に入りたいと、音声録音装置１０２０を通して要求する。本発明の話者検証システム８３０は、パスポート検証データベース及び／又は指名手配者リストデータベース１０４０にアクセスする。システムがその者のアイデンティティ１０５０を否定すると、警告を空港警備、ＦＢＩ、ＣＩＡ又は地方警察１０６０に発する。

図１１は、本発明の原理に従う、テロ防止セキュリティ用途での実施例に関する略ブロック図である。法執行機関及び軍組織は本発明から、緊急時に職員を識別し、特定の指名手配者又はテロリストを識別して、それにより無実の者を拘留する必要を減らせることで、恩恵を受けられる。通信遮断装置と一体化することで、犯罪防止及びテロ防止効果を大いに強化できる。例えば、ある者が施設に入りたいと要求する。その要求を、通信遮断サーバ１１２０を介して、通信遮断装置１１１０で処理する。本発明の話者検証システム８３０は、パスポート検証データベース及び／又は指名手配者リストデータベース１１４０にアクセスする。システムがその者のアイデンティティ１１５０を否定した場合、警告がＦＢＩ、ＣＩＡ又は地方警察、例えば１１６０に発する。

図１２は、本発明の原理に従う、自動車セキュリティ用途の実施例に関する略ブロック図である。たまに、場合によってはエンジンを駆けたまま、車を施錠してしまうかも知れない。本発明を備えた鍵を有する車では、１語だけで乗車可能になる。また所有者だけ又は認証された者だけが、この方法でアクセスできる：
１．キー又はキーレスリモコンさえ探す必要がない；
２．エンジンをアイドリング中、ガソリンタンクから離れて寒空の中で過ごす必要がない；及び、
３．見知らぬ地域で、錠前屋に電話するために公衆電話を探す必要がない。

車が、その所有者を知っている。こうしたロックは、家庭やホテルにも適用できる。人間は、失われない鍵を有する。例えば、ある者が、本発明１２２０の構成要素としてもよい車両セキュリティ記録装置１２２２を介して、施設１２１０に入りたいと要求する。本発明の話者検証システム８３０は、車両ドライバのデータベース１２２６にアクセスする。システムがその者のアイデンティティ１２５０を否定した場合、警告を企業のセキュリティ部門又は民間の警備会社１２６０に発する。

図１３は、本発明の原理に従う、銀行取引及び信用取引用途の実施例に関する略ブロック図であり、本発明により顧客は所望の時に、所望の場所で、購入可能になる。クレジットカードでの購入は、実際に代金が支払われることを知る必要がある。販売者がクレジットカード会社に支払う料金の大部分は、不正行為による損失を補償するために使われる。本発明を用いれば、売上げを減少するのではなく、個人小切手を、危険無く、承諾できる。

信頼性が高く、経済的で、使い勝手が良い自動化した音声応答コールセンターシステムで、購入又は支払いを取扱う。本発明を用いれば、誰が電話をして来たのかが、彼らが名乗る前に分かる。顧客をその人に応じた挨拶で歓迎でき、彼らが望む商品やサービスを、過去の購買習慣に基づいて、提供する準備ができる。

多くの顧客は電話で、対面してさえも、クレジットカードの使用を拒否するが、それは彼らのクレジットカード番号や他の個人識別情報が悪人の手に渡ること、又は彼らの同意無しで再使用されることを恐れるからである。本発明を用いれば、あらゆる取引を検証可能である。

典型的な取引では、着信１３１０を、双方向音声応答（ＩＶＲ）１３２０で受信するが、ＩＶＲは、電話発呼者が通常のトーンダイヤル式電話機を使用して、音声又はダイヤルによる指示によりコンピュータと対話できる取引システムに対する総称である。発呼者の各応答により、別の記録されたメッセージを、取引が完了するまで、トリガし続ける。本発明の話者検証システム８３０は、顧客データベース１３４０にアクセスする。システムが顧客のアイデンティティ８５０を否定すると、警告が企業のセキュリティ部門８６０に発せられる。

このように、発声、即ち音声認証サンプルを残すことが、実質的に、記憶面であるユーザのクレジットカード裏側の磁気帯の必要性だけでなく、発信者番号通知機能及び電話の伝言に名前を残す必要性に取って替る。

上記のように、本発明は高度なセキュリティ及び使い易さを提供する。

本発明を、ある特定なその実施例に関して記述したが、当然ながらこの記述は、更なる変更例を当業者は着想するだろうために、制限を意味するものではなく、かかる変更例についても、付記されたクレームの範囲に入るものとしてこれを含むことを意図するものである。

本発明の処理、分析及び検証段階に関する概要フローチャートである。本発明の全体的な認証処理に関するブロック図である。本発明の原理に従い構築した、図２の認識装置に関するフローチャートである。本発明に従い構築した、認証アルゴリズムに関するフローチャートである。図４のフローチャートの１部分であり、全サンプル発話に関するループに対する前処理の詳細について示す。図４のフローチャートの１部分であり、全体的に、全サンプル発話に関するループについて示す。図４のフローチャートの１部分であり、全サンプル発話に関するループの詳細について示す。本発明の原理に従う、検証及びセキュリティシステムの概略ブロック図である。本発明の原理に従う、キーレス・サイト・エントリシステムの概略ブロック図である。本発明の原理に従う、空港警備用途の実施例に関する略ブロック図である。本発明の原理に従う、テロ防止セキュリティ用途の実施例に関する略ブロック図である。本発明の原理に従う、キーレス自動車セキュリティ用途の実施例に関する略ブロック図である。本発明の原理に従う、銀行取引及び信用取引用途の実施例に関する略ブロック図である。

符号の説明

２１０ユーザ
２２２対話部
２２４認識部
２２６データベース
２２８判定部
８２０、１３２０ＩＶＲ
８３０話者検証システム
８４０、９４０、１０４０、１２２６データベース（８４０）
８６０、９６０、１３６０セキュリティ部門
９２０インターコム装置
１０２０音声記録装置
１０６０空港警備／ＦＢＩ／ＣＩＡ／警察
１１１０通信遮断装置
１１２０通信遮断サーバ
１２２２車両セキュリティ記録装置

Claims

音声パラメータに基づきユーザのアクセスを検証及び可能にするシステムであって、前記システムは：
音声登録サンプル中でユーザの音声パラメータを見出し、それをデータベースに保存することにより、該ユーザを登録して、複数ユーザ其々に関する略固有な初期識別を提供する音声登録部；及び
前記複数ユーザの１人のアイデンティティを略完全に検証する音声認証部を備え、該音声認証部には：
音声認証サンプルを提供し、前記データベースと動作する認識部；及び
前記認識部及び前記データベースと動作して、前記音声認証サンプルと関連するユーザが、システムに登録され前記音声登録サンプルと関連したアイデンティティのユーザと同じか否かを判定する、判定部を備え、
それにより前記複数ユーザの１人の前記アイデンティティをアクセス目的で略完全に検証すること、
からなるシステム。
ユーザの音声パラメータを：
システムは話者／ユーザに自分の特徴の幾つかを言うようして、話者／ユーザからの少なくとも１発話についての音声登録サンプルを引出し；
前記少なくとも１発話のサンプルをフラクタル手法で分析し、話者の音声に関する生データを調べ、各サンプルで１組の無次元数を提供し、それにより固有に前記音声登録サンプルを特徴付けし；
前記少なくとも１発話のサンプルを分光的に分析することであって、前記生データを調べ、固有な音声紋を略固有な識別を目的として生成し、それにより話者の音声に関する幾何学的特徴を抽出可能にし；及び
前記少なくとも１発話に関するサンプルのリアプノフ指数を決定し、前記指数のスペクトルを計算し、それにより前記音声登録サンプルを固有に更に特徴付けする、ことからなる方法により，決定し、話者／ユーザからの少なくとも１発話に関する音声認証サンプルを引出し、前記フラクタル分析、分光分析及びリアプノフ指数決定ステップを繰返して、識別を段階的に行い、
それによりシステムを進めて、着呼したユーザがシステムに登録したアイデンティティの人物と同一か否かを判定すること、
を特徴とする請求項１に記載のシステム。
前記システムを、通信ネットワーク上における電子商取引に適用し、前記音声登録サンプルを通話する際に提供すること、を特徴とする請求項１に記載のシステム。
通信網を地上回線とすること、を特徴とする請求項２に記載のシステム。
通信網を無線網とすること、を特徴とする請求項２に記載のシステム。
通信網をＶｏＩＰ（Voice Over the Internet Protocol）網とすること、を特徴とする請求項２に記載のシステム。
前記通話中の前記複数ユーザの１人のアイデンティティを略明確な精度で検証すること、を特徴とする請求項２に記載のシステム。
システムを銀行取引に適用すること、を特徴とする請求項１に記載のシステム。
システムをグローバルとし、銀行取引を常に行えること、及び小切手の振出を音声による取引に代替すること、を特徴とする請求項８に記載のシステム。
ＡＴＭ取引を音声により実施すること、を特徴とする請求項８に記載のシステム。
前記音声認証サンプルを使用して、前記アクセス判定を行うこと、を特徴とする請求項８に記載のシステム。
システムを信用取引に適用すること、を特徴とする請求項１のシステム。
前記音声認証サンプルはクレジットカードの磁気帯に代替すること、を特徴とする請求項１２に記載のシステム。
前記音声認証サンプルは電話システムでの通話ＩＤ機能に代替すること、を特徴とする請求項１２に記載のシステム。
前記音声認証サンプルは音声メッセージに人の名前を残すことに代替すること、を特徴とする請求項１２に記載のシステム。
システムにより不正行為を防ぎ、プラスチック製クレジットカードを単純な音声プロトコルの実装で代替すること、を特徴とする請求項１２に記載のシステム。
システムを従業員の識別に適用すること、を特徴とする請求項１に記載のシステム。
システムを旅行者識別用に空港警備に適用し、中央情報センタで、今どのターミナルにその旅行者が現在居るか、及び該旅行者を特定のフライトに搭乗させてもよいか否かを把握すること、を特徴とする請求項１に記載のシステム。
システムを自動車キーレスエントリに適用して自動車の盗難を防止するが、鍵によるエントリ及び遠隔からの信号発信器によるエントリに代えて音声によるプログラム化したエントリでこれを行うこと、を特徴とする請求項１に記載のシステム。
システムをアクセス管理に適用し、認証された音声だけで運用及び制御すること、を特徴とする請求項１に記載のシステム。
アクセスを以下：
金庫；
金庫室；及び
貸し金庫
の少なくとも１つに適用すること、を特徴とする請求項２０に記載のシステム。
システムを法執行機関に適用して、音声サンプルからの識別及び不正行為防止を行うこと、を特徴とする請求項１に記載のシステム。
システムを軍隊に適用して、兵員に関する正確なリアルタイム識別に基づき活動を管理するための意思決定を行うこと、を特徴とする請求項１に記載のシステム。
前記音声認証サンプルを任意の言語にできること、を特徴とする請求項１に記載のシステム。
試みが前記音声認証サンプルを偽装するために成されること、を特徴とする請求項１に記載のシステム。
前記音声認証サンプルはユーザにより意図せず歪められること、を特徴とする請求項１に記載のシステム。
前記音声認証サンプルは、ユーザにより健康障害のために意図せず歪められること、を特徴とする請求項１に記載のシステム。
前記システムは、自然な音声認証サンプルと不自然な音声認証サンプルを区別できること、を特徴とする請求項１に記載のシステム。
前記不自然な音声認証サンプルを、テープ録音を使用して作成すること、を特徴とする請求項２８に記載のシステム。
前記音声登録サンプルをテキスト依存型にすること、を特徴とする請求項１に記載のシステム。
前記音声登録サンプルをテキスト独立型にすること、を特徴とする請求項１に記載のシステム。
前記音声認証サンプルをテキスト依存型にすること、を特徴とする請求項１に記載のシステム。
前記音声認証サンプルをテキスト独立型にすること、を特徴とする請求項１に記載のシステム。
ユーザから音声認証サンプルを受信するための双方向音声応答（ＩＶＲ）部を更に備えること、を特徴とする請求項１に記載のシステム。
ユーザから音声認証サンプルを受信するためのインターコムを更に備えること、を特徴とする請求項１に記載のシステム。
ユーザから音声認証サンプルを受信するための前記インターコムを、施設への出入り目的用とすること、を特徴とする請求項３５に記載のシステム。
ユーザから音声認証サンプルを受信するための前記インターコムを、自宅への出入り目的用とすること、を特徴とする請求項３５に記載のシステム。
ユーザから音声認証サンプルを受信するための前記インターコムを、自動車への出入り目的用とすること、を特徴とする請求項３５に記載のシステム。
前記データベースを仮想キー所有者データベースとすること、を特徴とする請求項１に記載のシステム。
前記データベースをパスポートデータベースとすること、を特徴とする請求項１に記載のシステム。
前記データベースを“指名手配者リスト”データベースとすること、を特徴とする請求項１に記載のシステム。
前記データベースを自動車所有者データベースとすること、を特徴とする請求項１に記載のシステム。
前記データベースを自動車ドライバのデータベースとすること、を特徴とする請求項１に記載のシステム。
前記音声認証サンプルは車両の鍵と代替すること、を特徴とする請求項１に記載のシステム。
前記音声認証サンプルは家の鍵と代替すること、を特徴とする請求項１に記載のシステム。
複数の場所に存在する複数ユーザから音声認証サンプルを受信するための少なくとも１台の音声録音装置を更に備えること、を特徴とする請求項１に記載のシステム。
前記複数の場所に存在する複数ユーザが空港に居ること、を特徴とする請求項４６に記載のシステム。
前記複数の場所に存在する複数ユーザが会社施設に居ること、を特徴とする請求項４６に記載のシステム。
前記複数の場所に存在する複数ユーザが、政府施設に居ること、を特徴とする請求項４６に記載のシステム。
安全で、電子化した、通信網上で運用される音声による電子商取引を、双方向で行うことを目的とし、該目的のために設けたシステムを用いて複数ユーザを登録及び認証することによりこれを行う方法であって：
システムを用いて複数ユーザを、各ユーザに登録のためにシステムに呼掛けさせて登録し；
話者／ユーザからの少なくとも１発話に関する音声登録サンプルを引出し、システムは話者／ユーザに自分の特徴の幾つかについて言うようにし；
前記少なくとも１発話のサンプルをフラクタル手法で分析し、話者の音声の生データを調べ、各サンプルで一組の無次元数を提供し、該無次元数により前記音声登録サンプルを固有に特徴付けし；
前記少なくとも１発話のサンプルを分光分析し、前記生データを調べ、固有な音声紋を略固有な識別を目的として生成し、それにより話者の音声に関する幾何学的特徴を抽出可能にし；及び
前記少なくとも１発話に関するサンプルのリアプノフ指数を決定し、前記指数のスペクトルを計算し、それにより前記音声登録サンプルを固有に更に特徴付けする、ことならなり、
話者／ユーザからの少なくとも１発話に関する音声認証サンプルを引出し、前記フラクタル分析、分光分析及びリアプノフ指数決定ステップを繰返して、識別を段階的に行い、
それによりシステムを進めて、認証のために着呼したユーザがシステムに登録したアイデンティティの人物と同一か否かを判定する、ことからなる方法。
各認証後に前記複数のユーザ各々について、各認証後にシステムによる学習を更に備えること、を特徴とする請求項５０に記載の方法。
システムに呼掛けた後に、識別が失敗した場合、ステップを繰返し、それによりシステムに識別のための別の機会を与えること、を更に備えること、を特徴とする請求項５０に記載の方法。
動的時間伸縮（ＤＴＷ）技法により分析することを更に備えること、を特徴とする請求項５０に記載の方法。
分光分析には、ＦＦＴを使用して１６次元特徴ベクトルを提供すること、を更に備えること、を特徴とする請求項５０に記載の方法。
分光分析には、分岐限定アルゴリズムを適用することを更に備えること、を特徴とする請求項５０に記載の方法。
前記分岐限定アルゴリズムは、前記少なくとも１発話の動的時間伸縮（ＤＴＷ）マトリクスを列方向に拡張することを備えること、を特徴とする請求項５５に記載の方法。
この目的用に設けたシステムを用いて複数ユーザを登録及び認証することにより、音声パラメータに基づいてユーザのアクセスを検証及び可能にする方法であって、これを行う方法であって、前記方法には：
システムを用いて複数ユーザを、各ユーザに登録のためにシステムに呼掛けさせて登録し；
話者／ユーザからの少なくとも１発話に関する音声登録サンプルを引出し、システムは話者／ユーザに自分の特徴の幾つかについて言うようにし；
前記少なくとも１発話のサンプルをフラクタル手法で分析し、話者の音声の生データを調べ、各サンプルで一組の無次元数を提供し、該無次元数により前記音声登録サンプルを固有に特徴付けし；
前記少なくとも１発話のサンプルを分光分析し、前記生データを調べ、固有な音声紋を略固有な識別を目的として生成し、それにより話者の音声に関する幾何学的特徴を抽出可能にし；及び
前記少なくとも１発話に関するサンプルのリアプノフ指数を決定し、前記指数のスペクトルを計算し、それにより前記音声登録サンプルを固有に更に特徴付けすることからなり、話者／ユーザからの少なくとも１発話に関する音声認証サンプルを引出し、前記フラクタル分析、分光分析及びリアプノフ指数決定ステップを繰返して、識別を段階的に行い、
それによりシステムを進めて、認証のために着呼したユーザがシステムに登録したアイデンティティの人物と同一か否かを判定すること、からなる方法。