JP2008509432A - 音声パラメータに基づきユーザアクセスを検証及び可能にする方法及びシステム - Google Patents
音声パラメータに基づきユーザアクセスを検証及び可能にする方法及びシステム Download PDFInfo
- Publication number
- JP2008509432A JP2008509432A JP2007524460A JP2007524460A JP2008509432A JP 2008509432 A JP2008509432 A JP 2008509432A JP 2007524460 A JP2007524460 A JP 2007524460A JP 2007524460 A JP2007524460 A JP 2007524460A JP 2008509432 A JP2008509432 A JP 2008509432A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- sample
- user
- speaker
- authentication
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 53
- 239000013598 vector Substances 0.000 claims description 24
- 238000004458 analytical method Methods 0.000 claims description 22
- 238000004891 communication Methods 0.000 claims description 12
- 230000001419 dependent effect Effects 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000004611 spectroscopical analysis Methods 0.000 claims description 9
- 230000004044 response Effects 0.000 claims description 8
- 238000001228 spectrum Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 5
- 230000002452 interceptive effect Effects 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 description 47
- 238000010586 diagram Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 13
- 238000012545 processing Methods 0.000 description 13
- 238000013459 approach Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 238000009826 distribution Methods 0.000 description 5
- 230000000739 chaotic effect Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000000903 blocking effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000036962 time dependent Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 241000985694 Polypodiopsida Species 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 235000008409 marco Nutrition 0.000 description 1
- 244000078446 marco Species 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002207 retinal effect Effects 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/40—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2203/00—Aspects of automatic or semi-automatic exchanges
- H04M2203/10—Aspects of automatic or semi-automatic exchanges related to the purpose or context of the telephonic communication
- H04M2203/105—Financial transactions and auctions, e.g. bidding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2203/00—Aspects of automatic or semi-automatic exchanges
- H04M2203/10—Aspects of automatic or semi-automatic exchanges related to the purpose or context of the telephonic communication
- H04M2203/1058—Shopping and product ordering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2207/00—Type of exchange or network, i.e. telephonic medium, in which the telephonic communication takes place
- H04M2207/18—Type of exchange or network, i.e. telephonic medium, in which the telephonic communication takes place wireless networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M7/00—Arrangements for interconnection between switching centres
- H04M7/006—Networks other than PSTN/ISDN providing telephone service, e.g. Voice over Internet Protocol (VoIP), including next generation networks with a packet-switched transport layer
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Finance (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Accounting & Taxation (AREA)
- Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
- Collating Specific Patterns (AREA)
Abstract
ユーザのアクセスを検証及び可能にするシステムであって、該システムには、音声登録サンプル中で話者/ユーザの音声パラメータを見出し、それをデータベースに保存することにより、複数話者/ユーザ其々に関する略固有な初期識別を提供する音声登録部を含む。システムには、上記複数ユーザの1人のアイデンティティを略完全に検証する音声認証部も備える。音声認証部には、音声認証サンプルを提供し、データベースと動作する認識部を含む。音声認証部にはまた、認識部及びデータベースと動作する判定部も含み、ユーザがシステムに登録したアイデンティティの人物と同じか否かを判定し、それにより複数ユーザの1人のアイデンティティを略完全に検証する。
【選択図】図3
Description
本発明は、一般に、安全な、音声に基づくアクセスを提供することに関し、特には、安全な音声に基づきアクセスを、様々な活動及び取引について、登録及び検証する方法及びシステムに関する。
2000年6月30日に、連邦法で、認証デジタル署名の使用について、特に電子商取引に関して、法的拘束力があるよう制定した。現在の公開鍵基盤(PKI)では、暗号化コードを用いたデジタル証明書を、外部とのポイントツーポイント電子商取引/伝送用認証デジタル署名として、利用している。安全に伝送を完了させるには、内部的に認証されたデジタル署名が、これらのデジタル証明書の使用を許可された担当者に必要となる。担当者に対する認証をまず確立する必要があり、これを特にPKIの遠隔認証に対しては行わねばならない。
デジタル署名には、妥協不可能な(非デジタル、バイオメトリクスの)コアが、我々の安全ではないデジタル世界のPC/電話通信基盤だけでなく、対面での検証にも、必要である。典型的には、コード化した磁気帯を有するカードが使われるが、これらのカード及び該カードを使用可能にするアクセスコードを予め配布しなければならない。
利用されている多様なバイオメトリック認証方法、例えば指紋鑑定及び虹彩スキャン又は網膜スキャン等は、特別なハードウェアを必要とするために実施困難であり、人々を不快にし、又は病気を移す可能性さえある。しかし、何よりもまずこれらの方法は、十分正確に絶対的な識別ができることを証明していない。
人間の声紋は、各周波数成分の振幅を備えており、非デジタルで煩わしくもなく、その全世界での利用を考慮すると、無線を含む既存の通信基盤内での、認証目的に相応しい。何処でも利用できる電話及びマイクでの、音声認証又は検証は、話者認識としても知られるが、これは無理が無く、確かに最も費用効果が高く、何処からでも、何時でも利用可能な技術を発展させた結果である。
“ノンリニア・スピーチ・プロセシング・アプライド・トゥ・スピーカー・レコグニション(Nonlinear Speech Processing Applied To Speaker Recognition)”と題する論文中で、マルコス・ファンデズ−ザヌイ(Marcos Fandez-Zanuy)氏が指摘するように、話者認識には多くの用途があり、音声ダイヤル、電話での銀行取引、機密管理、科学捜査システム及び電話ショッピング等が挙げられる。これにより、現在の話者認識システムの改良に対する関心が増大した。重要な論点は、音声信号から抽出する音響特性セットについてである。このセットにより、できるだけ多くの話者依存情報を伝達する必要がある。信号からこれらの特徴を抽出する標準的方法では、フィルタバンク処理又は線形予測分析(LPC)を用いる。両方法は、ある程度、線形手順であって、人間の音声に関する音響特性は主に声道共鳴によるという基本的前提に基づいており、該声道共鳴で音声信号の基本的なスペクトル構造を形成している。
しかしながら、人間のスピーチは非線形現象であり、非線形の生体力学的、空気力学的、音響学的、生理的要因と関係している。LPC導出パラメータは、音声ダイナミクスに関して不十分な説明を提供できるのみである。そのため、話者認識用途に用いる非線形モデルに関しての関心が増大している。音声信号は、本質的に、冗長で非定常である。LPC符号化方式では冗長性を利用するが、非定常について、及び非線形冗長、例えば狭窄的な気音のフラクタル構造、音声源に於けるサブハーモニクス及び非線形音源域相互作用等について説明する方法を提供していない。
従って、更なる研究が、適当な音響特徴を識別するために必要である。新たな、音響及び知覚両方に基づく、時間−周波数表現が必要であることに、皆賛同するだろう。その上、人間による音声信号の解読は、互いから独立して処理される狭周波数帯域での判定に基づくため、特徴抽出アルゴリズム等の、サブバンド処理技術をまだ活用していない。時間依存性のフラクタル次元及びマルチ時間依存性のフラクタクル次元だけでなく、リアプノフ(Lyapunov)指数、音素信号における次元エントロピー及びメトリックエントロピーは、殆どが音声認識用途に使用されているが、これら特徴の組合せを使用した話者認識用には、まだ変更されていない。
音声(又は話者認識、或いは)検証は、音声識別とは区別され、音声識別はより難題であり、現在既存技術では十分な解決を提供していない。音声検証は、一方、容易であるが、これは音声認証を成立させる判定を事実上基本的に2進符号化して行うためである。音声検証では、主として個人をその本人だと主張する者か否かをその者の発話に基づき決定する。
音声検証には2つのアプローチ方法があり、テキスト依存型及びテキスト独立型がある。テキスト依存型アプローチでは、ユーザは同じテキスト(そのテキストを構成する単語の語順を変更可能とする)を発話するのに対して、テキスト独立型アプローチでは、ユーザは単一テキスト又は単語の集合体を制約されずに、任意のテキストを発話できる。テキスト独立型アプローチには、ユーザの利便性という長所がある反面、広範囲な訓練を必要とし、その性能は実用化には十分ではない。
典型的なテキスト依存型音声検証シナリオでは、ユーザはフレーズを何度も繰返してそれを登録し、検証したい時には同じフレーズを発話する。システムで、登録段階で発話したフレーズを調べ、そのフレーズの発話に関するスペクトル及び時間的規則性についての情報を収集し、検証において、発話したフレーズが類似した特徴を備えているかを推測する。結局、この処理の成功(又は失敗)は、ユーザの受容及びユーザの利便性に極めて依存する。以下の原理を仮定して、音声検証処理を一般人に関してより容易にする:システムがユーザと共に学習し、システム自体を調和した性能に改良する必要がある。
テキスト依存型音声検証に対して2つの主要なアプローチ、即ち動的時間伸縮(DTW)及び隠れマルコフモデル(HMM)がある。DTWアプローチは1970年代に、大部分はテキサス・インスツルメンツ社(ドジントン(Doddington)氏のグループが彼の検証に関する博士論文に基づき)が開発したもので、発話を特徴ベクトルに分けて、これらの特徴ベクトルと照合して発話間でスコアを求める。このパターン照合を通じて、音声セグメントを(一定の制約内で)伸縮させて、最大スコアを求めるが、1960年代にベルマンが展開した動的計画法(Dynamic Programming)と呼ばれる最適化原則を用いる。最初の発話を表す特徴ベクトルを、後続する発話により発話間スコア及びシステム規則に基づいて(“スムージング”と称される)更新しても又はしなくてもよい。検証システムによっては、各ユーザに対して一群の特徴ベクトルを保持するかも知れないが、一方他の検証システムでは1つの特徴ベクトルのみを保持するかも知れない。
関連分野である音声認識(話者とは対照的に、話された内容について認識する)では伝統的に、4次元又は5次元から成る特徴ベクトルを使用してきたが、精度が話者認識で程重要でないため、それより多次元は適用されなかった。音声認識のタスクは話者認識で要求されるより低い精度を許容できるため、今まで先行技術は追加次元を有する特徴ベクトルを適用しなかった。
自然は無秩序で、一見ランダムに行動するように見えるが、根底を成す秩序が存在しており、しかしこれは予測不可能な秩序である。フラクタルは、フラクタル次元を持つ対象物である。これらは縮尺を変化させても、自己対称性を示す。形状(例えば、声紋周波数スペクトルに関する)を評価する際に、しばしば形状の容量次元を求めるのが望ましい。線は1次元であり、内部を満した正方形は2次元であり、立方体は3次元である。フラクタル幾何学は、その容量次元が整数でなくむしろ分数となる対象物に関する。例えば、4つの単位正方形で2x2正方形を充填できるが、この単位正方形は4分の1サイズの2x2正方形の同一複製物である。再帰的に、各単位正方形を、元々の2x2正方形の16分の1のサイズである4つの正方形等で精確に充填できる。自然界では、シダ類がフラクタルであり、各枝及び小枝等を、小断片としてシダ全体を再現できる。フラクタル信号モデルを、音声のスペクトル及び表現制御に使用する信号に関して、しばしば適用できる。
カオス系が見られる状態の集合は、フラクタルであることが分かる。次元は、不規則性に関する測度である。様々な量のスケーリング挙動を利用して次元を定義でき、カオス的アトラクタは典型的には非整数次元を有する。同様に、アトラクタの次元は、アトラクタに関する量的特徴となる。リアプノフ指数は軌道の安定性特性を説明するのに有用である。正のリアプノフ指数はカオスの存在を示しており、これはλ>0では、十分小さかった軌道からの逸脱が大きくなり、それによりアトラクタ内で強い不安定性を示すからである。カオス系の持つ本来の不安定性は、初期状態を有限精度でのみ知る場合、将来の予測は限定的なことを意味する。従って、アトラクタ次元及びリアプノフ指数を用いて、カオスをノイズと区別できる。
タルモル(Talmor)氏に付与された、2003年1月21日付(出願2000年3月15日)の米国特許公開第6,510,415号では、発明者は音声認証アルゴリズムに焦点を当てている。このシステムでは、リアルタイムに生成された声紋を用いて、ユーザデータベースからの保存した声紋と比較する。その適合が“最も類似”している場合、このシステムのユーザのみに1度だけアクセスが許可される。タルモル氏は、ケプストラム計算及び線形時間軸伸縮(Linear Time Warping)法を教示している。ケプストラム計算は標準的な従来技術の解析であり、該計算では定数/個人パラメータを、ユーザ音声に関する計算中に、使用する。
タルモル氏の線形時間軸伸縮アプローチは、最適化した、重み付けしたDTW方式であり、HMM又はガウス混合モデル(GMM)にも適用できる。これには最適経路を求める必要があり、該経路は算出したパラメータが関係する。主に同特許では、音声特徴を用いて声紋照合問題に対処するが、音声特徴は示差的であり、話者を最も厳密に特徴付け、その結果話者を識別するが、タルモル氏が使用するアルゴリズムについての詳細は提供してしない。米国暫定特許第20030135740号で、2003年7月17日付(2003年10月2日出願)の発明の名称“バイオメトリック‐ベースト・システム・アンド・メソッド・イネーブリング・オーセンティフィケーション・オブ・イー‐メッセージズ・セント・オーバー・ア・ネットワーク(Biometric-based System and Method Enabling Authentication of E-messages Sent over a Network)”において、タルモル氏は、PKI暗号化に関する問題に、声紋分析及び声紋と保存データとの比較を用いて対処している。この特許では、デジタル署名の使用、安全なオンライン取引及び安全なメッセージ発信について、同発明のシステムの一部として記述している。掌紋、指紋、顔紋と声紋等のバイオメトリックデータは、PKI認証システムを利用する際の、秘密鍵となる。同発明の生体識別に基づくシステムでは、ウェブサーバに3重のセキュリティ構造:(1)バイオメトリックサンプル;(2)固有の装置ID、及び(3)PIN、を備えている。ここでも、声紋認証に関する詳細について開示されていない。
米国特許第6,535,582号、“ボイス・ベリフィケーション・システム(Voice Verification System)”で、ハリス氏は、検証サーバに接続する複数の双方向音声応答(IVR)部について開示している。この技術は一般的に、ネットワーク層及びインターネットを利用した接続でAPIモジュールを使用することに関する。従って、数学的又は革新的な仕組みは開示されていない。
カナダ国特許第CA2130211C、“システム・アンド・メソッド・フォー・パッシブ・ボイス・ベリフィケーション・イン・ア・テレフォン・ネットワーク(System and Method for Passive Voice Verification in a Telephone Network)”では、バーラー(Bahler)氏らは、顧客のテレフォンカードから得られる識別番号の検証について開示している。提供される技術革新及び精度は、僅かである。
米国特許第6,496,800号、“スピーカ・ベリフィケーション・システム・アンド・メソッド・ユージング・スポークン・コンティニアス・ランダム・レングス・デジット・ストリング(Speaker Verification System and Method Using Spoken Continuous, Random Length Digit String)”では、コン(Kong)及びキム(Kim)氏は、電話回線を通じて受動的音声検証‐受動的に発呼者と被呼者との間の会話をモニタして、サンプル信号を得、音声特徴に関する少なくとも1組の参照集合と比較して、発呼者が電話回線の顧客か否かを判定する‐の利用について教示している。同発明では、閾値を活用して、セキュリティを確立している。その構成ブロックに関するアルゴリズム又は要素についての詳細な説明はない。
カンナン(Kannan)氏らは、米国特許第6,728,677号で、“メソッド・アンド・システム・フォー・ダイナミカリィ・インプルービング・パフォーマンス・オブ・スピーチ・レコグニション・オア・アザー・スピーチ・プロセッシング・システムズ(Method and System for Dynamically Improving Performance of Speech Recognition or Other Speech Processing Systems)”を開示している。同発明では、音声認識性能を向上させる方法を提供しているが、該方法には、音声処理システムにおけるコンピューティング資源利用をモニタし、それに基づき音声処理動作の性能を向上させること、を含む。米国特許第6,233,556号では、トイネン(Teunen)氏は、“ア・ボイス・プロセッシング・アンド・ベリフィケーション・システム(A Voice Processing and Verification System)”を教示している。この特許では、自動双方向電話システム用音声処理方法を開示しており、該方法には登録音声モデルを、着信するユーザ音声に対応する器材タイプに変換することを含む。詳細について、ニュアンス(Nuance)社に譲渡されたこれらの2特許の何れにおいても、提供されていない。
欧州特許第EP 1,096,473 A3号で、パーセイ(Persay)社に譲渡された、“バックグランド・モデル・クラスタリング・フォー・スピーカ・アイデンティフィケーション・アンド・ベリフィケーション(Background Model Clustering for Speaker Identification and Verification)”で、トレド(Toledo)‐ローネン(Ronen)氏は、未知の話者に対する目標尤度スコアについて開示しているが、該スコアにより未知の話者が入力した音声が目標話者 のモデルに適合する程度を測定する。この方法では、目標尤度スコアを正規化し、複数の背景モデル中1モデルを選択背景モデルとして選択するステップを含む。この方法では、入力音声が選択背景モデルに適合する程度を測定するステップも含み、その結果、背景尤度スコアを生成し、該背景尤度スコアで目標尤度スコアを割算する。
従って、時間依存性のフラクタル次元及びマルチ時間依存性のフラクタクル次元、高速フーリエ変換(FFT)、リアプノフ指数、及びその他の話者検証システム用非線形技術を組合せて利用する必要がある。
(発明の開示)
従って、本発明の主な目的は、ユーザを検証し、ユーザを広範囲な活動及び場所にアクセス可能にすることである。
従って、本発明の主な目的は、ユーザを検証し、ユーザを広範囲な活動及び場所にアクセス可能にすることである。
本発明の別の目的は、安全な音声ベースの電子商取引を、音声検証アルゴリズムを利用して通信装置上で、登録及び認証する改良した方法及びシステムを提供すること、である。
本発明の更なる目的は、話者の音声パラメータを求める音声登録に関する、他に類を見ない強力な方法及びシステムを提供することである。
また本発明の更なる目的は、3つの主なステップを含む音声登録に関する方法及びシステムを提供することであって、該ステップは:フラクタル分析、分光分析及びリアプノフ指数決定である。
別な本発明の更なる目的は、フラクタル分析を行うことであり、該分析では生データを調べ、各サンプルで話者の音声を固有に特徴付ける1組の無次元数を提供する。
本発明の1つの更なる目的は、検証用キー索引となる、16次元の音声特徴を持つベクトルを導入すること、である。
また本発明の別の目的は、識別を向上させて、他人の音声を盗んで犯す窃盗及び不正行為を防ぐこと、である。
本発明のもう1つの目的は、分光分析を行うことであり、該分析では生データを調べ、指紋と同様な、略明確な精度を持つ、固有に識別可能なパターンを生成する。
また本発明のもう1つの目的は、グローバル・トランザクションのための改良したセキュリティを、場所、時間、取引相手に関係なく、提供することである。
本発明の好適な実施例によれば、ユーザアクセスを検証し、可能にするシステムを提供するが、該システムには音声登録部を含み、複数の話者/ユーザ其々について略固有な初期の識別を、その話者/ユーザの音声パラメータを音声登録サンプル中で見出し、これをデータベースに保存することで、提供する。システムには、複数ユーザの1人のアイデンティティを略完全に検証する、音声認証部も含む。音声認証部には、音声認証サンプルを提供し、データベースと動作する認識部を含む。音声認証部には、認識部及びデータベースと動作する判定部を含み、ユーザがシステムに登録した同じアイデンティティの人物と同一人物か否かを判定し、それにより複数ユーザの1人のアイデンティティを略完全に検証する。
本発明の更なる特徴及び効果について、以下の図面及び説明から明らかになろう。
本発明を一層理解するために、本発明の実施例に関して、添付図面及び説明について言及するが、同じ番号で対応する要素又はセクションを、全体を通じて表すものとする。
(発明を実施するための最良の形態)
本発明には2段階の操作:音声記録又は登録、及び音声検証としても既知の音声認証、を有する。音声登録に於いての目的は、話者の音声パラメータを求めることである。音声登録には、3主要ステップ:フラクタル分析、分光分析及びリアプノフ指数決定、を含む。フラクタル分析中、生データを調査し、各サンプルで話者音声を固有に特徴付ける1組の無次元数を提供する。
本発明には2段階の操作:音声記録又は登録、及び音声検証としても既知の音声認証、を有する。音声登録に於いての目的は、話者の音声パラメータを求めることである。音声登録には、3主要ステップ:フラクタル分析、分光分析及びリアプノフ指数決定、を含む。フラクタル分析中、生データを調査し、各サンプルで話者音声を固有に特徴付ける1組の無次元数を提供する。
分光分析において、生データを調査し、指紋と同様な、固有のパターンを生成する。これにより、話者の音声に関する幾何学的特性を抽出可能になる。最後に、リアプノフ指数には指数のスペクトル計算を含み、これにより音声登録サンプルを固有に特徴付ける。
数学的には、音は、時系列を形成する一連の値として表現される。幾つかの技術が、時系列の特徴を抽出するために存在するが、それらの中には伝統的な高速フーリエ変換(FFT)、つい最近では、フラクタル次元及びリアプノフ指数がある。これらの技術によって、時系列点の其々を個別に分析する必要なく、独自の音波形を分析可能である。
音の波形は、音色の多次元表現となる1組のn対(振幅An、周波数fn)である。加えて、一連のAnに関するスペクトル包絡には、音声については多くの情報を有する。信号が示す定常性が損なわれると主要周波数成分間のエネルギーとなり、これが付加雑音として自動的に吸収されてしまう。音は、変調又は特異な遷移過程を示し始める場合にのみ、復活する。ある意味では、これは純粋な定常性からの音ずれであり、如何に小さくても、音にアイデンティティを提供しており、それにより音が識別可能となり、音声が検証可能になる。
エントロピーが、分解度を増すに連れて、増大するのは、アトラクタ次元に関係する。確かに、埋込み次元が十分に大きければ、その結果オブジェクトによりシステムの解の集合次元、即ちシステムが決定論的である場合、アトラクタ次元に相当する集合次元を評価する。
非線形モデルの場合、予測面上の任意の関連点付近の局所線形化は、同様な(しかし局所的な)マトリクス形式となる。予測面(即ち観測データ)の関連点に沿った局所的マトリクスの整列させた固有値を平均することで、リアプノフ指数を定義できる。
以下の考察により、音声認証段階の詳細について提供する。しかしながら、殆どの技術的ステップは、前述した音声登録段階での全ての対応するステップの繰返しである。
次に図1を参照すると、本発明に従う音声認証に関する概要フローチャートのブロック図が示されており、そこには3段階:前処理110、分析120及び検証130が含まれる。前処理ブロック110には、音声信号のクリーニング、フィルタリング、一般化(規格化)を含む。分析ブロック120は、高速フーリエ変換(FFT)を実施して最適に音声周波数波形を、其々が特定の振幅、又は音量を表す、その構成純音に分解するためのデジタル信号処理部である。検証部130は信号検証部であり、データベース及び入力音声信号と対話する。
音響学では、信号は音波経路に存在する圧力の変動である。この信号をフーリエ変換により、効果的に音を、音楽家が一定ピッチの旋律として認められる程の純音に分解する。高速フーリエ変換は、単なる計算を整理する方法であり、計算がNの値が大きくなる程速くなるが、ここでNは系列におけるサンプル数である。FFTの背後にある考え方は、“分割統治”法であり、元のN点サンプルを2つの(N/2)系列に分解する。
図2は、本発明の典型的なブロック図である。本発明の音声検証アルゴリズムは、定数パラメータKの展開に関与し、該パラメータは特定ユーザ210の音声に固有であり、略100%の認識性能を備える。音声は、たとえそれが老化、病気、変装又は不自然な創作の試行(例えば、電話で又は録音を利用して、録音の場合は、特に、本発明では区別可能である)によって音が異なったとしても、依然一定である。第1語を音声登録システムで記録した時から、同じ状態のままの特定の調和的内容が存在する。しかしながら、音声の調和振動数は、ユーザ210が歳を取るに連れて緩慢な連続体に変化する。認証を行う毎に、本システムはこうした連続体の変化を自動的に学習して、それに適応し、その結果システムは常に必要な検証処理を短縮できる。
アルゴリズムで用いる情報を、音声の周波数スペクトルから取出すが、これで周波数解析をするだけでない。基本的な考えは、定数パラメータKを ユーザ210の音声から抽出し、これを該ユーザ本人のアイデンティフィケーションとし、これをシステムが必要とする全目的に使用して、確実に特定の音声を認識可能にすることである。この定数パラメータKを少数第15位の精度まで開発することが、本発明の主要な要素である。
本発明では、メル周波数ケプストラム係数(MFCC)を用いて、定数音声パラメータKを確立するが、該パラメータはユーザ210と関連している。MelFilter型のオブジェクトは、音を音響時間−周波数で表現するものである:パワースペクトル密度P(f,t)を、dBで表わす。等間隔時間ti及び周波数fjについて(メル周波数軸目盛上で)、多数の点でサンプリングする。コマンドにより、全ての選択した音オブジェクトからMFCCを作成する。
分析を、2ステップで進める:
1.メル周波数軸目盛でフィルタバンク分析を行う
2. フィルタ値をメル周波数ケプストラム係数に変換する
分析を、2ステップで進める:
1.メル周波数軸目盛でフィルタバンク分析を行う
2. フィルタ値をメル周波数ケプストラム係数に変換する
システムがその固有の音声パラメータKを有すると、ユーザ210を他の話者から選別でき、その人物を絶対に確実に略識別できる。本発明の音声検証アルゴリズムでは、音声パラメータKを獲得し、Mをシステムに登録済みのユーザ数として定義する、式(以下に示す)を使用する。小文字mは特定の ユーザ210の指数であり、jは所望の正確さを得るために実施が必要なテスト数を表す。
ユーザ210に関する音声分析において、このシステムではベクトル表記法を使用して、本人の音声を定義するパラメータを表現し、jをその音声を表す全ベクトルの合計とする。
分析手順を、以下のように開始する。システムを第1段階で開始する際、Aとして既知の、質問に対する答を分析し、適当な係数又は定数を作成する。係数を、システムが答を準備した種々のテストによって定める。
識別プロセスでは、ユーザ210が典型的には、自分の姓を言うことから開始し、システムは情報データベースのこの答に対する関連カテゴリに焦点を当てる。選択する答は予め登録したものに最も近いものであり、そのため該答が姓である場合、姓のカテゴリを次にデータベースから選択して、波形分析に関して、以下の図4〜図7のフローチャートで詳述するように、それと最も近いのはどれかを判断する。その答に最も近いものとして検出したアイテムについて格付けする。
第1答を分析して、データベース中の1個人にのみ適合する場合には、判定が既にできている。データベースで1個人と識別可能である場合、それはその個人の姓自体が独特の音声発音を有するためである。それを発音した際に特定の数を生成し、該数をデータベースにより照合して、決定論的に、それが厳密に同一人物だと言うことができる。
第1答の分析で単一の結果が出ない場合、システムはその目標である話者の識別を未達成である、従って、別の質問が問われ、音声パラメータをより特定していく。これら音声パラメータの各々は、適合可能なアイテム数を10倍ずつ減少する。決定論的に絶対に確実な識別に達するのに必要な質問数は、データベースのサイズにより異なる。
このループの最後で、格付けが最低、即ち最良な答で、エプシロン(ε)として定義される、誤差限界より小さい、単一アイテムに到達する。
ここでは ε= 1/2M である。
ここでは ε= 1/2M である。
このように、εはデータベースサイズの2倍の逆数である。つまり、100人がデータベースに存在する場合、200分の1が誤差限界となる。そのため、システムが問う質問数は、誤差限界に関係する。
Mj m = Mj−l m・f、
ここでは、f =ε1/Nq である。
Nqは、確実な識別のために問われる質問数である。
Mj m = Mj−l m・f、
ここでは、f =ε1/Nq である。
Nqは、確実な識別のために問われる質問数である。
図2の一般的な認証ブロック図では、ユーザ210及び検証システム220を示し、該システムには、電子化した対話部222、認識部224、データベース226及び判定部228を含む。ユーザ210は、用途によって、実際に対面して、或いは電話、携帯電話、又は普通電話ででも、以下に図8〜図13で説明するように、接続開始する。ユーザ210とコールセンタとの間での対話を、電子化した対話部222で実行する。電子化した対話部222により、ユーザ210を認識部224と接続する。
大まかに言えば、検証を、システム220が ユーザ210に一般的な又は個人的な自分の特徴について幾つか言わせるよう質問して、双方向的に行なう。識別を段階的に行なうが、そこではシステム220を、ユーザ210がシステムに登録されているアイデンティティの人物と同一か否かを判定するために進行させる。
システム220は、ユーザ210がシステム220のデータベース226に登録されていない場合常に、検出することになっている。このように、識別処理ができないと、ユーザ10にシステムに登録するよう命じる。このシステムは、識別できない場合、又は判定が不明確である場合に、第2の機会をユーザに与えることも理解している。この場合、システムはユーザに、更なる特徴を提供する、又はそうした特徴の幾つかを繰返すよう求め、進展があれば、識別は成功する。
典型的な例では、識別が不成功な場合、システムは処理を完全に繰返すことを許可する。第2の試みに対する識別も不成功な場合、システムはユーザが試行し続けるのを遮断し、システムはこの特定のユーザによる試行に対する表記を提供し、用途によっては、警告又はアラームを出してもよい。成功した識別がある場合、表記をシステムに提供し、システムはこのユーザについて識別に成功した人物として学習する。これにより、システムはこのユーザの追跡調査でき、システムがこの人物の行動及び習慣について学習するのを支援でき、それにより将来更なる識別をより迅速に行え、不十分な情報による誤識別を削減する。
図3は、図2の認識部の対話型処理に関するフローチャートであり、本発明の原理に従い構成されている。この処理はブロック310で、ユーザが電子化した対話部からの質問に対して答Aiで回答して応答することで、開始する。答Aiをその後データベースと比較して分析し、スコアをその答に対してブロック320で計算する。そのスコアをブロック330の判定部で保存し、その後これらのスコアをブロック340のデータベース情報と比較する。次にこのループを、電子化した対話部でユーザが応答する更なる質問を問いながら継続し、それによりこの処理を、識別をブロック350で行えるよう、確実な応答が得られるまで進める。
システムでこの処理を、追加質問をしながら、繰返すことで、‘層’と呼ばれる更なるレベルのセキュリティ、即ちシステムのセキュリティに関して追加層を提供する。上記の処理では、2周の質問、即ち第1層及び第2層について記述している。
第3層では分析中の音声を使用して、“内部的に”その音声を自己分析するが、その同じ会話での音声のセグメントを、それ自体と、及びデータベースと比較することによってこれを行う。第4層では、システムにより異なる音声間の調和振動数内における変化を認識し、それにより会話を開始した音声が最早継続していない場合、不適当な何かが存在する可能性があり、その結果システムがこの状況を認識する。
図4は全体的な概要認証フローチャートであり、本発明の原理に従い構成されている。図4〜図7は、式を含む一組のフローチャートであり、当該技術に精通したプログラマにより理解されるものである。これらフローチャートを、マイクロプロセッサで実装してもよく、適当なプログラム言語、例えばC++で、実行可能である。各々の何重にも輪郭を囲んだ参照ブロックは、次なるブロック、例えばブロック410、420及び440用の汎用“ヘッダ”、を表している。ブロック437は続き、ブロック520〜523を含む図5の先頭に繋がる。ブロック440は続き、図5の下側に繋がり、ブロック525で始まり、その後図6のブロック(D)に続く。このように、“全サンプル発話に関するループ”(ブロック440)を汎用ヘッダとし、該ヘッダには“各サンプル発話に関するループ”(ブロック525)を含み、“最後のサンプル発話?”(ブロック535)で(D)“各サンプル発話に関する更なるループ”(図6のブロック600)への出口を有する。
システム運用を、呼を行なう際に、例えば、そこでユーザに一連の質問をして、開始してもよい。ユーザが発話するかも知れない各答に関して、“分岐限界(Branch and bound)”ループをブロック410で実行する。この分岐限界アルゴリズムにより間隔を2つに分断し、ここではダ’ハエス・ダブリュー(D’haes W.)氏らの論文、“アン・エフィシエント・ブランチ・アンド・バウンド・サーチ・アルゴリズム・フォー・コンピューティング・ケー・ニアレスト・ネイバーズ・イン・ア・マルチダイメンショナル・ベクトル・スペース(An efficient branch and bound search algorithm for computing K nearest neighbors in a multidimensional vector space)”IEEE、ベルギー国、ゲント市、9月9〜11日(2002年)と同様に適用するが、それは以下のように言換えられる:
多次元ベクトル空間でN個の近傍点を検索するのは、ノンパラメトリック密度推定及び分類に使用する技法である。サンプル数が大きい場合、様々な技法により距離計算数を減少させる。サンプルを効果的に分解するために、以下の仮定をする:
1.各サブセットには、好適には同数のベクトルを含む;及び
2.両サブセットで近傍点を持つベクトル数は最小である。
多次元ベクトル空間でN個の近傍点を検索するのは、ノンパラメトリック密度推定及び分類に使用する技法である。サンプル数が大きい場合、様々な技法により距離計算数を減少させる。サンプルを効果的に分解するために、以下の仮定をする:
1.各サブセットには、好適には同数のベクトルを含む;及び
2.両サブセットで近傍点を持つベクトル数は最小である。
まず、多変量ガウス分布を、このセットに当てはめる。その後、ベクトルを2サブセットに、平均ベクトルを含み、最大固有値を持つ共分散マトリックスの固有ベクトルに対して垂直な超平面に従い、分割する。この分解が多変量ガウス分布に最適であることが知られている。というのは平均ベクトルを含む任意の超平面でこの分布を2等分するため、第1効率基準を自動的に満たすからである。連続分布を、無限精度を有するサンプリングと考えると、厳密に超平面上に存在するベクトルのみが両サブセットの近傍点を有することになる。従って、本システムの目標は、その平面上の分布の積分値が最小となる超平面を決定することとなる。
分岐限界ループのステップを、ブロック411〜ブロック416で表現する。この分岐及び結合ループ内の主要なサブループは、発話の動的時間伸縮(DTW)マトリックス420を列方向に拡張したものである。列方向に拡張するステップは、ブロック421〜ブロック423を含む。これには、時間領域に対する高速フーリエ変換(FFT)を含む。FFTによりユーザ音声周波数波形を256(256)“ビン”に分割するが、これにより音声特徴の詳細分析が可能になる。
DTWアプローチ方法では、背景技術で述べたことをここでも明確にするために繰返すが、発話を特徴ベクトルに分解して、発話間でこれらの特徴ベクトルを照合してスコアを求める。このパターン照合中に、該方法では最大スコアのために音声セグメントを伸縮(一定の制約内で)し、動的計画法と呼ばれる最適化原則を用いる。最初の発話を表す特徴ベクトルを、次の発話により、発話間スコア及びシステム規則に基づいて更新(“スムージング”と称される)をしても又はしなくてもよい。本発明の特徴ベクトルは、16次元(16)を有する。このように、256ビンを16のフィルタ“バンク”に割当て、それにより各フィルタバンクを特徴ベクトルにより分類し、その結果高精度でユーザ音声を検証可能になる。
本発明によれば、16次元が必要であり、16次元は略完全な音声検証に十分な数であること、を見出した。
更なる答を、必要に応じて、全サンプル発話に関して、ブロック440に示すように、認識をブロック430で完了するまで、ループさせて、分析する。認識を完了せず、且つ分岐及びループ(ブロック432)を完了しない場合には、次なるステップとしてブロック433〜440を含む。ここでは主に判定するのは、ブロック436で表すように、“pos≧SLOPPY_CORNER+1?”か否かである。Yesであれば、システムは直接(A) 437に進むが、(A)437については図5の上側で詳述しており、次に(B)、次に(C)に進む。さもなければ、システムはブロック438の(B)“R_statusに反応”に進むが、(B)については図5の下側で詳述しており、ブロック440で表すように、次に(C)各サンプル発話に関してループを、図6で紹介し概括するように、(Cl)、(C2)及び(C3)として図7で詳述するように、継続させる。“Pos”はサンプリング処理開始時のポインタ位置を指す。
SLOPPY_CORNERは、最小値を求める検索の開始を指す。この概念については、上記で図1を参照して“分割統治法”として紹介した。
図5は、図4のフローチャートの一部分であり、各サンプル発話440に関するループに対する前処理の詳細を示す。主な判定ブロック“pos≧SLOPPY_CORNER+1?”436を、図4から繰返し、図5の上へと展開している。Yes(A) 437であれば、次にシステムはブロック520 で表すように“残余フレーム≧30&&IAbort_requested?”と質問し、ブロック521〜523に続く。Noであれば、次に各サンプル発話に関する処理を、(B)“R_statusに反応”438に続け、次にブロック440の展開を、ブロック531〜533で示す。その後“各サンプル発話に関するループ”を、図6で以下に詳述するように、続ける。
図6は、図4のフローチャートの一部分であり、ブロック430の各サンプル発話に関するループについて、ブロック601〜635で示すように、より詳細に示している。別の処理について、Posの可能な3結果:ブロック610で表すPos=0(C1);ブロック620で表すPos=1(C2);及びブロック630で表すPos>1(C3)、に関して示すが、各々について、以下の図7で更に詳しく述べる。
図7は、図4のフローチャートの一部分であり、各サンプル発話に関するループについて個別に詳細を示したものである。Pos=0(C1)については、現DTWマトリクス列の初期化、即ち、全値を“無限”に設定し、ブロック710及び715の現コラムにおける第1SLOPPY_CORNERアイテムを計算する。Pos=1(C2)については、特別な(短い)伸縮関数を使用するが、これは履歴(1マトリクス列のみの)ではまだ完全な伸縮関数を適用できないためである。
その結果、ここでもまた、現DTWマトリクス列を初期化、即ち、全値を“無限”に設定するが、この場合は、ブロック720、721及び722で第1SLOPPY_CORNER+1要素を計算する。
その結果、ここでもまた、現DTWマトリクス列を初期化、即ち、全値を“無限”に設定するが、この場合は、ブロック720、721及び722で第1SLOPPY_CORNER+1要素を計算する。
Pos>1(C3)については、伸縮関数はマトリクス内に存在し、完全にブロック730〜739で計算できる。
図8は、本発明の原理による、検証及びセキュリティシステムについての概略ブロック図である。
典型的な取引では、着呼810を双方向音声応答(IVR)820で受信するが、IVRは、電話発呼者が通常のトーンダイヤル式電話機を使用して、音声又はダイヤルによる指示によりコンピュータと対話できる取引システムに対する総称である。発呼者の各応答により、別の記録されたメッセージを、取引が完了するまで、トリガし続ける。本発明の話者検証システム830は、以下の用途において変更版を有し、顧客データベース840にアクセスする。システムが顧客のアイデンティティ850を否定すると、警告が企業のセキュリティ部門860に発せられる。
本発明では、音声を、合法的なユーザを即座に識別し、それ以外の者を完全に拒否する認証システムを用いて、認識する。このシステムは、如何なる既存のアナログ又はデジタルネットワークにも柔軟に適用可能な、オープン・モジュラー型である。このシステムにより、通常の電話回線を介して高信頼性の遠隔識別が、極秘情報を伝える必要なく提供でき、それにより顧客ロイヤルティを向上させ、継続的な取引を増加させ、顧客満足度を高め、逸していた可能性がある販売機会を得、不正行為を減少させて、収益を増大できる。要するに、このシステムは暮らしを正直者にとって便利に、犯罪者にとって不便にする。
図9は、本発明の原理に従う、キーレスエントリシステムに関する概略ブロック図である。例えば、インターコム装置920を通して、ある者が施設910に入ることを要請する。本発明の話者検証システム830は、仮想キー所有者のデータベース940にアクセスする。システムがその者のアイデンティティ950を否定した場合、警告を企業のセキュリティ部門又は民間の警備会社960に発する。
例えば、従業員識別に関して、本発明は、自由及び管理を提供する。従業員が話すだけで、その者のアクセスを、証明書、労働者カード等の必要無く、管理できる。例えば従業員の行動についてチェック、許可、指示、記録、請求書を作成する場合に、全てを、音声とパソコン(PC)との間の対話によって一層簡単に、経済的に行なえる。
学生の識別及び行動を、例えば講義、試験、又は図書館又は研究所への入室を単に音声検証で管理できるため、一層容易にできる。
個人のセキュリティ及び家庭のセキュリティも提供できるが、これは入室を本人の音声だけで可能にするためである。認証された者のみが入室を許可され、それ以外の者が試行したアクセスは記録される。
図10は、本発明の原理に従う、空港警備用途での実施例に関する略ブロック図である。最近の9/11後のセキュリティを意識した世界では、400名を飛行機に搭乗させる又は1000名を工場やオフィスビルに入れることは、取るに足らない仕事ではない。
迅速に多数の人々を識別する場合、1つの過ちの結果が災難を引起こしかねないが、緩慢で目立ったセキュリティチェックは、正直者に敬遠される可能性がある。本発明を用いれば、関係者は誰でも、挨拶をするだけで入れる。そして、関係者以外は誰も入れない。例えば、ある者が空港ゲート1010に入りたいと、音声録音装置1020を通して要求する。本発明の話者検証システム830は、パスポート検証データベース及び/又は指名手配者リストデータベース1040にアクセスする。システムがその者のアイデンティティ1050を否定すると、警告を空港警備、FBI、CIA又は地方警察1060に発する。
図11は、本発明の原理に従う、テロ防止セキュリティ用途での実施例に関する略ブロック図である。法執行機関及び軍組織は本発明から、緊急時に職員を識別し、特定の指名手配者又はテロリストを識別して、それにより無実の者を拘留する必要を減らせることで、恩恵を受けられる。通信遮断装置と一体化することで、犯罪防止及びテロ防止効果を大いに強化できる。例えば、ある者が施設に入りたいと要求する。その要求を、通信遮断サーバ1120を介して、通信遮断装置1110で処理する。本発明の話者検証システム830は、パスポート検証データベース及び/又は指名手配者リストデータベース1140にアクセスする。システムがその者のアイデンティティ1150を否定した場合、警告がFBI、CIA又は地方警察、例えば1160に発する。
図12は、本発明の原理に従う、自動車セキュリティ用途の実施例に関する略ブロック図である。たまに、場合によってはエンジンを駆けたまま、車を施錠してしまうかも知れない。本発明を備えた鍵を有する車では、1語だけで乗車可能になる。また所有者だけ又は認証された者だけが、この方法でアクセスできる:
1.キー又はキーレスリモコンさえ探す必要がない;
2.エンジンをアイドリング中、ガソリンタンクから離れて寒空の中で過ごす必要がない;及び、
3.見知らぬ地域で、錠前屋に電話するために公衆電話を探す必要がない。
1.キー又はキーレスリモコンさえ探す必要がない;
2.エンジンをアイドリング中、ガソリンタンクから離れて寒空の中で過ごす必要がない;及び、
3.見知らぬ地域で、錠前屋に電話するために公衆電話を探す必要がない。
車が、その所有者を知っている。こうしたロックは、家庭やホテルにも適用できる。人間は、失われない鍵を有する。例えば、ある者が、本発明1220の構成要素としてもよい車両セキュリティ記録装置1222を介して、施設1210に入りたいと要求する。本発明の話者検証システム830は、車両ドライバのデータベース1226にアクセスする。システムがその者のアイデンティティ1250を否定した場合、警告を企業のセキュリティ部門又は民間の警備会社1260に発する。
図13は、本発明の原理に従う、銀行取引及び信用取引用途の実施例に関する略ブロック図であり、本発明により顧客は所望の時に、所望の場所で、購入可能になる。クレジットカードでの購入は、実際に代金が支払われることを知る必要がある。販売者がクレジットカード会社に支払う料金の大部分は、不正行為による損失を補償するために使われる。本発明を用いれば、売上げを減少するのではなく、個人小切手を、危険無く、承諾できる。
信頼性が高く、経済的で、使い勝手が良い自動化した音声応答コールセンターシステムで、購入又は支払いを取扱う。本発明を用いれば、誰が電話をして来たのかが、彼らが名乗る前に分かる。顧客をその人に応じた挨拶で歓迎でき、彼らが望む商品やサービスを、過去の購買習慣に基づいて、提供する準備ができる。
多くの顧客は電話で、対面してさえも、クレジットカードの使用を拒否するが、それは彼らのクレジットカード番号や他の個人識別情報が悪人の手に渡ること、又は彼らの同意無しで再使用されることを恐れるからである。本発明を用いれば、あらゆる取引を検証可能である。
典型的な取引では、着信1310を、双方向音声応答(IVR)1320で受信するが、IVRは、電話発呼者が通常のトーンダイヤル式電話機を使用して、音声又はダイヤルによる指示によりコンピュータと対話できる取引システムに対する総称である。発呼者の各応答により、別の記録されたメッセージを、取引が完了するまで、トリガし続ける。本発明の話者検証システム830は、顧客データベース1340にアクセスする。システムが顧客のアイデンティティ850を否定すると、警告が企業のセキュリティ部門860に発せられる。
このように、発声、即ち音声認証サンプルを残すことが、実質的に、記憶面であるユーザのクレジットカード裏側の磁気帯の必要性だけでなく、発信者番号通知機能及び電話の伝言に名前を残す必要性に取って替る。
上記のように、本発明は高度なセキュリティ及び使い易さを提供する。
本発明を、ある特定なその実施例に関して記述したが、当然ながらこの記述は、更なる変更例を当業者は着想するだろうために、制限を意味するものではなく、かかる変更例についても、付記されたクレームの範囲に入るものとしてこれを含むことを意図するものである。
210 ユーザ
222 対話部
224 認識部
226 データベース
228 判定部
820、1320 IVR
830 話者検証システム
840、940、1040、1226 データベース(840)
860、960、1360 セキュリティ部門
920 インターコム装置
1020 音声記録装置
1060 空港警備/FBI/CIA/警察
1110 通信遮断装置
1120 通信遮断サーバ
1222 車両セキュリティ記録装置
222 対話部
224 認識部
226 データベース
228 判定部
820、1320 IVR
830 話者検証システム
840、940、1040、1226 データベース(840)
860、960、1360 セキュリティ部門
920 インターコム装置
1020 音声記録装置
1060 空港警備/FBI/CIA/警察
1110 通信遮断装置
1120 通信遮断サーバ
1222 車両セキュリティ記録装置
Claims (57)
- 音声パラメータに基づきユーザのアクセスを検証及び可能にするシステムであって、前記システムは:
音声登録サンプル中でユーザの音声パラメータを見出し、それをデータベースに保存することにより、該ユーザを登録して、複数ユーザ其々に関する略固有な初期識別を提供する音声登録部;及び
前記複数ユーザの1人のアイデンティティを略完全に検証する音声認証部を備え、該音声認証部には:
音声認証サンプルを提供し、前記データベースと動作する認識部;及び
前記認識部及び前記データベースと動作して、前記音声認証サンプルと関連するユーザが、システムに登録され前記音声登録サンプルと関連したアイデンティティのユーザと同じか否かを判定する、判定部を備え、
それにより前記複数ユーザの1人の前記アイデンティティをアクセス目的で略完全に検証すること、
からなるシステム。 - ユーザの音声パラメータを:
システムは話者/ユーザに自分の特徴の幾つかを言うようして、話者/ユーザからの少なくとも1発話についての音声登録サンプルを引出し;
前記少なくとも1発話のサンプルをフラクタル手法で分析し、話者の音声に関する生データを調べ、各サンプルで1組の無次元数を提供し、それにより固有に前記音声登録サンプルを特徴付けし;
前記少なくとも1発話のサンプルを分光的に分析することであって、前記生データを調べ、固有な音声紋を略固有な識別を目的として生成し、それにより話者の音声に関する幾何学的特徴を抽出可能にし;及び
前記少なくとも1発話に関するサンプルのリアプノフ指数を決定し、前記指数のスペクトルを計算し、それにより前記音声登録サンプルを固有に更に特徴付けする、ことからなる方法により,決定し、話者/ユーザからの少なくとも1発話に関する音声認証サンプルを引出し、前記フラクタル分析、分光分析及びリアプノフ指数決定ステップを繰返して、識別を段階的に行い、
それによりシステムを進めて、着呼したユーザがシステムに登録したアイデンティティの人物と同一か否かを判定すること、
を特徴とする請求項1に記載のシステム。 - 前記システムを、通信ネットワーク上における電子商取引に適用し、前記音声登録サンプルを通話する際に提供すること、を特徴とする請求項1に記載のシステム。
- 通信網を地上回線とすること、を特徴とする請求項2に記載のシステム。
- 通信網を無線網とすること、を特徴とする請求項2に記載のシステム。
- 通信網をVoIP(Voice Over the Internet Protocol)網とすること、を特徴とする請求項2に記載のシステム。
- 前記通話中の前記複数ユーザの1人のアイデンティティを略明確な精度で検証すること、を特徴とする請求項2に記載のシステム。
- システムを銀行取引に適用すること、を特徴とする請求項1に記載のシステム。
- システムをグローバルとし、銀行取引を常に行えること、及び小切手の振出を音声による取引に代替すること、を特徴とする請求項8に記載のシステム。
- ATM取引を音声により実施すること、を特徴とする請求項8に記載のシステム。
- 前記音声認証サンプルを使用して、前記アクセス判定を行うこと、を特徴とする請求項8に記載のシステム。
- システムを信用取引に適用すること、を特徴とする請求項1のシステム。
- 前記音声認証サンプルはクレジットカードの磁気帯に代替すること、を特徴とする請求項12に記載のシステム。
- 前記音声認証サンプルは電話システムでの通話ID機能に代替すること、を特徴とする請求項12に記載のシステム。
- 前記音声認証サンプルは音声メッセージに人の名前を残すことに代替すること、を特徴とする請求項12に記載のシステム。
- システムにより不正行為を防ぎ、プラスチック製クレジットカードを単純な音声プロトコルの実装で代替すること、を特徴とする請求項12に記載のシステム。
- システムを従業員の識別に適用すること、を特徴とする請求項1に記載のシステム。
- システムを旅行者識別用に空港警備に適用し、中央情報センタで、今どのターミナルにその旅行者が現在居るか、及び該旅行者を特定のフライトに搭乗させてもよいか否かを把握すること、を特徴とする請求項1に記載のシステム。
- システムを自動車キーレスエントリに適用して自動車の盗難を防止するが、鍵によるエントリ及び遠隔からの信号発信器によるエントリに代えて音声によるプログラム化したエントリでこれを行うこと、を特徴とする請求項1に記載のシステム。
- システムをアクセス管理に適用し、認証された音声だけで運用及び制御すること、を特徴とする請求項1に記載のシステム。
- アクセスを以下:
金庫;
金庫室;及び
貸し金庫
の少なくとも1つに適用すること、を特徴とする請求項20に記載のシステム。 - システムを法執行機関に適用して、音声サンプルからの識別及び不正行為防止を行うこと、を特徴とする請求項1に記載のシステム。
- システムを軍隊に適用して、兵員に関する正確なリアルタイム識別に基づき活動を管理するための意思決定を行うこと、を特徴とする請求項1に記載のシステム。
- 前記音声認証サンプルを任意の言語にできること、を特徴とする請求項1に記載のシステム。
- 試みが前記音声認証サンプルを偽装するために成されること、を特徴とする請求項1に記載のシステム。
- 前記音声認証サンプルはユーザにより意図せず歪められること、を特徴とする請求項1に記載のシステム。
- 前記音声認証サンプルは、ユーザにより健康障害のために意図せず歪められること、を特徴とする請求項1に記載のシステム。
- 前記システムは、自然な音声認証サンプルと不自然な音声認証サンプルを区別できること、を特徴とする請求項1に記載のシステム。
- 前記不自然な音声認証サンプルを、テープ録音を使用して作成すること、を特徴とする請求項28に記載のシステム。
- 前記音声登録サンプルをテキスト依存型にすること、を特徴とする請求項1に記載のシステム。
- 前記音声登録サンプルをテキスト独立型にすること、を特徴とする請求項1に記載のシステム。
- 前記音声認証サンプルをテキスト依存型にすること、を特徴とする請求項1に記載のシステム。
- 前記音声認証サンプルをテキスト独立型にすること、を特徴とする請求項1に記載のシステム。
- ユーザから音声認証サンプルを受信するための双方向音声応答(IVR)部を更に備えること、を特徴とする請求項1に記載のシステム。
- ユーザから音声認証サンプルを受信するためのインターコムを更に備えること、を特徴とする請求項1に記載のシステム。
- ユーザから音声認証サンプルを受信するための前記インターコムを、施設への出入り目的用とすること、を特徴とする請求項35に記載のシステム。
- ユーザから音声認証サンプルを受信するための前記インターコムを、自宅への出入り目的用とすること、を特徴とする請求項35に記載のシステム。
- ユーザから音声認証サンプルを受信するための前記インターコムを、自動車への出入り目的用とすること、を特徴とする請求項35に記載のシステム。
- 前記データベースを仮想キー所有者データベースとすること、を特徴とする請求項1に記載のシステム。
- 前記データベースをパスポートデータベースとすること、を特徴とする請求項1に記載のシステム。
- 前記データベースを“指名手配者リスト”データベースとすること、を特徴とする請求項1に記載のシステム。
- 前記データベースを自動車所有者データベースとすること、を特徴とする請求項1に記載のシステム。
- 前記データベースを自動車ドライバのデータベースとすること、を特徴とする請求項1に記載のシステム。
- 前記音声認証サンプルは車両の鍵と代替すること、を特徴とする請求項1に記載のシステム。
- 前記音声認証サンプルは家の鍵と代替すること、を特徴とする請求項1に記載のシステム。
- 複数の場所に存在する複数ユーザから音声認証サンプルを受信するための少なくとも1台の音声録音装置を更に備えること、を特徴とする請求項1に記載のシステム。
- 前記複数の場所に存在する複数ユーザが空港に居ること、を特徴とする請求項46に記載のシステム。
- 前記複数の場所に存在する複数ユーザが会社施設に居ること、を特徴とする請求項46に記載のシステム。
- 前記複数の場所に存在する複数ユーザが、政府施設に居ること、を特徴とする請求項46に記載のシステム。
- 安全で、電子化した、通信網上で運用される音声による電子商取引を、双方向で行うことを目的とし、該目的のために設けたシステムを用いて複数ユーザを登録及び認証することによりこれを行う方法であって:
システムを用いて複数ユーザを、各ユーザに登録のためにシステムに呼掛けさせて登録し;
話者/ユーザからの少なくとも1発話に関する音声登録サンプルを引出し、システムは話者/ユーザに自分の特徴の幾つかについて言うようにし;
前記少なくとも1発話のサンプルをフラクタル手法で分析し、話者の音声の生データを調べ、各サンプルで一組の無次元数を提供し、該無次元数により前記音声登録サンプルを固有に特徴付けし;
前記少なくとも1発話のサンプルを分光分析し、前記生データを調べ、固有な音声紋を略固有な識別を目的として生成し、それにより話者の音声に関する幾何学的特徴を抽出可能にし;及び
前記少なくとも1発話に関するサンプルのリアプノフ指数を決定し、前記指数のスペクトルを計算し、それにより前記音声登録サンプルを固有に更に特徴付けする、ことならなり、
話者/ユーザからの少なくとも1発話に関する音声認証サンプルを引出し、前記フラクタル分析、分光分析及びリアプノフ指数決定ステップを繰返して、識別を段階的に行い、
それによりシステムを進めて、認証のために着呼したユーザがシステムに登録したアイデンティティの人物と同一か否かを判定する、ことからなる方法。 - 各認証後に前記複数のユーザ各々について、各認証後にシステムによる学習を更に備えること、を特徴とする請求項50に記載の方法。
- システムに呼掛けた後に、識別が失敗した場合、ステップを繰返し、それによりシステムに識別のための別の機会を与えること、を更に備えること、を特徴とする請求項50に記載の方法。
- 動的時間伸縮(DTW)技法により分析することを更に備えること、を特徴とする請求項50に記載の方法。
- 分光分析には、FFTを使用して16次元特徴ベクトルを提供すること、を更に備えること、を特徴とする請求項50に記載の方法。
- 分光分析には、分岐限定アルゴリズムを適用することを更に備えること、を特徴とする請求項50に記載の方法。
- 前記分岐限定アルゴリズムは、前記少なくとも1発話の動的時間伸縮(DTW)マトリクスを列方向に拡張することを備えること、を特徴とする請求項55に記載の方法。
- この目的用に設けたシステムを用いて複数ユーザを登録及び認証することにより、音声パラメータに基づいてユーザのアクセスを検証及び可能にする方法であって、これを行う方法であって、前記方法には:
システムを用いて複数ユーザを、各ユーザに登録のためにシステムに呼掛けさせて登録し;
話者/ユーザからの少なくとも1発話に関する音声登録サンプルを引出し、システムは話者/ユーザに自分の特徴の幾つかについて言うようにし;
前記少なくとも1発話のサンプルをフラクタル手法で分析し、話者の音声の生データを調べ、各サンプルで一組の無次元数を提供し、該無次元数により前記音声登録サンプルを固有に特徴付けし;
前記少なくとも1発話のサンプルを分光分析し、前記生データを調べ、固有な音声紋を略固有な識別を目的として生成し、それにより話者の音声に関する幾何学的特徴を抽出可能にし;及び
前記少なくとも1発話に関するサンプルのリアプノフ指数を決定し、前記指数のスペクトルを計算し、それにより前記音声登録サンプルを固有に更に特徴付けすることからなり、話者/ユーザからの少なくとも1発話に関する音声認証サンプルを引出し、前記フラクタル分析、分光分析及びリアプノフ指数決定ステップを繰返して、識別を段階的に行い、
それによりシステムを進めて、認証のために着呼したユーザがシステムに登録したアイデンティティの人物と同一か否かを判定すること、からなる方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US59854304P | 2004-08-04 | 2004-08-04 | |
US10/958,498 US7054811B2 (en) | 2002-11-06 | 2004-10-06 | Method and system for verifying and enabling user access based on voice parameters |
PCT/IL2005/000818 WO2006013555A2 (en) | 2004-08-04 | 2005-08-01 | Method and system for verifying and enabling user access based on voice parameters |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008509432A true JP2008509432A (ja) | 2008-03-27 |
Family
ID=35787505
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007524460A Pending JP2008509432A (ja) | 2004-08-04 | 2005-08-01 | 音声パラメータに基づきユーザアクセスを検証及び可能にする方法及びシステム |
Country Status (4)
Country | Link |
---|---|
US (1) | US7054811B2 (ja) |
EP (1) | EP1787286A2 (ja) |
JP (1) | JP2008509432A (ja) |
WO (1) | WO2006013555A2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20130133828A (ko) * | 2011-01-10 | 2013-12-09 | 윌슨 에이. 가르시아 | 화자 인식을 위한 자연적 등록 방법 |
KR102262989B1 (ko) * | 2020-11-24 | 2021-06-10 | 주식회사 아하정보통신 | 클라우드 환경에서 음성 인식을 통하여 인공지능 제어기술을 수행하는 전자 칠판 시스템 |
Families Citing this family (102)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7174323B1 (en) * | 2001-06-22 | 2007-02-06 | Mci, Llc | System and method for multi-modal authentication using speaker verification |
US20060259304A1 (en) * | 2001-11-21 | 2006-11-16 | Barzilay Ziv | A system and a method for verifying identity using voice and fingerprint biometrics |
US7376553B2 (en) * | 2003-07-08 | 2008-05-20 | Robert Patel Quinn | Fractal harmonic overtone mapping of speech and musical sounds |
JP4085924B2 (ja) * | 2003-08-04 | 2008-05-14 | ソニー株式会社 | 音声処理装置 |
JP4463526B2 (ja) * | 2003-10-24 | 2010-05-19 | 株式会社ユニバーサルエンターテインメント | 声紋認証システム |
US8224649B2 (en) * | 2004-06-02 | 2012-07-17 | International Business Machines Corporation | Method and apparatus for remote command, control and diagnostics of systems using conversational or audio interface |
KR100571574B1 (ko) * | 2004-07-26 | 2006-04-17 | 한양대학교 산학협력단 | 비선형 분석을 이용한 유사화자 인식방법 및 그 시스템 |
US7254383B2 (en) | 2004-07-30 | 2007-08-07 | At&T Knowledge Ventures, L.P. | Voice over IP based biometric authentication |
US20080208578A1 (en) * | 2004-09-23 | 2008-08-28 | Koninklijke Philips Electronics, N.V. | Robust Speaker-Dependent Speech Recognition System |
US20060229879A1 (en) * | 2005-04-06 | 2006-10-12 | Top Digital Co., Ltd. | Voiceprint identification system for e-commerce |
US8924285B2 (en) | 2005-04-21 | 2014-12-30 | Verint Americas Inc. | Building whitelists comprising voiceprints not associated with fraud and screening calls using a combination of a whitelist and blacklist |
US9571652B1 (en) | 2005-04-21 | 2017-02-14 | Verint Americas Inc. | Enhanced diarization systems, media and methods of use |
US8793131B2 (en) | 2005-04-21 | 2014-07-29 | Verint Americas Inc. | Systems, methods, and media for determining fraud patterns and creating fraud behavioral models |
US9113001B2 (en) | 2005-04-21 | 2015-08-18 | Verint Americas Inc. | Systems, methods, and media for disambiguating call data to determine fraud |
US8903859B2 (en) | 2005-04-21 | 2014-12-02 | Verint Americas Inc. | Systems, methods, and media for generating hierarchical fused risk scores |
US8930261B2 (en) | 2005-04-21 | 2015-01-06 | Verint Americas Inc. | Method and system for generating a fraud risk score using telephony channel based audio and non-audio data |
US8639757B1 (en) | 2011-08-12 | 2014-01-28 | Sprint Communications Company L.P. | User localization using friend location information |
US8396711B2 (en) * | 2006-05-01 | 2013-03-12 | Microsoft Corporation | Voice authentication system and method |
ES2339293T3 (es) * | 2006-06-02 | 2010-05-18 | Koninklijke Philips Electronics N.V. | Diferenciacion de habla. |
US20110047605A1 (en) * | 2007-02-06 | 2011-02-24 | Vidoop, Llc | System And Method For Authenticating A User To A Computer System |
US20080195395A1 (en) * | 2007-02-08 | 2008-08-14 | Jonghae Kim | System and method for telephonic voice and speech authentication |
JP2008287436A (ja) * | 2007-05-16 | 2008-11-27 | Sony Corp | 静脈パターン管理システム、静脈パターン登録装置、静脈パターン認証装置、静脈パターン登録方法、静脈パターン認証方法、プログラムおよび静脈データ構造 |
JP2008287433A (ja) * | 2007-05-16 | 2008-11-27 | Sony Corp | 静脈パターン管理システム、静脈パターン登録装置、静脈パターン認証装置、静脈パターン登録方法、静脈パターン認証方法、プログラムおよび静脈データ構造 |
US8050919B2 (en) | 2007-06-29 | 2011-11-01 | Microsoft Corporation | Speaker recognition via voice sample based on multiple nearest neighbor classifiers |
JP5025353B2 (ja) * | 2007-07-03 | 2012-09-12 | ニュアンス コミュニケーションズ,インコーポレイテッド | 対話処理装置、対話処理方法及びコンピュータ・プログラム |
US8140340B2 (en) * | 2008-01-18 | 2012-03-20 | International Business Machines Corporation | Using voice biometrics across virtual environments in association with an avatar's movements |
US8817964B2 (en) * | 2008-02-11 | 2014-08-26 | International Business Machines Corporation | Telephonic voice authentication and display |
JP2009194577A (ja) * | 2008-02-13 | 2009-08-27 | Konica Minolta Business Technologies Inc | 画像形成装置、音声案内方法及び音声案内プログラム |
US20090210229A1 (en) * | 2008-02-18 | 2009-08-20 | At&T Knowledge Ventures, L.P. | Processing Received Voice Messages |
JP5024154B2 (ja) * | 2008-03-27 | 2012-09-12 | 富士通株式会社 | 関連付け装置、関連付け方法及びコンピュータプログラム |
US8504365B2 (en) * | 2008-04-11 | 2013-08-06 | At&T Intellectual Property I, L.P. | System and method for detecting synthetic speaker verification |
US8073112B2 (en) * | 2008-07-02 | 2011-12-06 | International Business Machines Corporation | Method and system to manage multiple IVRs |
US8077836B2 (en) * | 2008-07-30 | 2011-12-13 | At&T Intellectual Property, I, L.P. | Transparent voice registration and verification method and system |
US8275097B2 (en) | 2008-08-28 | 2012-09-25 | Ebay Inc. | Voice phone-based method and system to authenticate users |
US8537978B2 (en) * | 2008-10-06 | 2013-09-17 | International Business Machines Corporation | Method and system for using conversational biometrics and speaker identification/verification to filter voice streams |
US20100097178A1 (en) * | 2008-10-17 | 2010-04-22 | Pisz James T | Vehicle biometric systems and methods |
US8332223B2 (en) * | 2008-10-24 | 2012-12-11 | Nuance Communications, Inc. | Speaker verification methods and apparatus |
US8494140B2 (en) * | 2008-10-30 | 2013-07-23 | Centurylink Intellectual Property Llc | System and method for voice activated provisioning of telecommunication services |
US8442824B2 (en) | 2008-11-26 | 2013-05-14 | Nuance Communications, Inc. | Device, system, and method of liveness detection utilizing voice biometrics |
US9767806B2 (en) * | 2013-09-24 | 2017-09-19 | Cirrus Logic International Semiconductor Ltd. | Anti-spoofing |
US10853816B1 (en) * | 2009-02-02 | 2020-12-01 | United Services Automobile Association (Usaa) | Systems and methods for authentication of an individual on a communications device |
US7684556B1 (en) | 2009-07-17 | 2010-03-23 | International Business Machines Corporation | Conversational biometric coupled with speech recognition in passive mode during call hold to affect call routing |
US7865937B1 (en) | 2009-08-05 | 2011-01-04 | Daon Holdings Limited | Methods and systems for authenticating users |
US8443202B2 (en) | 2009-08-05 | 2013-05-14 | Daon Holdings Limited | Methods and systems for authenticating users |
US7685629B1 (en) | 2009-08-05 | 2010-03-23 | Daon Holdings Limited | Methods and systems for authenticating users |
US20120059712A1 (en) * | 2009-12-11 | 2012-03-08 | Stalker James R | Web enhancing systems and methods |
US8826030B2 (en) * | 2010-03-22 | 2014-09-02 | Daon Holdings Limited | Methods and systems for authenticating users |
US9318114B2 (en) * | 2010-11-24 | 2016-04-19 | At&T Intellectual Property I, L.P. | System and method for generating challenge utterances for speaker verification |
US20120224711A1 (en) * | 2011-03-04 | 2012-09-06 | Qualcomm Incorporated | Method and apparatus for grouping client devices based on context similarity |
US20120259792A1 (en) * | 2011-04-06 | 2012-10-11 | International Business Machines Corporation | Automatic detection of different types of changes in a business process |
JP5790318B2 (ja) * | 2011-08-29 | 2015-10-07 | ソニー株式会社 | 情報処理装置、署名生成装置、情報処理方法、署名生成方法、及びプログラム |
US10008206B2 (en) * | 2011-12-23 | 2018-06-26 | National Ict Australia Limited | Verifying a user |
AU2012265559B2 (en) * | 2011-12-23 | 2018-12-20 | Commonwealth Scientific And Industrial Research Organisation | Verifying a user |
US10319363B2 (en) * | 2012-02-17 | 2019-06-11 | Microsoft Technology Licensing, Llc | Audio human interactive proof based on text-to-speech and semantics |
US8223931B1 (en) * | 2012-03-01 | 2012-07-17 | Tal Lavian | Systems and methods for visual presentation and selection of IVR menu |
US10198417B2 (en) * | 2012-04-05 | 2019-02-05 | Mitesh L. THAKKER | Systems and methods to input or access data using remote submitting mechanism |
US8971854B2 (en) | 2012-06-19 | 2015-03-03 | Honeywell International Inc. | System and method of speaker recognition |
US8850534B2 (en) * | 2012-07-06 | 2014-09-30 | Daon Holdings Limited | Methods and systems for enhancing the accuracy performance of authentication systems |
US9368116B2 (en) | 2012-09-07 | 2016-06-14 | Verint Systems Ltd. | Speaker separation in diarization |
US20140095161A1 (en) * | 2012-09-28 | 2014-04-03 | At&T Intellectual Property I, L.P. | System and method for channel equalization using characteristics of an unknown signal |
US20140136204A1 (en) * | 2012-11-13 | 2014-05-15 | GM Global Technology Operations LLC | Methods and systems for speech systems |
US10134401B2 (en) | 2012-11-21 | 2018-11-20 | Verint Systems Ltd. | Diarization using linguistic labeling |
US20140379339A1 (en) * | 2013-06-20 | 2014-12-25 | Bank Of America Corporation | Utilizing voice biometrics |
US9460722B2 (en) | 2013-07-17 | 2016-10-04 | Verint Systems Ltd. | Blind diarization of recorded calls with arbitrary number of speakers |
US9984706B2 (en) | 2013-08-01 | 2018-05-29 | Verint Systems Ltd. | Voice activity detection using a soft decision mechanism |
US9305551B1 (en) * | 2013-08-06 | 2016-04-05 | Timothy A. Johns | Scribe system for transmitting an audio recording from a recording device to a server |
WO2015085237A1 (en) | 2013-12-06 | 2015-06-11 | Adt Us Holdings, Inc. | Voice activated application for mobile devices |
US10192219B2 (en) * | 2014-01-09 | 2019-01-29 | Capital One Services, Llc | Voice recognition to authenticate a mobile payment |
US10032011B2 (en) | 2014-08-12 | 2018-07-24 | At&T Intellectual Property I, L.P. | Method and device for managing authentication using an identity avatar |
CN105357006A (zh) * | 2014-08-20 | 2016-02-24 | 中兴通讯股份有限公司 | 一种基于声纹特征进行安全认证的方法及设备 |
CN106716523A (zh) * | 2014-08-27 | 2017-05-24 | 湾流航空航天公司 | 用于无线电通信的语音转录的航空器和仪器系统 |
KR20160063536A (ko) * | 2014-11-26 | 2016-06-07 | 삼성전자주식회사 | 광고 제공 방법, 전자 장치 및 서버 |
US9875742B2 (en) | 2015-01-26 | 2018-01-23 | Verint Systems Ltd. | Word-level blind diarization of recorded calls with arbitrary number of speakers |
JP6461660B2 (ja) * | 2015-03-19 | 2019-01-30 | 株式会社東芝 | 検出装置、検出方法およびプログラム |
US9940926B2 (en) * | 2015-06-02 | 2018-04-10 | International Business Machines Corporation | Rapid speech recognition adaptation using acoustic input |
US10062388B2 (en) * | 2015-10-22 | 2018-08-28 | Motorola Mobility Llc | Acoustic and surface vibration authentication |
US9899038B2 (en) | 2016-06-30 | 2018-02-20 | Karen Elaine Khaleghi | Electronic notebook system |
US20180012197A1 (en) | 2016-07-07 | 2018-01-11 | NextEv USA, Inc. | Battery exchange licensing program based on state of charge of battery pack |
GB2552722A (en) | 2016-08-03 | 2018-02-07 | Cirrus Logic Int Semiconductor Ltd | Speaker recognition |
GB2552723A (en) * | 2016-08-03 | 2018-02-07 | Cirrus Logic Int Semiconductor Ltd | Speaker recognition |
US10614813B2 (en) * | 2016-11-04 | 2020-04-07 | Intellisist, Inc. | System and method for performing caller identity verification using multi-step voice analysis |
US20180129795A1 (en) * | 2016-11-09 | 2018-05-10 | Idefend Ltd. | System and a method for applying dynamically configurable means of user authentication |
US20180151182A1 (en) * | 2016-11-29 | 2018-05-31 | Interactive Intelligence Group, Inc. | System and method for multi-factor authentication using voice biometric verification |
US10074223B2 (en) | 2017-01-13 | 2018-09-11 | Nio Usa, Inc. | Secured vehicle for user use only |
US10464530B2 (en) * | 2017-01-17 | 2019-11-05 | Nio Usa, Inc. | Voice biometric pre-purchase enrollment for autonomous vehicles |
US10360916B2 (en) | 2017-02-22 | 2019-07-23 | Plantronics, Inc. | Enhanced voiceprint authentication |
US11276395B1 (en) * | 2017-03-10 | 2022-03-15 | Amazon Technologies, Inc. | Voice-based parameter assignment for voice-capturing devices |
CN107316645B (zh) * | 2017-06-01 | 2021-10-12 | 北京京东尚科信息技术有限公司 | 一种语音购物的方法和系统 |
US10592649B2 (en) | 2017-08-09 | 2020-03-17 | Nice Ltd. | Authentication via a dynamic passphrase |
EP3451330A1 (en) | 2017-08-31 | 2019-03-06 | Thomson Licensing | Apparatus and method for residential speaker recognition |
US10235998B1 (en) * | 2018-02-28 | 2019-03-19 | Karen Elaine Khaleghi | Health monitoring system and appliance |
CN108667922B (zh) * | 2018-04-28 | 2021-08-17 | 山东师范大学 | 一种基于李雅普诺夫信任优化的车联网数据云推送方法 |
US11538128B2 (en) | 2018-05-14 | 2022-12-27 | Verint Americas Inc. | User interface for fraud alert management |
US10887452B2 (en) | 2018-10-25 | 2021-01-05 | Verint Americas Inc. | System architecture for fraud detection |
US11256794B2 (en) | 2019-02-03 | 2022-02-22 | Fmr Llc | Systems and methods for securely authenticating a caller over a voice channel |
US10559307B1 (en) | 2019-02-13 | 2020-02-11 | Karen Elaine Khaleghi | Impaired operator detection and interlock apparatus |
KR102572864B1 (ko) | 2019-05-22 | 2023-08-30 | 엘지전자 주식회사 | 지능형 전자 기기 및 지능형 전자 기기에 전송되는 메시지를 이용한 인증 방법 |
IL303147B2 (en) | 2019-06-20 | 2024-09-01 | Verint Americas Inc | Systems and methods for verification and fraud detection |
US11593466B1 (en) | 2019-06-26 | 2023-02-28 | Wells Fargo Bank, N.A. | Narrative authentication |
US10735191B1 (en) | 2019-07-25 | 2020-08-04 | The Notebook, Llc | Apparatus and methods for secure distributed communications and data access |
US11868453B2 (en) | 2019-11-07 | 2024-01-09 | Verint Americas Inc. | Systems and methods for customer authentication based on audio-of-interest |
EP3857544B1 (en) * | 2019-12-04 | 2022-06-29 | Google LLC | Speaker awareness using speaker dependent speech model(s) |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5127043A (en) * | 1990-05-15 | 1992-06-30 | Vcs Industries, Inc. | Simultaneous speaker-independent voice recognition and verification over a telephone network |
US5365574A (en) * | 1990-05-15 | 1994-11-15 | Vcs Industries, Inc. | Telephone network voice recognition and verification using selectively-adjustable signal thresholds |
US5271088A (en) | 1991-05-13 | 1993-12-14 | Itt Corporation | Automated sorting of voice messages through speaker spotting |
US5774858A (en) * | 1995-10-23 | 1998-06-30 | Taubkin; Vladimir L. | Speech analysis method of protecting a vehicle from unauthorized accessing and controlling |
JP3379344B2 (ja) | 1996-07-24 | 2003-02-24 | トヨタ自動車株式会社 | ファルネシル二リン酸合成酵素 |
US6157935A (en) * | 1996-12-17 | 2000-12-05 | Tran; Bao Q. | Remote data access and management system |
US5913196A (en) * | 1997-11-17 | 1999-06-15 | Talmor; Rita | System and method for establishing identity of a speaker |
JP3151489B2 (ja) * | 1998-10-05 | 2001-04-03 | 運輸省船舶技術研究所長 | 音声による疲労・居眠り検知装置及び記録媒体 |
US6233556B1 (en) | 1998-12-16 | 2001-05-15 | Nuance Communications | Voice processing and verification system |
IL129451A (en) | 1999-04-15 | 2004-05-12 | Eli Talmor | System and method for authentication of a speaker |
KR100297833B1 (ko) | 1999-07-07 | 2001-11-01 | 윤종용 | 비고정 연속 숫자음을 이용한 화자 검증 시스템 및 그 방법 |
WO2001024162A1 (en) | 1999-09-30 | 2001-04-05 | Buy-Tel Innovations Limited | Voice verification system |
US6691089B1 (en) * | 1999-09-30 | 2004-02-10 | Mindspeed Technologies Inc. | User configurable levels of security for a speaker verification system |
EP1096473A3 (en) | 1999-10-26 | 2001-09-05 | Persay Inc., c/o Corporation Service Company | Background model clustering for speaker identification and verification |
EP1096474A2 (en) | 1999-10-26 | 2001-05-02 | Persay Inc., c/o Corporation Service Company | Speaker verification system and method |
US6876976B1 (en) * | 2000-05-30 | 2005-04-05 | Mark Setteducati | Merchandising magic tricks, mechanical or action/motion puzzles |
US6728677B1 (en) | 2001-01-31 | 2004-04-27 | Nuance Communications | Method and system for dynamically improving performance of speech recognition or other speech processing systems |
-
2004
- 2004-10-06 US US10/958,498 patent/US7054811B2/en not_active Expired - Fee Related
-
2005
- 2005-08-01 WO PCT/IL2005/000818 patent/WO2006013555A2/en not_active Application Discontinuation
- 2005-08-01 EP EP05764328A patent/EP1787286A2/en not_active Withdrawn
- 2005-08-01 JP JP2007524460A patent/JP2008509432A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20130133828A (ko) * | 2011-01-10 | 2013-12-09 | 윌슨 에이. 가르시아 | 화자 인식을 위한 자연적 등록 방법 |
KR101626302B1 (ko) * | 2011-01-10 | 2016-06-01 | 윌슨 에이. 가르시아 | 화자 인식을 위한 자연적 등록 방법 |
KR102262989B1 (ko) * | 2020-11-24 | 2021-06-10 | 주식회사 아하정보통신 | 클라우드 환경에서 음성 인식을 통하여 인공지능 제어기술을 수행하는 전자 칠판 시스템 |
WO2022114437A1 (ko) * | 2020-11-24 | 2022-06-02 | 주식회사 아하정보통신 | 클라우드 환경에서 음성 인식을 통하여 인공지능 제어기술을 수행하는 전자 칠판 시스템 |
Also Published As
Publication number | Publication date |
---|---|
US7054811B2 (en) | 2006-05-30 |
US20050096906A1 (en) | 2005-05-05 |
WO2006013555A2 (en) | 2006-02-09 |
EP1787286A2 (en) | 2007-05-23 |
WO2006013555A3 (en) | 2006-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7054811B2 (en) | Method and system for verifying and enabling user access based on voice parameters | |
Naik | Speaker verification: A tutorial | |
US8209174B2 (en) | Speaker verification system | |
Das et al. | Development of multi-level speech based person authentication system | |
KR100297833B1 (ko) | 비고정 연속 숫자음을 이용한 화자 검증 시스템 및 그 방법 | |
US20070294083A1 (en) | Fast, language-independent method for user authentication by voice | |
US20110320202A1 (en) | Location verification system using sound templates | |
US8447614B2 (en) | Method and system to authenticate a user and/or generate cryptographic data | |
JPH0354600A (ja) | 不明人物の同一性検証方法 | |
JP2002514318A (ja) | 録音された音声を検出するシステムおよび方法 | |
Fong | Using hierarchical time series clustering algorithm and wavelet classifier for biometric voice classification | |
Mohammed et al. | Advantages and disadvantages of automatic speaker recognition systems | |
KR100779242B1 (ko) | 음성 인식/화자 인식 통합 시스템에서의 화자 인식 방법 | |
Ma et al. | Data‐Driven Decision‐Support System for Speaker Identification Using E‐Vector System | |
Reynolds et al. | Automatic speaker recognition | |
Gupta et al. | Text dependent voice based biometric authentication system using spectrum analysis and image acquisition | |
Al-Qaisi | Arabic word dependent speaker identification system using artificial neural network | |
Chadha et al. | Text-independent speaker recognition for low SNR environments with encryption | |
Dutta et al. | Effective use of combined excitation source and vocal-tract information for speaker recognition tasks | |
Nagakrishnan et al. | Novel secured speech communication for person authentication | |
Hassan et al. | Robust Speaker Identification System Based on Variational Bayesian Inference Gaussian Mixture Model and Feature Normalization | |
Anarkat et al. | Detection of Mimicry Attacks on Speaker Verification System for Cartoon Characters’ Dataset | |
Wankhede | Voice-Based Biometric Authentication | |
Samudre | Text-independent speaker identification using vector quantization | |
Ch | Text dependent speaker recognition using MFCC and LBG VQ |