JP2001501740A - アクセス制御アプリケーションのための、予測モデルを使用する話者の音声認識方法 - Google Patents
アクセス制御アプリケーションのための、予測モデルを使用する話者の音声認識方法Info
- Publication number
- JP2001501740A JP2001501740A JP09539577A JP53957797A JP2001501740A JP 2001501740 A JP2001501740 A JP 2001501740A JP 09539577 A JP09539577 A JP 09539577A JP 53957797 A JP53957797 A JP 53957797A JP 2001501740 A JP2001501740 A JP 2001501740A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- phase
- sequence
- utterance
- prediction model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 239000011159 matrix material Substances 0.000 claims abstract description 57
- 239000013598 vector Substances 0.000 claims abstract description 43
- 238000004458 analytical method Methods 0.000 claims abstract description 21
- 238000012795 verification Methods 0.000 claims description 20
- 230000001131 transforming effect Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 abstract 1
- 230000008569 process Effects 0.000 description 13
- 230000006870 function Effects 0.000 description 7
- 238000001914 filtration Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 241000252095 Congridae Species 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Complex Calculations (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
Claims (1)
- 【特許請求の範囲】 1. p及びqは0でない整数であり、話者(U)の少なくとも1つの発声に該 当する話者(U)の特定の期間Dの音声サンプルをデジタル獲得する少なくとも 1つのステップと、 上記音声サンプルを平均サイズT及び平均間隔Iを有する解析ウィンドウのシ ーケンスから得られる特定サイズpのベクトルのシーケンスへ変換するステップ と、 このベクトルのシーケンスからq+1の相関マトリックスを決定するステップ とを含む統計的特徴(P4,P'4)を抽出する少なくとも1つのフェーズからな るq-オーダー予測モデルを使用する話者音声認識の方法であって、 上記平均サイズTは10ms未満の期間を有することを特徴とする方法。 2. 上記平均間隔Iは4.5ms未満の期間を有することを特徴とする請求項 1記載の方法。 3. 上記平均間隔I、上記平均サイズT及び予測モデルの上記オーダーqは、 I<T/max(3,q) の関係を有することを特徴とする請求項2記載の方法。 4. 上記相関マトリックス及び上記該当する予測モデルは少なくとも1つの辞 書(51)に格納され、上記話者の上記q+1の相関マトリックスを辞書(51 )から抽出する第1のステップと、 話者の新たな音声サンプルを上記ベクトルのシーケンスに変換することにより 得られるサイズpのベクトルからq+1の相関マトリックスの新たなシーケンス を決定する第2のステップと、 該第1のステップの間に抽出されたq+1の相関マトリックスと該第2のステ ップの間に決定されたq+1の相関マトリックスを上記辞書(51)の1つに蓄 積し格納することからなるq+1の更新された相関マトリックスのシーケンスを 決定する第3のステップとを少なくとも含む、 特定話者(U)のために上記辞書(51)の1つを更新するフェーズ(P9) を含むことを特徴とする請求項1ないし3のうちいずれか1項記載の方法。 5. 上記第3のステップは更に、q+1の更新された相関マトリックスのシー ケンスの決定に該当する予測モデルを決定し、それを上記辞書に格納することか らなることを特徴とする請求項4記載の方法。 6. 上記相関マトリックス及び上記該当する予測モデルは少なくとも1つの辞 書(51)に格納され、上記方法は新たな話者(U)に関連する統計データの学 習フェーズ(P2,P4,P5,P7,P9)のシーケンスからなり、 該シーケンスは、新たな話者の新たな音声サンプルを上記ベクトルのシーケン スへ変換することにより得られるサイズpのベクトルからq+1の相関マトリッ クスの新たなシーケンスを決定し、上記q+1の相関マトリックスのシーケンス に該当する予測モデルを決定する第1のステップと、 該第1のステップで決定されたq+1の相関マトリックス及び予測モデルを上 記辞書(51)に格納することからなる第2のステップとを少なくとも含む少な くとも1つのフェーズ(P9)からなることを特徴とする請求項1ないし3のう ちいずれか1項記載の方法。 7. 上記方法は話者の身元を照合するためのフェーズ(P3, P’4,P’5,P6,P8)のシーケンスからなり、該シーケンスは少なくとも、 ‐少なくとも1つの発声の上記統計的特徴から、qの予測マトリックスを決定 することからなる第1のステップと、 各発声の音声サンプルから算出されるp次元のベクトルのシーケンスと、同様 のベクトルから算出される予測モデルである話者の発声の予測モデルを定義する q+1のマトリックスのセット及び上記統計的特徴ならびに関連する予測モデル からなる話者の発声のリファレンスとの間のエラーマトリックスの逆を算出する 第2のステップとを含む予測モデルを決定するフェーズ(P’5) ‐少なくとも同一の話者の発声リファレンスが辞書から抽出される第1のステ ップと、 前に抽出された少なくともいくつかの発声リファレンスと、照合されるべき音 声サンプルの発声リファレンスとの間のエラーマトリックスを算出する第2のス テップと、 該第2のステップで算出されたエラーマトリックスの少なくともいくつかから 計測された近似性を算出することからなる第3のステップと、 該第3のステップで算出された計測された近似性から上記話者の照合の確率を 算出する第4のステップとを含む、上記話者の身元を照合するフェーズ(P6) 、及び ‐上記身元の照合が成功のとき、予備のフェーズ(P1)の間に上記話者によ り前に要求された予め定められたリソースの少なくともいくつかのセットにアク セスすることを許可するフェーズ(P8)、 からなることを特徴とする請求項1ないし3のうちいずれか1項記載の方法。 8. 上記予測モデルはベクトル自己回帰予測モデルであることを 特徴とする請求項1ないし7のうちいずれか1項記載の方法。 9. 少なくとも1人の許可された話者に制限されたリソースへの安全なアクセ スのためのシステムであって、上記システムは請求項7または8に記載の方法を 使用し、 上記話者の音声サンプルをデジタル信号に変換するためのデバイス(7)に接 続された少なくとも1つの電気音変換器と、 少なくとも1つの辞書(51)に接続され、照合されるべき音声サンプルの上 記発声リファレンスを決定するための上記デジタル信号を受信し、上記リファレ ンスから及び辞書(51)に格納された発声リファレンスから話者(U)の身元 を照合し、1つの状態は上記リソースへのアクセスを許可する許可された話者の 身元の照合が肯定的であることを表す、少なくとも2つの状態を有する制御信号 (Vc)を伝達する蓄積プログラム制御計算システム(5、50)を含む、 照合されるべき話者(U)の音声サンプルに感応するサウンドロックからなる ことを特徴とするシステム。 10. 少なくとも1人の許可された話者に制限された取引への安全なアクセス のためのシステムであって、上記システムは請求項7または8に記載の方法を使 用し、 少なくとも1つの電気音変換器を含む少なくとも1つの電話デバイス(9)か らなり、 該電話デバイス(9)は、少なくとも1つの辞書(51)に接続した蓄積プロ グラム制御計算システム(5、50)において照合される少なくとも1つの話者 の音声サンプルを電話線で送り、 該システムは照合されるべき音声サンプルの上記発声リファレンスを決定し、 上記リファレンスから及び辞書(51)に格納された発声リファレンスから話者 (U)の身元を照合し、許可された話者 の身元の照合が肯定的である場合に上記取引を許可することを特徴とするシステ ム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR9605566A FR2748343B1 (fr) | 1996-05-03 | 1996-05-03 | Procede de reconnaissance vocale d'un locuteur mettant en oeuvre un modele predictif, notamment pour des applications de controle d'acces |
FR96/05566 | 1996-05-03 | ||
PCT/FR1997/000753 WO1997042625A1 (fr) | 1996-05-03 | 1997-04-25 | Procede de reconnaissance vocale d'un locuteur mettant en oeuvre un modele predictif, notamment pour des applications de controle d'acces |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2001501740A true JP2001501740A (ja) | 2001-02-06 |
Family
ID=9491813
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP09539577A Pending JP2001501740A (ja) | 1996-05-03 | 1997-04-25 | アクセス制御アプリケーションのための、予測モデルを使用する話者の音声認識方法 |
Country Status (7)
Country | Link |
---|---|
US (1) | US6349279B1 (ja) |
EP (1) | EP0896711B1 (ja) |
JP (1) | JP2001501740A (ja) |
DE (1) | DE69702602T2 (ja) |
ES (1) | ES2150246T3 (ja) |
FR (1) | FR2748343B1 (ja) |
WO (1) | WO1997042625A1 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7630895B2 (en) * | 2000-01-21 | 2009-12-08 | At&T Intellectual Property I, L.P. | Speaker verification method |
US6076055A (en) * | 1997-05-27 | 2000-06-13 | Ameritech | Speaker verification method |
KR20010054622A (ko) * | 1999-12-07 | 2001-07-02 | 서평원 | 음성 인식 시스템의 음성 인식률 향상 방법 |
US7240007B2 (en) * | 2001-12-13 | 2007-07-03 | Matsushita Electric Industrial Co., Ltd. | Speaker authentication by fusion of voiceprint match attempt results with additional information |
US9390445B2 (en) | 2012-03-05 | 2016-07-12 | Visa International Service Association | Authentication using biometric technology through a consumer device |
US8694315B1 (en) * | 2013-02-05 | 2014-04-08 | Visa International Service Association | System and method for authentication using speaker verification techniques and fraud model |
DE102014002207A1 (de) | 2014-02-20 | 2015-08-20 | Friedrich Kisters | Verfahren und Vorrichtung zur Identifikation oder Authentifikation einer Person und/oder eines Gegenstandes durch dynamische akustische Sicherheitsinformationen |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4956865A (en) * | 1985-01-30 | 1990-09-11 | Northern Telecom Limited | Speech recognition |
US4885790A (en) * | 1985-03-18 | 1989-12-05 | Massachusetts Institute Of Technology | Processing of acoustic waveforms |
JPS62235998A (ja) * | 1986-04-05 | 1987-10-16 | シャープ株式会社 | 音節識別方式 |
US5054072A (en) * | 1987-04-02 | 1991-10-01 | Massachusetts Institute Of Technology | Coding of acoustic waveforms |
US5794194A (en) * | 1989-11-28 | 1998-08-11 | Kabushiki Kaisha Toshiba | Word spotting in a variable noise level environment |
US5097509A (en) * | 1990-03-28 | 1992-03-17 | Northern Telecom Limited | Rejection method for speech recognition |
FR2696036B1 (fr) * | 1992-09-24 | 1994-10-14 | France Telecom | Procédé de mesure de ressemblance entre échantillons sonores et dispositif de mise en Óoeuvre de ce procédé. |
US6081782A (en) * | 1993-12-29 | 2000-06-27 | Lucent Technologies Inc. | Voice command control and verification system |
US5522012A (en) * | 1994-02-28 | 1996-05-28 | Rutgers University | Speaker identification and verification system |
-
1996
- 1996-05-03 FR FR9605566A patent/FR2748343B1/fr not_active Expired - Fee Related
-
1997
- 1997-04-25 JP JP09539577A patent/JP2001501740A/ja active Pending
- 1997-04-25 DE DE69702602T patent/DE69702602T2/de not_active Expired - Lifetime
- 1997-04-25 US US09/171,958 patent/US6349279B1/en not_active Expired - Fee Related
- 1997-04-25 WO PCT/FR1997/000753 patent/WO1997042625A1/fr active IP Right Grant
- 1997-04-25 ES ES97921895T patent/ES2150246T3/es not_active Expired - Lifetime
- 1997-04-25 EP EP97921895A patent/EP0896711B1/fr not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
ES2150246T3 (es) | 2000-11-16 |
US6349279B1 (en) | 2002-02-19 |
DE69702602D1 (de) | 2000-08-24 |
FR2748343B1 (fr) | 1998-07-24 |
WO1997042625A1 (fr) | 1997-11-13 |
DE69702602T2 (de) | 2001-01-04 |
EP0896711B1 (fr) | 2000-07-19 |
EP0896711A1 (fr) | 1999-02-17 |
FR2748343A1 (fr) | 1997-11-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6081782A (en) | Voice command control and verification system | |
US4827518A (en) | Speaker verification system using integrated circuit cards | |
EP0953972B1 (en) | Simultaneous speaker-independent voice recognition and verification over a telephone network | |
US7054811B2 (en) | Method and system for verifying and enabling user access based on voice parameters | |
EP0746846B1 (en) | Voice-controlled account access over a telephone network | |
US6931375B1 (en) | Speaker verification method | |
EP0647344B1 (en) | Method for recognizing alphanumeric strings spoken over a telephone network | |
US5893057A (en) | Voice-based verification and identification methods and systems | |
US9373325B2 (en) | Method of accessing a dial-up service | |
JPH0354600A (ja) | 不明人物の同一性検証方法 | |
US20080071538A1 (en) | Speaker verification method | |
JP2001501740A (ja) | アクセス制御アプリケーションのための、予測モデルを使用する話者の音声認識方法 | |
CA2253276C (en) | Method for the voice recognition of a speaker using a predictive model, particularly for access control applications | |
US9978373B2 (en) | Method of accessing a dial-up service |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040415 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060620 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20060919 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20061106 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061220 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070220 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20070517 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20070702 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20081014 |