JPH10307593A - 話者認証用確率的マッチング方法 - Google Patents
話者認証用確率的マッチング方法Info
- Publication number
- JPH10307593A JPH10307593A JP10063451A JP6345198A JPH10307593A JP H10307593 A JPH10307593 A JP H10307593A JP 10063451 A JP10063451 A JP 10063451A JP 6345198 A JP6345198 A JP 6345198A JP H10307593 A JPH10307593 A JP H10307593A
- Authority
- JP
- Japan
- Prior art keywords
- information
- speech
- input test
- features
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 40
- 238000012360 testing method Methods 0.000 claims abstract description 125
- 238000012549 training Methods 0.000 claims abstract description 113
- 239000011159 matrix material Substances 0.000 claims abstract description 51
- 238000006243 chemical reaction Methods 0.000 claims abstract description 13
- 239000013598 vector Substances 0.000 claims description 29
- 230000009466 transformation Effects 0.000 claims description 19
- 238000013519 translation Methods 0.000 claims description 11
- 230000001131 transforming effect Effects 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 abstract 1
- 238000004220 aggregation Methods 0.000 abstract 1
- 238000013459 approach Methods 0.000 description 5
- 238000007476 Maximum Likelihood Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 239000008186 active pharmaceutical agent Substances 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000009795 derivation Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000008080 stochastic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Complex Calculations (AREA)
Abstract
対応する訓練音声データとの確率的マッチングを行う方
法及び装置に関する。とりわけ、入力テスト音声の特徴
に関する情報の集合は、その確率的特性が、訓練音声の
特徴に関する情報で対応する集合の確率的特性に一層マ
ッチングするように変換される。特に、入力テスト音声
の特徴に関する情報の確率的特性を表す第一の共分散行
列が生成され、さらに、当該情報について変換が実行さ
れる。当該変換は、第一の共分散行列及び、訓練音声の
特徴に関する情報の確率的特性を表す第二の共分散行列
に基づく。この変換により結果的に、訓練音声の特徴に
関する情報の確率的特性に一層マッチングした確率的特
性を持つ、変換済み入力テスト音声の特徴に関する情報
が得られる。
Description
般に関し、特に話者認証訓練とテスト環境の間における
音響上の不適合を補償する方法に関する。
(ID)を発音の解析を通じて識別することによって個
人を認識するものである。例えば、電気通信システムに
おいては、クレジットカードや通話カードへ通話を課金
している発呼者の身元(ID)を認証するため用いられ
うる。一般的には、ある身元(ID)を主張する個人か
ら受け取った発音に関する抽出された特徴を、識別がな
されている人により事前に提供されている発音に基づい
た(すなわち「訓練された」)音声のプロトタイプと比
較することで、これらのシステムは動作するのである。
ムでしばしば遭遇する、重要な問題点の一つは、認証シ
ステムを訓練した人が、認証の試行を行う際には必ずし
も同様に発音するとは限らないということである。例え
ば、ある人の「発音」における経時変化は、例えば、そ
の人の音声信号を搬送している電気通信チャネルの特性
における変化によって引き起こされうるのである。これ
らの変化は、訓練プロセス及び認証の試行について異な
る電話機を利用することによって、もっともよく引き起
こされうる。当然(そして、残念なことに)、そのよう
な変化は実質的に認証システムの性能を低下させること
が多い。実際、チャネル特性の変化に対する感応性や、
あるいは話者のラウドネス(音量)レベルに対する感応
性までにもよって、認証システムの性能は受容できない
ほどのレベルまで低下しうるのである。
は、話者認識システムは、所与の個人について特定話者
の隠れマルコフモデル(HMM)を作り出しているので
ある。そこでの所与の個人の身元(ID)は、多くは単
一の登録セッション(登録を行う期間)で集められたデ
ータに基づいて訓練を実行することにより、認証される
ことが可能となる。それ故、HMMは、訓練データの確
率密度関数(pdf)に完全に適合しているのである。
証を行う期間)においては、テストデータは異なる電話
通信路(チャネル)そしてハンドセット(送受器)を通
じて集められうるものである。(訓練プロセスの間に集
められたデータは、ここでは「訓練データ」あるいは
「訓練音声データ」と呼称されることになろう。一方、
認証セッションの間に得られたデータは、ここでは「テ
ストデータ」あるいは「テスト音声データ」と呼称され
ることになろう。加えて、「訓練情報」あるいは「訓練
音声情報」という語は、例えばモデルのような、訓練デ
ータに基づいた情報を示すのに用いられることになるで
あろう。)登録セッションと認証セッションとの間で音
響上の条件が異なることから、テストデータの集合とH
MMを訓練するのに用いられたデータの集合との間で確
率的な不適合が生じうるのである。話者認識の性能は、
そのような不適合によって低下する。
領域における線形変換として以下の式(1)のように表
されることが可能である。 y=Ax+b (1) ここでxとはテスト発音についてのケプストラム領域で
のフレームのベクトルである。A及びbとは、行列及び
ベクトルである。これらが適切に推定されるとすれば、
以下示されるように、所与のテスト発音について、当該
不適合を取り除くように応用されることが可能となる。
の変換済みベクトルである。(例えば、R.J.Mammoneら
による"Robust Speaker Recognition,"IEEE Signal Pro
cessing Magazine,vol.13,pp.58-71,Sept.1996参照。)
幾何学的には、bはテストデータの平行移動を表してお
り、Aはテストデータについての縮小拡大(スケーリン
グ)及び回転(ローテーション)を表している。(ここ
で、Aが対角行列であるときには、拡大縮小(スケーリ
ング)操作のみを表している。)
率的不適合を取り扱う能力の点で限界があった。例え
ば、話者認識と音声認識の両方の応用例における確率的
不適合を取り扱うため、ケプストラム平均値減算がしば
しば用いられてきた。上の式(1)についてみると、こ
のような技術では本質的にはbを予測し、Aが識別行列
であるとみなしている。例えば、A.E.Rosenbergらによ
る"Cepstral Channel Normalization Techniques for
HMM-based Speaker Verification,"Proc.of Int.Conf.
on Spoken Language Processing,pp.1835-1838,1994に
おいては、ベクトルbは長期平均、短期平均、最大尤度
(ML)アプローチによって予測されていた。
d Approach to Stochastic Matching for Robust Speec
h Recognition,"IEEE Trans.on Speech and Audio Proc
essing,vol.4,pp.190-202,May,1996では、確率的マッチ
ングのため、b、対角行列A及びHMMについてのモデ
ルパラメータを予測するのに、最大尤度(ML)アプロ
ーチが用いられていた。最近では、線形変換パラメータ
(すなわちA及びb)の最小二乗法による解法が、上に
引用したR.J.Mammoneらによる"Robust Speakerrecognit
ion"において短く紹介されている。しかしながら、確率
的不適合の問題に対する先行技術におけるアプローチの
いずれについても、テストデータについての全体の分布
を訓練データについての全体の分布と適切に適合させる
ための、一般化された線形変換に基づいた効率的な技術
を提供してはいないのである。
音声データの集合について、訓練音声データの対応する
集合との確率的マッチングを実行する方法及び装置を提
供するものである。特に、入力テスト音声の発音から生
成された、入力テスト音声の特徴に関する情報の集合
は、その確率的特性が、訓練音声の特徴に関する情報の
対応する集合についての確率的特性により厳密に適合す
るように変換される。話者認証タスクの例示的な状況で
は、例えば、訓練音声データの対応する集合とは、入力
テスト音声の発音にかかる話者が主張する身元(ID)
を持つ話者から生成された訓練データを有している訳で
ある。
入力テスト音声の特徴に関する情報の確率的特性を表し
ている第一の共分散行列は、当該入力テスト音声の特徴
に関する情報に基づいて生成される。そこで、当該入力
テスト音声の特徴に関する情報についての変換が実行さ
れる。当該変換は、第一の共分散行列及び、訓練音声の
特徴に関する情報の確率的特性を表している第二の共分
散行列に基づいている。このような変換によって、訓練
音声の特徴に関する情報の確率的特性により厳密に適合
した確率的特性を有する、変換済み入力テスト音声の特
徴に関する情報を結果としてうまく得ることになるので
ある。
該変換は、入力テスト音声の特徴に関する情報が、入力
テスト音声の発音のフレームから得られたケプストラム
領域におけるデータのベクトルを構成している線形変換
を含んでいる。このような例示的実施例の場合、当該線
形変換は式(1)の形式をしており、とりわけ第一及び
第二の共分散行列から導出された行列と、ケプストラム
領域でのフレームにおけるデータのベクトルとの乗算を
含んでいる(このような乗算は、データの拡大縮小及び
回転を効果的に行う。)。さらに、導出されたベクトル
についての加算が行われる(このような加算は、データ
の平行移動を効果的に行う。)。
トデータの訓練データへの確率的マッチングを幾何学的
に表したものを示している。図1(図2及び図3におい
ても同様)では、点線11は所与の話者についての訓練
データの外形を表している。図2では、実線12はテス
トデータの外形を表している。異なるチャネル、ノイズ
レベル、電話機のトランスデューサー(変換器)のた
め、テストデータの平均値(外形領域内の中心に配置さ
れた実線の十字で記されている)は、訓練データの平均
値(点線の十字で記されている)から平行移動され、テ
ストデータの分布は、訓練データの分布から圧縮され、
回転される(例えば、訓練データと比較した、テストデ
ータについてのいわゆる「収縮」に関する議論について
は、上で引用したR.J.Mammoneらによる"Robust Speaker
Recognition"を参照。)。
不適合は、(不適合となった)テストデータを評価する
ために訓練されたHMMを用いる際、結果的には不正確
な判断を行うことにつながりうる。しかしながら、本発
明の例示的実施例によれば、図3及び図4で示したよう
に、テストデータは、訓練データに対して確率的により
厳密にマッチングするようにうまく変換されうるのであ
る。
列Rtrainは訓練データから導出され、当該行列は訓練
データ全体の分布を特徴付けている。とりわけ、R
trainは、対応する各訓練発音からの訓練データを基に
生成された共分散行列の平均となっている。ここで、R
trainとはアプリオリに(先験的に)(すなわち、訓練
プロセスの間に)導出され、他の訓練情報(例えば、H
MM)と共に保存されうるということに留意されたい。
さらに、話者認証セッションにおいては、共分散行列R
testがテストデータから導出され、当該行列は同様に、
テストデータ全体の分布を特徴付けている。
いての行列Aのパラメータは、2つの行列Rtrain及び
Rtestを基に予測されうるのである(以下に示す)。式
(1)で特定された変換の第一の部分を適用した後には
−すなわち、テストデータに行列Aを掛けた(乗算し
た)後には、テストデータ全体の分布は、図3で示され
ているように、平均値が異なることを除いて、訓練デー
タ全体の分布と概ね同一となるように拡大縮小及び回転
される(実線13は、拡大縮小及び回転がなされたテス
トデータの外形を表している)。
(以下に示す)、当該テストデータは、図4で示された
ように、その位置が訓練データの位置と概ね同一となる
ように平行移動される。図4では、変換済みのテストデ
ータの外形は、訓練データの外形と重ね合っている。
(図4では、実線14は、訓練データ及び、拡大縮小、
回転、平行移動がなされたテストデータの共通の外形を
表している。)このような最終ステップは、式(1)で
特定された、ベクトルbの加算を表しているものであ
る。
は、テストデータの全体的分布を変えるものであるとい
うことは留意しておくべきである。しかし、(変換が線
形であることから)そのような変換はテストデータのp
dfの細部を損ねるものではない。これらのpdfの細
部は、話者認証プロセスの最終ステップを実行するため
には、従来の手法における訓練された特定話者のHMM
により測定され評価されることになるであろう。
の(すなわち、正しく認識された)話者からのテストデ
ータ生成が行われる間の条件が、HMMが訓練された条
件と適合していない場合には、所与の話者のHMMを訓
練するのに用いられた訓練データに確率的に(概ね)マ
ッチングするように、テストデータはうまく変換される
ことになろう。真の話者からのテストデータ生成が行わ
れる間における条件が、訓練が行われた条件と実際マッ
チングしている場合には、計算された行列A及びベクト
ルbはそれぞれ、識別行列とゼロベクトルに近いものと
なるであろう。そこで、当該変換は、HMMの評価に最
小限の影響しか有さないことになろう。
は、テスト条件と訓練条件が異なっているからなのか、
それともテストデータと訓練データが異なる話者から発
せられているからなのか(すなわち、当該話者は、身元
(ID)が主張されている者とは異なる者である、氏名
詐称者ということになる。)ということにかかわらず、
適合していないデータを確率的な意味で「改良」するこ
とを試みている訳であることに注意を要する。しかし、
所与の話者を個別に認識させる話者の特性は、主として
(例えば、HMMにおける)の細部に見いだされるもの
であるということは、当該技術分野の当業者にとっては
明らかであろう。
いても見いだされる範囲では、本発明の技術は、氏名詐
称者による発音と識別された話者モデルとの間のマッチ
ング評価を増加させる可能性を有しているといえるので
ある。そのような場合、本発明の原理を利用している話
者認証システムの性能は、実際低下することが考えられ
よう。とりわけ、確率的不適合に関する他の原因が存在
していない場合(例えば、テスト条件と訓練条件が実際
に適合しているとき)にはそうであろう。にもかかわら
ず、本発明の例示的実施例についての実験では、これら
の発明技術が用いられた場合、話者認証性能は実際に全
体として向上することを示している。
る、同一内容を有する複数の発音からのデータが集めら
れる(すなわち、所与の個人によって、同一の単語や成
句が繰り返し話される。)。そこで、このような複数の
訓練発音を基に特定話者のHMMが生成される。本発明
の例示的実施例に従って、HMMの生成に加えて、行列
Rtrain及び平均値ベクトルmtrainもまたこれらの訓練
発音から導出される。
ータについての共分散行列の平均値であり、mtrainは
各訓練発音からの訓練データについての各平均値の平均
である。このように、これらのデータは、ケプストラム
領域における訓練発音すべてからの訓練データについて
の全体の分散及び平均値を表している。特に、以下の式
(2)(数1)及び式(3)(数2)のようにして求め
られる。
るj番目の無音でないフレームのことであり、Uとは訓
練発音の全体数のことであり、Niとは無音でないフレ
ームの全体数のことであり、miとは、i番目の訓練発
音の平均値ベクトルのことであり、mtrainとは、すべ
ての訓練発音についての無音でないフレームの平均値ベ
クトルを平均したものである。
においては、一度に一つの発音のみが集められ、認証さ
れることになろう。テストデータについての共分散行列
とは、以下の式(4)(数3)で求められる。すなわ
ち、
testとは、テストデータの平均値ベクトルのことであ
り、Nfとは、無音でないフレームの全体数のことであ
る。
基準とは、Rtestがテストデータの回転、拡大縮小、平
行移動(RST)を通じてRtrainにマッチングするよ
うにさせるということである。回転及び拡大縮小につい
て、このような判断基準を表している以下の等式、式
(5)がある。 Rtrain−ARtestAT=0 (5) ここでAは式(1)で定義されており、Rtrain及びR
testはそれぞれ式(2)及び式(4)で定義されてい
る。
解くことによって、以下の式(6)が得られる。 A=R1/2 trainR-1/2 test (6) そこで、式(1)の平行移動に関する項bは、以下の式
(7)(数4)により得られる。
回転され、拡大縮小されたフレームについての平均値ベ
クトルのことである。Nfとはテスト発音に関する無音
でないフレームの全体数のことである。xjとは、j番
目の無音でない、ケプストラム領域におけるベクトルの
フレームのことである。
スト発音は真の話者のモデル集合(特定話者のHMMに
加えて、上の式(2)及び式(3)でそれぞれ定義され
た、Rtrain及びmtrainから成っている)に対して認証
されうるのである。とりわけ、Rtest、A及びbは、最
初に式(4)、式(6)、式(7)をそれぞれ用いて計
算されうるのであり、さらにテストフレームのすべて
は、式(1)を用いることで、テストデータと訓練デー
タの間の確率的不適合を低減するようにうまく変換され
得るのである。
する例示的方法 図5は、本発明の例示的実施例に従って、テストデータ
の訓練データへの確率的マッチングを実行する方法を実
施する流れ図を示している。とりわけ、テストデータ
は、上の式(4)に従って共分散行列(すなわち、R
test)を生成するのに用いられる(図5のブロック2
1)。さらに、このようなテストデータの共分散行列及
び訓練情報から導出された共分散行列(すなわち、R
train)は、上の式(6)に従って拡大縮小及び回転を
行う行列(すなわち、A)を計算するために用いられる
(図5のブロック22)。
train)は、上の式(2)に従って、あらかじめ計算さ
れている。(ここで、行列Rtrainを訓練情報の「共分
散行列」と呼称することとする。複数の訓練発音が用い
られている場合、たとえ、より正確には当該行列は複数
の分散行列の平均であるとしても、このように呼ぶもの
とする。)ここで、訓練データの特定の集合−あるいは
それに等しいものとして、特定の訓練情報の共分散行列
−は、テストデータが導出された発音にかかる話者によ
り主張された身元に対応していることに留意されたい。
は、上の式(7)に従って、拡大縮小及び回転を行う行
列(すなわちA)と、訓練情報から導出された確率的平
均値に基づいて計算される(図5のブロック23)。訓
練情報の平均値(すなわち、mtrain)は、上の式
(3)に従って、あらかじめ計算されている。最後に、
上の式(1)に従った線形変換がテストデータ(すなわ
ち、x)へ適用され、それにより、テストデータの確率
的特性を訓練データの特定の集合についての確率的特性
へより厳密にマッチングさせる。特に、テストデータに
は、拡大縮小及び回転を行う行列(すなわちA)が掛け
られ(乗算され)、さらに、その結果に平行移動ベクト
ル(すなわち、b)が加算される。
グ変換手続は、一般的な成句のパスワードを利用する、
従来型のテキスト主体の話者認証システムへも応用され
うる。図6は、そのような成句をベースとした話者認証
システムを示している。これは、本発明の例示的実施例
に従って、テストデータの訓練データへの確率的マッチ
ングを実行する方法を用いている。
yらによる、"General Phrase Speaker Verification Us
ing Sub-Word Background Models and Likelihood-Rati
o Scoring,"Proc.ICSPL-96,October 1996で記述された
システムに基づいている。しかしながら、本発明の例示
的実施例に従った確率的マッチングは、例えば、"Gener
al Phrase Speaker Verification Using Sub-Word Back
ground Models and Likelihood-Ratio Scoring," で記
述されたシステムと比べると、図6の例示的システムに
おけるフロントエンド(前置)処理に含まれている。こ
れは、システムの改良されたロバストネス(頑強性)及
び性能を提供するためである。
に動作する。話者が身元(ID)を主張し、話者情報プ
ロセッサー33へ当該身元(ID)の主張を送信した後
には、システムは話者により発音されたテスト入力成句
を受け容れる。主張された身元(ID)に基づいて、話
者情報プロセッサー33は、付随する訓練情報を訓練情
報データベース35から取り出す。本発明の例示的実施
例によると、取り出された訓練情報は、目標とする話者
のHMM、保存されている単音の記録(以下、参照)、
さらにあらかじめ計算された共分散行列Rtrain及び値
mtrainを含む。
スト発音からケプストラム係数を生成する。システムと
しては、同一の成句は付随する訓練セッションにおいて
獲得されているものと予期していることから、話者独立
(SI)単音認識器31が、入力発音を単音の系列へと
分割(セグメント化)する。これは、登録セッションか
ら保存された(さらに、話者情報プロセッサー33によ
ってSI単音認識器31へと送り込まれている)記録を
利用する強制復号化によって行われる。
のセッションからの相対的に小さい量のデータに基づい
て訓練されてきていることから、これらのモデルについ
ては単音分割化(セグメント化)の目的には用いられな
い方が望ましいといえることに留意されたい。信頼性の
高い、安定した単音分割化(セグメント化)を提供する
ために、代わりに、SI単音モデル(HMM)が、SI
単音認識器31により有効に用いられる。
ストを行っている話者からの発音のケプストラム係数
(ケプストラム係数生成器30により生成された)は、
確率的マッチングプロセッサー34によって、確率的に
より厳密に訓練データの分布にマッチングする変換済み
ケプストラムが生成される。とりわけ、確率的マッチン
グプロセッサー34は、式(4)、式(6)、式(7)
及び式(1)を順番に計算して、例示的には図5の手続
を実施するものである。
(確率的マッチングプロセッサー34からの)、復号さ
れた単音系列及び付随する単音の境界(SI単音認識器
31からの)、識別された目標(SD)のHMM(話者
情報プロセッサー33からの)は、話者認証器32へと
送られる。話者認証器32は、目標のモデル及びバック
グラウンドのモデルに関する対数尤度のスコアを基に、
既存の対数尤度比のスコアを計算する。これにより、話
者の主張した身元(ID)の真偽に関する判断が可能と
なる。
の計算を行う。 LR(Ο;Λt;Λb)=L(Ο,Λt)−L(Ο,Λb) (8) ここでΟとは、成句全体にわたっての観測系列であり、
Λt及びΛbはそれぞれ目標のモデル及びバックグラウ
ンドのモデルのことである。バックグラウンドのモデル
は単音についてのHMMの集合であり、一方、目標のモ
デルは成句全体についての複数の状態を伴った単一のモ
デルである。当該技術分野の当業者にはよく知られてい
るように、典型的な場合、このような構成がもっよも良
好な結果が得られるのである(例えば、上述した、S.Pa
rthasarathyらによる、"General Phrase Speaker Verif
ication Using Sub-Word Background Models and Likel
ihood-Ratio Scoring,"を参照。)。
る場合がある。 L(Ο,Λt)=1/Nf・P(Ο|Λt) (9) ここでP(Ο|Λt)とは、ビタビ(Viterbi)復号化
(当該技術分野の当業者にはなじみのある)を用いて、
HMMであるΛtにより評価された成句の対数尤度のこ
とである。さらにNfは当該成句における無音でないフ
レームの全体数である。さらに以下の式(10)(数
5)の式のように表される場合がある。
あり、Οiとは、i番目の単音についての分割された
(セグメント化された)観測系列であり、Λbiとはi番
目の単音についてのHMMのことであり、Npとは、復
号された無音でない単音の全体数であり、Nfとは、当
該成句における無音でないフレームの全体数である。
終的な判断は、式(8)のLRのスコアをしきい値と比
較することでなされる。加えて、テスト発音として、著
しく異なる(識別された話者の訓練発音における成句と
比べて)成句が提示されている場合には、当該成句はS
I単音認識器31によりアプリオリに(すなわち、テス
ト発音を拒絶するのか受け容れるのかに際して、話者識
別器32を用いることなしに)拒絶され得るのである。
れた特徴ベクトルとは、既存のものであり、例えば、1
2個のケプストラム係数及び12個のデルタケプストラ
ム係数から構成されうる。ケプストラムは、例えば、3
0ミリ秒(ミリセカンド)のウインドウについての10
次の線形予測係数(LPC)分析から導出されうる。特
徴ベクトルは、例えば10ミリ秒(ミリセカンド)の間
隔毎に更新されうる。
た、固定した成句の発音から構成される実験データベー
スは、男性51人女性49人計100人の話者について
作り出された。すべての話者に共通な固定した成句と
は、平均で2秒の長さである、"I pledge allegiance t
o the flag."(「私は国旗への忠誠を誓います。」)と
いうものであった。一つのセッションで記録された各話
者の5つの発音は、SDHMMを訓練し、線形変換のた
めのRtrain及びmtrainを得るのに用いられた。
話通信路を用いて、異なるセッションにおいて真の話者
から記録された50の発音及び、異なるセッションで同
性の50人の偽者から記録された200の発音が用いら
れた。モデルを適合させる目的のため(すなわち、その
後の、認証された、真の話者の発音に基づいてモデルを
更新するため)、テストされた真の話者からの第二、第
四、第六、第八のテスト発音は、次のテスト発音を認証
するため、Rtrain及びmtrainに加えて付随したHMM
を更新するのに利用された。各成句についての目標のモ
デルは、既存のleft-to-right型HMMであった。
1.5倍であって、各状態に付随した4つのガウス関数
の構成成分が存在した。使用されたバックグラウンドの
モデルは、異なる話者及びテキストからの電話による音
声のデータベースを基に訓練された単音HMMをつなぎ
合わせたものであった。各単音HMMは、各状態に付随
して32個のガウス関数の構成成分を伴う状態を3つ有
していた。最後に、限られた量の訓練データから得られ
る分散の推定値は信頼性が低いことから、全体的な分散
の推定値が、目標のモデルにおけるすべてのガウス関数
の構成成分にとって共通の分散として利用されたことに
注意されたい(例えば、上述した、S.Parthasarathyら
による、"General Phrase Speaker Verification Using
Sub-Word Background Models and Likelihood-Ratio S
coring,"を参照。)。
る。モデルの適合が存在していないときには、提示され
たアルゴリズムは、確率的マッチングを何ら実行してい
ない基準システムと比較して正誤率を56%改善し、ケ
プストラム平均値減算を用いたシステムと比較して14
%改善した。モデルの適合が適用されると、改善の程度
は、それぞれ54%と8%へと低下した。このような場
合において、改善の程度が低下したのは、異なる音響条
件に合わせるため、SDモデルが更新されているからで
ある。
機能ブロックから構成されるものとして提示されている
(「プロセッサー」と呼称される機能ブロックを含め
て)。これらのブロックが提示する機能は、ソフトウエ
アを実行可能なハードウエアに限られずとも、それを含
めた、共有あるいは専用のハードウエアのいずれかを用
いることを通じて提供されうる。例えば、ここで提示さ
れたプロセッサーの機能は、単一の共有プロセッサーや
複数の個々のプロセッサーにより提供されうる。さら
に、ここでの「プロセッサー」という語の利用は、専ら
ソフトウエアを実行可能なハードウエアに限って呼称す
るものと解されるべきではない。例示的な実施例として
は、ルーセントテクノロジーのDSP16あるいはDS
P32Cといったデジタルシグナルプロセッサー(DS
P)、これまで論じられた動作を実行するソフトウエア
を保存する読み出し専用メモリ(ROM)、DSPの結
果を保存するランダムアクセスメモリ(RAM)から構
成されうる。汎用目的のDSP回路と結びつけたカスタ
ムVLSI回路と同様に、超大規模集積回路(VLS
I)のハードウエアによる実施例もまた提供されうるで
あろう。これらの実施例の任意のもの及びすべては、こ
こで用いられた「プロセッサー」なる語の意味の範囲内
に含まれると考えられる。
について、話者認証訓練とテスト環境の間における音響
上の条件の違いに伴って生じていた、データの集合に関
する確率的不適合を補償する方法が提供された。具体的
には、先行技術のアプローチでは得られなかった、入力
テスト音声データの集合についての訓練音声データの対
応する集合との確率的マッチングを効率的に実行する方
法及び装置が本発明により実現された。これにより、話
者認識の性能が向上することが認められる。
トデータの訓練データへの確率的マッチングを幾何学的
に表したものを示している。図1の場合、訓練データの
集合についての幾何学的解釈を示している。
トデータの訓練データへの確率的マッチングを幾何学的
に表したものを示している。図2の場合、訓練データの
集合とテストデータの対応する集合についての幾何学的
解釈を示している。
トデータの訓練データへの確率的マッチングを幾何学的
に表したものを示している。図3の場合、訓練データ及
び、本発明の例示的実施例に従って拡大縮小及び回転が
なされた、テストデータの対応する集合についての幾何
学的解釈を示している。
トデータの訓練データへの確率的マッチングを幾何学的
に表したものを示している。図4の場合、訓練データの
集合及び、訓練データの集合と一致するように、本発明
の例示的実施例に従って拡大縮小、回転及び平行移動が
なされた、テストデータの対応する集合についての幾何
学的解釈を示している。
トデータの訓練データへの確率的マッチングを実行する
方法を実施する流れ図を示している。
トデータの訓練データへの確率的マッチングを実行する
方法を用いている、成句ベースの話者認証システムを示
している。
の外形) 14 実線(訓練データ及び、拡大縮小、回転、平行移
動がなされたテストデータの共通の外形) 21 入力テストデータから共分散行列を生成する 22 訓練情報の共分散行列と入力テストデータの共分
散行列に基づいて拡大縮小及び回転を行う行列を計算す
る 23 拡大縮小及び回転を行う行列、入力テストデー
タ、訓練情報の平均値から平行移動ベクトルを計算する 24 線形変換を入力テストデータへと適用する(拡大
縮小及び回転を行う行列を乗算して、平行移動ベクトル
を加算する) 30 ケプストラム係数生成器 31 話者独立(SI)単音認識器 32 話者認証器 33 話者情報プロセッサー 34 確率的マッチングプロセッサー 35 訓練情報
Claims (24)
- 【請求項1】 音声発音を表している入力テスト信号
から生成された、入力テスト音声の特徴に関する情報の
集合に基づいて、前記入力テスト音声の特徴に関する情
報の前記集合についての確率的特性を表している第一の
共分散行列を生成するステップと、 前記入力テスト音声の特徴に関する情報の変換済み集合
を生成するために、前記入力テスト音声の特徴に関する
情報の前記集合について変換を実行するステップとを有
し、 前記変換とは、前記第一の共分散行列と訓練音声の特徴
に関する情報についての確率的特性を表している第二の
共分散行列に基づくものであり、 前記訓練音声の特徴に関する情報についての確率的特性
は、前記入力テスト音声の特徴に関する情報の前記集合
についての確率的特性よりも前記入力テスト音声の特徴
に関する情報の前記変換済み集合についての確率的特性
に対し、より厳密にマッチングしていることを特徴とす
る、前記訓練音声の特徴に関する情報の集合についての
確率的特性を基に前記入力テスト音声の特徴に関する情
報の前記集合を変換する方法。 - 【請求項2】 前記変換が、さらに前記訓練音声の特
徴に関する情報の確率的平均値に基づいていることを特
徴とする請求項1に記載の方法。 - 【請求項3】 前記変換が、さらに前記訓練音声の特
徴に関する情報の前記確率的平均値の複数についての平
均に基づいていることを特徴とする請求項2に記載の方
法。 - 【請求項4】 前記入力テスト音声の特徴に関する情
報の前記集合が、前記入力テスト音声の信号フレームか
ら生成されたケプストラム領域におけるデータを有して
いることを特徴とする請求項1に記載の方法。 - 【請求項5】 前記変換が、前記ケプストラム領域に
おけるデータの線形変換を有していることを特徴とする
請求項4に記載の方法。 - 【請求項6】 前記ケプストラム領域におけるデータ
が、前記入力テスト音声の前記信号フレームから生成さ
れたケプストラムフレームでのデータのベクトルを有し
ており、 前記線形変換を実行するステップが、前記ケプストラム
フレームでのデータのベクトルと前記第一及び前記第二
の共分散行列から導出された行列を乗算することによる
積を計算するステップを有することを特徴とする請求項
5に記載の方法。 - 【請求項7】 前記線形変換を実行するステップが、
さらに前記積に平行移動ベクトルを加算するステップを
有し、 前記平行移動ベクトルとは、前記第一及び前記第二の共
分散行列から導出された前記行列と前記訓練音声の特徴
に関する情報の確率的平均値に基づいていることを特徴
とする請求項6に記載の方法。 - 【請求項8】 前記音声発音が話者認証発音を有して
おり、前記訓練音声の特徴に関する情報が話者認証の訓
練データに基づく特徴に関する情報を有していることを
特徴とする請求項1に記載の方法。 - 【請求項9】 前記音声発音にかかる話者について主
張された身元を取り出すステップと、 前記訓練音声の特徴に関する情報の前記集合と前記入力
テスト音声の特徴に関する情報の前記変換済み集合に基
づいて、前記音声発音に関する前記話者と前記主張され
た身元が同じものである尤度を判断するステップとを、 さらに有することを特徴とする請求項8に記載の方法。 - 【請求項10】 前記尤度を判断する前記ステップが、
前記入力テスト音声の特徴に関する情報の前記変換済み
集合を、前記訓練音声の特徴に関する情報の前記集合に
基づいて生成されたモデルへと適用するステップを有す
ることを特徴とする請求項9に記載の方法。 - 【請求項11】 前記モデルが隠れマルコフモデルを有
することを特徴とする請求項10に記載の方法。 - 【請求項12】 前記変換が、前記第一の共分散行列及
び、前記第二の共分散行列の複数についての平均に基づ
いていることを特徴とする請求項1に記載の方法。 - 【請求項13】 音声発音を表している入力テスト信号
から生成された、入力テスト音声の特徴に関する情報の
集合に基づいて、前記入力テスト音声の特徴に関する情
報の前記集合についての確率的特性を表している第一の
共分散行列を生成する、第一の共分散行列生成器と、 前記入力テスト音声の特徴に関する情報の変換済み集合
を生成するために前記入力テスト音声の特徴に関する情
報の前記集合について適用された変換とを有し、 前記変換とは、前記第一の共分散行列と訓練音声の特徴
に関する情報についての確率的特性を表している第二の
共分散行列に基づくものであり、 前記訓練音声の特徴に関する情報についての確率的特性
は、前記入力テスト音声の特徴に関する情報の前記集合
についての確率的特性よりも前記入力テスト音声の特徴
に関する情報の前記変換済み集合についての確率的特性
に対し、より厳密にマッチングしていることを特徴とす
る、前記訓練音声の特徴に関する情報の集合についての
確率的特性を基に前記入力テスト音声の特徴に関する情
報の前記集合を変換する装置。 - 【請求項14】 前記変換が、さらに前記訓練音声の特
徴に関する情報の確率的平均値に基づいていることを特
徴とする請求項13に記載の装置。 - 【請求項15】 前記変換が、さらに前記訓練音声の特
徴に関する情報の前記確率的平均値の複数についての平
均に基づいていることを特徴とする請求項14に記載の
装置。 - 【請求項16】 前記入力テスト音声の特徴に関する情
報の前記集合が、前記入力テスト音声の信号フレームか
ら生成されたケプストラム領域におけるデータを有して
いることを特徴とする請求項13に記載の装置。 - 【請求項17】 前記変換が、前記ケプストラム領域に
おけるデータの線形変換を有していることを特徴とする
請求項16に記載の装置。 - 【請求項18】 前記ケプストラム領域におけるデータ
が、前記入力テスト音声の前記信号フレームから生成さ
れたケプストラムフレームでのデータのベクトルを有し
ており、前記変換が、前記ケプストラムフレームでのデ
ータのベクトルと前記第一及び前記第二の共分散行列か
ら導出された行列を乗算することによる積を計算する乗
算器を有することを特徴とする請求項17に記載の装
置。 - 【請求項19】 前記変換が、さらに前記積に平行移動
ベクトルを加える加算を有し、前記平行移動ベクトルと
は、前記第一及び前記第二の共分散行列から導出された
前記行列と前記訓練音声の特徴に関する情報の確率的平
均値に基づいていることを特徴とする請求項18に記載
の装置。 - 【請求項20】 前記音声発音が話者認証発音を有して
おり、前記訓練音声の特徴に関する情報が話者認証の訓
練データに基づく特徴に関する情報を有していることを
特徴とする請求項13に記載の装置。 - 【請求項21】 前記音声発音にかかる話者について主
張された身元を取り出す手段と、 前記訓練音声の特徴に関する情報の前記集合と前記入力
テスト音声の特徴に関する情報の前記変換済み集合に基
づいて、前記音声発音に関する前記話者と前記主張され
た身元が同じものである尤度を判断する話者認証器とを
さらに有することを特徴とする請求項20に記載の装
置。 - 【請求項22】 前記話者認証器が、前記入力テスト音
声の特徴に関する情報の前記変換済み集合を、前記訓練
音声の特徴に関する情報の前記集合に基づいて生成され
たモデルへと適用する手段を有することを特徴とする請
求項21に記載の装置。 - 【請求項23】 前記モデルが隠れマルコフモデルを有
することを特徴とする請求項22に記載の装置。 - 【請求項24】 前記変換が、前記第一の共分散行列及
び、前記第二の共分散行列の複数についての平均に基づ
いていることを特徴とする請求項13に記載の装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/818,188 US5995927A (en) | 1997-03-14 | 1997-03-14 | Method for performing stochastic matching for use in speaker verification |
US08/818188 | 1997-03-14 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH10307593A true JPH10307593A (ja) | 1998-11-17 |
JP3630216B2 JP3630216B2 (ja) | 2005-03-16 |
Family
ID=25224907
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP06345198A Expired - Fee Related JP3630216B2 (ja) | 1997-03-14 | 1998-03-13 | 話者認証用確率的マッチング方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US5995927A (ja) |
EP (1) | EP0874354B1 (ja) |
JP (1) | JP3630216B2 (ja) |
DE (1) | DE69800006T2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013205807A (ja) * | 2012-03-29 | 2013-10-07 | Toshiba Corp | モデル学習装置、モデル製造方法、及びプログラム |
KR20200087889A (ko) * | 2018-12-28 | 2020-07-22 | 강원대학교산학협력단 | 음성 인식 장치 및 방법 |
Families Citing this family (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6233555B1 (en) | 1997-11-25 | 2001-05-15 | At&T Corporation | Method and apparatus for speaker identification using mixture discriminant analysis to develop speaker models |
US6202047B1 (en) * | 1998-03-30 | 2001-03-13 | At&T Corp. | Method and apparatus for speech recognition using second order statistics and linear estimation of cepstral coefficients |
DE19824354A1 (de) * | 1998-05-30 | 1999-12-02 | Philips Patentverwaltung | Vorrichtung zur Verifizierung von Signalen |
DE19824353A1 (de) * | 1998-05-30 | 1999-12-02 | Philips Patentverwaltung | Vorrichtung zur Verifizierung von Signalen |
US6980952B1 (en) * | 1998-08-15 | 2005-12-27 | Texas Instruments Incorporated | Source normalization training for HMM modeling of speech |
US6519563B1 (en) * | 1999-02-16 | 2003-02-11 | Lucent Technologies Inc. | Background model design for flexible and portable speaker verification systems |
AU2684100A (en) * | 1999-03-11 | 2000-09-28 | British Telecommunications Public Limited Company | Speaker recognition |
US6993556B1 (en) * | 1999-04-07 | 2006-01-31 | Sentillion, Inc. | Context administrator |
US6556969B1 (en) * | 1999-09-30 | 2003-04-29 | Conexant Systems, Inc. | Low complexity speaker verification using simplified hidden markov models with universal cohort models and automatic score thresholding |
US6751590B1 (en) * | 2000-06-13 | 2004-06-15 | International Business Machines Corporation | Method and apparatus for performing pattern-specific maximum likelihood transformations for speaker recognition |
US20020198857A1 (en) * | 2001-06-21 | 2002-12-26 | Tradeharbor, Inc. | Normalized detector scaling |
US6778957B2 (en) * | 2001-08-21 | 2004-08-17 | International Business Machines Corporation | Method and apparatus for handset detection |
US6999928B2 (en) * | 2001-08-21 | 2006-02-14 | International Business Machines Corporation | Method and apparatus for speaker identification using cepstral covariance matrices and distance metrics |
US20030225719A1 (en) * | 2002-05-31 | 2003-12-04 | Lucent Technologies, Inc. | Methods and apparatus for fast and robust model training for object classification |
KR100612843B1 (ko) * | 2004-02-28 | 2006-08-14 | 삼성전자주식회사 | 은닉 마코프 모델를 위한 확률밀도함수 보상 방법, 그에따른 음성 인식 방법 및 장치 |
US7409332B2 (en) * | 2004-07-14 | 2008-08-05 | Microsoft Corporation | Method and apparatus for initializing iterative training of translation probabilities |
US7447633B2 (en) * | 2004-11-22 | 2008-11-04 | International Business Machines Corporation | Method and apparatus for training a text independent speaker recognition system using speech data with text labels |
US20060293898A1 (en) * | 2005-06-22 | 2006-12-28 | Microsoft Corporation | Speech recognition system for secure information |
EP1843325B1 (en) * | 2006-04-03 | 2009-11-18 | Voice.Trust Ag | Speaker authentication in digital communication networks |
US7769583B2 (en) * | 2006-05-13 | 2010-08-03 | International Business Machines Corporation | Quantizing feature vectors in decision-making applications |
EP1860647B1 (en) * | 2006-05-24 | 2009-12-23 | Voice.Trust Ag | Robust speaker recognition |
US20080120108A1 (en) * | 2006-11-16 | 2008-05-22 | Frank Kao-Ping Soong | Multi-space distribution for pattern recognition based on mixed continuous and discrete observations |
CN101197131B (zh) * | 2006-12-07 | 2011-03-30 | 积体数位股份有限公司 | 随机式声纹密码验证系统、随机式声纹密码锁及其产生方法 |
EP2101319B1 (en) * | 2006-12-15 | 2015-09-16 | Panasonic Intellectual Property Corporation of America | Adaptive sound source vector quantization device and method thereof |
US7805308B2 (en) * | 2007-01-19 | 2010-09-28 | Microsoft Corporation | Hidden trajectory modeling with differential cepstra for speech recognition |
RU2419890C1 (ru) | 2009-09-24 | 2011-05-27 | Общество с ограниченной ответственностью "Центр речевых технологий" | Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания |
US8892436B2 (en) * | 2010-10-19 | 2014-11-18 | Samsung Electronics Co., Ltd. | Front-end processor for speech recognition, and speech recognizing apparatus and method using the same |
US9390445B2 (en) | 2012-03-05 | 2016-07-12 | Visa International Service Association | Authentication using biometric technology through a consumer device |
US9036890B2 (en) | 2012-06-05 | 2015-05-19 | Outerwall Inc. | Optical coin discrimination systems and methods for use with consumer-operated kiosks and the like |
EP2713367B1 (en) * | 2012-09-28 | 2016-11-09 | Agnitio, S.L. | Speaker recognition |
US8694315B1 (en) | 2013-02-05 | 2014-04-08 | Visa International Service Association | System and method for authentication using speaker verification techniques and fraud model |
CN104021390B (zh) * | 2013-03-01 | 2018-01-02 | 佳能株式会社 | 模型生成装置、模式识别设备及其方法 |
US8739955B1 (en) * | 2013-03-11 | 2014-06-03 | Outerwall Inc. | Discriminant verification systems and methods for use in coin discrimination |
RU2530314C1 (ru) * | 2013-04-23 | 2014-10-10 | Общество с ограниченной ответственностью "ЦРТ-инновации" | Способ гибридной генеративно-дискриминативной сегментации дикторов в аудио-потоке |
US9443367B2 (en) | 2014-01-17 | 2016-09-13 | Outerwall Inc. | Digital image coin discrimination for use with consumer-operated kiosks and the like |
US9792899B2 (en) | 2014-07-15 | 2017-10-17 | International Business Machines Corporation | Dataset shift compensation in machine learning |
US10141009B2 (en) | 2016-06-28 | 2018-11-27 | Pindrop Security, Inc. | System and method for cluster-based audio event detection |
US9824692B1 (en) | 2016-09-12 | 2017-11-21 | Pindrop Security, Inc. | End-to-end speaker recognition using deep neural network |
WO2018053537A1 (en) | 2016-09-19 | 2018-03-22 | Pindrop Security, Inc. | Improvements of speaker recognition in the call center |
US10553218B2 (en) * | 2016-09-19 | 2020-02-04 | Pindrop Security, Inc. | Dimensionality reduction of baum-welch statistics for speaker recognition |
WO2018053518A1 (en) | 2016-09-19 | 2018-03-22 | Pindrop Security, Inc. | Channel-compensated low-level features for speaker recognition |
US10397398B2 (en) | 2017-01-17 | 2019-08-27 | Pindrop Security, Inc. | Authentication using DTMF tones |
WO2020159917A1 (en) | 2019-01-28 | 2020-08-06 | Pindrop Security, Inc. | Unsupervised keyword spotting and word discovery for fraud analytics |
US11019201B2 (en) | 2019-02-06 | 2021-05-25 | Pindrop Security, Inc. | Systems and methods of gateway detection in a telephone network |
WO2020198354A1 (en) | 2019-03-25 | 2020-10-01 | Pindrop Security, Inc. | Detection of calls from voice assistants |
US11363038B2 (en) | 2019-07-24 | 2022-06-14 | International Business Machines Corporation | Detection impersonation attempts social media messaging |
US20230153408A1 (en) * | 2021-11-18 | 2023-05-18 | Daon Enterprises Limited | Methods and systems for training a machine learning model and authenticating a user with the model |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5054083A (en) * | 1989-05-09 | 1991-10-01 | Texas Instruments Incorporated | Voice verification circuit for validating the identity of an unknown person |
DE69031866T2 (de) * | 1990-03-30 | 1998-06-18 | Koninkl Philips Electronics Nv | Verfahren und Anordnung zur Signalverarbeitung durch die Eigenvektortransformation |
US5167004A (en) * | 1991-02-28 | 1992-11-24 | Texas Instruments Incorporated | Temporal decorrelation method for robust speaker verification |
US5473728A (en) * | 1993-02-24 | 1995-12-05 | The United States Of America As Represented By The Secretary Of The Navy | Training of homoscedastic hidden Markov models for automatic speech recognition |
US5727124A (en) * | 1994-06-21 | 1998-03-10 | Lucent Technologies, Inc. | Method of and apparatus for signal recognition that compensates for mismatching |
-
1997
- 1997-03-14 US US08/818,188 patent/US5995927A/en not_active Expired - Fee Related
-
1998
- 1998-03-03 EP EP98301548A patent/EP0874354B1/en not_active Expired - Lifetime
- 1998-03-03 DE DE69800006T patent/DE69800006T2/de not_active Expired - Fee Related
- 1998-03-13 JP JP06345198A patent/JP3630216B2/ja not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013205807A (ja) * | 2012-03-29 | 2013-10-07 | Toshiba Corp | モデル学習装置、モデル製造方法、及びプログラム |
KR20200087889A (ko) * | 2018-12-28 | 2020-07-22 | 강원대학교산학협력단 | 음성 인식 장치 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
DE69800006T2 (de) | 2000-07-06 |
JP3630216B2 (ja) | 2005-03-16 |
EP0874354A1 (en) | 1998-10-28 |
DE69800006D1 (de) | 1999-07-29 |
EP0874354B1 (en) | 1999-06-23 |
US5995927A (en) | 1999-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3630216B2 (ja) | 話者認証用確率的マッチング方法 | |
US9536525B2 (en) | Speaker indexing device and speaker indexing method | |
US5167004A (en) | Temporal decorrelation method for robust speaker verification | |
US5913192A (en) | Speaker identification with user-selected password phrases | |
Reynolds et al. | Speaker verification using adapted Gaussian mixture models | |
US6029124A (en) | Sequential, nonparametric speech recognition and speaker identification | |
US7058573B1 (en) | Speech recognition system to selectively utilize different speech recognition techniques over multiple speech recognition passes | |
US20090171660A1 (en) | Method and apparatus for verification of speaker authentification and system for speaker authentication | |
EP1159737B9 (en) | Speaker recognition | |
JP2000507714A (ja) | 言語処理 | |
JPH11511567A (ja) | パターン認識 | |
JPH075892A (ja) | 音声認識方法 | |
KR101888058B1 (ko) | 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치 | |
Ozaydin | Design of a text independent speaker recognition system | |
Gauvain et al. | Experiments with speaker verification over the telephone. | |
Li et al. | Speaker verification using verbal information verification for automatic enrolment | |
Li et al. | A fast algorithm for stochastic matching with application to robust speaker verification | |
JPH11327586A (ja) | 話者照合装置、方法及び記憶媒体 | |
Chowdhury et al. | Distributed automatic text-independent speaker identification using GMM-UBM speaker models | |
JP3075250B2 (ja) | 話者認識方法及び装置 | |
Ali et al. | Voice Reminder Assistant based on Speech Recognition and Speaker Identification using Kaldi | |
Upadhyay et al. | Analysis of different classifier using feature extraction in speaker identification and verification under adverse acoustic condition for different scenario | |
Saeidi et al. | Study of model parameters effects in adapted Gaussian mixture models based text independent speaker verification | |
SEGĂRCEANU et al. | Speaker verification using gmm modelling | |
Kanrar | i Vector used in Speaker Identification by Dimension Compactness |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20040217 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20040225 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040517 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20041115 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20041208 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |