JPH10307593A - 話者認証用確率的マッチング方法 - Google Patents

話者認証用確率的マッチング方法

Info

Publication number
JPH10307593A
JPH10307593A JP10063451A JP6345198A JPH10307593A JP H10307593 A JPH10307593 A JP H10307593A JP 10063451 A JP10063451 A JP 10063451A JP 6345198 A JP6345198 A JP 6345198A JP H10307593 A JPH10307593 A JP H10307593A
Authority
JP
Japan
Prior art keywords
information
speech
input test
features
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10063451A
Other languages
English (en)
Other versions
JP3630216B2 (ja
Inventor
Qi P Li
ピー.リ キ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia of America Corp
Original Assignee
Lucent Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lucent Technologies Inc filed Critical Lucent Technologies Inc
Publication of JPH10307593A publication Critical patent/JPH10307593A/ja
Application granted granted Critical
Publication of JP3630216B2 publication Critical patent/JP3630216B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Complex Calculations (AREA)

Abstract

(57)【要約】 【課題】 話者認証用確率的マッチング方法 【解決手段】本発明は、入力テスト音声データの集合と
対応する訓練音声データとの確率的マッチングを行う方
法及び装置に関する。とりわけ、入力テスト音声の特徴
に関する情報の集合は、その確率的特性が、訓練音声の
特徴に関する情報で対応する集合の確率的特性に一層マ
ッチングするように変換される。特に、入力テスト音声
の特徴に関する情報の確率的特性を表す第一の共分散行
列が生成され、さらに、当該情報について変換が実行さ
れる。当該変換は、第一の共分散行列及び、訓練音声の
特徴に関する情報の確率的特性を表す第二の共分散行列
に基づく。この変換により結果的に、訓練音声の特徴に
関する情報の確率的特性に一層マッチングした確率的特
性を持つ、変換済み入力テスト音声の特徴に関する情報
が得られる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、話者認証の領域一
般に関し、特に話者認証訓練とテスト環境の間における
音響上の不適合を補償する方法に関する。
【0002】
【従来の技術】話者認証システムは、提示された身元
(ID)を発音の解析を通じて識別することによって個
人を認識するものである。例えば、電気通信システムに
おいては、クレジットカードや通話カードへ通話を課金
している発呼者の身元(ID)を認証するため用いられ
うる。一般的には、ある身元(ID)を主張する個人か
ら受け取った発音に関する抽出された特徴を、識別がな
されている人により事前に提供されている発音に基づい
た(すなわち「訓練された」)音声のプロトタイプと比
較することで、これらのシステムは動作するのである。
【0003】電気通信システムにおける話者認証システ
ムでしばしば遭遇する、重要な問題点の一つは、認証シ
ステムを訓練した人が、認証の試行を行う際には必ずし
も同様に発音するとは限らないということである。例え
ば、ある人の「発音」における経時変化は、例えば、そ
の人の音声信号を搬送している電気通信チャネルの特性
における変化によって引き起こされうるのである。これ
らの変化は、訓練プロセス及び認証の試行について異な
る電話機を利用することによって、もっともよく引き起
こされうる。当然(そして、残念なことに)、そのよう
な変化は実質的に認証システムの性能を低下させること
が多い。実際、チャネル特性の変化に対する感応性や、
あるいは話者のラウドネス(音量)レベルに対する感応
性までにもよって、認証システムの性能は受容できない
ほどのレベルまで低下しうるのである。
【0004】より特定の場合についていえば、典型的に
は、話者認識システムは、所与の個人について特定話者
の隠れマルコフモデル(HMM)を作り出しているので
ある。そこでの所与の個人の身元(ID)は、多くは単
一の登録セッション(登録を行う期間)で集められたデ
ータに基づいて訓練を実行することにより、認証される
ことが可能となる。それ故、HMMは、訓練データの確
率密度関数(pdf)に完全に適合しているのである。
【0005】しかし、引き続いての認証セッション(認
証を行う期間)においては、テストデータは異なる電話
通信路(チャネル)そしてハンドセット(送受器)を通
じて集められうるものである。(訓練プロセスの間に集
められたデータは、ここでは「訓練データ」あるいは
「訓練音声データ」と呼称されることになろう。一方、
認証セッションの間に得られたデータは、ここでは「テ
ストデータ」あるいは「テスト音声データ」と呼称され
ることになろう。加えて、「訓練情報」あるいは「訓練
音声情報」という語は、例えばモデルのような、訓練デ
ータに基づいた情報を示すのに用いられることになるで
あろう。)登録セッションと認証セッションとの間で音
響上の条件が異なることから、テストデータの集合とH
MMを訓練するのに用いられたデータの集合との間で確
率的な不適合が生じうるのである。話者認識の性能は、
そのような不適合によって低下する。
【0006】数学的には、上述の不適合はケプストラム
領域における線形変換として以下の式(1)のように表
されることが可能である。 y=Ax+b (1) ここでxとはテスト発音についてのケプストラム領域で
のフレームのベクトルである。A及びbとは、行列及び
ベクトルである。これらが適切に推定されるとすれば、
以下示されるように、所与のテスト発音について、当該
不適合を取り除くように応用されることが可能となる。
【0007】yとは訓練データに適合する、結果として
の変換済みベクトルである。(例えば、R.J.Mammoneら
による"Robust Speaker Recognition,"IEEE Signal Pro
cessing Magazine,vol.13,pp.58-71,Sept.1996参照。)
幾何学的には、bはテストデータの平行移動を表してお
り、Aはテストデータについての縮小拡大(スケーリン
グ)及び回転(ローテーション)を表している。(ここ
で、Aが対角行列であるときには、拡大縮小(スケーリ
ング)操作のみを表している。)
【0008】先行技術における話者認証システムは、確
率的不適合を取り扱う能力の点で限界があった。例え
ば、話者認識と音声認識の両方の応用例における確率的
不適合を取り扱うため、ケプストラム平均値減算がしば
しば用いられてきた。上の式(1)についてみると、こ
のような技術では本質的にはbを予測し、Aが識別行列
であるとみなしている。例えば、A.E.Rosenbergらによ
る"Cepstral Channel Normalization Techniques for
HMM-based Speaker Verification,"Proc.of Int.Conf.
on Spoken Language Processing,pp.1835-1838,1994に
おいては、ベクトルbは長期平均、短期平均、最大尤度
(ML)アプローチによって予測されていた。
【0009】A Sankerらによる、"A Maximum-Likelihoo
d Approach to Stochastic Matching for Robust Speec
h Recognition,"IEEE Trans.on Speech and Audio Proc
essing,vol.4,pp.190-202,May,1996では、確率的マッチ
ングのため、b、対角行列A及びHMMについてのモデ
ルパラメータを予測するのに、最大尤度(ML)アプロ
ーチが用いられていた。最近では、線形変換パラメータ
(すなわちA及びb)の最小二乗法による解法が、上に
引用したR.J.Mammoneらによる"Robust Speakerrecognit
ion"において短く紹介されている。しかしながら、確率
的不適合の問題に対する先行技術におけるアプローチの
いずれについても、テストデータについての全体の分布
を訓練データについての全体の分布と適切に適合させる
ための、一般化された線形変換に基づいた効率的な技術
を提供してはいないのである。
【0010】
【発明が解決しようとする課題】本発明は、入力テスト
音声データの集合について、訓練音声データの対応する
集合との確率的マッチングを実行する方法及び装置を提
供するものである。特に、入力テスト音声の発音から生
成された、入力テスト音声の特徴に関する情報の集合
は、その確率的特性が、訓練音声の特徴に関する情報の
対応する集合についての確率的特性により厳密に適合す
るように変換される。話者認証タスクの例示的な状況で
は、例えば、訓練音声データの対応する集合とは、入力
テスト音声の発音にかかる話者が主張する身元(ID)
を持つ話者から生成された訓練データを有している訳で
ある。
【0011】
【課題を解決するための手段】特に、本発明によると、
入力テスト音声の特徴に関する情報の確率的特性を表し
ている第一の共分散行列は、当該入力テスト音声の特徴
に関する情報に基づいて生成される。そこで、当該入力
テスト音声の特徴に関する情報についての変換が実行さ
れる。当該変換は、第一の共分散行列及び、訓練音声の
特徴に関する情報の確率的特性を表している第二の共分
散行列に基づいている。このような変換によって、訓練
音声の特徴に関する情報の確率的特性により厳密に適合
した確率的特性を有する、変換済み入力テスト音声の特
徴に関する情報を結果としてうまく得ることになるので
ある。
【0012】本発明の一つの例示的実施例によると、当
該変換は、入力テスト音声の特徴に関する情報が、入力
テスト音声の発音のフレームから得られたケプストラム
領域におけるデータのベクトルを構成している線形変換
を含んでいる。このような例示的実施例の場合、当該線
形変換は式(1)の形式をしており、とりわけ第一及び
第二の共分散行列から導出された行列と、ケプストラム
領域でのフレームにおけるデータのベクトルとの乗算を
含んでいる(このような乗算は、データの拡大縮小及び
回転を効果的に行う。)。さらに、導出されたベクトル
についての加算が行われる(このような加算は、データ
の平行移動を効果的に行う。)。
【0013】
【発明の実施の形態】
概要 図1から図4は、本発明の例示的実施例に従って、テス
トデータの訓練データへの確率的マッチングを幾何学的
に表したものを示している。図1(図2及び図3におい
ても同様)では、点線11は所与の話者についての訓練
データの外形を表している。図2では、実線12はテス
トデータの外形を表している。異なるチャネル、ノイズ
レベル、電話機のトランスデューサー(変換器)のた
め、テストデータの平均値(外形領域内の中心に配置さ
れた実線の十字で記されている)は、訓練データの平均
値(点線の十字で記されている)から平行移動され、テ
ストデータの分布は、訓練データの分布から圧縮され、
回転される(例えば、訓練データと比較した、テストデ
ータについてのいわゆる「収縮」に関する議論について
は、上で引用したR.J.Mammoneらによる"Robust Speaker
Recognition"を参照。)。
【0014】テストデータと訓練データとの間の確率的
不適合は、(不適合となった)テストデータを評価する
ために訓練されたHMMを用いる際、結果的には不正確
な判断を行うことにつながりうる。しかしながら、本発
明の例示的実施例によれば、図3及び図4で示したよう
に、テストデータは、訓練データに対して確率的により
厳密にマッチングするようにうまく変換されうるのであ
る。
【0015】特に、本発明の例示的実施例によると、行
列Rtrainは訓練データから導出され、当該行列は訓練
データ全体の分布を特徴付けている。とりわけ、R
trainは、対応する各訓練発音からの訓練データを基に
生成された共分散行列の平均となっている。ここで、R
trainとはアプリオリに(先験的に)(すなわち、訓練
プロセスの間に)導出され、他の訓練情報(例えば、H
MM)と共に保存されうるということに留意されたい。
さらに、話者認証セッションにおいては、共分散行列R
testがテストデータから導出され、当該行列は同様に、
テストデータ全体の分布を特徴付けている。
【0016】そこで、式(1)で示された線形変換につ
いての行列Aのパラメータは、2つの行列Rtrain及び
testを基に予測されうるのである(以下に示す)。式
(1)で特定された変換の第一の部分を適用した後には
−すなわち、テストデータに行列Aを掛けた(乗算し
た)後には、テストデータ全体の分布は、図3で示され
ているように、平均値が異なることを除いて、訓練デー
タ全体の分布と概ね同一となるように拡大縮小及び回転
される(実線13は、拡大縮小及び回転がなされたテス
トデータの外形を表している)。
【0017】最終ステップでは、平均値の差が決定され
(以下に示す)、当該テストデータは、図4で示された
ように、その位置が訓練データの位置と概ね同一となる
ように平行移動される。図4では、変換済みのテストデ
ータの外形は、訓練データの外形と重ね合っている。
(図4では、実線14は、訓練データ及び、拡大縮小、
回転、平行移動がなされたテストデータの共通の外形を
表している。)このような最終ステップは、式(1)で
特定された、ベクトルbの加算を表しているものであ
る。
【0018】ここで、上述の線形変換を実行すること
は、テストデータの全体的分布を変えるものであるとい
うことは留意しておくべきである。しかし、(変換が線
形であることから)そのような変換はテストデータのp
dfの細部を損ねるものではない。これらのpdfの細
部は、話者認証プロセスの最終ステップを実行するため
には、従来の手法における訓練された特定話者のHMM
により測定され評価されることになるであろう。
【0019】上述の本発明の例示的実施例によると、真
の(すなわち、正しく認識された)話者からのテストデ
ータ生成が行われる間の条件が、HMMが訓練された条
件と適合していない場合には、所与の話者のHMMを訓
練するのに用いられた訓練データに確率的に(概ね)マ
ッチングするように、テストデータはうまく変換される
ことになろう。真の話者からのテストデータ生成が行わ
れる間における条件が、訓練が行われた条件と実際マッ
チングしている場合には、計算された行列A及びベクト
ルbはそれぞれ、識別行列とゼロベクトルに近いものと
なるであろう。そこで、当該変換は、HMMの評価に最
小限の影響しか有さないことになろう。
【0020】ここで、上述の技術は、不適合が生じるの
は、テスト条件と訓練条件が異なっているからなのか、
それともテストデータと訓練データが異なる話者から発
せられているからなのか(すなわち、当該話者は、身元
(ID)が主張されている者とは異なる者である、氏名
詐称者ということになる。)ということにかかわらず、
適合していないデータを確率的な意味で「改良」するこ
とを試みている訳であることに注意を要する。しかし、
所与の話者を個別に認識させる話者の特性は、主として
(例えば、HMMにおける)の細部に見いだされるもの
であるということは、当該技術分野の当業者にとっては
明らかであろう。
【0021】そのような話者の特性が全体的な特徴にお
いても見いだされる範囲では、本発明の技術は、氏名詐
称者による発音と識別された話者モデルとの間のマッチ
ング評価を増加させる可能性を有しているといえるので
ある。そのような場合、本発明の原理を利用している話
者認証システムの性能は、実際低下することが考えられ
よう。とりわけ、確率的不適合に関する他の原因が存在
していない場合(例えば、テスト条件と訓練条件が実際
に適合しているとき)にはそうであろう。にもかかわら
ず、本発明の例示的実施例についての実験では、これら
の発明技術が用いられた場合、話者認証性能は実際に全
体として向上することを示している。
【0022】変換データの導出 典型的な話者認証訓練セッションでは、所与の話者によ
る、同一内容を有する複数の発音からのデータが集めら
れる(すなわち、所与の個人によって、同一の単語や成
句が繰り返し話される。)。そこで、このような複数の
訓練発音を基に特定話者のHMMが生成される。本発明
の例示的実施例に従って、HMMの生成に加えて、行列
train及び平均値ベクトルmtrainもまたこれらの訓練
発音から導出される。
【0023】特に、Rtrainは各訓練発音からの訓練デ
ータについての共分散行列の平均値であり、mtrain
各訓練発音からの訓練データについての各平均値の平均
である。このように、これらのデータは、ケプストラム
領域における訓練発音すべてからの訓練データについて
の全体の分散及び平均値を表している。特に、以下の式
(2)(数1)及び式(3)(数2)のようにして求め
られる。
【数1】
【数2】
【0024】ここでxi,jとはi番目の訓練発音におけ
るj番目の無音でないフレームのことであり、Uとは訓
練発音の全体数のことであり、Niとは無音でないフレ
ームの全体数のことであり、miとは、i番目の訓練発
音の平均値ベクトルのことであり、mtrainとは、すべ
ての訓練発音についての無音でないフレームの平均値ベ
クトルを平均したものである。
【0025】テスト(すなわち、話者認証)セッション
においては、一度に一つの発音のみが集められ、認証さ
れることになろう。テストデータについての共分散行列
とは、以下の式(4)(数3)で求められる。すなわ
ち、
【数3】 ここで、xjとは無音でないフレームのことであり、m
testとは、テストデータの平均値ベクトルのことであ
り、Nfとは、無音でないフレームの全体数のことであ
る。
【0026】パラメータ推定にとっての提示された判断
基準とは、Rtestがテストデータの回転、拡大縮小、平
行移動(RST)を通じてRtrainにマッチングするよ
うにさせるということである。回転及び拡大縮小につい
て、このような判断基準を表している以下の等式、式
(5)がある。 Rtrain−ARtestT=0 (5) ここでAは式(1)で定義されており、Rtrain及びR
testはそれぞれ式(2)及び式(4)で定義されてい
る。
【0027】式(1)から、行列Aについて式(5)を
解くことによって、以下の式(6)が得られる。 A=R1/2 train-1/2 test (6) そこで、式(1)の平行移動に関する項bは、以下の式
(7)(数4)により得られる。
【数4】 ここでmtrainは式(3)で定義されており、mrsとは
回転され、拡大縮小されたフレームについての平均値ベ
クトルのことである。Nfとはテスト発音に関する無音
でないフレームの全体数のことである。xjとは、j番
目の無音でない、ケプストラム領域におけるベクトルの
フレームのことである。
【0028】本発明の例示的実施例によると、所与のテ
スト発音は真の話者のモデル集合(特定話者のHMMに
加えて、上の式(2)及び式(3)でそれぞれ定義され
た、Rtrain及びmtrainから成っている)に対して認証
されうるのである。とりわけ、Rtest、A及びbは、最
初に式(4)、式(6)、式(7)をそれぞれ用いて計
算されうるのであり、さらにテストフレームのすべて
は、式(1)を用いることで、テストデータと訓練デー
タの間の確率的不適合を低減するようにうまく変換され
得るのである。
【0029】ケプストラム領域でのテストデータを変換
する例示的方法 図5は、本発明の例示的実施例に従って、テストデータ
の訓練データへの確率的マッチングを実行する方法を実
施する流れ図を示している。とりわけ、テストデータ
は、上の式(4)に従って共分散行列(すなわち、R
test)を生成するのに用いられる(図5のブロック2
1)。さらに、このようなテストデータの共分散行列及
び訓練情報から導出された共分散行列(すなわち、R
train)は、上の式(6)に従って拡大縮小及び回転を
行う行列(すなわち、A)を計算するために用いられる
(図5のブロック22)。
【0030】訓練情報の共分散行列(すなわち、R
train)は、上の式(2)に従って、あらかじめ計算さ
れている。(ここで、行列Rtrainを訓練情報の「共分
散行列」と呼称することとする。複数の訓練発音が用い
られている場合、たとえ、より正確には当該行列は複数
の分散行列の平均であるとしても、このように呼ぶもの
とする。)ここで、訓練データの特定の集合−あるいは
それに等しいものとして、特定の訓練情報の共分散行列
−は、テストデータが導出された発音にかかる話者によ
り主張された身元に対応していることに留意されたい。
【0031】次に、平行移動ベクトル(すなわち、b)
は、上の式(7)に従って、拡大縮小及び回転を行う行
列(すなわちA)と、訓練情報から導出された確率的平
均値に基づいて計算される(図5のブロック23)。訓
練情報の平均値(すなわち、mtrain)は、上の式
(3)に従って、あらかじめ計算されている。最後に、
上の式(1)に従った線形変換がテストデータ(すなわ
ち、x)へ適用され、それにより、テストデータの確率
的特性を訓練データの特定の集合についての確率的特性
へより厳密にマッチングさせる。特に、テストデータに
は、拡大縮小及び回転を行う行列(すなわちA)が掛け
られ(乗算され)、さらに、その結果に平行移動ベクト
ル(すなわち、b)が加算される。
【0032】例示的な話者認証システム 本発明の例示的実施例に従って、上述の確率的マッチン
グ変換手続は、一般的な成句のパスワードを利用する、
従来型のテキスト主体の話者認証システムへも応用され
うる。図6は、そのような成句をベースとした話者認証
システムを示している。これは、本発明の例示的実施例
に従って、テストデータの訓練データへの確率的マッチ
ングを実行する方法を用いている。
【0033】図6の例示的システムは、S.Parthasarath
yらによる、"General Phrase Speaker Verification Us
ing Sub-Word Background Models and Likelihood-Rati
o Scoring,"Proc.ICSPL-96,October 1996で記述された
システムに基づいている。しかしながら、本発明の例示
的実施例に従った確率的マッチングは、例えば、"Gener
al Phrase Speaker Verification Using Sub-Word Back
ground Models and Likelihood-Ratio Scoring," で記
述されたシステムと比べると、図6の例示的システムに
おけるフロントエンド(前置)処理に含まれている。こ
れは、システムの改良されたロバストネス(頑強性)及
び性能を提供するためである。
【0034】特に、図6の例示的システムは以下のよう
に動作する。話者が身元(ID)を主張し、話者情報プ
ロセッサー33へ当該身元(ID)の主張を送信した後
には、システムは話者により発音されたテスト入力成句
を受け容れる。主張された身元(ID)に基づいて、話
者情報プロセッサー33は、付随する訓練情報を訓練情
報データベース35から取り出す。本発明の例示的実施
例によると、取り出された訓練情報は、目標とする話者
のHMM、保存されている単音の記録(以下、参照)、
さらにあらかじめ計算された共分散行列Rtrain及び値
trainを含む。
【0035】次いで、ケプストラム係数生成器30がテ
スト発音からケプストラム係数を生成する。システムと
しては、同一の成句は付随する訓練セッションにおいて
獲得されているものと予期していることから、話者独立
(SI)単音認識器31が、入力発音を単音の系列へと
分割(セグメント化)する。これは、登録セッションか
ら保存された(さらに、話者情報プロセッサー33によ
ってSI単音認識器31へと送り込まれている)記録を
利用する強制復号化によって行われる。
【0036】ここで、特定話者(SD)モデルは、単一
のセッションからの相対的に小さい量のデータに基づい
て訓練されてきていることから、これらのモデルについ
ては単音分割化(セグメント化)の目的には用いられな
い方が望ましいといえることに留意されたい。信頼性の
高い、安定した単音分割化(セグメント化)を提供する
ために、代わりに、SI単音モデル(HMM)が、SI
単音認識器31により有効に用いられる。
【0037】一方、本発明の例示的実施例に従って、テ
ストを行っている話者からの発音のケプストラム係数
(ケプストラム係数生成器30により生成された)は、
確率的マッチングプロセッサー34によって、確率的に
より厳密に訓練データの分布にマッチングする変換済み
ケプストラムが生成される。とりわけ、確率的マッチン
グプロセッサー34は、式(4)、式(6)、式(7)
及び式(1)を順番に計算して、例示的には図5の手続
を実施するものである。
【0038】最終的には、変換済みケプストラム係数
(確率的マッチングプロセッサー34からの)、復号さ
れた単音系列及び付随する単音の境界(SI単音認識器
31からの)、識別された目標(SD)のHMM(話者
情報プロセッサー33からの)は、話者認証器32へと
送られる。話者認証器32は、目標のモデル及びバック
グラウンドのモデルに関する対数尤度のスコアを基に、
既存の対数尤度比のスコアを計算する。これにより、話
者の主張した身元(ID)の真偽に関する判断が可能と
なる。
【0039】特に、話者認証器32は、以下の式(8)
の計算を行う。 LR(Ο;Λt;Λb)=L(Ο,Λt)−L(Ο,Λb) (8) ここでΟとは、成句全体にわたっての観測系列であり、
Λt及びΛbはそれぞれ目標のモデル及びバックグラウ
ンドのモデルのことである。バックグラウンドのモデル
は単音についてのHMMの集合であり、一方、目標のモ
デルは成句全体についての複数の状態を伴った単一のモ
デルである。当該技術分野の当業者にはよく知られてい
るように、典型的な場合、このような構成がもっよも良
好な結果が得られるのである(例えば、上述した、S.Pa
rthasarathyらによる、"General Phrase Speaker Verif
ication Using Sub-Word Background Models and Likel
ihood-Ratio Scoring,"を参照。)。
【0040】とりわけ、以下の式(9)のように表され
る場合がある。 L(Ο,Λt)=1/Nf・P(Ο|Λt) (9) ここでP(Ο|Λt)とは、ビタビ(Viterbi)復号化
(当該技術分野の当業者にはなじみのある)を用いて、
HMMであるΛtにより評価された成句の対数尤度のこ
とである。さらにNfは当該成句における無音でないフ
レームの全体数である。さらに以下の式(10)(数
5)の式のように表される場合がある。
【数5】 ここでP(Ο|Λb)とは、i番目の単音の対数尤度で
あり、Οiとは、i番目の単音についての分割された
(セグメント化された)観測系列であり、Λbiとはi番
目の単音についてのHMMのことであり、Npとは、復
号された無音でない単音の全体数であり、Nfとは、当
該成句における無音でないフレームの全体数である。
【0041】拒絶するのか受け容れるのかについての最
終的な判断は、式(8)のLRのスコアをしきい値と比
較することでなされる。加えて、テスト発音として、著
しく異なる(識別された話者の訓練発音における成句と
比べて)成句が提示されている場合には、当該成句はS
I単音認識器31によりアプリオリに(すなわち、テス
ト発音を拒絶するのか受け容れるのかに際して、話者識
別器32を用いることなしに)拒絶され得るのである。
【0042】付加的な詳細事項 ここで記述された本発明の例示的実施例において利用さ
れた特徴ベクトルとは、既存のものであり、例えば、1
2個のケプストラム係数及び12個のデルタケプストラ
ム係数から構成されうる。ケプストラムは、例えば、3
0ミリ秒(ミリセカンド)のウインドウについての10
次の線形予測係数(LPC)分析から導出されうる。特
徴ベクトルは、例えば10ミリ秒(ミリセカンド)の間
隔毎に更新されうる。
【0043】長距離電話ネットワークを介して記録され
た、固定した成句の発音から構成される実験データベー
スは、男性51人女性49人計100人の話者について
作り出された。すべての話者に共通な固定した成句と
は、平均で2秒の長さである、"I pledge allegiance t
o the flag."(「私は国旗への忠誠を誓います。」)と
いうものであった。一つのセッションで記録された各話
者の5つの発音は、SDHMMを訓練し、線形変換のた
めのRtrain及びmtrainを得るのに用いられた。
【0044】テストについては、異なる度毎に異なる電
話通信路を用いて、異なるセッションにおいて真の話者
から記録された50の発音及び、異なるセッションで同
性の50人の偽者から記録された200の発音が用いら
れた。モデルを適合させる目的のため(すなわち、その
後の、認証された、真の話者の発音に基づいてモデルを
更新するため)、テストされた真の話者からの第二、第
四、第六、第八のテスト発音は、次のテスト発音を認証
するため、Rtrain及びmtrainに加えて付随したHMM
を更新するのに利用された。各成句についての目標のモ
デルは、既存のleft-to-right型HMMであった。
【0045】状態数は、各成句における単音の全体数の
1.5倍であって、各状態に付随した4つのガウス関数
の構成成分が存在した。使用されたバックグラウンドの
モデルは、異なる話者及びテキストからの電話による音
声のデータベースを基に訓練された単音HMMをつなぎ
合わせたものであった。各単音HMMは、各状態に付随
して32個のガウス関数の構成成分を伴う状態を3つ有
していた。最後に、限られた量の訓練データから得られ
る分散の推定値は信頼性が低いことから、全体的な分散
の推定値が、目標のモデルにおけるすべてのガウス関数
の構成成分にとって共通の分散として利用されたことに
注意されたい(例えば、上述した、S.Parthasarathyら
による、"General Phrase Speaker Verification Using
Sub-Word Background Models and Likelihood-Ratio S
coring,"を参照。)。
【0046】上述の実験結果は、次のようなものであ
る。モデルの適合が存在していないときには、提示され
たアルゴリズムは、確率的マッチングを何ら実行してい
ない基準システムと比較して正誤率を56%改善し、ケ
プストラム平均値減算を用いたシステムと比較して14
%改善した。モデルの適合が適用されると、改善の程度
は、それぞれ54%と8%へと低下した。このような場
合において、改善の程度が低下したのは、異なる音響条
件に合わせるため、SDモデルが更新されているからで
ある。
【0047】追加事項 説明の簡略化のため、本発明の例示的実施例は、個々の
機能ブロックから構成されるものとして提示されている
(「プロセッサー」と呼称される機能ブロックを含め
て)。これらのブロックが提示する機能は、ソフトウエ
アを実行可能なハードウエアに限られずとも、それを含
めた、共有あるいは専用のハードウエアのいずれかを用
いることを通じて提供されうる。例えば、ここで提示さ
れたプロセッサーの機能は、単一の共有プロセッサーや
複数の個々のプロセッサーにより提供されうる。さら
に、ここでの「プロセッサー」という語の利用は、専ら
ソフトウエアを実行可能なハードウエアに限って呼称す
るものと解されるべきではない。例示的な実施例として
は、ルーセントテクノロジーのDSP16あるいはDS
P32Cといったデジタルシグナルプロセッサー(DS
P)、これまで論じられた動作を実行するソフトウエア
を保存する読み出し専用メモリ(ROM)、DSPの結
果を保存するランダムアクセスメモリ(RAM)から構
成されうる。汎用目的のDSP回路と結びつけたカスタ
ムVLSI回路と同様に、超大規模集積回路(VLS
I)のハードウエアによる実施例もまた提供されうるで
あろう。これらの実施例の任意のもの及びすべては、こ
こで用いられた「プロセッサー」なる語の意味の範囲内
に含まれると考えられる。
【0048】
【発明の効果】本発明により、従来、話者認証システム
について、話者認証訓練とテスト環境の間における音響
上の条件の違いに伴って生じていた、データの集合に関
する確率的不適合を補償する方法が提供された。具体的
には、先行技術のアプローチでは得られなかった、入力
テスト音声データの集合についての訓練音声データの対
応する集合との確率的マッチングを効率的に実行する方
法及び装置が本発明により実現された。これにより、話
者認識の性能が向上することが認められる。
【図面の簡単な説明】
【図1】図1は、本発明の例示的実施例に従った、テス
トデータの訓練データへの確率的マッチングを幾何学的
に表したものを示している。図1の場合、訓練データの
集合についての幾何学的解釈を示している。
【図2】図2は、本発明の例示的実施例に従った、テス
トデータの訓練データへの確率的マッチングを幾何学的
に表したものを示している。図2の場合、訓練データの
集合とテストデータの対応する集合についての幾何学的
解釈を示している。
【図3】図3は、本発明の例示的実施例に従った、テス
トデータの訓練データへの確率的マッチングを幾何学的
に表したものを示している。図3の場合、訓練データ及
び、本発明の例示的実施例に従って拡大縮小及び回転が
なされた、テストデータの対応する集合についての幾何
学的解釈を示している。
【図4】図4は、本発明の例示的実施例に従った、テス
トデータの訓練データへの確率的マッチングを幾何学的
に表したものを示している。図4の場合、訓練データの
集合及び、訓練データの集合と一致するように、本発明
の例示的実施例に従って拡大縮小、回転及び平行移動が
なされた、テストデータの対応する集合についての幾何
学的解釈を示している。
【図5】図5は、本発明の例示的実施例に従って、テス
トデータの訓練データへの確率的マッチングを実行する
方法を実施する流れ図を示している。
【図6】図6は、本発明の例示的実施例に従って、テス
トデータの訓練データへの確率的マッチングを実行する
方法を用いている、成句ベースの話者認証システムを示
している。
【符号の説明】
11 点線(訓練データの外形) 12 実線(テストデータの外形) 13 実線(拡大縮小及び回転がなされたテストデータ
の外形) 14 実線(訓練データ及び、拡大縮小、回転、平行移
動がなされたテストデータの共通の外形) 21 入力テストデータから共分散行列を生成する 22 訓練情報の共分散行列と入力テストデータの共分
散行列に基づいて拡大縮小及び回転を行う行列を計算す
る 23 拡大縮小及び回転を行う行列、入力テストデー
タ、訓練情報の平均値から平行移動ベクトルを計算する 24 線形変換を入力テストデータへと適用する(拡大
縮小及び回転を行う行列を乗算して、平行移動ベクトル
を加算する) 30 ケプストラム係数生成器 31 話者独立(SI)単音認識器 32 話者認証器 33 話者情報プロセッサー 34 確率的マッチングプロセッサー 35 訓練情報
───────────────────────────────────────────────────── フロントページの続き (71)出願人 596077259 600 Mountain Avenue, Murray Hill, New Je rsey 07974−0636U.S.A.

Claims (24)

    【特許請求の範囲】
  1. 【請求項1】 音声発音を表している入力テスト信号
    から生成された、入力テスト音声の特徴に関する情報の
    集合に基づいて、前記入力テスト音声の特徴に関する情
    報の前記集合についての確率的特性を表している第一の
    共分散行列を生成するステップと、 前記入力テスト音声の特徴に関する情報の変換済み集合
    を生成するために、前記入力テスト音声の特徴に関する
    情報の前記集合について変換を実行するステップとを有
    し、 前記変換とは、前記第一の共分散行列と訓練音声の特徴
    に関する情報についての確率的特性を表している第二の
    共分散行列に基づくものであり、 前記訓練音声の特徴に関する情報についての確率的特性
    は、前記入力テスト音声の特徴に関する情報の前記集合
    についての確率的特性よりも前記入力テスト音声の特徴
    に関する情報の前記変換済み集合についての確率的特性
    に対し、より厳密にマッチングしていることを特徴とす
    る、前記訓練音声の特徴に関する情報の集合についての
    確率的特性を基に前記入力テスト音声の特徴に関する情
    報の前記集合を変換する方法。
  2. 【請求項2】 前記変換が、さらに前記訓練音声の特
    徴に関する情報の確率的平均値に基づいていることを特
    徴とする請求項1に記載の方法。
  3. 【請求項3】 前記変換が、さらに前記訓練音声の特
    徴に関する情報の前記確率的平均値の複数についての平
    均に基づいていることを特徴とする請求項2に記載の方
    法。
  4. 【請求項4】 前記入力テスト音声の特徴に関する情
    報の前記集合が、前記入力テスト音声の信号フレームか
    ら生成されたケプストラム領域におけるデータを有して
    いることを特徴とする請求項1に記載の方法。
  5. 【請求項5】 前記変換が、前記ケプストラム領域に
    おけるデータの線形変換を有していることを特徴とする
    請求項4に記載の方法。
  6. 【請求項6】 前記ケプストラム領域におけるデータ
    が、前記入力テスト音声の前記信号フレームから生成さ
    れたケプストラムフレームでのデータのベクトルを有し
    ており、 前記線形変換を実行するステップが、前記ケプストラム
    フレームでのデータのベクトルと前記第一及び前記第二
    の共分散行列から導出された行列を乗算することによる
    積を計算するステップを有することを特徴とする請求項
    5に記載の方法。
  7. 【請求項7】 前記線形変換を実行するステップが、
    さらに前記積に平行移動ベクトルを加算するステップを
    有し、 前記平行移動ベクトルとは、前記第一及び前記第二の共
    分散行列から導出された前記行列と前記訓練音声の特徴
    に関する情報の確率的平均値に基づいていることを特徴
    とする請求項6に記載の方法。
  8. 【請求項8】 前記音声発音が話者認証発音を有して
    おり、前記訓練音声の特徴に関する情報が話者認証の訓
    練データに基づく特徴に関する情報を有していることを
    特徴とする請求項1に記載の方法。
  9. 【請求項9】 前記音声発音にかかる話者について主
    張された身元を取り出すステップと、 前記訓練音声の特徴に関する情報の前記集合と前記入力
    テスト音声の特徴に関する情報の前記変換済み集合に基
    づいて、前記音声発音に関する前記話者と前記主張され
    た身元が同じものである尤度を判断するステップとを、 さらに有することを特徴とする請求項8に記載の方法。
  10. 【請求項10】 前記尤度を判断する前記ステップが、
    前記入力テスト音声の特徴に関する情報の前記変換済み
    集合を、前記訓練音声の特徴に関する情報の前記集合に
    基づいて生成されたモデルへと適用するステップを有す
    ることを特徴とする請求項9に記載の方法。
  11. 【請求項11】 前記モデルが隠れマルコフモデルを有
    することを特徴とする請求項10に記載の方法。
  12. 【請求項12】 前記変換が、前記第一の共分散行列及
    び、前記第二の共分散行列の複数についての平均に基づ
    いていることを特徴とする請求項1に記載の方法。
  13. 【請求項13】 音声発音を表している入力テスト信号
    から生成された、入力テスト音声の特徴に関する情報の
    集合に基づいて、前記入力テスト音声の特徴に関する情
    報の前記集合についての確率的特性を表している第一の
    共分散行列を生成する、第一の共分散行列生成器と、 前記入力テスト音声の特徴に関する情報の変換済み集合
    を生成するために前記入力テスト音声の特徴に関する情
    報の前記集合について適用された変換とを有し、 前記変換とは、前記第一の共分散行列と訓練音声の特徴
    に関する情報についての確率的特性を表している第二の
    共分散行列に基づくものであり、 前記訓練音声の特徴に関する情報についての確率的特性
    は、前記入力テスト音声の特徴に関する情報の前記集合
    についての確率的特性よりも前記入力テスト音声の特徴
    に関する情報の前記変換済み集合についての確率的特性
    に対し、より厳密にマッチングしていることを特徴とす
    る、前記訓練音声の特徴に関する情報の集合についての
    確率的特性を基に前記入力テスト音声の特徴に関する情
    報の前記集合を変換する装置。
  14. 【請求項14】 前記変換が、さらに前記訓練音声の特
    徴に関する情報の確率的平均値に基づいていることを特
    徴とする請求項13に記載の装置。
  15. 【請求項15】 前記変換が、さらに前記訓練音声の特
    徴に関する情報の前記確率的平均値の複数についての平
    均に基づいていることを特徴とする請求項14に記載の
    装置。
  16. 【請求項16】 前記入力テスト音声の特徴に関する情
    報の前記集合が、前記入力テスト音声の信号フレームか
    ら生成されたケプストラム領域におけるデータを有して
    いることを特徴とする請求項13に記載の装置。
  17. 【請求項17】 前記変換が、前記ケプストラム領域に
    おけるデータの線形変換を有していることを特徴とする
    請求項16に記載の装置。
  18. 【請求項18】 前記ケプストラム領域におけるデータ
    が、前記入力テスト音声の前記信号フレームから生成さ
    れたケプストラムフレームでのデータのベクトルを有し
    ており、前記変換が、前記ケプストラムフレームでのデ
    ータのベクトルと前記第一及び前記第二の共分散行列か
    ら導出された行列を乗算することによる積を計算する乗
    算器を有することを特徴とする請求項17に記載の装
    置。
  19. 【請求項19】 前記変換が、さらに前記積に平行移動
    ベクトルを加える加算を有し、前記平行移動ベクトルと
    は、前記第一及び前記第二の共分散行列から導出された
    前記行列と前記訓練音声の特徴に関する情報の確率的平
    均値に基づいていることを特徴とする請求項18に記載
    の装置。
  20. 【請求項20】 前記音声発音が話者認証発音を有して
    おり、前記訓練音声の特徴に関する情報が話者認証の訓
    練データに基づく特徴に関する情報を有していることを
    特徴とする請求項13に記載の装置。
  21. 【請求項21】 前記音声発音にかかる話者について主
    張された身元を取り出す手段と、 前記訓練音声の特徴に関する情報の前記集合と前記入力
    テスト音声の特徴に関する情報の前記変換済み集合に基
    づいて、前記音声発音に関する前記話者と前記主張され
    た身元が同じものである尤度を判断する話者認証器とを
    さらに有することを特徴とする請求項20に記載の装
    置。
  22. 【請求項22】 前記話者認証器が、前記入力テスト音
    声の特徴に関する情報の前記変換済み集合を、前記訓練
    音声の特徴に関する情報の前記集合に基づいて生成され
    たモデルへと適用する手段を有することを特徴とする請
    求項21に記載の装置。
  23. 【請求項23】 前記モデルが隠れマルコフモデルを有
    することを特徴とする請求項22に記載の装置。
  24. 【請求項24】 前記変換が、前記第一の共分散行列及
    び、前記第二の共分散行列の複数についての平均に基づ
    いていることを特徴とする請求項13に記載の装置。
JP06345198A 1997-03-14 1998-03-13 話者認証用確率的マッチング方法 Expired - Fee Related JP3630216B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/818,188 US5995927A (en) 1997-03-14 1997-03-14 Method for performing stochastic matching for use in speaker verification
US08/818188 1997-03-14

Publications (2)

Publication Number Publication Date
JPH10307593A true JPH10307593A (ja) 1998-11-17
JP3630216B2 JP3630216B2 (ja) 2005-03-16

Family

ID=25224907

Family Applications (1)

Application Number Title Priority Date Filing Date
JP06345198A Expired - Fee Related JP3630216B2 (ja) 1997-03-14 1998-03-13 話者認証用確率的マッチング方法

Country Status (4)

Country Link
US (1) US5995927A (ja)
EP (1) EP0874354B1 (ja)
JP (1) JP3630216B2 (ja)
DE (1) DE69800006T2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013205807A (ja) * 2012-03-29 2013-10-07 Toshiba Corp モデル学習装置、モデル製造方法、及びプログラム
KR20200087889A (ko) * 2018-12-28 2020-07-22 강원대학교산학협력단 음성 인식 장치 및 방법

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6233555B1 (en) 1997-11-25 2001-05-15 At&T Corporation Method and apparatus for speaker identification using mixture discriminant analysis to develop speaker models
US6202047B1 (en) * 1998-03-30 2001-03-13 At&T Corp. Method and apparatus for speech recognition using second order statistics and linear estimation of cepstral coefficients
DE19824354A1 (de) * 1998-05-30 1999-12-02 Philips Patentverwaltung Vorrichtung zur Verifizierung von Signalen
DE19824353A1 (de) * 1998-05-30 1999-12-02 Philips Patentverwaltung Vorrichtung zur Verifizierung von Signalen
US6980952B1 (en) * 1998-08-15 2005-12-27 Texas Instruments Incorporated Source normalization training for HMM modeling of speech
US6519563B1 (en) * 1999-02-16 2003-02-11 Lucent Technologies Inc. Background model design for flexible and portable speaker verification systems
AU2684100A (en) * 1999-03-11 2000-09-28 British Telecommunications Public Limited Company Speaker recognition
US6993556B1 (en) * 1999-04-07 2006-01-31 Sentillion, Inc. Context administrator
US6556969B1 (en) * 1999-09-30 2003-04-29 Conexant Systems, Inc. Low complexity speaker verification using simplified hidden markov models with universal cohort models and automatic score thresholding
US6751590B1 (en) * 2000-06-13 2004-06-15 International Business Machines Corporation Method and apparatus for performing pattern-specific maximum likelihood transformations for speaker recognition
US20020198857A1 (en) * 2001-06-21 2002-12-26 Tradeharbor, Inc. Normalized detector scaling
US6778957B2 (en) * 2001-08-21 2004-08-17 International Business Machines Corporation Method and apparatus for handset detection
US6999928B2 (en) * 2001-08-21 2006-02-14 International Business Machines Corporation Method and apparatus for speaker identification using cepstral covariance matrices and distance metrics
US20030225719A1 (en) * 2002-05-31 2003-12-04 Lucent Technologies, Inc. Methods and apparatus for fast and robust model training for object classification
KR100612843B1 (ko) * 2004-02-28 2006-08-14 삼성전자주식회사 은닉 마코프 모델를 위한 확률밀도함수 보상 방법, 그에따른 음성 인식 방법 및 장치
US7409332B2 (en) * 2004-07-14 2008-08-05 Microsoft Corporation Method and apparatus for initializing iterative training of translation probabilities
US7447633B2 (en) * 2004-11-22 2008-11-04 International Business Machines Corporation Method and apparatus for training a text independent speaker recognition system using speech data with text labels
US20060293898A1 (en) * 2005-06-22 2006-12-28 Microsoft Corporation Speech recognition system for secure information
EP1843325B1 (en) * 2006-04-03 2009-11-18 Voice.Trust Ag Speaker authentication in digital communication networks
US7769583B2 (en) * 2006-05-13 2010-08-03 International Business Machines Corporation Quantizing feature vectors in decision-making applications
EP1860647B1 (en) * 2006-05-24 2009-12-23 Voice.Trust Ag Robust speaker recognition
US20080120108A1 (en) * 2006-11-16 2008-05-22 Frank Kao-Ping Soong Multi-space distribution for pattern recognition based on mixed continuous and discrete observations
CN101197131B (zh) * 2006-12-07 2011-03-30 积体数位股份有限公司 随机式声纹密码验证系统、随机式声纹密码锁及其产生方法
EP2101319B1 (en) * 2006-12-15 2015-09-16 Panasonic Intellectual Property Corporation of America Adaptive sound source vector quantization device and method thereof
US7805308B2 (en) * 2007-01-19 2010-09-28 Microsoft Corporation Hidden trajectory modeling with differential cepstra for speech recognition
RU2419890C1 (ru) 2009-09-24 2011-05-27 Общество с ограниченной ответственностью "Центр речевых технологий" Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания
US8892436B2 (en) * 2010-10-19 2014-11-18 Samsung Electronics Co., Ltd. Front-end processor for speech recognition, and speech recognizing apparatus and method using the same
US9390445B2 (en) 2012-03-05 2016-07-12 Visa International Service Association Authentication using biometric technology through a consumer device
US9036890B2 (en) 2012-06-05 2015-05-19 Outerwall Inc. Optical coin discrimination systems and methods for use with consumer-operated kiosks and the like
EP2713367B1 (en) * 2012-09-28 2016-11-09 Agnitio, S.L. Speaker recognition
US8694315B1 (en) 2013-02-05 2014-04-08 Visa International Service Association System and method for authentication using speaker verification techniques and fraud model
CN104021390B (zh) * 2013-03-01 2018-01-02 佳能株式会社 模型生成装置、模式识别设备及其方法
US8739955B1 (en) * 2013-03-11 2014-06-03 Outerwall Inc. Discriminant verification systems and methods for use in coin discrimination
RU2530314C1 (ru) * 2013-04-23 2014-10-10 Общество с ограниченной ответственностью "ЦРТ-инновации" Способ гибридной генеративно-дискриминативной сегментации дикторов в аудио-потоке
US9443367B2 (en) 2014-01-17 2016-09-13 Outerwall Inc. Digital image coin discrimination for use with consumer-operated kiosks and the like
US9792899B2 (en) 2014-07-15 2017-10-17 International Business Machines Corporation Dataset shift compensation in machine learning
US10141009B2 (en) 2016-06-28 2018-11-27 Pindrop Security, Inc. System and method for cluster-based audio event detection
US9824692B1 (en) 2016-09-12 2017-11-21 Pindrop Security, Inc. End-to-end speaker recognition using deep neural network
WO2018053537A1 (en) 2016-09-19 2018-03-22 Pindrop Security, Inc. Improvements of speaker recognition in the call center
US10553218B2 (en) * 2016-09-19 2020-02-04 Pindrop Security, Inc. Dimensionality reduction of baum-welch statistics for speaker recognition
WO2018053518A1 (en) 2016-09-19 2018-03-22 Pindrop Security, Inc. Channel-compensated low-level features for speaker recognition
US10397398B2 (en) 2017-01-17 2019-08-27 Pindrop Security, Inc. Authentication using DTMF tones
WO2020159917A1 (en) 2019-01-28 2020-08-06 Pindrop Security, Inc. Unsupervised keyword spotting and word discovery for fraud analytics
US11019201B2 (en) 2019-02-06 2021-05-25 Pindrop Security, Inc. Systems and methods of gateway detection in a telephone network
WO2020198354A1 (en) 2019-03-25 2020-10-01 Pindrop Security, Inc. Detection of calls from voice assistants
US11363038B2 (en) 2019-07-24 2022-06-14 International Business Machines Corporation Detection impersonation attempts social media messaging
US20230153408A1 (en) * 2021-11-18 2023-05-18 Daon Enterprises Limited Methods and systems for training a machine learning model and authenticating a user with the model

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5054083A (en) * 1989-05-09 1991-10-01 Texas Instruments Incorporated Voice verification circuit for validating the identity of an unknown person
DE69031866T2 (de) * 1990-03-30 1998-06-18 Koninkl Philips Electronics Nv Verfahren und Anordnung zur Signalverarbeitung durch die Eigenvektortransformation
US5167004A (en) * 1991-02-28 1992-11-24 Texas Instruments Incorporated Temporal decorrelation method for robust speaker verification
US5473728A (en) * 1993-02-24 1995-12-05 The United States Of America As Represented By The Secretary Of The Navy Training of homoscedastic hidden Markov models for automatic speech recognition
US5727124A (en) * 1994-06-21 1998-03-10 Lucent Technologies, Inc. Method of and apparatus for signal recognition that compensates for mismatching

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013205807A (ja) * 2012-03-29 2013-10-07 Toshiba Corp モデル学習装置、モデル製造方法、及びプログラム
KR20200087889A (ko) * 2018-12-28 2020-07-22 강원대학교산학협력단 음성 인식 장치 및 방법

Also Published As

Publication number Publication date
DE69800006T2 (de) 2000-07-06
JP3630216B2 (ja) 2005-03-16
EP0874354A1 (en) 1998-10-28
DE69800006D1 (de) 1999-07-29
EP0874354B1 (en) 1999-06-23
US5995927A (en) 1999-11-30

Similar Documents

Publication Publication Date Title
JP3630216B2 (ja) 話者認証用確率的マッチング方法
US9536525B2 (en) Speaker indexing device and speaker indexing method
US5167004A (en) Temporal decorrelation method for robust speaker verification
US5913192A (en) Speaker identification with user-selected password phrases
Reynolds et al. Speaker verification using adapted Gaussian mixture models
US6029124A (en) Sequential, nonparametric speech recognition and speaker identification
US7058573B1 (en) Speech recognition system to selectively utilize different speech recognition techniques over multiple speech recognition passes
US20090171660A1 (en) Method and apparatus for verification of speaker authentification and system for speaker authentication
EP1159737B9 (en) Speaker recognition
JP2000507714A (ja) 言語処理
JPH11511567A (ja) パターン認識
JPH075892A (ja) 音声認識方法
KR101888058B1 (ko) 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치
Ozaydin Design of a text independent speaker recognition system
Gauvain et al. Experiments with speaker verification over the telephone.
Li et al. Speaker verification using verbal information verification for automatic enrolment
Li et al. A fast algorithm for stochastic matching with application to robust speaker verification
JPH11327586A (ja) 話者照合装置、方法及び記憶媒体
Chowdhury et al. Distributed automatic text-independent speaker identification using GMM-UBM speaker models
JP3075250B2 (ja) 話者認識方法及び装置
Ali et al. Voice Reminder Assistant based on Speech Recognition and Speaker Identification using Kaldi
Upadhyay et al. Analysis of different classifier using feature extraction in speaker identification and verification under adverse acoustic condition for different scenario
Saeidi et al. Study of model parameters effects in adapted Gaussian mixture models based text independent speaker verification
SEGĂRCEANU et al. Speaker verification using gmm modelling
Kanrar i Vector used in Speaker Identification by Dimension Compactness

Legal Events

Date Code Title Description
A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20040217

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20040225

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040517

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20041115

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20041208

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees