JPH08314491A - ミックスチャ分解識別による話者検証方法と装置 - Google Patents

ミックスチャ分解識別による話者検証方法と装置

Info

Publication number
JPH08314491A
JPH08314491A JP8123854A JP12385496A JPH08314491A JP H08314491 A JPH08314491 A JP H08314491A JP 8123854 A JP8123854 A JP 8123854A JP 12385496 A JP12385496 A JP 12385496A JP H08314491 A JPH08314491 A JP H08314491A
Authority
JP
Japan
Prior art keywords
speaker
verification
hmm
specific
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8123854A
Other languages
English (en)
Other versions
JP3532346B2 (ja
Inventor
Malan Bhatki Gandhi
バクティ ガンドヒ マラン
Anand Rangaswamy Setlur
ランガスワミー セットラー アナンド
Rafid Antoon Sukkar
アントーン サッカー ラフィッド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
A T and T I P M CORP
AT&T Corp
Original Assignee
A T and T I P M CORP
AT&T Corp
AT&T IPM Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by A T and T I P M CORP, AT&T Corp, AT&T IPM Corp filed Critical A T and T I P M CORP
Publication of JPH08314491A publication Critical patent/JPH08314491A/ja
Application granted granted Critical
Publication of JP3532346B2 publication Critical patent/JP3532346B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/16Hidden Markov models [HMM]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Abstract

(57)【要約】 【課題】 精度の高い音声認識を実現する。 【解決手段】 ミックスチャ分解識別(MDD)と呼ば
れる新型話者検証方法およびMDDを使うための新しい
装置について示す。MDDは話者個別認識装置からミッ
クスチャ・コンポーネント・スコア情報を取り出し、こ
の情報が単一の話者個別認識装置のパラメータに組み込
まれる前にHMMの状態応答を示すコンポーネント・ス
コアのミックスチャとして、まだ分解されている間にこ
の情報を伝送する。MDDは群正規化された話者依存型
HMMに基づいた既存の検証方法の性能を改善させるの
に非常に効果的である。MDDは話者依存型線形識別装
置と一緒に使われる。これは、比較的演算容量と記憶容
量が少ない。これにより、ハイブリッドMDD/CNH
MMシステムの高い性能は、演算とデータ記憶アセット
を最小限拡大するだけで達成することができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識と話者検
証を行う方法及び装置に関し、特に、話者個別隠れマル
コフモデル(HMM)と、話者依存型認識装置または検
証装置に関する。
【0002】
【従来の技術】自動話者検証は、最近行なわれた多くの
研究努力の主要課題となっているものである。HMMに
よる音声モデリングは、例えば、A.E.ローゼンバー
グ、C.H.リーおよびS.L.ゴッチェンによる音
響、音声および信号処理に関する1991年度IEEE
国際会議の議題となった「全世界隠れマルコフモデルに
よる連結ワードの話手検証」(1991年5月号の38
1〜384頁)といった、話者検証に効果があることが
示された。連結ワード・ストリングからなる発声音を用
いて検証が行われる場合、話者個別型と話者依存型HM
Mの両方が、しばしば、検証プロセスに取り入れられて
いる。そういったシステム100を図1に示す。話者個
別HMM110を使って、入力済み音声の発声音からな
るワード・ストリングを認識し区分化する。このワード
区分化に基づき、話者依存型HMM120は、次に、そ
のワード・ストリングが確かに所定のIDを主張する者
によって話されたものであるかどうかを検証する。
【0003】HMMベースの話者検証の性能について
は、HMMの群正規化または、識別トレーニングのいず
れかが取り入れられている場合に、改善がみられた。こ
れについては、発声言語処理に関する1992年度の国
際会議の議題である、A.E.ローゼンバーグ、C.
H.リー、B.H.ホアンおよびF.K.スングによる
「話者検証のための群正規化スコアの使用」(599〜
602頁)および、音響、音声および信号処理に関する
1994年度IEEE国際会議の議題であるC.S.リ
ュー、C.H.リー、B.H.ホアンおよび、A.E.
ローゼンバーグによる「最小エラー識別トレーニングに
基づいた話者認識」(1994年4月号Vol.1、3
25〜328頁)に、それぞれ、述べられている。
【0004】図2は、群正規化HMM(CNHMM)シ
ステム200で、これは、話者個別認識装置212付き
装置210に記憶された話者個別HMMと、群正規化装
置214付きHMMによる話者検証装置付き装置220
に記憶された話者依存型HMMを使用する。システム2
00はHMM群正規化のその他の改良された図1に示さ
れたシステムとほとんど同じ操作を行う。
【0005】これは、話者検証の際のエラー数を全体的
に減らすものである。多層パーセプトロン(MLP)や
線形識別装置といったその他の方法も、音響、音声およ
び信号処理に関する1994年度IEEE国際会議の議
題であるJ.M.ネイクとD.M.ルーベンスキィによ
る、「電話音声用ハイブリッドHMM−MLP話者検証
アルゴリズム」(1994年4月号Vol.1の153
〜156頁)、音響、音声および信号処理に関する19
94年度IEEE国際会議の議題であるK.R.ファレ
ルとR.J.マモンによる「神経系統ネットワークによ
る話者識別」(1994年4月号Vol.1の165〜
168頁)、音響、音声および信号処理に関する199
4年度IEEE国際会議の議題であるJ.ソレンセンと
M.サビックによる「高性能テキスト単独話者検証シス
テムの階層パターン分類」(1994年4月号Vol.
1の157〜160頁)および、音響、音声および信号
処理に関する1994年度IEEE国際会議の議題であ
るL.P.ネッチェとG.R.ドッギングトンによる
「暫定的後処理」(1992年3月号Vol.1の18
1〜184頁)の中に述べられている話者検証にうまく
活用されている。
【0006】
【発明が解決しようとする課題】話者検証分野における
上記の活動(作用)全てが備わっていても、話者検証装
置が、真の話者のようなふりをしている偽りの話者を間
違えて検証し、真の話者を検証するのを拒否することも
まだよく起こる。よって、話者検証についての改良方法
および、改良装置を求める技術分野でのニーズがある。
さらに、話者検証は、一種の話者依存型音声認識である
ため、技術での話者依存型音声認識の改良された装置お
よび方法に対するニーズがある。
【0007】
【課題を解決するための手段】本発明による話者検証技
術の進歩は、一連の連結数字といった検証装置の用語セ
ットに対応するトレーニングされた話者個別HMMによ
る方法および装置を使うことによって達成される。そこ
では、話者個別HMMは連続するミックスチャ左右方向
HMMである。本発明の方法及び装置は、さまざまな異
なる話者によって同じワードが話されることにより、個
々のHMM状態ミックスチャ・コンポーネントを、別々
に、起動させることを観察する装置を用いる。従って、
そのワードに対する所定の話者の「ミックスチャ・プロ
ファイル」は、所定のワード・モデル内にある全ての状
態のミックスチャ情報から構築される。よって、これら
の情報から、次ぎにミックスチャ・プロファイルは、真
の話者と偽りの話者とを識別するベースとして使われ
る。よって、その名を「ミックスチャ分解識別」(MD
D)と呼ぶ。MDDは、コンピュータまたは同等のシス
テムのプロセスとして実行されるとき、これまで未知だ
った種類の話者検証装置を提供する。それは、話者検証
を行うための状態ミックスチャ・コンポーネントを用い
る。
【0008】本発明の他の態様において、公知システム
の問題点は、話者検証方法を用いることにより、解決さ
れる。この方法は、第一の隠れマルコフモデルによる話
者個別音声認識装置を使って音声入力を区分化するステ
ップと、特定の話者の話者検証データ・ファイルへのア
クセス・キーを得るために、区分化された音声入力を認
識するステップと、ミックスチャ・コンポーネント・ス
コア情報を、線形識別装置に提供するステップと、特定
の話者に対応する真の話者仮説を、特定の話者に対応す
る偽りの話者仮説から識別する試験するステップと、音
声入力が特定の話者からのものであるのか、または仮説
試験と所定のしきい値からのスコアによるものではない
かを判定するステップとを含む。
【0009】さらに本発明の他の態様において、公知シ
ステムの問題点は、入力ワード・ストリングの話者検証
システムを使うことによって解決される。このシステム
は、第一のHMMによる話者個別音声認識装置を含む。
この話者個別音声認識装置は、多数の話者検証データ・
ファイルのうちの1つへのアクセス・キーを得るため
に、入力されたワード・ストリングを区分化および認識
する。線形識別装置は、話者個別音声認識装置に接続さ
れる。入力されたワード・ストリングに応じて話者個別
音声認識装置の内部処理の結果生成されたミックスチャ
・コンポーネント・スコア情報は、このミックスチャ・
コンポーネント・スコア情報が、1つのパラメータに組
み込まれる前に線形識別装置に提供される。各話者検証
データ・ファイルが特定の話者の偽りの話者仮説に対し
てその特定の話者の真の話者仮説を含んでいる、多数の
話者検証データ・ファイルを記憶するための記憶装置は
線形識別装置に接続される。多数の話者検証データ・フ
ァイルからのアクセス・キーに該当する話者検証データ
・ファイルにアクセスし、このアクセスされたデータ・
ファイルを伝送するための装置または、線形識別装置に
接続される。線形識別装置の後に、線形識別装置の出力
に接続される判定装置は、音声入力が、その特定の話者
のものであるのか、2つの仮説の試験の結果出されたス
コアによるものではないかを判定する。
【0010】
【発明の実施の形態】図3において、新型の話者検証
(SV)装置300を示す。SV装置300は、話者個
別(SI)自動音声認識装置(ASR)304を有し、
これが、記憶装置306からの話者個別HMMを使っ
て、音声認識を行う。話者個別ASR304は、一部の
変換器(例:マイクロフォン)を介してライン302上
で対応する電気信号または電磁信号へと変換された音声
を受信する。
【0011】入力音声は、ある特定のIDを持っている
と主張する話者によって話された検証のためのパスワー
ドからなる一連のワード・ストリングから構成されてい
る。話者個別HMMセットは、検証装置の用語セット、
例えば、1組みの数字列に対応するモデルから構成され
る。話者個別HMMセットは記憶装置306に記憶され
る。話者個別HMMは、話者個別ASR304と一緒に
次の3つの機能を行う。つまり、1)入力音声内での1
つのワード・ストリングを認識する。2)各入力ワード
・ストリングを区分化する。そして、3)そのストリン
グ中の所定ワードに関する状態ミックスチャ・コンポー
ネント・スコア情報を提供する。話者個別ASR304
は、高性能プロセッサ(図示せず)と、メモリ(図示せ
ず)を用いて、話者個別ASRをリアルタイムで実行す
る。そういったプロセッサとメモリ装置は、高性能パソ
コンやワークステーション、音声処理制御盤およびミニ
コンピュータに使われている。
【0012】話者個別ワード認識機能と区分化機能は、
話者個別ASRの標準である。すでに公知の機能に基づ
いて、ストリング中の所定ワードに関する状態ミックス
チャ・コンポーネント・スコア情報を提供する機能を行
えるという3番目の機能が新しい機能である。状態ミッ
クスチャ・コンポーネント・スコア情報は、通常、話者
個別HMM ASRによって生成されるが、しかし、生
成された情報は、次に、1個のパラメータに組み込ま
れ、その値はHMM ASRの中で使われる。本発明
は、まだ、それが、分解される間に組み合わせられる前
にこの状態ミックスチャ・コンポーネント・スコア情報
を抽出して、それを、ライン307を介して、ワード・
ベースのミックスチャ分解識別装置(MDD)310I
−310N へ入力する。
【0013】話者個別ASR304によって使われる装
置306中に記憶された話者個別HMMは、用語セット
(どんな種類のワードでも構わない)についてトレーニ
ングされているが、連結数字のためのHMMは、クレジ
ット・カードとデビット・カードのパーソナルID番号
ASRシステムがあるために、うまく開発されている。
話者個別HMMは、連続ミックスチャ左右方向タイプの
ものである。前回の話者個別HMMの状態ミックスチャ
・コンポーネントが、1つにまとめられて、話者個別認
識処理中に1個のパラメータを形成する。発明家は、同
一ワードを話すさまざま異なる話者が、それぞれに、H
MMの状態ミックスチャ・コンポーネントを始動させる
ことを発見した。そして、もし、所定のワード・モデル
内の全状態のミックスチャ情報を考慮するならば、「ミ
ックスチャ・プロファイル」が、そのワードに対する所
定話者のものが構築される。次に、このミックスチャ・
プロファイルは、真の話者と偽りの話者とを識別するた
めの基準として使うことができる。よって、本発明は、
すでに公知の話者個別HMMを修正変更して、その情報
が1つにまとめられる前に、ミックスチャ・コンポーネ
ント・スコアを抽出して転送する。
【0014】このミックスチャ・コンポーネント・スコ
ア情報は、各識別装置310I −310N の中に組み込
まれ、偽りの話者仮説から真の話者仮説を識別する試験
を行う。従って、検証モデルは、各話者ごとに判断し、
トレーニングされた特定の話者の識別装置の重量ベクト
ルである。これらの重量ファクタは、その記憶容量規定
が比較的小さく、記憶装置312の中に記憶される。さ
らに、識別装置310I −310N は、線形識別装置で
あることから、また、MDDの計算の複雑性も、比較的
低く、そのため必要とされる計算リソースも少ない。
【0015】MDD話者検証プロセスは2つの部分を有
する。すなわち、ワード・レベルの話者検証部分と、そ
れに続くストリング・レベルの話者検証部分とである。
これら2つの部分は、ワード・レベルの話者識別装置3
10I −310N と装置312に記憶された識別装置重
量と、ストリング・レベルの話者検証装置316の中
で、それぞれ行われる。ワード・レベル話者識別装置3
10I −310N と装置312に記憶された識別加重値
および、マトリックス・レベルの話者検証装置316
は、ASRの場合と同様に、各々が、高性能プロセッサ
とメモリを使用する。事実、ASR304によって使わ
れるプロセッサとメモリが十分な能力と記憶容量がある
場合、ASR304、ワード・レベル話者検証装置31
I −310N およびストリング・レベルの話者検証装
置316は全て、同一のプロセッサ、メモリおよび、記
憶装置を使うこともできるだろう。
【0016】ストリング中の各ワードは、話者個別HM
M ASR304によって区分化され、次に、話者識別
装置310I −310N のそれぞれの話者検証装置によ
り、操作される。ストリング・レベルの検証プロセス
は、ワード・レベルの検証プロセスの結果と組み合わさ
って、装置330によって最終的な合格/不合格の判定
を行う。記憶装置332は、判定装置330に使われる
しいき値を記憶し、合格/不合格にさせるに十分高いス
コアをあげたかどうかを判定する。ストリングを検証す
るための方法については、後で説明する。判定装置33
0は、合格かまたは不合格かのいずれかの信号を出力す
る。
【0017】ワードの検証は、一種の分類またはパター
ン認識である。タイム・シーケンスを取り扱ったいかな
る分類またはパターン認識においても、定数のパラメー
タによって表示することができるように、その信号を時
間正規化させるのが望ましい。HMMが入力された発声
音中の各ワードを一定のシーケンス状態に時間を正規化
させることで、特徴ベクトルと呼ばれる固定長さのベク
トルによって所定ワードを表すことが可能となる。その
理由については、後で説明する。HMM正規化(または
状態区分化)により、入力された発声音中の各フレーム
を特定のHMM状態の中に割り当てる。特徴ベクトルへ
のミックスチャ・コンポーネント負担を得るために、所
定状態の全てのミックスチャ・コンポーネントの重心
が、その特定の状態に区分化されたフレームについて計
算される。特徴ベクトルは、所定ワード中の全ての状態
ミックスチャ重心ベクトルを連結させることによって形
成される。数学的に、所定状態の多次元のミックスチャ
分布は、次の式によって表される。
【数1】
【0018】ここに、Oは認識装置の観測ベクトル、S
ijはi番目のワード・モデルのj番目の状態、Mはガウ
ス・ミックスチャ分布の総数で、kij,mは、ミックスチ
ャの重量を表す。ミックスチャ状態重心ベクトルのエレ
メントは、次の式によって算出される。
【数2】
【0019】ここに、q1 とq2 は、ワードiの状態j
に区分化された入力音声セグメントのスタートおよびエ
ンド・フレームであり、Oq はフレームqの認識装置観
測ベクトルを表す。ワード・レベル検証装置の特徴ベク
トルであるXi は、重心ベクトルcijの連結であり、次
の式によって表される。
【数3】
【0020】ここに、Ni は、ワード・モデルiの状態
数、肩文字Tはベクトル転値である。従って、xi の寸
法は、Ni xMとなる。ワード・レベルの検証は、次の
式によって表される線形識別関数の値を計算することに
より行われる。
【数4】
【0021】ここに、ai,k はワードiを話す話者kの
線形識別装置モデルを表す重量ベクトルである。1人の
話者が、話者kのIDを主張すれば、ワード・レベルの
検証スコアは、R(ai,k ,Xi )を算出することによ
り求められる。
【0022】1組の識別装置の加重ベクトル{ai,k
は、フィッシャーの識別判定基準によって算出される。
この判定基準については、アカデミア・プレス出版の
R.マルディア、J.ケントおよび、J.ビビィによる
「多変量分析」(1979年)に説明されている。所定
ワードiと話者kについて、フィッシャーの判定基準
は、2つのクラス間を識別するのに用いられる。つま
り、1つのクラスは、真の話者kによって話されたワー
ドiのケースを表し、もう片方のクラスは、話者k以外
の話者(つまり、偽りの話者)によって話されたワード
iのケースのことである。Xi,k を、真の話者kによっ
て話されたワードiの識別ベクトルとする。さらに、X
i,k'を真の話者k以外の話者によって話されたワードi
の識別ベクトルとしよう。識別装置の加重ベクトルa
i,kは、クラス間の二乗和と、クラス内の二乗和との比
率を最大にすることによって、フィッシャーの判定基準
により求められる。特に、その比率は、次の式によって
表される。
【数5】
【0023】ここに、
【数6】 であり、Si,k とSi,k'はそれぞれ、Xi,k とXi,k'の
共分散行列である。
【0024】その比率T(ai,k )を最大にするベクト
ルai,k は、行列W−1Bの最大固有値に対応する固有
ベクトルによって求められることが示された。2つのク
ラス間識別については、行列W−1Bは、ゼロ(0)以
外の固有値のみを有する。従って、対応する固有ベクト
ルは、T(ai,k )を最大にする解法であり、次の式に
よって表される。
【数7】
【0025】ここに、
【数8】
【0026】最後の2つの式から分かるように、ai,k
の測定値を求めるには、ワードiを話す真の話者kと偽
りの話者kの両方のトレーニング手本が必要とされる。
偽りのデータは、ある検証用途において、簡単にシミュ
レートされる。そこでは、登録された全ての話者が、そ
のパスワードを構築するために、共通のワード・セット
を用いる。この一例として、連結数字ストリングによる
検証がある。この場合、数字が共通のワード・セットで
あり、話者kの偽りのトレーニング・データは、登録さ
れているその他の話者によって話されたトレーニング数
字行列の全部または一部であると考えられる。個人別の
パスワードを使う場合、偽りのデータ・コレクション
は、識別を行うために必要となるだろう。
【0027】ストリング・レベルでの検証は、単にワー
ド・レベルの検証スコアを、ストリング中の全ワードで
平均することにより行われる。従って、ストリング・レ
ベルの検証スコアは、次の式によって表される。
【数9】
【0028】ここに、Pはストリング中のキーワードの
数で、f(p)はストリング中のp番目のワードのワー
ド指数である。合格/不合格の判定は、Vk (mdd)をしき
い値とで比較することによって行われる。
【0029】最後の式によって結論付けられるように、
所定の話者kのMDD検証モデルは、その話者の検証用
語中の全ワードに対応するベクトルai,k から構成され
る。各ベクトルは、Ni xMエレメントを有する。Ni
とMの代表的な数値は、Ni=10と、M=16であ
る。一例として、検証ワード・セットが、11のワード
(0〜9、Oh(オー))から構成されている場合の連
結数字検証シナリオを使用すると、1人の話者の完全な
検証モデルは1760個のパラメータによって表され
る。MDDの演算規定は、一連のドットの積と1つの和
から構成される。
【0030】組み合された検証システム内において、M
DDとCNHMM方法を組み合せるハイブリッド方式
は、個々の方式よりも著しく好成績を示した。というの
も、個々の方式によるエラーは、一般的に相関関係がな
いとされるからである。これら2つのアプローチを1つ
のシステムに組合せるために、2つの方法の出力値が1
個の検証パラメータに達するような何らかの方法で組み
合わされる必要がある。MDD方法の演算規定は、とて
も低いため、CNHMM方法は、全般的なシステムに重
荷とならないように追加することができることに注意し
なくてはならない。これは、一部に、CNHMMに必要
とされる全ての入力が、話者個別HMMを使って入力さ
れた発声音を処理している間にすでに区分化されている
ためである。
【0031】図4に示されるハイブリッド・システム
は、全般的な検証スコアに達するために、群正規化HM
Mスコアと、所定の試験ストリングのMDDスコアとを
組み合わせたものである。組み合わされた検証スコア
は、次の式によって算出する。
【数10】
【0032】ここに、bk (cnhmm)とbk (mdd)は、トレー
ニング段階の一部として、算出された特定の話者の重量
測定ファクタを示す。これらの重量は、MDDの重量ベ
クトル{ai,k }を求めるのに使われたものと類似した
識別分析手順を通して、算出される。しかし、ここで、
識別ベクトルは2つのエレメントから構成されている。
つまり、Vk (cnhmm)とVk (mdd)とである。再度、フィッ
シャーの識別判定基準を用いて、2つのクラスのストリ
ング、つまり、話者kの話者kによって話されたストリ
ングと偽りの話者によって話されたストリングとを識別
する。
【0033】装置317内で使われる話者依存型HMM
のトレーニングは、所定の話者のトレーニングされた発
声音を話者個別HMMによる個々のワード・セグメント
に区分化することによって始まる。この話者個別モデル
は、前述の通り、MDD方式で使われたものと同じもの
である。個々のワード・セグメントは、次ぎに、複数の
状態に区分化されるが、その初期状態セグメントは線形
である。各状態ごとの観測ベクトルは、K手段クラスタ
リング・アルゴリズムを使ってクラスタされる。これに
ついては、例えば音響、音声および信号処理に関するI
EEEトランザクションであるJ.G.ウィルポンと
L.P.ラビナーによる「孤立ワードに使われる修正済
みK手段クラスタリング・アルゴリズム」(1985年
6月号Vol.33の587〜594頁)に説明されて
いる。その結果できたモデルがビタビ検索を用いて各ト
レーニング・ワードの状態を再区分化するのに使われ
る。K手段クラスタリングの後のこの状態区分化処理
は、2、3回繰り返される。典型的には、平均的モデル
の尤度が、初期線形状態区分化後に収束するのに、普通
3回繰り返せば十分である。実験結果から、普通、モデ
ル分散推定値は悪く、所定の話者のトレーニング・デー
タが限られているために、所定の話者の全てのワード、
状態、およびミックスチャを平均して、平均分散にモデ
ル分散を固定することで最良の結果が得られるというこ
とが分かった。
【0034】検証プロセスは、固定変数の話者依存型H
MMと、限定文法付き話者個別HMMを用いて試験発声
音をいくつかのワードに区分化する。持続時間正規化尤
度スコアは、入力ストリング中の各ワードごとに算出さ
れる。無音以外のワードのワード尤度スコアは、試験発
声音のストリングの尤度スコアに達するように一緒に平
均される。
【0035】群正規化は、ログ尤度比タイプ試験を確立
する方法である。群正規化は、最大尤度方法と比較する
と、著しく検証性能の点で改善されたことが示された。
この作業の中で、群モデルは、話者個別HMMであると
みなされており、これは、つまり、全ての話者が同じ群
モデルを共有しているということを示している。
【0036】この群モデルを選択することが、特定の話
者の群話者を定義する必要性を低減させる。群ストリン
グ尤度スコアは、話者依存型ストリング尤度スコアを算
出するのと同じ方法で算出される。ストリング確率のロ
グを取ると、ストリング・ログ差が算出される。これ
は、次の式によって表される。
【数11】
【0037】ここに、O、Pとf(p)は、前述の定義
通りであり、ログ(O|λF(p),k)は、ワードf(p)
に対する話者kのHMMの持続時間正規化の尤度であ
り、ログ[L(O|λF(p),c)]は、話者個別群モデル
の持続時間正規化尤度である。もし、CHNMMが検証
に単独で使われる場合、その検証は、合格/不合格の判
定を行うために、Vk (cnhmm)をしきい値とで比較するこ
とによって行われる。
【0038】検証性能については、言語データ・コンソ
ーティアム(LDC)から得られるYOHO話者検証集
成を用いて試験された。この集成が選択され、それが公
知の「監督下の」話者検証データベースの最大のものの
1つである。LDC YOHOの集成は、1つのCD−
ROMの上にパッケージされ、そのCD−ROMには、
また、完全なデータベースの記述内容が含まれる。一部
重要な特徴について、ここで要約すると、「組合せロッ
ク」はトリプレット(例えば、26、81、57等)と
なる。138人を対照とし、その内弾性106人と女性
が32人であった。4回の登録セッションにおいて対象
者1人当り96個の登録トリプレットが集められた。対
象者1人につき40個の無作為試験トリプレットで、1
0回の検証セッション内に収集された。集成中のデータ
は、3ヶ月間で収集されたものであった。3.8kHz
の帯域幅を有する8kHzのサンプリング(抜き取り検
査)が行われた。データ・コレクションはオフィス環境
設定において、厳密に監視された中でのコレクションで
あり、高性能電話受信機(シュールX TH383)
は、全ての音声を収集するのに使われた。
【0039】特徴抽出処理(図示せず)は、ライン30
2での入力音声を別のステージとして予備処理するか、
または話者個別認識装置304の一部であるかのいずれ
かである。特徴抽出処理は、15ミリ秒ごとに1組の3
8個の特徴を計算する。特徴ベクトルは、12個のLP
Cのセプストラル、12個のデルタ・セプストラル、1
2個のデルタ間セプストラル、デルタ間ログ・エネルギ
ーとから構成されている。そのワード・モデル一式はY
OHO用語を網羅するのに18個のモデルから構成され
ていると見なされた。18個のモデルは、「ワン」,
「ツゥ」,...,「セブン」,「ナイン」,「トゥエ
ン」,「サー」,...,「ナイン」「ティ」と「無
音」に対応している。話者個別HMMは、8〜10個の
状態でトレーニングされた。但し、通常3個の状態だけ
を使ってトレーニングされた「ティ」や「無音」以外の
8〜10個の状態でトレーニングされた。各状態ごとの
分布は、ガウス・ミックスチャの重量の和によって表さ
れる。但し、ミックスチャの数は、16に設定された。
話者依存型HMMトレーニングは(第3項を参照)、例
えば、通常4〜10個のこれより少ない数のミックスチ
ャを使った。話者1人当りのMDDモデル・セットは1
7個(無音を除く)の識別装置の重量ベクトルから構成
された。1つの話者個別HMM状態につき16個のミッ
クスチャ・コンポーネントを用いてMDDモデル・ベク
トルの寸法の範囲は3個の状態「ティ」モデルの48〜
10個の状態モデルの160までとなっている。
【0040】話者個別HMMは、男女の話者138名全
員の登録組からのトリプレットを用いて、トレーニング
された。特に、各話者の最初の24個の登録トリプレッ
トがこのトレーニングに使用され、その結果、総数33
12個のトレーニング発声音が得られた。話者個別HM
Mがトレーニングされた後、106人の話者の1組は、
無作為に2つの組に分割される。つまり、加入者と考え
られる81名の話者の組と、非加入者と考えられる25
名の話者の組とである。
【0041】MDDは、識別トレーング手順に関するも
のであることから、非加入者組の主要目的は、公平な試
験を行うことについてのシナリオを規定することであっ
た。それについては、トレーニング段階で用いられた偽
りの話者は、検証に使われたものとは別のものである。
非加入者全員の音声は、実際上、トレーニング段階で使
われた開発セットであると考えられた。非加入者の音声
は、検証試験段階にはまったく使われなかった。上述の
通り、各話者はトリプレットの2セットを有している。
つまり、登録セットと検証セットである。このデータが
MDD、CNHMMとそれらのハイブリッド・システム
のトレーニングにいかに使われるかについてこれから説
明する。
【0042】MDDトレーニング:各加入者について、
真の話者トレーニング発声音として、96個の登録トリ
プレットを全て使用した。偽りのトレーニング発声音
は、25人の非加入者の登録発声音全てであるとみなさ
れた。従って、81名の加入者は、同じ偽りのトレーニ
ング・セットを共有した。そこでは、偽りの発声音数は
2400個であった。
【0043】CNHMMトレーニング:各加入者ごと
に、話者依存型HMMモデルをトレーニングするのに、
96個の登録トリプレット全部を使用した。MDD方法
とは違って、25名の非加入者からの音声は、本方法の
トレーニング段階において必要とされなかった。
【0044】ハイブリッド・システム・トレーニング:
このトレーニングは、各発声音(つまり、トリプレット
ごとの)CNHMMとMDDスコアに関して、真の話者
と偽りの発声音クラスについての、フィッシャーの識別
判定基準を適用することからなっている。真の話者試験
発声音は、トレーニング段階で入手できないため、加入
者登録発声音が、真の話者の音声として、ここで再使用
された。これは、つまり、ハイブリッド・システム・ト
レーニングで使われたMDDとCNHMM検証スコア
は、MDDとCNHMMモデル上の「自己テスト」のス
コア(点数)を示すため、現実的ではない。これら「自
己テスト」の真の話者スコアは、最適な状態で、偏向し
ており、話者間の変動性をとらえるものではない。フィ
ッシャーの判定基準が識別特徴ベクトルの手段と変数の
みを必要とするので、この問題は、より現実的な話者間
の変動性を反映するための手段と変数を人為的に調整す
ることによって幾分は軽減することができる。
【0045】加入者登録と検証音声によるVk (cnhmm)
k (mdd)の手段と変数の調整値を推定するため、小さな
サイド実験が行われた。このサイド実験は非加入者のM
DDとCNHMMモデルを形成し、その登録セットと検
証セットの検証スコアの偏向を算定することから構成さ
れた。ハイブリッド・システムの偽りのトレーニング・
セットは25人の非加入者のそれぞれからの4個の検証
トリプレットであると考えられた。MDDか、またはC
NHMMトレーニング段階のいずれかによって非加入者
の検証トリプレットが使われないし、偏向もしないた
め、偽りのスコアの手段と変数の調整は必要でなかっ
た。
【0046】使用された検証試験手順は、3つの全ての
方法に共通するものだった。各加入者ごとに、その40
個の検証トリプレットが真の話者の音声であるとみなさ
れた。偽りの音声はその他の80名の加入者全員の検証
セットからのトリプレットであるとみなした。これは、
加入者1人当りの偽りの発声音数が多すぎることを示し
ているので、80人の偽りの話者の内のそれぞれから最
初の10個のトリプレットだけになるよう取り除かれ
た。よって、各加入者ごとの偽りの発声音数は、800
だった。上記データ編成記述内容が示す通り、全ての実
験を通して、検証テスト段階中は、非常に公平を期すこ
とに全力を尽くした。例えば、トレーニングのための偽
りのセットは、106名の話者の完全な1セットの内の
無作為のサブセットであった。そして、試験の偽りのセ
ットには、トレーニング偽りセットと共通する話者はい
なかった。また、加入者検証発声音からの情報は、いか
なるトレーニング段階にも使われることはなかった。
【0047】MDD、CNHMMおよびハイブリッド・
システムの3つの方法の検証性能は、受信者特性(RO
C)の測定値を用いて比較することができる。ROC測
定は、偽りの合格率(タイプIIのエラー)と偽りの不合
格率(タイプIのエラー)を算定する。ROC測定デー
タは、また、1人の話者につき1つの方法で、均等な誤
り率(EER)を算出するのに用いられる。
【0048】図5は、3つの方法の各々について、EE
Rの平均値と中央値を示す。本表は、EER平均値が、
CNHMM方法の0.4730%からハイブリッド方法
の0.225%へと低下しており、46%の改善率を示
している。EER中央値は、0.227%から0%へと
低下した。81名の加入者の内45名についてハイブリ
ッド・システムの方が、CNHMMとMDDの両方より
低いEER値となった。わずか8名の加入者だけが、2
つの個々の方法の内の1つでハイブリッド・システムよ
りもわずかに低いEER値となった。残り28名の加入
者は、ハイブリッド・システムのEER値がMDDとC
NHMMに対応する2つのEER値の内の小さいほうと
等しくなった。
【0049】試験結果から、ハイブリッド・システム4
00は、個々の方法のいずれか1つよりも、著しく高い
成績をおさめたということが示された。これは、一般的
に、1つの方法によるほとんどの検証エラーはその他の
方法とは共通しておらず、ハイブリッド・システム40
0中の2つの方法を使って、総合的な性能が改善される
ことを示すものである。
【0050】さらに定量的な試験においては、2つの方
法による検証エラーの相関関係は、χ2(カイの二乗)
試験によって評価され、その結果、MDD方法のエラー
は、CNHMM方法のエラーに対して余り相関関係がな
いことが示された。
【0051】よって、ミックスチャ分解識別と呼ばれる
新しい話者検証方法が開示されたことは評価されるだろ
う。MDDを使用するための装置も開示された。本発明
ついては、特に、その好ましい実施例に関して図示し、
説明されたが、形状、詳細および用途についてのさまざ
まな変更を行うことができるということは、技術に熟練
した者に理解されるであろう。例えば、ワード認識の代
わりに、サブワード認識を用いる方法や装置の適用等が
あげられる。よって、添付の請求の範囲は、上記発明の
適用範囲内におけるそういった形状、詳細、および用途
の変更全てにわたるものである。
【図面の簡単な説明】
【図1】公知の話者検証装置のブロック図である。
【図2】他の公知の話者検証装置のブロック図である。
【図3】本発明によるミックスチャ分解識別を用いた話
者検証装置の公知の話者検証装置のブロック図である。
【図4】ミックスチャ分解識別と群正規化HMMとの組
合せによる話者検証装置のブロック図である。
【図5】群正規化HMM、ミックスチャ分解識別装置
と、その両方を組合せたものの誤り率を示した表であ
る。
フロントページの続き (72)発明者 アナンド ランガスワミー セットラー アメリカ合衆国 60555 イリノイズ,ウ ォーレンヴィル,ドッグウッド コート 2エス481 (72)発明者 ラフィッド アントーン サッカー アメリカ合衆国 60504 イリノイズ,オ ーロラ,フォレストヴュー レーン 68

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】 入力ワード・ストリングの話者検証装置
    であって、 複数の話者検証データ・ファイルの1つへのアクセス・
    キーを得るために、前記入力ワード・ストリングを区分
    化して認識する第一のHMMによる話者個別音声認識装
    置と、 線形識別器と、 ミックスチャ・コンポーネント・スコア情報が単一定量
    に組み込まれる前に、前記ミックスチャ・コンポーネン
    ト・スコア情報を前記話者個別音声認識装置の内部処理
    から前記線形識別装置へ提供するための手段と、 各話者検証データ・ファイルに真話者仮説または、偽話
    者仮説とを区別する特定の話者のモデルまたは、特定の
    話者のモデルを含有する複数の話者検証データ・ファイ
    ルを記憶する手段と、 前記複数の話者検証データ・ファイルから前記アクセス
    ・キーに該当する話者検証データ・ファイルにアクセス
    し、このアクセスされたデータ・ファイルを前記線形識
    別器に伝送する手段と、 音声入力が特定の話者からのものなのか、または仮説ま
    たはモデル試験の結果によるスコアによるものではない
    のかを判断するための手段とを含む装置。
  2. 【請求項2】 前記入力ワード・ストリングが複数のワ
    ードと数字である請求項1に記載の装置。
  3. 【請求項3】 前記入力ワード・ストリングが複数の数
    字である請求項1に記載の装置。
  4. 【請求項4】 前記話者個別音声認識装置が連結数字を
    認識する請求項3に記載の装置。
  5. 【請求項5】 前記複数の話者検証データ・ファイルの
    各々が、そのファイルに該当するそれぞれの真の話者の
    音声と、それに対応する偽りの音声とからミックスチャ
    ・コンポーネント・スコア情報を使って、トレーニング
    され、前記トレーニングにより、話者検証のために前記
    線形識別装置によって使われる話者依存型加重値が生成
    される請求項1に記載の装置。
  6. 【請求項6】 音声入力が特定の話者のものであるの
    か、仮説によってだされたスコア、または線形識別装置
    を使って試験するモデルによるものではないかを判定す
    る前記手段は、所定しきい値を含む請求項1に記載の装
    置。
  7. 【請求項7】 最初の隠れマルコフモデルを使用する前
    記話者個別音声認識装置に接続された複数の群正規化H
    MMを使うための話者依存型検証手段と、 前記入力ワード・ストリングの前記セグメントと、前記
    話者個別音声認識装置からの前記アクセス・キーを受信
    する前記話者依存型検証手段と、 前記複数の群正規化HMMから特定の群正規化HMMへ
    アクセスするための前記アクセス・キーを使い、前記入
    力ワード・ストリングの群正規化HMMスコアを得るた
    めに前記特定の群正規化HMMを使用する前記話者依存
    型検証手段と、 特定の話者を検証または検証しないために、前記群正規
    化HMMスコアを前記識別装置スコアと組み合わせるた
    めの手段とをさらに含む請求項1に記載の装置。
  8. 【請求項8】 前記識別装置のエラーの多くが話者依存
    型検証手段のエラーと相関関係がないことから、話者検
    証性能が改善された請求項1に記載の装置。
  9. 【請求項9】 話者を検証する方法であって、 最初の隠れマルコフモデルを使って話者個別音声認識装
    置による音声入力を区分化するステップと、 特定の話者の話者検証データ・ファイルへのアクセス・
    キーを得るために区分化された音声入力を認識するステ
    ップと、 線形識別装置にミックスチャ・コンポーネント・スコア
    情報を提供するステップと、 特定の話者の話者仮説をその特定の話者の偽りの話者仮
    説とから識別するための試験を行うステップと、 音声入力が特定の話者からのものであるのか、仮説試験
    からの識別スコアや所定のしきい値によるものではない
    かを判断するステップとを含む方法。
  10. 【請求項10】 前記試験ステップの前に特定の話者の
    真の話者仮説と偽りの話者仮説との線形識別加重値を判
    定するステップとをさらに含む請求項9に記載の方法。
  11. 【請求項11】 電気信号に変換された入力音声から話
    者検証を行うための方法であって、 入力音声から入力ワードを区分化するステップと、 話者個別HMM認識装置によって前記ワード・ストリン
    グを認識するステップと、 話者依存型認識装置に1グループの認識されたワードと
    して前記ワード・ストリングを提供するステップと、 認識された前記ワード・ストリングの各ワードを表す英
    数字を出力するステップと、 前記話者個別HMMからストリング中の各ワードごとに
    状態ミックスチャ・コンポーネント・スコア情報をミッ
    クスチャ分解識別装置に提供するステップと、話者検証
    のための前記ミックスチャ・コンポーネント・スコア情
    報を使うステップとを含む方法。
  12. 【請求項12】 英数字を出力するステップの後に、ミ
    ックスチャ分解識別装置の話者依存型データにアクセス
    するため前記英数字を用いるステップをさらに含む請求
    項11に記載の方法。
  13. 【請求項13】 電気信号に変換された入力音声から話
    者検証を行うための方法であって、 入力音声から入力ワードを区分化するステップと、 話者個別HMM認識装置によって前記ワード・ストリン
    グを認識するステップと、 認識された前記ワード・ストリングの各ワードを表す英
    数字を出力するステップと、 前記話者個別HMMからストリング中の各ワードごとに
    状態ミックスチャ・コンポーネント・スコア情報をミッ
    クスチャ分解識別装置に提供するステップと、 話者検証のための前記ミックスチャ・コンポーネント・
    スコア情報を使うステップとを含む方法。
  14. 【請求項14】 認識された話者個別HMMからの前記
    区分化入力ワード・ストリングを、群正規化HMMを使
    って話者検証装置に提供するステップと、 前記話者検証装置に話者依存型群正規化HMM認識装置
    を使って代表する前記英数字を提供するステップと、 前記英数字に関する前記群正規化HMMの前記話者依存
    型データにアクセスするため前記英数字を用いるステッ
    プと、 前記群正規化HMMによって話者検証スコアを判定する
    ステップと、 話者検証には、前記ミックスチャ・コンポーネント・ス
    コア情報と合わせて前記群正規化HMMの前記話者検証
    スコアを使うステップとをさらに含む請求項13に記載
    の方法。
JP12385496A 1995-05-22 1996-05-20 ミックスチャ分解識別による話者検証方法と装置 Expired - Fee Related JP3532346B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/447,307 US5687287A (en) 1995-05-22 1995-05-22 Speaker verification method and apparatus using mixture decomposition discrimination
US08/447307 1995-05-22

Publications (2)

Publication Number Publication Date
JPH08314491A true JPH08314491A (ja) 1996-11-29
JP3532346B2 JP3532346B2 (ja) 2004-05-31

Family

ID=23775840

Family Applications (1)

Application Number Title Priority Date Filing Date
JP12385496A Expired - Fee Related JP3532346B2 (ja) 1995-05-22 1996-05-20 ミックスチャ分解識別による話者検証方法と装置

Country Status (5)

Country Link
US (1) US5687287A (ja)
EP (1) EP0744734B1 (ja)
JP (1) JP3532346B2 (ja)
CA (1) CA2173302C (ja)
DE (1) DE69615748T2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005062874A (ja) * 2003-08-11 2005-03-10 Microsoft Corp 音声認識で機能強化された発信者識別

Families Citing this family (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3703164B2 (ja) * 1995-05-10 2005-10-05 キヤノン株式会社 パターン認識方法及びその装置
GB9526334D0 (en) * 1995-12-22 1996-02-21 At & T Global Inf Solution Speaker verification system
US5895448A (en) * 1996-02-29 1999-04-20 Nynex Science And Technology, Inc. Methods and apparatus for generating and using speaker independent garbage models for speaker dependent speech recognition purpose
US6076054A (en) * 1996-02-29 2000-06-13 Nynex Science & Technology, Inc. Methods and apparatus for generating and using out of vocabulary word models for speaker dependent speech recognition
US5842165A (en) * 1996-02-29 1998-11-24 Nynex Science & Technology, Inc. Methods and apparatus for generating and using garbage models for speaker dependent speech recognition purposes
US5937381A (en) * 1996-04-10 1999-08-10 Itt Defense, Inc. System for voice verification of telephone transactions
US6137863A (en) * 1996-12-13 2000-10-24 At&T Corp. Statistical database correction of alphanumeric account numbers for speech recognition and touch-tone recognition
US6061654A (en) * 1996-12-16 2000-05-09 At&T Corp. System and method of recognizing letters and numbers by either speech or touch tone recognition utilizing constrained confusion matrices
US6003002A (en) * 1997-01-02 1999-12-14 Texas Instruments Incorporated Method and system of adapting speech recognition models to speaker environment
US5950157A (en) * 1997-02-28 1999-09-07 Sri International Method for establishing handset-dependent normalizing models for speaker recognition
SE511418C2 (sv) * 1997-03-13 1999-09-27 Telia Ab Metod för talarverifiering/identifiering via modellering av typiska icke-typiska egenskaper.
US7630895B2 (en) * 2000-01-21 2009-12-08 At&T Intellectual Property I, L.P. Speaker verification method
US6076055A (en) * 1997-05-27 2000-06-13 Ameritech Speaker verification method
US6219453B1 (en) 1997-08-11 2001-04-17 At&T Corp. Method and apparatus for performing an automatic correction of misrecognized words produced by an optical character recognition technique by using a Hidden Markov Model based algorithm
US6154579A (en) * 1997-08-11 2000-11-28 At&T Corp. Confusion matrix based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique
US6141661A (en) * 1997-10-17 2000-10-31 At&T Corp Method and apparatus for performing a grammar-pruning operation
AU1305799A (en) * 1997-11-03 1999-05-24 T-Netix, Inc. Model adaptation system and method for speaker verification
US6205428B1 (en) 1997-11-20 2001-03-20 At&T Corp. Confusion set-base method and apparatus for pruning a predetermined arrangement of indexed identifiers
US6122612A (en) * 1997-11-20 2000-09-19 At&T Corp Check-sum based method and apparatus for performing speech recognition
US6208965B1 (en) 1997-11-20 2001-03-27 At&T Corp. Method and apparatus for performing a name acquisition based on speech recognition
US6233555B1 (en) * 1997-11-25 2001-05-15 At&T Corporation Method and apparatus for speaker identification using mixture discriminant analysis to develop speaker models
US6205261B1 (en) 1998-02-05 2001-03-20 At&T Corp. Confusion set based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique
EP1058926A1 (en) 1998-03-03 2000-12-13 Lernout & Hauspie Speech Products N.V. Multi-resolution system and method for speaker verification
US6243695B1 (en) * 1998-03-18 2001-06-05 Motorola, Inc. Access control system and method therefor
JP3090119B2 (ja) * 1998-05-15 2000-09-18 日本電気株式会社 話者照合装置、方法及び記憶媒体
DE19824355A1 (de) * 1998-05-30 1999-12-02 Philips Patentverwaltung Vorrichtung zur Verifizierung von Signalen
DE19824354A1 (de) * 1998-05-30 1999-12-02 Philips Patentverwaltung Vorrichtung zur Verifizierung von Signalen
US6400805B1 (en) 1998-06-15 2002-06-04 At&T Corp. Statistical database correction of alphanumeric identifiers for speech recognition and touch-tone recognition
US7937260B1 (en) * 1998-06-15 2011-05-03 At&T Intellectual Property Ii, L.P. Concise dynamic grammars using N-best selection
AU752317B2 (en) * 1998-06-17 2002-09-12 Motorola Australia Pty Ltd Cohort model selection apparatus and method
US6141644A (en) * 1998-09-04 2000-10-31 Matsushita Electric Industrial Co., Ltd. Speaker verification and speaker identification based on eigenvoices
US6754631B1 (en) 1998-11-04 2004-06-22 Gateway, Inc. Recording meeting minutes based upon speech recognition
US6253179B1 (en) * 1999-01-29 2001-06-26 International Business Machines Corporation Method and apparatus for multi-environment speaker verification
KR20010055168A (ko) * 1999-12-09 2001-07-04 윤덕용 인터넷 환경에서의 화자확인
US6961703B1 (en) * 2000-09-13 2005-11-01 Itt Manufacturing Enterprises, Inc. Method for speech processing involving whole-utterance modeling
EP1199704A3 (de) * 2000-10-17 2003-10-15 Philips Intellectual Property & Standards GmbH Auswahl der alternativen Wortfolgen für diskriminative Anpassung
GB2370401A (en) * 2000-12-19 2002-06-26 Nokia Mobile Phones Ltd Speech recognition
US20020104027A1 (en) * 2001-01-31 2002-08-01 Valene Skerpac N-dimensional biometric security system
US6934675B2 (en) * 2001-06-14 2005-08-23 Stephen C. Glinski Methods and systems for enabling speech-based internet searches
US6996527B2 (en) * 2001-07-26 2006-02-07 Matsushita Electric Industrial Co., Ltd. Linear discriminant based sound class similarities with unit value normalization
US20030037004A1 (en) * 2001-08-14 2003-02-20 Chuck Buffum Dialog-based voiceprint security for business transactions
GB2383459B (en) * 2001-12-20 2005-05-18 Hewlett Packard Co Speech recognition system and method
US20030149881A1 (en) * 2002-01-31 2003-08-07 Digital Security Inc. Apparatus and method for securing information transmitted on computer networks
US7266497B2 (en) * 2002-03-29 2007-09-04 At&T Corp. Automatic segmentation in speech synthesis
US7236931B2 (en) * 2002-05-01 2007-06-26 Usb Ag, Stamford Branch Systems and methods for automatic acoustic speaker adaptation in computer-assisted transcription systems
US20040148163A1 (en) * 2003-01-23 2004-07-29 Aurilab, Llc System and method for utilizing an anchor to reduce memory requirements for speech recognition
US7877255B2 (en) * 2006-03-31 2011-01-25 Voice Signal Technologies, Inc. Speech recognition using channel verification
US7769583B2 (en) * 2006-05-13 2010-08-03 International Business Machines Corporation Quantizing feature vectors in decision-making applications
US7992196B2 (en) * 2006-11-06 2011-08-02 Voice Identity, Inc. Apparatus and method for performing hosted and secure identity authentication using biometric voice verification over a digital network medium
JP5177561B2 (ja) * 2007-02-06 2013-04-03 日本電気株式会社 認識器重み学習装置および音声認識装置、ならびに、システム
GB2465782B (en) 2008-11-28 2016-04-13 Univ Nottingham Trent Biometric identity verification
US10257191B2 (en) 2008-11-28 2019-04-09 Nottingham Trent University Biometric identity verification
US9418662B2 (en) * 2009-01-21 2016-08-16 Nokia Technologies Oy Method, apparatus and computer program product for providing compound models for speech recognition adaptation
US8433567B2 (en) * 2010-04-08 2013-04-30 International Business Machines Corporation Compensation of intra-speaker variability in speaker diarization
US9118669B2 (en) 2010-09-30 2015-08-25 Alcatel Lucent Method and apparatus for voice signature authentication
US9318114B2 (en) * 2010-11-24 2016-04-19 At&T Intellectual Property I, L.P. System and method for generating challenge utterances for speaker verification
GB2489489B (en) * 2011-03-30 2013-08-21 Toshiba Res Europ Ltd A speech processing system and method
JP6596924B2 (ja) * 2014-05-29 2019-10-30 日本電気株式会社 音声データ処理装置、音声データ処理方法、及び、音声データ処理プログラム
CN104616655B (zh) * 2015-02-05 2018-01-16 北京得意音通技术有限责任公司 声纹模型自动重建的方法和装置
US10957318B2 (en) * 2018-11-02 2021-03-23 Visa International Service Association Dynamic voice authentication

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4852180A (en) * 1987-04-03 1989-07-25 American Telephone And Telegraph Company, At&T Bell Laboratories Speech recognition by acoustic/phonetic system and technique
JPH0293597A (ja) * 1988-09-30 1990-04-04 Nippon I B M Kk 音声認識装置
US5268990A (en) * 1991-01-31 1993-12-07 Sri International Method for recognizing speech using linguistically-motivated hidden Markov models
IT1270919B (it) * 1993-05-05 1997-05-16 Cselt Centro Studi Lab Telecom Sistema per il riconoscimento di parole isolate indipendente dal parlatore mediante reti neurali

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005062874A (ja) * 2003-08-11 2005-03-10 Microsoft Corp 音声認識で機能強化された発信者識別

Also Published As

Publication number Publication date
EP0744734A2 (en) 1996-11-27
EP0744734B1 (en) 2001-10-10
CA2173302C (en) 2001-01-02
CA2173302A1 (en) 1996-11-23
JP3532346B2 (ja) 2004-05-31
DE69615748T2 (de) 2002-08-01
DE69615748D1 (de) 2001-11-15
EP0744734A3 (en) 1998-02-18
US5687287A (en) 1997-11-11

Similar Documents

Publication Publication Date Title
JP3532346B2 (ja) ミックスチャ分解識別による話者検証方法と装置
US8209174B2 (en) Speaker verification system
US6539352B1 (en) Subword-based speaker verification with multiple-classifier score fusion weight and threshold adaptation
JPH11507443A (ja) 話者確認システム
US7502736B2 (en) Voice registration method and system, and voice recognition method and system based on voice registration method and system
CN1963917A (zh) 评价语音的分辨力、说话人认证的注册和验证方法及装置
Zhong et al. DNN i-Vector Speaker Verification with Short, Text-Constrained Test Utterances.
Chakroun et al. Robust text-independent speaker recognition with short utterances using Gaussian mixture models
Hidayat et al. Wavelet detail coefficient as a novel wavelet-mfcc features in text-dependent speaker recognition system
Ozaydin Design of a text independent speaker recognition system
WO2002029785A1 (en) Method, apparatus, and system for speaker verification based on orthogonal gaussian mixture model (gmm)
Lee A tutorial on speaker and speech verification
Abdiche et al. Text-independent speaker identification using mel-frequency energy coefficients and convolutional neural networks
Olsson Text dependent speaker verification with a hybrid HMM/ANN system
Ren et al. A hybrid GMM speaker verification system for mobile devices in variable environments
Kiawjak et al. Improvement of Text-Independent Speaker Verification Using Gender-like Feature
Thakur et al. Speaker Authentication Using GMM-UBM
Rakhmanenko et al. Text-independent speaker verification using convolutional deep belief network and gaussian mixture model
Hussain et al. Speaker Recognition with Emotional Speech
Dustor Voice verification based on nonlinear Ho-Kashyap classifier
Zigel et al. Text-dependent speaker verification using feature selection with recognition related criterion
Dustor Matlab based closed set speaker recognition
JPH09218697A (ja) 話者検証システム
Fakotakis et al. High performance text-independent speaker recognition system based on voiced/unvoiced segmentation and multiple neural nets.
Messina et al. Learning vector quantization in text-independent automatic speaker recognition

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040209

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040303

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees