JP3532346B2 - ミックスチャ分解識別による話者検証方法と装置 - Google Patents

ミックスチャ分解識別による話者検証方法と装置

Info

Publication number
JP3532346B2
JP3532346B2 JP12385496A JP12385496A JP3532346B2 JP 3532346 B2 JP3532346 B2 JP 3532346B2 JP 12385496 A JP12385496 A JP 12385496A JP 12385496 A JP12385496 A JP 12385496A JP 3532346 B2 JP3532346 B2 JP 3532346B2
Authority
JP
Japan
Prior art keywords
speaker
verification
word
hmm
independent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP12385496A
Other languages
English (en)
Other versions
JPH08314491A (ja
Inventor
バクティ ガンドヒ マラン
ランガスワミー セットラー アナンド
アントーン サッカー ラフィッド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp filed Critical AT&T Corp
Publication of JPH08314491A publication Critical patent/JPH08314491A/ja
Application granted granted Critical
Publication of JP3532346B2 publication Critical patent/JP3532346B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/16Hidden Markov models [HMM]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識と話者検
証を行う方法及び装置に関し、特に、話者非依存隠れマ
ルコフモデル(HMM)と、話者依存型認識装置または
検証装置に関する。
【0002】
【従来の技術】自動話者検証は、最近行なわれた多くの
研究努力の主要課題となっているものである。HMMに
よる音声モデリングは、例えば、A.E.ローゼンバー
グ、C.H.リーおよびS.L.ゴッチェンによる音
響、音声および信号処理に関する1991年度IEEE
国際会議の議題となった「全単語隠れマルコフモデルに
よる連結ワードの話手検証(Connected Word Talker Ver
ifiactino Using Whole Word Hidden Markov Models)」
(1991年5月号の381〜384頁)といった、話
者検証に効果があることが示された。連結ワード・スト
リングからなる発声音を用いて検証が行われる場合、話
者非依存型と話者依存型HMMの両方が、しばしば、検
証プロセスに取り入れられている。そういったシステム
100を図1に示す。話者非依存型HMM110を使っ
て、入力済み音声の発声音からなるワード・ストリング
を認識し区分化する。このワード区分化に基づき、話者
依存型HMM120は、次に、そのワード・ストリング
が確かに所定のIDを主張する者によって話されたもの
であるかどうかを検証する。
【0003】HMMベースの話者検証の性能について
は、HMMの群正規化または、識別トレーニングのいず
れかが取り入れられている場合に、改善がみられた。こ
れについては、発声言語処理に関する1992年度の国
際会議の議題である、A.E.ローゼンバーグ、C.
H.リー、B.H.ホアンおよびF.K.スングによる
「話者検証のための群正規化スコアの使用」(599〜
602頁)および、音響、音声および信号処理に関する
1994年度IEEE国際会議の議題であるC.S.リ
ュー、C.H.リー、B.H.ホアンおよび、A.E.
ローゼンバーグによる「最小エラー識別トレーニングに
基づいた話者認識」(1994年4月号Vol.1、3
25〜328頁)に、それぞれ、述べられている。
【0004】図2は、群正規化HMM(CNHMM)シ
ステム200で、これは、話者非依存認識装置212付
き装置210に記憶された話者非依存HMMと、群正規
化装置214付きHMMによる話者検証装置付き装置2
20に記憶された話者依存型HMMを使用する。システ
ム200はHMM群正規化のその他の改良された図1に
示されたシステムとほとんど同じ操作を行う。
【0005】これは、話者検証の際のエラー数を全体的
に減らすものである。多層パーセプトロン(MLP)や
線形識別装置といったその他の方法も、音響、音声およ
び信号処理に関する1994年度IEEE国際会議の議
題であるJ.M.ネイクとD.M.ルーベンスキィによ
る、「電話音声用ハイブリッドHMM−MLP話者検証
アルゴリズム」(1994年4月号Vol.1の153
〜156頁)、音響、音声および信号処理に関する19
94年度IEEE国際会議の議題であるK.R.ファレ
ルとR.J.マモンによる「神経系統ネットワークによ
る話者識別」(1994年4月号Vol.1の165〜
168頁)、音響、音声および信号処理に関する199
4年度IEEE国際会議の議題であるJ.ソレンセンと
M.サビックによる「高性能テキスト単独話者検証シス
テムの階層パターン分類」(1994年4月号Vol.
1の157〜160頁)および、音響、音声および信号
処理に関する1994年度IEEE国際会議の議題であ
るL.P.ネッチェとG.R.ドッギングトンによる
「暫定的後処理」(1992年3月号Vol.1の18
1〜184頁)の中に述べられている話者検証にうまく
活用されている。
【0006】
【発明が解決しようとする課題】話者検証分野における
上記の活動(作用)全てが備わっていても、話者検証装
置が、真の話者のようなふりをしている偽りの話者を間
違えて検証し、真の話者を検証するのを拒否することも
まだよく起こる。よって、話者検証についての改良方法
および、改良装置を求める技術分野でのニーズがある。
さらに、話者検証は、一種の話者依存型音声認識である
ため、技術での話者依存型音声認識の改良された装置お
よび方法に対するニーズがある。
【0007】
【課題を解決するための手段】本発明による話者検証技
術の進歩は、一連の連結数字といった検証装置の用語セ
ットに対応するトレーニングされた話者非依存HMMに
よる方法および装置を使うことによって達成される。そ
こでは、話者非依存HMMは連続するミックスチャLeft
-to-Right型HMMである。本発明の方法及び装置は、
同じワードを話す異なる話者が、個別的に、異なるHM
M状態ミックスチャ・コンポーネントを起動させるとい
う状況を用いる。従って、そのワードに対する所定の話
者の「ミックスチャ・プロファイル」は、所定のワード
・モデル内にある全ての状態のミックスチャ情報から構
築される。よって、これらの情報から、次ぎにミックス
チャ・プロファイルは、真の話者と偽りの話者とを識別
するベースとして使われる。よって、その名を「ミック
スチャ分解識別」(MDD)と呼ぶ。MDDは、コンピ
ュータまたは同等のシステムのプロセスとして実行され
るとき、これまで未知だった種類の話者検証装置を提供
する。それは、話者検証を行うための状態ミックスチャ
・コンポーネントを用いる。
【0008】本発明の他の態様において、公知システム
の問題点は、話者検証方法を用いることにより、解決さ
れる。この方法は、第一の隠れマルコフモデルによる話
者非依存音声認識装置を使って音声入力を区分化するス
テップと、特定の話者の話者検証データ・ファイルへの
アクセス・キーを得るために、区分化された音声入力を
認識するステップと、ミックスチャ・コンポーネント・
スコア情報を、線形識別装置に提供するステップと、特
定の話者に対応する真の話者仮説を、特定の話者に対応
する偽りの話者仮説から試験するステップと、音声入力
が特定の話者からのものであるのか、または仮説試験と
所定のしきい値とからのスコアによるものではないのか
を判定するステップとを含む。
【0009】さらに本発明の他の態様において、公知シ
ステムの問題点は、入力ワード・ストリングの話者検証
システムを使うことによって解決される。このシステム
は、第一のHMMによる話者非依存音声認識装置を含
む。この話者非依存音声認識装置は、多数の話者検証デ
ータ・ファイルのうちの1つへのアクセス・キーを得る
ために、入力されたワード・ストリングを区分化および
認識する。線形識別装置は、話者非依存音声認識装置に
接続される。入力されたワード・ストリングに応じて話
者非依存音声認識装置の内部処理の結果生成されたミッ
クスチャ・コンポーネント・スコア情報は、このミック
スチャ・コンポーネント・スコア情報が、1つのパラメ
ータに組み込まれる前に線形識別装置に提供される。各
話者検証データ・ファイルが特定の話者の偽りの話者仮
説に対してその特定の話者の真の話者仮説を含んでい
る、多数の話者検証データ・ファイルを記憶するための
記憶装置は線形識別装置に接続される。多数の話者検証
データ・ファイルからのアクセス・キーに該当する話者
検証データ・ファイルにアクセスし、このアクセスされ
たデータ・ファイルを伝送するための装置または、線形
識別装置に接続される。線形識別装置の後に、線形識別
装置の出力に接続される判定装置は、音声入力が、その
特定の話者のものであるのか、2つの仮説の試験の結果
出されたスコアによるものではないのかを判定する。
【0010】
【発明の実施の形態】図3において、新型の話者検証
(SV)装置300を示す。SV装置300は、話者非
依存(SI)自動音声認識装置(ASR)304を有
し、これが、記憶装置306からの話者非依存HMMを
使って、音声認識を行う。話者非依存ASR304は、
一部の変換器(例:マイクロフォン)を介してライン3
02上で対応する電気信号または電磁信号へと変換され
た音声を受信する。
【0011】入力音声は、ある特定のIDを持っている
と主張する話者によって話された検証のためのパスワー
ドからなる一連のワード・ストリングから構成されてい
る。話者非依存HMMセットは、検証装置の用語セッ
ト、例えば、1組みの数字列に対応するモデルから構成
される。話者非依存HMMセットは記憶装置306に記
憶される。話者非依存HMMは、話者非依存ASR30
4と一緒に次の3つの機能を行う。つまり、1)入力音
声内での1つのワード・ストリングを認識する。2)各
入力ワード・ストリングを区分化する。そして、3)そ
のストリング中の所定ワードに関する状態ミックスチャ
・コンポーネント・スコア情報を提供する。話者非依存
ASR304は、高性能プロセッサ(図示せず)と、メ
モリ(図示せず)を用いて、話者非依存ASRをリアル
タイムで実行する。そういったプロセッサとメモリ装置
は、高性能パソコンやワークステーション、音声処理制
御盤およびミニコンピュータに使われている。
【0012】話者非依存ワード認識機能と区分化機能
は、話者非依存ASRの標準である。すでに公知の機能
に基づいて、ストリング中の所定ワードに関する状態ミ
ックスチャ・コンポーネント・スコア情報を提供する機
能を行えるという3番目の機能が新しい機能である。状
態ミックスチャ・コンポーネント・スコア情報は、通
常、話者非依存HMM ASRによって生成されるが、
しかし、生成された情報は、次に、1個のパラメータに
組み込まれ、その値はHMM ASRの中で使われる。
本発明は、まだ、それが、分解される間に組み合わせら
れる前にこの状態ミックスチャ・コンポーネント・スコ
ア情報を抽出して、それを、ライン307を介して、ワ
ード・ベースのミックスチャ分解識別装置(MDD)3
101−310 へ入力する。
【0013】話者非依存ASR304によって使われる
装置306中に記憶された話者非依存HMMは、用語セ
ット(どんな種類のワードでも構わない)についてトレ
ーニングされているが、連結数字のためのHMMは、ク
レジット・カードとデビット・カードのパーソナルID
番号ASRシステムがあるために、うまく開発されてい
る。話者非依存HMMは、連続ミックスチャLeft-to-Ri
ght型のものである。前回の話者非依存HMMの状態ミ
ックスチャ・コンポーネントが、1つにまとめられて、
話者非依存認識処理中に1個のパラメータを形成する。
発明家は、同一ワードを話すさまざま異なる話者が、そ
れぞれに、HMMの状態ミックスチャ・コンポーネント
を始動させることを発見した。そして、もし、所定のワ
ード・モデル内の全状態のミックスチャ情報を考慮する
ならば、「ミックスチャ・プロファイル」が、そのワー
ドに対する所定話者のものが構築される。次に、このミ
ックスチャ・プロファイルは、真の話者と偽りの話者と
を識別するための基準として使うことができる。よっ
て、本発明は、すでに公知の話者非依存HMMを修正変
更して、その情報が1つにまとめられる前に、ミックス
チャ・コンポーネント・スコアを抽出して転送する。
【0014】このミックスチャ・コンポーネント・スコ
ア情報は、各識別装置3101−310の中に組み込
まれ、偽りの話者仮説から真の話者仮説を識別する試験
を行う。従って、検証モデルは、各話者ごとに判断し、
トレーニングされた特定の話者の識別装置の重量ベクト
ルである。これらの重量ファクタは、その記憶容量規定
が比較的小さく、記憶装置312の中に記憶される。さ
らに、識別装置3101 −310 は、線形識別装置
であることから、また、MDDの計算の複雑性も、比較
的低く、そのため必要とされる計算リソースも少ない。
【0015】MDD話者検証プロセスは2つの部分を有
する。すなわち、ワード・レベルの話者検証部分と、そ
れに続くストリング・レベルの話者検証部分とである。
これら2つの部分は、ワード・レベルの話者識別装置3
10−310と装置312に記憶された識別装置重
量と、ストリング・レベルの話者検証装置316の中
で、それぞれ行われる。ワード・レベル話者識別装置3
10 −310 と装置312に記憶された識別加重
値および、ストリング・レベルの話者検証装置316
は、ASRの場合と同様に、各々が、高性能プロセッサ
とメモリを使用する。事実、ASR304によって使わ
れるプロセッサとメモリが十分な能力と記憶容量がある
場合、ASR304、ワード・レベル話者検証装置31
−310 およびストリング・レベルの話者検証
装置316は全て、同一のプロセッサ、メモリおよび、
記憶装置を使うこともできるだろう。
【0016】ストリング中の各ワードは、話者非依存H
MM ASR304によって区分化され、次に、話者識
別装置3101−310のそれぞれの話者検証装置に
より、操作される。ストリング・レベルの検証プロセス
は、ワード・レベルの検証プロセスの結果と組み合わさ
って、装置330によって最終的な合格/不合格の判定
を行う。記憶装置332は、判定装置330に使われる
しいき値を記憶し、合格/不合格にさせるに十分高いス
コアをあげたかどうかを判定する。ストリングを検証す
るための方法については、後で説明する。判定装置33
0は、合格かまたは不合格かのいずれかの信号を出力す
る。
【0017】ワードの検証は、一種の分類またはパター
ン認識である。タイム・シーケンスを取り扱ったいかな
る分類またはパターン認識においても、定数のパラメー
タによって表示することができるように、その信号を時
間正規化させるのが望ましい。HMMが入力された発声
音中の各ワードを一定のシーケンス状態に時間を正規化
させることで、特徴ベクトルと呼ばれる固定長さのベク
トルによって所定ワードを表すことが可能となる。その
理由については、後で説明する。HMM正規化(または
状態区分化)により、入力された発声音中の各フレーム
を特定のHMM状態の中に割り当てる。特徴ベクトルへ
のミックスチャ・コンポーネント分担を得るために、所
定状態の全てのミックスチャ・コンポーネントの重心
が、その特定の状態に区分化されたフレームについて計
算される。特徴ベクトルは、所定ワード中の全ての状態
ミックスチャ重心ベクトルを連結させることによって形
成される。数学的に、所定状態の多次元のミックスチャ
分布は、次の式によって表される。
【数1】
【0018】ここに、Oは認識装置の観測ベクトル、S
ijはi番目のワード・モデルのj番目の状態、Mはガ
ウス・ミックスチャ分布の総数で、ki,j,mは、ミ
ックスチャの重量を表す。ミックスチャ状態重心ベクト
ルのエレメントは、次の式によって算出される。
【数2】
【0019】ここに、q とq は、ワードiの状態
jに区分化された入力音声セグメントのスタートおよび
エンド・フレームであり、O はフレームqの認識装
置観測ベクトルを表す。ワード・レベル検証装置の特徴
ベクトルであるX は、重心ベクトルcijの連結で
あり、次の式によって表される。
【数3】
【0020】ここに、N は、ワード・モデルiの状
態数、肩文字Tはベクトル転値である。従って、x
の寸法は、N xMとなる。ワード・レベルの検証
は、次の式によって表される線形識別関数の値を計算す
ることにより行われる。
【数4】
【0021】ここに、ai,k はワードiを話す話者
kの線形識別装置モデルを表す重量ベクトルである。1
人の話者が、話者kのIDを主張すれば、ワード・レベ
ルの検証スコアは、R(ai,k ,X )を算出する
ことにより求められる。
【0022】1組の識別装置の加重ベクトル{ai,k
}は、フィッシャーの識別判定基準によって算出され
る。この判定基準については、アカデミア・プレス出版
のR.マルディア、J.ケントおよび、J.ビビィによ
る「多変量分析」(1979年)に説明されている。所
定ワードiと話者kについて、フィッシャーの判定基準
は、2つのクラス間を識別するのに用いられる。つま
り、1つのクラスは、真の話者kによって話されたワー
ドiのケースを表し、もう片方のクラスは、話者k以外
の話者(つまり、偽りの話者)によって話されたワード
iのケースのことである。Xi,k を、真の話者kに
よって話されたワードiの識別ベクトルとする。さら
に、Xi,k'を真の話者k以外の話者によって話され
たワードiの識別ベクトルとしよう。識別装置の加重ベ
クトルai,kは、クラス間の二乗和と、クラス内の二
乗和との比率を最大にすることによって、フィッシャー
の判定基準により求められる。特に、その比率は、次の
式によって表される。
【数5】
【0023】ここに、
【数6】 であり、Si,k とSi,k'はそれぞれ、Xi,k
とXi,k'の共分散行列である。
【0024】その比率T(ai,k )を最大にするベ
クトルai,k は、行列W−1Bの最大固有値に対応
する固有ベクトルによって求められることが示された。
2つのクラス間識別については、行列W−1Bは、ゼロ
(0)以外の固有値のみを有する。従って、対応する固
有ベクトルは、T(ai,k )を最大にする解法であ
り、次の式によって表される。
【数7】
【0025】ここに、
【数8】
【0026】最後の2つの式から分かるように、a
i,k の測定値を求めるには、ワードiを話す真の話
者kと偽りの話者kの両方のトレーニング手本が必要と
される。偽りのデータは、ある検証用途において、簡単
にシミュレートされる。そこでは、登録された全ての話
者が、そのパスワードを構築するために、共通のワード
・セットを用いる。この一例として、連結数字ストリン
グによる検証がある。この場合、数字が共通のワード・
セットであり、話者kの偽りのトレーニング・データ
は、登録されているその他の話者によって話されたトレ
ーニング数字行列の全部または一部であると考えられ
る。個人別のパスワードを使う場合、偽りのデータ・コ
レクションは、識別を行うために必要となるだろう。
【0027】ストリング・レベルでの検証は、単にワー
ド・レベルの検証スコアを、ストリング中の全ワードで
平均することにより行われる。従って、ストリング・レ
ベルの検証スコアは、次の式によって表される。
【数9】
【0028】ここに、Pはストリング中のキーワードの
数で、f(p)はストリング中のp番目のワードのワー
ド指数である。合格/不合格の判定は、V (mdd)
をしきい値とで比較することによって行われる。
【0029】最後の式によって結論付けられるように、
所定の話者kのMDD検証モデルは、その話者の検証用
語中の全ワードに対応するベクトルai,k から構成
される。各ベクトルは、N xMエレメントを有す
る。N とMの代表的な数値は、N =10と、M=
16である。一例として、検証ワード・セットが、11
のワード(0〜9、Oh(オー))から構成されている
場合の連結数字検証シナリオを使用すると、1人の話者
の完全な検証モデルは1760個のパラメータによって
表される。MDDの演算規定は、一連のドットの積と1
つの和から構成される。
【0030】組み合された検証システム内において、M
DDとCNHMM方法を組み合せるハイブリッド方式
は、個々の方式よりも著しく好成績を示した。というの
も、個々の方式によるエラーは、一般的に相関関係がな
いとされるからである。これら2つのアプローチを1つ
のシステムに組合せるために、2つの方法の出力値が1
個の検証パラメータに達するような何らかの方法で組み
合わされる必要がある。MDD方法の必要な計算量はと
ても少ないため、CNHMM方法は、全般的なシステム
に重荷とならないように追加することができることに注
意しなくてはならない。これは、一部に、CNHMMに
必要とされる全ての入力が、話者非依存HMMを使って
入力された発声音を処理している間にすでに区分化され
ているためである。
【0031】図4に示されるハイブリッド・システム
は、全般的な検証スコアに達するために、群正規化HM
Mスコアと、所定の試験ストリングのMDDスコアとを
組み合わせたものである。組み合わされた検証スコア
は、次の式によって算出する。
【数10】
【0032】ここに、b (cnhmm)とb
(mdd)は、トレーニング段階の一部として、算出さ
れた特定の話者の重量測定ファクタを示す。これらの重
量は、MDDの重量ベクトル{ai,k }を求めるの
に使われたものと類似した識別分析手順を通して、算出
される。しかし、ここで、識別ベクトルは2つのエレメ
ントから構成されている。つまり、V (cnhmm)
とV (mdd)とである。再度、フィッシャーの識別
判定基準を用いて、2つのクラスのストリング、つま
り、話者kの話者kによって話されたストリングと偽り
の話者によって話されたストリングとを識別する。
【0033】装置317内で使われる話者依存型HMM
のトレーニングは、所定の話者のトレーニングされた発
声音を話者非依存HMMによる個々のワード・セグメン
トに区分化することによって始まる。この話者非依存モ
デルは、前述の通り、MDD方式で使われたものと同じ
ものである。個々のワード・セグメントは、次ぎに、複
数の状態に区分化されるが、その初期状態セグメントは
線形である。各状態ごとの観測ベクトルは、K手段クラ
スタリング・アルゴリズムを使ってクラスタされる。こ
れについては、例えば音響、音声および信号処理に関す
るIEEEトランザクションであるJ.G.ウィルポン
とL.P.ラビナーによる「孤立ワードに使われる修正
済みK手段クラスタリング・アルゴリズム」(1985
年6月号Vol.33の587〜594頁)に説明され
ている。その結果できたモデルがビタビ検索を用いて各
トレーニング・ワードの状態を再区分化するのに使われ
る。K手段クラスタリングの後のこの状態区分化処理
は、2、3回繰り返される。典型的には、平均的モデル
の尤度が、初期線形状態区分化後に収束するのに、普通
3回繰り返せば十分である。実験結果から、普通、モデ
ル分散推定値は悪く、所定の話者のトレーニング・デー
タが限られているために、所定の話者の全てのワード、
状態、およびミックスチャを平均して、平均分散にモデ
ル分散を固定することで最良の結果が得られるというこ
とが分かった。
【0034】検証プロセスは、固定変数の話者依存型H
MMと、限定文法付き話者非依存HMMを用いて試験発
声音をいくつかのワードに区分化する。持続時間正規化
尤度スコアは、入力ストリング中の各ワードごとに算出
される。無音以外のワードのワード尤度スコアは、試験
発声音のストリングの尤度スコアに達するように一緒に
平均される。
【0035】群正規化は、ログ尤度比タイプ試験を確立
する方法である。群正規化は、最大尤度方法と比較する
と、著しく検証性能の点で改善されたことが示された。
この作業の中で、群モデルは、話者非依存HMMである
とみなされており、これは、つまり、全ての話者が同じ
群モデルを共有しているということを示している。
【0036】この群モデルを選択することが、特定の話
者の群話者を定義する必要性を低減させる。群ストリン
グ尤度スコアは、話者依存型ストリング尤度スコアを算
出するのと同じ方法で算出される。ストリング確率のロ
グを取ると、ストリング・ログ差が算出される。これ
は、次の式によって表される。
【数11】
【0037】ここに、O、Pとf(p)は、前述の定義
通りであり、ログ(O|λf(p),k)は、ワードf
(p)に対する話者kのHMMの持続時間正規化の尤度
であり、ログ[L(O|λf(p),c)]は、話者非
依存群モデルの持続時間正規化尤度である。もし、CH
NMMが検証に単独で使われる場合、その検証は、合格
/不合格の判定を行うために、V (cnhmm)をし
きい値とで比較することによって行われる。
【0038】検証性能については、言語データ・コンソ
ーティアム(LDC)から得られるYOHO話者検証集
成を用いて試験された。この集成が選択され、それが公
知の「監督下の」話者検証データベースの最大のものの
1つである。LDC YOHOの集成は、1つのCD−
ROMの上にパッケージされ、そのCD−ROMには、
また、完全なデータベースの記述内容が含まれる。一部
重要な特徴について、ここで要約すると、「組合せロッ
ク」はトリプレット(三つ組み、例えば、26、81、
57等)となる。138人を対照とし、その内男性10
6人と女性が32人であった。4回の登録セッションに
おいて対象者1人当り96個の登録トリプレットが集め
られた。対象者1人につき40個の無作為試験トリプレ
ットで、10回の検証セッション内に収集された。集成
中のデータは、3ヶ月間で収集されたものであった。
3.8kHzの帯域幅を有する8kHzのサンプリング
(抜き取り検査)が行われた。データ・コレクションは
オフィス環境設定において、厳密に監視された中でのコ
レクションであり、高性能電話受信機(シュールXTH
383)は、全ての音声を収集するのに使われた。
【0039】特徴抽出処理(図示せず)は、ライン30
2での入力音声を別のステージとして予備処理するか、
または話者非依存認識装置304の一部であるかのいず
れかである。特徴抽出処理は、15ミリ秒ごとに1組の
38個の特徴を計算する。特徴ベクトルは、12個のL
PCのセプストラル、12個のデルタ・セプストラル、
12個のデルタ間セプストラル、デルタ間ログ・エネル
ギーとから構成されている。そのワード・モデル一式は
YOHO用語を網羅するのに18個のモデルから構成さ
れていると見なされた。18個のモデルは、「ワン」,
「ツゥ」,...,「セブン」,「ナイン」,「トゥエ
ン」,「サー」,...,「ナイン」「ティ」と「無
音」に対応している。話者非依存HMMは、8〜10個
の状態でトレーニングされた。但し、通常3個の状態だ
けを使ってトレーニングされた「ティ」や「無音」以外
の8〜10個の状態でトレーニングされた。各状態ごと
の分布は、ガウス・ミックスチャの重量の和によって表
される。但し、ミックスチャの数は、16に設定され
た。話者依存型HMMトレーニングは(第3項を参
照)、例えば、通常4〜10個のこれより少ない数のミ
ックスチャを使った。話者1人当りのMDDモデル・セ
ットは17個(無音を除く)の識別装置の重量ベクトル
から構成された。1つの話者非依存HMM状態につき1
6個のミックスチャ・コンポーネントを用いてMDDモ
デル・ベクトルの寸法の範囲は3個の状態「ティ」モデ
ルの48〜10個の状態モデルの160までとなってい
る。
【0040】話者非依存HMMは、男女の話者138名
全員の登録組からのトリプレットを用いて、トレーニン
グされた。特に、各話者の最初の24個の登録トリプレ
ットがこのトレーニングに使用され、その結果、総数3
312個のトレーニング発声音が得られた。話者非依存
HMMがトレーニングされた後、106人の話者の1組
は、無作為に2つの組に分割される。つまり、加入者と
考えられる81名の話者の組と、非加入者と考えられる
25名の話者の組とである。
【0041】MDDは、識別トレーニング手順に関する
ものであることから、非加入者組の主要目的は、公平な
試験を行うことについてのシナリオを規定することであ
った。それについては、トレーニング段階で用いられた
偽りの話者は、検証に使われたものとは別のものであ
る。非加入者全員の音声は、実際上、トレーニング段階
で使われた開発セットであると考えられた。非加入者の
音声は、検証試験段階にはまったく使われなかった。上
述の通り、各話者はトリプレットの2セットを有してい
る。つまり、登録セットと検証セットである。このデー
タがMDD、CNHMMとそれらのハイブリッド・シス
テムのトレーニングにいかに使われるかについてこれか
ら説明する。
【0042】MDDトレーニング:各加入者について、
真の話者トレーニング発声音として、96個の登録トリ
プレットを全て使用した。偽りのトレーニング発声音
は、25人の非加入者の登録発声音全てであるとみなさ
れた。従って、81名の加入者は、同じ偽りのトレーニ
ング・セットを共有した。そこでは、偽りの発声音数は
2400個であった。
【0043】CNHMMトレーニング:各加入者ごと
に、話者依存型HMMモデルをトレーニングするのに、
96個の登録トリプレット全部を使用した。MDD方法
とは違って、25名の非加入者からの音声は、本方法の
トレーニング段階において必要とされなかった。
【0044】ハイブリッド・システム・トレーニング:
このトレーニングは、各発声音(つまり、トリプレット
ごとの)CNHMMとMDDスコアに関して、真の話者
と偽りの発声音クラスについての、フィッシャーの識別
判定基準を適用することからなっている。真の話者試験
発声音は、トレーニング段階で入手できないため、加入
者登録発声音が、真の話者の音声として、ここで再使用
された。これは、つまり、ハイブリッド・システム・ト
レーニングで使われたMDDとCNHMM検証スコア
は、MDDとCNHMMモデル上の「自己テスト」のス
コア(点数)を示すため、現実的ではない。これら「自
己テスト」の真の話者スコアは、最適な状態で、偏向し
ており、話者間の変動性をとらえるものではない。フィ
ッシャーの判定基準が識別特徴ベクトルの手段と変数の
みを必要とするので、この問題は、より現実的な話者間
の変動性を反映するための手段と変数を人為的に調整す
ることによって幾分は軽減することができる。
【0045】加入者登録と検証音声によるV
(cnhmm)とV (mdd)の手段と変数の調整値
を推定するため、小さなサイド実験が行われた。このサ
イド実験は非加入者のMDDとCNHMMモデルを形成
し、その登録セットと検証セットの検証スコアの偏向を
算定することから構成された。ハイブリッド・システム
の偽りのトレーニング・セットは25人の非加入者のそ
れぞれからの4個の検証トリプレットであると考えられ
た。MDDか、またはCNHMMトレーニング段階のい
ずれかによって非加入者の検証トリプレットが使われな
いし、偏向もしないため、偽りのスコアの手段と変数の
調整は必要でなかった。
【0046】使用された検証試験手順は、3つの全ての
方法に共通するものだった。各加入者ごとに、その40
個の検証トリプレットが真の話者の音声であるとみなさ
れた。偽りの音声はその他の80名の加入者全員の検証
セットからのトリプレットであるとみなした。これは、
加入者1人当りの偽りの発声音数が多すぎることを示し
ているので、80人の偽りの話者の内のそれぞれから最
初の10個のトリプレットだけになるよう取り除かれ
た。よって、各加入者ごとの偽りの発声音数は、800
だった。上記データ編成記述内容が示す通り、全ての実
験を通して、検証テスト段階中は、非常に公平を期すこ
とに全力を尽くした。例えば、トレーニングのための偽
りのセットは、106名の話者の完全な1セットの内の
無作為のサブセットであった。そして、試験の偽りのセ
ットには、トレーニング偽りセットと共通する話者はい
なかった。また、加入者検証発声音からの情報は、いか
なるトレーニング段階にも使われることはなかった。
【0047】MDD、CNHMMおよびハイブリッド・
システムの3つの方法の検証性能は、受信者特性(RO
C)の測定値を用いて比較することができる。ROC測
定は、偽りの合格率(タイプIIのエラー)と偽りの不合
格率(タイプIのエラー)を算定する。ROC測定デー
タは、また、1人の話者につき1つの方法で、均等な誤
り率(EER)を算出するのに用いられる。
【0048】図5は、3つの方法の各々について、EE
Rの平均値と中央値を示す。本表は、EER平均値が、
CNHMM方法の0.4730%からハイブリッド方法
の0.225%へと低下しており、46%の改善率を示
している。EER中央値は、0.227%から0%へと
低下した。81名の加入者の内45名についてハイブリ
ッド・システムの方が、CNHMMとMDDの両方より
低いEER値となった。わずか8名の加入者だけが、2
つの個々の方法の内の1つでハイブリッド・システムよ
りもわずかに低いEER値となった。残り28名の加入
者は、ハイブリッド・システムのEER値がMDDとC
NHMMに対応する2つのEER値の内の小さいほうと
等しくなった。
【0049】試験結果から、ハイブリッド・システム4
00は、個々の方法のいずれか1つよりも、著しく高い
成績をおさめたということが示された。これは、一般的
に、1つの方法によるほとんどの検証エラーはその他の
方法とは共通しておらず、ハイブリッド・システム40
0中の2つの方法を使って、総合的な性能が改善される
ことを示すものである。
【0050】さらに定量的な試験においては、2つの方
法による検証エラーの相関関係は、χ(カイの二乗)
試験によって評価され、その結果、MDD方法のエラー
は、CNHMM方法のエラーに対して余り相関関係がな
いことが示された。
【0051】よって、ミックスチャ分解識別と呼ばれる
新しい話者検証方法が開示されたことは評価されるだろ
う。MDDを使用するための装置も開示された。本発明
ついては、特に、その好ましい実施例に関して図示し、
説明されたが、形状、詳細および用途についてのさまざ
まな変更を行うことができるということは、技術に熟練
した者に理解されるであろう。例えば、ワード認識の代
わりに、サブワード認識を用いる方法や装置の適用等が
あげられる。よって、添付の請求の範囲は、上記発明の
適用範囲内におけるそういった形状、詳細、および用途
の変更全てにわたるものである。
【図面の簡単な説明】
【図1】公知の話者検証装置のブロック図である。
【図2】他の公知の話者検証装置のブロック図である。
【図3】本発明によるミックスチャ分解識別を用いた話
者検証装置の公知の話者検証装置のブロック図である。
【図4】ミックスチャ分解識別と群正規化HMMとの組
合せによる話者検証装置のブロック図である。
【図5】群正規化HMM、ミックスチャ分解識別装置
と、その両方を組合せたものの誤り率を示した表であ
る。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 アナンド ランガスワミー セットラー アメリカ合衆国 60555 イリノイズ, ウォーレンヴィル,ドッグウッド コー ト 2エス481 (72)発明者 ラフィッド アントーン サッカー アメリカ合衆国 60504 イリノイズ, オーロラ,フォレストヴュー レーン 68 (56)参考文献 特開 平5−323990(JP,A) 特公 平3−70239(JP,B2) 特公 平7−58435(JP,B2) 特許3080388(JP,B2) 特許2564200(JP,B2) (58)調査した分野(Int.Cl.7,DB名) G10L 15/00 - 17/00

Claims (11)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力ワード・ストリングの話者検証装置
    であって、 第一隠れマルコフモデル(HMM)を用いた話者非依存
    音声認識装置からなり、前記話者非依存音声認識装置
    は、前記入力ワード・ストリングを区分化し認識して、
    特定の話者の話者検証データ・ファイルへのアクセス・
    キーを複数の話者検証データファイルから得るものであ
    り、さらに、 線形識別器と、 ミックスチャ・コンポーネント・スコア情報が単一定量
    へ結合される前に、前記ミックスチャ・コンポーネント
    ・スコア情報を、前記話者非依存音声認識装置の内部に
    おける処理から前記線形識別器へ提供する手段と、 複数の話者検証データファイルを記憶する手段とからな
    り、前記複数の話者検証データファイルの各々は、偽話
    者仮説または偽話者モデルのそれぞれに対する検査によ
    って展開された、話者それぞれに対する真話者仮説また
    は真話者モデルを含有するものであり、さらに、 前記複数の話者検証データ・ファイルから前記アクセス
    ・キーと関連する話者検証データ・ファイルにアクセス
    し、前記アクセスされたデータ・ファイルを前記線形識
    別器に伝送する手段とからなり、 前記線形識別器は前記アクセスされた話者検証データフ
    ァイルを処理して複数のワード検証スコアを生成するも
    のであり、さらに、 前記音声入力が特定の話者からのものか否かを、前記複
    数のワード検証スコアに従って判断する手段とからなる
    ことを特徴とする装置。
  2. 【請求項2】 請求項1に記載の装置において、前記入
    力ワード・ストリングが複数の数字であり、前記話者非
    依存音声認識装置は連結された数字を認識することを特
    徴とする装置。
  3. 【請求項3】 請求項1に記載の装置において、前記複
    数の話者検証データ・ファイルの各々が、そのファイル
    と関連するそれぞれの真話者の音声とこれに対応する偽
    話者の音声とからミックスチャ・コンポーネント・スコ
    ア情報を使ってトレーニングされ、前記トレーニングに
    より、話者検証のために前記線形識別装置によって使わ
    れる話者依存型加重値が生成されることを特徴とする装
    置。
  4. 【請求項4】 請求項1に記載の装置において、前記音
    声入力が特定の話者からのものか否かを前記複数のワー
    ド検証スコアに従って判断する手段は、所定しきい値を
    含むことを特徴とする装置。
  5. 【請求項5】 請求項1に記載の装置においてさらに、
    第一隠れマルコフモデルを用いる前記話者非依存音声認
    識装置に接続された、複数の群正規化HMMを用いる話
    者依存型検証手段とからなり、 前記話者依存型検証手段は、前記入力ワード・ストリン
    グのセグメントと、前記話者非依存音声認識装置からの
    アクセス・キーを受信するものであり、そして、 前記話者依存型検証手段は、前記アクセス・キー用いて
    前記複数の群正規化HMMから特定の群正規化HMMへ
    アクセスし、そして前記特定の群正規化HMMを用いて
    前記入力ワード・ストリングの群正規化HMMスコアを
    得るものであり、該装置はさらに、 特定の話者を検証または検証しないために、前記群正規
    化HMMスコアを前記ワード検証スコアと組み合わせる
    手段とからなることを特徴とする装置。
  6. 【請求項6】 話者を検証する方法であって、 第一隠れマルコフモデルを用いた話者非依存音声認識装
    置で音声入力を区分化するステップと、 特定の話者の話者検証データ・ファイルへのアクセス・
    キーを得るために、区分化された音声入力を認識するス
    テップと、 線形識別装置にミックスチャ・コンポーネント・スコア
    情報を提供するステップと、 特定の話者に対する真話者仮説をその特定の話者に対す
    る偽話者仮説とから識別する試験を行うステップと、 前記音声入力が特定の話者からのものか否かを、仮説試
    験からの識別スコアと所定のしきい値とに従って判断す
    るステップとからなることを特徴とする方法。
  7. 【請求項7】 請求項6に記載の方法においてさらに、 前記試験を行うステップの前に、特定の話者の真話者仮
    説と偽話者仮説とに対する線形識別加重値を判定するス
    テップとからなることを特徴とする方法。
  8. 【請求項8】 電気信号に変換された入力音声から話者
    検証を行う方法であって、 入力音声から入力ワードを区分化するステップと、 話者非依存隠れマルコフモデル(HMM)認識装置によ
    って前記ワード・ストリングを認識するステップと、 前記ワード・ストリングを、認識されたワードのグルー
    プとして話者依存型認識装置に提供するステップと、 認識された前記ワード・ストリングの各ワードを表す英
    数字を出力するステップと、 ストリング中の各ワードに対し、前記話者非依存HMM
    認識装置から状態ミックスチャ・コンポーネント・スコ
    ア情報をミックスチャ分解識別装置に提供するステップ
    と、 話者検証に対し、前記ミックスチャ・コンポーネント・
    スコア情報を用いるステップとからなることを特徴とす
    る方法。
  9. 【請求項9】 請求項8に記載の方法においてさらに、 英数字を出力するステップの後に、前記英数字を用いて
    ミックスチャ分解識別装置の話者依存型データにアクセ
    スするステップからなることを特徴とする方法。
  10. 【請求項10】 電気信号に変換された入力音声から話
    者検証を行う方法であって、 入力音声から入力ワードを区分化するステップと、 話者非依存隠れマルコフモデル(HMM)認識装置によ
    って前記ワード・ストリングを認識するステップと、 認識された前記ワード・ストリングの各ワードを表す英
    数字を出力するステップと、 ストリング中の各ワードに対し、前記話者非依存HMM
    認識装置から状態ミックスチャ・コンポーネント・スコ
    ア情報をミックスチャ分解識別装置に提供するステップ
    と、 話者検証に対し、前記ミックスチャ・コンポーネント・
    スコア情報を用いるステップとからなることを特徴とす
    る方法。
  11. 【請求項11】 請求項10に記載の方法においてさら
    に、 前記話者非依存HMM認識装置からの区分化された入力
    ワード・ストリングを、群正規化HMMを用いて話者検
    証装置に提供するステップと、 前記英数字を、話者依存型群正規化HMM認識装置を用
    いて前記話者検証装置に提供するステップと、 前記英数字を用いて、前記英数字と関連する前記群正規
    化HMMの前記話者依存型データにアクセスするステッ
    プと、 前記群正規化HMMに従って話者検証スコアを判定する
    ステップと、 話者検証に対し、前記ミックスチャ・コンポーネント・
    スコア情報と合わせて前記群正規化HMMの前記話者検
    証スコアを用いるステップとからなることを特徴とする
    方法。
JP12385496A 1995-05-22 1996-05-20 ミックスチャ分解識別による話者検証方法と装置 Expired - Fee Related JP3532346B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/447307 1995-05-22
US08/447,307 US5687287A (en) 1995-05-22 1995-05-22 Speaker verification method and apparatus using mixture decomposition discrimination

Publications (2)

Publication Number Publication Date
JPH08314491A JPH08314491A (ja) 1996-11-29
JP3532346B2 true JP3532346B2 (ja) 2004-05-31

Family

ID=23775840

Family Applications (1)

Application Number Title Priority Date Filing Date
JP12385496A Expired - Fee Related JP3532346B2 (ja) 1995-05-22 1996-05-20 ミックスチャ分解識別による話者検証方法と装置

Country Status (5)

Country Link
US (1) US5687287A (ja)
EP (1) EP0744734B1 (ja)
JP (1) JP3532346B2 (ja)
CA (1) CA2173302C (ja)
DE (1) DE69615748T2 (ja)

Families Citing this family (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3703164B2 (ja) * 1995-05-10 2005-10-05 キヤノン株式会社 パターン認識方法及びその装置
GB9526334D0 (en) * 1995-12-22 1996-02-21 At & T Global Inf Solution Speaker verification system
US6076054A (en) * 1996-02-29 2000-06-13 Nynex Science & Technology, Inc. Methods and apparatus for generating and using out of vocabulary word models for speaker dependent speech recognition
US5842165A (en) * 1996-02-29 1998-11-24 Nynex Science & Technology, Inc. Methods and apparatus for generating and using garbage models for speaker dependent speech recognition purposes
US5895448A (en) * 1996-02-29 1999-04-20 Nynex Science And Technology, Inc. Methods and apparatus for generating and using speaker independent garbage models for speaker dependent speech recognition purpose
US5937381A (en) * 1996-04-10 1999-08-10 Itt Defense, Inc. System for voice verification of telephone transactions
US6137863A (en) * 1996-12-13 2000-10-24 At&T Corp. Statistical database correction of alphanumeric account numbers for speech recognition and touch-tone recognition
US6061654A (en) * 1996-12-16 2000-05-09 At&T Corp. System and method of recognizing letters and numbers by either speech or touch tone recognition utilizing constrained confusion matrices
US6003002A (en) * 1997-01-02 1999-12-14 Texas Instruments Incorporated Method and system of adapting speech recognition models to speaker environment
US5950157A (en) * 1997-02-28 1999-09-07 Sri International Method for establishing handset-dependent normalizing models for speaker recognition
SE511418C2 (sv) * 1997-03-13 1999-09-27 Telia Ab Metod för talarverifiering/identifiering via modellering av typiska icke-typiska egenskaper.
US7630895B2 (en) * 2000-01-21 2009-12-08 At&T Intellectual Property I, L.P. Speaker verification method
US6076055A (en) * 1997-05-27 2000-06-13 Ameritech Speaker verification method
US6219453B1 (en) 1997-08-11 2001-04-17 At&T Corp. Method and apparatus for performing an automatic correction of misrecognized words produced by an optical character recognition technique by using a Hidden Markov Model based algorithm
US6154579A (en) * 1997-08-11 2000-11-28 At&T Corp. Confusion matrix based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique
US6141661A (en) * 1997-10-17 2000-10-31 At&T Corp Method and apparatus for performing a grammar-pruning operation
WO1999023643A1 (en) * 1997-11-03 1999-05-14 T-Netix, Inc. Model adaptation system and method for speaker verification
US6122612A (en) * 1997-11-20 2000-09-19 At&T Corp Check-sum based method and apparatus for performing speech recognition
US6205428B1 (en) 1997-11-20 2001-03-20 At&T Corp. Confusion set-base method and apparatus for pruning a predetermined arrangement of indexed identifiers
US6208965B1 (en) 1997-11-20 2001-03-27 At&T Corp. Method and apparatus for performing a name acquisition based on speech recognition
US6233555B1 (en) 1997-11-25 2001-05-15 At&T Corporation Method and apparatus for speaker identification using mixture discriminant analysis to develop speaker models
US6205261B1 (en) 1998-02-05 2001-03-20 At&T Corp. Confusion set based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique
JP2002506241A (ja) * 1998-03-03 2002-02-26 ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ 話者照合の多重解像システム及び方法
US6243695B1 (en) * 1998-03-18 2001-06-05 Motorola, Inc. Access control system and method therefor
JP3090119B2 (ja) * 1998-05-15 2000-09-18 日本電気株式会社 話者照合装置、方法及び記憶媒体
DE19824355A1 (de) * 1998-05-30 1999-12-02 Philips Patentverwaltung Vorrichtung zur Verifizierung von Signalen
DE19824354A1 (de) * 1998-05-30 1999-12-02 Philips Patentverwaltung Vorrichtung zur Verifizierung von Signalen
US7937260B1 (en) 1998-06-15 2011-05-03 At&T Intellectual Property Ii, L.P. Concise dynamic grammars using N-best selection
US6400805B1 (en) 1998-06-15 2002-06-04 At&T Corp. Statistical database correction of alphanumeric identifiers for speech recognition and touch-tone recognition
AU752317B2 (en) * 1998-06-17 2002-09-12 Motorola Australia Pty Ltd Cohort model selection apparatus and method
US6141644A (en) * 1998-09-04 2000-10-31 Matsushita Electric Industrial Co., Ltd. Speaker verification and speaker identification based on eigenvoices
US6754631B1 (en) 1998-11-04 2004-06-22 Gateway, Inc. Recording meeting minutes based upon speech recognition
US6253179B1 (en) * 1999-01-29 2001-06-26 International Business Machines Corporation Method and apparatus for multi-environment speaker verification
KR20010055168A (ko) * 1999-12-09 2001-07-04 윤덕용 인터넷 환경에서의 화자확인
US6961703B1 (en) * 2000-09-13 2005-11-01 Itt Manufacturing Enterprises, Inc. Method for speech processing involving whole-utterance modeling
EP1199704A3 (de) * 2000-10-17 2003-10-15 Philips Intellectual Property & Standards GmbH Auswahl der alternativen Wortfolgen für diskriminative Anpassung
GB2370401A (en) * 2000-12-19 2002-06-26 Nokia Mobile Phones Ltd Speech recognition
US20020104027A1 (en) * 2001-01-31 2002-08-01 Valene Skerpac N-dimensional biometric security system
US6934675B2 (en) * 2001-06-14 2005-08-23 Stephen C. Glinski Methods and systems for enabling speech-based internet searches
US6996527B2 (en) * 2001-07-26 2006-02-07 Matsushita Electric Industrial Co., Ltd. Linear discriminant based sound class similarities with unit value normalization
US20030037004A1 (en) * 2001-08-14 2003-02-20 Chuck Buffum Dialog-based voiceprint security for business transactions
GB2383459B (en) * 2001-12-20 2005-05-18 Hewlett Packard Co Speech recognition system and method
US20030149881A1 (en) * 2002-01-31 2003-08-07 Digital Security Inc. Apparatus and method for securing information transmitted on computer networks
US7266497B2 (en) * 2002-03-29 2007-09-04 At&T Corp. Automatic segmentation in speech synthesis
US7236931B2 (en) * 2002-05-01 2007-06-26 Usb Ag, Stamford Branch Systems and methods for automatic acoustic speaker adaptation in computer-assisted transcription systems
US20040148163A1 (en) * 2003-01-23 2004-07-29 Aurilab, Llc System and method for utilizing an anchor to reduce memory requirements for speech recognition
US7852993B2 (en) * 2003-08-11 2010-12-14 Microsoft Corporation Speech recognition enhanced caller identification
US7877255B2 (en) * 2006-03-31 2011-01-25 Voice Signal Technologies, Inc. Speech recognition using channel verification
US7769583B2 (en) * 2006-05-13 2010-08-03 International Business Machines Corporation Quantizing feature vectors in decision-making applications
US7992196B2 (en) * 2006-11-06 2011-08-02 Voice Identity, Inc. Apparatus and method for performing hosted and secure identity authentication using biometric voice verification over a digital network medium
JP5177561B2 (ja) * 2007-02-06 2013-04-03 日本電気株式会社 認識器重み学習装置および音声認識装置、ならびに、システム
US10257191B2 (en) 2008-11-28 2019-04-09 Nottingham Trent University Biometric identity verification
GB2465782B (en) * 2008-11-28 2016-04-13 Univ Nottingham Trent Biometric identity verification
US9418662B2 (en) * 2009-01-21 2016-08-16 Nokia Technologies Oy Method, apparatus and computer program product for providing compound models for speech recognition adaptation
US8433567B2 (en) * 2010-04-08 2013-04-30 International Business Machines Corporation Compensation of intra-speaker variability in speaker diarization
US9118669B2 (en) 2010-09-30 2015-08-25 Alcatel Lucent Method and apparatus for voice signature authentication
US9318114B2 (en) * 2010-11-24 2016-04-19 At&T Intellectual Property I, L.P. System and method for generating challenge utterances for speaker verification
GB2489489B (en) * 2011-03-30 2013-08-21 Toshiba Res Europ Ltd A speech processing system and method
JP6596924B2 (ja) * 2014-05-29 2019-10-30 日本電気株式会社 音声データ処理装置、音声データ処理方法、及び、音声データ処理プログラム
CN104616655B (zh) * 2015-02-05 2018-01-16 北京得意音通技术有限责任公司 声纹模型自动重建的方法和装置
US10957318B2 (en) * 2018-11-02 2021-03-23 Visa International Service Association Dynamic voice authentication

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4852180A (en) * 1987-04-03 1989-07-25 American Telephone And Telegraph Company, At&T Bell Laboratories Speech recognition by acoustic/phonetic system and technique
JPH0293597A (ja) * 1988-09-30 1990-04-04 Nippon I B M Kk 音声認識装置
US5268990A (en) * 1991-01-31 1993-12-07 Sri International Method for recognizing speech using linguistically-motivated hidden Markov models
IT1270919B (it) * 1993-05-05 1997-05-16 Cselt Centro Studi Lab Telecom Sistema per il riconoscimento di parole isolate indipendente dal parlatore mediante reti neurali

Also Published As

Publication number Publication date
DE69615748D1 (de) 2001-11-15
CA2173302C (en) 2001-01-02
EP0744734B1 (en) 2001-10-10
JPH08314491A (ja) 1996-11-29
US5687287A (en) 1997-11-11
CA2173302A1 (en) 1996-11-23
EP0744734A3 (en) 1998-02-18
DE69615748T2 (de) 2002-08-01
EP0744734A2 (en) 1996-11-27

Similar Documents

Publication Publication Date Title
JP3532346B2 (ja) ミックスチャ分解識別による話者検証方法と装置
US6760701B2 (en) Subword-based speaker verification using multiple-classifier fusion, with channel, fusion, model and threshold adaptation
US8209174B2 (en) Speaker verification system
US6205424B1 (en) Two-staged cohort selection for speaker verification system
JPH11507443A (ja) 話者確認システム
EP1889255A1 (en) Automatic text-independent, language-independent speaker voice-print creation and speaker recognition
CN1963917A (zh) 评价语音的分辨力、说话人认证的注册和验证方法及装置
EP0892388A1 (en) Method and apparatus for providing speaker authentication by verbal information verification using forced decoding
WO2003015078A1 (en) Voice registration method and system, and voice recognition method and system based on voice registration method and system
Chakroun et al. Robust text-independent speaker recognition with short utterances using Gaussian mixture models
Beritelli et al. A statistical approach to biometric identity verification based on heart sounds
Yokoya et al. Recovery of superquadric primitives from a range image using simulated annealing
EP1178467B1 (en) Speaker verification and identification
WO2002029785A1 (en) Method, apparatus, and system for speaker verification based on orthogonal gaussian mixture model (gmm)
Lee A tutorial on speaker and speech verification
Ghoniem et al. A novel Arabic text-independent speaker verification system based on fuzzy hidden markov model
Abdiche et al. Text-independent speaker identification using mel-frequency energy coefficients and convolutional neural networks
Olsson Text dependent speaker verification with a hybrid HMM/ANN system
BenZeghiba et al. Speaker verification based on user-customized password
Kadhim et al. Enhancement and modification of automatic speaker verification by utilizing hidden Markov model
Ren et al. A hybrid GMM speaker verification system for mobile devices in variable environments
Zigel et al. Text-dependent speaker verification using feature selection with recognition related criterion
Thakur et al. Speaker Authentication Using GMM-UBM
Rakhmanenko et al. Text-independent speaker verification using convolutional deep belief network and gaussian mixture model
Kiawjak et al. Improvement of Text-Independent Speaker Verification Using Gender-like Feature

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040209

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040303

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees