JP3532346B2

JP3532346B2 - ミックスチャ分解識別による話者検証方法と装置

Info

Publication number: JP3532346B2
Application number: JP12385496A
Authority: JP
Inventors: バクティガンドヒマラン; ランガスワミーセットラーアナンド; アントーンサッカーラフィッド
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 1995-05-22
Filing date: 1996-05-20
Publication date: 2004-05-31
Anticipated expiration: 2016-05-20
Also published as: DE69615748D1; CA2173302C; EP0744734B1; JPH08314491A; US5687287A; CA2173302A1; EP0744734A3; DE69615748T2; EP0744734A2

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識と話者検
証を行う方法及び装置に関し、特に、話者非依存隠れマ
ルコフモデル（ＨＭＭ）と、話者依存型認識装置または
検証装置に関する。

【０００２】

【従来の技術】自動話者検証は、最近行なわれた多くの
研究努力の主要課題となっているものである。ＨＭＭに
よる音声モデリングは、例えば、Ａ．Ｅ．ローゼンバー
グ、Ｃ．Ｈ．リーおよびＳ．Ｌ．ゴッチェンによる音
響、音声および信号処理に関する１９９１年度ＩＥＥＥ
国際会議の議題となった「全単語隠れマルコフモデルに
よる連結ワードの話手検証(Connected Word Talker Ver
ifiactino Using Whole Word Hidden Markov Models)」
（１９９１年５月号の３８１〜３８４頁）といった、話
者検証に効果があることが示された。連結ワード・スト
リングからなる発声音を用いて検証が行われる場合、話
者非依存型と話者依存型ＨＭＭの両方が、しばしば、検
証プロセスに取り入れられている。そういったシステム
１００を図１に示す。話者非依存型ＨＭＭ１１０を使っ
て、入力済み音声の発声音からなるワード・ストリング
を認識し区分化する。このワード区分化に基づき、話者
依存型ＨＭＭ１２０は、次に、そのワード・ストリング
が確かに所定のＩＤを主張する者によって話されたもの
であるかどうかを検証する。

【０００３】ＨＭＭベースの話者検証の性能について
は、ＨＭＭの群正規化または、識別トレーニングのいず
れかが取り入れられている場合に、改善がみられた。こ
れについては、発声言語処理に関する１９９２年度の国
際会議の議題である、Ａ．Ｅ．ローゼンバーグ、Ｃ．
Ｈ．リー、Ｂ．Ｈ．ホアンおよびＦ．Ｋ．スングによる
「話者検証のための群正規化スコアの使用」（５９９〜
６０２頁）および、音響、音声および信号処理に関する
１９９４年度ＩＥＥＥ国際会議の議題であるＣ．Ｓ．リ
ュー、Ｃ．Ｈ．リー、Ｂ．Ｈ．ホアンおよび、Ａ．Ｅ．
ローゼンバーグによる「最小エラー識別トレーニングに
基づいた話者認識」（１９９４年４月号Ｖｏｌ．１、３
２５〜３２８頁）に、それぞれ、述べられている。

【０００４】図２は、群正規化ＨＭＭ（ＣＮＨＭＭ）シ
ステム２００で、これは、話者非依存認識装置２１２付
き装置２１０に記憶された話者非依存ＨＭＭと、群正規
化装置２１４付きＨＭＭによる話者検証装置付き装置２
２０に記憶された話者依存型ＨＭＭを使用する。システ
ム２００はＨＭＭ群正規化のその他の改良された図１に
示されたシステムとほとんど同じ操作を行う。

【０００５】これは、話者検証の際のエラー数を全体的
に減らすものである。多層パーセプトロン（ＭＬＰ）や
線形識別装置といったその他の方法も、音響、音声およ
び信号処理に関する１９９４年度ＩＥＥＥ国際会議の議
題であるＪ．Ｍ．ネイクとＤ．Ｍ．ルーベンスキィによ
る、「電話音声用ハイブリッドＨＭＭ−ＭＬＰ話者検証
アルゴリズム」（１９９４年４月号Ｖｏｌ．１の１５３
〜１５６頁）、音響、音声および信号処理に関する１９
９４年度ＩＥＥＥ国際会議の議題であるＫ．Ｒ．ファレ
ルとＲ．Ｊ．マモンによる「神経系統ネットワークによ
る話者識別」（１９９４年４月号Ｖｏｌ．１の１６５〜
１６８頁）、音響、音声および信号処理に関する１９９
４年度ＩＥＥＥ国際会議の議題であるＪ．ソレンセンと
Ｍ．サビックによる「高性能テキスト単独話者検証シス
テムの階層パターン分類」（１９９４年４月号Ｖｏｌ．
１の１５７〜１６０頁）および、音響、音声および信号
処理に関する１９９４年度ＩＥＥＥ国際会議の議題であ
るＬ．Ｐ．ネッチェとＧ．Ｒ．ドッギングトンによる
「暫定的後処理」（１９９２年３月号Ｖｏｌ．１の１８
１〜１８４頁）の中に述べられている話者検証にうまく
活用されている。

【０００６】

【発明が解決しようとする課題】話者検証分野における
上記の活動（作用）全てが備わっていても、話者検証装
置が、真の話者のようなふりをしている偽りの話者を間
違えて検証し、真の話者を検証するのを拒否することも
まだよく起こる。よって、話者検証についての改良方法
および、改良装置を求める技術分野でのニーズがある。
さらに、話者検証は、一種の話者依存型音声認識である
ため、技術での話者依存型音声認識の改良された装置お
よび方法に対するニーズがある。

【０００７】

【課題を解決するための手段】本発明による話者検証技
術の進歩は、一連の連結数字といった検証装置の用語セ
ットに対応するトレーニングされた話者非依存ＨＭＭに
よる方法および装置を使うことによって達成される。そ
こでは、話者非依存ＨＭＭは連続するミックスチャLeft
-to-Right型ＨＭＭである。本発明の方法及び装置は、
同じワードを話す異なる話者が、個別的に、異なるＨＭ
Ｍ状態ミックスチャ・コンポーネントを起動させるとい
う状況を用いる。従って、そのワードに対する所定の話
者の「ミックスチャ・プロファイル」は、所定のワード
・モデル内にある全ての状態のミックスチャ情報から構
築される。よって、これらの情報から、次ぎにミックス
チャ・プロファイルは、真の話者と偽りの話者とを識別
するベースとして使われる。よって、その名を「ミック
スチャ分解識別」（ＭＤＤ）と呼ぶ。ＭＤＤは、コンピ
ュータまたは同等のシステムのプロセスとして実行され
るとき、これまで未知だった種類の話者検証装置を提供
する。それは、話者検証を行うための状態ミックスチャ
・コンポーネントを用いる。

【０００８】本発明の他の態様において、公知システム
の問題点は、話者検証方法を用いることにより、解決さ
れる。この方法は、第一の隠れマルコフモデルによる話
者非依存音声認識装置を使って音声入力を区分化するス
テップと、特定の話者の話者検証データ・ファイルへの
アクセス・キーを得るために、区分化された音声入力を
認識するステップと、ミックスチャ・コンポーネント・
スコア情報を、線形識別装置に提供するステップと、特
定の話者に対応する真の話者仮説を、特定の話者に対応
する偽りの話者仮説から試験するステップと、音声入力
が特定の話者からのものであるのか、または仮説試験と
所定のしきい値とからのスコアによるものではないのか
を判定するステップとを含む。

【０００９】さらに本発明の他の態様において、公知シ
ステムの問題点は、入力ワード・ストリングの話者検証
システムを使うことによって解決される。このシステム
は、第一のＨＭＭによる話者非依存音声認識装置を含
む。この話者非依存音声認識装置は、多数の話者検証デ
ータ・ファイルのうちの１つへのアクセス・キーを得る
ために、入力されたワード・ストリングを区分化および
認識する。線形識別装置は、話者非依存音声認識装置に
接続される。入力されたワード・ストリングに応じて話
者非依存音声認識装置の内部処理の結果生成されたミッ
クスチャ・コンポーネント・スコア情報は、このミック
スチャ・コンポーネント・スコア情報が、１つのパラメ
ータに組み込まれる前に線形識別装置に提供される。各
話者検証データ・ファイルが特定の話者の偽りの話者仮
説に対してその特定の話者の真の話者仮説を含んでい
る、多数の話者検証データ・ファイルを記憶するための
記憶装置は線形識別装置に接続される。多数の話者検証
データ・ファイルからのアクセス・キーに該当する話者
検証データ・ファイルにアクセスし、このアクセスされ
たデータ・ファイルを伝送するための装置または、線形
識別装置に接続される。線形識別装置の後に、線形識別
装置の出力に接続される判定装置は、音声入力が、その
特定の話者のものであるのか、２つの仮説の試験の結果
出されたスコアによるものではないのかを判定する。

【００１０】

【発明の実施の形態】図３において、新型の話者検証
（ＳＶ）装置３００を示す。ＳＶ装置３００は、話者非
依存（ＳＩ）自動音声認識装置（ＡＳＲ）３０４を有
し、これが、記憶装置３０６からの話者非依存ＨＭＭを
使って、音声認識を行う。話者非依存ＡＳＲ３０４は、
一部の変換器（例：マイクロフォン）を介してライン３
０２上で対応する電気信号または電磁信号へと変換され
た音声を受信する。

【００１１】入力音声は、ある特定のＩＤを持っている
と主張する話者によって話された検証のためのパスワー
ドからなる一連のワード・ストリングから構成されてい
る。話者非依存ＨＭＭセットは、検証装置の用語セッ
ト、例えば、１組みの数字列に対応するモデルから構成
される。話者非依存ＨＭＭセットは記憶装置３０６に記
憶される。話者非依存ＨＭＭは、話者非依存ＡＳＲ３０
４と一緒に次の３つの機能を行う。つまり、１）入力音
声内での１つのワード・ストリングを認識する。２）各
入力ワード・ストリングを区分化する。そして、３）そ
のストリング中の所定ワードに関する状態ミックスチャ
・コンポーネント・スコア情報を提供する。話者非依存
ＡＳＲ３０４は、高性能プロセッサ（図示せず）と、メ
モリ（図示せず）を用いて、話者非依存ＡＳＲをリアル
タイムで実行する。そういったプロセッサとメモリ装置
は、高性能パソコンやワークステーション、音声処理制
御盤およびミニコンピュータに使われている。

【００１２】話者非依存ワード認識機能と区分化機能
は、話者非依存ＡＳＲの標準である。すでに公知の機能
に基づいて、ストリング中の所定ワードに関する状態ミ
ックスチャ・コンポーネント・スコア情報を提供する機
能を行えるという３番目の機能が新しい機能である。状
態ミックスチャ・コンポーネント・スコア情報は、通
常、話者非依存ＨＭＭＡＳＲによって生成されるが、
しかし、生成された情報は、次に、１個のパラメータに
組み込まれ、その値はＨＭＭＡＳＲの中で使われる。
本発明は、まだ、それが、分解される間に組み合わせら
れる前にこの状態ミックスチャ・コンポーネント・スコ
ア情報を抽出して、それを、ライン３０７を介して、ワ
ード・ベースのミックスチャ分解識別装置（ＭＤＤ）３
１０₁−３１０_Ｎへ入力する。

【００１３】話者非依存ＡＳＲ３０４によって使われる
装置３０６中に記憶された話者非依存ＨＭＭは、用語セ
ット（どんな種類のワードでも構わない）についてトレ
ーニングされているが、連結数字のためのＨＭＭは、ク
レジット・カードとデビット・カードのパーソナルＩＤ
番号ＡＳＲシステムがあるために、うまく開発されてい
る。話者非依存ＨＭＭは、連続ミックスチャLeft-to-Ri
ght型のものである。前回の話者非依存ＨＭＭの状態ミ
ックスチャ・コンポーネントが、１つにまとめられて、
話者非依存認識処理中に１個のパラメータを形成する。
発明家は、同一ワードを話すさまざま異なる話者が、そ
れぞれに、ＨＭＭの状態ミックスチャ・コンポーネント
を始動させることを発見した。そして、もし、所定のワ
ード・モデル内の全状態のミックスチャ情報を考慮する
ならば、「ミックスチャ・プロファイル」が、そのワー
ドに対する所定話者のものが構築される。次に、このミ
ックスチャ・プロファイルは、真の話者と偽りの話者と
を識別するための基準として使うことができる。よっ
て、本発明は、すでに公知の話者非依存ＨＭＭを修正変
更して、その情報が１つにまとめられる前に、ミックス
チャ・コンポーネント・スコアを抽出して転送する。

【００１４】このミックスチャ・コンポーネント・スコ
ア情報は、各識別装置３１０₁−３１０_Ｎの中に組み込
まれ、偽りの話者仮説から真の話者仮説を識別する試験
を行う。従って、検証モデルは、各話者ごとに判断し、
トレーニングされた特定の話者の識別装置の重量ベクト
ルである。これらの重量ファクタは、その記憶容量規定
が比較的小さく、記憶装置３１２の中に記憶される。さ
らに、識別装置３１０₁ −３１０_Ｎは、線形識別装置
であることから、また、ＭＤＤの計算の複雑性も、比較
的低く、そのため必要とされる計算リソースも少ない。

【００１５】ＭＤＤ話者検証プロセスは２つの部分を有
する。すなわち、ワード・レベルの話者検証部分と、そ
れに続くストリング・レベルの話者検証部分とである。
これら２つの部分は、ワード・レベルの話者識別装置３
１０_１−３１０_Ｎと装置３１２に記憶された識別装置重
量と、ストリング・レベルの話者検証装置３１６の中
で、それぞれ行われる。ワード・レベル話者識別装置３
１０_１ −３１０_Ｎと装置３１２に記憶された識別加重
値および、ストリング・レベルの話者検証装置３１６
は、ＡＳＲの場合と同様に、各々が、高性能プロセッサ
とメモリを使用する。事実、ＡＳＲ３０４によって使わ
れるプロセッサとメモリが十分な能力と記憶容量がある
場合、ＡＳＲ３０４、ワード・レベル話者検証装置３１
０_１−３１０_Ｎおよびストリング・レベルの話者検証
装置３１６は全て、同一のプロセッサ、メモリおよび、
記憶装置を使うこともできるだろう。

【００１６】ストリング中の各ワードは、話者非依存Ｈ
ＭＭＡＳＲ３０４によって区分化され、次に、話者識
別装置３１０₁−３１０_Ｎのそれぞれの話者検証装置に
より、操作される。ストリング・レベルの検証プロセス
は、ワード・レベルの検証プロセスの結果と組み合わさ
って、装置３３０によって最終的な合格／不合格の判定
を行う。記憶装置３３２は、判定装置３３０に使われる
しいき値を記憶し、合格／不合格にさせるに十分高いス
コアをあげたかどうかを判定する。ストリングを検証す
るための方法については、後で説明する。判定装置３３
０は、合格かまたは不合格かのいずれかの信号を出力す
る。

【００１７】ワードの検証は、一種の分類またはパター
ン認識である。タイム・シーケンスを取り扱ったいかな
る分類またはパターン認識においても、定数のパラメー
タによって表示することができるように、その信号を時
間正規化させるのが望ましい。ＨＭＭが入力された発声
音中の各ワードを一定のシーケンス状態に時間を正規化
させることで、特徴ベクトルと呼ばれる固定長さのベク
トルによって所定ワードを表すことが可能となる。その
理由については、後で説明する。ＨＭＭ正規化（または
状態区分化）により、入力された発声音中の各フレーム
を特定のＨＭＭ状態の中に割り当てる。特徴ベクトルへ
のミックスチャ・コンポーネント分担を得るために、所
定状態の全てのミックスチャ・コンポーネントの重心
が、その特定の状態に区分化されたフレームについて計
算される。特徴ベクトルは、所定ワード中の全ての状態
ミックスチャ重心ベクトルを連結させることによって形
成される。数学的に、所定状態の多次元のミックスチャ
分布は、次の式によって表される。

【数１】

【００１８】ここに、Ｏは認識装置の観測ベクトル、Ｓ
_ｉｊはｉ番目のワード・モデルのｊ番目の状態、Ｍはガ
ウス・ミックスチャ分布の総数で、ｋ_{ｉ,ｊ，ｍ}は、ミ
ックスチャの重量を表す。ミックスチャ状態重心ベクト
ルのエレメントは、次の式によって算出される。

【数２】

【００１９】ここに、ｑ_１とｑ_２は、ワードｉの状態
ｊに区分化された入力音声セグメントのスタートおよび
エンド・フレームであり、Ｏ_ｑはフレームｑの認識装
置観測ベクトルを表す。ワード・レベル検証装置の特徴
ベクトルであるＸ_ｉは、重心ベクトルｃ_ｉｊの連結で
あり、次の式によって表される。

【数３】

【００２０】ここに、Ｎ_ｉは、ワード・モデルｉの状
態数、肩文字Ｔはベクトル転値である。従って、ｘ_ｉ
の寸法は、Ｎ_ｉｘＭとなる。ワード・レベルの検証
は、次の式によって表される線形識別関数の値を計算す
ることにより行われる。

【数４】

【００２１】ここに、ａ_ｉ，ｋはワードｉを話す話者
ｋの線形識別装置モデルを表す重量ベクトルである。１
人の話者が、話者ｋのＩＤを主張すれば、ワード・レベ
ルの検証スコアは、Ｒ（ａ_ｉ，ｋ，Ｘ_ｉ）を算出する
ことにより求められる。

【００２２】１組の識別装置の加重ベクトル｛ａ_ｉ，ｋ
｝は、フィッシャーの識別判定基準によって算出され
る。この判定基準については、アカデミア・プレス出版
のＲ．マルディア、Ｊ．ケントおよび、Ｊ．ビビィによ
る「多変量分析」（１９７９年）に説明されている。所
定ワードｉと話者ｋについて、フィッシャーの判定基準
は、２つのクラス間を識別するのに用いられる。つま
り、１つのクラスは、真の話者ｋによって話されたワー
ドｉのケースを表し、もう片方のクラスは、話者ｋ以外
の話者（つまり、偽りの話者）によって話されたワード
ｉのケースのことである。Ｘ_ｉ，ｋを、真の話者ｋに
よって話されたワードｉの識別ベクトルとする。さら
に、Ｘ_ｉ，ｋ'を真の話者ｋ以外の話者によって話され
たワードｉの識別ベクトルとしよう。識別装置の加重ベ
クトルａ_ｉ，ｋは、クラス間の二乗和と、クラス内の二
乗和との比率を最大にすることによって、フィッシャー
の判定基準により求められる。特に、その比率は、次の
式によって表される。

【数５】

【００２３】ここに、

【数６】であり、Ｓ_ｉ，ｋとＳ_ｉ，ｋ'はそれぞれ、Ｘ_ｉ，ｋ
とＸ_ｉ，ｋ'の共分散行列である。

【００２４】その比率Ｔ（ａ_ｉ，ｋ）を最大にするベ
クトルａ_ｉ，ｋは、行列Ｗ^−１Ｂの最大固有値に対応
する固有ベクトルによって求められることが示された。
２つのクラス間識別については、行列Ｗ^−１Ｂは、ゼロ
（０）以外の固有値のみを有する。従って、対応する固
有ベクトルは、Ｔ（ａ_ｉ，ｋ）を最大にする解法であ
り、次の式によって表される。

【数７】

【００２５】ここに、

【数８】

【００２６】最後の２つの式から分かるように、ａ
_ｉ，ｋの測定値を求めるには、ワードｉを話す真の話
者ｋと偽りの話者ｋの両方のトレーニング手本が必要と
される。偽りのデータは、ある検証用途において、簡単
にシミュレートされる。そこでは、登録された全ての話
者が、そのパスワードを構築するために、共通のワード
・セットを用いる。この一例として、連結数字ストリン
グによる検証がある。この場合、数字が共通のワード・
セットであり、話者ｋの偽りのトレーニング・データ
は、登録されているその他の話者によって話されたトレ
ーニング数字行列の全部または一部であると考えられ
る。個人別のパスワードを使う場合、偽りのデータ・コ
レクションは、識別を行うために必要となるだろう。

【００２７】ストリング・レベルでの検証は、単にワー
ド・レベルの検証スコアを、ストリング中の全ワードで
平均することにより行われる。従って、ストリング・レ
ベルの検証スコアは、次の式によって表される。

【数９】

【００２８】ここに、Ｐはストリング中のキーワードの
数で、ｆ（ｐ）はストリング中のｐ番目のワードのワー
ド指数である。合格／不合格の判定は、Ｖ_ｋ ^{（ｍｄｄ）}
をしきい値とで比較することによって行われる。

【００２９】最後の式によって結論付けられるように、
所定の話者ｋのＭＤＤ検証モデルは、その話者の検証用
語中の全ワードに対応するベクトルａ_ｉ，ｋから構成
される。各ベクトルは、Ｎ_ｉｘＭエレメントを有す
る。Ｎ_ｉとＭの代表的な数値は、Ｎ_ｉ＝１０と、Ｍ＝
１６である。一例として、検証ワード・セットが、１１
のワード（０〜９、Ｏｈ（オー））から構成されている
場合の連結数字検証シナリオを使用すると、１人の話者
の完全な検証モデルは１７６０個のパラメータによって
表される。ＭＤＤの演算規定は、一連のドットの積と１
つの和から構成される。

【００３０】組み合された検証システム内において、Ｍ
ＤＤとＣＮＨＭＭ方法を組み合せるハイブリッド方式
は、個々の方式よりも著しく好成績を示した。というの
も、個々の方式によるエラーは、一般的に相関関係がな
いとされるからである。これら２つのアプローチを１つ
のシステムに組合せるために、２つの方法の出力値が１
個の検証パラメータに達するような何らかの方法で組み
合わされる必要がある。ＭＤＤ方法の必要な計算量はと
ても少ないため、ＣＮＨＭＭ方法は、全般的なシステム
に重荷とならないように追加することができることに注
意しなくてはならない。これは、一部に、ＣＮＨＭＭに
必要とされる全ての入力が、話者非依存ＨＭＭを使って
入力された発声音を処理している間にすでに区分化され
ているためである。

【００３１】図４に示されるハイブリッド・システム
は、全般的な検証スコアに達するために、群正規化ＨＭ
Ｍスコアと、所定の試験ストリングのＭＤＤスコアとを
組み合わせたものである。組み合わされた検証スコア
は、次の式によって算出する。

【数１０】

【００３２】ここに、ｂ_ｋ ^{（ｃｎｈｍｍ）}とｂ_ｋ
^{（ｍｄｄ）}は、トレーニング段階の一部として、算出さ
れた特定の話者の重量測定ファクタを示す。これらの重
量は、ＭＤＤの重量ベクトル｛ａ_ｉ，ｋ｝を求めるの
に使われたものと類似した識別分析手順を通して、算出
される。しかし、ここで、識別ベクトルは２つのエレメ
ントから構成されている。つまり、Ｖ_ｋ ^{（ｃｎｈｍｍ）}
とＶ_ｋ ^{（ｍｄｄ）}とである。再度、フィッシャーの識別
判定基準を用いて、２つのクラスのストリング、つま
り、話者ｋの話者ｋによって話されたストリングと偽り
の話者によって話されたストリングとを識別する。

【００３３】装置３１７内で使われる話者依存型ＨＭＭ
のトレーニングは、所定の話者のトレーニングされた発
声音を話者非依存ＨＭＭによる個々のワード・セグメン
トに区分化することによって始まる。この話者非依存モ
デルは、前述の通り、ＭＤＤ方式で使われたものと同じ
ものである。個々のワード・セグメントは、次ぎに、複
数の状態に区分化されるが、その初期状態セグメントは
線形である。各状態ごとの観測ベクトルは、Ｋ手段クラ
スタリング・アルゴリズムを使ってクラスタされる。こ
れについては、例えば音響、音声および信号処理に関す
るＩＥＥＥトランザクションであるＪ．Ｇ．ウィルポン
とＬ．Ｐ．ラビナーによる「孤立ワードに使われる修正
済みＫ手段クラスタリング・アルゴリズム」（１９８５
年６月号Ｖｏｌ．３３の５８７〜５９４頁）に説明され
ている。その結果できたモデルがビタビ検索を用いて各
トレーニング・ワードの状態を再区分化するのに使われ
る。Ｋ手段クラスタリングの後のこの状態区分化処理
は、２、３回繰り返される。典型的には、平均的モデル
の尤度が、初期線形状態区分化後に収束するのに、普通
３回繰り返せば十分である。実験結果から、普通、モデ
ル分散推定値は悪く、所定の話者のトレーニング・デー
タが限られているために、所定の話者の全てのワード、
状態、およびミックスチャを平均して、平均分散にモデ
ル分散を固定することで最良の結果が得られるというこ
とが分かった。

【００３４】検証プロセスは、固定変数の話者依存型Ｈ
ＭＭと、限定文法付き話者非依存ＨＭＭを用いて試験発
声音をいくつかのワードに区分化する。持続時間正規化
尤度スコアは、入力ストリング中の各ワードごとに算出
される。無音以外のワードのワード尤度スコアは、試験
発声音のストリングの尤度スコアに達するように一緒に
平均される。

【００３５】群正規化は、ログ尤度比タイプ試験を確立
する方法である。群正規化は、最大尤度方法と比較する
と、著しく検証性能の点で改善されたことが示された。
この作業の中で、群モデルは、話者非依存ＨＭＭである
とみなされており、これは、つまり、全ての話者が同じ
群モデルを共有しているということを示している。

【００３６】この群モデルを選択することが、特定の話
者の群話者を定義する必要性を低減させる。群ストリン
グ尤度スコアは、話者依存型ストリング尤度スコアを算
出するのと同じ方法で算出される。ストリング確率のロ
グを取ると、ストリング・ログ差が算出される。これ
は、次の式によって表される。

【数１１】

【００３７】ここに、Ｏ、Ｐとｆ（ｐ）は、前述の定義
通りであり、ログ（Ｏ｜λ_{ｆ（ｐ），ｋ}）は、ワードｆ
（ｐ）に対する話者ｋのＨＭＭの持続時間正規化の尤度
であり、ログ［Ｌ（Ｏ｜λ_{ｆ（ｐ），ｃ}）］は、話者非
依存群モデルの持続時間正規化尤度である。もし、ＣＨ
ＮＭＭが検証に単独で使われる場合、その検証は、合格
／不合格の判定を行うために、Ｖ_ｋ ^{（ｃｎｈｍｍ）}をし
きい値とで比較することによって行われる。

【００３８】検証性能については、言語データ・コンソ
ーティアム（ＬＤＣ）から得られるＹＯＨＯ話者検証集
成を用いて試験された。この集成が選択され、それが公
知の「監督下の」話者検証データベースの最大のものの
１つである。ＬＤＣＹＯＨＯの集成は、１つのＣＤ−
ＲＯＭの上にパッケージされ、そのＣＤ−ＲＯＭには、
また、完全なデータベースの記述内容が含まれる。一部
重要な特徴について、ここで要約すると、「組合せロッ
ク」はトリプレット（三つ組み、例えば、２６、８１、
５７等）となる。１３８人を対照とし、その内男性１０
６人と女性が３２人であった。４回の登録セッションに
おいて対象者１人当り９６個の登録トリプレットが集め
られた。対象者１人につき４０個の無作為試験トリプレ
ットで、１０回の検証セッション内に収集された。集成
中のデータは、３ヶ月間で収集されたものであった。
３．８ｋＨｚの帯域幅を有する８ｋＨｚのサンプリング
（抜き取り検査）が行われた。データ・コレクションは
オフィス環境設定において、厳密に監視された中でのコ
レクションであり、高性能電話受信機（シュールＸＴＨ
３８３）は、全ての音声を収集するのに使われた。

【００３９】特徴抽出処理（図示せず）は、ライン３０
２での入力音声を別のステージとして予備処理するか、
または話者非依存認識装置３０４の一部であるかのいず
れかである。特徴抽出処理は、１５ミリ秒ごとに１組の
３８個の特徴を計算する。特徴ベクトルは、１２個のＬ
ＰＣのセプストラル、１２個のデルタ・セプストラル、
１２個のデルタ間セプストラル、デルタ間ログ・エネル
ギーとから構成されている。そのワード・モデル一式は
ＹＯＨＯ用語を網羅するのに１８個のモデルから構成さ
れていると見なされた。１８個のモデルは、「ワン」，
「ツゥ」，．．．，「セブン」，「ナイン」，「トゥエ
ン」，「サー」，．．．，「ナイン」「ティ」と「無
音」に対応している。話者非依存ＨＭＭは、８〜１０個
の状態でトレーニングされた。但し、通常３個の状態だ
けを使ってトレーニングされた「ティ」や「無音」以外
の８〜１０個の状態でトレーニングされた。各状態ごと
の分布は、ガウス・ミックスチャの重量の和によって表
される。但し、ミックスチャの数は、１６に設定され
た。話者依存型ＨＭＭトレーニングは（第３項を参
照）、例えば、通常４〜１０個のこれより少ない数のミ
ックスチャを使った。話者１人当りのＭＤＤモデル・セ
ットは１７個（無音を除く）の識別装置の重量ベクトル
から構成された。１つの話者非依存ＨＭＭ状態につき１
６個のミックスチャ・コンポーネントを用いてＭＤＤモ
デル・ベクトルの寸法の範囲は３個の状態「ティ」モデ
ルの４８〜１０個の状態モデルの１６０までとなってい
る。

【００４０】話者非依存ＨＭＭは、男女の話者１３８名
全員の登録組からのトリプレットを用いて、トレーニン
グされた。特に、各話者の最初の２４個の登録トリプレ
ットがこのトレーニングに使用され、その結果、総数３
３１２個のトレーニング発声音が得られた。話者非依存
ＨＭＭがトレーニングされた後、１０６人の話者の１組
は、無作為に２つの組に分割される。つまり、加入者と
考えられる８１名の話者の組と、非加入者と考えられる
２５名の話者の組とである。

【００４１】ＭＤＤは、識別トレーニング手順に関する
ものであることから、非加入者組の主要目的は、公平な
試験を行うことについてのシナリオを規定することであ
った。それについては、トレーニング段階で用いられた
偽りの話者は、検証に使われたものとは別のものであ
る。非加入者全員の音声は、実際上、トレーニング段階
で使われた開発セットであると考えられた。非加入者の
音声は、検証試験段階にはまったく使われなかった。上
述の通り、各話者はトリプレットの２セットを有してい
る。つまり、登録セットと検証セットである。このデー
タがＭＤＤ、ＣＮＨＭＭとそれらのハイブリッド・シス
テムのトレーニングにいかに使われるかについてこれか
ら説明する。

【００４２】ＭＤＤトレーニング：各加入者について、
真の話者トレーニング発声音として、９６個の登録トリ
プレットを全て使用した。偽りのトレーニング発声音
は、２５人の非加入者の登録発声音全てであるとみなさ
れた。従って、８１名の加入者は、同じ偽りのトレーニ
ング・セットを共有した。そこでは、偽りの発声音数は
２４００個であった。

【００４３】ＣＮＨＭＭトレーニング：各加入者ごと
に、話者依存型ＨＭＭモデルをトレーニングするのに、
９６個の登録トリプレット全部を使用した。ＭＤＤ方法
とは違って、２５名の非加入者からの音声は、本方法の
トレーニング段階において必要とされなかった。

【００４４】ハイブリッド・システム・トレーニング：
このトレーニングは、各発声音（つまり、トリプレット
ごとの）ＣＮＨＭＭとＭＤＤスコアに関して、真の話者
と偽りの発声音クラスについての、フィッシャーの識別
判定基準を適用することからなっている。真の話者試験
発声音は、トレーニング段階で入手できないため、加入
者登録発声音が、真の話者の音声として、ここで再使用
された。これは、つまり、ハイブリッド・システム・ト
レーニングで使われたＭＤＤとＣＮＨＭＭ検証スコア
は、ＭＤＤとＣＮＨＭＭモデル上の「自己テスト」のス
コア（点数）を示すため、現実的ではない。これら「自
己テスト」の真の話者スコアは、最適な状態で、偏向し
ており、話者間の変動性をとらえるものではない。フィ
ッシャーの判定基準が識別特徴ベクトルの手段と変数の
みを必要とするので、この問題は、より現実的な話者間
の変動性を反映するための手段と変数を人為的に調整す
ることによって幾分は軽減することができる。

【００４５】加入者登録と検証音声によるＶ_ｋ
^{（ｃｎｈｍｍ）}とＶ_ｋ ^{（ｍｄｄ）}の手段と変数の調整値
を推定するため、小さなサイド実験が行われた。このサ
イド実験は非加入者のＭＤＤとＣＮＨＭＭモデルを形成
し、その登録セットと検証セットの検証スコアの偏向を
算定することから構成された。ハイブリッド・システム
の偽りのトレーニング・セットは２５人の非加入者のそ
れぞれからの４個の検証トリプレットであると考えられ
た。ＭＤＤか、またはＣＮＨＭＭトレーニング段階のい
ずれかによって非加入者の検証トリプレットが使われな
いし、偏向もしないため、偽りのスコアの手段と変数の
調整は必要でなかった。

【００４６】使用された検証試験手順は、３つの全ての
方法に共通するものだった。各加入者ごとに、その４０
個の検証トリプレットが真の話者の音声であるとみなさ
れた。偽りの音声はその他の８０名の加入者全員の検証
セットからのトリプレットであるとみなした。これは、
加入者１人当りの偽りの発声音数が多すぎることを示し
ているので、８０人の偽りの話者の内のそれぞれから最
初の１０個のトリプレットだけになるよう取り除かれ
た。よって、各加入者ごとの偽りの発声音数は、８００
だった。上記データ編成記述内容が示す通り、全ての実
験を通して、検証テスト段階中は、非常に公平を期すこ
とに全力を尽くした。例えば、トレーニングのための偽
りのセットは、１０６名の話者の完全な１セットの内の
無作為のサブセットであった。そして、試験の偽りのセ
ットには、トレーニング偽りセットと共通する話者はい
なかった。また、加入者検証発声音からの情報は、いか
なるトレーニング段階にも使われることはなかった。

【００４７】ＭＤＤ、ＣＮＨＭＭおよびハイブリッド・
システムの３つの方法の検証性能は、受信者特性（ＲＯ
Ｃ）の測定値を用いて比較することができる。ＲＯＣ測
定は、偽りの合格率（タイプIIのエラー）と偽りの不合
格率（タイプＩのエラー）を算定する。ＲＯＣ測定デー
タは、また、１人の話者につき１つの方法で、均等な誤
り率（ＥＥＲ）を算出するのに用いられる。

【００４８】図５は、３つの方法の各々について、ＥＥ
Ｒの平均値と中央値を示す。本表は、ＥＥＲ平均値が、
ＣＮＨＭＭ方法の０．４７３０％からハイブリッド方法
の０．２２５％へと低下しており、４６％の改善率を示
している。ＥＥＲ中央値は、０．２２７％から０％へと
低下した。８１名の加入者の内４５名についてハイブリ
ッド・システムの方が、ＣＮＨＭＭとＭＤＤの両方より
低いＥＥＲ値となった。わずか８名の加入者だけが、２
つの個々の方法の内の１つでハイブリッド・システムよ
りもわずかに低いＥＥＲ値となった。残り２８名の加入
者は、ハイブリッド・システムのＥＥＲ値がＭＤＤとＣ
ＮＨＭＭに対応する２つのＥＥＲ値の内の小さいほうと
等しくなった。

【００４９】試験結果から、ハイブリッド・システム４
００は、個々の方法のいずれか１つよりも、著しく高い
成績をおさめたということが示された。これは、一般的
に、１つの方法によるほとんどの検証エラーはその他の
方法とは共通しておらず、ハイブリッド・システム４０
０中の２つの方法を使って、総合的な性能が改善される
ことを示すものである。

【００５０】さらに定量的な試験においては、２つの方
法による検証エラーの相関関係は、χ^２（カイの二乗）
試験によって評価され、その結果、ＭＤＤ方法のエラー
は、ＣＮＨＭＭ方法のエラーに対して余り相関関係がな
いことが示された。

【００５１】よって、ミックスチャ分解識別と呼ばれる
新しい話者検証方法が開示されたことは評価されるだろ
う。ＭＤＤを使用するための装置も開示された。本発明
ついては、特に、その好ましい実施例に関して図示し、
説明されたが、形状、詳細および用途についてのさまざ
まな変更を行うことができるということは、技術に熟練
した者に理解されるであろう。例えば、ワード認識の代
わりに、サブワード認識を用いる方法や装置の適用等が
あげられる。よって、添付の請求の範囲は、上記発明の
適用範囲内におけるそういった形状、詳細、および用途
の変更全てにわたるものである。

【図面の簡単な説明】

【図１】公知の話者検証装置のブロック図である。

【図２】他の公知の話者検証装置のブロック図である。

【図３】本発明によるミックスチャ分解識別を用いた話
者検証装置の公知の話者検証装置のブロック図である。

【図４】ミックスチャ分解識別と群正規化ＨＭＭとの組
合せによる話者検証装置のブロック図である。

【図５】群正規化ＨＭＭ、ミックスチャ分解識別装置
と、その両方を組合せたものの誤り率を示した表であ
る。

───────────────────────────────────────────────────── フロントページの続き (72)発明者アナンドランガスワミーセットラーアメリカ合衆国 60555 イリノイズ, ウォーレンヴィル，ドッグウッドコート２エス481 (72)発明者ラフィッドアントーンサッカーアメリカ合衆国 60504 イリノイズ, オーロラ，フォレストヴューレーン 68 (56)参考文献特開平５−323990（ＪＰ，Ａ) 特公平３−70239（ＪＰ，Ｂ２) 特公平７−58435（ＪＰ，Ｂ２) 特許3080388（ＪＰ，Ｂ２) 特許2564200（ＪＰ，Ｂ２) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/00 - 17/00

Claims

(57)【特許請求の範囲】

【請求項１】入力ワード・ストリングの話者検証装置
であって、第一隠れマルコフモデル（ＨＭＭ）を用いた話者非依存
音声認識装置からなり、前記話者非依存音声認識装置
は、前記入力ワード・ストリングを区分化し認識して、
特定の話者の話者検証データ・ファイルへのアクセス・
キーを複数の話者検証データファイルから得るものであ
り、さらに、線形識別器と、ミックスチャ・コンポーネント・スコア情報が単一定量
へ結合される前に、前記ミックスチャ・コンポーネント
・スコア情報を、前記話者非依存音声認識装置の内部に
おける処理から前記線形識別器へ提供する手段と、複数の話者検証データファイルを記憶する手段とからな
り、前記複数の話者検証データファイルの各々は、偽話
者仮説または偽話者モデルのそれぞれに対する検査によ
って展開された、話者それぞれに対する真話者仮説また
は真話者モデルを含有するものであり、さらに、前記複数の話者検証データ・ファイルから前記アクセス
・キーと関連する話者検証データ・ファイルにアクセス
し、前記アクセスされたデータ・ファイルを前記線形識
別器に伝送する手段とからなり、前記線形識別器は前記アクセスされた話者検証データフ
ァイルを処理して複数のワード検証スコアを生成するも
のであり、さらに、前記音声入力が特定の話者からのものか否かを、前記複
数のワード検証スコアに従って判断する手段とからなる
ことを特徴とする装置。
【請求項２】請求項１に記載の装置において、前記入
力ワード・ストリングが複数の数字であり、前記話者非
依存音声認識装置は連結された数字を認識することを特
徴とする装置。
【請求項３】請求項１に記載の装置において、前記複
数の話者検証データ・ファイルの各々が、そのファイル
と関連するそれぞれの真話者の音声とこれに対応する偽
話者の音声とからミックスチャ・コンポーネント・スコ
ア情報を使ってトレーニングされ、前記トレーニングに
より、話者検証のために前記線形識別装置によって使わ
れる話者依存型加重値が生成されることを特徴とする装
置。
【請求項４】請求項１に記載の装置において、前記音
声入力が特定の話者からのものか否かを前記複数のワー
ド検証スコアに従って判断する手段は、所定しきい値を
含むことを特徴とする装置。
【請求項５】請求項１に記載の装置においてさらに、
第一隠れマルコフモデルを用いる前記話者非依存音声認
識装置に接続された、複数の群正規化ＨＭＭを用いる話
者依存型検証手段とからなり、前記話者依存型検証手段は、前記入力ワード・ストリン
グのセグメントと、前記話者非依存音声認識装置からの
アクセス・キーを受信するものであり、そして、前記話者依存型検証手段は、前記アクセス・キー用いて
前記複数の群正規化ＨＭＭから特定の群正規化ＨＭＭへ
アクセスし、そして前記特定の群正規化ＨＭＭを用いて
前記入力ワード・ストリングの群正規化ＨＭＭスコアを
得るものであり、該装置はさらに、特定の話者を検証または検証しないために、前記群正規
化ＨＭＭスコアを前記ワード検証スコアと組み合わせる
手段とからなることを特徴とする装置。
【請求項６】話者を検証する方法であって、第一隠れマルコフモデルを用いた話者非依存音声認識装
置で音声入力を区分化するステップと、特定の話者の話者検証データ・ファイルへのアクセス・
キーを得るために、区分化された音声入力を認識するス
テップと、線形識別装置にミックスチャ・コンポーネント・スコア
情報を提供するステップと、特定の話者に対する真話者仮説をその特定の話者に対す
る偽話者仮説とから識別する試験を行うステップと、前記音声入力が特定の話者からのものか否かを、仮説試
験からの識別スコアと所定のしきい値とに従って判断す
るステップとからなることを特徴とする方法。
【請求項７】請求項６に記載の方法においてさらに、前記試験を行うステップの前に、特定の話者の真話者仮
説と偽話者仮説とに対する線形識別加重値を判定するス
テップとからなることを特徴とする方法。
【請求項８】電気信号に変換された入力音声から話者
検証を行う方法であって、入力音声から入力ワードを区分化するステップと、話者非依存隠れマルコフモデル（ＨＭＭ）認識装置によ
って前記ワード・ストリングを認識するステップと、前記ワード・ストリングを、認識されたワードのグルー
プとして話者依存型認識装置に提供するステップと、認識された前記ワード・ストリングの各ワードを表す英
数字を出力するステップと、ストリング中の各ワードに対し、前記話者非依存ＨＭＭ
認識装置から状態ミックスチャ・コンポーネント・スコ
ア情報をミックスチャ分解識別装置に提供するステップ
と、話者検証に対し、前記ミックスチャ・コンポーネント・
スコア情報を用いるステップとからなることを特徴とす
る方法。
【請求項９】請求項８に記載の方法においてさらに、英数字を出力するステップの後に、前記英数字を用いて
ミックスチャ分解識別装置の話者依存型データにアクセ
スするステップからなることを特徴とする方法。
【請求項１０】電気信号に変換された入力音声から話
者検証を行う方法であって、入力音声から入力ワードを区分化するステップと、話者非依存隠れマルコフモデル（ＨＭＭ）認識装置によ
って前記ワード・ストリングを認識するステップと、認識された前記ワード・ストリングの各ワードを表す英
数字を出力するステップと、ストリング中の各ワードに対し、前記話者非依存ＨＭＭ
認識装置から状態ミックスチャ・コンポーネント・スコ
ア情報をミックスチャ分解識別装置に提供するステップ
と、話者検証に対し、前記ミックスチャ・コンポーネント・
スコア情報を用いるステップとからなることを特徴とす
る方法。
【請求項１１】請求項１０に記載の方法においてさら
に、前記話者非依存ＨＭＭ認識装置からの区分化された入力
ワード・ストリングを、群正規化ＨＭＭを用いて話者検
証装置に提供するステップと、前記英数字を、話者依存型群正規化ＨＭＭ認識装置を用
いて前記話者検証装置に提供するステップと、前記英数字を用いて、前記英数字と関連する前記群正規
化ＨＭＭの前記話者依存型データにアクセスするステッ
プと、前記群正規化ＨＭＭに従って話者検証スコアを判定する
ステップと、話者検証に対し、前記ミックスチャ・コンポーネント・
スコア情報と合わせて前記群正規化ＨＭＭの前記話者検
証スコアを用いるステップとからなることを特徴とする
方法。