JPH08314491A

JPH08314491A - ミックスチャ分解識別による話者検証方法と装置

Info

Publication number: JPH08314491A
Application number: JP8123854A
Authority: JP
Inventors: Malan Bhatki Gandhi; バクティガンドヒマラン; Anand Rangaswamy Setlur; ランガスワミーセットラーアナンド; Rafid Antoon Sukkar; アントーンサッカーラフィッド
Original assignee: A T and T I P M CORP; AT&T Corp; AT&T IPM Corp
Current assignee: A T and T I P M CORP; AT&T Corp
Priority date: 1995-05-22
Filing date: 1996-05-20
Publication date: 1996-11-29
Anticipated expiration: 2016-05-20
Also published as: EP0744734A2; DE69615748D1; EP0744734A3; CA2173302A1; JP3532346B2; US5687287A; EP0744734B1; CA2173302C; DE69615748T2

Abstract

(57)【要約】【課題】精度の高い音声認識を実現する。【解決手段】ミックスチャ分解識別（ＭＤＤ）と呼ば
れる新型話者検証方法およびＭＤＤを使うための新しい
装置について示す。ＭＤＤは話者個別認識装置からミッ
クスチャ・コンポーネント・スコア情報を取り出し、こ
の情報が単一の話者個別認識装置のパラメータに組み込
まれる前にＨＭＭの状態応答を示すコンポーネント・ス
コアのミックスチャとして、まだ分解されている間にこ
の情報を伝送する。ＭＤＤは群正規化された話者依存型
ＨＭＭに基づいた既存の検証方法の性能を改善させるの
に非常に効果的である。ＭＤＤは話者依存型線形識別装
置と一緒に使われる。これは、比較的演算容量と記憶容
量が少ない。これにより、ハイブリッドＭＤＤ／ＣＮＨ
ＭＭシステムの高い性能は、演算とデータ記憶アセット
を最小限拡大するだけで達成することができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識と話者検
証を行う方法及び装置に関し、特に、話者個別隠れマル
コフモデル（ＨＭＭ）と、話者依存型認識装置または検
証装置に関する。

【０００２】

【従来の技術】自動話者検証は、最近行なわれた多くの
研究努力の主要課題となっているものである。ＨＭＭに
よる音声モデリングは、例えば、Ａ．Ｅ．ローゼンバー
グ、Ｃ．Ｈ．リーおよびＳ．Ｌ．ゴッチェンによる音
響、音声および信号処理に関する１９９１年度ＩＥＥＥ
国際会議の議題となった「全世界隠れマルコフモデルに
よる連結ワードの話手検証」（１９９１年５月号の３８
１〜３８４頁）といった、話者検証に効果があることが
示された。連結ワード・ストリングからなる発声音を用
いて検証が行われる場合、話者個別型と話者依存型ＨＭ
Ｍの両方が、しばしば、検証プロセスに取り入れられて
いる。そういったシステム１００を図１に示す。話者個
別ＨＭＭ１１０を使って、入力済み音声の発声音からな
るワード・ストリングを認識し区分化する。このワード
区分化に基づき、話者依存型ＨＭＭ１２０は、次に、そ
のワード・ストリングが確かに所定のＩＤを主張する者
によって話されたものであるかどうかを検証する。

【０００３】ＨＭＭベースの話者検証の性能について
は、ＨＭＭの群正規化または、識別トレーニングのいず
れかが取り入れられている場合に、改善がみられた。こ
れについては、発声言語処理に関する１９９２年度の国
際会議の議題である、Ａ．Ｅ．ローゼンバーグ、Ｃ．
Ｈ．リー、Ｂ．Ｈ．ホアンおよびＦ．Ｋ．スングによる
「話者検証のための群正規化スコアの使用」（５９９〜
６０２頁）および、音響、音声および信号処理に関する
１９９４年度ＩＥＥＥ国際会議の議題であるＣ．Ｓ．リ
ュー、Ｃ．Ｈ．リー、Ｂ．Ｈ．ホアンおよび、Ａ．Ｅ．
ローゼンバーグによる「最小エラー識別トレーニングに
基づいた話者認識」（１９９４年４月号Ｖｏｌ．１、３
２５〜３２８頁）に、それぞれ、述べられている。

【０００４】図２は、群正規化ＨＭＭ（ＣＮＨＭＭ）シ
ステム２００で、これは、話者個別認識装置２１２付き
装置２１０に記憶された話者個別ＨＭＭと、群正規化装
置２１４付きＨＭＭによる話者検証装置付き装置２２０
に記憶された話者依存型ＨＭＭを使用する。システム２
００はＨＭＭ群正規化のその他の改良された図１に示さ
れたシステムとほとんど同じ操作を行う。

【０００５】これは、話者検証の際のエラー数を全体的
に減らすものである。多層パーセプトロン（ＭＬＰ）や
線形識別装置といったその他の方法も、音響、音声およ
び信号処理に関する１９９４年度ＩＥＥＥ国際会議の議
題であるＪ．Ｍ．ネイクとＤ．Ｍ．ルーベンスキィによ
る、「電話音声用ハイブリッドＨＭＭ−ＭＬＰ話者検証
アルゴリズム」（１９９４年４月号Ｖｏｌ．１の１５３
〜１５６頁）、音響、音声および信号処理に関する１９
９４年度ＩＥＥＥ国際会議の議題であるＫ．Ｒ．ファレ
ルとＲ．Ｊ．マモンによる「神経系統ネットワークによ
る話者識別」（１９９４年４月号Ｖｏｌ．１の１６５〜
１６８頁）、音響、音声および信号処理に関する１９９
４年度ＩＥＥＥ国際会議の議題であるＪ．ソレンセンと
Ｍ．サビックによる「高性能テキスト単独話者検証シス
テムの階層パターン分類」（１９９４年４月号Ｖｏｌ．
１の１５７〜１６０頁）および、音響、音声および信号
処理に関する１９９４年度ＩＥＥＥ国際会議の議題であ
るＬ．Ｐ．ネッチェとＧ．Ｒ．ドッギングトンによる
「暫定的後処理」（１９９２年３月号Ｖｏｌ．１の１８
１〜１８４頁）の中に述べられている話者検証にうまく
活用されている。

【０００６】

【発明が解決しようとする課題】話者検証分野における
上記の活動（作用）全てが備わっていても、話者検証装
置が、真の話者のようなふりをしている偽りの話者を間
違えて検証し、真の話者を検証するのを拒否することも
まだよく起こる。よって、話者検証についての改良方法
および、改良装置を求める技術分野でのニーズがある。
さらに、話者検証は、一種の話者依存型音声認識である
ため、技術での話者依存型音声認識の改良された装置お
よび方法に対するニーズがある。

【０００７】

【課題を解決するための手段】本発明による話者検証技
術の進歩は、一連の連結数字といった検証装置の用語セ
ットに対応するトレーニングされた話者個別ＨＭＭによ
る方法および装置を使うことによって達成される。そこ
では、話者個別ＨＭＭは連続するミックスチャ左右方向
ＨＭＭである。本発明の方法及び装置は、さまざまな異
なる話者によって同じワードが話されることにより、個
々のＨＭＭ状態ミックスチャ・コンポーネントを、別々
に、起動させることを観察する装置を用いる。従って、
そのワードに対する所定の話者の「ミックスチャ・プロ
ファイル」は、所定のワード・モデル内にある全ての状
態のミックスチャ情報から構築される。よって、これら
の情報から、次ぎにミックスチャ・プロファイルは、真
の話者と偽りの話者とを識別するベースとして使われ
る。よって、その名を「ミックスチャ分解識別」（ＭＤ
Ｄ）と呼ぶ。ＭＤＤは、コンピュータまたは同等のシス
テムのプロセスとして実行されるとき、これまで未知だ
った種類の話者検証装置を提供する。それは、話者検証
を行うための状態ミックスチャ・コンポーネントを用い
る。

【０００８】本発明の他の態様において、公知システム
の問題点は、話者検証方法を用いることにより、解決さ
れる。この方法は、第一の隠れマルコフモデルによる話
者個別音声認識装置を使って音声入力を区分化するステ
ップと、特定の話者の話者検証データ・ファイルへのア
クセス・キーを得るために、区分化された音声入力を認
識するステップと、ミックスチャ・コンポーネント・ス
コア情報を、線形識別装置に提供するステップと、特定
の話者に対応する真の話者仮説を、特定の話者に対応す
る偽りの話者仮説から識別する試験するステップと、音
声入力が特定の話者からのものであるのか、または仮説
試験と所定のしきい値からのスコアによるものではない
かを判定するステップとを含む。

【０００９】さらに本発明の他の態様において、公知シ
ステムの問題点は、入力ワード・ストリングの話者検証
システムを使うことによって解決される。このシステム
は、第一のＨＭＭによる話者個別音声認識装置を含む。
この話者個別音声認識装置は、多数の話者検証データ・
ファイルのうちの１つへのアクセス・キーを得るため
に、入力されたワード・ストリングを区分化および認識
する。線形識別装置は、話者個別音声認識装置に接続さ
れる。入力されたワード・ストリングに応じて話者個別
音声認識装置の内部処理の結果生成されたミックスチャ
・コンポーネント・スコア情報は、このミックスチャ・
コンポーネント・スコア情報が、１つのパラメータに組
み込まれる前に線形識別装置に提供される。各話者検証
データ・ファイルが特定の話者の偽りの話者仮説に対し
てその特定の話者の真の話者仮説を含んでいる、多数の
話者検証データ・ファイルを記憶するための記憶装置は
線形識別装置に接続される。多数の話者検証データ・フ
ァイルからのアクセス・キーに該当する話者検証データ
・ファイルにアクセスし、このアクセスされたデータ・
ファイルを伝送するための装置または、線形識別装置に
接続される。線形識別装置の後に、線形識別装置の出力
に接続される判定装置は、音声入力が、その特定の話者
のものであるのか、２つの仮説の試験の結果出されたス
コアによるものではないかを判定する。

【００１０】

【発明の実施の形態】図３において、新型の話者検証
（ＳＶ）装置３００を示す。ＳＶ装置３００は、話者個
別（ＳＩ）自動音声認識装置（ＡＳＲ）３０４を有し、
これが、記憶装置３０６からの話者個別ＨＭＭを使っ
て、音声認識を行う。話者個別ＡＳＲ３０４は、一部の
変換器（例：マイクロフォン）を介してライン３０２上
で対応する電気信号または電磁信号へと変換された音声
を受信する。

【００１１】入力音声は、ある特定のＩＤを持っている
と主張する話者によって話された検証のためのパスワー
ドからなる一連のワード・ストリングから構成されてい
る。話者個別ＨＭＭセットは、検証装置の用語セット、
例えば、１組みの数字列に対応するモデルから構成され
る。話者個別ＨＭＭセットは記憶装置３０６に記憶され
る。話者個別ＨＭＭは、話者個別ＡＳＲ３０４と一緒に
次の３つの機能を行う。つまり、１）入力音声内での１
つのワード・ストリングを認識する。２）各入力ワード
・ストリングを区分化する。そして、３）そのストリン
グ中の所定ワードに関する状態ミックスチャ・コンポー
ネント・スコア情報を提供する。話者個別ＡＳＲ３０４
は、高性能プロセッサ（図示せず）と、メモリ（図示せ
ず）を用いて、話者個別ＡＳＲをリアルタイムで実行す
る。そういったプロセッサとメモリ装置は、高性能パソ
コンやワークステーション、音声処理制御盤およびミニ
コンピュータに使われている。

【００１２】話者個別ワード認識機能と区分化機能は、
話者個別ＡＳＲの標準である。すでに公知の機能に基づ
いて、ストリング中の所定ワードに関する状態ミックス
チャ・コンポーネント・スコア情報を提供する機能を行
えるという３番目の機能が新しい機能である。状態ミッ
クスチャ・コンポーネント・スコア情報は、通常、話者
個別ＨＭＭＡＳＲによって生成されるが、しかし、生
成された情報は、次に、１個のパラメータに組み込ま
れ、その値はＨＭＭＡＳＲの中で使われる。本発明
は、まだ、それが、分解される間に組み合わせられる前
にこの状態ミックスチャ・コンポーネント・スコア情報
を抽出して、それを、ライン３０７を介して、ワード・
ベースのミックスチャ分解識別装置（ＭＤＤ）３１０_I
−３１０_N へ入力する。

【００１３】話者個別ＡＳＲ３０４によって使われる装
置３０６中に記憶された話者個別ＨＭＭは、用語セット
（どんな種類のワードでも構わない）についてトレーニ
ングされているが、連結数字のためのＨＭＭは、クレジ
ット・カードとデビット・カードのパーソナルＩＤ番号
ＡＳＲシステムがあるために、うまく開発されている。
話者個別ＨＭＭは、連続ミックスチャ左右方向タイプの
ものである。前回の話者個別ＨＭＭの状態ミックスチャ
・コンポーネントが、１つにまとめられて、話者個別認
識処理中に１個のパラメータを形成する。発明家は、同
一ワードを話すさまざま異なる話者が、それぞれに、Ｈ
ＭＭの状態ミックスチャ・コンポーネントを始動させる
ことを発見した。そして、もし、所定のワード・モデル
内の全状態のミックスチャ情報を考慮するならば、「ミ
ックスチャ・プロファイル」が、そのワードに対する所
定話者のものが構築される。次に、このミックスチャ・
プロファイルは、真の話者と偽りの話者とを識別するた
めの基準として使うことができる。よって、本発明は、
すでに公知の話者個別ＨＭＭを修正変更して、その情報
が１つにまとめられる前に、ミックスチャ・コンポーネ
ント・スコアを抽出して転送する。

【００１４】このミックスチャ・コンポーネント・スコ
ア情報は、各識別装置３１０_I −３１０_N の中に組み込
まれ、偽りの話者仮説から真の話者仮説を識別する試験
を行う。従って、検証モデルは、各話者ごとに判断し、
トレーニングされた特定の話者の識別装置の重量ベクト
ルである。これらの重量ファクタは、その記憶容量規定
が比較的小さく、記憶装置３１２の中に記憶される。さ
らに、識別装置３１０_I −３１０_N は、線形識別装置で
あることから、また、ＭＤＤの計算の複雑性も、比較的
低く、そのため必要とされる計算リソースも少ない。

【００１５】ＭＤＤ話者検証プロセスは２つの部分を有
する。すなわち、ワード・レベルの話者検証部分と、そ
れに続くストリング・レベルの話者検証部分とである。
これら２つの部分は、ワード・レベルの話者識別装置３
１０_I −３１０_N と装置３１２に記憶された識別装置重
量と、ストリング・レベルの話者検証装置３１６の中
で、それぞれ行われる。ワード・レベル話者識別装置３
１０_I −３１０_N と装置３１２に記憶された識別加重値
および、マトリックス・レベルの話者検証装置３１６
は、ＡＳＲの場合と同様に、各々が、高性能プロセッサ
とメモリを使用する。事実、ＡＳＲ３０４によって使わ
れるプロセッサとメモリが十分な能力と記憶容量がある
場合、ＡＳＲ３０４、ワード・レベル話者検証装置３１
０_I −３１０_N およびストリング・レベルの話者検証装
置３１６は全て、同一のプロセッサ、メモリおよび、記
憶装置を使うこともできるだろう。

【００１６】ストリング中の各ワードは、話者個別ＨＭ
ＭＡＳＲ３０４によって区分化され、次に、話者識別
装置３１０_I −３１０_N のそれぞれの話者検証装置によ
り、操作される。ストリング・レベルの検証プロセス
は、ワード・レベルの検証プロセスの結果と組み合わさ
って、装置３３０によって最終的な合格／不合格の判定
を行う。記憶装置３３２は、判定装置３３０に使われる
しいき値を記憶し、合格／不合格にさせるに十分高いス
コアをあげたかどうかを判定する。ストリングを検証す
るための方法については、後で説明する。判定装置３３
０は、合格かまたは不合格かのいずれかの信号を出力す
る。

【００１７】ワードの検証は、一種の分類またはパター
ン認識である。タイム・シーケンスを取り扱ったいかな
る分類またはパターン認識においても、定数のパラメー
タによって表示することができるように、その信号を時
間正規化させるのが望ましい。ＨＭＭが入力された発声
音中の各ワードを一定のシーケンス状態に時間を正規化
させることで、特徴ベクトルと呼ばれる固定長さのベク
トルによって所定ワードを表すことが可能となる。その
理由については、後で説明する。ＨＭＭ正規化（または
状態区分化）により、入力された発声音中の各フレーム
を特定のＨＭＭ状態の中に割り当てる。特徴ベクトルへ
のミックスチャ・コンポーネント負担を得るために、所
定状態の全てのミックスチャ・コンポーネントの重心
が、その特定の状態に区分化されたフレームについて計
算される。特徴ベクトルは、所定ワード中の全ての状態
ミックスチャ重心ベクトルを連結させることによって形
成される。数学的に、所定状態の多次元のミックスチャ
分布は、次の式によって表される。

【数１】

【００１８】ここに、Ｏは認識装置の観測ベクトル、Ｓ
_ijはｉ番目のワード・モデルのｊ番目の状態、Ｍはガウ
ス・ミックスチャ分布の総数で、ｋ_ij,mは、ミックスチ
ャの重量を表す。ミックスチャ状態重心ベクトルのエレ
メントは、次の式によって算出される。

【数２】

【００１９】ここに、ｑ₁ とｑ₂ は、ワードｉの状態ｊ
に区分化された入力音声セグメントのスタートおよびエ
ンド・フレームであり、Ｏ_q はフレームｑの認識装置観
測ベクトルを表す。ワード・レベル検証装置の特徴ベク
トルであるＸ_i は、重心ベクトルｃ_ijの連結であり、次
の式によって表される。

【数３】

【００２０】ここに、Ｎ_i は、ワード・モデルｉの状態
数、肩文字Ｔはベクトル転値である。従って、ｘ_i の寸
法は、Ｎ_i ｘＭとなる。ワード・レベルの検証は、次の
式によって表される線形識別関数の値を計算することに
より行われる。

【数４】

【００２１】ここに、ａ_i,k はワードｉを話す話者ｋの
線形識別装置モデルを表す重量ベクトルである。１人の
話者が、話者ｋのＩＤを主張すれば、ワード・レベルの
検証スコアは、Ｒ（ａ_i,k ，Ｘ_i ）を算出することによ
り求められる。

【００２２】１組の識別装置の加重ベクトル｛ａ_i,k ｝
は、フィッシャーの識別判定基準によって算出される。
この判定基準については、アカデミア・プレス出版の
Ｒ．マルディア、Ｊ．ケントおよび、Ｊ．ビビィによる
「多変量分析」（１９７９年）に説明されている。所定
ワードｉと話者ｋについて、フィッシャーの判定基準
は、２つのクラス間を識別するのに用いられる。つま
り、１つのクラスは、真の話者ｋによって話されたワー
ドｉのケースを表し、もう片方のクラスは、話者ｋ以外
の話者（つまり、偽りの話者）によって話されたワード
ｉのケースのことである。Ｘ_i,k を、真の話者ｋによっ
て話されたワードｉの識別ベクトルとする。さらに、Ｘ
_i,k'を真の話者ｋ以外の話者によって話されたワードｉ
の識別ベクトルとしよう。識別装置の加重ベクトルａ
_i,kは、クラス間の二乗和と、クラス内の二乗和との比
率を最大にすることによって、フィッシャーの判定基準
により求められる。特に、その比率は、次の式によって
表される。

【数５】

【００２３】ここに、

【数６】であり、Ｓ_i,k とＳ_i,k'はそれぞれ、Ｘ_i,k とＸ_i,k'の
共分散行列である。

【００２４】その比率Ｔ（ａ_i,k ）を最大にするベクト
ルａ_i,k は、行列Ｗ−１Ｂの最大固有値に対応する固有
ベクトルによって求められることが示された。２つのク
ラス間識別については、行列Ｗ−１Ｂは、ゼロ（０）以
外の固有値のみを有する。従って、対応する固有ベクト
ルは、Ｔ（ａ_i,k ）を最大にする解法であり、次の式に
よって表される。

【数７】

【００２５】ここに、

【数８】

【００２６】最後の２つの式から分かるように、ａ_i,k
の測定値を求めるには、ワードｉを話す真の話者ｋと偽
りの話者ｋの両方のトレーニング手本が必要とされる。
偽りのデータは、ある検証用途において、簡単にシミュ
レートされる。そこでは、登録された全ての話者が、そ
のパスワードを構築するために、共通のワード・セット
を用いる。この一例として、連結数字ストリングによる
検証がある。この場合、数字が共通のワード・セットで
あり、話者ｋの偽りのトレーニング・データは、登録さ
れているその他の話者によって話されたトレーニング数
字行列の全部または一部であると考えられる。個人別の
パスワードを使う場合、偽りのデータ・コレクション
は、識別を行うために必要となるだろう。

【００２７】ストリング・レベルでの検証は、単にワー
ド・レベルの検証スコアを、ストリング中の全ワードで
平均することにより行われる。従って、ストリング・レ
ベルの検証スコアは、次の式によって表される。

【数９】

【００２８】ここに、Ｐはストリング中のキーワードの
数で、ｆ（ｐ）はストリング中のｐ番目のワードのワー
ド指数である。合格／不合格の判定は、Ｖ_k ^(mdd)をしき
い値とで比較することによって行われる。

【００２９】最後の式によって結論付けられるように、
所定の話者ｋのＭＤＤ検証モデルは、その話者の検証用
語中の全ワードに対応するベクトルａ_i,k から構成され
る。各ベクトルは、Ｎ_i ｘＭエレメントを有する。Ｎ_i
とＭの代表的な数値は、Ｎ_i＝１０と、Ｍ＝１６であ
る。一例として、検証ワード・セットが、１１のワード
（０〜９、Ｏｈ（オー））から構成されている場合の連
結数字検証シナリオを使用すると、１人の話者の完全な
検証モデルは１７６０個のパラメータによって表され
る。ＭＤＤの演算規定は、一連のドットの積と１つの和
から構成される。

【００３０】組み合された検証システム内において、Ｍ
ＤＤとＣＮＨＭＭ方法を組み合せるハイブリッド方式
は、個々の方式よりも著しく好成績を示した。というの
も、個々の方式によるエラーは、一般的に相関関係がな
いとされるからである。これら２つのアプローチを１つ
のシステムに組合せるために、２つの方法の出力値が１
個の検証パラメータに達するような何らかの方法で組み
合わされる必要がある。ＭＤＤ方法の演算規定は、とて
も低いため、ＣＮＨＭＭ方法は、全般的なシステムに重
荷とならないように追加することができることに注意し
なくてはならない。これは、一部に、ＣＮＨＭＭに必要
とされる全ての入力が、話者個別ＨＭＭを使って入力さ
れた発声音を処理している間にすでに区分化されている
ためである。

【００３１】図４に示されるハイブリッド・システム
は、全般的な検証スコアに達するために、群正規化ＨＭ
Ｍスコアと、所定の試験ストリングのＭＤＤスコアとを
組み合わせたものである。組み合わされた検証スコア
は、次の式によって算出する。

【数１０】

【００３２】ここに、ｂ_k ^(cnhmm)とｂ_k ^(mdd)は、トレー
ニング段階の一部として、算出された特定の話者の重量
測定ファクタを示す。これらの重量は、ＭＤＤの重量ベ
クトル｛ａ_i,k ｝を求めるのに使われたものと類似した
識別分析手順を通して、算出される。しかし、ここで、
識別ベクトルは２つのエレメントから構成されている。
つまり、Ｖ_k ^(cnhmm)とＶ_k ^(mdd)とである。再度、フィッ
シャーの識別判定基準を用いて、２つのクラスのストリ
ング、つまり、話者ｋの話者ｋによって話されたストリ
ングと偽りの話者によって話されたストリングとを識別
する。

【００３３】装置３１７内で使われる話者依存型ＨＭＭ
のトレーニングは、所定の話者のトレーニングされた発
声音を話者個別ＨＭＭによる個々のワード・セグメント
に区分化することによって始まる。この話者個別モデル
は、前述の通り、ＭＤＤ方式で使われたものと同じもの
である。個々のワード・セグメントは、次ぎに、複数の
状態に区分化されるが、その初期状態セグメントは線形
である。各状態ごとの観測ベクトルは、Ｋ手段クラスタ
リング・アルゴリズムを使ってクラスタされる。これに
ついては、例えば音響、音声および信号処理に関するＩ
ＥＥＥトランザクションであるＪ．Ｇ．ウィルポンと
Ｌ．Ｐ．ラビナーによる「孤立ワードに使われる修正済
みＫ手段クラスタリング・アルゴリズム」（１９８５年
６月号Ｖｏｌ．３３の５８７〜５９４頁）に説明されて
いる。その結果できたモデルがビタビ検索を用いて各ト
レーニング・ワードの状態を再区分化するのに使われ
る。Ｋ手段クラスタリングの後のこの状態区分化処理
は、２、３回繰り返される。典型的には、平均的モデル
の尤度が、初期線形状態区分化後に収束するのに、普通
３回繰り返せば十分である。実験結果から、普通、モデ
ル分散推定値は悪く、所定の話者のトレーニング・デー
タが限られているために、所定の話者の全てのワード、
状態、およびミックスチャを平均して、平均分散にモデ
ル分散を固定することで最良の結果が得られるというこ
とが分かった。

【００３４】検証プロセスは、固定変数の話者依存型Ｈ
ＭＭと、限定文法付き話者個別ＨＭＭを用いて試験発声
音をいくつかのワードに区分化する。持続時間正規化尤
度スコアは、入力ストリング中の各ワードごとに算出さ
れる。無音以外のワードのワード尤度スコアは、試験発
声音のストリングの尤度スコアに達するように一緒に平
均される。

【００３５】群正規化は、ログ尤度比タイプ試験を確立
する方法である。群正規化は、最大尤度方法と比較する
と、著しく検証性能の点で改善されたことが示された。
この作業の中で、群モデルは、話者個別ＨＭＭであると
みなされており、これは、つまり、全ての話者が同じ群
モデルを共有しているということを示している。

【００３６】この群モデルを選択することが、特定の話
者の群話者を定義する必要性を低減させる。群ストリン
グ尤度スコアは、話者依存型ストリング尤度スコアを算
出するのと同じ方法で算出される。ストリング確率のロ
グを取ると、ストリング・ログ差が算出される。これ
は、次の式によって表される。

【数１１】

【００３７】ここに、Ｏ、Ｐとｆ（ｐ）は、前述の定義
通りであり、ログ（Ｏ｜λ_F(p),k）は、ワードｆ（ｐ）
に対する話者ｋのＨＭＭの持続時間正規化の尤度であ
り、ログ［Ｌ（Ｏ｜λ_F(p),c）］は、話者個別群モデル
の持続時間正規化尤度である。もし、ＣＨＮＭＭが検証
に単独で使われる場合、その検証は、合格／不合格の判
定を行うために、Ｖ_k ^(cnhmm)をしきい値とで比較するこ
とによって行われる。

【００３８】検証性能については、言語データ・コンソ
ーティアム（ＬＤＣ）から得られるＹＯＨＯ話者検証集
成を用いて試験された。この集成が選択され、それが公
知の「監督下の」話者検証データベースの最大のものの
１つである。ＬＤＣＹＯＨＯの集成は、１つのＣＤ−
ＲＯＭの上にパッケージされ、そのＣＤ−ＲＯＭには、
また、完全なデータベースの記述内容が含まれる。一部
重要な特徴について、ここで要約すると、「組合せロッ
ク」はトリプレット（例えば、２６、８１、５７等）と
なる。１３８人を対照とし、その内弾性１０６人と女性
が３２人であった。４回の登録セッションにおいて対象
者１人当り９６個の登録トリプレットが集められた。対
象者１人につき４０個の無作為試験トリプレットで、１
０回の検証セッション内に収集された。集成中のデータ
は、３ヶ月間で収集されたものであった。３．８ｋＨｚ
の帯域幅を有する８ｋＨｚのサンプリング（抜き取り検
査）が行われた。データ・コレクションはオフィス環境
設定において、厳密に監視された中でのコレクションで
あり、高性能電話受信機（シュールＸＴＨ３８３）
は、全ての音声を収集するのに使われた。

【００３９】特徴抽出処理（図示せず）は、ライン３０
２での入力音声を別のステージとして予備処理するか、
または話者個別認識装置３０４の一部であるかのいずれ
かである。特徴抽出処理は、１５ミリ秒ごとに１組の３
８個の特徴を計算する。特徴ベクトルは、１２個のＬＰ
Ｃのセプストラル、１２個のデルタ・セプストラル、１
２個のデルタ間セプストラル、デルタ間ログ・エネルギ
ーとから構成されている。そのワード・モデル一式はＹ
ＯＨＯ用語を網羅するのに１８個のモデルから構成され
ていると見なされた。１８個のモデルは、「ワン」，
「ツゥ」，．．．，「セブン」，「ナイン」，「トゥエ
ン」，「サー」，．．．，「ナイン」「ティ」と「無
音」に対応している。話者個別ＨＭＭは、８〜１０個の
状態でトレーニングされた。但し、通常３個の状態だけ
を使ってトレーニングされた「ティ」や「無音」以外の
８〜１０個の状態でトレーニングされた。各状態ごとの
分布は、ガウス・ミックスチャの重量の和によって表さ
れる。但し、ミックスチャの数は、１６に設定された。
話者依存型ＨＭＭトレーニングは（第３項を参照）、例
えば、通常４〜１０個のこれより少ない数のミックスチ
ャを使った。話者１人当りのＭＤＤモデル・セットは１
７個（無音を除く）の識別装置の重量ベクトルから構成
された。１つの話者個別ＨＭＭ状態につき１６個のミッ
クスチャ・コンポーネントを用いてＭＤＤモデル・ベク
トルの寸法の範囲は３個の状態「ティ」モデルの４８〜
１０個の状態モデルの１６０までとなっている。

【００４０】話者個別ＨＭＭは、男女の話者１３８名全
員の登録組からのトリプレットを用いて、トレーニング
された。特に、各話者の最初の２４個の登録トリプレッ
トがこのトレーニングに使用され、その結果、総数３３
１２個のトレーニング発声音が得られた。話者個別ＨＭ
Ｍがトレーニングされた後、１０６人の話者の１組は、
無作為に２つの組に分割される。つまり、加入者と考え
られる８１名の話者の組と、非加入者と考えられる２５
名の話者の組とである。

【００４１】ＭＤＤは、識別トレーング手順に関するも
のであることから、非加入者組の主要目的は、公平な試
験を行うことについてのシナリオを規定することであっ
た。それについては、トレーニング段階で用いられた偽
りの話者は、検証に使われたものとは別のものである。
非加入者全員の音声は、実際上、トレーニング段階で使
われた開発セットであると考えられた。非加入者の音声
は、検証試験段階にはまったく使われなかった。上述の
通り、各話者はトリプレットの２セットを有している。
つまり、登録セットと検証セットである。このデータが
ＭＤＤ、ＣＮＨＭＭとそれらのハイブリッド・システム
のトレーニングにいかに使われるかについてこれから説
明する。

【００４２】ＭＤＤトレーニング：各加入者について、
真の話者トレーニング発声音として、９６個の登録トリ
プレットを全て使用した。偽りのトレーニング発声音
は、２５人の非加入者の登録発声音全てであるとみなさ
れた。従って、８１名の加入者は、同じ偽りのトレーニ
ング・セットを共有した。そこでは、偽りの発声音数は
２４００個であった。

【００４３】ＣＮＨＭＭトレーニング：各加入者ごと
に、話者依存型ＨＭＭモデルをトレーニングするのに、
９６個の登録トリプレット全部を使用した。ＭＤＤ方法
とは違って、２５名の非加入者からの音声は、本方法の
トレーニング段階において必要とされなかった。

【００４４】ハイブリッド・システム・トレーニング：
このトレーニングは、各発声音（つまり、トリプレット
ごとの）ＣＮＨＭＭとＭＤＤスコアに関して、真の話者
と偽りの発声音クラスについての、フィッシャーの識別
判定基準を適用することからなっている。真の話者試験
発声音は、トレーニング段階で入手できないため、加入
者登録発声音が、真の話者の音声として、ここで再使用
された。これは、つまり、ハイブリッド・システム・ト
レーニングで使われたＭＤＤとＣＮＨＭＭ検証スコア
は、ＭＤＤとＣＮＨＭＭモデル上の「自己テスト」のス
コア（点数）を示すため、現実的ではない。これら「自
己テスト」の真の話者スコアは、最適な状態で、偏向し
ており、話者間の変動性をとらえるものではない。フィ
ッシャーの判定基準が識別特徴ベクトルの手段と変数の
みを必要とするので、この問題は、より現実的な話者間
の変動性を反映するための手段と変数を人為的に調整す
ることによって幾分は軽減することができる。

【００４５】加入者登録と検証音声によるＶ_k ^(cnhmm)と
Ｖ_k ^(mdd)の手段と変数の調整値を推定するため、小さな
サイド実験が行われた。このサイド実験は非加入者のＭ
ＤＤとＣＮＨＭＭモデルを形成し、その登録セットと検
証セットの検証スコアの偏向を算定することから構成さ
れた。ハイブリッド・システムの偽りのトレーニング・
セットは２５人の非加入者のそれぞれからの４個の検証
トリプレットであると考えられた。ＭＤＤか、またはＣ
ＮＨＭＭトレーニング段階のいずれかによって非加入者
の検証トリプレットが使われないし、偏向もしないた
め、偽りのスコアの手段と変数の調整は必要でなかっ
た。

【００４６】使用された検証試験手順は、３つの全ての
方法に共通するものだった。各加入者ごとに、その４０
個の検証トリプレットが真の話者の音声であるとみなさ
れた。偽りの音声はその他の８０名の加入者全員の検証
セットからのトリプレットであるとみなした。これは、
加入者１人当りの偽りの発声音数が多すぎることを示し
ているので、８０人の偽りの話者の内のそれぞれから最
初の１０個のトリプレットだけになるよう取り除かれ
た。よって、各加入者ごとの偽りの発声音数は、８００
だった。上記データ編成記述内容が示す通り、全ての実
験を通して、検証テスト段階中は、非常に公平を期すこ
とに全力を尽くした。例えば、トレーニングのための偽
りのセットは、１０６名の話者の完全な１セットの内の
無作為のサブセットであった。そして、試験の偽りのセ
ットには、トレーニング偽りセットと共通する話者はい
なかった。また、加入者検証発声音からの情報は、いか
なるトレーニング段階にも使われることはなかった。

【００４７】ＭＤＤ、ＣＮＨＭＭおよびハイブリッド・
システムの３つの方法の検証性能は、受信者特性（ＲＯ
Ｃ）の測定値を用いて比較することができる。ＲＯＣ測
定は、偽りの合格率（タイプIIのエラー）と偽りの不合
格率（タイプＩのエラー）を算定する。ＲＯＣ測定デー
タは、また、１人の話者につき１つの方法で、均等な誤
り率（ＥＥＲ）を算出するのに用いられる。

【００４８】図５は、３つの方法の各々について、ＥＥ
Ｒの平均値と中央値を示す。本表は、ＥＥＲ平均値が、
ＣＮＨＭＭ方法の０．４７３０％からハイブリッド方法
の０．２２５％へと低下しており、４６％の改善率を示
している。ＥＥＲ中央値は、０．２２７％から０％へと
低下した。８１名の加入者の内４５名についてハイブリ
ッド・システムの方が、ＣＮＨＭＭとＭＤＤの両方より
低いＥＥＲ値となった。わずか８名の加入者だけが、２
つの個々の方法の内の１つでハイブリッド・システムよ
りもわずかに低いＥＥＲ値となった。残り２８名の加入
者は、ハイブリッド・システムのＥＥＲ値がＭＤＤとＣ
ＮＨＭＭに対応する２つのＥＥＲ値の内の小さいほうと
等しくなった。

【００４９】試験結果から、ハイブリッド・システム４
００は、個々の方法のいずれか１つよりも、著しく高い
成績をおさめたということが示された。これは、一般的
に、１つの方法によるほとんどの検証エラーはその他の
方法とは共通しておらず、ハイブリッド・システム４０
０中の２つの方法を使って、総合的な性能が改善される
ことを示すものである。

【００５０】さらに定量的な試験においては、２つの方
法による検証エラーの相関関係は、χ²（カイの二乗）
試験によって評価され、その結果、ＭＤＤ方法のエラー
は、ＣＮＨＭＭ方法のエラーに対して余り相関関係がな
いことが示された。

【００５１】よって、ミックスチャ分解識別と呼ばれる
新しい話者検証方法が開示されたことは評価されるだろ
う。ＭＤＤを使用するための装置も開示された。本発明
ついては、特に、その好ましい実施例に関して図示し、
説明されたが、形状、詳細および用途についてのさまざ
まな変更を行うことができるということは、技術に熟練
した者に理解されるであろう。例えば、ワード認識の代
わりに、サブワード認識を用いる方法や装置の適用等が
あげられる。よって、添付の請求の範囲は、上記発明の
適用範囲内におけるそういった形状、詳細、および用途
の変更全てにわたるものである。

【図面の簡単な説明】

【図１】公知の話者検証装置のブロック図である。

【図２】他の公知の話者検証装置のブロック図である。

【図３】本発明によるミックスチャ分解識別を用いた話
者検証装置の公知の話者検証装置のブロック図である。

【図４】ミックスチャ分解識別と群正規化ＨＭＭとの組
合せによる話者検証装置のブロック図である。

【図５】群正規化ＨＭＭ、ミックスチャ分解識別装置
と、その両方を組合せたものの誤り率を示した表であ
る。

フロントページの続き (72)発明者アナンドランガスワミーセットラーアメリカ合衆国 60555 イリノイズ，ウォーレンヴィル，ドッグウッドコート２エス481 (72)発明者ラフィッドアントーンサッカーアメリカ合衆国 60504 イリノイズ，オーロラ，フォレストヴューレーン 68

Claims

【特許請求の範囲】

【請求項１】入力ワード・ストリングの話者検証装置
であって、複数の話者検証データ・ファイルの１つへのアクセス・
キーを得るために、前記入力ワード・ストリングを区分
化して認識する第一のＨＭＭによる話者個別音声認識装
置と、線形識別器と、ミックスチャ・コンポーネント・スコア情報が単一定量
に組み込まれる前に、前記ミックスチャ・コンポーネン
ト・スコア情報を前記話者個別音声認識装置の内部処理
から前記線形識別装置へ提供するための手段と、各話者検証データ・ファイルに真話者仮説または、偽話
者仮説とを区別する特定の話者のモデルまたは、特定の
話者のモデルを含有する複数の話者検証データ・ファイ
ルを記憶する手段と、前記複数の話者検証データ・ファイルから前記アクセス
・キーに該当する話者検証データ・ファイルにアクセス
し、このアクセスされたデータ・ファイルを前記線形識
別器に伝送する手段と、音声入力が特定の話者からのものなのか、または仮説ま
たはモデル試験の結果によるスコアによるものではない
のかを判断するための手段とを含む装置。
【請求項２】前記入力ワード・ストリングが複数のワ
ードと数字である請求項１に記載の装置。
【請求項３】前記入力ワード・ストリングが複数の数
字である請求項１に記載の装置。
【請求項４】前記話者個別音声認識装置が連結数字を
認識する請求項３に記載の装置。
【請求項５】前記複数の話者検証データ・ファイルの
各々が、そのファイルに該当するそれぞれの真の話者の
音声と、それに対応する偽りの音声とからミックスチャ
・コンポーネント・スコア情報を使って、トレーニング
され、前記トレーニングにより、話者検証のために前記
線形識別装置によって使われる話者依存型加重値が生成
される請求項１に記載の装置。
【請求項６】音声入力が特定の話者のものであるの
か、仮説によってだされたスコア、または線形識別装置
を使って試験するモデルによるものではないかを判定す
る前記手段は、所定しきい値を含む請求項１に記載の装
置。
【請求項７】最初の隠れマルコフモデルを使用する前
記話者個別音声認識装置に接続された複数の群正規化Ｈ
ＭＭを使うための話者依存型検証手段と、前記入力ワード・ストリングの前記セグメントと、前記
話者個別音声認識装置からの前記アクセス・キーを受信
する前記話者依存型検証手段と、前記複数の群正規化ＨＭＭから特定の群正規化ＨＭＭへ
アクセスするための前記アクセス・キーを使い、前記入
力ワード・ストリングの群正規化ＨＭＭスコアを得るた
めに前記特定の群正規化ＨＭＭを使用する前記話者依存
型検証手段と、特定の話者を検証または検証しないために、前記群正規
化ＨＭＭスコアを前記識別装置スコアと組み合わせるた
めの手段とをさらに含む請求項１に記載の装置。
【請求項８】前記識別装置のエラーの多くが話者依存
型検証手段のエラーと相関関係がないことから、話者検
証性能が改善された請求項１に記載の装置。
【請求項９】話者を検証する方法であって、最初の隠れマルコフモデルを使って話者個別音声認識装
置による音声入力を区分化するステップと、特定の話者の話者検証データ・ファイルへのアクセス・
キーを得るために区分化された音声入力を認識するステ
ップと、線形識別装置にミックスチャ・コンポーネント・スコア
情報を提供するステップと、特定の話者の話者仮説をその特定の話者の偽りの話者仮
説とから識別するための試験を行うステップと、音声入力が特定の話者からのものであるのか、仮説試験
からの識別スコアや所定のしきい値によるものではない
かを判断するステップとを含む方法。
【請求項１０】前記試験ステップの前に特定の話者の
真の話者仮説と偽りの話者仮説との線形識別加重値を判
定するステップとをさらに含む請求項９に記載の方法。
【請求項１１】電気信号に変換された入力音声から話
者検証を行うための方法であって、入力音声から入力ワードを区分化するステップと、話者個別ＨＭＭ認識装置によって前記ワード・ストリン
グを認識するステップと、話者依存型認識装置に１グループの認識されたワードと
して前記ワード・ストリングを提供するステップと、認識された前記ワード・ストリングの各ワードを表す英
数字を出力するステップと、前記話者個別ＨＭＭからストリング中の各ワードごとに
状態ミックスチャ・コンポーネント・スコア情報をミッ
クスチャ分解識別装置に提供するステップと、話者検証
のための前記ミックスチャ・コンポーネント・スコア情
報を使うステップとを含む方法。
【請求項１２】英数字を出力するステップの後に、ミ
ックスチャ分解識別装置の話者依存型データにアクセス
するため前記英数字を用いるステップをさらに含む請求
項１１に記載の方法。
【請求項１３】電気信号に変換された入力音声から話
者検証を行うための方法であって、入力音声から入力ワードを区分化するステップと、話者個別ＨＭＭ認識装置によって前記ワード・ストリン
グを認識するステップと、認識された前記ワード・ストリングの各ワードを表す英
数字を出力するステップと、前記話者個別ＨＭＭからストリング中の各ワードごとに
状態ミックスチャ・コンポーネント・スコア情報をミッ
クスチャ分解識別装置に提供するステップと、話者検証のための前記ミックスチャ・コンポーネント・
スコア情報を使うステップとを含む方法。
【請求項１４】認識された話者個別ＨＭＭからの前記
区分化入力ワード・ストリングを、群正規化ＨＭＭを使
って話者検証装置に提供するステップと、前記話者検証装置に話者依存型群正規化ＨＭＭ認識装置
を使って代表する前記英数字を提供するステップと、前記英数字に関する前記群正規化ＨＭＭの前記話者依存
型データにアクセスするため前記英数字を用いるステッ
プと、前記群正規化ＨＭＭによって話者検証スコアを判定する
ステップと、話者検証には、前記ミックスチャ・コンポーネント・ス
コア情報と合わせて前記群正規化ＨＭＭの前記話者検証
スコアを使うステップとをさらに含む請求項１３に記載
の方法。