JPH10307593A

JPH10307593A - 話者認証用確率的マッチング方法

Info

Publication number: JPH10307593A
Application number: JP10063451A
Authority: JP
Inventors: Qi P Li; ピー．リキ
Original assignee: Lucent Technologies Inc
Current assignee: Nokia of America Corp
Priority date: 1997-03-14
Filing date: 1998-03-13
Publication date: 1998-11-17
Anticipated expiration: 2018-03-13
Also published as: DE69800006T2; JP3630216B2; EP0874354A1; DE69800006D1; EP0874354B1; US5995927A

Abstract

(57)【要約】【課題】話者認証用確率的マッチング方法【解決手段】本発明は、入力テスト音声データの集合と
対応する訓練音声データとの確率的マッチングを行う方
法及び装置に関する。とりわけ、入力テスト音声の特徴
に関する情報の集合は、その確率的特性が、訓練音声の
特徴に関する情報で対応する集合の確率的特性に一層マ
ッチングするように変換される。特に、入力テスト音声
の特徴に関する情報の確率的特性を表す第一の共分散行
列が生成され、さらに、当該情報について変換が実行さ
れる。当該変換は、第一の共分散行列及び、訓練音声の
特徴に関する情報の確率的特性を表す第二の共分散行列
に基づく。この変換により結果的に、訓練音声の特徴に
関する情報の確率的特性に一層マッチングした確率的特
性を持つ、変換済み入力テスト音声の特徴に関する情報
が得られる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、話者認証の領域一
般に関し、特に話者認証訓練とテスト環境の間における
音響上の不適合を補償する方法に関する。

【０００２】

【従来の技術】話者認証システムは、提示された身元
（ＩＤ）を発音の解析を通じて識別することによって個
人を認識するものである。例えば、電気通信システムに
おいては、クレジットカードや通話カードへ通話を課金
している発呼者の身元（ＩＤ）を認証するため用いられ
うる。一般的には、ある身元（ＩＤ）を主張する個人か
ら受け取った発音に関する抽出された特徴を、識別がな
されている人により事前に提供されている発音に基づい
た（すなわち「訓練された」）音声のプロトタイプと比
較することで、これらのシステムは動作するのである。

【０００３】電気通信システムにおける話者認証システ
ムでしばしば遭遇する、重要な問題点の一つは、認証シ
ステムを訓練した人が、認証の試行を行う際には必ずし
も同様に発音するとは限らないということである。例え
ば、ある人の「発音」における経時変化は、例えば、そ
の人の音声信号を搬送している電気通信チャネルの特性
における変化によって引き起こされうるのである。これ
らの変化は、訓練プロセス及び認証の試行について異な
る電話機を利用することによって、もっともよく引き起
こされうる。当然（そして、残念なことに）、そのよう
な変化は実質的に認証システムの性能を低下させること
が多い。実際、チャネル特性の変化に対する感応性や、
あるいは話者のラウドネス（音量）レベルに対する感応
性までにもよって、認証システムの性能は受容できない
ほどのレベルまで低下しうるのである。

【０００４】より特定の場合についていえば、典型的に
は、話者認識システムは、所与の個人について特定話者
の隠れマルコフモデル（ＨＭＭ）を作り出しているので
ある。そこでの所与の個人の身元（ＩＤ）は、多くは単
一の登録セッション（登録を行う期間）で集められたデ
ータに基づいて訓練を実行することにより、認証される
ことが可能となる。それ故、ＨＭＭは、訓練データの確
率密度関数（ｐｄｆ）に完全に適合しているのである。

【０００５】しかし、引き続いての認証セッション（認
証を行う期間）においては、テストデータは異なる電話
通信路（チャネル）そしてハンドセット（送受器）を通
じて集められうるものである。（訓練プロセスの間に集
められたデータは、ここでは「訓練データ」あるいは
「訓練音声データ」と呼称されることになろう。一方、
認証セッションの間に得られたデータは、ここでは「テ
ストデータ」あるいは「テスト音声データ」と呼称され
ることになろう。加えて、「訓練情報」あるいは「訓練
音声情報」という語は、例えばモデルのような、訓練デ
ータに基づいた情報を示すのに用いられることになるで
あろう。）登録セッションと認証セッションとの間で音
響上の条件が異なることから、テストデータの集合とＨ
ＭＭを訓練するのに用いられたデータの集合との間で確
率的な不適合が生じうるのである。話者認識の性能は、
そのような不適合によって低下する。

【０００６】数学的には、上述の不適合はケプストラム
領域における線形変換として以下の式（１）のように表
されることが可能である。ｙ＝Ａｘ＋ｂ（１）ここでｘとはテスト発音についてのケプストラム領域で
のフレームのベクトルである。Ａ及びｂとは、行列及び
ベクトルである。これらが適切に推定されるとすれば、
以下示されるように、所与のテスト発音について、当該
不適合を取り除くように応用されることが可能となる。

【０００７】ｙとは訓練データに適合する、結果として
の変換済みベクトルである。（例えば、R.J.Mammoneら
による"Robust Speaker Recognition,"IEEE Signal Pro
cessing Magazine,vol.13,pp.58-71,Sept.1996参照。）
幾何学的には、ｂはテストデータの平行移動を表してお
り、Ａはテストデータについての縮小拡大（スケーリン
グ）及び回転（ローテーション）を表している。（ここ
で、Ａが対角行列であるときには、拡大縮小（スケーリ
ング）操作のみを表している。）

【０００８】先行技術における話者認証システムは、確
率的不適合を取り扱う能力の点で限界があった。例え
ば、話者認識と音声認識の両方の応用例における確率的
不適合を取り扱うため、ケプストラム平均値減算がしば
しば用いられてきた。上の式（１）についてみると、こ
のような技術では本質的にはｂを予測し、Ａが識別行列
であるとみなしている。例えば、A.E.Rosenbergらによ
る"Cepstral Channel Normalization Techniques for
HMM-based Speaker Verification,"Proc.of Int.Conf.
on Spoken Language Processing,pp.1835-1838,1994に
おいては、ベクトルｂは長期平均、短期平均、最大尤度
（ＭＬ）アプローチによって予測されていた。

【０００９】A Sankerらによる、"A Maximum-Likelihoo
d Approach to Stochastic Matching for Robust Speec
h Recognition,"IEEE Trans.on Speech and Audio Proc
essing,vol.4,pp.190-202,May,1996では、確率的マッチ
ングのため、ｂ、対角行列Ａ及びＨＭＭについてのモデ
ルパラメータを予測するのに、最大尤度（ＭＬ）アプロ
ーチが用いられていた。最近では、線形変換パラメータ
（すなわちＡ及びｂ）の最小二乗法による解法が、上に
引用したR.J.Mammoneらによる"Robust Speakerrecognit
ion"において短く紹介されている。しかしながら、確率
的不適合の問題に対する先行技術におけるアプローチの
いずれについても、テストデータについての全体の分布
を訓練データについての全体の分布と適切に適合させる
ための、一般化された線形変換に基づいた効率的な技術
を提供してはいないのである。

【００１０】

【発明が解決しようとする課題】本発明は、入力テスト
音声データの集合について、訓練音声データの対応する
集合との確率的マッチングを実行する方法及び装置を提
供するものである。特に、入力テスト音声の発音から生
成された、入力テスト音声の特徴に関する情報の集合
は、その確率的特性が、訓練音声の特徴に関する情報の
対応する集合についての確率的特性により厳密に適合す
るように変換される。話者認証タスクの例示的な状況で
は、例えば、訓練音声データの対応する集合とは、入力
テスト音声の発音にかかる話者が主張する身元（ＩＤ）
を持つ話者から生成された訓練データを有している訳で
ある。

【００１１】

【課題を解決するための手段】特に、本発明によると、
入力テスト音声の特徴に関する情報の確率的特性を表し
ている第一の共分散行列は、当該入力テスト音声の特徴
に関する情報に基づいて生成される。そこで、当該入力
テスト音声の特徴に関する情報についての変換が実行さ
れる。当該変換は、第一の共分散行列及び、訓練音声の
特徴に関する情報の確率的特性を表している第二の共分
散行列に基づいている。このような変換によって、訓練
音声の特徴に関する情報の確率的特性により厳密に適合
した確率的特性を有する、変換済み入力テスト音声の特
徴に関する情報を結果としてうまく得ることになるので
ある。

【００１２】本発明の一つの例示的実施例によると、当
該変換は、入力テスト音声の特徴に関する情報が、入力
テスト音声の発音のフレームから得られたケプストラム
領域におけるデータのベクトルを構成している線形変換
を含んでいる。このような例示的実施例の場合、当該線
形変換は式（１）の形式をしており、とりわけ第一及び
第二の共分散行列から導出された行列と、ケプストラム
領域でのフレームにおけるデータのベクトルとの乗算を
含んでいる（このような乗算は、データの拡大縮小及び
回転を効果的に行う。）。さらに、導出されたベクトル
についての加算が行われる（このような加算は、データ
の平行移動を効果的に行う。）。

【００１３】

【発明の実施の形態】

概要図１から図４は、本発明の例示的実施例に従って、テス
トデータの訓練データへの確率的マッチングを幾何学的
に表したものを示している。図１（図２及び図３におい
ても同様）では、点線１１は所与の話者についての訓練
データの外形を表している。図２では、実線１２はテス
トデータの外形を表している。異なるチャネル、ノイズ
レベル、電話機のトランスデューサー（変換器）のた
め、テストデータの平均値（外形領域内の中心に配置さ
れた実線の十字で記されている）は、訓練データの平均
値（点線の十字で記されている）から平行移動され、テ
ストデータの分布は、訓練データの分布から圧縮され、
回転される（例えば、訓練データと比較した、テストデ
ータについてのいわゆる「収縮」に関する議論について
は、上で引用したR.J.Mammoneらによる"Robust Speaker
Recognition"を参照。）。

【００１４】テストデータと訓練データとの間の確率的
不適合は、（不適合となった）テストデータを評価する
ために訓練されたＨＭＭを用いる際、結果的には不正確
な判断を行うことにつながりうる。しかしながら、本発
明の例示的実施例によれば、図３及び図４で示したよう
に、テストデータは、訓練データに対して確率的により
厳密にマッチングするようにうまく変換されうるのであ
る。

【００１５】特に、本発明の例示的実施例によると、行
列Ｒ_trainは訓練データから導出され、当該行列は訓練
データ全体の分布を特徴付けている。とりわけ、Ｒ
_trainは、対応する各訓練発音からの訓練データを基に
生成された共分散行列の平均となっている。ここで、Ｒ
_trainとはアプリオリに（先験的に）（すなわち、訓練
プロセスの間に）導出され、他の訓練情報（例えば、Ｈ
ＭＭ）と共に保存されうるということに留意されたい。
さらに、話者認証セッションにおいては、共分散行列Ｒ
_testがテストデータから導出され、当該行列は同様に、
テストデータ全体の分布を特徴付けている。

【００１６】そこで、式（１）で示された線形変換につ
いての行列Ａのパラメータは、２つの行列Ｒ_train及び
Ｒ_testを基に予測されうるのである（以下に示す）。式
（１）で特定された変換の第一の部分を適用した後には
−すなわち、テストデータに行列Ａを掛けた（乗算し
た）後には、テストデータ全体の分布は、図３で示され
ているように、平均値が異なることを除いて、訓練デー
タ全体の分布と概ね同一となるように拡大縮小及び回転
される（実線１３は、拡大縮小及び回転がなされたテス
トデータの外形を表している）。

【００１７】最終ステップでは、平均値の差が決定され
（以下に示す）、当該テストデータは、図４で示された
ように、その位置が訓練データの位置と概ね同一となる
ように平行移動される。図４では、変換済みのテストデ
ータの外形は、訓練データの外形と重ね合っている。
（図４では、実線１４は、訓練データ及び、拡大縮小、
回転、平行移動がなされたテストデータの共通の外形を
表している。）このような最終ステップは、式（１）で
特定された、ベクトルｂの加算を表しているものであ
る。

【００１８】ここで、上述の線形変換を実行すること
は、テストデータの全体的分布を変えるものであるとい
うことは留意しておくべきである。しかし、（変換が線
形であることから）そのような変換はテストデータのｐ
ｄｆの細部を損ねるものではない。これらのｐｄｆの細
部は、話者認証プロセスの最終ステップを実行するため
には、従来の手法における訓練された特定話者のＨＭＭ
により測定され評価されることになるであろう。

【００１９】上述の本発明の例示的実施例によると、真
の（すなわち、正しく認識された）話者からのテストデ
ータ生成が行われる間の条件が、ＨＭＭが訓練された条
件と適合していない場合には、所与の話者のＨＭＭを訓
練するのに用いられた訓練データに確率的に（概ね）マ
ッチングするように、テストデータはうまく変換される
ことになろう。真の話者からのテストデータ生成が行わ
れる間における条件が、訓練が行われた条件と実際マッ
チングしている場合には、計算された行列Ａ及びベクト
ルｂはそれぞれ、識別行列とゼロベクトルに近いものと
なるであろう。そこで、当該変換は、ＨＭＭの評価に最
小限の影響しか有さないことになろう。

【００２０】ここで、上述の技術は、不適合が生じるの
は、テスト条件と訓練条件が異なっているからなのか、
それともテストデータと訓練データが異なる話者から発
せられているからなのか（すなわち、当該話者は、身元
（ＩＤ）が主張されている者とは異なる者である、氏名
詐称者ということになる。）ということにかかわらず、
適合していないデータを確率的な意味で「改良」するこ
とを試みている訳であることに注意を要する。しかし、
所与の話者を個別に認識させる話者の特性は、主として
（例えば、ＨＭＭにおける）の細部に見いだされるもの
であるということは、当該技術分野の当業者にとっては
明らかであろう。

【００２１】そのような話者の特性が全体的な特徴にお
いても見いだされる範囲では、本発明の技術は、氏名詐
称者による発音と識別された話者モデルとの間のマッチ
ング評価を増加させる可能性を有しているといえるので
ある。そのような場合、本発明の原理を利用している話
者認証システムの性能は、実際低下することが考えられ
よう。とりわけ、確率的不適合に関する他の原因が存在
していない場合（例えば、テスト条件と訓練条件が実際
に適合しているとき）にはそうであろう。にもかかわら
ず、本発明の例示的実施例についての実験では、これら
の発明技術が用いられた場合、話者認証性能は実際に全
体として向上することを示している。

【００２２】変換データの導出典型的な話者認証訓練セッションでは、所与の話者によ
る、同一内容を有する複数の発音からのデータが集めら
れる（すなわち、所与の個人によって、同一の単語や成
句が繰り返し話される。）。そこで、このような複数の
訓練発音を基に特定話者のＨＭＭが生成される。本発明
の例示的実施例に従って、ＨＭＭの生成に加えて、行列
Ｒ_train及び平均値ベクトルｍ_trainもまたこれらの訓練
発音から導出される。

【００２３】特に、Ｒ_trainは各訓練発音からの訓練デ
ータについての共分散行列の平均値であり、ｍ_trainは
各訓練発音からの訓練データについての各平均値の平均
である。このように、これらのデータは、ケプストラム
領域における訓練発音すべてからの訓練データについて
の全体の分散及び平均値を表している。特に、以下の式
（２）（数１）及び式（３）（数２）のようにして求め
られる。

【数１】

【数２】

【００２４】ここでｘ_i,jとはｉ番目の訓練発音におけ
るｊ番目の無音でないフレームのことであり、Ｕとは訓
練発音の全体数のことであり、Ｎ_iとは無音でないフレ
ームの全体数のことであり、ｍ_iとは、ｉ番目の訓練発
音の平均値ベクトルのことであり、ｍ_trainとは、すべ
ての訓練発音についての無音でないフレームの平均値ベ
クトルを平均したものである。

【００２５】テスト（すなわち、話者認証）セッション
においては、一度に一つの発音のみが集められ、認証さ
れることになろう。テストデータについての共分散行列
とは、以下の式（４）（数３）で求められる。すなわ
ち、

【数３】ここで、ｘ_jとは無音でないフレームのことであり、ｍ
_testとは、テストデータの平均値ベクトルのことであ
り、Ｎ_fとは、無音でないフレームの全体数のことであ
る。

【００２６】パラメータ推定にとっての提示された判断
基準とは、Ｒ_testがテストデータの回転、拡大縮小、平
行移動（ＲＳＴ）を通じてＲ_trainにマッチングするよ
うにさせるということである。回転及び拡大縮小につい
て、このような判断基準を表している以下の等式、式
（５）がある。Ｒ_train−ＡＲ_testＡ^T＝０（５）ここでＡは式（１）で定義されており、Ｒ_train及びＲ
_testはそれぞれ式（２）及び式（４）で定義されてい
る。

【００２７】式（１）から、行列Ａについて式（５）を
解くことによって、以下の式（６）が得られる。Ａ＝Ｒ^1/2 _trainＲ^-1/2 _test （６）そこで、式（１）の平行移動に関する項ｂは、以下の式
（７）（数４）により得られる。

【数４】ここでｍ_trainは式（３）で定義されており、ｍ_rsとは
回転され、拡大縮小されたフレームについての平均値ベ
クトルのことである。Ｎ_fとはテスト発音に関する無音
でないフレームの全体数のことである。ｘ_jとは、ｊ番
目の無音でない、ケプストラム領域におけるベクトルの
フレームのことである。

【００２８】本発明の例示的実施例によると、所与のテ
スト発音は真の話者のモデル集合（特定話者のＨＭＭに
加えて、上の式（２）及び式（３）でそれぞれ定義され
た、Ｒ_train及びｍ_trainから成っている）に対して認証
されうるのである。とりわけ、Ｒ_test、Ａ及びｂは、最
初に式（４）、式（６）、式（７）をそれぞれ用いて計
算されうるのであり、さらにテストフレームのすべて
は、式（１）を用いることで、テストデータと訓練デー
タの間の確率的不適合を低減するようにうまく変換され
得るのである。

【００２９】ケプストラム領域でのテストデータを変換
する例示的方法図５は、本発明の例示的実施例に従って、テストデータ
の訓練データへの確率的マッチングを実行する方法を実
施する流れ図を示している。とりわけ、テストデータ
は、上の式（４）に従って共分散行列（すなわち、Ｒ
_test）を生成するのに用いられる（図５のブロック２
１）。さらに、このようなテストデータの共分散行列及
び訓練情報から導出された共分散行列（すなわち、Ｒ
_train）は、上の式（６）に従って拡大縮小及び回転を
行う行列（すなわち、Ａ）を計算するために用いられる
（図５のブロック２２）。

【００３０】訓練情報の共分散行列（すなわち、Ｒ
_train）は、上の式（２）に従って、あらかじめ計算さ
れている。（ここで、行列Ｒ_trainを訓練情報の「共分
散行列」と呼称することとする。複数の訓練発音が用い
られている場合、たとえ、より正確には当該行列は複数
の分散行列の平均であるとしても、このように呼ぶもの
とする。）ここで、訓練データの特定の集合−あるいは
それに等しいものとして、特定の訓練情報の共分散行列
−は、テストデータが導出された発音にかかる話者によ
り主張された身元に対応していることに留意されたい。

【００３１】次に、平行移動ベクトル（すなわち、ｂ）
は、上の式（７）に従って、拡大縮小及び回転を行う行
列（すなわちＡ）と、訓練情報から導出された確率的平
均値に基づいて計算される（図５のブロック２３）。訓
練情報の平均値（すなわち、ｍ_train）は、上の式
（３）に従って、あらかじめ計算されている。最後に、
上の式（１）に従った線形変換がテストデータ（すなわ
ち、ｘ）へ適用され、それにより、テストデータの確率
的特性を訓練データの特定の集合についての確率的特性
へより厳密にマッチングさせる。特に、テストデータに
は、拡大縮小及び回転を行う行列（すなわちＡ）が掛け
られ（乗算され）、さらに、その結果に平行移動ベクト
ル（すなわち、ｂ）が加算される。

【００３２】例示的な話者認証システム本発明の例示的実施例に従って、上述の確率的マッチン
グ変換手続は、一般的な成句のパスワードを利用する、
従来型のテキスト主体の話者認証システムへも応用され
うる。図６は、そのような成句をベースとした話者認証
システムを示している。これは、本発明の例示的実施例
に従って、テストデータの訓練データへの確率的マッチ
ングを実行する方法を用いている。

【００３３】図６の例示的システムは、S.Parthasarath
yらによる、"General Phrase Speaker Verification Us
ing Sub-Word Background Models and Likelihood-Rati
o Scoring,"Proc.ICSPL-96,October 1996で記述された
システムに基づいている。しかしながら、本発明の例示
的実施例に従った確率的マッチングは、例えば、"Gener
al Phrase Speaker Verification Using Sub-Word Back
ground Models and Likelihood-Ratio Scoring," で記
述されたシステムと比べると、図６の例示的システムに
おけるフロントエンド（前置）処理に含まれている。こ
れは、システムの改良されたロバストネス（頑強性）及
び性能を提供するためである。

【００３４】特に、図６の例示的システムは以下のよう
に動作する。話者が身元（ＩＤ）を主張し、話者情報プ
ロセッサー３３へ当該身元（ＩＤ）の主張を送信した後
には、システムは話者により発音されたテスト入力成句
を受け容れる。主張された身元（ＩＤ）に基づいて、話
者情報プロセッサー３３は、付随する訓練情報を訓練情
報データベース３５から取り出す。本発明の例示的実施
例によると、取り出された訓練情報は、目標とする話者
のＨＭＭ、保存されている単音の記録（以下、参照）、
さらにあらかじめ計算された共分散行列Ｒ_train及び値
ｍ_trainを含む。

【００３５】次いで、ケプストラム係数生成器３０がテ
スト発音からケプストラム係数を生成する。システムと
しては、同一の成句は付随する訓練セッションにおいて
獲得されているものと予期していることから、話者独立
（ＳＩ）単音認識器３１が、入力発音を単音の系列へと
分割（セグメント化）する。これは、登録セッションか
ら保存された（さらに、話者情報プロセッサー３３によ
ってＳＩ単音認識器３１へと送り込まれている）記録を
利用する強制復号化によって行われる。

【００３６】ここで、特定話者（ＳＤ）モデルは、単一
のセッションからの相対的に小さい量のデータに基づい
て訓練されてきていることから、これらのモデルについ
ては単音分割化（セグメント化）の目的には用いられな
い方が望ましいといえることに留意されたい。信頼性の
高い、安定した単音分割化（セグメント化）を提供する
ために、代わりに、ＳＩ単音モデル（ＨＭＭ）が、ＳＩ
単音認識器３１により有効に用いられる。

【００３７】一方、本発明の例示的実施例に従って、テ
ストを行っている話者からの発音のケプストラム係数
（ケプストラム係数生成器３０により生成された）は、
確率的マッチングプロセッサー３４によって、確率的に
より厳密に訓練データの分布にマッチングする変換済み
ケプストラムが生成される。とりわけ、確率的マッチン
グプロセッサー３４は、式（４）、式（６）、式（７）
及び式（１）を順番に計算して、例示的には図５の手続
を実施するものである。

【００３８】最終的には、変換済みケプストラム係数
（確率的マッチングプロセッサー３４からの）、復号さ
れた単音系列及び付随する単音の境界（ＳＩ単音認識器
３１からの）、識別された目標（ＳＤ）のＨＭＭ（話者
情報プロセッサー３３からの）は、話者認証器３２へと
送られる。話者認証器３２は、目標のモデル及びバック
グラウンドのモデルに関する対数尤度のスコアを基に、
既存の対数尤度比のスコアを計算する。これにより、話
者の主張した身元（ＩＤ）の真偽に関する判断が可能と
なる。

【００３９】特に、話者認証器３２は、以下の式（８）
の計算を行う。Ｌ_R（Ο；Λ_t；Λ_b）＝Ｌ（Ο，Λ_t）−Ｌ（Ο，Λ_b）（８）ここでΟとは、成句全体にわたっての観測系列であり、
Λｔ及びΛｂはそれぞれ目標のモデル及びバックグラウ
ンドのモデルのことである。バックグラウンドのモデル
は単音についてのＨＭＭの集合であり、一方、目標のモ
デルは成句全体についての複数の状態を伴った単一のモ
デルである。当該技術分野の当業者にはよく知られてい
るように、典型的な場合、このような構成がもっよも良
好な結果が得られるのである（例えば、上述した、S.Pa
rthasarathyらによる、"General Phrase Speaker Verif
ication Using Sub-Word Background Models and Likel
ihood-Ratio Scoring,"を参照。）。

【００４０】とりわけ、以下の式（９）のように表され
る場合がある。Ｌ（Ο，Λ_t）＝１／Ｎ_f・Ｐ（Ο｜Λ_t）（９）ここでＰ（Ο｜Λ_t）とは、ビタビ（Viterbi)復号化
（当該技術分野の当業者にはなじみのある）を用いて、
ＨＭＭであるΛｔにより評価された成句の対数尤度のこ
とである。さらにＮ_fは当該成句における無音でないフ
レームの全体数である。さらに以下の式（１０）（数
５）の式のように表される場合がある。

【数５】ここでＰ（Ο｜Λ_b）とは、ｉ番目の単音の対数尤度で
あり、Ο_iとは、ｉ番目の単音についての分割された
（セグメント化された）観測系列であり、Λ_biとはｉ番
目の単音についてのＨＭＭのことであり、Ｎ_pとは、復
号された無音でない単音の全体数であり、Ｎ_fとは、当
該成句における無音でないフレームの全体数である。

【００４１】拒絶するのか受け容れるのかについての最
終的な判断は、式（８）のＬ_Rのスコアをしきい値と比
較することでなされる。加えて、テスト発音として、著
しく異なる（識別された話者の訓練発音における成句と
比べて）成句が提示されている場合には、当該成句はＳ
Ｉ単音認識器３１によりアプリオリに（すなわち、テス
ト発音を拒絶するのか受け容れるのかに際して、話者識
別器３２を用いることなしに）拒絶され得るのである。

【００４２】付加的な詳細事項ここで記述された本発明の例示的実施例において利用さ
れた特徴ベクトルとは、既存のものであり、例えば、１
２個のケプストラム係数及び１２個のデルタケプストラ
ム係数から構成されうる。ケプストラムは、例えば、３
０ミリ秒（ミリセカンド）のウインドウについての１０
次の線形予測係数（ＬＰＣ）分析から導出されうる。特
徴ベクトルは、例えば１０ミリ秒（ミリセカンド）の間
隔毎に更新されうる。

【００４３】長距離電話ネットワークを介して記録され
た、固定した成句の発音から構成される実験データベー
スは、男性５１人女性４９人計１００人の話者について
作り出された。すべての話者に共通な固定した成句と
は、平均で２秒の長さである、"I pledge allegiance t
o the flag."（「私は国旗への忠誠を誓います。」）と
いうものであった。一つのセッションで記録された各話
者の５つの発音は、ＳＤＨＭＭを訓練し、線形変換のた
めのＲ_train及びｍ_trainを得るのに用いられた。

【００４４】テストについては、異なる度毎に異なる電
話通信路を用いて、異なるセッションにおいて真の話者
から記録された５０の発音及び、異なるセッションで同
性の５０人の偽者から記録された２００の発音が用いら
れた。モデルを適合させる目的のため（すなわち、その
後の、認証された、真の話者の発音に基づいてモデルを
更新するため）、テストされた真の話者からの第二、第
四、第六、第八のテスト発音は、次のテスト発音を認証
するため、Ｒ_train及びｍ_trainに加えて付随したＨＭＭ
を更新するのに利用された。各成句についての目標のモ
デルは、既存のleft-to-right型ＨＭＭであった。

【００４５】状態数は、各成句における単音の全体数の
１．５倍であって、各状態に付随した４つのガウス関数
の構成成分が存在した。使用されたバックグラウンドの
モデルは、異なる話者及びテキストからの電話による音
声のデータベースを基に訓練された単音ＨＭＭをつなぎ
合わせたものであった。各単音ＨＭＭは、各状態に付随
して３２個のガウス関数の構成成分を伴う状態を３つ有
していた。最後に、限られた量の訓練データから得られ
る分散の推定値は信頼性が低いことから、全体的な分散
の推定値が、目標のモデルにおけるすべてのガウス関数
の構成成分にとって共通の分散として利用されたことに
注意されたい（例えば、上述した、S.Parthasarathyら
による、"General Phrase Speaker Verification Using
Sub-Word Background Models and Likelihood-Ratio S
coring,"を参照。）。

【００４６】上述の実験結果は、次のようなものであ
る。モデルの適合が存在していないときには、提示され
たアルゴリズムは、確率的マッチングを何ら実行してい
ない基準システムと比較して正誤率を５６％改善し、ケ
プストラム平均値減算を用いたシステムと比較して１４
％改善した。モデルの適合が適用されると、改善の程度
は、それぞれ５４％と８％へと低下した。このような場
合において、改善の程度が低下したのは、異なる音響条
件に合わせるため、ＳＤモデルが更新されているからで
ある。

【００４７】追加事項説明の簡略化のため、本発明の例示的実施例は、個々の
機能ブロックから構成されるものとして提示されている
（「プロセッサー」と呼称される機能ブロックを含め
て）。これらのブロックが提示する機能は、ソフトウエ
アを実行可能なハードウエアに限られずとも、それを含
めた、共有あるいは専用のハードウエアのいずれかを用
いることを通じて提供されうる。例えば、ここで提示さ
れたプロセッサーの機能は、単一の共有プロセッサーや
複数の個々のプロセッサーにより提供されうる。さら
に、ここでの「プロセッサー」という語の利用は、専ら
ソフトウエアを実行可能なハードウエアに限って呼称す
るものと解されるべきではない。例示的な実施例として
は、ルーセントテクノロジーのＤＳＰ１６あるいはＤＳ
Ｐ３２Ｃといったデジタルシグナルプロセッサー（ＤＳ
Ｐ）、これまで論じられた動作を実行するソフトウエア
を保存する読み出し専用メモリ（ＲＯＭ）、ＤＳＰの結
果を保存するランダムアクセスメモリ（ＲＡＭ）から構
成されうる。汎用目的のＤＳＰ回路と結びつけたカスタ
ムＶＬＳＩ回路と同様に、超大規模集積回路（ＶＬＳ
Ｉ）のハードウエアによる実施例もまた提供されうるで
あろう。これらの実施例の任意のもの及びすべては、こ
こで用いられた「プロセッサー」なる語の意味の範囲内
に含まれると考えられる。

【００４８】

【発明の効果】本発明により、従来、話者認証システム
について、話者認証訓練とテスト環境の間における音響
上の条件の違いに伴って生じていた、データの集合に関
する確率的不適合を補償する方法が提供された。具体的
には、先行技術のアプローチでは得られなかった、入力
テスト音声データの集合についての訓練音声データの対
応する集合との確率的マッチングを効率的に実行する方
法及び装置が本発明により実現された。これにより、話
者認識の性能が向上することが認められる。

【図面の簡単な説明】

【図１】図１は、本発明の例示的実施例に従った、テス
トデータの訓練データへの確率的マッチングを幾何学的
に表したものを示している。図１の場合、訓練データの
集合についての幾何学的解釈を示している。

【図２】図２は、本発明の例示的実施例に従った、テス
トデータの訓練データへの確率的マッチングを幾何学的
に表したものを示している。図２の場合、訓練データの
集合とテストデータの対応する集合についての幾何学的
解釈を示している。

【図３】図３は、本発明の例示的実施例に従った、テス
トデータの訓練データへの確率的マッチングを幾何学的
に表したものを示している。図３の場合、訓練データ及
び、本発明の例示的実施例に従って拡大縮小及び回転が
なされた、テストデータの対応する集合についての幾何
学的解釈を示している。

【図４】図４は、本発明の例示的実施例に従った、テス
トデータの訓練データへの確率的マッチングを幾何学的
に表したものを示している。図４の場合、訓練データの
集合及び、訓練データの集合と一致するように、本発明
の例示的実施例に従って拡大縮小、回転及び平行移動が
なされた、テストデータの対応する集合についての幾何
学的解釈を示している。

【図５】図５は、本発明の例示的実施例に従って、テス
トデータの訓練データへの確率的マッチングを実行する
方法を実施する流れ図を示している。

【図６】図６は、本発明の例示的実施例に従って、テス
トデータの訓練データへの確率的マッチングを実行する
方法を用いている、成句ベースの話者認証システムを示
している。

【符号の説明】

１１点線（訓練データの外形）１２実線（テストデータの外形）１３実線（拡大縮小及び回転がなされたテストデータ
の外形）１４実線（訓練データ及び、拡大縮小、回転、平行移
動がなされたテストデータの共通の外形）２１入力テストデータから共分散行列を生成する２２訓練情報の共分散行列と入力テストデータの共分
散行列に基づいて拡大縮小及び回転を行う行列を計算す
る２３拡大縮小及び回転を行う行列、入力テストデー
タ、訓練情報の平均値から平行移動ベクトルを計算する２４線形変換を入力テストデータへと適用する（拡大
縮小及び回転を行う行列を乗算して、平行移動ベクトル
を加算する）３０ケプストラム係数生成器３１話者独立（ＳＩ）単音認識器３２話者認証器３３話者情報プロセッサー３４確率的マッチングプロセッサー３５訓練情報

───────────────────────────────────────────────────── フロントページの続き (71)出願人 596077259 600 ＭｏｕｎｔａｉｎＡｖｅｎｕｅ, ＭｕｒｒａｙＨｉｌｌ，ＮｅｗＪｅｒｓｅｙ 07974−0636Ｕ．Ｓ．Ａ.

Claims

【特許請求の範囲】

【請求項１】音声発音を表している入力テスト信号
から生成された、入力テスト音声の特徴に関する情報の
集合に基づいて、前記入力テスト音声の特徴に関する情
報の前記集合についての確率的特性を表している第一の
共分散行列を生成するステップと、前記入力テスト音声の特徴に関する情報の変換済み集合
を生成するために、前記入力テスト音声の特徴に関する
情報の前記集合について変換を実行するステップとを有
し、前記変換とは、前記第一の共分散行列と訓練音声の特徴
に関する情報についての確率的特性を表している第二の
共分散行列に基づくものであり、前記訓練音声の特徴に関する情報についての確率的特性
は、前記入力テスト音声の特徴に関する情報の前記集合
についての確率的特性よりも前記入力テスト音声の特徴
に関する情報の前記変換済み集合についての確率的特性
に対し、より厳密にマッチングしていることを特徴とす
る、前記訓練音声の特徴に関する情報の集合についての
確率的特性を基に前記入力テスト音声の特徴に関する情
報の前記集合を変換する方法。
【請求項２】前記変換が、さらに前記訓練音声の特
徴に関する情報の確率的平均値に基づいていることを特
徴とする請求項１に記載の方法。
【請求項３】前記変換が、さらに前記訓練音声の特
徴に関する情報の前記確率的平均値の複数についての平
均に基づいていることを特徴とする請求項２に記載の方
法。
【請求項４】前記入力テスト音声の特徴に関する情
報の前記集合が、前記入力テスト音声の信号フレームか
ら生成されたケプストラム領域におけるデータを有して
いることを特徴とする請求項１に記載の方法。
【請求項５】前記変換が、前記ケプストラム領域に
おけるデータの線形変換を有していることを特徴とする
請求項４に記載の方法。
【請求項６】前記ケプストラム領域におけるデータ
が、前記入力テスト音声の前記信号フレームから生成さ
れたケプストラムフレームでのデータのベクトルを有し
ており、前記線形変換を実行するステップが、前記ケプストラム
フレームでのデータのベクトルと前記第一及び前記第二
の共分散行列から導出された行列を乗算することによる
積を計算するステップを有することを特徴とする請求項
５に記載の方法。
【請求項７】前記線形変換を実行するステップが、
さらに前記積に平行移動ベクトルを加算するステップを
有し、前記平行移動ベクトルとは、前記第一及び前記第二の共
分散行列から導出された前記行列と前記訓練音声の特徴
に関する情報の確率的平均値に基づいていることを特徴
とする請求項６に記載の方法。
【請求項８】前記音声発音が話者認証発音を有して
おり、前記訓練音声の特徴に関する情報が話者認証の訓
練データに基づく特徴に関する情報を有していることを
特徴とする請求項１に記載の方法。
【請求項９】前記音声発音にかかる話者について主
張された身元を取り出すステップと、前記訓練音声の特徴に関する情報の前記集合と前記入力
テスト音声の特徴に関する情報の前記変換済み集合に基
づいて、前記音声発音に関する前記話者と前記主張され
た身元が同じものである尤度を判断するステップとを、さらに有することを特徴とする請求項８に記載の方法。
【請求項１０】前記尤度を判断する前記ステップが、
前記入力テスト音声の特徴に関する情報の前記変換済み
集合を、前記訓練音声の特徴に関する情報の前記集合に
基づいて生成されたモデルへと適用するステップを有す
ることを特徴とする請求項９に記載の方法。
【請求項１１】前記モデルが隠れマルコフモデルを有
することを特徴とする請求項１０に記載の方法。
【請求項１２】前記変換が、前記第一の共分散行列及
び、前記第二の共分散行列の複数についての平均に基づ
いていることを特徴とする請求項１に記載の方法。
【請求項１３】音声発音を表している入力テスト信号
から生成された、入力テスト音声の特徴に関する情報の
集合に基づいて、前記入力テスト音声の特徴に関する情
報の前記集合についての確率的特性を表している第一の
共分散行列を生成する、第一の共分散行列生成器と、前記入力テスト音声の特徴に関する情報の変換済み集合
を生成するために前記入力テスト音声の特徴に関する情
報の前記集合について適用された変換とを有し、前記変換とは、前記第一の共分散行列と訓練音声の特徴
に関する情報についての確率的特性を表している第二の
共分散行列に基づくものであり、前記訓練音声の特徴に関する情報についての確率的特性
は、前記入力テスト音声の特徴に関する情報の前記集合
についての確率的特性よりも前記入力テスト音声の特徴
に関する情報の前記変換済み集合についての確率的特性
に対し、より厳密にマッチングしていることを特徴とす
る、前記訓練音声の特徴に関する情報の集合についての
確率的特性を基に前記入力テスト音声の特徴に関する情
報の前記集合を変換する装置。
【請求項１４】前記変換が、さらに前記訓練音声の特
徴に関する情報の確率的平均値に基づいていることを特
徴とする請求項１３に記載の装置。
【請求項１５】前記変換が、さらに前記訓練音声の特
徴に関する情報の前記確率的平均値の複数についての平
均に基づいていることを特徴とする請求項１４に記載の
装置。
【請求項１６】前記入力テスト音声の特徴に関する情
報の前記集合が、前記入力テスト音声の信号フレームか
ら生成されたケプストラム領域におけるデータを有して
いることを特徴とする請求項１３に記載の装置。
【請求項１７】前記変換が、前記ケプストラム領域に
おけるデータの線形変換を有していることを特徴とする
請求項１６に記載の装置。
【請求項１８】前記ケプストラム領域におけるデータ
が、前記入力テスト音声の前記信号フレームから生成さ
れたケプストラムフレームでのデータのベクトルを有し
ており、前記変換が、前記ケプストラムフレームでのデ
ータのベクトルと前記第一及び前記第二の共分散行列か
ら導出された行列を乗算することによる積を計算する乗
算器を有することを特徴とする請求項１７に記載の装
置。
【請求項１９】前記変換が、さらに前記積に平行移動
ベクトルを加える加算を有し、前記平行移動ベクトルと
は、前記第一及び前記第二の共分散行列から導出された
前記行列と前記訓練音声の特徴に関する情報の確率的平
均値に基づいていることを特徴とする請求項１８に記載
の装置。
【請求項２０】前記音声発音が話者認証発音を有して
おり、前記訓練音声の特徴に関する情報が話者認証の訓
練データに基づく特徴に関する情報を有していることを
特徴とする請求項１３に記載の装置。
【請求項２１】前記音声発音にかかる話者について主
張された身元を取り出す手段と、前記訓練音声の特徴に関する情報の前記集合と前記入力
テスト音声の特徴に関する情報の前記変換済み集合に基
づいて、前記音声発音に関する前記話者と前記主張され
た身元が同じものである尤度を判断する話者認証器とを
さらに有することを特徴とする請求項２０に記載の装
置。
【請求項２２】前記話者認証器が、前記入力テスト音
声の特徴に関する情報の前記変換済み集合を、前記訓練
音声の特徴に関する情報の前記集合に基づいて生成され
たモデルへと適用する手段を有することを特徴とする請
求項２１に記載の装置。
【請求項２３】前記モデルが隠れマルコフモデルを有
することを特徴とする請求項２２に記載の装置。
【請求項２４】前記変換が、前記第一の共分散行列及
び、前記第二の共分散行列の複数についての平均に基づ
いていることを特徴とする請求項１３に記載の装置。