JPH09198084A

JPH09198084A - モデル更新を伴う話者認識方法及びその装置

Info

Publication number: JPH09198084A
Application number: JP8004509A
Authority: JP
Inventors: Tomoko Matsui; 知子松井; Sadahiro Furui; 貞煕古井
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1996-01-16
Filing date: 1996-01-16
Publication date: 1997-07-31

Abstract

(57)【要約】【課題】少いメモリ容量、計算量で長期にわたり高い
認識精度を保持する。【解決手段】音声が入力されると（Ｓ₁）、ケプスト
ラムのような音声の特徴パラメータの時系列に変換され
（Ｓ₂）、２〜３ケ月に１度モデル更新指示がなされる
が、更新指示がなされていると（Ｓ₃）、その入力音声
の特徴パラメータ列と対応ＨＭＭとの尤度ｆ（Ｘ｜θ）
（θ：ＨＭＭのパラメータ）とその話者のθについての
事前確率密度関数ｇ（θ）と積が最大となるθを求め、
つまりベイズ推定に基づき推定し（Ｓ₆）、その推定し
たθを、対応話者のＨＭＭを更新する（Ｓ₇）。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、例えばインター
ホンの音声から訪問者は誰であるかを認識したり、入力
された音声により暗証番号の人と同一人であることを同
定したりするためなどに用いられ、入力音声を、特徴パ
ラメータを用いた表現形式に変換し、その表現形式によ
る入力音声と、あらかじめ話者対応に登録された上記表
現形式による音声のモデルとの類似度を求めて、入力音
声を発声した話者を認識する話者認識方法及びその装置
に関する。

【０００２】

【従来の技術】図３Ａに従来のテキスト独立形話者認識
を例としたその装置の機能構成を示す。まず話者の登録
をするが、各話者ごとに発声した文章などの音声が入力
端子１１より特徴パラメータ抽出手段１２に入力され、
音声に含まれる特徴パラメータ（例えばケプストラム、
ピッチなど）を用いた表現形式に変換され、この特徴パ
ラメータの時系列に変換された登録用音声データにより
隠れマルコフモデル（ＨＭＭ：複数のガウス分布の重み
付き加算など）が登録用音声データのモデルとしてモデ
ル作成手段１３で作成される。ＨＭＭを作成する方法と
しては、例えば文献「松井知子、古井貞熙：“ＶＱ、離
散／連続ＨＭＭによるテキスト独立形話者認識法の比較
検討”、電子情報通信学会音声研究会資料、ＳＰ９１−
８９、１９９１」に述べられている方法などを用いるこ
とができる。このようにして得られた話者ごとのＨＭＭ
が話者対応にモデル蓄積部１４に登録される。

【０００３】話者を認識する場合は、その話者の発声音
声が入力端子１１から特徴パラメータ抽出手段１２に入
力されて、特徴パラメータの時系列に変換され、その入
力音声の特徴パラメータ時系列は類似度計算手段１５で
モデル蓄積部１４に蓄えられた各話者のＨＭＭとの類似
度が計算され、その計算結果は話者認識判定手段１６で
しきい値蓄積部１７に蓄積されている、本人の声とみな
せる類似度の変動の範囲を考慮したしきい値と比較さ
れ、そのしきい値より大きければ、その入力音声は、類
似度計算に用いたＨＭＭの登録話者の音声であると判定
され、しきい値より小さければその他の人の音声である
と判定され、この判定結果が出力される。

【０００４】

【発明が解決しようとする課題】話者の声は発声の度に
変動し、特に２〜３カ月の単位で大きく変動する（例え
ば文献「古井貞熙、“音声波に含まれる個人性情報”、
東京大学学位論文、昭５３）。そのために、高い認識性
能を維持するためには、定期的に各話者に発声してもら
い、その音声に含まれる特徴パラメータを用いて、その
話者のＨＭＭを更新する必要がある。

【０００５】従来、各話者のＨＭＭの更新方法に関する
報告例はほとんどない。各話者のＨＭＭの更新において
は、話者の声の変動の方向は一定ではないので、更新の
ために発声された音声とそれまでに発声された音声の両
方に最適となるように更新するのが良い。この点から最
も単純な更新方法としては、各話者ごとに、以前に発声
された音声の特徴パラメータを用いた表現形式による音
声をそのまま保存しておき、これに更新のために発声さ
れた音声の特徴パラメータを加えて、その話者のＨＭＭ
を再作成する方法が考えられる。しかしこの方法は音声
に含まれる特徴パラメータは容量が大きく、その保存に
は大量のメモリが必要とされ、また再作成に必要な計算
量も膨大となる。そのために、各話者のＨＭＭを更新す
る際には、以前に発声された音声は用いずに、更新用の
音声だけを用いて、その話者のＨＭＭを更新する方法が
望ましい。

【０００６】この発明の目的は以前に発声された音声を
用いることなく、更新用音声だけを用いて、その話者の
ＨＭＭを更新する方法を有する話者認識方法及びその装
置を提供することを目的とする。

【０００７】

【課題を解決するための手段】この発明方法によれば話
者のＨＭＭをベイズ推定に基づいて周期的に更新する。
ベイズ推定は（例えば文献「J.L.Gauvain and C.-H.Lee
,“ Max-imum a posteriori estimation for multivar
iate Gaussian mixture observations of Markov chain
s , ”IEEE Trans. Speech and Audio Processing , Vo
l. 2, No. 2,pp.291-298 , 1994 」）に示され、このベ
イズ推定をＨＭＭの更新に適用すると、更新されたＨＭ
Ｍのパラメータベクトルθは、ｆ（Ｘ｜θ）ｇ（θ）が
最大となるように推定される。ここで、Ｘは特徴パラメ
ータを用いた表現形式による更新用の音声、ｆ（Ｘ｜
θ）は更新用音声に対する更新ＨＭＭの尤度、ｇ（θ）
は事前確率密度関数を表す。このベイズ推定に基づくＨ
ＭＭの更新は事前確率密度関数ｇ（θ）に、以前に発声
された音声の特徴が反映され、ｆ（Ｘ｜θ）に更新音声
の特徴が反映されているため、推定されるＨＭＭパラメ
ータベクトルθは、更新のために発声された音声とそれ
までに発声された音声の両方に最適なものとなる。

【０００８】この発明の装置によればモデル更新の指示
があると、特徴パラメータ抽出手段からの音声の特徴パ
ラメータの時系列と、この入力音声と対応したモデル蓄
積部内のＨＭＭとを用いてそのＨＭＭの更新がベイズ推
定に基づいて行うモデル更新手段が設けられる。

【０００９】

【発明を実施する形態】次にこの発明の実施例をテキス
ト独立形話者認識を例として説明する。図１にこの発明
方法の実施例における処理手順を示し、図２にこの発明
装置の実施例を図３Ａと対応する部分に同一符号を付け
て示す。以下これら図１、図２を参照して説明する。

【００１０】入力端子１１に入力音声があるかを常時チ
ェックし（Ｓ₁）、入力音声があると、その音声は特徴
パラメータ抽出手段１２で図３Ａに示したように特徴パ
ラメータの時系列に変換される（Ｓ₂）。次にモデル更
新の指示があるかを調べる（Ｓ₃）。モデル更新指示は
その話者認識装置が取り付けられたシステムの管理者が
例えば２〜３ケ月ごとに手動で設定するか、あるいはそ
のシステム内の時計を利用して、例えば３ケ月ごとに自
動的に設定する。従って更新指示は周期的に行われるが
その更新の周期はかなりばらつく場合もある。モデル更
新指示がないと、図３Ａに示したように、入力音声の特
徴パラメータ時系列とモデル変換部１４内のＨＭＭの類
似度が類似度計算手段１５で計算され（Ｓ₄）、その計
算された類似度としきい値蓄積部１７のしきい値との比
較が話者認識判定手段１６で行われ、その判定結果が出
力される（Ｓ₅）。

【００１１】この発明の装置は図２に示すようにモデル
更新手段２１が図３Ａの構成に対して設けられており、
ステップＳ₃でモデル更新指示がある場合は、モデル更
新手段２１で入力音声の特徴パラメータ時系列とその音
声の話者と対応する、モデル蓄積部１４内のＨＭＭとを
用いてベイズ推定に基づいてそのＨＭＭのパラメータを
推定する（Ｓ₆）。この場合におけるベイズ推定では、
ＨＭＭのパラメータ、つまり各状態ｓの混合分布ｓｍの
平均ベクトルμ_smと重み係数ｗ_smを、例えば次式に従っ
て推定する。

【００１２】

【数１】ただし、Ｔ_Uは更新用音声の長さを表し、ｃ_smtは、パ
ラメータθのＨＭＭにおいて、フレーム周期を単位とす
る時刻ｔに状態ｓ、混合分布ｍでｘ_tが出現する確率を
表し、ν_smは次式に従い、ｗ_sm、τ_smから計算され、Ｍ
は１つの状態ｓにおける混合分布の分布数である。

【００１３】 ν_sm＝ｗ_smΣ^M _m=1τ_sm （３） τ_smの初期値は、初めに話者のＨＭＭを生成する時に用
いた登録用音声から計算したΣ^Ti _t=1ｃ_smtに便宜的
に設定する。ここで、Ｔ_iはその登録用音声の長さを表
す。そして、話者のＨＭＭを更新するたびに、その更新
用音声を用いて、τ_smを次式に従って更新する。

【００１４】 τ′_sm＝τ_sm ＋ Σ^Tu _t=1ｃ_smt （４）なお、ここではτ_smの少ないデータ量による推定のばら
つきを抑えるために、τ _smは全状態、全混合分布で平均
化する。このようにして、更新用音声による対応話者の
ＨＭＭのパラメータθ＝（μ′ _sm ,ｗ′_sm ）の推定が
なされると、その推定値μ′_sm ,ｗ′_smに、モデル蓄積
部１４内のその話者のＨＭＭのパラメータμ_sm ,ｗ_smを
変更してそのＨＭＭに対する更新を行う（Ｓ₇）。

【００１５】更新用音声としては、モデルの更新のため
にのみ、話者により適当な文章、又は学習用文章を発声
してもらう場合と、通常の話者認識のために入力された
音声を用いる場合がある。後者の場合は、まず入力音声
に対して話者認識を行い、その入力音声が本人のもので
あると判定されると、その本人のＨＭＭに対して、その
時の認識用音声を用いて、前述した更新を行う。

【００１６】なおモデルの更新は最初にモデルを登録し
た当時は、入力認識用音声ごとに、話者認識を行うと共
に、その話者のＨＭＭに対する更新を前述のように行う
と、発声内容の違い、発声変動に対して頑健なＨＭＭと
なる。

【００１７】

【発明の効果】この発明の効果を示すために実験例を述
べる。実験は、男性２０名が約１５カ月に渡る５つの時
期（時期Ａ、Ｂ、Ｃ、Ｄ、Ｅ）に発声した文章データ
（１文章長は平均４秒）を対象とする。登録話者として
男性１０名、詐称者としてその他の男性１０名を用い
た。これらの音声を、従来から使われている特徴量、つ
まり、ケプストラムの短時間毎の時系列に変換する。ケ
プストラムは標本化周波数１２ｋＨｚ、フレーム長３２
ｍｓ、フレーム周期８ｍｓ、ＬＰＣ分析（Linear Predi
ctive Coding、線形予測分析）次数１６で抽出した。登
録には、時期Ａに発声した１０文章を用いた。更新に
は、１回目の更新として時期Ｂに発声した１０文章を用
い、２回目の更新として時期Ｃに発声した１０文章を用
いた。テストでは、時期Ｄ、Ｅに発声した５文章を１文
章づつ用い、つまりＡ、Ｂ、Ｃの各ＨＭＭについてそれ
ぞれ５回づつテストした。

【００１８】この発明の効果は、テキスト独立型（例え
ば文献「松井知子、古井貞熙：“ＶＱ、離散／連続ＨＭ
Ｍによるテキスト独立形話者認識法の比較検討”、電子
情報通信学会音声研究会資料、ＳＰ９１−８９、１９９
１」）の話者認識において試した。各話者のＨＭＭは、
１状態６４個のガウス分布の重み付き加算（例えば文献
「松井知子、古井貞熙：“ＶＱ、離散／連続ＨＭＭによ
るテキスト独立形話者認識法の比較検討”、電子情報通
信学会音声研究会資料、ＳＰ９１−８９、１９９１」）
で表した。

【００１９】結果は、平均話者照合誤り率で評価した。
その結果を図３Ｂに示す。“再計算”は話者ごとに、以
前に発声された音声をそのまま保存しておき、それに更
新用音声を加えて、その話者のＨＭＭを再計算する単純
な方法を表す。これより、ＨＭＭの更新を行わないと時
間Ｅの音声について誤りが発生するが、ＨＭＭを更新す
ると、誤りの発生がなく、しかもこの発明方法は“再計
算”の方法とほぼ同等の性能を示すことがわかる。しか
も話者のモデルの更新に必要とされるメモリ量、計算量
は、それぞれ単純に考えても、この発明方法では従来法
のそれの更新回数分の１に減少し、更新回数は１年で４
〜６回行われるため、この発明方法はメモリ量、計算量
が従来法より著しく少なくなる。これらの結果より、発
明方法及び装置は有効であることが実証された。

【図面の簡単な説明】

【図１】この発明の方法の実施例を示す流れ図。

【図２】この発明の装置の実施例における機能構成例を
示すブロック図。

【図３】Ａは従来の話者認識装置の機能構成を示すブロ
ック図、Ｂはこの発明の効果を示すための実験結果を示
す図である。

Claims

【特許請求の範囲】

【請求項１】入力音声を、特徴パラメータを用いた表
現形式に変換し、その表現形式による入力音声と、予め
話者対応に登録された上記表現形式による音声のモデル
との類似度を求めて、上記入力音声を発声した話声を認
識し、上記各話者に対応するモデルを隠れマルコフモデ
ル（ＨｉｄｄｅｎＭａｒｋｏｒＭｏｄｅｌ：以下Ｈ
ＭＭと記す）で表現した話者認識方法において、上記話者のＨＭＭをベイズ推定に基づいて周期的に更新
することを特徴とするモデル更新を伴う話者認識方法。
【請求項２】入力音声が、特徴パラメータ抽出手段で
特徴パラメータを用いた表現形式に変換され、この表現
形式による入力音声のモデルがモデル作成手段により、
ＨＭＭとして作成されてモデル蓄積手段に蓄積され、また上記特徴パラメータ抽出手段で変換された表現形式
の音声は類似度計算手段で、上記モデル蓄積手段内の各
ＨＭＭとの類似度が計算され、これら計算された類似度
は、しきい値蓄積部よりの本人の声とみなせる類似度の
変動の範囲を考慮したしきい値と話者認識判定手段で比
較され、類似度の方が大きければその本人の音声であ
り、小さければ他人の音声であると判定される話者認識
装置において、モデル更新の指示があると、上記特徴パラメータ抽出手
段よりの特徴パラメータを用いた表現形式による入力音
声により、これと対応する上記モデル蓄積部のＨＭＭを
ベイズ推定に基づいて更新し、その更新したＨＭＭに上
記モデル蓄積部内の当該話者のＨＭＭを更新するモデル
更新手段を具備することを特徴とするモデル更新機能付
話者認識装置。