JPH09198084A - モデル更新を伴う話者認識方法及びその装置 - Google Patents

モデル更新を伴う話者認識方法及びその装置

Info

Publication number
JPH09198084A
JPH09198084A JP8004509A JP450996A JPH09198084A JP H09198084 A JPH09198084 A JP H09198084A JP 8004509 A JP8004509 A JP 8004509A JP 450996 A JP450996 A JP 450996A JP H09198084 A JPH09198084 A JP H09198084A
Authority
JP
Japan
Prior art keywords
model
hmm
speaker
voice
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8004509A
Other languages
English (en)
Inventor
Tomoko Matsui
知子 松井
Sadahiro Furui
貞煕 古井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP8004509A priority Critical patent/JPH09198084A/ja
Publication of JPH09198084A publication Critical patent/JPH09198084A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 少いメモリ容量、計算量で長期にわたり高い
認識精度を保持する。 【解決手段】 音声が入力されると(S1 )、ケプスト
ラムのような音声の特徴パラメータの時系列に変換され
(S2 )、2〜3ケ月に1度モデル更新指示がなされる
が、更新指示がなされていると(S3 )、その入力音声
の特徴パラメータ列と対応HMMとの尤度f(X|θ)
(θ:HMMのパラメータ)とその話者のθについての
事前確率密度関数g(θ)と積が最大となるθを求め、
つまりベイズ推定に基づき推定し(S6 )、その推定し
たθを、対応話者のHMMを更新する(S7 )。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、例えばインター
ホンの音声から訪問者は誰であるかを認識したり、入力
された音声により暗証番号の人と同一人であることを同
定したりするためなどに用いられ、入力音声を、特徴パ
ラメータを用いた表現形式に変換し、その表現形式によ
る入力音声と、あらかじめ話者対応に登録された上記表
現形式による音声のモデルとの類似度を求めて、入力音
声を発声した話者を認識する話者認識方法及びその装置
に関する。
【0002】
【従来の技術】図3Aに従来のテキスト独立形話者認識
を例としたその装置の機能構成を示す。まず話者の登録
をするが、各話者ごとに発声した文章などの音声が入力
端子11より特徴パラメータ抽出手段12に入力され、
音声に含まれる特徴パラメータ(例えばケプストラム、
ピッチなど)を用いた表現形式に変換され、この特徴パ
ラメータの時系列に変換された登録用音声データにより
隠れマルコフモデル(HMM:複数のガウス分布の重み
付き加算など)が登録用音声データのモデルとしてモデ
ル作成手段13で作成される。HMMを作成する方法と
しては、例えば文献「松井知子、古井貞熙:“VQ、離
散/連続HMMによるテキスト独立形話者認識法の比較
検討”、電子情報通信学会音声研究会資料、SP91−
89、1991」に述べられている方法などを用いるこ
とができる。このようにして得られた話者ごとのHMM
が話者対応にモデル蓄積部14に登録される。
【0003】話者を認識する場合は、その話者の発声音
声が入力端子11から特徴パラメータ抽出手段12に入
力されて、特徴パラメータの時系列に変換され、その入
力音声の特徴パラメータ時系列は類似度計算手段15で
モデル蓄積部14に蓄えられた各話者のHMMとの類似
度が計算され、その計算結果は話者認識判定手段16で
しきい値蓄積部17に蓄積されている、本人の声とみな
せる類似度の変動の範囲を考慮したしきい値と比較さ
れ、そのしきい値より大きければ、その入力音声は、類
似度計算に用いたHMMの登録話者の音声であると判定
され、しきい値より小さければその他の人の音声である
と判定され、この判定結果が出力される。
【0004】
【発明が解決しようとする課題】話者の声は発声の度に
変動し、特に2〜3カ月の単位で大きく変動する(例え
ば文献「古井貞熙、“音声波に含まれる個人性情報”、
東京大学学位論文、昭53)。そのために、高い認識性
能を維持するためには、定期的に各話者に発声してもら
い、その音声に含まれる特徴パラメータを用いて、その
話者のHMMを更新する必要がある。
【0005】従来、各話者のHMMの更新方法に関する
報告例はほとんどない。各話者のHMMの更新において
は、話者の声の変動の方向は一定ではないので、更新の
ために発声された音声とそれまでに発声された音声の両
方に最適となるように更新するのが良い。この点から最
も単純な更新方法としては、各話者ごとに、以前に発声
された音声の特徴パラメータを用いた表現形式による音
声をそのまま保存しておき、これに更新のために発声さ
れた音声の特徴パラメータを加えて、その話者のHMM
を再作成する方法が考えられる。しかしこの方法は音声
に含まれる特徴パラメータは容量が大きく、その保存に
は大量のメモリが必要とされ、また再作成に必要な計算
量も膨大となる。そのために、各話者のHMMを更新す
る際には、以前に発声された音声は用いずに、更新用の
音声だけを用いて、その話者のHMMを更新する方法が
望ましい。
【0006】この発明の目的は以前に発声された音声を
用いることなく、更新用音声だけを用いて、その話者の
HMMを更新する方法を有する話者認識方法及びその装
置を提供することを目的とする。
【0007】
【課題を解決するための手段】この発明方法によれば話
者のHMMをベイズ推定に基づいて周期的に更新する。
ベイズ推定は(例えば文献「J.L.Gauvain and C.-H.Lee
,“ Max-imum a posteriori estimation for multivar
iate Gaussian mixture observations of Markov chain
s , ”IEEE Trans. Speech and Audio Processing , Vo
l. 2, No. 2,pp.291-298 , 1994 」)に示され、このベ
イズ推定をHMMの更新に適用すると、更新されたHM
Mのパラメータベクトルθは、f(X|θ)g(θ)が
最大となるように推定される。ここで、Xは特徴パラメ
ータを用いた表現形式による更新用の音声、f(X|
θ)は更新用音声に対する更新HMMの尤度、g(θ)
は事前確率密度関数を表す。このベイズ推定に基づくH
MMの更新は事前確率密度関数g(θ)に、以前に発声
された音声の特徴が反映され、f(X|θ)に更新音声
の特徴が反映されているため、推定されるHMMパラメ
ータベクトルθは、更新のために発声された音声とそれ
までに発声された音声の両方に最適なものとなる。
【0008】この発明の装置によればモデル更新の指示
があると、特徴パラメータ抽出手段からの音声の特徴パ
ラメータの時系列と、この入力音声と対応したモデル蓄
積部内のHMMとを用いてそのHMMの更新がベイズ推
定に基づいて行うモデル更新手段が設けられる。
【0009】
【発明を実施する形態】次にこの発明の実施例をテキス
ト独立形話者認識を例として説明する。図1にこの発明
方法の実施例における処理手順を示し、図2にこの発明
装置の実施例を図3Aと対応する部分に同一符号を付け
て示す。以下これら図1、図2を参照して説明する。
【0010】入力端子11に入力音声があるかを常時チ
ェックし(S1 )、入力音声があると、その音声は特徴
パラメータ抽出手段12で図3Aに示したように特徴パ
ラメータの時系列に変換される(S2 )。次にモデル更
新の指示があるかを調べる(S3 )。モデル更新指示は
その話者認識装置が取り付けられたシステムの管理者が
例えば2〜3ケ月ごとに手動で設定するか、あるいはそ
のシステム内の時計を利用して、例えば3ケ月ごとに自
動的に設定する。従って更新指示は周期的に行われるが
その更新の周期はかなりばらつく場合もある。モデル更
新指示がないと、図3Aに示したように、入力音声の特
徴パラメータ時系列とモデル変換部14内のHMMの類
似度が類似度計算手段15で計算され(S4 )、その計
算された類似度としきい値蓄積部17のしきい値との比
較が話者認識判定手段16で行われ、その判定結果が出
力される(S5 )。
【0011】この発明の装置は図2に示すようにモデル
更新手段21が図3Aの構成に対して設けられており、
ステップS3 でモデル更新指示がある場合は、モデル更
新手段21で入力音声の特徴パラメータ時系列とその音
声の話者と対応する、モデル蓄積部14内のHMMとを
用いてベイズ推定に基づいてそのHMMのパラメータを
推定する(S6 )。この場合におけるベイズ推定では、
HMMのパラメータ、つまり各状態sの混合分布smの
平均ベクトルμsmと重み係数wsmを、例えば次式に従っ
て推定する。
【0012】
【数1】 ただし、TU は更新用音声の長さを表し、csmt は、パ
ラメータθのHMMにおいて、フレーム周期を単位とす
る時刻tに状態s、混合分布mでxt が出現する確率を
表し、νsmは次式に従い、wsm、τsmから計算され、M
は1つの状態sにおける混合分布の分布数である。
【0013】 νsm=wsmΣM m=1 τsm (3) τsmの初期値は、初めに話者のHMMを生成する時に用
いた登録用音声から計算したΣTi t=1 smt に便宜的
に設定する。ここで、Ti はその登録用音声の長さを表
す。そして、話者のHMMを更新するたびに、その更新
用音声を用いて、τsmを次式に従って更新する。
【0014】 τ′sm=τsm + ΣTu t=1 smt (4) なお、ここではτsmの少ないデータ量による推定のばら
つきを抑えるために、τ smは全状態、全混合分布で平均
化する。このようにして、更新用音声による対応話者の
HMMのパラメータθ=(μ′ sm ,w′sm )の推定が
なされると、その推定値μ′sm ,w′smに、モデル蓄積
部14内のその話者のHMMのパラメータμsm ,wsm
変更してそのHMMに対する更新を行う(S7 )。
【0015】更新用音声としては、モデルの更新のため
にのみ、話者により適当な文章、又は学習用文章を発声
してもらう場合と、通常の話者認識のために入力された
音声を用いる場合がある。後者の場合は、まず入力音声
に対して話者認識を行い、その入力音声が本人のもので
あると判定されると、その本人のHMMに対して、その
時の認識用音声を用いて、前述した更新を行う。
【0016】なおモデルの更新は最初にモデルを登録し
た当時は、入力認識用音声ごとに、話者認識を行うと共
に、その話者のHMMに対する更新を前述のように行う
と、発声内容の違い、発声変動に対して頑健なHMMと
なる。
【0017】
【発明の効果】この発明の効果を示すために実験例を述
べる。実験は、男性20名が約15カ月に渡る5つの時
期(時期A、B、C、D、E)に発声した文章データ
(1文章長は平均4秒)を対象とする。登録話者として
男性10名、詐称者としてその他の男性10名を用い
た。これらの音声を、従来から使われている特徴量、つ
まり、ケプストラムの短時間毎の時系列に変換する。ケ
プストラムは標本化周波数12kHz、フレーム長32
ms、フレーム周期8ms、LPC分析(Linear Predi
ctive Coding、線形予測分析)次数16で抽出した。登
録には、時期Aに発声した10文章を用いた。更新に
は、1回目の更新として時期Bに発声した10文章を用
い、2回目の更新として時期Cに発声した10文章を用
いた。テストでは、時期D、Eに発声した5文章を1文
章づつ用い、つまりA、B、Cの各HMMについてそれ
ぞれ5回づつテストした。
【0018】この発明の効果は、テキスト独立型(例え
ば文献「松井知子、古井貞熙:“VQ、離散/連続HM
Mによるテキスト独立形話者認識法の比較検討”、電子
情報通信学会音声研究会資料、SP91−89、199
1」)の話者認識において試した。各話者のHMMは、
1状態64個のガウス分布の重み付き加算(例えば文献
「松井知子、古井貞熙:“VQ、離散/連続HMMによ
るテキスト独立形話者認識法の比較検討”、電子情報通
信学会音声研究会資料、SP91−89、1991」)
で表した。
【0019】結果は、平均話者照合誤り率で評価した。
その結果を図3Bに示す。“再計算”は話者ごとに、以
前に発声された音声をそのまま保存しておき、それに更
新用音声を加えて、その話者のHMMを再計算する単純
な方法を表す。これより、HMMの更新を行わないと時
間Eの音声について誤りが発生するが、HMMを更新す
ると、誤りの発生がなく、しかもこの発明方法は“再計
算”の方法とほぼ同等の性能を示すことがわかる。しか
も話者のモデルの更新に必要とされるメモリ量、計算量
は、それぞれ単純に考えても、この発明方法では従来法
のそれの更新回数分の1に減少し、更新回数は1年で4
〜6回行われるため、この発明方法はメモリ量、計算量
が従来法より著しく少なくなる。これらの結果より、発
明方法及び装置は有効であることが実証された。
【図面の簡単な説明】
【図1】この発明の方法の実施例を示す流れ図。
【図2】この発明の装置の実施例における機能構成例を
示すブロック図。
【図3】Aは従来の話者認識装置の機能構成を示すブロ
ック図、Bはこの発明の効果を示すための実験結果を示
す図である。

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 入力音声を、特徴パラメータを用いた表
    現形式に変換し、その表現形式による入力音声と、予め
    話者対応に登録された上記表現形式による音声のモデル
    との類似度を求めて、上記入力音声を発声した話声を認
    識し、上記各話者に対応するモデルを隠れマルコフモデ
    ル(Hidden Markor Model:以下H
    MMと記す)で表現した話者認識方法において、 上記話者のHMMをベイズ推定に基づいて周期的に更新
    することを特徴とするモデル更新を伴う話者認識方法。
  2. 【請求項2】 入力音声が、特徴パラメータ抽出手段で
    特徴パラメータを用いた表現形式に変換され、この表現
    形式による入力音声のモデルがモデル作成手段により、
    HMMとして作成されてモデル蓄積手段に蓄積され、 また上記特徴パラメータ抽出手段で変換された表現形式
    の音声は類似度計算手段で、上記モデル蓄積手段内の各
    HMMとの類似度が計算され、これら計算された類似度
    は、しきい値蓄積部よりの本人の声とみなせる類似度の
    変動の範囲を考慮したしきい値と話者認識判定手段で比
    較され、類似度の方が大きければその本人の音声であ
    り、小さければ他人の音声であると判定される話者認識
    装置において、 モデル更新の指示があると、上記特徴パラメータ抽出手
    段よりの特徴パラメータを用いた表現形式による入力音
    声により、これと対応する上記モデル蓄積部のHMMを
    ベイズ推定に基づいて更新し、その更新したHMMに上
    記モデル蓄積部内の当該話者のHMMを更新するモデル
    更新手段を具備することを特徴とするモデル更新機能付
    話者認識装置。
JP8004509A 1996-01-16 1996-01-16 モデル更新を伴う話者認識方法及びその装置 Pending JPH09198084A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8004509A JPH09198084A (ja) 1996-01-16 1996-01-16 モデル更新を伴う話者認識方法及びその装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8004509A JPH09198084A (ja) 1996-01-16 1996-01-16 モデル更新を伴う話者認識方法及びその装置

Publications (1)

Publication Number Publication Date
JPH09198084A true JPH09198084A (ja) 1997-07-31

Family

ID=11586033

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8004509A Pending JPH09198084A (ja) 1996-01-16 1996-01-16 モデル更新を伴う話者認識方法及びその装置

Country Status (1)

Country Link
JP (1) JPH09198084A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002032213A (ja) * 2000-05-26 2002-01-31 Internatl Business Mach Corp <Ibm> ボイス・メール・メッセージを転記する方法およびシステム
JP2013195511A (ja) * 2012-03-16 2013-09-30 Nippon Telegr & Teleph Corp <Ntt> スペクトル推定装置、その方法及びプログラム
KR101888059B1 (ko) * 2018-02-12 2018-09-10 주식회사 공훈 문맥 기반 음성 모델 관리 장치 및 그 방법
WO2019156427A1 (ko) * 2018-02-09 2019-08-15 주식회사 공훈 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치, 문맥 기반 음성 모델 관리 장치 및 그 방법

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002032213A (ja) * 2000-05-26 2002-01-31 Internatl Business Mach Corp <Ibm> ボイス・メール・メッセージを転記する方法およびシステム
JP2013195511A (ja) * 2012-03-16 2013-09-30 Nippon Telegr & Teleph Corp <Ntt> スペクトル推定装置、その方法及びプログラム
WO2019156427A1 (ko) * 2018-02-09 2019-08-15 주식회사 공훈 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치, 문맥 기반 음성 모델 관리 장치 및 그 방법
KR101888059B1 (ko) * 2018-02-12 2018-09-10 주식회사 공훈 문맥 기반 음성 모델 관리 장치 및 그 방법

Similar Documents

Publication Publication Date Title
US9536525B2 (en) Speaker indexing device and speaker indexing method
Juang et al. Hidden Markov models for speech recognition
Young HMMs and related speech recognition technologies
Aggarwal et al. Acoustic modeling problem for automatic speech recognition system: conventional methods (Part I)
US5794192A (en) Self-learning speaker adaptation based on spectral bias source decomposition, using very short calibration speech
JPH10505687A (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
US6182036B1 (en) Method of extracting features in a voice recognition system
EP1005019A3 (en) Segment-based similarity measurement method for speech recognition
JP3919475B2 (ja) 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体
JP3092788B2 (ja) 話者認識用しきい値設定方法及びこの方法を用いた話者認識装置
JPH09198084A (ja) モデル更新を伴う話者認識方法及びその装置
Gauvain et al. Experiments with speaker verification over the telephone.
KR101890303B1 (ko) 가창 음성 생성 방법 및 그에 따른 장치
JP2003044078A (ja) 発声速度正規化分析を用いた音声認識装置
Young Acoustic modelling for large vocabulary continuous speech recognition
Singh et al. Features and techniques for speaker recognition
JPH10254473A (ja) 音声変換方法及び音声変換装置
JPH11212588A (ja) 音声処理装置、音声処理方法、及び音声処理プログラムを記録したコンピュータ読み取り可能な記録媒体
Li Speech recognition of mandarin monosyllables
Marković et al. The LPCC-DTW analysis for whispered speech recognition
Sailaja et al. Text independent speaker identification with finite multivariate generalized gaussian mixture model and hierarchical clustering algorithm
JPH07271392A (ja) 話者認識用類似度正規化方法及びこの方法を用いた話者認識装置
Thandil et al. Automatic speech recognition system for utterances in Malayalam language
Kumar Feature normalisation for robust speech recognition
En-Najjary et al. Fast GMM-based voice conversion for text-to-speech synthesis systems.