JPH0990981A - パターン認識のためのモデル学習方法 - Google Patents

パターン認識のためのモデル学習方法

Info

Publication number
JPH0990981A
JPH0990981A JP7244276A JP24427695A JPH0990981A JP H0990981 A JPH0990981 A JP H0990981A JP 7244276 A JP7244276 A JP 7244276A JP 24427695 A JP24427695 A JP 24427695A JP H0990981 A JPH0990981 A JP H0990981A
Authority
JP
Japan
Prior art keywords
model
parameters
learning
correlation
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7244276A
Other languages
English (en)
Inventor
Satoshi Takahashi
敏 高橋
Shigeki Sagayama
茂樹 嵯峨山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP7244276A priority Critical patent/JPH0990981A/ja
Publication of JPH0990981A publication Critical patent/JPH0990981A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 学習効率をよくする。 【解決手段】 不特定話者モデルを基準として、多数の
複数話者の学習データを用いて特定話者モデルを学習
し、モデルの基底分布の平均値パラメータの学習前と学
習後の差分を木構造によりクラスタ化する。新たな特定
話者の学習データで不特定話者モデルを適用化する際
に、学習データ中のモデルのパラメータについて学習前
と学習後との移動ベクトルにより、そのパラメータが属
するクラスタ中の他のパラメータも移動させて学習す
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、隠れマルコフモ
デル(Hidden Markov Model,以下
HMMと記す)を用いて、入力パターンに対して各モデ
ルの尤度を求め、その入力パターンの認識を行うパター
ン認識のためのモデルの学習方法に関する。
【0002】
【従来の技術】確率、統計論に基づいてモデル化するH
MM法は、音声、文字、図形等のパターン認識において
有用な技術である。以下では、音声認識を例にHMM法
を用いた従来技術について説明する。従来の音声認識装
置において、認識すべき音声をHMMを用いてモデル化
しておく方法は、性能が高く、現在の主流になってい
る。このHMM法の詳細は例えば文献1(中川聖一:確
率モデルによる音声認識、電子情報通信学会)に示され
ている。図2に従来のHMMを用いた音声認識装置の構
成例を示す。入力端子11から入力された音声は、A/
D変換部12においてディジタル信号に変換される。そ
のディジタル信号から音声特徴パラメータ抽出部13に
おいて音声特徴パラメータを抽出する。予め、認識しよ
うとする音声単位(例えば音素、音節、単語)ごとに作
成したHMMをHMMメモリ14から読み出し、モデル
尤度計算部15において、入力音声に対する各モデルの
尤度を計算する。最も大きな尤度を示すモデルが表現す
る音声単位を認識結果として認識結果出力部16より出
力する。
【0003】図3Aに、3状態のHMMの例を示す。こ
の様なモデルを音声単位(カテゴリ)ごとに作成する。
各状態S1からS3には、音声特徴パラメータの統計的
な分布D1からD3がそれぞれ付与される。例えば、こ
れが音素モデルであるとすると、第1状態は音素の始端
付近、第2状態は中心付近、第3状態は終端付近の特徴
量の統計的な分布を表現する。
【0004】各状態の特徴量分布は、複雑な分布形状を
表現するために、複数の連続確率分布(以下、混合連続
分布と記す)を用いて表現される場合が多い。連続確率
分布には、様々な分布が考えられるが、正規分布が用い
られることが多い。また、それぞれの正規分布は、特徴
量と同じ次元数の多次元無相関正規分布で表現されるこ
とが多い。図3Bに、混合連続分布の例を示す。この図
では平均値ベクトルがμ1 、分散値がσ1 の正規分布N
(μ1 ,σ1 )とN(μ2 ,σ2 )とN(μ3,σ3
との3つの正規分布で表現された場合である。時刻tの
入力特徴量ベクトルXt =(xt,1,t,2,…xt,P ) T
(Pは総次元数)に対する混合連続分布HMMの状態s
の出力確率bs (Xt )は、
【0005】
【数1】
【0006】のように計算される。ここで、Wk s は状
態sに含まれるk番目の多次元正規分布kに対する重み
係数を表わす。多次元正規分布kに対する確率密度Pk
s (X t )は、
【0007】
【数2】
【0008】のように計算される。ここで、μk s は状
態sのk番目の多次元正規分布kに対する平均値ベクト
ル、Σk s は同じく共分散行列を表わす。共分散行列が
対角成分のみ、つまり対角共分散行列であるとすると、
k s (Xt )の対数値は、
【0009】
【数3】
【0010】と表わせる。ここで、μk,i s は状態sの
第k番目の多次元正規分布の平均値ベクトルの第i次目
の成分を、σk,i s は、状態sの第k番目の多次元正規
分布の共分散行列の第i次目の対角成分(分散値)を表
わす。この計算を認識候補のモデルについて、入力音声
の各時刻の特徴量ベクトルに対して行い、得られた対数
尤度をもとに認識結果を出力する。
【0011】
【発明が解決しようとする課題】認識性能を高めるため
には、音響モデルの表現能力を高める必要があり、この
ためにモデルの自由度を増やす必要がある。モデルの自
由度を増やすとモデルパラメータの数が増える。多数の
モデルパラメータを学習するためには膨大なデータ量が
必要となるが、現実には限られたデータしか集めること
ができないので、むやみにモデルパラメータ数を増やす
ことができない。多数のパラメータを含むモデルを少量
のデータで学習すると、学習データに深く依存したモデ
ルとなってしまい、認識時に学習データとわずかに異な
るデータに対しても認識誤りを起こしてしまう。しか
し、モデルパラメータ数が少ないと表現能力が低いため
に十分な認識性能が得られない。このように、モデルの
精度と認識時の頑健性にはトレードオフの関係があり、
より少数のモデルパラメータで、より精密なモデルを表
現する必要があるという問題がある。
【0012】そこで、この発明の目的は、モデルの表現
能力を保って、モデルの自由度を効果的に削減し、これ
により、同じデータ量でも効率的に高速にモデルパラメ
ータを学習することができるモデル学習方法を提供する
ことにある。
【0013】
【課題を解決するための手段】この発明によれば、HM
Mのモデルパラメータ、例えば、出力確率分布を規定す
るパラメータや状態遷移確率などの中で、パラメータが
学習されたときのパラメータ値の動き、つまり学習され
る前の値と学習後の値の差分に相関があるもの同士に共
有化関係を予め結んでおく。言い換えれば、共有化関係
を結んだパラメータは、それらが学習される際に、ある
相関関係をもって移動するようにする。学習データが新
たに与えられたときに、共有化関係にある一方のパラメ
ータが学習され移動した場合に、その他のパラメータも
同時に連動して移動し、見かけ上の学習データ量を増や
す効果を得ながら、学習効率を高めることを特徴とす
る。
【0014】
【発明の実施の形態】図1に示すように、あるモデルの
パラメータの位置1a,1b,1cが、学習される際
に、連動して動くことが事前の学習からわかっていると
する。この発明では、これらパラメータ1a,1b,1
cに共有化関係を結んでおく。すなわち、学習前パラメ
ータ1a,1b,1cは、学習後パラメータ2a,2
b,2cにそれぞれ移動する。これらの学習移動ベクト
ルVa,Vb,Vcはほぼ等しい。つまり、学習前パラ
メータ1a,1b,1cと学習後パラメータ2a,2
b,2cとのそれぞれの差分(移動ベクトルVa,V
b,Vc)は相関があり、その相関関係がモデルによら
ず一様に決定できる。よってパラメータ1a,1b,1
cはそのような相関関係があることを記録しておく。新
たな学習データによって、パラメータ1aがパラメータ
3aに移動した場合、パラメータ1b,1cは学習デー
タによって移動されなくても、1aから3aへの移動と
同様の移動をしてパラメータ3b,3cになると予想で
きる。よって記録されている相関関係からパラメータ1
aはパラメータ1b,1cと相関があるのを知り、学習
前パラメータ1aから学習後パラメータ3aへの移動ベ
クトルVa′によりパラメータ1b,1cを移動させて
学習後パラメータ3b,3cとする。このように、モデ
ルパラメータに構造を持たせ、自由度を減らすことによ
り、見かけ上の学習データ量を増やし、学習効率を高め
ることができる。
【0015】この発明の方法を、音素モデルの話者適応
化を例にして説明する。話者適応化は、不特定話者用に
つくられたモデルを、ある話者が発生した音声データを
もとに、その話者に特有のモデルに変更していく手法で
ある。ここでは、HMMの出力確率分布を規定する平均
値ベクトルを共有化対象とし、不特定話者モデルを共有
関係学習前の基準モデルとした場合に、この発明による
共有化を適用した例について説明する。はじめに、共有
化関係の決定方法を順に説明する。 (1)大量の学習データから、不特定話者モデルを作成
する。 (2)上記の不特定話者モデルを初期モデルとして、多
数の特定話者モデルを作成する。ただし、基底分布の平
均値ベクトルのみ学習する。 (3)不特定話者モデルと特定話者モデルの平均値ベク
トルの差分を求める。ここではこれを学習移動ベクトル
と名付ける。 (4)各基底分布ごとに、学習移動ベクトルを話者の人
数分だけ連結する。即ち、学習移動ベクトルの大きさ
は、特徴量次元×話者数となる。 (5)基底分布の数と同数存在する学習移動ベクトルを
ベクトル量子化し、各クラスタ中の分布同士で共有化関
係を結ぶ。クラスタは木構造化することにより、共有構
造を階層化して、相関関係を記録する。クラスタ木の末
端にいくほど、学習移動ベクトルの相関が強い分布がク
ラスタ化されるようになる。つまり学習移動ベクトルを
互いに近いものの二群にクラスタ化し、その各群を同様
に互いに近いものの二群にそれぞれクラスタ化し、以下
同様にしてクラスタ化を進める。従ってクラスタ化の回
数が進む程、相関が強い分布がクラスタ化される。
【0016】次に、上記のモデルを用いた話者適応化法
について説明する。 (1)適応化する話者が発声した単語を用いて平均値ベ
クトルを学習し、適応話者の学習移動ベクトルを求め
る。 (2)適応化単語によって学習されなかった未学習平均
値ベクトルに対する移動ベクトルを以下のようにして求
める。未学習平均値ベクトルが含まれるクラスタを共有
化関係の木構造を末端から調べ、クラスタ中に既学習平
均値ベクトル(学習移動ベクトル)が、最低k個含まれ
るクラスタレベルまで木構造をさかのぼる。kは、信頼
できる移動ベクトルを得るための最低限の既学習平均値
ベクトルの数であり、例えば5〜10の何れか程度とさ
れる。そのクラスタのk個の学習移動ベクトルを平均し
た平均学習移動ベクトルを求め、これを用いて未学習平
均値ベクトルを移動する。なおkを5より小さくする
と、学習後のモデルの性能に比較的大きなばらつきが生
じるおそれがあり、10以上にすると、適応化速度が遅
くなる。
【0017】ここでは、HMMの出力確率分布を規定す
る平均値ベクトルを対象に説明したが、この発明は、H
MMのあらゆるパラメータに対しても適用可能である。
また、この発明は、音声認識に限らず、HMMを用いた
文字認識、図形認識など、HMMを使用するあらゆるパ
ターン認識において使用することができる。
【0018】
【発明の効果】これらの効果を調べるために行った、音
素モデルの話者適応化実験について説明する。はじめに
不特定話者モデルを作成した。学習には、16名が発声
した約45,000単語を用いた。次に、その不特定話
者モデルをもとに、学習データに含まれない別の話者が
発声した単語を用いて、モデルをその話者に適応化し
た。この発明による共有化が実施されているモデルと実
施されていないモデルの2種類を作成し、比較した。適
応化用単語は、5,10,20,50,100単語と徐
々に増やし、それぞれにおいて上記2種類のモデルを作
成した。評価には、適応化用単語とは別の100単語セ
ットを用いて、認識率を調べた。適応化話者として、1
0名の男性話者をあて、それぞれ実験を行った。
【0019】図4は、適応化単語を増やしていったとき
の10名の話者の平均音素認識率を示す。この発明によ
る共有化を用いたモデルは、5〜100単語のすべての
点において、従来法を上回る性能が得られることがわか
った。従来法は、学習データに含まれるモデルのパラメ
ータのみが学習されるため、少数単語における性能の立
ち上がりが遅い。それに対し、この発明では、共有化関
係にある1つのパラメータが学習されれば、その他のパ
ラメータも同時に学習されるので、学習効率がよい。
【図面の簡単な説明】
【図1】この発明の原理を説明する図。
【図2】HMMを用いたパターン認識装置の一般的構成
を示すブロック図。
【図3】AはHMMの例を示す図、Bは混合分布の例を
示す図である。
【図4】この発明の効果を調べるための実験結果を示す
図。

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 入力ベクトルに対し、各状態の出力確率
    分布を多次元の連続分布で表現した隠れマルコフモデル
    の尤度を計算し、最も尤度の高いモデルが表現するカテ
    ゴリを認識結果として出力するパターン認識のためのモ
    デル学習方法において、 上記隠れマルコフモデルの状態中に存在する多次元連続
    分布を規定するパラメータについて、基準となるモデル
    と、その基準モデルを初期条件として学習した複数のモ
    デルとのパラメータの差分を計算し、その差分が、複数
    のパラメータ間で相関があり、かつ、その相関関係がモ
    デルによらず一様に決定できるとき、この相関関係を記
    録しておき、 上記基準モデルのパラメータを新たな学習データを用い
    て学習して、一部分のパラメータが移動すると、上記記
    録したそのパラメータと他のパラメータとの相関関係を
    用いて、相関のある他のパラメータも連動させて学習す
    ることを特徴とするパターン認識のためのモデル学習方
    法。
  2. 【請求項2】 上記隠れマルコフモデル中に存在する多
    次元連続分布を規定するパラメータが学習される際の、
    もとのパラメータと学習後のパラメータの差分に関し
    て、上記複数パラメータ間の相関関係の記録を、木構造
    を用いて表現し、木構造の末端に行くほど相関の強いパ
    ラメータがクラスタになっていることを特徴とする請求
    項1記載のモデル学習方法。
  3. 【請求項3】 上記隠れマルコフモデルにおいて、多次
    元連続分布が多次元正規分布であり、分布を規定するパ
    ラメータが平均値ベクトルであることを特徴とする請求
    項1または2記載のモデル学習方法。
  4. 【請求項4】 上記入力ベクトルが音声の特徴量である
    ことを特徴とする請求項1乃至3の何れかに記載のモデ
    ル学習方法。
  5. 【請求項5】 上記基準モデルが不特定話者用に作られ
    たモデルであり、これを基準として、複数話者の学習デ
    ータを用いて複数の特定話者モデルをそれぞれ学習し、
    これら特定話者モデルと基準となる不特定話者モデルと
    の間のパラメータの差分の相関関係を用いることを特徴
    とする請求項4記載のモデル学習方法。
JP7244276A 1995-09-22 1995-09-22 パターン認識のためのモデル学習方法 Pending JPH0990981A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7244276A JPH0990981A (ja) 1995-09-22 1995-09-22 パターン認識のためのモデル学習方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7244276A JPH0990981A (ja) 1995-09-22 1995-09-22 パターン認識のためのモデル学習方法

Publications (1)

Publication Number Publication Date
JPH0990981A true JPH0990981A (ja) 1997-04-04

Family

ID=17116347

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7244276A Pending JPH0990981A (ja) 1995-09-22 1995-09-22 パターン認識のためのモデル学習方法

Country Status (1)

Country Link
JP (1) JPH0990981A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004226982A (ja) * 2003-01-21 2004-08-12 Microsoft Corp 隠れ軌跡隠れマルコフモデルを使用した音声認識の方法
JP2005338358A (ja) * 2004-05-26 2005-12-08 Nippon Telegr & Teleph Corp <Ntt> 音響モデル雑音適応化方法およびこの方法を実施する装置
US11514308B2 (en) 2017-09-08 2022-11-29 Fujitsu Limited Method and apparatus for machine learning

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004226982A (ja) * 2003-01-21 2004-08-12 Microsoft Corp 隠れ軌跡隠れマルコフモデルを使用した音声認識の方法
JP2005338358A (ja) * 2004-05-26 2005-12-08 Nippon Telegr & Teleph Corp <Ntt> 音響モデル雑音適応化方法およびこの方法を実施する装置
JP4510517B2 (ja) * 2004-05-26 2010-07-28 日本電信電話株式会社 音響モデル雑音適応化方法およびこの方法を実施する装置
US11514308B2 (en) 2017-09-08 2022-11-29 Fujitsu Limited Method and apparatus for machine learning

Similar Documents

Publication Publication Date Title
US5812975A (en) State transition model design method and voice recognition method and apparatus using same
JP4590692B2 (ja) 音響モデル作成装置及びその方法
US6493667B1 (en) Enhanced likelihood computation using regression in a speech recognition system
US5825978A (en) Method and apparatus for speech recognition using optimized partial mixture tying of HMM state functions
US6366885B1 (en) Speech driven lip synthesis using viseme based hidden markov models
US20100114572A1 (en) Speaker selecting device, speaker adaptive model creating device, speaker selecting method, speaker selecting program, and speaker adaptive model making program
JPH0555040B2 (ja)
JPH10161692A (ja) 音声認識装置及び音声認識方法
US5794198A (en) Pattern recognition method
CN110299150A (zh) 一种实时语音说话人分离方法及系统
Chang et al. Discriminative template training for dynamic programming speech recognition
Ananthi et al. Speech recognition system and isolated word recognition based on Hidden Markov model (HMM) for Hearing Impaired
KR19990083632A (ko) 최대가능성방법을포함한고유음성에기초한스피커및환경적응방법
JP2852298B2 (ja) 標準パターン適応化方式
Walter et al. An evaluation of unsupervised acoustic model training for a dysarthric speech interface
JPH0990981A (ja) パターン認識のためのモデル学習方法
Rigoll et al. A NN/HMM hybrid for continuous speech recognition with a discriminant nonlinear feature extraction
Rigoll et al. A new hybrid system based on MMI-neural networks for the RM speech recognition task
JP3589044B2 (ja) 話者適応化装置
JP3251005B2 (ja) 標準パターン作成方法
Zhi et al. HMM modeling for audio-visual speech recognition
KR20200114705A (ko) 음성 신호 기반의 사용자 적응형 스트레스 인식 방법
JP2701500B2 (ja) 音声認識装置のための標準パターン学習方式
Nagino et al. Building an effective corpus by using acoustic space visualization (COSMOS) method [speech recognition applications]
JPH08248986A (ja) パターン認識方法