JPH0895592A - パターン認識方法 - Google Patents

パターン認識方法

Info

Publication number
JPH0895592A
JPH0895592A JP6226505A JP22650594A JPH0895592A JP H0895592 A JPH0895592 A JP H0895592A JP 6226505 A JP6226505 A JP 6226505A JP 22650594 A JP22650594 A JP 22650594A JP H0895592 A JPH0895592 A JP H0895592A
Authority
JP
Japan
Prior art keywords
model
learning
data
posterior probability
learning data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6226505A
Other languages
English (en)
Inventor
Junichi Takahashi
淳一 高橋
Shigeki Sagayama
茂樹 嵯峨山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP6226505A priority Critical patent/JPH0895592A/ja
Priority to US08/498,264 priority patent/US5793891A/en
Priority to DE69523219T priority patent/DE69523219T2/de
Priority to EP95110493A priority patent/EP0691640B1/en
Publication of JPH0895592A publication Critical patent/JPH0895592A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

(57)【要約】 【目的】 少ない学習データで標準モデルを適応化す
る。 【構成】 学習データ列24の1番目のデータ♯1によ
り、これと対応する不特定話者モデル20中のモデルを
最大事後確率推定処理21より適応化し、その適応化モ
デルとモデル20とから移動ベクトル場平滑化法による
処理22で、モデル20中の前記適応化したモデル以外
のモデルを適応化し、これら両適応化モデルを適応化モ
デル23とし、2番目以降のデータ♯2,♯3・・それ
ぞれは処理21と22で適応化モデル23を用いて適応
化モデル23をよりよいものにする。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は音声、文字、図形など
のパターン認識に適用され、あらかじめ用意された標準
的なモデルを初期モデルとし、学習用データを用いた学
習により標準的なモデルを修正して、その学習用データ
の性質に適した適応化モデルを作成し、その適応化モデ
ルを用いて入力信号の特徴データ系列のパターンを認識
するパターン認識方法に関する。
【0002】
【従来の技術】認識対象の特徴データ系列を確率・統計
理論に基づいてモデル化する、隠れマルコフモデル法
(Hidden Markov Model,以後HM
M法と呼ぶ)は、音声、文字、図形等のパターン認識に
おいて有用な技術である。特に音声認識の分野では、こ
の方法が今や主流である。このHMM法の詳細は、例え
ば、社団法人電子情報通信学会編、中川聖一著『確率モ
デルによる音声認識』に開示されている。HMM法に関
する技術は、音声認識技術により発展してきたといって
も過言ではない程、色々なHMMを用いた技術が研究・
開発されており、音声認識技術の分野における隠れマル
コフモデルに関する技術は、ほぼ、従来の隠れマルコフ
モデルを用いた一般のパターン認識技術を包含している
と言える。そこで、以下、隠れマルコフモデルを用いた
音声認識を例に、従来技術について説明する。
【0003】HMM法による音声認識処理手順を図4A
を参照して説明する。HMM法の処理には、大別して、
2つのフェーズがある、1つは“学習”であり、もう1
つは“探索”である。“学習”のフェーズでは、図4A
中のスイッチ10,11は、それぞれ、A側を選択し、
音声データベース12と学習処理部13とを分析処理部
14に接続し、色々な音声の構成単位(音韻/音素/音
節)や単語/文章などに対する音声信号が蓄積された音
声データベース12のデータを用いて、各音韻/音素/
音節/単語などの音響的な性質を表現するモデルをHM
M法の学習アルゴリズムに基づいて求める。このモデル
を求める過程において用いられる信号は、分析処理部1
4によって音声信号から抽出された特徴パラメータのベ
クトルデータ時系列である。この過程は、音声データベ
ース12から分析処理部14への音声信号データの入
力、分析処理部14の分析処理出力結果、すなわち音声
データベース12の音声信号データの特徴パラメータデ
ータの学習処理部13へのデータ入力で表される。図4
Aにおいて、学習によって最終的に得られるすべてのモ
デルを蓄積するHMMセット15から学習処理への矢印
は、学習すべきHMMのモデル構造(状態数、状態間の
遷移形式など)とモデルパラメータ(状態遷移確率、シ
ンボル出力確率、初期状態確率)の初期値を学習処理の
実行時に設定することを示している。分析処理部14に
おける信号処理として、よく用いられるのは、線形予測
分析(Linear Predictive Codi
ng,LPCと呼ばれる)であり、特徴パラメータとし
ては、LPCケプストラム、LPCデルタケプストラ
ム、メルケプストラム、対数パワーなどがある。このよ
うな学習処理によって求められた各音韻/音素/音節な
どのモデルはHMMセット15の要素として蓄積され、
このHMMセット15が音声データベースで現れるすべ
ての音響現象を表現する。なお、学習のアルゴリズムと
しては、最尤推定法に基づくBaum−Welch再推
定法がよく用いられる。
【0004】“探索”のフェーズでは、図4A中のスイ
ッチ10,11は、それぞれ、B側を選択して分析処理
部14に未知音声入力部16と探索処理部17とに接続
する。入力される未知の音声信号は、分析処理部14に
よって特徴パラメータのベクトルデータ時系列に変換さ
れ、探索処理部17でその特徴パラメータデータの時系
列がHMMセット15のどのモデルに最も類似している
かを、尤度と呼ばれる一種のスコアとして求め、各モデ
ルに対して求められる尤度の大小比較から、最も大きい
尤度を与えるモデルを選び出してそのモデルを認識結果
とする。この尤度を求めるHMM法の探索アルゴリズム
としては、前向き−後向きアルゴリズムに基づくトレリ
ス(trellis)計算やビタビ(Viterbi)
アルゴリズムがよく用いられる。単語認識を行う場合、
モデルが音素/音韻/音節で表されている場合は、認識
対象となる単語に対するモデルを、その表記(例えば音
素列)に従って、上記のモデルの連結によって作成し、
尤度はこのようにして得られた各単語のモデルに対して
求められる。そして、各単語モデルの尤度の大小比較を
行い、最も大きい尤度を与える単語をその認識結果とす
る。
【0005】従って、HMM法を用いた音声認識では、
認識対象とする音声信号に対する情報として、モデルの
学習用の音声データを収集する必要がある。これまでに
も、色々な音声データベースが存在するが、そのほとん
どが高品質音声のデータベースである。音声認識の実際
のサービスでの応用を想定すると、実環境下での音声の
使用が自然であることから、実使用環境で発声された音
声の認識技術が切に望まれている。実使用環境での音声
認識において最も問題となるのは、音声の伝送手段にか
かわる音声品質の劣化や音声に顕著に現れる話者の個人
的特徴のバラツキを如何に克服して、実環境下で不特定
多数の話者の音声を間違えることなく認識するかであ
る。音声の伝送手段(例えば、電話網)にかかわる音声
品質の劣化要因としては、様々な雑音、様々な周波数帯
域制限、様々な伝送損失特性並びに周波数特性が想定さ
れ、それらの影響を受けて音声品質が著しく劣化するた
め、音声認識率が大きく低下するという問題がある。ま
た、不特定多数の話者の音声は個人的特徴のバラツキが
大きいため、実用に供する程の音声認識性能を得られて
いないのが現状で、その性能は特定の話者に限定した音
声認識性能に比べてかなり低いという問題がある。さら
に、電話サービスでの予約サービスや情報案内への音声
認識を想定すると、音声伝送系の影響と不特定多数のサ
ービスユーザが前提であることから、伝送系特性の影響
と個人的特徴のバラツキとに同時に対処しなければなら
ないという問題がある。
【0006】先に説明したHMM法の枠組から考える
と、あらゆる伝送系特性を含む音声データ、あらゆる個
人的特徴を含む音声データを学習に用いれば、上記の問
題に対処できるように思われる。しかし、可能な限りの
伝送系特性や個人的特徴を含むような音声データの収集
及びそのデータベース化は、多大の時間・労力を要する
ばかりでなく、それらの組み合わせを網羅的に収集する
ことは現実的には困難である。また、これらの要因の影
響を受けた音声の変動は、かなり大きいことが予想さ
れ、種々の変動を含んだ音声データを用いて学習したモ
デルでも、この大きな変動を十分に表現しきれず、十分
な音声認識性能を得ることができないことも考えられ
る。
【0007】このような問題に対処する方法として、従
来、高品質な音声データを用いて学習した音声のモデル
を、実使用環境の様々な要因によって品質劣化した音声
や、その時々に音声認識システムを使用する話者の個人
的な特徴を含む音声を表現しやすいように合わせ込んで
いくという『適応化』という手法がある。この方法は、
実使用環境での大量の音声データの収集を必要としない
という利点がある。しかし、あらかじめ用意しておいた
音声のモデルを、実使用環境の音声に合わせ込むため
に、認識を行う直前に、その音声認識処理が行われる系
における実使用環境の影響、すなわち、音声伝送媒体の
特性や話者の個人的な特徴を含んだ音声を獲得して、獲
得した音声データを用いた学習により、あらかじめ用意
されている高品質音声データから学習して求められたモ
デルに対して、適応化のためのモデルのパラメータの調
整が必要である。
【0008】実際のシステムやサービスなどへこのよう
な方法を適用するとき、モデルの適応化を行うための学
習に必要となる音声データの発声をユーザに要求するこ
とが不可欠であり、ユーザはシステムの音声認識機能を
利用するに当たって、余分な発声を強いられることにな
る。従って、システムとのユーザインタフェース(また
はマンマシンインタフェース)を可能な限り良好に保つ
ためには、上記の学習用データの発声回数あるいは時間
は可能な限り少ない(例えば、2〜3単語程度)ことが
望まれる。
【0009】従来、適応化のための学習(以後、適応学
習と呼ぶ)としては、コードブックマッピングによる方
法、適応学習を少数データ学習問題としてとらえ、小数
の学習データには含まれない音声(音素/音韻など)の
モデルを、その少数の学習データによって学習された音
声のモデルを用いて補間によって推定する方法などがあ
る。コードブックマッピングによる方法は、ベクトル量
子化の技術を用いて、音響空間の特徴を音声の特徴を表
す複数の代表的なコードスペクトルからなるコードブッ
ク(符号帳)で表現する方法に基づいており、あらかじ
め用意された標準的なコードブックと適応しようとする
音声に対するコードブックとの対応関係を推定すること
により、適応を行おうとするものである。この技術に関
しては、例えば、文献『R.Schwartz,Y.c
how,F.Kubala,“Rapid Speak
er Adaptation Using a Pro
babilistic Mapping,”Proce
edings of ICASSP−87,15.3,
pp.633−639,(1987−4).』や『K.
Shikano,S.Nakamura,M.Abe,
“SpeakerAdaptation and Vo
ice Conversion byCodebook
Mapping,”Proceedings of
ISCAS−91,(1991−6).』に開示されて
いる。この方法では、適応しようとする音声の音響空間
を十分に表現できるコードブックを作成するために、少
なくとも数十単語程度の適応学習データが必要であり、
先に述べたように、適応学習データの獲得、学習処理に
おいてマンマシンインタフェースの観点から実際的な応
用には支障がある。
【0010】一方、適応学習を少数データ学習問題とし
てとらえ補間によって適応学習を行う方法としては、例
えば、移動ベクトル場平滑化方式(Vector Fi
eld Transfer Smoothing:VF
S)がある。この技術に関しては、例えば、文献『大倉
計美、杉山雅英、嵯峨山茂樹、“混合連続分布HMM移
動ベクトル場平滑化話者適応方式,”電子情報通信学会
論文誌D−II,Vol.J76−D−II,No.12,
pp.2469−2476,(1993−12).』に
開示されている。この方法では、少数の学習データに含
まれる音声(音素/音韻)の学習によって求められたモ
デルから、この学習データに含まれない音声のモデルを
内挿・外挿の補間により推定しようとするものである。
しかし、十分な認識性能を得るには、少なくとも数十単
語あるいは10文章程度の適応学習データが必要とさ
れ、適応学習データの獲得の観点で問題がある。
【0011】
【発明が解決しようとする課題】そこで、この発明は、
実際のシステムやサービスへの適応化手法を用いたパタ
ーン認識技術を応用する場合に問題となる、適応学習デ
ータの獲得にかかわるユーザの発声などの負担を大幅に
軽減できるような、極少数の学習データの適応学習で、
高速な適応化で高い認識性能を実現できるパターン認識
方法を提供することにある。
【0012】
【課題を解決するための手段】請求項1の説明によれ
ば、複数の学習用データ中の1つのデータの学習対象モ
デルを、その1つの学習用データの学習対象モデルに対
応する標準的なモデルを初期モデルとし、その学習用デ
ータを用いて最大事後確率推定法により求め、また学習
用データ中の上記1つのデータの学習対象でないモデル
を、移動ベクトル場平滑化法による最大事後確率推定法
により求めたモデルと初期モデルとを用いた内挿・外挿
の補間処理によって求め、その補間処理によって求めた
学習用データ中の学習対象でないモデルと、最大事後確
率推定法により求めた学習用データ中の1つのデータの
学習対象モデルとを合わせて適応化モデルとし、複数の
学習用データの各1つごとに上記適応化モデルを上記初
期モデルに置き換えて上記最大事後確率推定法と上記補
間処理とを繰り返す。
【0013】請求項4の発明によれば、請求項1の発明
における最大事後確率推定法による学習対象となるモデ
ルの学習を学習用データを用いて行い、かつ最大事後確
率推定法による学習対象とならないモデルを移動ベクト
ル場平滑化法により内挿・外挿の補間処理によって求
め、その補間処理によって求めたモデルと、最大事後確
率推定法で求めたモデルとを合わせて適応化モデルとす
ることは同様であるが、上記各1つの学習用データごと
の繰り返しにおいては、請求項4の発明では、初期モデ
ル中の学習対象となったモデルを、最大事後確率推定で
得られたモデルに置き換えて、上記最大事後確率推定と
上記補間処理とを行う。つまり、請求項1または4の何
れの発明においても、複数の学習用データを各1つごと
にその学習対象モデルを、最大事後確率推定法により学
習し、かつ学習対象外のモデルを、最大事後確率推定法
により学習したモデルと初期モデル(標準的モデル)と
を用いて移動ベクトル場平滑化法により内挿・外挿補間
処理により求めて、対象モデルと対象外モデルとに対す
る適応化モデルを得、これを各1つの学習用データごと
に行う際に、請求項1の発明で直前で得られた適応化モ
デルを初期モデルとし、請求項4の発明では直前の最大
事後確率推定法で求めたモデルに、初期モデル中の対応
するモデルを置き換えるというように、適応学習データ
が得られるごとに、その結果を次の適応化処理にフィー
ドバックしてより学習データに適応した適応モデルを得
る。
【0014】音声パターン認識についてみると、現在の
音声認識技術では、音声の構成要素である音素/音韻単
位のモデルを用いるのが主流であるので、以後の説明で
も、音声のモデルの単位は、音素/音韻とする。この発
明では、次々に得られる適応学習データごとに、最大事
後確率推定法(maximum a posterio
ri probability estimatio
n:MAP推定法)と移動ベクトル場平滑(Vecto
r Field Smoothing:VFS)化法と
の組み合わせによって逐次に適応学習するが、最大事後
確率推定法については、例えば、『Gauvain,
J.−L.,and Lee,C.−H.,“Bays
ian Learning for Hidden M
arkov Model with Gaussian
Mixture State Observation
Densities,”Speech Commun
ication, Vol.11, Nos.2−3,
pp.205−213,(1992).』や『Chin
−Hui Lee and Jean−Luc Gau
vain,“Speaker Adaptation
Based on MAP Estimation o
f HMM parameters,”Procedi
ngs of ICASSP−93,pp.II−588
−591,(1993).』に開示されている。先に説
明した従来の適応化方法では、この適応学習に最尤推定
法(Maximum Likelihood esti
mation:ML推定法)を用いており、Baum−
Welchアルゴリズムによる推定計算によりモデルの
学習を行っていた。このアルゴリズムによる推定計算で
は、学習音声中の各音素のモデルは、その音素に最も近
いものが最も高い尤度となるように適応化するため、一
つの音素のモデルの学習に、その音素に対応する音声デ
ータを大量に用いなければ、高い推定精度が得られない
という本質的な問題がある。従って、限られたデータ量
の適応学習データしか用いることができないことを前提
とする適応化処理では、適応学習データによって一部の
音素のモデルが学習されたとしても、学習データ中のそ
の音素の数が少な過ぎるためその音素のモデル自体は十
分な推定精度を確保できない。さらに、適応学習データ
に存在しなかった音素のモデルは、学習された音素のモ
デルを用いた補間によって推定されるため、当然、十分
な推定精度を確保することは困難である。このような理
由から、これまでの適応化処理では、モデルの推定精度
が許容できる程度の適応学習データを確保しなげればな
らないため、数十単語程度のデータ量を必要とした。
【0015】しかし、この発明では、音声の特徴パラメ
ータのベクトル時系列の1つのベクトルデータを学習に
用いただけでも、その学習の推定精度を確保できる最大
事後確率推定法を用いることにより、少数の適応学習デ
ータを用いた学習における推定精度の向上を実現でき
る。最大事後確率推定法ではそれまでの標準の音素モデ
ルを出発として学習データについてのモデルを作るか
ら、適応学習データ量をこれまでの数十単語から数単語
にまで削減した高速な適応学習を可能とする。
【0016】移動ベクトル場平滑化法による補間処理
は、前記最大事後確率推定法で学習された音素のモデル
は、その音素に対応する標準モデルから適応学習によっ
て音響空間を移動してできたモデルと見なし、各音素の
モデル間で張られるその移動ベクトルが、同一方向を向
くことを仮定とする。そして、未適応学習の音素のモデ
ルに対する移動ベクトルを、適応学習によって求められ
た音素のモデルに対する移動ベクトルから補間によって
求め、求められた移動ベクトルを未学習の音素の標準モ
デルに加算することにより適応後のモデルを推定する。
【0017】すなわち、この発明は、最大事後確率推定
法による適応学習と移動ベクトル場平滑化法による未適
応のモデルの推定及び平滑化とを組み合わせることによ
り、少数の適応学習データでの推定精度の高い適応学
習、及び、これらの高精度に学習されたモデルを用いた
簡易な補間・平滑化処理による未適応学習のモデルの推
定を可能とし、高速かつ高性能の適応化処理が実現でき
る。
【0018】さらに、この発明ではベースとなるモデル
のモデル・パラメータに内在する事前知識と新たな適応
学習データとを統合した学習を特徴とし、初期モデルで
用いた学習データをそのまゝ再び用いることなく、新た
に得られた適応学習データを用いた初期モデルからの学
習により、初期モデルで用いた学習データと新たな適応
学習データとを用いた、従来よく用いられている最尤推
定法(MaximumLikelihood esti
mation:ML推定法)で一括学習したものと同等
のモデルが得られる枠組をもつが、この発明の方法で
は、最大事後確率推定法の特徴である元の学習データを
用いずに新たな学習データのみで学習できるという追加
学習機能の利点と、移動ベクトル場平滑化法の特徴であ
る適応学習データに含まれない音素のモデルを補間によ
り推定して、常にすべての音素のモデルに対する学習を
可能とする利点を、効果的に活かすように組み合わされ
ているといえる。
【0019】
【実施例】この発明の方法を、標準的な音素モデルを用
いて、そのモデルをある特定の話者の音素モデルに合わ
せこむという話者適応の問題に用いた例について説明す
る。実際的なアプリケーションへの応用においては、標
準的な音素モデルとしては、老若男女色々な話者が発声
した音声データを用いて、あらかじめ学習しておいた不
特定多数の話者の音声を認識対象とした不特定話者モデ
ルを用いるのが一般的である。また、ある特定の話者と
は、その音声認識システムまたは音声認識機能をその時
々で用いる話者を示す。
【0020】図1にこの発明の方法を用いた逐次形話者
適応処理の手順を示す。不特定話者モデル20はシステ
ムのベースとなるあらかじめ用意された標準的な音素モ
デルであり、この発明の方法における適応学習法の構成
要素は、最大事後確率推定法による処理21と、移動ベ
クトル場平滑化法による処理22とであり、各1つの適
応学習データごとにこの発明の方法を用いた適応学習に
より適応化されたモデル(適応化モデルと呼ぶ)23が
得られる。適応学習データの系列24は複数のデータ♯
1,データ♯2,・・からなり、この各適応学習データ
の1つ1つが順次入力される。スイッチ25で最初の学
習データ♯1を用いた適応処理の場合は不特定話者モデ
ル20を最大事後確率推定法による処理21へ供給する
A側に接続され、2番目のデータ♯2以降の適応処理の
場合は適応化モデル23を最大事後確率推定法による処
理21へ供給するB側に接続される。従って、最大事後
確率推定法による処理21で用いるモデルは、2番目の
適応学習データ以降は、前回の適応処理で得られた適応
化モデルが用いられる。
【0021】最大事後確率推定法による処理21では適
応学習データに含まれた音素のモデルのみが学習される
が、各回の最大事後確率推定処理では、その回までに最
大事後確率推定によって学習された音素のモデルに対す
る学習後のモデルが累積される。例えば適応学習データ
♯1,♯2の2つのデータによる逐次適応を行った場
合、データ♯1により音素“k”と音素“p”が学習さ
れ、データ#2により音素“k”と音素“s”が学習さ
れた場合を想定すると、第1回目の最大事後確率推定の
処理で累積される学習後のモデルは、音素“k”と音素
“p”のモデルであり、第1回目の適応処理で得られた
適応化モデル23を用いた第2回目の最大事後確率推定
の処理後に累積される学習後のモデルは、第2回目で初
めて学習した音素“s”のモデルと、音素“k”につい
ては第2回目で再度学習されたのでこの第2回目の学習
で得られた音素“k”のモデルと、第2回目では学習さ
れなかったが第1回目で学習された音素“p”のモデル
との3つである。
【0022】移動ベクトル場平滑化法による処理22
は、この最大事後確率推定法による処理21で累積され
た学習後のモデルと、それに対応する不特定話者モデル
20との間で移動ベクトルが求められ、最大事後確率推
定法による処理21で学習累積されていない音素のモデ
ル、すなわち、未適応の音素のモデルが、前記移動ベク
トルを用いた補間処理によって推定される。また、必要
に応じて最大事後確率推定法による処理21で累積され
た学習後のモデルは、この移動ベクトル場平滑化法によ
る処理22の平滑化処理により推定誤差が補正される。
【0023】各回の適応処理で得られる適応化モデル2
3は、その適応学習データが得られた時点までの最新の
適応化モデルとして使用可能であるので、このような適
応処理を有する音声認識システムでは、常に更新された
適応化モデルで音声認識を提供することができる。この
ため、システムはユーザに使用されながら、その認識性
能が向上されるので、ユーザはよりよい音声認識機能を
享受できる。
【0024】上記では、請求項1の発明の方法での逐次
的な適応学習処理における逐次性に着目した、処理フロ
ーの大きな流れについて説明してきたが、以下の説明で
は、最大事後確率推定、移動ベクトル場平滑化の各処理
の詳細を数学的な表現を交えながら述べる。以下の説明
では、各音素のHMMのモデルを、図4Bに示すよう
な、状態数4,混合数3のleft−to−right
型の混合連続HMMとする。図4Bにおいて、○は状態
30を表しており、○の下に書かれた番号は各状態に付
けられた状態番号である。また、状態間に付けられた矢
印は、状態遷移枝を表しており、同一の状態で遷移する
自己ループ31と右隣りの状態へ遷移する遷移枝32と
がある。各状態遷移枝の側に示されたパラメータa
ijは、各遷移枝の状態遷移確率を表す。状態番号4の状
態は、音素モデルの最終状態である。各音素モデルを連
結して音節/単語/文などのモデルを作る場合は、この
最終状態4を次に続く音素モデルの状態番号1に重ねて
連結する。このleft−to−right型構造のモ
デルは、自己ループと右隣りの状態への状態遷移のみを
許すことを特徴とし、音声の現象をよく表現するものと
して一般によく用いられている。また、混合連続とは、
各状態のシンボル出力確率密度関数を複数のガウス分布
(または正規分布)の線形加算によって表現することを
意味し、現状の音声認識アルゴリズムにおいては主流の
モデル表現法である。
【0025】各音素のHMMのパラメータを図4Bのモ
デル構造に合わせて次のように定義する。 ・状態遷移確率:aij((i,j)=(1,1),
(1,2),(2,2),(2,3),(3,3),
(3,4)). ・シンボル出力確率:bj (x)=Σk=1 3jkN(x|
μjk,Σjk)(j=1,2,3) ここで、関数N(x|μjk,Σjk)は、ガウス分布関
数、係数wjkは重み係数を表す。
【0026】また、ガウス分布関数は、 N(x|μjk,Σjk)=(1/〔(2π)n/2 |Σjk
1/2 〕)exp〔−(1/2)(x−μjkt Σ
jk -1(x−μjk)〕 である。ここで、xは、音声の特徴パラメータのベクト
ルデータ時系列における、ある時刻のベクトルデータで
ある。また、μjk及びΣjkはガウス分布関数を特徴付け
るパラメータであり、それぞれ、平均ベクトル、共分散
行列である。
【0027】以上の定義のもとに、図2に示すこの実施
例のフローチャートを参照して説明する。先ず、この発
明の特徴の一つである、最大事後確率(MAP)推定法
を用いた適応学習の手順について説明する。今、適応学
習用の音声データ40として、『うらやましい』、『お
もしろい』という2つの単語に対する音声が獲得できた
と仮定する。これらの単語の音素記号列の表記例を、そ
れぞれ、『#_u_r_a_y_a_m_a_sh_i
i_#』,『#_o_m_o_sh_i_r_o_i_
#』とする。ここで、“_”は、音素記号の区切りを表
す区切り記号である。また、“#”は、音声を発声して
いない、いわゆる、無音区間と呼ばれる部分に対応する
音素記号である。この無音区間は、一連の音声信号のう
ち、単語の発声前、発声後に存在する。これ以外のアル
ファベットで表された、“a”,“u”,“o”,
“m”,“sh”,“ii”,“r”などが母音や子音
の音素表記である。この音声データの例では、“#”,
“u”,“r”,“a”,“y”,“m”,“sh”,
“ii”,“o”,“i”の10種類の音素が含まれて
いる。一方、あらかじめ用意されている標準の音素モデ
ルのセット47には、あらゆる音素(例えば、上記の音
素以外に、母音として“e”,“ai”,“uu”など
や子音として“k”,“t”,“p”,“ch”,“b
y”などがある)に対するモデルが含まれており、上記
の10種類の音素はこの中のサブセットに相当する。こ
の標準の音素のモデルセット47では、各音素のモデル
は、先に定義したleft−to−right型の混合
連続HMMで表現されている。獲得した2単語の音声デ
ータ40には、先に示した10種類の音素が含まれるの
で、適応学習は、標準の音素モデルセット47のうちの
これらの10種類の音素に対応するモデルに対して実行
する。各音素モデルの適応学習には各音素に対応した音
声信号を必要とするので、獲得した各単語の音声データ
の音声信号区間の中でどの区間がどの音素に対応するか
を求めておかなければならない。この音素と音声信号の
区間との対応付けは、HMM法の探索処理のアルゴリズ
ムとしてよく用いられるビタビ(Viterbi)・ア
ルゴリズムによって求めることができる。このような処
理は、ビタビ・セグメンテーション42と呼ばれる。こ
の処理では、セグメンテーションの対象となる音声デー
タ(分析処理41によって特徴パラメータのベクトルデ
ータ時系列に変換されたもの)が、その発声内容、すな
わち、その単語の音素系列に合わせた音素モデルの連結
によって得られたモデルに対応しているとして、そのモ
デルから得られるこの音声データに対する尤度(類似度
を表すスコアの一種)が最大になるように、音声データ
の音声信号区間と各音素モデルとの対応関係を決める。
ここで用いられる音素モデルは標準の音素モデルセット
47の中の、セグメンテーションの対象となる音声デー
タに含まれる音素のモデルであって、適応学習単語はあ
らかじめ決められてある。
【0028】単語『うらやましい』の音声データの特徴
パラメータのベクトルデータ時系列を、D1 ={x1
2 ,…,xt ,…,xT1}とする。tは時刻を表し、
フレームと呼ばれる。すなわち、この例では、単語『う
らやましい』の音声データは、総フレーム長がT1 フレ
ームであり、そのtフレーム目の特徴パラメータはx t
である。ビタビ・セグメンテーション42により、この
単語の最初の3つの音素“#”,“u”,“r”に対応
する音声データの音声信号区間が、それぞれ、第1フレ
ームから第10フレーム、第11フレームから第20フ
レーム、第21フレームから第27フレームとすると、
これらの3種類の音素のモデルは、それぞれのフレーム
区間の音声信号を適応学習用のデータとする。この単語
『うらやましい』に含まれる他の音素や、もう1つの単
語『おもしろい』に含まれる音素に対しても、同様の音
声信号区間の切りだしを行い、それぞれの音素に対応す
る音声信号区間をモデルの適応学習に用いる。なお、2
種類の単語に共通に含まれる音素については、その音素
に対応する各単語の音声信号区間をすべて用いて適応学
習する。
【0029】上記のように、適応学習用の音声データに
含まれる音素と各音素に対する音声信号区間が決められ
ると、適応学習用の音声データに含まれる音素に対応す
る標準の音素モデルセット47の音素モデルを、対応付
けられたそれぞれの音声信号区間を学習データとして用
いて、最大事後確率推定法によって適応学習する。従来
よく用いられている最尤推定法(ML推定法)と対比し
ながら、最大事後確率推定法の原理について簡単に説明
する。最尤推定法(ML推定法)では、推定しようとす
るモデルパラメータθは未知の、つまり過去(既知)の
モデルと無関係定数であるという仮定に基づき、実際に
観測されたサンプルデータ値xに対するモデルの尤度が
最大になるようにモデルパラメータを推定する。推定し
ようとするモデルパラメータθのもとでサンプル値xが
観測される条件付き確率の関数f(x|θ)でモデルの
尤度が求められるとすると、モデルパラメータの推定値
θMLは、 θML=argmax f(x|θ) (1) で与えられる。ここで、argmaxは、パラメータθ
を変化させて関数fを最大にする時のパラメータθを求
めることを意味する。先に仮定した混合連続HMM法の
枠組では、サンプルデータxは、実際に観測される音声
データの特徴パラメータのベクトルデータ時系列に相当
し、パラメータは各音素のモデルのHMMパラメータ
(状態遷移確率、シンボル出力確率密度関数の重み係数
やガウス分布の平均ベクトル、共分散行列)である。
【0030】これに対して、最大事後確率推定法では、
推定しようとするモデルパラメータθがある事前分布g
(θ)に従う、つまり過去のモデルに拘束された変数で
あると仮定し、この事前分布g(θ)のもとで実際にサ
ンプル値xが観測される事後確率が最大となるようにモ
デルパラメータθを推定する。数学的な表現は、モデル
パラメータの推定値をθMAとすると、 θMA=argmaxf(x|θ)g(θ) (2) である。
【0031】HMMの尤度計算に対して感度が高いシン
ボル出力確率のみを推定対象とし、シンボル出力確率が
ガウス分布で与えられる混合連続HMMの場合は、平均
ベクトルと分散が適応学習の対象となるが、話者適応に
おける音素モデルの適応学習の問題に最大事後確率推定
法を応用する場合、適応学習用の音声データが少数であ
ることが前提となるため、すべてのHMMパラメータを
推定することは、例えば共分散行列などは平均ベクトル
からのバラツキを示しており、少ない音声データでは必
ずしもその音声のバラツキを代表しているものではない
ことがあり、かえって各パラメータの推定精度を悪くす
ることが考えられる。従ってこの実施例では、簡易な計
算処理によって効果が期待できる、平均ベクトルのみの
適応学習について説明する。標準の音素モデルセット4
7内のある音素モデルのある状態のシンボル出力確率分
布を、前述のようにΣk=1 3k N(x|μk ,Σk )と
し、適応学習によって推定されるシンボル出力確率分布
の平均ベクトルをμk MA(k=1,2,3)とする。こ
のパラメータμk MAの事前分布g(θ)を、適応学習の
初期モデルである標準の音素モデルの平均ベクトル
μk 、分散Σk に基づいたガウス分布N(μk ,(1/
αk )Σk )と仮定すると、最大事後確率推定法による
平均ベクトルの推定式は前記文献によると次式となる。
【0032】 μk MA=(αk μk +Σcktt )/(αk +Σckt) ここでΣはt=1からmk まで、ckt=wk N(xt
μk ,Σk )/Σk=1 3k N(xt |μk ,Σk )、m
K は、サンプルデータxの個数である。例えば、適応学
習用の単語『うらやましい』の音声データから“u”の
音素モデルの平均ベクトルを推定する場合には、音素
“u”の音声データ区間が第11〜第20フレームであ
るので、サンプルデータはこれらのフレームの特徴パラ
メータデータであり、サンプルデータの個数はmk =1
0である。なお、パラメータαk は適応化パラメータで
あり、推定しようとする平均ベクトルの事前分布g
(θ)における不確かさを制御するものである。このパ
ラメータを0に近づけると事前分布の分散は大きくな
り、平均ベクトルの不確かさが増し、逆に大きくすると
分散が小さくなるので不確かさが小さくなる。また、c
ktは、時刻tのサンプルデータxt において、シンボル
出力確率分布(各ガウス分布の重み付き加算)のk番目
のガウス分布が、シンボル出力確率分布に占める割合を
表している。
【0033】この平均ベクトルμk MAの推定式による
と、適応学習データを用いた推定計算を行うには、事前
分布g(θ)=N(μk ,(1/αk )Σk )の平均ベ
クトルμk 、サンプルデータxt 、及びこのサンプルデ
ータの重み係数cktを求めておく必要がある。事前分布
の平均ベクトルは、標準の音素モデルの平均ベクトルを
用いる。サンプルデータxt は、適応学習に用いられる
音声データの各フレームの特徴パラメータ・データに相
当するので、ビタビ・セグメンテーション42でえられ
た各音素モデルに対応する音声区間の特徴パラメータデ
ータを用いればよい。また、パラメータcktは、ビタビ
・セグメンテーションの処理42において、適応学習デ
ータのモデルに対する尤度を計算する過程で求められ
る、各シンボル出力確率分布の各ガウス分布関数のサン
プルデータxt に対する値と、それらの重み付き加算に
よって求められるシンボル出力確率分布の値との比をと
ることによって求める。この一連の処理は、図2中の平
均ベクトルの推定43に相当する。
【0034】適応学習データに含まれる10種類の音素
に対するモデルに対しては、各音素モデルの各シンボル
出力確率分布の各ガウス分布毎に、事後確率が最大とな
る平均ベクトルμk MAが求められる。事前分布g(θ)
の分散を制御するパラメータαk は、適応学習後の音素
モデルが適応学習データの対応する音素の音声データに
対して最大の尤度をとるように実験的に求めるか、また
は、平均ベクトルの推定に寄与するサンプルデータの事
前分布における偏りを計算し、これに基づいてその値を
設定する。後者の場合、平均ベクトルの推定計算は、ビ
タビ・セグメンテーションに用いたモデルを、推定した
平均ベクトルをもつモデルに置き換え、再びビタビ・セ
グメンテーションして平均ベクトルを推定するという、
繰り返しの処理を行うことによって求める。このとき、
パラメータαk は、繰り返しごとに、サンプルデータの
事前分布における偏りを求めその値に応じて設定する。
【0035】以上の手続きにより、最大事後確率推定法
を用いた平均ベクトルの適応学習43、つまり平均ベク
トル抽出が終了する。適応学習データには、10種類の
音素しか含まれていないので、適応学習された音素モデ
ルはこの10種類の音素に限られる。図2中の適応化音
素モデル44がこれに相当する。標準の音素モデルセッ
ト47には、これらの10種類以外の音素に対するモデ
ルが存在するので、話者適応化を実現するためには、こ
れらの残りの音素モデルに対しても、適応化が必要であ
る。しかし、適応学習データがないので、これらの未適
応の音素モデルに対しては、得られた10種類の適応化
モデル44とすべての標準の音素モデル47とを用い
て、それらの適応化モデルを推定する。この推定には、
この発明の方法のもう1つの特徴である移動ベクトル場
平滑化法を用いる。
【0036】以下、移動ベクトル場平滑化法を用いた未
適応の音素モデルの推定と平滑化処理を、数学的な表現
に基づいて説明する。図3に移動ベクトル場平滑化法の
原理を示す。図3において、50は適応化の初期モデル
である標準の音素モデルセットにおける各音素モデルの
平均ベクトルの集合を表し、51はすべての音素モデル
に対する適応化後の平均ベクトルの集合を示す。標準の
音素モデルセットの各平均ベクトルは黒丸●52で表し
ている。また、適応化音素モデルセットには、2種類の
平均ベクトルがあり、それぞれ、適応学習用の音声デー
タを用いて学習した音素モデルの平均ベクトル53(黒
丸●で示す)と、移動ベクトル場平滑化法によって推定
された音素モデルの平均ベクトル54(白丸○で示す)
とである。移動ベクトル場平滑化法では、適応化によっ
て、標準の音素モデルセットの平均ベクトル52は、音
響パラメータ空間上で、適応化音素モデルセットの平均
ベクトル53に平行移動されたと仮定する。双方の音素
モデルセット50,51の対応する平均ベクトル間の差
分ベクトル55,56が移動ベクトルであり、実線で表
された移動ベクトル55は、適応学習された平均ベクト
ル53から求められたものであり、破線の移動ベクトル
56は、適応学習できずに移動ベクトル場平滑化法の補
間処理によって推定された移動ベクトルである。これら
の移動ベクトル55,56で構成される移動ベクトル場
57では、各移動ベクトルは平行の位置関係にある。
【0037】この実施例では、適応化音素モデルセット
の平均ベクトルの集合51が、最終的に求めたい適応化
後のすべての音素モデルに対する平均ベクトルの集合で
あり、この集合51の黒丸●53の平均ベクトルは最大
事後確率推定法により適応学習された10種類の音素モ
デルの平均ベクトルに相当する。従って、平均ベクトル
の集合51の白丸○54の平均ベクトルが、移動ベクト
ル場平滑法による推定の対象である。
【0038】移動ベクトル場平滑化法による、未適応の
音素モデルの平均ベクトル(図3中の白丸○54で表さ
れる平均ベクトル)の推定計算式を以下に示す。標準の
音素モデルの平均ベクトル52の集合をR={μRk|k
=1,2,3,…,MR }、適応化音素モデルの平均ベ
クトルのうち、適応学習により適応化された平均ベクト
ル(黒丸●53で表現されたもの)の集合をA={μAk
|k=1,2,3,…,MA }、未適応の平均ベクトル
(白丸○54で表現されたもの)の集合をX=μXk|k
=1,2,3,…,MX }とする。また、集合A,Xと
それぞれ対応する集合RのサブセットをRA={μRAk
|k=1,2,3,…,MA }、RX={μRXk |k=
1,2,3,…,MX }とすると、RA、RXは、それ
ぞれ、適応化音素モデルの適応学習前の標準の音素モデ
ルの平均ベクトルの集合、未適応の標準の音素モデルの
平均ベクトルの集合を表す。それぞれの平均ベクトルの
個数は、A,Xのベクトルの個数に等しく、MA +MX
=MR である。移動ベクトルvは、集合AとRAの対応
する平均ベクトル間で計算され、 vk =μAk−μRAk (k=1,2,3,…,MA ) で求まる。未適応の音素モデルの平均ベクトルμxkと対
応する移動ベクトルを、適応学習された平均ベクトルμ
AKに対する移動ベクトルvk の重み付き補間により推定
し、この推定によって得られた移動ベクトルを、対応す
る標準の音素モデルの平均ベクトルμRXk に加算するこ
とにより、未適応の音素モデルの平均ベクトルμxkを求
める。移動ベクトルvk の重み付き補間における重み係
数は、補間により推定しようとする平均ベクトルμxk
対応する標準の音素モデルの平均ベクトルμRXk が、適
応学習された平均ベクトルμAkに対応する標準の音素モ
デルの平均ベクトルμRAk に対して、音響パラメータ空
間上、どれだけ離れているかを表す距離に応じて決め
る。集合RXの平均ベクトルμRXi と集合RAの平均ベ
クトルμRAj との距離は、 dij=D(μRXi ,μRAj ),μRXi ∈RX,μRAj
RA と定義する。距離関数Dとしては、例えば、統計数学上
の距離としてよく用いられるマハラノビス距離がある。
重み係数wijは、ファジー級関数やガウス窓関数が用い
られ、それぞれ、
【0039】
【数1】 である。ここで、パラメータfは、平滑化係数(ベクト
ルを同じ方向にそろえる係数)であり、ファジー級関数
の場合は、ファジネスとも呼ばれる。ファジー級関数の
場合、距離dijが0の場合は、その重み係数は1とす
る。このようにして求めた重み係数を用いて、集合Xの
未適応の平均ベクトルは、
【0040】
【数2】 として求められる。この一連の過程は、図2中の平均ベ
クトル推定45の処理に相当する。
【0041】このような手続きで、未適応の音素モデル
に対する平均ベクトルμxkが補間により求められ、最大
事後確率推定法の適応学習で求めた平均ベクトルμAk
含めると、標準の音素モデルセットに存在したすべての
音素モデルに対する平均ベクトルμRkが推定されたこと
になる。しかし、最大事後確率推定法で推定した平均ベ
クトルμAkは、必ずしも、移動ベクトル場平滑化推定法
の仮定である移動ベクトル間の平行性の条件を満足して
いないので、次式によりこれらの平均ベクトルμAkに対
する移動ベクトルを平滑化して、つまり方向をそろえて
修正を加える。この過程は、図2中の平均ベクトルの平
滑化46の処理に対応する。この場合、重み係数を求め
る際に用いる、平均ベクトル間の距離dijは、適応学習
された平均ベクトルに対応する標準の音素モデルの平均
ベクトル間で計算され、次式で表される。
【0042】 dij=D(μRi,μRj) μRi∈RA,μRj∈RA 重み係数は、補間処理の場合と同様のファジー級関数や
ガウス窓関数が用いられる。適応学習した平均ベクトル
μAkに対する平滑化の計算は次式で行なう。
【0043】
【数3】 ここで、添字neは、平滑化により修正を加えられたこ
とを示す。
【0044】以上の手続きにより、最大事後確率推定法
と移動ベクトル場平滑化法を組み合わせた逐次的な適応
処理の1回分の適応処理が実現される。以後2回目以降
の適応処理は、上記の詳細な手続きを、最大事後確率推
定法による処理におけるモデルを前回の適応化モデルに
置き換えて実行すればよい。これら各適応化モデルの平
均ベクトルの他のパラメータ、すなわち、状態遷移確
率、シンボル出力確率密度関数の重み係数、共分数行列
などは対応する標準音素モデルのそのパラメータを用い
る。
【0045】上述したように2回目の適応学習データを
用いた適応処理においては、最大事後確率推定に、前回
の適応処理で得られた適応化モデルを初期モデルとして
用いるが、移動ベクトル場平滑化法による処理は、適応
化モデルではなく、最初の標準的なモデルの初期モデル
を用いてもよい。次に請求項4の発明の実施例について
説明する。この場合も図1において最大事後確率推定法
による処理21と、移動ベクトル場平滑化法による処理
22とを実行するが、2番目の学習データ♯2を用いた
適応処理からは、図1中に点線で示すように、その直前
の適応処理における最大事後確率推定法による処理21
で求めた適応化モデルを、不特定話者モデルの置き換え
処理26により不特定話者モデル20内の対応するモデ
ル、つまり前回の適応処理の最大事後確率推定法による
処理21で学習データを用いた不特定話者モデル20中
の学習対象となったモデルと置き換え、その置き換えが
なされた不特定話者モデル20を適応処理に用いる。こ
の場合はスイッチ25はA側に接続されたまゝとなる。
【0046】このようにして各学習データに対する適応
処理ごとに、不特定話者モデル20中の対応するモデル
が適応化モデルと置き換えられてゆく。この請求項4の
発明においても、図2に示した適応処理のように、最大
事後確率推定法により求めた適応化モデルの誤差を図2
中の処理46と同様に移動ベクトル場平滑化法により小
さくなるようにしてもよい。この場合は平滑化されたモ
デルに、不特定話者モデル20の対応するモデルを置き
換えてもよい。また、移動ベクトル場平滑化法による処
理では、置き換えが行われた不特定話者モデルではな
く、最初の標準的なモデルを用いてもよい。また上述に
おいて、適応化精度が下るが、最大事後確率推定法で求
められた平均ベクトルμAkの平滑化処理46を省略して
もよい。また上述において学習データ中に含まれている
音素に近い、標準の音素モデルを初期モデルとして、入
力学習データを用いて適応化してもよい。さらにこの発
明は音声認識のみならず文字、画像などの認識にも適用
できる。
【0047】
【発明の効果】この発明の方法の効果を以下に示す。・
従来よく用いられている最尤推定法では、学習データに
最も近いモデルに適応化するため、大量の学習データを
用いなければ高い推定精度でのモデル推定ができない。
このため、これを用いた適応学習においては、許容でき
うるモデルの推定精度を得るために数十単語もの適応学
習データを必要としていたのに対し、この発明の方法で
は、標準モデルの性質を生かし、これも含めて、学習デ
ータにも近づける最大事後確率推定法を用いているた
め、適応学習データを数単語程度に削減できる。従っ
て、高速の適応処理が実現できる。しかも標準モデルの
性質を生かしているため、一般性が失われず、高精度の
認識ができる。・適応学習データを数単語程度にできる
ので、実際のアプリケーションにおける音声認識システ
ムまたは音声認識機能のユーザへの直前の発声負担を従
来に比べて大幅に軽減できるので、ユーザとシステムと
の間のマン−マシンインタフェースを大きく向上でき
る。しかも適応学習データをユーザとシステムとの対話
から獲得して活用し、得られた適応学習データごとに適
応処理を行い、認識性能を逐次向上できるので、ユーザ
への直前の発生負担を一層なくすことができる。・この
発明の方法は、少数のサンプルデータによる学習に対す
る一般的な枠組をもつので、実施例に示した話者適応ば
かりでなく、マイクや電話回線(電話機の特性を含む)
などの音声信号の通信媒体の周波数特性などの影響を受
けた音声に対する適応化(環境の適応化)や、環境と話
者の同時適応にもそのまま用いることができ、応用の柔
軟性が高い。
【図面の簡単な説明】
【図1】この発明の方法における処理手順を示す流れ
図。
【図2】この発明の方法を用いた話者適応の実施例にお
ける平均ベクトルの推定処理の詳細な処理手順を示す流
れ図。
【図3】移動ベクトル場平滑化法の原理を説明するため
の標準モデルセットの平均ベクトルと、適応化モデルセ
ットの平均ベクトルと、移動ベクトルなどの関係例を示
す図。
【図4】Aは現在音声認識のアルゴリズムとして最もよ
く用いられている、HMM法に基づく音声認識処理手順
を示す図、BはHMM法で一般的に用いられるモデルの
構造を表す図である。

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 あらかじめ用意された標準的なモデルを
    初期モデルとし、複数の学習用データを用いた学習によ
    り上記標準的なモデルを修正して、その学習用データの
    性質に適した適応化モデルを作成し、その適応化モデル
    を用いて入力信号の特徴データ系列のパターンを認識す
    るパターン認識方法において、 上記学習用データ中の1つのデータの学習対象モデル
    を、その1つの学習用データの学習対象モデルに対応す
    る上記標準的なモデルを初期モデルとし、その1つの学
    習用データを用いて最大事後確率推定法により求め、 上記学習用データ中の上記1つのデータの学習対象でな
    いモデルを、移動ベクトル場平滑化法による上記最大事
    後確率推定法により求めたモデルと上記初期モデルとを
    用いた内挿・外挿の補間処理によって求め、 その補間処理によって求めた上記学習用データ中の学習
    対象でないモデルと、上記求めた学習用データ中の1つ
    のデータの学習対象モデルとを合わせて、上記適応化モ
    デルを作成し、 上記複数の学習用データの各1つごとに上記適応化モデ
    ルを上記初期モデルと置き換えて、上記最大事後確率推
    定と上記補間処理とを繰り返すことを特徴とするパター
    ン認識方法。
  2. 【請求項2】 上記最大事後確率推定法によって求めた
    上記学習対象モデルを、上記移動ベクトル場平滑化法に
    よる平滑化処理により修正して上記適応化モデルを作成
    することを特徴とする請求項1記載のパターン認識方
    法。
  3. 【請求項3】 上記繰り返し処理において、上記最大事
    後確率推定に用いるモデルを上記適応化モデルとし、上
    記移動ベクトル場平滑化に用いるモデルを上記最大事後
    確率推定で得られたモデルと上記標準的なモデルの初期
    モデルとすることを特徴とする請求項1又は2記載のパ
    ターン認識方法。
  4. 【請求項4】 あらかじめ用意された標準的なモデルを
    初期モデルとし、複数の学習用データを用いた学習によ
    り上記標準的なモデルを修正して、その学習用データの
    性質に適した適応化モデルを作成し、その適応化モデル
    を用いて入力信号の特徴データ系列のパターンを認識す
    るパターン認識方法において、 上記学習用データ中の1つのデータの学習対象モデル
    を、その1つの学習用データの学習対象モデルに対応す
    る上記標準的なモデルを初期モデルとし、その1つの学
    習用データを用いて最大事後確率推定法により求め、 上記学習用データ中の上記1つのデータの学習対象でな
    いモデルを、移動ベクトル場平滑化法による上記最大事
    後確率推定法により求めたモデルと上記初期モデルとを
    用いた内挿・外挿の補間処理によって求め、 その補間処理によって求めた上記学習用データ中の学習
    対象でないモデルと、上記求めた学習用データ中の1つ
    の学習対象モデルとを合わせて、上記適応化モデルを作
    成し、 上記学習用データごとに、上記初期モデル中の学習対象
    となったモデルを、上記最大事後確率推定で得られたモ
    デルに置き換えて上記初期モデルを更新し、上記最大事
    後確率推定と上記補間処理を繰り返し行うことを特徴と
    するパターン認識方法。
  5. 【請求項5】 上記最大事後確率推定法により求めた上
    記学習対象モデルを上記移動ベクトル場平滑化法による
    平滑化処理によって修正して上記適応化モデルを作成す
    ることを特徴とする請求項4記載のパターン認識方法。
  6. 【請求項6】 上記繰り返し処理において、上記初期モ
    デルにおいて学習対象となったモデルを、上記最大事後
    確率推定で得られたモデルから上記移動ベクトル場平滑
    化法による平滑化処理により修正したモデルに置き換え
    て上記初期モデルを更新し、最大事後確率推定のモデル
    として用いることを特徴とする請求項5記載のパターン
    認識方法。
  7. 【請求項7】 上記繰り返し処理において、上記移動ベ
    クトル場平滑化法に用いるモデルを上記最大事後確率推
    定で得られたモデルとあらかじめ用意された上記標準的
    なモデルとすることを特徴とする請求項4又は5記載の
    パターン認識方法。
  8. 【請求項8】 上記標準的なモデルとして混合連続隠れ
    マルコフモデルを用いることを特徴とする請求項1乃至
    7の何れかに記載のパターン認識方法。
  9. 【請求項9】 上記最大事後確率推定法において、モデ
    ルのシンボル出力確率密度関数を構成する要素分布関数
    の統計的なパラメータを推定対象とし、その推定対象の
    パラメータの確からしさを表す事前分布の統計的なパラ
    メータを制御する制御パラメータの値として、当該シン
    ボル出力確率密度関数のすべての要素分布に対して共通
    の値、または、それぞれの要素分布の事前分布における
    上記学習用データの統計的な偏りに応じた値を用いて、
    上記推定対象のパラメータを最大事後確率推定法により
    求め、これにより得られた上記推定対象パラメータを用
    いた要素分布により上記学習用データの学習対象のモデ
    ルを作成することを特徴とする請求項8記載のパターン
    認識方法。
JP6226505A 1994-07-07 1994-09-21 パターン認識方法 Pending JPH0895592A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP6226505A JPH0895592A (ja) 1994-09-21 1994-09-21 パターン認識方法
US08/498,264 US5793891A (en) 1994-07-07 1995-07-03 Adaptive training method for pattern recognition
DE69523219T DE69523219T2 (de) 1994-07-07 1995-07-05 Anpassungsfähiges Lernverfahren zur Mustererkennung
EP95110493A EP0691640B1 (en) 1994-07-07 1995-07-05 Adaptive training method for pattern recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6226505A JPH0895592A (ja) 1994-09-21 1994-09-21 パターン認識方法

Publications (1)

Publication Number Publication Date
JPH0895592A true JPH0895592A (ja) 1996-04-12

Family

ID=16846177

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6226505A Pending JPH0895592A (ja) 1994-07-07 1994-09-21 パターン認識方法

Country Status (1)

Country Link
JP (1) JPH0895592A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004054298A (ja) * 2002-07-23 2004-02-19 Microsoft Corp 音声認識の方法および音声信号を復号化する方法
JP2006031716A (ja) * 2004-07-21 2006-02-02 Microsoft Corp 指数モデルの適合
JP2006243230A (ja) * 2005-03-02 2006-09-14 Advanced Telecommunication Research Institute International 歌声評定装置およびプログラム
US7660844B2 (en) 2002-03-07 2010-02-09 International Business Machines Corporation Network service system and program using data processing
JP2012137680A (ja) * 2010-12-27 2012-07-19 Fujitsu Ltd 状態検出装置、状態検出方法および状態検出のためのプログラム
JP2013195511A (ja) * 2012-03-16 2013-09-30 Nippon Telegr & Teleph Corp <Ntt> スペクトル推定装置、その方法及びプログラム
US11762374B2 (en) 2020-05-20 2023-09-19 Mitsubishi Electric Corporation Data generation device, machine learning system, and machining state estimation system

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7660844B2 (en) 2002-03-07 2010-02-09 International Business Machines Corporation Network service system and program using data processing
JP2004054298A (ja) * 2002-07-23 2004-02-19 Microsoft Corp 音声認識の方法および音声信号を復号化する方法
JP4515054B2 (ja) * 2002-07-23 2010-07-28 マイクロソフト コーポレーション 音声認識の方法および音声信号を復号化する方法
JP2006031716A (ja) * 2004-07-21 2006-02-02 Microsoft Corp 指数モデルの適合
JP2006243230A (ja) * 2005-03-02 2006-09-14 Advanced Telecommunication Research Institute International 歌声評定装置およびプログラム
JP4524634B2 (ja) * 2005-03-02 2010-08-18 株式会社国際電気通信基礎技術研究所 歌声評定装置およびプログラム
JP2012137680A (ja) * 2010-12-27 2012-07-19 Fujitsu Ltd 状態検出装置、状態検出方法および状態検出のためのプログラム
JP2013195511A (ja) * 2012-03-16 2013-09-30 Nippon Telegr & Teleph Corp <Ntt> スペクトル推定装置、その方法及びプログラム
US11762374B2 (en) 2020-05-20 2023-09-19 Mitsubishi Electric Corporation Data generation device, machine learning system, and machining state estimation system

Similar Documents

Publication Publication Date Title
US5793891A (en) Adaptive training method for pattern recognition
US8019602B2 (en) Automatic speech recognition learning using user corrections
JP3672595B2 (ja) 結合されたストリングモデルの最小誤認率訓練
EP0966736B1 (en) Method for discriminative training of speech recognition models
US7587321B2 (en) Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (LVCSR) system
JPS62231996A (ja) 音声認識方法
JP2007047818A (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
EP1465154B1 (en) Method of speech recognition using variational inference with switching state space models
JP2002366187A (ja) 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
US7050975B2 (en) Method of speech recognition using time-dependent interpolation and hidden dynamic value classes
JP3092491B2 (ja) 記述長最小基準を用いたパターン適応化方式
JP6031316B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
JP2004226982A (ja) 隠れ軌跡隠れマルコフモデルを使用した音声認識の方法
JP2751856B2 (ja) 木構造を用いたパターン適応化方式
JPH0895592A (ja) パターン認識方法
JPH1185186A (ja) 不特定話者音響モデル生成装置及び音声認識装置
Huang et al. Improved hidden Markov modeling for speaker-independent continuous speech recognition
Furui Generalization problem in ASR acoustic model training and adaptation
JPH0822296A (ja) パターン認識方法
JP3029803B2 (ja) 音声認識のための単語モデル生成装置及び音声認識装置
JP2888781B2 (ja) 話者適応化装置及び音声認識装置
Hashimoto et al. Overview of NIT HMMbased speech synthesis system for Blizzard Challenge 2011
JP2875179B2 (ja) 話者適応化装置及び音声認識装置
JP2986703B2 (ja) 音声認識装置
JP3406672B2 (ja) 話者適応化装置