JPH0822296A

JPH0822296A - パターン認識方法

Info

Publication number: JPH0822296A
Application number: JP6156238A
Authority: JP
Inventors: Junichi Takahashi; 淳一高橋; Shigeki Sagayama; 茂樹嵯峨山
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1994-07-07
Filing date: 1994-07-07
Publication date: 1996-01-23

Abstract

(57)【要約】【目的】少ない学習データで標準モデルを高精度の適
応化を可能とする。【構成】学習データ４０を分析処理し、標準音素モデ
ルを用いてビタビ・セグメンテーション４２を行って音
素を分離する。その各音素データを用いて、対応する標
準の音素モデル（ＨＭＭ）４７の平均ベクトルを、最大
事後確率（ＭＡＰ）推定法により推定する（４３) 。そ
の適応化音素モデル４４と、これと対応する標準音素モ
デル４７とを用い、移動ベクトル場平滑化（ＶＦＳ）法
の補間処理により、未適応音素のモデルに対する平均ベ
クトルを推定する（４５) 、適応化音素モデル４４の平
均ベクトルをＶＦＳ法で平滑化する（４６) 、各音素に
ついて、処理４５，４６で得られた各平均ベクトルと対
応する他のパラメータをパラメータとする適応化モデル
４８を得る。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は音声、文字、図形など
のパターン認識に適用され、予め用意された標準的なモ
デルを初期モデルとし、学習用データを用いた学習によ
り標準的なモデルを修正して、その学習用データの性質
に適した適応化モデルを作成し、その適応化モデルを用
いて入力信号の特徴データ系列のパターンを認識するパ
ターン認識方法に関する。

【０００２】

【従来の技術】認識対象の特徴データ系列を確率・統計
理論に基づいてモデル化する、隠れマルコフモデル法
（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ，以後ＨＭ
Ｍ法と呼ぶ）は、音声、文字、図形等のパターン認識に
おいて有用な技術である。特に音声認識の分野では、こ
の方法が今や主流である。このＨＭＭ法の詳細は、例え
ば、社団法人電子情報通信学会編、中川聖一著『確率モ
デルによる音声認識』に開示されている。ＨＭＭ法に関
する技術は、音声認識技術により発展してきたといって
も過言ではない程、色々なＨＭＭを用いた技術が研究・
開発されており、音声認識技術の分野における隠れマル
コフモデルに関する技術は、ほぼ、従来の隠れマルコフ
モデルを用いたパターン認識技術を包含していると言え
る。そこで、以下、隠れマルコフモデルを用いた音声認
識を例に、従来技術について説明する。

【０００３】ＨＭＭ法による音声認識処理手順を図４Ａ
を参照して説明する。ＨＭＭ法の処理には、大別して、
２つのフェーズがある、１つは“学習”であり、もう１
つは“探索”である。“学習”のフェーズでは、図４Ａ
中のスイッチ１０，１１は、それぞれ、Ａ側を選択し、
音声データベース１２と学習処理部１３とを分析処理部
１４に接続し、色々な音声の構成単位（音韻／音素／音
節）や単語／文章などに対する音声信号が蓄積された音
声データベース１２のデータを用いて、各音韻／音素／
音節／単語などの音響的な性質を表現するモデルをＨＭ
Ｍ法の学習アルゴリズムに基づいて求める。このモデル
を求める過程において用いられる信号は、分析処理部１
４によって音声信号から抽出された特徴パラメータのベ
クトルデータ時系列である。この過程は、音声データベ
ース１２から分析処理部１４への音声信号データの入
力、分析処理部１４の分析処理出力結果、すなわち音声
データベース１２の音声信号データの特徴パラメータデ
ータの学習処理部１３へのデータ入力で表される。図４
Ａにおいて、学習によって最終的に得られるすべてのモ
デルを蓄積するＨＭＭセット１５から学習処理への矢印
は、学習すべきＨＭＭのモデル構造（状態数、状態間の
遷移形式など）とモデルパラメータ（状態遷移確率、シ
ンボル出力確率、初期状態確率）の初期値を学習処理の
実行時に設定することを示している。分析処理部１４に
おける信号処理として、よく用いられるのは、線形予測
分析（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｄｉ
ｎｇ，ＬＰＣと呼ばれる）であり、特徴パラメータとし
ては、ＬＰＣケプストラム、ＬＰＣデルタケプストラ
ム、メルケプストラム、対数パワーなどがある。このよ
うな学習処理によって求められた各音韻／音素／音節な
どのモデルはＨＭＭセット１５の要素として蓄積され、
このＨＭＭセット１５が音声データベースで現れるすべ
ての音響現象を表現する。なお、学習のアルゴリズムと
しては、最尤推定法に基づくＢａｕｍ−Ｗｅｌｃｈ再推
定法がよく用いられる。

【０００４】“探索”のフェーズでは、図４Ａ中のスイ
ッチ１０，１１は、それぞれ、Ｂ側を選択して分析処理
部１４に未知音声入力部１６と探索処理部１７とに接続
する。入力される未知の音声信号は、分析処理部１４に
よって特徴パラメータのベクトルデータ時系列に変換さ
れ、探索処理部１７でその特徴パラメータデータの時系
列がＨＭＭセット１５のどのモデルに最も類似している
かを、尤度と呼ばれる一種のスコアとして求め、各モデ
ルに対して求められる尤度の大小比較から、最も大きい
尤度を与えるモデルを選び出してそのモデルを認識結果
とする。この尤度を求めるＨＭＭ法の探索アルゴリズム
としては、前向き−後向きアルゴリズムに基づくトレリ
ス（ｔｒｅｌｌｉｓ）計算やビタビ（Ｖｉｔｅｒｂｉ）
アルゴリズムがよく用いられる。単語認識を行なう場
合、モデルが音素／音韻／音節で表されている場合は、
認識対象となる単語に対するモデルを、その表記（例え
ば音素列）に従って、上記のモデルの連結によって作成
し、尤度はこのようにして得られた各単語のモデルに対
して求められる。そして、各単語モデルの尤度の大小比
較を行ない、最も大きい尤度を与える単語をその認識結
果とする。

【０００５】従って、ＨＭＭ法を用いた音声認識では、
認識対象とする音声信号に対する情報として、モデルの
学習用の音声データを収集する必要がある。これまでに
も、色々な音声データベースが存在するが、そのほとん
どが高品質音声のデータベースである。音声認識の実際
のサービスでの応用を想定すると、実環境下での音声の
使用が自然であることから、実使用環境で発声された音
声の認識技術が切に望まれている。実使用環境での音声
認識において最も問題となるのは、音声の伝送手段にか
かわる音声品質の劣化や音声に顕著に現れる話者の個人
的特徴のバラツキを如何に克服して、実環境下で不特定
多数の話者の音声を間違えることなく認識するかであ
る。音声の伝送手段（例えば、電話網）にかかわる音声
品質の劣化要因としては、様々な雑音、様々な周波数帯
域制限、様々な伝送損失特性並びに周波数特性が想定さ
れ、それらの影響を受けて音声品質が著しく劣化するた
め、音声認識率が大きく低下するという問題がある。ま
た、不特定多数の話者の音声は個人的特徴のバラツキが
大きいため、実用に供する程の音声認識性能を得られて
いないのが現状で、その性能は特定の話者に限定した音
声認識性能に比べてかなり低いという問題がある。さら
に、電話サービスでの予約サービスや情報案内への音声
認識を想定すると、音声伝送系の影響と不特定多数のサ
ービスユーザが前提であることから、伝送系特性の影響
と個人的特徴のバラツキとに同時に対処しなければなら
ないという問題がある。

【０００６】先に説明したＨＭＭ法の枠組から考える
と、あらゆる伝送系特性を含む音声データ、あらゆる個
人的特徴を含む音声データを学習に用いれば、上記の問
題に対処できるように思われる。しかし、可能な限りの
伝送系特性や個人的特徴を含むような音声データの収集
及びそのデータベース化は、多大の時間・労力を要する
ばかりでなく、それらの組合せを網羅的に収集すること
は現実的には困難である。また、これらの要因の影響を
受けた音声の変動は、かなり大きいことが予想され、種
々の変動を含んだ音声データを用いて学習したモデルで
も、この大きな変動を十分に表現しきれず、十分な音声
認識性能を得ることができないことも考えられる。

【０００７】このような問題に対処する方法として、従
来、高品質な音声データを用いて学習した音声のモデル
を、実使用環境の様々な要因によって品質劣化した音声
や、その時々に音声認識システムを使用する話者の個人
的な特徴を含む音声を表現しやすいように合わせ込んで
いくという『適応化』という手法がある。この方法は、
実使用環境での大量の音声データの収集を必要としない
という利点がある。しかし、あらかじめ用意しておいた
音声のモデルを、実使用環境の音声に合わせ込むため
に、認識を行なう直前に、その音声認識処理が行なわれ
る系における実使用環境の影響、すなわち、音声伝送媒
体の特性や話者の個人的な特徴を含んだ音声を獲得し
て、獲得した音声データを用いた学習により、あらかじ
め用意されている高品質音声データから学習して求めら
れたモデルに対して、適応化のためのモデルのパラメー
タの調整が必要である。

【０００８】実際のシステムやサービスなどへこのよう
な方法を適用するとき、モデルの適応化を行なうための
学習に必要となる音声データの発声をユーザに要求する
ことが不可欠であり、ユーザはシステムの音声認識機能
を利用するに当たって、余分な発声を強いられることに
なる。従って、システムとのユーザインタフェース（ま
たはマンマシンインタフェース）を可能な限り良好に保
つためには、上記の学習用データの発声回数あるいは時
間は可能な限り少ない（例えば、２〜３単語程度）こと
が望まれる。

【０００９】従来、適応化のための学習（以後、適応学
習と呼ぶ）としては、コードブックマッピングによる方
法、適応学習を少数データ学習問題としてとらえ、小数
の学習データには含まれない音声（音素／音韻など）の
モデルを、その少数の学習データによって学習された音
声のモデルを用いて補間によって推定する方法などがあ
る。コードブックマッピングによる方法は、ベクトル量
子化の技術を用いて、音響空間の特徴を音声の特徴を表
す複数の代表的なコードスペクトルからなるコードブッ
ク（符号帳）で表現する方法に基づいており、あらかじ
め用意された標準的なコードブックと適応しようとする
音声に対するコードブックとの対応関係を推定すること
により、適応を行なおうとするものである。この技術に
関しては、例えば、文献『Ｒ．Ｓｃｈｗａｒｔｚ，Ｙ．
ｃｈｏｗ，Ｆ．Ｋｕｂａｌａ，“ＲａｐｉｄＳｐｅａ
ｋｅｒＡｄａｐｔａｔｉｏｎＵｓｉｎｇａＰｒ
ｏｂａｂｉｌｉｓｔｉｃＭａｐｐｉｎｇ，”Ｐｒｏｃ
ｅｅｄｉｎｇｓｏｆＩＣＡＳＳＰ−８７，１５．
３，ｐｐ．６３３−６３９，（１９８７−４）．』や
『Ｋ．Ｓｈｉｋａｎｏ，Ｓ．Ｎａｋａｍｕｒａ，Ｍ．Ａ
ｂｅ，“ＳｐｅａｋｅｒＡｄａｐｔａｔｉｏｎａｎｄ
ＶｏｉｃｅＣｏｎｖｅｒｓｉｏｎｂｙＣｏｄｅｂ
ｏｏｋＭａｐｐｉｎｇ，”Ｐｒｏｃｅｅｄｉｎｇｓ
ｏｆＩＳＣＡＳ−９１，（１９９１−６）．』に開示
されている。この方法では、適応しようとする音声の音
響空間を十分に表現できるコードブックを作成するため
に、少なくとも数十単語程度の適応学習データが必要で
あり、先に述べたように、適応学習データの獲得、学習
処理においてマンマシンインタフェースの観点から実際
的な応用には支障がある。

【００１０】一方、適応学習を少数データ学習問題とし
てとらえ補間によって適応学習を行なう方法としては、
例えば、移動ベクトル場平滑化方式（ＶｅｃｔｏｒＦ
ｉｅｌｄＴｒａｎｓｆｅｒＳｍｏｏｔｈｉｎｇ：Ｖ
ＦＳ）がある。この技術に関しては、例えば、文献『大
倉計美、杉山雅英、嵯峨山茂樹、“混合連続分布ＨＭＭ
移動ベクトル場平滑化話者適応方式，”電子情報通信学
会論文誌Ｄ−II，Ｖｏｌ．Ｊ７６−Ｄ−II，Ｎｏ．１
２，ｐｐ．２４６９−２４７６，（１９９３−１
２）．』に開示されている。この方法では、少数の学習
データに含まれる音声（音素／音韻）の学習によって求
められたモデルから、この学習データに含まれない音声
のモデルを内挿・外挿の補間により推定しようとするも
のである。しかし、十分な認識性能を得るには、少なく
とも数十単語あるいは１０文章程度の適応学習データが
必要とされ、適応学習データの獲得の観点で問題があ
る。

【００１１】

【発明が解決しようとする課題】そこで、この発明は、
実際のシステムやサービスへの適応化手法を用いたパタ
ーン認識技術を応用する場合に問題となる、適応学習デ
ータの獲得にかかわるユーザの発声などの負担を大幅に
軽減できるような、極少数の学習データの適応学習で、
高速な適応化で高い認識性能を実現できるパターン認識
方法を提供することにある。

【００１２】

【課題を解決するための手段】請求項１の説明によれ
ば、学習用データ中の学習対象モデルを、その学習用デ
ータの学習対象モデルに対応する標準的なモデルを初期
モデルとし、その学習用データを用いて最大事後確率推
定法により求め、学習用データ中の学習対象でないモデ
ルを、移動ベクトル場平滑化法による最大事後確率推定
法により求めたモデルと標準的なモデルとを用いた内挿
・外挿の補間処理によって求め、その補間処理によって
求めた学習用データ中の学習対象でないモデルと、最大
事後確率推定法により求めた学習用データ中の学習対象
モデルとを合わせて適応化モデルとする。

【００１３】音声パターン認識についてみると、現在の
音声認識技術では、音声の構成要素である音素／音韻単
位のモデルを用いるのが主流であるので、以後の説明で
も、音声のモデルの単位は、音素／音韻とする。この発
明を音声認識に適用した処理の手順を図１に示す。この
処理は２種類の処理から構成される。第一の処理は、適
応学習２２である。この処理では、あらかじめ用意され
た標準的な音素のモデル（以後、標準音素モデル２６と
呼ぶ）を初期モデルとして、獲得した適応学習の音声デ
ータ２０を用いて適応すべき音声のモデルを学習する。
ここで、学習される音素のモデルは、その適応学習デー
タに存在する音素に限られる。音声データの分析２１で
は、獲得した音声データ２０が音声の特徴パラメータの
ベクトルデータ時系列に変換され、適応学習に用いられ
る。この発明では、この適応学習に、最大事後確率推定
法（ｍａｘｉｍｕｍａｐｏｓｔｅｒｉｏｒｉｐｒｏ
ｂａｂｉｌｉｔｙｅｓｔｉｍａｔｉｏｎ：ＭＡＰ推定
法）を用いているところが特徴である。この最大事後確
率推定法については、例えば、『Ｇａｕｖａｉｎ，Ｊ．
−Ｌ．，ａｎｄＬｅｅ，Ｃ．−Ｈ．，“Ｂａｙｓｉａ
ｎＬｅａｒｎｉｎｇｆｏｒＨｉｄｄｅｎＭａｒ
ｋｏｖＭｏｄｅｌｗｉｔｈＧａｕｓｓｉａｎＭ
ｉｘｔｕｒｅＳｔａｔｅＯｂｓｅｒｖａｔｉｏｎＤ
ｅｎｓｉｔｉｅｓ，”ＳｐｅｅｃｈＣｏｍｍｕｎｉｃ
ａｔｉｏｎ，Ｖｏｌ．１１，Ｎｏｓ．２−３，ｐ
ｐ．２０５−２１３，（１９９２）．』や『Ｃｈｉｎ−
ＨｕｉＬｅｅａｎｄＪｅａｎ−ＬｕｃＧａｕｖａ
ｉｎ，“ＳｐｅａｋｅｒＡｄａｐｔａｔｉｏｎＢａ
ｓｅｄｏｎＭＡＰＥｓｔｉｍａｔｉｏｎｏｆＨ
ＭＭｐａｒａｍｅｔｅｒｓ，”Ｐｒｏｃｅｄｉｎｇｓ
ｏｆＩＣＡＳＳＰ−９３，ｐｐ．II−５８８−５９
１，（１９９３）．』に開示されている。先に説明した
従来の適応化方法では、この適応学習に最尤推定法（Ｍ
ａｘｉｍｕｍＬｉｋｅｌｉｈｏｏｄｅｓｔｉｍａｔ
ｉｏｎ：ＭＬ推定法）を用いており、Ｂａｕｍ−Ｗｅｌ
ｃｈアルゴリズムによる推定計算によりモデルの学習を
行なっていた。このアルゴリズムによる推定計算では、
学習音声中の各音素のモデルは、その音素に最も近いも
のが最も高い尤度となるように適応化するため、一つの
音素のモデルの学習に、その音素に対応する音声データ
を大量に用いなければ、高い推定精度が得られないとい
う本質的な問題がある。従って、限られたデータ量の適
応学習データしか用いることができないことを前提とす
る適応化処理では、適応学習データによって一部の音素
のモデルが学習されたとしても、学習データ中のその音
素の数が少な過ぎるためその音素のモデル自体は十分な
推定精度を確保できない。さらに、適応学習データに存
在しなかった音素のモデルは、学習された音素のモデル
を用いた補間によって推定されるため、当然、十分な推
定精度を確保することは困難である。このような理由か
ら、これまでの適応化処理では、モデルの推定精度が許
容できる程度の適応学習データを確保しなげればならな
いため、数十単語程度のデータ量を必要とした。

【００１４】しかし、この発明では、音声の特徴パラメ
ータのベクトル時系列の１つのベクトルデータを学習に
用いただけでも、その学習の推定精度を確保できる最大
事後確率推定法を用いることにより、少数の適応学習デ
ータを用いた学習における推定精度の向上を実現でき
る。最大事後確率推定法ではそれまでの標準の音素モデ
ルを出発として学習データについてのモデルを作るか
ら、適応学習データ量をこれまでの数十単語から数単語
にまで削減した高速な適応学習を可能とする。

【００１５】第二の処理は、未適応学習の音素のモデル
の推定処理２４である。この処理では、未適応学習の音
素モデルを、第一の適応学習処理で学習した音素モデル
２３と標準モデル２６とを用いて補間による推定から求
める。この発明では、この処理に、先に説明した移動ベ
クトル場平滑化法（ＶＦＳ）のような内挿・外挿による
補間及び平滑化処理を用いるところに特徴がある。この
移動ベクトル場平滑化法を用いた場合は、第一の適応学
習処理で学習された音素のモデルは、その音素に対応す
る標準モデルから適応学習によって音響空間を移動して
できたモデルと見なし、各音素のモデル間で張られるそ
の移動ベクトルは、同一方向を向くことを仮定とする。
そして、未適応学習の音素のモデルに対する移動ベクト
ルを、適応学習によって求められた音素のモデルに対す
る移動ベクトルから補間によって求め、求められた移動
ベクトルを未学習の音素の標準モデルに加算することに
より適応後のモデルを推定する。これらの第一、第二の
処理を経て求められたモデルがターゲットとするすべて
の音素に対する適応化処理後のモデル（以後、適応化モ
デル２５と呼ぶ）である。

【００１６】すなわち、この発明は、最大事後確率推定
法による適応学習と移動ベクトル場平滑化法による未適
応のモデルの推定及び平滑化とを組み合わせることによ
り、少数の適応学習データでの推定精度の高い適応学
習、及び、これらの高精度に学習されたモデルを用いた
簡易な補間・平滑化処理による未適応学習のモデルの推
定を可能とし、高速かつ高性能の適応化処理が実現でき
ることを特徴とする。

【００１７】以下、実施例では、音素モデルの適応学
習、補間、平滑化処理に対する具体的なＨＭＭのパラメ
ータ計算の例を示しながら、この発明の方法の実現手続
きについて説明する。

【００１８】

【実施例】この発明の方法を、標準的な音素モデルを用
いて、そのモデルをある特定の話者の音素モデルに合わ
せこむという話者適応の問題に用いた例について説明す
る。実際的なアプリケーションへの応用においては、標
準的な音素モデルとしては、老若男女色々な話者が発声
した音声データを用いて、あらかじめ学習しておいた不
特定多数の話者の音声を認識対象とした不特定話者モデ
ルを用いるのが一般的である。また、ある特定の話者と
は、その音声認識システムまたは音声認識機能をその時
々で用いる話者を示す。

【００１９】以下の説明では、各音素のＨＭＭのモデル
を、図４Ｂに示すような、状態数４、混合数３のｌｅｆ
ｔ−ｔｏ−ｒｉｇｈｔ型の混合連続ＨＭＭとする。図４
Ｂにおいて、○は状態３０を表しており、○の下に書か
れた番号は各状態に付けられた状態番号である。また、
状態間に付けられた矢印は、状態遷移枝を表しており、
同一の状態で遷移する自己ループ３１と右隣りの状態へ
遷移する遷移枝３２とがある。各状態遷移枝の側に示さ
れたパラメータａ_ijは、各遷移枝の状態遷移確率を表
す。状態番号４の状態は、音素モデルの最終状態であ
る。各音素モデルを連結して音節／単語／文などのモデ
ルを作る場合は、この最終状態４を次に続く音素モデル
の状態番号１に重ねて連結する。このｌｅｆｔ−ｔｏ−
ｒｉｇｈｔ型構造のモデルは、自己ループと右隣りの状
態への状態遷移のみを許すことを特徴とし、音声の現象
をよく表現するものとして一般によく用いられている。
また、混合連続とは、各状態のシンボル出力確率密度関
数を複数のガウス分布（または正規分布）の線形加算に
よって表現することを意味し、現状の音声認識アルゴリ
ズムにおいては主流のモデル表現法である。

【００２０】各音素のＨＭＭのパラメータを図４Ｂのモ
デル構造に合わせて次のように定義する。・状態遷移確率：ａ_ij（（ｉ，ｊ）＝（１，１），
（１，２），（２，２），（２，３），（３，３），
（３，４））．・シンボル出力確率：ｂ_j（ｘ）＝Σ_k=1 ³ｗ_jkＮ（ｘ｜
μ_jk，Σ_jk）（ｊ＝１，２，３）ここで、関数Ｎ（ｘ｜μ_jk，Σ_jk）は、ガウス分布関
数、係数ｗ_jkは重み係数を表す。

【００２１】また、ガウス分布関数は、Ｎ（ｘ｜μ_jk，Σ_jk）＝（１／〔（２π）^n/2｜Σ_jk｜
^1/2〕）ｅｘｐ〔−（１／２）（ｘ−μ_jk）^tΣ
_jk ^-1（ｘ−μ_jk）〕である。ここで、ｘは、音声の特徴パラメータのベクト
ルデータ時系列における、ある時刻のベクトルデータで
ある。また、μ_jk及びΣ_jkはガウス分布関数を特徴付け
るパラメータであり、それぞれ、平均ベクトル、共分散
行列である。

【００２２】以上の定義のもとに、図２に示すこの実施
例のフローチャートを参照して説明する。先ず、この発
明の特徴の一つである、最大事後確率（ＭＡＰ）推定法
を用いた適応学習の手順について説明する。今、適応学
習用の音声データ４０として、『うらやましい』、『お
もしろい』という２つの単語に対する音声が獲得できた
と仮定する。これらの単語の音素記号列の表記例を、そ
れぞれ、『＃＿ｕ＿ｒ＿ａ＿ｙ＿ａ＿ｍ＿ａ＿ｓｈ＿ｉ
ｉ＿＃』，『＃＿ｏ＿ｍ＿ｏ＿ｓｈ＿ｉ＿ｒ＿ｏ＿ｉ＿
＃』とする。ここで、“＿”は、音素記号の区切りを表
す区切り記号である。また、“＃”は、音声を発声して
いない、いわゆる、無音区間と呼ばれる部分に対応する
音素記号である。この無音区間は、一連の音声信号のう
ち、単語の発声前、発声後に存在する。これ以外のアル
ファベットで表された、“ａ”，“ｕ”，“ｏ”，
“ｍ”，“ｓｈ”，“ｉｉ”，“ｒ”などが母音や子音
の音素表記である。この音声データの例では、“＃”，
“ｕ”，“ｒ”，“ａ”，“ｙ”，“ｍ”，“ｓｈ”，
“ｉｉ”，“ｏ”，“ｉ”の１０種類の音素が含まれて
いる。一方、あらかじめ用意されている標準の音素モデ
ルのセット４７には、あらゆる音素（例えば、上記の音
素以外に、母音として“ｅ”，“ａｉ”，“ｕｕ”など
や子音として“ｋ”，“ｔ”，“ｐ”，“ｃｈ”，“ｂ
ｙ”などがある）に対するモデルが含まれており、上記
の１０種類の音素はこの中のサブセットに相当する。こ
の標準の音素のモデルセット４７では、各音素のモデル
は、先に定義したｌｅｆｔ−ｔｏ−ｒｉｇｈｔ型の混合
連続ＨＭＭで表現されている。獲得した２単語の音声デ
ータ４０には、先に示した１０種類の音素が含まれるの
で、適応学習は、標準の音素モデルセット４７のうちの
これらの１０種類の音素に対応するモデルに対して実行
する。各音素モデルの適応学習には各音素に対応した音
声信号を必要とするので、獲得した各単語の音声データ
の音声信号区間の中でどの区間がどの音素に対応するか
を求めておかなければならない。この音素と音声信号の
区間との対応付けは、ＨＭＭ法の探索処理のアルゴリズ
ムとしてよく用いられるビタビ（Ｖｉｔｅｒｂｉ）・ア
ルゴリズムによって求めることができる。このような処
理は、ビタビ・セグメンテーション４２と呼ばれる。こ
の処理では、セグメンテーションの対象となる音声デー
タ（分析処理４１によって特徴パラメータのベクトルデ
ータ時系列に変換されたもの）が、その発声内容、すな
わち、その単語の音素系列に合わせた音素モデルの連結
によって得られたモデルに対応しているとして、そのモ
デルから得られるこの音声データに対する尤度（類似度
を表すスコアの一種）が最大になるように、音声データ
の音声信号区間と各音素モデルとの対応関係を決める。
ここで用いられる音素モデルは標準の音素モデルセット
４７の中の、セグメンテーションの対象となる音声デー
タに含まれる音素のモデルであって、適応学習単語は予
め決められてある。

【００２３】単語『うらやましい』の音声データの特徴
パラメータのベクトルデータ時系列を、Ｄ₁＝｛ｘ₁，
ｘ₂，…，ｘ_t，…，ｘ_T1｝とする。ｔは時刻を表し、
フレームと呼ばれる。すなわち、この例では、単語『う
らやましい』の音声データは、総フレーム長がＴ₁フレ
ームであり、そのｔフレーム目の特徴パラメータはｘ _t
である。ビタビ・セグメンテーション４２により、この
単語の最初の３つの音素“＃”，“ｕ”，“ｒ”に対応
する音声データの音声信号区間が、それぞれ、第１フレ
ームから第１０フレーム、第１１フレームから第２０フ
レーム、第２１フレームから第２７フレームとすると、
これらの３種類の音素のモデルは、それぞれのフレーム
区間の音声信号を適応学習用のデータとする。この単語
『うらやましい』に含まれる他の音素や、もう１つの単
語『おもしろい』に含まれる音素に対しても、同様の音
声信号区間の切りだしを行ない、それぞれの音素に対応
する音声信号区間をモデルの適応学習に用いる。なお、
２種類の単語に共通に含まれる音素については、その音
素に対応する各単語の音声信号区間をすべて用いて適応
学習する。

【００２４】上記のように、適応学習用の音声データに
含まれる音素と各音素に対する音声信号区間が決められ
ると、適応学習用の音声データに含まれる音素に対応す
る標準の音素モデルセット４７の音素モデルを、対応付
けられたそれぞれの音声信号区間を学習データとして用
いて、最大事後確率推定法によって適応学習する。従来
よく用いられている最尤推定法（ＭＬ推定法）と対比し
ながら、最大事後確率推定法の原理について簡単に説明
する。最尤推定法（ＭＬ推定法）では、推定しようとす
るモデルパラメータθは未知の、つまり過去（既知）の
モデルと無関係定数であるという仮定に基づき、実際に
観測されたサンプルデータ値ｘに対するモデルの尤度が
最大になるようにモデルパラメータを推定する。推定し
ようとするモデルパラメータθのもとでサンプル値ｘが
観測される条件付き確率の関数ｆ（ｘ｜θ）でモデルの
尤度が求められるとすると、モデルパラメータの推定値
θ_MLは、 θ_ML＝ａｒｇｍａｘｆ（ｘ｜θ）（１）で与えられる。ここで、ａｒｇｍａｘは、パラメータθ
を変化させて関数ｆを最大にする時のパラメータθを求
めることを意味する。先に仮定した混合連続ＨＭＭ法の
枠組では、サンプルデータｘは、実際に観測される音声
データの特徴パラメータのベクトルデータ時系列に相当
し、パラメータは各音素のモデルのＨＭＭパラメータ
（状態遷移確率、シンボル出力確率密度関数の重み係数
やガウス分布の平均ベクトル、共分散行列）である。

【００２５】これに対して、最大事後確率推定法では、
推定しようとするモデルパラメータθがある事前分布ｇ
（θ）に従う、つまり過去のモデルに拘束された変数で
あると仮定し、この事前分布ｇ（θ）のもとで実際にサ
ンプル値ｘが観測される事後確率が最大となるようにモ
デルパラメータθを推定する。数学的な表現は、モデル
パラメータの推定値をθ_MAとすると、 θ_MA＝ａｒｇｍａｘｆ（ｘ｜θ）ｇ（θ）（２）である。

【００２６】ＨＭＭの尤度計算に対して感度が高いシン
ボル出力確率のみを推定対象とし、シンボル出力確率が
ガウス分布で与えられる混合連続ＨＭＭの場合は、平均
ベクトルと分散が適応学習の対象となるが、話者適応に
おける音素モデルの適応学習の問題に最大事後確率推定
法を応用する場合、適応学習用の音声データが少数であ
ることが前提となるため、すべてのＨＭＭパラメータを
推定することは、例えば共分散行列などは平均ベクトル
からのバラツキを示しており、少ない音声データでは必
ずしもその音声のバラツキを代表しているものではない
ことがあり、かえって各パラメータの推定精度を悪くす
ることが考えられる。従ってこの実施例では、簡易な計
算処理によって効果が期待できる、平均ベクトルのみの
適応学習について説明する。標準の音素モデルセット４
７内のある音素モデルのある状態のシンボル出力確率分
布を、前述のようにΣ_k=1 ³ｗ_kＮ（ｘ｜μ_k，Σ_k）と
し、適応学習によって推定されるシンボル出力確率分布
の平均ベクトルをμ_k ^MA（ｋ＝１，２，３）とする。こ
のパラメータμ_k ^MAの事前分布ｇ（θ）を、適応学習の
初期モデルである標準の音素モデルの平均ベクトル
μ_k、分散Σ_kに基づいたガウス分布Ｎ（μ_k，（１／
α_k）Σ_k）と仮定すると、最大事後確率推定法による
平均ベクトルの推定式は前記文献によると次式となる。

【００２７】 μ_k ^MA＝（α_kμ_k＋Σｃ_ktｘ_t）／（α_k＋Σｃ_kt）ここでΣはｔ＝１からｍ_kまで、ｃ_kt＝ｗ_kＮ（ｘ_t｜
μ_k，Σ_k）／Σ_k=1 ³ｗ_kＮ（ｘ_t｜μ_k，Σ_k）、ｍ
_Kは、サンプルデータｘの個数である。例えば、適応学
習用の単語『うらやましい』の音声データから“ｕ”の
音素モデルの平均ベクトルを推定する場合には、音素
“ｕ”の音声データ区間が第１１〜第２０フレームであ
るので、サンプルデータはこれらのフレームの特徴パラ
メータデータであり、サンプルデータの個数はｍ_k＝１
０である。なお、パラメータα_kは適応化パラメータで
あり、推定しようとする平均ベクトルの事前分布ｇ
（θ）における不確かさを制御するものである。このパ
ラメータを０に近づけると事前分布の分散は大きくな
り、平均ベクトルの不確かさが増し、逆に大きくすると
分散が小さくなるので不確かさが小さくなる。また、ｃ
_ktは、時刻ｔのサンプルデータｘ_tにおいて、シンボル
出力確率分布（各ガウス分布の重み付き加算）のｋ番目
のガウス分布が、シンボル出力確率分布に占める割合を
表している。

【００２８】この平均ベクトルμ_k ^MAの推定式による
と、適応学習データを用いた推定計算を行なうには、事
前分布ｇ（θ）＝Ｎ（μ_k，（１／α_k）Σ_k）の平均
ベクトルμ_k、サンプルデータｘ_t、及びこのサンプル
データの重み係数ｃ_ktを求めておく必要がある。事前分
布の平均ベクトルは、標準の音素モデルの平均ベクトル
を用いる。サンプルデータｘ_tは、適応学習に用いられ
る音声データの各フレームの特徴パラメータ・データに
相当するので、ビタビ・セグメンテーション４２でえら
れた各音素モデルに対応する音声区間の特徴パラメータ
データを用いればよい。また、パラメータｃ_ktは、ビタ
ビ・セグメンテーションの処理４２において、適応学習
データのモデルに対する尤度を計算する過程で求められ
る、各シンボル出力確率分布の各ガウス分布関数のサン
プルデータｘ_tに対する値と、それらの重み付き加算に
よって求められるシンボル出力確率分布の値との比をと
ることによって求める。この一連の処理は、図２中の平
均ベクトルの推定４３に相当する。

【００２９】適応学習データに含まれる１０種類の音素
に対するモデルに対しては、各音素モデルの各シンボル
出力確率分布の各ガウス分布毎に、事後確率が最大とな
る平均ベクトルμ_k ^MAが求められる。事前分布ｇ（θ）
の分散を制御するパラメータα_kは、適応学習後の音素
モデルが適応学習データの対応する音素の音声データに
対して最大の尤度をとるように実験的に求めるか、また
は、平均ベクトルの推定に寄与するサンプルデータの事
前分布における偏りを計算し、これに基づいてその値を
設定する。後者の場合、平均ベクトルの推定計算は、ビ
タビ・セグメンテーションに用いたモデルを、推定した
平均ベクトルをもつモデルに置き換え、再びビタビ・セ
グメンテーションして平均ベクトルを推定するという、
繰り返しの処理を行なうことによって求める。このと
き、パラメータα_kは、繰り返し毎に、サンプルデータ
の事前分布における偏りを求めその値に応じて設定す
る。

【００３０】以上の手続きにより、最大事後確率推定法
を用いた平均ベクトルの適応学習４３、つまり平均ベク
トル抽出が終了する。適応学習データには、１０種類の
音素しか含まれていないので、適応学習された音素モデ
ルはこの１０種類の音素に限られる。図２中の適応化音
素モデル４４がこれに相当する。標準の音素モデルセッ
ト４７には、これらの１０種類以外の音素に対するモデ
ルが存在するので、話者適応化を実現するためには、こ
れらの残りの音素モデルに対しても、適応化が必要であ
る。しかし、適応学習データがないので、これらの未適
応の音素モデルに対しては、得られた１０種類の適応化
モデル４４とすべての標準の音素モデル４７とを用い
て、それらの適応化モデルを推定する。この推定には、
この発明の方法のもう１つの特徴である移動ベクトル場
平滑化法を用いる。

【００３１】以下、移動ベクトル場平滑化法を用いた未
適応の音素モデルの推定と平滑化処理を、数学的な表現
に基づいて説明する。図３に移動ベクトル場平滑化法の
原理を示す。図３において、５０は適応化の初期モデル
である標準の音素モデルセットにおける各音素モデルの
平均ベクトルの集合を表し、５１はすべての音素モデル
に対する適応化後の平均ベクトルの集合を示す。標準の
音素モデルセットの各平均ベクトルは黒丸●５２で表し
ている。また、適応化音素モデルセットには、２種類の
平均ベクトルがあり、それぞれ、適応学習用の音声デー
タを用いて学習した音素モデルの平均ベクトル５３（黒
丸●で示す）と、移動ベクトル場平滑化法によって推定
された音素モデルの平均ベクトル５４（白丸○で示す）
とである。移動ベクトル場平滑化法では、適応化によっ
て、標準の音素モデルセットの平均ベクトル５２は、音
響パラメータ空間上で、適応化音素モデルセットの平均
ベクトル５３に平行移動されたと仮定する。双方の音素
モデルセット５０，５１の対応する平均ベクトル間の差
分ベクトル５５，５６が移動ベクトルであり、実線で表
された移動ベクトル５５は、適応学習された平均ベクト
ル５３からもとめられたものであり、破線の移動ベクト
ル５６は、適応学習できずに移動ベクトル場平滑化法の
補間処理によって推定された移動ベクトルである。これ
らの移動ベクトル５５，５６で構成される移動ベクトル
場５７では、各移動ベクトルは平行の位置関係にある。

【００３２】この実施例では、適応化音素モデルセット
の平均ベクトルの集合５１が、最終的に求めたい適応化
後のすべての音素モデルに対する平均ベクトルの集合で
あり、この集合５１の黒丸●５３の平均ベクトルは最大
事後確率推定法により適応学習された１０種類の音素モ
デルの平均ベクトルに相当する。従って、平均ベクトル
の集合５１の白丸○５４の平均ベクトルが、移動ベクト
ル場平滑法による推定の対象である。

【００３３】移動ベクトル場平滑化法による、未適応の
音素モデルの平均ベクトル（図３中の白丸○５４で表さ
れる平均ベクトル）の推定計算式を以下に示す。標準の
音素モデルの平均ベクトル５２の集合をＲ＝｛μ_Rk｜ｋ
＝１，２，３，…，Ｍ_R｝、適応化音素モデルの平均ベ
クトルのうち、適応学習により適応化された平均ベクト
ル（黒丸●５３で表現されたもの）の集合をＡ＝｛μ_Ak
｜ｋ＝１，２，３，…，Ｍ_A｝、未適応の平均ベクトル
（白丸○５４で表現されたもの）の集合をＸ＝μ_Xk｜ｋ
＝１，２，３，…，Ｍ_X｝とする。また、集合Ａ，Ｘと
それぞれ対応する集合ＲのサブセットをＲＡ＝｛μ_RAk
｜ｋ＝１，２，３，…，Ｍ_A｝、ＲＸ＝｛μ_RXk｜ｋ＝
１，２，３，…，Ｍ_X｝とすると、ＲＡ、ＲＸは、それ
ぞれ、適応化音素モデルの適応学習前の標準の音素モデ
ルの平均ベクトルの集合、未適応の標準の音素モデルの
平均ベクトルの集合を表す。それぞれの平均ベクトルの
個数は、Ａ，Ｘのベクトルの個数に等しく、Ｍ_A＋Ｍ_X
＝Ｍ_Rである。移動ベクトルｖは、集合ＡとＲＡの対応
する平均ベクトル間で計算され、ｖ_k＝μ_Ak−μ_RAk（ｋ＝１，２，３，…，Ｍ_A）で求まる。未適応の音素モデルの平均ベクトルμ_xkと対
応する移動ベクトルを、適応学習された平均ベクトルμ
_AKに対する移動ベクトルｖ_kの重み付き補間により推定
し、この推定によって得られた移動ベクトルを、対応す
る標準の音素モデルの平均ベクトルμ_RXkに加算するこ
とにより、未適応の音素モデルの平均ベクトルμ_xkを求
める。移動ベクトルｖ_kの重み付き補間における重み係
数は、補間により推定しようとする平均ベクトルμ_xkに
対応する標準の音素モデルの平均ベクトルμ_RXkが、適
応学習された平均ベクトルμ_Akに対応する標準の音素モ
デルの平均ベクトルμ_RAkに対して、音響パラメータ空
間上、どれだけ離れているかを表す距離に応じて決め
る。集合ＲＸの平均ベクトルμ_RXiと集合ＲＡの平均ベ
クトルμ_RAjとの距離は、ｄ_ij＝Ｄ（μ_RXi，μ_RAj），μ_RXi∈ＲＸ，μ_RAj∈
ＲＡと定義する。距離関数Ｄとしては、例えば、統計数学上
の距離としてよく用いられるマハラノビス距離がある。
重み係数ｗ_ijは、ファジー級関数やガウス窓関数が用い
られ、それぞれ、

【００３４】

【数１】である。ここで、パラメータｆは、平滑化係数（ベクト
ルを同じ方向にそろえる係数）であり、ファジー級関数
の場合は、ファジネスとも呼ばれる。ファジー級関数の
場合、距離ｄ_ijが０の場合は、その重み係数は１とす
る。このようにして求めた重み係数を用いて、集合Ｘの
未適応の平均ベクトルは、

【００３５】

【数２】として求められる。この一連の過程は、図２中の平均ベ
クトル推定４５の処理に相当する。このような手続き
で、未適応の音素モデルに対する平均ベクトルμ_xkが補
間により求められ、最大事後確率推定法の適応学習で求
めた平均ベクトルμ_Akを含めると、標準の音素モデルセ
ットに存在したすべての音素モデルに対する平均ベクト
ルμ_Rkが推定されたことになる。しかし、最大事後確率
推定法で推定した平均ベクトルμ_Akは、必ずしも、移動
ベクトル場平滑化推定法の仮定である移動ベクトル間の
平行性の条件を満足していないので、次式によりこれら
の平均ベクトルμ_Akに対する移動ベクトルを平滑化し
て、つまり方向をそろえて修正を加える。この過程は、
図２中の平均ベクトルの平滑化４６の処理に対応する。
この場合、重み係数を求める際に用いる、平均ベクトル
間の距離ｄ_ijは、適応学習された平均ベクトルに対応す
る標準の音素モデルの平均ベクトル間で計算され、次式
で表される。

【００３６】ｄ_ij＝Ｄ（μ_Ri，μ_Rj） μ_Ri∈ＲＡ，μ_Rj∈ＲＡ重み係数は、補間処理の場合と同様のファジー級関数や
ガウス窓関数が用いられる。適応学習した平均ベクトル
μ_Akに対する平滑化の計算は次式で行なう。

【００３７】

【数３】ここで、添字ｎｅは、平滑化により修正を加えられたこ
とを示す。以上の手続きにより、最大事後確率推定法と
移動ベクトル場平滑化法を組み合わせた話者適応が実現
できる。最終的な適応化モデル４８は、最大事後確率推
定法により適応学習して得られた適応化モデルを移動ベ
クトル場平滑化法により平滑化してえられたモデルと、
未適応モデルを、最大事後確率推定法で得られた適応化
モデルと適応化の初期モデルである標準の音素モデルを
用いて、移動ベクトル場平滑化法による補間により求め
たモデルとを合わせることによって得られる。これら各
適応化モデルの平均ベクトルの他のパラメータ、即ち、
状態遷移確率、シンボル出力確率密度関数の重み係数、
共分数行列などは対応する標準音素モデルのそのパラメ
ータを用いる。

【００３８】上述において、適応化精度が下るが、最大
事後確率推定法で求められた平均ベクトルμ_Akの平滑化
処理４６を省略してもよい。また上述において学習デー
タ中に含まれている音素に近い、標準の音素モデルを初
期モデルとして、入力学習データを用いて適応化しても
よい。更にこの発明は音声認識のみならず文字、画像な
どの認識にも適用できる。

【００３９】

【発明の効果】この発明の方法の効果を以下に示す。・従来よく用いられている最尤推定法では、学習データ
に最も近いモデルに適応化するため、大量の学習データ
を用いなければ高い推定精度でのモデル推定ができな
い。このため、これを用いた適応学習においては、許容
できうるモデルの推定精度を得るために数十単語もの適
応学習データを必要としていたのに対し、この発明の方
法では、標準モデルの性質を生かし、これも含めて、学
習データにも近づける最大事後確率推定法を用いている
ため、適応学習データを数単語程度に削減できる。従っ
て、高速の適応処理が実現できる。しかも標準モデルの
性質を生かしているため、一般性が失われず、高精度の
認識ができる。・適応学習データを数単語程度にできるので、実際のア
プリケーションにおける音声認識システムまたは音声認
識機能のユーザへの直前の発声負担を従来に比べて大幅
に軽減できるので、ユーザとシステムとの間のマン−マ
シンインタフェースを大きく向上できる。・この発明の方法は、少数のサンプルデータによる学習
に対する一般的な枠組をもつので、実施例に示した話者
適応ばかりでなく、マイクや電話回線（電話機の特性を
含む）などの音声信号の通信媒体の周波数特性などの影
響を受けた音声に対する適応化（環境の適応化）や、環
境と話者の同時適応にもそのまま用いることができ、応
用の柔軟性が高い。

【図面の簡単な説明】

【図１】この発明の方法における処理手順を示す流れ
図。

【図２】この発明の方法を用いた話者適応の実施例にお
ける平均ベクトルの推定処理の詳細な処理手順を示す流
れ図。

【図３】移動ベクトル場平滑化法の原理を説明するため
の標準モデルセットの平均ベクトルと、適応化モデルセ
ットの平均ベクトルと、移動ベクトルなどの関係例を示
す図。

【図４】Ａは現在音声認識のアルゴリズムとして最もよ
く用いられている、ＨＭＭ法に基づく音声認識処理手順
を示す図、ＢはＨＭＭ法で一般的に用いられるモデルの
構造を表す図である。

Claims

【特許請求の範囲】

【請求項１】あらかじめ用意された標準的なモデルを
初期モデルとし、学習用データを用いた学習により上記
標準的なモデルを修正して、その学習用データの性質に
適した適応化モデルを作成し、その適応化モデルを用い
て入力信号の特徴データ系列のパターンを認識するパタ
ーン認識方法において、上記学習用データ中の学習対象モデルを、学習用データ
の学習対象モデルに対応する上記標準的なモデルを初期
モデルとし、その学習用データを用いて最大事後確率推
定法により求め、上記学習用データ中の学習対象でないモデルを、移動ベ
クトル場平滑化法による上記最大事後確率推定法により
求めたモデルと標準的なモデルとを用いた内挿・外挿の
補間処理によって求め、その補間処理によって求めた上記学習用データ中の学習
対象でないモデルと、上記求めた学習用データ中の学習
対象モデルとを合わせて、上記適応化モデルを作成する
ことを特徴とするパターン認識方法。
【請求項２】上記最大事後確率推定法によって求めた
上記学習対象モデルを、上記移動ベクトル場平滑化法に
よる平滑化処理により修正して上記適応化モデルとする
ことを特徴とする請求項１記載のパターン認識方法。
【請求項３】上記標準的なモデルとして混合連続隠れ
マルコフモデルを用いることを特徴とする請求項１又は
２記載のパターン認識方法。
【請求項４】上記最大事後確率推定法において、モデ
ルのシンボル出力確率密度関数を構成する要素分布関数
の統計的なパラメータを推定対象とし、その推定対象の
パラメータの確からしさを表す事前分布の統計的なパラ
メータを制御する制御パラメータの値として、当該シン
ボル出力確率密度関数のすべての要素分布に対して共通
の値、または、それぞれの要素分布の事前分布における
上記学習用データの統計的な偏りに応じた値を用いて、
上記推定対象のパラメータを最大事後確率推定法により
求め、これにより得られた上記推定対象パラメータを用
いた要素分布により上記学習用データの学習対象のモデ
ルを作成することを特徴とする請求項３記載のパターン
認識方法。
【請求項５】上記要素分布関数がガウス分布又はラプ
ラス分布であり、上記統計的なパラメータが平均ベクト
ルであることを特徴とする請求項４記載のパターン認識
方法。
【請求項６】上記移動ベクトル場平滑化法において、
上記最大事後確率推定法により求めたモデルの要素分布
関数と上記標準的なモデルの要素分布関数とにおける統
計的なパラメータの変化から移動ベクトルを求め、上記
標準的なモデルの要素分布関数の統計的なパラメータの
分布に応じて、上記移動ベクトルに対する重み係数を与
えることを特徴とする請求項１又は２記載のパターン認
識方法。
【請求項７】上記要素分布関数における統計的なパラ
メータが平均ベクトルであり、上記統計的なパラメータ
の変化を平均ベクトル間の差分から求めることを特徴と
する請求項６記載のパターン認識方法。
【請求項８】上記重み係数を、ファジー級関数やガウ
ス窓関数により算定することを特徴とする請求項７記載
のパターン認識方法。