JPH0713588A

JPH0713588A - ヒドン・マルコフ・モデルの学習方法

Info

Publication number: JPH0713588A
Application number: JP5156430A
Authority: JP
Inventors: Takashi I; 傑易
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1993-06-28
Filing date: 1993-06-28
Publication date: 1995-01-17

Abstract

(57)【要約】【目的】環境依存型音素ＨＭＭ（ヒドン・マルコフ・
モデル）の利点を維持ながら、学習データに偏りが少な
く、効率の良い環境依存型音素ＨＭＭの学習方法を提供
する。【構成】ステップ６で、単語（又は文節もしくは文）
ＨＭＭを学習した後、それらをステップ７で環境依存型
音素ＨＭＭに分解する。さらに、これらの環境依存型音
素ＨＭＭをステップ９で再連結して単語ＨＭＭを作る。
このような学習、分解、連結学習を繰り返すことによっ
て環境依存型音素ＨＭＭを学習する。その後、ステップ
１１で、環境依存型音素ＨＭＭでの学習サンプル数が十
分あったか否かを判定し、不十分だと判定されたときの
み、ステップ１２で、環境依存型音素ＨＭＭの中心部分
のパラメータを、それに対応する環境独立型音素ＨＭＭ
の中心部分のパラメータで置き換える。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声認識方法に用いら
れるヒドン・マルコフ・モデル（以下、ＨＭＭという）
の学習方法に関するものである。

【０００２】

【従来の技術】従来、このような分野の技術としては、
例えば次のような文献に記載されるものがあった。文献１；ザ・ベル・システム・テクニカル・ジャーナル
（The Bell System Technical Journal)、６２「４」
（１９８３−４）American Telephoneand Telegraph Co
mpany，（米）、エス・イー・レビンソン(S．E ．Levin
son）、エル・アール・ラビナー(L．R ．Rabiner)、エ
ム・エム・ソンディ(M．M ．Sondhi）共著「An Introdu
ction to the Application of the Theory of Probabil
istic Functions of a Markov Process to Automatic S
peech Recognition 」Ｐ．１０３５−１０７４文献２；中川聖一著「確率モデルによる音声認識」（昭
６３−７）、電子情報通信学会、Ｐ．５５−６１音声認識技術として、古典的なパターン・マッチング手
法から、近年では統計的な手法に変わり、後者が主流に
なりつつある。後者の統計的な手法では、確率的な有限
状態を持つマルコフ・モデルが提案されており、通常、
ＨＭＭと呼ぶ。一般に、ＨＭＭは、複数の状態（例え
ば、音声の特徴等）と状態間の遷移からなる。さらに、
ＨＭＭは、状態間の遷移を表す遷移確率と、遷移する際
に伴うラベル（音声の特徴パラメータの典型的なもの
で、通常数十から数千種類がある）を出力する出力確率
を有している。このようなＨＭＭを用いた音声認識方法
が前記文献１に記載されており、その単語音声認識の例
を図２に示す。

【０００３】図２は、従来の音声認識方法に用いられる
単語ＨＭＭの構造例を示す図である。図２のＳ₁，Ｓ₂，
Ｓ₃，Ｓ₄はＨＭＭにおける音声の特徴等の状態を表す。
ａ₁₁，ａ₁₂，ａ₂₂，ａ₂₃，ａ₃₃，ａ₃₄，ａ₄₄，ａ₄₅は状
態遷移確率、ｂ₁（ｋ），ｂ₂（ｋ），ｂ₃（ｋ），ｂ
₄（ｋ）はラベル出力確率を表す。ＨＭＭでは、状態遷
移確率ａ_ij（但し、ｉ＝１，…，４、ｊ＝１，…，５）
で状態遷移が行われる際、ラベル出力確率ｂ_j（ｋ）で
ラベルを出力する。発声された単語をＨＭＭを用いて認
識するには、まず、各単語に対して用意された学習デー
タを用いて、その単語のラベル列を最も高い確率で出力
するようにＨＭＭを学習する。次に、発声された未知単
語のラベル列を入力し、最も高い出力確率を与えた単語
ＨＭＭを認識結果とする。この種の音声認識方法では、
発声された単語そのものにＨＭＭを与えて学習し、尤度
（即ち、ラベル列の出力確率）によって認識結果を判断
している。このような単語ＨＭＭは、優れた認識精度を
保証するが、認識語い数が増大することによって膨大な
学習データが必要となることや、学習対象語以外の音声
が全く認識できないこと等の欠点がある。

【０００４】一方、音声学では通常、音素と呼ばれる声
学的要素の系列で単語を表している。従って、音素ごと
にＨＭＭを用意し、これらのＨＭＭを連結して単語ＨＭ
Ｍを生成し、単語認識を行う方法もある。しかし、実際
に発声された単語音声においては、各々の音素は隣同士
の音素の影響を受け、特徴パラメータ（例えば、スペク
トル）がかなり変形してしまう。このような調音結合に
よるスペクトルの変形は、音素ＨＭＭで表現しきれない
ことがある。そのため、このような単純に音素ＨＭＭを
連結して単語を認識する方法では、認識率の低下が免れ
ない。このような調音結合による影響を除去するため、
前後の音韻環境に依存する音素モデル、つまり、ダイフ
ォン（diphone)とトライフォン(triphoen)が提案されて
いる。ここで言うダイフォンは、対象音素に対して、先
行音素もしくは後続音素のどれかが既知である音素を指
し、トライフォンは先行音素と後続音素両方とも既知で
ある音素を指す。音声認識を行う際、ダイフォンあるい
はトライフォンＨＭＭを用意し、これらのＨＭＭの連接
によって単語ＨＭＭを構成し、単語認識を行うようにし
ている。音韻環境依存型音素ＨＭＭは、音韻環境独立型
音素ＨＭＭに比べ、調音結合によるスペクトル変形に伴
う認識率の低下が回避できるが、モデル数が多いため、
ＨＭＭを学習するには大量な学習データを用意しなけれ
ばならない。その上、学習データに各々のトライフォン
あるいはダイフォンが存在する区間を示す情報（即ち、
ラベル情報）も用意しなければならない。しかし、ラベ
ル付け作業を行う場合、例えばコンピュータによる自動
作業は満足のゆく精度が得られず、ほとんど手作業でラ
ベル付けを行っている。

【０００５】そこで、従来、ラベル情報を要しない学習
法が提案されている。この方法では、まず学習しやすい
環境独立型音素ＨＭＭを用意する。そして、発声内容が
既知でラベルが付かない単語（又は文節もしくは文、以
下同様）発声の学習データに対して、先の環境独立型音
素ＨＭＭを連結して単語ＨＭＭを構築し、これらの単語
ＨＭＭを学習する。単語ＨＭＭの学習なので、単語境界
（即ち、単語の始端と終端）が分かれば、学習プロセス
が実現できる。さらに、連結と逆の手続きで、これらの
単語ＨＭＭを分解し、環境依存型音素ＨＭＭを生成す
る。学習精度を良くするため、上述の連結学習、及び分
解生成を繰り返すことによって、近似的に環境依存型音
素ＨＭＭを生成する。

【０００６】

【発明が解決しようとする課題】しかしながら、従来の
環境依存型音素ＨＭＭ学習法では、次のような問題点が
あった。ある特定の環境依存型音素ＨＭＭに対して、そ
れに対応する音声データの数が場合によって非常に限ら
れるため、上述のように学習して得た環境依存型音素Ｈ
ＭＭは、性質が学習データに左右されやすい。即ち、学
習データに偏るおそれがある。そこで、前記の学習方法
で環境依存型音素ＨＭＭを学習し終えた後、環境依存型
音素ＨＭＭの中心部分のパラメータをそれに対応する環
境独立型音素ＨＭＭの中心部分のパラメータで置き換え
ることも考えられる。この方法では、環境独立型音素Ｈ
ＭＭが大量の学習データから学習しやすく、学習データ
への偏りが少ない。ところが、前記の置き換え処理は、
学習サンプルの少ない（即ち、十分に学習されていな
い）環境依存型音素ＨＭＭに対して有効であるが、学習
サンプルが多く、既に十分に学習された環境依存型音素
ＨＭＭに対しては、該置き換え処理が蛇足であることを
否めない。本発明は、前記従来技術が持っていた課題と
して、環境依存型音素ＨＭＭの利点を維持しながら、学
習データに偏りが少なく、効率の良い環境依存型音素Ｈ
ＭＭの学習方法を提供するものである。

【０００７】

【課題を解決するための手段】本発明は、前記課題を解
決するために、環境依存音素ＨＭＭを学習するに際し
て、予め用意しておいた環境独立音素ＨＭＭを連結して
単語（又は文節もしくは文）ＨＭＭを構築する。そし
て、前記単語（又は文節もしくは文）ＨＭＭを学習する
学習処理と、前記学習処理後にその学習結果を環境依存
音素ＨＭＭに分解する分解処理と、前記分解された環境
依存音素ＨＭＭを再連結して単語（又は文節もしくは
文）ＨＭＭを作る連結処理とを用い、前記学習処理、分
解処理及び連結処理を繰り返すことによって前記環境依
存音素ＨＭＭを学習するＨＭＭの学習方法において、次
のような手段を講じている。即ち、本発明では、前記環
境依存音素ＨＭＭの学習に使われた学習サンプルの数を
計数し、学習サンプル数が不十分だと判断されたときの
み、前記分解処理で分解された環境依存音素ＨＭＭの中
心部分のパラメータを、それに対応する前記環境独立音
素ＨＭＭの相同部分のパラメータで置き換えることによ
って、偏りのない環境依存音素ＨＭＭを学習するように
している。

【０００８】

【作用】本発明によれば、以上のようにＨＭＭの学習方
法を構成したので、環境依存型音素ＨＭＭを学習し終え
た後、その環境依存型音素ＨＭＭの学習に使われた学習
サンプルの数が計数され、その数が十分でないと判断さ
れると、該環境依存型音素ＨＭＭの中心部分のパラメー
タが、それに対応する環境独立型音素ＨＭＭの中心部分
のパラメータで置き換えられる。学習サンプルの数が十
分ある場合には、置き換え処理が行われない。このよう
に、十分に学習されていない環境依存型音素ＨＭＭのみ
に対して、中心部分のパラメータが環境独立型音素ＨＭ
Ｍのそれで置き換えられるので、無駄な作業の省略と、
それによる効率の良い環境依存型音素ＨＭＭの学習が行
える。従って、前記課題を解決できるのである。

【０００９】

【実施例】図１は本発明の実施例を示すＨＭＭの学習方
法の処理内容のフローチャート、図３（ａ），（ｂ）は
図１中のステップ１２の処理説明図である。これらの図
を参照しつつ、本実施例のＨＭＭの学習方法を説明す
る。本実施例のＨＭＭ学習方法では、例えば、プログラ
ム制御されるコンピュータを用いて図１のステップ１〜
１３の処理が実行される。先ず、ステップ１で学習が開
始されると、ステップ２において学習データの音声信号
（例えば、単語音声として単語akaiとsakae)が入力さ
れ、ステップ３の前処理へ進む。ステップ３の前処理で
は、例えば、入力されたアナログ音声信号をアナログ／
デジタル変換（以下、Ａ／Ｄ変換という）によってデジ
タル信号に変換し、ＬＰＣ（Linear Predictive Codin
g、線形予測符号化）分析によるＬＰＣケプストラムの
抽出等により、音声特徴パラメータを抽出し、ステップ
５へ進む。

【００１０】環境独立型音素ＨＭＭ辞書４には、例え
ば、日本語音素（約３０〜４０種類）のＨＭＭが格納さ
れている。いわゆる環境独立型というのは、その音素の
前後の音素が未知であることを指す。これらを次のよう
に表す。

【００１１】ステップ５では、入力された単語の音素列表現と、環境
独立型音素ＨＭＭ辞書４を参照しながら、上述の環境独
立型音素ＨＭＭを、例えば次式（１）のように連結して
単語ＨＭＭを生成する。

【００１２】次に、ステップ６では、ステップ２で入力された単語音
声を用いて上述の単語ＨＭＭのパラメータを推定する
（ＨＭＭの学習）。ＨＭＭパラメータの推定には、例え
ば前記文献２に記載されたBaum-Welch(B-W）アルゴリズ
ムを用いる。このＢ−Ｗアルゴリズムでは、例えば、観
測ラベル系列Ｏ＝ｏ₁，ｏ₂，…，ｏ_T及び状態系列Ｉ＝
ｉ₁，ｉ₂，…，ｉ_Tに対して、次式（２）のように、前
向き変数α_t（ｉ）と後向き変数β_t（ｉ）を定義する。

【００１３】 α_t（ｉ）＝Ｐｒ（ｏ₁，ｏ₂，…，ｏ_t，ｉ_t＝ｓ_i） β_t（ｉ）＝Ｐｒ（ｏ_t+1，ｏ_t+2，…，ｏ_T｜ｉ_t＝ｓ_i）・・・（２）そして、状態遷移確率ａ_ijとラベル出力確率ｂ_j（ｋ）
を次式（３）のように推定する。

【００１４】

【数１】このように単語ＨＭＭを学習し終えると、ステップ７で
は、例えば次式（４）のように、単語ＨＭＭを環境依存
型音素ＨＭＭに分解する。これらの環境依存型音素ＨＭＭを環境依存型音素ＨＭＭ
辞書８に保存する。このとき、（ａ）ｋ（ａ）というＨ
ＭＭが２つあるので、次式（５）のように、その平均を
取り、環境依存型音素ＨＭＭ辞書８に保存する。

【００１５】

【数２】ステップ１０では、ある基準で上述の環境依存型音素Ｈ
ＭＭが収束したかどうかを判別し、もし収束していなけ
れば、ステップ９で次式（６）のように、ステップ７で
分解した環境依存型音素ＨＭＭを連結して単語ＨＭＭを
再構成し、ステップ６の単語ＨＭＭの学習へ戻り、上述
の学習処理と分解処理を繰り返す。

【００１６】これに対し、ステップ１０の判別の結果、もし収束して
いたら（即ち、環境依存型音素ＨＭＭパラメータの前回
の値と今回の値との差が充分に小さければ）、学習ルー
プを終え、ステップ１１で、該当する環境依存型音素Ｈ
ＭＭの学習に使われた学習サンプル数が十分であるか否
かを判別する。学習サンプル数が十分であれば、そのま
まステップ１３で学習を終了する。

【００１７】学習サンプル数が十分でなければ、ステッ
プ１２で、環境依存型音素ＨＭＭの中心部分のパラメー
タを環境独立型音素ＨＭＭのそれで置換する。例えば、
ステップ１２において、環境依存型音素ＨＭＭの各状態
のパラメータはａ_ij（ｉ＝１、・・・、４４；ｊ＝１、
・・・、５）、ｂ_j(ｋ）（ｊ＝１、・・・、４）とし、
環境独立型音素ＨＭＭの各状態のパラメータはａ_ij ⁰(ｉ
＝１、・・・、４；ｊ＝１、・・・、５）、ｂ_j ⁰（ｋ）
（ｊ＝１、・・・、４）とすると、新しい環境依存型音
素ＨＭＭの各状態のパラメータはそれぞれ、ａ₁₁，
ａ₁₂，ａ₄₄，ａ₄₅とｂ₁（ｋ），ｂ₄（ｋ）は変化せず、
ａ₂₂＝ａ₂₂ ⁰；ａ₂₃＝ａ₂₃ ⁰；ａ₃₃＝ａ₃₃ ⁰；ａ₃₄＝
ａ₃₄ ⁰；ｂ₂(ｋ）＝ｂ₂ ⁰（ｋ）；ｂ₃（ｋ）＝ｂ
₃ ⁰（ｋ)；のように置換する。

【００１８】即ち、ステップ１２では、例えば、環境依
存型音素ＨＭＭ辞書８内の（ａ）ｋ（ａ）に対して環境
独立型音素ＨＭＭ辞書４内の（＊）ｋ（＊）をピックア
ップし、図３（ａ），（ｂ）の処理をする。中心部分の
置換とは、４状態の場合、次のように、中央の２状態の
パラメータを置換する。このようなステップ１２での置換処理後、ステップ１３
で学習を終了する。

【００１９】以上のように、本実施例では、次のような
利点がある。本実施例では、図１のステップ１０で、環
境依存型音素ＨＭＭを学習し終えた後、ステップ１１
で、該当する環境依存型音素ＨＭＭの学習に使われた学
習サンプルの数が十分あったか否かを判別し、その学習
サンプル数が少なければ、ステップ１２において、中心
部分のパラメータをそれに対応する環境独立型音素ＨＭ
Ｍの中心部分のパラメータで置き換えるようにしている
ので、学習データへの偏りを低減できる。一方ステップ
１２で、学習サンプル数が十分あったと判定されれば、
学習した環境依存型音素ＨＭＭをそのまま利用すること
によって、従来の環境依存型音素ＨＭＭの長所を損なう
ことなく、学習データへの偏りを減らすことができ、か
つ効率良く学習することが可能となり、高精度の音声認
識が可能となる。なお、上記実施例では、入力された単
語音声に対するＨＭＭの学習方法について説明したが、
文節や文の音声が入力された場合にも、上記実施例と同
様にして環境依存型音素ＨＭＭの学習が行える。

【００２０】

【発明の効果】以上詳細に説明したように、本発明によ
れば、環境依存型音素ＨＭＭを学習し終えた後、該当す
る環境依存型音素ＨＭＭの学習に使われた学習サンプル
の数に従い、その数が少なければ、環境依存型音素ＨＭ
Ｍの中心部分のパラメータをそれに対応する環境独立型
音素ＨＭＭの中心部分のパラメータで置き換え、数が十
分であれば、学習した環境依存型音素ＨＭＭをそのまま
利用するようにしている。そのため、従来の環境依存型
音素ＨＭＭの長所を損なうことなく、学習データへの偏
りを減らすことができ、かつ効率良く学習することが可
能となり、高精度の音声認識が可能となる。

【図面の簡単な説明】

【図１】本発明の実施例を示すＨＭＭの学習方法の処理
内容のフローチャートである。

【図２】従来の音声認識方法に用いられる単語ＨＭＭの
構造例を示す図である。

【図３】図１中のステップ１２の処理説明図である。

【符号の説明】

４環境独立型音素ＨＭＭ辞書５単語ＨＭＭの構成処理のステップ６単語ＨＭＭの学習処理のステップ７単語ＨＭＭを環境依存型音素ＨＭＭに分解する
分解処理のステップ８環境依存型音素ＨＭＭ辞書９環境依存型音素ＨＭＭを連結して単語ＨＭＭを
再構成する連結学習処理のステップ１０環境依存型音素ＨＭＭの収束判定処理のステッ
プ１１学習サンプル数の判定処理のステップ１２中心部分のパラメータの置き換え処理のステッ
プ

Claims

【特許請求の範囲】

【請求項１】環境依存音素ヒドン・マルコフ・モデル
を学習するに際して、予め用意しておいた環境独立音素
ヒドン・マルコフ・モデルを連結して単語、文節又は文
のうちのいずれか１つのヒドン・マルコフ・モデルを構
築し、前記いずれか１つのヒドン・マルコフ・モデルを学習す
る学習処理と、前記学習処理後にその学習結果を環境依
存音素ヒドン・マルコフ・モデルに分解する分解処理
と、前記分解された環境依存音素ヒドン・マルコフ・モ
デルを再連結して単語、文節又は文のうちのいずれか１
つのヒドン・マルコフ・モデルを作る連結処理とを用
い、前記学習処理、分解処理及び連結処理を繰り返すこ
とによって前記環境依存音素ヒドン・マルコフ・モデル
を学習するヒドン・マルコフ・モデルの学習方法におい
て、前記環境依存音素ヒドン・マルコフ・モデルの学習に使
われた学習サンプルの数を計数し、学習サンプル数が不
十分だと判断されたときのみ、前記分解処理で分解され
た環境依存音素ヒドン・マルコフ・モデルの中心部分の
パラメータを、それに対応する前記環境独立音素ヒドン
・マルコフ・モデルの相同部分のパラメータで置き換え
ることによって、前記環境依存音素ヒドン・マルコフ・
モデルを学習することを特徴とするヒドン・マルコフ・
モデルの学習方法。