JPH08211891A

JPH08211891A - ヒドン・マルコフ・モデルの学習方法

Info

Publication number: JPH08211891A
Application number: JP7017560A
Authority: JP
Inventors: Takashi I; 傑易
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1995-02-06
Filing date: 1995-02-06
Publication date: 1996-08-20

Abstract

(57)【要約】【目的】連結学習法で文音声から音素ＨＭＭを学習す
るとき、自動的にポーズ、鼻濁音、長音を検出して学習
精度の高い音素ＨＭＭの学習を行う。【構成】文音声を用いて音素ＨＭＭを学習する時、ス
テップ５で、学習用文音声データのテキストを解析して
ポーズが存在し得る箇所を検出し、ステップ７で、学習
用文音声データに含まれているポーズ、鼻濁音、長音を
音声認識手法で検出する。ステップ８でＨＭＭ尤度を計
算して音韻表記を決定した後、ステップ９でその音素Ｈ
ＭＭを連結して文ＨＭＭを構成する。ステップ１０で文
ＨＭＭの学習を行い、ステップ１１で文ＨＭＭを音素Ｈ
ＭＭに分解した後、ステップ１４で音素ＨＭＭが収束し
たか否かの判定を行い、収束していなければ、ステップ
１３において、ステップ１１で分解された音素ＨＭＭを
連結して文ＨＭＭを再構成し、ステップ１０の文ＨＭＭ
の学習へ戻り、学習及び分解を繰り返す。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声認識技術に用いら
れるヒドンマルコフモデル（以下、ＨＭＭという）の学
習方法に関するものである。

【０００２】

【従来の技術】従来、このような分野の技術としては、
例えば次のような文献に記載されるものがあった。文献１；The Bell System Technical Journal 、Vol.62
[4] 、(1983-4)、American Telephone and Telegraph C
ompany, （米）、S.E.Levinson,.R.Rabiner,and M.M.So
ndhi共著、「An Introdution to the Application of t
he Theory of Probablistic Functions of aMarkov Pro
cess to Automatic Speech Recognition」P.1035- 1074 文献２；中川聖一著「確立モデルによる音声認識」( 昭
和63-7)、電子情報通信学会、P.55-61 音声認識技術として、古典的なパターンマッチング法か
ら、近年では統計的な手法に変わり、後者が主流になり
つつある。後者の統計的な手法では、確率的な有限状態
をもつマルコフ・モデルが提案されており、通常ＨＭＭ
と呼ぶ。一般に、ＨＭＭは、複数の状態（例えば、音声
の特徴等）と状態間の遷移からなる。更に、ＨＭＭは、
状態間の遷移を表す遷移確率と、遷移する際に伴うラベ
ル（音声の特徴パラメータの典型的なもので、通常数十
から数千種類がある。）を出力する出力確率を有してい
る。このようなＨＭＭを用いた音声認識方法が前記文献
１に記載されており、その単語音声認識の例を図２に示
す。

【０００３】図２は、従来の音声認識方法に用いられる
単語ＨＭＭの構造例を示す図である。図２において、Ｓ
₁，Ｓ₂，Ｓ₃，Ｓ₄は、ＨＭＭにおける音声の特徴等
の状態を表す。ａ₁₁，ａ₁₂，ａ₂₂，ａ₂₃，ａ₃₃，ａ₃₄，
ａ₄₄，ａ₄₅は状態遷移確率、及びｂ₁（ｋ），ｂ
₂（ｋ），ｂ₃（ｋ），ｂ₄（ｋ）はラベル出力確率を
表す。ＨＭＭでは、状態遷移確率ａ_ij（但し、ｉ＝１，
・・・，４、ｊ＝１，・・・，５）で状態遷移が行われ
る際、ラベル出力確率ｂ_j（ｋ）でラベルを出力する。
発声された単語をＨＭＭを用いて認識するには、まず、
各単語に対して用意された学習データを用いて、その単
語のラベル列を最も高い確率で出力するようにＨＭＭを
学習する。次に、発声された未知単語のラベル列を入力
し、最も高い出力確率を与えた単語ＨＭＭを認識結果と
する。尚、単語を文で置き換えれば、同様の方法で、文
単位で発声された音声を認識することができる。この種
の音声認識方法では、発声された単語や文そのものにＨ
ＭＭを与えて学習し、尤度（即ち、ラベル列の出力確
率）によって認識結果を判断している。このような単語
又は文ＨＭＭは、優れた認識精度を保証するが、認識語
彙数が増大することによって膨大な学習データが必要と
なることや、学習対象語以外の音声が全く認識できない
こと等の欠点がある。

【０００４】一方、音声学では通常、音素と呼ばれる声
学的要素の系列で単語や文を表している。従って、音素
毎にＨＭＭを用意し、これらのＨＭＭを連結して単語又
は文ＨＭＭを生成し、単語認識を行う方法がある。特
に、文音声を認識する場合、大量の文音声を用意するこ
とが困難であるため、認識対象となる全ての文のＨＭＭ
を学習することが不可能に近い。従って、文音声の場合
は、音素ＨＭＭより文ＨＭＭを生成するのが現実的な方
法である。音素を学習するには、学習データに各々の音
素が存在する区間を示す情報（即ちラベル情報）も用意
しなければならない。しかし、ラベル付け作業を行う場
合、例えばコンピュータによる自動作業では満足のいく
精度が得られず、殆ど手作業でラベル付けを行ってい
る。そこで、従来、ラベル情報を要しない学習法が提案
されている。この方法では、先ず、音素ＨＭＭの初期モ
デルを用意する。そして、発声内容が既知でラベルが付
かない文発声の学習データに対して、先の音素ＨＭＭの
初期モデルを連結して文ＨＭＭを構築し、これらの文Ｈ
ＭＭを学習用文音声データで学習する。この場合、文の
始端と終端とが分かれば学習プロセスが実現する。更
に、連結と逆の手続きでこれらの文ＨＭＭを分解し、音
素ＨＭＭを生成する。学習精度をよくするため、上述の
連結学習と分解生成を繰り返すことにより、精度の高い
音素ＨＭＭを生成する。当然なことで、この連結学習法
は単語音声にも適用できる。連結学習を行うには、先
ず、学習データの発声内容を示す文章を音韻表記に変換
しなければならない。即ち、我々は普段使っている漢字
仮名交じり文を、コンピュータが認識できるような音韻
記号に変換する。漢字の読み方さえ指定すれば、この作
業はコンピュータによって自動的に行うことができる。

【０００５】

【発明が解決しようとする課題】しかしながら、従来の
音素ＨＭＭ連結学習法では、次のような問題点があっ
た。即ち、発声者が文音声を発声するとき、呼吸を整え
るため、発声を一時停止（以下、ポーズという）するこ
とがある。又、発声の中にはポーズの他に鼻濁音や長音
が存在することがある。ところが、各々の発声者の心理
状況、生理状況及び教育背景等によって、ポーズを挿入
する場所が必ずしも一致するとは限らないし、鼻濁音や
長音も発声者によってまちまちなものになる。ＨＭＭを
学習するとき、これらのポーズ、鼻濁音、及び長音を無
視し、単なる音韻表記に従って音素ＨＭＭを連結して学
習すると、ポーズが近隣の音素に割り当てられてしま
い、又、鼻濁音や長音が実発声と異なる音素記号に当て
られてしまうので、音素ＨＭＭの精度が低下することを
免れない。本発明は、連結学習法で文音声から音素ＨＭ
Ｍを学習するとき、自動的にポーズ、鼻濁音、及び長音
を検出して音素ＨＭＭの精度が低下することを解決した
音素ＨＭＭ学習方法を提供することを目的とする。

【０００６】

【課題を解決するための手段】本発明は、前記課題を解
決するために、連続音声データを用いて音素ＨＭＭを学
習するに際して、音素ＨＭＭの初期モデルを連結して文
ＨＭＭを構築する。そして、前記文ＨＭＭを学習する学
習処理と、前記学習処理後にその学習結果を音素ＨＭＭ
に分解する分解処理と、前記分解された音素ＨＭＭを再
連結して文ＨＭＭを作る連結処理とを行い、前記学習処
理、分解処理、及び連結処理を繰り返すことによって前
記音素ＨＭＭを学習するＨＭＭの学習方法において、次
のような手段を講じている。即ち、本発明では、学習用
文音声データのテキスト表記を単語列又は文節列に分解
することにより該学習用文音声データ中のポーズが存在
し得る箇所を探りだすと共に該学習用文音声データのテ
キスト表記を仮名表記の単語列又は文節列に変換し、該
学習用文音声データ中に含まれているポーズ、鼻濁音、
及び長音を音声認識手法で検出し、前記音素ＨＭＭを連
結して前記文ＨＭＭを生成する際、該認識結果に従い該
ポーズ、鼻濁音、及び長音に相応する音素ＨＭＭを連結
して学習し、前記音素ＨＭＭを学習するようにしてい
る。

【０００７】

【作用】本発明によれば、以上のようにＨＭＭの学習方
法を構成したので、学習用文音声データのテキスト表記
から該学習用文音声データ中のポーズが存在し得る箇所
が検出される。更に、音声認識手法により前記学習用文
音声データに含まれているポーズ、鼻濁音、及び長音が
検出され、該学習用文音声データに合うラベル列で連結
学習が行われる。そのため、自動的に前記学習用文音声
データ中のポーズ、鼻濁音、及び長音が検出され、人間
による音声データの検聴の手間を掛けることなく学習精
度の低下が解消され、精度の高いＨＭＭの学習方法が提
供される。従って、前記課題を解決できるのである。

【０００８】

【実施例】第１の実施例図１は、本発明の実施例を示すＨＭＭの学習方法の処理
内容のフローチャートであり、この図を参照しつつ、本
実施例のＨＭＭの学習方法を説明する。本実施例のＨＭ
Ｍの学習方法では、例えば、プログラム制御されるコン
ピュータを用いて図１のステップ１〜１５の処理が実行
される。先ず、図１のステップ１において、学習が開始
されると、ステップ２で、学習データの音声信号（例え
ば、文音声）が入力され、ステップ３の前処理３へ進
む。ステップ３の前処理では、例えば、入力されたアナ
ログ音声信号をアナログ／デジタル変換（以下、Ａ／Ｄ
変換という）によってデジタル信号に変換し、ＬＰＣ
（Linear Predictive Coding、線形予測符号化）分析に
よるＬＰＣケプストラムの抽出等により、音声特徴パラ
メータを抽出し、ステップ５へ進む。ステップ５では、
入力された文音声に付属するテキスト（漢字仮名交じり
文）情報を用い、予め用意しておいた単語辞書４を参照
しながら、テキスト解析を行う。ここでは、分かち書き
されていない日本語文書を単語列又は文節列に分解し、
同時に仮名表記に変換する。例えば、「私は冬季が好
き」という文が入力されると、以下のような仮名表記文
に変換される。「わたしわとうきがすき」但し、文節の区切りをスペースで示している。ステップ
７では、認識用音素ＨＭＭ辞書６を参照して、文ＨＭＭ
を生成する。即ち、ポーズ挿入の有無、長音発声の揺ら
ぎ、鼻濁音を考慮して文ＨＭＭを生成し、正解ラベル列
を検出する。上記の例文では、可能なポーズが２つ、長
音（即ち、「とう」）と鼻濁音（即ち、「が」）がそれ
ぞれ１つなので、文ＨＭＭの数は２⁴＝１６である。

【０００９】次に、これらの文のラベル列（１）〜（１
６）を示す。（１）／ｗａｔａｓｈｉｗａｔｏｕｋｉｇａｓｕｋｉ／（２）／ｗａｔａｓｈｉｗａｔｏｕｋｉｇａＰｓｕｋｉ／（３）／ｗａｔａｓｈｉｗａｔｏｕｋｉｎｇａｓｕｋｉ／（４）／ｗａｔａｓｈｉｗａｔｏｕｋｉｎｇａＰｓｕｋｉ／（５）／ｗａｔａｓｈｉｗａｔｏＯｋｉｇａｓｕｋｉ／（６）／ｗａｔａｓｈｉｗａｔｏＯｋｉｇａＰｓｕｋｉ／（７）／ｗａｔａｓｈｉｗａｔｏＯｋｉｎｇａｓｕｋｉ／（８）／ｗａｔａｓｈｉｗａｔｏＯｋｉｎｇａＰｓｕｋｉ／（９）／ｗａｔａｓｈｉｗａＰｔｏｕｋｉｇａｓｕｋｉ／（１０）／ｗａｔａｓｈｉｗａＰｔｏｕｋｉｇａＰｓｕｋｉ／（１１）／ｗａｔａｓｈｉｗａＰｔｏｕｋｉｎｇａｓｕｋｉ／（１２）／ｗａｔａｓｈｉｗａＰｔｏｕｋｉｎｇａＰｓｕｋｉ／（１３）／ｗａｔａｓｈｉｗａＰｔｏＯｋｉｇａｓｕｋｉ／（１４）／ｗａｔａｓｈｉｗａＰｔｏＯｋｉｇａＰｓｕｋｉ／（１５）／ｗａｔａｓｈｉｗａＰｔｏＯｋｉｎｇａｓｕｋｉ／（１６）／ｗａｔａｓｈｉｗａＰｔｏＯｋｉｎｇａＰｓｕｋｉ／但し、Ｐはポーズを示す。ステップＳ８では、この１６
個の文ＨＭＭと入力音声とを照合し、尤度を計算する。
ここでは仮に、（１５）番目のＨＭＭが最も大きい出力
確率を与えたとすると、／ｗａｔａｓｈｉｗａＰｔｏＯｋｉｇａｓｕｋｉ／は正解音韻表記として次の学習ステップ９へ渡される。

【００１０】ステップ９では、ステップ８で決定された
音韻表記と音素ＨＭＭ辞書１２を参照しながら、音素Ｈ
ＭＭを連結して文ＨＭＭを生成し、生成結果をステップ
１０へ送る。ステップ１０では、入力された学習音声を
使用して文ＨＭＭパラメータを推定する。この推定に
は、例えば、前記文献２に記載されたBaum-Welch（Ｂ−
Ｗ）アルゴリズムを用いる。このＢ−Ｗアルゴリズムで
は、例えば、観測ラベル系列Ｏ＝ｏ₁，ｏ₂，・・・，
ｏ_T及び状態系列Ｉ＝ｉ₁，ｉ₂，・・・，ｉ_Tに対し
て、次式（１）のような前向き変数α_t（ｉ）と後向き
変数β_t（ｉ）を定義する。 α_t(i) ＝Ｐｒ（ｏ₁，ｏ₂，…，ｏ_T，ｉ_t＝ｓ_i）・・・（１） β_t(i) ＝Ｐｒ（ｏt+1 ，ｏt+2 ，…，ｏ_T，ｉ_t＝ｓ_i）そして、状態遷移確率ａ_ijとラベル出力確率ｂ_j（ｋ）
を次式（２）のように推定する。

【００１１】

【数１】このように文ＨＭＭを学習し終えると、ステップ１１に
おいて、文ＨＭＭを音素ＨＭＭに分解し、修正された音
素ＨＭＭを音素ＨＭＭ辞書１２に保存する。この音素Ｈ
ＭＭが収束したか否かを、ステップ１４で検査し、もし
収束したら（即ち、音素ＨＭＭパラメータの前回の値と
今回の値との差が十分に小さければ）、ステップ１５で
学習を終了する。これに対し、ステップ１４の検査の結
果、収束していなければ、ステップ１３において、ステ
ップ１１で分解された音素ＨＭＭを連結して文ＨＭＭを
再構成し、ステップ１０の文ＨＭＭ学習へ戻り、前述し
た学習処理と分解処理を繰り返す。

【００１２】以上のように、本実施例では、次のような
利点がある。文音声を用いて音素ＨＭＭを学習する時、
ステップ５で、学習用文音声データのテキストを解析し
てポーズが存在し得る箇所を検出し、ステップ７で、学
習用文音声データに含まれているポーズ、鼻濁音、長音
を音声認識手法で検出し、ステップ８からステップ１４
において学習用文音声データに合うラベル列で連結学習
を行うことにより、自動的にポーズが検出され、人間に
よる音声データの検聴の手間を掛けることなく学習精度
の低下が解消され、精度の高いＨＭＭの学習が可能とな
る。

【００１３】

【発明の効果】以上詳細に説明したように、本発明によ
れば、文音声を用いて音素ＨＭＭを学習する時、学習用
文音声データのテキストを解析してポーズが存在し得る
箇所を検出し、更に、学習用文音声データに含まれてい
るポーズ、鼻濁音、長音を音声認識手法で検出して学習
用文音声データに合うラベル列で連結学習を行うように
したので、自動的にポーズが検出され、人間による音声
データの検聴の手間を掛けることなく学習精度の低下が
解消され、精度の高いＨＭＭの学習方法を提供できる。

【図面の簡単な説明】

【図１】本発明の実施例を示すＨＭＭの学習方法の処理
内容のフローチャートである。

【図２】従来の音声認識方法に用いられる単語ＨＭＭの
構造例を示す図である。

【符号の説明】

４単語辞書５テキスト解析６認識用音素ＨＭＭ辞書７文ＨＭＭ生成処理８ＨＭＭ尤度計算による音韻表記決定処理９音素ＨＭＭの連結による文ＨＭＭ構成処理１０文ＨＭＭの学習Ｂ−Ｗアルゴリズム処理１１文ＨＭＭの音素ＨＭＭ分解処理１２音素ＨＭＭ辞書１３文ＨＭＭの再構成処理１４音素ＨＭＭの収束判定処理

Claims

【特許請求の範囲】

【請求項１】連続音声データを用いて音素ヒドン・マ
ルコフ・モデルを学習するに際して、音素ヒドン・マル
コフ・モデルの初期モデルを連結して文ヒドン・マルコ
フ・モデルを構築し、前記文ヒドン・マルコフ・モデルを学習する学習処理
と、前記学習処理後にその学習結果を音素ヒドン・マル
コフ・モデルに分解する分解処理と、前記分解された音
素ヒドン・マルコフ・モデルを再連結して文ヒドン・マ
ルコフ・モデルを作る連結処理とを行い、前記学習処
理、分解処理、及び連結処理を繰り返すことによって前
記音素ヒドン・マルコフ・モデルを学習するヒドン・マ
ルコフ・モデルの学習方法において、学習用文音声データのテキスト表記を単語列又は文節列
に分解することにより該学習用文音声データ中のポーズ
が存在し得る箇所を探りだすと共に該学習用文音声デー
タのテキスト表記を仮名表記の単語列又は文節列に変換
し、該学習用文音声データ中に含まれているポーズ、鼻
濁音、及び長音を音声認識手法で検出し、前記音素ヒド
ン・マルコフ・モデルを連結して前記文ヒドン・マルコ
フ・モデルを生成する際、該認識結果に従い該ポーズ、
鼻濁音、及び長音に相応する音素ヒドンマルコフモデル
を連結して学習し、前記音素ヒドン・マルコフ・モデル
を学習することを特徴とするヒドン・マルコフ・モデル
の学習方法。