JP2000075890A

JP2000075890A - ヒドン・マルコフ・モデルの学習方法及び音声認識システム

Info

Publication number: JP2000075890A
Application number: JP10246797A
Authority: JP
Inventors: Kazuhiko Shudo; 和彦首藤
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1998-09-01
Filing date: 1998-09-01
Publication date: 2000-03-14

Abstract

(57)【要約】【課題】認識性能のよい音声モデルを生成することが
できるヒドン・マルコフ・モデルの学習方法及び音声認
識システムを提供する。【解決手段】ヒドン・マルコフ・モデルの学習方法
は、雑音が混合した音声データを有する学習用音声デー
タベース１０と、雑音のない学習用音声データから作成
したクリーン音声モデル１１と、学習用音声データに含
まれる雑音を推定して推定雑音モデル１３を生成する雑
音推定部１２と、推定雑音モデル１３とクリーン音声モ
デル１１とを合成するモデル合成部１４と、合成した音
声モデルをΗＭＭ学習の初期音声モデル１５として用い
てΗＭＭ学習を行うΗＭＭ学習処理部１６とを備え、学
習用音声データに含まれる雑音を推定して、推定雑音モ
デル１３を生成し、推定雑音モデル１３と雑音のない学
習用音声データから作成したクリーン音声モデル１１と
を合成し、合成した音声モデルをΗＭＭ学習の初期音声
モデル１５として用いてΗＭＭ学習を行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ヒドン・マルコフ
・モデルの学習方法及びこれを用いた音声認識システム
に関し、例えば、音声による操作が可能なカーナビゲー
ションなどで用いられる、車内のような雑音環境下にお
いて好適なヒドン・マルコフ・モデルの学習方法及び音
声認識システムに関する。

【０００２】

【従来の技術】音声認識技術として、古典的なパターン
・マッチング手法から、近年では統計的な手法に変わ
り、後者が主流になりつつある。後者の統計的な手法で
は、確率的な有限状態を持つマルコフ・モデルが提案さ
れており、通常、ＨＭＭ（hiddenMarkov model：隠れマ
ルコフモデル）と呼ぶ。ＨＭＭでは、学習用音声データ
を用いて音声モデルの学習を行うことで高い認識率を上
げることが可能となっている。

【０００３】図３は従来のこの種のＨＭＭを用いた連続
音声認識システムの構成を示すブロック図である。

【０００４】図３において、連続音声認識システムは、
Ａ／Ｄ変換部１、ＬＰＣ分析部２、背景雑音逐次学習部
３、音声検出部４、切替え部５、ビタビ照合部６、ＨＭ
Ｍパラメータ推定部７及びＨＭＭ音声辞書８から構成さ
れている。このうち、Ａ／Ｄ変換部１とＬＰＣ分析部２
とで音声分析ブロックが構成され、背景雑音逐次学習部
３と音声検出部４とで音声区間検出ブロックが、切替え
部５とビタビ照合部６とでＨＭＭ照合ブロックが、ＨＭ
Ｍパラメータ推定部７とＨＭＭ音声辞書８とでＨＭＭモ
デル学習ブロックがそれぞれ構成されている。

【０００５】Ａ／Ｄ変換部１は、入力音声信号を所定の
サンプリング周波数（例えば、８ｋＨｚ）でサンプリン
グしディジタル信号に変換する。

【０００６】ＬＰＣ分析部２は、音声波形を短い区間
（フレームと呼び、長さは通常１０ミリ〜３０ミリ秒で
ある）に区切り、フレーム毎に特徴パラメータを抽出す
る。音声分析には、音声の特性に合った能率的方法とし
て広く使用されているＬＰＣ（Linear Predictive Codi
ng：線形予測符号化）分析を用い、ＬＰＣ係数からＬＰ
Ｃケプストラム（Cepstrum）を算出する。ここで、ケプ
ストラムとは、対数スペクトラム（Logarithm）を逆フ
ーリエ変換したもので、人間の聴覚特性に近い性質を持
ち、比較的少ない数のパラメータで効率良く音声を表現
できる。

【０００７】音声検出部４は、雑音区間における対数パ
ワーとＬＰＣケプストラムの推定平均値を雑音特徴スペ
クトルとして記憶し、この雑音特徴ベクトルと入力信号
の特徴ベクトルとの距離を求め、その時間的変化から音
声区間を検出する。

【０００８】背景雑音逐次学習部３は、雑音区間と判定
された区間で雑音特徴ベクトルを更新することにより、
雑音特徴の逐次適応学習を行うとともに、距離変動の適
応学習によるしきい値の自動設定も行う。

【０００９】ビタビ照合部６は、ビタビ（Viterbi）ア
リゴリズムを用いてＨＭＭ照合を行う。ＨＭＭ照合で
は、音素や単語を表現したＨＭＭモデルと未知入力音声
とを比較し、類似度を求める。

【００１０】ＨＭＭパラメータ推定部７は、ＥＭ（Expe
ctation Maximization）アルゴリズムを用いてＨＭＭモ
デル学習を行う。ＨＭＭモデル学習では、あらかじめ用
意した音声データでＨＭＭモデルのパラメータを推定す
る。

【００１１】切替え部５は、上記ＨＭＭ照合とＨＭＭモ
デル学習との処理を切り替えるものである。また、ＨＭ
Ｍ音声辞書８は、ＨＭＭパラメータ推定部７によるＨＭ
Ｍモデル学習結果を記憶し、ビタビ照合部６によるＨＭ
Ｍ照合において参照される。

【００１２】一般に、ＨＭＭは、複数の状態（例えば、
音声の特徴等）と状態間の遷移からなる。さらに、ＨＭ
Ｍは状態間の遷移を表す遷移確率と、遷移する際に伴う
特徴ベクトルを出力する出力確率分布（通常はガウス分
布を用いる）を有している。このようなＨＭＭを用いた
単語音声認識の例を図４に示す。

【００１３】図４は、音声認識方法に用いられる単語Ｈ
ＭＭの構造を示す状態遷移図である。

【００１４】図４中のｓ1，ｓ2，ｓ3，ｓ4はＨＭＭにお
ける音声の特徴等の状態を表し、ａ11，ａ12，ａ22，ａ
23，ａ33，ａ34，ａ44，ａ45は状態遷移確率、（ｕ1，
σ1）、（ｕ2，σ2）、（ｕ3，σ3）、（ｕ4，σ4）は
出力確率分布を表す。

【００１５】ＨＭＭでは、状態遷移確率ａij（ｉ＝１，
…，４、ｊ＝１，…，５）で状態遷移が行なわれる際、
出力確率分布（ｕｋ、σｋ）でべクトルを出力する。発
声された単語をＨＭＭを用いて認識するには、まず、各
単語に対して用意された学習データを用いて、その単語
のベクトル列を最も高い確率で出力するようにＨＭＭを
学習する。次に、発声された未知単語のべクトル列を入
力し、最も高い出力確率を与えた単語ＨＭＭを認識結果
とする。

【００１６】この種の音声認識方法では、発声された単
語そのものにＨＭＭを与えて学習し、尤度（すなわち、
べクトル列の出力確率）によって認識結果を判断するも
のである。このような単語ＨＭＭは、優れた認識精度を
保証するが、認識語彙数が増大することによって膨大な
学習データが必要となることや、学習対象語以外の音声
が全く認識できないことなどの欠点がある。

【００１７】ところで、雑音が大きな特殊な環境での音
声認識、例えば駅構内で音声認識を行う場合には、学習
用音声データとして駅構内で発声されたものを採用する
ことが考えられる。この場合にはほとんどすべての学習
用データに雑音が混合していることになる。

【００１８】このような学習用データを用いてＨΜΜに
よる学習を行う場合、まったく初めから学習を行うより
も、あらかじめ静かな環境での音声データから学習して
初期音声モデルを作成しておき、これを初期モデルとし
て、雑音が混合した学習用音声データから学習したほう
が結果としてよい音声モデルが生成されることが経験的
に知られている。

【００１９】理由としては、ＨΜΜ学習のプロセスとし
て、初めになんらかの初期モデルから出発して学習する
のであるが、この初期モデルの取り方が結果の善し悪し
に大きく影響することが知られており、クリーンな学習
データでΗＭＭ学習された音声モデルの方が初期モデル
としては優れているからだと推察される。全く初めから
学習する場合には、初期モデルとしては例えば最も簡単
なものを想定しても、学習用音声データ全体の平均を与
えるなどしなければならないため、劣った結果が生成さ
れやすい。

【００２０】

【発明が解決しようとする課題】しかしながら、このよ
うな従来のＨＭＭ学習方法にあっては、以下のような問
題点があった。

【００２１】すなわち、音声データを学習用音声データ
としてΗＭＭ学習する際に、その学習初期値として、ク
リーンな音声モデルを用いる場合、学習用データに雑音
が混合しているとうまくいかないことがある。それは、
クリーンな音声モデルの源であるクリーンな学習用デー
タと雑音が混合した学習用データとの間のギャップが大
きく、初期モデルとしてクリーンな音声モデルでも不適
当なためである。そのため、ＨＭＭ学習が正しく行われ
ず、認識性能があまりよくない音声モデルが生成される
ことがある。

【００２２】本発明は、雑音が混合したデータを学習デ
ータとしてΗＭＭ学習する場合に、よい初期モデルを与
えることで学習を成功させ、結果として認識性能のよい
音声モデルを生成することができるヒドン・マルコフ・
モデルの学習方法及び音声認識システムを提供すること
を目的とする。

【００２３】

【課題を解決するための手段】本発明に係るヒドン・マ
ルコフ・モデルの学習方法は、雑音が混合した第１の学
習用音声データからヒドン・マルコフ・モデル（ＨＭ
Ｍ）学習を行い、音声モデルを作成するヒドン・マルコ
フ・モデルの学習方法であって、第１の学習用音声デー
タに含まれる雑音を推定して、推定雑音モデルを生成
し、該推定雑音モデルと雑音のない第２の学習用音声デ
ータから作成したクリーン音声モデルとを合成し、合成
した音声モデルをΗＭＭ学習の初期音声モデルとして用
いてΗＭＭ学習を行うことを特徴とする。

【００２４】本発明に係るヒドン・マルコフ・モデルの
学習方法は、モデルの合成を、ＰＭＣ方法により雑音モ
デルと音声モデルを加算することにより行うものであっ
てもよい。

【００２５】また、本発明に係る音声認識システムは、
学習用音声データからヒドン・マルコフ・モデル（ＨＭ
Ｍ）学習を行って音声モデルを作成し、該音声モデルを
用いて音声認識を行う音声認識システムにおいて、雑音
が混合した第１の学習用音声データを有する学習用音声
データベースと、雑音のない第２の学習用音声データか
ら作成したクリーン音声モデルと、第１の学習用音声デ
ータに含まれる雑音を推定して推定雑音モデルを生成す
る雑音推定手段と、推定雑音モデルとクリーン音声モデ
ルとを合成するモデル合成手段と、モデル合成手段によ
り合成した音声モデルをΗＭＭ学習の初期音声モデルと
して用いてΗＭＭ学習を行うΗＭＭ学習処理手段とを備
え、ΗＭＭ学習した音声モデルを用いて音声認識を行う
ように構成する。

【００２６】上記モデル合成手段は、ＰＭＣ方法により
雑音モデルと音声モデルを加算して合成するものであっ
てもよい。

【００２７】

【発明の実施の形態】以下、図面を参照して本発明の実
施の形態について説明する。

【００２８】図１は本発明の本実施形態に係るヒドン・
マルコフ・モデルの学習方法の実施に用いられる装置を
示すブロック図である。

【００２９】図１において、１０は音声データベースと
して提供される学習用音声データ（第１の学習用音声デ
ータ）であり、この学習用音声データは雑音が混合して
いる音声データである。また、１１はクリーン音声モデ
ルであり、クリーン音声モデル１１は、あらかじめ静か
な環境で録音された学習用音声データ（第２の学習用音
声データ）からΗＭＭ学習により得られた音声モデルで
ある。

【００３０】学習用音声データ１０は、雑音推定部１２
（雑音推定手段）及びＨＭＭ学習処理部１６（ΗＭＭ学
習処理手段）に出力される。雑音推定部１２は、学習用
音声データ１０に混合されている雑音の推定を行い、結
果を推定雑音モデル１３としてモデル合成部（ＰＭＣ処
理部）１４（モデル合成手段）に出力する。

【００３１】モデル合成部１４は、推定雑音モデル１３
とクリーン音声モデル１１とをＰＭＣ方法を用いて合成
し、新たな音声モデルを初期音声モデル１５として出力
する。ＰＭＣ方法のアルゴリズムについては、図２によ
り後述する。

【００３２】上記初期音声モデル１５及び学習用音声デ
ータ１０は、ＨＭＭ学習処理部１６に出力される。ΗＭ
Ｍ学習処理部１６は、モデル合成部１４の出力を初期音
声モデルとして用いて、学習用音声データ１０によって
ＨＭＭ学習を行い、新音声モデル１７を生成して処理を
終える。

【００３３】このように、本実施形態に係るヒドン・マ
ルコフ・モデルの学習方法は、雑音が混合した学習用音
声データ１０からΗＭＭ学習を行い、音声モデルを作成
する際、学習用音声データ１０に含まれる雑音を推定し
て、推定雑音モデル１３を生成し、この推定雑音モデル
１３と雑音のない学習用音声データから作成したクリー
ンな音声モデル１１とをモデル合成部（ＰＭＣ処理部）
１４によって合成し、合成した音声モデルをΗＭＭ学習
の初期音声モデル１５としてΗＭＭ学習処理部１６でΗ
ＭＭ学習を行うことを特徴とする。

【００３４】以下、上述のように構成された装置により
実施されるヒドン・マルコフ・モデルの学習方法の動作
を説明する。

【００３５】学習用音声データ１０は、雑音が混合して
いる音声データとする。クリーン音声モデル１１は、あ
らかじめ静かな環境で録音された学習用音声データから
ΗＭＭ学習により得られた音声モデルとなっている。

【００３６】まず、雑音推定部１２において学習用音声
データ１０に混合されている雑音の推定を行い、結果を
推定雑音モデル１３として出力する。雑音の推定方法と
しては、学習用音声データ１０のうちの非発話区間にあ
る信号を雑音とみなし、従来のΗＭＭ学習によってその
ＨＭＭモデルを求めればよい。例えば、ＨＭＭモデルと
して最も単純な１ステート、１混合のＨＭＭモデルを考
えると、学習用データのうちの全非発話区間の平均と分
散を求めてこれを雑音モデルとして用いることになる。

【００３７】モデル合成部（ＰＭＣ処理部）１４では、
こうして得られた雑音モデルとクリーン音声モデルとを
ＰＭＣ方法を用いて合成し、新たな音声モデルを出力す
る。この音声モデルを後段のＨＭＭ学習処理部１６のた
めの初期音声モデル１５とする。ここで、雑音モデルと
クリーン音声モデルとの合成法であるＰＭＣ（Parallel
Model Combination）方法について以下簡単に説明す
る。

【００３８】ＰＭＣ方法は、雑音ΗＭＭモデルとクリー
ンな音声ΗＭＭモデルとから、雑音が混合した場合の音
声をシミュレーションしてそのΗＭＭモデルを出力す
る。雑音が混合した音声を認識する際には、クリーンな
音声モデルを用いて認識を行うよりも、ΡＭＣ方法によ
り生成された雑音混合の音声モデルを用いたほうが入力
の雑音混合音声をよりよくモデル化しているので、一般
によい認識率が得られる。ＰＭＣ方法のアルゴリズム
は、簡単には図２の通りである。

【００３９】図２はＰＭＣ方法の処理の流れを示すフロ
ーチャートである。

【００４０】図２において、音声ＨＭＭ、雑音ΗＭＭの
各状態のケプストラム特徴べクトルをそれぞれＳｃｐ、
Ｎｃｐとした時、この特徴べクトルをコサイン変換、指
数変換によってそれぞれ線形スペクトラムＳｌｎ、Ｎｌ
ｎに直す。雑音として加法的なものを仮定すると、雑音
が混合した音声は、線形スペクトラム領域においては、
音声のスペクトラムと雑音のスペクトラムの加算と考え
ることができる。そこで、両者のべクトルの和をとり、
ＭＩＸｌｎとする。これが雑音混合した音声のスペクト
ラムの推定値である。

【００４１】このＭＩＸｌｎを逆変換、すなわち対数変
換、逆コサイン変換を施すことでケプストラム特徴べク
トルであるＭＩＸｃｐを得る。

【００４２】以上の処理をモデルのすべての状態に対し
て実行して、雑音が混合された音声のＨＭＭモデルを得
る。こうしてできたΗＭＭモデルは、雑音が混合した音
声を近似的にモデル化していると考えることができる。
ＰＭＣ方法のより詳しい説明は、例えば、信学技報ＳＰ
９２−９６、Frank Martin,Kyohiro Shikano,Yasuhiro
Minami,Yoichi Okabe:"Recognition of Noisy Speech b
y Composition of Hiddon Markov Models"に記載された
ものがある。

【００４３】図１に戻って、ΗＭＭ学習処理部１６で
は、モデル合成部（ＰＭＣ処理部）１４の出力を初期音
声モデル１５として用いて、学習用音声データ１０によ
ってＨＭＭ学習を行う。このΗＭＭ学習は従来法と同様
の方法で行えばよい。

【００４４】モデル合成部１４の出力である初期音声モ
デル１５は、雑音の影響を考慮しているので、クリーン
音声モデル１１よりも学習用音声データ１０に蓄えられ
ている音声データをより忠実にモデル化していると考え
られる。したがって、これを学習の初期値として用いる
ことで、クリーン音声モデル１１をそのまま学習の初期
値として用いる場合よりも正確に学習することができ、
結果として、より優れた音声モデルを生成することがで
きる。音声認識システムはこうして得られた新音声モデ
ル１７を用いることで、高い認識性能を上げることが可
能となる。

【００４５】以上説明したように、本実施形態に係るヒ
ドン・マルコフ・モデルの学習方法では、雑音が混合し
た学習用音声データを有する学習用音声データベース１
０と、雑音のない学習用音声データから作成したクリー
ン音声モデル１１と、学習用音声データに含まれる雑音
を推定して推定雑音モデル１３を生成する雑音推定部１
２と、推定雑音モデル１３とクリーン音声モデル１１と
を合成するモデル合成部（ＰＭＣ処理部）１４と、モデ
ル合成部１４により合成した音声モデルをΗＭＭ学習の
初期音声モデル１５として用いてΗＭＭ学習を行うΗＭ
Ｍ学習処理部１６とを備え、学習用音声データに含まれ
る雑音を推定して、推定雑音モデル１３を生成し、推定
雑音モデル１３と雑音のない学習用音声データから作成
したクリーン音声モデル１１とを合成し、合成した音声
モデルをΗＭＭ学習の初期音声モデル１５として用いて
ΗＭＭ学習を行うようにしたので、雑音が混合したデー
タを学習データとしてΗＭＭ学習する場合に、よい初期
モデルを与えることで学習を成功させ、結果として認識
性能のよい音声モデルを生成することができるヒドン・
マルコフ・モデルの学習方法が実現できる。

【００４６】すなわち、雑音が混合した音声データを学
習用音声データとしてΗＭＭ学習する際、その学習初期
値として、クリーンな音声モデルを用いるのではなく、
学習用音声データから雑音モデルを推定し、この雑音モ
デルとクリーン音声モデルをＰＭＣ合成して得られる音
声モデルを学習の初期値として設定することで、学習の
初期値としてより学習用音声データに近い音声モデルを
用いるようにすることができ、学習の結果としてより優
れた音声モデルを出力できる。

【００４７】したがって、ＨＭＭを用いた音声認識シス
テムに適用すれば、認識の際、上記ΗＭＭ学習した音声
モデルを用いることにより高い認識率を達成することが
できる。

【００４８】なお、上記実施形態に係るヒドン・マルコ
フ・モデルの学習方法は、例えばトライフォンＨＭＭに
適用することができるが、ダイフォンＨＭＭや音素ＨＭ
Ｍに対しても、同様なＨＭＭ学習ができることは勿論で
ある。

【００４９】また、上記実施形態に係る音声認識方法及
びシステムは、音声を入力とする音声認識方法には全て
適用することができ、また、学習用音声データからＨＭ
Ｍ学習を行うものであればどのような音声認識でもよ
い。各種端末に組み込まれる回路の一部として実施する
こともできる。

【００５０】さらに、上記実施形態に係る音声認識方法
及びシステムを構成する各処理部や各種プロセスの数、
種類接続状態などは前述した各実施形態に限られない。

【００５１】

【発明の効果】本発明に係るヒドン・マルコフ・モデル
の学習方法では、第１の学習用音声データに含まれる雑
音を推定して、推定雑音モデルを生成し、該推定雑音モ
デルと雑音のない第２の学習用音声データから作成した
クリーン音声モデルとを合成し、合成した音声モデルを
ΗＭＭ学習の初期音声モデルとして用いてΗＭＭ学習を
行うようにしたので、雑音が混合したデータを学習デー
タとしてΗＭＭ学習する場合に、よい初期モデルを与え
ることで学習を成功させ、結果として認識性能のよい音
声モデルを生成することができる。

【００５２】また、本発明に係る音声認識システムで
は、雑音が混合した第１の学習用音声データを有する学
習用音声データベースと、雑音のない第２の学習用音声
データから作成したクリーン音声モデルと、第１の学習
用音声データに含まれる雑音を推定して推定雑音モデル
を生成する雑音推定手段と、推定雑音モデルとクリーン
音声モデルとを合成するモデル合成手段と、モデル合成
手段により合成した音声モデルをΗＭＭ学習の初期音声
モデルとして用いてΗＭＭ学習を行うΗＭＭ学習処理手
段とを備え、ΗＭＭ学習した音声モデルを用いて音声認
識を行うように構成したので、上記ΗＭＭ学習した音声
モデルを用いることにより高い認識率を達成することが
でき、結果として認識性能のよい音声認識システムを実
現することができる。

【図面の簡単な説明】

【図１】本発明を適用した実施形態に係るヒドン・マル
コフ・モデルの学習方法の実施に用いられる装置を示す
ブロック図である。

【図２】ＰＭＣ方法の処理の流れを示すフローチャート
である。

【図３】従来のＨＭＭを用いた連続音声認識システムの
構成を示すブロック図である。

【図４】音声認識方法に用いられる単語ヒドン・マルコ
フ・モデルの構造を示す図である。

【符号の説明】

１０学習用音声データ（第１の学習用音声データ）、
１１クリーン音声モデル、１２雑音推定部（雑音推
定手段）、１３推定雑音モデル、１４モデル合成部
（ＰＭＣ処理部）、１５初期音声モデル、１６ＨＭ
Ｍ学習処理部（ＨＭＭ学習処理手段）、１７新音声モ
デル

Claims

【特許請求の範囲】

【請求項１】雑音が混合した第１の学習用音声データ
からヒドン・マルコフ・モデル（ＨＭＭ）学習を行い、
音声モデルを作成するヒドン・マルコフ・モデルの学習
方法であって、前記第１の学習用音声データに含まれる雑音を推定し
て、推定雑音モデルを生成し、該推定雑音モデルと雑音のない第２の学習用音声データ
から作成したクリーン音声モデルとを合成し、合成した音声モデルをΗＭＭ学習の初期音声モデルとし
て用いてΗＭＭ学習を行うことを特徴とするヒドン・マ
ルコフ・モデルの学習方法。
【請求項２】前記モデルの合成を、ＰＭＣ（Parallel
Model Combination）方法により雑音モデルと音声モデ
ルを加算することにより行うことを特徴とする請求項１
記載のヒドン・マルコフ・モデルの学習方法。
【請求項３】学習用音声データからヒドン・マルコフ
・モデル（ＨＭＭ）学習を行って音声モデルを作成し、
該音声モデルを用いて音声認識を行う音声認識システム
において、雑音が混合した第１の学習用音声データを有する学習用
音声データベースと、雑音のない第２の学習用音声データから作成したクリー
ン音声モデルと、前記第１の学習用音声データに含まれる雑音を推定して
推定雑音モデルを生成する雑音推定手段と、前記推定雑音モデルと前記クリーン音声モデルとを合成
するモデル合成手段と、前記モデル合成手段により合成した音声モデルをΗＭＭ
学習の初期音声モデルとして用いてΗＭＭ学習を行うΗ
ＭＭ学習処理手段とを備え、前記ΗＭＭ学習した音声モデルを用いて音声認識を行う
ことを特徴とする音声認識システム。
【請求項４】前記モデル合成手段は、ＰＭＣ方法によ
り雑音モデルと音声モデルを加算して合成することを特
徴とする請求項３記載の音声認識システム。