JP2886118B2

JP2886118B2 - 隠れマルコフモデルの学習装置及び音声認識装置

Info

Publication number: JP2886118B2
Application number: JP7232436A
Authority: JP
Inventors: 篤中村
Original assignee: Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk
Current assignee: Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk
Priority date: 1995-09-11
Filing date: 1995-09-11
Publication date: 1999-04-26
Anticipated expiration: 2015-09-11
Also published as: JPH0981182A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識のための
隠れマルコフモデル（以下、ＨＭＭという。）を学習す
るためのＨＭＭの学習装置、及びその学習装置によって
学習されたＨＭＭを用いて音声認識する音声認識装置に
関する。

【０００２】

【従来の技術】従来の連続音声認識装置においては、入
力された発声音声から抽出された音響的特徴パラメータ
に基づいて、ＨＭＭを用いて音声認識してその結果を出
力している。

【０００３】音声認識部による上記ＨＭＭを用いた登録
語の抽出（スポッティングともいう。）においては、未
登録語を検出するときに用いるガーベジＨＭＭがスポッ
ティング性能に大きな影響を与える。従来、ガーベジＨ
ＭＭを学習するために、誤り最小化基準に基づく学習法
（以下、ＭＥ学習法という。）が用いられており、その
有効性が、例えば、従来文献１「Ｋｏｍｏｒｉｅｔ
ａｌ．，“Ｍｉｎｉｍｕｍｅｒｒｏｒｃｌａｓｓｉ
ｆｉｃａｔｉｏｎｔｒａｉｎｉｎｇｆｏｒＨＭＭ−
ｂａｓｅｄｋｅｙｗｏｒｄｓｐｏｔｔｉｎｇ”，Ｐ
ｒｏｃ．ＩＣＳＬＰ９２，Ｖｏｌ．Ｉ，ｐｐ．９−１
２，１９９２年」及び従来文献２「Ｔｏｒｒｅｅｔ
ａｌ．，“Ｄｉｓｃｒｉｍｉｎａｔｉｖｅｔｒａｉｎ
ｉｎｇｏｆｇａｒｂａｇｅｍｏｄｅｌｆｏｒｎ
ｏｎ−ｖｏｃａｂｕｌａｒｙｕｔｔｅｒａｎｃｅｒｅ
ｊｅｃｔｉｏｎ”，Ｐｒｏｃ．ＩＣＳＬＰ９４，Ｖｏ
ｌ．Ｉ，ｐｐ．４７５−４７８，１９９４年」において
報告されている。

【０００４】

【発明が解決しようとする課題】しかしながら、これら
の従来例の方法では、学習に際して大量の音声サンプル
を用いるため、登録語の語彙の変更毎に音声サンプルの
収集、切り出し等の工程が必要であり、迅速な登録語の
語彙の変更は原理的に不可能であった。

【０００５】本発明の目的は以上の問題点を解決し、従
来例に比較して容易にかつ迅速に登録語の語彙を変更し
てＨＭＭを学習することができるＨＭＭの学習装置及び
その学習装置によって学習されたＨＭＭを用いて音声認
識する音声認識装置を提供することにある。

【０００６】

【課題を解決するための手段】本発明に係る請求項１記
載の隠れマルコフモデルの学習装置は、多次元一様乱数
を発生する乱数発生手段と、上記乱数発生手段によって
発生された多次元一様乱数を、予め登録された登録語を
認識するための所定の単語隠れマルコフモデルの多次元
ガウス分布に従う複数のガウス乱数に変換して、変換さ
れた複数のガウス乱数を複数の特徴パラメータである擬
似的な単語学習データとして出力するデータ生成手段
と、上記データ生成手段から出力された擬似的な単語学
習データと、上記単語隠れマルコフモデルに基づいて、
所定のコスト関数の関数値が最小となるように、予め登
録されない未登録語を検出するためのガーベジ隠れマル
コフモデルの複数のパラメータを更新することにより上
記ガーベジ隠れマルコフモデルの複数のパラメータを学
習する学習手段とを備えたことを特徴とする。

【０００７】また、請求項２記載の隠れマルコフモデル
の学習装置は、請求項１記載の隠れマルコフモデルの学
習装置において、上記コスト関数は、認識対象の単語に
ついて、上記単語学習データと上記単語隠れマルコフモ
デルとに基づいて計算された音声認識のためのスコア
と、上記単語学習データと上記ガーベジ隠れマルコフモ
デルとに基づいて計算された音声認識のためのスコアと
に基づいて計算された、発声された単語が認識されない
誤りの発生可能性を示す指標値と、認識対象の単語につ
いて、認識対象の単語を除く上記単語学習データと上記
単語隠れマルコフモデルとに基づいて計算された音声認
識のためのスコアと、上記単語学習データと上記ガーベ
ジ隠れマルコフモデルとに基づいて計算された音声認識
のためのスコアとに基づいて計算された、発声されてい
ない単語が認識結果に現れる誤りの発生可能性を示す指
標値と、を加算することにより計算される関数であるこ
とを特徴とする。

【０００８】さらに、請求項３記載の隠れマルコフモデ
ルの学習装置は、請求項２記載の隠れマルコフモデルの
学習装置において、上記音声認識のための尤度を示すス
コアは、ビタビ復号化法によって計算されたスコアであ
ることを特徴とする。

【０００９】また、本発明に係る音声認識装置は、請求
項１、２又は３記載の隠れマルコフモデルの学習装置
と、入力された発声音声文の音声信号に基づいて、予め
登録された登録語を認識するための単語隠れマルコフモ
デルと、上記隠れマルコフモデルの学習装置によって学
習され予め登録されない未登録語を検出するためのガー
ベジ隠れマルコフモデルとを用いて音声認識して音声認
識結果を出力する音声認識手段を備えたことを特徴とす
る。

【００１０】

【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。本発明では、迅速かつ容
易に登録語の語彙セットの変更を可能とするべく、登録
語の語彙セットの変更時に新たな音声サンプルの収集や
加工が不要なガーベジＨＭＭ１２の学習法として擬似的
な単語学習データ（以下、単語学習データ）を用いてガ
ーベジＨＭＭを学習するＭＥ学習法を用いることを特徴
とする。ここで、擬似的な単語学習データは、前後音素
環境を考慮した音素ＨＭＭ（以下、ＣＤ音素ＨＭＭ）で
ある所定の単語ＨＭＭ１１と、デジタル電子計算機によ
って発生させた一様乱数をもとに生成する。

【００１１】図１は本発明に係る一実施形態である音声
認識装置のブロック図であり、単語照合部４で用いる登
録語スポッティングアルゴリズムは、ワン−パス・ビタ
ビ復号化法（Ｏｎｅ−ｐａｓｓＶｉｔｅｒｂｉｄｅ
ｃｏｄｉｎｇ）に基づくものである。音響モデルとして
は、図９に示すように、ＣＤ音素ＨＭＭの連結によって
構成される各登録語に関するＨＭＭと、それぞれ１状態
の無音ＨＭＭ及びガーベジＨＭＭを用いる。ここで、予
め登録される複数の登録語を認識するための各登録語に
関するＨＭＭと無音ＨＭＭは、図１の単語ＨＭＭ１１の
メモリに格納される一方、予め登録されない未登録語を
検出するためのガーベジＨＭＭは図１のガーベジＨＭＭ
１２のメモリに格納される。これらのＨＭＭ１１，１２
のメモリは例えばハードディスクメモリで構成される。

【００１２】上記単語ＨＭＭ１１は、図８（ａ）に示す
状態間の接続関係を有し、図８（ｂ）に示す情報構造を
有する。単語ＨＭＭ１１は、図８（ａ）に示すように、
複数ｎ個の状態が縦続に接続された状態遷移で表され、
各状態で自己ループを有する。そして、単語ＨＭＭ１１
の各状態は、図８（ｂ）に示すように、自己ループ確率
と、状態遷移確率及び出力分布のデータとを含み、出力
分布のデータは、多次元ガウス分布番号、混合重み、次
元番号、各次元に対応する平均値と分散値を含む。ここ
で、多次元ガウス分布とは、例えば、１６次元ＬＰＣケ
プストラム、１６次元Δケプストラム、対数パワー、Δ
対数パワーを含む３４次元の特徴パラメータに関するガ
ウス分布である。

【００１３】図２に、図１のＨＭＭ学習部２０によって
実行されるガーベジＨＭＭ学習処理を示す。ＣＤ音素Ｈ
ＭＭと無音ＨＭＭとを含む単語ＨＭＭ１１と、ガーベジ
ＨＭＭ１２は公知のバーム・ウェルチ（Ｂａｕｍ−Ｗｅ
ｌｃｈ）アルゴリズムによって予めそのパラメータが学
習されて初期パラメータが設定され、ガーベジＨＭＭ１
２のみが図２の処理によってＭＥ学習法により再学習さ
れる。

【００１４】図２に示すように、まず、ステップＳ１に
おいて、擬似的な単語学習データを作成するための単語
学習データ作成処理が実行される。ここでは、単語学習
データは、認識対象の各単語について、単語ＨＭＭ１１
内の各単語ＨＭＭが持つ情報をもとに生成する。具体的
には、各単語について、デジタル電子計算機によって発
生された一様疑似乱数を、単語ＨＭＭの状態遷移規則
と、各状態の混合重み分布とによって決定される多次元
ガウス分布に従う乱数に変換し出力する手続きを、各単
語ＨＭＭの最終状態に至るまで繰り返すことで実現す
る。

【００１５】次いで、ステップＳ２では、作成された単
語学習データに基づいて、以下に詳細後述する認識誤り
発生可能性の指標値に対応するように定義されたコスト
関数の関数値が最小値（実際には、局所的最小値）とな
るように、ガーベジＨＭＭ１２の各パラメータを逐次的
に更新して新たなガーベジＨＭＭを得る。実際には、複
数の単語学習データセットを用意し、各単語学習データ
セットについてのコストの平均値を最小化するように学
習を進める。

【００１６】ステップＳ２で用いるコスト関数は、単語
学習データと単語ＨＭＭ１１及び、未登録語の検出のた
めのＨＭＭであるガーベジＨＭＭ１２とを用いてビタビ
（Ｖｉｔｅｒｂｉ）のスコアの差に基づいて計算され
る、認識誤り発生可能性の指標値として定義する。認識
誤りとしては、発声された単語が認識されない誤り（す
なわち、単語脱落誤り）と、発声されていない単語が認
識結果に現れる誤り（すなわち、単語湧きだし誤り）が
あり、それぞれの誤り発生可能性指標値の計算は詳細後
述する方法で計算される。上記コスト関数Ｃは次の数１
で表される。

【００１７】

【数１】

【００１８】ここで、Ｅ（Δ）は次の数２で表されるシ
グモイド関数を示す。

【数２】Ｅ（Δ）＝１／（１＋ｅｘｐ（−αΔ））

【００１９】また、Ｐ（Ｓ，ｘ）は次の数３で表される
関数であって、単語学習データｘに対するＨＭＭｓのビ
タビのスコアＶ（ｓ，ｘ）の最大値を示す。

【数３】

【００２０】さらに、ｇｈωは次の数４で表される関数
であって、ビタビのスコアＶ（ω，ｗ）を最大するとき
の引数である。

【数４】

【００２１】さらに、以下の通りである。Ｗ：単語学習データの集合、｜Ｗ｜：単語学習データの集合の単語数、 Ω：単語ＨＭＭ１１の集合、｜Ω｜：単語ＨＭＭ１１の集合の単語数、 γ：ガーベジＨＭＭ１２の集合、Ｖ（ｓ，ｘ）：単語学習データｘに対するＨＭＭｓのビ
タビのスコア、ｈ：単語学習データの集合Ｗの各要素（すなわち、各単
語学習データ）を、対応する単語ＨＭＭ１１の集合Ωの
各要素（すなわち、単語ＨＭＭ１１内の各ＨＭＭ）に写
す全単射。

【００２２】ステップＳ２におけるコストの最小化処理
においては、ガーベジＨＭＭ１２の各パラメータθ（す
なわち、平均、分散、混合重み）は、コスト関数値が収
束に至るまで、次の数５によって逐次更新される。

【００２３】

【数５】 θ⁽ⁱ⁾＝θ^(i-1)−β［∂Ｃ／∂θ］（θ＝θ^(i-1)）

【００２４】ここで、θ⁽ⁱ⁾はｉ回目の更新によって得
られたパラメータであり、βは学習定数であって、例え
ば０．１乃至０．５の値をとる。また、数５の右辺の第
２項の［∂Ｃ／∂θ］（θ＝θ^(i-1)）は、θ＝θ^(i-1)
のときの［∂Ｃ／∂θ］である。

【００２５】図３は、図２の単語学習データ生成処理
（ステップＳ１）を示すフローチャートである。図３に
示すように、ステップＳ１１において単語番号ｊに１が
セットされ、ステップＳ１２において、詳細後述する単
語番号ｊの単語（以下、単語＃ｊという。）に関する特
徴パラメータ列生成処理が実行される。次いで、ステッ
プＳ１３において生成した特徴パラメータ列の音素継続
時間をチェックし、ステップＳ１４において当該音素継
続時間が正常か否か判断される。このときの具体的な判
断基準は、母音の場合は２０ミリ秒以下を正常と判断
し、子音の場合は１０ミリ秒以下を正常と判断した。音
素継続時間が正常であれば、ステップＳ１５において生
成した特徴パラメータ列をワーキングメモリ２１に出力
して一時的に格納し、ステップＳ１６で単語番号ｊを１
つだけインクリメントしてステップＳ１７に進む。ステ
ップＳ１７では、すべての単語について単語学習データ
の生成が完了したか否かが判断され、否のときは、ステ
ップＳ１２に戻って上記の処理を繰り返し、完了してい
るときは当該単語学習データ生成処理を終了する。な
お、ステップＳ１４で音素継続時間が正常でないと判断
されたときは、生成した特徴パラメータ列を出力するこ
となく取り除き、別の一様乱数を発生して別の特徴パラ
メータ列を発生するために、ステップＳ１２に戻り上述
の処理を繰り返す。

【００２６】図４は、図３の単語＃ｊの特徴パラメータ
列生成処理（ステップＳ１２）を示すフローチャートで
ある。図４に示すように、まず、ステップＳ２１で状態
番号ｉに１をセットし、ステップＳ２２でＨＭＭ学習部
２０であるデジタル電子計算機によって発生された一様
乱数（当該一様乱数は、０から１までの間の値であ
る。）と状態番号ｉの状態（以下、状態＃ｉという。）
の混合重み分布に従って単語ＨＭＭ１１内の単語＃ｊの
多次元ガウス分布番号ｊを決定する。すなわち、単語＃
ｊの複数個の多次元ガウス分布の混合分布の総和は１で
あるので、発生された一様乱数の値が、各多次元ガウス
分布の混合重みの累積加算値に該当するか否かを判断す
ることにより、単語＃ｊの多次元ガウス分布番号ｊを決
定する。例えば、多次元ガウス分布番号＃２における混
合重みの累積加算値は、多次元ガウス分布番号＃２にお
ける混合重みと、多次元ガウス分布番号＃１における混
合重みとを加算した値であり、発生された一様乱数が多
次元ガウス分布番号＃１における混合重みを超え、多次
元ガウス分布番号＃２における混合重みの累積加算値以
下のときに、ｊ＝２と決定する。

【００２７】次いで、ステップＳ２３では、上記デジタ
ル電子計算機によって発生された多次元一様乱数を、単
語ＨＭＭ１１内の単語＃ｊのガウス分布番号ｊの多次元
ガウス分布（以下、多次元ガウス分布＃ｊという。）に
従う複数のガウス乱数（正規乱数ともいう。）に変換
し、その結果を特徴パラメータ列としてワーキングメモ
リ２１に出力する。ここで、多次元ガウス分布＃ｊに従
うガウス乱数とは、ガウス分布の平均、分散及び形状が
同一であるガウス乱数である。

【００２８】さらに、ステップＳ２４において、上記デ
ジタル電子計算機によって発生された一様乱数と、単語
ＨＭＭ１１内の単語＃ｊの状態＃１の遷移確率とに基づ
いて状態遷移の有無を決定する。すなわち、発生された
一様乱数が遷移確率以下であるときに、状態遷移すると
判断し、発生された一様乱数が遷移確率を超えるときに
状態遷移しないと判断する。次いで、ステップＳ２５で
は、状態遷移するか否かが判断され、状態遷移しない場
合は、自己ループとして判断し、別の一様乱数を発生し
て別の特徴パラメータ列を発生するためにステップＳ２
２に戻る。一方、ステップＳ２５で状態遷移すると判断
されたときは、ステップＳ２６で状態番号ｉを１だけイ
ンクリメントしてステップＳ２７で状態＃ｉが当該ＨＭ
Ｍの最終状態であるか否かが判断され、最終状態でない
ときは、ステップＳ２２に戻って、次の状態について上
述の処理を繰り返し、最終状態であるときは図１２のメ
インルーチンに戻る。

【００２９】図５は、図２のステップＳ２において実行
されるサブルーチンであるコスト関数計算処理を示すフ
ローチャートである。図５に示すように、まず、ステッ
プＳ３１において後述の単語脱落誤り発生可能性指標値
計算処理を実行し、ステップＳ３２において単語湧き出
し誤り発生可能性指標値計算処理を実行し、ステップＳ
３３において、ステップＳ３１で計算されて計算バッフ
ァＢｕｆｆ１に格納された値と、ステップＳ３２で計算
されて計算バッファＢｕｆｆ２に格納された値とを加算
して加算結果をコスト関数値Ｃとする。

【００３０】図６は、図５の単語脱落誤り発生可能性指
標値計算処理を示すフローチャートである。この処理で
は、各認識対象単語について、擬似的な単語学習データ
と単語ＨＭＭ１１内の当該単語のＨＭＭとに基づいてビ
タビのスコアを計算するとともに、擬似的な単語学習デ
ータとガーベジＨＭＭ１２とに基づいてビタビのスコア
を計算し、ガーベジＨＭＭ１２によるビタビのスコアか
ら当該単語のＨＭＭによるビタビのスコアを引いたもの
をシグモイド関数によって平滑化し、上記平滑化した値
の総和を、認識対象単語数で割って正規化して、単語脱
落誤り発生可能性指標値とする。

【００３１】図６に示すように、ステップＳ４１で計算
バッファＢｕｆｆ１に０がセットされ、ステップＳ４２
で単語番号ｊに１がセットされた後、ステップＳ４３に
おいて、数１の右辺の第１項内のΣより右側部分であ
る、ガーベジＨＭＭ１２によるビタビのスコアから当該
単語のＨＭＭによるビタビのスコアを引いたものを計算
し、当該計算値を計算バッファＢｕｆｆ１の値に加算し
て、その加算結果を計算バッファＢｕｆｆ１の値として
更新する。そして、ステップＳ４４で、単語番号ｊを１
だけインクリメントして、ステップＳ４５ですべての単
語についてステップＳ４３の処理が終了したか否かが判
断され、完了していないときはステップＳ４３に戻って
上述の処理を繰り返し、終了しているときはステップＳ
４６に進む。ステップＳ４６では、計算バッファＢｕｆ
ｆ１の値を単語学習データの集合の単語数で割って、除
算の結果を計算バッファＢｕｆｆ１に格納する。最後
に、ステップＳ４７では、計算バッファＢｕｆｆ１の値
を、数１の右辺の第１項に対応する単語脱落誤り発生可
能性指標値としてワーキングメモリ２１に出力して格納
する。

【００３２】図７は、図５の単語脱落湧き出し誤り発生
可能性指標値計算処理を示すフローチャートである。こ
の処理では、各認識対象単語について、当該単語を除く
すべての単語学習データと、単語ＨＭＭ１１内の当該単
語のＨＭＭに基づいてビタビのスコアを計算し、これら
計算された中で最大のビタビのスコアを与える単語学習
データｇｈωおよびそのスコアｙを記憶し、さらに単語
学習データｇｈωとガーベジＨＭＭ１２に基づいてビタ
ビのスコアｚを計算し、スコアｙからガーベジＨＭＭ１
２に基づいて計算されたビタビのスコアｚを引いたもの
をシグモイド関数によって平滑化し、上記平滑化した値
の総和を、認識対象単語数で割って正規化して、単語湧
きだし誤り発生可能性指標値とする。

【００３３】図７に示すように、ステップＳ５１で計算
バッファＢｕｆｆ２に０がセットされ、ステップＳ５２
で単語番号ｊに１がセットされた後、ステップＳ５３で
は、単語ＨＭＭ１１内の単語＃ｊのＨＭＭ（以下、単語
ＨＭＭ＃ｊという。）と、当該単語＃ｊを除く各単語学
習データに基づいて各ビタビのスコアを計算し、これら
の計算されたスコアの中で最大値を与える単語学習デー
タｇｈωを選択してワーキングメモリ２１に格納する。
次いで、ステップＳ５４では、最大値を与える単語学習
データｇｈωとガーベジＨＭＭ１２に基づいてビタビの
スコアｚを計算し、数１の右辺の第２項内のΣより右側
部分である、最大のビタビのスコアｙからガーベジＨＭ
Ｍ１２に基づいて計算されたビタビのスコアｚを引いた
ものを計算し、当該計算値を計算バッファＢｕｆｆ２の
値に加算して、その加算結果を計算バッファＢｕｆｆ２
の値として更新する。そして、ステップＳ５４で、単語
番号ｊを１だけインクリメントして、ステップＳ５５で
すべての単語についてステップＳ５３及びＳ５４の処理
が終了したか否かが判断され、完了していないときはス
テップＳ５３に戻って上述の処理を繰り返し、終了して
いるときはステップＳ５７に進む。ステップＳ５７で
は、計算バッファＢｕｆｆ２の値を単語ＨＭＭ１１の集
合の単語数で割って、除算の結果を計算バッファＢｕｆ
ｆ２に格納する。最後に、ステップＳ５８では、計算バ
ッファＢｕｆｆ２の値を、数１の右辺の第２項に対応す
る単語湧き出し誤り発生可能性指標値としてワーキング
メモリ２１に出力して格納する。

【００３４】次いで、上述の方法で再学習されたガーベ
ジＨＭＭ１２と、単語ＨＭＭ１１とを用いて音声認識を
行う単語認識のための音声認識装置について図１を参照
して説明する。

【００３５】図１において、ＨＭＭ学習部２０は、擬似
的な単語学習データと、単語ＨＭＭ１１に基づいてガー
ベジＨＭＭ１２を再学習して、ガーベジＨＭＭ１２のメ
モリに格納する。一方、話者の発声音声はマイクロホン
１に入力されて音声信号に変換された後、特徴抽出部２
に入力される。特徴抽出部２は、入力された音声信号を
Ａ／Ｄ変換した後、例えばＬＰＣ分析を実行し、対数パ
ワー、１６次ケプストラム係数、Δ対数パワー及び１６
次Δケプストラム係数を含む３４次元の特徴パラメータ
を抽出する。抽出された特徴パラメータの時系列はバッ
ファメモリ３を介して単語照合部４に入力される。

【００３６】単語照合部４は、バッファメモリ３に格納
された特徴パラメータの時系列データに基づいて、公知
のワン−パス・ビタビ復号化方法により、登録語の認識
のための単語ＨＭＭ１１と、未登録語の検出のためのガ
ーベジＨＭＭ１２とを用いて、単語照合区間内のデータ
に対するビタビのスコアが計算され、最大のビタビのス
コアに対応する単語を認識単語列として出力する。

【００３７】以上の実施形態において、単語照合部４及
びＨＭＭ学習部２０は、例えばデジタル電子計算機で構
成される。

【００３８】

【実施例】本発明者は、本実施形態のＨＭＭ学習部２０
の有効性を確認するために以下のように実験を行った。
その実験条件を表１に示す。ＣＤ音素ＨＭＭとしては、
複数の話者適応された隠れマルコフ網（以下、ＨＭ網と
いう。）の合成によって得られた２００状態の話者不特
定ＨＭ網を用いた。スポッティングの対象語彙として、
ホテル予約等のトラベル・プランニングをタスクとする
本特許出願人が所有する自然発声対話コーパス（従来文
献３「Ｍｏｒｉｍｏｔｏｅｔａｌ．，“Ａｓｐｅ
ｅｃｈａｎｄｌａｎｇｕａｇｅｄａｔａｂａｓｅ
ｆｏｒｓｐｅｅｃｈｔｒａｎｓｌａｔｉｏｎｒ
ｅｓｅａｒｃｈ”，Ｐｒｏｃ．ＩＣＳＬＰ９４，Ｖｏ
ｌ．ＩＶ，ｐｐ．１７９１−１７９４，１９９４年」参
照。）の中から２０単語を選択した。

【００３９】

【表１】実験条件 ─────────────────────────────────── 音響解析条件サンプリング周波数＝１２ｋＨｚサンプリングのビット数＝１６ビットプリエンファシス＝１−０．９７ｚ^-1 ハミング窓＝２０ミリ秒フレームシフト＝５ミリ秒特徴パラメータ＝１６次元ＬＰＣケプストラム＋１６次元Δケプストラム＋パワー＋Δパワー ─────────────────────────────────── ＨＭＭのトポロジー単語ＨＭＭ：３状態又は４状態、５混合無音ＨＭＭ：１状態、１０混合ガーベジＨＭＭ；：１状態、２０混合 ───────────────────────────────────

【００４０】ＭＥ学習法による学習処理においては、出
来るかぎり良い初期モデルから学習を始めることが重要
である。本実験では、初期ガーベジＨＭＭを、複数の話
者特定モデルの合成によって作成した。本方法は、音響
的特徴、話者性それぞれに対する分解能を確保するべく
複数のＨＭＭを作成した上で、それらを所望の混合数を
持つ１つのＨＭＭに合成するものである。

【００４１】単語学習データとして、全語彙の擬似的な
単語学習データを２０組生成した。学習に際しては、未
登録語に対応する学習データも必要である。未登録語に
関する統計的な言語データが利用可能な場合は、未登録
語を普遍的に表現する言語モデルを作成し、その上で上
述のデータ生成方法を適用することにより、未登録語に
関する単語学習データを生成することができる。本実験
では、これらの言語データが利用できない場合の本方法
の適用例として、擬似的な単語学習データの中から未登
録語に関する単語学習データの代用となるものを選択し
て使用する方法をとった。つまり、数１の各登録語毎の
単語湧きだし誤り可能性指標値の計算において、未登録
語に関する単語学習データの代用として、当該登録語を
除く擬似的な単語学習データのうち、当該登録語ＨＭＭ
に対して最大のビタビのスコアを与えるものを用いた。
これにより、ガーベジＨＭＭ１２は、各単語学習データ
に対して、正解の単語ＨＭＭより低いスコアを、不正解
の単語ＨＭＭよりも高いスコアを与えるように学習され
る。

【００４２】そして、作成済みの初期ガーベジＨＭＭを
上述の学習方法により再学習した。本実験では、平均と
混合重みについてパラメータの更新を行った。コスト関
数値が収束に至るまでの繰り返し計算回数は２０であっ
た。

【００４３】次いで、スポッティング実験と結果につい
て述べる。再学習済みのガーベジＨＭＭを用い、男女各
１名の話者について、話者オープンの登録語スポッティ
ング実験を行った。テストデータとして、前述の自然発
声対話コーパス中から、４対話を選んだ。総発話数は６
０であり、登録語の延べ出現回数は２２であった。図１
０に示すように、本発明の方法でＭＥ再学習されたガー
ベジＨＭＭ１２を用いることにより、初期ガーベジＨＭ
Ｍを用いた場合と比較して、登録語の脱落率に対する単
語誤りの湧き出し率特性が向上した。この結果から、本
発明の学習方法が、代用的な未登録語に関する単語学習
データを用いた場合でさえ、スポッティング性能の向上
に有効であることがわかる。

【００４４】以上説明したように、本実施形態によれ
ば、一様乱数に基づいて発生された擬似的な単語学習デ
ータを生成して、それに基づいてガーベジＨＭＭ１２を
再学習するので、推定対象の単語について、新たな学習
データ用音声サンプルの収集や加工などの作業が不要な
ために、登録語の語彙セットの変更に要する時間及びコ
ストが大幅に軽減される。従って、従来例に比較して容
易にかつ迅速に登録語の語彙セットを変更してガーベジ
ＨＭＭ１２を再学習することができる。また、再学習さ
れたガーベジＨＭＭ１２を用いて音声認識した場合、従
来例とほぼ同等の音声認識率で音声認識することができ
る。

【００４５】

【発明の効果】以上詳述したように本発明に係る隠れマ
ルコフモデルの学習装置によれば、多次元一様乱数を発
生する乱数発生手段と、上記乱数発生手段によって発生
された多次元一様乱数を、予め登録された登録語を認識
するための所定の単語隠れマルコフモデルの多次元ガウ
ス分布に従う複数のガウス乱数に変換して、変換された
複数のガウス乱数を複数の特徴パラメータである擬似的
な単語学習データとして出力するデータ生成手段と、上
記データ生成手段から出力された擬似的な単語学習デー
タと、上記単語隠れマルコフモデルに基づいて、所定の
コスト関数の関数値が最小となるように、予め登録され
ない未登録語を検出するためのガーベジ隠れマルコフモ
デルの複数のパラメータを更新することにより上記ガー
ベジ隠れマルコフモデルの複数のパラメータを学習する
学習手段とを備える。従って、一様乱数に基づいて発生
された擬似的な単語学習データを生成して、それに基づ
いてガーベジ隠れマルコフモデルを再学習するので、推
定対象の単語について、新たな学習データ用音声サンプ
ルの収集や加工などの作業が不要なために、登録語の語
彙の変更に要する時間及びコストが大幅に軽減される。
従って、従来例に比較して容易にかつ迅速に登録語の語
彙を変更してガーベジ隠れマルコフモデルを再学習する
ことができる。

【００４６】また、本発明に係る音声認識装置によれ
ば、上記隠れマルコフモデルの学習装置と、入力された
発声音声文の音声信号に基づいて、予め登録された登録
語を認識するための単語隠れマルコフモデルと、上記隠
れマルコフモデルの学習装置によって学習され予め登録
されない未登録語を検出するためのガーベジ隠れマルコ
フモデルとを用いて音声認識して音声認識結果を出力す
る音声認識手段を備える。従って、従来例に比較して容
易にかつ迅速に再学習されたガーベジ隠れマルコフモデ
ルを用いて、従来例とほぼ同等の音声認識率で音声認識
することができる。

【図面の簡単な説明】

【図１】本発明に係る一実施形態である音声認識装置
のブロック図である。

【図２】図１のＨＭＭ学習部２０によって実行される
ガーベジＨＭＭ学習処理を示すフローチャートである。

【図３】図２のサブルーチンである単語学習データ生
成処理を示すフローチャートである。

【図４】図３のサブルーチンである特徴パラメータ列
生成処理を示すフローチャートである。

【図５】図２のステップＳ２において実行されるサブ
ルーチンであるコスト関数計算処理を示すフローチャー
トである。

【図６】図５のサブルーチンである単語脱落誤り発生
可能性指標値計算処理を示すフローチャートである。

【図７】図５のサブルーチンである単語湧き出し誤り
可能性指標値計算処理を示すフローチャートである。

【図８】単語ＨＭＭの構造を示す図であって、（ａ）
は単語ＨＭＭにおける状態間の接続関係を示す状態遷移
図であり、（ｂ）は単語ＨＭＭの情報構造を示す図であ
る。

【図９】図１の音声認識装置で用いるスポッティング
用言語モデルを示す状態遷移図である。

【図１０】図１の音声認識装置の実験で得られた登録
語の脱落率に対する湧き出し率を示すグラフである。

【符号の説明】

１…マイクロホン、２…特徴抽出部、３…バッファメモリ、４…単語照合部、１１…単語ＨＭＭ、１２…ガーベジＨＭＭ、２０…ＨＭＭ学習部、２１…ワーキングメモリ。

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開平４−121795（ＪＰ，Ａ) 電子情報通信学会技術研究報告［音声］ＳＰ95−107，ｐ．99〜104，（平成７年12月) 日本音響学会講演論文集（平成７年９月）１−Ｑ−20，ｐ．177〜178 (58)調査した分野(Int.Cl.⁶，ＤＢ名) G10L 3/00 535 G10L 3/00 521 G10L 3/00 531 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】多次元一様乱数を発生する乱数発生手段
と、上記乱数発生手段によって発生された多次元一様乱数
を、予め登録された登録語を認識するための所定の単語
隠れマルコフモデルの多次元ガウス分布に従う複数のガ
ウス乱数に変換して、変換された複数のガウス乱数を複
数の特徴パラメータである擬似的な単語学習データとし
て出力するデータ生成手段と、上記データ生成手段から出力された擬似的な単語学習デ
ータと、上記単語隠れマルコフモデルに基づいて、所定
のコスト関数の関数値が最小となるように、予め登録さ
れない未登録語を検出するためのガーベジ隠れマルコフ
モデルの複数のパラメータを更新することにより上記ガ
ーベジ隠れマルコフモデルの複数のパラメータを学習す
る学習手段とを備えたことを特徴とする隠れマルコフモ
デルの学習装置。
【請求項２】上記コスト関数は、認識対象の単語について、上記単語学習データと上記単
語隠れマルコフモデルとに基づいて計算された音声認識
のためのスコアと、上記単語学習データと上記ガーベジ
隠れマルコフモデルとに基づいて計算された音声認識の
ためのスコアとに基づいて計算された、発声された単語
が認識されない誤りの発生可能性を示す指標値と、認識対象の単語について、認識対象の単語を除く上記単
語学習データと上記単語隠れマルコフモデルとに基づい
て計算された音声認識のためのスコアと、上記単語学習
データと上記ガーベジ隠れマルコフモデルとに基づいて
計算された音声認識のためのスコアとに基づいて計算さ
れた、発声されていない単語が認識結果に現れる誤りの
発生可能性を示す指標値と、を加算することにより計算
される関数であることを特徴とする請求項１記載の隠れ
マルコフモデルの学習装置。
【請求項３】上記音声認識のための尤度を示すスコア
は、ビタビ復号化法によって計算されたスコアであるこ
とを特徴とする請求項２記載の隠れマルコフモデルの学
習装置。
【請求項４】請求項１、２又は３記載の隠れマルコフ
モデルの学習装置と、入力された発声音声文の音声信号に基づいて、予め登録
された登録語を認識するための単語隠れマルコフモデル
と、上記隠れマルコフモデルの学習装置によって学習さ
れ予め登録されない未登録語を検出するためのガーベジ
隠れマルコフモデルとを用いて音声認識して音声認識結
果を出力する音声認識手段を備えたことを特徴とする音
声認識装置。