JP3033514B2

JP3033514B2 - 大語彙音声認識方法及び装置

Info

Publication number: JP3033514B2
Application number: JP9080547A
Authority: JP
Inventors: 健一磯
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1997-03-31
Filing date: 1997-03-31
Publication date: 2000-04-17
Anticipated expiration: 2017-03-31
Also published as: EP0869478A2; US6092042A; EP0869478A3; JPH10274995A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、未知入力音声を認
識する音声認識方法及び装置に関し、特に、多数の単語
を認識できる大語彙音声認識方法及び装置に関する。

【０００２】

【従来の技術】大語彙音声認識方法として、「三つ組音
素(triphone)ＨＭＭ（隠れマルコフモデル：Hidden Mar
kov Model）」を用いる方法が広く用いられている。こ
の方法は、隠れマルコフモデル（以下、ＨＭＭとする）
による方法であって、認識単位として、音素単位をその
音素の単語（あるいは文）中における前後に隣接する音
素毎に別々に用意した「三つ組音素単位」を用いるもの
である。この「三つ組音素ＨＭＭ」に関しては文献「音
声認識の基礎（上・下）、ＮＴＴアドバンステクノロジ
株式会社、ISBN-4-900886-01-7」または文献「Fundamen
tals of Speech Recognition, Prentice Hall, ISBN-0-
13-015157-2」に詳しく解説されている。

【０００３】

【発明が解決しようとする課題】しかしながら、三つ組
音素ＨＭＭによる音声認識では、ＨＭＭの種類数が音素
の種類数の３乗ほども存在し、限られた少ない学習用音
声データからすべての三つ組音素ＨＭＭを正確に推定す
ることは困難であるという問題点がある。そこで、上述
した文献などに詳しく述べられているように、三つ組音
素ＨＭＭの種類数を削減するために、トップダウンやボ
トムアップのクラスタリングなどが用いられている。こ
のようにしてＨＭＭの種類数を削減した場合には、ＨＭ
Ｍとしての最適性も保証されず、また不確実な音素に関
する知識を援用するなどの問題点が生じる。

【０００４】本発明の目的は、三つ組音素などの認識単
位の設定を行うことなしに、音素の環境依存性も考慮し
て高精度に不定話者の音声認識を行うことができる大語
彙音声認識方法及び装置を提供することにある。

【０００５】

【課題を解決するための手段】本発明の大語彙音声認識
方法は、特徴ベクトル時系列で表された未知入力音声を
認識する音声認識方法において、複数の認識対象単語の
音素記号列を記憶するとともに、Ｎ個の順序付けられた
状態の間のＮ×Ｎ個の相互の状態遷移に付随する遷移確
率と、各状態遷移に付随する音素記号の出力確率と特徴
ベクトルの出力確率を記憶し、エルゴディック隠れマル
コフモデルにより、未知入力音声の特徴ベクトル時系列
と認識対象単語仮説の音素記号列の組に対する確率を算
出し、すべての認識対象単語中で最大確率の単語を認識
結果として出力する。

【０００６】本発明の大語彙認識装置は、特徴ベクトル
時系列で表された未知入力音声を認識する音声認識装置
において、複数の認識対象単語の音素記号列を記憶する
単語辞書部と、Ｎ個の順序付けられた状態の間のＮ×Ｎ
個の相互の状態遷移に付随する遷移確率を格納する遷移
確率記憶部と、各状態遷移に付随する音素記号の出力確
率と特徴ベクトルの出力確率を記憶する出力確率記憶部
と、未知入力音声の特徴ベクトル時系列と認識対象単語
仮説の音素記号列の組に対する確率を算出する単語照合
部と、すべての認識対象単語中で最大確率の単語を認識
結果として出力する認識結果出力部と、を有する。

【０００７】本発明においては、各状態遷移に付随する
話者クラスタ番号をも記憶させ、確率として、未知入力
音声の特徴ベクトル時系列と認識対象単語仮設の音素記
号列と話者クラスタ番号仮設との組に対する確率を算出
し、すべての認識対象単語および話者クラスタ番号の中
で最大確率を与える単語を出力するようにしてもよい。

【０００８】本発明による音声認識方法及び装置が従来
法と比べたときに大きく異なる点は、従来法ではＨＭＭ
において出力されるものが特徴ベクトルのみであったの
に対して、本発明では、特徴ベクトルに加えて、音素記
号もＨＭＭによって出力される点である。さらに、請求
項２あるいは４の場合には、話者クラスタ番号もＨＭＭ
によって出力される。また従来法では、認識対象単語ご
とにそれぞれ三つ組音素ＨＭＭを連結した単語ＨＭＭを
別々に構築して標準パターンとしていたが、本発明では
ただ一つのエルゴディックＨＭＭを標準パターンとして
すべての認識対象単語で共用している。これにより、モ
デルパラメータの最適かつ自然な共有化が行われる。

【０００９】

【発明の実施の形態】次に、本発明の実施の形態につい
て、図面を参照して説明する。図１は本発明の実施の一
形態の音声認識装置の構成を示すブロック図である。

【００１０】この音声認識装置は、特徴ベクトルの時系
列で表された未知入力音声を認識するものであって、複
数の認識対象単語の音素記号列を記憶する単語辞書部１
０と、Ｎ個の順序付けられた状態の間のＮ×Ｎ個の相互
の状態遷移に付随する遷移確率を格納する遷移確率記憶
部２０と、各状態遷移に付随する音素記号の出力確率と
特徴ベクトルの出力確率を記憶する出力確率記憶部３０
と、未知入力音声の特徴ベクトル時系列と認識対象単語
仮説の音素記号列の組に対する確率を算出する単語照合
部４０と、すべての認識対象単語中で最大確率の単語を
認識結果として出力する認識結果出力部５０とを備えて
いる。

【００１１】入力音声は特徴ベクトルｘ_tの時系列Ｘ＝ｘ₁ｘ₂…ｘ_t…ｘ_T で表される。ここで特徴ベクトルｘ_tはたとえば１０次
元のケプストラム・ベクトルで、添字ｔは時間順序をあ
らわす番号（自然数）である。

【００１２】単語辞書部１０には、認識対象単語それぞ
れの音素記号列が記憶されている。ここで音素記号は、
音節など、認識対象単語を一意に定義できる単語より小
さい記号単位であれば十分である。

【００１３】第ｍ番目の認識対象単語をｗ_mで表わし、
その音素記号列を

【００１４】

【数１】で表わす。ここでＫ_mは音素記号列の長さである。音素
記号の種類数をＮ_P個とし、すべての音素記号を並べて
順番に番号付けを行う。

【００１５】

【表１】すると認識対象単語が「あかい（音素記号では“ａｋａ
ｉ”）」の場合は、Ｐ₁＝１,Ｐ₂＝６,Ｐ₃＝１,Ｐ₄＝２,
Ｋ_m＝４となる。また認識対象単語の総数をＮ_W個とす
る。なおこの実施の形態では、例として音素記号を用い
て単語を表しているが、音節など別の記号体系を用いて
も同様に適用することができる。

【００１６】本実施の形態では、ＨＭＭとして、エルゴ
ード的なマルコフ連鎖を用いたエルゴディックＨＭＭに
より、音声認識を行う。エルゴディックＨＭＭの詳細
は、先に述べた文献中に記載されている。図２は、エル
ゴディックＨＭＭを説明するための図であって、状態１
と状態２の２個の状態とそのすべての状態間の遷移を示
している。図２において、例えばａ₁₂は、状態１から状
態２への状態遷移に付随した遷移確率である。以下にお
いてはより一般的なＮ_S個の状態とその相互間の状態遷
移から構成されるエルゴディックＨＭＭを用いた場合を
説明する。

【００１７】遷移確率記憶部２０には、エルゴディック
ＨＭＭの状態遷移に付随する確率が記憶されている。第
ｉ番目の状態から第ｊ番目の状態への状態遷移に付随す
る遷移確率をａ_ijで表す。遷移確率ａ_ijの値は、確率と
して、下式に示すように、それぞれ値が０以上であり、
かつ総和が１であるという条件を満たしている。

【００１８】

【数２】また各状態の初期確率も遷移確率記憶部２０に記憶して
おく。第ｉ番目の状態の初期確率をπ_iで表す。初期確
率π_iについても以下の条件が成立する。

【００１９】

【数３】出力確率記憶部３０には、状態遷移に付随する音素記号
出力確率および特徴ベクトル出力確率が記憶されてい
る。第ｉ番目の状態から第ｊ番目の状態への状態遷移に
付随する音素記号出力確率をｆ_ij(ｐ)で表す。ここでｐ
は第ｐ番目の音素記号を表わし、音素記号の種類数がＮ
_P個であるので、

【００２０】

【数４】である。例えば、ｆ_ij(１)は、ｉ番目の状態から第ｊ番
目の状態への状態遷移に付随して音素記号ａが出力され
る確率を表わしている。

【００２１】第ｉ番目の状態から第ｊ番目の状態への状
態遷移に付随する特徴ベクトル出力確率をｇ_ij(ｘ)とす
る。この特徴ベクトル出力確率ｇ_ij(ｘ)は、例えば、下
式のような特徴ベクトル出力確率は多次元ガウス分布で
表わすこととする。

【００２２】

【数５】ここで、Ｄは特徴ベクトルの次元数、μ_ijは平均ベクト
ル、Σ_ijは共分散行列である。

【００２３】単語照合部４０では、Ｎ_W個の認識対象単
語のそれぞれに対する確率（すなわち、その認識対象単
語仮説の尤度）が算出される。以下において第ｍ番目の
認識対象単語ｗ_mに対する確率Ｐ(ｗ_m,Ｘ)の対数値を算
出する手順を説明する。なお、上述したように、

【００２４】

【数６】である。

【００２５】対数確率の部分和を次式で定義する。

【００２６】

【数７】この初期化と漸化式によって、第ｔ番目の時刻と、第ｉ
番目の状態と、第ｋ番目の音素記号の３つの添字で指定
される３次元の配列である対数確率の部分和φ_t(ｉ,ｋ)
をすべての時刻

【００２７】

【数８】と、すべての状態

【００２８】

【数９】と、認識対象単語中のすべての音素記号

【００２９】

【数１０】に対して算出する。

【００３０】結果として得られた対数確率の部分和φ
_t(ｉ,ｋ_m)から、次式によって、第ｍ番目の認識対象単
語ｗ_mに対する確率Ｐ(ｗ_m,Ｘ)の対数値が得られる。

【００３１】

【数１１】単語照合部４０は、すべての認識対象単語に対して上記
の対数確率を算出する。この処理の具体的手順の一例を
図３及び図４のフローチャートに示す。ステップ１０１
〜１０８において対数確率の部分和の初期化を行い、ス
テップ１０９〜１３３において漸化式計算を行って確率
の対数値Ｌを算出し、ステップ１３４において対数値Ｌ
を出力している。初期化の過程では、ステップ１０２に
おいて第ｉ番目の初期確率π_iをｔ＝０,ｋ＝１に対応す
るφ(０,ｉ,１)に代入し、ｋが２以上であるときのφ
(０,ｉ,ｋ)にはステップ１０４において−∞を代入して
いる。ここでは、対数確率を扱っているので、−∞は真
数での０に対応する。同様に、ステップ１１３において
も真数０に対応する対数として、Φ(ｔ,ｉ,ｋ)に−∞を
代入している。

【００３２】このようにして、全ての認識対象単語に対
する対数確率が求められたら、認識結果出力部５０は、
これらの対数確率の中で最大値を与える単語

【００３３】

【外１】を認識結果として出力する。すなわち、

【００３４】

【数１２】である。

【００３５】以上、本発明の実施の形態について説明し
たが、本発明は上述したものに限定されるものではな
い。上述した実施の形態では、状態遷移に対して特徴ベ
クトルの出力確率と音素記号の出力確率を付随させてＨ
ＭＭの出力を行ったが、さらに、状態遷移に対して話者
クラスタ番号の出力確率を付随させてもよい。

【００３６】話者クラスタ番号の出力確率を付随させる
場合、話者クラスタ番号の出力確率をｈ_ij(ｑ)で表わ
す。ｑはｑ番目の話者クラスタをあらわし、話者クラス
タの総数がＮ_Q個であるとすると、

【００３７】

【数１３】である。話者クラスタ番号は出力確率記憶部３０内に格
納しておく。対数確率の部分和を４次元の配列として、
前述の初期化・漸化式を次のように拡張する。

【００３８】

【数１４】結果として得られた対数確率の部分和から、次式によっ
て、認識対象単語ｗ_mに対する確率の対数値が得られ
る。これらの演算は単語照合部４０で行われる。

【００３９】

【数１５】そして、認識結果出力部５０は、すべての認識対象単語
及び話者クラスタ番号の中で最大確率の単語を認識結果
として出力する。

【００４０】このように話者クラスタ番号をエルゴディ
ックＨＭＭの出力に加えることにより、不定話者の音声
認識においても、話者性を自動的に最適決定しながら、
音声認識を行うことが可能になる。

【００４１】

【発明の効果】以上説明したように本発明は、音素記号
列と特徴ベクトル列を出力するただ一つのエルゴディッ
クＨＭＭを用いることにより、「三つ組音素」などの認
識単位の設定を行う必要なしに、音素の環境依存性をも
考慮した高精度な大語彙音声認識装置を実現することが
できるという効果がある。また、また話者クラスタ番号
もエルゴディックＨＭＭの出力に加えることにより、不
特定話者の音声認識においても話者性を自動的に最適決
定しながら認識する装置を実現することができる。

【図面の簡単な説明】

【図１】本発明の実施の一形態の大語彙音声認識装置の
構成を示すブロック図である。

【図２】本発明で用いるエルゴディックＨＭＭの例を示
す図である。

【図３】単語照合部において対数確率の部分和を求める
処理を示すフローチャートである。

【図４】単語照合部において対数確率の部分和を求める
処理を示すフローチャートである。

【符号の説明】

１０単語辞書２０遷移確率記憶部３０出力確率記憶部４０単語照合部５０認識結果出力部１０１〜１３４ステップ

フロントページの続き (56)参考文献特開平８−123463（ＪＰ，Ａ) 米国特許5778341（ＵＳ，Ａ) 欧州特許出願公開869478（ＥＰ，Ａ２) 欧州特許出願公開786761（ＥＰ，Ａ２) 電子情報通信学会論文誌Ｖｏｌ．Ｊ 77−ＡＮｏ．２，Ｆｅｂｕｒａｒｙ 1994，「全音素エルゴディックＨＭＭを用いた教師なし話者適応」，ｐ．112− 119，（平成６年２月25日発行) 電子情報通信学会技術研究報告［音声］Ｖｏｌ．92，Ｎｏ．274，ＳＰ92− 75，「全音素エルゴディックＨＭＭによる教師なし話者適応」，ｐ．15−20, （1992年10月21日発行) 電子情報通信学会技術研究報告［音声］Ｖｏｌ．92，Ｎｏ．410，ＳＰ92− 129，「エルゴディックＨＭＭを用いた音声による多言語の識別」，ｐ．49− 56，（1993年１月19日発行) 電子情報通信学会論文誌Ｖｏｌ．Ｊ 77−ＡＮｏ．２，Ｆｅｂｕｒａｒｙ, 「エルゴディックＨＭＭとその状態シーケンスを用いた音声による言語の識別」，ｐ．182−189，（平成６年２月25 日発行) Ｌ．Ｒ．Ｒａｂｉｎｅｒ，Ｂ−Ｈ．Ｊｕａｎｇ著，古井監訳「音声認識の基礎」（下）（1995年11月発行）ＮＴＴアドバンスドテクノロジ，ｐ．135−138 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/14 G10L 15/18 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】特徴ベクトル時系列で表された未知入力
音声を認識する音声認識方法において、複数の認識対象単語の音素記号列を記憶するとともに、
Ｎ個の順序付けられた状態の間のＮ×Ｎ個の相互の状態
遷移に付随する遷移確率と、各状態遷移に付随する音素
記号の出力確率と特徴ベクトルの出力確率と記憶し、エルゴディック隠れマルコフモデルにより、未知入力音
声の特徴ベクトル時系列と認識対象単語仮説の音素記号
列の組に対する確率を算出し、すべての認識対象単語中で最大確率の単語を認識結果と
して出力することを特徴とする大語彙音声認識方法。
【請求項２】特徴ベクトル時系列で表された未知入力
音声を認識する音声認識方法において、複数の認識対象単語の音素記号列を記憶するとともに、
Ｎ個の順序付けられた状態の間のＮ×Ｎ個の相互の状態
遷移に付随する遷移確率と、各状態遷移に付随する音素
記号の出力確率と特徴ベクトルの出力確率と話者クラス
タ番号を記憶し、エルゴディック隠れマルコフモデルにより、未知入力音
声の特徴ベクトル時系列と認識対象単語仮設の音素記号
列と話者クラスタ番号仮設との組に対する確率を算出
し、すべての認識対象単語および話者クラスタ番号の中で最
大確率を与える単語を出力することを特徴とする大語彙
音声認識方法。
【請求項３】特徴ベクトル時系列で表された未知入力
音声を認識する音声認識装置において、複数の認識対象単語の音素記号列を記憶する単語辞書部
と、Ｎ個の順序付けられた状態の間のＮ×Ｎ個の相互の状態
遷移に付随する遷移確率を格納する遷移確率記憶部と、各状態遷移に付随する音素記号の出力確率と特徴ベクト
ルの出力確率を記憶する出力確率記憶部と、未知入力音声の特徴ベクトル時系列と認識対象単語仮説
の音素記号列の組に対する確率を算出する単語照合部
と、すべての認識対象単語中で最大確率の単語を認識結果と
して出力する認識結果出力部と、を有することを特徴と
する大語彙音声認識装置。
【請求項４】特徴ベクトル時系列で表された未知入力
音声を認識する音声認識装置において、複数の認識対象単語の音素記号列を記憶する単語辞書部
と、Ｎ個の順序付けられた状態の間のＮ×Ｎ個の相互の状態
遷移に付随する遷移確率を格納する遷移確率記憶部と、各状態遷移に付随する音素記号の出力確率と特徴ベクト
ルの出力確率と話者クラスタ番号を記憶する出力確率記
憶部と、未知入力音声の特徴ベクトル時系列と認識対象単語仮説
の音素記号列と話者クラスタ番号仮説との組に対する確
率を算出する単語照合部と、すべての認識対象単語及び話者クラスタ番号の中で最大
確率の単語を認識結果として出力する認識結果出力部
と、を有することを特徴とする大語彙音声認識装置。