JP4283133B2

JP4283133B2 - 音声認識装置

Info

Publication number: JP4283133B2
Application number: JP2004046988A
Authority: JP
Inventors: ライナー・グルーン; コンスタンティン・マルコフ; 哲中村
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2004-02-23
Filing date: 2004-02-23
Publication date: 2009-06-24
Anticipated expiration: 2024-02-23
Also published as: JP2005234504A

Description

この発明は音声認識装置に関し、特に、単語ベースのＨＭＭ(隠れマルコフモデル）を用いた発音モデリングに基づく統計的音声認識装置に関する。

発音のモデリングについて、非常に多くの研究が報告されている。多くのアプローチは、人手により又は自動的に生成された音素トランスクリプションを何らかのベースラインのトランスクリプションと比較する、という同様の基本的なスキームに従っている。この差異から、変異情報を抽出することができる。

通常、この差異情報は規則の形で表され、これを出現頻度、尤度、混同の可能性又は他の尺度に基づいて重み付けすることができる。これらの規則をベースラインの語彙辞書に適用して、何らかの適応化された語彙辞書を生成したり、又は音響モデルを最適化したりする。例えば、先行技術の非特許文献１は、語彙辞書への音素混同規則の適用を開示している。

ライナーグルン、コンスタンティンマルコフ、サトシナカムラ、「非母国語音声認識のための、確率を維持する音素置換」、日本音響学会誌、第１９５−１９６頁、2002年秋。

残念ながら、上述したような発音モデリングに基づく先行技術の音声認識ではほとんど改良が見られない。すなわち、非母国語話者等の、能力が試されるような話者グループに対する連続音声認識システムの性能は、依然として比較的低いままであり、さらなる改良が望まれる。

従って、この発明の目的の一つは、発音の変異に効果的に対処できる音声認識装置を提供することである。

この発明の別の目的は、非母国語話者の音声を正確に認識することのできる音声認識装置を提供することである。

本発明のある局面に係る音声認識装置は、入力音声データの音素を認識して入力音声データの音素ラベルのシーケンスを出力するための手段と、入力音声データ中の単語を認識して複数個の認識単語のシーケンスをそれぞれの音響スコアと共に出力するための手段と、再スコアされるべき認識単語のシーケンスに従って選択された発音モデルに音素ラベルのシーケンスを適用することにより、複数個の認識単語のシーケンスの各々を再スコアするための手段とを含む。発音モデルはトレーニングデータセット内の単語とそれらの音素との多数の対を用いてトレーニングされている。この方法はさらに複数個の認識単語のシーケンスのうち、再スコア手段によって予め定められた条件を満たすスコアが与えられたものを選択するための手段を含む。

好ましくは、選択するための手段は、複数個の認識単語のシーケンスのうち、再スコア手段によって最も高いスコアが与えられたものを選択するための手段を含む。

さらに好ましくは、再スコアするための手段は、音素ラベルのシーケンスを、再スコアされるべき認識単語のシーケンス内の単語とアライメントすることにより、音素ラベルのシーケンスを、再スコアされるべき認識単語のシーケンス内のそれぞれの語とアライメントされた音素ラベルシーケンスの断片にセグメント化するための手段と、音素ラベルシーケンスの断片を、音素ラベルシーケンスの断片がアライメントされたそれぞれの単語に対応するそれぞれの発音モデルに与えるための手段と、音素ラベルシーケンスの断片を与えたことに応答して発音モデルから出力されるスコアを組合せるための手段とを含む。

組合せるための手段は、予め選択された言語モデルに従って、再スコアされるべき単語シーケンスのために、加重言語モデルスコアを計算するための手段と、音素ラベルシーケンスの断片を与えたことに応答して発音モデルから出力されるスコアを、加重言語モデルスコアと組合せるための手段とを含んでもよい。

発音モデルの各々は、トレーニングデータセット内の単語とその音素との多数の対によってトレーニングされた離散隠れマルコフモデル（ＨＭＭ）発音モデルを含んでもよい。

本発明の他の局面によれば、ＨＭＭ発音モデルをトレーニングする方法は、予め選択された単語の各々について離散ＨＭＭ発音モデルを準備するステップを含む。予め選択された単語の各々には音素シーケンスが割当てられている。この方法はさらに、離散ＨＭＭ発音モデルに対応する単語の音素シーケンスに従って、予め選択された単語の各々の離散ＨＭＭ発音モデルの各状態に対する離散確率分布を初期化するステップと、トレーニングデータセットを用いて、予め選択された単語の各々についての離散ＨＭＭ発音モデルの各状態に対する確率分布を推定するステップとを含む。

この方法は、各々が、音響データと、当該音響データに対応する単語のシーケンスとを含む複数個の音声データを含むトレーニングデータセットを準備するステップをさらに含んでもよく、推定するステップは、トレーニングセット中の音響データの各々を、対応する単語ラベルが付された複数個の単語チャンクにセグメント化するステップと、単語チャンクの各々の音素を認識して、各単語について音素のシーケンスを出力するステップと、トレーニングデータセット中の各単語について、トレーニングデータセット中のその単語の全ての出現個所と、認識するステップで出力されたその対応する音素シーケンスとに対し、対応する離散ＨＭＭ発音モデルをトレーニングするステップとを含む。

― 構造 ―
図１はこの発明の一実施例に従った音声認識システム２０の全体構造を示す図である。図１を参照して、システム２０は、トレーニングデータ３０を用いて、多数の単語ベースのＨＭＭ３４をトレーニングするためのＨＭＭトレーニングユニット３２と、ユニット３２によってトレーニングされたＨＭＭ３４を用いて、入力発話４０を認識し認識テキスト４４を出力するための音声認識装置４２とを含む。

図２はＨＭＭトレーニングユニット３２の詳細なブロック図である。図２を参照して、ＨＭＭトレーニングユニット３２は、トレーニングデータ３０中の連続したトレーニング用音声データをビタビアライメントにより生成された時間情報に基づき単語チャンクにセグメント化するためのセグメント化ユニット６０と、セグメント化ユニット６０から出力された単語チャンクの各々の音響特徴ベクトルをデコードして、１−ベスト音素シーケンスを出力するための音素認識ユニット６２と、セグメント化された単語チャンクの各々について、セグメント化された単語とその１−ベスト音素シーケンスとの対に対応する離散ＨＭＭをトレーニングする単語ベースＨＭＭトレーニングユニット６４とを含む。

図３はある特定の単語（ｗ１）のＨＭＭがどのように生成されるかを示す図である。図３を参照して、トレーニングデータ３０中の単語の各々について、音素認識が適用され、その結果、対応の１−ベスト音素シーケンスが得られる。図３の例では、３個の単語８０、８２、８４が、単語ｗ１に対応してトレーニングデータ３０中に見出されるものと仮定している。

単語８０は音響特徴ベクトルＡ１、Ａ２、Ａ３及びＡ４のシーケンスを含む。単語８２は音響特徴ベクトルＡ５、Ａ６、Ａ７及びＡ８のシーケンスを含む。単語８４は音響特徴ベクトルＡ９、Ａ１０、Ａ１１及びＡ１２のシーケンスを含む。音素認識により、単語８０、８２、８４のそれぞれに、１−ベスト音素シーケンスとして、音素シーケンス９０、９２、９４が生成される。

音素シーケンス９０は音素Ｓ１及びＳ２を含む。音素シーケンス９２は音素Ｓ１及びＳ３を含む。音素シーケンス９４は音素Ｓ４及びＳ３を含む。これらの音素シーケンス９０、９２、９４は単語ｗ１の発音変異である。以降、これらを単語ｗ１に対する離散ＨＭＭ１００のトレーニングに用いる。

ＨＭＭモデルは何らかのベースラインの発音語彙辞書中の音素シーケンスを用いて初期化される。単語モデルの状態数は、ベースラインの発音中の音素の数に、「開始」及び「終了」状態を加えたものに設定される。各状態は全音素の離散確率分布を有し、ベースラインの音素には高い確率を与え、他の全ての音素には低いがゼロではない値を与える。全状態間での前方遷移が可能であり、初期遷移確率は各状態を一度だけ通る経路を優先する。

確率分布と遷移確率とは、トレーニングデータの音素シーケンスによって再評価される。各単語について、トレーニングデータ中の全出現個所が収集され分析される。各単語モデルの状態数は変わらない。音素の省略は状態スキップ遷移によってカバーされ、音素の挿入は状態の自己ループ遷移によってモデル化される。

単語“ａｎｄ”について、最初の音素を２個の発音変異で初期化した離散単語ＨＭＭの例を図４に示す。図４を参照して、ＨＭＭ１１０は５個の状態１２０、１２２、１２４、１２６及び１２８と、これら状態間のリンクとを含む。状態１２０、１２２、１２４、１２６及び１２８はそれぞれ、「開始」と、音素“ａ”、“ｎ”、及び“ｄ”と、「終了」とに対応する。状態１２２、１２４及び１２６に対し、初期化された離散確率も合わせて示す。状態１２２では、発音“ａｅ”及び“ａｘ”に同じ初期確率が与えられている。

自動的にトレーニングされた発音モデリングアルゴリズムに共通する問題は、データスパースネスである。この実施例では、トレーニングデータ３０中に十分な頻度で出現する単語の発音はデータ駆動型で生成される。稀な単語については、このアルゴリズムは所与の語彙辞書からのベースラインの音素シーケンスを代わりに用いる。この組合せにより、例えば先行技術の非特許文献１で提案された語彙辞書の音素混同規則を適用するのに比べ、より頑健なものが得られるはずである。

図５はこの実施例に従った音声認識装置４２の詳細を示す図である。図５を参照して、音声認識装置４２は、発話４０をデコードしてＮ−ベスト単語シーケンス（仮説１６０）をそれらのそれぞれの音響スコアとともに出力するためのＮ−ベスト単語シーケンス認識部１４２と、発話４０をデコードし、発話４０についての１−ベスト音素シーケンス１６２の音素ラベルシーケンスを出力するための１−ベスト音素シーケンス認識部１４０と、Ｎ−ベスト単語シーケンス認識部１４２のＮ−ベスト出力を再スコアするのに用いられる言語モデル１４６と、１−ベスト音素シーケンス認識部１４０及びＮ−ベスト単語シーケンス認識部１４２の出力を受けるように接続され、ビタビアライメントを用いて、ＨＭＭＮ−ベスト仮説をラベルとして用いて発音モデル３４を１−ベスト音素シーケンスに適用することにより、Ｎ−ベスト単語シーケンスの各々を再スコアするための再スコアユニット１４４と、再スコアにより最良のスコアを達成する仮説を選択し、選択された仮説を認識テキスト４４として出力するための選択ユニット１４８とを含む。

図６はＮ−ベスト単語シーケンス認識部１４２によって出力されるＮ−ベスト仮説１６０の例を示す図である。図６に示されるように、Ｎ−ベスト単語シーケンス認識部１４２はベストスコアのｎ個の仮説を出力し、これらが再スコアユニット１４４により再スコアされる。

図７は再スコアの詳細な方式を示す図である。図７を参照して、Ｎ−ベスト仮説１８０の各々について、破線１８２及び１８４で示されるとおり１−ベスト音素シーケンス１６２が仮説１８０中の単語とアライメントされる。アライメントされた音素シーケンス、例えば“／ｍｅ”が、仮説１８０中のアライメントされた単語、例えば“ｈｅ”に対応するＨＭＭ１９０に適用される。同様に、音素シーケンス“ａｎｄ”及び“ｙｕ／”も仮説１８０中のアライメントされた単語に対応するそれぞれのＨＭＭ１９２及び１９４に適用される。ＨＭＭ１９０、１９２及び１９４は各々スコアを出力し、それらが合計される（２００）。結果として得られるスコア２０２が仮説１８０の発音スコアである。

発音スコア２０２はさらに、言語モデル１４６を利用して、その仮説のための加重言語モデルスコアと組み合わされる。選択ユニット１４８は、Ｎ−ベスト仮説のうち最も高い合計スコアを達成したものを選択する。
― 動作 ―
図１から図７に示すシステムは以下のように動作する。最初に、トレーニングデータ３０が与えられる。図２を参照して、セグメント化ユニット６０がトレーニングデータ３０中の発話の各々を、ビタビアライメントによって獲得される時間情報に基づき個々の単語にセグメント化する。音素認識ユニット６２は各単語チャンクに音素認識を適用する。このとき、モノフォンより高い音素認識精度を達成するため、ライト・コンテキスト（right-context:右側文字列）のバイフォンモデルが適用される。

単語ベースのＨＭＭトレーニングユニット６４は、離散ＨＭＭ３４の各々を、それぞれの単語の適切な確率で初期化し、トレーニングデータ３０内の全ての単語について、その単語のトレーニングデータ３０中の全ての出現個所について離散単語ＨＭＭ３４をトレーニングする。トレーニングが完了すれば、単語ベースのＨＭＭ３４を音声認識装置４２で用いることができる。

図５を参照して、音声認識装置４２が発話４０を受けると、Ｎ−ベスト単語シーケンス認識部１４２は発話４０をデコードし、Ｎ−ベスト仮説を出力する。１−ベスト音素シーケンス認識部１４０は発話４０をデコードし、１−ベスト音素シーケンスを出力する。Ｎ−ベスト単語シーケンス認識部１４２及び１−ベスト音素シーケンス認識部１４０の出力はそれぞれ、再スコアユニット１４４に与えられる。

図７を参照して、Ｎ−ベスト仮説の各々について、再スコアユニット１４４が仮説に対し１−ベスト音素シーケンス１６２をアライメントし、アライメントした音素をＮ−ベスト仮説１８０の単語に対応するＨＭＭ１９０、１９２及び１９４に適用する。ＨＭＭ１９０、１９２及び１９４はそれぞれのスコアを出力し、これらがこの仮説のための加重言語モデルスコアと組み合わされる。結果として得られるスコア２０２がその仮説の発音スコアである。

全ての仮説に対する発音スコアが再スコアユニット１４４で計算されると、選択ユニット１４８が最も高い発音スコアを達成した仮説を選択する。この仮説が認識テキスト４４として出力される。
― 実験例 ―
評価のため、出願人は、出願人の研究所で収集された、英語を話す１１人の日本人による非母国語のデータベースを使用した。各話者あたり１２分の読上げ音声が得られ、これを分割してトレーニング用に１０分、テストセットに２分とした。タスクのドメインはホテルの予約場面である。

非母国語話者によるトレーニングデータセットが、ビタビアライメントによって獲得された時間情報に基づき個々の単語にセグメント化される。これらの単語チャンクに対し、音素認識が行なわれる。より高い音素認識精度を達成するため、ライト・コンテキストのバイフォンモデルが適用される。しかしながら、結果として得られる音素列では、コンテキストは考慮されない。

非母国語のタスクに対する音素認識精度は、正解のトランスクリプションに対し３４．６８％であった。この実験のバイフォン音響モデルは、ウォールストリートジャーナル読上げコーパスによってトレーニングされた。音素セットは４３個の音素と無音とからなる。再スコアプロセスでは、無音の出現は無視された。

各状態の離散確率分布は、語彙辞書で与えられた「正しい」音素シーケンスに依存して初期化された。正しい音素の確率は０．９９である。もし語彙辞書内に２個以上の発音変異が含まれていれば、変異は全て同じ確率を有する。他の全ての音素に、何らかの、小さいがゼロではない確率が割当てられる。

遷移確率はベースライン語彙辞書における後続の音素数に依存する。ｋ個の音素をスキップする確率は０．０５^ｋに初期化された。０．０５の確率で挿入が可能である。従って、次の状態への遷移は０．９よりわずかに低い確率を有する。

ＨＭＭ発音モデルはＮ−ベストデコード結果を再スコアする、という形で適用される。テストデータの発話の際には、１−ベスト音素認識と標準的なＮ−ベスト認識（単語レベル）とが行なわれる。Ｎ−ベストシーケンスの各々について、音素シーケンスを入力特徴量とし、単語シーケンスをラベルとして、離散発音モデルを用いて強制的なアライメントを行なった。結果として得られるスコアが発音スコアである。

発音スコアは、この仮説に対する加重言語モデルスコアと組み合わされる。Ｎ−ベスト中最も高い合計スコアを達成した仮説が、正しいものとして選択される。

図８は様々な言語モデルの重みに関する性能を示す図である。この実験でのベースラインの性能の３２．５４％と比較して、最高の性能は２９．０４％の単語誤り率（ＷＥＲ）であった。

従って、この実施例は発音の再スコアにより、単語誤り率を相対的に１０．８％改良することができ、非母国語の音声に対し有効であることが分かった。十分な量の非母国語のトレーニングデータが得られれば、このアプローチの強みを十分に発揮することが可能であろう。

上述の実施の形態は単なる例示であって制限的なものと解してはならない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。

この発明の一実施例に従ったシステム２０の構造を示す図である。ＨＭＭトレーニングユニット３２を示すブロック図である。この発明の一実施例に従った単語ベース離散ＨＭＭの２レベルトレーニングを示す図である。単語レベル離散ＨＭＭの一例を示す図である。音声認識装置４２を示すブロック図である。Ｎ−ベスト仮説を概略的に示す図である。再スコアのためのスコア計算方式を概略的に示す図である。実験で観察された、ＷＥＲと言語モデル重みとの関係を示す図である。

符号の説明

２０音声認識システム、３０トレーニングデータ、３２ＨＭＭトレーニングユニット、３４単語ベース離散ＨＭＭ、４０発話、４２音声認識装置、４４認識テキスト、６０セグメント化ユニット、６２音素認識ユニット、６４単語ベースＨＭＭトレーニングユニット、１４０１−ベスト音素シーケンス認識部、１４２Ｎ−ベスト単語シーケンス認識部、１４４再スコアユニット、１４６言語モデル、１４８選択ユニット

Claims

入力音声データの音素を認識して入力音声データの音素ラベルのシーケンスを出力するための手段と、
入力音声データ中の単語を認識して複数個の認識単語のシーケンスをそれぞれの音響スコアと共に出力するための手段と、
再スコアされるべき認識単語のシーケンスに従って選択された発音モデルに前記音素ラベルのシーケンスを適用することにより、前記複数個の認識単語のシーケンスの各々を再スコアするための手段とを含み、前記発音モデルはトレーニングデータセット内の単語とそれらの音素との多数の対を用いてトレーニングされており、さらに
前記複数個の認識単語のシーケンスのうち、前記再スコア手段によって予め定められた条件を満たすスコアが与えられたものを選択するための手段を含む、音声認識装置。
選択するための手段は、前記複数個の認識単語のシーケンスのうち、前記再スコア手段によって最も高いスコアが与えられたものを選択するための手段を含む、請求項１に記載の音声認識装置。
前記再スコアするための手段は、
前記音素ラベルのシーケンスを、再スコアされるべき前記認識単語のシーケンス内の単語とアライメントすることにより、前記音素ラベルのシーケンスを、再スコアされるべき認識単語のシーケンス内のそれぞれの語とアライメントされた音素ラベルシーケンスの断片にセグメント化するための手段と、
前記音素ラベルシーケンスの断片を、前記音素ラベルシーケンスの断片がアライメントされたそれぞれの単語に対応するそれぞれの前記発音モデルに与えるための手段と、
前記音素ラベルシーケンスの断片を与えたことに応答して前記発音モデルから出力されるスコアを組合せるための手段とを含む、請求項１に記載の音声認識装置。
前記組合せるための手段が、
予め選択された言語モデルに従って、前記再スコアされるべき単語シーケンスのために、加重言語モデルスコアを計算するための手段と、
前記音素ラベルシーケンスの断片を与えたことに応答して前記発音モデルから出力されるスコアを、前記加重言語モデルスコアと組合せるための手段とを含む、請求項３に記載の音声認識装置。
前記発音モデルの各々が、トレーニングデータセット内の単語とその音素との多数の対によってトレーニングされた離散隠れマルコフモデル（ＨＭＭ）発音モデルを含む、請求項１〜請求項４のいずれかに記載の音声認識装置。