JP2010139745A

JP2010139745A - 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム

Info

Publication number: JP2010139745A
Application number: JP2008315769A
Authority: JP
Inventors: Sakti Sakriani; サクティサクリアニ; Markov Konstantin; マルコフコンスタンティ; Satoru Nakamura; 哲中村
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2008-12-11
Filing date: 2008-12-11
Publication date: 2010-06-24
Anticipated expiration: 2028-12-11
Also published as: JP5180800B2

Abstract

【課題】信頼性のある音素変異の認識を可能にする統計的発音変異モデルを記憶する記録媒体を提供する。
【解決手段】統計的発音変異モデル（ＢＮレキシコンモデル）を記憶する記憶媒体であって、モデル１００は複数の音素発音変異項目を含む。発音変異項目の各々は、音素の基本形１０２と、音素の基本形１０２の表面形１０４と、基本形の文脈による知識源の組１０８、１１０、１１２及び１１４と、文脈による知識源の組１０８、１１０、１１２及び１１４によって決定される文脈において表面形１０４が基本形１０２から生じる確率とを含む。
【選択図】図３

Description

この発明は自動音声認識システム（ａｕｔｏｍａｔｉｃｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｓｙｓｔｅｍ：ＡＳＲ）に関し、特に、高い精度で発音変異のある音声をデコードするシステムに関する。

先行技術のＡＳＲシステムは管理された条件下では良好に動作する。しかし、会話／自然な音声では、ＡＳＲシステムの性能は大きく低下する。ある報告によれば、テストセットのうち自然な音声部分の誤り率は、計画されスタジオで録音された条件で行なわれた部分のほぼ２倍である。性能がこの様に劣る理由の一つは、ほとんどのＡＳＲシステムでは静的な発音辞書（レキシコン）であってほとんどの単語に対し、代替となるような発音がほとんどないものを用いていることである。しかし、会話における発音では、発音変異の量が増すばかりでなく、単語がその正規形に忠実であることもまれである。この結果、発音の変異はＡＳＲシステムの性能に影響を与える大きな問題であると思われる。

図１は従来の発音レキシコン３０の構成を示す図である。図１を参照して、従来の発音レキシコン３０は多数のエントリ４０を含み、その各々は単語４２と、単語４２の典型的発音を記述する音素シーケンス４４とを含む。理解されるように、発音レキシコン３０は、同じ単語４２であるが異なる音素シーケンス４４を有する２又は３以上の見出語を含みうる。このような見出語は発音変異と考えられる。

この問題に対する簡単な解決策は、レキシコンに、より多くの発音変異を追加し続けることである。しかし、これは性能を改善する助けにはならない。これは新たな誤りを導入し、レキシコン中の音響的な混同のしやすさを増すことにつながる。規則ベースのシステムを用いて発音辞書を構築することが別の解決策であろう。しかし、これには時間と専門性とが必要である。

今日まで、非特許文献１の研究が決定木ベースのアプローチを適用して成功してきた。これは、システムの性能を改良してきた。

Ｒ．Ａ．ベーツ、Ｍ．オステンドルフ及びＲ．Ａ．ライト、「音声変異のモデリングのためのシンボル的音素特徴」音声コミュニケーション、４９（２）：８３−９７、２００７．（R. A. Bates, M. Ostendorf, and R. A. Wright. Symbolic phonetic features for modeling of pronunciation variation. Speech Communication, 49(2):83-97, 2007.）

音響的な混同しやすさを避け、精度を上げるためには、発音のモデル化に、付加的な知識源を導入することが有用であろう。非特許文献１の内容は有用であることが示されている。しかし、発音のモデル化に付加的な知識源を統合するために広く適用可能かつ十分に柔軟性のあるフレームワークは存在しない。

従って、この発明の目的の１つは、信頼性のある音素変異の認識を可能にする統計的発音変異モデルを記憶する記録媒体を提供することである。

この発明の別の目的は、広く適用可能かつ十分に柔軟性のある、付加的な知識源を統合した自動音声認識システムを提供することである。

この発明の第１の局面は、統計的発音変異モデルを記憶する記憶媒体であって、前記モデルは複数の音素発音変異項目を含む。前記発音変異項目の各々は、音素の基本形と、音素の前記基本形の表面形と、前記基本形の文脈による知識源の組と、前記文脈による知識源の組によって決定される文脈において前記表面形が前記基本形から生じる確率と、を含む。

このモデルは基本形、基本形に対応する表面形、及びその文脈情報を含むので、基本形の発音変異の確率をその文脈に基づいて計算することができる。このモデルを用いて、音声変異を正確に認識する音声認識が実現できる。

好ましくは、前記文脈による知識源の組は、前記基本形に先行する音素、前記基本形に後続する音素、及び前記基本形が単語中で生じる位置、若しくは前記基本形が前記表面形で削除されるか否か、又はこれら知識源のいずれかの組合せを含む。

付加的な知識源が、先行する音素、後続の音素、単語中の基本形の位置、又は基本形が削除されるか否かを含むので、確率は正確に計算される。

さらに好ましくは、前記文脈による知識源の組は、前記基本形に先行する音素クラス、前記基本形に後続する音素クラス、前記基本形が単語中で生じる位置、若しくは前記基本形が前記表面形で削除されるか否か、又はこれら知識源のいずれかの組合せを含む。

音素がクラスに分類されるので、文脈による知識源の数が少なく、文脈中で生じる表面形の確率を計算する計算量が減じられる。

この発明の第２の局面に従った自動音声認識システムは、特定の言語の発音基本形の各々について、発音基本形、発音表面形及び１又は２以上の付加的な知識源間の条件関係を記述するベイズネットワークトポロジとともに、統計的発音モデルを記憶するための手段と、前記特定言語の入力音声信号を、音響モデル、言語モデル、及び前記統計的発音モデルを用いて統計的にデコードし、前記入力音声信号によって表わされる前記特定言語において最尤単語シーケンスのテキストデータを出力するための手段と、を含む。

システムは会話における音声認識で、発音変異をモデル化するためにＢＮフレームワークを用いる。ＢＮフレームワークは広く適用可能で柔軟性があるので、この装置は既存の統計的発音モデルに付加的情報を容易に統合することができ、より高い精度をもたらす。

好ましくは、前記１又は２以上の付加的な知識源は、前記特定言語における単語の発音基本形の１又は２以上の文脈による知識源を含む。

文脈情報は音声信号の音素シーケンスを決定するのに重要である。文脈情報は統計的発音モデルに容易に組入れられ、さらにこの様な情報は単語中の音素シーケンスを予測するのに有用であるため、デコードされた結果はより正確になる。

さらに好ましくは、前記文脈による知識源は、発音基本形が単語のどこに位置するかに関する情報、前記発音基本形の前に何があるかに関する情報、前記発音基本形の後に何があるかに関する情報、前記発音基本形が対応の発音表面形で削除されるか否かに関する情報、又はそれらのいずれかの組合せを含む。

さらに好ましくは、前記統計的デコードのための手段は、前記入力音声信号を、前記音響モデル、前記言語モデル、及び前記特定言語におけるレキシコンを用いて統計的にデコードし、前記入力音声信号によって表わされる前記特定言語における、予め定められた数の、最尤単語シーケンスのテキストデータを出力するための手段と、前記統計的発音モデルを用いて前記入力音声信号に対する前記単語シーケンスの各々の確率的スコアを再計算するための手段と、前記単語シーケンスのうち前記再計算するための手段によって再計算された最も高いスコアを達成するものを選択するための手段と、を含む。

前記統計的デコードのための手段は、前記入力音声信号を、音素レベルで、前記音響モデルを用いてデコードし、前記入力音声信号を表す音素のいくつかのシーケンス候補を出力するための手段と、前記統計的発音モデルと前記言語モデルとを用いて、前記音素のシーケンス候補の各々についての確率スコアを計算するための手段と、前記再計算するための手段によって再計算された最も高いスコアを達成する音素シーケンスに対応する基本形音素のシーケンスを選択するための手段と、を含んでもよい。

この発明の別の局面は、コンピュータで実行されると、前記コンピュータを上述の自動音声認識システムのいずれかに記載された手段の全てとして機能させる、コンピュータプログラムに関する。

従来の発音レキシコンを概略的に示す図である。（Ａ）はデータＤとモデルＭとの条件関係を記述するＢＮトポロジ６０を示す図であり、（Ｂ）はデータＤ、モデルＭ、及びいくつかの付加的知識源Ｋ_１、Ｋ_２、…Ｋ_Ｎ間の条件関係を記述するＢＮトポロジ８０を示す図である。図２（Ｂ）の例に対応する本件発明の１実施の形態のＢＮｌｅｘトポロジ構造を示す図である。この発明の実施の形態で用いられる文脈ラベルを示す図である。この発明の第１の実施の形態のシステム１３０を示すブロック図である。自然発話コーパス１３２の発話データ１７０の構成を概略的に示す図である。ＢＮｌｅｘトレーニングモジュール１３４のブロック図である。図５に示すＡＳＲユニット１５６のブロック図である。図５に示す再スコアリングモジュール１６０のブロック図である。再スコアリングモジュール１６０がＮベスト仮説１５８をどのように再スコアするかを概略的に示す図である。この発明の実施の形態で用いられるコンピュータシステム３３０の外観を示す図である。コンピュータシステム３３０のブロック図である。この発明の第２の実施の形態のＡＳＲ装置３８０のブロック図である。

[第１の実施の形態]
１．始めに
以下で説明する実施の形態は、会話における音声認識の発音変異のモデル化に関するものであり、ここでは、規範的発音（基本形）から、実際の／現実化された音素（表面形）へのマッピングがベイズネットワークによってモデル化される。この図形的モデルフレームワークの利点は、基本形、表面形、及び何らかの付加的知識源の間の確率的関係を、統一された方法で学習できることである。従って、種々のドメインからの様々な付加的知識源を容易に組入れることができる。実施の形態では、表面形の、現在の基本形音素、先行する基本形音素及び後続の基本形音素に対する依存性、単語中の現在の基本形音素の位置に対する依存性、並びに、先行の表面音素が削除されたか否かに対する依存性を利用する。

最近、ＡＳＲにベイズネットワーク（ＢＮ）等の確率（統計的）モデルを用いることが注目されている。ＢＮモデルは様々な（離散的及び／又は連続した）ランダムな変数の複雑な同時確率分布を、良好に構築され容易に表現できるやり方でモデル化することができる。さらに、ダイナミックＢＮ（ＤＢＮ）を用い、シンボル的特徴に基づいて発音変異をモデル化する試みもなされている。この代替的なモデル化のアプローチは、様々な種類の知識源を発音変異モデルに組入れるための理想的候補であるように思われる。しかし、多くの知識源が組入れられると、モデル推論の計算の複雑さとメモリの要求とが、ノードの数として指数関数的に増加する。この場合、モデル化は現実的でなくなる。

この実施の形態では、付加的知識源が発音変異モデルに組入れられるが、ここで、規範的発音（基本形）から実際の／現実化された音素（表面形）へのマッピングがＢＮを用いてモデル化される。提案されるＢＮは静的であって、時間次元に依存しない。これを、「ＢＮレキシコン（ＢＮｌｅｘｉｃｏｎ）の意味で「ＢＮｌｅｘ」と呼ぶ。この図形的なモデルフレームワークの利点は、基本形、表面形及び何らかの付加的知識源の間の確率的関係を統一的に学習可能であり、モデルのグローバル確率関数（ｇｌｏｂａｌｐｒｏｂａｂｉｌｉｔｙｆｕｎｃｔｉｏｎ：ＰＤＦ）を立式できることである。このため、異なるドメインからの種々の様々な付加的知識源を容易に組入れることができる。

この実施の形態では、表面形の、現在の基本形音素、先行する基本形音素及び後続の基本形音素に対する依存性、単語中の現在の基本形音素の位置に対する依存性、並びに、先行の表面音素が削除されたか否かに対する依存性を利用する。

以下の説明では、まず、一般的フレームワーク、ＢＮｌｅｘのトポロジ的構造、及びその出力確率を含めて、ＢＮを用いた発音変異モデル化をより詳細に述べる。その後、パラメータの数を減じることによってモデルの信頼性をどのように高め、さらに提案されたＢＮｌｅｘをＡＳＲシステムにおいてどのようにトレーニングに使用するかを説明する。

２．ＢＮによる発音モデル化
２．１一般的フレームワーク
このセクションでは、さまざまな付加的知識源を発音変異モデルに組入れる、提案に係る図形的フレームワークを紹介する。

図２（Ａ）は、四角６４で示されるデータＤと四角６２で示されるモデルＭとの条件関係を記述したＢＮトポロジ６０を示す。図２（Ｂ）は、四角８４で示されるデータＤと、四角８２で示されるモデルＭと、それぞれ四角８８、９０、…９２で示されるいくつかの付加的知識源Ｋ_１、Ｋ_２、…Ｋ_Ｎとの条件関係を記述するＢＮトポロジ８０を示す。

モデルＭをいくつかの観測データＤを用いてトレーニングする簡単な例から始める。ＤとＭとの因果関係をＢＮを用いて記述し、図２（Ａ）に概略的に例示する。ここでは、両者が四角いノードで示される離散変数であると仮定している。ＢＮ同時ＰＤＦは以下のように因数分解される。

が得られる。

ここで、様々な付加的知識源Ｋ_１、Ｋ_２、…Ｋ_Ｎをモデルに組入れると仮定する。このため、Ｄ、Ｍ及びＫ_１、Ｋ_２、…Ｋ_Ｎの条件関係を、我々のデータの知識に基づいて簡潔に定義し、これによってＫ_１、Ｋ_２、…Ｋ_ＮをＰ（Ｄ，Ｍ）に組入れる。同時確率モデルも同様に表現する。例えば、Ｄ、Ｍ及びＫ_１、Ｋ_２、…Ｋ_Ｎの条件関係を図２（Ｂ）に概要を示したＢＮで記述することもできる。ここでは、Ｋ_１、Ｋ_２、…Ｋ_Ｎの全てを条件の上で独立であると仮定した。この場合、式（１）から、図２（Ｂ）で表されたＢＮについて、同時ＰＤＦは以下のようになる。

推論の間の主な関心事は、以下のグローバルな条件付き確率を計算することである。

もしこのＰＤＦが、直接に計算することを許す形であれば、以下の２つの場合が考えられる。

１．全ての変数が観測可能である。

この場合、グローバルな条件付き確率は簡単に以下のように計算される。

２．いくつかの変数、例えば付加的知識源Ｋ１、…ＫＮ等が観測できないか、又は隠されている。

この場合、全ての可能なＫｉについて、全ての可能なＫ_ｉ：ｋ_ｉ１，ｋ_ｉ２,…ｋ_ｉＭに対するマージナライゼーションによって計算が行なわれる。

ここで、簡潔のため、（Ｄ＝ｄ）、（Ｍ＝ｍ）及び（Ｋ_ｉ=ｋ_ｉｊ）に代えてｄ、ｍ及びｋ_ｉｊを用いている。

２．２発音モデルのトポロジ
図形的フレームワークを発音モデルに適用し、規範的辞書（基本形）から期待される音素が与えられた場合に、会話発音（表面形）で実現される音素モデルを予測することを重点とする。現在、Ｍは基本形Ｂであり、Ｄは実現された表面形Ｓであり、Ｂ_Ｌ、Ｂ_Ｒ、Ｂ_Ｐ及びＳ_Ｃは図４で定義する付加的知識源である。

図４を参照して、“ＢＩＧ”、“ＭＩＤ”及び“ＥＮＤ”は、音素が、単語の始まり、中間、及び終りに出現することを示す。“ＳＩＮＧＬＥ”は、単語が例えば“Ｉ”のように１文字のみからなることを示す。

図２（Ｂ）の例示に対応するこの実施の形態のＢＮｌｅｘトポロジ的構造を図３に示す。図３を参照して、ＢＮトポロジ１００は、四角１０２で示される発音基本形Ｂと、四角１０４で示される表面形１０４と、それぞれ四角１０８、１１０、１１２、及び１１４で示される文脈による知識源Ｂ_Ｌ、Ｂ_Ｒ、Ｂ_Ｐ及びＳ_Ｃとの条件関係を記述する。ＢＮｌｅｘ同時ＰＤＦは以下のようになる。

従って、結果として得られるＢＮｌｅｘモデルは複数個の音素発音変異項目を含む。発音変異モデルの各々は、音素の基本形ラベル、基本形からの表面形のラベル、基本形からの文脈による知識源の組、及び文脈による知識源の組によって決定される、文脈における基本形から表面形の生じる確率を含む。

２．３発音出力
表面形出力は、可能な全ての表面形発音ｓ_１、ｓ_１、…、ｓｋのうち、最も確率の高いもの＾ｓ（式中、＾は文字ｓの上に付される）である。

ここで、ＢＮｌｅｘの出力確率は式（４）を用いて簡単に得られ、以下を与える。

推論において隠れた値が存在する場合、計算は式（５）に示されるように全ての可能な値に対するマージナライゼーションで行なわれる。例えば、推論においてｂ_ｌ、ｂ_ｒ、ｂ_ｐ及びＳ_ｃの値が隠れている場合、計算は以下のようになる。

３．モデル信頼性の向上
セクション２．２に記載のとおり、４個の付加的知識源を用いてＢＮｌｅｘを開発した。これは、Ｂ_Ｌ、Ｂ_Ｒ、Ｂ_ｐ、Ｓ_ｃ及びＢの全ての組合せについて、表面形Ｓがトレーニングされたことを暗に示している。図４はＢＮｌｅｘで用いられる文脈要因の全ての可能な値を列挙したものである。全てのモデルパラメータの信頼性のある推定を得るためにはトレーニングデータが十分でない場合、全体の性能は大いに劣化する。従って、パラメータの数を少なくする必要がある。

ここで、パラメータの数を少なくするために、音素文脈Ｂ_Ｌ及びＢ_Ｒを調音の方法の主たる差異に基づいてグループ化する。なぜなら、同じ調音位置を有する音素の多くは、隣接する音素に対して、似た効果を与える傾向があるからである。例えば、／ｂ／と／ｐ／は後続の母音に同様の効果を与え、／ｎ／は／ｍ／と同様に後続の母音に効果を与える。テーブル１は知識ベースの音素クラスの例を列挙する。

４．トレーニング手順及び使用の問題
ＢＮｌｅｘのトレーニング手順は以下のステップを含む。

１．初期化
２．データアライメント
ダイナミックプログラミングアルゴリズムを用いて、基本形と表面形とのアライメントを行なう。

３．ＢＮトレーニング。

アライメントされたトレーニングデータを用いて、ＢＮデータをトレーニングする。これは、標準的統計的手法を用いて達成される。トレーニングの間に全ての変数が観測可能なので、単純なＭＬパラメータ推定方法を用いることができる。ＢとＳとの間のマッピングは、置換、挿入又は削除を含む。しかし、挿入は稀で、より複雑なモデルなので、ここでは実現化された表面音素においては置換と削除のみが可能であるとする。

提案に係るＢＮｌｅｘを、以下の目的で適用することができる。

１．ＢＮｌｅｘを用いて、標準的静的辞書拡張を行ない、代替的な表面形発音を得ることができる。その後この辞書拡張を用いて、音響モデルとの強制的アライメントを行なうことによって、トレーニング発話にアライメントされた音素を生成し、最良の代替となる発音を選択することができる。

２．ＢＮｌｅｘはまた、図５に示すように、標準的トライフォンＡＳＲから生成されるＮベストリストの再スコアリングに用いられる。

５．システム構成
図５は、この発明の第１の実施の形態に従った音声認識システム１３０のシステム構成を示す図である。図５を参照して、システム１３０は、ＢＮｌｅｘ１３６を用いて入力音声１３８を出力１４０にデコードするためのＡＳＲシステム１４２と、ＢＮｌｅｘ１３６をトレーニングするためのＢＮｌｅｘトレーニングモジュール１３４とを含む。ＢＮｌｅｘ１３６をトレーニングするために、自然発話コーパス１３２が用いられる。出力１４０は、ほとんどの場合、入力音声１３８によって表わされる内容に対応する単語のシーケンスである。

図６は自然発話コーパス１３２内の発話データの組１７０を概略的に示す図である。図６を参照して、発話データ１７０は発話のテキストデータ（“ＡｎｄＩｊｕｓｔ”）と、発話中の単語の典型的な発音基本形１８０と、発話を構成する単語の表面形１８２にアライメントされた発話の音響データ１７２と、各表面形の音素の各々に付されたラベル１７４、１７６、及び１７８の組と、を含む。ラベルの各々は、図４に示すように規定された付加的知識源Ｂ_Ｌ、Ｂ_Ｒ、Ｂ_Ｐ及びＳ_ｃに対応する表記法の組を含む。

図６において、表面形から削除された音素は、“Ｄ”及び“ａｎｄ”のように、“−”のマークで示される。

単語“ａｎｄ”の表面形発音の音素“ＥＡ”に付されたラベルを見てみる。この音素の左側と右側とにある音素はそれぞれ、“ＳＩＬ”（ｓｉｌｅｎｃｅ：無音）と“Ｎ”とである。この音素は単語の頭にある。この音素は、基本形に対して削除されていない。従って、この表面音素に付される文脈ラベルは“ＳＩＬ”、“Ｎ”、“ＢＥＧ”及び“ＮＯＴＤ”である。同様に、“ａｎｄ”の中の“Ｎ”についてのラベルの組１７６は“ＡＥ”、“Ｄ”、“ＭＩＤ”及び“Ｄ”であり、“ａｎｄ”の中の“Ｄ”についてのラベルの組１７４は“Ｎ”、“ＡＹ”、“ＥＮＤ”及び“Ｄ”である（基本形１８０における“Ｄ”は表面形１８２では削除されていることに注意されたい）。

図７はＢＮｌｅｘトレーニングモジュール１３４の概略構成を示す図である。図７を参照して、ＢＮｌｅｘトレーニングモジュール１３４は、自然発話コーパス１３２中の音素の表面形とその文脈とを分類して、分類された音素１９２を出力する分類モジュール１９０と、ＢＮｌｅｘ１３６をトレーニングするための確率計算モジュール１９６、すなわち、表面形音素（Ｓ）と、文脈ラベル（Ｂ_Ｌ、Ｂ_Ｒ、Ｂ_Ｐ及びＳ_ｃ）の組と、基本形音素（Ｂ）との組合わせの確率を計算する計算モジュールと、を含む。ＢＮｌｅｘ１３６は、図３に示すように、単語のリスト、それらのそれぞれの表面形、及びいくつかのＢＮｌｅｘモデルを含む。基本形の音素Ｂ、表面形Ｓ及び文脈ラベルＢ_Ｌ、Ｂ_Ｒ、Ｂ_Ｐ、Ｓ_ｃの組合せの各々について、ＢＮレキシコンモデルが準備されトレーニングされる。

上述の説明から当業者には理解されるように、表面形ＳはＢ_Ｌ、Ｂ_Ｒ、Ｂ_Ｐ、Ｓ_ｃ及びＢの全ての組合せについてトレーニングされる。従って、これらパラメータの組合せが与えられると、特定の文脈でその表面形が生じる確率が、ＢＮｌｅｘを用いて計算される。

再び図５を参照して、ＡＳＲシステム１４２は、統計的音響モデル１５０と、従来の発音レキシコン１５２と、統計的言語モデル１５４と、入力音声１３８を統計的にデコードし、音響モデル１５０、発音レキシコン１５２および言語モデル１５４を用いて、予め定められた数Ｎの最尤仮説であるＮベスト仮説１５８のテキストデータを出力する従来のＡＳＲユニット１５６と、ＢＮｌｅｘ１３６を用いてＮベスト仮説１５８を再スコアリングし、最高のスコアを達成した仮説を新たな出力１４０として出力するための再スコアリングモジュール１６０と、を含む。すなわち、再スコアリングモジュール１６０は単語の各シーケンスの確率スコアを、入力音声１３８に対して再計算する。

音響モデル１５０、発音レキシコン１５２、言語モデル１５４及びＡＳＲユニット１５６は従来のものである。

図８を参照して、ＡＳＲユニット１５６は、入力音声１３８をサンプリングし量子化するためのサンプリングユニット２３０と、サンプリングされた音声データを所定フレーム長で所定フレームシフト量のフレームのシーケンスに変換するためのフレーム形成モジュール２３２と、フレームの各々から予め定められた特徴量の組を抽出し、各フレームの特徴ベクトルを出力するための特徴抽出モジュール２３４と、音素レベルで特徴ベクトルをデコードし、音響モデル１５０を用いていくつかの音素候補シーケンスを出力するための音素認識モジュール２３６と、音素認識モジュール２３６から出力された音素シーケンスから、各々、可能な単語シーケンスを形成するいくつかの音素シーケンスを選択するための単語レベル認識モジュール２３８と、単語レベル認識モジュール２３８によって出力された単語シーケンスの各々のＬＭスコアを計算し、最高のスコアを達成した（単語レベルの）Ｎベスト仮説を選択するためのＬＭスコアリングモジュール２４０と、を含む。単語レベル認識はビタビアルゴリズムに基づいてＡＳＲユニット１５６で行なわれる。Ｎベスト仮説の各々は音響スコア、ＬＭスコア及び全音素のビタビセグメント化を含む。

図９は再スコアリングモジュール１６０の構成を示す図である。図９を参照して、再スコアリングモジュール１６０は、ＢＮｌｅｘ１３６を用いて、仮説の各々を表面音素シーケンスに変形する変形モジュール２５０と、新たな表面音素セグメントを強制的にアライメントして新たな音響スコアを得るための強制アライメントモジュール２６０と、言語モデル１５４を用いて、音響スコアとＬＭスコアとを組合せて、仮説を新たに計算されたスコアとともに出力するためのＬＭ確率組合せモジュール２６２と、最も高い再計算されたスコアを達成する仮説を選択し出力１４０として出力するための、仮説選択モジュール２６４と、を含む。

再スコアリングモジュール１６０は各仮説中の基本形音素セグメントの各々を、提案されたＢＮｌｅｘ（式（７））を用いて現実化された表面形に変形し、各仮説について、最尤の表面形シーケンスが選択される。

図１０は、再スコアリング方法を例示する図である。Ｎベスト仮説２８０に基づき、表面形の変異が２８２で生成され、それらの確率がＢＮｌｅｘ１３６を用いて計算される。最も尤もらしい表面形２８４は、変異の中から選択される２８２。選択された変異２８４はその後音響データ（入力音声１３８）と強制的にアライメントされる２８８。このアライメントから、音響モデル１５０を用いて、この仮説の音響スコアが再計算される。

６．動作
図５から図１０を参照して、この実施例のシステム１３０は以下のように動作する。まず始めに、図５に示される自然発話コーパス１３２が準備される。図６に示されるような、音素へのラベリングを含む準備は、手操作で行なわれる。その後、図７に示すように、分類モジュール１９０が自然発話コーパス１３２内の音素の表面形を分類し、分類された音素１９２と表面形のリスト１９４とを出力する。確率計算モジュール１９６は、表面形音素（Ｓ）と、ラベルの組（Ｂ_Ｌ、Ｂ_Ｒ、Ｂ_ｐ及びＳ_ｃ）と、基本形音素（Ｂ）との全ての組合せの確率を計算する。確率と、対応の組合せとはともに記憶部１９８に記憶される。表面形確率計算モジュール２００は、表面形シーケンス、対応する文脈ラベル、及び基本形シーケンスの組合せの確率を計算し、ＢＮｌｅｘ１３６を生成する。

実行時には、音声１３８がＡＳＲユニット１５６に与えられると、ＡＳＲユニット１５６は入力音声１３８をデコードし、Ｎベスト仮説１５８を出力する。特に図９を参照して、変形モジュール２５０はＮベスト仮説１５８の各々を、ＢＮｌｅｘ１３６を用いて現実化された表面音素シーケンスに変形する。強制アライメントモジュール２６０はその後、新たな表面音素セグメントを強制的にアライメントし、新たな音響スコアを得る。ＬＭ確率組合せモジュール２６２は、言語モデル１５４を用いてＬＭスコアと仮説の更新された音響スコアとを組合せ、仮説を新たに計算されたスコアとともに出力する。仮説選択モジュール２６４は合計で最も高い発話スコアを達成した仮説を、新たな認識出力１４０として選択する。

７．ハードウェア構成
上述の実施の形態は、純粋にハードウェアで実現することもできる。しかし、最もよくあると思われる実現例は、コンピュータハードウェアと組合せたソフトウェアによる解決策である。

上述の実施の形態は、コンピュータシステムと、コンピュータハードウェア上で実行されるコンピュータプログラムとで実現可能である。上述の機能ブロックの各々は、上述の説明を当業者に提示すれば、容易にソフトウェアで実現されるであろう。このようなソフトウェアが実行されるコンピュータハードウェアは、音響処理能力を有するものであれば、通常の構成のものでよい。

図１１はこの実施例で用いられるコンピュータシステム３３０の外観を示し、図１２はコンピュータシステム３３０のブロック図である。ここで示されるコンピュータシステム３３０は単なる例示であって、他の構成も利用可能である。図１１を参照して、コンピュータシステム３３０は、コンピュータ３４０と、全てコンピュータ３４０に接続された、モニタ３４２と、キーボード３４６と、マウス３４８と、スピーカ３７２と、マイクロフォン３７０と、を含む。さらに、コンピュータ３４０はＤＶＤ−ＲＯＭ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋＲｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）ドライブ３５０と、半導体メモリドライブ３５２と、を含む。

図１２を参照して、コンピュータ３４０はさらに、ＤＶＤ−ＲＯＭドライブ３５０及び半導体メモリドライブ３５２に接続されたバス３６６と、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ：中央処理装置）３５６と、コンピュータのブートアッププログラムを記憶するＲＯＭ（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ：読出専用メモリ）３５８と、ＣＰＵ３５６によって用いられるワークエリアとＣＰＵ３５６によって実行されるプログラムの記憶領域とを提供するＲＡＭ(ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ：ランダムアクセスメモリ)３６０と、オーディオデータ（入力音声１３８）、音響モデル１５０、発音レキシコン１５２、ＢＮｌｅｘ１３６、言語モデル１５４及び自然発話コーパス１３２を記憶するハードディスクドライブ３５４と、を含む。

上述の実施の形態のシステムを実現するソフトウェアは、ＤＶＤ−ＲＯＭ３６２又は半導体メモリ３６４等の記録媒体上に記録されたオブジェクトコードの形で頒布されてもよく、ＤＶＤ−ＲＯＭドライブ３５０又は半導体メモリドライブ３５２等の読出装置を介してコンピュータ３４０に提供され、ハードディスクドライブ３５４に記憶される。ＣＰＵ３５６がプログラムを実行する場合は、プログラムはハードディスクドライブ３５４から読出され、ＲＡＭ３６０に記憶される。図示しないプログラムカウンタによって指定されたアドレスから命令がフェッチされ、その命令が実行される。ＣＰＵ３５６が、処理すべきデータをハードディスクドライブ３５４、ＲＡＭ３６０、又はＣＰＵ３５６内のレジスタ（図示せず）から読出し、処理の結果をまたハードディスクドライブ３５４、ＲＡＭ３６０、又はＣＰＵ３５６内のレジスタに記憶する。マイクロフォン３７０とサウンドボード３６８とは上述の実施の形態のシステムで処理すべきオーディオデータをキャプチャするのに用いられる。

コンピュータシステム３３０の一般的動作は周知であるので、詳細はここでは説明しない。

ソフトウェア頒布の方法について、これは必ずしも記録媒体上に固定されていなくてもよい。例えば、ソフトウェアはネットワークで接続された別のコンピュータから配布されてもよい。ソフトウェアの一部をハードディスクドライブ３５４に記憶させ、ソフトウェアの残りの部分をネットワークを介してハードディスクドライブ３５４に取寄せ、実行時に統合してもよい。

典型的には、現代のコンピュータはコンピュータのオペレーティングシステム（ＯＳ）によって提供される一般的な機能を利用し、所望の目的に従った制御されたやり方でこれら機能を実行する。従って、ＯＳ又はサードパーティによって提供されうる一般的な機能を含まず、一般的な機能の実行順序の組合せのみを指定するプログラムも、そのプログラムが全体として所望の目的を達成する制御構造を有する限り、この発明の範囲に含まれることは明らかである。

[第２の実施の形態]
第１の実施の形態では、ＢＮｌｅｘ１３６を用いてＮベスト仮説を再スコアリングした。しかし、この発明はそのような実施の形態に限定されない。ＢＮｌｅｘ１３６はデコードの処理それ自体で用いてもよい。第２の実施の形態では、図８に示すＡＳＲユニット１５６の単語レベル認識モジュール２３８が、ＢＮｌｅｘに置換えられる。図１３はこの発明の第２の実施例に従ったＡＳＲ装置３８０のブロック図である。図８及び図１３から明らかなように、ＡＳＲユニット１５６内の単語レベル認識モジュール２３８は、ＢＮｌｅｘ１３６を用いて音素認識モジュール２３６から出力される音素シーケンスをスコアリングする単語レベル認識モジュール３９０に置換えられる。

音素認識モジュール２３６の場合、音素のシーケンスは、発音レキシコン１５２中で音素シーケンスに最も近い基本形発音を有する単語を見つけることで、単語シーケンスに変形される。これに対して、単語レベル認識モジュール３９０は、ＢＮｌｅｘ１３６内のＢＮレキシコンモデルを利用した確率計算により音素シーケンス（表面形のシーケンス）に変形された、ＢＮｌｅｘ１３６内の単語の確率を計算し、音素のシーケンスを確率（ＢＮｌｅｘスコア）付きの単語シーケンスの組（仮説）に変形する。その後、ＬＭスコアリングモジュールがさらに仮説のＢＮｌｅｘスコアをＬＭスコアと組合せ、最も高い発話スコアを達成する仮説を選択する。

上の説明から明らかなように、この発明はＢＮフレームワークを用いて会話音声認識における発音変異をモデル化する。この方法は、付加的情報を既存の統計的発音モデルに容易に統合することを可能にする。ＢＮｌｅｘは、Ｎベスト出力の再スコアリング、又はでコード処理で用いることもできる。

話し方のスタイル及び韻律を含むより高度な知識源をこのＢＮｌｅｘフレームワークに組入れることも可能である。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。

１３０音声認識システム
１３２自然発話コーパス
１３４ＢＮｌｅｘトレーニングモジュール
１３６ＢＮｌｅｘ
１３８入力音声
１４０出力
１５０音響モデル
１５２発音レキシコン
１５４言語モデル
１５８Ｎベスト仮説
１６０再スコアリングモジュール
１７０発話データ
１８０基本形
１８２表面形
３８０ＡＳＲ装置
３９０単語レベル認識モジュール

Claims

統計的発音変異モデルを記憶する記憶媒体であって、前記モデルは複数の音素発音変異項目を含み、
前記発音変異項目の各々は、
音素の基本形と
音素の前記基本形の表面形と、
前記基本形の文脈による知識源の組と、
前記文脈による知識源の組によって決定される文脈において前記表面形が前記基本形から生じる確率とを含む、記録媒体。
前記文脈による知識源の組は、前記基本形に先行する音素、前記基本形に後続する音素、及び前記基本形が単語中で生じる位置、若しくは前記基本形が前記表面形で削除されるか否か、又はこれら知識源のいずれかの組合せを含む、請求項１に記載の記録媒体。
前記文脈による知識源の組は、前記基本形に先行する音素クラス、前記基本形に後続する音素クラス、前記基本形が単語中で生じる位置、若しくは前記基本形が前記表面形で削除されるか否か、又はこれら知識源のいずれかの組合せを含む、請求項１に記載の記録媒体。
自動音声認識システムであって、
特定の言語の発音基本形の各々について、発音基本形、発音表面形及び１又は２以上の付加的な知識源間の条件関係を記述するベイズネットワークトポロジーとともに、統計的発音モデルを記憶するための手段と、
前記特定言語の入力音声信号を、音響モデル、言語モデル、及び前記統計的発音モデルを用いて統計的にデコードし、前記入力音声信号によって表わされる前記特定言語において最尤単語シーケンスのテキストデータを出力するための手段とを含む、自動音声認識システム。
前記１又は２以上の付加的な知識源は、前記特定言語における単語の発音基本形の１又は２以上の文脈による知識源を含む、請求項４に記載の自動音声認識システム。
前記文脈による知識源は、発音基本形が単語のどこに位置するかに関する情報、前記発音基本形の前に何があるかに関する情報、前記発音基本形の後に何があるかに関する情報、前記発音基本形が対応の発音表面形で削除されるか否かに関する情報、又はそのいずれかの組合せを含む、請求項４に記載の自動音声認識システム。
前記統計的デコードのための手段は、
前記入力音声信号を、前記音響モデル、前記言語モデル、及び前記特定言語におけるレキシコンを用いて統計的にデコードし、前記入力音声信号によって表わされる前記特定言語における予め定められた数の最尤単語シーケンスのテキストデータを出力するための手段と、
前記統計的発音モデルを用いて前記入力音声信号に対する前記単語シーケンスの各々の確率的スコアを再計算するための手段と、
前記単語シーケンスのうち前記再計算するための手段によって再計算された最も高いスコアを達成するものを選択するための手段とを含む、請求項４に記載の自動音声認識システム。
前記統計的デコードのための手段は、
前記入力音声信号を、音素レベルで、前記音響モデルを用いてデコードし、前記入力音声信号を表す音素のいくつかのシーケンス候補を出力するための手段と、
前記統計的発音モデルと前記言語モデルとを用いて、前記音素のシーケンス候補の各々についての確率スコアを計算するための手段と、
前記再計算する手段によって再計算された最も高いスコアを達成する音素シーケンスに対応する基本形音素のシーケンスを選択するための手段とを含む、請求項４に記載の自動音声認識システム。
コンピュータで実行されると、前記コンピュータを請求項４〜請求項８のいずれかに記載の手段の全てとして機能させる、コンピュータプログラム。