JP2009003110A

JP2009003110A - 知識源を組込むための確率計算装置及びコンピュータプログラム

Info

Publication number: JP2009003110A
Application number: JP2007162864A
Authority: JP
Inventors: Watiasri Sakti Sakriani; サクリアニワティアスリサクティ; Markov Konstantin; コンスタンティン・マルコフ; Satoru Nakamura; 哲中村
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2007-06-20
Filing date: 2007-06-20
Publication date: 2009-01-08
Anticipated expiration: 2027-06-20
Also published as: JP4861912B2

Abstract

【課題】利用可能なトレーニングデータを用いて，音声信号の音素の確率を頑健に計算することが可能な確率計算装置を提供する.
【解決手段】確率計算装置５１６は、統計的音響モデル及び知識源を利用して音声信号における各音素の確率を計算する。統計的音響モデル及び知識源はベイズネットワーク（ＢＮ）により示される因果関係を有し、ＢＮは、クラスタノード及びセパレータノードを含むジャンクションツリーに対応する。本装置５１６は、局部的音響モデルＲ３，Ｃ１，Ｌ３の記憶装置５２０と、フレームの各々に対して観測データを計算するモジュールと、局部的音響モデルＲ３，Ｃ１，Ｌ３を利用して、観測データを発生する各音素の局部的確率を計算する右、中央、及び左コンテキスト計算装置５７０、５７２及び５７４と、局部的確率の関数として各音素の確率を計算するＰＤＦ計算装置５７６とを含む。
【選択図】図１３

Description

本発明は音声認識における確率計算に関し，特に，１以上の知識源を組込んだ音声認識における確率計算に関する．

情報技術は成長を続けており，日常生活の多くの局面においてますます大きな影響力を持つようになってきている．人間と，対話型システムのような情報処理装置との間の音声を介したコミュニケーションの様態もまた，ますます重要になっている．音声指向型インターフェースを実現するための基本的技術の１つとして，自動音声認識（ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ：ＡＳＲ）がある．過去４０年近く，多くの研究者がＡＳＲの領域の研究を行なってきた．その目標は，人間が発話した自然の話し言葉を，自動的に認識することが可能な知的な情報処理装置の開発である．しかし，複雑な音響信号から，その背後に存在する言語的なメッセージを抽出するのは，信号に含まれる変動について多くの源が存在するため，容易な処理ではない．

いくつかのアプローチがこの問題に対処するために開発されている．これらのＡＳＲへのアプローチは，一般的に“知識ベース”と“コーパスベース”との２つのタイプに分類される．

前者は主に，音声信号のスペクトログラム又はその他の視覚的表現を解釈する人間の能力に基づいており，知識ベースの規則を用いる．しかし，これらの規則が互いに依存する全ての場合を予見するのは難しいため，ある規則が，同じ現象を説明する上で他の規則と全く矛盾するなどして，他の規則と必然的に競合してしまう．

これとは対照的に，後者のアプローチは通常，データから知識を自動的に抽出可能な，明確に定義された統計的アルゴリズムを用いた，音声信号のモデル化を基本にしている．このモデル化のアプローチは有望な結果を与えており，前者の知識ベースによるアプローチよりも良い性能を示している．これが，現在のＡＳＲシステムの多くが，隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌｓ：ＨＭＭ）に基づく統計的データ駆動型の方法を用いる理由である．最先端のＡＳＲシステムは，制御された条件においては非常に高い性能に到達している．

この領域の著しい進歩にもかかわらず，ＡＳＲシステムが毎日の生活で幅広く利用され，潜在能力を完全に発揮するまでには，克服すべき多くの課題が未だ存在する．例えば，予期できない音響の変化が存在すると，ＡＳＲシステムは人間の聴者よりもはるかに劣る性能しか示さない．単に，統計的モデルに頼るだけで，利用可能な付加的知識をほとんど無視するのでは，限定されたレベルの成功にしか到達できない．多くの研究者はこの問題に気付いており，知識ベース及び統計的なアプローチをさらに明確に統合するための様々な試みを行なってきた．

今までのところ，非特許文献１は，再スコアリングを目的として，ニューラルネットワークを用いて，音響音素知識源の組込みを可能にする研究を提案している．非特許文献２及び３に開示の大語彙連続音声認識（Ｌａｒｇｅ−ＶｏｃａｂｕｌａｒｙＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ：ＬＶＣＳＲ）システムもまた，クインフォン／ペンタフォンといった長い期間の同時調音効果の組込みにより，音響モデルの改善をもたらすことに成功した．何人かの研究者は，最近になり，ベイズネットワーク（ＢａｙｅｓｉａｎＮｅｔｗｏｒｋｓ：ＢＮ）のようなグラフ的なツールの利用を試みている．ＢＮはＨＭＭを普遍化したものと考えることもでき，音声のスペクトル情報に加えて，調音素性，サブバンドの相関関係，又は話し方のスタイル等の付加的知識を簡単に組込むことができる（非特許文献４）．
特開２００７−０５２１６６公報Ｊ．リ，Ｙ．ツァオ，及びＣ．−Ｈ．リー，「自動音声認識における候補の再スコアリングのための知識源統合」，ＩＣＡＳＳＰ予稿集，フィラデルフィア，米国，２００５，８３７−８４０ページ（Ｊ．Ｌｉ，Ｙ．Ｔｓａｏ，ａｎｄＣ．−Ｈ．Ｌｅｅ，"Ａｓｔｕｄｙｏｎｋｎｏｗｌｅｄｇｅｓｏｕｒｃｅｉｎｔｅｇｒａｔｉｏｎｆｏｒｃａｎｄｉｄａｔｅｒｅｓｃｏｒｉｎｇｉｎａｕｔｏｍａｔｉｃｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ，"ｉｎＰｒｏｃ．ＩＣＡＳＳＰ，Ｐｈｉｌａｄｅｌｐｈｉａ，ＵＳＡ，２００５，ｐｐ．８３７−８４０．）Ｃ．ネッティ，Ｇ．ポタミアノス，Ｊ．ルッティン，Ｉ．マシューズ，Ｈ．グロティン，Ｄ．ヴェルギリ，Ｊ．シソン，Ａ．マシャリ及びＪ．シュー，「聴覚−視覚的音声認識」，技術報告，ＣＳＬＰジョンホプキンス大学，ボルチモア，米国，２０００年（Ｃ．Ｎｅｔｉ，Ｇ．Ｐｏｔａｍｉａｎｏｓ，Ｊ．Ｌｕｅｔｔｉｎ，Ｉ．Ｍａｔｔｅｗｓ，Ｈ．Ｇｌｏｔｉｎ，Ｄ．Ｖｅｒｇｙｒｉ，Ｊ．Ｓｉｓｏｎ，Ａ．Ｍａｓｈａｒｉ，ａｎｄＪ．Ｚｈｏｕ，"Ａｕｄｉｏ−ｖｉｓｕａｌｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ，"Ｔｅｃｈ．Ｒｅｐ．，ＣＳＬＰＪｏｈｎＨｏｐｋｉｎｓＵｎｉｖｅｒｓｉｔｙ，Ｂａｌｔｉｍｏｒｅ，ＵＳＡ，２０００．）Ａ．ローリエ，Ｄ．ヒンドル，Ｍ．ライリー及びＲ．スプロート，「ＡＴ＆ＴＬＶＣＳＲ−２０００システム」，音声トランスクリプションワークショップ，メリーランド大学，米国，２０００年（Ａ．Ｌｊｏｌｊｅ，Ｄ．Ｈｉｎｄｌｅ，Ｍ．Ｒｉｌｅｙ，ａｎｄＲ．Ｓｐｒｏａｔ，"ＴｈｅＡＴ＆ＴＬＶＣＳＲ−２０００ｓｙｓｔｅｍ，"ｉｎＳｐｅｅｃｈＴｒａｎｓｃｒｉｐｔｉｏｎＷｏｒｋｓｈｏｐ，ＵｎｉｖｅｒｓｉｔｙｏｆＭａｒｙｌａｎｄ，ＵＳＡ，２０００.）Ｋ．ダウディ，Ｄ．フォア及びＣ．アントアーヌ，「確率論的グラフモデルに基づくマルチバンド音声認識の新たな試み」，ＩＣＳＬＰ予稿集，北京，中国，３２９−３３２ページ，２０００年（Ｋ．Ｄａｏｕｄｉ，Ｄ．Ｆｏｈｒ，ａｎｄＣ．Ａｎｔｏｉｎｅ，"Ａｎｅｗａｐｐｒｏａｃｈｆｏｒｍｕｌｔｉ−ｂａｎｄｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｂａｓｅｄｏｎｐｒｏｂａｂｉｌｉｓｔｉｃｇｒａｐｈｉｃａｌｍｏｄｅｌｓ，"ｉｎＰｒｏｃ．ＩＣＳＬＰ，Ｂｅｉｊｉｎｇ，Ｃｈｉｎａ，ｐｐ．３２９−３３２，２０００．）Ｋ．マルコフ及びＳ．ナカムラ，「ハイブリッドＨＭＭ／ＢＮ音響モデルの前方向−後方向トレーニング」，ＩＣＬＳＰ予稿集，６２１−６２４ページ，２００６年（Ｋ．ＭａｒｋｏｖａｎｄＳ．Ｎａｋａｍｕｒａ，"Ｆｏｒｗａｒｄ−ｂａｃｋｗａｒｄｓｔｒａｉｎｉｎｇｏｆｈｙｂｒｉｄＨＭＭ／ＢＮａｃｏｕｓｔｉｃｍｏｄｅｌｓ，"ｉｎＰｒｏｃ．ＩＣＳＬＰ，ｐｐ．６２１−６２４，２００６．）Ｊ．Ｊ．オデル，「大語彙音声認識でのコンテキストの使用」，博士論文，ケンブリッジ大学，ケンブリッジ，英国，１９９５（Ｊ．Ｊ．Ｏｄｅｌｌ，ＴｈｅＵｓｅｏｆＣｏｎｔｅｘｔｉｎＬａｒｇｅＶｏｃａｂｕｌａｒｙＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ，Ｐｈ．Ｄ．ｔｈｅｓｉｓ，ＣａｍｂｒｉｄｇｅＵｎｉｖｅｒｓｉｔｙ，Ｃａｍｂｒｉｄｇｅ，ＵＫ，１９９５．）Ｊｉ．ミン，Ｐ．Ｏ．ボイル，Ｍ．オーウェンス，及びＦ．Ｊ．スミス，「連続音声認識のためのトライフォンモデル構築のためのベイズアプローチ」，ＩＥＥＥ音声及び音響処理トランザクション，第７巻，第６号，６７８−６８４ページ，１９９９年１１月（Ｊｉ．Ｍｉｎｇ，Ｐ．Ｏ．Ｂｏｙｌｅ，Ｍ．Ｏｗｅｎｓ，ａｎｄＦ．Ｊ．Ｓｍｉｔｈ，"ＡＢａｙｅｓｉａｎａｐｐｒｏａｃｈｆｏｒｂｕｉｌｄｉｎｇｔｒｉｐｈｏｎｅｍｏｄｅｌｓｆｏｒｃｏｎｔｉｎｕｏｕｓｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ，"ＩＥＥＥＴｒａｎｓ．ＳｐｅｅｃｈａｎｄＡｕｄｉｏＰｒｏｃｅｓｓｉｎｇ，ｖｏｌ．７，ｎｏ６，ｐｐ．６７８−６８４，Ｎｏｖｅｍｂｅｒ１９９９．）Ｓ．サクティ，Ｓ．ナカムラ，及びＫ．マルコフ，「ベイズフレームワークに基づく広域音素コンテキストの組込みによる音響モデル精度の向上」，ＩＥＩＣＥ情報＆システムトランザクション，Ｅ８９−Ｄ巻，第３号，９４６−９５３ページ，２００６年（Ｓ．Ｓａｋｔｉ，Ｓ．Ｎａｋａｍｕｒａ，ａｎｄＫ．Ｍａｒｋｏｖ，"ＩｍｐｒｏｖｉｎｇａｃｏｕｓｔｉｃｍｏｄｅｌｐｒｅｃｉｓｉｏｎｂｙｉｎｃｏｒｐｏｒａｔｉｎｇａｗｉｄｅｐｈｏｎｅｔｉｃｃｏｎｔｅｘｔｂａｓｅｄｏｎａＢａｙｅｓｉａｎｆｒａｍｅｗｏｒｋ"ＩＥＩＣＥＴｒａｎｓ．Ｉｎｆ．＆Ｓｔｓｔ．，ｖｏｌ．Ｅ８９−Ｄ，ｎｏ．３，ｐｐ．９４６−９５３，２００６）Ｔ．ジツヒロ，Ｔ．マツイ，及びＳ．ナカムラ，「ＭＤＬ基準に基づく非均一ＨＭＭトポロジの自動生成」，ＩＥＩＣＥ情報＆システムトランザクション，Ｅ８７−Ｄ巻，第８号，２１２１−２１２９ページ，２００４年（Ｔ．Ｊｉｔｓｕｈｉｒｏ，Ｔ．Ｍａｔｓｕｉ，ａｎｄＳ．Ｎａｋａｍｕｒａ，"Ａｕｔｏｍａｔｉｃｇｅｎｅｒａｔｉｏｎｏｆｎｏｎ−ｕｎｉｆｏｒｍＨＭＭｔｏｐｏｌｏｇｉｅｓｂａｓｅｄｏｎｔｈｅＭＤＬｃｒｉｔｅｒｉｏｎ，"ＩＥＩＣＥＴｒａｎｓ．Ｉｎｆ．＆Ｓｙｓｔ．，ｖｏｌＥ８７−Ｄ，ｎｏ．８，ｐｐ．２１２１−２１２９，２００４）

しかし，そのような複雑なモデル等を開発して最善の性能を達成することが可能ではない場合がしばしばであった．モデルのパラメータを適切にトレーニングするには資源が不十分なとき，すなわちトレーニングデータの量，及び利用可能なメモリ領域のような資源が不十分な時に，特にそうしたことが起こる．その結果，頑健でない推定と，未知のパターンの数の増加とにより，入力空間の分解能が失われる．さらに，大きなモデルを用いたデコードもまた煩雑となり，時には不可能にさえなる．ここでできる最良の方法は，利用可能なトレーニングデータを用いて信頼性高く推定できる，簡単な形式のモデルを選択することである．

それゆえに，本発明の目的の１つは，利用可能なトレーニングデータを用いて，音声信号の音素の確率を頑健に計算することが可能な確率計算装置を提供することである．

本発明の別の目的は，データが疎になる可能性があるトレーニングデータを用いて音声信号の音素の確率を，頑健でかつ高い信頼性で計算することが可能な確率計算装置を提供することである．

本発明の第１の局面は，音声信号の所与のセグメント中に存在する，予め定義された組の音素の各々について，音声信号のための統計的音響モデル及び１以上の知識源を用いて，確率を計算するための確率計算装置に関する．セグメントは，音声信号の複数のフレームを含む．音響モデル及び１以上の知識源はベイズネットワークにより示される因果関係を有する．ベイズネットワークは，複数のクラスタノード及び１以上のセパレータノードを含むジャンクションツリーに対応する．この装置は，クラスタノード及び１以上のセパレータノードに対応する，複数の局部的音響モデルを記憶するための手段と，フレームの各々に対して予め定義された観測データを計算するための手段と，複数の局部的音響モデルを利用して，音素の各々の，観測データを発生する局部的確率を計算するための局部的確率計算手段と，音素の各々の，観測データを発生する確率を，局部的確率計算手段により計算された局部的確率の所定の関数として計算するための確率計算手段とを含む．

局部的な音素の各々の，観測データを発生する確率は，局部的確率の予め定義された関数により計算される．各音素に対する局部的確率は複数の局部的音響モデルを利用して計算される．局部的モデルは１以上の知識源を組込んだモデルよりも小さいため，計算量はより少なくなり，モデルのトレーニングに必要なトレーニングデータの量もより少なくなり，そして，確率計算はより頑健で信頼性が高くなる．

好ましくは，所定の関数は

で定義され，Ｄは観測データであり，Ｍは音響モデルであり，Ｎは正の整数であり，Ｋ_ｉは１以上の知識源であり，ただし，Ｐ（Ｄ｜Ｋ_ｉ，Ｍ）（ｉ＝１〜Ｎ）及びＰ（Ｄ｜Ｍ）は局部的確率計算手段により計算された局部的確率である．

さらに好ましくは，モデルＭはモノフォン音響モデルであり，１以上の知識源は先行するトライフォンコンテキストユニット及び後続するトライフォンコンテキストユニットを含む．

さらに好ましくは，モデルＭは追加の知識源を用いてトレーニングされたモノフォン音響モデルであり，１以上の知識源は先行するトライフォンコンテキストユニット及び後続するトライフォンコンテキストユニットを含む．

追加の知識源はアクセント知識，又は性別に関する知識，又はアクセント知識及び性別に関する知識の両方を含む．

本発明の第２の局面は，コンピュータ上で実行されると，当該コンピュータに，音声信号の所与のセグメント中に存在する，予め定義された組の音素の各々について，音声信号のための統計的音響モデル及び１以上の知識源を用いて，確率を計算するための確率計算装置として機能させるコンピュータプログラムに関する．セグメントは，音声信号の複数のフレームを含む．音響モデル及び１以上の知識源はベイズネットワークにより示される因果関係を有する．ベイズネットワークは，複数のクラスタノード及び１以上のセパレータノードを含むジャンクションツリーに対応する．このコンピュータプログラムは，コンピュータを，クラスタノード及び１以上のセパレータノードに対応する，複数の局部的音響モデルを記憶するための手段と，フレームの各々に対して予め定義された観測データを計算するための手段と，複数の局部的音響モデルを利用して，音素の各々の，観測データを発生する局部的確率を計算するための局部的確率計算手段と，音素の各々の，観測データを発生する確率を，局部的確率計算手段により計算された局部的確率の所定の関数として計算するための確率計算手段として機能させる．

１．序論
ここでは，本願が提案するフレームワークを，データのスパースネス及びメモリの制約という困難をしばしば伴う，広域音素知識情報に組込むという問題に適用することについて論ずる．はじめに，どのように付加的知識源がＨＭＭ状態の分布に組込まれるかを示す．次に，どのように付加的知識源がＨＭＭ音素モデリングに組込まれるかを示す．何れのアプローチも２種類のアクセントを含む英語音声データを用いた大語彙連続音声認識実験により実験的に実証されている．

はじめに，付加的知識源の組込みに対する一般的フレームワークについて次のセクションに記述する．次に，従来のＨＭＭ音響モデルについての概略をセクション３に記述する．セクション４及び５では，ＨＭＭ状態及び音素モデルレベルで付加的知識源を組込むにあたり，どのように本フレームワークが用いられるかを示す．ここには広域音素コンテキスト情報の組込みの問題への適用法も含まれる．実験の詳細を，結果及び議論を含めてセクション６に示す．最後に，結論がセクション７に記述される．

２．知識源を組込むための一般的フレームワーク
統計的コーパスベースのアプローチにおいては，ある観測データＤが与えられることにより，モデルＭをトレーニングする．興味の対象となる重要な問題の１つは，そのモデルについて特定の知識が与えられることにより期待することができるデータを予測する，尤度Ｐ（Ｄ｜Ｍ）を計算することである．

確率密度関数Ｐ（Ｄ｜Ｍ）は，単純な場合は条件付確率テーブル（ＣｏｎｄｉｔｉｏｎａｌＰｒｏｂａｂｉｌｉｔｙＴａｂｌｅｓ：ＣＰＴ）（Ｄが離散的な場合），又はガウス分布のような連続的関数（Ｄが連続の場合）によりモデル化することができる．この場合，所与のデータｄ及びモデルパラメータｍに対する出力確率は，以下のように簡略に計算される．

その後，付加的知識源をこのモデルに組込む必要があると仮定する．ここでは，どのようにして付加的知識源が組込まれるかを考慮することが必要である．この考慮の手順はいくつかのステップを含み，その概略を図１に示す．

図１を参照して，この手順は，情報源，モデル及びデータの間の因果関係を，ＢＮを用いて定義するステップ（ステップ５０）と，直接にＢＮ推論をすることが可能か否かを判定するステップ（ステップ５２）と，直接にＢＮ推論が可能と判定されたときに，直接にＢＮ推論を実行するステップ（ステップ５４）と，直接にＢＮ推論することが不可能と判定されたときに，後述するジャンクションツリーアルゴリズムを用いて，関係に関するネットワークをリンクされたクラスタの組に分解するステップ（ステップ５６）と，ステップ５６において得られたジャンクションツリー上で推論を行なうステップ５８とを含む．

以下に，その手順のさらなる詳細を記述する．

Ａ．情報源間の因果関係の定義
ＤとＭの間の因果関係がＢＮを用いて説明されるような，単純な場合からはじめる．ＢＮの１つの例は，図２（Ａ）にその概略を示す，ノード７２及びノード７４を含むＢＮ７０である．ここで，ノードＭ７２は正方形のノードで示される離散変数であり，ノードＤ７４は楕円のノードにより示される連続変数である．

ＢＮの同時確率関数は以下のように因数分解される．

ただし，Ｐａ（Ｚ_ｋ）はＢＮ変数Ｚ_ｋの親を示す．このことから，図２（Ａ）より以下の式を得る．

このため，データに関する知識に基づき，Ｄ，Ｍ及びＫの間の条件に関する依存性を単純に定義し，付加的な知識ＫをＰ（Ｄ，Ｍ）に組込み，同時確率モデルを同様の方法により表す．例えば，Ｄ，Ｍ及びＫの間の条件に関する依存性を，図２（Ｂ）に概略を示すＢＮにより表すことができる．図２（Ｂ）では，ＢＮ８０はノード７２及び７４と，付加的ノードＫ７６とを含む．ここでＢＮ同時確率関数は以下のようになる．

さらに詳細な例を考える．ここまで，Ｋ_１，Ｋ_２，…，Ｋ_Ｎ知識源があると仮定していた．ここでは，これらすべてが条件に関する依存性が無いと仮定している．図３に，Ｄ，Ｍ及びＫ_１，Ｋ_２，…，Ｋ_Ｎの間の条件に関する依存性の構造の２つの例の概要を示す．

図３（Ａ）を参照して，ネットワーク９０はノード７２及び７４と，さらにノード９２，９４，…，９６（ノードＫ_１〜Ｋ_Ｎ）とを含む．ノードＫ_１〜Ｋ_Ｎは親ノード７２及び子ノード７４を持つ．図３（Ｂ）に示すネットワーク１００は，ノード７２及び７４と，ノード９２，…，及び９６（ノードＫ_１〜Ｋ_Ｎ）とを含む．ノードＫ_１〜Ｋ_Ｎのうちノード９２及び９６は子ノード７４のみを持つが，他のノードは親ノード７２及び子ノード７４を持つ．

このため，図３（Ａ）に示されるＢＮに対する同時確率密度関数は，式（２）により以下の様になる．

もし，図３（Ｂ）（Ｋ_１及びＫ_Ｎを参照）に示すように，Ｍからの因果関係の影響を何ら受けないあるＫ_ｉがある場合，同時確率密度関数は以下の式で示されるようになる．

ここで分かるように，条件に関する独立性の仮定が異なると，確率関数の分解の仕方も異なってくる（式（５）及び（６）を参照）．

Ｂ．ベイズネットワークにおける直接推論
推論における最重要関心事は，大域での条件付確率Ｐ（Ｄ｜Ｋ_１，…，Ｋ_Ｎ，Ｍ）を計算することである．この確率密度関数がとる形式が，直接的なＢＮ推論を許容する場合，以下の２つのケースが考えられる．

１）全ての変数が観測可能である．

このケースでは，確率密度関数は単純に式（１）で計算される．

２）付加的な知識源Ｋ_１，…，Ｋ_Ｎのような，いくつかの変数が観測できないか，または隠されている．

このケースでは，確率密度関数は式（５）と，すべてのＫ_ｉに対しすべての可能なＫ_i：ｋ_ｉ１，ｋ_ｉ２，…，ｋ_ｉＭに関するマージナライゼーションにより計算される．

ただし単純化のために，＜Ｄ＝ｄ＞，＜Ｍ＝ｍ＞，及び＜Ｋ_ｉ＝ｋ_ｉｊ＞の変わりに，ｄ，ｍ，及びｋ_ｉｊを用いている．

しかし，全体的な条件付確率Ｐ（Ｄ｜Ｋ_１，…，Ｋ_Ｎ，Ｍ）の計算は，変数が多すぎること，及び／または，計算上の複雑さにより，簡単ではないことがある．このような場合，有向グラフを変数のクラスタに分解し，これらに対し適切な計算を実行できるようにすることが必要である．この処理は，次のサブセクションで述べるジャンクションツリーアルゴリズムにより行なえる．

Ｃ．ジャンクションツリー分解
Ｋ_１及びＫ_２の２つの付加的知識源の組込みのみの単純なケースを考えてみる．Ｄ，Ｍ，Ｋ_１及びＫ_２の間の因果関係を，図４（Ａ）に示すＢＮ１１０により示す．ＢＮ１１０はＭ，Ｄ，Ｋ_１及びＫ_２によりそれぞれ示す，ノード１１２，１１４，１１６及び１１８を含む．ここで，ノードＭ，Ｋ_１及びＫ_２は正方形のノードで示される離散変数であり，ノードＤは楕円のノードで示される連続変数である．

そして，ジャンクションツリーを得るために，以下のようなグラフ変換が実行される．

１）親を結合させ（共通の子を持つ全ての変数のペアの間にリンクを追加し），リンクの向きをなくすことにより，ＢＮ１１０から無向グラフを組立てる．図４（Ａ）の場合，ノード１１６及び１１８の間にリンクが付与される．その結果得られるグラフは「モラルグラフ」と呼ばれる．

２）三角形からなるグラフ（トライアンギュレートグラフ）を形成するため，選択的にモラルグラフにアーク（弧）を付加する．もし“コードレスサイクル”が存在しなければ，グラフはトライアンギュレートである，という．コード（弦）とは，長さが３より大きいサイクル内の，２つの連続しない頂点を接続するエッジである．

３）トライアンギュレートグラフにおいて，Ｐａ（Ａ）≠０であるすべての変数Ａに対して，Ｐａ（Ａ）∪Ａを含むサブセットを形成する．これはクラスタまたはクリークとよばれる．

４）クラスタ／クリークをノードとしてジャンクションツリーを構築する．この場合，二つのクリークの間のリンクの各々は，これらクリークの間の空ではない共通集合のセパレータを用いてラベル付けされる．

図４（Ｂ）は，図４（Ａ）に示すＢＮ１１０に相当する，モラル及びトライアンギュレートグラフ１３０の概要を示す．グラフ１３０はノード１１６及び１１８の間に追加のリンク１２０を含む．しかし，このトライアンギュレートグラフからはＤ，Ｍ，Ｋ_１及びＫ_２の変数の全体の集合からなる１つのクラスタ／クリークしか得ることができず，これ以上分解できない．幸運にも，Ｋ_１及びＫ_２は独立であると仮定されるため，いくつかの矢を逆向きにすることにより，ＢＮ１１０と等価の図４（Ｃ）に示すＢＮ１４０を得ることができる．これが可能なのは，Ｐ（Ｘ，Ｙ）がＰ（Ｘ｜Ｙ）Ｐ（Ｙ）とＰ（Ｙ｜Ｘ）Ｐ（Ｘ）とに分解できること，及びこの２つが互いに等価であるためである．

図４（Ｄ）はＢＮ１４０に対応するモラル及びトライアンギュレートグラフ１５０の概要を示す．これによりクラスタ／クリークを同定することができ，さらに図４（Ｅ）にその概要を示すジャンクションツリーを得ることができる．ここではクラスタの組は楕円のノード１６４及び１６６により表され，セパレータの組は正方形のノード１６２により表されている．

以上から，ＢＮ同時確率分布は，全てのクラスタのポテンシャル（確率）の積を，セパレータのポテンシャルの積で除算することにより以下のように定義される．

ただし，Ｕはグラフにおける全ての変数を示す「世界」を，φ_Ｃｉはクラスタポテンシャル（クラスタＣｉにおける確率）を，φ_Ｓｉはセパレータポテンシャル（セパレータＳｉにおける確率）を示す．このため，同時確率関数，Ｐ（Ｄ，Ｋ_１，Ｋ_２，Ｍ）は図４（Ｅ）によれば以下のようになる．

ただし，Ｐ（Ｄ，Ｋ_１，Ｍ）とＰ（Ｄ，Ｋ_２，Ｍ）とはクラスタポテンシャルであり，Ｐ（Ｄ，Ｍ）はセパレータポテンシャルである．

同様の仮定及び考慮に基づいて，図３（Ａ）に示すＢＮ９０と同様のＢＮトポロジは図５（Ａ）のように書くことができる．図５（Ｂ）にこれに対応するジャンクションツリーを示す．図５（Ｂ）では，変数｛（Ｄ，Ｋ_１，Ｍ），（Ｄ，Ｋ_２，Ｍ），…（Ｄ，Ｋ_Ｎ，Ｍ）｝のＮ個のクラスタ１６４，１６６，…１７０と，Ｎ−１個のセパレータ｛Ｄ，Ｍ｝（ノード１６２，１６８等）が存在する．このため式（５）により求められる同時確率関数は以下の式により分解することができる．

これは，同時確率関数Ｐ（Ｄ，Ｋ_１，…，Ｋ_Ｎ，Ｍ）を，ある付加的な知識Ｋ_１，Ｋ_２，…，Ｋ_Ｎが与えられた場合の観測データＤの確率に対応するいくつかの局部的な同時確率関数Ｐ（Ｄ，Ｋ_１，Ｍ），…，Ｐ（Ｄ，Ｋ_Ｎ，Ｍ）を合成したものとして表す新しい表記方法を示す．

Ｄ．ジャンクションツリー推論
チェーンルールを用いることにより，全てのＰ（Ｄ，Ｋ_ｉ，Ｍ）に対し以下の式を得る．

このため，式（１１）は以下のようになる．

この式（１１）を式（５）と比較すると，

であることが分かり，これは，Ｐ（Ｄ｜Ｋ_１，…，Ｋ_Ｎ，Ｍ）が，特定の付加的な知識Ｋ_１，Ｋ_２，…，Ｋ_Ｎが与えられた場合の観測データＤの確率に対応する別々の項に分解可能であることを示す．

いくつかの単純なＰ（Ｄ｜Ｋ_ｉ，Ｍ）を定義したり，推定したり，観測したりすることは，１つではあるが複雑なＰ（Ｄ｜Ｋ_１，…，Ｋ_Ｎ，Ｍ）と比べて非常に簡単となる．

このため，データｄ，モデルパラメータｍ，及び付加的な知識源ｋ_１ｊ，…，ｋ_Ｎｊが与えられた場合に対する推論における出力確率は，以下のように計算される．

３．従来のＨＭＭ音響モデル
従来のＨＭＭに関連して，いくつかの表記を定義する．トライフォンコンテキスト／ａ⁻，ａ，ａ^＋／のＨＭＭ音声モデルをλ，ＨＭＭ状態変数をＱと表記する．Ｘは観測変数であり，Ｘ_ｓ＝Ｘ_ｔ，…，Ｘ_ｔ＋ｍは長さｍの観測データセグメントである．図６に，標準的なＨＭＭ１９０の構造の概要を示す．ここでは，
１）短時間スペクトル特性はガウス分布２１０，２１２，及び２１４の混合によりモデル化される．

２）時間的な音声特徴は状態２００，２０２及び２０４の間でのＨＭＭ状態遷移２１６，２１８，２２０，２２２及び２２４により支配される．

ＨＭＭ状態出力確率ｐ（ｘ_ｔ｜ｑ_ｉ）は，通常，状態確率密度関数（ＰｒｏｂａｂｉｌｉｔｙＤｅｎｓｉｔｙＦｕｎｃｔｉｏｎ：ＰＤＦ）Ｐ（Ｘ｜Ｑ）から以下の式により計算される．

ただし，ｂ_ｍは状態ｑ_ｉのｍ番目の混合分布の混合重みであり，Ｎ（・）は平均ベクトルμ_ｍと共分散行列Σ_ｍとを持つガウス関数である．ＨＭＭセグメントの尤度Ｐ（Ｘ_ｓ｜λ）は，観測結果と状態シーケンスとの同時確率を，全ての状態シーケンスに対してとることにより（合計尤度），又は最も確からしい状態シーケンスのみに対してとることにより（ＶｉｔｅｒｂｉＰａｔｈ），計算される．

４．ＨＭＭ状態レベルでの知識源の組込み
Ａ．一般的検討
モデルＭは所定のトライフォンＨＭＭ状態Ｑであり，Ｄはセクション２に述べた理論的フレームワークに従う観測変数Ｘである．

１）因果関係の定義
このトポロジの構造は図２（Ａ）に示すものと同様であり，トライフォンＨＭＭ状態ＰＤＦは，ここでは式（３）と同様のＢＮ同時確率関数により示される．

単純に式（５）に従えば，以下のようになる．

これにより，追加の知識源Ｋ_１，Ｋ_２，…，Ｋ_ＮをＨＭＭ状態分類Ｐ（Ｘ，Ｑ）に組込む（すべてのＫ_１，Ｋ_２，…，Ｋ_Ｎが独立した所定のＱであると仮定されている．）．

２）推論
主たる関心事はＨＭＭ状態出力確率Ｐ（Ｘ｜Ｋ_１，…，Ｋ_Ｎ，Ｑ）の計算であるが，これはガウス関数により簡単にモデル化することが可能である．このために，状態出力を直接得ることができる．全ての追加の知識源Ｋ_１，…，Ｋ_Ｎがセクション２−Ｂに示されたように隠されていると仮定すると，状態出力確率は，すべての１≦ｉ≦Ｎに対して，すべての可能なＫ_i：ｋ_ｉ１，ｋ_ｉ２，…，ｋ_ｉＭをマージナライゼーションすることにより，式（８）と同様に得られる．

ここで，ｐ（ｋ_ｉ１｜ｑ_ｔ）…ｐ（ｋ_Ｎｊ｜ｑ_ｔ）の項を，ガウス成分ｐ（ｘ_ｔ｜ｋ_ｉ１，…，ｋ_Ｎｊ，ｑ_ｔ）の混合重み係数として扱えば，式（１９）もまた，式（１６）の従来のＨＭＭの状態出力確率と等価であることが分かる．式（１９）はガウス混合分布を表すので，ＨＭＭを基にした既存のデコーダを，何らかの修正をする必要なく用いて認識を行なうことができる．さらに，ＢＮは状態出力の尤度を推論するために使用されるのみであるので，ＨＭＭを基にしたトライフォン音響モデルのトポロジをそのまま維持し，ＨＭＭ状態遷移が依然として時間的な音声特性により支配されるようにできる．このアプローチはまた，ハイブリッドＨＭＭ／ＢＮモデル化フレームワークとして知られ，非特許文献５に記載されている．以後，状態レベルで付加的知識を組込んで得られるモデルを，ＨＭＭ／ＢＮモデルと呼ぶ．

このモデルのパラメータ学習は，非特許文献５に記載のＨＭＭ／ＢＮモデルの通常のトレーニングから採用できる．これはバックワード・フォワードアルゴリズムを基にしている．このアルゴリズムでは，各トレーニングの繰返しは，ＢＮのトレーニングと，ＨＭＭ遷移確率の更新とからなる．ＢＮのトレーニングは標準的な統計的方法を用いてなされる．トレーニングの間に全ての変数が観測可能であれば最大尤度（ＭＬ）パラメータ推定が適用され，いくつかの変数が隠れている場合，パラメータは標準的なエクスペクテーション・マキシマイゼーション（ＥＭ）アルゴリズムにより推定される．

Ｂ．広域音素コンテキスト情報の組込み
ＡＳＲシステムにおいて最も広く用いられる音響ユニットは，現在のところ，依然として，直近の先行する音素コンテキスト及び後続する音素コンテキストを含むトライフォンである．トライフォンは効果的な選択であることが確認されてきたが，より長い期間にわたる同時調音効果を捉えるためには，広域音素コンテキストの方がより適切と考えられている．しかし，広域音素コンテキストには，データのスパースネス及びメモリの制約という問題がある．

ここで，前のセクションに記載したフレームワークを，広域音素知識情報を組込むという問題にどのように適用するかを説明する．

従来の，トライフォンコンテキスト／ａ⁻，ａ，ａ^＋／であるＨＭＭ，λを，／ａ⁻⁻，ａ⁻，ａ，ａ^＋，ａ^＋＋／のようなペンタフォンコンテキストに拡張する必要があるものとする．このため，このアプローチに基づき，ＢＮに２つの変数を挿入することにより，二つ前及び後のコンテキスト，Ｃ_Ｌ（／ａ⁻⁻）及びＣ_Ｒ（／ａ^＋＋／）をトライフォン状態ＰＤＦに組込む．

トライフォンＨＭＭ状態Ｑと，観測データＸ，及び２つの付加的変数Ｃ_Ｌ及びＣ_Ｒ間の条件に関する依存性は，図７に概要を示すＢＮトポロジにより説明される．これをＢＮ−Ｃトポロジと呼ぶ．

図７を参照して，ベイズネットワーク２４０は，ノード２５０，２５２，２５４及び２５６を含み，これらはＱ，Ｘ，Ｃ_Ｌ，及びＣ_Ｒにより，それぞれ示される．ノードＣ_Ｌは２つ前のコンテキスト（／ａ⁻⁻）を，ノードＣ_Ｒは２つ後のコンテキスト（／ａ^＋＋／）を表す．

ＨＭＭ状態ＰＤＦは，現在のところ，ＢＮ同時確率により示される．これは式（１８）によると，以下のように分解される．

ただし，Ｘは２つ前のコンテキストＣ_Ｌ及び２つ後のコンテキストＣ_Ｒの両方に依存する．Ｘは連続の変数であり，Ｃ_Ｌ，Ｃ_Ｒ及びＱは離散的変数であるので，Ｐ（Ｘ｜Ｃ_Ｌ，Ｃ_Ｒ，Ｑ）はガウス関数でモデル化され，各々のＰ（Ｃ_Ｌ｜Ｑ）又はＰ（Ｃ_Ｒ｜Ｑ）はＣＰＴにより表される．

状態出力確率はＰ（Ｘ｜Ｃ_Ｌ，Ｃ_Ｒ，Ｑ）により得ることができる．付加的なコンテキスト変数Ｃ_Ｌ及びＣ_Ｒが，式（１９）のように認識時には得ることができない（隠されている）と仮定すると，

となり，ｐ（ｃ_ｌ｜ｑ_ｉ）ｐ（ｃ_ｒ｜ｑ_ｉ）の項を，ガウス成分の混合重み係数ｐ（ｘ_ｔ｜ｃ_ｌ，ｃ_ｒ，ｑ_ｉ）として扱えば，式（１９）は式（１６）の従来のＨＭＭの状態出力確率と等価である．したがって，ここで，ガウスＰＤＦはｃｌ，ｃｒ及びｑｉの全ての組合せに対しトレーニングされる．

さらにこのペンタフォンＢＮを，このフレームワークを使い，性別に関する情報又はアクセント情報等の他の追加の変数で拡張することもできる．図８はトライフォンＨＭＭ状態Ｑと，観測データＸと，２つの付加的変数Ｃ_Ｌ及びＣ_Ｒと，性別に関する変数Ｇ及び／又はアクセント変数Ａとの間の条件に関する依存性の構造の例をいくつか示す．

ＢＮトポロジは，ノード２７２により示される，性別に関する付加的変数Ｇを用いて，ＢＮ−Ｃを拡張することで，図８（Ａ）の参照番号２７０により示されるものになる．これをＢＮ−ＣＧと呼ぶ．ノード２９２により示される追加のアクセント変数Ａを用いてＢＮ−Ｃを拡張する場合は，ＢＮトポロジは図８（Ｂ）の参照番号２９０が示すものになり，これをＢＮ−ＣＡと呼ぶ．図８（Ｃ）のＢＮトポロジ３１０は，ノード２９２及び２７２によりそれぞれ示される，アクセント及び性別に関する変数の両方を用いて拡張されたものであり，ＢＮ−ＣＧＡと呼ぶ．

ＢＮ−ＣＧＡの例（図８（Ｃ）参照）に対するＨＭＭ状態ＰＤＦは以下のように表される．

ただし，Ｘは，アクセントＡ，性別Ｇ，２つ前のコンテキストＣ_Ｌ，及び２つ後のコンテキストＣ_Ｒに依存する．この状態出力確率はまた，式（２１）と同様の方法によりＰ（Ｘ｜Ｃ_Ｌ，Ｃ_Ｒ，Ｑ，Ａ，Ｇ）から得ることができる．

ここで，ｐ（ａ）ｐ（ｇ）ｐ（ｃ_ｌ｜ｑ_ｉ）ｐ（ｃ_ｒ｜ｑ_ｉ）の項を，ガウス成分の混合重み係数ｐ（ｘ｜ｃ_ｌ，ｃ_ｒ，ｑ_ｉ，ａ，ｇ）として扱えば，各ガウスＰＤＦはｃ_ｌ，ｃ_ｒ，ｑ_ｉ，ａ，及びｇの各組合せに対しトレーニングされる．

両方の表記（式（２１）及び（２３））は，標準トライフォンＨＭＭ音響モデルにおいて用いられるガウス分布の混合を示す．このため，既存のＨＭＭを基にしたデコーダを，何らかの修正を行なうことなく用いて認識を行なうことができる．提供モデルのパラメータ学習は前のセクションにおいて述べたようにして実行される．トライフォン状態Ｑ，アクセントＡ，性別Ｇ，２つ前のコンテキスト（Ｃ_Ｌ），２つ後のコンテキスト（Ｃ_Ｒ），及び変数Ｘを含む全ての変数が，トレーニングで観測可能であるから，ＭＬパラメータ推定が利用される．

全てのモデルパラメータを信頼性高く推定するにはトレーニングデータの量が不十分な場合，クラスタリング技術，例えば，知識ベースの，又は，データ駆動型のクラスタリングにより，パラメータの数を削減できる．例えば，２つ前／後の音素コンテキストＣ_Ｌ／Ｃ_Ｒの各値ｃ_ｌ／ｃ_ｒに対し，式（２１）及び（２３）により，対応するガウス成分が存在する．

図９はＣ_Ｒのみが追加されたＢＮ３３０に対する，観測空間３４４の概要を示す．図９のＣ_Ｒはノード３４２により示され，２つ後のコンテキストの種々の値／ｂ／，／ｐ／，…，／ｚ／を有する．この変数の種々の値は種々のガウス分布３５０，３５２，…，３５４にそれぞれ対応する．４４音素の組（無音を含む）を英語ＡＳＲに用いるとすれば，２つ前／後の音素コンテキストＣは，４４個の値（Ｃ＝ｃ_１，ｃ_２，…，ｃ_４４）を有する可能性があるということになる．このため，ＢＮ−Ｃトポロジ（図７参照）の各状態に対するガウス分布の総数は，４４^２＝１９３６となり得る．ＢＮ−ＣＧ，ＢＮ−ＣＡ及びＢＮ−ＣＧＡのトポロジはさらにもっと多くなる．このように増加したモデルパラメータを信頼性高く推定するにはトレーニングデータの量が不十分な場合，全体の性能は顕著に低下するであろう．このため，ガウス分布の数を減らすことが好ましい．ガウス分布の数を減らすために利用できる方法が２つある．一方は知識ベースの音素クラスを用いることである．他方はデータ駆動のクラスタリングである．これらの方法は，どのようなベイズネットワークにも適用可能である．

ここでは，音素コンテキストを，調音の態様における主な相違に基づき分類し，パラメータのサイズを削減する．テーブル１に，非特許文献６から流用した知識ベースの音素クラスの例を挙げる．

ＨＭＭ／ＢＮアプローチに基づくペンタフォンの可能性についての，さらなる詳細及び議論は特許文献１に示されている．

５．音素モデルレベルでの知識源の組込み
Ａ．一般的検討
セクション２に記述の理論的フレームワークに従い，再びモデルＭをＨＭＭ音素モデルλ，ＤをセグメントＸ_ｓとする．

１）因果関係の定義
トポロジの構造は図２（Ａ）に示されるものと同様であり，ＨＭＭ音素ユニットの確率関数は今回は式（３）と同様のＢＮ同時確率関数により示される．

追加の知識源Ｋ_１，Ｋ_２，…，Ｋ_ＮをＨＭＭ音素モデルＰ（Ｘ_ｓ，λ）に組込むためには（所与のλに対し，全てのＫ_１，Ｋ_２，…，Ｋ_Ｎが独立と仮定する．），簡易に式（５）に従い，次の式を得る．

２）推論
ここでの最大の関心事は，与えられた入力セグメントＸ_ｓに対するＰ（Ｘ_ｓ｜Ｋ_１，…，Ｋ_ｎ，λ）を計算することである．しかし，条件付ＰＤＦに対する単純な形式の関数を得るのは困難である．なぜなら，この式には，持続時間が変化するＨＭＭモデルλ，及びセグメントＸ_ｓが関係しているからである．このためここで，セクション２−Ｃで述べたジャンクションツリーアルゴリズムにより，Ｐ（Ｘ_ｓ｜Ｋ_１，…，Ｋ_Ｎ，λ）を分解する必要がある．これは式（１４）に従い以下のように分解される．

この式は，いくつかの，より複雑さの少ない依存関係，すなわち，特定の追加の知識Ｋ_１，Ｋ_２，…，Ｋ_Ｎが与えられた場合のセグメント観測データＸｓの尤度に対応するＰ（Ｘ_ｓ｜Ｋ_１，λ），…，Ｐ（Ｘ_ｓ｜Ｋ_Ｎ，λ）によって，音素のＨＭＭ尤度Ｐ（Ｘ_ｓ｜Ｋ_１，Ｋ_２，…，Ｋ_Ｎ，λ）を表す新しい方法である．

Ｂ．広域音素コンテキスト情報の組込み
前のセクションで述べたアプローチを，広域音素の知識情報の組込みの場合と同じ課題に対して適用してみる．広域音素知識情報の組込みにおいては，トライフォンコンテキスト／ａ⁻，ａ，ａ^＋／を，ペンタフォンコンテクスト／ａ⁻⁻，ａ⁻，ａ，ａ^＋，ａ^＋＋／に拡張する．構造上，従来のＨＭＭのトライフォンコンテキストユニットモデルは，図１０（Ａ）に示すモデル３７０として説明され，ペンタフォンコンテキストユニットモデルは，図１０（Ｂ）に示すモデル３７２として説明される．

２つ前のコンテキストＣ_Ｌ／ａ⁻⁻／と２つ後のコンテキスト／ａ^＋＋／とを，確率関数Ｐ（Ｘ_ｓ｜λ）に追加する．Ｘ_ｓ，λ，Ｃ_Ｌ及びＣ_Ｒの条件に関する依存性は，図４（Ａ）に示すものと類似のＢＮにより記述される．分解で最終的に得られるジャンクションツリーもまた，図４（Ｅ）に示すものと同様である．図４（Ｅ）におけるＭがここでのＨＭＭ音素モデルλであり，ＤがセグメントＸ_ｓである．このことから，条件付確率関数は，式（２６）によれば以下のように定義される．

λが，トライフォン／ａ⁻，ａ，ａ^＋／，２つ前のコンテキストＣ_Ｌ／ａ⁻⁻／，及び，２つ後のコンテキストＣ_Ｒ／ａ^＋＋／と関連付けられていることから，以下のように書ける．

この式（２８）は以下のようになる．

これはペンタフォンモデルが，ｐ（Ｘｓ｜［ａ⁻⁻，ａ⁻，ａ，ａ^＋］），ｐ（Ｘｓ｜［ａ⁻，ａ，ａ^＋，ａ^＋＋］），及びｐ（Ｘｓ｜［ａ⁻，ａ，ａ^＋］）により構成できることを示す．これら構成要素は，左／先行テトラフォンコンテキスト，右／後続テトラフォンコンテキスト，及び中央トライフォンコンテキストというユニットが与えられた場合の，セグメントＸｓの尤度に対応する．

しかし，［ａ⁻⁻，ａ⁻，ａ，ａ^＋］，［ａ⁻，ａ，ａ^＋，ａ^＋＋］に対するテトラフォンモデルを作成することもまた，データが疎にしか存在しないことにより困難である．

これに代えて，式（２８）を用い，λがモノフォン／ａ／を示すように，並びに２つ前と後のコンテキストＣ_Ｌ及びＣ_Ｒとが／ａ⁻⁻，ａ⁻／及び／ａ^＋，ａ^＋＋／をそれぞれ表すようにする．この結果，以下の式を得る．

この式は，ペンタフォンコンテキスト／ａ⁻⁻，ａ⁻，ａ，ａ^＋，ａ^＋＋／が，ｐ（Ｘｓ｜［ａ⁻⁻，ａ⁻，ａ，］），ｐ（Ｘｓ｜［ａ，ａ^＋，ａ^＋＋］），及びｐ（Ｘｓ｜［ａ］）により構成されることを示し，これら構成要素は，左／先行テトラフォンコンテキスト（Ｌ３），右／先行テトラフォンコンテキスト（Ｒ３），及び中央トライフォンコンテキスト（Ｃ１）のユニットが与えられたときの，観測データＸｓの尤度に対応する．この構成をＣ１Ｌ３Ｒ３と呼び，その構造を図１０（Ｃ）に示す．

図１０（Ｃ）を参照して，ベイズペンタフォンコンテキストユニットＣ１Ｌ３Ｒ３３７４は，左／先行トライフォンコンテキストユニット（Ｌ３）３８０，右／後続トライフォンコンテキストユニット（Ｒ３）３８２，及びモノフォンユニット（Ｃ１）（図示せず）を含む．

この図で分かるように，推定すべきコンテキストユニットの数は，コンテキストのカバーする範囲を損なうことなく，Ｎ^５から（２Ｎ^３＋Ｎ）に削減される．ただしＮは音素の数である．英語ＡＳＲに対し４４音素の組を用いるとすれば，ペンタフォンモデルで推定する必要のあるコンテキストの総数は４４^５≒１６５，０００，０００コンテキストユニットである．トライフォンコンテキストユニットを用いた構成では，この複雑さが約１７０，０００ユニットまで削減される．

式（２９）及び（３０）を分析すると，式（２７）を，ＨＭＭ音素モデルの他の構成を導くためのスタート点としても用いることが可能であることが分かる．λがモノフォンユニット／ａ／，Ｃ_Ｌ及びＣ_Ｒが，それぞれ，コンテキストユニット／ａ⁻／及び／ａ^＋／に先行する，及び後続するコンテキストユニットであると仮定した場合，非特許文献７で提案されたのと同様の因数分解が得られる．これはベイズトライフォンとして知られている．

ここでは，トライフォンモデルがモノフォン及びバイフォンモデルから構築されている．以後，同様の方法で構成された全てのモデルも，ベイズモデルと呼ばれる．

ベイズ広域音素コンテキストモデルと呼ばれる，ベイズトライフォンを拡張したものもまた，本願発明者の先の研究論文である非特許文献８に記載されている．このアプローチにより，単にベイスの法則に基づくのみで，コンテキストへの依存度がより少ないモデルから広域の音素コンテキストをモデル化できる．しかし，種々の種類の知識源を組込むことが必要な場合には困難が生ずる．

対照的に，ここでの統一されたフレームワークは，様々な種類の知識源を組込むための，より適切な手段を我々に与える．例えば，性別又はアクセント情報のような他の追加の知識変数で，Ｃ１Ｌ３Ｒ３をさらに拡張することが容易にできる．Ｃ１Ｌ３Ｒ３を，性別情報のみで（Ｃ１Ｌ３Ｒ３−Ｇ），アクセント情報のみで（Ｃ１Ｌ３Ｒ３−Ａ），又は，性別及びアクセントの両方の情報で（Ｃ１Ｌ３Ｒ３−ＡＧ），拡張することができる．

Ｃ１Ｌ３Ｒ３−ＡＧの場合，ＢＮトポロジと，モラル及びトライアンギュレートグラフと，それに対応するジャンクションツリーとは図１１に示されるようになる．図１１（Ａ）を参照して，ＢＮトポロジ４００は，λ，Ｘ_ｓ，Ｃ_Ｌ，Ｃ_Ｒ，Ｇ及びＡによりそれぞれ示される，ノード４１０，４１２，４１４，４１６，４１８及び４２０を含む．図１１（Ｂ）を参照して，ＢＮトポロジ４００に対応するモラル及びトライアンギュレートグラフ４３０は，ノード４１０，４１２，４１４，４１６，４１８及び４２０と，ノード４１８及び４２０，ノード４１０及び４１８，並びにノード４１０及び４２０をそれぞれ接続する，付加的な３つのリンク４２２，４２４，及び４２６とを含む．図１１（Ｃ）を参照して，図１１（Ｂ）のグラフに対応するジャンクションツリー４５０は，“Ｘ_ｓλＡＧ”，“Ｘ_ｓＣ_Ｌλ”，及び“Ｘ_ｓＣ_Ｒλ”でそれぞれ示される，クラスタノード４６０，４６４，及び４７４と，“Ｘ_ｓλ”，及び“Ｘ_ｓλ”でそれぞれ示される，セパレータノード４６２及び４７２とを含む．

この場合，条件付確率関数は以下のように求められる．

したがって，λ，Ｃ_Ｌ及びＣ_Ｒに対するＣ１Ｌ３Ｒ３の設定に従えば，Ｃ１Ｌ３Ｒ３−ＡＧのペンタフォン尤度は以下のようになる．

これは，Ｐ（Ｘｓ｜［ａ⁻⁻，ａ⁻，ａ，ａ^＋，ａ^＋＋］，Ａ，Ｇ）を，Ｐ（Ｘｓ｜［ａ］，Ａ，Ｇ），Ｐ（Ｘｓ｜［ａ⁻⁻，ａ⁻，ａ］，Ａ，Ｇ），及びＰ（Ｘｓ｜［ａ，ａ^＋，ａ^＋＋］，Ａ，Ｇ）に因数分解することにより，単純化できることを示している．

提案に係るペンタフォンモデルでＡＳＲシステムを実現するためには，いくつかのモデルで動作できる，特別なデコーダを必要とする．これは，提案に係るペンタフォンモデルを，標準的なトライフォンに基づくＨＭＭシステムにより生成されたＮ−ベストリストの再スコアリングに適用する場合には，避けることができる．

図１２は，本発明の第１の実施の形態に係るＡＳＲシステム５００の全体の構造を示す．図１２を参照して，ＡＳＲシステム５００は，音声波形データ５１０を受け，その音声をデコードし，入力音声の仮説のＮベストリストを出力するための標準的デコーダ５１２と，５３０，５３２，５３４，及び５３６でそれぞれ示される，ペンタフォンモデルＣ１Ｌ３Ｒ３，Ｃ１Ｌ３Ｒ３−Ａ，Ｃ１Ｌ３Ｒ３−Ｇ，及びＣ１Ｌ３Ｒ３−ＡＧを記憶するためのモデル記憶装置５２０と，人間の操作に応答して，モデル５３０，５３２，５３４，及び５３６のうちいずれか１つを選択するためのセレクタ５２２と，標準的デコーダ５１２からの仮説のＮべストを，セレクタ５２２により選択されたモデルを利用して再スコアリングし，Ｎベストの仮説のうち最も高いスコアを示す１つを出力するための仮説選択モジュール５１６とを含む．

図１３は仮説選択モジュール５１６の詳細を示す．図１３を参照して，仮説選択モジュール５１６は，Ｎベストの仮説を記憶するためのメモリ５５０と，メモリ５５０から仮説を１つずつ読出し，分離された音素の特徴パラメータを，後続する再スコアリングのための機能ユニットに左から右という順序で供給するための読出及び供給モジュール５５２と，シフトメモリ５５４においてこれらの特徴パラメータを受取るための５つのシフトメモリ５５４，５５６，５５８，５６０及び５６２とを含む．特徴パラメータがシフトメモリ５５４，５５６，５５８，５６０及び５６２をシフトされた時，シフトメモリ５５４，５５６，５５８，５６０，及び５６２は，ａ^＋，ａ^＋＋，ａ，ａ⁻，及びａ⁻⁻に対する特徴パラメータをそれぞれ記憶する．

仮説選択モジュール５１６はさらに，Ｒ３モデル並びにシフトメモリ５５４，５５６及び５５８に記憶された特徴パラメータを用いて，確率Ｐ（Ｘｓ｜［ａ，ａ^＋，ａ^＋＋］）を計算するための右コンテキスト計算装置５７０と，Ｃ１モデル，及びシフトメモリ５５８に記憶された特徴ベクトルを用いて，確率Ｐ（Ｘｓ｜［ａ］）を計算するための中央コンテキスト計算装置５７２と，Ｌ３モデル並びにシフトメモリ５５８，５６０，及び５６２に記憶された特徴パラメータを用いて，確率Ｐ（Ｘｓ｜［ａ⁻⁻，ａ⁻，ａ］）を計算するための左コンテキスト計算装置５７４と，読出及び供給モジュール５５２によりメモリ５５０から読出された仮説の各セグメンテーションに対し，式（３０）にしたがって確率Ｐ（Ｘｓ｜［ａ⁻⁻，ａ⁻，ａ，^＋，ａ^＋＋］）を計算するためのＰＤＦ計算装置５７６とを含む．

仮説選択モジュール５１６はさらに，各仮説のセグメントの確率を乗算することにより，メモリ５５０に記憶された各仮説を再スコアリングし，スコアを対応する仮説と関連付けてメモリ５５０に記憶するための再スコアリングモジュール５７８と，メモリ５５０内の仮説をスコアの降順にソートし，最も高いスコアを有する仮説を出力するためのソート及び選択モジュール５８０とを含む．

単語レベルでのＮベスト認識は，標準的デコーダ５１２により，従来のＨＭＭ音響モデル及び標準的なビタビ復号を用いて，テストデータの全ての発声に対して実行される．全てのＮベストの仮説は，全音素の音響スコア，言語モデル（ＬａｎｇｕａｇｅＭｏｄｅｌ：ＬＭ）スコア，及びビタビ分割を含む．そして，各仮説の音素セグメント毎に，提案に係るペンタフォンモデルを用いて，仮説選択モジュール５１６において再スコアリングが行なわれる．

図１３を参照して，メモリ５５０はＮベストの仮説を記憶する．読出及び供給モジュール５５２はメモリ５５０から最初の仮説を読み出し，左から右に（先頭から末尾に），仮説内の音素セグメント（特徴パラメータ）をシフトメモリ５５４へ出力する．

シフトメモリ５５４〜５６２は，音素セグメントをシフトする．シフトメモリ５５４，５５６及び５５８に記憶された，音素セグメントの各組に対して，右コンテキスト計算装置５７０はＲ３モデルを用いて確率Ｐ（Ｘｓ｜［ａ，ａ^＋，ａ^＋＋］）を計算する．シフトメモリ５５８に記憶された各音素セグメントに対し，中央コンテキスト計算装置５７２はＣ１モデルを用いて確率Ｐ（Ｘｓ｜［ａ］）を計算する．シフトメモリ５５８，５６０，及び５６２に記憶された音素セグメントの各組に対して，左コンテキスト計算装置５７４はＬ３モデルを用いて確率Ｐ（Ｘｓ｜［ａ⁻⁻，ａ⁻，ａ］）を計算する．計算された確率は，ＰＤＦ計算装置５７６へ与えられる．ＰＤＦ計算装置５７６はペンタフォンコンテキスト確率Ｐ（Ｘｓ｜［ａ⁻⁻，ａ⁻，ａ，^＋，ａ^＋＋］）を，式（３０）にしたがって計算し，その確率を再スコアリングモジュール５７８に与える．

シフトメモリ５５８に記憶される各音素セグメントに対応して，読出及び供給モジュール５５２は再スコアリングモジュール５７８に，ＰＤＦ計算装置５７６の出力を読むタイミングを知らせる．これに応答して，再スコアリングモジュール５７８はＰＤＦ計算装置５７６の出力を読み，その値を記憶する．仮説の最後になると，読出及び供給モジュール５５２は，再スコアリングモジュール５７８に信号を送る．これに応答して，再スコアリングモジュール５７８はその仮内の全音素セグメントの確率を掛け合わせることにより，当該仮説のスコアを計算する．計算完了の際，再スコアリングモジュール５７８は，メモリ５５０内のスコア（ペンタフォンスコア）を処理対象の仮説と関連付けて記憶する．

メモリ５５０に記憶された全ての仮説に対してペンタフォンスコアが計算されると，読出及び供給モジュールはソート及び選択モジュール５８０に信号を送る．これに応答して，ソート及び選択モジュール５８０は，メモリ５５０に記憶された全ての仮説を，対応するペンタフォン及びＬＭスコアと共に読出し，そのペンタフォン及びＬＭスコアを組合わせて新しいスコアとし，その新しいスコアの降順に仮説を並べかえ，並べかえた仮説のうち最も高いスコアを有するものを選択し，それを新しい仮説５１８として出力する．

図１４に，仮説の再スコアリングの例を示す．

トレーニングの間に，いくつかの音素コンテキストが出現しなかったかもしれない．このようなコンテキストに対しては，ここで提案したペンタフォンコンテキストモデルは，認識の間に出力確率を作りだすことができない．この問題に対処するため，ここでは，単純に，小さな数値を出力確率として割当る．この再スコアリングには先行，後続，及び中央のモデルからの出力確率が関係するため，全ての要素モデルにフロアリングが適用される．

トレーニングデータの量が不十分な場合，パラメータの推定は，ここで提案したペンタフォンモデルに対するものでさえも信頼性が低くなり，状態出力の信頼性もまた下がる．モデルの信頼性を向上するため削除補間法を用いたが，その結果，より精密と思われるモデルが実際には信頼性を欠く場合に，より信頼性の高いモデルに戻ることができる．この概念は，別々にトレーニングした２個のモデルであって，その一方が他方よりも信頼性高くトレーニングされているようなモデル間を補間することに関連している．しかし，２個のモデルを補間する代わりに，我々はこのアプローチを２つの音素尤度の組込みに適用した．ただし，ここで提案したベイズペンタフォンモデルの音素尤度Ｐ（Ｘ_ｓ｜λ_ｂａｙＰ_ｅｎｔａ）が精密な方であり，トライフォンの尤度Ｐ（Ｘ_ｓ｜λ_{ｔｒｉｐｈｎ}）が，より信頼性の高い方である．このため，音素尤度Ｐ（Ｘ_ｓ｜λ）は以下で与えられる．

ただし，αはここで提案したペンタフォンモデルのＨＭＭ音素尤度の重みを表し，（１−α）はトライフォンモデルのＨＭＭ音素尤度の重みを表す．トレーニングデータの量が十分に多ければ，Ｐ（Ｘ_ｓ｜λ_ｂａｙＰ_ｅｎｔａ）はより信頼性が高くなり，αは１．０に近づく．十分でなければ，αは０．０に近づき，より信頼性の高いモデルＰ（Ｘ_ｓ｜λ_{ｔｒｉｐｈｎ}）に戻る．

発話の始め／終わりにおいては，全ての左／右コンテキストは無音で満たされる．隣接した単語の間に長い無音が存在しないと仮定しているので，前の単語の最後の音素コンテキストは，現在の単語の最初の音素コンテキストにも影響する．この再スコアリングメカニズムはこのように，単語内及び単語と単語の間の全セグメントに対して同様に振舞う（クロスワードモデル）．

前述のように計算されたスコアはその後，現在の仮説に対応したＬＭスコアと組合わされる．Ｎベストから，最も高い発声スコアを達成する仮説が新しい認識出力として選択される．

６．実験
出願人（株式会社国際電気通信基礎技術研究所（ＡＴＲ））が準備した，アクセント付の英語発声コーパスをこの実験に用いた．文の素材は，旅行で用いられる表現の基本的なドメインに基づくものである．発話データベースは，アメリカ（ＵＳ）とオーストラリア（ＡＵＳ）の英語アクセントからなり，各アクセントは各々，１００人の話者（男性５０名，女性５０名）による約４５，０００の発話（４４発声時間）からなる．このデータの９０％，すなわち４０，０００の発話（男女各４０人の話者による２０，０００の発話）をトレーニングデータとして用いた．評価のため，残り１０％のアクセントデータ（ＵＳ及びＡＵＳ）の混合物から，２０人の異なる話者（男性１０名，女性１０名）による，２００の発話をランダムに選択した．バイグラム及びトライグラム言語モデルを，約１５０，０００の旅行に関する文によりトレーニングした．利用可能であった発音辞典は３７，０００の単語からなり，ＵＳの発音に基づいていた．

１６ｋＨｚのサンプリング周波数，２０ミリ秒のフレーム長，１０ミリ秒のフレームシフト，並びに１２次のＭＦＣＣ（Ｍｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔｓ：メル周波数ケプストラム），ΔＭＦＣＣ及びΔ対数パワーからなる２５次元の特徴パラメータを，特徴パラメータとして用いた．全ての音素について，初期ＨＭＭとして３状態を用いた．そして，連続状態分割（ＳｕｃｃｅｓｓｉｖｅＳｔａｔｅＳｐｌｉｔｔｉｎｇ：ＳＳＳ）トレーニングアルゴリズムを用いて，状態結合ＨＭｎｅｔトポロジを持つトライフォン音響モデルを得た．状態結合の数は，ここで用いられたＳＳＳアルゴリズムが最小記述長（ＭｉｎｉｍｕｍＤｅｓｃｒｉｂｔｉｏｎＬｅｎｇｔｈ：ＭＤＬ）最適化基準に基づくことから，アルゴリズムにより自動的に決定される．ＭＤＬ−ＳＳＳの詳細は他の文献（非特許文献９）に記載されている．ＳＳＳトポロジトレーニングは，全てのトレーニングデータを用いて実行された．状態の総数は２，１２６であり，状態当りガウス混合成分が４種類，すなわち，状態当りガウス混合成分の数が５，１０，１５及び２０個のモデルが得られた．

従来のトライフォン音響モデル（ＡＭ）に性別及びアクセントといった付加的知識を組込むこともまた，性別及び／又はアクセント依存のＡＭをトレーニングすることにより，可能である．すべてのモデルに対するトポロジに対応した構造が確実に同じになるように，所定のアクセント又は性別のトレーニングデータによる，組込トレーニング手順のみが行なわれた．このため，総合して，１つの単一トライフォンＡＭ（付加的知識無し）と，２つのアクセント依存トライフォンＡＭ（ＵＳとＡＵＳとの両方に対して）と，２つの性別依存トライフォンＡＭ（男性と女性との両方に対して）と，４つのアクセント及び性別依存トライフォンＡＭ（ＵＳの男性及び女性と，ＡＵＳの男性及び女性とに対して）とを得た．

これら，状態当り５混合成分のベースラインモデルがどのような性能を示したかを図１５のグラフにプロットした．付加的知識無しのトライフォンのベースラインは，８３．６０％の単語正解率を達成した．しかし，性別依存モデルのみ，性能をわずかに向上可能であった．他のモデルの性能は低下しただけであった．とりわけ，アクセント・性別依存モデルは単語正解率８２．１１％まで低下した．これは，他のベースラインモデルに比べトレーニングデータの量が特に少なかったことによるものであろう．

Ａ．ＨＭＭ状態レベルで知識源を組込んだときの性能
提案に係るペンタフォンモデルを，セクション４−Ｂに記述したように，音素クラスコンテキスト変数でラベル付けされたすべてのアクセントデータにおいて，同じ量のトレーニングデータを用いてトレーニングした．モデルの状態トポロジ，状態の総数，及び，遷移確率は，すべてトライフォンＨＭＭベースラインと同一である．それゆえに，これらはすべてパラメータの数という点で同様の複雑さを有する．主要な違いは，状態の確率分布において，各々のガウス分布がＣ_ＬまたはＣ_Ｒにより明確に条件付けされているという点にのみある．これとは対照的に，ＨＭＭベースラインでの全てのガウス成分は，混合インデックスに関する「意味のある」解釈無しにＥＭアルゴリズムにより学習された．いくつかの音素コンテキストクラスＣ_ＬまたはＣ_Ｒは，文法規則により存在しないか，又はトレーニングデータに現れず，その結果，トレーニング後に，状態当り平均約５０のガウス分布が得られた．データ駆動型クラスタリング技術を用いてペンタフォンモデルのサイズを状態当り５，１０，１５及び２０の混合成分に対応するよう減少させることにより，推定パラメータの信頼性の低下を避け，ガウス分布の総数が全く同じであることにより，性能をベースラインシステムと比べることが可能なようにする．

最初に，ベースラインと同じテストデータを用い，ペンタフォンモデルＢＮ−Ｃ，ＢＮ−ＣＧ，ＢＮ−ＣＡ又はＢＮ−ＣＧＡがどの程度の性能であるかを評価した．平均で状態当り５つという同じ数の混合成分を持つこれら４つのモデル全ての結果を，図１６にプロットした．

これからわかるように，全てのＢＮのタイプを用い，様々なタイプの知識源の組込みを行なうように状態の確率分布を変えただけで，認識が向上した．しかし，性別及びアクセント変数を組込んだものでは，ここで提案したモデルの認識率はそれ以上向上しなかった．この問題も，各々のアクセント又は性別依存モデルに対するトレーニングデータに限りがあることに関係しているのであろう．それが，最高性能がＢＮ−Ｃを用いた場合の単語正解率８５．０３％である理由である．

我々は，これを，一致するアクセントのテストの組で評価した．このテストデータは，ＢＮ−Ｃを用いてもたらされる効果が何かをさらに詳しく調査するための，各アクセント（ＵＳ及びＡＵＳ）からランダムに選択された２００の発話である．種々の数の混合成分のモデルを用いて得られた結果をテーブル２に要約する．

これからわかるように，ここで提案したペンタフォンモデルは，同じ数のパラメータの範囲ではベースラインよりも良い性能を示す．ＵＳのペンタフォンＨＭＭ／ＢＮの最良の性能はガウス混合分布数が１０の時に得られ，これによってＷＥＲ（ＷｏｒｄＥｒｒｏｒＲａｔｅ：単語誤り率）が相対的に約８％削減し，ＡＵＳのペンタフォンの最良の性能はガウス混合分布数が２０の時に得られ，ＷＥＲが相対的に約１１％削減した．一致しないアクセントのテストの組でもこれらペンタフォンモデルの性能を評価した．例えば，ＵＳ発声でトレーニングされたモデルをＡＵＳ発声のテストデータでテストし，その逆も行なった．１５個の混合成分のモデルを用いて得られた結果をテーブル３に要約する．一致時と不一致時との比較を簡単にするため，テーブル３には一致するアクセントの評価から得た結果も含ませてある．一致しないアクセントに対するペンタフォンモデルでも，標準的なＨＭＭトライフォンモデルに比べ，依然として一貫して性能が優れていることが分かる．

Ｂ．ＨＭＭ音素モデルレベルでの知識源組込み時の性能
非特許文献８では，我々は，ペンタフォンモデルを分解する数種類の方法を調査し，最良の方法がＣ１Ｌ３Ｒ３構成であることを見出した．ここでは，Ｃ１Ｌ３Ｒ３モデルのみを用いた追加の実験について記述する．

全てのアクセント付のペンタフォンモデルの全成分を，同量のトレーニングデータ及び同じＳＳＳトレーニングアルゴリズムを用いて別々にトレーニングした．状態の総数は３，３６０（Ｃ１：１３２状態，Ｌ３：１，７４６状態，Ｒ３：１，７８２状態の合計）で，状態当り４種類のガウス混合成分数，すなわち，５，１０，１５及び２０という数のガウス混合成分のものが得られた．そして，組込みトレーニング手順を，特定のアクセント又は性別のトレーニングデータでペンタフォンＣ１Ｌ３Ｒ３−Ａ，Ｃ１Ｌ３Ｒ３−Ｇ，及びＣ１Ｌ３Ｒ３−ＡＧに対して実行した．

最初に，付加的知識源の組込みが複数のアクセント付のテストデータに対しどんな効果を有するかを評価した．５つの混合成分を有する，提案に係るペンタフォンＣ１Ｌ３Ｒ３，Ｃ１Ｌ３Ｒ３−Ａ，Ｃ１Ｌ３Ｒ３−Ｇ，及びＣ１Ｌ３Ｒ３−ＡＧに対する結果を図１７に要約する．１０ベストリストと，削除補間のための０．３の重みパラメータαを用いて再スコアリングが行なわれた．ここから分かるように，組込んだ知識源が多いほど，性能もよくなった．提案に係るペンタフォンＣ１Ｌ３Ｒ３モデルは，ベースラインに対して性能が向上し，達成された最高性能は，アクセントＡ，性別Ｇ，先行コンテキストＣ_Ｌ，及び後続コンテキストＣ_Ｒという付加的知識を組込んだＣ１Ｌ３Ｒ３−ＡＧによる，８４．３８％という単語正解率である．性別及びアクセントが組込まれた時には，ペンタフォンＨＭＭ／ＢＮに対する場合と同様，性能の低下はなかったが，これは恐らく削除補間法を使用したことによるものである．

次に，全アクセント付テストデータに対してＣ１Ｌ３Ｒ３−ＡＧがどのような性能を示すのか，その詳細を，Ｎベスト（Ｎ＝１０）リストを用いて調査した．補間削除法のための重みパラメータαは同じ（０．３）であった．ここでは，非特許文献１で使用された，相対的向上度（Ｒｅｌ-Ｉｍｐ）と，再スコアリングについての相対的向上度（Ｒｅｌ−Ｒｅｓｃ−Ｉｍｐ）との両方を以下により計算した．

ただし，Ｎベストリストの上限はＮベスト認識結果である．

種々の数の混合成分のモデルによって得られた結果をテーブル４に要約する．これから分かるように，提案に係るペンタフォンモデルにより，ＡＳＲシステムの性能は一貫して向上した．最大のＲｅｌ−Ｒｅｓｃ−Ｉｍｐは，ＵＳ及びＡＵＳアクセントの両方に対し，１５の混合モデルの時に得られた（ＵＳモデルに対し３７．９２％及びＡＵＳモデルに対し３８．０４％）．

また，提案に係るペンタフォンＣ１Ｌ３Ｒ３−ＡＧモデルが，一致しないアクセントのテストの組に対してどの程度の性能を示すかについても評価した．１５個の混合成分を持つモデルを用いて得た結果をテーブル５に要約する．テーブル５は，一致時と不一致時との比較を簡単にするために，一致するアクセントに対する評価からの結果をも含む．提案に係るペンタフォンＣ１Ｌ３Ｒ３−ＡＧモデルが，一致しないアクセントについて標準的なトライフォンモデルよりも一貫して良い性能を示すことが分かる．

Ｃ．種々のモデルの比較
最後に，２，２０２個の状態数の従来のペンタフォンＨＭＭモデルであって，何も無いところからＭＤＬ−ＳＳＳを用いてトレーニングされたものを用い，提案に係るモデルの性能の高さが，主に広域音素コンテキストによりもたらされたものかどうかを調査するために，追加の実験を行なった．性別及びアクセントに依存するペンタフォンモデルも，特定のアクセント又は性別に関するトレーニングデータでの組込み手順を用いて取得した．これらはベイズペンタフォンの場合と同様，Ｎベストリストを再スコアリングすることにより実現された．

状態当り５つの混合成分を持つ全てのモデルに対する結果を図１８にプロットする．これから分かるように，提案に係るペンタフォンＣ１Ｌ３Ｒ３モデルによりベースラインに比べて性能が向上し，しかもこれは従来のペンタフォンＨＭＭで単に再スコアリングするよりも優秀である．この理由は，ある量のトレーニングデータが与えられたときに，ＭＤＬ−ＳＳＳアルゴリズムを用いて従来のペンタフォンモデルをトレーニングした結果得られたのが，総数２，２０２個の状態を持つモデルであり，これがトライフォンＨＭＭでの状態の総数とそれほど変わらないことによるのであろう．同じガウス分布成分を共有する異なるペンタフォンコンテキストがあまりに多くあるように見えるために，コンテキストの分解能が低下した．このため，いくつかのコンテキスト依存性の少ないモデルを組合わせたものを用いてペンタフォンモデルを近似することにより，コンテキストの分解能の向上と性能の改善とを促進することができた．得られた最高性能は，ＢＮ−Ｃによる単語正解率８５．０３％であった．

７．結論
統計的音響モデルを基本としたＨＭＭに，付加的知識源を組込むための一般的なフレームワークを述べた．広域音素コンテキスト情報をトライフォンＨＭＭへ組込むことにより，このフレームワークの実現を提示した．これは最初にＢＮを用いてＨＭＭの状態レベルで行なわれた．付加的知識源が認識の間に隠されていても，このアプローチによれば標準デコーディングシステムを変更なく使用することができる．次に，広域音素コンテキスト音響モデリングを，より狭いコンテキストを持ついくつかの他のモデルを用いて構築することにより，ＨＭＭ音素モデルレベルで組込んだ．この複合の技術によって，推定されるべきコンテキストユニットの数の削減がもたらされたため，コンテキスト依存性のより少ないモデルを推定することが必要なだけとなったので，コンテキストの分解能は著しく向上した．

これらの広域コンテキストモデル構成を，Ｎベストの再スコアリングにより，処理後の段階に適用した．実験結果により，提案に係るフレームワークで作成された広域音素コンテキストモデルが，標準的なトライフォンモデルに対して単語正解率を向上させることが明らかとなった．２つ前のコンテキストＣ_Ｌと，２つ後のコンテキストＣ_Ｒという付加的知識は，ＨＭＭ状態レベルでの組込みに適しており，一方，アクセントＡ及び性別Ｇという付加的知識は，ＨＭＭ音素モデルレベルでの組込みに，より適していた．

上述のように，本発明は，付加的な知識源を統一された方法で組み込むための方法及び装置に関するものである．これら方法及び装置はベイズネットワークのフレームワークを利用し，どのようなドメインからのものでも，すべての付加的知識源を簡単に統合する．このグラフによるモデルフレームワークの有利な点は，（１）情報源間の確率論的関係を学習することを可能にすること，及び，（２）同時確率密度関数を，互いにリンクされた局部的条件付確率密度関数の組に分解することを容易にすること，である．モデルが簡素化された形式であるため，このようにして，限定された量のデータを用いてモデルを構築し，信頼性高く推定することが可能である．

このフレームワークは一般的なアプローチを代表するものである．即ち，このフレームワークは，それぞれモデルに基づく尤度関数を持つ，多くの既存の音響モデルのモデル化の問題に適用できる．

コンピュータによる実現
上述の実施の形態は，コンピュータシステムと，当該システム上で実行されるコンピュータプログラムとによって実現可能である．図１９はこれら実施の形態で用いられるコンピュータシステム６５０の外観を示し，図２０はコンピュータシステム６５０のブロック図である．ここで示すコンピュータシステム６５０は単なる例示であって，さまざまな他の構成が利用可能である．

図１９を参照して，コンピュータシステム６５０は，コンピュータ６６０と，モニター６６２と，キーボード６６６と，マウス６６８と，スピーカー６９２と，マイクロフォン６９０とを含む．さらに，コンピュータ６６０は，ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）ドライブ６７０及び半導体メモリポート６７２を含む．

図２０を参照して，コンピュータ６６０はさらに，ＤＶＤ６７０及び半導体メモリポート６７２に接続されたバス６８６と，上述した装置を実現するコンピュータプログラムを実行するためのＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）６７６と，コンピュータ６６０のブートアッププログラムを記憶するＲＯＭ（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）６７８と，ＣＰＵ６７６によって使用される作業領域及びＣＰＵ６７６によって実行されるプログラムの記憶領域を提供するＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）６８０と，音声データ，音響データ，言語モデル，及び音声認識のために必要なレキシコンを記憶するためのハードディスクドライブ６７４と，コンピュータ６６０にネットワーク６５２との接続を提供するためのネットワークインターフェース（Ｉ／Ｆ）６９６とを含み，これらは全てバス６８６に接続されている．

上述の実施の形態に係るシステムを実現するソフトウェアはＤＶＤ６８２又は半導体メモリ６８４等の記憶媒体に記憶されたオブジェクトコードの形で流通し，ＤＶＤドライブ６７０又は半導体メモリポート６７２等の読出装置を介してコンピュータ６６０に提供され，ハードディスクドライブ６７４に記憶される．ＣＰＵ６７６がプログラムを実行する際には，プログラムはハードディスクドライブ６７４から読出されてＲＡＭ６８０に記憶される．図示しないプログラムカウンタによって指定されたアドレスから命令がフェッチされ，その命令が実行される．ＣＰＵ６７６はハードディスクドライブ６７４から処理すべきデータを読出し，処理の結果をこれもまたハードディスクドライブ６７４に記憶する．スピーカ６９２とマイクロフォン６９０とは，音声認識と音声合成とに用いられる．

コンピュータシステム６５０の一般的動作は周知であるので，ここでは詳細な説明は行なわない．

ソフトウェアの流通の方法に関して，ソフトウェアは必ずしも記憶媒体上に固定されたものでなくてもよい．例えば，ソフトウェアはネットワーク６５２に接続された別のコンピュータから配布されてもよい．ソフトウェアの一部がハードディスク６７４に記憶され，ソフトウェアの残りの部分をネットワークを介してハードディスク６７４に取込み，実行の際に統合する様にしてもよい．

典型的には，現代のコンピュータはコンピュータのオペレーティングシステム（ＯＳ）によって提供される汎用の関数を利用し，所望の目的に従って制御された態様でこれら関数を実行する．従って，ＯＳ又は第３者から提供されうる汎用関数を含まず，一般的な関数の実行順序の組合せのみを指定したプログラムであっても，そのプログラムが全体として所望の目的を達成する制御構造を有する限り，そのプログラムがこの発明の範囲に包含されることは明らかである．

今回開示された実施の形態は単に例示であって，本発明は上記した実施の形態のみに制
限されるわけではない．本発明の範囲は，発明の詳細な説明の記載を参酌した上で，特許
請求の範囲の各請求項によって示され，そこに記載された文言と均等の意味及び範囲内で
のすべての変更を含む．

付加的知識源を音響モデルに組込む一般的手順を示す図である．種々のＢＮトポロジを示す図である．種々のＢＮトポロジのいくつかの例を示す図である．ＢＮトポロジと，対応するトライアンギュレートグラフと，トライアンギュレートグラフのうちの１つから得たジャンクションツリーとを示す図である．図３（Ａ）に示すＢＮと同じＢＮトポロジと，これに対応するジャンクションツリーとを示す図である．トライフォン／ａ^＋，ａ，ａ⁻／をモデル化するために用いられるガウス混合分布密度での従来のＨＭＭ音響モデルを示す図である．ペンタフォンコンテキスト／ａ⁻⁻，ａ⁻，ａ，ａ^＋，ａ^＋＋／をモデル化するためのＢＮ−Ｃトポロジを示す図である．ＢＮ−ＣＧ，ＢＮ−ＣＡ，及びＢＮ−ＣＧＡのトポロジを示す図である．ＢＮによる観測空間モデリングの例を示す図である．従来のトライフォンモデルと，従来のペンタフォンモデルと，ベイズペンタフォンモデル構成Ｃ１Ｌ３Ｒ３とを示す図である．ＢＮトポロジと，これに対応するモラル及びトライアンギュレートグラフと，これに対応するジャンクションツリーとを示す図である．本発明のある実施の形態に係るＡＳＲシステム５００の全体構造を示す図である．仮説選択モジュール５１６の詳細を示すブロック図である．本実施の形態に係るＮベスト再スコアリングのメカニズムの例を示す図である．実験で用いられたトライフォンベースラインモデルの認識単語正解率の値を示す図である．種々のＢＮトポロジを用いたペンタフォンＨＭＭ／ＢＮモデルの認識単語正解率の値を示す図である．種々のベイズペンタフォンモデルの認識単語正解率の値を示す図である．種々のシステムのトライフォンＨＭＭベースライン，ペンタフォンＨＭＭベースライン，ペンタフォンＨＭＭベースライン，及び本発明の実施の形態に係るペンタフォンモデルの認識単語正解率の値を示す図である．コンピュータシステム６５０の外観を示す図である．コンピュータシステム６５０を示すブロック図である．

符号の説明

７０，８０，９０，１００，１１０，１４０，２４０，３３０ベイズネットワーク
１３０，１５０モラル及びトライアンギュレートグラフ
１６０，１８０，４５０ジャンクションツリー
１９０ＨＭＭ
２７０，２９０，３１０，４００，４３０ＢＮトポロジ
１６４，１６６，１７０，４６０，４６４，４７４クラスタの組
１６２，１６８，４６２，４７２セパレータの組
５００ＡＳＲシステム
５１０音声波形データ
５１２標準的なデコーダ
５１４Ｎベストリスト
５１６仮説選択モジュール
５３０Ｃ１Ｌ３Ｒ３ペンタフォンモデル
５３２Ｃ１Ｌ３Ｒ３−Ａペンタフォンモデル
５３４Ｃ１Ｌ３Ｒ３−Ｇペンタフォンモデル
５３６Ｃ１Ｌ３Ｒ３−ＡＧペンタフォンモデル
５５０メモリ
５５２読出及び供給モジュール
５５４，５５６，５５８，５６０，５２６シフトメモリ
５７０右コンテキスト計算装置
５７２中央コンテキスト計算装置
５７４左コンテキスト計算装置
５７６確率密度関数計算装置
５７８再スコアリングモジュール
５８０ソート及び選択モジュール

Claims

音声信号の所与のセグメント中に存在する、予め定義された組の音素の各々について、前記音声信号のための統計的音響モデル及び１以上の知識源を用いて確率を計算するための確率計算装置であって、前記セグメントは、前記音声信号の複数のフレームを含み、前記音響モデル及び前記１以上の知識源はベイズネットワークにより示される因果関係を有し、前記ベイズネットワークは、複数のクラスタノード及び１以上のセパレータノードを含むジャンクションツリーに対応し、
前記装置は、
前記クラスタノード及び１以上のセパレータノードに対応する、複数の局部的音響モデルを記憶するための手段と、
前記フレームの各々に対して予め定義された観測データを計算するための手段と、
前記複数の前記局部的音響モデルを利用して、前記音素の各々の、前記観測データを発生する局部的確率を計算するための局部的確率計算手段と、
前記音素の各々の、前記観測データを発生する確率を、前記局部的確率計算手段により計算された局部的確率の所定の関数として計算するための確率計算手段とを含む、確率計算装置。
前記所定の関数は、

によって定義され、
ただしＤは前記観測データであり、Ｍは前記音響モデルであり、Ｎは正の整数であり、Ｋｉは１以上の知識源であり、
Ｐ（Ｄ｜Ｋｉ，Ｍ）（ｉ＝１〜Ｎ）及びＰ（Ｄ｜Ｍ）は前記局部的確率計算手段により計算された局部的確率である、請求項１に記載の装置。
前記モデルＭはモノフォン音響モデルであり、
前記１以上の知識源は先行するトライフォンコンテキストユニット及び後続するトライフォンコンテキストユニットを含む、請求項２に記載の装置。
前記モデルＭは追加の知識源を用いてトレーニングされたモノフォン音響モデルであり、
前記１以上の知識源は先行するトライフォンコンテキストユニット及び後続するトライフォンコンテキストユニットを含む、請求項２に記載の装置。
前記追加の知識源は、アクセント知識、又は性別に関する知識、又はアクセント知識及び性別に関する知識の両方を含む、請求項４に記載の装置。
コンピュータ上で実行されると、前記コンピュータに、音声信号の所与のセグメント中に存在する、予め定義された組の音素の各々について、前記音声信号のための統計的音響モデル及び１以上の知識源を用いて確率を計算するための確率計算装置として機能させるコンピュータプログラムであって、前記セグメントは、前記音声信号の複数のフレームを含み、前記音響モデル及び前記１以上の知識源はベイズネットワークにより示される因果関係を有し、前記ベイズネットワークは、複数のクラスタノード及び１以上のセパレータノードを含むジャンクションツリーに対応し、
前記コンピュータプログラムは、前記コンピュータを、
前記クラスタノード及び１以上のセパレータノードに対応する、複数の局部的音響モデルを記憶するための手段と、
前記フレームの各々に対して予め定義された観測データを計算するための手段と、
前記複数の前記局部的音響モデルを利用して、前記音素の各々の、前記観測データを発生する局部的確率を計算するための局部的確率計算手段と、
前記音素の各々の、前記観測データを発生する確率を、前記局部的確率計算手段により計算された局部的確率の所定の関数として計算するための確率計算手段として機能させる、コンピュータプログラム。