JP2017009691A

JP2017009691A - 言語モデル生成装置およびそのプログラム

Info

Publication number: JP2017009691A
Application number: JP2015122789A
Authority: JP
Inventors: 和穂尾上; Kazuho Onoe
Original assignee: Nippon Hoso Kyokai NHK
Current assignee: Japan Broadcasting Corp
Priority date: 2015-06-18
Filing date: 2015-06-18
Publication date: 2017-01-12
Anticipated expiration: 2035-06-18
Also published as: JP6518142B2

Abstract

【課題】過学習を抑え、音声認識対象の話題依存言語モデルとグローバル言語モデルとを混合して新たな言語モデルを生成する言語モデル生成装置を提供する。【解決手段】言語モデル生成装置１は、グローバル言語モデルに対して、評価用文章の全体で評価した全体評価値と評価用文章を区分した区分文章で評価した区分文章ごとの個別評価値とを算出し、区分文章ごとに評価重みを生成する評価重み生成手段１０と、区分文章ごとに、評価重みの割合で混合対象の言語モデルを線形和補間したときの対数尤度が最大となるそれぞれの言語モデルの混合重みを生成する混合重み生成手段（第１混合重み生成手段１１Ａ、第２混合重み生成手段１１Ｂ）と、生成した混合重みで混合対象の言語モデルを線形和補間する線形和補間手段（第１線形和補間手段１２Ａ、第２線形和補間手段１２Ｂ）と、を備える。【選択図】図１

Description

本発明は、複数の言語モデルを混合して新たな言語モデルを生成する言語モデル生成装置およびそのプログラムに関する。

従来、独立した学習コーパスから生成された複数の言語モデル（統計的言語モデル）を、音声の認識精度を高めるために混合する手法が存在する（例えば、特許文献１参照）。
この手法は、音声認識対象（発話内容等）と類似した評価用文章を用いて、評価用文章の生成確率が最大となるように線形補間係数（混合重み）を求め、あるいは、線形補間係数をベイズ学習法により求めて、各言語モデルを線形和補間するものである。

ここで、図６を参照して、従来の一般的な言語モデルの混合手法について説明する。
図６に示すように、ここでは、２つの言語モデル（グローバル言語モデル２０、話題依存言語モデル４０）を混合することとする。なお、グローバル言語モデル２０は、大規模学習データ（大規模コーパス２００）から予め学習し生成したものである。また、話題依存言語モデル４０は、音声認識対象の話題（トピック）に依存した小規模学習データ（話題依存小規模コーパス４００）から予め学習し生成したものである。

例えば、特許文献１の背景技術として記載されている従来手法（第１従来手法）によれば、音声認識対象の話題と類似した評価用文章Ｈを用いて、評価用文章Ｈの生成確率が最大となる最尤学習により、グローバル言語モデル２０と話題依存言語モデル４０との混合重みλを計算する。そして、第１従来手法は、線形和補間手段Ｍによって、計算で求めた混合重みλを用いて、グローバル言語モデル２０と話題依存言語モデル４０とを重み付け加算（線形和補間）して混合言語モデル８０を生成する。

また、特許文献１に記載の発明に係る他の手法（第２従来手法）によれば、前記した第１従来手法よりも少ない評価用文章Ｈを用いて、ベイズ学習により、線形補間係数を求め、線形和補間して混合言語モデル８０を生成する。
このように生成された混合言語モデル８０を用いて、音声認識装置１００が音声認識を行うことで、グローバル言語モデル２０のみを用いる場合に比べ、特定の話題に対する音声認識精度を高めることができる。

なお、第１従来手法では、評価用文章Ｈを極力コーパス（大規模コーパス２００、話題依存小規模コーパス４００）とは異なるように選定することで、過学習を抑えるようにしている。また、第２従来手法では、ベイズ学習を用いて、第１従来手法よりも評価用文章Ｈの数を減らすことで、さらに、過学習を抑えるようにしている。
ここで、過学習とは、コーパス内に評価用文章が存在していた場合に、その文章（学習データ）に強く言語モデルの出現確率が依存し、他の文章（未知データ）において期待される出現確率が得られない状態となることをいう。

特開２００５−８４１７９号公報

前記した第１，第２従来手法は、評価用文章を極力コーパスとは異なるように選定したり、ベイズ学習を用いることで少数の評価用文章を選定したりすることで、過学習を抑えるようにしている。
しかし、コーパスが大規模であればあるほど、コーパス内に存在している文章を除いて、評価用文章を選定することは現実的に困難である。すなわち、従来手法では、評価用文章としてコーパス内の文章を用いる場合があり、評価用文章により過学習が発生してしまうという問題がある。

本発明は、このような問題に鑑みてなされたものであり、評価用文章に用いる各文章が評価用文章として適切か否かを予め評価し、適切な評価用文章を用いることで、過学習を抑えて、言語モデルを混合することが可能な言語モデル生成装置およびそのプログラムを提供することを課題とする。

前記課題を解決するため、本発明に係る言語モデル生成装置は、音声認識対象の話題に関連する学習コーパスから予め学習した話題依存言語モデルと、前記学習コーパスよりもデータ量の多い学習コーパスで予め学習したグローバル言語モデルとを混合し、音声認識対象の混合言語モデルを生成する言語モデル生成装置であって、評価重み生成手段と、第１混合重み生成手段と、第１線形和補間手段と、第２混合重み生成手段と、第２線形和補間手段と、を備える構成とした。

かかる構成において、言語モデル生成装置は、評価重み生成手段によって、グローバル言語モデルに対して、音声認識対象の話題に関連する予め選定された評価用文章の全体を用いて、言語モデルを評価するための評価値（例えば、パープレキシティ）を全体評価値として算出する。
さらに、言語モデル生成装置は、評価重み生成手段によって、グローバル言語モデルに対して、評価用文章を予め定めた分類により区分した区分文章を用いて、区分文章ごとの評価値を個別評価値として算出する。

そして、言語モデル生成装置は、評価重み生成手段によって、区分文章ごとに評価用文章としての適否の度合いを評価重みとして生成する。すなわち、評価重み生成手段は、区分文章を用いた方が評価用文章全体を用いた場合よりもグローバル言語モデルの評価が低ければ、区分文章の評価重みを大きく、評価が高ければ、区分文章の評価重みを小さくして評価重みを生成する。これは、区分文章を用いた方がグローバル言語モデルの評価が高ければ、区分文章がすでにグローバル言語モデルを学習するために用いた学習コーパスに含まれている可能性が高く、過学習となることを防止するためである。
このように、区分単位で評価用文章を評価することで、言語モデル生成装置は、評価用文章の区分単位ごとに過学習の度合いを評価することが可能になる。

そして、言語モデル生成装置は、第１混合重み生成手段によって、グローバル言語モデルを学習するために用いた学習コーパスを構成する複数の個別学習コーパスから予め学習した複数の個別言語モデルを、区分文章ごとに評価重みの割合で線形和補間したときの対数尤度が最大となる混合重みを生成する。
このように、第１混合重み生成手段は、言語モデルを線形和補間する割合として評価重みを加味することで、過学習の発生を抑えるとともに、評価用文章における区分文章の生成確率を高める方向に作用する混合重みを生成することができる。

そして、言語モデル生成装置は、第１線形和補間手段によって、第１混合重み生成手段で生成された混合重みの割合で、複数の個別言語モデルを線形和補間して混合グローバル言語モデルを生成する。すなわち、この混合グローバル言語モデルは、グローバル言語モデルよりも、音声認識対象の話題に対する単語の接続確率を高めた言語モデルとなる。

また、言語モデル生成装置は、第２混合重み生成手段によって、区分文章ごとに評価重みの割合で混合グローバル言語モデルと話題依存言語モデルとを線形和補間したときの対数尤度が最大となる混合重みを生成する。
このように、第２混合重み生成手段は、言語モデルを線形和補間する割合として評価重みを加味することで、過学習の発生を抑えるとともに、評価用文章における区分文章の生成確率を高める方向に作用する混合重みを生成することができる。

そして、言語モデル生成装置は、第２線形和補間手段によって、第２混合重み生成手段で生成された混合重みの割合で、混合グローバル言語モデルおよび話題依存言語モデルを線形和補間することで音声認識対象の混合言語モデルを生成する。

また、前記課題を解決するため、本発明に係る言語モデル生成装置は、音声認識対象の話題に関連する学習コーパスから予め学習した話題依存言語モデルと、前記学習コーパスよりもデータ量の多い学習コーパスで予め学習したグローバル言語モデルとを混合し、前記音声認識対象の混合言語モデルを生成する言語モデル生成装置であって、評価重み生成手段と、混合重み生成手段と、線形和補間手段と、を備える構成とした。

そして、言語モデル生成装置は、評価重み生成手段によって、区分文章ごとに評価用文章としての適否の度合いを評価重みとして生成する。すなわち、評価重み生成手段は、区分文章を用いた方が評価用文章全体を用いた場合よりもグローバル言語モデルの評価が低ければ、区分文章の評価重みを大きく、評価が高ければ、区分文章の評価重みを小さくして評価重みを生成する。
このように、区分単位で評価用文章を評価することで、言語モデル生成装置は、評価用文章の区分単位ごとに過学習の度合いを評価することが可能になる。

そして、言語モデル生成装置は、混合重み生成手段によって、区分文章ごとに評価重みの割合でグローバル言語モデルと前題依存言語モデルとを線形和補間したときの対数尤度が最大となる混合重みを生成する。
このように、混合重み生成手段は、言語モデルを線形和補間する割合として評価重みを加味することで、過学習の発生を抑えるとともに、評価用文章における区分文章の生成確率を高める方向に作用する混合重みを生成することができる。

そして、言語モデル生成装置は、線形和補間手段によって、混合重み生成手段で生成された混合重みの割合で、グローバル言語モデルおよび話題依存言語モデルを線形和補間し、音声認識対象の混合言語モデルを生成する。
これによって、言語モデル生成装置は、既存のグローバル言語モデルと、音声認識対象の小規模の話題依存言語モデルとを混合する際に、過学習を抑えて音声認識対象に適した言語モデルを生成することができる。
なお、言語モデル生成装置は、コンピュータを、前記した各手段として機能させるための言語モデル生成プログラムで動作させることができる。

本発明は、以下に示す優れた効果を奏するものである。
本発明によれば、混合する言語モデルにおいて、評価用文章の予め区分した文章ごとに、過学習となるか否かを評価して評価重みを生成し、その評価重みを用いて、言語モデルを混合するための混合重みを計算する。そのため、本発明は、過学習を抑えて言語モデルを生成することができる。また、本発明により生成された過学習が抑えられた言語モデルを音声認識に用いることで、従来よりも認識精度の高い音声認識を行うことが可能になる。

本発明の第１実施形態に係る言語モデル生成装置の構成を示すブロック構成図である。本発明の第１実施形態に係る言語モデル生成装置で使用する言語モデルの概要を説明するための説明図であって、（ａ）は大規模コーパスから学習された言語モデル、（ｂ）は話題依存小規模コーパスから学習された言語モデルを示す。本発明の第１実施形態に係る言語モデル生成装置で生成された言語モデルを用いて、音声認識を行う音声認識システムの構成を示す構成図である。本発明の第１実施形態に係る言語モデル生成装置の動作を示すフローチャートである。本発明の第２実施形態に係る言語モデル生成装置の構成を示すブロック構成図である。従来の言語モデルの混合手法を説明するための説明図である。

以下、本発明の実施形態（第１，第２実施形態）について図面を参照して説明する。
第１実施形態は、大規模コーパスを構成する元の素材ごとに学習した複数の言語モデルを音声認識対象の言語に適するように混合し、さらに、小規模コーパスから学習した音声認識対象の話題（トピック）に依存した言語モデルを混合する形態である。
第２実施形態は、第１実施形態を簡略化し、大規模コーパスから学習した１つの言語モデルと、小規模コーパスとなる音声認識対象の話題（トピック）に依存した言語モデルとを混合する形態である。

ここで、言語モデルとは、任意の文字列において、それが文である確率を付与する確率モデル（統計的言語モデル）である。この言語モデルは、例えば、Ｎグラム言語モデルであって、以下の式（１）に示すように、単語列ｗ_１ｗ_２…ｗ_ｉ−１の後に単語ｗ_ｉが出現する条件付き確率（Ｎグラム確率）で与えるモデルである。

なお、図１等では、式（１）を簡略化して、Ｐ（ｗ｜ｈ）と表記している。すなわち、ｈは、単語ｗの直前に出現する単語列である。

≪第１実施形態≫
〔言語モデル生成装置の構成〕
まず、図１を参照して、本発明の第１実施形態に係る言語モデル生成装置１の構成について説明する。

言語モデル生成装置１は、音声認識対象の話題に関連する学習コーパスから予め学習した話題依存言語モデル４０と、当該学習コーパスよりもデータ量の多い学習コーパス（大規模コーパス）を構成する独立した複数の学習コーパスからそれぞれ予め学習した複数の個別言語モデル（ここでは、一例として、原稿言語モデル３０、字幕言語モデル３１、書き起こし言語モデル３２）とを混合し、音声認識対象の言語モデル（混合言語モデル５０）を生成するものである。

なお、図１中、グローバル言語モデル２０は、原稿言語モデル３０、字幕言語モデル３１および書き起こし言語モデル３２を生成したそれぞれの学習コーパスを１つの学習コーパス（大規模コーパス）として学習した言語モデルである。
また、図１中、混合グローバル言語モデル２１は、言語モデル生成装置１が、原稿言語モデル３０と、字幕言語モデル３１と、書き起こし言語モデル３２とを混合して生成する途中段階の言語モデルである。
なお、言語モデルの学習とは、学習コーパスから前記式（１）の確率を、最尤推定法等の一般的な手法によって求めるものであり、ここでは、詳細な説明を省略する。

ここで、図２を参照して、言語モデル生成装置１が混合する言語モデルの関係について説明しておく。
図２（ａ）に示すように、グローバル言語モデル２０は、大規模コーパス２００に含まれる「原稿」、「字幕」、「書き起こし」のそれぞれの学習データ（個別学習コーパス）から予め学習された言語モデルである。「原稿」は、例えば、ニュース等の放送番組の原稿データである。また、「字幕」は、放送番組に付与した字幕データである。また、「書き起こし」は、放送番組が実際に放送された音声を人手で書き起こした書き起こしデータである。この大規模コーパス２００は、これらのデータ（学習データ）を、例えば、数年分蓄積したデータである。
また、図２（ａ）に示すように、原稿言語モデル３０は、大規模コーパス２００に含まれる「原稿」から予め学習された言語モデルである。字幕言語モデル３１は、大規模コーパス２００に含まれる「字幕」から予め学習された言語モデルである。書き起こし言語モデル３２は、大規模コーパス２００に含まれる「書き起こし」から予め学習された言語モデルである。

また、図２（ｂ）に示すように、話題依存言語モデル４０は、話題依存小規模コーパス４００から予め学習された言語モデルである。この話題依存小規模コーパス４００は、音声認識対象のトピック（話題）に類似した学習データである。例えば、音声認識の対象をスポーツ番組の音声とした場合、話題依存小規模コーパス４００は、過去に放送されたスポーツ番組から書き起こした学習データ等である。
図１に戻って、言語モデル生成装置１の構成について詳細に説明する。

図１に示すように、言語モデル生成装置１は、評価重み生成手段１０と、混合重み生成手段（第１混合重み生成手段１１Ａ、第２混合重み生成手段１１Ｂ）と、線形和補間手段（第１線形和補間手段１２Ａ、第２線形和補間手段１２Ｂ）と、を備える。

評価重み生成手段１０は、評価用文章Ｈを構成する各文章（単語列）を用いて、グローバル言語モデル２０を評価し、評価用文章Ｈの各文章が評価用文章として適切か否かを評価重みとして生成するものである。
ここで、評価用文章Ｈは、音声認識対象のトピック（話題）に関連（類似）した内容の文章として選定された文章である。例えば、音声認識対象を、ある情報を提供する放送番組（情報番組）とした場合、評価用文章Ｈとして、過去の同じ情報番組の書き起こしを用いればよい。ここでは、評価重み生成手段１０に入力される評価用文章をＨ＝｛ｈ_１，…，ｈ_ｃ，…｝とし、各ｈ_ｃは、１以上の文章で構成されるものとする。例えば、各ｈ_ｃを、情報番組の番組内の各コーナーの書き起こしとすればよい。すなわち、評価用文章Ｈは、予め定めた単位、例えば、１文章ごと、あるいは、予め定めた分類で区分された１以上の文章（区分文章）ごとに分類されているものとする。

この評価重み生成手段１０は、評価用文章Ｈを用いて、パープレキシティ（平均分岐数）により、グローバル言語モデル２０を評価する。このパープレキシティは、ある単語に対して次につながる単語の平均個数を示し、その値が小さいほど、言語モデルの精度が高いという評価を与えることができる評価値である。

具体的には、評価重み生成手段１０は、以下の式（２）により、評価用文章Ｈの文章全体｛ｈ_１，…，ｈ_ｃ，…｝を用いてパープレキシティＰＰ（全体評価値、全体パープレキシティＰＰ_ａｌｌ）と、評価用文章Ｈの個別の文章（区分文章）｛ｈ_ｃ｝ごとにパープレキシティＰＰ（個別評価値、個別パープレキシティＰＰ_ｃ）とを計算する。

この式（２）において、Ｐ_{ｇｌｏｂａｌ}（ｗ_ｉ｜ｗ_{ｉ−Ｎ＋１}…ｗ_ｉ−１）は、グローバル言語モデル２０の条件付き確率（Ｎグラム確率）を示す。また、ｎは、全体パープレキシティＰＰ_ａｌｌを計算する場合、評価用文章Ｈの文章全体の単語数であり、個別パープレキシティＰＰ_ｃを計算する場合、評価用文章Ｈの個別の区分文章｛ｈ_ｃ｝の単語数である。

そして、評価重み生成手段１０は、全体パープレキシティＰＰ_ａｌｌと、個別パープレキシティＰＰ_ｃとを比較する。ここで、個別パープレキシティＰＰ_ｃの方が大きければ、すなわち、区分文章を用いた方が評価用文章Ｈ全体を用いた場合よりもグローバル言語モデル２０の評価が低ければ、評価重み生成手段１０は、対応する個別の区分文章｛ｈ_ｃ｝の評価用文章としての重みを大きくする。一方、区分文章を用いた方が評価用文章Ｈ全体を用いた場合よりもグローバル言語モデル２０の評価が高ければ、評価重み生成手段１０は、個別の区分文章｛ｈ_ｃ｝の評価用文章としての重みを小さくする。
例えば、評価重み生成手段１０は、以下の式（３）に示すように、ＰＰ_Ｃ＞ＰＰ_ａｌｌであれば、文章｛ｈ_ｃ｝に対する評価重みα_ｃを“１”、ＰＰ_Ｃ≦ＰＰ_ａｌｌであれば、区分文章｛ｈ_ｃ｝に対する評価重みα_ｃを“０”とする。

この評価重み生成手段１０は、評価用文章Ｈの区分文章ごとに評価重みを対応付け、重み付き評価用文章として、第１混合重み生成手段１１Ａおよび第２混合重み生成手段１１Ｂに出力する。

第１混合重み生成手段１１Ａは、評価重み生成手段１０で生成された重み付き評価用文章（評価用文章、評価重み）を用いて、複数の言語モデル（原稿言語モデル３０、字幕言語モデル３１および書き起こし言語モデル３２）を混合する重み係数（混合重み）を生成するものである。この第１混合重み生成手段１１Ａは、重み付き評価用文章の対数尤度が最大となるように各言語モデルの混合重みを算出する。

具体的には、第１混合重み生成手段１１Ａは、以下の式（４）の対数尤度Ｌを最大化する原稿言語モデル３０の混合重みλ_{ｇｅｎｋｏ}、字幕言語モデル３１の混合重みλ_{ｊｉｍａｋｕ}、書き起こし言語モデル３２の混合重みλ_{ｋａｋｉｏｋｏｓｈｉ}を算出する。

この式（４）において、ｃは、評価用文章Ｈ＝｛ｈ_１，…，ｈ_ｃ，…｝の区分文章ｈ_ｃを指し示す指標であり、Ｃはその文章総数を示す。また、Ｐ_{ｇｅｎｋｏ}（ｗ_ｉ ^ｃ｜ｗ_{ｉ−Ｎ＋１} ^ｃ…ｗ_ｉ−１ ^ｃ）は、文章ｈ_ｃに対する原稿言語モデル３０の条件付き確率（Ｎグラム確率）を示す。また、Ｐ_{ｊｉｍａｋｕ}（ｗ_ｉ ^ｃ｜ｗ_{ｉ−Ｎ＋１} ^ｃ…ｗ_ｉ−１ ^ｃ）は、区分文章ｈ_ｃに対する字幕言語モデル３１の条件付き確率（Ｎグラム確率）を示す。また、Ｐ_{ｋａｋｉｏｋｏｓｈｉ}（ｗ_ｉ ^ｃ｜ｗ_{ｉ−Ｎ＋１} ^ｃ…ｗ_ｉ−１ ^ｃ）は、区分文章ｈ_ｃに対する書き起こし言語モデル３２の条件付き確率（Ｎグラム確率）を示す。また、ｎ^ｃは区分文章ｈ_ｃの単語数、ｗ^ｃは区分文章ｈ_ｃの単語を示す。
この第１混合重み生成手段１１Ａは、前記式（４）を最大化する混合重みλ（λ_{ｇｅｎｋｏ}，λ_{ｊｉｍａｋｕ}，λ_{ｋａｋｉｏｋｏｓｈｉ}）を、ＥＭアルゴリズム等により生成（算出）することができる。
この第１混合重み生成手段１１Ａは、生成した混合重みλ（λ_{ｇｅｎｋｏ}，λ_{ｊｉｍａｋｕ}，λ_{ｋａｋｉｏｋｏｓｈｉ}）を、第１線形和補間手段１２Ａに出力する。

第１線形和補間手段１２Ａは、第１混合重み生成手段１１Ａで生成された混合重みλを用いて、複数の言語モデル（原稿言語モデル３０、字幕言語モデル３１および書き起こし言語モデル３２）を混合するものである。

具体的には、第１線形和補間手段１２Ａは、以下の式（５）に示すように、混合する言語モデル間で、同じ単語ｗ_ｉごとに、混合重みλ（λ_{ｇｅｎｋｏ}，λ_{ｊｉｍａｋｕ}，λ_{ｋａｋｉｏｋｏｓｈｉ}）を用いてＮグラム確率を重み付き加算（線形和補間）することで、混合グローバル言語モデル２１を生成する。ここで、Ｐ_ｍｉｘ（ｗ_ｉ｜ｗ_{ｉ−Ｎ＋１}…ｗ_ｉ−１）は、生成される混合グローバル言語モデル２１のＮグラム確率を示す。

このように生成された混合グローバル言語モデル２１は、グローバル言語モデル２０よりも、音声認識対象の表現に対する条件付き確率を高めた言語モデルとなる。
この第１線形和補間手段１２Ａは、生成した混合グローバル言語モデル２１を、図示を省略した記憶手段に書き込み記憶する。また、この混合グローバル言語モデル２１は、後記する第２混合重み生成手段１１Ｂおよび第２線形和補間手段１２Ｂによって参照される。

第２混合重み生成手段１１Ｂは、評価重み生成手段１０で生成された重み付き評価用文章（評価用文章、評価重み）を用いて、複数の言語モデル（混合グローバル言語モデル２１および話題依存言語モデル４０）を混合する重み係数（混合重み）を生成するものである。この第２混合重み生成手段１１Ｂは、重み付き評価用文章の対数尤度が最大となるように各言語モデルの混合重みを算出する。
この第２混合重み生成手段１１Ｂにおける混合重みの生成手法は、混合する言語モデルが異なるだけで、第１混合重み生成手段１１Ａと同じである。

具体的には、第２混合重み生成手段１１Ｂは、以下の式（６）の対数尤度Ｌを最大化する混合グローバル言語モデル２１の混合重みλ_ｍｉｘ、話題依存言語モデル４０の混合重みλ_{ｗａｄａｉ}を算出する。

この式（６）において、Ｐ_ｍｉｘ（ｗ_ｉ ^ｃ｜ｗ_{ｉ−Ｎ＋１} ^ｃ…ｗ_ｉ−１ ^ｃ）は、文章ｈ_ｃに対する混合グローバル言語モデル２１の条件付き確率（Ｎグラム確率）を示す。また、Ｐ_{ｗａｄａｉ}（ｗ_ｉ ^ｃ｜ｗ_{ｉ−Ｎ＋１} ^ｃ…ｗ_ｉ−１ ^ｃ）は、文章ｈ_ｃに対する話題依存言語モデル４０の条件付き確率（Ｎグラム確率）を示す。他の変数は、前記式（４）と同じである。
この第２混合重み生成手段１１Ｂは、生成した混合重みλ（λ_ｍｉｘ，λ_{ｗａｄａｉ}）を、第２線形和補間手段１２Ｂに出力する。

第２線形和補間手段１２Ｂは、第２混合重み生成手段１１Ｂで生成された混合重みλを用いて、複数の言語モデル（混合グローバル言語モデル２１および話題依存言語モデル４０）を混合するものである。
この第２線形和補間手段１２Ｂにおける混合手法は、混合する言語モデルが異なるだけで、第１線形和補間手段１２Ａと同じである。

具体的には、第２線形和補間手段１２Ｂは、以下の式（７）に示すように、混合する言語モデル間で、同じ単語ｗ_ｉごとに、混合重みλ（λ_ｍｉｘ，λ_{ｗａｄａｉ}）を用いてＮグラム確率を重み付き加算（線形和補間）することで、混合言語モデル５０を生成する。ここで、Ｐ_ｍｉｘ２（ｗ_ｉ｜ｗ_{ｉ−Ｎ＋１}…ｗ_ｉ−１）は、生成される混合言語モデル５０のＮグラム確率を示す。

これによって、混合言語モデル５０は、音声認識対象の表現に対する条件付き確率を高めた混合グローバル言語モデル２１に対して、さらに、音声認識対象のトピック（話題）についての条件付き確率を高めた言語モデルとなる。
なお、言語モデル生成装置１が生成する混合言語モデル５０は、一般的な音声認識装置において使用することができる。その場合、例えば、図３に示すように、音声認識装置１００は、言語モデル生成装置１が生成する混合言語モデル５０と、既存の発音辞書６０および音響モデル７０とにより、音声を音声認識し認識結果を出力する。

以上説明したように言語モデル生成装置１を構成することで、言語モデル生成装置１は、複数の言語モデルを混合する際に、使用する評価用文章Ｈに対して評価重みを設け、混合重みを算出して混合するため、過学習を抑えることができる。
また、言語モデル生成装置１は、混合グローバル言語モデル２１において、音声認識対象の表現に対する条件付き確率が高められているため、後記する第２実施形態（図５）のように、グローバル言語モデル２０に話題依存言語モデル４０を直接混合する場合に比べ、音声認識対象の表現に対する条件付き確率をさらに高めることができる。

なお、言語モデル生成装置１は、図示を省略したコンピュータを、評価重み生成手段１０、第１混合重み生成手段１１Ａ、第１線形和補間手段１２Ａ、第２混合重み生成手段１１Ｂ、第２線形和補間手段１２Ｂとして機能させるプログラム（言語モデル生成プログラム）で動作させることができる。

〔言語モデル生成装置の動作〕
次に、図４を参照（構成については適宜図１参照）して、本発明の第１実施形態に係る言語モデル生成装置１の動作について説明する。
まず、言語モデル生成装置１は、評価重み生成手段１０によって、大規模コーパスを用いて学習したグローバル言語モデル２０から、評価用文章Ｈの評価重みを生成する（ステップＳ１）。
具体的には、評価重み生成手段１０は、評価用文章Ｈの文章全体｛ｈ_１，…，ｈ_ｃ，…｝を用いてパープレキシティＰＰ（全体パープレキシティＰＰ_ａｌｌ）を計算し、評価用文章Ｈの個別の文章｛ｈ_ｃ｝ごとにパープレキシティＰＰ（個別パープレキシティＰＰ_ｃ）を計算する（前記式（２）参照）。そして、評価重み生成手段１０は、全体パープレキシティＰＰ_ａｌｌよりも個別パープレキシティＰＰ_ｃの方が大きければ、対応する個別の文章｛ｈ_ｃ｝の評価用文章としての重みを大きくし、それ以外であれば、個別の文章｛ｈ_ｃ｝の評価用文章としての重みを小さくするように、評価重みを生成する（前記式（３）参照）。

そして、言語モデル生成装置１は、第１混合重み生成手段１１Ａによって、ステップＳ１で生成された評価重みを用いて、大規模コーパスに含まれる原稿、字幕、書き起こしの各学習データから学習した原稿言語モデル３０、字幕言語モデル３１および書き起こし言語モデル３２を混合する混合重みλ（λ_{ｇｅｎｋｏ}，λ_{ｊｉｍａｋｕ}，λ_{ｋａｋｉｏｋｏｓｈｉ}）を生成する（ステップＳ２）。
具体的には、第１混合重み生成手段１１Ａは、評価用文章の対数尤度が最大となるように原稿言語モデル３０、字幕言語モデル３１および書き起こし言語モデル３２の混合重みを算出する（前記式（４）参照）。

そして、言語モデル生成装置１は、第１線形和補間手段１２Ａによって、ステップＳ２で算出された混合重みを用いて、原稿言語モデル３０、字幕言語モデル３１および書き起こし言語モデル３２を混合し、混合グローバル言語モデル２１を生成する（ステップＳ３）。
具体的には、第１線形和補間手段１２Ａは、ステップＳ２で算出された原稿言語モデル３０、字幕言語モデル３１および書き起こし言語モデル３２の混合重みλ（λ_{ｇｅｎｋｏ}，λ_{ｊｉｍａｋｕ}，λ_{ｋａｋｉｏｋｏｓｈｉ}）を用いて、Ｎグラム確率を重み付き加算（線形和補間）することで、混合グローバル言語モデル２１を生成する（前記式（５）参照）。

そして、言語モデル生成装置１は、第２混合重み生成手段１１Ｂによって、ステップＳ１で生成された評価重みを用いて、ステップＳ３で生成された混合グローバル言語モデル２１と、話題依存小規模コーパスから学習した話題依存言語モデル４０とを混合する混合重みλ（λ_ｍｉｘ，λ_{ｗａｄａｉ}）を生成する（ステップＳ４）。
具体的には、第２混合重み生成手段１１Ｂは、評価用文章の対数尤度が最大となるように混合グローバル言語モデル２１および話題依存言語モデル４０の混合重みを算出する（前記式（６）参照）。

そして、言語モデル生成装置１は、第２線形和補間手段１２Ｂによって、ステップＳ４で算出された混合重みを用いて、混合グローバル言語モデル２１および話題依存言語モデル４０を混合し、混合言語モデル５０を生成する（ステップＳ５）。
具体的には、第２線形和補間手段１２Ｂは、ステップＳ４で算出された混合グローバル言語モデル２１および話題依存言語モデル４０の混合重みλ（λ_ｍｉｘ，λ_{ｗａｄａｉ}）を用いて、Ｎグラム確率を重み付き加算（線形和補間）することで、混合言語モデル５０を生成する（前記式（７）参照）。
以上の動作によって、言語モデル生成装置１は、過学習を抑え、音声認識対象の認識精度を高めた言語モデルを生成することができる。

〔性能評価〕
次に、言語モデル生成装置１を評価した評価結果について説明する。
この評価に用いた大規模コーパス２００（図２参照）を構成するコーパス（原稿、字幕、書き起こし）、および、話題依存小規模コーパス４００は、過去の放送番組で用いられたデータであって、以下の〔表１〕で示したコーパスサイズである。

言語モデル生成装置１において、〔表１〕で示したコーパスを用いて学習した原稿言語モデル３０、字幕言語モデル３１、書き起こし言語モデル３２および話題依存言語モデル４０を混合する。

まず、言語モデル生成装置１が、評価重み生成手段１０で生成した評価重みを用いて、言語モデル（ここでは、原稿言語モデル３０、字幕言語モデル３１および書き起こし言語モデル３２）を混合する効果について説明する。
以下の〔表２〕には、大規模コーパスを単純に学習して生成したグローバル言語モデル２０（Ｐ_{ｇｌｏｂａｌ}（ｗ｜ｈ））と、評価重みを用いず、前記式（４）で評価重みα_ｃを常に“１”にして生成した言語モデル（Ｐ_{ｍｉｘｔｅｓｔ}（ｗ｜ｈ））と、本発明の評価重みを用いて生成した混合グローバル言語モデル２１（Ｐ_ｍｉｘ（ｗ｜ｈ））とのそれぞれのパープレキシティの値を示している。

この〔表２〕に示すように、本発明に係る言語モデル生成装置１において、評価用文章Ｈの評価重みを生成して混合した混合グローバル言語モデル２１（Ｐ_ｍｉｘ（ｗ｜ｈ）は、他の言語モデル（Ｐ_{ｇｌｏｂａｌ}（ｗ｜ｈ）、Ｐ_{ｍｉｘｔｅｓｔ}（ｗ｜ｈ））に比べて、パープレキシティの値が小さくなり、精度の高い言語モデルが生成されたことを示している。

次に、言語モデル生成装置１が生成した言語モデル（混合言語モデル５０）を用いた、音声認識の精度について説明する。
以下の〔表３〕には、本発明の評価重みを用いて生成した混合言語モデル５０（Ｐ_ｍｉｘ２（ｗ｜ｈ））を用いて音声認識したときの単語誤り率と、評価重みを用いず、前記式（４）で評価重みα_ｃを常に“１”にして生成した言語モデル（Ｐ_{ｍｉｘ２ｔｅｓｔ}（ｗ｜ｈ））を用いて音声認識したときの単語誤り率とを示している。

この〔表３〕に示すように、本発明に係る言語モデル生成装置１において、評価用文章Ｈの評価重みを生成して混合した混合言語モデル５０（Ｐ_ｍｉｘ２（ｗ｜ｈ）は、評価重みを用いないで生成した言語モデル（Ｐ_{ｍｉｘ２ｔｅｓｔ}（ｗ｜ｈ））に比べて、単語誤り率が小さく、音声認識の精度を高めることができる。

≪第２実施形態≫
次に、図５を参照して、本発明の第２実施形態に係る言語モデル生成装置１Ｂの構成について説明する。

言語モデル生成装置１Ｂは、言語モデル生成装置１（図１参照）と同様に、大規模言語モデル（グローバル言語モデル２０）に、音声認識対象の小規模の言語モデル（話題依存言語モデル４０）とを重み付け加算して混合するものである。この言語モデル生成装置１Ｂは、言語モデル生成装置１（図１参照）に比べ、大規模コーパスで予め独立して学習した複数の言語モデル（原稿言語モデル３０、字幕言語モデル３１および書き起こし言語モデル３２〔図１参照〕）を混合しない点が異なる。

図５に示すように、言語モデル生成装置１Ｂは、評価重み生成手段１０と、混合重み生成手段１１、線形和補間手段１２と、を備える。評価重み生成手段１０は、図１で説明した言語モデル生成装置１の構成と同じものであるため、説明を省略する。

混合重み生成手段１１は、評価重み生成手段１０で生成された重み付き評価用文章（評価用文章、評価重み）を用いて、複数の言語モデル（グローバル言語モデル２０および話題依存言語モデル４０）を混合する重み係数（混合重み）を生成するものである。この混合重み生成手段１１は、重み付き評価用文章の対数尤度が最大となるように各言語モデルの混合重みを算出する。
なお、対数尤度により混合重みを算出する手法は、図１で説明した第１混合重み生成手段１１Ａや第２混合重み生成手段１１Ｂの手法と同様であるため、ここでは説明を省略する。
この混合重み生成手段１１は、生成した混合重みλ（λ_{ｇｌｏｂａｌ}，λ_{ｗａｄａｉ}）を、線形和補間手段１２に出力する。

線形和補間手段１２は、混合重み生成手段１１で生成された混合重みλを用いて、複数の言語モデル（グローバル言語モデル２０および話題依存言語モデル４０）を混合するものである。この線形和補間手段１２は、生成した混合言語モデル５０Ｂを外部に出力する。
なお、この混合重みを用いて言語モデルを混合する手法は、図１で説明した第１線形和補間手段１２Ａや第２線形和補間手段１２Ｂの手法と同様であるため、ここでは説明を省略する。

このように、言語モデル生成装置１Ｂは、既存の大規模コーパスで生成されたグローバル言語モデル２０に対して、音声認識対象のトピックをコーパスとして生成された話題依存言語モデル４０を混合することで、対象音声の認識精度を高めることができる。また、このとき、言語モデル生成装置１Ｂは、評価用文章Ｈの各文章で、混合重みを計算する際に、評価に適している文章の重みを大きくすることで、すでにコーパス内に含まれ学習されている文章の過学習を抑えることができる。

なお、言語モデル生成装置１Ｂは、図示を省略したコンピュータを、評価重み生成手段１０、混合重み生成手段１１、線形和補間手段１２として機能させるプログラム（言語モデル生成プログラム）で動作させることができる。

以上、本発明の実施形態（第１，第２実施形態）について説明したが、本発明は、これらの実施形態に限定されるものではなく、以下のように種々変形することができる。
≪その他の変形例≫
ここでは、評価重み生成手段１０が生成する評価重みα_ｃを、前記式（３）に示すように、２値（“０”，“１”）とした。
しかし、評価重み生成手段１０は、評価重みα_ｃを、評価用文章Ｈの文章全体の全体パープレキシティＰＰ_ａｌｌと、各文章の個別パープレキシティＰＰ_ｃとの差等を基に、“０”以上“１”以下の範囲の値としてもよい。例えば、文章全体の全体パープレキシティＰＰ_ａｌｌから、各文章の個別パープレキシティＰＰ_ｃを減算した差が最大となる文章に対する評価重みを“１”、最小となる文章に対する評価重みを“０”とし、他の文章に対する評価重みについては、その差の大きさの割合に応じて値を付与すればよい。

また、ここでは、評価重み生成手段１０は、言語モデルを評価する指標としてパープレキシティを用いた。
しかし、評価重み生成手段１０は、言語モデルを数値評価できる指標であれば、必ずしもパープレキシティを用いる必要はない。例えば、エントロピー（前記式（２）のＥ）、対数尤度（前記式（２）のΣ以降）を用いても構わない。

また、ここでは、複数の言語モデルを例示（例えば、原稿言語モデル３０、字幕言語モデル３１、書き起こし言語モデル３２等）して説明したが、混合する言語モデルは、これらに限定されるものではない。例えば、原稿言語モデル３０は、放送番組の原稿以外にも、数年分の新聞の原稿であっても構わない。

１，１Ｂ言語モデル生成装置
１０評価重み生成手段
１１混合重み生成手段
１１Ａ第１混合重み生成手段
１１Ｂ第２混合重み生成手段
１２線形和補間手段
１２Ａ第１線形和補間手段
１２Ｂ第２線形和補間手段
２０グローバル言語モデル
２１混合グローバル言語モデル
３０原稿言語モデル（個別言語モデル）
３１字幕言語モデル（個別言語モデル）
３２書き起こし言語モデル（個別言語モデル）
４０話題依存言語モデル
５０，５０Ｂ混合言語モデル

Claims

音声認識対象の話題に関連する学習コーパスから予め学習した話題依存言語モデルと、前記学習コーパスよりもデータ量の多い学習コーパスで予め学習したグローバル言語モデルとを混合し、前記音声認識対象の混合言語モデルを生成する言語モデル生成装置であって、
前記話題に関連する予め選定された評価用文章の全体を用いて前記グローバル言語モデルを評価した全体評価値と、前記評価用文章を予め定めた分類により区分した区分文章を用いて前記グローバル言語モデルを評価した前記区分文章ごとの個別評価値とを算出し、前記区分文章ごとに前記評価用文章としての適否の度合いを評価重みとして生成する評価重み生成手段と、
前記グローバル言語モデルを学習するために用いた学習コーパスを構成する複数の個別学習コーパスから予め学習した複数の個別言語モデルを、前記区分文章ごとに前記評価重みの割合で線形和補間したときの対数尤度が最大となる混合重みを生成する第１混合重み生成手段と、
この第１混合重み生成手段で生成された混合重みの割合で、前記複数の個別言語モデルを線形和補間して混合グローバル言語モデルを生成する第１線形和補間手段と、
前記区分文章ごとに前記評価重みの割合で前記混合グローバル言語モデルと前記話題依存言語モデルとを線形和補間したときの対数尤度が最大となる混合重みを生成する第２混合重み生成手段と、
この第２混合重み生成手段で生成された混合重みの割合で、前記混合グローバル言語モデルおよび前記話題依存言語モデルを線形和補間し、前記音声認識対象の混合言語モデルを生成する第２線形和補間手段と、
を備えることを特徴とする言語モデル生成装置。
音声認識対象の話題に関連する学習コーパスから予め学習した話題依存言語モデルと、前記学習コーパスよりもデータ量の多い学習コーパスで予め学習したグローバル言語モデルとを混合し、前記音声認識対象の混合言語モデルを生成する言語モデル生成装置であって、
前記話題に関連する予め選定された評価用文章の全体を用いて前記グローバル言語モデルを評価した全体評価値と、前記評価用文章を予め定めた分類により区分した区分文章を用いて前記グローバル言語モデルを評価した前記区分文章ごとの個別評価値とを算出し、前記区分文章ごとに前記評価用文章としての適否の度合いを評価重みとして生成する評価重み生成手段と、
前記区分文章ごとに前記評価重みの割合で前記グローバル言語モデルと前記話題依存言語モデルとを線形和補間したときの対数尤度が最大となる混合重みを生成する混合重み生成手段と、
前記混合重みの割合で、前記グローバル言語モデルおよび前記話題依存言語モデルを線形和補間し、前記音声認識対象の混合言語モデルを生成する線形和補間手段と、
を備えることを特徴とする言語モデル生成装置。
前記評価重み生成手段は、前記全体評価値および前記個別評価値として、前記グローバル言語モデルのパープレキシティを計算し、前記全体評価値よりも前記個別評価値の方が大きい前記区分文章に対して、前記評価重みを大きく設定することを特徴とする請求項１または請求項２に記載の言語モデル生成装置。
前記評価重み生成手段は、前記全体評価値および前記個別評価値として、前記グローバル言語モデルのパープレキシティを計算し、前記全体評価値よりも前記個別評価値の方が大きい前記区分文章に対して、前記評価重みを“１”、それ以外の区分文章に対して、前記評価重みを“０”に設定することを特徴とする請求項１または請求項２に記載の言語モデル生成装置。
コンピュータを、請求項１から請求項４のいずれか一項に記載の言語モデル生成装置として機能させるための言語モデル生成プログラム。