JP2004117647A

JP2004117647A - クラス言語モデル生成方法、クラス言語モデル生成装置及びクラス言語モデル生成プログラム

Info

Publication number: JP2004117647A
Application number: JP2002278926A
Authority: JP
Inventors: Takeshi Kobayakawa; 小早川　健
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2002-09-25
Filing date: 2002-09-25
Publication date: 2004-04-15

Abstract

【課題】すでに存在する言語モデルを用いて、単語の出現頻度や接続頻度を再度学習することなしに、短時間でクラス言語モデルを生成することを可能にしたクラス言語モデル生成方法、クラス言語モデル生成装置及びクラス言語モデル生成プログラムを提供する。
【解決手段】クラス言語モデル生成装置１は、Ｎ−ｇｒａｍ言語モデル２ａと、単語集合３ａとに基づいて、単語集合３ａ内の単語を、その単語を用いた単語列及びその接続確率値からなるクラスエントリに展開するＮ−ｇｒａｍ展開手段１０と、そのクラスエントリの中で重複した単語列を持つクラスエントリを１つのエントリにまとめることで、クラスＮ−ｇｒａｍ言語モデル４ａを生成するＮ−ｇｒａｍ加算整列手段３０とを備えたことを特徴とする。
【選択図】　　　図１

Description

【０００１】
【発明の属する技術分野】
本発明は、単語の接続について確率値を使って表現する言語モデルから、新出単語の接続確率値を推定するためのクラス言語モデルを生成するクラス言語モデル生成方法、クラス言語モデル生成装置及びクラス言語モデル生成プログラムに関する。
【０００２】
【従来の技術】
従来、音声認識装置等で用いられる、単語を配列した単語列に対して、その単語の接続確率値を与える言語モデルとして、Ｎ−ｇｒａｍを用いた言語モデル（Ｎ−ｇｒａｍ言語モデル）が知られている。
このＮ−ｇｒａｍ言語モデルは、入力される単語の列（単語列）ｗ_１，ｗ_２，…，ｗ_ｎに対して、その単語の接続確率値Ｐ（ｗ_１，ｗ_２，…，ｗ_ｎ）を（１）式のように条件付き確率により算出し生成するモデルであり、単語列ｗ_１，ｗ_２，…，ｗ_ｎと接続確率値Ｐ（ｗ_１，ｗ_２，…，ｗ_ｎ）とからなるエントリの集合である。
【０００３】
【数１】

【０００４】
すなわち、Ｎ−ｇｒａｍ言語モデルでは、ｉ番目の単語ｗ_ｉの生成確率が、（Ｎ−１）単語列ｗ_{ｉ−Ｎ＋１}，…，ｗ_ｉ−２，ｗ_ｉ−１に依存する。例えば、３−ｇｒａｍ（Ｎ＝３：トライグラム）を例にとると、単語列ｗ_１，ｗ_２に続いて単語ｗ_３が出現する確率はＰ（ｗ_３｜ｗ_１，ｗ_２）と表される。
【０００５】
このようなＮ−ｇｒａｍ言語モデルに対しては、学習されていない新出単語の接続をどのように推定するかが問題となる。その問題に対する最も一般的な方法としては、予め単語を品詞や意味を用いて特定のクラスに分類しておき、新出単語の接続確率値を、その新出単語が属するクラスの他の単語の接続確率値から推定して生成した言語モデル（クラス言語モデル）を用いる方法が提案されている（例えば、非特許文献１参照）。
【０００６】
ここで、図７を参照して、クラス言語モデルの概念について説明する。図７（ａ）は、単語を特定のクラスに分類（クラス分け）した状態を表している。図７（ａ）に示したように、クラス言語モデルでは、予め共通の特性を有する単語を同一のクラスとして分類しておく。ここでは、スポーツ番組の中継内容を音声認識するために用いる言語モデルを生成することとして、選手名（選手名クラスＣ_１）、解説者名（解説者クラスＣ_２）、国名（国名クラスＣ_３）等のクラスに単語をクラス分けしておく。
【０００７】
また、図７（ｂ）は、図７（ａ）でクラス分けされた単語に含まれていない新出単語の接続確率値をどのように推定するかを模式的に表した図である。図７（ｂ）に示したように、すでに既知の単語である「稲本」及び「から」の接続確率値Ｐ（から｜稲本）がｐである場合、「カーン」という新出単語が出現したときの「カーン」に対する接続確率値Ｐ（から｜カーン）は、推定前では０に近い（一般に言語モデルにおける接続確率値には０を設定しない）。
【０００８】
ここで、「カーン」を選手名クラスＣ_１に属するものとすると、「カーン」は、「稲本」と同一のクラスに属することになる。そこで、接続確率値Ｐ（から｜カーン）は、接続確率値Ｐ（から｜稲本）と同じｐであると推定する。
このように、クラス言語モデルでは、単語をクラス分けすることで、新出単語の接続確率値を推定することを可能にしている。
【０００９】
ここで、図８を参照して、従来のクラス言語モデルの生成方法について説明する。図８は、従来のクラス言語モデルの生成方法の一例を示すフローチャートである。図８に示すように、従来のクラス言語モデルの生成方法は、まず、クラス言語モデルを生成する元となるテキストデータ（学習テキストＴ）を形態素解析することで、学習テキストＴを単語に分割する（Ｓ２１）。
【００１０】
このＳ２１で分割された各単語のうち、共通の特性を有する単語を同一のクラスとしてクラス分けし、そのクラスに属する単語をクラスに付したクラス識別子に置換する（Ｓ２２）。なお、特にクラス分けを要しない単語は、そのまま保持される。
【００１１】
そして、クラス化されていない単語及びクラス識別子の出現頻度及び接続頻度を求め（学習）（Ｓ２３）、その単語及びクラス識別子の接続確率値を算出する（Ｓ２４）。そして、クラス識別子をそのクラス識別子のクラスで分類されている単語に展開することで、クラス識別子を単語に置換し（Ｓ２５）、クラス言語モデルＭを生成する。
【００１２】
このように、従来のクラス言語モデルの生成方法は、単語をクラス化して、そのクラスに基づいて言語モデルを生成するため、学習テキストに含まれていない（学習されていない）新出単語についても、その新出単語をクラスに対応させることで容易に接続確率値を推定した言語モデルを生成することができる。
【００１３】
【非特許文献１】
Ｐ．Ｆ．Ｂｒｏｗｎ他，「Ｃｌａｓｓ−Ｂａｓｅｄ　ｎ−ｇｒａｍ
Ｍｏｄｅｌｓ　ｏｆ　Ｎａｔｕｒａｌ　Ｌａｎｇｕａｇｅ」，
Ｃｏｍｐｕｔａｔｉｏｎａｌ　Ｌｉｎｇｕｉｓｔｉｃｓ，
Ｖｏｌ．１８，Ｎｏ．４，ｐ．４６７−４７９，１９９２年
【００１４】
【発明が解決しようとする課題】
前記従来の技術におけるクラス言語モデルの生成方法は、クラスに属する単語が変化した場合、例えば、新出単語があるクラスに追加された場合、学習されていない単語であっても、その新出単語の接続確率値を推定した（クラス）言語モデルを生成することができる点においては優れている。
【００１５】
しかし、クラスに属する単語が変化して、再度クラス言語モデルを生成するには、従来のクラス言語モデルの生成方法における図８において、Ｓ２２から再度処理を実行する必要がある。これらの処理（図８におけるＳ２２以降）は多くの演算を行う必要があるため、クラス言語モデルを再構築するには多くの時間を要してしまうという問題があった。
【００１６】
本発明は、以上のような問題点に鑑みてなされたものであり、すでに存在する言語モデルを用いて、単語の出現頻度や接続頻度を再度学習することなしに、短時間でクラス言語モデルを生成することを可能にしたクラス言語モデル生成方法、クラス言語モデル生成装置及びクラス言語モデル生成プログラムを提供することを目的とする。
【００１７】
【課題を解決するための手段】
本発明は、前記目的を達成するために創案されたものであり、まず、請求項１に記載のクラス言語モデル生成方法は、単語を配列した単語列とその単語の接続確率値とからなるエントリの集合である言語モデルから、予め特定の単語を特定のクラス毎に分類した単語の集合に基づいて、前記クラスに属する単語の接続確率値を同一のクラスに属する単語の接続確率値で推定したクラス言語モデルを生成するクラス言語モデル生成方法であって、前記言語モデルの単語列から、その単語列に含まれる単語をその単語と同じクラスに属するクラス所属単語に置き換えた複数のクラス単語列を生成し、前記言語モデルの接続確率値を前記クラス単語列毎に分配してクラス接続確率値とすることで、前記クラス単語列と前記クラス接続確率値とからなるクラスエントリを生成する言語モデル展開ステップと、この言語モデル展開ステップで生成された前記クラスエントリにおいて、前記クラス単語列が同一となる複数のクラスエントリのクラス接続確率値をすべて加算した統合クラスエントリを生成する言語モデル加算ステップと、を含むことを特徴とする。
【００１８】
この方法によれば、クラス言語モデル生成方法は、言語モデル展開ステップにおいて、言語モデルのエントリである単語列に含まれる単語を、その単語を含んだクラスに属するクラス所属単語にそれぞれ置き換えた単語列であるクラス単語列を生成し、接続確率値をクラス単語列毎に分配してクラス接続確率値としたクラスエントリを生成する。ここで、クラスとは、単語の品詞や意味等を用いて、単語を分類するもので、そのクラス及びそのクラスに属する単語は予め定義しておくものとする。ただし、単語列に含まれる単語は、すべてクラスに分類されている必要はない。
【００１９】
これにより、１つのエントリから、そのエントリの単語列に含まれる単語を同一のクラスに属する単語に置き換えた複数のエントリ（クラスエントリ）が生成される。また、この生成されたクラスエントリに対して、元のエントリの接続確率値が分配される。ここでは、各クラスエントリの接続確率値であるクラス接続確率値の総和が、元のエントリの接続確率値と等しくなるように分配する。
【００２０】
なお、この言語モデル展開ステップでは、エントリの単語列に含まれる単語を、同一のクラスに属する単語に置き換えたクラス単語列を生成するため、他のエントリで生成されたクラスエントリと同一のクラス単語列を持つ複数のクラスエントリが生成されてしまうことになる。
【００２１】
そこで、このクラス言語モデル生成方法は、言語モデル加算ステップにおいて、言語モデル展開ステップで生成されたクラスエントリの中で、クラス単語列が同一となる複数のクラスエントリのクラス接続確率値をすべて加算した統合クラスエントリを生成し、クラス言語モデルのエントリとする。これにより、クラス言語モデルのエントリには、重複した単語列を持つエントリがなくなる。
なお、このエントリ及びクラスエントリは、単語列（クラス単語列）とその単語列に含まれる単語の接続確率値（クラス接続確率値）とからＮ−ｇｒａｍを用いて表現することができる。
【００２２】
また、請求項２に記載のクラス言語モデル生成方法は、請求項１に記載のクラス言語モデル生成方法において、前記言語モデル展開ステップが、条件付き確率で表現される前記言語モデルのエントリにおいて、前記条件付き確率の非条件部の単語を前記クラス所属単語に置き換えて前記クラスエントリを生成するときに、その生成されたクラスエントリのクラス接続確率値の総和が、前記エントリの接続確率値と等しくなるように前記接続確率値を分配することを特徴とする。
【００２３】
この方法によれば、クラス言語モデル生成方法は、言語モデル展開ステップで、言語モデルのエントリである単語列の中で、条件付き確率で表現された非条件部に含まれる単語を、その単語と同一のクラスに属するクラス所属単語に置き換えて複数のクラスエントリを生成する。そして、クラス言語モデル生成方法は、この１つのエントリから複数のクラスエントリを生成する際に、クラスエントリのクラス接続確率値の総和がエントリの接続確率値と等しくなるように接続確率値を分配する。この分配は、等分に分配してもよいし、単語そのものの出現確率に比例して分配することとしてもよい。
【００２４】
これにより、クラス言語モデル生成方法は、言語モデルのエントリから、そのエントリの単語列に含まれる非条件部の単語と同一のクラスに属する単語の接続確率値を推定したクラスエントリを生成することができる。
なお、ここで非条件部とは、言語モデルのエントリを、１つ以上の単語を連結した単語列が出現したあとに、ある単語（特定部分）が出現する出現確率である条件付き確率で表したときの、特定部分の単語を指すこととする。
【００２５】
さらに、請求項３に記載のクラス言語モデル生成方法は、請求項１又は請求項２に記載のクラス言語モデル生成方法において、前記言語モデル展開ステップは、条件付き確率で表現される前記言語モデルのエントリにおいて、前記条件付き確率の条件部の単語を前記クラス所属単語に置き換えて前記クラスエントリを生成し、その生成されたクラスエントリのクラス接続確率値には、前記エントリの接続確率値と同じ値を用いることを特徴とする。
【００２６】
この方法によれば、クラス言語モデル生成方法は、言語モデル展開ステップで、言語モデルのエントリである単語列の中で、条件付き確率で表現された条件部に含まれる単語を、その単語と同一のクラスに属するクラス所属単語に置き換えてクラスエントリを生成する。そして、クラス言語モデル生成方法は、このクラスエントリのクラス接続確率値として、このクラスエントリを生成したエントリの接続確率値をそのまま用いる。
【００２７】
これにより、クラス言語モデル生成方法は、言語モデルのエントリから、そのエントリの単語列に含まれる条件部の単語と同一のクラスに属する単語の接続確率値を推定したクラスエントリを生成することができる。
なお、ここで条件部とは、言語モデルのエントリを、１つ以上の単語を連結した単語列（前提部分）が出現したあとに、ある単語が出現する出現確率である条件付き確率で表したときの、前提部分に登場する単語列を指すこととする。
【００２８】
また、請求項４に記載のクラス言語モデル生成方法は、請求項１乃至請求項３のいずれか１項に記載のクラス言語モデル生成方法において、前記単語の集合が、すでに学習されている既知単語の集合である既知単語集合と新出単語の集合である新出単語集合とからなり、前記言語モデル展開ステップにおいて、前記言語モデルの単語列に前記既知単語が含まれている場合に、その既知単語をその既知単語と同じクラスに属する前記新出単語に置き換えて前記クラス単語列を生成することを特徴とする。
【００２９】
この方法によれば、クラス言語モデル生成方法は、言語モデル展開ステップにおいて、言語モデルのエントリである単語列に、すでに学習されている既知単語が含まれているときに、その既知単語をその既知単語と同じクラスに属する、まだ学習されていない新出単語に置き換えてクラス単語列を生成する。これにより、クラス言語モデル生成方法は、既知単語の接続確率値から、新出単語の接続確率値を推定することが可能になる。
【００３０】
さらに、請求項５に記載のクラス言語モデル生成装置は、単語を配列した単語列とその単語の接続確率値とからなるエントリの集合である言語モデルから、予め特定の単語を特定のクラス毎に分類した単語の集合に基づいて、前記クラスに属する単語の接続確率値を同一のクラスに属する単語の接続確率値で推定したクラス言語モデルを生成するクラス言語モデル生成装置であって、前記言語モデルの単語列に含まれる単語が、前記単語の集合に属するかどうかを判定する単語所属判定手段と、この単語所属判定手段の判定結果に基づいて、前記言語モデルの単語列から、その単語列に含まれる単語をその単語と同じクラスに属するクラス所属単語に置き換えたクラス単語列を生成する単語列生成手段と、この単語列生成手段で生成された前記クラス単語列に、前記言語モデルの接続確率値をクラス接続確率値として特定の比率で分配する接続確率値分配手段と、前記クラス単語列と前記クラス接続確率値とからなるクラスエントリを記憶するクラスエントリ記憶手段と、前記クラスエントリ記憶手段に記憶された前記クラスエントリの中から、前記クラス単語列が同一のものを探索する同一単語列探索手段と、この同一単語列探索手段で探索された複数のクラスエントリのクラス接続確率値をすべて加算した統合クラスエントリを生成するクラスエントリ加算手段と、を備える構成とした。
【００３１】
かかる構成によれば、クラス言語モデル生成装置は、単語所属判定手段によって、言語モデルのエントリである単語列に含まれる単語が、予め単語をクラス毎に分類した集合に属するかどうかを判定する。これにより、言語モデルの単語列に含まれる単語がクラス分けされた集合の中のどのクラスに含まれるかが判定される。
【００３２】
そして、クラス言語モデル生成装置は、単語列生成手段によって、エントリの単語列に含まれる単語を、その単語を含んだクラスに属するクラス所属単語にそれぞれ置き換えた単語列であるクラス単語列を生成し、接続確率値分配手段によって、エントリの接続確率値をクラス単語列毎にクラス接続確率値として分配したクラスエントリを生成し、クラスエントリ記憶手段に記憶する。
【００３３】
これにより、１つのエントリから、そのエントリの単語列に含まれる単語を同一のクラスに属する単語に置き換えた複数のエントリ（クラスエントリ）が生成される。また、この生成されたクラスエントリに対しては、元のエントリの接続確率値が分配される。
【００３４】
そして、クラス言語モデル生成装置は、同一単語列探索手段によって、クラスエントリ記憶手段に記憶されているクラスエントリの中から、クラス単語列が同一のものを探索し、クラスエントリ加算手段によって、同一単語列探索手段で探索された複数のクラスエントリのクラス接続確率値をすべて加算した統合クラスエントリを生成し、クラス言語モデルのエントリとして出力する。これにより、クラス言語モデルのエントリには、重複した単語列を持つエントリがなくなる。
【００３５】
また、請求項６に記載のクラス言語モデル生成プログラムは、単語を配列した単語列とその単語の接続確率値とからなるエントリの集合である言語モデルから、予め特定の単語を特定のクラス毎に分類した単語の集合に基づいて、前記クラスに属する単語の接続確率値を同一のクラスに属する単語の接続確率値で推定したクラス言語モデルを生成するために、コンピュータを、以下の手段によって機能させる構成とした。
【００３６】
すなわち、前記言語モデルの単語列に含まれる単語が、前記単語の集合に属するかどうかを判定する単語所属判定手段、この単語所属判定手段の判定結果に基づいて、前記言語モデルの単語列から、その単語列に含まれる単語をその単語と同じクラスに属するクラス所属単語に置き換えたクラス単語列を生成する単語列生成手段、この単語列生成手段で生成された前記クラス単語列に、前記言語モデルの接続確率値をクラス接続確率値として特定の比率で分配する接続確率値分配手段、前記クラス単語列と前記クラス接続確率値とからなるクラスエントリを記憶手段に記憶させるクラスエントリ記憶手段、前記記憶手段に記憶されている前記クラスエントリの中から、前記クラス単語列が同一のものを探索する同一単語列探索手段、この同一単語列探索手段で探索された複数のクラスエントリのクラス接続確率値をすべて加算した統合クラスエントリを生成するクラスエントリ加算手段、とした。
【００３７】
かかる構成によれば、クラス言語モデル生成プログラムは、単語所属判定手段によって、言語モデルのエントリである単語列に含まれる単語が、予め単語をクラス毎に分類した集合に属するかどうかを判定する。これにより、言語モデルの単語列に含まれる単語がクラス分けされた集合の中のどのクラスに含まれるかが判定される。
【００３８】
そして、クラス言語モデル生成プログラムは、単語列生成手段によって、エントリの単語列に含まれる単語を、その単語を含んだクラスに属するクラス所属単語にそれぞれ置き換えた単語列であるクラス単語列を生成し、接続確率値分配手段によって、エントリの接続確率値をクラス単語列毎にクラス接続確率値として分配したクラスエントリを生成し、記憶手段に記憶する。
【００３９】
これにより、１つのエントリから、そのエントリの単語列に含まれる単語を同一のクラスに属する単語に置き換えた複数のエントリ（クラスエントリ）が生成される。また、この生成されたクラスエントリに対しては、元のエントリの接続確率値が分配される。
【００４０】
そして、クラス言語モデル生成プログラムは、同一単語列探索手段によって、記憶手段に記憶されているクラスエントリの中から、クラス単語列が同一のものを探索し、クラスエントリ加算手段によって、同一単語列探索手段で探索された複数のクラスエントリのクラス接続確率値をすべて加算した統合クラスエントリを生成し、クラス言語モデルのエントリとして出力する。これにより、クラス言語モデルのエントリには、重複した単語列を持つエントリがなくなる。
【００４１】
【発明の実施の形態】
以下、本発明の実施の形態について図面を参照して説明する。
（クラス言語モデル生成装置の構成）
図１は、本発明におけるクラス言語モデル生成装置１の構成を示したブロック図である。図１に示すようにクラス言語モデル生成装置１は、従来の手法によって生成されたＮ−ｇｒａｍを用いた言語モデル（Ｎ−ｇｒａｍ言語モデル２ａ）と、予め単語を品詞や意味を用いて分類（クラス化）した単語の集合（単語集合）３ａとに基づいて、学習されていない新出単語の接続を推定したクラス言語モデル（クラスＮ−ｇｒａｍ言語モデル４ａ）を生成するものである。
【００４２】
Ｎ−ｇｒａｍ言語モデル２ａは、クラス言語モデル生成装置１の外部に接続されたハードディスク等の記憶媒体である言語モデル記憶手段２に記憶しておく。また、このＮ−ｇｒａｍ言語モデル２ａは、ｎ個の単語（単語列）ｗ_１，ｗ_２，…，ｗ_ｎと、その単語の接続確率値Ｐ（ｗ_ｎ｜ｗ_１，ｗ_２，…，ｗ_ｎ−１）からなるエントリの集合である。この１つのエントリを（２）式により表すこととする。
【００４３】
ｗ_１，ｗ_２，…，ｗ_ｎ→Ｐ（ｗ_ｎ｜ｗ_１，ｗ_２，…，ｗ_ｎ−１）　　　…（２）式
【００４４】
また、この（２）式において、前提条件となる（ｎ−１）個の単語（単語列）ｗ_１，ｗ_２，…，ｗ_ｎ−１を条件部といい、その条件の下に出力される単語ｗ_ｎを非条件部ということとする。
単語集合３ａは、クラス言語モデル生成装置１の外部に接続されたハードディスク等の記憶媒体である単語集合記憶手段３に記憶しておく。
【００４５】
ここで、図２を参照（適宜図１参照）して単語集合３ａの内容について説明する。図２は、単語集合３ａの一例として、スポーツ番組の中継内容（サッカー中継）を音声認識するために用いる単語を分類した内容を示している。
【００４６】
クラスＣは、サッカー選手の選手名（「稲本」、「川口」等）を表す単語の属するクラス（選手名クラスＣ_１）、サッカー中継の解説を行う解説者名（「岡田」、「井原」等）を表す単語の属するクラス（解説者名クラスＣ_２）、サッカーチームの国名（「日本」、「韓国」等）を表す単語の属するクラス（国名クラスＣ_３）等のように、単語を品詞や意味等を用いて分類するための分類項目を示している。
【００４７】
集合Ｓは、クラスＣで分類されている単語が、Ｎ−ｇｒａｍ言語モデル２ａとして、すでに学習されている単語（既知単語集合Ｋ）に属するものか、学習されていない単語（新出単語集合Ｎ）に属するものかを示す単語集合を示している。例えば、選手名クラスＣ_１の既知単語集合Ｋである｛稲本、川口、ベッカム、…｝は、すでにＮ−ｇｒａｍ言語モデル２ａとして学習されており、「稲本」と連結する単語列とその接続確率値は、Ｎ−ｇｒａｍ言語モデル２ａに登録されている。また、選手名クラスＣ_１の新出単語集合Ｎである｛中田、カーン、…｝は、Ｎ−ｇｒａｍ言語モデル２ａとして学習されていない単語の集合を一例として示している。
【００４８】
なお、クラス言語モデル生成装置１は、Ｎ−ｇｒａｍ言語モデル２ａのエントリから、既知単語集合Ｋに新出単語集合Ｎを加えた単語を用いた単語列（クラス単語列）及びその接続確率値（クラス接続確率値）からなるクラスエントリに展開することで、クラスＮ−ｇｒａｍ言語モデル４ａを生成するため、ここでは、既知単語集合Ｋと新出単語集合Ｎとを合わせた集合を展開後単語集合Ｌ_２と呼ぶこととする。それに対し、新出単語集合Ｎを加えない既知単語集合Ｋのみの集合を、展開前単語集合Ｌ_１と呼ぶこととする。
【００４９】
この展開前単語集合Ｌ_１と展開後単語集合Ｌ_２とは、展開前単語集合Ｌ_１に含まれる単語の接続確率値を、展開後単語集合Ｌ_２に含まれる単語の接続確率値に分配することを示した集合であり、同じ集合であっても構わない。
図１に戻って、クラス言語モデル生成装置１の構成の説明を続ける。
【００５０】
クラス言語モデル生成装置１は、Ｎ−ｇｒａｍ展開手段１０と、クラスエントリ記憶手段２０と、Ｎ−ｇｒａｍ加算整列手段３０とを備える構成とした。
Ｎ−ｇｒａｍ展開手段１０は、言語モデル記憶手段２に記憶されているＮ−ｇｒａｍ言語モデル２ａと、単語集合記憶手段３に記憶されている単語集合３ａとに基づいて、単語集合３ａ内の単語を、その単語を用いた単語列及びその接続確率値からなるクラスエントリに展開するものであり、単語所属判定部１１と、単語列生成部１２と、接続確率値分配部１３とを備える構成とした。
【００５１】
単語所属判定部（単語所属判定手段）１１は、言語モデル記憶手段２から１エントリ（単語列及び接続確率値）毎にデータを読み込み、そのエントリに含まれている単語が、単語集合３ａ（図２）のどのクラス及び集合に属する単語であるかを判定するものである。この単語所属判定部１１では、エントリの単語列を条件部と非条件部とに区別して、条件部又は非条件部の単語がそれぞれ単語集合３ａのどのクラス及び集合に属する単語であるかどうかを判定する。この判定結果は単語列生成部１２へ出力される。
【００５２】
単語列生成部（単語列生成手段）１２は、単語所属判定部１１の判定結果に基づいて、Ｎ−ｇｒａｍ言語モデル２ａのエントリの単語列に含まれる単語を、その単語を含んだクラスＣ（図２の単語集合３ａ内）に属する単語（クラス所属単語）に置き換えることにより、複数の単語列（クラス単語列）を生成するものである。
【００５３】
接続確率値分配部（接続確率値分配手段）１３は、単語列生成部１２で生成されクラス単語列に対して、クラス接続確率値を設定するものである。この接続確率値分配部１３は、単語列生成部１２で生成されたクラス単語列に対して、元のエントリの接続確率値を分配することで、新たなエントリ（クラスエントリ２０ａ）を生成するものである。ここで生成されたクラスエントリ２０ａは逐次クラスエントリ記憶手段２０に記憶される。
なお、Ｎ−ｇｒａｍ展開手段１０におけるクラスエントリ２０ａの生成手順については、後記する。
【００５４】
クラスエントリ記憶手段２０は、Ｎ−ｇｒａｍ展開手段１０で生成されたクラスエントリ２０ａを一時的に記憶しておくもので、ハードディスク等の記憶媒体で構成される。なお、このクラスエントリ記憶手段２０に記憶されているクラスエントリ２０ａには、Ｎ−ｇｒａｍ展開手段１０で展開された結果として、単語列が同一となる複数の重複したエントリが含まれている。
【００５５】
Ｎ−ｇｒａｍ加算整列手段３０は、クラスエントリ記憶手段２０に記憶されているクラスエントリ２０ａから、重複した単語列を持つエントリ（クラスエントリ）を１つのエントリにまとめることで、クラス言語モデル（クラスＮ−ｇｒａｍ言語モデル４ａ）を生成し出力するものであり、同一単語列探索部３１とクラスエントリ加算部３２とを備える構成とした。
【００５６】
同一単語列探索部３１は、クラスエントリ記憶手段２０に記憶されているクラスエントリ２０ａの中で、重複した単語列（クラス単語列）を探索するものである。この同一単語列探索部３１では、クラスエントリ２０ａの中で、単語１つで構成されたエントリ（Ｎ−ｇｒａｍにおけるＮ＝１（ユニグラム）のエントリ）同士、単語２つで構成さたエントリ（Ｎ＝２：バイグラム）同士、単語３つで構成されたエントリ（Ｎ＝３：トライグラム）同士等、単語の数が同じであるエントリ毎に重複したクラス単語列を持つクラスエントリを探索する。
【００５７】
ここで探索されたエントリ（クラスエントリ２０ａ）の個数、及び、そのエントリのクラスエントリ記憶手段２０上の記憶アドレス（あるいはクラスエントリ２０ａを識別するための識別子）は、クラスエントリ加算部３２へ通知される。
【００５８】
クラスエントリ加算部３２は、同一単語列探索部３１で探索された重複した単語列を持つクラスエントリ２０ａの個数と、そのクラスエントリ２０ａのクラスエントリ記憶手段２０上の記憶アドレスとに基づいて、該当するクラスエントリ２０ａをクラスエントリ記憶手段２０から読み出し、重複したクラス単語列を持つクラスエントリ２０ａの接続確率値をすべて加算することで、１つのクラスエントリ（統合クラスエントリ）とするものである。
【００５９】
このクラスエントリ加算部３２によって生成されたクラスエントリ（統合クラスエントリ）と、重複した単語列を持たないクラスエントリ２０ａとを、図示していない出力手段によって、単語列の順番にクラス言語モデル記憶手段４に出力する（書き込む）ことで、単語列の重複がないクラスＮ−ｇｒａｍ言語モデル４ａが生成される。
【００６０】
以上、クラス言語モデル生成装置１の構成について説明したが、クラス言語モデル生成装置１は、コンピュータにおいて各手段を各機能プログラムとして実現することも可能であり、各機能プログラムを結合してクラス言語モデル生成プログラムとして動作させることも可能である。
【００６１】
（クラスエントリ生成手順）
次に、図１及び図２を参照して、Ｎ−ｇｒａｍ展開手段１０で生成されるクラスエントリ２０ａの詳細な生成手順について説明する。
Ｎ−ｇｒａｍ展開手段１０は、単語集合３ａの各クラス毎に以下の３つの生成規則（生成規則１〜３）に基づいて、Ｎ−ｇｒａｍ言語モデル２ａのエントリから、クラスエントリ２０ａを生成する。
【００６２】
［生成規則１］
入力されたエントリの非条件部の単語が単語集合３ａの展開前単語集合Ｌ_１に含まれている場合、その非条件部の単語を展開後単語集合Ｌ_２の各単語に置き換えた（展開した）クラス単語列を生成し、そのクラス単語列の接続確率値（クラス接続確率値）の総和が入力されたエントリの接続確率値と等しくなるように接続確率値を分配して、クラスエントリ２０ａを生成する。
【００６３】
［生成規則２］
入力されたエントリの条件部の単語が単語集合３ａの展開前単語集合Ｌ_１に含まれている場合、その条件部の単語を展開後単語集合Ｌ_２の各単語に置き換えた（展開した）クラス単語列を生成し、各クラス単語列の接続確率値（クラス接続確率値）を、入力されたエントリの接続確率値と等しくしたクラスエントリ２０ａを生成する。
【００６４】
［生成規則３］
入力されたエントリの条件部及び非条件部の単語が、いずれも単語集合３ａの展開前単語集合Ｌ_１に含まれていない場合、入力されたエントリをそのまま（展開せずに）クラスエントリ２０ａとする。
【００６５】
以上の生成規則１〜３に基づいて、Ｎ−ｇｒａｍ展開手段１０は、Ｎ−ｇｒａｍ言語モデル２ａのエントリにおいて、１−ｇｒａｍ（Ｎ＝１：単語数１）、２−ｇｒａｍ（Ｎ＝２：単語数２）、３−ｇｒａｍ（Ｎ＝３：単語数３）等の連結される単語数毎に、以下の手順でクラスエントリ２０ａを生成する。
【００６６】
［連結単語数１（１−ｇｒａｍ）の場合］
単語ｗからなる１−ｇｒａｍのエントリｗ→Ｐ（ｗ）に対して、
（ｉ）単語ｗが展開前単語集合Ｌ_１に含まれる場合、単語ｗと同一のクラスで展開後単語集合Ｌ_２に含まれるすべての単語ｗ´に対して、エントリｗ´→Ｐ（ｗ）／｜Ｌ_２｜をクラスエントリ２０ａとする（生成規則１に対応）。なお、｜Ｌ_２｜は展開後単語集合Ｌ_２の単語数を示す。
（ｉｉ）単語ｗが展開前単語集合Ｌ_１に含まれない場合、エントリｗ→Ｐ（ｗ）をそのままクラスエントリ２０ａとする（生成規則３に対応）。
【００６７】
［連結単語数２（２−ｇｒａｍ）の場合］
単語ｗ_１及びｗ_２からなる２−ｇｒａｍのエントリｗ_１，ｗ_２→Ｐ（ｗ_２｜ｗ_１）に対して、
（ｉ）単語ｗ_１が展開前単語集合Ｌ_１に含まれる場合、単語ｗ_１と同一のクラスで展開後単語集合Ｌ_２に含まれるすべての単語ｗ´に対して、エントリｗ_１´，ｗ_２→Ｐ（ｗ_２｜ｗ_１´）をクラスエントリ２０ａとする（生成規則２に対応）。
（ｉｉ）単語ｗ_２が展開前単語集合Ｌ_１に含まれる場合、単語ｗ_２と同一のクラスで展開後単語集合Ｌ_２に含まれるすべての単語ｗ_２´に対して、エントリｗ_１，ｗ_２´→Ｐ（ｗ_２´｜ｗ_１）／｜Ｌ_２｜をクラスエントリ２０ａとする（生成規則１に対応）。なお、｜Ｌ_２｜は展開後単語集合Ｌ_２の単語数を示す。
（ｉｉｉ）単語ｗ_１及びｗ_２がいずれも展開前単語集合Ｌ_１に含まれない場合、エントリｗ_１，ｗ_２→Ｐ（ｗ_２｜ｗ_１）をそのままクラスエントリ２０ａとする（生成規則３に対応）。
【００６８】
また、連結単語数が３（３−ｇｒａｍ）以上のエントリの場合も、前記同様、単語列ｗ_１、ｗ_２、ｗ_３…の個々の単語が展開前単語集合Ｌ_１に含まれるかどうかを判定し、展開前単語集合Ｌ_１に含まれる場合は、その単語を同一のクラスで展開後単語集合Ｌ_２に含まれるすべての単語に置き換える（展開する）。
そして、展開前単語集合Ｌ_１に含まれている単語が、エントリの条件部であるときは、エントリの接続確率値をそのまま（１倍）使用し、エントリの非条件部であるときは、エントリの接続確率値を展開後単語集合Ｌ_２の単語数で割った値を使用してクラスエントリ２０ａとする。
【００６９】
なお、展開後のクラス接続確率値は、元のエントリの接続確率値を等分に分配する以外にも、展開される単語そのものの出現確率である１−ｇｒａｍ確率に比例して分配することとしてもよい。
【００７０】
ここで、図２及び図３を参照（適宜図１参照）して、クラスエントリ２０ａの生成例について説明する。図３は、Ｎ−ｇｒａｍ言語モデル２ａのエントリの中で２−ｇｒａｍ（Ｎ＝２：バイグラム）のエントリを生成（展開）する例を示している。
【００７１】
図３（ａ）は、Ｎ−ｇｒａｍ展開手段１０にＮ−ｇｒａｍ言語モデル２ａのエントリとして「稲本，から→Ｐ（から｜稲本）」（Ａ）が入力され、クラスエントリ（Ａ_１，Ａ_２，…，Ａ_ｎ）に展開された例を示している。図３（ａ）に示すように、エントリ「稲本，から→Ｐ（から｜稲本）」（Ａ）は、条件部が「稲本」であるため、前記した生成規則１に基づいて、「稲本」を選手名クラスＣ１の展開後単語集合Ｌ_２の各単語（「稲本」、「川口」、…、「中田」、…）に置き換えたクラスエントリ（Ａ_１、Ａ_２、…、Ａ_ｎ、…）に展開される。
【００７２】
なお、クラスエントリ（Ａ_１、Ａ_２、…、Ａ_ｎ、…）の接続確率値（クラス接続確率値）は、元のエントリＡの接続確率値を等分した値とする。また、このクラスエントリ（Ａ_１、Ａ_２、…、Ａ_ｎ、…）のクラス接続確率値は、各単語の出現確率（「稲本」、「川口」等の１−ｇｒａｍ確率）に比例して分配することとしてもよい。
【００７３】
図３（ｂ）は、Ｎ−ｇｒａｍ展開手段１０にＮ−ｇｒａｍ言語モデル２ａのエントリとして「川口，から→Ｐ（から｜川口）」（Ｂ）が入力され、クラスエントリ（Ｂ_１，Ｂ_２，…，Ｂ_ｎ，…）に展開された例を示している。生成規則は図３（ａ）と同様、前記した生成規則１により生成される。
【００７４】
ここでクラスエントリ（Ｂ_１，Ｂ_２，…，Ｂ_ｎ，…）のクラス単語列は、クラスエントリ（Ａ_１、Ａ_２、…、Ａ_ｎ、…）のクラス単語列と重複している。このように、Ｎ−ｇｒａｍ展開手段１０は、単語集合３ａで分類されているクラス毎に、Ｎ−ｇｒａｍ言語モデル２ａのエントリを展開することで、重複した単語列を含んだ新たなクラスエントリ２０ａを生成する。
【００７５】
（クラス言語モデル生成装置の動作）
次に、図１、図４及び図５を参照して、クラス言語モデル生成装置１の全体の動作について説明する。図４及び図５は、クラス言語モデル生成装置１の動作を示すフローチャートである。なお、図４のフローチャートは、主にＮ−ｇｒａｍ展開手段１０で動作する言語モデル展開ステップ動作を示している。また、図５のフローチャートは、主にＮ−ｇｒａｍ加算整列手段３０で動作する言語モデル加算ステップ動作を示している。
【００７６】
［言語モデル展開ステップ］
まず、クラス言語モデル生成装置１は、Ｎ−ｇｒａｍ展開手段１０の単語所属判定部１１によって、言語モデル記憶手段２に記憶されているＮ−ｇｒａｍ言語モデル２ａのエントリ（単語列及び接続確率値）を読み込む（Ｓ１）。
【００７７】
そして、単語所属判定部１１によって、エントリの非条件部の単語が、単語集合３ａの展開前単語集合Ｌ_１に含まれているかどうかを判断する（Ｓ２）。ここで、エントリの非条件部の単語が展開前単語集合Ｌ_１に含まれている場合（Ｙｅｓ）は、単語列生成部１２及び接続確率値分配部１３によって、非条件部の単語を同じクラスの展開後単語集合Ｌ_２の単語に展開し、その展開された個々の単語列に対して元のエントリの接続確率値を分配することで、クラスエントリを生成してクラスエントリ記憶手段２０に記憶する（Ｓ３）。そして、Ｓ７へ進む。
【００７８】
一方、エントリの非条件部の単語が展開前単語集合Ｌ_１に含まれていない場合（Ｓ２でＮｏ）は、単語所属判定部１１によって、エントリの条件部の単語が、単語集合３ａの展開前単語集合Ｌ_１に含まれているかどうかを判断する（Ｓ４）。ここで、エントリの条件部の単語が展開前単語集合Ｌ_１に含まれている場合（Ｙｅｓ）は、単語列生成部１２及び接続確率値分配部１３によって、条件部の単語を同じクラスの展開後単語集合Ｌ_２の単語に展開し、その展開された個々の単語列に対して、元のエントリの接続確率値を与えたクラスエントリを生成してクラスエントリ記憶手段２０に記憶する（Ｓ５）。そして、Ｓ７へ進む。
【００７９】
また、エントリの条件部の単語が展開前単語集合Ｌ_１に含まれていない場合（Ｓ４でＮｏ）は、元のエントリーをそのままクラスエントリとしてクラスエントリ記憶手段２０に記憶する（Ｓ６）。
【００８０】
そして、すべてのエントリについて、展開後単語集合Ｌ_２への展開が終了したかどうかを判定し（Ｓ７）、まだ、終了していない場合（Ｎｏ）は、Ｓ１に戻って動作を続ける。一方、すべてのエントリについて、展開後単語集合Ｌ_２への展開が終了した場合（Ｙｅｓ）は、図５の言語モデル加算ステップ動作におけるＳ８へ進む。
【００８１】
［言語モデル加算ステップ］
次に、クラス言語モデル生成装置１は、Ｎ−ｇｒａｍ加算整列手段３０の同一単語列探索部３１によって、クラスエントリ記憶手段２０から重複した単語列を持つクラスエントリを探索する（Ｓ８）。そして、クラスエントリ加算部３２によって、重複した単語列を持つクラスエントリ毎に、個々の接続確率値を加算して１つのクラスエントリとして生成する（Ｓ９）。
【００８２】
そして、クラスエントリ記憶手段２０に記憶されているクラスエントリにおいて、全ての単語列の重複探索を終了したかどうかを判定し（Ｓ１０）、まだ終了していない場合（Ｎｏ）は、Ｓ８へ戻って動作を続ける。
【００８３】
一方、全ての単語列の重複探索を終了した場合（Ｓ１０でＹｅｓ）は、クラスエントリ記憶手段２０には、単語列の重複がないクラスエントリが生成されていることになるため、このクラスエントリを単語列単位で整列してクラス言語モデル記憶手段４に出力する（Ｓ１１）。
【００８４】
以上の各ステップよって、言語モデルとして学習されていない新出単語の接続確率値を、その新出単語と同一のクラスに属するすでに学習された既知の単語で推定したクラス言語モデルを生成することができる。
【００８５】
（従来のクラス言語モデル生成手法との比較）
ここで、図６を参照して、従来のクラス言語モデル生成手法と、本発明におけるクラス言語モデル生成手法との違いについて説明する。図６は、従来のクラス言語モデル生成手法の流れと、本発明におけるクラス言語モデル生成手法の流れとを時系列に表したものである。
【００８６】
従来のクラス言語モデル生成手法は、学習テキストＴを形態素解析によって単語に分割し（Ｓ３０）、その分割された単語を予め定めたクラスに分類し（Ｓ３１）、そのクラス分けされた単語の出現頻度及び接続頻度に基づいて単語の接続確率値を学習する（Ｓ３２）。そして単語の接続系列（単語列）とその接続確率値をエントリとしたクラス言語モデルＭ１を生成していた。
【００８７】
一方、本発明におけるクラス言語モデル生成手法は、学習テキストＴを形態素解析によって単語に分割し（Ｓ３０）、その単語の出現頻度及び接続頻度に基づいて単語の接続確率値を学習して（Ｓ３３［Ｓ３２と同じ］）生成された言語モデル（従来手法の言語モデルＭＯ）を用いて、クラス言語モデルＭ２を生成する。すなわち、すでに生成されている従来手法の言語モデルＭＯから、本発明によるクラス言語モデル生成（Ｓ３４：本発明におけるクラス言語モデル生成装置、クラス言語モデル生成方法及びクラス言語モデル生成プログラム）により、クラス言語モデルＭ２を生成する。
【００８８】
このようなクラス言語モデル生成手法の流れにおいて、クラスに属する単語の追加あるいは変更があった場合、従来手法では、再学習開始点Ａから再度クラス展開（Ｓ３１）及び単語接続確率値の学習（Ｓ３２）を行わなければならない。
【００８９】
一方、本手法の流れにおいては、単語接続確率値の学習（Ｓ３３）を行わずに、再学習開始点Ｂから再度実行すればよい。すなわち、本発明におけるクラス言語モデル生成装置、クラス言語モデル生成方法及びクラス言語モデル生成プログラムでは、単語の出現頻度及び接続頻度による接続確率値の学習を行わないため、高速にクラス言語モデルＭ２の再構築を行うことが可能になる。
【００９０】
実験結果として、単語約３００００個、文数（学習テキスト）約１００００個、クラス１種類、展開前単語集合Ｌ_１（図２）の単語１１個及び展開後単語集合Ｌ_２（図２）の単語２４個でクラス言語モデルの再構築時間を測定したとき、本発明によるクラス言語モデル生成（Ｓ３４）では、６分４５秒でクラス言語モデルを再構築することができた。一方、同じ条件で単語接続確率値の学習（Ｓ３２）時間を測定すると、１０分８秒を要した。すなわち、本発明によるクラス言語モデル生成（Ｓ３４）を用いることで、単語の出現頻度や接続頻度を再度学習する必要がないため、従来より短い時間でクラス言語モデルＭ２を再構築することができる。
【００９１】
【発明の効果】
以上説明したとおり、本発明に係るクラス言語モデル生成方法、クラス言語モデル生成装置及びクラス言語モデル生成プログラムでは、以下に示す優れた効果を奏する。
【００９２】
請求項１、請求項５又は請求項６に記載の発明によれば、単語を特定のクラスに分類して、単語の接続確率値をその単語と同一のクラスに属する他の単語で推定したクラス言語モデルを生成するときに、すでに単語の出現頻度及び接続頻度を学習した言語モデルを用いて、単語の接続確率値のみを再分配するため、高速にクラス言語モデルを生成することができる。言語モデルのエントリに変更があった場合でも、短時間でクラス言語モデルを再構築することが可能になる。
【００９３】
請求項２又は請求項３に記載の発明によれば、条件付き確率で表現された言語モデルのエントリである単語列に含まれる単語から、その単語と同一のクラスに属する単語の接続確率値を推定することができる。これにより、すでに単語の出現頻度及び接続頻度を学習した言語モデルを用いて、クラス言語モデルを生成することができる。
【００９４】
請求項４に記載の発明によれば、新出単語の接続確率値を、その新出単語のクラスに属するすでに学習されている単語の接続確率値から推定することができる。また、このとき、すでに単語の出現頻度及び接続頻度を学習した言語モデルを用いて、単語の接続確率値のみを再分配するため、高速にクラス言語モデルを生成することができる。これにより、例えば、放送番組で出演者の発生する音声を、音声認識により字幕スーパとして表示させる場合、学習されていない単語（例えば、スポーツ番組における解説者の追加等）をクラス言語モデルに組み込む際の時間が短いため、放送直前であってもクラス言語モデルを再構築することが可能になる。
【図面の簡単な説明】
【図１】本発明の実施の形態に係るクラス言語モデル生成装置の全体構成を示すブロック図である。
【図２】クラス化された単語集合の内容を説明するための説明図である。
【図３】本発明の実施の形態に係るクラス言語モデル生成装置のＮ−ｇｒａｍ展開手段におけるクラスエントリ生成例を説明するための説明図である。
【図４】本発明の実施の形態に係るクラス言語モデル生成装置の動作を示すフローチャート（１／２）である。
【図５】本発明の実施の形態に係るクラス言語モデル生成装置の動作を示すフローチャート（２／２）である。
【図６】従来のクラス言語モデル生成手法と、本発明を用いたクラス言語モデル生成手法との流れを示すフローチャートである。
【図７】クラス言語モデルの概念を説明するための説明図である。
【図８】従来のクラス言語モデル生成動作を示すフローチャートである。
【符号の説明】
１　……クラス言語モデル生成装置
２　……言語モデル記憶手段
３　……単語集合記憶手段
４　……クラス言語モデル記憶手段
１０……Ｎ−ｇｒａｍ展開手段
１１……単語所属判定部（単語所属判定手段）
１２……単語列生成部（単語列生成手段）
１３……接続確率値分配部（接続確率値分配手段）
２０……クラスエントリ記憶手段
３０……Ｎ−ｇｒａｍ加算整列手段
３１……同一単語列探索部（同一単語列探索手段）
３２……クラスエントリ加算部（クラスエントリ加算手段）

Claims

単語を配列した単語列とその単語の接続確率値とからなるエントリの集合である言語モデルから、予め特定の単語を特定のクラス毎に分類した単語の集合に基づいて、前記クラスに属する単語の接続確率値を同一のクラスに属する単語の接続確率値で推定したクラス言語モデルを生成するクラス言語モデル生成方法であって、
前記言語モデルの単語列から、その単語列に含まれる単語をその単語と同じクラスに属するクラス所属単語に置き換えた複数のクラス単語列を生成し、前記言語モデルの接続確率値を前記クラス単語列毎に分配してクラス接続確率値とすることで、前記クラス単語列と前記クラス接続確率値とからなるクラスエントリを生成する言語モデル展開ステップと、
この言語モデル展開ステップで生成された前記クラスエントリにおいて、前記クラス単語列が同一となる複数のクラスエントリのクラス接続確率値をすべて加算した統合クラスエントリを生成する言語モデル加算ステップと、
を含んでいることを特徴とするクラス言語モデル生成方法。
前記言語モデル展開ステップは、条件付き確率で表現される前記言語モデルのエントリにおいて、前記条件付き確率の非条件部の単語を前記クラス所属単語に置き換えて前記クラスエントリを生成し、その生成されたクラスエントリのクラス接続確率値の総和が、前記エントリの接続確率値と等しくなるように前記接続確率値を分配することを特徴とする請求項１に記載のクラス言語モデル生成方法。
前記言語モデル展開ステップは、条件付き確率で表現される前記言語モデルのエントリにおいて、前記条件付き確率の条件部の単語を前記クラス所属単語に置き換えて前記クラスエントリを生成し、その生成されたクラスエントリのクラス接続確率値には、前記エントリの接続確率値と同じ値を用いることを特徴とする請求項１又は請求項２に記載のクラス言語モデル生成方法。
前記単語の集合が、すでに学習されている既知単語の集合である既知単語集合と新出単語の集合である新出単語集合とからなり、
前記言語モデル展開ステップにおいて、前記言語モデルの単語列に前記既知単語が含まれている場合に、その既知単語をその既知単語と同じクラスに属する前記新出単語に置き換えて前記クラス単語列を生成することを特徴とする請求項１乃至請求項３のいずれか１項に記載のクラス言語モデル生成方法。
単語を配列した単語列とその単語の接続確率値とからなるエントリの集合である言語モデルから、予め特定の単語を特定のクラス毎に分類した単語の集合に基づいて、前記クラスに属する単語の接続確率値を同一のクラスに属する単語の接続確率値で推定したクラス言語モデルを生成するクラス言語モデル生成装置であって、
前記言語モデルの単語列に含まれる単語が、前記単語の集合に属するかどうかを判定する単語所属判定手段と、
この単語所属判定手段の判定結果に基づいて、前記言語モデルの単語列から、その単語列に含まれる単語をその単語と同じクラスに属するクラス所属単語に置き換えたクラス単語列を生成する単語列生成手段と、
この単語列生成手段で生成された前記クラス単語列に、前記言語モデルの接続確率値をクラス接続確率値として特定の比率で分配する接続確率値分配手段と、前記クラス単語列と前記クラス接続確率値とからなるクラスエントリを記憶するクラスエントリ記憶手段と、
前記クラスエントリ記憶手段に記憶された前記クラスエントリの中から、前記クラス単語列が同一のものを探索する同一単語列探索手段と、
この同一単語列探索手段で探索された複数のクラスエントリのクラス接続確率値をすべて加算した統合クラスエントリを生成するクラスエントリ加算手段と、
を備えていることを特徴とするクラス言語モデル生成装置。
単語を配列した単語列とその単語の接続確率値とからなるエントリの集合である言語モデルから、予め特定の単語を特定のクラス毎に分類した単語の集合に基づいて、前記クラスに属する単語の接続確率値を同一のクラスに属する単語の接続確率値で推定したクラス言語モデルを生成するために、コンピュータを、
前記言語モデルの単語列に含まれる単語が、前記単語の集合に属するかどうかを判定する単語所属判定手段、
この単語所属判定手段の判定結果に基づいて、前記言語モデルの単語列から、その単語列に含まれる単語をその単語と同じクラスに属するクラス所属単語に置き換えたクラス単語列を生成する単語列生成手段、
この単語列生成手段で生成された前記クラス単語列に、前記言語モデルの接続確率値をクラス接続確率値として特定の比率で分配する接続確率値分配手段、
前記クラス単語列と前記クラス接続確率値とからなるクラスエントリを記憶手段に記憶させるクラスエントリ記憶手段、
前記記憶手段に記憶されている前記クラスエントリの中から、前記クラス単語列が同一のものを探索する同一単語列探索手段、
この同一単語列探索手段で探索された複数のクラスエントリのクラス接続確率値をすべて加算した統合クラスエントリを生成するクラスエントリ加算手段、
として機能させることを特徴とするクラス言語モデル生成プログラム。