JP4067776B2

JP4067776B2 - 言語モデル構成装置及び音声認識装置

Info

Publication number: JP4067776B2
Application number: JP2001070952A
Authority: JP
Inventors: 芳春阿部; 裕三丸田; 啓恭伍井
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2001-03-13
Filing date: 2001-03-13
Publication date: 2008-03-26
Anticipated expiration: 2021-03-13
Also published as: JP2002268678A

Description

【０００１】
【発明の属する技術分野】
この発明は、音声を認識して文章を入力する音声認識文章入力装置のための言語モデル構成装置およびこのための音声認識装置に関するものである。
【０００２】
【従来の技術】
利便性や特別な訓練が不要であることなどから、音声入力による文書作成への期待は極めて高く、音声認識による日本語の文章入力ソフトウェアが各社から市販され注目を浴びている。
【０００３】
図２０は、これらのソフトウェアをコンピュータで動作させることで実現される従来の音声認識文章入力装置の構成図である。図２０において、２は入力の音声１を取り込む音声入力手段であり、２１は例えば音素環境依存音素ＨＭＭ（ＨｉｄｄｅｎＭａｒｃｏｖＭｏｄｅｌ：隠れマルコフモデル）からなる音響モデルであり、３１は例えば単語のＮグラムからなる言語モデルである。
【０００４】
４は音響モデル２１と言語モデル３１を参照して音声入力手段２が取得した入力の音声１を単語の列に変換する音声文字変換手段である。５は音声文字変換手段４の出力単語列である認識結果であり、６は複数の文を含む学習用テキストからなるコーパスを記憶するコーパス記憶手段である。７１はコーパス中の文を解析して単語の連鎖に変換し言語モデル３１を生成する言語モデル生成手段である。
【０００５】
言語モデル３１としては、単語連鎖の統計量に基づくｎ−ｇｒａｍモデル（例えばｎ＝３）が用いられる。ここでｎ−ｇｒａｍモデルとは、ある時点で生起する事象の確率がその直前のｎ個の時点で生起した事象だけの影響を受けるときこれをｎ重マルコフ過程といい、単語の生起をｎ−１重マルコフ過程で近似したモデルをｎ−ｇｒａｍモデルと呼ぶ。このｎ−ｇｒａｍモデルでは、ある時点での単語の生起は直前のｎ−１単語のみに依存すると考えている。
【０００６】
次に動作について説明する。
この構成において、ユーザの音声１は音声入力手段２によって取り込まれて、音声文字変換手段４によって言語モデル３１に記憶された単語連鎖の情報に従って単語列に変換され、認識結果５が作成される。
【０００７】
近年、音声認識の適用分野が広がり、認識対象が細分化されるに伴い、より広い話題をカバーする言語モデルが必要となっている。すなわち、話題は文によって構成され、文は、単語の連鎖によって構成されるため、単語連鎖のカバー率の高い言語モデルが要求される。
【０００８】
言語モデルとして、上記の単語連鎖の統計量に基づくｎ−ｇｒａｍモデルを用いる場合、語彙数の増大と共に探索空間が莫大となるため、ｎ−ｇｒａｍの足切りを行う必要があり、話題のカバー率は制限される。また、話題のカバー率を高く保つためにｎ−ｇｒａｍの足切りを行わない場合は、音響処理と組み合わせたとき、出現確率の低いテキストは、音響的に類似した出現確率の高いテキストに圧倒され、けっして認識されず、認識性能が低下するという課題がある。
【０００９】
このように、単一の言語モデルでは、話題のカバー率と認識性能を両立させるのは難しい。これに対し、コーパスをクラスタに分類し各クラスタから要素言語モデルを作成し、これらの要素言語モデルを係数で重み付けして混合した混合言語モデルを構成し、少量の適応データにより混合言語モデルに対する重み係数を話題適応する方法が試みられている（この種の従来技術は、例えば、Ｒ．ＩｙｅｒＭ．Ｏｓｔｅｎｄｏｆ，Ｊ．Ｒ．Ｒｏｈｌｉｃｅｋ，「Ｌａｎｇｕａｇｅｍｏｄｅｌｉｎｇｗｉｔｈｓｅｎｔｅｎｃｅ−ｌｅｖｅｌｍｉｘｔｕｒｅｓ」Ｐｒｏｃ．ｏｆＡＲＰＡＷｏｒｋｓｈｏｐｏｎＨｕｍａｎＬａｎｇｕａｇｅＴｅｃｈｎｏｌｏｇｙ，ｐｐ．８２−８７（１９９４）や、Ｐ．Ｒ．Ｃｌａｒｋｓｏｎ，Ａ．Ｒｏｂｉｎｓｏｎ「Ｌａｎｇｕａｇｅｍｏｄｅｌａｄａｐｔａｔｉｏｎｕｓｉｎｇｍｉｘｔｕｒｅｓａｎｄａｎｅｘｐｏｎｅｎｔｉａｌｌｙｄｅｃａｙｉｎｇｃａｃｈｅ」Ｐｒｏｃ．ｏｆＩＣＡＳＳＰ９７，ｐｐ．７９９−８０２や、清水徹、大野晃生、樋口宜男「文のクラスタリングに基づく統計的言語モデル」日本音響学会講演論文集１−６−１４（１９９８−０３）などの文献に記載されている）。
【００１０】
また、話題ごとに分割されたコーパスから独立に複数の言語モデルを作成して、話題の制約をかけた単語列探索を行った後、各言語モデルに渡って正規化尤度が最大の単語列を認識結果とする方法（話題分割モデル）が提案されている(例えば、「Ｈ．Ｉｔｓｕｉ，Ｙ．Ｍａｒｕｔａ，Ｙ．Ａｂｅ，Ｋ．Ｎａｋａｊｉｍａ「Ａｓｔｕｄｙｏｎｔｏｐｉｃ−ｄｅｐｅｎｄｎｅｔｌａｎｇｕａｇｅｍｏｄｅｌｉｎｇ」Ｐｒｏｃ．ＷＥＳＴＰＲＡＣＶＩＩ，ｐｐ．１３７−１４０（２０００−１０）など)。ここでは、話題ごとの分割は、新聞記事を対象としており、記事ごとに人手で付与した「社会」、「政治」、「経済」などの「タグ」を頼りに、コーパス全体を分割し、それぞれのコーパスについて、言語モデルを作成していた。このため、業務文書やＷｅｂなどの文書など大量に得られるタグなしのコーパスについては、適用できないという課題がある。
【００１１】
コーパスの自動クラスタリングに基づく、話題分割に関して、前記文献でＩｙｅｒらは、１つの文書は１つの話題に属すると仮定して、文書を単位とした話題のクラスタリングを行い、さらにＥｍアルゴリズムにより、文の話題クラスタへの帰属確率を求めている。Ｄ．Ｃａｔｅｒ，「Ｉｍｐｒｏｖｉｎｇｌａｎｇｕａｇｅｍｏｄｅｌｓｂｙｃｌｕｓｔｅｒｉｎｇｔｒａｉｎｉｎｇｓｅｎｔｅｎｃｅｓ」ＳＲＩＴｅｃｈｎｉｃａｌＲｅｐｏｒｔ（１９９４）には、文内の単語間の依存性を扱うため、文を最小単位としたコーパスのクラスタリングを行うことが記載されている。また、特開２０００−７５８８６号公報「統計的言語モデル生成装置及び音声認識装置」では、遷移確率の予測制度・信頼性を改善可能な統計的言語モデルを生成し、統計的言語モデルを用いてより高い音声認識率で音声認識するため、コーパス全体をクラスタリングする手段とクラスタごとにＭＡＰ推定法を用いてｎ−ｇｒａｍ言語モデルを作成している。ここで、クラスタリングは、公知のＫ−ｍｅａｎｓ法に類似した方法で、文の分類は各クラスタごとの言語モデルによる文の生成確率を用いて行っている。なお、クラスタリングとは、データを構成している個体（文または文例）を何らかの属性に注目して分類することであり、クラスタリングによる分類でクラスタが生成される。
【００１２】
図２１は、前記特開２０００−７５８８６号公報で開示された技術に基づく音声認識装置の構成例を示す図である。図２１において、７はコーパス記憶手段に記憶されたコーパスをクラスタに分類して複数の小コーパスからなる小コーパス群６１を生成するクラスタリング手段である。７２は小コーパス群６１から、複数の要素言語モデルからなる要素言語モデル群３２を生成する言語モデル生成手段である。その他の構成要素は、図２０の従来の音声認識装置の構成要素と等しい。
【００１３】
次に動作について説明する。
クラスタリング手段７は、コーパス記憶手段６に記憶されたコーパスとしての学習テキストから、Ｃ個（Ｃはクラスタ数）に分割された小コーパス群６１内の小コーパス６１−１〜６１−Ｃを生成する。
【００１４】
言語モデル生成手段７２は、小コーパス群６１内の小コーパス６１−１〜６１−Ｃから、要素言語モデル群３２内の要素言語モデル３２−１〜３２−Ｃを生成する。
【００１５】
単語列探索手段４３は要素言語モデル群３２の要素言語モデルのそれぞれについて予備探索手段４１で得られた単語列について尤度を計算し、最大の尤度を有する要素言語モデルを適用したときに得られる単語列を認識結果として出力する。
【００１６】
クラスタリング手段７は、文をクラスタへ分類するために、各クラスタにおける統計的言語モデルの文生成確率を計算して最大の文生成確率を有するクラスタを選択する。これにより、単一のタスクのデータであるコーパスを自動的に分類して、単語列ごとにｎ−ｇｒａｍ遷移確率の平均、及び分散を求め、各クラスタの言語モデルの遷移確率推定に必要とする事前確率を求めている。また、同一のタスクの文でも、様々な内容の文が存在し、文ごとの内容で分類して、クラスタごとの言語的特徴を明確にさせ言語モデルの精度を向上させている。
【００１７】
さらに、単語列探索手段４３において、入力された音声の発話文が属するクラスタを知るため、入力音声をコーパス全体で作成した言語モデルで認識を行い、次に、認識結果から、クラスタ別の言語モデルを１つのみ選択し、再度認識を行っている。
【００１８】
以上の説明中で用いられた「コーパス」とは、電子化された電子計算機等で読み取ることのできる大量の音声・言語データのことである。また、「タスク」とは、対象とする業務のことであり、例えば、「国際会議の受け付け」、「ホテルの予約」、「観光案内」などである。コーパス記憶手段に記憶される学習テキストであるコーパスは、通常これらの対象業務の大量の文例からなる。
【００１９】
【発明が解決しようとする課題】
従来の単語連鎖の統計量に基づくｎ−ｇｒａｍ言語モデルは、多くの話題から構成されるような大規模なコーパスに適用した場合に、単語連鎖ｎ−ｇｒａｍの種類数を大きくする必要があるが、音声認識の単語列探索における探索空間が増大するため、話題のカバー率を高くできないという課題がある。
【００２０】
また、音響処理と組み合せたとき、確率の低い文が認識できないという課題がある。
【００２１】
一方、所定のコーパスの文をクラスタリングし、各クラスタから生成された要素言語モデルを混合して用いる従来の混合言語モデルは、文のクラスタ分類において、統計的言語モデルによる文の生成確率のみに基づいて分類を行っているため、多くの話題から構成されるような大規模なコーパスに適用した場合に、分類の結果クラスタごとに生成される要素言語モデルに含まれるｎ−ｇｒａｍの種類数が大きくなり、探索空間の問題から足切りが必要になる可能性があるという課題がある。
【００２２】
また、音声認識の単語列探索に適用した場合に、要素言語モデルによっては、探索空間が大きくなる可能性が残るという課題がある。
【００２３】
この発明は上記のような課題を解決するためになされたもので、多くの話題から構成されるような大規模なコーパスに適用した場合に、話題のカバー率が高く音声認識の単語列探索に適用した場合探索空間が小さい言語モデルを構成する言語モデル構成装置、および、複数の要素言語モデルを用いて単語列探索を効率的に行うことのできる音声認識装置を得ることを目的とする。
【００２４】
【課題を解決するための手段】
この発明に係る言語モデル構成装置は、複数の文からなるコーパスを記憶するコーパス記憶手段と、コーパス中の各文を分類し、この分類に従ってコーパス中の文を複数のクラスタに分割して小コーパスからなる小コーパス群を生成するクラスタリング手段と、クラスタリング手段により生成された小コーパス内の文に基づいて小コーパスごとに要素言語モデルからなる要素言語モデル群を生成する言語モデル生成手段とを備え、クラスタリング手段は、小コーパス内の文に含まれる語彙あるいは語彙の組の頻度情報を含むセントロイドベクトルを計算するセントロイドベクトル計算手段と、小コーパス内の各文の語彙あるいは語彙の組みの頻度情報を含む文ベクトルとセントロイドベクトル計算手段が計算した各小コーパスのセントロイドベクトルとの間の演算によって文と各セントロイドベクトルとの類似度を計算するクラスタリング尺度計算手段と、クラスタリング尺度計算手段が計算した類似度に基づいて各文の所属クラスタを決定する文クラスタ番号決定手段とを備えたものである。
【００２５】
この発明に係る言語モデル構成装置は、クラスタリング手段は、さらに、各文の語彙を話題独立語彙と話題依存語彙とに分類する語彙話題依存度計算手段を含み、セントロイドベクトル計算手段は、セントロイドベクトルの次元として、上記語彙話題依存度計算手段が計算した分類に基づき、各小コーパスで共通の値を話題共通語彙に対応する各次元とし、各小コーパスの文の語彙あるいは語彙の組みの頻度情報を話題依存語彙に対応する各次元としたセントロイドベクトルを計算するものである。
【００２６】
この発明に係る言語モデル構成装置は、語彙話題依存度計算手段は、各文の語彙のうち助詞、助動詞を含む所定の品詞の語彙を話題独立語彙とするものである。
【００２７】
この発明に係る言語モデル構成装置は、語彙話題依存度計算手段は、各文の語彙のうちコーパス内の出現頻度の大きいものから所定の個数までを話題独立語彙とするものである。
【００２８】
この発明に係る言語モデル構成装置は、語彙話題依存度計算手段は、各文の語彙のうち助詞、助動詞を含む所定の品詞の語彙と、所定の品詞の語彙以外の語彙のうちコーパス内の出現頻度の大きいものから所定の個数までを話題独立語彙とするものである。
【００２９】
この発明に係る言語モデル構成装置は、クラスタリング手段は、さらに、コーパス内の語彙を分類する語彙分類手段を含み、セントロイドベクトル計算手段は、各次元は各クラスタの文の語彙あるいは語彙の組みの頻度情報を語彙分類手段が分類した語彙の分類内で平滑化した頻度情報からなるセントロイドベクトルを計算するものである。
【００３０】
この発明に係る言語モデル構成装置は、語彙分類手段は、文書あるいは段落を含む所定の相互に関連づけられた文セットに含まれる文の語彙あるいは語彙の組を同じ分類に分類するものである。
【００３１】
この発明に係る言語モデル構成装置は、複数の文からなるコーパスを記憶するコーパス記憶手段と、コーパス中の各文を分類し、この分類に従ってコーパス中の文を複数のクラスタに分割して小コーパスからなる小コーパス群を生成するクラスタリング手段と、クラスタリング手段により生成された小コーパス内の文に基づいて小コーパスごとに要素言語モデルからなる要素言語モデル群を生成する言語モデル生成手段と、クラスタ数を所定の範囲で指定するクラスタ数制御手段と、クラスタリングの結果得られる各小コーパス内の語彙数を計算するクラスタ語彙数計算手段と、クラスタ数制御手段の指定したクラスタ数とクラスタ語彙数計算手段が計算した各小コーパスの語彙数とから探索空間の大きさを推定する探索空間推定手段と、探索空間推定手段が推定した探索空間の大きさに基づいて最適なクラスタ数を決定する最適クラスタ数決定手段とを有し、クラスタリング手段が上記クラスタ数制御手段の指定したクラスタ数でクラスタリングを実行するものである。
【００３２】
この発明に係る音声認識装置は、音声を取り込む音声入力手段と、音声入力手段で取り込まれた音声を単語列に変換し認識結果を作成する音声文字変換手段と、言語モデル構成装置が構成した要素言語モデルを参照して並列的に仮説展開を実行する単語列探索手段とを有するものである。
【００３３】
【発明の実施の形態】
以下、この発明の実施の一形態を説明する。
実施の形態１．
図１はこの発明の実施の形態１を示すブロック構成図である。図１において、２はユーザの発話した音声１を取り込む音声入力手段であり、４は要素言語モデル群３２を参照して音声入力手段２が取得した音声１を単語の列に変換する音声文字変換手段である。
【００３４】
５は音声文字変換手段４の出力単語列である認識結果であり、２１は公知の音素環境依存型の音素ＨＭＭから構成される音響モデルであり、４１ａは基本記号列認識手段である。
【００３５】
４４は基本記号列の認識誤り傾向を記憶した差分モデルであり、４３ａは差分モデル４４および要素言語モデル群３２を参照する単語列探索手段である。６は要素言語モデル群３２の学習用の文例を含むコーパスを記憶したコーパス記憶手段であり、７はコーパス内の学習テキストを分類するクラスタリング手段である。
【００３６】
６１はクラスタリング手段７によって分類された複数の小コーパス６１−１〜６１−Ｃからなる小コーパス群であり、７２は小コーパス群６１内の小コーパス６１−１〜６１−Ｃから対応する要素言語モデル３２−１〜３２−Ｃを生成する言語モデル生成手段である。３２は複数の要素言語モデル３２−１〜３２−Ｃからなる要素言語モデル群である。
【００３７】
図２はコーパス中の文例１、文例２、文例３および文例４を示す図であり、図２において、文例１は「扁桃腺［名詞］の［助詞］炎症［名詞］は［助詞］、［読点］悪化［名詞］して［助詞］いる［助動詞］。［句点］ｅｏｓ［文末］」である。
【００３８】
文例２は「胸部［名詞］の［助詞］Ｘ線［名詞］画像［名詞］から［助詞］、［読点］横隔膜［名詞］の［助詞］癒着［名詞］が［助詞］見［動詞］られる［助動詞］。［句点］ｅｏｓ［文末］」である。
【００３９】
文例３は「胸部［名詞］横隔膜［名詞］の［助詞］癒着［名詞］が［助詞］見［動詞］られる［助動詞］。［句点］ｅｏｓ［文末］」である。
【００４０】
文例４は「胸部［名詞］の［助詞］横隔膜［名詞］が［助詞］癒着［名詞］して［助詞］いる［助動詞］。［句点］ｅｏｓ［文末］」である。
【００４１】
図３はクラスタリング手段７の構成を示す図であり、図３において７０１は学習テキストバッファであり、７０２は学習テキスト文ベクトル変換手段であり、７０３は語彙話題依存度計算手段であり、７０４は文クラスタ番号初期化手段であり、７０５はセントロイドベクトル計算手段であり、７０６は文クラスタ番号決定手段であり、７０７はクラスタリング尺度計算手段である。
【００４２】
７１２は、分類結果出力手段であり、７１３は語彙分類手段であり、７１１は文ベクトル記憶手段であり、７１０は語彙話題依存度記憶手段であり、７０９は文クラスタ番号記憶手段であり、７０８はセントロイドベクトル記憶手段である。
【００４３】
図４は語彙空間の分割の概念図であり、語彙空間が話題依存語彙空間（Ｄ＋１〜Ｖ０次元）と話題独立語彙空間（１〜Ｄ次元）に分割されている。
【００４４】
図５はクラスタリング手段７で記憶されるセントロイドベクトルＦｃの構成を示す図であり、セントロイドベクトルＦｃは、話題独立語彙であるＦｃ［１］〜Ｆｃ［Ｄ］と、話題依存語彙であるＦｃ［Ｄ＋１］からＦｃ［Ｖ０］とからなる。
【００４５】
図６はコーパス分割（クラスタリング）処理の流れ図であり、コーパス分割処理は、初期分割処理をおこなうステップＳＴ７０１及びステップＳＴ７０２と、反復処理をおこなうステップＳＴ７０３からステップＳＴ７０９とからなる。
【００４６】
次に、この実施の形態１のクラスタリング手段７の動作について説明する。
まず、クラスタリングの基本概念を図４を参照して以下に説明する。ここでは、１つの文は１つの話題に属すると仮定する。さらに、１つの文には話題依存の語彙と話題独立の語彙が混在すると仮定する。図４の外側の大きな領域が語彙全体が張る空間を表し、内側の斜線部分が話題共通の語彙が張る空間を表す。このような語彙の張る空間で、クラスタ１〜クラスタＣの各クラスタの話題独立語彙は、共通する話題独立語彙空間内に含まれ、各クラスタの話題依存語彙は話題依存語彙空間内に含まれるようになっていると考える。
【００４７】
クラスタリング手段７は、コーパス記憶手段６に記憶されたコーパスをこのように分割された語彙の空間内に含まれるクラスタ１からクラスタＣに対応する小コーパス６１−１〜小コーパス６１−Ｃに分割する。このような分割により、話題カバー率が高く、それぞれの間では語彙の分離度が高い、クラスタ１〜クラスタＣに対応する小コーパス６１−１〜小コーパス６１−Ｃからなる小コーパス群６１を作成する。
【００４８】
言語モデル生成手段７２は、このような小コーパス群から探索空間が小さい要素言語モデル群３２を生成する。なお、ここでは、語彙が張る空間として説明したが、文中の語彙の組が張る空間としても同様の効果を奏する。
【００４９】
次にクラスタリングアルゴリズムについて説明する。
上記の概念に基づき、学習データ全体（コーパス）を所定のＣ個のクラスタに分類するため、次のようなＫ−ｍｅａｎｓアルゴリズムを用いる。
（Ｓ１）各文にランダムにＣ個のクラスを割当て初期クラスを作る。
（Ｓ２）全文について、後述するクラスタリングの尺度が最大となるクラスタを選択し、それをその文の新しいクラスとする。
（Ｓ３）Ｓ２の結果に基づいて、新しいクラスタを作る。
（Ｓ４）Ｓ２〜Ｓ３を所定の回数繰り返す。
【００５０】
文クラスタ番号．
上記クラスタリングを実行するため、コーパス６中の各文ｓ（ｓ∈｛１，…，Ｓ｝）について、各文ｓのクラスタ番号である文クラスタ番号ｃ［ｓ］を文クラスタ番号記憶手段７０９（図３）に記憶する。ここで、Ｓはコーパス全体の文の総数である。
【００５１】
文クラスタ番号初期化．
文クラスタ番号初期化手段７０４（図３）は、１から所定のクラスタ数Ｃまでの一様乱数を生成し、各文ｓにランダムに文のクラスタ番号ｃ［ｓ］を与える。セントロイドベクトル計算手段７０５（図３）は、各文ｓのクラス番号ｃ［ｓ］を参照して、クラスｃの文を選択して、選択されたクラスｃの文について、次の構成のセントロイドベクトルを生成する。
【００５２】
セントロイドベクトルの構成．
セントロイドベクトルＦｃは、図５のように構成され、一つのクラスタから一つのセントロイドベクトルが作成される。次に、セントロイドベクトルの構成について説明する。
【００５３】
コーパスの異なり語彙数をＶ０として、全文の全語彙に番号ｖ∈｛１，…，Ｖ０｝を付ける。各クラスタに属する全文について語彙の頻度を求め、番号ｖの語彙の頻度を第ｖ次元の値とするＶ０次元のベクトルを構成し、これをクラスタｃ∈｛１，…，Ｃ｝のセントロイドベクトルＦｃとする。
【００５４】
ここで、語彙の番号は、語彙の話題独立度の高さの降順につけてあり、セントロイドベクトルＦｃの低次Ｄ次元までの語彙を全クラスタ共通の話題独立の語彙として扱う。
【００５５】
なお、語彙の話題独立度の高さは、次に説明する語彙話題依存度計算手段７０３（図３）によって、語彙話題依存度記憶手段７１０（図３）に記憶されている。
【００５６】
語彙話題依存度．
語彙話題依存度計算手段７０３は、全コーパス中の語彙の頻度を求め、頻度の高い語彙を話題とは独立である、すなわち、話題依存度が低いとし、頻度の比較的低い語彙を話題に依存する語彙である、すなわち、話題依存度が高いとして、話題依存度を語彙話題依存度記憶手段７１０（図３）に記憶する。なお、語彙の話題独立度の決定については、後述の他の実施の形態によるものであってもよい。
【００５７】
学習テキスト文ベクトル変換手段７０２は、コーパス中の各文ｓについて、次の構成の文ベクトルＦｓを生成し、文ベクトル記憶手段７１１に記憶する。
【００５８】
文ベクトルの構成．
文ｓの文ベクトルＦｓ（ｓ∈｛１，…，Ｓ｝）は、セントロイドベトクルと同様の構成を有する。ただし、各次元は、文中の語彙の頻度である。
【００５９】
クラスタリング尺度計算手段７０７（図３）は、文ベクトルＦｓとセントロイドベクトルＦｃとから、文ｓがクラスタｃに属する度合いとして次のようなクラスタリング尺度を計算する。
【００６０】
クラスタリング尺度．
クラスタリング尺度Ｍｃ（ｓ）は、文ベクトルＦｓとセントロイドベクトルＦｃとの類似度として、次式のような対数確率で表される。
Ｌ（Ｆｓ，Ｆｃ）
＝Σ（ｖ＝１，Ｖ０）Ｆｓ［ｖ］・ｌｏｇ（Ｆｃ[ｖ]/Ｆ０［ｃ］）（１）
【００６１】
ここで、関数Σは次の式により定義される。
Σ（ｉ＝１，ｎ）Ｘ（ｉ）＝Ｘ（１）＋Ｘ（２）＋・・・＋Ｘ（ｎ）
【００６２】
また、Ｆ０［ｃ］は次式で計算されるクラスタｃ内の語彙の総頻度である。
Ｆ０［ｃ］＝Σ（ｖ＝１，ｖ０）Ｆｃ［ｖ］
【００６３】
ここで、Ｌ（Ｆｓ，Ｆｃ）は文ベクトルＦｓとセントロイドベクトルとの類似度、Ｆｓ［ｖ］は文ベクトルＦｓのｖ次元の値、Ｆｃ［ｖ］はセントロイドベクトルＦｃのｖ次元の値である。また、上式で対数計算を省いた次式のような(頻度重み付き)ヒット率とすることもできる。
Ｌ（Ｆｓ，Ｆｃ）
＝Σ（ｖ＝１，Ｖ０）Ｆｓ［ｖ］(Ｆｃ[ｖ]/Ｆ０［ｃ］) （２）
【００６４】
文クラス番号再決定．
文クラスタ番号決定手段７０６（図３）は、文ｓについて、クラスタｃとの例えば式（１）のクラスタリング尺度Ｍｃ（ｓ）を参照して、最大のクラスタリング尺度を有するクラスタｃｍａｘを決定し、文ｓのクラスタをｃｍａｘに変更する。
【００６５】
上述したように、図６は、この実施の形態１のクラスタリング処理を表す流れ図である。
【００６６】
図６のステップＳＴ７０１では、一様乱数を用いて１からＣの何れかのクラスタ番号ｃ（ｓ）を文例１から文例Ｓにランダムに割り当てる。このステップＳＴ７０１の処理は、上記の「文クラスタ番号の初期化」に対応する。
【００６７】
ステップＳＴ７０２では、反復回数を表す変数ｉを０とする。
【００６８】
ステップＳＴ７０３では、クラスｃのセントロイドベクトルＦｃをクラス１からクラスＣについて求める。このステップＳＴ７０３は、上記の「セントロイドベクトルの構成」に対応する。
【００６９】
ステップＳＴ７０４では、コーパスから文例ｓを選択する。
【００７０】
ステップＳＴ７０５では、文ｓについてクラスタリングの尺度Ｍｃ（ｓ）をクラス１からクラスＣについて求める。このステップＳＴ７０５は、上記の「クラスタリング尺度」に対応する。
【００７１】
ステップＳＴ７０６では、クラスタリング尺度Ｍｃ（ｓ）が最大であるクラスタｃを選択して、文ｓのクラスタとする。このステップＳＴ７０６は、上記の「文クラス番号再決定」に対応する。
【００７２】
ステップＳＴ７０７では、全ての文（文例）について、ステップＳＴ７０４からステップＳＴ７０６での処理が行われたか否かを判定し、行われた場合には、ステップＳＴ７０８に進み、行われていない場合には、ステップＳＴ７０４に進む。
【００７３】
ステップＳＴ７０８では、反復回数を表す変数ｉを１増加する。
【００７４】
ステップＳＴ７０９では、変数ｉの値が所定の反復回数に達したか否かを判定し、達した場合にはこの処理を終了し、達していない場合にはステップＳＴ７０３に進む。
【００７５】
つぎに、文例を用いて、この実施の形態１のクラスタリング手段７の作用を説明する。
【００７６】
図２に示した４つの文例「文例１：扁桃腺の炎症は、悪化している。」、「文例２：胸部のＸ線画像から、横隔膜の癒着が見られる。」、「文例３：胸部横隔膜の癒着が見られる。」および「文例４：胸部の横隔膜が癒着している。」を含むコーパスについて、この実施の形態１の効果を説明する。
【００７７】
手順１．
コーパス全体の異なり語彙を求める。文例１〜文例４に含まれる語彙と頻度を頻度の大きい方から並べると、図７のようになる。なお、文例の数によって、語彙と頻度は変化し、さらに頻度の順番も変化するが、ここでは、コーパスに３つの文例しかないとして説明する。
【００７８】
図７から、コーパス全体の異なり語彙数Ｖ０は、１９となる。従って，文ベクトル、セントロイドベクトルは１９次元のベクトルとなり、各次元は各語彙に対応した値となる。
【００７９】
手順２．
文例１〜文例４の文ベクトルは各文例に現れる語彙の頻度として定義される。したがって、文例１から文例４の文ベクトルは、それぞれ、図８から図１１のようになる。なお、各図右半分には参考として図７と同内容を示してある。
【００８０】
手順３．
コーパスを２つのクラスタに分割する場合、ランダムに２つのクラスタに分割する。ここでは、図１２に示すように、文例１および文例３はクラスタ１に、文例２および文例４はクラスタ２に、それぞれ、属したとする。
【００８１】
各クラスタのセントロイドベクトルは、各クラスタに属する文例全体の異なり語彙数を各次元の値としたベクトルなので、この場合、各クラスタのセントロイドベクトルは、図１３および図１４のようになる。なお、コーパスが少ないので、各次元にはα（＝１とする）を加えて、値が０とならないようにしている。
【００８２】
手順４．
各セントロイドベクトルと各文のベクトルの類似度Ｌ（Ｆｓ、Ｆｃ）を計算する。
【００８３】
まず、クラスタ内の異なり語彙数は、次のようになる。

【００８４】

【００８５】
したがって、各文とクラスタ１のセントロイドベクトルとの類似度は次のようになる。
【００８６】
Ｌ（Ｆｓ１，Ｆｃ１）
＝Σ（ｖ＝１，１９）Ｆｓ１［ｖ］ｌｏｇ（Ｆｃ１［ｖ］／Ｆ０［ｃ１］）
＝−１２．２５９
【００８７】
Ｌ（Ｆｓ２，Ｆｃ１）
＝Σ（ｖ＝１，１９）Ｆｓ２［ｖ］ｌｏｇ（Ｆｃ１［ｖ］／Ｆ０［ｃ１］）
＝−１８．１０１
【００８８】
Ｌ（Ｆｓ３，Ｆｃ１）
＝Σ（ｖ＝１，１９）Ｆｓ３［ｖ］ｌｏｇ（Ｆｃ１［ｖ］／Ｆ０［ｃ１］）
＝−１０．９８１
【００８９】
Ｌ（Ｆｓ４，Ｆｃ１）
＝Σ（ｖ＝１，１９）Ｆｓ４［ｖ］ｌｏｇ（Ｆｃ１［ｖ］／Ｆ０［ｃ１］）
＝−１０．９８１
【００９０】
同様に、各文とクラスタ２のセントロイドベクトルとの類似度は次のようになる。
【００９１】
Ｌ（Ｆｓ１，Ｆｃ２）
＝Σ（ｖ＝１，１９）Ｆｓ１［ｖ］ｌｏｇ（Ｆｃ２［ｖ］／Ｆ０［ｃ２］）
＝−１３．７７３
【００９２】
Ｌ（Ｆｓ２，Ｆｃ２）
＝Σ（ｖ＝１，１９）Ｆｓ２［ｖ］ｌｏｇ（Ｆｃ２［ｖ］／Ｆ０［ｃ２］）
＝−１６．８５２
【００９３】
Ｌ（Ｆｓ３，Ｆｃ２）
＝Σ（ｖ＝１，１９）Ｆｓ３［ｖ］ｌｏｇ（Ｆｃ２［ｖ］／Ｆ０［ｃ２］）
＝−１０．５４２
【００９４】
Ｌ（Ｆｓ４，Ｆｃ２）
＝Σ（ｖ＝１，１９）Ｆｓ４［ｖ］ｌｏｇ（Ｆｃ２［ｖ］／Ｆ０［ｃ２］）
＝−１０．５４２
【００９５】
手順５．
上記の類似度を比較すると、

となり、各文は図１５に示すようにクラスタに分類される。
【００９６】
手順６．
上記の結果から２回目の繰返しにおけるセントロイドベクトルを求めると図１６及び図１７のようになる。
【００９７】
手順７．
図１６に示されたセントロイドベクトルＦｃ１及び図１７に示されたセントロイドベクトルＦｃ２と、各文ベクトルＦｓ１からＦｓ４との類似度を計算すると次のようになる。
Ｌ（Ｆｓ１，Ｆｃ１）＝−１１．６１４
Ｌ（Ｆｓ２，Ｆｃ１）＝−１８．９６８
Ｌ（Ｆｓ３，Ｆｃ１）＝−１２．２５８
Ｌ（Ｆｓ４，Ｆｃ１）＝−１１．６５６
Ｌ（Ｆｓ１，Ｆｃ２）＝−１４．６１６
Ｌ（Ｆｓ２，Ｆｃ２）＝−１６．８０３
Ｌ（Ｆｓ３，Ｆｃ２）＝−１０．０７１
Ｌ（Ｆｓ４，Ｆｃ２）＝−１１．４７７
【００９８】
手順８．
上記類似度の比較をすると、

【００９９】
したがって、各文は図１８に示すように分類される。
【０１００】
以下、所定の回数（例えば２０回）だけ反復するが、クラスタの分類は変化しない。
【０１０１】
手順９．
これで、コーパスの分割を終了する。
【０１０２】
このようなコーパスに対して、本実施形態のクラスタリング手段７は、文例１の語彙を全て含むように、小コーパス１を作成し、その結果、小コーパス１には、語彙として、「語彙：扁桃腺の炎症は悪化している、。」が含まれる。また、文例２の語彙を全て含むように、小コーパス２を作成し、その結果、小コーパス２には、語彙として、「語彙：胸部のＸ線画像から横隔膜癒着が見られる、。」が含まれる。
【０１０３】
一方、従来のコーパス全体から言語モデルを作成する場合、コーパスには、語彙として、「語彙：扁桃腺の炎症は悪化している胸部Ｘ線画像から横隔膜癒着が見られる、。」が含まれ、言語処理の探索空間（＝語彙の組み合わせ）が大きいため、計算量が急激に増加する。
従って、この実施の形態１のクラスタリング手段７を用いると、小コーパスから得られる要素言語モデルを用いた言語処理（＝単語列探索）の探索空間（＝語彙の組み合わせ）が小さいため、計算量は少なく、要素言語モデルを複数探索しても、全体の処理量は小さくすることができる。また、「胸部の扁桃腺」などの誤認識を防止する効果がある。
【０１０４】
以上説明したように、この実施の形態１の言語モデル構成装置は、複数の文からなるコーパスを記憶するコーパス記憶手段６と、コーパス中の各文を分類し、この分類に従ってコーパス中の文を複数のクラスタに分割して小コーパス６１−１〜６１−Ｃからなる小コーパス群６１を生成するクラスタリング手段７と、クラスタリング手段７により生成された小コーパス内の文に基づいて小コーパスごとに要素言語モデル３２−１〜３２−Ｃからなる要素言語モデル群３２を生成する言語モデル生成手段７２とを備え、クラスタリング手段７は、小コーパス内の文に含まれる語彙あるいは語彙の組の頻度情報を含むセントロイドベクトルを計算するセントロイドベクトル計算手段７０５と、小コーパス内の各文の語彙あるいは語彙の組みの頻度情報を含む文ベクトルとセントロイドベクトル計算手段７０５が計算した各小コーパスのセントロイドベクトルとの間の演算によって文と各セントロイドベクトルとの類似度を計算するクラスタリング尺度計算手段７０７と、クラスタリング尺度計算手段７０７が計算した類似度に基づいて各文の所属クラスタを決定する文クラスタ番号決定手段７０６とを備えたものである。
【０１０５】
また、この実施の形態１の言語モデル構成装置は、単一のｎ−ｇｒａｍ言語モデルを用いる場合では事実上不可能であった、広い範囲の話題を対象とする音声認識において、言語処理の計算量が語彙数と共に急激に増加せず、効率的な音声認識が可能である。また、認識結果は、要素言語モデル内の語彙接続に限定されるため、認識精度が向上する。
【０１０６】
以上のように、この実施の形態１によれば、コーパスを分割して複数の小コーパスからなる小コーパス群を生成したので、単一のｎ−ｇｒａｍ言語モデルを用いる場合では事実上不可能であった、広い範囲の話題を対象とする音声認識において、言語処理の計算量が語彙数と共に急激に増加せず、効率的な音声認識が可能である効果が得られる。また、認識結果は、要素言語モデル内の語彙接続に限定されるため、認識精度が向上する効果が得られる。
【０１０７】
実施の形態２．
この実施の形態２では、実施の形態１の言語モデル構成装置において、クラスタリング手段７は、さらに、各文の語彙を話題独立語彙と話題依存語彙とに分類する語彙話題依存度計算手段７０３を含み、セントロイドベクトル計算手段７０５は、セントロイドベクトルの次元として、語彙話題依存度計算手段７０３が計算した分類に基づき、各小コーパスで共通の値を話題共通語彙に対応する各次元とし、各小コーパスの文の語彙あるいは語彙の組みの頻度情報を話題依存語彙に対応する各次元としたセントロイドベクトルを計算するものである。
【０１０８】
この実施の形態２の語彙話題依存度計算手段７０３は、たとえば、所定の語彙分類テーブルを参照することで、また、コーパス中の語彙の出現傾向から語彙の話題依存度を計算することで、その処理を実施することができる。後者のコーパス中の語彙の出現傾向から語彙の話題依存度の計算は、実施の形態１では、コーパスの語彙出現頻度から語彙の話題依存度を計算し、頻度の高い語彙ほど話題共通性が高く頻度の低い語彙ほど話題依存度が高いとした。また、前者の所定の語彙分類テーブルの参照は、人手で作成した語彙分類テーブルとして、一般的な用語は話題独立性が高く、一般以外の用語は専門語である可能性が高く話題依存性が高いとすることで実施することができる。なお、この実施の形態２についての説明では、語彙の出現頻度を用いた場合について説明したが、文中の語彙の組の出現頻度を用いた場合も同様の効果を奏する。
【０１０９】
以上のように、この実施の形態２によれば、各小コーパスで共通の値を話題共通語彙に対応する各次元とし、各小コーパスの文の語彙あるいは語彙の組みの頻度情報を話題依存語彙に対応する各次元としたセントロイドベクトルを計算するようにしたので、生成された各小コーパスが、互いに重複した語彙の少ない独立度の高いものとなり、言語処理の計算量が語彙数と共に急激に増加せず、効率的な音声認識が可能である効果が得られる。
【０１１０】
実施の形態３．
この実施の形態３では、実施の形態２の言語モデル構成装置において、語彙話題依存度計算手段７０３は、各文の語彙のうち助詞、助動詞を含む所定の品詞の語彙を話題独立語彙とするものである。
【０１１１】
形態素解析の結果、文中の語彙について、図２の各文例の語彙の［］内に示すように、各語彙の品詞が副産物として得られる。この実施の形態３は、このように助詞や助動詞とされた語彙は話題に依存する情報をほとんど有していないという直感から、これらの語彙を話題独立語彙としたものである。一方、名詞や動詞とされた語彙は話題を表しているという直感から、話題に依存する語彙であるとしたものである。また、未定義語は業務特有の用語や固有名詞であるので、話題依存度の高い語彙である可能性が高いので、話題依存語彙とすることができる。
【０１１２】
この実施の形態３では、形態素解析における副産物である語彙の品詞を用いることができるという効果を有する。なお、ここでは、語彙として説明したが、文中の語彙の組としても同様の効果を奏する。
【０１１３】
以上のように、この実施の形態３によれば、各文の語彙のうち助詞、助動詞を含む所定の品詞の語彙を話題独立語彙とするようにしたので、セントロイドベクトルの各次元の決定において、話題独立語彙と話題依存語彙とを判定するための基準を新たに必要とせず、判定が明確かつ容易となる効果が得られる。
【０１１４】
実施の形態４．
この実施の形態４は、実施の形態２で述べた言語モデル構成装置において、語彙話題依存度計算手段７０３は、各文の語彙のうちコーパス内の出現頻度の大きいものから所定の個数までを話題独立語彙としたものである。
【０１１５】
この実施の形態４では、コーパスから自動的に話題独立度が得られるという効果を有する。なお、ここでは、各文の語彙として説明したが、各文の語彙の組としても同様の効果を奏する。
【０１１６】
以上のように、この実施の形態４によれば、各文の語彙のうちコーパス内の出現頻度の大きいものから所定の個数までを話題独立語彙としたので、コーパスから自動的に話題独立度が得られるという効果が得られる。
【０１１７】
実施の形態５．
この実施の形態５は、実施の形態２で述べた言語モデル構成装置において、語彙話題依存度計算手段７０３は、各文の語彙のうち助詞、助動詞を含む所定の品詞の語彙と、所定の品詞の語彙以外の語彙のうちコーパス内の出現頻度の大きいものから所定の個数までを話題独立語彙としたものである。
【０１１８】
この実施の形態５は、まず、助詞や助動詞などの品詞の語彙は、話題独立語とする。つぎに、品詞により話題依存語とされた語彙についてだけ、コーパスにおける語彙の出現頻度を求め、比較的頻度の高い語彙は話題独立語とし、比較的頻度の低い語彙を話題依存語とするものである。
【０１１９】
この実施の形態５によれば、実施の形態３と実施の形態４の特徴の両方を併せ持つという効果を有する。なお、ここでは、各文の語彙として説明したが、各文の語彙の組としても同様の効果を奏する。
【０１２０】
以上のように、この実施の形態５によれば、助詞や助動詞などの品詞の語彙は、話題独立語とし、品詞により話題依存語とされた語彙についてだけ、コーパスにおける語彙の出現頻度を求め、比較的頻度の高い語彙は話題独立語とし、比較的頻度の低い語彙を話題依存語としたので、セントロイドベクトルの各次元の決定において、話題独立語彙と話題依存語彙とを判定するための基準を新たに必要とせず、判定が明確かつ容易となり、コーパスから自動的に話題独立度が得られるという効果が得られる。
【０１２１】
実施の形態６．
この実施の形態６は、実施の形態１の言語モデル構成装置において、クラスタリング手段７は、さらに、コーパス内の語彙を分類する語彙分類手段７１３を含み、セントロイドベクトル計算手段７０５は、各次元は各クラスタの文の語彙あるいは語彙の組みの頻度情報を語彙分類手段７１３が分類した語彙の分類内で平滑化した頻度情報からなるセントロイドベクトルを計算するものである。
【０１２２】
語彙分類手段７１３は、所定の語彙分類テーブルを有して、語彙の分類を行う。セントロイドベクトル計算手段７０５は、語彙の分類の結果同一である語彙の次元については、頻度を平滑化した値として平均値（＝語彙分類中の語彙の総頻度数を語彙分類中の語彙の種類で除した値）を代入する。
【０１２３】
この実施の形態６によれば、語彙の分類による話題共通性を扱えるという効果を有する。なお、ここでは、語彙として説明したが、語彙の組としても構わない。
【０１２４】
以上のように、この実施の形態６によれば、セントロイドベクトルの各次元が各クラスタの文の語彙あるいは語彙の組みの頻度情報を語彙の分類内で平滑化した頻度情報からなるようにしたので、語彙の分類による話題共通性を扱えるという効果が得られる。
【０１２５】
実施の形態７．
この実施の形態７は、実施の形態６の言語モデル構成装置において、語彙分類手段７１３は、文書あるいは段落を含む所定の相互に関連づけられた文セットに含まれる文の語彙あるいは語彙の組を同じ分類に分類するものである。
【０１２６】
この実施の形態７によれば、コーパスにおける文の出現位置が近いものは同じ話題に属するという直感を生かした話題の共通性を扱えるという効果を有する。なお、ここでは、語彙として説明したが、語彙の組としても構わない。
【０１２７】
以上のように、この実施の形態７によれば、文書あるいは段落を含む所定の相互に関連づけられた文セットに含まれる文の語彙あるいは語彙の組を同じ分類に分類するようにしたので、コーパスにおける文の出現位置が近いものは同じ話題に属するという直感を生かした話題の共通性を扱えるという効果が得られる。
【０１２８】
実施の形態８．
図１９は、この発明の実施の形態８を示すブロック構成図である。図１９において、７３はクラスタ数制御手段であり、７４はクラスタ語彙数計算手段であり、７５は探索空間推定手段であり、７６は最適クラスタ数決定手段である。
【０１２９】
この実施の形態８は、複数の文からなるコーパスを記憶するコーパス記憶手段６と、コーパス中の各文を分類し、この分類に従ってコーパス中の文を複数のクラスタに分割して小コーパス６１−１〜６１−Ｃからなる小コーパス群６１を生成するクラスタリング手段７と、クラスタリング手段７により生成された小コーパス内の文に基づいて小コーパスごとに要素言語モデル３２−１〜３２−Ｃからなる要素言語モデル群３２を生成する言語モデル生成手段７２と、クラスタ数を所定の範囲で指定するクラスタ数制御手段７３と、クラスタリングの結果得られる各小コーパス内の語彙数を計算するクラスタ語彙数計算手段７４と、クラスタ数制御手段７３の指定したクラスタ数とクラスタ語彙数計算手段７４が計算した各小コーパスの語彙数とから探索空間の大きさを推定する探索空間推定手段７５と、探索空間推定手段７５が推定した探索空間の大きさに基づいて最適なクラスタ数を決定する最適クラスタ数決定手段７６とを有し、クラスタリング手段７がクラスタ数制御手段７３の指定したクラスタ数でクラスタリングを実行するものである。
【０１３０】
次に動作について説明する。
クラスタ数制御手段７３は、所定の範囲でクラスタ数Ｃを指定する。クラスタ数Ｃは、大規模なコーパスの場合、たとえば、１０から１０００の範囲で１，２，５の系列で変化させる。なお、クラスタ数は、クラスタ数あたりの平均サンプル文例数が大きいようであれば、さらに、１０００を超えるようにすることもできる。
【０１３１】
クラスタリング手段７は、たとえば、前記各実施形態において説明した構成のクラスタリング手段を用いることができる。
【０１３２】
クラスタ語彙数計算手段７４は、クラスタリング手段７の出力した小コーパス群６１内の各小コーパスに含まれる語彙数をカウントし、クラスタあたりの平均語彙数Ｖを計算する。
【０１３３】
探索空間推定手段７５は、探索空間を、クラスタ数Ｃと各クラスタの語彙数Ｖｃ（ｃ∈｛１，…，Ｃ｝）の関数を用いて求める。各クラスタの語彙数の平均をＶとすると、探索空間と、クラスタ数Ｃ及び平均語彙数Ｖの関係を、多数の例から求めて、これらを代表するように作られたモデル式に基づいて計算する。モデル式としては、次式を用いる。
Ｓ（Ｃ，Ｖ）＝Ｃ^a （Ｖ／Ｖ０）^b （３）
【０１３４】
ここで、Ｖ０はコーパス６中の語彙の種類数、ａおよびｂはモデル式（３）のパラメータであり、多くの実例を近似するように決定された実数値である。
【０１３５】
なお、モデル式（３）の関数形はこれに限らず実例を近似するものであれば良いが、クラスタ数Ｃが１すなわちコーパス全体から言語モデルを生成する場合に１となるように正規化がなされている必要がある。
【０１３６】
最適クラスタ数決定手段７６は、探索空間推定手段７５が計算した探索空間の大きさとクラスタ数の関係で、クラスタ数を２から１０００まで１，２，５の系列で変化させたときに探索空間が最小値または所定の値より下回ったクラス数を最適なクラス数と決定する。
【０１３７】
以上説明したように、この実施の形態８の言語モデル構成装置は、複数の文からなるコーパスを記憶するコーパス記憶手段６と、コーパス中の各文を分類し、この分類に従って上記コーパス中の文を複数のクラスタに分割して小コーパス６１−１〜６１−Ｃからなる小コーパス群６１を生成するクラスタリング手段７と、クラスタリング手段７により生成された小コーパス内の文に基づいて小コーパスごとに要素言語モデル３２−１〜３２−Ｃからなる要素言語モデル群３２を生成する言語モデル生成手段７２と、クラスタ数を所定の範囲で指定するクラスタ数制御手段７３と、クラスタリングの結果得られる各小コーパス内の語彙数を計算するクラスタ語彙数計算手段７４と、クラスタ数制御手段７３の指定したクラスタ数とクラスタ語彙数計算手段７４が計算した各小コーパスの語彙数とから探索空間の大きさを推定する探索空間推定手段７５と、探索空間推定手段７５が推定した探索空間の大きさに基づいて最適なクラスタ数を決定する最適クラスタ数決定手段７６とを有し、クラスタリング手段７が上記クラスタ数制御手段７３の指定したクラスタ数でクラスタリングを実行するものである。
【０１３８】
以上のように、この実施の形態８によれば、探索空間の大きさとクラスタ数の関係で、探索空間が最小値または所定の値より下回ったクラス数を最適なクラス数として決定するようにしたので、大規模なコーパスの場合にも効率的な音声認識が可能である効果が得られる。
【０１３９】
実施の形態９．
この実施の形態９は、入力される文の音声信号に基づいて、所定の統計的言語モデルを用いて音声認識する音声認識装置において、単語列探索手段として、実施の形態１〜実施の形態８で説明した言語モデル構成装置が構成した要素言語モデルのいずれをも参照して並列的に仮説展開を実行する単語列探索手段としたものである。
【０１４０】
この実施の形態９の音声認識装置の構成は図１と同様である。
【０１４１】
次に動作について説明する。
基本記号列認識手段４１ａは、音響モデル２１を参照して音節認識を行い基本記号列として音節系列候補を求める。単語列探索手段４３ａは基本記号列認識手段４１ａが求めた音節系列候補に対して差分モデル４４および要素言語モデル群３２内の要素言語モデル３２−１〜３２−Ｃを参照して、単語列探索を行う。ここで、単語列探索の目的は、要素言語モデルのいずれかを用いたときに最大の尤度を有する単語列を効率的に探索することである。この目的のため、単語列探索手段４３ａは、要素言語モデルに対応する数だけの単語列仮説を保持するスタック群を有し、入力の音節系列に対して、各スタックに格納されている評価値最大の仮説のうちさらにスタック群の中で最大の評価値を有する仮説を優先的に展開する。すなわち、各スタックには、複数の仮説が記憶（保持）されていて、スタック毎に評価値が最大の仮説を選択し、さらに選択された各スタックからの仮説のうち最大の評価値を有する仮説を優先的に展開する。また、仮説とは、入力の音節系列に対して、その音節系列が表していると思われる文（＝単語列）のことで、たとえば、入力の音節系列が「センコウスル」であった場合、仮説としては「選考する」「専攻する」などの文が対応する。
【０１４２】
このように複数のスタック群を用いて評価値が最大の仮説を展開するため、従来要素言語モデルごとに単語列を探索してその結果として得られる要素言語モデルごとの尤度を比較し最大の尤度を有する単語列を認識結果５として選択しているよりも、大幅に計算量が少なく、効率的に目的の単語列を探索することができる。
【０１４３】
以上説明したように、この実施の形態９の音声認識装置は、音声１を取り込む音声入力手段２と、音声入力手段２で取り込まれた音声１を単語列に変換し認識結果５を作成する音声文字変換手段４と、実施の形態１乃至実施の形態８のうちのいずれかの言語モデル構成装置が構成した要素言語モデルを参照して並列的に仮説展開を実行する単語列探索手段とを有するものである。
【０１４４】
以上のように、この実施の形態９によれば、複数のスタック群を用いて評価値が最大の仮説を展開するようにしたので、従来要素言語モデルごとに単語列を探索してその結果として得られる要素言語モデルごとの尤度を比較し最大の尤度を有する単語列を認識結果として選択しているよりも、大幅に計算量が少なく、効率的に目的の単語列を探索することができる効果が得られる。
【０１４５】
実施例．
この発明の発明者は、前記実施の形態の言語モデル構成装置の効果を確認するため、評価実験を行った。実験で用いたコーパスは、新聞記事の９４年１月から９月を学習用とし、１０月から１２月を評価用とした。含まれる文の数および語彙数を表１に示す。全期間の異なり語彙数Ｖ０は３４９，５８０(学習用のみでは３００，０３４)であった。
【０１４６】
【表１】

【０１４７】
ここでは、認識系として、公知の音節認識を行い音節系列候補を求める１段階と、音節系列候補に対して単語列探索を行う２段階探索法（阿部芳春，伍井啓恭，丸田裕三，中島邦男，「認識誤り傾向の確率モデルを用いた2段階探索法による大語彙連続音声認識」電子情報通信学会論文誌Ｖｏｌ．Ｊ８３−Ｄ−ＩＩ，Ｎｏ．１２，ｐｐ．２５４５−２５５３（２０００−１２）を用いる場合を想定する。この場合、２段目のみで言語モデルが用いられ、言語モデルは２段目の探索空間に影響を与える。
【０１４８】
言語モデルとして話題分割モデルを用いる場合の探索空間の（相対的な）大きさを要素言語モデルの平均語彙サイズＶと要素言語モデルの数Ｃ（＝クラスタ数）の関数Ｓ（Ｃ，Ｖ）で近似し、つぎのような関係が成立する(ような探索アルゴリズムが存在する）と仮定する。
【０１４９】
Ｓ（Ｃ，Ｖ）＝Ｃ^a （Ｖ／Ｖ０）^b （３’）
ここで、ａ＝１／２かつｂ＝３／２
【０１５０】
結果．
表２にクラスタリングの繰返し回数と全クラスタの語彙数を平均した平均語彙数の関係を示す。
【０１５１】
各クラスタの語彙数は、カウントが１以上の語彙数とした。式（１）の尺度を用いる場合、ランダムに文のクラスを決定した初期値（繰返し回数０）から、繰返し回数の増大とともに、平均語彙数が単調減少しており、文クラスタリングにより文間の語彙の共通性が補足されていると推察される。式（２）の尺度を用いる場合、平均語彙数の収束は不安定で、語彙数標準偏差で示されるように、クラスタ間の語彙数のばらつきが大きい。以下の実験では、収束結果の良かった尺度の式（１）を用いた。
【０１５２】
【表２】

【０１５３】
次に、繰返しを２０回として、クラスタ数Ｃ、話題独立度の高い語彙の次元数Ｄを変化させ、平均語彙数Ｖ、探索空間の大きさの指標Ｓ（Ｃ，Ｖ）式（３’）、及び評価文の文単位のヒット率（１文中の全語彙が特定の１クラスタに含まれる率）を求めた。語彙の番号は、コーパス中の出現頻度の降順につけて、高頻度語彙を話題独立度の高い語彙として扱った。結果を表３に示す。
【０１５４】
【表３】

【０１５５】
検討．
クラスタ数Ｃの増大と共に式（３’）に基づく探索空間の大きさに減少傾向が見られる。しかし、同時に評価文に対する文単位のヒット率は低下している。
【０１５６】
また、話題独立語彙の次元数Ｄの増大と共に、探索空間は若干増加している。しかし、文単位のヒット率は僅かであるが向上している。具体的には、表３で、例えば、クラスタ数Ｃが２００の場合について、各話題独立次元数Ｄにおける文単位ヒット率を比較すると、Ｄ＝０のときのヒット率は０．４８２９６、Ｄ＝５００のときのヒット率は０．４８４２０、Ｄ＝２０００のときのヒット率は０．４８４５０、Ｄ＝５０００のときのヒット率は０．５００７１というように、Ｄの増加とともにヒット率が向上している。
【０１５７】
このように、広い話題を含むコーパスから、話題分割言語モデルを作成するためのクラスタリングの尺度として、各クラスタが話題独立部分と話題依存部分とを有し、話題依存部分についての文単位の類似度に基づいて、探索空間の大きさを考慮して、コーパスを分割することにより、新聞記事を用いた実験で、話題分割言語モデルに対する探索空間の大きさを式（３’）のように仮定したとき、評価文の文単位カバー率の低下を許せば、探索空間の小さい言語モデルが構築できる。なお、評価文の文単位カバー率の低下は、コーパスに含まれる文のサンプルを今後増大されることで、改善できるものと考えられる。
【０１５８】
【発明の効果】
以上のように、この発明によれば、コーパスを分割して複数の小コーパスからなる小コーパス群を生成したので、単一のｎ−ｇｒａｍ言語モデルを用いる場合では事実上不可能であった、広い範囲の話題を対象とする音声認識において、言語処理の計算量が語彙数と共に急激に増加せず、効率的な音声認識が可能である効果が得られる。また、認識結果は、要素言語モデル内の語彙接続に限定されるため、認識精度が向上する効果がある。
【０１５９】
この発明によれば、各小コーパスで共通の値を話題共通語彙に対応する各次元とし、各小コーパスの文の語彙あるいは語彙の組みの頻度情報を話題依存語彙に対応する各次元としたセントロイドベクトルを計算するようにしたので、生成された各小コーパスが、互いに重複した語彙の少ない独立度の高いものとなり、言語処理の計算量が語彙数と共に急激に増加せず、効率的な音声認識が可能である効果がある。
【０１６０】
この発明によれば、各文の語彙のうち助詞、助動詞を含む所定の品詞の語彙を話題独立語彙とするようにしたので、セントロイドベクトルの各次元の決定において、話題独立語彙と話題依存語彙とを判定するための基準を新たに必要とせず、判定が明確かつ容易となる効果がある。
【０１６１】
この発明によれば、各文の語彙のうちコーパス内の出現頻度の大きいものから所定の個数までを話題独立語彙としたので、コーパスから自動的に話題独立度が得られるという効果がある。
【０１６２】
この発明によれば、助詞や助動詞などの品詞の語彙は、話題独立語とし、品詞により話題依存語とされた語彙についてだけ、コーパスにおける語彙の出現頻度を求め、比較的頻度の高い語彙は話題独立語とし、比較的頻度の低い語彙を話題依存語としたので、セントロイドベクトルの各次元の決定において、話題独立語彙と話題依存語彙とを判定するための基準を新たに必要とせず、判定が明確かつ容易となり、コーパスから自動的に話題独立度が得られるという効果がある。
【０１６３】
この発明によれば、セントロイドベクトルの各次元が各クラスタの文の語彙あるいは語彙の組みの頻度情報を語彙の分類内で平滑化した頻度情報からなるようにしたので、語彙の分類による話題共通性を扱えるという効果がある。
【０１６４】
この発明によれば、文書あるいは段落を含む所定の相互に関連づけられた文セットに含まれる文の語彙あるいは語彙の組を同じ分類に分類するようにしたので、コーパスにおける文の出現位置が近いものは同じ話題に属するという直感を生かした話題の共通性を扱えるという効果がある。
【０１６５】
この発明によれば、探索空間の大きさとクラスタ数の関係で、探索空間が最小値または所定の値より下回ったクラス数を最適なクラス数として決定するようにしたので、大規模なコーパスの場合にも効率的な音声認識が可能である効果がある。
【０１６６】
この発明によれば、複数のスタック群を用いて評価値が最大の仮説を展開するようにしたので、従来要素言語モデルごとに単語列を探索してその結果として得られる要素言語モデルごとの尤度を比較し最大の尤度を有する単語列を認識結果として選択しているよりも、大幅に計算量が少なく、効率的に目的の単語列を探索することができる効果がある。
【図面の簡単な説明】
【図１】この発明の実施の形態１を示すブロック図である。
【図２】この発明の実施の形態１のコーパス内の学習用テキストの説明図である。
【図３】この発明の実施の形態１のクラスタリング手段のブロック図である。
【図４】この発明の実施の形態１の語彙空間の分割の概念図である。
【図５】この発明の実施の形態１のセントロイドベクトルの構成図である。
【図６】この発明の実施の形態１のコーパス分割処理の流れ図である。
【図７】異なり語彙と頻度を表す図である。
【図８】文例１の文ベクトルを表す図である。
【図９】文例２の文ベクトルを表す図である。
【図１０】文例３の文ベクトルを表す図である。
【図１１】文例４の文ベクトルを表す図である。
【図１２】コーパスの分割を表す図である。
【図１３】クラスタ１のセントロイドベクトルを表す図である。
【図１４】クラスタ２のセントロイドベクトルを表す図である。
【図１５】コーパスの分割を表す図である。
【図１６】クラスタ１のセントロイドベクトルを表す図である。
【図１７】クラスタ２のセントロイドベクトルを表す図である。
【図１８】コーパスの分割を表す図である。
【図１９】この発明の実施の形態８を示すブロック図である。
【図２０】従来の音声認識装置を説明するブロック図である。
【図２１】他の従来の音声認識装置を説明するブロック図である。
【符号の説明】
１音声、２音声入力手段、４音声文字変換手段、５認識結果、６コーパス記憶手段、７クラスタリング手段、２１音響モデル、３２要素言語モデル群、３２−１，３２−２，３２−Ｃ要素言語モデル、４１ａ基本記号列認識手段、４３ａ単語列探索手段、４４差分モデル、６１小コーパス群、６１−１，６１−２，６１−Ｃ小コーパス、７２言語モデル生成手段、７３クラスタ数制御手段、７４クラスタ語彙数計算手段、７５探索空間推定手段、７６最適クラスタ数決定手段、７０１学習テキストバッファ、７０２学習テキスト文ベクトル変換手段、７０３語彙話題依存度計算手段、７０４文クラスタ番号初期化手段、７０５セントロイドベクトル計算手段、７０６文クラスタ番号決定手段、７０７クラスタリング尺度計算手段、７０８セントロイドベクトル記憶手段、７０９文クラスタ番号記憶手段、７１０語彙話題依存度記憶手段、７１１文ベクトル記憶手段、７１２分類結果出力手段、７１３語彙分類手段。

Claims

複数の文からなるコーパスを記憶するコーパス記憶手段と、上記コーパス中の各文を分類し、この分類に従って上記コーパス中の文を複数のクラスタに分割して小コーパスからなる小コーパス群を生成するクラスタリング手段と、
上記クラスタリング手段により生成された上記小コーパス内の文に基づいて上記小コーパスごとに要素言語モデルからなる要素言語モデル群を生成する言語モデル生成手段とを備え、
上記クラスタリング手段は、
上記小コーパス内の文に含まれる語彙あるいは語彙の組の頻度情報を含むセントロイドベクトルを計算するセントロイドベクトル計算手段と、
上記小コーパス内の各文の語彙あるいは語彙の組みの頻度情報を含む文ベクトルと上記セントロイドベクトル計算手段が計算した各小コーパスのセントロイドベクトルとの間の演算によって上記文と上記各セントロイドベクトルとの類似度を計算するクラスタリング尺度計算手段と、
上記クラスタリング尺度計算手段が計算した類似度に基づいて各文の所属クラスタを決定する文クラスタ番号決定手段とを備えたことを特徴とする言語モデル構成装置。
クラスタリング手段は、さらに、各文の語彙を話題独立語彙と話題依存語彙とに分類する語彙話題依存度計算手段を含み、
セントロイドベクトル計算手段は、セントロイドベクトルの次元として、上記語彙話題依存度計算手段が計算した分類に基づき、各小コーパスで共通の値を話題共通語彙に対応する各次元とし、各小コーパスの文の語彙あるいは語彙の組みの頻度情報を話題依存語彙に対応する各次元としたセントロイドベクトルを計算することを特徴とする請求項１記載の言語モデル構成装置。
語彙話題依存度計算手段は、各文の語彙のうち助詞、助動詞を含む所定の品詞の語彙を話題独立語彙とすることを特徴とする請求項２記載の言語モデル構成装置。
語彙話題依存度計算手段は、各文の語彙のうちコーパス内の出現頻度の大きいものから所定の個数までを話題独立語彙とすることを特徴とする請求項２記載の言語モデル構成装置。
語彙話題依存度計算手段は、各文の語彙のうち助詞、助動詞を含む所定の品詞の語彙と、上記所定の品詞の語彙以外の語彙のうちコーパス内の出現頻度の大きいものから所定の個数までを話題独立語彙とすることを特徴とする請求項２記載の言語モデル構成装置。
クラスタリング手段は、さらに、コーパス内の語彙を分類する語彙分類手段を含み、
セントロイドベクトル計算手段は、各次元は各クラスタの文の語彙あるいは語彙の組みの頻度情報を上記語彙分類手段が分類した語彙の分類内で平滑化した頻度情報からなるセントロイドベクトルを計算することを特徴とする請求項１記載の言語モデル構成装置。
語彙分類手段は、文書あるいは段落を含む所定の相互に関連づけられた文セットに含まれる文の語彙あるいは語彙の組を同じ分類に分類することを特徴とする請求項６記載の言語モデル構成装置。
複数の文からなるコーパスを記憶するコーパス記憶手段と、上記コーパス中の各文を分類し、この分類に従って上記コーパス中の文を複数のクラスタに分割して小コーパスからなる小コーパス群を生成するクラスタリング手段と、
上記クラスタリング手段により生成された上記小コーパス内の文に基づいて上記小コーパスごとに要素言語モデルからなる要素言語モデル群を生成する言語モデル生成手段と、
クラスタ数を所定の範囲で指定するクラスタ数制御手段と、
クラスタリングの結果得られる各小コーパス内の語彙数を計算するクラスタ語彙数計算手段と、
上記クラスタ数制御手段の指定したクラスタ数と上記クラスタ語彙数計算手段が計算した各小コーパスの語彙数とから探索空間の大きさを推定する探索空間推定手段と、
上記探索空間推定手段が推定した探索空間の大きさに基づいて最適なクラスタ数を決定する最適クラスタ数決定手段とを有し、
上記クラスタリング手段が上記クラスタ数制御手段の指定したクラスタ数でクラスタリングを実行することを特徴とする言語モデル構成装置。
音声を取り込む音声入力手段と、
上記音声入力手段で取り込まれた音声を単語列に変換し認識結果を作成する音声文字変換手段と、
請求項１乃至請求項８記載のうちのいずれか１項記載の言語モデル構成装置が構成した要素言語モデルを参照して並列的に仮説展開を実行する単語列探索手段とを有することを特徴とする音声認識装置。