JP2002268678A

JP2002268678A - 言語モデル構成装置及び音声認識装置

Info

Publication number: JP2002268678A
Application number: JP2001070952A
Authority: JP
Inventors: Yoshiharu Abe; 芳春阿部; Yuzo Maruta; 裕三丸田; Hirotaka Goi; 啓恭伍井
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2001-03-13
Filing date: 2001-03-13
Publication date: 2002-09-20
Anticipated expiration: 2021-03-13
Also published as: JP4067776B2

Abstract

(57)【要約】【課題】多くの話題から構成されるような大規模なコ
ーパスに適用した場合に、話題のカバー率が高く音声認
識の単語列探索に適用した場合探索空間が小さい言語モ
デルを構成する言語モデル構成装置、および、複数の要
素言語モデルを用いて単語列探索を効率的に行うことの
できる音声認識装置を得ることを目的とする。【解決手段】複数の文からなるコーパスを記憶するコ
ーパス記憶手段６と、コーパス中の各文を分類し、この
分類に従ってコーパス中の文を複数のクラスタに分割し
て小コーパス６１−１〜６１−Ｃからなる小コーパス群
６１を生成するクラスタリング手段７と、クラスタリン
グ手段７により生成された小コーパス６１−１〜６１−
Ｃ内の文に基づいて小コーパスごとに要素言語モデル３
２−１〜３２−Ｃからなる要素言語モデル群３２を生成
する言語モデル生成手段７２とを備える。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、音声を認識して
文章を入力する音声認識文章入力装置のための言語モデ
ル構成装置およびこのための音声認識装置に関するもの
である。

【０００２】

【従来の技術】利便性や特別な訓練が不要であることな
どから、音声入力による文書作成への期待は極めて高
く、音声認識による日本語の文章入力ソフトウェアが各
社から市販され注目を浴びている。

【０００３】図２０は、これらのソフトウェアをコンピ
ュータで動作させることで実現される従来の音声認識文
章入力装置の構成図である。図２０において、２は入力
の音声１を取り込む音声入力手段であり、２１は例えば
音素環境依存音素ＨＭＭ（ＨｉｄｄｅｎＭａｒｃｏｖ
Ｍｏｄｅｌ：隠れマルコフモデル）からなる音響モデ
ルであり、３１は例えば単語のＮグラムからなる言語モ
デルである。

【０００４】４は音響モデル２１と言語モデル３１を参
照して音声入力手段２が取得した入力の音声１を単語の
列に変換する音声文字変換手段である。５は音声文字変
換手段４の出力単語列である認識結果であり、６は複数
の文を含む学習用テキストからなるコーパスを記憶する
コーパス記憶手段である。７１はコーパス中の文を解析
して単語の連鎖に変換し言語モデル３１を生成する言語
モデル生成手段である。

【０００５】言語モデル３１としては、単語連鎖の統計
量に基づくｎ−ｇｒａｍモデル（例えばｎ＝３）が用い
られる。ここでｎ−ｇｒａｍモデルとは、ある時点で生
起する事象の確率がその直前のｎ個の時点で生起した事
象だけの影響を受けるときこれをｎ重マルコフ過程とい
い、単語の生起をｎ−１重マルコフ過程で近似したモデ
ルをｎ−ｇｒａｍモデルと呼ぶ。このｎ−ｇｒａｍモデ
ルでは、ある時点での単語の生起は直前のｎ−１単語の
みに依存すると考えている。

【０００６】次に動作について説明する。この構成にお
いて、ユーザの音声１は音声入力手段２によって取り込
まれて、音声文字変換手段４によって言語モデル３１に
記憶された単語連鎖の情報に従って単語列に変換され、
認識結果５が作成される。

【０００７】近年、音声認識の適用分野が広がり、認識
対象が細分化されるに伴い、より広い話題をカバーする
言語モデルが必要となっている。すなわち、話題は文に
よって構成され、文は、単語の連鎖によって構成される
ため、単語連鎖のカバー率の高い言語モデルが要求され
る。

【０００８】言語モデルとして、上記の単語連鎖の統計
量に基づくｎ−ｇｒａｍモデルを用いる場合、語彙数の
増大と共に探索空間が莫大となるため、ｎ−ｇｒａｍの
足切りを行う必要があり、話題のカバー率は制限され
る。また、話題のカバー率を高く保つためにｎ−ｇｒａ
ｍの足切りを行わない場合は、音響処理と組み合わせた
とき、出現確率の低いテキストは、音響的に類似した出
現確率の高いテキストに圧倒され、けっして認識され
ず、認識性能が低下するという課題がある。

【０００９】このように、単一の言語モデルでは、話題
のカバー率と認識性能を両立させるのは難しい。これに
対し、コーパスをクラスタに分類し各クラスタから要素
言語モデルを作成し、これらの要素言語モデルを係数で
重み付けして混合した混合言語モデルを構成し、少量の
適応データにより混合言語モデルに対する重み係数を話
題適応する方法が試みられている（この種の従来技術
は、例えば、Ｒ．ＩｙｅｒＭ．Ｏｓｔｅｎｄｏｆ，
Ｊ．Ｒ．Ｒｏｈｌｉｃｅｋ，「Ｌａｎｇｕａｇｅｍ
ｏｄｅｌｉｎｇｗｉｔｈｓｅｎｔｅｎｃｅ−ｌｅｖ
ｅｌｍｉｘｔｕｒｅｓ」Ｐｒｏｃ．ｏｆＡＲＰＡ
ＷｏｒｋｓｈｏｐｏｎＨｕｍａｎＬａｎｇｕａｇ
ｅＴｅｃｈｎｏｌｏｇｙ，ｐｐ．８２−８７（１９９
４）や、Ｐ．Ｒ．Ｃｌａｒｋｓｏｎ，Ａ．Ｒｏｂｉｎｓ
ｏｎ「Ｌａｎｇｕａｇｅｍｏｄｅｌａｄａｐｔａｔ
ｉｏｎｕｓｉｎｇｍｉｘｔｕｒｅｓａｎｄａｎ
ｅｘｐｏｎｅｎｔｉａｌｌｙｄｅｃａｙｉｎｇｃａ
ｃｈｅ」Ｐｒｏｃ．ｏｆＩＣＡＳＳＰ９７，ｐｐ．
７９９−８０２や、清水徹、大野晃生、樋口宜男「文の
クラスタリングに基づく統計的言語モデル」日本音響学
会講演論文集１−６−１４（１９９８−０３）などの文
献に記載されている）。

【００１０】また、話題ごとに分割されたコーパスから
独立に複数の言語モデルを作成して、話題の制約をかけ
た単語列探索を行った後、各言語モデルに渡って正規化
尤度が最大の単語列を認識結果とする方法（話題分割モ
デル）が提案されている(例えば、「Ｈ．Ｉｔｓｕｉ，
Ｙ．Ｍａｒｕｔａ，Ｙ．Ａｂｅ，Ｋ．Ｎａｋａｊｉｍａ
「Ａｓｔｕｄｙｏｎｔｏｐｉｃ−ｄｅｐｅｎｄｎ
ｅｔｌａｎｇｕａｇｅｍｏｄｅｌｉｎｇ」Ｐｒｏ
ｃ．ＷＥＳＴＰＲＡＣＶＩＩ，ｐｐ．１３７−１４
０（２０００−１０）など)。ここでは、話題ごとの分
割は、新聞記事を対象としており、記事ごとに人手で付
与した「社会」、「政治」、「経済」などの「タグ」を
頼りに、コーパス全体を分割し、それぞれのコーパスに
ついて、言語モデルを作成していた。このため、業務文
書やＷｅｂなどの文書など大量に得られるタグなしのコ
ーパスについては、適用できないという課題がある。

【００１１】コーパスの自動クラスタリングに基づく、
話題分割に関して、前記文献でＩｙｅｒらは、１つの文
書は１つの話題に属すると仮定して、文書を単位とした
話題のクラスタリングを行い、さらにＥｍアルゴリズム
により、文の話題クラスタへの帰属確率を求めている。
Ｄ．Ｃａｔｅｒ，「Ｉｍｐｒｏｖｉｎｇｌａｎｇｕａ
ｇｅｍｏｄｅｌｓｂｙｃｌｕｓｔｅｒｉｎｇｔ
ｒａｉｎｉｎｇｓｅｎｔｅｎｃｅｓ」ＳＲＩＴｅｃ
ｈｎｉｃａｌＲｅｐｏｒｔ（１９９４）には、文内の
単語間の依存性を扱うため、文を最小単位としたコーパ
スのクラスタリングを行うことが記載されている。ま
た、特開２０００−７５８８６号公報「統計的言語モデ
ル生成装置及び音声認識装置」では、遷移確率の予測制
度・信頼性を改善可能な統計的言語モデルを生成し、統
計的言語モデルを用いてより高い音声認識率で音声認識
するため、コーパス全体をクラスタリングする手段とク
ラスタごとにＭＡＰ推定法を用いてｎ−ｇｒａｍ言語モ
デルを作成している。ここで、クラスタリングは、公知
のＫ−ｍｅａｎｓ法に類似した方法で、文の分類は各ク
ラスタごとの言語モデルによる文の生成確率を用いて行
っている。なお、クラスタリングとは、データを構成し
ている個体（文または文例）を何らかの属性に注目して
分類することであり、クラスタリングによる分類でクラ
スタが生成される。

【００１２】図２１は、前記特開２０００−７５８８６
号公報で開示された技術に基づく音声認識装置の構成例
を示す図である。図２１において、７はコーパス記憶手
段に記憶されたコーパスをクラスタに分類して複数の小
コーパスからなる小コーパス群６１を生成するクラスタ
リング手段である。７２は小コーパス群６１から、複数
の要素言語モデルからなる要素言語モデル群３２を生成
する言語モデル生成手段である。その他の構成要素は、
図２０の従来の音声認識装置の構成要素と等しい。

【００１３】次に動作について説明する。クラスタリン
グ手段７は、コーパス記憶手段６に記憶されたコーパス
としての学習テキストから、Ｃ個（Ｃはクラスタ数）に
分割された小コーパス群６１内の小コーパス６１−１〜
６１−Ｃを生成する。

【００１４】言語モデル生成手段７２は、小コーパス群
６１内の小コーパス６１−１〜６１−Ｃから、要素言語
モデル群３２内の要素言語モデル３２−１〜３２−Ｃを
生成する。

【００１５】単語列探索手段４３は要素言語モデル群３
２の要素言語モデルのそれぞれについて予備探索手段４
１で得られた単語列について尤度を計算し、最大の尤度
を有する要素言語モデルを適用したときに得られる単語
列を認識結果として出力する。

【００１６】クラスタリング手段７は、文をクラスタへ
分類するために、各クラスタにおける統計的言語モデル
の文生成確率を計算して最大の文生成確率を有するクラ
スタを選択する。これにより、単一のタスクのデータで
あるコーパスを自動的に分類して、単語列ごとにｎ−ｇ
ｒａｍ遷移確率の平均、及び分散を求め、各クラスタの
言語モデルの遷移確率推定に必要とする事前確率を求め
ている。また、同一のタスクの文でも、様々な内容の文
が存在し、文ごとの内容で分類して、クラスタごとの言
語的特徴を明確にさせ言語モデルの精度を向上させてい
る。

【００１７】さらに、単語列探索手段４３において、入
力された音声の発話文が属するクラスタを知るため、入
力音声をコーパス全体で作成した言語モデルで認識を行
い、次に、認識結果から、クラスタ別の言語モデルを１
つのみ選択し、再度認識を行っている。

【００１８】以上の説明中で用いられた「コーパス」と
は、電子化された電子計算機等で読み取ることのできる
大量の音声・言語データのことである。また、「タス
ク」とは、対象とする業務のことであり、例えば、「国
際会議の受け付け」、「ホテルの予約」、「観光案内」
などである。コーパス記憶手段に記憶される学習テキス
トであるコーパスは、通常これらの対象業務の大量の文
例からなる。

【００１９】

【発明が解決しようとする課題】従来の単語連鎖の統計
量に基づくｎ−ｇｒａｍ言語モデルは、多くの話題から
構成されるような大規模なコーパスに適用した場合に、
単語連鎖ｎ−ｇｒａｍの種類数を大きくする必要がある
が、音声認識の単語列探索における探索空間が増大する
ため、話題のカバー率を高くできないという課題があ
る。

【００２０】また、音響処理と組み合せたとき、確率の
低い文が認識できないという課題がある。

【００２１】一方、所定のコーパスの文をクラスタリン
グし、各クラスタから生成された要素言語モデルを混合
して用いる従来の混合言語モデルは、文のクラスタ分類
において、統計的言語モデルによる文の生成確率のみに
基づいて分類を行っているため、多くの話題から構成さ
れるような大規模なコーパスに適用した場合に、分類の
結果クラスタごとに生成される要素言語モデルに含まれ
るｎ−ｇｒａｍの種類数が大きくなり、探索空間の問題
から足切りが必要になる可能性があるという課題があ
る。

【００２２】また、音声認識の単語列探索に適用した場
合に、要素言語モデルによっては、探索空間が大きくな
る可能性が残るという課題がある。

【００２３】この発明は上記のような課題を解決するた
めになされたもので、多くの話題から構成されるような
大規模なコーパスに適用した場合に、話題のカバー率が
高く音声認識の単語列探索に適用した場合探索空間が小
さい言語モデルを構成する言語モデル構成装置、およ
び、複数の要素言語モデルを用いて単語列探索を効率的
に行うことのできる音声認識装置を得ることを目的とす
る。

【００２４】

【課題を解決するための手段】この発明に係る言語モデ
ル構成装置は、複数の文からなるコーパスを記憶するコ
ーパス記憶手段と、コーパス中の各文を分類し、この分
類に従ってコーパス中の文を複数のクラスタに分割して
小コーパスからなる小コーパス群を生成するクラスタリ
ング手段と、クラスタリング手段により生成された小コ
ーパス内の文に基づいて小コーパスごとに要素言語モデ
ルからなる要素言語モデル群を生成する言語モデル生成
手段とを備え、クラスタリング手段は、小コーパス内の
文に含まれる語彙あるいは語彙の組の頻度情報を含むセ
ントロイドベクトルを計算するセントロイドベクトル計
算手段と、小コーパス内の各文の語彙あるいは語彙の組
みの頻度情報を含む文ベクトルとセントロイドベクトル
計算手段が計算した各小コーパスのセントロイドベクト
ルとの間の演算によって文と各セントロイドベクトルと
の類似度を計算するクラスタリング尺度計算手段と、ク
ラスタリング尺度計算手段が計算した類似度に基づいて
各文の所属クラスタを決定する文クラスタ番号決定手段
とを備えたものである。

【００２５】この発明に係る言語モデル構成装置は、ク
ラスタリング手段は、さらに、各文の語彙を話題独立語
彙と話題依存語彙とに分類する語彙話題依存度計算手段
を含み、セントロイドベクトル計算手段は、セントロイ
ドベクトルの次元として、上記語彙話題依存度計算手段
が計算した分類に基づき、各小コーパスで共通の値を話
題共通語彙に対応する各次元とし、各小コーパスの文の
語彙あるいは語彙の組みの頻度情報を話題依存語彙に対
応する各次元としたセントロイドベクトルを計算するも
のである。

【００２６】この発明に係る言語モデル構成装置は、語
彙話題依存度計算手段は、各文の語彙のうち助詞、助動
詞を含む所定の品詞の語彙を話題独立語彙とするもので
ある。

【００２７】この発明に係る言語モデル構成装置は、語
彙話題依存度計算手段は、各文の語彙のうちコーパス内
の出現頻度の大きいものから所定の個数までを話題独立
語彙とするものである。

【００２８】この発明に係る言語モデル構成装置は、語
彙話題依存度計算手段は、各文の語彙のうち助詞、助動
詞を含む所定の品詞の語彙と、所定の品詞の語彙以外の
語彙のうちコーパス内の出現頻度の大きいものから所定
の個数までを話題独立語彙とするものである。

【００２９】この発明に係る言語モデル構成装置は、ク
ラスタリング手段は、さらに、コーパス内の語彙を分類
する語彙分類手段を含み、セントロイドベクトル計算手
段は、各次元は各クラスタの文の語彙あるいは語彙の組
みの頻度情報を語彙分類手段が分類した語彙の分類内で
平滑化した頻度情報からなるセントロイドベクトルを計
算するものである。

【００３０】この発明に係る言語モデル構成装置は、語
彙分類手段は、文書あるいは段落を含む所定の相互に関
連づけられた文セットに含まれる文の語彙あるいは語彙
の組を同じ分類に分類するものである。

【００３１】この発明に係る言語モデル構成装置は、複
数の文からなるコーパスを記憶するコーパス記憶手段
と、コーパス中の各文を分類し、この分類に従ってコー
パス中の文を複数のクラスタに分割して小コーパスから
なる小コーパス群を生成するクラスタリング手段と、ク
ラスタリング手段により生成された小コーパス内の文に
基づいて小コーパスごとに要素言語モデルからなる要素
言語モデル群を生成する言語モデル生成手段と、クラス
タ数を所定の範囲で指定するクラスタ数制御手段と、ク
ラスタリングの結果得られる各小コーパス内の語彙数を
計算するクラスタ語彙数計算手段と、クラスタ数制御手
段の指定したクラスタ数とクラスタ語彙数計算手段が計
算した各小コーパスの語彙数とから探索空間の大きさを
推定する探索空間推定手段と、探索空間推定手段が推定
した探索空間の大きさに基づいて最適なクラスタ数を決
定する最適クラスタ数決定手段とを有し、クラスタリン
グ手段が上記クラスタ数制御手段の指定したクラスタ数
でクラスタリングを実行するものである。

【００３２】この発明に係る音声認識装置は、音声を取
り込む音声入力手段と、音声入力手段で取り込まれた音
声を単語列に変換し認識結果を作成する音声文字変換手
段と、言語モデル構成装置が構成した要素言語モデルを
参照して並列的に仮説展開を実行する単語列探索手段と
を有するものである。

【００３３】

【発明の実施の形態】以下、この発明の実施の一形態を
説明する。実施の形態１．図１はこの発明の実施の形態１を示すブ
ロック構成図である。図１において、２はユーザの発話
した音声１を取り込む音声入力手段であり、４は要素言
語モデル群３２を参照して音声入力手段２が取得した音
声１を単語の列に変換する音声文字変換手段である。

【００３４】５は音声文字変換手段４の出力単語列であ
る認識結果であり、２１は公知の音素環境依存型の音素
ＨＭＭから構成される音響モデルであり、４１ａは基本
記号列認識手段である。

【００３５】４４は基本記号列の認識誤り傾向を記憶し
た差分モデルであり、４３ａは差分モデル４４および要
素言語モデル群３２を参照する単語列探索手段である。
６は要素言語モデル群３２の学習用の文例を含むコーパ
スを記憶したコーパス記憶手段であり、７はコーパス内
の学習テキストを分類するクラスタリング手段である。

【００３６】６１はクラスタリング手段７によって分類
された複数の小コーパス６１−１〜６１−Ｃからなる小
コーパス群であり、７２は小コーパス群６１内の小コー
パス６１−１〜６１−Ｃから対応する要素言語モデル３
２−１〜３２−Ｃを生成する言語モデル生成手段であ
る。３２は複数の要素言語モデル３２−１〜３２−Ｃか
らなる要素言語モデル群である。

【００３７】図２はコーパス中の文例１、文例２、文例
３および文例４を示す図であり、図２において、文例１
は「扁桃腺［名詞］の［助詞］炎症［名詞］は［助
詞］、［読点］悪化［名詞］して［助詞］いる［助動
詞］。［句点］ｅｏｓ［文末］」である。

【００３８】文例２は「胸部［名詞］の［助詞］Ｘ線
［名詞］画像［名詞］から［助詞］、［読点］横隔膜
［名詞］の［助詞］癒着［名詞］が［助詞］見［動詞］
られる［助動詞］。［句点］ｅｏｓ［文末］」である。

【００３９】文例３は「胸部［名詞］横隔膜［名詞］の
［助詞］癒着［名詞］が［助詞］見［動詞］られる［助
動詞］。［句点］ｅｏｓ［文末］」である。

【００４０】文例４は「胸部［名詞］の［助詞］横隔膜
［名詞］が［助詞］癒着［名詞］して［助詞］いる［助
動詞］。［句点］ｅｏｓ［文末］」である。

【００４１】図３はクラスタリング手段７の構成を示す
図であり、図３において７０１は学習テキストバッファ
であり、７０２は学習テキスト文ベクトル変換手段であ
り、７０３は語彙話題依存度計算手段であり、７０４は
文クラスタ番号初期化手段であり、７０５はセントロイ
ドベクトル計算手段であり、７０６は文クラスタ番号決
定手段であり、７０７はクラスタリング尺度計算手段で
ある。

【００４２】７１２は、分類結果出力手段であり、７１
３は語彙分類手段であり、７１１は文ベクトル記憶手段
であり、７１０は語彙話題依存度記憶手段であり、７０
９は文クラスタ番号記憶手段であり、７０８はセントロ
イドベクトル記憶手段である。

【００４３】図４は語彙空間の分割の概念図であり、語
彙空間が話題依存語彙空間（Ｄ＋１〜Ｖ０次元）と話題
独立語彙空間（１〜Ｄ次元）に分割されている。

【００４４】図５はクラスタリング手段７で記憶される
セントロイドベクトルＦｃの構成を示す図であり、セン
トロイドベクトルＦｃは、話題独立語彙であるＦｃ
［１］〜Ｆｃ［Ｄ］と、話題依存語彙であるＦｃ［Ｄ＋
１］からＦｃ［Ｖ０］とからなる。

【００４５】図６はコーパス分割（クラスタリング）処
理の流れ図であり、コーパス分割処理は、初期分割処理
をおこなうステップＳＴ７０１及びステップＳＴ７０２
と、反復処理をおこなうステップＳＴ７０３からステッ
プＳＴ７０９とからなる。

【００４６】次に、この実施の形態１のクラスタリング
手段７の動作について説明する。まず、クラスタリング
の基本概念を図４を参照して以下に説明する。ここで
は、１つの文は１つの話題に属すると仮定する。さら
に、１つの文には話題依存の語彙と話題独立の語彙が混
在すると仮定する。図４の外側の大きな領域が語彙全体
が張る空間を表し、内側の斜線部分が話題共通の語彙が
張る空間を表す。このような語彙の張る空間で、クラス
タ１〜クラスタＣの各クラスタの話題独立語彙は、共通
する話題独立語彙空間内に含まれ、各クラスタの話題依
存語彙は話題依存語彙空間内に含まれるようになってい
ると考える。

【００４７】クラスタリング手段７は、コーパス記憶手
段６に記憶されたコーパスをこのように分割された語彙
の空間内に含まれるクラスタ１からクラスタＣに対応す
る小コーパス６１−１〜小コーパス６１−Ｃに分割す
る。このような分割により、話題カバー率が高く、それ
ぞれの間では語彙の分離度が高い、クラスタ１〜クラス
タＣに対応する小コーパス６１−１〜小コーパス６１−
Ｃからなる小コーパス群６１を作成する。

【００４８】言語モデル生成手段７２は、このような小
コーパス群から探索空間が小さい要素言語モデル群３２
を生成する。なお、ここでは、語彙が張る空間として説
明したが、文中の語彙の組が張る空間としても同様の効
果を奏する。

【００４９】次にクラスタリングアルゴリズムについて
説明する。上記の概念に基づき、学習データ全体（コー
パス）を所定のＣ個のクラスタに分類するため、次のよ
うなＫ−ｍｅａｎｓアルゴリズムを用いる。（Ｓ１）各文にランダムにＣ個のクラスを割当て初期ク
ラスを作る。（Ｓ２）全文について、後述するクラスタリングの尺度
が最大となるクラスタを選択し、それをその文の新しい
クラスとする。（Ｓ３）Ｓ２の結果に基づいて、新しいクラスタを作
る。（Ｓ４）Ｓ２〜Ｓ３を所定の回数繰り返す。

【００５０】文クラスタ番号．上記クラスタリングを実
行するため、コーパス６中の各文ｓ（ｓ∈｛１，…，
Ｓ｝）について、各文ｓのクラスタ番号である文クラス
タ番号ｃ［ｓ］を文クラスタ番号記憶手段７０９（図
３）に記憶する。ここで、Ｓはコーパス全体の文の総数
である。

【００５１】文クラスタ番号初期化．文クラスタ番号初
期化手段７０４（図３）は、１から所定のクラスタ数Ｃ
までの一様乱数を生成し、各文ｓにランダムに文のクラ
スタ番号ｃ［ｓ］を与える。セントロイドベクトル計算
手段７０５（図３）は、各文ｓのクラス番号ｃ［ｓ］を
参照して、クラスｃの文を選択して、選択されたクラス
ｃの文について、次の構成のセントロイドベクトルを生
成する。

【００５２】セントロイドベクトルの構成．セントロイ
ドベクトルＦｃは、図５のように構成され、一つのクラ
スタから一つのセントロイドベクトルが作成される。次
に、セントロイドベクトルの構成について説明する。

【００５３】コーパスの異なり語彙数をＶ０として、全
文の全語彙に番号ｖ∈｛１，…，Ｖ０｝を付ける。各ク
ラスタに属する全文について語彙の頻度を求め、番号ｖ
の語彙の頻度を第ｖ次元の値とするＶ０次元のベクトル
を構成し、これをクラスタｃ∈｛１，…，Ｃ｝のセント
ロイドベクトルＦｃとする。

【００５４】ここで、語彙の番号は、語彙の話題独立度
の高さの降順につけてあり、セントロイドベクトルＦｃ
の低次Ｄ次元までの語彙を全クラスタ共通の話題独立の
語彙として扱う。

【００５５】なお、語彙の話題独立度の高さは、次に説
明する語彙話題依存度計算手段７０３（図３）によっ
て、語彙話題依存度記憶手段７１０（図３）に記憶され
ている。

【００５６】語彙話題依存度．語彙話題依存度計算手段
７０３は、全コーパス中の語彙の頻度を求め、頻度の高
い語彙を話題とは独立である、すなわち、話題依存度が
低いとし、頻度の比較的低い語彙を話題に依存する語彙
である、すなわち、話題依存度が高いとして、話題依存
度を語彙話題依存度記憶手段７１０（図３）に記憶す
る。なお、語彙の話題独立度の決定については、後述の
他の実施の形態によるものであってもよい。

【００５７】学習テキスト文ベクトル変換手段７０２
は、コーパス中の各文ｓについて、次の構成の文ベクト
ルＦｓを生成し、文ベクトル記憶手段７１１に記憶す
る。

【００５８】文ベクトルの構成．文ｓの文ベクトルＦｓ
（ｓ∈｛１，…，Ｓ｝）は、セントロイドベトクルと同
様の構成を有する。ただし、各次元は、文中の語彙の頻
度である。

【００５９】クラスタリング尺度計算手段７０７（図
３）は、文ベクトルＦｓとセントロイドベクトルＦｃと
から、文ｓがクラスタｃに属する度合いとして次のよう
なクラスタリング尺度を計算する。

【００６０】クラスタリング尺度．クラスタリング尺度
Ｍｃ（ｓ）は、文ベクトルＦｓとセントロイドベクトル
Ｆｃとの類似度として、次式のような対数確率で表され
る。Ｌ（Ｆｓ，Ｆｃ）＝Σ（ｖ＝１，Ｖ０）Ｆｓ［ｖ］・ｌｏｇ（Ｆｃ[ｖ]/Ｆ０［ｃ］）（１）

【００６１】ここで、関数Σは次の式により定義され
る。 Σ（ｉ＝１，ｎ）Ｘ（ｉ）＝Ｘ（１）＋Ｘ（２）＋・・
・＋Ｘ（ｎ）

【００６２】また、Ｆ０［ｃ］は次式で計算されるクラ
スタｃ内の語彙の総頻度である。Ｆ０［ｃ］＝Σ（ｖ＝１，ｖ０）Ｆｃ［ｖ］

【００６３】ここで、Ｌ（Ｆｓ，Ｆｃ）は文ベクトルＦ
ｓとセントロイドベクトルとの類似度、Ｆｓ［ｖ］は文
ベクトルＦｓのｖ次元の値、Ｆｃ［ｖ］はセントロイド
ベクトルＦｃのｖ次元の値である。また、上式で対数計
算を省いた次式のような(頻度重み付き)ヒット率とする
こともできる。Ｌ（Ｆｓ，Ｆｃ）＝Σ（ｖ＝１，Ｖ０）Ｆｓ［ｖ］(Ｆｃ[ｖ]/Ｆ０［ｃ］) （２）

【００６４】文クラス番号再決定．文クラスタ番号決定
手段７０６（図３）は、文ｓについて、クラスタｃとの
例えば式（１）のクラスタリング尺度Ｍｃ（ｓ）を参照
して、最大のクラスタリング尺度を有するクラスタｃｍ
ａｘを決定し、文ｓのクラスタをｃｍａｘに変更する。

【００６５】上述したように、図６は、この実施の形態
１のクラスタリング処理を表す流れ図である。

【００６６】図６のステップＳＴ７０１では、一様乱数
を用いて１からＣの何れかのクラスタ番号ｃ（ｓ）を文
例１から文例Ｓにランダムに割り当てる。このステップ
ＳＴ７０１の処理は、上記の「文クラスタ番号の初期
化」に対応する。

【００６７】ステップＳＴ７０２では、反復回数を表す
変数ｉを０とする。

【００６８】ステップＳＴ７０３では、クラスｃのセン
トロイドベクトルＦｃをクラス１からクラスＣについて
求める。このステップＳＴ７０３は、上記の「セントロ
イドベクトルの構成」に対応する。

【００６９】ステップＳＴ７０４では、コーパスから文
例ｓを選択する。

【００７０】ステップＳＴ７０５では、文ｓについてク
ラスタリングの尺度Ｍｃ（ｓ）をクラス１からクラスＣ
について求める。このステップＳＴ７０５は、上記の
「クラスタリング尺度」に対応する。

【００７１】ステップＳＴ７０６では、クラスタリング
尺度Ｍｃ（ｓ）が最大であるクラスタｃを選択して、文
ｓのクラスタとする。このステップＳＴ７０６は、上記
の「文クラス番号再決定」に対応する。

【００７２】ステップＳＴ７０７では、全ての文（文
例）について、ステップＳＴ７０４からステップＳＴ７
０６での処理が行われたか否かを判定し、行われた場合
には、ステップＳＴ７０８に進み、行われていない場合
には、ステップＳＴ７０４に進む。

【００７３】ステップＳＴ７０８では、反復回数を表す
変数ｉを１増加する。

【００７４】ステップＳＴ７０９では、変数ｉの値が所
定の反復回数に達したか否かを判定し、達した場合には
この処理を終了し、達していない場合にはステップＳＴ
７０３に進む。

【００７５】つぎに、文例を用いて、この実施の形態１
のクラスタリング手段７の作用を説明する。

【００７６】図２に示した４つの文例「文例１：扁桃腺
の炎症は、悪化している。」、「文例
２：胸部のＸ線画像から、横隔膜の癒
着が見られる。」、「文例３：胸部横隔膜の
癒着が見られる。」および「文例４：胸部
の横隔膜が癒着している。」を含むコーパ
スについて、この実施の形態１の効果を説明する。

【００７７】手順１．コーパス全体の異なり語彙を求め
る。文例１〜文例４に含まれる語彙と頻度を頻度の大き
い方から並べると、図７のようになる。なお、文例の数
によって、語彙と頻度は変化し、さらに頻度の順番も変
化するが、ここでは、コーパスに３つの文例しかないと
して説明する。

【００７８】図７から、コーパス全体の異なり語彙数Ｖ
０は、１９となる。従って，文ベクトル、セントロイド
ベクトルは１９次元のベクトルとなり、各次元は各語彙
に対応した値となる。

【００７９】手順２．文例１〜文例４の文ベクトルは各
文例に現れる語彙の頻度として定義される。したがっ
て、文例１から文例４の文ベクトルは、それぞれ、図８
から図１１のようになる。なお、各図右半分には参考と
して図７と同内容を示してある。

【００８０】手順３．コーパスを２つのクラスタに分割
する場合、ランダムに２つのクラスタに分割する。ここ
では、図１２に示すように、文例１および文例３はクラ
スタ１に、文例２および文例４はクラスタ２に、それぞ
れ、属したとする。

【００８１】各クラスタのセントロイドベクトルは、各
クラスタに属する文例全体の異なり語彙数を各次元の値
としたベクトルなので、この場合、各クラスタのセント
ロイドベクトルは、図１３および図１４のようになる。
なお、コーパスが少ないので、各次元にはα（＝１とす
る）を加えて、値が０とならないようにしている。

【００８２】手順４．各セントロイドベクトルと各文の
ベクトルの類似度Ｌ（Ｆｓ、Ｆｃ）を計算する。

【００８３】まず、クラスタ内の異なり語彙数は、次の
ようになる。Ｆ０［ｃ１］＝Σ（ｖ＝１，１９）Ｆｃ１［ｖ］＝２×３＋１×１３＋１９×α（＝１）＝１９＋１９

【００８４】Ｆ０［ｃ２］＝Σ（ｖ＝１，１９）Ｆｃ２［ｖ］＝３×１＋２×６＋１×８＋１９×α（＝１）＝２３＋１９

【００８５】したがって、各文とクラスタ１のセントロ
イドベクトルとの類似度は次のようになる。

【００８６】Ｌ（Ｆｓ１，Ｆｃ１）＝Σ（ｖ＝１，１９）Ｆｓ１［ｖ］ｌｏｇ（Ｆｃ１［ｖ］／Ｆ０［ｃ１］）＝−１２．２５９

【００８７】Ｌ（Ｆｓ２，Ｆｃ１）＝Σ（ｖ＝１，１９）Ｆｓ２［ｖ］ｌｏｇ（Ｆｃ１［ｖ］／Ｆ０［ｃ１］）＝−１８．１０１

【００８８】Ｌ（Ｆｓ３，Ｆｃ１）＝Σ（ｖ＝１，１９）Ｆｓ３［ｖ］ｌｏｇ（Ｆｃ１［ｖ］／Ｆ０［ｃ１］）＝−１０．９８１

【００８９】Ｌ（Ｆｓ４，Ｆｃ１）＝Σ（ｖ＝１，１９）Ｆｓ４［ｖ］ｌｏｇ（Ｆｃ１［ｖ］／Ｆ０［ｃ１］）＝−１０．９８１

【００９０】同様に、各文とクラスタ２のセントロイド
ベクトルとの類似度は次のようになる。

【００９１】Ｌ（Ｆｓ１，Ｆｃ２）＝Σ（ｖ＝１，１９）Ｆｓ１［ｖ］ｌｏｇ（Ｆｃ２［ｖ］／Ｆ０［ｃ２］）＝−１３．７７３

【００９２】Ｌ（Ｆｓ２，Ｆｃ２）＝Σ（ｖ＝１，１９）Ｆｓ２［ｖ］ｌｏｇ（Ｆｃ２［ｖ］／Ｆ０［ｃ２］）＝−１６．８５２

【００９３】Ｌ（Ｆｓ３，Ｆｃ２）＝Σ（ｖ＝１，１９）Ｆｓ３［ｖ］ｌｏｇ（Ｆｃ２［ｖ］／Ｆ０［ｃ２］）＝−１０．５４２

【００９４】Ｌ（Ｆｓ４，Ｆｃ２）＝Σ（ｖ＝１，１９）Ｆｓ４［ｖ］ｌｏｇ（Ｆｃ２［ｖ］／Ｆ０［ｃ２］）＝−１０．５４２

【００９５】手順５．上記の類似度を比較すると、Ｌ（Ｆｓ１，Ｆｃ１）＝−１２．２５９＞Ｌ（Ｆｓ１，Ｆｃ２）＝−１３．７７３Ｌ（Ｆｓ２，Ｆｃ１）＝−１８．１０１＜Ｌ（Ｆｓ２，Ｆｃ２）＝−１６．８５２Ｌ（Ｆｓ３，Ｆｃ１）＝−１０．９８１＜Ｌ（Ｆｓ３，Ｆｃ２）＝−１０．５４２Ｌ（Ｆｓ４，Ｆｃ１）＝−１０．９８１＜Ｌ（Ｆｓ４，Ｆｃ２）＝−１０．５４２となり、各文は図１５に示すようにクラスタに分類され
る。

【００９６】手順６．上記の結果から２回目の繰返しに
おけるセントロイドベクトルを求めると図１６及び図１
７のようになる。

【００９７】手順７．図１６に示されたセントロイドベ
クトルＦｃ１及び図１７に示されたセントロイドベクト
ルＦｃ２と、各文ベクトルＦｓ１からＦｓ４との類似度
を計算すると次のようになる。Ｌ（Ｆｓ１，Ｆｃ１）＝−１１．６１４Ｌ（Ｆｓ２，Ｆｃ１）＝−１８．９６８Ｌ（Ｆｓ３，Ｆｃ１）＝−１２．２５８Ｌ（Ｆｓ４，Ｆｃ１）＝−１１．６５６Ｌ（Ｆｓ１，Ｆｃ２）＝−１４．６１６Ｌ（Ｆｓ２，Ｆｃ２）＝−１６．８０３Ｌ（Ｆｓ３，Ｆｃ２）＝−１０．０７１Ｌ（Ｆｓ４，Ｆｃ２）＝−１１．４７７

【００９８】手順８．上記類似度の比較をすると、Ｌ（Ｆｓ１，Ｆｃ１）＝−１１．６１４＞Ｌ（Ｆｓ１，Ｆｃ２）＝−１４．６１６Ｌ（Ｆｓ２，Ｆｃ１）＝−１８．９６８＜Ｌ（Ｆｓ２，Ｆｃ２）＝−１６．８０３Ｌ（Ｆｓ３，Ｆｃ１）＝−１２．２５８＜Ｌ（Ｆｓ３，Ｆｃ２）＝−１０．０７１Ｌ（Ｆｓ４，Ｆｃ１）＝−１１．６５６＜Ｌ（Ｆｓ４，Ｆｃ２）＝−１１．４７７

【００９９】したがって、各文は図１８に示すように分
類される。

【０１００】以下、所定の回数（例えば２０回）だけ反
復するが、クラスタの分類は変化しない。

【０１０１】手順９．これで、コーパスの分割を終了す
る。

【０１０２】このようなコーパスに対して、本実施形態
のクラスタリング手段７は、文例１の語彙を全て含むよ
うに、小コーパス１を作成し、その結果、小コーパス１
には、語彙として、「語彙：扁桃腺の炎症は悪
化している、。」が含まれる。また、文例２の
語彙を全て含むように、小コーパス２を作成し、その結
果、小コーパス２には、語彙として、「語彙：胸部の
Ｘ線画像から横隔膜癒着が見られる、
。」が含まれる。

【０１０３】一方、従来のコーパス全体から言語モデル
を作成する場合、コーパスには、語彙として、「語彙：
扁桃腺の炎症は悪化している胸部Ｘ線
画像から横隔膜癒着が見られる、
。」が含まれ、言語処理の探索空間（＝語彙の組み合
わせ）が大きいため、計算量が急激に増加する。従っ
て、この実施の形態１のクラスタリング手段７を用いる
と、小コーパスから得られる要素言語モデルを用いた言
語処理（＝単語列探索）の探索空間（＝語彙の組み合わ
せ）が小さいため、計算量は少なく、要素言語モデルを
複数探索しても、全体の処理量は小さくすることができ
る。また、「胸部の扁桃腺」などの誤認識を防止する効
果がある。

【０１０４】以上説明したように、この実施の形態１の
言語モデル構成装置は、複数の文からなるコーパスを記
憶するコーパス記憶手段６と、コーパス中の各文を分類
し、この分類に従ってコーパス中の文を複数のクラスタ
に分割して小コーパス６１−１〜６１−Ｃからなる小コ
ーパス群６１を生成するクラスタリング手段７と、クラ
スタリング手段７により生成された小コーパス内の文に
基づいて小コーパスごとに要素言語モデル３２−１〜３
２−Ｃからなる要素言語モデル群３２を生成する言語モ
デル生成手段７２とを備え、クラスタリング手段７は、
小コーパス内の文に含まれる語彙あるいは語彙の組の頻
度情報を含むセントロイドベクトルを計算するセントロ
イドベクトル計算手段７０５と、小コーパス内の各文の
語彙あるいは語彙の組みの頻度情報を含む文ベクトルと
セントロイドベクトル計算手段７０５が計算した各小コ
ーパスのセントロイドベクトルとの間の演算によって文
と各セントロイドベクトルとの類似度を計算するクラス
タリング尺度計算手段７０７と、クラスタリング尺度計
算手段７０７が計算した類似度に基づいて各文の所属ク
ラスタを決定する文クラスタ番号決定手段７０６とを備
えたものである。

【０１０５】また、この実施の形態１の言語モデル構成
装置は、単一のｎ−ｇｒａｍ言語モデルを用いる場合で
は事実上不可能であった、広い範囲の話題を対象とする
音声認識において、言語処理の計算量が語彙数と共に急
激に増加せず、効率的な音声認識が可能である。また、
認識結果は、要素言語モデル内の語彙接続に限定される
ため、認識精度が向上する。

【０１０６】以上のように、この実施の形態１によれ
ば、コーパスを分割して複数の小コーパスからなる小コ
ーパス群を生成したので、単一のｎ−ｇｒａｍ言語モデ
ルを用いる場合では事実上不可能であった、広い範囲の
話題を対象とする音声認識において、言語処理の計算量
が語彙数と共に急激に増加せず、効率的な音声認識が可
能である効果が得られる。また、認識結果は、要素言語
モデル内の語彙接続に限定されるため、認識精度が向上
する効果が得られる。

【０１０７】実施の形態２．この実施の形態２では、実
施の形態１の言語モデル構成装置において、クラスタリ
ング手段７は、さらに、各文の語彙を話題独立語彙と話
題依存語彙とに分類する語彙話題依存度計算手段７０３
を含み、セントロイドベクトル計算手段７０５は、セン
トロイドベクトルの次元として、語彙話題依存度計算手
段７０３が計算した分類に基づき、各小コーパスで共通
の値を話題共通語彙に対応する各次元とし、各小コーパ
スの文の語彙あるいは語彙の組みの頻度情報を話題依存
語彙に対応する各次元としたセントロイドベクトルを計
算するものである。

【０１０８】この実施の形態２の語彙話題依存度計算手
段７０３は、たとえば、所定の語彙分類テーブルを参照
することで、また、コーパス中の語彙の出現傾向から語
彙の話題依存度を計算することで、その処理を実施する
ことができる。後者のコーパス中の語彙の出現傾向から
語彙の話題依存度の計算は、実施の形態１では、コーパ
スの語彙出現頻度から語彙の話題依存度を計算し、頻度
の高い語彙ほど話題共通性が高く頻度の低い語彙ほど話
題依存度が高いとした。また、前者の所定の語彙分類テ
ーブルの参照は、人手で作成した語彙分類テーブルとし
て、一般的な用語は話題独立性が高く、一般以外の用語
は専門語である可能性が高く話題依存性が高いとするこ
とで実施することができる。なお、この実施の形態２に
ついての説明では、語彙の出現頻度を用いた場合につい
て説明したが、文中の語彙の組の出現頻度を用いた場合
も同様の効果を奏する。

【０１０９】以上のように、この実施の形態２によれ
ば、各小コーパスで共通の値を話題共通語彙に対応する
各次元とし、各小コーパスの文の語彙あるいは語彙の組
みの頻度情報を話題依存語彙に対応する各次元としたセ
ントロイドベクトルを計算するようにしたので、生成さ
れた各小コーパスが、互いに重複した語彙の少ない独立
度の高いものとなり、言語処理の計算量が語彙数と共に
急激に増加せず、効率的な音声認識が可能である効果が
得られる。

【０１１０】実施の形態３．この実施の形態３では、実
施の形態２の言語モデル構成装置において、語彙話題依
存度計算手段７０３は、各文の語彙のうち助詞、助動詞
を含む所定の品詞の語彙を話題独立語彙とするものであ
る。

【０１１１】形態素解析の結果、文中の語彙について、
図２の各文例の語彙の［］内に示すように、各語彙の品
詞が副産物として得られる。この実施の形態３は、この
ように助詞や助動詞とされた語彙は話題に依存する情報
をほとんど有していないという直感から、これらの語彙
を話題独立語彙としたものである。一方、名詞や動詞と
された語彙は話題を表しているという直感から、話題に
依存する語彙であるとしたものである。また、未定義語
は業務特有の用語や固有名詞であるので、話題依存度の
高い語彙である可能性が高いので、話題依存語彙とする
ことができる。

【０１１２】この実施の形態３では、形態素解析におけ
る副産物である語彙の品詞を用いることができるという
効果を有する。なお、ここでは、語彙として説明した
が、文中の語彙の組としても同様の効果を奏する。

【０１１３】以上のように、この実施の形態３によれ
ば、各文の語彙のうち助詞、助動詞を含む所定の品詞の
語彙を話題独立語彙とするようにしたので、セントロイ
ドベクトルの各次元の決定において、話題独立語彙と話
題依存語彙とを判定するための基準を新たに必要とせ
ず、判定が明確かつ容易となる効果が得られる。

【０１１４】実施の形態４．この実施の形態４は、実施
の形態２で述べた言語モデル構成装置において、語彙話
題依存度計算手段７０３は、各文の語彙のうちコーパス
内の出現頻度の大きいものから所定の個数までを話題独
立語彙としたものである。

【０１１５】この実施の形態４では、コーパスから自動
的に話題独立度が得られるという効果を有する。なお、
ここでは、各文の語彙として説明したが、各文の語彙の
組としても同様の効果を奏する。

【０１１６】以上のように、この実施の形態４によれ
ば、各文の語彙のうちコーパス内の出現頻度の大きいも
のから所定の個数までを話題独立語彙としたので、コー
パスから自動的に話題独立度が得られるという効果が得
られる。

【０１１７】実施の形態５．この実施の形態５は、実施
の形態２で述べた言語モデル構成装置において、語彙話
題依存度計算手段７０３は、各文の語彙のうち助詞、助
動詞を含む所定の品詞の語彙と、所定の品詞の語彙以外
の語彙のうちコーパス内の出現頻度の大きいものから所
定の個数までを話題独立語彙としたものである。

【０１１８】この実施の形態５は、まず、助詞や助動詞
などの品詞の語彙は、話題独立語とする。つぎに、品詞
により話題依存語とされた語彙についてだけ、コーパス
における語彙の出現頻度を求め、比較的頻度の高い語彙
は話題独立語とし、比較的頻度の低い語彙を話題依存語
とするものである。

【０１１９】この実施の形態５によれば、実施の形態３
と実施の形態４の特徴の両方を併せ持つという効果を有
する。なお、ここでは、各文の語彙として説明したが、
各文の語彙の組としても同様の効果を奏する。

【０１２０】以上のように、この実施の形態５によれ
ば、助詞や助動詞などの品詞の語彙は、話題独立語と
し、品詞により話題依存語とされた語彙についてだけ、
コーパスにおける語彙の出現頻度を求め、比較的頻度の
高い語彙は話題独立語とし、比較的頻度の低い語彙を話
題依存語としたので、セントロイドベクトルの各次元の
決定において、話題独立語彙と話題依存語彙とを判定す
るための基準を新たに必要とせず、判定が明確かつ容易
となり、コーパスから自動的に話題独立度が得られると
いう効果が得られる。

【０１２１】実施の形態６．この実施の形態６は、実施
の形態１の言語モデル構成装置において、クラスタリン
グ手段７は、さらに、コーパス内の語彙を分類する語彙
分類手段７１３を含み、セントロイドベクトル計算手段
７０５は、各次元は各クラスタの文の語彙あるいは語彙
の組みの頻度情報を語彙分類手段７１３が分類した語彙
の分類内で平滑化した頻度情報からなるセントロイドベ
クトルを計算するものである。

【０１２２】語彙分類手段７１３は、所定の語彙分類テ
ーブルを有して、語彙の分類を行う。セントロイドベク
トル計算手段７０５は、語彙の分類の結果同一である語
彙の次元については、頻度を平滑化した値として平均値
（＝語彙分類中の語彙の総頻度数を語彙分類中の語彙の
種類で除した値）を代入する。

【０１２３】この実施の形態６によれば、語彙の分類に
よる話題共通性を扱えるという効果を有する。なお、こ
こでは、語彙として説明したが、語彙の組としても構わ
ない。

【０１２４】以上のように、この実施の形態６によれ
ば、セントロイドベクトルの各次元が各クラスタの文の
語彙あるいは語彙の組みの頻度情報を語彙の分類内で平
滑化した頻度情報からなるようにしたので、語彙の分類
による話題共通性を扱えるという効果が得られる。

【０１２５】実施の形態７．この実施の形態７は、実施
の形態６の言語モデル構成装置において、語彙分類手段
７１３は、文書あるいは段落を含む所定の相互に関連づ
けられた文セットに含まれる文の語彙あるいは語彙の組
を同じ分類に分類するものである。

【０１２６】この実施の形態７によれば、コーパスにお
ける文の出現位置が近いものは同じ話題に属するという
直感を生かした話題の共通性を扱えるという効果を有す
る。なお、ここでは、語彙として説明したが、語彙の組
としても構わない。

【０１２７】以上のように、この実施の形態７によれ
ば、文書あるいは段落を含む所定の相互に関連づけられ
た文セットに含まれる文の語彙あるいは語彙の組を同じ
分類に分類するようにしたので、コーパスにおける文の
出現位置が近いものは同じ話題に属するという直感を生
かした話題の共通性を扱えるという効果が得られる。

【０１２８】実施の形態８．図１９は、この発明の実施
の形態８を示すブロック構成図である。図１９におい
て、７３はクラスタ数制御手段であり、７４はクラスタ
語彙数計算手段であり、７５は探索空間推定手段であ
り、７６は最適クラスタ数決定手段である。

【０１２９】この実施の形態８は、複数の文からなるコ
ーパスを記憶するコーパス記憶手段６と、コーパス中の
各文を分類し、この分類に従ってコーパス中の文を複数
のクラスタに分割して小コーパス６１−１〜６１−Ｃか
らなる小コーパス群６１を生成するクラスタリング手段
７と、クラスタリング手段７により生成された小コーパ
ス内の文に基づいて小コーパスごとに要素言語モデル３
２−１〜３２−Ｃからなる要素言語モデル群３２を生成
する言語モデル生成手段７２と、クラスタ数を所定の範
囲で指定するクラスタ数制御手段７３と、クラスタリン
グの結果得られる各小コーパス内の語彙数を計算するク
ラスタ語彙数計算手段７４と、クラスタ数制御手段７３
の指定したクラスタ数とクラスタ語彙数計算手段７４が
計算した各小コーパスの語彙数とから探索空間の大きさ
を推定する探索空間推定手段７５と、探索空間推定手段
７５が推定した探索空間の大きさに基づいて最適なクラ
スタ数を決定する最適クラスタ数決定手段７６とを有
し、クラスタリング手段７がクラスタ数制御手段７３の
指定したクラスタ数でクラスタリングを実行するもので
ある。

【０１３０】次に動作について説明する。クラスタ数制
御手段７３は、所定の範囲でクラスタ数Ｃを指定する。
クラスタ数Ｃは、大規模なコーパスの場合、たとえば、
１０から１０００の範囲で１，２，５の系列で変化させ
る。なお、クラスタ数は、クラスタ数あたりの平均サン
プル文例数が大きいようであれば、さらに、１０００を
超えるようにすることもできる。

【０１３１】クラスタリング手段７は、たとえば、前記
各実施形態において説明した構成のクラスタリング手段
を用いることができる。

【０１３２】クラスタ語彙数計算手段７４は、クラスタ
リング手段７の出力した小コーパス群６１内の各小コー
パスに含まれる語彙数をカウントし、クラスタあたりの
平均語彙数Ｖを計算する。

【０１３３】探索空間推定手段７５は、探索空間を、ク
ラスタ数Ｃと各クラスタの語彙数Ｖｃ（ｃ∈｛１，…，
Ｃ｝）の関数を用いて求める。各クラスタの語彙数の平
均をＶとすると、探索空間と、クラスタ数Ｃ及び平均語
彙数Ｖの関係を、多数の例から求めて、これらを代表す
るように作られたモデル式に基づいて計算する。モデル
式としては、次式を用いる。Ｓ（Ｃ，Ｖ）＝Ｃ^a （Ｖ／Ｖ０）^b （３）

【０１３４】ここで、Ｖ０はコーパス６中の語彙の種類
数、ａおよびｂはモデル式（３）のパラメータであり、
多くの実例を近似するように決定された実数値である。

【０１３５】なお、モデル式（３）の関数形はこれに限
らず実例を近似するものであれば良いが、クラスタ数Ｃ
が１すなわちコーパス全体から言語モデルを生成する場
合に１となるように正規化がなされている必要がある。

【０１３６】最適クラスタ数決定手段７６は、探索空間
推定手段７５が計算した探索空間の大きさとクラスタ数
の関係で、クラスタ数を２から１０００まで１，２，５
の系列で変化させたときに探索空間が最小値または所定
の値より下回ったクラス数を最適なクラス数と決定す
る。

【０１３７】以上説明したように、この実施の形態８の
言語モデル構成装置は、複数の文からなるコーパスを記
憶するコーパス記憶手段６と、コーパス中の各文を分類
し、この分類に従って上記コーパス中の文を複数のクラ
スタに分割して小コーパス６１−１〜６１−Ｃからなる
小コーパス群６１を生成するクラスタリング手段７と、
クラスタリング手段７により生成された小コーパス内の
文に基づいて小コーパスごとに要素言語モデル３２−１
〜３２−Ｃからなる要素言語モデル群３２を生成する言
語モデル生成手段７２と、クラスタ数を所定の範囲で指
定するクラスタ数制御手段７３と、クラスタリングの結
果得られる各小コーパス内の語彙数を計算するクラスタ
語彙数計算手段７４と、クラスタ数制御手段７３の指定
したクラスタ数とクラスタ語彙数計算手段７４が計算し
た各小コーパスの語彙数とから探索空間の大きさを推定
する探索空間推定手段７５と、探索空間推定手段７５が
推定した探索空間の大きさに基づいて最適なクラスタ数
を決定する最適クラスタ数決定手段７６とを有し、クラ
スタリング手段７が上記クラスタ数制御手段７３の指定
したクラスタ数でクラスタリングを実行するものであ
る。

【０１３８】以上のように、この実施の形態８によれ
ば、探索空間の大きさとクラスタ数の関係で、探索空間
が最小値または所定の値より下回ったクラス数を最適な
クラス数として決定するようにしたので、大規模なコー
パスの場合にも効率的な音声認識が可能である効果が得
られる。

【０１３９】実施の形態９．この実施の形態９は、入力
される文の音声信号に基づいて、所定の統計的言語モデ
ルを用いて音声認識する音声認識装置において、単語列
探索手段として、実施の形態１〜実施の形態８で説明し
た言語モデル構成装置が構成した要素言語モデルのいず
れをも参照して並列的に仮説展開を実行する単語列探索
手段としたものである。

【０１４０】この実施の形態９の音声認識装置の構成は
図１と同様である。

【０１４１】次に動作について説明する。基本記号列認
識手段４１ａは、音響モデル２１を参照して音節認識を
行い基本記号列として音節系列候補を求める。単語列探
索手段４３ａは基本記号列認識手段４１ａが求めた音節
系列候補に対して差分モデル４４および要素言語モデル
群３２内の要素言語モデル３２−１〜３２−Ｃを参照し
て、単語列探索を行う。ここで、単語列探索の目的は、
要素言語モデルのいずれかを用いたときに最大の尤度を
有する単語列を効率的に探索することである。この目的
のため、単語列探索手段４３ａは、要素言語モデルに対
応する数だけの単語列仮説を保持するスタック群を有
し、入力の音節系列に対して、各スタックに格納されて
いる評価値最大の仮説のうちさらにスタック群の中で最
大の評価値を有する仮説を優先的に展開する。すなわ
ち、各スタックには、複数の仮説が記憶（保持）されて
いて、スタック毎に評価値が最大の仮説を選択し、さら
に選択された各スタックからの仮説のうち最大の評価値
を有する仮説を優先的に展開する。また、仮説とは、入
力の音節系列に対して、その音節系列が表していると思
われる文（＝単語列）のことで、たとえば、入力の音節
系列が「センコウスル」であった場合、仮説としては
「選考する」「専攻する」などの文が対応する。

【０１４２】このように複数のスタック群を用いて評価
値が最大の仮説を展開するため、従来要素言語モデルご
とに単語列を探索してその結果として得られる要素言語
モデルごとの尤度を比較し最大の尤度を有する単語列を
認識結果５として選択しているよりも、大幅に計算量が
少なく、効率的に目的の単語列を探索することができ
る。

【０１４３】以上説明したように、この実施の形態９の
音声認識装置は、音声１を取り込む音声入力手段２と、
音声入力手段２で取り込まれた音声１を単語列に変換し
認識結果５を作成する音声文字変換手段４と、実施の形
態１乃至実施の形態８のうちのいずれかの言語モデル構
成装置が構成した要素言語モデルを参照して並列的に仮
説展開を実行する単語列探索手段とを有するものであ
る。

【０１４４】以上のように、この実施の形態９によれ
ば、複数のスタック群を用いて評価値が最大の仮説を展
開するようにしたので、従来要素言語モデルごとに単語
列を探索してその結果として得られる要素言語モデルご
との尤度を比較し最大の尤度を有する単語列を認識結果
として選択しているよりも、大幅に計算量が少なく、効
率的に目的の単語列を探索することができる効果が得ら
れる。

【０１４５】実施例．この発明の発明者は、前記実施の
形態の言語モデル構成装置の効果を確認するため、評価
実験を行った。実験で用いたコーパスは、新聞記事の９
４年１月から９月を学習用とし、１０月から１２月を評
価用とした。含まれる文の数および語彙数を表１に示
す。全期間の異なり語彙数Ｖ０は３４９，５８０(学習
用のみでは３００，０３４)であった。

【０１４６】

【表１】

【０１４７】ここでは、認識系として、公知の音節認識
を行い音節系列候補を求める１段階と、音節系列候補に
対して単語列探索を行う２段階探索法（阿部芳春，伍井
啓恭，丸田裕三，中島邦男，「認識誤り傾向の確率モデ
ルを用いた2段階探索法による大語彙連続音声認識」電
子情報通信学会論文誌Ｖｏｌ．Ｊ８３−Ｄ−ＩＩ，Ｎ
ｏ．１２，ｐｐ．２５４５−２５５３（２０００−１
２）を用いる場合を想定する。この場合、２段目のみで
言語モデルが用いられ、言語モデルは２段目の探索空間
に影響を与える。

【０１４８】言語モデルとして話題分割モデルを用いる
場合の探索空間の（相対的な）大きさを要素言語モデル
の平均語彙サイズＶと要素言語モデルの数Ｃ（＝クラス
タ数）の関数Ｓ（Ｃ，Ｖ）で近似し、つぎのような関係
が成立する(ような探索アルゴリズムが存在する）と仮
定する。

【０１４９】Ｓ（Ｃ，Ｖ）＝Ｃ^a （Ｖ／Ｖ０）^b （３’）ここで、ａ＝１／２かつｂ＝３／２

【０１５０】結果．表２にクラスタリングの繰返し回数
と全クラスタの語彙数を平均した平均語彙数の関係を示
す。

【０１５１】各クラスタの語彙数は、カウントが１以上
の語彙数とした。式（１）の尺度を用いる場合、ランダ
ムに文のクラスを決定した初期値（繰返し回数０）か
ら、繰返し回数の増大とともに、平均語彙数が単調減少
しており、文クラスタリングにより文間の語彙の共通性
が補足されていると推察される。式（２）の尺度を用い
る場合、平均語彙数の収束は不安定で、語彙数標準偏差
で示されるように、クラスタ間の語彙数のばらつきが大
きい。以下の実験では、収束結果の良かった尺度の式
（１）を用いた。

【０１５２】

【表２】

【０１５３】次に、繰返しを２０回として、クラスタ数
Ｃ、話題独立度の高い語彙の次元数Ｄを変化させ、平均
語彙数Ｖ、探索空間の大きさの指標Ｓ（Ｃ，Ｖ）式
（３’）、及び評価文の文単位のヒット率（１文中の全
語彙が特定の１クラスタに含まれる率）を求めた。語彙
の番号は、コーパス中の出現頻度の降順につけて、高頻
度語彙を話題独立度の高い語彙として扱った。結果を表
３に示す。

【０１５４】

【表３】

【０１５５】検討．クラスタ数Ｃの増大と共に式
（３’）に基づく探索空間の大きさに減少傾向が見られ
る。しかし、同時に評価文に対する文単位のヒット率は
低下している。

【０１５６】また、話題独立語彙の次元数Ｄの増大と共
に、探索空間は若干増加している。しかし、文単位のヒ
ット率は僅かであるが向上している。具体的には、表３
で、例えば、クラスタ数Ｃが２００の場合について、各
話題独立次元数Ｄにおける文単位ヒット率を比較する
と、Ｄ＝０のときのヒット率は０．４８２９６、Ｄ＝５
００のときのヒット率は０．４８４２０、Ｄ＝２０００
のときのヒット率は０．４８４５０、Ｄ＝５０００のと
きのヒット率は０．５００７１というように、Ｄの増加
とともにヒット率が向上している。

【０１５７】このように、広い話題を含むコーパスか
ら、話題分割言語モデルを作成するためのクラスタリン
グの尺度として、各クラスタが話題独立部分と話題依存
部分とを有し、話題依存部分についての文単位の類似度
に基づいて、探索空間の大きさを考慮して、コーパスを
分割することにより、新聞記事を用いた実験で、話題分
割言語モデルに対する探索空間の大きさを式（３’）の
ように仮定したとき、評価文の文単位カバー率の低下を
許せば、探索空間の小さい言語モデルが構築できる。な
お、評価文の文単位カバー率の低下は、コーパスに含ま
れる文のサンプルを今後増大されることで、改善できる
ものと考えられる。

【０１５８】

【発明の効果】以上のように、この発明によれば、コー
パスを分割して複数の小コーパスからなる小コーパス群
を生成したので、単一のｎ−ｇｒａｍ言語モデルを用い
る場合では事実上不可能であった、広い範囲の話題を対
象とする音声認識において、言語処理の計算量が語彙数
と共に急激に増加せず、効率的な音声認識が可能である
効果が得られる。また、認識結果は、要素言語モデル内
の語彙接続に限定されるため、認識精度が向上する効果
がある。

【０１５９】この発明によれば、各小コーパスで共通の
値を話題共通語彙に対応する各次元とし、各小コーパス
の文の語彙あるいは語彙の組みの頻度情報を話題依存語
彙に対応する各次元としたセントロイドベクトルを計算
するようにしたので、生成された各小コーパスが、互い
に重複した語彙の少ない独立度の高いものとなり、言語
処理の計算量が語彙数と共に急激に増加せず、効率的な
音声認識が可能である効果がある。

【０１６０】この発明によれば、各文の語彙のうち助
詞、助動詞を含む所定の品詞の語彙を話題独立語彙とす
るようにしたので、セントロイドベクトルの各次元の決
定において、話題独立語彙と話題依存語彙とを判定する
ための基準を新たに必要とせず、判定が明確かつ容易と
なる効果がある。

【０１６１】この発明によれば、各文の語彙のうちコー
パス内の出現頻度の大きいものから所定の個数までを話
題独立語彙としたので、コーパスから自動的に話題独立
度が得られるという効果がある。

【０１６２】この発明によれば、助詞や助動詞などの品
詞の語彙は、話題独立語とし、品詞により話題依存語と
された語彙についてだけ、コーパスにおける語彙の出現
頻度を求め、比較的頻度の高い語彙は話題独立語とし、
比較的頻度の低い語彙を話題依存語としたので、セント
ロイドベクトルの各次元の決定において、話題独立語彙
と話題依存語彙とを判定するための基準を新たに必要と
せず、判定が明確かつ容易となり、コーパスから自動的
に話題独立度が得られるという効果がある。

【０１６３】この発明によれば、セントロイドベクトル
の各次元が各クラスタの文の語彙あるいは語彙の組みの
頻度情報を語彙の分類内で平滑化した頻度情報からなる
ようにしたので、語彙の分類による話題共通性を扱える
という効果がある。

【０１６４】この発明によれば、文書あるいは段落を含
む所定の相互に関連づけられた文セットに含まれる文の
語彙あるいは語彙の組を同じ分類に分類するようにした
ので、コーパスにおける文の出現位置が近いものは同じ
話題に属するという直感を生かした話題の共通性を扱え
るという効果がある。

【０１６５】この発明によれば、探索空間の大きさとク
ラスタ数の関係で、探索空間が最小値または所定の値よ
り下回ったクラス数を最適なクラス数として決定するよ
うにしたので、大規模なコーパスの場合にも効率的な音
声認識が可能である効果がある。

【０１６６】この発明によれば、複数のスタック群を用
いて評価値が最大の仮説を展開するようにしたので、従
来要素言語モデルごとに単語列を探索してその結果とし
て得られる要素言語モデルごとの尤度を比較し最大の尤
度を有する単語列を認識結果として選択しているより
も、大幅に計算量が少なく、効率的に目的の単語列を探
索することができる効果がある。

【図面の簡単な説明】

【図１】この発明の実施の形態１を示すブロック図で
ある。

【図２】この発明の実施の形態１のコーパス内の学習
用テキストの説明図である。

【図３】この発明の実施の形態１のクラスタリング手
段のブロック図である。

【図４】この発明の実施の形態１の語彙空間の分割の
概念図である。

【図５】この発明の実施の形態１のセントロイドベク
トルの構成図である。

【図６】この発明の実施の形態１のコーパス分割処理
の流れ図である。

【図７】異なり語彙と頻度を表す図である。

【図８】文例１の文ベクトルを表す図である。

【図９】文例２の文ベクトルを表す図である。

【図１０】文例３の文ベクトルを表す図である。

【図１１】文例４の文ベクトルを表す図である。

【図１２】コーパスの分割を表す図である。

【図１３】クラスタ１のセントロイドベクトルを表す
図である。

【図１４】クラスタ２のセントロイドベクトルを表す
図である。

【図１５】コーパスの分割を表す図である。

【図１６】クラスタ１のセントロイドベクトルを表す
図である。

【図１７】クラスタ２のセントロイドベクトルを表す
図である。

【図１８】コーパスの分割を表す図である。

【図１９】この発明の実施の形態８を示すブロック図
である。

【図２０】従来の音声認識装置を説明するブロック図
である。

【図２１】他の従来の音声認識装置を説明するブロッ
ク図である。

【符号の説明】

１音声、２音声入力手段、４音声文字変換手段、
５認識結果、６コーパス記憶手段、７クラスタリ
ング手段、２１音響モデル、３２要素言語モデル
群、３２−１，３２−２，３２−Ｃ要素言語モデル、
４１ａ基本記号列認識手段、４３ａ単語列探索手
段、４４差分モデル、６１小コーパス群、６１−
１，６１−２，６１−Ｃ小コーパス、７２言語モデ
ル生成手段、７３クラスタ数制御手段、７４クラス
タ語彙数計算手段、７５探索空間推定手段、７６最
適クラスタ数決定手段、７０１学習テキストバッフ
ァ、７０２学習テキスト文ベクトル変換手段、７０３
語彙話題依存度計算手段、７０４文クラスタ番号初期化
手段、７０５セントロイドベクトル計算手段、７０６
文クラスタ番号決定手段、７０７クラスタリング尺度
計算手段、７０８セントロイドベクトル記憶手段、７
０９文クラスタ番号記憶手段、７１０語彙話題依存
度記憶手段、７１１文ベクトル記憶手段、７１２分
類結果出力手段、７１３語彙分類手段。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 15/14 Ｇ１０Ｌ 3/00 ５３５Ｚ５３７Ｇ５３７Ｃ (72)発明者伍井啓恭東京都千代田区丸の内二丁目２番３号三菱電機株式会社内Ｆターム(参考） 5B091 BA03 BA19 CA05 CA24 CB12 CB24 CC04 5D015 HH00 HH23 LL09

Claims

【特許請求の範囲】

【請求項１】複数の文からなるコーパスを記憶するコ
ーパス記憶手段と、上記コーパス中の各文を分類し、この分類に従って上記
コーパス中の文を複数のクラスタに分割して小コーパス
からなる小コーパス群を生成するクラスタリング手段
と、上記クラスタリング手段により生成された上記小コーパ
ス内の文に基づいて上記小コーパスごとに要素言語モデ
ルからなる要素言語モデル群を生成する言語モデル生成
手段とを備え、上記クラスタリング手段は、上記小コーパス内の文に含まれる語彙あるいは語彙の組
の頻度情報を含むセントロイドベクトルを計算するセン
トロイドベクトル計算手段と、上記小コーパス内の各文の語彙あるいは語彙の組みの頻
度情報を含む文ベクトルと上記セントロイドベクトル計
算手段が計算した各小コーパスのセントロイドベクトル
との間の演算によって上記文と上記各セントロイドベク
トルとの類似度を計算するクラスタリング尺度計算手段
と、上記クラスタリング尺度計算手段が計算した類似度に基
づいて各文の所属クラスタを決定する文クラスタ番号決
定手段とを備えたことを特徴とする言語モデル構成装
置。
【請求項２】クラスタリング手段は、さらに、各文の
語彙を話題独立語彙と話題依存語彙とに分類する語彙話
題依存度計算手段を含み、セントロイドベクトル計算手段は、セントロイドベクト
ルの次元として、上記語彙話題依存度計算手段が計算し
た分類に基づき、各小コーパスで共通の値を話題共通語
彙に対応する各次元とし、各小コーパスの文の語彙ある
いは語彙の組みの頻度情報を話題依存語彙に対応する各
次元としたセントロイドベクトルを計算することを特徴
とする請求項１記載の言語モデル構成装置。
【請求項３】語彙話題依存度計算手段は、各文の語彙
のうち助詞、助動詞を含む所定の品詞の語彙を話題独立
語彙とすることを特徴とする請求項２記載の言語モデル
構成装置。
【請求項４】語彙話題依存度計算手段は、各文の語彙
のうちコーパス内の出現頻度の大きいものから所定の個
数までを話題独立語彙とすることを特徴とする請求項２
記載の言語モデル構成装置。
【請求項５】語彙話題依存度計算手段は、各文の語彙
のうち助詞、助動詞を含む所定の品詞の語彙と、上記所
定の品詞の語彙以外の語彙のうちコーパス内の出現頻度
の大きいものから所定の個数までを話題独立語彙とする
ことを特徴とする請求項２記載の言語モデル構成装置。
【請求項６】クラスタリング手段は、さらに、コーパ
ス内の語彙を分類する語彙分類手段を含み、セントロイドベクトル計算手段は、各次元は各クラスタ
の文の語彙あるいは語彙の組みの頻度情報を上記語彙分
類手段が分類した語彙の分類内で平滑化した頻度情報か
らなるセントロイドベクトルを計算することを特徴とす
る請求項１記載の言語モデル構成装置。
【請求項７】語彙分類手段は、文書あるいは段落を含
む所定の相互に関連づけられた文セットに含まれる文の
語彙あるいは語彙の組を同じ分類に分類することを特徴
とする請求項６記載の言語モデル構成装置。
【請求項８】複数の文からなるコーパスを記憶するコ
ーパス記憶手段と、上記コーパス中の各文を分類し、この分類に従って上記
コーパス中の文を複数のクラスタに分割して小コーパス
からなる小コーパス群を生成するクラスタリング手段
と、上記クラスタリング手段により生成された上記小コーパ
ス内の文に基づいて上記小コーパスごとに要素言語モデ
ルからなる要素言語モデル群を生成する言語モデル生成
手段と、クラスタ数を所定の範囲で指定するクラスタ数制御手段
と、クラスタリングの結果得られる各小コーパス内の語彙数
を計算するクラスタ語彙数計算手段と、上記クラスタ数制御手段の指定したクラスタ数と上記ク
ラスタ語彙数計算手段が計算した各小コーパスの語彙数
とから探索空間の大きさを推定する探索空間推定手段
と、上記探索空間推定手段が推定した探索空間の大きさに基
づいて最適なクラスタ数を決定する最適クラスタ数決定
手段とを有し、上記クラスタリング手段が上記クラスタ数制御手段の指
定したクラスタ数でクラスタリングを実行することを特
徴とする言語モデル構成装置。
【請求項９】音声を取り込む音声入力手段と、上記音声入力手段で取り込まれた音声を単語列に変換し
認識結果を作成する音声文字変換手段と、請求項１乃至請求項８記載のうちのいずれか１項記載の
言語モデル構成装置が構成した要素言語モデルを参照し
て並列的に仮説展開を実行する単語列探索手段とを有す
ることを特徴とする音声認識装置。