JP2004310199A

JP2004310199A - 文書分類方法及び文書分類プログラム

Info

Publication number: JP2004310199A
Application number: JP2003099429A
Authority: JP
Inventors: Terukazu Kanazawa; 輝一金沢; Atsushi Adachi; 淳安達
Original assignee: Individual
Current assignee: Individual
Priority date: 2003-04-02
Filing date: 2003-04-02
Publication date: 2004-11-04
Anticipated expiration: 2023-04-02
Also published as: JP3880534B2

Abstract

【課題】利用者が事前に分類を行った文書の集まりをコンピュータシステムに与えなくても、トピックによる非排他的な文書分類を行うことができるとともに、該文書分類を検索に適用しても榛索精度の向上に寄与することができる文書分類方法及び文書分類プログラムを提供する。
【解決手段】文書分類・検索装置１は、文書記憶部１１、文書分類部１２、及び文書検索部１３を備えており、文書記憶部１１に入力された複数の文書ｄ_ｊを自動的にトピックに基づいて文書分類し、該文書分類を用いて検索問い合わせｑ_ｊに応え、検索結果ａ_ｊを出力する装置である。文書分類部１２は、文書記憶部１１に検索対象の文書として記憶されている複数の文書ｄｉを重要語に基づいて分類し、さらにＲＳモデルに従ってそれぞれの文書ｄ_ｊの文書ベクトルＤ’_ｊを生成し、文書記憶部１１に生成された文書ベクトルＤ’_ｊを記憶させる。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、文書のトピックに基づいて文書を分類する文書分類方法及び文書分類プログラムに関し、特に、文書整理や文書検索に好適に利用できる文書分類方法及び文書分類プログラムに関する。
【０００２】
【従来の技術】
一般に、文書を文書内容に関するトピックに基づいて分類する場合、文書中に出現する単語の頻度に従った統計的処理が行われる。この統計的処理は、予め利用者が分類を行った文書の集まりをコンピュータシステムに与えるか否かで２つの方法に大別される。
【０００３】
利用者が予め分類を行った文書の集まりをコンピュータシステムに与える方法においては、その後、分類を行いたい文書がコンピュータシステムに入力される度に上述した出現する単語の頻度に従った統計的処理をして、既に用意された文書の集まりそれぞれとの類似度を計算し、類似度の高かった１又は複数の文書の集まりに分類される。
【０００４】
一方、分類を行った文書の集まりをコンピュータシステムに与えない方法においては、分類を行いたい文書を複数一度に入力し、汎用の文書クラスタリングのアルゴリズムを用いて分類を行う。代表的な汎用の文書クラスタリングのアルゴリズムの例を２つ挙げる。
【０００５】
（１）類似度の高い文書を集めて１つの文書の集まり（文書クラスタ）とする方法である。これは、それぞれの文書の特徴を表す文書ベクトルの位置座標がある一定の範囲内にあるものは類似しているものと考えられるので、同一の文書クラスタとみなすという方法である。この方法では、いずれの文書クラスタにも分類されない文書の存在が許容されることになる。
【０００６】
（２）すべての文書の中で類似度の最も低い文書がそれぞれ別分類となるように２分割し、これを繰り返す方法である。即ち、文書ベクトルの終点間距離が最も離れた２つを選択して、その真ん中でベクトル空間を二分するという方法である。そして、分類されたそれぞれのベクトル空間の中でさらに同様に２分割を行い、適度な大きさの文書クラスタ（文書クラスタに含まれる文書の数が適当な数）になるまでを２分割を繰り返すものである。この方法では、すべての文書がいずれかの文書クラスタに含まれる。
【０００７】
尚、この出願に関連する先行技術文献情報としては、次のものがある。
【０００８】
【非特許文献１】
ＦａｂｒｉｚｉｏＳｅｂａｓｔｉａｎｉ著，「ＡＣＭＣｏｍｐｕｔｉｎｇＳｕｒｖｅｙｓ」、Ｍａｃｈｉｎｅｌｅａｒｎｉｎｇｉｎａｕｔｏｍａｔｅｄｔｅｘｔｃａｔｅｇｏｒｉｚａｔｉｏｎ，Ｖｏ１．３４，Ｎｏ，１，ｐｐ．１−４７，２００２年刊
【０００９】
【非特許文献２】
Ｗ，Ｍ，ＳｈａｗＪｒ．，Ｒ．ＢｕｒｇｉｎａｎｄＰ．Ｈｏｗｅｌ著，「ＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇ＆Ｍａｎａｇｅｍｅｎｔ」，ＰｅｒｆｏｍａｎｃｅｓｔａｎｄａｒｄｓａｎｄｅｖａｌｕｔｉｏｎｓｉｎＩＲｔｅｓｔｃｏ１１ｅｃｔｉｏｎ：Ｃｌｕｓｔｅｒ−ｂａｓｅｄｒｅｔｒｉｅｖａｌｍｏｄｅ１ｓ，Ｖｏ１．３３，Ｎｏ．１，ｐｐ．１−１４．１９９７年刊
【００１０】
【発明が解決しようとする課題】
しかしながら、上記のような従来の文書分類方法には、以下のような課題がある。
【００１１】
（１）利用者が予め分類を行った文書の集まりをコンピュータシステムに与える方法においては、予め、利用者が分類を行った文書の集まりを用意しなければならず、導入する手間が大きい。
【００１２】
（２）また、分類を行った文書の集まりをコンピュータシステムに与えない方法においては、排他的な文書分類を行う。即ち、１つの文書は複数の文書クラスタに分類することができないため、複数のトピックに跨る文書を適切に扱うことができない。また、トピックの範囲、即ち、１つの文書クラスタに含まれる文書の数の制御が難しい。
【００１３】
（３）さらに、文書検索の対象となる文書をトピックに基づいて分類することにより検索精度を向上させようとする文書検索システムが存在するが、分類を行った文書の集まりをコンピュータシステムに与えない従来の上記分類方法は、利用者が予め分類を行った文書の集まりをコンピュータシステムに与える方法と比べて、文書検索の検索精度が著しく低い。
【００１４】
本発明は、上記の課題を解決するためになされたものであり、利用者が事前に分類を行った文書の集まりをコンピュータシステムに与えなくても、トピックによる非排他的な文書分類を行うことができるとともに、該文書分類を検索に適用しても検索精度の向上に寄与することができる文書分類方法及び文書分類プログラムを提供することを目的とする。
【００１５】
【課題を解決するための手段】
上記目的を達成するため、請求項１記載の本発明は、文書検索の検索対象として用いられる複数の文書をトピックに基づいて分類する文書分類方法であって、前記複数の文書を記憶している文書記憶手段から前記複数の文書を取得して、それぞれの文書に含まれるすべての単語の重要度を計算するステップと、前記それぞれの文書において前記単語を前記重要度の高い順に並べ替えて、重要度降順リストを作成するステップと、前記複数の文書すべての中から前記重要度に関する値に従って、ストップワードのサンプル及び前記トピックになり得る重要語のサンプルを選定するステップと、前記重要度降順リストの所定の順位以内に出現する前記ストップワードのサンプル及び前記重要語のサンプルを含む文書をそれぞれ集めたストップワード及び重要語の文書クラスタを作成し、両クラスタの文書数が同一となる前記所定の順位に基づいて重要語の最大数を決定するステップと、前記それぞれの文書の前記重要度降順リストにおいて前記重婁語の最大数の順位以内の単語をそれぞれの文書の重要語として決定し、該重要語を前記トピックとするトピック決定ステップと、前記トピックごとに該トピックを含む文書を集めて文書クラスタを作成するステップと、前記複数の文書すべての文書ベクトルを前記単語の重要度を要素して生成するステップと、前記文書クラスタの代表ベクトルを該文書クラスタに含まれる文書の文書ベクトルの平均から計算するステップと、前記それぞれの文書のトピックの個数の最小値を算出し、該最小値を前記それぞれの文書の本質的なトピック数と擬御するステップと、前記それぞれの文書ごとに前記本質的なトピック数を用いて前記それぞれの文書が所属する前記文書クラスタの代表ベクトルの平均を計算し、該平均を文書ベクトルに反映させて文書ベクトルを補正し、この補正された文書ベクトルを前記文書記憶手段に記憶するステップと、をコンピュータが実行することを要旨とする。
【００１６】
ここで、コンピュータとしては、スーパーコンピュータ、汎用コンピュータ、オフィス・コンピュータ、ワークステーション、パソコン、マイクロコンピュータ、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｃｅ）などあらゆる形態を含む。また、構成としては、一つからなる装置、分散されて複数の装置がネットワーク接続されたシステムなどのいずれの構成であっても良い。
【００１７】
請求項２記載の本発明は、請求項１記載の発明において、前記複数の文書すべての前記重要度降順リストにおいて、前記ストップワードのサンプルが出現しない順位のうち最低の値を真の重要語の最低順位として決定するステップと、前記複数の文書すべてにおいて前記真の重要語の最低順位以内の単語すべてを真の重要語とするステップと、を有し、前記トピック決定ステップは、決定された重要語のうち、さらに、前記真の重要語である単語を前記トピックとすることを要旨とする。
【００１８】
請求項３記載の本発明は、請求項１又は２記載の発明において、前記本質的なトピック数を前記複数の文書すべてについての本質的なトピック数として計算することを要旨とする。
【００１９】
請求項４記載の本発明は、文書検索の検索対象として用いられる複数の文書をトピックに基づいて分類する文書分類プログラムであって、前記複数の文書を記憶している文書記憶手段から前記複数の文書を取得して、それぞれの文書に含まれるすべての単語の重要度を計算するステップと、前記それぞれの文書において前記単語を前記重要度の高い順に並べ替えて、重要度降順リストを作成するステップと、前記複数の文書すべての中から前記重要度に関する値に従って、ストップワードのサンプル及び前記トピックになり得る重要語のサンプルを選定するステップと、前記重要度降順リストの所定の順位以内に出現する前記ストップワードのサンプル及び前記重要語のサンプルを含む文書をそれぞれ集めたストップワード及び重要語の文書クラスタを作成し、両クラスタの文書数が同一となる前記所定の順位に基づいて重要語の最大数を決定するステップと、前記それぞれの文書の前記重要度降順リストにおいて前記重要語の最大数の順位以内の単語をそれぞれの文書の重要語として決定し、該重要語を前記トピックとするトピック決定ステップと、前記トピックごとに該トピックを含む文書を集めて文書クラスタを作成するステップと、前記複数の文書すべての文書ベクトルを前記単語の重要度を要素して生成するステップと、前記文書クラスタの代表ベクトルを該文書クラスタに含まれる文書の文書ベクトルの平均から計算するステップと、前記それぞれの文書のトピックの個数の最小値を算出し、該最小値を前記それぞれの文書の本質的なトピック数と擬制するステップと、前記それぞれの文書ごとに前記本質的なトピック数を用いて前記それぞれの文書が所属する前記文書クラスタの代表ベクトルの平均を計算し、該平均を文書ベクトルに反映させて文書ベクトルを補正し、この補正された文書ベクトルを前記文書記憶手段に記憶するステップと、をコンピュータに実行させることを要旨とする。
【００２０】
請求項５記載の本発明は、請求項４記載の発明において、前記複数の文書すべての前記重要度降順リストにおいて、前記ストップワードのサンプルが出現しない順位のうち最低の値を真の重要語の最低順位として決定するステップと、前記複数の文書すべてにおいて前記真の重要語の最低順位以内の単語すべてを真の重要語とするステップと、を有し、前記トピック決定ステップは、決定された重要語のうち、さらに、前記真の重要語である単語を前記トピックとすることを要旨とする。
【００２１】
請求項６記載の本発明は、請求項４又は５記載の発明において、前記本質的なトピック数を前記複数の文書すべてについての本質的なトピック数として計算することを要旨とする。
【００２２】
【発明の実施の形態】
以下、本発明の実施の形態を図面を用いて説明する。
【００２３】
＜システム構成＞
図１は本発明の実施の形態に係る文書分類・検索装置１の概略構成図である。同図に示す文書分類・検索装置１は、文書記憶部１１、文書分類部１２、及び文書検索部１３を備えており、文書記憶部１１に入力された複数の文書ｄ_ｊ（ｊは自然数）を自動的にトピックに基づいて文書分類し、該文書分類を用いて検索問い合わせｑ_ｊ（ｊは自然数）に応え、検索結果ａ_ｊ（ｊは自然数）を出力する装置である。
【００２４】
文書記憶部１１は、文書分類・検索装置１に入力される複数の文書ｄ_ｊを検索対象の文書として記憶しているもので、より詳しくは、文書ｄ_ｊ、及び文書ｄ_ｊの特徴量である文書ベクトル（特徴ベクトル）Ｄ_ｊ（ｊは自然数）を補正して生成される文書ベクトルＤ’_ｊを記憶しているものである。
【００２５】
ここで、文書ベクトルＤ_ｊとは、文書の特徴量を表すもので、文書に出現する各単語をベクトル空間の各次元とし、各単語の重要度を表す値を要素とするベクトルである。また、単語とは、文章の形態素解析を行って自立語を抽出し、原形を正規化したものをいう。また、本実施の形態における単語の重要度とは、ｔｆ・ｉｄｆ（ｔｅｒｍｆｒｅｑｕｅｎｃｙｉｎｖｅｒｓｅｄｏｃｕｍｅｎｔｆｒｅｑｕｅｎｃｙ）法によって算出される重要度をいう。ｔｆ・ｉｄｆ法とは、その文書中にどれだけの頻度でその単語が出現するか、その単語が他の文書でどれだけ出現しないかを考慮して単語の重要度を計算する方法で、文書ｄ_ｊにおける単語ｔ_ｉ（ｉ＝ａ，…，ｎ）の重要度Ｄ_ｊ，ｉは式（１）に示される。
【００２６】
【数１】

ここで、ｔｃ_ｊ，ｉは文書ｄ_ｊにおける単語ｔ_ｉの出現回数、ｔｆ_ｊ，ｉ＝ｔｃ_ｊ，ｉ／ｍａｘ（ｔｃ_ｊ，ｉ）、ｄｆ_ｉは全文書中での単語ｔ_ｉの出現文書数、ＤＮは全文書数である。
【００２７】
文書分類部１２は、文書記憶部１１に記憶されている複数の文書ｄ_ｊを重要語に基づいて分類し、さらにＲＳモデル（Ｒｅｌｅｖａｎｃｅ−ＢａｓｅｄＳｕｐｅｒｉｍｐｏｓｉｔｉｏｎＭｏｄｅｌ、関連性の重ね合わせモデル）に従ってそれぞれの文書ｄ_ｊの文書ベクトルＤ’_ｊを生成し、生成された文書ベクトルＤ’_ｊを文書記憶部１１に記憶させるものである。
【００２８】
文書検索部１３は、検索問い合わせｑ_ｊが入力されると、文書記憶部１１から検索対象の文書ｄ_ｊを取得し、検索問い合わせｑ_ｊに関連ある文書順に検索結果ａ_ｊを出力するもので、より詳しくは、検索問い合わせｑ_ｊの特徴ベクトルＱ_ｊを生成し、検索対象の文書ベクトルＤ’_ｊとの類似度を計算し、この類似度の値に従って類似度の高い順に文書ｄ_ｊを並べ替えて検索結果を出力するものである。ここで、類似度は、特徴ベクトルＱ_ｊ及び文書ベクトルＤ’_ｊのベクトル内積を計算することにより算出されるものである。
【００２９】
尚、文書分類・検索装置１は、少なくとも演算機能及び制御機能を備えた中央処理装置（ＣＰＵ：Ｃｅｎｔｒａ１ＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、プログラムやデータを収納する機能を有するＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等からなる主記憶装置（メモリ）を有する電子的な装置から構成されている。このうち、文書分類部１２及び文書検索部１２の処理は、上記ＣＰＵによる演算制御機能を具体的に示したものに他ならない。また、文書記憶部１１は、主記憶装置の機能を備えたものである。また、文書分類・検索装置１は、図１に示すような一つからなる装置の他、機能的に分散された複数の装置がネットワーク接続されたシステムなどの構成をとってもよい。
【００３０】
ここで、本発明の実施の形態に係る文書分類・検索装置１の動作を説明する前に、ＲＳモデルの概念、並びに本実施の形態における重要語の選択方法及び文書ベクトルＤ’_ｊの生成方法について説明する。
【００３１】
＜ＲＳモデルの概念＞
まず、ＲＳモデルについて説明する。ＲＳモデルとは、ベクトル空間モデルの文書検索において、同一キーワードを含むなどの関達性に基づいて文書ｄ_ｊを分類して文書クラスタＣ_ｋ（ｋ＝Ａ，…，Ｎ）を作成して、該文書クラスタＣ_ｋの特徴を表す代表ベクトルｒ_ｋ（ｋ＝Ａ，…，Ｎ）を生成し、さらに、該代表ベクトルｒ_ｋを用いて文書ベクトルＤ_ｊを補正するもので、検索精度の向上を図る文書分類の一手法である。尚、ここで、文書クラスタとは、キーワードによる意味的なまとまりを持っている文書の集合体で、同一トピックを有するものと解される。
【００３２】
図２（ａ）はＲＳモデルを具体的に説明する図である。同図によれば、２つのキーワードＡ及びＢが文書ｄ１，…，ｄ５に存在している場合を示しており、キーワードＡを含む文書ｄ_ｊは文書クラスタＣ_Ａに、キーワードＢを含む文書ｄ_ｊは文書クラスタＣ_Ｂに属し、また、キーワードＡ及びＢをともに含む文書ｄ_ｊは文書クラスタＣ_ＡとＣ_Ｂの両方に属している。即ち、ＲＳモデルでは、非排他的な文書分類を行えるようになっており、一つの文書ｄ_ｊが複数のキーワード（トピック）に跨っている状況を、複数の文書クラスタＣ_ｋに属しているという形で表現可能となる。そして、作成された文書クラスタＣ_Ａ、Ｃ_Ｂに含まれる文書ｄ_ｊの文書ベクトルＤ_ｊの二乗平均平方根（Ｒｏｏｔ−Ｍｅａｎ−Ｓｑｕａｒｅ、以下、ＲＭＳという）をそれぞれ計算して、文書クラスタＣ_Ａ及びＣ_Ｂの代表ベクトルｒ_ａ及びｒ_ｂを生成する。ここで、文書クラスタＣ_ｋの代表ベクトルｒ_ｋは、式（２）で表される。尚、代表ベクトルｒ_ｋは文書クラスタＣ_ｋの特徴量を表すもので、文書ベクトルＤ_ｊと同じ空間内の特徴ベクトルであり、文書ベクトルＤ_ｊと同数の次元を持つ。
【００３３】
【数２】

ここで、ｒ_ｋ，ｉは代表ベクトルｒ_ｋの第ｉ要素、｜Ｃ_ｋ｜は文書クラスタＣ_ｋに含まれる文書数、Ｄ_ｊ，ｉは文書ｄ_ｊの文書ベクトルＤ_ｊの第ｉ要素である。
【００３４】
次に、図２（ｂ）に示すように、この代表ベクトルｒ_ｋを用いて各文書ｄ_ｊの文書ベクトルＤ_ｊを補正するが、これは、文書ｄ_ｊが属するすべての文書クラスタＣ_ｋの代表ベクトルｒ_ｋのＲＭＳと、文書ベクトルＤ_ｊとを要素ごとに比較して、前者が大きければ文書ベクトルＤ_ｊの新たな要素として置換するもので、式（３）により表される。
【００３５】
【数３】

ここで、ｓ_ｊ，ｉは補正ベクトル、Ｃ（ｄ_ｊ）は、文書ｄ_ｊが属する文書クラスタ、｜Ｃ（ｄ_ｊ）｜は文書ｄ_ｊが属する文書クラスタの数である。
【００３６】
これにより、文書ｄ_ｊがもともと備えていた特徴量だけでなく、キーワードを同一にする文書クラスタＣ_ｋの特徴量も加味して、文書ベクトルＤ’_ｊの値を算出することができる。尚、本実施の形態においては、後述する重要語をキーワードとして用い、文書クラスタＣ_ｋを作成する。
【００３７】
＜重要語の選択＞
次に、重要語の選択方法について説明する。一般に文書に出現する単語には、全文書に偏りなく出現する単語（以下、ストップワードという）と一部の文書にのみ高頻度で出現する単語（以下、真の重要語という）が存在するが、この真の重要語が、求めるべき重要語であり、トピックとして文書クラスタＣ_ｋを作ることができるものである。例えば、英語の新聞記事においては、ｄａｙ（日）やｔｈｅｒｅ（その場所）はストップワードであり、ｎｕｃ１ｅａｒ（核）やＮＢＡ（米国バスケット連盟）は真の重要語である。
【００３８】
真の重要語を選択する際には、まず、それぞれの文書ｄ_ｊの中で重要度Ｄ_ｊ，ｉの高い上位の単語を選択しなければならないが、この中には、ストップワードも含まれている可能性があるので、この中からストップワードを取り除くことが必要となる。換言すれば、重要度Ｄ_ｊ，ｉの高い上位の単語を選択する数値基準をγ、ストップワードを排除する（真の重要語を選択する）数値基準をγ’とすると、重要語を選択するとは、γ及びγ’を決定することを意味する。以下、具体的にγ及びγ’の決定から真の重要語を決定する方法を説明する。
【００３９】
まず、ストップワード及び真の重要語のサンプルを選択する。これは、例えば、ストップワードはｄｆが大きい単語、真の重要語はｔｆが大きく、かつ、ｄｆが大きくもなく、小さくもない単語という具合にｄｆ、ｔｆに関する適切な値を選択することにより可能である。尚、真の重要語及びストップワードのサンプル選択方法に関しては、種々の条件による選択が可能であり、例えば、ｄｆのみを考慮して、ｄｆ／ＤＮの値が２５％以上のものをストップワード、１〜２％程度のものを真の重要語と設定して、サンプルを選択してもよい、さらに、この条件に、真の重要語は少なくとも１つ以上の文書ｄ_ｊで重要度Ｄ_ｊ，ｉが最も高い単語である、ストップワードは真の重要語が少なくとも１つ以上存在する文書ｄ_ｊに出現するという条件を付加して単語を絞り込んでもよい。
【００４０】
ストップワード及び真の重要語のサンプルが選択されると、次は、サンプルの単語がそれぞれの文書ｄ_ｊで何番目に重要であるかを調べる。図３は、先ほどの英語の新聞記事について調査した結果を示した図であるが、横軸はサンプルの単語の重要度Ｄ_ｊ，ｉの順位、縦軸はサンプルの単語が該順位以内に含まれている文書の数を意味している。例えば、ｎｕｃｌｅａｒという単語が重要度１０番以内に含まれている文書は約５００あることを示している。同図によれば、ストップワードと真の重要語のグラフ特性は顕著な差を示しており、ｎｕｃ１ｅａｒやＮＢＡという単語は上位５位以内となっている文書が全体約９万件のうち１００〜４００件あるのに対して、ｄａｙやｔｈｅｒｅという単語は上位１０位以内には入っていない。そして、３０〜４０位あたりで真の重要語とストップワードの該順位内に含まれる文書数が同じとなっている。
【００４１】
このような真の重要語及びストップワードの特性を利用して、まず、γ’を求める。γ’は、真の重要語の最低値と考えられ、いずれかの文書ｄ_ｊにおける重要度で上位γ’位以内となる単語を真の重要語とみなすことができる数値である。γ’は、ストップワードを排除する必要性から、対象となるストップワードが出現する「最高順位−１」が推奨値であり、図３の例では、γ’＝１５となる。
【００４２】
次に、γを求める。γは、一文書から選択できる重要語の最大数であり、ストップワード群と真の重要語群のそれぞれの文書クラスタに属する文書数の分布により、適切な値が推定できるものである。即ち、γ’を適切に設定した場合、ストップワードの文書クラスタと真の重要語の文書クラスタが同規模程度となるのが好ましく、図３の例では、γ＝４０となる。これは、γが大きいほど真の重要語の文書クラスタに含まれる文書が増え望ましいが、ストップワードが真の重要語に混ざることがあるので、過度にγを大きくしていくとストップワードの文書クラスタも大きくなり、望ましくない事態となることを意味しており、混在したストップワードへの文書クラスタの影響と真の重要語の文書クラスタの精度の調和を図ることによって、最適な値を求めようとするものである。
【００４３】
γ及びγ’が決定されると、これに基づいてすべての文書ｄ_ｊから真の重要語を決定され、さらに真の重要語ごとにそれを含む文書ｄ_ｊを集めて文書クラスタＣ_ｋが作成される。このことを、簡単な具体例を示す図４を用いて説明する。ここで、図４は、３つの文書ｄ_１，ｄ_２、及びｄ_３における真の重要語の決定及び文書クラスタＣ_ｋの作成を説明する図である。
【００４４】
まず、各文書ｄ_ｊにおいて出現する単語の重要度の降順リストを作成する。そして、上述したγ及びγ’の決定アルゴリズムにより、γ＝５、γ’＝３であると仮定すると、真の重要語は、３位以内の単語を選択することにより、ｗｏｒｄ−Ａ，ｗｏｒｄ−Ｂ，ｗｏｒｄ−Ｃ，ｗｏｒｄ−Ｄ，ｗｏｒｄ−Ｆ，ｗｏｒｄ−Ｊ，ｗｏｒｄ−Ｔ，ｗｏｒｄ−Ｕ、及びｗｏｒｄ−Ｖとなる。
【００４５】
次に、それぞれの文書ｄ_ｊにおける重要語は、５位以内の単語であるから、上記真の重要語のうち５位以内の単語を抽出して、各文書における真の重要語とする。これにより、各文書における真の重要語、即ち、文書クラスタＣ_ｋを作成することができるトピックが決定されたことになる。具体的には、単語ｗｏｒｄ−Ａの文書クラスタＣ_Ａには、文書ｄ_１及びｄ_２、単語ｗｏｒｄ−Ｂの文書クラスタＣ_Ｂには、文書ｄ_１及びｄ_３、…、単語ｗｏｒｄ−Ｖの文書クラスタＣ_ｖには、文書ｄ_３が含まれる。そして、この作成された文書クラスタＣ_ｋは、それぞれの真の重要語がトピックの概要となるような文書分類となっている。
【００４６】
＜文書ベクトルＤ’_ｊの生成＞
次に、補正された文書ベクトルＤ’_ｊの生成方法について説明する。トピックに基づいた文書クラスタＣ_ｋが作成されると、該文書クラスタＣ_ｋの代表ベクトルｒ_ｋが反映された文書ベクトルＤ’_ｊを生成することは、ＲＳモデルより可能である。しかしながら、上記のトピックには類似したトピックが存在する可能性がある。このような場合、人問の判断であれば、非常に類似したトピック（例えば、「情報分類」と「文書分類」など）は、いずれか一方のみに分類してしまうが、上記の方法においては、類似した複数のトピックすべてに分類してしまうことになる。このように人間の判断による分類とコンピュータによる自動分類ではその特性に異なる部分があり、この点が検索技術との組み合わせにおいて影響することがある。そこで、本実施の形態の文書分類・検索装置１においては、この点を解消するために、一文書あたりの本質的なトピック数を推定して、類似したトピックを数値計算上１つのものとして扱うことで、情報検索と組み合わせても支障なく、人間の判断による分類に近づけようとしている。以下、本質的なトピック数の算出について、詳しく説明する。
【００４７】
式（４）において、ある文書ベクトルＤ_ｊについての補正ベクトルｓ_ｊを考えた場合、ある文書ｄ_ｊが属する文書クラスタＣ（ｄ_ｊ）には、補正に寄与し得る本質的な文書クラスタＣ_ｅ（ｄ_ｊ）と補正に寄与し得なく無視してよい文書クラスタＣ_ｔ、（ｄ_ｊ）が存在すると考えられるので、式（４）は以下のように表される。
【００４８】
【数４】

ここで、｜Ｃ_ｅ（ｄ_ｊ）｜は文書ｄ_ｊが属する文書クラスタのうち、補正に寄与し得る本質的な文書クラスタの数、｜Ｃ_ｅ（ｄ_ｊ）｜は文書ｄ_ｊが属する文書クラスタのうち、補正に寄与し得なく無視してもよい本質的な文書クラスタの数である。
【００４９】
また、代表ベクトルｒ_ｋの平均は代表ベクトルｒ_ｋの最大値よりは小さいので、以下の式が得られる。
【００５０】
【数５】

これにより、一文書あたりの本質的なトピック数｜Ｃ_ｅ（ｄ_ｊ）｜の第ｉ要素は、
【数６】

となる。一つの文書の全次元について条件を満たす最小値が、本質的なトピック数｜Ｃ_ｅ（ｄ_ｊ）｜であるが、実際には、一つの文書に含まれる単語の数は全単語の数に比べて極めて少なく、文書ベクトルＤ_ｊの大半の要素は０であることから、この方法では限界値に近づけない可能性がある。そこで、全文書について平均をとることで推定精度を向上させることを考える。ある次元における全文書についての｜Ｃ_ｅ｜の式は式（８）となるので、これをいくつかの単語に対応する次元で計算し、平均をとることで文書集合全体の最適値｜Ｃ_ｅ｜を得る。
【００５１】
【数７】

以上から、推定トピック数｜Ｃ_ｅ｜が算出されるので、該推定トピック数｜Ｃ_ｅ｜に基づいて式（４）から補正ベクトルｓ_ｊを計算し、さらに式（３）から文書ベクトルＤ’_ｊを計算することができる。そして、本実施の形態における文書ベクトルＤ’_ｊは、この本質的なトピック数｜Ｃ_ｅ｜に基づいて生成された文書ベクトルとなっている。
【００５２】
＜システム動作＞
上述したことを踏まえて、本実施の形態における文書分類・検索装置１の動作について図５乃至７を用いて説明する。ここで、図５及び６は、文書分類・検索装置１における文書分類処理のフローチャート図であり、図７は、検索処理のフローチャート図である。
【００５３】
最初にトピックに基づいて複数の文書ｄ_ｊを分類し、各文書ｄ_ｊの文書ベクトルＤ’_ｊを生成する動作について説明する。
【００５４】
まず、文書分類部１２は、文書記憶部１１に記憶されている文書ｄ_ｊを入力し、形態素解析をして、自立語を抽出し、単語を正規化する（ステップＳ１〜Ｓ４）。次に、文書ｄ_ｊに出現するすべての単語の重要度を計算し、かつ、単語を該重要度の高い順に並べ替えた重要度の降順リストを作成する（ステップＳ５，Ｓ６）。そして、以上の処理を文書記憶部１１に記憶されているすべての文書ｄ_ｊに関して行う（ステップＳ７）。
【００５５】
次に、全文書中から真の重要語のサンプルを選択する（ステップＳ８）。これは、０．０１≦ｄｆ／ＤＮ≦０．０２、かつ、少なくとも１つ以上の文書ｄ_ｊで重要度が一番高い単語である（ｔｆ・ｉｄｆが文書内で最大である）ことを条件に選択するものである。そして、ストップワードのサンプルを選択する（ステップＳ９）。これは、ｄｆ／ＤＮ≧０．２５、かつ、ステップＳ８で選択された真の重要語が少なくとも１つ以上存在する文書ｄ_ｊに出現することを条件に選択するものである。
【００５６】
次に、γ’を決定し、これによりすべての真の重要語を決定する（ステップＳ１０，Ｓ１１）。そして、γを決定し、それぞれの文書ｄ_ｊごとに真の重要語を決定し、真の重要語、即ちトピックごとに文書クラスタＣ_ｋを作成する（ステップＳ１２〜Ｓ１５）。
【００５７】
次に、すべての文書ｄ_ｊに対して文書ベクトルＤ_ｊを生成し、また、作成された文書クラスタＣ_ｋすべてに対して代表ベクトルｒ_ｋを生成する（ステップ１６〜Ｓ１９）。
【００５８】
次に、本質的なトピック数｜Ｃ_ｅ｜を算出し、該トピック数｜Ｃ_ｅ｜に基づいて、文書ベクトルＤ_ｊを補正し、この補正された文書ベクトルＤ’_ｊをすべての文書ｄ_ｊについて求め、文書記憶部１１に登録する（ステップＳ２０〜Ｓ２３）。これにより、文書検索の検索対象となる文書ｄ_ｊの文書ベクトルＤ’_ｊが生成されたので、文書分類・検索装置１は検索処理可能な状態となる。
【００５９】
次に、検索問い合わせを与えた場合の検索処理の動作について説明する。
【００６０】
まず、検索問い合わせｑ_ｊを入力すると、文書検索部１３は、この検索問い合わせの特徴ベクトルＱ_ｊを生成する（ステップＳ３１，Ｓ３２）。これは、上述したそれぞれの文書ベクトルＤ_ｊを生成する方法と同様で、ｔｆ・ｉｄｆ法による重要度を計算して生成するものである。
【００６１】
次に、文書記憶部１１に記憶されているすべての文書ｄ_ｊの文書ベクトルＤ’_ｊと検索問い合わせの特徴ベクトルＱ_ｊとの類似度を計算する（ステップＳ３３）。その結果、得られた類似度を類似度の高い順に文書ｄ_ｊを並べ替え、検索結果として、類似度の降順に並んだリストを出力する（ステップＳ３４，Ｓ３５）。これにより、文書分類・検索装置１から所望の検索結果が得られることになる。
【００６２】
＜テスト結果＞
最後に、本実施の形態における文書分類・検索装置１において実際に検索処理を行った場合のテスト結果について説明する。図８は、ＮＩＳＴ（米国標準技術規格局）がサポートしているＴＲＥＣ（ＴｅｘｔＲｅｔｒｉｅｖａｌＣｏｎｆｅｒｅｎｃｅ；文書検索会議）と呼ばれる国際的な情報検索の精度ベンチマークの方法による測定結果である。尚、検索対象文書群と問い合わせの組は、ＴＲＥＣ４ＳＪＭを使用している。また、図８における既存の検索手法による場合とは、検索対象文書群の文書分類を全く行わなかった場合、即ち、トピックによる文書クラスタを作成しなかった場合の検索結果である。
【００６３】
図８によれば、本発明を適用した場合、即ち、トピックによる文書分類を行って、文書ベクトルを本質的なトピック数により補正した場合の検索結果は、既存の検索結果に比べて、検索精度が向上していることがわかる。
【００６４】
以上のことから、本実施の形態の文書分類・検索装置１によれば、利用者が事前に分類を行った文書の分類例を文書分類・検索装置１に与えなくても、自動的に文書のトピックに基づいて文書分類をすることができるので、文書分類の手間がかからず、導入が容易であるという効果がある。また、従来においては、利用者が事前に分類を行った文書例を与えない場合には、排他的な文書分類しか行えなかったが、文書分類・検索装置１においては、１つの文書を複数の文書クラスタに分類することができるので、複数のトピックに跨る文書を適切に扱うことができる。
【００６５】
また、文書分類・検索装置１は、文書に出現する単語の重要度を用いて、トピックとなり得る重要語を選択し、さらに、ストップワードを排除して、適切に真の重要語を決定し、トピックとするので、それぞれの文書のトピックが十分に反映された文書分類を行うことができ、以て、検索精度の向上に寄与することができる。そして、ＲＳモデルに従って文書ベクトルを生成する過程において、本質的なトピック数を推定し、この本質的なトピック数を用いて文書分類を調整しているので、人間の判断による文書分類の特性に近づけた検索精度を実現することができる。
【００６６】
以上、本発明の実施の形態について説明してきたが、本発明の要旨を逸脱しない範囲において、本発明の実施の形態に対して種々の変彩や変更を施すことができる。例えば、本実施の形態においては、単語の重要度をｔｆ・ｉｄｆ法により計算したが、本発明における単語の重要度の計算は、ｔｆ・ｉｄｆ法に限定されるわけではなく、他の方法によって計算される重要度、例えば、尤度比、相互情報量、及びχ二乗値などを用いて重要度を表してもよい。そして、尤度比、相互情報量、及びχ二乗値を用いた場合においては、すべての２単語間の共起頻度を必要とするので、さらに重要度の精度を高めることができるという効果がある。尚、ｔｆ・ｉｄｆ法の計算式には数多くのバリエーションが存在するが、本実施の形態において用いた式（１）以外の他の計算式を用いて、重要度を計算してもよいのはもちろんである。
【００６７】
また、本実施の形態においては、最適な方法として、γ及びγ’の双方を決定してトピックを選定したが、γだけであっても適切に決定されていれば、検索精度の向上が望めるものである。
【００６８】
尚、本実施の形態の文書分類・検索装置１の一部もしくは全部の処理機能をコンピュータプログラムで構成し、そのコンピュータプログラムを用いて実行することにより本発明が実現できることはいうまでもない。そして、このコンピュータプログラムは、ハードデイスク、ＲＯＭ（ＲｅａｄｏｎｌｙＭｅｍｏｒｙ）、フレキシブルディスク、ＣＤ−ＲＯＭ，ＭＯ（ｍａｇｎｅｔｏ−ｏｐｔｉｃ）、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）、リムーバブルデイスクなどのコンピュータ読み取り可能な記録媒体に記録することも、通信ネットワークを介して配信することも可能である。
【００６９】
【発明の効果】
以上説明したように、本発明によれば、利用者が事前に分類を行った文書の集まりをコンピュータシステムに与えなくても、トピックによる非排他的な文書分類を行うことができるとともに、該文書分類を検索に適用しても検索精度の向上に寄与することができる。
【図面の簡単な説明】
【図１】本発明の実施の形態に係る文書分類・検索装置の概略構成図である。
【図２】ＲＳモデルの概念を説明する図である。
【図３】ストップワード及び真の重要語の重要度の順位と文書数の関係を示すグラフである。
【図４】本発明の実施の形態における重要語の選定及び文書クラスタの作成を説明する図である。
【図５】本発明の実施の形態に係る文書分類・検索装置の文書分類処理を示すフローチャート図である。
【図６】本発明の実施の形態に係る文書分類・検索装置の文書分類処理を示すフローチャート図である。
【図７】本発明の実施の形態に係る文書分類・検索装置の検索処理を示すフローチャート図である。
【図８】本発明の実施の形態に係る文書分類・検索装置の検索結果を示すグラフである。
【符号の説明】
１…文書分類・検索装置
１１…文書記憶部
１２…文書分類部
１３…文書検索部
ｄ_ｊ…文書
Ｄ_ｊ，ｉ…単語の重要度
Ｄ_ｊ…文書ベクトル（特徴ベクトル）
Ｄ’_ｊ…補正された文書ベクトル
ｓ_ｊ…補正ベクトル
ｑ_ｊ…検索問い合わせ
Ｑ_ｊ…検索問い合わせの特徴ベクトル
ａ_ｊ…検索結果
ｒ_ｋ…代表ベクトル
Ｃ_ｋ…文書クラスタ

Claims

文書検索の検索対象として用いられる複数の文書をトピックに基づいて分類する文書分類方法であって、
前記複数の文書を記憶している文書記憶手段から前記複数の文書を取得して、それぞれの文書に含まれるすべての単語の重要度を計算するステップと、
前記それぞれの文書において前記単語を前記重要度の高い順に並べ替えて、重要度降順リストを作成するステップと、
前記複数の文書すべての中から前記重要度に関する値に従って、ストップワードのサンプル及び前記トピックになり得る重要語のサンプルを選定するステップと、
前記重要度降順リストの所定の順位以内に出現する前記ストップワードのサンプル及び前記重要語のサンプルを含む文書をそれぞれ集めたストップワード及び重要語の文書クラスタを作成し、両クラスタの文書数が同一となる前記所定の順位に基づいて重要語の最大数を決定するステップと、
前記それぞれの文書の前記重要度降順リストにおいて前記重要語の最大数の順位以内の単語をそれぞれの文書の重要語として決定し、該重要語を前記トピックとするトピック決定ステップと、
前記トピックごとに該トピックを含む文書を集めて文書クラスタを作成するステップと、
前記複数の文書すべての文書ベクトルを前記単語の重要度を要素して生成するステップと、
前記文書クラスタの代表ベクトルを該文書クラスタに含まれる文書の文書ベクトルの平均から計算するステップと、
前記それぞれの文書のトピックの個数の最小値を算出し、該最小値を前記それぞれの文書の本質的なトピック数と擬制するステップと、
前記それぞれの文書ごとに前記本質的なトピック数を用いて前記それぞれの文書が所属する前記文書クラスタの代表ベクトルの平均を計算し、該平均を文書ベクトルに反映させて文書ベクトルを補正し、この補正された文書ベクトルを前記文書記憶手段に記憶するステップと、
をコンピュータが実行することを特徴とする文書分類方法。
前記複数の文書すべての前記重要度降順リストにおいて、前記ストップワードのサンプルが出現しない順位のうち最低の値を真の重要語の最低順位として決定するステップと、
前記複数の文書すべてにおいて前記真の重要語の最低順位以内の単語すべてを真の重要語とするステップと、
を有し、前記トピック決定ステップは、
決定された重要語のうち、さらに、前記真の重要語である単語を前記トピックとすることを特徴とする請求項１記載の文書分類方法。
前記本質的なトピック数を前記複数の文書すべてについての本質的なトピック数として計算することを特徴とする請求項１又は２記載の文書分類方法。
文書検索の検索対象として用いられる複数の文書をトピックに基づいて分類する文書分類プログラムであって、
前記複数の文書を記憶している文書記憶手段から前記複数の文書を取得して、それぞれの文書に含まれるすべての単語の重要度を計算するステップと、
前記それぞれの文書において前記単語を前記重要度の高い順に並べ替えて、重要度降順リストを作成するステップと、
前記複数の文書すべての中から前記重要度に関する値に従って、ストップワードのサンプル及び前記トピックになり得る重要語のサンプルを選定するステップと、
前記重要度降順リストの所定の順位以内に出現する前記ストップワードのサンプル及び前記重要語のサンプルを含む文書をそれぞれ集めたストップワード及び重要語の文書クラスタを作成し、両クラスタの文書数が同一となる前記所定の順位に基づいて重要語の最大数を決定するステップと、
前記それぞれの文書の前記重要度降順リストにおいて前記重要語の最大数の順位以内の単語をそれぞれの文書の重要語として決定し、該重要語を前記トピックとするトピック決定ステップと、
前記トピックごとに該トピックを含む文書を集めて文書クラスタを作成するステップと、
前記複数の文書すべての文書ベクトルを前記単語の重要度を要素して生成するステップと、
前記文書クラスタの代表ベクトルを該文書クラスタに含まれる文書の文書ベクトルの平均から計算するステップと、
前記それぞれの文書のトピックの個数の最小値を算出し、該最小値を前記それぞれの文書の本質的なトピック数と擬制するステップと、
前記それぞれの文書ごとに前記本質的なトピック数を用いて前記それぞれの文書が所属する前記文書クラスタの代表ベクトルの平均を計算し、該平均を文書ベクトルに反映させて文書ベクトルを補正し、この補正された文書ベクトルを前記文書記憶手段に記憶するステップと、
をコンピュータに実行させることを特徴とする文書分類プログラム。
前記複数の文書すべての前記重要度降順リストにおいて、前記ストップワードのサンプルが出現しない順位のうち最低の値を真の重要語の最低順位として決定するステップと、
前記複数の文書すべてにおいて前記真の重要語の最低順位以内の単語すべてを真の重要語とするステップと、
を有し、前記トピック決定ステップは、
決定された重要語のうち、さらに、前記真の重要語である単語を前記トピックとすることを特徴とする請求項４記載の文書分類プログラム。
前記本質的なトピック数を前記複数の文書すべてについての本質的なトピック数として計算することを特徴とする請求項４又は５記載の文書分類プログラム。