JP2004310199A - 文書分類方法及び文書分類プログラム - Google Patents
文書分類方法及び文書分類プログラム Download PDFInfo
- Publication number
- JP2004310199A JP2004310199A JP2003099429A JP2003099429A JP2004310199A JP 2004310199 A JP2004310199 A JP 2004310199A JP 2003099429 A JP2003099429 A JP 2003099429A JP 2003099429 A JP2003099429 A JP 2003099429A JP 2004310199 A JP2004310199 A JP 2004310199A
- Authority
- JP
- Japan
- Prior art keywords
- document
- documents
- word
- words
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】文書分類・検索装置1は、文書記憶部11、文書分類部12、及び文書検索部13を備えており、文書記憶部11に入力された複数の文書djを自動的にトピックに基づいて文書分類し、該文書分類を用いて検索問い合わせqjに応え、検索結果ajを出力する装置である。文書分類部12は、文書記憶部11に検索対象の文書として記憶されている複数の文書diを重要語に基づいて分類し、さらにRSモデルに従ってそれぞれの文書djの文書ベクトルD’jを生成し、文書記憶部11に生成された文書ベクトルD’jを記憶させる。
【選択図】 図1
Description
【発明の属する技術分野】
本発明は、文書のトピックに基づいて文書を分類する文書分類方法及び文書分類プログラムに関し、特に、文書整理や文書検索に好適に利用できる文書分類方法及び文書分類プログラムに関する。
【0002】
【従来の技術】
一般に、文書を文書内容に関するトピックに基づいて分類する場合、文書中に出現する単語の頻度に従った統計的処理が行われる。この統計的処理は、予め利用者が分類を行った文書の集まりをコンピュータシステムに与えるか否かで2つの方法に大別される。
【0003】
利用者が予め分類を行った文書の集まりをコンピュータシステムに与える方法においては、その後、分類を行いたい文書がコンピュータシステムに入力される度に上述した出現する単語の頻度に従った統計的処理をして、既に用意された文書の集まりそれぞれとの類似度を計算し、類似度の高かった1又は複数の文書の集まりに分類される。
【0004】
一方、分類を行った文書の集まりをコンピュータシステムに与えない方法においては、分類を行いたい文書を複数一度に入力し、汎用の文書クラスタリングのアルゴリズムを用いて分類を行う。代表的な汎用の文書クラスタリングのアルゴリズムの例を2つ挙げる。
【0005】
(1)類似度の高い文書を集めて1つの文書の集まり(文書クラスタ)とする方法である。これは、それぞれの文書の特徴を表す文書ベクトルの位置座標がある一定の範囲内にあるものは類似しているものと考えられるので、同一の文書クラスタとみなすという方法である。この方法では、いずれの文書クラスタにも分類されない文書の存在が許容されることになる。
【0006】
(2)すべての文書の中で類似度の最も低い文書がそれぞれ別分類となるように2分割し、これを繰り返す方法である。即ち、文書ベクトルの終点間距離が最も離れた2つを選択して、その真ん中でベクトル空間を二分するという方法である。そして、分類されたそれぞれのベクトル空間の中でさらに同様に2分割を行い、適度な大きさの文書クラスタ(文書クラスタに含まれる文書の数が適当な数)になるまでを2分割を繰り返すものである。この方法では、すべての文書がいずれかの文書クラスタに含まれる。
【0007】
尚、この出願に関連する先行技術文献情報としては、次のものがある。
【0008】
【非特許文献1】
Fabrizio Sebastiani 著,「ACM Computing Surveys」、Machine learning in automated text categorization, Vo1.34, No,1, pp.1−47, 2002年刊
【0009】
【非特許文献2】
W,M,Shaw Jr.,R.Burgin and P.Howel 著, 「Information Processing&Management」, Perfomance standards and evalutions in IR test co11ection:Cluster−based retrieval mode1s, Vo1.33, No.1, pp.1−14. 1997年刊
【0010】
【発明が解決しようとする課題】
しかしながら、上記のような従来の文書分類方法には、以下のような課題がある。
【0011】
(1)利用者が予め分類を行った文書の集まりをコンピュータシステムに与える方法においては、予め、利用者が分類を行った文書の集まりを用意しなければならず、導入する手間が大きい。
【0012】
(2)また、分類を行った文書の集まりをコンピュータシステムに与えない方法においては、排他的な文書分類を行う。即ち、1つの文書は複数の文書クラスタに分類することができないため、複数のトピックに跨る文書を適切に扱うことができない。また、トピックの範囲、即ち、1つの文書クラスタに含まれる文書の数の制御が難しい。
【0013】
(3)さらに、文書検索の対象となる文書をトピックに基づいて分類することにより検索精度を向上させようとする文書検索システムが存在するが、分類を行った文書の集まりをコンピュータシステムに与えない従来の上記分類方法は、利用者が予め分類を行った文書の集まりをコンピュータシステムに与える方法と比べて、文書検索の検索精度が著しく低い。
【0014】
本発明は、上記の課題を解決するためになされたものであり、利用者が事前に分類を行った文書の集まりをコンピュータシステムに与えなくても、トピックによる非排他的な文書分類を行うことができるとともに、該文書分類を検索に適用しても検索精度の向上に寄与することができる文書分類方法及び文書分類プログラムを提供することを目的とする。
【0015】
【課題を解決するための手段】
上記目的を達成するため、請求項1記載の本発明は、文書検索の検索対象として用いられる複数の文書をトピックに基づいて分類する文書分類方法であって、前記複数の文書を記憶している文書記憶手段から前記複数の文書を取得して、それぞれの文書に含まれるすべての単語の重要度を計算するステップと、前記それぞれの文書において前記単語を前記重要度の高い順に並べ替えて、重要度降順リストを作成するステップと、前記複数の文書すべての中から前記重要度に関する値に従って、ストップワードのサンプル及び前記トピックになり得る重要語のサンプルを選定するステップと、前記重要度降順リストの所定の順位以内に出現する前記ストップワードのサンプル及び前記重要語のサンプルを含む文書をそれぞれ集めたストップワード及び重要語の文書クラスタを作成し、両クラスタの文書数が同一となる前記所定の順位に基づいて重要語の最大数を決定するステップと、前記それぞれの文書の前記重要度降順リストにおいて前記重婁語の最大数の順位以内の単語をそれぞれの文書の重要語として決定し、該重要語を前記トピックとするトピック決定ステップと、前記トピックごとに該トピックを含む文書を集めて文書クラスタを作成するステップと、前記複数の文書すべての文書ベクトルを前記単語の重要度を要素して生成するステップと、前記文書クラスタの代表ベクトルを該文書クラスタに含まれる文書の文書ベクトルの平均から計算するステップと、前記それぞれの文書のトピックの個数の最小値を算出し、該最小値を前記それぞれの文書の本質的なトピック数と擬御するステップと、前記それぞれの文書ごとに前記本質的なトピック数を用いて前記それぞれの文書が所属する前記文書クラスタの代表ベクトルの平均を計算し、該平均を文書ベクトルに反映させて文書ベクトルを補正し、この補正された文書ベクトルを前記文書記憶手段に記憶するステップと、をコンピュータが実行することを要旨とする。
【0016】
ここで、コンピュータとしては、スーパーコンピュータ、汎用コンピュータ、オフィス・コンピュータ、ワークステーション、パソコン、マイクロコンピュータ、PDA(Personal Digital Assistance)などあらゆる形態を含む。また、構成としては、一つからなる装置、分散されて複数の装置がネットワーク接続されたシステムなどのいずれの構成であっても良い。
【0017】
請求項2記載の本発明は、請求項1記載の発明において、前記複数の文書すべての前記重要度降順リストにおいて、前記ストップワードのサンプルが出現しない順位のうち最低の値を真の重要語の最低順位として決定するステップと、前記複数の文書すべてにおいて前記真の重要語の最低順位以内の単語すべてを真の重要語とするステップと、を有し、前記トピック決定ステップは、決定された重要語のうち、さらに、前記真の重要語である単語を前記トピックとすることを要旨とする。
【0018】
請求項3記載の本発明は、請求項1又は2記載の発明において、前記本質的なトピック数を前記複数の文書すべてについての本質的なトピック数として計算することを要旨とする。
【0019】
請求項4記載の本発明は、文書検索の検索対象として用いられる複数の文書をトピックに基づいて分類する文書分類プログラムであって、前記複数の文書を記憶している文書記憶手段から前記複数の文書を取得して、それぞれの文書に含まれるすべての単語の重要度を計算するステップと、前記それぞれの文書において前記単語を前記重要度の高い順に並べ替えて、重要度降順リストを作成するステップと、前記複数の文書すべての中から前記重要度に関する値に従って、ストップワードのサンプル及び前記トピックになり得る重要語のサンプルを選定するステップと、前記重要度降順リストの所定の順位以内に出現する前記ストップワードのサンプル及び前記重要語のサンプルを含む文書をそれぞれ集めたストップワード及び重要語の文書クラスタを作成し、両クラスタの文書数が同一となる前記所定の順位に基づいて重要語の最大数を決定するステップと、前記それぞれの文書の前記重要度降順リストにおいて前記重要語の最大数の順位以内の単語をそれぞれの文書の重要語として決定し、該重要語を前記トピックとするトピック決定ステップと、前記トピックごとに該トピックを含む文書を集めて文書クラスタを作成するステップと、前記複数の文書すべての文書ベクトルを前記単語の重要度を要素して生成するステップと、前記文書クラスタの代表ベクトルを該文書クラスタに含まれる文書の文書ベクトルの平均から計算するステップと、前記それぞれの文書のトピックの個数の最小値を算出し、該最小値を前記それぞれの文書の本質的なトピック数と擬制するステップと、前記それぞれの文書ごとに前記本質的なトピック数を用いて前記それぞれの文書が所属する前記文書クラスタの代表ベクトルの平均を計算し、該平均を文書ベクトルに反映させて文書ベクトルを補正し、この補正された文書ベクトルを前記文書記憶手段に記憶するステップと、をコンピュータに実行させることを要旨とする。
【0020】
請求項5記載の本発明は、請求項4記載の発明において、前記複数の文書すべての前記重要度降順リストにおいて、前記ストップワードのサンプルが出現しない順位のうち最低の値を真の重要語の最低順位として決定するステップと、前記複数の文書すべてにおいて前記真の重要語の最低順位以内の単語すべてを真の重要語とするステップと、を有し、前記トピック決定ステップは、決定された重要語のうち、さらに、前記真の重要語である単語を前記トピックとすることを要旨とする。
【0021】
請求項6記載の本発明は、請求項4又は5記載の発明において、前記本質的なトピック数を前記複数の文書すべてについての本質的なトピック数として計算することを要旨とする。
【0022】
【発明の実施の形態】
以下、本発明の実施の形態を図面を用いて説明する。
【0023】
<システム構成>
図1は本発明の実施の形態に係る文書分類・検索装置1の概略構成図である。同図に示す文書分類・検索装置1は、文書記憶部11、文書分類部12、及び文書検索部13を備えており、文書記憶部11に入力された複数の文書dj(jは自然数)を自動的にトピックに基づいて文書分類し、該文書分類を用いて検索問い合わせqj(jは自然数)に応え、検索結果aj(jは自然数)を出力する装置である。
【0024】
文書記憶部11は、文書分類・検索装置1に入力される複数の文書djを検索対象の文書として記憶しているもので、より詳しくは、文書dj、及び文書djの特徴量である文書ベクトル(特徴ベクトル)Dj(jは自然数)を補正して生成される文書ベクトルD’jを記憶しているものである。
【0025】
ここで、文書ベクトルDjとは、文書の特徴量を表すもので、文書に出現する各単語をベクトル空間の各次元とし、各単語の重要度を表す値を要素とするベクトルである。また、単語とは、文章の形態素解析を行って自立語を抽出し、原形を正規化したものをいう。また、本実施の形態における単語の重要度とは、tf・idf(term frequency inverse document frequency )法によって算出される重要度をいう。tf・idf法とは、その文書中にどれだけの頻度でその単語が出現するか、その単語が他の文書でどれだけ出現しないかを考慮して単語の重要度を計算する方法で、文書djにおける単語ti(i=a,…,n)の重要度Dj,iは式(1)に示される。
【0026】
【数1】
ここで、tcj,iは文書djにおける単語tiの出現回数、tfj,i=tcj,i/max(tcj,i)、dfiは全文書中での単語tiの出現文書数、DNは全文書数である。
【0027】
文書分類部12は、文書記憶部11に記憶されている複数の文書djを重要語に基づいて分類し、さらにRSモデル(Relevance−Based Superimposition Model、関連性の重ね合わせモデル)に従ってそれぞれの文書djの文書ベクトルD’jを生成し、生成された文書ベクトルD’jを文書記憶部11に記憶させるものである。
【0028】
文書検索部13は、検索問い合わせqjが入力されると、文書記憶部11から検索対象の文書djを取得し、検索問い合わせqjに関連ある文書順に検索結果ajを出力するもので、より詳しくは、検索問い合わせqjの特徴ベクトルQjを生成し、検索対象の文書ベクトルD’jとの類似度を計算し、この類似度の値に従って類似度の高い順に文書djを並べ替えて検索結果を出力するものである。ここで、類似度は、特徴ベクトルQj及び文書ベクトルD’jのベクトル内積を計算することにより算出されるものである。
【0029】
尚、文書分類・検索装置1は、少なくとも演算機能及び制御機能を備えた中央処理装置(CPU:Centra1 Processing Unit)、プログラムやデータを収納する機能を有するRAM(Random Access Memory)等からなる主記憶装置(メモリ)を有する電子的な装置から構成されている。このうち、文書分類部12及び文書検索部12の処理は、上記CPUによる演算制御機能を具体的に示したものに他ならない。また、文書記憶部11は、主記憶装置の機能を備えたものである。また、文書分類・検索装置1は、図1に示すような一つからなる装置の他、機能的に分散された複数の装置がネットワーク接続されたシステムなどの構成をとってもよい。
【0030】
ここで、本発明の実施の形態に係る文書分類・検索装置1の動作を説明する前に、RSモデルの概念、並びに本実施の形態における重要語の選択方法及び文書ベクトルD’jの生成方法について説明する。
【0031】
<RSモデルの概念>
まず、RSモデルについて説明する。RSモデルとは、ベクトル空間モデルの文書検索において、同一キーワードを含むなどの関達性に基づいて文書djを分類して文書クラスタCk(k=A,…,N)を作成して、該文書クラスタCkの特徴を表す代表ベクトルrk(k=A,…,N)を生成し、さらに、該代表ベクトルrkを用いて文書ベクトルDjを補正するもので、検索精度の向上を図る文書分類の一手法である。尚、ここで、文書クラスタとは、キーワードによる意味的なまとまりを持っている文書の集合体で、同一トピックを有するものと解される。
【0032】
図2(a)はRSモデルを具体的に説明する図である。同図によれば、2つのキーワードA及びBが文書d1,…,d5に存在している場合を示しており、キーワードAを含む文書djは文書クラスタCAに、キーワードBを含む文書djは文書クラスタCBに属し、また、キーワードA及びBをともに含む文書djは文書クラスタCAとCBの両方に属している。即ち、RSモデルでは、非排他的な文書分類を行えるようになっており、一つの文書djが複数のキーワード(トピック)に跨っている状況を、複数の文書クラスタCkに属しているという形で表現可能となる。そして、作成された文書クラスタCA、CBに含まれる文書djの文書ベクトルDjの二乗平均平方根(Root−Mean−Square、以下、RMSという)をそれぞれ計算して、文書クラスタCA及びCBの代表ベクトルra及びrbを生成する。ここで、文書クラスタCkの代表ベクトルrkは、式(2)で表される。尚、代表ベクトルrkは文書クラスタCkの特徴量を表すもので、文書ベクトルDjと同じ空間内の特徴ベクトルであり、文書ベクトルDjと同数の次元を持つ。
【0033】
【数2】
ここで、rk,iは代表ベクトルrkの第i要素、|Ck|は文書クラスタCkに含まれる文書数、Dj,iは文書djの文書ベクトルDjの第i要素である。
【0034】
次に、図2(b)に示すように、この代表ベクトルrkを用いて各文書djの文書ベクトルDjを補正するが、これは、文書djが属するすべての文書クラスタCkの代表ベクトルrkのRMSと、文書ベクトルDjとを要素ごとに比較して、前者が大きければ文書ベクトルDjの新たな要素として置換するもので、式(3)により表される。
【0035】
【数3】
ここで、sj,iは補正ベクトル、C(dj)は、文書djが属する文書クラスタ、|C(dj)|は文書djが属する文書クラスタの数である。
【0036】
これにより、文書djがもともと備えていた特徴量だけでなく、キーワードを同一にする文書クラスタCkの特徴量も加味して、文書ベクトルD’jの値を算出することができる。尚、本実施の形態においては、後述する重要語をキーワードとして用い、文書クラスタCkを作成する。
【0037】
<重要語の選択>
次に、重要語の選択方法について説明する。一般に文書に出現する単語には、全文書に偏りなく出現する単語(以下、ストップワードという)と一部の文書にのみ高頻度で出現する単語(以下、真の重要語という)が存在するが、この真の重要語が、求めるべき重要語であり、トピックとして文書クラスタCkを作ることができるものである。例えば、英語の新聞記事においては、day(日)やthere(その場所)はストップワードであり、nuc1ear(核)やNBA(米国バスケット連盟)は真の重要語である。
【0038】
真の重要語を選択する際には、まず、それぞれの文書djの中で重要度Dj,iの高い上位の単語を選択しなければならないが、この中には、ストップワードも含まれている可能性があるので、この中からストップワードを取り除くことが必要となる。換言すれば、重要度Dj,iの高い上位の単語を選択する数値基準をγ、ストップワードを排除する(真の重要語を選択する)数値基準をγ’とすると、重要語を選択するとは、γ及びγ’を決定することを意味する。以下、具体的にγ及びγ’の決定から真の重要語を決定する方法を説明する。
【0039】
まず、ストップワード及び真の重要語のサンプルを選択する。これは、例えば、ストップワードはdfが大きい単語、真の重要語はtfが大きく、かつ、dfが大きくもなく、小さくもない単語という具合にdf、tfに関する適切な値を選択することにより可能である。尚、真の重要語及びストップワードのサンプル選択方法に関しては、種々の条件による選択が可能であり、例えば、dfのみを考慮して、df/DNの値が25%以上のものをストップワード、1〜2%程度のものを真の重要語と設定して、サンプルを選択してもよい、さらに、この条件に、真の重要語は少なくとも1つ以上の文書djで重要度Dj,iが最も高い単語である、ストップワードは真の重要語が少なくとも1つ以上存在する文書djに出現するという条件を付加して単語を絞り込んでもよい。
【0040】
ストップワード及び真の重要語のサンプルが選択されると、次は、サンプルの単語がそれぞれの文書djで何番目に重要であるかを調べる。図3は、先ほどの英語の新聞記事について調査した結果を示した図であるが、横軸はサンプルの単語の重要度Dj,iの順位、縦軸はサンプルの単語が該順位以内に含まれている文書の数を意味している。例えば、nuclearという単語が重要度10番以内に含まれている文書は約500あることを示している。同図によれば、ストップワードと真の重要語のグラフ特性は顕著な差を示しており、nuc1earやNBAという単語は上位5位以内となっている文書が全体約9万件のうち100〜400件あるのに対して、dayやthereという単語は上位10位以内には入っていない。そして、30〜40位あたりで真の重要語とストップワードの該順位内に含まれる文書数が同じとなっている。
【0041】
このような真の重要語及びストップワードの特性を利用して、まず、γ’を求める。γ’は、真の重要語の最低値と考えられ、いずれかの文書djにおける重要度で上位γ’位以内となる単語を真の重要語とみなすことができる数値である。γ’は、ストップワードを排除する必要性から、対象となるストップワードが出現する「最高順位−1」が推奨値であり、図3の例では、γ’=15となる。
【0042】
次に、γを求める。γは、一文書から選択できる重要語の最大数であり、ストップワード群と真の重要語群のそれぞれの文書クラスタに属する文書数の分布により、適切な値が推定できるものである。即ち、γ’を適切に設定した場合、ストップワードの文書クラスタと真の重要語の文書クラスタが同規模程度となるのが好ましく、図3の例では、γ=40となる。これは、γが大きいほど真の重要語の文書クラスタに含まれる文書が増え望ましいが、ストップワードが真の重要語に混ざることがあるので、過度にγを大きくしていくとストップワードの文書クラスタも大きくなり、望ましくない事態となることを意味しており、混在したストップワードへの文書クラスタの影響と真の重要語の文書クラスタの精度の調和を図ることによって、最適な値を求めようとするものである。
【0043】
γ及びγ’が決定されると、これに基づいてすべての文書djから真の重要語を決定され、さらに真の重要語ごとにそれを含む文書djを集めて文書クラスタCkが作成される。このことを、簡単な具体例を示す図4を用いて説明する。ここで、図4は、3つの文書d1,d2、及びd3における真の重要語の決定及び文書クラスタCkの作成を説明する図である。
【0044】
まず、各文書djにおいて出現する単語の重要度の降順リストを作成する。そして、上述したγ及びγ’の決定アルゴリズムにより、γ=5、γ’=3であると仮定すると、真の重要語は、3位以内の単語を選択することにより、word−A,word−B,word−C,word−D,word−F,word−J,word−T,word−U、及びword−Vとなる。
【0045】
次に、それぞれの文書djにおける重要語は、5位以内の単語であるから、上記真の重要語のうち5位以内の単語を抽出して、各文書における真の重要語とする。これにより、各文書における真の重要語、即ち、文書クラスタCkを作成することができるトピックが決定されたことになる。具体的には、単語word−Aの文書クラスタCAには、文書d1及びd2、単語word−Bの文書クラスタCBには、文書d1及びd3、…、単語word−Vの文書クラスタCvには、文書d3が含まれる。そして、この作成された文書クラスタCkは、それぞれの真の重要語がトピックの概要となるような文書分類となっている。
【0046】
<文書ベクトルD’jの生成>
次に、補正された文書ベクトルD’jの生成方法について説明する。トピックに基づいた文書クラスタCkが作成されると、該文書クラスタCkの代表ベクトルrkが反映された文書ベクトルD’jを生成することは、RSモデルより可能である。しかしながら、上記のトピックには類似したトピックが存在する可能性がある。このような場合、人問の判断であれば、非常に類似したトピック(例えば、「情報分類」と「文書分類」など)は、いずれか一方のみに分類してしまうが、上記の方法においては、類似した複数のトピックすべてに分類してしまうことになる。このように人間の判断による分類とコンピュータによる自動分類ではその特性に異なる部分があり、この点が検索技術との組み合わせにおいて影響することがある。そこで、本実施の形態の文書分類・検索装置1においては、この点を解消するために、一文書あたりの本質的なトピック数を推定して、類似したトピックを数値計算上1つのものとして扱うことで、情報検索と組み合わせても支障なく、人間の判断による分類に近づけようとしている。以下、本質的なトピック数の算出について、詳しく説明する。
【0047】
式(4)において、ある文書ベクトルDjについての補正ベクトルsjを考えた場合、ある文書djが属する文書クラスタC(dj)には、補正に寄与し得る本質的な文書クラスタCe(dj)と補正に寄与し得なく無視してよい文書クラスタCt、(dj)が存在すると考えられるので、式(4)は以下のように表される。
【0048】
【数4】
ここで、|Ce(dj)|は文書djが属する文書クラスタのうち、補正に寄与し得る本質的な文書クラスタの数、|Ce(dj)|は文書djが属する文書クラスタのうち、補正に寄与し得なく無視してもよい本質的な文書クラスタの数である。
【0049】
また、代表ベクトルrkの平均は代表ベクトルrkの最大値よりは小さいので、以下の式が得られる。
【0050】
【数5】
これにより、一文書あたりの本質的なトピック数|Ce(dj)|の第i要素は、
【数6】
となる。一つの文書の全次元について条件を満たす最小値が、本質的なトピック数|Ce(dj)|であるが、実際には、一つの文書に含まれる単語の数は全単語の数に比べて極めて少なく、文書ベクトルDjの大半の要素は0であることから、この方法では限界値に近づけない可能性がある。そこで、全文書について平均をとることで推定精度を向上させることを考える。ある次元における全文書についての|Ce|の式は式(8)となるので、これをいくつかの単語に対応する次元で計算し、平均をとることで文書集合全体の最適値|Ce|を得る。
【0051】
【数7】
以上から、推定トピック数|Ce|が算出されるので、該推定トピック数|Ce|に基づいて式(4)から補正ベクトルsjを計算し、さらに式(3)から文書ベクトルD’jを計算することができる。そして、本実施の形態における文書ベクトルD’jは、この本質的なトピック数|Ce|に基づいて生成された文書ベクトルとなっている。
【0052】
<システム動作>
上述したことを踏まえて、本実施の形態における文書分類・検索装置1の動作について図5乃至7を用いて説明する。ここで、図5及び6は、文書分類・検索装置1における文書分類処理のフローチャート図であり、図7は、検索処理のフローチャート図である。
【0053】
最初にトピックに基づいて複数の文書djを分類し、各文書djの文書ベクトルD’jを生成する動作について説明する。
【0054】
まず、文書分類部12は、文書記憶部11に記憶されている文書djを入力し、形態素解析をして、自立語を抽出し、単語を正規化する(ステップS1〜S4)。次に、文書djに出現するすべての単語の重要度を計算し、かつ、単語を該重要度の高い順に並べ替えた重要度の降順リストを作成する(ステップS5,S6)。そして、以上の処理を文書記憶部11に記憶されているすべての文書djに関して行う(ステップS7)。
【0055】
次に、全文書中から真の重要語のサンプルを選択する(ステップS8)。これは、0.01≦df/DN≦0.02、かつ、少なくとも1つ以上の文書djで重要度が一番高い単語である(tf・idfが文書内で最大である)ことを条件に選択するものである。そして、ストップワードのサンプルを選択する(ステップS9)。これは、df/DN≧0.25、かつ、ステップS8で選択された真の重要語が少なくとも1つ以上存在する文書djに出現することを条件に選択するものである。
【0056】
次に、γ’を決定し、これによりすべての真の重要語を決定する(ステップS10,S11)。そして、γを決定し、それぞれの文書djごとに真の重要語を決定し、真の重要語、即ちトピックごとに文書クラスタCkを作成する(ステップS12〜S15)。
【0057】
次に、すべての文書djに対して文書ベクトルDjを生成し、また、作成された文書クラスタCkすべてに対して代表ベクトルrkを生成する(ステップ16〜S19)。
【0058】
次に、本質的なトピック数|Ce|を算出し、該トピック数|Ce|に基づいて、文書ベクトルDjを補正し、この補正された文書ベクトルD’jをすべての文書djについて求め、文書記憶部11に登録する(ステップS20〜S23)。これにより、文書検索の検索対象となる文書djの文書ベクトルD’jが生成されたので、文書分類・検索装置1は検索処理可能な状態となる。
【0059】
次に、検索問い合わせを与えた場合の検索処理の動作について説明する。
【0060】
まず、検索問い合わせqjを入力すると、文書検索部13は、この検索問い合わせの特徴ベクトルQjを生成する(ステップS31,S32)。これは、上述したそれぞれの文書ベクトルDjを生成する方法と同様で、tf・idf法による重要度を計算して生成するものである。
【0061】
次に、文書記憶部11に記憶されているすべての文書djの文書ベクトルD’jと検索問い合わせの特徴ベクトルQjとの類似度を計算する(ステップS33)。その結果、得られた類似度を類似度の高い順に文書djを並べ替え、検索結果として、類似度の降順に並んだリストを出力する(ステップS34,S35)。これにより、文書分類・検索装置1から所望の検索結果が得られることになる。
【0062】
<テスト結果>
最後に、本実施の形態における文書分類・検索装置1において実際に検索処理を行った場合のテスト結果について説明する。図8は、NIST(米国標準技術規格局)がサポートしているTREC(Text Retrieval Conference;文書検索会議)と呼ばれる国際的な情報検索の精度ベンチマークの方法による測定結果である。尚、検索対象文書群と問い合わせの組は、TREC4SJMを使用している。また、図8における既存の検索手法による場合とは、検索対象文書群の文書分類を全く行わなかった場合、即ち、トピックによる文書クラスタを作成しなかった場合の検索結果である。
【0063】
図8によれば、本発明を適用した場合、即ち、トピックによる文書分類を行って、文書ベクトルを本質的なトピック数により補正した場合の検索結果は、既存の検索結果に比べて、検索精度が向上していることがわかる。
【0064】
以上のことから、本実施の形態の文書分類・検索装置1によれば、利用者が事前に分類を行った文書の分類例を文書分類・検索装置1に与えなくても、自動的に文書のトピックに基づいて文書分類をすることができるので、文書分類の手間がかからず、導入が容易であるという効果がある。また、従来においては、利用者が事前に分類を行った文書例を与えない場合には、排他的な文書分類しか行えなかったが、文書分類・検索装置1においては、1つの文書を複数の文書クラスタに分類することができるので、複数のトピックに跨る文書を適切に扱うことができる。
【0065】
また、文書分類・検索装置1は、文書に出現する単語の重要度を用いて、トピックとなり得る重要語を選択し、さらに、ストップワードを排除して、適切に真の重要語を決定し、トピックとするので、それぞれの文書のトピックが十分に反映された文書分類を行うことができ、以て、検索精度の向上に寄与することができる。そして、RSモデルに従って文書ベクトルを生成する過程において、本質的なトピック数を推定し、この本質的なトピック数を用いて文書分類を調整しているので、人間の判断による文書分類の特性に近づけた検索精度を実現することができる。
【0066】
以上、本発明の実施の形態について説明してきたが、本発明の要旨を逸脱しない範囲において、本発明の実施の形態に対して種々の変彩や変更を施すことができる。例えば、本実施の形態においては、単語の重要度をtf・idf法により計算したが、本発明における単語の重要度の計算は、tf・idf法に限定されるわけではなく、他の方法によって計算される重要度、例えば、尤度比、相互情報量、及びχ二乗値などを用いて重要度を表してもよい。そして、尤度比、相互情報量、及びχ二乗値を用いた場合においては、すべての2単語間の共起頻度を必要とするので、さらに重要度の精度を高めることができるという効果がある。尚、tf・idf法の計算式には数多くのバリエーションが存在するが、本実施の形態において用いた式(1)以外の他の計算式を用いて、重要度を計算してもよいのはもちろんである。
【0067】
また、本実施の形態においては、最適な方法として、γ及びγ’の双方を決定してトピックを選定したが、γだけであっても適切に決定されていれば、検索精度の向上が望めるものである。
【0068】
尚、本実施の形態の文書分類・検索装置1の一部もしくは全部の処理機能をコンピュータプログラムで構成し、そのコンピュータプログラムを用いて実行することにより本発明が実現できることはいうまでもない。そして、このコンピュータプログラムは、ハードデイスク、ROM(Read only Memory)、フレキシブルディスク、CD−ROM,MO(magneto−optic)、DVD(Digital Versatile Disk)、リムーバブルデイスクなどのコンピュータ読み取り可能な記録媒体に記録することも、通信ネットワークを介して配信することも可能である。
【0069】
【発明の効果】
以上説明したように、本発明によれば、利用者が事前に分類を行った文書の集まりをコンピュータシステムに与えなくても、トピックによる非排他的な文書分類を行うことができるとともに、該文書分類を検索に適用しても検索精度の向上に寄与することができる。
【図面の簡単な説明】
【図1】本発明の実施の形態に係る文書分類・検索装置の概略構成図である。
【図2】RSモデルの概念を説明する図である。
【図3】ストップワード及び真の重要語の重要度の順位と文書数の関係を示すグラフである。
【図4】本発明の実施の形態における重要語の選定及び文書クラスタの作成を説明する図である。
【図5】本発明の実施の形態に係る文書分類・検索装置の文書分類処理を示すフローチャート図である。
【図6】本発明の実施の形態に係る文書分類・検索装置の文書分類処理を示すフローチャート図である。
【図7】本発明の実施の形態に係る文書分類・検索装置の検索処理を示すフローチャート図である。
【図8】本発明の実施の形態に係る文書分類・検索装置の検索結果を示すグラフである。
【符号の説明】
1…文書分類・検索装置
11…文書記憶部
12…文書分類部
13…文書検索部
dj…文書
Dj,i…単語の重要度
Dj…文書ベクトル(特徴ベクトル)
D’j…補正された文書ベクトル
sj…補正ベクトル
qj…検索問い合わせ
Qj…検索問い合わせの特徴ベクトル
aj…検索結果
rk…代表ベクトル
Ck…文書クラスタ
Claims (6)
- 文書検索の検索対象として用いられる複数の文書をトピックに基づいて分類する文書分類方法であって、
前記複数の文書を記憶している文書記憶手段から前記複数の文書を取得して、それぞれの文書に含まれるすべての単語の重要度を計算するステップと、
前記それぞれの文書において前記単語を前記重要度の高い順に並べ替えて、重要度降順リストを作成するステップと、
前記複数の文書すべての中から前記重要度に関する値に従って、ストップワードのサンプル及び前記トピックになり得る重要語のサンプルを選定するステップと、
前記重要度降順リストの所定の順位以内に出現する前記ストップワードのサンプル及び前記重要語のサンプルを含む文書をそれぞれ集めたストップワード及び重要語の文書クラスタを作成し、両クラスタの文書数が同一となる前記所定の順位に基づいて重要語の最大数を決定するステップと、
前記それぞれの文書の前記重要度降順リストにおいて前記重要語の最大数の順位以内の単語をそれぞれの文書の重要語として決定し、該重要語を前記トピックとするトピック決定ステップと、
前記トピックごとに該トピックを含む文書を集めて文書クラスタを作成するステップと、
前記複数の文書すべての文書ベクトルを前記単語の重要度を要素して生成するステップと、
前記文書クラスタの代表ベクトルを該文書クラスタに含まれる文書の文書ベクトルの平均から計算するステップと、
前記それぞれの文書のトピックの個数の最小値を算出し、該最小値を前記それぞれの文書の本質的なトピック数と擬制するステップと、
前記それぞれの文書ごとに前記本質的なトピック数を用いて前記それぞれの文書が所属する前記文書クラスタの代表ベクトルの平均を計算し、該平均を文書ベクトルに反映させて文書ベクトルを補正し、この補正された文書ベクトルを前記文書記憶手段に記憶するステップと、
をコンピュータが実行することを特徴とする文書分類方法。 - 前記複数の文書すべての前記重要度降順リストにおいて、前記ストップワードのサンプルが出現しない順位のうち最低の値を真の重要語の最低順位として決定するステップと、
前記複数の文書すべてにおいて前記真の重要語の最低順位以内の単語すべてを真の重要語とするステップと、
を有し、前記トピック決定ステップは、
決定された重要語のうち、さらに、前記真の重要語である単語を前記トピックとすることを特徴とする請求項1記載の文書分類方法。 - 前記本質的なトピック数を前記複数の文書すべてについての本質的なトピック数として計算することを特徴とする請求項1又は2記載の文書分類方法。
- 文書検索の検索対象として用いられる複数の文書をトピックに基づいて分類する文書分類プログラムであって、
前記複数の文書を記憶している文書記憶手段から前記複数の文書を取得して、それぞれの文書に含まれるすべての単語の重要度を計算するステップと、
前記それぞれの文書において前記単語を前記重要度の高い順に並べ替えて、重要度降順リストを作成するステップと、
前記複数の文書すべての中から前記重要度に関する値に従って、ストップワードのサンプル及び前記トピックになり得る重要語のサンプルを選定するステップと、
前記重要度降順リストの所定の順位以内に出現する前記ストップワードのサンプル及び前記重要語のサンプルを含む文書をそれぞれ集めたストップワード及び重要語の文書クラスタを作成し、両クラスタの文書数が同一となる前記所定の順位に基づいて重要語の最大数を決定するステップと、
前記それぞれの文書の前記重要度降順リストにおいて前記重要語の最大数の順位以内の単語をそれぞれの文書の重要語として決定し、該重要語を前記トピックとするトピック決定ステップと、
前記トピックごとに該トピックを含む文書を集めて文書クラスタを作成するステップと、
前記複数の文書すべての文書ベクトルを前記単語の重要度を要素して生成するステップと、
前記文書クラスタの代表ベクトルを該文書クラスタに含まれる文書の文書ベクトルの平均から計算するステップと、
前記それぞれの文書のトピックの個数の最小値を算出し、該最小値を前記それぞれの文書の本質的なトピック数と擬制するステップと、
前記それぞれの文書ごとに前記本質的なトピック数を用いて前記それぞれの文書が所属する前記文書クラスタの代表ベクトルの平均を計算し、該平均を文書ベクトルに反映させて文書ベクトルを補正し、この補正された文書ベクトルを前記文書記憶手段に記憶するステップと、
をコンピュータに実行させることを特徴とする文書分類プログラム。 - 前記複数の文書すべての前記重要度降順リストにおいて、前記ストップワードのサンプルが出現しない順位のうち最低の値を真の重要語の最低順位として決定するステップと、
前記複数の文書すべてにおいて前記真の重要語の最低順位以内の単語すべてを真の重要語とするステップと、
を有し、前記トピック決定ステップは、
決定された重要語のうち、さらに、前記真の重要語である単語を前記トピックとすることを特徴とする請求項4記載の文書分類プログラム。 - 前記本質的なトピック数を前記複数の文書すべてについての本質的なトピック数として計算することを特徴とする請求項4又は5記載の文書分類プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003099429A JP3880534B2 (ja) | 2003-04-02 | 2003-04-02 | 文書分類方法及び文書分類プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003099429A JP3880534B2 (ja) | 2003-04-02 | 2003-04-02 | 文書分類方法及び文書分類プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004310199A true JP2004310199A (ja) | 2004-11-04 |
JP3880534B2 JP3880534B2 (ja) | 2007-02-14 |
Family
ID=33463899
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003099429A Expired - Fee Related JP3880534B2 (ja) | 2003-04-02 | 2003-04-02 | 文書分類方法及び文書分類プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3880534B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007334402A (ja) * | 2006-06-12 | 2007-12-27 | Hitachi Ltd | クラスタリングされたベクトルデータを検索するサーバ、システム及び方法 |
JP2008210335A (ja) * | 2007-02-28 | 2008-09-11 | Nippon Telegr & Teleph Corp <Ntt> | 意識体系構築装置、意識体系構築方法および意識体系構築プログラム |
JP2009134378A (ja) * | 2007-11-29 | 2009-06-18 | Hitachi Systems & Services Ltd | 文書群提示装置および文書群提示プログラム |
-
2003
- 2003-04-02 JP JP2003099429A patent/JP3880534B2/ja not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007334402A (ja) * | 2006-06-12 | 2007-12-27 | Hitachi Ltd | クラスタリングされたベクトルデータを検索するサーバ、システム及び方法 |
JP2008210335A (ja) * | 2007-02-28 | 2008-09-11 | Nippon Telegr & Teleph Corp <Ntt> | 意識体系構築装置、意識体系構築方法および意識体系構築プログラム |
JP4745993B2 (ja) * | 2007-02-28 | 2011-08-10 | 日本電信電話株式会社 | 意識体系構築装置および意識体系構築プログラム |
JP2009134378A (ja) * | 2007-11-29 | 2009-06-18 | Hitachi Systems & Services Ltd | 文書群提示装置および文書群提示プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP3880534B2 (ja) | 2007-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7496567B1 (en) | System and method for document categorization | |
US7409404B2 (en) | Creating taxonomies and training data for document categorization | |
US5943670A (en) | System and method for categorizing objects in combined categories | |
US8543380B2 (en) | Determining a document specificity | |
WO2017097231A1 (zh) | 话题处理方法及装置 | |
US20190347281A1 (en) | Apparatus and method for semantic search | |
JP2016532173A (ja) | 意味情報、キーワード拡張及びそれに関するキーワード検索の方法及びシステム | |
US10643031B2 (en) | System and method of content based recommendation using hypernym expansion | |
US20090204609A1 (en) | Determining Words Related To A Given Set Of Words | |
US20180341686A1 (en) | System and method for data search based on top-to-bottom similarity analysis | |
US9256649B2 (en) | Method and system of filtering and recommending documents | |
KR20070089449A (ko) | 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체. | |
US20080228752A1 (en) | Technical correlation analysis method for evaluating patents | |
CN111506727B (zh) | 文本内容类别获取方法、装置、计算机设备和存储介质 | |
US20090094209A1 (en) | Determining The Depths Of Words And Documents | |
CN108228612B (zh) | 一种提取网络事件关键词以及情绪倾向的方法及装置 | |
US20040139105A1 (en) | Information storage and retrieval | |
US20120130999A1 (en) | Method and Apparatus for Searching Electronic Documents | |
Takamura et al. | Text summarization model based on the budgeted median problem | |
CN104615723B (zh) | 查询词权重值的确定方法和装置 | |
JP5324677B2 (ja) | 類似文書検索支援装置及び類似文書検索支援プログラム | |
CN115617978A (zh) | 指标名称检索方法、装置、电子设备及存储介质 | |
US20090006347A1 (en) | Method and apparatus for conditional search operators | |
Hopfgartner et al. | Simulated evaluation of faceted browsing based on feature selection | |
JP2003016106A (ja) | 関連度値算出装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060425 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060623 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060725 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060911 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20061024 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20061107 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101117 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |