JP4807880B2

JP4807880B2 - 蓄積文書分類装置、蓄積文書分類方法、プログラムおよび記録媒体

Info

Publication number: JP4807880B2
Application number: JP2006284659A
Authority: JP
Inventors: 吉秀佐藤; 晴美川島; 裕一郎関口; 英範奥田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2006-10-19
Filing date: 2006-10-19
Publication date: 2011-11-02
Anticipated expiration: 2026-10-19
Also published as: JP2008102737A

Description

本発明は、文書集合をその内容に応じて分類するクラスタリング処理において、注目度が高い話題に関する文書の数が多く、注目度が低い話題に関する文書の数が少ない等のように、文書集合に内容的な偏りがある場合に、大きな話題に関連する文書を、他よりも細かい粒度で分類することによって、全体として見易い文書分類を行う技術に関する。

文書等の大量のデータを分類する場合、よく用いられるクラスタリング手法として、最短距離法、最長距離法、群平均法、ウォード法、ｋ−ｍｅａｎｓ法等があり、これらを大きく分けると、階層的手法と分割最適化手法とに分けることができる（たとえば、非特許文献１参照）。

上記「階層的手法」は、初期状態として、データ１個１個をそれぞれクラスタとみなし、最も距離的に近いクラスタ同士を結合しながら集約するボトムアップ手法、または、逆に、全データを含む１クラスタから開始し、このクラスタを分割しながら、細分化するトップダウン手法がある。いずれの方法も、生成されたクラスタ群は、デンドログラムと呼ぶ樹状の階層的構造を持ち、最下層では、個々のデータがクラスタを構成する最も細分化した状態になり、最上層では、全データが１クラスタに収まった最も集約された状態になる。任意の階層を指定すれば、任意のクラスタ数への分割を行うことができる。

一方、上記「分割最適化手法」は、予め分割するクラスタ数を指定し、分割の良さを表わす評価関数が最適になるように、個々のデータの所属するクラスタを変える手法である。

上記いずれの手法においても、文書内の各単語の出現回数等に基づいて、文書の非類似性を表わす文書間距離を計算し、文書間距離が近い文書同士を結合し、遠い文書同士を分離する方法で、文書集合の分類を実現する。

クラスタリング処理を行う際、たとえば、「文書集合を３個のクラスタに分割する」といった分類数の指定や、「文書間距離が０．９以下のクラスタのみ結合する」等、距離の閾値の指定を事前に行うことによって、粗い分類や細かい分類等、利用者が望む粒度で、文書を分類する。
神▲島▼敏弘著「データマイニング分野のクラスタリング手法（１）―クラスタリングを使ってみよう！―」人工知能学会誌、vol.18, no.1, pp.59-65(2003年1月)。

しかし、上記従来技術では、文書の内容に基づいてクラスタを形成するので、特定の話題に関連する文書数が多い場合、極端に大きなクラスタ（含まれている文書数が極端に多いクラスタ）が生成される一方、相対的に極めて小さなクラスタ（含まれている文書数が少ないクラスタ）も数多く生成される。大きなクラスタは、文書の内容が類似しているために生成されたものであるが、１つのクラスタに含まれている文書の数が多ければ、そのクラスタに含まれている文書間の類似度のばらつきが大きく、類似度が高い文書同士もあれば、類似度が多少低い文書同士もある。したがって、上記クラスタをさらに細分化すれば、そこに含まれている種々の細かな話題を発見し易い。

しかし、クラスタを細分化するために、分割数や距離の閾値の指定を変更すると、この変更による影響が文書集合全体に及び、元々小さいクラスタまでも細分化し、逆に様々な話題を発見することが困難になるという問題がある。

文書数が変化しない静的な文書集合を扱う場合、利用者が指定したクラスタのみを対象として、再度クラスタリング処理することによって細分化すれば、上記問題を解決できるので、特に大きな問題とはならない。

しかし、たとえばニュース記事のように、文書数が日々増加するような文書集合を対象とし、日々分類を行いながら話題を発見しようとする場合、大きな事件等の発生に起因して関連記事が急増し、極めて大きなクラスタが生成されると、その度に、細分化対象のクラスタを、利用者が指定する必要があり、利用者の負担が大きいという問題がある。

本発明は、文書集合に内容的な偏りがあることを考慮し、全体として見易い文書分類を、利用者の負担を少なくして実現することができる蓄積文書分類装置、蓄積文書分類方法、プログラムおよび記録媒体を提供することを目的とする。

本発明の蓄積文書分類装置は、文書間距離を算出する文書間距離算出手段と、各文書に記述されている内容の話題性の大きさを数値化し、この数値化した文書話題係数を更新する文書話題係数更新手段と、上記文書間距離と、上記文書における文書話題係数とに基づいて、各文書間距離を仮想的に拡大した文書間偏重距離を算出する文書間偏重距離算出手段と、上記文書間偏重距離に基づいて、近隣の文書同士を集約するクラスタリング手段とを有し、上記文書話題係数更新手段は、文書数が所定数よりも多いクラスタを選択し、この選択されたクラスタ以外のクラスタに含まれている文書の文書話題係数よりも大きな文書話題係数を、上記選択されたクラスタに含まれている文書に与える手段であることを特徴とする。

本発明によれば、文書集合に内容的な偏りがあることを考慮し、全体として見易い文書分類を、利用者の負担を少なくして実現することができるという効果を奏する。

発明を実施するための最良の形態は、以下の実施例である。

図１は、本発明の実施例１である蓄積文書分類装置１００を示すブロック図である。

蓄積文書分類装置１００は、ニュース記事等のように、逐次追加される性質の文書を対象として分類する実施例である。

蓄積文書分類装置１００は、文書記録部１１と、文書解析部１２と、文書情報管理部１３と、文書間距離算出部１４と、文書間距離記録部１５と、クラスタリング部１６と、クラスタ記録部１７と、文書話題係数更新部１８と、文書話題係数記録部１９とを有する。

図２は、蓄積文書分類装置１００の動作原理を示すフローチャートである。

まず、Ｓ１で、文書間の距離を算出する。Ｓ２で、各文書に記述されている内容の話題性が大きい文書について、各文書に記述されている内容の話題性の大きさを数値化する。続いて、Ｓ３で、各文書の上記文書話題係数を、他の文書との斥力のように扱い、Ｓ１で算出した文書間距離を仮想的に拡大した文書間偏重距離を算出する。最後に、Ｓ４で、上記文書間偏重距離に基づいて、近距離の文書同士を集約する（クラスタリングする）。

図３は、文書記録部１１に記録されているデータ例を示す図である。

文書記録部１１は、分析対象の文書データを、図３に示すように記録する。各文書には「０００１」、「０００２」等の一意な文書ＩＤを付与し、また、文書の作成時刻、収集時刻を取得できる場合、収集時刻等を、文書に付随する時刻情報に併せて記録する。

文書解析部１２は、文書記録部１１から、文書ＩＤ、時刻情報、本文の組を１文書ずつ取得し、本文を解析し、本文中に出現する単語とその出現回数とを集計し、文書ＩＤ、時刻情報と共に、文書情報管理部１３に記録する。

図４は、文書情報管理部１３に記録されているデータの例を示す図である。

文章は、名詞、動詞、助詞、感嘆詞、さらに記号等の様々な要素で構成されているが、図４に示す例は、本文中から「政府」、「消費税」等の名詞のみを取得した例である。

本文データから名詞を取得する場合、形態素解析等の文書解析手法を用いる。形態素解析を行うと、日本語文書を構成する最小単位である形態素への分かち書きを行うことができ、各形態素に「名詞」、「動詞」、「助詞」、「記号」等のタイプを付与することができる。文書解析部１２は、タイプが「名詞」である形態素のみを取得する。

文書間距離算出部１４は、文書情報管理部１３に登録されている文書のそれぞれについて、単語とその出現回数を取得し、異なる２文書間の距離を次に説明する方法で算出し、文書間距離記録部１５に記録する。

図５は、文書間距離記録部１５に記録されている文書間の距離を示す図である。

文書間距離記録部１５には、図５に示すように、互いに異なる２文書間の距離を記録し、管理する。文書間距離を算出する場合、基本的かつ精度の高い方法として知られるベクトル空間モデルを用いる。ベクトル空間モデルについては、たとえば、「北研二、津田和彦、獅々堀正幹著「情報検索アルゴリズム」共立出版、pp.60-63」に記載されている。このベクトル空間モデルは、文書中に出現する単語の重要度を数値化することによって、文書をベクトルで表現し、異なる２文書のベクトル間のコサイン非類似度を、上記文書間の距離とする方法である。この方法によって、内容が類似する２文書間の距離を、小さな値として数値化し、類似しない２文書間の距離を、大きな値として数値化することができる。

クラスタリング部１６は、文書間距離記録部１５に記録されている文書間距離を取得し、全ての文書について、内容が類似する文書毎にまとめ上げるクラスタリング処理を実行する。

図６は、クラスタ記録部１７に記録されているデータ例を示す図である。

クラスタリング部１６による処理結果は、図６に示すように、クラスタ記録部１７に記録する。図６に示す例では、生成された各クラスタに、「Ｃ００１」、「Ｃ００２」等の一意なクラスタＩＤを付与し、各クラスタに属する文書の文書ＩＤを列挙する形式を採用している。なお、クラスタ記録部１７は、文書話題係数更新部１８に、１クラス内の文書ＩＤの一覧を送る。

次に、クラスタリング部１６が行う処理について説明する。

図７は、蓄積文書分類装置１００におけるクラスタリング部１６の動作を示すフローチャートである。

文書間距離記録部１５に記録されている文書間距離の情報に加え、文書話題係数記録部１９に記録されている情報をも用いて処理する。

図８は、文書話題係数記録部１９に記録されているデータ例を示す図である。

図８に示すように、後述の方法で決定した文書話題係数と、文書ＩＤとを対にして、文書話題係数記録部１９が記録する。

Ｓ１１で、文書間距離記録部１５に記録されている２文書間の距離として、「０００１と０００２との間の距離＝０．６８」、「０００１と０００３との間の距離＝０．８９」、…を全て取得する。

Ｓ１２で、文書話題係数記録部１９から、文書ＩＤと文書話題係数との組を全て取得し、Ｓ１１で取得した文書間距離と照合して、２文書間の偏重距離を算出する。上記「偏重距離」は、第１、第２の文書の２つの文書の間において、第１、２の文書間の距離に、第１の文書の文書話題係数を乗じた距離である。上記「偏重距離」は、第１、第２の文書の２つの文書の間において、第１、２の文書間の距離に、第１、２の文書の文書話題係数のうちで大きい文書話題係数を乗じた値であると考えてもよい。

次に、文書ＩＤが０００１である文書と、文書ＩＤが０００２である文書との間の偏重距離を算出する具体例について説明する。

文書ＩＤが０００１である文書の文書話題係数が、１．２であり、文書ＩＤが０００２である文書の文書話題係数が、文書話題係数記録部１９に記録されていない場合であり、文書ＩＤが０００１である文書と文書ＩＤが０００２である文書との距離が、０．６８である場合、距離０．６８に、文書ＩＤが０００１である文書の文書話題係数１．２を乗じた値０．８１６が、これらの文書間の偏重距離である。

文書ＩＤが０００１、０００３である文書は、いずれも文書話題係数記録部１９に、文書話題係数が記録されているが、この場合、値のより大きな文書話題係数を採用する。このように、値のより大きな文書話題係数を採用するのは、大きな文書話題係数を使用することによって、当該クラスタを分裂し易くするためである。

実施例１では、いずれの文書話題係数も１．２であるので、この値（１．２）を、文書ＩＤが０００１、０００３である２つの文書の間の距離０．８９に乗じた１．０６８が、上記２つの文書の間の偏重距離である。

図８に示すように、０００２と０００４とのように、いずれの文書話題係数も存在しない場合、文書間距離自体を偏重距離とみなす。上記のようにして、全ての異なる２文書間の偏重距離を算出する。

Ｓ１３で、偏重距離を用いてクラスタリング処理を実施する。クラスタリング処理は、たとえば、最長距離法と呼ばれる手法を用いる。

上記「最長距離法」は、近いクラスタ同士を結合する手法であり、この場合、１つ目のクラスタに含まれている１つの文書と、２つ目のクラスタに含まれている１つの文書との距離のうちで、最も遠い距離を、上記１つ目のクラスタと上記２つ目のクラスタとの距離であるとみなしてクラスタリングする手法である。なお、上記「最長距離法」の詳細は、上記非特許文献１（神▲島▼敏弘著「データマイニング分野のクラスタリング手法（１）―クラスタリングを使ってみよう！―」人工知能学会誌、vol.18, no.1, pp.59-65(2003年1月)に記載されている。

クラスタリング処理を行うと、たとえば、０００１の文書と０００３の文書と００２２の文書と００２５の文書と００３０の文書とによって構成されるクラスタが生成され、他も同様に、１以上の文書からなるクラスタが多数生成される。これら生成された各クラスタには、たとえば、Ｃ００１、Ｃ００２等のように、クラスタを識別するクラスタＩＤを付与する。

最後に、Ｓ１４で、クラスタＩＤと、そのクラスタに属する文書ＩＤとの一覧を組みにして、図６に示すように、クラスタ記録部１７に出力する。

文書話題係数更新部１８は、クラスタリング処理の結果を利用して、各文書に記述されている内容の話題性の高さを示す文書話題係数を算出し、文書話題係数記録部１９に記録されている各文書の文書話題係数を更新する。

図９は、文書話題係数更新部１８が行う処理を示すフローチャートである。

まず、Ｓ２１で、クラスタ記録部１７から、未取得の１クラスタについて、含まれる文書ＩＤの一覧を取得し、その数を集計する。

たとえば、図６に示すように、クラスタＣ００１に含まれている文書のＩＤである「０００１」、「０００３」、「００２２」、「００２５」、「００３０」を取得すると、文書数が５であると集計される。

Ｓ２２では、Ｓ２１で集計した文書数が、予め定めた数（設定数）以上であるか否かを判定する。たとえば、上記設定数が１０文書であるとすると、クラスタＣ００１は１０文書以下であるので（Ｓ２２のＮＯ）、Ｓ２３、Ｓ２４のステップを実施せずに、Ｓ２５に進む。Ｓ２５では、全てのクラスタを処理し終えたかどうかを判定し、全てのクラスタの処理が終わるまで、Ｓ２１〜Ｓ２４の処理を繰り返す。

Ｓ２２で、上記設定数未満であると判定されると（Ｓ２２のＹＥＳ）、Ｓ２３で、クラスタ内の各文書の文書話題係数を算出する。

図１０は、文書話題係数の決定方法の一例を示す図である。

文書数がたとえば１０未満であるクラスタ内の全文書の文書話題係数を、たとえば１とし、文書数が１０以上であるクラスタ内の全文書の文書話題係数を１．２とする。つまり、前回のクラスタリング結果に基づいて文書数の多いクラスタを選択し、文書数が多くなるのは、その文書の注目度が高いためであると考え、上記クラスタに含まれている文書の文書話題係数を、他よりも大きな値とする。

なお、文書数が１０以上である場合に、文書話題係数を１．２にするように、一定値にするのではなく、文書数に応じて、文書話題係数を増加させるようにしてもよい。

つまり、「文書話題係数」は、特定の話題に関する文書の数が増加した場合に、これらの文書間の距離を仮想的に拡大させることによって、これらの文書がさらに細分化され易くするための斥力として用いる値である。したがって、文書数が１０以上であるクラスタ内の全文書の文書話題係数として、１よりも大きな値を与える必要がある。

Ｓ２４では、Ｓ２３で得た文書話題係数に基づいて、文書話題係数記録部１９に記録されている文書話題係数を更新する。このときに、文書話題係数が既に記録されていれば、新規に得られた文書話題係数を、記録済みの値に乗じて更新する。たとえば、文書ＩＤ００１８の文書の話題係数が１．２と記録され、Ｓ２３でも、文書ＩＤ００１８の文書の文書話題係数として１．２という値が得られたとすると、これらを掛け合わせた値「１．４４」を、更新後の００１８の文書話題係数として、文書話題係数記録部１９に記録する。一方、文書ＩＤ００１８の文書の文書話題係数が記録されていなければ、Ｓ２３で得られた値「１．２」をそのまま記録する。

上記Ｓ２１〜Ｓ２４の処理を、クラスタ記録部１７に記録されている全てのクラスタに処理し終えると（Ｓ２５の終了）、文書話題係数更新部１８は、処理を終了する。

上記実施例では、文書記録部１１に文書が追加入力されると、１文書の入力毎、数文書の入力毎、１時間毎、１日毎等、何らかのタイミングで、一連の処理を再実行する。このような繰り返し処理を行うと、文書数が多いクラスタが生成される度に、上記クラスタに含まれる文書の文書話題係数が、次々と大きな値へ更新される。クラスタリング部１６では、図７に示した処理を行う度に、文書話題係数記録部１９を参照するので、常に最新の文書話題係数が反映されたクラスタリング処理を行うことができる。

図１１は、文書増加によって、クラスタが分裂する様子を示す図である。

Ｃ００１〜Ｃ００３が存在し、Ｃ００３に含まれる文書（図１１中、文書を黒点で示す）数が多く、Ｓ２２で一定以上の文書数であると判定されたとする。このときに、Ｃ００３に含まれている文書には、文書話題係数（実施例１では１．２）が与えられ、これが他の文書との斥力として作用する。したがって、２度目のクラスタリング時には、Ｃ００３に含まれている文書間の距離は拡大し、また同時に、Ｃ００１やＣ００２内の文書と、Ｃ００３内の文書との距離も拡大する。その結果、Ｃ００３に含まれている文書は、２度目のクラスタリング処理では、２個のクラスタＣ００３とＣ００４とに分裂する。

たとえば、Ｃ００４内の文書と類似性が高い文書が、その後さらに増加すれば、Ｃ００４に含まれている文書は、さらに大きな文書話題係数を与えられ、以後のクラスタリング時に分裂する場合もある。

図１２は、本発明の実施例２である蓄積文書分類装置２００を示すブロック図である。

符号１１〜１９の名称は、実施例１における各名称と同一である。

蓄積文書分類装置２００は、文書記録部１１と、文書解析部１２と、文書情報管理部１３と、文書間距離算出部１４と、文書間距離記録部１５と、クラスタリング部１６と、クラスタ記録部１７と、文書話題係数更新部１８と、文書話題係数記録部１９と、単語話題度算出部２０と、単語話題度記録部２１とを有する。

文書話題係数更新部１８は、文書情報管理部１３から、文書ＩＤと単語一覧を取得する。単語話題度算出部２０は、文書情報管理部１３に記録されている各文書の時刻情報と、上記文書に出現する単語を取得し、各単語の現在時刻における話題性の大きさを数値化して、単語話題度記録部２１に出力する。

次に、蓄積文書分類装置２００の動作について説明する。

文書記録部１１に記録された文書を、文書解析部１２が、単語に分割し、出現回数を集計し、文書情報管理部１３に記録する手順と、文書情報管理部１３に記録された文書間の距離を、文書間距離算出部１４が算出し、文書間距離記録部１５に記録するまでの手順は、実施例１と同様である。

図１３は、単語話題度算出部２０における動作を示すフローチャートである。

単語話題度算出部２０は、Ｓ３１で、過去の処理の結果記録された内容が、単語話題度記録部２１に残っていれば、それを全て削除する。このように、過去の処理結果を削除するのは、常に最新の結果に基づいて、単語話題度を算出するためである。

Ｓ３２で、文書情報管理部１３に記録された文書のうちで、最新ｍ日以内の時刻情報を持つ１文書について、上記時刻情報と、単語と、その出現回数とを取得する。

続いて、Ｓ３２で取得した各単語について、最新ｍ日での総出現回数と、最新ｎ日（ｍ＞ｎとする）での総出現回数とをそれぞれ集計し、バッファに保持する（Ｓ３３）。

最新ｍ日以内の時刻情報を持つ文書の処理が終わるまで（Ｓ３４のＹＥＳ）、Ｓ３２とＳ３３との処理を繰り返す。ここまでの処理を終えると、「政府」や「消費税」等、各単語が出現する回数の合計値（総出現回数）が、最新ｍ日、最新ｎ日のそれぞれについて集計される。

Ｓ３５で、各単語の最新ｎ日での総出現回数を、最新ｍ日での総出現回数で割って、単語話題度を算出する。ｍやｎの値を固定値としてもよいが、ここでは、ｍとして、入力文書のうちで最も古い文書と最も新しい文書との時刻情報の差分を与え、さらに、ｎ＝ｍ／４としてｎの値を決定とする。たとえば、最も古い文書が８月１日であり、最も新しい文書が８月２８日であったとすると、ｍ＝２８、ｎ＝２８／４＝７となる。したがって、最新７日での総出現回数と最新２８日（すなわち全期間）での総出現回数との比を得る。この比は、直近７日間における当該単語の話題の程度を示すものであり、着目している単語について、上記比の推移を見ると、上記着目している単語についての話題性の変化を認識することができる。

最後に、Ｓ３６で、単語話題度が一定値以上の単語についてのみ、単語と単語話題度とを、単語話題度記録部２１に記録する。

図１４は、実施例２における単語話題度記録２１におけるデータ例を示す図である。

図１４に示す例は、単語話題度が０．３未満の単語を無視し、０．３以上の単語についてのみ記録した例である。

「今日」や「これ」のような一般的な単語が、時期によらず一定の頻度で出現すると仮定すると、７日間に１００回出現した単語は、２８日間では４００回出現することになり、単語話題度は１／４、すなわち０．２５になる。図１４に示す例では、単語話題度が０．３以上の単語のみを記録しているので、最近７日間で、以前に比べて出現回数が増加した単語が選択される。

続いて、実施例２における文書話題係数更新部１８が行う処理について説明する。

図１５は、実施例２における文書話題係数更新部１８が行う処理を示すフローチャートである。

まず、Ｓ４１で、文書話題係数記録部１９に記録されている内容があれば、それを全て削除する。このように、過去の文書話題係数を記録から削除するのは、常に最新の文書話題係数を記録するためである。Ｓ４２で、文書情報管理部１３中の１文書について、文書ＩＤと単語との一覧を取得する。Ｓ４３では、Ｓ４２で取得した単語を、単語話題度記録部２１に照会し、同一の単語が、単語話題度記録部２１中に存在するか否かを確認する。重複がある場合にのみ（Ｓ４３のＹＥＳ）、文書話題係数を算出するＳ４４に移る。

Ｓ４４では、Ｓ４３で重複があると判定した文書について、文書話題係数を算出する。文書話題係数を決定する最も単純な方法は、文書話題係数を、全て１．２のような固定値にする方法である。すなわち、Ｓ４３で重複があると判定された文書の文書話題係数を、全て１．２とする方法が、最も単純な方法である。算出した文書話題係数を文書ＩＤとともに、文書話題係数記録部１９に、実施例１と同様に、図８に示すように記録する。

なお、文書話題係数の決定方法が唯一ではなく、単語の盛り上がりの度合いを表わす数値である単語話題度を用い、単語話題度の大きい単語を含む文書ほど、もしくは単語話題度の大きい単語を数多く含む文書ほど、大きな文書話題係数を付与する方法もある。

Ｓ４２〜Ｓ４４の処理を、全ての文書について繰り返すと、処理が終了する（Ｓ４５の終了）。

図１５に示す処理によって、文書話題係数記録部１９には、単語話題度記録部２１に記録された単語（話題性の高い単語）を含む文書の文書話題係数のみが記録される。

実施例１のように文書話題係数を乗算で更新するのではなく処理の度に、Ｓ４１で削除する理由は、単語話題度が現在時刻を基点として算出する値であり、時間経過後に算出する場合、その時刻を基点として、新規に算出し直した値を用いる必要があるためである。

クラスタリング部１６が行う処理は、実施例１における処理と同様である。

上記実施例によれば、大きなクラスタに含まれる文書に対して、他の文書との間に斥力を作用させることによって、他の文書との距離を仮想的に増加させ、文書が集中した高密度の領域のみを細かい粒度で、他の領域は通常の粒度で分類することができる。

また、上記実施例によれば、文書が逐次増加する状況において、最新の偏り状況に基づいて、文書間距離を自動的に拡大するので、適切な粒度で分類するために必要であった利用者の作業が不要になる。

さらに、上記実施例によれば、変化しない文書間距離を記録し、時間経過と共に変化する文書話題度だけを更新するので、毎回文書間距離を計算する方法に比べ、処理が高速である。

上記実施例を方法の発明として把握することができる。つまり、上記実施例は、文書間の距離を算出し、記憶装置に記憶する文書間距離算出工程と、各文書に記述されている内容の話題性の大きさを数値化し、この数値化した文書話題係数を更新し、記憶装置に記憶する文書話題係数更新工程と、上記文書間の距離と、上記文書における文書話題係数とに基づいて、各文書間距離を仮想的に拡大した文書間偏重距離を算出し、記憶装置に記憶する文書間偏重距離算出工程と、上記文書間偏重距離に基づいて、近隣の文書同士を集約し、記憶装置に記憶するクラスタリング工程とを有する蓄積文書分類方法の例である。

また、上記実施例をプログラムの発明として把握することができる。つまり、上記実施例は、文書間の距離を算出し、記憶装置に記憶する文書間距離算出手順と、各文書に記述されている内容の話題性の大きさを数値化し、この数値化した文書話題係数を更新し、記憶装置に記憶する文書話題係数更新手順と、上記文書間の距離と、上記文書における文書話題係数とに基づいて、各文書間距離を仮想的に拡大した文書間偏重距離を算出し、記憶装置に記憶する文書間偏重距離算出手順と、上記文書間偏重距離に基づいて、近隣の文書同士を集約し、記憶装置に記憶するクラスタリング手順とをコンピュータに実行させるプログラムの例である。

さらに、上記プログラムを、ＣＤ、ＤＶＤ、ＨＤ、半導体メモリ等の記録媒体に記録するようにしてもよい。

本発明の実施例１である蓄積文書分類装置１００を示すブロック図である。蓄積文書分類装置１００の動作原理を示すフローチャートである。文書記録部１１に記録されているデータ例を示す図である。文書情報管理部１３に記録されているデータの例を示す図である。文書間距離記録部１５に記録されている文書間の距離を示す図である。クラスタ記録部１７に記録されているデータ例を示す図である。蓄積文書分類装置１００におけるクラスタリング部１６の動作を示すフローチャートである。文書話題係数記録部１９に記録されているデータ例を示す図である。文書話題係数更新部１８が行う処理を示すフローチャートである。文書話題係数の決定方法の一例を示す図である。文書増加によって、クラスタが分裂する様子を示す図である。本発明の実施例２である蓄積文書分類装置２００を示すブロック図である。単語話題度算出部２０における動作を示すフローチャートである。実施例２における単語話題度記録２１におけるデータ例を示す図である。実施例２における文書話題係数更新部１８が行う処理を示すフローチャートである。

符号の説明

１００…蓄積文書分類装置、
１１…文書記録部、
１２…文書解析部、
１３…文書情報管理部、
１４…文書間距離算出部、
１５…文書間距離記録部、
１６…クラスタリング部、
１７…クラスタ記録部、
１８…文書話題係数更新部、
１９…文書話題係数記録部、
２０…単語話題度算出部、
２１…単語話題度記録部。

Claims

文書間距離を算出する文書間距離算出手段と；
各文書に記述されている内容の話題性の大きさを数値化し、この数値化した文書話題係数を更新する文書話題係数更新手段と；
上記文書間距離と、上記文書における文書話題係数とに基づいて、各文書間距離を仮想的に拡大した文書間偏重距離を算出する文書間偏重距離算出手段と；
上記文書間偏重距離に基づいて、近隣の文書同士を集約するクラスタリング手段と；
を有し、
上記文書話題係数更新手段は、文書数が所定数よりも多いクラスタを選択し、この選択されたクラスタ以外のクラスタに含まれている文書の文書話題係数よりも大きな文書話題係数を、上記選択されたクラスタに含まれている文書に与える手段であることを特徴とする蓄積文書分類装置。
文書間距離を算出する文書間距離算出手段と；
各文書に記述されている内容の話題性の大きさを数値化し、この数値化した文書話題係数を更新する文書話題係数更新手段と；
上記文書間距離と、上記文書における文書話題係数とに基づいて、各文書間距離を仮想的に拡大した文書間偏重距離を算出する文書間偏重距離算出手段と；
上記文書間偏重距離に基づいて、近隣の文書同士を集約するクラスタリング手段と；
を有し、
上記文書話題係数更新手段は、入力文書集合中の単語の出現頻度の時間的変化を検出し、この検出の結果、以前よりも出現頻度が増加した単語を含む文書について、他の文書よりも大きな文書話題係数を与える手段であることを特徴とする蓄積文書分類装置。
文書間距離を算出し、記憶装置に記憶する文書間距離算出工程と；
各文書に記述されている内容の話題性の大きさを数値化し、この数値化した文書話題係数を更新し、記憶装置に記憶する文書話題係数更新工程と；
上記文書間距離と、上記文書における文書話題係数とに基づいて、各文書間距離を仮想的に拡大した文書間偏重距離を算出し、記憶装置に記憶する文書間偏重距離算出工程と；
上記文書間偏重距離に基づいて、近隣の文書同士を集約し、記憶装置に記憶するクラスタリング工程と；
を有し、
上記文書話題係数更新工程は、文書数が所定数よりも多いクラスタを選択し、この選択されたクラスタ以外のクラスタに含まれている文書の文書話題係数よりも大きな文書話題係数を、上記選択されたクラスタに含まれている文書に与える工程であることを特徴とする蓄積文書分類方法。
文書間距離を算出し、記憶装置に記憶する文書間距離算出工程と；
各文書に記述されている内容の話題性の大きさを数値化し、この数値化した文書話題係数を更新し、記憶装置に記憶する文書話題係数更新工程と；
上記文書間距離と、上記文書における文書話題係数とに基づいて、各文書間距離を仮想的に拡大した文書間偏重距離を算出し、記憶装置に記憶する文書間偏重距離算出工程と；
上記文書間偏重距離に基づいて、近隣の文書同士を集約し、記憶装置に記憶するクラスタリング工程と；
を有し、
上記文書話題係数更新工程は、入力文書集合中の単語の出現頻度の時間的変化を検出し、この検出の結果、以前よりも出現頻度が増加した単語を含む文書について、他の文書よりも大きな文書話題係数を与える工程であることを特徴とする蓄積文書分類方法。
請求項１または請求項２に記載の装置を構成する各手段としてコンピュータを機能させるプログラム。
請求項１または請求項２に記載の装置を構成する各手段としてコンピュータを機能させるプログラムを記録したコンピュータ読取可能な記録媒体。