JP4807880B2 - 蓄積文書分類装置、蓄積文書分類方法、プログラムおよび記録媒体 - Google Patents

蓄積文書分類装置、蓄積文書分類方法、プログラムおよび記録媒体 Download PDF

Info

Publication number
JP4807880B2
JP4807880B2 JP2006284659A JP2006284659A JP4807880B2 JP 4807880 B2 JP4807880 B2 JP 4807880B2 JP 2006284659 A JP2006284659 A JP 2006284659A JP 2006284659 A JP2006284659 A JP 2006284659A JP 4807880 B2 JP4807880 B2 JP 4807880B2
Authority
JP
Japan
Prior art keywords
document
inter
distance
topic
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006284659A
Other languages
English (en)
Other versions
JP2008102737A (ja
Inventor
吉秀 佐藤
晴美 川島
裕一郎 関口
英範 奥田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2006284659A priority Critical patent/JP4807880B2/ja
Publication of JP2008102737A publication Critical patent/JP2008102737A/ja
Application granted granted Critical
Publication of JP4807880B2 publication Critical patent/JP4807880B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書集合をその内容に応じて分類するクラスタリング処理において、注目度が高い話題に関する文書の数が多く、注目度が低い話題に関する文書の数が少ない等のように、文書集合に内容的な偏りがある場合に、大きな話題に関連する文書を、他よりも細かい粒度で分類することによって、全体として見易い文書分類を行う技術に関する。
文書等の大量のデータを分類する場合、よく用いられるクラスタリング手法として、最短距離法、最長距離法、群平均法、ウォード法、k−means法等があり、これらを大きく分けると、階層的手法と分割最適化手法とに分けることができる(たとえば、非特許文献1参照)。
上記「階層的手法」は、初期状態として、データ1個1個をそれぞれクラスタとみなし、最も距離的に近いクラスタ同士を結合しながら集約するボトムアップ手法、または、逆に、全データを含む1クラスタから開始し、このクラスタを分割しながら、細分化するトップダウン手法がある。いずれの方法も、生成されたクラスタ群は、デンドログラムと呼ぶ樹状の階層的構造を持ち、最下層では、個々のデータがクラスタを構成する最も細分化した状態になり、最上層では、全データが1クラスタに収まった最も集約された状態になる。任意の階層を指定すれば、任意のクラスタ数への分割を行うことができる。
一方、上記「分割最適化手法」は、予め分割するクラスタ数を指定し、分割の良さを表わす評価関数が最適になるように、個々のデータの所属するクラスタを変える手法である。
上記いずれの手法においても、文書内の各単語の出現回数等に基づいて、文書の非類似性を表わす文書間距離を計算し、文書間距離が近い文書同士を結合し、遠い文書同士を分離する方法で、文書集合の分類を実現する。
クラスタリング処理を行う際、たとえば、「文書集合を3個のクラスタに分割する」といった分類数の指定や、「文書間距離が0.9以下のクラスタのみ結合する」等、距離の閾値の指定を事前に行うことによって、粗い分類や細かい分類等、利用者が望む粒度で、文書を分類する。
神▲島▼敏弘著「データマイニング分野のクラスタリング手法(1)―クラスタリングを使ってみよう!―」人工知能学会誌、vol.18, no.1, pp.59-65(2003年1月)。
しかし、上記従来技術では、文書の内容に基づいてクラスタを形成するので、特定の話題に関連する文書数が多い場合、極端に大きなクラスタ(含まれている文書数が極端に多いクラスタ)が生成される一方、相対的に極めて小さなクラスタ(含まれている文書数が少ないクラスタ)も数多く生成される。大きなクラスタは、文書の内容が類似しているために生成されたものであるが、1つのクラスタに含まれている文書の数が多ければ、そのクラスタに含まれている文書間の類似度のばらつきが大きく、類似度が高い文書同士もあれば、類似度が多少低い文書同士もある。したがって、上記クラスタをさらに細分化すれば、そこに含まれている種々の細かな話題を発見し易い。
しかし、クラスタを細分化するために、分割数や距離の閾値の指定を変更すると、この変更による影響が文書集合全体に及び、元々小さいクラスタまでも細分化し、逆に様々な話題を発見することが困難になるという問題がある。
文書数が変化しない静的な文書集合を扱う場合、利用者が指定したクラスタのみを対象として、再度クラスタリング処理することによって細分化すれば、上記問題を解決できるので、特に大きな問題とはならない。
しかし、たとえばニュース記事のように、文書数が日々増加するような文書集合を対象とし、日々分類を行いながら話題を発見しようとする場合、大きな事件等の発生に起因して関連記事が急増し、極めて大きなクラスタが生成されると、その度に、細分化対象のクラスタを、利用者が指定する必要があり、利用者の負担が大きいという問題がある。
本発明は、文書集合に内容的な偏りがあることを考慮し、全体として見易い文書分類を、利用者の負担を少なくして実現することができる蓄積文書分類装置、蓄積文書分類方法、プログラムおよび記録媒体を提供することを目的とする。
本発明の蓄積文書分類装置は、文書間距離を算出する文書間距離算出手段と、各文書に記述されている内容の話題性の大きさを数値化し、この数値化した文書話題係数を更新する文書話題係数更新手段と、上記文書間距離と、上記文書における文書話題係数とに基づいて、各文書間距離を仮想的に拡大した文書間偏重距離を算出する文書間偏重距離算出手段と、上記文書間偏重距離に基づいて、近隣の文書同士を集約するクラスタリング手段とを有し、上記文書話題係数更新手段は、文書数が所定数よりも多いクラスタを選択し、この選択されたクラスタ以外のクラスタに含まれている文書の文書話題係数よりも大きな文書話題係数を、上記選択されたクラスタに含まれている文書に与える手段であることを特徴とする。
本発明によれば、文書集合に内容的な偏りがあることを考慮し、全体として見易い文書分類を、利用者の負担を少なくして実現することができるという効果を奏する。
発明を実施するための最良の形態は、以下の実施例である。
図1は、本発明の実施例1である蓄積文書分類装置100を示すブロック図である。
蓄積文書分類装置100は、ニュース記事等のように、逐次追加される性質の文書を対象として分類する実施例である。
蓄積文書分類装置100は、文書記録部11と、文書解析部12と、文書情報管理部13と、文書間距離算出部14と、文書間距離記録部15と、クラスタリング部16と、クラスタ記録部17と、文書話題係数更新部18と、文書話題係数記録部19とを有する。
図2は、蓄積文書分類装置100の動作原理を示すフローチャートである。
まず、S1で、文書間の距離を算出する。S2で、各文書に記述されている内容の話題性が大きい文書について、各文書に記述されている内容の話題性の大きさを数値化する。続いて、S3で、各文書の上記文書話題係数を、他の文書との斥力のように扱い、S1で算出した文書間距離を仮想的に拡大した文書間偏重距離を算出する。最後に、S4で、上記文書間偏重距離に基づいて、近距離の文書同士を集約する(クラスタリングする)。
図3は、文書記録部11に記録されているデータ例を示す図である。
文書記録部11は、分析対象の文書データを、図3に示すように記録する。各文書には「0001」、「0002」等の一意な文書IDを付与し、また、文書の作成時刻、収集時刻を取得できる場合、収集時刻等を、文書に付随する時刻情報に併せて記録する。
文書解析部12は、文書記録部11から、文書ID、時刻情報、本文の組を1文書ずつ取得し、本文を解析し、本文中に出現する単語とその出現回数とを集計し、文書ID、時刻情報と共に、文書情報管理部13に記録する。
図4は、文書情報管理部13に記録されているデータの例を示す図である。
文章は、名詞、動詞、助詞、感嘆詞、さらに記号等の様々な要素で構成されているが、図4に示す例は、本文中から「政府」、「消費税」等の名詞のみを取得した例である。
本文データから名詞を取得する場合、形態素解析等の文書解析手法を用いる。形態素解析を行うと、日本語文書を構成する最小単位である形態素への分かち書きを行うことができ、各形態素に「名詞」、「動詞」、「助詞」、「記号」等のタイプを付与することができる。文書解析部12は、タイプが「名詞」である形態素のみを取得する。
文書間距離算出部14は、文書情報管理部13に登録されている文書のそれぞれについて、単語とその出現回数を取得し、異なる2文書間の距離を次に説明する方法で算出し、文書間距離記録部15に記録する。
図5は、文書間距離記録部15に記録されている文書間の距離を示す図である。
文書間距離記録部15には、図5に示すように、互いに異なる2文書間の距離を記録し、管理する。文書間距離を算出する場合、基本的かつ精度の高い方法として知られるベクトル空間モデルを用いる。ベクトル空間モデルについては、たとえば、「北研二、津田和彦、獅々堀正幹著「情報検索アルゴリズム」共立出版、pp.60-63」に記載されている。このベクトル空間モデルは、文書中に出現する単語の重要度を数値化することによって、文書をベクトルで表現し、異なる2文書のベクトル間のコサイン非類似度を、上記文書間の距離とする方法である。この方法によって、内容が類似する2文書間の距離を、小さな値として数値化し、類似しない2文書間の距離を、大きな値として数値化することができる。
クラスタリング部16は、文書間距離記録部15に記録されている文書間距離を取得し、全ての文書について、内容が類似する文書毎にまとめ上げるクラスタリング処理を実行する。
図6は、クラスタ記録部17に記録されているデータ例を示す図である。
クラスタリング部16による処理結果は、図6に示すように、クラスタ記録部17に記録する。図6に示す例では、生成された各クラスタに、「C001」、「C002」等の一意なクラスタIDを付与し、各クラスタに属する文書の文書IDを列挙する形式を採用している。なお、クラスタ記録部17は、文書話題係数更新部18に、1クラス内の文書IDの一覧を送る。
次に、クラスタリング部16が行う処理について説明する。
図7は、蓄積文書分類装置100におけるクラスタリング部16の動作を示すフローチャートである。
文書間距離記録部15に記録されている文書間距離の情報に加え、文書話題係数記録部19に記録されている情報をも用いて処理する。
図8は、文書話題係数記録部19に記録されているデータ例を示す図である。
図8に示すように、後述の方法で決定した文書話題係数と、文書IDとを対にして、文書話題係数記録部19が記録する。
S11で、文書間距離記録部15に記録されている2文書間の距離として、「0001と0002との間の距離=0.68」、「0001と0003との間の距離=0.89」、…を全て取得する。
S12で、文書話題係数記録部19から、文書IDと文書話題係数との組を全て取得し、S11で取得した文書間距離と照合して、2文書間の偏重距離を算出する。上記「偏重距離」は、第1、第2の文書の2つの文書の間において、第1、2の文書間の距離に、第1の文書の文書話題係数を乗じた距離である。上記「偏重距離」は、第1、第2の文書の2つの文書の間において、第1、2の文書間の距離に、第1、2の文書の文書話題係数のうちで大きい文書話題係数を乗じた値であると考えてもよい。
次に、文書IDが0001である文書と、文書IDが0002である文書との間の偏重距離を算出する具体例について説明する。
文書IDが0001である文書の文書話題係数が、1.2であり、文書IDが0002である文書の文書話題係数が、文書話題係数記録部19に記録されていない場合であり、文書IDが0001である文書と文書IDが0002である文書との距離が、0.68である場合、距離0.68に、文書IDが0001である文書の文書話題係数1.2を乗じた値0.816が、これらの文書間の偏重距離である。
文書IDが0001、0003である文書は、いずれも文書話題係数記録部19に、文書話題係数が記録されているが、この場合、値のより大きな文書話題係数を採用する。このように、値のより大きな文書話題係数を採用するのは、大きな文書話題係数を使用することによって、当該クラスタを分裂し易くするためである。
実施例1では、いずれの文書話題係数も1.2であるので、この値(1.2)を、文書IDが0001、0003である2つの文書の間の距離0.89に乗じた1.068が、上記2つの文書の間の偏重距離である。
図8に示すように、0002と0004とのように、いずれの文書話題係数も存在しない場合、文書間距離自体を偏重距離とみなす。上記のようにして、全ての異なる2文書間の偏重距離を算出する。
S13で、偏重距離を用いてクラスタリング処理を実施する。クラスタリング処理は、たとえば、最長距離法と呼ばれる手法を用いる。
上記「最長距離法」は、近いクラスタ同士を結合する手法であり、この場合、1つ目のクラスタに含まれている1つの文書と、2つ目のクラスタに含まれている1つの文書との距離のうちで、最も遠い距離を、上記1つ目のクラスタと上記2つ目のクラスタとの距離であるとみなしてクラスタリングする手法である。なお、上記「最長距離法」の詳細は、上記非特許文献1(神▲島▼敏弘著「データマイニング分野のクラスタリング手法(1)―クラスタリングを使ってみよう!―」人工知能学会誌、vol.18, no.1, pp.59-65(2003年1月)に記載されている。
クラスタリング処理を行うと、たとえば、0001の文書と0003の文書と0022の文書と0025の文書と0030の文書とによって構成されるクラスタが生成され、他も同様に、1以上の文書からなるクラスタが多数生成される。これら生成された各クラスタには、たとえば、C001、C002等のように、クラスタを識別するクラスタIDを付与する。
最後に、S14で、クラスタIDと、そのクラスタに属する文書IDとの一覧を組みにして、図6に示すように、クラスタ記録部17に出力する。
文書話題係数更新部18は、クラスタリング処理の結果を利用して、各文書に記述されている内容の話題性の高さを示す文書話題係数を算出し、文書話題係数記録部19に記録されている各文書の文書話題係数を更新する。
図9は、文書話題係数更新部18が行う処理を示すフローチャートである。
まず、S21で、クラスタ記録部17から、未取得の1クラスタについて、含まれる文書IDの一覧を取得し、その数を集計する。
たとえば、図6に示すように、クラスタC001に含まれている文書のIDである「0001」、「0003」、「0022」、「0025」、「0030」を取得すると、文書数が5であると集計される。
S22では、S21で集計した文書数が、予め定めた数(設定数)以上であるか否かを判定する。たとえば、上記設定数が10文書であるとすると、クラスタC001は10文書以下であるので(S22のNO)、S23、S24のステップを実施せずに、S25に進む。S25では、全てのクラスタを処理し終えたかどうかを判定し、全てのクラスタの処理が終わるまで、S21〜S24の処理を繰り返す。
S22で、上記設定数未満であると判定されると(S22のYES)、S23で、クラスタ内の各文書の文書話題係数を算出する。
図10は、文書話題係数の決定方法の一例を示す図である。
文書数がたとえば10未満であるクラスタ内の全文書の文書話題係数を、たとえば1とし、文書数が10以上であるクラスタ内の全文書の文書話題係数を1.2とする。つまり、前回のクラスタリング結果に基づいて文書数の多いクラスタを選択し、文書数が多くなるのは、その文書の注目度が高いためであると考え、上記クラスタに含まれている文書の文書話題係数を、他よりも大きな値とする。
なお、文書数が10以上である場合に、文書話題係数を1.2にするように、一定値にするのではなく、文書数に応じて、文書話題係数を増加させるようにしてもよい。
つまり、「文書話題係数」は、特定の話題に関する文書の数が増加した場合に、これらの文書間の距離を仮想的に拡大させることによって、これらの文書がさらに細分化され易くするための斥力として用いる値である。したがって、文書数が10以上であるクラスタ内の全文書の文書話題係数として、1よりも大きな値を与える必要がある。
S24では、S23で得た文書話題係数に基づいて、文書話題係数記録部19に記録されている文書話題係数を更新する。このときに、文書話題係数が既に記録されていれば、新規に得られた文書話題係数を、記録済みの値に乗じて更新する。たとえば、文書ID0018の文書の話題係数が1.2と記録され、S23でも、文書ID0018の文書の文書話題係数として1.2という値が得られたとすると、これらを掛け合わせた値「1.44」を、更新後の0018の文書話題係数として、文書話題係数記録部19に記録する。一方、文書ID0018の文書の文書話題係数が記録されていなければ、S23で得られた値「1.2」をそのまま記録する。
上記S21〜S24の処理を、クラスタ記録部17に記録されている全てのクラスタに処理し終えると(S25の終了)、文書話題係数更新部18は、処理を終了する。
上記実施例では、文書記録部11に文書が追加入力されると、1文書の入力毎、数文書の入力毎、1時間毎、1日毎等、何らかのタイミングで、一連の処理を再実行する。このような繰り返し処理を行うと、文書数が多いクラスタが生成される度に、上記クラスタに含まれる文書の文書話題係数が、次々と大きな値へ更新される。クラスタリング部16では、図7に示した処理を行う度に、文書話題係数記録部19を参照するので、常に最新の文書話題係数が反映されたクラスタリング処理を行うことができる。
図11は、文書増加によって、クラスタが分裂する様子を示す図である。
C001〜C003が存在し、C003に含まれる文書(図11中、文書を黒点で示す)数が多く、S22で一定以上の文書数であると判定されたとする。このときに、C003に含まれている文書には、文書話題係数(実施例1では1.2)が与えられ、これが他の文書との斥力として作用する。したがって、2度目のクラスタリング時には、C003に含まれている文書間の距離は拡大し、また同時に、C001やC002内の文書と、C003内の文書との距離も拡大する。その結果、C003に含まれている文書は、2度目のクラスタリング処理では、2個のクラスタC003とC004とに分裂する。
たとえば、C004内の文書と類似性が高い文書が、その後さらに増加すれば、C004に含まれている文書は、さらに大きな文書話題係数を与えられ、以後のクラスタリング時に分裂する場合もある。
図12は、本発明の実施例2である蓄積文書分類装置200を示すブロック図である。
符号11〜19の名称は、実施例1における各名称と同一である。
蓄積文書分類装置200は、文書記録部11と、文書解析部12と、文書情報管理部13と、文書間距離算出部14と、文書間距離記録部15と、クラスタリング部16と、クラスタ記録部17と、文書話題係数更新部18と、文書話題係数記録部19と、単語話題度算出部20と、単語話題度記録部21とを有する。
文書話題係数更新部18は、文書情報管理部13から、文書IDと単語一覧を取得する。単語話題度算出部20は、文書情報管理部13に記録されている各文書の時刻情報と、上記文書に出現する単語を取得し、各単語の現在時刻における話題性の大きさを数値化して、単語話題度記録部21に出力する。
次に、蓄積文書分類装置200の動作について説明する。
文書記録部11に記録された文書を、文書解析部12が、単語に分割し、出現回数を集計し、文書情報管理部13に記録する手順と、文書情報管理部13に記録された文書間の距離を、文書間距離算出部14が算出し、文書間距離記録部15に記録するまでの手順は、実施例1と同様である。
図13は、単語話題度算出部20における動作を示すフローチャートである。
単語話題度算出部20は、S31で、過去の処理の結果記録された内容が、単語話題度記録部21に残っていれば、それを全て削除する。このように、過去の処理結果を削除するのは、常に最新の結果に基づいて、単語話題度を算出するためである。
S32で、文書情報管理部13に記録された文書のうちで、最新m日以内の時刻情報を持つ1文書について、上記時刻情報と、単語と、その出現回数とを取得する。
続いて、S32で取得した各単語について、最新m日での総出現回数と、最新n日(m>nとする)での総出現回数とをそれぞれ集計し、バッファに保持する(S33)。
最新m日以内の時刻情報を持つ文書の処理が終わるまで(S34のYES)、S32とS33との処理を繰り返す。ここまでの処理を終えると、「政府」や「消費税」等、各単語が出現する回数の合計値(総出現回数)が、最新m日、最新n日のそれぞれについて集計される。
S35で、各単語の最新n日での総出現回数を、最新m日での総出現回数で割って、単語話題度を算出する。mやnの値を固定値としてもよいが、ここでは、mとして、入力文書のうちで最も古い文書と最も新しい文書との時刻情報の差分を与え、さらに、n=m/4としてnの値を決定とする。たとえば、最も古い文書が8月1日であり、最も新しい文書が8月28日であったとすると、m=28、n=28/4=7となる。したがって、最新7日での総出現回数と最新28日(すなわち全期間)での総出現回数との比を得る。この比は、直近7日間における当該単語の話題の程度を示すものであり、着目している単語について、上記比の推移を見ると、上記着目している単語についての話題性の変化を認識することができる。
最後に、S36で、単語話題度が一定値以上の単語についてのみ、単語と単語話題度とを、単語話題度記録部21に記録する。
図14は、実施例2における単語話題度記録21におけるデータ例を示す図である。
図14に示す例は、単語話題度が0.3未満の単語を無視し、0.3以上の単語についてのみ記録した例である。
「今日」や「これ」のような一般的な単語が、時期によらず一定の頻度で出現すると仮定すると、7日間に100回出現した単語は、28日間では400回出現することになり、単語話題度は1/4、すなわち0.25になる。図14に示す例では、単語話題度が0.3以上の単語のみを記録しているので、最近7日間で、以前に比べて出現回数が増加した単語が選択される。
続いて、実施例2における文書話題係数更新部18が行う処理について説明する。
図15は、実施例2における文書話題係数更新部18が行う処理を示すフローチャートである。
まず、S41で、文書話題係数記録部19に記録されている内容があれば、それを全て削除する。このように、過去の文書話題係数を記録から削除するのは、常に最新の文書話題係数を記録するためである。S42で、文書情報管理部13中の1文書について、文書IDと単語との一覧を取得する。S43では、S42で取得した単語を、単語話題度記録部21に照会し、同一の単語が、単語話題度記録部21中に存在するか否かを確認する。重複がある場合にのみ(S43のYES)、文書話題係数を算出するS44に移る。
S44では、S43で重複があると判定した文書について、文書話題係数を算出する。文書話題係数を決定する最も単純な方法は、文書話題係数を、全て1.2のような固定値にする方法である。すなわち、S43で重複があると判定された文書の文書話題係数を、全て1.2とする方法が、最も単純な方法である。算出した文書話題係数を文書IDとともに、文書話題係数記録部19に、実施例1と同様に、図8に示すように記録する。
なお、文書話題係数の決定方法が唯一ではなく、単語の盛り上がりの度合いを表わす数値である単語話題度を用い、単語話題度の大きい単語を含む文書ほど、もしくは単語話題度の大きい単語を数多く含む文書ほど、大きな文書話題係数を付与する方法もある。
S42〜S44の処理を、全ての文書について繰り返すと、処理が終了する(S45の終了)。
図15に示す処理によって、文書話題係数記録部19には、単語話題度記録部21に記録された単語(話題性の高い単語)を含む文書の文書話題係数のみが記録される。
実施例1のように文書話題係数を乗算で更新するのではなく処理の度に、S41で削除する理由は、単語話題度が現在時刻を基点として算出する値であり、時間経過後に算出する場合、その時刻を基点として、新規に算出し直した値を用いる必要があるためである。
クラスタリング部16が行う処理は、実施例1における処理と同様である。
上記実施例によれば、大きなクラスタに含まれる文書に対して、他の文書との間に斥力を作用させることによって、他の文書との距離を仮想的に増加させ、文書が集中した高密度の領域のみを細かい粒度で、他の領域は通常の粒度で分類することができる。
また、上記実施例によれば、文書が逐次増加する状況において、最新の偏り状況に基づいて、文書間距離を自動的に拡大するので、適切な粒度で分類するために必要であった利用者の作業が不要になる。
さらに、上記実施例によれば、変化しない文書間距離を記録し、時間経過と共に変化する文書話題度だけを更新するので、毎回文書間距離を計算する方法に比べ、処理が高速である。
上記実施例を方法の発明として把握することができる。つまり、上記実施例は、文書間の距離を算出し、記憶装置に記憶する文書間距離算出工程と、各文書に記述されている内容の話題性の大きさを数値化し、この数値化した文書話題係数を更新し、記憶装置に記憶する文書話題係数更新工程と、上記文書間の距離と、上記文書における文書話題係数とに基づいて、各文書間距離を仮想的に拡大した文書間偏重距離を算出し、記憶装置に記憶する文書間偏重距離算出工程と、上記文書間偏重距離に基づいて、近隣の文書同士を集約し、記憶装置に記憶するクラスタリング工程とを有する蓄積文書分類方法の例である。
また、上記実施例をプログラムの発明として把握することができる。つまり、上記実施例は、文書間の距離を算出し、記憶装置に記憶する文書間距離算出手順と、各文書に記述されている内容の話題性の大きさを数値化し、この数値化した文書話題係数を更新し、記憶装置に記憶する文書話題係数更新手順と、上記文書間の距離と、上記文書における文書話題係数とに基づいて、各文書間距離を仮想的に拡大した文書間偏重距離を算出し、記憶装置に記憶する文書間偏重距離算出手順と、上記文書間偏重距離に基づいて、近隣の文書同士を集約し、記憶装置に記憶するクラスタリング手順とをコンピュータに実行させるプログラムの例である。
さらに、上記プログラムを、CD、DVD、HD、半導体メモリ等の記録媒体に記録するようにしてもよい。
本発明の実施例1である蓄積文書分類装置100を示すブロック図である。 蓄積文書分類装置100の動作原理を示すフローチャートである。 文書記録部11に記録されているデータ例を示す図である。 文書情報管理部13に記録されているデータの例を示す図である。 文書間距離記録部15に記録されている文書間の距離を示す図である。 クラスタ記録部17に記録されているデータ例を示す図である。 蓄積文書分類装置100におけるクラスタリング部16の動作を示すフローチャートである。 文書話題係数記録部19に記録されているデータ例を示す図である。 文書話題係数更新部18が行う処理を示すフローチャートである。 文書話題係数の決定方法の一例を示す図である。 文書増加によって、クラスタが分裂する様子を示す図である。 本発明の実施例2である蓄積文書分類装置200を示すブロック図である。 単語話題度算出部20における動作を示すフローチャートである。 実施例2における単語話題度記録21におけるデータ例を示す図である。 実施例2における文書話題係数更新部18が行う処理を示すフローチャートである。
符号の説明
100…蓄積文書分類装置、
11…文書記録部、
12…文書解析部、
13…文書情報管理部、
14…文書間距離算出部、
15…文書間距離記録部、
16…クラスタリング部、
17…クラスタ記録部、
18…文書話題係数更新部、
19…文書話題係数記録部、
20…単語話題度算出部、
21…単語話題度記録部。

Claims (6)

  1. 文書間距離を算出する文書間距離算出手段と;
    各文書に記述されている内容の話題性の大きさを数値化し、この数値化した文書話題係数を更新する文書話題係数更新手段と;
    上記文書間距離と、上記文書における文書話題係数とに基づいて、各文書間距離を仮想的に拡大した文書間偏重距離を算出する文書間偏重距離算出手段と;
    上記文書間偏重距離に基づいて、近隣の文書同士を集約するクラスタリング手段と;
    を有し、
    上記文書話題係数更新手段は、文書数が所定数よりも多いクラスタを選択し、この選択されたクラスタ以外のクラスタに含まれている文書の文書話題係数よりも大きな文書話題係数を、上記選択されたクラスタに含まれている文書に与える手段であることを特徴とする蓄積文書分類装置。
  2. 文書間距離を算出する文書間距離算出手段と;
    各文書に記述されている内容の話題性の大きさを数値化し、この数値化した文書話題係数を更新する文書話題係数更新手段と;
    上記文書間距離と、上記文書における文書話題係数とに基づいて、各文書間距離を仮想的に拡大した文書間偏重距離を算出する文書間偏重距離算出手段と;
    上記文書間偏重距離に基づいて、近隣の文書同士を集約するクラスタリング手段と;
    を有し、
    上記文書話題係数更新手段は、入力文書集合中の単語の出現頻度の時間的変化を検出し、この検出の結果、以前よりも出現頻度が増加した単語を含む文書について、他の文書よりも大きな文書話題係数を与える手段であることを特徴とする蓄積文書分類装置。
  3. 文書間距離を算出し、記憶装置に記憶する文書間距離算出工程と;
    各文書に記述されている内容の話題性の大きさを数値化し、この数値化した文書話題係数を更新し、記憶装置に記憶する文書話題係数更新工程と;
    上記文書間距離と、上記文書における文書話題係数とに基づいて、各文書間距離を仮想的に拡大した文書間偏重距離を算出し、記憶装置に記憶する文書間偏重距離算出工程と;
    上記文書間偏重距離に基づいて、近隣の文書同士を集約し、記憶装置に記憶するクラスタリング工程と;
    を有し、
    上記文書話題係数更新工程は、文書数が所定数よりも多いクラスタを選択し、この選択されたクラスタ以外のクラスタに含まれている文書の文書話題係数よりも大きな文書話題係数を、上記選択されたクラスタに含まれている文書に与える工程であることを特徴とする蓄積文書分類方法
  4. 文書間距離を算出し、記憶装置に記憶する文書間距離算出工程と;
    各文書に記述されている内容の話題性の大きさを数値化し、この数値化した文書話題係数を更新し、記憶装置に記憶する文書話題係数更新工程と;
    上記文書間距離と、上記文書における文書話題係数とに基づいて、各文書間距離を仮想的に拡大した文書間偏重距離を算出し、記憶装置に記憶する文書間偏重距離算出工程と;
    上記文書間偏重距離に基づいて、近隣の文書同士を集約し、記憶装置に記憶するクラスタリング工程と;
    を有し、
    上記文書話題係数更新工程は、入力文書集合中の単語の出現頻度の時間的変化を検出し、この検出の結果、以前よりも出現頻度が増加した単語を含む文書について、他の文書よりも大きな文書話題係数を与える工程であることを特徴とする蓄積文書分類方法。
  5. 請求項1または請求項2に記載の装置を構成する各手段としてコンピュータを機能させるプログラム。
  6. 請求項1または請求項2に記載の装置を構成する各手段としてコンピュータを機能させるプログラムを記録したコンピュータ読取可能な記録媒体。
JP2006284659A 2006-10-19 2006-10-19 蓄積文書分類装置、蓄積文書分類方法、プログラムおよび記録媒体 Expired - Fee Related JP4807880B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006284659A JP4807880B2 (ja) 2006-10-19 2006-10-19 蓄積文書分類装置、蓄積文書分類方法、プログラムおよび記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006284659A JP4807880B2 (ja) 2006-10-19 2006-10-19 蓄積文書分類装置、蓄積文書分類方法、プログラムおよび記録媒体

Publications (2)

Publication Number Publication Date
JP2008102737A JP2008102737A (ja) 2008-05-01
JP4807880B2 true JP4807880B2 (ja) 2011-11-02

Family

ID=39437022

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006284659A Expired - Fee Related JP4807880B2 (ja) 2006-10-19 2006-10-19 蓄積文書分類装置、蓄積文書分類方法、プログラムおよび記録媒体

Country Status (1)

Country Link
JP (1) JP4807880B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10198503B2 (en) 2008-05-01 2019-02-05 Primal Fusion Inc. System and method for performing a semantic operation on a digital social network
US9361365B2 (en) * 2008-05-01 2016-06-07 Primal Fusion Inc. Methods and apparatus for searching of content using semantic synthesis
JP5891872B2 (ja) * 2012-03-16 2016-03-23 カシオ計算機株式会社 画像表示装置、画像表示方法、並びにプログラム
JP2013196366A (ja) * 2012-03-19 2013-09-30 Fujitsu Ltd 危険検知装置、危険検知方法およびプログラム
JP7271987B2 (ja) * 2019-02-14 2023-05-12 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
CN114722189B (zh) * 2021-12-15 2023-06-23 南京审计大学 一种预算执行审计中多标记不平衡文本分类方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3439494B2 (ja) * 1992-12-02 2003-08-25 富士通株式会社 文脈依存自動分類装置
JPH07141396A (ja) * 1993-11-17 1995-06-02 Hitachi Ltd 情報ウォッチングシステム
JP4255239B2 (ja) * 2002-03-29 2009-04-15 富士通株式会社 文書検索方法
JP4266584B2 (ja) * 2002-07-24 2009-05-20 株式会社リコー テキストデータ群生成装置、テキストデータ群生成方法、プログラムおよび記録媒体
JP4134975B2 (ja) * 2004-10-25 2008-08-20 日本電信電話株式会社 話題文書提示方法及び装置及びプログラム

Also Published As

Publication number Publication date
JP2008102737A (ja) 2008-05-01

Similar Documents

Publication Publication Date Title
Middlehurst et al. Scalable dictionary classifiers for time series classification
Wan et al. A hybrid text classification approach with low dependency on parameter by integrating K-nearest neighbor and support vector machine
DE60315506T2 (de) Identifizierung von kritischen merkmalen in einem geordneten skala-raum
JP4807881B2 (ja) 潜在話題語抽出装置、潜在話題語抽出方法、プログラムおよび記録媒体
JP4807880B2 (ja) 蓄積文書分類装置、蓄積文書分類方法、プログラムおよび記録媒体
US20120148149A1 (en) Video key frame extraction using sparse representation
US10353925B2 (en) Document classification device, document classification method, and computer readable medium
JP5594145B2 (ja) 検索装置、検索方法、及びプログラム
Liu et al. Heterogeneous features and model selection for event-based media classification
US20080140653A1 (en) Identifying Relationships Among Database Records
CN109902289A (zh) 一种面向模糊文本挖掘的新闻视频主题分割方法
CN107357895B (zh) 一种基于词袋模型的文本表示的处理方法
US8856123B1 (en) Document classification
KR102267487B1 (ko) 메타데이터를 이용한 독립 분류 모델의 동작 방법 및 그 장치
Devi et al. Generating best features for web page classification
JP5929532B2 (ja) イベント検出装置、イベント検出方法およびイベント検出プログラム
KR20150124825A (ko) 화상분류 기반의 나이브 베이즈 분류기
CN111899832B (zh) 基于上下文语义分析的医疗主题管理系统与方法
Shah et al. A review on supervised machine learning text categorization approaches
JP4460417B2 (ja) 自動分類方法、自動分類プログラム、記録媒体、および、自動分類装置
Vijayarani et al. Evaluating the efficiency of rule techniques for file classification
alias Balamurugan et al. Data mining techniques for suspicious email detection: A comparative study
KR101520572B1 (ko) 음악에 대한 복합 의미 인식 방법 및 그 장치
JP5008096B2 (ja) 文書自動分類方法及び文書自動分類システム
JP2006338157A (ja) 文書群処理装置、文書群処理方法、文書群処理プログラム及び文書群処理プログラムを格納した記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090106

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110223

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110304

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110404

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110812

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110815

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140826

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees