JP2007334388A - クラスタリング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 - Google Patents

クラスタリング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
JP2007334388A
JP2007334388A JP2006161953A JP2006161953A JP2007334388A JP 2007334388 A JP2007334388 A JP 2007334388A JP 2006161953 A JP2006161953 A JP 2006161953A JP 2006161953 A JP2006161953 A JP 2006161953A JP 2007334388 A JP2007334388 A JP 2007334388A
Authority
JP
Japan
Prior art keywords
clustering
cluster
keyword
document
common
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006161953A
Other languages
English (en)
Other versions
JP4795856B2 (ja
Inventor
Yoshihide Sato
吉秀 佐藤
Harumi Kawashima
晴美 川島
Yuichiro Sekiguchi
裕一郎 関口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2006161953A priority Critical patent/JP4795856B2/ja
Publication of JP2007334388A publication Critical patent/JP2007334388A/ja
Application granted granted Critical
Publication of JP4795856B2 publication Critical patent/JP4795856B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】類似していると人間が感じる文書を高精度で同一クラスタに集約することができ、利用者の意図を反映したクラスタリング結果を得る。
【解決手段】本発明は、利用者が指定した複数のクラスタ内の文書に共通して出現する共通単語を取得し、共通単語のうち、利用者が指定しなかったクラスタでの出現頻度に比べて、該利用者が指定したクラスタ内での出現頻度が相対的に高い共通単語を選択し、該共通単語をキーワードとして、キーワード記憶手段に記録し、同一もしくは他の文書集合に対してクラスタリングを実施する際に、キーワード記憶手段に記録されているキーワードの影響力を強調してクラスタリングを行う。
【選択図】図1

Description

本発明は、クラスタリング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体に係り、特に、文書群などの多数のデータをクラスタリングする際、同一クラスタとして生成されるのが相応しいと人間が感じるデータが、複数のクラスタに分離してしまう問題に基づき、上記意図を反映したクラスタリングを行うためのクラスタリング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体に関する。
クラスタリング手法は、大きく階層的手法と分割最適化手法に分けることができる。
階層的手法は、個々のデータをクラスタとみなして、最も距離的に近いクラスタ同士を結合しながらクラスタ数を減らしていく手法、もしくは逆に、全データを含む1クラスタから出発し、クラスタを分割しながら細分化していく手法である。いずれの手法でも、生成されたクラスタ群は樹状の階層的構造を持ち、最下層では、個々のデータがクラスタを構成する最も細分化した状態、最上層では、全データが1クラスタに収まった最も集約された状態となる。任意の階層を指定することで、任意のクラスタ数への分割を行うことができる。
分割最適化法は、予め分割するクラスタ数を指定し、分割の良さを表す評価関数が最適になるように、分割を変えていく手法である(例えば、非特許文献1参照)。
神嶌敏弘、"データマイニング分野のクラスタリング手法(1)−クラスタリングを使ってみよう!−"人工知能学会誌、Vol.18. no.1.pp.59-65 (2003)
しかしながら、上記のいずれのクラスタリング手法の場合でも、類似していると人間が感じる文書が同一クラスタに属さず、分離してしまう場合がある。生成されるクラスタ数を減らし、個々のクラスタに属する文書数を増加させるような条件でクラスタリングを行うと、このような共通的な概念を持つ文書を同一クラスタに集約することができるが、クラスタ内の文書数が増加することは、同時に類似性が低いと人間が感じる文書の混入を招くことにもなり、結果的に人間の直感に合致しないクラスタが生成されやすくなる。一方、生成されるクラスタ数を増加させ、個々のクラスタに属する文書数を減少させようとすると、類似文書が分離されやすくなってしまう。
このように、機械的なクラスタリングの結果は、人間の直感に合致しない場合があり、大量のデータを整理して全体の意味把握を効率化するという、クラスタリングの効果が十分には達成されないことも多かった。
本発明は、上記の点に鑑みなされたもので、類似していると人間が感じる文書を高精度で同一クラスタに集約することができ、利用者の意図を反映したクラスタリング結果を得ることが可能なクラスタリング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体を提供することを目的とする。
図1は、本発明の原理を説明するための図である。
本発明(請求項1)は、類似文書を集約した文書クラスタが複数存在する状況において、利用者が指定した2個以上のクラスタ間の共通概念を検出して記録し、同一もしくは他の文書群に対してクラスタリングを実施する際に、該共通概念を持つ文書が同一クラスタに収まりやすくする装置におけるクラスタリング方法であって、
共通単語取得手段が、利用者が指定した複数のクラスタ内の文書に共通して出現する共通単語を取得する共通単語取得ステップ(ステップ1)と、
キーワード選択手段が、共通単語のうち、利用者が指定しなかったクラスタでの出現頻度に比べて、該利用者が指定したクラスタ内での出現頻度が相対的に高い共通単語を選択し、該共通単語をキーワードとして、キーワード記憶手段に記録するキーワード選択ステップ(ステップ2)と、
クラスタリング手段が、同一もしくは他の文書集合に対してクラスタリングを実施する際に、キーワード記憶手段に記録されているキーワードの影響力を強調してクラスタリングを行うクラスタリングステップ(ステップ4)と、を行う。
また、本発明(請求項2)は、要約情報生成手段が、クラスタに含まれる文書を用いて、1文字以上の文字列として該クラスタの要約情報を生成する要約情報生成ステップを更に行う。
また、本発明(請求項3)は、クラスタリングステップにおいて、
キーワード記録手段に格納されているキーワードの影響力を強調する重みを付与するキーワード加重ステップ(ステップ3)と、
重みに基づいてクラスタリングするステップ(ステップ4)と、を行う。
図2は、本発明の原理構成図である。
本発明(請求項4)は、類似文書を集約した文書クラスタが複数存在する状況において、利用者が指定した2個以上のクラスタ間の共通概念を検出して記録し、同一もしくは他の文書群に対してクラスタリングを実施する際に、該共通概念を持つ文書が同一クラスタに収まりやすくするクラスタリング装置であって、
利用者が指定した複数のクラスタ内の文書に共通して出現する共通単語を取得する共通単語取得手段と、
共通単語のうち、利用者が指定しなかったクラスタでの出現頻度に比べて、該利用者が指定したクラスタ内での出現頻度が相対的に高い共通単語を選択し、該共通単語をキーワードとして、キーワード記憶手段に記録するキーワード選択手段と、
同一もしくは他の文書集合に対してクラスタリングを実施する際に、キーワード記憶手段に記録されているキーワードの影響力を強調してクラスタリングを行うクラスタリング手段と、有する。
また、本発明(請求項5)は、クラスタに含まれる文書を用いて、1文字以上の文字列として該クラスタの要約情報を生成する要約情報生成手段を更に有する。
また、本発明(請求項6)は、クラスタリング手段において、
キーワード記録手段に格納されているキーワードの影響力を強調する重みを付与するキーワード加重手段と、
重みに基づいてクラスタリングする手段と、を含む。
本発明(請求項7)は、コンピュータに、請求項4乃至6記載のクラスタリング装置の各手段を実行させるクラスタリングプログラムである。
本発明(請求項8)は、コンピュータに、請求項4乃至6記載のクラスタリング装置の各手段を実行させるクラスタリングプログラムを格納したコンピュータ読み取り可能な記録媒体である。
本発明では、既存技術によるクラスタリングを実施した後、本来は同一クラスタとして生成されるのが相応しいと利用者が感じたクラスタを複数指定すると、該クラスタ内の文書に共通して出現する単語であって、かつ他のクラスタでの出現頻度が高くない単語、すなわち、利用者が選択したクラスタを特徴付ける単語を、「キーワード」として抽出し、次回以降、同一もしくは異なる文書群に対してクラスタリングを実施する際には、該キーワードの影響力を強調し、該キーワードを含む文書が同一クラスタに集約されやすくなる。
上記のように本発明によれば、類似していると人間が感じる文書について、人間の直感に合致するように全体の意味把握を効率的に同一クラスタに集約することができ、利用者の意図を反映したクラスタリング結果を得ることができる。
以下、図面と共に本発明の実施の形態を説明する。
[第1の実施の形態]
図3は、本発明の第1の実施の形態における特定単語加重クラスタリング装置の構成を示す。同図に示す特定単語加重クラスタリング装置は、文書記録部201、文書解析部202、単語記録部203、ベクトル生成部204、クラスタリング部205、指定クラスタ保持部206、共通単語取得部207、キーワード選択部208、キーワード記録部209、クラスタ記録部210から構成される。
本発明の特定単語加重クラスタリング装置は、「本来同一クラスタとして生成されるのが好ましい」という利用者の意図を、クラスタの明示的な指定によって学習し、次回以降のクラスタリングに繁栄させるクラスタリング装置である。
本実施の形態では、文書記録部201に多数の文書データが入力された状態でクラスタリングを一度実行し、その結果を確認した利用者がクラスタの指定を行った後に、再度クラスタリングを行うという実施形態について説明する。このとき、2度目のクラスタリング時には、1度目に比べて文書記録部201内の文書データ数が増加している状況を想定する。すなわち、1度目と2度目のクラスタリングでは、扱う文書集合が異なるものとする。
文書記録部201には、図4に示すように、各文書に対して一意な文書IDを付与した状態で文書IDと本文を記録しておく。
文書解析部202では、文書記録部201から文書IDと本文を1文書分ずつ取得し、本文に対して形態素解析などの文書解析処理を行う。ここでは、自然言語の分野で多く利用される形態素解析を用い、文章を構成する最小の構成単位である「形態素」に分割する例を説明する。
文書解析部202における形態素解析では、文書を形態素に区切るだけではなく、各形態素に品詞情報が付与されるが、本実施の形態の文書解析部202は、全ての形態素のうち、「名詞」という品詞情報を持つ形態素のみを文書中から取得して扱うものとする。
以後、本文中から取得した名詞のみを「単語」と呼び、その後の処理で扱うこととするが、必ずしも名詞に限定されるものではない。
文書解析部202は、上記形態素解析処理を行った後、1文書内での各単語の出現回数を集計し、単語記録部203に文書IDと共に単語とその出現回数を記録する。その例を図5に示す。
ベクトル生成部204は、単語記録部203から、文書ID、単語及びその出現回数を取得し、クラスタリングを行う前処理として各文書のベクトルを生成して、文書IDと、それに対応するベクトルをクラスタリング部205に渡す。
本実施の形態のベクトル生成部204で生成するベクトルは図6のように、文書中に出現する単語それぞれに対応する単語重みを数値として表現したものである。単語重みの算出にあたり、まず、文書検索などによく用いられるTF−IDF(Term Frequency and Inverse Document Frequency)法で、基準となる値(基準値と呼ぶ)を算出する。「キーワード」と呼ぶ一部の単語を除く全ての単語の重みには、この基準値を用いるが、キーワードについては、基準値よりも大きな値を単語重みとして与える。キーワードの意味、ならびに選択方法については、後述する。
TF−IDF法は、ある文書d中に出現する単語tの単語重みTFIDF(d,t)を文書d中の単語tの出現回数TF(d,t)、全文書数Nのうちで単語tが1度でも出現する文書数DF(t)を用いて、次式で算出するものである。
TFIDF(d,t)=TF(d,t)×IDF(t) (1)
ただし、
IDF(t)=log{N/DF(t)}+1 (2)
TFIDF(d,t)は、文書d中での単語tの出現回数が多ければ多いほど、また、全文書中で単語tが1度でも出現する文書数が小さいほど大きな値となる。
図7を用いて、ベクトル生成部204が各文書のベクトルを生成する手順を説明する。
ステップ101) ベクトル生成部204は、単語記録部203に記録されている文書それぞれについて、出現する単語を調べ、各単語が何文書に出現するか(DF(t))を集計する。それと同時に、全文書数Nも集計する。これらの値を用い、各単語のIDF(t)の値を、上記の式(2)に基づいて算出する。
ステップ102) ステップ101でIDF(t)の値を算出した単語それぞれが、キーワード記録部209に記録されているキーワードと一致するか否か照合を行い、一致した場合には、その単語のIDF(t)の値を増加させる。
IDF(t)の値を増加させる方法は様々な方法が可能であるが、本実施の形態では、キーワード記録部209に記録されているキーワードと一致した単語のIDF(t)の値を2倍するものとする。当該ステップによって一部の単語の重みが強調されたIDF(t)を「加重IDF」と呼ぶことにする。
ステップ103) 最後に、各文書中の各単語の出現回数(TF(d,t))に、ステップ102で算出した加重IDFの値を乗じ、各文書における各単語の重み(TFIDF(d,t))を得る。図6において、各単語に対応して記された数値は、上記の各ステップで得られたTF−IDF(d,t)の値である。
上記の手順では、ベクトル生成部204において、キーワード記録部209に記録されているキーワードと一致した単語のIDF(d,t)値を強調(ここでは2倍)した後に、TF(d,t)値を乗じたが、結果的には、全単語のTFIDF(d,t)値を算出した後に、キーワード記録部209に記録されているキーワードと一致した単語のみについて2倍するのと同じである。
クラスタリング部205は、ベクトル生成部204から全文書分の文書IDとベクトルを受け取りクラスタリング処理を行う。生成されたクラスタには一意なIDであるクラスタIDを付与し、該クラスタに含まれる文書の文書ID一覧と対応付けて、クラスタ記録部210に出力する。クラスタ記録部210には、図8に示すように、“C001”のようなクラスタIDと、該クラスタに含まれる文書IDである、
0001,0003,0022,0025,0030
が記録される。
続いて、共通単語取得部207、キーワード選択部208における、キーワードの選択について説明する。
「キーワード」とは、利用者が明示的に指定した複数クラスタ間の共通的な概念を表す単語である。
クラスタリングは、生成するクラスタ数や文書間の距離の閾値など、なんらかの制約条件を課して行う処理であるため、本来同一のクラスタとして出力されてもよいと利用者が感じる文書群が制約条件の影響で別のクラスタとして分離した状態で出力される場合もある。このとき、利用者が明示的に複数のクラスタを指定すると、指定クラスタ保持部206が、指定したクラスタのクラスタIDを保持する。
共通単語取得部207は、利用者が指定したクラスタ全てにおいて、少なくとも1文書に出現する単語(共通単語)を取得する。
キーワード選択部208は、共通単語取得部207で取得した共通単語のうち、指定してクラスタ間の共通的な概念を特に強く表す単語をキーワードとして選択し、これをキーワード記録部209に出力する。つまり、共通単語は、キーワード選択のための候補単語と言える。
利用者は、クラスタの指定にあたり、クラスタ記録部210に記録されたクラスタIDと、並びに各クラスタに含まれる文書IDを参照し、各文書の本文を文書記録部201で確認するか、各文書中の単語を単語記録部203で確認するかして、本来同一のクラスタとして出力されてもよいと感じるクラスタを指定する。
図9のように、“C001”〜“C004”までの4クラスタが存在する場合を説明する。図9は、説明の都合上、クラスタのIDと当該クラスタに含まれる文書中の単語を列挙して表記したものである。利用者は、実際には、文書記録部201、または、単語記録部203を参照して各クラスタの内容を把握する。
例えば、利用者が、“C001”と“C004”はいずれも税金に関わる文書が含まれており、これらを統合させたい、と考えたとする。そこで、利用者が、指定クラスタ保持部206にクラスタIDを入力装置(図示せず)を介して入力すると、共通単語取得部207が、以下に説明する手順で、これら2クラスタに含まれる文書中から共通単語を取得し、続いてキーワード選択部208が、クラスタ記録部210、単語記録部203を参照して共通単語の中からキーワードを選択する。
以降も、図9のクラスタの例を用いて説明する。
図10は、本発明の第1の実施の形態における共通単語取得部の処理のフローチャートである。
ステップ201) 共通単語取得部207は、指定クラスタ保持部206で保持されているクラスタのクラスタIDを全て取得する。
ステップ202) また、共通単語取得部207は、ステップ201で取得したクラスタIDに基づいてクラスタ記録部210を参照し、各クラスタに含まれる文書の文書IDを全て取得する。
ステップ203) 共通単語取得部207は、ステップ202で取得した文書IDに基づいて、単語記録部203を参照し、各文書IDに対応する文書に含まれる単語を全て取得し、それぞれのクラスタ中で少なくとも1文書に出現する単語(共通単語)を取得する。
ステップ204) 共通単語取得部207は、取得した共通単語を全てキーワード選択部208に送出して、共通単語取得部207が行う処理を終了する。
図9において、クラスタ“C001”中には、「消費税」という単語が“0001”,“0003”,“0030”という文書IDを持つ3文書に出現しており、クラスタ“C004”中には、文書ID0021の文書に出現している。「消費税」の他に、下線で示す「首相」「今日」「増税」「経済」は、同様に、“C001”と“C004”のそれぞれのクラスタの少なくとも1文書で用いられているため、図10に示した手順で、共通単語として選択され、キーワード選択部208に送出される。
キーワード選択部208は、共通単語の中でも、利用者が指定したクラスタ間の関連性を特に強く表す単語をキーワードとして選択する。選択方法の例を、図11を用いて説明する。
図11は、本発明の第1の実施の形態におけるキーワード選択部の処理のフローチャートである。
ステップ301) キーワード選択部208は、共通単語取得部207から「消費税」「首相」などの共通単語を取得する。
ステップ302) キーワード選択部208は、指定クラスタ保持部206から、利用者が指定したクラスタのクラスタIDを取得し、当該クラスタIDに基づいて、クラスタ記録部210を参照し、指定以外のクラスタのクラスタID、並びに、それらに含まれる文書の文書IDを取得する。その後、各共通単語が、指定以外のクラスタのうち、何クラスタに出現しているかをそれぞれ集計する。集計にあたっては、ある共通単語がクラスタ内のいずれか1以上の文書中で出現している場合には、当該共通単語は当該クラスタに出現しているものとみなす。
共通単語「消費税」はクラスタ“C002”,“C003”中の文書には出現しないため、指定以外のクラスタ中における出現クラスタ数は0、「首相」と「増税」も同様に0になる。しかし、「今日」は文書IDが“0010”や“0042”の文書中に出現しているため、クラスタ“C002”と“C003”でも出現していると判定され、出現クラスタ数は2となる。「経済」は文書ID“0005”のみに出現しているため、出現クラスタ数は1となる。
ステップ303) キーワード選択部208は、ステップ302で集計した共通単語の出現クラスタ数を用い、出現クラスタ数の少ない順に最大でk個選択し、これをキーワードとする。例えば、k=3であったとすると、出現クラスタ数が0である「消費税」「首相」「増税」が選択される。
ステップ304) キーワード選択部208は、ステップ303で選択したキーワードを、キーワード記録部209に記録する。図12にキーワード記録部209に保存されたキーワードの例を示す。
ここでは、出現クラスタ数のみでキーワードを選択する方法を示したが、利用者が指定したクラスタ間の関連性を強く表す単語を選択する方法であれば、他の方法を用いてもよい。例えば、出現するクラスタ数ではなく、出現する文書数や文書内での出現回数に基づいて選択する方法が考えられる。他にも、一部の文書には高頻度で出現するが他の文書にはあまり出現しないような、一部の文書に偏って出現する単語ほど大きな値をとるカイ2乗値を算出すれば、指定以外のクラスタ内の文書では出現頻度が低く、指定したクラスタ内での文書では高頻度で出現する単語を、キーワードとして選択することができる。
ここまでの処理でキーワードが選択されると、再度クラスタリング部205においてクラスタリングを実施する。本実施の形態では、2度目のクラスタリングまでの間に文書記録部201に蓄積された文書の数が増加している状況を想定しているため、追加分の文書に対して、単語の取得や集計など、ここまでに説明したのと同一の手順で処理しておく。
ベクトル生成部204は、単語重みを計算する際に、キーワード記録部209を参照して、記録されている単語については重みを2倍することで、単語重みを強調する。その後は、クラスタリング部205において、1度目と同様にクラスタリング処理を行い、一連の処理を終える。
[第2の実施の形態]
図13は、本発明の第2の実施の形態における特定単語加重クラスタリング装置の構成を示し、図3の構成と同一構成部分には同一符号を付し、その説明を省略する。同図に示す特定単語加重クラスタリング装置は、前述の第1の実施の形態の構成に、要約情報生成部211を付加したものである。
要約情報生成部211は、各クラスタに一意に付与されたクラスタIDと、各クラスタに含まれる文書の文書IDの一覧をクラスタリング部205より取得した後、単語記録部203を参照して、各クラスタに含まれる文書中の単語を取得し、各クラスタの内容を、1以上の文字列として要約する。要約によって生成した文字列は、クラスタID、クラスタ内の文書IDと共に、クラスタ記録部210に出力する。
図14は、本発明の第2の実施の形態におけるクラスタ記録部に記録されたクラスタ構造データの例である。
クラスタのクラスタID、クラスタに含まれる文書の文書IDに加えて、各クラスタの要約情報が、ここでは、2単語の形態で記録されている。利用者は、このクラスタ情報を手掛りにしてクラスタを指定することができる。
要約情報生成部211が行う処理の流れを図15を用いて説明する。
図15は、本発明の第2の実施の形態における要約情報生成部の処理のフローチャートである。
ステップ401) 要約情報生成部211は、クラスタリング部205から取得したクラスタリングの結果を元に、1クラスタに含まれる文書を統合したものを1文書とみなして、全ての文書に含まれる全単語のTF−IDF値を(キーワードの強調などを行わずに)通常の方法で算出する。
ステップ402) 各クラスタ中の文書に含まれる単語のTF−IDF値の高い上位2語を取得し、各クラスタの要約情報として、クラスタID、文書IDと共にクラスタ記録部210に記録する。
なお、要約情報は必ずしも2単語である必要はなく、1語または3語以上の単語であってもよいし、例えば、入力文書がタイトルを持つ場合は、クラスタに含まれる文書のタイトルを列挙したものを要約情報としてもよい。あるいは、既存の文書要約技術を用い、クラスタに含まれる複数の文書を、自然文で要約したものを要約情報としてもよい。
上記の実施の形態における図3と図13の構成要素の機能をプログラムとして構築し、クラスタリング装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
また、構築されたプログラムをハードディスクや、フレキシブルディスク・CD−ROM等可搬記憶媒体に格納し、クラスタリング装置として利用されるコンピュータにインストールする、または、配布することが可能である。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、文書群を類似文書ごとにクラスタリングする技術に適用可能である。
本発明の原理を説明するための図である。 本発明の原理構成図である。 本発明の第1の実施の形態における特定単語加重クラスタリング装置の構成図である。 本発明の第1の実施の形態における文書記録部に蓄積された文書データの例である。 本発明の第1の実施の形態における単語記録部に記録された単語データの例である。 本発明の第1の実施の形態におけるベクトル生成部で生成されたベクトルの例である。 本発明の第1の実施の形態におけるベクトル生成の処理のフローチャートである。 本発明の第1の実施の形態におけるクラスタ記録部に記録されたクラスタ構造データの例である。 本発明の第1の実施の形態におけるキーワード選択方法の概要を示す図である。 本発明の第1の実施の形態における共通単語取得部の処理のフローチャートである。 本発明の第1の実施の形態におけるキーワード決定部のフローチャートである。 本発明の第1の実施の形態におけるキーワード選択部で選択されたキーワードの例である。 本発明の第2の実施の形態における特定単語加重クラスタリング装置の構成図である。 本発明の第2の実施の形態におけるクラスタ記録部に記録されたクラスタ構造データの例である。 本発明の第2の実施の形態における要約情報生成部の処理のフローチャートである。
符号の説明
201 文書記録部
202 文書解析部
203 単語記録部
204 キーワード加重手段、ベクトル生成部
205 クラスタリング手段、クラスタリング部
206 指定クラスタ保持部
207 共通単語取得手段、共通単語取得部
208 キーワード選択手段、キーワード選択部
209 キーワード記憶手段、キーワード記録部
210 クラスタ記録部
211 要約情報生成部

Claims (8)

  1. 類似文書を集約した文書クラスタが複数存在する状況において、利用者が指定した2個以上のクラスタ間の共通概念を検出して記録し、同一もしくは他の文書群に対してクラスタリングを実施する際に、該共通概念を持つ文書が同一クラスタに収まりやすくする装置におけるクラスタリング方法であって、
    共通単語取得手段が、利用者が指定した複数のクラスタ内の文書に共通して出現する共通単語を取得する共通単語取得ステップと、
    キーワード選択手段が、前記共通単語のうち、前記利用者が指定しなかったクラスタでの出現頻度に比べて、該利用者が指定したクラスタ内での出現頻度が相対的に高い共通単語を選択し、該共通単語をキーワードとして、キーワード記憶手段に記録するキーワード選択ステップと、
    クラスタリング手段が、同一もしくは他の文書集合に対してクラスタリングを実施する際に、前記キーワード記憶手段に記録されている前記キーワードの影響力を強調してクラスタリングを行うクラスタリングステップと、
    を行うことを特徴とするクラスタリング方法。
  2. 要約情報生成手段が、
    前記クラスタに含まれる文書を用いて、1文字以上の文字列として該クラスタの要約情報を生成する要約情報生成ステップを更に行う、
    請求項1記載のクラスタリング方法。
  3. 前記クラスタリングステップにおいて、
    前記キーワード記録手段に格納されているキーワードの影響力を強調する重みを付与するキーワード加重ステップと、
    前記重みに基づいてクラスタリングするステップと、
    を行う請求項1または2記載のクラスタリング方法。
  4. 類似文書を集約した文書クラスタが複数存在する状況において、利用者が指定した2個以上のクラスタ間の共通概念を検出して記録し、同一もしくは他の文書群に対してクラスタリングを実施する際に、該共通概念を持つ文書が同一クラスタに収まりやすくするクラスタリング装置であって、
    利用者が指定した複数のクラスタ内の文書に共通して出現する共通単語を取得する共通単語取得手段と、
    前記共通単語のうち、前記利用者が指定しなかったクラスタでの出現頻度に比べて、該利用者が指定したクラスタ内での出現頻度が相対的に高い共通単語を選択し、該共通単語をキーワードとして、キーワード記憶手段に記録するキーワード選択手段と、
    同一もしくは他の文書集合に対してクラスタリングを実施する際に、前記キーワード記憶手段に記録されている前記キーワードの影響力を強調してクラスタリングを行うクラスタリング手段と、
    を有することを特徴とするクラスタリング装置。
  5. 前記クラスタに含まれる文書を用いて、1文字以上の文字列として該クラスタの要約情報を生成する要約情報生成手段を更に有する、
    請求項4記載のクラスタリング装置。
  6. 前記クラスタリング手段は、
    前記キーワード記録手段に格納されているキーワードの影響力を強調する重みを付与するキーワード加重手段と、
    前記重みに基づいてクラスタリングする手段と、を含む
    請求項4または5記載のクラスタリング装置。
  7. コンピュータに、
    請求項4乃至6記載のクラスタリング装置の各手段を実行させることを特徴とするクラスタリングプログラム。
  8. コンピュータに、
    請求項4乃至6記載のクラスタリング装置の各手段を実行させるクラスタリングプログラムを格納したことを特徴とするコンピュータ読み取り可能な記録媒体。
JP2006161953A 2006-06-12 2006-06-12 クラスタリング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 Expired - Fee Related JP4795856B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006161953A JP4795856B2 (ja) 2006-06-12 2006-06-12 クラスタリング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006161953A JP4795856B2 (ja) 2006-06-12 2006-06-12 クラスタリング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体

Publications (2)

Publication Number Publication Date
JP2007334388A true JP2007334388A (ja) 2007-12-27
JP4795856B2 JP4795856B2 (ja) 2011-10-19

Family

ID=38933845

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006161953A Expired - Fee Related JP4795856B2 (ja) 2006-06-12 2006-06-12 クラスタリング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JP4795856B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009288999A (ja) * 2008-05-29 2009-12-10 Fujitsu Ltd まとめ上げ作業支援処理方法、装置及びプログラム
WO2013001893A1 (ja) 2011-06-28 2013-01-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 主観的な階層クラスタリングにおける特徴量ごとの重みを求める情報処理装置、方法、およびプログラム
JP2014167835A (ja) * 2014-06-18 2014-09-11 Ubic:Kk 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム
JP2014215996A (ja) * 2013-04-30 2014-11-17 エヌ・ティ・ティ・コミュニケーションズ株式会社 重要性判定システム、重要性判定方法及びコンピュータプログラム
US8972407B2 (en) 2007-05-30 2015-03-03 International Business Machines Corporation Information processing method for determining weight of each feature in subjective hierarchical clustering
JP2019168820A (ja) * 2018-03-22 2019-10-03 株式会社日立製作所 データ分析支援システムおよびデータ分析支援方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002117046A (ja) * 2000-10-05 2002-04-19 Just Syst Corp 文書分類装置、文書分類方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2002202984A (ja) * 2000-11-02 2002-07-19 Fujitsu Ltd ルールベースモデルに基づくテキスト情報自動分類装置
JP2003044490A (ja) * 2001-07-30 2003-02-14 Toshiba Corp 知識分析システムおよび同システムにおける知識重複登録設定方法
JP2005266866A (ja) * 2004-03-16 2005-09-29 Fuji Xerox Co Ltd 文書分類装置ならびに文書分類装置の分類体系生成装置および方法
JP2006099478A (ja) * 2004-09-29 2006-04-13 Toshiba Corp 文書分類装置および文書分類方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002117046A (ja) * 2000-10-05 2002-04-19 Just Syst Corp 文書分類装置、文書分類方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2002202984A (ja) * 2000-11-02 2002-07-19 Fujitsu Ltd ルールベースモデルに基づくテキスト情報自動分類装置
JP2003044490A (ja) * 2001-07-30 2003-02-14 Toshiba Corp 知識分析システムおよび同システムにおける知識重複登録設定方法
JP2005266866A (ja) * 2004-03-16 2005-09-29 Fuji Xerox Co Ltd 文書分類装置ならびに文書分類装置の分類体系生成装置および方法
JP2006099478A (ja) * 2004-09-29 2006-04-13 Toshiba Corp 文書分類装置および文書分類方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8972407B2 (en) 2007-05-30 2015-03-03 International Business Machines Corporation Information processing method for determining weight of each feature in subjective hierarchical clustering
JP2009288999A (ja) * 2008-05-29 2009-12-10 Fujitsu Ltd まとめ上げ作業支援処理方法、装置及びプログラム
WO2013001893A1 (ja) 2011-06-28 2013-01-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 主観的な階層クラスタリングにおける特徴量ごとの重みを求める情報処理装置、方法、およびプログラム
US8918396B2 (en) 2011-06-28 2014-12-23 International Business Machines Corporation Information processing apparatus, method and program for determining weight of each feature in subjective hierarchical clustering
JP2014215996A (ja) * 2013-04-30 2014-11-17 エヌ・ティ・ティ・コミュニケーションズ株式会社 重要性判定システム、重要性判定方法及びコンピュータプログラム
JP2014167835A (ja) * 2014-06-18 2014-09-11 Ubic:Kk 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム
JP2019168820A (ja) * 2018-03-22 2019-10-03 株式会社日立製作所 データ分析支援システムおよびデータ分析支援方法

Also Published As

Publication number Publication date
JP4795856B2 (ja) 2011-10-19

Similar Documents

Publication Publication Date Title
Nagwani Summarizing large text collection using topic modeling and clustering based on MapReduce framework
Liu et al. Overview of the NTCIR-11 IMine Task.
Deshpande et al. Text summarization using clustering technique
Shen et al. LIEGE: link entities in web lists with knowledge base
US8812504B2 (en) Keyword presentation apparatus and method
Al-Taani et al. An extractive graph-based Arabic text summarization approach
JP4795856B2 (ja) クラスタリング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
Srinivas et al. A weighted tag similarity measure based on a collaborative weight model
Zhang et al. The use of dependency relation graph to enhance the term weighting in question retrieval
JP2005250980A (ja) 文書検索システム、検索条件入力装置、検索実行装置、文書検索方法、および文書検索プログラム
Sağlam et al. Developing Turkish sentiment lexicon for sentiment analysis using online news media
JP5565568B2 (ja) 情報推薦装置、情報推薦方法およびプログラム
Pudota et al. A new domain independent keyphrase extraction system
JP5497105B2 (ja) 文書検索装置および方法
JP6250833B2 (ja) 文書検索システム、ディベートシステム、文書検索プログラム
JP6409071B2 (ja) 文の並び替え方法および計算機
Balasubramanian et al. Topic pages: An alternative to the ten blue links
JP2010198278A (ja) 評判情報分類装置、評判情報分類方法及びプログラム
Ketui et al. An EDU-based approach for Thai multi-document summarization and its application
Maylawati et al. Feature-based approach and sequential pattern mining to enhance quality of Indonesian automatic text summarization
JP4134975B2 (ja) 話題文書提示方法及び装置及びプログラム
Wang et al. An automatic online news topic keyphrase extraction system
Kian et al. An efficient approach for keyword selection; improving accessibility of web contents by general search engines
KR101088483B1 (ko) 이종 분류체계들을 매핑시키는 방법 및 장치
JP2002183194A (ja) 検索式生成装置およびその方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080806

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110104

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110223

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110726

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110728

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140805

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees