JP2007334388A

JP2007334388A - クラスタリング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体

Info

Publication number: JP2007334388A
Application number: JP2006161953A
Authority: JP
Inventors: Yoshihide Sato; 吉秀佐藤; Harumi Kawashima; 晴美川島; Yuichiro Sekiguchi; 裕一郎関口
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2006-06-12
Filing date: 2006-06-12
Publication date: 2007-12-27
Anticipated expiration: 2026-06-12
Also published as: JP4795856B2

Abstract

【課題】類似していると人間が感じる文書を高精度で同一クラスタに集約することができ、利用者の意図を反映したクラスタリング結果を得る。
【解決手段】本発明は、利用者が指定した複数のクラスタ内の文書に共通して出現する共通単語を取得し、共通単語のうち、利用者が指定しなかったクラスタでの出現頻度に比べて、該利用者が指定したクラスタ内での出現頻度が相対的に高い共通単語を選択し、該共通単語をキーワードとして、キーワード記憶手段に記録し、同一もしくは他の文書集合に対してクラスタリングを実施する際に、キーワード記憶手段に記録されているキーワードの影響力を強調してクラスタリングを行う。
【選択図】図１

Description

本発明は、クラスタリング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体に係り、特に、文書群などの多数のデータをクラスタリングする際、同一クラスタとして生成されるのが相応しいと人間が感じるデータが、複数のクラスタに分離してしまう問題に基づき、上記意図を反映したクラスタリングを行うためのクラスタリング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体に関する。

クラスタリング手法は、大きく階層的手法と分割最適化手法に分けることができる。

階層的手法は、個々のデータをクラスタとみなして、最も距離的に近いクラスタ同士を結合しながらクラスタ数を減らしていく手法、もしくは逆に、全データを含む１クラスタから出発し、クラスタを分割しながら細分化していく手法である。いずれの手法でも、生成されたクラスタ群は樹状の階層的構造を持ち、最下層では、個々のデータがクラスタを構成する最も細分化した状態、最上層では、全データが１クラスタに収まった最も集約された状態となる。任意の階層を指定することで、任意のクラスタ数への分割を行うことができる。

分割最適化法は、予め分割するクラスタ数を指定し、分割の良さを表す評価関数が最適になるように、分割を変えていく手法である（例えば、非特許文献１参照）。
神嶌敏弘、"データマイニング分野のクラスタリング手法（１）−クラスタリングを使ってみよう！−"人工知能学会誌、Vol.18. no.1.pp.59-65 (2003)

しかしながら、上記のいずれのクラスタリング手法の場合でも、類似していると人間が感じる文書が同一クラスタに属さず、分離してしまう場合がある。生成されるクラスタ数を減らし、個々のクラスタに属する文書数を増加させるような条件でクラスタリングを行うと、このような共通的な概念を持つ文書を同一クラスタに集約することができるが、クラスタ内の文書数が増加することは、同時に類似性が低いと人間が感じる文書の混入を招くことにもなり、結果的に人間の直感に合致しないクラスタが生成されやすくなる。一方、生成されるクラスタ数を増加させ、個々のクラスタに属する文書数を減少させようとすると、類似文書が分離されやすくなってしまう。

このように、機械的なクラスタリングの結果は、人間の直感に合致しない場合があり、大量のデータを整理して全体の意味把握を効率化するという、クラスタリングの効果が十分には達成されないことも多かった。

本発明は、上記の点に鑑みなされたもので、類似していると人間が感じる文書を高精度で同一クラスタに集約することができ、利用者の意図を反映したクラスタリング結果を得ることが可能なクラスタリング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体を提供することを目的とする。

図１は、本発明の原理を説明するための図である。

本発明（請求項１）は、類似文書を集約した文書クラスタが複数存在する状況において、利用者が指定した２個以上のクラスタ間の共通概念を検出して記録し、同一もしくは他の文書群に対してクラスタリングを実施する際に、該共通概念を持つ文書が同一クラスタに収まりやすくする装置におけるクラスタリング方法であって、
共通単語取得手段が、利用者が指定した複数のクラスタ内の文書に共通して出現する共通単語を取得する共通単語取得ステップ（ステップ１）と、
キーワード選択手段が、共通単語のうち、利用者が指定しなかったクラスタでの出現頻度に比べて、該利用者が指定したクラスタ内での出現頻度が相対的に高い共通単語を選択し、該共通単語をキーワードとして、キーワード記憶手段に記録するキーワード選択ステップ（ステップ２）と、
クラスタリング手段が、同一もしくは他の文書集合に対してクラスタリングを実施する際に、キーワード記憶手段に記録されているキーワードの影響力を強調してクラスタリングを行うクラスタリングステップ（ステップ４）と、を行う。

また、本発明（請求項２）は、要約情報生成手段が、クラスタに含まれる文書を用いて、１文字以上の文字列として該クラスタの要約情報を生成する要約情報生成ステップを更に行う。

また、本発明（請求項３）は、クラスタリングステップにおいて、
キーワード記録手段に格納されているキーワードの影響力を強調する重みを付与するキーワード加重ステップ（ステップ３）と、
重みに基づいてクラスタリングするステップ（ステップ４）と、を行う。

図２は、本発明の原理構成図である。

本発明（請求項４）は、類似文書を集約した文書クラスタが複数存在する状況において、利用者が指定した２個以上のクラスタ間の共通概念を検出して記録し、同一もしくは他の文書群に対してクラスタリングを実施する際に、該共通概念を持つ文書が同一クラスタに収まりやすくするクラスタリング装置であって、
利用者が指定した複数のクラスタ内の文書に共通して出現する共通単語を取得する共通単語取得手段と、
共通単語のうち、利用者が指定しなかったクラスタでの出現頻度に比べて、該利用者が指定したクラスタ内での出現頻度が相対的に高い共通単語を選択し、該共通単語をキーワードとして、キーワード記憶手段に記録するキーワード選択手段と、
同一もしくは他の文書集合に対してクラスタリングを実施する際に、キーワード記憶手段に記録されているキーワードの影響力を強調してクラスタリングを行うクラスタリング手段と、有する。

また、本発明（請求項５）は、クラスタに含まれる文書を用いて、１文字以上の文字列として該クラスタの要約情報を生成する要約情報生成手段を更に有する。

また、本発明（請求項６）は、クラスタリング手段において、
キーワード記録手段に格納されているキーワードの影響力を強調する重みを付与するキーワード加重手段と、
重みに基づいてクラスタリングする手段と、を含む。

本発明（請求項７）は、コンピュータに、請求項４乃至６記載のクラスタリング装置の各手段を実行させるクラスタリングプログラムである。

本発明（請求項８）は、コンピュータに、請求項４乃至６記載のクラスタリング装置の各手段を実行させるクラスタリングプログラムを格納したコンピュータ読み取り可能な記録媒体である。

本発明では、既存技術によるクラスタリングを実施した後、本来は同一クラスタとして生成されるのが相応しいと利用者が感じたクラスタを複数指定すると、該クラスタ内の文書に共通して出現する単語であって、かつ他のクラスタでの出現頻度が高くない単語、すなわち、利用者が選択したクラスタを特徴付ける単語を、「キーワード」として抽出し、次回以降、同一もしくは異なる文書群に対してクラスタリングを実施する際には、該キーワードの影響力を強調し、該キーワードを含む文書が同一クラスタに集約されやすくなる。

上記のように本発明によれば、類似していると人間が感じる文書について、人間の直感に合致するように全体の意味把握を効率的に同一クラスタに集約することができ、利用者の意図を反映したクラスタリング結果を得ることができる。

以下、図面と共に本発明の実施の形態を説明する。

［第１の実施の形態］
図３は、本発明の第１の実施の形態における特定単語加重クラスタリング装置の構成を示す。同図に示す特定単語加重クラスタリング装置は、文書記録部２０１、文書解析部２０２、単語記録部２０３、ベクトル生成部２０４、クラスタリング部２０５、指定クラスタ保持部２０６、共通単語取得部２０７、キーワード選択部２０８、キーワード記録部２０９、クラスタ記録部２１０から構成される。

本発明の特定単語加重クラスタリング装置は、「本来同一クラスタとして生成されるのが好ましい」という利用者の意図を、クラスタの明示的な指定によって学習し、次回以降のクラスタリングに繁栄させるクラスタリング装置である。

本実施の形態では、文書記録部２０１に多数の文書データが入力された状態でクラスタリングを一度実行し、その結果を確認した利用者がクラスタの指定を行った後に、再度クラスタリングを行うという実施形態について説明する。このとき、２度目のクラスタリング時には、１度目に比べて文書記録部２０１内の文書データ数が増加している状況を想定する。すなわち、１度目と２度目のクラスタリングでは、扱う文書集合が異なるものとする。

文書記録部２０１には、図４に示すように、各文書に対して一意な文書ＩＤを付与した状態で文書ＩＤと本文を記録しておく。

文書解析部２０２では、文書記録部２０１から文書ＩＤと本文を１文書分ずつ取得し、本文に対して形態素解析などの文書解析処理を行う。ここでは、自然言語の分野で多く利用される形態素解析を用い、文章を構成する最小の構成単位である「形態素」に分割する例を説明する。

文書解析部２０２における形態素解析では、文書を形態素に区切るだけではなく、各形態素に品詞情報が付与されるが、本実施の形態の文書解析部２０２は、全ての形態素のうち、「名詞」という品詞情報を持つ形態素のみを文書中から取得して扱うものとする。

以後、本文中から取得した名詞のみを「単語」と呼び、その後の処理で扱うこととするが、必ずしも名詞に限定されるものではない。

文書解析部２０２は、上記形態素解析処理を行った後、１文書内での各単語の出現回数を集計し、単語記録部２０３に文書ＩＤと共に単語とその出現回数を記録する。その例を図５に示す。

ベクトル生成部２０４は、単語記録部２０３から、文書ＩＤ、単語及びその出現回数を取得し、クラスタリングを行う前処理として各文書のベクトルを生成して、文書ＩＤと、それに対応するベクトルをクラスタリング部２０５に渡す。

本実施の形態のベクトル生成部２０４で生成するベクトルは図６のように、文書中に出現する単語それぞれに対応する単語重みを数値として表現したものである。単語重みの算出にあたり、まず、文書検索などによく用いられるＴＦ−ＩＤＦ(Term Frequency and Inverse Document Frequency)法で、基準となる値（基準値と呼ぶ）を算出する。「キーワード」と呼ぶ一部の単語を除く全ての単語の重みには、この基準値を用いるが、キーワードについては、基準値よりも大きな値を単語重みとして与える。キーワードの意味、ならびに選択方法については、後述する。

ＴＦ−ＩＤＦ法は、ある文書ｄ中に出現する単語ｔの単語重みＴＦＩＤＦ（ｄ，ｔ）を文書ｄ中の単語ｔの出現回数ＴＦ（ｄ，ｔ）、全文書数Ｎのうちで単語ｔが１度でも出現する文書数ＤＦ（ｔ）を用いて、次式で算出するものである。

ＴＦＩＤＦ（ｄ，ｔ）=ＴＦ（ｄ，ｔ）×ＩＤＦ（ｔ）（１）
ただし、
ＩＤＦ（ｔ）＝log｛Ｎ／ＤＦ（ｔ）｝＋１（２）
ＴＦＩＤＦ（ｄ，ｔ）は、文書ｄ中での単語ｔの出現回数が多ければ多いほど、また、全文書中で単語ｔが１度でも出現する文書数が小さいほど大きな値となる。

図７を用いて、ベクトル生成部２０４が各文書のベクトルを生成する手順を説明する。

ステップ１０１）ベクトル生成部２０４は、単語記録部２０３に記録されている文書それぞれについて、出現する単語を調べ、各単語が何文書に出現するか（ＤＦ（ｔ））を集計する。それと同時に、全文書数Ｎも集計する。これらの値を用い、各単語のＩＤＦ（ｔ）の値を、上記の式（２）に基づいて算出する。

ステップ１０２）ステップ１０１でＩＤＦ（ｔ）の値を算出した単語それぞれが、キーワード記録部２０９に記録されているキーワードと一致するか否か照合を行い、一致した場合には、その単語のＩＤＦ（ｔ）の値を増加させる。

ＩＤＦ（ｔ）の値を増加させる方法は様々な方法が可能であるが、本実施の形態では、キーワード記録部２０９に記録されているキーワードと一致した単語のＩＤＦ（ｔ）の値を２倍するものとする。当該ステップによって一部の単語の重みが強調されたＩＤＦ（ｔ）を「加重ＩＤＦ」と呼ぶことにする。

ステップ１０３）最後に、各文書中の各単語の出現回数（ＴＦ（ｄ，ｔ））に、ステップ１０２で算出した加重ＩＤＦの値を乗じ、各文書における各単語の重み（ＴＦＩＤＦ（ｄ，ｔ））を得る。図６において、各単語に対応して記された数値は、上記の各ステップで得られたＴＦ−ＩＤＦ（ｄ，ｔ）の値である。

上記の手順では、ベクトル生成部２０４において、キーワード記録部２０９に記録されているキーワードと一致した単語のＩＤＦ（ｄ，ｔ）値を強調（ここでは２倍）した後に、ＴＦ（ｄ，ｔ）値を乗じたが、結果的には、全単語のＴＦＩＤＦ（ｄ，ｔ）値を算出した後に、キーワード記録部２０９に記録されているキーワードと一致した単語のみについて２倍するのと同じである。

クラスタリング部２０５は、ベクトル生成部２０４から全文書分の文書ＩＤとベクトルを受け取りクラスタリング処理を行う。生成されたクラスタには一意なＩＤであるクラスタＩＤを付与し、該クラスタに含まれる文書の文書ＩＤ一覧と対応付けて、クラスタ記録部２１０に出力する。クラスタ記録部２１０には、図８に示すように、“Ｃ００１”のようなクラスタＩＤと、該クラスタに含まれる文書ＩＤである、
０００１，０００３，００２２，００２５，００３０
が記録される。

続いて、共通単語取得部２０７、キーワード選択部２０８における、キーワードの選択について説明する。

「キーワード」とは、利用者が明示的に指定した複数クラスタ間の共通的な概念を表す単語である。

クラスタリングは、生成するクラスタ数や文書間の距離の閾値など、なんらかの制約条件を課して行う処理であるため、本来同一のクラスタとして出力されてもよいと利用者が感じる文書群が制約条件の影響で別のクラスタとして分離した状態で出力される場合もある。このとき、利用者が明示的に複数のクラスタを指定すると、指定クラスタ保持部２０６が、指定したクラスタのクラスタＩＤを保持する。

共通単語取得部２０７は、利用者が指定したクラスタ全てにおいて、少なくとも１文書に出現する単語（共通単語）を取得する。

キーワード選択部２０８は、共通単語取得部２０７で取得した共通単語のうち、指定してクラスタ間の共通的な概念を特に強く表す単語をキーワードとして選択し、これをキーワード記録部２０９に出力する。つまり、共通単語は、キーワード選択のための候補単語と言える。

利用者は、クラスタの指定にあたり、クラスタ記録部２１０に記録されたクラスタＩＤと、並びに各クラスタに含まれる文書ＩＤを参照し、各文書の本文を文書記録部２０１で確認するか、各文書中の単語を単語記録部２０３で確認するかして、本来同一のクラスタとして出力されてもよいと感じるクラスタを指定する。

図９のように、“Ｃ００１”〜“Ｃ００４”までの４クラスタが存在する場合を説明する。図９は、説明の都合上、クラスタのＩＤと当該クラスタに含まれる文書中の単語を列挙して表記したものである。利用者は、実際には、文書記録部２０１、または、単語記録部２０３を参照して各クラスタの内容を把握する。

例えば、利用者が、“Ｃ００１”と“Ｃ００４”はいずれも税金に関わる文書が含まれており、これらを統合させたい、と考えたとする。そこで、利用者が、指定クラスタ保持部２０６にクラスタＩＤを入力装置（図示せず）を介して入力すると、共通単語取得部２０７が、以下に説明する手順で、これら２クラスタに含まれる文書中から共通単語を取得し、続いてキーワード選択部２０８が、クラスタ記録部２１０、単語記録部２０３を参照して共通単語の中からキーワードを選択する。

以降も、図９のクラスタの例を用いて説明する。

図１０は、本発明の第１の実施の形態における共通単語取得部の処理のフローチャートである。

ステップ２０１）共通単語取得部２０７は、指定クラスタ保持部２０６で保持されているクラスタのクラスタＩＤを全て取得する。

ステップ２０２）また、共通単語取得部２０７は、ステップ２０１で取得したクラスタＩＤに基づいてクラスタ記録部２１０を参照し、各クラスタに含まれる文書の文書ＩＤを全て取得する。

ステップ２０３）共通単語取得部２０７は、ステップ２０２で取得した文書ＩＤに基づいて、単語記録部２０３を参照し、各文書ＩＤに対応する文書に含まれる単語を全て取得し、それぞれのクラスタ中で少なくとも１文書に出現する単語（共通単語）を取得する。

ステップ２０４）共通単語取得部２０７は、取得した共通単語を全てキーワード選択部２０８に送出して、共通単語取得部２０７が行う処理を終了する。

図９において、クラスタ“Ｃ００１”中には、「消費税」という単語が“０００１”，“０００３”，“００３０”という文書ＩＤを持つ３文書に出現しており、クラスタ“Ｃ００４”中には、文書ＩＤ００２１の文書に出現している。「消費税」の他に、下線で示す「首相」「今日」「増税」「経済」は、同様に、“Ｃ００１”と“Ｃ００４”のそれぞれのクラスタの少なくとも１文書で用いられているため、図１０に示した手順で、共通単語として選択され、キーワード選択部２０８に送出される。

キーワード選択部２０８は、共通単語の中でも、利用者が指定したクラスタ間の関連性を特に強く表す単語をキーワードとして選択する。選択方法の例を、図１１を用いて説明する。

図１１は、本発明の第１の実施の形態におけるキーワード選択部の処理のフローチャートである。

ステップ３０１）キーワード選択部２０８は、共通単語取得部２０７から「消費税」「首相」などの共通単語を取得する。

ステップ３０２）キーワード選択部２０８は、指定クラスタ保持部２０６から、利用者が指定したクラスタのクラスタＩＤを取得し、当該クラスタＩＤに基づいて、クラスタ記録部２１０を参照し、指定以外のクラスタのクラスタＩＤ、並びに、それらに含まれる文書の文書ＩＤを取得する。その後、各共通単語が、指定以外のクラスタのうち、何クラスタに出現しているかをそれぞれ集計する。集計にあたっては、ある共通単語がクラスタ内のいずれか１以上の文書中で出現している場合には、当該共通単語は当該クラスタに出現しているものとみなす。

共通単語「消費税」はクラスタ“Ｃ００２”，“Ｃ００３”中の文書には出現しないため、指定以外のクラスタ中における出現クラスタ数は０、「首相」と「増税」も同様に０になる。しかし、「今日」は文書ＩＤが“００１０”や“００４２”の文書中に出現しているため、クラスタ“Ｃ００２”と“Ｃ００３”でも出現していると判定され、出現クラスタ数は２となる。「経済」は文書ＩＤ“０００５”のみに出現しているため、出現クラスタ数は１となる。

ステップ３０３）キーワード選択部２０８は、ステップ３０２で集計した共通単語の出現クラスタ数を用い、出現クラスタ数の少ない順に最大でｋ個選択し、これをキーワードとする。例えば、ｋ＝３であったとすると、出現クラスタ数が０である「消費税」「首相」「増税」が選択される。

ステップ３０４）キーワード選択部２０８は、ステップ３０３で選択したキーワードを、キーワード記録部２０９に記録する。図１２にキーワード記録部２０９に保存されたキーワードの例を示す。

ここでは、出現クラスタ数のみでキーワードを選択する方法を示したが、利用者が指定したクラスタ間の関連性を強く表す単語を選択する方法であれば、他の方法を用いてもよい。例えば、出現するクラスタ数ではなく、出現する文書数や文書内での出現回数に基づいて選択する方法が考えられる。他にも、一部の文書には高頻度で出現するが他の文書にはあまり出現しないような、一部の文書に偏って出現する単語ほど大きな値をとるカイ２乗値を算出すれば、指定以外のクラスタ内の文書では出現頻度が低く、指定したクラスタ内での文書では高頻度で出現する単語を、キーワードとして選択することができる。

ここまでの処理でキーワードが選択されると、再度クラスタリング部２０５においてクラスタリングを実施する。本実施の形態では、２度目のクラスタリングまでの間に文書記録部２０１に蓄積された文書の数が増加している状況を想定しているため、追加分の文書に対して、単語の取得や集計など、ここまでに説明したのと同一の手順で処理しておく。

ベクトル生成部２０４は、単語重みを計算する際に、キーワード記録部２０９を参照して、記録されている単語については重みを２倍することで、単語重みを強調する。その後は、クラスタリング部２０５において、１度目と同様にクラスタリング処理を行い、一連の処理を終える。

［第２の実施の形態］
図１３は、本発明の第２の実施の形態における特定単語加重クラスタリング装置の構成を示し、図３の構成と同一構成部分には同一符号を付し、その説明を省略する。同図に示す特定単語加重クラスタリング装置は、前述の第１の実施の形態の構成に、要約情報生成部２１１を付加したものである。

要約情報生成部２１１は、各クラスタに一意に付与されたクラスタＩＤと、各クラスタに含まれる文書の文書ＩＤの一覧をクラスタリング部２０５より取得した後、単語記録部２０３を参照して、各クラスタに含まれる文書中の単語を取得し、各クラスタの内容を、１以上の文字列として要約する。要約によって生成した文字列は、クラスタＩＤ、クラスタ内の文書ＩＤと共に、クラスタ記録部２１０に出力する。

図１４は、本発明の第２の実施の形態におけるクラスタ記録部に記録されたクラスタ構造データの例である。

クラスタのクラスタＩＤ、クラスタに含まれる文書の文書ＩＤに加えて、各クラスタの要約情報が、ここでは、２単語の形態で記録されている。利用者は、このクラスタ情報を手掛りにしてクラスタを指定することができる。

要約情報生成部２１１が行う処理の流れを図１５を用いて説明する。

図１５は、本発明の第２の実施の形態における要約情報生成部の処理のフローチャートである。

ステップ４０１）要約情報生成部２１１は、クラスタリング部２０５から取得したクラスタリングの結果を元に、１クラスタに含まれる文書を統合したものを１文書とみなして、全ての文書に含まれる全単語のＴＦ−ＩＤＦ値を（キーワードの強調などを行わずに）通常の方法で算出する。

ステップ４０２）各クラスタ中の文書に含まれる単語のＴＦ−ＩＤＦ値の高い上位２語を取得し、各クラスタの要約情報として、クラスタＩＤ、文書ＩＤと共にクラスタ記録部２１０に記録する。

なお、要約情報は必ずしも２単語である必要はなく、１語または３語以上の単語であってもよいし、例えば、入力文書がタイトルを持つ場合は、クラスタに含まれる文書のタイトルを列挙したものを要約情報としてもよい。あるいは、既存の文書要約技術を用い、クラスタに含まれる複数の文書を、自然文で要約したものを要約情報としてもよい。

上記の実施の形態における図３と図１３の構成要素の機能をプログラムとして構築し、クラスタリング装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。

また、構築されたプログラムをハードディスクや、フレキシブルディスク・ＣＤ−ＲＯＭ等可搬記憶媒体に格納し、クラスタリング装置として利用されるコンピュータにインストールする、または、配布することが可能である。

なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。

本発明は、文書群を類似文書ごとにクラスタリングする技術に適用可能である。

本発明の原理を説明するための図である。本発明の原理構成図である。本発明の第１の実施の形態における特定単語加重クラスタリング装置の構成図である。本発明の第１の実施の形態における文書記録部に蓄積された文書データの例である。本発明の第１の実施の形態における単語記録部に記録された単語データの例である。本発明の第１の実施の形態におけるベクトル生成部で生成されたベクトルの例である。本発明の第１の実施の形態におけるベクトル生成の処理のフローチャートである。本発明の第１の実施の形態におけるクラスタ記録部に記録されたクラスタ構造データの例である。本発明の第１の実施の形態におけるキーワード選択方法の概要を示す図である。本発明の第１の実施の形態における共通単語取得部の処理のフローチャートである。本発明の第１の実施の形態におけるキーワード決定部のフローチャートである。本発明の第１の実施の形態におけるキーワード選択部で選択されたキーワードの例である。本発明の第２の実施の形態における特定単語加重クラスタリング装置の構成図である。本発明の第２の実施の形態におけるクラスタ記録部に記録されたクラスタ構造データの例である。本発明の第２の実施の形態における要約情報生成部の処理のフローチャートである。

符号の説明

２０１文書記録部
２０２文書解析部
２０３単語記録部
２０４キーワード加重手段、ベクトル生成部
２０５クラスタリング手段、クラスタリング部
２０６指定クラスタ保持部
２０７共通単語取得手段、共通単語取得部
２０８キーワード選択手段、キーワード選択部
２０９キーワード記憶手段、キーワード記録部
２１０クラスタ記録部
２１１要約情報生成部

Claims

類似文書を集約した文書クラスタが複数存在する状況において、利用者が指定した２個以上のクラスタ間の共通概念を検出して記録し、同一もしくは他の文書群に対してクラスタリングを実施する際に、該共通概念を持つ文書が同一クラスタに収まりやすくする装置におけるクラスタリング方法であって、
共通単語取得手段が、利用者が指定した複数のクラスタ内の文書に共通して出現する共通単語を取得する共通単語取得ステップと、
キーワード選択手段が、前記共通単語のうち、前記利用者が指定しなかったクラスタでの出現頻度に比べて、該利用者が指定したクラスタ内での出現頻度が相対的に高い共通単語を選択し、該共通単語をキーワードとして、キーワード記憶手段に記録するキーワード選択ステップと、
クラスタリング手段が、同一もしくは他の文書集合に対してクラスタリングを実施する際に、前記キーワード記憶手段に記録されている前記キーワードの影響力を強調してクラスタリングを行うクラスタリングステップと、
を行うことを特徴とするクラスタリング方法。
要約情報生成手段が、
前記クラスタに含まれる文書を用いて、１文字以上の文字列として該クラスタの要約情報を生成する要約情報生成ステップを更に行う、
請求項１記載のクラスタリング方法。
前記クラスタリングステップにおいて、
前記キーワード記録手段に格納されているキーワードの影響力を強調する重みを付与するキーワード加重ステップと、
前記重みに基づいてクラスタリングするステップと、
を行う請求項１または２記載のクラスタリング方法。
類似文書を集約した文書クラスタが複数存在する状況において、利用者が指定した２個以上のクラスタ間の共通概念を検出して記録し、同一もしくは他の文書群に対してクラスタリングを実施する際に、該共通概念を持つ文書が同一クラスタに収まりやすくするクラスタリング装置であって、
利用者が指定した複数のクラスタ内の文書に共通して出現する共通単語を取得する共通単語取得手段と、
前記共通単語のうち、前記利用者が指定しなかったクラスタでの出現頻度に比べて、該利用者が指定したクラスタ内での出現頻度が相対的に高い共通単語を選択し、該共通単語をキーワードとして、キーワード記憶手段に記録するキーワード選択手段と、
同一もしくは他の文書集合に対してクラスタリングを実施する際に、前記キーワード記憶手段に記録されている前記キーワードの影響力を強調してクラスタリングを行うクラスタリング手段と、
を有することを特徴とするクラスタリング装置。
前記クラスタに含まれる文書を用いて、１文字以上の文字列として該クラスタの要約情報を生成する要約情報生成手段を更に有する、
請求項４記載のクラスタリング装置。
前記クラスタリング手段は、
前記キーワード記録手段に格納されているキーワードの影響力を強調する重みを付与するキーワード加重手段と、
前記重みに基づいてクラスタリングする手段と、を含む
請求項４または５記載のクラスタリング装置。
コンピュータに、
請求項４乃至６記載のクラスタリング装置の各手段を実行させることを特徴とするクラスタリングプログラム。
コンピュータに、
請求項４乃至６記載のクラスタリング装置の各手段を実行させるクラスタリングプログラムを格納したことを特徴とするコンピュータ読み取り可能な記録媒体。