JP5817531B2 - 文書クラスタリングシステム、文書クラスタリング方法およびプログラム - Google Patents
文書クラスタリングシステム、文書クラスタリング方法およびプログラム Download PDFInfo
- Publication number
- JP5817531B2 JP5817531B2 JP2011547580A JP2011547580A JP5817531B2 JP 5817531 B2 JP5817531 B2 JP 5817531B2 JP 2011547580 A JP2011547580 A JP 2011547580A JP 2011547580 A JP2011547580 A JP 2011547580A JP 5817531 B2 JP5817531 B2 JP 5817531B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- concept
- similarity
- phrases
- tree structure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
類似度(W1,W2)=2×depth(LCS)/(depth(W1)+depth(W2))
文書の集合である文書群を取得する文書群取得手段と、
前記文書群取得手段が取得した前記文書群に含まれる2つの文書に出現する語句のうち、一方の文書に出現する語句と他方の文書に出現する語句という2つの語句同士の任意の組合せについて、前記2つの語句の概念の上位下位関係を表す概念木構造を取得する概念木構造取得手段と、
前記任意の組合せについて、前記概念木構造取得手段が取得した前記概念木構造における前記2つの語句の共通の上位語句またはその上位語句の下位系列の語句の前記文書群内での出現頻度と、前記2つの語句のそれぞれの前記文書群内での出現頻度と、が一致する場合に最大であり、前記概念木構造内に前記2つの語句の共通の上位語句が存在しない場合に最小であるような、前記2つの語句の概念の近さを示す指標である概念類似度を求める概念類似度計算手段と、
前記概念類似度計算手段が求めた前記概念類似度を基に、前記文書群取得手段が取得した前記文書群に含まれる2つの文書の意味的に類似する度合である文書間類似度を求める文書間類似度計算手段と、
前記文書間類似度計算手段が求めた前記文書間類似度を基に、前記文書群の文書のクラスタリングを行うクラスタリング手段と、
を備えることを特徴とする。
図1に示すように、実施の形態1に係る文書クラスタリングシステム100は、サーバ1と端末5とから構成される。サーバ1は、概念木構造蓄積部11と、概念類似度計算部12と、文書間類似度計算部13と、クラスタリング部14と、を備え、概念木構造と入力文書における語句の出現頻度を利用し、語句間の意味的な類似に基づいて入力文書群をクラスタリングする。端末5は、入力部51と出力部52を備え、サーバ1への情報の入出力を行う。サーバ1と端末5はネットワーク等を介して接続していても良く、サーバ1が端末5を備える構成にしても良い。なお、出現頻度は、文書内でその語句が出現する割合ではなく回数であり、以下の説明においても同様とする。
概念類似度(w1,w2)
=2×log(P(上位語句(w1,w2)))/(log(P(w1))+log(P(w2)))
P(w)=DF(w)/DF_ALL
上位語句(N社,C社)={電機メーカー,上場企業,携帯電話メーカー}
DF(N社)=4
DF(C社)=5
DF(K社)=4
DF_ALL=20
DF(上位語句(N社,C社))=7
P(上位語句(N社,C社))=DF(上位語句(N社,C社))/DF_ALL=7/20
P(N社)=DF(N社)/DF_ALL=4/20
P(C社)=DF(C社)/DF_ALL=5/20
概念類似度(N社,C社)
=2×log(P(上位語句(N社,C社)))/(log(P(N社))+log(P(C社)))
=2×log(7/20)/(log(4/20)+log(5/20))
=2×(−0.456)/(−0.699−0.602)
=0.701
上位語句(N社,G社)={企業}
DF(G社)=3
DF(上位語句(N社,G社))=DF(企業)=19
概念類似度(N社,G社)
=2×log(P(上位語句(N社,G社)))/(log(P(N社))+log(P(G社)))
=2×log(19/20)/(log(4/20)+log(3/20))
=2×(−0.022)/(−0.699−0.824)
=0.029
上位語句(決算,N社)={φ}(空集合)
DF(決算)=5
DF(上位語句(決算,N社))=0
P(上位語句(決算,N社))=0
概念類似度(決算,N社)
=2×log(P(上位語句(決算,N社)))/(log(P(決算))+log(P(N社)))
=2×log(0/20)/(log(5/20)+log(4/20))
=0
概念類似度(決算,決算)
=2×log(P(上位語句(決算,決算)))/(log(P(決算))+log(P(決算)))
=2×log(5/20)/(log(5/20)+log(5/20))
=1
文書間類似度(d1,d2)=ΣΣ(PT(wd1i,d1)×PT(wd2j,d2)×概念類似度(wd1i,wd2j))
PT(w,d)=TF(w,d)/|d|
文書D1={N社,決算,発表,10,%,上方,修正,過去,最高,収益}
文書D2={C社,決算,発表,携帯,電話,提携,D社,好調}
|文書D1|=11
|文書D2|=8
文書間類似度(文書D1,文書D2)
=ΣΣ(PT(文書D1i,文書D1)×PT(文書D2j,文書D2)
×概念類似度(文書D1i,文書D2j))
=PT(N社,文書D1)×PT(C社,文書D2)×概念類似度(N社,C社)
+PT(N社,文書D1)×PT(決算,文書D2)×概念類似度(N社,決算)
+PT(N社,文書D1)×PT(発表,文書D2)×概念類似度(N社,発表)
+・・・
+PT(収益,文書D1)×PT(好調,文書D2)×概念類似度(収益,好調)
文書間類似度(文書D1,文書D2)
=PT(N社,文書D1)×PT(C社,文書D2)×概念類似度(N社,C社)
+PT(N社,文書D1)×PT(D社,文書D2)×概念類似度(N社,D社)
+PT(N社,文書D1)×PT(好調,文書D2)×概念類似度(N社,好調)
+PT(決算,文書D1)×PT(決算,文書D2)×1
+PT(発表,文書D1)×PT(発表,文書D2)×1
+PT(最高,文書D1)×PT(C社,文書D2)×概念類似度(最高,C社)
+PT(最高,文書D1)×PT(D社,文書D2)×概念類似度(最高,D社)
+PT(最高,文書D1)×PT(好調,文書D2)×概念類似度(最高,好調)
文書間類似度(文書D1,文書D2)
=1/12×1/8×0.701
+1/12×1/8×0.660
+1/12×1/12×0.002
+2/12×1/8×1
+1/12×1/8×1
+1/12×1/8×0.002
+1/12×1/8×0.002
+1/12×1/8×0.660
=0.052
文書D3={N社,プログラミング言語,発表,S社,共同}
文書間類似度(文書D1,文書D3)
=ΣΣ PT(文書D1i,文書D1)×PT(文書D3j,文書D3)
×概念類似度(文書D1i,文書D3j)
=PT(N社,文書D1)×PT(N社,文書D3)×概念類似度(N社,N社)
+PT(N社,文書D1)×PT(プログラミング言語,文書D3)×概念類似度(N社,プログラミング言語)
+PT(N社,文書D1)×PT(発表,文書D3)×概念類似度(N社,発表)
+・・・
+PT(収益,文書D1)×PT(共同,文書D3)×概念類似度(収益,好調)
=PT(N社,文書D1)×PT(N社,文書D3)×1
+PT(N社,文書D1)×PT(プログラミング言語,文書D3)×概念類似度(N社,プログラミング言語)
+PT(N社,文書D1)×PT(S社,文書D3)×概念類似度(N社,S社)
=1/12×1/5×1
+1/12×1/5×0.04
+1/12×1/5×0.66
=0.028
以下の説明において、上述の実施の形態と同一の構成要素については、同一の符号を付し、説明を省略する。図5に示すように、実施の形態2に係る文書クラスタリングシステム200のサーバ2は、実施の形態1の構成に加えて、上位概念決定部15を備え、概念木構造蓄積部11は共起パターン蓄積部11aを備える。文書クラスタリングシステム200は、概念木構造にある各語句に対して共起パターンを含めて蓄積し、より共通する上位概念をもとに、文書をクラスタリングする。
共起パターン(N社)={決算,発表,10,%,上方,修正,過去,最高,収益}
共起パターン(C社)={決算,発表,携帯,電話,提携,D社,好調}
上位語句(N社,C社)={電機メーカー,上場企業,携帯電話メーカー}
上位概念(w1,親)=1/一致した共起語数×Σ一致した共起語の共起度合
上位概念(N社,電機メーカー)=1/0×0=0
上位概念(N社,上場企業)=1/1×0.2=0.2
上位概念(N社,携帯電話メーカー)=1/0×0=0
上位概念(C社,電機メーカー)=1/0×0=0
上位概念(C社,上場企業)=1/1×0.2=0.2
上位概念(C社,携帯電話メーカー)=1/2×(0.5+0.2)=0.35
以下の説明において、上述の実施の形態と同一の構成要素については、同一の符号を付し、説明を省略する。図8に示すように、実施の形態3に係る文書クラスタリングシステム300のサーバ3は、実施の形態1の構成に加えて概念構造整理部16を備え、概念木構造蓄積部11は共起パターン蓄積部11aを備える。文書クラスタリングシステム300は、概念木構造にある各語句に対して共起パターンを含めて蓄積し、共起度合が低いと判定した語句、すなわち概念の関連性が高くないと判定した語句を整理し、文書をクラスタリングする。なお、共起パターン蓄積部11aは実施の形態2で説明したものと同じである。
以下の説明において、上述の実施の形態と同一の構成要素については、同一の符号を付し、説明を省略する。図11に示すように、実施の形態4に係る文書クラスタリングシステム400のサーバ4は、実施の形態1の構成のクラスタリング部14の代わりに制約付きクラスタリング部19を備えており、さらに、文書相似度計算部17および制約条件生成部18を備える。文書クラスタリングシステム400は、文書をクラスタリングする際に、条件を付加してクラスタリングを行う。
複数の語句の概念の上位下位関係を表す概念木構造を取得する概念木構造取得手段と、
文書の集合である文書群を取得する文書群取得手段と、
前記文書群取得手段が取得した前記文書群が有する任意の2つの語句について、該2つの語句の概念の近さを示す指標である概念類似度を求める概念類似度計算手段と、
前記概念類似度計算手段が求めた前記概念類似度を基に、前記文書群取得手段が取得した前記文書群に含まれる2つの文書の意味的に類似する度合である文書間類似度を求める文書間類似度計算手段と、
前記文書間類似度計算手段が求めた前記文書間類似度を基に、前記文書群の文書のクラスタリングを行うクラスタリング手段と、
を備えることを特徴とする文書クラスタリングシステム。
前記概念類似度計算手段は、前記文書群取得手段が取得した前記文書群が有する任意の2つの語句について、前記概念木構造取得手段が取得した前記概念木構造における前記2つの語句の共通の上位語句またはその上位語句の下位系列の語句の前記文書群内での出現頻度と、前記2つの語句のそれぞれの前記文書群内での出現頻度と、が一致する場合に最大であり、前記概念木構造内に前記2つの語句の共通の上位語句が存在しない場合に最小であるような前記概念類似度を求める、ことを特徴とする付記1に記載の文書クラスタリングシステム。
前記概念類似度計算手段は、前記概念木構造において2つの語句に共通する上位語句またはその下位系列の語句の前記文書群の中の出現頻度に対する、前記2つの語句それぞれの前記文書群の中の出現頻度の割合、または情報量を基に、前記概念類似度を求める、ことを特徴とする付記1又は2に記載の文書クラスタリングシステム。
前記概念類似度計算手段は、語句の前記文書群の中での出現頻度を、前記文書群において前記語句が出現する文書の数または前記文書群に含まれる文書の数に対する、前記語句の出現する文書の数の割合、前記文書群で前記語句の出現する回数である語句頻度または前記文書群に含まれる文の数に対する、語句の出現する文の数の割合で求める、ことを特徴とする付記3に記載の文書クラスタリングシステム。
前記文書間類似度計算手段は、前記2つの文書それぞれを1または2以上の語句に分割し、一方の文書に出現する語句と他方の文書に出現する語句同士の任意の組合せの概念類似度の総和、各概念類似度に文書内に出現する語句数で重みをつけて合計した値、または、概念類似度の総和を前記文書に出現する語句の数で正規化した値、を文書間類似度とする、ことを特徴とする付記1ないし4のいずれか1項に記載の文書クラスタリングシステム。
前記概念木構造取得手段が取得した前記概念木構造の語句に共起する語句と共起度を含む共起パターンを取得する共起パターン取得手段と、
前記2つの語句の共通の上位語句のうち、前記2つの語句それぞれを含む各文書内の所定の範囲の語句と前記共通の上位語句の前記共起パターン取得手段が取得した前記共起パターンの語句の一致する数が最大である文脈適合上位語句を選択する上位概念決定手段と、をさらに備え、
前記概念類似度計算手段は、前記2つの語句の共通の上位語句のうち前記上位概念決定手段で選択した文脈適合上位語句を基に、前記概念類似度を求める、ことを特徴とする付記1ないし5のいずれか1項に記載の文書クラスタリングシステム。
前記上位概念決定手段は、前記文書群を参照して2語句の周辺語句を選択し、前記共起パターンを参照して前記周辺語句の上位語句の共起パターンを比較し、一致した共起語の度合いの平均を求めて前記文脈適合上位語句を選択する、ことを特徴とする付記6に記載の文書クラスタリングシステム。
前記概念木構造取得手段が取得した前記概念木構造の語句が、前記文書群取得手段が取得した前記文書群に出現する頻度に基づいて、前記概念類似度計算手段の前記概念類似度の計数への寄与が所定の値以下の上位下位関係である部分概念木構造を前記概念木構造取得手段が取得した前記概念木構造から除外する概念木構造整理手段をさらに備え、
前記概念類似度計算手段は、前記概念木構造整理手段で除外した部分概念木構造を除外して、前記概念類似度を求める、ことを特徴とする付記1ないし7のいずれか1項に記載の文書クラスタリングシステム。
前記概念木構造整理手段は、前記概念木構造の語句が前記文書群に出現する頻度に基づいて、ある上位語句の直下の下位語句のうち、前記文書群に出現する語句に比べ出現しない語句が多い下位語句を有する上位語句の上位下位関係を削除する、ことを特徴とする付記8に記載の文書クラスタリングシステム。
前記文書群取得手段が取得した前記文書群の2つの文書に含まれる語句の出現頻度に基づいて、該2つの文書の相似する度合である文書相似度を求める文書相似度計算手段をさらに備え、
前記クラスタリング手段は、前記文書間類似度計算手段が求めた文書間類似度に基づいて、所定の閾値以上の前記文書間類似度を有する前記2つの文書に対して同じクラスタに入れるべき制約、または、所定の閾値以下の前記文書間類似度を有する前記2つの文書に対して同じクラスタに入れてはならない制約、の少なくとも一方を指示する制約条件を生成し、前記文書相似度計算手段が求めた前記文書相似度を基に前記文書群の文書をクラスタリングしながら前記制約条件を満たすクラスタを生成する、ことを特徴とする付記1ないし9のいずれか1項に記載の文書クラスタリングシステム。
前記クラスタリング手段は、2文書間の類似度を基に、凝集法またはK-MEANSの方法によってクラスタリングを行う、ことを特徴とする付記1ないし10いずれか1項に記載の文書クラスタリングシステム。
前記クラスタリング手段において、前記類似度は、前記文書間類似度をその2文書間の類似尺度(距離の逆数)である、ことを特徴とする付記11に記載の文書クラスタリングシステム。
前記概念木構造は、DAG構造である、ことを特徴とする付記1ないし12のいずれか1項に記載の文書クラスタリングシステム。
前記概念類似度計算手段は、加算スムージング法を基に、文書頻度及び語句頻度を補正する、ことを特徴とする付記1ないし13のいずれか1項に記載の文書クラスタリングシステム。
前記上位概念決定手段は、語句の出現位置からの距離による限定、文書の特徴語、または構文解析による係り受け関係にある自立語、を基に前記周辺語句を求める、ことを特徴とする付記7に記載の文書クラスタリングシステム。
前記上位概念決定手段は、共起語の出現頻度に基づく相互情報量を基に、前記周辺語句の上位語句を求める、ことを特徴とする付記7に記載の文書クラスタリングシステム。
前記文書群取得手段は、ネットワークを介して接続する外部端末装置から、ネットワークを介して前記文書群を取得する、ことを特徴とする付記1ないし16のいずれか1項に記載の文書クラスタリングシステム。
複数の文書の集合を文書のクラスタに分類するクラスタリングシステムが行う文書クラスタリング方法であって、
複数の語句の概念の上位下位関係を表す概念木構造を取得する概念木構造取得ステップと、
文書の集合である文書群を取得する文書群取得ステップと、
前記文書群取得ステップが取得した前記文書群が有する任意の2つの語句について、該2つの語句の概念の近さを示す指標である概念類似度を求める概念類似度計算ステップと、
前記概念類似度計算ステップが求めた前記概念類似度を基に、前記文書群取得ステップが取得した前記文書群に含まれる2つの文書の意味的に類似する度合である文書間類似度を求める文書間類似度計算ステップと、
前記文書間類似度計算ステップが求めた前記文書間類似度を基に、前記文書群の文書のクラスタリングを行うクラスタリングステップと、
を備えることを特徴とする文書クラスタリング方法。
コンピュータに、
複数の語句の概念の上位下位関係を表す概念木構造を取得する概念木構造取得ステップと、
文書の集合である文書群を取得する文書群取得ステップと、
前記文書群取得ステップが取得した前記文書群が有する任意の2つの語句について、該2つの語句の概念の近さを示す指標である概念類似度を求める概念類似度計算ステップと、
前記概念類似度計算ステップが求めた前記概念類似度を基に、前記文書群取得ステップが取得した前記文書群に含まれる2つの文書の意味的に類似する度合である文書間類似度を求める文書間類似度計算ステップと、
前記文書間類似度計算ステップが求めた前記文書間類似度を基に、前記文書群の文書のクラスタリングを行うクラスタリングステップと、
を実行させることを特徴とするプログラムを記憶したコンピュータ読み取り可能な記録媒体。
5 端末
11 概念木構造蓄積部
11a 共起パターン蓄積部
12 概念類似度計算部
13 文書間類似度計算部
14 クラスタリング部
15 上位概念決定部
16 概念構造整理部
17 文書相似度計算部
18 制約条件生成部
19 制約付きクラスタリング部
51 入力部
52 出力部
31 制御部
32 主記憶部
33 外部記憶部
34 操作部
35 表示部
36 入出力部
37 送受信部
40 制御プログラム
100、200、300、400 文書クラスタリングシステム
Claims (18)
- 文書の集合である文書群を取得する文書群取得手段と、
前記文書群取得手段が取得した前記文書群に含まれる2つの文書に出現する語句のうち、一方の文書に出現する語句と他方の文書に出現する語句という2つの語句同士の任意の組合せについて、前記2つの語句の概念の上位下位関係を表す概念木構造を取得する概念木構造取得手段と、
前記任意の組合せについて、前記概念木構造取得手段が取得した前記概念木構造における前記2つの語句の共通の上位語句またはその上位語句の下位系列の語句の前記文書群内での出現頻度と、前記2つの語句のそれぞれの前記文書群内での出現頻度と、が一致する場合に最大であり、前記概念木構造内に前記2つの語句の共通の上位語句が存在しない場合に最小であるような、前記2つの語句の概念の近さを示す指標である概念類似度を求める概念類似度計算手段と、
前記概念類似度計算手段が求めた前記概念類似度を基に、前記文書群取得手段が取得した前記文書群に含まれる2つの文書の意味的に類似する度合である文書間類似度を求める文書間類似度計算手段と、
前記文書間類似度計算手段が求めた前記文書間類似度を基に、前記文書群の文書のクラスタリングを行うクラスタリング手段と、
を備えることを特徴とする文書クラスタリングシステム。 - 前記概念類似度計算手段は、前記概念木構造において2つの語句に共通する上位語句またはその下位系列の語句の前記文書群の中の出現頻度に対する、前記2つの語句それぞれの前記文書群の中の出現頻度の割合、または情報量を基に、前記概念類似度を求める、ことを特徴とする請求項1に記載の文書クラスタリングシステム。
- 前記概念類似度計算手段は、語句の前記文書群の中での出現頻度を、前記文書群において前記語句が出現する文書の数または前記文書群に含まれる文書の数に対する、前記語句の出現する文書の数の割合、前記文書群で前記語句の出現する回数である語句頻度または前記文書群に含まれる文の数に対する、語句の出現する文の数の割合で求める、ことを特徴とする請求項2に記載の文書クラスタリングシステム。
- 前記文書間類似度計算手段は、前記2つの文書それぞれを1または2以上の語句に分割し、一方の文書に出現する語句と他方の文書に出現する語句同士の任意の組合せの概念類似度の総和、各概念類似度に文書内に出現する語句数で重みをつけて合計した値、または、概念類似度の総和を前記文書に出現する語句の数で正規化した値、を文書間類似度とする、ことを特徴とする請求項1ないし3のいずれか1項に記載の文書クラスタリングシステム。
- 前記概念木構造取得手段が取得した前記概念木構造の語句に共起する語句と共起度を含む共起パターンを取得する共起パターン取得手段と、
前記2つの語句の共通の上位語句のうち、前記2つの語句それぞれを含む各文書内の所定の範囲の語句と前記共通の上位語句の前記共起パターン取得手段が取得した前記共起パターンの語句の一致する数が最大である文脈適合上位語句を選択する上位概念決定手段と、をさらに備え、
前記概念類似度計算手段は、前記2つの語句の共通の上位語句のうち前記上位概念決定手段で選択した文脈適合上位語句を基に、前記概念類似度を求める、ことを特徴とする請求項1ないし4のいずれか1項に記載の文書クラスタリングシステム。 - 前記上位概念決定手段は、前記文書群を参照して2語句の周辺語句を選択し、前記共起パターンを参照して前記周辺語句の上位語句の共起パターンを比較し、一致した共起語の度合いの平均を求めて前記文脈適合上位語句を選択する、ことを特徴とする請求項5に記載の文書クラスタリングシステム。
- 前記概念木構造取得手段が取得した前記概念木構造の語句が、前記文書群取得手段が取得した前記文書群に出現する頻度に基づいて、前記概念類似度計算手段の前記概念類似度の計数への寄与が所定の値以下の上位下位関係である部分概念木構造を前記概念木構造取得手段が取得した前記概念木構造から除外する概念木構造整理手段をさらに備え、
前記概念類似度計算手段は、前記概念木構造整理手段で除外した部分概念木構造を除外して、前記概念類似度を求める、ことを特徴とする請求項1ないし6のいずれか1項に記載の文書クラスタリングシステム。 - 前記概念木構造整理手段は、前記概念木構造の語句が前記文書群に出現する頻度に基づいて、ある上位語句の直下の下位語句のうち、前記文書群に出現する語句に比べ出現しない語句が多い下位語句を有する上位語句の上位下位関係を削除する、ことを特徴とする請求項7に記載の文書クラスタリングシステム。
- 前記文書群取得手段が取得した前記文書群の2つの文書に含まれる語句の出現頻度に基づいて、該2つの文書の相似する度合である文書相似度を求める文書相似度計算手段をさらに備え、
前記クラスタリング手段は、前記文書間類似度計算手段が求めた文書間類似度に基づいて、所定の閾値以上の前記文書間類似度を有する前記2つの文書に対して同じクラスタに入れるべき制約、または、所定の閾値以下の前記文書間類似度を有する前記2つの文書に対して同じクラスタに入れてはならない制約、の少なくとも一方を指示する制約条件を生成し、前記文書相似度計算手段が求めた前記文書相似度を基に前記文書群の文書をクラスタリングしながら前記制約条件を満たすクラスタを生成する、ことを特徴とする請求項1ないし8のいずれか1項に記載の文書クラスタリングシステム。 - 前記クラスタリング手段は、前記文書間類似度を基に、凝集法またはK-MEANSの方法によってクラスタリングを行う、ことを特徴とする請求項1ないし9のいずれか1項に記載の文書クラスタリングシステム。
- 前記クラスタリング手段において、前記文書間類似度は、その2文書間の類似尺度(文書間の意味的な距離の逆数)である、ことを特徴とする請求項10に記載の文書クラスタリングシステム。
- 前記概念木構造は、DAG構造である、ことを特徴とする請求項1ないし11のいずれか1項に記載の文書クラスタリングシステム。
- 前記概念類似度計算手段は、加算スムージング法を基に、文書頻度及び語句頻度を補正する、ことを特徴とする請求項1ないし12のいずれか1項に記載の文書クラスタリングシステム。
- 前記上位概念決定手段は、語句の出現位置からの距離による限定、文書の特徴語、または構文解析による係り受け関係にある自立語、を基に前記周辺語句を求める、ことを特徴とする請求項6に記載の文書クラスタリングシステム。
- 前記上位概念決定手段は、共起語の出現頻度に基づく相互情報量を基に、前記周辺語句の上位語句を求める、ことを特徴とする請求項6に記載の文書クラスタリングシステム。
- 前記文書群取得手段は、ネットワークを介して接続する外部端末装置から、ネットワークを介して前記文書群を取得する、ことを特徴とする請求項1ないし15のいずれか1項に記載の文書クラスタリングシステム。
- 複数の文書の集合を文書のクラスタに分類するクラスタリングシステムが行う文書クラスタリング方法であって、
文書の集合である文書群を取得する文書群取得ステップと、
前記文書群取得ステップが取得した前記文書群に含まれる2つの文書に出現する語句のうち、一方の文書に出現する語句と他方の文書に出現する語句という2つの語句同士の任意の組合せについて、前記2つの語句の概念の上位下位関係を表す概念木構造を取得する概念木構造取得ステップと、
前記任意の組合せについて、前記概念木構造取得ステップで取得した前記概念木構造における前記2つの語句の共通の上位語句またはその上位語句の下位系列の語句の前記文書群内での出現頻度と、前記2つの語句のそれぞれの前記文書群内での出現頻度と、が一致する場合に最大であり、前記概念木構造内に前記2つの語句の共通の上位語句が存在しない場合に最小であるような、前記2つの語句の概念の近さを示す指標である概念類似度を求める概念類似度計算ステップと、
前記概念類似度計算ステップが求めた前記概念類似度を基に、前記文書群取得ステップが取得した前記文書群に含まれる2つの文書の意味的に類似する度合である文書間類似度を求める文書間類似度計算ステップと、
前記文書間類似度計算ステップが求めた前記文書間類似度を基に、前記文書群の文書のクラスタリングを行うクラスタリングステップと、
を備えることを特徴とする文書クラスタリング方法。 - コンピュータに、
文書の集合である文書群を取得する文書群取得ステップと、
前記文書群取得ステップが取得した前記文書群に含まれる2つの文書に出現する語句のうち、一方の文書に出現する語句と他方の文書に出現する語句という2つの語句同士の任意の組合せについて、前記2つの語句の概念の上位下位関係を表す概念木構造を取得する概念木構造取得ステップと、
前記任意の組合せについて、前記概念木構造取得ステップで取得した前記概念木構造における前記2つの語句の共通の上位語句またはその上位語句の下位系列の語句の前記文書群内での出現頻度と、前記2つの語句のそれぞれの前記文書群内での出現頻度と、が一致する場合に最大であり、前記概念木構造内に前記2つの語句の共通の上位語句が存在しない場合に最小であるような、前記2つの語句の概念の近さを示す指標である概念類似度を求める概念類似度計算ステップと、
前記概念類似度計算ステップが求めた前記概念類似度を基に、前記文書群取得ステップが取得した前記文書群に含まれる2つの文書の意味的に類似する度合である文書間類似度を求める文書間類似度計算ステップと、
前記文書間類似度計算ステップが求めた前記文書間類似度を基に、前記文書群の文書のクラスタリングを行うクラスタリングステップと、
を実行させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011547580A JP5817531B2 (ja) | 2009-12-22 | 2010-12-21 | 文書クラスタリングシステム、文書クラスタリング方法およびプログラム |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009290956 | 2009-12-22 | ||
JP2009290956 | 2009-12-22 | ||
JP2011547580A JP5817531B2 (ja) | 2009-12-22 | 2010-12-21 | 文書クラスタリングシステム、文書クラスタリング方法およびプログラム |
PCT/JP2010/073042 WO2011078186A1 (ja) | 2009-12-22 | 2010-12-21 | 文書クラスタリングシステム、文書クラスタリング方法および記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2011078186A1 JPWO2011078186A1 (ja) | 2013-05-09 |
JP5817531B2 true JP5817531B2 (ja) | 2015-11-18 |
Family
ID=44195713
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011547580A Expired - Fee Related JP5817531B2 (ja) | 2009-12-22 | 2010-12-21 | 文書クラスタリングシステム、文書クラスタリング方法およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US8965896B2 (ja) |
JP (1) | JP5817531B2 (ja) |
WO (1) | WO2011078186A1 (ja) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8650198B2 (en) * | 2011-08-15 | 2014-02-11 | Lockheed Martin Corporation | Systems and methods for facilitating the gathering of open source intelligence |
US8762300B2 (en) * | 2011-10-18 | 2014-06-24 | Ming Chuan University | Method and system for document classification |
US9886495B2 (en) * | 2011-11-02 | 2018-02-06 | Alexander I. Poltorak | Relevance estimation and actions based thereon |
US9037452B2 (en) * | 2012-03-16 | 2015-05-19 | Afrl/Rij | Relation topic construction and its application in semantic relation extraction |
JP2013254339A (ja) * | 2012-06-06 | 2013-12-19 | Toyota Motor Corp | 言語関係判別装置、言語関係判別プログラム、言語関係判別方法 |
US9146980B1 (en) * | 2013-06-24 | 2015-09-29 | Google Inc. | Temporal content selection |
US20150081729A1 (en) * | 2013-09-19 | 2015-03-19 | GM Global Technology Operations LLC | Methods and systems for combining vehicle data |
JP6387531B2 (ja) * | 2013-10-30 | 2018-09-12 | パナソニックIpマネジメント株式会社 | 情報提供システム、特定情報生成装置、および特定情報生成方法 |
WO2015078231A1 (zh) * | 2013-11-26 | 2015-06-04 | 优视科技有限公司 | 网页模板生成方法和服务器 |
CN105095320B (zh) * | 2014-05-23 | 2019-04-19 | 邓寅生 | 基于关系叠加组合的文档的标识、关联、搜索及展现的系统 |
CN105095319B (zh) * | 2014-05-23 | 2019-04-19 | 邓寅生 | 基于时间序列化的文档的标识、关联、搜索及展现的系统 |
US9535974B1 (en) | 2014-06-30 | 2017-01-03 | Palantir Technologies Inc. | Systems and methods for identifying key phrase clusters within documents |
US9619557B2 (en) * | 2014-06-30 | 2017-04-11 | Palantir Technologies, Inc. | Systems and methods for key phrase characterization of documents |
US9639598B2 (en) * | 2014-07-31 | 2017-05-02 | International Business Machines Corporation | Large-scale data clustering with dynamic social context |
KR101684136B1 (ko) * | 2015-06-26 | 2016-12-07 | 한국과학기술원 | 시맨틱 처리 및 클러스터링을 사용한 운영 및 유지 가이드 라인 |
CN106372061B (zh) * | 2016-09-12 | 2020-11-24 | 电子科技大学 | 基于语义的短文本相似度计算方法 |
US10169330B2 (en) * | 2016-10-31 | 2019-01-01 | Accenture Global Solutions Limited | Anticipatory sample analysis for application management |
US10169331B2 (en) * | 2017-01-29 | 2019-01-01 | International Business Machines Corporation | Text mining for automatically determining semantic relatedness |
US10803108B2 (en) * | 2017-12-20 | 2020-10-13 | International Business Machines Corporation | Facilitation of domain and client-specific application program interface recommendations |
JP7006403B2 (ja) * | 2018-03-14 | 2022-01-24 | 富士通株式会社 | クラスタリングプログラム、クラスタリング方法およびクラスタリング装置 |
KR20190114409A (ko) * | 2018-03-30 | 2019-10-10 | 필아이티 주식회사 | 입력된 단어에 대응되는 유사단어를 제공하는 모바일 장치 및 방법 |
GB201821318D0 (en) * | 2018-12-31 | 2019-02-13 | Transversal Ltd | A system and method for identifying newly trending topics in a data stream |
CN109871428B (zh) | 2019-01-30 | 2022-02-18 | 北京百度网讯科技有限公司 | 用于确定文本相关度的方法、装置、设备和介质 |
US11829424B2 (en) * | 2020-02-20 | 2023-11-28 | International Business Machines Corporation | Discovering latent custodians and documents in an E-discovery system |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11203319A (ja) * | 1998-01-19 | 1999-07-30 | Seiko Epson Corp | 文書分類方法および装置並びに文書分類処理プログラムを記録した記録媒体 |
JP2004318527A (ja) * | 2003-04-16 | 2004-11-11 | Seiko Epson Corp | 情報抽出システム、文書抽出システム、情報抽出プログラム及び文書抽出プログラム、並びに情報抽出方法及び文書抽出方法 |
JP2006221478A (ja) * | 2005-02-10 | 2006-08-24 | Minoru Koide | 文書検索装置及びマクロアプローチによるポートフォリオ分析装置 |
JP2008152641A (ja) * | 2006-12-19 | 2008-07-03 | Toyota Central R&D Labs Inc | 類似例文検索装置 |
JP2008204374A (ja) * | 2007-02-22 | 2008-09-04 | Fuji Xerox Co Ltd | クラスタ生成装置およびクラスタ生成プログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005092442A (ja) | 2003-09-16 | 2005-04-07 | Mitsubishi Research Institute Inc | 多次元空間モデル表現装置および多次元空間モデル表現方法 |
US8249871B2 (en) * | 2005-11-18 | 2012-08-21 | Microsoft Corporation | Word clustering for input data |
-
2010
- 2010-12-21 WO PCT/JP2010/073042 patent/WO2011078186A1/ja active Application Filing
- 2010-12-21 US US13/518,401 patent/US8965896B2/en not_active Expired - Fee Related
- 2010-12-21 JP JP2011547580A patent/JP5817531B2/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11203319A (ja) * | 1998-01-19 | 1999-07-30 | Seiko Epson Corp | 文書分類方法および装置並びに文書分類処理プログラムを記録した記録媒体 |
JP2004318527A (ja) * | 2003-04-16 | 2004-11-11 | Seiko Epson Corp | 情報抽出システム、文書抽出システム、情報抽出プログラム及び文書抽出プログラム、並びに情報抽出方法及び文書抽出方法 |
JP2006221478A (ja) * | 2005-02-10 | 2006-08-24 | Minoru Koide | 文書検索装置及びマクロアプローチによるポートフォリオ分析装置 |
JP2008152641A (ja) * | 2006-12-19 | 2008-07-03 | Toyota Central R&D Labs Inc | 類似例文検索装置 |
JP2008204374A (ja) * | 2007-02-22 | 2008-09-04 | Fuji Xerox Co Ltd | クラスタ生成装置およびクラスタ生成プログラム |
Also Published As
Publication number | Publication date |
---|---|
JPWO2011078186A1 (ja) | 2013-05-09 |
US8965896B2 (en) | 2015-02-24 |
WO2011078186A1 (ja) | 2011-06-30 |
US20120259855A1 (en) | 2012-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5817531B2 (ja) | 文書クラスタリングシステム、文書クラスタリング方法およびプログラム | |
US8918348B2 (en) | Web-scale entity relationship extraction | |
Chang et al. | Structured learning with constrained conditional models | |
Sugiyama et al. | Exploiting potential citation papers in scholarly paper recommendation | |
Rong et al. | Egoset: Exploiting word ego-networks and user-generated ontology for multifaceted set expansion | |
Shi et al. | Keyphrase extraction using knowledge graphs | |
US20130110839A1 (en) | Constructing an analysis of a document | |
US20110029476A1 (en) | Indicating relationships among text documents including a patent based on characteristics of the text documents | |
Joorabchi et al. | An unsupervised approach to automatic classification of scientific literature utilizing bibliographic metadata | |
US9569525B2 (en) | Techniques for entity-level technology recommendation | |
CA2897886A1 (en) | Methods and apparatus for identifying concepts corresponding to input information | |
Malik et al. | Hierarchical document clustering using local patterns | |
Tuan et al. | Bag of biterms modeling for short texts | |
Sarkar et al. | Text classification | |
Komninos et al. | Structured generative models of continuous features for word sense induction | |
WO2016067396A1 (ja) | 文の並び替え方法および計算機 | |
Yang et al. | Quads: question answering for decision support | |
Leoshchenko et al. | Methods of semantic proximity extraction between the lexical units in infocommunication systems | |
Hirsch et al. | Evolving Lucene search queries for text classification | |
Ouhbi et al. | A hybrid feature selection rule measure and its application to systematic review | |
Ren et al. | Hybrid Chinese text classification approach using general knowledge from Baidu Baike | |
Pasarate et al. | Concept based document clustering using K prototype Algorithm | |
WO2015159702A1 (ja) | 部分情報抽出システム | |
CN107622129B (zh) | 一种知识库的组织方法及装置、计算机存储介质 | |
Mirylenka et al. | Linking IT product records |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150127 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150317 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150602 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150727 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150901 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150914 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5817531 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |