JP2005301786A - 評価装置、クラスタ生成装置、プログラム、記録媒体、評価方法、及びクラスタ生成方法 - Google Patents
評価装置、クラスタ生成装置、プログラム、記録媒体、評価方法、及びクラスタ生成方法 Download PDFInfo
- Publication number
- JP2005301786A JP2005301786A JP2004118758A JP2004118758A JP2005301786A JP 2005301786 A JP2005301786 A JP 2005301786A JP 2004118758 A JP2004118758 A JP 2004118758A JP 2004118758 A JP2004118758 A JP 2004118758A JP 2005301786 A JP2005301786 A JP 2005301786A
- Authority
- JP
- Japan
- Prior art keywords
- cluster
- elements
- confidence value
- adjacent element
- self
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【解決手段】 複数の要素の何れかを選択して生成したクラスタについて、当該クラスタの選択の自己コンフィデンス値を算出する評価装置は、基準要素との関連がより強い基準個数の要素の集合である隣接要素集合を、評価対象のクラスタとして選択する評価対象クラスタ選択部と、クラスタに含まれる各々のメンバ要素について、当該メンバ要素との関連がより強い基準個数の要素の集合である隣接要素集合を選択する隣接要素集合選択部と、クラスタから選択可能な2つのメンバ要素の組み合わせについて、当該組み合わせの一方のメンバ要素の隣接要素集合及び他方のメンバ要素の隣接要素集合に共通して含まれる要素の数を算出し、全てのメンバ要素の組み合わせについての当該割合の平均を自己コンフィデンス値として出力するコンフィデンス値算出部とを備える。
【選択図】図1
Description
非特許文献4及び非特許文献5については後述する。
S. Brin, R. Motwani and C. Silverstein, Beyond market baskets: generalizing association rules to correlations, Proc. ACM SIGMOD International Conference on Management of Data, Tucson, U.S.A, 1997, pp. 265-276. Michael E. Houle, Navigating massive data sets via local clustering, Proc. ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Washington, U.S.A, 2003, pp. 547-552. G. V. Kass, An exploratory technique for investigating large quantities of categorical data, J. Applied Statistics 29:119-129, 1980. E. S. Keeping, Introduction to Statistical Inference, Dover Publications, New York, USA, 1995. Gerald Salton, The SMART Retrieval System - Experiments in Automatic Document Processing, Prentice-Hall, Englewood Cliffs, NJ, USA, 1971.
q∈Rならば、NN(R, q, 1)={q}
1<k≦|R|を満たす全てのkについて、NN(R, q, k-1)⊂NN(R, q, k)
更に、あるqi、kiについて、NN(R, qi, ki)をCiと表記する。同様に、あるqj、kjについて、NN(R, qj, kj)をCjと表記する。
・S(u, 1, 0) = 1 if u = q, and S(u, 1, 0) = 0 if u≠ q.
・For all s > 1,
S(u, s, 0) = S(u, s?1, s?1) + 1 if u∈NN(R, u, s), and
S(u, s, 0) = S(u, s?1, s-1) if not(u∈NN(R, u, s)).
・For all s > 1 and 0 < t ≦ s, S(u, s, t) = S(u, s, t-1) + ?(u, s+1, t).
・T(u, 1, 0) = 0 for all u.
・For all s > 1,
T(u, s, 0) = T(u, s?1, s-1) + S(u, s?1, s-1) if u ∈ NN(R, u, s), and
T(u, s, 0) = T(u, s?1, s-1) if not(u ∈ NN(R, u, s)).
・For all s > 1 and 0 < t ≦ s,
T(u, s, t) = T(u, s, t-1) + S(u, s, t-1) if ?(u, s+1, t) = 1, and
T(u, s, t) = T(u, s, t-1) if ?(u, s+1, t) = 0.
1.関連度算出部410は、複数の要素を列とし、複数の属性を行として、TF-IDF技術により定まる値を行列状に配列し、配列したこれらの値を、各属性についての要素ベクトルとしてそのまま用いる。
2.関連度算出部410は、複数の要素を列とし、複数の属性を行として、TF-IDF技術により定まる値を行列状に配列し、配列したこれらの値を、各属性を有する要素に基づいて変更する。
(項目1) 互いに関連の強さが定められた複数の要素の何れかを選択して生成したクラスタについて、当該クラスタに含まれるメンバ要素の選択の確信度を示す自己コンフィデンス値を算出する評価装置であって、予め定められた基準要素について、当該基準要素との関連がより強い基準個数の要素の集合である隣接要素集合を、評価対象のクラスタとして選択する評価対象クラスタ選択部と、前記クラスタに含まれる各々のメンバ要素について、当該メンバ要素との関連がより強い前記基準個数の要素の集合である隣接要素集合を選択する隣接要素集合選択部と、前記クラスタから選択可能な2つのメンバ要素の組み合わせについて、当該組み合わせの一方のメンバ要素の隣接要素集合及び他方のメンバ要素の隣接要素集合に共通して含まれる要素の数の、前記基準個数に対する割合を算出し、全てのメンバ要素の組み合わせについての当該割合の合計に基づく値を前記自己コンフィデンス値として出力するコンフィデンス値算出部とを備える評価装置。
(項目3) 互いに関連の強さが定められた複数の要素から何れかを選択してクラスタを生成するクラスタ生成装置であって、予め定められた基準要素について、当該基準要素との関係がより強い基準個数の要素の集合である隣接要素集合を、評価対象のクラスタとして選択する評価対象クラスタ選択部と、前記クラスタに含まれる各々のメンバ要素について、当該メンバ要素との関連がより強い前記基準個数の要素の集合である隣接要素集合を選択する隣接要素集合選択部と、前記クラスタから選択可能な2つのメンバ要素の組の各々について、当該組の一方のメンバ要素の隣接要素集合及び他方のメンバ要素の隣接要素集合に共通して含まれる要素の数の、前記基準個数に対する割合を算出し、全ての組について算出した当該割合の合計に基づく値を前記自己コンフィデンス値として出力するコンフィデンス値算出部と、前記自己コンフィデンス値が予め定められた基準値より大きい場合に、評価対象の前記クラスタを、生成すべきクラスタと判断する要素クラスタ生成部とを備えるクラスタ生成装置。
(項目5) 互いに関連の強さが定められた複数の要素の中から予め定められた基準個数の要素を選択して生成したクラスタについて、前記複数の要素全体に対する前記クラスタの特殊性の評価値を算出する評価装置であって、予め定められた基準要素との関係がより強い前記基準個数の要素の集合である隣接要素集合を、評価対象のクラスタとして選択する評価対象クラスタ選択部と、前記クラスタに含まれる各々のメンバ要素について、当該メンバ要素との関連がより強い前記基準個数の要素の集合である隣接要素集合を選択する隣接要素集合選択部と、前記隣接要素集合選択部により選択された前記隣接要素集合に基づいて、当該クラスタに含まれるメンバ要素の選択の確信度を示す自己コンフィデンス値を算出するコンフィデンス値算出部と、前記隣接要素集合選択部が、前記隣接要素集合に代えて、前記複数の要素から無作為に前記基準個数の要素の集合を選択したと仮定した場合における、前記コンフィデンス値算出部により算出される自己コンフィデンス値の理論値を算出する理論値算出部と、自己コンフィデンス値の前記理論値に対する自己コンフィデンス値のカイ2乗検定値を、前記評価値として算出して出力する評価値算出部とを備える評価装置。
(項目7) 前記コンフィデンス値算出部は、前記クラスタから選択可能な2つのメンバ要素の組み合わせの各々について、当該組み合わせの一方のメンバ要素の隣接要素集合及び他方のメンバ要素の隣接要素集合に共通して含まれる要素の数の、前記基準個数に対する割合を算出し、全ての組について算出した当該割合の合計に基づく値を前記自己コンフィデンス値として算出する項目5記載の評価装置。
(項目10) 互いに関連の強さが定められた複数の要素の何れかを選択して生成したクラスタについて、当該クラスタに含まれるメンバ要素の選択の確信度を示す自己コンフィデンス値を算出する評価装置として、コンピュータを機能させるプログラムであって、前記コンピュータを、予め定められた基準要素について、当該基準要素との関連がより強い基準個数の要素の集合である隣接要素集合を、評価対象のクラスタとして選択する評価対象クラスタ選択部と、前記クラスタに含まれる各々のメンバ要素について、当該メンバ要素との関連がより強い前記基準個数の要素の集合である隣接要素集合を選択する隣接要素集合選択部と、前記クラスタから選択可能な2つのメンバ要素の組み合わせについて、当該組み合わせの一方のメンバ要素の隣接要素集合及び他方のメンバ要素の隣接要素集合に共通して含まれる要素の数の、前記基準個数に対する割合を算出し、全てのメンバ要素の組み合わせについての当該割合の合計に基づく値を前記自己コンフィデンス値として出力するコンフィデンス値算出部として機能させるプログラム。
(項目12) 各々が複数の属性のうち少なくとも1つを有する複数の要素からクラスタを生成するクラスタ生成装置として、コンピュータを機能させるプログラムであって、前記コンピュータを、前記複数の属性の各々について、当該属性を有する要素の集合を選択する要素集合選択部と、前記複数の属性の各々が他の属性の各々と関連する強さを示す関連度を、当該属性及び当該他の属性を共通して含む要素の数に基づいて算出する関連度算出部と、算出した前記関連度に基づいて、互いの関連度が基準以上である複数の属性を有する属性クラスタを生成する属性クラスタ生成部と、前記属性クラスタに含まれる属性の少なくとも1つを有する要素の集合を求めてクラスタとして出力する要素クラスタ生成部として機能させるプログラム。
(項目13) 項目10から12の何れかに記載のプログラムを記録した記録媒体。
(項目15) 互いに関連の強さが定められた複数の要素の中から予め定められた基準個数の要素を選択して生成したクラスタについて、前記複数の要素全体に対する前記クラスタの特殊性の評価値を、コンピュータにより算出する評価方法であって、前記コンピュータにより、予め定められた基準要素との関係がより強い前記基準個数の要素の集合である隣接要素集合を、評価対象のクラスタとして選択する評価対象クラスタ選択段階と、前記クラスタに含まれる各々のメンバ要素について、当該メンバ要素との関連がより強い前記基準個数の要素の集合である隣接要素集合を選択する隣接要素集合選択段階と、前記隣接要素集合選択段階において選択された前記隣接要素集合に基づいて、当該クラスタに含まれるメンバ要素の選択の確信度を示す自己コンフィデンス値を算出するコンフィデンス値算出段階と、前記隣接要素集合選択段階において、前記隣接要素集合に代えて、前記複数の要素から無作為に前記基準個数の要素の集合を選択したと仮定した場合における、前記コンフィデンス値算出段階において算出される自己コンフィデンス値の理論値を算出する理論値算出段階と、自己コンフィデンス値の前記理論値に対する自己コンフィデンス値のカイ2乗検定値を、前記評価値として算出して出力する評価値算出段階とを備える評価方法。
20 クラスタ生成装置
30 評価装置
40 要素クラスタ生成部
300 評価対象クラスタ選択部
310 隣接要素集合選択部
320 コンフィデンス値算出部
330 理論値算出部
340 評価値算出部
400 要素集合選択部
410 関連度算出部
420 属性クラスタ生成部
430 要素クラスタ生成部
500 コンピュータ
Claims (16)
- 互いに関連の強さが定められた複数の要素の何れかを選択して生成したクラスタについて、当該クラスタに含まれるメンバ要素の選択の確信度を示す自己コンフィデンス値を算出する評価装置であって、
予め定められた基準要素について、当該基準要素との関連がより強い基準個数の要素の集合である隣接要素集合を、評価対象のクラスタとして選択する評価対象クラスタ選択部と、
前記クラスタに含まれる各々のメンバ要素について、当該メンバ要素との関連がより強い前記基準個数の要素の集合である隣接要素集合を選択する隣接要素集合選択部と、
前記クラスタから選択可能な2つのメンバ要素の組み合わせについて、当該組み合わせの一方のメンバ要素の隣接要素集合及び他方のメンバ要素の隣接要素集合に共通して含まれる要素の数の、前記基準個数に対する割合を算出し、全てのメンバ要素の組み合わせについての当該割合の合計に基づく値を前記自己コンフィデンス値として出力するコンフィデンス値算出部と
を備える評価装置。 - 前記コンフィデンス値算出部は、前記基準要素との関係がより強い前記基準個数の要素の何れかを中継要素として、当該中継要素との関係がより強い前記基準個数の要素の各々について、当該要素に達するために選択可能な全ての前記中継要素の数を算出し、当該要素に達するために選択可能な全ての中継要素のうち2つの中継要素の組み合わせの総数を算出し、各要素について算出した当該組み合わせの総数の合計に基づく値を前記自己コンフィデンス値として出力する
請求項1記載の評価装置。 - 互いに関連の強さが定められた複数の要素から何れかを選択してクラスタを生成するクラスタ生成装置であって、
予め定められた基準要素について、当該基準要素との関係がより強い基準個数の要素の集合である隣接要素集合を、評価対象のクラスタとして選択する評価対象クラスタ選択部と、
前記クラスタに含まれる各々のメンバ要素について、当該メンバ要素との関連がより強い前記基準個数の要素の集合である隣接要素集合を選択する隣接要素集合選択部と、
前記クラスタから選択可能な2つのメンバ要素の組の各々について、当該組の一方のメンバ要素の隣接要素集合及び他方のメンバ要素の隣接要素集合に共通して含まれる要素の数の、前記基準個数に対する割合を算出し、全ての組について算出した当該割合の合計に基づく値を前記自己コンフィデンス値として出力するコンフィデンス値算出部と、
前記自己コンフィデンス値が予め定められた基準値より大きい場合に、評価対象の前記クラスタを、生成すべきクラスタと判断する要素クラスタ生成部と
を備えるクラスタ生成装置。 - 前記クラスタ生成装置は、複数の文書を前記複数の要素として、文書に含まれるキーワードに基づいてクラスタを生成する装置であり、
前記評価対象クラスタ選択部は、予め定められた文書について、当該文書と比較して含んでいるキーワードの組がより類似する前記基準個数の文書の集合である隣接要素集合を、前記評価対象のクラスタとして選択し、
前記隣接要素集合選択部は、前記クラスタに含まれる各々の文書について、当該文書と比較して含んでいるキーワードの組がより類似する前記基準個数の文書の集合である隣接要素集合を選択し、
前記コンフィデンス値算出部は、前記クラスタから選択可能な2つの文書の組み合わせについて、当該組み合わせの一方の文書の隣接要素集合及び他方の文書の隣接要素集合に共通して含まれる文書の数の、前記基準個数に対する割合を算出し、全ての組み合わせについて算出した当該割合の合計に基づく値を前記自己コンフィデンス値として出力し、
前記要素クラスタ生成部は、前記自己コンフィデンス値が予め定められた基準値より大きい場合に、評価対象の前記クラスタを、生成すべきクラスタと判断する
請求項3記載のクラスタ生成装置。 - 互いに関連の強さが定められた複数の要素の中から予め定められた基準個数の要素を選択して生成したクラスタについて、前記複数の要素全体に対する前記クラスタの特殊性の評価値を算出する評価装置であって、
予め定められた基準要素との関係がより強い前記基準個数の要素の集合である隣接要素集合を、評価対象のクラスタとして選択する評価対象クラスタ選択部と、
前記クラスタに含まれる各々のメンバ要素について、当該メンバ要素との関連がより強い前記基準個数の要素の集合である隣接要素集合を選択する隣接要素集合選択部と、
前記隣接要素集合選択部により選択された前記隣接要素集合に基づいて、当該クラスタに含まれるメンバ要素の選択の確信度を示す自己コンフィデンス値を算出するコンフィデンス値算出部と、
前記隣接要素集合選択部が、前記隣接要素集合に代えて、前記複数の要素から無作為に前記基準個数の要素の集合を選択したと仮定した場合における、前記コンフィデンス値算出部により算出される自己コンフィデンス値の理論値を算出する理論値算出部と、
自己コンフィデンス値の前記理論値に対する自己コンフィデンス値のカイ2乗検定値を、前記評価値として算出して出力する評価値算出部と
を備える評価装置。 - 前記コンフィデンス値算出部は、前記複数のメンバ要素の各々について、前記クラスタに含まれる要素のうち当該メンバ要素の隣接要素集合に含まれる要素の割合を算出し、各メンバ要素について算出した前記割合の合計に基づく値を前記自己コンフィデンス値として出力する
請求項5記載の評価装置。 - 前記コンフィデンス値算出部は、前記クラスタから選択可能な2つのメンバ要素の組み合わせの各々について、当該組み合わせの一方のメンバ要素の隣接要素集合及び他方のメンバ要素の隣接要素集合に共通して含まれる要素の数の、前記基準個数に対する割合を算出し、全ての組について算出した当該割合の合計に基づく値を前記自己コンフィデンス値として算出する
請求項5記載の評価装置。 - 互いに関連の強さが定められた複数の要素から何れかを選択してクラスタを生成するクラスタ生成装置であって、
予め定められた基準要素との関係がより強い予め定められた基準個数の要素の集合である隣接要素集合を、評価対象のクラスタとして選択する評価対象クラスタ選択部と、
前記クラスタに含まれる各々のメンバ要素について、当該メンバ要素との関連がより強い前記基準個数の要素の集合である隣接要素集合を選択する隣接要素集合選択部と、
前記隣接要素集合選択部により選択された前記隣接要素集合に基づいて、当該クラスタに含まれるメンバ要素の選択の確信度を示す自己コンフィデンス値を算出するコンフィデンス値算出部と、
前記隣接要素集合選択部が、前記隣接要素集合に代えて、前記複数の要素から無作為に前記基準個数の要素の集合を選択したと仮定した場合における、前記コンフィデンス値算出部により算出される自己コンフィデンス値の理論値を算出する理論値算出部と、
自己コンフィデンス値の前記理論値に対する自己コンフィデンス値のカイ2乗検定値を、前記評価値として算出して出力する評価値算出部と、
前記基準個数を予め定められた範囲で変更した各クラスタについて、前記評価値を前記評価値算出部により算出させ、算出させた当該評価値を最大にするクラスタを選択して生成する要素クラスタ生成部と
を有するクラスタ生成装置。 - 各々が複数の属性のうち少なくとも1つを有する複数の要素からクラスタを生成するクラスタ生成装置であって、
前記複数の属性の各々について、当該属性を有する要素の集合を選択する要素集合選択部と、
前記複数の属性の各々が他の属性の各々と関連する強さを示す関連度を、当該属性及び当該他の属性を共通して含む要素の数に基づいて算出する関連度算出部と、
算出した前記関連度に基づいて、互いの関連度が基準以上である複数の属性を有する属性クラスタを生成する属性クラスタ生成部と、
前記属性クラスタに含まれる属性の少なくとも1つを有する要素の集合を求めてクラスタとして出力する要素クラスタ生成部と
を備えるクラスタ生成装置。 - 互いに関連の強さが定められた複数の要素の何れかを選択して生成したクラスタについて、当該クラスタに含まれるメンバ要素の選択の確信度を示す自己コンフィデンス値を算出する評価装置として、コンピュータを機能させるプログラムであって、
前記コンピュータを、
予め定められた基準要素について、当該基準要素との関連がより強い基準個数の要素の集合である隣接要素集合を、評価対象のクラスタとして選択する評価対象クラスタ選択部と、
前記クラスタに含まれる各々のメンバ要素について、当該メンバ要素との関連がより強い前記基準個数の要素の集合である隣接要素集合を選択する隣接要素集合選択部と、
前記クラスタから選択可能な2つのメンバ要素の組み合わせについて、当該組み合わせの一方のメンバ要素の隣接要素集合及び他方のメンバ要素の隣接要素集合に共通して含まれる要素の数の、前記基準個数に対する割合を算出し、全てのメンバ要素の組み合わせについての当該割合の合計に基づく値を前記自己コンフィデンス値として出力するコンフィデンス値算出部と
して機能させるプログラム。 - 互いに関連の強さが定められた複数の要素の中から予め定められた基準個数の要素を選択して生成したクラスタについて、前記複数の要素全体に対する前記クラスタの特殊性の評価値を算出する評価装置として、コンピュータを機能させるプログラムであって、
前記コンピュータを、
予め定められた基準要素との関係がより強い前記基準個数の要素の集合である隣接要素集合を、評価対象のクラスタとして選択する評価対象クラスタ選択部と、
前記クラスタに含まれる各々のメンバ要素について、当該メンバ要素との関連がより強い前記基準個数の要素の集合である隣接要素集合を選択する隣接要素集合選択部と、
前記隣接要素集合選択部により選択された前記隣接要素集合に基づいて、当該クラスタに含まれるメンバ要素の選択の確信度を示す自己コンフィデンス値を算出するコンフィデンス値算出部と、
前記隣接要素集合選択部が、前記隣接要素集合に代えて、前記複数の要素から無作為に前記基準個数の要素の集合を選択したと仮定した場合における、前記コンフィデンス値算出部により算出される自己コンフィデンス値の理論値を算出する理論値算出部と、
自己コンフィデンス値の前記理論値に対する自己コンフィデンス値のカイ2乗検定値を、前記評価値として算出して出力する評価値算出部と
して機能させるプログラム。 - 各々が複数の属性のうち少なくとも1つを有する複数の要素からクラスタを生成するクラスタ生成装置として、コンピュータを機能させるプログラムであって、
前記コンピュータを、
前記複数の属性の各々について、当該属性を有する要素の集合を選択する要素集合選択部と、
前記複数の属性の各々が他の属性の各々と関連する強さを示す関連度を、当該属性及び当該他の属性を共通して含む要素の数に基づいて算出する関連度算出部と、
算出した前記関連度に基づいて、互いの関連度が基準以上である複数の属性を有する属性クラスタを生成する属性クラスタ生成部と、
前記属性クラスタに含まれる属性の少なくとも1つを有する要素の集合を求めてクラスタとして出力する要素クラスタ生成部と
して機能させるプログラム。 - 請求項10から12の何れかに記載のプログラムを記録した記録媒体。
- 互いに関連の強さが定められた複数の要素の何れかを選択して生成したクラスタについて、当該クラスタに含まれるメンバ要素の選択の確信度を示す自己コンフィデンス値を、コンピュータにより算出する評価方法であって、
前記コンピュータにより、
予め定められた基準要素について、当該基準要素との関連がより強い基準個数の要素の集合である隣接要素集合を、評価対象のクラスタとして選択する評価対象クラスタ選択段階と、
前記クラスタに含まれる各々のメンバ要素について、当該メンバ要素との関連がより強い前記基準個数の要素の集合である隣接要素集合を選択する隣接要素集合選択段階と、
前記クラスタから選択可能な2つのメンバ要素の組み合わせについて、当該組み合わせの一方のメンバ要素の隣接要素集合及び他方のメンバ要素の隣接要素集合に共通して含まれる要素の数の、前記基準個数に対する割合を算出し、全てのメンバ要素の組み合わせについての当該割合の合計に基づく値を前記自己コンフィデンス値として出力するコンフィデンス値算出段階と
を備える評価方法。 - 互いに関連の強さが定められた複数の要素の中から予め定められた基準個数の要素を選択して生成したクラスタについて、前記複数の要素全体に対する前記クラスタの特殊性の評価値を、コンピュータにより算出する評価方法であって、
前記コンピュータにより、
予め定められた基準要素との関係がより強い前記基準個数の要素の集合である隣接要素集合を、評価対象のクラスタとして選択する評価対象クラスタ選択段階と、
前記クラスタに含まれる各々のメンバ要素について、当該メンバ要素との関連がより強い前記基準個数の要素の集合である隣接要素集合を選択する隣接要素集合選択段階と、
前記隣接要素集合選択段階において選択された前記隣接要素集合に基づいて、当該クラスタに含まれるメンバ要素の選択の確信度を示す自己コンフィデンス値を算出するコンフィデンス値算出段階と、
前記隣接要素集合選択段階において、前記隣接要素集合に代えて、前記複数の要素から無作為に前記基準個数の要素の集合を選択したと仮定した場合における、前記コンフィデンス値算出段階において算出される自己コンフィデンス値の理論値を算出する理論値算出段階と、
自己コンフィデンス値の前記理論値に対する自己コンフィデンス値のカイ2乗検定値を、前記評価値として算出して出力する評価値算出段階と
を備える評価方法。 - 各々が複数の属性のうち少なくとも1つを有する複数の要素から、コンピュータによりクラスタを生成するクラスタ生成方法であって、
前記コンピュータにより、
前記複数の属性の各々について、当該属性を有する要素の集合を選択する要素集合選択段階と、
前記複数の属性の各々が他の属性の各々と関連する強さを示す関連度を、当該属性及び当該他の属性を共通して含む要素の数に基づいて算出する関連度算出段階と、
算出した前記関連度に基づいて、互いの関連度が基準以上である複数の属性を有する属性クラスタを生成する属性クラスタ生成段階と、
前記属性クラスタに含まれる属性の少なくとも1つを有する要素の集合を求めてクラスタとして出力する要素クラスタ生成段階と
を備えるクラスタ生成方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004118758A JP2005301786A (ja) | 2004-04-14 | 2004-04-14 | 評価装置、クラスタ生成装置、プログラム、記録媒体、評価方法、及びクラスタ生成方法 |
US11/104,936 US20050251514A1 (en) | 2004-04-14 | 2005-04-13 | Evaluation and cluster formation based on element correlation |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004118758A JP2005301786A (ja) | 2004-04-14 | 2004-04-14 | 評価装置、クラスタ生成装置、プログラム、記録媒体、評価方法、及びクラスタ生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005301786A true JP2005301786A (ja) | 2005-10-27 |
Family
ID=35240608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004118758A Pending JP2005301786A (ja) | 2004-04-14 | 2004-04-14 | 評価装置、クラスタ生成装置、プログラム、記録媒体、評価方法、及びクラスタ生成方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20050251514A1 (ja) |
JP (1) | JP2005301786A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007126088A1 (ja) * | 2006-04-28 | 2007-11-08 | Riken | バイオアイテム検索装置、バイオアイテム検索端末装置、バイオアイテム検索方法、および、プログラム |
WO2014109388A1 (ja) * | 2013-01-11 | 2014-07-17 | 日本電気株式会社 | テキストマイニング装置、テキストマイニングシステム、テキストマイニング方法及び記録媒体 |
JP2019159934A (ja) * | 2018-03-14 | 2019-09-19 | 富士通株式会社 | クラスタリングプログラム、クラスタリング方法およびクラスタリング装置 |
JP7367139B2 (ja) | 2021-08-02 | 2023-10-23 | ネイバー コーポレーション | データ検索方法及びシステム |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007034096A1 (fr) * | 2005-09-20 | 2007-03-29 | France Telecom | Procede de tri d'un ensemble de documents electroniques |
US7865742B2 (en) * | 2006-07-12 | 2011-01-04 | Palo Alto Research Center Incorporated | Method, apparatus, and program product for enabling access to flexibly redacted content |
US7873838B2 (en) * | 2006-07-12 | 2011-01-18 | Palo Alto Research Center Incorporated | Method, apparatus, and program product for flexible redaction of content |
US7861096B2 (en) * | 2006-07-12 | 2010-12-28 | Palo Alto Research Center Incorporated | Method, apparatus, and program product for revealing redacted information |
US8639559B2 (en) * | 2012-04-09 | 2014-01-28 | International Business Machines Corporation | Brand analysis using interactions with search result items |
CN112636642B (zh) * | 2020-12-17 | 2023-03-24 | 广东工业大学 | 一种柔性材料数控切割刀头性能状态评估方法及装置 |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3072335A (en) * | 1959-01-14 | 1963-01-08 | Well Surveys Inc | Analog computer for determining confidence limits of measurement |
US4999688A (en) * | 1989-02-17 | 1991-03-12 | Mitsubishi Denki Kabushiki Kaisha | Optical logic element with short switching time |
US5301109A (en) * | 1990-06-11 | 1994-04-05 | Bell Communications Research, Inc. | Computerized cross-language document retrieval using latent semantic indexing |
US5546576A (en) * | 1995-02-17 | 1996-08-13 | International Business Machines Corporation | Query optimizer system that detects and prevents mutating table violations of database integrity in a query before execution plan generation |
US5987460A (en) * | 1996-07-05 | 1999-11-16 | Hitachi, Ltd. | Document retrieval-assisting method and system for the same and document retrieval service using the same with document frequency and term frequency |
US5873075A (en) * | 1997-06-30 | 1999-02-16 | International Business Machines Corporation | Synchronization of SQL actions in a relational database system |
US6356864B1 (en) * | 1997-07-25 | 2002-03-12 | University Technology Corporation | Methods for analysis and evaluation of the semantic content of a writing based on vector length |
US20010014868A1 (en) * | 1997-12-05 | 2001-08-16 | Frederick Herz | System for the automatic determination of customized prices and promotions |
WO2002095534A2 (en) * | 2001-05-18 | 2002-11-28 | Biowulf Technologies, Llc | Methods for feature selection in a learning machine |
US6990628B1 (en) * | 1999-06-14 | 2006-01-24 | Yahoo! Inc. | Method and apparatus for measuring similarity among electronic documents |
MXPA02003755A (es) * | 1999-10-15 | 2002-09-18 | Dekalb Genetics Corp | Metodos y sistemas para analisis de rendimiento de plantas. |
US7035873B2 (en) * | 2001-08-20 | 2006-04-25 | Microsoft Corporation | System and methods for providing adaptive media property classification |
JP2002041540A (ja) * | 2000-07-28 | 2002-02-08 | Shinichiro Okude | 連想・推論機能を備えた検索システムおよび、それに用いられる、記録媒体献金 |
AU2002211881A1 (en) * | 2000-10-13 | 2002-04-22 | Science Applications International Corporation | System and method for linear prediction |
US6749052B2 (en) * | 2000-10-19 | 2004-06-15 | Igames Entertainment, Inc. | Anti-cheating device for a gaming machine |
US6886008B2 (en) * | 2001-03-08 | 2005-04-26 | Technion Research & Development Foundation Ltd. | Machine learning by construction of a decision function |
US20020194166A1 (en) * | 2001-05-01 | 2002-12-19 | Fowler Abraham Michael | Mechanism to sift through search results using keywords from the results |
US6965895B2 (en) * | 2001-07-16 | 2005-11-15 | Applied Materials, Inc. | Method and apparatus for analyzing manufacturing data |
JP3479845B2 (ja) * | 2001-11-21 | 2003-12-15 | 日本電気株式会社 | Cdma受信装置と、その基地局、及びその受信信号を逆拡散するための受信タイミングの検出方法 |
US20030115191A1 (en) * | 2001-12-17 | 2003-06-19 | Max Copperman | Efficient and cost-effective content provider for customer relationship management (CRM) or other applications |
JP3860046B2 (ja) * | 2002-02-15 | 2006-12-20 | インターナショナル・ビジネス・マシーンズ・コーポレーション | ランダムサンプル階層構造を用いた情報処理のためのプログラム、システムおよび記録媒体 |
US7451065B2 (en) * | 2002-03-11 | 2008-11-11 | International Business Machines Corporation | Method for constructing segmentation-based predictive models |
US7399220B2 (en) * | 2002-08-02 | 2008-07-15 | Kriesel Marshall S | Apparatus and methods for the volumetric and dimensional measurement of livestock |
US20050125433A1 (en) * | 2002-12-05 | 2005-06-09 | Fujitsu Limited | Data summation system and method based on classification definition covering plural records |
JP3781005B2 (ja) * | 2002-12-12 | 2006-05-31 | セイコーエプソン株式会社 | 文書抽出装置及び文書抽出プログラム並びに文書抽出方法 |
JP3974511B2 (ja) * | 2002-12-19 | 2007-09-12 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 情報検索のためのデータ構造を生成するコンピュータ・システム、そのための方法、情報検索のためのデータ構造を生成するコンピュータ実行可能なプログラム、情報検索のためのデータ構造を生成するコンピュータ実行可能なプログラムを記憶したコンピュータ可読な記憶媒体、情報検索システム、およびグラフィカル・ユーザ・インタフェイス・システム |
EP1604309A2 (en) * | 2003-03-18 | 2005-12-14 | Metacarta, Inc. | Corpus clustering, confidence refinement, and ranking for geographic text search and information retrieval |
JP4107658B2 (ja) * | 2003-07-23 | 2008-06-25 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 分類因子検出装置、分類因子検出方法、プログラム、及び記録媒体 |
-
2004
- 2004-04-14 JP JP2004118758A patent/JP2005301786A/ja active Pending
-
2005
- 2005-04-13 US US11/104,936 patent/US20050251514A1/en not_active Abandoned
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007126088A1 (ja) * | 2006-04-28 | 2007-11-08 | Riken | バイオアイテム検索装置、バイオアイテム検索端末装置、バイオアイテム検索方法、および、プログラム |
US7921105B2 (en) | 2006-04-28 | 2011-04-05 | Riken | Bioitem searcher, bioitem search terminal, bioitem search method, and program |
WO2014109388A1 (ja) * | 2013-01-11 | 2014-07-17 | 日本電気株式会社 | テキストマイニング装置、テキストマイニングシステム、テキストマイニング方法及び記録媒体 |
CN104919458A (zh) * | 2013-01-11 | 2015-09-16 | 日本电气株式会社 | 文本挖掘设备、文本挖掘系统、文本挖掘方法和记录介质 |
JPWO2014109388A1 (ja) * | 2013-01-11 | 2017-01-19 | 日本電気株式会社 | テキストマイニング装置、テキストマイニングシステム、テキストマイニング方法及びプログラム |
JP2019159934A (ja) * | 2018-03-14 | 2019-09-19 | 富士通株式会社 | クラスタリングプログラム、クラスタリング方法およびクラスタリング装置 |
JP7006403B2 (ja) | 2018-03-14 | 2022-01-24 | 富士通株式会社 | クラスタリングプログラム、クラスタリング方法およびクラスタリング装置 |
JP7367139B2 (ja) | 2021-08-02 | 2023-10-23 | ネイバー コーポレーション | データ検索方法及びシステム |
Also Published As
Publication number | Publication date |
---|---|
US20050251514A1 (en) | 2005-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11216496B2 (en) | Visual interactive search | |
JP6940646B2 (ja) | 情報推奨方法、情報推奨装置、機器および媒体 | |
US10102277B2 (en) | Bayesian visual interactive search | |
US11232152B2 (en) | Efficient processing of neighborhood data | |
US20220156302A1 (en) | Implementing a graphical user interface to collect information from a user to identify a desired document based on dissimilarity and/or collective closeness to other identified documents | |
US20170039198A1 (en) | Visual interactive search, scalable bandit-based visual interactive search and ranking for visual interactive search | |
US10606883B2 (en) | Selection of initial document collection for visual interactive search | |
US20050251514A1 (en) | Evaluation and cluster formation based on element correlation | |
CN110457577B (zh) | 数据处理方法、装置、设备和计算机存储介质 | |
CN112395487B (zh) | 信息推荐方法、装置、计算机可读存储介质及电子设备 | |
Ayache et al. | Evaluation of active learning strategies for video indexing | |
CN112749300B (zh) | 用于视频分类的方法、装置、设备、存储介质和程序产品 | |
CN112765478B (zh) | 用于推荐内容的方法、装置、设备、介质和程序产品 | |
CN111966886A (zh) | 对象推荐方法、对象推荐装置、电子设备及存储介质 | |
JP4070211B2 (ja) | 選択装置、選択方法、プログラム、及び記録媒体 | |
CN106454347B (zh) | 帧分辨率决定方法以及使用该方法的装置 | |
Kerkache et al. | A hybrid approach for enhanced link prediction in social networks based on community detection | |
Kalaivani et al. | An optimal multi-level backward feature subset selection for object recognition | |
CN113420214B (zh) | 一种电子交易对象推荐方法和装置及设备 | |
US11693925B2 (en) | Anomaly detection by ranking from algorithm | |
CN107885757B (zh) | 图像检索的方法及装置 | |
Ji et al. | Product Adoption Maximization Leveraging Social Influence and User Interest Mining. | |
CN113052238A (zh) | 基于用户分类的模型训练、业务分配方法、装置及设备 | |
CN113011920A (zh) | 转化率预估模型的训练方法、装置及电子设备 | |
CN118229251A (zh) | 邮件检索展示方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070814 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071031 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20071204 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080125 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20080228 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20080404 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20090529 |
|
RD12 | Notification of acceptance of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7432 Effective date: 20090604 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20100513 |