JP2005301786A - 評価装置、クラスタ生成装置、プログラム、記録媒体、評価方法、及びクラスタ生成方法 - Google Patents

評価装置、クラスタ生成装置、プログラム、記録媒体、評価方法、及びクラスタ生成方法 Download PDF

Info

Publication number
JP2005301786A
JP2005301786A JP2004118758A JP2004118758A JP2005301786A JP 2005301786 A JP2005301786 A JP 2005301786A JP 2004118758 A JP2004118758 A JP 2004118758A JP 2004118758 A JP2004118758 A JP 2004118758A JP 2005301786 A JP2005301786 A JP 2005301786A
Authority
JP
Japan
Prior art keywords
cluster
elements
confidence value
adjacent element
self
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004118758A
Other languages
English (en)
Inventor
Edward Fuuru Michael
マイケル・エドワード・フール
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2004118758A priority Critical patent/JP2005301786A/ja
Priority to US11/104,936 priority patent/US20050251514A1/en
Publication of JP2005301786A publication Critical patent/JP2005301786A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】 データベース等に格納される複数の要素から互いの関連が強いメンバ要素をクラスタとして選択する。
【解決手段】 複数の要素の何れかを選択して生成したクラスタについて、当該クラスタの選択の自己コンフィデンス値を算出する評価装置は、基準要素との関連がより強い基準個数の要素の集合である隣接要素集合を、評価対象のクラスタとして選択する評価対象クラスタ選択部と、クラスタに含まれる各々のメンバ要素について、当該メンバ要素との関連がより強い基準個数の要素の集合である隣接要素集合を選択する隣接要素集合選択部と、クラスタから選択可能な2つのメンバ要素の組み合わせについて、当該組み合わせの一方のメンバ要素の隣接要素集合及び他方のメンバ要素の隣接要素集合に共通して含まれる要素の数を算出し、全てのメンバ要素の組み合わせについての当該割合の平均を自己コンフィデンス値として出力するコンフィデンス値算出部とを備える。
【選択図】図1

Description

本発明は、評価装置、クラスタ生成装置、プログラム、記録媒体、評価方法、及びクラスタ生成方法に関する。特に、本発明は、互いの関連の強さが予め定まっている複数の要素からクラスタを生成する評価装置、クラスタ生成装置、プログラム、記録媒体、評価方法、及びクラスタ生成方法に関する。
近年、コンピュータの発達・普及に伴い、様々なデータが電子化されるようになってきている。電子化されたデータは、様々な産業において利用される。例えば、商品の購買行動を電子化したデータからマーケティング・リサーチを行ったり、経済指標等を電子化したデータから株価変動を予測したりすることが提案されている。しかしながら、電子化したデータが膨大な場合には、有効なデータのみを適切に選択することは難しい。そこで、従来、データマイニング等の技術が注目されている。
データマイニングの基礎となる技術として、本願発明者は、データベースを構成する複数の要素から基準個数のメンバ要素を選択したクラスタについて、そのメンバ要素の選択の確信度を評価する方法を提案している(非特許文献2参照。)。この技術は、クラスタ内の所定の基準要素に対して、その基準要素と他の各々のメンバ要素との関連の強さの平均値を、確信度として評価する。
また、本願発明者は、上記確信度を用いてクラスタを決定する技術を提案している。この技術によると、まず、ある基準要素との関連がより強い基準個数の要素の集合をクラスタの候補として選択する。次に、基準個数を変化させて得られる複数のクラスタの候補の各々について、そのクラスタの候補と、そのクラスタの候補より多いメンバ要素を含む集合との、上記確信度の差分を算出する。そして、算出した差分が最大となるクラスタの候補を、生成すべきクラスタとして決定する。
なお、関連技術として、カイ2乗検定値をデータマイニングに応用する技術が提案されている(非特許文献1及び3参照。)。
非特許文献4及び非特許文献5については後述する。
S. Brin, R. Motwani and C. Silverstein, Beyond market baskets: generalizing association rules to correlations, Proc. ACM SIGMOD International Conference on Management of Data, Tucson, U.S.A, 1997, pp. 265-276. Michael E. Houle, Navigating massive data sets via local clustering, Proc. ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Washington, U.S.A, 2003, pp. 547-552. G. V. Kass, An exploratory technique for investigating large quantities of categorical data, J. Applied Statistics 29:119-129, 1980. E. S. Keeping, Introduction to Statistical Inference, Dover Publications, New York, USA, 1995. Gerald Salton, The SMART Retrieval System - Experiments in Automatic Document Processing, Prentice-Hall, Englewood Cliffs, NJ, USA, 1971.
しかしながら、クラスタの評価において、ある基準要素と他の各々のメンバ要素との関連が強い場合であっても、他の各々のメンバ要素が相互に強く関連しない場合には、クラスタ内の各メンバ要素が相互に強く関連するとは言えない。例えば、あるデータベースが、基準要素として文章「その研究所は、携帯電話の為のビデオ送信制御技術を開発している」を含む場合を例に説明する。
このデータベースが、他の要素として、「ビデオ送信制御技術」に関連し、かつ「携帯電話」と無関係な文章を有している場合には、この要素と基準要素とは共にキーワード「ビデオ送信制御技術」を含むので、類似しており関連が強いと考えられる。同様に、このデータベースが、更に他の要素として、「携帯電話」に関連し、かつ「ビデオ送信制御技術」と無関係な文章を有している場合には、この要素と基準要素とは共にキーワード「携帯電話」を含むので、類似しており関連が強いと考えられる。
しかしながら、「ビデオ送信制御技術」に関連しかつ「携帯電話」と無関係な文章と、「携帯電話」に関連しかつ「ビデオ送信制御技術」と無関係な文章とは、共通のキーワードを有しておらず、類似していない。上記非特許文献2に記載の技術によれば、このような無関係な複数の要素を同一のクラスタに含めてしまう場合があった。
また、クラスタの決定において、基準個数を順次変更した場合であっても、確信度が徐々に変化して急激な変化点は検出されない場合がある。このような場合には、ある確信度の差分が、他の確信度の差分と比較して僅かに大きいからといって、その確信度を有する要素の集合をクラスタとして決定するのは適切ではない。更に、基準個数を変化させる毎に、その基準個数より大きい所定の個数の要素の集合について確信度を算出する必要があり、計算量が大きくなってしまう。
また、従来のデータマイニングによると、25個程度のメンバ要素をクラスタとして選択することはできるものの、1〜2個程度の互いに非常に強く関連するメンバ要素をクラスタとして選択することはできない。このような比較的小さなクラスタであっても、有用な情報を含む場合は多い。また、利用者は、データマイニングによらず利用者の経験・知識等に基づいて、25個程度のメンバ要素をクラスタとして容易に選択できる場合が多い。一方、1〜2個程度の要素を含むクラスタを発見するのは、困難な場合が多い。従って、このような発見困難かつ有用クラスタを適切に選択することが課題である。
そこで本発明は、上記の課題を解決することのできる評価装置、クラスタ生成装置、プログラム、記録媒体、評価方法、及びクラスタ生成方法を提供することを目的とする。この目的は特許請求の範囲における独立項に記載の特徴の組み合わせにより達成される。また従属項は本発明の更なる有利な具体例を規定する。
上記課題を解決するために、本発明の第1の形態においては、互いに関連の強さが定められた複数の要素の何れかを選択して生成したクラスタについて、当該クラスタに含まれるメンバ要素の選択の確信度を示す自己コンフィデンス値を算出する評価装置であって、予め定められた基準要素について、当該基準要素との関連がより強い基準個数の要素の集合である隣接要素集合を、評価対象のクラスタとして選択する評価対象クラスタ選択部と、クラスタに含まれる各々のメンバ要素について、当該メンバ要素との関連がより強い基準個数の要素の集合である隣接要素集合を選択する隣接要素集合選択部と、クラスタから選択可能な2つのメンバ要素の組み合わせについて、当該組み合わせの一方のメンバ要素の隣接要素集合及び他方のメンバ要素の隣接要素集合に共通して含まれる要素の数の、基準個数に対する割合を算出し、全てのメンバ要素の組み合わせについての当該割合の合計に基づく値を自己コンフィデンス値として出力するコンフィデンス値算出部とを備える評価装置、評価装置を用いたクラスタ生成装置、評価方法、クラスタ生成方法、コンピュータを評価装置又はクラスタ生成装置として機能させるプログラム、及びプログラムを記録した記録媒体を提供する。
本発明の第2の形態においては、互いに関連の強さが定められた複数の要素の中から予め定められた基準個数の要素を選択して生成したクラスタについて、複数の要素全体に対するクラスタの特殊性の評価値を算出する評価装置であって、予め定められた基準要素との関係がより強い基準個数の要素の集合である隣接要素集合を、評価対象のクラスタとして選択する評価対象クラスタ選択部と、クラスタに含まれる各々のメンバ要素について、当該メンバ要素との関連がより強い基準個数の要素の集合である隣接要素集合を選択する隣接要素集合選択部と、隣接要素集合選択部により選択された隣接要素集合に基づいて、当該クラスタに含まれるメンバ要素の選択の確信度を示す自己コンフィデンス値を算出するコンフィデンス値算出部と、隣接要素集合選択部が、隣接要素集合に代えて、複数の要素から無作為に基準個数の要素の集合を選択したと仮定した場合における、コンフィデンス値算出部により算出される自己コンフィデンス値の理論値を算出する理論値算出部と、自己コンフィデンス値の理論値に対する自己コンフィデンス値のカイ2乗検定値を、評価値として算出して出力する評価値算出部とを備える評価装置、評価装置を用いたクラスタ生成装置、評価方法、クラスタ生成方法、コンピュータを評価装置又はクラスタ生成装置として機能させるプログラム、及びプログラムを記録した記録媒体を提供する。
本発明の第3の形態においては、各々が複数の属性のうち少なくとも1つを有する複数の要素からクラスタを生成するクラスタ生成装置であって、複数の属性の各々について、当該属性を有する要素の集合を選択する要素集合選択部と、複数の属性の各々が他の属性の各々と関連する強さを示す関連度を、当該属性及び当該他の属性を共通して含む要素の数に基づいて算出する関連度算出部と、算出した関連度に基づいて、互いの関連度が基準以上である複数の属性を有する属性クラスタを生成する属性クラスタ生成部と、属性クラスタに含まれる属性の少なくとも1つを有する要素の集合を求めてクラスタとして出力する要素クラスタ生成部とを備えるクラスタ生成装置、クラスタ生成方法、コンピュータをクラスタ生成装置として機能させるプログラム、及びプログラムを記録した記録媒体を提供する。
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの特徴群のサブコンビネーションもまた、発明となりうる。
本発明によれば、データベース等に格納される複数の要素から互いの関連が強いメンバ要素をクラスタとして選択することができる。
以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
図1は、文書データベース10及びクラスタ生成装置20の機能ブロック図である(実施例1)。クラスタ生成装置20は、文書データベース10における互いに関連の強さが定められた複数の要素の何れかを選択したクラスタの候補について、そのクラスタの候補に含まれるメンバ要素の選択の確信度であるコンフィデンス値を算出することを目的とする。更に、クラスタ生成装置20は、クラスタの各候補について算出したコンフィデンス値に基づいて、生成すべき適切なクラスタを決定することを目的とする。
文書データベース10は、互いに関連の強さが定められた複数の要素として、複数の文書を格納する。複数の文書の各々は、予め定められた複数の属性の何れか、例えば、複数のキーワードの何れかを有する。一例として、文書1は、キーワード1を含み、キーワード2を含まない。より詳細には、本図の例において、各要素の属性の組は、属性の値を配列したベクトルとして表される。そして、属性の値は、キーワードを有するか否かを示す2値である。このような2値の属性のベクトルを有するデータのモデルを、ブーリアンモデルと呼ぶ。
これに代えて、各属性の値は、大きさを持った連続値であってもよい。例えば文書の例において、各属性は、その属性に対応するキーワードが、文書において用いられた回数・頻度・出現場所に基づく値を有してもよい。より詳細には、ある属性は、その属性のキーワードが、文書の章・節のタイトルで使われた場合に、その他の場所で使われた場合と比較して、より高い値を有してもよい。このような属性ベクトルの生成方法は、TF-IDF技術として従来公知であるので、より詳細な説明を省略する。
そして、複数の文書が互いに関連する関連度は、複数の文書が共通して含んでいるキーワードの組に基づいて予め定められている。例えば、ある2つ文書は、共通して含むキーワードの数がより多い場合に、当該キーワードの数がより少ない場合と比較してより強く関連する。より詳細には、ある2つの文書の関連度は、一方の文書における属性の値を配列したベクトルが示す座標と、他方の文書における属性の値を配列したベクトルが示す座標との間の距離に基づいて定められてもよい。但し、この場合の距離とは、三角不等式を満たさない場合も含む。
更に他の例として、ある2つの文書の関連度は、各々の文書の属性ベクトル間の角度に基づいて定められてもよい。この場合、当該角度がより小さい場合に関連度はより高く、角度がより大きい場合に関連度はより低い。角度に基づく関連度の生成方法は、非特許文献5に例示されているので、本実施例における説明を省略する。
他の例として、文書データベース10は、互いの関連の強さが定められた複数の要素として、複数のマルチメディアデータを有していてもよい。マルチメディアデータとは、例えば、動画、静止画、音声、又は映像等である。この場合、属性は、例えば、所定の映像・音声を含むか否かを示してもよい。この場合も、ブーリアンモデルに限定されるものではなく、属性は、大きさを有する値を採ってもよい。そして、この例における関連度は、マルチメディアデータの類似性を示す値である。
クラスタ生成装置20は、評価装置30と、要素クラスタ生成部40とを有する。評価装置30は、評価対象クラスタ選択部300と、隣接要素集合選択部310と、コンフィデンス値算出部320と、理論値算出部330と、評価値算出部340とを有する。評価対象クラスタ選択部300は、予め定められた文書を基準要素として、その基準要素との関連がより強い基準個数の要素の集合である隣接要素集合を、評価対象のクラスタとして選択する。例えば、評価対象クラスタ選択部300は、その文書と比較して含んでいるキーワードの組がより類似する基準個数の文書の集合を隣接要素集合として選択する。
隣接要素集合選択部310は、そのクラスタに含まれる各々のメンバ要素について、そのメンバ要素との関連がより強い基準個数の要素の集合である隣接要素集合を選択する。例えば、クラスタに含まれる各々の文書について、その文書と比較して含んでいるキーワードの組がより類似する基準個数の文書の集合を、その文書の隣接要素集合として選択する。
コンフィデンス値算出部320は、隣接要素集合選択部310により選択された隣接要素集合に基づいて、評価対象のクラスタに含まれるメンバ要素の選択の確信度を示す自己コンフィデンス値を算出する。具体的には、まず、コンフィデンス値算出部320は、評価対象のクラスタから選択可能な2つのメンバ要素(例えば文書)の全ての組み合わせについて、各組み合わせの一方のメンバ要素の隣接要素集合及び他方のメンバ要素の隣接要素集合に共通して含まれる要素の数を算出する。
次に、コンフィデンス値算出部320は、その要素の数の、基準個数に対する割合を算出する。そして、コンフィデンス値算出部320は、メンバ要素の全ての組み合わせについての当該割合の合計に基づく値、例えば、当該割合の平均値を、自己コンフィデンス値として算出し、評価値算出部340に出力する。続いて、理論値算出部330は、隣接要素集合選択部310が、隣接要素集合に代えて、文書データベース10に格納された全ての要素から無作為に基準個数の要素の集合を選択したと仮定した場合における、コンフィデンス値算出部320により算出される自己コンフィデンス値の理論値を算出する。
評価値算出部340は、文書データベース10における複数の要素全体に対する、評価対象のクラスタの特殊性の評価値を算出する。具体的には、評価値算出部340は、理論値算出部330により算出された自己コンフィデンス値の理論値に対する、コンフィデンス値算出部320により算出された自己コンフィデンス値のカイ2乗検定値を、評価値として算出し、要素クラスタ生成部40に出力する。
要素クラスタ生成部40は、基準個数を予め定められた範囲で変更して得られる複数の各クラスタの各々について、評価値算出部340により評価値を算出させ、算出させたその評価値を最大にするクラスタを選択する。そして、要素クラスタ生成部40は、選択したクラスタをクラスタリング結果として利用者に出力する。これに代えて、要素クラスタ生成部40は、基準個数を変更して得られる各クラスタについて、そのクラスタの評価値又は自己コンフィデンス値が予め定められた基準値より大きい場合に、評価対象のそのクラスタを、生成すべきクラスタと判断してもよい。
図2は、クラスタ生成装置20がメンバ要素を選択してクラスタを生成する処理フローを示す(実施例1)。評価装置30は、予め定められたa以上b以下の範囲で変化させた基準個数kの各々について、以下の処理を繰り返す(S200)。まず、評価対象クラスタ選択部300は、予め定められた基準要素との関係がより強いk個の要素の集合である隣接要素集合を、評価対象のクラスタにおけるメンバ要素として選択する(S210)。
ここで、ある要素の集合であるドメインDについて、Dのうち文書データベース10に格納される要素の集合をSとし、Sのうち本実施例において評価の対象となる要素の集合をRとし、予め定められた基準要素をq∈Dとする。そして、評価対象のクラスタを、NN(R, q, k)とする。即ち、評価対象のクラスタは、Rのうちqと関連の強いk番目までの要素の集合である。
この場合、qに対して、NN(R, q, k)は一意に定まる。また、NN(R, q, k)は、以下の性質を満たす。
q∈Rならば、NN(R, q, 1)={q}
1<k≦|R|を満たす全てのkについて、NN(R, q, k-1)⊂NN(R, q, k)
更に、あるqi、kiについて、NN(R, qi, ki)をCiと表記する。同様に、あるqj、kjについて、NN(R, qj, kj)をCjと表記する。
続いて、隣接要素集合選択部310は、評価対象のクラスタに含まれる各々のメンバ要素について、そのメンバ要素との関連がより強いk個の要素の集合である隣接要素集合を選択する(S220)。次に、コンフィデンス値算出部320は、自己コンフィデンス値を算出する(S230)。
自己コンフィデンス値は、クラスタ内の複数の要素が互いに関連する強さに基づく値であるから、単純に計算すると、クラスタ内の要素数の3乗に比例する計算量を要する。これに対して、自己コンフィデンス値を、クラスタ内の要素数の2乗の計算量で計算する計算方法を説明する。
図3は、S230における処理の詳細を説明する図である(実施例1)。まず、コンフィデンス値算出部320が算出するべき自己コンフィデンス値は、式(1)で表される。以降、このコンフィデンス値を、AASCONFと呼ぶ。
Figure 2005301786
この式によると、クラスタから2つのメンバ要素を選択する全ての組み合せの総数は、クラスタ内の要素数の2乗である。そして、各組み合わせに共通に含まれている要素を数えるには、クラスタ内の要素数に比例する計算量を要すると考えられる。従って、計算量は、メンバ要素の数の3乗に比例する。このように計算量が大きい場合には、計算効率が悪いだけでなく、データサイズの大きいデータベースへの拡張性(スケーラビリティ)が悪い。
これに対して、本実施例においては、以下に説明する方法により自己コンフィデンス値を計算する。まず、ρ(u,t)を、ある要素uと関連の強い方から数えてt番目の要素とする。即ち、ρは以下の式(2)を満たす。
Figure 2005301786
次に、δ(u,s,t)を、ある基準要素qと関連の強い方から数えてs番目の要素を中継要素として、その中継要素との関連の強い方から数えてt番目の要素が、ある要素uである場合は1、そうでない場合には0をとるパラメータとする。次に、S(u,s,t)を、以下の値1と値2との合計とする。まず、値1は、基準要素qとより関連の強いs個の要素の何れかを中継要素として、当該中継要素との関連が強いs個の要素の何れかが要素uである場合において、中継要素として選択可能な要素の数である。値2は、基準要素qと関連の強い方から数えてs+1番目の要素を中継要素として、当該中継要素との関連が強いt個の要素のうち何れかがuである場合に1をとり、当該t個の要素の何れもuでない場合に0を採る値である。具体的には、以下の式(3)により定義される。
Figure 2005301786
本図は、ある要素uについての中継要素を示す。本図の横軸は、要素qと中継要素との関連を示す。そして、本図の縦軸は、中継要素と要素uとの関連を示す。この例によると、斜線部まで計算が行なわれた段階で、コンフィデンス値算出部320は、要素uの出現回数を5と算出する。
次に、T(u,s,t)を、ある要素uについて、その要素uに到達しうる全ての中継要素から、2つの中継要素を選択する組み合わせの総数とする。具体的には、T(u,s,t)=S(u,s,t)*[S(u,s,t)-1]/2と定義される。以上の定義により、自己コンフィデンス値は、以下の式(4)として表される。
Figure 2005301786
ここで、u∈Rについて、S及びTは、以下の各々の性質を満たす。
・S(u, 1, 0) = 1 if u = q, and S(u, 1, 0) = 0 if u≠ q.
・For all s > 1,
S(u, s, 0) = S(u, s?1, s?1) + 1 if u∈NN(R, u, s), and
S(u, s, 0) = S(u, s?1, s-1) if not(u∈NN(R, u, s)).
・For all s > 1 and 0 < t ≦ s, S(u, s, t) = S(u, s, t-1) + ?(u, s+1, t).
・T(u, 1, 0) = 0 for all u.
・For all s > 1,
T(u, s, 0) = T(u, s?1, s-1) + S(u, s?1, s-1) if u ∈ NN(R, u, s), and
T(u, s, 0) = T(u, s?1, s-1) if not(u ∈ NN(R, u, s)).
・For all s > 1 and 0 < t ≦ s,
T(u, s, t) = T(u, s, t-1) + S(u, s, t-1) if ?(u, s+1, t) = 1, and
T(u, s, t) = T(u, s, t-1) if ?(u, s+1, t) = 0.
これにより、自己コンフィデンス値は、以下の式(5)に示すアルゴリズムにより算出される。ここで、このアルゴリズムによる処理の終了時に、S(u)は、S(u,s,t)を格納し、TTは、Σu∈RT(u,s,t)を格納する。
Figure 2005301786
このアルゴリズムにより、コンフィデンス値算出部320は、ある基準要素qについて、その基準要素との関係がより強いk個の何れかを中継要素として、その中継要素との関係がより強いk個の要素の各々について、その要素に達するために選択可能な全ての中継要素の数を、S(u)として算出することができる。また、コンフィデンス値算出部320は、u∈Rを満たす各要素uに到達するために選択可能な全ての中継要素のうち、2つの中継要素の組み合わせの総数を、TTに算出することができる。そして、コンフィデンス値算出部320は、step3により、メンバ要素の各組み合わせについて、一方のメンバ要素及び他方のメンバ要素の隣接要素集合が互いに共通して有する要素数の、基準個数に対する割合を算出できる。
なお、コンフィデンス値算出部320は、step2-iiの終了時点で、基準個数がsである場合についての中継要素の総数をS(u)として算出できる。また、コンフィデンス値算出部320は、この時点で、TTをk2(k-1)/2で除することにより、基準個数がsである場合についての自己コンフィデンス値を算出することができる。従って、コンフィデンス値算出部320は、S200からS260に至る繰り返し処理毎に、上記step2-i及びstep2-iiを一度ずつ処理することが望ましい。
以上の処理に代えて、コンフィデンス値算出部320は、評価対象のクラスタにおける複数のメンバ要素の各々について、そのクラスタに含まれる要素のうちそのメンバ要素にも含まれる要素の割合を算出し、各メンバ要素について算出したその割合の合計に基づく値を自己コンフィデンス値として算出してもよい。このコンフィデンス値をA1SCONFと呼ぶ。具体的には,以下の式(6)により定義される。
Figure 2005301786
図2に戻る。続いて、理論値算出部330は、隣接要素集合選択部310が、隣接要素集合に代えて、文書データベース10に格納された全ての要素から無作為に基準個数の要素の集合を選択したと仮定した場合における、コンフィデンス値算出部320により算出される自己コンフィデンス値の理論値を算出する。(S240)。そして、評価値算出部340は、自己コンフィデンス値の理論値に対する、自己コンフィデンス値のカイ2乗検定値を評価値として算出する(S250)。
この処理について詳細を説明する。まず、カイ2乗検定値は、以下の式(7)により定義される。
Figure 2005301786
ここで、XSは、n回の試行のうち成功した試行の回数を示し、E[XS]は、試行が成功する回数の期待値を示す。また、XFは、n回の試行のうち失敗した試行の回数を示し、E[XF]は、試行が失敗する回数の期待値を示す。カイ2乗検定値の詳細については、非特許文献4に例示されているので、説明を省略する。
この定義に基づいて、コンフィデンス値算出部320により算出される自己コンフィデンス値がA1SCONFである場合についてまず説明する。評価値算出部340は、XSとして、クラスタの各メンバ要素(基準要素を除く)の隣接要素集合(当該メンバ要素を除く)と、クラスタのメンバ要素の集合とに共通して含まれる要素の総数を算出する。例えば、以下の式(8)により算出される。同様に、評価値算出部340は、XFとして、クラスタの各メンバ要素の隣接要素集合と、クラスタのメンバ要素の集合との少なくとも一方に含まれない要素の総数を算出する。例えば、式(9)により算出される。
Figure 2005301786
Figure 2005301786
そしてこの場合、理論値算出部330は、自己コンフィデンス値の理論値として、NN(R, v, k)がR-{v}から無作為に選択されたと仮定した場合におけるXsの期待値E[Xs]を算出する。具体的には、以下の式(10)により算出される。
Figure 2005301786
以上により、評価値算出部340は、以下の式(11)によりカイ2乗検定値を算出する。但し、式(11)において式(12)の定義を用いる。
Figure 2005301786
Figure 2005301786
なお、このカイ2乗検定値の、Rを無限大とした場合の極限値は、(R−1)に比例する値となる。従って、評価値算出部340は、このカイ2乗検定値を(R−1)で除した値を、評価値とすることが更に好ましい。これにより、Rの値が異なる複数の母集団からそれぞれ選択したクラスタについて、何れのクラスタがより適切であるか比較することもできる。
次に、コンフィデンス値算出部320により算出される自己コンフィデンス値がAASCONFである場合について説明する。評価値算出部340は、XSとして、クラスタから選択可能な2つのメンバ要素の全ての組み合わせについて、その組み合わせの一方のメンバ要素の隣接要素集合及び他方のメンバ要素の隣接要素集合に共通して含まれる要素の数の合計を算出する。但し、あるメンバ要素の隣接要素集合にそのメンバ要素自身が含まれる場合を除く。具体的には、以下の式(13)により算出される。同様に、評価値算出部340は、XFとして、上記各組み合わせについて、一方のメンバ要素の隣接要素集合及び他方のメンバ要素の隣接要素集合の少なくとも一方に含まれないメンバ要素の総数を算出する。例えば、式(14)により算出される。
Figure 2005301786
Figure 2005301786
そしてこの場合、理論値算出部330は、自己コンフィデンス値の理論値として、NN(R, v, k)がR-{v}から無作為に選択されたと仮定した場合におけるXsの期待値E[Xs]を算出する。具体的には、以下の式(15)により算出される。
Figure 2005301786
以上により、評価値算出部340は、以下の式(16)によりカイ2乗検定値を算出する。
Figure 2005301786
なお、このカイ2乗検定値の、Rを無限大とした場合の極限値は、Rに比例する値となる。従って、評価値算出部340は、このカイ2乗検定値を、更にRを除した数を、評価値とすることが更に好ましい。これにより、Rの値が異なる複数の母集団から選択したクラスタについて、何れのクラスタがより適切であるか比較することもできる。
評価装置30は、以上の処理を基準個数kの各々について繰り返す(S260)。続いて、要素クラスタ生成部40は、算出されたカイ2乗検定値を最大とする基準個数を求める(S270)。そして、要素クラスタ生成部40は、カイ2乗検定値を最大とする基準個数のクラスタを、基準要素を中心として生成するべき最適なクラスタと判断し、クラスタリング結果として出力する。
以上、本図に示すように、クラスタ生成装置20は、クラスタ選択の確信度である自己コンフィデンス値を、各メンバ要素が互いに関連する強さに基づいて算出することができる。更に、クラスタ生成装置20は、この自己コンフィデンス値を、メンバ要素の数の2乗に比例する計算量で算出することができる。更に、クラスタ生成装置20は、カイ2乗検定値を最大とするクラスタを、生成するべきクラスタとして決定する。これにより、クラスタ決定の精度を高めることができる。
図4は、文書データベース10及びクラスタ生成装置20の機能ブロック図である(実施例2)。本例におけるクラスタ生成装置20は、各々が複数の属性のうち少なくとも1つを有する複数の要素から、1〜2個程度の互いに強く関連する要素の集合、又は、他の全ての要素との関連が極めて弱い要素の集合を選択することを目的とする。文書データベース10は、互いに関連の強さが定められた複数の要素として、複数の文書を格納する。複数の文書の各々は、予め定められた複数の属性の何れか、例えば、複数のキーワードの何れかを有する。一例として、文書nは、キーワードlを含み、キーワードl+1を含み、途中を省略して、キーワードl+kを含む。
20は、要素集合選択部400と、関連度算出部410と、属性クラスタ生成部420と、要素クラスタ生成部430とを有する。要素集合選択部400は、複数の属性の各々について、その属性を有する要素の集合を選択する。例えば、要素集合選択部400は、キーワードlを含む文書の集合として、文書n、文書n+1、文書n+2、及び文書m+2を選択する。
そして、関連度算出部410は、複数の属性の各々が他の属性の各々と関連する強さを示す関連度を、当該属性及び当該他の属性を共通して含む要素の数に基づいて算出する。例えば,関連度算出部410は、キーワードlと、キーワードl+kとが関連する関連度を、これらのキーワードを共通して含む文書の数、即ち、文書n〜(n+2)及び文書m+2の4個に基づいて算出する。例えば、関連度算出部410は、共通して含む文書の数が多い場合に、その数が少ない場合と比較してより高い関連度を算出してもよい。
更に、文書データベース10における複数の要素がブーリアンモデルでなく、TF-IDF技術によって関連の強さが定められている場合には、以下の何れかの方法を用いてもよい。
1.関連度算出部410は、複数の要素を列とし、複数の属性を行として、TF-IDF技術により定まる値を行列状に配列し、配列したこれらの値を、各属性についての要素ベクトルとしてそのまま用いる。
2.関連度算出部410は、複数の要素を列とし、複数の属性を行として、TF-IDF技術により定まる値を行列状に配列し、配列したこれらの値を、各属性を有する要素に基づいて変更する。
この場合、関連度算出部410は、この要素ベクトルに基づいて、属性間の関連度を算出する。例えば、関連度算出部410は、要素ベクトル間の角度がより小さい場合には、より高い関連度を算出する。
属性クラスタ生成部420は、算出したその関連度に基づいて、互いの関連度が基準以上である複数の属性を有する属性クラスタを生成する。例えば本例においては、属性クラスタ生成部420は、キーワードlからキーワードl+kまでを選択して属性クラスタを生成する。処理の具体例としては、属性クラスタ生成部420は、要素のクラスタを生成するための既存の方法を属性のクラスタに適用すればよい。
そして、要素クラスタ生成部430は、属性クラスタに含まれる全ての属性を有する要素の集合を求めて、クラスタリング結果として出力する。例えば、文書n、文書n+2、及び文書m+2が出力される。これに代えて、要素クラスタ生成部430は、属性クラスタに含まれる何れかの属性を有する要素の集合を求めて、クラスタリング結果として出力してもよい。
図5は、クラスタ生成装置20がメンバ要素を選択してクラスタを生成する処理フローを示す(実施例2)。要素集合選択部400は、複数の属性の各々について、その属性を有する要素の集合を選択する(S500)。そして、関連度算出部410は、複数の属性の各々が他の属性の各々と関連する強さを示す関連度を、当該属性及び当該他の属性を共通して含む要素の数に基づいて算出する(S510)。
次に、属性クラスタ生成部420は、算出したその関連度に基づいて、互いの関連度が基準以上である複数の属性を有する属性クラスタを生成する(S520)。そして、要素クラスタ生成部430は、属性クラスタに含まれる全ての属性を有する要素の集合を求めて、要素クラスタとして出力する(S530)。
以上、本実施例によれば、クラスタ生成装置20は、属性及び要素の役割を交換して、25個程度の所定の数の属性の集合を属性クラスタとして選択する。そして、これらの属性を含む要素をクラスタとして選択する。この結果、25個程度の所定の数の要素を選択する方法を利用して、当該所定の数より少ない要素をクラスタとして選択することができる。これにより、利用者が経験・知識に基づいて発見することが困難な非常に小さいクラスタを適切に検出することができる。
図6は、クラスタ生成装置20として機能するコンピュータ500のハードウェア構成の一例を示す(実施例1及び2)。コンピュータ500は、ホストコントローラ682により相互に接続されるCPU600、RAM620、グラフィックコントローラ675、及び表示装置680を有するCPU周辺部と、入出力コントローラ684によりホストコントローラ682に接続される通信インターフェイス630、ハードディスクドライブ640、及びCD−ROMドライブ660を有する入出力部と、入出力コントローラ684に接続されるBIOS610、フレキシブルディスクドライブ650、及び入出力チップ670を有するレガシー入出力部とを備える。
ホストコントローラ682は、RAM620と、高い転送レートでRAM620をアクセスするCPU600及びグラフィックコントローラ675とを接続する。CPU600は、BIOS610及びRAM620に格納されたプログラムに基づいて動作し、各部の制御を行う。グラフィックコントローラ675は、CPU600等がRAM620内に設けたフレームバッファ上に生成する画像データを取得し、表示装置680上に表示させる。これに代えて、グラフィックコントローラ675は、CPU600等が生成する画像データを格納するフレームバッファを、内部に含んでもよい。
入出力コントローラ684は、ホストコントローラ682と、比較的高速な入出力装置である通信インターフェイス630、ハードディスクドライブ640、及びCD−ROMドライブ660を接続する。通信インターフェイス630は、ネットワークを介して外部の装置と通信する。ハードディスクドライブ640は、コンピュータ500が使用するプログラム及びデータを格納する。CD−ROMドライブ660は、CD−ROM695からプログラム又はデータを読み取り、RAM620を介して入出力チップ670に提供する。
また、入出力コントローラ684には、BIOS610と、フレキシブルディスクドライブ650や入出力チップ670等の比較的低速な入出力装置とが接続される。BIOS610は、コンピュータ500の起動時にCPU600が実行するブートプログラムや、コンピュータ500のハードウェアに依存するプログラム等を格納する。フレキシブルディスクドライブ650は、フレキシブルディスク690からプログラム又はデータを読み取り、RAM620を介して入出力チップ670に提供する。入出力チップ670は、フレキシブルディスク690や、例えばパラレルポート、シリアルポート、キーボードポート、マウスポート等を介して各種の入出力装置を接続する。
コンピュータ500に提供されるプログラムは、フレキシブルディスク690、CD−ROM695、又はICカード等の記録媒体に格納されて利用者によって提供される。プログラムは、入出力チップ670及び/又は入出力コントローラ684を介して、記録媒体から読み出されコンピュータ500にインストールされて実行される。コンピュータ500にインストールされて実行される生成プログラムがコンピュータ500に働きかけて行わせる動作は、図1から図5において説明したコンピュータ500における動作と同一であるから、説明を省略する。
以上に示したプログラムは、外部の記憶媒体に格納されてもよい。記憶媒体としては、フレキシブルディスク690、CD−ROM695の他に、DVDやPD等の光学記録媒体、MD等の光磁気記録媒体、テープ媒体、ICカード等の半導体メモリ等を用いることができる。また、専用通信ネットワークやインターネットに接続されたサーバシステムに設けたハードディスク又はRAM等の記憶装置を記録媒体として使用し、ネットワークを介してプログラムをコンピュータ500に提供してもよい。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
以上に示す実施例によると、以下の各項目に示す評価装置、クラスタ生成装置、プログラム、記録媒体、評価方法、及びクラスタ生成方法が実現される。
(項目1) 互いに関連の強さが定められた複数の要素の何れかを選択して生成したクラスタについて、当該クラスタに含まれるメンバ要素の選択の確信度を示す自己コンフィデンス値を算出する評価装置であって、予め定められた基準要素について、当該基準要素との関連がより強い基準個数の要素の集合である隣接要素集合を、評価対象のクラスタとして選択する評価対象クラスタ選択部と、前記クラスタに含まれる各々のメンバ要素について、当該メンバ要素との関連がより強い前記基準個数の要素の集合である隣接要素集合を選択する隣接要素集合選択部と、前記クラスタから選択可能な2つのメンバ要素の組み合わせについて、当該組み合わせの一方のメンバ要素の隣接要素集合及び他方のメンバ要素の隣接要素集合に共通して含まれる要素の数の、前記基準個数に対する割合を算出し、全てのメンバ要素の組み合わせについての当該割合の合計に基づく値を前記自己コンフィデンス値として出力するコンフィデンス値算出部とを備える評価装置。
(項目2) 前記コンフィデンス値算出部は、前記基準要素との関係がより強い前記基準個数の要素の何れかを中継要素として、当該中継要素との関係がより強い前記基準個数の要素の各々について、当該要素に達するために選択可能な全ての前記中継要素の数を算出し、当該要素に達するために選択可能な全ての中継要素のうち2つの中継要素の組み合わせの総数を算出し、各要素について算出した当該組み合わせの総数の合計に基づく値を前記自己コンフィデンス値として出力する項目1記載の評価装置。
(項目3) 互いに関連の強さが定められた複数の要素から何れかを選択してクラスタを生成するクラスタ生成装置であって、予め定められた基準要素について、当該基準要素との関係がより強い基準個数の要素の集合である隣接要素集合を、評価対象のクラスタとして選択する評価対象クラスタ選択部と、前記クラスタに含まれる各々のメンバ要素について、当該メンバ要素との関連がより強い前記基準個数の要素の集合である隣接要素集合を選択する隣接要素集合選択部と、前記クラスタから選択可能な2つのメンバ要素の組の各々について、当該組の一方のメンバ要素の隣接要素集合及び他方のメンバ要素の隣接要素集合に共通して含まれる要素の数の、前記基準個数に対する割合を算出し、全ての組について算出した当該割合の合計に基づく値を前記自己コンフィデンス値として出力するコンフィデンス値算出部と、前記自己コンフィデンス値が予め定められた基準値より大きい場合に、評価対象の前記クラスタを、生成すべきクラスタと判断する要素クラスタ生成部とを備えるクラスタ生成装置。
(項目4) 前記クラスタ生成装置は、複数の文書を前記複数の要素として、文書に含まれるキーワードに基づいてクラスタを生成する装置であり、前記評価対象クラスタ選択部は、予め定められた文書について、当該文書と比較して含んでいるキーワードの組がより類似する前記基準個数の文書の集合である隣接要素集合を、前記評価対象のクラスタとして選択し、前記隣接要素集合選択部は、前記クラスタに含まれる各々の文書について、当該文書と比較して含んでいるキーワードの組がより類似する前記基準個数の文書の集合である隣接要素集合を選択し、前記コンフィデンス値算出部は、前記クラスタから選択可能な2つの文書の組み合わせについて、当該組み合わせの一方の文書の隣接要素集合及び他方の文書の隣接要素集合に共通して含まれる文書の数の、前記基準個数に対する割合を算出し、全ての組み合わせについて算出した当該割合の合計に基づく値を前記自己コンフィデンス値として出力し、前記要素クラスタ生成部は、前記自己コンフィデンス値が予め定められた基準値より大きい場合に、評価対象の前記クラスタを、生成すべきクラスタと判断する項目3記載のクラスタ生成装置。
(項目5) 互いに関連の強さが定められた複数の要素の中から予め定められた基準個数の要素を選択して生成したクラスタについて、前記複数の要素全体に対する前記クラスタの特殊性の評価値を算出する評価装置であって、予め定められた基準要素との関係がより強い前記基準個数の要素の集合である隣接要素集合を、評価対象のクラスタとして選択する評価対象クラスタ選択部と、前記クラスタに含まれる各々のメンバ要素について、当該メンバ要素との関連がより強い前記基準個数の要素の集合である隣接要素集合を選択する隣接要素集合選択部と、前記隣接要素集合選択部により選択された前記隣接要素集合に基づいて、当該クラスタに含まれるメンバ要素の選択の確信度を示す自己コンフィデンス値を算出するコンフィデンス値算出部と、前記隣接要素集合選択部が、前記隣接要素集合に代えて、前記複数の要素から無作為に前記基準個数の要素の集合を選択したと仮定した場合における、前記コンフィデンス値算出部により算出される自己コンフィデンス値の理論値を算出する理論値算出部と、自己コンフィデンス値の前記理論値に対する自己コンフィデンス値のカイ2乗検定値を、前記評価値として算出して出力する評価値算出部とを備える評価装置。
(項目6) 前記コンフィデンス値算出部は、前記複数のメンバ要素の各々について、前記クラスタに含まれる要素のうち当該メンバ要素の隣接要素集合に含まれる要素の割合を算出し、各メンバ要素について算出した前記割合の合計に基づく値を前記自己コンフィデンス値として出力する項目5記載の評価装置。
(項目7) 前記コンフィデンス値算出部は、前記クラスタから選択可能な2つのメンバ要素の組み合わせの各々について、当該組み合わせの一方のメンバ要素の隣接要素集合及び他方のメンバ要素の隣接要素集合に共通して含まれる要素の数の、前記基準個数に対する割合を算出し、全ての組について算出した当該割合の合計に基づく値を前記自己コンフィデンス値として算出する項目5記載の評価装置。
(項目8) 互いに関連の強さが定められた複数の要素から何れかを選択してクラスタを生成するクラスタ生成装置であって、予め定められた基準要素との関係がより強い予め定められた基準個数の要素の集合である隣接要素集合を、評価対象のクラスタとして選択する評価対象クラスタ選択部と、前記クラスタに含まれる各々のメンバ要素について、当該メンバ要素との関連がより強い前記基準個数の要素の集合である隣接要素集合を選択する隣接要素集合選択部と、前記隣接要素集合選択部により選択された前記隣接要素集合に基づいて、当該クラスタに含まれるメンバ要素の選択の確信度を示す自己コンフィデンス値を算出するコンフィデンス値算出部と、前記隣接要素集合選択部が、前記隣接要素集合に代えて、前記複数の要素から無作為に前記基準個数の要素の集合を選択したと仮定した場合における、前記コンフィデンス値算出部により算出される自己コンフィデンス値の理論値を算出する理論値算出部と、自己コンフィデンス値の前記理論値に対する自己コンフィデンス値のカイ2乗検定値を、前記評価値として算出して出力する評価値算出部と、前記基準個数を予め定められた範囲で変更した各クラスタについて、前記評価値を前記評価値算出部により算出させ、算出させた当該評価値を最大にするクラスタを選択して生成する要素クラスタ生成部とを有するクラスタ生成装置。
(項目9) 各々が複数の属性のうち少なくとも1つを有する複数の要素からクラスタを生成するクラスタ生成装置であって、前記複数の属性の各々について、当該属性を有する要素の集合を選択する要素集合選択部と、前記複数の属性の各々が他の属性の各々と関連する強さを示す関連度を、当該属性及び当該他の属性を共通して含む要素の数に基づいて算出する関連度算出部と、算出した前記関連度に基づいて、互いの関連度が基準以上である複数の属性を有する属性クラスタを生成する属性クラスタ生成部と、前記属性クラスタに含まれる属性の少なくとも1つを有する要素の集合を求めてクラスタとして出力する要素クラスタ生成部とを備えるクラスタ生成装置。
(項目10) 互いに関連の強さが定められた複数の要素の何れかを選択して生成したクラスタについて、当該クラスタに含まれるメンバ要素の選択の確信度を示す自己コンフィデンス値を算出する評価装置として、コンピュータを機能させるプログラムであって、前記コンピュータを、予め定められた基準要素について、当該基準要素との関連がより強い基準個数の要素の集合である隣接要素集合を、評価対象のクラスタとして選択する評価対象クラスタ選択部と、前記クラスタに含まれる各々のメンバ要素について、当該メンバ要素との関連がより強い前記基準個数の要素の集合である隣接要素集合を選択する隣接要素集合選択部と、前記クラスタから選択可能な2つのメンバ要素の組み合わせについて、当該組み合わせの一方のメンバ要素の隣接要素集合及び他方のメンバ要素の隣接要素集合に共通して含まれる要素の数の、前記基準個数に対する割合を算出し、全てのメンバ要素の組み合わせについての当該割合の合計に基づく値を前記自己コンフィデンス値として出力するコンフィデンス値算出部として機能させるプログラム。
(項目11) 互いに関連の強さが定められた複数の要素の中から予め定められた基準個数の要素を選択して生成したクラスタについて、前記複数の要素全体に対する前記クラスタの特殊性の評価値を算出する評価装置として、コンピュータを機能させるプログラムであって、前記コンピュータを、予め定められた基準要素との関係がより強い前記基準個数の要素の集合である隣接要素集合を、評価対象のクラスタとして選択する評価対象クラスタ選択部と、前記クラスタに含まれる各々のメンバ要素について、当該メンバ要素との関連がより強い前記基準個数の要素の集合である隣接要素集合を選択する隣接要素集合選択部と、前記隣接要素集合選択部により選択された前記隣接要素集合に基づいて、当該クラスタに含まれるメンバ要素の選択の確信度を示す自己コンフィデンス値を算出するコンフィデンス値算出部と、前記隣接要素集合選択部が、前記隣接要素集合に代えて、前記複数の要素から無作為に前記基準個数の要素の集合を選択したと仮定した場合における、前記コンフィデンス値算出部により算出される自己コンフィデンス値の理論値を算出する理論値算出部と、自己コンフィデンス値の前記理論値に対する自己コンフィデンス値のカイ2乗検定値を、前記評価値として算出して出力する評価値算出部として機能させるプログラム。
(項目12) 各々が複数の属性のうち少なくとも1つを有する複数の要素からクラスタを生成するクラスタ生成装置として、コンピュータを機能させるプログラムであって、前記コンピュータを、前記複数の属性の各々について、当該属性を有する要素の集合を選択する要素集合選択部と、前記複数の属性の各々が他の属性の各々と関連する強さを示す関連度を、当該属性及び当該他の属性を共通して含む要素の数に基づいて算出する関連度算出部と、算出した前記関連度に基づいて、互いの関連度が基準以上である複数の属性を有する属性クラスタを生成する属性クラスタ生成部と、前記属性クラスタに含まれる属性の少なくとも1つを有する要素の集合を求めてクラスタとして出力する要素クラスタ生成部として機能させるプログラム。
(項目13) 項目10から12の何れかに記載のプログラムを記録した記録媒体。
(項目14) 互いに関連の強さが定められた複数の要素の何れかを選択して生成したクラスタについて、当該クラスタに含まれるメンバ要素の選択の確信度を示す自己コンフィデンス値を、コンピュータにより算出する評価方法であって、前記コンピュータにより、予め定められた基準要素について、当該基準要素との関連がより強い基準個数の要素の集合である隣接要素集合を、評価対象のクラスタとして選択する評価対象クラスタ選択段階と、前記クラスタに含まれる各々のメンバ要素について、当該メンバ要素との関連がより強い前記基準個数の要素の集合である隣接要素集合を選択する隣接要素集合選択段階と、前記クラスタから選択可能な2つのメンバ要素の組み合わせについて、当該組み合わせの一方のメンバ要素の隣接要素集合及び他方のメンバ要素の隣接要素集合に共通して含まれる要素の数の、前記基準個数に対する割合を算出し、全てのメンバ要素の組み合わせについての当該割合の合計に基づく値を前記自己コンフィデンス値として出力するコンフィデンス値算出段階とを備える評価方法。
(項目15) 互いに関連の強さが定められた複数の要素の中から予め定められた基準個数の要素を選択して生成したクラスタについて、前記複数の要素全体に対する前記クラスタの特殊性の評価値を、コンピュータにより算出する評価方法であって、前記コンピュータにより、予め定められた基準要素との関係がより強い前記基準個数の要素の集合である隣接要素集合を、評価対象のクラスタとして選択する評価対象クラスタ選択段階と、前記クラスタに含まれる各々のメンバ要素について、当該メンバ要素との関連がより強い前記基準個数の要素の集合である隣接要素集合を選択する隣接要素集合選択段階と、前記隣接要素集合選択段階において選択された前記隣接要素集合に基づいて、当該クラスタに含まれるメンバ要素の選択の確信度を示す自己コンフィデンス値を算出するコンフィデンス値算出段階と、前記隣接要素集合選択段階において、前記隣接要素集合に代えて、前記複数の要素から無作為に前記基準個数の要素の集合を選択したと仮定した場合における、前記コンフィデンス値算出段階において算出される自己コンフィデンス値の理論値を算出する理論値算出段階と、自己コンフィデンス値の前記理論値に対する自己コンフィデンス値のカイ2乗検定値を、前記評価値として算出して出力する評価値算出段階とを備える評価方法。
(項目16) 各々が複数の属性のうち少なくとも1つを有する複数の要素から、コンピュータによりクラスタを生成するクラスタ生成方法であって、前記コンピュータにより、前記複数の属性の各々について、当該属性を有する要素の集合を選択する要素集合選択段階と、前記複数の属性の各々が他の属性の各々と関連する強さを示す関連度を、当該属性及び当該他の属性を共通して含む要素の数に基づいて算出する関連度算出段階と、算出した前記関連度に基づいて、互いの関連度が基準以上である複数の属性を有する属性クラスタを生成する属性クラスタ生成段階と、前記属性クラスタに含まれる属性の少なくとも1つを有する要素の集合を求めてクラスタとして出力する要素クラスタ生成段階とを備えるクラスタ生成方法。
図1は、文書データベース10及びクラスタ生成装置20の機能ブロック図である(実施例1)。 図2は、クラスタ生成装置20がメンバ要素を選択してクラスタを生成する処理フローを示す(実施例1)。 図3は、S230における処理の詳細を説明する図である(実施例1)。 図4は、文書データベース10及びクラスタ生成装置20の機能ブロック図である(実施例2)。 図5は、クラスタ生成装置20がメンバ要素を選択してクラスタを生成する処理フローを示す(実施例2)。 図6は、クラスタ生成装置20として機能するコンピュータ500のハードウェア構成の一例を示す(実施例1及び2)。
符号の説明
10 文書データベース
20 クラスタ生成装置
30 評価装置
40 要素クラスタ生成部
300 評価対象クラスタ選択部
310 隣接要素集合選択部
320 コンフィデンス値算出部
330 理論値算出部
340 評価値算出部
400 要素集合選択部
410 関連度算出部
420 属性クラスタ生成部
430 要素クラスタ生成部
500 コンピュータ

Claims (16)

  1. 互いに関連の強さが定められた複数の要素の何れかを選択して生成したクラスタについて、当該クラスタに含まれるメンバ要素の選択の確信度を示す自己コンフィデンス値を算出する評価装置であって、
    予め定められた基準要素について、当該基準要素との関連がより強い基準個数の要素の集合である隣接要素集合を、評価対象のクラスタとして選択する評価対象クラスタ選択部と、
    前記クラスタに含まれる各々のメンバ要素について、当該メンバ要素との関連がより強い前記基準個数の要素の集合である隣接要素集合を選択する隣接要素集合選択部と、
    前記クラスタから選択可能な2つのメンバ要素の組み合わせについて、当該組み合わせの一方のメンバ要素の隣接要素集合及び他方のメンバ要素の隣接要素集合に共通して含まれる要素の数の、前記基準個数に対する割合を算出し、全てのメンバ要素の組み合わせについての当該割合の合計に基づく値を前記自己コンフィデンス値として出力するコンフィデンス値算出部と
    を備える評価装置。
  2. 前記コンフィデンス値算出部は、前記基準要素との関係がより強い前記基準個数の要素の何れかを中継要素として、当該中継要素との関係がより強い前記基準個数の要素の各々について、当該要素に達するために選択可能な全ての前記中継要素の数を算出し、当該要素に達するために選択可能な全ての中継要素のうち2つの中継要素の組み合わせの総数を算出し、各要素について算出した当該組み合わせの総数の合計に基づく値を前記自己コンフィデンス値として出力する
    請求項1記載の評価装置。
  3. 互いに関連の強さが定められた複数の要素から何れかを選択してクラスタを生成するクラスタ生成装置であって、
    予め定められた基準要素について、当該基準要素との関係がより強い基準個数の要素の集合である隣接要素集合を、評価対象のクラスタとして選択する評価対象クラスタ選択部と、
    前記クラスタに含まれる各々のメンバ要素について、当該メンバ要素との関連がより強い前記基準個数の要素の集合である隣接要素集合を選択する隣接要素集合選択部と、
    前記クラスタから選択可能な2つのメンバ要素の組の各々について、当該組の一方のメンバ要素の隣接要素集合及び他方のメンバ要素の隣接要素集合に共通して含まれる要素の数の、前記基準個数に対する割合を算出し、全ての組について算出した当該割合の合計に基づく値を前記自己コンフィデンス値として出力するコンフィデンス値算出部と、
    前記自己コンフィデンス値が予め定められた基準値より大きい場合に、評価対象の前記クラスタを、生成すべきクラスタと判断する要素クラスタ生成部と
    を備えるクラスタ生成装置。
  4. 前記クラスタ生成装置は、複数の文書を前記複数の要素として、文書に含まれるキーワードに基づいてクラスタを生成する装置であり、
    前記評価対象クラスタ選択部は、予め定められた文書について、当該文書と比較して含んでいるキーワードの組がより類似する前記基準個数の文書の集合である隣接要素集合を、前記評価対象のクラスタとして選択し、
    前記隣接要素集合選択部は、前記クラスタに含まれる各々の文書について、当該文書と比較して含んでいるキーワードの組がより類似する前記基準個数の文書の集合である隣接要素集合を選択し、
    前記コンフィデンス値算出部は、前記クラスタから選択可能な2つの文書の組み合わせについて、当該組み合わせの一方の文書の隣接要素集合及び他方の文書の隣接要素集合に共通して含まれる文書の数の、前記基準個数に対する割合を算出し、全ての組み合わせについて算出した当該割合の合計に基づく値を前記自己コンフィデンス値として出力し、
    前記要素クラスタ生成部は、前記自己コンフィデンス値が予め定められた基準値より大きい場合に、評価対象の前記クラスタを、生成すべきクラスタと判断する
    請求項3記載のクラスタ生成装置。
  5. 互いに関連の強さが定められた複数の要素の中から予め定められた基準個数の要素を選択して生成したクラスタについて、前記複数の要素全体に対する前記クラスタの特殊性の評価値を算出する評価装置であって、
    予め定められた基準要素との関係がより強い前記基準個数の要素の集合である隣接要素集合を、評価対象のクラスタとして選択する評価対象クラスタ選択部と、
    前記クラスタに含まれる各々のメンバ要素について、当該メンバ要素との関連がより強い前記基準個数の要素の集合である隣接要素集合を選択する隣接要素集合選択部と、
    前記隣接要素集合選択部により選択された前記隣接要素集合に基づいて、当該クラスタに含まれるメンバ要素の選択の確信度を示す自己コンフィデンス値を算出するコンフィデンス値算出部と、
    前記隣接要素集合選択部が、前記隣接要素集合に代えて、前記複数の要素から無作為に前記基準個数の要素の集合を選択したと仮定した場合における、前記コンフィデンス値算出部により算出される自己コンフィデンス値の理論値を算出する理論値算出部と、
    自己コンフィデンス値の前記理論値に対する自己コンフィデンス値のカイ2乗検定値を、前記評価値として算出して出力する評価値算出部と
    を備える評価装置。
  6. 前記コンフィデンス値算出部は、前記複数のメンバ要素の各々について、前記クラスタに含まれる要素のうち当該メンバ要素の隣接要素集合に含まれる要素の割合を算出し、各メンバ要素について算出した前記割合の合計に基づく値を前記自己コンフィデンス値として出力する
    請求項5記載の評価装置。
  7. 前記コンフィデンス値算出部は、前記クラスタから選択可能な2つのメンバ要素の組み合わせの各々について、当該組み合わせの一方のメンバ要素の隣接要素集合及び他方のメンバ要素の隣接要素集合に共通して含まれる要素の数の、前記基準個数に対する割合を算出し、全ての組について算出した当該割合の合計に基づく値を前記自己コンフィデンス値として算出する
    請求項5記載の評価装置。
  8. 互いに関連の強さが定められた複数の要素から何れかを選択してクラスタを生成するクラスタ生成装置であって、
    予め定められた基準要素との関係がより強い予め定められた基準個数の要素の集合である隣接要素集合を、評価対象のクラスタとして選択する評価対象クラスタ選択部と、
    前記クラスタに含まれる各々のメンバ要素について、当該メンバ要素との関連がより強い前記基準個数の要素の集合である隣接要素集合を選択する隣接要素集合選択部と、
    前記隣接要素集合選択部により選択された前記隣接要素集合に基づいて、当該クラスタに含まれるメンバ要素の選択の確信度を示す自己コンフィデンス値を算出するコンフィデンス値算出部と、
    前記隣接要素集合選択部が、前記隣接要素集合に代えて、前記複数の要素から無作為に前記基準個数の要素の集合を選択したと仮定した場合における、前記コンフィデンス値算出部により算出される自己コンフィデンス値の理論値を算出する理論値算出部と、
    自己コンフィデンス値の前記理論値に対する自己コンフィデンス値のカイ2乗検定値を、前記評価値として算出して出力する評価値算出部と、
    前記基準個数を予め定められた範囲で変更した各クラスタについて、前記評価値を前記評価値算出部により算出させ、算出させた当該評価値を最大にするクラスタを選択して生成する要素クラスタ生成部と
    を有するクラスタ生成装置。
  9. 各々が複数の属性のうち少なくとも1つを有する複数の要素からクラスタを生成するクラスタ生成装置であって、
    前記複数の属性の各々について、当該属性を有する要素の集合を選択する要素集合選択部と、
    前記複数の属性の各々が他の属性の各々と関連する強さを示す関連度を、当該属性及び当該他の属性を共通して含む要素の数に基づいて算出する関連度算出部と、
    算出した前記関連度に基づいて、互いの関連度が基準以上である複数の属性を有する属性クラスタを生成する属性クラスタ生成部と、
    前記属性クラスタに含まれる属性の少なくとも1つを有する要素の集合を求めてクラスタとして出力する要素クラスタ生成部と
    を備えるクラスタ生成装置。
  10. 互いに関連の強さが定められた複数の要素の何れかを選択して生成したクラスタについて、当該クラスタに含まれるメンバ要素の選択の確信度を示す自己コンフィデンス値を算出する評価装置として、コンピュータを機能させるプログラムであって、
    前記コンピュータを、
    予め定められた基準要素について、当該基準要素との関連がより強い基準個数の要素の集合である隣接要素集合を、評価対象のクラスタとして選択する評価対象クラスタ選択部と、
    前記クラスタに含まれる各々のメンバ要素について、当該メンバ要素との関連がより強い前記基準個数の要素の集合である隣接要素集合を選択する隣接要素集合選択部と、
    前記クラスタから選択可能な2つのメンバ要素の組み合わせについて、当該組み合わせの一方のメンバ要素の隣接要素集合及び他方のメンバ要素の隣接要素集合に共通して含まれる要素の数の、前記基準個数に対する割合を算出し、全てのメンバ要素の組み合わせについての当該割合の合計に基づく値を前記自己コンフィデンス値として出力するコンフィデンス値算出部と
    して機能させるプログラム。
  11. 互いに関連の強さが定められた複数の要素の中から予め定められた基準個数の要素を選択して生成したクラスタについて、前記複数の要素全体に対する前記クラスタの特殊性の評価値を算出する評価装置として、コンピュータを機能させるプログラムであって、
    前記コンピュータを、
    予め定められた基準要素との関係がより強い前記基準個数の要素の集合である隣接要素集合を、評価対象のクラスタとして選択する評価対象クラスタ選択部と、
    前記クラスタに含まれる各々のメンバ要素について、当該メンバ要素との関連がより強い前記基準個数の要素の集合である隣接要素集合を選択する隣接要素集合選択部と、
    前記隣接要素集合選択部により選択された前記隣接要素集合に基づいて、当該クラスタに含まれるメンバ要素の選択の確信度を示す自己コンフィデンス値を算出するコンフィデンス値算出部と、
    前記隣接要素集合選択部が、前記隣接要素集合に代えて、前記複数の要素から無作為に前記基準個数の要素の集合を選択したと仮定した場合における、前記コンフィデンス値算出部により算出される自己コンフィデンス値の理論値を算出する理論値算出部と、
    自己コンフィデンス値の前記理論値に対する自己コンフィデンス値のカイ2乗検定値を、前記評価値として算出して出力する評価値算出部と
    して機能させるプログラム。
  12. 各々が複数の属性のうち少なくとも1つを有する複数の要素からクラスタを生成するクラスタ生成装置として、コンピュータを機能させるプログラムであって、
    前記コンピュータを、
    前記複数の属性の各々について、当該属性を有する要素の集合を選択する要素集合選択部と、
    前記複数の属性の各々が他の属性の各々と関連する強さを示す関連度を、当該属性及び当該他の属性を共通して含む要素の数に基づいて算出する関連度算出部と、
    算出した前記関連度に基づいて、互いの関連度が基準以上である複数の属性を有する属性クラスタを生成する属性クラスタ生成部と、
    前記属性クラスタに含まれる属性の少なくとも1つを有する要素の集合を求めてクラスタとして出力する要素クラスタ生成部と
    して機能させるプログラム。
  13. 請求項10から12の何れかに記載のプログラムを記録した記録媒体。
  14. 互いに関連の強さが定められた複数の要素の何れかを選択して生成したクラスタについて、当該クラスタに含まれるメンバ要素の選択の確信度を示す自己コンフィデンス値を、コンピュータにより算出する評価方法であって、
    前記コンピュータにより、
    予め定められた基準要素について、当該基準要素との関連がより強い基準個数の要素の集合である隣接要素集合を、評価対象のクラスタとして選択する評価対象クラスタ選択段階と、
    前記クラスタに含まれる各々のメンバ要素について、当該メンバ要素との関連がより強い前記基準個数の要素の集合である隣接要素集合を選択する隣接要素集合選択段階と、
    前記クラスタから選択可能な2つのメンバ要素の組み合わせについて、当該組み合わせの一方のメンバ要素の隣接要素集合及び他方のメンバ要素の隣接要素集合に共通して含まれる要素の数の、前記基準個数に対する割合を算出し、全てのメンバ要素の組み合わせについての当該割合の合計に基づく値を前記自己コンフィデンス値として出力するコンフィデンス値算出段階と
    を備える評価方法。
  15. 互いに関連の強さが定められた複数の要素の中から予め定められた基準個数の要素を選択して生成したクラスタについて、前記複数の要素全体に対する前記クラスタの特殊性の評価値を、コンピュータにより算出する評価方法であって、
    前記コンピュータにより、
    予め定められた基準要素との関係がより強い前記基準個数の要素の集合である隣接要素集合を、評価対象のクラスタとして選択する評価対象クラスタ選択段階と、
    前記クラスタに含まれる各々のメンバ要素について、当該メンバ要素との関連がより強い前記基準個数の要素の集合である隣接要素集合を選択する隣接要素集合選択段階と、
    前記隣接要素集合選択段階において選択された前記隣接要素集合に基づいて、当該クラスタに含まれるメンバ要素の選択の確信度を示す自己コンフィデンス値を算出するコンフィデンス値算出段階と、
    前記隣接要素集合選択段階において、前記隣接要素集合に代えて、前記複数の要素から無作為に前記基準個数の要素の集合を選択したと仮定した場合における、前記コンフィデンス値算出段階において算出される自己コンフィデンス値の理論値を算出する理論値算出段階と、
    自己コンフィデンス値の前記理論値に対する自己コンフィデンス値のカイ2乗検定値を、前記評価値として算出して出力する評価値算出段階と
    を備える評価方法。
  16. 各々が複数の属性のうち少なくとも1つを有する複数の要素から、コンピュータによりクラスタを生成するクラスタ生成方法であって、
    前記コンピュータにより、
    前記複数の属性の各々について、当該属性を有する要素の集合を選択する要素集合選択段階と、
    前記複数の属性の各々が他の属性の各々と関連する強さを示す関連度を、当該属性及び当該他の属性を共通して含む要素の数に基づいて算出する関連度算出段階と、
    算出した前記関連度に基づいて、互いの関連度が基準以上である複数の属性を有する属性クラスタを生成する属性クラスタ生成段階と、
    前記属性クラスタに含まれる属性の少なくとも1つを有する要素の集合を求めてクラスタとして出力する要素クラスタ生成段階と
    を備えるクラスタ生成方法。
JP2004118758A 2004-04-14 2004-04-14 評価装置、クラスタ生成装置、プログラム、記録媒体、評価方法、及びクラスタ生成方法 Pending JP2005301786A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2004118758A JP2005301786A (ja) 2004-04-14 2004-04-14 評価装置、クラスタ生成装置、プログラム、記録媒体、評価方法、及びクラスタ生成方法
US11/104,936 US20050251514A1 (en) 2004-04-14 2005-04-13 Evaluation and cluster formation based on element correlation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004118758A JP2005301786A (ja) 2004-04-14 2004-04-14 評価装置、クラスタ生成装置、プログラム、記録媒体、評価方法、及びクラスタ生成方法

Publications (1)

Publication Number Publication Date
JP2005301786A true JP2005301786A (ja) 2005-10-27

Family

ID=35240608

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004118758A Pending JP2005301786A (ja) 2004-04-14 2004-04-14 評価装置、クラスタ生成装置、プログラム、記録媒体、評価方法、及びクラスタ生成方法

Country Status (2)

Country Link
US (1) US20050251514A1 (ja)
JP (1) JP2005301786A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007126088A1 (ja) * 2006-04-28 2007-11-08 Riken バイオアイテム検索装置、バイオアイテム検索端末装置、バイオアイテム検索方法、および、プログラム
WO2014109388A1 (ja) * 2013-01-11 2014-07-17 日本電気株式会社 テキストマイニング装置、テキストマイニングシステム、テキストマイニング方法及び記録媒体
JP2019159934A (ja) * 2018-03-14 2019-09-19 富士通株式会社 クラスタリングプログラム、クラスタリング方法およびクラスタリング装置
JP7367139B2 (ja) 2021-08-02 2023-10-23 ネイバー コーポレーション データ検索方法及びシステム

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007034096A1 (fr) * 2005-09-20 2007-03-29 France Telecom Procede de tri d'un ensemble de documents electroniques
US7865742B2 (en) * 2006-07-12 2011-01-04 Palo Alto Research Center Incorporated Method, apparatus, and program product for enabling access to flexibly redacted content
US7873838B2 (en) * 2006-07-12 2011-01-18 Palo Alto Research Center Incorporated Method, apparatus, and program product for flexible redaction of content
US7861096B2 (en) * 2006-07-12 2010-12-28 Palo Alto Research Center Incorporated Method, apparatus, and program product for revealing redacted information
US8639559B2 (en) * 2012-04-09 2014-01-28 International Business Machines Corporation Brand analysis using interactions with search result items
CN112636642B (zh) * 2020-12-17 2023-03-24 广东工业大学 一种柔性材料数控切割刀头性能状态评估方法及装置

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3072335A (en) * 1959-01-14 1963-01-08 Well Surveys Inc Analog computer for determining confidence limits of measurement
US4999688A (en) * 1989-02-17 1991-03-12 Mitsubishi Denki Kabushiki Kaisha Optical logic element with short switching time
US5301109A (en) * 1990-06-11 1994-04-05 Bell Communications Research, Inc. Computerized cross-language document retrieval using latent semantic indexing
US5546576A (en) * 1995-02-17 1996-08-13 International Business Machines Corporation Query optimizer system that detects and prevents mutating table violations of database integrity in a query before execution plan generation
US5987460A (en) * 1996-07-05 1999-11-16 Hitachi, Ltd. Document retrieval-assisting method and system for the same and document retrieval service using the same with document frequency and term frequency
US5873075A (en) * 1997-06-30 1999-02-16 International Business Machines Corporation Synchronization of SQL actions in a relational database system
US6356864B1 (en) * 1997-07-25 2002-03-12 University Technology Corporation Methods for analysis and evaluation of the semantic content of a writing based on vector length
US20010014868A1 (en) * 1997-12-05 2001-08-16 Frederick Herz System for the automatic determination of customized prices and promotions
WO2002095534A2 (en) * 2001-05-18 2002-11-28 Biowulf Technologies, Llc Methods for feature selection in a learning machine
US6990628B1 (en) * 1999-06-14 2006-01-24 Yahoo! Inc. Method and apparatus for measuring similarity among electronic documents
MXPA02003755A (es) * 1999-10-15 2002-09-18 Dekalb Genetics Corp Metodos y sistemas para analisis de rendimiento de plantas.
US7035873B2 (en) * 2001-08-20 2006-04-25 Microsoft Corporation System and methods for providing adaptive media property classification
JP2002041540A (ja) * 2000-07-28 2002-02-08 Shinichiro Okude 連想・推論機能を備えた検索システムおよび、それに用いられる、記録媒体献金
AU2002211881A1 (en) * 2000-10-13 2002-04-22 Science Applications International Corporation System and method for linear prediction
US6749052B2 (en) * 2000-10-19 2004-06-15 Igames Entertainment, Inc. Anti-cheating device for a gaming machine
US6886008B2 (en) * 2001-03-08 2005-04-26 Technion Research & Development Foundation Ltd. Machine learning by construction of a decision function
US20020194166A1 (en) * 2001-05-01 2002-12-19 Fowler Abraham Michael Mechanism to sift through search results using keywords from the results
US6965895B2 (en) * 2001-07-16 2005-11-15 Applied Materials, Inc. Method and apparatus for analyzing manufacturing data
JP3479845B2 (ja) * 2001-11-21 2003-12-15 日本電気株式会社 Cdma受信装置と、その基地局、及びその受信信号を逆拡散するための受信タイミングの検出方法
US20030115191A1 (en) * 2001-12-17 2003-06-19 Max Copperman Efficient and cost-effective content provider for customer relationship management (CRM) or other applications
JP3860046B2 (ja) * 2002-02-15 2006-12-20 インターナショナル・ビジネス・マシーンズ・コーポレーション ランダムサンプル階層構造を用いた情報処理のためのプログラム、システムおよび記録媒体
US7451065B2 (en) * 2002-03-11 2008-11-11 International Business Machines Corporation Method for constructing segmentation-based predictive models
US7399220B2 (en) * 2002-08-02 2008-07-15 Kriesel Marshall S Apparatus and methods for the volumetric and dimensional measurement of livestock
US20050125433A1 (en) * 2002-12-05 2005-06-09 Fujitsu Limited Data summation system and method based on classification definition covering plural records
JP3781005B2 (ja) * 2002-12-12 2006-05-31 セイコーエプソン株式会社 文書抽出装置及び文書抽出プログラム並びに文書抽出方法
JP3974511B2 (ja) * 2002-12-19 2007-09-12 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報検索のためのデータ構造を生成するコンピュータ・システム、そのための方法、情報検索のためのデータ構造を生成するコンピュータ実行可能なプログラム、情報検索のためのデータ構造を生成するコンピュータ実行可能なプログラムを記憶したコンピュータ可読な記憶媒体、情報検索システム、およびグラフィカル・ユーザ・インタフェイス・システム
EP1604309A2 (en) * 2003-03-18 2005-12-14 Metacarta, Inc. Corpus clustering, confidence refinement, and ranking for geographic text search and information retrieval
JP4107658B2 (ja) * 2003-07-23 2008-06-25 インターナショナル・ビジネス・マシーンズ・コーポレーション 分類因子検出装置、分類因子検出方法、プログラム、及び記録媒体

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007126088A1 (ja) * 2006-04-28 2007-11-08 Riken バイオアイテム検索装置、バイオアイテム検索端末装置、バイオアイテム検索方法、および、プログラム
US7921105B2 (en) 2006-04-28 2011-04-05 Riken Bioitem searcher, bioitem search terminal, bioitem search method, and program
WO2014109388A1 (ja) * 2013-01-11 2014-07-17 日本電気株式会社 テキストマイニング装置、テキストマイニングシステム、テキストマイニング方法及び記録媒体
CN104919458A (zh) * 2013-01-11 2015-09-16 日本电气株式会社 文本挖掘设备、文本挖掘系统、文本挖掘方法和记录介质
JPWO2014109388A1 (ja) * 2013-01-11 2017-01-19 日本電気株式会社 テキストマイニング装置、テキストマイニングシステム、テキストマイニング方法及びプログラム
JP2019159934A (ja) * 2018-03-14 2019-09-19 富士通株式会社 クラスタリングプログラム、クラスタリング方法およびクラスタリング装置
JP7006403B2 (ja) 2018-03-14 2022-01-24 富士通株式会社 クラスタリングプログラム、クラスタリング方法およびクラスタリング装置
JP7367139B2 (ja) 2021-08-02 2023-10-23 ネイバー コーポレーション データ検索方法及びシステム

Also Published As

Publication number Publication date
US20050251514A1 (en) 2005-11-10

Similar Documents

Publication Publication Date Title
US11216496B2 (en) Visual interactive search
JP6940646B2 (ja) 情報推奨方法、情報推奨装置、機器および媒体
US10102277B2 (en) Bayesian visual interactive search
US11232152B2 (en) Efficient processing of neighborhood data
US20220156302A1 (en) Implementing a graphical user interface to collect information from a user to identify a desired document based on dissimilarity and/or collective closeness to other identified documents
US20170039198A1 (en) Visual interactive search, scalable bandit-based visual interactive search and ranking for visual interactive search
US10606883B2 (en) Selection of initial document collection for visual interactive search
US20050251514A1 (en) Evaluation and cluster formation based on element correlation
CN110457577B (zh) 数据处理方法、装置、设备和计算机存储介质
CN112395487B (zh) 信息推荐方法、装置、计算机可读存储介质及电子设备
Ayache et al. Evaluation of active learning strategies for video indexing
CN112749300B (zh) 用于视频分类的方法、装置、设备、存储介质和程序产品
CN112765478B (zh) 用于推荐内容的方法、装置、设备、介质和程序产品
CN111966886A (zh) 对象推荐方法、对象推荐装置、电子设备及存储介质
JP4070211B2 (ja) 選択装置、選択方法、プログラム、及び記録媒体
CN106454347B (zh) 帧分辨率决定方法以及使用该方法的装置
Kerkache et al. A hybrid approach for enhanced link prediction in social networks based on community detection
Kalaivani et al. An optimal multi-level backward feature subset selection for object recognition
CN113420214B (zh) 一种电子交易对象推荐方法和装置及设备
US11693925B2 (en) Anomaly detection by ranking from algorithm
CN107885757B (zh) 图像检索的方法及装置
Ji et al. Product Adoption Maximization Leveraging Social Influence and User Interest Mining.
CN113052238A (zh) 基于用户分类的模型训练、业务分配方法、装置及设备
CN113011920A (zh) 转化率预估模型的训练方法、装置及电子设备
CN118229251A (zh) 邮件检索展示方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070814

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071031

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080125

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20080228

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20080404

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20090529

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20090604

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20100513