JP4041081B2 - 分割クラスタリング装置及び分割データ数決定方法 - Google Patents
分割クラスタリング装置及び分割データ数決定方法 Download PDFInfo
- Publication number
- JP4041081B2 JP4041081B2 JP2004084711A JP2004084711A JP4041081B2 JP 4041081 B2 JP4041081 B2 JP 4041081B2 JP 2004084711 A JP2004084711 A JP 2004084711A JP 2004084711 A JP2004084711 A JP 2004084711A JP 4041081 B2 JP4041081 B2 JP 4041081B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- clustering
- divided
- sample
- subsets
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/231—Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
図1は本発明の一実施形態に係る分割クラスタリング装置の構成を示すブロック図である。図1の分割クラスタリング装置は、文書データベース(以下、文書DBと称する)11と、クラスタリング結果データベース(以下、クラスタリング結果DBと称する)12と、データ登録部13と、分割データ数決定処理部14と、データ分割部15と、クラスタリング実行部16と、クラスタリング結果マージ部17と、クラスタリング結果表示部18とから構成される。
データ登録部13は、クラスタリングの対象となる文書データの集合に対して、形態素解析(単語に分割する)を行い、その結果を文書DB11に登録する。
まず、分割クラスタリング装置の動作の概要について、図3のフローチャートを参照して説明する。
データ登録部13は、クラスタリングの対象となる文書データの集合を文書DB11に登録するための処理を行う(ステップS1)。この登録処理では、データ登録部13は文書データの形態素解析を行い、単語単位に分割する。データ登録部13は、この単語単位に分割された文書データの集合を文書DB11に登録する。データ登録部13によって登録される文書データの集合が、磁気ディスク、光ディスク等の可搬型の記憶媒体から読み込まれるものであっても、或いはネットワークを介して転送されるものであっても構わない。
次に、分割データ数決定処理部14において実行される、最適な分割データ数を決定する処理について、図4のフローチャートを参照して説明する。ここでの処理の特徴は、一定割合のデータをサンプリングしてデータの傾向を調査し、その傾向から分割データ数を決定する点にある。
(|(Xi−X)3|+|(Yi−Y)3|)1/3 …(1)
ただし、i=1,2,…,データ数
で表される。なお、特徴ベクトルと重心との距離を表す指標であれば、例えばL2距離など、L3距離以外の距離を用いても構わない。上記の例において、L2距離は、
(|(Xi−X)2|+|(Yi−Y)2|)1/2
のように表される。
分割データ数=max(データ数N1,データ数N2) …(2)
但し、N1=全データ数NT×(有効度A/標準有効度AS)
N2=1000
に従って決定される。この(2)式は、N1=全データ数NT×(有効度A/標準有効度AS)の値(つまり有効度Aに比例した値)がN2(=1000件)を超えていれば、N1が分割データ数として決定され、N2(=1000件)以下であれば、N2(=1000件)が分割データ数として決定されることを示す。このN2は最小の分割データ数である。N2には、これ以上分割データ数を少なくするとクラスタの意味がなくなるデータ数が用いられる。本実施形態では、N2=1000であるが、これに限るものではない。
分割データ数=max(データ数N3,データ数N2) …(3)
但し、N3=全データ数NT/(分割不能データ数NI/全データ数NTの10%)
N2=1000
に従って決定される。この(3)式は、N3=全データ数NT/(分割不能データ数NI/全データ数NTの10%)の値(つまり分割不能データ数NIに反比例した値)がN2(=1000件)を超えていれば、N3が分割データ数として決定され、N2(=1000件)以下であれば、上記(2)式の場合と同様に、N2(=1000件)が分割データ数として決定されることを示す。
分割データ数=max(データ数αN1,データ数βN3,データ数N2)
…(4)
に従い、有効度A及び分類不能データ数NIの双方に基づいて分割データ数を決定するようにしても良い。ここで、α,βは、有効度Aまたは分類不能データ数NIのいずれの要素を優先させるかを示す一種の重みである。
次に、最適な分割データ数を決定する処理の変形例について、図7のフローチャートを参照して説明する。この変形例の特徴は、文書DB11に登録された文書データの集合からデータ数が異なる複数の部分集合を抜粋して、その部分集合毎にクラスタリングを行うことで分割データ数を決定する点にある。
指標値Ii
=α’(分類不能データ数NIi/データ数の一定割合)
+β’(標準有効度AS/有効度Ai)
に示す値(指標値)Iiを算出すると良い。この指標値Iiは、部分集合80-i毎のクラスタリング結果の良否を判断するための指標となる。α’,β’は、有効度Aiまたは分類不能データ数NIiのいずれの要素を優先させるかを示す一種の重みである。
次に、文書データからの特徴ベクトルの抽出について説明する。一般に、特徴ベクトルは、例えば(3,1,5)のように、多次元の成分を表す数値の組で表現される。文書データから特徴ベクトルを抽出(作成)するには、当該データから当該特徴ベクトルを表す数値の組を作成するためのデータ変換が必要となる。このデータ変換のための方法は、クラスタリングの対象となる全てのデータに対して特徴ベクトルが作成可能で、且つ特徴ベクトル同士の距離が定義可能でなければならない。
文書A:「日本の総理大臣は○△。総理は○△。○△。」
から特徴ベクトルを作成する場合を例に述べる。
「日本/本の/の総/総理/理大/大臣/臣は/は○/○△/総理/理は/は○/○△/○△」
となる。ここでは、「、」と「。」は無視される。なお、本実施形態では、文書DB11に登録されている文書データの集合は既にデータ登録部13によって単語単位に区切られていることから、上記の準備は必要ない。また、この準備は、データの種類によっては必ずしも必要としない。
特徴ベクトル=(日本,本の,の総,総理,理大,大臣,臣は,は○,○△,理は)
のように決定される。実際は、全ての文書に出現する単語をベクトルの次元とする必要がある。
日本=1, 本の=1, の総=1, 総理=2, 理大=1
大臣=1, 臣は=1, は○=2, ○△=3, 理は=1
が求められる。
ベクトルA=(1,1,1,2,1,1,1,2,3,1)
のように表される。他の文書に対しても、同様の方法で特徴ベクトルを求めることができる。
特徴ベクトル=(部分画像#1の特徴量,部分画像#2の特徴量,…,部分画像#16の特徴量)
のように決定される。
ベクトルB=(2,10,10,2,0,50,50,0,0,5,5,0,0,10,10,0)
のように表される。
このように、文書データや画像データなど、種々のデータから特徴ベクトルを抽出することが可能である。
次に、クラスタリング結果マージ部17による分割クラスタリングで作成されたクラスタリング結果をマージする処理について、図10のフローチャートを参照して説明する。
まずクラスタリング結果マージ部17は、分割クラスタリングで作成された複数のクラスタのうちの1つのクラスタを選択し、当該選択されたクラスタ内の各データの特徴ベクトルを求める(ステップS31,S32)。次にクラスタリング結果マージ部17は、クラスタ内の特徴ベクトルの分布の重心を求めて、当該クラスタの重心とする(ステップSS33)。クラスタリング結果マージ部17は、上記ステップS31〜S33を、分割クラスタリングで作成された全てのクラスタについて実行する(ステップS34)。これにより、全てのクラスタの重心が求められる。クラスタリング結果マージ部17は、全てのクラスタの重心間の距離を、クラスタ間の距離(クラスタ間距離)として算出する(ステップS35)。
Claims (4)
- データベースに格納されているデータの集合の一部分をサンプルデータとして抽出するサンプル抽出手段と、
前記サンプル抽出手段によって抽出されたサンプルデータのクラスタリングを行うサンプルクラスタリング手段と、
前記サンプルクラスタリング手段によるクラスタリング結果を評価する評価手段と、
前記評価手段の評価結果をもとに、前記データベースに格納されているデータの集合を分割してクラスタリングするのに必要な分割データ数を決定する分割データ数決定手段と、
前記分割データ数決定手段によって決定された分割データ数で、前記データベースに格納されているデータの集合を分割するデータ分割手段と、
前記データ分割手段によって分割されたデータの集合毎にクラスタリングを実行するクラスタリング実行手段と
を具備し、
前記サンプル抽出手段は、前記データベースに格納されているデータの集合から、データ数が異なる複数の部分集合を、前記データの集合の前記一部分をなす前記サンプルデータとして抽出し、
前記サンプルクラスタリング手段は、前記サンプル抽出手段によって抽出された前記複数の部分集合各々のクラスタリングを行い、
前記評価手段は、前記サンプルクラスタリング手段による前記複数の部分集合各々のクラスタリング毎に、当該クラスタリングで分類不能となったデータの数を表す分類不能データ数を取得し、
前記分割データ数決定手段は、前記複数の部分集合各々のクラスタリング毎の分類不能データ数をもとに、当該複数の部分集合各々のデータ数のうちの1つを前記分割データ数として決定する
ことを特徴とする分割クラスタリング装置。 - データベースに格納されているデータの集合の一部分をサンプルデータとして抽出するサンプル抽出手段と、
前記サンプル抽出手段によって抽出されたサンプルデータのクラスタリングを行うサンプルクラスタリング手段と、
前記サンプルクラスタリング手段によるクラスタリング結果を評価する評価手段と、
前記評価手段の評価結果をもとに、前記データベースに格納されているデータの集合を分割してクラスタリングするのに必要な分割データ数を決定する分割データ数決定手段と、
前記分割データ数決定手段によって決定された分割データ数で、前記データベースに格納されているデータの集合を分割するデータ分割手段と、
前記データ分割手段によって分割されたデータの集合毎にクラスタリングを実行するクラスタリング実行手段と
を具備し、
前記サンプル抽出手段は、前記データベースに格納されているデータの集合から、データ数が異なる複数の部分集合を、前記データの集合の前記一部分をなす前記サンプルデータとして抽出し、
前記サンプルクラスタリング手段は、前記サンプル抽出手段によって抽出された前記複数の部分集合各々のクラスタリングを行い、
前記評価手段は、前記サンプルクラスタリング手段によるクラスタリングによって前記複数の部分集合毎に作成されるクラスタ毎に当該クラスタのまとまりの程度を表す有効度を算出し、
前記分割データ数決定手段は、前記評価手段によって算出された前記複数の部分集合毎で且つ前記クラスタ毎の有効度の平均値をもとに、当該複数の部分集合各々のデータ数のうちの1つを前記分割データ数として決定する
ことを特徴とする分割クラスタリング装置。 - サンプル抽出手段と、サンプルクラスタリング手段と、評価手段と、分割データ数決定手段とを備え、データベースに格納されているデータの集合を分割してクラスタリングする分割クラスタリング装置において、前記データの集合を分割してクラスタリングするのに必要な分割データ数を決定する分割データ数決定方法であって、
前記データの集合を分割してクラスタリングする前に、前記サンプル抽出手段が、前記データの集合から、データ数が異なる複数の部分集合を、前記データの集合の一部分をなすサンプルデータとして抽出するステップと、
前記サンプルクラスタリング手段が、前記抽出された前記複数の部分集合各々のクラスタリングを行うステップと、
前記評価手段が、前記抽出された前記複数の部分集合各々のクラスタリング結果を評価して、前記複数の部分集合各々のクラスタリング毎に、当該クラスタリングで分類不能となったデータの数を表す分類不能データ数を取得するステップと、
前記分割データ数決定手段が、前記抽出された前記複数の部分集合各々のクラスタリング毎の前記取得された分類不能データ数をもとに、当該複数の部分集合各々のデータ数のうちの1つを、前記データの集合を分割してクラスタリングするのに必要な分割データ数として決定するステップと
を具備することを特徴とする分割データ数決定方法。 - サンプル抽出手段と、サンプルクラスタリング手段と、評価手段と、分割データ数決定手段とを備え、データベースに格納されているデータの集合を分割してクラスタリングする分割クラスタリング装置において、前記データの集合を分割してクラスタリングするのに必要な分割データ数を決定する分割データ数決定方法であって、
前記データの集合を分割してクラスタリングする前に、前記サンプル抽出手段が、前記データの集合から、データ数が異なる複数の部分集合を、前記データの集合の一部分をなすサンプルデータとして抽出するステップと、
前記サンプルクラスタリング手段が、前記抽出された前記複数の部分集合各々のクラスタリングを行うステップと、
前記評価手段が、前記抽出された前記複数の部分集合各々のクラスタリング結果を評価して、前記複数の部分集合毎に作成されるクラスタ毎に、当該クラスタのまとまりの程度を表す有効度を算出するステップと、
前記分割データ数決定手段が、前記複数の部分集合毎で且つ前記クラスタ毎の前記算出された有効度の平均値をもとに、当該複数の部分集合各々のデータ数のうちの1つを、前記データベースに格納されているデータの集合を分割してクラスタリングするのに必要な分割データ数として決定するステップと
を具備することを特徴とする分割データ数決定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004084711A JP4041081B2 (ja) | 2004-03-23 | 2004-03-23 | 分割クラスタリング装置及び分割データ数決定方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004084711A JP4041081B2 (ja) | 2004-03-23 | 2004-03-23 | 分割クラスタリング装置及び分割データ数決定方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005275556A JP2005275556A (ja) | 2005-10-06 |
JP4041081B2 true JP4041081B2 (ja) | 2008-01-30 |
Family
ID=35175199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004084711A Expired - Fee Related JP4041081B2 (ja) | 2004-03-23 | 2004-03-23 | 分割クラスタリング装置及び分割データ数決定方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4041081B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108241745A (zh) * | 2018-01-08 | 2018-07-03 | 阿里巴巴集团控股有限公司 | 样本集的处理方法及装置、样本的查询方法及装置 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4531733B2 (ja) | 2006-09-14 | 2010-08-25 | シャープ株式会社 | 薄型画像表示装置の装飾品固定構造 |
EP2063370A1 (en) * | 2006-09-14 | 2009-05-27 | Olympus Corporation | Sample data reliability evaluation method and sample data reliability evaluation device |
JP5391637B2 (ja) * | 2008-10-10 | 2014-01-15 | 日本電気株式会社 | データ類似度計算システム、データ類似度計算方法およびデータ類似度計算プログラム |
JP5209438B2 (ja) * | 2008-10-29 | 2013-06-12 | 株式会社東芝 | 文書処理装置 |
JP5410741B2 (ja) * | 2008-12-03 | 2014-02-05 | パナソニックヘルスケア株式会社 | データ処理システム及びデータ処理プログラム |
WO2010125781A1 (ja) * | 2009-04-27 | 2010-11-04 | パナソニック株式会社 | データ処理装置、データ処理方法、プログラム、及び集積回路 |
JP7068106B2 (ja) * | 2018-08-28 | 2022-05-16 | 株式会社日立製作所 | 試験計画策定支援装置、試験計画策定支援方法及びプログラム |
CN109471717B (zh) * | 2018-10-11 | 2024-06-18 | 平安科技(深圳)有限公司 | 样本库拆分方法、装置、计算机设备及存储介质 |
JP7392411B2 (ja) * | 2018-11-16 | 2023-12-06 | ソニーグループ株式会社 | 情報処理装置、情報処理方法及びプログラム |
-
2004
- 2004-03-23 JP JP2004084711A patent/JP4041081B2/ja not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108241745A (zh) * | 2018-01-08 | 2018-07-03 | 阿里巴巴集团控股有限公司 | 样本集的处理方法及装置、样本的查询方法及装置 |
CN108241745B (zh) * | 2018-01-08 | 2020-04-28 | 阿里巴巴集团控股有限公司 | 样本集的处理方法及装置、样本的查询方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2005275556A (ja) | 2005-10-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4011906B2 (ja) | プロファイル情報の情報検索方法、プログラム、記録媒体及び装置 | |
JP4545641B2 (ja) | 類似画像検索方法,類似画像検索システム,類似画像検索プログラム及び記録媒体 | |
JP5521881B2 (ja) | 画像識別情報付与プログラム及び画像識別情報付与装置 | |
JP2002014816A (ja) | 判別式で決定木を生成し、それをデータ分類に使用するための方法および装置 | |
JP2009093655A (ja) | 単語親和度による単語クラスタの識別 | |
JP2003167914A (ja) | マルチメディア情報検索方法、プログラム、記録媒体及びシステム | |
US20150039538A1 (en) | Method for processing a large-scale data set, and associated apparatus | |
WO2002015122A2 (en) | A system and method for a greedy pairwise clustering | |
JP2002109536A (ja) | データクラスタリング方法とアプリケーション | |
JPWO2019102533A1 (ja) | 文献分類装置 | |
JP4041081B2 (ja) | 分割クラスタリング装置及び分割データ数決定方法 | |
JP4374902B2 (ja) | 類似画像検索装置、類似画像検索方法、および類似画像検索プログラム | |
KR20070009338A (ko) | 이미지 상호간의 유사도를 고려한 이미지 검색 방법 및장치 | |
JP2019067191A (ja) | 情報処理装置、情報処理方法およびプログラム | |
JP5014479B2 (ja) | 画像検索装置、画像検索方法及びプログラム | |
CN111797267A (zh) | 一种医学图像检索方法及系统、电子设备、存储介质 | |
JP2023015340A (ja) | ノード情報推定方法、ノード情報推定プログラムおよび情報処理装置 | |
KR101710010B1 (ko) | 문서의 상대적 특징을 반영한 문서 요약 방법 및 시스템 | |
JP3773888B2 (ja) | データ検索システム、データ検索方法、コンピュータに対してデータ検索を実行させるためのプログラム、該プログラムを記憶したコンピュータ可読な記憶媒体、検索されたドキュメントを表示するためのグラフィカル・ユーザ・インタフェイス・システム、グラフィカル・ユーザ・インタフェイスを実現するためのコンピュータ実行可能なプログラムおよび該プログラムを記憶した記憶媒体 | |
JP2004086262A (ja) | 視覚的情報分類方法、視覚的情報分類装置、視覚的情報分類プログラムおよびそのプログラムを記録した記録媒体 | |
US20130262470A1 (en) | Data structure, index creation device, data search device, index creation method, data search method, and computer-readable recording medium | |
JP2006251975A (ja) | テキスト分類方法ならびにその方法によるプログラム、およびテキスト分類装置 | |
JP2004046612A (ja) | データマッチング方法、データマッチング装置、データマッチングプログラムおよびコンピュータで読み取り可能な記録媒体 | |
JP2005122509A (ja) | 階層構造データ分析方法、分析装置および分析プログラム | |
JP4324123B2 (ja) | モデルデータ表示プログラム、モデルデータ表示装置およびモデルデータ表示方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070731 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071001 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20071106 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071108 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101116 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101116 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111116 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111116 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121116 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131116 Year of fee payment: 6 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |