JP5410741B2 - Data processing system and data processing program - Google Patents
Data processing system and data processing program Download PDFInfo
- Publication number
- JP5410741B2 JP5410741B2 JP2008308840A JP2008308840A JP5410741B2 JP 5410741 B2 JP5410741 B2 JP 5410741B2 JP 2008308840 A JP2008308840 A JP 2008308840A JP 2008308840 A JP2008308840 A JP 2008308840A JP 5410741 B2 JP5410741 B2 JP 5410741B2
- Authority
- JP
- Japan
- Prior art keywords
- partial
- cluster
- data
- maximum point
- partial cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、データ集合のクラスタリングに関し、詳細には大規模データ集合をクラスタリングするデータ処理システム及びデータ処理プログラムに関する。 The present invention relates to clustering of data sets, and more particularly to a data processing system and data processing program for clustering large-scale data sets.
与えられたデータ集合を、クラスタの種類や数などの外的基準なしに分類する技術はクラスタリングまたはクラスタ分析と呼ばれ、代表的アルゴリズムとしてk−平均法(c-平均法とも呼ばれる)や併合型階層的クラスタリング(非特許文献1)がよく知られている。 The technique for classifying a given data set without external criteria such as the type and number of clusters is called clustering or cluster analysis. As a representative algorithm, k-means (also called c-means) or merged type is used. Hierarchical clustering (Non-Patent Document 1) is well known.
一方、非特許文献1の正規混合分布モデル(Gaussian Mixture Model)はデータ集合から確率密度関数を推定する一手法であるが、確率密度関数から各データのクラスタ所属確率を計算することができるため、クラスタリング手法の一つとみなせる。確率密度推定に基づくクラスタリング手法としては、他に平均移動法(Mean Shift:非特許文献2)や、これを改良した拡張平均移動法(Extended Mean Shift:非特許文献3)も知られている。 On the other hand, the normal mixture distribution model (Gaussian Mixture Model) of Non-Patent Document 1 is a method for estimating the probability density function from the data set. However, since the cluster membership probability of each data can be calculated from the probability density function, It can be regarded as one of the clustering methods. As a clustering technique based on probability density estimation, an average moving method (Mean Shift: Non-Patent Document 2) and an extended average moving method (Extended Mean Shift: Non-Patent Document 3) improved from the mean moving method are also known.
これら従来のクラスタリング手法では、実行にあたってまずデータ集合全体をメモリ上に読み込む必要がある。個々のデータが所定次元数(=D)のベクトルとして表現されている場合、N個のデータからなるデータ集合を保持するメモリ容量はD×Nに比例するため、対象とするデータ集合が大規模になると全データをメモリ上に保持することが不可能となる。例えば500次元・100万個のデータ集合を32ビット倍精度で保持するのに必要なメモリ容量は4GBであり、一般的なパーソナルコンピュータでは扱うことができない。対象がここまで大規模でなくても、上述した既存クラスタリング手法の多くは計算時間がN2に比例して増加するため、大規模データに対しては実用的な時間で処理が終えられない状況に陥る。 In these conventional clustering methods, it is necessary to read the entire data set into the memory before execution. When each piece of data is expressed as a vector having a predetermined number of dimensions (= D), the memory capacity for holding a data set composed of N pieces of data is proportional to D × N. Then, it becomes impossible to hold all data on the memory. For example, the memory capacity required to hold a 500-dimensional / one-million data set with 32-bit double precision is 4 GB, which cannot be handled by a general personal computer. Even if the target is not so large, many of the existing clustering methods mentioned above increase the computation time in proportion to N 2 , so the processing cannot be completed in a practical time for large-scale data Fall into.
このような大規模データを扱うための技術として、データスカッシングと呼ばれる技術が開発されている。データスカッシングでは、メモリに収まらないような大規模なデータ集合を1個ずつ順次読み出しながら、1パスで元のデータ集合より大幅に小規模なデータ集合に変換する。そして、変換後のデータに対して既存の各種アルゴリズムを適用する。すなわち、データスカッシングは大規模データに対する一種の前処理技術である。 As a technique for handling such large-scale data, a technique called data squashing has been developed. In data squashing, large data sets that do not fit in the memory are sequentially read one by one and converted into a data set significantly smaller than the original data set in one pass. Then, various existing algorithms are applied to the converted data. That is, data squashing is a kind of preprocessing technique for large-scale data.
データスカッシングの代表的な手法の一つとしてBIRCH(Balanced Iterrative Reducing and Clusterring using Hierarchies:非特許文献4)が知られている。BIRCHでは、元のデータ集合であるX={x1,x2,...,xN}を部分クラスタ(すなわちクラスタの一部)の集合V={v1,v2,...,vM}に変換する。N>>Mであるため、Vに対して既存クラスタリング手法を適用することが可能である。特許文献1では、データスカッシングと既存クラスタリング手法を組み合わせた方式が記載されている。この方式は、BIRCHによる大分類処理(特許文献1ではオンライン・マイクロクラスタリングと称している)とk−平均法による詳細分類処理(特許文献1ではオフライン・マクロクラスタリングと称している)から構成されている。なお、非特許文献5は、本発明の出願時の技術水準を示す。
前述のように、既存のクラスタリング手法は単独では大規模データへの適用が困難であるという問題があった。前処理(大分類処理)としてデータスカッシングを用いることによって既存のクラスタリング手法を適用することが可能となるが、特許文献1に記載されているような従来の方式では、クラスタの形状なサイズが不均一な場合に、高精度な分類結果を得ることができないという課題があった。 As described above, there is a problem that existing clustering methods are difficult to apply to large-scale data alone. Although it is possible to apply an existing clustering method by using data squashing as preprocessing (major classification processing), in the conventional method as described in Patent Document 1, the size of the cluster shape is small. In the case of non-uniformity, there is a problem that a highly accurate classification result cannot be obtained.
これは大分類処理によって得られた個々の部分クラスタの局所的な密度や分布の形状に関する情報を詳細分類処理で利用していないことに起因する。例えば、BIRCHによって生成される個々の部分クラスタはCFベクトル(Cluster Feature ベクトル)と呼ばれ、各部分クラスタに属するデータ数、属するデータの和ベクトルおよび2乗和からなり、各部分クラスタの局所的な分布に関する情報を含んでいる。しかしながら、k−平均法により詳細分類処理を行う場合、k−平均法が対象とする個々のデータはD次元空間内の1点として表されるD次元ベクトルである必要があるため、各部分クラスタの重心位置(すなわち、CFベクトル中の和ベクトルを当該部分クラスタに属するデータ数で除したベクトル)を対象として詳細分類処理を行っていた。 This is because information regarding the local density and distribution shape of each partial cluster obtained by the large classification process is not used in the detailed classification process. For example, each partial cluster generated by BIRCH is called a CF vector (Cluster Feature vector), which is composed of the number of data belonging to each partial cluster, the sum vector of the data belonging to it, and the sum of squares. Contains information about the distribution. However, when the detailed classification process is performed by the k-average method, each piece of data targeted by the k-average method needs to be a D-dimensional vector represented as one point in the D-dimensional space. The detailed classification process is performed on the center of gravity position (that is, a vector obtained by dividing the sum vector in the CF vector by the number of data belonging to the partial cluster).
これは、各部分クラスタの位置のみを用いて詳細分類処理を行っていることに相当し、各部分クラスタの分布形状や属するデータ数に関する情報が全く考慮されていない。
詳細分類処理として他の既存クラスタリング手法を用いる場合においても、基本的に各クラスタリング手法はD次元ベクトル(すなわち、D次元空間内の点)を処理対象とするため、単純に既存手法をそのまま詳細分類処理に用いた場合、同様に部分クラスタの局所的な密度や分布の形状は考慮されない。
This is equivalent to performing the detailed classification process using only the position of each partial cluster, and information on the distribution shape of each partial cluster and the number of data belonging to it is not taken into consideration at all.
Even when other existing clustering methods are used as the detailed classification process, each clustering method is basically a D-dimensional vector (that is, a point in the D-dimensional space), so the existing method is simply classified as it is. Similarly, when used for processing, the local density and distribution shape of partial clusters are not considered.
本発明の目的は、上述の課題を解消するために、大分類処理と詳細分類処理の2段階処理により大規模データ集合をクラスタリングする場合、大分類処理の結果得られる各部分クラスタの局所的な密度に関する属性を詳細分類処理において適切に扱い、これによって高精度なクラスタリング結果を得ることができるデータ処理システム及びデータ処理プログラムを提供することにある。 An object of the present invention is to solve the above-mentioned problem, when clustering a large-scale data set by a two-stage process of a large classification process and a detailed classification process, the local cluster of each partial cluster obtained as a result of the large classification process An object of the present invention is to provide a data processing system and a data processing program that can appropriately handle attributes related to density in the detailed classification process and thereby obtain a highly accurate clustering result.
上記問題点を解決するために、本発明は、所定次元数のベクトルデータの集合として与えられる入力データ集合をクラスタリングするデータ処理システムであって、入力データ集合を部分クラスタの集合に変換する大分類手段と、前記大分類手段が変換した前記部分クラスタの集合をクラスタリングする詳細分類手段とを備え、前記詳細分類手段は前記大分類手段が変換した前記部分クラスタの局所的な密度に関する属性を考慮して詳細分類を行うことを特徴とするデータ処理システムである。 In order to solve the above problems, the present invention is a data processing system for clustering an input data set given as a set of vector data of a predetermined number of dimensions, and a large classification for converting an input data set into a set of partial clusters And detailed classification means for clustering the set of partial clusters converted by the large classification means, wherein the detailed classification means considers an attribute relating to the local density of the partial clusters converted by the large classification means. to perform a detailed classification Te is a data processing system according to claim.
このようにデータ処理システムが構成されていると、計算時間やメモリ容量などのための制約のため単一の手法では処理不可能な大規模データ集合をクラスタリングする場合において、高精度なクラスタリング結果を得ることが可能なデータ処理システムを提供できる。特に、クラスタの形状やサイズが不均一な大規模データをクラスタリングの対象とする場合、従来よりも分類精度を向上することができる。 When a data processing system is configured in this way, high-precision clustering results can be obtained when clustering large data sets that cannot be processed by a single method due to restrictions on calculation time and memory capacity. An obtainable data processing system can be provided. In particular, when large-scale data with a nonuniform cluster shape or size is targeted for clustering, the classification accuracy can be improved as compared with the prior art.
また、前記データ処理システムでは前記詳細分類手段は、各部分クラスタの重心位置座標を該各部分クラスタの代表点とし、この代表点を起点として確率密度関数の極大点を探索する極大点探索手段と、前記極大点探索手段による極大点探索が収束したかどうかを極大点探索を行った前回値と今回値の各部分クラスタに対する局所平均ベクトル間の距離情報に基づいて判定する収束判定手段と、同一または近傍の極大点に収束した部分クラスタ群を同じクラスタに属するものとして分類する部分クラスタ分類手段とを備え、前記極大点探索手段は、前記各部分クラスタに属するサンプル数を当該各部分クラスタの重みとして極大点探索を行うものである。 Also, the detailed classification means in said data processing system, the center of gravity position coordinates of each portion cluster as a representative point of the respective partial cluster, the local maximum point searching means for searching a maximum point of the probability density function of the representative point as the starting point And a convergence determination unit that determines whether or not the local maximum point search by the local maximum point search unit has converged based on distance information between local average vectors for each partial cluster of the previous value and current value in which the local maximum point search has been performed, Partial cluster classification means for classifying partial cluster groups converged to the same or nearby local maximum points as belonging to the same cluster, and the local maximum point searching means determines the number of samples belonging to each partial cluster for each partial cluster. A maximum point search is performed as a weight .
このように詳細分類手段が構成されていると、クラスタの分布形状が不規則な形状をしている場合であっても、対応でき、分類精度を向上させることができる。
また、前記極大点探索手段において、局所近傍範囲を定めるパラメータを前記各部分クラスタごとに可変とし、前記各部分クラスタのうち、局所的な密度が大きい部分クラスタに対しては前記パラメータを小さく、局所的な密度が小さい部分クラスタに対しては前記パラメータを大きくするように制御するようにしてもよい。
If the detailed classification means is configured as described above, even if the cluster distribution shape is irregular, it is possible to cope with it and improve the classification accuracy.
Further, in the local maximum point search means, a parameter for defining a local neighborhood range is variable for each partial cluster, and among the partial clusters, the partial parameter having a high local density is set to a small parameter, Control may be performed so that the parameter is increased for partial clusters having a low general density.
また、前記極大点探索手段は、入力データの各次元に対し個別に局所的な密度を算出し、この密度に応じて各次元に対し個別に前記パラメータを制御するようにしてもよい。
また、本発明のデータ処理プログラムは、所定次元数のベクトルデータの集合として与えられる入力データ集合をクラスタリングするデータ処理システムのプログラムであって、コンピュータを、入力データ集合を部分クラスタの集合に変換する大分類手段として機能させ、さらに、前記大分類手段が変換した前記部分クラスタの集合をクラスタリングする詳細分類手段として機能させ、かつ、前記詳細分類手段として機能させる際に、前記大分類手段が変換した前記部分クラスタの局所的な密度に関する属性を考慮して詳細分類を行わせることを要旨とする。本発明のプログラムによれば、計算時間やメモリ容量などのための制約のため単一の手法では処理不可能な大規模データ集合をクラスタリングする場合において、高精度なクラスタリング結果を得ることが可能なデータ処理システムのデータ処理プログラムを提供することができる。特に、クラスタの形状やサイズが不均一な大規模データをクラスタリングの対象とする場合、従来よりも分類精度を向上することができるデータ処理プログラムを提供できる。
Further, the local maximum point search means may calculate a local density individually for each dimension of the input data, and control the parameter individually for each dimension according to the density.
The data processing program of the present invention is a data processing system program for clustering an input data set given as a set of vector data of a predetermined dimension number, and converts the input data set into a set of partial clusters. Functioning as a large classification means, and further functioning as a detailed classification means for clustering the set of partial clusters converted by the large classification means, and when the large classification means functions as the detailed classification means, the large classification means converted The gist is that detailed classification is performed in consideration of an attribute related to the local density of the partial cluster. According to the program of the present invention, it is possible to obtain a highly accurate clustering result when clustering a large-scale data set that cannot be processed by a single method due to restrictions on calculation time, memory capacity, and the like. A data processing program for a data processing system can be provided. In particular, when large-scale data with a nonuniform cluster shape or size is targeted for clustering, it is possible to provide a data processing program capable of improving the classification accuracy as compared with the prior art.
本発明によれば、計算時間やメモリ容量などのための制約のため単一の手法では処理不可能な大規模データ集合をクラスタリングする場合において、高精度なクラスタリング結果を得ることが可能なデータ処理システムを提供できる。特に、クラスタの形状やサイズが不均一な大規模データをクラスタリングの対象とする場合、従来よりも分類精度を向上することができる。 According to the present invention, in the case of clustering a large-scale data set that cannot be processed by a single method due to restrictions on calculation time, memory capacity, etc., data processing that can obtain a highly accurate clustering result Can provide a system. In particular, when large-scale data with a nonuniform cluster shape or size is targeted for clustering, the classification accuracy can be improved as compared with the prior art.
(第1実施形態)
以下、本発明を具体化した第1実施形態を図1〜7を参照して説明する。図1はデータ処理システム10を構成するブロック図を示し、データ処理システム10の内部構成は機能ブロックを示している。
(First embodiment)
Hereinafter, a first embodiment of the present invention will be described with reference to FIGS. FIG. 1 shows a block diagram of the data processing system 10, and the internal configuration of the data processing system 10 shows functional blocks.
図1に示すように、データ処理システム10は、キーボード等の入力装置11と、各種プログラムにより動作するデータ処理装置12を備えている。データ処理装置12には、各種データを記憶する記憶手段としての記憶装置13と、出力装置14とが接続されている。出力装置14は、例えばディスプレイやプリンタが含まれている。なお、記憶装置13は、コンピュータの内部装置としてもよく、或いは外部記憶装置として構成されていてもよい。 As shown in FIG. 1, the data processing system 10 includes an input device 11 such as a keyboard and a data processing device 12 that operates according to various programs. A storage device 13 as storage means for storing various data and an output device 14 are connected to the data processing device 12. The output device 14 includes a display and a printer, for example. Note that the storage device 13 may be an internal device of a computer or may be configured as an external storage device.
データ処理装置12は、ROM12a及びRAM12bを備えたコンピュータ16からなり、ROM12aに格納されたデータ処理プログラムにより後述する各種処理を行う。
データ処理装置12は、最近隣部分クラスタ探索部22、追加可否判定部24、及び部分クラスタ集合更新部26を機能として備える大分類処理部20と、極大点探索部32、収束判定部34及び部分クラスタ分類部36を機能として備える詳細分類処理部30を構成する。又、データ処理装置12は、大分類手段、詳細分類手段に相当する。
The data processing device 12 includes a computer 16 having a ROM 12a and a RAM 12b, and performs various processes described later by a data processing program stored in the ROM 12a.
The data processing apparatus 12 includes a major classification processing unit 20 including a nearest neighbor partial cluster search unit 22, an addability determination unit 24, and a partial cluster set update unit 26 as functions, a maximum point search unit 32, a convergence determination unit 34, and a partial A detailed classification processing unit 30 including the cluster classification unit 36 as a function is configured. The data processing device 12 corresponds to a large classification unit and a detailed classification unit.
(作用)
さて、上記のように構成されたデータ処理システム10の作用を説明する。
図2は、データ処理装置12が行う大分類処理のフローチャートである。
(Function)
Now, the operation of the data processing system 10 configured as described above will be described.
FIG. 2 is a flowchart of the large classification process performed by the data processing device 12.
なお、データ処理装置12には、入力装置11等の入力手段により、処理対象のデータ集合が入力されていて、予め記憶装置13に格納されており、前記データ処理プログラムにて後述する処理が行われるものとする。前記データ集合は、所定次元数のベクトルデータの集合として与えられる入力データ集合に相当する。 The data processing device 12 is input with a data set to be processed by an input means such as the input device 11 and is stored in the storage device 13 in advance. Shall be. The data set corresponds to an input data set given as a set of vector data having a predetermined number of dimensions.
図2は、データ処理装置12による処理の概要のフローチャートであり、S10では、大分類処理部20はN個のデータからなる処理対象のデータ集合X={x1, x2, …, xN}を部分クラスタの集合V={v1, v2, …, vM}に変換することにより、M個の部分クラスタに分類する。続いて、S20では、詳細分類処理部30は部分クラスタの集合VをC個のクラスタに分類する。ここで一般にN>>Mであり、M>>Cである。ただし通常、真のクラスタ数Cは未知である。また部分クラスタ数Mは大分類処理部の動作を制御することにより適切に決める必要があるが、この点については後述する。 Figure 2 is a flowchart of outline of processing by the data processing unit 12, in S10, the large classification processing unit 20 is a data set to be processed consisting of N data X = {x 1, x 2 , ..., x N } Is converted into a set of partial clusters V = {v 1 , v 2 ,..., V M } to be classified into M partial clusters. Subsequently, in S20, the detailed classification processing unit 30 classifies the set V of partial clusters into C clusters. Here, generally, N >> M and M >> C. However, the true cluster number C is usually unknown. The number of partial clusters M needs to be appropriately determined by controlling the operation of the large classification processing unit, which will be described later.
図3は、大分類処理部20の処理の一例のフローチャートである。
大分類処理部20では、データ集合Xから処理対象のデータxi(1≦i≦N)を1個読み込むたびに図3に示す手順を繰り返すことにより、大分類処理を行う。
FIG. 3 is a flowchart of an example of processing of the large classification processing unit 20.
The major classification processing unit 20 performs major classification processing by repeating the procedure shown in FIG. 3 every time one piece of data x i (1 ≦ i ≦ N) to be processed is read from the data set X.
同図に示すように、S11で、大分類処理部20は、処理対象のデータxiを読み込むと、S12において、記憶装置13が記憶している現在の部分クラスタ集合Vの中でxiに最も近い部分クラスタvkを探索する。 As shown in the figure, in S11, when the large classification processing unit 20 reads the data x i to be processed, in S12, the large classification processing unit 20 sets x i in the current partial cluster set V stored in the storage device 13. Search for the nearest partial cluster v k .
そして、S13において、大分類処理部20は、vkにxiを追加した場合の直径T(vk∪xi)を計算し、S14において、この値をあらかじめ定めたしきい値T0と比較する。大分類処理部20は、T(vk∪xi)がT0より小さいと判定(「YES」と判定)すると、S15において、xiを部分クラスタvkに追加する。大分類処理部20は、T(vk∪xi)がT0以上であると判定(「NO」と判定)すると、S16において、xiのみからなる新規の部分クラスタを作成する。以上の処理を大分類処理部20は、X内の全データに対して行うことにより、最終的に得られた部分クラスタ集合が大分類処理結果として得られる。 Then, in S13, the rough classification processing unit 20 calculates the v k to the diameter of adding the x i T (v k ∪x i ), in S14, a threshold value T 0 that defines the value previously Compare. When determining that T (v k ∪x i ) is smaller than T 0 (determined as “YES”), the large classification processing unit 20 adds x i to the partial cluster v k in S15. When determining that T (v k ∪x i ) is equal to or greater than T 0 (determined as “NO”), the large classification processing unit 20 creates a new partial cluster including only x i in S16. The large classification processing unit 20 performs the above processing on all the data in X, so that the finally obtained partial cluster set is obtained as the large classification processing result.
ここで、S12は、最近隣部分クラスタ探索部22の処理であり、最近隣部分クラスタ探索部22は最近隣部分クラスタ探索手段に相当する。S14は、追加可否判定部24の処理であり、追加可否判定部24は追加可否判定手段に相当する。S15及びS16は、部分クラスタ集合更新部26の処理であり、部分クラスタ集合更新部26は部分クラスタ集合更新手段に相当する。記憶装置13は、部分クラスタの集合を記憶する記憶手段に相当する。 Here, S12 is a process of the nearest neighbor partial cluster search unit 22, and the nearest neighbor partial cluster search unit 22 corresponds to the nearest neighbor partial cluster search means. S14 is a process of the addability determination unit 24, and the addability determination unit 24 corresponds to an addability determination unit. S15 and S16 are processes of the partial cluster set update unit 26, and the partial cluster set update unit 26 corresponds to a partial cluster set update unit. The storage device 13 corresponds to storage means for storing a set of partial clusters.
なお、部分クラスタvは下記のようにn, LS, SSの3要素によって記述される。
v = (n, LS, SS)
n : vを構成するデータ数
LS : vを構成するn個のデータの和ベクトル(linear sum)
SS : vを構成するn個のデータの2乗和(square sum)
部分クラスタvの直径T(v)はvを構成する全データ間のユークリッド距離の平均値であり、(n, LS, SS)から次式(1)により得られる。
The partial cluster v is described by three elements of n, LS, and SS as follows.
v = (n, LS, SS)
n: Number of data composing v
LS: sum vector (linear sum) of n data composing v
SS: square sum of n data composing v
The diameter T (v) of the partial cluster v is an average value of the Euclidean distance between all data constituting v, and is obtained from (n, LS, SS) by the following equation (1).
n個の個体{xi} (1≦i≦n)からなる部分クラスタvのCFベクトルの要素LS (linear sum)およびSS (square sum)は以下のように表わされる(d: 次元数)。 The elements LS (linear sum) and SS (square sum) of the CF vector of the partial cluster v composed of n individuals {x i } (1 ≦ i ≦ n) are expressed as follows (d: number of dimensions).
したがって、
Therefore,
話を元に戻して、前記部分クラスタvとデータxとの距離d(v, x)はvを構成する全データとxとのユークリッド距離の平均値であり、次式(4)により得られる。読み込んだデータに最も近い部分クラスタはこの距離尺度に基づいて決定する。 Returning to the original, the distance d (v, x) between the partial cluster v and the data x is an average value of the Euclidean distance between all the data constituting v and x, and is obtained by the following equation (4). . The partial cluster closest to the read data is determined based on this distance measure.
ある単一データxと部分クラスタv間の距離d(v, x)は、xを1個のデータのみからなる部分クラスタと見なすことにより上式(6)から導かれる次式(7)から計算できる。 The distance d (v, x) between a single data x and a partial cluster v is calculated from the following equation (7) derived from the above equation (6) by regarding x as a partial cluster consisting of only one piece of data. it can.
図5(a)〜(c)はそれぞれ、図4(a)〜(c)に示したデータ集合に対する大分類処理結果の例である。ひとつひとつの円が部分クラスタを表し、円の大きさと色の濃さがそれぞれ、部分クラスタの直径T(v)と部分クラスタに属するデータ数を示している。部分クラスタの数Mはしきい値T0によって変化するが、ここでは(a)〜(c)においてMがほぼ300となるようT0の値を制御した。 FIGS. 5A to 5C are examples of large classification processing results for the data sets shown in FIGS. 4A to 4C, respectively. Each circle represents a partial cluster, and the size and color density of the circle indicate the diameter T (v) of the partial cluster and the number of data belonging to the partial cluster, respectively. Although the number M of partial clusters varies depending on the threshold value T 0 , the value of T 0 is controlled so that M is approximately 300 in (a) to (c).
次に、図1に示す詳細分類処理部30について以下に説明する。
本実施形態における詳細分類処理部30は、非特許文献2,3に示されている平均移動法(Mean Shift)を基本としている。公知の平均移動法では、各データ点に対して定義される局所平均ベクトルを逐次移動することにより、密度分布の極大点を並列探索し、同じ極大点に収束したデータが同じクラスタに属すると判定する。平均移動法における極大点探索の概念図を、図10に示す。同図に示すように、同じ極大点に収束した個体群がクラスタを形成する。
Next, the detailed classification processing unit 30 shown in FIG. 1 will be described below.
The detailed classification processing unit 30 in the present embodiment is based on the average shift method (Mean Shift) shown in Non-Patent Documents 2 and 3. In the known average moving method, the local average vector defined for each data point is sequentially moved to search in parallel for the local maximum points of the density distribution and determine that the data converged to the same local maximum point belongs to the same cluster. To do. FIG. 10 shows a conceptual diagram of maximum point search in the average moving method. As shown in the figure, individuals that converge to the same maximum point form a cluster.
図10の場合、各データ点(例えば、xi,xj,xk)を局所平均ベクトルの初期値とし、これを起点として探索している状態が示されている。
前記公知の平均移動法を部分クラスタの集合V={v1, v2, …, vM}に対してそのまま適用する場合、各部分クラスタの重心位置座標g(vk)=LSk/nk(なお、LSk, nkはそれぞれ部分クラスタvkの和ベクトル,データ数)を各部分クラスタの代表点として、これを処理対象データと見なし、次式(8)の手順により各部分クラスタに対する局所平均ベクトルmk(l)を逐次移動する。
In the case of FIG. 10, each data point (for example, x i , x j , x k ) is set as the initial value of the local average vector, and the state of searching using this as the starting point is shown.
When the known average moving method is directly applied to the set of partial clusters V = {v 1 , v 2 ,..., V M }, the center-of-gravity position coordinates g (v k ) = LS k / n of each partial cluster. k (where LS k and n k are the sum vectors of the partial clusters v k and the number of data), respectively, is regarded as the processing target data, and each partial cluster is processed according to the following equation (8). The local average vector m k (l) for is sequentially moved.
なお、後で示すように公知の平均移動法をそのまま適用した場合、望ましい分類結果が得られない場合がある。
そこで本実施形態では、大分類処理によって得られる各部分クラスタの局所的な分布に関する情報を適切に扱うことにより高精度な詳細分類結果を得る。具体的には、各部分クラスタに対する局所平均ベクトルmk(l)を次式(11)の手順により逐次移動する。
As will be described later, when a known average moving method is applied as it is, a desired classification result may not be obtained.
Therefore, in the present embodiment, a highly accurate detailed classification result is obtained by appropriately handling information on the local distribution of each partial cluster obtained by the large classification process. Specifically, the local average vector m k (l) for each partial cluster is sequentially moved by the procedure of the following equation (11).
なお、njは部分クラスタvjに属するサンプル数、hjは局所密度に応じて部分クラスタごとに定めるバンド幅パラメータであり、部分クラスタvjに対応するhj 2がT(vj)2に比例し、かつサンプル数njで重み付けしたhj 2の平均がh2に一致するように次式(12)で定義する。 Note that n j is the number of samples belonging to the partial cluster v j , h j is a bandwidth parameter determined for each partial cluster according to the local density, and h j 2 corresponding to the partial cluster v j is T (v j ) 2 proportional to, and the average of h j 2 weighted by the number of samples n j is defined by the following equation (12) to match the h 2.
部分クラスタvjの半径をT(vj)2, バンド幅パラメータをhjと表す。
hj 2がT(vj)2に比例し、かつnjで重み付けしたhj 2の平均がh2に一致するよう以下のようにhjを定める。すなわち、
The radius of the partial cluster v j represents T (v j) 2, a bandwidth parameter and h j.
h j 2 is determined as follows so that h j 2 is proportional to T (v j ) 2 and the average of h j 2 weighted by n j matches h 2 . That is,
話を元に戻して、式(12)のようにバンド幅パラメータを可変とすることは、ある局所平均ベクトルに着目した場合、式(11)において半径が大きい(すなわち、局所的な密度が小さい)部分クラスタとのカーネル関数の前記パラメータの値をより小さく、また半径が小さい(すなわち、局所的な密度が大きい)部分クラスタとのカーネル関数の前記パラメータの値をより大きくする作用をもたらす。この結果、極大点探索において局所平均ベクトルは密度がより大きい部分クラスタに向かって移動していく。なお、上記のように部分クラスタ毎にバンド幅パラメータの可変する処理は、極大点探索部32が行う。 Returning the story to making the bandwidth parameter variable as shown in equation (12), when focusing on a certain local average vector, the radius is large in equation (11) (that is, the local density is small). ) The value of the parameter of the kernel function with the partial cluster is reduced, and the value of the parameter of the kernel function with the partial cluster having a small radius (that is, local density is large) is increased. As a result, in the local maximum search, the local average vector moves toward a partial cluster having a higher density. Note that the local maximum point search unit 32 performs the process of changing the bandwidth parameter for each partial cluster as described above.
又、式(11)では、カーネル関数の値に各部分クラスタに属するサンプル数njを乗じて加算している。これはサンプル数njを各部分クラスタの重みとして極大点探索を行っていることに相当する。 In equation (11), the value of the kernel function is multiplied by the number of samples n j belonging to each partial cluster and added. This corresponds to performing a local maximum search using the number of samples n j as the weight of each partial cluster.
バンド幅パラメータhの基準値はデータ全体の分布を考慮して適切に決める必要があり、基準値の値によって詳細分類の結果得られるクラスタ数が変化する。非特許文献3では全サンプルの最近隣接点間距離の平均値を基準値の初期値として漸増する方法が示されている。また、平均移動法におけるバンド幅選択はカーネル密度推定法と本質的に同じ問題であり、非特許文献5の p.71〜72に示されているプラグイン・ルールによりhを定めてもよい。 The reference value of the bandwidth parameter h needs to be appropriately determined in consideration of the distribution of the entire data, and the number of clusters obtained as a result of the detailed classification changes depending on the value of the reference value. Non-Patent Document 3 shows a method of gradually increasing the average value of the distances between nearest neighbor points of all samples as an initial value of a reference value. Bandwidth selection in the average shift method is essentially the same problem as the kernel density estimation method, and h may be determined by a plug-in rule shown in pages 71 to 72 of Non-Patent Document 5.
上記のようにして、大分類処理によって得られた図5(a)〜(c)の部分クラスタ集合に対して、本実施形態の詳細分類処理部により詳細分類を行った結果を図6(a)〜(c)に示す。ここでは、hの値を変化させてクラスタ数が真のクラスタ数3に一致したときの結果を示しており、同じクラスタに分類された部分クラスタを同じ明度で図示している。 The result of detailed classification performed by the detailed classification processing unit of the present embodiment on the partial cluster set of FIGS. 5A to 5C obtained by the large classification process as described above is shown in FIG. ) To (c). Here, the result when the value of h is changed and the number of clusters matches the true number of clusters 3 is shown, and the partial clusters classified into the same cluster are illustrated with the same brightness.
又、図7(a)〜(c)は、図5(a)〜(c)の大分類処理結果に対して公知の平均移動法により詳細分類を行った結果を示している。図6では(a)〜(c)すべてで望ましい分類結果が得られているのに対して、図7では(b),(c)のように各クラスタの形状・サンプル数が不均一な場合に正しい分類結果が得られていない。これは、本実施形態では各部分クラスタの局所的な密度を考慮して詳細分類を行うことにより、従来技術よりも高精度な分類結果が得られることを示している。 FIGS. 7A to 7C show the results of performing detailed classification by the known average moving method on the large classification processing results of FIGS. 5A to 5C. In FIG. 6, the desired classification results are obtained in all of (a) to (c), whereas in FIG. 7, the shape and the number of samples of each cluster are not uniform as in (b) and (c). The correct classification result is not obtained. This indicates that, in the present embodiment, by performing detailed classification in consideration of the local density of each partial cluster, a classification result with higher accuracy than in the conventional technique can be obtained.
以上のように構成されたデータ処理システム10は、下記の特徴がある。
(1)本実施形態のデータ処理システムのデータ処理装置12は、大分類手段としてデータ集合(入力データ集合)を部分クラスタの集合に変換し、詳細分類手段として、前記大分類手段が変換した前記部分クラスタの集合をクラスタリングするにあたり、部分クラスタの局所的な密度に関する属性を考慮して詳細分類を行うようにした。
The data processing system 10 configured as described above has the following characteristics.
(1) The data processing device 12 of the data processing system according to the present embodiment converts a data set (input data set) as a large classifying unit into a set of partial clusters, and the detailed classifying unit converts the data set as a detailed classifying unit. When clustering a set of partial clusters, detailed classification is performed considering attributes related to the local density of the partial clusters.
この結果、計算時間やメモリ容量などのための制約のため単一の手法では処理不可能な大規模データ集合をクラスタリングする場合において、高精度なクラスタリング結果を得ることが可能なデータ処理システムを提供できる。特に、クラスタの形状やサイズが不均一な大規模データをクラスタリングの対象とする場合、従来よりも分類精度を向上することができる。 As a result, we provide a data processing system that can obtain highly accurate clustering results when clustering large-scale data sets that cannot be processed by a single method due to constraints on computation time and memory capacity. it can. In particular, when large-scale data with a nonuniform cluster shape or size is targeted for clustering, the classification accuracy can be improved as compared with the prior art.
(2)本実施形態のデータ処理装置12は、大分類手段として、入力データ集合を部分クラスタの集合に変換された後の該部分クラスタ集合を記憶する記憶装置13(記憶手段)と、前記記憶装置13が記憶している部分クラスタの集合の中から、処理対象のデータに対し最も近い部分クラスタである最近隣部分クラスタを探索する最近隣部分クラスタ探索部22(最近隣部分クラスタ探索手段)と、前記処理対象のデータを該最近隣部分クラスタに追加するべきか否かを判定する追加可否判定部24(追加可否判定手段)を備える。又、データ処理装置12は、判定結果に基づいて前記最近隣部分クラスタへの前記処理対象のデータの追加処理及び前記処理対象のデータについて新規の部分クラスタの生成処理のいずれかの処理を行う部分クラスタ集合更新部26(部分クラスタ集合更新手段)を備える。そして、追加可否判定部24は、データ集合(入力データ集合)からデータを1個読み出すたびに最近隣部分クラスタ探索と追加可否判定を行い、部分クラスタ集合更新部26は、前記最近隣部分クラスタへの前記処理対象のデータの追加処理及び前記処理対象のデータについて新規の部分クラスタの生成処理のいずれかの処理を行うようにした。この結果、このように大分類手段が構成されていると、入力データ集合全体をメモリ上に保持する必要がないため、メモリ上で保持できないような大規模データを扱うことが可能となる。 (2) The data processing device 12 of the present embodiment is a storage device 13 (storage unit) that stores the partial cluster set after the input data set is converted into a set of partial clusters as the large classification unit, and the storage A nearest neighbor cluster search unit 22 (nearest neighbor cluster search means) that searches for a nearest neighbor cluster that is the nearest cluster to the processing target data from the set of partial clusters stored in the device 13; , And an addition availability determination unit 24 (addition availability determination means) for determining whether or not the processing target data should be added to the nearest neighbor cluster. Further, the data processing device 12 performs a process of either adding the process target data to the nearest partial cluster or generating a new partial cluster for the process target data based on the determination result. A cluster set update unit 26 (partial cluster set update means) is provided. Then, each time one piece of data is read from the data set (input data set), the addability determination unit 24 performs the nearest neighbor partial cluster search and the addability determination, and the partial cluster set update unit 26 moves to the nearest neighbor cluster. Any one of the process for adding the data to be processed and the process for generating a new partial cluster is performed on the data to be processed. As a result, when the large classification means is configured in this way, it is not necessary to hold the entire input data set on the memory, and thus it is possible to handle large-scale data that cannot be held on the memory.
(3) 又、本実施形態のデータ処理装置12は、詳細分類手段として、各部分クラスタの重心位置座標を該各部分クラスタの代表点とし、この代表点を起点として確率密度関数の極大点を探索する極大点探索部32(極大点探索手段)と、極大点探索部32による極大点探索が収束したかどうかを極大点探索を行った前回値と今回値の各部分クラスタに対する局所平均ベクトル間の距離情報に基づいて判定する収束判定部34(収束判定手段)と、同一または近傍の極大点に収束した部分クラスタ群を同じクラスタに属するものとして分類する部分クラスタ分類部36(部分クラスタ分類手段)とを備える。又、極大点探索部32は、各部分クラスタに属するサンプル数を当該各部分クラスタの重みとして極大点探索を行う。この結果、クラスタの分布形状が不規則な形状をしている場合であっても対応でき、分類精度を向上させることができる。 (3) Further, the data processing apparatus 12 of the present embodiment uses, as the detailed classification means, the center-of-gravity position coordinates of each partial cluster as a representative point of each partial cluster, and uses the representative point as a starting point to determine the maximum point of the probability density function. The local maximum vector for each partial cluster of the previous value and the current value in which the local maximum search is performed as to whether the local maximum search by the local maximum point searching unit 32 (local maximum point searching means) to be searched and whether the local maximum point search by the local maximum point searching unit 32 has converged. And a partial cluster classification unit 36 (partial cluster classification unit) that classifies a partial cluster group that has converged to the same or nearby maximum point as belonging to the same cluster. ). The maximum point search unit 32 performs a maximum point search using the number of samples belonging to each partial cluster as the weight of each partial cluster. As a result, even when the cluster distribution shape is irregular, it can be dealt with, and the classification accuracy can be improved.
(4) 又、本実施形態のデータ処理装置12は、極大点探索部32(極大点探索手段)において、局所近傍範囲を定めるパラメータ(バンド幅パラメータ)を各部分クラスタごとに可変とし、前記各部分クラスタのうち、局所的な密度が大きい部分クラスタに対しては前記パラメータを小さく、局所的な密度が小さい部分クラスタに対しては前記パラメータを大きくするように制御するようにしている。この結果、上記(1)、(2)、(3)の効果を容易に実現できる。 (4) In the data processing apparatus 12 of the present embodiment, in the local maximum point search unit 32 (local maximum point searching means), a parameter (bandwidth parameter) that defines a local neighborhood range is variable for each partial cluster. Among the partial clusters, control is performed such that the parameter is reduced for a partial cluster having a large local density, and the parameter is increased for a partial cluster having a low local density. As a result, the effects (1), (2), and (3) can be easily realized.
(第2実施形態)
次に、第2実施形態を図8を参照して説明する。なお、第1実施形態と同一構成については、同一符号を付して、異なる構成について説明する。
(Second Embodiment)
Next, a second embodiment will be described with reference to FIG. In addition, about the same structure as 1st Embodiment, the same code | symbol is attached | subjected and a different structure is demonstrated.
第2実施形態では、第1実施形態における大分類処理部20の処理を別の方式に置き替えたものである。
具体的には、第2実施形態の方式では各部分クラスタを(n, LS, SS)の3要素で記述するかわりに、各部分クラスタの重心位置座標とサンプル数の2要素で記述する。この方式は、データxと部分クラスタとの距離を求める際に部分クラスタの直径Tに相当する量を用いず重心位置座標のみを用いる簡略版である。直径Tは大分類終了時に一括して算出する。
In the second embodiment, the processing of the large classification processing unit 20 in the first embodiment is replaced with another method.
Specifically, in the method of the second embodiment, instead of describing each partial cluster with three elements (n, LS, SS), the partial cluster is described with two elements of the barycentric position coordinate and the number of samples. This method is a simplified version that uses only the center-of-gravity position coordinates without using the amount corresponding to the diameter T of the partial cluster when obtaining the distance between the data x and the partial cluster. Diameter T is calculated at the end of major classification.
図8は大分類処理部20が処理するフローチャートである。同図に示すようにこの大分類処理部20では、データ集合Xからデータxi(1≦i≦N)を1個読み込むたびに図8に示す手順を繰り返す。S11でデータxiが読み込まれると、と12において、まず現在の部分クラスタ集合Vの中でxiに最も近い部分クラスタvkを探索する。そして、S13Aにおいて、vkとxiとの距離d(vk, xi)を計算する。続くS14Aにおいて、vkとxiとの距離d(vk, xi)をあらかじめ定めたしきい値d0と比較する。 FIG. 8 is a flowchart processed by the large classification processing unit 20. As shown in the figure, the major classification processing unit 20 repeats the procedure shown in FIG. 8 every time one piece of data x i (1 ≦ i ≦ N) is read from the data set X. When the data x i is read in S 11, first, in 12, the partial cluster v k closest to x i in the current partial cluster set V is searched. Then, in S13A, v k and the distance d (v k, x i) of x i is calculated. In subsequent S14A, v k and x i as the distance d (v k, x i) of the comparison with the threshold value d 0 which predetermined a.
S14Aにおいて、d(vk, xi)がd0より小さい場合には、S15Aに移行して、xiを部分クラスタvkに追加し、vkの重心g(vk)を更新する。又、S14Aにおいて、d(vk, xi)がd0以上の場合には、S16において、xiのみからなる新しい部分クラスタを作成する。以上の処理をX内の全データに対して行うことにより、最終的に得られた部分クラスタ集合が大分類処理結果として得られる。 In S14A, d (v k, x i) is the case d 0 less, the process proceeds to S15A, add the x i to the partial cluster v k, updating the v k of the center of gravity g (v k). If d (v k , x i ) is greater than or equal to d 0 in S14A, a new partial cluster consisting only of x i is created in S16. By performing the above processing on all the data in X, the finally obtained partial cluster set is obtained as a result of the large classification processing.
この方式では部分クラスタvは下記のようにn, g(v)の2要素によって記述される。
v = (n, g(v))
n : vを構成するデータ数
g(v) : vを構成するn個のデータの重心位置座標
部分クラスタv重心g(v)はvを構成する全データの平均ベクトルであり、次式(18)により得られる。
In this method, the partial cluster v is described by two elements n and g (v) as follows.
v = (n, g (v))
n: Number of data composing v
g (v): Center-of-gravity position coordinates of n data constituting v Partial cluster v-centroid g (v) is an average vector of all data constituting v and is obtained by the following equation (18).
(第3実施形態)
次に、第3実施形態を図9を参照して説明する。本実施形態では、各部分クラスタのサンプル数のみを考慮する。すなわち、第1実施形態では式(11)の更新式により各部分クラスタのサンプル数と半径の両方を考慮して極大点探索を行っているが、サンプル数のみを考慮するよう簡略化することも可能である。この場合、局所平均ベクトルの移動操作における更新式は次式(21)で表わされる。
(Third embodiment)
Next, a third embodiment will be described with reference to FIG. In the present embodiment, only the number of samples of each partial cluster is considered. That is, in the first embodiment, the maximum point search is performed by considering both the number of samples and the radius of each partial cluster by the update formula of Formula (11), but it may be simplified to consider only the number of samples. Is possible. In this case, the update formula in the moving operation of the local average vector is expressed by the following formula (21).
(第4実施形態)
次に、請求項4に対応する第4実施形態を説明する。本実施形態は、詳細分類処理部30の極大点探索部32がバンド幅パラメータhを入力データの各次元ごとに独立に制御することが特徴である。
(Fourth embodiment)
Next, a fourth embodiment corresponding to claim 4 will be described. The present embodiment is characterized in that the local maximum point search unit 32 of the detailed classification processing unit 30 controls the bandwidth parameter h independently for each dimension of the input data.
以下詳説すると、本実施形態では、CFベクトルのSS(Square Sum)を、各次元ごとの2乗和を要素とするベクトルとすることにより、バンド幅パラメータhを非等方性に拡張している(非対角要素がゼロのbandwidth matrix H)。 As will be described in detail below, in the present embodiment, the bandwidth parameter h is expanded anisotropically by making the SS (Square Sum) of the CF vector a vector whose element is the sum of squares for each dimension. (Bandwidth matrix H with zero off-diagonal elements).
ここで、n個の個体{xi} (1≦i≦n)からなる部分クラスタvのCFベクトルの要素LS (linear sum)およびSS (square sum)は以下のように表わされる(d: 次元数)。 Here, the elements LS (linear sum) and SS (square sum) of the CF vector of the partial cluster v consisting of n individuals {x i } (1 ≦ i ≦ n) are expressed as follows (d: dimension number).
ここでSSをベクトルに拡張したCFベクトルvで表わされる部分クラスタが超楕円体であると考え、各次元k(1≦k≦d)ごとに部分クラスタvの直径Tk( v)を考える。
直径Tk( v)はSSがスカラーの場合と同様に以下のように算出できる。
Here, a partial cluster represented by a CF vector v obtained by extending SS into a vector is considered to be a super ellipsoid, and a diameter T k (v) of the partial cluster v is considered for each dimension k (1 ≦ k ≦ d).
The diameter T k (v) can be calculated as follows, as in the case where SS is a scalar.
ここで、CFベクトルvjに対応するバンド幅パラメータを非対角要素がゼロのbandwidth matrix Hjとし、Hjの(k,k)要素をhjk 2と書く。
Here, the bandwidth parameter corresponding to the CF vector v j is a bandwidth matrix H j with zero off-diagonal elements, and the (k, k) element of H j is written as h jk 2 .
そして、CFベクトルの重心g(vi)に対する局所平均ベクトルmiを以下の次式(27)の手順により逐次移動し、極大点を探索する。
Then, the local average vector m i with respect to the center of gravity CF (v i ) of the CF vector is sequentially moved by the procedure of the following equation (27) to search for a local maximum point.
なお、本発明の実施形態は以下のように変更してもよい。
○ 第1実施形態では、大分類処理部20の処理によって得られる部分クラスタは(n, LS, SS)の3要素で記述されているが、必ずしもこの構成である必要はなく、部分クラスタの重心位置座標と分散に相当する量が得られるよう構成されていればよい。極論すれば全データの座標点と部分クラスタとの対応さえ与えられていれば重心と分散を計算できる。ただし、大規模データ集合に対して効率良く大分類を行うためには上述のような構成であることが望ましい。これは、部分クラスタvとデータxとの距離d(v, x)の算出、部分クラスタの直径T(v)の算出、部分クラスタvにデータxを追加した場合のパラメータ更新が効率良く行えるためである。
In addition, you may change embodiment of this invention as follows.
In the first embodiment, the partial cluster obtained by the processing of the large classification processing unit 20 is described by three elements (n, LS, SS), but this configuration is not necessarily required, and the centroid of the partial cluster What is necessary is just to be comprised so that the quantity equivalent to a position coordinate and dispersion | distribution may be obtained. In the extreme case, the center of gravity and variance can be calculated as long as the correspondence between the coordinate points of all data and the partial clusters is given. However, in order to efficiently perform large classification on a large-scale data set, the above-described configuration is desirable. This is because the distance d (v, x) between the partial cluster v and the data x can be calculated, the diameter T (v) of the partial cluster can be calculated, and the parameters can be updated efficiently when the data x is added to the partial cluster v. It is.
○ 第1実施形態の構成中、詳細分類処理部30において部分クラスタごとにバンド幅パラメータhjを定める方法は上記実施例の方法(=式(12)式)に限定されるものではない。例えば、部分クラスタの半径が大きい(すなわち局所密度が小さい)ときにはhjが大きく、半径が小さい(すなわち局所密度が大きい)ときにはhjが小さくなるような任意の方式を用いることもできる。さらに、詳細分類処理において、局所近傍を定義するカーネル関数はガウシアン関数に限らず任意のカーネル関数を用いてもよい。 In the configuration of the first embodiment, the method for determining the bandwidth parameter h j for each partial cluster in the detailed classification processing unit 30 is not limited to the method of the above embodiment (= expression (12)). For example, the radius of the partial cluster is large (i.e. less local density) sometimes h j is large, a small radius (i.e., greater local density) Sometimes it is also possible to use any method, such as h j becomes smaller. Further, in the detailed classification process, the kernel function that defines the local neighborhood is not limited to the Gaussian function, and an arbitrary kernel function may be used.
○ 第1実施形態では、1つのコンピュータからなるデータ処理装置12により、大分類手段、詳細分類手段を構成したが、2台のコンピュータでそれぞれ大分類手段、詳細分類手段を構成してもよい。又、最近隣部分クラスタ探索部22、追加可否判定部24、部分クラスタ集合更新部26、詳細分類処理部30の極大点探索部32、収束判定部34、部分クラスタ分類部36をそれぞれコンピュータで構成してもよい。 In the first embodiment, the data processing device 12 composed of one computer constitutes the large classification means and the detailed classification means, but the two computers may constitute the large classification means and the detailed classification means, respectively. Further, the nearest neighbor cluster search unit 22, the addability determination unit 24, the partial cluster set update unit 26, the local maximum point search unit 32 of the detailed classification processing unit 30, the convergence determination unit 34, and the partial cluster classification unit 36 are each configured by a computer. May be.
本明細書において、請求項以外に把握できる技術的思想を以下に列挙する。 In the present specification, technical ideas that can be grasped other than the claims are listed below .
(1) 請求項4において、
コンピュータを、前記極大点探索手段として機能させる際に、
局所近傍範囲を定めるパラメータを前記各部分クラスタごとに可変とし、前記各部分クラスタのうち、局所的な密度が大きい部分クラスタに対しては前記パラメータを小さく、局所的な密度が小さい部分クラスタに対しては前記パラメータを大きくするように制御させることを特徴とするデータ処理システムのプログラム。
( 1 ) In claim 4 ,
When making a computer function as the local maximum search means,
The parameter that defines the local neighborhood range is variable for each partial cluster, and among the partial clusters, the parameter is small for a partial cluster with a high local density, and for the partial cluster with a low local density. A program for a data processing system, characterized in that control is performed to increase the parameter.
(2) 前記(1)において、
コンピュータを、前記極大点探索手段として機能させる際に、
入力データの各次元に対し個別に局所的な密度を算出し、この密度に応じて各次元に対し個別に前記パラメータを制御させることを特徴とするデータ処理システムのプログラム。
( 2 ) In the above ( 1 ),
When making a computer function as the local maximum search means,
A program for a data processing system, wherein a local density is calculated individually for each dimension of input data, and the parameters are individually controlled for each dimension according to the density.
10…データ処理システム、
11…入力装置、
12…データ処理装置(大分類手段、詳細分類手段)、
12a…ROM、
12b…RAM、
13…記憶装置(記憶手段)、
14…出力装置、
20…大分類処理部、
22…探索部最近隣部分クラスタ探索部、
24…追加可否判定部、
26…部分クラスタ集合更新部、
30…詳細分類処理部、
32…極大点探索部、
34…収束判定部、
36…部分クラスタ分類部。
10: Data processing system,
11 ... Input device,
12 ... Data processing device (major classification means, detailed classification means),
12a ... ROM,
12b ... RAM,
13: Storage device (storage means),
14 ... output device,
20 ... major classification processing part,
22 ... search part nearest neighbor partial cluster search part,
24 ... Additional availability determination unit,
26: Partial cluster set update unit,
30 ... Detailed classification processing unit,
32 ... Maximum point search part,
34 ... Convergence determining unit,
36... Partial cluster classification unit.
Claims (4)
入力データ集合を部分クラスタの集合に変換する大分類手段と、
前記大分類手段が変換した前記部分クラスタの集合をクラスタリングする詳細分類手段とを備え、
前記詳細分類手段は、
各部分クラスタの重心位置座標を該各部分クラスタの代表点とし、この代表点を起点として確率密度関数の極大点を探索する極大点探索手段と、前記極大点探索手段による極大点探索が収束したかどうかを極大点探索を行った前回値と今回値の各部分クラスタに対する局所平均ベクトル間の距離情報に基づいて判定する収束判定手段と、同一または近傍の極大点に収束した部分クラスタ群を同じクラスタに属するものとして分類する部分クラスタ分類手段とを備え、
前記極大点探索手段は、前記各部分クラスタに属するサンプル数を当該各部分クラスタの重みとして極大点探索を行う
ことを特徴とするデータ処理システム。 A data processing system for clustering an input data set given as a set of vector data of a predetermined number of dimensions,
A large classification means for converting an input data set into a set of partial clusters;
Detailed classification means for clustering the set of partial clusters converted by the large classification means,
The detailed classification means,
The center-of-gravity position coordinates of each partial cluster is used as the representative point of each partial cluster, and the local maximum point search means for searching for the local maximum point of the probability density function starting from this representative point, and the local maximum point search by the local maximum point searching means converge Convergence determination means that determines whether or not the local maximum vector for each partial cluster of the previous value and current value for which the local maximum point search has been performed is the same as the partial cluster group that has converged to the same or nearby local maximum point A partial cluster classification means for classifying as belonging to a cluster,
The data processing system, wherein the local maximum point searching means performs local maximum point search using the number of samples belonging to each partial cluster as the weight of each partial cluster .
コンピュータを、
入力データ集合を部分クラスタの集合に変換する大分類手段として機能させ、
さらに、前記大分類手段が変換した前記部分クラスタの集合をクラスタリングする詳細分類手段として機能させ、
かつ、前記詳細分類手段として機能させる際に、
各部分クラスタの重心位置座標を該各部分クラスタの代表点とし、この代表点を起点として確率密度関数の極大点を探索する極大点探索手段と、
極大点探索が収束したかどうかを極大点探索を行った前回値と今回値の各部分クラスタに対する局所平均ベクトル間の距離情報に基づいて判定する収束判定手段と、
同一または近傍の極大点に収束した部分クラスタ群を同じクラスタに属するものとして分類する部分クラスタ分類手段として機能させ、
前記極大点探索手段として機能させる際に、前記各部分クラスタに属するサンプル数を当該各部分クラスタの重みとして極大点探索を行わせる
ことを特徴とするデータ処理プログラム。 A data processing system program for clustering an input data set given as a set of vector data of a predetermined number of dimensions,
Computer
Function as a large classification means to convert the input data set to a set of partial clusters,
Further, it functions as detailed classification means for clustering the set of partial clusters converted by the large classification means,
And when functioning as the detailed classification means,
The centroid position coordinates of each partial cluster as a representative point of each partial cluster, the local maximum point search means for searching for the local maximum point of the probability density function starting from this representative point,
Convergence determination means for determining whether or not the local maximum search has converged based on distance information between local average vectors for each partial cluster of the previous value and current value in which the local maximum search has been performed,
Function as a partial cluster classification means for classifying a partial cluster group converged to the same or nearby maximum point as belonging to the same cluster,
A data processing program that, when functioning as the maximum point search means, performs a maximum point search using the number of samples belonging to each partial cluster as a weight of each partial cluster .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008308840A JP5410741B2 (en) | 2008-12-03 | 2008-12-03 | Data processing system and data processing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008308840A JP5410741B2 (en) | 2008-12-03 | 2008-12-03 | Data processing system and data processing program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010134632A JP2010134632A (en) | 2010-06-17 |
JP5410741B2 true JP5410741B2 (en) | 2014-02-05 |
Family
ID=42345883
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008308840A Expired - Fee Related JP5410741B2 (en) | 2008-12-03 | 2008-12-03 | Data processing system and data processing program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5410741B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2418513A1 (en) | 2010-08-10 | 2012-02-15 | Astrium GmbH | Computing of robust and improved signal-in-space accuracy parameters in a regional or global navigation satellite system |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002041544A (en) * | 2000-07-25 | 2002-02-08 | Toshiba Corp | Text information analyzing device |
JP2004178569A (en) * | 2002-11-12 | 2004-06-24 | Matsushita Electric Ind Co Ltd | Data classification device, object recognition device, data classification method, and object recognition method |
JP4041081B2 (en) * | 2004-03-23 | 2008-01-30 | 東芝ソリューション株式会社 | Divided clustering apparatus and divided data number determination method |
JP5108233B2 (en) * | 2006-01-20 | 2012-12-26 | 株式会社エヌ・ティ・ティ・データ | Related concept extraction device, related concept extraction method, program, and recording medium |
-
2008
- 2008-12-03 JP JP2008308840A patent/JP5410741B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010134632A (en) | 2010-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ilievski et al. | Efficient hyperparameter optimization for deep learning algorithms using deterministic rbf surrogates | |
JP6070956B2 (en) | Similarity detection apparatus and directivity vicinity detection method | |
JP6965206B2 (en) | Clustering device, clustering method and program | |
JP4391506B2 (en) | Evaluation apparatus, evaluation method, and evaluation program | |
CN107247969B (en) | Fuzzy c-means clustering algorithm based on Gauss induction kernel | |
CN109508752A (en) | A kind of quick self-adapted neighbour's clustering method based on structuring anchor figure | |
CN116681104B (en) | Model building and realizing method of distributed space diagram neural network | |
JP2017097803A (en) | Prediction device, method and program | |
CN112149045A (en) | Dimension reduction and correlation analysis method suitable for large-scale data | |
JPWO2014118978A1 (en) | Learning method, information processing apparatus, and learning program | |
JP5410741B2 (en) | Data processing system and data processing program | |
CN111368910B (en) | Internet of things equipment cooperative sensing method | |
JP7472471B2 (en) | Estimation system, estimation device, and estimation method | |
CN111832645A (en) | Classification data feature selection method based on discrete crow difference collaborative search algorithm | |
US11989211B2 (en) | Non-transitory computer-readable recording medium, data clustering method, and information processing apparatus | |
JP5728357B2 (en) | System parameter optimization apparatus, method, and program | |
CN115359849A (en) | 3D molecular physicochemical property prediction method and device, electronic equipment and storage medium | |
JP2002099916A (en) | Pattern-classifying method, its device, and computer- readable storage medium | |
JP5255484B2 (en) | Clustering distance learning device and program thereof, and clustering device | |
JP5092458B2 (en) | Map generating apparatus, map manufacturing method, and program | |
JP6409463B2 (en) | Pattern recognition device, pattern learning device, pattern learning method, and pattern learning program | |
CN114037931A (en) | Multi-view discrimination method of self-adaptive weight | |
CN110263906B (en) | Asymmetric negative correlation search method | |
JP6114679B2 (en) | Control policy determination device, control policy determination method, control policy determination program, and control system | |
JP2005267025A (en) | Area extraction system for analysis model, method, program and program medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20111111 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20111111 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20120425 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20120511 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20120511 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130402 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130524 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20130607 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20130607 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130723 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130904 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131029 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131107 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |