JP2009048575A - Clustering device, clustering method, program, and recording medium - Google Patents
Clustering device, clustering method, program, and recording medium Download PDFInfo
- Publication number
- JP2009048575A JP2009048575A JP2007216509A JP2007216509A JP2009048575A JP 2009048575 A JP2009048575 A JP 2009048575A JP 2007216509 A JP2007216509 A JP 2007216509A JP 2007216509 A JP2007216509 A JP 2007216509A JP 2009048575 A JP2009048575 A JP 2009048575A
- Authority
- JP
- Japan
- Prior art keywords
- cluster
- pixels
- pixel
- frequency
- dimensional vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、複数の要素からなる集合を部分集合であるクラスタに分割するクラスタリング装置、クラスタリング方法、プログラムおよび記録媒体に関し、より詳細には、多次元ベクトルの集合をベクトル間の類似度に基づいてクラスタに分割するクラスタリング装置、クラスタリング方法、プログラムおよび記録媒体に関する。 The present invention relates to a clustering device, a clustering method, a program, and a recording medium that divide a set of a plurality of elements into clusters that are subsets. More specifically, the present invention relates to a set of multidimensional vectors based on similarity between vectors. The present invention relates to a clustering apparatus, a clustering method, a program, and a recording medium that divide into clusters.
複数の要素からなる集合の中から類似する要素を見つけ出して、集合をいくつかの部分集合に分割することをクラスタリングという。クラスタリングは、ウェブ(Web)あるいは企業内などで利用される大量の情報の分類に適用され、クラスタリングによって大量の情報を類似する情報に分割することができる。クラスタリングは、必要とする情報を速く見つけることを可能とし、さらに類似する情報の特長を情報の概要として示すことを可能とすることができるので、情報の検索に利用することができる。 Finding similar elements from a set of a plurality of elements and dividing the set into several subsets is called clustering. Clustering is applied to classification of a large amount of information used on the web (Web) or in a company, and a large amount of information can be divided into similar information by clustering. Clustering makes it possible to quickly find necessary information and to show similar information features as an outline of the information, so that it can be used for information retrieval.
ベクトルの集合のクラスタリングには、階層的クラスタリングと非階層的クラスタリングとがある。 Clustering of a set of vectors includes hierarchical clustering and non-hierarchical clustering.
階層的クラスタリングは、たとえば集合にN個のベクトルが含まれる場合、まず個々のベクトルからなるN個のクラスタを形成する。次に、2つのベクトルの距離に基づいて、各ベクトルをそれぞれ含む2つのクラスタ間の距離を計算し、クラスタ間の距離が最も小さい2つのクラスタ同士を1つに併合する。そして、この併合を、すべてのクラスタが1つのクラスタに併合されるまで順次繰り返して、クラスタの階層構造を形成する。たとえばクラスタの数をk個と決めて、k個のクラスタからなる階層で区切ることによって、ベクトルをk個のクラスタに分類することができる。 In the hierarchical clustering, for example, when N sets are included in a set, N clusters composed of individual vectors are first formed. Next, based on the distance between the two vectors, a distance between two clusters each including each vector is calculated, and two clusters having the smallest distance between the clusters are merged into one. This merging is sequentially repeated until all the clusters are merged into one cluster to form a cluster hierarchical structure. For example, a vector can be classified into k clusters by determining the number of clusters as k and dividing the hierarchy by a hierarchy of k clusters.
非階層的クラスタリングは、階層構造を用いないでベクトルを分類するクラスタリングである。代表的な非階層的クラスタリングとして、k平均法(以下「k-means法」という)がある。k-means法は、ベクトル間の距離に応じてk個のクラスタに分類する。集合に含まれるベクトルの数をN個、クラスタの数をk個とするときのk-means法によるクラスタリングの手順を示す。 Non-hierarchical clustering is clustering that classifies vectors without using a hierarchical structure. As a typical non-hierarchical clustering, there is a k-means method (hereinafter referred to as “k-means method”). The k-means method classifies into k clusters according to the distance between vectors. The procedure of clustering by the k-means method when the number of vectors included in the set is N and the number of clusters is k is shown.
手順1では、N個のベクトルの中の任意のk個のベクトルを、k個のクラスタのそれぞれの中心を示すベクトルの初期値とする。手順2では、N個のベクトルを、クラスタの中心のベクトルが最も近いクラスタに分類する。手順3では、各クラスタに含まれるベクトルの平均を新たなクラスタの中心とする。手順4では、クラスタの中心が変化しなくなるまで手順2および手順3を繰り返して、クラスタの中心が変化しなくなったところで終了する。
In the
上述した階層的クラスタリングおよびk-means法による非階層的クラスタリングはいずれも、クラスタ数kを人手によって指定する必要がある。 In the above-described hierarchical clustering and non-hierarchical clustering by the k-means method, it is necessary to manually specify the number k of clusters.
クラスタ数kを人手によって指定しなくともよい従来の技術の例として、文書の自動分類方法がある。この文書の自動分類方法は、処理時間が許容時間内になるようにクラスタ数を決定し、文書の内容を表現する意味要素の強さに応じて、文書をベクトルで表現して分類する(たとえば特許文献1参照)。 As an example of a conventional technique that does not require manually specifying the number of clusters k, there is an automatic document classification method. In this document automatic classification method, the number of clusters is determined so that the processing time is within an allowable time, and the document is expressed as a vector and classified according to the strength of the semantic element expressing the content of the document (for example, Patent Document 1).
しかしながら、上述した従来の技術の例では、クラスタ数を自動的に決定することができても、各クラスタに含まれるベクトル数に偏りが生じる可能性があるという問題がある。たとえば、階層的クラスタリングは、クラスタ数によっては、全ベクトル数の2%のベクトルを含むクラスタと全ベクトル数の40%のベクトルを含むクラスタとに分類されるというように、各クラスタに含まれるベクトル数に偏りが生じる場合がある。 However, in the above-described prior art example, there is a problem that even if the number of clusters can be automatically determined, the number of vectors included in each cluster may be biased. For example, hierarchical clustering is classified into a cluster including 2% of all vectors and a cluster including 40% of all vectors, depending on the number of clusters. Numbers may be biased.
この階層的クラスタリングを情報の検索に利用して、検索結果を表示するとき、1つのクラスタに分類されるベクトルの数が多い場合は、類似する文書の数が多くなるので、所望の文書を見つけるのに多くの時間がかかる。あるいは表示される文書の数が少ない場合は、その中に所望の文書が含まれないことがあり得る。 When this hierarchical clustering is used for information retrieval and the retrieval result is displayed, if there are many vectors classified into one cluster, the number of similar documents increases, and thus a desired document is found. It takes a lot of time. Or when there are few documents displayed, a desired document may not be contained in it.
この偏りを是正するためには、階層構造を図示したデンドログラムつまり樹形図を用いて、人手によって、ベクトル数の多いクラスタをより低い階層で分割し、あるいは、ベクトル数の少ないクラスタをより高い階層で併合する必要がある。 To correct this bias, use a dendrogram or tree diagram to illustrate the hierarchical structure, and manually divide clusters with a large number of vectors into lower layers, or clusters with a small number of vectors to a higher level. Need to merge in hierarchy.
k-means法による非階層的クラスタリングは、手順1でのクラスタの中心の初期値の決め方によって、クラスタリングの結果に差が生じる。たとえば、クラスタの初期値の中心が特定の領域に集中し、かつ1つのクラスタの初期値の中心がその領域から離れている場合、階層的クラスタリングと同様に、各クラスタに含まれるベクトル数に偏りが生じる。この偏りを是正するためには、クラスタリングの結果を人手によって修正する必要がある。
In the non-hierarchical clustering by the k-means method, the result of clustering differs depending on how the initial value of the center of the cluster is determined in
本発明の目的は、各クラスタに含まれるベクトル数の偏りをより少なくすることができるクラスタリング装置、クラスタリング方法、プログラムおよび記録媒体を提供することである。 An object of the present invention is to provide a clustering device, a clustering method, a program, and a recording medium that can reduce the deviation of the number of vectors included in each cluster.
本発明は、多次元ベクトルを表す多次元ベクトルデータを入力する入力手段と、
入力手段によって入力された多次元ベクトルデータを、予め定める次元変換方式によって2次元ベクトルを表す2次元ベクトルデータに変換する次元変換手段と、
次元変換手段によって変換された2次元ベクトルデータを、対応する2次元ベクトルの有無を示す値で表され、かつ対応する2次元ベクトルの数を表す度数が付与される画素からなる画像を表す画像データに変換する画像化手段と、
画像化手段によって変換された画像データが示す画素のうち、対応する2次元ベクトルが有ることを示す値で表される画素の中から、隣接する画素によって構成される領域を抽出する領域抽出手段と、
領域抽出手段によって抽出された各領域に含まれる画素に付与された度数の分布から、その分布を構成する正規分布を抽出し、抽出した正規分布ごとに、各正規分布の平均を中心とし、かつ標準偏差に基づいて決められる範囲をクラスタの範囲として決定するクラスタ範囲決定手段と、
クラスタに分類される画素の数を均一化するための予め定める分類条件に従って、クラスタ範囲決定手段によって範囲が決定されたクラスタに、各画素を分類する画素分類手段とを含むこと特徴とするクラスタリング装置である。
The present invention provides an input means for inputting multidimensional vector data representing a multidimensional vector;
Dimension conversion means for converting the multidimensional vector data input by the input means into two-dimensional vector data representing a two-dimensional vector by a predetermined dimension conversion method;
Image data representing an image composed of pixels to which the two-dimensional vector data converted by the dimension conversion means is represented by a value indicating the presence or absence of the corresponding two-dimensional vector and to which a frequency indicating the number of the corresponding two-dimensional vector is given. Imaging means for converting to
A region extracting unit that extracts a region constituted by adjacent pixels from pixels represented by values indicating that there is a corresponding two-dimensional vector among the pixels represented by the image data converted by the imaging unit; ,
From the frequency distribution given to the pixels included in each region extracted by the region extraction means, a normal distribution constituting the distribution is extracted, and for each extracted normal distribution, the average of each normal distribution is centered, and Cluster range determining means for determining a range determined based on the standard deviation as a cluster range;
A clustering apparatus comprising: a cluster whose range is determined by a cluster range determination unit according to a predetermined classification condition for equalizing the number of pixels classified into clusters; and a pixel classification unit that classifies each pixel. It is.
また本発明は、前記予め定める分類条件は、
画素に付与される度数が1つの正規分布のみを構成する度数の場合は、その度数が付与される画素を、その度数が構成する正規分布に対応するクラスタに分類し、
画素に付与される度数の一部が複数の正規分布を構成する度数の場合は、その度数が付与される画素を、その度数の一部が構成する複数の正規分布のうち、正規分布の標準偏差を平均で除算した評価値が最も大きい正規分布に対応するクラスタに分類し、
画素に付与される度数がいずれの正規分布をも構成しない度数の場合は、その度数が付与される画素を、その度数が付与される画素に最も近い範囲のクラスタのうち、前記評価値が最も大きいクラスタに分類することを特徴とする。
In the present invention, the predetermined classification condition is:
If the frequency given to a pixel is a frequency that constitutes only one normal distribution, classify the pixel to which the frequency is given into a cluster corresponding to the normal distribution that the frequency constitutes,
When a part of the frequency assigned to a pixel is a frequency that forms a plurality of normal distributions, the pixel to which the frequency is assigned is selected from the normal distributions that are part of the frequency. Classify the cluster into the cluster corresponding to the normal distribution with the largest evaluation value divided by the mean,
When the frequency given to a pixel is a frequency that does not constitute any normal distribution, the evaluation value is the highest among the clusters in the range closest to the pixel to which the frequency is assigned. It is characterized by classifying into large clusters.
また本発明は、多次元ベクトルを表す多次元ベクトルデータを入力する入力ステップと、
入力ステップで入力された多次元ベクトルデータを、予め定める次元変換条件に従って2次元ベクトルを表す2次元ベクトルデータに変換する次元変換ステップと、
次元変換ステップで変換された2次元ベクトルデータを、対応する2次元ベクトルの有無を示す値で表され、かつ対応する2次元ベクトルの数を表す度数が付与される画素からなる画像を表す画像データに変換する画像化ステップと、
画像化ステップで変換された画像データが示す画素のうち、対応する2次元ベクトルが有ることを示す値で表される画素の中から、隣接する画素によって構成される領域を抽出する領域抽出ステップと、
領域抽出ステップで抽出された各領域に含まれる画素に付与された度数の分布から、その分布を構成する正規分布を抽出し、抽出した正規分布ごとに、各正規分布の平均を中心とし、かつ標準偏差に基づいて決められる範囲をクラスタの範囲として決定するクラスタ範囲決定ステップと、
クラスタに分類される画素の数を均一化するための予め定める分類条件に従って、クラスタ範囲決定ステップで範囲が決定されたクラスタに、各画素を分類する画素分類ステップとを含むこと特徴とするクラスタリング方法である。
The present invention also includes an input step of inputting multidimensional vector data representing a multidimensional vector;
A dimension conversion step of converting the multidimensional vector data input in the input step into two-dimensional vector data representing a two-dimensional vector according to a predetermined dimension conversion condition;
Image data representing an image made up of pixels to which the two-dimensional vector data converted in the dimension conversion step is represented by a value indicating the presence or absence of the corresponding two-dimensional vector and to which a frequency representing the number of the corresponding two-dimensional vector is given An imaging step to convert to
An area extraction step for extracting an area constituted by adjacent pixels from pixels represented by values indicating that there is a corresponding two-dimensional vector among the pixels indicated by the image data converted in the imaging step; ,
From the frequency distribution given to the pixels included in each region extracted in the region extraction step, a normal distribution that constitutes the distribution is extracted, and for each extracted normal distribution, the average of each normal distribution is centered, and A cluster range determining step for determining a range determined based on the standard deviation as a cluster range;
A clustering method comprising: a pixel classification step for classifying each pixel into a cluster whose range is determined in the cluster range determination step according to a predetermined classification condition for equalizing the number of pixels classified into clusters. It is.
また本発明は、多次元ベクトルを表す多次元ベクトルデータを入力する入力ステップと、
入力ステップで入力された多次元ベクトルデータを、予め定める次元変換条件に従って2次元ベクトルを表す2次元ベクトルデータに変換する次元変換ステップと、
次元変換ステップで変換された2次元ベクトルデータを、対応する2次元ベクトルの有無を示す値で表され、かつ対応する2次元ベクトルの数を表す度数が付与される画素からなる画像を表す画像データに変換する画像化ステップと、
画像化ステップで変換された画像データが示す画素のうち、対応する2次元ベクトルが有ることを示す値で表される画素の中から、隣接する画素によって構成される領域を抽出する領域抽出ステップと、
領域抽出ステップで抽出された各領域に含まれる画素に付与された度数の分布から、その分布を構成する正規分布を抽出し、抽出した正規分布ごとに、各正規分布の平均を中心とし、かつ標準偏差に基づいて決められる範囲をクラスタの範囲として決定するクラスタ範囲決定ステップと、
クラスタに分類される画素の数を均一化するための予め定める分類条件に従って、クラスタ範囲決定ステップで範囲が決定されたクラスタに、各画素を分類する画素分類ステップとを、コンピュータに実行させるためのプログラムである。
また本発明は、前記プログラムを記録したコンピュータ読取可能な記録媒体である。
The present invention also includes an input step of inputting multidimensional vector data representing a multidimensional vector;
A dimension conversion step of converting the multidimensional vector data input in the input step into two-dimensional vector data representing a two-dimensional vector according to a predetermined dimension conversion condition;
Image data representing an image made up of pixels to which the two-dimensional vector data converted in the dimension conversion step is represented by a value indicating the presence or absence of the corresponding two-dimensional vector and to which a frequency representing the number of the corresponding two-dimensional vector is given. An imaging step to convert to
An area extraction step for extracting an area constituted by adjacent pixels from pixels represented by values indicating that there is a corresponding two-dimensional vector among the pixels indicated by the image data converted in the imaging step; ,
From the frequency distribution given to the pixels included in each region extracted in the region extraction step, a normal distribution that constitutes the distribution is extracted, and for each extracted normal distribution, the average of each normal distribution is centered, and A cluster range determining step for determining a range determined based on the standard deviation as a cluster range;
In order to cause a computer to execute a pixel classification step for classifying each pixel in a cluster whose range is determined in a cluster range determination step according to a predetermined classification condition for equalizing the number of pixels classified into clusters. It is a program.
The present invention is also a computer-readable recording medium on which the program is recorded.
本発明によれば、入力手段によって、多次元ベクトルを表す多次元ベクトルデータが入力され、次元変換手段によって、入力手段によって入力された多次元ベクトルデータが、予め定める次元変換条件に従って2次元ベクトルを表す2次元ベクトルデータに変換される。 According to the present invention, multi-dimensional vector data representing a multi-dimensional vector is input by the input means, and the multi-dimensional vector data input by the input means is converted into a two-dimensional vector according to a predetermined dimensional conversion condition by the dimension conversion means. It is converted into two-dimensional vector data to be represented.
そして、画像化手段によって、次元変換手段によって変換された2次元ベクトルデータが、対応する2次元ベクトルの有無を示す値で表され、かつ対応する2次元ベクトルの数を表す度数が付与される画素からなる画像を表す画像データに変換され、領域抽出手段によって、画像化手段によって変換された画像データが示す画素のうち、対応する2次元ベクトルが有ることを示す値で表される画素の中から、隣接する画素によって構成される領域が抽出される。 Then, a pixel to which the two-dimensional vector data converted by the dimension converting unit is represented by a value indicating the presence or absence of the corresponding two-dimensional vector and a frequency indicating the number of the corresponding two-dimensional vector is given by the imaging unit. Among the pixels represented by the image data converted to image data representing the image and converted by the image extraction unit by the region extraction unit, the pixel is represented by a value indicating that there is a corresponding two-dimensional vector. A region constituted by adjacent pixels is extracted.
さらに、クラスタ範囲決定手段によって、領域抽出手段によって抽出された各領域に含まれる画素に付与された度数の分布から、その分布を構成する正規分布が抽出され、抽出された正規分布ごとに、各正規分布の平均を中心とし、かつ標準偏差に基づいて決められる範囲がクラスタの範囲として決定され、画素分類手段によって、クラスタに分類される画素の数を均一化するための予め定める分類条件に従って、クラスタ範囲決定手段によって範囲が決定されたクラスタに、各画素が分類される。 Further, a normal distribution constituting the distribution is extracted from the frequency distribution given to the pixels included in each region extracted by the region extracting unit by the cluster range determining unit, and for each extracted normal distribution, each normal distribution is extracted. A range centered on the average of the normal distribution and determined based on the standard deviation is determined as the cluster range, and according to a predetermined classification condition for equalizing the number of pixels classified into clusters by the pixel classification unit, Each pixel is classified into a cluster whose range is determined by the cluster range determining means.
すなわち、画素をクラスタに分類することによって、画素に対応する多次元ベクトルをクラスタに分類することができるので、クラスタに分類される画素の数を均一化するための予め定める分類条件に従って、画素をクラスタに分類することによって、各クラスタに含まれるベクトル数の偏りをより少なくすることができる。文書データを多次元ベクトルデータとして表して、検索に適用すれば、文書データをより速く検索することができる。 That is, by classifying pixels into clusters, multi-dimensional vectors corresponding to the pixels can be classified into clusters. Therefore, according to a predetermined classification condition for equalizing the number of pixels classified into clusters, the pixels are classified. By classifying into clusters, the number of vectors included in each cluster can be reduced. If the document data is expressed as multidimensional vector data and applied to the search, the document data can be searched faster.
また本発明によれば、入力ステップでは、多次元ベクトルを表す多次元ベクトルデータを入力する。次元変換ステップでは、入力ステップで入力された多次元ベクトルデータを、予め定める次元変換条件に従って2次元ベクトルを表す2次元ベクトルデータに変換する。画像化ステップでは、次元変換ステップで変換された2次元ベクトルデータを、対応する2次元ベクトルの有無を示す値で表され、かつ対応する2次元ベクトルの数を表す度数が付与される画素からなる画像を表す画像データに変換する。 According to the invention, in the input step, multidimensional vector data representing a multidimensional vector is input. In the dimension conversion step, the multidimensional vector data input in the input step is converted into two-dimensional vector data representing a two-dimensional vector according to a predetermined dimension conversion condition. In the imaging step, the two-dimensional vector data converted in the dimension conversion step is represented by a pixel which is represented by a value indicating the presence or absence of the corresponding two-dimensional vector and is given a frequency indicating the number of the corresponding two-dimensional vector. Convert to image data representing an image.
領域抽出ステップでは、画像化ステップで変換された画像データが示す画素のうち、対応する2次元ベクトルが有ることを示す値で表される画素の中から、隣接する画素によって構成される領域を抽出する。クラスタ範囲決定ステップでは、領域抽出ステップで抽出された各領域に含まれる画素に付与された度数の分布から、その分布を構成する正規分布を抽出し、抽出した正規分布ごとに、各正規分布の平均を中心とし、かつ標準偏差に基づいて決められる範囲をクラスタの範囲として決定する。そして、画素分類ステップでは、クラスタに分類される画素の数を均一化するための予め定める分類条件に従って、クラスタ範囲決定ステップで範囲が決定されたクラスタに、各画素を分類する。 In the region extraction step, a region constituted by adjacent pixels is extracted from pixels represented by values indicating that there is a corresponding two-dimensional vector among the pixels indicated by the image data converted in the imaging step. To do. In the cluster range determination step, a normal distribution constituting the distribution is extracted from the frequency distribution given to the pixels included in each region extracted in the region extraction step, and each normal distribution is extracted for each extracted normal distribution. A range centered on the average and determined based on the standard deviation is determined as the cluster range. In the pixel classification step, each pixel is classified into the cluster whose range is determined in the cluster range determination step in accordance with a predetermined classification condition for equalizing the number of pixels classified into the cluster.
すなわち、本発明に係るクラスタリング方法を適用すれば、画素をクラスタに分類することによって、画素に対応する多次元ベクトルをクラスタに分類することができるので、クラスタに分類される画素の数を均一化するための予め定める分類条件に従って、画素をクラスタに分類することによって、各クラスタに含まれるベクトル数の偏りをより少なくすることができる。文書データを多次元ベクトルデータとして表して、検索に適用すれば、文書データをより速く検索することができる。 In other words, by applying the clustering method according to the present invention, it is possible to classify pixels into clusters, thereby classifying multi-dimensional vectors corresponding to pixels into clusters, so that the number of pixels classified into clusters is made uniform. By classifying pixels into clusters in accordance with predetermined classification conditions for performing the above, it is possible to further reduce the bias of the number of vectors included in each cluster. If the document data is expressed as multidimensional vector data and applied to the search, the document data can be searched faster.
また本発明によれば、多次元ベクトルを表す多次元ベクトルデータを入力する入力ステップと、
入力ステップで入力された多次元ベクトルデータを、予め定める次元変換条件に従って2次元ベクトルを表す2次元ベクトルデータに変換する次元変換ステップと、
次元変換ステップで変換された2次元ベクトルデータを、対応する2次元ベクトルの有無を示す値で表され、かつ対応する2次元ベクトルの数を表す度数が付与される画素からなる画像を表す画像データに変換する画像化ステップと、
画像化ステップで変換された画像データが示す画素のうち、対応する2次元ベクトルが有ることを示す値で表される画素の中から、隣接する画素によって構成される領域を抽出する領域抽出ステップと、
領域抽出ステップで抽出された各領域に含まれる画素に付与された度数の分布から、その分布を構成する正規分布を抽出し、抽出した正規分布ごとに、各正規分布の平均を中心とし、かつ標準偏差に基づいて決められる範囲をクラスタの範囲として決定するクラスタ範囲決定ステップと、
クラスタに分類される画素の数を均一化するための予め定める分類条件に従って、クラスタ範囲決定ステップで範囲が決定されたクラスタに、各画素を分類する画素分類ステップを、コンピュータに実行せるためのプログラムとして提供することができる。
According to the present invention, an input step for inputting multidimensional vector data representing a multidimensional vector;
A dimension conversion step of converting the multidimensional vector data input in the input step into two-dimensional vector data representing a two-dimensional vector according to a predetermined dimension conversion condition;
Image data representing an image made up of pixels to which the two-dimensional vector data converted in the dimension conversion step is represented by a value indicating the presence or absence of the corresponding two-dimensional vector and to which a frequency representing the number of the corresponding two-dimensional vector is given. An imaging step to convert to
An area extraction step for extracting an area constituted by adjacent pixels from pixels represented by values indicating that there is a corresponding two-dimensional vector among the pixels indicated by the image data converted in the imaging step; ,
From the frequency distribution given to the pixels included in each region extracted in the region extraction step, a normal distribution that constitutes the distribution is extracted, and for each extracted normal distribution, the average of each normal distribution is centered, and A cluster range determining step for determining a range determined based on the standard deviation as a cluster range;
A program for causing a computer to execute a pixel classification step for classifying each pixel into a cluster whose range is determined in a cluster range determination step according to a predetermined classification condition for equalizing the number of pixels classified into clusters. Can be offered as.
また本発明によれば、前記プログラムを記録したコンピュータ読取可能な記録媒体として提供することができる。 The present invention can also be provided as a computer-readable recording medium on which the program is recorded.
図1は、本発明の実施の一形態であるクラスタリング自動化装置1の機能の構成を示すブロック図である。本発明に係るクラスタリング方法は、クラスタリング自動化装置1によって処理される。
FIG. 1 is a block diagram showing a functional configuration of a
クラスタリング装置であるクラスタリング自動化装置1は、多次元ベクトルデータ入力手段(以下、入力手段という)10、次元縮退手段11、画像化手段12、領域抽出手段13、クラスタ範囲決定手段14およびクラスタ決定手段15を含んで構成される。
A
クラスタリング自動化装置1は、たとえばコンピュータによって構成される。クラスタリング自動化装置1を構成するコンピュータは、キーボードおよびマウスなどの入力装置と、ディスプレイなどの表示装置あるいはプリンタなどの印刷装置を含む出力装置と、通信回線たとえばLAN(Local Area Network)を介して情報を送受信する通信装置と、半導体メモリあるいはハードディスク装置によって構成され、プログラムおよびデータを記憶する記憶装置と、記憶装置に記憶されるプログラムを実行して、入力装置、出力装置、および通信装置を制御する中央処理装置(Central Processing Unit:以下「CPU」という)とを含む。プログラムは、クラスタリング自動化装置1を制御するためのプログラムであり、OS(Operating System)およびアプリケーションプログラムを含んでもよい。コンピュータは、一般的に知られているコンピュータでよく、詳細な説明は省略する。
The
入力手段10は、多次元ベクトルデータ記憶装置2に記憶される多次元ベクトルデータを読み出して、クラスタリング自動化装置1に入力する。多次元ベクトルデータは、多次元ベクトルを表すデータである。多次元ベクトルは、たとえば文書データをその内容などによって多次元ベクトルとして表したものである。
The input means 10 reads out the multidimensional vector data stored in the multidimensional vector
多次元ベクトルデータ記憶装置2は、通信回線たとえばLANに接続される記憶装置であり、コンピュータに含まれる通信装置によって、多次元ベクトルデータ記憶装置2に記憶される情報を読み出すことができる。図1に示した構成では、多次元ベクトルデータ記憶装置2を、クラスタリング自動化装置1とは別の独立した装置として構成したが、多次元ベクトルデータ記憶装置2をクラスタリング自動化装置1に含めてもよい。
The multidimensional vector
次元変換手段である次元縮退手段11は、入力手段10よって入力された多次元ベクトルデータを、予め定める次元変換方式によって、2次元ベクトルを表す2次元ベクトルデータに変換する。予め定める次元変換方式は、たとえば多次元尺度構成法(Multi-
Dimensional Scaling:以下「MDS」と略す)を用いて変換する方式である。
The dimension reduction means 11 which is a dimension conversion means converts the multidimensional vector data input by the input means 10 into two-dimensional vector data representing a two-dimensional vector by a predetermined dimension conversion method. The predetermined dimension conversion method is, for example, a multi-dimensional scale construction method (Multi-
Dimensional Scaling (hereinafter abbreviated as “MDS”).
MDSは、計量多次元尺度構成法(Metric MDS:以下「計量MDS」という)および非計量多次元尺度構成法(Non-metric MDS:以下「非計量MDS」という)に分類される。計量MDSは、対象間の距離データに基づいて対象を空間的に布置する方法であり、非計量MDSは、対象間の距離データあるいは距離データに対応する非類似度データに基づいて、対象を空間的に布置する方法である(たとえば齋藤堯幸、宿久洋著、「関連データの解析法」初版、共立出版株式会社、2006年9月10日、p37−p123参照)。 MDS is classified into a metric multidimensional scaling method (Metric MDS: hereinafter referred to as “metric MDS”) and a non-metric multidimensional scaling method (hereinafter referred to as “non-metric MDS”). The metric MDS is a method of spatially arranging objects based on the distance data between the objects, and the non-metric MDS is a method for spatially locating the objects based on the distance data between the objects or dissimilarity data corresponding to the distance data. (See, for example, Yasuyuki Saitoh, Hiroshi Sukuhisa, “Analysis Method of Related Data”, first edition, Kyoritsu Publishing Co., Ltd., September 10, 2006, p37-p123).
計量MDSおよび非計量MDSのうちのいずれの方法も、対象を布置する空間の次元数を対象の次元数よりも少なくすることによって、ベクトル間の距離関係つまり類似度関係を可能な限り保持したまま次元を縮退することができる。距離に関しては、たとえばユークリッド距離を用いてもよい。次元を縮退する方法としては、MDS以外にも、多次元ベクトルデータが示す多次元ベクトル間の距離関係を可能な限り保持したまま、より低次元のベクトルに次元を縮退する他の方法、たとえば主成分分析法を用いてもよい。 In both methods of the metric MDS and the non-metric MDS, the distance relationship between the vectors, that is, the similarity relationship is maintained as much as possible by reducing the number of dimensions of the space in which the object is placed than the number of dimensions of the object. The dimension can be reduced. For the distance, for example, the Euclidean distance may be used. As a method for reducing the dimension, besides MDS, other methods for reducing the dimension to a lower-dimensional vector while maintaining the distance relationship between the multi-dimensional vectors indicated by the multi-dimensional vector data as much as possible, Component analysis may be used.
図2は、次元縮退手段11によって変換された2次元ベクトルの位置を示すXY座標系21の一例を示す図である。2次元ベクトルデータが示す2次元ベクトルの位置をXY座標における座標(x,y)で表す。「×」印の位置が、始点を座標(0,0)としたときの各2次元ベクトルの先端の位置を示す。
FIG. 2 is a diagram showing an example of the XY coordinate
画像化手段12は、次元縮退手段11によって変換された2次元ベクトルデータを、2値画像データに変換する。2値画像データは、「0」および「1」のうちのいずれかの値をとる画素から構成される画像を表すデータである。画像化手段12は、次に示す手順に従って、2次元ベクトルデータを2値画像データに変換する。
The imaging means 12 converts the two-dimensional vector data converted by the dimension reduction means 11 into binary image data. The binary image data is data representing an image composed of pixels having a value of either “0” or “1”. The
手順1では、2次元ベクトルデータが示す2次元ベクトルのXY座標における位置を座標(x,y)とするとき、xの最大値Xmax、yの最大値Ymax、xの最小値Xmin、およびyの最小値Yminを求め、さらにxの範囲Lx=Xmax−Xmin、およびyの範囲Ly=Ymax−Yminを求める。
In the
手順2では、2値画像データが示す画像の解像度をm×n、mおよびnを自然数、2次元ベクトルデータが示す2次元ベクトルの数をNとするとき、条件1および条件2を満たす最小のmおよびnを求める。条件1は、m:n=(Lx+1):(Ly+1)であり、条件2は、m×n≧Nである。条件1および条件2を満たすことによって、2次元ベクトルデータが示す2次元ベクトル間の距離関係つまり類似度関係を可能な限り保持したまま、2次元ベクトルデータを2値画像データに変換することができる。
In the
手順3では、画素のXY座標における位置を座標(X,Y)とするとき、変換式X=x×m/(Lx+1)およびY=y×n/(Ly+1)によって、2次元ベクトルデータが示す2次元ベクトルの座標(x,y)を、画素の座標(X,Y)に変換する。変換後、2次元ベクトルが変換された座標にある画素の値を「1」、2次元ベクトルが変換された座標にない画素の値を「0」とする。
In the
手順1〜3によって、2次元ベクトルデータが示す2次元ベクトル間の距離関係つまり類似度関係を可能な限り保持したまま、2次元ベクトルデータを2値画像データに変換することができる。
By the
図3は、画像化手段12によって変換された画像22の一例を示す図である。桝目の1つ1つの矩形が1つの画素221を表し、白色の矩形は画素値が「0」の画素であり、斜線を付した矩形は画素値が「1」の画素である。
FIG. 3 is a diagram illustrating an example of the image 22 converted by the
図4は、画像化手段12によって変換された画素のデータ構造31の一例を示す図である。各画素は、iおよびjを自然数とするとき、構造体型配列G[i][j]のデータ構造で表され、各G[i][j]は、画素値、クラスタ情報、ステータス情報および度数を含む。度数は、2次元ベクトルデータが2値画像データに変換に変換されたとき、各画素について、画素の座標(X,Y)が同じになる2次元ベクトルの数であり、「分布度数」ともいう。たとえば、画素の位置が座標(1,1)である画素に変換される2次元ベクトルの数が4個であると、その画素の度数は「4」となる。クラスタ情報およびステータス情報については、後述する。
FIG. 4 is a diagram illustrating an example of the
図4に示したデータ構造31では、画素G[1][1]の画素値は「1」であり、後述するステータス情報は「未処理」であり、度数は「4」である。同様に、画素G[2][1]の画素値は「1」であり、ステータス情報は「未処理」であり、度数は「5」である。画素G[3][1]の画素値は「1」であり、ステータス情報は「未処理」であり、度数は「7」である。画素G[m][n]の画素値は「0」であり、ステータス情報は「未処理」であり、度数は「0」である。
In the
図5は、領域抽出手段13によって抽出された初期領域が示された画像23の一例を示す図である。領域抽出手段13は、画像化手段12によって変換された2値画像データが示す画像を構成する画素のうち、画素値が「1」である画素の中から、隣接する画素同士を1つの領域として抽出し、抽出した領域を初期領域とする。隣接は、画素がX軸方向つまり図5に示した桝目の幅方向、またはY軸方向つまり図5に示した桝目の高さ方向に隣接することをいう。図5に示した画像23には、4つの初期領域23a〜23dが示されている。初期領域23aは4つの画素によって構成され、初期領域23bは1つの画素によって構成され、初期領域23cは3つの画素によって構成され、初期領域23dは2つの画素によって構成されている。
FIG. 5 is a diagram showing an example of an
図6は、領域抽出手段13による領域抽出処理後の画素のデータ構造32の一例を示す図である。クラスタ情報は、初期領域を識別するための番号である。ステータス情報は、初期領域を抽出する際に用いる画素の状態を示す情報であり、「未処理」はまだいずれの初期領域としても抽出されていないことを示し、「処理済」はすでにいずれかの初期領域として抽出されたことを示す。
FIG. 6 is a diagram illustrating an example of the
図6に示したデータ構造32では、画素G[1][1]のクラスタ情報は「1」であり、ステータス情報は「処理済」であり、度数は「4」である。同様に、画素G[2][1]のクラスタ情報は「1」であり、ステータス情報は「処理済」であり、度数は「5」である。画素G[3][1]のクラスタ情報は「1」であり、ステータス情報は「処理済」であり、度数は「7」である。画素G[m][n]のクラスタ情報は「k」であり、ステータス情報は「処理済」であり、度数は「2」である。
In the
クラスタ範囲決定手段14は、領域抽出手段13によって抽出された各初期領域に含まれる画素の度数の分布に基づいて、クラスタの範囲を決定する。すなわち、次元縮退手段11および画像化手段102は、隣接する画素を初期領域とすることによって、類似度の高いデータ同士を1つの領域とし、クラスタ範囲決定手段14は、度数の分布に基づいてクラスタの範囲を決定することによって、さらに類似度の高いデータ同士を1つのクラスタに集約する。
The cluster
領域抽出手段13によって抽出された各初期領域に含まれる画素の度数の分布は、複数の正規分布である2次元正規分布が混合された2次元混合正規分布であるとみなすことができる。すなわち、各初期領域を構成する画素の度数の分布が、複数の山が形成される2次元混合正規分布であり、複数の山のうちの各山がそれぞれ1つの2次元正規分布と仮定して、2次元混合正規分布を構成する2次元正規分布を抽出することができる。
The frequency distribution of the pixels included in each initial region extracted by the
2次元混合正規分布から2次元正規分布を抽出する方法として、たとえばEM(
Expectation Maximization)アルゴリズムを用いた方法がある。EMアルゴリズムは、尤度の期待値を求めるEステップ(Expectation Step)と、尤度の期待値を最大化するMステップ(Maximization Step)とを交互に繰り返すことによって、確かではない情報を含む観測データから最尤推定を行うための反復アルゴリズムである(たとえば赤穂昭太郎著、「EMアルゴリズムの幾何学」、情報処理Vol.37、No.1、1996年参照)。
As a method for extracting a two-dimensional normal distribution from a two-dimensional mixed normal distribution, for example, EM (
There is a method using the Expectation Maximization algorithm. The EM algorithm repeats an E step (Expectation Step) for obtaining the expected value of likelihood and an M step (Maximization Step) for maximizing the expected value of likelihood, thereby including observation data containing uncertain information. (See, for example, Shotaro Ako, “Geometry of the EM Algorithm”, Information Processing Vol. 37, No. 1, 1996).
クラスタ範囲決定手段14は、次に示す手順で2次元混合正規分布から2次元正規分布を抽出する。各初期領域の分布が2次元混合正規分布であり、各初期領域の各山が1つの2次元正規分布であると仮定して、EMアルゴリズムを用いた手順の例を示す。
The cluster
手順1では、各初期領域cの度数の分布について、EMアルゴリズムを用いて2次元正規分布を抽出する。ここに、cは1〜Uの自然数であり、Uは初期領域の数である。手順2では、各初期領域cについて抽出された各2次元正規分布について、X軸方向の平均xct、Y軸方向の平均yct、X軸方向の標準偏差σxct、およびY軸方向の標準偏差σyctを算出する。ここに、tは1〜Rの自然数であり、Rは初期領域で抽出された2次元正規分布の数である。
In the
手順3では、座標(xct,yct)を中心とし、X軸方向の半径をp×σxctとし、Y軸方向の半径をq×σyctとする楕円内の範囲をクラスタの範囲として決定する。ここに、pおよびqは、「3」以下の正の実数であり、pおよびqを変化させることによって所望のクラスタの範囲とすることができる。たとえば、X軸方向の正規分布を考えるとき、p=1とすると、クラスタの範囲に68.3%の画素を含めることができる。さらに、p=2とすると、95.4%の画素を含めることができ、p=3とすると、99.7%の画素を含めることができる。
In the
図7は、クラスタ範囲決定手段14によって抽出された2次元正規分布24の一例を示す図である。2次元正規分布24は、Y=X+aの直線241上での2次元正規分布であり、高さは各画素の度数242を示す。
FIG. 7 is a diagram illustrating an example of the two-dimensional
図8は、クラスタ範囲決定手段14によって抽出された2次元正規分布25の一例を示す図である。2次元正規分布25は、X軸方向の2次元正規分布である。範囲251は、クラスタのX軸方向の範囲であり、範囲251の長さは、X軸方向の半径がp×σxctの楕円のX軸方向の直径に相当する。
FIG. 8 is a diagram illustrating an example of the two-dimensional
図9は、クラスタ範囲決定手段14によるクラスタ範囲決定処理後の画素のデータ構造33の一例を示す図である。クラスタ範囲決定手段14によってクラスタの範囲が決定された後は、クラスタ情報は、クラスタを識別するための番号であり、各画素が入っているクラスタの範囲のクラスタの番号を示す。
FIG. 9 is a diagram illustrating an example of the
図9に示したデータ構造33では、画素G[1][1]のクラスタ情報は「1」であり、画素G[2][1]のクラスタ情報は「1」および「2」であり、画素G[3][1]のクラスタ情報は「2」であり、画素G[m][n]のクラスタ情報は「k’」である。画素G[2][1]は、クラスタ情報が「1」のクラスタの範囲と、クラスタ情報が「2」のクラスタの範囲に入っている。ステータス情報および度数は、図6に示したデータ構造32と同じであり、重複を避けるために説明は省略する。
In the
クラスタ決定手段15は、画素が、クラスタ範囲決定手段14によって決定されたクラスタの範囲内に入っているか否かによって、次に示す手順で画素を各クラスタに分類する。手順1では、各画素のクラスタ情報をチェックし、1つのクラスタの番号のみがある場合は、すなわち画素の度数が1つの正規分布のみを構成する度数の場合は、その画素をそのクラスタ情報が示す番号のクラスタに分類する。
The
手順2では、画素のクラスタ情報に、クラスタの番号がない場合は、すなわち、画素の度数がいずれの正規分布をも構成しない度数の場合は、その画素に最も距離が近いクラスタの範囲のクラスタに分類する。最も距離が近いクラスタが複数ある場合は、最も距離が近い複数のクラスタのうち、評価値Hの値が最大であるクラスタに分類する。評価値Hは、各クラスタに対応する2次正規分布のX軸方向の標準偏差とY軸方向の標準偏差との平均を、各2次正規分布のX軸方向の平均とY軸方向の平均との平均で除算した値であり、式H=((σxct+σyct)/2)/((xct+yct)/2)=(σxct+σyct)/(xct+yct)によって算出する。ここに、xctはX軸方向の平均、yctはY軸方向の平均、σxctはX軸方向の標準偏差、σyctはY軸方向の標準偏差である。
In
手順3では、画素のクラスタ情報に、複数のクラスタの番号がある場合は、すなわち、画素の度数の一部が複数の正規分布を構成する度数の場合は、その複数のクラスタのうち、評価値Hが最大であるクラスタに画素を分類する。
In the
図10は、クラスタ決定手段15によって画素がクラスタに分類された画像26の一例を示す図である。画像26には、3つのクラスタ26a〜26cが示されている。
FIG. 10 is a diagram illustrating an example of an
クラスタ決定手段15は、評価値Hを用いて画素を分類するので、いずれのクラスタの範囲にも入らない画素および複数のクラスタの範囲に入る画素を、度数がより小さく分散の大きい正規分布のクラスタに分類することができる。すなわち、画素をクラスタに分類することによって、画素に対応する多次元ベクトルをクラスタに分類することができるので、山の高さがより低くかつ広がりがより広い正規分布のクラスタに分類されるベクトル数を増加することができ、各クラスタのベクトル数の偏りをより低減することができる。
Since the
このように、入力手段10によって、多次元ベクトルを表す多次元ベクトルデータが入力され、次元縮退手段11によって、入力手段10によって入力された多次元ベクトルデータが、予め定める次元変換条件に従って2次元ベクトルを表す2次元ベクトルデータに変換される。 In this way, multidimensional vector data representing a multidimensional vector is input by the input means 10, and the multidimensional vector data input by the input means 10 by the dimension reduction means 11 is converted into a two-dimensional vector according to a predetermined dimension conversion condition. Is converted into two-dimensional vector data.
そして、画像化手段12によって、次元縮退手段11によって変換された2次元ベクトルデータが、対応する2次元ベクトルの有無を示す値で表され、かつ対応する2次元ベクトルの数を表す度数が付与される画素からなる画像を表す画像データに変換され、領域抽出手段13によって、画像化手段12によって変換された画像データが示す画素のうち、対応する2次元ベクトルが有ることを示す値で表される画素の中から、隣接する画素によって構成される初期領域が抽出される。
Then, the
さらに、クラスタ範囲決定手段14によって、領域抽出手段13によって抽出された各初期領域に含まれる画素に付与された度数の分布から、その分布を構成する正規分布が抽出され、抽出された正規分布ごとに、各正規分布の平均を中心とし、かつ標準偏差に基づいて決められる範囲がクラスタの範囲として決定され、クラスタ決定手段15によって、クラスタに分類される画素の数を均一化するための予め定める分類条件に従って、クラスタ範囲決定手段14によって範囲が決定されたクラスタに、各画素が分類される。
Further, a normal distribution constituting the distribution is extracted from the distribution of frequencies given to the pixels included in each initial region extracted by the
すなわち、画素をクラスタに分類することによって、画素に対応する多次元ベクトルをクラスタに分類することができるので、クラスタに分類される画素の数を均一化するための予め定める分類条件に従って、画素をクラスタに分類することによって、各クラスタに含まれるベクトル数の偏りをより少なくすることができる。文書データを多次元ベクトルデータとして表して、検索に適用すれば、文書データをより速く検索することができる。 That is, by classifying pixels into clusters, multi-dimensional vectors corresponding to the pixels can be classified into clusters. Therefore, according to a predetermined classification condition for equalizing the number of pixels classified into clusters, the pixels are classified. By classifying into clusters, the number of vectors included in each cluster can be reduced. If the document data is expressed as multidimensional vector data and applied to the search, the document data can be searched faster.
さらに、前記予め定める分類条件は、画素に付与される度数が1つの正規分布のみを構成する度数の場合は、その度数が付与される画素を、その度数が構成する正規分布に対応するクラスタに分類するし、画素に付与される度数の一部が複数の正規分布を構成する度数の場合は、その度数が付与される画素を、その度数の一部が構成する複数の正規分布のうち、正規分布の標準偏差を平均で除算した評価値が最も大きい正規分布に対応するクラスタに分類し、画素に付与される度数がいずれの正規分布をも構成しない度数の場合は、その度数が付与される画素を、その度数が付与される画素に最も近い範囲のクラスタのうち、前記評価値が最も大きいクラスタに分類することである。 Furthermore, when the predetermined classification condition is that the frequency given to a pixel is a frequency that constitutes only one normal distribution, the pixel to which the frequency is given is assigned to a cluster corresponding to the normal distribution that the frequency constitutes. If the frequency that is classified and a part of the frequency given to the pixel constitutes a plurality of normal distributions, the pixel to which the frequency is given is out of the plurality of normal distributions that constitute a part of the frequency, If the standard distribution of the normal distribution is divided into clusters corresponding to the normal distribution with the largest evaluation value divided by the average, and the frequency assigned to the pixel is a frequency that does not constitute any normal distribution, that frequency is assigned. Is classified into the cluster having the largest evaluation value among the clusters in the range closest to the pixel to which the frequency is given.
したがって、正規分布の標準偏差を平均で除算した評価値を用いることによって、正規分布を構成しない度数の画素および複数の正規分布を構成する度数の画素を、度数がより少なく分散の大きいクラスタに分類することができ、各クラスタに含まれる画素数つまりベクトル数の偏りをより少なくすることができる。 Therefore, by using the evaluation value obtained by dividing the standard deviation of the normal distribution by the average, the frequency pixels that do not constitute the normal distribution and the frequency pixels that constitute the plurality of normal distributions are classified into clusters with less frequency and greater variance. Thus, the deviation of the number of pixels, that is, the number of vectors included in each cluster can be further reduced.
図11は、画像化手段12が実行する画像化処理の処理手順を示すフローチャートである。次元縮退手段11によって多次元ベクトルデータが2次元ベクトルデータに変換された後、ステップA1に移る。
FIG. 11 is a flowchart showing the processing procedure of the imaging process executed by the
ステップA1では、2次元ベクトルデータが示す2次元ベクトルのXY座標における位置を座標(x,y)とするとき、xの最大値Xmax、yの最大値Ymax、xの最小値Xmin、およびyの最小値Yminから、xの範囲Lx=Xmax−Xmin、およびyの範囲Ly=Ymax−Yminを求める。ステップA2では、2値画像データが示す画像の解像度をm×n、文書データ数つまり2次元ベクトルの数をNとするとき、条件1および条件2を満たす最小のmおよびnを求める。条件1は、m:n=(Lx+1):(Ly+1)であり、条件2は、m×n≧Nである。ここに、mおよびnは自然数である。
In step A1, when the position in the XY coordinates of the two-dimensional vector indicated by the two-dimensional vector data is the coordinate (x, y), the maximum value Xmax of x, the maximum value Ymax of y, the minimum value Xmin of x, and the value of y From the minimum value Ymin, an x range Lx = Xmax−Xmin and a y range Ly = Ymax−Ymin are obtained. In step A2, the minimum m and n satisfying the
ステップA3では、2次元ベクトルデータが示す2次元ベクトルの位置を示す座標(x,y)を、式X=x×m/(Lx+1)、および式Y=y×n/(Ly+1)によって、2値画像データが示す画像上の画素の座標(X,Y)に変換する。変換後、2次元ベクトルデータが示す2次元ベクトルが対応している画素の値を「1」、2次元ベクトルデータが示す2次元ベクトルが対応していない画素の値を「0」として、画像化処理を終了する。ステップA1〜A3は、画像化ステップである。 In step A3, coordinates (x, y) indicating the position of the two-dimensional vector indicated by the two-dimensional vector data are expressed as 2 by the formula X = x × m / (Lx + 1) and the formula Y = y × n / (Ly + 1). Conversion is made to the coordinates (X, Y) of the pixel on the image indicated by the value image data. After conversion, the pixel value corresponding to the two-dimensional vector indicated by the two-dimensional vector data is “1”, and the pixel value not corresponding to the two-dimensional vector indicated by the two-dimensional vector data is “0”. The process ends. Steps A1 to A3 are imaging steps.
図12は、領域抽出手段13が実行する領域抽出処理の処理手順を示すフローチャートである。画像化手段12が、図11に示した画像化処理を終了すると、ステップB1に移る。
FIG. 12 is a flowchart showing a processing procedure of region extraction processing executed by the region extraction means 13. When the
ステップB1では、各画素G[i][j]について、画像化手段12による画像化処理の結果に基づいて画素値を「0」または「1」とし、ステータス情報を初期値として「未処理」とし、座標(i,j)つまり構造体型配列G[i][j]の初期値として、i=1,j=1とする。ステップB2では、i=i+1、j=1として順次画素をチェックする。ただし、i=1およびj=1のときは、この処理をパスする。
In step B1, for each pixel G [i] [j], the pixel value is set to “0” or “1” based on the result of the imaging process by the
ステップB3では、i=m+1であるか否かを判定する。i=m+1であると、ステップB11に進み、i=m+1でないと、ステップB4に進む。ステップB4では、ステータス情報が「未処理」であるか否かを判定する。ステータス情報が未処理であると、ステップB5に進み、ステータス情報が未処理でないと、ステップB2に戻る。ステップB5では、ステータス情報を「処理済」とする。ステップB6では、画素値が「1」であるか否かを判定する。画素値が「1」であると、ステップB7に進み、画素値が「1」でないと、ステップB2に戻る。 In step B3, it is determined whether i = m + 1. If i = m + 1, the process proceeds to step B11. If i = m + 1 is not satisfied, the process proceeds to step B4. In step B4, it is determined whether or not the status information is “unprocessed”. If the status information is unprocessed, the process proceeds to step B5. If the status information is not processed, the process returns to step B2. In step B5, the status information is set to “processed”. In Step B6, it is determined whether or not the pixel value is “1”. If the pixel value is “1”, the process proceeds to step B7. If the pixel value is not “1”, the process returns to step B2.
ステップB7では、座標(i,j)の画素に隣接する画素について順次画素値が「1」か否かを調べる。ステップB8では、隣接する画素で画素値が「1」、かつステータス情報が「未処理」のものがあるか否かを判定する。隣接する画素で画素値が「1」、かつステータス情報が「未処理」のものがあると、ステップB9に進み、隣接する画素で画素値が「1」、かつステータス情報が「未処理」のものがないと、ステップB13に進む。 In step B7, it is examined whether or not the pixel value of the pixel adjacent to the pixel at coordinates (i, j) is “1” sequentially. In step B8, it is determined whether there is an adjacent pixel having a pixel value “1” and status information “unprocessed”. If there is an adjacent pixel whose pixel value is “1” and status information is “unprocessed”, the process proceeds to step B9, where the adjacent pixel has a pixel value of “1” and status information is “unprocessed”. If there is nothing, the process proceeds to step B13.
ステップB9では、その隣接する画素へ移動する。すなわち座標(i,j)をその隣接する画素の座標にする。ステップB10では、移動した画素のステータス情報を「処理済」として、ステップB7に戻る。ステップB11では、i=1、j=j+1とする。ステップB12では、j=n+1であるか否かを判定する。j=n+1であると、領域抽出処理を終了し、j=n+1でないと、ステップB2に戻る。
In step B9, the pixel moves to the adjacent pixel. That is, the coordinates (i, j) are set to the coordinates of the adjacent pixels. In step B10, the status information of the moved pixel is set to “processed”, and the process returns to step B7. In step B11, i = 1 and j =
ステップB13では、隣接する4方向をチェックしたか否かを判定する。隣接する4方向をチェックした場合は、ステップB14に進み、隣接する4方向をチェックしない場合は、ステップB7に戻る。ステップB14では、最初の移動元であるか否かを判定する。最初の移動元であると、ステップB16に進み、最初の移動元でないと、ステップB15に進む。最初の移動元か否かは、たとえばステップB9で、隣接する画素に移動するとき、移動前の画素の座標(i,j)を順次記憶しておき、ステップB14で、最初の移動前の座標と同じであるか否かを判断する。 In step B13, it is determined whether or not four adjacent directions have been checked. If the adjacent four directions are checked, the process proceeds to step B14. If the adjacent four directions are not checked, the process returns to step B7. In step B14, it is determined whether or not it is the first movement source. If it is the first movement source, the process proceeds to step B16, and if it is not the first movement source, the process proceeds to step B15. For example, when moving to an adjacent pixel in step B9, the coordinates (i, j) of the pixel before the movement are sequentially stored in step B9, and the coordinates before the first movement are determined in step B14. It is determined whether or not the same.
ステップB15では、1つ前の移動元の画素に戻る。すなわち、画素の座標を1つ前に移動した移動前の画素の座標(i,j)に戻す。ステップB16では、画素値が「1」である隣接する画素を1つの初期領域として決定して、ステップB2に戻る。ステップB1〜ステップB16は、領域抽出ステップである。 In step B15, the process returns to the previous pixel of the movement source. That is, the pixel coordinate is returned to the coordinate (i, j) of the pixel before the movement that was moved one before. In step B16, an adjacent pixel whose pixel value is “1” is determined as one initial region, and the process returns to step B2. Steps B1 to B16 are region extraction steps.
図13は、クラスタ範囲決定手段14が実行するクラスタ範囲決定処理の処理手順を示すフローチャートである。領域抽出手段13が、図12に示した領域抽出処理を終了すると、ステップC1に移る。
FIG. 13 is a flowchart showing a processing procedure of cluster range determination processing executed by the cluster range determination means 14. When the
ステップC1では、各初期領域cについて、EMアルゴリズムを用いて、各初期領域の2次元混合正規分布からその分布を構成する2次元正規分布を求める。ここに、cは1〜Uの自然数であり、Uは初期領域の数である。ステップC2では、各初期領域cについて求められた各2次元正規分布の平均xctおよびyctと、標準偏差σxctおよびσyctとを求める。ここに、tは、1〜Rの自然数であり、Rは各2次元混合正規分布から求められた2次元正規分布の数である。 In step C1, for each initial region c, a two-dimensional normal distribution constituting the distribution is obtained from the two-dimensional mixed normal distribution of each initial region using the EM algorithm. Here, c is a natural number of 1 to U, and U is the number of initial regions. In step C2, the average xct and yct of each two-dimensional normal distribution obtained for each initial region c and the standard deviations σxct and σyct are obtained. Here, t is a natural number of 1 to R, and R is the number of two-dimensional normal distributions obtained from each two-dimensional mixed normal distribution.
ステップC3では、点(xct,yct)を中心とするX軸方向の半径p×σxct、およびY軸方向の半径p×σyctの楕円範囲をクラスタの範囲として、クラスタ範囲決定処理を終了する。ステップC1〜ステップC3は、クラスタ範囲決定ステップである。 In step C3, the cluster range determination process is terminated with the ellipse range having the radius p × σxct in the X-axis direction centered on the point (xct, yct) and the radius p × σyct in the Y-axis direction as the cluster range. Steps C1 to C3 are cluster range determination steps.
図14は、クラスタ決定手段15が実行するクラスタ決定処理の処理手順を示すフローチャートである。クラスタ範囲決定手段14が、図13に示したクラスタ範囲決定処理を終了すると、ステップD1に移る。 FIG. 14 is a flowchart showing a processing procedure of cluster determination processing executed by the cluster determination means 15. When the cluster range determining means 14 finishes the cluster range determining process shown in FIG. 13, the process proceeds to step D1.
ステップD1では、対応するクラスタが1つであるか否かを判定する。クラスタ情報に1つのクラスタの番号のみがあると、対応するクラスタが1つであると判定して、ステップD6に進む。クラスタ情報にあるクラスタの番号が1つのみでないと、対応するクラスタが1つでないと判定して、ステップD2に進む。ステップD2では、対応するクラスタがないか否かを判定する。クラスタ情報にクラスタの番号がないと、対応するクラスタがないと判定して、ステップD3に進む。クラスタ情報にクラスタの番号があると、対応するクラスタがあると判定して、ステップD7に進む。 In step D1, it is determined whether there is one corresponding cluster. If there is only one cluster number in the cluster information, it is determined that there is only one corresponding cluster, and the process proceeds to step D6. If there is not only one cluster number in the cluster information, it is determined that there is not one corresponding cluster, and the process proceeds to step D2. In step D2, it is determined whether or not there is a corresponding cluster. If there is no cluster number in the cluster information, it is determined that there is no corresponding cluster, and the process proceeds to step D3. If there is a cluster number in the cluster information, it is determined that there is a corresponding cluster, and the process proceeds to step D7.
ステップD3では、最短距離のクラスタが1つであるか否かを判定する。最短距離のクラスタが1つであると、ステップD6に進み、最短距離のクラスタが1つでないと、ステップD4に進む。ステップD4では、その画素を、複数の最短距離のクラスタのうち、評価値Hが最大のクラスタに分類する。評価値Hは、式H=(σxct+σyct)/(xct+yct)によって算出する。ここに、xctはX軸方向の平均、yctはY軸方向の平均、σxctはX軸方向の標準偏差、σyctはY軸方向の標準偏差である。 In step D3, it is determined whether or not there is one shortest distance cluster. If there is one shortest distance cluster, the process proceeds to step D6, and if there is not one shortest distance cluster, the process proceeds to step D4. In step D4, the pixel is classified into a cluster having the largest evaluation value H among a plurality of shortest distance clusters. The evaluation value H is calculated by the equation H = (σxct + σyct) / (xct + yct). Here, xct is an average in the X-axis direction, yct is an average in the Y-axis direction, σxct is a standard deviation in the X-axis direction, and σyct is a standard deviation in the Y-axis direction.
ステップD5では、すべての画素を分類したか否かを判定する。すべての画素を分類すると、クラスタ決定処理を終了し、すべての画素を分類していないと、ステップD1に戻り、次の画素について処理する。ステップD6では、その画素をそのクラスタに分類して、ステップD5に進む。ステップD7では、その画素を、対応する複数のクラスタのうち、評価値Hが最大のクラスタに分類して、ステップD5に進む。ステップD1〜ステップD7は、画素分類ステップである。 In step D5, it is determined whether or not all the pixels have been classified. When all the pixels are classified, the cluster determination process is terminated. When all the pixels are not classified, the process returns to step D1 to process the next pixel. In step D6, the pixel is classified into the cluster, and the process proceeds to step D5. In step D7, the pixel is classified into a cluster having the largest evaluation value H among the corresponding clusters, and the process proceeds to step D5. Steps D1 to D7 are pixel classification steps.
画素をクラスタに分類することによって、画素に対応する多次元ベクトルをクラスタに分類することができる。評価値Hを用いて画素を分類するので、いずれのクラスタの範囲にも入らない画素および複数のクラスタの範囲に入る画素を、度数がより小さく分散の大きい正規分布のクラスタに分類することができる。したがって、山の高さがより低くかつ広がりがより広い正規分布のクラスタに分類されるベクトル数を増加することができ、各クラスタのベクトル数の偏りをより低減することができる。
このように、入力手段10によって処理されるステップでは、多次元ベクトルを表す多次元ベクトルデータを入力する。次元縮退手段11によって処理されるステップでは、入力手段10によって処理されるステップで入力された多次元ベクトルデータを、予め定める次元変換条件に従って2次元ベクトルを表す2次元ベクトルデータに変換する。
By classifying pixels into clusters, multidimensional vectors corresponding to the pixels can be classified into clusters. Since the pixels are classified using the evaluation value H, the pixels that do not fall within any cluster range and the pixels that fall within a plurality of cluster ranges can be classified into normal distribution clusters with smaller frequency and greater variance. . Therefore, it is possible to increase the number of vectors classified into clusters of normal distribution having a lower peak height and wider spread, and it is possible to further reduce the bias in the number of vectors of each cluster.
Thus, in the step processed by the input means 10, multidimensional vector data representing a multidimensional vector is input. In the step processed by the dimension reduction means 11, the multidimensional vector data input in the step processed by the input means 10 is converted into two-dimensional vector data representing a two-dimensional vector according to a predetermined dimension conversion condition.
図11に示したフローチャートのステップA1〜ステップA3では、次元縮退手段11によって処理されるステップで変換された2次元ベクトルデータを、対応する2次元ベクトルの有無を示す値で表され、かつ対応する2次元ベクトルの数を表す度数が付与される画素からなる画像を表す画像データに変換する。図12に示したフローチャートのステップB1〜ステップB16では、図11に示したフローチャートのステップA1〜ステップA3で変換された画像データが示す画素のうち、対応する2次元ベクトルが有ることを示す値で表される画素の中から、隣接する画素によって構成される領域を抽出する。 In step A1 to step A3 of the flowchart shown in FIG. 11, the two-dimensional vector data converted in the step processed by the dimension reduction means 11 is represented by a value indicating the presence or absence of the corresponding two-dimensional vector and corresponds. Conversion into image data representing an image composed of pixels to which a frequency representing the number of two-dimensional vectors is given. Steps B1 to B16 in the flowchart shown in FIG. 12 are values indicating that there is a corresponding two-dimensional vector among the pixels indicated by the image data converted in steps A1 to A3 in the flowchart shown in FIG. A region constituted by adjacent pixels is extracted from the represented pixels.
図13に示したフローチャートのステップC1〜ステップC3では、図12に示したフローチャートのステップB1〜ステップB16で抽出された各領域に含まれる画素に付与された度数の分布から、その分布を構成する正規分布を抽出し、抽出した正規分布ごとに、各正規分布の平均を中心とし、かつ標準偏差に基づいて決められる範囲をクラスタの範囲として決定する。そして、図14に示したフローチャートのステップD1〜ステップD7では、クラスタに分類される画素の数を均一化するための予め定める分類条件に従って、図13に示したフローチャートのステップC1〜ステップC3で範囲が決定されたクラスタに、各画素を分類する。 In Step C1 to Step C3 of the flowchart shown in FIG. 13, the distribution is configured from the distribution of the frequencies given to the pixels included in each region extracted in Step B1 to Step B16 of the flowchart shown in FIG. A normal distribution is extracted, and for each extracted normal distribution, a range determined based on the average of each normal distribution and based on the standard deviation is determined as a cluster range. Then, in steps D1 to D7 of the flowchart shown in FIG. 14, the range is set in steps C1 to C3 of the flowchart shown in FIG. 13 according to a predetermined classification condition for equalizing the number of pixels classified into clusters. Each pixel is classified into the cluster in which is determined.
すなわち、本発明に係るクラスタリング方法を適用すれば、画素をクラスタに分類することによって、画素に対応する多次元ベクトルをクラスタに分類することができるので、クラスタに分類される画素の数を均一化するための予め定める分類条件に従って、画素をクラスタに分類することによって、各クラスタに含まれるベクトル数の偏りをより少なくすることができる。文書データを多次元ベクトルデータとして表して、検索に適用すれば、文書データをより速く検索することができる。 In other words, by applying the clustering method according to the present invention, it is possible to classify pixels into clusters, thereby classifying multi-dimensional vectors corresponding to pixels into clusters, so that the number of pixels classified into clusters is made uniform. By classifying pixels into clusters in accordance with predetermined classification conditions for performing the above, it is possible to further reduce the bias of the number of vectors included in each cluster. If the document data is expressed as multidimensional vector data and applied to the search, the document data can be searched faster.
クラスタリング自動化装置1を制御するプログラムは、コンピュータに、本発明に係るクラスタリング方法の各ステップを実行させるためのプログラムでもある。したがって、本発明は、コンピュータにクラスタリング方法の各ステップを実行させるためのプログラムとして提供することができる。
The program for controlling the
上述した実施の形態では、プログラムは、コンピュータの記憶装置たとえば半導体メモリあるいはハードディスク装置などの記憶装置に記憶されているが、これらの記憶装置に限定されるものではなく、コンピュータで読取り可能な記録媒体に記録されていてもよい。記録媒体は、たとえば図示しない外部記憶装置としてプログラム読取装置を設け、そこに記録媒体を挿入することによって読取り可能な記録媒体であってもよいし、あるいは他の装置の記憶装置であってもよい。 In the above-described embodiment, the program is stored in a storage device of a computer such as a semiconductor memory or a hard disk device. However, the program is not limited to these storage devices, and a computer-readable recording medium. May be recorded. The recording medium may be a recording medium that can be read by providing a program reading device as an external storage device (not shown) and inserting the recording medium therein, or may be a storage device of another device. .
いずれの記録媒体であっても、記憶されているプログラムがコンピュータからアクセスされて実行される構成であればよい。あるいはいずれの記録媒体であっても、プログラムが読み出され、読み出されたプログラムが、記憶装置のプログラム記憶エリアに記憶されて、そのプログラムが実行される構成であってもよい。さらに通信ネットワークを介して他の装置からダウンロードされてプログラム記憶エリアに記憶させてもよい。ダウンロード用のプログラムは、予めコンピュータの記憶装置に記憶しておくか、あるいは別な記録媒体からプログラム記憶エリアにインストールしておく。 Any recording medium may be used as long as the stored program is accessed from a computer and executed. Alternatively, any recording medium may be configured such that the program is read, the read program is stored in the program storage area of the storage device, and the program is executed. Further, it may be downloaded from another device via a communication network and stored in the program storage area. The download program is stored in advance in a storage device of a computer, or installed in a program storage area from another recording medium.
本体と分離可能に構成される記録媒体は、たとえば磁気テープ/カセットテープなどのテープ系の記録媒体、フレキシブルディスク/ハードディスクなどの磁気ディスクもしくはCD−ROM(Compact Disk Read Only Memory)/MO(Magneto Optical disk)/MD(Mini Disc)/DVD(Digital Versatile Disk)などの光ディスクのディスク系の記録媒体、IC(Integrated Circuit)カード(メモリカードを含む)/光カードなどのカード系の記録媒体、またはマスクROM/EPROM(Erasable Programmable Read Only Memory)/EEPROM(Electrically Erasable Programmable Read Only
Memory)/フラッシュROMなどの半導体メモリを含む固定的にプログラムを担持する記録媒体であってもよい。したがって、本発明は、コンピュータにクラスタリング方法の各ステップを実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体として提供することができる。
The recording medium configured to be separable from the main body is, for example, a tape-based recording medium such as a magnetic tape / cassette tape, a magnetic disk such as a flexible disk / hard disk, or a CD-ROM (Compact Disk Read Only Memory) / MO (Magneto Optical). disk) / MD (Mini Disc) / DVD (Digital Versatile Disk) and other optical disk recording media, IC (Integrated Circuit) cards (including memory cards) / optical cards and other card recording media, or masks ROM / EPROM (Erasable Programmable Read Only Memory) / EEPROM (Electrically Erasable Programmable Read Only)
Memory) / a recording medium that carries a fixed program including a semiconductor memory such as a flash ROM. Therefore, the present invention can be provided as a computer-readable recording medium recording a program for causing a computer to execute each step of the clustering method.
1 クラスタリング自動化装置
10 多次元ベクトルデータ入力手段
11 次元縮退手段
12 画像化手段
13 領域抽出手段
14 クラスタ範囲決定手段
15 クラスタ決定手段
16 多次元ベクトルデータ記憶手段
DESCRIPTION OF
Claims (5)
入力手段によって入力された多次元ベクトルデータを、予め定める次元変換方式によって2次元ベクトルを表す2次元ベクトルデータに変換する次元変換手段と、
次元変換手段によって変換された2次元ベクトルデータを、対応する2次元ベクトルの有無を示す値で表され、かつ対応する2次元ベクトルの数を表す度数が付与される画素からなる画像を表す画像データに変換する画像化手段と、
画像化手段によって変換された画像データが示す画素のうち、対応する2次元ベクトルが有ることを示す値で表される画素の中から、隣接する画素によって構成される領域を抽出する領域抽出手段と、
領域抽出手段によって抽出された各領域に含まれる画素に付与された度数の分布から、その分布を構成する正規分布を抽出し、抽出した正規分布ごとに、各正規分布の平均を中心とし、かつ標準偏差に基づいて決められる範囲をクラスタの範囲として決定するクラスタ範囲決定手段と、
クラスタに分類される画素の数を均一化するための予め定める分類条件に従って、クラスタ範囲決定手段によって範囲が決定されたクラスタに、各画素を分類する画素分類手段とを含むこと特徴とするクラスタリング装置。 Input means for inputting multidimensional vector data representing a multidimensional vector;
Dimension conversion means for converting the multidimensional vector data input by the input means into two-dimensional vector data representing a two-dimensional vector by a predetermined dimension conversion method;
Image data representing an image composed of pixels to which the two-dimensional vector data converted by the dimension conversion means is represented by a value indicating the presence or absence of the corresponding two-dimensional vector and to which a frequency indicating the number of the corresponding two-dimensional vector is given. Imaging means for converting to
A region extracting unit that extracts a region constituted by adjacent pixels from pixels represented by values indicating that there is a corresponding two-dimensional vector among the pixels represented by the image data converted by the imaging unit; ,
From the frequency distribution given to the pixels included in each region extracted by the region extraction means, a normal distribution constituting the distribution is extracted, and for each extracted normal distribution, the average of each normal distribution is centered, and Cluster range determining means for determining a range determined based on the standard deviation as a cluster range;
A clustering apparatus comprising: a cluster whose range is determined by a cluster range determination unit according to a predetermined classification condition for equalizing the number of pixels classified into clusters; and a pixel classification unit that classifies each pixel. .
画素に付与される度数が1つの正規分布のみを構成する度数の場合は、その度数が付与される画素を、その度数が構成する正規分布に対応するクラスタに分類し、
画素に付与される度数の一部が複数の正規分布を構成する度数の場合は、その度数が付与される画素を、その度数の一部が構成する複数の正規分布のうち、正規分布の標準偏差を平均で除算した評価値が最も大きい正規分布に対応するクラスタに分類し、
画素に付与される度数がいずれの正規分布をも構成しない度数の場合は、その度数が付与される画素を、その度数が付与される画素に最も近い範囲のクラスタのうち、前記評価値が最も大きいクラスタに分類することを特徴とする請求項1に記載のクラスタリング装置。 The predetermined classification conditions are:
If the frequency given to a pixel is a frequency that constitutes only one normal distribution, classify the pixel to which the frequency is given into a cluster corresponding to the normal distribution that the frequency constitutes,
When a part of the frequency assigned to a pixel is a frequency that forms a plurality of normal distributions, the pixel to which the frequency is assigned is selected from the normal distributions that are part of the frequency. Classify the cluster into the cluster corresponding to the normal distribution with the largest evaluation value divided by the mean,
When the frequency given to a pixel is a frequency that does not constitute any normal distribution, the evaluation value is the highest among the clusters in the range closest to the pixel to which the frequency is assigned. The clustering apparatus according to claim 1, wherein the clustering apparatus is classified into large clusters.
入力ステップで入力された多次元ベクトルデータを、予め定める次元変換条件に従って2次元ベクトルを表す2次元ベクトルデータに変換する次元変換ステップと、
次元変換ステップで変換された2次元ベクトルデータを、対応する2次元ベクトルの有無を示す値で表され、かつ対応する2次元ベクトルの数を表す度数が付与される画素からなる画像を表す画像データに変換する画像化ステップと、
画像化ステップで変換された画像データが示す画素のうち、対応する2次元ベクトルが有ることを示す値で表される画素の中から、隣接する画素によって構成される領域を抽出する領域抽出ステップと、
領域抽出ステップで抽出された各領域に含まれる画素に付与された度数の分布から、その分布を構成する正規分布を抽出し、抽出した正規分布ごとに、各正規分布の平均を中心とし、かつ標準偏差に基づいて決められる範囲をクラスタの範囲として決定するクラスタ範囲決定ステップと、
クラスタに分類される画素の数を均一化するための予め定める分類条件に従って、クラスタ範囲決定ステップで範囲が決定されたクラスタに、各画素を分類する画素分類ステップとを含むこと特徴とするクラスタリング方法。 An input step for inputting multidimensional vector data representing the multidimensional vector;
A dimension conversion step of converting the multidimensional vector data input in the input step into two-dimensional vector data representing a two-dimensional vector according to a predetermined dimension conversion condition;
Image data representing an image made up of pixels to which the two-dimensional vector data converted in the dimension conversion step is represented by a value indicating the presence or absence of the corresponding two-dimensional vector and to which a frequency representing the number of the corresponding two-dimensional vector is given. An imaging step to convert to
An area extraction step for extracting an area constituted by adjacent pixels from pixels represented by values indicating that there is a corresponding two-dimensional vector among the pixels indicated by the image data converted in the imaging step; ,
From the frequency distribution given to the pixels included in each region extracted in the region extraction step, a normal distribution that constitutes the distribution is extracted, and for each extracted normal distribution, the average of each normal distribution is centered, and A cluster range determining step for determining a range determined based on the standard deviation as a cluster range;
A clustering method comprising: a pixel classification step for classifying each pixel into a cluster whose range is determined in the cluster range determination step according to a predetermined classification condition for equalizing the number of pixels classified into clusters. .
入力ステップで入力された多次元ベクトルデータを、予め定める次元変換条件に従って2次元ベクトルを表す2次元ベクトルデータに変換する次元変換ステップと、
次元変換ステップで変換された2次元ベクトルデータを、対応する2次元ベクトルの有無を示す値で表され、かつ対応する2次元ベクトルの数を表す度数が付与される画素からなる画像を表す画像データに変換する画像化ステップと、
画像化ステップで変換された画像データが示す画素のうち、対応する2次元ベクトルが有ることを示す値で表される画素の中から、隣接する画素によって構成される領域を抽出する領域抽出ステップと、
領域抽出ステップで抽出された各領域に含まれる画素に付与された度数の分布から、その分布を構成する正規分布を抽出し、抽出した正規分布ごとに、各正規分布の平均を中心とし、かつ標準偏差に基づいて決められる範囲をクラスタの範囲として決定するクラスタ範囲決定ステップと、
クラスタに分類される画素の数を均一化するための予め定める分類条件に従って、クラスタ範囲決定ステップで範囲が決定されたクラスタに、各画素を分類する画素分類ステップとを、コンピュータに実行させるためのプログラム。 An input step for inputting multidimensional vector data representing the multidimensional vector;
A dimension conversion step of converting the multidimensional vector data input in the input step into two-dimensional vector data representing a two-dimensional vector according to a predetermined dimension conversion condition;
Image data representing an image made up of pixels to which the two-dimensional vector data converted in the dimension conversion step is represented by a value indicating the presence or absence of the corresponding two-dimensional vector and to which a frequency representing the number of the corresponding two-dimensional vector is given. An imaging step to convert to
An area extraction step for extracting an area constituted by adjacent pixels from pixels represented by values indicating that there is a corresponding two-dimensional vector among the pixels indicated by the image data converted in the imaging step; ,
From the frequency distribution given to the pixels included in each region extracted in the region extraction step, a normal distribution that constitutes the distribution is extracted, and for each extracted normal distribution, the average of each normal distribution is centered, and A cluster range determining step for determining a range determined based on the standard deviation as a cluster range;
In order to cause a computer to execute a pixel classification step for classifying each pixel in a cluster whose range is determined in a cluster range determination step according to a predetermined classification condition for equalizing the number of pixels classified into clusters. program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007216509A JP2009048575A (en) | 2007-08-22 | 2007-08-22 | Clustering device, clustering method, program, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007216509A JP2009048575A (en) | 2007-08-22 | 2007-08-22 | Clustering device, clustering method, program, and recording medium |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009048575A true JP2009048575A (en) | 2009-03-05 |
Family
ID=40500698
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007216509A Pending JP2009048575A (en) | 2007-08-22 | 2007-08-22 | Clustering device, clustering method, program, and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009048575A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2013001720A1 (en) * | 2011-06-30 | 2015-02-23 | 三菱電機株式会社 | Image encoding device, image decoding device, image encoding method, and image decoding method |
CN116662588A (en) * | 2023-08-01 | 2023-08-29 | 山东省大数据中心 | Intelligent searching method and system for mass data |
-
2007
- 2007-08-22 JP JP2007216509A patent/JP2009048575A/en active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2013001720A1 (en) * | 2011-06-30 | 2015-02-23 | 三菱電機株式会社 | Image encoding device, image decoding device, image encoding method, and image decoding method |
CN116662588A (en) * | 2023-08-01 | 2023-08-29 | 山东省大数据中心 | Intelligent searching method and system for mass data |
CN116662588B (en) * | 2023-08-01 | 2023-10-10 | 山东省大数据中心 | Intelligent searching method and system for mass data |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2012261715B2 (en) | Method, apparatus and system for generating a feature vector | |
US8634644B2 (en) | System and method for identifying pictures in documents | |
JP4973063B2 (en) | Table data processing method and apparatus | |
CN111428457B (en) | Automatic formatting of data tables | |
JP6188976B2 (en) | Method, apparatus and computer-readable recording medium for detecting text contained in an image | |
JP4177865B2 (en) | Vector graphics shape data generation device, drawing device, method and program | |
JP2005085166A (en) | Method and system for generating graphic image, and method, system and program for analyzing data | |
JP2007012074A (en) | White space graph and tree for content-adaptive scaling of document image | |
US8429588B2 (en) | Method and mechanism for extraction and recognition of polygons in an IC design | |
CN116483644B (en) | Log search method for chip verification test regression, electronic equipment and medium | |
US20220327158A1 (en) | Information processing apparatus, information processing method, and program | |
CN114254071A (en) | Querying semantic data from unstructured documents | |
JP2009087057A (en) | Clustering device for clustering vector data, clustering method, program, and recording medium | |
US6560359B2 (en) | Data processing method and apparatus | |
US11055526B2 (en) | Method, system and apparatus for processing a page of a document | |
JP2009048575A (en) | Clustering device, clustering method, program, and recording medium | |
CN115204318B (en) | Event automatic hierarchical classification method and electronic equipment | |
JP2002133411A (en) | Information processing method, information processor and program | |
JP2004046612A (en) | Data matching method and device, data matching program, and computer readable recording medium | |
JP4949996B2 (en) | Image processing apparatus, image processing method, program, and recording medium | |
Hwang et al. | SEMI-PointRend: improved semiconductor wafer defect classification and segmentation as rendering | |
Verma et al. | Machine-learning-based image feature selection | |
JP2008165572A (en) | Data classification device and data classification program | |
JP2011018311A (en) | Device and program for retrieving image, and recording medium | |
JP2019096118A (en) | Pattern recognition program, device and method |