JP2009048575A - Clustering device, clustering method, program, and recording medium - Google Patents

Clustering device, clustering method, program, and recording medium Download PDF

Info

Publication number
JP2009048575A
JP2009048575A JP2007216509A JP2007216509A JP2009048575A JP 2009048575 A JP2009048575 A JP 2009048575A JP 2007216509 A JP2007216509 A JP 2007216509A JP 2007216509 A JP2007216509 A JP 2007216509A JP 2009048575 A JP2009048575 A JP 2009048575A
Authority
JP
Japan
Prior art keywords
cluster
pixels
pixel
frequency
dimensional vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007216509A
Other languages
Japanese (ja)
Inventor
Masatsugu Minamishima
正嗣 南嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2007216509A priority Critical patent/JP2009048575A/en
Publication of JP2009048575A publication Critical patent/JP2009048575A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a clustering device capable of reducing a lack of balance in the number of vectors included in each cluster, a clustering method, a program and a recording medium. <P>SOLUTION: A dimension degenerating means 11 converts multidimensional vector data into two-dimensional vector data, and an imaging means 12 converts the two-dimensional vector data into binary image data. An area extracting means 13 extracts an initial area composed of adjacent pixels among pixels corresponding to a two-dimensional vector out of pixels composing an image which the binary image data shows. A cluster range determining means 14 extracts two-dimensional normal distribution from the frequency distribution of pixels for every initial areas, and determines a cluster range based on the average and standard deviation of every extracted two-dimensional normal distribution. A cluster determining means 15 classifies the pixels into clusters according to an evaluation value H and whether the pixels are included in the cluster range. <P>COPYRIGHT: (C)2009,JPO&INPIT

Description

本発明は、複数の要素からなる集合を部分集合であるクラスタに分割するクラスタリング装置、クラスタリング方法、プログラムおよび記録媒体に関し、より詳細には、多次元ベクトルの集合をベクトル間の類似度に基づいてクラスタに分割するクラスタリング装置、クラスタリング方法、プログラムおよび記録媒体に関する。   The present invention relates to a clustering device, a clustering method, a program, and a recording medium that divide a set of a plurality of elements into clusters that are subsets. More specifically, the present invention relates to a set of multidimensional vectors based on similarity between vectors. The present invention relates to a clustering apparatus, a clustering method, a program, and a recording medium that divide into clusters.

複数の要素からなる集合の中から類似する要素を見つけ出して、集合をいくつかの部分集合に分割することをクラスタリングという。クラスタリングは、ウェブ(Web)あるいは企業内などで利用される大量の情報の分類に適用され、クラスタリングによって大量の情報を類似する情報に分割することができる。クラスタリングは、必要とする情報を速く見つけることを可能とし、さらに類似する情報の特長を情報の概要として示すことを可能とすることができるので、情報の検索に利用することができる。   Finding similar elements from a set of a plurality of elements and dividing the set into several subsets is called clustering. Clustering is applied to classification of a large amount of information used on the web (Web) or in a company, and a large amount of information can be divided into similar information by clustering. Clustering makes it possible to quickly find necessary information and to show similar information features as an outline of the information, so that it can be used for information retrieval.

ベクトルの集合のクラスタリングには、階層的クラスタリングと非階層的クラスタリングとがある。   Clustering of a set of vectors includes hierarchical clustering and non-hierarchical clustering.

階層的クラスタリングは、たとえば集合にN個のベクトルが含まれる場合、まず個々のベクトルからなるN個のクラスタを形成する。次に、2つのベクトルの距離に基づいて、各ベクトルをそれぞれ含む2つのクラスタ間の距離を計算し、クラスタ間の距離が最も小さい2つのクラスタ同士を1つに併合する。そして、この併合を、すべてのクラスタが1つのクラスタに併合されるまで順次繰り返して、クラスタの階層構造を形成する。たとえばクラスタの数をk個と決めて、k個のクラスタからなる階層で区切ることによって、ベクトルをk個のクラスタに分類することができる。   In the hierarchical clustering, for example, when N sets are included in a set, N clusters composed of individual vectors are first formed. Next, based on the distance between the two vectors, a distance between two clusters each including each vector is calculated, and two clusters having the smallest distance between the clusters are merged into one. This merging is sequentially repeated until all the clusters are merged into one cluster to form a cluster hierarchical structure. For example, a vector can be classified into k clusters by determining the number of clusters as k and dividing the hierarchy by a hierarchy of k clusters.

非階層的クラスタリングは、階層構造を用いないでベクトルを分類するクラスタリングである。代表的な非階層的クラスタリングとして、k平均法(以下「k-means法」という)がある。k-means法は、ベクトル間の距離に応じてk個のクラスタに分類する。集合に含まれるベクトルの数をN個、クラスタの数をk個とするときのk-means法によるクラスタリングの手順を示す。   Non-hierarchical clustering is clustering that classifies vectors without using a hierarchical structure. As a typical non-hierarchical clustering, there is a k-means method (hereinafter referred to as “k-means method”). The k-means method classifies into k clusters according to the distance between vectors. The procedure of clustering by the k-means method when the number of vectors included in the set is N and the number of clusters is k is shown.

手順1では、N個のベクトルの中の任意のk個のベクトルを、k個のクラスタのそれぞれの中心を示すベクトルの初期値とする。手順2では、N個のベクトルを、クラスタの中心のベクトルが最も近いクラスタに分類する。手順3では、各クラスタに含まれるベクトルの平均を新たなクラスタの中心とする。手順4では、クラスタの中心が変化しなくなるまで手順2および手順3を繰り返して、クラスタの中心が変化しなくなったところで終了する。   In the procedure 1, any k vectors among the N vectors are set as initial values of vectors indicating the centers of the k clusters. In the procedure 2, the N vectors are classified into clusters having the closest cluster center vector. In procedure 3, the average of the vectors included in each cluster is set as the center of the new cluster. In step 4, step 2 and step 3 are repeated until the center of the cluster no longer changes, and the process ends when the center of the cluster no longer changes.

上述した階層的クラスタリングおよびk-means法による非階層的クラスタリングはいずれも、クラスタ数kを人手によって指定する必要がある。   In the above-described hierarchical clustering and non-hierarchical clustering by the k-means method, it is necessary to manually specify the number k of clusters.

クラスタ数kを人手によって指定しなくともよい従来の技術の例として、文書の自動分類方法がある。この文書の自動分類方法は、処理時間が許容時間内になるようにクラスタ数を決定し、文書の内容を表現する意味要素の強さに応じて、文書をベクトルで表現して分類する(たとえば特許文献1参照)。   As an example of a conventional technique that does not require manually specifying the number of clusters k, there is an automatic document classification method. In this document automatic classification method, the number of clusters is determined so that the processing time is within an allowable time, and the document is expressed as a vector and classified according to the strength of the semantic element expressing the content of the document (for example, Patent Document 1).

特開平10−171823号公報Japanese Patent Laid-Open No. 10-171823

しかしながら、上述した従来の技術の例では、クラスタ数を自動的に決定することができても、各クラスタに含まれるベクトル数に偏りが生じる可能性があるという問題がある。たとえば、階層的クラスタリングは、クラスタ数によっては、全ベクトル数の2%のベクトルを含むクラスタと全ベクトル数の40%のベクトルを含むクラスタとに分類されるというように、各クラスタに含まれるベクトル数に偏りが生じる場合がある。   However, in the above-described prior art example, there is a problem that even if the number of clusters can be automatically determined, the number of vectors included in each cluster may be biased. For example, hierarchical clustering is classified into a cluster including 2% of all vectors and a cluster including 40% of all vectors, depending on the number of clusters. Numbers may be biased.

この階層的クラスタリングを情報の検索に利用して、検索結果を表示するとき、1つのクラスタに分類されるベクトルの数が多い場合は、類似する文書の数が多くなるので、所望の文書を見つけるのに多くの時間がかかる。あるいは表示される文書の数が少ない場合は、その中に所望の文書が含まれないことがあり得る。   When this hierarchical clustering is used for information retrieval and the retrieval result is displayed, if there are many vectors classified into one cluster, the number of similar documents increases, and thus a desired document is found. It takes a lot of time. Or when there are few documents displayed, a desired document may not be contained in it.

この偏りを是正するためには、階層構造を図示したデンドログラムつまり樹形図を用いて、人手によって、ベクトル数の多いクラスタをより低い階層で分割し、あるいは、ベクトル数の少ないクラスタをより高い階層で併合する必要がある。   To correct this bias, use a dendrogram or tree diagram to illustrate the hierarchical structure, and manually divide clusters with a large number of vectors into lower layers, or clusters with a small number of vectors to a higher level. Need to merge in hierarchy.

k-means法による非階層的クラスタリングは、手順1でのクラスタの中心の初期値の決め方によって、クラスタリングの結果に差が生じる。たとえば、クラスタの初期値の中心が特定の領域に集中し、かつ1つのクラスタの初期値の中心がその領域から離れている場合、階層的クラスタリングと同様に、各クラスタに含まれるベクトル数に偏りが生じる。この偏りを是正するためには、クラスタリングの結果を人手によって修正する必要がある。   In the non-hierarchical clustering by the k-means method, the result of clustering differs depending on how the initial value of the center of the cluster is determined in step 1. For example, if the center of the initial value of a cluster is concentrated in a specific area, and the center of the initial value of one cluster is far from that area, the number of vectors contained in each cluster is biased, as in hierarchical clustering. Occurs. In order to correct this bias, it is necessary to manually correct the clustering result.

本発明の目的は、各クラスタに含まれるベクトル数の偏りをより少なくすることができるクラスタリング装置、クラスタリング方法、プログラムおよび記録媒体を提供することである。   An object of the present invention is to provide a clustering device, a clustering method, a program, and a recording medium that can reduce the deviation of the number of vectors included in each cluster.

本発明は、多次元ベクトルを表す多次元ベクトルデータを入力する入力手段と、
入力手段によって入力された多次元ベクトルデータを、予め定める次元変換方式によって2次元ベクトルを表す2次元ベクトルデータに変換する次元変換手段と、
次元変換手段によって変換された2次元ベクトルデータを、対応する2次元ベクトルの有無を示す値で表され、かつ対応する2次元ベクトルの数を表す度数が付与される画素からなる画像を表す画像データに変換する画像化手段と、
画像化手段によって変換された画像データが示す画素のうち、対応する2次元ベクトルが有ることを示す値で表される画素の中から、隣接する画素によって構成される領域を抽出する領域抽出手段と、
領域抽出手段によって抽出された各領域に含まれる画素に付与された度数の分布から、その分布を構成する正規分布を抽出し、抽出した正規分布ごとに、各正規分布の平均を中心とし、かつ標準偏差に基づいて決められる範囲をクラスタの範囲として決定するクラスタ範囲決定手段と、
クラスタに分類される画素の数を均一化するための予め定める分類条件に従って、クラスタ範囲決定手段によって範囲が決定されたクラスタに、各画素を分類する画素分類手段とを含むこと特徴とするクラスタリング装置である。
The present invention provides an input means for inputting multidimensional vector data representing a multidimensional vector;
Dimension conversion means for converting the multidimensional vector data input by the input means into two-dimensional vector data representing a two-dimensional vector by a predetermined dimension conversion method;
Image data representing an image composed of pixels to which the two-dimensional vector data converted by the dimension conversion means is represented by a value indicating the presence or absence of the corresponding two-dimensional vector and to which a frequency indicating the number of the corresponding two-dimensional vector is given. Imaging means for converting to
A region extracting unit that extracts a region constituted by adjacent pixels from pixels represented by values indicating that there is a corresponding two-dimensional vector among the pixels represented by the image data converted by the imaging unit; ,
From the frequency distribution given to the pixels included in each region extracted by the region extraction means, a normal distribution constituting the distribution is extracted, and for each extracted normal distribution, the average of each normal distribution is centered, and Cluster range determining means for determining a range determined based on the standard deviation as a cluster range;
A clustering apparatus comprising: a cluster whose range is determined by a cluster range determination unit according to a predetermined classification condition for equalizing the number of pixels classified into clusters; and a pixel classification unit that classifies each pixel. It is.

また本発明は、前記予め定める分類条件は、
画素に付与される度数が1つの正規分布のみを構成する度数の場合は、その度数が付与される画素を、その度数が構成する正規分布に対応するクラスタに分類し、
画素に付与される度数の一部が複数の正規分布を構成する度数の場合は、その度数が付与される画素を、その度数の一部が構成する複数の正規分布のうち、正規分布の標準偏差を平均で除算した評価値が最も大きい正規分布に対応するクラスタに分類し、
画素に付与される度数がいずれの正規分布をも構成しない度数の場合は、その度数が付与される画素を、その度数が付与される画素に最も近い範囲のクラスタのうち、前記評価値が最も大きいクラスタに分類することを特徴とする。
In the present invention, the predetermined classification condition is:
If the frequency given to a pixel is a frequency that constitutes only one normal distribution, classify the pixel to which the frequency is given into a cluster corresponding to the normal distribution that the frequency constitutes,
When a part of the frequency assigned to a pixel is a frequency that forms a plurality of normal distributions, the pixel to which the frequency is assigned is selected from the normal distributions that are part of the frequency. Classify the cluster into the cluster corresponding to the normal distribution with the largest evaluation value divided by the mean,
When the frequency given to a pixel is a frequency that does not constitute any normal distribution, the evaluation value is the highest among the clusters in the range closest to the pixel to which the frequency is assigned. It is characterized by classifying into large clusters.

また本発明は、多次元ベクトルを表す多次元ベクトルデータを入力する入力ステップと、
入力ステップで入力された多次元ベクトルデータを、予め定める次元変換条件に従って2次元ベクトルを表す2次元ベクトルデータに変換する次元変換ステップと、
次元変換ステップで変換された2次元ベクトルデータを、対応する2次元ベクトルの有無を示す値で表され、かつ対応する2次元ベクトルの数を表す度数が付与される画素からなる画像を表す画像データに変換する画像化ステップと、
画像化ステップで変換された画像データが示す画素のうち、対応する2次元ベクトルが有ることを示す値で表される画素の中から、隣接する画素によって構成される領域を抽出する領域抽出ステップと、
領域抽出ステップで抽出された各領域に含まれる画素に付与された度数の分布から、その分布を構成する正規分布を抽出し、抽出した正規分布ごとに、各正規分布の平均を中心とし、かつ標準偏差に基づいて決められる範囲をクラスタの範囲として決定するクラスタ範囲決定ステップと、
クラスタに分類される画素の数を均一化するための予め定める分類条件に従って、クラスタ範囲決定ステップで範囲が決定されたクラスタに、各画素を分類する画素分類ステップとを含むこと特徴とするクラスタリング方法である。
The present invention also includes an input step of inputting multidimensional vector data representing a multidimensional vector;
A dimension conversion step of converting the multidimensional vector data input in the input step into two-dimensional vector data representing a two-dimensional vector according to a predetermined dimension conversion condition;
Image data representing an image made up of pixels to which the two-dimensional vector data converted in the dimension conversion step is represented by a value indicating the presence or absence of the corresponding two-dimensional vector and to which a frequency representing the number of the corresponding two-dimensional vector is given An imaging step to convert to
An area extraction step for extracting an area constituted by adjacent pixels from pixels represented by values indicating that there is a corresponding two-dimensional vector among the pixels indicated by the image data converted in the imaging step; ,
From the frequency distribution given to the pixels included in each region extracted in the region extraction step, a normal distribution that constitutes the distribution is extracted, and for each extracted normal distribution, the average of each normal distribution is centered, and A cluster range determining step for determining a range determined based on the standard deviation as a cluster range;
A clustering method comprising: a pixel classification step for classifying each pixel into a cluster whose range is determined in the cluster range determination step according to a predetermined classification condition for equalizing the number of pixels classified into clusters. It is.

また本発明は、多次元ベクトルを表す多次元ベクトルデータを入力する入力ステップと、
入力ステップで入力された多次元ベクトルデータを、予め定める次元変換条件に従って2次元ベクトルを表す2次元ベクトルデータに変換する次元変換ステップと、
次元変換ステップで変換された2次元ベクトルデータを、対応する2次元ベクトルの有無を示す値で表され、かつ対応する2次元ベクトルの数を表す度数が付与される画素からなる画像を表す画像データに変換する画像化ステップと、
画像化ステップで変換された画像データが示す画素のうち、対応する2次元ベクトルが有ることを示す値で表される画素の中から、隣接する画素によって構成される領域を抽出する領域抽出ステップと、
領域抽出ステップで抽出された各領域に含まれる画素に付与された度数の分布から、その分布を構成する正規分布を抽出し、抽出した正規分布ごとに、各正規分布の平均を中心とし、かつ標準偏差に基づいて決められる範囲をクラスタの範囲として決定するクラスタ範囲決定ステップと、
クラスタに分類される画素の数を均一化するための予め定める分類条件に従って、クラスタ範囲決定ステップで範囲が決定されたクラスタに、各画素を分類する画素分類ステップとを、コンピュータに実行させるためのプログラムである。
また本発明は、前記プログラムを記録したコンピュータ読取可能な記録媒体である。
The present invention also includes an input step of inputting multidimensional vector data representing a multidimensional vector;
A dimension conversion step of converting the multidimensional vector data input in the input step into two-dimensional vector data representing a two-dimensional vector according to a predetermined dimension conversion condition;
Image data representing an image made up of pixels to which the two-dimensional vector data converted in the dimension conversion step is represented by a value indicating the presence or absence of the corresponding two-dimensional vector and to which a frequency representing the number of the corresponding two-dimensional vector is given. An imaging step to convert to
An area extraction step for extracting an area constituted by adjacent pixels from pixels represented by values indicating that there is a corresponding two-dimensional vector among the pixels indicated by the image data converted in the imaging step; ,
From the frequency distribution given to the pixels included in each region extracted in the region extraction step, a normal distribution that constitutes the distribution is extracted, and for each extracted normal distribution, the average of each normal distribution is centered, and A cluster range determining step for determining a range determined based on the standard deviation as a cluster range;
In order to cause a computer to execute a pixel classification step for classifying each pixel in a cluster whose range is determined in a cluster range determination step according to a predetermined classification condition for equalizing the number of pixels classified into clusters. It is a program.
The present invention is also a computer-readable recording medium on which the program is recorded.

本発明によれば、入力手段によって、多次元ベクトルを表す多次元ベクトルデータが入力され、次元変換手段によって、入力手段によって入力された多次元ベクトルデータが、予め定める次元変換条件に従って2次元ベクトルを表す2次元ベクトルデータに変換される。   According to the present invention, multi-dimensional vector data representing a multi-dimensional vector is input by the input means, and the multi-dimensional vector data input by the input means is converted into a two-dimensional vector according to a predetermined dimensional conversion condition by the dimension conversion means. It is converted into two-dimensional vector data to be represented.

そして、画像化手段によって、次元変換手段によって変換された2次元ベクトルデータが、対応する2次元ベクトルの有無を示す値で表され、かつ対応する2次元ベクトルの数を表す度数が付与される画素からなる画像を表す画像データに変換され、領域抽出手段によって、画像化手段によって変換された画像データが示す画素のうち、対応する2次元ベクトルが有ることを示す値で表される画素の中から、隣接する画素によって構成される領域が抽出される。   Then, a pixel to which the two-dimensional vector data converted by the dimension converting unit is represented by a value indicating the presence or absence of the corresponding two-dimensional vector and a frequency indicating the number of the corresponding two-dimensional vector is given by the imaging unit. Among the pixels represented by the image data converted to image data representing the image and converted by the image extraction unit by the region extraction unit, the pixel is represented by a value indicating that there is a corresponding two-dimensional vector. A region constituted by adjacent pixels is extracted.

さらに、クラスタ範囲決定手段によって、領域抽出手段によって抽出された各領域に含まれる画素に付与された度数の分布から、その分布を構成する正規分布が抽出され、抽出された正規分布ごとに、各正規分布の平均を中心とし、かつ標準偏差に基づいて決められる範囲がクラスタの範囲として決定され、画素分類手段によって、クラスタに分類される画素の数を均一化するための予め定める分類条件に従って、クラスタ範囲決定手段によって範囲が決定されたクラスタに、各画素が分類される。   Further, a normal distribution constituting the distribution is extracted from the frequency distribution given to the pixels included in each region extracted by the region extracting unit by the cluster range determining unit, and for each extracted normal distribution, each normal distribution is extracted. A range centered on the average of the normal distribution and determined based on the standard deviation is determined as the cluster range, and according to a predetermined classification condition for equalizing the number of pixels classified into clusters by the pixel classification unit, Each pixel is classified into a cluster whose range is determined by the cluster range determining means.

すなわち、画素をクラスタに分類することによって、画素に対応する多次元ベクトルをクラスタに分類することができるので、クラスタに分類される画素の数を均一化するための予め定める分類条件に従って、画素をクラスタに分類することによって、各クラスタに含まれるベクトル数の偏りをより少なくすることができる。文書データを多次元ベクトルデータとして表して、検索に適用すれば、文書データをより速く検索することができる。   That is, by classifying pixels into clusters, multi-dimensional vectors corresponding to the pixels can be classified into clusters. Therefore, according to a predetermined classification condition for equalizing the number of pixels classified into clusters, the pixels are classified. By classifying into clusters, the number of vectors included in each cluster can be reduced. If the document data is expressed as multidimensional vector data and applied to the search, the document data can be searched faster.

また本発明によれば、入力ステップでは、多次元ベクトルを表す多次元ベクトルデータを入力する。次元変換ステップでは、入力ステップで入力された多次元ベクトルデータを、予め定める次元変換条件に従って2次元ベクトルを表す2次元ベクトルデータに変換する。画像化ステップでは、次元変換ステップで変換された2次元ベクトルデータを、対応する2次元ベクトルの有無を示す値で表され、かつ対応する2次元ベクトルの数を表す度数が付与される画素からなる画像を表す画像データに変換する。   According to the invention, in the input step, multidimensional vector data representing a multidimensional vector is input. In the dimension conversion step, the multidimensional vector data input in the input step is converted into two-dimensional vector data representing a two-dimensional vector according to a predetermined dimension conversion condition. In the imaging step, the two-dimensional vector data converted in the dimension conversion step is represented by a pixel which is represented by a value indicating the presence or absence of the corresponding two-dimensional vector and is given a frequency indicating the number of the corresponding two-dimensional vector. Convert to image data representing an image.

領域抽出ステップでは、画像化ステップで変換された画像データが示す画素のうち、対応する2次元ベクトルが有ることを示す値で表される画素の中から、隣接する画素によって構成される領域を抽出する。クラスタ範囲決定ステップでは、領域抽出ステップで抽出された各領域に含まれる画素に付与された度数の分布から、その分布を構成する正規分布を抽出し、抽出した正規分布ごとに、各正規分布の平均を中心とし、かつ標準偏差に基づいて決められる範囲をクラスタの範囲として決定する。そして、画素分類ステップでは、クラスタに分類される画素の数を均一化するための予め定める分類条件に従って、クラスタ範囲決定ステップで範囲が決定されたクラスタに、各画素を分類する。   In the region extraction step, a region constituted by adjacent pixels is extracted from pixels represented by values indicating that there is a corresponding two-dimensional vector among the pixels indicated by the image data converted in the imaging step. To do. In the cluster range determination step, a normal distribution constituting the distribution is extracted from the frequency distribution given to the pixels included in each region extracted in the region extraction step, and each normal distribution is extracted for each extracted normal distribution. A range centered on the average and determined based on the standard deviation is determined as the cluster range. In the pixel classification step, each pixel is classified into the cluster whose range is determined in the cluster range determination step in accordance with a predetermined classification condition for equalizing the number of pixels classified into the cluster.

すなわち、本発明に係るクラスタリング方法を適用すれば、画素をクラスタに分類することによって、画素に対応する多次元ベクトルをクラスタに分類することができるので、クラスタに分類される画素の数を均一化するための予め定める分類条件に従って、画素をクラスタに分類することによって、各クラスタに含まれるベクトル数の偏りをより少なくすることができる。文書データを多次元ベクトルデータとして表して、検索に適用すれば、文書データをより速く検索することができる。   In other words, by applying the clustering method according to the present invention, it is possible to classify pixels into clusters, thereby classifying multi-dimensional vectors corresponding to pixels into clusters, so that the number of pixels classified into clusters is made uniform. By classifying pixels into clusters in accordance with predetermined classification conditions for performing the above, it is possible to further reduce the bias of the number of vectors included in each cluster. If the document data is expressed as multidimensional vector data and applied to the search, the document data can be searched faster.

また本発明によれば、多次元ベクトルを表す多次元ベクトルデータを入力する入力ステップと、
入力ステップで入力された多次元ベクトルデータを、予め定める次元変換条件に従って2次元ベクトルを表す2次元ベクトルデータに変換する次元変換ステップと、
次元変換ステップで変換された2次元ベクトルデータを、対応する2次元ベクトルの有無を示す値で表され、かつ対応する2次元ベクトルの数を表す度数が付与される画素からなる画像を表す画像データに変換する画像化ステップと、
画像化ステップで変換された画像データが示す画素のうち、対応する2次元ベクトルが有ることを示す値で表される画素の中から、隣接する画素によって構成される領域を抽出する領域抽出ステップと、
領域抽出ステップで抽出された各領域に含まれる画素に付与された度数の分布から、その分布を構成する正規分布を抽出し、抽出した正規分布ごとに、各正規分布の平均を中心とし、かつ標準偏差に基づいて決められる範囲をクラスタの範囲として決定するクラスタ範囲決定ステップと、
クラスタに分類される画素の数を均一化するための予め定める分類条件に従って、クラスタ範囲決定ステップで範囲が決定されたクラスタに、各画素を分類する画素分類ステップを、コンピュータに実行せるためのプログラムとして提供することができる。
According to the present invention, an input step for inputting multidimensional vector data representing a multidimensional vector;
A dimension conversion step of converting the multidimensional vector data input in the input step into two-dimensional vector data representing a two-dimensional vector according to a predetermined dimension conversion condition;
Image data representing an image made up of pixels to which the two-dimensional vector data converted in the dimension conversion step is represented by a value indicating the presence or absence of the corresponding two-dimensional vector and to which a frequency representing the number of the corresponding two-dimensional vector is given. An imaging step to convert to
An area extraction step for extracting an area constituted by adjacent pixels from pixels represented by values indicating that there is a corresponding two-dimensional vector among the pixels indicated by the image data converted in the imaging step; ,
From the frequency distribution given to the pixels included in each region extracted in the region extraction step, a normal distribution that constitutes the distribution is extracted, and for each extracted normal distribution, the average of each normal distribution is centered, and A cluster range determining step for determining a range determined based on the standard deviation as a cluster range;
A program for causing a computer to execute a pixel classification step for classifying each pixel into a cluster whose range is determined in a cluster range determination step according to a predetermined classification condition for equalizing the number of pixels classified into clusters. Can be offered as.

また本発明によれば、前記プログラムを記録したコンピュータ読取可能な記録媒体として提供することができる。   The present invention can also be provided as a computer-readable recording medium on which the program is recorded.

図1は、本発明の実施の一形態であるクラスタリング自動化装置1の機能の構成を示すブロック図である。本発明に係るクラスタリング方法は、クラスタリング自動化装置1によって処理される。   FIG. 1 is a block diagram showing a functional configuration of a clustering automation apparatus 1 according to an embodiment of the present invention. The clustering method according to the present invention is processed by the clustering automation apparatus 1.

クラスタリング装置であるクラスタリング自動化装置1は、多次元ベクトルデータ入力手段(以下、入力手段という)10、次元縮退手段11、画像化手段12、領域抽出手段13、クラスタ範囲決定手段14およびクラスタ決定手段15を含んで構成される。   A clustering automation apparatus 1 which is a clustering apparatus includes a multidimensional vector data input means (hereinafter referred to as input means) 10, a dimension reduction means 11, an imaging means 12, a region extraction means 13, a cluster range determination means 14 and a cluster determination means 15. It is comprised including.

クラスタリング自動化装置1は、たとえばコンピュータによって構成される。クラスタリング自動化装置1を構成するコンピュータは、キーボードおよびマウスなどの入力装置と、ディスプレイなどの表示装置あるいはプリンタなどの印刷装置を含む出力装置と、通信回線たとえばLAN(Local Area Network)を介して情報を送受信する通信装置と、半導体メモリあるいはハードディスク装置によって構成され、プログラムおよびデータを記憶する記憶装置と、記憶装置に記憶されるプログラムを実行して、入力装置、出力装置、および通信装置を制御する中央処理装置(Central Processing Unit:以下「CPU」という)とを含む。プログラムは、クラスタリング自動化装置1を制御するためのプログラムであり、OS(Operating System)およびアプリケーションプログラムを含んでもよい。コンピュータは、一般的に知られているコンピュータでよく、詳細な説明は省略する。   The clustering automation apparatus 1 is configured by a computer, for example. The computer constituting the clustering automation apparatus 1 receives information via an input device such as a keyboard and a mouse, an output device including a display device such as a display or a printing device such as a printer, and a communication line such as a LAN (Local Area Network). A communication device that transmits and receives, a semiconductor memory or a hard disk device, a storage device that stores programs and data, and a central point that controls the input device, the output device, and the communication device by executing a program stored in the storage device And a processing device (Central Processing Unit: hereinafter referred to as “CPU”). The program is a program for controlling the clustering automation apparatus 1 and may include an OS (Operating System) and an application program. The computer may be a generally known computer and will not be described in detail.

入力手段10は、多次元ベクトルデータ記憶装置2に記憶される多次元ベクトルデータを読み出して、クラスタリング自動化装置1に入力する。多次元ベクトルデータは、多次元ベクトルを表すデータである。多次元ベクトルは、たとえば文書データをその内容などによって多次元ベクトルとして表したものである。   The input means 10 reads out the multidimensional vector data stored in the multidimensional vector data storage device 2 and inputs it to the clustering automation device 1. Multidimensional vector data is data representing a multidimensional vector. A multidimensional vector represents, for example, document data as a multidimensional vector depending on its contents.

多次元ベクトルデータ記憶装置2は、通信回線たとえばLANに接続される記憶装置であり、コンピュータに含まれる通信装置によって、多次元ベクトルデータ記憶装置2に記憶される情報を読み出すことができる。図1に示した構成では、多次元ベクトルデータ記憶装置2を、クラスタリング自動化装置1とは別の独立した装置として構成したが、多次元ベクトルデータ記憶装置2をクラスタリング自動化装置1に含めてもよい。   The multidimensional vector data storage device 2 is a storage device connected to a communication line such as a LAN, and information stored in the multidimensional vector data storage device 2 can be read out by a communication device included in a computer. In the configuration shown in FIG. 1, the multidimensional vector data storage device 2 is configured as an independent device different from the clustering automation device 1, but the multidimensional vector data storage device 2 may be included in the clustering automation device 1. .

次元変換手段である次元縮退手段11は、入力手段10よって入力された多次元ベクトルデータを、予め定める次元変換方式によって、2次元ベクトルを表す2次元ベクトルデータに変換する。予め定める次元変換方式は、たとえば多次元尺度構成法(Multi-
Dimensional Scaling:以下「MDS」と略す)を用いて変換する方式である。
The dimension reduction means 11 which is a dimension conversion means converts the multidimensional vector data input by the input means 10 into two-dimensional vector data representing a two-dimensional vector by a predetermined dimension conversion method. The predetermined dimension conversion method is, for example, a multi-dimensional scale construction method (Multi-
Dimensional Scaling (hereinafter abbreviated as “MDS”).

MDSは、計量多次元尺度構成法(Metric MDS:以下「計量MDS」という)および非計量多次元尺度構成法(Non-metric MDS:以下「非計量MDS」という)に分類される。計量MDSは、対象間の距離データに基づいて対象を空間的に布置する方法であり、非計量MDSは、対象間の距離データあるいは距離データに対応する非類似度データに基づいて、対象を空間的に布置する方法である(たとえば齋藤堯幸、宿久洋著、「関連データの解析法」初版、共立出版株式会社、2006年9月10日、p37−p123参照)。   MDS is classified into a metric multidimensional scaling method (Metric MDS: hereinafter referred to as “metric MDS”) and a non-metric multidimensional scaling method (hereinafter referred to as “non-metric MDS”). The metric MDS is a method of spatially arranging objects based on the distance data between the objects, and the non-metric MDS is a method for spatially locating the objects based on the distance data between the objects or dissimilarity data corresponding to the distance data. (See, for example, Yasuyuki Saitoh, Hiroshi Sukuhisa, “Analysis Method of Related Data”, first edition, Kyoritsu Publishing Co., Ltd., September 10, 2006, p37-p123).

計量MDSおよび非計量MDSのうちのいずれの方法も、対象を布置する空間の次元数を対象の次元数よりも少なくすることによって、ベクトル間の距離関係つまり類似度関係を可能な限り保持したまま次元を縮退することができる。距離に関しては、たとえばユークリッド距離を用いてもよい。次元を縮退する方法としては、MDS以外にも、多次元ベクトルデータが示す多次元ベクトル間の距離関係を可能な限り保持したまま、より低次元のベクトルに次元を縮退する他の方法、たとえば主成分分析法を用いてもよい。   In both methods of the metric MDS and the non-metric MDS, the distance relationship between the vectors, that is, the similarity relationship is maintained as much as possible by reducing the number of dimensions of the space in which the object is placed than the number of dimensions of the object. The dimension can be reduced. For the distance, for example, the Euclidean distance may be used. As a method for reducing the dimension, besides MDS, other methods for reducing the dimension to a lower-dimensional vector while maintaining the distance relationship between the multi-dimensional vectors indicated by the multi-dimensional vector data as much as possible, Component analysis may be used.

図2は、次元縮退手段11によって変換された2次元ベクトルの位置を示すXY座標系21の一例を示す図である。2次元ベクトルデータが示す2次元ベクトルの位置をXY座標における座標(x,y)で表す。「×」印の位置が、始点を座標(0,0)としたときの各2次元ベクトルの先端の位置を示す。   FIG. 2 is a diagram showing an example of the XY coordinate system 21 indicating the position of the two-dimensional vector converted by the dimension reduction means 11. The position of the two-dimensional vector indicated by the two-dimensional vector data is represented by coordinates (x, y) in the XY coordinates. The position of “x” indicates the position of the tip of each two-dimensional vector when the start point is the coordinate (0, 0).

画像化手段12は、次元縮退手段11によって変換された2次元ベクトルデータを、2値画像データに変換する。2値画像データは、「0」および「1」のうちのいずれかの値をとる画素から構成される画像を表すデータである。画像化手段12は、次に示す手順に従って、2次元ベクトルデータを2値画像データに変換する。   The imaging means 12 converts the two-dimensional vector data converted by the dimension reduction means 11 into binary image data. The binary image data is data representing an image composed of pixels having a value of either “0” or “1”. The imaging unit 12 converts the two-dimensional vector data into binary image data according to the following procedure.

手順1では、2次元ベクトルデータが示す2次元ベクトルのXY座標における位置を座標(x,y)とするとき、xの最大値Xmax、yの最大値Ymax、xの最小値Xmin、およびyの最小値Yminを求め、さらにxの範囲Lx=Xmax−Xmin、およびyの範囲Ly=Ymax−Yminを求める。   In the procedure 1, when the position in the XY coordinates of the two-dimensional vector indicated by the two-dimensional vector data is the coordinates (x, y), the maximum value Xmax of x, the maximum value Ymax of y, the minimum value Xmin of x, and the value of y The minimum value Ymin is obtained, and the x range Lx = Xmax−Xmin and the y range Ly = Ymax−Ymin are obtained.

手順2では、2値画像データが示す画像の解像度をm×n、mおよびnを自然数、2次元ベクトルデータが示す2次元ベクトルの数をNとするとき、条件1および条件2を満たす最小のmおよびnを求める。条件1は、m:n=(Lx+1):(Ly+1)であり、条件2は、m×n≧Nである。条件1および条件2を満たすことによって、2次元ベクトルデータが示す2次元ベクトル間の距離関係つまり類似度関係を可能な限り保持したまま、2次元ベクトルデータを2値画像データに変換することができる。   In the procedure 2, when the resolution of the image indicated by the binary image data is m × n, m and n are natural numbers, and the number of two-dimensional vectors indicated by the two-dimensional vector data is N, the minimum satisfying the conditions 1 and 2 Find m and n. Condition 1 is m: n = (Lx + 1) :( Ly + 1), and Condition 2 is m × n ≧ N. By satisfying Condition 1 and Condition 2, the two-dimensional vector data can be converted into binary image data while maintaining the distance relationship between the two-dimensional vectors indicated by the two-dimensional vector data, that is, the similarity relationship as much as possible. .

手順3では、画素のXY座標における位置を座標(X,Y)とするとき、変換式X=x×m/(Lx+1)およびY=y×n/(Ly+1)によって、2次元ベクトルデータが示す2次元ベクトルの座標(x,y)を、画素の座標(X,Y)に変換する。変換後、2次元ベクトルが変換された座標にある画素の値を「1」、2次元ベクトルが変換された座標にない画素の値を「0」とする。   In the procedure 3, when the position of the pixel in the XY coordinates is the coordinate (X, Y), the two-dimensional vector data is represented by the conversion formulas X = x × m / (Lx + 1) and Y = y × n / (Ly + 1). The coordinates (x, y) of the two-dimensional vector are converted into the coordinates (X, Y) of the pixels. After conversion, the value of the pixel at the coordinate where the two-dimensional vector is converted is “1”, and the value of the pixel not at the coordinate where the two-dimensional vector is converted is “0”.

手順1〜3によって、2次元ベクトルデータが示す2次元ベクトル間の距離関係つまり類似度関係を可能な限り保持したまま、2次元ベクトルデータを2値画像データに変換することができる。   By the procedures 1 to 3, the two-dimensional vector data can be converted into the binary image data while maintaining the distance relationship between the two-dimensional vectors indicated by the two-dimensional vector data, that is, the similarity relationship as much as possible.

図3は、画像化手段12によって変換された画像22の一例を示す図である。桝目の1つ1つの矩形が1つの画素221を表し、白色の矩形は画素値が「0」の画素であり、斜線を付した矩形は画素値が「1」の画素である。   FIG. 3 is a diagram illustrating an example of the image 22 converted by the imaging unit 12. Each rectangle of each square represents one pixel 221, a white rectangle is a pixel having a pixel value of “0”, and a hatched rectangle is a pixel having a pixel value of “1”.

図4は、画像化手段12によって変換された画素のデータ構造31の一例を示す図である。各画素は、iおよびjを自然数とするとき、構造体型配列G[i][j]のデータ構造で表され、各G[i][j]は、画素値、クラスタ情報、ステータス情報および度数を含む。度数は、2次元ベクトルデータが2値画像データに変換に変換されたとき、各画素について、画素の座標(X,Y)が同じになる2次元ベクトルの数であり、「分布度数」ともいう。たとえば、画素の位置が座標(1,1)である画素に変換される2次元ベクトルの数が4個であると、その画素の度数は「4」となる。クラスタ情報およびステータス情報については、後述する。   FIG. 4 is a diagram illustrating an example of the data structure 31 of the pixel converted by the imaging unit 12. Each pixel is represented by a data structure of a structure type array G [i] [j] where i and j are natural numbers. Each G [i] [j] is a pixel value, cluster information, status information, and frequency. including. The frequency is the number of two-dimensional vectors having the same pixel coordinates (X, Y) for each pixel when the two-dimensional vector data is converted into binary image data, and is also referred to as “distribution frequency”. . For example, if the number of two-dimensional vectors converted to a pixel whose pixel position is the coordinate (1, 1) is four, the frequency of the pixel is “4”. The cluster information and status information will be described later.

図4に示したデータ構造31では、画素G[1][1]の画素値は「1」であり、後述するステータス情報は「未処理」であり、度数は「4」である。同様に、画素G[2][1]の画素値は「1」であり、ステータス情報は「未処理」であり、度数は「5」である。画素G[3][1]の画素値は「1」であり、ステータス情報は「未処理」であり、度数は「7」である。画素G[m][n]の画素値は「0」であり、ステータス情報は「未処理」であり、度数は「0」である。   In the data structure 31 shown in FIG. 4, the pixel value of the pixel G [1] [1] is “1”, status information to be described later is “unprocessed”, and the frequency is “4”. Similarly, the pixel value of the pixel G [2] [1] is “1”, the status information is “unprocessed”, and the frequency is “5”. The pixel value of the pixel G [3] [1] is “1”, the status information is “unprocessed”, and the frequency is “7”. The pixel value of the pixel G [m] [n] is “0”, the status information is “unprocessed”, and the frequency is “0”.

図5は、領域抽出手段13によって抽出された初期領域が示された画像23の一例を示す図である。領域抽出手段13は、画像化手段12によって変換された2値画像データが示す画像を構成する画素のうち、画素値が「1」である画素の中から、隣接する画素同士を1つの領域として抽出し、抽出した領域を初期領域とする。隣接は、画素がX軸方向つまり図5に示した桝目の幅方向、またはY軸方向つまり図5に示した桝目の高さ方向に隣接することをいう。図5に示した画像23には、4つの初期領域23a〜23dが示されている。初期領域23aは4つの画素によって構成され、初期領域23bは1つの画素によって構成され、初期領域23cは3つの画素によって構成され、初期領域23dは2つの画素によって構成されている。   FIG. 5 is a diagram showing an example of an image 23 in which the initial area extracted by the area extracting unit 13 is shown. The area extraction unit 13 sets adjacent pixels as one area from among the pixels constituting the image indicated by the binary image data converted by the imaging unit 12 among the pixels having the pixel value “1”. Extraction is performed, and the extracted area is set as an initial area. Adjacent means that the pixels are adjacent in the X-axis direction, that is, the width direction of the mesh shown in FIG. 5, or in the Y-axis direction, that is, the height direction of the mesh shown in FIG. In the image 23 shown in FIG. 5, four initial regions 23 a to 23 d are shown. The initial region 23a is composed of four pixels, the initial region 23b is composed of one pixel, the initial region 23c is composed of three pixels, and the initial region 23d is composed of two pixels.

図6は、領域抽出手段13による領域抽出処理後の画素のデータ構造32の一例を示す図である。クラスタ情報は、初期領域を識別するための番号である。ステータス情報は、初期領域を抽出する際に用いる画素の状態を示す情報であり、「未処理」はまだいずれの初期領域としても抽出されていないことを示し、「処理済」はすでにいずれかの初期領域として抽出されたことを示す。   FIG. 6 is a diagram illustrating an example of the pixel data structure 32 after the region extraction processing by the region extraction unit 13. The cluster information is a number for identifying the initial area. The status information is information indicating the state of the pixel used when extracting the initial region. “Unprocessed” indicates that it has not been extracted as any initial region, and “Processed” has already been selected. Indicates that it has been extracted as the initial region.

図6に示したデータ構造32では、画素G[1][1]のクラスタ情報は「1」であり、ステータス情報は「処理済」であり、度数は「4」である。同様に、画素G[2][1]のクラスタ情報は「1」であり、ステータス情報は「処理済」であり、度数は「5」である。画素G[3][1]のクラスタ情報は「1」であり、ステータス情報は「処理済」であり、度数は「7」である。画素G[m][n]のクラスタ情報は「k」であり、ステータス情報は「処理済」であり、度数は「2」である。   In the data structure 32 shown in FIG. 6, the cluster information of the pixel G [1] [1] is “1”, the status information is “processed”, and the frequency is “4”. Similarly, the cluster information of the pixel G [2] [1] is “1”, the status information is “processed”, and the frequency is “5”. The cluster information of the pixel G [3] [1] is “1”, the status information is “processed”, and the frequency is “7”. The cluster information of the pixel G [m] [n] is “k”, the status information is “processed”, and the frequency is “2”.

クラスタ範囲決定手段14は、領域抽出手段13によって抽出された各初期領域に含まれる画素の度数の分布に基づいて、クラスタの範囲を決定する。すなわち、次元縮退手段11および画像化手段102は、隣接する画素を初期領域とすることによって、類似度の高いデータ同士を1つの領域とし、クラスタ範囲決定手段14は、度数の分布に基づいてクラスタの範囲を決定することによって、さらに類似度の高いデータ同士を1つのクラスタに集約する。   The cluster range determining unit 14 determines the cluster range based on the frequency distribution of the pixels included in each initial region extracted by the region extracting unit 13. That is, the dimension reduction means 11 and the imaging means 102 set adjacent pixels as an initial area, thereby making data with high similarity into one area, and the cluster range determination means 14 performs clustering based on the frequency distribution. By determining the range, data having higher similarity are aggregated into one cluster.

領域抽出手段13によって抽出された各初期領域に含まれる画素の度数の分布は、複数の正規分布である2次元正規分布が混合された2次元混合正規分布であるとみなすことができる。すなわち、各初期領域を構成する画素の度数の分布が、複数の山が形成される2次元混合正規分布であり、複数の山のうちの各山がそれぞれ1つの2次元正規分布と仮定して、2次元混合正規分布を構成する2次元正規分布を抽出することができる。   The frequency distribution of the pixels included in each initial region extracted by the region extracting unit 13 can be regarded as a two-dimensional mixed normal distribution in which a plurality of two-dimensional normal distributions that are normal distributions are mixed. That is, it is assumed that the frequency distribution of the pixels constituting each initial region is a two-dimensional mixed normal distribution in which a plurality of peaks are formed, and each of the plurality of peaks is a two-dimensional normal distribution. A two-dimensional normal distribution constituting a two-dimensional mixed normal distribution can be extracted.

2次元混合正規分布から2次元正規分布を抽出する方法として、たとえばEM(
Expectation Maximization)アルゴリズムを用いた方法がある。EMアルゴリズムは、尤度の期待値を求めるEステップ(Expectation Step)と、尤度の期待値を最大化するMステップ(Maximization Step)とを交互に繰り返すことによって、確かではない情報を含む観測データから最尤推定を行うための反復アルゴリズムである(たとえば赤穂昭太郎著、「EMアルゴリズムの幾何学」、情報処理Vol.37、No.1、1996年参照)。
As a method for extracting a two-dimensional normal distribution from a two-dimensional mixed normal distribution, for example, EM (
There is a method using the Expectation Maximization algorithm. The EM algorithm repeats an E step (Expectation Step) for obtaining the expected value of likelihood and an M step (Maximization Step) for maximizing the expected value of likelihood, thereby including observation data containing uncertain information. (See, for example, Shotaro Ako, “Geometry of the EM Algorithm”, Information Processing Vol. 37, No. 1, 1996).

クラスタ範囲決定手段14は、次に示す手順で2次元混合正規分布から2次元正規分布を抽出する。各初期領域の分布が2次元混合正規分布であり、各初期領域の各山が1つの2次元正規分布であると仮定して、EMアルゴリズムを用いた手順の例を示す。   The cluster range determining means 14 extracts a two-dimensional normal distribution from the two-dimensional mixed normal distribution in the following procedure. An example of the procedure using the EM algorithm is shown assuming that the distribution of each initial region is a two-dimensional mixed normal distribution and each mountain of each initial region is one two-dimensional normal distribution.

手順1では、各初期領域cの度数の分布について、EMアルゴリズムを用いて2次元正規分布を抽出する。ここに、cは1〜Uの自然数であり、Uは初期領域の数である。手順2では、各初期領域cについて抽出された各2次元正規分布について、X軸方向の平均xct、Y軸方向の平均yct、X軸方向の標準偏差σxct、およびY軸方向の標準偏差σyctを算出する。ここに、tは1〜Rの自然数であり、Rは初期領域で抽出された2次元正規分布の数である。   In the procedure 1, a two-dimensional normal distribution is extracted using the EM algorithm for the frequency distribution of each initial region c. Here, c is a natural number of 1 to U, and U is the number of initial regions. In step 2, for each two-dimensional normal distribution extracted for each initial region c, the average xct in the X-axis direction, the average yct in the Y-axis direction, the standard deviation σxct in the X-axis direction, and the standard deviation σyct in the Y-axis direction are calculated. calculate. Here, t is a natural number of 1 to R, and R is the number of two-dimensional normal distributions extracted in the initial region.

手順3では、座標(xct,yct)を中心とし、X軸方向の半径をp×σxctとし、Y軸方向の半径をq×σyctとする楕円内の範囲をクラスタの範囲として決定する。ここに、pおよびqは、「3」以下の正の実数であり、pおよびqを変化させることによって所望のクラスタの範囲とすることができる。たとえば、X軸方向の正規分布を考えるとき、p=1とすると、クラスタの範囲に68.3%の画素を含めることができる。さらに、p=2とすると、95.4%の画素を含めることができ、p=3とすると、99.7%の画素を含めることができる。   In the procedure 3, the range in the ellipse having the coordinates (xct, yct) as the center, the radius in the X-axis direction as p × σxct, and the radius in the Y-axis direction as q × σyct is determined as the cluster range. Here, p and q are positive real numbers of “3” or less, and a desired cluster range can be obtained by changing p and q. For example, when considering a normal distribution in the X-axis direction, if p = 1, 68.3% of pixels can be included in the cluster range. Furthermore, if p = 2, 95.4% of pixels can be included, and if p = 3, 99.7% of pixels can be included.

図7は、クラスタ範囲決定手段14によって抽出された2次元正規分布24の一例を示す図である。2次元正規分布24は、Y=X+aの直線241上での2次元正規分布であり、高さは各画素の度数242を示す。   FIG. 7 is a diagram illustrating an example of the two-dimensional normal distribution 24 extracted by the cluster range determining unit 14. The two-dimensional normal distribution 24 is a two-dimensional normal distribution on the straight line 241 of Y = X + a, and the height indicates the frequency 242 of each pixel.

図8は、クラスタ範囲決定手段14によって抽出された2次元正規分布25の一例を示す図である。2次元正規分布25は、X軸方向の2次元正規分布である。範囲251は、クラスタのX軸方向の範囲であり、範囲251の長さは、X軸方向の半径がp×σxctの楕円のX軸方向の直径に相当する。   FIG. 8 is a diagram illustrating an example of the two-dimensional normal distribution 25 extracted by the cluster range determining unit 14. The two-dimensional normal distribution 25 is a two-dimensional normal distribution in the X-axis direction. The range 251 is a range in the X-axis direction of the cluster, and the length of the range 251 corresponds to the diameter in the X-axis direction of an ellipse whose radius in the X-axis direction is p × σxct.

図9は、クラスタ範囲決定手段14によるクラスタ範囲決定処理後の画素のデータ構造33の一例を示す図である。クラスタ範囲決定手段14によってクラスタの範囲が決定された後は、クラスタ情報は、クラスタを識別するための番号であり、各画素が入っているクラスタの範囲のクラスタの番号を示す。   FIG. 9 is a diagram illustrating an example of the pixel data structure 33 after the cluster range determination processing by the cluster range determination unit 14. After the cluster range is determined by the cluster range determining unit 14, the cluster information is a number for identifying the cluster, and indicates the number of the cluster in the cluster range in which each pixel is included.

図9に示したデータ構造33では、画素G[1][1]のクラスタ情報は「1」であり、画素G[2][1]のクラスタ情報は「1」および「2」であり、画素G[3][1]のクラスタ情報は「2」であり、画素G[m][n]のクラスタ情報は「k’」である。画素G[2][1]は、クラスタ情報が「1」のクラスタの範囲と、クラスタ情報が「2」のクラスタの範囲に入っている。ステータス情報および度数は、図6に示したデータ構造32と同じであり、重複を避けるために説明は省略する。   In the data structure 33 shown in FIG. 9, the cluster information of the pixel G [1] [1] is “1”, the cluster information of the pixel G [2] [1] is “1” and “2”, The cluster information of the pixel G [3] [1] is “2”, and the cluster information of the pixel G [m] [n] is “k ′”. The pixel G [2] [1] is in the cluster range where the cluster information is “1” and the cluster range where the cluster information is “2”. The status information and the frequency are the same as those in the data structure 32 shown in FIG. 6, and a description thereof is omitted to avoid duplication.

クラスタ決定手段15は、画素が、クラスタ範囲決定手段14によって決定されたクラスタの範囲内に入っているか否かによって、次に示す手順で画素を各クラスタに分類する。手順1では、各画素のクラスタ情報をチェックし、1つのクラスタの番号のみがある場合は、すなわち画素の度数が1つの正規分布のみを構成する度数の場合は、その画素をそのクラスタ情報が示す番号のクラスタに分類する。   The cluster determining unit 15 classifies the pixels into clusters according to the following procedure depending on whether or not the pixel is within the cluster range determined by the cluster range determining unit 14. In step 1, the cluster information of each pixel is checked. If there is only one cluster number, that is, if the frequency of a pixel is a frequency that constitutes only one normal distribution, the cluster information indicates that pixel. Classify into numbered clusters.

手順2では、画素のクラスタ情報に、クラスタの番号がない場合は、すなわち、画素の度数がいずれの正規分布をも構成しない度数の場合は、その画素に最も距離が近いクラスタの範囲のクラスタに分類する。最も距離が近いクラスタが複数ある場合は、最も距離が近い複数のクラスタのうち、評価値Hの値が最大であるクラスタに分類する。評価値Hは、各クラスタに対応する2次正規分布のX軸方向の標準偏差とY軸方向の標準偏差との平均を、各2次正規分布のX軸方向の平均とY軸方向の平均との平均で除算した値であり、式H=((σxct+σyct)/2)/((xct+yct)/2)=(σxct+σyct)/(xct+yct)によって算出する。ここに、xctはX軸方向の平均、yctはY軸方向の平均、σxctはX軸方向の標準偏差、σyctはY軸方向の標準偏差である。   In step 2, if the cluster information of the pixel does not have a cluster number, that is, if the frequency of the pixel is a frequency that does not constitute any normal distribution, the cluster within the cluster range closest to the pixel is selected. Classify. When there are a plurality of clusters having the closest distance, the clusters having the largest evaluation value H are classified from the plurality of clusters having the closest distance. The evaluation value H is the average of the standard deviation in the X-axis direction and the standard deviation in the Y-axis direction of the secondary normal distribution corresponding to each cluster, and the average in the X-axis direction and the average in the Y-axis direction of each secondary normal distribution. And is calculated by the equation H = ((σxct + σyct) / 2) / ((xct + yct) / 2) = (σxct + σyct) / (xct + yct). Here, xct is an average in the X-axis direction, yct is an average in the Y-axis direction, σxct is a standard deviation in the X-axis direction, and σyct is a standard deviation in the Y-axis direction.

手順3では、画素のクラスタ情報に、複数のクラスタの番号がある場合は、すなわち、画素の度数の一部が複数の正規分布を構成する度数の場合は、その複数のクラスタのうち、評価値Hが最大であるクラスタに画素を分類する。   In the procedure 3, when there are a plurality of cluster numbers in the pixel cluster information, that is, when a part of the frequency of the pixel is a frequency constituting a plurality of normal distributions, the evaluation value of the plurality of clusters is determined. Classify pixels into clusters where H is maximum.

図10は、クラスタ決定手段15によって画素がクラスタに分類された画像26の一例を示す図である。画像26には、3つのクラスタ26a〜26cが示されている。   FIG. 10 is a diagram illustrating an example of an image 26 in which pixels are classified into clusters by the cluster determination unit 15. In the image 26, three clusters 26a to 26c are shown.

クラスタ決定手段15は、評価値Hを用いて画素を分類するので、いずれのクラスタの範囲にも入らない画素および複数のクラスタの範囲に入る画素を、度数がより小さく分散の大きい正規分布のクラスタに分類することができる。すなわち、画素をクラスタに分類することによって、画素に対応する多次元ベクトルをクラスタに分類することができるので、山の高さがより低くかつ広がりがより広い正規分布のクラスタに分類されるベクトル数を増加することができ、各クラスタのベクトル数の偏りをより低減することができる。   Since the cluster determination unit 15 classifies the pixels using the evaluation value H, a normal distribution cluster having a smaller frequency and a larger variance is used for pixels that do not fall within any cluster range and pixels that fall within a plurality of cluster ranges. Can be classified. That is, by classifying pixels into clusters, multidimensional vectors corresponding to pixels can be classified into clusters, so the number of vectors classified into clusters of normal distribution with a lower peak height and wider spread The number of vectors in each cluster can be further reduced.

このように、入力手段10によって、多次元ベクトルを表す多次元ベクトルデータが入力され、次元縮退手段11によって、入力手段10によって入力された多次元ベクトルデータが、予め定める次元変換条件に従って2次元ベクトルを表す2次元ベクトルデータに変換される。   In this way, multidimensional vector data representing a multidimensional vector is input by the input means 10, and the multidimensional vector data input by the input means 10 by the dimension reduction means 11 is converted into a two-dimensional vector according to a predetermined dimension conversion condition. Is converted into two-dimensional vector data.

そして、画像化手段12によって、次元縮退手段11によって変換された2次元ベクトルデータが、対応する2次元ベクトルの有無を示す値で表され、かつ対応する2次元ベクトルの数を表す度数が付与される画素からなる画像を表す画像データに変換され、領域抽出手段13によって、画像化手段12によって変換された画像データが示す画素のうち、対応する2次元ベクトルが有ることを示す値で表される画素の中から、隣接する画素によって構成される初期領域が抽出される。   Then, the imaging unit 12 represents the two-dimensional vector data converted by the dimension reduction unit 11 with a value indicating the presence or absence of the corresponding two-dimensional vector, and a frequency indicating the number of the corresponding two-dimensional vectors is given. The pixel data is converted into image data representing an image composed of pixels, and is represented by a value indicating that there is a corresponding two-dimensional vector among the pixels indicated by the image data converted by the image extraction unit 12 by the region extraction unit 13. An initial region composed of adjacent pixels is extracted from the pixels.

さらに、クラスタ範囲決定手段14によって、領域抽出手段13によって抽出された各初期領域に含まれる画素に付与された度数の分布から、その分布を構成する正規分布が抽出され、抽出された正規分布ごとに、各正規分布の平均を中心とし、かつ標準偏差に基づいて決められる範囲がクラスタの範囲として決定され、クラスタ決定手段15によって、クラスタに分類される画素の数を均一化するための予め定める分類条件に従って、クラスタ範囲決定手段14によって範囲が決定されたクラスタに、各画素が分類される。   Further, a normal distribution constituting the distribution is extracted from the distribution of frequencies given to the pixels included in each initial region extracted by the region extracting unit 13 by the cluster range determining unit 14, and each extracted normal distribution is extracted. In addition, a range centered on the average of each normal distribution and determined based on the standard deviation is determined as a cluster range, and the cluster determining unit 15 determines in advance the number of pixels classified into clusters. According to the classification condition, each pixel is classified into a cluster whose range has been determined by the cluster range determination means 14.

すなわち、画素をクラスタに分類することによって、画素に対応する多次元ベクトルをクラスタに分類することができるので、クラスタに分類される画素の数を均一化するための予め定める分類条件に従って、画素をクラスタに分類することによって、各クラスタに含まれるベクトル数の偏りをより少なくすることができる。文書データを多次元ベクトルデータとして表して、検索に適用すれば、文書データをより速く検索することができる。   That is, by classifying pixels into clusters, multi-dimensional vectors corresponding to the pixels can be classified into clusters. Therefore, according to a predetermined classification condition for equalizing the number of pixels classified into clusters, the pixels are classified. By classifying into clusters, the number of vectors included in each cluster can be reduced. If the document data is expressed as multidimensional vector data and applied to the search, the document data can be searched faster.

さらに、前記予め定める分類条件は、画素に付与される度数が1つの正規分布のみを構成する度数の場合は、その度数が付与される画素を、その度数が構成する正規分布に対応するクラスタに分類するし、画素に付与される度数の一部が複数の正規分布を構成する度数の場合は、その度数が付与される画素を、その度数の一部が構成する複数の正規分布のうち、正規分布の標準偏差を平均で除算した評価値が最も大きい正規分布に対応するクラスタに分類し、画素に付与される度数がいずれの正規分布をも構成しない度数の場合は、その度数が付与される画素を、その度数が付与される画素に最も近い範囲のクラスタのうち、前記評価値が最も大きいクラスタに分類することである。   Furthermore, when the predetermined classification condition is that the frequency given to a pixel is a frequency that constitutes only one normal distribution, the pixel to which the frequency is given is assigned to a cluster corresponding to the normal distribution that the frequency constitutes. If the frequency that is classified and a part of the frequency given to the pixel constitutes a plurality of normal distributions, the pixel to which the frequency is given is out of the plurality of normal distributions that constitute a part of the frequency, If the standard distribution of the normal distribution is divided into clusters corresponding to the normal distribution with the largest evaluation value divided by the average, and the frequency assigned to the pixel is a frequency that does not constitute any normal distribution, that frequency is assigned. Is classified into the cluster having the largest evaluation value among the clusters in the range closest to the pixel to which the frequency is given.

したがって、正規分布の標準偏差を平均で除算した評価値を用いることによって、正規分布を構成しない度数の画素および複数の正規分布を構成する度数の画素を、度数がより少なく分散の大きいクラスタに分類することができ、各クラスタに含まれる画素数つまりベクトル数の偏りをより少なくすることができる。   Therefore, by using the evaluation value obtained by dividing the standard deviation of the normal distribution by the average, the frequency pixels that do not constitute the normal distribution and the frequency pixels that constitute the plurality of normal distributions are classified into clusters with less frequency and greater variance. Thus, the deviation of the number of pixels, that is, the number of vectors included in each cluster can be further reduced.

図11は、画像化手段12が実行する画像化処理の処理手順を示すフローチャートである。次元縮退手段11によって多次元ベクトルデータが2次元ベクトルデータに変換された後、ステップA1に移る。   FIG. 11 is a flowchart showing the processing procedure of the imaging process executed by the imaging unit 12. After the multidimensional vector data is converted into two-dimensional vector data by the dimension reduction means 11, the process proceeds to step A1.

ステップA1では、2次元ベクトルデータが示す2次元ベクトルのXY座標における位置を座標(x,y)とするとき、xの最大値Xmax、yの最大値Ymax、xの最小値Xmin、およびyの最小値Yminから、xの範囲Lx=Xmax−Xmin、およびyの範囲Ly=Ymax−Yminを求める。ステップA2では、2値画像データが示す画像の解像度をm×n、文書データ数つまり2次元ベクトルの数をNとするとき、条件1および条件2を満たす最小のmおよびnを求める。条件1は、m:n=(Lx+1):(Ly+1)であり、条件2は、m×n≧Nである。ここに、mおよびnは自然数である。   In step A1, when the position in the XY coordinates of the two-dimensional vector indicated by the two-dimensional vector data is the coordinate (x, y), the maximum value Xmax of x, the maximum value Ymax of y, the minimum value Xmin of x, and the value of y From the minimum value Ymin, an x range Lx = Xmax−Xmin and a y range Ly = Ymax−Ymin are obtained. In step A2, the minimum m and n satisfying the conditions 1 and 2 are obtained when the resolution of the image indicated by the binary image data is m × n and the number of document data, that is, the number of two-dimensional vectors is N. Condition 1 is m: n = (Lx + 1) :( Ly + 1), and Condition 2 is m × n ≧ N. Here, m and n are natural numbers.

ステップA3では、2次元ベクトルデータが示す2次元ベクトルの位置を示す座標(x,y)を、式X=x×m/(Lx+1)、および式Y=y×n/(Ly+1)によって、2値画像データが示す画像上の画素の座標(X,Y)に変換する。変換後、2次元ベクトルデータが示す2次元ベクトルが対応している画素の値を「1」、2次元ベクトルデータが示す2次元ベクトルが対応していない画素の値を「0」として、画像化処理を終了する。ステップA1〜A3は、画像化ステップである。   In step A3, coordinates (x, y) indicating the position of the two-dimensional vector indicated by the two-dimensional vector data are expressed as 2 by the formula X = x × m / (Lx + 1) and the formula Y = y × n / (Ly + 1). Conversion is made to the coordinates (X, Y) of the pixel on the image indicated by the value image data. After conversion, the pixel value corresponding to the two-dimensional vector indicated by the two-dimensional vector data is “1”, and the pixel value not corresponding to the two-dimensional vector indicated by the two-dimensional vector data is “0”. The process ends. Steps A1 to A3 are imaging steps.

図12は、領域抽出手段13が実行する領域抽出処理の処理手順を示すフローチャートである。画像化手段12が、図11に示した画像化処理を終了すると、ステップB1に移る。   FIG. 12 is a flowchart showing a processing procedure of region extraction processing executed by the region extraction means 13. When the imaging unit 12 finishes the imaging process shown in FIG. 11, the process proceeds to step B1.

ステップB1では、各画素G[i][j]について、画像化手段12による画像化処理の結果に基づいて画素値を「0」または「1」とし、ステータス情報を初期値として「未処理」とし、座標(i,j)つまり構造体型配列G[i][j]の初期値として、i=1,j=1とする。ステップB2では、i=i+1、j=1として順次画素をチェックする。ただし、i=1およびj=1のときは、この処理をパスする。   In step B1, for each pixel G [i] [j], the pixel value is set to “0” or “1” based on the result of the imaging process by the imaging unit 12, and “unprocessed” is set with the status information as an initial value. As an initial value of coordinates (i, j), that is, the structure type array G [i] [j], i = 1 and j = 1. In step B2, pixels are sequentially checked with i = i + 1 and j = 1. However, this process is passed when i = 1 and j = 1.

ステップB3では、i=m+1であるか否かを判定する。i=m+1であると、ステップB11に進み、i=m+1でないと、ステップB4に進む。ステップB4では、ステータス情報が「未処理」であるか否かを判定する。ステータス情報が未処理であると、ステップB5に進み、ステータス情報が未処理でないと、ステップB2に戻る。ステップB5では、ステータス情報を「処理済」とする。ステップB6では、画素値が「1」であるか否かを判定する。画素値が「1」であると、ステップB7に進み、画素値が「1」でないと、ステップB2に戻る。   In step B3, it is determined whether i = m + 1. If i = m + 1, the process proceeds to step B11. If i = m + 1 is not satisfied, the process proceeds to step B4. In step B4, it is determined whether or not the status information is “unprocessed”. If the status information is unprocessed, the process proceeds to step B5. If the status information is not processed, the process returns to step B2. In step B5, the status information is set to “processed”. In Step B6, it is determined whether or not the pixel value is “1”. If the pixel value is “1”, the process proceeds to step B7. If the pixel value is not “1”, the process returns to step B2.

ステップB7では、座標(i,j)の画素に隣接する画素について順次画素値が「1」か否かを調べる。ステップB8では、隣接する画素で画素値が「1」、かつステータス情報が「未処理」のものがあるか否かを判定する。隣接する画素で画素値が「1」、かつステータス情報が「未処理」のものがあると、ステップB9に進み、隣接する画素で画素値が「1」、かつステータス情報が「未処理」のものがないと、ステップB13に進む。   In step B7, it is examined whether or not the pixel value of the pixel adjacent to the pixel at coordinates (i, j) is “1” sequentially. In step B8, it is determined whether there is an adjacent pixel having a pixel value “1” and status information “unprocessed”. If there is an adjacent pixel whose pixel value is “1” and status information is “unprocessed”, the process proceeds to step B9, where the adjacent pixel has a pixel value of “1” and status information is “unprocessed”. If there is nothing, the process proceeds to step B13.

ステップB9では、その隣接する画素へ移動する。すなわち座標(i,j)をその隣接する画素の座標にする。ステップB10では、移動した画素のステータス情報を「処理済」として、ステップB7に戻る。ステップB11では、i=1、j=j+1とする。ステップB12では、j=n+1であるか否かを判定する。j=n+1であると、領域抽出処理を終了し、j=n+1でないと、ステップB2に戻る。   In step B9, the pixel moves to the adjacent pixel. That is, the coordinates (i, j) are set to the coordinates of the adjacent pixels. In step B10, the status information of the moved pixel is set to “processed”, and the process returns to step B7. In step B11, i = 1 and j = j + 1. In step B12, it is determined whether j = n + 1. If j = n + 1, the region extraction process is terminated. If j = n + 1 is not satisfied, the process returns to step B2.

ステップB13では、隣接する4方向をチェックしたか否かを判定する。隣接する4方向をチェックした場合は、ステップB14に進み、隣接する4方向をチェックしない場合は、ステップB7に戻る。ステップB14では、最初の移動元であるか否かを判定する。最初の移動元であると、ステップB16に進み、最初の移動元でないと、ステップB15に進む。最初の移動元か否かは、たとえばステップB9で、隣接する画素に移動するとき、移動前の画素の座標(i,j)を順次記憶しておき、ステップB14で、最初の移動前の座標と同じであるか否かを判断する。   In step B13, it is determined whether or not four adjacent directions have been checked. If the adjacent four directions are checked, the process proceeds to step B14. If the adjacent four directions are not checked, the process returns to step B7. In step B14, it is determined whether or not it is the first movement source. If it is the first movement source, the process proceeds to step B16, and if it is not the first movement source, the process proceeds to step B15. For example, when moving to an adjacent pixel in step B9, the coordinates (i, j) of the pixel before the movement are sequentially stored in step B9, and the coordinates before the first movement are determined in step B14. It is determined whether or not the same.

ステップB15では、1つ前の移動元の画素に戻る。すなわち、画素の座標を1つ前に移動した移動前の画素の座標(i,j)に戻す。ステップB16では、画素値が「1」である隣接する画素を1つの初期領域として決定して、ステップB2に戻る。ステップB1〜ステップB16は、領域抽出ステップである。   In step B15, the process returns to the previous pixel of the movement source. That is, the pixel coordinate is returned to the coordinate (i, j) of the pixel before the movement that was moved one before. In step B16, an adjacent pixel whose pixel value is “1” is determined as one initial region, and the process returns to step B2. Steps B1 to B16 are region extraction steps.

図13は、クラスタ範囲決定手段14が実行するクラスタ範囲決定処理の処理手順を示すフローチャートである。領域抽出手段13が、図12に示した領域抽出処理を終了すると、ステップC1に移る。   FIG. 13 is a flowchart showing a processing procedure of cluster range determination processing executed by the cluster range determination means 14. When the area extracting unit 13 finishes the area extracting process shown in FIG. 12, the process proceeds to step C1.

ステップC1では、各初期領域cについて、EMアルゴリズムを用いて、各初期領域の2次元混合正規分布からその分布を構成する2次元正規分布を求める。ここに、cは1〜Uの自然数であり、Uは初期領域の数である。ステップC2では、各初期領域cについて求められた各2次元正規分布の平均xctおよびyctと、標準偏差σxctおよびσyctとを求める。ここに、tは、1〜Rの自然数であり、Rは各2次元混合正規分布から求められた2次元正規分布の数である。   In step C1, for each initial region c, a two-dimensional normal distribution constituting the distribution is obtained from the two-dimensional mixed normal distribution of each initial region using the EM algorithm. Here, c is a natural number of 1 to U, and U is the number of initial regions. In step C2, the average xct and yct of each two-dimensional normal distribution obtained for each initial region c and the standard deviations σxct and σyct are obtained. Here, t is a natural number of 1 to R, and R is the number of two-dimensional normal distributions obtained from each two-dimensional mixed normal distribution.

ステップC3では、点(xct,yct)を中心とするX軸方向の半径p×σxct、およびY軸方向の半径p×σyctの楕円範囲をクラスタの範囲として、クラスタ範囲決定処理を終了する。ステップC1〜ステップC3は、クラスタ範囲決定ステップである。   In step C3, the cluster range determination process is terminated with the ellipse range having the radius p × σxct in the X-axis direction centered on the point (xct, yct) and the radius p × σyct in the Y-axis direction as the cluster range. Steps C1 to C3 are cluster range determination steps.

図14は、クラスタ決定手段15が実行するクラスタ決定処理の処理手順を示すフローチャートである。クラスタ範囲決定手段14が、図13に示したクラスタ範囲決定処理を終了すると、ステップD1に移る。   FIG. 14 is a flowchart showing a processing procedure of cluster determination processing executed by the cluster determination means 15. When the cluster range determining means 14 finishes the cluster range determining process shown in FIG. 13, the process proceeds to step D1.

ステップD1では、対応するクラスタが1つであるか否かを判定する。クラスタ情報に1つのクラスタの番号のみがあると、対応するクラスタが1つであると判定して、ステップD6に進む。クラスタ情報にあるクラスタの番号が1つのみでないと、対応するクラスタが1つでないと判定して、ステップD2に進む。ステップD2では、対応するクラスタがないか否かを判定する。クラスタ情報にクラスタの番号がないと、対応するクラスタがないと判定して、ステップD3に進む。クラスタ情報にクラスタの番号があると、対応するクラスタがあると判定して、ステップD7に進む。   In step D1, it is determined whether there is one corresponding cluster. If there is only one cluster number in the cluster information, it is determined that there is only one corresponding cluster, and the process proceeds to step D6. If there is not only one cluster number in the cluster information, it is determined that there is not one corresponding cluster, and the process proceeds to step D2. In step D2, it is determined whether or not there is a corresponding cluster. If there is no cluster number in the cluster information, it is determined that there is no corresponding cluster, and the process proceeds to step D3. If there is a cluster number in the cluster information, it is determined that there is a corresponding cluster, and the process proceeds to step D7.

ステップD3では、最短距離のクラスタが1つであるか否かを判定する。最短距離のクラスタが1つであると、ステップD6に進み、最短距離のクラスタが1つでないと、ステップD4に進む。ステップD4では、その画素を、複数の最短距離のクラスタのうち、評価値Hが最大のクラスタに分類する。評価値Hは、式H=(σxct+σyct)/(xct+yct)によって算出する。ここに、xctはX軸方向の平均、yctはY軸方向の平均、σxctはX軸方向の標準偏差、σyctはY軸方向の標準偏差である。   In step D3, it is determined whether or not there is one shortest distance cluster. If there is one shortest distance cluster, the process proceeds to step D6, and if there is not one shortest distance cluster, the process proceeds to step D4. In step D4, the pixel is classified into a cluster having the largest evaluation value H among a plurality of shortest distance clusters. The evaluation value H is calculated by the equation H = (σxct + σyct) / (xct + yct). Here, xct is an average in the X-axis direction, yct is an average in the Y-axis direction, σxct is a standard deviation in the X-axis direction, and σyct is a standard deviation in the Y-axis direction.

ステップD5では、すべての画素を分類したか否かを判定する。すべての画素を分類すると、クラスタ決定処理を終了し、すべての画素を分類していないと、ステップD1に戻り、次の画素について処理する。ステップD6では、その画素をそのクラスタに分類して、ステップD5に進む。ステップD7では、その画素を、対応する複数のクラスタのうち、評価値Hが最大のクラスタに分類して、ステップD5に進む。ステップD1〜ステップD7は、画素分類ステップである。   In step D5, it is determined whether or not all the pixels have been classified. When all the pixels are classified, the cluster determination process is terminated. When all the pixels are not classified, the process returns to step D1 to process the next pixel. In step D6, the pixel is classified into the cluster, and the process proceeds to step D5. In step D7, the pixel is classified into a cluster having the largest evaluation value H among the corresponding clusters, and the process proceeds to step D5. Steps D1 to D7 are pixel classification steps.

画素をクラスタに分類することによって、画素に対応する多次元ベクトルをクラスタに分類することができる。評価値Hを用いて画素を分類するので、いずれのクラスタの範囲にも入らない画素および複数のクラスタの範囲に入る画素を、度数がより小さく分散の大きい正規分布のクラスタに分類することができる。したがって、山の高さがより低くかつ広がりがより広い正規分布のクラスタに分類されるベクトル数を増加することができ、各クラスタのベクトル数の偏りをより低減することができる。
このように、入力手段10によって処理されるステップでは、多次元ベクトルを表す多次元ベクトルデータを入力する。次元縮退手段11によって処理されるステップでは、入力手段10によって処理されるステップで入力された多次元ベクトルデータを、予め定める次元変換条件に従って2次元ベクトルを表す2次元ベクトルデータに変換する。
By classifying pixels into clusters, multidimensional vectors corresponding to the pixels can be classified into clusters. Since the pixels are classified using the evaluation value H, the pixels that do not fall within any cluster range and the pixels that fall within a plurality of cluster ranges can be classified into normal distribution clusters with smaller frequency and greater variance. . Therefore, it is possible to increase the number of vectors classified into clusters of normal distribution having a lower peak height and wider spread, and it is possible to further reduce the bias in the number of vectors of each cluster.
Thus, in the step processed by the input means 10, multidimensional vector data representing a multidimensional vector is input. In the step processed by the dimension reduction means 11, the multidimensional vector data input in the step processed by the input means 10 is converted into two-dimensional vector data representing a two-dimensional vector according to a predetermined dimension conversion condition.

図11に示したフローチャートのステップA1〜ステップA3では、次元縮退手段11によって処理されるステップで変換された2次元ベクトルデータを、対応する2次元ベクトルの有無を示す値で表され、かつ対応する2次元ベクトルの数を表す度数が付与される画素からなる画像を表す画像データに変換する。図12に示したフローチャートのステップB1〜ステップB16では、図11に示したフローチャートのステップA1〜ステップA3で変換された画像データが示す画素のうち、対応する2次元ベクトルが有ることを示す値で表される画素の中から、隣接する画素によって構成される領域を抽出する。   In step A1 to step A3 of the flowchart shown in FIG. 11, the two-dimensional vector data converted in the step processed by the dimension reduction means 11 is represented by a value indicating the presence or absence of the corresponding two-dimensional vector and corresponds. Conversion into image data representing an image composed of pixels to which a frequency representing the number of two-dimensional vectors is given. Steps B1 to B16 in the flowchart shown in FIG. 12 are values indicating that there is a corresponding two-dimensional vector among the pixels indicated by the image data converted in steps A1 to A3 in the flowchart shown in FIG. A region constituted by adjacent pixels is extracted from the represented pixels.

図13に示したフローチャートのステップC1〜ステップC3では、図12に示したフローチャートのステップB1〜ステップB16で抽出された各領域に含まれる画素に付与された度数の分布から、その分布を構成する正規分布を抽出し、抽出した正規分布ごとに、各正規分布の平均を中心とし、かつ標準偏差に基づいて決められる範囲をクラスタの範囲として決定する。そして、図14に示したフローチャートのステップD1〜ステップD7では、クラスタに分類される画素の数を均一化するための予め定める分類条件に従って、図13に示したフローチャートのステップC1〜ステップC3で範囲が決定されたクラスタに、各画素を分類する。   In Step C1 to Step C3 of the flowchart shown in FIG. 13, the distribution is configured from the distribution of the frequencies given to the pixels included in each region extracted in Step B1 to Step B16 of the flowchart shown in FIG. A normal distribution is extracted, and for each extracted normal distribution, a range determined based on the average of each normal distribution and based on the standard deviation is determined as a cluster range. Then, in steps D1 to D7 of the flowchart shown in FIG. 14, the range is set in steps C1 to C3 of the flowchart shown in FIG. 13 according to a predetermined classification condition for equalizing the number of pixels classified into clusters. Each pixel is classified into the cluster in which is determined.

すなわち、本発明に係るクラスタリング方法を適用すれば、画素をクラスタに分類することによって、画素に対応する多次元ベクトルをクラスタに分類することができるので、クラスタに分類される画素の数を均一化するための予め定める分類条件に従って、画素をクラスタに分類することによって、各クラスタに含まれるベクトル数の偏りをより少なくすることができる。文書データを多次元ベクトルデータとして表して、検索に適用すれば、文書データをより速く検索することができる。   In other words, by applying the clustering method according to the present invention, it is possible to classify pixels into clusters, thereby classifying multi-dimensional vectors corresponding to pixels into clusters, so that the number of pixels classified into clusters is made uniform. By classifying pixels into clusters in accordance with predetermined classification conditions for performing the above, it is possible to further reduce the bias of the number of vectors included in each cluster. If the document data is expressed as multidimensional vector data and applied to the search, the document data can be searched faster.

クラスタリング自動化装置1を制御するプログラムは、コンピュータに、本発明に係るクラスタリング方法の各ステップを実行させるためのプログラムでもある。したがって、本発明は、コンピュータにクラスタリング方法の各ステップを実行させるためのプログラムとして提供することができる。   The program for controlling the clustering automation apparatus 1 is also a program for causing a computer to execute each step of the clustering method according to the present invention. Therefore, the present invention can be provided as a program for causing a computer to execute each step of the clustering method.

上述した実施の形態では、プログラムは、コンピュータの記憶装置たとえば半導体メモリあるいはハードディスク装置などの記憶装置に記憶されているが、これらの記憶装置に限定されるものではなく、コンピュータで読取り可能な記録媒体に記録されていてもよい。記録媒体は、たとえば図示しない外部記憶装置としてプログラム読取装置を設け、そこに記録媒体を挿入することによって読取り可能な記録媒体であってもよいし、あるいは他の装置の記憶装置であってもよい。   In the above-described embodiment, the program is stored in a storage device of a computer such as a semiconductor memory or a hard disk device. However, the program is not limited to these storage devices, and a computer-readable recording medium. May be recorded. The recording medium may be a recording medium that can be read by providing a program reading device as an external storage device (not shown) and inserting the recording medium therein, or may be a storage device of another device. .

いずれの記録媒体であっても、記憶されているプログラムがコンピュータからアクセスされて実行される構成であればよい。あるいはいずれの記録媒体であっても、プログラムが読み出され、読み出されたプログラムが、記憶装置のプログラム記憶エリアに記憶されて、そのプログラムが実行される構成であってもよい。さらに通信ネットワークを介して他の装置からダウンロードされてプログラム記憶エリアに記憶させてもよい。ダウンロード用のプログラムは、予めコンピュータの記憶装置に記憶しておくか、あるいは別な記録媒体からプログラム記憶エリアにインストールしておく。   Any recording medium may be used as long as the stored program is accessed from a computer and executed. Alternatively, any recording medium may be configured such that the program is read, the read program is stored in the program storage area of the storage device, and the program is executed. Further, it may be downloaded from another device via a communication network and stored in the program storage area. The download program is stored in advance in a storage device of a computer, or installed in a program storage area from another recording medium.

本体と分離可能に構成される記録媒体は、たとえば磁気テープ/カセットテープなどのテープ系の記録媒体、フレキシブルディスク/ハードディスクなどの磁気ディスクもしくはCD−ROM(Compact Disk Read Only Memory)/MO(Magneto Optical disk)/MD(Mini Disc)/DVD(Digital Versatile Disk)などの光ディスクのディスク系の記録媒体、IC(Integrated Circuit)カード(メモリカードを含む)/光カードなどのカード系の記録媒体、またはマスクROM/EPROM(Erasable Programmable Read Only Memory)/EEPROM(Electrically Erasable Programmable Read Only
Memory)/フラッシュROMなどの半導体メモリを含む固定的にプログラムを担持する記録媒体であってもよい。したがって、本発明は、コンピュータにクラスタリング方法の各ステップを実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体として提供することができる。
The recording medium configured to be separable from the main body is, for example, a tape-based recording medium such as a magnetic tape / cassette tape, a magnetic disk such as a flexible disk / hard disk, or a CD-ROM (Compact Disk Read Only Memory) / MO (Magneto Optical). disk) / MD (Mini Disc) / DVD (Digital Versatile Disk) and other optical disk recording media, IC (Integrated Circuit) cards (including memory cards) / optical cards and other card recording media, or masks ROM / EPROM (Erasable Programmable Read Only Memory) / EEPROM (Electrically Erasable Programmable Read Only)
Memory) / a recording medium that carries a fixed program including a semiconductor memory such as a flash ROM. Therefore, the present invention can be provided as a computer-readable recording medium recording a program for causing a computer to execute each step of the clustering method.

本発明の実施の一形態であるクラスタリング自動化装置1の機能の構成を示すブロック図である。It is a block diagram which shows the structure of the function of the clustering automation apparatus 1 which is one Embodiment of this invention. 次元縮退手段11によって変換された2次元ベクトルの位置を示すXY座標系21の一例を示す図である。It is a figure which shows an example of the XY coordinate system 21 which shows the position of the two-dimensional vector converted by the dimension reduction means 11. FIG. 画像化手段12によって変換された画像22の一例を示す図である。It is a figure which shows an example of the image 22 converted by the imaging means. 画像化手段12によって変換された画素のデータ構造31の一例を示す図である。It is a figure which shows an example of the data structure 31 of the pixel converted by the imaging means. 領域抽出手段13によって抽出された初期領域が示された画像23の一例を示す図である。It is a figure which shows an example of the image 23 in which the initial area | region extracted by the area | region extraction means 13 was shown. 領域抽出手段13による領域抽出処理後の画素のデータ構造32の一例を示す図である。It is a figure which shows an example of the data structure 32 of the pixel after the area | region extraction process by the area | region extraction means 13. FIG. クラスタ範囲決定手段14によって抽出された2次元正規分布24の一例を示す図である。It is a figure which shows an example of the two-dimensional normal distribution 24 extracted by the cluster range determination means. クラスタ範囲決定手段14によって抽出された2次元正規分布25の一例を示す図である。It is a figure which shows an example of the two-dimensional normal distribution 25 extracted by the cluster range determination means. クラスタ範囲決定手段14によるクラスタ範囲決定処理後の画素のデータ構造33の一例を示す図である。It is a figure which shows an example of the data structure 33 of the pixel after the cluster range determination process by the cluster range determination means. クラスタ決定手段15によって画素がクラスタに分類された画像26の一例を示す図である。It is a figure which shows an example of the image 26 by which the cluster determination means 15 classified the pixel into the cluster. 画像化手段12が実行する画像化処理の処理手順を示すフローチャートである。It is a flowchart which shows the process sequence of the imaging process which the imaging means 12 performs. 領域抽出手段13が実行する領域抽出処理の処理手順を示すフローチャートである。It is a flowchart which shows the process sequence of the area | region extraction process which the area | region extraction means 13 performs. クラスタ範囲決定手段14が実行するクラスタ範囲決定処理の処理手順を示すフローチャートである。It is a flowchart which shows the process sequence of the cluster range determination process which the cluster range determination means 14 performs. クラスタ決定手段15が実行するクラスタ決定処理の処理手順を示すフローチャートである。It is a flowchart which shows the process sequence of the cluster determination process which the cluster determination means 15 performs.

符号の説明Explanation of symbols

1 クラスタリング自動化装置
10 多次元ベクトルデータ入力手段
11 次元縮退手段
12 画像化手段
13 領域抽出手段
14 クラスタ範囲決定手段
15 クラスタ決定手段
16 多次元ベクトルデータ記憶手段
DESCRIPTION OF SYMBOLS 1 Clustering automation apparatus 10 Multidimensional vector data input means 11 Dimension reduction means 12 Imaging means 13 Area extraction means 14 Cluster range determination means 15 Cluster determination means 16 Multidimensional vector data storage means

Claims (5)

多次元ベクトルを表す多次元ベクトルデータを入力する入力手段と、
入力手段によって入力された多次元ベクトルデータを、予め定める次元変換方式によって2次元ベクトルを表す2次元ベクトルデータに変換する次元変換手段と、
次元変換手段によって変換された2次元ベクトルデータを、対応する2次元ベクトルの有無を示す値で表され、かつ対応する2次元ベクトルの数を表す度数が付与される画素からなる画像を表す画像データに変換する画像化手段と、
画像化手段によって変換された画像データが示す画素のうち、対応する2次元ベクトルが有ることを示す値で表される画素の中から、隣接する画素によって構成される領域を抽出する領域抽出手段と、
領域抽出手段によって抽出された各領域に含まれる画素に付与された度数の分布から、その分布を構成する正規分布を抽出し、抽出した正規分布ごとに、各正規分布の平均を中心とし、かつ標準偏差に基づいて決められる範囲をクラスタの範囲として決定するクラスタ範囲決定手段と、
クラスタに分類される画素の数を均一化するための予め定める分類条件に従って、クラスタ範囲決定手段によって範囲が決定されたクラスタに、各画素を分類する画素分類手段とを含むこと特徴とするクラスタリング装置。
Input means for inputting multidimensional vector data representing a multidimensional vector;
Dimension conversion means for converting the multidimensional vector data input by the input means into two-dimensional vector data representing a two-dimensional vector by a predetermined dimension conversion method;
Image data representing an image composed of pixels to which the two-dimensional vector data converted by the dimension conversion means is represented by a value indicating the presence or absence of the corresponding two-dimensional vector and to which a frequency indicating the number of the corresponding two-dimensional vector is given. Imaging means for converting to
A region extracting unit that extracts a region constituted by adjacent pixels from pixels represented by values indicating that there is a corresponding two-dimensional vector among the pixels represented by the image data converted by the imaging unit; ,
From the frequency distribution given to the pixels included in each region extracted by the region extraction means, a normal distribution constituting the distribution is extracted, and for each extracted normal distribution, the average of each normal distribution is centered, and Cluster range determining means for determining a range determined based on the standard deviation as a cluster range;
A clustering apparatus comprising: a cluster whose range is determined by a cluster range determination unit according to a predetermined classification condition for equalizing the number of pixels classified into clusters; and a pixel classification unit that classifies each pixel. .
前記予め定める分類条件は、
画素に付与される度数が1つの正規分布のみを構成する度数の場合は、その度数が付与される画素を、その度数が構成する正規分布に対応するクラスタに分類し、
画素に付与される度数の一部が複数の正規分布を構成する度数の場合は、その度数が付与される画素を、その度数の一部が構成する複数の正規分布のうち、正規分布の標準偏差を平均で除算した評価値が最も大きい正規分布に対応するクラスタに分類し、
画素に付与される度数がいずれの正規分布をも構成しない度数の場合は、その度数が付与される画素を、その度数が付与される画素に最も近い範囲のクラスタのうち、前記評価値が最も大きいクラスタに分類することを特徴とする請求項1に記載のクラスタリング装置。
The predetermined classification conditions are:
If the frequency given to a pixel is a frequency that constitutes only one normal distribution, classify the pixel to which the frequency is given into a cluster corresponding to the normal distribution that the frequency constitutes,
When a part of the frequency assigned to a pixel is a frequency that forms a plurality of normal distributions, the pixel to which the frequency is assigned is selected from the normal distributions that are part of the frequency. Classify the cluster into the cluster corresponding to the normal distribution with the largest evaluation value divided by the mean,
When the frequency given to a pixel is a frequency that does not constitute any normal distribution, the evaluation value is the highest among the clusters in the range closest to the pixel to which the frequency is assigned. The clustering apparatus according to claim 1, wherein the clustering apparatus is classified into large clusters.
多次元ベクトルを表す多次元ベクトルデータを入力する入力ステップと、
入力ステップで入力された多次元ベクトルデータを、予め定める次元変換条件に従って2次元ベクトルを表す2次元ベクトルデータに変換する次元変換ステップと、
次元変換ステップで変換された2次元ベクトルデータを、対応する2次元ベクトルの有無を示す値で表され、かつ対応する2次元ベクトルの数を表す度数が付与される画素からなる画像を表す画像データに変換する画像化ステップと、
画像化ステップで変換された画像データが示す画素のうち、対応する2次元ベクトルが有ることを示す値で表される画素の中から、隣接する画素によって構成される領域を抽出する領域抽出ステップと、
領域抽出ステップで抽出された各領域に含まれる画素に付与された度数の分布から、その分布を構成する正規分布を抽出し、抽出した正規分布ごとに、各正規分布の平均を中心とし、かつ標準偏差に基づいて決められる範囲をクラスタの範囲として決定するクラスタ範囲決定ステップと、
クラスタに分類される画素の数を均一化するための予め定める分類条件に従って、クラスタ範囲決定ステップで範囲が決定されたクラスタに、各画素を分類する画素分類ステップとを含むこと特徴とするクラスタリング方法。
An input step for inputting multidimensional vector data representing the multidimensional vector;
A dimension conversion step of converting the multidimensional vector data input in the input step into two-dimensional vector data representing a two-dimensional vector according to a predetermined dimension conversion condition;
Image data representing an image made up of pixels to which the two-dimensional vector data converted in the dimension conversion step is represented by a value indicating the presence or absence of the corresponding two-dimensional vector and to which a frequency representing the number of the corresponding two-dimensional vector is given. An imaging step to convert to
An area extraction step for extracting an area constituted by adjacent pixels from pixels represented by values indicating that there is a corresponding two-dimensional vector among the pixels indicated by the image data converted in the imaging step; ,
From the frequency distribution given to the pixels included in each region extracted in the region extraction step, a normal distribution that constitutes the distribution is extracted, and for each extracted normal distribution, the average of each normal distribution is centered, and A cluster range determining step for determining a range determined based on the standard deviation as a cluster range;
A clustering method comprising: a pixel classification step for classifying each pixel into a cluster whose range is determined in the cluster range determination step according to a predetermined classification condition for equalizing the number of pixels classified into clusters. .
多次元ベクトルを表す多次元ベクトルデータを入力する入力ステップと、
入力ステップで入力された多次元ベクトルデータを、予め定める次元変換条件に従って2次元ベクトルを表す2次元ベクトルデータに変換する次元変換ステップと、
次元変換ステップで変換された2次元ベクトルデータを、対応する2次元ベクトルの有無を示す値で表され、かつ対応する2次元ベクトルの数を表す度数が付与される画素からなる画像を表す画像データに変換する画像化ステップと、
画像化ステップで変換された画像データが示す画素のうち、対応する2次元ベクトルが有ることを示す値で表される画素の中から、隣接する画素によって構成される領域を抽出する領域抽出ステップと、
領域抽出ステップで抽出された各領域に含まれる画素に付与された度数の分布から、その分布を構成する正規分布を抽出し、抽出した正規分布ごとに、各正規分布の平均を中心とし、かつ標準偏差に基づいて決められる範囲をクラスタの範囲として決定するクラスタ範囲決定ステップと、
クラスタに分類される画素の数を均一化するための予め定める分類条件に従って、クラスタ範囲決定ステップで範囲が決定されたクラスタに、各画素を分類する画素分類ステップとを、コンピュータに実行させるためのプログラム。
An input step for inputting multidimensional vector data representing the multidimensional vector;
A dimension conversion step of converting the multidimensional vector data input in the input step into two-dimensional vector data representing a two-dimensional vector according to a predetermined dimension conversion condition;
Image data representing an image made up of pixels to which the two-dimensional vector data converted in the dimension conversion step is represented by a value indicating the presence or absence of the corresponding two-dimensional vector and to which a frequency representing the number of the corresponding two-dimensional vector is given. An imaging step to convert to
An area extraction step for extracting an area constituted by adjacent pixels from pixels represented by values indicating that there is a corresponding two-dimensional vector among the pixels indicated by the image data converted in the imaging step; ,
From the frequency distribution given to the pixels included in each region extracted in the region extraction step, a normal distribution that constitutes the distribution is extracted, and for each extracted normal distribution, the average of each normal distribution is centered, and A cluster range determining step for determining a range determined based on the standard deviation as a cluster range;
In order to cause a computer to execute a pixel classification step for classifying each pixel in a cluster whose range is determined in a cluster range determination step according to a predetermined classification condition for equalizing the number of pixels classified into clusters. program.
請求項4に記載のプログラムを記録したコンピュータ読取可能な記録媒体。   The computer-readable recording medium which recorded the program of Claim 4.
JP2007216509A 2007-08-22 2007-08-22 Clustering device, clustering method, program, and recording medium Pending JP2009048575A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007216509A JP2009048575A (en) 2007-08-22 2007-08-22 Clustering device, clustering method, program, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007216509A JP2009048575A (en) 2007-08-22 2007-08-22 Clustering device, clustering method, program, and recording medium

Publications (1)

Publication Number Publication Date
JP2009048575A true JP2009048575A (en) 2009-03-05

Family

ID=40500698

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007216509A Pending JP2009048575A (en) 2007-08-22 2007-08-22 Clustering device, clustering method, program, and recording medium

Country Status (1)

Country Link
JP (1) JP2009048575A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2013001720A1 (en) * 2011-06-30 2015-02-23 三菱電機株式会社 Image encoding device, image decoding device, image encoding method, and image decoding method
CN116662588A (en) * 2023-08-01 2023-08-29 山东省大数据中心 Intelligent searching method and system for mass data

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2013001720A1 (en) * 2011-06-30 2015-02-23 三菱電機株式会社 Image encoding device, image decoding device, image encoding method, and image decoding method
CN116662588A (en) * 2023-08-01 2023-08-29 山东省大数据中心 Intelligent searching method and system for mass data
CN116662588B (en) * 2023-08-01 2023-10-10 山东省大数据中心 Intelligent searching method and system for mass data

Similar Documents

Publication Publication Date Title
AU2012261715B2 (en) Method, apparatus and system for generating a feature vector
US8634644B2 (en) System and method for identifying pictures in documents
JP4973063B2 (en) Table data processing method and apparatus
CN111428457B (en) Automatic formatting of data tables
JP6188976B2 (en) Method, apparatus and computer-readable recording medium for detecting text contained in an image
JP4177865B2 (en) Vector graphics shape data generation device, drawing device, method and program
JP2005085166A (en) Method and system for generating graphic image, and method, system and program for analyzing data
JP2007012074A (en) White space graph and tree for content-adaptive scaling of document image
US8429588B2 (en) Method and mechanism for extraction and recognition of polygons in an IC design
CN116483644B (en) Log search method for chip verification test regression, electronic equipment and medium
US20220327158A1 (en) Information processing apparatus, information processing method, and program
CN114254071A (en) Querying semantic data from unstructured documents
JP2009087057A (en) Clustering device for clustering vector data, clustering method, program, and recording medium
US6560359B2 (en) Data processing method and apparatus
US11055526B2 (en) Method, system and apparatus for processing a page of a document
JP2009048575A (en) Clustering device, clustering method, program, and recording medium
CN115204318B (en) Event automatic hierarchical classification method and electronic equipment
JP2002133411A (en) Information processing method, information processor and program
JP2004046612A (en) Data matching method and device, data matching program, and computer readable recording medium
JP4949996B2 (en) Image processing apparatus, image processing method, program, and recording medium
Hwang et al. SEMI-PointRend: improved semiconductor wafer defect classification and segmentation as rendering
Verma et al. Machine-learning-based image feature selection
JP2008165572A (en) Data classification device and data classification program
JP2011018311A (en) Device and program for retrieving image, and recording medium
JP2019096118A (en) Pattern recognition program, device and method