JPH1115832A - Cluster generation device and recording medium - Google Patents
Cluster generation device and recording mediumInfo
- Publication number
- JPH1115832A JPH1115832A JP9168267A JP16826797A JPH1115832A JP H1115832 A JPH1115832 A JP H1115832A JP 9168267 A JP9168267 A JP 9168267A JP 16826797 A JP16826797 A JP 16826797A JP H1115832 A JPH1115832 A JP H1115832A
- Authority
- JP
- Japan
- Prior art keywords
- cluster
- clusters
- generated
- cases
- pair
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
【0001】[0001]
【発明の属する技術分野】本発明は、与えられた事例を
もとにクラスタを生成するクラスタ生成装置に関するも
のである。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a cluster generation device for generating a cluster based on a given case.
【0002】事例を分類するクラスが与えられていない
場合、どのようなクラスに分類するかが重要な問題とな
る。クラスタリングは、そのような場合、クラスそのも
の、または部分集合となるようなクラスを生成する技術
である。一般に、クラスタは似た事例の集合である。例
えばアンケートデータなどから、似た人達のグループを
検出するのに利用できる。このクラスタの生成において
は、クラスタ間の類似性の計り方、クラスタの生成の仕
方によって、得られるクラスタ階層の性能が変わってく
る。本発明は、そのクラスタ間の類似性の計り方、生成
の仕方に関するものである。When a class for classifying a case is not given, an important problem is to classify the case. Clustering is a technique for generating a class that becomes a class itself or a subset in such a case. In general, a cluster is a set of similar cases. For example, it can be used to detect a group of similar people from questionnaire data. In the generation of clusters, the performance of the obtained cluster hierarchy changes depending on how similarities between clusters are measured and how clusters are generated. The present invention relates to how to measure and generate similarity between clusters.
【0003】[0003]
【従来の技術】従来、クラスタ生成の手法には、逐次的
手法と一括的手法とがある。逐次的手法は、クラスタリ
ングされる事例を、一度ではなく、少しずつ時間をおっ
て与えられる。新しい事例が与えられた時、それまでに
作られたクラスタを始めから作り直すのではなく、それ
に変更を加える操作を行う。そのため、クラスタ生成に
必要とされる時間は短いが、生成されたクラスタ階層の
性能は、事例の入力順序に大きく依存する。2. Description of the Related Art Conventionally, cluster generation methods include a sequential method and a collective method. In the sequential method, the instances to be clustered are given not by one time but by little time. When a new case is given, perform operations to make changes to the previously created cluster, instead of recreating it from scratch. Therefore, although the time required for cluster generation is short, the performance of the generated cluster hierarchy largely depends on the input order of cases.
【0004】一括的手法は、事例が一度に与えられるた
め、入力順序の問題はないが、クラスタ生成に時間がか
かる。例えば、代表的な手法としてWard法がある
が、この計算量は、全事例数の3乗である。In the collective method, since cases are given at once, there is no problem in the input order, but it takes time to generate clusters. For example, the Ward method is a typical method, but the amount of calculation is the cube of the total number of cases.
【0005】[0005]
【発明が解決しようとする課題】上述したようにクラス
タ生成を従来の逐次的手法で行うと、新しい事例が与え
られたときにクラスタ生成を迅速に行うことができる
が、生成されるクラスタ階層が事例の入力順序に大きく
依存してしまう問題がある。As described above, when cluster generation is performed by a conventional sequential method, cluster generation can be performed quickly when a new case is given. There is a problem that it greatly depends on the input order of the cases.
【0006】また、従来の一括的手法で行うと、入力順
序の問題はないが、クラスタ生成に時間がかかるという
問題がある。また、逐次的/一括的手法に共通して多く
の手法は、1つの事例が1つのクラスにしか属さないよ
うなクラスタ階層が生成される。ある問題を解決するた
めに、複数の視点が要求される場合も多く、従来の1つ
の事例が1つのクラスにしか含まれないような階層を生
成する方法では、各視点ごとに階層を生成する必要も生
じてしまう。そこで、事例の入力順序によらず、階層生
成に必要な時間が短く、更に、1つの事例が複数のクラ
スタに属することを許すようなクラスタ階層生成手法が
望まれる。Further, when the conventional batch method is used, there is no problem in the input order, but there is a problem that it takes time to generate clusters. Further, in many methods common to the sequential / collective methods, a cluster hierarchy in which one case belongs to only one class is generated. In order to solve a certain problem, a plurality of viewpoints are often required. In the conventional method of generating a hierarchy in which one case is included in only one class, a hierarchy is generated for each viewpoint. Necessity arises. Therefore, there is a demand for a cluster hierarchy generation method that can reduce the time required for hierarchy generation regardless of the input order of cases and further allows one case to belong to a plurality of clusters.
【0007】本発明は、これらの問題を解決するため、
各属性の各値についてその値を持つ事例を集めてクラス
タを生成し、クラスタ集合中で共通して出現する事例の
数の多いクラスタは関連が高いと見做して複数クラスタ
から新たなクラスタを生成することを繰り返してクラス
タ階層を生成し、クラスタ生成時間を短くして1つの事
例が複数のクラスタに属することを許すクラスタ階層を
生成することを目的としている。[0007] The present invention solves these problems,
For each value of each attribute, clusters are generated by collecting the cases with that value, and clusters with a large number of cases that appear in common in the cluster set are considered to be highly related, and a new cluster is created from multiple clusters. An object of the present invention is to generate a cluster hierarchy by repeatedly generating a cluster hierarchy, shortening the cluster generation time, and generating a cluster hierarchy that allows one case to belong to a plurality of clusters.
【0008】[0008]
【課題を解決するための手段】図1を参照して課題を解
決するための手段を説明する。図1において、処理装置
1は、図示外の記録媒体からプログラムを主記憶にロー
ディングして起動し各種処理を行うものであって、ここ
では、初期クラスタ生成手段2、ペア選択手段3、およ
びクラスタ生成手段4などから構成されるものである。Means for solving the problem will be described with reference to FIG. In FIG. 1, a processing device 1 loads a program from a recording medium (not shown) into a main storage and starts up to perform various processes. In this example, an initial cluster generating unit 2, a pair selecting unit 3, and a cluster It comprises a generating means 4 and the like.
【0009】初期クラスタ生成手段2は、クラスタを生
成するものである。ペア選択手段3は、クラスタのペア
を選択するものである。クラスタ生成手段4は、選択し
たペアについて共通出現事例数を計数し最も多い数のペ
アを新たなクラスタとして生成などするものである。The initial cluster generating means 2 generates a cluster. The pair selecting means 3 selects a cluster pair. The cluster generating means 4 counts the number of common occurrence cases for the selected pair and generates the largest number of pairs as a new cluster.
【0010】事例データベース5は、事例を格納したも
のである。クラスタデータベース6は、生成したクラス
タを格納するものである。表示装置7は、クラスタを表
示などするものである。The case database 5 stores cases. The cluster database 6 stores generated clusters. The display device 7 displays a cluster or the like.
【0011】入力装置8は、各種指示やデータを入力す
るものである。次に、動作を説明する。初期クラスタ生
成手段2が事例データベース5から読み出した与えられ
た事例をもとに属性値毎にクラスタを生成し、ペア選択
手段3が生成されたクラスタ中の複数(例えば2つ)の
クラスタのペアを選択し、クラスタ生成手段4が選択さ
れたペアについて共通して含まれる事例の数を計数し最
も多い場合に当該ペアの複数のクラスタから新たなクラ
スタを生成し、クラスタデータベース6に格納するよう
にしている。The input device 8 is for inputting various instructions and data. Next, the operation will be described. The initial cluster generating means 2 generates a cluster for each attribute value based on the given case read from the case database 5, and the pair selecting means 3 generates a pair of a plurality of clusters (for example, two) in the generated cluster. Is selected, and the cluster generation unit 4 counts the number of cases commonly included in the selected pair, and if the number is the largest, generates a new cluster from a plurality of clusters of the pair and stores the new cluster in the cluster database 6. I have to.
【0012】この際、複数のクラスタの和集合を新たな
クラスタを生成するようにしている。また、複数のクラ
スタの積集合を新たなクラスタを生成するようにしてい
る。At this time, a new cluster is generated from the union of a plurality of clusters. In addition, a new cluster is generated from the intersection of a plurality of clusters.
【0013】従って、各属性の各値についてその値を持
つ事例を集めてクラスタを生成し、クラスタ集合中で共
通して出現する事例の数の多いクラスタは関連が高いと
見做して複数クラスタから新たなクラスタを生成するこ
とを繰り返してクラスタ階層を生成することにより、ク
ラスタ生成時間を短くして1つの事例が複数のクラスタ
に属することを許すクラスタ階層を生成することが可能
となる。Therefore, clusters are generated by collecting cases having the values of the respective attributes, and clusters having a large number of cases appearing in common in the cluster set are regarded as having a high association, and a plurality of clusters are considered. By repeatedly generating a new cluster from, a cluster hierarchy can be generated by reducing the cluster generation time and allowing one case to belong to a plurality of clusters.
【0014】[0014]
【発明の実施の形態】次に、図2から図5を用いて本発
明の実施の形態および動作を順次詳細に説明する。DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Next, an embodiment and operation of the present invention will be described in detail with reference to FIGS.
【0015】図2は、本発明の動作説明フローチャート
を示す。これは、図1の構成の詳細な動作を説明するフ
ローチャートである。図2において、S1は、事例集合
を入力する。FIG. 2 is a flowchart illustrating the operation of the present invention. This is a flowchart for explaining the detailed operation of the configuration in FIG. In FIG. 2, S1 inputs a case set.
【0016】S2は、パラメタKとクラスタ制限数Lを
決定する。これは、右側に記載したように、パラメタK
とクラスタ制御数Lを入力し、これをもとに右側に記載
したように、K×標準偏差=標準偏差の正の実数倍の決
定、およびクラスあるいはその部分集合(クラスタ)の
総計の最大数をLとして決定する。In step S2, a parameter K and a cluster limit number L are determined. This is, as described on the right, the parameter K
And the cluster control number L, and based on this, as described on the right side, K × standard deviation = determination of a positive real multiple of the standard deviation, and the maximum number of the total of the class or its subset (cluster) Is determined as L.
【0017】S3は、初期クラスタ階層を生成する。こ
れは、S1で入力された事例集合について、後述する図
3に示すように初期クラスタ階層を生成、即ち、後述す
る図3に示すように、入力された全事例を含むクラスタ
をCrootとし、葉クラスタはそれぞれ属性amの値がv
mvである事例を集めたクラスタとからなる初期クラス
タ階層を生成する。In step S3, an initial cluster hierarchy is generated. In this case, an initial cluster hierarchy is generated for the case set input in S1 as shown in FIG. 3 to be described later, that is, as shown in FIG. Each cluster has a value of attribute am of v
An initial cluster hierarchy composed of a cluster of mv cases collected is generated.
【0018】S4は、終了か判別する。これは、S5以
下の処理について、クラスタ数がL個となるか、ペアと
して選択するクラスタがなくなるまで繰り返すことが終
了したか判別する。YESの場合には、終了する。NO
の場合には、S5に進む。In step S4, it is determined whether or not the processing is completed. It is determined whether the process from S5 onward is repeated until the number of clusters becomes L or until there are no clusters to be selected as a pair. If YES, the process ends. NO
In the case of, the process proceeds to S5.
【0019】S5は、クラスタペアを選択する。S6
は、共通出現事例数を数える。これは、選択したペアの
クラスタについて、共通して出現する事例の数を数え
る。In step S5, a cluster pair is selected. S6
Counts the number of common occurrences. This counts the number of commonly occurring cases for the selected pair of clusters.
【0020】S7は、推定共通事例数を計算する(後述
する)。S8は、S6で数えた共通出現事例数がS7で
計算した推定共通事例数よりも十分に大きいか判別す
る。YESの場合には、S9に進む。NOの場合には、
S4に戻り繰り返す。In step S7, the number of estimated common cases is calculated (described later). In S8, it is determined whether or not the number of common occurrence cases counted in S6 is sufficiently larger than the estimated number of common cases calculated in S7. In the case of YES, the process proceeds to S9. In the case of NO,
Return to S4 and repeat.
【0021】S9は、事例数の割合を計算する。S10
は、一番大きい割合を記憶する。S11は、全ペア試行
したか判別する。YESの場合には、S12で一番割合
の大きいペアを選択し、S13で新たなクラスタを生成
し、S4に戻り繰り返す。一方、S11のNOの場合に
は、S4に戻り繰り返す。In step S9, the ratio of the number of cases is calculated. S10
Stores the largest ratio. In S11, it is determined whether all pairs have been tried. In the case of YES, the pair having the largest ratio is selected in S12, a new cluster is generated in S13, and the process returns to S4 and repeats. On the other hand, if NO in S11, the process returns to S4 and repeats.
【0022】ここで、S3ないしS13について以下に
詳細に説明する。後述する図3に示すように、全ての事
例を含むクラスタをCrootとして生成し、葉クラスタと
して属性amの値がvmvである事例の集合を生成する
(S3)。そして、共通して出現する事例数のクラスタ
のペアの関連度を評価する。その数が推定共通事例数よ
りも十分に大きい場合(S8のYESの場合)、関連が
高いと見なす。推定共通事例数は、以下の式によって計
算する。Here, S3 to S13 will be described in detail below. As shown in FIG. 3 described later, a cluster including all cases is generated as Croot, and a set of cases in which the value of the attribute am is vmv is generated as a leaf cluster (S3). Then, the degree of relevance of the cluster pairs of the number of cases that appear in common is evaluated. If the number is sufficiently larger than the estimated number of common cases (YES in S8), it is considered that the association is high. The estimated number of common cases is calculated by the following equation.
【0023】 eij=(|Ci|×|Cj|)/N (1) ここで、|Ci|、|Cj|はクラスタi、jに含まれる
それぞれの事例数を表し、Nは全事例数を表す。このと
きの標準偏差は、 dij={|Ci|×|Cj|×(N−|Ci|)×(N−|Cj|)}1/2 /{N2×(N−1)}1/2 (2) となる。ここで、パラメタKを含む、以下のような式
(3)を満たす時に、その2つのクラスタの関連が高い
と見做され、選択候補となる(S8)。E ij = (| C i | × | C j |) / N (1) where | C i | and | C j | represent the number of cases included in clusters i and j, respectively. Represents the total number of cases. The standard deviation at this time is d ij = {| C i | × | C j | × (N− | C i |) × (N− | C j |)} 1/2 / {N 2 × (N− 1)} 1/2 (2). Here, when the following equation (3) including the parameter K is satisfied, the relationship between the two clusters is considered to be high, and the two clusters are selected as candidates (S8).
【0024】 |Ci∩Cj|>eij+K・dij (3) ここで、左側は後述する図4の(e)の積集合を表す。
次に、下記の式(4)を計算する(S9)。| C i ∩C j |> e ij + K · d ij (3) Here, the left side represents the intersection of (e) in FIG. 4 described later.
Next, the following equation (4) is calculated (S9).
【0025】 |Ci∩Cj|/(|Ci|×|Cj|) (4) ここで、左側の式は後述する図4の(e)の積集合を表
し、右側の式は後述する図4の(d)の和集合を表す。| C i ∩C j | / (| C i | × | C j |) (4) Here, the left expression represents the intersection of (e) in FIG. This represents the union of FIG. 4D described later.
【0026】これら計算した結果から、式(3)を満た
し、式(4)を最大化するクラスタペアを選択すること
により、事例数が多いクラスタ同士が選択される傾向を
緩和できる(S9、S10)。From the calculated results, by selecting a cluster pair that satisfies Expression (3) and maximizes Expression (4), the tendency of selecting clusters with a large number of cases can be reduced (S9, S10). ).
【0027】そして、選択されたクラスタペアの和集合
を新たなクラスタとして生成し、選択ペアの上位にリン
クすることにより、後述する図4の(b)となる。ま
た、選択されたクラスタペアの積集合を新たなクラスタ
として生成し、選択ペアの下位にリンクすることによ
り、後述する図4の(c)となる。Then, the union of the selected cluster pair is generated as a new cluster, and linked to the higher rank of the selected pair, to obtain FIG. 4B described later. In addition, by generating a product set of the selected cluster pair as a new cluster and linking it to the lower order of the selected pair, the result becomes FIG.
【0028】以上のように、各属性値についてクラスタ
を生成し、関連の大きいクラスタペアから新たなクラス
タを生成することを繰り返しクラスタ階層を生成するこ
とにより、クラスタ生成時間を短くして1つの事例が複
数のクラスに属することを許すクラスタ階層を生成する
ことが可能となる。以下順次詳細に説明する。As described above, by generating a cluster for each attribute value and repeatedly generating a new cluster from a cluster pair having a large relation, a cluster hierarchy is generated. It is possible to generate a cluster hierarchy that allows to belong to a plurality of classes. The details will be sequentially described below.
【0029】図3は、本発明の説明図(その1)を示
す。これは、初期クラスタの概念を説明する図である。
図3の(a)は、初期クラスタの概念図を示す。ここ
で、全ての事例を含むクラスタをCrootとして生成す
る。次に、葉クラスタとして属性amの値がvmvであ
る事例の集合を図示のように生成する。FIG. 3 is an explanatory diagram (part 1) of the present invention. This is a diagram for explaining the concept of the initial cluster.
FIG. 3A is a conceptual diagram of an initial cluster. Here, a cluster including all cases is generated as Croot. Next, a set of cases in which the value of the attribute am is vmv is generated as a leaf cluster as illustrated.
【0030】図3の(b)は、初期クラスタの具体例を
示す。ここで、全ての事例を含むクラスタCrootとして
クラスタ“家具”を生成する。次に、葉クラスタとし
て、属性“脚の数”の値が“0”、“3”を持つものを
クラスタ“脚の数=0”、“脚の数=3”として図示の
ように生成する。同様に、葉クラスタとして、属性“材
質”の値が“木”を持つものをクラスタ“材質=木”と
して図示のように生成する。FIG. 3B shows a specific example of the initial cluster. Here, a cluster “furniture” is generated as a cluster Croot including all cases. Next, as the leaf cluster, those having the attribute “number of legs” having the values “0” and “3” are generated as clusters “number of legs = 0” and “number of legs = 3” as shown in the figure. . Similarly, as a leaf cluster, a cluster having a value of attribute “material” having “tree” is generated as a cluster “material = tree” as illustrated.
【0031】以上のように全ての事例を含むクラスタC
rootを生成し、葉クラスタとして属性の値毎に事例の集
合を生成することによって、事例集合から初期クラスタ
を生成することが可能となる。As described above, the cluster C including all cases
By generating a root and generating a set of cases for each attribute value as a leaf cluster, it is possible to generate an initial cluster from the case set.
【0032】図4は、本発明の説明図(その2)を示
す。これは、初期クラスタから関連の強い複数のクラス
タから1つの新たなクラスタを生成するときの概念を説
明する図である。FIG. 4 is an explanatory diagram (part 2) of the present invention. This is a diagram for explaining the concept when one new cluster is generated from a plurality of clusters having a strong relationship from the initial cluster.
【0033】図4の(a)は、クラスタ階層中から選択
されたペアの2つのクラスタCi、Cjを示す。図4の
(b)は、和集合を新クラスタとする方法の例を示す。
この2つのクラスタCi、Cjの和集合を新たなクラスタ
Cmとする場合には、当該2つのクラスタCi、Cjの和
集合の新たなクラスタCmを図示のようにペアの上位に
リンク付けする。FIG. 4A shows two clusters C i and C j of a pair selected from the cluster hierarchy. FIG. 4B shows an example of a method of using the union as a new cluster.
Link The two clusters C i, the union of C j when a new cluster Cm is the two clusters C i, the upper pair, as shown a new cluster Cm union of C j Attach.
【0034】図4の(c)は、積集合を新クラスタとす
る方法の例を示す。この2つのクラスタCi、Cjの積集
合を新たなクラスタCmとする場合には、当該2つのク
ラスタCi、Cjの積集合の新たなクラスタCmを図示の
ようにペアの下位にリンク付けする。FIG. 4C shows an example of a method of using the intersection set as a new cluster. Link The two clusters C i, the product set of C j when a new cluster Cm is the two clusters C i, the lower pair, as shown a new cluster Cm set intersection of C j Attach.
【0035】図4の(d)は、和集合を模式的に示した
図である。和集合(図4の(b)の場合)は、 |Ci|+|Cj| で表現され、クラスタCiとクラスタCjとのそれぞれの
斜線で示す部分の和となる。FIG. 4D is a diagram schematically showing the union. The union set (in the case of (b) in FIG. 4) is represented by | C i | + | C j |, and is the sum of the portions of the cluster C i and the cluster C j indicated by oblique lines.
【0036】図4の(e)は、積集合を模式的に示した
図である。積集合(図4の(c)の場合)は、 |Ci∩Cj| で表現され、クラスタCiとクラスタCjとのそれぞれの
斜線で示す重なる部分となる。FIG. 4E is a diagram schematically showing the intersection. The intersection (in the case of (c) in FIG. 4) is represented by | C i | C j |, and is an overlapping portion of each of the cluster C i and the cluster C j indicated by oblique lines.
【0037】図5は、本発明のクラスタ階層例を示す。
これは、図3の(b)の初期クラスタについて、既述し
た和集合の場合の新たなクラスタ、および既述した積
集合の場合の新たなクラスタを生成した後のクラスタ
階層例である。FIG. 5 shows an example of a cluster hierarchy according to the present invention.
This is an example of a cluster hierarchy after a new cluster in the case of the union set and a new cluster in the case of the intersection set described above are generated for the initial cluster in FIG. 3B.
【0038】例えば左側のの和集合のクラスタは、ク
ラスタ“脚の数=3”とクラスタ“材質=木”の2つの
ペアの和集合として新たなクラスタ“脚の数=3 o
r材質=木”を生成して上位にリンクしたものである。For example, the cluster of the union on the left side is a new cluster “the number of legs = 3 o” as the union of two pairs of the cluster “number of legs = 3” and the cluster “material = tree”.
r material = tree ”is generated and linked to a higher order.
【0039】同様に、例えば右側のの積集合のクラス
タは、クラスタ“材質=プラスティック”とクラスタ
“形=四角”の2つのペアの積集合として新たなクラス
タ“材質=プラスティック and 形=四角”を生
成して下位にリンクしたものである。Similarly, for example, the cluster of the product set on the right side is a new cluster “material = plastic and shape = square” as a product set of two pairs of the cluster “material = plastic” and the cluster “shape = square”. Generated and linked below.
【0040】以上のように、クラスタ集合中から関連す
るペアを見つけ、その和集合/積集合を上位/下位にリ
ンク付けすることにより、関連の大きいクラスタペアか
ら新たなクラスタを生成することが可能となる。As described above, a new cluster can be generated from a cluster pair having a large relation by finding a relevant pair from the cluster set and linking the union / intersection to the upper / lower levels. Becomes
【0041】図6および図7は、本発明のシステム動作
説明フローチャートを示す。これは、既述した図2の詳
細なシステム動作を説明するフローチャートであって、
図2のS1ないしS13に対応する部分を左端に記載す
る。FIGS. 6 and 7 show flowcharts for explaining the operation of the system according to the present invention. This is a flowchart for explaining the detailed system operation of FIG.
Portions corresponding to S1 to S13 in FIG. 2 are described at the left end.
【0042】図6において、S21は、事例集合を入力
する(S1)。S22は、パラメタkと、クラスタ制限
数Lを決定する。S23は、m=0と初期設定する。こ
れは、新たなクラスタCmを生成するときの変数mの値
を初期化する。In FIG. 6, S21 inputs a case set (S1). In S22, the parameter k and the cluster limit number L are determined. In step S23, m = 0 is initially set. This initializes the value of the variable m when generating a new cluster Cm.
【0043】S24は、i=0と初期設定する。S25
は、j=0と初期設定する。S26は、属性aiが値v
ijである全事例からなるクラスタCmを作る。In step S24, i = 0 is initialized. S25
Is initially set to j = 0. In step S26, the attribute ai has the value v
A cluster Cm consisting of all cases ij is created.
【0044】S27は、m=m+1する。S28は、j
=(aiの取る値の数−1)か判別する。YESの場合
には、S30に進む。一方、NOの場合には、S29で
j=j+1し、S26に戻り、次のクラスタCmを作成
することを繰り返す。In S27, m = m + 1. S28 is j
= (The number of values taken by ai-1). In the case of YES, the process proceeds to S30. On the other hand, in the case of NO, j = j + 1 in S29, the process returns to S26, and the process of creating the next cluster Cm is repeated.
【0045】S30は、i=(全属性数−1)か判別す
る。YESの場合には、S32に進む。一方、NOの場
合には、S31でi=i+1し、S25に戻り繰り返
す。S32は、Pmax=0、かつCmax=0と初期
設定する。In step S30, it is determined whether i = (the number of all attributes-1). In the case of YES, the process proceeds to S32. On the other hand, if NO, i = i + 1 is set in S31, and the process returns to S25 and repeats. In S32, Pmax = 0 and Cmax = 0 are initially set.
【0046】S33は、i=0と初期設定する。S34
は、j=i+1する。S35は、クラスタCiとクラス
タCjに共通して含まれる事例数|Ci∩Cj|を数え
る。In step S33, i = 0 is initialized. S34
Is j = i + 1. In step S35, the number of cases | C i ∩C j | included in the clusters C i and C j is counted.
【0047】S36は、CiとCjが独立な場合の推定共
通事例数eijとその標準偏差dijを計算する。図7のS
37は、|Ci∩Cj|>eij+K・dijか判別する。Y
ESの場合には、S38に進む。NOの場合には、S4
0に進む。In step S36, the estimated number of common cases e ij and its standard deviation d ij when C i and C j are independent are calculated. S in FIG.
37 determines whether | C i ∩C j |> e ij + K · d ij . Y
In the case of ES, the process proceeds to S38. If NO, S4
Go to 0.
【0048】S38は、Pmax<(|Ci∩Cj|)/
(|Ci|+|Cj|)か判別する。YESの場合には、
S39に進む。NOの場合には、S40に進む。S39
は、Pmax=(|Ci∩Cj|)/(|Ci|+|Cj|) Cmax←(Ci、Cj) を行う。In S38, P max <(| C i ∩C j |) /
(| C i | + | C j |). If yes,
Proceed to S39. In the case of NO, the process proceeds to S40. S39
Performs P max = (| C i ∩C j |) / (| C i | + | C j |) C max ← (C i , C j ).
【0049】S40は、j=m−1か判別する。YES
の場合には、S42に進む。NOの場合には、S41で
j=j+1し、S35に戻り繰り返す。S42は、i=
m−2か判別する。YESの場合には、S44に進む。
NOの場合には、S43でi=i+1し、S34に戻り
繰り返す。In step S40, it is determined whether j = m-1. YES
In the case of, the process proceeds to S42. In the case of NO, j = j + 1 is performed in S41, and the process returns to S35 and repeats. In S42, i =
m-2. In the case of YES, the process proceeds to S44.
In the case of NO, i = i + 1 is set in S43, and the process returns to S34 and is repeated.
【0050】S44は、Cmax≠0か判別する。YES
の場合には、S45に進む。NOの場合には、終了す
る。S45は、CmaxからCmをオペレータにより作
る。A step S44 decides whether C max max0. YES
In the case of, the process proceeds to S45. If NO, the process ends. In step S45, Cm is created from Cmax by the operator.
【0051】S46は、m=m+1する。S47は、m
=Lか判別する。YESの場合には、終了する。NOの
場合には、S32に戻り繰り返す。At S46, m = m + 1. S47 is m
= L. If YES, the process ends. If NO, the process returns to S32 and is repeated.
【0052】[0052]
【発明の効果】以上説明したように、本発明によれば、
各属性の各値についてその値を持つ事例を集めてクラス
タを生成し、クラスタ集合中で共通して出現する事例の
数の多いクラスタは関連が高いと見做して複数クラスタ
から新たなクラスタを生成することを繰り返してクラス
タ階層を生成する構成を採用しているため、クラスタ生
成時間を短くして1つの事例が複数のクラスに属するこ
とを許すクラスタ階層を生成することができる。これら
により、 (1) 属性の値毎にクラスタを1つづつ生成し、共通
して出現する事例の数が多いクラスタ同士から新たなク
ラスタを生成し、1つの事例が複数のクラスに属するよ
うな場合にも対応することが可能となる。As described above, according to the present invention,
For each value of each attribute, clusters are generated by collecting the cases with that value, and clusters with a large number of cases that appear in common in the cluster set are considered to be highly related, and a new cluster is created from multiple clusters. Since the configuration of generating a cluster hierarchy by repeating generation is adopted, it is possible to generate a cluster hierarchy that allows one case to belong to a plurality of classes by shortening the cluster generation time. Thus, (1) one cluster is generated for each attribute value, a new cluster is generated from clusters having a large number of commonly appearing cases, and one case belongs to a plurality of classes. It is possible to cope with the case.
【0053】(2) クラスタ階層の生成に必要な処理
時間は、階層中のクラスタ数の3乗と全事例数に比例す
る。通常、複雑すぎるクラス集合は、知識として利用し
難いため、必要とされない。そこで、パラメタとして設
定される階層中のクラスタ数を、事例数に比べて小さい
値にできる。その結果、比較的に短い時間でクラスタの
生成が可能となる。(2) The processing time required to generate a cluster hierarchy is proportional to the cube of the number of clusters in the hierarchy and the total number of cases. Usually, a class set that is too complex is not needed because it is difficult to use as knowledge. Therefore, the number of clusters in the hierarchy set as a parameter can be made smaller than the number of cases. As a result, a cluster can be generated in a relatively short time.
【0054】(3) 上記(1)および(2)により、
1つの事例が複数の概念に属するような大規模な事例集
合に対して、効果的にクラスを構成するクラスタを学習
することが可能となる。(3) According to the above (1) and (2),
For a large-scale case set in which one case belongs to a plurality of concepts, it is possible to effectively learn clusters constituting a class.
【図1】本発明のシステム構成図である。FIG. 1 is a system configuration diagram of the present invention.
【図2】本発明の動作説明フローチャートである。FIG. 2 is a flowchart illustrating the operation of the present invention.
【図3】本発明の説明図(その1)である。FIG. 3 is an explanatory diagram (No. 1) of the present invention.
【図4】本発明の説明図(その2)である。FIG. 4 is an explanatory diagram (No. 2) of the present invention.
【図5】本発明のクラスタ階層例である。FIG. 5 is an example of a cluster hierarchy according to the present invention.
【図6】本発明のシステム動作説明フローチャート(そ
の1)である。FIG. 6 is a flowchart (part 1) for explaining the system operation of the present invention.
【図7】本発明のシステム動作説明フローチャート(そ
の2)である。FIG. 7 is a flowchart (part 2) for explaining the system operation of the present invention.
1:処理装置 2:初期クラスタ生成手段 3:ペア選択手段 4:クラスタ生成手段 5:事例データベース 6:クラスタデータベース 7:表示装置 8:入力装置 1: Processing unit 2: Initial cluster generation unit 3: Pair selection unit 4: Cluster generation unit 5: Case database 6: Cluster database 7: Display unit 8: Input unit
───────────────────────────────────────────────────── フロントページの続き (72)発明者 岡本 青史 神奈川県川崎市中原区上小田中4丁目1番 1号 富士通株式会社内 (72)発明者 佐藤 理 神奈川県川崎市中原区上小田中4丁目1番 1号 富士通株式会社内 ──────────────────────────────────────────────────続 き Continuing on the front page (72) Inventor Seishi Okamoto 4-1-1 Kamikadanaka, Nakahara-ku, Kawasaki City, Kanagawa Prefecture Inside Fujitsu Limited (72) Inventor Osamu Sato 4-chome, Kamiodanaka Nakahara-ku, Kawasaki City, Kanagawa Prefecture No. 1 Inside Fujitsu Limited
Claims (4)
るクラスタ生成装置において、 与えられた事例をもとに属性値毎にクラスタを生成する
手段と、 上記生成されたクラスタ中の複数のクラスタに共通して
含まれる事例の数が多い場合に当該複数のクラスタから
新たなクラスタを生成する手段とを備えたことを特徴と
するクラスタ生成装置。1. A cluster generating apparatus for generating a cluster based on a given case, comprising: means for generating a cluster for each attribute value based on the given case; Means for generating a new cluster from the plurality of clusters when the number of cases commonly included in the cluster is large.
生成するとして、複数のクラスタの和集合を新たなクラ
スタとすることを特徴とする請求項1記載のクラスタ生
成装置。2. The cluster generating apparatus according to claim 1, wherein a new cluster is generated from the plurality of clusters, and a union of the plurality of clusters is set as a new cluster.
生成するとして、複数のクラスタの積集合を新たなクラ
スタとすることを特徴とする請求項1記載のクラスタ生
成装置。3. The cluster generation apparatus according to claim 1, wherein a new cluster is generated from the plurality of clusters, and an intersection of the plurality of clusters is set as a new cluster.
タを生成する手段と、上記生成されたクラスタ中の複数
のクラスタに共通して含まれる事例の数が多い場合に当
該複数のクラスタから新たなクラスタを生成する手段と
して機能するプログラムを格納した記録媒体。4. A means for generating a cluster for each attribute value based on a given case, and, when the number of cases commonly included in a plurality of clusters among the generated clusters is large, said plurality of clusters A recording medium storing a program functioning as a means for generating a new cluster from a cluster.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9168267A JPH1115832A (en) | 1997-06-25 | 1997-06-25 | Cluster generation device and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9168267A JPH1115832A (en) | 1997-06-25 | 1997-06-25 | Cluster generation device and recording medium |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH1115832A true JPH1115832A (en) | 1999-01-22 |
Family
ID=15864856
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP9168267A Withdrawn JPH1115832A (en) | 1997-06-25 | 1997-06-25 | Cluster generation device and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH1115832A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001266060A (en) * | 2000-03-15 | 2001-09-28 | Nec Corp | Analysis system questionnaire answer |
JP2008234338A (en) * | 2007-03-20 | 2008-10-02 | Nec Corp | Season degree analysis system, in-season degree analysis method, and season degree analysis program |
-
1997
- 1997-06-25 JP JP9168267A patent/JPH1115832A/en not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001266060A (en) * | 2000-03-15 | 2001-09-28 | Nec Corp | Analysis system questionnaire answer |
US6876990B2 (en) | 2000-03-15 | 2005-04-05 | Nec Corporation | Questionnaire analysis system |
JP2008234338A (en) * | 2007-03-20 | 2008-10-02 | Nec Corp | Season degree analysis system, in-season degree analysis method, and season degree analysis program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Teoh et al. | PaintingClass: interactive construction, visualization and exploration of decision trees | |
US5737591A (en) | Database view generation system | |
US20020188618A1 (en) | Systems and methods for ordering categorical attributes to better visualize multidimensional data | |
JPH0877010A (en) | Method and device for data analysis | |
CN110276456A (en) | A kind of machine learning model auxiliary construction method, system, equipment and medium | |
JPH08241192A (en) | Apparatus and method for generation of interface corresponding to code segment | |
CN111553161A (en) | Entity and relation labeling system for medical texts | |
CN108376354A (en) | A kind of recommendation method and device based on network graph structure | |
CN111400924A (en) | Automatic color matching method based on color matching engine, storage medium and terminal | |
Ashlock | Evolvable fashion-based cellular automata for generating cavern systems | |
CN110209860B (en) | Template-guided interpretable garment matching method and device based on garment attributes | |
Forder et al. | The analysis of chemical plant flowsheets | |
CN108388690A (en) | Cellular automata experiment porch | |
JPH1115832A (en) | Cluster generation device and recording medium | |
CN108921213B (en) | Entity classification model training method and device | |
US20070255746A1 (en) | Method for Processing Associated Software Data | |
CN114091446A (en) | Method and device for generating text | |
US6272543B1 (en) | Network-computer system build support system and support method | |
JP3266106B2 (en) | Automatic sentence classification apparatus and method | |
US20040086203A1 (en) | Database registration system and database registration method | |
JPH09204479A (en) | Table data processor | |
JPH04184678A (en) | Information retriever | |
CN110598756A (en) | Model training method and device and storage medium | |
Velázquez-Iturbide et al. | Recursion-based visualizations of search algorithms in state-spaces | |
JPH09204449A (en) | Parts list generation processor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Withdrawal of application because of no request for examination |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20040907 |