JPH0340170A - Disjunctive normal form learning device - Google Patents

Disjunctive normal form learning device

Info

Publication number
JPH0340170A
JPH0340170A JP1176310A JP17631089A JPH0340170A JP H0340170 A JPH0340170 A JP H0340170A JP 1176310 A JP1176310 A JP 1176310A JP 17631089 A JP17631089 A JP 17631089A JP H0340170 A JPH0340170 A JP H0340170A
Authority
JP
Japan
Prior art keywords
tree
samples
dnf
sample
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1176310A
Other languages
Japanese (ja)
Inventor
Kazumi Saito
和巳 斉藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP1176310A priority Critical patent/JPH0340170A/en
Publication of JPH0340170A publication Critical patent/JPH0340170A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE:To reduce process load by replacing a learning problem of the class (k-DNF) of a logic formula with a problem which forms a limited tree from a root with use of the positive and negative samples. CONSTITUTION:A sample control part 1 is prepared to perform the sample control and a process required for the sample control together with a tree control part 2 which performs the tree control and a process required for the tree control. Then a k-DNF tree which can express an optional k-DNF is used together with an evaluation standard set based on the thinking way similar to the expected value of the quantity of information, and a cluster of the sample having a label showing the relation between the k-DNF tree and the sample. Then all positive samples are erased by producing successively the following nodes from a root in a k-DNF tree, clustering samples, and erasing some positive samples under a certain condition. As a result, the process load is reduced.

Description

【発明の詳細な説明】 (1)産業上の利用分野 本発明は、学習による概念形成、論理回路の設計等を扱
うことが可能な選言標準形学習装置に関するものである
DETAILED DESCRIPTION OF THE INVENTION (1) Field of Industrial Application The present invention relates to a disjunctive standard form learning device that can handle concept formation through learning, design of logic circuits, and the like.

(2)従来の技術 従来の技術として、学習可能性理論(L e a r 
n a l] 11ity theory )とその学
習アルゴリズム、及びID3と呼ばれる概念学習アルゴ
リズムについて説明する(Valiant、L、G、 
”へtheory of thelearnable 
” Commun、 ACM27.111984.11
341]、42.)(Quinlan、J、R,”Le
arning C1assificationProc
edures  and  Their  Appli
cation  to  ChessEnd Game
s、  in Machine 1.earning:
  AnArtificial  Intellige
nce Approach、  R,S。
(2) Conventional technology As a conventional technology, the learnability theory (L e a r
11ity theory), its learning algorithm, and a concept learning algorithm called ID3 (Valiant, L, G,
``he theory of the learnable
“Commun, ACM27.111984.11
341], 42. ) (Quinlan, J.R., “Le
arning C1assificationProc
edures and Their Appli
cation to ChessEnd Game
s, in Machine 1. learning:
AnArtificial Intelligence
nce Approach, R,S.

Michalski  J、G、Carbonell、
  and  T、M。
Michalski J, G, Carbonell,
and T, M.

Mitchell(Eds、)、 Tioga、 Pa
1o Alto、 Ca1if。
Mitchell (Eds,), Tioga, Pa.
1o Alto, Calif.

1983、)。1983,).

まず、準備として以下の言葉を説明する。概念(Con
cept)とは、n個の変数(X I+ X 2+ ”
’+  X n )からなる論理式であり、ここでは、
高々に個のリテラル(literal)がandで結合
した項(term)をorで結合した選言標準形(Di
sjunctive NormalForm)のみを考
え、これをに−DNFと略記する。
First, as a preparation, I will explain the following terms. Concept
cept) means n variables (X I+ X 2+ ”
'+ X n ), where:
A disjunctive standard form (Di
This is abbreviated as -DNF.

但し、リテラルとは、Xi または、その否定のX、で
ある。例えば XHX3−Xa  + Xz  Xs  +  −X5
  X7  XHと表現する。サンプルとは、2値(0
,1)をとる長さ(個数)nのヘクトルであり、概念と
なる論理式により真と判定されるサンプルを正のサンプ
ルと呼び、それ以外を負のサンプルと呼ぶ。
However, a literal is Xi or its negation, X. For example, XHX3-Xa + Xz Xs + -X5
Expressed as X7 XH. A sample is a binary value (0
, 1) and has a length (number) of n hectares, and samples that are determined to be true by the conceptual logical formula are called positive samples, and other samples are called negative samples.

学習可能性理論では、サンプルの出現する任意の分布(
但し、常に一定の分布)に対して、概念となる論理式の
クラス(例えば、に−DNF)が判っているとき、サン
プルのみから、あるアルゴリズムを用いて1元の論理式
に対して、論理式を確からしく (Probably)
、近似的に(Approximately) 、妥当な
計算量(Computational feasibl
e)で求めることが・できるとき、学習可能である(L
earnable)という。即ち1元の論理式をf、求
める論理式をg、アルゴリズムが失敗する確率を6、論
理式fと論理式gとが不一致となる確率をεとしたとき
、任意の個数n1元の論理式f、アルゴリズムが失敗す
る確率δ、不一致となる確率εに対して、n、δ−1,
ε−1の多項式時間で次の式を満たすgを求めるアルゴ
リズムが存在するとき学習可能という。
In learnability theory, any distribution of samples (
However, when the class of the conceptual logical formula (e.g. -DNF) is known for a constant distribution), a certain algorithm can be used to calculate the logical Probably
, Approximately , Computational feasible
Learning is possible when it is possible to obtain (L)
It is called ``earnable''. In other words, if f is a one-element logical formula, g is the logical formula to be sought, 6 is the probability that the algorithm will fail, and ε is the probability that logical formula f and logical formula g do not match, then a logical formula with an arbitrary number of n1 elements is f, the probability that the algorithm fails δ, and the probability that there is a mismatch ε, n, δ−1,
It is said that learning is possible if there exists an algorithm for finding g that satisfies the following equation in polynomial time of ε-1.

P”  (P(f≠g)<ε)〉1−δ  −(1)但
し、Pは分布に対するサンプルの現れる確率測度であり
2mば学習に利用したサンプルの数である。
P''(P(f≠g)<ε)>1−δ−(1) where P is a probability measure of the appearance of a sample for the distribution, and 2m is the number of samples used for learning.

これらと同値な条件は次の式で表される数がnの多項式
であり、この数のサンプルを完全に説明する論理式を多
項式時間で出力するアルゴリズムが存在することである
The conditions equivalent to these are that the following equation is a polynomial of n, and that there exists an algorithm that outputs a logical equation that completely explains this number of samples in polynomial time.

m −ε−’ (logz r +logzδ−’) 
  −(2)但し、Tはクラスに属する任意の論理式を
符号化して表すのに高々必要なピント数であり、に−D
NFの場合衣の値となる。
m −ε−′ (logz r +logzδ−′)
-(2) However, T is the number of focuses required to encode and represent any logical expression belonging to the class, and -D
In the case of NF, it is the value of clothes.

1og2 r = (2N)  ’         
 −(3)この理論に対して提案されたに−D N F
の学習アルゴリズムは、負のサンプルのみを用い、順次
サンプルが現れると現在残っているに−DNFの全ての
項(初期状態では(2N)11個の全ての項が存在する
)を調べ、サンプルを含意する項を全て消して行くアル
ゴリズムである。
1og2 r = (2N)'
- (3) -D N F proposed for this theory
The learning algorithm uses only negative samples, and as samples appear sequentially, it examines all the terms in the currently remaining -DNF (initially there are all (2N) 11 terms) and calculates the samples. This is an algorithm that eliminates all implied terms.

このアルゴリズムの問題点としては、上記のように総当
たり的に項を調べて行くことは処理負荷になることが予
想される。また、負のサンプルのみでなく正のサンプル
も利用できるようにすることは、より効率的な処理、及
び、より簡潔なに−DNFを求めることができると考え
られる。
The problem with this algorithm is that examining the terms in a brute force manner as described above is expected to result in a processing load. Furthermore, it is believed that making it possible to use not only negative samples but also positive samples allows for more efficient processing and more concise determination of -DNF.

一方、ID3とは、サンプルの集合から決定木(Dec
ision tree)と呼ばれるサンプルの分類規則
を作成するアルゴリズムである。決定木ではリーフとそ
れ以外のノート′とで働きが異なり、前者は分類結果(
真または偽)に対応し、後者は、サンプルがこのノード
に入ってきたとき そのサンプルの1つの属性(変数)
に対する値のテストを行い、その結果により、このノー
ドと直接つながるどの子ノードにサンプルを移すか否か
を決定する。
On the other hand, ID3 is a decision tree (Dec) from a set of samples.
This is an algorithm that creates sample classification rules called sample classification rules. In a decision tree, leaves and other notes have different functions, and the former uses classification results (
true or false); the latter corresponds to one attribute (variable) of that sample when the sample enters this node.
The value of is tested, and depending on the result, it is determined to which child node directly connected to this node the sample should be moved.

即ち、決定木のルートにサンプルを入れ2何回かのテス
トとサンプルの移動とを繰り返すことにより、最終的に
、サンプルがリーフにたどり着きそれにより分類結果を
得ることができる。
That is, by inserting a sample into the root of the decision tree and repeating the test several times and moving the sample, the sample finally reaches the leaves and a classification result can be obtained.

次に、ID3における決定木の作成手順について説明す
る。まず、Cをサンプルの集合とし、p゛をCにおいて
サンプルが真となる確率、p−を偽となる確率とする。
Next, the procedure for creating a decision tree in ID3 will be explained. First, let C be a set of samples, let p' be the probability that a sample will be true in C, and p- be the probability that the sample will be false.

すると、Cにおける情報量の期待値Mは次の式で計算で
きる。
Then, the expected value M of the amount of information in C can be calculated using the following formula.

M (C) −−p” logzp” −p−]Ogz
p−−(4)また、i番目の属性の値でCの値を分割し
たものをC8,CIで表し、また、Cにおいてi番目の
属性の値が0となる確率をp。、■となる確率をT)l
 とすれば、この分割による新規の情報量の期待値Bは
次の式で計算できる。
M (C) --p"logzp"-p-]Ogz
p--(4) Also, the value of C divided by the value of the i-th attribute is expressed as C8,CI, and the probability that the value of the i-th attribute in C becomes 0 is p. ,■ is the probability that T)l
Then, the expected value B of the new information amount due to this division can be calculated using the following formula.

B (C,i) −Po M (Co) +p+ M 
(C++)  (5)従って、この分割により獲得した
情報量は次の式で得られる。
B (C,i) -Po M (Co) +p+ M
(C++) (5) Therefore, the amount of information obtained by this division is obtained by the following formula.

M  (C)−B  (C,i) これらより、与えられたサンプルの集合に対して、ルー
トから順次獲得する情報量が最大となるように属性を求
め、それをノートにおいてテストすべき属性とする。そ
して3分割したサンプルの集合の各々に対してノードを
作成し、情報量が最大となる属性を求めることを繰り返
す。但し、正または負のサンプルがなくなった場合には
そのノードをリーフとし2分類結果を付与する。ここで
注目することは、ID3では2分類するときのテスト回
数の期待値を最小にすることを狙っていることである。
M (C)-B (C,i) From these, for a given set of samples, find the attribute that maximizes the amount of information that can be acquired sequentially from the root, and select it as the attribute to be tested in the notebook. do. Then, a node is created for each of the three divided sample sets, and the process of repeatedly finding the attribute with the maximum amount of information is performed. However, if there are no more positive or negative samples, that node is treated as a leaf and two classification results are given. What should be noted here is that ID3 aims to minimize the expected value of the number of tests when classifying into two categories.

ID3のに−DNF学習における問題点は、決定木作成
において、一般に、深さかに以上の木が作成されてしま
うことである。この場合何らかの処理を施さねばならず
、処理負荷になることが予想される。また、ID3は前
向きの処理しかできず。
The problem with ID3-DNF learning is that when creating a decision tree, a tree with a depth of more than 100 yen is generally created. In this case, some processing must be performed, which is expected to result in a processing load. Also, ID3 can only perform forward-facing processing.

仮に、初期に作成したノードが分類に対して効果的でな
いことが判ってもそれを消すことができない点である。
Even if it turns out that the initially created node is not effective for classification, it cannot be deleted.

さらに、学習可能性理論の観点から決定木の構造を考え
ると、それはDNFと等価であり、学習可能であるかは
明らかではない。
Furthermore, considering the structure of a decision tree from the perspective of learnability theory, it is equivalent to a DNF, and it is not clear whether it is learnable.

(3)発明が解決しようとする課題 に−DNF学習アルゴリズムでは、総当たり的に項を調
べて行くことによる処理負荷が大であること 及び、学
習において負のサンプルのみを用いていることが問題と
なる。また、ID3では1作成する木の深さに制限がな
いこと、及び3作成したノードを消去する機構がないこ
とが問題となる。
(3) Problems to be solved by the invention - The problem with the DNF learning algorithm is that the processing load is heavy due to examining terms in a brute force manner, and that only negative samples are used in learning. becomes. Another problem with ID3 is that there is no limit to the depth of the tree created in 1, and there is no mechanism to delete nodes created in 3.

本発明の目的は前記問題点を解決するため、kDNFの
学習問題を、正と負のサンプルを用い制約のついた木を
ルートから構成する問題に置き換えることにより、従来
の装置での問題点を解決することができる選言標準形学
習装置を提供することにある。
The purpose of the present invention is to solve the above-mentioned problems by replacing the kDNF learning problem with a problem of constructing a constrained tree from the roots using positive and negative samples, thereby solving the problems with conventional devices. The object of the present invention is to provide a disjunctive standard form learning device that can solve the problem.

(4)課題を解決するための手段 本発明は、任意のに−DNFを表現できるに−DNF木
、情報量の期待値に類似した考え方に基づく只 評価尺度、及び、に−DNF木とサンプルとの対応関係
を表現するラベルを持ったサンプルのクラスタを用いた
ことを主要な特徴とする。
(4) Means for Solving the Problems The present invention provides a DNF tree that can express a DNF in an arbitrary manner, a simple evaluation scale based on a concept similar to the expected value of information, and a DNF tree and a sample. The main feature is that it uses clusters of samples that have labels that express the correspondence relationship between them.

(5)  作用 本発明の概要は、に−DNF木において、ルートから順
次ノードを作成すること、及び、サンプルのクラスタリ
ングをすること、また、ある条件によって一部の正のサ
ンプルを消去することにより全ての正のサンプルを消去
することである。以下に主な項目の説明をする。
(5) Effect The outline of the present invention is to create nodes sequentially from the root in a DNF tree, perform clustering of samples, and delete some positive samples under certain conditions. The goal is to eliminate all positive samples. The main items are explained below.

k−DNF木とは、深さが高々にであり、各ノードは変
数(属性)名でラベル付けされ、そして。
A k-DNF tree is at most deep, each node is labeled with a variable (attribute) name, and.

各ノードのラベルは自分より親に当るノードのラベルと
は異なるような木である。今後、各ノードからルートへ
の各ノードのラベルを結合することにより作成される項
をノードに付随するラベルと呼ぶ。すると、に−DNF
木は、各リーフに付随するラベルを用いて、任意のに−
DNFを表現することができる。また、に−DNF木で
はノード内にサンプルを格納しない。これは 一つのサ
ンプルが複数のノートに格納される場合があるので、サ
ンプルの管理が複雑になることを避番」るためである。
The tree is such that the label of each node is different from the label of its parent node. Hereinafter, the term created by combining the labels of each node from each node to the root will be referred to as a label attached to a node. Then, -DNF
A tree can be created at any given point using a label attached to each leaf.
DNF can be expressed. Furthermore, in the N-DNF tree, samples are not stored within nodes. This is to avoid complicating sample management since one sample may be stored in multiple notes.

但し、ノードとサンプルとの対応関係は、サンプルのク
ラスタのラベルにより表現されている。また、決定木と
に−DNF木との違いは、前者が属性の値のみで親ノー
ドから子ノードへ分岐するのに対し、後者は属性によっ
て分岐する点である。決定木の例を第2図に、に−DN
F木の例を第3図に示す。即ち、決定木の場合には、第
2図図示の如く、ノードの属性の値が「1」の場合と「
0」の場合とで子ノードに分岐するが、に−DNF木の
場合には、第3図図示の如く2例えばノードX2に入っ
たサンプルに関してもし属性χ3が真である場合にはノ
ードX3に分岐され −X5が真である場合にノード−
X5が分岐される。
However, the correspondence between nodes and samples is expressed by labels of clusters of samples. The difference between a decision tree and a DNF tree is that the former branches from a parent node to a child node based only on attribute values, whereas the latter branches based on attributes. An example of a decision tree is shown in Figure 2.
An example of an F-tree is shown in Figure 3. In other words, in the case of a decision tree, as shown in FIG.
0'', it branches to a child node, but in the case of a -DNF tree, as shown in Figure 3, if attribute χ3 is true for the sample that entered node X2, it branches to node X3. Branched - node if X5 is true -
X5 is branched.

ノード作成の評価値Eを次の式で定義する。そして、今
後これらを作成する候補となるノードの評価値と呼ぶ。
The evaluation value E for node creation is defined by the following formula. These are called evaluation values of nodes that will be candidates for future creation.

但し、各ノードに対して、ノードに対応するサンプルの
集合をCとし、C8をi番目の属性の値が真となるCの
部分集合+P++をC8においてサンプルが真となる確
率、Plを偽となる確率とする。
However, for each node, let C be the set of samples corresponding to the node, let C8 be the subset of C where the value of the i-th attribute is true + P++ be the probability that a sample will be true in C8, and Pl be false. The probability that

E(i) =O(p+−=O)  1 そして、評価値が最小となるようなノードを次に作成す
る。ID3では分類するときのテスト回数の期待値を最
小にすることを狙っているのに対し2本発明では、正の
サンプルのみを含むノードを早く見つけることを狙って
いる。即ち、そのようなノードにたどり着いたサンプル
は、それ以後の処理では無視することができ、処理を効
率化することができる。
E(i) =O(p+-=O) 1 Then, a node with the minimum evaluation value is created next. ID3 aims to minimize the expected value of the number of tests when classifying, whereas the present invention aims to quickly find nodes containing only positive samples. That is, samples that reach such a node can be ignored in subsequent processing, making processing more efficient.

サンプルの集合は幾つかのクラスタに分けて管理される
。そして、クラスタには適当なラベルが付与されている
。クラスタ内のサンプルは、クラ】 1 スタのラベルとして現れる属性に関しては全て真となっ
ている。これは、ノートに含まれるべきり一ンプルをラ
ベルのテストだけで判別できるようにするためである。
A collection of samples is divided into several clusters and managed. Appropriate labels are given to clusters. The samples in the cluster are all true for the attributes that appear as labels of clusters. This is to make it possible to determine which power sample is included in a note just by testing the label.

また、クラスタには属性毎にその属性が真となるサンプ
ルの数が計算されである。
In addition, for each attribute, the number of samples for which the attribute is true is calculated for each cluster.

これは、ノード作成の評価値の再計算を容易にするため
である。
This is to facilitate recalculation of the evaluation value for node creation.

(6)実施例 第1図は本発明の原理構成図を示し、第6図(A)(B
)(C)は全体として1つの図を構成する処理フローを
示す。図中、】ばサンプルの管理及び、そこで必要とす
る処理を行うサンプル管理部である。2はに−DNF木
の管理、及び、そこで必要とする処理を行う木管理部で
ある。3は同一のラベルを持つサンプルの集まりのクラ
スタであり、4ばクラスタのラベルを格納するエリアで
あり、5はクラスタに属するサンプルを格納するエリア
である。6はクラスタに含まれるサンプルに対し、属性
毎に真となっているサンプルの数を格2 納するエリアである。7はに−D N F木を構成する
ノードであり、8はノードのラベルを格納するエリアで
あり、9はそのノードから子ノードとして作成できない
ラベルをリスト状に格納するエリアである。
(6) Example Figure 1 shows the principle configuration diagram of the present invention, and Figures 6 (A) (B)
) (C) shows a processing flow that constitutes one diagram as a whole. In the figure, ] is a sample management unit that manages samples and performs necessary processing. 2 is a tree management unit that manages the Ni-DNF tree and performs necessary processing therefor. 3 is a cluster of samples having the same label, 4 is an area for storing the label of the cluster, and 5 is an area for storing samples belonging to the cluster. 6 is an area that stores the number of samples that are true for each attribute with respect to the samples included in the cluster. 7 is a node forming the -D N F tree, 8 is an area for storing the label of the node, and 9 is an area for storing a list of labels that cannot be created from the node as a child node.

以下1本発明の実施例の動作を具体例を交えながら説明
する。
The operation of one embodiment of the present invention will be explained below using a specific example.

前処理としては以下のことを行う。サンプル管理部■に
おいて、第6図図示処理の、■をへて。
The following is performed as preprocessing. In the sample management section (■), go to (■) in the process shown in FIG.

与えられたサンプルの集合Cに対し、正のサンプルと負
のサンプルを別け、それぞれを1つのクラスタとして、
クラスタのサンプル値エリア5に格納する(処理■、■
)。また、それぞれのクラスタに対して、属性毎に真と
なっているサンプルの数を加算値エリア6へ格納し、ク
ラスタのラベル・エリア4を空とする。一方、木管理部
2においては、ルートとなるノードを作成する。そして
For a given set of samples C, separate positive samples and negative samples and treat each as one cluster,
Store in cluster sample value area 5 (processing ■, ■
). Further, for each cluster, the number of samples that are true for each attribute is stored in the addition value area 6, and the cluster label area 4 is left empty. On the other hand, the tree management unit 2 creates a root node. and.

ノードのラベル・エリア8とリスト・エリア9とを空と
する(処理■)。
The label area 8 and list area 9 of the node are emptied (process ■).

以下の処理は正のサンプルがなくなるまで繰り返す(処
理■、@)。
The following process is repeated until there are no more positive samples (process ■, @).

まず、各ノードにおいて1作成する候補となるノートの
評価値を計算する(処理■)。この処理は、各ノードに
付随するラー・ルをラベルとして含むクラスタの加算値
エリア6を利用して容易に計算することができる。ただ
し、各ノートにおいてリスト・エリア9に含まれる属性
については評価値を計算しない。
First, an evaluation value of a note to be created as a candidate is calculated at each node (process ①). This process can be easily calculated using the summation value area 6 of the cluster that includes the RA and RU attached to each node as labels. However, evaluation values are not calculated for attributes included in list area 9 for each note.

第4図は評価値計算の具体例を示す図である。FIG. 4 is a diagram showing a specific example of evaluation value calculation.

木管理部は、最上位のN U L Lから ラベルXa
をもつクラスタとラベルxbをもつクラスタとに分岐さ
れ、ラベルxbをもつクラスタに対してラベルXcをも
つクラスタが存在することを管理してる。そして1図で
は明らかではないが、 (1)正のサンプル値か格納さ
れているクラスタでラベルがN U L Lのものに関
して属性Wが真であるサンプルの個数がplであり、(
ii)負のサンプル値が格納されているクラスタでラベ
ルがNULLのものに関して属性Wが真であるサンプル
の個数が01であることが示されている。同様に(ii
i )正のサンプル値が格納されているクラスタでラヘ
ルがXaのものに関して属性Wが真であるサンプルの個
数がP2であり、(iv)負のサンプル値が格納されて
いるクラスタでラヘルがXaのものに関して属性Wが真
であるサンプルの個数がn2であることが示され、以下
同様に(v)正のサンプル値が格納されているクラスタ
でラヘルがXa Xbのものに関して属性Wが真である
サンプルの個数がp4であり、(■)負のサンプル値が
格納されているクラスタでラヘルがXa、Xbのものに
関して属性Wが真であるサンプルの個数がn4であるこ
とか示されている。
The tree management department starts from the top level NULL and labels Xa.
The cluster is divided into a cluster with a label xb and a cluster with a label xb, and it is managed that a cluster with a label Xc exists for a cluster with a label xb. Although it is not clear from Figure 1, (1) The number of samples for which the attribute W is true for clusters that store positive sample values and whose label is N U L L is pl, and (
ii) It is shown that the number of samples for which the attribute W is true is 01 for clusters in which negative sample values are stored and whose labels are NULL. Similarly (ii
i) The number of samples for which the attribute W is true is P2 for the cluster in which Rahel is Xa in the cluster in which positive sample values are stored, and (iv) the number of samples in which Rahel is in Xa in the cluster in which negative sample values are stored is It is shown that the number of samples for which attribute W is true with respect to It is shown that the number of samples is p4, and (■) the number of samples for which the attribute W is true for Rahel Xa and Xb in the cluster where negative sample values are stored is n4. .

なお、第4図に示されるPlないしp6は第(6)式に
示されるpi”に対応し、nlないしn6は第(6)式
に示されるp8″ に対応している。第4図において 
ノードXcの属性Wに関する評価値の計算では2図示の
場合にはp5.p6.n5n6が利用されて第(6)式
に対応した計算が行われルート(ラヘルなし)の属性W
に関する評価値の計算では1表の全ての値を利用する。
Note that Pl to p6 shown in FIG. 4 correspond to pi'' shown in equation (6), and nl to n6 correspond to p8'' shown in equation (6). In Figure 4
In the calculation of the evaluation value regarding the attribute W of the node Xc, p5. p6. n5n6 is used to perform the calculation corresponding to equation (6), and the attribute W of the root (without Rahel) is
All values in Table 1 are used to calculate the evaluation value for .

次に、木管理部2において木全体から2作成する候補と
なるノードの評価値が最小となるものを決定する(処理
■)。このとき、候補の評価値が全て2となる(p”が
存在しない)ノード、及び候補の評価値としてOを持た
ない深さかに−1のノードは消去する(処理■、[相]
、[相])。
Next, the tree management unit 2 determines the candidate node to be created from the entire tree with the minimum evaluation value (process 2). At this time, nodes whose candidate evaluation values are all 2 (p'' does not exist) and nodes whose depth is -1 and which do not have O as a candidate evaluation value are deleted (process ■, [phase]
,[phase]).

次に、木管理部2において実際にノードの作成を行う(
処理■、■、[相]、o、■)。このとき。
Next, the tree management unit 2 actually creates nodes (
Treatment ■, ■, [phase], o, ■). At this time.

評価値の計算に利用した属性を1作成するノードのラヘ
ル・エリア8.及び、その親ノートのリスト・エリア9
に加える。一方、サンプル管理部1において、クラスタ
の分割を行・う(処理■)。分割の規則は9作成するノ
ードの親ノードに付随するラヘルをラヘルとして含むク
ラスタのサンプルに対して1作成するノードのラヘルに
対応する属性が真であるサンプルは、元のクラスタのラ
ヘルにノードのラヘルを付加したものをラヘルとする新
たなりラスタへ移動させる。もし、評価値がOの場合に
は2正のサンプルを含むクラスタのみに対して分割を行
う(処理0)。また、このときb そのノードにイ1随するラヘルを結果のに−DNFとし
て抽出し、新たなりラスタを作成せず、そこに含まれる
べき正のサンプルを消去する(処理0)。
Rahel area of the node that creates the attribute used to calculate the evaluation value 8. and its parent note list area 9
Add to. On the other hand, the sample management unit 1 performs cluster division (processing ■). The division rule is 9.For samples of clusters that include Rahel attached to the parent node of the node to be created, 1. Samples for which the attribute corresponding to the Rahel of the node to be created is true, Move the one with Rahel added to a new raster with Rahel. If the evaluation value is O, division is performed only on clusters containing 2 positive samples (processing 0). Also, at this time b, the Rahel associated with the node is extracted as -DNF in the result, no new raster is created, and the positive samples that should be included there are deleted (processing 0).

第5図はノートの作成とクラスタの分割との具体例を示
す図である。第5図は、に−DNF木に新にノードXw
が付は加えられた場合に起こるクラスタの分割例をクラ
スタのラヘルのみによって示したものである。図示の場
合、ノードXwが付は加えられた場合、ノードXwがノ
ードXbの下位に属していることから、ノード作成前に
おいてノードxbが関連していたクラスタrxb、1r
Xa Xb J、 rxb Xc 」、  「Xa X
b Xc Jのずべてに対応する形でクラスタ「Xb 
Xw JrXa Xb Xw J、  rxb Xc 
Xw J、”χaXb Xc Xw Jが作成される。
FIG. 5 is a diagram showing a specific example of note creation and cluster division. Figure 5 shows a new node Xw in the −DNF tree.
The figure below shows an example of cluster division that occurs when a cluster is added, using only the cluster Rahel. In the case shown in the figure, when node Xw is added, since node Xw belongs to the lower level of node Xb, the clusters rxb and 1r with which node
Xa Xb J, rxb Xc”, “Xa X
The cluster “Xb
Xw JrXa Xb Xw J, rxb Xc
Xw J, "χaXb Xc Xw J" is created.

(7)発明の詳細 な説明したように、選言標準形の学習を、任意のに−D
NFを表現できるに−DNF木、情報量の期待値に類似
した考え方に基づ(評価尺度、及びに−DNF木とサン
プルとの対応関係を表現するラベルを持ったサンプルの
クラスタを用いて1選言標準形の項を獲得していくこと
により、従来のアルゴリズムの問題点を解決することが
可能となる。
(7) As described in detail of the invention, the learning of the disjunctive standard form can be performed in any -D
NF can be expressed using a DNF tree, based on an idea similar to the expected value of information (evaluation scale, and - using clusters of samples with labels expressing the correspondence between the DNF tree and the samples. By acquiring terms in the disjunctive standard form, it becomes possible to solve the problems of conventional algorithms.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は本発明の原理構成図を示す。第2図は決定木の
例を示す。第3図はに−DNF木の例を示す。第4図は
評価値計算の具体例を示す。第5図ばノードの作成とク
ラスタの分割との具体例を示す。第6図(A)(B)(
C)は全体として1つの図を構成する処理フローを示す
。 ■・・・サンプル管理部、2・・・木管連部、3・・・
クラスタ、4・・・ラヘル・エリア、5・・・サンプル
値エリア、6・・・加算値エリア、7・・・ノート、8
・・・ラヘル・エリア、9・・・リスト・エリア。
FIG. 1 shows a basic configuration diagram of the present invention. FIG. 2 shows an example of a decision tree. FIG. 3 shows an example of a -DNF tree. FIG. 4 shows a specific example of evaluation value calculation. FIG. 5 shows a concrete example of node creation and cluster division. Figure 6 (A) (B) (
C) shows a processing flow that constitutes one diagram as a whole. ■... Sample management department, 2... Woodwind department, 3...
Cluster, 4... Rahel area, 5... Sample value area, 6... Addition value area, 7... Note, 8
... Rahel Area, 9... List Area.

Claims (1)

【特許請求の範囲】 制限された形の選言標準形により真偽値が与えられてい
るサンプルのみを利用して、元の選言標準形を推定する
選言標準形学習装置において、サンプルの管理とそこで
必要とする処理とを行うサンプル管理部、 及び、木の管理とそこで必要とする処理とを行う木管理
部を少なくともそなえ、 情報量の期待値に類似した考え方に基づく評価尺度を用
いると共に、当該評価尺度を用いて木の作成とサンプル
のクラスタリングとを行うことにより、選言標準形を獲
得していくようにした ことを特徴とする選言標準形学習装置。
[Claims] In a disjunctive standard form learning device that estimates an original disjunctive standard form using only samples whose truth values are given by a restricted disjunctive standard form, It has at least a sample management section that performs management and the necessary processing, and a tree management section that manages trees and performs the necessary processing, and uses an evaluation scale based on a concept similar to the expected value of information. In addition, a disjunctive standard form learning device is characterized in that the disjunctive standard form is acquired by creating a tree and clustering samples using the evaluation scale.
JP1176310A 1989-07-07 1989-07-07 Disjunctive normal form learning device Pending JPH0340170A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1176310A JPH0340170A (en) 1989-07-07 1989-07-07 Disjunctive normal form learning device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1176310A JPH0340170A (en) 1989-07-07 1989-07-07 Disjunctive normal form learning device

Publications (1)

Publication Number Publication Date
JPH0340170A true JPH0340170A (en) 1991-02-20

Family

ID=16011352

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1176310A Pending JPH0340170A (en) 1989-07-07 1989-07-07 Disjunctive normal form learning device

Country Status (1)

Country Link
JP (1) JPH0340170A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7158970B2 (en) * 2001-04-02 2007-01-02 Vima Technologies, Inc. Maximizing expected generalization for learning complex query concepts

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7158970B2 (en) * 2001-04-02 2007-01-02 Vima Technologies, Inc. Maximizing expected generalization for learning complex query concepts

Similar Documents

Publication Publication Date Title
Gupta et al. Analysis of various decision tree algorithms for classification in data mining
Shen et al. A rough-fuzzy approach for generating classification rules
Ishibuchi et al. Three-objective genetics-based machine learning for linguistic rule extraction
Lu et al. Quantum decision tree classifier
Gayatri et al. Feature selection using decision tree induction in class level metrics dataset for software defect predictions
Pulgar-Rubio et al. MEFASD-BD: multi-objective evolutionary fuzzy algorithm for subgroup discovery in big data environments-a mapreduce solution
Liu et al. Categorization and construction of rule based systems
Oliver et al. Inferring decision graphs using the minimum message length principle
Bindhia et al. Classification using Decision Tree Approach towards Information Retrieval Keywords Techniques and A Data Mining Implementation using WEKA data set
CN110427991A (en) A kind of character string matching method and device
Chen et al. A hybrid monotone decision tree model for interval-valued attributes
Rahm et al. Large-Scale Schema Matching.
Horzyk Associative graph data structures with an efficient access via AVB+ trees
Gebhardt Learning from data: possibilistic graphical models
Křen et al. Automatic creation of machine learning workflows with strongly typed genetic programming
El Hamri et al. Label propagation through optimal transport
Li et al. Exploiting reuse in pipeline-aware hyperparameter tuning
Llorente-Peralta et al. Knowledge discovery using an evolutionary algorithm and compensatory fuzzy logic
JPH0340170A (en) Disjunctive normal form learning device
Zhao et al. A cost-sensitive meta-learning classifier: SPFCNN-Miner
Sarkar et al. Accuracy-based learning classification system
García et al. Subgroup Discovery with Evolutionary Fuzzy Systems in R: The SDEFSR Package.
Tsakonas et al. An evolutionary system for neural logic networks using genetic programming and indirect encoding
Yarushkina et al. Analytical review of data transformation for the task of integrating various representations on the example of ontologies and relational databases
Dolques et al. RCA as a data transforming method: a comparison with propositionalisation