JP4298531B2 - Input attribute condition determination device, input attribute condition determination method, input attribute condition determination program, data analysis device, data analysis method, and data analysis program - Google Patents

Input attribute condition determination device, input attribute condition determination method, input attribute condition determination program, data analysis device, data analysis method, and data analysis program Download PDF

Info

Publication number
JP4298531B2
JP4298531B2 JP2004024769A JP2004024769A JP4298531B2 JP 4298531 B2 JP4298531 B2 JP 4298531B2 JP 2004024769 A JP2004024769 A JP 2004024769A JP 2004024769 A JP2004024769 A JP 2004024769A JP 4298531 B2 JP4298531 B2 JP 4298531B2
Authority
JP
Japan
Prior art keywords
data group
input attribute
data
condition
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004024769A
Other languages
Japanese (ja)
Other versions
JP2004252972A (en
Inventor
博明 竹内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2004024769A priority Critical patent/JP4298531B2/en
Publication of JP2004252972A publication Critical patent/JP2004252972A/en
Application granted granted Critical
Publication of JP4298531B2 publication Critical patent/JP4298531B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、分析対象である出力属性(目的属性)、例えば製造工程で製造される製品の特性等と、出力属性に影響を与える属性である入力属性(説明属性)、例えば製造プロセス条件等とで構成されるデータに対して、出力属性の値がまとまるような、入力属性条件を決定する入力属性条件決定装置および入力属性条件決定方法並びに入力属性条件決定プログラム、および、上記の入力属性条件決定装置を用いて、入力属性と出力属性との因果関係を分析するデータ分析装置およびデータ分析方法並びにデータ分析プログラムに関する。   The present invention relates to an output attribute (object attribute) to be analyzed, such as characteristics of a product manufactured in a manufacturing process, and an input attribute (description attribute) that is an attribute affecting the output attribute, such as a manufacturing process condition. An input attribute condition determining device, an input attribute condition determining method, an input attribute condition determining program, and an input attribute condition determining program for determining an input attribute condition such that an output attribute value is collected for data composed of The present invention relates to a data analysis apparatus, a data analysis method, and a data analysis program for analyzing a causal relationship between an input attribute and an output attribute using the apparatus.

出力属性と入力属性との因果関係を分析する有効な手法としては、決定木手法が知られている(特許文献1参照)。この手法では、入力属性の値で順次切り分けた葉の部分で、出力属性の値がうまくまとまるような木構造を作成する。   A decision tree technique is known as an effective technique for analyzing a causal relationship between an output attribute and an input attribute (see Patent Document 1). This method creates a tree structure in which the values of the output attributes are well organized at the leaf portions that are sequentially separated by the values of the input attributes.

図10は、特許文献1の従来技術の項(特許文献1の段落[0002]〜[0005]および図22参照)に記載されている決定木の1例であり、表1(本明細書の[発明を実施するための最良の形態]の項参照)のデータ群を分析対象としている。表1のデータ群は、x1,x2,x3,x4の4つの入力属性の値と、これら入力属性に対する出力属性yの値とを組とするデータを12個集めた集合である。この手法で作成される決定木(以下、「従来の決定木−1」と呼ぶ事にする)では、図10に示すように、出力属性yの値X,Y,Zが入力属性x2,x3,x1の各値によって、うまく切り分けられている。   FIG. 10 is an example of a decision tree described in the prior art section of Patent Document 1 (see paragraphs [0002] to [0005] and FIG. 22 of Patent Document 1). The data group of [Best Mode for Carrying Out the Invention] is a target of analysis. The data group in Table 1 is a set in which twelve pieces of data including a set of four input attribute values x1, x2, x3, and x4 and a value of an output attribute y corresponding to these input attributes are collected. In a decision tree created by this method (hereinafter referred to as “conventional decision tree-1”), as shown in FIG. 10, the values X, Y, and Z of the output attributes y are input attributes x2, x3. , X1 are well separated.

しかし、図10の従来の決定木−1の作成においては、データを分類する際に、入力属性がとる値の数(属性値の種類数)だけのデータ集合に分類される。例えば、入力属性x2は4種類の値(a,b,c,d)をとるので、入力属性x2による分類により4つの集合に分類される。そのため、入力属性がとる値の数が増えると、決定木が煩雑になる可能性がある。   However, in the creation of the conventional decision tree-1 in FIG. 10, when data is classified, it is classified into data sets corresponding to the number of values that the input attribute takes (the number of attribute value types). For example, since the input attribute x2 takes four types of values (a, b, c, d), it is classified into four sets by classification based on the input attribute x2. Therefore, if the number of values that the input attribute takes increases, the decision tree may become complicated.

この課題の解決策として、特許文献1では、各属性において、まとめられる属性値を1つのラベルで表現し、ラベルによりデータ分類する決定木を提案している。   As a solution to this problem, Patent Document 1 proposes a decision tree in which attribute values to be grouped are represented by one label for each attribute, and data is classified by the label.

図11は、特許文献1の実施例(特許文献1の段落[0010]〜[0028]および図13参照)に記載のラベル階層である。この実施例では、例えば、4種の属性値(1,2,3,4)からなるx3属性について、x3属性値「1」「2」に「2.5以下」というラベルをつけおよび、x3属性値「3」「4」に「2.5以上」というラベルをつけて階層構造を表現している。   FIG. 11 shows a label hierarchy described in an example of Patent Document 1 (see paragraphs [0010] to [0028] and FIG. 13 of Patent Document 1). In this embodiment, for example, for the x3 attribute composed of four types of attribute values (1, 2, 3, 4), the x3 attribute values “1” and “2” are labeled “2.5 or less” and x3 The attribute values “3” and “4” are labeled “2.5 or more” to express the hierarchical structure.

図12は、特許文献1に記載された図11のラベル階層構造を用いて作成される決定木の一例であり、表1のデータ群を分析対象としている(特許文献1の段落[0010]〜[0028]および図14参照)。図12の決定木では、出力属性yの値X,Y,Zが入力属性x2,x3,x1の各値によって、うまく切り分けられている。また、図12に示す如く、図11のラベル階層構造を用いて作成される決定木(以下、この決定木を従来の決定木−2と呼ぶ事にする)は、図10に示す従来の決定木−1に比べて、非常に簡潔である。   FIG. 12 is an example of a decision tree created using the label hierarchical structure of FIG. 11 described in Patent Document 1, and the data group of Table 1 is an analysis target (paragraph [0010] to [0010] of Patent Document 1). [0028] and FIG. 14). In the decision tree of FIG. 12, the values X, Y, and Z of the output attribute y are well separated by the values of the input attributes x2, x3, and x1. Also, as shown in FIG. 12, the decision tree created using the label hierarchical structure of FIG. 11 (hereinafter, this decision tree is referred to as conventional decision tree-2) is the conventional decision shown in FIG. Compared to Tree-1, it is very concise.

ここで、上記のような木構造を形成する際には、各々のノード(図12のt1,t2,t3,…)において、最適な分岐条件を決定するための評価指標が必要となる。このような評価指標としては、Giniインデックスや最小2乗基準などが知られているが、表1のデータのように、出力属性(目的属性)yが質的変数の場合には、Giniインデックスが用いられることが多い。以下、このGiniインデックスを用いた、最適な分岐条件の決定方法である、Giniインデックス法について説明する。   Here, when the tree structure as described above is formed, an evaluation index for determining an optimal branching condition is required at each node (t1, t2, t3,... In FIG. 12). As such an evaluation index, the Gini index, the least square criterion, and the like are known, but when the output attribute (target attribute) y is a qualitative variable as in the data of Table 1, the Gini index is Often used. Hereinafter, the Gini index method, which is a method for determining an optimal branch condition using the Gini index, will be described.

Giniインデックスは非特許文献1のp44〜p47に記載されているように、下式で表される。   As described in p44 to p47 of Non-Patent Document 1, the Gini index is expressed by the following equation.

i(t)=1−Σ{p(j|t)} (1)
ここで、p(j|t)は、ノードtにおいて、出力属性yがy=jとなる確率である。
i (t) = 1−Σ {p (j | t)} 2 (1)
Here, p (j | t) is a probability that the output attribute y is y = j at the node t.

Giniインデックスi(t)が小さいことは、ノードtにおいて、出力属性yの値がうまくまとまっていることを意味している。   The small Gini index i (t) means that the values of the output attributes y are well organized at the node t.

一例として、図12のルートノードt1における、Giniインデックスは、
i(t1)=1−Σ{p(j|t1)}
=1−{(X|t1)+(Y|t1)+(Z|t1)
=1−{(4/12)+(4/12)+(4/12)
=0.667 (2)
となる。
As an example, the Gini index at the root node t1 in FIG.
i (t1) = 1−Σ {p (j | t1)} 2
= 1-{(X | t1) 2 + (Y | t1) 2 + (Z | t1) 2 }
= 1-{(4/12) 2 + (4/12) 2 + (4/12) 2 }
= 0.667 (2)
It becomes.

また、x2=a or b である、ルートノードt1の子ノードt2におけるGiniインデックスは、
i(t2)=1−Σ{p(j|t2)}
=1−{(X|t2)+(Y|t2)+(Z|t2)
=1−{(4/10)+(2/10)+(4/10)
=0.64 (3)
また、x2=c or d である、ルートノードt1の子ノードt3におけるGiniインデックスは、
i(t3)=1−Σ{p(j|t3)}
=1−{(X|t3)+(Y|t3)+(Z|t3)
=1−{(0/2)+(2/2)+(0/2)
=0 (4)
となる。ここで、i(t3)=0であることは、x2=c or d なる条件において、出力属性yの値がよくまとまっていることを示している(出力属性yの値がYのみになっている)。
In addition, the Gini index at the child node t2 of the root node t1 where x2 = a or b is
i (t2) = 1−Σ {p (j | t2)} 2
= 1-{(X | t2) 2 + (Y | t2) 2 + (Z | t2) 2 }
= 1-{(4/10) 2 + (2/10) 2 + (4/10) 2 }
= 0.64 (3)
In addition, the Gini index in the child node t3 of the root node t1 where x2 = c or d is
i (t3) = 1−Σ {p (j | t3)} 2
= 1-{(X | t3) 2 + (Y | t3) 2 + (Z | t3) 2 }
= 1-{(0/2) 2 + (2/2) 2 + (0/2) 2 }
= 0 (4)
It becomes. Here, i (t3) = 0 indicates that the values of the output attribute y are well organized under the condition x2 = c or d (the value of the output attribute y is Y only). )

「ルートノードt1を子ノードt2とt3とに分岐させることにより、どの程度、出力属性のまとまりが良くなったか?」は、上記のGiniインデックスに基づいて評価することができる。Giniインデックス法では、この評価指標として、下式で表される改善度△i(t1)が用いられる。   It can be evaluated based on the above Gini index how much the output attribute is improved by branching the root node t1 to the child nodes t2 and t3. In the Gini index method, an improvement degree Δi (t1) represented by the following formula is used as this evaluation index.

△i(t1)
=i(t1)−{pt2・i(t2)+pt3・i(t3)} (5)
ここで、pt2、pt3は、ルートノードt1(12データ)を、子ノードt2(x2=a or b;10データ)と子ノードt3(x2=c or d;2データ)とに分岐させるときの、分岐割合を示しており、pt2=10/12、pt3=2/12である。
Δi (t1)
= I (t1)-{pt2 · i (t2) + pt3 · i (t3)} (5)
Here, pt2 and pt3 are used to branch the root node t1 (12 data) into a child node t2 (x2 = a or b; 10 data) and a child node t3 (x2 = c or d; 2 data). Represents the branching ratio, and pt2 = 10/12 and pt3 = 2/12.

したがって、図12の例において、ルートノードt1を、子ノードt2とt3とに分岐させることにより、出力属性のまとまりが改善される程度は、
△i(t1)
=i(t1)−{pt2・i(t2)+pt3・i(t3)}
=0.667−{(10/12)×0.64+(2/12)×0}
=0.134 (6)
となる。
Therefore, in the example of FIG. 12, the extent to which the set of output attributes is improved by branching the root node t1 into the child nodes t2 and t3 is as follows:
Δi (t1)
= I (t1)-{pt2 · i (t2) + pt3 · i (t3)}
= 0.667-{(10/12) x 0.64 + (2/12) x 0}
= 0.134 (6)
It becomes.

なお、特許文献1では、下式(7)を用いて、出力属性のまとまりが改善される程度を評価しているが、基本的な考え方は、Giniインデックス法の改善度((5)(6)式)と同じである。   In Patent Document 1, the degree to which the group of output attributes is improved is evaluated using the following formula (7). However, the basic idea is that the improvement degree of the Gini index method ((5) (6 ) Is the same as formula).

△i’(t1)=Σ{p(j|t2)}+Σ{p(j|t3)} (7)
上記のGiniインデックス((3)(4)式)、および改善度((6)式)は、各入力属性が取り得る、全ての分岐条件のパターンについて計算される。そして、これらのうちで、改善度が最大となる条件が、最終的な分岐条件として決定される。図12における、ルートノードt1からの分岐の例では、改善度が△i(t1)が最大となる、t2:「x2=a,b」、t3:「x2=c,d」なる分岐条件が最終的に選択される。
Δi ′ (t1) = Σ {p (j | t2)} 2 + Σ {p (j | t3)} 2 (7)
The Gini index (Equations (3) and (4)) and the improvement (Equation (6)) are calculated for all patterns of branching conditions that can be taken by each input attribute. Of these, the condition that maximizes the degree of improvement is determined as the final branch condition. In the example of branching from the root node t1 in FIG. 12, the branching conditions of t2: “x2 = a, b” and t3: “x2 = c, d” have the maximum improvement degree Δi (t1). Finally selected.

ここで、上記のGiniインデックスおよび改善度を計算する際の、分岐条件のパターン数は、入力属性が取り得る値の数によって決まり、例えば、入力属性x2については、とり得る値が、a,b,c,dの4種のため、
・t2:「x2=a」、 t3:「x2=b,c,d」
・t2:「x2=a,b」、 t3:「x2=c,d」
・t2:「x2=a,b,c」、 t3:「x2=d」
の3パターンとなる。このパターン数は入力属性が取り得る値の数が増えると増加する。
Here, the number of patterns of the branch condition when calculating the Gini index and the degree of improvement is determined by the number of values that the input attribute can take. For example, for the input attribute x2, the possible values are a and b. , C and d,
T2: “x2 = a”, t3: “x2 = b, c, d”
T2: “x2 = a, b”, t3: “x2 = c, d”
T2: “x2 = a, b, c”, t3: “x2 = d”
It becomes three patterns. The number of patterns increases as the number of values that the input attribute can take increases.

なお、特許文献1では、分岐条件を決定するための計算((7)式)を、各入力属性が取り得る全ての分岐条件のパターンについてでなく、図11のラベルによる分類パターンについてのみ行い、計算を簡略化している。
特開平8−314725号公報(公開日:平成8年(1996)11月29日) 大滝厚、堀江宥治、Dan Steinberg著、「応用2進木解析法−CARTによる−」日科技連、1998年7月6日発行、p44−p47
In Patent Document 1, the calculation for determining the branch condition (equation (7)) is performed only for the classification pattern based on the label in FIG. The calculation is simplified.
JP-A-8-314725 (Publication date: November 29, 1996) Atsushi Otaki, Yuji Horie, Dan Steinberg, "Applied binary tree analysis method-by CART", Nikka Giren, July 6, 1998, p44-p47

Giniインデックス法(Giniインデックスおよび改善度)による従来の最適分岐条件の決定方法を、デバイス等の製品の製造工程における製品特性不良の要因分析に応用する場合を題材にして、従来のGiniインデックス法の課題を説明する。   Using the conventional Gini index method (Gini index and degree of improvement) for determining the optimum branching condition in the past for the application of factor analysis of product characteristic defects in the manufacturing process of devices such as devices, Explain the problem.

いま、表1の入力属性x1,x2,x3,x4が製品製造工程における各種のプロセスデータやインライン検査データ、出力属性yが製造された製品の特性データであり、出力属性y=Yが製品特性不良に相当するものとする。そして、プロセス技術者が、製品特性不良y=Yに対し、Giniインデックス法を用いて、製品特性不良の要因(「どの入力属性がどの値の範囲にあるから製品特性が悪いのか?」)を調査するものとする。なお、このように、製品特性不良の要因を調査する場合には、深い階層の厳密な決定木を形成するよりも、各入力属性に対して、良品と不良品とを切り分ける最適な分岐条件(閾値)を明確にし、これら各入力属性の最適分岐条件のうちで、不良に対する影響度の高い条件を抽出することが要求される場合が多い。   Now, the input attributes x1, x2, x3, and x4 in Table 1 are various process data and in-line inspection data in the product manufacturing process, and the output attribute y is the product characteristic data. The output attribute y = Y is the product characteristic. It shall correspond to a defect. Then, the process engineer uses the Gini index method for the product characteristic defect y = Y to determine the cause of the product characteristic defect (“Which input attribute is in which value range? Which product characteristic is bad?”). Shall be investigated. In this way, when investigating the causes of product characteristic defects, rather than forming a strict decision tree of a deep hierarchy, an optimal branching condition for separating good products and defective products for each input attribute ( In many cases, it is required to clarify a threshold value) and to extract a condition having a high degree of influence on a defect among the optimum branch conditions of each of these input attributes.

上記の題材で、良品と不良品とを切り分ける(ルートノードから子ノードに分岐させる)ために、各入力属性が取り得る分岐条件パターンに対して計算した、Giniインデックス法の改善度を、図20〜図23に示す。Giniインデックスおよび改善度の計算を行う分岐条件のパターン数は、入力属性x1,x2,x3,x4が取り得る全ての分岐条件パターンで、合計12条件(各入力属性について3条件)である。図20〜図23より、y=X,Zなる良品と、y=Yなる不良品とを切り分ける分岐条件として、入力属性x1については、「x1=A,Bと、x1=C,Dとの分岐」が、入力属性x2については、「x2=a,bと、x2=c,dとの分岐」が、入力属性x3については、「x3=1,2と、x3=3,4との分岐」が、入力属性x4については、「x4=10と、x4=20,30,40との分岐」が、それぞれ適切であることが分かる。このように、表1のデータ群を分析対象とした場合には、Giniインデックス法により、製品特性不良の要因となる条件(各入力属性における最適分岐条件)を抽出することが可能である。   FIG. 20 shows the improvement degree of the Gini index method calculated for the branch condition pattern that each input attribute can take in order to separate a good product and a defective product (branch from a root node to a child node) using the above-mentioned material. To FIG. The number of branch condition patterns for calculating the Gini index and the improvement degree is a total of 12 conditions (3 conditions for each input attribute) in all the branch condition patterns that the input attributes x1, x2, x3, and x4 can take. From FIG. 20 to FIG. 23, as a branching condition for separating a non-defective product with y = X, Z and a defective product with y = Y, for the input attribute x1, “x1 = A, B and x1 = C, D For the input attribute x2, “branch” is “branch between x2 = a, b and x2 = c, d”, and for the input attribute x3, “x3 = 1, 2 and x3 = 3, 4” It can be seen that “branch” is appropriate for the input attribute x4, “branch between x4 = 10 and x4 = 20, 30, 40”. As described above, when the data group in Table 1 is an analysis target, it is possible to extract a condition (optimal branch condition for each input attribute) that causes a product characteristic defect by the Gini index method.

しかしながら、実際のデバイス(特に半導体デバイス)のような製品の製造現場では、1工程につき10〜100属性程度のプロセスデータやインライン検査データがあり、しかも、その値は有効桁数が多い多値の数値である。例えば、一つの入力属性が取り得る値の数が、数万〜数十万というオーダである。このような場合には、(3)(4)式と同様のGiniインデックス、および(6)式と同様の改善度が1属性につき、数万〜数十万回計算され、さらに、このような数万〜数十万回の計算が、入力属性の数だけ行われることになる。このような大がかりの計算には、膨大な時間がかかり、また、場合によってはコンピュータのメモリが不足し、計算が不可能になってしまうことがある。すなわち、従来のGiniインデックス法では、計算の負荷が大きいという問題があった。したがって、Giniインデックス法による最適分岐条件の決定、および、これを用いたデータ分析は効率が悪い。   However, in the manufacturing site of a product such as an actual device (especially a semiconductor device), there are process data and in-line inspection data of about 10 to 100 attributes per process, and the value is a multi-value with many effective digits. It is a numerical value. For example, the number of values that one input attribute can take is on the order of tens of thousands to hundreds of thousands. In such a case, the same Gini index as in the equations (3) and (4) and the improvement degree similar to that in the equation (6) are calculated tens of thousands to hundreds of thousands of times per attribute. Tens of thousands to hundreds of thousands of calculations are performed for the number of input attributes. Such a large-scale calculation takes an enormous amount of time, and in some cases, the computer's memory is insufficient, which may make the calculation impossible. That is, the conventional Gini index method has a problem that the calculation load is large. Therefore, the determination of the optimal branch condition by the Gini index method and the data analysis using this are inefficient.

また、Giniインデックス法の他の課題として、不良品の確率p(Y|t)が良品の確率p(XZ|t)に比べて極端に小さい場合には、
i(t)=1−Σ{p(j|t)}
=1−{p(XZ|t)+p(Y|t)} (8)
で表されるGiniインデックスに、不良品の確率p(Y|t)がほとんど反映されず、良品と不良品とを切り分ける条件(各入力属性における最適分岐条件)を抽出する上で、その確度が低下するという問題があった。この問題は、ルートノード(総サンプル)にほとんど不良品が含まれない場合に顕著となるが、特定の不良カテゴリに着目すれば、このようなケースも少なくない。したがって、Giniインデックス法による最適分岐条件の決定、および、これを用いたデータ分析は、その確度が低い。
Further, as another problem of the Gini index method, when the probability p (Y | t) of a defective product is extremely smaller than the probability p (XZ | t) of a good product,
i (t) = 1−Σ {p (j | t)} 2
= 1- {p (XZ | t) 2 + p (Y | t) 2 } (8)
In the Gini index represented by, the probability p (Y | t) of the defective product is hardly reflected, and the accuracy in extracting the condition (the optimal branch condition in each input attribute) for separating the non-defective product and the defective product is There was a problem of lowering. This problem becomes prominent when almost no defective products are included in the root node (total sample). However, if attention is paid to a specific defect category, there are not a few cases. Therefore, the accuracy of the determination of the optimal branch condition by the Gini index method and the data analysis using this is low.

上記特許文献1の決定木生成手法をデバイス等の製品の製造工程における製品特性不良の要因分析に応用する場合を題材にして、従来技術の他の課題を説明する。   Another problem of the prior art will be described using the case where the decision tree generation method of Patent Document 1 is applied to cause analysis of product characteristic defects in a manufacturing process of a product such as a device.

いま、表1の入力属性x1,x2,x3,x4が製品製造工程における各種のプロセスデータやインライン検査データ、出力属性yが製造された製品の特性データであり、出力属性y=Yが製品特性不良に相当するものとする。そして、プロセス技術者が、製品特性不良y=Yに対し、特許文献1の従来技術に記載された手法で生成された決定木−1(図10)、または特許文献1に記載された手法で生成された従来の決定木−2(図12)を用いて、製品特性不良の要因を調査するものとする。   Now, the input attributes x1, x2, x3, and x4 in Table 1 are various process data and in-line inspection data in the product manufacturing process, and the output attribute y is the product characteristic data. The output attribute y = Y is the product characteristic. It shall correspond to a defect. Then, the process engineer uses the decision tree-1 (FIG. 10) generated by the technique described in the prior art of Patent Document 1 or the technique described in Patent Document 1 for the product characteristic defect y = Y. It is assumed that the cause of product characteristic failure is investigated using the generated conventional decision tree-2 (FIG. 12).

このとき、特許文献1の従来技術に記載された手法で生成された決定木−1では、注目すべきy=Yが樹形の中の複数箇所(図10の例では4箇所)に分散しているため煩雑であり、「どの入力属性がどの値の範囲にあるから製品特性が悪いのか?」という製品特性不良の要因をプロセス技術者が判断しにくい。図10の例では、入力属性が4属性だけでかつ各属性値の種類も4つだけであるため、何とか、プロセス技術者が製品特性不良の要因を判断することも可能である。しかしながら、実際のデバイス(特に半導体デバイス)のような製品の製造現場では、1工程につき10〜100属性程度のプロセスデータやインライン検査データがあり、しかも、その値は、有効桁数が多い多値の数値で、非常に広い範囲で分布している。例えば、一つの入力属性が取り得る値の数が、数万〜数十万というオーダである。さらに、外乱(入力属性として検出できていない属性)の影響により、各入力属性の値が同じであっても、出力属性の値がばらつく事も多い。これらのような場合に特許文献1の従来技術に記載された手法を用いると、厳密な分析を目指すがあまり、無限数のデータ集合に分類されてしまい、もはや、プロセス技術者が、適正に製品特性不良の要因を特定する事ができなくなる。   At this time, in the decision tree-1 generated by the method described in the prior art of Patent Document 1, y = Y to be noticed is distributed at a plurality of locations (four locations in the example of FIG. 10) in the tree shape. Therefore, it is complicated, and it is difficult for a process engineer to determine the cause of a product characteristic failure such as “Which input attribute is in which value range, so that the product characteristic is bad?”. In the example of FIG. 10, since there are only four input attributes and only four types of attribute values, the process engineer can somehow determine the cause of the product characteristic failure. However, in the manufacturing site of a product such as an actual device (especially a semiconductor device), there are process data and in-line inspection data of about 10 to 100 attributes per process, and the value is a multivalue with a large number of significant digits. It is distributed in a very wide range. For example, the number of values that one input attribute can take is on the order of tens of thousands to hundreds of thousands. Furthermore, due to the influence of disturbance (attributes that cannot be detected as input attributes), the values of output attributes often vary even if the values of the input attributes are the same. In such a case, if the method described in the prior art of Patent Document 1 is used, a precise analysis is aimed at, but the data is classified into an infinite number of data sets. It becomes impossible to specify the cause of the characteristic failure.

一方、特許文献1に開示された手法により生成される決定木−2(図12)では、ラベル階層による分類がなされているので、決定木が簡潔である。そのため、プロセス技術者が、y=Yなる製品特性不良の要因を特定しやすい。   On the other hand, in the decision tree-2 (FIG. 12) generated by the method disclosed in Patent Document 1, the decision tree is simple because the classification is based on the label hierarchy. Therefore, it is easy for the process engineer to identify the cause of the product characteristic failure where y = Y.

しかし、この図12に示す簡潔な決定木−2を作成するには、図11に示すラベル階層構造を予め定義しておく必要がある。そのため、特許文献1の決定木生成手法は、まとめられる属性値の見当がつかない場合には適用できない。上述したように、実際のデバイスのような製品の製造現場では、1工程につき10〜100属性程度の、プロセスデータやインライン検査データがあり、しかも、その値は、有効桁数が多い多値の数値で、非常に広い範囲で分布している。さらに、外乱(入力属性として検出できていない属性)の影響により、各入力属性の値が同じであっても、出力属性の値がばらつく事も多い。これらのような状況下で、各入力属性に対し、一つのラベルとしてまとめられる属性値を見出す事は、経験豊富なプロセス技術者であっても、非常に困難である。したがって、特許文献1のデータ分析は効率が悪い。   However, in order to create the simple decision tree-2 shown in FIG. 12, it is necessary to previously define the label hierarchical structure shown in FIG. For this reason, the decision tree generation method of Patent Document 1 cannot be applied when there is no idea of the attribute values to be collected. As described above, in the manufacturing site of a product such as an actual device, there are process data and in-line inspection data having about 10 to 100 attributes per process, and the value is a multi-value having a large number of significant digits. It is numerical and distributed in a very wide range. Furthermore, due to the influence of disturbance (attributes that cannot be detected as input attributes), the values of output attributes often vary even if the values of the input attributes are the same. Under these circumstances, it is very difficult even for an experienced process engineer to find an attribute value that is collected as one label for each input attribute. Therefore, the data analysis of Patent Document 1 is inefficient.

本発明は、上記従来の問題点を鑑みてなされたものであり、その目的は、データ分析の効率化を図ることにある。より詳細には、本発明の目的は、良品と不良品とを切り分ける入力属性の条件を求める際の計算の負荷を大幅に低減することでデータ分析を効率化できる入力属性条件決定装置および入力属性条件決定方法並びに入力属性条件決定プログラムと、ラベル階層構造を予め定義する事なく、簡潔な形で、出力属性と入力属性との因果関係を導き出せることでデータ分析を効率化できるデータ分析装置およびデータ分析方法並びにデータ分析プログラムを提供することにある。   The present invention has been made in view of the above-described conventional problems, and an object thereof is to improve the efficiency of data analysis. More specifically, an object of the present invention is to provide an input attribute condition determination apparatus and an input attribute that can improve data analysis efficiency by greatly reducing the calculation load when determining the condition of the input attribute that separates a good product and a defective product. Condition determination method and input attribute condition determination program, data analysis apparatus and data capable of improving data analysis efficiency by deriving causal relationship between output attribute and input attribute in a concise form without predefining label hierarchy To provide an analysis method and a data analysis program.

本発明の他の目的は、上記課題に鑑み、良品と不良品とを切り分ける入力属性の条件を高い確度で決定をすることができる入力属性条件決定装置および入力属性条件決定方法並びに入力属性条件決定プログラムを提供することにある。   In view of the above problems, another object of the present invention is to provide an input attribute condition determination device, an input attribute condition determination method, and an input attribute condition determination capable of determining with high accuracy an input attribute condition for separating a non-defective product from a defective product. To provide a program.

本発明に係る入力属性条件決定装置は、上記の課題を解決するために、数値属性である少なくとも1つの入力属性と、出力属性とで構成されるデータの集合であり、出力属性の値に依り第1データ群と第2データ群とに分類される分析データ群に対して、第1データ群と第2データ群とがそれぞれまとまるように上記分析データ群を2分化するための入力属性の条件である、入力属性条件を決定する入力属性条件決定装置であって、入力属性がとる全ての数値の各々について、第1データ群中において、入力属性がその数値以下であるデータの割合を第1の頻度として演算すると共に、第2データ群中において、入力属性がその数値以下であるデータの割合を第2の頻度として演算する頻度演算手段と、入力属性がとる全ての数値の各々について、第1の頻度と第2の頻度との差分値を演算する差分演算手段と、1つの入力属性がとる各数値の中で、上記差分値が最大となる数値を、該入力属性における閾値とし、少なくとも1つの入力属性に対応する少なくとも1つの閾値を決定する閾値決定手段と、上記閾値決定手段で決定された閾値に基づいて、上記入力属性条件を決定する入力属性条件決定手段とを含むことを特徴としている。   In order to solve the above problem, an input attribute condition determination device according to the present invention is a set of data composed of at least one input attribute that is a numerical attribute and an output attribute, and depends on the value of the output attribute. Conditions for input attributes for dividing the analysis data group into two so that the first data group and the second data group are grouped with respect to the analysis data group classified into the first data group and the second data group An input attribute condition determining apparatus for determining an input attribute condition, wherein, for each of all numerical values taken by the input attribute, a ratio of data having an input attribute equal to or lower than the numerical value in the first data group is first set. Frequency calculation means for calculating, as the second frequency, the proportion of data whose input attribute is less than or equal to the numerical value in the second data group, and each of all the numerical values taken by the input attribute. The difference calculating means for calculating the difference value between the first frequency and the second frequency, and among the numerical values taken by one input attribute, the numerical value that maximizes the difference value is the threshold value in the input attribute. And threshold value determining means for determining at least one threshold value corresponding to at least one input attribute, and input attribute condition determining means for determining the input attribute condition based on the threshold value determined by the threshold value determining means. It is characterized by that.

本発明に係る入力属性条件決定方法は、上記の課題を解決するために、前記の入力属性条件決定装置を用いて、数値属性である少なくとも1つの入力属性と、出力属性とで構成されるデータの集合であり、出力属性の値に依り第1データ群と第2データ群とに分類される分析データ群に対して、第1データ群と第2データ群とがそれぞれまとまるように上記分析データ群を2分化するための入力属性の条件である、入力属性条件を決定する入力属性条件決定方法であって、上記頻度演算手段により、入力属性がとる全ての数値の各々について、第1データ群中において、入力属性がその数値以下であるデータの割合を第1の頻度として演算すると共に、第2データ群中において、入力属性がその数値以下であるデータの割合を第2の頻度として演算する頻度演算ステップと、上記差分演算手段により、入力属性がとる全ての数値の各々について、第1の頻度と第2の頻度との差分値を演算する差分演算ステップと、上記閾値決定手段により、1つの入力属性がとる各数値の中で、上記差分値が最大となる数値を、該入力属性における閾値とし、少なくとも1つの入力属性に対応する少なくとも1つの閾値を決定する閾値決定ステップと、上記入力属性条件決定手段により、上記閾値決定手段で決定された閾値に基づいて、上記入力属性条件を決定する入力属性条件決定ステップとを含むことを特徴としている。   In order to solve the above-described problem, an input attribute condition determination method according to the present invention uses the input attribute condition determination device, and includes data composed of at least one input attribute that is a numerical attribute and an output attribute. The analysis data is such that the first data group and the second data group are grouped with respect to the analysis data group classified into the first data group and the second data group according to the value of the output attribute. An input attribute condition determination method for determining an input attribute condition, which is an input attribute condition for bisecting a group, wherein the first data group is obtained for each of all numerical values taken by the input attribute by the frequency calculation means. The ratio of data whose input attribute is less than or equal to the numerical value is calculated as the first frequency, and the ratio of data whose input attribute is equal to or less than the value in the second data group is the second frequency. A frequency calculating step for calculating, a difference calculating step for calculating a difference value between the first frequency and the second frequency for each of all numerical values taken by the input attribute by the difference calculating means, and the threshold determining means A threshold value determining step of determining a numerical value that maximizes the difference value among the numerical values that one input attribute takes as a threshold value in the input attribute, and determining at least one threshold value corresponding to at least one input attribute; And an input attribute condition determining step for determining the input attribute condition based on the threshold value determined by the threshold value determining means by the input attribute condition determining means.

本発明に係る入力属性条件決定プログラムは、上記の課題を解決するために、数値属性である少なくとも1つの入力属性と、出力属性とで構成されるデータの集合であり、出力属性の値に依り第1データ群と第2データ群とに分類される分析データ群に対して、コンピュータを、入力属性がとる全ての数値の各々について、第1データ群中において、入力属性がその数値以下であるデータの割合を第1の頻度として演算すると共に、第2データ群中において、入力属性がその数値以下であるデータの割合を第2の頻度として演算する頻度演算手段、入力属性がとる全ての数値の各々について、第1の頻度と第2の頻度との差分値を演算する差分演算手段、1つの入力属性がとる各数値の中で、上記差分値が最大となる数値を、該入力属性における閾値とし、少なくとも1つの入力属性に対応する少なくとも1つの閾値を決定する閾値決定手段、および、上記閾値決定手段で決定された閾値に基づいて、第1データ群と第2データ群とがそれぞれまとまるように上記分析データ群を2分化するための入力属性の条件である、入力属性条件を決定する入力属性条件決定手段として機能させるための入力属性条件決定プログラムであることを特徴としている。   An input attribute condition determination program according to the present invention is a set of data composed of at least one input attribute that is a numerical attribute and an output attribute in order to solve the above-described problem, and depends on the value of the output attribute. With respect to the analysis data group classified into the first data group and the second data group, the computer has the input attribute for each of all the numerical values that the input attribute takes in the first data group that is less than or equal to the numerical value. The frequency calculation means for calculating the data ratio as the first frequency and calculating the ratio of the data whose input attribute is equal to or lower than the numerical value in the second data group as the second frequency, all numerical values taken by the input attribute Difference calculation means for calculating a difference value between the first frequency and the second frequency, and among the numerical values taken by one input attribute, the numerical value that maximizes the difference value is used as the input attribute. Oh Threshold value determining means for determining at least one threshold value corresponding to at least one input attribute, and the first data group and the second data group based on the threshold value determined by the threshold value determining means respectively. It is an input attribute condition determining program for functioning as an input attribute condition determining means for determining an input attribute condition, which is an input attribute condition for dividing the analysis data group into two groups.

本発明に係るコンピュータ読み取り可能な記録媒体は、上記の課題を解決するために、上記の入力属性条件決定プログラムを記録したものであることを特徴としている。   In order to solve the above problems, a computer-readable recording medium according to the present invention records the above-mentioned input attribute condition determination program.

上記装置、方法、プログラム、あるいは記録媒体によれば、入力属性がとる全ての数値の各々について、第1の頻度と第2の頻度との差分値を演算し、この差分値を、第1データ群と第2データ群とがそれぞれまとまるように分析データ群を2分化するための閾値の評価指標としている。そして、1つの入力属性がとる各数値の中で、評価指標(差分値)が最大となる数値を、該入力属性の閾値とし、少なくとも1つの入力属性に対応する少なくとも1つの閾値を決定している。これにより、入力属性がとる全ての数値の各々について第1の頻度と第2の頻度との差分値を演算するのみの非常に簡単な演算処理で、Giniインデックス法の改善度に相当する閾値評価指標を得ることができる。すなわち、上記構成では、Giniインデックス法のように、入力属性が取り得る全ての分岐条件のパターン毎にGiniインデックス((3)(4)式)や改善度((6)式)を計算するような膨大な演算処理を行う必要がなく、入力属性が取り得る値の数だけのデータに対して差分値を求める演算処理を行うだけでよい。したがって、分析データ群が実際のデバイス(特に半導体デバイス)のような製品の製造工程のデータである場合のように、一つの入力属性が取り得る値の数が数万〜数十万というオーダであっても、ほとんど計算負荷がかからず、短時間で処理を行うことができる。すなわち、計算負荷がかからず、短時間で、第1データ群と第2データ群とを切り分ける入力属性条件(各入力属性における最適分岐条件)を決定することができる。したがって、データ分析の効率化を図ることができる。   According to the above device, method, program, or recording medium, a difference value between the first frequency and the second frequency is calculated for each of all numerical values taken by the input attribute, and this difference value is calculated as the first data. The analysis data group is used as a threshold evaluation index to divide the analysis data group into two so that the group and the second data group are combined. Then, among the numerical values taken by one input attribute, the numerical value that maximizes the evaluation index (difference value) is set as the threshold value of the input attribute, and at least one threshold value corresponding to at least one input attribute is determined. Yes. As a result, the threshold evaluation corresponding to the improvement degree of the Gini index method can be achieved by a very simple calculation process only for calculating the difference value between the first frequency and the second frequency for each of the numerical values taken by the input attribute. An indicator can be obtained. That is, in the above configuration, like the Gini index method, the Gini index (Equation (3) (4)) and the improvement level (Equation (6)) are calculated for every pattern of all branch conditions that can be taken by the input attribute. It is not necessary to perform such an enormous amount of arithmetic processing, and it is only necessary to perform arithmetic processing for obtaining a difference value for data corresponding to the number of values that the input attribute can take. Therefore, the number of values that one input attribute can take is on the order of tens of thousands to hundreds of thousands, as in the case where the analysis data group is data of a manufacturing process of a product such as an actual device (especially a semiconductor device). Even in such a case, almost no calculation load is applied, and processing can be performed in a short time. That is, it is possible to determine an input attribute condition (optimal branch condition for each input attribute) that separates the first data group and the second data group in a short time without requiring a calculation load. Therefore, the efficiency of data analysis can be improved.

また、上記構成によれば、第1の頻度および第2の頻度は、それぞれ、対応するデータ群中において入力属性がその数値以下であるデータ数を、そのデータ群中のデータ総数で規格化したものであるから、これらの差分値は、分析データ群中における第1データ群の割合と第2データ群の割合とが極端に異なる場合であっても、その確度を落とすことがなく、この差分値を閾値評価指標とすることによって、第1データ群と第2データ群とを切り分けるための入力属性条件(各入力属性における最適分岐条件)を、高い確度で決定することができる。   Further, according to the above configuration, the first frequency and the second frequency are respectively normalized by the total number of data in the data group in the corresponding data group, the number of data whose input attribute is equal to or less than the numerical value. Therefore, even if the ratio of the first data group and the ratio of the second data group in the analysis data group are extremely different, the difference value does not decrease the accuracy. By using the value as a threshold evaluation index, it is possible to determine the input attribute condition (the optimal branch condition for each input attribute) for separating the first data group and the second data group with high accuracy.

本発明に係る入力属性条件決定装置は、上記閾値決定手段で決定された閾値における、第1の頻度と第2の頻度との大小関係を判定する極性判定手段をさらに含み、上記入力属性条件決定手段は、入力属性条件を満たすデータ群に第2データ群がまとまり、入力属性条件を満たさないデータ群に第1データ群がまとまるように、上記極性判定手段により第1の頻度が第2の頻度より大きいと判定された場合には、上記入力属性条件を「入力属性が閾値を超える」という条件に決定し、上記極性判定手段により第2の頻度が第1の頻度より大きいと判定された場合には、上記入力属性条件を「入力属性が閾値以下」という条件に決定することがより好ましい。これにより、入力属性条件を満たすデータ群に第2データ群がまとまり、入力属性条件を満たさないデータ群に第1データ群がまとまるような入力属性条件を、具体的に、「入力属性が閾値を超える」という条件、または「入力属性が閾値以下」という条件に決定することができる。   The input attribute condition determining apparatus according to the present invention further includes polarity determining means for determining a magnitude relationship between the first frequency and the second frequency in the threshold determined by the threshold determining means, and the input attribute condition determining The means determines the first frequency as the second frequency by the polarity determining means so that the second data group is grouped into the data group that satisfies the input attribute condition and the first data group is grouped into the data group that does not satisfy the input attribute condition. If it is determined that the input attribute condition is greater than the first attribute, the input attribute condition is determined to be a condition that the input attribute exceeds the threshold, and the polarity determination unit determines that the second frequency is greater than the first frequency. More preferably, the input attribute condition is determined as a condition that “input attribute is equal to or less than threshold”. As a result, an input attribute condition in which the second data group is grouped into a data group that satisfies the input attribute condition, and the first data group is grouped into a data group that does not satisfy the input attribute condition, It can be determined to be a condition “exceeding” or a condition “input attribute is equal to or less than a threshold”.

本発明に係る入力属性条件決定装置の実施の一形態においては、上記入力属性は、製品の製造工程における製造プロセス条件および/またはインライン検査結果であり、上記出力属性は、製品の品質判定結果であり、上記第2データ群は、品質判定結果が不良のデータ群である。   In one embodiment of the input attribute condition determining apparatus according to the present invention, the input attribute is a manufacturing process condition and / or inline inspection result in a product manufacturing process, and the output attribute is a product quality determination result. In addition, the second data group is a data group with a poor quality determination result.

この場合、不良品(品質判定結果が不良の製品)が発生する要因となる、製造工程における製造プロセス条件や製造途中での特性(インライン検査結果)を特定することができる。   In this case, it is possible to specify the manufacturing process conditions in the manufacturing process and the characteristics (in-line inspection result) during the manufacturing, which are factors that cause a defective product (a product whose quality judgment result is defective).

本発明に係るデータ分析装置は、上記の課題を解決するために、複数の入力属性と、出力属性とで構成されるデータの集合である基本データ群に対して、入力属性と出力属性との因果関係を分析し、因果関係を示す情報を抽出するデータ分析装置であって、上記基本データ群を、出力属性の値に依って第1データ群と第2データ群とに分類し、分類フラグを付与する分類手段と、上記分類後の基本データ群の中から、分析の対象とする分析データ群を抽出する分析データ群抽出手段と、請求項1または2に記載の入力属性条件決定装置とを含み、上記頻度演算手段および差分演算手段は、分析データ群の各々の入力属性がとる全ての数値の各々について上記演算を行い、上記閾値決定手段は、分析データ群の各々の入力属性について、それぞれ、閾値を決定することを特徴としている。   In order to solve the above problem, the data analysis apparatus according to the present invention provides an input attribute and an output attribute for a basic data group that is a set of data composed of a plurality of input attributes and output attributes. A data analysis apparatus for analyzing a causal relationship and extracting information indicating the causal relationship, classifying the basic data group into a first data group and a second data group based on an output attribute value, and a classification flag A classifying means for assigning, an analysis data group extracting means for extracting an analysis data group to be analyzed from the basic data group after the classification, and an input attribute condition determining apparatus according to claim 1 or 2 The frequency calculation means and the difference calculation means perform the calculation for each of all the numerical values taken by each input attribute of the analysis data group, and the threshold value determination means for each input attribute of the analysis data group, That It is characterized by determining the threshold value.

本発明に係るデータ分析方法は、上記の課題を解決するために、前記のデータ分析装置を用いて、複数の入力属性と、出力属性とで構成されるデータの集合である基本データ群に対して、入力属性と出力属性との因果関係を分析し、因果関係を示す情報を抽出するデータ分析方法であって、上記分類手段により、上記基本データ群を、出力属性の値に依って第1データ群と第2データ群とに分類し、分類フラグを付与する分類ステップと、上記分析データ群抽出手段により、上記分類後の基本データ群の中から、分析の対象とする分析データ群を抽出する分析データ群抽出ステップと、上記入力属性条件決定装置の上記頻度演算手段により、分析データ群の各々の入力属性がとる全ての数値の各々について、分析データ群の第1データ群中において、入力属性がその数値以下であるデータの割合を第1の頻度として演算すると共に、分析データ群の第2データ群中において、入力属性がその数値以下であるデータの割合を第2の頻度として演算する頻度演算ステップと、上記入力属性条件決定装置の上記差分演算手段により、分析データ群の各々の入力属性がとる全ての数値の各々について、第1の頻度と第2の頻度との差分値を演算する差分演算ステップと、上記入力属性条件決定装置の上記閾値決定手段により、各々の入力属性について、それぞれ、上記差分値が最大となる数値を該入力属性の閾値として決定する閾値決定ステップと、上記入力属性条件決定装置の上記入力属性条件決定手段により、上記閾値決定手段で決定された閾値に基づいて、第1データ群と第2データ群とがそれぞれまとまるように上記分析データ群を2分化するための入力属性条件を決定する入力属性条件決定ステップとを含むことを特徴としている。   In order to solve the above problems, a data analysis method according to the present invention uses the data analysis apparatus described above to generate a basic data group that is a set of data composed of a plurality of input attributes and output attributes. A data analysis method for analyzing a causal relationship between an input attribute and an output attribute and extracting information indicating the causal relationship, wherein the basic data group is first determined by the classification means according to the value of the output attribute. The analysis data group to be analyzed is extracted from the basic data group after the classification by the classification step for classifying the data group and the second data group and assigning the classification flag, and the analysis data group extraction means. In the first data group of the analysis data group, for each of all the numerical values taken by each input attribute of the analysis data group by the analysis data group extraction step to be performed and the frequency calculation means of the input attribute condition determination device The ratio of data whose input attribute is less than or equal to the numerical value is calculated as the first frequency, and the ratio of data whose input attribute is equal to or less than the value in the second data group of the analysis data group is calculated as the second frequency. The difference between the first frequency and the second frequency for each of all the numerical values taken by each input attribute of the analysis data group by the frequency calculation step calculated as follows and the difference calculation means of the input attribute condition determination device A difference calculating step for calculating a value, and a threshold value determining step for determining, for each input attribute, a numerical value that maximizes the difference value for each input attribute by the threshold value determining means of the input attribute condition determining device. And the first data group and the second data based on the threshold value determined by the threshold value determining means by the input attribute condition determining means of the input attribute condition determining device. Bets is characterized in that it comprises an input attribute condition determining step of determining an input attribute conditions for 2 differentiating the analytical data group as settled respectively.

本発明に係るデータ分析プログラムは、上記の課題を解決するために、複数の入力属性と、出力属性とで構成されるデータの集合である基本データ群に対して、コンピュータを、上記基本データ群を、出力属性の値に依って、第1データ群と第2データ群とに分類し、分類フラグを付与する分類手段、上記分類後の基本データ群の中から、分析の対象とする分析データ群を抽出する分析データ群抽出手段、分析データ群の各々の入力属性がとる全ての数値の各々について、分析データ群の第1データ群中において、入力属性がその数値以下であるデータの割合を第1の頻度として演算すると共に、分析データ群の第2データ群中において、入力属性がその数値以下であるデータの割合を第2の頻度として演算する頻度演算手段、分析データ群の各々の入力属性がとる全ての数値の各々について、第1の頻度と第2の頻度との差分値を演算する差分演算手段、各々の入力属性について、それぞれ、上記差分値が最大となる数値を、該入力属性の閾値として決定する閾値決定手段、上記閾値決定手段で決定された閾値に基づいて、第1データ群と第2データ群とがそれぞれまとまるように上記分析データ群を2分化するための入力属性の条件である、入力属性条件を決定する入力属性条件決定手段として機能させるためのデータ分析プログラムであることを特徴としている。   In order to solve the above problems, a data analysis program according to the present invention provides a computer to a basic data group that is a set of data composed of a plurality of input attributes and output attributes. Are classified into the first data group and the second data group according to the value of the output attribute, the classification means for assigning the classification flag, and the analysis data to be analyzed from the basic data group after the classification Analytical data group extraction means for extracting a group, and for each of all numerical values taken by each input attribute of the analytical data group, in the first data group of the analytical data group, the ratio of data whose input attribute is less than or equal to the numerical value A frequency calculation means for calculating the first frequency and calculating a ratio of data whose input attribute is equal to or lower than the numerical value in the second data group of the analysis data group as the second frequency, and the analysis data group Difference calculation means for calculating a difference value between the first frequency and the second frequency for each of all numerical values taken by each input attribute, and for each input attribute, a numerical value that maximizes the difference value. A threshold value determining means for determining the threshold value of the input attribute, and for dividing the analysis data group into two so that the first data group and the second data group are grouped based on the threshold value determined by the threshold value determining means. It is a data analysis program for functioning as an input attribute condition determining means for determining an input attribute condition that is a condition of the input attribute.

本発明に係るコンピュータ読み取り可能な記録媒体は、上記の課題を解決するために、上記のデータ分析プログラムを記録したものであることを特徴としている。   In order to solve the above problems, a computer-readable recording medium according to the present invention records the above data analysis program.

上記装置、方法、プログラム、あるいは記録媒体によれば、前記の入力属性条件決定装置、方法、プログラム、あるいは記録媒体を含むので、データ分析の効率化を図ることができると共に、第1データ群と第2データ群とを切り分ける入力属性条件(各入力属性における最適分岐条件)を、高い確度で決定することができる。   According to the apparatus, method, program, or recording medium, since the input attribute condition determining apparatus, method, program, or recording medium is included, the efficiency of data analysis can be improved, and the first data group An input attribute condition (optimal branch condition for each input attribute) that separates the second data group can be determined with high accuracy.

本発明に係るデータ分析装置は、数値属性でない入力属性を含む基本データ群に対し、入力属性を数値に変換する処理を行う数値変換手段をさらに備えていてもよい。これにより、少なくとも1つの数値でない入力属性と出力属性とで構成されるデータの集合である基本データ群に対しても、入力属性条件を決定することが可能となる。   The data analysis apparatus according to the present invention may further include a numerical value conversion means for performing processing for converting an input attribute into a numerical value for a basic data group including an input attribute that is not a numerical attribute. This makes it possible to determine the input attribute condition for a basic data group that is a set of data composed of at least one non-numeric input attribute and output attribute.

本発明に係るデータ分析装置は、上記入力属性条件決定装置は、複数の入力属性条件を決定するようになっており、上記入力属性条件決定装置で決定された入力属性条件の各々について、「入力属性が入力属性条件を満たせば、分析データ群中の第2データ群に含まれるデータである」という相関ルールの確からしさを表す分割ルール評価値を演算する分割ルール評価手段と、上記入力属性条件決定装置で決定された入力属性条件の中で、最大の分割ルール評価値を持つ入力属性条件に基づいて、上記分析データ群を、該入力属性条件を満たす要因データ群と、該入力属性条件を満たさない他データ群とに分割する分割手段とを含んでいてもよい。   In the data analysis apparatus according to the present invention, the input attribute condition determination device is configured to determine a plurality of input attribute conditions. For each of the input attribute conditions determined by the input attribute condition determination device, an “input” A division rule evaluation means for calculating a division rule evaluation value representing the probability of the association rule that if the attribute satisfies the input attribute condition, the data is included in the second data group in the analysis data group; and the input attribute condition Based on the input attribute condition having the largest division rule evaluation value among the input attribute conditions determined by the determination device, the analysis data group is divided into the factor data group satisfying the input attribute condition and the input attribute condition. A dividing unit that divides the data into other data groups that are not satisfied may be included.

本発明に係るデータ分析方法は、上記分割ルール評価手段により、上記入力属性条件決定装置で決定された入力属性条件の各々について、「入力属性が入力属性条件を満たせば、分析データ群中の第2データ群に含まれるデータである」という相関ルールの確からしさを表す分割ルール評価値を演算する分割ルール評価ステップと、上記分割手段により、上記入力属性条件決定装置で決定された入力属性条件の中で、最大の分割ルール評価値を持つ入力属性条件に基づいて、上記分析データ群を、該入力属性条件を満たす要因データ群と、該入力属性条件を満たさない他データ群とに分割する分割ステップとを含んでいてもよい。   In the data analysis method according to the present invention, for each of the input attribute conditions determined by the input attribute condition determination device by the division rule evaluation unit, “if the input attribute satisfies the input attribute condition, A division rule evaluation step for calculating a division rule evaluation value representing the probability of an association rule that is "data included in two data groups", and an input attribute condition determined by the input attribute condition determination device by the division means And dividing the analysis data group into a factor data group satisfying the input attribute condition and another data group not satisfying the input attribute condition based on the input attribute condition having the largest division rule evaluation value Steps may be included.

上記装置、方法によれば、上記入力属性条件決定装置で決定された複数の入力属性条件の中から、最大の分割ルール評価値を持つ入力属性条件を満たす要因データ群、すなわち第2データ群に対応する問題事象(例えば不良品の発生)が起こる最大の要因(入力属性条件)を持つデータ群を導き出せる。   According to the above apparatus and method, among the plurality of input attribute conditions determined by the input attribute condition determining apparatus, the factor data group satisfying the input attribute condition having the maximum division rule evaluation value, that is, the second data group A data group having the largest factor (input attribute condition) that causes a corresponding problem event (for example, occurrence of defective product) can be derived.

本発明に係るデータ分析装置は、上記分析データ群抽出手段は、上記分割手段で分割されたデータ群のうちの少なくとも一方を新たな分析データ群として抽出し、分析データ群抽出手段による処理、入力属性条件決定装置による処理、分割ルール評価手段による処理、および、分割手段による処理からなる一連の処理が繰り返し実行されるようになっていることが好ましい。   In the data analysis apparatus according to the present invention, the analysis data group extraction unit extracts at least one of the data groups divided by the division unit as a new analysis data group, and performs processing and input by the analysis data group extraction unit. It is preferable that a series of processes including a process by the attribute condition determination device, a process by the division rule evaluation unit, and a process by the division unit are repeatedly executed.

上記構成によれば、繰り返しの処理によって、より詳細な要因分析結果が得られ、複数の要因を節点として木構造を作成できる。それゆえ、単独の相関ルールでは表現し難い複数の要因の絡み合った分析対象であっても、十分高い精度で要因を究明できる。   According to the above configuration, more detailed factor analysis results can be obtained through repeated processing, and a tree structure can be created with a plurality of factors as nodes. Therefore, even if the analysis target is intertwined with a plurality of factors that are difficult to express with a single association rule, the factors can be determined with sufficiently high accuracy.

また、繰り返し処理を行わない場合に、外乱の影響で閾値評価指標(差分値)の確度が低かったとしても、繰り返し処理を行うことにより、この問題を解消できる。   Further, when the repeated process is not performed, even if the accuracy of the threshold evaluation index (difference value) is low due to the influence of disturbance, this problem can be solved by performing the repeated process.

さらに、ある入力属性において、第2データ群に対応する出力属性条件の要因が、「入力属性が閾値以下である」、および、「入力属性が閾値を超える」という2タイプの場合においても、繰り返しの処理によって、それらの双方の要因を抽出することができる。   Furthermore, in a certain input attribute, the output attribute condition factor corresponding to the second data group is repeated even when the two types are “input attribute is below threshold” and “input attribute exceeds threshold”. Both of these factors can be extracted by this process.

本発明に係るデータ分析装置は、上記分析データ群抽出手段は、上記分割手段で分割されたデータ群のうち他データ群のみを、新たな分析データ群として抽出するものであることが好ましい。   In the data analysis apparatus according to the present invention, it is preferable that the analysis data group extraction unit extracts only another data group from the data group divided by the division unit as a new analysis data group.

上記構成によれば、分割手段で分割されたデータ群のうち他データ群のみを、新たな分析データ群として上記の繰り返し処理を行っているから、第2データ群に対応する出力属性条件の要因分析に対して、簡潔で、かつ、十分な要因分析結果が得られる。   According to the above configuration, since only the other data group among the data groups divided by the dividing unit is subjected to the above-described repetitive processing as a new analysis data group, the cause of the output attribute condition corresponding to the second data group A simple and sufficient factor analysis result is obtained for the analysis.

また、他データ群を新たな分析データ群として処理を行っているから、それ以前の繰り返し処理の過程で抽出された要因(入力属性条件)の影響を除外でき、第2データ群に対応する出力属性条件の、新たな要因を高い確度で抽出することができる。   In addition, since the other data group is processed as a new analysis data group, the influence of the factor (input attribute condition) extracted in the process of the previous repeated processing can be excluded, and the output corresponding to the second data group New factors of attribute conditions can be extracted with high accuracy.

上記分割ルール評価手段は、上記入力属性条件決定装置で決定された入力属性条件の各々について、上記分析データ群の第1データ群中で該入力属性条件を満たすデータの割合に対する、上記分析データ群の第2データ群中で該入力属性条件を満たすデータの割合の比率を、分割ルール評価値として演算するものであることが好ましい。これにより、ルール評価値を容易に演算することができる。   The division rule evaluation means, for each of the input attribute conditions determined by the input attribute condition determination device, for the ratio of data satisfying the input attribute condition in the first data group of the analysis data group It is preferable that the ratio of the ratio of data satisfying the input attribute condition in the second data group is calculated as a division rule evaluation value. Thereby, a rule evaluation value can be easily calculated.

本発明に係るデータ分析装置は、分類条件を設定する分類条件設定手段をさらに含み、上記分類手段は、分類条件設定手段で設定された分類条件に基づいて基本データ群を分類するようになっていてもよい。これにより、ユーザが分類条件を任意に設定してすることが可能となるので、それに対応した多様な入力属性条件(要因)を導き出すことができる。   The data analysis apparatus according to the present invention further includes a classification condition setting means for setting a classification condition, and the classification means classifies the basic data group based on the classification condition set by the classification condition setting means. May be. As a result, the user can arbitrarily set the classification condition, so that various input attribute conditions (factors) corresponding to the classification condition can be derived.

本発明に係るデータ分析装置は、上記基本データ群は、複数の出力属性を含み、上記分類条件設定手段は、上記複数の出力属性の各々に対して分類条件を設定し、上記分類手段は、分類条件設定手段で設定された各々の分類条件の論理和または論理積に依って、基本データ群を分類するようになっていてもよい。これにより、複数の出力属性条件がともに満たされる要因や、複数の出力属性条件のいずれかが満たされる要因を導き出すことができる。   In the data analysis apparatus according to the present invention, the basic data group includes a plurality of output attributes, the classification condition setting unit sets a classification condition for each of the plurality of output attributes, and the classification unit includes: The basic data group may be classified according to the logical sum or logical product of the respective classification conditions set by the classification condition setting means. Accordingly, it is possible to derive a factor that satisfies a plurality of output attribute conditions or a factor that satisfies any of the plurality of output attribute conditions.

本発明に係るデータ分析装置は、上記入力属性条件決定装置は、複数の入力属性条件を決定するようになっており、上記入力属性条件決定装置で決定された入力属性条件の各々について、上記基本データ群中で該入力属性条件を満たすデータの中に第2データ群が含まれる割合を表す、第2データ群分離度を演算する第2データ群分離度演算手段と、上記入力属性条件決定装置で決定された入力属性条件の中で、上記基本データ群中の第2データ群の割合を表す第2データ群含有率よりも大きい値の、第2データ群分離度をもつ入力属性条件を、第2データ群に対応する出力属性条件の要因を示す情報として抽出する第1の要因抽出手段とを含む構成であってもよい。   In the data analysis device according to the present invention, the input attribute condition determination device is configured to determine a plurality of input attribute conditions. For each of the input attribute conditions determined by the input attribute condition determination device, the basic attribute A second data group separation degree calculating means for calculating a second data group separation degree representing a ratio of the second data group included in the data satisfying the input attribute condition in the data group; and the input attribute condition determining device. Among the input attribute conditions determined in (2), an input attribute condition having a second data group separation degree having a value larger than the second data group content ratio representing the ratio of the second data group in the basic data group, A configuration including first factor extracting means for extracting as information indicating a factor of the output attribute condition corresponding to the second data group may be employed.

上記構成によれば、第2データ群に対応する出力属性条件の最大の要因である入力属性条件(決定木における分岐条件)だけでなく、それ以外の入力属性条件についても、第2データ群分離度の高い入力属性条件を全て抽出できる。したがって、第2データ群に対応する出力属性条件の最大の要因(決定木における分岐条件)に競合する要因(競合因子)が存在しても、その要因を逃すことなく確実に捉えることができる。また、上記構成によれば、決定した複数の要因(入力属性条件)に対して、第2データ群分離度を評価指標として優先順位(第2データ群に対応する出力属性条件に対する影響度の順位)を付けることが可能となる。   According to the above configuration, the second data group separation is performed not only for the input attribute condition (branch condition in the decision tree) that is the largest factor of the output attribute condition corresponding to the second data group, but also for other input attribute conditions. All high-level input attribute conditions can be extracted. Therefore, even if there is a competing factor (competitive factor) in the maximum factor (branch condition in the decision tree) of the output attribute condition corresponding to the second data group, it can be reliably captured without missing the factor. Further, according to the above configuration, for the plurality of determined factors (input attribute conditions), the second data group separation degree is used as an evaluation index, and the priority order (the order of the influence degree on the output attribute condition corresponding to the second data group) ) Can be attached.

さらに、上記構成によれば、第2データ群が第1データ群から分離される確度を示す第2データ群分離度という明確な指標に基づいて、出力属性条件の要因を示す情報を抽出している。そのため、如何に複雑な決定木となろうとも明確に問題事象の要因を把握することができる。   Furthermore, according to the above configuration, the information indicating the factor of the output attribute condition is extracted based on the clear index of the second data group separation degree indicating the probability that the second data group is separated from the first data group. Yes. Therefore, it is possible to clearly grasp the cause of the problem event regardless of how complicated the decision tree is.

本発明に係るデータ分析装置は、上記入力属性条件決定装置は、複数の入力属性条件を決定するようになっており、上記入力属性条件決定装置で決定された入力属性条件の中で、最大の分割ルール評価値を持つ入力属性条件を、第2データ群に対応する出力属性条件の要因を示す情報として抽出する第2の要因抽出手段とを含む構成であってもよい。   In the data analysis device according to the present invention, the input attribute condition determining device is configured to determine a plurality of input attribute conditions, and the largest of the input attribute conditions determined by the input attribute condition determining device. A configuration including a second factor extracting unit that extracts an input attribute condition having a division rule evaluation value as information indicating a factor of an output attribute condition corresponding to the second data group may be employed.

上記構成によれば、ラベル階層構造を予め定義する事なく、簡潔な形で、第2データ群に対応する出力属性条件(結果)の要因を抽出でき、データ分析の効率化を図ることができる。   According to the above configuration, the factor of the output attribute condition (result) corresponding to the second data group can be extracted in a simple manner without defining the label hierarchical structure in advance, and the efficiency of data analysis can be improved. .

本発明に係るデータ分析装置は、上記の課題を解決するために、複数の入力属性と、出力属性とで構成されるデータの集合である基本データ群に対して、入力属性と出力属性との因果関係を分析し、因果関係を示す情報を抽出するデータ分析装置であって、上記基本データ群を、出力属性の値に依って第1データ群と第2データ群とに分類し、分類フラグを付与する分類手段と、上記分類後の基本データ群の中から、分析の対象とする分析データ群を抽出する分析データ群抽出手段と、分析データ群の各々の入力属性が取り得る全ての入力属性条件の各々について、「入力属性が入力属性条件を満たせば、分析データ群中の第2データ群に属するデータであり、入力属性が入力属性条件を満たさなければ、分析データ群中の第1データ群に属するデータである」という第1の相関ルールの確からしさを表す、入力属性条件評価指標を演算する第1の評価手段と、分析データ群の各々の入力属性について、それぞれ、最大の入力属性条件評価指標を持つ入力属性条件を、上記第1の相関ルールを満たす入力属性条件として決定する入力属性条件決定手段と、上記入力属性条件決定手段で決定された入力属性条件の各々について、「入力属性が入力属性条件を満たせば、分析データ群中の第2データ群に含まれるデータである」という第2の相関ルールの確からしさを表す第2評価指標を演算する第2の評価手段と、上記入力属性条件決定手段で決定された入力属性条件の中で、第2評価指標が最大となる入力属性条件を、第2データ群に対応する出力属性条件の要因を示す情報として抽出する第2の要因抽出手段とを含むことを特徴としている。   In order to solve the above problem, the data analysis apparatus according to the present invention provides an input attribute and an output attribute for a basic data group that is a set of data composed of a plurality of input attributes and output attributes. A data analysis apparatus for analyzing a causal relationship and extracting information indicating the causal relationship, classifying the basic data group into a first data group and a second data group based on an output attribute value, and a classification flag All the input that can be taken by each input attribute of the analysis data group and the analysis data group extraction means for extracting the analysis data group to be analyzed from the basic data group after the classification For each attribute condition, “if the input attribute satisfies the input attribute condition, the data belongs to the second data group in the analysis data group, and if the input attribute does not satisfy the input attribute condition, the first in the analysis data group. Belonging to data group The first evaluation means for calculating the input attribute condition evaluation index, which represents the certainty of the first association rule that is “the data to be received”, and the maximum input attribute condition evaluation for each input attribute of the analysis data group An input attribute condition determining unit that determines an input attribute condition having an index as an input attribute condition satisfying the first correlation rule, and for each of the input attribute conditions determined by the input attribute condition determining unit, A second evaluation means for calculating a second evaluation index representing the probability of the second association rule that the data is included in the second data group in the analysis data group if the input attribute condition is satisfied; Among the input attribute conditions determined by the attribute condition determining means, the input attribute condition that maximizes the second evaluation index is used as information indicating the cause of the output attribute condition corresponding to the second data group. It is characterized in that it comprises a second factor extraction means for output.

本発明に係るデータ分析方法は、上記の課題を解決するために、前記のデータ分析装置を用いて、複数の入力属性と、出力属性とで構成されるデータの集合である基本データ群に対して、入力属性と出力属性との因果関係を分析し、因果関係を示す情報を抽出するデータ分析方法であって、上記分類手段により、上記基本データ群を、出力属性の値に依って第1データ群と第2データ群とに分類し、分類フラグを付与する分類ステップと、上記分析データ群抽出手段により、上記分類後の基本データ群の中から、分析の対象とする分析データ群を抽出する分析データ群抽出ステップと、上記第1の評価手段により、各々の入力属性が取り得る全ての入力属性条件の各々について、「入力属性が入力属性条件を満たせば、分析データ群中の第2データ群に属するデータであり、入力属性が入力属性条件を満たさなければ、分析データ群中の第1データ群に属するデータである」という第1の相関ルールの確からしさを表す、入力属性条件評価指標を演算する第1の評価ステップと、上記入力属性条件決定手段により、各々の入力属性について、それぞれ、最大の入力属性条件評価指標を持つ入力属性条件を、上記第1の相関ルールを満たす入力属性条件として決定する入力属性条件決定ステップと、上記第2の評価手段により、上記入力属性条件決定手段で決定された入力属性条件の各々について、「入力属性が入力属性条件を満たせば、分析データ群中の第2データ群に含まれるデータである」という第2の相関ルールの確からしさを表す、第2評価指標を演算する第2の評価ステップと、第2の要因抽出手段により、上記入力属性条件決定手段で決定された入力属性条件の中で、第2評価指標が最大となる入力属性条件を、第2データ群に対応する出力属性条件の要因を示す情報として抽出する第2の要因抽出ステップとを含むことを特徴としている。   In order to solve the above problems, a data analysis method according to the present invention uses the data analysis apparatus described above to generate a basic data group that is a set of data composed of a plurality of input attributes and output attributes. A data analysis method for analyzing a causal relationship between an input attribute and an output attribute and extracting information indicating the causal relationship, wherein the basic data group is first determined by the classification means according to the value of the output attribute. The analysis data group to be analyzed is extracted from the basic data group after the classification by the classification step for classifying the data group and the second data group and assigning the classification flag, and the analysis data group extraction means. For each of all the input attribute conditions that can be taken by each input attribute by the analysis data group extracting step and the first evaluation means, “if the input attribute satisfies the input attribute condition, the second in the analysis data group Data attribute belonging to the data group, and if the input attribute does not satisfy the input attribute condition, it is data belonging to the first data group in the analysis data group. By the first evaluation step for calculating the evaluation index and the input attribute condition determining means, the input attribute condition having the maximum input attribute condition evaluation index for each input attribute satisfies the first correlation rule. For each of the input attribute conditions determined by the input attribute condition determining means by the input attribute condition determining step determined as the input attribute condition and the second evaluation means, “if the input attribute satisfies the input attribute conditions, the analysis The second evaluation step for calculating the second evaluation index, which represents the probability of the second association rule that the data is included in the second data group in the data group. And the input attribute condition that maximizes the second evaluation index among the input attribute conditions determined by the input attribute condition determining means by the second factor extracting means is the output attribute corresponding to the second data group. And a second factor extracting step for extracting as information indicating the factor of the condition.

本発明に係るデータ分析プログラムは、上記の課題を解決するために、複数の入力属性と、出力属性とで構成されるデータの集合である基本データ群に対して、コンピュータを、上記基本データ群を、出力属性の値に依って第1データ群と第2データ群とに分類し、分類フラグを付与する分類手段、上記分類後の基本データ群の中から、分析の対象とする分析データ群を抽出する分析データ群抽出手段、各々の入力属性が取り得る全ての入力属性条件の各々について、「入力属性が入力属性条件を満たせば、分析データ群中の第2データ群に属するデータであり、入力属性が入力属性条件を満たさなければ、分析データ群中の第1データ群に属するデータである」という第1の相関ルールの確からしさを表す、入力属性条件評価指標を演算する第1の評価手段、各々の入力属性について、それぞれ、最大の入力属性条件評価指標を持つ入力属性条件を、上記第1の相関ルールを満たす入力属性条件として決定する入力属性条件決定手段、上記入力属性条件決定手段で決定された入力属性条件の各々について、「入力属性が入力属性条件を満たせば、分析データ群中の第2データ群に含まれるデータである」という第2の相関ルールの確からしさを表す、第2評価指標を演算する第2の評価手段、上記入力属性条件決定手段で決定された入力属性条件の中で、第2評価指標が最大となる入力属性条件を、第2データ群に対応する出力属性条件の要因を示す情報として抽出する第2の要因抽出手段として機能させるためのデータ分析プログラムであることを特徴としている。   In order to solve the above problems, a data analysis program according to the present invention provides a computer to a basic data group that is a set of data composed of a plurality of input attributes and output attributes. Are classified into the first data group and the second data group according to the value of the output attribute, and the classification means for assigning the classification flag, the analysis data group to be analyzed from the basic data group after the classification Analytical data group extracting means for extracting, for each of all the input attribute conditions that each input attribute can take, “if the input attribute satisfies the input attribute condition, the data belongs to the second data group in the analytical data group If the input attribute does not satisfy the input attribute condition, it is data belonging to the first data group in the analysis data group. The first evaluation means, for each input attribute, the input attribute condition determining means for determining the input attribute condition having the maximum input attribute condition evaluation index as the input attribute condition satisfying the first correlation rule, and the input For each of the input attribute conditions determined by the attribute condition determining means, the confirmation of the second correlation rule that “if the input attribute satisfies the input attribute condition, it is data included in the second data group in the analysis data group”. A second evaluation means for calculating a second evaluation index representing the likelihood, and the input attribute condition that maximizes the second evaluation index among the input attribute conditions determined by the input attribute condition determination means is the second data It is a data analysis program for functioning as a second factor extracting means for extracting as information indicating the factor of the output attribute condition corresponding to the group.

本発明に係るコンピュータ読み取り可能な記録媒体は、上記の課題を解決するために、上記のデータ分析プログラムを記録したものであることを特徴としている。   In order to solve the above problems, a computer-readable recording medium according to the present invention records the above data analysis program.

上記装置、方法、プログラム、あるいは記録媒体によれば、ラベル階層構造を予め定義する事なく、簡潔な形で、第2データ群に対応する出力属性条件(結果)の要因を抽出できる。それゆえ、例えば第2データ群が悪い結果(例えば不良品の発生)に対応するデータ群であれば、その悪い結果の要因をユーザが容易に把握できる。逆に、第2データ群が良い結果(例えば優れた特性を持つ製品の発生)に対応するデータ群であれば、その良い結果の要因をユーザが容易に把握できる。したがって、データ分析の効率化を図ることができる。   According to the apparatus, method, program, or recording medium, the factor of the output attribute condition (result) corresponding to the second data group can be extracted in a concise form without defining the label hierarchical structure in advance. Therefore, for example, if the second data group is a data group corresponding to a bad result (for example, occurrence of a defective product), the user can easily grasp the cause of the bad result. Conversely, if the second data group is a data group corresponding to a good result (for example, occurrence of a product having excellent characteristics), the user can easily grasp the factor of the good result. Therefore, the efficiency of data analysis can be improved.

上記データ分析装置は、上記第1の評価手段は、各入力属性の全ての数値の各々について、入力属性がその数値以下のデータと、入力属性がその数値を超えるデータとの2分化による、第1データ群と第2データ群との切り分けの程度を表す閾値評価指標を、上記入力属性条件評価指標として演算し、上記第2の評価手段は、上記入力属性条件決定手段で決定された入力属性条件の各々について、上記分析データ群の第1データ群中で該入力属性条件を満たすデータの割合に対する、上記分析データ群の第2データ群中で該入力属性条件を満たすデータの割合の比率を、第2評価指標として演算するものであることがより好ましい。   In the data analysis device, the first evaluation unit is configured to perform, for each of all the numerical values of each input attribute, by bifurcation of data in which the input attribute is equal to or lower than the numerical value and data in which the input attribute exceeds the numerical value. A threshold evaluation index representing the degree of separation between one data group and the second data group is calculated as the input attribute condition evaluation index, and the second evaluation means is the input attribute determined by the input attribute condition determination means For each condition, the ratio of the ratio of data satisfying the input attribute condition in the second data group of the analysis data group to the ratio of data satisfying the input attribute condition in the first data group of the analysis data group More preferably, the second evaluation index is calculated.

本発明に係るデータ分析装置は、上記の課題を解決するために、複数の入力属性と、出力属性とで構成されるデータの集合である基本データ群を分析対象とし、入力属性と出力属性との因果関係を分析し、因果関係を示す情報を抽出するデータ分析装置であって、基本データ群を出力属性に依って第1データ群と第2データ群とに分類する分類手段と、各入力属性の全ての数値について、入力属性がその数値以下であるデータが第1データ群および第2データ群のうちの一方に偏っている度合いを表す閾値評価指標を演算する第1の評価手段と、第1の評価手段で演算された閾値評価指標に基づいて、各入力属性について最大の閾値評価指標を持つ数値を各入力属性の閾値として決定する閾値決定手段と、閾値決定手段で決定された各入力属性の閾値に基づいて、「入力属性が閾値以下であれば第2データ群に含まれるデータである」という相関ルールの確からしさを表す第1のルール評価値と、「入力属性が閾値を超えていれば第2データ群に含まれるデータである」という相関ルールの確からしさを表す第2のルール評価値とを各入力属性について演算する第2の評価手段と、第2の評価手段でルール評価値が演算された、全ての入力属性に関する相関ルールのうちで最も高いルール評価値を持つ相関ルールの入力属性条件を示すデータを、第2データ群に対応する出力属性条件の要因を示す情報として抽出する第2の要因抽出手段とを含むことを特徴としている。   In order to solve the above problems, a data analysis apparatus according to the present invention analyzes a basic data group, which is a set of data composed of a plurality of input attributes and output attributes, and includes input attributes and output attributes. Is a data analysis apparatus for analyzing the cause-and-effect relationship and extracting information indicating the cause-and-effect relationship, and classifying means for classifying the basic data group into a first data group and a second data group according to output attributes, and each input A first evaluation means for calculating a threshold evaluation index representing a degree that data having an input attribute equal to or less than the numerical value is biased to one of the first data group and the second data group for all the numerical values of the attribute; Based on the threshold evaluation index calculated by the first evaluation means, threshold determination means for determining a numerical value having the maximum threshold evaluation index for each input attribute as a threshold of each input attribute, and each determined by the threshold determination means Input genus The first rule evaluation value indicating the probability of the correlation rule “if the input attribute is equal to or less than the threshold, the data is included in the second data group”, and “the input attribute exceeds the threshold The second rule evaluation value representing the likelihood of the association rule that the data is included in the second data group for each input attribute, and the rule evaluation by the second evaluation means The data indicating the input attribute condition of the correlation rule having the highest rule evaluation value among the correlation rules related to all the input attributes whose values have been calculated is used as information indicating the cause of the output attribute condition corresponding to the second data group And a second factor extracting means for extracting.

上記構成によれば、ラベル階層構造を予め定義する事なく、簡潔な形で、第2データ群に対応する出力属性条件(結果)の要因を抽出でき、データ分析の効率化を図ることができる。   According to the above configuration, the factor of the output attribute condition (result) corresponding to the second data group can be extracted in a simple manner without defining the label hierarchical structure in advance, and the efficiency of data analysis can be improved. .

本発明に係るデータ分析装置は、上記第2の要因抽出手段で抽出された入力属性条件に基づいて、分析データ群を、上記入力属性条件を満たす要因データ群と、上記入力属性条件を満たさない他データ群とに分割する分割手段をさらに含み、上記分析データ群抽出手段は、上記分割手段で分割されたデータ群のうちの少なくとも一方を新たな分析データ群として抽出し、分析データ群抽出手段による処理、第1の評価手段による処理、入力属性条件決定手段による処理、第2の評価手段による処理、第2の要因抽出手段による処理、および分割手段による処理からなる一連の処理が繰り返し実行されるようになっていることがより好ましい。   The data analysis apparatus according to the present invention includes an analysis data group based on the input attribute condition extracted by the second factor extraction means, a factor data group that satisfies the input attribute condition, and does not satisfy the input attribute condition. The analysis data group extraction means further includes at least one of the data groups divided by the division means as a new analysis data group, and the analysis data group extraction means A series of processing consisting of processing by the first evaluation means, processing by the input attribute condition determination means, processing by the second evaluation means, processing by the second factor extraction means, and processing by the dividing means is repeatedly executed. It is more preferable that it is adapted.

上記構成によれば、繰り返しの処理によって、より詳細な要因分析結果が得られ、複数の要因を節点として木構造を作成できる。それゆえ、単独の相関ルールでは表現し難い複数の要因の絡み合った分析対象であっても、十分高い精度で要因を究明できる。   According to the above configuration, more detailed factor analysis results can be obtained through repeated processing, and a tree structure can be created with a plurality of factors as nodes. Therefore, even if the analysis target is intertwined with a plurality of factors that are difficult to express with a single association rule, the factors can be determined with sufficiently high accuracy.

本発明に係るデータ分析装置は、上記分析データ群抽出手段は、上記分割手段で分割されたデータ群のうち他データ群のみを、新たな分析データ群として抽出するものであることが好ましい。   In the data analysis apparatus according to the present invention, it is preferable that the analysis data group extraction unit extracts only another data group from the data group divided by the division unit as a new analysis data group.

上記構成によれば、分割手段で分割されたデータ群のうち他データ群のみを、新たな分析データ群として上記の繰り返し処理を行っているから、第2データ群に対応する出力属性条件の要因分析に対して、簡潔で、かつ、十分な要因分析結果が得られる。   According to the above configuration, since only the other data group among the data groups divided by the dividing unit is subjected to the above-described repetitive processing as a new analysis data group, the cause of the output attribute condition corresponding to the second data group A simple and sufficient factor analysis result is obtained for the analysis.

また、他データ群を新たな分析データ群として処理を行っているから、それ以前の繰り返し処理の過程で抽出された要因(入力属性条件)の影響を除外でき、第2データ群に対応する出力属性条件の、新たな要因を高い確度で抽出する事ができる。   In addition, since the other data group is processed as a new analysis data group, the influence of the factor (input attribute condition) extracted in the process of the previous repeated processing can be excluded, and the output corresponding to the second data group New factors of attribute conditions can be extracted with high accuracy.

上記第1の評価手段は、各入力属性の全ての数値について、第1データ群中において、入力属性がその数値以下であるデータの割合を第1の頻度として演算すると共に、第2データ群中において、入力属性がその数値以下であるデータの割合を第2の頻度として演算する頻度演算手段と、各入力属性の全ての数値について、第1の頻度と第2の頻度との差分を演算する差分演算手段とを含むことがより好ましい。これにより、閾値評価指標を容易に演算することができる。すなわち、計算負荷がかからず、短時間で、第1データ群と第2データ群とを切り分ける入力属性条件(各入力属性における最適分岐条件)を決定することができる。また、分析データ群中における第1データ群の割合と第2データ群の割合とが極端に異なる場合であっても、その確度を落とすことがなく、第1データ群と第2データ群とを切り分ける入力属性条件(各入力属性における最適分岐条件)を、高い確度で決定することができる。   The first evaluation means calculates, as the first frequency, the ratio of data in which the input attribute is less than or equal to the numerical value in the first data group for all numerical values of each input attribute, and in the second data group , The frequency calculation means for calculating the ratio of data whose input attribute is less than or equal to the numerical value as the second frequency, and the difference between the first frequency and the second frequency for all the numerical values of each input attribute More preferably, difference calculating means is included. Thereby, the threshold evaluation index can be easily calculated. That is, it is possible to determine an input attribute condition (optimal branch condition for each input attribute) that separates the first data group and the second data group in a short time without requiring a calculation load. Further, even if the ratio of the first data group and the ratio of the second data group in the analysis data group are extremely different, the accuracy is not reduced, and the first data group and the second data group are The input attribute condition to be carved (the optimum branch condition for each input attribute) can be determined with high accuracy.

上記第2の評価手段は、第1のルール評価値として、第1データ群中において入力属性が閾値以下であるデータの割合に対する、第2データ群中において入力属性が閾値以下であるデータの割合の比率を第1の比率として演算すると共に、第2のルール評価値として、第1データ群中において入力属性が閾値を超えるデータの割合に対する、第2データ群中において入力属性が閾値を超えるデータの割合の比率を第2の比率として演算するものであることがより好ましい。これにより、第1および第2のルール評価値を容易に演算することができる。   The second evaluation means uses, as the first rule evaluation value, the ratio of data whose input attribute is equal to or less than the threshold in the second data group to the ratio of data whose input attribute is equal to or less than the threshold in the first data group. Is calculated as the first ratio, and as the second rule evaluation value, the data whose input attribute exceeds the threshold in the second data group with respect to the ratio of the data whose input attribute exceeds the threshold in the first data group More preferably, the ratio is calculated as the second ratio. Thereby, the first and second rule evaluation values can be easily calculated.

本発明に係るデータ分析装置は、終了条件を満たしているか否かを判定する終了条件判定手段をさらに含み、上記終了条件判定手段は、上記分析データ群抽出手段で抽出した分析データ群における第2データ群のデータ数が0であるかを終了条件として判定を行い、上記終了条件判定手段において終了条件を満たしていると判定されると、上記一連の処理の実行を終了するようになっていることがより好ましい。これにより、必要以上の無駄な処理が行われることを回避できる。   The data analysis apparatus according to the present invention further includes an end condition determination unit that determines whether or not an end condition is satisfied, and the end condition determination unit includes a second analysis data group extracted by the analysis data group extraction unit. Whether the number of data in the data group is 0 is determined as an end condition, and when the end condition determination unit determines that the end condition is satisfied, the execution of the series of processes is ended. It is more preferable. Thereby, it is possible to avoid performing unnecessary processing more than necessary.

本発明の入力属性条件決定装置、入力属性条件決定方法、入力属性条件決定プログラムおよびそれを記録した記録媒体によれば、第1のデータ群と第2のデータ群とを切り分ける入力属性条件(各入力属性における最適分岐条件)を決定するための評価指標として第1の頻度と第2の頻度との差分値を用いており、第1の頻度と第2の頻度との差分値を演算するだけの簡単な演算処理で評価指標(差分値)を演算できる。そのため、計算負荷がかからず、短時間で、第1のデータ群と第2のデータ群とを切り分ける入力属性条件(各入力属性における最適分岐条件)を決定することができる。   According to the input attribute condition determination device, the input attribute condition determination method, the input attribute condition determination program, and the recording medium on which the input attribute condition determination method of the present invention is recorded, the input attribute condition (each of which separates the first data group and the second data group) The difference value between the first frequency and the second frequency is used as an evaluation index for determining the optimal branch condition in the input attribute), and only the difference value between the first frequency and the second frequency is calculated. The evaluation index (difference value) can be calculated by simple calculation processing. Therefore, it is possible to determine an input attribute condition (optimal branch condition for each input attribute) that separates the first data group and the second data group in a short time without requiring a calculation load.

また、第1の頻度および第2の頻度は、それぞれ、各々に対応するデータ群中のデータ総数で規格化したものであるから、それらの差分値は、全データに対する第1のデータ群の割合と、全データに対する第2のデータ群の割合とが極端に異なっていても、入力属性条件(各入力属性における最適分岐条件)の正確な評価指標となる。したがって、第1のデータ群と第2のデータ群とを切り分ける入力属性条件(各入力属性における最適分岐条件)を、高い確度で決定することができる。   In addition, since the first frequency and the second frequency are standardized by the total number of data in the data group corresponding to each, the difference value is the ratio of the first data group to the total data. Even if the ratio of the second data group to all the data is extremely different, it is an accurate evaluation index of the input attribute condition (the optimum branch condition in each input attribute). Therefore, the input attribute condition (optimal branch condition for each input attribute) for separating the first data group and the second data group can be determined with high accuracy.

本発明のデータ分析装置、データ分析方法、データ分析プログラムおよびそれを記録した記録媒体によれば、前記の入力属性条件決定装置、方法、プログラム、あるいは記録媒体とを含むので、データ分析の効率化を図ることができると共に、第1データ群と第2データ群とを切り分ける入力属性条件(各入力属性における最適分岐条件)を高い確度で決定することができ、データ分析の信頼性を高めることができる。   According to the data analysis apparatus, the data analysis method, the data analysis program and the recording medium on which the data analysis program of the present invention is recorded, the input attribute condition determination apparatus, method, program, or recording medium is included. In addition, the input attribute condition for separating the first data group and the second data group (the optimal branch condition for each input attribute) can be determined with high accuracy, and the reliability of data analysis can be improved. it can.

また、ラベル階層構造を予め定義する事なく、「入力属性が入力属性条件を満たす」、例えば「入力属性が閾値以下」あるいは「入力属性が閾値を超える」といった非常に簡潔な形で、問題事象である特定の出力属性条件(問題事象)が発生する要因を導き出すことが可能となる。   In addition, without pre-defining the label hierarchy, the problem event can be expressed in a very simple form such as “input attribute satisfies the input attribute condition”, for example, “input attribute is below threshold” or “input attribute exceeds threshold”. It is possible to derive a factor that causes a specific output attribute condition (problem event).

以上のことから、本発明は、データ分析の効率化を図ることができるという効果を奏する。また、本発明の入力属性決定装置、入力属性決定方法、入力属性決定プログラムおよびそれを記録した記録媒体は、良品と不良品とを切り分ける入力属性の条件を高い確度で決定をすることができるという効果を奏する。   From the above, the present invention has an effect that the efficiency of data analysis can be improved. Further, the input attribute determination device, the input attribute determination method, the input attribute determination program, and the recording medium on which the input attribute determination method of the present invention can determine the input attribute conditions for separating good products from defective products with high accuracy. There is an effect.

〔実施の形態1〕
次に、本発明の一実施形態を以下に説明する。
[Embodiment 1]
Next, an embodiment of the present invention will be described below.

まず、本実施形態のデータ分析装置100、および、その構成要素である入力属性条件決定装置100Aを図13に基づいて説明する。図13に示すように、データ分析装置100は、基本データ群格納部102、文字−数値データ変換部(数値変換手段)1、分類条件設定部(分類条件設定手段)103、データ分類部(分類手段)104、分類後基本データ群格納部105、分析データ群抽出部(分析データ群抽出手段)106、データ行分離部107、データ列抽出部5、頻度演算部(頻度演算手段)6、頻度累積差演算部(差分演算手段)7、閾値決定部(閾値決定手段)130、極性判定部(極性判定手段)131、入力属性条件決定部(入力属性条件決定手段)111、不良品分離度演算部(第2データ群分離度演算手段)112、第1の要因抽出部(第1の要因抽出手段)109、頻度累積比率演算部(分割ルール評価手段)16、データ分割部(分割手段)115、終了条件判定部(終了条件判定手段)11、要因決定部117、複合要因不良数計算部118、数値−文字データ変換部119、分析結果データ格納部14、および出力部15を備えている。   First, the data analysis apparatus 100 of this embodiment and the input attribute condition determination apparatus 100A that is a component thereof will be described with reference to FIG. As shown in FIG. 13, the data analysis apparatus 100 includes a basic data group storage unit 102, a character-numeric data conversion unit (numeric conversion unit) 1, a classification condition setting unit (classification condition setting unit) 103, and a data classification unit (classification). Means) 104, basic data group storage unit 105 after classification, analysis data group extraction unit (analysis data group extraction unit) 106, data row separation unit 107, data string extraction unit 5, frequency calculation unit (frequency calculation unit) 6, frequency Cumulative difference calculation unit (difference calculation unit) 7, threshold determination unit (threshold determination unit) 130, polarity determination unit (polarity determination unit) 131, input attribute condition determination unit (input attribute condition determination unit) 111, defective product separation degree calculation Part (second data group separation degree calculating means) 112, first factor extracting part (first factor extracting means) 109, frequency cumulative ratio calculating part (division rule evaluating means) 16, data dividing part (dividing means) 1 5, an end condition determination unit (end condition determination unit) 11, a factor determination unit 117, a complex factor defect number calculation unit 118, a numerical value-character data conversion unit 119, an analysis result data storage unit 14, and an output unit 15. .

上記のデータ分析装置100(図13)の中で、データ行分離部107、データ列抽出部5、頻度演算部(頻度演算手段)6、頻度累積差演算部(差分演算手段)7、閾値決定部(閾値決定手段)130、極性判定部(極性判定手段)131、および、入力属性条件決定部(入力属性条件決定手段)111が、入力属性条件決定装置100Aを構成する。   In the data analysis apparatus 100 (FIG. 13), the data row separation unit 107, the data string extraction unit 5, the frequency calculation unit (frequency calculation unit) 6, the frequency cumulative difference calculation unit (difference calculation unit) 7, and the threshold value determination The unit (threshold determination unit) 130, the polarity determination unit (polarity determination unit) 131, and the input attribute condition determination unit (input attribute condition determination unit) 111 constitute an input attribute condition determination device 100A.

基本データ群格納部102は、実施の形態2のデータ分析装置における分析対象データ格納部2と同一の機能を有するものであり、基本データ群DAを格納しているハードディスク等の記憶装置である。   The basic data group storage unit 102 has the same function as the analysis target data storage unit 2 in the data analysis apparatus according to the second embodiment, and is a storage device such as a hard disk that stores the basic data group DA.

文字−数値データ変換部1は、実施の形態2と同様、数値でない入力属性と出力属性とで構成されるデータの集合である基本データ群DAに対し、数値属性である入力属性x1,x2,x3,x4と出力属性yとで構成されるデータの集合である基本データ群DA0が得られるように、入力属性を数値に変換する処理を行うものである。   As in the second embodiment, the character-numeric data conversion unit 1 performs input attributes x1, x2, which are numerical attributes, on a basic data group DA which is a set of data composed of non-numeric input attributes and output attributes. A process of converting input attributes into numerical values is performed so that a basic data group DA0 that is a set of data composed of x3, x4 and output attribute y is obtained.

分類条件設定部103は、実施の形態2のデータ分析装置における閾値設定部3に代わるものであり、出力属性yの閾値ythに代えて出力属性yの分類条件を設定する。 The classification condition setting unit 103 replaces the threshold value setting unit 3 in the data analysis apparatus according to the second embodiment, and sets the classification condition of the output attribute y instead of the threshold value y th of the output attribute y.

データ分類部104、分類後基本データ群格納部105、およびデータ行分離部107は、実施の形態2のデータ分析装置におけるデータ分類部4に代わるものである。   The data classification unit 104, the basic data group storage unit 105 after classification, and the data row separation unit 107 replace the data classification unit 4 in the data analysis apparatus according to the second embodiment.

データ分類部104は、分類条件設定部103で設定された分類条件に基づいて、基本データ群DA0を、出力属性yの値に依って、良品の第1データ群DA1と不良品の第2データ群DA2とに分類し、その分類結果を表す分類フラグを各データに付与するものである。   Based on the classification condition set by the classification condition setting unit 103, the data classifying unit 104 determines the basic data group DA0 based on the value of the output attribute y and the first data group DA1 for good products and the second data for defective products. The data is classified into the group DA2, and a classification flag indicating the classification result is assigned to each data.

分類後基本データ群格納部105は、分類フラグが付与された基本データ群(DA00)を格納するハードディスク等の記憶装置である。   The post-classification basic data group storage unit 105 is a storage device such as a hard disk that stores the basic data group (DA00) to which the classification flag is assigned.

分析データ群抽出部106は、分類後基本データ群DA00の中で分析対象とする分析データ群DA00’を抽出するものである。分析データ群抽出部106は、データ分割部115で分割されたデータ群のうち、他データ群を次の分析データ群DA00’(新たな分析データ群)として抽出する。なお、分析データ群抽出部106は、データ分割部115で分割されたデータ群の全てを次の分析データ群DA00’として抽出してもよい。   The analysis data group extraction unit 106 extracts an analysis data group DA00 'to be analyzed from the classified basic data group DA00. The analysis data group extraction unit 106 extracts another data group from the data group divided by the data division unit 115 as the next analysis data group DA00 '(new analysis data group). The analysis data group extraction unit 106 may extract all the data groups divided by the data division unit 115 as the next analysis data group DA00 '.

データ行分離部107は、分析データ群DA00’のデータを各々の分類フラグに基づいて2分化し、良品の第1データ群DA1および不良品の第2データ群DA2を抽出するものである。   The data row separation unit 107 divides the data of the analysis data group DA00 'into two based on the respective classification flags, and extracts the first data group DA1 for good products and the second data group DA2 for defective products.

データ列抽出部5は、良品の第1データ群DA1から、入力属性xjの各々のデータ列である1−xjデータ群を抽出し、また、不良品の第2データ群DA2から、入力属性xjの各々のデータ列である2−xjデータ群を抽出するものである。   The data string extraction unit 5 extracts a 1-xj data group that is each data string of the input attribute xj from the first non-defective data group DA1, and also inputs the input attribute xj from the second data group DA2 of defective products. The 2-xj data group which is each data string is extracted.

頻度演算部6および頻度累積差演算部7は、実施の形態2のデータ分析装置における頻度演算部6および頻度累積差演算部7と同一の機能を有するものである。   The frequency calculation unit 6 and the frequency cumulative difference calculation unit 7 have the same functions as the frequency calculation unit 6 and the frequency cumulative difference calculation unit 7 in the data analysis apparatus of the second embodiment.

頻度演算部6は、データ列抽出部5で抽出された1−xjデータ群および2−xjデータ群を用い、入力属性xjの個々の数値について、良品の第1データ群中において、入力属性xjがその数値以下であるデータ個数の割合である第1の頻度(1−xj頻度累積%)と、不良品の第2データ群中において、入力属性xjがその数値以下であるデータ個数の割合である第2の頻度(2−xj頻度累積%)とを計算するものである。   The frequency calculation unit 6 uses the 1-xj data group and the 2-xj data group extracted by the data string extraction unit 5, and uses the input attribute xj for each numerical value of the input attribute xj in the first non-defective data group. The first frequency (1-xj frequency cumulative%) that is the ratio of the number of data that is less than or equal to the numerical value and the ratio of the number of data that the input attribute xj is less than or equal to the numerical value in the second data group of defective products A certain second frequency (2-xj frequency cumulative%) is calculated.

頻度累積差演算部7は、入力属性xjの各値に対して、1−xj頻度累積%と2−xj頻度累積%との差分を表す、xj頻度累積差%を計算するものである。   The frequency cumulative difference calculation unit 7 calculates an xj frequency cumulative difference% representing a difference between the 1-xj frequency cumulative% and the 2-xj frequency cumulative% for each value of the input attribute xj.

閾値決定部130は、実施の形態2のデータ分析装置における入力属性閾値決定部8と同一の機能を有するものであり、各入力属性xjについて、それぞれ、入力属性xjの個々の値に対するxj頻度累積差%の中で、その値が最大となる入力属性xjの値を、第1データ群DA1と第2データ群DA2とがそれぞれまとまるように分析データ群DA00’を2分化するための入力属性xjの閾値xj−thとして決定するものである。   The threshold value determination unit 130 has the same function as the input attribute threshold value determination unit 8 in the data analysis apparatus of the second embodiment, and for each input attribute xj, xj frequency accumulation for each value of the input attribute xj, respectively. The input attribute xj for dividing the analysis data group DA00 ′ into two parts so that the first data group DA1 and the second data group DA2 are combined with the value of the input attribute xj having the maximum value in the difference%. The threshold value xj-th is determined.

極性判定部131は、閾値決定部130で決定された閾値xj−thにおける、第1の頻度(1−xj頻度累積%)と第2の頻度(2−xj頻度累積%)との大小関係を判定するものである。   The polarity determination unit 131 determines the magnitude relationship between the first frequency (1-xj frequency cumulative%) and the second frequency (2-xj frequency cumulative%) in the threshold value xj-th determined by the threshold value determination unit 130. Judgment.

入力属性条件決定部111は、分析データ群DA00’中で入力属性条件を満たすデータ群に不良品の第2データ群DA2がまとまり、入力属性条件を満たさないデータ群に良品の第1データ群DA1がまとまるように、極性判定部131により第1の頻度が第2の頻度より大きいと判定された場合には、入力属性条件を「入力属性xjが閾値xj−thを超える」という条件に決定し、極性判定部131により第2の頻度が第1の頻度より大きいと判定された場合には、入力属性条件を「入力属性xjが閾値xj−th以下」という条件に決定するものである。   The input attribute condition determining unit 111 collects the defective second data group DA2 in the data group that satisfies the input attribute condition in the analysis data group DA00 ′, and sets the nondefective first data group DA1 in the data group that does not satisfy the input attribute condition. When the polarity determination unit 131 determines that the first frequency is greater than the second frequency, the input attribute condition is determined as a condition that “the input attribute xj exceeds the threshold value xj−th”. When the polarity determination unit 131 determines that the second frequency is greater than the first frequency, the input attribute condition is determined to be a condition that “the input attribute xj is equal to or less than the threshold value xj−th”.

不良品分離度演算部112は、入力属性条件決定部111で決定された入力属性条件の各々について、分類後基本データ群DA00中で該入力属性条件を満たすデータの中に不良品の第2データ群DA2が含まれる割合を表す不良品分離度を演算するものである。   For each of the input attribute conditions determined by the input attribute condition determination unit 111, the defective product separation degree calculation unit 112 includes second data of defective products in the data satisfying the input attribute condition in the classified basic data group DA00. The defective product separation degree representing the proportion of the group DA2 is calculated.

第1の要因抽出部109は、入力属性条件決定部111で決定された入力属性条件の中で、分類後基本データ群DA00中の第2データ群DA2の割合を表す不良品含有率よりも大きい値の不良品分離度をもつ入力属性条件を、不良品の第2データ群DA2に対応する出力属性条件の要因を示す情報として抽出するものである。   The first factor extraction unit 109 is larger than the defective content rate indicating the ratio of the second data group DA2 in the post-classification basic data group DA00 among the input attribute conditions determined by the input attribute condition determination unit 111. The input attribute condition having the value defective product separation degree is extracted as information indicating the factor of the output attribute condition corresponding to the second data group DA2 of the defective product.

頻度累積比率演算部16は、実施の形態2と同様、入力属性条件決定部111で決定された入力属性条件の各々について、ルール評価値を演算するものである。ただし、本実施形態の頻度累積比率演算部16は、実施の形態2のように2種類のルール評価値を計算するのではなく、頻度累積下比率または頻度累積上比率(後述)を、「入力属性が入力属性条件を満たせば、分析データ群DA00’中の第2データ群DA2に含まれるデータである」という相関ルールの確からしさを表す分割ルール評価値として計算するものである。   Similar to the second embodiment, the frequency cumulative ratio calculation unit 16 calculates a rule evaluation value for each of the input attribute conditions determined by the input attribute condition determination unit 111. However, the frequency cumulative ratio calculation unit 16 of the present embodiment does not calculate two types of rule evaluation values as in the second embodiment, but instead calculates a frequency cumulative lower ratio or a frequency cumulative upper ratio (described later) as “input. If the attribute satisfies the input attribute condition, it is calculated as a division rule evaluation value representing the probability of the association rule “the data is included in the second data group DA2 in the analysis data group DA00 ′”.

データ分割部115は、実施の形態2のデータ分析装置における要因未発見データ抽出部10に対応するものであり、入力属性条件決定部111で決定された入力属性条件の中から、上記分割ルール評価値の値が最大となる入力属性条件を抽出し、分析データ群DA00’を、該入力属性条件を満たす要因データ群と該入力属性条件を満たさない他データ群とに分割するものである。   The data dividing unit 115 corresponds to the factor-undiscovered data extracting unit 10 in the data analysis apparatus according to the second embodiment, and the above-described division rule evaluation is selected from the input attribute conditions determined by the input attribute condition determining unit 111. The input attribute condition that maximizes the value is extracted, and the analysis data group DA00 ′ is divided into a factor data group that satisfies the input attribute condition and another data group that does not satisfy the input attribute condition.

要因決定部117は、第1の要因抽出部109の繰り返しの処理で抽出された、同一の入力属性に関する複数の入力属性条件のうちで、優先度の高い入力属性条件のみを選択するものである。   The factor determination unit 117 selects only an input attribute condition having a high priority from among a plurality of input attribute conditions related to the same input attribute extracted by the repetition process of the first factor extraction unit 109. .

複合要因不良数計算部118は、要因決定部117で選択された入力属性条件のうちの、2つの条件の複合要因による不良数を計算するものである。   The complex factor defect count calculation unit 118 calculates the number of defects due to the complex factor of two conditions among the input attribute conditions selected by the factor determination unit 117.

数値−文字データ変換部119は、決定された要因を表す情報、例えば後述する決定要因一覧テーブルや複合要因テーブルにおける入力属性閾値xj−thの数値を文字データに変換するものである。   The numerical value-character data conversion unit 119 converts information representing the determined factor, for example, the numerical value of the input attribute threshold value xj-th in the determination factor list table and the composite factor table described later into character data.

次に、表1のデータ群DAを基本データ群とする場合を例として、本実施形態のデータ分析方法および入力属性条件決定方法を図14および図15に基づいて説明する。なお、図14は、本実施形態のデータ分析方法を示すフローチャートであり、図15は、図14のステップ107の処理(後述する)に対応する本実施形態の入力属性条件決定方法を示すフローチャートである。   Next, the data analysis method and the input attribute condition determination method of the present embodiment will be described with reference to FIGS. 14 and 15 by taking the data group DA of Table 1 as a basic data group as an example. FIG. 14 is a flowchart showing the data analysis method of this embodiment, and FIG. 15 is a flowchart showing the input attribute condition determination method of this embodiment corresponding to the processing of step 107 of FIG. 14 (described later). is there.

Figure 0004298531
Figure 0004298531

表1の基本データ群DAは、ハードディスク等の基本データ群格納部102に格納されており、1〜12のid(識別子)を持つ12個のデータから構成されている。表1において、x1,x2,x3,x4は入力属性である。入力属性x1は4つの文字A,B,C,Dのいずれかをとる文字属性である。入力属性x2は4つの文字a,b,c,dのいずれかをとる文字属性である。入力属性x3は4つの離散値1,2,3,4のいずれかをとる離散属性である。入力属性x4は4つの離散値10,20,30,40のいずれかをとる離散属性である。なお、入力属性は、文字属性、離散の数値属性、連続の数値属性の何れでもよい。   The basic data group DA in Table 1 is stored in the basic data group storage unit 102 such as a hard disk, and is composed of 12 pieces of data having ids (identifiers) of 1 to 12. In Table 1, x1, x2, x3, and x4 are input attributes. The input attribute x1 is a character attribute that takes one of four characters A, B, C, and D. The input attribute x2 is a character attribute that takes one of the four characters a, b, c, and d. The input attribute x3 is a discrete attribute that takes one of four discrete values 1, 2, 3, and 4. The input attribute x4 is a discrete attribute taking any one of four discrete values 10, 20, 30, and 40. The input attribute may be any of a character attribute, a discrete numerical attribute, and a continuous numerical attribute.

また、表1において、yは出力属性である。出力属性は、文字属性、離散の数値属性、連続の数値属性の何れでもよいが、ここでは、3つの文字X,Y,Zのいずれかをとる文字属性である。   In Table 1, y is an output attribute. The output attribute may be any of a character attribute, a discrete numerical attribute, and a continuous numerical attribute. Here, the output attribute is a character attribute that takes one of the three characters X, Y, and Z.

本実施形態のデータ分析方法では、y=Yなる場合を問題事象として、出力属性yがYとなる要因を分析する。   In the data analysis method of the present embodiment, the case where y = Y is regarded as a problem event, and the cause of the output attribute y being Y is analyzed.

なお、基本データ群DAの例としては、例えば、入力属性が、製品の製造工程における製造プロセス条件および/またはインライン検査結果(製造ライン途中での検査結果)、出力属性が製品の品質判定結果、y=Yなる問題事象が品質判定結果の不良であるデータが挙げられる。この場合、本実施形態のデータ分析方法により入力属性と出力属性との因果関係を分析し、y=Yなる問題事象の要因を導き出すことで、不良品の発生を解消する対策を容易に図ることが可能となる。したがって、歩留まりの向上等のような製造プロセスの改善を容易に図ることが可能となる。   As an example of the basic data group DA, for example, the input attribute is the manufacturing process condition and / or in-line inspection result (inspection result during the manufacturing line) in the product manufacturing process, the output attribute is the product quality determination result, Data in which the problem event y = Y is a bad quality determination result is exemplified. In this case, by analyzing the causal relationship between the input attribute and the output attribute by the data analysis method of this embodiment and deriving the cause of the problem event y = Y, it is possible to easily take measures to eliminate the occurrence of defective products. Is possible. Therefore, it is possible to easily improve the manufacturing process such as improvement in yield.

基本データ群DAのより具体的な例としては、例えば、入力属性x1、x2、x3、x4が、プラズマCVDプロセスの、ガス流量、ガス圧力、投入電力、成膜時間などのプロセスデータで、出力属性yが、形成される薄膜の膜厚であるようなデータが挙げられる。また、これら入力属性および出力属性の値は、連続の数値属性、離散の数値属性、文字属性の何れであってもよい。文字属性の場合には、例えば、出力属性が膜厚の例で、‘大’、‘中’、‘小’といった具合に表現される。   As a more specific example of the basic data group DA, for example, input attributes x1, x2, x3, and x4 are process data such as gas flow rate, gas pressure, input power, and film formation time of plasma CVD process, and output. Data in which the attribute y is the film thickness of the thin film to be formed can be mentioned. The values of the input attribute and the output attribute may be any of a continuous numerical attribute, a discrete numerical attribute, and a character attribute. In the case of the character attribute, for example, the output attribute is an example of the film thickness, and is expressed as “large”, “medium”, and “small”.

[ステップ100]
まず、文字−数値データ変換部1が、ハードディスク等の基本データ群格納部102に格納された表1の基本データ群DAにおける文字属性を、下記の変換ルールに従って数値属性(数値データ)に変換する(S100)。このステップ100での処理は、実施の形態2のデータ分析方法におけるステップ0での処理と同様である。
(x1)A→1、B→2、C→3、D→4
(x2)a→1、b→2、c→3、d→4
(x3)変換せず
(x4)変換せず
(y)X→1、Y→2、Z→3
なお、基本データ群DAの入力属性および出力属性が、元々数値属性である場合には、この処理は省略される。したがって、基本データ群DAの入力属性および出力属性が元々数値属性である場合には、文字−数値データ変換部1は省略可能である。
[Step 100]
First, the character-numeric data conversion unit 1 converts the character attributes in the basic data group DA of Table 1 stored in the basic data group storage unit 102 such as a hard disk into numeric attributes (numeric data) according to the following conversion rules. (S100). The processing at step 100 is the same as the processing at step 0 in the data analysis method of the second embodiment.
(X1) A → 1, B → 2, C → 3, D → 4
(X2) a → 1, b → 2, c → 3, d → 4
(X3) No conversion (x4) No conversion (y) X → 1, Y → 2, Z → 3
Note that this processing is omitted when the input attribute and output attribute of the basic data group DA are originally numerical attributes. Therefore, when the input attribute and output attribute of the basic data group DA are originally numeric attributes, the character-numeric data conversion unit 1 can be omitted.

上記処理により、各データは、数値データに変換される。そして、文字−数値データ変換部1は、変換されたデータ群DA0をデータ分類部104に送る。   Through the above processing, each data is converted into numerical data. Then, the character-numeric data conversion unit 1 sends the converted data group DA0 to the data classification unit 104.

ここで、上記変換ルールは、可能な限り、変換後の入力属性の数値が大きいほど出力属性の数値が大きくなるように、あるいはその逆順となるように設定される事が好ましいが、一義性さえあればよく上記の例に限らない。上記変換ルールにて数値データに変換されたデータ群DA0は、表2に示す通りである。   Here, it is preferable that the above conversion rule is set so that the numerical value of the output attribute increases as the input attribute value after conversion becomes larger as much as possible, or vice versa. There is no limitation to the above example. The data group DA0 converted into numerical data by the conversion rule is as shown in Table 2.

Figure 0004298531
Figure 0004298531

この変換により得られたデータ群DA0は、数値属性からなる、複数の入力属性(説明属性)と出力属性(目的属性)とで構成されるデータの集合となる。以下、データ群DA0も基本データ群と呼ぶ事にする。   The data group DA0 obtained by this conversion is a set of data composed of a plurality of input attributes (description attributes) and output attributes (target attributes), each consisting of a numerical attribute. Hereinafter, the data group DA0 is also referred to as a basic data group.

[ステップ101]
分類条件設定部103は、予め定められた設定情報に従って、あるいは使用者が図示しないキーボードやマウス等の入力部から問題事象の属性値y=Yを入力したことに応答して、基本データ群DAのy=Yなる問題事象に対応する基本データ群DA0の出力属性yの分類条件を設定し、データ分類部104に出力する(S101)。この例においては、基本データ群DAのy=Yなる問題事象に対応する基本データ群DA0の出力属性yの分類条件は、y=2である。このステップ101での処理は、出力属性yの閾値ythではなく出力属性yの分類条件を設定する点以外は、実施の形態2のデータ分析方法におけるステップ1での処理と同様である。
[Step 101]
The classification condition setting unit 103 performs basic data group DA in accordance with predetermined setting information or in response to a user inputting a problem event attribute value y = Y from an input unit such as a keyboard or a mouse (not shown). The classification condition of the output attribute y of the basic data group DA0 corresponding to the problem event y = Y is set and output to the data classification unit 104 (S101). In this example, the classification condition of the output attribute y of the basic data group DA0 corresponding to the problem event y = Y of the basic data group DA is y = 2. The processing in step 101 is the same as the processing in step 1 in the data analysis method of the second embodiment, except that the classification condition of the output attribute y is set instead of the threshold y th of the output attribute y.

[ステップ102]
次に、データ分類部104が、基本データ群DA0の出力属性yの値と、分類条件設定部103から出力された分類条件(下記の比較論理(1)(2))とに基づいて、基本データ群DA0を、第1データ群DA1と第2データ群DA2とに分類する(S102)。
[Step 102]
Next, based on the value of the output attribute y of the basic data group DA0 and the classification condition (the following comparison logic (1) (2)) output from the classification condition setting unit 103, the data classification unit 104 The data group DA0 is classified into a first data group DA1 and a second data group DA2 (S102).

(1)y≠2→DA1
(2)y=2→DA2
この場合、比較論理(1)、すなわち「y≠2」が、基本データ群DAのy≠Yなる事象(問題事象でない事象;以下、「非問題事象」と称する)に対応する分類条件であり、比較論理(2)、すなわち「y=2」が、基本データ群DAのy=Yなる問題事象(以下、単に「問題事象」と称する)に対応する分類条件である。
(1) y ≠ 2 → DA1
(2) y = 2 → DA2
In this case, the comparison logic (1), that is, “y ≠ 2” is a classification condition corresponding to an event of y ≠ Y in the basic data group DA (an event that is not a problem event; hereinafter referred to as “non-problem event”). The comparison logic (2), that is, “y = 2” is the classification condition corresponding to the problem event y = Y (hereinafter simply referred to as “problem event”) in the basic data group DA.

そして、表3に示すように、各々のデータ群に対応する分類フラグ(「DA1」または「DA2」)を付与する(S102)。以下、表3のデータ群を、分類後基本データ群DA00と呼ぶ。   Then, as shown in Table 3, a classification flag (“DA1” or “DA2”) corresponding to each data group is assigned (S102). Hereinafter, the data group in Table 3 is referred to as a post-classification basic data group DA00.

Figure 0004298531
Figure 0004298531

分類後基本データ群DA00は、ハードディスク等の分類後基本データ群格納部105に保存される。   The post-classification basic data group DA00 is stored in the post-classification basic data group storage unit 105 such as a hard disk.

ここで、第2データ群DA2は問題事象(例えば、デバイス特性不良など)を表すデータ群である。すなわち、第2データ群DA2は出力属性yが問題事象を表す属性値(2)であるデータ群であり、第1データ群DA1は出力属性yが問題事象を表していない属性値(1または3)であるデータ群である。   Here, the second data group DA2 is a data group representing a problem event (for example, a device characteristic failure or the like). That is, the second data group DA2 is a data group whose output attribute y is an attribute value (2) representing a problem event, and the first data group DA1 is an attribute value (1 or 3) whose output attribute y does not represent a problem event. ).

このステップ102での処理は、基本データ群DA0を第1データ群DA1と第2データ群DA2とに分類した後に、基本データ群DA0を第1データ群DA1と第2データ群DA2とに2分化するのではなく、第1データ群DA1および第2データ群DA2に対応する分類フラグを付与する点以外は、実施の形態2のデータ分析方法におけるステップ2での処理と同様である。   The processing in this step 102 classifies the basic data group DA0 into the first data group DA1 and the second data group DA2, and then divides the basic data group DA0 into the first data group DA1 and the second data group DA2. This is the same as the processing in step 2 in the data analysis method of the second embodiment, except that the classification flags corresponding to the first data group DA1 and the second data group DA2 are assigned.

なお、データ分類部104による分類は、上記論理に限らず、出力属性閾値ythに基づく論理、例えば下記のような論理(1’)(2’)に基づいて行ってもよい。 The classification by the data classification unit 104 is not limited to the above logic, and may be performed based on the logic based on the output attribute threshold y th , for example, the following logic (1 ′) (2 ′).

(1’)y>yth→DA1
(2’)y≦yth→DA2
この場合、比較論理(1’)、すなわち「y>yth」が、非問題事象に対応する分類条件であり、比較論理(2’)、すなわち「y≦yth」が、問題事象に対応する分類条件である。
(1 ') y> y th → DA1
(2 ′) y ≦ y th → DA2
In this case, the comparison logic (1 ′), that is, “y> y th ” is the classification condition corresponding to the non-problem event, and the comparison logic (2 ′), that is, “y ≦ y th ” corresponds to the problem event. This is a classification condition.

また、データ分類部104による分類は、複数の条件の論理和または論理積に基づく論理、例えば下記のような論理(1’’)(2’’)に基づいて行ってもよい。   Further, the classification by the data classification unit 104 may be performed based on the logic based on the logical sum or logical product of a plurality of conditions, for example, the following logic (1 ″) (2 ″).

(1’’)yth1<y≦yth2→DA1
(yth1<y AND y≦yth2
ここで、yth1,th2は、yth1<yth2を満たす出力属性閾値である
(2’’)y≦yth1 OR y>yth2→DA2
この場合、比較論理(1’’)、すなわち「yth1<y≦yth2」が、非問題事象に対応する分類条件であり、比較論理(2’’)、すなわち「y≦yth1 OR y>yth2」が、問題事象に対応する分類条件である。
(1 ″) y th1 <y ≦ y th2 → DA1
(Y th1 <y AND y ≦ y th2 )
Here, y th1 and y th2 are output attribute threshold values satisfying y th1 <y th2 (2 ″) y ≦ y th1 OR y> y th2 → DA2
In this case, the comparison logic (1 ″), that is, “y th1 <y ≦ y th2 ” is the classification condition corresponding to the non-problem event, and the comparison logic (2 ″), that is, “y ≦ y th1 OR y > Y th2 ”is the classification condition corresponding to the problem event.

さらに、基本データ群DA0が複数の出力属性(例えば、複数種類の検査の結果)を含む場合、データ分類部104による分類は、各々の出力属性y,yに対して分類条件設定部103で設定された複数の分類条件の論理和または論理積に基づく論理、例えば、下記のような論理(1’’’)(2’’’)に基づいて行ってもよい。 Further, when the basic data group DA0 includes a plurality of output attributes (for example, results of a plurality of types of inspections), the classification by the data classification unit 104 is performed on the classification condition setting unit 103 for each of the output attributes y 1 and y 2 . It may be performed based on the logic based on the logical sum or logical product of the plurality of classification conditions set in (1), for example, the following logic (1 ′ ″) (2 ′ ″).

(1’’’)y≦yth1 OR y>yth2→DA1
(2’’’)y>yth1 AND y≦yth2→DA2
この場合、比較論理(1’’)、すなわち「y≦yth1 OR y>yth2」が、非問題事象に対応する分類条件であり、比較論理(2’’)、すなわち「y>yth1 AND y≦yth2」が、問題事象に対応する分類条件である。
(1 ″ ′) y 1 ≦ y th1 OR y 2 > y th2 → DA1
(2 ″ ′) y 1 > y th1 AND y 2 ≦ y th2 → DA2
In this case, the comparison logic (1 ″), that is, “y 1 ≦ y th1 OR y 2 > y th2 ” is the classification condition corresponding to the non-problem event, and the comparison logic (2 ″), that is, “y 1 > Y th1 AND y 2 ≦ y th2 ”is the classification condition corresponding to the problem event.

また、複数の出力属性が存在する場合、データ分類部104による分類は、複数の出力属性y,yから選択した1つの出力属性yに対する論理、例えば、前記論理(1)(2)、前記論理(1’)(2’)、前記論理(1’’)(2’’)等に基づいて行ってもよい。 Further, when there are a plurality of output attributes, the classification by the data classification unit 104 is a logic for one output attribute y selected from the plurality of output attributes y 1 and y 2 , for example, the logic (1) (2), You may perform based on the said logic (1 ') (2'), the said logic (1 '') (2 ''), etc.

[ステップ103〜105]
分析データ群抽出部106が、分類後基本データ群DA00の中で分析対象とする分析データ群DA00’を抽出し、データ行分離部107に送る。
[Steps 103-105]
The analysis data group extraction unit 106 extracts the analysis data group DA00 ′ to be analyzed from the classified basic data group DA00 and sends it to the data row separation unit 107.

この1回目の処理では、分類後基本データ群DA00と同一のデータが分析データ群DA00’として抽出される(S105)が、後述する繰り返し処理の過程(2回目以降の処理)では、データ分割部115が出力する他データ群が抽出される(S104)。すなわち、ステップ103〜105では、分析データ群抽出部106が、1回目の処理である(それまでに分析データ群DA00’の抽出が行われていない)か否かを判断し(S103)、その結果に基づいて、1回目の処理である場合には分類後基本データ群DA00を、1回目の処理でない場合には他データ群をそれぞれ分析データ群DA00’として抽出する(S104・S105)。   In this first process, the same data as the post-classification basic data group DA00 is extracted as the analysis data group DA00 '(S105). However, in the process of repeated processing (the second and subsequent processes) described later, the data dividing unit The other data group output by 115 is extracted (S104). That is, in steps 103 to 105, the analysis data group extraction unit 106 determines whether or not it is the first process (the analysis data group DA00 ′ has not been extracted so far) (S103). Based on the result, the basic data group DA00 after classification is extracted as the analysis data group DA00 ′ in the case of the first process, and the other data group is extracted as the analysis data group DA00 ′ in the case of the first process (S104 and S105).

[ステップ106]
データ行分離部107が、分析データ群DA00’(1回目の処理においては、分類後基本データ群DA00:表3)における、第1データ群DA1および第2データ群DA2の各々の分類フラグに基づいて、分析データ群DA00’を2分化し、各々のデータ群、すなわち、第1データ群DA1および第2データ群DA2を抽出する(S106)。データ行分離部107から出力される第1データ群DA1を表4に、第2データ群DA2を表5に示す。
[Step 106]
The data row separation unit 107 is based on each classification flag of the first data group DA1 and the second data group DA2 in the analysis data group DA00 ′ (basic data group DA00 after classification in the first process: Table 3). Then, the analysis data group DA00 ′ is divided into two, and each data group, that is, the first data group DA1 and the second data group DA2 are extracted (S106). Table 4 shows the first data group DA1 output from the data row separation unit 107, and Table 5 shows the second data group DA2.

Figure 0004298531
Figure 0004298531

Figure 0004298531
Figure 0004298531

なお、以下では、適宜、第1データ群DA1を良品(OK品)データ群、第2データ群DA2を不良品(NG品)データ群と呼ぶ事にする。   In the following description, the first data group DA1 is appropriately referred to as a non-defective product (OK product) data group, and the second data group DA2 is referred to as a defective product (NG product) data group.

以上のステップ102〜105は、実施の形態2のデータ分析方法におけるステップ2に代わるものである。   The above steps 102 to 105 replace step 2 in the data analysis method of the second embodiment.

[ステップ107]
次に、入力属性条件決定装置100Aが、良品データ群DA1(第1データ群)と不良品データ群DA2(第2データ群)とがそれぞれまとまるように、具体的には、入力属性条件を満たすデータ群に不良品データ群DA2(第2データ群)がまとまり(偏り)、入力属性条件を満たさないデータ群に良品データ群DA1(第1データ群)がまとまる(偏る)ように、上記分析データ群DA00’を2分化するための入力属性の条件である、入力属性条件を決定する(S107)。入力属性条件を決定するステップS107は、図15に示すように、ステップS203〜S208を含んでいる。
[Step 107]
Next, the input attribute condition determining apparatus 100A specifically satisfies the input attribute condition so that the good product data group DA1 (first data group) and the defective product data group DA2 (second data group) are collected. The analysis data so that the defective data group DA2 (second data group) is grouped (biased) in the data group, and the non-defective data group DA1 (first data group) is grouped (biased) in the data group that does not satisfy the input attribute condition. An input attribute condition, which is an input attribute condition for bisecting the group DA00 ′, is determined (S107). Step S107 for determining the input attribute condition includes steps S203 to S208 as shown in FIG.

[ステップ203]
ステップ203では、まず、データ列抽出部5が、良品データ群DA1(表4)から、入力属性xj(1≦j≦4)の各々のデータ列を抽出する(S203)。このデータ列を1−xjデータ群と呼ぶ事にする。
[Step 203]
In step 203, first, the data string extraction unit 5 extracts each data string of the input attribute xj (1 ≦ j ≦ 4) from the non-defective product data group DA1 (Table 4) (S203). This data string is called a 1-xj data group.

同様に、データ列抽出部5は、不良品データ群DA2(表5)からも、入力属性xj(1≦j≦4)の各々のデータ列を抽出する(S203)。このデータ列を2−xjデータ群と呼ぶ事にする。   Similarly, the data string extraction unit 5 extracts each data string of the input attribute xj (1 ≦ j ≦ 4) from the defective product data group DA2 (Table 5) (S203). This data string is called a 2-xj data group.

1−xjデータ群を表6〜表9に、2−xjデータ群を表10〜表13に示す。このステップ203での処理は、実施の形態2のデータ分析方法におけるステップ3での処理と同一である。   The 1-xj data group is shown in Tables 6 to 9, and the 2-xj data group is shown in Tables 10 to 13. The processing at step 203 is the same as the processing at step 3 in the data analysis method of the second embodiment.

Figure 0004298531
Figure 0004298531

Figure 0004298531
Figure 0004298531

Figure 0004298531
Figure 0004298531

Figure 0004298531
Figure 0004298531

Figure 0004298531
Figure 0004298531

Figure 0004298531
Figure 0004298531

Figure 0004298531
Figure 0004298531

Figure 0004298531
Figure 0004298531

[ステップ204]
頻度演算部6は、ステップ203で良品データ群DA1から抽出された1−xjデータ群の各々、およびステップ203で不良品データ群DA2から抽出された2−xjデータ群の各々を、入力属性xjの値で昇順に行を並べ替える(並べ替え処理1)。そして、入力属性xjの個々の数値について、良品データ群DA1中において、入力属性xjがその数値以下であるデータ個数の割合を表す1−xj頻度累積%(第1の頻度)と、不良品データ群DA2中において、入力属性xjがその数値以下であるデータ個数の割合を表す2−xj頻度累積%(第2の頻度)とを計算する(S204)。
[Step 204]
The frequency calculation unit 6 inputs each of the 1-xj data group extracted from the non-defective product data group DA1 in step 203 and each of the 2-xj data group extracted from the defective product data group DA2 in step 203 to the input attribute xj. The rows are rearranged in ascending order with the value of (reordering process 1). For each numerical value of the input attribute xj, 1-xj frequency cumulative% (first frequency) representing the ratio of the number of data whose input attribute xj is equal to or less than the numerical value in the non-defective product data group DA1, and defective product data In the group DA2, 2-xj frequency cumulative% (second frequency) representing the ratio of the number of data whose input attribute xj is equal to or less than the numerical value is calculated (S204).

ここでは、表6〜表9のデータ群を入力属性xjの値で昇順に並べ替えた表14〜表17を用い、各行(id)のデータについて表中でそのデータの位置以上の位置にあるデータ個数の、第1データ群の全データ数(=8)に対する割合を1−xj頻度累積%として計算している。同様に、表10〜表13を入力属性xjの値で昇順に並べ替えた表18〜表21を用い、各行(id)のデータについて表中でそのデータの位置以上の位置にあるデータ個数の、第2データ群の全データ数(=4)に対する割合を2−xj頻度累積%として計算している。   Here, Tables 14 to 17 in which the data groups in Tables 6 to 9 are rearranged in ascending order by the value of the input attribute xj are used, and the data of each row (id) is in a position higher than the position of the data in the table. The ratio of the number of data to the total number of data (= 8) in the first data group is calculated as 1-xj frequency cumulative%. Similarly, using Table 18 to Table 21 in which Table 10 to Table 13 are rearranged in ascending order by the value of the input attribute xj, the number of data in each row (id) is equal to or greater than the position of the data in the table. The ratio of the second data group to the total number of data (= 4) is calculated as 2-xj frequency cumulative%.

ここで計算した1−xj頻度累積%および2−xj頻度累積%の値を表14〜表21に示す。   The values of 1-xj frequency cumulative% and 2-xj frequency cumulative% calculated here are shown in Tables 14 to 21.

Figure 0004298531
Figure 0004298531

Figure 0004298531
Figure 0004298531

Figure 0004298531
Figure 0004298531

Figure 0004298531
Figure 0004298531

Figure 0004298531
Figure 0004298531

Figure 0004298531
Figure 0004298531

Figure 0004298531
Figure 0004298531

Figure 0004298531
Figure 0004298531

さらに、頻度演算部6は、1−xj頻度累積%が計算された良品データ群である1−xjデータ群のテーブルと、2−xj頻度累積%が計算された不良品データ群である2−xjデータ群のテーブルとを結合する(結合処理)。具体的には、入力属性x1について、表14と表18とを結合して表22のx1頻度累積テーブルを、入力属性x2について、表15と表19とを結合して表23のx2頻度累積テーブルを、入力属性x3について、表16と表20とを結合して表24のx3頻度累積テーブルを、入力属性x4について、表17と表21とを結合して表25のx4頻度累積テーブルを、それぞれ作成する(S204)。   Further, the frequency calculation unit 6 is a table of 1-xj data groups that are non-defective product data groups for which 1-xj frequency cumulative% is calculated, and 2-items that are defective product data groups for which 2-xj frequency cumulative% is calculated. The table of the xj data group is joined (joining process). Specifically, for the input attribute x1, Table 14 and Table 18 are combined to generate the x1 frequency accumulation table in Table 22, and for the input attribute x2, Table 15 and Table 19 are combined to generate the x2 frequency accumulation in Table 23. For the input attribute x3, the table 16 and the table 20 are combined to generate the x3 frequency accumulation table in Table 24, and for the input attribute x4, the table 17 and the table 21 are combined to generate the x4 frequency accumulation table in the table 25. , Respectively (S204).

Figure 0004298531
Figure 0004298531

Figure 0004298531
Figure 0004298531

Figure 0004298531
Figure 0004298531

Figure 0004298531
Figure 0004298531

さらに、頻度演算部6は、表22〜表25の各々の頻度累積テーブルを、入力属性xjの値で昇順に行を並べ替える(並べ替え処理2)。並べ替え処理2の後、1−xj頻度累積%および2−xj頻度累積%の空欄に、上の空欄から順に、その直上の値(1行上のデータの値)を代入する(代入処理)。その後、入力属性xjにおいて同じ値が続いている行に対し、それらの行のうちの最終行のデータのみを採用する(重複処理)。こうして、表26〜表29に示すように、入力属性xjの各値に対して、良品データ群である第1データ群DA1中において、入力属性xjがその数値以下であるデータ個数の割合を表す1−xj頻度累積%(A;第1の頻度)と、不良品データ群である第2データ群DA2中において、入力属性xjがその数値以下であるデータ個数の割合を表す2−xj頻度累積%(B;第2の頻度)との双方が算出される(S204)。このステップ204での処理は、実施の形態2のデータ分析方法におけるステップ4での処理と同一である。   Further, the frequency calculation unit 6 rearranges the rows in the frequency accumulation tables of Tables 22 to 25 in ascending order by the value of the input attribute xj (sorting process 2). After the rearrangement process 2, the value immediately above (the value of the data on one line) is assigned to the blanks of 1-xj frequency accumulation% and 2-xj frequency accumulation% in order from the upper blank (substitution process). . Thereafter, only the data of the last line among the lines with the same value in the input attribute xj is adopted (duplicate processing). In this way, as shown in Tables 26 to 29, the ratio of the number of data whose input attribute xj is equal to or less than the numerical value in the first data group DA1 which is a non-defective data group is represented for each value of the input attribute xj. 1-xj frequency accumulation% (A; first frequency) and 2-xj frequency accumulation representing the ratio of the number of data whose input attribute xj is less than or equal to the numerical value in the second data group DA2, which is a defective product data group. % (B; second frequency) is calculated (S204). The processing in step 204 is the same as the processing in step 4 in the data analysis method of the second embodiment.

Figure 0004298531
Figure 0004298531

Figure 0004298531
Figure 0004298531

Figure 0004298531
Figure 0004298531

Figure 0004298531
Figure 0004298531

なお、上記ステップ203、204では、表26〜表29のxj頻度累積テーブルを作成するのに、データ列抽出処理(表6〜表13)→並べ替え処理1→1−xj頻度累積%および2−xj頻度累積%の計算処理(表14〜表21)→結合処理(表22〜表25)→並べ替え処理2→代入処理→重複処理(表26〜表29)を施していたが、これらの個別の処理を行わずに、直接的に、表26〜表29のxj頻度累積テーブルを作成するように、計算しても構わない。   In steps 203 and 204 described above, the xj frequency accumulation table of Table 26 to Table 29 is created in order to create a data string extraction process (Table 6 to Table 13) → rearrangement process 1 → 1−xj frequency accumulation% and 2 -Xj frequency cumulative% calculation processing (Table 14 to Table 21) → join processing (Table 22 to Table 25) → sort processing 2 → assignment processing → duplication processing (Table 26 to Table 29) The calculation may be performed so as to directly create the xj frequency accumulation table of Table 26 to Table 29 without performing the individual processing.

[ステップ205]
次に、頻度累積差演算部7が、入力属性xjの各値に対して、良品の1−xj頻度累積%(A)と不良品の2−xj頻度累積%(B)との差分(=|A−B|)を計算する(S205)。この差分値を、xj頻度累積差%と呼ぶ。xj頻度累積差%の計算結果を表30〜表33に示す。
[Step 205]
Next, the frequency accumulation difference calculation unit 7 calculates, for each value of the input attribute xj, a difference between 1-xj frequency accumulation% (A) of non-defective product and 2-xj frequency accumulation% (B) of defective product (= | A−B |) is calculated (S205). This difference value is referred to as xj frequency cumulative difference%. Tables 30 to 33 show the calculation results of the xj frequency cumulative difference%.

Figure 0004298531
Figure 0004298531

Figure 0004298531
Figure 0004298531

Figure 0004298531
Figure 0004298531

Figure 0004298531
Figure 0004298531

また、入力属性xjの値と、良品の1−xj頻度累積%(A)、不良品の2−xj頻度累積%(B)、xj頻度累積差%|A−B|との関係を図3〜図6に示す。   FIG. 3 shows the relationship between the value of the input attribute xj and the non-defective product 1-xj frequency cumulative% (A), the defective product 2-xj frequency cumulative% (B), and the xj frequency cumulative difference% | A-B |. To FIG.

入力属性xjの各数値に対するxj頻度累積差%は、入力属性xjがその数値以下の範囲と、入力属性xjがその数値を超える範囲との2分化によって、良品の第1データ群DA1と不良品の第2データ群DA2とがうまく切り分けられているかどうかを表す閾値評価指標であり、Giniインデックス法の改善度に相当するものである。   The xj frequency cumulative difference% with respect to each numerical value of the input attribute xj is divided into the first data group DA1 of defective products and the defective products by dividing into the range where the input attribute xj is less than the numerical value and the range where the input attribute xj exceeds the numerical value. Is a threshold evaluation index indicating whether or not the second data group DA2 is well separated, and corresponds to the improvement degree of the Gini index method.

すなわち、入力属性xjの各数値におけるxj頻度累積差%(=|A−B|)は、「入力属性xjがその数値以下であれば不良品の第2データ群に属するデータであり、入力属性xjがその数値を超えていれば良品の第1データ群に属するデータである」という相関ルール、または、「入力属性xjがその数値を超えていれば不良品の第2データ群に属するデータであり、入力属性xjがその数値以下であれば良品の第1データ群に属するデータである」という相関ルールの確からしさを表す。   That is, the xj frequency cumulative difference% (= | A−B |) in each numerical value of the input attribute xj is “data belonging to the second data group of defective products if the input attribute xj is equal to or smaller than the numerical value. A correlation rule that “if xj exceeds the numerical value, the data belongs to the first data group of non-defective products” or “if the input attribute xj exceeds the numerical value, the data belongs to the second data group of defective products. Yes, if the input attribute xj is less than or equal to the numerical value, it indicates the probability of the correlation rule that the data belongs to the first good data group.

なお、本実施形態による、「入力属性xjの値と、xj頻度累積差%|A−B|との関係」(図3〜図6)は、Giniインデックス法の「入力属性xjの分岐条件と、改善度との関係」(図20〜図23)と、同様の傾向を示している。   The “relationship between the value of the input attribute xj and the xj frequency cumulative difference% | A−B |” (FIGS. 3 to 6) according to the present embodiment is “the branch condition of the input attribute xj” in the Gini index method. , “Relationship with degree of improvement” (FIGS. 20 to 23).

このステップ205での処理は、実施の形態2のデータ分析方法におけるステップ5での処理と同一である。   The processing in step 205 is the same as the processing in step 5 in the data analysis method of the second embodiment.

[ステップ206〜208]
閾値決定部130が、各入力属性xjについて、それぞれ、入力属性xjの個々の値に対するxj頻度累積差%の中で、その値が最大となる入力属性xjの値を抽出する(S206)。このステップ206での処理は、実施の形態2のデータ分析方法におけるステップ6での処理と同一である。
[Steps 206 to 208]
The threshold value determination unit 130 extracts, for each input attribute xj, the value of the input attribute xj having the maximum value among the xj frequency cumulative difference% with respect to each value of the input attribute xj (S206). The processing in step 206 is the same as the processing in step 6 in the data analysis method of the second embodiment.

表30〜表33には、この抽出した値をグレーで示している。上記抽出された入力属性xjの値を入力属性閾値xj−thと呼ぶことにする。入力属性閾値xj−thは、図3〜図6を参照して分かるように、xj≦xj−thの範囲と、xj>xj−thの範囲との2分化によって、良品の第1データ群DA1と、不良品の第2データ群DA2との切分けが最も容易となる入力属性xjの値を示している。   In Tables 30 to 33, the extracted values are shown in gray. The value of the extracted input attribute xj will be referred to as an input attribute threshold value xj-th. As can be seen with reference to FIGS. 3 to 6, the input attribute threshold value xj-th is divided into a range of xj ≦ xj-th and a range of xj> xj-th, so that the non-defective first data group DA1. And the value of the input attribute xj that makes it easy to separate the defective product from the second data group DA2.

次に、極性判定部131が、各入力属性xjの閾値xj−thにおいて、良品の1−xj頻度累積%(A)と、不良品の2−xj頻度累積%(B)との大小関係を判定する(S207)。表30〜表33には、閾値xj−thにおいて大きいと判定された方のxj頻度累積のタイプ(1−xj頻度累積、または、2−xj頻度累積)を、併記している。   Next, the polarity determination unit 131 determines the magnitude relationship between the 1-xj frequency cumulative% (A) of the non-defective product and the 2-xj frequency cumulative% (B) of the defective product at the threshold value xj-th of each input attribute xj. Determination is made (S207). In Tables 30 to 33, the type of xj frequency accumulation (1-xj frequency accumulation or 2-xj frequency accumulation) determined to be larger in the threshold value xj-th is also shown.

次に、閾値決定部130で決定(抽出)された閾値xj−thと、極性判定部131で大きいと判定されたxj頻度累積のタイプとに基づいて、入力属性条件決定部111が、不良品の第2データ群DA2に対応する入力属性条件、すなわち「入力属性が入力属性条件を満たせば不良品の第2データ群に属するデータであり、入力属性が入力属性条件を満たさなければ、良品の第1データ群に属するデータである」という具体的な相関ルールを満たす入力属性条件を決定する(S208)。   Next, based on the threshold value xj−th determined (extracted) by the threshold value determination unit 130 and the xj frequency accumulation type determined to be large by the polarity determination unit 131, the input attribute condition determination unit 111 determines that the defective product is defective. The input attribute condition corresponding to the second data group DA2 of the above, that is, “if the input attribute satisfies the input attribute condition, the data belongs to the second data group of the defective product, and if the input attribute does not satisfy the input attribute condition, An input attribute condition that satisfies a specific correlation rule that the data belongs to the first data group is determined (S208).

なお、極性判定部131で大きいと判定された方のxj頻度累積のタイプが、良品の1−xj頻度累積である場合には、「xj>xj−th」なる入力属性条件が不良品の第2データ群DA2に対応し、極性判定部131で大きいと判定された方のxj頻度累積のタイプが、不良品の2−xj頻度累積である場合には、「xj≦xj−th」なる入力属性条件が不良品の第2データ群DA2に対応する。したがって、入力属性条件決定部111は、極性判定部131により1−xj頻度累積%(A)の方が大きいと判定された場合には、不良品の第2データ群DA2に対応する上記入力属性条件を「xj>xj−th(入力属性が閾値を超える)」という条件に決定し、極性判定部131により2−xj頻度累積%(B)の方が大きいと判定された場合には、不良品の第2データ群DA2に対応する上記入力属性条件を「xj≦xj−th(入力属性が閾値以下)」という条件に決定する。   If the xj frequency accumulation type determined to be large by the polarity determination unit 131 is the non-defective 1-xj frequency accumulation type, the input attribute condition “xj> xj-th” is the number of defective products. When the type of xj frequency accumulation that is determined to be large by the polarity determination unit 131 corresponding to the two data groups DA2 is 2-xj frequency accumulation of defective products, an input “xj ≦ xj−th” is input. The attribute condition corresponds to the defective second data group DA2. Therefore, when the polarity determination unit 131 determines that the 1-xj frequency cumulative% (A) is larger, the input attribute condition determination unit 111 determines the input attribute corresponding to the second data group DA2 of the defective product. If the condition is determined as “xj> xj−th (input attribute exceeds the threshold)” and the polarity determination unit 131 determines that 2-xj frequency cumulative% (B) is larger, it is not acceptable. The input attribute condition corresponding to the non-defective second data group DA2 is determined to be a condition of “xj ≦ xj−th (input attribute is equal to or less than threshold)”.

上記のようにして、入力属性条件決定部111が、不良品の第2データ群DA2に対応する条件として決定した入力属性条件を表34に示す。   Table 34 shows the input attribute conditions determined by the input attribute condition determination unit 111 as conditions corresponding to the defective second data group DA2 as described above.

Figure 0004298531
Figure 0004298531

一例として、入力属性x2については「x2>2」なる入力属性条件が決定されている。この入力属性条件は、良品の第1データ群DA1と分離して、不良品の第2データ群DA2を高い確度で検出できる条件を示している。また、決定された入力属性条件「x2>2」に対する排他的条件である「x2≦2」は、不良品の第2データ群DA2と分離して、良品の第1データ群DA1を高い確度で検出できる条件を示している。これらのことは、図4を参照すると、より理解しやすい。   As an example, an input attribute condition “x2> 2” is determined for the input attribute x2. This input attribute condition indicates a condition that can be separated from the non-defective first data group DA1 to detect the defective second data group DA2 with high accuracy. Also, “x2 ≦ 2”, which is an exclusive condition for the determined input attribute condition “x2> 2”, separates the defective second data group DA2 from the defective first data group DA1 with high accuracy. The conditions that can be detected are shown. These can be better understood with reference to FIG.

なお、上記では、複数の入力属性についてステップ203〜ステップ208の処理を一括して行っているが、jの値を1から4まで順次増加させてステップ203〜ステップ208の処理を繰り返してもよい。   In the above description, the processing from step 203 to step 208 is collectively performed for a plurality of input attributes. However, the processing from step 203 to step 208 may be repeated by sequentially increasing the value of j from 1 to 4. .

上記のステップ203〜ステップ208の処理が、特許請求の範囲における入力属性条件決定方法に相当する。この本実施形態の入力属性条件決定方法では、良品の1−xj頻度累積%と不良品の2−xj頻度累積%との差分である、xj頻度累積差%を計算するのみの非常に簡単な処理で、閾値評価指標(Giniインデックス法の改善度に相当)を得ている。すなわち、Giniインデックス法のように、入力属性が取り得る全ての分岐条件のパターン毎に、Giniインデックス((3)(4)式)や改善度((6)式)を計算するような膨大な演算処理を行わずに、入力属性が取り得る値の数だけの行数のデータ(表30〜表33)に対して、頻度累積差を求める演算処理を行っているのみである。したがって、実際のデバイス(特に半導体デバイス)のような製品の製造工程のデータのように、一つの入力属性が取り得る値の数が数万〜数十万というオーダであっても、表30〜表33のデータ行数が増えるのみであるので、ほとんど計算負荷がかからず、短時間で処理を行うことができる。   The processing from step 203 to step 208 corresponds to the input attribute condition determination method in the claims. In this input attribute condition determination method of this embodiment, it is very simple to calculate only the xj frequency cumulative difference%, which is the difference between the non-defective 1-xj frequency cumulative% and the defective product 2-xj frequency cumulative%. In the processing, a threshold evaluation index (corresponding to the improvement degree of the Gini index method) is obtained. That is, as in the Gini index method, the Gini index (formula (3) (4)) and the improvement level (formula (6)) are calculated for every branch condition pattern that the input attribute can take. Without performing the arithmetic processing, only the arithmetic processing for obtaining the frequency cumulative difference is performed on the data of the number of rows corresponding to the number of values that the input attribute can take (Tables 30 to 33). Therefore, even if the number of values that can be taken by one input attribute is on the order of tens of thousands to hundreds of thousands as in the data of the manufacturing process of a product such as an actual device (especially a semiconductor device), Table 30 to Since only the number of data rows in Table 33 is increased, almost no calculation load is applied, and processing can be performed in a short time.

また、入力属性xjの各値に対する良品の1−xj頻度累積%、および、不良品の2−xj頻度累積%は、それぞれ、対応するデータ群中において入力属性がその数値以下であるデータ数を、そのデータ群中のデータ総数で規格化したものであるから、これらの差分であるxj頻度累積差%(閾値評価指標)は、分析データ群中における良品(第1データ群)の割合と不良品(第2データ群)の割合とが極端に異なる場合であっても、その確度を落とすことがなく、良品と不良品とを切り分ける入力属性条件(各入力属性における最適分岐条件)を、高い確度で決定することができる。なお、表1のデータ群を用いた上記の例では、不良品の割合が4/12、良品の割合が8/12となっており、双方の間に極端な(桁違いの)相違がないので、本実施形態で抽出した不良品の条件(表34)は、Giniインデックス法で抽出した分岐条件([発明が解決しようとする課題]に記載した条件)と一致している。   Further, the 1-xj frequency cumulative% of non-defective products and the 2-xj frequency cumulative% of defective products for each value of the input attribute xj respectively indicate the number of data whose input attributes are equal to or less than the numerical value in the corresponding data group. Since the data is normalized by the total number of data in the data group, the xj frequency cumulative difference% (threshold evaluation index) that is the difference between these is the ratio of non-defective products (first data group) in the analysis data group. Even if the ratio of non-defective products (second data group) is extremely different, the input attribute condition (optimal branch condition for each input attribute) that separates non-defective products and defective products is high without reducing the accuracy. Can be determined with accuracy. In the above example using the data group in Table 1, the ratio of defective products is 4/12 and the ratio of non-defective products is 8/12, and there is no extreme (digit difference) difference between the two. Therefore, the condition of the defective product extracted in the present embodiment (Table 34) matches the branch condition extracted by the Gini index method (the condition described in [Problems to be solved by the invention]).

以上のように、本実施形態の入力属性条件決定方法によれば、本発明の第1の目的、および第2の目的を、ともに達成できる。   As described above, according to the input attribute condition determination method of the present embodiment, both the first object and the second object of the present invention can be achieved.

ステップ109以降の処理は、上記の入力属性条件決定方法で決定された入力属性条件を活用した好適なデータ分析方法であり、以下では、その処理内容を説明する。   The processing after Step 109 is a suitable data analysis method utilizing the input attribute condition determined by the above-described input attribute condition determination method, and the processing content will be described below.

[ステップ109]
不良品分離度演算部112が、入力属性条件決定部111で決定した入力属性条件(表34)の各々に対し、分類後基本データ群DA00(分析データ群DA00’ではない)の中で、該入力属性条件を満たすデータの個数(表35の「DA1+DA2」列)と、該入力属性条件を満たし、かつ、不良品の第2データ群DA2に該当するデータの個数(表35の「DA2」列)とを集計する。そして、表35の「DA2」列の値を、「DA1+DA2」列の値で除算した、不良品分離度を演算する(S109)。各入力属性条件の不良品分離度は、該入力属性条件による不良品切り出しの確度(分類後基本データ群DA00の中で該入力属性条件に属するデータを母集団としたときの不良率)を表しており、特許請求の範囲における第2データ群分離度に対応する。
[Step 109]
For each of the input attribute conditions (Table 34) determined by the input attribute condition determination unit 111, the defective product separation degree calculation unit 112 includes the post-classification basic data group DA00 (not the analysis data group DA00 ′). The number of data satisfying the input attribute condition ("DA1 + DA2" column in Table 35) and the number of data satisfying the input attribute condition and corresponding to the defective second data group DA2 ("DA2" column in Table 35) ). Then, a defective product separation degree is calculated by dividing the value in the “DA2” column of Table 35 by the value in the “DA1 + DA2” column (S109). The defective product separation degree of each input attribute condition represents the accuracy of defective product extraction based on the input attribute condition (defective rate when data belonging to the input attribute condition in the basic data group DA00 after classification is used as a population). This corresponds to the second data group separation degree in the claims.

Figure 0004298531
Figure 0004298531

表35は、上記不良品分離度演算部112による演算結果と併せて、その「Total」行に、分類後基本データ群DA00の中における、データ総数(「DA1+DA2」列の値=12)、不良品の第2データ群DA2の個数(「DA2」列の値=4)、および、不良品含有率(「不良品分離度」列の値=4/12=0.333)を示したテーブルである。不良品含有率は、分類後基本データ群DA00の全データを母集団としたときの不良率を表しており、特許請求の範囲における第2データ群含有率に対応する。   Table 35 shows the total number of data (value in the “DA1 + DA2” column = 12) in the basic data group DA00 after classification in the “Total” row, together with the calculation result by the defective product separation degree calculation unit 112. A table showing the number of non-defective second data groups DA2 (value of “DA2” column = 4) and defective product content (value of “defective product separation” column = 4/12 = 0.333) is there. The defective product content rate represents the defective rate when all the data of the post-classification basic data group DA00 is a population, and corresponds to the second data group content rate in the claims.

表35の各列の意味については、これらをベン図で表現した図16を参照すると理解しやすい。表35の各列の意味については、これらをベン図で表現した図16(a)〜図16(d)を参照すると理解しやすい。図16(a)〜図16(d)は、それぞれ、表35の各列の入力属性条件を満たすデータの集合と不良品の第2データ群DA2の集合との関係を示すベン図である。   The meaning of each column in Table 35 can be easily understood with reference to FIG. The meaning of each column in Table 35 can be easily understood by referring to FIG. 16A to FIG. FIGS. 16A to 16D are Venn diagrams showing the relationship between a set of data satisfying the input attribute condition of each column of Table 35 and a set of defective second data group DA2.

[ステップ110]
第1の要因抽出部109が、表35の、各入力属性条件の中で、分類後基本データ群DA00の不良品含有率(「Total」行の「不良品分離度」列の値=0.333)よりも大きい値の不良品分離度をもつ入力属性条件を、不良品の第2データ群DA2の要因を示す情報として抽出する。そして、この結果を、分析結果データ格納部14に保存する。
[Step 110]
The first factor extraction unit 109 includes, in each of the input attribute conditions in Table 35, the defective product content rate in the basic data group DA00 after classification (the value of the “defective product separation” column in the “Total” row = 0. 333) is extracted as information indicating the factor of the second data group DA2 of defective products. Then, the result is stored in the analysis result data storage unit 14.

表35の例では、x1〜x4についての全ての入力属性条件とも、分類後基本データ群DA00の不良品含有率よりも高い不良品分離度を有しているので、全ての入力属性条件が抽出される(表36)。   In the example of Table 35, since all the input attribute conditions for x1 to x4 have a defective product separation degree higher than the defective product content rate of the basic data group DA00 after classification, all input attribute conditions are extracted. (Table 36).

Figure 0004298531
Figure 0004298531

なお、表36の各入力属性条件は、分類後基本データ群DA00の中からランダムに選んだサンプルよりも高い割合で、不良品の第2データ群DA2を含む条件であり、不良品の第2データ群に対応する出力属性条件の要因を示している。   Each input attribute condition in Table 36 is a condition that includes the second data group DA2 of defective products at a higher rate than the sample randomly selected from the basic data group DA00 after classification, and the second data group of defective products. The cause of the output attribute condition corresponding to the data group is shown.

以上のようにして、問題事象(不良品の第2データ群DA2)の要因として、「x1>2」、「x2>2」、「x3>2」、「x4≦10」という入力属性条件が抽出された。   As described above, the input attribute conditions “x1> 2,” “x2> 2,” “x3> 2,” “x4 ≦ 10” are caused as the cause of the problem event (defective product second data group DA2). Extracted.

上記のステップ101〜ステップ110にて、問題事象(不良品の第2データ群DA2)の要因を抽出できた。   In steps 101 to 110 described above, the cause of the problem event (second data group DA2 of defective products) can be extracted.

しかし、その過程(ステップ204)で、個々の入力属性がとる各値に対して演算した閾値評価指標(xj頻度累積差%)には、当該入力属性以外の入力属性の影響が外乱として含まれており、場合によっては、閾値評価指標(xj頻度累積差%)の確度を落としてしまっている恐れがある。また、ある入力属性xjにおいて、問題事象の要因が、「xj≦xj−th1」、および、「xj>xj−th2」という2タイプとなるべき場合に、ステップ203〜208の処理のみでは、それらのうちの一方の要因しか抽出されない。これらの点を解消するには、さらに、下記ステップによる処理を行うことが好ましい。   However, in the process (step 204), the threshold evaluation index (xj frequency cumulative difference%) calculated for each value taken by each input attribute includes the influence of the input attribute other than the input attribute as a disturbance. In some cases, the accuracy of the threshold evaluation index (xj frequency cumulative difference%) may be reduced. Further, when the cause of the problem event should be two types of “xj ≦ xj−th1” and “xj> xj−th2” in a certain input attribute xj, the processing of steps 203 to 208 alone Only one of the factors is extracted. In order to eliminate these points, it is preferable to further perform processing according to the following steps.

[ステップ111]
頻度累積比率演算部16が、閾値決定部130(ステップ206)で決定(抽出)した各入力属性閾値xj−th(表30〜表33参照)について、良品の1−xj頻度累積%(A)に対する、不良品の2−xj頻度累積%(B)の比率(=B/A:以下、頻度累積下比率と呼ぶ)、または、100から良品の1−xj頻度累積%(A)を引いた値(=100−A)に対する、100から不良品の2−xj頻度累積%(B)を引いた値(=100−B)の比率(=(100−B)/(100−A):以下、頻度累積上比率と呼ぶ)を、分割ルール評価値として計算する。
[Step 111]
For each input attribute threshold value xj-th (see Tables 30 to 33) determined (extracted) by the threshold value determination unit 130 (step 206) by the frequency accumulation ratio calculation unit 16, 1-xj frequency accumulation percentage (A) of non-defective products The ratio of 2-xj frequency cumulative% (B) of defective products to (= B / A: hereinafter referred to as the lower frequency cumulative ratio) or 100 minus 1-xj frequency cumulative% (A) of non-defective products Ratio of value (= 100-B) obtained by subtracting 2-xj frequency cumulative percentage (B) of defective products from 100 to value (= 100-A) (= (100-B) / (100-A): below , Referred to as frequency cumulative upper ratio) as a division rule evaluation value.

なお、入力属性条件決定部111で決定された入力属性条件が、「xj≦xj−th」なるタイプの場合には(極性判定部131で大きいと判定された方のxj頻度累積のタイプが、不良品の2−xj頻度累積である場合には)、分割ルール評価値として頻度累積下比率(=B/A)を計算する。ここで、頻度累積下比率(=B/A)は、「xj≦xj−th」という入力属性条件により、良品の第1データ群と分離して不良品の第2データ群を検出できる割合を表している。   If the input attribute condition determined by the input attribute condition determination unit 111 is a type of “xj ≦ xj−th” (the type of xj frequency accumulation that is determined to be large by the polarity determination unit 131 is In the case of 2-xj frequency accumulation of defective products), the frequency accumulation lower ratio (= B / A) is calculated as the division rule evaluation value. Here, the frequency cumulative lower ratio (= B / A) is a ratio at which the second data group of defective products can be detected separately from the first data group of non-defective products according to the input attribute condition “xj ≦ xj−th”. Represents.

また、入力属性条件決定部111で決定された入力属性条件が、「xj>xj−th」なるタイプの場合には(極性判定部131で大きいと判定された方のxj頻度累積のタイプが、良品の1−xj頻度累積である場合には)、分割ルール評価値として頻度累積上比率(=(100−B)/(100−A))を計算する。ここで、頻度累積上比率(=(100−B)/(100−A))は、「xj>xj−th」という入力属性条件により、良品の第1データ群と分離して不良品の第2データ群を検出できる割合を表している。   Further, when the input attribute condition determined by the input attribute condition determination unit 111 is a type of “xj> xj−th” (the type of xj frequency accumulation that is determined to be large by the polarity determination unit 131 is If the non-defective product is 1-xj frequency cumulative), the frequency cumulative upper ratio (= (100-B) / (100-A)) is calculated as the division rule evaluation value. Here, the cumulative frequency ratio (= (100−B) / (100−A)) is separated from the non-defective first data group by the input attribute condition “xj> xj−th”. This represents the ratio at which two data groups can be detected.

言い換えると、分割ルール評価値(頻度累積下比率または頻度累積上比率)は、各入力属性条件に対して、「入力属性xjが入力属性条件を満たせば、分析データ群中の第2データ群に含まれるデータである」という相関ルールの確からしさを表している。   In other words, the division rule evaluation value (frequency cumulative lower ratio or frequency cumulative upper ratio) is “for the second data group in the analysis data group if the input attribute xj satisfies the input attribute condition” for each input attribute condition. It represents the certainty of the association rule that it is “included data”.

各入力属性条件に対する、分割ルール評価値(頻度累積下比率または頻度累積上比率)を表37に示す。   Table 37 shows the division rule evaluation values (frequency cumulative lower ratio or frequency cumulative upper ratio) for each input attribute condition.

Figure 0004298531
Figure 0004298531

なお、このステップ111での処理は、2種類のルール評価値(第1および第2のルール評価値)を計算するのではなく、入力属性条件決定部111で決定された入力属性条件のタイプ(極性判定部131で大きいと判定された方のxj頻度累積のタイプ)に応じて、頻度累積下比率または頻度累積上比率を分割ルール評価値として計算する点以外は、実施の形態2のデータ分析方法におけるステップ7での処理と同様である。   Note that the processing in step 111 does not calculate two types of rule evaluation values (first and second rule evaluation values), but the type of input attribute condition determined by the input attribute condition determination unit 111 ( Data analysis according to the second embodiment except that the frequency cumulative lower ratio or the frequency cumulative upper ratio is calculated as the division rule evaluation value according to the xj frequency cumulative type determined to be larger by the polarity determination unit 131) This is similar to the processing in step 7 of the method.

[ステップ112]
次に、データ分割部115が、入力属性条件決定部111で決定された入力属性条件の中から、上記ステップ111の分割ルール評価値(頻度累積下比率または頻度累積上比率;表37)の値が最大となる入力属性条件を抽出する(S112)。
[Step 112]
Next, the data dividing unit 115 selects the value of the division rule evaluation value (frequency cumulative lower ratio or frequency cumulative upper ratio; Table 37) in step 111 from the input attribute conditions determined by the input attribute condition determining unit 111. An input attribute condition that maximizes is extracted (S112).

表37を参照して、入力属性条件「x2>2」は、全ての入力属性条件の中で最大の分割ルール評価値をもち、分割ルール評価値=頻度累積上比率=∞となっている。これは、入力属性条件「x2>2」にて、良品の第1データ群DA1と完全に分離して、不良品の第2データ群DA2を検出できる事を示している。   Referring to Table 37, the input attribute condition “x2> 2” has the largest division rule evaluation value among all the input attribute conditions, and division rule evaluation value = frequency cumulative upper ratio = ∞. This indicates that, under the input attribute condition “x2> 2,” the defective second data group DA2 can be detected by being completely separated from the non-defective first data group DA1.

ここで、別の見方をすると、「x2>2」なる入力属性条件は、他の入力属性(x1、x3、x4)が如何なる値であっても、不良品の第2データ群DA2に対応するから、他の入力属性(x1、x3、x4)の入力属性条件を決定する上では(ステップ203〜206)、または、閾値評価指標(xj頻度累積差%)を演算する上では(ステップ205)、外乱因子となっている可能性がある。このような場合、他の入力属性(x1、x3、x4)の入力属性条件は、「x2>2」に該当するデータを、分析データ群DA00’から除外して求める方が望ましい。   From another point of view, the input attribute condition “x2> 2” corresponds to the defective second data group DA2 regardless of the values of the other input attributes (x1, x3, x4). From the above, when determining the input attribute conditions of the other input attributes (x1, x3, x4) (steps 203 to 206) or calculating the threshold evaluation index (xj frequency cumulative difference%) (step 205) May be a disturbance factor. In such a case, it is desirable to obtain the input attribute conditions of the other input attributes (x1, x3, x4) by excluding data corresponding to “x2> 2” from the analysis data group DA00 ′.

そこで、データ分割部115は、上記抽出した「x2>2」なる入力属性条件に基づいて、分析データ群DA00’を、「x2>2」を満たす要因データ群と、「x2>2」を満たさない(「x2≦2」を満たす)他データ群とに分割する。要因データ群を表38に、他データ群を表39に示す。   Therefore, the data dividing unit 115 satisfies the analysis data group DA00 ′ based on the extracted input attribute condition “x2> 2”, the factor data group satisfying “x2> 2”, and “x2> 2”. It is divided into other data groups which do not exist (satisfying “x2 ≦ 2”) Table 38 shows the factor data group, and Table 39 shows the other data group.

Figure 0004298531
Figure 0004298531

Figure 0004298531
Figure 0004298531

このステップ112は、実施の形態2のデータ分析方法におけるステップ9に対応している。なお、ここでは、分割ルール評価値として、頻度累積下比率または頻度累積上比率を演算しているが、Giniインデックスや、上記の頻度累積差等の他の評価指標を用いてもよい。   This step 112 corresponds to step 9 in the data analysis method of the second embodiment. Here, the frequency cumulative lower ratio or the frequency cumulative upper ratio is calculated as the division rule evaluation value, but other evaluation indexes such as the Gini index and the above-described frequency cumulative difference may be used.

[ステップ113]
次に、分析データ群抽出部106が、ステップ112で分割されたデータ群のうち、他データ群を次の分析データ群DA00’として抽出する(S104)。そして、終了条件判定部11で終了条件を満たしていると判定されるまで、上記のステップ106〜ステップ113の処理が繰り返される。すなわち、2回目のステップ106の後は、ステップ113に移行し、終了条件判定部11で終了条件を満たしているか否かが判定される(S113)。そして、終了条件判定部11で終了条件を満たしていないと判定された場合には、ステップ107〜ステップ112およびステップ104の処理を再度行い、終了条件判定部11で終了条件を満たしていると判定された場合には、ステップ114に移行する。このステップ113での終了条件の判定は、実施の形態2のデータ分析方法におけるステップ10での終了条件の判定と同様である。
[Step 113]
Next, the analysis data group extraction unit 106 extracts another data group as the next analysis data group DA00 ′ from the data group divided in step 112 (S104). Then, the processing from step 106 to step 113 is repeated until the end condition determination unit 11 determines that the end condition is satisfied. That is, after the second step 106, the process proceeds to step 113, where it is determined whether or not the end condition is satisfied by the end condition determining unit 11 (S113). If the end condition determination unit 11 determines that the end condition is not satisfied, the processing of steps 107 to 112 and step 104 is performed again, and the end condition determination unit 11 determines that the end condition is satisfied. If so, the process proceeds to step 114. The determination of the end condition in step 113 is the same as the determination of the end condition in step 10 in the data analysis method of the second embodiment.

本実施形態の終了条件判定部11は、繰返し処理中の上記ステップ106において不良品の第2データ群DA2のデータ個数が0となった場合を終了条件として判定するようになっている。このように不良品の第2データ群DA2のデータ個数が0となるまで繰り返し処理を実行することにより、不良品の第2データ群DA2に対する、詳細な要因分析結果が得られる。   The end condition determination unit 11 of the present embodiment is configured to determine the end condition when the number of data in the second data group DA2 of defective products becomes 0 in step 106 during the repetitive processing. In this way, by repeatedly performing the process until the number of data in the second data group DA2 of defective products becomes zero, a detailed factor analysis result for the second data group DA2 of defective products can be obtained.

なお、終了条件は、第2データ群DA2のデータ個数に基づく他の終了条件、例えば、(1)繰返し処理中の上記ステップ106において第2データ群DA2のデータ個数が所定数以下となった場合、(2)繰返し処理中の上記ステップ106において第1データ群DA1のデータ個数に対する第2データ群DA2のデータ個数の割合が所定割合以下となった場合、(3)繰返し処理中の上記ステップ112で抽出された入力属性条件の分割ルール評価値が所定の値を下回った場合等としてもよい。これらのような終了条件を用いた場合、より簡潔で十分な要因分析結果を得ることができる。さらに、簡潔な要因分析結果を得ることを優先する場合には、終了条件を単に繰返し処理を所定回数行った場合としたり、終了条件判定部11を省いて、可能な限り繰り返し処理を行うようにしてもよい。   Note that the end condition is another end condition based on the number of data in the second data group DA2, for example, (1) when the number of data in the second data group DA2 is equal to or less than a predetermined number in step 106 during the repetitive processing. (2) When the ratio of the number of data in the second data group DA2 to the number of data in the first data group DA1 is equal to or less than a predetermined ratio in the step 106 during the iterative processing, (3) step 112 during the iterative processing. The division rule evaluation value of the input attribute condition extracted in (1) may be lower than a predetermined value. When such termination conditions are used, a simpler and sufficient factor analysis result can be obtained. Further, when priority is given to obtaining a concise factor analysis result, the end condition is simply a case where the iterative process is performed a predetermined number of times, or the end condition determining unit 11 is omitted and the iterative process is performed as much as possible. May be.

2回目のステップ109における、不良品分離度演算部112の演算結果を表40(1回目の表35に対応)に示す。   Table 40 (corresponding to Table 35 for the first time) shows the calculation results of the defective product separation degree calculation unit 112 in Step 109 for the second time.

Figure 0004298531
Figure 0004298531

表40の例では、x1、x3、x4の入力属性条件が、分類後基本データ群DA00の不良品含有率(第2データ群含有率)よりも高い不良品分離度(第2データ群分離度)を有しており、これらの条件が抽出される(2回目のステップ110;表41)。   In the example of Table 40, the input attribute condition of x1, x3, and x4 has a defective product separation degree (second data group separation degree) higher than the defective product content rate (second data group content rate) of the basic data group DA00 after classification. These conditions are extracted (second step 110; Table 41).

Figure 0004298531
Figure 0004298531

一方、x2の入力属性条件(x2≦1)における不良品分離度(第2データ群分離度)は、分類後基本データ群DA00の不良品含有率よりも低くなっているので、x2の入力属性条件は抽出しない。   On the other hand, since the defective product separation degree (second data group separation degree) under the input attribute condition (x2 ≦ 1) of x2 is lower than the defective product content rate of the basic data group DA00 after classification, the input attribute of x2 Condition is not extracted.

以上のようにして、2回目の処理(分類後基本データ群DA00の中で「x2≦2」を満たすデータを分析データ群とした処理)によって、問題事象(不良品の第2データ群DA2)の要因として、「x1>2」、「x3>2」、「x4≦10」という入力属性条件が抽出された(表41)。   As described above, the problem event (the second data group DA2 of defective products) is obtained by the second processing (processing in which the data satisfying “x2 ≦ 2” in the basic data group DA00 after classification is set as the analysis data group). As input factors, input attribute conditions of “x1> 2”, “x3> 2”, and “x4 ≦ 10” were extracted (Table 41).

また、2回目のステップ111で演算された、分割ルール評価値(頻度累積下比率または頻度累積上比率)を表42(1回目の表37に対応)に示す。   The division rule evaluation values (frequency cumulative lower ratio or frequency cumulative upper ratio) calculated in the second step 111 are shown in Table 42 (corresponding to the first table 37).

Figure 0004298531
Figure 0004298531

この例の場合、分割ルール評価値は、「x1>2」と「x4≦10」において、最大の4となっているが、データ分割部115は、これらのうちの一方を選択する。この選択基準には一定のルールがあればよいが、例えば、入力属性xjの番号jが若いものを優先し、「x1>2」を選択する(2回目のステップ112)。   In this example, the division rule evaluation value is a maximum of 4 in “x1> 2” and “x4 ≦ 10”, but the data division unit 115 selects one of these. This selection criterion should have a certain rule. For example, the input attribute xj with a smaller number j is given priority, and “x1> 2” is selected (second step 112).

データ分割部115が分割したデータ群のうち、他データ群(2回目の分析データ群の中で、「x1≦2」を満たすデータ群)が、3回目の分析データ群として分析データ群抽出部106によって抽出される(表43)。   Of the data group divided by the data dividing unit 115, another data group (a data group satisfying “x1 ≦ 2” in the second analysis data group) is the analysis data group extraction unit as the third analysis data group. (Table 43).

Figure 0004298531
Figure 0004298531

しかし、表43の3回目の分析データ群には、不良品のデータ(第2データ群DA2;y=2)が含まれていなかったため、この時点で(2回目の要因抽出まで行って)繰り返し処理が終了した。   However, since the analysis data group for the third time in Table 43 did not include defective product data (second data group DA2; y = 2), it is repeated at this point (up to the second factor extraction). Processing has ended.

[ステップ114]
ステップ110の繰り返し処理毎に抽出された入力属性条件(表35、表41)をまとめた抽出要因一覧テーブルを表44に示す。
[Step 114]
Table 44 shows an extraction factor list table in which the input attribute conditions (Table 35 and Table 41) extracted for each repetition of Step 110 are summarized.

Figure 0004298531
Figure 0004298531

表44の抽出要因一覧テーブルには、第1の要因抽出部109(ステップ110)の繰り返し処理による、同一の入力属性における複数の入力属性条件が全て示されている。   The extracted factor list table of Table 44 shows all of the plurality of input attribute conditions for the same input attribute by the repetition processing of the first factor extracting unit 109 (step 110).

要因決定部117は、同一の入力属性における複数の入力属性条件(表44)のうちで、優先度の高い入力属性条件のみを選択する(S114)。   The factor determination unit 117 selects only an input attribute condition having a high priority among a plurality of input attribute conditions (Table 44) for the same input attribute (S114).

具体的には、同一の入力属性に対して、「入力属性が閾値以下である」という第1のパターンの中で、不良品分離度(第2データ群分離度)が最大となる入力属性条件を1つと、「入力属性が閾値を超える」という第2のパターンの中で、不良品分離度(第2データ群分離度)が最大となる入力属性条件を1つとを、選択する。   Specifically, for the same input attribute, the input attribute condition that maximizes the defective product separation degree (second data group separation degree) in the first pattern “input attribute is below threshold” And one input attribute condition that maximizes the defective product separation degree (second data group separation degree) in the second pattern of “input attribute exceeds threshold”.

表44の例の場合には、最終的に、表45に示す4条件が、問題事象(不良品の第2データ群DA2)の要因として選択された。   In the case of the example in Table 44, finally, the four conditions shown in Table 45 were selected as factors of the problem event (defective product second data group DA2).

Figure 0004298531
Figure 0004298531

表45は、要因決定部117が問題事象の要因として決定した(選択した)入力属性条件の一覧であり、このテーブルを決定要因一覧テーブルと呼ぶ。決定要因一覧テーブルは、分析結果データ格納部14に保存される。   Table 45 is a list of input attribute conditions determined (selected) by the factor determination unit 117 as the cause of the problem event, and this table is referred to as a determination factor list table. The determination factor list table is stored in the analysis result data storage unit 14.

上記2回の繰り返し処理の過程を、決定木の形式(図12と同様の形式)で表現すると図17のようになる。図17を参照して、本実施形態では、決定木の分岐毎に、この最終的な分岐条件だけでなく、全ての入力属性について問題事象(不良品の第2データ群DA2)の要因となる入力属性条件を求め(ステップ208の入力属性条件決定部111による処理)、これらのうち、不良品分離度の高い入力属性条件のみを抽出している(ステップ110の第1の要因抽出部109による処理)。そして、分岐の回数分(繰り返し処理の回数分)の全ての入力属性条件の中で、さらに不良品分離度の高い入力属性条件を絞り込み、最終の不良要因として決定している(ステップ114の要因決定部117による処理)。   If the process of the above two iterations is expressed in the form of a decision tree (the same format as in FIG. 12), it is as shown in FIG. Referring to FIG. 17, in this embodiment, every decision tree branch causes a problem event (defective second data group DA2) for all input attributes, not just the final branch condition. An input attribute condition is obtained (processing by the input attribute condition determination unit 111 in step 208), and only input attribute conditions having a high degree of defective product separation are extracted (by the first factor extraction unit 109 in step 110). processing). Then, among all the input attribute conditions for the number of times of branching (for the number of iterations), input attribute conditions with a higher degree of defective product separation are narrowed down and determined as the final defective factor (factor of step 114) Processing by the determination unit 117).

このように、決定木における分岐条件以外の条件であっても、不良品分離度の高い条件を全て抽出しているから、分岐条件に競合因子が存在しても、その要因を逃すことなく、確実に捉えることができる。また、分岐毎の要因抽出(第1の要因抽出部109による処理)、および、最終的な要因決定(要因決定部117による処理)において、不良品分離度という明確な指標に基づいて要因の抽出または決定を行っているため、如何に複雑な決定木となろうとも、明確に問題事象の要因を把握することができる。さらに、不良品分離度を評価指標としているから、決定した複数の要因(入力属性条件)に対して、優先順位付けを行うことが可能となる。   In this way, even if it is a condition other than the branch condition in the decision tree, all the conditions with a high degree of defective product separation are extracted, so even if there are competing factors in the branch condition, without missing that factor, I can capture it reliably. In addition, factor extraction for each branch (processing by the first factor extraction unit 109) and final factor determination (processing by the factor determination unit 117) are performed based on a clear index of defective product separation. Or, since the decision is made, the cause of the problem event can be clearly grasped no matter how complicated the decision tree is. Furthermore, since the degree of defective product separation is used as an evaluation index, it is possible to prioritize a plurality of determined factors (input attribute conditions).

[ステップ115]
複合要因不良数計算部118が、決定要因一覧テーブル(表45)の入力属性条件のうち、2つの条件の複合要因による不良数を計算する(表46)。
[Step 115]
The complex factor defect count calculation unit 118 calculates the number of defects due to the complex factor of two conditions among the input attribute conditions in the decision factor list table (Table 45) (Table 46).

Figure 0004298531
Figure 0004298531

表46において、タイトル行とタイトル列には、それぞれ、決定要因一覧テーブルの各入力属性条件が示されており、その交差部には、2つの入力属性条件の複合要因による不良数(第2データ群DA2の個数)が示されている。例えば、「x1>2」行、「x2>2」列は、
「x1>2」かつ「x2>2」を満たし、かつ、不良品の第2データ群DA2に該当するデータの個数(=1)を表している。以下、表46のテーブルを複合要因テーブルと呼ぶ。
In Table 46, the title row and the title column indicate the input attribute conditions of the decision factor list table, respectively, and the number of defects (second data) due to the composite factor of the two input attribute conditions is shown at the intersection. The number of groups DA2) is shown. For example, “x1> 2” row and “x2> 2” column are
This represents the number of data (= 1) satisfying “x1> 2” and “x2> 2” and corresponding to the defective second data group DA2. Hereinafter, the table in Table 46 is referred to as a composite factor table.

[ステップ116]
数値−文字データ変換部119では、必要に応じて、決定要因一覧テーブル(表45)や複合要因テーブル(表46)における入力属性閾値xj−thの数値を文字データに変換する。文字データへの変換ルールは、ステップ100の変換の逆変換となるルールであり、下記の通りである。
(x1)1→A、2→B、3→C、4→D
(x2)1→a、2→b、3→c、4→d
(x3)変換せず
(x4)変換せず
表45の決定要因一覧テーブルにおける入力属性閾値xj−thを文字データに変換した要因一覧テーブルを表47に示す。
[Step 116]
The numerical value-character data conversion unit 119 converts the numerical value of the input attribute threshold value xj-th in the determination factor list table (Table 45) and the composite factor table (Table 46) into character data as necessary. The conversion rule to character data is a rule that is the reverse conversion of the conversion in step 100, and is as follows.
(X1) 1 → A, 2 → B, 3 → C, 4 → D
(X2) 1 → a, 2 → b, 3 → c, 4 → d
(X3) Not converted (x4) Not converted Table 47 shows a factor list table in which the input attribute threshold value xj-th in the determination factor list table in Table 45 is converted into character data.

Figure 0004298531
Figure 0004298531

[ステップ117]
以上でデータ分析を終了し、抽出要因一覧テーブル(表44)、決定要因一覧テーブル(表45、表47)、複合要因テーブル(表46)やデータ分析過程での各種情報が、最終的に、分析結果データとしてハードディスク等の分析結果データ格納部14に格納される。これらの分析結果データは、適宜、分析結果データ格納部14から表示装置や印刷装置等の出力部15に送られ、テーブル(例えば表47)、決定木(例えば図17)や、グラフとして、表示装置にて表示したり、印刷装置にて印刷したりすることができる。
[Step 117]
The data analysis is completed as described above, and the extraction factor list table (Table 44), the decision factor list tables (Table 45, Table 47), the composite factor table (Table 46) and various information in the data analysis process are finally The analysis result data is stored in the analysis result data storage unit 14 such as a hard disk. The analysis result data is appropriately sent from the analysis result data storage unit 14 to the output unit 15 such as a display device or a printing device, and displayed as a table (for example, Table 47), a decision tree (for example, FIG. 17), or a graph. It can be displayed on the device or printed on the printing device.

一例として、決定要因一覧テーブル(表47)を要因内訳パレート図として表示した例を図18に示す。図18では、決定要因一覧テーブル(表47)の各入力属性条件に起因する不良数(第2データ群DA2の個数)を棒グラフで、また、不良品分離度(第2データ群分離度)を折れ線グラフで示している。   As an example, FIG. 18 shows an example in which the decision factor list table (Table 47) is displayed as a factor breakdown Pareto diagram. In FIG. 18, the number of defects (number of second data groups DA2) due to each input attribute condition in the determination factor list table (Table 47) is represented by a bar graph, and the degree of defective product separation (second data group separation degree) is shown. This is shown by a line graph.

ユーザは、図18の結果を参照する事により、「入力属性x1〜x4の各々がどの値の範囲にあるから製品特性が悪いのか?」という製品特性不良の要因を一眺して即座に判断できる。また、対策を施すべき順序(優先順位)を、不良品分離度(第2データ群分離度)から判断できる。さらに、図18の入力属性条件に対する対策の結果、不良数をどの程度減じることができるかを、不良数(第2データ群DA2の個数)から見込む事ができる。   By referring to the result of FIG. 18, the user can immediately determine the cause of the product characteristic failure such as “Which value range is each of the input attributes x1 to x4? it can. Further, the order (priority order) in which measures should be taken can be determined from the defective product separation degree (second data group separation degree). Furthermore, as a result of the countermeasure against the input attribute condition of FIG. 18, it can be estimated from the number of defects (number of second data groups DA2) how much the number of defects can be reduced.

図18の例の場合には、不良品分離度(第2データ群分離度)が最も高い、入力属性x2(「x2>2」、すなわち「x2=c or d」)を第1に対策すべきであり、この対策により、4個の不良のうちの2個の不良が解消される(不良全体の50%が解消される)ことが見込まれる。   In the case of the example in FIG. 18, the first countermeasure is the input attribute x2 (“x2> 2”, that is, “x2 = c or d”) having the highest defective product separation degree (second data group separation degree). This measure should eliminate two of the four defects (50% of the total defects are resolved).

また、第2に対策すべき内容については、複合要因テーブル(表46)を用いて、第1の要因(「x2>2」、すなわち「x2=c or d」)と他の要因との複合度を調べることで判断できる。図19は、図18の各要因(入力属性条件)の棒グラフ(不良数)において、第1の要因(「x2>2」、すなわち「x2=c or d」)との複合要因による不良数に、ハッチングを付けて示したものである。図19から、「x1>2」、すなわち「x1=C or D」)は、不良品分離度(第2データ群分離度)が高く、かつ、第1の要因(「x2>2」、すなわち「x2=C or D」)と重複しない不良数が多いことから、第1の要因に対する独立要因の可能性が高く、第2に対策すべき項目であることが読みとれる。   As for the content to be secondly countermeasured, a composite factor table (Table 46) is used to combine the first factor (“x2> 2”, ie, “x2 = c or d”) with other factors. It can be judged by examining the degree. FIG. 19 shows the number of defects due to a composite factor with the first factor (“x2> 2”, that is, “x2 = c or d”) in the bar graph (number of defects) of each factor (input attribute condition) in FIG. It is shown with hatching. From FIG. 19, “x1> 2”, that is, “x1 = C or D”) has a high degree of defective product separation (second data group separation) and the first factor (“x2> 2”, ie, Since there are many defects that do not overlap with “x2 = C or D”), there is a high possibility of an independent factor with respect to the first factor, and it can be read that this is an item to be secondly countered.

なお、図19では、さらに、第1の要因(「x2>2」、すなわち「x2=C or D」)との複合要因(または従属因子)を抽出することも可能で、この例では、ハッチング部の割合が大きい「x4≦10」が抽出される。   In FIG. 19, it is also possible to extract a composite factor (or dependent factor) with the first factor (“x2> 2”, ie, “x2 = C or D”). In this example, hatching is performed. “X4 ≦ 10” having a large part ratio is extracted.

本実施形態のデータ分析方法(ステップ100〜ステップ117)では、上記した入力属性条件決定法(ステップ203〜ステップ208(ステップ107)の処理)の作用効果に加えて、以下のような効果を有する。   The data analysis method (step 100 to step 117) of the present embodiment has the following effects in addition to the operational effects of the above-described input attribute condition determination method (the processing of steps 203 to 208 (step 107)). .

すなわち、不良品切り出しの確度(分類後基本データ群DA00の中で入力属性条件に属するデータを母集団としたときの不良率)を示す、不良品分離度(第2データ群分離度)という明確な指標に基づいて、不良の要因を決定しているので、抽出した要因の優先順位付けを行うことができ、表47(または表45)の決定要因一覧テーブル、または図18の要因内訳パレート図に示したような非常に簡潔な形で、問題事象の要因を導き出せる。そして、これを用いて、問題事象に対する各要因(入力属性条件)の不良品分離度(第2データ群分離度)や不良数を求める事ができる。   That is, it is clear that the defective product separation degree (second data group separation degree) indicates the accuracy of defective product extraction (the defective rate when the data belonging to the input attribute condition in the basic data group DA00 after classification is a population). Since the factors of defects are determined based on various indices, the priorities of the extracted factors can be prioritized, and the factor list in Table 47 (or Table 45) or the factor breakdown Pareto chart in FIG. The cause of the problem event can be derived in a very simple form as shown in. By using this, it is possible to obtain the defective product separation degree (second data group separation degree) and the number of defects of each factor (input attribute condition) for the problem event.

なお、上述した実施形態では、複数の分岐(繰り返し)による決定木を生成していたが、一回の分岐だけでよければ、ステップ110で終了してもよい。   In the above-described embodiment, a decision tree with a plurality of branches (repetition) is generated. However, if only one branch is required, the decision tree may be ended in step 110.

また、上記では、ステップ113において、分析データ群抽出部106が、分割されたデータ群のうち、他データ群のみを次の分析データ群として抽出したが、要因データ群も分析データ群として抽出し、ステップ106〜ステップ113の処理を繰り返すようにしてもよい。これにより、より詳細な分析を行うことができる。   In the above description, in step 113, the analysis data group extraction unit 106 extracts only the other data group from the divided data groups as the next analysis data group. However, the factor data group is also extracted as the analysis data group. The processing of step 106 to step 113 may be repeated. Thereby, a more detailed analysis can be performed.

また、上記では、第2データ群DA2を不良品のデータ群とし、不良の要因を抽出するデータ分析例を示したが、第2データ群DA2を良品のデータ群とし、良品を得るための条件を抽出するデータ分析としてもよい。   In the above description, the data analysis example in which the second data group DA2 is the defective data group and the cause of the defect is extracted has been described. However, the second data group DA2 is the good data group and the condition for obtaining the good product is shown. It is good also as data analysis which extracts.

以上で説明した入力属性条件決定方法、および、データ分析方法は、それぞれ、コンピュータが図14・15のS203〜S208(ステップ203〜ステップ208)、および、S100〜S117(ステップ100〜ステップ117)に対応するプロセスを含むプログラムを実行することによって実現できる。   In the input attribute condition determination method and the data analysis method described above, the computer performs steps S203 to S208 (step 203 to step 208) and S100 to S117 (step 100 to step 117) in FIGS. This can be realized by executing a program including a corresponding process.

したがって、図13中の入力属性条件決定装置100Aは、入力属性条件決定プログラムが、コンピュータを、データ行分離部107、データ列抽出部5、頻度演算部6、頻度累積差演算部7、閾値決定部130、極性判定部131、および、入力属性条件決定部111として機能させることにより実現することが可能である。   Therefore, in the input attribute condition determining apparatus 100A in FIG. 13, the input attribute condition determining program includes a computer, a data row separating unit 107, a data string extracting unit 5, a frequency calculating unit 6, a frequency cumulative difference calculating unit 7, a threshold determination. This can be realized by functioning as the unit 130, the polarity determination unit 131, and the input attribute condition determination unit 111.

また、図13のデータ分析装置100は、データ分析プログラムが、コンピュータを、文字−数値データ変換部1、分類条件設定部103、データ分類部104、分析データ群抽出部106、データ行分離部107、データ列抽出部5、頻度演算部6、頻度累積差演算部7、閾値決定部130、極性判定部131、入力属性条件決定部111、不良品分離度演算部112、第1の要因抽出部109、頻度累積比率演算部16、データ分割部115、終了条件判定部11、要因決定部117、複合要因不良数計算部118、数値−文字データ変換部119として機能させることにより実現することが可能である。   In the data analysis apparatus 100 of FIG. 13, the data analysis program includes a computer, a character-numeric data conversion unit 1, a classification condition setting unit 103, a data classification unit 104, an analysis data group extraction unit 106, and a data row separation unit 107. , Data string extraction unit 5, frequency calculation unit 6, frequency cumulative difference calculation unit 7, threshold value determination unit 130, polarity determination unit 131, input attribute condition determination unit 111, defective product separation degree calculation unit 112, first factor extraction unit 109, the frequency accumulation ratio calculation unit 16, the data division unit 115, the end condition determination unit 11, the factor determination unit 117, the complex factor defect number calculation unit 118, and the numerical value-character data conversion unit 119 can be realized. It is.

上記プログラムは、コンピュータで読み取り可能な記録媒体に格納してユーザに提供することができる。この記録媒体は、コンピュータ本体に内蔵された内蔵メディアであってもよいし、コンピュータ本体に対して分離可能に構成されたリムーバブル・メディアであってもよい。上記内蔵メディアとしては、ROM;フラッシュメモリ等の書き換え可能な不揮発性メモリ;ハードディスク等が挙げられる。また、上記リムーバブル・メディアとしては、CD−ROM、DVD等の光記録媒体;MO等の光磁気記録媒体;フロッピー(登録商標)ディスク、カセットテープ、リムーバブル・ハードディスク等の磁気記録媒体;メモリカード等のような書き換え可能な不揮発性メモリを内蔵したメディア;ROMカセット等のようなROMを内蔵したメディア等が挙げられる。   The program can be provided to the user by storing it in a computer-readable recording medium. The recording medium may be a built-in medium built in the computer main body, or a removable medium configured to be separable from the computer main body. Examples of the built-in medium include ROM; rewritable nonvolatile memory such as flash memory; and hard disk. In addition, as the removable media, optical recording media such as CD-ROM and DVD; magneto-optical recording media such as MO; magnetic recording media such as floppy (registered trademark) disk, cassette tape, and removable hard disk; memory cards and the like And a medium having a built-in rewritable nonvolatile memory such as a medium having a built-in ROM such as a ROM cassette.

上記プログラムは、CPUのアクセスにより実行される構成であってもよいし、記録媒体に格納されているプログラムを読み出し、読み出したプログラムを内蔵メディアのプログラム記憶領域に転送した後、内蔵メディア上のプログラムがCPUのアクセスにより実行される構成であってもよい。また、上記プログラムは、コンピュータで読み取り可能な記録媒体に格納された状態で販売されるものに限定されるものではなく、インターネット等の通信ネットワークを介してユーザのコンピュータに転送する形式で販売されるものであってもよい。   The program may be configured to be executed by CPU access, or after reading the program stored in the recording medium and transferring the read program to the program storage area of the built-in medium, the program on the built-in medium May be executed by CPU access. In addition, the program is not limited to be sold in a state where it is stored in a computer-readable recording medium, and is sold in a format that is transferred to a user's computer via a communication network such as the Internet. It may be a thing.

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
〔実施の形態1の変形例〕
上記の実施の形態1では、第1の要因抽出部109(ステップ110)により、入力属性条件決定部111で決定した入力属性条件の中で、分類後基本データ群DA00の不良品含有率よりも大きい値の不良品分離度をもつ入力属性条件を、不良品の第2データ群DA2の要因を示す情報として抽出していた。すなわち、決定木の分岐毎に、最終的な分岐条件だけでなく、全ての入力属性について問題事象(不良品の第2データ群DA2)の要因となる入力属性条件を求め、これらのうちで、不良品分離度の高い入力属性条件を抽出していた。
The present invention is not limited to the above-described embodiments, and various modifications are possible within the scope shown in the claims, and embodiments obtained by appropriately combining technical means disclosed in different embodiments. Is also included in the technical scope of the present invention.
[Modification of Embodiment 1]
In the first embodiment, the input factor condition determined by the input attribute condition determining unit 111 by the first factor extracting unit 109 (step 110) is higher than the defective product content rate of the basic data group DA00 after classification. An input attribute condition having a large value of defective product separation is extracted as information indicating the factor of the second data group DA2 of defective products. That is, for each branch of the decision tree, not only the final branch condition, but also the input attribute conditions that cause the problem event (defective product second data group DA2) for all input attributes, and among these, An input attribute condition with a high degree of defective product separation was extracted.

しかし、データ分析の目的によっては、このような詳細な分析よりも、簡潔さが要求される場合もあり得る。このような場合には、決定木における分岐条件のみを抽出すればよい。   However, depending on the purpose of data analysis, simplicity may be required rather than such detailed analysis. In such a case, only the branch condition in the decision tree has to be extracted.

本変形例では、実施の形態1(図13)のデータ分割部115の後段に、データ分割部115が抽出した、最大の分割ルール評価値をもつ入力属性条件(決定木における分岐条件)を、問題事象(不良品の第2データ群DA2)の要因となる入力属性条件として抽出する第2の要因抽出部(図示せず)を備えたものである。この場合、第1の要因抽出部109は、省略可能である。   In this modification, the input attribute condition (branch condition in the decision tree) having the maximum division rule evaluation value extracted by the data division unit 115 is extracted after the data division unit 115 of the first embodiment (FIG. 13). A second factor extraction unit (not shown) for extracting as an input attribute condition that causes a problem event (second data group DA2 of defective products) is provided. In this case, the first factor extraction unit 109 can be omitted.

〔実施の形態2〕
本発明の他の実施形態を以下に説明する。なお、説明の便宜上、前記実施の形態1にて示した各部材と同一の機能を有する部材には、同一の符号を付記し、その説明を省略する。
[Embodiment 2]
Other embodiments of the present invention are described below. For convenience of explanation, members having the same functions as those shown in the first embodiment are denoted by the same reference numerals, and description thereof is omitted.

まず、本実施形態のデータ分析装置を図1に基づいて説明する。   First, the data analysis apparatus of this embodiment is demonstrated based on FIG.

図1に示すように、データ分析装置は、文字−数値データ変換部1、分析対象データ格納部2、閾値設定部(閾値設定手段)3、データ分類部(分類手段)4、データ列抽出部5、頻度演算部(第1の評価手段の中の頻度演算手段)6、頻度累積差演算部(第1の評価手段の中の差分演算手段)7、入力属性閾値決定部(閾値決定手段)8、頻度累積比率演算部(第2の評価手段)16、第2の要因抽出部(第2の要因抽出手段)9、要因未発見データ抽出部(分割手段)10、終了条件判定部(終了条件判定手段)11、入力属性閾値テーブル作成部12、寄与率演算部13、分析結果データ格納部14、および出力部15を備えている。   As shown in FIG. 1, the data analysis apparatus includes a character-numerical data conversion unit 1, an analysis target data storage unit 2, a threshold setting unit (threshold setting unit) 3, a data classification unit (classification unit) 4, and a data string extraction unit. 5, frequency calculation unit (frequency calculation unit in the first evaluation unit) 6, frequency cumulative difference calculation unit (difference calculation unit in the first evaluation unit) 7, input attribute threshold determination unit (threshold determination unit) 8. Frequency cumulative ratio calculation unit (second evaluation unit) 16, second factor extraction unit (second factor extraction unit) 9, factor undiscovered data extraction unit (division unit) 10, end condition determination unit (end) A condition determination unit) 11, an input attribute threshold value table creation unit 12, a contribution rate calculation unit 13, an analysis result data storage unit 14, and an output unit 15.

次に、次の表48のデータ群DAを分析対象とする場合を例にとって、本実施形態のデータ分析方法を図2に基づいて説明する。表48のデータ群DAは、ハードディスク等の分析対象データ格納部2に格納されている。   Next, the data analysis method of the present embodiment will be described with reference to FIG. 2, taking as an example the case where the data group DA in the following Table 48 is an analysis target. The data group DA in Table 48 is stored in the analysis target data storage unit 2 such as a hard disk.

Figure 0004298531
Figure 0004298531

表48のデータ群DAは、1〜12のid(識別子)を持つ12個のデータから構成されている。表48において、x1,x2,x3,x4は入力属性である。入力属性x1は4つの文字A,B,C,Dのいずれかをとる文字属性である。入力属性x2は4つの文字a,b,c,dのいずれかをとる文字属性である。入力属性x3は4つの離散値1,2,3,4のいずれかをとる離散属性である。入力属性x4は4つの離散値10,20,30,40のいずれかをとる離散属性である。なお、入力属性は、連続した数値をとる連続属性でもよい。   The data group DA in Table 48 includes 12 pieces of data having ids (identifiers) 1 to 12. In Table 48, x1, x2, x3, and x4 are input attributes. The input attribute x1 is a character attribute that takes one of four characters A, B, C, and D. The input attribute x2 is a character attribute that takes one of the four characters a, b, c, and d. The input attribute x3 is a discrete attribute that takes one of four discrete values 1, 2, 3, and 4. The input attribute x4 is a discrete attribute taking any one of four discrete values 10, 20, 30, and 40. The input attribute may be a continuous attribute that takes a continuous numerical value.

また、表48において、yは出力属性である。出力属性は、文字属性であってもよく、離散属性でもよく、また連続属性でもよいが、ここでは、3つの文字X,Y,Zのいずれかをとる文字属性である。   In Table 48, y is an output attribute. The output attribute may be a character attribute, a discrete attribute, or a continuous attribute. Here, the output attribute is a character attribute that takes one of three characters X, Y, and Z.

本実施形態のデータ分析方法では、y=Yなる場合を問題事象として、出力属性yがYとなる要因を分析する。   In the data analysis method of the present embodiment, the case where y = Y is regarded as a problem event, and the cause of the output attribute y being Y is analyzed.

なお、分析対象データの例としては、例えば、入力属性が、製品の製造工程における製造プロセス条件および/またはインライン検査結果(製造ライン途中での検査結果)、出力属性が製品の品質判定結果、y=Yなる問題事象が品質判定結果の不良であるデータが挙げられる。この場合、本実施形態のデータ分析方法により入力属性と出力属性との因果関係を分析し、y=Yなる問題事象の要因を導き出すことで、デバイス特性不良等の不良品の発生を解消する対策を容易に図ることが可能となる。したがって、歩留まりの向上等のような製造プロセスの改善を容易に図ることが可能となる。   As an example of the analysis target data, for example, the input attribute is the manufacturing process condition and / or in-line inspection result (inspection result during the manufacturing line) in the product manufacturing process, the output attribute is the product quality determination result, y Data in which the problem event = Y is a bad quality determination result can be cited. In this case, the causal relationship between the input attribute and the output attribute is analyzed by the data analysis method of the present embodiment, and the cause of the problem event y = Y is derived, thereby eliminating the occurrence of defective products such as device characteristic defects. Can be easily achieved. Therefore, it is possible to easily improve the manufacturing process such as improvement in yield.

分析対象データのより具体的な例としては、例えば、入力属性x1、x2、x3、x4が、プラズマCVDプロセスの、ガス流量、ガス圧力、投入電力、成膜時間などのプロセスデータで、出力属性yが、プラズマCVDプロセスで形成される薄膜の膜厚であるようなデータが挙げられる。また、これら入力属性および出力属性の値は、連続属性でも離散属性でも文字属性でもよい。文字属性の場合には、例えば、出力属性が膜厚の例で、‘大’、‘中’、‘小’といった具合に表現される。   As a more specific example of analysis target data, for example, input attributes x1, x2, x3, and x4 are process data such as gas flow rate, gas pressure, input power, and film formation time of plasma CVD process, and output attributes. Data in which y is the thickness of a thin film formed by a plasma CVD process can be given. The values of the input attribute and output attribute may be continuous attributes, discrete attributes, or character attributes. In the case of the character attribute, for example, the output attribute is an example of the film thickness, and is expressed as “large”, “medium”, and “small”.

[ステップ0]
まず、文字−数値データ変換部1が、ハードディスク等の分析対象データ格納部2に格納された表48のデータ群DAにおける文字属性を下記の変換ルールに従って数値属性(数値データ)に変換する(S0)。これにより、各データは、数値データに変換される。そして、文字−数値データ変換部1は、変換されたデータ群をデータ分類部4に送る。
(x1)A→1、B→2、C→3、D→4
(x2)a→1、b→2、c→3、d→4
(x3)変換せず
(x4)変換せず
(y)X→1、Y→2、Z→3
この変換ルールは、可能な限り、変換後の入力属性の数値が大きいほど出力属性の数値が大きくなるようにあるいはその逆順となるように設定されることが好ましい。なお、変換ルールは、一義性さえあればよく、上記の例に限られない。
[Step 0]
First, the character-numeric data conversion unit 1 converts the character attributes in the data group DA of Table 48 stored in the analysis target data storage unit 2 such as a hard disk into numerical attributes (numeric data) according to the following conversion rule (S0). ). Thereby, each data is converted into numerical data. Then, the character-numeric data conversion unit 1 sends the converted data group to the data classification unit 4.
(X1) A → 1, B → 2, C → 3, D → 4
(X2) a → 1, b → 2, c → 3, d → 4
(X3) No conversion (x4) No conversion (y) X → 1, Y → 2, Z → 3
It is preferable that the conversion rule is set so that the numerical value of the output attribute increases as the numerical value of the input attribute after conversion increases, or vice versa. The conversion rule is not limited to the above example as long as it is unique.

上記変換ルールにて数値データに変換されたデータ群DA0は、表49に示す通りである。   The data group DA0 converted into numerical data by the conversion rule is as shown in Table 49.

Figure 0004298531
Figure 0004298531

この変換により、得られたデータ群DA0は、数値属性となる複数の入力属性(説明属性)と出力属性(目的属性)とで構成されるデータの集合となる。以下、データ群DA0を基本データ群と呼ぶ事にする。   By this conversion, the obtained data group DA0 becomes a set of data composed of a plurality of input attributes (description attributes) and output attributes (target attributes) that are numerical attributes. Hereinafter, the data group DA0 is referred to as a basic data group.

[ステップ1]
閾値設定部3は、予め定められた設定情報に従って、あるいは使用者が図示しないキーボードやマウス等の入力部から問題事象の属性値y=Yを入力したことに応答して、データ群DAのy=Yなる問題事象に対応する基本データ群DA0の出力属性yの閾値(出力属性閾値)ythを設定し、データ分類部4に出力する(S1)。この例においては、データ群DAのy=Yなる問題事象に対応する基本データ群DA0の出力属性yの閾値ythは、yth=2である。
[Step 1]
The threshold value setting unit 3 responds to predetermined setting information or in response to the user inputting the problem event attribute value y = Y from an input unit such as a keyboard or a mouse (not shown). The threshold value (output attribute threshold value) y th of the output attribute y of the basic data group DA0 corresponding to the problem event = Y is set and output to the data classification unit 4 (S1). In this example, the threshold y th of the output attribute y of the basic data group DA0 corresponding to the problem event y = Y of the data group DA is y th = 2.

[ステップ2]
次に、データ分類部4が、基本データ群DA0の出力属性yの値と、閾値設定部3から出力された出力属性閾値ythとの比較論理(1)(2)に基づいて、基本データ群DA0を、第1データ群DA1と第2データ群DA2とに2分化(分類)する(S2)。
[Step 2]
Next, the data classification unit 4 determines the basic data based on the comparison logic (1) (2) between the value of the output attribute y of the basic data group DA0 and the output attribute threshold y th output from the threshold setting unit 3. The group DA0 is divided into two groups (classification) into a first data group DA1 and a second data group DA2 (S2).

(1)y>ythまたはy<yth→DA1
(2)y=yth→DA2
言い換えると、データ分類部4は、基本データ群DA0を、出力属性が出力属性閾値ythと一致しない(すなわち1または3である)第1データ群DA1と、出力属性が出力属性閾値yth(=2)と一致する第2データ群DA2とに分類する。第2データ群DA2は問題事象(例えば、デバイス特性不良など)のデータ群である。すなわち、第2データ群DA2は出力属性yが問題事象を表す属性値(2)であるデータ群であり、第1データ群DA1は出力属性yが問題事象を表していない属性値(1または3)であるデータ群である。
(1) y> y th or y <y th → DA1
(2) y = y th → DA2
In other words, the data classification unit 4 includes the basic data group DA0, the first data group DA1 whose output attribute does not match the output attribute threshold y th (that is, 1 or 3), and the output attribute that is the output attribute threshold y th ( = 2) and the second data group DA2 that coincides with the second data group DA2. The second data group DA2 is a data group of problem events (for example, defective device characteristics). That is, the second data group DA2 is a data group whose output attribute y is an attribute value (2) representing a problem event, and the first data group DA1 is an attribute value (1 or 3) whose output attribute y does not represent a problem event. ).

第1データ群DA1を表50に、第2データ群DA2を表51に示す。   Table 50 shows the first data group DA1 and Table 51 shows the second data group DA2.

Figure 0004298531
Figure 0004298531

Figure 0004298531
Figure 0004298531

なお、以下では、適宜、第1データ群DA1を良品(OK品)データ群、第2データ群DA2を不良品(NG品)データ群と呼ぶ事にする。   In the following description, the first data group DA1 is appropriately referred to as a non-defective product (OK product) data group, and the second data group DA2 is referred to as a defective product (NG product) data group.

[ステップ3]
次に、データ列抽出部5が、良品データ群DA1(表50)から、入力属性xj(1≦j≦4)の各々のデータ列を抽出する(S3)。このデータ列を1−xjデータ群と呼ぶ事にする。
[Step 3]
Next, the data string extraction unit 5 extracts each data string of the input attribute xj (1 ≦ j ≦ 4) from the good product data group DA1 (Table 50) (S3). This data string is called a 1-xj data group.

同様に、データ列抽出部5は、不良品データ群DA2(表51)からも、入力属性xj(1≦j≦4)の各々のデータ列を抽出する(S3)。このデータ列を2−xjデータ群と呼ぶ事にする。   Similarly, the data string extraction unit 5 extracts each data string of the input attribute xj (1 ≦ j ≦ 4) from the defective product data group DA2 (Table 51) (S3). This data string is called a 2-xj data group.

1−xjデータ群を表52〜55に、2−xjデータ群を表56〜59に示す。   The 1-xj data group is shown in Tables 52 to 55, and the 2-xj data group is shown in Tables 56 to 59.

Figure 0004298531
Figure 0004298531

Figure 0004298531
Figure 0004298531

Figure 0004298531
Figure 0004298531

Figure 0004298531
Figure 0004298531

Figure 0004298531
Figure 0004298531

Figure 0004298531
Figure 0004298531

Figure 0004298531
Figure 0004298531

Figure 0004298531
Figure 0004298531

[ステップ4]
頻度演算部6は、ステップ3で良品データ群DA1から抽出された1−xjデータ群の各々、およびステップ3で不良品データ群DA2から抽出された2−xjデータ群の各々を、入力属性xjの値で昇順に並べ替える(並べ替え処理1)。そして、入力属性xjの個々の数値について、良品データ群DA1中において、入力属性xjがその数値以下であるデータ個数の割合を表す1−xj頻度累積%(第1の頻度)と、不良品データ群DA2中において、入力属性xjがその数値以下であるデータ個数の割合を表す2−xj頻度累積%(第2の頻度)とを計算する(S4)。
[Step 4]
The frequency calculation unit 6 inputs each of the 1-xj data group extracted from the non-defective product data group DA1 in step 3 and each of the 2-xj data group extracted from the defective product data group DA2 in step 3 to the input attribute xj. The values are sorted in ascending order by the value of (sorting process 1). For each numerical value of the input attribute xj, 1-xj frequency cumulative% (first frequency) representing the ratio of the number of data whose input attribute xj is equal to or less than the numerical value in the non-defective product data group DA1, and defective product data In the group DA2, 2-xj frequency cumulative% (second frequency) representing the ratio of the number of data whose input attribute xj is equal to or less than the numerical value is calculated (S4).

ここでは、表52〜55を入力属性xjの値で昇順に並べ替えた表60〜63を用い、各行(id)のデータについて表中でそのデータの位置以上の位置にあるデータ個数の、第1データ群の全データ数(=8)に対する割合を1−xj頻度累積%として計算している。同様に、表56〜59を入力属性xjの値で昇順に並べ替えた表64〜68を用い、各行(id)のデータについて表中でそのデータの位置以上の位置にあるデータ個数の、第2データ群の全データ数(=4)に対する割合を2−xj頻度累積%として計算している
ここで計算した1−xj頻度累積%および2−xj頻度累積%の値を表60〜67に示す。
Here, the tables 60 to 63 in which the tables 52 to 55 are rearranged in ascending order by the value of the input attribute xj are used, and the number of data at the position equal to or higher than the position of the data in the table for each row (id) data. The ratio of one data group to the total number of data (= 8) is calculated as 1-xj frequency cumulative%. Similarly, using Tables 64-68 in which Tables 56-59 are rearranged in ascending order by the value of the input attribute xj, the number of data at the position equal to or higher than the position of the data in the table for each row (id) data. The ratio of 2 data groups to the total number of data (= 4) is calculated as 2-xj frequency cumulative%. The values of 1-xj frequency cumulative% and 2-xj frequency cumulative% calculated here are shown in Tables 60 to 67. Show.

Figure 0004298531
Figure 0004298531

Figure 0004298531
Figure 0004298531

Figure 0004298531
Figure 0004298531

Figure 0004298531
Figure 0004298531

Figure 0004298531
Figure 0004298531

Figure 0004298531
Figure 0004298531

Figure 0004298531
Figure 0004298531

Figure 0004298531
Figure 0004298531

なお、上述したステップ3・4では、データ列を抽出し、並び替えを行った後に、1−xj頻度累積%および2−xj頻度累積%を計算していたが、データ列の抽出や並び替えを行うことなく直接的に1−xj頻度累積%および2−xj頻度累積%を計算してもかまわない。   In Steps 3 and 4 described above, after extracting and rearranging the data strings, 1-xj frequency cumulative% and 2-xj frequency cumulative% are calculated. The 1-xj frequency accumulation% and the 2-xj frequency accumulation% may be directly calculated without performing the above.

さらに、頻度演算部6は、1−xj頻度累積%が計算された良品データ群である1−xjデータ群のテーブルと、2−xj頻度累積%が計算された不良品データ群である2−xjデータ群のテーブルとを結合する。具体的には、入力属性x1について、表60と表64とを結合して表68のx1頻度累積テーブルを、入力属性x2について、表61と表65とを結合して表69のx2頻度累積テーブルを、入力属性x3について、表62と表66とを結合して表70のx3頻度累積テーブルを、入力属性x4について、表63と表67とを結合して表71のx4頻度累積テーブルを、それぞれ作成する。   Further, the frequency calculation unit 6 is a table of 1-xj data groups that are non-defective product data groups for which 1-xj frequency cumulative% is calculated, and 2-items that are defective product data groups for which 2-xj frequency cumulative% is calculated. The table of the xj data group is combined. Specifically, for the input attribute x1, Table 60 and Table 64 are combined to generate the x1 frequency accumulation table in Table 68, and for the input attribute x2, Table 61 and Table 65 are combined to generate the x2 frequency accumulation in Table 69. For the input attribute x3, the table 62 and the table 66 are combined to generate an x3 frequency accumulation table in Table 70, and for the input attribute x4, the table 63 and the table 67 are combined to generate an x4 frequency accumulation table in Table 71. , Create each.

Figure 0004298531
Figure 0004298531

Figure 0004298531
Figure 0004298531

Figure 0004298531
Figure 0004298531

Figure 0004298531
Figure 0004298531

さらに、頻度演算部6は、表68〜71の各々の頻度累積テーブルを、入力属性xjの値で昇順に並べ替える(並べ替え処理2)。並べ替え処理2の後、1−xj頻度累積%および2−xj頻度累積%の空欄に、上の空欄から順に、その直上の値(1行上のデータの値)を代入する(代入処理)。その後、入力属性xjにおいて同じ値が続いている行に対し、それらの行のうちの最終行のデータのみを採用する(重複処理)。こうして、頻度演算部6にて、表72〜表75に示すように、入力属性xjの各値に対して、良品データ群である第1データ群DA1中において、入力属性xjがその数値以下であるデータ個数の割合を表す1−xj頻度累積%(A;第1の頻度)と、不良品データ群である第2データ群DA2中において、入力属性xjがその数値以下であるデータ個数の割合を表す2−xj頻度累積%(B;第2の頻度)との双方が算出される(S4)。   Further, the frequency calculation unit 6 rearranges the frequency accumulation tables in Tables 68 to 71 in ascending order by the value of the input attribute xj (sorting process 2). After the rearrangement process 2, the value immediately above (the value of the data on one line) is assigned to the blanks of 1-xj frequency accumulation% and 2-xj frequency accumulation% in order from the upper blank (substitution process). . Thereafter, only the data of the last line among the lines with the same value in the input attribute xj is adopted (duplicate processing). In this way, as shown in Tables 72 to 75, the frequency calculation unit 6 sets the input attribute xj to be less than or equal to the value in the first data group DA1 that is a non-defective data group for each value of the input attribute xj. 1-xj frequency cumulative percentage (A; first frequency) representing the ratio of a certain number of data and the ratio of the number of data whose input attribute xj is less than or equal to the numerical value in the second data group DA2 which is a defective product data group And 2-xj frequency cumulative percentage (B; second frequency) representing the two are calculated (S4).

[ステップ5]
次に、頻度累積差演算部7が、入力属性xjの各値に対して、良品の1−xj頻度累積%(A)と、不良品の2−xj頻度累積%(B)の差分(=|A−B|)を計算する(S5)。この差分値を、xj頻度累積差%(=|A−B|)と呼ぶ。xj頻度累積差%の計算結果を表72〜表75に示す。
[Step 5]
Next, the frequency cumulative difference calculation unit 7 calculates, for each value of the input attribute xj, a difference between 1-xj frequency cumulative% (A) of a non-defective product and 2-xj frequency cumulative% (B) of a defective product (= | A−B |) is calculated (S5). This difference value is referred to as xj frequency cumulative difference% (= | A−B |). The calculation results of the xj frequency cumulative difference% are shown in Table 72 to Table 75.

Figure 0004298531
Figure 0004298531

Figure 0004298531
Figure 0004298531

Figure 0004298531
Figure 0004298531

Figure 0004298531
Figure 0004298531

入力属性xjの値と、良品の1−xj頻度累積%(A)、不良品の2−xj頻度累積%(B)、xj頻度累積差%|A−B|との関係を図3〜図6に示す。   The relationship between the value of the input attribute xj and the non-defective 1-xj frequency cumulative% (A), the defective 2-xj frequency cumulative% (B), and the xj frequency cumulative difference% | A-B | It is shown in FIG.

入力属性xjの各数値に対するxj頻度累積差%|A−B|は、入力属性xjがその数値以下の範囲と、入力属性xjがその数値を超える範囲との2分化によって、良品の第1データ群DA1と不良品の第2データ群DA2とがうまく切り分けられているかを表す指標である。言い換えると、xj頻度累積差%|A−B|は、入力属性がその数値以下であるデータが第1データ群および第2データ群のうちの一方に偏っている度合い、および、入力属性がその数値を超えるデータが第1データ群および第2データ群のうちの他方に偏っている度合いを総合的に表す閾値評価指標である。   The xj frequency cumulative difference% | AB | with respect to each numerical value of the input attribute xj is the first data of the non-defective product by bifurcation between the range where the input attribute xj is less than the numerical value and the range where the input attribute xj exceeds the numerical value. This is an index indicating whether the group DA1 and the defective second data group DA2 are well separated. In other words, the xj frequency cumulative difference% | A−B | is the degree to which data whose input attribute is less than or equal to the numerical value is biased to one of the first data group and the second data group, and the input attribute is This is a threshold evaluation index that comprehensively represents the degree to which the data exceeding the numerical value is biased to the other of the first data group and the second data group.

すなわち、入力属性xjの各数値に対するxj頻度累積差%は、「入力属性xjがその数値以下」または「入力属性xjがその数値を超える」という入力属性条件に対し、「入力属性が入力属性条件を満たせば、分析データ群中の第2データ群に属するデータであり、入力属性が入力属性条件を満たさなければ、分析データ群中の第1データ群に属するデータである」という第1の相関ルールの確からしさを表す、入力属性条件評価指標とみなすことができる。   That is, the xj frequency cumulative difference% with respect to each numerical value of the input attribute xj is “input attribute is an input attribute condition” with respect to an input attribute condition “input attribute xj is equal to or lower than the numerical value” or “input attribute xj exceeds the numerical value”. Is the data belonging to the second data group in the analysis data group, and if the input attribute does not satisfy the input attribute condition, it is data belonging to the first data group in the analysis data group. " It can be regarded as an input attribute condition evaluation index representing the probability of the rule.

なお、上記では、閾値評価指標としてxj頻度累積差%|A−B|を演算しているが、各数値に対する閾値評価指標として、データの偏りの度合いを評価する指標、例えば、情報利得(ゲイン)、情報利得比、Giniインデックス、平均自乗誤差等を用いてもよい。   In the above, xj frequency cumulative difference% | A−B | is calculated as a threshold evaluation index. However, as a threshold evaluation index for each numerical value, an index for evaluating the degree of data bias, for example, information gain (gain ), Information gain ratio, Gini index, mean square error, or the like may be used.

[ステップ6]
入力属性閾値決定部8が、各入力属性xjについて、それぞれ、xjの個々の値の中で、xj頻度累積差%|A−B|の値が最大となるときの入力属性xjの値を抽出する(S6)。この値を、入力属性閾値xj−thと呼ぶ事にする。
[Step 6]
The input attribute threshold value determination unit 8 extracts, for each input attribute xj, the value of the input attribute xj when the value of the xj frequency cumulative difference% | AB | is the maximum among the individual values of xj. (S6). This value is called an input attribute threshold value xj-th.

入力属性閾値xj−thは、図3〜図6を参照して分かるように、xj≦xj−thの範囲と、xj>xj−thの範囲との2分化によって、良品の第1データ群DA1と、不良品の第2データ群DA2との切分けが最も容易となる入力属性xjの値を示している。   As can be seen with reference to FIGS. 3 to 6, the input attribute threshold value xj-th is divided into a range of xj ≦ xj-th and a range of xj> xj-th, so that the non-defective first data group DA1. And the value of the input attribute xj that makes it easy to separate the defective product from the second data group DA2.

なお、ここでは、複数の入力属性について第3ステップ〜第6ステップの処理を一括して行っているが、jの値を1からNまで順次増加させて第3ステップ〜該第6ステップの処理を繰り返してもよい。   Here, the processing of the third step to the sixth step is collectively performed for a plurality of input attributes. However, the value of j is sequentially increased from 1 to N, and the processing of the third step to the sixth step is performed. May be repeated.

[ステップ7]
次に、頻度累積比率演算部16が、xj=xj−thにおいて、良品の1−xj頻度累積%(A)に対する、不良品の2−xj頻度累積%(B)の比率を計算する(S7)。この比率を、2−xjth下比率(=B/A)と呼ぶ事にする。また、100から良品の1−xj頻度累積%(A)を引いた値(=100−A)に対する、100から不良品の2−xj頻度累積%(B)を引いた値(=100−B)の比率を計算する(S7)。この比率を、2−xjth上比率(=(100−B)/(100−A))と呼ぶ事にする。そして、双方の比率のうちの大きい方の値を表す、2−xjth比率を抽出する。
[Step 7]
Next, the frequency cumulative ratio calculation unit 16 calculates the ratio of the defective product 2-xj frequency cumulative% (B) to the non-defective 1-xj frequency cumulative% (A) at xj = xj-th (S7). ). This ratio is called a 2-xjth lower ratio (= B / A). Further, the value obtained by subtracting the 2-xj frequency cumulative percentage (B) of defective products from 100 (= 100-B) with respect to the value obtained by subtracting the 1-xj frequency cumulative percentage (A) of good products from 100 (= 100-A). ) Is calculated (S7). This ratio is referred to as a 2-xjth upper ratio (= (100−B) / (100−A)). Then, a 2-xjth ratio representing the larger value of both ratios is extracted.

ここで、2−xjth下比率は、「xj≦xj−th」という入力属性条件により、良品の第1データ群と分離して不良品の第2データ群を検出できる割合を表している。また、2−xjth上比率は、「xj>xj−th」という入力属性条件により、良品の第1データ群と分離して不良品の第2データ群を検出できる割合を表している。   Here, the 2-xjth lower ratio represents a ratio at which the defective second data group can be detected separately from the first non-defective data group based on the input attribute condition “xj ≦ xj−th”. The 2-xjth upper ratio represents a ratio at which the defective second data group can be detected separately from the first non-defective data group based on the input attribute condition “xj> xj-th”.

言い換えると、2−xjth下比率は、「入力属性xjが入力属性閾値xj−th以下であれば第2データ群に含まれるデータである」という相関ルールの確からしさを表す評価値(第1のルール評価値)を表している。また、2−xjth上比率は、「入力属性xjが入力属性閾値xj−thを超えていれば第2データ群に含まれるデータである」という相関ルールの確からしさを表す評価値(第2のルール評価値)を表している。   In other words, the 2-xjth lower ratio is an evaluation value (the first value representing the probability of the association rule that “if the input attribute xj is equal to or less than the input attribute threshold xj-th, it is data included in the second data group”). Rule evaluation value). Further, the 2-xjth upper ratio is an evaluation value (second value) indicating the probability of the association rule “if the input attribute xj exceeds the input attribute threshold value xj-th, it is data included in the second data group”. Rule evaluation value).

入力属性閾値決定部8で各入力属性xjに対して決定(抽出)された入力属性閾値xj−th、xj=xj−thにおける、良品の1−xj頻度累積%(A)、不良品の2−xj頻度累積%(B)、xj頻度累積差%|A−B|、2−xjth下比率B/A、2−xjth上比率(100−B)/(100−A)、2−xjth比率の各値を表76に示す。   The input attribute threshold value determination unit 8 determines (extracts) each input attribute xj, and the input attribute threshold value xj-th, xj = xj-th, 1-xj frequency cumulative percentage (A) of non-defective products, 2 of defective products -Xj frequency cumulative% (B), xj frequency cumulative difference% | AB |, 2-xjth lower ratio B / A, 2-xjth upper ratio (100-B) / (100-A), 2-xjth ratio Table 76 shows these values.

Figure 0004298531
Figure 0004298531

[ステップ8]
第2の要因抽出部9が、x1〜x4の入力属性のうち、上記ステップ7の2−xjth比率が最大となる入力属性を抽出する(S8)。これにより、2−xjth比率が最大となる入力属性と、その閾値、採用した比率の種別(上、下)が第2データ群に対応する出力属性条件の要因(入力属性条件)を示すデータとして抽出されることになる。これは、全ての入力属性に関する前記相関ルールのうちで最も高い2−xjth下比率または2−xjth上比率を持つ相関ルールの入力属性条件を示すデータを抽出することに相当する。
[Step 8]
The second factor extraction unit 9 extracts an input attribute that maximizes the 2-xjth ratio in step 7 from the input attributes x1 to x4 (S8). As a result, the input attribute that maximizes the 2-xjth ratio, the threshold value, and the type of the employed ratio (upper and lower) are data indicating the cause of the output attribute condition (input attribute condition) corresponding to the second data group. Will be extracted. This is equivalent to extracting data indicating an input attribute condition of a correlation rule having the highest 2-xjth lower ratio or 2-xjth upper ratio among the correlation rules for all input attributes.

なお、ここでは、最大のルール評価値を持つ相関ルールの入力属性を抽出するための指標として2−xjth比率を演算しているが、最大のルール評価値を持つ相関ルールの入力属性を抽出するための指標として、他の評価指標、例えば、支持率(サポート)、確信度(コンフィデンス)、情報利得(ゲイン)、情報利得比、Giniインデックス、平均自乗誤差等を用いてもよい。   Here, the 2-xjth ratio is calculated as an index for extracting the input attribute of the correlation rule having the maximum rule evaluation value, but the input attribute of the correlation rule having the maximum rule evaluation value is extracted. As other indicators, other evaluation indicators such as support rate (support), certainty factor (confidence), information gain (gain), information gain ratio, Gini index, mean square error and the like may be used.

表76を参照して、入力属性x2=x2−th=2のとき、2−x2th比率=2−x2th上比率=∞となっている。これは、入力属性条件「x2>2」にて、良品の第1データ群DA1と完全に分離して、不良品の第2データ群DA2を検出できる事を示しており、この事は、図4を参照すると、より理解しやすい。   Referring to Table 76, when input attribute x2 = x2-th = 2, 2-x2th ratio = 2-x2th upper ratio = ∞. This indicates that, under the input attribute condition “x2> 2,” the second data group DA2 of defective products can be detected completely separated from the first data group DA1 of non-defective products. 4 is easier to understand.

上記抽出された、入力属性(=x2)、該入力属性の値を表す入力属性閾値(=2)、および採用した比率の種別(=上)のデータを分析結果データ格納部14に保存する。   The extracted data of the input attribute (= x2), the input attribute threshold value (= 2) representing the value of the input attribute, and the adopted ratio type (= top) are stored in the analysis result data storage unit 14.

以上のようにして、問題事象(不良品の第2データ群DA2)の一要因として、「x2>2」という入力属性条件が抽出された。
[ステップ9]
上記ステップ8にて、問題事象(不良品の第2データ群DA2)の一要因として、「x2>2」という入力属性条件が抽出されたので、次に、別の要因を調査する。このため、要因未発見データ抽出部10が、基本データ群DA0(表49)を入力属性条件「x2>2」を満たすデータ群(要因データ群)と、基本データ群DA0(表49)の中で問題事象の要因をまだ発見できていないデータ群(他データ群)、すなわち入力属性条件「x2≦2」を満たす(入力属性条件「x2>2」を満たさない)データ群とに分割し、問題事象の要因をまだ発見できていないデータ群を抽出する(S9;表77参照)。
As described above, the input attribute condition “x2> 2” is extracted as one factor of the problem event (the second data group DA2 of defective products).
[Step 9]
In step 8, the input attribute condition “x2> 2” is extracted as one factor of the problem event (second data group DA2 of defective products). Next, another factor is investigated. Therefore, the factor-undiscovered data extraction unit 10 includes the basic data group DA0 (Table 49) in the data group (factor data group) that satisfies the input attribute condition “x2> 2” and the basic data group DA0 (Table 49). And a data group that has not yet found the cause of the problem event (other data group), that is, a data group that satisfies the input attribute condition “x2 ≦ 2” (does not satisfy the input attribute condition “x2> 2”), A data group for which the cause of the problem event has not yet been found is extracted (S9; see Table 77).

Figure 0004298531
Figure 0004298531

要因未発見データ抽出部10は、抽出されたデータ群を次の(新しい)基本データ群DA0としてデータ分類部4に送る。   The factor undiscovered data extraction unit 10 sends the extracted data group to the data classification unit 4 as the next (new) basic data group DA0.

[ステップ10]
そして、ステップ9で抽出されたデータ群を次の基本データ群DA0として、終了条件判定部11で終了条件を満たしていると判定されるまで、上記のステップ2〜ステップ9の処理が繰り返される。すなわち、ステップ9で抽出されたデータ群を次の基本データ群DA0として、終了条件判定部11で終了条件を満たしていると判定されるまで、上記のステップ2〜ステップ9の処理が繰り返される。本実施形態の終了条件判定部11は、繰返し処理中の上記ステップ2において不良品の第2データ群DA2のデータ個数が0となった場合を終了条件と判定するようになっている。このように不良品の第2データ群DA2のデータ個数が0となるまで繰り返し処理を実行することにより、詳細な要因分析結果が得られる。
[Step 10]
Then, the data group extracted in step 9 is set as the next basic data group DA0, and the processes in steps 2 to 9 are repeated until the end condition determining unit 11 determines that the end condition is satisfied. That is, the data group extracted in step 9 is set as the next basic data group DA0, and the above-described processing in steps 2 to 9 is repeated until the end condition determination unit 11 determines that the end condition is satisfied. The end condition determination unit 11 according to the present embodiment determines that the end condition is a case where the number of data in the second data group DA2 of defective products becomes 0 in the above-described step 2 during the iterative process. As described above, detailed factor analysis results can be obtained by repeatedly performing the process until the number of data in the second data group DA2 of defective products becomes zero.

なお、終了条件は、第2データ群DA2のデータ個数に基づく他の終了条件、例えば、(1)繰返し処理中の上記ステップ2において第2データ群DA2のデータ個数が所定数以下となった場合、(2)繰返し処理中の上記ステップ2において第1データ群DA1のデータ個数に対する第2データ群DA2のデータ個数の割合が所定割合以下となった場合、(3)繰返し処理中の上記ステップ8において抽出された入力属性条件のルール評価値が所定の値を下回った場合等としてもよい。これらのような終了条件を用いた場合、より簡潔で十分な要因分析結果を得ることができる。さらに、簡潔な要因分析結果を得ることを優先する場合には、終了条件を単に繰返し処理を所定回数行った場合としたり、終了条件判定部11を省いて、可能な限り繰り返し処理を行うようにしてもよい。   Note that the end condition is another end condition based on the number of data in the second data group DA2, for example, (1) When the number of data in the second data group DA2 is equal to or less than a predetermined number in the above step 2 during the repetitive processing. (2) When the ratio of the number of data in the second data group DA2 to the number of data in the first data group DA1 is equal to or less than a predetermined ratio in the above step 2 during the iterative process, (3) step 8 during the iterative process. The rule evaluation value of the input attribute condition extracted in step 1 may be lower than a predetermined value. When such termination conditions are used, a simpler and sufficient factor analysis result can be obtained. Further, when priority is given to obtaining a concise factor analysis result, the end condition is simply a case where the iterative process is performed a predetermined number of times, or the end condition determining unit 11 is omitted and the iterative process is performed as much as possible. May be.

今回の例では、2回目の繰り返し処理中のステップ9で抽出した、要因未発見の、x1≦2のデータ群に不良品のデータ(第2データ群DA2;y=2)が含まれていなかったため、繰り返し処理は2回目で(2回目の要因抽出まで行って)終了した。   In this example, defective data (second data group DA2; y = 2) is not included in the data group of x1 ≦ 2 that has not been found and extracted in step 9 during the second iteration. Therefore, the iterative process was completed at the second time (after the factor extraction was performed for the second time).

[ステップ11]
入力属性閾値テーブル作成部12が、ステップ10の繰り返し処理毎に抽出された入力属性xjと、入力属性閾値xj−thと、採用された比率の種別とを格納した入力属性閾値テーブルを作成する(S11;表78参照)。
[Step 11]
The input attribute threshold value table creation unit 12 creates an input attribute threshold value table that stores the input attribute xj extracted for each repetition process of step 10, the input attribute threshold value xj-th, and the type of ratio adopted ( S11; see Table 78).

Figure 0004298531
Figure 0004298531

入力属性閾値テーブル作成部12では、必要に応じて、入力属性閾値テーブルにおける入力属性閾値xj−thの数値を文字データに変換する。文字データへの変換ルールは、ステップ0の変換の逆変換となるルールであり、下記の通りである。
(x1)1→A、2→B、3→C、4→D
(x2)1→a、2→b、3→c、4→d
(x3)変換せず
(x4)変換せず
表78の入力属性閾値テーブルにおける入力属性閾値xj−thを文字データに変換した入力属性閾値テーブルを表79に示す。
The input attribute threshold value table creating unit 12 converts the numerical value of the input attribute threshold value xj-th in the input attribute threshold value table into character data as necessary. The conversion rule for character data is a rule that is the reverse conversion of the conversion in step 0, and is as follows.
(X1) 1 → A, 2 → B, 3 → C, 4 → D
(X2) 1 → a, 2 → b, 3 → c, 4 → d
(X3) Not converted (x4) Not converted Table 79 shows an input attribute threshold value table in which the input attribute threshold value xj-th in the input attribute threshold value table of Table 78 is converted into character data.

Figure 0004298531
Figure 0004298531

この入力属性閾値テーブルは、特許文献1に記載の従来の決定木−2(図12)において、出力属性y=Y(y=2)の切分けに着目した場合の決定木の分類条件に対応する。   This input attribute threshold value table corresponds to the classification conditions of the decision tree when focusing on the separation of the output attribute y = Y (y = 2) in the conventional decision tree-2 described in Patent Document 1 (FIG. 12). To do.

[ステップ12]
次に、寄与率演算部13が、表78の入力属性閾値テーブルから、抽出された入力属性条件の、問題事象(y=2:不良品データ群である、元の第2データ群DA2)に対する寄与率(全不良数の中で、当該入力属性条件に起因する不良数の割合)を求める。
[Step 12]
Next, the contribution rate calculating unit 13 extracts the input attribute condition extracted from the input attribute threshold value table of Table 78 for the problem event (y = 2: the original second data group DA2 which is a defective product data group). The contribution ratio (the ratio of the number of defects due to the input attribute condition in the total number of defects) is obtained.

表80は、問題事象(不良品)である元の第2データ群DA2(表51)において、その要因として1回目に抽出された「x2>2」なる入力属性条件、または、2回目に抽出された「x1>2」なる入力属性条件、に該当するデータに「*」を付したものである。   Table 80 shows the input attribute condition “x2> 2” extracted as the first factor as the factor in the original second data group DA2 (Table 51), which is a problem event (defective product), or extracted the second time. The data corresponding to the input attribute condition “x1> 2” is added with “*”.

Figure 0004298531
Figure 0004298531

表80から、問題事象(元の第2データ群DA2)に対する入力属性条件「x1>2」、「x2>2」の寄与率が表81に示すように求められる。   From Table 80, the contribution ratios of the input attribute conditions “x1> 2” and “x2> 2” for the problem event (original second data group DA2) are obtained as shown in Table 81.

Figure 0004298531
Figure 0004298531

表81において、「x1>2」と「x1>2」との交差部に示す寄与率、及び「x2>2」と「x2>2」との交差部に示す寄与率は、それぞれ「x1>2」単独要因の寄与率、及び「x2>2」単独要因の寄与率を、それぞれ表している。また、「x1>2」と「x2>2」との交差部に示す寄与率は何れも、「x1>2」要因と「x2>2」要因との複合要因の寄与率を表している。なお、表81は、図7のようにも表現できる。   In Table 81, the contribution ratio shown at the intersection of “x1> 2” and “x1> 2” and the contribution ratio shown at the intersection of “x2> 2” and “x2> 2” are “x1>”, respectively. 2 ”represents the contribution rate of the single factor, and“ x2> 2 ”represents the contribution rate of the single factor. In addition, the contribution ratios shown at the intersections of “x1> 2” and “x2> 2” all represent the contribution ratios of the combined factors of the “x1> 2” factor and the “x2> 2” factor. The table 81 can also be expressed as shown in FIG.

[ステップ13]
以上でデータ分析を終了し、入力属性閾値テーブル作成部12で作成された入力属性閾値テーブルや、寄与率のデータが、分析結果データとしてハードディスク等の分析結果データ格納部14に格納される。この分析結果データは、適宜、分析結果データ格納部14から表示装置や印刷装置等の出力部15に送られ、表示装置にて決定木やテーブルとして表示したり、印刷装置にて決定木やテーブルとして印刷したりすることができる。
[Step 13]
The data analysis is thus completed, and the input attribute threshold value table created by the input attribute threshold value table creating unit 12 and the contribution rate data are stored as analysis result data in the analysis result data storage unit 14 such as a hard disk. The analysis result data is appropriately sent from the analysis result data storage unit 14 to the output unit 15 such as a display device or a printing device, and is displayed on the display device as a decision tree or table, or is determined by the printing device. Can be printed as.

本実施形態によれば、特許文献1に記載の、従来の決定木−2(図12)のように、ラベル階層構造(図11)を予め定義しなくても、表79(または表78)の入力属性閾値テーブルに示したような非常に簡潔な形で、問題事象の要因を導き出せる。そして、これを用いて、問題事象に対する各要因(入力属性)の寄与率を求める事ができる。   According to the present embodiment, as in the conventional decision tree-2 (FIG. 12) described in Patent Document 1, the label hierarchy structure (FIG. 11) is not defined in advance, but the table 79 (or table 78) can be obtained. The cause of the problem event can be derived in a very simple form as shown in the input attribute threshold value table. Then, using this, the contribution rate of each factor (input attribute) to the problem phenomenon can be obtained.

ここで、表79(または表78)に示される本実施形態の入力属性閾値テーブルを、決定木の形式で表現すると、図8のように表される。また、従来の決定木−2(図12)を用いて、図7と同じ形式で、問題事象y=Y(=2)に対する各要因の寄与率を表現すると、図9のようになる。   Here, when the input attribute threshold value table of this embodiment shown in Table 79 (or Table 78) is expressed in the form of a decision tree, it is expressed as shown in FIG. Also, when the contribution rate of each factor to the problem event y = Y (= 2) is expressed in the same format as FIG. 7 using the conventional decision tree-2 (FIG. 12), it is as shown in FIG.

本実施形態から導かれる決定木(図8)と、従来の決定木−2(図12)とを比較すると、本実施形態の場合には、入力属性x3の寄与が表現されていない。これは、図7と図9とを比較して分かるように、問題事象y=Y(y=2)が、入力属性x1およびx3の、それぞれの単独要因では発生していないからであり、上記の2回目の繰り返し操作中のステップ9において、x1>2のデータ群に対して繰り返し処理(ステップ10)を実行しなかった事に因る。   When the decision tree derived from the present embodiment (FIG. 8) is compared with the conventional decision tree-2 (FIG. 12), the contribution of the input attribute x3 is not expressed in the present embodiment. This is because the problem event y = Y (y = 2) does not occur due to the single factors of the input attributes x1 and x3, as can be seen by comparing FIG. 7 and FIG. This is because, in step 9 during the second repetitive operation, the repetitive process (step 10) is not executed for the data group of x1> 2.

詳細に要因を追求する場合には、入力属性x3の寄与も抽出する必要があるが、問題事象y=Y(y=2)を除去する(改善する)事を目的すれば、入力属性x1のみの抽出であってもこの目的を十分に達成できる。本実施形態では、この点に着目し、問題事象に対して対策すべき主要因を抽出しているため、入力属性x3を抽出していない。詳細な分析を必要とする場合には、上記ステップ9で2分化されたデータ群の双方に対して、繰り返し処理(ステップ10)を実行すればよい。   When pursuing factors in detail, it is also necessary to extract the contribution of the input attribute x3. However, for the purpose of removing (improving) the problem event y = Y (y = 2), only the input attribute x1 is required. Even this extraction can sufficiently achieve this purpose. In the present embodiment, paying attention to this point, the main factor that should be taken against the problem phenomenon is extracted, so the input attribute x3 is not extracted. If a detailed analysis is required, iterative processing (step 10) may be performed on both of the data groups divided in step 9 above.

なお、上述した実施形態では、複数の要因を導き出し決定木を生成していたが、単に一つの要因だけを抽出したい場合であれば、ステップ8で終了してもよい。   In the above-described embodiment, a plurality of factors are derived and a decision tree is generated. However, if only one factor is desired to be extracted, the process may end in step 8.

以上で説明したデータ分析方法は、コンピュータが図2のS0〜S12(ステップ0〜13)に対応するプロセスを含むデータ分析プログラムを実行することによって実現できる。したがって、図1のデータ分析装置は、データ分析プログラムが、コンピュータを文字−数値データ変換部1、分析対象データ格納部2、閾値設定部3、データ分類部4、データ列抽出部5、頻度演算部6、頻度累積差演算部7、入力属性閾値決定部8、頻度累積比率演算部16、第2の要因抽出部9、要因未発見データ抽出部10、終了条件判定部11、入力属性閾値テーブル作成部12、および寄与率演算部13として機能させることにより実現することが可能である。   The data analysis method described above can be realized by the computer executing a data analysis program including processes corresponding to S0 to S12 (steps 0 to 13) in FIG. Therefore, in the data analysis apparatus of FIG. 1, the data analysis program includes a computer that converts a character-numeric data conversion unit 1, an analysis target data storage unit 2, a threshold setting unit 3, a data classification unit 4, a data string extraction unit 5, a frequency calculation. Unit 6, frequency cumulative difference calculation unit 7, input attribute threshold value determination unit 8, frequency cumulative ratio calculation unit 16, second factor extraction unit 9, factor undiscovered data extraction unit 10, end condition determination unit 11, input attribute threshold value table This can be realized by functioning as the creation unit 12 and the contribution rate calculation unit 13.

上記プログラムは、コンピュータで読み取り可能な記録媒体に格納してユーザに提供することができる。この記録媒体は、コンピュータ本体に内蔵された内蔵メディアであってもよいし、コンピュータ本体に対して分離可能に構成されたリムーバブル・メディアであってもよい。上記内蔵メディアとしては、ROM;フラッシュメモリ等の書き換え可能な不揮発性メモリ;ハードディスク等が挙げられる。また、上記リムーバブル・メディアとしては、CD−ROM、DVD等の光記録媒体;MO等の光磁気記録媒体;フロッピー(登録商標)ディスク、カセットテープ、リムーバブル・ハードディスク等の磁気記録媒体;メモリカード等のような書き換え可能な不揮発性メモリを内蔵したメディア;ROMカセット等のようなROMを内蔵したメディア等が挙げられる。   The program can be provided to the user by storing it in a computer-readable recording medium. The recording medium may be a built-in medium built in the computer main body, or a removable medium configured to be separable from the computer main body. Examples of the built-in medium include ROM; rewritable nonvolatile memory such as flash memory; and hard disk. In addition, as the removable media, optical recording media such as CD-ROM and DVD; magneto-optical recording media such as MO; magnetic recording media such as floppy (registered trademark) disk, cassette tape, and removable hard disk; memory cards and the like And a medium having a built-in rewritable nonvolatile memory such as a medium having a built-in ROM such as a ROM cassette.

上記プログラムは、CPUのアクセスにより実行される構成であってもよいし、記録媒体に格納されているプログラムを読み出し、読み出したプログラムを内蔵メディアのプログラム記憶領域に転送した後、内蔵メディア上のプログラムがCPUのアクセスにより実行される構成であってもよい。また、上記プログラムは、コンピュータで読み取り可能な記録媒体に格納された状態で販売されるものに限定されるものではなく、インターネット等の通信ネットワークを介してユーザのコンピュータに転送する形式で販売されるものであってもよい。   The program may be configured to be executed by CPU access, or after reading the program stored in the recording medium and transferring the read program to the program storage area of the built-in medium, the program on the built-in medium May be executed by CPU access. In addition, the program is not limited to be sold in a state where it is stored in a computer-readable recording medium, and is sold in a format that is transferred to a user's computer via a communication network such as the Internet. It may be a thing.

なお、本実施形態では、データ分類部4において出力属性と出力属性閾値との比較により分類を行っていたが、出力属性が文字属性である場合、文字−数値データ変換部1で出力属性を数値属性に変換せず、データ分類部4において出力属性と要因分析対象となる出力属性(文字;Y)との比較により分類を行うようにしてもよい。   In this embodiment, the data classification unit 4 classifies the output attribute by comparing the output attribute with the output attribute threshold value. However, when the output attribute is a character attribute, the character-numeric data conversion unit 1 sets the output attribute to a numerical value. Instead of converting into attributes, the data classification unit 4 may perform classification by comparing the output attributes with the output attributes (characters; Y) to be analyzed.

本実施形態に係るデータ分析方法は、以上のように、N個(Nは2以上の整数)の属性からなるN列の入力属性のデータと、1個の属性からなる1列の出力属性のデータとで構成される基本データ群を分析対象とし、該出力属性と該入力属性との因果関係を分析するデータ分析方法であって、出力属性閾値を設定する第1ステップと、該出力属性の値と該出力属性閾値との比較に基づいて、該基本データ群を、第1データ群と第2データ群とに2分化する第2ステップと、該第1データ群および該第2データ群の各々から、第J入力属性(Jは、1≦J≦Nなる関係にある整数)のデータ列を表す1−Jデータ列および2−Jデータ列を、それぞれ抽出する第3ステップと、該1−Jデータ列の該第J入力属性の個々の値に対して、その値以下のデータ個数の割合を表す1−J頻度累積(%)を計算し、該2−Jデータ列の該第J入力属性の個々の値に対して、その値以下のデータ個数の割合を表す2−J頻度累積(%)を計算する第4ステップと、該1−Jデータ列および該2−Jデータ列の双方を含めた、該第J入力属性の全ての値の個々に対して、該1−J頻度累積(%)と該2−J頻度累積(%)との差の絶対値を表す、第J頻度累積差を計算す
る第5ステップと、第J頻度累積差の値が最大となるときの第J入力属性の値を第J入力属性閾値として抽出する第6ステップと、第J入力属性が第J入力属性閾値であるときにおいて、該1−J頻度累積(%)に対する該2−J頻度累積(%)の比率を表す2−J下比率、および、100から該1−J頻度累積(%)を引いた値に対する、100から該2−J頻度累積(%)を引いた値の比率を表す2−J上比率を計算し、双方の比率のうちの大きい方の値を示す、2−J比率を抽出する第7ステップと、Jの値を1からNまで順次増加させて、該第3ステップ〜該第7ステップの操作を繰り返し、繰り返し操作中の該第7ステップで抽出された、第1から第Nまでの入力属性の該2−J比率のうち、その値が最大となる入力属性、該入力属性の値を表す入力属性閾値、および採用した比率の種別を抽出し、保存する第8ステップと、該第8ステップで抽出された入力属性に基づいて、該基本データ群を2分化する第9ステップと、該第9ステップで2分化されたデータ群のうちの少なくとも一方を、新たな基本データ群として、所定の終了条件を満たすまで、該第2ステップ〜該第9ステップの操作を繰返す第10ステップとを含む。
As described above, the data analysis method according to the present embodiment includes N columns of input attribute data including N attributes (N is an integer of 2 or more) and one column of output attributes including one attribute. A data analysis method for analyzing a causal relationship between the output attribute and the input attribute, and a first step of setting an output attribute threshold; A second step of dividing the basic data group into a first data group and a second data group based on a comparison between the value and the output attribute threshold value; and the first data group and the second data group A third step of extracting a 1-J data string and a 2-J data string each representing a data string of a Jth input attribute (J is an integer having a relationship of 1 ≦ J ≦ N); -For each value of the Jth input attribute of the J data string, 1-J frequency accumulation (%) representing the ratio of the number of data of 2 is calculated, and for each value of the Jth input attribute of the 2-J data string, 2 representing the ratio of the number of data less than that value -For the fourth step of calculating the J frequency accumulation (%) and for each individual value of all of the Jth input attributes, including both the 1-J data string and the 2-J data string, The fifth step of calculating the J-th frequency cumulative difference, which represents the absolute value of the difference between the 1-J frequency cumulative (%) and the 2-J frequency cumulative (%), and the value of the J-th frequency cumulative difference is the maximum The sixth step of extracting the value of the J-th input attribute as the J-th input attribute threshold value, and the second step with respect to the 1-J frequency accumulation (%) when the J-th input attribute is the J-th input attribute threshold value -J lower ratio representing the ratio of J frequency accumulation (%), and subtracting 1-J frequency accumulation (%) from 100 The 2-J upper ratio representing the ratio of the value obtained by subtracting the 2-J frequency accumulation (%) from 100 is calculated, and the 2-J ratio indicating the larger value of both ratios is extracted. The seventh step and the value of J are sequentially increased from 1 to N, the operations of the third step to the seventh step are repeated, and the first to Nth extracted in the seventh step during the repeated operation An eighth step of extracting and storing the input attribute having the maximum value, the input attribute threshold representing the value of the input attribute, and the type of the adopted ratio among the 2-J ratio of the input attribute up to Based on the input attribute extracted in the eighth step, at least one of the ninth step for dividing the basic data group into two and the data group divided in the ninth step is used as a new basic data group. Until the predetermined termination condition is satisfied. And a tenth step for repeating the operation of the ninth step.

上記方法によれば、ラベル階層構造を予め定義しなくても、非常に簡潔な形で問題事象の要因を複数導き出せる。そして、これを用いて、因果関係を表す決定木を作成したり、問題事象(出力属性)に対する各要因(入力属性)の寄与率を求めたりする事ができる。   According to the above method, it is possible to derive a plurality of factors of problem events in a very simple form without defining the label hierarchical structure in advance. Then, by using this, it is possible to create a decision tree representing a causal relationship, and obtain the contribution rate of each factor (input attribute) to the problem event (output attribute).

本発明は、分析対象である出力属性(目的属性)、例えば製造工程で製造される製品の特性等と、出力属性に影響を与える属性である入力属性(説明属性)、例えば製造プロセス条件等とで構成されるデータに対して、出力属性の値がまとまるような入力属性条件を決定すること、あるいは、入力属性と出力属性との因果関係を分析することに利用できる。したがって、本発明は、例えば製造業における製造工程の改良に利用できる。   The present invention provides an output attribute (object attribute) to be analyzed, such as characteristics of a product manufactured in a manufacturing process, and an input attribute (explanatory attribute) that is an attribute affecting the output attribute, such as a manufacturing process condition. Can be used to determine the input attribute condition for the output attribute value to be collected, or to analyze the causal relationship between the input attribute and the output attribute. Therefore, this invention can be utilized for improvement of the manufacturing process in the manufacturing industry, for example.

本発明の一実施形態に係るデータ分析装置の構成を示すブロック図である。It is a block diagram which shows the structure of the data analyzer which concerns on one Embodiment of this invention. 本発明の一実施形態に係るデータ分析方法を示すフローチャートである。It is a flowchart which shows the data analysis method which concerns on one Embodiment of this invention. 本発明の実施形態に係るデータ分析装置における頻度累積差演算部7の出力の一例をグラフで表したもので、入力属性x1と、良品の1−x1頻度累積(A)、不良品の2−x1頻度累積(B)、x1頻度累積差|A−B|との関係を示す。FIG. 7 is a graph showing an example of the output of the frequency accumulation difference calculation unit 7 in the data analysis apparatus according to the embodiment of the present invention, and includes an input attribute x1, a non-defective 1-x1 frequency accumulation (A), and a non-defective 2- The relationship between x1 frequency accumulation (B) and x1 frequency accumulation difference | AB | is shown. 本発明の実施形態に係るデータ分析装置における頻度累積差演算部7の出力の一例をグラフで表したもので、入力属性x2と、良品の1−x2頻度累積(A)、不良品の2−x2頻度累積(B)、x2頻度累積差|A−B|との関係を示す。FIG. 7 is a graph showing an example of the output of the frequency cumulative difference calculation unit 7 in the data analysis apparatus according to the embodiment of the present invention. The input attribute x2, the non-defective 1-x2 frequency accumulation (A), and the defective 2- The relationship between x2 frequency accumulation (B) and x2 frequency accumulation difference | AB | is shown. 本発明の実施形態に係るデータ分析装置における頻度累積差演算部7の出力の一例をグラフで表したもので、入力属性x3と、良品の1−x3頻度累積(A)、不良品の2−x3頻度累積(B)、x3頻度累積差|A−B|との関係を示す。FIG. 7 is a graph showing an example of the output of the frequency cumulative difference calculation unit 7 in the data analysis apparatus according to the embodiment of the present invention. The input attribute x3, the non-defective 1-x3 frequency accumulation (A), and the defective 2- The relationship between x3 frequency accumulation (B) and x3 frequency accumulation difference | AB | is shown. 本発明の実施形態に係るデータ分析装置における頻度累積差演算部7の出力の一例をグラフで表したもので、入力属性x4と、良品の1−x4頻度累積(A)、不良品の2−x4頻度累積(B)、x4頻度累積差|A−B|との関係を示す。FIG. 6 is a graph showing an example of the output of the frequency accumulation difference calculation unit 7 in the data analysis apparatus according to the embodiment of the present invention, where an input attribute x4, a non-defective 1-x4 frequency accumulation (A), and a non-defective 2- The relationship between x4 frequency accumulation (B) and x4 frequency accumulation difference | AB | is shown. 本発明の一実施形態に係るデータ分析装置における寄与率演算部13(ステップ12)で出力されるデータの一例であり、問題事象である出力属性条件y=2(=Y)に対する入力属性条件「x1>2」および入力属性条件「x2>2」の寄与率を示す。It is an example of the data output by the contribution rate calculating part 13 (step 12) in the data analyzer which concerns on one Embodiment of this invention, and the input attribute condition "with respect to the output attribute condition y = 2 (= Y) which is a problem event" x1> 2 ”and the contribution ratio of the input attribute condition“ x2> 2 ”. 本発明の実施形態の入力属性閾値テーブルを、決定木の形式で表現した図である。It is the figure which expressed the input attribute threshold value table of the embodiment of the present invention in the form of a decision tree. 従来の決定木−2を、図7と同じ形式で表現した図である。It is the figure which expressed the conventional decision tree-2 in the same format as FIG. 従来の決定木−1を表す図である。It is a figure showing the conventional decision tree-1. 従来の決定木−2のラベル階層構造を表す図であり、(a)はx1属性、(b)はx2属性、(c)はx3属性、(d)はx4属性を示す。It is a figure showing the label hierarchical structure of the conventional decision tree-2, (a) shows x1 attribute, (b) shows x2 attribute, (c) shows x3 attribute, (d) shows x4 attribute. 従来の決定木−2を表す図である。It is a figure showing the conventional decision tree-2. 本発明の他の実施形態に係る入力属性条件決定装置およびデータ分析装置の構成を示すブロック図である。It is a block diagram which shows the structure of the input attribute condition determination apparatus and data analysis apparatus which concern on other embodiment of this invention. 本発明の他の実施形態に係るデータ分析方法を示すフローチャートである。It is a flowchart which shows the data analysis method which concerns on other embodiment of this invention. 本発明の他の実施形態に係る入力属性条件決定方法を示すフローチャートである。It is a flowchart which shows the input attribute condition determination method which concerns on other embodiment of this invention. 本発明の他の実施形態に係るデータ分析装置における不良品分離度演算部112(ステップ109)で出力されるデータの一例(表35)を、ベン図で表現した図である。It is the figure which expressed an example (Table 35) of the data output by the inferior goods isolation | separation degree calculating part 112 (step 109) in the data analyzer which concerns on other embodiment of this invention with the Venn diagram. 本発明の他の実施形態に係るデータ分析方法の要因抽出(ステップ110)、および要因決定(ステップ114)の過程を、決定木の形式で表現した図である。It is the figure which expressed the process of the factor extraction (step 110) and the factor determination (step 114) of the data analysis method which concerns on other embodiment of this invention in the form of the decision tree. 本発明の他の実施形態に係るデータ分析装置における要因決定部117(ステップ114)で出力される決定要因一覧テーブルの一例(表47)について、各入力属性条件に対する不良数を棒グラフで、不良品分離度(第2データ群分離度)を折れ線グラフで表現した図である。Regarding the example of the determination factor list table (Table 47) output by the factor determination unit 117 (step 114) in the data analysis apparatus according to another embodiment of the present invention, the number of defects for each input attribute condition is represented by a bar graph. It is the figure which expressed separation degree (2nd data group separation degree) with the line graph. 本発明の他の実施形態に係るデータ分析装置における複合要因不良数計算部118(ステップ115)で出力されるデータの一例(表46)を用い、各入力属性条件に対する不良数を棒グラフで、不良品分離度(第2データ群分離度)を折れ線グラフで表現した図で、第1の要因(「x2>2」、すなわち「x2=c or d」)との複合要因による不良数に、ハッチングを付けて示している。Using an example (Table 46) of data output from the composite factor defect number calculation unit 118 (step 115) in the data analysis apparatus according to another embodiment of the present invention, the number of defects for each input attribute condition is represented by a bar graph. A non-defective product separation degree (second data group separation degree) is represented by a line graph, and hatching is performed on the number of defects due to a composite factor with the first factor (“x2> 2”, ie, “x2 = c or d”). It shows with. 非特許文献1に記載の従来技術であるGiniインデックス法を説明するグラフで、表1のデータ群を題材として、入力属性x1の分岐条件と、Giniインデックス法の改善度との関係を示すグラフである。It is a graph explaining the Gini index method which is the prior art described in Non-Patent Document 1, and shows the relationship between the branch condition of the input attribute x1 and the improvement degree of the Gini index method using the data group of Table 1 as the subject. is there. 非特許文献1に記載の従来技術であるGiniインデックス法を説明するグラフで、表1のデータ群を題材として、入力属性x2の分岐条件と、Giniインデックス法の改善度との関係を示すグラフである。It is a graph explaining the Gini index method which is the prior art described in Non-Patent Document 1, and shows the relationship between the branch condition of the input attribute x2 and the improvement degree of the Gini index method using the data group of Table 1 as the subject. is there. 非特許文献1に記載の従来技術であるGiniインデックス法を説明するグラフで、表1のデータ群を題材として、入力属性x3の分岐条件と、Giniインデックス法の改善度との関係を示すグラフである。It is a graph explaining the Gini index method which is the prior art described in Non-Patent Document 1, and shows the relationship between the branch condition of the input attribute x3 and the improvement degree of the Gini index method using the data group of Table 1 as the subject. is there. 非特許文献1に記載の従来技術であるGiniインデックス法を説明するグラフで、表1のデータ群を題材として、入力属性x3の分岐条件と、Giniインデックス法の改善度との関係を示すグラフである。It is a graph explaining the Gini index method which is the prior art described in Non-Patent Document 1, and shows the relationship between the branch condition of the input attribute x3 and the improvement degree of the Gini index method using the data group of Table 1 as a subject. is there.

符号の説明Explanation of symbols

1 文字−数値データ変換部(数値変換手段)
3 閾値設定部(閾値設定手段)
4 データ分類部(分類手段)
5 データ列抽出部
6 頻度演算部(第1の評価手段の中の頻度演算手段)
7 頻度累積差演算部(第1の評価手段の中の差分演算手段)
8 入力属性閾値決定部(閾値決定手段)
9 第2の要因抽出部(第2の要因抽出手段)
10 要因未発見データ抽出部(分割手段)
11 終了条件判定部(終了条件判定手段)
14 分析結果データ格納部
15 出力部
16 頻度累積比率演算部(第2の評価手段、分割ルール評価手段)
102 基本データ群格納部
103 分類条件設定部(分類条件設定手段)
104 データ分類部(分類手段)
105 分類後基本データ群格納部
106 分析データ群抽出部(分析データ群抽出手段)
107 データ行分離部
109 第1の要因抽出部(第1の要因抽出手段)
111 入力属性条件決定部(入力属性条件決定手段)
112 不良品分離度演算部(第2データ群分離度演算手段)
115 データ分割部(分割手段)
117 要因決定部(要因決定手段)
118 複合要因不良数計算部
119 数値−文字データ変換部
130 閾値決定部(閾値決定手段)
131 極性判定部(極性判定手段)
1 Character-numeric data converter (numeric converter)
3 threshold setting unit (threshold setting means)
4 Data classification part (classification means)
5 Data string extraction unit 6 Frequency calculation unit (Frequency calculation means in the first evaluation means)
7 Frequency cumulative difference calculation unit (difference calculation means in the first evaluation means)
8 Input attribute threshold value determination unit (threshold value determination means)
9 Second factor extraction unit (second factor extraction means)
10 Factor undiscovered data extraction unit (division means)
11 End condition determination unit (end condition determination means)
14 analysis result data storage unit 15 output unit 16 frequency cumulative ratio calculation unit (second evaluation means, division rule evaluation means)
102 basic data group storage unit 103 classification condition setting unit (classification condition setting means)
104 Data classification part (classification means)
105 Classification basic data group storage unit 106 Analysis data group extraction unit (analysis data group extraction means)
107 data row separation unit 109 first factor extraction unit (first factor extraction means)
111 Input attribute condition determining unit (input attribute condition determining means)
112 Defective product separation degree calculation unit (second data group separation degree calculation means)
115 Data division unit (division means)
117 Factor determination unit (factor determination means)
118 Compound Factor Failure Number Calculation Unit 119 Numerical Value-Character Data Conversion Unit 130 Threshold Determination Unit (Threshold Determination Unit)
131 Polarity determination unit (polarity determination means)

Claims (27)

数値属性である少なくとも1つの入力属性と、出力属性とで構成されるデータの集合であり、出力属性の値に依り第1データ群と第2データ群とに分類される分析データ群に対して、入力属性の閾値に基づく2分化により得られるデータ群のうちの一方のデータ群に第1データ群が偏り、他方のデータ群に第2データ群が偏るように上記分析データ群を2分化するための入力属性の条件である、入力属性条件を決定する入力属性条件決定装置であって、
上記入力属性がとり得る数毎に当該数値以下の数値を持つデータのうち、第1データ群に属するデータの個数の、第1データ群に属する全てのデータの個数に対する比率である第1の頻度を求める演算を行い、かつ、該入力属性のとり得る数値毎に、当該数値以下の数値を持つデータのうち、第2データ群に属するデータの個数の、第2データ群に属する全てのデータの個数に対する比率である第2の頻度を求める演算を行う頻度演算手段と、
入力属性がとる全ての数値の各々について、第1の頻度と第2の頻度との差分値を演算する差分演算手段と、
1つの入力属性がとる各数値の中で、上記差分値が最大となる数値を、該入力属性における閾値とし、少なくとも1つの入力属性に対応する少なくとも1つの閾値を決定する閾値決定手段と、
上記閾値決定手段で決定された閾値に基づいて、上記入力属性条件を決定する入力属性条件決定手段とを含むことを特徴とする入力属性条件決定装置。
A set of data composed of at least one input attribute that is a numerical attribute and an output attribute, and an analysis data group that is classified into a first data group and a second data group according to the value of the output attribute The analysis data group is bifurcated so that the first data group is biased to one data group and the second data group is biased to the other data group among the data groups obtained by the bisection based on the threshold value of the input attribute. An input attribute condition determination device for determining an input attribute condition, which is an input attribute condition for
Every few values the input attributes to obtain Ri bets, among the data having the following values the numerical, the number of data belonging to the first data group, which is the ratio to the number of all data belonging to the first data group first For every numerical value that can be taken by the input attribute, the number of data belonging to the second data group out of all the data belonging to the second data group is calculated. Frequency calculating means for calculating a second frequency that is a ratio to the number of data of
Difference calculation means for calculating a difference value between the first frequency and the second frequency for each of all numerical values taken by the input attribute;
Threshold value determining means for determining a numerical value that maximizes the difference value among the numerical values taken by one input attribute as a threshold value in the input attribute, and determining at least one threshold value corresponding to at least one input attribute;
An input attribute condition determining device, comprising: an input attribute condition determining unit that determines the input attribute condition based on the threshold value determined by the threshold value determining unit.
上記閾値決定手段で決定された閾値における、第1の頻度と第2の頻度との大小関係を判定する極性判定手段をさらに含み、
上記入力属性条件決定手段は、
入力属性条件を満たすデータ群に第2データ群が偏り、入力属性条件を満たさないデータ群に第1データ群が偏るように、
上記極性判定手段により第1の頻度が第2の頻度より大きいと判定された場合には、上記入力属性条件を「入力属性が閾値を超える」という条件に決定し、
上記極性判定手段により第2の頻度が第1の頻度より大きいと判定された場合には、上記入力属性条件を「入力属性が閾値以下」という条件に決定することを特徴とする請求項1に記載の入力属性条件決定装置。
A polarity determining means for determining a magnitude relationship between the first frequency and the second frequency in the threshold determined by the threshold determining means;
The input attribute condition determining means is
The second data group is biased toward the data group that satisfies the input attribute condition, and the first data group is biased toward the data group that does not satisfy the input attribute condition.
If the polarity determining means determines that the first frequency is greater than the second frequency, the input attribute condition is determined as a condition that “the input attribute exceeds the threshold”,
2. The input attribute condition is determined to be a condition that “the input attribute is equal to or less than a threshold value” when the polarity determination unit determines that the second frequency is greater than the first frequency. The described input attribute condition determination device.
上記入力属性は、製品の製造工程における製造プロセス条件および/またはインライン検査結果であり、
上記出力属性は、製品の品質判定結果であり、
上記第2データ群は、品質判定結果が不良のデータ群であることを特徴とする請求項1に記載の入力属性条件決定装置。
The input attribute is a manufacturing process condition and / or an in-line inspection result in the product manufacturing process,
The above output attribute is the product quality judgment result,
The input attribute condition determining apparatus according to claim 1, wherein the second data group is a data group having a bad quality determination result.
複数の入力属性と、出力属性とで構成されるデータの集合である基本データ群に対して、入力属性と出力属性との因果関係を分析するデータ分析装置であって、
上記基本データ群を、出力属性の値に依って第1データ群と第2データ群とに分類し、分類フラグを付与する分類手段と、
上記分類後の基本データ群の中から、分析の対象とする分析データ群を抽出する分析データ群抽出手段と、
請求項1または2に記載の入力属性条件決定装置とを含み、
上記頻度演算手段および差分演算手段は、分析データ群の各々の入力属性がとる全ての数値の各々について上記演算を行い、
上記閾値決定手段は、分析データ群の各々の入力属性について、それぞれ、閾値を決定することを特徴とするデータ分析装置。
A plurality of input attributes, the basic data group is a set of data composed by the output attribute, a causal relationship between the input attributes and output attributes A data analyzer you analysis,
Classifying means for classifying the basic data group into a first data group and a second data group according to the value of the output attribute, and assigning a classification flag;
An analysis data group extraction means for extracting an analysis data group to be analyzed from the basic data group after the classification;
An input attribute condition determining device according to claim 1 or 2,
The frequency calculation means and the difference calculation means perform the calculation for each of all the numerical values taken by each input attribute of the analysis data group,
The threshold value determining means determines a threshold value for each input attribute of the analysis data group, respectively.
数値属性でない入力属性を含む基本データ群に対し、入力属性を数値に変換する処理を行う数値変換手段をさらに備えていることを特徴とする請求項4に記載のデータ分析装置。   5. The data analysis apparatus according to claim 4, further comprising numerical conversion means for performing processing for converting an input attribute into a numerical value for a basic data group including an input attribute that is not a numerical attribute. 上記閾値決定手段で決定された閾値における、第1の頻度と第2の頻度との大小関係を判定する極性判定手段と、
上記入力属性条件決定装置で決定された入力属性条件の各々について、上記極性判定手段により第2の頻度が第1の頻度より大きいと判定された場合には、第1の頻度に対する第2の頻度の比率である第1の比率を評価値として演算し、上記極性判定手段により第1の頻度が第2の頻度より大きいと判定された場合には、(100%−第1の頻度)に対する(100%−第2の頻度)の比率である第2の比率を評価値として演算する評価値演算手段と、
上記入力属性条件決定装置で決定された入力属性条件の中で、最大の前記評価値を持つ入力属性条件に基づいて、上記分析データ群を、該入力属性条件を満たす要因データ群と、該入力属性条件を満たさない他データ群とに分割する分割手段とを含むことを特徴とする請求項4に記載のデータ分析装置。
Polarity determination means for determining a magnitude relationship between the first frequency and the second frequency in the threshold value determined by the threshold value determination means;
For each of the input attribute conditions determined by the input attribute condition determination device, if the polarity determination means determines that the second frequency is greater than the first frequency, the second frequency relative to the first frequency When the first frequency is determined to be greater than the second frequency by the polarity determination means, the (100% -first frequency) ( Evaluation value calculating means for calculating a second ratio, which is a ratio of 100% −second frequency), as an evaluation value ;
Among the input attribute conditions determined by the input attribute condition determination device, based on the input attribute condition having the maximum evaluation value , the analysis data group, the factor data group satisfying the input attribute condition, and the input The data analysis apparatus according to claim 4, further comprising a dividing unit that divides the data into other data groups that do not satisfy the attribute condition.
上記分析データ群抽出手段は、上記分割手段で分割されたデータ群のうちの少なくとも一方を新たな分析データ群として抽出し、
分析データ群抽出手段による処理、入力属性条件決定装置による処理、評価値演算手段による処理、および、分割手段による処理からなる一連の処理が繰り返し実行されるようになっていることを特徴とする請求項6に記載のデータ分析装置。
The analysis data group extraction means extracts at least one of the data groups divided by the division means as a new analysis data group,
A series of processes consisting of a process by an analysis data group extracting unit, a process by an input attribute condition determining device, a process by an evaluation value calculating unit, and a process by a dividing unit are repeatedly executed. Item 7. The data analysis device according to Item 6.
上記分析データ群抽出手段は、上記分割手段で分割されたデータ群のうち他データ群のみを、新たな分析データ群として抽出するものであることを特徴とする請求項7に記載のデータ分析装置。   8. The data analysis apparatus according to claim 7, wherein the analysis data group extraction unit extracts only another data group from the data group divided by the division unit as a new analysis data group. . 分類条件を設定する分類条件設定手段をさらに含み、
上記分類手段は、分類条件設定手段で設定された分類条件に基づいて基本データ群を分類するようになっていることを特徴とする請求項4に記載のデータ分析装置。
It further includes a classification condition setting means for setting a classification condition,
5. The data analysis apparatus according to claim 4, wherein the classification unit classifies the basic data group based on the classification condition set by the classification condition setting unit.
上記基本データ群は、複数の出力属性を含み、
上記分類条件設定手段は、上記複数の出力属性の各々に対して分類条件を設定し、
上記分類手段は、分類条件設定手段で設定された各々の分類条件の論理和または論理積に依って、基本データ群を分類するようになっていることを特徴とする請求項に記載のデータ分析装置。
The basic data group includes a plurality of output attributes,
The classification condition setting means sets a classification condition for each of the plurality of output attributes,
10. The data according to claim 9 , wherein the classification means classifies the basic data group based on a logical sum or logical product of the classification conditions set by the classification condition setting means. Analysis equipment.
上記入力属性条件決定装置で決定された入力属性条件の各々について、上記基本データ群中で該入力属性条件を満たすデータの中に第2データ群が含まれる割合を表す、第2データ群分離度を演算する第2データ群分離度演算手段と、
上記入力属性条件決定装置で決定された入力属性条件の中で、上記基本データ群中の第2データ群の割合を表す第2データ群含有率よりも大きい値の、第2データ群分離度をもつ入力属性条件を抽出する第1の要因抽出手段とを含むことを特徴とする請求項4〜7のいずれか1項に記載のデータ分析装置。
For each of the input attribute conditions determined by the input attribute condition determination device, a second data group separation degree representing a ratio of the second data group included in the data satisfying the input attribute condition in the basic data group Second data group separation degree computing means for computing
Among the input attribute conditions determined by the input attribute condition determination device, the second data group separation degree having a value larger than the second data group content ratio representing the ratio of the second data group in the basic data group is set. data analysis device according to any one of claims 4-7, characterized in that it comprises a first factor extraction means to extract an input attribute condition with.
上記入力属性条件決定装置で決定された入力属性条件の中で、最大の評価値を持つ入力属性条件を抽出する第2の要因抽出手段とを含むことを特徴とする請求項6または7に記載のデータ分析装置。 In the input attribute conditions determined by said input attribute condition determining apparatus, in claim 6 or 7, characterized in that it comprises a second factor extraction means to extract an input attribute condition with the largest evaluation value The data analysis device described. 複数の入力属性と、出力属性とで構成されるデータの集合である基本データ群に対して、入力属性と出力属性との因果関係を分析するデータ分析装置であって、
上記基本データ群を、出力属性の値に依って第1データ群と第2データ群とに分類し、分類フラグを付与する分類手段と、
上記分類後の基本データ群の中から、分析の対象とする分析データ群を抽出する分析データ群抽出手段と、
分析データ群の各々の入力属性が取り得る全ての入力属性条件の各々について、「入力属性が入力属性条件を満たせば、分析データ群中の第2データ群に属するデータであり、入力属性が入力属性条件を満たさなければ、分析データ群中の第1データ群に属するデータである」という第1の相関ルールの確からしさを表す、入力属性条件評価指標を演算する第1の評価手段と、
分析データ群の各々の入力属性について、それぞれ、最大の入力属性条件評価指標を持つ入力属性条件を、上記第1の相関ルールを満たす入力属性条件として決定する入力属性条件決定手段と、
上記入力属性条件決定手段で決定された入力属性条件の各々について、「入力属性が入力属性条件を満たせば、分析データ群中の第2データ群に含まれるデータである」という第2の相関ルールの確からしさを表す第2評価指標を演算する第2の評価手段と、
上記入力属性条件決定手段で決定された入力属性条件の中で、第2評価指標が最大となる入力属性条件を抽出する要因抽出手段とを含み、
上記第1の評価手段は、
各入力属性がとり得る数値毎に、当該数値以下の数値を持つデータのうち、第1データ群に属するデータの個数の、第1データ群に属する全てのデータの個数に対する比率である第1の頻度を求める演算を行い、かつ、該入力属性のとり得る数値毎に、当該数値以下の数値を持つデータのうち、第2データ群に属するデータの個数の、第2データ群に属する全てのデータの個数に対する比率である第2の頻度を求める演算を行う頻度演算手段と、
各入力属性の全ての数値について、第1の頻度と第2の頻度との差分を演算する差分演算手段とを含むことを特徴とするデータ分析装置。
A plurality of input attributes, the basic data group is a set of data composed by the output attribute, a causal relationship between the input attributes and output attributes A data analyzer you analysis,
Classifying means for classifying the basic data group into a first data group and a second data group according to the value of the output attribute, and assigning a classification flag;
An analysis data group extraction means for extracting an analysis data group to be analyzed from the basic data group after the classification;
For each input attribute condition that can be taken by each input attribute of the analysis data group, “if the input attribute satisfies the input attribute condition, the data belongs to the second data group in the analysis data group and the input attribute is input. A first evaluation unit that calculates an input attribute condition evaluation index that represents the probability of the first association rule that if the attribute condition is not satisfied, the data belongs to the first data group in the analysis data group;
For each input attribute of the analysis data group, an input attribute condition determining means for determining an input attribute condition having the maximum input attribute condition evaluation index as an input attribute condition satisfying the first correlation rule;
For each of the input attribute conditions determined by the input attribute condition determining means, a second correlation rule that “if the input attribute satisfies the input attribute condition, it is data included in the second data group in the analysis data group” A second evaluation means for calculating a second evaluation index representing the certainty of
In the input attribute conditions determined by said input attribute condition determining means, viewed contains a factor extraction unit second evaluation index to extract an input attribute condition having the maximum
The first evaluation means includes
For each value that each input attribute can take, a first value that is a ratio of the number of data belonging to the first data group to the number of all data belonging to the first data group among data having a numerical value equal to or less than the value All the data belonging to the second data group, the number of data belonging to the second data group among the data having a numerical value equal to or lower than the numerical value for each numerical value that can be calculated and the input attribute can be obtained Frequency calculating means for calculating a second frequency that is a ratio to the number of
A data analysis apparatus comprising difference calculation means for calculating a difference between a first frequency and a second frequency for all numerical values of each input attribute .
複数の入力属性と、出力属性とで構成されるデータの集合である基本データ群を分析対象とし、入力属性と出力属性との因果関係を分析するデータ分析装置であって、
基本データ群を出力属性に依って第1データ群と第2データ群とに分類する分類手段と、
各入力属性の全ての数値毎に当該数値以下の数値を持つデータが第1データ群および第2データ群のうちの一方に偏っている度合いを表す閾値評価指標を演算する第1の評価手段と、
第1の評価手段で演算された閾値評価指標に基づいて、各入力属性について最大の閾値評価指標を持つ数値を各入力属性の閾値として決定する閾値決定手段と、
閾値決定手段で決定された各入力属性の閾値に基づいて、「入力属性が閾値以下であれば第2データ群に含まれるデータである」という相関ルールの確からしさを表す第1のルール評価値と、「入力属性が閾値を超えていれば第2データ群に含まれるデータである」という相関ルールの確からしさを表す第2のルール評価値とを各入力属性について演算する第2の評価手段と、
第2の評価手段でルール評価値が演算された、全ての入力属性に関する相関ルールのうちで最も高いルール評価値を持つ相関ルールの入力属性条件を示すデータを抽出する要因抽出手段とを含み、
上記第1の評価手段は、
各入力属性がとり得る数値毎に、当該数値以下の数値を持つデータのうち、第1データ群に属するデータの個数の、第1データ群に属する全てのデータの個数に対する比率である第1の頻度を求める演算を行い、かつ、該入力属性のとり得る数値毎に、当該数値以下の数値を持つデータのうち、第2データ群に属するデータの個数の、第2データ群に属する全てのデータの個数に対する比率である第2の頻度を求める演算を行う頻度演算手段と、
各入力属性の全ての数値について、第1の頻度と第2の頻度との差分を演算する差分演算手段とを含むことを特徴とするデータ分析装置。
A plurality of input attributes, and analyzed the basic data group is a set of data composed by the output attribute, a causal relationship between the input attributes and output attributes A data analyzer you analysis,
A classifying means for classifying the basic data group into a first data group and a second data group according to output attributes;
First evaluation means for calculating a threshold evaluation index representing the degree to which data having a numerical value less than or equal to the numerical value is biased to one of the first data group and the second data group for each numerical value of each input attribute When,
Threshold determination means for determining a numerical value having the maximum threshold evaluation index for each input attribute as a threshold of each input attribute based on the threshold evaluation index calculated by the first evaluation means;
Based on the threshold value of each input attribute determined by the threshold value determining means, the first rule evaluation value representing the probability of the association rule that “the input attribute is equal to or less than the threshold value is data included in the second data group” And a second rule evaluation value that calculates the second rule evaluation value representing the probability of the association rule that “if the input attribute exceeds the threshold, the data is included in the second data group” for each input attribute. When,
Rule evaluation value by the second evaluation means is computed, including a factor extraction unit to extract the data representing the input attribute condition of the correlation rule with the highest rule evaluation value among the correlation rules all input attributes See
The first evaluation means includes
For each value that each input attribute can take, a first value that is a ratio of the number of data belonging to the first data group to the number of all data belonging to the first data group among data having a numerical value equal to or less than the value All the data belonging to the second data group, the number of data belonging to the second data group among the data having a numerical value equal to or lower than the numerical value for each numerical value that can be calculated and the input attribute can be obtained Frequency calculating means for calculating a second frequency that is a ratio to the number of
A data analysis apparatus comprising difference calculation means for calculating a difference between a first frequency and a second frequency for all numerical values of each input attribute .
上記要因抽出手段で抽出された入力属性条件に基づいて、分析データ群を、上記入力属性条件を満たす要因データ群と、上記入力属性条件を満たさない他データ群とに分割する分割手段をさらに含み、
上記分析データ群抽出手段は、上記分割手段で分割されたデータ群のうちの少なくとも一方を新たな分析データ群として抽出し、
分析データ群抽出手段による処理、第1の評価手段による処理、入力属性条件決定手段による処理、第2の評価手段による処理、要因抽出手段による処理、および分割手段による処理からなる一連の処理が繰り返し実行されるようになっていることを特徴とする請求項13に記載のデータ分析装置。
Based on the input attribute condition extracted by the factor extraction means , further includes a dividing means for dividing the analysis data group into a factor data group satisfying the input attribute condition and another data group not satisfying the input attribute condition. ,
The analysis data group extraction means extracts at least one of the data groups divided by the division means as a new analysis data group,
A series of processes consisting of processing by the analysis data group extracting means, processing by the first evaluating means, processing by the input attribute condition determining means, processing by the second evaluating means, processing by the factor extracting means , and processing by the dividing means is repeated. 14. The data analysis apparatus according to claim 13 , wherein the data analysis apparatus is executed.
上記分析データ群抽出手段は、上記分割手段で分割されたデータ群のうち他データ群のみを、新たな分析データ群として抽出するものであることを特徴とする請求項15に記載のデータ分析装置。 The data analysis apparatus according to claim 15 , wherein the analysis data group extraction unit extracts only another data group from the data group divided by the division unit as a new analysis data group. . 上記入力属性は、製品の製造工程における製造プロセス条件および/またはインライン検査結果であり、
上記出力属性は、製品の品質判定結果であり、
上記第2データ群は、品質判定結果が不良のデータ群であることを特徴とする請求項13または14に記載のデータ分析装置。
The input attribute is a manufacturing process condition and / or an in-line inspection result in the product manufacturing process,
The above output attribute is the product quality judgment result,
It said second data group, the data analyzer according to claim 13 or 14, characterized in that the quality determination result is data group bad.
終了条件を満たしているか否かを判定する終了条件判定手段をさらに含み、
上記終了条件判定手段は、上記分析データ群抽出手段で抽出した分析データ群における第2データ群のデータ数が0であるかを終了条件として判定を行い、
上記終了条件判定手段において終了条件を満たしていると判定されると、上記一連の処理の実行を終了するようになっていることを特徴とする請求項7または15に記載のデータ分析装置。
It further includes an end condition determining means for determining whether or not the end condition is satisfied,
The end condition determining means determines whether the number of data of the second data group in the analysis data group extracted by the analysis data group extracting means is 0 as an end condition,
16. The data analysis apparatus according to claim 7, wherein when the end condition determining unit determines that the end condition is satisfied, the execution of the series of processes is ended.
請求項1に記載の入力属性条件決定装置を用いて、数値属性である少なくとも1つの入力属性と、出力属性とで構成されるデータの集合であり、出力属性の値に依り第1データ群と第2データ群とに分類される分析データ群に対して、入力属性の閾値に基づく2分化により得られるデータ群のうちの一方のデータ群に第1データ群が偏り、他方のデータ群に第2データ群が偏るように上記分析データ群を2分化するための入力属性の条件である、入力属性条件を決定する入力属性条件決定方法であって、
上記頻度演算手段により、上記入力属性がとり得る数毎に当該数値以下の数値を持つデータのうち、第1データ群に属するデータの個数の、第1データ群に属する全てのデータの個数に対する比率である第1の頻度を求める演算を行い、かつ、該入力属性のとり得る数値毎に、当該数値以下の数値を持つデータのうち、第2データ群に属するデータの個数の、第2データ群に属する全てのデータの個数に対する比率である第2の頻度を求める演算を行う頻度演算ステップと、
上記差分演算手段により、入力属性がとる全ての数値の各々について、第1の頻度と第2の頻度との差分値を演算する差分演算ステップと、
上記閾値決定手段により、1つの入力属性がとる各数値の中で、上記差分値が最大となる数値を、該入力属性における閾値とし、少なくとも1つの入力属性に対応する少なくとも1つの閾値を決定する閾値決定ステップと、
上記入力属性条件決定手段により、上記閾値決定手段で決定された閾値に基づいて、上記入力属性条件を決定する入力属性条件決定ステップとを含むことを特徴とする入力属性条件決定方法。
A set of data composed of at least one input attribute that is a numerical attribute and an output attribute using the input attribute condition determination device according to claim 1, and the first data group depending on the value of the output attribute With respect to the analysis data group classified as the second data group, the first data group is biased to one data group among the data groups obtained by the bisection based on the threshold value of the input attribute, and the first data group is the second data group. An input attribute condition determination method for determining an input attribute condition, which is an input attribute condition for bisecting the analysis data group so that two data groups are biased ,
By the frequency calculating means, every several values to obtain Ri said input attributes bets, among the data having the following values the numerical, the number of data belonging to the first data group, of all the data belonging to the first data group The number of data belonging to the second data group among the data having a numerical value equal to or lower than the numerical value for each numerical value that can be taken by the input attribute is calculated. A frequency calculating step for calculating a second frequency that is a ratio to the number of all data belonging to the two data groups ;
A difference calculating step for calculating a difference value between the first frequency and the second frequency for each of all the numerical values taken by the input attribute by the difference calculating means;
The threshold value determining means determines a numerical value that maximizes the difference value among the numerical values taken by one input attribute as a threshold value for the input attribute, and determines at least one threshold value corresponding to at least one input attribute. A threshold determination step;
An input attribute condition determination method comprising: an input attribute condition determination step for determining the input attribute condition based on the threshold value determined by the threshold value determination means by the input attribute condition determination means.
請求項4に記載のデータ分析装置を用いて、複数の入力属性と、出力属性とで構成されるデータの集合である基本データ群に対して、入力属性と出力属性との因果関係を分析するデータ分析方法であって、
上記分類手段により、上記基本データ群を、出力属性の値に依って第1データ群と第2データ群とに分類し、分類フラグを付与する分類ステップと、
上記分析データ群抽出手段により、上記分類後の基本データ群の中から、分析の対象とする分析データ群を抽出する分析データ群抽出ステップと、
上記入力属性条件決定装置の上記頻度演算手段により、分析データ群の各々の入力属性がとり得る数毎に当該数値以下の数値を持つデータのうち、第1データ群に属するデータの個数の、第1データ群に属する全てのデータの個数に対する比率である第1の頻度を求める演算を行い、かつ、該入力属性のとり得る数値毎に、当該数値以下の数値を持つデータのうち、第2データ群に属するデータの個数の、第2データ群に属する全てのデータの個数に対する比率である第2の頻度を求める演算を行う頻度演算ステップと、
上記入力属性条件決定装置の上記差分演算手段により、入力属性がとる全ての数値の各々について、第1の頻度と第2の頻度との差分値を演算する差分演算ステップと、
上記入力属性条件決定装置の上記閾値決定手段により、各々の入力属性について、それぞれ、上記差分値が最大となる数値を該入力属性の閾値として決定する閾値決定ステップと、
上記入力属性条件決定装置の上記入力属性条件決定手段により、上記閾値決定手段で決定された閾値に基づいて、入力属性の閾値に基づく2分化により得られるデータ群のうちの一方のデータ群に第1データ群が偏り、他方のデータ群に第2データ群が偏るように上記分析データ群を2分化するための入力属性条件を決定する入力属性条件決定ステップとを含むことを特徴とするデータ分析方法。
Using the data analysis device according to claim 4, a plurality of input attributes and, to the basic data group is a set of data composed by the output attribute, analyze the causal relationship between input attributes and output attributes a to that data analysis methods,
A step of classifying the basic data group into a first data group and a second data group according to an output attribute value by the classification means, and assigning a classification flag;
An analysis data group extraction step of extracting the analysis data group to be analyzed from the basic data group after the classification by the analysis data group extraction means;
By the frequency calculating means of the input attribute condition determining apparatus, every few values each input attribute analysis data group obtained Ri bets, among the data having the following values the numerical number of data belonging to the first data group Among the data having a numerical value equal to or lower than the numerical value for each numerical value that can be taken by the input attribute, and calculating the first frequency that is a ratio to the number of all data belonging to the first data group A frequency calculating step for calculating a second frequency that is a ratio of the number of data belonging to the second data group to the number of all data belonging to the second data group ;
A difference calculating step of calculating a difference value between the first frequency and the second frequency for each of all the numerical values taken by the input attribute by the difference calculating means of the input attribute condition determining device;
A threshold value determining step of determining, for each input attribute, a numerical value that maximizes the difference value as a threshold value of the input attribute by the threshold value determining means of the input attribute condition determining device;
The input attribute condition determining means of the input attribute condition determining device sets a first data group out of data groups obtained by bisection based on the threshold value of the input attribute based on the threshold value determined by the threshold value determining means . And an input attribute condition determining step for determining an input attribute condition for bisecting the analysis data group so that one data group is biased and the second data group is biased to the other data group. Method.
請求項6に記載の上記極性判定手段により、上記閾値決定手段で決定された閾値における、第1の頻度と第2の頻度との大小関係を判定する極性判定ステップと、
請求項6に記載の上記評価値演算手段により、上記入力属性条件決定装置で決定された入力属性条件の各々について、上記極性判定手段により第2の頻度が第1の頻度より大きいと判定された場合には、第1の頻度に対する第2の頻度の比率である第1の比率を評価値として演算し、上記極性判定手段により第1の頻度が第2の頻度より大きいと判定された場合には、(100%−第1の頻度)に対する(100%−第2の頻度)の比率である第2の比率を評価値として演算する評価値演算ステップと、
請求項6に記載の上記データ分析装置の上記分割手段により、上記入力属性条件決定装置で決定された入力属性条件の中で、最大の前記評価値を持つ入力属性条件に基づいて、上記分析データ群を、該入力属性条件を満たす要因データ群と、該入力属性条件を満たさない他データ群とに分割する分割ステップとを含むことを特徴とする請求項20に記載のデータ分析方法。
A polarity determination step of determining a magnitude relationship between the first frequency and the second frequency in the threshold value determined by the threshold value determination means by the polarity determination means according to claim 6;
The evaluation value calculation means according to claim 6 determines that the second frequency is greater than the first frequency by the polarity determination means for each of the input attribute conditions determined by the input attribute condition determination device . In this case, when the first ratio, which is the ratio of the second frequency to the first frequency, is calculated as an evaluation value, and the first frequency is determined to be greater than the second frequency by the polarity determination unit. Is an evaluation value calculation step for calculating, as an evaluation value , a second ratio that is a ratio of (100% −second frequency) to (100% −first frequency) ;
By the dividing means of said data analyzer according to claim 6, in the input attribute conditions determined by said input attribute condition determining apparatus, based on the input attribute conditions with the maximum of the evaluation value, the analytical data 21. The data analysis method according to claim 20 , further comprising a dividing step of dividing the group into a factor data group that satisfies the input attribute condition and another data group that does not satisfy the input attribute condition.
請求項13に記載のデータ分析装置を用いて、複数の入力属性と、出力属性とで構成されるデータの集合である基本データ群に対して、入力属性と出力属性との因果関係を分析するデータ分析方法であって、
上記分類手段により、上記基本データ群を、出力属性の値に依って第1データ群と第2データ群とに分類し、分類フラグを付与する分類ステップと、
上記分析データ群抽出手段により、上記分類後の基本データ群の中から、分析の対象とする分析データ群を抽出する分析データ群抽出ステップと、
上記第1の評価手段により、各々の入力属性が取り得る全ての入力属性条件の各々について、「入力属性が入力属性条件を満たせば、分析データ群中の第2データ群に属するデータであり、入力属性が入力属性条件を満たさなければ、分析データ群中の第1データ群に属するデータである」という第1の相関ルールの確からしさを表す、入力属性条件評価指標を演算する第1の評価ステップと、
上記入力属性条件決定手段により、各々の入力属性について、それぞれ、最大の入力属性条件評価指標を持つ入力属性条件を、上記第1の相関ルールを満たす入力属性条件として決定する入力属性条件決定ステップと、
上記第2の評価手段により、上記入力属性条件決定手段で決定された入力属性条件の各々について、「入力属性が入力属性条件を満たせば、分析データ群中の第2データ群に含まれるデータである」という第2の相関ルールの確からしさを表す第2評価指標を演算する第2の評価ステップと、
要因抽出手段により、上記入力属性条件決定手段で決定された入力属性条件の中で、第2評価指標が最大となる入力属性条件を抽出する要因抽出ステップとを含み、
上記第1の評価ステップは、
上記頻度演算手段により、各入力属性がとり得る数値毎に、当該数値以下の数値を持つデータのうち、第1データ群に属するデータの個数の、第1データ群に属する全てのデータの個数に対する比率である第1の頻度を求める演算を行い、かつ、該入力属性のとり得る数値毎に、当該数値以下の数値を持つデータのうち、第2データ群に属するデータの個数の、第2データ群に属する全てのデータの個数に対する比率である第2の頻度を求める演算を行う頻度演算ステップと、
上記差分演算手段により、各入力属性の全ての数値について、第1の頻度と第2の頻度との差分を演算する差分演算ステップとを含むことを特徴とするデータ分析方法。
Using the data analysis device according to claim 13, a plurality of input attributes and, to the basic data group is a set of data composed by the output attribute, analyze the causal relationship between input attributes and output attributes a to that data analysis methods,
A step of classifying the basic data group into a first data group and a second data group according to an output attribute value by the classification means, and assigning a classification flag;
An analysis data group extraction step of extracting the analysis data group to be analyzed from the basic data group after the classification by the analysis data group extraction means;
For each of all the input attribute conditions that can be taken by each input attribute by the first evaluation means, “if the input attribute satisfies the input attribute condition, the data belongs to the second data group in the analysis data group, A first evaluation that calculates an input attribute condition evaluation index that represents the probability of the first association rule that the input attribute does not satisfy the input attribute condition is data belonging to the first data group in the analysis data group. Steps,
An input attribute condition determining step for determining, for each input attribute, an input attribute condition having the maximum input attribute condition evaluation index as an input attribute condition satisfying the first correlation rule by the input attribute condition determining means; ,
For each of the input attribute conditions determined by the input attribute condition determination means by the second evaluation means, “if the input attribute satisfies the input attribute condition, the data included in the second data group in the analysis data group A second evaluation step of calculating a second evaluation index representing the certainty of the second association rule “is”;
The factor extraction unit, in the input attribute conditions determined by said input attribute condition determining means, viewed contains a factor extraction step in which the second evaluation index to extract an input attribute condition having the maximum
The first evaluation step includes
For each numerical value that can be taken by each input attribute by the frequency calculating means, the number of data belonging to the first data group out of the data having numerical values less than or equal to the numerical value is relative to the number of all data belonging to the first data group. The second data of the number of data belonging to the second data group among the data having a numerical value equal to or lower than the numerical value for each numerical value that can be taken by the input attribute is calculated for calculating the first frequency as the ratio. A frequency calculating step for calculating a second frequency that is a ratio to the number of all data belonging to the group;
A data analysis method comprising: a difference calculation step of calculating a difference between the first frequency and the second frequency for all numerical values of each input attribute by the difference calculation means .
数値属性である少なくとも1つの入力属性と、出力属性とで構成されるデータの集合であり、出力属性の値に依り第1データ群と第2データ群とに分類される分析データ群に対して、
コンピュータを、
上記入力属性がとり得る数毎に当該数値以下の数値を持つデータのうち、第1データ群に属するデータの個数の、第1データ群に属する全てのデータの個数に対する比率である第1の頻度を求める演算を行い、かつ、該入力属性のとり得る数値毎に、当該数値以下の数値を持つデータのうち、第2データ群に属するデータの個数の、第2データ群に属する全てのデータの個数に対する比率である第2の頻度を求める演算を行う頻度演算手段、
入力属性がとる全ての数値の各々について、第1の頻度と第2の頻度との差分値を演算する差分演算手段、
1つの入力属性がとる各数値の中で、上記差分値が最大となる数値を、該入力属性における閾値とし、少なくとも1つの入力属性に対応する少なくとも1つの閾値を決定する閾値決定手段、および、
上記閾値決定手段で決定された閾値に基づいて、入力属性の閾値に基づく2分化により得られるデータ群のうちの一方のデータ群に第1データ群が偏り、他方のデータ群に第2データ群が偏るように上記分析データ群を2分化するための入力属性の条件である、入力属性条件を決定する入力属性条件決定手段として機能させるための入力属性条件決定プログラム。
A set of data composed of at least one input attribute that is a numerical attribute and an output attribute, and an analysis data group that is classified into a first data group and a second data group according to the value of the output attribute ,
Computer
Every few values the input attributes to obtain Ri bets, among the data having the following values the numerical, the number of data belonging to the first data group, which is the ratio to the number of all data belonging to the first data group first For every numerical value that can be taken by the input attribute, the number of data belonging to the second data group out of all the data belonging to the second data group is calculated. Frequency calculating means for calculating a second frequency that is a ratio to the number of data of
Difference calculation means for calculating a difference value between the first frequency and the second frequency for each of all the numerical values taken by the input attribute,
Threshold value determining means for determining a numerical value that maximizes the difference value among the numerical values taken by one input attribute as a threshold value in the input attribute, and determining at least one threshold value corresponding to at least one input attribute; and
Based on the threshold value determined by the threshold value determination means, the first data group is biased to one data group among the data groups obtained by the bisection based on the threshold value of the input attribute, and the second data group is the other data group. An input attribute condition determining program for functioning as an input attribute condition determining means for determining an input attribute condition, which is an input attribute condition for dividing the analysis data group into two so as to be biased .
請求項23に記載の入力属性条件決定プログラムを記録したコンピュータ読み取り可能な記録媒体。 A computer-readable recording medium on which the input attribute condition determination program according to claim 23 is recorded. 複数の入力属性と、出力属性とで構成されるデータの集合である基本データ群に対して、
コンピュータを、上記基本データ群を、出力属性の値に依って、第1データ群と第2データ群とに分類し、分類フラグを付与する分類手段、
上記分類後の基本データ群の中から、分析の対象とする分析データ群を抽出する分析データ群抽出手段、
分析データ群の各々の入力属性がとり得る数毎に当該数値以下の数値を持つデータのうち、第1データ群に属するデータの個数の、第1データ群に属する全てのデータの個数に対する比率である第1の頻度を求める演算を行い、かつ、該入力属性のとり得る数値毎に、当該数値以下の数値を持つデータのうち、第2データ群に属するデータの個数の、第2データ群に属する全てのデータの個数に対する比率である第2の頻度を求める演算を行う頻度演算手段、
分析データ群の各々の入力属性がとる全ての数値の各々について、第1の頻度と第2の頻度との差分値を演算する差分演算手段、各々の入力属性について、それぞれ、上記差分値が最大となる数値を、該入力属性の閾値として決定する閾値決定手段、
上記閾値決定手段で決定された閾値に基づいて、入力属性の閾値に基づく2分化により得られるデータ群のうちの一方のデータ群に第1データ群が偏り、他方のデータ群に第2データ群が偏るように上記分析データ群を2分化するための入力属性の条件である、入力属性条件を決定する入力属性条件決定手段として機能させるためのデータ分析プログラム。
For a basic data group that is a set of data consisting of multiple input attributes and output attributes,
Classifying means for classifying the basic data group into a first data group and a second data group according to the value of the output attribute, and assigning a classification flag;
Analysis data group extraction means for extracting an analysis data group to be analyzed from the basic data group after the classification,
Every few values each input attribute analysis data group obtained Ri bets, among the data having the following values the numerical, the number of data belonging to the first data group, the number of all data belonging to the first data group For each value that can be taken by the input attribute, a second frequency of the number of data belonging to the second data group is calculated for each value that can be taken by the input attribute. A frequency calculating means for calculating a second frequency which is a ratio to the number of all data belonging to the data group ;
Difference calculation means for calculating a difference value between the first frequency and the second frequency for each numerical value of each input attribute of the analysis data group, and for each input attribute, the difference value is maximum. A threshold value determining means for determining a numerical value to be a threshold value of the input attribute;
Based on the threshold value determined by the threshold value determination means, the first data group is biased to one data group among the data groups obtained by the bisection based on the threshold value of the input attribute, and the second data group is the other data group. A data analysis program for functioning as an input attribute condition determining means for determining an input attribute condition, which is an input attribute condition for dividing the analysis data group into two so as to be biased .
複数の入力属性と、出力属性とで構成されるデータの集合である基本データ群に対して、
コンピュータを、
上記基本データ群を、出力属性の値に依って第1データ群と第2データ群とに分類し、分類フラグを付与する分類手段、
上記分類後の基本データ群の中から、分析の対象とする分析データ群を抽出する分析データ群抽出手段、
各々の入力属性が取り得る全ての入力属性条件の各々について、「入力属性が入力属性条件を満たせば、分析データ群中の第2データ群に属するデータであり、入力属性が入力属性条件を満たさなければ、分析データ群中の第1データ群に属するデータである」という第1の相関ルールの確からしさを表す、入力属性条件評価指標を演算する第1の評価手段、
各々の入力属性について、それぞれ、最大の入力属性条件評価指標を持つ入力属性条件を、上記第1の相関ルールを満たす入力属性条件として決定する入力属性条件決定手段、
上記入力属性条件決定手段で決定された入力属性条件の各々について、「入力属性が入力属性条件を満たせば、分析データ群中の第2データ群に含まれるデータである」という第2の相関ルールの確からしさを表す第2評価指標を演算する第2の評価手段、
上記入力属性条件決定手段で決定された入力属性条件の中で、第2評価指標が最大となる入力属性条件を抽出する要因抽出手段として機能させるためのデータ分析プログラムであり、
各入力属性がとり得る数値毎に、当該数値以下の数値を持つデータのうち、第1データ群に属するデータの個数の、第1データ群に属する全てのデータの個数に対する比率である第1の頻度を求める演算を行い、かつ、該入力属性のとり得る数値毎に、当該数値以下の数値を持つデータのうち、第2データ群に属するデータの個数の、第2データ群に属する全てのデータの個数に対する比率である第2の頻度を求める演算を行う頻度演算手段と、
各入力属性の全ての数値について、第1の頻度と第2の頻度との差分を演算する差分演算手段とを含むデータ分析プログラム。
For a basic data group that is a set of data consisting of multiple input attributes and output attributes,
Computer
Classifying means for classifying the basic data group into a first data group and a second data group according to an output attribute value, and adding a classification flag;
Analysis data group extraction means for extracting an analysis data group to be analyzed from the basic data group after the classification,
For each of all the input attribute conditions that each input attribute can take, “If the input attribute satisfies the input attribute condition, the data belongs to the second data group in the analysis data group, and the input attribute satisfies the input attribute condition. 1st evaluation means for calculating an input attribute condition evaluation index, which represents the certainty of the first association rule “if there is no data belonging to the first data group in the analysis data group,”
For each input attribute, input attribute condition determining means for determining an input attribute condition having the maximum input attribute condition evaluation index as an input attribute condition satisfying the first correlation rule,
For each of the input attribute conditions determined by the input attribute condition determining means, a second correlation rule that “if the input attribute satisfies the input attribute condition, it is data included in the second data group in the analysis data group” A second evaluation means for calculating a second evaluation index representing the certainty of
In the input attribute conditions determined by said input attribute condition determining means, a data analysis program for functioning as a factor extraction means second evaluation index to extract an input attribute condition having the maximum
For each value that each input attribute can take, a first value that is a ratio of the number of data belonging to the first data group to the number of all data belonging to the first data group among data having a numerical value equal to or less than the value All the data belonging to the second data group, the number of data belonging to the second data group among the data having a numerical value equal to or lower than the numerical value for each numerical value that can be calculated and the input attribute can be obtained Frequency calculating means for calculating a second frequency that is a ratio to the number of
A data analysis program including difference calculation means for calculating a difference between a first frequency and a second frequency for all numerical values of each input attribute.
請求項25に記載のデータ分析プログラム、および/または、請求項26に記載のデータ分析プログラムを記録したコンピュータ読み取り可能な記録媒体。 27. A computer-readable recording medium recording the data analysis program according to claim 25 and / or the data analysis program according to claim 26 .
JP2004024769A 2003-01-31 2004-01-30 Input attribute condition determination device, input attribute condition determination method, input attribute condition determination program, data analysis device, data analysis method, and data analysis program Expired - Fee Related JP4298531B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004024769A JP4298531B2 (en) 2003-01-31 2004-01-30 Input attribute condition determination device, input attribute condition determination method, input attribute condition determination program, data analysis device, data analysis method, and data analysis program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2003024945 2003-01-31
JP2004024769A JP4298531B2 (en) 2003-01-31 2004-01-30 Input attribute condition determination device, input attribute condition determination method, input attribute condition determination program, data analysis device, data analysis method, and data analysis program

Publications (2)

Publication Number Publication Date
JP2004252972A JP2004252972A (en) 2004-09-09
JP4298531B2 true JP4298531B2 (en) 2009-07-22

Family

ID=33032311

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004024769A Expired - Fee Related JP4298531B2 (en) 2003-01-31 2004-01-30 Input attribute condition determination device, input attribute condition determination method, input attribute condition determination program, data analysis device, data analysis method, and data analysis program

Country Status (1)

Country Link
JP (1) JP4298531B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1944699B1 (en) * 2005-10-31 2015-07-08 Fujitsu Ltd. Performance failure analysis method, device and program
CN109145364A (en) * 2018-07-04 2019-01-04 西北工业大学 Sensitivity Analysis Method based on Geordie inequality
JP7215062B2 (en) 2018-10-16 2023-01-31 富士通株式会社 Failure rate estimation program, failure rate estimation method, and information processing device
CN115409419B (en) * 2022-09-26 2023-12-05 河南星环众志信息科技有限公司 Method and device for evaluating value of business data, electronic equipment and storage medium

Also Published As

Publication number Publication date
JP2004252972A (en) 2004-09-09

Similar Documents

Publication Publication Date Title
KR100414032B1 (en) Apparatus for testing semiconductor, for analyzing defects in semiconductor, for correcting semiconductor design data, and method therefor, and computer readable recording media
WO2023279696A1 (en) Service risk customer group identification method, apparatus and device, and storage medium
US20110137841A1 (en) Sample class prediction method, prediction program, and prediction apparatus
CN113177643A (en) Automatic modeling system based on big data
CN109063983A (en) A kind of natural calamity loss real time evaluating method based on social media data
JP4298531B2 (en) Input attribute condition determination device, input attribute condition determination method, input attribute condition determination program, data analysis device, data analysis method, and data analysis program
CN111737993B (en) Method for extracting equipment health state from fault defect text of power distribution network equipment
Ruschin-Rimini et al. Visual analysis of quality-related manufacturing data using fractal geometry
JP4255779B2 (en) Data analysis apparatus, data analysis method, and data analysis program
Buschmann et al. Data-driven decision support for process quality improvements
CN112418652B (en) Risk identification method and related device
KR20240015457A (en) Method for creating adaptive isolation filter models for anomaly detection in semiconductor products, method for detecting anomalies in semiconductor products and anomaly detection recording medium and system for the same
JP4347099B2 (en) Data analysis apparatus, data analysis method, data analysis program, and recording medium
CN114969267A (en) Nuclear power quality defect cause analysis method
KR20230122739A (en) System and Method for Discovering Emerging Technology Using Knowledge Graph and Deep Learning-based Text Mining
KR100727555B1 (en) Creating method for decision tree using time-weighted entropy and recording medium thereof
Borkar et al. Comparative study of supervised learning algorithms for fake news classification
CN115904920A (en) Test case recommendation method and device, terminal and storage medium
CN113657441A (en) Classification algorithm based on weighted Pearson correlation coefficient and combined with feature screening
JP2022553523A (en) Collaborative learning model for semiconductor applications
Basnayake et al. Use of change point analysis in seasonal ARIMA models for forecasting tourist arrivals in Sri Lanka
JP2006040181A (en) Data analysis apparatus, method, and program
JP7411473B2 (en) Validation method, validation system and program
CN114154561B (en) Electric power data management method based on natural language processing and random forest
CN116151107B (en) Method, system and electronic equipment for identifying ore potential of magma type nickel cobalt

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081209

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090209

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20090209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090414

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090415

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120424

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120424

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130424

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130424

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees