JP2006040181A - Data analysis apparatus, method, and program - Google Patents

Data analysis apparatus, method, and program Download PDF

Info

Publication number
JP2006040181A
JP2006040181A JP2004222515A JP2004222515A JP2006040181A JP 2006040181 A JP2006040181 A JP 2006040181A JP 2004222515 A JP2004222515 A JP 2004222515A JP 2004222515 A JP2004222515 A JP 2004222515A JP 2006040181 A JP2006040181 A JP 2006040181A
Authority
JP
Japan
Prior art keywords
data group
input attribute
data
condition
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004222515A
Other languages
Japanese (ja)
Other versions
JP4368755B2 (en
Inventor
Hiroaki Takeuchi
博明 竹内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2004222515A priority Critical patent/JP4368755B2/en
Publication of JP2006040181A publication Critical patent/JP2006040181A/en
Application granted granted Critical
Publication of JP4368755B2 publication Critical patent/JP4368755B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a data analysis apparatus that can extract factors in a predetermined output attribute in simple form and rank a plurality of factors by importance according to a definite index. <P>SOLUTION: The data analysis apparatus comprises: a data classification part 4 for classifying a basic data group as conforming and nonconforming according to the value of an output attribute; an analysis data group extraction part 6 for extracting an analysis data group from the classified basic data group; a cumulative frequency difference computation part 10/input attribute condition decision part 11 for deciding, for each input attribute of the analysis data group, an input attribute condition satisfying first correlation rules that "the input attribute, if satisfying the input attribute condition, indicates data belonging to a nonconforming unit in the analysis data group and, if not, indicates data belonging to a conforming unit in the analysis data group"; and a rank decision part 13 for ranking the plurality of decided input attribute conditions by importance as a factor in an output attribute condition corresponding to a nonconforming unit according to an index that is at least either the number of nonconforming units or the degree of separation of nonconforming units. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

本発明は、分析対象である出力属性(目的属性)、例えば製造工程で製造される製品の特性等と、出力属性に影響を与える属性である入力属性(説明属性)、例えば製造プロセス条件等との因果関係を分析するデータ分析装置およびデータ分析方法並びにデータ分析プログラムに関する。   The present invention relates to an output attribute (object attribute) to be analyzed, such as characteristics of a product manufactured in a manufacturing process, and an input attribute (description attribute) that is an attribute affecting the output attribute, such as a manufacturing process condition. The present invention relates to a data analysis apparatus, a data analysis method, and a data analysis program for analyzing the causal relationship of the data.

出力属性と入力属性との因果関係を分析する有効な手法としては、決定木手法が知られている。この手法では、入力属性の値で順次切り分けた葉の部分で、出力属性の値がうまくまとまるような木構造を作成する。   A decision tree technique is known as an effective technique for analyzing the causal relationship between output attributes and input attributes. This method creates a tree structure in which the values of the output attributes are well organized at the leaf portions that are sequentially separated by the values of the input attributes.

図14は、表1のデータ群を分析対象として作成した決定木の一例であり、木構造における分岐条件の評価指標として、非特許文献1のp44〜p47に記載のGiniインデックス及び改善度を用いている。   FIG. 14 is an example of a decision tree created using the data group of Table 1 as an analysis target, and the Gini index and the degree of improvement described in p44 to p47 of Non-Patent Document 1 are used as evaluation indexes for branch conditions in the tree structure. ing.

Figure 2006040181
Figure 2006040181

表1のデータ群は、特許文献1の表1を参考にして準備したサンプルであり、x1,x2,x3,x4の4つの入力属性の値と、これら入力属性に対する出力属性yの値とを組とするデータを12個集めた集合である。図14の決定木では、出力属性yの値XZとYとが入力属性x2,x1,x3の各値によって、うまく切り分けられている。   The data group of Table 1 is a sample prepared with reference to Table 1 of Patent Document 1, and the values of the four input attributes x1, x2, x3, and x4 and the value of the output attribute y for these input attributes. This is a set of 12 data sets. In the decision tree of FIG. 14, the values XZ and Y of the output attribute y are well separated by the values of the input attributes x2, x1, and x3.

次に、非特許文献1のp44〜p47に記載のGiniインデックス及び改善度を用いて、図14の決定木を作成する(y=Yとy=XZとを切り分ける)手順について説明する。   Next, a procedure of creating the decision tree of FIG. 14 (separating y = Y and y = XZ) using the Gini index and improvement degree described in p44 to p47 of Non-Patent Document 1 will be described.

Giniインデックスは、出力属性yの値のまとまりの程度を表す指標で、下式(1)で表される。   The Gini index is an index that represents the degree of grouping of the values of the output attribute y, and is represented by the following expression (1).

i(t)=1−Σ{p(j|t)} (1)
ここで、p(j|t)は、ノードtにおいて、出力属性yがy=jとなる確率を示しており、Giniインデックスi(t)が小さいことは、ノードtにおいて出力属性yの値がうまくまとまっていることを意味している。
i (t) = 1−Σ {p (j | t)} 2 (1)
Here, p (j | t) indicates the probability that the output attribute y is y = j at the node t, and that the Gini index i (t) is small indicates that the value of the output attribute y at the node t is It means that it is well organized.

また、改善度は、「あるノードt1を、分岐条件によって2つの子ノードt2とt3とに分岐させることにより、どの程度、出力属性のまとまりが良くなったか」を示す指標であり、下式(2)で表される。   The degree of improvement is an index indicating “how much the output attribute is improved by branching a certain node t1 into two child nodes t2 and t3 according to a branching condition”. 2).

△i(t1)=i(t1)−{pt2・i(t2)+pt3・i(t3)}
(2)
ここで、i(t1)、i(t2)、i(t3)は、それぞれ、ノードt1、子ノードt2、子ノードt3におけるGiniインデックスを示している。また、pt2、pt3は、ノードt1を、子ノードt2と子ノードt3とに分岐させるときの、分岐割合を示している。
Δi (t1) = i (t1) − {pt2 · i (t2) + pt3 · i (t3)}
(2)
Here, i (t1), i (t2), and i (t3) indicate Gini indexes at the node t1, the child node t2, and the child node t3, respectively. Further, pt2 and pt3 indicate branching ratios when the node t1 is branched into the child node t2 and the child node t3.

表1のデータ群において、ルートノードt1におけるGiniインデックスi(t1)は、(1)式から0.444となる。このルートノードt1を、種々の分岐条件によって2つの子ノードに分岐させた場合の改善度を図15〜図18に示す。ここで、改善度の計算((2)式の計算)を行う分岐条件のパターン数は、入力属性x1,x2,x3,x4が取り得る全ての分岐条件のパターンで、合計12条件(各入力属性について3条件)である。各入力属性において最大の改善度をもつ条件が、その入力属性において、y=Yとy=XZとを切り分ける最適な分岐条件となる。図15〜図18より、入力属性x1については、「x1=A,Bと、x1=C,Dとの分岐」が、入力属性x2については、「x2=a,bと、x2=c,dとの分岐」が、入力属性x3については、「x3=1,2と、x3=3,4との分岐」が、入力属性x4については、「x4=10と、x4=20,30,40との分岐」が、それぞれ適切であることが分かる。   In the data group of Table 1, the Gini index i (t1) at the root node t1 is 0.444 from the equation (1). The degree of improvement when this root node t1 is branched into two child nodes according to various branch conditions is shown in FIGS. Here, the number of branch condition patterns for calculating the degree of improvement (calculation of equation (2)) is a total of 12 conditions (each input) for all the branch condition patterns that the input attributes x1, x2, x3, and x4 can take. 3 conditions for attributes). The condition having the maximum improvement in each input attribute is the optimum branching condition for separating y = Y and y = XZ in that input attribute. 15 to 18, “branch between x1 = A, B and x1 = C, D” for the input attribute x1, and “x2 = a, b, x2 = c, for the input attribute x2”. “branch with d” is “branch between x3 = 1, 2 and x3 = 3, 4” for the input attribute x3, and “branch with d4” is “x4 = 10, x4 = 20, 30, It can be seen that the “branch with 40” is appropriate.

そして、各入力属性における上記の最適な分岐条件の中で、さらに、最大の改善度を持つ条件、すなわち「x2=a,bと、x2=c,dとの分岐」が、ルートノードt1からの最終的な分岐条件として選択される。以後、上記と同様の操作を繰り返し、最終的に図14の決定木が作成される。なお、図14の決定木を作成する過程で、改善度が最大となったのは、ノードt5を、「x3=1,2と、x3=3,4」とに分岐させた場合で、改善度=0.5であった。
特開平8−314725号公報(公開日:平成8年(1996)11月29日) 大滝厚、堀江宥治、Dan Steinberg著「応用2進木解析法−CARTによる−」、日科技連、1998年7月6日発行、P44−P47
Then, among the above-mentioned optimum branch conditions for each input attribute, a condition having the maximum improvement degree, that is, “a branch between x2 = a, b and x2 = c, d” is determined from the root node t1. Is selected as the final branch condition. Thereafter, the same operation as described above is repeated, and finally the decision tree of FIG. 14 is created. In the process of creating the decision tree of FIG. 14, the degree of improvement is maximized when node t5 is branched into “x3 = 1, 2 and x3 = 3, 4”. Degree = 0.5.
JP-A-8-314725 (Publication date: November 29, 1996) Atsushi Otaki, Yuji Horie, Dan Steinberg, "Applied binary tree analysis method-by CART-", Nikka Giren, July 6, 1998, P44-P47

従来の、Giniインデックス法(Giniインデックスおよび改善度)による決定木(図14)を、デバイス等の製品の製造工程における製品特性不良の要因分析に応用する場合を題材にして、従来技術の課題を説明する。   Applying the conventional decision tree (Fig. 14) based on the Gini index method (Gini index and improvement degree) to factor analysis of product characteristic defects in the manufacturing process of products such as devices, the problem of the conventional technology explain.

いま、表1の入力属性x1,x2,x3,x4が製品製造工程における各種のプロセスデータやインライン検査データ、出力属性yが製造された製品の特性データであり、出力属性y=Yが製品特性不良に相当するものとする。そして、プロセス技術者が、製品特性不良y=Yに対し、従来の決定木(図14)を用いて、製品特性不良の要因(「どの入力属性がどの値の範囲にあるから製品特性が悪いのか?」)を調査するものとする。   Now, the input attributes x1, x2, x3, and x4 in Table 1 are various process data and in-line inspection data in the product manufacturing process, and the output attribute y is the product characteristic data. The output attribute y = Y is the product characteristic. It shall correspond to a defect. Then, the process engineer uses the conventional decision tree (FIG. 14) for the product characteristic defect y = Y, and causes the product characteristic defect (“product characteristics are bad because which input attribute is in which value range”). ")") Shall be investigated.

上記の題材の場合、従来の決定木(図14)では、以下のような問題がある。
すなわち、y=Yなる製品特性不良の条件は、
・「x2=c,d」
または、
・「x2=a,b」かつ「x1=C,D」かつ「x3=3,4」
という階層構造の形式で、複数の箇所(この例では2箇所)に現われる。このため、具体的に、「各々の入力属性がどの値の範囲にあるから製品特性が悪いのか?」という製品特性不良の要因をプロセス技術者が判断しにくい。例えば、入力属性x2について、「x2=c,d」と「x2=a,b」のうち、どちらが、y=Yなる製品特性不良の条件であるのかが分からない。この例では、y=Yが決定木中の2箇所にしか現れていないため、何とか、プロセス技術者が製品特性不良の要因を判断することも可能である。しかしながら、実際のデバイス(特に半導体デバイス)のような製品の製造現場では、1工程につき10〜100属性程度のプロセスデータやインライン検査データがあり、しかも、その値は多値で非常に広い範囲で分布している。このような場合には、y=Yなる製品特性不良が、決定木の至る所に現われ、また、同一の入力属性における異なる条件での分岐が何回も起こってしまい、もはや、プロセス技術者が、適正に不良の要因を特定する事ができなくなる。
In the case of the above material, the conventional decision tree (FIG. 14) has the following problems.
That is, the condition of product characteristic failure where y = Y is
・ "X2 = c, d"
Or
“X2 = a, b” and “x1 = C, D” and “x3 = 3,4”
It appears in a plurality of places (two places in this example) in the form of a hierarchical structure. For this reason, specifically, it is difficult for the process engineer to determine the cause of the product characteristic failure, such as “Which range of each input attribute is the product characteristic bad?”. For example, for the input attribute x2, it is not known which of “x2 = c, d” and “x2 = a, b” is the product characteristic defect condition of y = Y. In this example, since y = Y appears only in two places in the decision tree, the process engineer can somehow determine the cause of the product characteristic failure. However, in manufacturing sites of products such as actual devices (especially semiconductor devices), there are process data and in-line inspection data of about 10 to 100 attributes per process, and the values are multivalued and in a very wide range. Distributed. In such a case, a product characteristic defect with y = Y appears throughout the decision tree, and branching under different conditions in the same input attribute has occurred many times, and the process engineer is no longer As a result, it becomes impossible to properly identify the cause of the failure.

さらに、従来の決定木(図14)では、Giniインデックスや改善度によって、各ノードにおける切り分けの確度や、切り分け後のまとまりの良さのみを評価しているため、さまざまな階層に現われるy=Yなる製品特性不良の複数の要因に対して、優先順位を付けることが難しい。具体的には、y=Yなる製品特性不良の要因となる、4つの条件「x2=c,d」、「x2=a,b」、「x1=C,D」、「x3=3,4」に対して、これらのうち、どの条件から順番に対策を施せばよいのかを判断できない。もし改善度を重視するなら、改善度が最大(0.5)となる「x3=3,4」が高い順位となるが、これは、「x2=a,b」かつ「x1=C,D」なる母集団に対するものであり、あまり意味を持たない。   Furthermore, in the conventional decision tree (FIG. 14), only the accuracy of carving at each node and the goodness of grouping after carving are evaluated based on the Gini index and the degree of improvement, so y = Y that appears in various hierarchies. It is difficult to prioritize multiple causes of product characteristic defects. Specifically, four conditions “x2 = c, d”, “x2 = a, b”, “x1 = C, D”, “x3 = 3, 4” that cause a product characteristic defect y = Y. It is impossible to determine from which of these conditions the countermeasures should be taken in order. If importance is attached to the degree of improvement, “x3 = 3, 4” where the degree of improvement is the maximum (0.5) is ranked higher, which is “x2 = a, b” and “x1 = C, D”. It is for the population of "and has little meaning.

すなわち、従来の決定木では、「各々の入力属性がどの値の範囲にあるから製品特性が悪いのか?」という製品特性不良の要因をプロセス技術者が判断しにくいという第1の問題、および、「さまざまな階層に現われる各々の条件(不良要因)に対して、どのような優先順位で対策を施せば良いか?」が分かりにくいという第2の問題があった。   That is, in the conventional decision tree, the first problem is that it is difficult for the process engineer to determine the cause of the product characteristic failure, such as “Which range of each input attribute is the product characteristic bad?”, And The second problem is that it is difficult to understand what priority should be taken for each condition (defect factor) appearing on various levels.

本発明は、上記従来の問題点を鑑みてなされたものであり、その第1の目的は、所定の出力属性の要因(製品特性不良の要因)となる入力属性条件を、ユーザが判断しやすい簡潔な形で抽出することができる、データ分析装置およびデータ分析方法並びにデータ分析プログラム、記録媒体を提供する事にある。また第2の目的は、所定の出力属性の要因(製品特性不良の要因)として抽出した複数の入力属性条件に対し、明確な指標に基づいて所定の出力属性の要因(製品特性不良の要因)としての重要度による順位付けを行うことができ、それによりどの入力属性条件から順番に対策を施せばよいのかを明確にすることができるデータ分析装置およびデータ分析方法並びにデータ分析プログラム、記録媒体を提供する事にある。   The present invention has been made in view of the above-described conventional problems, and a first object of the present invention is to make it easier for a user to determine an input attribute condition that is a factor of a predetermined output attribute (a factor of product characteristic failure). To provide a data analysis apparatus, a data analysis method, a data analysis program, and a recording medium that can be extracted in a simple form. In addition, the second purpose is that for a plurality of input attribute conditions extracted as a factor of a predetermined output attribute (factor of product characteristic failure), a factor of the predetermined output attribute (factor of product characteristic failure) based on a clear index A data analysis apparatus, a data analysis method, a data analysis program, and a recording medium that can be classified according to the importance as the input attribute conditions, thereby clarifying which input attribute condition should be taken in order It is to provide.

本発明のデータ分析装置は、上記の課題を解決するために、複数の入力属性と出力属性とで構成されるデータの集合である基本データ群に対して、前記入力属性と前記出力属性との因果関係を分析し、前記因果関係を示す情報を抽出するデータ分析装置であって、前記基本データ群を、前記出力属性の値に依って、第1データ群と第2データ群とに分類し、分類フラグを付与する分類手段と、前記分類手段による分類後の前記基本データ群の中から、分析の対象とする分析データ群を抽出する分析データ群抽出手段と、前記分析データ群の各々の前記入力属性に関わる入力属性条件の各々について、「該入力属性条件とその排他的条件とによる前記分析データ群の切り分けによって前記第1データ群と前記第2データ群とがそれぞれまとまり、前記入力属性が当該入力属性条件を満たせば、前記分析データ群中の前記第2データ群に属するデータであり、前記入力属性が当該入力属性条件を満たさなければ、前記分析データ群中の前記第1データ群に属するデータである」という第1の相関ルールの確からしさを表す、入力属性条件評価指標を演算する第1の評価手段と、前記分析データ群の各々の前記入力属性について、それぞれ、最大の前記入力属性条件評価指標を持つ入力属性条件を、前記第1の相関ルールを満たす入力属性条件として決定する入力属性条件決定手段と、前記入力属性条件決定手段で決定された複数の前記入力属性条件の少なくとも一部に対して、前記基本データ群中で該入力属性条件を満たし、かつ、前記第2データ群に該当するデータの個数を表す第2データ群該当数、および、前記基本データ群中で該入力属性条件を満たすデータの中における、前記第2データ群に該当するデータ個数の割合を表す第2データ群分離度の少なくとも一方を指標として、前記第2データ群に対応する出力属性条件の要因としての重要度による順位付けを行う順位決定手段とを含むことを特徴としている。   In order to solve the above-described problem, the data analysis apparatus of the present invention provides a basic data group that is a set of data composed of a plurality of input attributes and output attributes. A data analysis apparatus for analyzing causal relationships and extracting information indicating the causal relationships, wherein the basic data group is classified into a first data group and a second data group according to the value of the output attribute. Each of each of the analysis data group, a classification means for assigning a classification flag, an analysis data group extraction means for extracting an analysis data group to be analyzed from the basic data group after classification by the classification means, and For each of the input attribute conditions related to the input attribute, “the first data group and the second data group are grouped by dividing the analysis data group by the input attribute condition and its exclusive condition, respectively. If the input attribute satisfies the input attribute condition, the data belongs to the second data group in the analysis data group, and if the input attribute does not satisfy the input attribute condition, the second data group in the analysis data group. The first evaluation means for calculating the input attribute condition evaluation index, which represents the probability of the first association rule that the data belongs to one data group, and the input attribute of each of the analysis data group, An input attribute condition determining means for determining an input attribute condition having the largest input attribute condition evaluation index as an input attribute condition satisfying the first correlation rule; and the plurality of inputs determined by the input attribute condition determining means A second value representing the number of data satisfying the input attribute condition in the basic data group and corresponding to the second data group for at least part of the attribute condition Index of at least one of the number of corresponding data groups and the second data group separation degree representing the ratio of the number of data corresponding to the second data group in the data satisfying the input attribute condition in the basic data group And ranking determining means for ranking by importance as a factor of the output attribute condition corresponding to the second data group.

本発明のデータ分析方法は、上記の課題を解決するために、本発明のデータ分析装置を用いて、複数の入力属性と出力属性とで構成されるデータの集合である基本データ群に対して、前記入力属性と前記出力属性との因果関係を分析し、前記因果関係を示す情報を抽出するデータ分析方法であって、前記分類手段により、前記基本データ群を、前記出力属性の値に依って、第1データ群と第2データ群とに分類し、分類フラグを付与する分類ステップと、前記分析データ群抽出手段により、前記分類手段による分類後の前記基本データ群の中から、分析の対象とする分析データ群を抽出する分析データ群抽出ステップと、前記第1の評価手段により、前記分析データ群の各々の前記入力属性に関わる入力属性条件の各々について、「該入力属性条件とその排他的条件とによる前記分析データ群の切り分けによって前記第1データ群と前記第2データ群とがそれぞれまとまり、前記入力属性が当該入力属性条件を満たせば、前記分析データ群中の前記第2データ群に属するデータであり、前記入力属性が当該入力属性条件を満たさなければ、前記分析データ群中の前記第1データ群に属するデータである」という第1の相関ルールの確からしさを表す、入力属性条件評価指標を演算する第1の評価ステップと、前記入力属性条件決定手段により、前記分析データ群の各々の前記入力属性について、それぞれ、最大の前記入力属性条件評価指標を持つ入力属性条件を、前記第1の相関ルールを満たす入力属性条件として決定する入力属性条件決定ステップと、前記順位決定手段により、前記入力属性条件決定手段で決定された複数の前記入力属性条件の少なくとも一部に対して、前記基本データ群中で該入力属性条件を満たし、かつ、前記第2データ群に該当するデータの個数を表す第2データ群該当数、および、前記基本データ群中で該入力属性条件を満たすデータの中における、前記第2データ群に該当するデータ個数の割合を表す第2データ群分離度の少なくとも一方を指標として、前記第2データ群に対応する出力属性条件の要因としての重要度による順位付けを行う順位決定ステップとを含むことを特徴としている。   In order to solve the above problem, the data analysis method of the present invention uses the data analysis apparatus of the present invention to perform a basic data group that is a set of data composed of a plurality of input attributes and output attributes. A data analysis method for analyzing a causal relationship between the input attribute and the output attribute and extracting information indicating the causal relationship, wherein the basic data group is determined by the classification means according to the value of the output attribute. Then, the data is classified into a first data group and a second data group, a classification flag is assigned, and the analysis data group extraction means performs analysis of the basic data group after classification by the classification means. For each of the input attribute conditions related to each input attribute of the analysis data group by the analysis data group extraction step for extracting the target analysis data group and the first evaluation unit, “the input attribute The first data group and the second data group are grouped by dividing the analysis data group according to a condition and an exclusive condition, and if the input attribute satisfies the input attribute condition, the analysis data group in the analysis data group Probability of the first correlation rule that is data belonging to the second data group and is data belonging to the first data group in the analysis data group if the input attribute does not satisfy the input attribute condition. A first evaluation step of calculating an input attribute condition evaluation index, and an input having the maximum input attribute condition evaluation index for each of the input attributes of the analysis data group by the input attribute condition determination means An input attribute condition determining step for determining an attribute condition as an input attribute condition satisfying the first correlation rule, and the rank determining means, The number of data satisfying the input attribute condition in the basic data group and corresponding to the second data group for at least some of the plurality of input attribute conditions determined by the input attribute condition determining means And at least a second data group separation degree representing a ratio of the number of data corresponding to the second data group in data satisfying the input attribute condition in the basic data group And a rank determining step for ranking according to the importance as a factor of the output attribute condition corresponding to the second data group using one as an index.

本発明のデータ分析プログラムは、上記の課題を解決するために、複数の入力属性と出力属性とで構成されるデータの集合である基本データ群に対して、前記入力属性と前記出力属性との因果関係を分析し、前記因果関係を示す情報を抽出するデータ分析プログラムであって、コンピュータを、前記基本データ群を、前記出力属性の値に依って、第1データ群と第2データ群とに分類し、分類フラグを付与する分類手段、前記分類手段による分類後の前記基本データ群の中から、分析の対象とする分析データ群を抽出する分析データ群抽出手段、前記分析データ群の各々の前記入力属性に関わる入力属性条件の各々について、「該入力属性条件とその排他的条件とによる前記分析データ群の切り分けによって前記第1データ群と前記第2データ群とがそれぞれまとまり、前記入力属性が当該入力属性条件を満たせば、前記分析データ群中の前記第2データ群に属するデータであり、前記入力属性が当該入力属性条件を満たさなければ、前記分析データ群中の前記第1データ群に属するデータである」という第1の相関ルールの確からしさを表す、入力属性条件評価指標を演算する第1の評価手段、前記分析データ群の各々の前記入力属性について、それぞれ、最大の前記入力属性条件評価指標を持つ入力属性条件を、前記第1の相関ルールを満たす入力属性条件として決定する入力属性条件決定手段、前記入力属性条件決定手段で決定された複数の前記入力属性条件の少なくとも一部に対して、前記基本データ群中で該入力属性条件を満たし、かつ、前記第2データ群に該当するデータの個数を表す第2データ群該当数、および、前記基本データ群中で該入力属性条件を満たすデータの中における、前記第2データ群に該当するデータ個数の割合を表す第2データ群分離度の少なくとも一方を指標として、前記第2データ群に対応する出力属性条件の要因としての重要度による順位付けを行う順位決定手段として機能させるためのものであることを特徴としている。   In order to solve the above problem, the data analysis program of the present invention provides a basic data group, which is a set of data composed of a plurality of input attributes and output attributes, for the input attributes and the output attributes. A data analysis program for analyzing a causal relationship and extracting information indicating the causal relationship, wherein the computer includes the basic data group, the first data group and the second data group, depending on the value of the output attribute. Each of the analysis data group, the analysis data group extraction means for extracting the analysis data group to be analyzed from the basic data group after classification by the classification means, For each of the input attribute conditions related to the input attribute, “the first data group and the second data are separated by dividing the analysis data group by the input attribute condition and its exclusive condition. If the input attribute satisfies the input attribute condition, the data belongs to the second data group in the analysis data group. If the input attribute does not satisfy the input attribute condition, the analysis is performed. First evaluation means for calculating an input attribute condition evaluation index, which represents the probability of the first association rule that the data belongs to the first data group in the data group, and the input of each of the analysis data groups For each attribute, the input attribute condition having the largest input attribute condition evaluation index is determined by the input attribute condition determining unit and the input attribute condition determining unit that determine the input attribute condition satisfying the first correlation rule. For at least some of the plurality of input attribute conditions, the basic data group satisfies the input attribute condition and corresponds to the second data group. And a second data group separation representing a ratio of the number of data corresponding to the second data group in the data satisfying the input attribute condition in the basic data group It is characterized by functioning as rank determining means for ranking according to importance as a factor of the output attribute condition corresponding to the second data group using at least one of the degrees as an index.

本発明の記録媒体は、本発明のデータ分析プログラムを記録したコンピュータ読み取り可能な記録媒体であることを特徴としている。   The recording medium of the present invention is a computer-readable recording medium on which the data analysis program of the present invention is recorded.

本発明の装置、方法、プログラム、および記録媒体によれば、前記入力属性条件決定手段が、決定木における分岐条件に限らず、全ての入力属性について、第2データ群に対応する出力属性条件の要因となる入力属性条件を抽出(決定)しているから、分岐条件に競合因子が存在しても、その要因を逃すことなく、確実に捉えることができる。   According to the apparatus, the method, the program, and the recording medium of the present invention, the input attribute condition determining unit is not limited to the branch condition in the decision tree, and for all input attributes, the output attribute condition corresponding to the second data group is set. Since the input attribute condition as a factor is extracted (determined), even if a competing factor is present in the branch condition, it can be reliably captured without missing the factor.

そして、前記順位決定手段が、前記入力属性条件決定手段で決定された複数の前記入力属性条件の少なくとも一部に対して、上記第2データ群に対応する出力属性条件の要因としての重要度の明確な指標である第2データ群該当数および第2データ群分離度の少なくとも一方に基づいて、上記第2データ群に対応する出力属性条件の要因としての重要度による順位付けを行っている。その結果、上記第2データ群に対応する出力属性条件が発生する要因となる入力属性条件を、上記の重要度による順位と併せて、一眺して即座に認識できる。したがって、所定の出力属性の要因となる入力属性条件を簡潔な形で複数抽出することができ、本発明の第1の目的を達成できる。   Then, the order determination means determines the importance as a factor of the output attribute condition corresponding to the second data group for at least a part of the plurality of input attribute conditions determined by the input attribute condition determination means. Based on at least one of the second data group hit count and the second data group separation degree, which is a clear index, ranking is performed according to importance as a factor of the output attribute condition corresponding to the second data group. As a result, the input attribute condition that causes the output attribute condition corresponding to the second data group can be recognized at a glance together with the order of importance. Therefore, a plurality of input attribute conditions that cause a predetermined output attribute can be extracted in a simple manner, and the first object of the present invention can be achieved.

さらに、従来の決定木(図14)では、「さまざまな階層に現われる各々の不良要因に対して、どのような優先順位で対策を施せば良いか」が分かりにくかった。これに対し、本発明の装置、方法、プログラム、および記録媒体では、前記入力属性条件決定手段で決定された複数の前記入力属性条件の少なくとも一部に対して、上記第2データ群に対応する出力属性条件の要因としての重要度の明確な指標である第2データ群該当数および第2データ群分離度の少なくとも一方に基づいて、上記第2データ群に対応する出力属性条件の要因としての重要度による順位付けを行っている。それゆえ、前記第2データ群に対応する出力属性条件の発生を解消するために対策を施すべき複数の要因(入力属性条件)に対して、対策を施すべき優先順位(どの要因から順番に対策を施していけば、効果的に前記第2データ群に対応する出力属性条件の発生を解消できるか)を明確に決定することができる。したがって、本発明の第2の目的を達成できる。   Further, in the conventional decision tree (FIG. 14), it is difficult to understand “what priority should be taken for each failure factor appearing in various layers”. On the other hand, in the apparatus, method, program, and recording medium of the present invention, at least a part of the plurality of input attribute conditions determined by the input attribute condition determining unit corresponds to the second data group. As a factor of the output attribute condition corresponding to the second data group, based on at least one of the second data group hit count and the second data group separation degree, which is a clear indicator of the importance as the factor of the output attribute condition Ranking by importance. Therefore, for a plurality of factors (input attribute conditions) that should be taken measures to eliminate the occurrence of the output attribute condition corresponding to the second data group, the priority order to take measures (from which factor to take measures in order) It is possible to clearly determine whether or not the generation of the output attribute condition corresponding to the second data group can be effectively eliminated). Therefore, the second object of the present invention can be achieved.

本発明のデータ分析装置は、前記構成のデータ分析装置において、前記入力属性条件決定手段で決定された前記入力属性条件の各々について、「前記入力属性が当該入力属性条件を満たせば、前記分析データ群中の前記第2データ群に含まれるデータである」という第2の相関ルールの確からしさを表す分割ルール評価値を演算する第2の評価手段と、前記入力属性条件決定手段で決定された前記入力属性条件の中で、最大の前記分割ルール評価値を持つ入力属性条件に基づいて、前記分析データ群を、該入力属性条件を満たす要因データ群と、該入力属性条件を満たさない他データ群とに分割する分割手段と、前記入力属性条件決定手段で決定された前記入力属性条件の中から、前記第2データ群に対応する出力属性条件の要因としての重要度の高い入力属性条件を選定する要因決定手段と、をさらに含み、前記分析データ群抽出手段は、前記分割手段で分割されたデータ群のうちの少なくとも一方を新たな分析データ群として抽出し、該分析データ群抽出手段による処理、前記第1の評価手段による処理、前記入力属性条件決定手段による処理、前記第2の評価手段による処理、および、前記分割手段による処理からなる一連の処理が繰り返し実行されるようになっており、前記入力属性条件決定手段は、前記の繰り返しの処理によって、前記入力属性の各々に対して、それぞれ複数の入力属性条件を決定するようになっており、前記要因決定手段は、前記入力属性の各々に対して、それぞれ、前記入力属性条件決定手段によって決定された複数の入力属性条件の中から、前記第2データ群に対応する出力属性条件の要因としての重要度の高い入力属性条件を選定し、前記順位決定手段は、前記入力属性条件決定手段で決定された前記入力属性条件の一部である、前記要因決定手段で選定された複数の前記入力属性条件に対して、前記順位付けを行うものであることが好ましい。   The data analysis apparatus of the present invention is the data analysis apparatus having the above-described configuration, for each of the input attribute conditions determined by the input attribute condition determination means, “if the input attribute satisfies the input attribute condition, the analysis data A second evaluation means for calculating a division rule evaluation value representing the probability of the second association rule that the data is included in the second data group in the group, and the input attribute condition determination means Based on the input attribute condition having the largest division rule evaluation value among the input attribute conditions, the analysis data group is divided into a factor data group that satisfies the input attribute condition and other data that does not satisfy the input attribute condition. A dividing unit that divides into groups, and an input attribute condition determined by the input attribute condition determining unit, as a factor of an output attribute condition corresponding to the second data group. A factor determination unit that selects a high-level input attribute condition, and the analysis data group extraction unit extracts at least one of the data groups divided by the division unit as a new analysis data group, A series of processes consisting of processing by the analysis data group extraction means, processing by the first evaluation means, processing by the input attribute condition determination means, processing by the second evaluation means, and processing by the dividing means are repeated. The input attribute condition determining means is configured to determine a plurality of input attribute conditions for each of the input attributes by the repetitive processing, and the factor The determining means is, for each of the input attributes, the plurality of input attribute conditions determined by the input attribute condition determining means, An input attribute condition having high importance as a factor of an output attribute condition corresponding to two data groups is selected, and the rank determining unit is a part of the input attribute condition determined by the input attribute condition determining unit. It is preferable that the ranking is performed on the plurality of input attribute conditions selected by the factor determining means.

上記構成によれば、「最大の前記分割ルール評価値を持つ入力属性条件に基づいて、分析データ群を分割し、この分割されたデータ群に対して入力属性条件を決定する」といった一連の処理が繰り返し実行されるようになっているので、前記最大の分割ルール評価値を持つ入力属性条件を節点とする木構造を作成できる。それゆえ、単独の相関ルールでは表現し難い複数の要因の絡み合った分析対象であっても、十分に高い精度で、第2データ群に対応する出力属性条件の要因を究明できる。   According to the above configuration, a series of processes such as “divide the analysis data group based on the input attribute condition having the maximum division rule evaluation value and determine the input attribute condition for the divided data group”. Is repeatedly executed, it is possible to create a tree structure with the input attribute condition having the maximum division rule evaluation value as a node. Therefore, even if the analysis target is intertwined with a plurality of factors that are difficult to express with a single association rule, the factor of the output attribute condition corresponding to the second data group can be determined with sufficiently high accuracy.

また、上記構成によれば、入力属性条件決定手段が、上記の繰り返しの処理によって、前記入力属性の各々について、入力属性条件の決定を繰り返し実行して複数の入力属性条件を決定している。そして、決定された複数の入力属性条件の中から前記第2データ群に対応する出力属性条件の要因としての重要度の高い入力属性条件を前記要因決定手段によって選定するようになっている。これにより、詳細な要因分析結果を得るために上記の繰り返し処理を行っても、データ分析の結果が複雑化する事なく、非常に簡潔な形でありながら、高い確度で、第2データ群に対応する出力属性条件の要因を決定する事ができる。   Further, according to the above configuration, the input attribute condition determining means repeatedly determines the input attribute condition for each of the input attributes and determines a plurality of input attribute conditions by the above-described repetitive processing. Then, the factor determining means selects an input attribute condition having a high importance as a factor of the output attribute condition corresponding to the second data group from the determined plurality of input attribute conditions. As a result, even if the above-described iterative process is performed to obtain a detailed factor analysis result, the result of the data analysis is not complicated, and it is very simple but highly accurate to the second data group. The cause of the corresponding output attribute condition can be determined.

さらに、上記構成によれば、前記の木構造を作成すると共に、前記順位決定手段によって、前記要因決定手段で選定された複数の入力属性条件(該木構造のさまざまな階層で決定された入力属性条件)に対して、前記第2データ群に対応する出力属性条件の要因としての重要度による順位付けを行うことができる。これにより、「さまざまな階層に現われる各々の不良要因(入力属性条件)に対して、どのような優先順位で対策を施せば良いか?」を容易に把握することができる。   Further, according to the above configuration, the tree structure is created, and the plurality of input attribute conditions selected by the factor determining means (input attributes determined at various levels of the tree structure) by the rank determining means. (Condition) can be ranked according to importance as a factor of the output attribute condition corresponding to the second data group. As a result, it is possible to easily grasp “what priority should be taken with respect to each failure factor (input attribute condition) appearing in various layers?”.

なお、入力属性条件の「重要度」とは、その入力属性条件の発生を回避した場合に、前記第2データ群に対応する出力属性条件の発生がどれだけ効果的に解消されるかという程度を表す。より詳細には、入力属性条件の重要度は、基本データ群中で入力属性条件を満たし、かつ前記第2データ群に該当するデータの多さを、絶対値(個数)あるいは相対値(基本データ群中で入力属性条件を満たすデータの総数に対する割合)で表したものである。   The “importance” of the input attribute condition is the extent to which the occurrence of the output attribute condition corresponding to the second data group is effectively eliminated when the occurrence of the input attribute condition is avoided. Represents. More specifically, the degree of importance of the input attribute condition is defined as an absolute value (number) or a relative value (basic data) that satisfies the input attribute condition in the basic data group and corresponds to the second data group. The ratio of the total number of data satisfying the input attribute condition in the group).

本発明のデータ分析装置は、前記構成のデータ分析装置において、前記入力属性条件決定手段によって決定される複数の入力属性条件は、「入力属性が閾値以下である」という第1のパターンと、「入力属性が閾値を超える」という第2のパターンとを含み、前記要因決定手段は、同一の入力属性における複数の入力属性条件のうち、前記第1のパターンの中で前記重要度の高い入力属性条件と、前記第2のパターンの中で前記重要度の高い入力属性条件とを選定するものであってもよい。   In the data analysis device of the present invention, the plurality of input attribute conditions determined by the input attribute condition determination unit in the data analysis device having the above configuration include a first pattern that “input attribute is equal to or less than a threshold value”, “ A second pattern that the input attribute exceeds a threshold value, and the factor determination means includes the input attribute having the highest importance in the first pattern among a plurality of input attribute conditions in the same input attribute. The condition and the input attribute condition having the high importance in the second pattern may be selected.

上記構成によれば、前記入力属性条件決定手段によって決定される複数の入力属性条件が、「入力属性が閾値以下である」という第1のパターンと、「入力属性が閾値を超える」という第2のパターンとを含む場合においても、その双方のパターンについて、非常に簡潔な形でありながら、高い確度で、第2データ群に対応する出力属性条件の要因を決定する事ができる。   According to the above configuration, the plurality of input attribute conditions determined by the input attribute condition determining means include the first pattern that “the input attribute is equal to or less than the threshold” and the second pattern that “the input attribute exceeds the threshold”. Even in the case of including the pattern, it is possible to determine the factor of the output attribute condition corresponding to the second data group with high accuracy for both of the patterns in a very simple form.

本発明のデータ分析装置は、前記構成のデータ分析装置において、前記要因決定手段は、該選定の対象とする複数の入力属性条件の中で、前記第2データ群分離度が最大となる入力属性条件を、前記重要度の高い入力属性条件として選定するものであることが好ましい。   The data analysis apparatus according to the present invention is the data analysis apparatus having the above-described configuration, wherein the factor determination means has an input attribute that maximizes the second data group separation degree among a plurality of input attribute conditions to be selected. It is preferable that the condition is selected as the input attribute condition having a high importance.

上記構成によれば、第2データ群分離度が最大となる入力属性条件を、前記重要度の高い入力属性条件として選定している。入力属性条件の第2データ群分離度は、第2データ群に対応する出力属性条件を該入力属性条件により切り出すことができる確度を表すので、上記構成では、第2データ群に対応する出力属性条件を入力属性条件により切り出すことができる確度が最も高い入力属性条件を選定することができる。したがって、他の入力属性(外乱)の影響をあまり受けない高い確度の、第2データ群に対応する出力属性条件の要因となる入力属性条件を抽出することができる。   According to the above configuration, the input attribute condition that maximizes the second data group separation degree is selected as the input attribute condition having the high importance. Since the second data group separation degree of the input attribute condition represents the probability that the output attribute condition corresponding to the second data group can be cut out by the input attribute condition, in the above configuration, the output attribute corresponding to the second data group It is possible to select an input attribute condition with the highest degree of accuracy with which the condition can be extracted by the input attribute condition. Therefore, it is possible to extract an input attribute condition that is a factor of an output attribute condition corresponding to the second data group with high accuracy that is not significantly affected by other input attributes (disturbances).

なお、前記入力属性条件決定手段によって決定される複数の入力属性条件が、「入力属性が閾値以下である」という第1のパターンと、「入力属性が閾値を超える」という第2のパターンとを含む場合、前記要因決定手段は、前記入力属性条件決定手段によって決定された同一の入力属性における複数の入力属性条件のうち、第1のパターンおよび第2のパターンの各々を選定の対象として、第1のパターンおよび第2のパターンの各々の中で前記第2データ群分離度が最大となる入力属性条件を、前記重要度の高い条件として選定するようになっていてもよく、前記入力属性条件決定手段によって決定された同一の入力属性における複数の入力属性条件のうち、第1のパターンおよび第2のパターンを含む全ての入力属性条件を選定の対象として、これら入力属性条件の中で前記第2データ群分離度が最大となる入力属性条件を、前記重要度の高い条件として選定するようになっていてもよい。   The plurality of input attribute conditions determined by the input attribute condition determining means include a first pattern that “the input attribute is equal to or less than the threshold value” and a second pattern that “the input attribute exceeds the threshold value”. If included, the factor determining means selects each of the first pattern and the second pattern from among a plurality of input attribute conditions in the same input attribute determined by the input attribute condition determining means, as a selection target. The input attribute condition that maximizes the second data group separation degree in each of the first pattern and the second pattern may be selected as the condition having the higher importance level. Of the plurality of input attribute conditions for the same input attribute determined by the determining means, all input attribute conditions including the first pattern and the second pattern are to be selected. And, an input attribute condition where the second data group separation among these input attribute condition is maximum, may be adapted to select a high condition of the importance.

本発明のデータ分析装置は、前記構成のデータ分析装置において、前記要因決定手段は、該選定の対象とする複数の入力属性条件の中で、前記第2データ群該当数の大きい順に点数が高くなるように与えられた第1の配点と、前記第2データ群分離度の大きい順に点数が高くなるように与えられた第2の配点との合計点が最大となる入力属性条件を、前記重要度の高い入力属性条件として選定するものであってもよい。   In the data analysis apparatus according to the present invention, in the data analysis apparatus having the above configuration, the factor determination unit has a higher score in descending order of the number of corresponding second data groups among the plurality of input attribute conditions to be selected. The input attribute condition that maximizes the total score of the first score given in this way and the second score given so that the score increases in descending order of the second data group separation degree is the important attribute It may be selected as a high-level input attribute condition.

上記構成によれば、第1の配点と第2の配点との合計点が最大となる入力属性条件を、前記重要度の高い入力属性条件として選定している。したがって、第2データ群該当数と第2データ群分離度との双方を考慮して、第2データ群に対応する出力属性条件を、比較的高い確度で多く切り出せる入力属性条件を抽出することができる。   According to the above configuration, the input attribute condition that maximizes the total score of the first and second score points is selected as the input attribute condition having the high importance. Therefore, in consideration of both the second data group hit count and the second data group separation degree, an input attribute condition that can extract many output attribute conditions corresponding to the second data group with relatively high accuracy is extracted. Can do.

本発明のデータ分析装置は、前記構成のデータ分析装置において、前記順位決定手段は、前記入力属性条件決定手段によって決定された複数の前記入力属性条件の少なくとも一部に対して、前記第2データ群該当数の大きい順に、前記順位付けを行う構成であってもよい。   The data analysis apparatus according to the present invention is the data analysis apparatus having the above-described configuration, wherein the rank determination unit is configured to output the second data with respect to at least some of the plurality of input attribute conditions determined by the input attribute condition determination unit. The configuration may be such that the ranking is performed in descending order of the number of hits in the group.

上記構成によれば、前記第2データ群該当数の大きい順に前記順位付けを行うので、第2データ群に対応する出力属性条件を発生させる要因となる複数の入力属性条件に対して、第2データ群に対応する出力属性条件を発生させる数が多い順に、順位付けを行うことができる。   According to the above configuration, since the ranking is performed in descending order of the number of hits in the second data group, the second attribute is generated with respect to a plurality of input attribute conditions that cause an output attribute condition corresponding to the second data group. Ranking can be performed in descending order of the number of output attribute conditions corresponding to the data group.

したがって、例えば、第1データ群が良品のデータ群、第2データ群が不良品のデータ群である場合には、入力属性条件の順位を、その入力属性条件を回避することによって解消される不良品の数が多いほどより高い順位となるようにすることができる。その結果、良品の減少にかかわらずできる限り多くの不良品の発生を解消することを所望する場合に、どのような優先順位で対策を施せば良いかを明確に把握することができる。   Therefore, for example, when the first data group is a good data group and the second data group is a defective data group, the order of the input attribute conditions can be eliminated by avoiding the input attribute conditions. The higher the number of non-defective products, the higher the ranking can be made. As a result, when it is desired to eliminate as many defective products as possible regardless of the decrease in non-defective products, it is possible to clearly grasp in what priority order measures should be taken.

本発明のデータ分析装置は、前記構成のデータ分析装置において、前記順位決定手段は、前記入力属性条件決定手段によって決定された複数の前記入力属性条件の少なくとも一部に対して、前記第2データ群分離度の大きい順に、前記順位付けを行う構成であってもよい。   The data analysis apparatus according to the present invention is the data analysis apparatus having the above-described configuration, wherein the rank determination unit is configured to output the second data with respect to at least some of the plurality of input attribute conditions determined by the input attribute condition determination unit. The configuration may be such that the ranking is performed in descending order of group separation.

上記構成によれば、前記第2データ群分離度の大きい順に前記順位付けを行うので、第2データ群に対応する出力属性条件を発生させる要因となる複数の入力属性条件のうち、第2データ群に対応する出力属性条件を発生させる確率が高く、かつ、第1データ群に対応する出力属性条件を発生させる確率が低い入力属性条件に対して、より高い順位を付けることができる。   According to the above configuration, since the ranking is performed in descending order of the second data group separation degree, among the plurality of input attribute conditions that cause the output attribute condition corresponding to the second data group, the second data An input attribute condition having a high probability of generating an output attribute condition corresponding to a group and a low probability of generating an output attribute condition corresponding to the first data group can be given a higher rank.

したがって、例えば、第1データ群が良品のデータ群、第2データ群が不良品のデータ群である場合には、入力属性条件の順位を、その入力属性条件を回避することによって解消される不良品の数の、その入力属性条件を回避することによって失われる良品の数に対する割合が大きいほど、より高い順位となるようにすることができる。その結果、解消される不良品の数にかかわらず、良品の減少を最小化して高い確度で不良品の発生を解消することを所望する場合に、どのような優先順位で対策を施せば良いかを明確に把握することができる。   Therefore, for example, when the first data group is a good data group and the second data group is a defective data group, the order of the input attribute conditions can be eliminated by avoiding the input attribute conditions. The higher the ratio of the number of non-defective products to the number of non-defective products lost by avoiding the input attribute condition, the higher the ranking can be made. As a result, regardless of the number of defective products to be resolved, what priority should be taken when it is desired to minimize the decrease in non-defective products and eliminate the occurrence of defective products with high accuracy? Can be clearly understood.

本発明のデータ分析装置は、前記構成のデータ分析装置において、前記順位決定手段は、前記入力属性条件決定手段によって決定された複数の前記入力属性条件の少なくとも一部に対して、前記第2データ群該当数の大きい順に点数が高くなるように与えられた第1の配点と、前記第2データ群分離度の大きい順に点数が高くなるように与えられた第2の配点との合計点が大きい順に、前記順位付けを行う構成であってもよい。   The data analysis apparatus according to the present invention is the data analysis apparatus having the above-described configuration, wherein the rank determination unit is configured to output the second data with respect to at least some of the plurality of input attribute conditions determined by the input attribute condition determination unit. The sum of the first score given so that the score becomes higher in descending order of the number of corresponding groups and the second score given so that the score becomes higher in descending order of the second data group separation degree is large The ordering may be performed in order.

上記構成によれば、前記第1の配点と第2の配点との合計点が大きい順に前記順位付けを行うので、第2データ群に対応する出力属性条件を発生させる要因となる複数の入力属性条件のうち、第2データ群に対応する出力属性条件を発生させる数の多さと、第2データ群に対応する出力属性条件を発生させる確率の高さとを加味した順に、順位付けを行うことができる。   According to the above configuration, since the ranking is performed in descending order of the total score of the first and second score points, a plurality of input attributes that cause a generation of an output attribute condition corresponding to the second data group Among the conditions, the ranking may be performed in an order that takes into account the large number of output attribute conditions corresponding to the second data group and the high probability of generating the output attribute condition corresponding to the second data group. it can.

したがって、例えば、第1データ群が良品のデータ群、第2データ群が不良品のデータ群である場合には、入力属性条件の順位を、その入力属性条件を回避することによって解消される不良品の数の多さと、その入力属性条件を回避することによって失われる良品の数の少なさとを加味した順にすることができる。その結果、良品の減少を抑えながら、できる限り多くの不良品の発生を解消することを所望する場合に、どのような優先順位で対策を施せば良いかを明確に把握することができる。   Therefore, for example, when the first data group is a good data group and the second data group is a defective data group, the order of the input attribute conditions can be eliminated by avoiding the input attribute conditions. It is possible to make the order in consideration of the large number of non-defective products and the small number of non-defective products lost by avoiding the input attribute condition. As a result, when it is desired to eliminate as many defective products as possible while suppressing the decrease in non-defective products, it is possible to clearly grasp in what priority order measures should be taken.

本発明のデータ分析装置は、前記構成のデータ分析装置において、前記分析データ群抽出手段は、前記分割手段で分割されたデータ群のうち前記他データ群のみを、新たな分析データ群として抽出するものであることが好ましい。   In the data analysis apparatus according to the present invention, in the data analysis apparatus having the above configuration, the analysis data group extraction unit extracts only the other data group from the data group divided by the division unit as a new analysis data group. It is preferable.

上記構成によれば、分割手段で分割されたデータ群のうち他データ群のみを、新たな分析データ群として上記一連の処理を繰り返し実行しているから、第2データ群に対応する出力属性条件の要因分析に対して、簡潔で、かつ、十分な要因分析結果が得られる。   According to the above configuration, since only the other data group among the data group divided by the dividing unit is repeatedly executed as a new analysis data group, the output attribute condition corresponding to the second data group A simple and sufficient factor analysis result can be obtained.

また、上記構成によれば、分割手段で分割されたデータ群のうち他データ群のみを、新たな分析データ群として上記一連の処理を繰り返し実行しているから、それ以前の一連の処理の繰り返しの過程で抽出された要因(入力属性条件)の影響を除外でき、第2データ群に対応する出力属性条件の新たな要因を高い確度で抽出することができる。   Further, according to the above configuration, since only the other data group among the data group divided by the dividing unit is repeatedly executed as a new analysis data group, the series of processes before that is repeated. Thus, the influence of the factor (input attribute condition) extracted in the above process can be excluded, and a new factor of the output attribute condition corresponding to the second data group can be extracted with high accuracy.

本発明のデータ分析装置は、前記構成のデータ分析装置において、終了条件を満たしているか否かを判定する終了条件判定手段をさらに含み、前記終了条件判定手段において終了条件を満たしていると判定されると、前記一連の処理の実行を終了するようになっており、前記終了条件判定手段は、前記分析データ群抽出手段で抽出した前記分析データ群における前記第2データ群のデータ数が0であるかを終了条件として判定を行うものであることが好ましい。   The data analysis apparatus of the present invention further includes an end condition determination unit that determines whether or not an end condition is satisfied in the data analysis apparatus having the above configuration, and the end condition determination unit determines that the end condition is satisfied. Then, the execution of the series of processes is ended, and the end condition determining means has zero data in the second data group in the analysis data group extracted by the analysis data group extraction means. It is preferable to determine whether there is an end condition.

上記構成によれば、分析データ群における前記第2データ群のデータ個数が0になった時点で前記一連の処理の実行を終了するので、前記第2データ群に対応する出力属性条件の要因を決定する上で不要な処理である、前記第2データ群を含まない分析データ群に対して一連の処理を行うことを、避けることができる。それゆえ、データ分析処理を速やかに終了することができ、データ分析処理にかかる時間を短縮することができる。   According to the above configuration, since the execution of the series of processes ends when the number of data in the second data group in the analysis data group becomes 0, the cause of the output attribute condition corresponding to the second data group is It is possible to avoid performing a series of processes on an analysis data group that does not include the second data group, which is an unnecessary process for determination. Therefore, the data analysis process can be promptly terminated, and the time required for the data analysis process can be shortened.

本発明のデータ分析装置は、前記構成のデータ分析装置において、前記分析データ群中の前記入力属性が全て数値属性であって、前記第1の評価手段は、各前記入力属性の全ての数値について、前記分析データ群の前記第1データ群中において、前記入力属性がその数値以下であるデータ個数の割合を第1の頻度として演算すると共に、前記分析データ群の前記第2データ群中において、前記入力属性がその数値以下であるデータ個数の割合を第2の頻度として演算する頻度演算手段と、各前記入力属性の全ての数値について、前記第1の頻度と前記第2の頻度との差分を前記入力属性条件評価指標として演算する差分演算手段とを含むことが好ましい。   In the data analysis apparatus according to the present invention, in the data analysis apparatus having the above-described configuration, all the input attributes in the analysis data group are numerical attributes, and the first evaluation unit is configured for all numerical values of the input attributes. In the first data group of the analysis data group, the ratio of the number of data whose input attribute is equal to or less than the numerical value is calculated as a first frequency, and in the second data group of the analysis data group, Frequency calculation means for calculating the ratio of the number of data whose input attribute is less than or equal to the value as a second frequency, and the difference between the first frequency and the second frequency for all the numerical values of each input attribute It is preferable to include a difference calculating means for calculating as an input attribute condition evaluation index.

上記構成によれば、各入力属性の全ての数値の各々について第1の頻度と第2の頻度との差分値を演算するのみの非常に簡単な演算処理で、Giniインデックス法の改善度に相当する入力属性条件評価指標を得ることができる。すなわち、上記構成では、Giniインデックス法のように、入力属性が取り得る全ての分岐条件のパターン毎にGiniインデックスや改善度を計算するような膨大な演算処理を行う必要がなく、入力属性が取り得る値の数だけのデータに対して差分値を求める演算処理を行うだけでよい。したがって、分析データ群が実際のデバイス(特に半導体デバイス)のような製品の製造工程のデータである場合のように、一つの入力属性が取り得る値の数が数万〜数十万というオーダであっても、ほとんど計算負荷がかからず、短時間で処理を行うことができる。すなわち、計算負荷がかからず、短時間で、第1データ群と第2データ群とを切り分ける入力属性条件(各入力属性における最適分岐条件)を決定することができる。したがって、データ分析の効率化を図ることができる。   According to the above configuration, it is a very simple calculation process that only calculates the difference value between the first frequency and the second frequency for each of all the numerical values of each input attribute, and corresponds to the improvement degree of the Gini index method. An input attribute condition evaluation index to be obtained can be obtained. That is, in the above configuration, unlike the Gini index method, it is not necessary to perform enormous arithmetic processing such as calculating the Gini index and the improvement degree for every pattern of all branch conditions that the input attribute can take. It is only necessary to perform a calculation process for obtaining a difference value with respect to data corresponding to the number of values to be obtained. Therefore, the number of values that one input attribute can take is on the order of tens of thousands to hundreds of thousands, as in the case where the analysis data group is data of a manufacturing process of a product such as an actual device (especially a semiconductor device). Even in such a case, almost no calculation load is applied, and processing can be performed in a short time. That is, it is possible to determine an input attribute condition (optimal branch condition for each input attribute) that separates the first data group and the second data group in a short time without requiring a calculation load. Therefore, the efficiency of data analysis can be improved.

本発明のデータ分析装置は、前記構成のデータ分析装置において、前記第2の評価手段は、前記入力属性条件決定手段で決定された前記入力属性条件の各々について、前記分析データ群の前記第1データ群中で該入力属性条件を満たすデータ個数の割合に対する、前記分析データ群の前記第2データ群中で該入力属性条件を満たすデータ個数の割合の比率を、前記分割ルール評価値として演算するものであることが好ましい。   The data analysis apparatus according to the present invention is the data analysis apparatus having the configuration described above, wherein the second evaluation unit is configured to perform the first analysis of the analysis data group for each of the input attribute conditions determined by the input attribute condition determination unit. The ratio of the ratio of the number of data satisfying the input attribute condition in the second data group of the analysis data group to the ratio of the number of data satisfying the input attribute condition in the data group is calculated as the division rule evaluation value. It is preferable.

上記構成によれば、入力属性条件決定手段で決定された入力属性条件の各々について、その入力属性条件により第1データ群と分離して第2データ群を効果的に検出できる度合い、すなわち、「入力属性が当該入力属性条件を満たせば、分析データ群中の第2データ群に含まれるデータである」という第2の相関ルールの確からしさ、を表す分割ルール評価値を容易に演算することができる。   According to the above configuration, for each of the input attribute conditions determined by the input attribute condition determining means, the degree to which the second data group can be effectively detected by separating from the first data group by the input attribute condition, that is, “ If the input attribute satisfies the input attribute condition, it is possible to easily calculate a division rule evaluation value representing the probability of the second correlation rule that the data is included in the second data group in the analysis data group. it can.

本発明のデータ分析装置は、前記構成のデータ分析装置において、分類条件を設定する分類条件設定手段をさらに含み、前記分類手段は、前記出力属性の値と前記分類条件とに基づいて前記基本データ群を分類するようになっている構成であることが好ましい。   The data analysis apparatus according to the present invention further includes classification condition setting means for setting a classification condition in the data analysis apparatus having the above-described configuration, and the classification means includes the basic data based on the value of the output attribute and the classification condition. It is preferable that it is the structure which classify | categorizes a group.

上記構成によれば、ユーザが第2データ群に対応する出力属性条件を適宜に設定することが可能となるので、多様な出力属性条件に対応して、その要因(入力属性条件)を決定することができる。   According to the above configuration, the user can appropriately set the output attribute condition corresponding to the second data group, and therefore the factor (input attribute condition) is determined corresponding to various output attribute conditions. be able to.

本発明のデータ分析方法は、前記のデータ分析方法において、前記入力属性は、製品の製造工程における製造プロセス条件および/またはインライン検査結果であり、前記出力属性は、製品の品質判定結果であり、前記第2データ群は、品質判定結果が不良のデータ群であることが好ましい。   In the data analysis method of the present invention, in the data analysis method, the input attribute is a manufacturing process condition and / or an inline inspection result in a product manufacturing process, and the output attribute is a product quality determination result, The second data group is preferably a data group with a poor quality determination result.

上記方法によれば、不良品(品質判定結果が不良の製品)が発生する要因となる、製造工程における製造プロセス条件や、製造途中での特性(インライン検査結果)の条件を、第2データ群に対応する出力属性条件の要因となる入力属性条件として特定することができる。さらに、複数の入力属性条件に対して「どのような優先順位で対策を施せば不良品の発生を回避できるのか?」を容易に把握することができる。   According to the above method, the second data group includes the manufacturing process conditions in the manufacturing process and the characteristics (in-line inspection result) conditions during the manufacturing, which are factors that cause defective products (products whose quality judgment results are defective). Can be specified as an input attribute condition that causes an output attribute condition corresponding to. Furthermore, it is possible to easily grasp “what priority should be taken to prevent the occurrence of defective products” for a plurality of input attribute conditions.

本発明の装置、方法、プログラム、記録媒体によれば、第2データ群に対応する出力属性条件の要因(特に不良要因)を複数決定すると共に、それらの要因に対して、第2データ群該当数、および、第2データ群分離度という明確な指標に基づいて、その重要度による順位付けを行っている。それゆえ、非常に簡潔な形でありながら、高い確度で第2データ群に対応する出力属性条件の要因(特に不良の要因)を決定できるとともに、要因の重要度の順位(特に対策を施すべき要因の優先順位)を明確にすることができる。   According to the apparatus, method, program, and recording medium of the present invention, a plurality of output attribute condition factors (particularly failure factors) corresponding to the second data group are determined, and the second data group corresponds to these factors. Based on a clear index such as the number and the second data group separation degree, ranking is performed according to the importance degree. Therefore, it is possible to determine the factor (especially the cause of failure) of the output attribute condition corresponding to the second data group with a high degree of accuracy in a very concise form, and to rank the importance of the factor (especially measures should be taken) The priority of factors) can be clarified.

〔第1の実施形態〕
本発明の一実施形態を以下に説明する。
[First Embodiment]
One embodiment of the present invention will be described below.

まず、本実施形態のデータ分析装置を図1に基づいて説明する。図1に示すように、データ分析装置は、基本データ群格納部1、文字−数値データ変換部2、分類条件設定部(分類条件設定手段)3、データ分類部(分類手段)4、分類後基本データ群格納部5、分析データ群抽出部(分析データ群抽出手段)6、データ行分離部7、データ列抽出部8、頻度演算部(頻度演算手段)9、頻度累積差演算部(差分演算手段)10、入力属性条件決定部(入力属性条件決定手段)11、不良品データ演算部12、頻度累積比率演算部(第2の評価手段)14、データ分割部(分割手段)15、終了条件判定部(終了条件判定手段)16、要因決定部(要因決定手段)17、順位決定部(順位決定手段)13、複合要因不良数計算部18、数値−文字データ変換部19、分析結果データ格納部20、および出力部21を備えている。なお、上記のデータ行分離部7、データ列抽出部8、頻度演算部(頻度演算手段)9、および、頻度累積差演算部(差分演算手段)10が、特許請求の範囲における第1の評価手段を構成している。   First, the data analysis apparatus of this embodiment is demonstrated based on FIG. As shown in FIG. 1, the data analysis apparatus includes a basic data group storage unit 1, a character-numerical data conversion unit 2, a classification condition setting unit (classification condition setting unit) 3, a data classification unit (classification unit) 4, and after classification. Basic data group storage unit 5, analysis data group extraction unit (analysis data group extraction unit) 6, data row separation unit 7, data string extraction unit 8, frequency calculation unit (frequency calculation unit) 9, frequency cumulative difference calculation unit (difference) Calculation means) 10, input attribute condition determination section (input attribute condition determination means) 11, defective product data calculation section 12, frequency cumulative ratio calculation section (second evaluation means) 14, data division section (division means) 15, end Condition determining unit (end condition determining unit) 16, factor determining unit (factor determining unit) 17, rank determining unit (rank determining unit) 13, composite factor failure number calculating unit 18, numerical value-character data converting unit 19, analysis result data Storage unit 20 and output It is equipped with a 21. The data row separation unit 7, the data string extraction unit 8, the frequency calculation unit (frequency calculation unit) 9, and the frequency cumulative difference calculation unit (difference calculation unit) 10 include the first evaluation in the claims. Means.

次に、前述の表1のデータ群DAを基本データ群とする場合を例として、本実施形態のデータ分析装置およびデータ分析方法を説明する。表1の基本データ群DAは、ハードディスク等の基本データ群格納部1に格納されている。   Next, the data analysis apparatus and the data analysis method of this embodiment will be described by taking as an example the case where the data group DA in Table 1 is a basic data group. The basic data group DA in Table 1 is stored in the basic data group storage 1 such as a hard disk.

表1の基本データ群DAは、1〜12のid(識別子)を持つ12個のデータから構成されている。表1において、x1,x2,x3,x4は入力属性である。入力属性x1は4つの文字A,B,C,Dのいずれかをとる文字属性である。入力属性x2は4つの文字a,b,c,dのいずれかをとる文字属性である。入力属性x3は4つの離散値1,2,3,4のいずれかをとる離散属性である。入力属性x4は4つの離散値10,20,30,40のいずれかをとる離散属性である。なお、入力属性は、文字属性、離散の数値属性、連続の数値属性の何れでもよい。   The basic data group DA in Table 1 is composed of 12 pieces of data having ids (identifiers) of 1 to 12. In Table 1, x1, x2, x3, and x4 are input attributes. The input attribute x1 is a character attribute that takes one of four characters A, B, C, and D. The input attribute x2 is a character attribute that takes one of the four characters a, b, c, and d. The input attribute x3 is a discrete attribute that takes one of four discrete values 1, 2, 3, and 4. The input attribute x4 is a discrete attribute taking any one of four discrete values 10, 20, 30, and 40. The input attribute may be any of a character attribute, a discrete numerical attribute, and a continuous numerical attribute.

また、表1において、yは出力属性である。出力属性は、文字属性、離散の数値属性、連続の数値属性の何れでもよいが、ここでは、2つの文字XZ,Yのいずれかをとる文字属性である。   In Table 1, y is an output attribute. The output attribute may be any of a character attribute, a discrete numerical attribute, and a continuous numerical attribute. Here, the output attribute is a character attribute that takes one of the two characters XZ and Y.

本実施形態のデータ分析装置およびデータ分析方法は、入力属性と出力属性との因果関係を分析し、該因果関係を示す情報を抽出する。ここでは、y=Yなる場合を問題事象として、出力属性yがYとなる要因を分析する。   The data analysis apparatus and the data analysis method according to the present embodiment analyze a causal relationship between an input attribute and an output attribute, and extract information indicating the causal relationship. Here, the case where y = Y is considered as a problem event, and the cause of the output attribute y being Y is analyzed.

なお、基本データ群DAの例としては、例えば、入力属性が、製品の製造工程における製造プロセス条件および/またはインライン検査結果(製造ライン途中での検査結果)、出力属性が製品の品質判定結果、y=Yなる問題事象が品質判定結果の不良であるデータが挙げられる。この場合、本実施形態のデータ分析装置およびデータ分析方法により入力属性と出力属性との因果関係を分析し、y=Yなる問題事象の要因を導き出すことで、製造工程における不良の要因を抽出でき、不良品の発生を解消する対策を容易に図ることが可能となる。また、不良の要因として抽出した複数の要因に対して優先順位付けを行うことで、効率的な対策を実行することができる。したがって、歩留まりの向上等のような製造プロセスの改善を容易に図ることが可能となる。   As examples of the basic data group DA, for example, an input attribute is a manufacturing process condition and / or an inline inspection result (inspection result in the middle of a manufacturing line) in a product manufacturing process, an output attribute is a product quality determination result, Data in which the problem event y = Y is a bad quality determination result is exemplified. In this case, by analyzing the causal relationship between the input attribute and the output attribute by using the data analysis apparatus and the data analysis method of the present embodiment and deriving the cause of the problem event y = Y, the cause of the defect in the manufacturing process can be extracted. Therefore, it is possible to easily take measures to eliminate the occurrence of defective products. In addition, an efficient countermeasure can be executed by prioritizing a plurality of factors extracted as factors of defects. Therefore, it is possible to easily improve the manufacturing process such as improvement in yield.

基本データ群DAのより具体的な例としては、例えば、入力属性x1、x2、x3、x4が、プラズマCVDプロセスの、ガス流量、ガス圧力、投入電力、成膜時間などのプロセスデータで、出力属性yが、形成される薄膜の膜厚であるようなデータが挙げられる。また、これら入力属性および出力属性の値は、連続の数値属性、離散の数値属性、文字属性の何れであってもよい。文字属性の場合には、例えば、出力属性が膜厚の例で、‘大’、‘中’、‘小’といった具合に表現される。   As a more specific example of the basic data group DA, for example, input attributes x1, x2, x3, and x4 are process data such as gas flow rate, gas pressure, input power, and film formation time of plasma CVD process, and output. Data in which the attribute y is the film thickness of the thin film to be formed can be mentioned. The values of the input attribute and the output attribute may be any of a continuous numerical attribute, a discrete numerical attribute, and a character attribute. In the case of the character attribute, for example, the output attribute is an example of the film thickness, and is expressed as “large”, “medium”, and “small”.

以下、図2に示すデータ分析方法のフローチャートを用いながら、図1のデータ分析装置の動作について説明する。   Hereinafter, the operation of the data analysis apparatus of FIG. 1 will be described using the flowchart of the data analysis method shown in FIG.

[ステップ0]
まず、文字−数値データ変換部2が、ハードディスク等の記憶手段である基本データ群格納部1に格納された表1の基本データ群DAの中の数値型でないデータに対して数値変換処理を行う(以下、各表のデータはハードディスクやRAMなど適宜選択される記憶手段に記憶され、またこれらから読み出され、CPUなどの演算手段によって演算の対象となる。)。ここでは、基本データ群DAにおける文字属性を、下記の変換ルールに従って数値属性(数値データ)に変換する(S0)。なお、基本データ群DAの入力属性および出力属性が元々数値属性である場合には、この処理は省略される。
(x1)A→1、B→2、C→3、D→4
(x2)a→1、b→2、c→3、d→4
(x3)変換せず
(x4)変換せず
(y)XZ→1、Y→2
上記処理により、各データは、数値データに変換される。そして、文字−数値データ変換部2は、変換されたデータ群DA0をデータ分類部4に送る。
[Step 0]
First, the character-numeric data conversion unit 2 performs numeric conversion processing on non-numeric data in the basic data group DA in Table 1 stored in the basic data group storage unit 1 which is a storage means such as a hard disk. (Hereinafter, the data of each table is stored in an appropriate storage means such as a hard disk or RAM, and is read out from these data and is subject to calculation by calculation means such as a CPU). Here, the character attributes in the basic data group DA are converted into numerical attributes (numerical data) according to the following conversion rules (S0). Note that this processing is omitted when the input attribute and output attribute of the basic data group DA are originally numeric attributes.
(X1) A → 1, B → 2, C → 3, D → 4
(X2) a → 1, b → 2, c → 3, d → 4
(X3) No conversion (x4) No conversion (y) XZ → 1, Y → 2
Through the above processing, each data is converted into numerical data. Then, the character-numeric data conversion unit 2 sends the converted data group DA0 to the data classification unit 4.

ここで、上記変換ルールは、可能な限り、変換後の入力属性の数値が大きいほど出力属性の数値が大きくなるように、あるいはその逆順となるように設定される事が好ましいが、一義性さえあればよく上記の例に限らない。上記変換ルールにて数値データに変換されたデータ群DA0は、表2に示す通りである。   Here, it is preferable that the above conversion rule is set so that the numerical value of the output attribute increases as the input attribute value after conversion becomes larger as much as possible, or vice versa. There is no limitation to the above example. The data group DA0 converted into numerical data by the conversion rule is as shown in Table 2.

Figure 2006040181
Figure 2006040181

この変換により得られたデータ群DA0は、数値属性からなる、複数の入力属性(説明属性)と出力属性(目的属性)とで構成されるデータの集合となる。以下、データ群DA0も基本データ群と呼ぶ事にする。   The data group DA0 obtained by this conversion is a set of data composed of a plurality of input attributes (description attributes) and output attributes (target attributes), each consisting of a numerical attribute. Hereinafter, the data group DA0 is also referred to as a basic data group.

[ステップ1]
分類条件設定部3は、予め定められた設定情報に従って、あるいは使用者が図示しないキーボードやマウス等の入力部から問題事象の属性値y=Yを入力したことに応答して、基本データ群DAのy=Yなる問題事象に対応する基本データ群DA0の出力属性yの条件(y=2)であるかどうかの条件となる分類条件を設定し、データ分類部4に出力する(S1)。この例においては、基本データ群DAのy=Yなる問題事象に対応する基本データ群DA0の出力属性yの条件は、y=2である。
[Step 1]
The classification condition setting unit 3 performs basic data group DA in accordance with predetermined setting information or in response to a user inputting a problem event attribute value y = Y from an input unit such as a keyboard or a mouse (not shown). A classification condition is set as a condition as to whether or not the condition (y = 2) of the output attribute y of the basic data group DA0 corresponding to the problem event y = Y, and is output to the data classification unit 4 (S1). In this example, the condition of the output attribute y of the basic data group DA0 corresponding to the problem event y = Y of the basic data group DA is y = 2.

[ステップ2]
次に、データ分類部4が、基本データ群DA0の出力属性yの値と、分類条件設定部3から出力された分類条件(下記比較論理(1)(2))とに基づいて、基本データ群DA0を、第1データ群DA1と第2データ群DA2とに分類し、表3に示すように、データ群DA1・DA2の各々に対応する分類フラグ(「DA1」、「DA2」)を基本データ群DA0の各データごとに付与する(S2)。以下、表3のデータ群を、分類後基本データ群DA00と呼ぶ。分類後基本データ群DA00は、ハードディスク等の分類後基本データ群格納部5に保存される。この例では、分類条件は、基本データ群DA0の出力属性yの値と、基本データ群DAのy=Yなる問題事象に対応する基本データ群DA0の出力属性yの値(=2)との比較に基づく比較論理である。
[Step 2]
Next, based on the value of the output attribute y of the basic data group DA0 and the classification condition (the following comparison logic (1) (2)) output from the classification condition setting unit 3, the data classification unit 4 The group DA0 is classified into a first data group DA1 and a second data group DA2, and as shown in Table 3, classification flags (“DA1”, “DA2”) corresponding to each of the data groups DA1 and DA2 are basically used. It is given for each data of the data group DA0 (S2). Hereinafter, the data group in Table 3 is referred to as a post-classification basic data group DA00. The post-classification basic data group DA00 is stored in the post-classification basic data group storage 5 such as a hard disk. In this example, the classification condition includes the value of the output attribute y of the basic data group DA0 and the value of the output attribute y of the basic data group DA0 corresponding to the problem event y = Y of the basic data group DA (= 2). Comparison logic based on comparison.

(1)y≠2(y=1)→DA1
(2)y=2→DA2
(1) y ≠ 2 (y = 1) → DA1
(2) y = 2 → DA2

Figure 2006040181
Figure 2006040181

ここで、第2データ群DA2は問題事象(例えば、デバイス特性不良など)を表すデータ群である。すなわち、第2データ群DA2は出力属性yが問題事象を表す属性値(y=2)であるデータ群であり、第1データ群DA1は出力属性yが問題事象を表していない属性値(y=1)であるデータ群である。   Here, the second data group DA2 is a data group representing a problem event (for example, a device characteristic failure or the like). That is, the second data group DA2 is a data group in which the output attribute y is an attribute value (y = 2) representing a problem event, and the first data group DA1 is an attribute value (y) in which the output attribute y does not represent a problem event. = 1).

なお、データ分類部4による基本データ群DA0の分類は、上記論理に限らず、基本データ群DA0の出力属性yの値と閾値ythとの比較に基づく、下記の分類条件に示すような論理で行ってもよい。   The classification of the basic data group DA0 by the data classification unit 4 is not limited to the above logic, but is based on the logic shown in the following classification conditions based on the comparison between the value of the output attribute y of the basic data group DA0 and the threshold value yth. You may go.

(1’)y>yth→DA1
(2’)y≦yth→DA2
また、複数の閾値との比較結果などとして表される複数の条件の論理和または論理積に基づく論理、例えば下記の分類条件に示すような論理で基本データ群DA0を分類してもよい。
(1 ') y> yth → DA1
(2 ′) y ≦ yth → DA2
Further, the basic data group DA0 may be classified by a logic based on a logical sum or a logical product of a plurality of conditions expressed as a comparison result with a plurality of thresholds, for example, a logic as shown in the following classification condition.

(1'')yth1<y≦yth2→DA1(yth1,yth2:閾値)
(2'')y≦yth1 OR y>yth2→DA2
さらに、出力属性が複数存在する(y1、y2)場合には、各々の出力属性と、これらの各々に対する個々の閾値との比較結果などとして表される、各々の出力属性に対する条件の、論理和または論理積に基づく論理、例えば下記の分類条件に示すような論理で分類してもよい。
(1 ″) yth1 <y ≦ yth2 → DA1 (yth1, yth2: threshold)
(2 ″) y ≦ yth1 OR y> yth2 → DA2
Further, when there are a plurality of output attributes (y1, y2), the logical sum of the conditions for each output attribute expressed as a comparison result between each output attribute and each threshold value for each of these output attributes Or you may classify | categorize by the logic based on a logical product, for example, the logic as shown in the following classification conditions.

(1''')y1≦yth1 OR y2>yth2→DA1
(2''')y1>yth1 AND y2≦yth2→DA2
[ステップ3]
分析データ群抽出部6が、分類後基本データ群DA00の中から分析対象とする分析データ群DA00’を抽出し、データ行分離部7に送る。
(1 ″ ′) y1 ≦ yth1 OR y2> yth2 → DA1
(2 ″ ′) y1> yth1 AND y2 ≦ yth2 → DA2
[Step 3]
The analysis data group extraction unit 6 extracts the analysis data group DA00 ′ to be analyzed from the classified basic data group DA00 and sends it to the data row separation unit 7.

この1回目の処理では、分類後基本データ群DA00と同一のデータが分析データ群DA00’として抽出されるが、後述する繰り返し処理の過程では、データ分割部15が出力する他データ群が抽出される。   In this first process, the same data as the post-classification basic data group DA00 is extracted as the analysis data group DA00 ′. However, in the process of repeated processing described later, another data group output by the data dividing unit 15 is extracted. The

[ステップ4]
データ行分離部7が、分析データ群DA00’(1回目の処理においては、分類後基本データ群DA00:表3)における、第1データ群DA1および第2データ群DA2の各々の分類フラグに基づいて、分析データ群DA00’を2分化し、各々のデータ群を抽出する。データ行分離部7から出力される第1データ群DA1を表4に、第2データ群DA2を表5に示す。
[Step 4]
Based on the classification flags of the first data group DA1 and the second data group DA2 in the analysis data group DA00 ′ (in the first processing, the basic data group DA00 after classification: Table 3). Then, the analysis data group DA00 ′ is divided into two, and each data group is extracted. Table 4 shows the first data group DA1 output from the data row separation unit 7, and Table 5 shows the second data group DA2.

Figure 2006040181
Figure 2006040181

Figure 2006040181
Figure 2006040181

なお、以下では、適宜、第1データ群DA1を良品(OK品)データ群、第2データ群DA2を不良品(NG品)データ群と呼ぶ事にする。   In the following description, the first data group DA1 is appropriately referred to as a non-defective product (OK product) data group, and the second data group DA2 is referred to as a defective product (NG product) data group.

[ステップ5]
次に、データ列抽出部8が、良品の第1データ群DA1(表4)から、入力属性xj(1≦j≦4)の各々のデータ列を抽出する(S5)。このデータ列を1−xjデータ群と呼ぶ事にする。
[Step 5]
Next, the data string extraction unit 8 extracts each data string of the input attribute xj (1 ≦ j ≦ 4) from the good first data group DA1 (Table 4) (S5). This data string is called a 1-xj data group.

同様に、データ列抽出部8は、不良品の第2データ群DA2(表5)からも、入力属性xj(1≦j≦4)の各々のデータ列を抽出する(S5)。このデータ列を2−xjデータ群と呼ぶ事にする。   Similarly, the data string extraction unit 8 extracts each data string of the input attribute xj (1 ≦ j ≦ 4) from the defective second data group DA2 (Table 5) (S5). This data string is called a 2-xj data group.

1−xjデータ群を表6〜表9に、2−xjデータ群を表10〜表13に示す。   The 1-xj data group is shown in Tables 6 to 9, and the 2-xj data group is shown in Tables 10 to 13.

Figure 2006040181
Figure 2006040181

Figure 2006040181
Figure 2006040181

Figure 2006040181
Figure 2006040181

Figure 2006040181
Figure 2006040181

Figure 2006040181
Figure 2006040181

Figure 2006040181
Figure 2006040181

Figure 2006040181
Figure 2006040181

Figure 2006040181
Figure 2006040181

[ステップ6]
頻度演算部9は、ステップ5で良品の第1データ群DA1から抽出された1−xjデータ群の各々、およびステップ5で不良品の第2データ群DA2から抽出された2−xjデータ群の各々を、入力属性xjの値で昇順に並べ替える(並べ替え処理1)。そして、入力属性xjの個々の数値について、第1データ群におけるその数値以下のデータ個数の割合を表す1−xj頻度累積%と、第2データ群におけるその数値以下のデータ個数の割合を表す2−xj頻度累積%とを計算する(S6)。
[Step 6]
The frequency calculation unit 9 calculates each of the 1-xj data group extracted from the good first data group DA1 in step 5 and the 2-xj data group extracted from the defective second data group DA2 in step 5. Each of them is sorted in ascending order by the value of the input attribute xj (sorting process 1). Then, for each numerical value of the input attribute xj, 1-xj frequency cumulative% representing the ratio of the number of data less than that value in the first data group and 2 representing the ratio of the number of data less than that value in the second data group. -Xj Frequency cumulative% is calculated (S6).

ここでは、表6〜表9を入力属性xjの値で昇順に並べ替えた表14〜表17を用い、各行(id)のデータについて表中でそのデータの位置以上の位置にあるデータ個数の、第1データ群の全データ数(=8)に対する割合を1−xj頻度累積%として計算している。例えば、表14では、8つのx1の値が1から4まで順に上から下に向かって並び、x1の同じ値が複数ある場合はidの順番で上から下に向かって並んでいるが、上から4番目のx1=1(id=12)に着目すると、この行を含んでそれより上の行にはデータが4つ(ここでは全部x1=1)あるので、1−x1頻度累積%は4/8=50%となる。同様に、表10〜表13を入力属性xjの値で昇順に並べ替えた表18〜表21を用い、各行(id)のデータについて表中でそのデータの位置以上の位置にあるデータ個数の、第2データ群の全データ数(=4)に対する割合を2−xj頻度累積%として計算している。   Here, Tables 14 to 17 in which Tables 6 to 9 are rearranged in ascending order by the value of the input attribute xj are used, and the number of data in each row (id) in the table is equal to or greater than the position of the data. The ratio of the first data group to the total number of data (= 8) is calculated as 1-xj frequency cumulative%. For example, in Table 14, eight x1 values are arranged from top to bottom in order from 1 to 4, and when there are a plurality of the same values of x1, they are arranged from top to bottom in the order of id. Focusing on the 4th x1 = 1 (id = 12) from the beginning, since there are four data (in this case, all x1 = 1) in the row including this row, 1-x1 frequency cumulative% is 4/8 = 50%. Similarly, using Table 18 to Table 21 in which Table 10 to Table 13 are rearranged in ascending order by the value of the input attribute xj, the number of data in each row (id) is equal to or greater than the position of the data in the table. The ratio of the second data group to the total number of data (= 4) is calculated as 2-xj frequency cumulative%.

ここで計算した1−xj頻度累積%および2−xj頻度累積%の値を表14〜表21に示す。   The values of 1-xj frequency cumulative% and 2-xj frequency cumulative% calculated here are shown in Tables 14 to 21.

Figure 2006040181
Figure 2006040181

Figure 2006040181
Figure 2006040181

Figure 2006040181
Figure 2006040181

Figure 2006040181
Figure 2006040181

Figure 2006040181
Figure 2006040181

Figure 2006040181
Figure 2006040181

Figure 2006040181
Figure 2006040181

Figure 2006040181
Figure 2006040181

さらに、頻度演算部9は、1−xj頻度累積%が計算された良品データ群である1−xjデータ群のテーブルと、2−xj頻度累積%が計算された不良品データ群である2−xjデータ群のテーブルとを結合する(結合処理)。具体的には、入力属性x1について、表14と表18とを結合して表22(a)のx1頻度累積テーブルを、入力属性x2について、表15と表19とを結合して表23のx2頻度累積テーブルを、入力属性x3について、表16と表20とを結合して表24のx3頻度累積テーブルを、入力属性x4について、表17と表21とを結合して表25のx4頻度累積テーブルを、それぞれ作成する(S6)。   Further, the frequency calculation unit 9 is a table of 1-xj data groups that are non-defective product data groups for which 1-xj frequency cumulative% is calculated, and 2-items that are defective product data groups for which 2-xj frequency cumulative% is calculated. The table of the xj data group is joined (joining process). Specifically, for the input attribute x1, Table 14 and Table 18 are combined to combine the x1 frequency accumulation table of Table 22 (a), and for the input attribute x2, Table 15 and Table 19 are combined to The x2 frequency accumulation table is combined with Table 16 and Table 20 for the input attribute x3 to combine the x3 frequency accumulation table of Table 24, and the input attribute x4 is combined with Table 17 and Table 21 to generate the x4 frequency of Table 25. Each accumulation table is created (S6).

Figure 2006040181
Figure 2006040181

Figure 2006040181
Figure 2006040181

Figure 2006040181
Figure 2006040181

Figure 2006040181
Figure 2006040181

Figure 2006040181
Figure 2006040181

Figure 2006040181
Figure 2006040181

さらに、頻度演算部9は、表22(a)、表23、表24、表25の各々の頻度累積テーブルを、入力属性xjの値で昇順に並べ替える(並べ替え処理2)。そして、並べ替え処理2を行った後、1−xj頻度累積%および2−xj頻度累積%の空欄に、上から順に、その直上の値を代入する(代入処理)。その後、入力属性xjにおいて同じ値が続いている行に対し、それらの行のうちの最終行のデータのみを採用する(重複処理)。これにより表26〜表29を作成する。例えば表22(a)から表26を作成する場合、表22(a)で、並べ替え処理2を行うと、1−x1頻度累積%の列の各値と2−x1頻度累積%の列の各値とが、それぞれの順序を保ったまま、各値の間に空欄をはさんで並べられる(表22(b))。次の代入処理では、これら空欄の処理を行なう(表22(c)の色付け部分)。例えば、2−x1頻度累積%の列にはx1=2に対応する値が存在しないので、代入処理により、2−x1頻度累積%のx1=2に対応する欄に、その直上のx1=1に対応する2−x1頻度累積%の値25%を代入する。次に、この表22(c)には、x1の値として1が5つ、2が2つ、3が2つ、4が3つあるので、重複処理により、各々のx1の値に対して、その最終行のデータを採用する。例えば、x1=1に対応する1−x1頻度累積%の値として最終行のx1=1に対応する値50%を採用し、x1=2に対応する1−x1頻度累積%の値として最終行のx1=2に対応する値75%を採用する。また、x1=4に対応する2−x1頻度累積%の値として最終行のx1=4に対応する値100%を採用する。   Furthermore, the frequency calculation unit 9 sorts the frequency accumulation tables of Table 22 (a), Table 23, Table 24, and Table 25 in ascending order by the value of the input attribute xj (sorting process 2). Then, after performing the rearrangement process 2, values immediately above are substituted in the blanks of the 1-xj frequency accumulation% and the 2-xj frequency accumulation% in order from the top (substitution process). Thereafter, only the data of the last line among those lines is adopted for the lines having the same value in the input attribute xj (duplicate processing). As a result, Tables 26 to 29 are created. For example, when creating the table 26 from the table 22 (a), if the sorting process 2 is performed in the table 22 (a), each value of the 1-x1 frequency accumulation% column and the 2-x1 frequency accumulation% column Each value is arranged with a blank space between each value while maintaining the respective order (Table 22 (b)). In the next substitution process, these blanks are processed (colored portion in Table 22 (c)). For example, since there is no value corresponding to x1 = 2 in the column of 2-x1 frequency accumulation%, x1 = 1 immediately above the column corresponding to x1 = 2 of 2-x1 frequency accumulation% is obtained by substitution processing. The value 25% of the 2-x1 frequency accumulation% corresponding to is substituted. Next, in this Table 22 (c), there are 5 x1, 2 is 2, 3 is 2, 4 is 3, and each x1 value is duplicated by duplication processing. , Adopt the data of the last line. For example, the value 50% corresponding to x1 = 1 of the last row is adopted as the value of 1-x1 frequency cumulative% corresponding to x1 = 1, and the value of 1-x1 frequency cumulative% corresponding to x1 = 2 is adopted as the final row. A value of 75% corresponding to x1 = 2 is adopted. Further, the value 100% corresponding to x1 = 4 in the last row is adopted as the value of 2-x1 frequency cumulative% corresponding to x1 = 4.

Figure 2006040181
Figure 2006040181

Figure 2006040181
Figure 2006040181

Figure 2006040181
Figure 2006040181

Figure 2006040181
Figure 2006040181

こうして、表26〜表29に示すように、入力属性xjの各値に対して、良品データ群である第1データ群において入力属性がその数値以下であるデータ個数の割合を表す1−xj頻度累積%(A;第1の頻度)と、不良品データ群である第2データ群において入力属性がその数値以下であるデータ個数の割合を表す2−xj頻度累積%(B;第2の頻度)との双方が算出される(S6)。   Thus, as shown in Tables 26 to 29, for each value of the input attribute xj, the 1-xj frequency representing the ratio of the number of data whose input attribute is less than or equal to the numerical value in the first data group which is a non-defective data group Cumulative% (A; first frequency) and 2-xj frequency cumulative% (B; second frequency) representing the ratio of the number of data whose input attributes are less than or equal to the numerical value in the second data group that is a defective product data group ) Are calculated (S6).

なお、上記ステップ4〜6では、表26〜表29のxj頻度累積テーブルを作成するのに、データ行分離処理(表4、表5)→データ列抽出処理(表6〜表13)→並べ替え処理1→1−xj頻度累積%および2−xj頻度累積%の計算処理(表14〜表21)→結合処理(表22(a)、表23、表24、表25)→並べ替え処理2(表22(b))→代入処理(表22(c))→重複処理(表26〜表29)を施していたが、これらの個別の処理を行わずに、一括して直接的に、表26〜表29のxj頻度累積テーブルを作成するように、計算しても構わない。また、上記の個別処理のうちの、幾つかの処理のみを一括に処理してもよい。   In the above steps 4 to 6, the xj frequency accumulation table of Table 26 to Table 29 is created in order to create the data row separation process (Tables 4 and 5) → the data string extraction process (Tables 6 to 13) → the arrangement. Replacement process 1 → Calculation process of 1-xj frequency accumulation% and 2-xj frequency accumulation% (Table 14 to Table 21) → Combination process (Table 22 (a), Table 23, Table 24, Table 25) → Reordering process 2 (Table 22 (b)) → Substitution processing (Table 22 (c)) → Duplicate processing (Table 26 to Table 29), but without performing these individual processing, it is directly performed collectively. The xj frequency accumulation table shown in Tables 26 to 29 may be calculated. Further, only some of the individual processes may be processed at once.

[ステップ7]
次に、頻度累積差演算部10が、入力属性xjの各値に対して、不良品の2−xj頻度累積%(B)から良品の1−xj頻度累積%(A)を減算した第1のxj頻度累積差(=B−A)、および、良品の1−xj頻度累積%(A)から不良品の2−xj頻度累積%(B)を減算した第2のxj頻度累積差(=A−B)という、AとBとの差分を演算する(S7)。第1のxj頻度累積差(=B−A)、および、第2のxj頻度累積差(=A−B)を総称して、xj頻度累積差と呼ぶ。このxj頻度累積差は、特許請求の範囲における入力属性条件評価指標に対応する。
[Step 7]
Next, the frequency cumulative difference calculation unit 10 subtracts the 1-xj frequency cumulative% (A) of the non-defective product from the 2-xj frequency cumulative% (B) of the defective product for each value of the input attribute xj. Xj frequency cumulative difference (= B−A), and second xj frequency cumulative difference (= B−A) obtained by subtracting 2-xj frequency cumulative% (B) of defective products from 1−xj frequency cumulative percent (A) of non-defective products A difference between A and B, that is, (A−B) is calculated (S7). The first xj frequency cumulative difference (= B−A) and the second xj frequency cumulative difference (= A−B) are collectively referred to as an xj frequency cumulative difference. This xj frequency cumulative difference corresponds to the input attribute condition evaluation index in the claims.

xj頻度累積差(第1のxj頻度累積差(=B−A)、第2のxj頻度累積差(=A−B))の計算結果を表30〜表33に示す。また、入力属性xjの値と、良品の1−xj頻度累積%(A)、不良品の2−xj頻度累積%(B)、第1のxj頻度累積差(=B−A)、第2のxj頻度累積差(=A−B)との関係を図3〜図6に示す。   Tables 30 to 33 show the calculation results of the xj frequency cumulative difference (first xj frequency cumulative difference (= BA), second xj frequency cumulative difference (= AB)). Further, the value of the input attribute xj, the non-defective 1-xj frequency cumulative% (A), the defective 2-ch frequency cumulative% (B), the first xj frequency cumulative difference (= B−A), the second FIG. 3 to FIG. 6 show the relationship with the xj frequency cumulative difference (= A−B).

Figure 2006040181
Figure 2006040181

Figure 2006040181
Figure 2006040181

Figure 2006040181
Figure 2006040181

Figure 2006040181
Figure 2006040181

入力属性xjの各数値におけるxj頻度累積差(第1のxj頻度累積差(=B−A)、第2のxj頻度累積差(=A−B))は、入力属性xjがその数値以下となる範囲と、入力属性xjがその数値を超える範囲とに分析データ群DA00’を2分化することによって、良品の第1データ群DA1と不良品の第2データ群DA2とがうまく切り分けられるかどうかを表す指標である。   The xj frequency cumulative difference (first xj frequency cumulative difference (= B−A), second xj frequency cumulative difference (= A−B)) in each numerical value of the input attribute xj indicates that the input attribute xj is less than or equal to the numerical value. Whether or not the first data group DA1 of good products and the second data group DA2 of defective products can be successfully separated by dividing the analysis data group DA00 ′ into two ranges into the range in which the input attribute xj exceeds the numerical value. It is an index representing

すなわち、入力属性xjの各数値における第1のxj頻度累積差(=B−A)は、「入力属性xjがその数値以下であれば不良品の第2データ群DA2に属するデータであり、入力属性xjがその数値を超えていれば良品の第1データ群DA1に属するデータである」という相関ルールの確からしさを表す。   That is, the first xj frequency cumulative difference (= B−A) in each numerical value of the input attribute xj is “if the input attribute xj is equal to or smaller than the numerical value, it is data belonging to the second data group DA2 of defective products and input. It represents the probability of the correlation rule that if the attribute xj exceeds the numerical value, the data belongs to the first non-defective data group DA1.

また、入力属性xjの各数値における第2のxj頻度累積差(=A−B)は、「入力属性xjがその数値を超えていれば不良品の第2データ群DA2に属するデータであり、入力属性xjがその数値以下であれば良品の第1データ群DA1に属するデータである」という相関ルールの確からしさを表す。   Further, the second xj frequency cumulative difference (= A−B) in each numerical value of the input attribute xj is “data belonging to the second data group DA2 of defective products if the input attribute xj exceeds the numerical value, If the input attribute xj is equal to or less than the numerical value, it indicates the likelihood of the correlation rule that it is data belonging to the first good data group DA1.

上記2つの相関ルールの各々は、各入力属性条件(入力属性xjがその数値以下、または、入力属性xjがその数値を超える)に対して、「入力属性が当該入力属性条件を満たせば、分析データ群DA00’中の第2データ群DA2に属するデータであり、入力属性が当該入力属性条件を満たさなければ、分析データ群DA00’中の第1データ群DA1に属するデータである」という第1の相関ルールに対応する。   Each of the above two association rules is analyzed for each input attribute condition (input attribute xj is less than or equal to the numerical value or input attribute xj exceeds the numerical value) if the input attribute satisfies the input attribute condition. The data belongs to the second data group DA2 in the data group DA00 ′, and if the input attribute does not satisfy the input attribute condition, the data belongs to the first data group DA1 in the analysis data group DA00 ′. Corresponds to the association rule.

上記のステップ4〜7の処理が、特許請求の範囲における第1の評価ステップに対応する。また上記ステップ4〜7の処理に用いた、データ行分離部7、データ列抽出部8、頻度演算部(頻度演算手段)9、および、頻度累積差演算部(差分演算手段)10が、特許請求の範囲における第1の評価手段を構成している。   The processes in steps 4 to 7 correspond to the first evaluation step in the claims. In addition, the data row separation unit 7, the data string extraction unit 8, the frequency calculation unit (frequency calculation unit) 9, and the frequency cumulative difference calculation unit (difference calculation unit) 10 used for the processes in steps 4 to 7 are patented. It constitutes the first evaluation means in the claims.

[ステップ8]
入力属性条件決定部11が、各入力属性xjについて、それぞれ、xjの個々の値に対応するxj頻度累積差(第1のxj頻度累積差、および、第2のxj頻度累積差:入力属性条件評価指標)の中で、その値が最大となる条件(入力属性xjの値、および、xj頻度累積差のタイプ(第1のxj頻度累積差、または、第2のxj頻度累積差))を抽出する(S8)。表30〜表33には、この抽出した条件に色付けをして示している。
[Step 8]
For each input attribute xj, the input attribute condition determination unit 11 determines an xj frequency cumulative difference corresponding to each value of xj (first xj frequency cumulative difference and second xj frequency cumulative difference: input attribute condition) Among the evaluation indices, the condition (value of the input attribute xj and the type of xj frequency cumulative difference (first xj frequency cumulative difference or second xj frequency cumulative difference)) that maximizes the value Extract (S8). In Tables 30 to 33, the extracted conditions are colored.

上記抽出された入力属性xjの値を入力属性閾値xj−thと呼ぶことにする。入力属性閾値xj−thは、図3〜図6を参照して分かるように、xj≦xj−thの範囲と、xj>xj−thの範囲との2分化によって、良品の第1データ群DA1と、不良品の第2データ群DA2との切分けが最も容易となる入力属性xjの値を示している。   The value of the extracted input attribute xj will be referred to as an input attribute threshold value xj-th. As can be seen with reference to FIGS. 3 to 6, the input attribute threshold value xj-th is divided into a range of xj ≦ xj-th and a range of xj> xj-th, so that the non-defective first data group DA1. And the value of the input attribute xj that makes it easy to separate the defective product from the second data group DA2.

なお、xj頻度累積差のタイプとして第1のxj頻度累積差(=B−A)が抽出された場合は、「xj≦xj−th」なる入力属性条件が不良品の第2データ群DA2に対応し、第2のxj頻度累積差(=A−B)が抽出された場合は、「xj>xj−th」なる入力属性条件が不良品の第2データ群DA2に対応する。すなわち、入力属性条件決定部11は、各入力属性xjについて、それぞれ、最大の入力属性条件評価指標を持つ入力属性条件(「xj≦xj−th」、または、「xj>xj−th」)を、第1の相関ルールを満たす入力属性条件として決定している。   When the first xj frequency cumulative difference (= B−A) is extracted as the type of xj frequency cumulative difference, the input attribute condition “xj ≦ xj−th” is included in the second data group DA2 of defective products. Correspondingly, when the second xj frequency cumulative difference (= A−B) is extracted, the input attribute condition “xj> xj−th” corresponds to the defective second data group DA2. That is, the input attribute condition determination unit 11 sets the input attribute condition (“xj ≦ xj−th” or “xj> xj−th”) having the maximum input attribute condition evaluation index for each input attribute xj. The input attribute condition satisfying the first correlation rule is determined.

入力属性条件決定部11が、各入力属性xjについて、不良品の第2データ群DA2に対応する条件として決定した入力属性条件を表34に示す。一例として、入力属性x2については「x2>2」なる入力属性条件が決定されているが、この条件は、良品の第1データ群DA1と分離して、不良品の第2データ群DA2を高い確度で検出できる条件を示している。また、決定された入力属性条件「x2>2」に対する排他的条件である「x2≦2」は、不良品の第2データ群DA2と分離して、良品の第1データ群DA1を高い確度で検出できる条件を示している。これらのことは、図4を参照すると、より理解しやすい。   Table 34 shows the input attribute conditions determined by the input attribute condition determination unit 11 as conditions corresponding to the second data group DA2 of defective products for each input attribute xj. As an example, the input attribute condition “x2> 2” is determined for the input attribute x2, but this condition is separated from the non-defective first data group DA1 and the second data group DA2 of defective products is high. The conditions that can be detected with accuracy are shown. Also, “x2 ≦ 2”, which is an exclusive condition for the determined input attribute condition “x2> 2”, separates the defective second data group DA2 from the defective first data group DA1 with high accuracy. The conditions that can be detected are shown. These can be better understood with reference to FIG.

Figure 2006040181
Figure 2006040181

上記のように、入力属性条件決定部11は、第1の頻度(良品の1−xj頻度累積%)と第2の頻度(不良品の2−xj頻度累積%)との差分(xj頻度累積差)を、良品の第1データ群と不良品の第2データ群とを切り分ける際の入力属性条件評価指標として用いているから、非常に簡単な処理で、上記第1の相関ルールを満たす入力属性条件を決定する事ができる。   As described above, the input attribute condition determination unit 11 determines the difference (xj frequency accumulation) between the first frequency (1-xj frequency accumulation% of non-defective products) and the second frequency (2-xj frequency accumulation% of defective products). Difference) is used as an input attribute condition evaluation index when separating the first data group of non-defective products and the second data group of defective products, so that the input satisfying the first correlation rule can be achieved with very simple processing. Attribute conditions can be determined.

なお、上記では、複数の入力属性についてステップ5〜ステップ8の処理を一括して行っているが、jの値を1から4まで順次増加させてステップ5〜ステップ8の処理を繰り返してもよい。
また、ここでは、入力属性条件評価指標としてxj頻度累積差を用いているが、データの偏りの度合いを評価する指標、例えば、非特許文献1に記載のGiniインデックス法の改善度、情報利得(ゲイン)等を用いて、入力属性条件を決定してもよい。但し、計算負荷軽減や演算速度向上の観点から、入力属性条件評価指標としてxj頻度累積差を用いる事が好ましい。すなわち、本実施形態の入力属性条件決定部11は、良品の1−xj頻度累積%と不良品の2−xj頻度累積%との差分である、xj頻度累積差%を計算するのみの非常に簡単な処理で、入力属性条件評価指標(Giniインデックス法の改善度に相当)を得ている。したがって、Giniインデックス法のように、入力属性が取り得る全ての分岐条件のパターン毎に、Giniインデックス((1)式)や改善度((2)式)を計算するような膨大な演算処理を行わずに、入力属性が取り得る値の数だけの行数のデータ(表30〜表33)に対して、頻度累積差を求める演算処理を行っているのみである。したがって、実際のデバイス(特に半導体デバイス)のような製品の製造工程のデータのように、一つの入力属性が取り得る値の数が数万〜数十万というオーダであっても、表30〜表33のデータ行数が増えるのみであるので、ほとんど計算負荷がかからず、短時間で処理を行うことができる。
In the above description, the processing from step 5 to step 8 is collectively performed for a plurality of input attributes. However, the value of j may be sequentially increased from 1 to 4 and the processing from step 5 to step 8 may be repeated. .
Here, although the xj frequency cumulative difference is used as the input attribute condition evaluation index, an index for evaluating the degree of data bias, for example, the improvement degree of the Gini index method described in Non-Patent Document 1, the information gain ( The input attribute condition may be determined using (Gain) or the like. However, from the viewpoint of reducing the calculation load and improving the calculation speed, it is preferable to use the xj frequency cumulative difference as the input attribute condition evaluation index. That is, the input attribute condition determination unit 11 of the present embodiment calculates only the xj frequency cumulative difference%, which is the difference between the non-defective 1-xj frequency cumulative% and the defective 2-xj frequency cumulative%. The input attribute condition evaluation index (corresponding to the improvement degree of the Gini index method) is obtained by simple processing. Therefore, as in the Gini index method, an enormous amount of arithmetic processing such as calculating the Gini index (Equation (1)) and the improvement level (Equation (2)) is performed for every branch condition pattern that the input attribute can take. Without performing this, only the arithmetic processing for obtaining the frequency cumulative difference is performed on the data (Tables 30 to 33) having the number of rows corresponding to the number of values that the input attribute can take. Therefore, even if the number of values that can be taken by one input attribute is on the order of tens of thousands to hundreds of thousands as in the data of the manufacturing process of a product such as an actual device (especially a semiconductor device), Table 30 to Since only the number of data rows in Table 33 is increased, almost no calculation load is applied, and processing can be performed in a short time.

また、入力属性xjの各値に対する良品の1−xj頻度累積%、および、不良品の2−xj頻度累積%は、それぞれ、対応するデータ群中において入力属性がその数値以下であるデータ数を、そのデータ群中のデータ総数で規格化したものであるから、これらの差分であるxj頻度累積差%を入力属性条件評価指標として用いることにより、分析データ群中における良品(第1データ群)の割合と不良品(第2データ群)の割合とが極端に異なる場合であっても、入力属性条件評価指標の確度を落とすことがなく、良品と不良品とを切り分ける入力属性条件(各入力属性における最適分岐条件)を、高い確度で決定することができる。   Further, the 1-xj frequency cumulative% of non-defective products and the 2-xj frequency cumulative% of defective products for each value of the input attribute xj respectively indicate the number of data whose input attributes are equal to or less than the numerical value in the corresponding data group. Since the data is normalized by the total number of data in the data group, the xj frequency cumulative difference%, which is the difference between them, is used as the input attribute condition evaluation index, whereby the non-defective product in the analysis data group (first data group) Even if the percentage of defective products and the proportion of defective products (second data group) are extremely different, the input attribute condition (each input) that separates good products from defective products without degrading the accuracy of the input attribute condition evaluation index The optimal branch condition in the attribute) can be determined with high accuracy.

[ステップ9]
不良品データ演算部12が、入力属性条件決定部11で決定した入力属性条件(表34)の各々に対し、分類後基本データ群DA00(分析データ群DA00’ではない)の中で、該入力属性条件を満たすデータの個数(表35の「DA1+DA2」列)と、該入力属性条件を満たし、かつ、不良品の第2データ群DA2に該当するデータ(不良品データ)の個数(表35の「DA2」列)とを集計する。この「DA2」列の個数は、表中の各入力属性条件に起因する不良数(不良品データの個数)を表しており、特許請求の範囲における第2データ群該当数に対応する。
[Step 9]
For each of the input attribute conditions (Table 34) determined by the input attribute condition determination unit 11 by the defective product data calculation unit 12, the input is performed in the classified basic data group DA00 (not the analysis data group DA00 ′). The number of data satisfying the attribute condition ("DA1 + DA2" column in Table 35) and the number of data (defective product data) satisfying the input attribute condition and corresponding to the defective second data group DA2 (Table 35) "DA2" column). The number of the “DA2” column represents the number of defects (number of defective product data) caused by each input attribute condition in the table, and corresponds to the number corresponding to the second data group in the claims.

次に、表35の「DA2」列の値を、「DA1+DA2」列の値で除算した、不良品分離度を演算する。各入力属性条件の不良品分離度は、該入力属性条件を満たすデータの中に不良品である第2データ群DA2が含まれるデータ個数の割合、すなわち分類後基本データ群DA00中で該入力属性条件を満たすデータの中における、不良品の第2データ群DA2に該当するデータ個数の割合を表す。各入力属性条件の不良品分離度は、該入力属性条件による不良品切り出しの確度(分類後基本データ群DA00の中で該入力属性条件に属するデータを母集団としたときの不良率(不良品データの割合))を表しており、特許請求の範囲における第2データ群分離度に対応する。   Next, the defective product separation degree is calculated by dividing the value in the “DA2” column of Table 35 by the value in the “DA1 + DA2” column. The defective product separation degree of each input attribute condition is the ratio of the number of data in which the second data group DA2 that is a defective product is included in the data satisfying the input attribute condition, that is, the input attribute in the classified basic data group DA00. This represents the ratio of the number of data corresponding to the second data group DA2 of defective products in the data that satisfies the conditions. The degree of defective product separation for each input attribute condition is the accuracy of defective product extraction based on the input attribute condition (defective rate when data belonging to the input attribute condition in the basic data group DA00 after classification is used as a population) Data ratio)), which corresponds to the second data group separation degree in the claims.

Figure 2006040181
Figure 2006040181

表35は、上記不良品データ演算部12による演算結果と併せて、その「Total」行に、分類後基本データ群DA00の中の、データ総数(=12:「DA1+DA2」列)、不良品の第2データ群DA2の個数(=4:「DA2」列)、および、不良品含有率(=4/12=0.333:「不良品分離度」列)を示したテーブルである。不良品含有率は、分類後基本データ群DA00の中に含まれる第2データ群DA2のデータ個数の割合であって、分類後基本データ群DA00の全データを母集団としたときの不良率を表している。   Table 35 shows the total number of data in the basic data group DA00 after classification (= 12: “DA1 + DA2” column) and the number of defective products in the “Total” row, together with the calculation result by the defective data calculation unit 12. 10 is a table showing the number of second data groups DA2 (= 4: “DA2” column) and defective product content rate (= 4/12 = 0.333: “defective product separation” column). The defective product content rate is a ratio of the number of data in the second data group DA2 included in the basic data group DA00 after classification, and is a defective rate when all data in the basic data group DA00 after classification is a population. Represents.

表35の各列の意味については、これらをベン図で表現した図7(a)〜図7(d)を参照すると理解しやすい。図7(a)〜図7(d)は、それぞれ、表35の各入力属性条件を満たすデータの集合と不良品の第2データ群DA2の集合との関係を示すベン図である。   The meaning of each column in Table 35 can be easily understood by referring to FIG. 7A to FIG. FIGS. 7A to 7D are Venn diagrams showing the relationship between a set of data satisfying each input attribute condition in Table 35 and a set of defective second data group DA2.

以上のようにして、問題事象(不良品の第2データ群DA2)の要因として、入力属性条件決定部11が決定した各々の入力属性条件「x1>2」、「x2>2」、「x3>2」、「x4≦10」に対して、それぞれ、不良数(第2データ群該当数)と不良品分離度(第2データ群分離度)とが計算された。   As described above, the input attribute conditions “x1> 2”, “x2> 2”, “x3” determined by the input attribute condition determination unit 11 as the cause of the problem event (the second data group DA2 of defective products). For “> 2” and “x4 ≦ 10”, the number of defects (the number corresponding to the second data group) and the degree of defective product separation (second data group separation degree) were calculated.

上記のステップ1〜ステップ9にて、各入力属性に対して、問題事象(不良品の第2データ群DA2)の要因となる、入力属性条件が決定された。しかし、その過程(ステップ6〜7)で演算した個々の入力属性に対する入力属性条件評価指標(xj頻度累積差)には、他の入力属性の影響が外乱として含まれており、場合によっては、入力属性条件評価指標(xj頻度累積差)の確度を落としてしまっている恐れがある。また、ある入力属性xjにおいて、問題事象の要因が、「xj≦xj−th1」、および、「xj>xj−th2」という2タイプとなる場合には、それらのうちの一方の条件しか決定されない。これらの点を解消するには、さらに、下記ステップによる処理を行うことが好ましい。   In step 1 to step 9 described above, an input attribute condition that causes a problem event (defective product second data group DA2) is determined for each input attribute. However, the input attribute condition evaluation index (xj frequency cumulative difference) for each input attribute calculated in the process (steps 6 to 7) includes the influence of other input attributes as disturbances. There is a possibility that the accuracy of the input attribute condition evaluation index (xj frequency cumulative difference) has been lowered. Further, in the case where there are two types of factors of the problem event “xj ≦ xj−th1” and “xj> xj−th2” in a certain input attribute xj, only one of the conditions is determined. . In order to eliminate these points, it is preferable to further perform processing according to the following steps.

[ステップ10]
頻度累積比率演算部14が、入力属性条件決定部11(ステップ8)で抽出した各入力属性閾値xj−th(表30〜表33参照)について、良品の1−xj頻度累積%(A)に対する、不良品の2−xj頻度累積%(B)の比率(=B/A:以下、頻度累積下比率と呼ぶ)、または、100から良品の1−xj頻度累積%(A)を引いた値(=100−A)に対する、100から不良品の2−xj頻度累積%(B)を引いた値(=100−B)の比率(=(100−B)/(100−A):以下、頻度累積上比率と呼ぶ)を、分割ルール評価値として計算する。
[Step 10]
For each input attribute threshold value xj-th (see Tables 30 to 33) extracted by the input attribute condition determination unit 11 (step 8), the frequency accumulation ratio calculation unit 14 performs the non-defective 1-xj frequency accumulation% (A). , A ratio of 2-xj frequency cumulative% (B) of defective products (= B / A: hereinafter referred to as frequency cumulative lower ratio), or a value obtained by subtracting 1-xj frequency cumulative% (A) of non-defective products from 100 Ratio (= (100−B) / (100−A)) (= (100−B) / (100−A)): (Referred to as cumulative frequency ratio) is calculated as the division rule evaluation value.

なお、入力属性条件決定部11で決定された入力属性条件が、「xj≦xj−th」なるタイプの場合には(入力属性条件決定部11で第1のxj頻度累積差が抽出された場合には)、分割ルール評価値として頻度累積下比率(=B/A)を計算する。ここで、頻度累積下比率(=B/A)は、「xj≦xj−th」という入力属性条件により、良品の第1データ群DA1と分離して不良品の第2データ群DA2を検出できる割合を表している。   When the input attribute condition determined by the input attribute condition determining unit 11 is of the type “xj ≦ xj−th” (when the first xj frequency cumulative difference is extracted by the input attribute condition determining unit 11) ), The frequency cumulative lower ratio (= B / A) is calculated as the division rule evaluation value. Here, the frequency cumulative lower ratio (= B / A) can be detected separately from the non-defective first data group DA1 and the defective second data group DA2 according to the input attribute condition “xj ≦ xj−th”. Represents a percentage.

また、入力属性条件決定部11で決定された入力属性条件が、「xj>xj−th」なるタイプの場合には(入力属性条件決定部11で第2のxj頻度累積差が抽出された場合には)、分割ルール評価値として頻度累積上比率(=(100−B)/(100−A))を計算する。ここで、頻度累積上比率(=(100−B)/(100−A))は、「xj>xj−th」という入力属性条件により、良品の第1データ群DA1と分離して不良品の第2データ群DA2を検出できる割合を表している。   When the input attribute condition determined by the input attribute condition determining unit 11 is of the type “xj> xj−th” (when the second xj frequency cumulative difference is extracted by the input attribute condition determining unit 11) The frequency cumulative upper ratio (= (100−B) / (100−A)) is calculated as the division rule evaluation value. Here, the cumulative frequency ratio (= (100−B) / (100−A)) is separated from the non-defective first data group DA1 according to the input attribute condition “xj> xj−th”. The ratio at which the second data group DA2 can be detected is shown.

言い換えると、各入力属性条件に対する分割ルール評価値(頻度累積下比率または頻度累積上比率)は、「入力属性xjが当該入力属性条件を満たせば、第2データ群DA2に含まれるデータである」という第2の相関ルールの確からしさを表している。   In other words, the division rule evaluation value (frequency cumulative lower ratio or frequency cumulative upper ratio) for each input attribute condition is “if the input attribute xj satisfies the input attribute condition, the data is included in the second data group DA2.” This represents the probability of the second association rule.

各入力属性条件に対する、分割ルール評価値(頻度累積下比率または頻度累積上比率)を表36に示す。   Table 36 shows division rule evaluation values (frequency cumulative lower ratio or frequency cumulative upper ratio) for each input attribute condition.

Figure 2006040181
Figure 2006040181

[ステップ11]
データ分割部15が、上記ステップ10の分割ルール評価値(頻度累積下比率または頻度累積上比率:表36)の中で、その値が最大となる入力属性条件を抽出する。
[Step 11]
The data dividing unit 15 extracts the input attribute condition having the maximum value from the division rule evaluation values (frequency cumulative lower ratio or frequency cumulative upper ratio: Table 36) in step 10 above.

表36を参照して、入力属性条件「x2>2」は、全ての入力属性条件の中で最大の分割ルール評価値をもち、分割ルール評価値=頻度累積上比率=∞となっている。これは、入力属性条件「x2>2」にて、良品の第1データ群DA1と完全に分離して、不良品の第2データ群DA2を検出できる事を示している。   Referring to Table 36, input attribute condition “x2> 2” has the largest division rule evaluation value among all input attribute conditions, and division rule evaluation value = frequency cumulative upper ratio = ∞. This indicates that, under the input attribute condition “x2> 2,” the defective second data group DA2 can be detected by being completely separated from the non-defective first data group DA1.

ここで、別の見方をすると、「x2>2」なる入力属性条件は、他の入力属性(x1、x3、x4)が如何なる値であっても、不良品の第2データ群DA2に対応するから、他の入力属性(x1、x3、x4)の入力属性条件を決定する上では(ステップ8)、または、入力属性条件評価指標(xj頻度累積差)を演算する上では(ステップ7)、外乱因子となっている可能性がある。このような場合、他の入力属性(x1、x3、x4)の入力属性条件は、「x2>2」に該当するデータを、分析データ群DA00’から除外して求める方が望ましい。また、入力属性x2については、「x2>2」と併せて、「x2≦k」(kは、未知数)なる入力属性条件も不良の要因となっている可能性があり、この「x2≦k」を抽出(決定)しようとすれば、「x2>2」に該当するデータを分析データ群DA00’から除外して、入力属性条件を決定する必要がある。   From another point of view, the input attribute condition “x2> 2” corresponds to the defective second data group DA2 regardless of the values of the other input attributes (x1, x3, x4). From determining the input attribute conditions of other input attributes (x1, x3, x4) (step 8), or calculating the input attribute condition evaluation index (xj frequency cumulative difference) (step 7), It may be a disturbance factor. In such a case, it is desirable to obtain the input attribute conditions of the other input attributes (x1, x3, x4) by excluding data corresponding to “x2> 2” from the analysis data group DA00 ′. As for the input attribute x2, in addition to “x2> 2,” the input attribute condition “x2 ≦ k” (k is an unknown number) may also be a cause of failure. This “x2 ≦ k” "Is to be extracted (determined), it is necessary to exclude the data corresponding to" x2> 2 "from the analysis data group DA00 'and determine the input attribute condition.

そこで、データ分割部15は、上記抽出した「x2>2」なる入力属性条件に基づいて、分析データ群DA00’を、「x2>2」を満たす要因データ群と、「x2>2」を満たさない(「x2≦2」を満たす)他データ群とに分割する。要因データ群を表37に、他データ群を表38に示す。   Therefore, the data dividing unit 15 satisfies the analysis data group DA00 ′ based on the extracted input attribute condition “x2> 2”, the factor data group satisfying “x2> 2”, and “x2> 2”. It is divided into other data groups that do not exist (satisfying “x2 ≦ 2”). Table 37 shows the factor data group, and Table 38 shows the other data group.

Figure 2006040181
Figure 2006040181

Figure 2006040181
Figure 2006040181

なお、ここでは、分割ルール評価値として、頻度累積下比率または頻度累積上比率を演算しているが、他の評価指標、例えば、非特許文献1に記載のGiniインデックス法の改善度、情報利得(ゲイン)等を用いてもよい。   Here, the frequency cumulative lower ratio or the frequency cumulative upper ratio is calculated as the division rule evaluation value, but other evaluation indexes, for example, the improvement degree of the Gini index method described in Non-Patent Document 1, the information gain (Gain) or the like may be used.

但し、上記分割処理は、入力属性条件を決定する上での外乱を除外することを目的としているため、「入力属性が当該入力属性条件を満たせば第2データ群DA2に属するデータであり、入力属性が当該入力属性条件を満たさなければ第1データ群DA1に属するデータである」という第1の相関ルールではなく、「入力属性が当該入力属性条件を満たせば、第2データ群DA2に含まれるデータである」という第2の相関ルールに基づくことが要求される。この観点から、分割ルール評価値としては、頻度累積下比率または頻度累積上比率を用いることが好ましい。   However, since the above division process is intended to exclude disturbance in determining the input attribute condition, “if the input attribute satisfies the input attribute condition, the data belongs to the second data group DA2 and the input Instead of the first correlation rule that the attribute belongs to the first data group DA1 if the attribute does not satisfy the input attribute condition, it is included in the second data group DA2 if the input attribute satisfies the input attribute condition. It is required to be based on the second association rule “data is”. From this viewpoint, it is preferable to use a frequency cumulative lower ratio or a frequency cumulative upper ratio as the division rule evaluation value.

[ステップ12]
分析データ群抽出部6が、ステップ11で分割されたデータ群のうち、他データ群を次の分析データ群DA00’として抽出する。そして、終了条件判定部16で終了条件を満たしていると判定されるまで、上記のステップ3〜ステップ11の一連の処理が繰り返される。本実施形態の終了条件判定部16は、繰返し処理中の上記ステップ4において不良品の第2データ群DA2のデータ個数が0となった場合を終了条件と判定するようになっている。このように不良品の第2データ群DA2のデータ個数が0となるまで繰り返し処理を実行することにより、詳細な要因分析結果が得られる。
[Step 12]
The analysis data group extraction unit 6 extracts another data group from the data group divided in step 11 as the next analysis data group DA00 ′. Then, the series of processing from step 3 to step 11 is repeated until the end condition determination unit 16 determines that the end condition is satisfied. The end condition determination unit 16 according to the present embodiment determines that the end condition is a case where the number of data in the second data group DA2 of defective products becomes 0 in the above-described step 4 during the iterative process. As described above, detailed factor analysis results can be obtained by repeatedly performing the process until the number of data in the second data group DA2 of defective products becomes zero.

なお、終了条件は、第2データ群DA2のデータ個数に基づく他の終了条件、例えば、(1)繰返し処理中の上記ステップ4において第2データ群DA2のデータ個数が所定数以下となった場合としたり、(2)繰返し処理中の上記ステップ4において第1データ群DA1のデータ個数に対する第2データ群DA2のデータ個数の割合が所定割合以下となった場合としてもよい。また、(3)繰返し処理中の上記ステップ11で抽出された入力属性条件の分割ルール評価値が所定の値を下回った場合等としてもよい。これらのような終了条件を用いた場合、より簡潔で十分な要因分析結果を得ることができる。さらに、簡潔な要因分析結果を得ることを優先する場合には、終了条件を単に繰返し処理を所定回数行った場合としたり、終了条件判定部16を省いて、可能な限り繰り返し処理を行うようにしたりしてもよい。   Note that the end condition is another end condition based on the number of data in the second data group DA2, for example, (1) when the number of data in the second data group DA2 is equal to or less than a predetermined number in the above step 4 during the repetitive processing. (2) The ratio of the number of data in the second data group DA2 to the number of data in the first data group DA1 in step 4 during the repetitive processing may be a predetermined ratio or less. Moreover, (3) It is good also as a case where the division | segmentation rule evaluation value of the input attribute conditions extracted at the said step 11 in the repetition process falls below a predetermined value. When such termination conditions are used, a simpler and sufficient factor analysis result can be obtained. Furthermore, when priority is given to obtaining a simple factor analysis result, the end condition is simply set to the case where the iterative process is performed a predetermined number of times, or the end condition determining unit 16 is omitted to perform the iterative process as much as possible. Or you may.

2回目のステップ9における、不良品データ演算部12の演算結果を表39(1回目の表35に対応)に示す。なお、この2回目の処理では、「x2>2」に該当するデータを除外した、上記他データ群を分析データ群としているため、入力属性x2について、「x2≦1」なる入力属性条件が抽出(決定)できている。
また、2回目のステップ10で演算された、分割ルール評価値(頻度累積下比率または頻度累積上比率)を表40(1回目の表36に対応)に示す。この例の場合、分割ルール評価値は、「x1>2」と「x4≦10」において、最大の4となっているが、データ分割部15は、分割ルール評価値が最大となる入力属性条件として、これらのうちの一方を選択する。この選択基準には一定のルールがあればよいが、例えば、入力属性xjの番号jが若いものを優先し、「x1>2」を選択する。そして、分析データ群DA00’を、「x1>2」を満たす要因データ群と、「x1>2」を満たさない(「x1≦2」を満たす)他データ群とに分割する(2回目のステップ11)。
Table 39 (corresponding to Table 35 for the first time) shows the calculation result of the defective product data calculation unit 12 in Step 9 for the second time. In the second processing, since the other data group excluding data corresponding to “x2> 2” is the analysis data group, an input attribute condition “x2 ≦ 1” is extracted for the input attribute x2. (Determined).
Further, the division rule evaluation values (frequency cumulative lower ratio or frequency cumulative upper ratio) calculated in the second step 10 are shown in Table 40 (corresponding to the first time Table 36). In this example, the division rule evaluation value is a maximum of 4 in “x1> 2” and “x4 ≦ 10”, but the data division unit 15 has an input attribute condition that maximizes the division rule evaluation value. One of these is selected. For this selection criterion, there should be a certain rule. For example, the input attribute xj with the smallest number j is given priority, and “x1> 2” is selected. Then, the analysis data group DA00 ′ is divided into a factor data group that satisfies “x1> 2” and another data group that does not satisfy “x1> 2” (that satisfies “x1 ≦ 2”) (second step) 11).

Figure 2006040181
Figure 2006040181

Figure 2006040181
Figure 2006040181

次に、データ分割部15が分割したデータ群のうち、他データ群(2回目の分析データ群の中で、「x1≦2」を満たすデータ群)が、3回目の分析データ群として分析データ群抽出部6によって抽出される(表41)。しかし、表41の3回目の分析データ群には、不良品のデータ(第2データ群DA2;y=2)が含まれていなかったため、3回目のステップ4で繰り返し処理が終了した。   Next, among the data groups divided by the data dividing unit 15, another data group (a data group satisfying “x1 ≦ 2” in the second analysis data group) is analyzed data as the third analysis data group. It is extracted by the group extraction unit 6 (Table 41). However, since the analysis data group for the third time in Table 41 did not include defective product data (second data group DA2; y = 2), the iterative process was completed in Step 4 for the third time.

Figure 2006040181
Figure 2006040181

上記のような繰り返しの処理によって、繰り返し処理を行なわない場合に比べて、より詳細な要因分析結果が得られる。   A more detailed factor analysis result can be obtained by the repeated processing as described above than when the repeated processing is not performed.

また、繰り返し処理を行わない場合に、外乱の影響(他の入力属性の影響)により入力属性条件評価指標(xj頻度累積差)の確度が低かったとしても、順次、他データ群を分析データ群とする繰り返し処理を行うことにより、この問題を解消できる。   In addition, when iterative processing is not performed, even if the accuracy of the input attribute condition evaluation index (xj frequency cumulative difference) is low due to the influence of disturbance (the influence of other input attributes), the other data groups are sequentially analyzed. This problem can be solved by repeating the process.

さらに、ある入力属性において、不良品の第2データ群に対応する出力属性条件の要因が、「入力属性が閾値以下である」、および、「入力属性が閾値を超える」という2タイプの場合においても、順次、他データ群を分析データ群とする繰り返しの処理を行うことによって、それらの双方の要因を抽出することができる。例えば、今回の例の入力属性x2については、1回目の処理で「x2>2」(表35)が、2回目の処理で「x2≦1」(表39)が、それぞれ抽出できている。   Furthermore, in a certain input attribute, when the factor of the output attribute condition corresponding to the second data group of the defective product is two types of “input attribute is below threshold” and “input attribute exceeds threshold” In addition, it is possible to extract both factors by sequentially performing repeated processing using another data group as an analysis data group. For example, for the input attribute x2 in this example, “x2> 2” (Table 35) can be extracted in the first process, and “x2 ≦ 1” (Table 39) can be extracted in the second process.

したがって、上記構成によれば、データ分割部15で分割されたデータ群のうち他データ群のみを、新たな分析データ群として上記一連の処理を繰り返し実行しているから、それ以前の一連の処理の繰り返しの過程で抽出された要因(入力属性条件)の影響を除外でき、第2データ群に対応する出力属性条件の新たな要因を高い確度で抽出することができる。   Therefore, according to the above configuration, since only the other data group among the data group divided by the data dividing unit 15 is repeatedly executed as a new analysis data group, a series of previous processes are performed. The influence of the factor (input attribute condition) extracted in the process of repeating the above can be excluded, and a new factor of the output attribute condition corresponding to the second data group can be extracted with high accuracy.

[ステップ13]
ステップ8の繰り返し処理毎に、各入力属性に対して決定された入力属性条件と、これら入力属性条件に対する不良数と不良品分離度と、をまとめた入力属性条件一覧テーブル(表35と表39をまとめた結果)を表42に示す。表42の入力属性条件一覧テーブルには、入力属性条件決定部11(ステップ8)の繰り返し処理による、同一の入力属性における複数の入力属性条件が全て示されている。
[Step 13]
An input attribute condition list table (Table 35 and Table 39) that summarizes the input attribute conditions determined for each input attribute, the number of defects and the degree of defective product separation for each input attribute for each repetition process of Step 8. Table 42 shows the results of summarizing the above. In the input attribute condition list table of Table 42, all of a plurality of input attribute conditions for the same input attribute by the repetition processing of the input attribute condition determining unit 11 (step 8) are shown.

Figure 2006040181
Figure 2006040181

要因決定部17は、入力属性条件一覧テーブル(表42)中の同一の入力属性における複数の入力属性条件のうちで、問題事象の要因(第2データ群DA2に対応する出力属性条件の要因)としての重要度、すなわち問題事象を解消するための対策を施す上で優先すべき度合い(以下、「優先度」と称する)の高い条件のみを選択する。   The factor determination unit 17 causes a problem event (a factor of an output attribute condition corresponding to the second data group DA2) among a plurality of input attribute conditions for the same input attribute in the input attribute condition list table (Table 42). Only a condition having a high degree of importance, that is, a condition with a high degree of priority (hereinafter referred to as “priority”) in taking measures for solving the problem phenomenon is selected.

本実施形態では、要因決定部17は、入力属性条件一覧テーブル(表42)中の同一の入力属性における複数の入力属性条件、すなわちステップ8のn回(nは2以上の整数)の繰り返し処理によって決定されたn個の入力属性条件のうちで、不良品分離度(第2データ群分離度)が最大となる入力属性条件を優先度の高い入力属性条件として選択する。ただし、n個の入力属性条件に複数種類のパターンの入力属性条件が含まれる場合には、要因決定部17は、各パターンで不良品分離度(第2データ群分離度)が最大となる入力属性条件をそれぞれ優先度の高い入力属性条件として選択する。   In the present embodiment, the factor determination unit 17 repeats a plurality of input attribute conditions for the same input attribute in the input attribute condition list table (Table 42), that is, n times (where n is an integer of 2 or more) in step 8. Among the n input attribute conditions determined by the above, the input attribute condition that maximizes the defective product separation degree (second data group separation degree) is selected as the input attribute condition with high priority. However, when the input attribute conditions of a plurality of types of patterns are included in the n input attribute conditions, the factor determination unit 17 inputs the defective product separation degree (second data group separation degree) maximum in each pattern. Each attribute condition is selected as an input attribute condition having a high priority.

具体的には、同一の入力属性に対して、「入力属性が閾値以下である」という第1のパターンの中で、不良品分離度(第2データ群分離度)が最大となる入力属性条件を1つと、「入力属性が閾値を超える」という第2のパターンの中で、不良品分離度(第2データ群分離度)が最大となる入力属性条件を1つとを、選択する。   Specifically, for the same input attribute, the input attribute condition that maximizes the defective product separation degree (second data group separation degree) in the first pattern “input attribute is below threshold” And one input attribute condition that maximizes the defective product separation degree (second data group separation degree) in the second pattern of “input attribute exceeds threshold”.

表42の例の場合には、最終的に、表43(a)に示す5条件が、問題事象(不良品の第2データ群DA2)の要因として選択された。表43(a)は、要因決定部17が問題事象の要因として決定した(選択した)入力属性条件の一覧であり、このテーブルを決定要因一覧テーブルと呼ぶ。決定要因一覧テーブルは、分析結果データ格納部20に保存される。   In the case of the example in Table 42, finally, the five conditions shown in Table 43 (a) were selected as factors of the problem event (defective product second data group DA2). Table 43 (a) is a list of input attribute conditions determined (selected) by the factor determination unit 17 as the cause of the problem event, and this table is referred to as a determination factor list table. The determination factor list table is stored in the analysis result data storage unit 20.

Figure 2006040181
Figure 2006040181

上記のように、要因決定部17が、不良品分離度(第2データ群分離度)という明確な指標に基づいて、ステップ8の繰り返し処理毎に決定された同一の入力属性における複数の入力属性条件のうちで優先度の高い条件のみを選択しているから、詳細な要因分析結果を得るために上記の繰り返し処理を行っても複雑化する事なく、非常に簡潔な形でありながら、高い確度で、第2データ群に対応する出力属性条件の要因を決定する事ができる。   As described above, the factor determination unit 17 uses a plurality of input attributes in the same input attribute determined for each repetition process of step 8 based on a clear index of defective product separation (second data group separation). Since only the high-priority conditions are selected from among the conditions, the above process is repeated in order to obtain a detailed factor analysis result. The cause of the output attribute condition corresponding to the second data group can be determined by the accuracy.

なお、上記優先度の高い条件を選択する上で、不良品分離度(第2データ群分離度)を指標としているのは、以下の理由による。すなわち、ある入力属性条件の不良品分離度は、前述したように、該入力属性条件による不良品切り出しの確度を表しているため、この値が大きい入力属性条件は、他の入力属性(外乱)の影響をあまり受けずに高い確度で決定された条件と考えられるからである。   In selecting the high priority condition, the defective product separation degree (second data group separation degree) is used as an index for the following reason. That is, as described above, the degree of defective product separation under a certain input attribute condition represents the accuracy of defective product extraction according to the input attribute condition. Therefore, an input attribute condition with a large value is a value other than other input attributes (disturbances). This is because it is considered to be a condition determined with high accuracy without being affected by the above.

上記2回の繰り返し処理の過程を、決定木の形式(従来の決定木(図14)と同様の形式)で表現すると図8のようになる。図8を参照して、本実施形態では、決定木の分岐毎に、分岐条件だけでなく全ての入力属性について問題事象(不良品の第2データ群DA2)の要因となる入力属性条件を求めている(ステップ8の入力属性条件決定部11による処理)。そして、分岐の回数分(繰り返し処理の回数分)の全て入力属性条件の中で、さらに不良品分離度の高い入力属性条件を絞り込み、最終の不良要因として決定している(ステップ13の要因決定部17による処理)。   If the process of the above two iterations is expressed in the form of a decision tree (similar to the conventional decision tree (FIG. 14)), it is as shown in FIG. Referring to FIG. 8, in this embodiment, for each branch of a decision tree, not only a branch condition but also an input attribute condition that causes a problem event (defective product second data group DA2) is obtained for all input attributes. (Processing by the input attribute condition determination unit 11 in step 8). Then, among all the input attribute conditions for the number of times of branching (for the number of iterations), input attribute conditions with a higher degree of defective product separation are narrowed down and determined as the final defect factor (factor determination in step 13). Processing by the unit 17).

このように、決定木における分岐条件に限らず、全ての入力属性について、問題事象(不良品の第2データ群DA2)の要因となる入力属性条件を抽出しているから、分岐条件に競合因子が存在しても、その要因を逃すことなく、確実に捉えることができる。また、最終的な要因決定(要因決定部17による処理)において、不良品分離度という明確な指標に基づいて要因の決定を行っているため、如何に複雑な決定木となろうとも、明確に問題事象の要因を把握することができる。   As described above, the input attribute condition that causes the problem event (defective product second data group DA2) is extracted not only for the branch condition in the decision tree but for all the input attributes. Even if there is, can be caught without missing the factor. In the final factor determination (processing by the factor determination unit 17), the factor is determined based on a clear index of defective product separation, so no matter how complicated the decision tree is, it is clear. The cause of the problem event can be grasped.

なお、要因決定部17では、さらに以下の処理を行なうようにしてもよい。すなわち、表43(a)の決定要因一覧テーブルにおける各入力属性条件の中で、分類後基本データ群DA00の不良品含有率(=0.333:「Total」行の「不良品分離度」列)よりも大きい値の不良品分離度をもつ入力属性条件を、不良品の第2データ群DA2の要因を示す情報として決定してもよい。表43(a)の例では、「x2≦1」(不良品分離度=0.2)以外の4条件が、分類後基本データ群DA00の不良品含有率よりも高い不良品分離度を有しており、これらの4条件が選ばれる(表43(b))。なお、こうして選ばれた入力属性条件は、分類後基本データ群DA00の中からランダムに選んだサンプルよりも高い割合で、不良品の第2データ群DA2を含む条件である。以下、表43(b)のテーブルも、決定要因一覧テーブルと呼ぶ。   The factor determination unit 17 may further perform the following processing. That is, in each input attribute condition in the determination factor list table of Table 43 (a), the defective product content rate of the basic data group DA00 after classification (= 0.333: “Defective product separation” column in the “Total” row) ) May be determined as information indicating a factor of the second data group DA2 of defective products. In the example of Table 43 (a), the four conditions other than “x2 ≦ 1” (defective product separation = 0.2) have a defective product separation higher than the defective product content in the basic data group DA00 after classification. These four conditions are selected (Table 43 (b)). The input attribute condition selected in this way is a condition that includes the defective second data group DA2 at a higher rate than the sample randomly selected from the classified basic data group DA00. Hereinafter, the table of Table 43 (b) is also referred to as a determination factor list table.

Figure 2006040181
Figure 2006040181

今回の例(表1を基本データ群DAとするデータ分析)では、データ数や入力属性数が少なく、入力属性の相互間の影響も小さかったため、要因決定部17で決定した入力属性条件(表43(a)および表43(b))が、結果的には、1回目のステップ8における入力属性条件決定部11の処理結果(表35)と大差がなかった。しかし、データ数や入力属性数が多い場合には、繰り返し処理毎の入力属性条件が、表44の入力属性条件一覧テーブルに示すように複雑になる事が多い。表44は、ステップ8の4回の繰り返し処理により、入力属性xk1に対して、4つの異なる入力属性条件が決定された例(入力属性条件一覧テーブルのダミーサンプル)である。   In this example (data analysis with Table 1 as the basic data group DA), the number of data and the number of input attributes are small, and the influence between the input attributes is small. 43 (a) and Table 43 (b)) were not significantly different from the processing result (Table 35) of the input attribute condition determining unit 11 in Step 8 as a result. However, when the number of data and the number of input attributes are large, the input attribute conditions for each repetition process are often complicated as shown in the input attribute condition list table of Table 44. Table 44 is an example (dummy sample of the input attribute condition list table) in which four different input attribute conditions are determined for the input attribute xk1 by the four iterations of step 8.

Figure 2006040181
Figure 2006040181

この例の場合には、「入力属性が閾値以下である」という第1のパターンに対して、不良品分離度(第2データ群分離度)が最大となる「xk1≦2.33」なる条件が、また、「入力属性が閾値を超える」という第2のパターンの中で、不良品分離度(第2データ群分離度)が最大となる「xk1>2.44」なる条件が、それぞれ、要因決定部17によって選択される(表45)。   In the case of this example, the condition “xk1 ≦ 2.33” that maximizes the defective product separation degree (second data group separation degree) with respect to the first pattern “input attribute is equal to or less than threshold”. However, in the second pattern that “the input attribute exceeds the threshold”, the condition “xk1> 2.44” that maximizes the defective product separation degree (second data group separation degree) is It is selected by the factor determination unit 17 (Table 45).

Figure 2006040181
Figure 2006040181

なお、簡易的に要因を決定しようとすれば、第1のパターンと第2のパターンとを区別せず、単に、同一の入力属性の中で、不良品分離度が最大となる入力属性条件を選択してもよい(表44の例では、「xk1>2.44」が選択される)。   Note that if a factor is to be determined simply, the first pattern and the second pattern are not distinguished from each other, and the input attribute condition that maximizes the defective product separation degree is simply selected from the same input attributes. It may be selected (in the example of Table 44, “xk1> 2.44” is selected).

[ステップ14]
順位決定部13が、要因決定部17が問題事象の要因として決定した(選択した)各入力属性条件(決定要因一覧テーブル(表43(a)または表43(b))の各入力属性条件)に対して、問題事象の要因(不良品の第2データ群DA2に対応する出力属性条件が発生する要因)としての重要度(優先度)による順位付けを行う。すなわち問題事象を解消するための対策を施す上で優先すべき順序(優先順位)を付ける(優先順位付けを行う)。以下では、表43(b)の決定要因一覧テーブルの各入力属性条件に対して優先順位付けを行う場合を例として、順位決定部13の動作を説明する。
[Step 14]
Each of the input attribute conditions (each input attribute condition of the determination factor list table (Table 43 (a) or Table 43 (b)) determined (selected) by the factor determining unit 17 as the factor of the problem event. On the other hand, ranking is performed according to importance (priority) as a cause of a problem event (a factor causing an output attribute condition corresponding to the second data group DA2 of defective products). That is, an order (priority order) that should be prioritized in taking measures for solving the problem phenomenon is given (prioritization is performed). Hereinafter, the operation of the order determination unit 13 will be described by taking as an example a case in which prioritization is performed for each input attribute condition in the determination factor list table of Table 43 (b).

順位決定部13は、まず、表43(b)の決定要因一覧テーブルの各入力属性条件に対して、不良数(第2データ群該当数)の大きい順に点数が高くなるように第1の配点を与え、また、不良品分離度(第2データ群分離度)の大きい順に点数が高くなるように第2の配点を与える。そして、第1の配点と第2の配点との合計点を計算する。表46は、表43(b)の決定要因一覧テーブルに、上記第1の配点、第2の配点、および、合計点を併記したテーブル(このテーブルも決定要因一覧テーブルと呼ぶ)である。   The rank determination unit 13 first sets the first scoring so that the score increases in descending order of the number of defects (number of hits in the second data group) for each input attribute condition in the determination factor list table of Table 43 (b). In addition, the second scoring is given so that the score becomes higher in descending order of the defective product separation degree (second data group separation degree). Then, the total score of the first score and the second score is calculated. Table 46 is a table in which the first allocation score, the second allocation score, and the total score are written together in the determination factor list table of Table 43 (b) (this table is also referred to as a determination factor list table).

なお、ここでは、第1の配点を、表46の各入力属性条件を不良数で昇順に並べたときの順番の番号(すなわち、不良数の少ない順に順位付けしたときの順位)とし、第2の配点を、表46の各入力属性条件を不良品分離度で昇順に並べたときの順番の番号(すなわち、不良品分離度の小さい順に順位付けしたときの順位)としている。   Here, the first stipulation is the number of the order when the input attribute conditions in Table 46 are arranged in ascending order by the number of defects (that is, the order when ranking is performed in ascending order of the number of defects). Is the number of the order when the input attribute conditions in Table 46 are arranged in ascending order by the defective product separation degree (that is, the ranking when the defective product separation degree is ranked in ascending order).

なお、第1の配点および第2の配点は、この例に限定されるものではない。例えば、第1の配点を不良数そのもの、第2の配点を不良品分離度に所定の係数を乗算した値としてもよい。   Note that the first and second points are not limited to this example. For example, the first score may be the number of defects itself, and the second score may be a value obtained by multiplying the defect separation degree by a predetermined coefficient.

Figure 2006040181
Figure 2006040181

次に、分析の目的に応じて、ユーザが、上記3種の点数(第1の配点、第2の配点、合計点)のうち、どの点数を採用するかをデータ分析装置に指定し、これに応答して、順位決定部13が、その点数の高い順に入力属性条件の優先順位付けを行なう。   Next, according to the purpose of the analysis, the user designates which of the above three types of scores (first score, second score, and total score) to adopt to the data analyzer, and this In response to this, the order determining unit 13 prioritizes the input attribute conditions in descending order of the score.

決定要因一覧テーブル(表46)を、順位決定部13が決定した優先順位の高い順に並べ替え、要因内訳パレート図として表示した結果を図9〜図11に示す。図9〜図11において、各入力属性条件に起因する不良数(第2データ群DA2の個数:第2データ群該当数)は棒グラフで、また、不良品分離度(第2データ群分離度)は折れ線グラフで示されている。   The determination factor list table (Table 46) is rearranged in descending order of priority determined by the rank determination unit 13, and the results displayed as the factor breakdown Pareto charts are shown in FIGS. 9 to 11, the number of defects caused by each input attribute condition (number of second data group DA2: number of corresponding second data group) is a bar graph, and the degree of defective product separation (second data group separation degree). Is shown as a line graph.

図9は、横軸(入力属性条件)を、第1の配点が高い条件(不良数が大きい条件)から順に並べている。図10は、横軸(入力属性条件)を、第2の配点が高い条件(不良品分離度が大きい条件)から順に並べている。図11は、横軸(入力属性条件)を、第1の配点と第2の配点との合計点が高い条件(不良数と不良品分離度との双方を考慮した配点の高い条件)から順に並べている。なお、各図の横軸において、同一の点数をもつ入力属性条件については、入力属性Xjの番号jが若い条件を優先して左側に配置している。   In FIG. 9, the horizontal axis (input attribute condition) is arranged in order from the condition in which the first score is high (condition in which the number of defects is large). In FIG. 10, the horizontal axis (input attribute condition) is arranged in order from the condition where the second score is high (the condition where the defective product separation degree is large). In FIG. 11, the horizontal axis (input attribute condition) is in order from the condition where the total score of the first and second score points is high (the condition where the score is high considering both the number of defects and the degree of defect separation). Lined up. On the horizontal axis of each figure, the input attribute conditions having the same score are arranged on the left side with priority given to the condition where the number j of the input attribute Xj is young.

ユーザは、図9〜図11の結果を参照する事により、入力属性x1〜x4の各々がどの値の範囲にあるから製品特性が悪いのか?という製品特性不良の要因を一眺して即座に判断できる。また、対策を施すべき順序(優先順位)を、第1の配点、第2の配点、または、第1の配点と第2の配点との合計点から決定できる。   By referring to the results shown in FIGS. 9 to 11, the user has a range of values for each of the input attributes x1 to x4. It is possible to judge immediately by looking at the causes of product characteristic defects. In addition, the order (priority order) in which measures should be taken can be determined from the first score, the second score, or the total score of the first score and the second score.

以下、図9〜図11を参照して、上記3種の点数(第1の配点、第2の配点、合計点)に基づく、順位決定部13による優先順位付けの意味合いを説明する。   Hereinafter, with reference to FIG. 9 to FIG. 11, the meaning of prioritization by the rank determination unit 13 based on the above three points (first score, second score, and total score) will be described.

(1)第1の配点に基づく優先順位付け
現在発生している不良を、なるべく多く減じることを分析の目的とする場合、ユーザは、第1の配点の採用をデータ分析装置に指定する。そして、順位決定部13が、不良数(第2データ群該当数)の大きい入力属性条件(第1の配点が高い入力属性条件)から順に、優先順位付けを行なう(図9参照)。ユーザは、この優先順位の高い入力属性条件から順に対策を施すことにより、現在発生している不良の多くを解消することができる。
(1) Prioritization based on first scoring When the purpose of analysis is to reduce as many as possible defects as much as possible, the user designates the data analyzer to adopt the first scoring. Then, the order determination unit 13 assigns priorities in order from an input attribute condition (input attribute condition with a high first score) having a large number of defects (corresponding number of second data groups) (see FIG. 9). The user can eliminate many of the currently occurring defects by taking countermeasures in order from the input attribute condition with the highest priority.

例えば、図9(表46)において優先順位が第1位である、「x1>2」または「x3>2」に対する対策を施すことにより、4個の不良のうちの3個を解消する事ができる(不良全体の75%が解消される)。   For example, by taking measures against “x1> 2” or “x3> 2” having the first priority in FIG. 9 (Table 46), it is possible to eliminate three of the four defects. Yes (75% of all defects are eliminated).

但し、この場合、第1の配点が高い(不良数の大きい)入力属性条件において、第2の配点も高い(不良品分離度も大きい)とは限らず、場合によっては、対策によって、不良の解消と同時に良品も落としてしまう恐れがある。例えば、「x3>2」に対する対策は、不良品分離度が0.43であるため、上記3個の不良の解消と同時に4個の良品も落としてしまうことになる。すなわち、第1の配点に基づく優先順位を採用する場合、ユーザは、その優先順位と併せて不良品分離度を参照し、これによって、対策すべき入力属性条件を最終決定することになる。   However, in this case, in the input attribute condition in which the first scoring is high (the number of defects is large), the second scoring is not necessarily high (the degree of defective product separation is also large). At the same time as resolution, there is a risk of dropping good products. For example, since the measure for “x3> 2” is a defective product separation degree of 0.43, four non-defective products are dropped simultaneously with the elimination of the three defects. That is, when the priority order based on the first scoring is adopted, the user refers to the defective product separation degree together with the priority order, and thereby finally determines the input attribute condition to be dealt with.

(2)第2の配点に基づく優先順位付け
良品と分離して、高い確度で不良を減じることを分析の目的とする場合、ユーザは、第2の配点の採用をデータ分析装置に指定する。そして、順位決定部13が、不良品分離度(第2データ群分離度)の大きい入力属性条件(第2の配点が高い入力属性条件)から順に、優先順位付けを行なう(図10参照)。ユーザは、この優先順位の高い入力属性条件から順に対策を施すことにより、極力良品を落とさずに、高い確度で不良を解消することができる。
(2) Prioritization based on second scoring When the purpose of analysis is to separate defects from non-defective products and reduce defects with high accuracy, the user designates the data analyzer to adopt the second scoring. Then, the order determination unit 13 prioritizes the input attributes in descending order of input attribute conditions (input attribute conditions having a high second score) having a high degree of defective product separation (second data group separation) (see FIG. 10). The user can resolve the defect with high accuracy without dropping a non-defective product as much as possible by taking measures in order from the input attribute condition having the highest priority.

例えば、図10(表46)において優先順位が第1位である、「x2>2」(不良品分離度=1)に対する対策を施すことにより、良品を全く落とさずに、不良を解消する事ができる。   For example, by taking measures against “x2> 2” (defective product separation degree = 1), which has the first priority in FIG. 10 (Table 46), it is possible to eliminate the defect without dropping any non-defective product. Can do.

但し、この場合、第2の配点が高い(不良品分離度の大きい)入力属性条件において、第1の配点も高い(不良数も大きい)とは限らず、場合によっては、対策を施しても、不良全体のうちの一部しか解消されない恐れがある。すなわち、第2の配点に基づく優先順位を採用する場合、ユーザは、その優先順位と併せて不良数を参照し、これによって、対策すべき入力属性条件を最終決定することになる。   However, in this case, in the input attribute condition where the second scoring is high (the degree of defective product separation is large), the first scoring is not necessarily high (the number of defects is also large). There is a risk that only a part of the whole defect is resolved. That is, when the priority order based on the second score is adopted, the user refers to the number of defects together with the priority order, and thereby finally determines the input attribute condition to be countered.

(3)第1の配点と第2の配点との合計点に基づく優先順位付け
上記第1の配点に基づく優先順位付けと、第2の配点に基づく優先順位付けとの、夫々の長所を活かすとともに短所を補い、総合的に見て、高い確度で多くの不良を減じることを目的とする場合、ユーザは、第1の配点と第2の配点との合計点の採用をデータ分析装置に指定する。そして、順位決定部13が、合計点(不良数と不良品分離度との双方を考慮した配点)の高い順に、優先順位付けを行なう(図11参照)。ユーザは、この優先順位の高い入力属性条件から順に対策を施すことにより、高い確度で、しかも多くの不良を解消することができる。
(3) Prioritization based on the total score of the first and second scoring points Utilizing the advantages of prioritization based on the first scoring point and prioritization based on the second scoring point In addition, when the aim is to compensate for the shortcomings and reduce many defects with high accuracy from a comprehensive viewpoint, the user designates the data analyzer to adopt the total of the first and second points. To do. Then, the order determination unit 13 assigns priorities in descending order of the total points (scoring points considering both the number of defects and the degree of defective product separation) (see FIG. 11). The user can resolve many defects with high accuracy by taking countermeasures in order from the input attribute condition having the highest priority.

例えば、図11(表46)において優先順位が第1位である、「x1>2」に対する対策を施すことにより、良品をほとんど落とさずに、多くの不良を解消する事ができる。すなわち、良品については8個中の2個しか落とさずに、4個の不良のうちの3個の不良を解消できる。   For example, by taking measures against “x1> 2”, which has the first priority in FIG. 11 (Table 46), many defects can be eliminated with almost no non-defective products dropped. In other words, only 2 out of 8 non-defective products are dropped, and 3 out of 4 defects can be eliminated.

[ステップ15]
複合要因不良数計算部18が、決定要因一覧テーブル(表46)の各入力属性条件のうち、2つの条件の複合要因による不良数を計算する(表47)。表47において、タイトル行とタイトル列には、それぞれ、各入力属性条件が示されており、その交差部には、2つの入力属性条件の複合要因による不良数(第2データ群DA2の個数)が示されている。
[Step 15]
The complex factor defect count calculation unit 18 calculates the number of defects due to the complex factor of two conditions among the input attribute conditions in the decision factor list table (Table 46) (Table 47). In Table 47, each of the title attribute and the title column shows each input attribute condition, and the number of defects (number of second data group DA2) due to the composite factor of the two input attribute conditions is shown at the intersection. It is shown.

Figure 2006040181
Figure 2006040181

例えば、「x1>2」行、「x2>2」列は、「x1>2」かつ「x2>2」を満たし、かつ、不良品の第2データ群DA2に該当するデータの個数(=1)を表している。以下、表47のテーブルを複合要因テーブルと呼ぶ。   For example, the “x1> 2” row and the “x2> 2” column satisfy “x1> 2” and “x2> 2”, and the number of data corresponding to the defective second data group DA2 (= 1) ). Hereinafter, the table in Table 47 is referred to as a composite factor table.

[ステップ16]
数値−文字データ変換部19では、必要に応じて、決定要因一覧テーブル(表46)や複合要因テーブル(表47)における入力属性閾値xj−thの数値を文字データに変換する。文字データへの変換ルールは、ステップ0の変換の逆変換となるルールであり、下記の通りである。
(x1)1→A、2→B、3→C、4→D
(x2)1→a、2→b、3→c、4→d
(x3)変換せず
(x4)変換せず
表46の決定要因一覧テーブルにおける入力属性閾値xj−thを文字データに変換した決定要因一覧テーブルを表48に示す。
[Step 16]
The numerical value-character data conversion unit 19 converts the numerical value of the input attribute threshold value xj-th in the decision factor list table (Table 46) and the composite factor table (Table 47) into character data as necessary. The conversion rule for character data is a rule that is the reverse conversion of the conversion in step 0, and is as follows.
(X1) 1 → A, 2 → B, 3 → C, 4 → D
(X2) 1 → a, 2 → b, 3 → c, 4 → d
(X3) Not converted (x4) Not converted Table 48 shows a determination factor list table in which the input attribute threshold value xj-th in the determination factor list table of Table 46 is converted into character data.

Figure 2006040181
Figure 2006040181

[ステップ17]
以上でデータ分析を終了し、入力属性条件一覧テーブル(表42)、決定要因一覧テーブル(表46、表48)、複合要因テーブル(表47)やデータ分析過程での各種情報が、最終的に、分析結果データとしてハードディスク等の分析結果データ格納部20に格納される。これらの分析結果データは、適宜、分析結果データ格納部20から表示装置や印刷装置等の出力部21に送られ、テーブル(例えば表48)、決定木(例えば図8)や、グラフ(例えば図9〜図11)として、表示装置にて表示したり、印刷装置にて印刷したりすることができる。
[Step 17]
Thus, the data analysis is completed, and the input attribute condition list table (Table 42), the decision factor list tables (Table 46 and Table 48), the composite factor table (Table 47) and various information in the data analysis process are finally obtained. The analysis result data is stored in the analysis result data storage unit 20 such as a hard disk. The analysis result data is appropriately sent from the analysis result data storage unit 20 to the output unit 21 such as a display device or a printing device, and a table (for example, Table 48), a decision tree (for example, FIG. 8), or a graph (for example, FIG. 9 to 11), it can be displayed on a display device or printed on a printing device.

ユーザは、上記グラフ(図9〜図11)を参照する事により、入力属性x1〜x4の各々がどの値の範囲にあるから製品特性が悪いのか?という製品特性不良の要因を一眺して即座に判断できる。   By referring to the graphs (FIGS. 9 to 11), the user has a range of values for each of the input attributes x1 to x4. It is possible to judge immediately by looking at the causes of product characteristic defects.

また、対策を施すべき順序を、上記の第1の配点、第2の配点、または、第1の配点と第2の配点との合計点に基づく順位決定部13の順位付け結果(図9〜図11における入力属性条件の並び順)を参照して決定できる。例えば、第1の配点と第2の配点との合計点に基づく順位決定部13の順位付け結果(図11および表46)を参照すれば、合計点が最高の5点である、「x1>2」(「x1=C or D」)、または、「x2>2」(「x2=c or d」)を、第1に対策すべき条件として判断できる。なお、この2条件うちの何れを選択するかは、対策の実現可能性を踏まえて判断すればよく、例えば、「x1>2」(「x1=C or D」)を第1の要因として選択する。そして図11(または表46)から、この対策により、良品を2個しか落とさずに(不良品分離度=0.6)、4個の不良のうちの3個の不良を解消できる(不良全体の75%が解消される)ことを見込む事ができる。   In addition, the order of the measures to be taken is determined based on the ranking result of the rank determination unit 13 based on the first score, the second score, or the total score of the first score and the second score (FIG. 9 to FIG. 9). This can be determined with reference to the order of input attribute conditions in FIG. For example, referring to the ranking result (FIG. 11 and Table 46) of the ranking determination unit 13 based on the total score of the first score and the second score, the total score is the highest five points, “x1> 2 ”(“ x1 = C or D ”) or“ x2> 2 ”(“ x2 = c or d ”) can be determined as the first countermeasure condition. Note that it is only necessary to determine which of the two conditions is selected based on the feasibility of the countermeasure. For example, “x1> 2” (“x1 = C or D”) is selected as the first factor. To do. From FIG. 11 (or Table 46), this countermeasure can eliminate three defects out of the four defects without dropping only two non-defective products (defective product separation = 0.6). Can be expected).

また、第2に対策すべき内容については、複合要因テーブル(表47)を用いて、第1の要因(「x1>2」、すなわち、「x1=C or D」)と他の要因との複合度を調べることで判断できる。図12は、図11の各要因(入力属性条件)の棒グラフ(不良数)において、第1の要因(「x1>2」、すなわち、「x1=C or D」)との複合要因による不良数に、ハッチングを付けて示したものである。図12から、「x2>2」、すなわち「x2=c or d」なる条件は、第1の要因(「x1>2」、すなわち「x1=C or D」)と重複しない不良を有し、かつ、不良品分離度(第2データ群分離度)が高いため、第1の要因に対する独立要因の可能性が高く、第2に対策すべき項目であることが読み取れる。   As for the content to be secondly countermeasured, the first factor (“x1> 2”, ie, “x1 = C or D”) and other factors are used using the composite factor table (Table 47). This can be determined by examining the degree of compounding. FIG. 12 shows the number of defects due to a composite factor with the first factor (“x1> 2”, ie, “x1 = C or D”) in the bar graph (number of defects) of each factor (input attribute condition) in FIG. It is shown with hatching. From FIG. 12, the condition “x2> 2”, that is, “x2 = c or d” has a defect that does not overlap with the first factor (“x1> 2”, ie, “x1 = C or D”), In addition, since the defective product separation degree (second data group separation degree) is high, there is a high possibility of an independent factor with respect to the first factor, and it can be read that this is an item to be secondly addressed.

なお、図12では、さらに、第1の要因(「x1>2」、すなわち、「x1=C or D」)との複合要因(または従属因子)を抽出することも可能で、この例では、ハッチング部の割合が大きい(棒の全てにハッチングが付いている)「x3>2」が抽出される。   In FIG. 12, it is also possible to extract a composite factor (or a dependent factor) with the first factor (“x1> 2”, ie, “x1 = C or D”). In this example, “X3> 2” having a large hatching ratio (all bars are hatched) is extracted.

上記したように、本実施形態では、入力属性条件決定部11が、全ての入力属性について、問題事象(不良品の第2データ群DA2)の要因となる入力属性条件を決定している(ステップ8)。そして、要因決定部17が、不良品分離度(第2データ群分離度)という明確な指標に基づいて、ステップ8の繰り返し処理毎に決定された、同一の入力属性における複数の入力属性条件に対し、これらのうちで優先度の高い条件を選択している。このため、詳細な要因分析結果を得るために上記の繰り返し処理を行っても複雑化する事なく、非常に簡潔な形でありながら、高い確度で、不良の要因(第2データ群に対応する出力属性条件の要因)を決定する事ができる。   As described above, in the present embodiment, the input attribute condition determination unit 11 determines the input attribute condition that causes a problem event (defective product second data group DA2) for all input attributes (steps). 8). Then, the factor determination unit 17 sets the plurality of input attribute conditions for the same input attribute determined for each repetition process of step 8 based on a clear index of defective product separation (second data group separation). On the other hand, among these, a condition with high priority is selected. For this reason, even if the above-described repetitive processing is performed to obtain a detailed factor analysis result, it does not become complicated, and it is in a very simple form, but with high accuracy and a cause of failure (corresponding to the second data group). The factor of the output attribute condition) can be determined.

さらに、順位決定部13が、要因決定部17が問題事象の要因として決定した各入力属性条件(決定要因一覧テーブル(表43(a)または表43(b))の各入力属性条件)に対して、第1の配点、第2の配点、および、第1の配点と第2の配点の合計点といった明確な指標に基づいて、優先順位付けを行っているので、対策を施すべき要因の優先順位を明確に決定する事ができる。   Further, the rank determination unit 13 performs the input attribute conditions (the input attribute conditions in the determination factor list table (Table 43 (a) or Table 43 (b)) determined by the factor determination unit 17 as the cause of the problem event. Since prioritization is performed based on clear indicators such as the first scoring point, the second scoring point, and the total score of the first and second scoring points, the priority of the factors that should be addressed The order can be clearly determined.

このため、不良の要因が、階層構造の形式で複数抽出され(y=Yなる製品特性不良が、決定木の至る所に現われ、また、同一の入力属性の異なる条件での分岐が何回も起こり)、「各々の入力属性がどの値の範囲にあるから製品特性が悪いのか?を判断しにくい」という、従来の決定木(図14)の問題が解消される。例えば、従来の決定木において抽出されたy=Yなる製品特性不良の条件が、
・「x2=c or d」
または、
・「x2=a or b」かつ「x1=C or D」かつ「x3≧2.5」
であったのに対し、本実施形態で決定した製品特性不良の条件(入力属性条件)は、図9〜図11および表46(表48)に示したように、
・ 「x1>2」(C or D)
・ 「x2>2」(c or d)
・ 「x3>2」
・ 「x4≦10」
である。すなわち、入力属性x1〜x4の各々がどの値の範囲にあるから製品特性が悪いのか?という製品特性不良の要因を一眺して即座に判断でき、本発明の第1の目的を達成できる。
For this reason, a plurality of failure factors are extracted in the form of a hierarchical structure (product characteristic failures with y = Y appear everywhere in the decision tree, and the same input attribute has many branches under different conditions. The problem of the conventional decision tree (FIG. 14) that “it is difficult to determine which product attribute is bad because each input attribute is in a range of values” is solved. For example, the condition of product characteristic failure y = Y extracted in the conventional decision tree is
・ "X2 = c or d"
Or
“X2 = a or b” and “x1 = C or D” and “x3 ≧ 2.5”
On the other hand, the product characteristic defect condition (input attribute condition) determined in this embodiment is as shown in FIGS. 9 to 11 and Table 46 (Table 48).
・ “X1> 2” (C or D)
"X2>2" (c or d)
・ “X3> 2”
・ “X4 ≦ 10”
It is. That is, since the input attributes x1 to x4 each have a range of values, are the product characteristics bad? It is possible to make a quick determination by looking at the causes of product characteristic defects, and the first object of the present invention can be achieved.

さらに、従来の決定木(図14)では、「さまざまな階層に現われる各々の不良要因に対して、どのような優先順位で対策を施せば良いか」が分かりにくかったが、本実施形態では、順位決定部13が、第1の配点、第2の配点、および、第1の配点と第2の配点の合計点といった明確な指標に基づいて、優先順位付けを行っているので、対策を施すべき要因の優先順位を明確に決定する事ができる。例えば、第1の配点と第2の配点との合計点に基づく順位決定部13の順位付け結果(図11)によって、「x1>2」(「x1=C or D」)、または、「x2>2」(「x2=c or d」)を、第1に対策すべき条件として決定できる。すなわち、本発明の第2の目的を達成できる。   Furthermore, in the conventional decision tree (FIG. 14), it was difficult to understand what priority should be taken for each failure factor appearing in various layers, but in this embodiment, Since the order determination unit 13 performs prioritization based on clear indicators such as the first score, the second score, and the total score of the first score and the second score, measures are taken. The priority order of factors should be clearly determined. For example, “x1> 2” (“x1 = C or D”) or “x2” depending on the ranking result (FIG. 11) of the ranking determining unit 13 based on the total score of the first and second score points. > 2 ”(“ x2 = c or d ”) can be determined as a condition to be first addressed. That is, the second object of the present invention can be achieved.

なお、上述した実施形態では、複数の分岐(繰り返し)による決定木(図8)を生成していたが、一回の分岐だけでよければ、一回目のステップ9の終了後、ステップ10〜12をスキップして、ステップ13の処理を行なうようにすればよい。この場合、ステップ13における要因決定部17の出力(決定要因一覧テーブル)は、ステップ9の不良品データ演算部12の出力(表35)と同じになる。   In the above-described embodiment, the decision tree (FIG. 8) is generated by a plurality of branches (repetition). However, if only one branch is sufficient, steps 10 to 12 are performed after step 9 is completed. Is skipped and the process of step 13 may be performed. In this case, the output (determination factor list table) of the factor determination unit 17 in step 13 is the same as the output (table 35) of the defective product data calculation unit 12 in step 9.

また、上記では、ステップ12において、分析データ群抽出部6が、分割されたデータ群のうち、他データ群のみを次の分析データ群として抽出したが、要因データ群も分析データ群として抽出し、ステップ3〜ステップ11の一連の処理を繰り返すようにしてもよい。要因データ群と他データ群との少なくとも一方を新たな分析データ群として抽出すればよい。   In the above description, in step 12, the analysis data group extraction unit 6 extracts only the other data group from the divided data groups as the next analysis data group, but also extracts the factor data group as the analysis data group. The series of processing from step 3 to step 11 may be repeated. What is necessary is just to extract at least one of a factor data group and another data group as a new analysis data group.

また、上記では、第2データ群DA2を不良品のデータ群とし、不良の要因を抽出するデータ分析例を示したが、第2データ群DA2を良品のデータ群とし、良品を得るための条件を抽出するデータ分析としてもよい。   In the above description, the second data group DA2 is used as a defective product data group, and a data analysis example for extracting the cause of the failure has been described. However, the second data group DA2 is used as a good data group, and conditions for obtaining a good product are shown. It is good also as data analysis which extracts.

以上で説明したデータ分析方法は、コンピュータが図2のS0〜S17(ステップ0〜17)に対応するプロセスを含むデータ分析プログラムを実行することによって実現できる。したがって、図1のデータ分析装置は、データ分析プログラムが、コンピュータを、文字−数値データ変換部2、分類条件設定部3、データ分類部4、分析データ群抽出部6、データ行分離部7、データ列抽出部8、頻度演算部9、頻度累積差演算部10、入力属性条件決定部11、不良品データ演算部12、頻度累積比率演算部14、データ分割部15、終了条件判定部16、要因決定部17、順位決定部13、複合要因不良数計算部18、数値−文字データ変換部19として機能させることにより実現することが可能である。   The data analysis method described above can be realized by the computer executing a data analysis program including processes corresponding to S0 to S17 (steps 0 to 17) in FIG. Therefore, in the data analysis apparatus of FIG. 1, the data analysis program includes a computer, a character-numeric data conversion unit 2, a classification condition setting unit 3, a data classification unit 4, an analysis data group extraction unit 6, a data row separation unit 7, Data string extraction unit 8, frequency calculation unit 9, frequency cumulative difference calculation unit 10, input attribute condition determination unit 11, defective product data calculation unit 12, frequency cumulative ratio calculation unit 14, data division unit 15, end condition determination unit 16, This can be realized by functioning as the factor determination unit 17, the rank determination unit 13, the complex factor defect number calculation unit 18, and the numerical value-character data conversion unit 19.

上記データ分析プログラムは、コンピュータで読み取り可能な記録媒体に格納してユーザに提供することができる。これにより、データ分析プログラムをコンピュータに容易に提供することができる。この記録媒体は、コンピュータ本体に内蔵された内蔵メディアであってもよいし、コンピュータ本体に対して分離可能に構成されたリムーバブル・メディアであってもよい。上記内蔵メディアとしては、ROM;フラッシュメモリ等の書き換え可能な不揮発性メモリ;ハードディスク等が挙げられる。また、上記リムーバブル・メディアとしては、CD−ROM、DVD等の光記録媒体;MO等の光磁気記録媒体;フロッピー(登録商標)ディスク、カセットテープ、リムーバブル・ハードディスク等の磁気記録媒体;メモリカード等のような書き換え可能な不揮発性メモリを内蔵したメディア;ROMカセット等のようなROMを内蔵したメディア等が挙げられる。   The data analysis program can be stored in a computer-readable recording medium and provided to the user. Thereby, the data analysis program can be easily provided to the computer. The recording medium may be a built-in medium built in the computer main body, or a removable medium configured to be separable from the computer main body. Examples of the built-in medium include ROM; rewritable nonvolatile memory such as flash memory; and hard disk. The removable media includes optical recording media such as CD-ROM and DVD; magneto-optical recording media such as MO; magnetic recording media such as floppy (registered trademark) disks, cassette tapes and removable hard disks; memory cards and the like. Examples of the medium include a rewritable non-volatile memory such as a medium; a medium including a ROM such as a ROM cassette.

上記プログラムは、CPUのアクセスにより実行される構成であってもよいし、記録媒体に格納されているプログラムを読み出し、読み出したプログラムを内蔵メディアのプログラム記憶領域に転送した後、内蔵メディア上のプログラムがCPUのアクセスにより実行される構成であってもよい。また、上記プログラムは、コンピュータで読み取り可能な記録媒体に格納された状態で販売されるものに限定されるものではなく、インターネット等の通信ネットワークを介してユーザのコンピュータに転送する形式で販売されるものであってもよい。   The program may be configured to be executed by CPU access, or after reading the program stored in the recording medium and transferring the read program to the program storage area of the built-in medium, the program on the built-in medium May be executed by CPU access. Further, the program is not limited to a program that is sold in a state of being stored in a computer-readable recording medium, but is sold in a format that is transferred to a user's computer via a communication network such as the Internet. It may be a thing.

〔変形例1〕
第1の実施形態のステップ13において、要因決定部17は、不良品分離度を指標として、同一の入力属性における複数の入力属性条件(表42)のうちで、問題事象の要因(不良品の第2データ群DA2に対応する出力属性条件が発生する要因)としての重要度(優先度)の高い条件を選択していた。上記したように、この指標としては不良品分離度(第2データ群分離度)が好適であるが、以下のような指標を用いても、第1の実施形態と類似の効果を得る事ができる。
[Modification 1]
In step 13 of the first embodiment, the factor determination unit 17 uses the defect separation degree as an index, and among the plurality of input attribute conditions (Table 42) for the same input attribute, the cause of the problem event (defective product A condition having a high degree of importance (priority) is selected as a factor that causes an output attribute condition corresponding to the second data group DA2. As described above, a defective product separation degree (second data group separation degree) is suitable as this index, but even if the following index is used, an effect similar to that of the first embodiment can be obtained. it can.

すなわち、要因決定部17は、同一の入力属性における複数の入力属性条件の中で、不良数(第2データ群該当数)の大きい順に点数が高くなるように与えられた第1の配点と、不良品分離度(第2データ群分離度)の大きい順に点数が高くなるように与えられた第2の配点との合計点を指標とし、この合計点が最大となる入力属性条件を、優先度(問題事象の要因としての重要度)の高い条件として選択するようにしてもよい。但し、本変形例により選択された、ある入力属性の入力属性条件は、第1の実施形態に比べて、外乱の影響(他の入力属性の影響)を強く受けている恐れがある。したがって、外乱の影響によって、問題事象の要因を正確に抽出できない恐れがある。   That is, the factor determination unit 17 includes a first scoring that is given so that the score increases in descending order of the number of defects (corresponding to the second data group) among a plurality of input attribute conditions in the same input attribute, Using the total score with the second score given so that the score increases in descending order of the defective product separation degree (second data group separation degree), the input attribute condition that maximizes the total point is assigned the priority. You may make it select as conditions with high (importance as a factor of a problem event). However, there is a possibility that the input attribute condition of a certain input attribute selected according to this modification is strongly influenced by disturbance (the influence of other input attributes) as compared with the first embodiment. Therefore, the cause of the problem event may not be accurately extracted due to the influence of the disturbance.

なお、要因決定部17は、同一の入力属性における複数の入力属性条件の中で、不良数(第2データ群該当数)が最大となる入力属性条件を、優先度(問題事象の要因としての重要度)の高い条件として選択するようにしてもよい。但し、このようにして選択された入力属性条件は、変形例1よりも外乱の影響(他の入力属性の影響)をさらに強く受けている恐れがある。したがって、外乱の影響によって、問題事象の要因を正確に抽出できない可能性がより高くなる。   The factor determining unit 17 selects the input attribute condition that maximizes the number of defects (corresponding to the second data group) among the plurality of input attribute conditions for the same input attribute as the priority (the factor of the problem event). You may make it select as a condition with high importance. However, there is a possibility that the input attribute condition selected in this way is more strongly affected by disturbances (effects of other input attributes) than the first modification. Therefore, there is a higher possibility that the cause of the problem event cannot be accurately extracted due to the influence of the disturbance.

〔変形例2〕
第1の実施形態のステップ7では、分析データ群の入力属性に関わる入力属性条件の各々について、「入力属性が当該入力属性条件を満たせば第2データ群に属するデータであり、入力属性が当該入力属性条件を満たさなければ第1データ群に属するデータである」という第1の相関ルールの確からしさを表す、入力属性条件評価指標として、xj頻度累積差を演算していた。
[Modification 2]
In step 7 of the first embodiment, for each input attribute condition related to the input attribute of the analysis data group, “if the input attribute satisfies the input attribute condition, the data belongs to the second data group, and the input attribute The xj frequency cumulative difference was calculated as an input attribute condition evaluation index representing the certainty of the first association rule that the data belongs to the first data group if the input attribute condition is not satisfied.

上記したように、計算負荷軽減や演算速度向上の観点からは、xj頻度累積差を用いる事が好ましいが、計算負荷や演算速度を問題視しなければ、非特許文献1に記載のGiniインデックス法の改善度を、入力属性条件評価指標として用いてもよい。   As described above, it is preferable to use the xj frequency cumulative difference from the viewpoint of reducing the calculation load and improving the calculation speed. However, if the calculation load and the calculation speed are not considered as problems, the Gini index method described in Non-Patent Document 1 is used. May be used as an input attribute condition evaluation index.

この場合には、入力属性条件評価指標を演算する第1の評価手段として、第1の実施形態のデータ分析装置におけるデータ行分離部7、データ列抽出部8、頻度演算部9、頻度累積差演算部10に替えて、図13に示すように、Gini改善度計算部101、および、極性判定部102を設ければよい。また、文字−数値データ変換部2と数値−文字データ変換部19は不要である。   In this case, as the first evaluation means for calculating the input attribute condition evaluation index, the data row separation unit 7, the data string extraction unit 8, the frequency calculation unit 9, the frequency cumulative difference in the data analysis apparatus of the first embodiment. Instead of the calculation unit 10, as shown in FIG. 13, a Gini improvement degree calculation unit 101 and a polarity determination unit 102 may be provided. Further, the character-numeric data conversion unit 2 and the numeric-character data conversion unit 19 are unnecessary.

Gini改善度計算部101は、分析データ群の入力属性が取り得る全ての分岐条件の各々に対して、(2)式(図15〜図18)と同様の改善度の計算を行なう。   The Gini improvement degree calculation unit 101 calculates the improvement degree similar to the equation (2) (FIGS. 15 to 18) for each of all branch conditions that can be taken by the input attribute of the analysis data group.

また、極性判定部102は、ノードを2つの子ノードに分けた場合に、何れのノードが第2データ群に対応するかを判定し、第2データ群に対応する条件のみを、このときの改善度(入力属性条件評価指標)と併せて、入力属性条件決定部11に送る。図15における「x1=A,Bと、x1=C,Dとの分岐」を例にとると、第1データ群に対応する「x1=A,B」は入力属性条件決定部11に送らず、第2データ群に対応する「x1=C,D」のみを、このときの改善度(入力属性条件評価指標)と併せて、入力属性条件決定部11に送る。なお、極性判定部102が判定する、第2データ群に対応する条件は、y=Yなる確率が大きい方のノードの条件とすればよい。   In addition, when the node is divided into two child nodes, the polarity determination unit 102 determines which node corresponds to the second data group, and determines only the condition corresponding to the second data group at this time. Together with the degree of improvement (input attribute condition evaluation index), it is sent to the input attribute condition determination unit 11. Taking “branch between x1 = A, B and x1 = C, D” in FIG. 15 as an example, “x1 = A, B” corresponding to the first data group is not sent to the input attribute condition determination unit 11. Only “x1 = C, D” corresponding to the second data group is sent to the input attribute condition determination unit 11 together with the improvement degree (input attribute condition evaluation index) at this time. Note that the condition corresponding to the second data group determined by the polarity determination unit 102 may be a condition of a node having a higher probability of y = Y.

本変形例によるデータ分析方法は、第1の実施形態におけるステップ0、ステップ16の処理を省略している点、および、ステップ4〜ステップ7の処理を、Gini改善度計算部101および極性判定部102による処理に変更している点以外は、第1の実施形態と同様である。なお、本変形例のステップ8では、入力属性条件決定部11が、各入力属性xjについて、それぞれ、最大の改善度(入力属性条件評価指標)を持つ入力属性条件を、第1の相関ルールを満たす入力属性条件として決定する。また、本変形例のステップ10では、頻度累積比率演算部14が、入力属性条件決定部11で決定された各入力属性条件における入力属性閾値xj−thに対して、1−xj頻度累積%と2−xj頻度累積%とを演算し、その演算結果を用いて、頻度累積下比率または頻度累積上比率(分割ルール評価値)を演算する。
本変形例では、計算負荷や演算速度において第1の実施形態に劣るが、基本データ群中の文字データを数値データに変換する処理(ステップ0)を行なわなくて済むという長所がある。
In the data analysis method according to the present modification, the steps 0 and 16 in the first embodiment are omitted, and the steps 4 to 7 are performed using the Gini improvement degree calculation unit 101 and the polarity determination unit. The second embodiment is the same as the first embodiment except that the processing is changed to 102. In step 8 of the present modification, the input attribute condition determination unit 11 determines the input attribute condition having the maximum improvement (input attribute condition evaluation index) for each input attribute xj as the first correlation rule. It is determined as an input attribute condition to be satisfied. In Step 10 of this modification, the frequency cumulative ratio calculating unit 14 sets 1-xj frequency cumulative% to the input attribute threshold value xj-th in each input attribute condition determined by the input attribute condition determining unit 11. 2-xj frequency cumulative% is calculated, and the frequency cumulative lower ratio or frequency cumulative upper ratio (division rule evaluation value) is calculated using the calculation result.
Although this modification is inferior to the first embodiment in calculation load and calculation speed, there is an advantage that it is not necessary to perform processing (step 0) for converting character data in the basic data group into numerical data.

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。   The present invention is not limited to the above-described embodiments, and various modifications are possible within the scope shown in the claims, and embodiments obtained by appropriately combining technical means disclosed in different embodiments. Is also included in the technical scope of the present invention.

本発明は、分析対象である出力属性(目的属性)、例えば製造工程で製造される製品の特性と、該出力属性に影響を与える属性である入力属性(説明属性)、例えば製造プロセス条件等との因果関係の分析に適用することができ、例えば製造工程の改良に利用できる。   The present invention relates to an output attribute (object attribute) to be analyzed, for example, characteristics of a product manufactured in a manufacturing process, and an input attribute (description attribute) that is an attribute affecting the output attribute, for example, a manufacturing process condition, etc. It can be applied to the analysis of the causal relationship of, for example, it can be used for improving the manufacturing process.

本発明の一実施形態に係るデータ分析装置の構成を示すブロック図である。It is a block diagram which shows the structure of the data analyzer which concerns on one Embodiment of this invention. 本発明の一実施形態に係るデータ分析方法を示すフローチャートである。It is a flowchart which shows the data analysis method which concerns on one Embodiment of this invention. 本発明の一実施形態に係るデータ分析装置における頻度累積差演算部10(ステップ7)の出力の一例をグラフで表したもので、入力属性x1の値と、良品の1−x1頻度累積%(A)、不良品の2−x1頻度累積%(B)、第1のx1頻度累積差(B−A)、第2のx1頻度累積差(A−B)との関係を示す。FIG. 6 is a graph showing an example of the output of the frequency cumulative difference calculation unit 10 (step 7) in the data analysis apparatus according to the embodiment of the present invention, and the value of the input attribute x1 and the non-defective 1-x1 frequency cumulative% ( A) shows the relationship between 2-x1 frequency cumulative% (B) of defective products, first x1 frequency cumulative difference (BA), and second x1 frequency cumulative difference (AB). 本発明の一実施形態に係るデータ分析装置における頻度累積差演算部10(ステップ7)の出力の一例をグラフで表したもので、入力属性x2の値と、良品の1−x2頻度累積%(A)、不良品の2−x2頻度累積%(B)、第1のx2頻度累積差(B−A)、第2のx2頻度累積差(A−B)との関係を示す。The graph of an example of the output of the frequency accumulation difference calculating part 10 (step 7) in the data analyzer which concerns on one Embodiment of this invention is represented with the value of the input attribute x2, and 1-x2 frequency accumulation% (non-defective product). A) shows the relationship between 2-x2 frequency cumulative percentage (B) of defective products, first x2 frequency cumulative difference (BA), and second x2 frequency cumulative difference (AB). 本発明の一実施形態に係るデータ分析装置における頻度累積差演算部10(ステップ7)の出力の一例をグラフで表したもので、入力属性x3の値と、良品の1−x3頻度累積%(A)、不良品の2−x3頻度累積%(B)、第1のx3頻度累積差(B−A)、第2のx3頻度累積差(A−B)との関係を示す。FIG. 6 is a graph showing an example of the output of the frequency cumulative difference calculation unit 10 (step 7) in the data analysis apparatus according to the embodiment of the present invention, and the value of the input attribute x3 and the non-defective 1-x3 frequency cumulative% ( A) shows the relationship between 2-x3 frequency cumulative% (B) of defective products, first x3 frequency cumulative difference (BA), and second x3 frequency cumulative difference (AB). 本発明の一実施形態に係るデータ分析装置における頻度累積差演算部10(ステップ7)の出力の一例をグラフで表したもので、入力属性x4の値と、良品の1−x4頻度累積%(A)、不良品の2−x4頻度累積%(B)、第1のx4頻度累積差(B−A)、第2のx4頻度累積差(A−B)との関係を示す。FIG. 6 is a graph showing an example of the output of the frequency cumulative difference calculation unit 10 (step 7) in the data analysis apparatus according to the embodiment of the present invention, and the value of the input attribute x4 and the non-defective 1-x4 frequency cumulative% ( A) shows the relationship between 2-x4 frequency cumulative% (B) of defective products, first x4 frequency cumulative difference (BA), and second x4 frequency cumulative difference (AB). (a)〜(d)は、本発明の一実施形態に係るデータ分析装置における不良品データ演算部12(ステップ9)で出力されるデータの一例(表35)を、ベン図で表現した図である。(A)-(d) is the figure which expressed an example (Table 35) of the data output by the inferior goods data calculating part 12 (step 9) in the data analyzer which concerns on one Embodiment of this invention with the Venn diagram. is there. 本発明の一実施形態に係るデータ分析方法における、入力属性条件決定(ステップ8)、および要因決定(ステップ13)の過程を、決定木の形式で表現した図である。It is the figure which expressed the process of the input attribute condition determination (step 8) and the factor determination (step 13) in the data analysis method which concerns on one Embodiment of this invention in the form of a decision tree. 本発明の一実施形態に係るデータ分析装置における順位決定部13(ステップ14)が、決定要因一覧テーブル(表46)を第1の配点の高い順に並べ替え、要因内訳パレート図として表示した結果で、各入力属性条件に対する不良数(第2データ群該当数)を棒グラフで、不良品分離度(第2データ群分離度)を折れ線グラフで表現した図である。The ranking determination unit 13 (step 14) in the data analysis apparatus according to the embodiment of the present invention rearranges the determination factor list table (Table 46) in descending order of the first score and displays the result as a factor breakdown Pareto chart. FIG. 5 is a diagram in which the number of defects (second data group hit count) for each input attribute condition is represented by a bar graph, and the defective product separation degree (second data group separation degree) is represented by a line graph. 本発明の一実施形態に係るデータ分析装置における順位決定部13(ステップ14)が、決定要因一覧テーブル(表46)を第2の配点の高い順に並べ替え、要因内訳パレート図として表示した結果で、各入力属性条件に対する不良数(第2データ群該当数)を棒グラフで、不良品分離度(第2データ群分離度)を折れ線グラフで表現した図である。The ranking determination unit 13 (step 14) in the data analysis apparatus according to the embodiment of the present invention rearranges the determination factor list table (Table 46) in descending order of the second score and displays the result as a factor breakdown Pareto chart. FIG. 5 is a diagram in which the number of defects (second data group hit count) for each input attribute condition is represented by a bar graph, and the defective product separation degree (second data group separation degree) is represented by a line graph. 本発明の一実施形態に係るデータ分析装置における順位決定部13(ステップ14)が、決定要因一覧テーブル(表46)を、第1の配点と第2の配点との合計点が高い順に並べ替え、要因内訳パレート図として表示した結果で、各入力属性条件に対する不良数(第2データ群該当数)を棒グラフで、不良品分離度(第2データ群分離度)を折れ線グラフで表現した図である。The rank determination unit 13 (step 14) in the data analysis apparatus according to the embodiment of the present invention rearranges the determination factor list table (Table 46) in descending order of the total score of the first and second score points. The result is displayed as a factor breakdown Pareto chart, and the number of defects for each input attribute condition (number of corresponding second data groups) is represented by a bar graph and the degree of defective product separation (second data group separation degree) is represented by a line graph. is there. 本発明の一実施形態に係るデータ分析装置における複合要因不良数計算部18(ステップ15)で出力されるデータの一例(表47)を用い、各入力属性条件に対する不良数(第2データ群該当数)を棒グラフで、不良品分離度(第2データ群分離度)を折れ線グラフで表現した図で、第1の要因(「x1>2」、すなわち「x1=C or D」)との複合要因による不良数に、ハッチングを付けて示している。Using the example (Table 47) of data output from the composite factor defect number calculation unit 18 (step 15) in the data analysis apparatus according to the embodiment of the present invention, the number of defects for each input attribute condition (corresponding to the second data group) (Number) is a bar graph and defective product separation degree (second data group separation degree) is a line graph, which is a combination of the first factor (“x1> 2”, ie, “x1 = C or D”) The number of defects due to the factor is shown with hatching. 本発明の変形例2に係るデータ分析装置の構成を示すブロック図である。It is a block diagram which shows the structure of the data analyzer which concerns on the modification 2 of this invention. 従来の決定木を表す図である。It is a figure showing the conventional decision tree. 非特許文献1に記載の従来技術であるGiniインデックス法を説明するグラフで、表1のデータ群を題材として、入力属性x1の分岐条件と、Giniインデックス法の改善度との関係を示すグラフである。It is a graph explaining the Gini index method which is the prior art described in Non-Patent Document 1, and shows the relationship between the branch condition of the input attribute x1 and the improvement degree of the Gini index method using the data group of Table 1 as the subject. is there. 非特許文献1に記載の従来技術であるGiniインデックス法を説明するグラフで、表1のデータ群を題材として、入力属性x2の分岐条件と、Giniインデックス法の改善度との関係を示すグラフである。It is a graph explaining the Gini index method which is the prior art described in Non-Patent Document 1, and shows the relationship between the branch condition of the input attribute x2 and the improvement degree of the Gini index method using the data group of Table 1 as the subject. is there. 非特許文献1に記載の従来技術であるGiniインデックス法を説明するグラフで、表1のデータ群を題材として、入力属性x3の分岐条件と、Giniインデックス法の改善度との関係を示すグラフである。It is a graph explaining the Gini index method which is the prior art described in Non-Patent Document 1, and shows the relationship between the branch condition of the input attribute x3 and the improvement degree of the Gini index method using the data group of Table 1 as a subject. is there. 非特許文献1に記載の従来技術であるGiniインデックス法を説明するグラフで、表1のデータ群を題材として、入力属性x4の分岐条件と、Giniインデックス法の改善度との関係を示すグラフである。It is a graph explaining the Gini index method which is the prior art described in Non-Patent Document 1, and shows the relationship between the branch condition of the input attribute x4 and the improvement degree of the Gini index method using the data group of Table 1 as the subject. is there.

符号の説明Explanation of symbols

1 基本データ群格納部
2 文字−数値データ変換部
3 分類条件設定部(分類条件設定手段)
4 データ分類部(分類手段)
5 分類後基本データ群格納部
6 分析データ群抽出部(分析データ群抽出手段)
7 データ行分離部(第1の評価手段)
8 データ列抽出部(第1の評価手段)
9 頻度演算部(第1の評価手段、頻度演算手段)
10 頻度累積差演算部(第1の評価手段、差分演算手段)
11 入力属性条件決定部(入力属性条件決定手段)
12 不良品データ演算部
13 順位決定部(順位決定手段)
14 頻度累積比率演算部(第2の評価手段)
15 データ分割部(分割手段)
16 終了条件判定部(終了条件判定手段)
17 要因決定部(要因決定手段)
18 複合要因不良数計算部
19 数値−文字データ変換部
20 分析結果データ格納部
21 出力部
101 Gini改善度計算部
102 極性判定部
1 basic data group storage unit 2 character-numeric data conversion unit 3 classification condition setting unit (classification condition setting means)
4 Data classification part (classification means)
5 Basic data group storage after classification 6 Analysis data group extraction unit (analysis data group extraction means)
7 Data row separator (first evaluation means)
8 Data string extraction unit (first evaluation means)
9 Frequency calculator (first evaluation means, frequency calculation means)
10 Frequency cumulative difference calculation unit (first evaluation means, difference calculation means)
11 Input attribute condition determining unit (input attribute condition determining means)
12 Defective product data calculation section 13 Rank determination section (rank determination means)
14 Frequency cumulative ratio calculation unit (second evaluation means)
15 Data division unit (division means)
16 End condition determination unit (end condition determination means)
17 Factor determination unit (factor determination means)
18 Compound factor failure number calculation unit 19 Numerical value-character data conversion unit 20 Analysis result data storage unit 21 Output unit 101 Gini improvement degree calculation unit 102 Polarity determination unit

Claims (17)

複数の入力属性と出力属性とで構成されるデータの集合である基本データ群に対して、前記入力属性と前記出力属性との因果関係を分析し、前記因果関係を示す情報を抽出するデータ分析装置であって、
前記基本データ群を、前記出力属性の値に依って、第1データ群と第2データ群とに分類し、分類フラグを付与する分類手段と、
前記分類手段による分類後の前記基本データ群の中から、分析の対象とする分析データ群を抽出する分析データ群抽出手段と、
前記分析データ群の各々の前記入力属性に関わる入力属性条件の各々について、「該入力属性条件とその排他的条件とによる前記分析データ群の切り分けによって前記第1データ群と前記第2データ群とがそれぞれまとまり、前記入力属性が当該入力属性条件を満たせば、前記分析データ群中の前記第2データ群に属するデータであり、前記入力属性が当該入力属性条件を満たさなければ、前記分析データ群中の前記第1データ群に属するデータである」という第1の相関ルールの確からしさを表す、入力属性条件評価指標を演算する第1の評価手段と、
前記分析データ群の各々の前記入力属性について、それぞれ、最大の前記入力属性条件評価指標を持つ入力属性条件を、前記第1の相関ルールを満たす入力属性条件として決定する入力属性条件決定手段と、
前記入力属性条件決定手段で決定された複数の前記入力属性条件の少なくとも一部に対して、前記基本データ群中で該入力属性条件を満たし、かつ、前記第2データ群に該当するデータの個数を表す第2データ群該当数、および、前記基本データ群中で該入力属性条件を満たすデータの中における、前記第2データ群に該当するデータ個数の割合を表す第2データ群分離度の少なくとも一方を指標として、前記第2データ群に対応する出力属性条件の要因としての重要度による順位付けを行う順位決定手段とを含むことを特徴とするデータ分析装置。
Data analysis for analyzing a causal relationship between the input attribute and the output attribute and extracting information indicating the causal relationship with respect to a basic data group that is a set of data composed of a plurality of input attributes and output attributes A device,
Classifying means for classifying the basic data group into a first data group and a second data group according to the value of the output attribute, and assigning a classification flag;
Analysis data group extraction means for extracting an analysis data group to be analyzed from the basic data group after classification by the classification means;
For each of the input attribute conditions related to the input attribute of each of the analysis data groups, “the first data group and the second data group by dividing the analysis data group according to the input attribute condition and its exclusive condition; If the input attribute satisfies the input attribute condition, the data belongs to the second data group in the analysis data group. If the input attribute does not satisfy the input attribute condition, the analysis data group A first evaluation means for calculating an input attribute condition evaluation index, which represents the probability of the first association rule that the data belongs to the first data group in
Input attribute condition determining means for determining an input attribute condition having the maximum input attribute condition evaluation index as an input attribute condition satisfying the first correlation rule for each of the input attributes of the analysis data group;
The number of data satisfying the input attribute condition in the basic data group and corresponding to the second data group with respect to at least a part of the plurality of input attribute conditions determined by the input attribute condition determining means And at least a second data group separation degree representing a ratio of the number of data corresponding to the second data group in data satisfying the input attribute condition in the basic data group A data analysis apparatus comprising: a rank determining unit that ranks according to importance as a factor of an output attribute condition corresponding to the second data group using one as an index.
前記入力属性条件決定手段で決定された前記入力属性条件の各々について、「前記入力属性が当該入力属性条件を満たせば、前記分析データ群中の前記第2データ群に含まれるデータである」という第2の相関ルールの確からしさを表す分割ルール評価値を演算する第2の評価手段と、
前記入力属性条件決定手段で決定された前記入力属性条件の中で、最大の前記分割ルール評価値を持つ入力属性条件に基づいて、前記分析データ群を、該入力属性条件を満たす要因データ群と、該入力属性条件を満たさない他データ群とに分割する分割手段と、
前記入力属性条件決定手段で決定された前記入力属性条件の中から、前記第2データ群に対応する出力属性条件の要因としての重要度の高い入力属性条件を選定する要因決定手段と、をさらに含み、
前記分析データ群抽出手段は、前記分割手段で分割されたデータ群のうちの少なくとも一方を新たな分析データ群として抽出し、
該分析データ群抽出手段による処理、前記第1の評価手段による処理、前記入力属性条件決定手段による処理、前記第2の評価手段による処理、および、前記分割手段による処理からなる一連の処理が繰り返し実行されるようになっており、
前記入力属性条件決定手段は、前記の繰り返しの処理によって、前記入力属性の各々に対して、それぞれ複数の入力属性条件を決定するようになっており、
前記要因決定手段は、前記入力属性の各々に対して、それぞれ、前記入力属性条件決定手段によって決定された複数の入力属性条件の中から、前記第2データ群に対応する出力属性条件の要因としての重要度の高い入力属性条件を選定し、
前記順位決定手段は、前記入力属性条件決定手段で決定された前記入力属性条件の一部である、前記要因決定手段で選定された複数の前記入力属性条件に対して、前記順位付けを行うものであることを特徴とする請求項1に記載のデータ分析装置。
For each of the input attribute conditions determined by the input attribute condition determining means, “if the input attribute satisfies the input attribute condition, the data is included in the second data group in the analysis data group”. Second evaluation means for calculating a division rule evaluation value representing the probability of the second association rule;
Among the input attribute conditions determined by the input attribute condition determining means, based on the input attribute condition having the largest division rule evaluation value, the analysis data group is a factor data group that satisfies the input attribute condition Dividing means for dividing the data into other data groups that do not satisfy the input attribute condition;
Factor determining means for selecting an input attribute condition having high importance as a factor of the output attribute condition corresponding to the second data group from the input attribute conditions determined by the input attribute condition determining means; Including
The analysis data group extraction means extracts at least one of the data groups divided by the division means as a new analysis data group,
A series of processes consisting of processing by the analysis data group extraction means, processing by the first evaluation means, processing by the input attribute condition determination means, processing by the second evaluation means, and processing by the dividing means are repeated. To be executed,
The input attribute condition determining means is configured to determine a plurality of input attribute conditions for each of the input attributes by the above iterative process,
The factor determination means is a factor of an output attribute condition corresponding to the second data group from among a plurality of input attribute conditions determined by the input attribute condition determination means for each of the input attributes. Select input attribute conditions with high importance,
The rank determining means ranks the plurality of input attribute conditions selected by the factor determining means, which are part of the input attribute conditions determined by the input attribute condition determining means. The data analysis apparatus according to claim 1, wherein:
前記入力属性条件決定手段によって決定される複数の入力属性条件は、「入力属性が閾値以下である」という第1のパターンと、「入力属性が閾値を超える」という第2のパターンとを含み、
前記要因決定手段は、
同一の入力属性における複数の入力属性条件のうち、前記第1のパターンの中で前記重要度の高い入力属性条件と、前記第2のパターンの中で前記重要度の高い入力属性条件とを選定するものであることを特徴とする請求項2に記載のデータ分析装置。
The plurality of input attribute conditions determined by the input attribute condition determining unit includes a first pattern that “the input attribute is equal to or less than a threshold value” and a second pattern that “the input attribute exceeds the threshold value”.
The factor determining means includes
Among the plurality of input attribute conditions in the same input attribute, the input attribute condition having the high importance level in the first pattern and the input attribute condition having the high importance level in the second pattern are selected. The data analysis apparatus according to claim 2, wherein
前記要因決定手段は、該選定の対象とする複数の入力属性条件の中で、前記第2データ群分離度が最大となる入力属性条件を、前記重要度の高い入力属性条件として選定するものであることを特徴とする請求項2または3に記載のデータ分析装置。   The factor determining means selects an input attribute condition that maximizes the second data group separation degree among the plurality of input attribute conditions to be selected as the highly important input attribute condition. The data analysis apparatus according to claim 2, wherein the data analysis apparatus is provided. 前記要因決定手段は、該選定の対象とする複数の入力属性条件の中で、前記第2データ群該当数の大きい順に点数が高くなるように与えられた第1の配点と、前記第2データ群分離度の大きい順に点数が高くなるように与えられた第2の配点との合計点が最大となる入力属性条件を、前記重要度の高い入力属性条件として選定するものであることを特徴とする請求項2または3に記載のデータ分析装置。   The factor determination means includes a first scoring system that gives a higher score in descending order of the number of hits in the second data group among a plurality of input attribute conditions to be selected, and the second data The input attribute condition that maximizes the total score with the second score given so that the score becomes higher in descending order of the group separation degree is selected as the input attribute condition having the highest importance. The data analysis apparatus according to claim 2 or 3. 前記順位決定手段は、
前記入力属性条件決定手段によって決定された複数の前記入力属性条件の少なくとも一部に対して、前記第2データ群該当数の大きい順に、前記順位付けを行うことを特徴とする請求項1〜5のいずれかに記載のデータ分析装置。
The rank determining means includes
6. The ranking is performed on at least a part of the plurality of input attribute conditions determined by the input attribute condition determining means in descending order of the number of corresponding second data groups. The data analysis apparatus according to any one of the above.
前記順位決定手段は、
前記入力属性条件決定手段によって決定された複数の前記入力属性条件の少なくとも一部に対して、前記第2データ群分離度の大きい順に、前記順位付けを行うことを特徴とする、請求項1〜5のいずれかに記載のデータ分析装置。
The rank determining means includes
The ranking is performed in order of descending second data group separation degree on at least a part of the plurality of input attribute conditions determined by the input attribute condition determining means. The data analysis device according to any one of 5.
前記順位決定手段は、
前記入力属性条件決定手段によって決定された複数の前記入力属性条件の少なくとも一部に対して、前記第2データ群該当数の大きい順に点数が高くなるように与えられた第1の配点と、前記第2データ群分離度の大きい順に点数が高くなるように与えられた第2の配点との合計点が大きい順に、前記順位付けを行うことを特徴とする請求項1〜5のいずれかに記載のデータ分析装置。
The rank determining means includes
A first scoring system that gives a higher score in descending order of the second data group hit count for at least some of the plurality of input attribute conditions determined by the input attribute condition determining means; 6. The ranking is performed according to any one of claims 1 to 5, wherein the ranking is performed in descending order of the total score with the second allocation point given so that the score increases in descending order of the second data group separation degree. Data analysis equipment.
前記分析データ群抽出手段は、前記分割手段で分割されたデータ群のうち前記他データ群のみを、新たな分析データ群として抽出するものであることを特徴とする請求項2に記載のデータ分析装置。   The data analysis according to claim 2, wherein the analysis data group extraction unit extracts only the other data group from the data group divided by the division unit as a new analysis data group. apparatus. 終了条件を満たしているか否かを判定する終了条件判定手段をさらに含み、
前記終了条件判定手段において終了条件を満たしていると判定されると、前記一連の処理の実行を終了するようになっており、
前記終了条件判定手段は、前記分析データ群抽出手段で抽出した前記分析データ群における前記第2データ群のデータ数が0であるかを終了条件として判定を行うものであることを特徴とする請求項9に記載のデータ分析装置。
It further includes an end condition determining means for determining whether or not the end condition is satisfied,
When it is determined that the end condition is satisfied by the end condition determining means, the execution of the series of processes ends.
The end condition determination unit is configured to determine whether the number of data of the second data group in the analysis data group extracted by the analysis data group extraction unit is 0 as an end condition. Item 10. The data analysis device according to Item 9.
前記分析データ群中の前記入力属性が全て数値属性であって、
前記第1の評価手段は、
各前記入力属性の全ての数値について、
前記分析データ群の前記第1データ群中において、前記入力属性がその数値以下であるデータ個数の割合を第1の頻度として演算すると共に、
前記分析データ群の前記第2データ群中において、前記入力属性がその数値以下であるデータ個数の割合を第2の頻度として演算する頻度演算手段と、
各前記入力属性の全ての数値について、
前記第1の頻度と前記第2の頻度との差分を前記入力属性条件評価指標として演算する差分演算手段とを含むことを特徴とする請求項1または2に記載のデータ分析装置。
The input attributes in the analysis data group are all numeric attributes,
The first evaluation means includes
For all the numerical values of each said input attribute,
In the first data group of the analysis data group, the ratio of the number of data whose input attribute is less than or equal to the numerical value is calculated as a first frequency,
In the second data group of the analysis data group, a frequency calculation means for calculating, as a second frequency, a ratio of the number of data whose input attribute is less than or equal to the numerical value;
For all the numerical values of each said input attribute,
The data analysis apparatus according to claim 1, further comprising a difference calculation unit that calculates a difference between the first frequency and the second frequency as the input attribute condition evaluation index.
前記第2の評価手段は、
前記入力属性条件決定手段で決定された前記入力属性条件の各々について、
前記分析データ群の前記第1データ群中で該入力属性条件を満たすデータ個数の割合に対する、前記分析データ群の前記第2データ群中で該入力属性条件を満たすデータ個数の割合の比率を、前記分割ルール評価値として演算するものであることを特徴とする請求項2に記載のデータ分析装置。
The second evaluation means includes
For each of the input attribute conditions determined by the input attribute condition determination means,
The ratio of the ratio of the number of data satisfying the input attribute condition in the second data group of the analysis data group to the ratio of the number of data satisfying the input attribute condition in the first data group of the analysis data group, The data analysis apparatus according to claim 2, wherein the data analysis apparatus calculates the division rule evaluation value.
分類条件を設定する分類条件設定手段をさらに含み、
前記分類手段は、前記出力属性の値と前記分類条件とに基づいて前記基本データ群を分類するようになっていることを特徴とする請求項1または2に記載のデータ分析装置。
It further includes a classification condition setting means for setting a classification condition,
The data analysis apparatus according to claim 1 or 2, wherein the classification unit classifies the basic data group based on the value of the output attribute and the classification condition.
請求項1に記載のデータ分析装置を用いて、複数の入力属性と出力属性とで構成されるデータの集合である基本データ群に対して、前記入力属性と前記出力属性との因果関係を分析し、前記因果関係を示す情報を抽出するデータ分析方法であって、
前記分類手段により、前記基本データ群を、前記出力属性の値に依って、第1データ群と第2データ群とに分類し、分類フラグを付与する分類ステップと、
前記分析データ群抽出手段により、前記分類手段による分類後の前記基本データ群の中から、分析の対象とする分析データ群を抽出する分析データ群抽出ステップと、
前記第1の評価手段により、前記分析データ群の各々の前記入力属性に関わる入力属性条件の各々について、「該入力属性条件とその排他的条件とによる前記分析データ群の切り分けによって前記第1データ群と前記第2データ群とがそれぞれまとまり、前記入力属性が当該入力属性条件を満たせば、前記分析データ群中の前記第2データ群に属するデータであり、前記入力属性が当該入力属性条件を満たさなければ、前記分析データ群中の前記第1データ群に属するデータである」という第1の相関ルールの確からしさを表す、入力属性条件評価指標を演算する第1の評価ステップと、
前記入力属性条件決定手段により、前記分析データ群の各々の前記入力属性について、それぞれ、最大の前記入力属性条件評価指標を持つ入力属性条件を、前記第1の相関ルールを満たす入力属性条件として決定する入力属性条件決定ステップと、
前記順位決定手段により、前記入力属性条件決定手段で決定された複数の前記入力属性条件の少なくとも一部に対して、前記基本データ群中で該入力属性条件を満たし、かつ、前記第2データ群に該当するデータの個数を表す第2データ群該当数、および、前記基本データ群中で該入力属性条件を満たすデータの中における、前記第2データ群に該当するデータ個数の割合を表す第2データ群分離度の少なくとも一方を指標として、前記第2データ群に対応する出力属性条件の要因としての重要度による順位付けを行う順位決定ステップとを含むことを特徴とするデータ分析方法。
The causal relationship between the input attribute and the output attribute is analyzed with respect to a basic data group that is a set of data composed of a plurality of input attributes and output attributes, using the data analysis device according to claim 1. And a data analysis method for extracting information indicating the causal relationship,
A classification step of classifying the basic data group into a first data group and a second data group according to the value of the output attribute, and assigning a classification flag by the classification means;
An analysis data group extraction step of extracting an analysis data group to be analyzed from the basic data group after classification by the classification means by the analysis data group extraction means;
For each of the input attribute conditions related to each of the input attributes of the analysis data group, the first evaluation means determines that the first data is separated by dividing the analysis data group by the input attribute condition and its exclusive condition. Group and the second data group, and if the input attribute satisfies the input attribute condition, the data belongs to the second data group in the analysis data group, and the input attribute satisfies the input attribute condition A first evaluation step for calculating an input attribute condition evaluation index that represents the probability of the first association rule that if it does not satisfy, the data belongs to the first data group in the analysis data group;
The input attribute condition determining means determines an input attribute condition having the maximum input attribute condition evaluation index as an input attribute condition satisfying the first correlation rule for each of the input attributes of the analysis data group. An input attribute condition determination step to be performed;
The order determination means satisfies the input attribute condition in the basic data group for at least a part of the plurality of input attribute conditions determined by the input attribute condition determination means, and the second data group A second data group corresponding number representing the number of data corresponding to the second data group, and a second data group representing a ratio of the number of data corresponding to the second data group among the data satisfying the input attribute condition in the basic data group And a ranking determination step of ranking by importance as an output attribute condition factor corresponding to the second data group using at least one of the data group separation degrees as an index.
前記入力属性は、製品の製造工程における製造プロセス条件および/またはインライン検査結果であり、
前記出力属性は、製品の品質判定結果であり、
前記第2データ群は、品質判定結果が不良のデータ群であることを特徴とする請求項14に記載のデータ分析方法。
The input attribute is a manufacturing process condition and / or an in-line inspection result in a product manufacturing process,
The output attribute is a product quality determination result,
The data analysis method according to claim 14, wherein the second data group is a data group with a poor quality determination result.
複数の入力属性と出力属性とで構成されるデータの集合である基本データ群に対して、前記入力属性と前記出力属性との因果関係を分析し、前記因果関係を示す情報を抽出するデータ分析プログラムであって、
コンピュータを、
前記基本データ群を、前記出力属性の値に依って、第1データ群と第2データ群とに分類し、分類フラグを付与する分類手段、
前記分類手段による分類後の前記基本データ群の中から、分析の対象とする分析データ群を抽出する分析データ群抽出手段、
前記分析データ群の各々の前記入力属性に関わる入力属性条件の各々について、「該入力属性条件とその排他的条件とによる前記分析データ群の切り分けによって前記第1データ群と前記第2データ群とがそれぞれまとまり、前記入力属性が当該入力属性条件を満たせば、前記分析データ群中の前記第2データ群に属するデータであり、前記入力属性が当該入力属性条件を満たさなければ、前記分析データ群中の前記第1データ群に属するデータである」という第1の相関ルールの確からしさを表す、入力属性条件評価指標を演算する第1の評価手段、
前記分析データ群の各々の前記入力属性について、それぞれ、最大の前記入力属性条件評価指標を持つ入力属性条件を、前記第1の相関ルールを満たす入力属性条件として決定する入力属性条件決定手段、
前記入力属性条件決定手段で決定された複数の前記入力属性条件の少なくとも一部に対して、前記基本データ群中で該入力属性条件を満たし、かつ、前記第2データ群に該当するデータの個数を表す第2データ群該当数、および、前記基本データ群中で該入力属性条件を満たすデータの中における、前記第2データ群に該当するデータ個数の割合を表す第2データ群分離度の少なくとも一方を指標として、前記第2データ群に対応する出力属性条件の要因としての重要度による順位付けを行う順位決定手段として機能させるためのデータ分析プログラム。
Data analysis for analyzing a causal relationship between the input attribute and the output attribute and extracting information indicating the causal relationship with respect to a basic data group that is a set of data composed of a plurality of input attributes and output attributes A program,
Computer
Classifying means for classifying the basic data group into a first data group and a second data group according to the value of the output attribute, and adding a classification flag;
Analysis data group extraction means for extracting an analysis data group to be analyzed from the basic data group after classification by the classification means;
For each of the input attribute conditions related to the input attribute of each of the analysis data groups, “the first data group and the second data group by dividing the analysis data group according to the input attribute condition and its exclusive condition; If the input attribute satisfies the input attribute condition, the data belongs to the second data group in the analysis data group. If the input attribute does not satisfy the input attribute condition, the analysis data group A first evaluation means for calculating an input attribute condition evaluation index that represents the probability of the first association rule that the data belongs to the first data group
Input attribute condition determining means for determining an input attribute condition having the maximum input attribute condition evaluation index as an input attribute condition satisfying the first correlation rule for each of the input attributes of the analysis data group;
The number of data satisfying the input attribute condition in the basic data group and corresponding to the second data group with respect to at least a part of the plurality of input attribute conditions determined by the input attribute condition determining means And at least a second data group separation degree representing a ratio of the number of data corresponding to the second data group in data satisfying the input attribute condition in the basic data group A data analysis program for functioning as a rank determining unit that ranks according to importance as a factor of an output attribute condition corresponding to the second data group using one as an index.
請求項16に記載のデータ分析プログラムを記録したコンピュータ読み取り可能な記録媒体。   The computer-readable recording medium which recorded the data analysis program of Claim 16.
JP2004222515A 2004-07-29 2004-07-29 Data analysis apparatus, data analysis method, and data analysis program Expired - Fee Related JP4368755B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004222515A JP4368755B2 (en) 2004-07-29 2004-07-29 Data analysis apparatus, data analysis method, and data analysis program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004222515A JP4368755B2 (en) 2004-07-29 2004-07-29 Data analysis apparatus, data analysis method, and data analysis program

Publications (2)

Publication Number Publication Date
JP2006040181A true JP2006040181A (en) 2006-02-09
JP4368755B2 JP4368755B2 (en) 2009-11-18

Family

ID=35905066

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004222515A Expired - Fee Related JP4368755B2 (en) 2004-07-29 2004-07-29 Data analysis apparatus, data analysis method, and data analysis program

Country Status (1)

Country Link
JP (1) JP4368755B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016103611A1 (en) * 2014-12-22 2016-06-30 日本電気株式会社 Factor analysis device, factor analysis method, and recording medium for program
JP2020144592A (en) * 2019-03-06 2020-09-10 富士通株式会社 Estimate program, device, and method

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016103611A1 (en) * 2014-12-22 2016-06-30 日本電気株式会社 Factor analysis device, factor analysis method, and recording medium for program
JPWO2016103611A1 (en) * 2014-12-22 2017-11-02 日本電気株式会社 Factor analysis device, factor analysis method, and program
JP2020144592A (en) * 2019-03-06 2020-09-10 富士通株式会社 Estimate program, device, and method
JP7383886B2 (en) 2019-03-06 2023-11-21 富士通株式会社 Estimation program, device, and method

Also Published As

Publication number Publication date
JP4368755B2 (en) 2009-11-18

Similar Documents

Publication Publication Date Title
Nagy et al. Predicting dropout in higher education based on secondary school performance
Iosifidis et al. Dealing with bias via data augmentation in supervised learning scenarios
CN114444986B (en) Product analysis method, system, device and medium
KR102178254B1 (en) Composite defect classifier
CN110928764B (en) Automated evaluation method for crowdsourcing test report of mobile application and computer storage medium
Chien et al. A system for online detection and classification of wafer bin map defect patterns for manufacturing intelligence
WO2023279696A1 (en) Service risk customer group identification method, apparatus and device, and storage medium
KR20140067065A (en) Chart recommendations
CN111461216A (en) Case risk identification method based on machine learning
JP2019106171A5 (en)
CN113177643A (en) Automatic modeling system based on big data
CN110471854B (en) Defect report assignment method based on high-dimensional data hybrid reduction
JP4368755B2 (en) Data analysis apparatus, data analysis method, and data analysis program
JP4298531B2 (en) Input attribute condition determination device, input attribute condition determination method, input attribute condition determination program, data analysis device, data analysis method, and data analysis program
JP4255779B2 (en) Data analysis apparatus, data analysis method, and data analysis program
CN112463894A (en) Multi-label feature selection method based on conditional mutual information and interactive information
JP4347099B2 (en) Data analysis apparatus, data analysis method, data analysis program, and recording medium
KR100727555B1 (en) Creating method for decision tree using time-weighted entropy and recording medium thereof
JP2006048183A (en) Data analyzing device and data analyzing program
CN114186644A (en) Defect report severity prediction method based on optimized random forest
JP5767836B2 (en) Inspection system, inspection method, and inspection program
DI NUNZIO Classification of animal experiments: A reproducible study. IMS unipd at CLEF ehealth task 1
CN117875262B (en) Data processing method based on management platform
CN113435655B (en) Sector dynamic management decision method, server and system
KR20070059015A (en) Creating method for decision tree using time-weighted entropy and recording medium thereof

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060912

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090602

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20090722

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090803

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090825

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090826

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120904

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130904

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees