JP4347099B2 - Data analysis apparatus, data analysis method, data analysis program, and recording medium - Google Patents

Data analysis apparatus, data analysis method, data analysis program, and recording medium Download PDF

Info

Publication number
JP4347099B2
JP4347099B2 JP2004075176A JP2004075176A JP4347099B2 JP 4347099 B2 JP4347099 B2 JP 4347099B2 JP 2004075176 A JP2004075176 A JP 2004075176A JP 2004075176 A JP2004075176 A JP 2004075176A JP 4347099 B2 JP4347099 B2 JP 4347099B2
Authority
JP
Japan
Prior art keywords
data group
data
input attribute
condition
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004075176A
Other languages
Japanese (ja)
Other versions
JP2005266969A (en
Inventor
博明 竹内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2004075176A priority Critical patent/JP4347099B2/en
Publication of JP2005266969A publication Critical patent/JP2005266969A/en
Application granted granted Critical
Publication of JP4347099B2 publication Critical patent/JP4347099B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

本発明は、分析対象である出力属性(目的属性)、例えば製造工程で製造される製品の特性等と、該出力属性に影響を与える属性である入力属性(説明属性)、例えば製造プロセス条件等との因果関係を分析するデータ分析装置およびデータ分析方法並びにデータ分析プログラムに関する。   The present invention provides an output attribute (object attribute) to be analyzed, such as characteristics of a product manufactured in a manufacturing process, and an input attribute (explanatory attribute) that is an attribute affecting the output attribute, such as a manufacturing process condition. The present invention relates to a data analysis apparatus, a data analysis method, and a data analysis program for analyzing a causal relationship with a data.

出力属性と入力属性との因果関係を分析する有効な手法としては、決定木手法が知られている(特許文献1参照)。この手法では、各入力属性の値で順次切り分けた葉の部分で、出力属性の値がうまくまとまるような木構造を作成する。   A decision tree technique is known as an effective technique for analyzing a causal relationship between an output attribute and an input attribute (see Patent Document 1). In this method, a tree structure is created in which the values of output attributes are well organized in leaf portions that are sequentially cut by the values of input attributes.

図11は、特許文献1の従来技術の項(特許文献1の段落[0002]〜[0005]および図22参照)に記載されている決定木の1例であり、表1のデータ群を分析対象としている。表1のデータ群は、x1,x2,x3,x4の4つの入力属性の値と、これら入力属性に対する出力属性yの値とを組とするデータを12個集めた集合である。この手法で作成される決定木(以下、「従来の決定木−1」と呼ぶ事にする)では、図11に示すように、出力属性yの値X,Y,Zが入力属性x1,x2,x3の各値によって、うまく切り分けられている。図11で、a,b,c,dはx2の値、1,2,3,4はx3の値、A,B,C,Dはx1の値である。   FIG. 11 is an example of a decision tree described in the prior art section of Patent Document 1 (see paragraphs [0002] to [0005] and FIG. 22 of Patent Document 1), and the data group in Table 1 is analyzed. It is targeted. The data group in Table 1 is a set in which twelve pieces of data including a set of four input attribute values x1, x2, x3, and x4 and a value of an output attribute y corresponding to these input attributes are collected. In a decision tree created by this method (hereinafter referred to as “conventional decision tree-1”), as shown in FIG. 11, the values X, Y, and Z of the output attribute y are input attributes x1, x2 , X3, each is well separated. In FIG. 11, a, b, c, and d are values of x2, 1, 2, 3, and 4 are values of x3, and A, B, C, and D are values of x1.

Figure 0004347099
Figure 0004347099

しかし、図11の従来の決定木−1においては、データを分類する際に、入力属性がとる値の数(属性値の種類数)だけのデータ集合に分類される。例えば、入力属性x2は4種類の値(a,b,c,d)をとるので、入力属性x2による分類により4つの集合に分類される。そのため、入力属性がとる値の数が増えると、決定木が煩雑になる可能性がある。   However, in the conventional decision tree-1 shown in FIG. 11, when data is classified, it is classified into data sets corresponding to the number of values (number of types of attribute values) taken by the input attribute. For example, since the input attribute x2 takes four types of values (a, b, c, d), it is classified into four sets by classification based on the input attribute x2. Therefore, if the number of values that the input attribute takes increases, the decision tree may become complicated.

この課題の解決策として、特許文献1では、各属性において、まとめられる属性値を1つのラベルで表現し、ラベルによりデータ分類する決定木を提案している。   As a solution to this problem, Patent Document 1 proposes a decision tree in which attribute values to be grouped are represented by one label for each attribute, and data is classified by the label.

図12(a)ないし(d)は、特許文献1の実施例(特許文献1の段落[0010]〜[0028]および図13参照)に記載のラベル階層である。この実施例では、例えば、4種の属性値(1,2,3,4)からなるx3属性について、x3属性値「1」「2」に「2.5以下」というラベルをつけ、および、x3属性値「3」「4」に「2.5以上」というラベルをつけて階層構造を表現している。このラベル階層構造を用いて作成される決定木(以下、この決定木を従来の決定木−2と呼ぶ事にする)は、図13(特許文献1の段落[0010]〜[0028]および図14参照)に示す如くであり、図11に示す従来の決定木−1に比べて、非常に簡潔である。
特開平8−314725号公報(公開日:平成8年(1996)11月29日) 大滝厚、堀江宥治、Dan Steinberg著「応用2進木解析法−CARTによる−」、日科技連、1998年7月6日発行、P44−P47
12A to 12D are label hierarchies described in Examples of Patent Document 1 (see paragraphs [0010] to [0028] and FIG. 13 of Patent Document 1). In this embodiment, for example, for the x3 attribute composed of four types of attribute values (1, 2, 3, 4), the x3 attribute values “1” and “2” are labeled “2.5 or less”, and The x3 attribute values “3” and “4” are labeled “2.5 or more” to represent the hierarchical structure. FIG. 13 (paragraphs [0010] to [0028] in FIG. 13 and FIG. 13 shows a decision tree created using this label hierarchical structure (hereinafter, this decision tree will be referred to as a conventional decision tree-2). 14), which is much simpler than the conventional decision tree-1 shown in FIG.
JP-A-8-314725 (Publication date: November 29, 1996) Atsushi Otaki, Yuji Horie, Dan Steinberg, "Applied binary tree analysis method-by CART-", Nikka Giren, July 6, 1998, P44-P47

従来の決定木−2(図13)を、デバイス等の製品の製造工程における製品特性不良の要因分析に応用する場合を題材にして、従来技術の課題を説明する。   The problem of the prior art will be described using the case where the conventional decision tree-2 (FIG. 13) is applied to cause analysis of product characteristic defects in the manufacturing process of a product such as a device.

いま、表1の入力属性x1,x2,x3,x4が製品製造工程における各種のプロセスデータやインライン検査データ、出力属性yが製造された製品の特性データであり、出力属性y=Yが製品特性不良に相当するものとする。そして、プロセス技術者が、製品特性不良y=Yに対し、特許文献1に記載された従来の決定木−2を用いて、製品特性不良の要因を調査するものとする。   Now, the input attributes x1, x2, x3, and x4 in Table 1 are various process data and in-line inspection data in the product manufacturing process, and the output attribute y is the product characteristic data. The output attribute y = Y is the product characteristic. It shall correspond to a defect. Then, it is assumed that the process engineer investigates the cause of the product characteristic defect using the conventional decision tree-2 described in Patent Document 1 for the product characteristic defect y = Y.

特許文献1の決定木−2(図13)では、上記のラベル階層による分類がなされているので、決定木が簡潔である。   In decision tree-2 (FIG. 13) of Patent Document 1, classification is performed according to the label hierarchy described above, so the decision tree is simple.

しかし、y=Yなる製品特性不良の条件は、
・「x2=c or d」
または、
・「x2=a or b」かつ「x3≧2.5」かつ「x1=C or D」
という階層構造の形式で、複数の箇所(この例では2箇所)に現われる。このため、具体的に、「各々の入力属性がどの値の範囲にあるから製品特性が悪いのか?」という製品特性不良の要因をプロセス技術者が判断しにくい。例えば、入力属性x2については、「x2=c or d」の場合と、「x2=a or b」の場合と、どちらの方が悪い条件なのか分かりにくい。また、「x1=C or D」という条件は、「x2=a or b」かつ「x3≧2.5」の条件との組み合わせの場合においてのみ不良の要因となり、他の場合には不良の要因とならないのか、判断し難い。
However, the condition of product characteristic failure where y = Y is
・ "X2 = c or d"
Or
“X2 = a or b” and “x3 ≧ 2.5” and “x1 = C or D”
It appears in a plurality of places (two places in this example) in the form of a hierarchical structure. For this reason, specifically, it is difficult for the process engineer to determine the cause of the product characteristic failure, such as “Which range of each input attribute is the product characteristic bad?”. For example, for the input attribute x2, it is difficult to understand which is the worse condition, “x2 = c or d” or “x2 = a or b”. Further, the condition “x1 = C or D” is a cause of failure only in the case of a combination with the conditions “x2 = a or b” and “x3 ≧ 2.5”, and the cause of failure in other cases. It is difficult to judge whether or not.

図13の例では、入力属性が4属性だけでかつ各属性値の種類も4つだけであるため決定木が簡潔であるが、製品製造工程の膨大なデータを用いると、y=Yなる製品特性不良が、決定木の至る所に現われ、また、同一の入力属性の異なる条件での分岐が何回も起こることも多い。   In the example of FIG. 13, the decision tree is simple because there are only four input attributes and only four types of attribute values. However, when enormous data of the product manufacturing process is used, a product with y = Y is used. Characteristic defects appear everywhere in the decision tree, and branching under the same input attribute under different conditions often occurs many times.

すなわち、従来の決定木−2では、「各々の分岐条件のうち、どの条件を不良の要因として抽出すれば良いか」の明確な指標がなく、製品特性不良の要因をプロセス技術者が判断しにくいという問題があった。   That is, in the conventional decision tree-2, there is no clear index of “which condition should be extracted as the cause of failure among the branch conditions”, and the process engineer determines the cause of the product characteristic failure. There was a problem that it was difficult.

さらに、第2の問題点として、図13に示す簡潔な決定木−2を作成するには、図12に示すラベル階層構造を予め定義しておく必要があり、特許文献1の決定木生成手法は、まとめられる属性値の見当がつかない場合には適用できない。実際のデバイスのような製品の製造現場では、1工程につき10〜100属性程度の、プロセスデータやインライン検査データがあり、しかも、その値は多値で非常に広い範囲で分布している。さらに、外乱(入力属性として検出できていない属性)の影響により、各入力属性の値が同じであっても、出力属性の値がばらつく事も多い。これらのような状況下で、各入力属性に対し、一つのラベルとしてまとめられる属性値を見出す事は、経験豊富なプロセス技術者であっても、非常に困難である。   Furthermore, as a second problem, in order to create the simple decision tree-2 shown in FIG. 13, it is necessary to predefine the label hierarchical structure shown in FIG. Is not applicable when there is no idea of the attribute values to be summarized. In a manufacturing site of a product such as an actual device, there are process data and in-line inspection data having about 10 to 100 attributes per process, and the values are multi-valued and distributed in a very wide range. Furthermore, due to the influence of disturbance (attributes that cannot be detected as input attributes), the values of output attributes often vary even if the values of the input attributes are the same. Under these circumstances, it is very difficult even for an experienced process engineer to find an attribute value that is collected as one label for each input attribute.

本発明は、上記従来の問題点を鑑みてなされたものであり、その第1の目的は、所定の出力属性の要因を明確な指標に基づいて抽出する、データ分析装置およびデータ分析方法並びにデータ分析プログラム、記録媒体を提供する事にある。また第2の目的は、ラベル階層構造を予め定義する事なく、簡潔な形で、出力属性と入力属性との因果関係を導き出せるデータ分析装置を提供する事にある。   The present invention has been made in view of the above-described conventional problems, and a first object thereof is to extract a factor of a predetermined output attribute based on a clear index, a data analysis method, a data analysis method, and data To provide analysis programs and recording media. A second object is to provide a data analysis apparatus capable of deriving a causal relationship between an output attribute and an input attribute in a simple form without defining a label hierarchical structure in advance.

本発明のデータ分析装置は、上記課題を解決するために、複数の入力属性と、出力属性とで構成されるデータの集合である基本データ群に対して、前記入力属性と前記出力属性との因果関係を分析し、前記因果関係を示す情報を抽出するデータ分析装置であって、前記基本データ群を、前記出力属性の値に依って、第1データ群と第2データ群とに分類し、分類フラグを付与する分類手段と、前記分類手段による分類後の前記基本データ群の中から、分析の対象とする分析データ群を抽出する分析データ群抽出手段と、前記分析データ群の各々の前記入力属性が取り得る全ての入力属性条件の各々について、「前記入力属性が当該入力属性条件を満たせば、前記分析データ群中の前記第2データ群に属するデータであり、前記入力属性が当該入力属性条件を満たさなければ、前記分析データ群中の前記第1データ群に属するデータである」という第1の相関ルールの確からしさを表す、入力属性条件評価指標を演算する第1の評価手段と、前記分析データ群の各々の前記入力属性について、それぞれ、最大の前記入力属性条件評価指標を持つ入力属性条件を、前記第1の相関ルールを満たす入力属性条件として決定する入力属性条件決定手段と、前記入力属性条件決定手段で決定された前記入力属性条件の各々について、前記基本データ群中で該入力属性条件を満たすデータの中に前記第2データ群が含まれるデータ個数の割合を表す、第2データ群分離度を演算する、第2データ群分離度演算手段と、前記入力属性条件決定手段で決定された前記入力属性条件の中で、前記基本データ群中に含まれる前記第2データ群のデータ個数の割合を表す第2データ群含有率よりも大きい値の、前記第2データ群分離度をもつ入力属性条件を、前記第2データ群に対応する出力属性条件の要因を示す情報として抽出する、要因抽出手段とを含むことを特徴としている。   In order to solve the above-described problem, the data analysis apparatus of the present invention provides a basic data group, which is a set of data composed of a plurality of input attributes and output attributes, for the input attributes and the output attributes. A data analysis apparatus for analyzing causal relationships and extracting information indicating the causal relationships, wherein the basic data group is classified into a first data group and a second data group according to the value of the output attribute. Each of each of the analysis data group, a classification means for assigning a classification flag, an analysis data group extraction means for extracting an analysis data group to be analyzed from the basic data group after classification by the classification means, and For each of all the input attribute conditions that can be taken by the input attribute, “if the input attribute satisfies the input attribute condition, the data belongs to the second data group in the analysis data group, and the input attribute First evaluation means for calculating an input attribute condition evaluation index representing the probability of the first association rule that the data belongs to the first data group in the analysis data group if the force attribute condition is not satisfied And an input attribute condition determining means for determining an input attribute condition having the maximum input attribute condition evaluation index as an input attribute condition satisfying the first correlation rule for each of the input attributes of the analysis data group And for each of the input attribute conditions determined by the input attribute condition determining means, the ratio of the number of data in which the second data group is included in the data satisfying the input attribute condition in the basic data group Among the input attribute conditions determined by the second data group separation degree computing means for calculating the second data group separation degree and the input attribute condition determining means, the basic data An input attribute condition having a second data group separation degree having a value larger than a second data group content ratio that represents a ratio of the number of data pieces of the second data group included in the data group is defined in the second data group. It includes a factor extracting means for extracting as information indicating the factor of the corresponding output attribute condition.

上記の発明によれば、分類手段が基本データ群を第1データ群と第2データ群とに分類し、分析データ群抽出手段が、分類後の基本データ群の中から入力属性と出力属性との因果関係を分析する対象とする分析データ群を抽出する。例えば第1データ群は良品の出力属性を有するデータ群であり、第2データ群は不良品などの問題事象を表す出力属性を有するデータ群である。   According to the above invention, the classification means classifies the basic data group into the first data group and the second data group, and the analysis data group extraction means selects the input attribute and output attribute from the classified basic data group. Analytical data group to analyze the causal relationship is extracted. For example, the first data group is a data group having a non-defective product output attribute, and the second data group is a data group having an output attribute representing a problem event such as a defective product.

第1の評価手段は、分析データ群の各々の入力属性が取り得る全ての入力属性条件の各々について、「入力属性が当該入力属性条件を満たせば、分析データ群中の第2データ群に属するデータであり、入力属性が当該入力属性条件を満たさなければ、分析データ群中の第1データ群に属するデータである」という第1の相関ルールの確からしさを表す入力属性条件評価指標を演算し、入力属性条件決定手段は、分析データ群の各々の入力属性について、それぞれ、最大の入力属性条件評価指標を持つ入力属性条件を、第1の相関ルールを満たす入力属性条件として決定する。第2データ群分離度演算手段は、入力属性条件決定手段で決定された前記入力属性条件の各々について、第2データ群分離度を演算する。   For each of all the input attribute conditions that can be taken by each input attribute of the analysis data group, the first evaluation means “if the input attribute satisfies the input attribute condition, it belongs to the second data group in the analysis data group Data, and if the input attribute does not satisfy the input attribute condition, the input attribute condition evaluation index indicating the probability of the first correlation rule is calculated as “data belonging to the first data group in the analysis data group”. The input attribute condition determining means determines the input attribute condition having the maximum input attribute condition evaluation index as the input attribute condition satisfying the first correlation rule for each input attribute of the analysis data group. The second data group separability calculating means calculates a second data group separability for each of the input attribute conditions determined by the input attribute condition determining means.

各入力属性条件の第2データ群分離度は、基本データ群中で該入力属性条件を満たすデータの中に第2データ群が含まれるデータ個数の割合を表しており、要因抽出手段が、入力属性条件決定手段で決定された前記入力属性条件の中で、基本データ群中に含まれる第2データ群のデータ個数の割合を表す第2データ群含有率よりも大きい値の、第2データ群分離度をもつ入力属性条件を、第2データ群に対応する出力属性条件の要因を示す情報として抽出する。   The second data group separation degree of each input attribute condition represents the ratio of the number of data in which the second data group is included in the data satisfying the input attribute condition in the basic data group. Of the input attribute conditions determined by the attribute condition determining means, the second data group having a value larger than the second data group content ratio representing the ratio of the number of data of the second data group included in the basic data group An input attribute condition having a degree of separation is extracted as information indicating a factor of an output attribute condition corresponding to the second data group.

データ分析装置はこのようにして、基本データ群に対して、入力属性と出力属性との因果関係を分析し、該因果関係を示す情報を抽出する。   In this way, the data analysis apparatus analyzes the causal relationship between the input attribute and the output attribute for the basic data group, and extracts information indicating the causal relationship.

上記の因果関係の分析では、要因抽出手段が、第2データ群分離度という明確な指標に基づいて、入力属性条件決定手段で決定された入力属性条件の中から、第2データ群に対応する出力属性条件の要因、すなわちデータが第2データ群となる入力属性条件を抽出している。従って、如何に複雑な決定木となろうとも、明確に第2データ群に対応する出力属性条件の要因を抽出することができる。例えば第2データ群の出力属性が不良品などの問題事象を表すものとすれば、第2データ群分離度は不良品切り出しの確度を示す不良品分離度となり、如何に複雑な決定木となろうとも、明確に問題事象の要因を把握することができる。   In the above causal analysis, the factor extracting unit corresponds to the second data group from among the input attribute conditions determined by the input attribute condition determining unit based on a clear index of the second data group separation degree. The factor of the output attribute condition, that is, the input attribute condition in which the data becomes the second data group is extracted. Therefore, no matter how complex the decision tree is, it is possible to clearly extract the factor of the output attribute condition corresponding to the second data group. For example, if the output attribute of the second data group represents a problem phenomenon such as a defective product, the second data group separation degree is a defective product separation degree indicating the accuracy of defective product extraction, and how complex the decision tree is. It is possible to clearly understand the cause of the problem phenomenon.

また、不良品分離度などの第2データ群分離度を評価指標としているから、要因抽出手段が抽出した複数の要因(入力属性条件)に対して、優先順位付けを行うことが可能となる。   Further, since the second data group separation degree such as the defective part separation degree is used as the evaluation index, it is possible to prioritize a plurality of factors (input attribute conditions) extracted by the factor extracting means.

さらに、要因抽出手段が、決定木における分岐条件以外の条件であっても、不良品分離度などの第2データ群分離度の高い条件を全て抽出しているから、分岐条件に競合因子が存在しても、その要因を逃すことなく、確実に捉えることができる。   Furthermore, even if the factor extraction means is a condition other than the branch condition in the decision tree, it extracts all conditions with a high degree of second data group separation such as defective product separation, so there are competing factors in the branch condition. Even so, you can catch it without fail.

以上により、所定の出力属性の要因を明確な指標に基づいて抽出するデータ分析装置を提供することができる。   As described above, it is possible to provide a data analysis apparatus that extracts a factor of a predetermined output attribute based on a clear index.

本発明のデータ分析装置は、上記課題を解決するために、前記入力属性条件決定手段で決定された前記入力属性条件の各々について、「前記入力属性が当該入力属性条件を満たせば、前記分析データ群中の前記第2データ群に含まれるデータである」という第2の相関ルールの確からしさを表す分割ルール評価値を演算する第2の評価手段と、前記入力属性条件決定手段で決定された前記入力属性条件の中で、最大の前記分割ルール評価値を持つ入力属性条件に基づいて、前記分析データ群を、該入力属性条件を満たす要因データ群と、該入力属性条件を満たさない他データ群とに分割する分割手段とをさらに含み、前記分析データ群抽出手段は、前記分割手段で分割された前記要因データ群と前記他データ群との少なくとも一方を新たな前記分析データ群として抽出し、該分析データ群抽出手段による処理、前記第1の評価手段による処理、前記入力属性条件決定手段による処理、前記第2データ群分離度演算手段による処理、前記要因抽出手段による処理、前記第2の評価手段による処理、および、前記分割手段による処理からなる一連の処理が繰り返し実行されるようになっていることを特徴としている。   In order to solve the above problem, the data analysis apparatus of the present invention provides, for each of the input attribute conditions determined by the input attribute condition determining means, “if the input attribute satisfies the input attribute condition, the analysis data A second evaluation means for calculating a division rule evaluation value representing the probability of the second association rule that the data is included in the second data group in the group, and the input attribute condition determination means Based on the input attribute condition having the largest division rule evaluation value among the input attribute conditions, the analysis data group is divided into a factor data group that satisfies the input attribute condition and other data that does not satisfy the input attribute condition. Dividing means for dividing the data into groups, wherein the analysis data group extracting means adds at least one of the factor data group and the other data group divided by the dividing means to a new previous group. Extracting as an analysis data group, processing by the analysis data group extraction means, processing by the first evaluation means, processing by the input attribute condition determination means, processing by the second data group separation degree calculation means, the factor extraction means A series of processes including the process according to the above, the process by the second evaluation means, and the process by the dividing means are repeatedly executed.

上記の発明によれば、第2の評価手段が入力属性条件決定手段で決定された入力属性条件の各々について、「入力属性が当該入力属性条件を満たせば、分析データ群中の第2データ群に含まれるデータである」という第2の相関ルールの確からしさを表す分割ルール評価値を演算し、分割手段が、最大の分割ルール評価値を持つ入力属性条件に基づいて、分析データ群を要因データ群と他データ群とに分割し、分析データ群抽出手段が要因データ群と他データ群との少なくとも一方を新たな分析データ群として抽出する。そして、上記一連の処理が繰り返し実行される。   According to the above invention, for each of the input attribute conditions determined by the input attribute condition determining means by the second evaluation unit, “if the input attribute satisfies the input attribute condition, the second data group in the analysis data group The division rule evaluation value representing the probability of the second correlation rule that “the data is included in the data” is calculated, and the dividing means factorizes the analysis data group based on the input attribute condition having the maximum division rule evaluation value. The data is divided into a data group and another data group, and the analysis data group extraction means extracts at least one of the factor data group and the other data group as a new analysis data group. Then, the above series of processing is repeatedly executed.

このような繰り返しの処理によって、より詳細な要因分析結果が得られる。   More detailed factor analysis results can be obtained by such repeated processing.

また、繰り返し処理を行わない場合に、外乱の影響により入力属性条件評価指標の確度が低かったとしても、繰り返し処理を行うことにより、この問題を解消できる。
さらに、ある入力属性において、第2データ群に対応する出力属性条件の要因が、「入力属性が閾値以下である」、および、「入力属性が閾値を超える」という2タイプの場合においても、繰り返しの処理によって、それらの双方の要因を抽出することができる。
Further, when the repeated processing is not performed, even if the accuracy of the input attribute condition evaluation index is low due to the influence of disturbance, this problem can be solved by performing the repeated processing.
Furthermore, in a certain input attribute, the output attribute condition factor corresponding to the second data group is repeated even when the two types are “input attribute is below threshold” and “input attribute exceeds threshold”. Both of these factors can be extracted by this process.

本発明のデータ分析装置は、上記課題を解決するために、前記要因抽出手段の繰り返しの処理によって抽出された、同一の前記入力属性における複数の前記入力属性条件に対し、これらのうちで、優先度の高い条件のみを選定する要因決定手段をさらに備えており、前記要因決定手段は、前記要因抽出手段の繰り返しの処理によって抽出された、同一の前記入力属性における複数の前記入力属性条件の中で、前記第2データ群分離度が最大となる入力属性条件を、前記優先度の高い条件として選定することを特徴としている。   In order to solve the above-mentioned problem, the data analysis apparatus of the present invention has priority over a plurality of the input attribute conditions in the same input attribute extracted by the repeated processing of the factor extracting means. A factor determination unit that selects only a condition with a high degree, and the factor determination unit includes a plurality of the input attribute conditions in the same input attribute extracted by the repeated processing of the factor extraction unit. Thus, the input attribute condition that maximizes the second data group separation degree is selected as the condition with the higher priority.

上記の発明によれば、要因抽出手段の繰り返しの処理によって抽出された、同一の入力属性における複数の入力属性条件に対し、第2データ群分離度という明確な指標に基づいて優先度の高い条件を選定しているから、非常に簡潔な形でありながら、高い確度で、第2データ群に対応する出力属性条件の要因を決定する事ができる。   According to the above invention, for a plurality of input attribute conditions with the same input attribute extracted by repeated processing of the factor extracting means, a condition having a high priority based on a clear index of the second data group separation degree Therefore, the factor of the output attribute condition corresponding to the second data group can be determined with high accuracy while being in a very simple form.

また、要因決定手段が、第2データ群分離度という明確な指標に基づいて、要因抽出手段の繰り返しの処理によって抽出された入力属性条件の中から、第2データ群に対応する出力属性条件の要因、すなわちデータが第2データ群となる入力属性条件を決定している。従って、如何に複雑な決定木となろうとも、明確に第2データ群に対応する出力属性条件の要因を決定することができる。例えば第2データ群の出力属性が不良品などの問題事象を表すものとすれば、第2データ群分離度は不良品切り出しの確度を示す不良品分離度となり、如何に複雑な決定木となろうとも、明確に問題事象の要因を把握することができる。   In addition, the factor determination means determines the output attribute condition corresponding to the second data group from the input attribute conditions extracted by the repetition process of the factor extraction means based on the clear index of the second data group separation degree. The factor, that is, the input attribute condition in which the data becomes the second data group is determined. Therefore, no matter how complicated the decision tree is, it is possible to clearly determine the factor of the output attribute condition corresponding to the second data group. For example, if the output attribute of the second data group represents a problem phenomenon such as a defective product, the second data group separation degree is a defective product separation degree indicating the accuracy of defective product extraction, and how complex the decision tree is. It is possible to clearly understand the cause of the problem phenomenon.

また、不良品分離度などの第2データ群分離度を評価指標としているから、要因決定手段が決定した複数の要因(入力属性条件)に対して、優先順位付けを行うことが可能となる。   Further, since the second data group separation degree such as the defective part separation degree is used as an evaluation index, it is possible to prioritize a plurality of factors (input attribute conditions) determined by the factor determining means.

さらに、上記の繰り返し処理の過程において、要因抽出手段が、決定木における分岐条件以外の条件であっても、不良品分離度などの第2データ群分離度の高い条件を全て抽出している。要因決定手段は、この要因抽出手段の繰り返しの処理によって抽出された入力属性条件の中から、第2データ群分離度という明確な指標に基づいて、第2データ群に対応する出力属性条件の要因、すなわちデータが第2データ群となる入力属性条件を決定しているから、分岐条件に競合因子が存在しても、その要因を逃すことなく、確実に第2データ群に対応する出力属性条件の要因を決定することができる。   Furthermore, in the process of the above iterative process, the factor extracting means extracts all conditions having a high second data group separation degree such as a defective product separation degree, even if the condition is a condition other than the branch condition in the decision tree. The factor determining means determines the factor of the output attribute condition corresponding to the second data group based on a clear index of the second data group separation degree from the input attribute conditions extracted by the repeated processing of the factor extracting means. That is, since the input attribute condition for which the data becomes the second data group is determined, even if a competing factor exists in the branch condition, the output attribute condition corresponding to the second data group can be surely met without missing the factor. The factors can be determined.

本発明のデータ分析装置は、上記課題を解決するために、前記要因抽出手段の繰り返しの処理によって抽出された、同一の前記入力属性における複数の前記入力属性条件に対し、これらのうちで、優先度の高い条件のみを選定する要因決定手段をさらに備えており、前記要因抽出手段の繰り返しの処理によって抽出された、同一の前記入力属性における複数の前記入力属性条件が、「前記入力属性が閾値以下である」という第1のパターンと、「前記入力属性が閾値を超える」という第2のパターンとに分けられる場合において、前記要因決定手段は、前記第1のパターンの中で、前記第2データ群分離度が最大となる入力属性条件を1つと、前記第2のパターンの中で、前記第2データ群分離度が最大となる入力属性条件を1つとを、前記優先度が高い条件として選定することを特徴としている。   In order to solve the above-mentioned problem, the data analysis apparatus of the present invention has priority over a plurality of the input attribute conditions in the same input attribute extracted by the repeated processing of the factor extracting means. A plurality of input attribute conditions for the same input attribute extracted by the repetition process of the factor extraction means, wherein the input attribute condition is a threshold value. In the case where the factor determination means is divided into a second pattern that is “the input attribute exceeds a threshold value” and the second pattern that is “the input attribute exceeds the threshold value”, the factor determination means includes the second pattern in the first pattern. One input attribute condition that maximizes the data group separation degree, and one input attribute condition that maximizes the second data group separation degree in the second pattern, It is characterized in that ahead of is selected as high condition.

上記の発明によれば、上記要因抽出手段の繰り返しの処理によって抽出された、同一の入力属性における複数の入力属性条件が、「入力属性が閾値以下である」、および、「入力属性が閾値を超える」という2パターンとなる場合においても、非常に簡潔な形でありながら、高い確度で、第2データ群に対応する出力属性条件の要因を決定する事ができる。   According to the above invention, the plurality of input attribute conditions in the same input attribute extracted by the repeated processing of the factor extracting means are “input attribute is below threshold” and “input attribute is threshold Even in the case of the two patterns “exceeding”, it is possible to determine the factor of the output attribute condition corresponding to the second data group with high accuracy in a very simple form.

本発明のデータ分析装置は、上記課題を解決するために、前記分析データ群抽出手段は、前記分割手段で分割されたデータ群のうち前記他データ群のみを、新たな前記分析データ群として抽出するものであることを特徴としている。   In order to solve the above problems, the data analysis apparatus according to the present invention, the analysis data group extraction unit extracts only the other data group from the data group divided by the division unit as a new analysis data group. It is characterized by that.

上記の発明によれば、分割手段で分割されたデータ群のうち他データ群のみを、新たな分析データ群として上記の繰り返し処理を行っているから、第2データ群に対応する出力属性条件の要因分析に対して、簡潔で、かつ、十分な要因分析結果が得られる。   According to the above invention, since only the other data group among the data groups divided by the dividing means is subjected to the above-described repetitive processing as a new analysis data group, the output attribute condition corresponding to the second data group A simple and sufficient factor analysis result is obtained for the factor analysis.

また、他データ群を新たな分析データ群として処理を行っているから、それ以前の繰り返し処理で第2の相関ルールを満たした入力属性条件の影響を除外して、分析を行う事ができ、これにより、第2データ群に対応する出力属性条件の、新たな要因を高い確度で抽出できる。   In addition, since the other data group is processed as a new analysis data group, the analysis can be performed by excluding the influence of the input attribute condition that satisfies the second correlation rule in the previous iteration process, Thereby, a new factor of the output attribute condition corresponding to the second data group can be extracted with high accuracy.

本発明のデータ分析装置は、上記課題を解決するために、終了条件を満たしているか否かを判定する終了条件判定手段をさらに含み、前記終了条件判定手段において前記終了条件を満たしていると判定されると、前記一連の処理の実行を終了するようになっており、前記終了条件判定手段は、前記分析データ群抽出手段で抽出した前記分析データ群における前記第2データ群のデータ個数が0であるかを前記終了条件として判定を行うことを特徴としている。   In order to solve the above-described problem, the data analysis apparatus of the present invention further includes an end condition determining unit that determines whether or not an end condition is satisfied, and the end condition determining unit determines that the end condition is satisfied. Then, the execution of the series of processes is ended, and the end condition determining means is configured such that the number of data in the second data group in the analysis data group extracted by the analysis data group extraction means is 0. It is characterized in that it is determined as the end condition.

上記の発明によれば、分析データ群における前記第2データ群のデータ個数が0となるまで繰り返し処理を実行するので、詳細な要因分析結果が得られる。   According to the above invention, the detailed process of the factor analysis is obtained because the process is repeated until the number of data in the second data group in the analysis data group becomes zero.

本発明のデータ分析装置は、上記課題を解決するために、前記分析データ群中の前記入力属性が全て数値属性であって、前記第1の評価手段は、各前記入力属性の全ての数値について、前記分析データ群の前記第1データ群中において、前記入力属性がその数値以下であるデータ個数の割合を第1の頻度として演算すると共に、前記分析データ群の前記第2データ群中において、前記入力属性がその数値以下であるデータ個数の割合を第2の頻度として演算する頻度演算手段と、各前記入力属性の全ての数値について、前記第1の頻度と前記第2の頻度との差分を演算する、差分演算手段とを含むことを特徴としている。   In the data analysis apparatus of the present invention, in order to solve the above-described problem, all the input attributes in the analysis data group are numerical attributes, and the first evaluation unit is configured for all the numerical values of the input attributes. In the first data group of the analysis data group, the ratio of the number of data whose input attribute is equal to or less than the numerical value is calculated as a first frequency, and in the second data group of the analysis data group, Frequency calculation means for calculating the ratio of the number of data whose input attribute is less than or equal to the value as a second frequency, and the difference between the first frequency and the second frequency for all the numerical values of each input attribute And a difference calculating means.

上記の発明によれば、入力属性の各数値について差分演算手段が演算した、第1の頻度
と第2の頻度との差分を、「入力属性がその数値以下であれば第2データ群に属するデータであり、入力属性がその数値を超えていれば第1データ群に属するデータである」、あるいは、「入力属性がその数値を超えていれば第2データ群に属するデータであり、入力属性がその数値以下であれば第1データ群に属するデータである」という第1の相関ルールの確からしさを表す入力属性条件評価指標とすることができる。
According to the above invention, the difference between the first frequency and the second frequency calculated by the difference calculation means for each numerical value of the input attribute is expressed as “if the input attribute is less than or equal to the numerical value, it belongs to the second data group. If the input attribute exceeds the numeric value, the data belongs to the first data group. Or, “If the input attribute exceeds the numeric value, the data belongs to the second data group. It can be used as an input attribute condition evaluation index representing the certainty of the first association rule that “is the data belonging to the first data group if is less than or equal to that value”.

このように、第1の頻度と第2の頻度との差分を、第1データ群と第2データ群とを切り分ける際の入力属性条件評価指標として用いているから、ラベル階層構造を予め定義する事なく、かつ、簡単な処理で、前記第1の相関ルールを満たす入力属性条件を決定する事ができる。これにより、ラベル階層構造を予め定義する事なく、簡潔な形で、出力属性と入力属性との因果関係を導き出せるデータ分析装置を提供することができる。   Thus, since the difference between the first frequency and the second frequency is used as an input attribute condition evaluation index when the first data group and the second data group are separated, the label hierarchical structure is defined in advance. It is possible to determine an input attribute condition that satisfies the first correlation rule without any trouble and with simple processing. Accordingly, it is possible to provide a data analysis apparatus that can derive a causal relationship between an output attribute and an input attribute in a simple manner without defining a label hierarchical structure in advance.

本発明のデータ分析装置は、上記課題を解決するために、前記第2の評価手段は、前記入力属性条件決定手段で決定された前記入力属性条件の各々について、前記分析データ群の前記第1データ群中で該入力属性条件を満たすデータ個数の割合に対する、前記分析データ群の前記第2データ群中で該入力属性条件を満たすデータ個数の割合の比率を、前記分割ルール評価値として演算するものであることを特徴としている。   In the data analysis apparatus of the present invention, in order to solve the above-described problem, the second evaluation unit performs the first analysis of the analysis data group for each of the input attribute conditions determined by the input attribute condition determination unit. The ratio of the ratio of the number of data satisfying the input attribute condition in the second data group of the analysis data group to the ratio of the number of data satisfying the input attribute condition in the data group is calculated as the division rule evaluation value. It is characterized by being.

上記の発明によれば、入力属性条件決定手段で決定された入力属性条件の各々について、その入力属性条件により第1データ群と分離して第2データ群を検出できる割合を分割ルール評価値として演算することができる。   According to the above invention, with respect to each of the input attribute conditions determined by the input attribute condition determining means, the ratio that can be detected from the first data group and separated from the first data group by the input attribute condition is used as the division rule evaluation value. It can be calculated.

本発明のデータ分析装置は、上記課題を解決するために、分類条件を設定する分類条件設定手段をさらに含み、前記分類手段は、前記出力属性の値と前記分類条件との比較に基づいて前記基本データ群を分類するようになっていることを特徴としている。   In order to solve the above-described problem, the data analysis apparatus of the present invention further includes a classification condition setting unit that sets a classification condition, and the classification unit is configured based on a comparison between the value of the output attribute and the classification condition. It is characterized by classifying basic data groups.

上記の発明によれば、適宜設定した所定の分類条件に基づいて、基本データ群を第1データ群と第2データ群とに分類することができる。すなわち、適宜に第2データ群に対応する出力属性条件を設定し、その要因を抽出または決定することができる。   According to the above invention, the basic data group can be classified into the first data group and the second data group based on predetermined classification conditions set as appropriate. That is, an output attribute condition corresponding to the second data group can be set as appropriate, and the factor can be extracted or determined.

本発明のデータ分析方法は、上記課題を解決するために、前記データ分析装置を用いて、前記基本データ群に対して、前記因果関係を分析し、前記因果関係を示す情報を抽出するデータ分析方法であって、前記分類手段により、前記基本データ群を、前記出力属性の値に依って、前記第1データ群と前記第2データ群とに分類し、前記分類フラグを付与する分類ステップと、前記分析データ群抽出手段により、前記分類手段による分類後の前記基本データ群の中から、前記分析データ群を抽出する分析データ群抽出ステップと、前記第1の評価手段により、前記分析データ群の各々の前記入力属性が取り得る全ての入力属性条件の各々について、前記入力属性条件評価指標を演算する第1の評価ステップと、前記入力属性条件決定手段により、前記分析データ群の各々の前記入力属性について、それぞれ、最大の前記入力属性条件評価指標を持つ前記入力属性条件を、前記第1の相関ルールを満たす前記入力属性条件として決定する入力属性条件決定ステップと、前記第2データ群分離度演算手段により、前記入力属性条件決定手段で決定された前記入力属性条件の各々について、前記第2データ群分離度を演算する、第2データ群分離度演算ステップと、前記要因抽出手段により、前記入力属性条件決定手段で決定された前記入力属性条件の中で、前記第2データ群含有率よりも大きい値の、前記第2データ群分離度をもつ前記入力属性条件を、前記第2データ群に対応する出力属性条件の要因を示す情報として抽出する、要因抽出ステップとを含むことを特徴としている。   In order to solve the above problems, the data analysis method of the present invention uses the data analysis device to analyze the causal relationship with respect to the basic data group and extract information indicating the causal relationship. A classification step of classifying the basic data group into the first data group and the second data group according to a value of the output attribute and assigning the classification flag by the classification means; An analysis data group extraction step of extracting the analysis data group from the basic data group after classification by the classification means by the analysis data group extraction means; and the analysis data group by the first evaluation means. A first evaluation step of calculating the input attribute condition evaluation index for each of all the input attribute conditions that can be taken by each of the input attributes, and the input attribute condition determining means An input attribute condition determining step for determining the input attribute condition having the maximum input attribute condition evaluation index as the input attribute condition satisfying the first correlation rule for each of the input attributes of the analysis data group A second data group separation degree computing step for computing the second data group separation degree for each of the input attribute conditions determined by the input attribute condition determining means by the second data group separation degree computing means And the input having the second data group separation degree having a value larger than the second data group content rate in the input attribute conditions determined by the input attribute condition determining means by the factor extracting means A factor extracting step of extracting the attribute condition as information indicating a factor of the output attribute condition corresponding to the second data group.

上記の発明によれば、分類ステップにおいて分類手段が基本データ群を第1データ群と第2データ群とに分類し、分析データ群抽出ステップにおいて分析データ群抽出手段が、分類後の基本データ群の中から入力属性と出力属性との因果関係を分析する対象とする分析データ群を抽出する。例えば第1データ群は良品の出力属性を有するデータ群であり、第2データ群は不良品などの問題事象を表す出力属性を有するデータ群である。   According to the above invention, the classification means classifies the basic data group into the first data group and the second data group in the classification step, and the analysis data group extraction means performs the basic data group after the classification in the analysis data group extraction step. An analysis data group to be analyzed for the causal relationship between the input attribute and the output attribute is extracted. For example, the first data group is a data group having a non-defective product output attribute, and the second data group is a data group having an output attribute representing a problem event such as a defective product.

第1の評価ステップにおいて、第1の評価手段は、分析データ群の各々の入力属性が取り得る全ての入力属性条件の各々について、「入力属性が当該入力属性条件を満たせば、分析データ群中の第2データ群に属するデータであり、入力属性が当該入力属性条件を満たさなければ、分析データ群中の第1データ群に属するデータである」という第1の相関ルールの確からしさを表す入力属性条件評価指標を演算し、入力属性条件決定ステップにおいて、入力属性条件決定手段は、分析データ群の各々の入力属性について、それぞれ、最大の入力属性条件評価指標を持つ入力属性条件を、第1の相関ルールを満たす入力属性条件として決定する。第2データ群分離度演算ステップにおいて、第2データ群分離度演算手段は、入力属性条件決定手段で決定された前記入力属性条件の各々について、第2データ群分離度を演算する。   In the first evaluation step, the first evaluation means, for each of all the input attribute conditions that can be taken by each input attribute of the analysis data group, “if the input attribute satisfies the input attribute condition, An input indicating the probability of the first correlation rule that the data belongs to the second data group and if the input attribute does not satisfy the input attribute condition, the data belongs to the first data group in the analysis data group. The attribute condition evaluation index is calculated, and in the input attribute condition determination step, the input attribute condition determination means determines the first input attribute condition having the maximum input attribute condition evaluation index for each input attribute of the analysis data group as a first. It is determined as an input attribute condition that satisfies the correlation rule. In the second data group separation degree calculation step, the second data group separation degree calculation means calculates a second data group separation degree for each of the input attribute conditions determined by the input attribute condition determination means.

各入力属性条件の第2データ群分離度は、基本データ群中で該入力属性条件を満たすデータの中に第2データ群が含まれるデータ個数の割合を表しており、要因抽出ステップにおいて要因抽出手段が、入力属性条件決定ステップで決定された前記入力属性条件の中で、基本データ群中に含まれる第2データ群のデータ個数の割合を表す第2データ群含有率よりも大きい値の、第2データ群分離度をもつ入力属性条件を、第2データ群に対応する出力属性条件の要因を示す情報として抽出する。   The second data group separation degree of each input attribute condition represents the ratio of the number of data in which the second data group is included in the data satisfying the input attribute condition in the basic data group. The means has a value larger than the second data group content ratio representing the ratio of the number of data of the second data group included in the basic data group in the input attribute condition determined in the input attribute condition determining step. The input attribute condition having the second data group separation degree is extracted as information indicating the cause of the output attribute condition corresponding to the second data group.

このようにして、データ分析方法により、基本データ群に対して、入力属性と出力属性との因果関係を分析し、該因果関係を示す情報を抽出する。   In this way, the data analysis method analyzes the causal relationship between the input attribute and the output attribute for the basic data group, and extracts information indicating the causal relationship.

上記の因果関係の分析では、要因抽出ステップにおいて、第2データ群分離度という明確な指標に基づいて、入力属性条件決定ステップで決定された入力属性条件の中から、第2データ群に対応する出力属性条件の要因、すなわちデータが第2データ群となる入力属性条件を抽出している。従って、如何に複雑な決定木となろうとも、明確に第2データ群に対応する出力属性条件の要因を把握することができる。例えば第2データ群の出力属性が不良品などの問題事象を表すものとすれば、第2データ群分離度は不良品切り出しの確度を示す不良品分離度となり、如何に複雑な決定木となろうとも、明確に問題事象の要因を把握することができる。   In the above causal analysis, the factor extraction step corresponds to the second data group from among the input attribute conditions determined in the input attribute condition determination step based on a clear index of the second data group separation degree. The factor of the output attribute condition, that is, the input attribute condition in which the data becomes the second data group is extracted. Therefore, no matter how complicated the decision tree is, it is possible to clearly grasp the cause of the output attribute condition corresponding to the second data group. For example, if the output attribute of the second data group represents a problem phenomenon such as a defective product, the second data group separation degree is a defective product separation degree indicating the accuracy of defective product extraction, and how complex the decision tree is. It is possible to clearly understand the cause of the problem phenomenon.

また、不良品分離度などの第2データ群分離度を評価指標としているから、要因抽出ステップで抽出した複数の要因(入力属性条件)に対して、優先順位付けを行うことが可能となる。   Further, since the second data group separation degree such as the defective article separation degree is used as an evaluation index, it is possible to prioritize a plurality of factors (input attribute conditions) extracted in the factor extraction step.

さらに、要因抽出ステップにおいて、決定木における分岐条件以外の条件であっても、不良品分離度などの第2データ群分離度の高い条件を全て抽出しているから、分岐条件に競合因子が存在しても、その要因を逃すことなく、確実に捉えることができる。   Furthermore, in the factor extraction step, even if the condition is other than the branch condition in the decision tree, all the conditions having a high second data group separation degree such as a defective product separation degree are extracted, so there are competing factors in the branch condition. Even so, you can catch it without fail.

以上により、所定の出力属性の要因を明確な指標に基づいて抽出するデータ分析方法を提供することができる。   As described above, a data analysis method for extracting a factor of a predetermined output attribute based on a clear index can be provided.

本発明のデータ分析方法は、上記課題を解決するために、前記入力属性は、製品の製造工程における製造プロセス条件および/またはインライン検査結果であり、前記出力属性は、製品の品質判定結果であり、前記第2データ群は、前記品質判定結果が不良のデータ群であることを特徴としている。   In the data analysis method of the present invention, in order to solve the above problem, the input attribute is a manufacturing process condition and / or in-line inspection result in a product manufacturing process, and the output attribute is a product quality determination result. The second data group is characterized in that the quality judgment result is a defective data group.

上記の発明によれば、製造工程における不良の要因を抽出または決定でき、歩留りの向上等のような製造プロセスの改善を容易に図ることが可能となる。   According to the above invention, it is possible to extract or determine the cause of the defect in the manufacturing process, and it is possible to easily improve the manufacturing process such as an improvement in yield.

本発明のデータ分析プログラムは、上記課題を解決するために、コンピュータを、複数の入力属性と、出力属性とで構成されるデータの集合である基本データ群を、出力属性の値に依って、第1データ群と第2データ群とに分類し、分類フラグを付与する分類手段と、前記分類手段による分類後の前記基本データ群の中から、分析の対象とする分析データ群を抽出する分析データ群抽出手段と、前記分析データ群の各々の前記入力属性が取り得る全ての入力属性条件の各々について、「前記入力属性が当該入力属性条件を満たせば、前記分析データ群中の前記第2データ群に属するデータであり、前記入力属性が当該入力属性条件を満たさなければ、前記分析データ群中の前記第1データ群に属するデータである」という第1の相関ルールの確からしさを表す、入力属性条件評価指標を演算する第1の評価手段と、前記分析データ群の各々の前記入力属性について、それぞれ、最大の前記入力属性条件評価指標を持つ入力属性条件を、前記第1の相関ルールを満たす入力属性条件として決定する入力属性条件決定手段と、前記入力属性条件決定手段で決定された前記入力属性条件の各々について、前記基本データ群中で該入力属性条件を満たすデータの中に前記第2データ群が含まれるデータ個数の割合を表す、第2データ群分離度を演算する、第2データ群分離度演算手段と、前記入力属性条件決定手段で決定された前記入力属性条件の中で、前記基本データ群中に含まれる前記第2データ群のデータ個数の割合を表す第2データ群含有率よりも大きい値の、前記第2データ群分離度をもつ入力属性条件を、前記第2データ群に対応する出力属性条件の要因を示す情報として抽出する、要因抽出手段として機能させる。   In order to solve the above problems, the data analysis program of the present invention uses a computer, a basic data group that is a set of data composed of a plurality of input attributes and output attributes, depending on the value of the output attribute. An analysis for classifying into a first data group and a second data group and assigning a classification flag and extracting an analysis data group to be analyzed from the basic data group after classification by the classification means For each of the input attribute conditions that can be taken by the data group extraction means and each input attribute of each of the analysis data groups, “if the input attribute satisfies the input attribute condition, the second data in the analysis data group Data belonging to a data group, and if the input attribute does not satisfy the input attribute condition, the data belongs to the first data group in the analysis data group. " A first evaluation means for calculating an input attribute condition evaluation index that represents the complexity, and an input attribute condition having the maximum input attribute condition evaluation index for each of the input attributes of the analysis data group, An input attribute condition determining unit that determines an input attribute condition that satisfies the first correlation rule, and for each of the input attribute conditions determined by the input attribute condition determining unit, the input attribute condition is satisfied in the basic data group The second data group separation degree calculating means for calculating a second data group separation degree, which represents a ratio of the number of data in which the second data group is included in the data, and the input attribute condition determining means determined by the input attribute condition determining means Among the input attribute conditions, the second data group component having a value larger than the second data group content ratio indicating the ratio of the number of data of the second data group included in the basic data group. An input attribute condition with degrees, extracted as the information indicating the cause of the output attribute condition corresponding to the second data group, to function as a factor extraction unit.

上記の発明によれば、所定の出力属性の要因を明確な指標に基づいて抽出するデータ分析を、コンピュータでプログラムを実行することにより実現することができる。   According to the above invention, data analysis for extracting a factor of a predetermined output attribute based on a clear index can be realized by executing a program on a computer.

本発明の記録媒体は、上記課題を解決するために、前記データ分析プログラムを記録したコンピュータ読み取り可能な記録媒体である。   In order to solve the above problems, a recording medium of the present invention is a computer-readable recording medium on which the data analysis program is recorded.

上記の発明によれば、上記データ分析プログラムをコンピュータに容易に提供することができる。   According to the above invention, the data analysis program can be easily provided to a computer.

本発明のデータ分析装置は、以上のように、分類手段と、分析データ群抽出手段と、第1の評価手段と、入力属性条件決定手段と、第2データ群分離度演算手段と、要因抽出手段とを含んでいる。また、本発明のデータ分析方法は、分類ステップと、分析データ群抽出ステップと、第1の評価ステップと、入力属性条件決定ステップと、第2データ群分離度演算ステップと、要因抽出ステップとを含んでいる。   As described above, the data analysis apparatus according to the present invention includes a classification unit, an analysis data group extraction unit, a first evaluation unit, an input attribute condition determination unit, a second data group separation degree calculation unit, and a factor extraction. Means. The data analysis method of the present invention includes a classification step, an analysis data group extraction step, a first evaluation step, an input attribute condition determination step, a second data group separation degree calculation step, and a factor extraction step. Contains.

それゆえ、所定の出力属性の要因を明確な指標に基づいて抽出するデータ分析装置を提供することができるという効果を奏する。   Therefore, there is an effect that it is possible to provide a data analysis device that extracts a factor of a predetermined output attribute based on a clear index.

本発明の一実施形態を以下に説明する。   One embodiment of the present invention will be described below.

まず、本実施形態のデータ分析装置を図1に基づいて説明する。図1に示すように、データ分析装置は、基本データ群格納部1、文字−数値データ変換部2、分類条件設定部(分類条件設定手段)3、データ分類部(分類手段)4、分類後基本データ群格納部5、分析データ群抽出部(分析データ群抽出手段)6、データ行分離部7、データ列抽出部8、頻度演算部(頻度演算手段)9、頻度累積差演算部(差分演算手段)10、入力属性条件決定部(入力属性条件決定手段)11、不良品分離度演算部(第2データ群分離度演算手段)12、要因抽出部(要因抽出手段)13、頻度累積比率演算部(第2の評価手段)14、データ分割部(分割手段)15、終了条件判定部16、要因決定部(要因決定手段)17、複合要因不良数計算部18、数値−文字データ変換部19、分析結果データ格納部20、および出力部21を備えている。なお、上記のデータ行分離部7、データ列抽出部8、頻度演算部(頻度演算手段)9、および、頻度累積差演算部(差分演算手段)10が、特許請求の範囲における第1の評価手段を構成している。   First, the data analysis apparatus of this embodiment is demonstrated based on FIG. As shown in FIG. 1, the data analysis apparatus includes a basic data group storage unit 1, a character-numerical data conversion unit 2, a classification condition setting unit (classification condition setting unit) 3, a data classification unit (classification unit) 4, and after classification. Basic data group storage unit 5, analysis data group extraction unit (analysis data group extraction unit) 6, data row separation unit 7, data string extraction unit 8, frequency calculation unit (frequency calculation unit) 9, frequency cumulative difference calculation unit (difference) (Calculation means) 10, input attribute condition determination unit (input attribute condition determination means) 11, defective product separation degree calculation part (second data group separation degree calculation means) 12, factor extraction part (factor extraction means) 13, frequency accumulation ratio Arithmetic unit (second evaluation unit) 14, data dividing unit (dividing unit) 15, end condition determining unit 16, factor determining unit (factor determining unit) 17, composite factor defect number calculating unit 18, numerical value-character data converting unit 19, analysis result data storage unit 20, And a reserve power unit 21. The data row separation unit 7, the data string extraction unit 8, the frequency calculation unit (frequency calculation unit) 9, and the frequency cumulative difference calculation unit (difference calculation unit) 10 include the first evaluation in the claims. Means.

次に、前述の表1のデータ群DAを基本データ群とする場合を例として、本実施形態のデータ分析装置およびデータ分析方法を説明する。表1の基本データ群DAは、ハードディスク等の基本データ群格納部1に格納されている。   Next, the data analysis apparatus and the data analysis method of this embodiment will be described by taking as an example the case where the data group DA in Table 1 is a basic data group. The basic data group DA in Table 1 is stored in the basic data group storage 1 such as a hard disk.

表1の基本データ群DAは、1〜12のid(識別子)を持つ12個のデータから構成されている。表1において、x1,x2,x3,x4は入力属性である。入力属性x1は4つの文字A,B,C,Dのいずれかをとる文字属性である。入力属性x2は4つの文字a,b,c,dのいずれかをとる文字属性である。入力属性x3は4つの離散値1,2,3,4のいずれかをとる離散属性である。入力属性x4は4つの離散値10,20,30,40のいずれかをとる離散属性である。なお、入力属性は、文字属性、離散の数値属性、連続の数値属性の何れでもよい。   The basic data group DA in Table 1 is composed of 12 pieces of data having ids (identifiers) of 1 to 12. In Table 1, x1, x2, x3, and x4 are input attributes. The input attribute x1 is a character attribute that takes one of four characters A, B, C, and D. The input attribute x2 is a character attribute that takes one of the four characters a, b, c, and d. The input attribute x3 is a discrete attribute that takes one of four discrete values 1, 2, 3, and 4. The input attribute x4 is a discrete attribute taking any one of four discrete values 10, 20, 30, and 40. The input attribute may be any of a character attribute, a discrete numerical attribute, and a continuous numerical attribute.

また、表1において、yは出力属性である。出力属性は、文字属性、離散の数値属性、連続の数値属性の何れでもよいが、ここでは、3つの文字X,Y,Zのいずれかをとる文字属性である。   In Table 1, y is an output attribute. The output attribute may be any of a character attribute, a discrete numerical attribute, and a continuous numerical attribute. Here, the output attribute is a character attribute that takes one of the three characters X, Y, and Z.

本実施形態のデータ分析装置およびデータ分析方法は、入力属性と出力属性との因果関係を分析し、該因果関係を示す情報を抽出する。ここでは、y=Yなる場合を問題事象として、出力属性yがYとなる要因を分析する。   The data analysis apparatus and the data analysis method according to the present embodiment analyze a causal relationship between an input attribute and an output attribute, and extract information indicating the causal relationship. Here, the case where y = Y is considered as a problem event, and the cause of the output attribute y being Y is analyzed.

なお、基本データ群DAの例としては、例えば、入力属性が、製品の製造工程における製造プロセス条件および/またはインライン検査結果(製造ライン途中での検査結果)、出力属性が製品の品質判定結果、y=Yなる問題事象が品質判定結果の不良であるデータが挙げられる。この場合、本実施形態のデータ分析装置およびデータ分析方法により入力属性と出力属性との因果関係を分析し、y=Yなる問題事象の要因を導き出すことで、製造工程における不良の要因を抽出または決定でき、不良品の発生を解消する対策を容易に図ることが可能となる。したがって、歩留まりの向上等のような製造プロセスの改善を容易に図ることが可能となる。   As an example of the basic data group DA, for example, the input attribute is the manufacturing process condition and / or in-line inspection result (inspection result during the manufacturing line) in the product manufacturing process, the output attribute is the product quality determination result, Data in which the problem event y = Y is a bad quality determination result is exemplified. In this case, by analyzing the causal relationship between the input attribute and the output attribute by the data analysis apparatus and the data analysis method according to the present embodiment and deriving the cause of the problem event y = Y, the cause of the defect in the manufacturing process is extracted or Therefore, it is possible to easily take measures to eliminate the occurrence of defective products. Therefore, it is possible to easily improve the manufacturing process such as improvement in yield.

基本データ群DAのより具体的な例としては、例えば、入力属性x1、x2、x3、x4が、プラズマCVDプロセスの、ガス流量、ガス圧力、投入電力、成膜時間などのプロセスデータで、出力属性yが、形成される薄膜の膜厚であるようなデータが挙げられる。また、これら入力属性および出力属性の値は、連続の数値属性、離散の数値属性、文字属性の何れであってもよい。文字属性の場合には、例えば、出力属性が膜厚の例で、‘大’、‘中’、‘小’といった具合に表現される。   As a more specific example of the basic data group DA, for example, input attributes x1, x2, x3, and x4 are process data such as gas flow rate, gas pressure, input power, and film formation time of plasma CVD process, and output. Data in which the attribute y is the film thickness of the thin film to be formed can be mentioned. The values of the input attribute and the output attribute may be any of a continuous numerical attribute, a discrete numerical attribute, and a character attribute. In the case of the character attribute, for example, the output attribute is an example of the film thickness, and is expressed as “large”, “medium”, and “small”.

以下、図2に示すデータ分析方法のフローチャートを用いながら、図1のデータ分析装置の動作について説明する。
[ステップ0]
まず、文字−数値データ変換部2が、ハードディスク等の記憶手段である基本データ群格納部1に格納された表1の基本データ群DAの中の数値型でないデータに対して数値変換処理を行う(以下、各表のデータはハードディスクやRAMなど適宜選択される記憶手段に記憶され、またこれらから読み出され、CPUなどの演算手段によって演算の対象となる。)。ここでは、基本データ群DAにおける文字属性を、下記の変換ルールに従って数値属性(数値データ)に変換する(S0)。なお、基本データ群DAの入力属性および出力属性が元々数値属性である場合には、この処理は省略される。
(x1)A→1、B→2、C→3、D→4
(x2)a→1、b→2、c→3、d→4
(x3)変換せず
(x4)変換せず
(y)X→1、Y→2、Z→3
上記処理により、各データは、数値データに変換される。そして、文字−数値データ変換部2は、変換されたデータ群DA0をデータ分類部4に送る。
Hereinafter, the operation of the data analysis apparatus of FIG. 1 will be described using the flowchart of the data analysis method shown in FIG.
[Step 0]
First, the character-numeric data conversion unit 2 performs numeric conversion processing on non-numeric data in the basic data group DA in Table 1 stored in the basic data group storage unit 1 which is a storage means such as a hard disk. (Hereinafter, the data of each table is stored in an appropriate storage means such as a hard disk or RAM, and is read out from these data and is subject to calculation by calculation means such as a CPU). Here, the character attributes in the basic data group DA are converted into numerical attributes (numerical data) according to the following conversion rules (S0). Note that this processing is omitted when the input attribute and output attribute of the basic data group DA are originally numeric attributes.
(X1) A → 1, B → 2, C → 3, D → 4
(X2) a → 1, b → 2, c → 3, d → 4
(X3) No conversion (x4) No conversion (y) X → 1, Y → 2, Z → 3
Through the above processing, each data is converted into numerical data. Then, the character-numeric data conversion unit 2 sends the converted data group DA0 to the data classification unit 4.

ここで、上記変換ルールは、可能な限り、変換後の入力属性の数値が大きいほど出力属性の数値が大きくなるように、あるいはその逆順となるように設定される事が好ましいが、一義性さえあればよく上記の例に限らない。上記変換ルールにて数値データに変換されたデータ群DA0は、表2に示す通りである。   Here, it is preferable that the above conversion rule is set so that the numerical value of the output attribute increases as the input attribute value after conversion becomes larger as much as possible, or vice versa. There is no limitation to the above example. The data group DA0 converted into numerical data by the conversion rule is as shown in Table 2.

Figure 0004347099
Figure 0004347099

この変換により得られたデータ群DA0は、数値属性からなる、複数の入力属性(説明属性)と出力属性(目的属性)とで構成されるデータの集合となる。以下、データ群DA0も基本データ群と呼ぶ事にする。
[ステップ1]
分類条件設定部3は、予め定められた設定情報に従って、あるいは使用者が図示しないキーボードやマウス等の入力部から問題事象の属性値y=Yを入力したことに応答して、基本データ群DAのy=Yなる問題事象に対応する基本データ群DA0の出力属性yの条件であるかどうかの条件となる分類条件を設定し、データ分類部4に出力する(S1)。この例においては、基本データ群DAのy=Yなる問題事象に対応する基本データ群DA0の出力属性yの条件は、y=2である。
[ステップ2]
次に、データ分類部4が、基本データ群DA0の出力属性yの値と、分類条件設定部3から出力された分類条件(下記比較論理(1)(2))との比較に基づいて、基本データ群DA0を、第1データ群DA1と第2データ群DA2とに分類し、表3に示すように、各々のデータ群に対応する分類フラグを付与する(S2)。以下、表3のデータ群を、分類後基本データ群DA00と呼ぶ。分類後基本データ群DA00は、ハードディスク等の分類後基本データ群格納部5に保存される。
The data group DA0 obtained by this conversion is a set of data composed of a plurality of input attributes (description attributes) and output attributes (target attributes), each consisting of a numerical attribute. Hereinafter, the data group DA0 is also referred to as a basic data group.
[Step 1]
The classification condition setting unit 3 performs basic data group DA in accordance with predetermined setting information or in response to a user inputting a problem event attribute value y = Y from an input unit such as a keyboard or a mouse (not shown). A classification condition that is a condition for determining whether or not the output attribute y of the basic data group DA0 corresponding to the problem event y = Y is set and output to the data classification unit 4 (S1). In this example, the condition of the output attribute y of the basic data group DA0 corresponding to the problem event y = Y of the basic data group DA is y = 2.
[Step 2]
Next, based on the comparison between the value of the output attribute y of the basic data group DA0 and the classification condition (the following comparison logic (1) (2)) output from the classification condition setting unit 3, the data classification unit 4 The basic data group DA0 is classified into a first data group DA1 and a second data group DA2, and a classification flag corresponding to each data group is assigned as shown in Table 3 (S2). Hereinafter, the data group in Table 3 is referred to as a post-classification basic data group DA00. The post-classification basic data group DA00 is stored in the post-classification basic data group storage 5 such as a hard disk.

(1)y≠2→DA1
(2)y=2→DA2
(1) y ≠ 2 → DA1
(2) y = 2 → DA2

Figure 0004347099
Figure 0004347099

ここで、第2データ群DA2は問題事象(例えば、デバイス特性不良など)を表すデータ群である。すなわち、第2データ群DA2は出力属性yが問題事象を表す属性値(y=2)であるデータ群であり、第1データ群DA1は出力属性yが問題事象を表していない属性値(y=1または3)であるデータ群である。   Here, the second data group DA2 is a data group representing a problem event (for example, a device characteristic failure or the like). That is, the second data group DA2 is a data group in which the output attribute y is an attribute value (y = 2) representing a problem event, and the first data group DA1 is an attribute value (y) in which the output attribute y does not represent a problem event. = 1 or 3).

なお、データ分類部4による分類は、上記論理に限らず、閾値ythとの比較に基づく、下記の分類条件に示すような論理で行ってもよい。   The classification by the data classification unit 4 is not limited to the above logic, and may be performed by the logic shown in the following classification condition based on the comparison with the threshold value yth.

(1’)y>yth→DA1
(2’)y≦yth→DA2
また、複数の閾値との比較結果などとして表される複数の条件の、論理和または論理積に基づいて、下記の分類条件に示すような論理で分類してもよい。
(1 ') y> yth → DA1
(2 ′) y ≦ yth → DA2
Further, based on a logical sum or logical product of a plurality of conditions expressed as a comparison result with a plurality of thresholds, etc., the classification may be performed according to the logic shown in the following classification conditions.

(1“)yth1<y≦yth2→DA1(yth1,yth2:閾値)
(2“)y≦yth1 OR y>yth2→DA2
さらに、出力属性が複数存在し(y1、y2)、各々の出力属性に対する個々の閾値との比較結果などとして表される条件の、論理和または論理積に基づく、下記の分類条件に示すような論理で分類してもよい。
(1 “) yth1 <y ≦ yth2 → DA1 (yth1, yth2: threshold)
(2 ") y≤yth1 OR y> yth2 → DA2
Furthermore, there are a plurality of output attributes (y1, y2), and the conditions expressed as comparison results with individual threshold values for each output attribute are as shown in the following classification conditions based on the logical sum or logical product. You may classify by logic.

(1‘‘‘)y1≦yth1 OR y2>yth2→DA1
(2‘‘‘)y1>yth1 AND y2≦yth2→DA2
[ステップ3]
分析データ群抽出部6が、分類後基本データ群DA00の中から分析対象とする分析データ群DA00’を抽出し、データ行分離部7に送る。
(1 ″ ′) y1 ≦ yth1 OR y2> yth2 → DA1
(2 ″ ′) y1> yth1 AND y2 ≦ yth2 → DA2
[Step 3]
The analysis data group extraction unit 6 extracts the analysis data group DA00 ′ to be analyzed from the classified basic data group DA00 and sends it to the data row separation unit 7.

この1回目の処理では、分類後基本データ群DA00と同一のデータが分析データ群DA00’として抽出されるが、後述する繰り返し処理の過程では、データ分割部15が出力する他データ群が抽出される。
[ステップ4]
データ行分離部7が、分析データ群DA00’(1回目の処理においては、分類後基本データ群DA00:表3)における、第1データ群DA1および第2データ群DA2の各々の分類フラグに基づいて、分析データ群DA00’を2分化し、各々のデータ群を抽出する。データ行分離部7から出力される第1データ群DA1を表4に、第2データ群DA2を表5に示す。
In this first process, the same data as the post-classification basic data group DA00 is extracted as the analysis data group DA00 ′. However, in the process of repeated processing described later, another data group output by the data dividing unit 15 is extracted. The
[Step 4]
Based on the classification flags of the first data group DA1 and the second data group DA2 in the analysis data group DA00 ′ (in the first processing, the basic data group DA00 after classification: Table 3). Then, the analysis data group DA00 ′ is divided into two, and each data group is extracted. Table 4 shows the first data group DA1 output from the data row separation unit 7, and Table 5 shows the second data group DA2.

Figure 0004347099
Figure 0004347099

Figure 0004347099
Figure 0004347099

なお、以下では、適宜、第1データ群DA1を良品(OK品)データ群、第2データ群DA2を不良品(NG品)データ群と呼ぶ事にする。
[ステップ5]
次に、データ列抽出部8が、良品データ群DA1(表4)から、入力属性xj(1≦j≦4)の各々のデータ列を抽出する(S5)。このデータ列を1−xjデータ群と呼ぶ事にする。
In the following description, the first data group DA1 is appropriately referred to as a non-defective product (OK product) data group, and the second data group DA2 is referred to as a defective product (NG product) data group.
[Step 5]
Next, the data string extraction unit 8 extracts each data string of the input attribute xj (1 ≦ j ≦ 4) from the good product data group DA1 (Table 4) (S5). This data string is called a 1-xj data group.

同様に、データ列抽出部8は、不良品データ群DA2(表5)からも、入力属性xj(1≦j≦4)の各々のデータ列を抽出する(S5)。このデータ列を2−xjデータ群と呼ぶ事にする。   Similarly, the data string extraction unit 8 extracts each data string of the input attribute xj (1 ≦ j ≦ 4) from the defective product data group DA2 (Table 5) (S5). This data string is called a 2-xj data group.

1−xjデータ群を表6〜表9に、2−xjデータ群を表10〜表13に示す。   The 1-xj data group is shown in Tables 6 to 9, and the 2-xj data group is shown in Tables 10 to 13.

Figure 0004347099
Figure 0004347099

Figure 0004347099
Figure 0004347099

Figure 0004347099
Figure 0004347099

Figure 0004347099
Figure 0004347099

Figure 0004347099
Figure 0004347099

Figure 0004347099
Figure 0004347099

Figure 0004347099
Figure 0004347099

Figure 0004347099
Figure 0004347099

[ステップ6]
頻度演算部9は、ステップ5で良品データ群DA1から抽出された1−xjデータ群の各々、およびステップ5で不良品データ群DA2から抽出された2−xjデータ群の各々を、入力属性xjの値で昇順に並べ替える(並べ替え処理1)。そして、入力属性xjの個々の数値について、第1データ群におけるその数値以下のデータ個数の割合を表す1−xj頻度累積%と、第2データ群におけるその数値以下のデータ個数の割合を表す2−xj頻度累積%とを計算する(S6)。
[Step 6]
The frequency calculation unit 9 inputs each of the 1-xj data group extracted from the non-defective product data group DA1 in step 5 and each of the 2-xj data group extracted from the defective product data group DA2 in step 5 to the input attribute xj. The values are sorted in ascending order by the value of (sorting process 1). Then, for each numerical value of the input attribute xj, 1-xj frequency cumulative% representing the ratio of the number of data less than that value in the first data group and 2 representing the ratio of the number of data less than that value in the second data group. -Xj Frequency cumulative% is calculated (S6).

ここでは、表6〜表9を入力属性xjの値で昇順に並べ替えた表14〜表17を用い、各行(id)のデータについて表中でそのデータの位置以上の位置にあるデータ個数の、第1データ群の全データ数(=8)に対する割合を1−xj頻度累積%として計算している。例えば、表14では、8つのx1の値が1から4まで順に上から下に向かって並び、x1の同じ値が複数ある場合はidの順番で上から下に向かって並んでいるが、上から4番目のx1=1(id=12)に着目すると、この値を含んでそれより上の行にはデータが4つ(ここでは全部x1=1)あるので、1−x1頻度累積%は4/8=50%となる。同様に、表10〜表13を入力属性xjの値で昇順に並べ替えた表18〜表21を用い、各行(id)のデータについて表中でそのデータの位置以上の位置にあるデータ個数の、第2データ群の全データ数(=4)に対する割合を2−xj頻度累積%として計算している。   Here, Tables 14 to 17 in which Tables 6 to 9 are rearranged in ascending order by the value of the input attribute xj are used, and the number of data in each row (id) in the table is equal to or greater than the position of the data The ratio of the first data group to the total number of data (= 8) is calculated as 1-xj frequency cumulative%. For example, in Table 14, eight x1 values are arranged from top to bottom in order from 1 to 4, and when there are a plurality of the same values of x1, they are arranged from top to bottom in the order of id. Focusing on the 4th x1 = 1 (id = 12) from the beginning, since there are four data (all x1 = 1 in this case) including this value, the 1-x1 frequency cumulative% is 4/8 = 50%. Similarly, using Table 18 to Table 21 in which Table 10 to Table 13 are rearranged in ascending order by the value of the input attribute xj, the number of data in each row (id) is equal to or greater than the position of the data in the table. The ratio of the second data group to the total number of data (= 4) is calculated as 2-xj frequency cumulative%.

ここで計算した1−xj頻度累積%および2−xj頻度累積%の値を表14〜表21に示す。   The values of 1-xj frequency cumulative% and 2-xj frequency cumulative% calculated here are shown in Tables 14 to 21.

Figure 0004347099
Figure 0004347099

Figure 0004347099
Figure 0004347099

Figure 0004347099
Figure 0004347099

Figure 0004347099
Figure 0004347099

Figure 0004347099
Figure 0004347099

Figure 0004347099
Figure 0004347099

Figure 0004347099
Figure 0004347099

Figure 0004347099
Figure 0004347099

さらに、頻度演算部9は、1−xj頻度累積%が計算された良品データ群である1−xjデータ群のテーブルと、2−xj頻度累積%が計算された不良品データ群である2−xjデータ群のテーブルとを結合する(結合処理)。具体的には、入力属性x1について、表14と表18とを結合して表22(a)のx1頻度累積テーブルを、入力属性x2について、表15と表19とを結合して表23のx2頻度累積テーブルを、入力属性x3について、表16と表20とを結合して表24のx3頻度累積テーブルを、入力属性x4について、表17と表21とを結合して表25のx4頻度累積テーブルを、それぞれ作成する(S6)。   Further, the frequency calculation unit 9 is a table of 1-xj data groups that are non-defective product data groups for which 1-xj frequency cumulative% is calculated, and 2-items that are defective product data groups for which 2-xj frequency cumulative% is calculated. The table of the xj data group is joined (joining process). Specifically, for the input attribute x1, Table 14 and Table 18 are combined to combine the x1 frequency accumulation table of Table 22 (a), and for the input attribute x2, Table 15 and Table 19 are combined to The x2 frequency accumulation table is combined with Table 16 and Table 20 for the input attribute x3 to combine the x3 frequency accumulation table of Table 24, and the input attribute x4 is combined with Table 17 and Table 21 to generate the x4 frequency of Table 25. Each accumulation table is created (S6).

Figure 0004347099
Figure 0004347099

Figure 0004347099
Figure 0004347099

Figure 0004347099
Figure 0004347099

Figure 0004347099
Figure 0004347099

Figure 0004347099
Figure 0004347099

Figure 0004347099
Figure 0004347099

さらに、頻度演算部9は、表22(a)、表23、表24、表25の各々の頻度累積テーブルを、入力属性xjの値で昇順に並べ替える(並べ替え処理2)。そして、並べ替え処理2を行った後、1−xj頻度累積%および2−xj頻度累積%の空欄に、その直上の値を代入する(代入処理)。その後、入力属性xjにおいて同じ値が続いている行に対し、それらの行のうちの最終行のデータのみを採用する(重複処理)。これにより表26〜表29を作成する。例えば表22(a)から表26を作成する場合、表22(a)で、並べ替え処理2を行うと、1−x1頻度累積%の列の各値と2−x1頻度累積%の列の各値とが、それぞれの順序を保ったまま、各値の間に空欄をはさんで並べられる(表22(b))。次の代入処理では、これら空欄の処理を行なう(表22(c)の色付け部分)。例えば、2−x1頻度累積%の列にはx1=2に対応する値が存在しないので、代入処理により、2−x1頻度累積%のx1=2に対応する欄に、その直上のx1=1に対応する2−x1頻度累積%の値25%を代入する。この表22(c)には、x1の値として1が5つ、2が2つ、3が2つ、4が3つあるので、重複処理により、各々のx1の値に対して、その最終行のデータを採用する。例えば、x1=1に対応する1−x1頻度累積%の値として最終行のx1=1に対応する値50%を採用し、x1=2に対応する1−x1頻度累積%の値として最終行のx1=2に対応する値75%を採用する。また、x1=4に対応する2−x1頻度累積%の値として最終行のx1=4に対応する値100%を採用する。   Furthermore, the frequency calculation unit 9 sorts the frequency accumulation tables of Table 22 (a), Table 23, Table 24, and Table 25 in ascending order by the value of the input attribute xj (sorting process 2). Then, after performing the rearrangement process 2, the value immediately above is substituted into the blanks of 1-xj frequency accumulation% and 2-xj frequency accumulation% (substitution process). Thereafter, only the data of the last line among the lines with the same value in the input attribute xj is adopted (duplicate processing). As a result, Tables 26 to 29 are created. For example, when creating the table 26 from the table 22 (a), if the sorting process 2 is performed in the table 22 (a), each value of the 1-x1 frequency accumulation% column and the 2-x1 frequency accumulation% column Each value is arranged with a blank space between each value while maintaining the respective order (Table 22 (b)). In the next substitution process, these blanks are processed (colored portion in Table 22 (c)). For example, since there is no value corresponding to x1 = 2 in the column of 2-x1 frequency accumulation%, x1 = 1 immediately above the column corresponding to x1 = 2 of 2-x1 frequency accumulation% is obtained by substitution processing. The value 25% of the 2-x1 frequency accumulation% corresponding to is substituted. In this Table 22 (c), there are 5 x1, 2 is 2, 3 is 2, 4 is 3, and the final value for each x1 value is obtained by duplication processing. Adopt the row data. For example, the value 50% corresponding to x1 = 1 of the last row is adopted as the value of 1-x1 frequency cumulative% corresponding to x1 = 1, and the value of 1-x1 frequency cumulative% corresponding to x1 = 2 is adopted as the final row. A value of 75% corresponding to x1 = 2 is adopted. Further, the value 100% corresponding to x1 = 4 in the last row is adopted as the value of 2-x1 frequency cumulative% corresponding to x1 = 4.

Figure 0004347099
Figure 0004347099

Figure 0004347099
Figure 0004347099

Figure 0004347099
Figure 0004347099

Figure 0004347099
Figure 0004347099

こうして、表26〜表29に示すように、入力属性xjの各値に対して、良品データ群である第1データ群において入力属性がその数値以下であるデータ個数の割合を表す1−xj頻度累積%(A;第1の頻度)と、不良品データ群である第2データ群において入力属性がその数値以下であるデータ個数の割合を表す2−xj頻度累積%(B;第2の頻度)との双方が算出される(S6)。   Thus, as shown in Tables 26 to 29, for each value of the input attribute xj, the 1-xj frequency representing the ratio of the number of data whose input attribute is less than or equal to the numerical value in the first data group which is a non-defective data group Cumulative% (A; first frequency) and 2-xj frequency cumulative% (B; second frequency) representing the ratio of the number of data whose input attributes are less than or equal to the numerical value in the second data group that is a defective product data group ) Are calculated (S6).

なお、上記ステップ4〜6では、表26〜表29のxj頻度累積テーブルを作成するのに、データ行分離処理(表4、表5)→データ列抽出処理(表6〜表13)→並べ替え処理1→1−xj頻度累積%および2−xj頻度累積%の計算処理(表14〜表21)→結合処理(表22(a)、表23、表24、表25)→並べ替え処理2→代入処理→重複処理(表26〜表29)を施していたが、これらの個別の処理を行わずに、一括して直接的に、表26〜表29のxj頻度累積テーブルを作成するように、計算しても構わない。また、上記の個別処理のうちの、幾つかの処理のみを一括に処理してもよい。
[ステップ7]
次に、頻度累積差演算部10が、入力属性xjの各値に対して、不良品の2−xj頻度累積%(B)から良品の1−xj頻度累積%(A)を減算した第1のxj頻度累積差(=B−A)、および、良品の1−xj頻度累積%(A)から不良品の2−xj頻度累積%(B)を減算した第2のxj頻度累積差(=A−B)という、AとBとの差分を演算する(S7)。第1のxj頻度累積差(=B−A)、および、第2のxj頻度累積差(=A−B)を総称して、xj頻度累積差と呼ぶ。このxj頻度累積差は、特許請求の範囲における入力属性条件評価指標に対応する。
In the above steps 4 to 6, the xj frequency accumulation table of Table 26 to Table 29 is created in order to create the data row separation process (Tables 4 and 5) → the data string extraction process (Tables 6 to 13) → the arrangement. Replacement process 1 → Calculation process of 1-xj frequency accumulation% and 2-xj frequency accumulation% (Table 14 to Table 21) → Combination process (Table 22 (a), Table 23, Table 24, Table 25) → Reordering process 2 → Substitution process → Duplicate process (Tables 26 to 29) has been performed, but the xj frequency accumulation tables of Table 26 to Table 29 are created directly and collectively without performing these individual processes. As such, it may be calculated. Further, only some of the individual processes may be processed at once.
[Step 7]
Next, the frequency accumulation difference calculation unit 10 subtracts the non-defective 1-xj frequency accumulation% (A) from the defective 2-xj frequency accumulation% (B) for each value of the input attribute xj. Xj frequency cumulative difference (= B−A), and second xj frequency cumulative difference (= B−A) obtained by subtracting 2-xj frequency cumulative% (B) of defective products from 1−xj frequency cumulative percent (A) of non-defective products A difference between A and B, that is, (A−B) is calculated (S7). The first xj frequency cumulative difference (= B−A) and the second xj frequency cumulative difference (= A−B) are collectively referred to as an xj frequency cumulative difference. This xj frequency cumulative difference corresponds to the input attribute condition evaluation index in the claims.

xj頻度累積差(第1のxj頻度累積差(=B−A)、第2のxj頻度累積差(=A−B))の計算結果を表30〜表33に示す。また、入力属性xjの値と、良品の1−xj頻度累積%(A)、不良品の2−xj頻度累積%(B)、第1のxj頻度累積差(=B−A)、第2のxj頻度累積差(=A−B)との関係を図3〜図6に示す。   Tables 30 to 33 show the calculation results of the xj frequency cumulative difference (first xj frequency cumulative difference (= BA), second xj frequency cumulative difference (= AB)). Further, the value of the input attribute xj, the non-defective 1-xj frequency cumulative% (A), the defective 2-ch frequency cumulative% (B), the first xj frequency cumulative difference (= B−A), the second FIG. 3 to FIG. 6 show the relationship with the xj frequency cumulative difference (= A−B).

Figure 0004347099
Figure 0004347099

Figure 0004347099
Figure 0004347099

Figure 0004347099
Figure 0004347099

Figure 0004347099
Figure 0004347099

入力属性xjの各数値におけるxj頻度累積差(第1のxj頻度累積差(=B−A)、第2のxj頻度累積差(=A−B))は、入力属性xjがその数値以下となる範囲と、入力属性xjがその数値を超える範囲との2分化によって、良品の第1データ群DA1と不良品の第2データ群DA2とがうまく切り分けられているかどうかを表す指標である。   The xj frequency cumulative difference (first xj frequency cumulative difference (= B−A), second xj frequency cumulative difference (= A−B)) in each numerical value of the input attribute xj indicates that the input attribute xj is less than or equal to the numerical value. This is an index indicating whether the first non-defective product data group DA1 and the second non-defective product data group DA2 are well separated by being divided into two ranges of the input attribute xj exceeding the numerical value.

すなわち、入力属性xjの各数値における第1のxj頻度累積差(=B−A)は、「入力属性xjがその数値以下であれば不良品の第2データ群DA2に属するデータであり、入力属性xjがその数値を超えていれば良品の第1データ群DA1に属するデータである」という相関ルールの確からしさを表す。   That is, the first xj frequency cumulative difference (= B−A) in each numerical value of the input attribute xj is “if the input attribute xj is equal to or smaller than the numerical value, it is data belonging to the second data group DA2 of defective products and input. It represents the probability of the correlation rule that if the attribute xj exceeds the numerical value, the data belongs to the first non-defective data group DA1.

また、入力属性xjの各数値における第2のxj頻度累積差(=A−B)は、「入力属性xjがその数値を超えていれば不良品の第2データ群DA2に属するデータであり、入力属性xjがその数値以下であれば良品の第1データ群DA1に属するデータである」という相関ルールの確からしさを表す。   Further, the second xj frequency cumulative difference (= A−B) in each numerical value of the input attribute xj is “data belonging to the second data group DA2 of defective products if the input attribute xj exceeds the numerical value, If the input attribute xj is equal to or less than the numerical value, it indicates the likelihood of the correlation rule that it is data belonging to the first non-defective data group DA1.

上記2つの相関ルールの各々は、「入力属性が当該入力属性条件を満たせば、分析データ群DA00’中の第2データ群DA2に属するデータであり、入力属性が当該入力属性条件を満たさなければ、分析データ群DA00’中の第1データ群DA1に属するデータである」という第1の相関ルールである。   Each of the two correlation rules is “if the input attribute satisfies the input attribute condition, the data belongs to the second data group DA2 in the analysis data group DA00 ′, and if the input attribute does not satisfy the input attribute condition, The first association rule is “data belonging to the first data group DA1 in the analysis data group DA00 ′”.

上記のステップ4〜7の処理が、特許請求の範囲における第1の評価ステップに対応する。また上記ステップ4〜7の処理に用いた、データ行分離部7、データ列抽出部8、頻度演算部(頻度演算手段)9、および、頻度累積差演算部(差分演算手段)10が、特許請求の範囲における第1の評価手段を構成している。
[ステップ8]
入力属性条件決定部11が、各入力属性xjについて、xjの個々の値に対応するxj頻度累積差(第1のxj頻度累積差、または、第2のxj頻度累積差)の中で、その値が最大となる条件(入力属性xjの値、および、xj頻度累積差のタイプ(第1のxj頻度累積差、または、第2のxj頻度累積差))を抽出する(S8)。表30〜表33には、この抽出した条件に色付けをして示している。
The processes in steps 4 to 7 correspond to the first evaluation step in the claims. In addition, the data row separation unit 7, the data string extraction unit 8, the frequency calculation unit (frequency calculation unit) 9, and the frequency cumulative difference calculation unit (difference calculation unit) 10 used for the processes in steps 4 to 7 are patented. It constitutes the first evaluation means in the claims.
[Step 8]
The input attribute condition determination unit 11 determines, for each input attribute xj, among the xj frequency cumulative difference (first xj frequency cumulative difference or second xj frequency cumulative difference) corresponding to each value of xj. A condition that maximizes the value (the value of the input attribute xj and the type of xj frequency cumulative difference (first xj frequency cumulative difference or second xj frequency cumulative difference)) is extracted (S8). In Tables 30 to 33, the extracted conditions are colored.

上記抽出された入力属性xjの値を入力属性閾値xj−thと呼ぶことにする。入力属性閾値xj−thは、図3〜図6を参照して分かるように、xj≦xj−thの範囲と、xj>xj−thの範囲との2分化によって、良品の第1データ群DA1と、不良品の第2データ群DA2との切分けが最も容易となる入力属性xjの値を示している。   The value of the extracted input attribute xj will be referred to as an input attribute threshold value xj-th. As can be seen with reference to FIGS. 3 to 6, the input attribute threshold value xj-th is divided into a range of xj ≦ xj-th and a range of xj> xj-th, so that the non-defective first data group DA1. And the value of the input attribute xj that makes it easy to separate the defective product from the second data group DA2.

なお、xj頻度累積差のタイプとして第1のxj頻度累積差(=B−A)が抽出された場合は、「xj≦xj−th」なる入力属性条件が不良品の第2データ群DA2に対応し、第2のxj頻度累積差(=A−B)が抽出された場合は、「xj>xj−th」なる入力属性条件が不良品の第2データ群DA2に対応する。   When the first xj frequency cumulative difference (= B−A) is extracted as the type of xj frequency cumulative difference, the input attribute condition “xj ≦ xj−th” is included in the second data group DA2 of defective products. Correspondingly, when the second xj frequency cumulative difference (= A−B) is extracted, the input attribute condition “xj> xj−th” corresponds to the defective second data group DA2.

入力属性条件決定部11が、各入力属性xjについて、不良品の第2データ群DA2に対応する条件として決定した入力属性条件を表34に示す。一例として、入力属性x2については「x2>2」なる入力属性条件が決定されているが、この条件は、良品の第1データ群DA1と分離して、不良品の第2データ群DA2を高い確度で検出できる条件を示している。また、決定された入力属性条件「x2>2」に対する排他的条件である「x2≦2」は、不良品の第2データ群DA2と分離して、良品の第1データ群DA1を高い確度で検出できる条件を示している。これらのことは、図4を参照すると、より理解しやすい。   Table 34 shows the input attribute conditions determined by the input attribute condition determination unit 11 as conditions corresponding to the second data group DA2 of defective products for each input attribute xj. As an example, the input attribute condition “x2> 2” is determined for the input attribute x2, but this condition is separated from the non-defective first data group DA1 and the second data group DA2 of defective products is high. The conditions that can be detected with accuracy are shown. Also, “x2 ≦ 2”, which is an exclusive condition for the determined input attribute condition “x2> 2”, separates the defective second data group DA2 from the defective first data group DA1 with high accuracy. The conditions that can be detected are shown. These can be better understood with reference to FIG.

Figure 0004347099
Figure 0004347099

上記のように、入力属性条件決定部11は、第1の頻度(良品の1−xj頻度累積%)と第2の頻度(不良品の2−xj頻度累積%)との差分(xj頻度累積差)を、良品の第1データ群と不良品の第2データ群とを切り分ける際の入力属性条件評価指標として用いているから、ラベル階層構造を予め定義する事なく、かつ、簡単な処理で、上記第1の相関ルールを満たす入力属性条件を決定する事ができる。   As described above, the input attribute condition determination unit 11 determines the difference (xj frequency accumulation) between the first frequency (1-xj frequency accumulation% of non-defective products) and the second frequency (2-xj frequency accumulation% of defective products). Difference) is used as an input attribute condition evaluation index when separating the first data group of non-defective products and the second data group of defective products, so that the label hierarchy structure is not defined in advance and can be performed with simple processing. The input attribute condition satisfying the first correlation rule can be determined.

なお、上記では、複数の入力属性についてステップ5〜ステップ8の処理を一括して行っているが、jの値を1から4まで順次増加させてステップ5〜ステップ8の処理を繰り返してもよい。また、ここでは、入力属性条件評価指標としてxj頻度累積差を用いているが、データの偏りの度合いを評価する指標、例えば、非特許文献1に記載のGini分散指標の改善度、情報利得(ゲイン)等を用いて、入力属性条件を決定してもよい。
[ステップ9]
不良品分離度演算部12が、入力属性条件決定部11で決定した入力属性条件(表34)の各々に対し、分類後基本データ群DA00(分析データ群DA00’ではない)の中で、該入力属性条件を満たすデータの個数(表35の「DA1+DA2」列)と、該入力属性条件を満たし、かつ、不良品の第2データ群DA2に該当するデータの個数(表35の「DA2」列)とを集計する。そして、表35の「DA2」列の値を、「DA1+DA2」列の値で除算した、不良品分離度を演算する。各入力属性条件の不良品分離度は、該入力属性条件を満たすデータの中に第2データ群DA2が含まれるデータ個数の割合であって、該入力属性条件による不良品切り出しの確度(分類後基本データ群DA00の中で該入力属性条件に属するデータを母集団としたときの不良率)を表しており、特許請求の範囲における第2データ群分離度に対応する。
In the above description, the processing from step 5 to step 8 is collectively performed for a plurality of input attributes. However, the value of j may be sequentially increased from 1 to 4 and the processing from step 5 to step 8 may be repeated. . Here, although the xj frequency cumulative difference is used as the input attribute condition evaluation index, an index for evaluating the degree of data bias, for example, the improvement degree of the Gini dispersion index described in Non-Patent Document 1, the information gain ( The input attribute condition may be determined using (Gain) or the like.
[Step 9]
For each of the input attribute conditions (Table 34) determined by the input attribute condition determination unit 11, the defective product separation degree calculation unit 12 uses the classified basic data group DA00 (not the analysis data group DA00 ′). The number of data satisfying the input attribute condition ("DA1 + DA2" column in Table 35) and the number of data satisfying the input attribute condition and corresponding to the defective second data group DA2 ("DA2" column in Table 35) ). Then, the defective product separation degree is calculated by dividing the value in the “DA2” column of Table 35 by the value in the “DA1 + DA2” column. The defective product separation degree of each input attribute condition is the ratio of the number of data in which the second data group DA2 is included in the data satisfying the input attribute condition, and the probability of defective product extraction by the input attribute condition (after classification) This represents a defect rate when data belonging to the input attribute condition in the basic data group DA00 is a population, and corresponds to the second data group separation degree in the claims.

Figure 0004347099
Figure 0004347099

表35は、上記不良品分離度演算部12による演算結果と併せて、その「Total」行に、分類後基本データ群DA00の中の、データ総数(=12:「DA1+DA2」列)、不良品の第2データ群DA2の個数(=4:「DA2」列)、および、不良品含有率(=4/12=0.333:「不良品分離度」列)を示したテーブルである。不良品含有率は、分類後基本データ群DA00の中に含まれる第2データ群DA2のデータ個数の割合であって、分類後基本データ群DA00の全データを母集団としたときの不良率を表しており、特許請求の範囲における第2データ群含有率に対応する。   Table 35 shows the total number of data in the basic data group DA00 after classification (= 12: “DA1 + DA2” column), defective products, in the “Total” row, together with the calculation result by the defective product separation degree calculation unit 12. Is a table showing the number of second data groups DA2 (= 4: “DA2” column) and the defective product content rate (= 4/12 = 0.333: “defective product separation” column). The defective product content rate is a ratio of the number of data in the second data group DA2 included in the basic data group DA00 after classification, and is a defective rate when all data in the basic data group DA00 after classification is a population. This corresponds to the content ratio of the second data group in the claims.

表35の各列の意味については、これらをベン図で表現した図7を参照すると理解しやすい。
[ステップ10]
要因抽出部13が、表35の、各入力属性条件の中で、分類後基本データ群DA00の不良品含有率(=0.333:「Total」行の「不良品分離度」列)よりも大きい値の不良品分離度をもつ入力属性条件を、不良品の第2データ群DA2の要因を示す情報、すなわち不良品に対応する出力属性条件の要因を示す情報として抽出する。そして、この結果を、分析結果データ格納部20に保存する。
The meaning of each column in Table 35 can be easily understood with reference to FIG.
[Step 10]
The factor extraction unit 13 is more than the defective product content rate of the basic data group DA00 after classification (= 0.333: “Defective Product Separation” column in the “Total” row) in each input attribute condition in Table 35. An input attribute condition having a large value of defective product separation is extracted as information indicating a factor of the second data group DA2 of defective products, that is, information indicating a factor of an output attribute condition corresponding to the defective product. Then, this result is stored in the analysis result data storage unit 20.

表35の例では、x1〜x4の全ての入力属性条件とも、分類後基本データ群DA00の不良品含有率よりも高い不良品分離度を有しており、全ての条件が抽出される(表36)。なお、表36の各入力属性条件は、分類後基本データ群DA00の中からランダムに選んだサンプルよりも高い割合で、不良品の第2データ群DA2を含む条件であり、不良品の第2データ群DA2に対応する出力属性条件の要因を示している。   In the example of Table 35, all the input attribute conditions x1 to x4 have a defective product separation degree higher than the defective product content rate of the basic data group DA00 after classification, and all the conditions are extracted (Table 36). Each input attribute condition in Table 36 is a condition that includes the second data group DA2 of defective products at a higher rate than the sample randomly selected from the basic data group DA00 after classification, and the second data group of defective products. The cause of the output attribute condition corresponding to the data group DA2 is shown.

Figure 0004347099
Figure 0004347099

以上のようにして、問題事象(不良品の第2データ群DA2)の要因として、「x1>2」、「x2>2」、「x3>2」、「x4≦10」という入力属性条件が抽出された。   As described above, the input attribute conditions “x1> 2,” “x2> 2,” “x3> 2,” “x4 ≦ 10” are caused as the cause of the problem event (defective product second data group DA2). Extracted.

上記のステップ1〜ステップ10にて、問題事象(不良品の第2データ群DA2)の要因を抽出できた。しかし、その過程(ステップ6〜7)で演算した個々の入力属性に対する入力属性条件評価指標(xj頻度累積差)には、他の入力属性の影響が外乱として含まれており、場合によっては、入力属性条件評価指標(xj頻度累積差)の確度を落としてしまっている恐れがある。また、ある入力属性xjにおいて、問題事象の要因が、「xj≦xj−th1」、および、「xj>xj−th2」という2タイプの場合には、それらのうちの一方の要因しか抽出されない。これらの点を解消するには、さらに、下記ステップによる処理を行うことが好ましい。
[ステップ11]
頻度累積比率演算部14が、入力属性条件決定部11(ステップ8)で抽出した各入力属性閾値xj−th(表30〜表33参照)について、良品の1−xj頻度累積%(A)に対する、不良品の2−xj頻度累積%(B)の比率(=B/A:以下、頻度累積下比率と呼ぶ)、または、100から良品の1−xj頻度累積%(A)を引いた値(=100−A)に対する、100から不良品の2−xj頻度累積%(B)を引いた値(=100−B)の比率(=(100−B)/(100−A):以下、頻度累積上比率と呼ぶ)を、分割ルール評価値として計算する。
In steps 1 to 10, the cause of the problem event (defective product second data group DA2) could be extracted. However, the input attribute condition evaluation index (xj frequency cumulative difference) for each input attribute calculated in the process (steps 6 to 7) includes the influence of other input attributes as disturbances. There is a possibility that the accuracy of the input attribute condition evaluation index (xj frequency cumulative difference) has been lowered. Further, in the case of a certain input attribute xj, if the cause of the problem event is of two types “xj ≦ xj−th1” and “xj> xj−th2”, only one of them is extracted. In order to eliminate these points, it is preferable to further perform processing according to the following steps.
[Step 11]
For each input attribute threshold value xj-th (see Tables 30 to 33) extracted by the input attribute condition determination unit 11 (step 8), the frequency accumulation ratio calculation unit 14 performs the non-defective 1-xj frequency accumulation% (A). , A ratio of 2-xj frequency cumulative% (B) of defective products (= B / A: hereinafter referred to as frequency cumulative lower ratio), or a value obtained by subtracting 1-xj frequency cumulative% (A) of non-defective products from 100 Ratio (= (100−B) / (100−A)) (= (100−B) / (100−A)): (Referred to as cumulative frequency ratio) is calculated as the division rule evaluation value.

なお、入力属性条件決定部11で決定された入力属性条件が、「xj≦xj−th」なるタイプの場合には(入力属性条件決定部11で第1のxj頻度累積差が抽出された場合には)、分割ルール評価値として頻度累積下比率(=B/A)を計算する。ここで、頻度累積下比率(=B/A)は、「xj≦xj−th」という入力属性条件により、良品の第1データ群DA1と分離して不良品の第2データ群DA2を検出できる割合を表している。   When the input attribute condition determined by the input attribute condition determining unit 11 is of the type “xj ≦ xj−th” (when the first xj frequency cumulative difference is extracted by the input attribute condition determining unit 11) ), The frequency cumulative lower ratio (= B / A) is calculated as the division rule evaluation value. Here, the frequency cumulative lower ratio (= B / A) can be detected separately from the non-defective first data group DA1 and the defective second data group DA2 according to the input attribute condition “xj ≦ xj−th”. Represents a percentage.

また、入力属性条件決定部11で決定された入力属性条件が、「xj>xj−th」なるタイプの場合には(入力属性条件決定部11で第2のxj頻度累積差が抽出された場合には)、分割ルール評価値として頻度累積上比率(=(100−B)/(100−A))を計算する。ここで、頻度累積上比率(=(100−B)/(100−A))は、「xj>xj−th」という入力属性条件により、良品の第1データ群DA1と分離して不良品の第2データ群DA2を検出できる割合を表している。   When the input attribute condition determined by the input attribute condition determining unit 11 is of the type “xj> xj−th” (when the second xj frequency cumulative difference is extracted by the input attribute condition determining unit 11) The frequency cumulative upper ratio (= (100−B) / (100−A)) is calculated as the division rule evaluation value. Here, the cumulative frequency ratio (= (100−B) / (100−A)) is separated from the non-defective first data group DA1 according to the input attribute condition “xj> xj−th”. The ratio at which the second data group DA2 can be detected is shown.

言い換えると、分割ルール評価値(頻度累積下比率または頻度累積上比率)は、各入力属性条件に対して、「入力属性xjが当該入力属性条件を満たせば、第2データ群DA2に含まれるデータである」という第2の相関ルールの確からしさを表している。   In other words, the division rule evaluation value (frequency cumulative lower ratio or frequency cumulative upper ratio) is “data included in the second data group DA2 if the input attribute xj satisfies the input attribute condition” for each input attribute condition. The probability of the second association rule “is” is expressed.

各入力属性条件に対する、分割ルール評価値(頻度累積下比率または頻度累積上比率)を表37に示す。   Table 37 shows the division rule evaluation values (frequency cumulative lower ratio or frequency cumulative upper ratio) for each input attribute condition.

Figure 0004347099
Figure 0004347099

[ステップ12]
データ分割部15が、上記ステップ11の分割ルール評価値(頻度累積下比率または頻度累積上比率:表37)の中で、その値が最大となる入力属性条件を抽出する。
[Step 12]
The data dividing unit 15 extracts an input attribute condition that maximizes the value among the division rule evaluation values (frequency cumulative lower ratio or frequency cumulative upper ratio: Table 37) in step 11 above.

表37を参照して、入力属性条件「x2>2」は、全ての入力属性条件の中で最大の分割ルール評価値をもち、分割ルール評価値=頻度累積上比率=∞となっている。これは、入力属性条件「x2>2」にて、良品の第1データ群DA1と完全に分離して、不良品の第2データ群DA2を検出できる事を示している。   Referring to Table 37, the input attribute condition “x2> 2” has the largest division rule evaluation value among all the input attribute conditions, and division rule evaluation value = frequency cumulative upper ratio = ∞. This indicates that, under the input attribute condition “x2> 2,” the defective second data group DA2 can be detected by being completely separated from the non-defective first data group DA1.

ここで、別の見方をすると、「x2>2」なる入力属性条件は、他の入力属性(x1、x3、x4)が如何なる値であっても、不良品の第2データ群DA2に対応するから、他の入力属性(x1、x3、x4)の入力属性条件を決定する上では(ステップ8)、または、入力属性条件評価指標(xj頻度累積差)を演算する上では(ステップ7)、外乱因子となっている可能性がある。このような場合、他の入力属性(x1、x3、x4)の入力属性条件は、「x2>2」に該当するデータを、分析データ群DA00’から除外して求める方が望ましい。   From another point of view, the input attribute condition “x2> 2” corresponds to the defective second data group DA2 regardless of the values of the other input attributes (x1, x3, x4). From determining the input attribute conditions of other input attributes (x1, x3, x4) (step 8), or calculating the input attribute condition evaluation index (xj frequency cumulative difference) (step 7), It may be a disturbance factor. In such a case, it is desirable to obtain the input attribute conditions of the other input attributes (x1, x3, x4) by excluding data corresponding to “x2> 2” from the analysis data group DA00 ′.

そこで、データ分割部15は、上記抽出した「x2>2」なる入力属性条件に基づいて、分析データ群DA00’を、「x2>2」を満たす要因データ群と、「x2>2」を満たさない(「x2≦2」を満たす)他データ群とに分割する。要因データ群を表38に、他データ群を表39に示す。   Therefore, the data dividing unit 15 satisfies the analysis data group DA00 ′ based on the extracted input attribute condition “x2> 2”, the factor data group satisfying “x2> 2”, and “x2> 2”. It is divided into other data groups that do not exist (satisfying “x2 ≦ 2”). Table 38 shows the factor data group, and Table 39 shows the other data group.

なお、ここでは、分割ルール評価値として、頻度累積下比率または頻度累積上比率を演算しているが、他の評価指標、例えば、非特許文献1に記載のGini分散指標の改善度、情報利得(ゲイン)を用いてもよい。   Here, the frequency cumulative lower ratio or the frequency cumulative upper ratio is calculated as the division rule evaluation value, but other evaluation indexes, for example, the improvement degree of the Gini variance index described in Non-Patent Document 1, the information gain (Gain) may be used.

Figure 0004347099
Figure 0004347099

Figure 0004347099
Figure 0004347099

[ステップ13]
分析データ群抽出部6が、ステップ12で分割されたデータ群のうち、他データ群を次の分析データ群DA00’として抽出する。そして、終了条件判定部16で終了条件を満たしていると判定されるまで、上記のステップ3〜ステップ12の一連の処理が繰り返される。本実施形態の終了条件判定部16は、繰返し処理中の上記ステップ4において不良品の第2データ群DA2のデータ個数が0となった場合を終了条件と判定するようになっている。このように不良品の第2データ群DA2のデータ個数が0となるまで繰り返し処理を実行することにより、詳細な要因分析結果が得られる。
[Step 13]
The analysis data group extraction unit 6 extracts another data group from the data group divided in step 12 as the next analysis data group DA00 ′. Then, the series of processing from step 3 to step 12 is repeated until the end condition determining unit 16 determines that the end condition is satisfied. The end condition determination unit 16 according to the present embodiment determines that the end condition is a case where the number of data in the second data group DA2 of defective products becomes 0 in the above-described step 4 during the iterative process. As described above, detailed factor analysis results can be obtained by repeatedly performing the process until the number of data in the second data group DA2 of defective products becomes zero.

なお、終了条件は、第2データ群DA2のデータ個数に基づく他の終了条件、例えば、(1)繰返し処理中の上記ステップ4において第2データ群DA2のデータ個数が所定数以下となった場合、(2)繰返し処理中の上記ステップ4において第1データ群DA1のデータ個数に対する第2データ群DA2のデータ個数の割合が所定割合以下となった場合、(3)繰返し処理中の上記ステップ12で抽出された入力属性条件の分割ルール評価値が所定の値を下回った場合等としてもよい。これらのような終了条件を用いた場合、より簡潔で十分な要因分析結果を得ることができる。さらに、簡潔な要因分析結果を得ることを優先する場合には、終了条件を単に繰返し処理を所定回数行った場合としたり、終了条件判定部16を省いて、可能な限り繰り返し処理を行うようにしたりしてもよい。   Note that the end condition is another end condition based on the number of data in the second data group DA2, for example, (1) when the number of data in the second data group DA2 is equal to or less than a predetermined number in the above step 4 during the repetitive processing. (2) When the ratio of the number of data in the second data group DA2 to the number of data in the first data group DA1 is equal to or less than a predetermined ratio in the above step 4 during the iterative process, (3) step 12 during the iterative process. The division rule evaluation value of the input attribute condition extracted in (1) may be lower than a predetermined value. When such termination conditions are used, a simpler and sufficient factor analysis result can be obtained. Furthermore, when priority is given to obtaining a simple factor analysis result, the end condition is simply set to the case where the iterative process is performed a predetermined number of times, or the end condition determining unit 16 is omitted to perform the iterative process as much as possible. Or you may.

2回目のステップ9における、不良品分離度演算部12の演算結果を表40(1回目の表35に対応)に示す。表40の例では、x1、x3、x4の入力属性条件が、分類後基本データ群DA00の不良品含有率(第2データ群含有率)よりも高い不良品分離度(第2データ群分離度)を有しており、これらの条件が抽出される(2回目のステップ10:表41)。一方、x2の入力属性条件(x2≦1)における不良品分離度(第2データ群分離度)は、分類後基本データ群DA00の不良品含有率よりも低くなっているので、x2の入力属性条件は抽出しない。   Table 40 (corresponding to Table 35 for the first time) shows the calculation result of the defective product separation degree calculation unit 12 in Step 9 for the second time. In the example of Table 40, the input attribute condition of x1, x3, and x4 has a defective product separation degree (second data group separation degree) higher than the defective product content rate (second data group content rate) of the basic data group DA00 after classification. These conditions are extracted (second step 10: Table 41). On the other hand, since the defective product separation degree (second data group separation degree) under the input attribute condition (x2 ≦ 1) of x2 is lower than the defective product content rate of the basic data group DA00 after classification, the input attribute of x2 Condition is not extracted.

Figure 0004347099
Figure 0004347099

Figure 0004347099
Figure 0004347099

以上のようにして、2回目の処理(分類後基本データ群DA00の中で「x2≦2」を満たすデータを分析データ群とした処理)によって、問題事象(不良品の第2データ群DA2)の要因として、「x1>2」、「x3>2」、「x4≦10」という入力属性条件が抽出された(表41)。   As described above, the problem event (the second data group DA2 of defective products) is obtained by the second processing (processing in which the data satisfying “x2 ≦ 2” in the basic data group DA00 after classification is set as the analysis data group). As input factors, input attribute conditions of “x1> 2”, “x3> 2”, and “x4 ≦ 10” were extracted (Table 41).

また、2回目のステップ11で演算された、分割ルール評価値(頻度累積下比率または頻度累積上比率)を表42(1回目の表37に対応)に示す。この例の場合、分割ルール評価値は、「x1>2」と「x4≦10」において、最大の4となっているが、データ分割部15は、これらのうちの一方を選択する。この選択基準には一定のルールがあればよいが、例えば、入力属性xjの番号jが若いものを優先し、「x1>2」を選択する(2回目のステップ12)。   Further, the division rule evaluation values (frequency cumulative lower ratio or frequency cumulative upper ratio) calculated in the second step 11 are shown in Table 42 (corresponding to the first table 37). In this example, the division rule evaluation value is a maximum of 4 in “x1> 2” and “x4 ≦ 10”, but the data division unit 15 selects one of these. This selection criterion should have a certain rule. For example, the input attribute xj with a smaller number j is given priority, and “x1> 2” is selected (step 12 in the second time).

Figure 0004347099
Figure 0004347099

データ分割部15が分割したデータ群のうち、他データ群(2回目の分析データ群の中で、「x1≦2」を満たすデータ群)が、3回目の分析データ群として分析データ群抽出部6によって抽出される(表43)。しかし、表43の3回目の分析データ群には、不良品のデータ(第2データ群DA2;y=2)が含まれていなかったため、3回目のステップ4で(2回目の要因抽出まで行って)繰り返し処理が終了した。   Of the data group divided by the data dividing unit 15, another data group (a data group satisfying “x1 ≦ 2” in the second analysis data group) is an analysis data group extraction unit as the third analysis data group 6 (Table 43). However, since the analysis data group for the third time in Table 43 did not include defective product data (second data group DA2; y = 2), in step 4 for the third time (up to the second factor extraction). ) Repeat processing has been completed.

Figure 0004347099
Figure 0004347099

上記のような繰り返しの処理によって、繰り返し処理を行なわない場合に比べて、より詳細な要因分析結果が得られる。   A more detailed factor analysis result can be obtained by the repeated processing as described above than when the repeated processing is not performed.

また、繰り返し処理を行わない場合に、外乱の影響により入力属性条件評価指標(xj頻度累積差)の確度が低かったとしても、繰り返し処理を行うことにより、この問題を解消できる。   Further, when the repeated processing is not performed, even if the accuracy of the input attribute condition evaluation index (xj frequency cumulative difference) is low due to the influence of disturbance, this problem can be solved by performing the repeated processing.

さらに、ある入力属性において、不良品の第2データ群に対応する出力属性条件の要因が、「入力属性が閾値以下である」、および、「入力属性が閾値を超える」という2タイプの場合においても、繰り返しの処理によって、それらの双方の要因を抽出することができる。
[ステップ14]
ステップ10の繰り返し処理毎に抽出された入力属性条件(表35、表41)をまとめた抽出要因一覧テーブルを表44に示す。表44の抽出要因一覧テーブルには、要因抽出部13(ステップ10)の繰り返し処理による、同一の入力属性における複数の入力属性条件が全て示されている。
Furthermore, in a certain input attribute, when the factor of the output attribute condition corresponding to the second data group of the defective product is two types of “input attribute is below threshold” and “input attribute exceeds threshold” Both factors can be extracted by repeated processing.
[Step 14]
Table 44 shows an extraction factor list table in which the input attribute conditions (Table 35 and Table 41) extracted for each repetition process of Step 10 are summarized. The extracted factor list table of Table 44 shows all of the plurality of input attribute conditions for the same input attribute by the repetition processing of the factor extracting unit 13 (step 10).

Figure 0004347099
Figure 0004347099

要因決定部17は、同一の入力属性における複数の入力属性条件(表44)のうちで、優先度の高い条件のみを選択する。   The factor determination unit 17 selects only a condition having a high priority among a plurality of input attribute conditions (Table 44) for the same input attribute.

具体的には、同一の入力属性に対して、「入力属性が閾値以下である」という第1のパターンの中で、不良品分離度(第2データ群分離度)が最大となる入力属性条件を1つと、「入力属性が閾値を超える」という第2のパターンの中で、不良品分離度(第2データ群分離度)が最大となる入力属性条件を1つとを、選択する。   Specifically, for the same input attribute, the input attribute condition that maximizes the defective product separation degree (second data group separation degree) in the first pattern “input attribute is below threshold” And one input attribute condition that maximizes the defective product separation degree (second data group separation degree) in the second pattern of “input attribute exceeds threshold”.

表44の例の場合には、最終的に、表45に示す4条件が、問題事象(不良品の第2データ群DA2)の要因として選択された。表45は、要因決定部17が問題事象の要因として決定した(選択した)入力属性条件の一覧であり、このテーブルを決定要因一覧テーブルと呼ぶ。決定要因一覧テーブルは、分析結果データ格納部20に保存される。   In the case of the example in Table 44, finally, the four conditions shown in Table 45 were selected as factors of the problem event (defective product second data group DA2). Table 45 is a list of input attribute conditions determined (selected) by the factor determination unit 17 as the cause of the problem phenomenon, and this table is referred to as a determination factor list table. The determination factor list table is stored in the analysis result data storage unit 20.

Figure 0004347099
Figure 0004347099

上記のように、要因決定部17が、不良品分離度(第2データ群分離度)という明確な指標に基づいて、ステップ10の繰り返し処理毎に抽出された同一の入力属性における複数の入力属性条件のうちで優先度の高い条件のみを選択しているから、詳細な要因分析結果を得るために上記の繰り返し処理を行っても複雑化する事なく、非常に簡潔な形でありながら、高い確度で、第2データ群に対応する出力属性条件の要因を決定する事ができる。   As described above, the factor determination unit 17 uses a plurality of input attributes in the same input attribute extracted for each repetition process of step 10 based on a clear index of defective product separation (second data group separation). Since only the high-priority conditions are selected from among the conditions, the above process is repeated in order to obtain a detailed factor analysis result. The cause of the output attribute condition corresponding to the second data group can be determined by the accuracy.

上記2回の繰り返し処理の過程を、決定木の形式(従来の決定木−2(図13)と同様の形式)で表現すると図8のようになる。図8を参照して、本実施形態では、決定木の分岐毎に、分岐条件だけでなく全ての入力属性について問題事象(不良品の第2データ群DA2)の要因となる入力属性条件を求め(ステップ8の入力属性条件決定部11による処理)、これらのうち、不良品分離度の高い入力属性条件のみを抽出している(ステップ10の要因抽出部13による処理)。そして、分岐の回数分(繰り返し処理の回数分)の全て入力属性条件の中で、さらに不良品分離度の高い入力属性条件を絞り込み、最終の不良要因として決定している(ステップ14の要因決定部17による処理)。   If the process of the above two iterations is expressed in the form of a decision tree (similar to the conventional decision tree-2 (FIG. 13)), it is as shown in FIG. Referring to FIG. 8, in this embodiment, for each branch of a decision tree, not only a branch condition but also an input attribute condition that causes a problem event (defective product second data group DA2) is obtained for all input attributes. (Processing by the input attribute condition determination unit 11 in step 8) Among these, only input attribute conditions having a high degree of defective product separation are extracted (processing by the factor extraction unit 13 in step 10). Then, among all the input attribute conditions for the number of times of branching (for the number of iterations), input attribute conditions with a higher degree of defective product separation are narrowed down and determined as the final defect factor (factor determination in step 14). Processing by the unit 17).

このように、分岐条件以外の条件であっても、不良品分離度の高い条件を全て抽出しているから、分岐条件に競合因子が存在しても、その要因を逃すことなく、確実に捉えることができる。また、分岐毎の要因抽出(要因抽出部13による処理)、および、最終的な要因決定(要因決定部17による処理)において、不良品分離度という明確な指標に基づいて要因の抽出または決定を行っているため、如何に複雑な決定木となろうとも、明確に問題事象の要因を把握することができる。さらに、不良品分離度を評価指標としているから、決定した複数の要因(入力属性条件)に対して、優先順位付けを行うことが可能となる。   In this way, even if the condition is other than the branching condition, all the conditions with a high degree of defective product separation are extracted, so even if there is a competing factor in the branching condition, it is reliably captured without missing that factor. be able to. Further, in the factor extraction for each branch (processing by the factor extracting unit 13) and final factor determination (processing by the factor determining unit 17), the factor is extracted or determined based on a clear index of defective product separation. As a result, no matter how complex the decision tree is, the cause of the problem can be clearly understood. Furthermore, since the degree of defective product separation is used as an evaluation index, it is possible to prioritize a plurality of determined factors (input attribute conditions).

なお、今回の例(表1を基本データ群DAとするデータ分析)では、データ数や入力属性数が少なく、入力属性の相互間の影響も小さかったため、要因決定部17で決定した入力属性条件(表45)が、1回目のステップ10における要因抽出部13の処理結果(表36)と同じであった。しかし、データ数や入力属性数が多い場合には、繰り返し処理毎の入力属性条件が、表46の抽出要因一覧テーブルに示すように複雑になる事が多い。表46は、ステップ10の4回の繰り返し処理により、入力属性xk1に対して、4つの異なる入力属性条件が抽出された例(抽出要因一覧テーブルのダミーサンプル)である。この例の場合には、「入力属性が閾値以下である」という第1のパターンに対して、不良品分離度(第2データ群分離度)が最大となる「xk1≦2.33」なる条件が、また、「入力属性が閾値を超える」という第2のパターンの中で、不良品分離度(第2データ群分離度)が最大となる「xk1>2.44」なる条件が、それぞれ、要因決定部17によって選択される(表47)。   In this example (data analysis using Table 1 as the basic data group DA), the number of data and the number of input attributes are small, and the influence between the input attributes is small. (Table 45) was the same as the processing result (Table 36) of the factor extraction unit 13 in Step 10 for the first time. However, when the number of data and the number of input attributes are large, the input attribute conditions for each repetition process are often complicated as shown in the extraction factor list table of Table 46. Table 46 is an example (dummy sample of the extraction factor list table) in which four different input attribute conditions are extracted for the input attribute xk1 by the four iterations of step 10. In the case of this example, the condition “xk1 ≦ 2.33” that maximizes the defective product separation degree (second data group separation degree) with respect to the first pattern “input attribute is equal to or less than threshold”. However, in the second pattern that “the input attribute exceeds the threshold”, the condition “xk1> 2.44” that maximizes the defective product separation degree (second data group separation degree) is It is selected by the factor determination unit 17 (Table 47).

なお、簡易的に要因を決定しようとすれば、第1のパターンと第2のパターンとを区別せず、単に、同一の入力属性の中で、不良品分離度が最大となる入力属性条件を選択してもよい(表46の例では、「xk1>2.44」が選択される)。   Note that if a factor is to be determined simply, the first pattern and the second pattern are not distinguished from each other, and the input attribute condition that maximizes the defective product separation degree is simply selected from the same input attributes. It may be selected (in the example of Table 46, “xk1> 2.44” is selected).

Figure 0004347099
Figure 0004347099

Figure 0004347099
Figure 0004347099

[ステップ15]
複合要因不良数計算部18が、決定要因一覧テーブル(表45)の入力属性条件のうち、2つの条件の複合要因による不良数を計算する(表48)。表48において、タイトル行とタイトル列には、それぞれ、各入力属性条件が示されており、その交差部には、2つの入力属性条件の複合要因による不良数(第2データ群DA2の個数)が示されている。
[Step 15]
The complex factor defect count calculation unit 18 calculates the number of defects due to the complex factor of two conditions among the input attribute conditions in the decision factor list table (Table 45) (Table 48). In Table 48, each input attribute condition is shown in the title row and the title column, and the number of defects (the number of the second data group DA2) due to the composite factor of the two input attribute conditions is shown at the intersection. It is shown.

例えば、「x1>2」行、「x2>2」列は、
「x1>2」かつ「x2>2」を満たし、かつ、不良品の第2データ群DA2に該当するデータの個数(=1)を表している。以下、表48のテーブルを複合要因テーブルと呼ぶ。
For example, “x1> 2” row and “x2> 2” column are
This represents the number of data (= 1) satisfying “x1> 2” and “x2> 2” and corresponding to the defective second data group DA2. Hereinafter, the table in Table 48 is referred to as a composite factor table.

Figure 0004347099
Figure 0004347099

[ステップ16]
数値−文字データ変換部19では、必要に応じて、決定要因一覧テーブル(表45)や複合要因テーブル(表48)における入力属性閾値xj−thの数値を文字データに変換する。文字データへの変換ルールは、ステップ0の変換の逆変換となるルールであり、下記の通りである。
(x1)1→A、2→B、3→C、4→D
(x2)1→a、2→b、3→c、4→d
(x3)変換せず
(x4)変換せず
表45の決定要因一覧テーブルにおける入力属性閾値xj−thを文字データに変換した要因一覧テーブルを表49に示す。
[Step 16]
The numerical value-character data conversion unit 19 converts the numerical value of the input attribute threshold value xj-th in the determination factor list table (Table 45) and the composite factor table (Table 48) into character data as necessary. The conversion rule for character data is a rule that is the reverse conversion of the conversion in step 0, and is as follows.
(X1) 1 → A, 2 → B, 3 → C, 4 → D
(X2) 1 → a, 2 → b, 3 → c, 4 → d
(X3) Not converted (x4) Not converted Table 49 shows a factor list table in which the input attribute threshold value xj-th in the determination factor list table in Table 45 is converted into character data.

Figure 0004347099
Figure 0004347099

[ステップ17]
以上でデータ分析を終了し、抽出要因一覧テーブル(表44)、決定要因一覧テーブル(表45、表49)、複合要因テーブル(表48)やデータ分析過程での各種情報が、最終的に、分析結果データとしてハードディスク等の分析結果データ格納部20に格納される。これらの分析結果データは、適宜、分析結果データ格納部20から表示装置や印刷装置等の出力部21に送られ、テーブル(例えば表49)、決定木(例えば図8)や、グラフとして、表示装置にて表示したり、印刷装置にて印刷したりすることができる。
[Step 17]
The data analysis is completed as described above, and the extraction factor list table (Table 44), the determination factor list tables (Table 45 and Table 49), the composite factor table (Table 48) and various information in the data analysis process are finally The analysis result data is stored in the analysis result data storage unit 20 such as a hard disk. The analysis result data is appropriately sent from the analysis result data storage unit 20 to the output unit 21 such as a display device or a printing device, and is displayed as a table (for example, Table 49), a decision tree (for example, FIG. 8) or a graph. It can be displayed on the device or printed on the printing device.

一例として、決定要因一覧テーブル(表49)を要因内訳パレート図として表示した例を図9に示す。図9では、各入力属性条件に起因する不良数(第2データ群DA2の個数)を棒グラフで、また、不良品分離度(第2データ群分離度)を折れ線グラフで示している。   As an example, FIG. 9 shows an example in which the decision factor list table (Table 49) is displayed as a factor breakdown Pareto diagram. In FIG. 9, the number of defects (number of second data group DA2) due to each input attribute condition is shown by a bar graph, and the degree of defective product separation (second data group separation degree) is shown by a line graph.

ユーザは、図9の結果を参照する事により、入力属性x1〜x4の各々がどの値の範囲にあるから製品特性が悪いのか?という製品特性不良の要因を一眺して即座に判断できる。また、対策を施すべき順序(優先順位)を、不良品分離度(第2データ群分離度)から判断できる。さらに、図9の入力属性条件に対する対策の結果、不良数をどの程度減じることができるかを、不良数(第2データ群DA2の個数)から見込む事ができる。   By referring to the result of FIG. 9, the user has a range of values for each of the input attributes x1 to x4. It is possible to judge immediately by looking at the causes of product characteristic defects. Further, the order (priority order) in which measures should be taken can be determined from the defective product separation degree (second data group separation degree). Furthermore, as a result of the countermeasure against the input attribute condition of FIG. 9, it can be estimated from the number of defects (number of second data groups DA2) how much the number of defects can be reduced.

図9の例の場合には、不良品分離度(第2データ群分離度)が最も高い、入力属性x2(「x2>2」、すなわち「x2=c or d」)を第1に対策すべきであり、この対策により、4個の不良のうちの2個の不良が解消される(不良全体の50%が解消される)ことが見込まれる。   In the case of the example in FIG. 9, the first measure is the input attribute x2 (“x2> 2”, that is, “x2 = c or d”), which has the highest defective product separation degree (second data group separation degree). This measure should eliminate two of the four defects (50% of the total defects are resolved).

また、第2に対策すべき内容については、複合要因テーブル(表48)を用いて、第1の要因(「x2>2」、すなわち「x2=c or d」)と他の要因との複合度を調べることで判断できる。図10は、図9の各要因(入力属性条件)の棒グラフ(不良数)において、第1の要因(「x2>2」、すなわち「x2=c or d」)との複合要因による不良数に、ハッチングを付けて示したものである。図10から、「x1>2」、すなわち「x1=C or D」)は、不良品分離度(第2データ群分離度)が高く、かつ、第1の要因(「x2>2」、すなわち「x2=c or d」)と重複しない不良数が多いことから、第1の要因に対する独立要因の可能性が高く、第2に対策すべき項目であることが読み取れる。   As for the content to be secondly countermeasured, a composite factor table (Table 48) is used to combine the first factor (“x2> 2”, ie, “x2 = c or d”) with other factors. It can be judged by examining the degree. FIG. 10 shows the number of defects due to a composite factor with the first factor (“x2> 2”, ie, “x2 = c or d”) in the bar graph (number of defects) of each factor (input attribute condition) in FIG. It is shown with hatching. From FIG. 10, “x1> 2”, that is, “x1 = C or D”) has a high degree of defective product separation (second data group separation), and the first factor (“x2> 2”, that is, Since there are many defects that do not overlap with “x2 = c or d”), there is a high possibility of an independent factor with respect to the first factor, and it can be read that this is an item to be secondly addressed.

なお、図10では、さらに、第1の要因(「x2>2」、すなわち「x2=c ord」)との複合要因(または従属因子)を抽出することも可能で、この例では、ハッチング部の割合が大きい「x4≦10」が抽出される。   In FIG. 10, it is also possible to extract a composite factor (or a dependent factor) with the first factor (“x2> 2”, ie, “x2 = code”). “X4 ≦ 10” having a large ratio is extracted.

上記したように、本実施形態では、不良品切り出しの確度(分類後基本データ群DA00の中で入力属性条件に属するデータを母集団としたときの不良率)を示す、不良品分離度(第2データ群分離度)という明確な指標に基づいて、不良の要因を決定している。このため、従来の決定木−2(図13)のように階層構造の形式で複数の条件が抽出され(y=Yなる製品特性不良が、決定木の至る所に現われ、また、同一の入力属性の異なる条件での分岐が何回も起こり)、「各々の入力属性がどの値の範囲にあるから製品特性が悪いのか?を判断しにくい」という問題が解消される。例えば、従来の決定木−2において抽出されたy=Yなる製品特性不良の条件が、
・「x2=c or d」
または、
・「x2=a or b」かつ「x3≧2.5」かつ「x1=C or D」
であったのに対し、本実施形態で決定した製品特性不良の条件(入力属性条件)は、
・ 「x1>2」(C or D)
・ 「x2>2」(c or d)
・ 「x3>2」
・ 「x4≦10」
である。
As described above, in the present embodiment, the defective product separation degree (the first defective data separation rate (first defective rate when the data belonging to the input attribute condition in the basic data group DA00 after classification is a population)) is shown. The cause of failure is determined based on a clear index of (2 data group separation). Therefore, a plurality of conditions are extracted in the form of a hierarchical structure as in the conventional decision tree-2 (FIG. 13) (product characteristic defects with y = Y appear throughout the decision tree, and the same input Branches occur under conditions with different attributes many times), and the problem of “it is difficult to determine whether the product characteristics are bad because each input attribute is in which value range” is solved. For example, the condition of product characteristic failure y = Y extracted in the conventional decision tree-2 is
・ "X2 = c or d"
Or
“X2 = a or b” and “x3 ≧ 2.5” and “x1 = C or D”
On the other hand, the product characteristic defect condition (input attribute condition) determined in this embodiment is
・ “X1> 2” (C or D)
"X2>2" (c or d)
・ “X3> 2”
・ “X4 ≦ 10”
It is.

すなわち、従来の決定木−2(図13)では分かりにくかった、「入力属性x2について、「x2=c or d」の場合と、「x2=a or b」の場合と、どちらの方が悪い条件なのか」という問題に対して、「x2=c or d」の方が悪い、という明確な判断ができる。   In other words, which is difficult to understand in the conventional decision tree-2 (FIG. 13), whichever is worse, “input attribute x2,“ x2 = c or d ”or“ x2 = a or b ”. It can be clearly determined that “x2 = c or d” is worse than the question “Is it a condition?”.

また、「「x1=C or D」という条件は、「x2=a or b」かつ「x3≧2.5」の条件との組み合わせの場合においてのみ不良の要因となり、他の場合には不良の要因とならないのか」という問題に対しては、「x1=C or D」なる条件だけでも不良の要因となる(不良品分離度が高い)、という明確な判断ができる。   In addition, the condition “x1 = C or D” causes a defect only in the case of a combination with the conditions “x2 = a or b” and “x3 ≧ 2.5”. With respect to the question “whether it becomes a factor”, it is possible to make a clear determination that only the condition “x1 = C or D” causes a defect (the degree of defective product separation is high).

また、従来の決定木−2では、入力属性x4を不良の要因として抽出しなかったが、本実施形態では、入力属性x4について「x4≦10」を不良の要因として抽出している。これは、図8に示したように、分岐条件だけでなく全ての入力属性について問題事象(不良品の第2データ群DA2)の要因となる入力属性条件を求め(ステップ8の入力属性条件決定部11による処理)、これらのうち、不良品分離度の高い入力属性条件を抽出していることに依る(ステップ10の要因抽出部13による処理)。   In the conventional decision tree-2, the input attribute x4 is not extracted as a cause of failure, but in this embodiment, “x4 ≦ 10” is extracted as a cause of failure for the input attribute x4. As shown in FIG. 8, not only the branch condition but also the input attribute condition that causes the problem event (defective product second data group DA2) is obtained for all the input attributes (determining the input attribute condition in step 8). Among these, the input attribute condition having a high degree of defective product separation is extracted (processing by the factor extraction unit 13 in step 10).

さらに、従来の決定木−2では、抽出した各条件の優先順位付けがなされていなかったため、どの条件に対する対策を行えばよいのか、また、その対策によってどの程度の不良が解消されるのかが不明確であったが、本実施形態では、不良品分離度(第2データ群分離度)という明確な指標を用いているので、抽出した要因の優先順位付けを行うことができる。これにより、優先して対策すべき条件を明確にでき、また、その対策によってどの程度の不良が解消されるのかを、その不良数から見込む事ができる。   Furthermore, in the conventional decision tree-2, the priorities of the extracted conditions are not prioritized, so it is unclear which condition should be taken and how many defects will be eliminated by that measure. Although it is clear, in the present embodiment, since a clear index of defective product separation (second data group separation) is used, prioritization of extracted factors can be performed. This makes it possible to clarify the conditions that should be preferentially dealt with, and it is possible to estimate from the number of defects how many defects are eliminated by the measure.

さらに、要因抽出部13が、決定木における分岐条件以外の条件であっても、不良品分離度(第2データ群分離度)の高い条件を全て抽出しているから、分岐条件に競合因子が存在しても、その要因を逃すことなく、確実に捉えることができる。   Furthermore, since the factor extraction unit 13 has extracted all the conditions with a high degree of defective product separation (second data group separation degree) even under conditions other than the branching condition in the decision tree, there are competing factors in the branching condition. Even if it exists, it can be caught reliably without missing the factor.

上記したように、本実施形態によって、本発明の第1の目的を達成できる。   As described above, according to this embodiment, the first object of the present invention can be achieved.

また、本実施形態によれば、入力属性xjの各値に対するxj頻度累積差を、良品と不良品とを切り分ける際の入力属性条件評価指標として用いているから、従来の決定木−2(図13)のように、ラベル階層構造(図12)を予め定義しなくても、表49(または表45)の決定要因一覧テーブルの入力属性条件列に示したような非常に簡潔な形で、問題事象の要因を導き出せる。そして、これを用いて、問題事象に対する各要因(入力属性条件)の不良品分離度(第2データ群分離度)や不良数を求める事ができる(図9)。すなわち、本発明の第2の目的を達成できる。   Further, according to the present embodiment, the xj frequency cumulative difference with respect to each value of the input attribute xj is used as the input attribute condition evaluation index when the non-defective product and the defective product are separated. 13) Even if the label hierarchical structure (FIG. 12) is not defined in advance, as shown in the input attribute condition column of the determinant list table of Table 49 (or Table 45), The cause of the problem event can be derived. Then, using this, it is possible to obtain the defective product separation degree (second data group separation degree) and the number of defects of each factor (input attribute condition) for the problem event (FIG. 9). That is, the second object of the present invention can be achieved.

なお、上述した実施形態では、複数の分岐(繰り返し)による決定木(図8)を生成していたが、一回の分岐だけでよければ、一回目のステップ10で終了してもよい。   In the above-described embodiment, the decision tree (FIG. 8) is generated by a plurality of branches (repetition). However, if only one branch is sufficient, the process may be terminated in the first step 10.

また、上記では、ステップ13において、分析データ群抽出部6が、分割されたデータ群のうち、他データ群のみを次の分析データ群として抽出したが、要因データ群も分析データ群として抽出し、ステップ3〜ステップ12の一連の処理を繰り返すようにしてもよい。要因データ群と他データ群との少なくとも一方を新たな分析データ群として抽出すればよい。   In the above description, in step 13, the analysis data group extraction unit 6 extracts only the other data group from the divided data groups as the next analysis data group. However, the factor data group is also extracted as the analysis data group. The series of processing from step 3 to step 12 may be repeated. What is necessary is just to extract at least one of a factor data group and another data group as a new analysis data group.

また、上記では、第2データ群DA2を不良品のデータ群とし、不良の要因を抽出するデータ分析例を示したが、第2データ群DA2を良品のデータ群とし、良品を得るための条件を抽出するデータ分析としてもよい。   In the above description, the data analysis example in which the second data group DA2 is the defective data group and the cause of the defect is extracted has been described. However, the second data group DA2 is the good data group and the condition for obtaining the good product is shown. It is good also as data analysis which extracts.

上記したように、本実施の形態に係るデータ分析装置は、基本データ群を、出力属性の値に依って、第1データ群と第2データ群とに分類し、分類フラグを付与するデータ分類部(分類手段)4と、データ分類部(分類手段)4による分類後の基本データ群の中から、分析の対象とする分析データ群を抽出する分析データ群抽出部(分析データ群抽出手段)6と、分析データ群の各々の入力属性が取り得る全ての入力属性条件の各々について、「入力属性が当該入力属性条件を満たせば、分析データ群中の第2データ群に属するデータであり、入力属性が当該入力属性条件を満たさなければ、分析データ群中の第1データ群に属するデータである」という第1の相関ルールの確からしさを表す、入力属性条件評価指標(Xj頻度累積差)を演算する第1の評価手段(データ行分離部7、データ列抽出部8、頻度演算部9、頻度累積差演算部10)と、分析データ群の各々の入力属性について、それぞれ、最大の入力属性条件評価指標を持つ入力属性条件を、第1の相関ルールを満たす入力属性条件として決定する入力属性条件決定部(入力属性条件決定手段)11と、入力属性条件決定部(入力属性条件決定手段)11で決定された入力属性条件の各々について、基本データ群中で該入力属性条件を満たすデータの中に第2データ群が含まれるデータ個数の割合を表す、第2データ群分離度を演算する、不良品分離度演算部(第2データ群分離度演算手段)12と、入力属性条件決定部(入力属性条件決定手段)11で決定された入力属性条件の中で、基本データ群中に含まれる第2データ群のデータ個数の割合を表す第2データ群含有率よりも大きい値の、第2データ群分離度をもつ入力属性条件を、第2データ群に対応する出力属性条件の要因を示す情報として抽出する、要因抽出部(要因抽出手段)13とを含む。   As described above, the data analysis apparatus according to the present embodiment classifies the basic data group into the first data group and the second data group according to the value of the output attribute, and assigns a classification flag. Part (classification means) 4 and an analysis data group extraction part (analysis data group extraction means) for extracting an analysis data group to be analyzed from the basic data group classified by the data classification part (classification means) 4 6 and for each of the input attribute conditions that each input attribute of the analysis data group can take, “if the input attribute satisfies the input attribute condition, the data belongs to the second data group in the analysis data group, Input attribute condition evaluation index (Xj frequency cumulative difference) representing the probability of the first association rule that the input attribute does not satisfy the input attribute condition is data belonging to the first data group in the analysis data group Play The first evaluation means (data row separation unit 7, data string extraction unit 8, frequency calculation unit 9, frequency cumulative difference calculation unit 10) and the maximum input attribute condition for each input attribute of the analysis data group An input attribute condition determining unit (input attribute condition determining unit) 11 that determines an input attribute condition having an evaluation index as an input attribute condition satisfying the first correlation rule, and an input attribute condition determining unit (input attribute condition determining unit) 11 For each of the input attribute conditions determined in (2), a second data group separation degree is calculated, which represents a ratio of the number of data in which the second data group is included in the data satisfying the input attribute condition in the basic data group. Among the input attribute conditions determined by the defective product separation degree calculation unit (second data group separation degree calculation unit) 12 and the input attribute condition determination unit (input attribute condition determination unit) 11, they are included in the basic data group. First The input attribute condition having the second data group separation degree having a value larger than the second data group content ratio representing the ratio of the number of data in the data group is used as information indicating the cause of the output attribute condition corresponding to the second data group A factor extracting unit (factor extracting means) 13 for extracting is included.

これによれば、データ分類部4が基本データ群を第1データ群と第2データ群とに分類し、分析データ群抽出部6が、分類後の基本データ群の中から入力属性と出力属性との因果関係を分析する対象とする分析データ群を抽出する。例えば第1データ群は良品の出力属性を有するデータ群であり、第2データ群は不良品などの問題事象を表す出力属性を有するデータ群である。   According to this, the data classification unit 4 classifies the basic data group into the first data group and the second data group, and the analysis data group extraction unit 6 selects the input attribute and the output attribute from the basic data group after the classification. Analytical data group to be analyzed for the causal relationship with. For example, the first data group is a data group having a non-defective product output attribute, and the second data group is a data group having an output attribute representing a problem event such as a defective product.

データ行分離部7、データ列抽出部8、頻度演算部9、および、頻度累積差演算部10からなる第1の評価手段は、分析データ群の各々の入力属性が取り得る全ての入力属性条件の各々について、「入力属性が当該入力属性条件を満たせば、分析データ群中の第2データ群に属するデータであり、入力属性が当該入力属性条件を満たさなければ、分析データ群中の第1データ群に属するデータである」という第1の相関ルールの確からしさを表す入力属性条件評価指標(Xj頻度累積差)を演算し、入力属性条件決定部11は、分析データ群の各々の入力属性について、それぞれ、最大の入力属性条件評価指標を持つ入力属性条件を、第1の相関ルールを満たす入力属性条件として決定する。不良品分離度演算部12は、入力属性条件決定部11で決定された入力属性条件の各々について、第2データ群分離度を演算する。   The first evaluation means including the data row separation unit 7, the data string extraction unit 8, the frequency calculation unit 9, and the frequency cumulative difference calculation unit 10 is configured so that all input attribute conditions that each input attribute of the analysis data group can take "If the input attribute satisfies the input attribute condition, the data belongs to the second data group in the analysis data group, and if the input attribute does not satisfy the input attribute condition, the first data in the analysis data group. The input attribute condition evaluation index (Xj frequency cumulative difference) representing the probability of the first association rule that “the data belongs to the data group” is calculated, and the input attribute condition determination unit 11 calculates each input attribute of the analysis data group For each, the input attribute condition having the maximum input attribute condition evaluation index is determined as the input attribute condition satisfying the first correlation rule. The defective product separation degree calculation unit 12 calculates a second data group separation degree for each of the input attribute conditions determined by the input attribute condition determination unit 11.

各入力属性条件の第2データ群分離度は、基本データ群中で該入力属性条件を満たすデータの中に第2データ群が含まれるデータ個数の割合を表しており、要因抽出部13が、入力属性条件決定部11で決定された入力属性条件の中で、基本データ群中に含まれる第2データ群のデータ個数の割合を表す第2データ群含有率よりも大きい値の、第2データ群分離度をもつ入力属性条件を、第2データ群に対応する出力属性条件の要因を示す情報として抽出する。   The second data group separation degree of each input attribute condition represents the ratio of the number of data in which the second data group is included in the data satisfying the input attribute condition in the basic data group. Of the input attribute conditions determined by the input attribute condition determination unit 11, the second data having a value larger than the second data group content ratio representing the ratio of the number of data of the second data group included in the basic data group An input attribute condition having a group separation degree is extracted as information indicating a factor of an output attribute condition corresponding to the second data group.

本実施形態のデータ分析装置はこのようにして、基本データ群に対して、入力属性と出力属性との因果関係を分析し、該因果関係を示す情報を抽出する。   In this way, the data analysis apparatus of this embodiment analyzes the causal relationship between the input attribute and the output attribute for the basic data group, and extracts information indicating the causal relationship.

上記の因果関係の分析では、要因抽出部13が、第2データ群分離度という明確な指標に基づいて、入力属性条件決定部11で決定された入力属性条件の中から、第2データ群に対応する出力属性条件の要因、すなわちデータが第2データ群となる入力属性条件を抽出している。従って、如何に複雑な決定木となろうとも、明確に第2データ群に対応する出力属性条件の要因を抽出することができる。例えば第2データ群の出力属性が不良品などの問題事象を表すものとすれば、第2データ群分離度は不良品切り出しの確度を示す不良品分離度となり、如何に複雑な決定木となろうとも、明確に問題事象の要因を把握することができる。   In the above causal analysis, the factor extracting unit 13 selects the second data group from the input attribute conditions determined by the input attribute condition determining unit 11 based on a clear index of the second data group separation degree. The factor of the corresponding output attribute condition, that is, the input attribute condition that makes the data the second data group is extracted. Therefore, no matter how complex the decision tree is, it is possible to clearly extract the factor of the output attribute condition corresponding to the second data group. For example, if the output attribute of the second data group represents a problem phenomenon such as a defective product, the second data group separation degree is a defective product separation degree indicating the accuracy of defective product extraction, and how complex the decision tree is. It is possible to clearly understand the cause of the problem phenomenon.

また、不良品分離度などの第2データ群分離度を評価指標としているから、要因抽出部13が抽出した複数の要因(入力属性条件)に対して、優先順位付けを行うことが可能となる。   Further, since the second data group separation degree such as the defective part separation degree is used as the evaluation index, it is possible to prioritize a plurality of factors (input attribute conditions) extracted by the factor extracting unit 13. .

さらに、要因抽出部13が、決定木における分岐条件以外の条件であっても、不良品分離度などの第2データ群分離度の高い条件を全て抽出しているから、分岐条件に競合因子が存在しても、その要因を逃すことなく、確実に捉えることができる。   Furthermore, since the factor extraction unit 13 extracts all conditions having a high second data group separation degree such as a defective product separation degree, even if the condition is other than the branching condition in the decision tree, there are competing factors in the branching condition. Even if it exists, it can be caught reliably without missing the factor.

以上により、所定の出力属性の要因を明確な指標に基づいて抽出することができる。
また、本実施の形態に係るデータ分析装置は、入力属性条件決定部11で決定された入力属性条件の各々について、「入力属性が当該入力属性条件を満たせば、分析データ群中の第2データ群に含まれるデータである」という第2の相関ルールの確からしさを表す分割ルール評価値(頻度累積下比率、または、頻度累積上比率)を演算する頻度累積比率演算部(第2の評価手段)14と、入力属性条件決定部11で決定された入力属性条件の中で、最大の分割ルール評価値を持つ入力属性条件に基づいて、分析データ群を、該入力属性条件を満たす要因データ群と、該入力属性条件を満たさない他データ群とに分割するデータ分割部(分割手段)15とをさらに含み、分析データ群抽出部6は、データ分割部15で分割された要因データ群と他データ群との少なくとも一方を新たな分析データ群として抽出し、分析データ群抽出部6による処理、第1の評価手段(データ行分離部7、データ列抽出部8、頻度演算部9、頻度累積差演算部10)による処理、入力属性条件決定部11による処理、不良品分離度演算部12による処理、要因抽出部13による処理、頻度累積比率演算部14による処理、および、データ分割部15による処理からなる一連の処理が繰り返し実行されるようになっている。
As described above, a factor of a predetermined output attribute can be extracted based on a clear index.
In addition, the data analysis apparatus according to the present embodiment, for each of the input attribute conditions determined by the input attribute condition determination unit 11, “if the input attribute satisfies the input attribute condition, the second data in the analysis data group A frequency cumulative ratio calculation unit (second evaluation means) that calculates a division rule evaluation value (frequency cumulative lower ratio or frequency cumulative upper ratio) representing the probability of the second correlation rule that the data is included in the group ) 14 and the factor data group satisfying the input attribute condition based on the input attribute condition having the largest division rule evaluation value among the input attribute conditions determined by the input attribute condition determining unit 11 And a data dividing unit (dividing unit) 15 that divides the data into other data groups that do not satisfy the input attribute condition. The analysis data group extracting unit 6 includes the factor data group divided by the data dividing unit 15 and At least one of the data groups is extracted as a new analysis data group, processing by the analysis data group extraction unit 6, first evaluation means (data row separation unit 7, data string extraction unit 8, frequency calculation unit 9, frequency accumulation) Processing by the difference calculating unit 10), processing by the input attribute condition determining unit 11, processing by the defective product separation degree calculating unit 12, processing by the factor extracting unit 13, processing by the frequency cumulative ratio calculating unit 14, and by the data dividing unit 15 A series of processes consisting of processes is repeatedly executed.

これによれば、頻度累積比率演算部14が入力属性条件決定部11で決定された入力属性条件の各々について、「入力属性が当該入力属性条件を満たせば、分析データ群中の第2データ群に含まれるデータである」という第2の相関ルールの確からしさを表す分割ルール評価値を演算し、データ分割部15が、最大の分割ルール評価値を持つ入力属性条件に基づいて、分析データ群を要因データ群と他データ群とに分割し、分析データ群抽出部6が要因データ群と他データ群との少なくとも一方を新たな分析データ群として抽出する。そして、上記一連の処理が繰り返し実行される。   According to this, for each of the input attribute conditions determined by the input attribute condition determination unit 11 by the frequency cumulative ratio calculation unit 14, “if the input attribute satisfies the input attribute condition, the second data group in the analysis data group The division rule evaluation value representing the probability of the second correlation rule that is “data included in the data” is calculated, and the data division unit 15 calculates the analysis data group based on the input attribute condition having the largest division rule evaluation value. Are divided into a factor data group and another data group, and the analysis data group extraction unit 6 extracts at least one of the factor data group and the other data group as a new analysis data group. Then, the above series of processing is repeatedly executed.

このような繰り返しの処理によって、より詳細な要因分析結果が得られる。   More detailed factor analysis results can be obtained by such repeated processing.

また、繰り返し処理を行わない場合に、外乱の影響により入力属性条件評価指標の確度が低かったとしても、繰り返し処理を行うことにより、この問題を解消できる。
さらに、ある入力属性において、第2データ群に対応する出力属性条件の要因が、「入力属性が閾値以下である」、および、「入力属性が閾値を超える」という2タイプの場合においても、繰り返しの処理によって、それらの双方の要因を抽出することができる。
また、本実施の形態に係るデータ分析装置は、要因抽出部13の繰り返しの処理によって抽出された、同一の入力属性における複数の入力属性条件に対し、これらのうちで、優先度の高い条件のみを選定する要因決定部(要因決定手段)17を備えている。
Further, when the repeated processing is not performed, even if the accuracy of the input attribute condition evaluation index is low due to the influence of disturbance, this problem can be solved by performing the repeated processing.
Furthermore, in a certain input attribute, the output attribute condition factor corresponding to the second data group is repeated even when the two types are “input attribute is below threshold” and “input attribute exceeds threshold”. Both of these factors can be extracted by this process.
In addition, the data analysis apparatus according to the present embodiment is such that only a condition having a high priority is selected among a plurality of input attribute conditions in the same input attribute extracted by the repeated processing of the factor extracting unit 13. Is provided with a factor determining unit (factor determining means) 17 for selecting.

したがって、詳細な要因分析結果を得るために上記の繰り返し処理を行っても、複雑化する事なく、非常に簡潔な形で第2データ群に対応する出力属性条件の要因を決定する事ができる。   Therefore, even if the above iterative process is performed to obtain a detailed factor analysis result, the factor of the output attribute condition corresponding to the second data group can be determined in a very simple form without complication. .

また、本実施の形態に係るデータ分析装置では、要因決定部17は、要因抽出部13の繰り返しの処理によって抽出された、同一の入力属性における複数の入力属性条件の中で、不良品分離度(第2データ群分離度)が最大となる入力属性条件を、優先度の高い条件として選定する。   Further, in the data analysis apparatus according to the present embodiment, the factor determination unit 17 determines the defective product separation degree among the plurality of input attribute conditions for the same input attribute extracted by the repeated processing of the factor extraction unit 13. The input attribute condition that maximizes (second data group separation degree) is selected as a condition with high priority.

これによれば、要因抽出部13の繰り返しの処理によって抽出された、同一の入力属性における複数の入力属性条件に対し、第2データ群分離度という明確な指標に基づいて優先度の高い条件を選定しているから、非常に簡潔な形でありながら、高い確度で、第2データ群に対応する出力属性条件の要因を決定する事ができる。   According to this, for a plurality of input attribute conditions in the same input attribute extracted by the repeated processing of the factor extracting unit 13, a condition having a high priority is set based on a clear index of the second data group separation degree. Since the selection is made, it is possible to determine the factor of the output attribute condition corresponding to the second data group with high accuracy while being in a very simple form.

また、要因決定部17が、第2データ群分離度という明確な指標に基づいて、要因抽出部13の繰り返しの処理によって抽出された入力属性条件の中から、第2データ群に対応する出力属性条件の要因、すなわちデータが第2データ群となる入力属性条件を決定している。従って、如何に複雑な決定木となろうとも、明確に第2データ群に対応する出力属性条件の要因を決定することができる。例えば上述のように第2データ群の出力属性が不良品などの問題事象を表すものとすれば、第2データ群分離度は不良品切り出しの確度を示す不良品分離度となり、如何に複雑な決定木となろうとも、明確に問題事象の要因を把握することができる。   Further, the factor determination unit 17 outputs the output attribute corresponding to the second data group from the input attribute conditions extracted by the iterative process of the factor extraction unit 13 based on the clear index of the second data group separation degree. The factor of the condition, that is, the input attribute condition for which the data becomes the second data group is determined. Therefore, no matter how complicated the decision tree is, it is possible to clearly determine the factor of the output attribute condition corresponding to the second data group. For example, if the output attribute of the second data group represents a problem such as a defective product as described above, the second data group separation degree is a defective product separation degree indicating the accuracy of defective product extraction, and how complicated it is. Even if it becomes a decision tree, it is possible to clearly grasp the cause of the problem phenomenon.

また、不良品分離度などの第2データ群分離度を評価指標としているから、要因決定部17が決定した複数の要因(入力属性条件)に対して、優先順位付けを行うことが可能となる。   Further, since the second data group separation degree such as the defective part separation degree is used as an evaluation index, it is possible to prioritize a plurality of factors (input attribute conditions) determined by the factor determining unit 17. .

さらに、上記の繰り返し処理の過程において、要因抽出部13が、決定木における分岐条件以外の条件であっても、不良品分離度などの第2データ群分離度の高い条件を全て抽出している。要因決定部17は、この要因抽出部13の繰り返しの処理によって抽出された入力属性条件の中から、第2データ群分離度という明確な指標に基づいて、第2データ群に対応する出力属性条件の要因、すなわちデータが第2データ群となる入力属性条件を決定しているから、分岐条件に競合因子が存在しても、その要因を逃すことなく、確実に第2データ群に対応する出力属性条件の要因を決定することができる。   Furthermore, in the process of the above iterative process, the factor extraction unit 13 extracts all conditions having a high second data group separation degree, such as a defective product separation degree, even under conditions other than the branch condition in the decision tree. . The factor determination unit 17 outputs the output attribute condition corresponding to the second data group based on a clear index of the second data group separation degree from the input attribute conditions extracted by the repetition processing of the factor extraction unit 13. Factor, that is, the input attribute condition for which the data becomes the second data group is determined, so that even if there is a competing factor in the branch condition, the output corresponding to the second data group can be surely performed without missing the factor. Factors for attribute conditions can be determined.

また、本実施の形態に係るデータ分析装置では、要因抽出部13の繰り返しの処理によって抽出された、同一の入力属性における複数の入力属性条件が、「入力属性が閾値以下である」という第1のパターンと、「入力属性が閾値を超える」という第2のパターンとに分けられる場合において、要因決定部17は、第1のパターンの中で、不良品分離度などの第2データ群分離度が最大となる入力属性条件を1つと、第2のパターンの中で、第2データ群分離度が最大となる入力属性条件を1つとを、優先度が高い条件として選定する。   Further, in the data analysis apparatus according to the present embodiment, a plurality of input attribute conditions in the same input attribute extracted by the repeated processing of the factor extraction unit 13 are “first input attribute is equal to or less than threshold”. And the second pattern that the input attribute exceeds the threshold value, the factor determination unit 17 uses the second data group separation degree such as the defective product separation degree in the first pattern. One input attribute condition that maximizes the second data group and one input attribute condition that maximizes the second data group separation degree in the second pattern are selected as conditions with high priority.

これによれば、要因抽出部13の繰り返しの処理によって抽出された、同一の入力属性における複数の入力属性条件が、「入力属性が閾値以下である」、および、「入力属性が閾値を超える」という2パターンとなる場合においても、非常に簡潔な形でありながら、高い確度で、第2データ群に対応する出力属性条件の要因を決定する事ができる。   According to this, the plurality of input attribute conditions in the same input attribute extracted by the repeated processing of the factor extracting unit 13 are “input attribute is below threshold” and “input attribute exceeds threshold” Even in the case of the two patterns, it is possible to determine the factor of the output attribute condition corresponding to the second data group with high accuracy while having a very simple form.

また、本実施の形態に係るデータ分析装置の分析データ群抽出部6は、データ分割部15で分割されたデータ群のうち他データ群のみを、新たな分析データ群として抽出するものである。   The analysis data group extraction unit 6 of the data analysis apparatus according to the present embodiment extracts only other data groups from the data group divided by the data division unit 15 as new analysis data groups.

これによれば、データ分割部15で分割されたデータ群のうち他データ群のみを、新たな分析データ群として上記の繰り返し処理を行っているから、第2データ群に対応する出力属性条件の要因分析に対して、簡潔で、かつ、十分な要因分析結果が得られる。   According to this, since only the other data group among the data groups divided by the data dividing unit 15 is subjected to the above-described repetitive processing as a new analysis data group, the output attribute condition corresponding to the second data group A simple and sufficient factor analysis result is obtained for the factor analysis.

また、他データ群を新たな分析データ群として処理を行っているから、それ以前の繰り返し処理で第2の相関ルールを満たした入力属性条件の影響を除外して、分析を行う事ができ、これにより、第2データ群に対応する出力属性条件の、新たな要因を高い確度で抽出できる。   In addition, since the other data group is processed as a new analysis data group, the analysis can be performed by excluding the influence of the input attribute condition that satisfies the second correlation rule in the previous iteration process, Thereby, a new factor of the output attribute condition corresponding to the second data group can be extracted with high accuracy.

なお、本実施の形態に係るデータ分析装置は、終了条件を満たしているか否かを判定する終了条件判定部(終了条件判定手段)16を含み、終了条件判定部16において終了条件を満たしていると判定されると、前記一連の処理の実行を終了するようになっている。   Note that the data analysis apparatus according to the present embodiment includes an end condition determination unit (end condition determination unit) 16 that determines whether or not the end condition is satisfied, and the end condition determination unit 16 satisfies the end condition. If it is determined, execution of the series of processes is terminated.

これによれば、終了条件判定部16による判定を行いながら、上記の繰り返し処理を行っているから、所定の要因分析結果を得るための、必要以上の回数の繰り返し処理を省く事ができる。   According to this, since the above repetitive processing is performed while performing the determination by the end condition determination unit 16, it is possible to omit the repetitive processing more than necessary to obtain a predetermined factor analysis result.

そして、終了条件判定部16は、分析データ群抽出部6で抽出した分析データ群における第2データ群のデータ個数が0であるかを終了条件として判定を行う。   Then, the end condition determination unit 16 determines whether the number of data in the second data group in the analysis data group extracted by the analysis data group extraction unit 6 is 0 as an end condition.

これによれば、分析データ群における第2データ群のデータ個数が0となるまで繰り返し処理を実行するので、詳細な要因分析結果が得られる。   According to this, since the process is repeatedly performed until the number of data in the second data group in the analysis data group becomes zero, a detailed factor analysis result can be obtained.

また、本実施の形態に係るデータ分析装置は、分析データ群中の入力属性が全て数値属性であって、第1の評価手段は、各入力属性の全ての数値について、分析データ群の第1データ群中において、入力属性がその数値以下であるデータ個数の割合を第1の頻度として演算すると共に、分析データ群の第2データ群中において、入力属性がその数値以下であるデータ個数の割合を第2の頻度として演算する頻度演算部9と、各入力属性の全ての数値について、第1の頻度と第2の頻度との差分を演算する、頻度累積差演算部10とを含む。   Further, in the data analysis apparatus according to the present embodiment, all the input attributes in the analysis data group are numerical attributes, and the first evaluation unit performs the first analysis data group for all the numerical values of each input attribute. In the data group, the ratio of the number of data whose input attribute is less than or equal to the numerical value is calculated as the first frequency, and in the second data group of the analysis data group, the ratio of the number of data whose input attribute is equal to or less than the value Is calculated as a second frequency, and a frequency cumulative difference calculation unit 10 that calculates the difference between the first frequency and the second frequency for all the numerical values of each input attribute is included.

これによれば、入力属性の各数値について頻度累積差演算部10が演算した、第1の頻度と第2の頻度との差分(Xj頻度累積差)を、「入力属性がその数値以下であれば第2データ群に属するデータであり、入力属性がその数値を超えていれば第1データ群に属するデータである」、あるいは、「入力属性がその数値を超えていれば第2データ群に属するデータであり、入力属性がその数値以下であれば第1データ群に属するデータである」という第1の相関ルールの確からしさを表す入力属性条件評価指標とすることができる。   According to this, the difference (Xj frequency cumulative difference) between the first frequency and the second frequency calculated by the frequency cumulative difference calculation unit 10 for each numerical value of the input attribute is expressed as “If the input attribute is less than or equal to the numerical value. Data belonging to the second data group. If the input attribute exceeds the numerical value, the data belongs to the first data group. "Or" If the input attribute exceeds the numerical value, the second data group. It can be used as an input attribute condition evaluation index representing the probability of the first association rule that the data belongs to the data and belongs to the first data group if the input attribute is equal to or less than the numerical value.

このように、第1の頻度と第2の頻度との差分を、第1データ群と第2データ群とを切り分ける際の入力属性条件評価指標として用いているから、ラベル階層構造を予め定義する事なく、かつ、簡単な処理で、前記第1の相関ルールを満たす入力属性条件を決定する事ができる。これにより、ラベル階層構造を予め定義する事なく、簡潔な形で、出力属性と入力属性との因果関係を導き出せるデータ分析装置を提供することができる。   Thus, since the difference between the first frequency and the second frequency is used as an input attribute condition evaluation index when the first data group and the second data group are separated, the label hierarchical structure is defined in advance. It is possible to determine an input attribute condition that satisfies the first correlation rule without any trouble and with simple processing. Accordingly, it is possible to provide a data analysis apparatus that can derive a causal relationship between an output attribute and an input attribute in a simple manner without defining a label hierarchical structure in advance.

また、本実施の形態に係るデータ分析装置は、基本データ群の中の数値型でないデータに対して数値変換処理を行う、文字−数値データ変換部(数値変換手段)2を備えている。   The data analysis apparatus according to the present embodiment includes a character-numeric data conversion unit (numerical conversion means) 2 that performs numerical conversion processing on non-numeric data in the basic data group.

これによれば、基本データ群の中の数値型でないデータに対して数値変換処理を行っているから、基本データ群に数値型でないデータが含まれていても、頻度演算部9と頻度累積差演算部10とを含む第1の評価手段による処理を行う事ができる。   According to this, since numerical conversion processing is performed on non-numeric data in the basic data group, even if non-numeric data is included in the basic data group, the frequency calculation unit 9 and the frequency cumulative difference Processing by the first evaluation unit including the calculation unit 10 can be performed.

また、本実施の形態に係るデータ分析装置では、頻度累積比率演算部14は、入力属性条件決定部11で決定された入力属性条件の各々について、分析データ群の第1データ群中で該入力属性条件を満たすデータ個数の割合に対する、分析データ群の第2データ群中で該入力属性条件を満たすデータ個数の割合の比率を、分割ルール評価値として演算するものである。   In the data analysis apparatus according to the present embodiment, the frequency cumulative ratio calculation unit 14 inputs the input attribute conditions determined by the input attribute condition determination unit 11 in the first data group of the analysis data group. The ratio of the ratio of the number of data satisfying the input attribute condition in the second data group of the analysis data group to the ratio of the number of data satisfying the attribute condition is calculated as the division rule evaluation value.

これによれば、入力属性条件決定部11で決定された入力属性条件の各々について、その入力属性条件により第1データ群と分離して第2データ群を検出できる割合を分割ルール評価値として演算することができる。   According to this, for each of the input attribute conditions determined by the input attribute condition determination unit 11, the ratio that can be detected from the first data group by the input attribute condition and the second data group can be calculated as the division rule evaluation value can do.

また、本実施の形態に係るデータ分析装置は、分類条件を設定する分類条件設定部3を含み、データ分類部4は、出力属性の値と分類条件との比較に基づいて基本データ群を分類するようになっている。   The data analysis apparatus according to the present embodiment includes a classification condition setting unit 3 that sets classification conditions, and the data classification unit 4 classifies the basic data group based on a comparison between the value of the output attribute and the classification conditions. It is supposed to be.

これによれば、適宜設定した所定の分類条件に基づいて、基本データ群を第1データ群と第2データ群とに分類することができる。すなわち、適宜に第2データ群に対応する出力属性条件を設定し、その要因を抽出または決定することができる。   According to this, the basic data group can be classified into the first data group and the second data group based on a predetermined classification condition set as appropriate. That is, an output attribute condition corresponding to the second data group can be set as appropriate, and the factor can be extracted or determined.

また、本実施の形態に係るデータ分析装置では、基本データ群は、複数の出力属性を含み、分類条件設定部3は、複数の出力属性の各々に対して分類条件を設定し、データ分類部4は、各々の出力属性について、出力属性の値と、対応する分類条件とを比較し、各々の出力属性における比較結果の論理和または論理積によって、基本データ群を分類するようになっている。   In the data analysis apparatus according to the present embodiment, the basic data group includes a plurality of output attributes, and the classification condition setting unit 3 sets classification conditions for each of the plurality of output attributes, and the data classification unit For each output attribute, the value of the output attribute is compared with the corresponding classification condition, and the basic data group is classified by the logical sum or logical product of the comparison results in each output attribute. .

これによれば、複数の出力属性の条件によって、第2データ群が定義される場合においても、基本データ群を第1データ群と第2データ群とに分類できる。これによって、複数の出力属性の条件で定義される第2データ群に対しても、これに対応する出力属性条件の要因を抽出または決定できる。   According to this, even when the second data group is defined by a plurality of output attribute conditions, the basic data group can be classified into the first data group and the second data group. Thereby, the factor of the output attribute condition corresponding to the second data group defined by a plurality of output attribute conditions can be extracted or determined.

以上で説明したデータ分析方法は、コンピュータが図2のS0〜S17(ステップ0〜17)に対応するプロセスを含むデータ分析プログラムを実行することによって実現できる。したがって、図1のデータ分析装置は、データ分析プログラムが、コンピュータを、文字−数値データ変換部2、分類条件設定部3、データ分類部4、分析データ群抽出部6、データ行分離部7、データ列抽出部8、頻度演算部9、頻度累積差演算部10、入力属性条件決定部11、不良品分離度演算部12、要因抽出部13、頻度累積比率演算部14、データ分割部15、終了条件判定部16、要因決定部17、複合要因不良数計算部18、数値−文字データ変換部19として機能させることにより実現することが可能である。   The data analysis method described above can be realized by the computer executing a data analysis program including processes corresponding to S0 to S17 (steps 0 to 17) in FIG. Therefore, in the data analysis apparatus of FIG. 1, the data analysis program includes a computer, a character-numeric data conversion unit 2, a classification condition setting unit 3, a data classification unit 4, an analysis data group extraction unit 6, a data row separation unit 7, Data string extraction unit 8, frequency calculation unit 9, frequency cumulative difference calculation unit 10, input attribute condition determination unit 11, defective product separation degree calculation unit 12, factor extraction unit 13, frequency cumulative ratio calculation unit 14, data division unit 15, This can be realized by functioning as an end condition determination unit 16, a factor determination unit 17, a complex factor defect number calculation unit 18, and a numerical value-character data conversion unit 19.

上記データ分析プログラムは、コンピュータで読み取り可能な記録媒体に格納してユーザに提供することができる。これにより、データ分析プログラムをコンピュータに容易に提供することができる。この記録媒体は、コンピュータ本体に内蔵された内蔵メディアであってもよいし、コンピュータ本体に対して分離可能に構成されたリムーバブル・メディアであってもよい。上記内蔵メディアとしては、ROM;フラッシュメモリ等の書き換え可能な不揮発性メモリ;ハードディスク等が挙げられる。また、上記リムーバブル・メディアとしては、CD−ROM、DVD等の光記録媒体;MO等の光磁気記録媒体;フロッピー(登録商標)ディスク、カセットテープ、リムーバブル・ハードディスク等の磁気記録媒体;メモリカード等のような書き換え可能な不揮発性メモリを内蔵したメディア;ROMカセット等のようなROMを内蔵したメディア等が挙げられる。   The data analysis program can be stored in a computer-readable recording medium and provided to the user. Thereby, the data analysis program can be easily provided to the computer. The recording medium may be a built-in medium built in the computer main body, or a removable medium configured to be separable from the computer main body. Examples of the built-in medium include ROM; rewritable nonvolatile memory such as flash memory; and hard disk. In addition, as the removable media, optical recording media such as CD-ROM and DVD; magneto-optical recording media such as MO; magnetic recording media such as floppy (registered trademark) disk, cassette tape, and removable hard disk; memory cards and the like And a medium having a built-in rewritable nonvolatile memory such as a medium having a built-in ROM such as a ROM cassette.

上記プログラムは、CPUのアクセスにより実行される構成であってもよいし、記録媒体に格納されているプログラムを読み出し、読み出したプログラムを内蔵メディアのプログラム記憶領域に転送した後、内蔵メディア上のプログラムがCPUのアクセスにより実行される構成であってもよい。また、上記プログラムは、コンピュータで読み取り可能な記録媒体に格納された状態で販売されるものに限定されるものではなく、インターネット等の通信ネットワークを介してユーザのコンピュータに転送する形式で販売されるものであってもよい。   The program may be configured to be executed by CPU access, or after reading the program stored in the recording medium and transferring the read program to the program storage area of the built-in medium, the program on the built-in medium May be executed by CPU access. In addition, the program is not limited to be sold in a state where it is stored in a computer-readable recording medium, and is sold in a format that is transferred to a user's computer via a communication network such as the Internet. It may be a thing.

本発明は、分析対象である出力属性(目的属性)と、該出力属性に影響を与える属性である入力属性(説明属性)との因果関係の分析に適用することができる。   The present invention can be applied to analysis of the causal relationship between an output attribute (object attribute) to be analyzed and an input attribute (description attribute) that is an attribute affecting the output attribute.

本発明の一実施形態に係るデータ分析装置の構成を示すブロック図である。It is a block diagram which shows the structure of the data analyzer which concerns on one Embodiment of this invention. 本発明の一実施形態に係るデータ分析方法を示すフローチャートである。It is a flowchart which shows the data analysis method which concerns on one Embodiment of this invention. 本発明の一実施形態に係るデータ分析装置における頻度累積差演算部10(ステップ7)の出力の一例をグラフで表したもので、入力属性x1の値と、良品の1−x1頻度累積%(A)、不良品の2−x1頻度累積%(B)、第1のx1頻度累積差(B−A)、第2のx1頻度累積差(A−B)との関係を示す。The graph of an example of the output of the frequency accumulation difference calculating part 10 (step 7) in the data analysis apparatus which concerns on one Embodiment of this invention is represented with the value of the input attribute x1, and 1-x1 frequency accumulation% ( A) shows the relationship between 2-x1 frequency cumulative% (B) of defective products, first x1 frequency cumulative difference (BA), and second x1 frequency cumulative difference (AB). 本発明の一実施形態に係るデータ分析装置における頻度累積差演算部10(ステップ7)の出力の一例をグラフで表したもので、入力属性x2の値と、良品の1−x2頻度累積%(A)、不良品の2−x2頻度累積%(B)、第1のx2頻度累積差(B−A)、第2のx2頻度累積差(A−B)との関係を示す。The graph of an example of the output of the frequency accumulation difference calculating part 10 (step 7) in the data analyzer which concerns on one Embodiment of this invention is represented with the value of the input attribute x2, and 1-x2 frequency accumulation% (non-defective product). A) shows the relationship between 2-x2 frequency cumulative percentage (B) of defective products, first x2 frequency cumulative difference (BA), and second x2 frequency cumulative difference (AB). 本発明の一実施形態に係るデータ分析装置における頻度累積差演算部10(ステップ7)の出力の一例をグラフで表したもので、入力属性x3の値と、良品の1−x3頻度累積%(A)、不良品の2−x3頻度累積%(B)、第1のx3頻度累積差(B−A)、第2のx3頻度累積差(A−B)との関係を示す。FIG. 6 is a graph showing an example of the output of the frequency cumulative difference calculation unit 10 (step 7) in the data analysis apparatus according to the embodiment of the present invention, and the value of the input attribute x3 and the non-defective 1-x3 frequency cumulative% ( A) shows the relationship between 2-x3 frequency cumulative% (B) of defective products, first x3 frequency cumulative difference (BA), and second x3 frequency cumulative difference (AB). 本発明の一実施形態に係るデータ分析装置における頻度累積差演算部10(ステップ7)の出力の一例をグラフで表したもので、入力属性x4の値と、良品の1−x4頻度累積%(A)、不良品の2−x4頻度累積%(B)、第1のx4頻度累積差(B−A)、第2のx4頻度累積差(A−B)との関係を示す。FIG. 6 is a graph showing an example of the output of the frequency cumulative difference calculation unit 10 (step 7) in the data analysis apparatus according to the embodiment of the present invention, and the value of the input attribute x4 and the non-defective 1-x4 frequency cumulative% ( A) shows the relationship between 2-x4 frequency cumulative% (B) of defective products, first x4 frequency cumulative difference (BA), and second x4 frequency cumulative difference (AB). 本発明の一実施形態に係るデータ分析装置における不良品分離度演算部12(ステップ9)で出力されるデータの一例(表35)を、ベン図で表現した図である。It is the figure which expressed an example (Table 35) of the data output by the inferior goods isolation | separation degree calculating part 12 (step 9) in the data analyzer which concerns on one Embodiment of this invention with the Venn diagram. 本発明の一実施形態に係るデータ分析方法の要因抽出(ステップ10)、および要因決定(ステップ14)の過程を、決定木の形式で表現した図である。It is the figure which expressed the process of the factor extraction (step 10) and the factor determination (step 14) of the data analysis method which concerns on one Embodiment of this invention in the form of a decision tree. 本発明の一実施形態に係るデータ分析装置における要因決定部17(ステップ14)で出力される決定要因一覧テーブルの一例(表49)について、各入力属性条件に対する不良数を棒グラフで、不良品分離度(第2データ群分離度)を折れ線グラフで表現した図である。With respect to an example of the determination factor list table (Table 49) output by the factor determination unit 17 (step 14) in the data analysis apparatus according to the embodiment of the present invention, the number of defects for each input attribute condition is represented by a bar graph and defective products are separated. It is the figure which expressed degree (2nd data group separation degree) with the line graph. 本発明の一実施形態に係るデータ分析装置における複合要因不良数計算部18(ステップ15)で出力されるデータの一例(表48)を用い、各入力属性条件に対する不良数を棒グラフで、不良品分離度(第2データ群分離度)を折れ線グラフで表現した図で、第1の要因(「x2>2」、すなわち「x2=c or d」)との複合要因による不良数に、ハッチングを付けて示している。Using an example (Table 48) of data output from the composite factor defect number calculation unit 18 (step 15) in the data analysis apparatus according to an embodiment of the present invention, the number of defects for each input attribute condition is represented by a bar graph. The degree of separation (second data group separation degree) is expressed in a line graph, and hatching is applied to the number of defects due to a combined factor with the first factor (“x2> 2”, ie, “x2 = c or d”). It is attached. 従来の決定木−1を表す図である。It is a figure showing the conventional decision tree-1. 従来の決定木−2のラベル階層構造を表す図であり、(a)はx1属性、(b)はx2属性、(c)はx3属性、(d)はx4属性を示す。It is a figure showing the label hierarchical structure of the conventional decision tree-2, (a) shows x1 attribute, (b) shows x2 attribute, (c) shows x3 attribute, (d) shows x4 attribute. 従来の決定木−2を表す図である。It is a figure showing the conventional decision tree-2.

符号の説明Explanation of symbols

1 基本データ群格納部
2 文字−数値データ変換部(数値変換手段)
3 分類条件設定部(分類条件設定手段)
4 データ分類部(分類手段)
5 分類後基本データ群格納部
6 分析データ群抽出部(分析データ群抽出手段)
7 データ行分離部
8 データ列抽出部
9 頻度演算部(第1の評価手段、頻度演算手段)
10 頻度累積差演算部(第1の評価手段、差分演算手段)
11 入力属性条件決定部(入力属性条件決定手段)
12 不良品分離度演算部(第2データ群分離度演算手段)
13 要因抽出部(要因抽出手段)
14 頻度累積比率演算部(第2の評価手段)
15 データ分割部(分割手段)
16 終了条件判定部(終了条件判定手段)
17 要因決定部(要因決定手段)
18 複合要因不良数計算部
19 数値−文字データ変換部
20 分析結果データ格納部
21 出力部
1 Basic data group storage unit 2 Character-numeric data conversion unit (numeric conversion means)
3 Classification condition setting part (Classification condition setting means)
4 Data classification part (classification means)
5 Basic data group storage after classification 6 Analysis data group extraction unit (analysis data group extraction means)
7 data row separation unit 8 data string extraction unit 9 frequency calculation unit (first evaluation means, frequency calculation means)
10 Frequency cumulative difference calculation unit (first evaluation means, difference calculation means)
11 Input attribute condition determining unit (input attribute condition determining means)
12 Defective product separation degree calculation unit (second data group separation degree calculation means)
13 Factor extraction unit (factor extraction means)
14 Frequency cumulative ratio calculation unit (second evaluation means)
15 Data division unit (division means)
16 End condition determination unit (end condition determination means)
17 Factor determination unit (factor determination means)
18 Complex factor defect count calculation unit 19 Numerical value-character data conversion unit 20 Analysis result data storage unit 21 Output unit

Claims (11)

数値型の複数の入力属性と、出力属性とで構成されるデータの集合である基本データ群に対して、前記入力属性と前記出力属性との因果関係を分析し、前記因果関係を示す情報を抽出するデータ分析装置であって、
前記基本データ群を、前記出力属性の値と所定の分類条件との比較に依って、第1データ群と第2データ群とに分類し、その分類結果に対応する分類フラグを、前記基本データ群に付与する分類手段と、
前記分類手段による分類後の前記基本データ群の中から、分析の対象とする分析データ群を抽出する分析データ群抽出手段と、
前記分析データ群の各々の前記入力属性が取り得る全ての数値毎に当該数値以下の数値を持つデータのうち、第1データ群に属するデータの個数の、第1データ群に属する全てのデータの個数に対する比率である第1の頻度を求める演算を行い、かつ、各々の前記入力属性がとり得る全ての数値毎に、当該数値以下の数値を持つデータのうち、第2データ群に属するデータの個数の、第2データ群に属する全てのデータの個数に対する比率である第2の頻度を求める演算を行う頻度演算手段と、
入力属性がとる全ての数値の各々について、第1の頻度と第2の頻度との差分値を表す入力属性条件評価指標を演算する差分演算手段と、
1つの入力属性がとる各数値の中で上記差分値が最大となる数値に基づいて、各々の前記入力属性について、それぞれ、「前記入力属性が当該入力属性条件を満たせば、前記分析データ群中の前記第2データ群に属するデータであり、前記入力属性が当該入力属性条件を満たさなければ、前記分析データ群中の前記第1データ群に属するデータである」という第1の相関ルール満たす入力属性条件を定する入力属性条件決定手段と、
前記入力属性条件決定手段で決定された前記入力属性条件の各々について、前記基本データ群中で該入力属性条件を満たすデータの中に前記第2データ群が含まれるデータ個数の割合を表す、第2データ群分離度を演算する、第2データ群分離度演算手段と、
前記入力属性条件決定手段で決定された前記入力属性条件の中で、前記基本データ群中に含まれる前記第2データ群のデータ個数の割合を表す第2データ群含有率よりも大きい値の、前記第2データ群分離度をもつ入力属性条件を、前記第2データ群に対応する出力属性条件の要因を示す情報として抽出する、要因抽出手段とを含むことを特徴とするデータ分析装置。
Analyzing the causal relationship between the input attribute and the output attribute with respect to a basic data group that is a set of data composed of a plurality of numeric type input attributes and output attributes, information indicating the causal relationship A data analysis device for extraction,
The basic data group is classified into a first data group and a second data group based on a comparison between the value of the output attribute and a predetermined classification condition, and a classification flag corresponding to the classification result is set as the basic data. A classification means to be given to the group ;
Analysis data group extraction means for extracting an analysis data group to be analyzed from the basic data group after classification by the classification means;
For every numerical value that can be taken by the input attribute of each of the analysis data groups, all the data belonging to the first data group of the number of data belonging to the first data group among the data having numerical values equal to or smaller than the numerical value. Data that belongs to the second data group among data having a numerical value equal to or lower than the numerical value for every numerical value that can be taken by each of the input attributes, and performing an operation for obtaining a first frequency that is a ratio to the number of Frequency calculating means for calculating a second frequency, which is a ratio of the number of data to the number of all data belonging to the second data group;
Difference calculation means for calculating an input attribute condition evaluation index representing a difference value between the first frequency and the second frequency for each of all the numerical values taken by the input attribute;
Based on the numerical value that maximizes the difference value among the numerical values taken by one input attribute, for each of the input attributes, “if the input attribute satisfies the input attribute condition, a data belonging to the second data group, said input attributes to meet the input attribute conditions, satisfy the first is a data belonging to a data group "referred to as a first correlation rule in the analysis data set an input attribute condition determining means that determine the input attribute conditions,
For each of the input attribute conditions determined by the input attribute condition determining means, a ratio of the number of data in which the second data group is included in the data satisfying the input attribute condition in the basic data group, A second data group separation degree computing means for computing two data group separation degrees;
Among the input attribute conditions determined by the input attribute condition determining means, a value larger than the second data group content rate representing the ratio of the number of data of the second data group included in the basic data group, A data analysis apparatus comprising: factor extracting means for extracting an input attribute condition having the second data group separation degree as information indicating a factor of an output attribute condition corresponding to the second data group.
前記入力属性条件決定手段で決定された前記入力属性条件の各々について、該入力属性条件の決定に適用した該入力属性の数値における第2の頻度が第1の頻度より大きい場合には、第1の頻度に対する第2の頻度の比率である第1の比率を評価値として演算し、第1の頻度が第2の頻度より大きいと場合には、(100%−第1の頻度)に対する(100%−第2の頻度)の比率である第2の比率を評価値として演算する評価値演算手段と、
前記入力属性条件決定手段で決定された前記入力属性条件の中で、最大の前記価値を持つ入力属性条件に基づいて、前記分析データ群を、該入力属性条件を満たす要因データ群と、該入力属性条件を満たさない他データ群とに分割する分割手段とをさらに含み、
前記分析データ群抽出手段は、前記分割手段で分割された前記要因データ群と前記他データ群との少なくとも一方を新たな前記分析データ群として抽出し、該分析データ群抽出手段による処理、前記頻度演算手段による処理、前記差分演算手段による処理、前記入力属性条件決定手段による処理、前記第2データ群分離度演算手段による処理、前記要因抽出手段による処理、前記評価値演算手段による処理、および、前記分割手段による処理からなる一連の処理が繰り返し実行されるようになっていることを特徴とする請求項1に記載のデータ分析装置。
For each of the input attribute conditions determined by the input attribute condition determining means, if the second frequency in the numerical value of the input attribute applied to the determination of the input attribute condition is greater than the first frequency, the first When the first ratio, which is the ratio of the second frequency to the frequency, is calculated as the evaluation value and the first frequency is greater than the second frequency, (100% −first frequency) is set to (100 % -Second frequency), an evaluation value calculating means for calculating a second ratio as an evaluation value;
Among the input attribute condition determined by the input attribute condition determining means, based on the input attribute conditions with maximum the Review value, the analysis data groups, and input attributes satisfy factor data group, the A dividing unit that divides the data into other data groups that do not satisfy the input attribute condition;
The analysis data group extraction means extracts at least one of the factor data group and the other data group divided by the division means as a new analysis data group, and the processing by the analysis data group extraction means, the frequency Processing by the computing means, processing by the difference computing means , processing by the input attribute condition determining means, processing by the second data group separation degree computing means, processing by the factor extracting means, processing by the evaluation value computing means , and The data analysis apparatus according to claim 1, wherein a series of processing including processing by the dividing unit is repeatedly executed.
前記要因抽出手段の繰り返しの処理によって抽出された、同一の前記入力属性における複数の前記入力属性条件に対し、これらのうちで、優先度の高い条件のみを選定する要因決定手段をさらに備えており、
前記要因決定手段は、
前記要因抽出手段の繰り返しの処理によって抽出された、同一の前記入力属性における複数の前記入力属性条件の中で、前記第2データ群分離度が最大となる入力属性条件を、前記優先度の高い条件として選定することを特徴とする請求項2に記載のデータ分析装置。
For the plurality of input attribute conditions in the same input attribute extracted by the repeated processing of the factor extracting means, the apparatus further comprises factor determining means for selecting only a condition having a higher priority among them. ,
The factor determining means includes
Among the plurality of input attribute conditions for the same input attribute extracted by the repeated processing of the factor extracting means, an input attribute condition that maximizes the second data group separation degree is selected as the high priority. The data analysis apparatus according to claim 2, wherein the data analysis apparatus is selected as a condition.
前記要因抽出手段の繰り返しの処理によって抽出された、同一の前記入力属性における複数の前記入力属性条件に対し、これらのうちで、優先度の高い条件のみを選定する要因決定手段をさらに備えており、
前記要因抽出手段の繰り返しの処理によって抽出された、同一の前記入力属性における複数の前記入力属性条件が、「前記入力属性が閾値以下である」という第1のパターンと、「前記入力属性が閾値を超える」という第2のパターンとに分けられる場合において、
前記要因決定手段は、
前記第1のパターンの中で、前記第2データ群分離度が最大となる入力属性条件を1つと、前記第2のパターンの中で、前記第2データ群分離度が最大となる入力属性条件を1つとを、前記優先度が高い条件として選定することを特徴とする請求項2に記載のデータ分析装置。
For the plurality of input attribute conditions in the same input attribute extracted by the repeated processing of the factor extracting means, the apparatus further comprises factor determining means for selecting only a condition having a higher priority among them. ,
A plurality of the input attribute conditions in the same input attribute extracted by the repeated processing of the factor extracting means include a first pattern that “the input attribute is equal to or less than a threshold value” and “the input attribute is a threshold value” In the case of being divided into the second pattern of “exceeding”,
The factor determining means includes
One input attribute condition that maximizes the second data group separation degree in the first pattern, and one input attribute condition that maximizes the second data group separation degree in the second pattern The data analysis apparatus according to claim 2, wherein one is selected as a condition having a high priority.
前記分析データ群抽出手段は、前記分割手段で分割されたデータ群のうち前記他データ群のみを、新たな前記分析データ群として抽出するものであることを特徴とする請求項2に記載のデータ分析装置。   The data according to claim 2, wherein the analysis data group extraction unit extracts only the other data group from the data group divided by the division unit as a new analysis data group. Analysis equipment. 終了条件を満たしているか否かを判定する終了条件判定手段をさらに含み、
前記終了条件判定手段において前記終了条件を満たしていると判定されると、前記一連の処理の実行を終了するようになっており、
前記終了条件判定手段は、前記分析データ群抽出手段で抽出した前記分析データ群における前記第2データ群のデータ個数が0であるかを前記終了条件として判定を行うことを特徴とする請求項2に記載のデータ分析装置。
It further includes an end condition determining means for determining whether or not the end condition is satisfied,
When the end condition determining means determines that the end condition is satisfied, the execution of the series of processes ends.
3. The end condition determination unit determines whether the number of data in the second data group in the analysis data group extracted by the analysis data group extraction unit is 0 as the end condition. The data analysis device described in 1.
分類条件を設定する分類条件設定手段をさらに含み、It further includes a classification condition setting means for setting a classification condition,
前記分類手段は、前記出力属性の値と前記分類条件との比較に基づいて前記基本データ群を分類するようになっていることを特徴とする請求項1または2に記載のデータ分析装置。3. The data analysis apparatus according to claim 1, wherein the classification unit classifies the basic data group based on a comparison between the value of the output attribute and the classification condition.
請求項1に記載のデータ分析装置を用いて、前記基本データ群に対して、前記因果関係を分析し、前記因果関係を示す情報を抽出するデータ分析方法であって、
前記分類手段により、前記基本データ群を、前記出力属性の値と所定の分類条件との比較に依って、前記第1データ群と前記第2データ群とに分類し、その分類結果に対応する前記分類フラグを前記基本データ群に付与する分類ステップと、
前記分析データ群抽出手段により、前記分類手段による分類後の前記基本データ群の中から、前記分析データ群を抽出する分析データ群抽出ステップと、
前記頻度演算手段により、前記分析データ群の各々の前記入力属性が取り得る全ての数値毎に、当該数値以下の数値を持つデータのうち、第1データ群に属するデータの個数の、第1データ群に属する全てのデータの個数に対する比率である第1の頻度を求める演算を行い、かつ、各々の前記入力属性がとり得る全ての数値毎に、当該数値以下の数値を持つデータのうち、第2データ群に属するデータの個数の、第2データ群に属する全てのデータの個数に対する比率である第2の頻度を求める演算を行う頻度演算ステップと、
前記差分演算手段により、入力属性がとる全ての数値の各々について、第1の頻度と第2の頻度との差分値を表す入力属性条件評価指標を演算する差分演算ステップと、
前記入力属性条件決定手段により、1つの入力属性がとる各数値の中で上記差分値が最大となる数値に基づいて、各々の前記入力属性について、それぞれ、「前記入力属性が当該入力属性条件を満たせば、前記分析データ群中の前記第2データ群に属するデータであり、前記入力属性が当該入力属性条件を満たさなければ、前記分析データ群中の前記第1データ群に属するデータである」という第1の相関ルールを満たす入力属性条件を決定する入力属性条件決定ステップと、
前記第2データ群分離度演算手段により、前記入力属性条件決定手段で決定された前記入力属性条件の各々について、前記第2データ群分離度を演算する、第2データ群分離度演算ステップと、
前記要因抽出手段により、前記入力属性条件決定手段で決定された前記入力属性条件の中で、前記第2データ群含有率よりも大きい値の、前記第2データ群分離度をもつ前記入力属性条件を、前記第2データ群に対応する出力属性条件の要因を示す情報として抽出する、要因抽出ステップとを含むことを特徴とするデータ分析方法。
A data analysis method for analyzing the causal relationship and extracting information indicating the causal relationship with respect to the basic data group using the data analysis device according to claim 1,
The classification means classifies the basic data group into the first data group and the second data group based on a comparison between the output attribute value and a predetermined classification condition, and corresponds to the classification result. A classification step of assigning the classification flag to the basic data group ;
An analysis data group extraction step of extracting the analysis data group from the basic data group after classification by the classification means by the analysis data group extraction means;
First data of the number of data belonging to the first data group among the data having a numerical value equal to or lower than the numerical value for every numerical value that can be taken by each input attribute of the analysis data group by the frequency calculation means. An operation for obtaining a first frequency which is a ratio to the number of all data belonging to the group, and for each of all the numerical values that can be taken by each of the input attributes, A frequency calculating step for calculating a second frequency that is a ratio of the number of data belonging to the two data groups to the number of all data belonging to the second data group;
A difference calculating step of calculating an input attribute condition evaluation index representing a difference value between the first frequency and the second frequency for each of all the numerical values taken by the input attribute by the difference calculating means;
According to the input attribute condition determining means , for each of the input attributes based on the numerical value that maximizes the difference value among the numerical values taken by one input attribute, If the condition is satisfied, the data belongs to the second data group in the analysis data group, and if the input attribute does not satisfy the input attribute condition, the data belongs to the first data group in the analysis data group. an input attribute condition determination step that determine the input attribute conditions satisfying the first correlation rule,
A second data group separation degree calculating step of calculating the second data group separation degree for each of the input attribute conditions determined by the input attribute condition determining means by the second data group separation degree calculating means;
Among the input attribute conditions determined by the input attribute condition determining means by the factor extracting means, the input attribute condition having the second data group separation degree having a value larger than the second data group content rate. And a factor extracting step of extracting the information as information indicating the factor of the output attribute condition corresponding to the second data group.
前記入力属性は、製品の製造工程における製造プロセス条件および/またはインライン検査結果であり、The input attribute is a manufacturing process condition and / or an in-line inspection result in a product manufacturing process,
前記出力属性は、製品の品質判定結果であり、The output attribute is a product quality determination result,
前記第2データ群は、前記品質判定結果が不良のデータ群であることを特徴とする請求項8に記載のデータ分析方法。The data analysis method according to claim 8, wherein the second data group is a data group in which the quality determination result is defective.
コンピュータを、
複数の入力属性と、出力属性とで構成されるデータの集合である基本データ群を、出力属性の値と所定の分類条件との比較に依って、第1データ群と第2データ群とに分類し、その分類結果に対応する分類フラグを前記基本データ群に付与する分類手段と、
前記分類手段による分類後の前記基本データ群の中から、分析の対象とする分析データ群を抽出する分析データ群抽出手段と、
前記分析データ群の各々の前記入力属性が取り得る全ての数値毎に、当該数値以下の数値を持つデータのうち、第1データ群に属するデータの個数の、第1データ群に属する全てのデータの個数に対する比率である第1の頻度を求める演算を行い、かつ、各々の前記入力属性がとり得る全ての数値毎に、当該数値以下の数値を持つデータのうち、第2データ群に属するデータの個数の、第2データ群に属する全てのデータの個数に対する比率である第2の頻度を求める演算を行う頻度演算手段と、
入力属性がとる全ての数値の各々について、第1の頻度と第2の頻度との差分値を表す入力属性条件評価指標を演算する差分演算手段と、
1つの入力属性がとる各数値の中で上記差分値が最大となる数値に基づいて、各々の前記入力属性について、それぞれ、「前記入力属性が当該入力属性条件を満たせば、前記分析データ群中の前記第2データ群に属するデータであり、前記入力属性が当該入力属性条件を満たさなければ、前記分析データ群中の前記第1データ群に属するデータである」という第1の相関ルール満たす入力属性条件を決定する入力属性条件決定手段と、
前記入力属性条件決定手段で決定された前記入力属性条件の各々について、前記基本データ群中で該入力属性条件を満たすデータの中に前記第2データ群が含まれるデータ個数の割合を表す、第2データ群分離度を演算する、第2データ群分離度演算手段と、
前記入力属性条件決定手段で決定された前記入力属性条件の中で、前記基本データ群中に含まれる前記第2データ群のデータ個数の割合を表す第2データ群含有率よりも大きい値の、前記第2データ群分離度をもつ入力属性条件を、前記第2データ群に対応する出力属性条件の要因を示す情報として抽出する、要因抽出手段として機能させるためのデータ分析プログラム。
Computer
A basic data group, which is a set of data composed of a plurality of input attributes and output attributes, is divided into a first data group and a second data group by comparing the value of the output attribute with a predetermined classification condition. Classification means for classifying and assigning a classification flag corresponding to the classification result to the basic data group ;
Analysis data group extraction means for extracting an analysis data group to be analyzed from the basic data group after classification by the classification means;
For every numerical value that can be taken by the input attribute of each of the analysis data groups, all the data belonging to the first data group of the number of data belonging to the first data group among the data having numerical values equal to or smaller than the numerical value. Data that belongs to the second data group among data having a numerical value equal to or lower than the numerical value for every numerical value that can be taken by each of the input attributes, and performing an operation for obtaining a first frequency that is a ratio to the number of Frequency calculating means for calculating a second frequency, which is a ratio of the number of data to the number of all data belonging to the second data group;
Difference calculation means for calculating an input attribute condition evaluation index representing a difference value between the first frequency and the second frequency for each of all the numerical values taken by the input attribute;
Based on the numerical value that maximizes the difference value among the numerical values taken by one input attribute, for each of the input attributes, “if the input attribute satisfies the input attribute condition, a data belonging to the second data group, said input attributes to meet the input attribute conditions, satisfy the first is a data belonging to a data group "referred to as a first correlation rule in the analysis data set an input attribute condition determining means that determine the input attribute conditions,
For each of the input attribute conditions determined by the input attribute condition determining means, a ratio of the number of data in which the second data group is included in the data satisfying the input attribute condition in the basic data group, A second data group separation degree computing means for computing two data group separation degrees;
Among the input attribute conditions determined by the input attribute condition determining means, a value larger than the second data group content rate representing the ratio of the number of data of the second data group included in the basic data group, A data analysis program for functioning as a factor extracting unit that extracts an input attribute condition having the second data group separation degree as information indicating a factor of an output attribute condition corresponding to the second data group.
請求項10に記載のデータ分析プログラムを記録したコンピュータ読み取り可能な記録媒体。The computer-readable recording medium which recorded the data analysis program of Claim 10.
JP2004075176A 2004-03-16 2004-03-16 Data analysis apparatus, data analysis method, data analysis program, and recording medium Expired - Fee Related JP4347099B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004075176A JP4347099B2 (en) 2004-03-16 2004-03-16 Data analysis apparatus, data analysis method, data analysis program, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004075176A JP4347099B2 (en) 2004-03-16 2004-03-16 Data analysis apparatus, data analysis method, data analysis program, and recording medium

Publications (2)

Publication Number Publication Date
JP2005266969A JP2005266969A (en) 2005-09-29
JP4347099B2 true JP4347099B2 (en) 2009-10-21

Family

ID=35091487

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004075176A Expired - Fee Related JP4347099B2 (en) 2004-03-16 2004-03-16 Data analysis apparatus, data analysis method, data analysis program, and recording medium

Country Status (1)

Country Link
JP (1) JP4347099B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4894473B2 (en) * 2005-11-29 2012-03-14 オムロン株式会社 Defect countermeasure selection device, defect countermeasure selection method, defect countermeasure selection program, and recording medium recording defect countermeasure selection program
JP5013161B2 (en) * 2006-02-28 2012-08-29 ソニー株式会社 Information processing apparatus, information processing method, providing apparatus, providing method, and program

Also Published As

Publication number Publication date
JP2005266969A (en) 2005-09-29

Similar Documents

Publication Publication Date Title
CN107294993B (en) WEB abnormal traffic monitoring method based on ensemble learning
CN110213222B (en) Network intrusion detection method based on machine learning
US8682813B2 (en) Sample class prediction method, prediction program, and prediction apparatus
WO2023279696A1 (en) Service risk customer group identification method, apparatus and device, and storage medium
US20100241598A1 (en) Method, program, and apparatus for generating two-class classification/prediction model
CN105426441B (en) A kind of automatic preprocess method of time series
CN111461216A (en) Case risk identification method based on machine learning
CN114746859A (en) Evaluation method, evaluation program, and information processing device
CN111641608A (en) Abnormal user identification method and device, electronic equipment and storage medium
CN111191033B (en) Open set classification method based on classification utility
CN114818643A (en) Log template extraction method for reserving specific service information
JP4347099B2 (en) Data analysis apparatus, data analysis method, data analysis program, and recording medium
CN107480126B (en) Intelligent identification method for engineering material category
Sengar et al. Bot detection in social networks based on multilayered deep learning approach
JP4298531B2 (en) Input attribute condition determination device, input attribute condition determination method, input attribute condition determination program, data analysis device, data analysis method, and data analysis program
JP4368755B2 (en) Data analysis apparatus, data analysis method, and data analysis program
JP4255779B2 (en) Data analysis apparatus, data analysis method, and data analysis program
CN107122394A (en) Abnormal deviation data examination method and device
Thota et al. Early rumor detection in social media based on graph convolutional networks
KR100727555B1 (en) Creating method for decision tree using time-weighted entropy and recording medium thereof
CN115757034A (en) Log analysis processing method and device, computer equipment and storage medium
Borkar et al. Comparative study of supervised learning algorithms for fake news classification
KR20230122739A (en) System and Method for Discovering Emerging Technology Using Knowledge Graph and Deep Learning-based Text Mining
CN113900935A (en) Automatic defect identification method and device, computer equipment and storage medium
Cai et al. Application of Data Mining Techniques on Tourist Expenses in Malaysia

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090303

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090430

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20090430

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090714

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090715

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120724

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120724

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130724

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees