JP4255779B2 - Data analysis apparatus, data analysis method, and data analysis program - Google Patents

Data analysis apparatus, data analysis method, and data analysis program Download PDF

Info

Publication number
JP4255779B2
JP4255779B2 JP2003272648A JP2003272648A JP4255779B2 JP 4255779 B2 JP4255779 B2 JP 4255779B2 JP 2003272648 A JP2003272648 A JP 2003272648A JP 2003272648 A JP2003272648 A JP 2003272648A JP 4255779 B2 JP4255779 B2 JP 4255779B2
Authority
JP
Japan
Prior art keywords
data
attribute
input
frequency
ratio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003272648A
Other languages
Japanese (ja)
Other versions
JP2005032117A (en
Inventor
博明 竹内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2003272648A priority Critical patent/JP4255779B2/en
Publication of JP2005032117A publication Critical patent/JP2005032117A/en
Application granted granted Critical
Publication of JP4255779B2 publication Critical patent/JP4255779B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Description

本発明は、分析対象である出力属性(目的属性)、例えば製造工程で製造され
る製品の特性等と、出力属性に影響を与える属性である入力属性(説明属性)、
例えば製造プロセス条件等との因果関係を分析するデータ分析装置およびデータ
分析方法並びにデータ分析プログラムに関する。
The present invention provides an output attribute (object attribute) to be analyzed, such as characteristics of a product manufactured in a manufacturing process, and an input attribute (description attribute) that is an attribute that affects the output attribute.
For example, the present invention relates to a data analysis apparatus, a data analysis method, and a data analysis program for analyzing a causal relationship with manufacturing process conditions and the like.

出力属性と入力属性との因果関係を分析する有効な手法としては、決定木手法
が知られている(特許文献1参照)。この手法では、各入力属性の値で順次切り
分けた葉の部分で、出力属性の値がうまくまとまるような木構造を作成する。
A decision tree technique is known as an effective technique for analyzing a causal relationship between an output attribute and an input attribute (see Patent Document 1). In this method, a tree structure is created in which the values of output attributes are well organized in leaf portions that are sequentially cut by the values of input attributes.

図10は、特許文献1の従来技術の項(特許文献1の段落[0002]〜[0
005]および図22参照)に記載されている決定木の1例であり、表1のデー
タ群を分析対象としている。表1のデータ群は、x1,x2,x3,x4の4つ
の入力属性の値と、これら入力属性に対する出力属性yの値とを組とするデータ
を12個集めた集合である。この手法で作成される決定木(以下、「従来の決定
木−1」と呼ぶ事にする)では、図10に示すように、出力属性yの値X,Y,
Zが入力属性x1,x2,x3の各値によって、うまく切り分けられている。
FIG. 10 shows a section of the prior art of Patent Document 1 (paragraphs [0002] to [0 of Patent Document 1].
005] and FIG. 22), and the data group of Table 1 is the analysis target. The data group in Table 1 is a set in which twelve pieces of data including a set of four input attribute values x1, x2, x3, and x4 and a value of an output attribute y corresponding to these input attributes are collected. In a decision tree created by this method (hereinafter referred to as “conventional decision tree-1”), as shown in FIG. 10, the values X, Y,
Z is well separated by each value of the input attributes x1, x2, and x3.

しかし、図10の従来の決定木−1の作成においては、データを分類する際に
、入力属性がとる値の数(属性値の種類数)だけのデータ集合に分類される。例
えば、入力属性x2は4種類の値(a,b,c,d)をとるので、入力属性x2
による分類により4つの集合に分類される。そのため、入力属性がとる値の数が
増えると、決定木が煩雑になる可能性がある。
However, in the creation of the conventional decision tree-1 in FIG. 10, when data is classified, it is classified into data sets corresponding to the number of values that the input attribute takes (the number of attribute value types). For example, since the input attribute x2 takes four types of values (a, b, c, d), the input attribute x2
Classification into four sets by classification according to. Therefore, if the number of values that the input attribute takes increases, the decision tree may become complicated.

この課題の解決策として、特許文献1では、各属性において、まとめられる属
性値を1つのラベルで表現し、ラベルによりデータ分類する決定木を提案してい
る。
As a solution to this problem, Patent Document 1 proposes a decision tree in which attribute values to be grouped are represented by one label for each attribute, and data is classified by the label.

図11は、特許文献1の実施例(特許文献1の段落[0010]〜[0028
]および図13参照)に記載のラベル階層である。この実施例では、例えば、4
種の属性値(1,2,3,4)からなるx3属性について、x3属性値「1」「
2」に「2.5以下」というラベルをつけおよび、x3属性値「3」「4」に「
2.5以上」というラベルをつけて階層構造を表現している。このラベル階層構
造を用いて作成される決定木(以下、この決定木を従来の決定木−2と呼ぶ事に
する)は、図12(特許文献1の段落[0010]〜[0028]および図14
参照)に示す如くであり、図10に示す従来の決定木−1に比べて、非常に簡潔
である。
特開平8−314725号公報(公開日:平成8年(1996)11月29日)
FIG. 11 shows an example of Patent Document 1 (paragraphs [0010] to [0028 of Patent Document 1).
And FIG. 13). In this embodiment, for example, 4
For the x3 attribute composed of the seed attribute values (1, 2, 3, 4), the x3 attribute value “1” “
“2” is labeled “2.5 or less”, and the x3 attribute values “3” and “4” are “
A hierarchical structure is expressed with a label of “2.5 or more”. FIG. 12 (paragraphs [0010] to [0028] in FIG. 12 and FIG. 12 shows a decision tree created using this label hierarchical structure (hereinafter, this decision tree is referred to as a conventional decision tree-2). 14
The reference decision tree-1 shown in FIG. 10 is much simpler.
JP-A-8-314725 (Publication date: November 29, 1996)

上記従来の決定木生成手法をデバイス等の製品の製造工程における製品特性不
良の要因分析に応用する場合を題材にして、従来技術の課題を説明する。
The problems of the prior art will be described using the case where the above-described conventional decision tree generation method is applied to cause analysis of product characteristic defects in the manufacturing process of products such as devices.

いま、表1の入力属性x1,x2,x3,x4が製品製造工程における各種の
プロセスデータやインライン検査データ、出力属性yが製造された製品の特性デ
ータであり、出力属性y=Yが製品特性不良に相当するものとする。そして、プ
ロセス技術者が、製品特性不良y=Yに対し、特許文献1の従来技術に記載され
た手法で生成された決定木−1(図10)、または特許文献1に記載された手法
で生成された従来の決定木−2(図12)を用いて、製品特性不良の要因を調査
するものとする。
Now, the input attributes x1, x2, x3, and x4 in Table 1 are various process data and in-line inspection data in the product manufacturing process, and the output attribute y is the product characteristic data. The output attribute y = Y is the product characteristic. It shall correspond to a defect. Then, the process engineer uses the decision tree-1 (FIG. 10) generated by the technique described in the prior art of Patent Document 1 or the technique described in Patent Document 1 for the product characteristic defect y = Y. It is assumed that the cause of product characteristic failure is investigated using the generated conventional decision tree-2 (FIG. 12).

このとき、特許文献1の従来技術に記載された手法で生成された決定木−1で
は、注目すべきy=Yが樹形の中の複数箇所(図10の例では4箇所)に分散し
ているため煩雑であり、「どの入力属性がどの値の範囲にあるから製品特性が悪
いのか?」という製品特性不良の要因をプロセス技術者が判断しにくい。図10
の例では、入力属性が4属性だけでかつ各属性値の種類も4つだけであるため、
何とか、プロセス技術者が製品特性不良の要因を判断することも可能である。し
かしながら、実際のデバイス(特に半導体デバイス)のような製品の製造現場で
は、1工程につき10〜100属性程度のプロセスデータやインライン検査デー
タがあり、しかも、その値は多値で非常に広い範囲で分布している。さらに、外
乱(入力属性として検出できていない属性)の影響により、各入力属性の値が同
じであっても、出力属性の値がばらつく事も多い。これらのような場合に特許文
献1の従来技術に記載された手法を用いると、厳密な分析を目指すがあまり、無
限数のデータ集合に分類されてしまい、もはや、プロセス技術者が、適正に製品
特性不良の要因を特定する事ができなくなる。
At this time, in the decision tree-1 generated by the method described in the prior art of Patent Document 1, y = Y to be noticed is distributed at a plurality of locations (four locations in the example of FIG. 10) in the tree shape. Therefore, it is complicated, and it is difficult for a process engineer to determine the cause of a product characteristic failure such as “Which input attribute is in which value range, so that the product characteristic is bad?”. FIG.
In this example, there are only 4 input attributes and only 4 types of attribute values.
Somehow, the process engineer can also determine the cause of the product characteristic failure. However, in manufacturing sites of products such as actual devices (especially semiconductor devices), there are process data and in-line inspection data of about 10 to 100 attributes per process, and the values are multivalued and in a very wide range. Distributed. Furthermore, due to the influence of disturbance (attributes that cannot be detected as input attributes), the values of output attributes often vary even if the values of the input attributes are the same. In such a case, if the method described in the prior art of Patent Document 1 is used, a precise analysis is aimed at, but the data is classified into an infinite number of data sets. It becomes impossible to specify the cause of the characteristic failure.

一方、特許文献1に開示された手法により生成される決定木−2(図12)で
は、ラベル階層による分類がなされているので、決定木が簡潔である。そのため
、プロセス技術者が、y=Yなる製品特性不良の要因を特定しやすい。
On the other hand, in the decision tree-2 (FIG. 12) generated by the method disclosed in Patent Document 1, the decision tree is simple because the classification is based on the label hierarchy. Therefore, it is easy for the process engineer to identify the cause of the product characteristic failure where y = Y.

しかし、この図12に示す簡潔な決定木−2を作成するには、図11に示すラ
ベル階層構造を予め定義しておく必要がある。そのため、特許文献1の決定木生
成手法は、まとめられる属性値の見当がつかない場合には適用できない。上述し
たように、実際のデバイスのような製品の製造現場では、1工程につき10〜1
00属性程度の、プロセスデータやインライン検査データがあり、しかも、その
値は多値で非常に広い範囲で分布している。さらに、外乱(入力属性として検出
できていない属性)の影響により、各入力属性の値が同じであっても、出力属性
の値がばらつく事も多い。これらのような状況下で、各入力属性に対し、一つの
ラベルとしてまとめられる属性値を見出す事は、経験豊富なプロセス技術者であ
っても、非常に困難である。
However, in order to create the simple decision tree-2 shown in FIG. 12, it is necessary to previously define the label hierarchical structure shown in FIG. For this reason, the decision tree generation method of Patent Document 1 cannot be applied when there is no idea of the attribute values to be collected. As described above, at the manufacturing site of a product such as an actual device, 10 to 1 per process is required.
There are process data and inline inspection data of about 00 attributes, and the values are multivalued and distributed in a very wide range. Furthermore, due to the influence of disturbance (attributes that cannot be detected as input attributes), the values of output attributes often vary even if the values of the input attributes are the same. Under these circumstances, it is very difficult even for an experienced process engineer to find an attribute value that is collected as one label for each input attribute.

本発明は、上記従来の問題点を鑑みてなされたものであり、その目的は、ラベ
ル階層構造を予め定義する事なく、簡潔な形で、出力属性と入力属性との因果関
係を導き出せるデータ分析装置およびデータ分析方法並びにデータ分析プログラ
ムを提供する事にある。
The present invention has been made in view of the above-described conventional problems, and an object of the present invention is to analyze data that can derive a causal relationship between an output attribute and an input attribute in a concise form without predefining a label hierarchical structure. An apparatus, a data analysis method, and a data analysis program are provided.

本発明に係るデータ分析装置は、上記の課題を解決するために、分析対象データ格納部に格納された、複数の入力属性 (1≦j≦N、Nは入力属性の個数)と、1つの出力属性とで構成されるデータの集合である基本データ群DAを分析対象とし、入力属性と出力属性との因果関係を分析するデータ分析装置であって、基本データ群DAに含まれる文字属性のデータを、一義的な変換ルールに従って数値属性のデータに変換することによって、数値属性のデータの集合である数値型基本データ群DA0を生成する文字―数値データ変換手段と、数値型基本データ群DA0、数値型基本データ群DA0に含まれる出力属性yの数値と、出力属性yの所定閾値との大小関係の比較に基づいて、第1データ群DA1第2データ群DA2とに分類する分類手段と、上記複数の入力属性のうちの1つの入力属性x について、該1つの入力属性x のとり得る数値毎に、当該数値以下の数値を持つデータのうち、第1データ群DA1に属するデータの個数の、第1データ群DA1に属する全てのデータの個数に対する比率である第1の頻度(1−x 頻度累積%)を求める演算を行い、かつ、該1つの入力属性x のとり得る数値毎に、当該数値以下の数値を持つデータのうち、第2データ群DA2に属するデータの個数の、第2データ群DA2に属する全てのデータの個数に対する比率である第2の頻度(2−x 頻度累積%)を求める演算を行い、かつ、該1つの入力属性x のとり得る数値毎に、第1の頻度と第2の頻度との差分(x 頻度累積差%)を求める演算を、上記複数の入力属性の各々について行なう第1の評価手段と、上記複数の入力属性のうちの1つの入力属性x について、第1の評価手段で該1つの入力属性x のとり得る数値毎に演算された差分(x 頻度累積差%)に基づいて、最大の差分が求められた数値を当該入力属性 の閾値 j―th として決定することを、上記複数の入力属性の各々について行なう閾値決定手段と、上記複数の入力属性のうちの1つの入力属性x について、閾値決定手段にて決定された該入力属性x の閾値x j―th における、第1の頻度(1−x 頻度累積%)に対する第2の頻度(2−x 頻度累積%)の比率である第1の比率と、閾値決定手段にて決定された該入力属性x の閾値x j―th における、(100%−第1の頻度(1−x 頻度累積%))に対する(100%−第2の頻度(2−x 頻度累積%))の比率である第2の比率とを演算するとともに、第1の比率および第2の比率のうちの大きい方の比率を選択することを、上記複数の入力属性の各々について行なう第2の評価手段と、上記第2の評価手段にて入力属性毎に選択された比率のうち、最も大きい比率を持つ入力属性x 、該入力属性x の閾値x j―th 、および該最も大きい比率が第1の比率および第2の比率の何れであるかを示す種別を、入力属性条件を示すデータとして抽出するとともに、当該入力属性条件を分析結果データ格納部に格納する要因抽出手段とを含むことを特徴としている。 In order to solve the above problem, the data analysis apparatus according to the present invention stores a plurality of input attributes x j (1 ≦ j ≦ N, N is the number of input attributes) stored in the analysis target data storage unit , one output is the attribute y with the basic data group DA analyte is a set of data composed in the causal relationship between the input attributes and output attributes a data analyzer you analyze, the basic data group DA Character-numeric data conversion means for generating numeric-type basic data group DA0, which is a set of numeric attribute data, by converting the included character attribute data into numeric attribute data according to a unique conversion rule; type base data group DA0, and numeric numeric output attribute y included in the basic data group DA0, based on a comparison of the magnitude relation between the predetermined threshold value of the output attribute y, the first data group DA1, second data group DA And classifying means for classifying the bets, for one input attribute x j of the plurality of input attributes for each numerical value can be assumed by the said one input attributes x j, among the data having the following values the number, the An operation is performed to obtain a first frequency (1-x j frequency cumulative%), which is a ratio of the number of data belonging to one data group DA1 to the number of all data belonging to the first data group DA1. one of each numerical value can take input attributes x j, among the data having the following values the numerical, the number of data belonging to the second data group DA2, a ratio to the number of all data belonging to the second data group DA2 It performs operation for obtaining a certain second frequency (2-x j frequency cumulative%), and, for each numerical value can take of the one input attributes x j, the first frequency and the difference between the second frequency (x calculation for obtaining the j frequency cumulative difference%) A first evaluation means for, for each of the plurality of input attributes for a single input attribute x j of the plurality of input attributes, the numerical values in the first evaluation means can take of the one input attributes x j based on the calculated difference (x j frequency cumulative difference%) for each, the numerical value determined maximum difference to be determined as a threshold value x j-th of the input attributes x j, of the plurality of input attributes a threshold value determining means for, for each, for a single input attribute x j of the plurality of input attributes, the threshold x j-th of the input attributes x j which is determined by the threshold value determining means, the first frequency ( 1-x j frequency cumulative%) of the second frequency (2-x j frequency cumulative%) and the threshold value x j- of the input attribute x j determined by the threshold value determining means. in th, (100% - the first frequency ( -X j Frequency Cumulative%)) with respect to (100% - as well as calculating a second ratio is the ratio of the second frequency (2-x j Frequency Cumulative%)), the first ratio and the second ratio Of the plurality of input attributes is selected for each of the plurality of input attributes, and the ratio selected for each input attribute by the second evaluation means is the largest. input attributes x j with the ratio, threshold x j-th of the input attributes x j, and the type of outermost even larger ratio indicates which of the first ratio and the second ratio, shows the input attribute conditions It is characterized by including factor extraction means for extracting the input attribute condition in an analysis result data storage unit as well as extracting it as data.

本発明に係るデータ分析方法は、上記の課題を解決するために、前記のデータ分析装置を用いて、分析対象データ格納部に格納された、複数の入力属性 (1≦j≦N、Nは入力属性の個数)と、1つの出力属性とで構成されるデータの集合である基本データ群DAを分析対象とし、入力属性と出力属性との因果関係を分析するデータ分析方法であって、上記文字―数値データ変換手段により、基本データ群DAに含まれる文字属性のデータを、一義的な変換ルールに従って数値属性のデータに変換することによって、数値属性のデータの集合である数値型基本データ群DA0を生成する文字―数値データ変換ステップと、上記分類手段により、数値型基本データ群DA0、数値型基本データ群DA0に含まれる出力属性yの数値と、出力属性yの所定閾値との大小関係の比較に基づいて、第1データ群DA1第2データ群DA2とに分類する分類ステップと、上記第1の評価手段により、上記複数の入力属性のうちの1つの入力属性x について、該1つの入力属性x のとり得る数値毎に、当該数値以下の数値を持つデータのうち、第1データ群DA1に属するデータの個数の、第1データ群DA1に属する全てのデータの個数に対する比率である第1の頻度(1−x 頻度累積%)を求める演算を行い、かつ、該1つの入力属性x のとり得る数値毎に、当該数値以下の数値を持つデータのうち、第2データ群DA2に属するデータの個数の、第2データ群DA2に属する全てのデータの個数に対する比率である第2の頻度(2−x 頻度累積%)を求める演算を行い、かつ、該1つの入力属性x のとり得る数値毎に、第1の頻度と第2の頻度との差分(x 頻度累積差%)を求める演算を、上記複数の入力属性の各々について行なう第1の評価ステップと、上記閾値決定手段により、上記複数の入力属性のうちの1つの入力属性x について、第1の評価手段で該1つの入力属性x のとり得る数値毎に演算された差分(x 頻度累積差%)に基づいて、最大の差分が求められた数値を当該入力属性 の閾値 j―th として決定することを、上記複数の入力属性の各々について行なう閾値決定ステップと、上記第2の評価手段により、上記複数の入力属性のうちの1つの入力属性x について、閾値決定手段にて決定された該入力属性x の閾値x j―th における、第1の頻度(1−x 頻度累積%)に対する第2の頻度(2−x 頻度累積%)の比率である第1の比率と、閾値決定手段にて決定された該入力属性x の閾値x j―th における、(100%−第1の頻度(1−x 頻度累積%))に対する(100%−第2の頻度(2−x 頻度累積%))の比率である第2の比率とを演算するとともに、第1の比率および第2の比率のうちの大きい方の比率を選択することを、上記複数の入力属性の各々について行なう第2の評価ステップと、上記要因抽出手段により、上記第2の評価手段にて入力属性毎に選択された比率のうち、最も大きい比率を持つ入力属性x 、該入力属性x の閾値x j―th 、および該最も大きい比率が第1の比率および第2の比率の何れであるかを示す種別を、入力属性条件を示すデータとして抽出するとともに、当該入力属性条件を分析結果データ格納部に格納する要因抽出ステップとを含むことを特徴としている。 In order to solve the above-described problem, the data analysis method according to the present invention uses the data analysis apparatus described above to store a plurality of input attributes x j (1 ≦ j ≦ N, N the number of input attributes), and one output attribute y analyzed basic data group DA is a set of data composed in, you analyze the causal relationship between input attributes and output attributes data analysis methods The character-numeric data conversion means converts the character attribute data included in the basic data group DA into numeric attribute data according to a unique conversion rule, thereby obtaining a set of numeric attribute data. character generating a numeric base data group DA0 - and numeric data conversion step, by the classifying means, a numeric base data group DA0, and numerical output attribute y included in the numeric base data group DA0 Based on the comparison of the magnitude relationship between the predetermined threshold value of the output attribute y, the first data group DA1, a classification step of classifying the second data group DA2, by the first evaluation means, the plurality of input attributes for one input attributes x j of out, for each numerical value can take of the one input attributes x j, among the data having the following values the numerical, the number of data belonging to the first data group DA1, the first data For each numerical value that can be taken by the one input attribute x j , the first frequency (1-x j frequency cumulative%) that is a ratio to the number of all data belonging to the group DA1 is calculated. A second frequency (2-x j frequency cumulative%) that is a ratio of the number of data belonging to the second data group DA2 to the number of all data belonging to the second data group DA2 among the data having the following numerical values Performance A calculation for calculating a difference between the first frequency and the second frequency (x j frequency cumulative difference%) for each numerical value that can be taken by the one input attribute x j is the plurality of input attributes. a first evaluation step of performing for each, by the threshold value determining means, for one input attribute x j of the plurality of input attributes, the numerical values can be assumed by the said one input attribute x j in the first evaluation means based on the calculated difference (x j frequency cumulative difference%) for each, the numerical value determined maximum difference to be determined as a threshold value x j-th of the input attributes x j, of the plurality of input attributes a threshold determination step of performing for each, by the second evaluation means, for one input attribute x j of the plurality of input attributes, the input attributes x j which is determined by the threshold determining unit threshold x j- the first frequency in th (1 -X j frequency cumulative%) to the first ratio that is the ratio of the second frequency (2-x j frequency cumulative%) and the threshold value x j-th of the input attribute x j determined by the threshold value determining means in, (100% - the first frequency (1-x j frequency cumulative%)) with respect to (100% - the second frequency (2-x j frequency cumulative%)) computing a second ratio is the ratio of In addition, the second evaluation step in which the larger one of the first ratio and the second ratio is selected for each of the plurality of input attributes, and the factor extraction means, the second extraction step . of the ratios selected for each input attribute in the evaluation means, the input attributes x j having the largest ratio, threshold x j-th of the input attributes x j, and outermost even larger ratio first ratio and the the type indicating which of 2 ratio, the input attribute condition Is extracted as to the data, is characterized by including the factor extraction step of storing the input attribute condition analysis result data storage unit.

本発明に係るデータ分析プログラムは、上記の課題を解決するために、分析対象データ格納部に格納された、複数の入力属性x (1≦j≦N、Nは入力属性の個数)と、1つの出力属性yとで構成されるデータの集合である基本データ群DAを分析対象とし、入力属性と出力属性との因果関係を分析するデータ分析装置が備えるコンピュータを機能させるためのデータ分析プログラムであって、上記データ分析装置は、基本データ群DAに含まれる文字属性のデータを、一義的な変換ルールに従って数値属性のデータに変換することによって、数値属性のデータの集合である数値型基本データ群DA0を生成する文字―数値データ変換手段と、数値型基本データ群DA0、数値型基本データ群DA0に含まれる出力属性yの数値と、出力属性yの所定閾値との大小関係の比較に基づいて、第1データ群DA1第2データ群DA2とに分類する分類手段と、上記複数の入力属性のうちの1つの入力属性x について、該1つの入力属性x のとり得る数値毎に、当該数値以下の数値を持つデータのうち、第1データ群DA1に属するデータの個数の、第1データ群DA1に属する全てのデータの個数に対する比率である第1の頻度(1−x 頻度累積%)を求める演算を行い、かつ、該1つの入力属性x のとり得る数値毎に、当該数値以下の数値を持つデータのうち、第2データ群DA2に属するデータの個数の、第2データ群DA2に属する全てのデータの個数に対する比率である第2の頻度(2−x 頻度累積%)を求める演算を行い、かつ、該1つの入力属性x のとり得る数値毎に、第1の頻度と第2の頻度との差分(x 頻度累積差%)を求める演算を、上記複数の入力属性の各々について行なう第1の評価手段と、上記複数の入力属性のうちの1つの入力属性x について、第1の評価手段で該1つの入力属性x のとり得る数値毎に演算された差分(x 頻度累積差%)に基づいて、最大の差分が求められた数値を当該入力属性 の閾値 j―th として決定することを、上記複数の入力属性の各々について行なう閾値決定手段と、上記複数の入力属性のうちの1つの入力属性x について、閾値決定手段にて決定された該入力属性x の閾値x j―th における、第1の頻度(1−x 頻度累積%)に対する第2の頻度(2−x 頻度累積%)の比率である第1の比率と、閾値決定手段にて決定された該入力属性x の閾値x j―th における、(100%−第1の頻度(1−x 頻度累積%))に対する(100%−第2の頻度(2−x 頻度累積%))の比率である第2の比率とを演算するとともに、第1の比率および第2の比率のうちの大きい方の比率を選択することを、上記複数の入力属性の各々について行なう第2の評価手段と、上記第2の評価手段にて入力属性毎に選択された比率のうち、最も大きい比率を持つ入力属性x 、該入力属性x の閾値x j―th 、および該最も大きい比率が第1の比率および第2の比率の何れであるかを示す種別を、入力属性条件を示すデータとして抽出するとともに、当該入力属性条件を分析結果データ格納部に格納する要因抽出手段とを含み、コンピュータを上記の各手段として機能させるためのデータ分析プログラムであることを特徴としている。 In order to solve the above problems, a data analysis program according to the present invention includes a plurality of input attributes x j (1 ≦ j ≦ N, where N is the number of input attributes) stored in the analysis target data storage unit , A data analysis program for causing a computer included in a data analysis apparatus that analyzes a causal relationship between an input attribute and an output attribute to analyze a basic data group DA that is a set of data composed of one output attribute y The data analysis apparatus converts the numerical attribute data included in the basic data group DA into numerical attribute data according to a unique conversion rule, thereby obtaining a numerical basic that is a set of numerical attribute data. character generating data group DA0 - and numeric data conversion means, a numeric base data group DA0, and numerical output attribute y included in the numeric base data group DA0, out Based on the comparison of the magnitude relationship between the predetermined threshold value attribute y, the first data group DA1, a classification means for classifying the second data group DA2, for one input attribute x j of the plurality of input attributes , each numerical value can be assumed by the said one input attributes x j, among the data having the following values the numerical, the number of data belonging to the first data group DA1, the number of all data belonging to the first data group DA1 Among the data having a numerical value equal to or lower than the numerical value for each numerical value that can be taken by the one input attribute x j , and calculating the first frequency (1-x j frequency cumulative%) that is a ratio to Performing an operation for obtaining a second frequency (2-x j frequency cumulative%) that is a ratio of the number of data belonging to the second data group DA2 to the number of all data belonging to the second data group DA2. One input attribute x first evaluation means for performing an operation for obtaining a difference between the first frequency and the second frequency (x j frequency cumulative difference%) for each of the plurality of input attributes for each numerical value that j can take ; for one input attributes x j of the plurality of input attributes, based on the single input attribute x j of possible numerical each of the calculated difference by the first evaluation means (x j frequency cumulative difference%), maximum to be determined as a threshold value x j-th of the input attributes x j a numerical value difference is determined, and the threshold value determining means for, for each of the plurality of input attributes, the one of the plurality of input attributes for input attribute x j, at the threshold x j-th of the input attributes x j which is determined by the threshold value determining means, a second frequency for the first frequency (1-x j frequency cumulative%) (2-x j The first ratio that is the ratio of the frequency cumulative%) and threshold decision At the threshold x j-th of the determined at means input attribute x j, (100% - the first frequency (1-x j Frequency Cumulative%)) with respect to (100% - the second frequency (2-x j frequency cumulative%)) is calculated for each of the plurality of input attributes, and the larger one of the first ratio and the second ratio is selected. a second evaluation means for, among the ratios selected for each input attribute in the second evaluation means, the threshold value x j-th input attributes x j, the input attributes x j having the largest ratio, and Extraction of the factor indicating whether the largest ratio is the first ratio or the second ratio as data indicating the input attribute condition, and extracting the input attribute condition in the analysis result data storage unit Means including the computer It is a data analysis program for functioning as each means .

本発明に係るコンピュータ読み取り可能な記録媒体は、上記の課題を解決する
ために、上記のデータ分析プログラムを記録したものであることを特徴としてい
る。
In order to solve the above problems, a computer-readable recording medium according to the present invention records the above data analysis program.

上記装置、方法、プログラム、あるいは記録媒体によれば、ラベル階層構造を
予め定義する事なく、簡潔な形で、第2データ群に対応する出力属性条件(結果
)の要因を抽出できる。それゆえ、例えば第2データ群が悪い結果(例えば不良
品の発生)に対応するデータ群であれば、その悪い結果の要因をユーザが容易に
把握できる。逆に、第2データ群が良い結果(例えば優れた特性を持つ製品の発
生)に対応するデータ群であれば、その良い結果の要因をユーザが容易に把握で
きる。
According to the apparatus, method, program, or recording medium, the factor of the output attribute condition (result) corresponding to the second data group can be extracted in a concise form without defining the label hierarchical structure in advance. Therefore, for example, if the second data group is a data group corresponding to a bad result (for example, occurrence of a defective product), the user can easily grasp the cause of the bad result. Conversely, if the second data group is a data group corresponding to a good result (for example, occurrence of a product having excellent characteristics), the user can easily grasp the factor of the good result.

本発明に係るデータ分析方法は、上記要因抽出手段で抽出された入力属性条件に基づいて、数値型基本データ群DA0を、上記入力属性条件を満たす要因データ群と上記入力属性条件を満たさない他データ群とに分割し、分類されたデータ群のうちの少なくとも一方を新たな数値型基本データ群DA0として分類手段に送る分割手段をさらに含み、分類手段による処理、第1の評価手段による処理、閾値決定手段による処理、第2の評価手段による処理、要因抽出手段による処理、および分割手段による処理からなる一連の処理が繰り返し実行されるようになっていることがより好ましい。 In the data analysis method according to the present invention, based on the input attribute condition extracted by the factor extracting means, the numerical basic data group DA0 is classified into a factor data group that satisfies the input attribute condition and the input attribute condition that does not satisfy the input attribute condition. Further comprising a dividing unit that divides the data group into at least one of the classified data groups as a new numerical basic data group DA0 to the classifying unit, processing by the classifying unit, processing by the first evaluation unit, It is more preferable that a series of processing including processing by the threshold value determination unit, processing by the second evaluation unit, processing by the factor extraction unit, and processing by the dividing unit is repeatedly executed.

上記構成によれば、複数の要因を節点として木構造を作成できる。それゆえ、
単独の相関ルールでは表現し難い複数の要因の絡み合った分析対象であっても、
十分高い精度で要因を究明できる。
According to the above configuration, a tree structure can be created with a plurality of factors as nodes. therefore,
Even if the analysis target is intertwined with multiple factors that are difficult to express with a single association rule,
The factor can be investigated with sufficiently high accuracy.

本発明に係るデータ分析装置は、終了条件を満たしているかを判定する終了条
件判定手段をさらに含み、上記終了条件判定手段において終了条件を満たしてい
ると判定されると、上記一連の処理の実行を終了するようになっていることがよ
り好ましい。これにより、必要以上の無駄な処理が行われることを回避できる。
The data analysis apparatus according to the present invention further includes an end condition determination unit that determines whether or not an end condition is satisfied. When the end condition determination unit determines that the end condition is satisfied, the series of processes is executed. It is more preferable to end the process. Thereby, it is possible to avoid performing unnecessary processing more than necessary.

上記第1の評価手段は、各入力属性の全ての数値について、第1データ群中に
おける入力属性がその数値以下であるデータの割合を第1の頻度として演算する
と共に、第2データ群中における入力属性がその数値以下であるデータの割合を
第2の頻度として演算する頻度演算手段と、各入力属性の全ての数値について、
第1の頻度と第2の頻度との差分を演算する差分演算手段とを含むことがより好
ましい。これにより、閾値評価指標を容易に演算することができる。
The first evaluation means calculates, for all the numerical values of each input attribute, the ratio of data whose input attribute in the first data group is equal to or lower than the numerical value as the first frequency, and in the second data group Frequency calculation means for calculating the ratio of data whose input attribute is less than or equal to the numerical value as the second frequency, and for all the numerical values of each input attribute,
More preferably, difference calculation means for calculating a difference between the first frequency and the second frequency is included. Thereby, the threshold evaluation index can be easily calculated.

上記第2の評価手段は、第1のルール評価値として、第1データ群中における
入力属性が閾値以下であるデータの割合に対する、第2データ群中における入力
属性が閾値以下であるデータの割合の比率を第1の比率として演算すると共に、
第2のルール評価値として、第1データ群中における入力属性が閾値を超えるデ
ータの割合に対する、第2データ群中における入力属性が閾値を超えるデータの
割合の比率を第2の比率として演算し、双方の比率のうち大きい方の比率を抽出
するものであり、上記要因抽出手段は、上記第2の評価手段で抽出された、各入
力属性の比率のうちで、その値が最大となる、入力属性、該入力属性の閾値、お
よび抽出された比率の種別を上記入力属性条件を示すデータとして抽出するもの
であることがより好ましい。これにより、第1および第2のルール評価値を容易
に演算することができる。
The second evaluation means uses, as the first rule evaluation value, the ratio of data whose input attribute in the second data group is equal to or smaller than the threshold to the ratio of data whose input attribute in the first data group is equal to or smaller than the threshold. As the first ratio,
As the second rule evaluation value, the ratio of the ratio of the data whose input attribute exceeds the threshold in the second data group to the ratio of the data whose input attribute exceeds the threshold in the first data group is calculated as the second ratio. , The larger ratio of both ratios is extracted, and the factor extracting means has the maximum value among the ratios of the input attributes extracted by the second evaluating means. More preferably, the input attribute, the threshold value of the input attribute, and the type of the extracted ratio are extracted as data indicating the input attribute condition. Thereby, the first and second rule evaluation values can be easily calculated.

本発明の装置、方法、プログラム、記録媒体によれば、以上のように、ラベル
階層構造を予め定義する事なく、「入力属性が閾値以下」あるいは「入力属性が
閾値を超える」といった非常に簡潔な形で、問題事象である特定の出力属性条件
(問題事象)が発生する要因を導き出すことが可能となる。また、複数の要因を
導き出せば、それぞれの要因(入力属性)における「入力属性が閾値以下」ある
いは「入力属性が閾値を超える」といった条件の組み合わせによる非常に簡潔な
形の決定木として、問題事象に関わる因果関係を導き出せる。
According to the apparatus, method, program, and recording medium of the present invention, as described above, without defining the label hierarchical structure in advance, “input attribute is below threshold” or “input attribute exceeds threshold” is very simple. In this way, it is possible to derive a factor that causes a specific output attribute condition (problem event) that is a problem event. In addition, if multiple factors are derived, the problem event can be expressed as a very simple decision tree based on a combination of conditions such as “input attribute is below threshold” or “input attribute exceeds threshold” for each factor (input attribute). Causal relationships related to can be derived.

本発明の一実施形態を以下に説明する。   One embodiment of the present invention will be described below.

まず、本実施形態のデータ分析装置を図1に基づいて説明する。   First, the data analysis apparatus of this embodiment is demonstrated based on FIG.

図1に示すように、データ分析装置は、文字−数値データ変換部1、分析対象
データ格納部2、閾値設定部(閾値設定手段)3、データ分類部(分類手段)4
、データ列抽出部5、頻度演算部(第1の評価手段、頻度演算手段)6、頻度累
積差演算部(第1の評価手段、差分演算手段)7、入力属性閾値決定部(閾値決
定手段)8、頻度累積比率演算部(第2の評価手段)16、要因抽出部(要因抽
出手段)9、要因未発見データ抽出部(分割手段)10、終了条件判定部(終了
条件判定手段)11、入力属性閾値テーブル作成部12、寄与率演算部13、分
析結果データ格納部14、および出力部15を備えている。
As shown in FIG. 1, the data analysis apparatus includes a character-numerical data conversion unit 1, an analysis target data storage unit 2, a threshold setting unit (threshold setting unit) 3, and a data classification unit (classification unit) 4.
, Data string extraction unit 5, frequency calculation unit (first evaluation unit, frequency calculation unit) 6, frequency cumulative difference calculation unit (first evaluation unit, difference calculation unit) 7, input attribute threshold determination unit (threshold determination unit) 8) Frequency cumulative ratio calculation unit (second evaluation unit) 16, factor extraction unit (factor extraction unit) 9, factor undiscovered data extraction unit (division unit) 10, end condition determination unit (end condition determination unit) 11 , An input attribute threshold value table creation unit 12, a contribution rate calculation unit 13, an analysis result data storage unit 14, and an output unit 15.

次に、次の表1のデータ群DAを分析対象とする場合を例にとって、本実施形
態のデータ分析方法を図2に基づいて説明する。表1のデータ群DAは、ハード
ディスク等の格納部2に格納されている。
Next, the data analysis method of the present embodiment will be described with reference to FIG. 2, taking as an example the case where the data group DA in the following Table 1 is an analysis target. The data group DA in Table 1 is stored in the storage unit 2 such as a hard disk.

Figure 0004255779
Figure 0004255779

表1のデータ群DAは、1〜12のid(識別子)を持つ12個のデータから
構成されている。表1において、x1,x2,x3,x4は入力属性である。入
力属性x1は4つの文字A,B,C,Dのいずれかをとる文字属性である。入力
属性x2は4つの文字a,b,c,dのいずれかをとる文字属性である。入力属
性x3は4つの離散値1,2,3,4のいずれかをとる離散属性である。入力属
性x4は4つの離散値10,20,30,40のいずれかをとる離散属性である
。なお、入力属性は、連続した数値をとる連続属性でもよい。
The data group DA in Table 1 is composed of 12 pieces of data having ids (identifiers) of 1 to 12. In Table 1, x1, x2, x3, and x4 are input attributes. The input attribute x1 is a character attribute that takes one of four characters A, B, C, and D. The input attribute x2 is a character attribute that takes one of the four characters a, b, c, and d. The input attribute x3 is a discrete attribute that takes one of four discrete values 1, 2, 3, and 4. The input attribute x4 is a discrete attribute taking any one of four discrete values 10, 20, 30, and 40. The input attribute may be a continuous attribute that takes a continuous numerical value.

また、表1において、yは出力属性である。出力属性は、文字属性であっても
よく、離散属性でもよく、また連続属性でもよいが、ここでは、3つの文字X,
Y,Zのいずれかをとる文字属性である。
In Table 1, y is an output attribute. The output attribute may be a character attribute, a discrete attribute, or a continuous attribute. Here, three characters X,
It is a character attribute that takes either Y or Z.

本実施形態のデータ分析方法では、y=Yなる場合を問題事象として、出力属
性yがYとなる要因を分析する。
In the data analysis method of the present embodiment, the case where y = Y is regarded as a problem event, and the cause of the output attribute y being Y is analyzed.

なお、分析対象データの例としては、例えば、入力属性が、製品の製造工程に
おける製造プロセス条件および/またはインライン検査結果(製造ライン途中で
の検査結果)、出力属性が製品の品質判定結果、y=Yなる問題事象が品質判定
結果の不良であるデータが挙げられる。この場合、本実施形態のデータ分析方法
により入力属性と出力属性との因果関係を分析し、y=Yなる問題事象の要因を
導き出すことで、デバイス特性不良等の不良品の発生を解消する対策を容易に図
ることが可能となる。したがって、歩留まりの向上等のような製造プロセスの改
善を容易に図ることが可能となる。
As an example of the analysis target data, for example, the input attribute is the manufacturing process condition and / or in-line inspection result (inspection result during the manufacturing line) in the product manufacturing process, the output attribute is the product quality determination result, y Data in which the problem event = Y is a bad quality determination result can be cited. In this case, the causal relationship between the input attribute and the output attribute is analyzed by the data analysis method of the present embodiment, and the cause of the problem event y = Y is derived, thereby eliminating the occurrence of defective products such as device characteristic defects. Can be easily achieved. Therefore, it is possible to easily improve the manufacturing process such as improvement in yield.

分析対象データのより具体的な例としては、例えば、入力属性x1、x2、x
3、x4が、プラズマCVDプロセスの、ガス流量、ガス圧力、投入電力、成膜
時間などのプロセスデータで、出力属性yが、プラズマCVDプロセスで形成さ
れる薄膜の膜厚であるようなデータが挙げられる。また、これら入力属性および
出力属性の値は、連続属性でも離散属性でも文字属性でもよい。文字属性の場合
には、例えば、出力属性が膜厚の例で、‘大’、‘中’、‘小’といった具合に
表現される。
[ステップ0]
まず、文字−数値データ変換部1が、ハードディスク等の分析対象データ格納
部2に格納された表1のデータ群DAにおける文字属性を下記の変換ルールに従
って数値属性(数値データ)に変換する(S0)。これにより、各データは、数
値データに変換される。そして、文字−数値データ変換部1は、変換されたデー
タ群をデータ分類部4に送る。
(x1)A→1、B→2、C→3、D→4
(x2)a→1、b→2、c→3、d→4
(x3)変換せず
(x4)変換せず
(y)X→1、Y→2、Z→3
この変換ルールは、可能な限り、変換後の入力属性の数値が大きいほど出力属
性の数値が大きくなるようにあるいはその逆順となるように設定されることが好
ましい。なお、変換ルールは、一義性さえあればよく、上記の例に限られない。
As a more specific example of the analysis target data, for example, input attributes x1, x2, x
3 and x4 are process data such as gas flow rate, gas pressure, input power, and film formation time of the plasma CVD process, and the output attribute y is data such as the film thickness of the thin film formed by the plasma CVD process. Can be mentioned. The values of the input attribute and output attribute may be continuous attributes, discrete attributes, or character attributes. In the case of a character attribute, for example, the output attribute is an example of film thickness, and is expressed as “large”, “medium”, or “small”.
[Step 0]
First, the character-numeric data conversion unit 1 converts the character attributes in the data group DA of Table 1 stored in the analysis target data storage unit 2 such as a hard disk into numeric attributes (numeric data) according to the following conversion rule (S0). ). Thereby, each data is converted into numerical data. Then, the character-numeric data conversion unit 1 sends the converted data group to the data classification unit 4.
(X1) A → 1, B → 2, C → 3, D → 4
(X2) a → 1, b → 2, c → 3, d → 4
(X3) No conversion (x4) No conversion (y) X → 1, Y → 2, Z → 3
It is preferable that the conversion rule is set so that the numerical value of the output attribute increases as the numerical value of the input attribute after conversion increases, or vice versa. The conversion rule is not limited to the above example as long as it is unique.

上記変換ルールにて数値データに変換されたデータ群DA0は、表2に示す通
りである。
The data group DA0 converted into numerical data by the conversion rule is as shown in Table 2.

Figure 0004255779
Figure 0004255779

この変換により、得られたデータ群DA0は、離散値をとる複数の入力属性(
説明属性)と出力属性(目的属性)とで構成されるデータの集合となる。以下、
データ群DA0を基本データ群と呼ぶ事にする。
[ステップ1]
閾値設定部3は、予め定められた設定情報に従って、あるいは使用者が図示し
ないキーボードやマウス等の入力部から問題事象の属性値y=Yを入力したこと
に応答して、データ群DAのy=Yなる問題事象に対応する基本データ群DA0
の出力属性yの閾値(出力属性閾値)ythを設定し、データ分類部4に出力する
(S1)。この例においては、データ群DAのy=Yなる問題事象に対応する基
本データ群DA0の出力属性yの閾値は、yth=2である。
[ステップ2]
次に、データ分類部4が、基本データ群DA0の出力属性yの値と、閾値設定
部3から出力された出力属性閾値ythとの比較論理(1)(2)に基づいて、基
本データ群DA0を、第1データ群DA1と第2データ群DA2とに2分化(分
類)する(S2)。
By this conversion, the obtained data group DA0 has a plurality of input attributes (discrete values).
This is a set of data composed of description attributes) and output attributes (purpose attributes). Less than,
The data group DA0 is called a basic data group.
[Step 1]
The threshold value setting unit 3 responds to predetermined setting information or in response to the user inputting the problem event attribute value y = Y from an input unit such as a keyboard or a mouse (not shown). = Basic data group DA0 corresponding to problem event Y
The output attribute y threshold (output attribute threshold) y th is set and output to the data classification unit 4 (S1). In this example, the threshold of the output attribute y of the basic data group DA0 corresponding to the problem event y = Y of the data group DA is y th = 2.
[Step 2]
Next, the data classification unit 4 determines the basic data based on the comparison logic (1) (2) between the value of the output attribute y of the basic data group DA0 and the output attribute threshold y th output from the threshold setting unit 3. The group DA0 is divided into two groups (classification) into a first data group DA1 and a second data group DA2 (S2).

(1)y>ythまたはy<yth→DA1
(2)y=yth→DA2
言い換えると、データ分類部4は、基本データ群DA0を、出力属性が出力属性
閾値ythと一致しない(すなわち1または3である)第1データ群DA1と、出
力属性が出力属性閾値yth(=2)と一致する第2データ群DA2とに分類する
。第2データ群DA2は問題事象(例えば、デバイス特性不良など)のデータ群
である。すなわち、第2データ群DA2は出力属性yが問題事象を表す属性値(
2)であるデータ群であり、第1データ群DA1は出力属性yが問題事象を表し
ていない属性値(1または3)であるデータ群である。
(1) y> y th or y <y th → DA1
(2) y = y th → DA2
In other words, the data classification unit 4 includes the basic data group DA0, the first data group DA1 whose output attribute does not match the output attribute threshold y th (that is, 1 or 3), and the output attribute that is the output attribute threshold y th ( = 2) and the second data group DA2 that coincides with the second data group DA2. The second data group DA2 is a data group of problem events (for example, defective device characteristics). That is, in the second data group DA2, the output attribute y is an attribute value (
2), and the first data group DA1 is a data group in which the output attribute y is an attribute value (1 or 3) that does not represent a problem event.

第1データ群DA1を表3に、第2データ群DA2を表4に示す。   Table 3 shows the first data group DA1 and Table 4 shows the second data group DA2.

Figure 0004255779
Figure 0004255779

Figure 0004255779
Figure 0004255779

なお、以下では、適宜、第1データ群DA1を良品(OK品)データ群、第2
データ群DA2を不良品(NG品)データ群と呼ぶ事にする。
[ステップ3]
次に、データ列抽出部5が、良品データ群DA1(表3)から、入力属性xj
(1≦j≦4)の各々のデータ列を抽出する(S3)。このデータ列を1−xj
データ群と呼ぶ事にする。
In the following, the first data group DA1 is appropriately referred to as a non-defective product (OK product) data group, and the second
The data group DA2 is referred to as a defective product (NG product) data group.
[Step 3]
Next, the data string extraction unit 5 extracts the input attribute xj from the good product data group DA1 (Table 3).
Each data string of (1 ≦ j ≦ 4) is extracted (S3). This data string is 1-xj
This is called a data group.

同様に、データ列抽出部5は、不良品データ群DA2(表4)からも、入力属
性xj(1≦j≦4)の各々のデータ列を抽出する(S3)。このデータ列を2
−xjデータ群と呼ぶ事にする。
Similarly, the data string extraction unit 5 extracts each data string of the input attribute xj (1 ≦ j ≦ 4) from the defective product data group DA2 (Table 4) (S3). This data string is 2
It will be called a -xj data group.

1−xjデータ群を表5〜8に、2−xjデータ群を表9〜12に示す。   The 1-xj data group is shown in Tables 5-8, and the 2-xj data group is shown in Tables 9-12.

Figure 0004255779
Figure 0004255779

Figure 0004255779
Figure 0004255779

Figure 0004255779
Figure 0004255779

Figure 0004255779
Figure 0004255779

Figure 0004255779
Figure 0004255779

Figure 0004255779
Figure 0004255779

Figure 0004255779
Figure 0004255779

Figure 0004255779
Figure 0004255779

[ステップ4]
頻度演算部6は、ステップ3で良品データ群DA1から抽出された1−xjデ
ータ群の各々、およびステップ3で不良品データ群DA2から抽出された2−x
jデータ群の各々を、入力属性xjの値で昇順に並べ替える。そして、入力属性
xjの個々の数値について、第1データ群におけるその数値以下のデータ個数の
割合を表す1−xj頻度累積%と、第2データ群におけるその数値以下のデータ
個数の割合を表す2−xj頻度累積%とを計算する(S4)。
[Step 4]
The frequency calculation unit 6 uses each of the 1-xj data groups extracted from the non-defective product data group DA1 in step 3 and 2-x extracted from the defective product data group DA2 in step 3.
Each of the j data groups is rearranged in ascending order by the value of the input attribute xj. Then, for each numerical value of the input attribute xj, 1-xj frequency cumulative% representing the ratio of the number of data less than that value in the first data group and 2 representing the ratio of the number of data less than that value in the second data group. -Xj Frequency cumulative% is calculated (S4).

ここでは、表5〜8を入力属性xjの値で昇順に並べ替えた表13〜16を用
い、各行(id)のデータについて表中でそのデータの位置以上の位置にあるデ
ータ個数の、第1データ群の全データ数(=8)に対する割合を1−xj頻度累
積%として計算している。同様に、表9〜12を入力属性xjの値で昇順に並べ
替えた表17〜20を用い、各行(id)のデータについて表中でそのデータの
位置以上の位置にあるデータ個数の、第2データ群の全データ数(=4)に対す
る割合を2−xj頻度累積%として計算している
ここで計算した1−xj頻度累積%および2−xj頻度累積%の値を表13〜
20に示す。
Here, using Tables 13 to 16 in which Tables 5 to 8 are rearranged in ascending order by the value of the input attribute xj, the number of data at the position equal to or higher than the position of the data in the table for each row (id) data. The ratio of one data group to the total number of data (= 8) is calculated as 1-xj frequency cumulative%. Similarly, using Tables 17 to 20 in which Tables 9 to 12 are rearranged in ascending order by the value of the input attribute xj, the number of data at the position equal to or higher than the position of the data in the table for each row (id) is calculated. The ratio of 2 data groups to the total number of data (= 4) is calculated as 2-xj frequency cumulative%. The values of 1-xj frequency cumulative% and 2-xj frequency cumulative% calculated here are shown in Table 13 to
20 shows.

Figure 0004255779
Figure 0004255779

Figure 0004255779
Figure 0004255779

Figure 0004255779
Figure 0004255779

Figure 0004255779
Figure 0004255779

Figure 0004255779
Figure 0004255779

Figure 0004255779
Figure 0004255779

Figure 0004255779
Figure 0004255779

Figure 0004255779
Figure 0004255779

なお、上述したステップ3・4では、データ列を抽出し、並び替えを行った後
に、1−xj頻度累積%および2−xj頻度累積%を計算していたが、データ列
の抽出や並び替えを行うことなく直接的に1−xj頻度累積%および2−xj頻
度累積%を計算してもかまわない。
In Steps 3 and 4 described above, after extracting and rearranging the data strings, 1-xj frequency cumulative% and 2-xj frequency cumulative% are calculated. The 1-xj frequency accumulation% and the 2-xj frequency accumulation% may be directly calculated without performing the above.

さらに、頻度演算部6は、1−xj頻度累積%が計算された良品データ群であ
る1−xjデータ群のテーブルと、2−xj頻度累積%が計算された不良品デー
タ群である2−xjデータ群のテーブルとを結合する。具体的には、入力属性x
1について、表13と表17とを結合して表21のx1頻度累積テーブルを、入
力属性x2について、表14と表18とを結合して表22のx2頻度累積テーブ
ルを、入力属性x3について、表15と表19とを結合して表23のx3頻度累
積テーブルを、入力属性x4について、表16と表20とを結合して表24のx
4頻度累積テーブルを、それぞれ作成する。
Further, the frequency calculation unit 6 is a table of 1-xj data groups that are non-defective product data groups for which 1-xj frequency cumulative% is calculated, and 2-items that are defective product data groups for which 2-xj frequency cumulative% is calculated. The table of the xj data group is combined. Specifically, the input attribute x
For Table 1, Table 13 and Table 17 are combined to obtain the x1 frequency accumulation table in Table 21, and for the input attribute x2, Table 14 and Table 18 are combined to create the x2 frequency accumulation table in Table 22, and the input attribute x3. Table 15 and Table 19 are combined to obtain the x3 frequency accumulation table of Table 23, and for the input attribute x4, Table 16 and Table 20 are combined to generate x 24 of Table 24.
A 4-frequency accumulation table is created for each.

Figure 0004255779
Figure 0004255779

Figure 0004255779
Figure 0004255779

Figure 0004255779
Figure 0004255779

Figure 0004255779
Figure 0004255779

さらに、頻度演算部6は、表21〜24の各々の頻度累積テーブルを、入力属
性xjの値で昇順に並べ替える。このとき、1−xj頻度累積%および2−xj
頻度累積%の空欄には、その直前の値を代入する。また、入力属性xjにおいて
同じ値が続いている場合には、上記並べ替えられた最終のデータのみを採用する
。こうして、頻度演算部6にて、入力属性xjの各値に対して、良品データ群で
ある第1データ群におけるその数値以下のデータ個数の割合を表す1−xj頻度
累積%(A;第1の頻度)と、不良品データ群である第2データ群におけるその
数値以下のデータ個数の割合を表す2−xj頻度累積%(B;第2の頻度)との
双方が算出される(S4)。
[ステップ5]
次に、頻度累積差演算部7が、入力属性xjの各値に対して、良品の1−xj
頻度累積(A)と、不良品の2−xj頻度累積(B)の差分(=|A−B|)を
計算する(S5)。この差分値を、xj頻度累積差(=|A−B|)と呼ぶ。x
j頻度累積差の計算結果を表25〜表28に示す。
Furthermore, the frequency calculation unit 6 sorts the frequency accumulation tables in Tables 21 to 24 in ascending order by the value of the input attribute xj. At this time, 1-xj frequency accumulation% and 2-xj
The value immediately before is substituted into the blank for frequency accumulation%. When the same value continues in the input attribute xj, only the rearranged final data is adopted. Thus, in the frequency calculation unit 6, for each value of the input attribute xj, 1-xj frequency cumulative% (A; first) representing the ratio of the number of data less than or equal to that value in the first data group that is a non-defective data group. And 2-xj frequency cumulative% (B; second frequency) representing the ratio of the number of data less than or equal to that value in the second data group, which is a defective product data group, is calculated (S4). .
[Step 5]
Next, the frequency cumulative difference calculation unit 7 performs a non-defective 1-xj for each value of the input attribute xj.
A difference (= | A−B |) between the frequency accumulation (A) and the 2-xj frequency accumulation (B) of the defective product is calculated (S5). This difference value is referred to as an xj frequency cumulative difference (= | A−B |). x
Tables 25 to 28 show the calculation results of the j-frequency cumulative difference.

Figure 0004255779
Figure 0004255779

Figure 0004255779
Figure 0004255779

Figure 0004255779
Figure 0004255779

Figure 0004255779
Figure 0004255779

入力属性xjと、良品の1−xj頻度累積(A)、不良品の2−xj頻度累積
(B)、xj頻度累積差|A−B|との関係を図3〜図6に示す。
The relationship between the input attribute xj, 1-xj frequency accumulation (A) for non-defective products, 2-xj frequency accumulation (B) for defective products, and xj frequency accumulation difference | A-B | is shown in FIGS.

各数値に対するxj頻度累積差|A−B|は、入力属性xjがその数値以下の
範囲と、入力属性xjがその数値を超える範囲との2分化によって、良品の第1
データ群DA1と不良品の第2データ群DA2とがうまく切り分けられているか
を表す指標である。言い換えると、xj頻度累積差|A−B|は、入力属性がそ
の数値以下であるデータが第1データ群および第2データ群のうちの一方に偏っ
ている度合いを表す閾値評価指標である。
The xj frequency cumulative difference | A−B | for each numerical value is determined by dividing the input attribute xj into a first non-defective product by dividing it into a range where the input attribute xj is less than the numerical value and a range where the input attribute xj exceeds the numerical value.
This is an index indicating whether the data group DA1 and the defective second data group DA2 are well separated. In other words, the xj frequency cumulative difference | A−B | is a threshold evaluation index that represents the degree to which data whose input attribute is equal to or less than the numerical value is biased to one of the first data group and the second data group.

なお、ここでは、閾値評価指標としてxj頻度累積差|A−B|を演算してい
るが、各数値に対する閾値評価指標として、データの偏りの度合いを評価する指
標、例えば、情報利得(ゲイン)、情報利得比、Giniインデックス、平均自
乗誤差等を用いてもよい。
[ステップ6]
入力属性閾値決定部8が、各入力属性xjについて、xjの個々の値の中で、
xj頻度累積差|A−B|の値が最大となるときの入力属性xjの値を抽出する
(S6)。この値を、入力属性閾値xj−thと呼ぶ事にする。
Here, the xj frequency cumulative difference | A−B | is calculated as the threshold evaluation index, but as a threshold evaluation index for each numerical value, an index for evaluating the degree of data bias, for example, information gain (gain) Information gain ratio, Gini index, mean square error, etc. may be used.
[Step 6]
The input attribute threshold value determination unit 8 for each input attribute xj, among the individual values of xj,
The value of the input attribute xj when the value of the xj frequency cumulative difference | A−B | is maximized is extracted (S6). This value is called an input attribute threshold value xj-th.

入力属性閾値xj−thは、図3〜図6を参照して分かるように、xj≦xj
−thの範囲と、xj>xj−thの範囲との2分化によって、良品の第1デー
タ群DA1と、不良品の第2データ群DA2との切分けが最も容易となる入力属
性xjの値を示している。
As can be seen with reference to FIGS. 3 to 6, the input attribute threshold value xj−th is xj ≦ xj.
The value of the input attribute xj that makes it easy to distinguish between the non-defective first data group DA1 and the defective second data group DA2 by dividing into the range of -th and the range of xj> xj-th. Is shown.

なお、ここでは、複数の入力属性について第3ステップ〜第6ステップの処理
を一括して行っているが、jの値を1からNまで順次増加させて第3ステップ〜
該第6ステップの処理を繰り返してもよい。
[ステップ7]
次に、頻度累積比率演算部16が、xj=xj−thにおいて、良品の1−x
j頻度累積(A)に対する、不良品の2−xj頻度累積(B)の比率を計算する
。この比率を、2−xjth下比率(=B/A)と呼ぶ事にする。また、100
から良品の1−xj頻度累積(A)を引いた値(=100−A)に対する、10
0から不良品の2−xj頻度累積(B)を引いた値(=100−B)の比率を計
算する。この比率を、2−xjth上比率(=(100−B)/(100−A)
)と呼ぶ事にする。そして、双方の比率のうちの大きい方の値を表す、2−xj
th比率を抽出する。
Here, the processes of the third step to the sixth step are collectively performed for a plurality of input attributes, but the value of j is sequentially increased from 1 to N to increase the third step to
The process of the sixth step may be repeated.
[Step 7]
Next, the frequency cumulative ratio calculation unit 16 determines that 1−x of the non-defective product when xj = xj−th.
The ratio of the 2-xj frequency accumulation (B) of defective products to the j frequency accumulation (A) is calculated. This ratio is called a 2-xjth lower ratio (= B / A). Also, 100
10 to the value obtained by subtracting 1-xj frequency accumulation (A) of non-defective products from (= 100-A)
A ratio of a value (= 100−B) obtained by subtracting 2-xj frequency accumulation (B) of defective products from 0 is calculated. This ratio is expressed as 2-xjth upper ratio (= (100-B) / (100-A)
). And 2-xj representing the larger value of the ratio of both
Extract th ratio.

ここで、2−xjth下比率は、「xj≦xj−th」という入力属性条件に
より、良品の第1データ群と分離して不良品の第2データ群を検出できる割合を
表している。また、2−xjth上比率は、「xj>xj−th」という入力属
性条件により、良品の第1データ群と分離して不良品の第2データ群を検出でき
る割合を表している。
Here, the 2-xjth lower ratio represents a ratio at which the defective second data group can be detected separately from the first non-defective data group based on the input attribute condition “xj ≦ xj−th”. The 2-xjth upper ratio represents a ratio at which the defective second data group can be detected separately from the first non-defective data group based on the input attribute condition “xj> xj-th”.

言い換えると、2−xjth下比率は、「入力属性xjが入力属性閾値xj−
th以下であれば第2データ群に含まれるデータである」という第1の相関ルー
ルの確からしさを表す評価値(第1のルール評価値)を表している。また、2−
xjth上比率は、「入力属性xjが入力属性閾値xj−thを超えていれば第
2データ群に含まれるデータである」という第2の相関ルールの確からしさを表
す評価値(第2のルール評価値)を表している。
In other words, the 2-xjth lower ratio is “input attribute xj is input attribute threshold xj−
It represents an evaluation value (first rule evaluation value) representing the probability of the first association rule that “the data is included in the second data group if it is equal to or less than th”. In addition, 2-
The ratio on xjth is an evaluation value (second rule) indicating the probability of the second correlation rule that “if the input attribute xj exceeds the input attribute threshold value xj−th, it is data included in the second data group”. Evaluation value).

各入力属性xjに対して抽出された入力属性閾値xj−th、xj=xj−t
hにおける、良品の1−xj頻度累積(A)、不良品の2−xj頻度累積(B)
、xj頻度累積差|A−B|、2−xjth下比率B/A、2−xjth上比率
(100−B)/(100−A)、2−xjth比率の各値を表29に示す。
Input attribute threshold value xj-th extracted for each input attribute xj, xj = xj-t
1-xj frequency accumulation of good products (A), 2-xj frequency accumulation of defective products (B) in h
, Xj frequency cumulative difference | AB |, 2-xjth lower ratio B / A, 2-xjth upper ratio (100-B) / (100-A), and 2-xjth ratio.

Figure 0004255779
Figure 0004255779

[ステップ8]
要因抽出部9が、x1〜x4の入力属性のうち、上記ステップ7の2−xjt
h比率が最大となる入力属性を抽出する。これにより、2−xjth比率が最大
となる入力属性と、その閾値、採用した比率の種別(上、下)が第2データ群に
対応する出力属性条件の要因(入力属性条件)を示すデータとして抽出されるこ
とになる。これは、全ての入力属性に関する前記相関ルールのうちで最も高い2
−xjth下比率または2−xjth上比率を持つ相関ルールの入力属性条件を
示すデータを抽出することに相当する。
[Step 8]
The factor extraction unit 9 selects 2-xjt in step 7 from the input attributes x1 to x4.
The input attribute that maximizes the h ratio is extracted. As a result, the input attribute that maximizes the 2-xjth ratio, the threshold value, and the type of the employed ratio (upper and lower) are data indicating the cause of the output attribute condition (input attribute condition) corresponding to the second data group. Will be extracted. This is the highest 2 of the association rules for all input attributes.
This corresponds to extracting data indicating an input attribute condition of an association rule having a -xjth lower ratio or a 2-xjth upper ratio.

なお、ここでは、最大のルール評価値を持つ相関ルールの入力属性を抽出する
ための指標として2−xjth比率を演算しているが、最大のルール評価値を持
つ相関ルールの入力属性を抽出するための指標として、他の評価指標、例えば、
支持率(サポート)、確信度(コンフィデンス)、情報利得(ゲイン)、情報利
得比、Giniインデックス、平均自乗誤差等を用いてもよい。
Here, the 2-xjth ratio is calculated as an index for extracting the input attribute of the correlation rule having the maximum rule evaluation value, but the input attribute of the correlation rule having the maximum rule evaluation value is extracted. As an indicator for other evaluation indicators, for example,
Support rate (support), certainty factor (confidence), information gain (gain), information gain ratio, Gini index, mean square error and the like may be used.

表29を参照して、入力属性x2=x2−th=2のとき、2−x2th比率
=2−x2th上比率=∞となっている。これは、入力属性条件「x2>2」に
て、良品の第1データ群DA1と完全に分離して、不良品の第2データ群DA2
を検出できる事を示しており、この事は、図4を参照すると、より理解しやすい
Referring to Table 29, when input attribute x2 = x2-th = 2, 2-x2th ratio = 2-x2th upper ratio = ∞. This is completely separated from the non-defective first data group DA1 under the input attribute condition “x2> 2,” and the defective second data group DA2 is separated.
It can be easily understood with reference to FIG.

上記抽出された、入力属性(=x2)、該入力属性の値を表す入力属性閾値(
=2)、および採用した比率の種別(=上)のデータを分析結果データ格納部1
4に保存する。
The extracted input attribute (= x2), the input attribute threshold value representing the value of the input attribute (
= 2), and the data of the adopted ratio type (= top) are analyzed result data storage unit 1
Save to 4.

以上のようにして、問題事象(不良品の第2データ群DA2)の一要因として
、「x2>2」という入力属性条件が抽出された。
[ステップ9]
上記ステップ8にて、問題事象(不良品の第2データ群DA2)の一要因とし
て、「x2>2」という入力属性条件が抽出されたので、次に、別の要因を調査
する。このため、要因未発見データ抽出部10が、基本データ群DA0(表2)
を入力属性条件「x2>2」を満たすデータ群(要因データ群)と、基本データ
群DA0(表2)の中で問題事象の要因をまだ発見できていないデータ群(他デ
ータ群)、すなわち入力属性条件「x2≦2」を満たす(入力属性条件「x2>
2」を満たさない)データ群とに分割し、問題事象の要因をまだ発見できていな
いデータ群を抽出する(表30)。
As described above, the input attribute condition “x2> 2” is extracted as one factor of the problem event (the second data group DA2 of defective products).
[Step 9]
In step 8, the input attribute condition “x2> 2” is extracted as one factor of the problem event (second data group DA2 of defective products). Next, another factor is investigated. For this reason, the factor undiscovered data extraction unit 10 performs basic data group DA0 (Table 2).
And a data group (factor data group) satisfying the input attribute condition “x2> 2” and a data group (other data group) in which the cause of the problem event has not yet been found in the basic data group DA0 (Table 2), that is, Satisfy the input attribute condition “x2 ≦ 2” (input attribute condition “x2>
The data group in which the cause of the problem event has not yet been found is extracted (Table 30).

Figure 0004255779
Figure 0004255779

要因未発見データ抽出部10は、抽出されたデータ群を次の(新しい)基本デ
ータ群DA0としてデータ分類部4に送る。
[ステップ10]
そして、ステップ9で抽出されたデータ群を次の基本データ群DA0として、
終了条件判定部11で終了条件を満たしていると判定されるまで、上記のステッ
プ2〜ステップ9の処理が繰り返される。本実施形態の終了条件判定部11は、
繰返し処理中の上記ステップ2において不良品の第2データ群DA2のデータ個
数が0となった場合を終了条件と判定するようになっている。このように不良品
の第2データ群DA2のデータ個数が0となるまで繰り返し処理を実行すること
により、詳細な要因分析結果が得られる。
The factor undiscovered data extraction unit 10 sends the extracted data group to the data classification unit 4 as the next (new) basic data group DA0.
[Step 10]
Then, the data group extracted in step 9 is set as the next basic data group DA0.
Until the end condition determination unit 11 determines that the end condition is satisfied, the processes of step 2 to step 9 are repeated. The end condition determination unit 11 of the present embodiment
When the number of data in the second data group DA2 of the defective product becomes 0 in the above step 2 during the repeated processing, it is determined as the end condition. As described above, detailed factor analysis results can be obtained by repeatedly performing the process until the number of data in the second data group DA2 of defective products becomes zero.

なお、終了条件は、第2データ群DA2のデータ個数に基づく他の終了条件、
例えば、(1)繰返し処理中の上記ステップ2において第2データ群DA2のデ
ータ個数が所定数以下となった場合、(2)繰返し処理中の上記ステップ2にお
いて第1データ群DA1のデータ個数に対する第2データ群DA2のデータ個数
の割合が所定割合以下となった場合、(3)繰返し処理中の上記ステップ8にお
いて抽出された入力属性条件のルール評価値が所定の値を下回った場合等として
もよい。これらのような終了条件を用いた場合、より簡潔で十分な要因分析結果
を得ることができる。さらに、簡潔な要因分析結果を得ることを優先する場合に
は、終了条件を単に繰返し処理を所定回数行った場合としたり、終了条件判定部
11を省いて、可能な限り繰り返し処理を行うようにしてもよい。
The end condition is another end condition based on the number of data in the second data group DA2.
For example, (1) when the number of data in the second data group DA2 is equal to or less than a predetermined number in step 2 during the iterative process, (2) the number of data in the first data group DA1 in step 2 during the iterative process. When the ratio of the number of data in the second data group DA2 is equal to or less than a predetermined ratio, (3) When the rule evaluation value of the input attribute condition extracted in step 8 during the iterative processing falls below a predetermined value, etc. Also good. When such termination conditions are used, a simpler and sufficient factor analysis result can be obtained. Further, when priority is given to obtaining a concise factor analysis result, the end condition is simply a case where the iterative process is performed a predetermined number of times, or the end condition determining unit 11 is omitted and the iterative process is performed as much as possible. May be.

今回の例では、2回目の繰り返し処理中のステップ9で抽出した、要因未発見
の、x1≦2のデータ群に不良品のデータ(第2データ群DA2;y=2)が含
まれていなかったため、繰り返し処理は2回目で(2回目の要因抽出を行った時
点で)終了した。
[ステップ11]
入力属性閾値テーブル作成部12が、ステップ10の繰り返し処理毎に抽出さ
れた入力属性xjと、入力属性閾値xj−thと、採用された比率の種別とを格
納した入力属性閾値テーブルを作成する(表31)。
In this example, defective data (second data group DA2; y = 2) is not included in the data group of x1 ≦ 2 that has not been found and extracted in step 9 during the second iteration. For this reason, the iterative process was completed at the second time (at the time when the second factor extraction was performed).
[Step 11]
The input attribute threshold value table creation unit 12 creates an input attribute threshold value table that stores the input attribute xj extracted for each repetition process of step 10, the input attribute threshold value xj-th, and the type of ratio adopted ( Table 31).

Figure 0004255779
Figure 0004255779

入力属性閾値テーブル作成部12では、必要に応じて、入力属性閾値テーブル
における入力属性閾値xj−thの数値を文字データに変換する。文字データへ
の変換ルールは、ステップ0の変換の逆変換となるルールであり、下記の通りで
ある。
(x1)1→A、2→B、3→C、4→D
(x2)1→a、2→b、3→c、4→d
(x3)変換せず
(x4)変換せず
表31の入力属性閾値テーブルにおける入力属性閾値xj−thを文字データ
に変換した入力属性閾値テーブルを表32に示す。
The input attribute threshold value table creating unit 12 converts the numerical value of the input attribute threshold value xj-th in the input attribute threshold value table into character data as necessary. The conversion rule for character data is a rule that is the reverse conversion of the conversion in step 0, and is as follows.
(X1) 1 → A, 2 → B, 3 → C, 4 → D
(X2) 1 → a, 2 → b, 3 → c, 4 → d
(X3) Not converted (x4) Not converted Table 32 shows an input attribute threshold value table in which the input attribute threshold value xj-th in the input attribute threshold value table of Table 31 is converted into character data.

Figure 0004255779
Figure 0004255779

この入力属性閾値テーブルは、特許文献1に記載の従来の決定木−2(図12
)において、出力属性y=Y(y=2)の切分けに着目した場合の決定木の分類
条件に対応する。
[ステップ12]
次に、寄与率演算部13が、表31の入力属性閾値テーブルから、抽出された
入力属性の、問題事象(y=2:不良品データ群である、元の第2データ群DA
2)に対する寄与率(相関ルールの評価指標であるサポートに相当する)を求め
る。
This input attribute threshold value table is the conventional decision tree-2 described in Patent Document 1 (FIG. 12).
) Corresponds to the classification condition of the decision tree when focusing on the output attribute y = Y (y = 2).
[Step 12]
Next, the contribution rate calculation unit 13 extracts the problem event (y = 2: defective product data group, original second data group DA of the input attribute extracted from the input attribute threshold value table of Table 31.
2) The contribution ratio (corresponding to the support that is an evaluation index of the association rule) is obtained.

表33は、問題事象(不良品)である元の第2データ群DA2(表4)におい
て、その要因として1回目に抽出された「x2>2」なる入力属性条件、または
、2回目に抽出された「x1>2」なる入力属性条件、に該当するデータに「*
」を付したものである。
Table 33 shows the input attribute condition “x2> 2” extracted as the first factor as the cause in the original second data group DA2 (Table 4) which is a problem event (defective product), or extracted the second time. The data corresponding to the input attribute condition “x1> 2”
".

Figure 0004255779
Figure 0004255779

表33から、問題事象(元の第2データ群DA2)に対する入力属性条件「x
1>2」、「x2>2」の寄与率が表34に示すように求められる。
From Table 33, the input attribute condition “x” for the problem event (original second data group DA2).
The contribution ratio of “1> 2” and “x2> 2” is obtained as shown in Table 34.

Figure 0004255779
Figure 0004255779

表34において、「x1>2」と「x1>2」との交差部に示す寄与率、及び
「x2>2」と「x2>2」との交差部に示す寄与率は、それぞれ「x1>2」
単独要因の寄与率、及び「x2>2」単独要因の寄与率を、それぞれ表している
。また、「x1>2」と「x2>2」との交差部に示す寄与率は何れも、「x1
>2」要因と「x2>2」要因との複合要因の寄与率を表している。なお、表3
4は、図7のようにも表現できる。
In Table 34, the contribution ratio shown at the intersection of “x1> 2” and “x1> 2” and the contribution ratio shown at the intersection of “x2> 2” and “x2> 2” are “x1> 2 "
The contribution ratio of the single factor and the contribution ratio of “x2> 2” are shown. In addition, the contribution rate indicated at the intersection of “x1> 2” and “x2> 2” is “x1”.
It represents the contribution ratio of the composite factor of the “> 2” factor and the “x2> 2” factor. Table 3
4 can also be expressed as shown in FIG.

表34または図7から、問題事象(y=2)に対し、優先順位(順位1:x1
,順位2:x2)を付けて対策を施す事ができる。
[ステップ13]
以上でデータ分析を終了し、入力属性閾値テーブル作成部12で作成された入
力属性閾値テーブルや、寄与率のデータが、分析結果データとしてハードディス
ク等の分析結果データ格納部14に格納される。この分析結果データは、適宜、
分析結果データ格納部14から表示装置や印刷装置等の出力部15に送られ、表
示装置にて決定木やテーブルとして表示したり、印刷装置にて決定木やテーブル
として印刷したりすることができる。
From Table 34 or FIG. 7, priority (rank 1: x1) is assigned to the problem event (y = 2).
, Ranking 2: x2), and measures can be taken.
[Step 13]
The data analysis is thus completed, and the input attribute threshold value table created by the input attribute threshold value table creating unit 12 and the contribution rate data are stored as analysis result data in the analysis result data storage unit 14 such as a hard disk. This analysis result data is
It is sent from the analysis result data storage unit 14 to the output unit 15 such as a display device or a printing device, and can be displayed as a decision tree or table on the display device, or printed as a decision tree or table on the printing device. .

本実施形態によれば、特許文献1に記載の、従来の決定木−2(図12)のよ
うに、ラベル階層構造(図11)を予め定義しなくても、表32(または表31
)の入力属性閾値テーブルに示したような非常に簡潔な形で、問題事象の要因を
導き出せる。そして、これを用いて、問題事象に対する各要因(入力属性)の寄
与率を求める事ができる。
According to the present embodiment, as in the conventional decision tree-2 (FIG. 12) described in Patent Document 1, the label hierarchy structure (FIG. 11) is not defined in advance, but the table 32 (or table 31) can be used.
The cause of the problem event can be derived in a very simple form as shown in the input attribute threshold value table. Then, using this, the contribution rate of each factor (input attribute) to the problem phenomenon can be obtained.

ここで、表32(または表31)に示される本実施形態の入力属性閾値テーブ
ルを、決定木の形式で表現すると、図8のように表される。また、従来の決定木
−2(図12)を用いて、図7と同じ形式で、問題事象y=Y(=2)に対する
各要因の寄与率を表現すると、図9のようになる。
Here, when the input attribute threshold value table of this embodiment shown in Table 32 (or Table 31) is expressed in the form of a decision tree, it is expressed as shown in FIG. Also, when the contribution rate of each factor to the problem event y = Y (= 2) is expressed in the same format as FIG. 7 using the conventional decision tree-2 (FIG. 12), it is as shown in FIG.

本実施形態から導かれる決定木(図8)と、従来の決定木−2(図12)とを
比較すると、本実施形態の場合には、入力属性x3の寄与が表現されていない。
これは、図7と図9とを比較して分かるように、問題事象y=Y(y=2)が、
入力属性x1およびx3の、それぞれの単独要因では発生していないからであり
、上記の2回目の繰り返し操作中のステップ9において、x1>2のデータ群に
対してステップ10を実行しなかった事に因る。
When the decision tree derived from the present embodiment (FIG. 8) is compared with the conventional decision tree-2 (FIG. 12), the contribution of the input attribute x3 is not expressed in the present embodiment.
As can be seen by comparing FIG. 7 and FIG. 9, the problem event y = Y (y = 2)
This is because it does not occur due to each single factor of the input attributes x1 and x3, and in step 9 during the second repetitive operation, step 10 was not executed for the data group of x1> 2. Due to

詳細に要因を追求する場合には、入力属性x3の寄与も抽出する必要があるが
、問題事象y=Y(y=2)を除去する(改善する)事を目的すれば、入力属性
x1のみの抽出であってもこの目的を十分に達成できる。本実施形態では、この
点に着目し、問題事象に対して対策すべき主要因を抽出しているため、入力属性
x3を抽出していない。詳細な分析を必要とする場合には、上記ステップ9で2
分化されたデータ群の双方に対して、ステップ10を実行すればよい。
When pursuing factors in detail, it is also necessary to extract the contribution of the input attribute x3. However, for the purpose of removing (improving) the problem event y = Y (y = 2), only the input attribute x1 is required. Even this extraction can sufficiently achieve this purpose. In the present embodiment, paying attention to this point, the main factor that should be taken against the problem phenomenon is extracted, so the input attribute x3 is not extracted. If detailed analysis is required, 2 in step 9 above.
Step 10 may be executed for both of the differentiated data groups.

なお、上述した実施形態では、複数の要因を導き出し決定木を生成していたが
、単に一つの要因だけを抽出したい場合であれば、ステップ8で終了してもよい
In the above-described embodiment, a plurality of factors are derived and a decision tree is generated. However, if only one factor is desired to be extracted, the process may end in step 8.

以上で説明したデータ分析方法は、コンピュータが図2のS0〜S12(ステ
ップ0〜13)に対応するプロセスを含むデータ分析プログラムを実行すること
によって実現できる。したがって、図1のデータ分析装置は、データ分析プログ
ラムが、コンピュータを文字−数値データ変換部1、分析対象データ格納部2、
閾値設定部3、データ分類部4、データ列抽出部5、頻度演算部6、頻度累積差
演算部7、入力属性閾値決定部8、頻度累積比率演算部16、要因抽出部9、要
因未発見データ抽出部10、終了条件判定部11、入力属性閾値テーブル作成部
12、および寄与率演算部13として機能させることにより実現することが可能
である。
The data analysis method described above can be realized by the computer executing a data analysis program including processes corresponding to S0 to S12 (steps 0 to 13) in FIG. Therefore, in the data analysis apparatus of FIG. 1, the data analysis program converts the computer into a character-numeric data conversion unit 1, an analysis target data storage unit 2,
Threshold setting unit 3, data classification unit 4, data string extraction unit 5, frequency calculation unit 6, frequency cumulative difference calculation unit 7, input attribute threshold value determination unit 8, frequency cumulative ratio calculation unit 16, factor extraction unit 9, factor undiscovered This can be realized by functioning as the data extraction unit 10, end condition determination unit 11, input attribute threshold value table creation unit 12, and contribution rate calculation unit 13.

上記プログラムは、コンピュータで読み取り可能な記録媒体に格納してユーザ
に提供することができる。この記録媒体は、コンピュータ本体に内蔵された内蔵
メディアであってもよいし、コンピュータ本体に対して分離可能に構成されたリ
ムーバブル・メディアであってもよい。上記内蔵メディアとしては、ROM;フ
ラッシュメモリ等の書き換え可能な不揮発性メモリ;ハードディスク等が挙げら
れる。また、上記リムーバブル・メディアとしては、CD−ROM、DVD等の
光記録媒体;MO等の光磁気記録媒体;フロッピー(登録商標)ディスク、カセ
ットテープ、リムーバブル・ハードディスク等の磁気記録媒体;メモリカード等
のような書き換え可能な不揮発性メモリを内蔵したメディア;ROMカセット等
のようなROMを内蔵したメディア等が挙げられる。
The program can be provided to the user by storing it in a computer-readable recording medium. The recording medium may be a built-in medium built in the computer main body, or a removable medium configured to be separable from the computer main body. Examples of the built-in medium include ROM; rewritable nonvolatile memory such as flash memory; and hard disk. The removable media includes optical recording media such as CD-ROM and DVD; magneto-optical recording media such as MO; magnetic recording media such as floppy (registered trademark) disks, cassette tapes and removable hard disks; memory cards and the like. And a medium having a built-in rewritable nonvolatile memory such as a medium having a built-in ROM such as a ROM cassette.

上記プログラムは、CPUのアクセスにより実行される構成であってもよいし
、記録媒体に格納されているプログラムを読み出し、読み出したプログラムを内
蔵メディアのプログラム記憶領域に転送した後、内蔵メディア上のプログラムが
CPUのアクセスにより実行される構成であってもよい。また、上記プログラム
は、コンピュータで読み取り可能な記録媒体に格納された状態で販売されるもの
に限定されるものではなく、インターネット等の通信ネットワークを介してユー
ザのコンピュータに転送する形式で販売されるものであってもよい。
The program may be configured to be executed by CPU access, or after reading the program stored in the recording medium and transferring the read program to the program storage area of the built-in medium, the program on the built-in medium May be executed by CPU access. In addition, the program is not limited to be sold in a state where it is stored in a computer-readable recording medium, and is sold in a format that is transferred to a user's computer via a communication network such as the Internet. It may be a thing.

なお、本実施形態では、データ分類部4において出力属性と出力属性閾値との
比較により分類を行っていたが、出力属性が文字属性である場合、文字−数値デ
ータ変換部1で出力属性を数値属性に変換せず、データ分類部4において出力属
性と要因分析対象となる出力属性(文字;Y)との比較により分類を行うように
してもよい。
In this embodiment, the data classification unit 4 classifies the output attribute by comparing the output attribute with the output attribute threshold value. However, when the output attribute is a character attribute, the character-numeric data conversion unit 1 sets the output attribute to a numerical value. Instead of converting into attributes, the data classification unit 4 may perform classification by comparing the output attributes with the output attributes (characters; Y) to be analyzed.

本実施形態に係るデータ分析方法は、以上のように、N個(Nは2以上の整数
)の属性からなるN列の入力属性のデータと、1個の属性からなる1列の出力属
性のデータとで構成される基本データ群を分析対象とし、該出力属性と該入力属
性との因果関係を分析するデータ分析方法であって、出力属性閾値を設定する第
1ステップと、該出力属性の値と該出力属性閾値との比較に基づいて、該基本デ
ータ群を、第1データ群と第2データ群とに2分化する第2ステップと、該第1
データ群および該第2データ群の各々から、第J入力属性(Jは、1≦J≦Nな
る関係にある整数)のデータ列を表す1−Jデータ列および2−Jデータ列を、
それぞれ抽出する第3ステップと、該1−Jデータ列の該第J入力属性の個々の
値に対して、その値以下のデータ個数の割合を表す1−J頻度累積(%)を計算
し、該2−Jデータ列の該第J入力属性の個々の値に対して、その値以下のデー
タ個数の割合を表す2−J頻度累積(%)を計算する第4ステップと、該1−J
データ列および該2−Jデータ列の双方を含めた、該第J入力属性の全ての値の
個々に対して、該1−J頻度累積(%)と該2−J頻度累積(%)との差の絶対
値を表す、第J頻度累積差を計算する第5ステップと、第J頻度累積差の値が最
大となるときの第J入力属性の値を第J入力属性閾値として抽出する第6ステッ
プと、第J入力属性が第J入力属性閾値であるときにおいて、該1−J頻度累積
(%)に対する該2−J頻度累積(%)の比率を表す2−J下比率、および、1
00から該1−J頻度累積(%)を引いた値に対する、100から該2−J頻度
累積(%)を引いた値の比率を表す2−J上比率を計算し、双方の比率のうちの
大きい方の値を示す、2−J比率を抽出する第7ステップと、Jの値を1からN
まで順次増加させて、該第3ステップ〜該第7ステップの操作を繰り返し、繰り
返し操作中の該第7ステップで抽出された、第1から第Nまでの入力属性の該2
−J比率のうち、その値が最大となる入力属性、該入力属性の値を表す入力属性
閾値、および採用した比率の種別を抽出し、保存する第8ステップと、該第8ス
テップで抽出された入力属性に基づいて、該基本データ群を2分化する第9ステ
ップと、該第9ステップで2分化されたデータ群のうちの少なくとも一方を、新
たな基本データ群として、所定の終了条件を満たすまで、該第2ステップ〜該第
9ステップの操作を繰返す第10ステップとを含む。
As described above, the data analysis method according to the present embodiment includes N columns of input attribute data including N attributes (N is an integer of 2 or more) and one column of output attributes including one attribute. A data analysis method for analyzing a causal relationship between the output attribute and the input attribute, and a first step of setting an output attribute threshold; A second step of dividing the basic data group into a first data group and a second data group based on a comparison between the value and the output attribute threshold;
From each of the data group and the second data group, a 1-J data string and a 2-J data string representing a data string of the Jth input attribute (J is an integer having a relationship of 1 ≦ J ≦ N),
A third step of extracting each of the values, and for each value of the J-th input attribute of the 1-J data string, a 1-J frequency accumulation (%) representing a ratio of the number of data less than or equal to the value is calculated; A fourth step of calculating, for each value of the J-th input attribute of the 2-J data string, a 2-J frequency accumulation (%) representing a ratio of the number of data less than that value;
For each individual value of the Jth input attribute including both the data string and the 2-J data string, the 1-J frequency accumulation (%) and the 2-J frequency accumulation (%) A fifth step of calculating the J-th frequency cumulative difference, which represents the absolute value of the difference, and extracting the value of the J-th input attribute when the value of the J-th frequency cumulative difference is maximum as the J-th input attribute threshold 6-step, and when the J-th input attribute is the J-th input attribute threshold, a 2-J lower ratio representing a ratio of the 2-J frequency accumulation (%) to the 1-J frequency accumulation (%), and 1
Calculate the 2-J upper ratio, which represents the ratio of the value obtained by subtracting the 2-J frequency accumulation (%) from 100 to the value obtained by subtracting the 1-J frequency accumulation (%) from 00. The seventh step of extracting the 2-J ratio, which indicates the larger value of J, and the value of J from 1 to N
The operation of the third step to the seventh step is repeated, and the 2nd of the first to Nth input attributes extracted in the seventh step during the repetitive operation is repeated.
-The J attribute is extracted in the eighth step of extracting and storing the input attribute having the maximum value, the input attribute threshold representing the value of the input attribute, and the type of the adopted ratio, and the eighth step. Based on the input attribute, at least one of the ninth step of bisecting the basic data group and the data group bifurcated in the ninth step is set as a new basic data group, and a predetermined end condition is set. A tenth step that repeats the operations of the second step to the ninth step until it is satisfied.

上記方法によれば、ラベル階層構造を予め定義しなくても、非常に簡潔な形で問題事象の要因を複数導き出せる。そして、これを用いて、因果関係を表す決定木を作成したり、問題事象(出力属性)に対する各要因(入力属性)の寄与率を求めたりする事ができる。
なお、本発明に係るデータ分析装置は、上記の課題を解決するために、複数の入力属性と、出力属性とで構成されるデータの集合である基本データ群を分析対象とし、入力属性と出力属性との因果関係を分析し、因果関係を示す情報を抽出するデータ分析装置であって、基本データ群を出力属性に依って第1データ群と第2データ群とに分類する分類手段と、各入力属性の全ての数値について、入力属性がその数値以下であるデータが第1データ群および第2データ群のうちの一方に偏っている度合いを表す閾値評価指標を演算する第1の評価手段と、第1の評価手段で演算された閾値評価指標に基づいて、各入力属性について最大の閾値評価指標を持つ数値を各入力属性の閾値として決定する閾値決定手段と、閾値決定手段で決定された各入力属性の閾値に基づいて、「入力属性が閾値以下であれば第2データ群に含まれるデータである」という相関ルールの確からしさを表す第1のルール評価値と、「入力属性が閾値を超えていれば第2データ群に含まれるデータである」という相関ルールの確からしさを表す第2のルール評価値とを各入力属性について演算する第2の評価手段と、全ての入力属性に関する相関ルールのうちで最も高いルール評価値を持つ相関ルールの入力属性条件を示すデータを、第2データ群に対応する出力属性条件の要因を示す情報として抽出する要因抽出手段とを含むようにしてもよい。
また、本発明に係るデータ分析方法は、上記の課題を解決するために、前記のデータ分析装置を用いて、複数の入力属性と、出力属性とで構成されるデータの集合である基本データ群を分析対象とし、入力属性と出力属性との因果関係を分析し、因果関係を示す情報を抽出するデータ分析方法であって、上記分類手段により、基本データ群を出力属性に依って第1データ群と第2データ群とに分類する分類ステップと、上記第1の評価手段により、各入力属性の全ての数値について、入力属性がその数値以下であるデータが第1データ群および第2データ群のうちの一方に偏っている度合いを表す閾値評価指標を演算する第1の評価ステップと、上記閾値決定手段により、第1の評価ステップで演算された閾値評価指標に基づいて、各入力属性について最大の閾値評価指標を持つ数値を各入力属性の閾値として決定する閾値決定ステップと、上記第2の評価手段により、閾値決定ステップで決定された各入力属性の閾値に基づいて、「入力属性が閾値以下であれば第2データ群に含まれるデータである」という相関ルールの確からしさを表す第1のルール評価値と、「入力属性が閾値を超えていれば第2データ群に含まれるデータである」という相関ルールの確からしさを表す第2のルール評価値とを各入力属性について演算する第2の評価ステップと、上記要因抽出手段により、全ての入力属性に関する相関ルールのうちで最も高いルール評価値を持つ相関ルールの入力属性条件を示すデータを、第2データ群に対応する出力属性条件の要因を示す情報として抽出する要因抽出ステップとを含むようにしてもよい。
また、本発明に係るデータ分析プログラムは、上記の課題を解決するために、コンピュータを、基本データ群を出力属性に依って第1データ群と第2データ群とに分類する分類手段、各入力属性の全ての数値について、入力属性がその数値以下であるデータが第1データ群および第2データ群のうちの一方に偏っている度合いを表す閾値評価指標を演算する第1の評価手段、第1の評価手段で演算された閾値評価指標に基づいて、各入力属性について最大の閾値評価指標を持つ数値を各
入力属性の閾値として決定する閾値決定手段、閾値決定手段で決定された各入力属性の閾値に基づいて、「入力属性が閾値以下であれば第2データ群に含まれるデータである」という相関ルールの確からしさを表す第1のルール評価値と、「入力属性が閾値を超えていれば第2データ群に含まれるデータである」という相関ルールの確からしさを表す第2のルール評価値とを各入力属性について演算する第2の評価手段、および全ての入力属性に関する相関ルールのうちで最も高いルール評価値を持つ相関ルールの入力属性条件を示すデータを、第2データ群に対応する出力属性条件の要因を示す情報として抽出する要因抽出手段として機能させるためのデータ分析プログラムであってもよい。
また、本発明に係るデータ分析装置は、上記要因抽出手段で抽出された入力属性条件に基づいて、基本データ群を、上記入力属性条件を満たす要因データ群と上記入力属性条件を満たさない他データ群とに分割し、分類されたデータ群のうちの少なくとも一方を新たな基本データ群として分類手段に送る分割手段をさらに含み、分類手段による処理、第1の評価手段による処理、閾値決定手段による処理、第2の評価手段による処理、要因抽出手段による処理、および分割手段による処理からなる一連の処理が繰り返し実行されるようになっていてもよい。
According to the above method, it is possible to derive a plurality of factors of problem events in a very simple form without defining the label hierarchical structure in advance. Then, by using this, it is possible to create a decision tree representing a causal relationship, and obtain the contribution rate of each factor (input attribute) to the problem event (output attribute).
In order to solve the above-described problem, the data analysis apparatus according to the present invention analyzes a basic data group that is a set of data including a plurality of input attributes and output attributes. A data analysis device that analyzes a causal relationship with an attribute and extracts information indicating the causal relationship, and classifies a basic data group into a first data group and a second data group according to an output attribute; First evaluation means for calculating a threshold evaluation index representing the degree to which data whose input attribute is equal to or less than the numerical value of each input attribute is biased to one of the first data group and the second data group And a threshold value determining means for determining a numerical value having the maximum threshold value evaluation index for each input attribute as a threshold value of each input attribute based on the threshold value evaluation index calculated by the first evaluation means, and the threshold value determining means. Each Based on the threshold value of the force attribute, a first rule evaluation value indicating the probability of the association rule “if the input attribute is equal to or less than the threshold value, data included in the second data group”, A second evaluation means for calculating, for each input attribute, a second rule evaluation value representing the probability of the correlation rule that the data is included in the second data group if it exceeds, and correlation for all input attributes You may make it include the factor extraction means which extracts the data which show the input attribute condition of the correlation rule with the highest rule evaluation value among rules as information which shows the factor of the output attribute condition corresponding to a 2nd data group.
Further, in order to solve the above-described problem, the data analysis method according to the present invention uses the data analysis apparatus described above, and a basic data group that is a set of data composed of a plurality of input attributes and output attributes. Is a data analysis method for analyzing the causal relationship between the input attribute and the output attribute, and extracting information indicating the causal relationship, wherein the basic data group is output from the first data according to the output attribute by the classification means. A classification step of classifying the input attribute into a group and a second data group, and the first evaluation means, for all the numerical values of each input attribute, the data whose input attribute is equal to or less than the numerical value is the first data group and the second data group A first evaluation step for calculating a threshold evaluation index representing a degree of bias to one of the input values, and the threshold determination means based on the threshold evaluation index calculated in the first evaluation step. A threshold value determining step for determining a numerical value having the maximum threshold evaluation index for each input attribute as a threshold value for each input attribute, and “input attribute” based on the threshold value for each input attribute determined in the threshold value determining step by the second evaluation unit. The first rule evaluation value indicating the probability of the association rule that the data is included in the second data group if is less than or equal to the threshold value, and “if the input attribute exceeds the threshold value, it is included in the second data group. The second evaluation step for calculating the second rule evaluation value representing the certainty of the correlation rule that is “data” for each input attribute, and the above-described factor extraction means, among the correlation rules for all input attributes. A factor extraction process for extracting data indicating an input attribute condition of an association rule having a high rule evaluation value as information indicating a factor of an output attribute condition corresponding to the second data group It may be included and-up.
Further, in order to solve the above problems, the data analysis program according to the present invention includes a classification unit for classifying a basic data group into a first data group and a second data group according to output attributes, and each input. A first evaluation means for calculating a threshold evaluation index representing a degree that data having an input attribute equal to or less than the numerical value is biased to one of the first data group and the second data group for all the numerical values of the attribute; Based on the threshold evaluation index calculated by one evaluation means, each numerical value having the maximum threshold evaluation index for each input attribute is
Based on the threshold value determining means for determining the threshold value of the input attribute and the threshold value of each input attribute determined by the threshold value determining means, the correlation rule “if the input attribute is equal to or less than the threshold value, the data is included in the second data group” A first rule evaluation value that represents the certainty of the association rule, and a second rule evaluation value that represents the certainty of the association rule “if the input attribute exceeds the threshold, the data is included in the second data group”. The second evaluation means for calculating each input attribute, and the data indicating the input attribute condition of the correlation rule having the highest rule evaluation value among the correlation rules for all input attributes, the output attribute corresponding to the second data group It may be a data analysis program for functioning as a factor extracting means for extracting as information indicating the factor of the condition.
Further, the data analysis apparatus according to the present invention provides a basic data group based on the input attribute condition extracted by the factor extracting means, a factor data group that satisfies the input attribute condition, and other data that does not satisfy the input attribute condition. A dividing unit that divides the data into groups and sends at least one of the classified data groups to the classification unit as a new basic data group, and includes processing by the classification unit, processing by the first evaluation unit, and threshold determination unit A series of processes including the process, the process by the second evaluation unit, the process by the factor extraction unit, and the process by the division unit may be repeatedly executed.

本発明の一実施形態に係るデータ分析装置の構成を示すブロック図である。It is a block diagram which shows the structure of the data analyzer which concerns on one Embodiment of this invention. 本発明の一実施形態に係るデータ分析方法を示すフローチャートである。It is a flowchart which shows the data analysis method which concerns on one Embodiment of this invention. 本発明の一実施形態に係るデータ分析装置における頻度累積差演算部7(ステップ5)の出力の一例をグラフで表したもので、入力属性x1と、良品の1−x1頻度累積(A)、不良品の2−x1頻度累積(B)、x1頻度累積差|A−B|との関係を示す。An example of the output of the frequency accumulation difference calculation unit 7 (step 5) in the data analysis apparatus according to the embodiment of the present invention is represented by a graph, with an input attribute x1 and non-defective 1-x1 frequency accumulation (A), The relationship between 2-x1 frequency accumulation (B) of defective products and x1 frequency accumulation difference | AB | is shown. 本発明の一実施形態に係るデータ分析装置における頻度累積差演算部7(ステップ5)の出力の一例をグラフで表したもので、入力属性x2と、良品の1−x2頻度累積(A)、不良品の2−x2頻度累積(B)、x2頻度累積差|A−B|との関係を示す。An example of the output of the frequency accumulation difference calculation unit 7 (step 5) in the data analysis apparatus according to the embodiment of the present invention is represented by a graph, with an input attribute x2 and a non-defective 1-x2 frequency accumulation (A), The relationship between 2-x2 frequency accumulation (B) of defective products and x2 frequency accumulation difference | AB | is shown. 本発明の一実施形態に係るデータ分析装置における頻度累積差演算部7(ステップ5)の出力の一例をグラフで表したもので、入力属性x3と、良品の1−x3頻度累積(A)、不良品の2−x3頻度累積(B)、x3頻度累積差|A−B|との関係を示す。FIG. 7 is a graph showing an example of the output of the frequency cumulative difference calculation unit 7 (step 5) in the data analysis apparatus according to the embodiment of the present invention. The input attribute x3 and the non-defective 1-x3 frequency cumulative (A), The relationship between 2-x3 frequency accumulation (B) of defective products and x3 frequency accumulation difference | AB | is shown. 本発明の一実施形態に係るデータ分析装置における頻度累積差演算部7(ステップ5)の出力の一例をグラフで表したもので、入力属性x4と、良品の1−x4頻度累積(A)、不良品の2−x4頻度累積(B)、x4頻度累積差|A−B|との関係を示す。An example of the output of the frequency accumulation difference calculation unit 7 (step 5) in the data analysis apparatus according to the embodiment of the present invention is represented by a graph, with an input attribute x4 and a non-defective 1-x4 frequency accumulation (A), The relationship between 2-x4 frequency accumulation (B) of defective products and x4 frequency accumulation difference | AB | is shown. 本発明の一実施形態に係るデータ分析装置における寄与率演算部13(ステップ12)で出力されるデータの一例であり、問題事象である出力属性条件y=2(=Y)に対する入力属性条件「x1>2」および入力属性条件「x2>2」の寄与率を示す。It is an example of the data output by the contribution rate calculating part 13 (step 12) in the data analyzer which concerns on one Embodiment of this invention, and the input attribute condition "with respect to the output attribute condition y = 2 (= Y) which is a problem event" x1> 2 ”and the contribution ratio of the input attribute condition“ x2> 2 ”. 本発明の実施形態の入力属性閾値テーブルを、決定木の形式で表現した図である。It is the figure which expressed the input attribute threshold value table of the embodiment of the present invention in the form of a decision tree. 従来の決定木−2を、図7と同じ形式で表現した図である。It is the figure which expressed the conventional decision tree-2 in the same format as FIG. 従来の決定木−1を表す図である。It is a figure showing the conventional decision tree-1. 従来の決定木−2のラベル階層構造を表す図であり、(a)はx1属性、(b)はx2属性、(c)はx3属性、(d)はx4属性を示す。It is a figure showing the label hierarchical structure of the conventional decision tree-2, (a) shows x1 attribute, (b) shows x2 attribute, (c) shows x3 attribute, (d) shows x4 attribute. 従来の決定木−2を表す図である。It is a figure showing the conventional decision tree-2.

符号の説明Explanation of symbols

3 閾値設定部(閾値設定手段)
4 データ分類部(分類手段)
6 頻度演算部(第1の評価手段、頻度演算手段)
7 頻度累積差演算部(第1の評価手段、差分演算手段)
8 入力属性閾値決定部(閾値決定手段)
9 要因抽出部(要因抽出手段)
10 要因未発見データ抽出部(分割手段)
11 終了条件判定部(終了条件判定手段)
16 頻度累積比率演算部(第2の評価手段)

3 threshold setting unit (threshold setting means)
4 Data classification part (classification means)
6 Frequency calculator (first evaluation means, frequency calculation means)
7 Frequency cumulative difference calculation unit (first evaluation means, difference calculation means)
8 Input attribute threshold value determination unit (threshold value determination means)
9 Factor extraction unit (factor extraction means)
10 Factor undiscovered data extraction unit (division means)
11 End condition determination unit (end condition determination means)
16 Frequency cumulative ratio calculation unit (second evaluation means)

Claims (10)

分析対象データ格納部に格納された、複数の入力属性 (1≦j≦N、Nは入力属性の個数)と、1つの出力属性とで構成されるデータの集合である基本データ群DAを分析対象とし、入力属性と出力属性との因果関係を分析するデータ分析装置であって、
基本データ群DAに含まれる文字属性のデータを、一義的な変換ルールに従って数値属性のデータに変換することによって、数値属性のデータの集合である数値型基本データ群DA0を生成する文字―数値データ変換手段と、
数値型基本データ群DA0、数値型基本データ群DA0に含まれる出力属性yの数値と、出力属性yの所定閾値との大小関係の比較に基づいて、第1データ群DA1第2データ群DA2とに分類する分類手段と、
上記複数の入力属性のうちの1つの入力属性x について、該1つの入力属性x のとり得る数値毎に、当該数値以下の数値を持つデータのうち、第1データ群DA1に属するデータの個数の、第1データ群DA1に属する全てのデータの個数に対する比率である第1の頻度(1−x 頻度累積%)を求める演算を行い、かつ、該1つの入力属性x のとり得る数値毎に、当該数値以下の数値を持つデータのうち、第2データ群DA2に属するデータの個数の、第2データ群DA2に属する全てのデータの個数に対する比率である第2の頻度(2−x 頻度累積%)を求める演算を行い、かつ、該1つの入力属性x のとり得る数値毎に、第1の頻度と第2の頻度との差分(x 頻度累積差%)を求める演算を、上記複数の入力属性の各々について行なう第1の評価手段と、
上記複数の入力属性のうちの1つの入力属性x について、第1の評価手段で該1つの入力属性x のとり得る数値毎に演算された差分(x 頻度累積差%)に基づいて、最大の差分が求められた数値を当該入力属性 の閾値 j―th として決定することを、上記複数の入力属性の各々について行なう閾値決定手段と、
上記複数の入力属性のうちの1つの入力属性x について、閾値決定手段にて決定された該入力属性x の閾値x j―th における、第1の頻度(1−x 頻度累積%)に対する第2の頻度(2−x 頻度累積%)の比率である第1の比率と、閾値決定手段にて決定された該入力属性x の閾値x j―th における、(100%−第1の頻度(1−x 頻度累積%))に対する(100%−第2の頻度(2−x 頻度累積%))の比率である第2の比率とを演算するとともに、第1の比率および第2の比率のうちの大きい方の比率を選択することを、上記複数の入力属性の各々について行なう第2の評価手段と、
上記第2の評価手段にて入力属性毎に選択された比率のうち、最も大きい比率を持つ入力属性x 、該入力属性x の閾値x j―th 、および該最も大きい比率が第1の比率および第2の比率の何れであるかを示す種別を、入力属性条件を示すデータとして抽出するとともに、当該入力属性条件を分析結果データ格納部に格納する要因抽出手段とを含むことを特徴とするデータ分析装置。
A basic data group that is a set of data composed of a plurality of input attributes x j (1 ≦ j ≦ N, N is the number of input attributes) and one output attribute y stored in the analysis target data storage unit the DA was analyzed, the causal relationship between the input attributes and output attributes a data analyzer you analysis,
Character-numeric data that generates a numeric basic data group DA0, which is a set of numeric attribute data, by converting character attribute data contained in the basic data group DA into numeric attribute data according to a unique conversion rule Conversion means;
The numeric base data group DA0, and numeric numeric output attribute y included in the basic data group DA0, based on a comparison of the magnitude relation between the predetermined threshold value of the output attribute y, the first data group DA1, second data Classification means for classifying into group DA2 ,
For one input attributes x j of the plurality of input attributes for each numerical value can be assumed by the said one input attributes x j, among the data having the following values the numerical data belonging to the first data group DA1 An operation for obtaining a first frequency (1-x j frequency cumulative%), which is a ratio of the number to the number of all data belonging to the first data group DA1, can be taken by the one input attribute x j For each numerical value, a second frequency (2-) is the ratio of the number of data belonging to the second data group DA2 to the number of all data belonging to the second data group DA2 among the data having a numerical value less than or equal to the numerical value. x j frequency cumulative%) is calculated, and the difference between the first frequency and the second frequency (x j frequency cumulative difference%) is obtained for each numerical value that the one input attribute x j can take. For each of the multiple input attributes A first evaluation means for performing
For one input attributes x j of the plurality of input attributes, based on the single input attribute x j of possible numerical each of the calculated difference by the first evaluation means (x j frequency cumulative difference%) , determining a numerical value maximum of the difference is determined as a threshold value x j-th of the input attributes x j, a threshold determination means for, for each of the plurality of input attributes,
For one input attributes x j of the plurality of input attributes, the threshold x j-th of the input attributes x j which is determined by the threshold value determining means, first frequency (1-x j Frequency Cumulative%) second and first ratio is the ratio of frequency (2-x j frequency cumulative%), at the threshold x j-th of the input attributes x j which is determined by the threshold determination means, (100% of - the 1 on the frequency (1-x j frequency cumulative%)) (100% - the second frequency (2-x j frequency cumulative%) as well as calculating a second ratio is the ratio of) first ratio And a second evaluation means for selecting the larger one of the second ratios for each of the plurality of input attributes ;
Of the ratios selected for each input attribute in the second evaluation means, the input attributes x j having the largest ratio, threshold x j-th of the input attributes x j, and outermost even larger ratio first And a factor extracting means for extracting the type indicating the ratio or the second ratio as data indicating the input attribute condition and storing the input attribute condition in the analysis result data storage unit, Data analysis equipment.
上記要因抽出手段で抽出された入力属性条件に基づいて、数値型基本データ群DA0を、上記入力属性条件を満たす要因データ群と上記入力属性条件を満たさない他データ群とに分割し、分類されたデータ群のうちの少なくとも一方を新たな数値型基本データ群DA0として分類手段に送る分割手段をさらに含み、
分類手段による処理、第1の評価手段による処理、閾値決定手段による処理、第2の評価手段による処理、要因抽出手段による処理、および分割手段による処理からなる一連の処理が繰り返し実行されるようになっていることを特徴とする請求項1記載のデータ分析装置。
Based on the input attribute condition extracted by the factor extracting means, the numerical basic data group DA0 is divided into a factor data group that satisfies the input attribute condition and another data group that does not satisfy the input attribute condition, and is classified. Further comprising a dividing means for sending at least one of the data groups to the classification means as a new numerical basic data group DA0 ,
A series of processing consisting of processing by the classification means, processing by the first evaluation means, processing by the threshold determination means, processing by the second evaluation means, processing by the factor extraction means, and processing by the dividing means is repeatedly executed. The data analysis apparatus according to claim 1 , wherein
上記分割手段は、分類されたデータ群のうち他データ群のみを選択して新たな数値型基本データ群DA0として分類手段に送るものであることを特徴とする請求項2に記載のデータ分析装置。 3. The data analysis apparatus according to claim 2, wherein the dividing means selects only another data group from the classified data group and sends it to the classification means as a new numerical basic data group DA0. . 終了条件を満たしているかを判定する終了条件判定手段をさらに含み、上記終了条件判定手段において終了条件を満たしていると判定されると、上記一連の処理の実行を終了するようになっていることを特徴とする請求項2記載のデータ分析装置。 It further includes an end condition determining means for determining whether or not the end condition is satisfied, and when the end condition determining means determines that the end condition is satisfied, the execution of the series of processes is ended. data analyzer according to claim 2, wherein. 上記終了条件判定手段は、分類手段で分類された第2データ群のデータ数が0であるかを終了条件として判定を行なうことを特徴とする請求項4記載のデータ分析装置。 5. The data analysis apparatus according to claim 4 , wherein the end condition determination unit determines whether or not the number of data of the second data group classified by the classification unit is 0 as an end condition. 予め定められた設定情報に従って、または、使用者からの入力に応じて、出力属性の上記所定閾値を設定する閾値設定手段をさらに含むことを特徴とする請求項1または2に記載のデータ分析装置。3. The data analysis apparatus according to claim 1, further comprising threshold setting means for setting the predetermined threshold of the output attribute in accordance with predetermined setting information or in response to an input from a user. . 上記入力属性は、製品の製造工程における製造プロセス条件および/またはインライン検査結果であり、The input attribute is a manufacturing process condition and / or an in-line inspection result in the product manufacturing process,
上記出力属性は、製品の品質判定結果であり、The above output attribute is the product quality judgment result,
上記第2データ群は、品質判定結果が不良のデータ群であることを特徴とする請求項1または2に記載のデータ分析装置。The data analysis apparatus according to claim 1, wherein the second data group is a data group having a poor quality determination result.
請求項1に記載のデータ分析装置を用いて、分析対象データ格納部に格納された、複数の入力属性xA plurality of input attributes x stored in the analysis target data storage unit using the data analysis device according to claim 1. j (1≦j≦N、Nは入力属性の個数)と、1つの出力属性yとで構成されるデータの集合である基本データ群DAを分析対象とし、入力属性と出力属性との因果関係を分析するデータ分析方法であって、(1 ≦ j ≦ N, where N is the number of input attributes) and a basic data group DA that is a set of data composed of one output attribute y, and the causal relationship between the input attribute and the output attribute is A data analysis method for analyzing,
上記文字―数値データ変換手段により、基本データ群DAに含まれる文字属性のデータを、一義的な変換ルールに従って数値属性のデータに変換することによって、数値属性のデータの集合である数値型基本データ群DA0を生成する文字―数値データ変換ステップと、Numeric type basic data which is a set of numeric attribute data by converting character attribute data included in the basic data group DA into numeric attribute data according to a unique conversion rule by the character-numeric data conversion means. A character-numeric data conversion step for generating the group DA0;
上記分類手段により、数値型基本データ群DA0を、数値型基本データ群DA0に含まれる出力属性yの数値と、出力属性yの所定閾値との大小関係の比較に基づいて、第1データ群DA1と、第2データ群DA2とに分類する分類ステップと、Based on the comparison of the magnitude relationship between the numerical value of the output attribute y included in the numerical basic data group DA0 and the predetermined threshold value of the output attribute y by the classification means, the first data group DA1 And a classification step for classifying the data into the second data group DA2.
上記第1の評価手段により、上記複数の入力属性のうちの1つの入力属性xOne input attribute x out of the plurality of input attributes by the first evaluation means. j について、該1つの入力属性xThe one input attribute x j のとり得る数値毎に、当該数値以下の数値を持つデータのうち、第1データ群DA1に属するデータの個数の、第1データ群DA1に属する全てのデータの個数に対する比率である第1の頻度(1−xThe first frequency which is the ratio of the number of data belonging to the first data group DA1 to the number of all data belonging to the first data group DA1 among the data having a numerical value less than or equal to the numerical value that can be taken (1-x j 頻度累積%)を求める演算を行い、かつ、該1つの入力属性xFrequency accumulation%), and the one input attribute x j のとり得る数値毎に、当該数値以下の数値を持つデータのうち、第2データ群DA2に属するデータの個数の、第2データ群DA2に属する全てのデータの個数に対する比率である第2の頻度(2−xFor each possible numerical value, a second frequency that is a ratio of the number of data belonging to the second data group DA2 to the number of all data belonging to the second data group DA2 among data having a numerical value equal to or lower than the numerical value. (2-x j 頻度累積%)を求める演算を行い、かつ、該1つの入力属性xFrequency accumulation%), and the one input attribute x j のとり得る数値毎に、第1の頻度と第2の頻度との差分(xFor each possible numerical value, the difference between the first frequency and the second frequency (x j 頻度累積差%)を求める演算を、上記複数の入力属性の各々について行なう第1の評価ステップと、A first evaluation step of performing an operation for obtaining a frequency cumulative difference%) for each of the plurality of input attributes;
上記閾値決定手段により、上記複数の入力属性のうちの1つの入力属性xOne input attribute x of the plurality of input attributes is obtained by the threshold value determining means. j について、第1の評価手段で該1つの入力属性xThe one input attribute x in the first evaluation means j のとり得る数値毎に演算された差分(xThe difference calculated for each possible numerical value (x j 頻度累積差%)に基づいて、最大の差分が求められた数値を当該入力属性xBased on the cumulative frequency difference%), the numerical value for which the maximum difference is obtained is the input attribute x j の閾値xThreshold x j―thj-th として決定することを、上記複数の入力属性の各々について行なう閾値決定ステップと、Determining a threshold value for each of the plurality of input attributes; and
上記第2の評価手段により、上記複数の入力属性のうちの1つの入力属性xOne input attribute x out of the plurality of input attributes by the second evaluation means. j について、閾値決定手段にて決定された該入力属性xFor the input attribute x determined by the threshold value determination means j の閾値xThreshold x j―thj-th における、第1の頻度(1−xThe first frequency (1-x j 頻度累積%)に対する第2の頻度(2−xFrequency to the second frequency (2-x) j 頻度累積%)の比率である第1の比率と、閾値決定手段にて決定された該入力属性xThe first ratio that is the ratio of the frequency cumulative%) and the input attribute x determined by the threshold value determination means j の閾値xThreshold x j―thj-th における、(100%−第1の頻度(1−x(100% -first frequency (1-x j 頻度累積%))に対する(100%−第2の頻度(2−x(Frequency cumulative%))) to (100%-second frequency (2-x j 頻度累積%))の比率である第2の比率とを演算するとともに、第1の比率および第2の比率のうちの大きい方の比率を選択することを、上記複数の入力属性の各々について行なう第2の評価ステップと、The second ratio that is the ratio of the frequency cumulative%)) is calculated, and the larger ratio of the first ratio and the second ratio is selected for each of the plurality of input attributes. A second evaluation step;
上記要因抽出手段により、上記第2の評価手段にて入力属性毎に選択された比率のうち、最も大きい比率を持つ入力属性xThe input attribute x having the largest ratio among the ratios selected for each input attribute by the second evaluation means by the factor extracting means. j 、該入力属性x, The input attribute x j の閾値xThreshold x j―thj-th 、および該最も大きい比率が第1の比率および第2の比率の何れであるかを示す種別を、(補正前請求項7、段落0082)入力属性条件を示すデータとして抽出するとともに、当該入力属性条件を分析結果データ格納部に格納する要因抽出ステップとを含むことを特徴とするデータ分析方法。, And the type indicating whether the largest ratio is the first ratio or the second ratio (pre-correction claim 7, paragraph 0082) as the data indicating the input attribute condition, and the input attribute And a factor extracting step of storing the condition in the analysis result data storage unit.
分析対象データ格納部に格納された、複数の入力属性xMultiple input attributes x stored in the analysis target data storage j (1≦j≦N、Nは入力属性の個数)と、1つの出力属性yとで構成されるデータの集合である基本データ群DAを分析対象とし、入力属性と出力属性との因果関係を分析するデータ分析装置が備えるコンピュータを機能させるためのデータ分析プログラムであって、(1 ≦ j ≦ N, where N is the number of input attributes) and a basic data group DA that is a set of data composed of one output attribute y, and the causal relationship between the input attribute and the output attribute is A data analysis program for causing a computer included in a data analysis device to analyze to function,
上記データ分析装置は、The above data analyzer is
基本データ群DAに含まれる文字属性のデータを、一義的な変換ルールに従って数値属性のデータに変換することによって、数値属性のデータの集合である数値型基本データ群DA0を生成する文字―数値データ変換手段と、Character-numeric data that generates a numeric basic data group DA0, which is a set of numeric attribute data, by converting character attribute data contained in the basic data group DA into numeric attribute data according to a unique conversion rule Conversion means;
数値型基本データ群DA0を、数値型基本データ群DA0に含まれる出力属性yの数値と、出力属性yの所定閾値との大小関係の比較に基づいて、第1データ群DA1と、第2データ群DA2とに分類する分類手段と、Based on the comparison of the magnitude relationship between the numerical value of the output attribute y included in the numerical basic data group DA0 and the predetermined threshold value of the output attribute y, the numerical basic data group DA0 is compared with the first data group DA1 and the second data. Classification means for classifying into group DA2,
上記複数の入力属性のうちの1つの入力属性xOne input attribute x of the plurality of input attributes j について、該1つの入力属性xThe one input attribute x j のとり得る数値毎に、当該数値以下の数値を持つデータのうち、第1データ群DA1に属するデータの個数の、第1データ群DA1に属する全てのデータの個数に対する比率である第1の頻度(1−xThe first frequency that is the ratio of the number of data belonging to the first data group DA1 to the number of all data belonging to the first data group DA1 among the data having numerical values equal to or smaller than the numerical value (1-x j 頻度累積%)を求める演算を行い、かつ、該1つの入力属性xFrequency accumulation%), and the one input attribute x j のとり得る数値毎に、当該数値以下の数値を持つデータのうち、第2データ群DA2に属するデータの個数の、第2データ群DA2に属する全てのデータの個数に対する比率である第2の頻度(2−xThe second frequency, which is the ratio of the number of data belonging to the second data group DA2 to the number of all the data belonging to the second data group DA2 among the data having numerical values equal to or smaller than the numerical value that can be taken (2-x j 頻度累積%)を求める演算を行い、かつ、該1つの入力属性xFrequency accumulation%), and the one input attribute x j のとり得る数値毎に、第1の頻度と第2の頻度との差分(xFor each possible numerical value, the difference between the first frequency and the second frequency (x j 頻度累積差%)を求める演算を、上記複数の入力属性の各々について行なう第1の評価手段と、A first evaluation unit that performs an operation for calculating a frequency cumulative difference%) for each of the plurality of input attributes;
上記複数の入力属性のうちの1つの入力属性xOne input attribute x of the plurality of input attributes j について、第1の評価手段で該1つの入力属性xThe one input attribute x in the first evaluation means j のとり得る数値毎に演算された差分(xThe difference calculated for each possible numerical value (x j 頻度累積差%)に基づいて、最大の差分が求められた数値を当該入力属性xBased on the cumulative frequency difference%), the numerical value for which the maximum difference is obtained is the input attribute x j の閾値xThreshold x j―thj-th として決定することを、上記複数の入力属性の各々について行なう閾値決定手段と、Threshold value determining means for determining each of the plurality of input attributes,
上記複数の入力属性のうちの1つの入力属性xOne input attribute x of the plurality of input attributes j について、閾値決定手段にて決定された該入力属性xFor the input attribute x determined by the threshold value determination means j の閾値xThreshold x j―thj-th における、第1の頻度(1−xThe first frequency (1-x j 頻度累積%)に対する第2の頻度(2−xFrequency to the second frequency (2-x) j 頻度累積%)の比率である第1の比率と、閾値決定手段にて決定された該入力属性xThe first ratio that is the ratio of the frequency cumulative%) and the input attribute x determined by the threshold value determination means j の閾値xThreshold x j―thj-th における、(100%−第1の頻度(1−x(100% -first frequency (1-x j 頻度累積%))に対する(100%−第2の頻度(2−x(Frequency cumulative%))) to (100%-second frequency (2-x j 頻度累積%))の比率である第2の比率とを演算するとともに、第1の比率および第2の比率のうちの大きい方の比率を選択することを、上記複数の入力属性の各々について行なう第2の評価手段と、The second ratio that is the ratio of the frequency cumulative%)) is calculated, and the larger one of the first ratio and the second ratio is selected for each of the plurality of input attributes. A second evaluation means;
上記第2の評価手段にて入力属性毎に選択された比率のうち、最も大きい比率を持つ入力属性xThe input attribute x having the largest ratio among the ratios selected for each input attribute by the second evaluation means j 、該入力属性x, The input attribute x j の閾値xThreshold x j―thj-th 、および該最も大きい比率が第1の比率および第2の比率の何れであるかを示す種別を、入力属性条件を示すデータとして抽出するとともに、当該入力属性条件を分析結果データ格納部に格納する要因抽出手段とを含み、, And the type indicating whether the largest ratio is the first ratio or the second ratio is extracted as data indicating the input attribute condition, and the input attribute condition is stored in the analysis result data storage unit Factor extraction means,
コンピュータを上記の各手段として機能させるためのデータ分析プログラム。A data analysis program for causing a computer to function as each of the above means.
請求項9に記載のデータ分析プログラムを記録したコンピュータ読み取り可能な記録媒体。A computer-readable recording medium on which the data analysis program according to claim 9 is recorded.
JP2003272648A 2003-07-10 2003-07-10 Data analysis apparatus, data analysis method, and data analysis program Expired - Fee Related JP4255779B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003272648A JP4255779B2 (en) 2003-07-10 2003-07-10 Data analysis apparatus, data analysis method, and data analysis program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003272648A JP4255779B2 (en) 2003-07-10 2003-07-10 Data analysis apparatus, data analysis method, and data analysis program

Publications (2)

Publication Number Publication Date
JP2005032117A JP2005032117A (en) 2005-02-03
JP4255779B2 true JP4255779B2 (en) 2009-04-15

Family

ID=34210137

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003272648A Expired - Fee Related JP4255779B2 (en) 2003-07-10 2003-07-10 Data analysis apparatus, data analysis method, and data analysis program

Country Status (1)

Country Link
JP (1) JP4255779B2 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104822788A (en) * 2012-11-26 2015-08-05 日东电工株式会社 Water-dispersed adhesive composition, adhesive layer, adhesive sheet, and laminate comprising adhesive layer or adhesive sheet
US9481816B2 (en) 2012-04-26 2016-11-01 Henkel Ag & Co. Kgaa Hot melt adhesive
US9481815B2 (en) 2012-04-26 2016-11-01 Henkel Ag & Co. Kgaa Hot melt adhesive
US9790409B2 (en) 2013-05-30 2017-10-17 Henkel Ag & Co. Kgaa Hot melt adhesive
US9828535B2 (en) 2012-09-27 2017-11-28 Henkel Ag & Co. Kgaa Hot melt pressure-sensitive adhesive for labeling

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7454814B2 (en) 2020-06-22 2024-03-25 国立大学法人山口大学 Information processing device, information processing program, information processing system, and information processing method

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9481816B2 (en) 2012-04-26 2016-11-01 Henkel Ag & Co. Kgaa Hot melt adhesive
US9481815B2 (en) 2012-04-26 2016-11-01 Henkel Ag & Co. Kgaa Hot melt adhesive
US10035935B2 (en) 2012-04-26 2018-07-31 Henkel Ag & Co. Kgaa Hot melt adhesive
US9828535B2 (en) 2012-09-27 2017-11-28 Henkel Ag & Co. Kgaa Hot melt pressure-sensitive adhesive for labeling
CN104822788A (en) * 2012-11-26 2015-08-05 日东电工株式会社 Water-dispersed adhesive composition, adhesive layer, adhesive sheet, and laminate comprising adhesive layer or adhesive sheet
CN104822788B (en) * 2012-11-26 2016-09-14 日东电工株式会社 Water-dispersed pressure-sensitive adhesive composition, adhesive phase, bonding sheet and comprise the duplexer of this adhesive phase or bonding sheet
US9790409B2 (en) 2013-05-30 2017-10-17 Henkel Ag & Co. Kgaa Hot melt adhesive

Also Published As

Publication number Publication date
JP2005032117A (en) 2005-02-03

Similar Documents

Publication Publication Date Title
US7684965B2 (en) Method and apparatus for processing data, and computer product
US7777743B2 (en) Viewing multi-dimensional data through hierarchical visualization
KR100414032B1 (en) Apparatus for testing semiconductor, for analyzing defects in semiconductor, for correcting semiconductor design data, and method therefor, and computer readable recording media
CN114444986B (en) Product analysis method, system, device and medium
US8019761B2 (en) Recording medium storing a design support program, design support method, and design support apparatus
US20180082215A1 (en) Information processing apparatus and information processing method
US20080046426A1 (en) Computerized method, system and program product for generating a data mining model
US20080270088A1 (en) Method and system for causal modeling and outlier detection
US20110137841A1 (en) Sample class prediction method, prediction program, and prediction apparatus
US20060085405A1 (en) Method for analyzing and classifying electronic document
US20200265111A1 (en) Methods and systems to predict parameters in a database of information technology equipment
US8892494B2 (en) Device for classifying defects and method for adjusting classification
JP4255779B2 (en) Data analysis apparatus, data analysis method, and data analysis program
US7640131B2 (en) Data analysis method for analyzing failure root causes for products
CN111863135B (en) False positive structure variation filtering method, storage medium and computing device
JP4298531B2 (en) Input attribute condition determination device, input attribute condition determination method, input attribute condition determination program, data analysis device, data analysis method, and data analysis program
CN1623225B (en) Method and system for determining uniformity during semiconductor wafer production process
CN115271442A (en) Modeling method and system for evaluating enterprise growth based on natural language
CN114757495A (en) Membership value quantitative evaluation method based on logistic regression
US11126948B2 (en) Analysis method and computer
JP2022072149A (en) Machine learning program, device, and method
Liu et al. RETRACTED ARTICLE: Company financial path analysis using fuzzy c-means and its application in financial failure prediction
JP2017207878A (en) Missing data estimation method, missing data estimation device, and missing data estimation program
US20220004481A1 (en) Log analysis device, log analysis method, and program
JP2009157655A (en) Data analysis device, data analysis method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050810

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20071205

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081028

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20081217

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090127

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090128

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120206

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120206

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130206

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees