JP7086497B2 - Abnormality / error effect explanation variable detection device and abnormality / error effect explanation variable detection program - Google Patents
Abnormality / error effect explanation variable detection device and abnormality / error effect explanation variable detection program Download PDFInfo
- Publication number
- JP7086497B2 JP7086497B2 JP2020164127A JP2020164127A JP7086497B2 JP 7086497 B2 JP7086497 B2 JP 7086497B2 JP 2020164127 A JP2020164127 A JP 2020164127A JP 2020164127 A JP2020164127 A JP 2020164127A JP 7086497 B2 JP7086497 B2 JP 7086497B2
- Authority
- JP
- Japan
- Prior art keywords
- error
- value
- teacher
- data
- explanatory
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
この発明は、異常・誤り影響説明変数検出装置及び異常・誤り影響説明変数検出用プログラムに関するものである。 The present invention relates to an abnormality / error effect explanatory variable detection device and an abnormality / error effect explanatory variable detection program.
本願発明者らは、目的変数と説明変数から構成される教師データを用いて予測モデルを作成し、この予測モデルに対し実際に異常を捕えるべき対象機器において測定した説明変数を適用して得られた目的変数と、実際に測定された目的変数とから上記対象機器の異常を検出する装置の発明を出願した(特開2019-159365号、特願2019-055609号、特願2019-055615号、特願2019-160751号、特願2019-080556号)。この発明では、対象装置が異常であることの検出(或いは推定)を行うことができるが、どの説明変数が異常に大きく影響しているかについては考慮していない。 The inventors of the present application created a prediction model using teacher data composed of objective variables and explanatory variables, and applied the explanatory variables measured in the target device to actually catch anomalies to this prediction model. An invention of a device for detecting an abnormality of the above-mentioned target device from the objective variable and the objective variable actually measured has been filed (Japanese Patent Laid-Open No. 2019-159365, Japanese Patent Application No. 2019-05569, Japanese Patent Application No. 2019-055615, Japanese Patent Application No. 2019-160751, Japanese Patent Application No. 2019-080556). In the present invention, it is possible to detect (or estimate) that the target device is abnormal, but it does not consider which explanatory variable has a great influence on the abnormality.
また、図1は予測モデルの目的変数と説明変数を提供する3種類の花の平面図を示している。この3種類を分別する例として1つの花に存在している花弁とガク(額)の長さと幅を説明変数(花弁の長さ、花弁の幅、ガクの長さ、ガクの幅)として、3種類の花A、B、Cを目的変数として予測モデルを作成することができる。 FIG. 1 also shows a plan view of three types of flowers that provide the objective and explanatory variables of the predictive model. As an example of separating these three types, the length and width of the petals and gaku (forehead) existing in one flower are used as explanatory variables (petal length, petal width, gaku length, gaku width). A prediction model can be created with three types of flowers A, B, and C as objective variables.
図2は、花弁とガクの長さと幅を測定値として、4つの測定値(説明変数)を得て、目的変数である3種類の花A、B、Cを目的変数として得る予測モデルを示す図である。測定値(説明変数)がK1、K2、K2、K3であるとき、予測モデルは花の種類A(目的変数)と予測する(図2(a))。また、花弁とガクの長さと幅の測定値(説明変数)がK2、K1、K3、K1であるとき、予測モデルは花の種類B(目的変数)と予測する(図2(b))。更に、花弁とガクの長さと幅の測定値(説明変数)がK3、K2、K1、K1であるとき、予測モデルは花の種類C(目的変数)と予測する(図2(c))。 FIG. 2 shows a prediction model in which the length and width of petals and gaku are measured values, four measured values (explanatory variables) are obtained, and three types of flowers A, B, and C, which are objective variables, are obtained as objective variables. It is a figure. When the measured value (explanatory variable) is K1, K2, K2, K3, the prediction model predicts the flower type A (objective variable) (FIG. 2A). Further, when the measured values (explanatory variables) of the length and width of the petals and the gaku are K2, K1, K3, and K1, the prediction model predicts the flower type B (objective variable) (FIG. 2 (b)). Further, when the measured values (explanatory variables) of the length and width of the petals and the gaku are K3, K2, K1 and K1, the prediction model predicts the flower type C (objective variable) (FIG. 2 (c)).
図3は、予測モデルの式を示す図である。上記のように予測を行う予測モデルをf0で表すと、測定値(説明変数)K1、K2、K1、K3によって、花の種類A(目的変数)を予測した場合の式は図3(a)のように、A=f0(K1,K2,K2,K3)と記載することができる。また、測定値(説明変数)K2、K1、K3、K1によって、花の種類B(目的変数)を予測した場合の式は図3(b)のように、B=f0(K2,K1,K3,K1)と記載することができる。更に、測定値(説明変数)K3、K2、K1、K1によって、花の種類C(目的変数)を予測した場合の式は図3(c)のように、C=f0(K3,K2,K1,K1)と記載することができる。 FIG. 3 is a diagram showing the formula of the prediction model. When the prediction model for prediction as described above is represented by f0, the formula when the flower type A (objective variable) is predicted by the measured values (explanatory variables) K1, K2, K1, and K3 is shown in FIG. 3A. As such, A = f0 (K1, K2, K2, K3) can be described. Further, the formula when the flower type B (objective variable) is predicted by the measured values (explanatory variables) K2, K1, K3, and K1 is B = f0 (K2, K1, K3) as shown in FIG. 3 (b). , K1). Further, the formula when the flower type C (objective variable) is predicted by the measured values (explanatory variables) K3, K2, K1, and K1 is C = f0 (K3, K2, K1) as shown in FIG. 3 (c). , K1).
図4は従来の予測モデルでは異常であることは検出されるが、その異常がいずれの説明変数の影響かについては不明であることを示す図である。図4(a)に示すように、測定値(説明変数)K1、K2、K1、K3と測定値(目的変数)Aが得られている場合に、予測モデルf0を用いた場合の予測では図4(b)に示すように、B=f0(K1,K2,K1,K3)となり、測定対象が異常であると判定されたとする。このように、異常が生じていることを検出できるものの、どの1つまたは複数の説明変数が異常であるために、異常と判定されたのかを特定することはできないものであった。 FIG. 4 is a diagram showing that an abnormality is detected by the conventional prediction model, but it is unclear which explanatory variable the abnormality is affected by. As shown in FIG. 4A, when the measured values (explanatory variables) K1, K2, K1, K3 and the measured values (objective variable) A are obtained, the prediction when the prediction model f0 is used is shown in the figure. As shown in 4 (b), B = f0 (K1, K2, K1, K3), and it is assumed that the measurement target is determined to be abnormal. As described above, although it is possible to detect that an abnormality has occurred, it is not possible to specify which one or more explanatory variables are abnormal and therefore determined to be abnormal.
上記に対し、近年、シャープレイ値(Shapley Value)という値を、機械学習モデルの解釈に用いる研究がなされている。このシャープレイ値は、例えば、Aa、Bb、Ccという三人が働く場合に得る報酬の値からAa、Bb、Ccの貢献度に対応する分配報酬を算出するものである。条件としては、Aa、Bb、Ccが一人ずつ働く場合の各人の報酬、Aa、Bb、Ccのいずれか二人のペアが働く場合のペアの報酬、Aa、Bb、Ccが三人で働く場合の報酬が与えられる。これに基づき、Aa、Bb、Ccが順に加わって働く場合の報酬を加わる人の順を考慮して算出し、最終的にAa、Bb、Ccの貢献度に対応する分配報酬を算出する。 In contrast to the above, in recent years, research has been conducted in which a value called the Shapley Value is used for interpreting a machine learning model. This Shapley value is, for example, a distribution reward corresponding to the contribution degree of Aa, Bb, Cc is calculated from the value of the reward obtained when three people, Aa, Bb, and Cc, work. As a condition, the reward for each person when Aa, Bb, and Cc work one by one, the reward for a pair when any two pairs of Aa, Bb, and Cc work, and the reward for a pair when Aa, Bb, and Cc work with three people. If you are rewarded. Based on this, the calculation is made in consideration of the order of the people who add the reward when Aa, Bb, and Cc are added in order, and finally the distribution reward corresponding to the contribution of Aa, Bb, and Cc is calculated.
機械学習モデルへの応用では、例えば、特徴量X=(X1,X2,X3)の予測値への貢献度をシャープレイ値で求めるものである。モデルをf(・)とし、平均的な予測値をE[f(X)]とする。1つのインスタンスにおいてそれぞれ(x1,x2,x3)=xという特徴量をとっているものとし、このときの予測値をf(x)とする。平均的な予測値のE[f(X)]と各インスタンスの予測値f(x)との乖離に各特徴量がどのくらい影響しているかを求める。 In the application to the machine learning model, for example, the degree of contribution to the predicted value of the feature amount X = (X1, X2, X3) is obtained by the Shapley value. Let the model be f (.) And the average predicted value be E [f (X)]. It is assumed that each instance has a feature amount of (x1, x2, x3) = x, and the predicted value at this time is f (x). It is calculated how much each feature influences the difference between the average predicted value E [f (X)] and the predicted value f (x) of each instance.
各インスタンスの予測値f(x)は、
E[f(X|X1=x1,X2=x2,X3=x3)]=f(x1,x2,x3)=f(x)
であるから、平均的な予測値をE[f(X)]からX1,X2,X3を条件付けてゆくことで、その特徴量を知ることが、各インスタンスの予測に対してどのように影響するかを求めることになる。ここで、Φj(j=1,2,3,・・・)を、各特徴量が予測値に与える限界的な効果とする。また、Φ0は、0と平均的な予測値E[f(X)]との乖離に対応する限界的な効果とする。
The predicted value f (x) of each instance is
E [f (X | X1 = x1, X2 = x2, X3 = x3)] = f (x1, x2, x3) = f (x)
Therefore, by conditioning X1, X2, and X3 from E [f (X)] to the average predicted value, knowing the feature amount affects the prediction of each instance. Will be asked. Here, Φj (j = 1, 2, 3, ...) Is defined as the limit effect that each feature has on the predicted value. Further, Φ0 is a marginal effect corresponding to the discrepancy between 0 and the average predicted value E [f (X)].
Φ0の状態からX1=x1という情報を得ると、予測値がΦ1だけ大きくなり、更に、X2=x2という情報を得ると、予測値がΦ2だけ大きくなる。最後に、X3=x3という情報を得ると、予測値がΦ3だけ小さくなり、これが最終的なインスタンスとなる。上記では、X1,X2,X3という順で条件付けしているが、上記の報酬に関する場合と同様にあらゆる順で条件付けし、それぞれにおいて得られる各特徴量が予測値に与える限界的な効果の平均を求める。これがシャープレイ値である。 When the information of X1 = x1 is obtained from the state of Φ0, the predicted value is increased by Φ1, and when the information of X2 = x2 is obtained, the predicted value is increased by Φ2. Finally, when the information X3 = x3 is obtained, the predicted value becomes smaller by Φ3, and this becomes the final instance. In the above, the conditions are set in the order of X1, X2, X3, but the conditions are set in any order as in the case of the above reward, and the average of the marginal effects of each feature obtained in each is given to the predicted value. Ask. This is the Shapley value.
図5は、花の種類「セトサ」を予測値「1」として4つの測定値から予測する予想モデルを示す図である。この4つの測定値として、1つの花に存在している花弁とガク(額)の長さと幅を説明変数(花弁の長さ(=x3)、花弁の幅(=x4)、ガクの長さ(=x5)、ガクの幅(=x6))として、「1」を目的変数として予測モデルを作成することができる。図6は、上記「セトサ」の場合におけるx3~x6のシャープレイ値を棒グラフで示した図である。図6には、「セトサ」の場合に得られるシャープレイ値の予測値(Actual prediction)が1であり、予測平均値(Average prediction)が2であることが記載されている。予測平均値は、この例では、3つの花種類の花に関する予測モデルであるため、3つの予測値の平均値を示している。 FIG. 5 is a diagram showing a prediction model for predicting from four measured values with the flower type “Setosa” as the predicted value “1”. As these four measured values, the length and width of the petals and gaku (forehead) existing in one flower are used as explanatory variables (petal length (= x3), petal width (= x4), gaku length). A prediction model can be created with "1" as the objective variable as (= x5) and the width of the corolla (= x6)). FIG. 6 is a bar graph showing the Shapley values of x3 to x6 in the case of the above-mentioned "Setosa". In FIG. 6, it is described that the predicted value (Actual Prescription) of the Shapley value obtained in the case of “Setosa” is 1, and the predicted average value (Average Prediction) is 2. Since the predicted average value is a prediction model for flowers of three flower types in this example, the average value of the three predicted values is shown.
図7は、花の種類「バーシクル」を予測値「2」として4つの測定値から予測する予想モデルを示す図である。この4つの測定値(説明変数)として、1つの花に存在している花弁とガク(額)の長さと幅を説明変数(花弁の長さ(=x3)、花弁の幅(=x4)、ガクの長さ(=x5)、ガクの幅(=x6))として、「2」を目的変数として予測モデルを作成することができる。図8は、上記「バーシクル」の場合におけるx3~x6のシャープレイ値を棒グラフで示した図である。図8には、「バーシクル」の場合に得られるシャープレイ値の予測値(Actual prediction)が2であり、予測平均値(Average prediction)が2であることが記載されている。 FIG. 7 is a diagram showing a prediction model for predicting from four measured values with the flower type “versicle” as the predicted value “2”. As these four measured values (explanatory variables), the length and width of the petals and gaku (forehead) existing in one flower are the explanatory variables (petal length (= x3), petal width (= x4), A prediction model can be created with "2" as the objective variable as the length of the corolla (= x5) and the width of the corolla (= x6)). FIG. 8 is a bar graph showing Shapley values of x3 to x6 in the case of the above-mentioned "vertical". In FIG. 8, it is described that the predicted value (Actual Prescription) of the Shapley value obtained in the case of the “vertical” is 2, and the predicted average value (Average Prediction) is 2.
図9は、花の種類「バージニカ」を予測値「3」として4つの測定値から予測する予想モデルを示す図である。この4つの測定値(説明変数)として、1つの花に存在している花弁とガク(額)の長さと幅を説明変数(花弁の長さ(=x3)、花弁の幅(=x4)、ガクの長さ(=x5)、ガクの幅(=x6))として、「3」を目的変数として予測モデルを作成することができる。図10は、上記「バージニカ」の場合におけるx3~x6のシャープレイ値を棒グラフで示した図である。図10には、「バージニカ」の場合に得られるシャープレイ値の予測値(Actual prediction)が3であり、予測平均値(Average prediction)が2であることが記載されている。 FIG. 9 is a diagram showing a prediction model for predicting from four measured values with the flower type “Virginica” as the predicted value “3”. As these four measured values (explanatory variables), the length and width of the petals and gaku (forehead) existing in one flower are the explanatory variables (petal length (= x3), petal width (= x4), A prediction model can be created with "3" as the objective variable as the length of the corolla (= x5) and the width of the corolla (= x6)). FIG. 10 is a bar graph showing Shapley values of x3 to x6 in the case of the above "Virginica". In FIG. 10, it is described that the predicted value (Actual Prescription) of the Shapley value obtained in the case of “Virginica” is 3, and the predicted average value (Average Prediction) is 2.
図6、図8、図10に明らかなように、花の種類「バーシクル」の場合に、説明変数x6が特異的に大きな値となっているものの、全体としていずれか1つの説明変数の影響が大きいかを特定するほどには到っておらず、現状のシャープレイ値そのものを用いて、どの説明変数の影響が大きいかを検出できないものであった。 As is clear from FIGS. 6, 8 and 10, in the case of the flower type "versicle", the explanatory variable x6 has a specifically large value, but the influence of any one of the explanatory variables as a whole is affected. It was not enough to specify whether it was large, and it was not possible to detect which explanatory variable had a large effect using the current Shapley value itself.
特許文献1には、データの説明変数に対しデータ項目のカテゴリを識別する付加文字列を付加し、データクレンジング/特徴化手段32によって、データの異常値を特定値に置換あるいは削除するデータクレンジングを行うことが記載されている。この場合、異常判断基準については、その異常値定義と置換値を設定し、設定に従って異常値を処理するものであり、目的変数が異常となった場合に、予測を行うために使用されるいくつかの説明変数中のいずれが影響しているかを特定するものではない。
In
特許文献2には、学習後の異常検出データモデルを用いて、計算した偏差データ信号及び工程ステップのタイプを示す工程タイプ指標のデータ処理によってステップ毎の異常検出を行い、工程ステップの時間ステップt又はパス長ステップl毎に異常確率pを計算し、更に、この異常確率pに基づいて、ワークピース及び生産プロセスステップの異常・正常の分類を行うものが開示されている。
In
上記引用文献2のものにおいても、目的変数が異常となった場合に、予測を行うために使用されるいくつかの説明変数中のいずれが影響しているかを求めることはできない。
Even in the above-mentioned cited
本発明は、上記のような機械学習による異常検出の分野における課題を解決せんとしてなされたもので、その目的は、目的変数が異常或いは誤りとなった場合に、予測を行うために使用されるいくつかの説明変数中のいずれが影響しているかを求めることが可能な影響説明変数検出装置を提供することである。 The present invention has been made to solve the above-mentioned problems in the field of abnormality detection by machine learning, and an object thereof is used to make a prediction when an objective variable becomes abnormal or erroneous. It is to provide an effect explanatory variable detector capable of determining which of several explanatory variables is influencing.
本実施形態の影響説明変数検出装置は、説明変数である複数項目の教師測定データと、前記複数項目の教師測定データを識別するための1つの教師識別データであって目的変数である教師識別データとの1セットデータが、複数セット用意された教師データを用いて、機械学習により前記説明変数から前記目的変数を求めるように作成された予測モデルと、前記予測モデルに前記複数セット用意された教師データの説明変数を与えて目的変数を求め、与えた説明変数に対応する教師データの目的変数との誤差を求める処理を前記教師データの全てについて行う誤差算出手段と、前記求められた誤差の分布を求め、前記誤差の分布範囲の所定範囲にある誤差に対応する教師データの説明変数を抽出する抽出手段と、抽出された説明変数の複数項目の教師測定データについて中央部値を求める中央部値算出手段と、前記中央部値に基づきシャープレイ値である基準シャープレイ値を算出する基準値算出手段と、前記教師測定データと同じ測定処理により新たに測定された誤り或いは異常に影響しているかの解析対象である複数項目の解析用測定データに基づきシャープレイ値である解析対象シャープレイ値を算出する解析対象値算出手段と、同一項目毎に、前記基準シャープレイ値と前記解析対象シャープレイ値との比較値を求め、比較値の大きさに基づき、いずれの説明変数である項目の解析用測定データが誤りに影響しているか或いは異常に影響しているかを検出する影響説明変数検出手段とを具備することを特徴とする。 The influence explanatory variable detection device of the present embodiment is one teacher identification data for discriminating the teacher measurement data of a plurality of items which are explanatory variables and the teacher measurement data of the plurality of items, and is a teacher identification data which is an objective variable. One set of data is a prediction model created so as to obtain the objective variable from the explanatory variables by machine learning using the teacher data prepared in a plurality of sets, and the teacher prepared in the plurality of sets in the prediction model. An error calculation means that performs a process of finding an objective variable by giving an explanatory variable of data and finding an error of the teacher data corresponding to the given explanatory variable with the objective variable of the teacher data for all of the teacher data, and a distribution of the obtained error. Is obtained, and the extraction means for extracting the explanatory variables of the teacher data corresponding to the error within the predetermined range of the distribution range of the error, and the central value for obtaining the central value for the teacher measurement data of a plurality of items of the extracted explanatory variables. Is it affected by the calculation means, the reference value calculation means for calculating the reference shear play value which is the shear play value based on the central value, and the error or abnormality newly measured by the same measurement process as the teacher measurement data? The analysis target value calculation means for calculating the analysis target shear play value which is the shear play value based on the analysis measurement data of a plurality of items to be analyzed, and the reference shear play value and the analysis target shear play for each same item. Impact explanatory variable detection means that obtains a comparison value with a value and detects whether the analysis measurement data of the item, which is an explanatory variable, affects an error or an abnormality based on the magnitude of the comparison value. It is characterized by having and.
以下添付図面を参照して、本発明の実施形態に係る影響説明変数検出装置及び影響説明変数検出用プログラムを説明する。各図において、同一の構成要素には、同一の符号を付して重複する説明を省略する。図11は、本発明の実施形態に係る影響説明変数検出装置100を実現するコンピュータシステムの構成図である。本発明の実施形態に係る影響説明変数検出装置100は、例えば図11に示されるようなパーソナルコンピュータやワークステーション、その他のコンピュータシステムにより構成することができる。このコンピュータシステムは、CPU10が主メモリ11に記憶されている或いは主メモリ11に読み込んだプログラムやデータに基づき各部を制御し、必要な処理を実行することにより影響説明変数検出装置100として動作を行うものである。
Hereinafter, the effect explanatory variable detection device and the effect explanatory variable detection program according to the embodiment of the present invention will be described with reference to the accompanying drawings. In each figure, the same components are designated by the same reference numerals and duplicated description will be omitted. FIG. 11 is a configuration diagram of a computer system that realizes the influence explanatory
CPU10には、バス12を介して外部記憶インタフェース13、入力インタフェース14、表示インタフェース15、データ入力インタフェース16が接続されている。外部記憶インタフェース13には、状態変動検出用プログラム等のプログラムと必要なデータ等が記憶されている外部記憶装置23が接続されている。入力インタフェース14には、コマンドやデータを入力するための入力装置としてのキーボードなどの入力装置24とポインティングデバイスとしてのマウス22が接続されている。
An
表示インタフェース15には、LEDやLCDなどの表示画面を有する表示装置25が接続されている。データ入力インタフェース16には、測定データを得るためのセンサ26-1、26-2、・・・、26-mが接続されている。センサ26-1、26-2、・・・、26-mは、測定データを得るための構成であり、データ入力を行うための記憶媒体や入力装置であっても良い。更に、このコンピュータシステムには、他の構成が備えられていても良く、また、図11の構成は一例に過ぎない。
A
図12は、本発明の第1の実施形態に係る影響説明変数検出装置100の機能ブロック図である。上記において、CPU10では、外部記憶装置23内の影響説明変数検出用プログラムによって図12に記載の各手段等が実現される。即ち、予測モデル作成手段30、予測モデル31、誤差算出手段32、抽出手段33、中央部値算出手段34、基準値算出手段35、解析対象値算出手段36、影響説明変数検出手段37、除算手段38、影響度取得手段39、教師データTが記憶されている。
FIG. 12 is a functional block diagram of the influence explanatory
図13は、教師データTの内容を示す図である。教師データTは、説明変数である複数項目の教師測定データを備える。ここに、説明変数である項目は、「ガクの長さ」、「ガクの幅」、「花弁の長さ」、「花弁の幅」の4項目である。更に教師データTは、上記複数項目の教師測定データを識別するための1つの教師識別データであって目的変数である教師識別データを備える。具体的には、図13の説明変数である項目であるガクの長さ、ガクの幅、花弁の長さ、花弁の幅に対して図の左横方向に記載されている花の種類「セトサ」を「1」、「バーシクル」を「2」、「バージニカ」を「3」として対応付けたものが教師識別情報であり、これら「1」、「2」、「3」は目的変数である。図13の1行分が目的変数と説明変数の1セットのデータであり、図の縦方向に複数セット用意されている。 FIG. 13 is a diagram showing the contents of the teacher data T. The teacher data T includes teacher measurement data of a plurality of items which are explanatory variables. Here, the items that are explanatory variables are four items, "length of gaku", "width of gaku", "length of petals", and "width of petals". Further, the teacher data T includes one teacher identification data for identifying the teacher measurement data of the plurality of items and teacher identification data which is an objective variable. Specifically, the flower type "Setosa" described in the left lateral direction of the figure with respect to the items of the explanatory variables in FIG. 13, the length of the gaku, the width of the gaku, the length of the petals, and the width of the petals. The teacher identification information is associated with "1", "versicle" as "2", and "virginica" as "3", and these "1", "2", and "3" are objective variables. .. One line in FIG. 13 is one set of data of the objective variable and the explanatory variable, and a plurality of sets are prepared in the vertical direction of the figure.
予測モデル31は教師データTを用いて予測モデル作成手段30が作成するものである。ここで、本実施形態では、予測モデル作成手段30は、予測モデル31を作成するためにこのコンピュータシステムに備えられているが、他の装置やプログラムによって作成された予測モデル31をこの外部記憶装置23に記憶させて用いるものであっても良く、この場合には、予測モデル作成手段30を備えていなくともよい。
The
予測モデル31は、機械学習により説明変数から目的変数を予測するものである。ここに、機械学習のアルゴリズムとしては、パターンマイ二ングのランダムフォレストを挙げることができるが、これ以外に、分類木や回帰木などのように分類器により(例えばツリー構造で)分岐を行って予測を行う機械学習によるアルゴリズムを採用することができる。また、予測モデル31は、重回帰分析による機械学習を行うものであっても良い。
The
誤差算出手段32は、上記予測モデル31に上記複数セット用意された教師データTの説明変数を与えて目的変数を求め、与えた説明変数に対応する教師データの目的変数との誤差を求める処理を上記教師データの全てについて行うものである。従って、図13の教師データに対しては、行数分の誤差が求められる。
The error calculation means 32 gives an explanatory variable of the teacher data T prepared in a plurality of sets to the
抽出手段33は、上記求められた誤差の分布を求め、上記誤差の分布範囲の所定範囲にある誤差に対応する教師データの説明変数を抽出するものである。本実施形態では、上記誤差分布の平均値と標準偏差を求め、この平均値から上記標準偏差の所定倍の範囲にある誤差に対応する教師データの説明変数を抽出するものである。上記所定倍は、本実施形態において1倍とするが、例えば、1.5倍や0.5倍などであっても良い。前述の通り誤差は図13の教師データTの行数分生成されるため、平均値はこれらの平均値ということになり、1つ求められる。 The extraction means 33 obtains the distribution of the obtained error, and extracts the explanatory variables of the teacher data corresponding to the error within the predetermined range of the distribution range of the error. In the present embodiment, the mean value and the standard deviation of the error distribution are obtained, and the explanatory variables of the teacher data corresponding to the error within a predetermined multiple range of the standard deviation are extracted from the mean value. The predetermined multiple is 1 in the present embodiment, but may be, for example, 1.5 times or 0.5 times. As described above, since the error is generated for the number of rows of the teacher data T in FIG. 13, the average value is the average value of these, and one is obtained.
標準偏差をσとすると、σは、次の式(1)により求められる。
図14は誤差の分布図である。上記平均値をμで表すとき、図14の誤差の分布に対して、標準偏差σの1倍の範囲(即ち、(μ-σ)から(μ+σ)の範囲)にある誤差に対応する教師データの説明変数を抽出する。以上の結果、何行分かの説明変数が抽出される。 FIG. 14 is a distribution map of errors. When the above mean value is expressed in μ, the teacher data corresponding to the error in the range of 1 times the standard deviation σ (that is, the range from (μ−σ) to (μ + σ)) with respect to the error distribution in FIG. Extract the explanatory variables of. As a result of the above, several lines of explanatory variables are extracted.
本実施形態では、誤差の分布の中央部分である(μ-σ)から(μ+σ)の範囲とすることによって、通常程度の誤差の範囲にある誤差を抽出し、続く中央部値の算出と基準シャープレイ値の算出へ進む。これによって、異常度がそれ程多くない説明変数の複数項目の教師データによって基準シャープレイ値が算出される。このため、上記基準シャープレイ値と解析対象シャープレイ値との比較では、解析対象シャープレイ値が上記基準シャープレイ値と大きく乖離していれば、その説明変数が、異常或いは誤りに大きく貢献していると結論付けることができる。本実施形態は、このような推論を根拠として成り立つ。 In the present embodiment, by setting the range from (μ−σ) to (μ + σ), which is the central part of the error distribution, the error within the normal error range is extracted, and the subsequent calculation and reference of the central part value are performed. Proceed to the calculation of the Shapley value. As a result, the reference Shapley value is calculated from the teacher data of a plurality of items of the explanatory variables whose degree of abnormality is not so high. Therefore, in the comparison between the reference Shapley value and the Shapley value to be analyzed, if the Shapley value to be analyzed deviates significantly from the reference Shapley value, the explanatory variable greatly contributes to an abnormality or an error. It can be concluded that it is. This embodiment is based on such reasoning.
上記の実施形態で用いた分布の中心とは逆に、誤差の分布の縁部分である(μ+2σ)から(μ+3σ)の範囲と(μ-2σ)から(μ-3σ)の範囲の誤差に対応する教師データの説明変数を抽出すると、誤差(異常度)が大きな説明変数の複数項目の教師データによって基準シャープレイ値が算出される。このため、上記基準シャープレイ値と解析対象シャープレイ値との比較では、解析対象シャープレイ値が上記基準シャープレイ値に近い場合に、その説明変数が、異常或いは誤りに大きく貢献していると結論付けることができる。即ち、後に述べるように本実施形態は、比較値が所定閾値より大きな場合に、その説明変数が、異常或いは誤りに大きく貢献していると判定しているが、上記のように誤差分布の縁部分を用いた場合には、比較値が所定閾値より小さい場合に、その説明変数が、異常或いは誤りに大きく貢献していると判定する手法を採用することができる。 Contrary to the center of the distribution used in the above embodiment, it corresponds to the error in the range of (μ + 2σ) to (μ + 3σ) and the range of (μ-2σ) to (μ-3σ), which is the edge of the error distribution. When the explanatory variables of the teacher data to be used are extracted, the reference Shapley value is calculated from the teacher data of a plurality of items of the explanatory variables having a large error (abnormality). Therefore, in the comparison between the reference Shapley value and the Shapley value to be analyzed, when the Shapley value to be analyzed is close to the reference Shapley value, the explanatory variable greatly contributes to the abnormality or error. I can conclude. That is, as will be described later, in the present embodiment, when the comparison value is larger than the predetermined threshold value, it is determined that the explanatory variable greatly contributes to the abnormality or the error, but the edge of the error distribution as described above. When a portion is used, when the comparison value is smaller than a predetermined threshold value, a method of determining that the explanatory variable greatly contributes to an abnormality or an error can be adopted.
中央部値算出手段34は、抽出された説明変数の複数項目の教師測定データについて中央部値を求める。ここに、中央部値は、中央値、平均値、中央値と平均値の中間値など中央値付近の値であっても良い。ここでは、中央部値を求めることにより、抽出手段33により抽出された説明変数の中で数値的な中心部の値を求め、抽出の意味を高めている。上記の様々な中央部値が理論的には有り得るが、計算により求めることを考えれば中央値が好適である。そこで、本実施形態では、中央部値は中央値とする。上記の通り、抽出された説明変数は、何行分かの説明変数であって、説明変数である項目は、「花弁の長さ」、「花弁の幅」、「ガクの長さ」、「ガクの幅」の4項目の説明変数である。従って4項目の項目ごとに何行分かをデータ収集し、このデータの中央値を求めることになる。 The central value calculation means 34 obtains the central value for the teacher measurement data of a plurality of items of the extracted explanatory variables. Here, the median value may be a value near the median value such as the median value, the average value, and the intermediate value between the median value and the average value. Here, by obtaining the central value, the numerical central value is obtained among the explanatory variables extracted by the extraction means 33, and the meaning of the extraction is enhanced. The various median values described above are theoretically possible, but the median value is preferable considering that it can be obtained by calculation. Therefore, in the present embodiment, the median value is set to the median value. As described above, the extracted explanatory variables are several lines of explanatory variables, and the items that are explanatory variables are "petal length", "petal width", "gaku length", and "gaku length". It is an explanatory variable of four items of "width of gaku". Therefore, data for several lines is collected for each of the four items, and the median value of this data is obtained.
基準値算出手段35は、上記中央値に基づきシャープレイ値である基準シャープレイ値を算出するものである。中央値は、4項目分求められている。そこで、4項目分の中央値、つまり、「花弁の長さ」、「花弁の幅」、「ガクの長さ」、「ガクの幅」の4項目についてのそれぞれの中央値を、シャープレイ値を求めるためのソフトウエアライブラリに投入して、シャープレイ値を求める。このライブラリは、Christoph Molnar が作成した「iml(Interpretable Machine Learning)」という名称のものを用いることができる。 The reference value calculation means 35 calculates a reference Shapley value, which is a Shapley value, based on the median value. The median is calculated for 4 items. Therefore, the median value for each of the four items, that is, the median value for each of the four items of "petal length", "petal width", "gaku length", and "gaku width", is the Shapley value. Put it in the software library to find the Shapley value. This library can use the one named "iml (Interpretable Machine Learning)" created by Christoph Molnar.
解析対象値算出手段36は、上記教師測定データと同じ測定処理により新たに測定された誤り或いは異常に影響しているかの解析対象である複数項目の解析用測定データに基づきシャープレイ値である解析対象シャープレイ値を算出するものである。この解析用測定データは、上記教師測定データと同じ測定処理により新たに測定されものであるから、「花弁の長さ」、「花弁の幅」、「ガクの長さ」、「ガクの幅」の4項目についての測定データである。この測定データについても上記と同じライブラリを用いることができる。 The analysis target value calculation means 36 is an analysis that is a shear play value based on the analysis measurement data of a plurality of items that are the analysis targets of whether or not the error or abnormality is newly measured by the same measurement process as the teacher measurement data. It calculates the target shear play value. Since this measurement data for analysis is newly measured by the same measurement process as the above teacher measurement data, "petal length", "petal width", "gaku length", and "gaku width" It is the measurement data about four items. The same library as above can be used for this measurement data.
影響説明変数検出手段37は、上記複数項目の同一項目毎に、上記基準シャープレイ値と上記解析対象シャープレイ値との比較値を求め、比較値の大きさに基づき、いずれの説明変数である項目の解析用測定データが誤りに影響しているか或いは異常に影響しているかを検出するものである。比較値としては、基準シャープレイ値から解析対象シャープレイ値を引いた誤差や、計測した誤差の割合である。この比較値が所定閾値よりも大きい場合には、当該項目の説明変数の影響により異常または誤りとなったものとの結果を出力する。
The influence explanatory
本発明の実施形態に係る異常・誤り影響説明変数検出装置100及び異常・誤り影響説明変数検出用プログラムは、ステップ処理モードと非ステップモードのいずれかで動作する。図15は、ステップ処理モードを説明する図である。異常・誤り影響説明変数検出装置100及び異常・誤り影響説明変数検出用プログラムは、異常・誤りを検出する対象装置の所定位置に図15に示すようなセンサA1、B1、C1、D1を設けて、第1工程の処理時刻にデータを得て、また第2工程の処理時刻にデータを得て、第3の工程の処理時刻にデータを得て、また、第1の工程の処理時刻にデータ得て、第2の工程の処理時刻にデータを得て、・・・という処理を繰り返すものに適用可能である。センサA1、B1、C1、D1は、例えば、温度、湿度、振動値などとすることができ、全てのセンサが同一の物理指標を得ても良いし、異なる物理指標を得るものであっても良い。
The abnormality / error effect explanatory
上記のような対象装置による第1工程の処理時刻(ステップ1)、第2の工程の処理時刻(ステップ2)、第3の工程の処理時刻(ステップ3)を、上記センサA1、B1、C1、D1の値から予測する予測モデル31では、予測時刻を予測(ステップ1、ステップ2、ステップ3のいずれかを予測)し、予測値(目的変数)が時刻からズレが生じる場合の誤差により異常・誤りを検出する。
The processing time of the first step (step 1), the processing time of the second step (step 2), and the processing time of the third step (step 3) by the target device as described above are set to the sensors A1, B1, and C1. , The
教師測定データと解析用測定データが、N(正整数)ステップで繰り返して得られるデータである場合に、上記抽出手段33は、前記求められた誤差の分布をステップ毎に求め、所定範囲にある誤差に対応する教師データの説明変数をステップ毎に抽出するステップ処理モードを備え、上記中央部値算出手段34、上記基準値算出手段35、上記解析対象値算出手段36、上記影響説明変数検出手段37は、ステップ毎に処理するステップ処理モードを備える。 When the teacher measurement data and the measurement data for analysis are data obtained repeatedly in N (positive integer) steps, the extraction means 33 obtains the distribution of the obtained error for each step and is within a predetermined range. A step processing mode for extracting explanatory variables of teacher data corresponding to an error is provided for each step, and the central value calculation means 34, the reference value calculation means 35, the analysis target value calculation means 36, and the influence explanatory variable detection means 37 includes a step processing mode for processing step by step.
図16は、本実施形態に係る異常・誤り影響説明変数検出装置100のステップ処理モードの動作手順をフローチャートに示したものである。本実施形態の説明においては、センサA1、B1、C1、D1による測定値を図2等に示した「花弁の長さ」、「花弁の幅」、「ガクの長さ」、「ガクの幅」の4項目とし、予測値は花の種類であり、「セトサ」を「1」、「バーシクル」を「2」、「バージニカ」を「3」とする。教師データTとして既に図13に示したものが用意されているものとする。
FIG. 16 is a flowchart showing an operation procedure of the step processing mode of the variable / error effect explanatory
そこで、CPU10は、誤差算出手段32として、上記予測モデル31に上記教師データTの説明変数を与えて目的変数を求め、与えた説明変数に対応する教師データの目的変数との誤差を求める(S11)。この処理は、上記教師データTの全てについて行われる。図17は、教師データTから誤差が求められるまでの処理を、データの内容の変遷を中心として示したものである。
Therefore, as the error calculating means 32, the
次に、CPU10は、抽出手段33として、上記誤差のステップ毎に誤差分布の平均値と標準偏差を求め、上記誤差の分布範囲の所定範囲にある誤差に対応する教師データの説明変数をステップ毎に抽出する(S12)。ここで、所定の範囲は、標準偏差σの1倍の範囲(即ち、(μ-σ)から(μ+σ)の範囲)にある誤差に対応する教師データの説明変数をステップ毎に抽出する。図18は、誤差分布の平均値と標準偏差を求め、上記誤差の分布範囲の所定範囲にある誤差に対応する教師データの説明変数をステップ毎に抽出し、中央値を得るまでの処理である。図19は抽出処理が行われた教師データを示す。上記の抽出結果、図19に示される教師データにおいて、図の横方向に空白となった行の説明変数が排除され、数値が残っている行の説明変数が抽出される。図18と図19では、ステップ1の誤差が示されているが、本実施形態では、ステップ2、3の誤差についても同様にして、(μ-σ)から(μ+σ)の範囲)にある誤差が抽出される。なお、図18は処理を示したものであり、図19は処理結果がどのようになるかを示したものであるため、これらの図に記載されている数値は一致していない。
Next, the
続いて、CPU10は、中央部値算出手段34として、抽出された説明変数の複数項目の教師測定データについて中央部値をステップ毎に求める(S13)。ここでは、中央部値は中央値とする。本実施形態では、ステップ1、ステップ2、ステップ3の3つの説明変数であり、それぞれが「花弁の長さ」、「花弁の幅」、「ガクの長さ」、「ガクの幅」の4項目について中央値が算出される。図18には、ステップ1の中央値が示されているが、本実施形態では、ステップ2、3の中央値についても同様にして求められる。
Subsequently, the
次に、CPU10は、基準値算出手段35として、上記ステップ毎の中央値に基づきシャープレイ値である基準シャープレイ値をステップ毎に算出する(S14)。図20は上記ステップ毎の中央値に基づきシャープレイ値である基準シャープレイ値をステップ毎に算出する、基準値算出手段35の処理を示す。ステップ1、ステップ2、ステップ3の3つの説明変数の基準シャープレイ値であり、それぞれが「花弁の長さ」、「花弁の幅」、「ガクの長さ」、「ガクの幅」の4項目について中央値から基準シャープレイ値が算出されている。
Next, the
更に、CPU10は、解析対象値算出手段36として、上記教師測定データと同様に測定を行い、解析対象である複数項目の解析用測定データを各ステップについて得て、この解析用測定データに基づきシャープレイ値である解析対象シャープレイ値をステップ毎に算出する(S15)。図21は、解析用測定データから算出された解析対象シャープレイ値と、影響説明変数検出手段37により求められた比較値を示す図である。解析対象シャープレイ値がステップ1、ステップ2、ステップ3毎に「花弁の長さ」、「花弁の幅」、「ガクの長さ」、「ガクの幅」の4項目について算出されている。
Further, the
次に、CPU10は、影響説明変数検出手段37として、複数項目の同一項目毎に、上記基準シャープレイ値と上記解析対象シャープレイ値との比較値をステップ毎に求め、比較値の大きさに基づき、いずれの説明変数である項目の解析用測定データが誤りに影響しているか或いは異常に影響しているかをステップ毎に検出する(S16)。
Next, the
図21は、本実施形態に係る異常・誤り影響説明変数検出装置100のステップ処理モードの動作において、解析用測定データから算出された解析対象シャープレイ値と、影響説明変数検出手段37により求められた比較値を示す図である。ここでは、図21に示されるように、比較値としては、基準シャープレイ値から解析対象シャープレイ値を引いた誤差と、計測した誤差の割合である比率が求められている。比率は、ステップ毎の誤差の合計に対して、「花弁の長さ」、「花弁の幅」、「ガクの長さ」、「ガクの幅」の4項目の誤差が占める割合のことであり、項目の誤差をステップ毎の誤差合計で除法することにより求める。この例では、ステップ2における「花弁の長さ」とステップ3における「花弁の幅」とが同じステップ内の比較値に比べて際立って大きく、例えば所定閾値を超えているため、この説明変数の項目が誤りに影響しているか或いは異常に影響していると結論付けて、図21では枠線により囲まれている。この実施形態の異常・誤り影響説明変数検出装置100が、誤りに影響しているか或いは異常に影響している説明変数の項目を実際に報知出力する場合には、「ステップ2では花弁の長さが、ステップ3では花弁の幅が異常に影響しています。」などと、文字により表示しても良い。なお、図21においてはステップ1における影響説明変数が求められていない理由は、予測モデル31による予測結果Fが図21に示されているように、ステップ2、3の予測値が、それぞれ2と3から大きく乖離し、異常或いは誤りを示すのに対し、ステップ1の予測値が1であり、異常或いは誤りとはなっていないためである。
FIG. 21 is obtained by the analysis target Shapley value calculated from the measurement data for analysis and the effect explanatory variable detection means 37 in the operation of the step processing mode of the abnormality / error effect explanatory
図22は、非ステップ処理モードに好適な測定データ形式と、異常・正常判定の手法を示す。非ステップ処理モードは、例えば、図22に示されるように製品No.を有する異なる製品の生産を行っているような場合に、製品には第1の部分のサイズ1と、第2の部分のサイズ2と、第3の部分のサイズ3があり、センサ1、センサ2、センサ3により、何らかの値を測定可能とする。サイズ1の値を目的変数とし、サイズ2、3との値、センサ1、2、3の測定値を説明変数として、サイズ1の値を予測する予測モデルに適用することが可能である。教師データでは、サイズ1の実測値を有しており、教師データの説明変数により予測モデルで予測したサイズ1の予測値との誤差が所定の製品を異常とする正常範囲Gを決定する。
FIG. 22 shows a measurement data format suitable for the non-step processing mode and a method for determining abnormality / normality. The non-step processing mode is, for example, as shown in FIG. 22, the product No. In the case of producing different products having the above, the product has a
図22に示すように、実測値と予測値の値が正常範囲Gにある製品を正常、正常範囲外となる製品を異常とする。このように、時刻の変化に依存しない測定データを測定して異常或いは誤りを予測するシステムに非ステップ処理モードを適用することが可能である。 As shown in FIG. 22, a product in which the measured value and the predicted value are in the normal range G is regarded as normal, and a product in which the measured value and the predicted value are out of the normal range is regarded as abnormal. In this way, it is possible to apply the non-step processing mode to a system that measures measurement data that does not depend on changes in time and predicts anomalies or errors.
この非ステップ処理モードを有する実施形態の異常・誤り影響説明変数検出装置100及び異常・誤り影響説明変数検出用プログラムは、図16のフローチャートにより説明したように、教師測定データと解析用測定データが、N(正整数)ステップで繰り返して得られるデータである場合に、次の手段が次のような構成を有する。即ち、用いる教師測定データと解析用測定データは図16において用いたものと同じである。抽出手段33は、求められた誤差の分布を全測定データに対し1つずつ求め、所定範囲にある誤差に対応する教師データの全説明変数から抽出する非ステップモードを備え、上記中央部値算出手段34、上記基準値算出手段35は、ステップに関わりなく処理する一方、上記解析対象値算出手段36、上記影響説明変数検出手段37は、ステップ毎に処理する非ステップモードを備える。
The abnormality / error effect explanatory
図23は、本実施形態に係る異常・誤り影響説明変数検出装置100のステップ処理モードの動作手順をフローチャートに示したものである。本実施形態の説明においては、センサA1、B1、C1、D1による測定値を図2等に示した「花弁の長さ」、「花弁の幅」、「ガクの長さ」、「ガクの幅」の4項目とし、予測値を花の種類であり、「セトサ」を「1」、「バーシクル」を「2」、「バージニカ」を「3」とする。教師データTとして既に図13に示したものが用意されているものとする。ここでは、ステップモードによる処理と非ステップモードによる処理との差異を明らかにするため、ステップモードによる処理の説明で用いたデータを用いて非ステップモードの処理を説明する。
FIG. 23 is a flowchart showing the operation procedure of the step processing mode of the variable / error effect explanatory
CPU10は、誤差算出手段32として、上記予測モデル31に上記教師データTの説明変数を与えて目的変数を求め、与えた説明変数に対応する教師データの目的変数との誤差を求める(S21)。この処理は、上記教師データTの全てについて行われる。図24は、教師データTから誤差が求められるまでの処理を、データの内容の変遷を中心として示したものである。
As the error calculating means 32, the
次に、CPU10は、抽出手段33は、上記誤差の全ステップ分教師データについて平均値と標準偏差を求め、上記誤差の分布範囲の所定範囲にある誤差の教師データの説明変数を全ステップに亘って抽出する(S22)。ここで、所定の範囲は、標準偏差σの1倍の範囲(即ち、(μ-σ)から(μ+σ)の範囲)にある誤差に対応する教師データの説明変数をステップ毎に抽出する。図25は、平均値と標準偏差を求め、上記誤差の分布範囲の所定範囲にある誤差に対応する教師データの説明変数をステップ毎に抽出し、中央値を得るまでの処理を示した図である。図26は抽出処理が行われた教師データを示す。ここに、図25は処理を示したものであり、図26は処理結果がどのようになるかを示したものであるため、これらの図に記載されている数値は一致していない。上記の抽出結果、図25に示される教師データにおいて、図の横方向に空白となった行の説明変数が排除され、データの数値が残っている行の説明変数が抽出される。
Next, the
続いて、CPU10は、中央部値算出手段34として、抽出された説明変数の複数項目の教師測定データについて全ステップの中央部値を求める(S23)。ここでは、中央部値は中央値とする。本実施形態では、ステップ1、ステップ2、ステップ3の3つの説明変数に別れているのであるが、全ステップで一括して、「花弁の長さ」、「花弁の幅」、「ガクの長さ」、「ガクの幅」の4項目について中央値が算出される。ここでは、各ステップの中央値は求めない。
Subsequently, the
次に、CPU10は、基準値算出手段35として、上記全ステップのデータについて一括して求めた中央値に基づきシャープレイ値である基準シャープレイ値を算出する(S24)。図27は全ステップのデータの中央値に基づきシャープレイ値である基準シャープレイ値を算出する、基準値算出手段35の処理を示す。ステップ1、ステップ2、ステップ3を一括した説明変数の中央値から求める基準シャープレイ値であり、「花弁の長さ」、「花弁の幅」、「ガクの長さ」、「ガクの幅」の4項目についてそれぞれ1つの中央値から基準シャープレイ値が算出されている。
Next, the
更に、CPU10は、解析対象値算出手段36として、上記教師測定データと同様に測定を行い、解析対象である複数項目の解析用測定データを各ステップについて得て、この解析用測定データに基づきシャープレイ値である解析対象シャープレイ値をステップ毎に算出する(S25)。図28は、解析用測定データから算出された解析対象シャープレイ値と、影響説明変数検出手段37により求められた比較値を示す図である。解析対象シャープレイ値がステップ1、ステップ2、ステップ3毎に「花弁の長さ」、「花弁の幅」、「ガクの長さ」、「ガクの幅」の4項目について算出されている。
Further, the
次に、CPU10は、影響説明変数検出手段37として、複数項目の同一項目毎に、上記基準シャープレイ値と上記解析対象シャープレイ値との比較値をステップ毎に求め、比較値の大きさに基づき、いずれの説明変数である項目の解析用測定データが誤りに影響しているか或いは異常に影響しているかをステップ毎に検出する(S26)。
Next, the
ここでは、図28に示されるように、比較値としては、基準シャープレイ値から解析対象シャープレイ値を引いた誤差と、計測した誤差の割合が求められている。この例では、ステップ2における「花弁の長さ」とステップ3における「花弁の長さ」とが同じステップ内の比較値に比べて際立って大きく、例えば所定閾値を超えているため、この説明変数の項目が誤りに影響しているか或いは異常に影響していると結論付けて、図28では枠線により囲まれている。この実施形態の異常・誤り影響説明変数検出装置100が、誤りに影響しているか或いは異常に影響している説明変数の項目を実際に報知出力する場合には、「ステップ2では花弁の長さが、ステップ3では花弁の長さが異常に影響しています。」などと、文字により表示しても良い。
Here, as shown in FIG. 28, as the comparison value, the ratio of the error obtained by subtracting the analysis target Shapley value from the reference Shapley value and the measured error is obtained. In this example, the "petal length" in
なお、図28においてはステップ1における影響説明変数が求められているが適切な結果が得られていない。その理由は、影響説明変数を、比較値が所定閾値を超えているか否かなどに基づき検出しているため、本実施形態で用いた解析用測定データと教師測定データが共にステップ毎にデータ構成が異なっていることから、適切な検出ができていない。即ち、ステップ1では「花弁の長さ」、「花弁の幅」における誤差と比率が、同じステップ内の比較値に比べて際立って大きく、例えば所定閾値を超えているため、この説明変数の項目が誤りに影響しているか或いは異常に影響していると結論付けて、「花弁の長さ」、「花弁の幅」の行を枠線により囲む処理をしている。
しかし、予測モデル31による予測結果Fが図28に示されているように、ステップ2、3の予測値が、それぞれ2と3から大きく乖離し、異常或いは誤りを示すのに対し、ステップ1の予測値が1であり、異常或いは誤りとはなっていない。異常或いは誤りが検出されていないステップS1において影響説明変数が検出されていることから、エラーと識別することが可能である。
In FIG. 28, the influence explanatory variable in
However, as the prediction result F by the
本発明に係る複数の実施形態を説明したが、これらの実施形態は例として提示するものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。 Although a plurality of embodiments according to the present invention have been described, these embodiments are presented as examples and are not intended to limit the scope of the invention. These novel embodiments can be implemented in various other embodiments, and various omissions, replacements, and changes can be made without departing from the gist of the invention. These embodiments and modifications thereof are included in the scope and gist of the invention, and are also included in the scope of the invention described in the claims and the equivalent scope thereof.
10・・・CPU、11・・・主メモリ、12・・・バス、13・・・外部記憶インタフェース、14・・・入力インタフェース、15・・・表示インタフェース、16・・・データ入力インタフェース、22・・・マウス、23・・・外部記憶装置、24・・・入力装置、25・・・表示装置、26-1~26-m・・・センサ、30・・・予測モデル作成手段、31・・・予測モデル、32・・・誤差算出手段、33・・・抽出手段、34・・・中央部値算出手段、35・・・基準値算出手段、36・・・解析対象値算出手段、37・・・影響説明変数検出手段、100・・・影響説明変数検出装置 10 ... CPU, 11 ... Main memory, 12 ... Bus, 13 ... External storage interface, 14 ... Input interface, 15 ... Display interface, 16 ... Data input interface, 22 ... Mouse, 23 ... External storage device, 24 ... Input device, 25 ... Display device, 26-1 to 26-m ... Sensor, 30 ... Predictive model creation means, 31. ... Prediction model, 32 ... Error calculation means, 33 ... Extraction means, 34 ... Central value calculation means, 35 ... Reference value calculation means, 36 ... Analysis target value calculation means, 37 ... Impact explanatory variable detection means, 100 ... Impact explanatory variable detection device
Claims (7)
前記予測モデルに前記複数セット用意された教師データの説明変数を与えて目的変数を求め、与えた説明変数に対応する教師データの目的変数との誤差を求める処理を前記教師データの全てについて行う誤差算出手段と、
前記求められた誤差の分布を求め、前記誤差の分布範囲の所定範囲にある誤差に対応する教師データの説明変数を抽出する抽出手段と、
前記抽出された説明変数の複数項目の教師測定データについて中央部値を求める中央部値算出手段と、
前記中央部値に基づきシャープレイ値である基準シャープレイ値を算出する基準値算出手段と、
前記教師測定データと同じ測定処理により新たに測定された誤り或いは異常に影響しているかの解析対象である複数項目の解析用測定データに基づきシャープレイ値である解析対象シャープレイ値を算出する解析対象値算出手段と、
前記複数項目の同一項目毎に、前記基準シャープレイ値と前記解析対象シャープレイ値との比較値を求め、比較値の大きさに基づき、いずれの説明変数である項目の解析用測定データが誤りに影響しているか或いは異常に影響しているかを検出する影響説明変数検出手段と
を具備することを特徴とする異常・誤り影響説明変数検出装置。 A plurality of sets of teacher identification data of a plurality of items, which are explanatory variables, and teacher identification data, which is one teacher identification data for identifying the teacher measurement data of the plurality of items and is an objective variable, are prepared. A prediction model created to obtain the objective variable from the explanatory variables by machine learning using the teacher data.
An error in which the objective variable is obtained by giving the explanatory variables of the teacher data prepared in a plurality of sets to the prediction model, and the error of the teacher data corresponding to the given explanatory variable is obtained for all of the teacher data. Calculation means and
An extraction means for obtaining the obtained error distribution and extracting explanatory variables of teacher data corresponding to the error within a predetermined range of the error distribution range.
A central value calculation means for obtaining a central value for teacher measurement data of a plurality of items of the extracted explanatory variables, and
A reference value calculation means for calculating a reference Shapley value, which is a Shapley value, based on the central value.
Analysis to calculate the analysis target shear play value, which is the shear play value, based on the analysis measurement data of multiple items that are the analysis target of whether it is affected by the error or abnormality newly measured by the same measurement process as the teacher measurement data. Target value calculation means and
For each of the same items of the plurality of items, the comparison value between the reference shear play value and the analysis target shear play value is obtained, and based on the magnitude of the comparison value, the measurement data for analysis of any of the explanatory variables is incorrect. An anomaly / error effect explanatory variable detection device comprising: an effect explanatory variable detecting means for detecting whether or not an abnormality is affected.
前記抽出手段は、前記求められた誤差の分布をステップ毎に求め、前記所定範囲にある誤差に対応する教師データの説明変数をステップ毎に抽出するステップ処理モードを備え、
前記中央部値算出手段、前記基準値算出手段、前記解析対象値算出手段、前記影響説明変数検出手段は、ステップ毎に処理するステップ処理モードを備えることを特徴とする請求項1に記載の異常・誤り影響説明変数検出装置。 When the teacher measurement data and the analysis measurement data are data obtained repeatedly in N (positive integer) steps,
The extraction means includes a step processing mode in which the distribution of the obtained error is obtained step by step, and the explanatory variables of the teacher data corresponding to the error in the predetermined range are extracted step by step.
The abnormality according to claim 1, wherein the central value calculation means, the reference value calculation means, the analysis target value calculation means, and the influence explanatory variable detection means include a step processing mode for processing step by step. -Error effect explanatory variable detector.
前記抽出手段は、前記求められた誤差の分布を全測定データに対し1つずつ求め、前記所定範囲にある誤差に対応する教師データの全説明変数から抽出する非ステップモードを備え、
前記中央部値算出手段、前記基準値算出手段は、ステップに関わりなく処理する一方、前記解析対象値算出手段、前記影響説明変数検出手段は、非ステップモードを備えることを特徴とする請求項2に記載の異常・誤り影響説明変数検出装置。 When the teacher measurement data and the analysis measurement data are data obtained repeatedly in N (positive integer) steps,
The extraction means includes a non-step mode in which the obtained error distribution is obtained one by one for all the measurement data and extracted from all the explanatory variables of the teacher data corresponding to the error in the predetermined range.
2. The central portion value calculating means and the reference value calculating means process regardless of the step, while the analysis target value calculating means and the influence explanatory variable detecting means include a non-step mode. Abnormality / error effect explanation variable detection device described in.
説明変数である複数項目の教師測定データと、前記複数項目の教師測定データを識別するための1つの教師識別データであって目的変数である教師識別データとの1セットデータが、複数セット用意された教師データを用いて、機械学習により前記説明変数から前記目的変数を求めるように作成された予測モデル、
前記予測モデルに前記複数セット用意された教師データの説明変数を与えて目的変数を求め、与えた説明変数に対応する教師データの目的変数との誤差を求める処理を前記教師データの全てについて行う誤差算出手段、
前記求められた誤差の分布を求め、前記誤差の分布範囲の所定範囲にある誤差に対応する教師データの説明変数を抽出する抽出手段、
前記抽出された説明変数の複数項目の教師測定データについて中央部値を求める中央部値算出手段、
前記中央部値に基づきシャープレイ値である基準シャープレイ値を算出する基準値算出手段、
前記教師測定データと同じ測定処理により新たに測定された誤り或いは異常に影響しているかの解析対象である複数項目の解析用測定データに基づきシャープレイ値である解析対象シャープレイ値を算出する解析対象値算出手段、
前記複数項目の同一項目毎に、前記基準シャープレイ値と前記解析対象シャープレイ値との比較値を求め、比較値の大きさに基づき、いずれの説明変数である項目の解析用測定データが誤りに影響しているか或いは異常に影響しているかを検出する影響説明変数検出手段
として機能させることを特徴とする異常・誤り影響説明変数検出用プログラム。 Computer,
A plurality of sets of teacher identification data of a plurality of items, which are explanatory variables, and teacher identification data, which is one teacher identification data for identifying the teacher measurement data of the plurality of items and is an objective variable, are prepared. A prediction model created to obtain the objective variable from the explanatory variables by machine learning using the teacher data.
An error in which the objective variable is obtained by giving the explanatory variables of the teacher data prepared in a plurality of sets to the prediction model, and the error of the teacher data corresponding to the given explanatory variable is obtained for all of the teacher data. Calculation method,
An extraction means for obtaining the obtained error distribution and extracting explanatory variables of teacher data corresponding to the error within a predetermined range of the error distribution range.
A central value calculation means for obtaining a central value for teacher measurement data of a plurality of items of the extracted explanatory variables.
A reference value calculation means for calculating a reference Shapley value, which is a Shapley value based on the central value.
Analysis to calculate the analysis target shear play value which is the shear play value based on the analysis measurement data of a plurality of items which are the analysis targets of whether it is affected by the error or abnormality newly measured by the same measurement process as the teacher measurement data. Target value calculation method,
For each of the same items of the plurality of items, the comparison value between the reference shear play value and the analysis target shear play value is obtained, and based on the magnitude of the comparison value, the measurement data for analysis of any of the explanatory variables is incorrect. An anomaly / error effect explanatory variable detection program characterized by functioning as an effect explanatory variable detection means for detecting whether or not an abnormality is affected.
前記コンピュータを、前記抽出手段として、前記求められた誤差の分布をステップ毎に求め、前記所定範囲にある誤差に対応する教師データの説明変数をステップ毎に抽出するステップモードで処理するように機能させ、
更に、前記コンピュータを、前記中央部値算出手段、前記基準値算出手段、前記解析対象値算出手段、前記影響説明変数検出手段として、ステップ毎に処理するステップモードで処理するように機能させることを特徴とする請求項5に記載の異常・誤り影響説明変数検出用プログラム。 When the teacher measurement data and the analysis measurement data are data obtained repeatedly in N (positive integer) steps,
Using the computer as the extraction means, the function is to obtain the distribution of the obtained error step by step and process it in a step mode in which the explanatory variables of the teacher data corresponding to the error in the predetermined range are extracted step by step. Let me
Further, the computer is made to function as the central value calculation means, the reference value calculation means, the analysis target value calculation means, and the influence explanatory variable detection means in a step mode for processing step by step. The program for detecting an abnormality / error effect explanatory variable according to claim 5.
前記コンピュータを、前記抽出手段として、前記求められた誤差の分布を全測定データに対し1つずつ求め、前記所定範囲にある誤差に対応する教師データの全説明変数から抽出する非ステップモードで処理するように機能させ、
前記コンピュータを、前記中央部値算出手段、前記基準値算出手段として、ステップに関わりなく処理するように動作させる一方、前記解析対象値算出手段、前記影響説明変数検出手段として、ステップ毎に処理するように動作させる非ステップモードとして機能させることを特徴とする請求項6に記載の異常・誤り影響説明変数検出用プログラム。
When the teacher measurement data and the analysis measurement data are data obtained repeatedly in N (positive integer) steps,
Using the computer as the extraction means, the distribution of the obtained error is obtained one by one for all the measurement data, and the computer is processed in a non-step mode of extracting from all the explanatory variables of the teacher data corresponding to the error in the predetermined range. To function and
The computer is operated as the central value calculation means and the reference value calculation means so as to be processed regardless of the step, while the analysis target value calculation means and the influence explanatory variable detection means are processed step by step. The program for detecting an abnormality / error effect explanatory variable according to claim 6, wherein the program is operated as a non-step mode.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020164127A JP7086497B2 (en) | 2020-09-29 | 2020-09-29 | Abnormality / error effect explanation variable detection device and abnormality / error effect explanation variable detection program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020164127A JP7086497B2 (en) | 2020-09-29 | 2020-09-29 | Abnormality / error effect explanation variable detection device and abnormality / error effect explanation variable detection program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022056227A JP2022056227A (en) | 2022-04-08 |
JP7086497B2 true JP7086497B2 (en) | 2022-06-20 |
Family
ID=80998875
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020164127A Active JP7086497B2 (en) | 2020-09-29 | 2020-09-29 | Abnormality / error effect explanation variable detection device and abnormality / error effect explanation variable detection program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7086497B2 (en) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019159365A (en) | 2018-03-07 | 2019-09-19 | 東芝情報システム株式会社 | State fluctuation detection apparatus and program for state fluctuation detection |
-
2020
- 2020-09-29 JP JP2020164127A patent/JP7086497B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019159365A (en) | 2018-03-07 | 2019-09-19 | 東芝情報システム株式会社 | State fluctuation detection apparatus and program for state fluctuation detection |
Non-Patent Citations (2)
Title |
---|
ANTWARG, Liat et al.,"Explaining Anomalies Detected by Autoencoders Using SHAP" [online],arXiv,2019年03月,[2022年01月20日検索],インターネット<URL:https://arxiv.org/abs/1903.02407v1>,1903.02407v1 |
横井 直明,ほか1名,"AIの予測結果に対する納得度を高める予測根拠解釈支援技術の提案",電子情報通信学会技術研究報告,一般社団法人電子情報通信学会,2019年03月10日,Vol.118,No.513,p.61-66 |
Also Published As
Publication number | Publication date |
---|---|
JP2022056227A (en) | 2022-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lieber et al. | Quality prediction in interlinked manufacturing processes based on supervised & unsupervised machine learning | |
JP4623387B2 (en) | Learning device and method, recognition device and method, and program | |
KR102471871B1 (en) | Method for segmenting time series data and apparatus thereof | |
US11657121B2 (en) | Abnormality detection device, abnormality detection method and computer readable medium | |
JP2017068748A (en) | Clustering program, clustering method, and information processing apparatus | |
WO2002031613A2 (en) | System and method for monitoring process quality control | |
KR102472637B1 (en) | Method for analyzing time series data, determining a key influence variable and apparatus supporting the same | |
Chen et al. | Data quality evaluation and improvement for prognostic modeling using visual assessment based data partitioning method | |
CN108647737A (en) | A kind of auto-adaptive time sequence variation detection method and device based on cluster | |
WO2021220342A1 (en) | Object recognition device, object recognition method, learning device, learning method, and recording medium | |
JP4723544B2 (en) | Substrate classification method and apparatus, program for causing a computer to execute the substrate classification method, and a computer-readable recording medium storing the program | |
Amram et al. | Interpretable predictive maintenance for hard drives | |
Jemima Jebaseeli et al. | Retinal blood vessel segmentation from depigmented diabetic retinopathy images | |
JP7131351B2 (en) | LEARNING METHOD, LEARNING PROGRAM AND LEARNING DEVICE | |
JP7086497B2 (en) | Abnormality / error effect explanation variable detection device and abnormality / error effect explanation variable detection program | |
US11393143B2 (en) | Process state analysis device and process state display method | |
EP4287083A1 (en) | Determination program, determination apparatus, and method of determining | |
JP6640765B2 (en) | State analysis device, state analysis method, and state analysis program | |
JP6961312B2 (en) | State change detection auxiliary device, state change detection device, state change detection auxiliary program, and state change detection program | |
JP7439467B2 (en) | Information processing devices, information processing systems, and model learning methods | |
Luca et al. | Anomaly detection using the Poisson process limit for extremes | |
JP7398641B2 (en) | Evaluation device, evaluation method and program | |
Taspinar | Diabetic Rethinopathy phase identification with deep features | |
US10692256B2 (en) | Visualization method, visualization device, and recording medium | |
JP7073432B2 (en) | Impact explanation variable identification device, impact explanation variable identification method and impact explanation variable identification program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210122 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20211124 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220201 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220325 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220607 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220607 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7086497 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |