JP2004349846A - Outlier detecting method - Google Patents

Outlier detecting method Download PDF

Info

Publication number
JP2004349846A
JP2004349846A JP2003142251A JP2003142251A JP2004349846A JP 2004349846 A JP2004349846 A JP 2004349846A JP 2003142251 A JP2003142251 A JP 2003142251A JP 2003142251 A JP2003142251 A JP 2003142251A JP 2004349846 A JP2004349846 A JP 2004349846A
Authority
JP
Japan
Prior art keywords
data
outlier
represented
distance
following equation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003142251A
Other languages
Japanese (ja)
Inventor
Hiromichi Kawano
弘道 川野
Yoko Hoshiai
擁湖 星合
Akiko Takahashi
彰子 高橋
Ken Nishimatsu
研 西松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003142251A priority Critical patent/JP2004349846A/en
Publication of JP2004349846A publication Critical patent/JP2004349846A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide an outlier detecting method capable of detecting an outlier even if data to be inspected do not follow normal distribution. <P>SOLUTION: The outlier detecting method of time series data having periodicity has a factor analyzing procedure for performing a factor analysis while considering that n items of data are data for a variable item in one period with an aggregation of data of one period as one sample; and an outlier determining procedure for defining a distance between samples with a factor score calculated by the factor analyzing procedure as an index indicating similarity between data, and determining whether or not it is an outlier on the basis of the distance. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

【0001】
【発明の属する技術分野】
本発明は、周期性のある時系列データの外れ値検出方法に係わり、本発明は、通信網の異常状態検出、誤測定データ検出に適用される。
【0002】
【従来の技術】
網設備管理・計画業務の遂行にあたり、基礎トラフィックを適切に算出するためには、トラフィックデータから異常値(外れ値)を自動検出して排除する必要がある。
従来の外れ値検出方法として、測定データが正規分布に従うことを仮定して、グラブス検定を適用して外れ値候補データを抽出する方法が知られている(下記、非特許文献1、2参照)。
従来の方法は、検定対象であるデータが正規分布に従うことを前提にしており、検定対象であるトラヒックデータが正規分布に従わない場合には適用できない。
音声通信を対象とした固定電話のトラヒックでは、測定データが正規分布に従うが、近年の非音声通信に代表されるブロードバンドトラヒックでは、測定データが正規分布に従う保証はない。
【0003】
なお、本願発明に関連する先行技術文献としては以下のものがある。
【非特許文献1】
井上,星合“設備管理用データを対象としたはずれ値検出方法”, 2001 信学ソ大,no,B−7−71,p.260,Sept.2001.
【非特許文献2】
星合,井上,”網設備計画用トラヒックデータの外れ値検出に関する一考察”,2002 信学総大,no.B−7−37,p.264、Mar.2002.
【0004】
【発明が解決しようとする課題】
前述したように、従来の方法は、検定対象であるデータが正規分布に従うことを前提にしており、そのため、検定対象であるトラヒックデータ(例えば、ブロードバンドトラヒックなど)が正規分布に従わない場合には適用できないという問題点があった。
前記従来技術の問題点を解決するためになされたものであり、本発明の目的は、検定対象であるデータが正規分布に従わない場合でも外れ値を検出することが可能な外れ値検出方法を提供することにある。
本発明の前記ならびにその他の目的と新規な特徴は、本明細書の記述及び添付図面によって明らかにする。
【0005】
【課題を解決するための手段】
本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、下記の通りである。
即ち、本発明は、周期性のある時系列データの外れ値検出方法であって、1周期分のデータの集まりを1サンプルとして、1周期内のn個のデータを変数項目に対するデータとみなして因子分析を行う因子分析手順と、前記因子分析手順で算出された因子得点をデータ間の類似度を表す指標としてサンプル間の距離を定義し、距離に基いて、外れ値であるかどうかを判定する外れ値判断手順とを有する。
また、本発明では、1周期がn個のデータから構成されるm周期分の時系列データ(X11,X12,X13,...,X1n,X21,X22,X23,...,X2n,...,Xm1,Xm2,Xm3,...,Xmn)から、n変量から成るm個の新たなデータ{Y,Y,...,Y、但し、Y=(Xi1,Xi2,Xi3,...,Xin)}を生成し、当該データ(Y,Y...,Y)に対して因子分析を行う。
【0006】
また、本発明では、p次元の因子で特徴づけられた各サンプルの因子得点を算出し、因子得点を用いてサンプル間の距離を算出することにより、外れ値を含むサンプルを検出する。
また、本発明では、p次元の因子で特徴づけられた各サンプルの因子得点を算出し、因子得点を用いてサンプルをクラスターに分類し、クラスター間の距離とクラスター内のサンプル数とを用いて、外れ値を含むサンプルを検出する。
また、本発明では、p次元の因子で特徴づけられた各サンプルの因子得点を算出し、因子得点を用いてサンプルをクラスターに分類し、クラスター間の距離とクラスター内のサンプル数の比率とを用いて、外れ値を含むサンプルを検出する。
【0007】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態を詳細に説明する。
なお、実施の形態を説明するための全図において、同一機能を有するものは同一符号を付け、その繰り返しの説明は省略する。
図1は、本発明の実施の形態の外れ値検出方法を実施するための外れ値検出装置の概略構成を示すブロック図である。
同図において、1は外れ値検出装置、2はデータ入力装置、3は因子分析装置、4は外れ値判断装置である。
データ入力装置2は、入力データ(1周期がn個のデータから構成されるm周期分の時系列データ)からn変量からなるm個のデータを生成する。
因子分析装置3は、n変量からなるm個の観測データを、p次元の因子に縮約しp個の因子得点を計算する。
外れ値判断装置4は、因子分析装置3の出力であるp個の因子得点より、各サンプル間の距離を算出し、各サンプルの中に外れ値が存在するか否かを判断する。
【0008】
図2は、本実施の形態の外れ値検出装置の処理手順を示すフローチャートである。以下、本実施の形態の外れ値検出装置の処理手順を説明する。
始めに、データ入力装置2が、入力データ(1周期がn個のデータから構成されるm周期分の時系列データ)からn変量からなるm個のデータを生成する(ステップS0)。
データ入力装置2は、下記(11)式で表される入力データ(1周期がn個のデータから構成されるm周期分の時系列データ)から、下記(12)式で表されるn変量から成るm個の新たなデータ(Y,Y,...,Y)を生成する。
【数5】

Figure 2004349846
次に、因子分析装置3が、n変量からなるm個の観測データ(前記(12)式で表されるデータ)に対して因子分析を行い、p個の因子得点を計算する(ステップS1)。
因子分析装置3は、m周期分の時系列データをn変最からなるm個の観測データとして因子分析を行うことで、前記(12)式におけるn個のデータ(Xi1,Xi2,Xi3,...,Xin)をp次元の因子に縮約し、p個の因子得点を計算する。
即ち、因子分析装置3は、前記(12)式の(Xi1,Xi2,Xi3,...,Xin)を標準化して、下記(13)式を算出する。
【0009】
【数6】
Figure 2004349846
Figure 2004349846
前記(13)式より、下記(14)式を求める。
【数7】
Figure 2004349846
次に、前記(14)式をn次元ベクトルとして、下記(15)式で表される分散共分散行列Rを求める。
【0010】
【数8】
Figure 2004349846
Figure 2004349846
【0011】
相関行列Rの固有値を求め、降順にλ,λ,....,λに並べ、固有値に対して、下記(16)式で表される寄与率(C)を求める。
【数9】
Figure 2004349846
Figure 2004349846
寄与率が0.8以上となる固有値(λ,λ,....,λ;但し、p≦n)を抽出し、下記(17)式で表される固有ベクトル(W,W,....,W)を求める。
【数10】
Figure 2004349846
前記固有ベクトルを用いて、下記(18)で表される因子負荷量を算出する。
【数11】
Figure 2004349846
最小2剰法によって、下記(19)式を最小にするfijを求める。
【0012】
【数12】
Figure 2004349846
Figure 2004349846
ijより、下記(20)式を求める。
【数13】
Figure 2004349846
この(20)式は、因子得点と呼ばれ、前記(12)式におけるn個のデータ(Xi1,Xi2,Xi3,...,Xin)を、P個(P<n)の共通する変数で表現したときの変数であり、前記(12)式を、P個の潜在変数で表現したものである。
次に、外れ値判断装置4が、p個の因子得点を用いてm個のデータ間の距離を求め、外れ値を検出する(ステップS2)。
外れ値判断装置4の判断手法は3つあり、一番目の判断手法(請求項3に記載の発明)は、前記(20)式で表されるデータ(F,F,...,F)に対し、データ間の距離を、下記(21)式で与え、当該(21)式より、下記(22)式を算出し、下記(23)式を満たす時、データYiは外れ値であると判断する。
【0013】
【数14】
Figure 2004349846
【0014】
外れ値判断装置4の二番目の判断手法(請求項4に記載の発明)は、前記(20)式で表されるデータ(F,F,...,F)にクラスター分析を適用し、m個のデータ(F,F,...,F)を、下記(24)式で表されるq個のクラスターに分類する。
【数15】
C1,C2,...,Cq ・・・・・・・・・・・・・・・・・・・・ (24)
例えば、初期値として、1つのデータを構成単位とするm個のクラスター{F}、{F},...,{F}を設定する。
m個のクラスター(C1,C2,...,Cm)に対して、非類似度行列dij(i,j=1,2,...,m)を、最短距離法、最長距離法、群平均法、重心法、ウォード法等を用いて計算する。
例えば、最短距離法の場合、クラスターCi、Cjの非類似度行列dijは、クラスターCi、Cj内の構成要素を、それぞれ(F,F,...,F)、(F’,F’,...,F’)とすると、下記(25)式により表される。
【数16】
Figure 2004349846
ここで、Lijは、クラスターを構成する要素(F,F’)間の距離で、ユークリッド平方距離、マハラビノスの距離、シンコフスキー距離等がある。
ユークリッド平方距離の場合、Lijは、下記(26)式で与えられる。
【0015】
【数17】
Figure 2004349846
Figure 2004349846
非類似度行列dijの全ての値がしきい値D’よりも大きければ、クラスター分析を終了する。そうでなければ、非類似度行列dijが最も小さいクラスターCi、Cjとを融合して、1つのクラスターを生成する。
この処理によって、新しく生成された(m−1)個のクラスターに対して、非類似度行列dij(i,j=1,2,...,m−1)を計算し、非類似度行列dijの全ての値がしきい値D’よりも大きくなるまで前述の処理を続行する。これにより、前述の(24)式で表されるクラスターに分類する。
そして、下記(27)式で表されるクラスター間距離Lijを、最短距離法、最長距離法、群平均法、重心法、メジアン法、ウォード法のいずれかの方法を用いて求め、下記(28)式を満たすクラスターCiが存在すれば、Ciに属するデータYiは外れ値であると判断する。
【数18】
Lij=D(F、F) ・・・・・・・・・・・・・・・・・・ (27)
Lij>T、かつ、|Ci|>|Cj|、但し、Tはしきい値、|Ci|はクラ
スターCiの要素の数 ・・・・・・・・・・・・・・・・・・・ (28)
【0016】
外れ値判断装置4の三番目の判断手法(請求項5に記載の発明)は、前記(20)式で表されるデータ(F,F,...,F)にクラスター分析を適用し、m個のデータ(F,F,...,F)を、前記(24)式で表されるq個のクラスターに分類し、前記(27)式で表されるクラスター間距離Lijを、最短距離法、最長距離法、群平均法、重心法、メジアン法、ウォード法のいずれかの方法を用いて求め、下記(29)式を満たすクラスターCiが存在すれば、Ciに属するデータYiは外れ値であると判断する。
【数19】
Figure 2004349846
以上、本発明者によってなされた発明を、前記実施の形態に基づき具体的に説明したが、本発明は、前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲において種々変更可能であることは勿論である。
【0017】
【発明の効果】
本願において開示される発明のうち代表的なものによって得られる効果を簡単に説明すれば、下記の通りである。
本発明の外れ値検出方法によれば、検定対象であるデータが正規分布に従わない場合でも外れ値を検出することが可能となる。
【図面の簡単な説明】
【図1】本発明の実施の形態の外れ値検出方法を実施するための外れ値検出装置の概略構成を示すブロック図である。
【図2】本発明の実施の形態の外れ値検出装置の処理手順を示すフローチャートである。
【符号の説明】
1…外れ値検出装置、2…入力装置、3…因子分析装置、4…外れ値判断装置。[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a method for detecting outliers of time-series data having periodicity, and the present invention is applied to detection of an abnormal state of a communication network and detection of erroneously measured data.
[0002]
[Prior art]
In performing network equipment management and planning work, it is necessary to automatically detect and remove abnormal values (outliers) from traffic data in order to properly calculate basic traffic.
As a conventional outlier detection method, there is known a method of extracting outlier candidate data by applying a Grubbs test, assuming that measurement data follows a normal distribution (see Non-Patent Documents 1 and 2 below). .
The conventional method is based on the premise that data to be tested follows a normal distribution, and cannot be applied when traffic data to be tested does not follow a normal distribution.
In fixed-line telephone traffic for voice communication, measurement data follows a normal distribution, but in broadband traffic represented by recent non-voice communication, there is no guarantee that measurement data follows a normal distribution.
[0003]
Prior art documents related to the present invention include the following.
[Non-patent document 1]
Inoue, Hoshiai "Outlier detection method for equipment management data", 2001 IEICE, No. B-7-71, p. 260, Sept. 2001.
[Non-patent document 2]
Hoshiai, Inoue, "A Consideration on Outlier Detection of Traffic Data for Network Equipment Planning", 2002 IEICE, no. B-7-37, p. 264, Mar. 2002.
[0004]
[Problems to be solved by the invention]
As described above, the conventional method is based on the premise that the data to be tested follows a normal distribution. Therefore, if the traffic data to be tested (for example, broadband traffic) does not follow a normal distribution, There was a problem that it could not be applied.
An object of the present invention is to provide an outlier detection method capable of detecting an outlier even when data to be tested does not follow a normal distribution. To provide.
The above and other objects and novel features of the present invention will become apparent from the description of the present specification and the accompanying drawings.
[0005]
[Means for Solving the Problems]
The following is a brief description of an outline of typical inventions disclosed in the present application.
That is, the present invention is a method for detecting outliers of time-series data having periodicity, wherein a set of data for one cycle is taken as one sample, and n data in one cycle are regarded as data for a variable item. A factor analysis procedure for performing a factor analysis, and a distance between samples is defined as an index indicating a similarity between data using the factor score calculated in the factor analysis procedure, and it is determined whether or not an outlier is based on the distance. Outlier determination procedure.
Further, in the present invention, time-series data (X 11 , X 12 , X 13 ,..., X 1n , X 21 , X 22 , X 23 ,... , X 2n ,..., X m1 , X m2 , X m3 ,..., X mn ), m new data {Y 1 , Y 2 ,. . . , Y m , where Y i = (X i1 , X i2 , X i3 ,..., X in )}, and generates a factor for the data (Y 1 , Y 2 ..., Y m ). Perform analysis.
[0006]
Further, in the present invention, a sample including an outlier is detected by calculating a factor score of each sample characterized by a p-dimensional factor, and calculating a distance between the samples using the factor score.
Further, in the present invention, a factor score of each sample characterized by a p-dimensional factor is calculated, the sample is classified into clusters using the factor score, and the distance between clusters and the number of samples in the cluster are used. , Detect samples containing outliers.
Further, in the present invention, a factor score of each sample characterized by a p-dimensional factor is calculated, the samples are classified into clusters using the factor score, and the distance between clusters and the ratio of the number of samples in the cluster are calculated. To detect samples containing outliers.
[0007]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
In all the drawings for describing the embodiments, components having the same function are denoted by the same reference numerals, and repeated description thereof will be omitted.
FIG. 1 is a block diagram showing a schematic configuration of an outlier detection apparatus for implementing an outlier detection method according to an embodiment of the present invention.
In the figure, 1 is an outlier detection device, 2 is a data input device, 3 is a factor analyzer, and 4 is an outlier determination device.
The data input device 2 generates m pieces of data composed of n variables from input data (time-series data for m cycles in which one cycle is composed of n pieces of data).
The factor analyzer 3 reduces m observation data consisting of n variables into p-dimensional factors, and calculates p factor scores.
The outlier determining unit 4 calculates the distance between each sample from p factor scores output from the factor analyzer 3, and determines whether or not an outlier exists in each sample.
[0008]
FIG. 2 is a flowchart illustrating a processing procedure of the outlier detection apparatus according to the present embodiment. Hereinafter, a processing procedure of the outlier detection apparatus according to the present embodiment will be described.
First, the data input device 2 generates m pieces of data composed of n variables from input data (time-series data for m cycles, where one cycle is composed of n pieces of data) (step S0).
The data input device 2 converts the input data (time-series data for m periods in which one period is composed of n data) represented by the following expression (11) into an n-variate represented by the following expression (12). M new data (Y 1 , Y 2 ,..., Y m ) are generated.
(Equation 5)
Figure 2004349846
Next, the factor analyzer 3 performs factor analysis on m observation data (data represented by the above equation (12)) consisting of n variables, and calculates p factor scores (step S1). .
The factor analysis device 3 performs the factor analysis on the m-series time-series data as m observation data consisting of n-variable maximums, thereby obtaining the n data (X i1 , X i2 , X i ) in the equation (12). i3, ..., contracted the X in) the factor of p-dimensional, to calculate the p number of factor scores.
That is, the factor analyzer 3 standardizes (X i1 , X i2 , X i3 ,..., X in ) of the above equation (12) and calculates the following equation (13).
[0009]
(Equation 6)
Figure 2004349846
Figure 2004349846
The following equation (14) is obtained from the above equation (13).
(Equation 7)
Figure 2004349846
Next, a variance-covariance matrix R expressed by the following equation (15) is obtained by using the equation (14) as an n-dimensional vector.
[0010]
(Equation 8)
Figure 2004349846
Figure 2004349846
[0011]
The eigenvalues of the correlation matrix R are determined, and λ 1 , λ 2 ,. . . . , Arranged in lambda n, determined with respect to the eigenvalue contribution rate expressed by the following equation (16) to (C i).
(Equation 9)
Figure 2004349846
Figure 2004349846
Eigenvalues (λ 1 , λ 2 ,..., Λ p ; p ≦ n) at which the contribution ratio is 0.8 or more are extracted, and eigenvectors (W 1 , W 1 ) expressed by the following equation (17) are extracted. 2 , ..., W p ).
(Equation 10)
Figure 2004349846
Using the eigenvector, a factor load represented by the following (18) is calculated.
(Equation 11)
Figure 2004349846
By least-over - method, seek f ij to minimize the following expression (19).
[0012]
(Equation 12)
Figure 2004349846
Figure 2004349846
The following equation (20) is obtained from f ij .
(Equation 13)
Figure 2004349846
The expression (20) is called a factor score, and the n data (X i1 , X i2 , X i3 ,..., X in ) in the expression (12) are replaced by P (P <n) data. This is a variable when expressed by a common variable, and is obtained by expressing the equation (12) with P latent variables.
Next, the outlier determination device 4 calculates the distance between the m pieces of data using the p factor scores, and detects outliers (step S2).
There are three determination methods of the outlier determination device 4, and the first determination method (the invention according to claim 3) is the data (F 1 , F 2 ,. F m ), the distance between data is given by the following equation (21), the following equation (22) is calculated from the equation (21), and when the following equation (23) is satisfied, the data Yi is an outlier. Is determined.
[0013]
[Equation 14]
Figure 2004349846
[0014]
The second judgment method of the outlier judgment device 4 (the invention according to claim 4) performs a cluster analysis on the data (F 1 , F 2 ,..., F m ) represented by the expression (20). By applying this, m data (F 1 , F 2 ,..., F m ) are classified into q clusters represented by the following equation (24).
(Equation 15)
C1, C2,. . . , Cq (24)
For example, as an initial value, m clusters {F 1 }, {F 2 },. . . , {F m }.
For the m clusters (C1, C2, ..., Cm), the dissimilarity matrix dij (i, j = 1, 2, ..., m) is calculated using the shortest distance method, the longest distance method, Calculate using group average method, centroid method, Ward method, etc.
For example, in the case of the shortest distance method, the dissimilarity matrix d ij of the clusters Ci and Cj represents the components in the clusters Ci and Cj as (F 1 , F 2 ,..., F i ) and (F ′), respectively. 1 , F ′ 2 ,..., F ′ j ), is represented by the following equation (25).
(Equation 16)
Figure 2004349846
Here, L ij is a distance between elements (F i , F ′ j ) constituting the cluster, and includes a Euclidean square distance, a Mahalanobis distance, a Sinkovsky distance, and the like.
In the case of the Euclidean square distance, L ij is given by the following equation (26).
[0015]
[Equation 17]
Figure 2004349846
Figure 2004349846
If all the values of the dissimilarity matrix dij are larger than the threshold value D ', the cluster analysis ends. Otherwise, one cluster is generated by fusing the clusters Ci and Cj with the smallest dissimilarity matrix dij .
By this processing, the dissimilarity matrix d ij (i, j = 1, 2,..., M−1) is calculated for the (m−1) newly generated clusters, and the dissimilarity is calculated. The above processing is continued until all the values of the matrix d ij become larger than the threshold value D ′. As a result, the cluster is classified into the cluster represented by the above equation (24).
Then, the inter-cluster distance Lij expressed by the following equation (27) is obtained by using any of the shortest distance method, the longest distance method, the group averaging method, the center of gravity method, the median method, and the Ward method. If there is a cluster Ci that satisfies the expression, it is determined that the data Yi belonging to Ci is an outlier.
(Equation 18)
Lij = D (F i , F j ) (27)
Lij> T and | Ci |> | Cj |, where T is a threshold value and | Ci | is the number of elements of the cluster Ci.・ (28)
[0016]
The third determination method (the invention according to claim 5) of the outlier determination device 4 performs a cluster analysis on the data (F 1 , F 2 ,..., F m ) represented by the expression (20). The m data (F 1 , F 2 ,..., F m ) are classified into q clusters represented by the above equation (24), and the cluster represented by the above equation (27) is applied. The distance Lij is obtained by using any of the shortest distance method, the longest distance method, the group averaging method, the centroid method, the median method, and the Ward method. If there is a cluster Ci satisfying the following expression (29), Ci is obtained. Are determined to be outliers.
[Equation 19]
Figure 2004349846
As described above, the invention made by the inventor has been specifically described based on the embodiment. However, the present invention is not limited to the embodiment, and can be variously modified without departing from the gist of the invention. Needless to say,
[0017]
【The invention's effect】
The following is a brief description of an effect obtained by a representative one of the inventions disclosed in the present application.
According to the outlier detection method of the present invention, it is possible to detect an outlier even when data to be tested does not follow a normal distribution.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a schematic configuration of an outlier detection apparatus for implementing an outlier detection method according to an embodiment of the present invention.
FIG. 2 is a flowchart illustrating a processing procedure of the outlier detection apparatus according to the embodiment of the present invention.
[Explanation of symbols]
1 outlier detection device, 2 input device, 3 factor analyzer, 4 outlier determination device.

Claims (5)

周期性のある時系列データの外れ値検出方法であって、
1周期分のデータの集まりを1サンプルとして、1周期内のn個のデータを変数項目に対するデータとみなして因子分析を行う因子分析手順と、
前記因子分析手順で算出された因子得点をデータ間の類似度を表す指標としてサンプル間の距離を定義し、距離に基いて、外れ値であるかどうかを判定する外れ値判断手順とを有することを特徴とする外れ値検出方法。
An outlier detection method for time-series data having periodicity,
A factor analysis procedure for performing a factor analysis by regarding a set of data for one cycle as one sample and treating n data in one cycle as data for a variable item;
An outlier determination step of defining a distance between samples using the factor score calculated in the factor analysis procedure as an index indicating a degree of similarity between data, and determining whether or not an outlier is based on the distance. An outlier detection method characterized by the following.
前記因子分析手順において、下記(1)式で表される1周期がn個のデータから構成されるm周期分の時系列データから、下記(2)式で表されるn変量から成るm個の新たなデータ(Y,Y,...,Y)を生成し、当該データ(Y,Y...,Y)に対して因子分析を行うことを特徴とする請求項1に記載の外れ値検出法。
Figure 2004349846
In the factor analysis procedure, from time-series data for m periods in which one period represented by the following equation (1) is composed of n data, m data composed of n variables represented by the following equation (2) are obtained. Generating new data (Y 1 , Y 2 ,..., Y m ), and performing a factor analysis on the data (Y 1 , Y 2, ..., Y m ). Item 1. The outlier detection method according to Item 1.
Figure 2004349846
前記因子分析手順において、前記(2)式で表されるデータに対して因子分析を行い、前記因子得点として、下記(3)式で表されるデータであって、前記(2)式で表されるデータ(Y,Y,...,Y)をp(p<n)個の潜在変数で表現したデータ(F,F,...,F)を求め、
前記外れ値判断手順において、下記(3)式で与えられるデータに対して、下記(4)式によりデータ間の距離を定義し、当該(4)式より下記(5)式を算出し、当該(5)式が下記(6)式を満たす時、データYiは外れ値であると判断することを特徴とする請求項2に記載の外れ値検出法。
Figure 2004349846
In the factor analysis procedure, a factor analysis is performed on the data represented by the formula (2), and the factor score is data represented by the following formula (3), which is expressed by the formula (2). (F 1 , F 2 ,..., F m ) is obtained by expressing the data (Y 1 , Y 2 ,..., Y m ) represented by p (p <n) latent variables.
In the outlier determination procedure, a distance between data is defined by the following equation (4) for the data given by the following equation (3), and the following equation (5) is calculated from the equation (4). The outlier detection method according to claim 2, wherein when the expression (5) satisfies the following expression (6), the data Yi is determined to be an outlier.
Figure 2004349846
前記外れ値判断手順において、前記(3)式で表されるデータにクラスター分析を適用し、m個のデータ(F,F,...,F)を、下記(7)式で表されるq個のクラスターに分類し、
下記(8)式で表されるクラスター間距離Lijを、最短距離法、最長距離法、群平均法、重心法、メジアン法、ウォード法のいずれかの方法を用いて求め、
下記(9)式を満たすクラスターCiが存在すれば、Ciに属するデータYiは外れ値であると判断することを特徴とする請求項3に記載の外れ値検出法。
【数3】
C1,C2,...,Cq ・・・・・・・・・・・・・・・・・・・・ (7)
Lij=D(F、F) ・・・・・・・・・・・・・・・・・・・ (8)
Lij>T、かつ、|Ci|>|Cj|、但し、Tはしきい値、|Ci|はクラ
スターCiの要素の数 ・・・・・・・・ ・・・・・・・・・・・ (9)
In the outlier determination procedure, cluster analysis is applied to the data represented by the above equation (3), and m pieces of data (F 1 , F 2 ,..., F m ) are calculated by the following equation (7). Classify into q clusters represented,
The inter-cluster distance Lij represented by the following equation (8) is obtained by using any one of the shortest distance method, the longest distance method, the group average method, the center of gravity method, the median method, and the Ward method,
4. The outlier detection method according to claim 3, wherein if there is a cluster Ci satisfying the following equation (9), the data Yi belonging to Ci is determined to be an outlier.
[Equation 3]
C1, C2,. . . , Cq (7)
Lij = D (F i , F j ) (8)
Lij> T and | Ci |> | Cj |, where T is a threshold value and | Ci | is the number of elements of the cluster Ci.・ (9)
前記外れ値判断手順において、前記(3)式で表されるデータにクラスター分析を適用し、m個のデータ(F,F,...,Y)を、下記(7)式で表されるq個のクラスターに分類し、
下記(8)式で表されるクラスター間距離Lijを、最短距離法、最長距離法、群平均法、重心法、メジアン法、ウォード法のいずれかの方法を用いて求め、
下記(10)式を満たすクラスターCiが存在すれば、Ciに属するデータYiは外れ値であると判断することを特徴とする請求項3に記載の外れ値検出法。
Figure 2004349846
In the outlier determination procedure, a cluster analysis is applied to the data expressed by the above equation (3), and m pieces of data (F 1 , F 2 ,..., Y m ) are expressed by the following equation (7). Classify into q clusters represented,
The inter-cluster distance Lij represented by the following equation (8) is obtained by using any one of the shortest distance method, the longest distance method, the group average method, the center of gravity method, the median method, and the Ward method,
4. The outlier detection method according to claim 3, wherein if there is a cluster Ci satisfying the following expression (10), the data Yi belonging to Ci is determined to be an outlier.
Figure 2004349846
JP2003142251A 2003-05-20 2003-05-20 Outlier detecting method Pending JP2004349846A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003142251A JP2004349846A (en) 2003-05-20 2003-05-20 Outlier detecting method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003142251A JP2004349846A (en) 2003-05-20 2003-05-20 Outlier detecting method

Publications (1)

Publication Number Publication Date
JP2004349846A true JP2004349846A (en) 2004-12-09

Family

ID=33530396

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003142251A Pending JP2004349846A (en) 2003-05-20 2003-05-20 Outlier detecting method

Country Status (1)

Country Link
JP (1) JP2004349846A (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009086791A (en) * 2007-09-28 2009-04-23 Hitachi Ltd Software product line analyzer
JP2009253362A (en) * 2008-04-01 2009-10-29 Mitsubishi Electric Corp Network performance prediction system, network performance prediction method, and program
US10778707B1 (en) 2016-05-12 2020-09-15 Amazon Technologies, Inc. Outlier detection for streaming data using locality sensitive hashing
US10902062B1 (en) 2017-08-24 2021-01-26 Amazon Technologies, Inc. Artificial intelligence system providing dimension-level anomaly score attributions for streaming data
US11232085B2 (en) 2016-01-07 2022-01-25 Amazon Technologies, Inc. Outlier detection for streaming data
CN115809435A (en) * 2023-02-06 2023-03-17 山东星科智能科技股份有限公司 Simulator-based automobile operation fault identification method
CN116879662A (en) * 2023-09-06 2023-10-13 山东华尚电气有限公司 Transformer fault detection method based on data analysis

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009086791A (en) * 2007-09-28 2009-04-23 Hitachi Ltd Software product line analyzer
JP2009253362A (en) * 2008-04-01 2009-10-29 Mitsubishi Electric Corp Network performance prediction system, network performance prediction method, and program
US11232085B2 (en) 2016-01-07 2022-01-25 Amazon Technologies, Inc. Outlier detection for streaming data
US10778707B1 (en) 2016-05-12 2020-09-15 Amazon Technologies, Inc. Outlier detection for streaming data using locality sensitive hashing
US10902062B1 (en) 2017-08-24 2021-01-26 Amazon Technologies, Inc. Artificial intelligence system providing dimension-level anomaly score attributions for streaming data
CN115809435A (en) * 2023-02-06 2023-03-17 山东星科智能科技股份有限公司 Simulator-based automobile operation fault identification method
CN116879662A (en) * 2023-09-06 2023-10-13 山东华尚电气有限公司 Transformer fault detection method based on data analysis
CN116879662B (en) * 2023-09-06 2023-12-08 山东华尚电气有限公司 Transformer fault detection method based on data analysis

Similar Documents

Publication Publication Date Title
TWI677852B (en) A method and apparatus, electronic equipment, computer readable storage medium for extracting image feature
Ravikumar et al. Machine learning approach for automated visual inspection of machine components
Erdoğan et al. COVID-19 detection with traditional and deep features on cough acoustic signals
TWI639824B (en) Method, apparatus, and non-transitory computer readable storage medium for integration of automatic and manual defect classification
JP5854274B2 (en) Information processing apparatus and method, and program
CN110287439A (en) A kind of network behavior method for detecting abnormality based on LSTM
JP6543066B2 (en) Machine learning device
JP6183450B2 (en) System analysis apparatus and system analysis method
US20140149430A1 (en) Method of detecting overlapping community in network
CN102507676B (en) On-line drift compensation method of electronic nose based on multiple self-organizing neural networks
WO2014132611A1 (en) System analysis device and system analysis method
CN109521725A (en) The method, apparatus and equipment and machine readable media of detection abnormal data
KR102362872B1 (en) Method for refining clean labeled data for artificial intelligence training
Lin PCA/SVM‐based method for pattern detection in a multisensor system
CN107016416B (en) Data classification prediction method based on neighborhood rough set and PCA fusion
CN109101661A (en) The detection method and device of abnormal point in a kind of data sample set
CN108470194B (en) Feature screening method and device
JP6200076B2 (en) Method and system for evaluating measurements obtained from a system
CN113242213A (en) Power communication backbone network node vulnerability diagnosis method
JP2004349846A (en) Outlier detecting method
CN115905990A (en) Transformer oil temperature abnormity monitoring method based on density aggregation algorithm
Ganguli Data rectification and detection of trend shifts in jet engine path measurements using median filters and fuzzy logic
JP3650572B2 (en) Time series data classification device
CN109376799A (en) A kind of time series early stage classification method and equipment based on diversity shapelet
JP2018124667A (en) Production process analyzing apparatus and production management system using the same