JP2004349852A - 外れ値検出方法 - Google Patents

外れ値検出方法 Download PDF

Info

Publication number
JP2004349852A
JP2004349852A JP2003142294A JP2003142294A JP2004349852A JP 2004349852 A JP2004349852 A JP 2004349852A JP 2003142294 A JP2003142294 A JP 2003142294A JP 2003142294 A JP2003142294 A JP 2003142294A JP 2004349852 A JP2004349852 A JP 2004349852A
Authority
JP
Japan
Prior art keywords
data
outlier
represented
principal component
following equation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003142294A
Other languages
English (en)
Inventor
Hiromichi Kawano
弘道 川野
Yoko Hoshiai
擁湖 星合
Akiko Takahashi
彰子 高橋
Ken Nishimatsu
研 西松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003142294A priority Critical patent/JP2004349852A/ja
Publication of JP2004349852A publication Critical patent/JP2004349852A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

【課題】検定対象であるデータが正規分布に従わない場合でも外れ値を検出することが可能な外れ値検出方法を提供する。
【解決手段】周期性のある時系列データの外れ値検出方法であって、1周期分のデータの集まりを1サンプルとして、1周期内のn個のデータを変数項目に対するデータとみなして主成分分析を行う主成分分析手順と、前記主成分分析手順で算出された主成分得点をデータ間の類似度を表す指標としてサンプル間の距離を定義し、距離に基いて、外れ値であるかどうかを判定する外れ値判断手順とを有する。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、周期性のある時系列データの外れ値検出方法に係わり、本発明は、通信網の異常状態検出、誤測定データ検出に適用される。
【0002】
【従来の技術】
網設備管理・計画業務の遂行にあたり、基礎トラフィックを適切に算出するためには、トラフィックデータから異常値(外れ値)を自動検出して排除する必要がある。
従来の外れ値検出方法として、測定データが正規分布に従うことを仮定して、グラブス検定を適用して外れ値候補データを抽出する方法が知られている(下記、非特許文献1、2参照)。
従来の方法は、検定対象であるデータが正規分布に従うことを前提にしており、検定対象であるトラヒックデータが正規分布に従わない場合には適用できない。
音声通信を対象とした固定電話のトラヒックでは、測定データが正規分布に従うが、近年の非音声通信に代表されるブロードバンドトラヒックでは、測定データが正規分布に従う保証はない。
【0003】
なお、本願発明に関連する先行技術文献としては以下のものがある。
【非特許文献1】
井上,星合“設備管理用データを対象としたはずれ値検出方法”, 2001 信学ソ大,no,B−7−71,p.260,Sept.2001.
【非特許文献2】
星合,井上,”網設備計画用トラヒックデータの外れ値検出に関する一考察”,2002 信学総大,no.B−7−37,p.264、Mar.2002.
【0004】
【発明が解決しようとする課題】
前述したように、従来の方法は、検定対象であるデータが正規分布に従うことを前提にしており、そのため、検定対象であるトラヒックデータ(例えば、ブロードバンドトラヒックなど)が正規分布に従わない場合には適用できないという問題点があった。
前記従来技術の問題点を解決するためになされたものであり、本発明の目的は、検定対象であるデータが正規分布に従わない場合でも外れ値を検出することが可能な外れ値検出方法を提供することにある。
本発明の前記ならびにその他の目的と新規な特徴は、本明細書の記述及び添付図面によって明らかにする。
【0005】
【課題を解決するための手段】
本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、下記の通りである。
即ち、本発明は、周期性のある時系列データの外れ値検出方法であって、1周期分のデータの集まりを1サンプルとして、1周期内のn個のデータを変数項目に対するデータとみなして主成分分析を行う主成分分析手順と、前記主成分分析手順で算出された主成分得点をデータ間の類似度を表す指標としてサンプル間の距離を定義し、距離に基いて、外れ値であるかどうかを判定する外れ値判断手順とを有する。
また、本発明では、1周期がn個のデータから構成されるm周期分の時系列データ(X11,X12,X13,...,X1n,X21,X22,X23,...,X2n,...,Xm1,Xm2,Xm3,...,Xmn)から、n変量から成るm個の新たなデータ{Y,Y,...,Y、但し、Y=(Xi1,Xi2,Xi3,...,Xin)}を生成し、当該データ(Y,Y...,Y)に対して主成分分析を行う。
【0006】
また、本発明では、p次元の主成分に縮約された各サンプルの主成分得点を算出し、主成分得点を用いてサンプル間の距離を算出することにより、外れ値を含むサンプルを検出する。
また、本発明は、p次元の主成分に縮約された各サンプルの主成分得点を算出し、主成分得点を用いてサンプルをクラスターに分類し、クラスター間の距離とクラスター内のサンプル数とを用いて、外れ値を含むサンプルを検出する。
また、本発明では、p次元の主成分に縮約された各サンプルの主成分得点を算出し、主成分得点を用いてサンプルをクラスターに分類し、クラスター間の距離とクラスター内のサンプル数の比率とを用いて、外れ値を含むサンプルを検出する。
【0007】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態を詳細に説明する。
なお、実施の形態を説明するための全図において、同一機能を有するものは同一符号を付け、その繰り返しの説明は省略する。
図1は、本発明の実施の形態の外れ値検出方法を実施するための外れ値検出装置の概略構成を示すブロック図である。
同図において、1は外れ値検出装置、2はデータ入力装置、3は主成分分析装置、4は外れ値判断装置である。
データ入力装置2は、入力データ(1周期がn個のデータから構成されるm周期分の時系列データ)からn変量からなるm個のデータを生成する。
主成分分析装置3は、n変量からなるm個の観測データを、p次元の主成分に縮約しp個の主成分得点を計算する。
外れ値判断装置4は、主成分分析装置3の出力であるp個の主成分得点より、各サンプル間の距離を算出し、各サンプルの中に外れ値が存在するか否かを判断する。
【0008】
図2は、本実施の形態の外れ値検出装置の処理手順を示すフローチャートである。以下、本実施の形態の外れ値検出装置の処理手順を説明する。
始めに、データ入力装置2が、入力データ(1周期がn個のデータから構成されるm周期分の時系列データ)からn変量からなるm個のデータを生成する(ステップS0)。
データ入力装置2は、下記(11)式で表される入力データ(1周期がn個のデータから構成されるm周期分の時系列データ)から、下記(12)式で表されるn変量から成るm個の新たなデータ(Y,Y,...,Y)を生成する。
【数5】
11,X12,X13,...,X1n,X21,X22,X23,...,X2n,...,Xm1,Xm2,Xm3,...,Xmn ・・・・・・・・・・・・・・ (11)
A={Y,Y,...,Y}、但し、Y=(Xi1,Xi2,Xi3,...,Xin) ・・・・・・・・・・・・・・・・・・・・ (12)
次に、主成分分析装置3が、n変量からなるm個の観測データ(前記(12)式で表されるデータ)を、p次元の主成分に縮約しp個の主成分得点を計算する(ステップS1)。
主成分分析装置3は、前記(12)式をベクトルと見なして下記(13)式で表される相関行列Rを求める。
【0009】
【数6】
Figure 2004349852
Figure 2004349852
【0010】
相関行列Rの固有値を求め、降順にλ,λ,....,λに並べ、固有値に対して、下記(14)式で表される寄与率(C)を求める。
【数7】
=λ/n ・・・・・・・・・・・・・・・・・・・・ (14)
寄与率が0.8以上となる固有値(λ,λ,....,λ;但し、p≦n)を抽出し、下記(15)式で表される固有ベクトル(W,W,....,W)を求める。
【数8】
Figure 2004349852
前記(12)式と、前記固有ベクトルから、下記(16)式で表されるZijを求める。
【0011】
【数9】
Figure 2004349852
Figure 2004349852
ijより、下記(17)式を求める。
【数10】
Yp=(Zi1,Zi2,Zi3,...,Zip)、但し、P<n、i=1,2,...,m ・・・・・・・・・・・・・・・・・・・・・ (17)
この(17)式は、前記(12)式で表される、n個のデータで表現されるデータの持つ情報の損失をなるべく少なくして次元をP個(P<n)に縮退させたものである。
次に、外れ値判断装置4が、p個の主成分得点を用いてm個のデータ間の距離を求め、外れ値を検出する(ステップS2)。
外れ値判断装置4の判断手法は3つあり、一番目の判断手法(請求項3に記載の発明)は、前記(17)式で表されるデータ(Yp,Yp,...,Yp)に対し、データ間の距離を、下記(18)式で与え、当該(18)式より、下記(19)式を算出し、下記(20)式を満たす時、データYiは外れ値であると判断する。
【0012】
【数11】
Figure 2004349852
【0013】
外れ値判断装置4の二番目の判断手法(請求項4に記載の発明)は、前記(17)式で表されるデータ(Yp,Yp,...,Yp)にクラスター分析を適用し、m個のデータ(Yp,Yp,...,Yp)を、下記(21)式で表されるq個のクラスターに分類する。
【数12】
C1,C2,...,Cq ・・・・・・・・・・・・・・・・・・・ (21)
例えば、初期値として、1つのデータを構成単位とするm個のクラスター{Yp}、{Yp},...,{Yp}を設定する。
m個のクラスター(C1,C2,...,Cm)に対して、非類似度行列dij(i,j=1,2,...,m)を、最短距離法、最長距離法、群平均法、重心法、ウォード法等を用いて計算する。
例えば、最短距離法の場合、クラスターCi、Cjの非類似度行列dijは、クラスターCi、Cj内の構成要素を、それぞれ(Yp,Yp,...,Yp)、(Yp’,Yp’,...,Yp’)とすると、下記(22)式により表される。
【数13】
ij=min(Lk1,Lk2) k1=1,2,...,i、k2=1,2,...,j ・・・・・・・・・・・・・・・・・・・・ (22)
ここで、Lijは、クラスターを構成する要素(Yp,Yp’)間の距離で、ユークリッド平方距離、マハラビノスの距離、シンコフスキー距離等がある。
ユークリッド平方距離の場合、Lijは、下記(23)式で与えられる。
【0014】
【数14】
Figure 2004349852
Figure 2004349852
非類似度行列dijの全ての値がしきい値D’よりも大きければ、クラスター分析を終了する。そうでなければ、非類似度行列dijが最も小さいクラスターCi、Cjとを融合して、1つのクラスターを生成する。
この処理によって、新しく生成された(m−1)個のクラスターに対して、非類似度行列dij(i,j=1,2,...,m−1)を計算し、非類似度行列dijの全ての値がしきい値D’よりも大きくなるまで前述の処理を続行する。これにより、前述の(21)式で表されるクラスターに分類する。
そして、下記(24)式で表されるクラスター間距離Lijを、最短距離法、最長距離法、群平均法、重心法、メジアン法、ウォード法のいずれかの方法を用いて求め、下記(25)式を満たすクラスターCiが存在すれば、Ciに属するデータYiは外れ値であると判断する。
【数15】
ij=D(Yp、Yp) ・・・・・・・・・・・・・・ (24)
ij>T、かつ、|Ci|>|Cj|、但し、Tはしきい値、|Ci|はクラスターCiの要素の数 ・・・・・・・・・・・・・・・・・ (25)
【0015】
外れ値判断装置4の三番目の判断手法(請求項5に記載の発明)は、前記(17)式で表されるデータ(Yp,Yp,...,Yp)にクラスター分析を適用し、m個のデータ(Yp,Yp,...,Yp)を、前記(21)式で表されるq個のクラスターに分類し、前記(24)式で表されるクラスター間距離Lijを、最短距離法、最長距離法、群平均法、重心法、メジアン法、ウォード法のいずれかの方法を用いて求め、下記(26)式を満たすクラスターCiが存在すれば、Ciに属するデータYiは外れ値であると判断する。
【数16】
ij>T1、かつ、|Ci|/m>T2 但し、T1、T2はしきい値・・・・・・・・・・・・・・・・・・・・ (26)
以上、本発明者によってなされた発明を、前記実施の形態に基づき具体的に説明したが、本発明は、前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲において種々変更可能であることは勿論である。
【0016】
【発明の効果】
本願において開示される発明のうち代表的なものによって得られる効果を簡単に説明すれば、下記の通りである。
本発明の外れ値検出方法によれば、検定対象であるデータが正規分布に従わない場合でも外れ値を検出することが可能となる。
【図面の簡単な説明】
【図1】本発明の実施の形態の外れ値検出方法を実施するための外れ値検出装置の概略構成を示すブロック図である。
【図2】本発明の実施の形態の外れ値検出装置の処理手順を示すフローチャートである。
【符号の説明】
1…外れ値検出装置、2…入力装置、3…主成分分析装置、4…外れ値判断装置。

Claims (5)

  1. 周期性のある時系列データの外れ値検出方法であって、
    1周期分のデータの集まりを1サンプルとして、1周期内のn個のデータを変数項目に対するデータとみなして主成分分析を行う主成分分析手順と、
    前記主成分分析手順で算出された主成分得点をデータ間の類似度を表す指標としてサンプル間の距離を定義し、距離に基いて、外れ値であるかどうかを判定する外れ値判断手順とを有することを特徴とする外れ値検出方法。
  2. 前記主成分分析手順において、下記(1)式で表される1周期がn個のデータから構成されるm周期分の時系列データから、下記(2)式で表されるn変量から成るm個の新たなデータ(Y,Y,...,Y)を生成し、当該データ(Y,Y...,Y)に対して主成分分析を行うことを特徴とする請求項1に記載の外れ値検出法。
    Figure 2004349852
  3. 前記主成分分析手順において、前記(2)式で表されるデータに対して主成分分析を行い、前記主成分得点として、下記(3)式で表されるデータであって、前記(2)式で表されるデータ(Y,Y,...,Y)の次元をp(p<n)個に縮退させたデータ(Yp,Yp,...,Yp)を求め、
    前記外れ値判断手順において、下記(3)式で与えられるデータに対して、下記(4)式によりデータ間の距離を定義し、当該(4)式より下記(5)式を算出し、当該(5)式が下記(6)式を満たす時、データYiは外れ値であると判断することを特徴とする請求項2に記載の外れ値検出法。
    Figure 2004349852
  4. 前記外れ値判断手順において、前記(3)式で表されるデータ(Yp,Yp,...,Yp)にクラスター分析を適用し、m個のデータ(Yp,Yp,...,Yp)を、下記(7)式で表されるq個のクラスターに分類し、
    下記(8)式で表されるクラスター間距離Lijを、最短距離法、最長距離法、群平均法、重心法、メジアン法、ウォード法のいずれかの方法を用いて求め、
    下記(9)式を満たすクラスターCiが存在すれば、Ciに属するデータYiは外れ値であると判断することを特徴とする請求項3に記載の外れ値検出法。
    Figure 2004349852
  5. 前記外れ値判断手順において、前記(3)式で表されるデータ(Yp,Yp,...,Yp)にクラスター分析を適用し、m個のデータ(Yp,Yp,...,Yp)を、下記(7)式で表されるq個のクラスターに分類し、
    下記(8)式で表されるクラスター間距離Lijを、最短距離法、最長距離法、群平均法、重心法、メジアン法、ウォード法のいずれかの方法を用いて求め、
    下記(10)式を満たすクラスターCiが存在すれば、Ciに属するデータYiは外れ値であると判断することを特徴とする請求項3に記載の外れ値検出法。
    Figure 2004349852
JP2003142294A 2003-05-20 2003-05-20 外れ値検出方法 Pending JP2004349852A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003142294A JP2004349852A (ja) 2003-05-20 2003-05-20 外れ値検出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003142294A JP2004349852A (ja) 2003-05-20 2003-05-20 外れ値検出方法

Publications (1)

Publication Number Publication Date
JP2004349852A true JP2004349852A (ja) 2004-12-09

Family

ID=33530431

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003142294A Pending JP2004349852A (ja) 2003-05-20 2003-05-20 外れ値検出方法

Country Status (1)

Country Link
JP (1) JP2004349852A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111612038A (zh) * 2020-04-24 2020-09-01 平安直通咨询有限公司上海分公司 异常用户检测方法及装置、存储介质、电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111612038A (zh) * 2020-04-24 2020-09-01 平安直通咨询有限公司上海分公司 异常用户检测方法及装置、存储介质、电子设备
CN111612038B (zh) * 2020-04-24 2024-04-26 平安直通咨询有限公司上海分公司 异常用户检测方法及装置、存储介质、电子设备

Similar Documents

Publication Publication Date Title
US11057788B2 (en) Method and system for abnormal value detection in LTE network
CN108595655B (zh) 一种基于会话特征相似性模糊聚类的异常用户检测方法
EP2854053A1 (en) Defect prediction method and device
CN102507676B (zh) 基于多重自组织神经网络的电子鼻在线漂移补偿方法
JP6183450B2 (ja) システム分析装置、及び、システム分析方法
JP2009086901A (ja) 年齢推定システム及び年齢推定方法
US20140149430A1 (en) Method of detecting overlapping community in network
CN110414277B (zh) 基于多特征参数的门级硬件木马检测方法
CN108921424B (zh) 一种电力数据异常检测方法、装置、设备及可读存储介质
CN110287735B (zh) 基于芯片网表特征的木马感染电路识别方法
CN105718795B (zh) Linux下基于特征码的恶意代码取证方法及系统
Goel et al. Parallel Misuse and Anomaly Detection Model.
JP2016191975A (ja) 機械学習装置
WO2014132611A1 (ja) システム分析装置、及び、システム分析方法
CN109101661A (zh) 一种数据样本集合中异常点的检测方法和装置
US11630135B2 (en) Method and apparatus for non-intrusive program tracing with bandwidth reduction for embedded computing systems
JP6200076B2 (ja) システムから取得される測定値を評価する方法及びシステム
CN102521534A (zh) 一种基于粗糙熵属性约简的入侵检测方法
JP2011243007A (ja) 画像処理装置、その処理方法及びプログラム
Zhou et al. An adaptive minimum spanning tree test for detecting irregularly-shaped spatial clusters
JP2004349846A (ja) 外れ値検出方法
CN113242213B (zh) 一种电力通信骨干网节点脆弱性诊断方法
Albuquerque et al. A decision-based dynamic ensemble selection method for concept drift
CN112953948A (zh) 一种实时网络横向蠕虫攻击流量检测方法及装置
CN112464297A (zh) 硬件木马检测方法、装置及存储介质