CN110472188A - 一种面向传感数据的异常模式检测方法 - Google Patents
一种面向传感数据的异常模式检测方法 Download PDFInfo
- Publication number
- CN110472188A CN110472188A CN201910727701.8A CN201910727701A CN110472188A CN 110472188 A CN110472188 A CN 110472188A CN 201910727701 A CN201910727701 A CN 201910727701A CN 110472188 A CN110472188 A CN 110472188A
- Authority
- CN
- China
- Prior art keywords
- data
- frequency domain
- sensing data
- abnormal
- dimension
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 62
- 238000001514 detection method Methods 0.000 title claims abstract description 51
- 238000002955 isolation Methods 0.000 claims abstract description 42
- 230000009467 reduction Effects 0.000 claims abstract description 17
- 238000000605 extraction Methods 0.000 claims abstract description 14
- 230000005856 abnormality Effects 0.000 claims description 55
- 238000000034 method Methods 0.000 claims description 36
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 4
- 238000013480 data collection Methods 0.000 claims description 4
- 239000006185 dispersion Substances 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims 1
- 238000004422 calculation algorithm Methods 0.000 abstract description 13
- 230000002123 temporal effect Effects 0.000 abstract description 5
- 238000004064 recycling Methods 0.000 abstract 1
- 238000012545 processing Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000007619 statistical method Methods 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000013450 outlier detection Methods 0.000 description 2
- 238000012856 packing Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002547 anomalous effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000000135 prohibitive effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/14—Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
- G06F17/141—Discrete Fourier transforms
- G06F17/142—Fast Fourier transforms, e.g. using a Cooley-Tukey type algorithm
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Algebra (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Environmental & Geological Engineering (AREA)
- Discrete Mathematics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Testing Or Calibration Of Command Recording Devices (AREA)
Abstract
一种面向传感数据的异常模式检测方法,分别包括数据预处理和异常模式检测;所述的数据预处理包括特征提取与特征降维。本发明利用快速傅里叶变换将时域数据转换为频域数据,通过特征提取实现数据降维,再利用传感数据的时空相关性特征,基于隔离森林算法检测传感数据的异常模式,具有高效、准确的特点。
Description
技术领域
本发明涉及传感数据技术领域,特别涉及一种面向传感数据的异常模式检测方法。
背景技术
近几年来,物联网(Internet of Things,IoT)作为基于互联网、传统电信网的信息承载体,使得所有能被独立寻址的普通物理对象互联互通实现信息交换,能够支持更加智能化的物理对象管理。物联网的快速发展已能够为数据中心提供了更加丰富的数据,基于这些数据可以进行更加丰富的数据分析,以提供更加精确的服务。物联网环境极其复杂,如存在设备故障,信号干扰,传输异常等问题。因此,传感数据不可避免的存在异常。对于存在异常的传感数据,若不加以处理而直接进行分析,会存在两方面潜在问题。第一,异常数据会影响数据分析结果的准确性,导致基于数据分析的决策无效。第二,若不能尽早识别出传感数据中隐含的异常,不利于及时发现物理世界的问题,可能会造成不必要的损失。因此,针对传感数据的异常检测显得尤为重要。
Hawkins给出了异常的定义:异常被定义为在数据集中与众不同的数据,使人怀疑这些数据并非随机偏差,而是产生于完全不同的机制。而异常检测是运用各类数据处理模型和技术发现数据资源中的异常数据的过程,是发现数据异常,提升数据质量的前提和必要环节。传统异常检测大多针对离群点,多基于聚类算法实现。传感数据大多为时序数据,时序数据(time series data)是在不同时间上收集到的数据,这类数据是按时间顺序收集到的,用于所描述现象随时间变化的情况。这类数据反映了某一事物、现象等随时间的变化状态或程度。因此这类数据不仅存在离群点异常,还存在时序片段异常,即模式异常。其中,模式异常指时序数据的任何数据点均不存在异常(如不超过阈值),但该数据片段的趋势却与其他相近的数据片段的趋势存在明显差异。此外,通常情况下往往会使用多个传感设备监控同一物理实体,如工业界会组合各类传感数据描述工业设备或环境的工况。基于传感设备的上述使用方式,将形成具有高维和时序特性的传感数据。与单一维度的时序数据相似,高维的时序数据也存在模式异常的问题,而且效率始终是高维数据处理面临的重要问题之一。
近年来,异常检测作为数据挖掘的一个分支,正受到越来越广泛的关注。针对离群点的异常检测大致可以分为四类方法,分别是基于统计学的方法,基于距离的方法,基于密度的方法和基于聚类的方法等。
基于统计学的方法是基于模型的方法,即先给数据创建一个模型,根据对象拟合模型的情况来进行评估。如Laurikkala等人使用箱线图来确定数据集中的异常值,Kasliwal等人利用G-LDA的混合模型来检测网络流量中的异常。如果有充分的数据和检验类型的先验知识,基于统计学的方法对单个属性的离群点检测可能非常有效,但对于高维数据,检验的性能可能很差。
基于距离的方法思想很简单,就是一个点如果远离大部分点,那就是异常。至于距离的衡量有多种方式。如Zhang Y等人利用Mahalanobis距离对高光谱图像进行异常检测,Rikard Laxhammar等人利用Hausdorff距离对于任意长度的多维轨迹进行相异度度量。基于距离的方法是简单的,但一般需要O(n2)的时间,对于大型数据集可能代价过高。该方法也对参数敏感。此外,它不能处理具有不同密度区域的数据集,因为密度是局部特征,而距离是全局特征,它无法考虑到局部密度的变化。
基于密度的方法认为离群点是处于低密度区域中的对象。密度常用邻近度定义。Huang T等人基于LOF算法解决了云计算自适应异常检测问题,Mete Celik等人基于DBSCAN算法来发现温度数据中存在的异常。基于密度的方法由于需要在距离的基础上进行计算,也存在计算复杂度较高的情况,同时当数据分布特殊时会导致错误的异常点判断。
基于聚类的方法通过把数据聚成类,将那些不属于任何一类的数据作为异常值。Münz等人提出一种基于K-means算法的异常检测方案,用于检测网络监控数据中存在的异常,R.Chitrakar等人提出一种基于Naive Bayes分类和k-Medoids聚类组合的混合方法来解决异常检测问题。总的来说,有些基于聚类的方法(如K均值)的时间和空间复杂度是线性或接近线性的,因而对离群点的检测可能高度有效。难点在于聚类簇个数的选择和异常点的存在性。不同簇个数下产生的结果或效果完全不一样。且簇的质量对所产生的离群点的质量影响非常大。每种聚类模型只适合特定的数据类型。
在时序数据异常检测方面,也已存在了一些研究成果。随着异常检测技术的不断发展,异常检测开始不仅仅针对离群点,到目前为止,针对时序数据的模式异常检测算法也有很多,Yan等人利用数据的概率密度函数重新表达欧几里得距离,并得到一个概率度量来计算两个不确定序列的不相似性,但是这种算法的检测效果取决于检测窗口的大小,而找到合适的检测窗口大小并没有一个合适的方法,同时对于数据也有一定的要求。
发明内容
为了解决以上技术问题,本发明的目的在于提供一种面向传感数据的异常模式检测方法,利用快速傅里叶变换将时域数据转换为频域数据,通过特征提取实现数据降维,再利用传感数据的时空相关性特征,基于隔离森林算法检测传感数据的异常模式,具有高效、准确的特点。
为了实现上述目的,本发明采用的技术方案是:
一种面向传感数据的异常模式检测方法,分别包括数据预处理和异常模式检测;
数据预处理包括特征提取与特征降维;
特征提取,假设传感数据片段为T={T1,T2,...,Tn},Ti为第i维数据的数据片段,则传感数据特征的提取步骤如下:
第一,以相同方式对T中所有维度的数据片段进行采样,要求每个维度的数据片段Ti拥有2m个样本点{t1,t2,...,tj,...,t2 m},tj为第j个采样点;
第二,对每个维度的数据片段Ti上的样本数据进行快速傅里叶变换,将获得n个频域数据集合{F1,F2,...,Fn},Fi为传感数据第i个维度数据片段的频域数据;
特征降维,将特征提取后的频域特征数据进行进一步的降维(如用均值、方差和峰值表征时序数据片段),在保证不丢失过多信息的同时提高后续的计算效率;
为了确保频域数据能够尽可能准确刻画时域数据,时域数据的采样密度较高,所以时频变换获取的频域数据也具有较高的数据密度,即数据量较大,为了确保高维数据片段的快速处理,方法采用提取频域数据特征的方式进行数据降维,由于频域数据在某一频率下的幅度与该值的模直接相关,传感数据在频域空间中某一频率下的幅度与其在这一频率下的快速傅里叶变换结果值的模直接相关,为反映传感数据在频域空间中,各频率下的幅度所表现出的集中趋势,离散程度和最大幅度的情况,所以选取传感数据各维度频域数据Fi模的均值、方差和峰值作为Fi的频域特征。因此需要先利用复数的求模公式求出该频率下频域数据的模;
其中aj,bj分别为第j个频率下频域数据的实部和虚部,并计算各维度下的频域数据的均值方差 以及最大幅度Mmax。
所以选取传感数据各维度频域数据Fi模的均值、方差和峰值作为Fi的频域特征。
异常模式检测,包括以下步骤;异常模式检测是基于数据预处理后的结果进行的;
第一,采用隔离森林方法分别处理各传感器经过特征降维后的频域特征数据Fi的均值,方差和峰值数据,以均值数据集为例,其包含的是所有传感器的均值数据,具体的每次在均值数据集中随机选择选择一个属性后再随机取该属性值域区间中的一个值,随后对传感器进行二叉划分,二叉划分的终止条件数据本身不可划分(即只包括一个样本或全部样本相同)或者达到预先定义的最大深度(为考虑算法效率,一般定义最大深度为ceil(log2n)),其中每个样本到达的最大深度(也称为隔离深度)即为其异常的程度,同时由于隔离树构造过程具有随机性,所以需要利用集成学习进行多次并行的隔离过程以提升异常检测的泛化性能,最终平均各样本在所有隔离树中的隔离深度,获得相应的平均隔离深度{D1,D2,...,Dn},其中Di为第i个传感器的平均隔离深度,包括均值,方差和峰值的平均隔离深度{mi,vi,pi};用于计算总的平均隔离深度进而计算获得用于判断异常与否的异常分数。
第二,根据平均隔离深度计算总的平均隔离深度{d1,d2,…,di,…dn},其中di是第i个传感器的总的平均隔离深度,di=(mi+vi+pi)/3,为计算异常分数做准备;
第三,为每个传感数据生成异常分数;计算方法如公式1和公式2所示;
基于每个传感器的总的平均隔离深度di,利用公式1得到传感器的异常分数s(i,M)用以判断是否异常;
其中,c(M)为树的平均路径长度,通过公式2计算得到。
其中ξ为欧拉常数 公式(2)
所述的异常分数s(i,M)判定方法为:
第一,异常分数的取值范围是[0,1],越接近1,异常的可能性越高;
第二,如果所有样本的异常分数都比0.5小,则基本可以确定为正常数据;
第三,如果所有样本的异常分数都在0.5附近,则数据不包含明显的异常样本,依据异常分数的上述性质即可判定传感数据的异常,需要注意的是,异常是相对的,不同数据集生成的异常分数的分布存在差异,所以异常的判定标准也存在差异。
本发明的有益效果在于:
相比于传统异常检测方法,本方法利用了传感数据隐含的频域特征,利用频域特征来表示数据,比起直接利用原数据进行处理时序数据更为简练。同时利用频域数据的特性降低数据维度,并利用高效的隔离森林算法对样本进行异常检测。该异常模式检测方法能够有效识别传感数据的异常模式,并在确保高检出率的前提下具有较低的时间开销。
附图说明
图1为本发明的异常模式检测方法总流程图。
图2为本发明数据预处理阶段的工作流程示意图。
图3为本发明异常检测阶段的工作流程示意图。
图4为IBRL数据集中的节点分布图。
图5为正常情况示意图。
图6为突变异常示意图。
图7为趋势异常示意图。
具体实施方式
如图1所示:面向传感数据的异常模式检测方法的目标是快速识别高维传感数据的模式异常。方法主要分为两个阶段,分别是数据预处理和异常模式检测。数据预处理阶段的目标是确保传感数据模式特征的前提下,降低数据维度,为准确快速的识别异常模式做准备。具体的,利用快速傅里叶变换将时序数据变换为频域数据,再通过提取频域数据的特征,达到降维的效果。
异常模式检测阶段的目标是确保精度的前提下,提升效率。具体的,基于传感数据的时空相关性和数据相似性特征,通过对比时间和空间上相关的传感数据,发现与邻近传感数据的模式差异明显的传感数据。为了解决高维数据的快速处理问题,方法采用集成学习的思想,基于隔离森林算法进行异常模式的检测。
如图2所示:由于传感数据具有时序和高维的特性,传感数据片段由大量时间上连续的高维数据点构成。若直接用这些连续的高维数据点描述传感数据片段的模式,具有数据特征量庞大、不易于刻画数据的模式特征,且难以快速识别模式异常的问题。因此,数据预处理阶段主要关注传感数据模式特征的提取和数据特征的降维。图2所示为数据预处理阶段的工作流程,由特征提取和特征降维构成。
采用时频变换舍弃传感数据在时域方面存在的单点差异,用频域特征描述数据片段的模式特征。为了保证异常模式的检测效率,采用时间复杂度较低的快速傅里叶变换进行时域数据向频域数据的转换。快速傅里叶变换充分利用离散傅里叶变换计算式中指数因子所具有的对称性质和周期性质,进而求出这些短序列相对应的离散傅里叶变换结果并进行适当组合,达到删除重复计算,减少乘法运算和简化结构的目的。相比离散傅里叶变换O(n2)的时间复杂度,利用快速傅里叶变换能够将时间复杂度降低到O(nlogn)水平,在数据量越大的情况下,快速傅里叶变换在时间方面的优势就越明显。假设传感数据片段为T={T1,T2,...,Tn},Ti为第i维数据的数据片段,则传感数据特征的提取步骤如下:第一,以相同方式对T中所有维度的数据片段进行采样,要求每个维度的数据片段Ti拥有2m个样本点{t1,t2,...,tj,...,t2 m},tj为第j个采样点。第二,对每个维度的数据片段Ti上的样本数据进行快速傅里叶变换,将获得n个频域数据集合{F1,F2,...,Fn},Fi为传感数据第n个维度数据片段的频域数据。
(2)特征降维
为了确保频域数据能够尽可能准确刻画时域数据,时域数据的采样密度较高,所以时频变换获取的频域数据也具有较高的数据密度,即数据量较大。为了确保高维数据片段的快速处理,方法采用提取频域数据特征的方式进行数据降维。由于频域数据在某一频率下的幅度为该值的模直接相关,所以选取传感数据各维度频域数据Fi模的均值、方差和峰值作为Fi的频域特征。
如图3所示:本文将传感数据的模式异常定义为相比其他模式具有“少而不同”特征的模式。基于该定义,异常模式并不仅指错误的模式,主要强调的是模式的特异性。高维的传感数据的模式异常可以表现在任意的维度上,所以有必要检测各个维度的数据以识别传感数据的异常。显然,若能检测每个数据维度的模式异常将具有更好的精确度,但对于高维数据却存在处理速度较低的问题。因此,本文的异常检测的目标是确保精度的前提下提升异常检测效率。
隔离树是一种随机二叉树,与决策树相似可用于数据分类。由于隔离树在构建二叉树是采用随机选择属性值的方式进行二分,通过计算和判定数据位于二叉树中的深度(也成隔离深度)识别异常,不仅符合异常“少而不同”的特征,还具有良好的处理性能。然而,由于隔离树的构造过程具有随机性,是一种弱分类器,所以还需采用集成学习方法提升异常检测的泛化性能。因此,本文的异常检测基于Bagging集成学习方法和隔离树算法的隔离森林方法实现,工作流程如图3所示。
如图3所示,异常检测由三个步骤构成:第一,采用隔离森林方法处理各维度的频域特征数据,获得相应的平均隔离深度{D1,D2,...,Dn},其中Di为第i个传感器的平均隔离深度,包括均值,方差和峰值的平均隔离深度{mi,vi,pi}。第二,根据平均隔离深度计算总的平均隔离深度,为计算异常分数做准备。第三,为每个传感数据生成异常分数,并根据分数判断异常。根据隔离森林的异常分数的定义,第i个传感器的异常分数s(i,M)被定义为2-n,其中n为第i个传感器的总的平均隔离深度di与构造隔离森林所用的M棵隔离树的平均路径长度c(M)的比值,计算方法如公式1和公式2所示。基于每个传感器的总的平均隔离深度di,利用公式1得到传感器的异常分数s(i,M)用以判断是否异常;
其中,c(M)为树的平均路径长度,通过公式2计算得到。
其中ξ为欧拉常数 公式(2)
基于异常分数的定义和计算方法,异常分数s(i,M)具有以下性质:第一,异常分数的取值范围是[0,1],越接近1,异常的可能性越高。第二,如果所有样本的异常分数都比0.5小,则基本可以确定为正常数据。第三,如果所有样本的异常分数都在0.5附近,则数据不包含明显的异常样本。依据异常分数的上述性质即可判定传感数据的异常。需要注意的是,异常是相对的,不同数据集生成的异常分数的分布存在差异,所以异常的判定标准也存在差异。
如图3所示:实验和结果
本实验在Windows环境下,为了评估方法的有效性,选用IBRL(Intel BerkeleyResearch Lab)数据集来进行实验验证。该组无线传感器部署在Berkeley大学的Intel研究实验室,网络包含54个Mica2Dot传感器节点。采样时间段从2004年2月28日到2004年4月5日,每隔30秒进行一次采样获得数据构成的集合。图4给出了该网络的部署图,网络中每个节点的位置用黑色六边形表示,白色的编号数字为每个节点的ID,在该网络中,每个节点采集四类值,即温度、湿度、光照和电压。由于该WSN部署在同一实验室中,除了光照数据由于频繁的开关操作造成数据由突然变化之外,其他数据采样值都相对稳定,并且可以认为传感器所获得的数据都是相近的。本实验选择了2004年2月28日的08:00:00-24:00:00这一时间段,但是基于数据观察和分析可知,由于网络丢包等原因,导致部分观测数据丢失。为了保证实验的可靠性,采用平均值或基于空间关联特性插值处理缺失值,并且每分钟只取17秒时间点采样的值来进行实验。
在本文的实验中,为了使用该数据进行异常算法的性能评估,对一些正常的观察值进行了随机的修改,变成异常数据。本文为了不失一般性,异常数据的分布应该和正常数据的分布不同,但其样本空间应该尽可能的重叠。其次,相对于非故障节点所收集的正常样本集合,异常事件也应该是一个小概率事件。因此模拟产生的异常数据和正常的样本数据分布有少许偏差。详细的数据集概况见表1和表2。
表1每64分钟的数据集情况
正常传感器数 | 异常传感器数 | 正常样本数 | 异常样本数 | |
每64分钟 | 52 | 2 | 3416 | 40 |
表2整体数据集情况
如图5所示为实验数据中8:00:17-8:30:17时间段的真实数据,用于和图6、图7模拟的异常模式进行对比。
如图6所示为模拟的突变异常的异常模式,即在真实数据中修改几个数据为与原始数据差距较大的数,以模拟类似于断电等情况。
如图7所示为模拟的趋势异常的异常模式,即在真实数据中修改几个连续数据为与原始数据趋势不同的数,以模拟类似于设备故障等情况。
以上实验均是在保密的情况下进行的。
Claims (5)
1.一种面向传感数据的异常模式检测方法,其特征在于;分别包括数据预处理和异常模式检测;
所述的数据预处理包括特征提取与特征降维。
2.根据权利要求1所述的一种面向传感数据的异常模式检测方法,其特征在于;所述的特征提取,假设传感数据片段为T={T1,T2,...,Tn},Ti为第i维数据的数据片段,则传感数据特征的提取步骤如下:
第一,以相同方式对T中所有维度的数据片段进行采样,要求每个维度的数据片段Ti拥有2m个样本点{t1,t2,...,tj,...,t2 m},ti为第j个采样点;
第二,对每个维度的数据片段Ti上的样本数据进行快速傅里叶变换,将获得n个频域数据集合{F1,F2,...,Fn},Fi为传感数据第i个维度数据片段的频域数据。
3.根据权利要求1所述的一种面向传感数据的异常模式检测方法,其特征在于;所述的特征降维,将特征提取后的频域特征数据进行进一步的降维,在保证不丢失过多信息的同时提高后续的计算效率;
采用提取频域数据特征的方式进行数据降维,由于频域数据在某一频率下的幅度为该值的模直接相关,传感数据在频域空间中某一频率下的幅度与其在这一频率下的快速傅里叶变换结果值的模直接相关,为反映传感数据在频域空间中,各频率下的幅度所表现出的集中趋势,离散程度和最大幅度的情况,所以选取传感数据各维度频域数据Fi模的均值、方差和峰值作为Fi的频域特征,因此需要先利用复数的求模公式求出该频率下频域数据的模;
其中aj,bj分别为第j个频率下频域数据的实部和虚部,并计算各维度下的频域数据的均值方差 以及最大幅度Mmax。
4.根据权利要求3所述的一种面向传感数据的异常模式检测方法,其特征在于;所述的选取传感数据各维度频域数据Fi模的均值、方差和峰值作为Fi的频域特征。
5.根据权利要求1所述的一种面向传感数据的异常模式检测方法,其特征在于;所述的异常模式检测,包括以下步骤;异常模式检测是基于数据预处理后的结果进行的;
第一,采用隔离森林方法处理各维度的频域特征数据,具体的就是每次在样本集中随机选择选择一个属性后随机取该属性值域区间中的一个值,随后对样本集进行二叉划分,二叉划分的终止条件数据本身不可划分或者达到预先定义的最大深度,其中每个样本到达的最大深度即为其异常的程度,同时由于隔离树构造过程具有随机性,所以需要利用集成学习进行多次并行的隔离过程以提升异常检测的泛化性能,最终平均各样本在所有隔离树中的隔离深度,获得相应的平均隔离深度{D1,D2,...,Dn},其中Di为第i个传感器的平均隔离深度,包括均值,方差和峰值的平均隔离深度{mi,vi,pi};用于计算总的平均隔离深度进而计算获得用于判断异常与否的异常分数。
第二,根据平均隔离深度计算总的平均隔离深度{d1,d2,…,di,…dn},其中di是第i个传感器的总的平均隔离深度,di=(mi+vi+pi)/3,为计算异常分数做准备;
第三,为每个传感数据生成异常分数;,计算方法如公式1和公式2所示;
基于每个传感器的总的平均隔离深度di,利用公式1得到传感器的异常分数s(i,M)用以判断是否异常;
其中,c(M)为树的平均路径长度,通过公式2计算得到。
其中ξ为欧拉常数 公式(2)
基于异常分数的定义和计算方法,异常分数s(i,M)具有以下性质:
第一,异常分数的取值范围是[0,1],越接近1,异常的可能性越高;
第二,如果所有样本的异常分数都比0.5小,则基本可以确定为正常数据;
第三,如果所有样本的异常分数都在0.5附近,则数据不包含明显的异常样本,依据异常分数的上述性质即可判定传感数据的异常,需要注意的是,异常是相对的,不同数据集生成的异常分数的分布存在差异,所以异常的判定标准也存在差异。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910727701.8A CN110472188A (zh) | 2019-08-01 | 2019-08-01 | 一种面向传感数据的异常模式检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910727701.8A CN110472188A (zh) | 2019-08-01 | 2019-08-01 | 一种面向传感数据的异常模式检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110472188A true CN110472188A (zh) | 2019-11-19 |
Family
ID=68510331
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910727701.8A Pending CN110472188A (zh) | 2019-08-01 | 2019-08-01 | 一种面向传感数据的异常模式检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110472188A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111314910A (zh) * | 2020-02-25 | 2020-06-19 | 重庆邮电大学 | 一种新型映射隔离森林的无线传感器网络异常数据检测方法 |
CN111307182A (zh) * | 2020-03-06 | 2020-06-19 | 宁波飞芯电子科技有限公司 | 数据处理方法及阵列型传感器 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107292350A (zh) * | 2017-08-04 | 2017-10-24 | 电子科技大学 | 大规模数据的异常检测方法 |
CN108985632A (zh) * | 2018-07-16 | 2018-12-11 | 国网上海市电力公司 | 一种基于孤立森林算法的用电数据异常检测模型 |
US20190219994A1 (en) * | 2018-01-18 | 2019-07-18 | General Electric Company | Feature extractions to model large-scale complex control systems |
CN110046665A (zh) * | 2019-04-17 | 2019-07-23 | 成都信息工程大学 | 基于孤立森林二分类异常点检测方法、信息数据处理终端 |
-
2019
- 2019-08-01 CN CN201910727701.8A patent/CN110472188A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107292350A (zh) * | 2017-08-04 | 2017-10-24 | 电子科技大学 | 大规模数据的异常检测方法 |
US20190219994A1 (en) * | 2018-01-18 | 2019-07-18 | General Electric Company | Feature extractions to model large-scale complex control systems |
CN108985632A (zh) * | 2018-07-16 | 2018-12-11 | 国网上海市电力公司 | 一种基于孤立森林算法的用电数据异常检测模型 |
CN110046665A (zh) * | 2019-04-17 | 2019-07-23 | 成都信息工程大学 | 基于孤立森林二分类异常点检测方法、信息数据处理终端 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111314910A (zh) * | 2020-02-25 | 2020-06-19 | 重庆邮电大学 | 一种新型映射隔离森林的无线传感器网络异常数据检测方法 |
CN111314910B (zh) * | 2020-02-25 | 2022-07-15 | 重庆邮电大学 | 一种映射隔离森林的无线传感器网络异常数据检测方法 |
CN111307182A (zh) * | 2020-03-06 | 2020-06-19 | 宁波飞芯电子科技有限公司 | 数据处理方法及阵列型传感器 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gemaque et al. | An overview of unsupervised drift detection methods | |
US20160219067A1 (en) | Method of detecting anomalies suspected of attack, based on time series statistics | |
CN107493277B (zh) | 基于最大信息系数的大数据平台在线异常检测方法 | |
Hu et al. | False positive elimination in intrusion detection based on clustering | |
CN109508733A (zh) | 一种基于分布概率相似度度量的异常检测方法 | |
Abid et al. | Anomaly detection through outlier and neighborhood data in Wireless Sensor Networks | |
CN106792883A (zh) | 传感器网络异常数据检测方法与系统 | |
Jiang et al. | Outlier detection on uncertain data: Objects, instances, and inferences | |
CN116304604B (zh) | 多变量时间序列数据异常检测、模型训练方法和系统 | |
CN110472188A (zh) | 一种面向传感数据的异常模式检测方法 | |
Ab Ghani et al. | Concept drift detection on unlabeled data streams: A systematic literature review | |
Chen et al. | Approximation of probabilistic maximal frequent itemset mining over uncertain sensed data | |
Xu et al. | An improved LOF outlier detection algorithm | |
CN110662220B (zh) | 基于时空相关性和信息熵的无线传感器网络异常检测方法 | |
CN111339986A (zh) | 基于时域/频域分析的装备用频规律挖掘方法和系统 | |
CN112949735A (zh) | 一种基于离群数据挖掘的液态危化品挥发浓度异常发现方法 | |
Wang et al. | An adaptive sliding window for anomaly detection of time series in wireless sensor networks | |
Zong et al. | Application of artificial fish swarm optimization semi-supervised kernel fuzzy clustering algorithm in network intrusion | |
Febriansyah et al. | Outlier detection and decision tree for wireless sensor network fault diagnosis | |
Novi Inverardi et al. | Outlier detection through mixtures with an improper component | |
Li et al. | An anomaly pattern detection method for sensor data | |
Fu et al. | Biased-sampling of density-based local outlier detection algorithm | |
Yuhang et al. | Research on data cleaning in text clustering | |
CN108959492A (zh) | 一种基于托普利兹核偏最小二乘的近重复视频检测方法 | |
Zhao et al. | Inconsistency measure associated discretization methods to network-based intrusion detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230605 Address after: 102209 No.27, ruizhifu, Wangfu garden, No.10, Wangfu street, Beiqijia Town, Changping District, Beijing Applicant after: Beijing Huaxia Qixin Technology Co.,Ltd. Address before: 100144 Beijing City, Shijingshan District Jin Yuan Zhuang Road No. 5 Applicant before: NORTH CHINA University OF TECHNOLOGY |
|
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20191119 |