CN110826642B - 一种针对传感器数据的无监督异常检测方法 - Google Patents

一种针对传感器数据的无监督异常检测方法 Download PDF

Info

Publication number
CN110826642B
CN110826642B CN201911116431.3A CN201911116431A CN110826642B CN 110826642 B CN110826642 B CN 110826642B CN 201911116431 A CN201911116431 A CN 201911116431A CN 110826642 B CN110826642 B CN 110826642B
Authority
CN
China
Prior art keywords
data
training
kernel function
support vector
sensor data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911116431.3A
Other languages
English (en)
Other versions
CN110826642A (zh
Inventor
乔焰
金鹏
苏仕芳
焦俊
张武
马慧敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Agricultural University AHAU
Original Assignee
Anhui Agricultural University AHAU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Agricultural University AHAU filed Critical Anhui Agricultural University AHAU
Priority to CN201911116431.3A priority Critical patent/CN110826642B/zh
Publication of CN110826642A publication Critical patent/CN110826642A/zh
Application granted granted Critical
Publication of CN110826642B publication Critical patent/CN110826642B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明公开了一种针对传感器数据的无监督异常检测方法,包括以下步骤:(101)、获取历史数据;(102)、建立训练模型,通过历史数据对训练模型进行训练;(103)、重新以固定时间间隔获取实时采集的传感器数据;(104)、对实时采集的传感器数据进行检测;(105)、输出检测出的异常数据。本发明改进了现有技术的相关算法和流程,提出了一个在线式无监督检测技术的方法,在大大地提高了异常数据检测的正确率的同时大大降低了检测时间。

Description

一种针对传感器数据的无监督异常检测方法
技术领域
本发明涉及传感器网络异常数据处理方法领域,具体是一种针对传感器数据的无监督异常检测方法。
背景技术
无线传感器网络中异常检测算法的关键挑战是在消耗资源最少的情况下高精度地识别异常。然而,严酷的部署环境和传感器能力(能量、CPU、内存等)的受限使得WSNs极其容易受到人为不当操作、恶意攻击以及传感器自身故障的影响,导致异常数据的频繁产生。而对掺杂异常数据集合的分析会严重影响有效信息的挖掘及关键决策的制定,因此实时准确地检测出无线传感器网络所采集的异常数据变得愈发重要。及时检测出异常数据一方面可以更好的保证传感器所采集数据的安全性和可靠性;另一方面,异常数据在某些监测环境下能够发挥重要的作用,例如,可通过采集到的异常数据来判断是否发生了某种突发事件(如火灾、空气污染、洪水及人为破坏等)。然而,随着传感器网络规模的不断扩大,及所采集数据的日趋复杂,对传感器数据异常的检测变得越来越困难,主要表现为以下几个方面:
第一:无论是分布式还是集中式的数据处理,均要求对异常数据的检测要具备较低的时间和空间复杂度,从而应对海量的采集数据;
第二:由于传感器通常实时地采集并上传数据,因此要求数据的异常检测需要具备在线检测的能力;
第三:多数传感器网络中的数据都是没有标记的,预先标记的数是非常难以获取的,因此要求数据的异常检测需要具备无监督学习的能力。
过去的几年中,已经有不少学者提出了无线传感器网络的异常数据检测方法,主要可以分为以下四类:
第一种类型是基于近邻的方法,通过计算自身数据与相邻节点数据之间的距离来确定自身数据是否异常,如果某个数据与邻居节点采集的数据存在较大差异则称为异常数据,但是计算每个数据之间的距离会花费较长的时间,无法应用在大规模传感器网络中。
第二种类型是基于聚类的方法,通过对数据分簇来孤立异常数据,但此方法需要在得到全部数据后再进行分簇,不能在线式地检测异常数据。
第三种类型是基于统计的方法,是利用历史数据分布,建立数据的统计模型,不符合该模型的数据视为异常数据。但对于维度较大的数据集合,该方法很难建立较准确的统计模型。
第四种类型是基于分类的方法,通过历史数据训练得到一个分类模型,再将待检测数据分类到所属的模型之中,不属于任何类型的数据,将视为异常数据.该方法能够在保证检测准确度的情况下满足在线检测的需求,是近几年较为主流的异常检测方法。其中基于单类支持向量机的异常检测方法是目前应用最广泛的基于分类的异常检测方法之一,它能在无监督模式下高效实时地检测所采集数据中的异常数据,但单分类支持向量机也存在重要的缺陷,由于在训练过程中需要求解非线性规划问题,当数据维度增加时,训练时间会呈指数级增加。
现有技术申请号为CN201810314827的中国专利:适用于无线传感器网络的异常数据检测方法,其利用基于PCA提出了局部检测和全局检测相结合的双重检测机制,重点关注如何选择簇头节点的分类方法,并没有考虑传感器网络数据的实时检测。
申请号为CN201711439910的中国专利:一种无线传感器网络异常数据检测方法,其重点通过置信区间来进行异常数据检测,无法满足无监督的传感器数据异常检测。
申请号为CN201710047973的中国专利:传感器网络异常数据检测方法与系统,该方法同样仅利用空间相关检测及时间相关检测的检测结果,判断该异常数据是事件数据或恶意数据,同样无法满足无监督的传感器数据异常检测。
专利号为201910106221.X一种基于无监督学习的无线传感器异常数据检测方法,与本专利的区别:该方法使用最原始的1/4球面支持向量机;也无法实现在线式异常检测且使用最原始的1/4球面支持向量机,检测模型与本文中也大相径庭。
刊物名称International Journal of Distributed Sensor Networks,于2015年发布的由作者Pu Cheng,Minghua Zhu撰写的文献:Lightweight anomaly detection forwireless sensor networks,该文献中通过将排序的方法结合单分类支持向量机检测方法,对于异常数据的检测效果较差,并且无法满足传感器网络实时数据检测的要求。
发明内容
本发明的目的是提供一种针对传感器数据的无监督异常检测方法,以解决现有技术无法对传感器数据进行实时无监督检测的问题。
为了达到上述目的,本发明所采用的技术方案为:
一种针对传感器数据的无监督异常检测方法,包括以下步骤:
(101)、获取历史数据:选择某时间段内的若干连续传感器数据样本作为用于模型训练的历史数据X;
(102)、建立训练模型,通过历史数据X对训练模型进行训练:
在训练模型中,计算训练数据X的高斯核函数矩阵K。K为n*n的矩阵,第i行第j列为Kij第i个训练样本Xi与第j个训练样本Xj的高斯核函数。高斯核函数(又称RBF核函数)的表达式为:
Figure BDA0002274193260000031
其中公式(1)表示Xi与Xj在高维空间的内积。σ代表的是域宽,用于支持向量机异常检测中,表示在正常数据中可以允许的异常样本数,σ越大,允许的越多。
在得到核函数矩阵K后,对K的每一行数据进行求和得到S,S为n*1的向量。对求和后的S按照升序进行排序,并找到边界支持向量对应的St,将St作为异常数据的判定阈值;
(103)、重新以固定时间间隔获取实时采集的传感器数据x;;
(104)、对实时采集的传感器数据x进行检测:
计算步骤(104)中采集的传感器数据x与步骤(101)中历史数据X的高斯核函数,得到核函数向量K′。K′为n*1的向量,K′中第i个元素K′i为x与第i个训练样本xi的高斯核。计算K′中所有元素的加和,得到S′;比较St和S′的大小;根据比较结果判断是否为异常数据,如果S′>St,则为正常数据,反之,则为异常数据。
(105)、输出检测出的异常数据。
步骤(101)和步骤(104)中的传感器数据,均是从传感器网络后台的管理监测系统中得到的
步骤(102)中,利用步骤(101)得到的历史数据X对检测模型中的训练模型的具体步骤如下:
(201)、将历史数据X输入到训练模型,通过历史数据对训练模型进行训练;
(202)、将步骤(101)得到的历史数据X输入到改进后的1/4球面支持向量机,通过改进后的1/4球面支持向量机进行检测,对每个数据都产生标签,其中正常数据为1,异常数据为-1,改进后的1/4球面支持向量机是在原有1/4球面支持向量机之上,首先用核函数将训练样本映射到特征空间,其次对特征空间中的内积按行进行求和并按升序进行排序,然后找到边界支持向量在特征空间中对应的内积,将测试数据与训练数据作内积,最后比较两个内积的大小,以此来判断是否为异常数据。检测过程如下:
训练样本X={xi,1≤i≤n}在特征空间的1/4球面半径R可通过求解以下公式(2)得到:
Figure BDA0002274193260000041
约束条件:
Figure BDA0002274193260000042
公式(1)中,Φ(·)为样本到高维特征空间的映射函数,R为高维空间中超球面的半径,ξi是松弛变量,允许部分样本在球面之外,v∈(0,1)为在球面之外样本的比率,
Figure BDA0002274193260000043
表示实数集,/>
Figure BDA0002274193260000044
表示n维的实数集;
为简化公式(2)的计算,可将公式(2)转换为对偶形式,将半径R的求解问题转换为拉格朗日乘子αi的求解问题,对偶形式的表达公式(3)为:
Figure BDA0002274193260000051
约束条件:
Figure BDA0002274193260000052
公式(3)中,k(xi,xi)为基于距离的核函数,αi为拉格朗日系数;
由于基于距离的核函数k(xi,xi)对于任何样本节点均相等,因此公式(3)无法求得有意义的解,可以通过将核函数中心化的方法解决无法求得有意义的解的问题,即定义中心化后的核函数kc如公式(4):
kc=k-1nk-k1n+1nk1n (4),
公式(4)中,1n为n×n的矩阵,矩阵元素均为
Figure BDA0002274193260000053
k指的就是前两行中的k(xi,xi)
此时公式(3)可转换为:
Figure BDA0002274193260000054
约束条件:
Figure BDA0002274193260000055
使用di表示内积<Φ′(xi),Φ′(xj)>,它也可以表示中心核函数kc(xi,xi)。用di替换公式(5)中的kc(xi,xi),并排序得到一个升序序列{di′|1≤i′≤n},则问题可以转化为:
Figure BDA0002274193260000056
因为第j′+1内积dj′+1,其中
Figure BDA0002274193260000057
则公式(6)可以转化为:
Figure BDA0002274193260000065
根据公式(7)基于1/4球面的单分类支持向量机训练可以转化为排序问题。换句话说,我们只需要从所有映射的数据中找出特征空间中第j′+1个的内积。
根据定理1,我们知道原点到xj′+1的距离:
||Φ′(xj′+1)||=κc(xj′+1,xj′+1)=dj′+1=R2 (8)
因此,xj′+1是位于特征空间中球体的边界支持向量。
实际上,边界支持向量可以用一种更有效的方法找到。我们用κk表示原始核函数{κk|∑lk(xk,xl)}的和。将所有训练数据的总和按升序排序,得到序列{κk′|1≤k′≤n}。
在升序序列{κk′|1≤k′≤n}中,可以得到:
Figure BDA0002274193260000061
对于所有的xi′,在核函数k(xi′,xi′)下距离是相同的。而
Figure BDA0002274193260000062
可以被常数c代替,因此,di′反比于κi′。在升序序列{κk′|1≤k′≤n}中,/>
Figure BDA0002274193260000063
有第k′+1个最小的值κk′+1,在降序序列{di′|1≤i′≤n}中,/>
Figure BDA0002274193260000064
有第k′+1个最大的值dk′+1。根据引理1,xk′+1是一个边界支持向量。
(203)、根据步骤(202),得到历史数据X的边界支持向量X_Border;
(204)、找到边界支持向量X_Border在高维空间中对应按行求和后的内积St
步骤(104)中,利用检测模型对实时采集的传感器数据x进行检测的具体步骤如下:
(401)、将步骤(101)得到的历史数据X、步骤(104)中采集的传感器数据x和步骤(204)得到的边界支持向量对应内积St输入测试模型;
(402)、将步骤(101)得到的历史数据X和步骤(104)中采集的传感器数据x通过核函数求取内积S′,再与St作比较,如果S′>St,根据决策函数对测试数据产生标签,其中正常数据为1,异常数据为-1,检测过程如下:
根据测试模型可知,因为xk′+1为κk′+1的一个边界支持向量,这意味着特征空间中所有正常的数据都比xk′+1更接近原点。当且仅当x到原点的距离大于特征空间中xk′+1到原点的距离时,x为异常。因此,我们有
Figure BDA0002274193260000071
得到:
||Φ′(x)||>||Φ′(xk′+1)|| (11)
上式可以等价于:
Figure BDA0002274193260000072
其中k(x,x)=k(xk′+1,xk′+1)在核函数下距离是相同的。而
Figure BDA0002274193260000073
是一个常数,可以被常数c代替,可以得到:/>
Figure BDA0002274193260000074
即f(x)<f(x0)。
为方便检测,设计决策函数f(x),
Figure BDA0002274193260000075
当f(x)为-1时,x为异常数据,当f(x)为+1时,x为正常数据;
(403)、根据步骤(402)检测的结果,输出标签为1或-1的检测结果,其中正常数据标签为1,异常数据标签为-1。
本发明提出了一种针对传感器数据的无监督异常检测方法。该方法首先核函数将训练样本映射到特征空间,其次对特征空间中的内积按行进行求和并按升序进行排序,然后找到边界支持向量在特征空间中对应的内积,将测试数据与训练数据作内积,最后比较两个内积的大小,以此来判断是否为异常数据。该方法通过计算相对距离来实现在线检测。本发明的方法能够很好的解决在线式无监督检测的问题,节省了时间成本,同时提高了测量结果的正确率。
本发明的优点在于:
(1)提出了一种在线式无监督异常检测模型;
(2)大大地提高了异常数据检测的正确率;
(3)通过计算相对距离来实现在线检测;
(4)该发明通过将线性优化问题转化为核函数的排序问题,降低了算法时间复杂度,大大地节省了时间。
附图说明
图1为本发明方法流程框图。
图2为本发明中在线式无监督的训练模型。
图3为本发明中训练模型流程框图。
图4为本发明中改进后的1/4支持向量机模型。
图5为本发明中在线式无监督的测试模型。
图6为本发明中测试模型流程框图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
如图1所示,本发明了提供了一种针对传感器数据的无监督异常检测方法,包括以下步骤:
(101)、获取历史数据:选择某时间段内的若干连续传感器数据样本作为用于模型训练的历史数据X;
如图2所示,(102)、建立训练模型,通过历史数据X对训练模型进行训练:
在训练模型中,计算训练数据X的高斯核函数矩阵K。K为n*n的矩阵,第i行第j列为Kij第i个训练样本Xi与第j个训练样本Xj的高斯核函数。高斯核函数(又称RBF核函数)的表达式为:
Figure BDA0002274193260000091
其中公式(1)表示Xi与Xj在高维空间的内积。
在得到核函数矩阵K后,对K的每一行数据进行求和得到S,S为n*1的向量。对求和后的S按照升序进行排序,并找到边界支持向量对应的St,将St作为异常数据的判定阈值;
(201)、将历史数据X输入到训练模型,通过历史数据对训练模型进行训练;
如图4所示,(202)、将步骤(101)得到的历史数据X输入到改进后的1/4球面支持向量机,通过改进后的1/4球面支持向量机进行检测,对每个数据都产生标签,其中正常数据为1,异常数据为-1,所述的改进后的1/4球面支持向量机是在原有的1/4球面支持向量机基础之上,首先用核函数将训练样本映射到特征空间,其次对特征空间中的内积按行进行求和并按升序进行排序,然后找到边界支持向量在特征空间中对应的内积,将测试数据与训练数据作内积,最后比较两个内积的大小,以此来判断是否为异常数据。检测过程如下:
训练样本X={xi,1≤i≤n}在特征空间的1/4球面半径R可通过求解以下公式(2)得到:
Figure BDA0002274193260000092
约束条件:
Figure BDA0002274193260000093
公式(1)中,Φ(·)为样本到高维特征空间的映射函数,R为高维空间中超球面的半径,ξi是松弛变量,允许部分样本在球面之外,v∈(0,1)为在球面之外样本的比率,
Figure BDA0002274193260000094
表示实数集,/>
Figure BDA0002274193260000095
表示n维的实数集;
为简化公式(2)的计算,可将公式(2)转换为对偶形式,将半径R的求解问题转换为拉格朗日乘子αi的求解问题,对偶形式的表达公式(3)为:
Figure BDA0002274193260000101
约束条件:
Figure BDA0002274193260000102
公式(3)中,k(xi,xi)为基于距离的核函数,αi为拉格朗日系数;
由于基于距离的核函数k(xi,xi)对于任何样本节点均相等,因此公式(3)无法求得有意义的解,可以通过将核函数中心化的方法解决无法求得有意义的解的问题,即定义中心化后的核函数kc如公式(4):
kc=k-1nk-k1n+1nk1n (4),
公式(4)中,1n为n×n的矩阵,矩阵元素均为
Figure BDA0002274193260000103
此时公式(3)可转换为:
Figure BDA0002274193260000104
约束条件:
Figure BDA0002274193260000105
使用di表示内积<Φ′(xi),Φ′(xj)>,它也可以表示中心核函数kc(xi,xi)。用di替换公式(5)中的kc(xi,xi),并排序得到一个升序序列{di′|1≤i′≤n},则问题可以转化为:
Figure BDA0002274193260000106
因为第j′+1内积dj′+1,其中
Figure BDA0002274193260000107
则公式(6)可以转化为:
Figure BDA0002274193260000108
根据公式(7)基于1/4球面的单分类支持向量机训练可以转化为排序问题。换句话说,我们只需要从所有映射的数据中找出特征空间中第j′+1个的内积。
根据定理1,我们知道原点到xj′+1的距离:
||Φ′(xj′+1)||=κc(xj′+1,xj′+1)=dj′+1=R2 (8)
因此,xj′+1是位于特征空间中球体的边界支持向量。
实际上,边界支持向量可以用一种更有效的方法找到。我们用κk表示原始核函数{κk|∑lk(xk,xl)}的和。将所有训练数据的总和按升序排序,得到序列{κk′|1≤k′≤n}。
在升序序列{κk′|1≤k′≤n}中,可以得到:
Figure BDA0002274193260000111
对于所有的xi′,在核函数k(xi′,xi′)下距离是相同的。而
Figure BDA0002274193260000112
可以被常数c代替,因此,di′反比于κi′。在升序序列{κk′|1≤k′≤n}中,/>
Figure BDA0002274193260000113
有第k′+1个最小的值κk′+1,在降序序列{di′|1≤i′≤n}中,/>
Figure BDA0002274193260000114
有第k′+1个最大的值dk′+1。根据引理1,xk′+1是一个边界支持向量。
(203)、根据步骤(202),得到历史数据X的边界支持向量X_Border;
(204)、找到边界支持向量X_Border在高维空间中对应按行求和后的内积St
如图3所示,(103)、重新以固定时间间隔获取实时采集的传感器数据x;;
(104)、对实时采集的传感器数据x进行检测:
计算步骤(104)中采集的传感器数据x与步骤(101)中历史数据X的高斯核函数,得到核函数向量K′。K′为n*1的向量,K′中第i个元素K′i为x与第i个训练样本xi的高斯核。计算K′中所有元素的加和,得到S′;比较St和S′的大小;根据比较结果判断是否为异常数据,如果S′>St,则为正常数据,反之,则为异常数据。
(401)、将步骤(101)得到的历史数据X、步骤(104)中采集的传感器数据x和步骤(204)得到的边界支持向量对应内积St输入测试模型;
(402)、将步骤(101)得到的历史数据X和步骤(104)中采集的传感器数据x通过核函数求取内积S′,再与St作比较,如果S′>St,根据决策函数对测试数据产生标签,其中正常数据为1,异常数据为-1,检测过程如下:
如图5、6所示,根据测试模型可知,因为xk′+1为κk′+1的一个边界支持向量,这意味着特征空间中所有正常的数据都比xk′+1更接近原点。当且仅当x到原点的距离大于特征空间中xk′+1到原点的距离时,x为异常。因此,我们有
Figure BDA0002274193260000121
得到:
||Φ′(x)||>||Φ′(xk′+1)|| (11)
上式可以等价于:
Figure BDA0002274193260000122
其中k(x,x)=k(xk′+1,xk′+1)在核函数下距离是相同的。而
Figure BDA0002274193260000123
是一个常数,可以被常数c代替,可以得到:/>
Figure BDA0002274193260000124
即f(x)<f(x0)。
为方便检测,设计决策函数f(x),
Figure BDA0002274193260000125
当f(x)为-1时,x为异常数据,当f(x)为+1时,x为正常数据;
(403)、根据步骤(402)检测的结果,输出标签为1或-1的检测结果,其中正常数据标签为1,异常数据标签为-1。
(105)、输出检测出的异常数据。
步骤(102)、(103)、(104)、(105)算法的伪代码如表1所示:
表1伪代码表
Figure BDA0002274193260000131
伪代码说明:
输入训练数据X,测试数据xtest,自定义参数ν
输出异常数据ytest为测试数据的标签,1为正常数据,-1为异常数据;
该算法首先用核函数处理训练数据得到内积K(第3行),然后对每一行数据进行求和得到κ(第4行),对求和后的κ按照升序进行排序,并找到第
Figure BDA0002274193260000132
个向量/>
Figure BDA0002274193260000133
该向量即为边界支持向量映射到高维特征空间对应的内积(第5行),将测试数据xtest和训练数据X作内积,得到ktest(第6行),对得到的ktest按行求和得到κtest(第7行),比较κtest和/>
Figure BDA0002274193260000135
的大小,如果κtest小于/>
Figure BDA0002274193260000134
则为异常数据(即返回标签为-1),反之则为正常(即返回标签为1)(第8-12行),最后返回测试数据的标签ytest(第13行)。/>

Claims (5)

1.一种针对传感器数据的无监督异常检测方法,其特征在于:包括以下步骤:
(101)、获取历史数据:选择某时间段内的若干连续传感器数据样本作为用于模型训练的历史数据X;
(102)、建立训练模型,通过历史数据X对训练模型进行训练:
在训练模型中,计算训练数据X的高斯核函数矩阵K,K为n*n的矩阵,第i行第j列为Kij第i个训练样本Xi与第j个训练样本Xj的高斯核函数,高斯核函数的表达式为:
Figure FDA0002274193250000011
其中公式(1)表示Xi与Xj在高维空间的内积;
在得到核函数矩阵K后,对K的每一行数据进行求和得到S,S为n*1的向量,对求和后的S按照升序进行排序,并找到边界支持向量对应的St,将St作为异常数据的判定阈值;
(103)、重新以固定时间间隔获取实时采集的传感器数据x;
(104)、对实时采集的传感器数据x进行检测:
计算所述的传感器数据x与步骤(101)中历史数据X的高斯核函数,得到核函数向量K′,K′为n*1的向量,K′中第i个元素K′i为x与第i个训练样本xi的高斯核,计算K′中所有元素的加和,得到S′;比较St和S′的大小;根据比较结果判断是否为异常数据,如果S′>St,则为正常数据,反之,则为异常数据;
(105)、输出检测出的异常数据。
2.根据权利要求1所述的一种针对传感器数据的无监督异常检测方法,其特征在于:步骤(101)和步骤(104)中的传感器数据,均是从传感器网络后台的管理监测系统中得到的。
3.根据权利要求1所述的一种针对传感器数据的无监督异常检测方法,其特征在于:步骤(102)中,利用步骤(101)得到的历史数据X对检测模型中的训练模型进行训练的具体步骤如下:
(201)、将历史数据X输入到训练模型,通过历史数据对训练模型进行训练;
(202)、将步骤(101)得到的历史数据X输入到1/4球面支持向量机,通过1/4球面支持向量机进行检测,对每个数据都产生标签,其中正常数据为1,异常数据为-1,检测过程如下:
训练样本X={xi,1≤i≤n}在特征空间的1/4球面半径R可通过求解以下公式(2)得到:
Figure FDA0002274193250000021
约束条件:
Figure FDA0002274193250000022
公式(1)中,Φ(·)为样本到高维特征空间的映射函数,R为高维空间中超球面的半径,ξi是松弛变量,允许部分样本在球面之外,v∈(0,1)为在球面之外样本的比率,
Figure FDA0002274193250000023
表示实数集,
Figure FDA0002274193250000024
表示n维的实数集;
简化公式(2)的计算,将公式(2)转换为对偶形式,将半径R的求解问题转换为拉格朗日乘子αi的求解问题,对偶形式的表达公式(3)为:
Figure FDA0002274193250000025
约束条件:
Figure FDA0002274193250000026
公式(3)中,k(xi,xi)为基于距离的核函数,αi为拉格朗日系数;
由于基于距离的核函数k(xi,xi)对于任何样本节点均相等,因此公式(3)无法求得有意义的解,将核函数中心化,即定义中心化后的核函数为kc,如公式(4):
kc=k-1nk-k1n+1nk1n (4),
公式(4)中,1n为n×n的矩阵,矩阵元素均为
Figure FDA0002274193250000031
此时公式(3)转换为:
Figure FDA0002274193250000032
约束条件:
Figure FDA0002274193250000033
使用di表示内积<Φ′(xi),Φ′(xj)>,它也表示中心核函数kc(xi,xi),用di替换公式(5)中的kc(xi,xi),并排序得到一个升序序列{di′|1≤i′≤n},则问题转化为:
Figure FDA0002274193250000034
因为第j′+1内积dj′+1,其中
Figure FDA0002274193250000035
则公式(6)转化为:
Figure FDA0002274193250000036
根据公式(7)基于1/4球面的单分类支持向量机训练转化为排序问题,只需要从所有映射的数据中找出特征空间中第j′+1个的内积;
根据定理1,原点到xj′+1的距离表示为:
||Φ′(xj′+1)||=κc(xj′+1,xj′+1)=dj′+1=R2 (8)
因此,xj′+1是位于特征空间中球体的边界支持向量;
用κk表示原始核函数{κk|∑lk(xk,xl)}的和,将所有训练数据的总和按升序排序,得到序列{κk′|1≤k′≤n};
在升序序列{κk′|1≤k′≤n}中,得到:
Figure FDA0002274193250000041
对于所有的xi′,在核函数k(xi′,xi′)下距离是相同的,而
Figure FDA0002274193250000042
可以被常数c代替,因此,di′反比于κi′,在升序序列{κk′|1≤k′≤n}中,
Figure FDA0002274193250000043
有第k′+1个最小的值κk′+1,在降序序列{di′|1≤i′≤n}中,
Figure FDA0002274193250000044
有第k′+1个最大的值dk′+1,根据引理1,xk′+1是一个边界支持向量;
(203)、根据步骤(202),得到历史数据X的边界支持向量X_Border;
(204)、找到边界支持向量X_Border在高维空间中对应按行求和后的内积St
4.根据权利要求3所述的一种针对传感器数据的无监督异常检测方法,其特征在于:步骤(104)中,对实时采集的传感器数据x进行检测的具体步骤如下:
(401)、将步骤(101)得到的历史数据X、步骤(104)中采集的传感器数据x和步骤(204)得到的边界支持向量对应内积St输入测试模型;
(402)、将步骤(101)得到的历史数据X和步骤(104)中采集的传感器数据x通过核函数求取内积S′,再与St作比较,如果S′>St,根据决策函数对测试数据产生标签,其中正常数据为1,异常数据为-1,检测过程如下:
根据测试模型可知,因为xk′+1为κk′+1的一个边界支持向量,这意味着特征空间中所有正常的数据都比xk′+1更接近原点,当且仅当x到原点的距离大于特征空间中xk′+1到原点的距离时,x为异常,因此,有
Figure FDA0002274193250000045
得到:
||Φ′(x)||>||Φ′(xk′+1)|| (11)
上式等价于:
Figure FDA0002274193250000051
其中k(x,x)=k(xk′+1,xk′+1)在核函数下距离是相同的,而
Figure FDA0002274193250000052
是一个常数,可以被常数c代替,得到:
Figure FDA0002274193250000053
即f(x)<f(x0);
设计决策函数f(x),
Figure FDA0002274193250000054
当f(x)为-1时,x为异常数据,当f(x)为+1时,x为正常数据;
(403)、根据步骤(402)检测的结果,输出标签为1或-1的检测结果,其中正常数据标签为1,异常数据标签为-1。
5.根据权利要求4所述的一种针对传感器数据的无监督异常检测方法,其特征在于:所述的1/4球面支持向量机首先用核函数将训练样本映射到特征空间,其次对特征空间中的内积按行进行求和并按升序进行排序,然后找到边界支持向量在特征空间中对应的内积,将测试数据与训练数据作内积,最后比较两个内积的大小,以此来判断是否为异常数据。
CN201911116431.3A 2019-11-15 2019-11-15 一种针对传感器数据的无监督异常检测方法 Active CN110826642B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911116431.3A CN110826642B (zh) 2019-11-15 2019-11-15 一种针对传感器数据的无监督异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911116431.3A CN110826642B (zh) 2019-11-15 2019-11-15 一种针对传感器数据的无监督异常检测方法

Publications (2)

Publication Number Publication Date
CN110826642A CN110826642A (zh) 2020-02-21
CN110826642B true CN110826642B (zh) 2023-03-24

Family

ID=69555371

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911116431.3A Active CN110826642B (zh) 2019-11-15 2019-11-15 一种针对传感器数据的无监督异常检测方法

Country Status (1)

Country Link
CN (1) CN110826642B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507376B (zh) * 2020-03-20 2023-04-28 厦门大学 一种基于多种无监督方法融合的单指标异常检测方法
CN112115984A (zh) * 2020-08-28 2020-12-22 安徽农业大学 基于深度学习的茶园异常数据校正方法、系统和存储介质
CN112580153B (zh) * 2020-12-29 2022-10-11 成都运达科技股份有限公司 一种车辆走行部监测部件健康状态管理系统及方法
CN113093985B (zh) * 2021-06-09 2021-09-10 中国南方电网有限责任公司超高压输电公司广州局 传感器数据链路异常检测方法、装置和计算机设备
CN117313020B (zh) * 2023-11-30 2024-01-26 山东海纳智能装备科技股份有限公司 一种承载式张力传感器数据处理方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016082284A1 (zh) * 2014-11-26 2016-06-02 中国科学院沈阳自动化研究所 基于OCSVM双轮廓模型的Modbus TCP通信行为异常检测方法
CN107728589A (zh) * 2017-09-25 2018-02-23 华南理工大学 一种柔性ic基板蚀刻显影工艺过程的在线监控方法
CN109612513A (zh) * 2018-12-17 2019-04-12 安徽农业大学 一种面向大规模高维传感器数据的在线式异常检测方法
CN109816119A (zh) * 2019-02-02 2019-05-28 南京邮电大学 一种基于无监督学习的无线传感器异常数据检测方法
CN110309886A (zh) * 2019-07-08 2019-10-08 安徽农业大学 基于深度学习的无线传感器高维数据实时异常检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016082284A1 (zh) * 2014-11-26 2016-06-02 中国科学院沈阳自动化研究所 基于OCSVM双轮廓模型的Modbus TCP通信行为异常检测方法
CN107728589A (zh) * 2017-09-25 2018-02-23 华南理工大学 一种柔性ic基板蚀刻显影工艺过程的在线监控方法
CN109612513A (zh) * 2018-12-17 2019-04-12 安徽农业大学 一种面向大规模高维传感器数据的在线式异常检测方法
CN109816119A (zh) * 2019-02-02 2019-05-28 南京邮电大学 一种基于无监督学习的无线传感器异常数据检测方法
CN110309886A (zh) * 2019-07-08 2019-10-08 安徽农业大学 基于深度学习的无线传感器高维数据实时异常检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种基于有监督局部决策分层支持向量机的异常检测方法;徐琴珍等;《电子与信息学报》;20101015(第10期);全文 *
基于支持向量数据描述的异常检测方法;杨敏等;《计算机工程》;20050305(第03期);全文 *

Also Published As

Publication number Publication date
CN110826642A (zh) 2020-02-21

Similar Documents

Publication Publication Date Title
CN110826642B (zh) 一种针对传感器数据的无监督异常检测方法
CN110309886B (zh) 基于深度学习的无线传感器高维数据实时异常检测方法
CN109612513B (zh) 一种面向大规模高维传感器数据的在线式异常检测方法
CN115618296B (zh) 一种基于图注意力网络的大坝监测时序数据异常检测方法
Zamry et al. Unsupervised anomaly detection for unlabelled wireless sensor networks data
Li et al. Information-theoretic performance analysis of sensor networks via Markov modeling of time series data
Su et al. A novel deep transfer learning method with inter-domain decision discrepancy minimization for intelligent fault diagnosis
CN116208417A (zh) 一种基于大数据的通信异常感知系统及方法
Chou et al. SHM data anomaly classification using machine learning strategies: A comparative study
Hamzah et al. A review of support vector machine-based intrusion detection system for wireless sensor network with different kernel functions
CN112183624A (zh) 一种基于集成学习的大坝监测数据异常检测方法
Li et al. Knowledge enhanced ensemble method for remaining useful life prediction under variable working conditions
Khelil et al. Self-Organizing Maps-Based Features Selection with Deep LSTM and SVM Classification Approaches for Advanced Water Quality Monitoring.
DS et al. Comparative analysis of machine learning-based algorithms for detection of anomalies in IIoT
Febriansyah et al. Outlier detection and decision tree for wireless sensor network fault diagnosis
Saneja et al. A hybrid approach for outlier detection in weather sensor data
CN113516162A (zh) 一种基于OCSVM和K-means算法的工控系统流量异常检测方法与系统
Alhoniemi et al. Analysis of complex systems using the self-organizing map
Chen et al. MTS-GAT: multivariate time series anomaly detection based on graph attention networks
Chen Data Quality Assessment Methodology for Improved Prognostics Modeling
Zhang et al. A hybrid adversarial domain adaptation network for bearing fault diagnosis under varying working conditions
Liu et al. A novel process monitoring method based on dynamic related ReliefF-SFA method
Hamzah et al. Performance Evaluation of Support Vector Machine Kernels in Intrusion Detection System for Wireless Sensor Network
CN114584350B (zh) 基于流形的网络数据包特征的降维及聚类的攻击识别方法
Khelil et al. Sensor Anomaly Detection using Self Features Organizing Maps and Hierarchical-Clustring for Water Quality Assessment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant