CN110826642B

CN110826642B - 一种针对传感器数据的无监督异常检测方法

Info

Publication number: CN110826642B
Application number: CN201911116431.3A
Authority: CN
Inventors: 乔焰; 金鹏; 苏仕芳; 焦俊; 张武; 马慧敏
Original assignee: Anhui Agricultural University AHAU
Current assignee: Anhui Agricultural University AHAU
Priority date: 2019-11-15
Filing date: 2019-11-15
Publication date: 2023-03-24
Anticipated expiration: 2039-11-15
Also published as: CN110826642A

Abstract

本发明公开了一种针对传感器数据的无监督异常检测方法，包括以下步骤：(101)、获取历史数据；(102)、建立训练模型，通过历史数据对训练模型进行训练；(103)、重新以固定时间间隔获取实时采集的传感器数据；(104)、对实时采集的传感器数据进行检测；(105)、输出检测出的异常数据。本发明改进了现有技术的相关算法和流程，提出了一个在线式无监督检测技术的方法，在大大地提高了异常数据检测的正确率的同时大大降低了检测时间。

Description

一种针对传感器数据的无监督异常检测方法

技术领域

本发明涉及传感器网络异常数据处理方法领域，具体是一种针对传感器数据的无监督异常检测方法。

背景技术

无线传感器网络中异常检测算法的关键挑战是在消耗资源最少的情况下高精度地识别异常。然而，严酷的部署环境和传感器能力(能量、CPU、内存等)的受限使得WSNs极其容易受到人为不当操作、恶意攻击以及传感器自身故障的影响，导致异常数据的频繁产生。而对掺杂异常数据集合的分析会严重影响有效信息的挖掘及关键决策的制定，因此实时准确地检测出无线传感器网络所采集的异常数据变得愈发重要。及时检测出异常数据一方面可以更好的保证传感器所采集数据的安全性和可靠性；另一方面，异常数据在某些监测环境下能够发挥重要的作用，例如，可通过采集到的异常数据来判断是否发生了某种突发事件(如火灾、空气污染、洪水及人为破坏等)。然而，随着传感器网络规模的不断扩大，及所采集数据的日趋复杂，对传感器数据异常的检测变得越来越困难，主要表现为以下几个方面：

第一：无论是分布式还是集中式的数据处理，均要求对异常数据的检测要具备较低的时间和空间复杂度，从而应对海量的采集数据；

第二：由于传感器通常实时地采集并上传数据，因此要求数据的异常检测需要具备在线检测的能力；

第三：多数传感器网络中的数据都是没有标记的，预先标记的数是非常难以获取的，因此要求数据的异常检测需要具备无监督学习的能力。

过去的几年中，已经有不少学者提出了无线传感器网络的异常数据检测方法，主要可以分为以下四类：

第一种类型是基于近邻的方法，通过计算自身数据与相邻节点数据之间的距离来确定自身数据是否异常，如果某个数据与邻居节点采集的数据存在较大差异则称为异常数据，但是计算每个数据之间的距离会花费较长的时间，无法应用在大规模传感器网络中。

第二种类型是基于聚类的方法，通过对数据分簇来孤立异常数据，但此方法需要在得到全部数据后再进行分簇，不能在线式地检测异常数据。

第三种类型是基于统计的方法，是利用历史数据分布，建立数据的统计模型，不符合该模型的数据视为异常数据。但对于维度较大的数据集合，该方法很难建立较准确的统计模型。

第四种类型是基于分类的方法，通过历史数据训练得到一个分类模型，再将待检测数据分类到所属的模型之中，不属于任何类型的数据，将视为异常数据.该方法能够在保证检测准确度的情况下满足在线检测的需求，是近几年较为主流的异常检测方法。其中基于单类支持向量机的异常检测方法是目前应用最广泛的基于分类的异常检测方法之一,它能在无监督模式下高效实时地检测所采集数据中的异常数据，但单分类支持向量机也存在重要的缺陷，由于在训练过程中需要求解非线性规划问题，当数据维度增加时，训练时间会呈指数级增加。

现有技术申请号为CN201810314827的中国专利：适用于无线传感器网络的异常数据检测方法，其利用基于PCA提出了局部检测和全局检测相结合的双重检测机制，重点关注如何选择簇头节点的分类方法，并没有考虑传感器网络数据的实时检测。

申请号为CN201711439910的中国专利：一种无线传感器网络异常数据检测方法，其重点通过置信区间来进行异常数据检测，无法满足无监督的传感器数据异常检测。

申请号为CN201710047973的中国专利：传感器网络异常数据检测方法与系统，该方法同样仅利用空间相关检测及时间相关检测的检测结果，判断该异常数据是事件数据或恶意数据，同样无法满足无监督的传感器数据异常检测。

专利号为201910106221.X一种基于无监督学习的无线传感器异常数据检测方法，与本专利的区别：该方法使用最原始的1/4球面支持向量机；也无法实现在线式异常检测且使用最原始的1/4球面支持向量机，检测模型与本文中也大相径庭。

刊物名称International Journal of Distributed Sensor Networks，于2015年发布的由作者Pu Cheng，Minghua Zhu撰写的文献：Lightweight anomaly detection forwireless sensor networks，该文献中通过将排序的方法结合单分类支持向量机检测方法，对于异常数据的检测效果较差，并且无法满足传感器网络实时数据检测的要求。

发明内容

本发明的目的是提供一种针对传感器数据的无监督异常检测方法，以解决现有技术无法对传感器数据进行实时无监督检测的问题。

为了达到上述目的，本发明所采用的技术方案为：

一种针对传感器数据的无监督异常检测方法，包括以下步骤：

(101)、获取历史数据：选择某时间段内的若干连续传感器数据样本作为用于模型训练的历史数据X；

(102)、建立训练模型，通过历史数据X对训练模型进行训练：

在训练模型中，计算训练数据X的高斯核函数矩阵K。K为n*n的矩阵，第i行第j列为K_ij第i个训练样本X_i与第j个训练样本X_j的高斯核函数。高斯核函数(又称RBF核函数)的表达式为：

其中公式(1)表示X_i与X_j在高维空间的内积。σ代表的是域宽，用于支持向量机异常检测中，表示在正常数据中可以允许的异常样本数，σ越大，允许的越多。

在得到核函数矩阵K后，对K的每一行数据进行求和得到S，S为n*1的向量。对求和后的S按照升序进行排序，并找到边界支持向量对应的S_t，将S_t作为异常数据的判定阈值；

(103)、重新以固定时间间隔获取实时采集的传感器数据x；；

(104)、对实时采集的传感器数据x进行检测：

计算步骤(104)中采集的传感器数据x与步骤(101)中历史数据X的高斯核函数，得到核函数向量K′。K′为n*1的向量，K′中第i个元素K′_i为x与第i个训练样本x_i的高斯核。计算K′中所有元素的加和，得到S′；比较S_t和S′的大小；根据比较结果判断是否为异常数据，如果S′＞S_t，则为正常数据，反之，则为异常数据。

(105)、输出检测出的异常数据。

步骤(101)和步骤(104)中的传感器数据，均是从传感器网络后台的管理监测系统中得到的

步骤(102)中，利用步骤(101)得到的历史数据X对检测模型中的训练模型的具体步骤如下：

(201)、将历史数据X输入到训练模型，通过历史数据对训练模型进行训练；

(202)、将步骤(101)得到的历史数据X输入到改进后的1/4球面支持向量机，通过改进后的1/4球面支持向量机进行检测，对每个数据都产生标签，其中正常数据为1，异常数据为-1，改进后的1/4球面支持向量机是在原有1/4球面支持向量机之上，首先用核函数将训练样本映射到特征空间，其次对特征空间中的内积按行进行求和并按升序进行排序，然后找到边界支持向量在特征空间中对应的内积，将测试数据与训练数据作内积，最后比较两个内积的大小，以此来判断是否为异常数据。检测过程如下：

训练样本X＝{x_i,1≤i≤n}在特征空间的1/4球面半径R可通过求解以下公式(2)得到：

约束条件：

公式(1)中，Φ(·)为样本到高维特征空间的映射函数，R为高维空间中超球面的半径，ξ_i是松弛变量，允许部分样本在球面之外，v∈(0,1)为在球面之外样本的比率,

表示实数集，/>

表示n维的实数集；

为简化公式(2)的计算，可将公式(2)转换为对偶形式,将半径R的求解问题转换为拉格朗日乘子α_i的求解问题，对偶形式的表达公式(3)为：

约束条件：

公式(3)中，k(x_i,x_i)为基于距离的核函数，α_i为拉格朗日系数；

由于基于距离的核函数k(x_i,x_i)对于任何样本节点均相等，因此公式(3)无法求得有意义的解，可以通过将核函数中心化的方法解决无法求得有意义的解的问题，即定义中心化后的核函数k_c如公式(4)：

k_c＝k-1_nk-k1_n+1_nk1_n (4)，

公式(4)中，1_n为n×n的矩阵，矩阵元素均为

k指的就是前两行中的k(x_i,x_i)

此时公式(3)可转换为：

约束条件：

使用d_i表示内积<Φ′(x_i),Φ′(x_j)＞，它也可以表示中心核函数k_c(x_i,x_i)。用d_i替换公式(5)中的k_c(x_i,x_i)，并排序得到一个升序序列{d_i′|1≤i′≤n}，则问题可以转化为：

因为第j′+1内积d_j′+1，其中

则公式(6)可以转化为：

根据公式(7)基于1/4球面的单分类支持向量机训练可以转化为排序问题。换句话说，我们只需要从所有映射的数据中找出特征空间中第j′+1个的内积。

根据定理1，我们知道原点到x_j′+1的距离：

||Φ′(x_j′+1)||＝κ_c(x_j′+1,x_j′+1)＝d_j′+1＝R² (8)

因此，x_j′+1是位于特征空间中球体的边界支持向量。

实际上，边界支持向量可以用一种更有效的方法找到。我们用κ_k表示原始核函数{κ_k|∑_lk(x_k,x_l)}的和。将所有训练数据的总和按升序排序，得到序列{κ_k′|1≤k′≤n}。

在升序序列{κ_k′|1≤k′≤n}中，可以得到：

对于所有的x_i′，在核函数k(x_i′,x_i′)下距离是相同的。而

可以被常数c代替，因此，d_i′反比于κ_i′。在升序序列{κ_k′|1≤k′≤n}中，/>

有第k′+1个最小的值κ_k′+1，在降序序列{d_i′|1≤i′≤n}中，/>

有第k′+1个最大的值d_k′+1。根据引理1,x_k′+1是一个边界支持向量。

(203)、根据步骤(202)，得到历史数据X的边界支持向量X_Border；

(204)、找到边界支持向量X_Border在高维空间中对应按行求和后的内积S_t。

步骤(104)中，利用检测模型对实时采集的传感器数据x进行检测的具体步骤如下：

(401)、将步骤(101)得到的历史数据X、步骤(104)中采集的传感器数据x和步骤(204)得到的边界支持向量对应内积S_t输入测试模型；

(402)、将步骤(101)得到的历史数据X和步骤(104)中采集的传感器数据x通过核函数求取内积S′，再与S_t作比较，如果S′＞S_t，根据决策函数对测试数据产生标签，其中正常数据为1，异常数据为-1，检测过程如下：

根据测试模型可知，因为x_k′+1为κ_k′+1的一个边界支持向量，这意味着特征空间中所有正常的数据都比x_k′+1更接近原点。当且仅当x到原点的距离大于特征空间中x_k′+1到原点的距离时，x为异常。因此,我们有

得到：

||Φ′(x)||＞||Φ′(x_k′+1)|| (11)

上式可以等价于：

其中k(x,x)＝k(x_k′+1,x_k′+1)在核函数下距离是相同的。而

是一个常数，可以被常数c代替，可以得到：/>

即f(x)＜f(x₀)。

为方便检测，设计决策函数f(x),

当f(x)为-1时，x为异常数据，当f(x)为+1时，x为正常数据；

(403)、根据步骤(402)检测的结果，输出标签为1或-1的检测结果，其中正常数据标签为1，异常数据标签为-1。

本发明提出了一种针对传感器数据的无监督异常检测方法。该方法首先核函数将训练样本映射到特征空间，其次对特征空间中的内积按行进行求和并按升序进行排序，然后找到边界支持向量在特征空间中对应的内积，将测试数据与训练数据作内积，最后比较两个内积的大小，以此来判断是否为异常数据。该方法通过计算相对距离来实现在线检测。本发明的方法能够很好的解决在线式无监督检测的问题，节省了时间成本，同时提高了测量结果的正确率。

本发明的优点在于：

(1)提出了一种在线式无监督异常检测模型；

(2)大大地提高了异常数据检测的正确率；

(3)通过计算相对距离来实现在线检测；

(4)该发明通过将线性优化问题转化为核函数的排序问题，降低了算法时间复杂度，大大地节省了时间。

附图说明

图1为本发明方法流程框图。

图2为本发明中在线式无监督的训练模型。

图3为本发明中训练模型流程框图。

图4为本发明中改进后的1/4支持向量机模型。

图5为本发明中在线式无监督的测试模型。

图6为本发明中测试模型流程框图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

如图1所示，本发明了提供了一种针对传感器数据的无监督异常检测方法，包括以下步骤：

如图2所示，(102)、建立训练模型，通过历史数据X对训练模型进行训练：

其中公式(1)表示X_i与X_j在高维空间的内积。

如图4所示，(202)、将步骤(101)得到的历史数据X输入到改进后的1/4球面支持向量机，通过改进后的1/4球面支持向量机进行检测，对每个数据都产生标签，其中正常数据为1，异常数据为-1，所述的改进后的1/4球面支持向量机是在原有的1/4球面支持向量机基础之上，首先用核函数将训练样本映射到特征空间，其次对特征空间中的内积按行进行求和并按升序进行排序，然后找到边界支持向量在特征空间中对应的内积，将测试数据与训练数据作内积，最后比较两个内积的大小，以此来判断是否为异常数据。检测过程如下：

约束条件：

表示实数集，/>

表示n维的实数集；

约束条件：

k_c＝k-1_nk-k1_n+1_nk1_n (4)，

公式(4)中，1_n为n×n的矩阵，矩阵元素均为

此时公式(3)可转换为：

约束条件：

使用d_i表示内积<Φ′(x_i),Φ′(x_j)>，它也可以表示中心核函数k_c(x_i,x_i)。用d_i替换公式(5)中的k_c(x_i,x_i)，并排序得到一个升序序列{d_i′|1≤i′≤n}，则问题可以转化为：

因为第j′+1内积d_j′+1，其中

则公式(6)可以转化为：

根据定理1，我们知道原点到x_j′+1的距离：

||Φ′(x_j′+1)||＝κ_c(x_j′+1,x_j′+1)＝d_j′+1＝R² (8)

因此，x_j′+1是位于特征空间中球体的边界支持向量。

在升序序列{κ_k′|1≤k′≤n}中，可以得到：

对于所有的x_i′，在核函数k(x_i′,x_i′)下距离是相同的。而

(203)、根据步骤(202)，得到历史数据X的边界支持向量X_Border；

如图3所示，(103)、重新以固定时间间隔获取实时采集的传感器数据x；；

(104)、对实时采集的传感器数据x进行检测：

如图5、6所示，根据测试模型可知，因为x_k′+1为κ_k′+1的一个边界支持向量，这意味着特征空间中所有正常的数据都比x_k′+1更接近原点。当且仅当x到原点的距离大于特征空间中x_k′+1到原点的距离时，x为异常。因此,我们有

得到：

||Φ′(x)||＞||Φ′(x_k′+1)|| (11)

上式可以等价于：

其中k(x,x)＝k(x_k′+1,x_k′+1)在核函数下距离是相同的。而

是一个常数，可以被常数c代替，可以得到：/>

即f(x)＜f(x₀)。

为方便检测，设计决策函数f(x),

当f(x)为-1时，x为异常数据，当f(x)为+1时，x为正常数据；

(105)、输出检测出的异常数据。

步骤(102)、(103)、(104)、(105)算法的伪代码如表1所示：

表1伪代码表

伪代码说明:

输入训练数据X，测试数据x_test，自定义参数ν

输出异常数据y_test为测试数据的标签，1为正常数据，-1为异常数据；

该算法首先用核函数处理训练数据得到内积K(第3行)，然后对每一行数据进行求和得到κ(第4行)，对求和后的κ按照升序进行排序，并找到第

个向量/>

该向量即为边界支持向量映射到高维特征空间对应的内积(第5行)，将测试数据x_test和训练数据X作内积，得到k_test(第6行)，对得到的k_test按行求和得到κ_test(第7行)，比较κ_test和/>

的大小，如果κ_test小于/>

则为异常数据(即返回标签为-1)，反之则为正常(即返回标签为1)(第8-12行)，最后返回测试数据的标签y_test(第13行)。/>

Claims

1.一种针对传感器数据的无监督异常检测方法，其特征在于：包括以下步骤：

(102)、建立训练模型，通过历史数据X对训练模型进行训练：

在训练模型中，计算训练数据X的高斯核函数矩阵K，K为n*n的矩阵，第i行第j列为K_ij第i个训练样本X_i与第j个训练样本X_j的高斯核函数，高斯核函数的表达式为：

其中公式(1)表示X_i与X_j在高维空间的内积；

在得到核函数矩阵K后，对K的每一行数据进行求和得到S，S为n*1的向量，对求和后的S按照升序进行排序，并找到边界支持向量对应的S_t，将S_t作为异常数据的判定阈值；

(103)、重新以固定时间间隔获取实时采集的传感器数据x；

(104)、对实时采集的传感器数据x进行检测：

计算所述的传感器数据x与步骤(101)中历史数据X的高斯核函数，得到核函数向量K′，K′为n*1的向量，K′中第i个元素K′_i为x与第i个训练样本x_i的高斯核，计算K′中所有元素的加和，得到S′；比较S_t和S′的大小；根据比较结果判断是否为异常数据，如果S′＞S_t，则为正常数据，反之，则为异常数据；

(105)、输出检测出的异常数据。

2.根据权利要求1所述的一种针对传感器数据的无监督异常检测方法，其特征在于：步骤(101)和步骤(104)中的传感器数据，均是从传感器网络后台的管理监测系统中得到的。

3.根据权利要求1所述的一种针对传感器数据的无监督异常检测方法，其特征在于：步骤(102)中，利用步骤(101)得到的历史数据X对检测模型中的训练模型进行训练的具体步骤如下：

(202)、将步骤(101)得到的历史数据X输入到1/4球面支持向量机，通过1/4球面支持向量机进行检测，对每个数据都产生标签，其中正常数据为1，异常数据为-1，检测过程如下：

约束条件：

表示实数集，

表示n维的实数集；

简化公式(2)的计算，将公式(2)转换为对偶形式,将半径R的求解问题转换为拉格朗日乘子α_i的求解问题，对偶形式的表达公式(3)为：

约束条件：

由于基于距离的核函数k(x_i,x_i)对于任何样本节点均相等，因此公式(3)无法求得有意义的解，将核函数中心化，即定义中心化后的核函数为k_c，如公式(4)：

k_c＝k-1_nk-k1_n+1_nk1_n (4)，

公式(4)中，1_n为n×n的矩阵，矩阵元素均为

此时公式(3)转换为：

约束条件：

使用d_i表示内积<Φ′(x_i),Φ′(x_j)>，它也表示中心核函数k_c(x_i,x_i)，用d_i替换公式(5)中的k_c(x_i,x_i)，并排序得到一个升序序列{d_i′|1≤i′≤n}，则问题转化为：

因为第j′+1内积d_j′+1，其中

则公式(6)转化为：

根据公式(7)基于1/4球面的单分类支持向量机训练转化为排序问题，只需要从所有映射的数据中找出特征空间中第j′+1个的内积；

根据定理1，原点到x_j′+1的距离表示为：

||Φ′(x_j′+1)||＝κ_c(x_j′+1,x_j′+1)＝d_j′+1＝R² (8)

因此，x_j′+1是位于特征空间中球体的边界支持向量；

用κ_k表示原始核函数{κ_k|∑_lk(x_k,x_l)}的和，将所有训练数据的总和按升序排序，得到序列{κ_k′|1≤k′≤n}；

在升序序列{κ_k′|1≤k′≤n}中，得到：

对于所有的x_i′，在核函数k(x_i′,x_i′)下距离是相同的，而

可以被常数c代替，因此，d_i′反比于κ_i′，在升序序列{κ_k′|1≤k′≤n}中，

有第k′+1个最小的值κ_k′+1，在降序序列{d_i′|1≤i′≤n}中，

有第k′+1个最大的值d_k′+1，根据引理1,x_k′+1是一个边界支持向量；

(203)、根据步骤(202)，得到历史数据X的边界支持向量X_Border；

4.根据权利要求3所述的一种针对传感器数据的无监督异常检测方法，其特征在于：步骤(104)中，对实时采集的传感器数据x进行检测的具体步骤如下：

根据测试模型可知，因为x_k′+1为κ_k′+1的一个边界支持向量，这意味着特征空间中所有正常的数据都比x_k′+1更接近原点，当且仅当x到原点的距离大于特征空间中x_k′+1到原点的距离时，x为异常，因此,有

得到：

||Φ′(x)||＞||Φ′(x_k′+1)|| (11)

上式等价于：

其中k(x,x)＝k(x_k′+1,x_k′+1)在核函数下距离是相同的，而

是一个常数，可以被常数c代替，得到：

即f(x)＜f(x₀)；

设计决策函数f(x),

当f(x)为-1时，x为异常数据，当f(x)为+1时，x为正常数据；

5.根据权利要求4所述的一种针对传感器数据的无监督异常检测方法，其特征在于：所述的1/4球面支持向量机首先用核函数将训练样本映射到特征空间，其次对特征空间中的内积按行进行求和并按升序进行排序，然后找到边界支持向量在特征空间中对应的内积，将测试数据与训练数据作内积，最后比较两个内积的大小，以此来判断是否为异常数据。