CN108848512B - Svdd无线传感器网络离群数据检测方法 - Google Patents

Svdd无线传感器网络离群数据检测方法 Download PDF

Info

Publication number
CN108848512B
CN108848512B CN201810537171.6A CN201810537171A CN108848512B CN 108848512 B CN108848512 B CN 108848512B CN 201810537171 A CN201810537171 A CN 201810537171A CN 108848512 B CN108848512 B CN 108848512B
Authority
CN
China
Prior art keywords
svdd
decision
model
error
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810537171.6A
Other languages
English (en)
Other versions
CN108848512A (zh
Inventor
李光辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN201810537171.6A priority Critical patent/CN108848512B/zh
Publication of CN108848512A publication Critical patent/CN108848512A/zh
Application granted granted Critical
Publication of CN108848512B publication Critical patent/CN108848512B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/22Traffic simulation tools or models
    • H04W16/225Traffic simulation tools or models for indoor or short range network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/04Arrangements for maintaining operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/08Testing, supervising or monitoring using real traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W84/00Network topologies
    • H04W84/18Self-organising networks, e.g. ad-hoc networks or sensor networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Complex Calculations (AREA)

Abstract

本发明涉及本发明涉及无线传感器网络(WSN)数据可靠性领域,提出了一种基于模型选择的SVDD无线传感器网络离群检测方法。无线传感网络经常被部署于条件恶劣、无人值守的环境中,受到恶劣天气、软硬件故障、能量不足或者恶意攻击等因素的影响,传感器节点感知数据的缺失或错误难以避免。因此,无线传感器数据流的离群检测对于提高系统可用性至关重要。本发明尝试利用傅里叶特征近似高斯核函数,将核函数诱导的特征空间嵌入到一个显式的随机特征空间中,该特征空间中的样本集可利用线性SVDD训练决策模型,该方法极大的减少了核SVDD的时间消耗。

Description

SVDD无线传感器网络离群数据检测方法
技术领域
本专利涉及无线传感器网络数据可靠性领域,提出了一种基于模型选择的SVDD无线传感器网络离群检测方法。该方法在传统核SVDD算法的框架下,引入了随机傅里叶特征映射近似核函数,降低了SVDD检测算法的时间复杂度,同时使用Toeplitz矩阵的循环特点减少存储随机特征矩阵带来的内存消耗。同时引入了模型选择策略,通过支持向量法计算过拟合误差和欠拟合误差,在低特征维度下实现了模型选择。实验表明,该方法在低特征维度下同样具有良好的稳定性。
背景技术
离群检测技术在各个领域中都是一个深入研究的问题,无线传感器网络独特的特点及严格的约束条件使得该问题的研究更具有挑战性。针对无线传感器网络的离群检测问题,目前已经提出过很多种方法,这些方法可以分为基于距离的、基于最近邻的、基于聚类的、基于分类的方法。
比如:
Rahimi A,Recht B.Random features for large-scale kernel machines[C].In:14th International Conference on Neural Information ProcessingSystems.Kitakyushu:Springer,2007:1177-1184
Tax D M J,Duin R P W.Support Vector Data Description[J].MachineLearning,2004,54(1):45-66
Zhang Y,Meratnia N,Havinga P.Outlier Detection Techniques forWireless SensorNetworks:A Survey[J].IEEE Communications Surveys&Tutorials,2010,12(2):159-170
Tax D M J等人提出的SVDD算法在二分类领域具有广泛的应用,该算法主要是通过找到一个以为圆心,为半径的最小圆,该圆能够全部或尽可能多地包含给定数据集中所有的数据点。该方法属于单类分类问题,即指给定的数据集仅包含一个分类标签,其将数据所在区域描述出来,并计算测试集中样本是否与该描述区域相似,若某些测试集样本与该区域差异性较大,则该样本与训练集不相似,该算法追求的目标和离群检测追求的目标十分切合。Rahimi A等人提出的随机傅里叶特征映射算法有效地降低了核函数的时间复杂度,因此对于资源受限的无线传感网络十分适用。
发明内容
基于此,有必要针对上述技术问题,提供一种基于模型选择的SVDD无线传感器网络离群数据检测方法,不同于SVDD算法,本方法在传统SVDD算法框架上,引入随机傅里叶特征近似高斯核函数,并使用过拟合误差和欠拟合误差实现模型选择策略,保证在随机特征维度较低时,依旧保持稳定的检测率和较低的误报率。
一种基于模型选择的SVDD无线传感器网络离群数据检测方法,包括:
步骤一:高斯核函数满足无偏估计
Figure GDA0002966594750000021
采样T(1)~N(0,ID2),δ为高斯核函数参数,ID为单位矩阵,对T(1)进行Toeplitz变换形成D维随机特征矩阵TD
输入数据集X和所述随机特征矩阵TD,根据公式
Figure GDA0002966594750000022
在亚线性时间内计算得复数空间内的近似核函数KM_RFF_unreliable,求其实部得到高斯核函数的近似矩阵KM_RFF;
对所述近似矩阵KM_RFF使用SMO算法求解二次规划问题,得到傅里叶随机特征映射的SVDD算法的决策函数:
Figure GDA0002966594750000023
其中,a为决策模型圆心,R为决策半径;
步骤二:
利用核SVDD算法训练数据集X得到决策模型的支持向量点SVS
使用所述决策函数作为决策模型,所述SVS作为训练集,得到决策结果,求解所述决策结果与决策半径R之间的累计平方和即为欠拟合误差,记为error_under;
步骤三:
核SVDD算法训练所得决策模型为SVDD_f,决策半径为SVDD_R,支持向量点为SVS,步骤一在低随机特征维度训练所得决策模型的支持向量点SVTRFF,选择SVS和SVTRFF中不同的支持向量SV_DIF,使用SVDD_f作为决策模型,SV_DIF作为训练集,如果决策结果与SVDD_R偏差较大,则表示TRFF模型中的该支持向量点是内部支持向量,即该模型存在过拟合误差,记为error_over;
步骤四:
输入所述数据集和由核SVDD算法所得决策模型的支持向量SVS,首先设置一个循环,如果找到满足模型选择条件的最优决策模型,则跳出循环,否则将继续执行循环进行模型选择;在循环下计算利用步骤三的方法当前特征矩阵通过步骤一所得决策模型的过拟合误差,如果其存在过拟合误差,则跳出本次循环;如果不存在过拟合误差,则利用步骤二进行欠拟合误差计算,若该决策模型欠拟合误差值小于给定的欠拟合误差阈值,则该模型即为核函数的最优的无偏估计,其对应的特征矩阵即为所求,否则,跳出本次循环。
一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述的方法。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述方法的步骤。
上述基于模型选择的SVDD无线传感器网络离群数据检测方法,不同于SVDD算法,本方法在传统SVDD算法框架上,引入随机傅里叶特征近似高斯核函数,并使用过拟合误差和欠拟合误差实现模型选择策略,保证在随机特征维度较低时,依旧保持稳定的检测率和较低的误报率。
附图说明
图1为本申请实施例提供的一种基于模型选择的SVDD无线传感器网络离群数据检测方法中傅里叶随机特征映射示意图。
图2(a)为本申请实施例提供的一种基于模型选择的SVDD无线传感器网络离群数据检测方法中欠拟合误差示意图之一(核SVDD算法训练模型)。
图2(b)为本申请实施例提供的一种基于模型选择的SVDD无线传感器网络离群数据检测方法中欠拟合误差示意图之二(TRFF算法训练的欠拟合模型)。
图3(a)为本申请实施例提供的一种基于模型选择的SVDD无线传感器网络离群数据检测方法中过拟合误差示意图之一(核SVDD算法训练模型)。
图3(b)为本申请实施例提供的一种基于模型选择的SVDD无线传感器网络离群数据检测方法中过拟合误差示意图之二(TRFF算法训练的欠拟合模型)。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
一种基于模型选择的SVDD无线传感器网络离群数据检测方法,包括:
步骤一:高斯核函数满足无偏估计
Figure GDA0002966594750000041
采样T(1)~N(0,ID2),δ为高斯核函数参数,ID为单位矩阵,对T(1)进行Toeplitz变换形成D维随机特征矩阵TD
输入数据集X和所述随机特征矩阵TD,根据公式
Figure GDA0002966594750000042
在亚线性时间内计算得复数空间内的近似核函数KM_RFF_unreliable,求其实部得到高斯核函数的近似矩阵KM_RFF;
对所述近似矩阵KM_RFF使用SMO算法求解二次规划问题,得到傅里叶随机特征映射的SVDD算法的决策函数:
Figure GDA0002966594750000043
其中,a为决策模型圆心,R为决策半径;
步骤二:
利用核SVDD算法训练数据集X得到决策模型的支持向量点SVS
使用所述决策函数作为决策模型,所述SVS作为训练集,得到决策结果,求解所述决策结果与决策半径R之间的累计平方和即为欠拟合误差,记为error_under;
步骤三:
核SVDD算法训练所得决策模型为SVDD_f,决策半径为SVDD_R,支持向量点为SVS,步骤一在低随机特征维度训练所得决策模型的支持向量点SVTRFF,选择SVS和SVTRFF中不同的支持向量SV_DIF,使用SVDD_f作为决策模型,SV_DIF作为训练集,如果决策结果与SVDD_R偏差较大,则表示TRFF模型中的该支持向量点是内部支持向量,即该模型存在过拟合误差,记为error_over;
步骤四:
输入所述数据集和由核SVDD算法所得决策模型的支持向量SVS,首先设置一个循环,如果找到满足模型选择条件的最优决策模型,则跳出循环,否则将继续执行循环进行模型选择;在循环下计算利用步骤三的方法当前特征矩阵通过步骤一所得决策模型的过拟合误差,如果其存在过拟合误差,则跳出本次循环;如果不存在过拟合误差,则利用步骤二进行欠拟合误差计算,若该决策模型欠拟合误差值小于给定的欠拟合误差阈值,则该模型即为核函数的最优的无偏估计,其对应的特征矩阵即为所求,否则,跳出本次循环。
一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述的方法。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述方法的步骤。
上述基于模型选择的SVDD无线传感器网络离群数据检测方法,不同于SVDD算法,本方法在传统SVDD算法框架上,引入随机傅里叶特征近似高斯核函数,并使用过拟合误差和欠拟合误差实现模型选择策略,保证在随机特征维度较低时,依旧保持稳定的检测率和较低的误报率。
下面介绍本发明的一个具体应用场景:
随机傅里叶特征映射下的SVDD算法
步骤1.生成随机特征映射矩阵TD:高斯核函数满足无偏估计
Figure GDA0002966594750000061
采样T(1)~N(0,ID2),δ为高斯核函数参数,ID为单位矩阵。对T(1)进行Toeplitz变换形成D维随机特征矩阵TD
步骤2.构造核函数的近似矩阵KM_RFF:使用输入数据集X和随机特征矩阵TD,根据公式
Figure GDA0002966594750000062
可在亚线性时间内计算得复数空间内的近似核函数KM_RFF_unreliable,求其实部得到高斯核函数的近似矩阵KM_RFF。
步骤3.对近似核矩阵KM_RFF使用SMO算法求解二次规划问题,最终可以得到傅里叶随机特征映射的SVDD算法(TRFF)的决策函数:
Figure GDA0002966594750000063
其中,a为决策模型圆心,R为决策半径。基于Toeplitz矩阵随机特征映射的SVDD算法伪代码如下:
Figure GDA0002966594750000064
过拟合误差和欠拟合误差下的模型选择算法
定义1欠拟合模型指决策模型没有很好地捕捉到数据特征,即不能够准确地拟合数据,如图2(b)为存在欠拟合的决策模型。
图2是两种算法在高斯函数产生的随机数据集下训练所得的决策模型,图2(a)是核SVDD算法训练所得决策模型,其使用支持向量点准确的描绘了训练数据集所在区域,其中的等高线即为特征空间中的超球面;图2(b)为TRFF算法在随机特征维度D=30的情况下训练所得决策模型,该模型与训练数据集所在区域在一定程度上存在不匹配,没有很好的反映训练数据集所在区域的特征,若使用该模型进行离群检测,则不可避免的会导致在检测过程中发生漏报,故而影响算法性能。对比图2(a)和(b)明显可得,存在欠拟合的决策模型,必然与核SVDD决策模型的支持向量间存在较大的误差,故仅需计算此类误差,选择误差很小的模型,即为不存在欠拟合的模型。
定义2欠拟合误差TRFF算法在低随机特征维度下训练所得决策模型为TRFF_f,决策半径为TRFF_R,核SVDD算法训练所得决策模型的支持向量点为SVS。使用TRFF_f作为决策模型,SVS作为训练集,决策结果与TRFF_R之间的累计平方和即为欠拟合误差,记为error_under。如图2(a)中某一支持向量点为SV1,在图2(b)中对应的点为X1,使用图2(b)作为决策模型进行检测,由于X1位于决策边界内部,故所得决策距离Dis一定小于TRFF算法的决策半径R,error_under1=|Dis-R|2。依次计算核SVDD算法中所有支持向量点SVS的欠拟合误差,并累计求和,即为error_under。欠拟合误差计算策略伪代码如下。
Figure GDA0002966594750000071
Figure GDA0002966594750000081
定义3过拟合模型指决策模型为了得到一致假设而使假设变得过度严格,导致决策模型对数据点的限制过度。如图3(b)为存在过拟合的决策模型。
图3为两种算法在高斯函数产生的随机数据集下训练所得的决策模型,图3(b)为TRFF算法在随机特征映射维度D=30的情况下训练所得决策模型,其外边界和核SVDD算法决策模型的边界基本一致,即其基本正确的描绘了训练集的所在区域,外边界的支持向量点也和核SVDD的支持向量点基本吻合,但其内部也存在支持向量点,该情况由过拟合造成,这将导致决策模型会判断落入内部支持向量点周围一部分区域的数据样本为离群,该部分即为图3(b)中内部支持向量点SV1周围的等高线区域。若使用图3(b)作为决策模型进行检测,则不可避免的会导致在检测过程中发生误报,故而影响算法的性能。存在过拟合的模型,会判断区域内部的某些点为支持向量点,因此需选择不存在内部支持向量点的模型。本章使用TRFF支持向量法进行模型过拟合误差计算。
定义4过拟合误差核SVDD算法训练所得决策模型为SVDD_f,决策半径为SVDD_R,支持向量点为SVS,TRFF算法在低随机特征维度训练所得决策模型的支持向量点SVTRFF。选择SVS和SVTRFF中不同的支持向量SV_DIF,使用SVDD_f作为决策模型,SV_DIF作为训练集,如果决策结果与SVDD_R偏差较大,则表示TRFF模型中的该支持向量点是内部支持向量,即该模型存在过拟合误差,记为error_over。
如图3(b)中支持向量点SV1,在图3(a)中对应的点为X1,使用图3(a)作为决策模型进行检测,由于SV1位于数据集内部,故所得决策距离Dis一定与核SVDD算法决策半径SVDD_R存在较大差距,记error_over=|Dis-R|。设定过拟合误差阈值为error_overτ,依次计算SV_DIF中支持向量点的过拟合误差,若存在某支持向量点使得error_over>error_overτ,则标记该模型存在过拟合误差。欠拟合误差计算策略的伪代码如下。
Figure GDA0002966594750000091
Figure GDA0002966594750000101
综上所述基于模型选择的SVDD方法具体步骤如下:在输入空间内确定训练集Train以及由核SVDD算法所得决策模型的支持向量SVS,算法首先设置一个循环,如果找到满足模型选择条件的最优决策模型,则跳出循环,否则将继续执行循环进行模型选择;在循环下计算当前特征矩阵通过TRFF算法所得决策模型的过拟合误差,如果其存在过拟合误差,则跳出本次循环;如果不存在过拟合误差,则进行欠拟合误差计算,若该决策模型欠拟合误差值小于给定的欠拟合误差阈值,则该模型即为核函数的最优的无偏估计,其对应的特征矩阵即为所求,否则,跳出本次循环。算法伪代码如下:
Figure GDA0002966594750000102
Figure GDA0002966594750000111
本申请在传统SVDD算法框架上,引入随机傅里叶特征近似高斯核函数,并使用过拟合误差和欠拟合误差实现模型选择策略,保证算法在随机特征维度较低时,依旧保持稳定的检测率和较低的误报率。
样本数据来源于SensorScope System数据集,其来自于部署在瑞士和意大利之间Grand-St-Bernard山峰的2400m处的无线传感器网络。该数据集采样周期为2min,收集了2007年9月13日到2007年10月26日的数据,每条数据包括环境温度(AmbientTemperature)、地表温度(Surface Temperature)和相对湿度(Relative Humidity)等属性。考虑数据完备性、连续性及传感器节点的地理位置等因素本文选取12号节点的温度和湿度数据作为仿真实验数据集。由于所选取的样本数据为无线传感器网络节点所采集的温度、湿度,其度量单位不一致,对数据进行标准化处理。其中Train表示训练数据矩阵,Test表示测试数据矩阵:
Train=[0.24,-0.43;0.29,-0.22;0.31,-0.10;0.32,-0.02;0.34,0.05;0.32,0.06;0.31,0.06;0.31,0.06;
0.28,0.06;0.28,0.07;0.30,0.09;0.31,0.10;0.33,0.10;0.32,0.09;0.34,0.11;0.31,0.12;
0.34,0.13;0.31,0.13;0.32,0.10;0.28,0.06;0.31,0.02;0.33,0.08;0.30,0.08;0.28,0.09;
0.28,0.08;0.27,0.04;0.26,0.01;0.29,0.01;0.27,-0.07;0.25,-0.14;0.24,-0.24;0.21,-0.27;
0.21,-0.35;0.18,-0.39;0.17,-0.50;0.14,-0.51;0.13,-0.51;0.14,-0.56;0.07,-0.56;0.09,-0.53;
0.07,-0.53;0.06,-0.49;0.11,-0.34;0.15,-0.21;0.18,-0.11;0.21,-0.04;0.21,-0.03;0.21,-0.03;
0.22,-0.01;0.19,0.01;0.19,0.01;0.21,0.02;0.22,-0.02;0.23,-0.01;0.23,-0.02;0.23,-0.03;
0.26,-0.03;0.28,0.05;0.27,0.03;0.26,0.03;0.29,0.05;0.30,0.08;0.30,0.08;0.32,0.06;
0.31,0.06;0.31,0.06;0.30,0.07;0.31,0.03;0.30,0.02;0.28,0.02;0.31,0.08;0.28,0.05;
0.25,0.04;0.28,0.08;0.24,0.07;0.26,0.08;0.25,0.08;0.23,0.06;0.23,0.04;0.23,0.07;
0.25,0.04;0.23,0.05;0.23,0.06;0.24,0.07;0.22,0.06;0.21,0.08;0.22,0.06;0.21,0.06;
0.20,0.02;0.18,0.04;0.20,0.03;0.16,0.02;0.19,0.05;0.18,0.06;0.18,0.03;0.14,0.03;
0.15,0.03;0.17,0.03;0.18,0.03;0.19,0.07];
Test=[0.22,0.08;0.24,0.08;0.23,0.07;0.20,0.06;0.20,0.08;0.18,0.08;0.22,0.06;0.22,0.06;
0.20,0.05;0.19,0.06;0.19,0.07;0.18,0.05;0.20,0.06;0.20,0.07;0.20,0.07;0.19,0.06;
0.17,0.08;0.21,0.08;0.19,0.08;0.20,0.09;0.19,0.07;0.20,0.08;0.19,0.08;0.20,0.08;
0.19,0.07;0.16,0.05;0.19,0.06;0.19,0.06;0.19,0.07;0.16,0.04;0.16,0.03;0.17,0.07;
0.16,0.06;0.17,0.08;0.17,0.07;0.17,0.04;0.19,0.07;0.18,0.04;0.16,0.06;0.18,0.06;
0.17,0.03;0.17,0.06;0.19,0.06;0.19,0.05;0.16,0.02;0.16,0.01;0.16,0.01;0.15,0.01;
0.13,-0.01;0.14,-0.00;0.15,-0.01;0.10,-0.01;0.14,0.02;0.12,0.02;0.12,0.03;0.13,0.02;
0.11,0.03;0.12,0.03;0.14,0.05;0.13,0.05;0.14,0.04;0.14,0.02;0.13,0.02;0.13,0.02;
0.10,0.02;0.10,-0.00;0.08,-0.00;0.11,0.03;0.09,-0.01;0.10,0.02;0.09,0.01;0.11,0.04;
0.12,0.02;0.13,0.05;0.10,0.02;0.10,-0.01;0.09,0.01;0.06,0.01;0.07,0.02;0.12,0.03;
0.09,0.01;0.11,0.03;0.11,0.02;0.09,0.02;0.09,0.02;0.11,0.02;0.09,0.02;0.09,-0.01;
0.10,0.03;0.10,0.02;0.08,0.01;0.07,-0.02;0.09,-0.00;0.07,-0.01;0.06,0.01;0.06,-0.00;
0.08,-0.01;0.07,-0.03;0.05,-0.03;0.05,-0.03];
设傅里叶随机特征维度D为30,高斯核函数参数为0.2,通过随机采样生成随机特征矩阵
=[9.54256165179111;0.611153502524434;5.23516633448967;-1.13460099661968;
-0.812509707742475;3.45025948928903;2.77878385706053;-5.60127500744205;
-7.66346506964755;-5.48933884770335;-7.07886660783970;0.297852942830229;
-2.05625462766110;-1.84005366520478;-6.80481564696847;3.89783714367486;
2.19705555776856;-0.448112418706049;5.10590059007092;-4.36989732514452;
2.07350146523814;1.74220599976141;1.74627208331857;-3.64623633814752;
1.63420124381496;-2.57440816463238;-4.48223075251243;-6.01634093207509;
5.18907819742620;-4.22972106168059];
通过Toeplitz矩阵变换生随机特征矩阵
=[9.54256165179111,0.611153502524434;0.611153502524434,9.54256165179111;
5.23516633448967,0.611153502524434;-1.13460099661968,5.23516633448967;
-0.812509707742475,-1.13460099661968;3.45025948928903,-0.812509707742475;
2.77878385706053,3.45025948928903;-5.60127500744205,2.77878385706053;
-7.66346506964755,-5.60127500744205;-5.48933884770335,-7.66346506964755;
-7.07886660783970,-5.48933884770335;0.297852942830229,-7.07886660783970;
-2.05625462766110,0.297852942830229;-1.84005366520478,-2.05625462766110;
-6.80481564696847,-1.84005366520478;3.89783714367486,-6.80481564696847;
2.19705555776856,3.89783714367486;-0.448112418706049,2.19705555776856;
5.10590059007092,-0.448112418706049;-4.36989732514452,5.10590059007092;
2.07350146523814,-4.36989732514452;1.74220599976141,2.07350146523814;
1.74627208331857,1.74220599976141;-3.64623633814752,1.74627208331857;
1.63420124381496,-3.64623633814752;-2.57440816463238,1.63420124381496;
-4.48223075251243,-2.57440816463238;-6.01634093207509,-4.48223075251243;
5.18907819742620,-6.01634093207509;-4.22972106168059,5.18907819742620];
进行过拟合误差计算:核SVDD算法支持向量为[1;2;17;39;44;96];TSRFF算法支持向量为[1;2;17;39;96];故SV_DIF为[null];计算可得过拟合误差标志位=1。
进行欠拟合误差计算:核SVDD算法支持向量为[1;2;17;39;44;96];根据欠拟合误差计算策略可得欠拟合误差为=0.000106321215622041。
此时过拟合误差和欠拟合误差小于给定的阈值误差,故为最优模型对应的随机特征矩阵。使用进行决策模型计算得决策模型为:
alpha=[0.1242007956323;0.10222923705370;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0.27803001598265;0;0;
0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0.319550463269566;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;
0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0.1759894880617;
0;0;0;0]
决策半径R=0.783798897737050
有上述结果可以计算对于测试数据集Test的决策结果为
out=[1;1;1;1;1;1;1;1;1;1;1;1;1;1;1;1;1;1;1;1;1;1;1;1;1;1;1;1;1;1;1;1;1;1;1;1;1;1;1;1;1;1;1;1;1;1;1;1;
0;1;1;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;
0;0;0;0]
本发明提出了一种基于模型选择的SVDD无线传感网络离群检测方法。该方法在传统核SVDD算法的框架下,引入了随机傅里叶特征映射近似核函数,降低了SVDD检测算法的时间复杂度,同时使用Toeplitz矩阵的循环特点减少存储随机特征矩阵带来的内存消耗。同时引入了模型选择策略,通过支持向量法计算过拟合误差和欠拟合误差,在低特征维度下实现了模型选择。实验表明,该方法在低特征维度下同样具有良好的稳定性。
第一,利用随机傅里叶特征映射近似高斯核函数方法,有效降低了核SVDD算法的时间复杂度;第二,利用Toeplitz矩阵有效地降低存储特征矩阵的内存消耗;第三,利用模型选择策略使得能够在低随机特征维度保持稳定的检测率和较低的误报率。该方法的优点是使用较低的时空开销达到良好的检测性能。
给定一个包含n个数据点的数据集,其目标是找到一个以为圆心,为半径的最小圆,该圆能够全部或尽可能多地包含中的数据点。若测试集中某数据点落在该圆边界外,则被判断为离群数据。当输入空间为非圆形分布时,需引入核技巧来改善算法的适用性,其时间复杂度为。TSRFF算法在SVDD算法的基础上,通过随机傅里叶特征映射近似高斯核函数,有效地将核函数计算的时间复杂度降低到亚线性。
通过基于SVDD支持向量的欠拟合误差计算策略,以及基于随机傅里叶特征矩阵支持向量的过拟合误差计算策略,有效地避免了在低随机特征维度情况下的过拟合和欠拟合问题,有效选择出了相对最优模型。
循环矩阵是Toeplitz矩阵的一种特殊形式,即矩阵行向量的每个元素都是前一个行向量各元素依次右移一个位置所得到的结果。TSRFF算法使用Toeplitz矩阵代替传统随机映射中无特殊结构的随机矩阵,有效地将空间复杂度降低为。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (3)

1.一种基于模型选择的SVDD无线传感器网络离群数据检测方法,其特征在于,包括:
步骤一:高斯核函数满足无偏估计
Figure FDA0002978561000000011
采样T(1)~N(0,ID2),δ为高斯核函数参数,ID为单位矩阵,对T(1)进行Toeplitz变换形成D维随机特征矩阵TD
输入数据集X和所述随机特征矩阵TD,根据公式
Figure FDA0002978561000000012
在亚线性时间内计算得复数空间内的近似核函数KM_RFF_unreliable,求其实部得到高斯核函数的近似矩阵KM_RFF;
对所述近似矩阵KM_RFF使用SMO算法求解二次规划问题,得到傅里叶随机特征映射的SVDD算法的决策函数:
Figure FDA0002978561000000013
其中,a为决策模型圆心,R为决策半径;
其中,所述傅里叶随机特征映射的SVDD算法即TRFF算法;
步骤二:
TRFF算法在低随机特征维度下训练所得决策模型为TRFF_f,决策半径为TRFF_R,核SVDD算法训练所得决策模型的支持向量点为SVS;使用TRFF_f作为决策模型,SVS作为训练集,决策结果与TRFF_R之间的累计平方和即为欠拟合误差,记为error_under;
步骤三:
核SVDD算法训练所得决策模型为SVDD_f,决策半径为SVDD_R,支持向量点为SVS,TRFF算法在低随机特征维度训练所得决策模型的支持向量点SVTRFF,选择SVS和SVTRFF中不同的支持向量SV_DIF,使用SVDD_f作为决策模型,SV_DIF作为训练集,如果决策结果与SVDD_R偏差大于拟合误差阈值,则表示TRFF模型中的该支持向量点是内部支持向量,即该模型存在过拟合误差,记为error_over;
步骤四:
输入所述数据集和由核SVDD算法所得决策模型的支持向量SVS,首先设置一个循环,如果找到满足模型选择条件的最优决策模型,则跳出循环,否则将继续执行循环进行模型选择;利用步骤三的方法进行所得决策模型的过拟合误差计算,如果其存在过拟合误差,则跳出本次循环;如果不存在过拟合误差,则利用步骤二进行所得决策模型的欠拟合误差计算,若该决策模型欠拟合误差值小于给定的欠拟合误差阈值,则该模型即为核函数的最优的无偏估计,其对应的特征矩阵即为所求,否则,跳出本次循环。
2.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1所述方法的步骤。
3.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1所述方法的步骤。
CN201810537171.6A 2018-05-30 2018-05-30 Svdd无线传感器网络离群数据检测方法 Active CN108848512B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810537171.6A CN108848512B (zh) 2018-05-30 2018-05-30 Svdd无线传感器网络离群数据检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810537171.6A CN108848512B (zh) 2018-05-30 2018-05-30 Svdd无线传感器网络离群数据检测方法

Publications (2)

Publication Number Publication Date
CN108848512A CN108848512A (zh) 2018-11-20
CN108848512B true CN108848512B (zh) 2021-04-30

Family

ID=64210038

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810537171.6A Active CN108848512B (zh) 2018-05-30 2018-05-30 Svdd无线传感器网络离群数据检测方法

Country Status (1)

Country Link
CN (1) CN108848512B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110415844B (zh) * 2019-06-21 2021-06-01 杭州安脉盛智能技术有限公司 基于动作关键时序的控制棒驱动机构性能评估方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7565370B2 (en) * 2003-08-29 2009-07-21 Oracle International Corporation Support Vector Machines in a relational database management system
CN106096646A (zh) * 2016-06-07 2016-11-09 衢州学院 一种支持向量回归机模型选择方法
US9536208B1 (en) * 2016-02-10 2017-01-03 Sas Institute Inc. Kernel parameter selection in support vector data description for outlier identification
CN106444578A (zh) * 2016-09-28 2017-02-22 清华大学 一种基于异构测地线距离svdd的故障检测方法
CN107247968A (zh) * 2017-07-24 2017-10-13 东北林业大学 基于核熵成分分析失衡数据下物流设备异常检测方法
CN107301118A (zh) * 2017-06-15 2017-10-27 中国科学院计算技术研究所 一种基于日志的故障指标自动标注方法与系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7565370B2 (en) * 2003-08-29 2009-07-21 Oracle International Corporation Support Vector Machines in a relational database management system
US9536208B1 (en) * 2016-02-10 2017-01-03 Sas Institute Inc. Kernel parameter selection in support vector data description for outlier identification
CN106096646A (zh) * 2016-06-07 2016-11-09 衢州学院 一种支持向量回归机模型选择方法
CN106444578A (zh) * 2016-09-28 2017-02-22 清华大学 一种基于异构测地线距离svdd的故障检测方法
CN107301118A (zh) * 2017-06-15 2017-10-27 中国科学院计算技术研究所 一种基于日志的故障指标自动标注方法与系统
CN107247968A (zh) * 2017-07-24 2017-10-13 东北林业大学 基于核熵成分分析失衡数据下物流设备异常检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Fault detection based on global-local PCA-SVDD for multimode processes;Shuai Li等;《2017 9th International Conference on Modelling, Identification and Control (ICMIC)》;20180322;全文 *
SVDD-based outlier detection on uncertain data;Bo Liu等;《Knowledge and Information Systems volume》;20120506;全文 *
一种快速的离群点检测方法;冯震等;《电子测量与仪器学报》;20161130;全文 *
基于约简策略与自适应SVDD的无线传感网络离群检测方法;魏畅等;《传感技术学报》;20170930;全文 *

Also Published As

Publication number Publication date
CN108848512A (zh) 2018-11-20

Similar Documents

Publication Publication Date Title
Wang et al. Locational detection of the false data injection attack in a smart grid: A multilabel classification approach
US10917425B2 (en) Graph structure model training and junk account identification
US11057788B2 (en) Method and system for abnormal value detection in LTE network
JP6109037B2 (ja) 時系列データ予測装置、時系列データ予測方法、及びプログラム
KR20210107491A (ko) 어노말리 데이터 생성 방법
CN113920170B (zh) 结合场景上下文和行人社会关系的行人轨迹预测方法、系统及存储介质
CN112802108B (zh) 目标对象定位方法、装置、电子设备及可读存储介质
CN115130644A (zh) 对基于深度学习的检测网络进行自监督学习的方法及装置
Nabati et al. A real-time fingerprint-based indoor positioning using deep learning and preceding states
CN111291867A (zh) 数据预测模型生成方法、装置及数据预测方法、装置
CN115859805A (zh) 基于混合加点准则的自适应序贯试验设计方法和装置
Liang et al. Improved GGIW-PHD filter for maneuvering non-ellipsoidal extended targets or group targets tracking based on sub-random matrices
CN108848512B (zh) Svdd无线传感器网络离群数据检测方法
Bertalanic et al. A deep learning model for anomalous wireless link detection
Linnenbrink et al. kNNDM: k-fold Nearest Neighbour Distance Matching Cross-Validation for map accuracy estimation
CN117150402A (zh) 基于生成式对抗网络的电力数据异常检测方法及模型
Guhaniyogi et al. Bayesian conditional density filtering
CN115208651B (zh) 基于逆习惯化机制的流聚类异常检测方法及系统
Wang et al. Calibrated teacher for sparsely annotated object detection
Chapel et al. Anomaly detection with score functions based on the reconstruction error of the kernel PCA
Ding et al. Robust event boundary detection in sensor networks-a mixture model based approach
Al-Behadili et al. Semi-supervised learning using incremental support vector machine and extreme value theory in gesture data
Poyiadzis et al. Active learning with label proportions
CN113079168A (zh) 一种网络异常检测方法、装置及存储介质
Zhang et al. Uncertainty-aware forward correction for weakly supervised solar panel mapping from high-resolution aerial images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant