CN110472678A - 基于改进svm的电力企业信息系统异常检测方案的优化方法 - Google Patents
基于改进svm的电力企业信息系统异常检测方案的优化方法 Download PDFInfo
- Publication number
- CN110472678A CN110472678A CN201910721565.1A CN201910721565A CN110472678A CN 110472678 A CN110472678 A CN 110472678A CN 201910721565 A CN201910721565 A CN 201910721565A CN 110472678 A CN110472678 A CN 110472678A
- Authority
- CN
- China
- Prior art keywords
- parameter
- svm
- algorithm
- formula
- optimization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/06—Electricity, gas or water supply
Abstract
本发明公开了电力信息系统技术领域的基于改进SVM的电力企业信息系统异常检测方案的优化方法,具体步骤如下,先了解SVM算法原理,然后构建网络性能指标模型,接着进行核函数的选择及参数优化,最后进行置信区间的确定;本发明通过针对被动检测方法的缺点进行改进,提出采用SVM机制参与到性能评价过程中,实现了对基线参数的实时动态调整,同时利用训练残差的方法辅助确定网络性能指标的置信区间,从而提高了阈值计算的可靠性和精确性。
Description
技术领域
本发明涉及电力信息系统技术领域,具体涉及基于改进SVM的电力企业信息系统异常检测方案的优化方法。
背景技术
随着我国进入了大数据时代以来,我国各类型企业的发展速度陡然提高,其中电力企业的业务规模也出现了大幅增加。国家电网公司由于各分部、省公司在资源配置方面差异较大,使得大规模数据协调处理的复杂度呈几何级数上升,系统异常出现的概率大幅度增加,且故障排查效率相对低下,对信息系统的正常运行构成了严重的影响,因此必须采取有效措施,对网络性能异常进行精确快速的监测。
目前网络异常检测技术已经研究出多种技术成果。如Roy提出了提高检测技术鲁棒性的设计思路,指出流量规模在一定范围内的突变,不应当作为明确的异常指征,而仅可以作为参考标准;Jun Jiang等人提出了网络性能检测的预判概念,采用预测算法对当前的网络性能波动进行计算,一定程度上实现了对异常情况的提前判定;Amon Goldman等人将网络性能指标的变化数据用统计学中的迭代统计算法进行分析,实现了动态调节性能指标阈值的目标;以上检测方法均为被动统计方法,存在滞后程度较高的问题,而网络性能监控却需要将实时性作为首要指标,因此这些方法均不能实现对当前大规模网络的及时调控。
主动监控技术将原先针对某区域的总流量变化进行监控的方法,转变为针对区域内预设的一系列性能参数的异常变化进行检测和分析,即以网络区域内是否出现了相关类型的异常点为依据,判定当前该区域内是否出现了对应的问题。在该类型的检测过程中,主要依据两个重要的参数来进行判定,其分别为基线和阈值。基线是指网络在通信过程中的性能基础值,反应网络在不同环境下的平均性能,而阈值则是以基线为中心动态调整的,指明了某一时间段内网络性能波动的正常范围。基于此,本发明设计了基于改进SVM的电力企业信息系统异常检测方案的优化方法,以解决上述问题。
发明内容
本发明的目的在于提供基于改进SVM的电力企业信息系统异常检测方案的优化方法,以解决上述背景技术中提出的目前在被动检测方法上存在缺点的问题。
为实现上述目的,本发明提供如下技术方案:基于改进SVM的电力企业信息系统异常检测方案的优化方法,具体步骤如下:
第一步,了解SVM算法原理
支持向量机SVM的基本算法流程如下
首先根据分析对象特征设定初始样本群体{xi,yj},i,j=1,2,… n;xi与yj分别为算法的n维输入量和输出量;
式(1)给出了SVM算法的基本函数形式
上式中(·)为算法的特征映射函数,将其视为被测对象的回归函数,将式(1)表述为
式(1)中的||ω||2为复杂度参数,用以描述f(·)的复杂度;C为惩罚系数,用以设定算法对错误分类的惩罚程度,从而提高全局最优解的存在概率;为经验风险值,用来描述算法分类结果与真实结果之间的差值,其中ε为不灵敏损失函数,其作用等价于算法中的松弛变量,用以清除真实值在某范围内的误差,其满足式(3)
|y-f(x)|ε=max{0,|y-f(x)|-ε} (3)
而经验风险可描述为
通过式(3)和式(4)代入,可将式(2)转变为
将拉格朗日乘子法用于上式,可将其转变为对偶优化问题的求解,如式(6)所示
上式中,K(xi,xj)为核函数,这也是确定算法有效性的关键函数,尤其在针对线性不可分的数据进行SVM优化的过程中,必须根据被测对象的特征选取合适的K(xi,xj),目前常用的核函数有线性核函数、多项式核函数、Sigmoid核函数和高斯核函数等,此处选取高斯核函数,即高斯径向基函数为例,如(7)所示
若其解以的形式给出,则代入式(7)后可得
其中的值为
将代入后,式(8)即转变为以下形式
上式的求解即为二元分类问题的求解;
第二步,构建网络性能指标模型
选取时间点序列作为监测和分析对象,在构建数据模型时,训练集即样本群中的每个个体均为时间序列中某一点上网络性能的对应指标,传统的建模方法是按照连续时间间隔的采样得到初始训练集,如式(11)所示
上式中,U和V分别为算法的输入和输出向量;t表示时间序列的末尾点;l表示元素数量;m表示嵌入维数;该方法缺点是基线和阈值的设定往往存在较大的滞后情况,无法对网络中各种性能指标快速且频繁变化状况进行实时的分析与识别,这就导致了许多异常点没有被及时检出,最终使得监测系统经常出现误报和漏报的情况;
在检索了电力企业累积的大量网络性能监测数据后发现,各个区域内网元的性能波动规律虽然在短时间内是无序的且随机变化的,但在较长的监测周期内依然是遵循一定规律的,尤其在1d的时间单位内,同时间段的变化规律相似性极高,因此提出采用同点时间序列构建网络性能变化模型的设计思路,即多日内同一时间点进行采样的方式,以更好的贴合电力企业网络性能的变化规律,如式(12)所示
上式中,U和V同样为系统的输入及输出向量,t、l、m与式(11) 设定相同,n为一日内时间点设定数量;根据电力企业信息传输异常事件的特征分析,当网络出现异常点时,其造成的持续影响往往覆盖了多个时间点,导致了评估结果的偏差;而在本模型中,所有的时间点均为分散的,时间点之间的间隔也并不固定,这就显著的减少了异常点多发的时间段内的采样次数,提高了系统异常检测与评价方案稳定性与客观性;
第三步,核函数的选择及参数优化
在SVM算法中,起到关键影响作用的是核函数的选定与使用,针对电力企业网络性能波动特点,选取高斯径向基函数为SVM算法的核函数,在设置参数的过程中,最关键的两个参数即为惩罚参数c和核函数参数g;对SVM算法的改进也主要体现在对这两个参数的选定过程中,提出将参数寻优的工作分为两步进行,并通过交叉验证的方式快速逼近最优的c和g组合;
Step1,粗略寻优环节的验证与分析
参数寻优采用中国台湾林智仁教授研发的LibSVM软件来完成, x、y轴分别表示c、g取以2为底的对数后的值,而选定参数后的SVM 分类器输出结果的准确率则通过z轴上的值来表示;利用LibSVM软件中的SVMcgForClass函数进行计算,在粗略寻优环节中,参数c的估值区间确定为(2-4,24),随机选择为2.3965,而参数g则估值在(2-4,24)之间,随机选定为4,将此组参数带入SVM算法,实现对训练集的二元化分类,通过大量的真实数据验证,其结果的准确率略超过93%;
Step2,精细寻优环节的验证与分析
在完成粗略寻优的基础上,通过精细寻优环节进一步参数准确性,将参数c和g分别在其估值区间内执行离散化操作,随后再次执行 SVMcgForClass函数,进一步缩小了两个参数的取值范围,最终得到的最优参数组合为c=1.3272,g=1,将其分别带入所述惩罚系数与核函数后,SVM分类器输出结果的准确性上升至了95.58%,优化效果较为明显;
第四步,置信区间的确定
在完成了参数优化的工作之后,即可根据训练参差计算得到网络性能指标在时间序列模型上的置信区间,为了提高算法的真实度,在确定置信区间的过程中添加高斯白噪声干扰e~N(0,σ2)作为算法约束条件,并将其代入式(10)可得
考虑到样本训练集的规模足够庞大,因此可将样本方差近似等价与总体方差,简化可得
由于高丝白噪声是服从标准正态分布的,因此根据分位点α的定义可将上式转变为
进一步推导得到
上式中的1-α即为根据被控对象预先设定的置信度,根据式(16) 则可计算出给对应的阈值波动范围,分别以选定置信度为95%和97%为例,前者通过检索正态分布表,得z0.05/2=1.96≈2,对应的阈值波动范围则为
后者同理查询可得z0.03/2≈3,计算出阈值波动范围为
优选的,所述支持向量机SVM属于智能型自适应优化算法,通过对解群体的分类与回归,很好的提高了算法的泛化性。
优选的,所述f(x)的值有两种,分别为+1和-1,前者表示x归为一类,后者则表示其归为二类,根据分类的结果,就可以对被监测对象的变化趋势进行预判,如网络性能参数是否会在时间序列中的下一时间点上出现异常。
优选的,所述LibSVM软件是中国台湾大学林智仁教授等开发设计的一个简单、易于使用和快速有效的SVM模式识别与回归的软件包,所述LibSVM软件不但提供了编译好的可在Windows系列系统的执行文件,还提供了源代码,方便改进、修改以及在其它操作系统上应用;所述LibSVM软件软件对SVM所涉及的参数调节相对比较少,提供了很多的默认参数,利用这些默认参数可以解决很多问题;并提供了交互检验的功能,所述LibSVM软件可以解决C-SVM、ν-SVM、ε-SVR和ν-SVR等问题,包括基于一对一算法的多类模式识别问题。
优选的,所述参数寻优是所述LibSVM软件自带的grid.py参数寻优,在高斯核函数中,固定核函数参数g,即可用来对线性核寻优。
与现有技术相比,本发明的有益效果是:本发明通过针对被动检测方法的缺点进行改进,提出采用SVM机制参与到性能评价过程中,实现了对基线参数的实时动态调整,同时利用训练残差的方法辅助确定网络性能指标的置信区间,从而提高了阈值计算的可靠性和精确性。提出了将SVM算法机制引入到信息系统异常检测过程中,并采用粗略寻优和精细寻优的两步交叉验证法,提高了SVM核函数参数的寻优效率,并从而更加合理的确定了电力企业网络性能异常检测工作所需的基线和阈值参数,随后根据网络性能异常特征,构建了基于同点时间序列的检测模型,并同传统检测方法所采用的连续时间序列模型相对比,分别通过仿真实验对异常检测结果进行了分析,论证了本方法的有效性和可靠性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明参数两步寻优效果-粗略寻优环节示意图。
图2为本发明参数两步寻优效果-精细寻优环节示意图。
图3为本发明连续时间序列仿真结果示意图。
图4为本发明同点时间序列仿真结果示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1-4,本发明提供一种技术方案:基于改进SVM的电力企业信息系统异常检测方案的优化方法,其特征在于,具体步骤如下:
第一步,了解SVM算法原理
支持向量机SVM的基本算法流程如下
首先根据分析对象特征设定初始样本群体{xi,yj},i,j=1,2,… n;xi与yj分别为算法的n维输入量和输出量;
式(1)给出了SVM算法的基本函数形式
上式中(·)为算法的特征映射函数,将其视为被测对象的回归函数,将式(1)表述为
式(1)中的||ω||2为复杂度参数,用以描述f(·)的复杂度;C为惩罚系数,用以设定算法对错误分类的惩罚程度,从而提高全局最优解的存在概率;为经验风险值,用来描述算法分类结果与真实结果之间的差值,其中ε为不灵敏损失函数,其作用等价于算法中的松弛变量,用以清除真实值在某范围内的误差,其满足式(3)
|y-f(x)|ε=max{0,|y-f(x)|-ε} (3)
而经验风险可描述为
通过式(3)和式(4)代入,可将式(2)转变为
将拉格朗日乘子法用于上式,可将其转变为对偶优化问题的求解,如式(6)所示
上式中,K(xi,xj)为核函数,这也是确定算法有效性的关键函数,尤其在针对线性不可分的数据进行SVM优化的过程中,必须根据被测对象的特征选取合适的K(xi,xj),目前常用的核函数有线性核函数、多项式核函数、Sigmoid核函数和高斯核函数等,此处选取高斯核函数,即高斯径向基函数为例,如(7)所示
若其解以的形式给出,则代入式(7)后可得
其中的值为
将代入后,式(8)即转变为以下形式
上式的求解即为二元分类问题的求解;
第二步,构建网络性能指标模型
选取时间点序列作为监测和分析对象,在构建数据模型时,训练集即样本群中的每个个体均为时间序列中某一点上网络性能的对应指标,传统的建模方法是按照连续时间间隔的采样得到初始训练集,如式(11)所示
上式中,U和V分别为算法的输入和输出向量;t表示时间序列的末尾点;l表示元素数量;m表示嵌入维数;该方法缺点是基线和阈值的设定往往存在较大的滞后情况,无法对网络中各种性能指标快速且频繁变化状况进行实时的分析与识别,这就导致了许多异常点没有被及时检出,最终使得监测系统经常出现误报和漏报的情况;
在检索了电力企业累积的大量网络性能监测数据后发现,各个区域内网元的性能波动规律虽然在短时间内是无序的且随机变化的,但在较长的监测周期内依然是遵循一定规律的,尤其在1d的时间单位内,同时间段的变化规律相似性极高,因此提出采用同点时间序列构建网络性能变化模型的设计思路,即多日内同一时间点进行采样的方式,以更好的贴合电力企业网络性能的变化规律,如式(12)所示
上式中,U和V同样为系统的输入及输出向量,t、l、m与式(11) 设定相同,n为一日内时间点设定数量;根据电力企业信息传输异常事件的特征分析,当网络出现异常点时,其造成的持续影响往往覆盖了多个时间点,导致了评估结果的偏差;而在本模型中,所有的时间点均为分散的,时间点之间的间隔也并不固定,这就显著的减少了异常点多发的时间段内的采样次数,提高了系统异常检测与评价方案稳定性与客观性;
第三步,核函数的选择及参数优化
在SVM算法中,起到关键影响作用的是核函数的选定与使用,针对电力企业网络性能波动特点,选取高斯径向基函数为SVM算法的核函数,在设置参数的过程中,最关键的两个参数即为惩罚参数c和核函数参数g;对SVM算法的改进也主要体现在对这两个参数的选定过程中,提出将参数寻优的工作分为两步进行,并通过交叉验证的方式快速逼近最优的c和g组合;
Step1,粗略寻优环节的验证与分析
参数寻优采用中国台湾林智仁教授研发的LibSVM软件来完成, x、y轴分别表示c、g取以2为底的对数后的值,而选定参数后的SVM 分类器输出结果的准确率则通过z轴上的值来表示;利用LibSVM软件中的SVMcgForClass函数进行计算,在粗略寻优环节中,参数c的估值区间确定为(2-4,24),随机选择为2.3965,而参数g则估值在(2-4,24)之间,随机选定为4,将此组参数带入SVM算法,实现对训练集的二元化分类,通过大量的真实数据验证,其结果的准确率略超过93%;
Step2,精细寻优环节的验证与分析
在完成粗略寻优的基础上,通过精细寻优环节进一步参数准确性,将参数c和g分别在其估值区间内执行离散化操作,随后再次执行 SVMcgForClass函数,进一步缩小了两个参数的取值范围,最终得到的最优参数组合为c=1.3272,g=1,将其分别带入惩罚系数与核函数后, SVM分类器输出结果的准确性上升至了95.58%,优化效果较为明显;
第四步,置信区间的确定
在完成了参数优化的工作之后,即可根据训练参差计算得到网络性能指标在时间序列模型上的置信区间,为了提高算法的真实度,在确定置信区间的过程中添加高斯白噪声干扰e~N(0,σ2)作为算法约束条件,并将其代入式(10)可得
考虑到样本训练集的规模足够庞大,因此可将样本方差近似等价与总体方差,简化可得
由于高丝白噪声是服从标准正态分布的,因此根据分位点α的定义可将上式转变为
进一步推导得到
上式中的1-α即为根据被控对象预先设定的置信度,根据式(16) 则可计算出给对应的阈值波动范围,分别以选定置信度为95%和97%为例,前者通过检索正态分布表,得z0.05/2=1.96≈2,对应的阈值波动范围则为
后者同理查询可得z0.03/2≈3,计算出阈值波动范围为
其中,支持向量机SVM属于智能型自适应优化算法,通过对解群体的分类与回归,很好的提高了算法的泛化性。
f(x)的值有两种,分别为+1和-1,前者表示x归为一类,后者则表示其归为二类,根据分类的结果,就可以对被监测对象的变化趋势进行预判,如网络性能参数是否会在时间序列中的下一时间点上出现异常。
LibSVM软件是中国台湾大学林智仁教授等开发设计的一个简单、易于使用和快速有效的SVM模式识别与回归的软件包,LibSVM软件不但提供了编译好的可在Windows系列系统的执行文件,还提供了源代码,方便改进、修改以及在其它操作系统上应用;LibSVM软件软件对SVM所涉及的参数调节相对比较少,提供了很多的默认参数,利用这些默认参数可以解决很多问题;并提供了交互检验的功能,LibSVM 软件可以解决C-SVM、ν-SVM、ε-SVR和ν-SVR等问题,包括基于一对一算法的多类模式识别问题。
参数寻优是LibSVM软件自带的grid.py参数寻优,在高斯核函数中,固定核函数参数g,即可用来对线性核寻优。
本实施例的一个具体应用为:电力企业信息系统中需检测的性能指标有多种,本次仿真实验选取服务器节点的CPU负荷作为检测对象,所有的信息数据均来自电力企业系统服务器自2018年3月31日17:00 至4月2日16:50的监控记录,样本群规模为316个采样点。通过对监测记录的逐一筛查,总共发现并核实了17个异常点,其中4个异常点较为分散,而其余异常点则连续集中出现,随机分散的异常点表现为 CPU负荷大幅度突变的特征,连续集中的异常点则表现出CPU负荷持续处于低位的特征。采取连续和同点这两种时间序列模型同时进行预测的方法,计算相关的基线和阈值,置信度均设置为95%。
首先对连续时间序列仿真结果中的仿真曲线进行分析,可以明显的观察到,预测线较好的逼近了观察线,而且针对观察线上的异常点,预测线也在较短时间内给出了较为准确的预测结果,尤其对于4个分散异常点,系统均在第一时间做出了检出响应,体现了较高的实时性。但与此同时,检测系统也出现了检出错误并发出误报警的情况,将两个处于阈值范围内的正常点也误判为了异常点;对于13个连续集中异常点,该方案检出率较差,只能够检出第一个异常点,此外还出现了6 例错判和误报警的情况。由此可以看出,连续时间序列模型下的SVM 检测算法敏感性过高,而鲁棒性相对较差,容易出现误报警的情况,导致检测方案的实用性受到了限制。
同点时间序列仿真结果则采用同点时间序列模型,可以看出预测线相较于连续时间序列仿真结果中的曲线要更为平滑,即检测方法的敏感性得到了合理的控制,虽然各个预测点对于正常点的逼近程度稍弱于前一模型,但这种弱化程度是有限且平均的,因此不会对正常点的预测造成影响。在对异常点的检出率方面,同点时间序列模型的预测方法则表现出明显的优势,17个异常点均被及时的检测出,同时也没有因误判而发生任何一次误报警,体现了良好的鲁棒性与可靠性,同时大幅度降低了检测失误的概率,已实际具备了持续监控能力。
通过提出了将SVM算法机制引入到信息系统异常检测过程中,并采用粗略寻优和精细寻优的两步交叉验证法,提高了SVM核函数参数的寻优效率,并从而更加合理的确定了电力企业网络性能异常检测工作所需的基线和阈值参数,随后根据网络性能异常特征,构建了基于同点时间序列的检测模型,并同传统检测方法所采用的连续时间序列模型相对比,分别通过仿真实验对异常检测结果进行了分析,论证了本方法的有效性和可靠性。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
Claims (5)
1.基于改进SVM的电力企业信息系统异常检测方案的优化方法,其特征在于,具体步骤如下:
第一步,了解SVM算法原理
支持向量机SVM的基本算法流程如下
首先根据分析对象特征设定初始样本群体{xi,yj},i,j=1,2,…n;xi与yj分别为算法的n维输入量和输出量;
式(1)给出了SVM算法的基本函数形式
上式中为算法的特征映射函数,将其视为被测对象的回归函数,将式(1)表述为
式(1)中的||ω||2为复杂度参数,用以描述f(·)的复杂度;C为惩罚系数,用以设定算法对错误分类的惩罚程度,从而提高全局最优解的存在概率;为经验风险值,用来描述算法分类结果与真实结果之间的差值,其中ε为不灵敏损失函数,其作用等价于算法中的松弛变量,用以清除真实值在某范围内的误差,其满足式(3)
|y-f(x)|ε=max{0,|y-f(x)|-ε} (3)
而经验风险可描述为
通过式(3)和式(4)代入,可将式(2)转变为
将拉格朗日乘子法用于上式,可将其转变为对偶优化问题的求解,如式(6)所示
上式中,K(xi,xj)为核函数,这也是确定算法有效性的关键函数,尤其在针对线性不可分的数据进行SVM优化的过程中,必须根据被测对象的特征选取合适的K(xi,xj),目前常用的核函数有线性核函数、多项式核函数、Sigmoid核函数和高斯核函数等,此处选取高斯核函数,即高斯径向基函数为例,如(7)所示
若其解以的形式给出,则代入式(7)后可得
其中的值为
将代入后,式(8)即转变为以下形式
上式的求解即为二元分类问题的求解;
第二步,构建网络性能指标模型
选取时间点序列作为监测和分析对象,在构建数据模型时,训练集即样本群中的每个个体均为时间序列中某一点上网络性能的对应指标,传统的建模方法是按照连续时间间隔的采样得到初始训练集,如式(11)所示
上式中,U和V分别为算法的输入和输出向量;t表示时间序列的末尾点;l表示元素数量;m表示嵌入维数;该方法缺点是基线和阈值的设定往往存在较大的滞后情况,无法对网络中各种性能指标快速且频繁变化状况进行实时的分析与识别,这就导致了许多异常点没有被及时检出,最终使得监测系统经常出现误报和漏报的情况;
在检索了电力企业累积的大量网络性能监测数据后发现,各个区域内网元的性能波动规律虽然在短时间内是无序的且随机变化的,但在较长的监测周期内依然是遵循一定规律的,尤其在1d的时间单位内,同时间段的变化规律相似性极高,因此提出采用同点时间序列构建网络性能变化模型的设计思路,即多日内同一时间点进行采样的方式,以更好的贴合电力企业网络性能的变化规律,如式(12)所示
上式中,U和V同样为系统的输入及输出向量,t、l、m与式(11)设定相同,n为一日内时间点设定数量;根据电力企业信息传输异常事件的特征分析,当网络出现异常点时,其造成的持续影响往往覆盖了多个时间点,导致了评估结果的偏差;而在本模型中,所有的时间点均为分散的,时间点之间的间隔也并不固定,这就显著的减少了异常点多发的时间段内的采样次数,提高了系统异常检测与评价方案稳定性与客观性;
第三步,核函数的选择及参数优化
在SVM算法中,起到关键影响作用的是核函数的选定与使用,针对电力企业网络性能波动特点,选取高斯径向基函数为SVM算法的核函数,在设置参数的过程中,最关键的两个参数即为惩罚参数c和核函数参数g;对SVM算法的改进也主要体现在对这两个参数的选定过程中,提出将参数寻优的工作分为两步进行,并通过交叉验证的方式快速逼近最优的c和g组合;
Step1,粗略寻优环节的验证与分析
参数寻优采用中国台湾林智仁教授研发的LibSVM软件来完成,x、y轴分别表示c、g取以2为底的对数后的值,而选定参数后的SVM分类器输出结果的准确率则通过z轴上的值来表示;利用LibSVM软件中的SVMcgForClass函数进行计算,在粗略寻优环节中,参数c的估值区间确定为(2-4,24),随机选择为2.3965,而参数g则估值在(2-4,24)之间,随机选定为4,将此组参数带入SVM算法,实现对训练集的二元化分类,通过大量的真实数据验证,其结果的准确率略超过93%;
Step2,精细寻优环节的验证与分析
在完成粗略寻优的基础上,通过精细寻优环节进一步参数准确性,将参数c和g分别在其估值区间内执行离散化操作,随后再次执行SVMcgForClass函数,进一步缩小了两个参数的取值范围,最终得到的最优参数组合为c=1.3272,g=1,将其分别带入所述惩罚系数与核函数后,SVM分类器输出结果的准确性上升至了95.58%,优化效果较为明显;
第四步,置信区间的确定
在完成了参数优化的工作之后,即可根据训练参差计算得到网络性能指标在时间序列模型上的置信区间,为了提高算法的真实度,在确定置信区间的过程中添加高斯白噪声干扰e~N(0,σ2)作为算法约束条件,并将其代入式(10)可得
考虑到样本训练集的规模足够庞大,因此可将样本方差近似等价与总体方差,简化可得
由于高丝白噪声是服从标准正态分布的,因此根据分位点α的定义可将上式转变为
进一步推导得到
上式中的1-α即为根据被控对象预先设定的置信度,根据式(16)则可计算出给对应的阈值波动范围,分别以选定置信度为95%和97%为例,前者通过检索正态分布表,得z0.05/2=1.96≈2,对应的阈值波动范围则为
后者同理查询可得z0.03/2≈3,计算出阈值波动范围为
2.根据权利要求1所述的基于改进SVM的电力企业信息系统异常检测方案的优化方法,其特征在于:所述支持向量机SVM属于智能型自适应优化算法,通过对解群体的分类与回归,很好的提高了算法的泛化性。
3.根据权利要求1所述的基于改进SVM的电力企业信息系统异常检测方案的优化方法,其特征在于:所述f(x)的值有两种,分别为+1和-1,前者表示x归为一类,后者则表示其归为二类,根据分类的结果,就可以对被监测对象的变化趋势进行预判,如网络性能参数是否会在时间序列中的下一时间点上出现异常。
4.根据权利要求1所述的基于改进SVM的电力企业信息系统异常检测方案的优化方法,其特征在于:所述LibSVM软件是中国台湾大学林智仁教授等开发设计的一个简单、易于使用和快速有效的SVM模式识别与回归的软件包,所述LibSVM软件不但提供了编译好的可在Windows系列系统的执行文件,还提供了源代码,方便改进、修改以及在其它操作系统上应用;所述LibSVM软件软件对SVM所涉及的参数调节相对比较少,提供了很多的默认参数,利用这些默认参数可以解决很多问题;并提供了交互检验的功能,所述LibSVM软件可以解决C-SVM、ν-SVM、ε-SVR和ν-SVR等问题,包括基于一对一算法的多类模式识别问题。
5.根据权利要求3所述的基于改进SVM的电力企业信息系统异常检测方案的优化方法,其特征在于:所述参数寻优是所述LibSVM软件自带的grid.py参数寻优,在高斯核函数中,固定核函数参数g,即可用来对线性核寻优。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910721565.1A CN110472678A (zh) | 2019-08-06 | 2019-08-06 | 基于改进svm的电力企业信息系统异常检测方案的优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910721565.1A CN110472678A (zh) | 2019-08-06 | 2019-08-06 | 基于改进svm的电力企业信息系统异常检测方案的优化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110472678A true CN110472678A (zh) | 2019-11-19 |
Family
ID=68510221
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910721565.1A Pending CN110472678A (zh) | 2019-08-06 | 2019-08-06 | 基于改进svm的电力企业信息系统异常检测方案的优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110472678A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110930399A (zh) * | 2019-12-10 | 2020-03-27 | 南京医科大学 | 基于支持向量机的tka术前临床分期智能评估方法 |
CN111768246A (zh) * | 2020-06-30 | 2020-10-13 | 创新奇智(北京)科技有限公司 | 一种数据处理方法、模型建立方法、装置及电子设备 |
CN112182779A (zh) * | 2020-10-29 | 2021-01-05 | 同济大学 | 一种基于模拟退火算法的汽油机在线标定方法 |
CN113283133A (zh) * | 2021-05-17 | 2021-08-20 | 杜玉玲 | 一种基于ansys软件的传感器网格离散化误差评估方法 |
CN113361944A (zh) * | 2021-06-21 | 2021-09-07 | 鑫安利中(北京)科技有限公司 | 基于物联网和人工智能的安全生产指标异常快速感知方法 |
CN114778374A (zh) * | 2022-05-05 | 2022-07-22 | 江苏中烟工业有限责任公司 | 烟叶分类方法、装置、电子设备及存储介质 |
CN115134346A (zh) * | 2022-08-30 | 2022-09-30 | 胜利油田凯龙工贸有限责任公司 | 一种石油电网运行远程调度方法及系统 |
CN117421690A (zh) * | 2023-12-18 | 2024-01-19 | 中节能物业管理有限公司 | 一种智慧园区能耗实时监测方法与系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102331543A (zh) * | 2011-06-23 | 2012-01-25 | 上海市安全生产科学研究所 | 基于支持向量机的故障电弧检测方法 |
CN105389636A (zh) * | 2015-12-11 | 2016-03-09 | 河海大学 | 一种低压台区kfcm-svr合理线损预测方法 |
US20160124031A1 (en) * | 2014-11-04 | 2016-05-05 | Walid G. Morsi Ibrahim | Smart multi-purpose monitoring system using wavelet design and machine learning for smart grid applications |
CN108168682A (zh) * | 2017-12-22 | 2018-06-15 | 中国南方电网有限责任公司超高压输电公司曲靖局 | 一种基于振动信号支持向量机的gil故障在线监测系统 |
CN109406949A (zh) * | 2018-12-14 | 2019-03-01 | 国网山东省电力公司电力科学研究院 | 基于支持向量机的配电网早期故障检测方法及装置 |
-
2019
- 2019-08-06 CN CN201910721565.1A patent/CN110472678A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102331543A (zh) * | 2011-06-23 | 2012-01-25 | 上海市安全生产科学研究所 | 基于支持向量机的故障电弧检测方法 |
US20160124031A1 (en) * | 2014-11-04 | 2016-05-05 | Walid G. Morsi Ibrahim | Smart multi-purpose monitoring system using wavelet design and machine learning for smart grid applications |
CN105389636A (zh) * | 2015-12-11 | 2016-03-09 | 河海大学 | 一种低压台区kfcm-svr合理线损预测方法 |
CN108168682A (zh) * | 2017-12-22 | 2018-06-15 | 中国南方电网有限责任公司超高压输电公司曲靖局 | 一种基于振动信号支持向量机的gil故障在线监测系统 |
CN109406949A (zh) * | 2018-12-14 | 2019-03-01 | 国网山东省电力公司电力科学研究院 | 基于支持向量机的配电网早期故障检测方法及装置 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110930399A (zh) * | 2019-12-10 | 2020-03-27 | 南京医科大学 | 基于支持向量机的tka术前临床分期智能评估方法 |
CN111768246A (zh) * | 2020-06-30 | 2020-10-13 | 创新奇智(北京)科技有限公司 | 一种数据处理方法、模型建立方法、装置及电子设备 |
CN112182779A (zh) * | 2020-10-29 | 2021-01-05 | 同济大学 | 一种基于模拟退火算法的汽油机在线标定方法 |
CN112182779B (zh) * | 2020-10-29 | 2023-08-29 | 同济大学 | 一种基于模拟退火算法的汽油机在线标定方法 |
CN113283133A (zh) * | 2021-05-17 | 2021-08-20 | 杜玉玲 | 一种基于ansys软件的传感器网格离散化误差评估方法 |
CN113283133B (zh) * | 2021-05-17 | 2023-12-08 | 杜玉玲 | 一种基于ansys软件的传感器网格离散化误差评估方法 |
CN113361944A (zh) * | 2021-06-21 | 2021-09-07 | 鑫安利中(北京)科技有限公司 | 基于物联网和人工智能的安全生产指标异常快速感知方法 |
CN114778374A (zh) * | 2022-05-05 | 2022-07-22 | 江苏中烟工业有限责任公司 | 烟叶分类方法、装置、电子设备及存储介质 |
CN115134346A (zh) * | 2022-08-30 | 2022-09-30 | 胜利油田凯龙工贸有限责任公司 | 一种石油电网运行远程调度方法及系统 |
CN117421690A (zh) * | 2023-12-18 | 2024-01-19 | 中节能物业管理有限公司 | 一种智慧园区能耗实时监测方法与系统 |
CN117421690B (zh) * | 2023-12-18 | 2024-03-22 | 中节能物业管理有限公司 | 一种智慧园区能耗实时监测方法与系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110472678A (zh) | 基于改进svm的电力企业信息系统异常检测方案的优化方法 | |
Brzezinski et al. | Prequential AUC: properties of the area under the ROC curve for data streams with concept drift | |
Zhang et al. | Residual compensation extreme learning machine for regression | |
CN112735097A (zh) | 一种区域滑坡预警方法及系统 | |
CN107229993A (zh) | 一种基于km‑apso‑svm模型的短期电力负荷预测方法 | |
CN104978612A (zh) | 基于ahp-rbf的分布式大数据系统风险预测方法 | |
CN112149873B (zh) | 一种基于深度学习的低压台区线损合理区间预测方法 | |
CN110298601A (zh) | 一种基于规则引擎的实时业务风控系统 | |
CN108090628A (zh) | 一种基于pso-lssvm算法的粮情安全检测分析方法 | |
CN110347561A (zh) | 监控告警方法及终端设备 | |
Suntoro et al. | Software defect prediction using AWEIG+ ADACOST Bayesian algorithm for handling high dimensional data and class imbalance problem | |
CN116432123A (zh) | 一种基于cart决策树算法的电能表故障预警方法 | |
CN117094184B (zh) | 基于内网平台的风险预测模型的建模方法、系统及介质 | |
Tang et al. | Predicting housing price based on ensemble learning algorithm | |
Ren et al. | Time series prediction based on echo state network tuned by divided adaptive multi-objective differential evolution algorithm | |
CN117034149A (zh) | 故障处理策略确定方法、装置、电子设备和存储介质 | |
Qu et al. | Instruction detection in scada/modbus network based on machine learning | |
CN115864644A (zh) | 一种继电保护装置状态评价方法、系统、设备及介质 | |
CN111221704B (zh) | 一种确定办公管理应用系统运行状态的方法及系统 | |
Xu et al. | Application of support vector machine model based on an improved elephant herding optimization algorithm in network intrusion detection | |
Yu | Research and prediction of ecological footprint using machine learning: A case study of China | |
Shi et al. | Medical cloud computing risk prediction method based on analytic hierarchy process and MRHGA-RBF neural networking optimization | |
CN112365280B (zh) | 电力需求的预测方法及装置 | |
Ji et al. | An Integrated Framework of GRU Based on Improved Whale Optimization Algorithm for Flood Prediction | |
Li et al. | Drought Prediction Using SVM, Naïve Bayes and LSTM Recurrent Neural Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191119 |
|
RJ01 | Rejection of invention patent application after publication |