CN111835707B - 一种基于改进后的支持向量机的恶意程序识别方法 - Google Patents

一种基于改进后的支持向量机的恶意程序识别方法 Download PDF

Info

Publication number
CN111835707B
CN111835707B CN202010459366.0A CN202010459366A CN111835707B CN 111835707 B CN111835707 B CN 111835707B CN 202010459366 A CN202010459366 A CN 202010459366A CN 111835707 B CN111835707 B CN 111835707B
Authority
CN
China
Prior art keywords
feature
data
classification
algorithm
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010459366.0A
Other languages
English (en)
Other versions
CN111835707A (zh
Inventor
陈锦富
殷上
张祖法
黄如兵
杨健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University
Original Assignee
Jiangsu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University filed Critical Jiangsu University
Priority to CN202010459366.0A priority Critical patent/CN111835707B/zh
Publication of CN111835707A publication Critical patent/CN111835707A/zh
Application granted granted Critical
Publication of CN111835707B publication Critical patent/CN111835707B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2441Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/03Indexing scheme relating to G06F21/50, monitoring users, programs or devices to maintain the integrity of platforms
    • G06F2221/033Test or assess software
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/145Countermeasures against malicious traffic the attack involving the propagation of malware through the network, e.g. viruses, trojans or worms

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Virology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供了一种基于改进后的支持向量机的恶意程序识别方法,包括:通过Netflow对网络流量中数据进行采集,并对采集到的数据包进行数据规范化;为了完成对恶意程序的识别,需要进行特征提取;为了消除冗余特征的问题,进行特征属性降维,并进行归一化处理;然后采用OFSVM算法进行分类训练;最后使用NTMI识别算法构建网络流量识别模型,最终实现对网络流量中恶意程序的识别。

Description

一种基于改进后的支持向量机的恶意程序识别方法
技术领域
本发明属于网络流量中检测恶意程序领域,涉及一种基于改进后的支持向量机的恶意 程序识别方法。
背景技术
随着人口数量的不断增长,促使网络规模日益扩大,网络流量中充斥着各种各样的繁 杂数据,一些窃取利益者通过借助网络中的一些漏洞来进行网络攻击,造成了重要信息的 泄露,以及非法访问的安全问题,更有甚者,使得企业系统瘫痪,给人们的生活带来了巨 大的困扰。
在这庞大的网络流量中,网络恶意攻击者会发布一些钓鱼网站或者蠕虫病毒,来窃取 用户的重要信息,然后利用这些漏洞将正常的程序转换为恶意程序,进而使得用户的主机 被黑客控制或崩溃,造成了巨大的经济损失,扰乱了社会秩序。
在对恶意程序的检测前,需要先对网络流量进行分类识别,分离出有危害的恶意程序 才好进一步对面向缓冲区溢出漏洞的恶意程序进行检测,而随着技术的不断发展,分类识 别技术也种类多样,而现有一些分类识别方法都有其优缺点。Teufl等人提出了一个简化经 验模型选择和特征提取的框架,通过对网络流量进行分析,来观察流量中的数据是否违反 了某项规则,同时从数据中提取最佳的特征集来构建流量分类模型,以此来实现对网络流 量进行分类识别。Shrivastav等人分析并实现了一种半监督的网络流量分类方法,通过对已 标记的流和未标记的流的训练数据进行分类,该数据集包含攻击数据和正常数据,将标记 的数据划分给集群进行分类识别,然后将测试的结果和基于SVM的分类器进行对比,实验 证明该方法具有较好的准确性。Yang等人在分析多个网络数据之后发现,对于不同的协议, 应用层传输的参数都会不同,比如有效负载的大小以及每个包的信息熵,然后借助基于最 小划分距离的决策树算法来进行训练分类,实验表明截取前四个或前六个数据包对分类可 以缩短时长和有较高的准确性。这些技术通过对网络中可能出现的恶意攻击行为进行扫描, 在获取到相应的数据之后进行分析,具有较高的延迟性,同时最终的分类识别的测试结果 与预期结果有较大的差异,所以本文提出的基于改进后的支持向量机的恶意程序识别方法 有着重要意义。
发明内容
基于现有技术对于网络流量中恶意程序的检测准确率不高且存在着分类精度较低等情 况,因此本发明提出了一种基于改进后的支持向量机的恶意程序识别方法来解决上述问题。
本发明提供了一种基于改进后的支持向量机的恶意程序识别方法,包括:
步骤1通过Netflow对网络流量中数据进行采集,并对采集到的数据包进行数据规范 化;
步骤2为了完成对恶意程序的识别,需要进行特征提取;
步骤3为了消除冗余特征的问题,进行特征属性降维,并进行归一化处理;
步骤4然后采用OFSVM算法进行分类训练;
步骤5最后使用NTMI识别算法构建网络流量识别模型,最终实现对网络流量中恶意 程序的识别。
第一方面,上述步骤2具体包括:
通过对处理后的数据集比较样本类型和特征属性的相关性,权值将不断增大随着相关 性越高,然后设置一个阈值,超过该阈值,我们就保留该特征属性,否则就不选取。同时, 若在提取过程中发现某个数据包出现多个特征属性,则选取出现频率最高的来进行代替。 具体的特征选取的过程如下:从数据集D中分层随机选择一些样本s,然后在与样本s最近的相同类型Da中选取y个样本r,然后在不同类的Db中选取y个样本t,最终计算出样 本s分别与样本r和样本t的距离,为Dsr和Dst;如果Dsr>Dst,说明该特征属性是有问题的, 无法利用来进行分类,进而设置较小的权值;反之,该特征属性是易于分类的,就设置较 大的权值。
第二方面,上述步骤3具体包括:
首先将提取到的特征属性添加到集合S中,在研究了之前的一些方法后,在此基础上提出 了Filter特征降维的方法,然后借助信息增益算法对特征属性集合S进行信息增益的评估, 通过评估每一项特征属性对后续分类的效果,来决定是否更新值以及是否更新特征属性集 合S,接着采用启发式的搜索策略对特征属性进行排序,得到特征属性集S1,循环该过程, 达到指定的次数才会停止,在此基础上,采用wrapper方法进行二次特征选取,采用启发 式序列向前的搜索方式,得到特征属性集S2,在进行特征降维后,不仅缩短了时间降低了 计算复杂度,更改善了分类效果。
第三方面,上述OFSVM算法包括:
进行参数优化中,在有限次搜索中寻找出最优参数组合,使用网格搜索参数优化来对 SVM算法进行改进;同时借助采用计算每个样本到类之间的距离作为模糊因子,对于每个 样本点si都存在对应的模糊因子ei,这表示样本分布的不确定性,其中0≤ei≤1,然后使用 R+、R-来表示正负样本的均值点,那么法向量可以用
Figure BDA0002510453720000031
来进行表示,对应的超平 面可以表示为(s-R)2cosαT=0,这样可以得到样本点到超平面的距离为
Figure BDA0002510453720000032
然 后就可以得到正样本点到超平面的最大距离d1,当且仅当R为R+,同理,当R为R-时,d2为负样本点到超平面的最大距离,接着使用调节因子
Figure BDA0002510453720000034
来使得0<ei≤1,那么可以得到模糊 因子为
Figure BDA0002510453720000033
其中,d的值在不同的正负样本时分别取值为d1和d2,以及提出构 建特征有效度,用来消除冗余特征对分类精度的影响,而且也依赖于通过实验验证的径向 基核函数,最终生成了分类器模型。
第四方面,上述NTMI识别算法具体包括:对采集到的网络流量数据进行数据抽样和 规范化处理,获取到对实验更有价值的数据集,同时该网络流量数据更方便我们对特征进 行提取,之后利用ReliefF算法对网络流量中的数据包进行特征提取,此时提取到特征的仍 然包含有一些冗余的属性特征,这些特征将极大的降低网络流量分类的精度,进而提出对 上述提取到的特征集进行降维,使用信息增益技术对各个特征进行计算评估,然后对特征 集进行排序,并进行二次特征选取,采用启发式序列向前的搜索方式,并计算特征的相关 性,最终实现对特征的降维。接着,对于得到的特征子集需要进行归一化处理,将所有的 特征属性都转化为数值,然后以此放到矩阵数组中,进行最小欧式距离计算,然后借助OFSVM算法进行训练,得到一个分类效果较大改进的分类器,将剩余的网络流量测试集 作为输入,利用该分类器,实现对网络流量中正常程序和恶意程序进行分类,最终实现对 网络流量中恶意程序的识别。
本发明有益的效果是:
1.OFSVM算法可以用来提升网络流量的分类精度,提出使用网格搜索,扩大搜索范围, 并采用样本到分类超平面的距离来设计模糊因子,这种做法将减小分类平面形状对分类精度 的影响,同时根据特征有效度来衡量特征权值,最后使用径向基核函数降低复杂度,最终提 升分类训练的性能。
2.NTMI识别算法通过对采集的数据包进行特征提取、特征降维以及归一化处理,以此 来作为分类OFSVM算法的输入,生成分类性能更好的分类器,以此来构建网络流量的恶意 程序识别模型,完成对恶意程序的识别。
3.有效的从网络流量中采集对应的数据流量,完成实时监测;对数据包进行特征提取; 特征降维来处理冗余特征,提高了分类性能;便于特征的处理,提出归一化处理,可以更好 的作为输入处理;OFSVM算法用来完成对恶意程序的分类训练;NTMI算法被用来识别网 络流量中是否有恶意程序;实验结果表明所提的方法对网络流量的恶意程序识别有一定的效 果,可以实现对网络流量中恶意程序的识别,保证了网络安全。
附图说明
图1特征降维的流程图;
图2是本发明的基于改进后的支持向量机的恶意程序识别方法流程图;
图3网络流量中恶意程序识别模型流程图;
图4特征提取后的特征属性示意图;
图5特征降维后的特征属性示意图;
图6五种方法在CAIDA上的准确率对比图;
图7五种方法在CAIDA上的误报率对比图。
具体实施方式
下面将通过附图以及具体步骤对本发明进一步阐述。
本发明的目的是针对网络流量中存在着一些利用漏洞的恶意程序,提供一种基于改进 后的支持向量机的恶意程序识别方法,有效的完成对恶意程序的识别,提供了NTMI识别算 法,并进行了充分的实验,这也证明了该方法的可行性和有效性。
如图2所示,本发明的基于改进后的支持向量机的恶意程序识别方法,包括:
步骤201通过Netflow对网络流量中数据进行采集,并对采集到的数据包进行数据规 范化;
步骤202为了完成对恶意程序的识别,需要进行特征提取;
步骤203为了消除冗余特征的问题,进行特征属性降维,并进行归一化处理;
步骤204然后采用OFSVM算法进行分类训练;
步骤205最后使用NTMI识别算法构建网络流量识别模型,最终实现对网络流量中恶 意程序的识别。
上述步骤201,具体的步骤如下所示:
(1)数据采集
首先需要借助NetFlow进行网络流量数据采集,该工具其实也可以实现对网络流量分 析,进而排查出网络故障,但是对于攻击者编写的许多漏洞类型的恶意程序识别效率较低, 同时需要相应的网络设备对NetFlow的支持,而且需要使用人员可以区分出正常流量和恶意 流量,因此本研究仅通过该工具进行网络流量采集,其可以监控指定时间段内通过端口的所 有流量,是一个轻量级的工具,进而得到数据包的版本、个数、缓冲区大小等信息。
(2)数据规范化
对采集到的网络流量数据包进行规范化之前,先进行数据抽样,以此来挑选出更好的 数据集。数据抽样主要是在实验的整个数据集中先选取一些数据作为子集然后进行抽样观 察,因为该集合具有原始集合的特性,从而实现对整个网络流量数据集优良的判断。主要的 抽样方式是系统抽样、随机抽样与分层抽样。系统抽样就是先对原来的数据样本进行排序, 从头开始,每个一段时间随机抽取指定数量的样本数据;随机抽样:就是接着在整个样本数 据中随机选取一些样本数据;而分层抽样就是把整个数据样本集先按照指定的规则分层,然 后每层中随机抽取一些数据。本文将采取分层抽样来观察整个数据集合的优良。
对于步骤202,网络流量中数据包进行特征提取主要步骤如下:
(1)借助现有的ReliefF分析技术进行特征提取,该技术是在经典的Filter上改进后的 方法,该方法是通过对处理后的数据集比较样本类型和特征属性的相关性,权值将不断增大 随着相关性越高,然后设置一个阈值,超过该阈值,我们就保留该特征属性,否则就不选取。 同时,若在提取过程中发现某个数据包出现多个特征属性,则选取出现频率最高的来进行代 替。
(2)具体的特征选取的过程如下:从数据集D中分层随机选择一些样本s,然后在与样 本s最近的相同类型Da中选取y个样本r,然后在不同类的Db中选取y个样本t,最终计算出样本s分别与样本r和样本t的距离,为Dsr和Dst;如果Dsr>Dst,说明该特征属性是有问题的,无法利用来进行分类,进而设置较小的权值;反之,该特征属性是易于分类的,就设置较大的权值,特征权值的计算参考现有文献进行,其中d(x,r,t)为对应的欧式距离,w(x)为对 应的权值,Dj为数据集中第j个样本数据,n是指在n个数据中计算权值大小来进行特征提 取,循环执行上述过程,并将最终计算的权值与设置的权值进行比对,符合要求就保留,否 则就遗弃,进而可以得到最终的提取到特征属性集合S。最终提取到的特征如图4所示。
Figure BDA0002510453720000051
对于步骤203,为了消除冗余特征的问题,进行特征属性降维,并进行归一化处理,具 体步骤如下:
(1)首先将提取到的特征属性添加到集合S中,在研究了之前的一些方法后,在此基础 上提出了Filter特征降维的方法,然后借助信息增益算法,EIG=evaluate(Ffilter,S)是对特 征属性集合S进行信息增益的评估,通过评估每一项特征属性对后续分类的效果,来决定是 否更新EIG的值以及是否更新特征属性集合S,接着采用启发式的搜索策略对特征属性进行排 序,得到特征属性集S1,循环该过程,达到指定的次数才会停止,在此基础上,采用Wrapper 方法进行二次特征选取,采用启发式序列向前的搜索方式,得到特征属性集S2,具体的流 程图如图3所示。在进行特征降维后,不仅缩短了时间降低了计算复杂度,更改善了分类效 果。
(2)在使用Wrapper方法时,下述公式通过采用现有的文献对流量特征属性的相关性进 行计算,来对特征属性进行二次选取,其中n表示对所有初始选取的特征属性个数,
Figure BDA0002510453720000061
表示 特征属性系数,mri表示第i个数据包的流量特征属性平均值,
Figure BDA0002510453720000062
为对应的方差,mr表示流 量特征属性r的平均值。最终经过特征降维后的特征属性如图5所示。
Figure BDA0002510453720000063
(3)数据归一化在数据挖掘中扮演着重要的角色,对于不同的评价指标其对应的衡量单 位是有差异的,在这种情况下将会无法进行数据分析操作,基于此,进行归一化处理,进而 使得不同的数据有可比性和可操作性,在数据经过处理之后,将转换为无量纲和单位的纯数 值,变成了同一量级的数据指标,便于进行后续的处理和评价,同时,进行归一化之后提升 收敛速度和提高分类精度。具体归一化处理如下所示:借助现有文献中提出的离差标准化方 法,也可以称作min-max标准化,其主要是用来处理数据的,通过把目标数据集转换到0到 1之间,通过将获取到的特征子集进行线性变换,使用转换函数如下:
Figure BDA0002510453720000064
在该公 式中,min指的是样本数据的最小值,而max就是指样本数据的最大值,但是有个缺点是, 当目标转换过程中继续向其中加入数据将使得max和min被改变,进而影响归一化的标准, 所以在进行归一化处理之前,就要确保数据集将保持不变。
对于步骤204,后采用OFSVM算法进行分类训练,具体的步骤如下:
对于现有的SVM分类方法,随着经济的快速发展,网络的普及范围扩大,使得网络流 量规模也越来越庞大,同时在真实的网络环境中存在着许多噪音,且没有对样本数据中存在 许多冗余的特征进行处理,导致SVM分类精度较低;还有就是对样本数据进行训练生成分 类器的过程中,需要人工的标识样本数据,将耗费许多精力同时很难保证不出现人为误差。
为了解决上述问题,将主要从参数优化的角度对SVM算法进行改进,SVM参数优化主要是在由许多参数空间中使用某种搜索策略,在有限次的搜索中寻找到一个趋近最优解, 而在参数优化中我们需要考虑核函数参数和惩罚参数这两个重要参数。其中,惩罚参数将对 SVM超平面的泛化能力起着决定作用,主要被用于表示在构建超平面时候的容错度,而核 函数参数会决定作用范围,进而也会影响SVM的泛化能力。
(1)我们将从参数优化,在有限次搜索中寻找出最优参数组合的角度出发,提出使用网 格搜索参数优化来对SVM算法进行改进。网格搜索的原理如下,首先在k个参数中划分成 k维的参数空间,其中使用网格节点来代表候选的参数;接着,在指定的步长进行采样并生 成对应的集合P(ci)={P(c1)×P(c2)×…×P(ck)},并设置参数ci的范围,来生成不同方向 的网格;最后根据指定的评估方法对每个网格节点ci进行评测,并输出最终的近似最优解。 在这个过程中,首先设置递增步长为默认步长q的t倍,也就是q.t,这个是为了减少搜索时 间和生成网格的密度,然后进行遍历搜索,在执行完所有的样本数据后,可以得到最优参数 组合。为了表示构建分类平面时对样本数据的容错度,引入惩罚参数P,与设置的过拟合临 界值f进行比较,当小于f时,缩小搜索空间,并设置搜索的步长为初始步长的一半,再次 进行搜索,减少步长是为了扩大网格的密度,进而实现更精确的搜索;如果超过了过拟合临 界值f,则扩大搜索空间并调整搜索方向方向进行再次的搜索,此时目的是既可以优化参数 也能防止出现过拟合行为,循环执行样本数据,直至惩罚参数P在临界范围内,停止执行, 输出最优的参数组合值。该算法有着较大的可搜索空间,且彼此节点互不相关,可通用性比 较高,可以实现帮助完成分类的误差最小。
(2)接着为了提高分类精度,首先通过引入模糊因子,现有的一些研究提出采用计算每 个样本到类之间的距离作为模糊因子,使得无法获得最优分类超平面,此种做法将减少支持 向量对分类超平面的作用。本研究将采用样本到分类超平面的距离来设计模糊因子,这种做 法将减小分类平面形状对分类精度的影响。在此基础上,首先构建对应的分类超平面,接着 计算各个样本节点到超平面的距离,这样便可以借助模糊因子来消除多余噪音对分类精度, 在此基础上,提出构建特征有效度,用来消除冗余特征对分类精度的影响。对于每个样本点 si都存在对应的模糊因子ei,这表示样本分布的不确定性,其中0≤ei≤1,然后使用R+、R-来 表示正负样本的均值点,那么法向量可以用
Figure BDA0002510453720000071
来进行表示,参考现有文献里的方 法,则对应的超平面可以表示为(s-R)2cosαT=0,这样可以得到样本点到超平面的距离为
Figure BDA0002510453720000081
然后就可以得到正样本点到超平面的最大距离d1,当且仅当R为R+,同理, 当R为R-时,d2为负样本点到超平面的最大距离。接着使用调节因子
Figure BDA0002510453720000086
来使得0<ei≤1,那 么可以得到模糊因子为
Figure BDA0002510453720000082
其中,d的值在不同的正负样本时分别取值为d1和d2, 这样通过使用不同的模糊因子来消除多余噪音对分类精度的影响,但是没有考虑不同特征对 分类的影响,接着本文提出引入特征有效度来消除弱相关特征对分类精度的影响。
(3)通过参考现有文献提出的特征有效度的计算方法,对于每个样本数据的特征i其都 有一个相对应的特征有效度
Figure BDA0002510453720000083
可以表示某一个特征被用来分类的影响程度,当特征i分类 能力强,其特征有效度
Figure BDA0002510453720000084
将会比较大,在特征集合S中,通过计算每个特征的增强学习能力, 来判断各个特征的分类效果。假设训练样本集S,其总个数为|S|,在某个样本中存在p个特 征属性,则特征有效度可以表示为
Figure BDA0002510453720000085
其中,当某一个特征i增强学习值比较大, 其特征有效度将会比较大,也就是对分类贡献程度比较高。最后,考虑到核函数参数对分类 性能的重要性,本研究将通过选择合适的核函数的角度来对SVM分类算法进行优化。
(4)核函数主要是用来将原始非线性样本数据映射到特征空间中,然后再借助构造的最 优分类平面将该非线性样本转换为线性可分类问题,这样便可以便可以避免高维特征空间带 来的庞大计算量。假设输入空间P∈R^n,对应的特征空间是F,当存在映射函数γ(y)=Y→P, 对于属于Y的任意的yi和yj都满足K(yi,yj)=γ(yi)Tγ(yj),则此时便存在核函数K。而核函 数又需要满足Mercer定理,也就是对于输入空间的任意向量,其对应的核矩阵应该为半正 定矩阵。当选择合适的核函数后,实现不增加复杂度的同时来完成线性分类。因此,SVM 的分类效果与核函数有极大的关联。本研究将采用径向基核函数来作为核函数,该函数在局 部范围中有较好的性能,同时可以实现对数据集中的样本点有很高的分类效率。而且其不被 样本数量和特征维数约束的优点使得其应用更加广泛,同时径向基核函数有着较少的参数, 而一般情况下,核函数的复杂度是与其参数个数是有关联的,这使得还核函数有较低的复杂 度。通过采用上述方式对SVM算法的分类进行改进使得误差相对较小,进而使得对于网络 流量中恶意程序分类识别能力有较大的改善。
对于步骤205,最后使用NTMI识别算法构建网络流量识别模型,最终实现对网络流量中恶意程序的识别,具体步骤如下:
(1)首先解决对网络流量中的程序进行准确分类问题,为了实现该目标,首先使用NetFlow技术对网络流量进行采集,整个采集流程主要包括三个步骤,步骤一尝试获取网卡列表,借助网络底层访问工具来获取网卡列表,实时监测所有经过网卡的流量;步骤二是挑选网卡进行检测,对步骤一获取的网卡数据,需要设置其为混杂模式;步骤三就是将流量中的数据包进行合并,在某一段时间内通过网络的流量数据,通过提取它们的数据包并合并,最终将得到采集到的网络流量数据。
(2)对采集到的网络流量数据进行数据抽样和规范化处理,获取到对实验更有价值的数 据集,同时该网络流量数据更方便我们对特征进行提取,之后利用ReliefF算法对网络流量 中的数据包进行特征提取,此时提取到特征的仍然包含有一些冗余的属性特征,这些特征将 极大的降低网络流量分类的精度,进而提出对上述提取到的特征集进行降维,使用信息增益 技术对各个特征进行计算评估,然后对特征集进行排序,使用wrapper方法进行二次特征选 取,采用启发式序列向前的搜索方式,并计算特征的相关性,最终实现对特征的降维。
(3)对于得到的特征子集需要进行归一化处理,将所有的特征属性都转化为数值,然后 以此放到矩阵数组中,进行最小欧式距离计算,然后借助OFSVM算法进行训练,得到一个 分类效果较大改进的分类器,将剩余的网络流量测试集作为输入,利用该分类器,实现对网 络流量中正常程序和恶意程序进行分类,最终实现对网络流量中恶意程序的识别,在此基础 上,进而完成对该识别模型的构建。
通过将本发明提出的NTMI识别方法与现有的四种方法进行比较,如图6和如图7所示,对于该公共数据集较大,然后我们便选取10%的数据集分别作为训练和测试,最终用于测试的数据集接近4万个左右,同时该从图中可以看出,本研究提出的NTMI算法的准 确率依旧表现的不错,随着数据包个数的增加,在更大规模的网络流量公共数据集时,NTMI算法相比其他四种算法的误报率是更低的,也是趋于稳定的,维持在6%左右,这也证明了本发明是可行的。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示 例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结 构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语 的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离 本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发 明的范围由权利要求及其等同物限定。

Claims (3)

1.一种基于改进后的支持向量机的恶意程序识别方法,其特征在于,包括如下步骤:
步骤1通过Netflow对网络流量中数据进行采集,并对采集到的数据包进行数据规范化;
步骤2为了完成对恶意程序的识别,需要进行特征提取;
步骤3为了消除冗余特征的问题,进行特征属性降维,并进行归一化处理;
步骤4然后采用OFSVM算法进行分类训练;
所述步骤4的OFSVM算法包括:
进行参数优化中,在有限次搜索中寻找出最优参数组合,使用网格搜索参数优化来对SVM算法进行改进;同时借助采用计算每个样本到类之间的距离作为模糊因子,对于每个样本点si都存在对应的模糊因子ei,这表示样本分布的不确定性,其中0≤ei≤1,然后使用R+、R-来表示正负样本的均值点,那么法向量可以用
Figure FDA0003784035200000011
来进行表示,对应的超平面可以表示为(s-R)2cosαT=0,这样可以得到样本点到超平面的距离为
Figure FDA0003784035200000012
然后就可以得到正样本点到超平面的最大距离d1,当且仅当R为R+,同理,当R为R-时,d2为负样本点到超平面的最大距离,接着使用调节因子
Figure FDA0003784035200000013
来使得0<ei≤1,那么可以得到模糊因子为
Figure FDA0003784035200000014
其中,d的值在不同的正负样本时分别取值为d1和d2,以及提出构建特征有效度,用来消除冗余特征对分类精度的影响,而且也依赖于通过实验验证的径向基核函数,最终生成了分类器模型;
步骤5最后使用NTMI识别算法构建网络流量识别模型,最终实现对网络流量中恶意程序的识别;
所述步骤5的NTMI识别算法具体包括:
对采集到的网络流量数据进行数据抽样和规范化处理,获取到对实验更有价值的数据集,同时该网络流量数据更方便我们对特征进行提取,之后利用ReliefF算法对网络流量中的数据包进行特征提取,此时提取到特征的仍然包含有一些冗余的属性特征,使用信息增益技术对各个特征进行计算评估,然后对特征集进行排序,并进行二次特征选取,采用启发式序列向前的搜索方式,并计算特征的相关性,最终实现对特征的降维;接着,对于得到的特征子集需要进行归一化处理,将所有的特征属性都转化为数值,然后以此放到矩阵数组中,进行最小欧式距离计算,然后借助OFSVM算法进行训练,得到一个分类效果较大改进的分类器,将剩余的网络流量测试集作为输入,利用该分类器,实现对网络流量中正常程序和恶意程序进行分类,最终实现对网络流量中恶意程序的识别。
2.如权利要求1所述方法,其特征在于,所述步骤2具体包括:
通过对处理后的数据集比较样本类型和特征属性的相关性,权值将不断增大随着相关性越高,然后设置一个阈值,超过该阈值,就保留该特征属性,否则就不选取;同时,若在提取过程中发现某个数据包出现多个特征属性,则选取出现频率最高的来进行代替,具体的特征选取的过程如下:从数据集D中分层随机选择一些样本s,然后在与样本s最近的相同类型Da中选取y个样本r,然后在不同类的Db中选取y个样本t,最终计算出样本s分别与样本r和样本t的距离,为Dsr和Dst;如果Dsr>Dst,说明该特征属性是有问题的,无法利用来进行分类,进而设置较小的权值;反之,该特征属性是易于分类的,就设置较大的权值。
3.如权利要求1所述方法,其特征在于,所述步骤3具体包括:
首先将提取到的特征属性添加到集合S中,在此基础上提出了Filter特征降维的方法,然后借助信息增益算法对特征属性集合S进行信息增益的评估,通过评估每一项特征属性对后续分类的效果,来决定是否更新值以及是否更新特征属性集合S,接着采用启发式的搜索策略对特征属性进行排序,得到特征属性集S1,循环该过程,达到指定的次数才会停止,在此基础上,采用wrapper方法进行二次特征选取,采用启发式序列向前的搜索方式,得到特征属性集S2,在进行特征降维后,不仅缩短了时间降低了计算复杂度,更改善了分类效果。
CN202010459366.0A 2020-05-27 2020-05-27 一种基于改进后的支持向量机的恶意程序识别方法 Active CN111835707B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010459366.0A CN111835707B (zh) 2020-05-27 2020-05-27 一种基于改进后的支持向量机的恶意程序识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010459366.0A CN111835707B (zh) 2020-05-27 2020-05-27 一种基于改进后的支持向量机的恶意程序识别方法

Publications (2)

Publication Number Publication Date
CN111835707A CN111835707A (zh) 2020-10-27
CN111835707B true CN111835707B (zh) 2022-12-16

Family

ID=72914111

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010459366.0A Active CN111835707B (zh) 2020-05-27 2020-05-27 一种基于改进后的支持向量机的恶意程序识别方法

Country Status (1)

Country Link
CN (1) CN111835707B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112367338A (zh) * 2020-11-27 2021-02-12 腾讯科技(深圳)有限公司 恶意请求检测方法及装置
CN113114672B (zh) * 2021-04-12 2023-02-28 常熟市国瑞科技股份有限公司 一种视频传输数据精细化测量方法
CN113489685B (zh) * 2021-06-15 2023-03-21 江苏大学 一种基于核主成分分析的二次特征提取及恶意攻击识别方法
CN113591915B (zh) * 2021-06-29 2023-05-19 中国电子科技集团公司第三十研究所 基于半监督学习和单分类支持向量机的异常流量识别方法
CN114444569B (zh) * 2021-12-22 2024-05-10 北京航天测控技术有限公司 一种电源控制系统健康状态评估算法
CN116805926B (zh) * 2023-08-21 2023-11-17 上海飞旗网络技术股份有限公司 网络业务类型识别模型训练方法、网络业务类型识别方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106992965A (zh) * 2017-02-27 2017-07-28 南京邮电大学 一种基于网络行为的木马检测方法
CN110008983A (zh) * 2019-01-17 2019-07-12 西安交通大学 一种基于分布式模糊支持向量机的自适应模型的网络流量分类方法
CN111079142A (zh) * 2019-10-31 2020-04-28 湖北工业大学 一种基于烟花算法和支持向量机的恶意软件检测方法
CN110990834B (zh) * 2019-11-19 2022-12-27 重庆邮电大学 一种android恶意软件的静态检测方法、系统及介质

Also Published As

Publication number Publication date
CN111835707A (zh) 2020-10-27

Similar Documents

Publication Publication Date Title
CN111835707B (zh) 一种基于改进后的支持向量机的恶意程序识别方法
Javaid et al. A deep learning approach for network intrusion detection system
Sharma et al. Classification through machine learning technique: C4. 5 algorithm based on various entropies
Rai et al. Decision tree based algorithm for intrusion detection
CN108601026B (zh) 基于随机抽样一致性的感知数据错误化攻击检测方法
Hu et al. False positive elimination in intrusion detection based on clustering
CN111143838B (zh) 数据库用户异常行为检测方法
Rani et al. Design of an intrusion detection model for IoT-enabled smart home
CN117278314A (zh) 一种DDoS攻击检测方法
Sheng et al. Network traffic anomaly detection method based on chaotic neural network
CN116545733A (zh) 一种电网入侵检测方法及系统
CN116647844A (zh) 一种基于堆叠集成算法的车载网络入侵检测方法
Faraoun et al. Neural networks learning improvement using the k-means clustering algorithm to detect network intrusions
Pradhan et al. Machine learning-based intrusion detection system for the internet of vehicles
Kang et al. Classification method for network security data based on multi-featured extraction
Soliman et al. Correlation based feature selection using quantum bio inspired estimation of distribution algorithm
Nie et al. Intrusion detection based on nonsymmetric sparse autoencoder
Wang et al. Intrusion detection algorithms based on correlation information entropy and binary particle swarm optimization
Luo et al. Network attack classification and recognition using hmm and improved evidence theory
Wu et al. Intrusion Detection System Using a Distributed Ensemble Design Based Convolutional Neural Network in Fog Computing
Hosseiny et al. Improve intrusion detection using grasshopper optimization algorithm and decision trees
bin Haji Ismail et al. A novel method for unsupervised anomaly detection using unlabelled data
Babu et al. Detection of crimes using unsupervised learning techniques
Shao et al. A link prediction algorithm by unsupervised machine learning
Jain et al. A new approach for handling null values in web log using KNN and tabu search KNN

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant