CN115714687B - 入侵流量检测方法、装置、设备及存储介质 - Google Patents

入侵流量检测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115714687B
CN115714687B CN202211475573.0A CN202211475573A CN115714687B CN 115714687 B CN115714687 B CN 115714687B CN 202211475573 A CN202211475573 A CN 202211475573A CN 115714687 B CN115714687 B CN 115714687B
Authority
CN
China
Prior art keywords
initial
data set
features
feature
flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211475573.0A
Other languages
English (en)
Other versions
CN115714687A (zh
Inventor
李润杰
张小庆
刘昌华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Polytechnic University
Original Assignee
Wuhan Polytechnic University
Filing date
Publication date
Application filed by Wuhan Polytechnic University filed Critical Wuhan Polytechnic University
Priority to CN202211475573.0A priority Critical patent/CN115714687B/zh
Publication of CN115714687A publication Critical patent/CN115714687A/zh
Application granted granted Critical
Publication of CN115714687B publication Critical patent/CN115714687B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明属于网络安全技术领域,公开了一种入侵流量检测方法、装置、设备及存储介质;该方法包括:对待识别流量特征提取得到初始特征,通过归因法对初始特征分类得到含有多个初始特征的决策树;根据决策树特征提取得到待识别特征;将待识别特征输入预设特征识别模型得到多个初始识别结果;根据预设特征识别模型的参考权重对所述初始特征识别结果分析得到待识别流量的流量类别;本发明通过对待识别流量分类后特征提取得到更能够代表该类流量的特征,再根据预先训练好的多个同质集成算法对该特征进行种类识别,并更根据优化后的权重从多个识别结果中得到更加准确的待识别流量的类别,解决了无法快速从大量流量中快速、准确识别入侵流量的问题。

Description

入侵流量检测方法、装置、设备及存储介质
技术领域
本发明涉及网络安全技术领域,尤其涉及一种入侵流量检测方法、装置、设备及存储介质。
背景技术
网络技术的飞速发展,为当今社会的各个领域发展提供了巨大动力。信息基础设施面临着网络中的大量威胁,我国的信息安全体系形势严峻,存在网络攻击告警、侦测、防范和响应等多方面的问题,互联网中存在的安全漏洞是导致网络安全问题的关键因素之一。网络安全隐患逐渐增多的同时,入侵检测的规模也越来越大。相关的技术和方法层出不穷百花齐放。早期的网络安全产品,例如:防火墙,它作为守护网络的壁垒一般通过访问控制表只能阻止少数外部入侵攻击。它本身的作用也很有限,由于防御功能比较单一,弱点和缺陷也比较多,这些弱点经常被当作入侵的切入点,也就是我们常说的漏洞。即便是通过防火墙,攻击者也经常能想办法绕过它来非法进入使用网络。被攻击的系统却毫不知情,一旦自身网络被攻破很可能造成企业机密被不法分子窃取,企业网络遭到破坏,而这些数据损失往往难以用普通的经济损失来衡量。
尽管网络中存在海量高速流转的流量,利用入侵检测技术鉴别区分良性流量和恶意流量,这正是该领域的前人学者们通过不断努力研究的成果。然而目前亟待解决的问题是如何更好地提高入侵检测精度、降低冗长的运行时间和捕获攻击的实时性,这些需要我们更加明确方向研究来一一解决。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种入侵流量检测方法,旨在解决现有技术无法快速从大量流量中快速、准确识别入侵流量的技术问题。
为实现上述目的,本发明提供了一种入侵流量检测方法,所述方法包括以下步骤:
对待识别流量进行特征提取得到初始特征,通过归因法对所述初始特征进行分类得到含有多个初始特征的决策树;
根据所述决策树进行特征提取,得到待识别特征;
将所述待识别特征输入预设特征识别模型得到多个初始识别结果;
根据所述预设特征识别模型的参考权重对所述初始特征识别结果进行分析得到所述待识别流量的流量类别。
可选地,所述根据所述决策树进行特征提取,得到待识别特征,包括:
计算每个决策树中初始特征的有效占比以及所述初始特征的基尼指数;
根据所述有效占比和所述基尼指数对所述决策树中的初始特征进行排序得到初始特征序列表;
根据所述初始特征序列表得到代表所述待识别流量的待识别特征。
可选地,所述将所述待识别特征输入预设特征识别模型得到多个初始识别结果之前,还包括:
获取原数据集;
对所述原数据集进行分类得到不同类别的数据集,对所述原数据集进行特征提取,得到带有类别标签的样本特征;
根据所述样本特征对同质集成算法进行训练得到训练后的预设特征识别模型,所述同质集成算法包括随机森林算法、决策树算法、极端随机数算法。
可选地,所述对所述原数据集进行分类得到不同类别的数据集,对所述原数据集进行特征提取得到带有类别标签的样本特征,包括:
从原始数据集中随机抽取预设个数的初始数据集,去除所述初始数据集中的错误样本数据得到初始样本数据集,将所述样本数据集中的数据格式同一化得到样本数据集;
根据所述样本数据集中的最大值和最小值对样本数据集进行线性变换得到参考数据集;
将所述参考数据集中的数据类别转化为数字标签得到带有类别标签的标签数据集;
对所述标签数据集进行综合采样得到采样后的标签数据集,对所述标签数据集中的样本数据进行特征降维,得到样本特征。
可选地,所述对所述标签数据集进行综合采样得到采样后的标签数据集,对所述标签数据集中的样本数据进行特征降维,得到样本特征,包括:
根据所述标签数据集得到差值样本,计算所述差值样本之间的欧式距离;
根据所述欧式距离得到所述差值样本预设个数的最近邻,根据所述最近邻生成新的样本数据;
将所述新的样本数据加入标签数据集中得到新的标签数据集;
删除所述新的标签数据集中的欠拟合差值样本,得到采样后的标签数据集;
对所述标签数据集中的样本数据进行特征降维,得到样本特征。
可选地,所述根据所述预设特征识别模型的参考权重对所述初始特征识别结果进行分析得到所述待识别流量的流量类别之前,还包括:
通过多项式回归算法计算所述预设特征识别模型对所述原数据集的分类概率;
将所述分类概率和所述原始数据的真实类别输入对数损失函数,计算所述损失函数的最小值;
通过预设算法计算所述最小值对应的权重,将所述权重作为参考权重。
可选地,所述通过预设算法计算所述最小值对应的权重,将所述权重作为参考权重,包括:
根据原数据集数据总数以及损失函数计算得到误差函数;
根据随机权重以及所述误差函数计算雅克比矩阵以及误差值,根据所述雅克比矩阵以及误差值计算得到权重增量;
当所述权重增量大于预设阈值时,则根据所述随机权重以及所述权重增量计算得到新的随机权重;
当所述权重增量小于预设阈值时,则根据所述随机权重以及所述权重增量计算得到参考权重。
此外,为实现上述目的,本发明还提出一种入侵流量检测装置,所述入侵流量检测装置包括:
特征识别模块,用于对待识别流量进行特征提取得到初始特征,通过归因法对所述初始特征进行分类得到含有多个初始特征的决策树;
所述特征识别模块,还用于根据所述决策树进行特征提取,得到待识别特征;
流量检测模块,用于将所述待识别特征输入预设特征识别模型得到多个初始识别结果;
所述流量检测模块,还用于根据所述预设特征识别模型的参考权重对所述初始特征识别结果进行分析得到所述待识别流量的流量类别。
此外,为实现上述目的,本发明还提出一种入侵流量检测设备,所述入侵流量检测设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的入侵流量检测程序,所述入侵流量检测程序配置为实现如上文所述的入侵流量检测方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有入侵流量检测程序,所述入侵流量检测程序被处理器执行时实现如上文所述的入侵流量检测方法的步骤。
本发明通过对待识别流量分类后特征提取得到更能够代表该类流量的特征,再根据预先训练好的多个同质集成算法对该特征进行种类识别,并更根据优化后的权重从多个识别结果中得到更加准确的待识别流量的类别,解决了无法快速从大量流量中快速、准确识别入侵流量的问题。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的入侵流量检测设备的结构示意图;
图2为本发明入侵流量检测方法第一实施例的流程示意图;
图3为本发明入侵流量检测方法第二实施例的流程示意图;
图4为本发明入侵流量检测方法第三实施例的流程示意图;
图5为本发明入侵流量检测装置第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的入侵流量检测设备结构示意图。
如图1所示,该入侵流量检测设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM)存储器,也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对入侵流量检测设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及入侵流量检测程序。
在图1所示的入侵流量检测设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明入侵流量检测设备中的处理器1001、存储器1005可以设置在入侵流量检测设备中,所述入侵流量检测设备通过处理器1001调用存储器1005中存储的入侵流量检测程序,并执行本发明实施例提供的入侵流量检测方法。
本发明实施例提供了一种入侵流量检测方法,参照图2,图2为本发明一种入侵流量检测方法第一实施例的流程示意图。
本实施例中,所述入侵流量检测方法包括以下步骤:
步骤S10:对待识别流量进行特征提取得到初始特征,通过归因法对所述初始特征进行分类得到含有多个初始特征的决策树。
可理解的是,待识别流量可以是联网时存在的各种流量信息,类似于网页流量、个人账户流量等。
应理解的是,每种流量或者是每个流量都含有非常多个流量特征,但是不是每个特征都是有用的,有的流量特征类似于时间特征、符号特征等、可能是对于识别流量类别没有关联的流量特征,需要从大量无关特征中进行特征提取得到能够区分不同流量的特征,能够区分不同流量的特征可以理解为初始特征。
应理解的是,决策树的每个节点是一个特征,使用归因法来确定最佳节点,并通过减少每个特征的归因树来构建决策树。
需说明的是,归因法可以理解为根据各个特征之间的因果关系,将各个特征在决策树中进行排列,排列后的决策树中保罗多个初始特征。
步骤S20:根据所述决策树进行特征提取,得到待识别特征。
可理解的是,但是此时的初始特征仍然后很多对于识别该流量类别有参考但是并没有太大影响的特征,还需要进一步进行特征提取,从决策树中选择更能够代表该类流量的特征,可以是一个可以是多个,具体根据决策树归因后结果进行确定。
可理解的是,决策树中有很多个主分支,基于归因法,主分支后可以还有多个分支;计算每个决策树中初始特征的有效占比以及所述初始特征的基尼指数;其中基尼指数的计算公式可参考下列公式:
其中,t表示类别的数量,Dt表示当前类别t的有效占比。其中需要说明的是,特征Ej在节点q处的Gini增量为:
其中GNt和GNy分别表示分枝前和分枝后新的Gini值。若特征Ej是在集合P中且是属于第i棵CART决策树,那么Ej在第i棵树的Gini值为:
根据所述有效占比和所述基尼指数对所述决策树中的初始特征进行排序得到初始特征序列表,初始特征序列表是根据有效占比选择有效占比超过百分之30的特征值或者是有效占比超过百分之20的参考特征值进行基尼指数的比较,再根据基尼指数的大小对参考特征值进行排序得到初始特征序列表,初始特征序列表中排序前10或者是排序前5的特征作为最终的待识别流量的待识别特征。
步骤S30:将所述待识别特征输入预设特征识别模型得到多个初始识别结果。
可理解的是,预设特征识别模型是由多个同质集成算法构成的对特征进行分类识别的模型;在使用该模型进行特征识别之前通过训练数据集对预设特征识别算法进行训练后才进行使用。
应理解的是,多个初始特征识别结果可以是预设特征识别模型中各同质集成算法的识别结果,该识别结果可以是相同的也可以是不同的。
需说明的是,预设特征识别模型是将待识别特征与内部预先训练好的带有类别标签的特征进行匹配或者是聚类,然后最终匹配成功或者是聚类的类别标签作为该算法的初始识别结果。
在具体实施中,预设特征识别模型包括随机森林、决策树、极端随机树三种同质集成的算法构成的模型,将待识别特征分别输入随机森林、决策树、极端随机树三个算法,分别得到三个初始识别结果。
步骤S40:根据所述预设特征识别模型的参考权重对所述初始特征识别结果进行分析得到所述待识别流量的流量类别。
可理解的是,参考权重可以是指预设特征识别模型中每个算法的权重,待识别流量的流量类别可以是恶性流量也可以是良性流量也可以是待确定流量。
应理解的是,根据参考权重对初始特征识别结果进行分析可以是通过参考权重在计算多个集成算法的初始识别结果中那个结果的权重占比,根据不同识别结果的权重占比最终确定待识别流量的类别。
在所述流量类别为恶性流量时,阻止所述恶性流量进入/访问,并进行提醒。
例如,在具体实施中,预设特征识别模型为随机森林、决策树、极端随机树三种同质集成算法构成的模型,将待识别特征分别输入三种算法后,随机森林算法识别该待识别特征为A类流量,决策树算法识别该待识别特征为A类流量,极端随机树识别该待识别特征为C类流量,其中随机森林算法的权重为0.33,决策树算法的权重为0.28,极端随机树算法的权重为0.42,则判断该待识别流量为A类流量的权重占比为0.33+0.28,判断该待识别流量为A类流量的权重占比为0.39,则最终识别该待识别流量的流量类别为A类流量。
需强调的是,当同质集成算法中识别出的恶性流量的权重与良性流量确定的流量类别的权重的差别小于预设阈值,预设阈值可以根据实际情况进行设定,可以是0.05、0.1、0.5、1、1.5等,则将该待识别流量作为待确定流量。在具体实施中,预设特征识别模型为随机森林、决策树、极端随机树三种同质集成算法构成的模型,将待识别特征分别输入三种算法后,随机森林算法识别该待识别特征为A类流量,决策树算法识别该待识别特征为N类流量,极端随机树识别该待识别特征为C类流量,其中随机森林算法的权重为0.33,决策树算法的权重为0.46,极端随机树算法的权重为0.21,其中N类为恶性流量,A类和C类均为良性流量,在判断该待识别流量为A类流量的权重占比为0.33,判断该待识别流量为N类流量的权重占比为0.46,判断该待识别流量为C类流量的权重占比为0.21,其中良性流量权重占比为0.33+0.21=0.54,恶性流量占比为0.46,其中恶性流量和良性流量之间的权重差别为0.08,小于预设阈值0.1,则将该待识别流量作为待确定流量。
本实施例通过对待识别流量分类后特征提取得到更能够代表该类流量的特征,再根据预先训练好的多个同质集成算法对该特征进行种类识别,并更根据优化后的权重从多个识别结果中得到更加准确的待识别流量的类别,解决了无法快速从大量流量中快速、准确识别入侵流量的问题。
参考图3,图3为本发明一种入侵流量检测方法第二实施例的流程示意图。
基于上述第一实施例,本实施例入侵流量检测方法在所述步骤S30之前,还包括:
步骤S301:获取原数据集。
可理解的是,原数据集可以是通过各种渠道采集的关于流量数据,例如,通过UNB加拿大网络安全研究所官网下载CICIDS-2017可以得到原数据集。
步骤S302:对所述原数据集进行分类得到不同类别的数据集,对所述原数据集进行特征提取,得到带有类别标签的样本特征。
可理解的是,原数据集中的流量是由流量类别的,流量大概可以分为良性流量也可以分为恶性流量,其中良性流量有可以分为多种类型的良性流量,更具体的流量类型可参考下表:
应理解的是,原数据集包含的数据量仍然非常巨大,一些少见的流量类型仍然非常稀少,可以先对原数据集中同一类数据特别多的样本数据进行数据抽取,可以是从原始数据集中随机抽取预设个数的初始数据集,预设个数可以是1000个、1500个,也可以根据实际需求进行限定,本发明对此不作限定。
需说明的是,在进行原数据中抽取预设个数的初始数据集后,还需要去除所述初始数据集中的错误样本数据得到初始样本数据集,其中的错误样本可以是有缺失值的流量、无穷值的流量、Nan值的流量,然后将剩余的流量中不同的时间格式进行统一,统一之后再去除重复相同的初始样本数据得到样本数据集。
根据所述样本数据集中的最大值和最小值对样本数据集进行线性变换得到参考数据集,线性变换可以理解为将样本数据集中的数值型数据进行归一化,将所有数值型特征放缩【0,1】之间,具体转化公式可以参考下列公式:
其中x表示线性变化前的特征,x’表示线性变化后的特征,Fmin表示所有特征值中的最小特征值,Fmax表示所有特征值中的最大特征值。
将所述参考数据集中的数据类别转化为数字标签得到带有类别标签的标签数据集,原数据集中数据的类别可能是编码形式,可能是数字形式也可能是其他形式,将所有类别形式转化为统一的数字标签;
需进一步说明的是,对所述标签数据集进行综合采样得到采样后的标签数据集,对所述标签数据集中的样本数据进行特征降维,得到样本特征。
数据采样可以分为上采样、下采样以及综合采样,可以对标签数据集进行综合采样减少数据样本或者增加数量较少样本的数据量,从而平衡样本类别的平衡性;其中,综合采样可以是通过SMOTE+Tomek Links进行综合采样。
需强调的是,综合采样首先可以将标签数据集输入SMOTE算法,产生差值样本,计算所述差值样本之间的欧式距离;根据所述欧式距离得到所述差值样本预设个数的最近邻,预设个数可以是100个,可以是50个、可以是10个,可以根据实际需求进行调整,最近邻通过下列公式生成新的样本数据:
c=a+rand(0,1)·|a-b|
其中,c表示新的样本数据,a表示差值样本,b表示随机选择的最近邻;将所述新的样本数据加入标签数据集中得到新的标签数据集;删除所述新的标签数据集中的欠拟合差值样本;
在具体实施中,如果发现不同类别之间有一对最近的样本,即两个属于不同的类别的最近邻样本,则其中一个是干扰样本,或者两者都是边缘最近邻点。Tomek Links将去掉新的标签数据集中通过SMOTE方法产生的欠拟合差值样本,得到综合采样后的标签数据集;
通过随机森林重要性算法对所述标签数据集中的样本数据进行特征降维,特征降维也可以理解为是将每类流量中的特征进行比较得到在随机森林书中贡献比最高的特征最为能够代表该类流量的特征,将该特征作为样本特征。
步骤S303:根据所述样本特征对同质集成算法进行训练得到训练后的预设特征识别模型,所述同质集成算法包括随机森林算法、决策树算法、极端随机数算法。
可理解的是,根据所述样本特征进行训练可以理解为是将样本特征分别输入随机森林算法、决策树算法、极端随机数算法,样本特征可以是带有类别标签特征。
本实施例通过对获取的原数据集进行数据清晰,首先排除一些错误数据,再将数据格式统一化后综合采样,对各类样本数据进行扩充的去除干扰,最后排除综合采样后数据中的过拟合数据得到样本特征,通过样本特征对预设特征识别模型进行训练时,从样本特征的有效提取,较少了在分类过程中需要参考的特征数量从而进行特征维,避免影响预设特征识别模型进行训练时,对识别结果造成影响,训练后的特征识别模型能够快速的对待识别流量进行分类得到初始识别结果。
参考图4,图4为本发明一种入侵流量检测方法第三实施例的流程示意图。
基于上述第二实施例,本实施例入侵流量检测方法在所述步骤S40之前,还包括:
步骤S401:通过多项式回归算法计算所述预设特征识别模型对所述原数据集的分类概率。
可理解的是,分类概率可以理解为计算出每一个分类的概率,就是将数据集每行数据进行分类时可能得到每个类别的概率。
应理解的是,多项式回归算法可以参考下列计算公式:
其中,P(y=j|xi)表示xi属于j类的分类概率,exp,高等数学里以自然常数e为底的指数函数,它同时又是航模名词,全称Exponential(指数曲线)。
步骤S402:将所述分类概率和所述原始数据的真实类别输入对数损失函数,计算所述损失函数的最小值。
应理解的是,对数损失函数,也称为交叉熵损失函数,是在概率估计上定义的可用于预设特征识别模型的概率输出,损失函数表示为真实概率分布与预测概率分布之间的差异,通常作为学习准则或者优化问题,即通过最小化损失函数得到全局最优点。
需说明的是,对数损失函数的计算公式可以参考下列公式:
其中,其中,Y为输出变量,X为输入变量,L为损失函数,N为输入样本量,其中M为类别数,yij表示类别j是否是输入实例xi的真实类别,pij为模型预测输入实例xi属于类别j的概率。
以下列Rosenbrock函数作为约束函数,求得所述对数损失函数的最小值:
s.t.Cj(x)=0,j=1…m
Cj(x)≥0,j=m+1…M
XL≤x≤XU,I=1…N
其中,Cj(x):R->R(i=1,2,…,m)表示非线性约束条件,(非线性规划必要约束条件,它用来保证目标点存在于一个二维空间中),可行点集合为:
{x∈Rn|cj(x)=0,i=1,2,…,m{cj(x)≥0,m+1,…,M},XL≤x≤XU,I=1...N
该集合表示第I个可行点x的范围,最大取值是XU,最小取值是XL。
步骤S403:通过预设算法计算所述最小值对应的权重,将所述权重作为参考权重。
需说明的是,根据原数据集数据总数以及损失函数计算得到误差函数,此处误差函数可的计算公式为:L(w)=1/N·f(w),其中f(w)是误差函数,而其中L(w)是损失函数,N是样本数。
根据随机权重以及所述误差函数计算雅克比矩阵以及误差值,根据所述雅克比矩阵以及误差值计算得到权重增量,其中权重增量的计算公式如下:
其中Δwk表示权重增量,初始权重增量为0,根据已知误差函数求得雅可比矩阵J(wk)和误差f(wk),当所述权重增量大于预设阈值时阈值可以是0.5、0.8等具体可以根据实际情况进行调整,则根据所述随机权重以及所述权重增量计算得到新的随机权重;再根据多次选择随机权重后,根据下列公式求解权重增量:
H·Δwk-g=0
s.t·H=JTJ&g=-Jf
当所述权重增量小于预设阈值时,则根据所述随机权重以及所述权重增量计算得到参考权重。
其中,w是权重,J是雅可比矩阵,H是海塞矩阵,在海塞矩阵非奇异时,可以保证搜索方向是下降方向。
本实施例通过多项式逻辑回归公式求得每一个分类的概率,将所有分类的概率,根据分类概率得到训练分类结果,将训练分类结果和真实类别构成两个矩阵输入损失函数,以Rosenbrock函数为约束函数求得最佳的分类概率,根据分类概率计算得到每个同质集成算法的参考权重,根据参考权重在通过预设特征识别模型进行识别得到的多个初始识别结果进行判断,从而更加准确的识别待识别流量的类别。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有入侵流量检测程序,所述入侵流量检测程序被处理器执行时实现如上文所述的入侵流量检测方法的步骤。
参照图5,图5为本发明入侵流量检测装置第一实施例的结构框图。
如图5所示,本发明实施例提出的入侵流量检测装置包括:
特征识别模块10,用于对待识别流量进行特征提取得到初始特征,通过归因法对所述初始特征进行分类得到含有多个初始特征的决策树;
所述特征识别模块10,还用于根据所述决策树进行特征提取,得到待识别特征;
流量检测模块20,用于将所述待识别特征输入预设特征识别模型得到多个初始识别结果;
所述流量检测模块20,还用于根据所述预设特征识别模型的参考权重对所述初始特征识别结果进行分析得到所述待识别流量的流量类别。
本实施例通过对待识别流量分类后特征提取得到更能够代表该类流量的特征,再根据预先训练好的多个同质集成算法对该特征进行种类识别,并更根据优化后的权重从多个识别结果中得到更加准确的待识别流量的类别,解决了无法快速从大量流量中快速、准确识别入侵流量的问题。
在一实施例中,所述特征识别模块10,还用于计算每个决策树中初始特征的有效占比以及所述初始特征的基尼指数;
根据所述有效占比和所述基尼指数对所述决策树中的初始特征进行排序得到初始特征序列表;
根据所述初始特征序列表得到代表所述待识别流量的待识别特征。
在一实施例中,所述流量检测模块20,还用于获取原数据集;
对所述原数据集进行分类得到不同类别的数据集,对所述原数据集进行特征提取,得到带有类别标签的样本特征;
根据所述样本特征对同质集成算法进行训练得到训练后的预设特征识别模型,所述同质集成算法包括随机森林算法、决策树算法、极端随机数算法。
在一实施例中,所述流量检测模块20,还用于从原始数据集中随机抽取预设个数的初始数据集,去除所述初始数据集中的错误样本数据得到初始样本数据集,将所述样本数据集中的数据格式同一化得到样本数据集;
根据所述样本数据集中的最大值和最小值对样本数据集进行线性变换得到参考数据集;
将所述参考数据集中的数据类别转化为数字标签得到带有类别标签的标签数据集;
对所述标签数据集进行综合采样得到采样后的标签数据集,对所述标签数据集中的样本数据进行特征降维,得到样本特征。
在一实施例中,所述流量检测模块20,还用于根据所述标签数据集得到差值样本,计算所述差值样本之间的欧式距离;
根据所述欧式距离得到所述差值样本预设个数的最近邻,根据所述最近邻生成新的样本数据;
将所述新的样本数据加入标签数据集中得到新的标签数据集;
删除所述新的标签数据集中的欠拟合差值样本,得到采样后的标签数据集;
对所述标签数据集中的样本数据进行特征降维,得到样本特征。
在一实施例中,所述流量检测模块20,还用于通过多项式回归算法计算所述预设特征识别模型对所述原数据集的分类概率;
将所述分类概率和所述原始数据的真实类别输入对数损失函数,计算所述损失函数的最小值;
通过预设算法计算所述最小值对应的权重,将所述权重作为参考权重。
在一实施例中,所述流量检测模块20,还用于根据原数据集数据总数以及损失函数计算得到误差函数;
根据随机权重以及所述误差函数计算雅克比矩阵以及误差值,根据所述雅克比矩阵以及误差值计算得到权重增量;
当所述权重增量大于预设阈值时,则根据所述随机权重以及所述权重增量计算得到新的随机权重;
当所述权重增量小于预设阈值时,则根据所述随机权重以及所述权重增量计算得到参考权重。
应当理解的是,以上仅为举例说明,对本发明的技术方案并不构成任何限定,在具体应用中,本领域的技术人员可以根据需要进行设置,本发明对此不做限制。
需要说明的是,以上所描述的工作流程仅仅是示意性的,并不对本发明的保护范围构成限定,在实际应用中,本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的,此处不做限制。
此外,需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器(Read Only Memory,ROM)/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (9)

1.一种入侵流量检测方法,其特征在于,所述入侵流量检测方法包括:
对待识别流量进行特征提取得到初始特征,通过归因法对所述初始特征进行分类得到含有多个初始特征的决策树;
根据所述决策树进行特征提取,得到待识别特征;
将所述待识别特征输入预设特征识别模型得到多个初始识别结果;
根据所述预设特征识别模型的参考权重对所述初始特征识别结果进行分析,得到所述待识别流量的流量类别;
所述根据所述决策树进行特征提取,得到待识别特征,包括:
计算每个决策树中初始特征的有效占比以及所述初始特征的基尼指数;
根据所述有效占比和所述基尼指数对所述决策树中的初始特征进行排序得到初始特征序列表;
根据所述初始特征序列表得到代表所述待识别流量的待识别特征;
计算每个决策树中初始特征的有效占比以及所述初始特征的基尼指数的公式:
其中,t表示类别的数量,Dt表示当前类别t的有效占比,其中需要说明的是,特征Ej在节点q处的Gini增量为:
其中GNt和GNy分别表示分枝前和分枝后新的Gini值,若特征Ej是在集合P中且是属于第i棵CART决策树,那么Ej在第i棵树的Gini值为:
所述根据所述有效占比和所述基尼指数对所述决策树中的初始特征进行排序得到初始特征序列表包括:根据有效占比选择有效占比超过百分之30的特征值进行基尼指数的比较,再根据基尼指数的大小对参考特征值进行排序得到初始特征序列表,初始特征序列表中排序前预设个数的特征作为最终的待识别流量的待识别特征。
2.如权利要求1所述的入侵流量检测方法,其特征在于,所述将所述待识别特征输入预设特征识别模型得到多个初始识别结果之前,还包括:
获取原数据集;
对所述原数据集进行分类得到不同类别的数据集,对所述原数据集进行特征提取,得到带有类别标签的样本特征;
根据所述样本特征对同质集成算法进行训练得到训练后的预设特征识别模型,所述同质集成算法包括随机森林算法、决策树算法、极端随机数算法。
3.如权利要求2所述的入侵流量检测方法,其特征在于,所述对所述原数据集进行分类得到不同类别的数据集,对所述原数据集进行特征提取得到带有类别标签的样本特征,包括:
从原始数据集中随机抽取预设个数的初始数据集,去除所述初始数据集中的错误样本数据得到初始样本数据集,将所述样本数据集中的数据格式同一化得到样本数据集;
根据所述样本数据集中的最大值和最小值对样本数据集进行线性变换得到参考数据集;
将所述参考数据集中的数据类别转化为数字标签得到带有类别标签的标签数据集;
对所述标签数据集进行综合采样得到采样后的标签数据集,对所述标签数据集中的样本数据进行特征降维,得到样本特征。
4.如权利要求3所述的入侵流量检测方法,其特征在于,所述对所述标签数据集进行综合采样得到采样后的标签数据集,对所述标签数据集中的样本数据进行特征降维,得到样本特征,包括:
根据所述标签数据集得到差值样本,计算所述差值样本之间的欧式距离;
根据所述欧式距离得到所述差值样本预设个数的最近邻,根据所述最近邻生成新的样本数据;
将所述新的样本数据加入标签数据集中得到新的标签数据集;
删除所述新的标签数据集中的欠拟合差值样本,得到采样后的标签数据集;
对所述标签数据集中的样本数据进行特征降维,得到样本特征。
5.如权利要求2所述的入侵流量检测方法,其特征在于,所述根据所述预设特征识别模型的参考权重对所述初始特征识别结果进行分析得到所述待识别流量的流量类别之前,还包括:
通过多项式回归算法计算所述预设特征识别模型对所述原数据集的分类概率;
将所述分类概率和所述原数据集的真实类别输入对数损失函数,计算所述损失函数的最小值;
通过预设算法计算所述最小值对应的权重,将所述权重作为参考权重。
6.如权利要求5所述的入侵流量检测方法,其特征在于,所述通过预设算法计算所述最小值对应的权重,将所述权重作为参考权重,包括:
根据原数据集数据总数以及损失函数计算得到误差函数;
根据随机权重以及所述误差函数计算雅克比矩阵以及误差值,根据所述雅克比矩阵以及误差值计算得到权重增量;
当所述权重增量大于预设阈值时,则根据所述随机权重以及所述权重增量计算得到新的随机权重;
当所述权重增量小于预设阈值时,则根据所述随机权重以及所述权重增量计算得到参考权重。
7.一种入侵流量检测装置,其特征在于,所述入侵流量检测装置应用于如权利要求1所述的入侵流量检测方法,所述入侵流量检测装置包括:
特征识别模块,用于对待识别流量进行特征提取得到初始特征,通过归因法对所述初始特征进行分类得到含有多个初始特征的决策树;
所述特征识别模块,还用于根据所述决策树进行特征提取,得到待识别特征;
流量检测模块,用于将所述待识别特征输入预设特征识别模型得到多个初始识别结果;
所述流量检测模块,还用于根据所述预设特征识别模型的参考权重对所述初始特征识别结果进行分析得到所述待识别流量的流量类别。
8.一种入侵流量检测设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的入侵流量检测程序,所述入侵流量检测程序配置为实现如权利要求1至6中任一项所述的入侵流量检测方法。
9.一种存储介质,其特征在于,所述存储介质上存储有入侵流量检测程序,所述入侵流量检测程序被处理器执行时实现如权利要求1至6任一项所述的入侵流量检测方法。
CN202211475573.0A 2022-11-23 入侵流量检测方法、装置、设备及存储介质 Active CN115714687B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211475573.0A CN115714687B (zh) 2022-11-23 入侵流量检测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211475573.0A CN115714687B (zh) 2022-11-23 入侵流量检测方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN115714687A CN115714687A (zh) 2023-02-24
CN115714687B true CN115714687B (zh) 2024-06-04

Family

ID=

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113434859A (zh) * 2021-06-30 2021-09-24 平安科技(深圳)有限公司 入侵检测方法、装置、设备及存储介质
CN113516297A (zh) * 2021-05-26 2021-10-19 平安国际智慧城市科技股份有限公司 基于决策树模型的预测方法、装置和计算机设备
WO2022095352A1 (zh) * 2020-11-03 2022-05-12 平安科技(深圳)有限公司 基于智能决策的异常用户识别方法、装置及计算机设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022095352A1 (zh) * 2020-11-03 2022-05-12 平安科技(深圳)有限公司 基于智能决策的异常用户识别方法、装置及计算机设备
CN113516297A (zh) * 2021-05-26 2021-10-19 平安国际智慧城市科技股份有限公司 基于决策树模型的预测方法、装置和计算机设备
CN113434859A (zh) * 2021-06-30 2021-09-24 平安科技(深圳)有限公司 入侵检测方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Study on Classification System of Rape Root Tumors Based on TPU;Liu changhua等;《2022 IEEE Asia-Pacific Conference on Image Processing, Electronics and Computers (IPEC)》;20220323;全文 *
基于TPU和FPGA的深度学习边缘计算平台的设计与实现;刘昌华等;《计算机工程与科学》;20191231;43(06);全文 *

Similar Documents

Publication Publication Date Title
CN111832019B (zh) 基于生成对抗网络的恶意代码检测方法
Tran et al. An approach for host-based intrusion detection system design using convolutional neural network
CN110365636B (zh) 工控蜜罐攻击数据来源的判别方法及装置
CN116305168A (zh) 一种多维度信息安全风险评估方法、系统及存储介质
Raza et al. Novel class probability features for optimizing network attack detection with machine learning
CN114553591A (zh) 随机森林模型的训练方法、异常流量检测方法及装置
Harbola et al. Improved intrusion detection in DDoS applying feature selection using rank & score of attributes in KDD-99 data set
Santhosh et al. Detection Of DDOS Attack using Machine Learning Models
CN117236699A (zh) 一种基于大数据分析的网络风险识别方法及系统
CN115714687B (zh) 入侵流量检测方法、装置、设备及存储介质
CN115987687A (zh) 网络攻击取证方法、装置、设备及存储介质
Thomas et al. Comparative analysis of dimensionality reduction techniques on datasets for zero-day attack vulnerability
Nguyen et al. Lightgbm-based ransomware detection using api call sequences
CN116015861A (zh) 一种数据检测方法、装置、电子设备及存储介质
CN113657443B (zh) 一种基于soinn网络的在线物联网设备识别方法
CN115842645A (zh) 基于umap-rf的网络攻击流量检测方法、装置及可读存储介质
CN115714687A (zh) 入侵流量检测方法、装置、设备及存储介质
Ravinder Reddy et al. Detection of network anomaly sequences using deep recurrent neural networks
CN111314327A (zh) 一种基于knn离群点检测算法的网络入侵检测方法及系统
Sheluhin et al. Influence of fractal dimension on network anomalies binary classification quality using machine learning methods
CN111581640A (zh) 一种恶意软件检测方法、装置及设备、存储介质
Hammood et al. ENSEMBLE MACHINE LEARNING APPROACH FOR IOT INTRUSION DETECTION SYSTEMS
Altalbe Enhanced Intrusion Detection in In-Vehicle Networks using Advanced Feature Fusion and Stacking-Enriched Learning
CN116775889B (zh) 基于自然语言处理的威胁情报自动提取方法、系统、设备和存储介质
CN116647374B (zh) 一种基于大数据的网络流量入侵检测方法

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant