CN115766176A - 网络流量处理方法、装置、设备及存储介质 - Google Patents

网络流量处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115766176A
CN115766176A CN202211400209.8A CN202211400209A CN115766176A CN 115766176 A CN115766176 A CN 115766176A CN 202211400209 A CN202211400209 A CN 202211400209A CN 115766176 A CN115766176 A CN 115766176A
Authority
CN
China
Prior art keywords
sample
flow
characteristic
real
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211400209.8A
Other languages
English (en)
Inventor
吴昊
徐峰
陈鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN202211400209.8A priority Critical patent/CN115766176A/zh
Publication of CN115766176A publication Critical patent/CN115766176A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本公开涉及计算机技术领域,尤其涉及一种网络流量处理方法、装置、设备及存储介质。方法包括:获取实时采样流量对应的实时流量特征,其中,实时采样流量为实时对网络流量进行采样得到的流量数据;将实时流量特征输入预设的异常检测模型,获得异常检测模型输出的检测结果,其中,异常检测模型通过样本特征集合训练得到,样本特征集合包括至少一个样本流量特征;根据检测结果确定实时采样流量为异常流量时,将实时流量特征更新至样本特征集合,其中,更新后的样本特征集合,用于重新训练异常检测模型。本公开用以解决现有技术中网络流量检测的效率较低且准确性较低的缺陷。

Description

网络流量处理方法、装置、设备及存储介质
技术领域
本公开涉及计算机技术领域,尤其涉及一种网络流量处理方法、装置、设备及存储介质。
背景技术
随着互联网的不断发展,网络交互数据量呈现爆发式增长,同时,刷单流量等异常的网络流量也大量存在。现有技术中,对网络流量检测时,首先需要对大量的网络流量数据进行计算,然后在大量计算的基础上获得异常流量的特征,才能最终确定异常流量。该过程中,每一条流量数据都具有高维性,这样当系统进行网络流量检测时,计算过程会占用大量的时间和处理资源,导致网络流量检测存在检测异常风险,降低网络流量检测的效率和准确性。
发明内容
本公开提供一种网络流量处理方法、装置、设备及存储介质,用以解决现有技术中网络流量检测的效率较低且准确性较低的缺陷。
本公开提供一种网络流量处理方法,包括:获取实时采样流量对应的实时流量特征,其中,所述实时采样流量为实时对网络流量进行采样得到的流量数据;将所述实时流量特征输入预设的异常检测模型,获得所述异常检测模型输出的检测结果,其中,所述异常检测模型通过样本特征集合训练得到,所述样本特征集合包括至少一个样本流量特征;根据所述检测结果确定所述实时采样流量为异常流量时,将所述实时流量特征更新至所述样本特征集合,其中,更新后的所述样本特征集合,用于重新训练所述异常检测模型。
根据本公开提供的一种网络流量处理方法,所述异常检测模型基于决策树训练得到;所述异常检测模型的训练过程如下:获取所述样本特征集合的第一信息熵;对于所述样本特征集合中每一个所述样本流量特征:以所述样本流量特征对所述样本特征集合进行划分,获得所述样本特征流量对应的样本特征子集;获取所述样本特征子集的第二信息熵;根据所述第一信息熵和每一个所述样本流量特征分别对应的所述第二信息熵,获得每一个所述样本流量特征分别对应的信息增益;根据所述信息增益,获取基于所述决策树的所述异常检测模型。
根据本公开提供的一种网络流量处理方法,所述根据所述信息增益,获取基于所述决策树的所述异常检测模型,包括:对于所述样本特征集合中每一个所述样本流量特征:获取基于所述样本流量特征对应的特征决策树;获取所述特征决策树的叶子节点数;基于每一个所述样本流量特征分别对应的信息增益和所述叶子节点数,获取每一个所述样本流量特征分别对应的特征选定概率;计算任意两个所述样本流量特征分别对应的所述特征选定概率的差值;确定所述差值小于差值阈值时,融合所述差值对应的两个所述样本流量特征;基于融合后的所述样本流量特征,获取所述异常检测模型。
根据本公开提供的一种网络流量处理方法,所述将所述实时流量特征更新至所述样本特征集合,包括:将所述实时流量特征作为新的所述样本特征集合,添加至所述样本特征集合,其中所述样本特征集合对应预设的集合样本数;基于样本流量特征对应的采样时刻,逐个删除所述样本特征集合中距离当前时刻最久的所述样本流量特征,直至所述样本特征集合中所述样本流量特征的实时数量,达到所述集合样本数,获得更新后的所述样本特征集合。
根据本公开提供的一种网络流量处理方法,所述获取所述样本特征集合的第一信息熵之前,还包括:基于所述样本特征集合中的每一个所述样本流量特征,分别与标签特征的相关性,移除所述相关性低于相关性阈值的所述样本流量特征,获得第一样本特征集合;根据移除后的所述样本特征集合对应的决策树,删除所述第一样本特征集合中的冗余特征,获得第二样本特征集合;计算所述第二样本特征集合中,每一个所述样本流量特征分别对应的准确影响度;基于所述准确影响度,选择所述第二样本特征集合中的至少一个最优样本流量特征,获得最优特征集合;通过所述最优特征集合更新所述样本特征集合,其中,所述异常检测模型通过更新后的所述样本特征集合进行训练。
根据本公开提供的一种网络流量处理方法,所述计算所述第二样本特征集合中,每一个所述样本流量特征分别对应的准确影响度,包括:基于所述第二样本特征集合,获取对网络流量进行描述时异常检测的集合精度;对于所述第二样本特征集合中的每一个所述样本流量特征:将所述样本流量特征从所述第二样本特征集合中移除,获得第三样本特征集合;基于所述第三样本特征集合,获取对网络流量进行描述时异常检测的特征精度;基于特征精度与所述集合精度,计算每一个所述样本流量特征分别对应的准确影响度。
根据本公开提供的一种网络流量处理方法,所述基于所述准确影响度,选择所述第二样本特征集合中的至少一个最优样本流量特征,获得最优特征集合,包括:将所述准确影响度最小的所述样本流量特征,确定为所述最优样本流量特征,以及从所述第二样本结合中移除所述最优样本流量特征;重复计算所述第二样本特征集合中,每一个所述样本流量特征分别对应的准确影响度的步骤,直至确定的所述最优样本流量特征达到预设的最优样本数,获得所述最优特征集合。
本公开还提供一种网络流量处理装置,包括:获取模块,用于获取实时采样流量对应的实时流量特征,其中,所述实时采样流量为实时对网络流量进行采样得到的流量数据;检测模块,用于将所述实时流量特征输入预设的异常检测模型,获得所述异常检测模型输出的检测结果,其中,所述异常检测模型通过样本特征集合训练得到,所述样本特征集合包括至少一个样本流量特征;更新模块,用于根据所述检测结果确定所述实时采样流量为异常流量时,将所述实时流量特征更新至所述样本特征集合,其中,更新后的所述样本特征集合,用于重新训练所述异常检测模型。
本公开还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述网络流量处理方法。
本公开还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述网络流量处理方法。
本公开提供的网络流量处理方法、装置、设备及存储介质,获取实时采样流量对应的实时流量特征之后,将实时流量特征输入预设的异常检测模型,由异常检测模型输出检测结果。当根据检测结果确定实时采样流量为异常流量时,将实时流量特征更新至样本特征集合,更新后的样本特征集合,用于重新训练异常检测模型。该过程中,对网络流量实时采样得到后实时流量特征,可以对网络流量实现实时检测。同时,通过预设的异常检测模型,来处理该实时流量特征。通过异常检测模型实时对流量进行检测,避免对大量网络流量并行处理导致的检测效率低的问题。此外,若实时采样流量为异常流量时,通过实时流量特征更新样本特征集合,重新训练异常检测模型,保证了异常检测模型对不断变化的网络流量进行检测的准确性,进一步提升网络检测的效率。
附图说明
为了更清楚地说明本公开或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本公开提供的网络流量处理方法的流程示意图之一;
图2是本公开提供的SDN网络架构结构示意图;
图3是本公开提供的样本特征集合更新原理示意图;
图4是本公开提供的网络流量处理架构示意图;
图5是本公开提供的网络流量处理方法的流程示意图之二;
图6是本公开提供的网络流量处理装置的结构示意图;
图7是本公开提供的电子设备的结构示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开实施例一部分实施例,而不是全部的实施例。基于本公开实施例中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开实施例保护的范围。
本公开提供的网络流量处理方法,能够通过软件算法来实现,实现本方法的软件算法可以实现于任意一种具有数据处理功能的设备上,例如,服务器、电脑或智能移动设备等。下面结合图1-图5描述本公开提供的网络流量处理方法。
一个实施例中,如图1所示,网络流量处理方法实现的流程步骤如下:
步骤101,获取实时采样流量对应的实时流量特征,其中,实时采样流量为实时对网络流量进行采样得到的流量数据。
获取实时采样流量对应的实时流量特征,其中,实时采样流量为实时对网络流量进行采样得到的流量数据。
本实施例中,网络流量指的是以数据流方式呈现的网络交互数据。对网络流量进行实时采样,然后对采集的实时采样流量进行特征提取,获得实时流量特征。
一个实施例中,对实时采样流量提取初步特征提取时,由于提取过程中存在噪声干扰等原因,初步提取得到的初步流量特征可能存在冗余数据,或出现数据缺失的情况。因此,实时采样获得初步流量特征后,可以对该初步流量特征进行预处理与数据填充。具体的,预处理可以为滤波等具体处理方式,数据填充可以采用插值填充等具体处方式。初步特征流量通过预处理和数据填充后,得到实施采样流量对应的实时流量特征。
一个实施例中,实时流量特征通过向量形式来表示,便于后续对实时流量特征的处理和计算。
一个实施例中,在多种网络架构下,均可以实现对网络流量的检测。例如,软件定义网络(Software Defined Network,SDN)的网络架构突破了传统网络的扩展性差、管理难度高等瓶颈,能够实现对网络的灵活管理。同时,SDN网络架构下实现了数据的转发与控制的解耦,SDN网络分为三层架构,分别是:应用平面、控制平面和数据平面。网络流量检测和处理的过程,实现于SDN网络架构的应用平面。
具体的,如图2所示,一个SDN网络架构包括应用平面、控制平面和数据平面。SDN架构下集中式控制平面与分布式数据平面是互相分离的,SDN控制平面负责通过南向接口收集网络的实时状态,将其开放并通过北向接口通知给应用平面中的上层应用,同时通过南向接口和北向接口,把上层应用程序翻译成为更为底层、低级的规则或者设备硬件指令(例如流表安装或流表删除),下发给数据平面中的各个网络设备。其中,南向接口遵循开放的南向接口(Open Flow)协议。
在应用平面中实现网络流量处理时,可以预先设置一个SDN异常检测系统。首先,该系统通过北向接口和南向接口进行数据收集与处理,对数据平面传输的网络流量进行采样,对采集到的数据包进行解析后,进行特征提取,获得实时流量特征。然后以向量的方式表示该实时流量特征。通过异常检测模型对实时流量特征进行异常检测,检测结果指示实时采样流量为异常流量时,则对该异常流量进行丢弃等异常处理。同时,基于异常的实时流量特征,重新对异常检测模型进行训练,通过重新训练后的异常检测模型对下一次提取到的实时流量特征进行检测。
步骤102,将实时流量特征输入预设的异常检测模型,获得异常检测模型输出的检测结果,其中,异常检测模型通过样本特征集合训练得到,样本特征集合包括至少一个样本流量特征。
本实施例中,异常检测模型用于对实时特征流量进行检测,输出检测结果,该检测结果包括流量正常结果和流量异常结果,进一步的,当实时采样流量异常时,还可以输出预先训练的异常类别。异常检测模型需要预先通过样本特征集合训练得到,样本特征集合包括至少一个样本流量特征。进一步的,样本特征集合还可以包括每一个样本流量特征分别对应的异常类别标签。
一个实施例中,异常检测模型基于决策树训练得到。具体的,异常检测模型的训练过程如下:获取样本特征集合的第一信息熵;对于样本特征集合中每一个样本流量特征:以样本流量特征对样本特征集合进行划分,获得样本特征流量对应的样本特征子集;获取样本特征子集的第二信息熵;根据第一信息熵和每一个样本流量特征分别对应的第二信息熵,获得每一个样本流量特征分别对应的信息增益;根据信息增益,获取基于决策树的异常检测模型。
本实施例中,决策树(Decision Tree)是一类常见的机器学习方法,是一种非常常用的分类方法,它是一种监督学习。常用的决策树模型包括决策树归纳算法(ID3)模型、数据挖掘算法(C4.5)模型。由于SND网络架构下的网络流量的离散化,优选采用ID3算法构建异常检测模型。ID3算法以信息熵的下降速度为选取测试属性的标准,即在每个节点选取还尚未被用来划分的具有最高信息增益的属性作为划分标准,然后继续这个过程,直到生成的决策树能完美分类训练样本。
进一步的,ID3算法是根据不断的迭代,选择出信息增益最大的样本流量特征划分出生成树,任意一个样本流量特征fi对应的信息增益Gain(T,fi)的计算公式如下:
Figure BDA0003934665180000081
其中,T表示样本特征集合;fi表示样本特征集合T中的第i个样本流量特征,i为正整数;E(T)表示第一信息熵,即样本特征集合T的信息熵;
Figure BDA0003934665180000082
表示第二信息熵,即以样本流量特征fi对样本特征集合T进行划分,获得通过样本特征流量fi划分得到的至少一个样本特征子集后,各个样本特征子集的信息熵。
当第一信息熵和第二信息熵的差值越大,即信息增益Gain(T,fi)越大,说明样本流量特征fi在集合划分过程中起到的作用越大。
一个实施例中,由于SDN网络架构等网络中网络流量特征的离散性,会导致决策树在划分过程中,叶子节点过大。因此,在根据信息增益,获取基于决策树的异常检测模型时,对于样本特征集合中每一个样本流量特征:获取基于样本流量特征对应的特征决策树;获取特征决策树的叶子节点数;基于每一个样本流量特征分别对应的信息增益和叶子节点数,获取每一个样本流量特征分别对应的特征选定概率;计算任意两个样本流量特征分别对应的特征选定概率的差值;确定差值小于差值阈值时,融合差值对应的两个样本流量特征;基于融合后的样本流量特征,获取异常检测模型。
本实施例中,通过样本流量特征的特征选定概率,来确定是否存在区分类别的能力上是否相似,从而合并相似的样本流量特征,从而减少叶子节点的数量。
具体的,样本流量特征fi对应的特征选定概率attrSele(T,fi)计算公式如下:
Figure BDA0003934665180000091
其中,Gain(T,fi)表示样本流量特征fi对应的信息增益,Lnum(T,fi)表示基于样本流量特征fi生成的决策树的叶子节点的个数。
在决策树的划分过程中,对于样本特征集合T中两个不同的样本流量特征fi和样本流量特征fj,其中,j为正整数,i≠j,若样本流量特征fi对应的信息增益Gain(T,fi),与样本流量特征fj对应的信息增益Gain(T,fj)相同,则分别计算样本流量特征fi对应的特征选定概率attrSele(T,fi),以及样本流量特征fj对应的特征选定概率attrSele(T,fj)。由上式(2)可知,当分子相同时,分母越小,特征选定概率的值越大,则对应的样本流量特征被选中的概率就越大。
如果attrSele(T,fi)与attrSele(T,fj)相近,则说明样本流量特征fi和样本流量特征fj在区分类别的能力上相似,则可以把两个特征进行特征融合,获得融合后的样本流量特征u。具体如下:
u=fi+fj (3);
其中,u、fi和fj均可以通过向量表示,从而通过计算完成融合过程。
进一步的,样本流量特征fi和样本流量特征fj区分类别能力的相似性进行比较时,则可以通过样本流量特征fi和样本流量特征fj的差值与预设的差值阈值a进行比较。具体的,若满足如下条件:
attrSele(T,fi)-attrSele(T,fj)<a (4);
则样本流量特征fi和样本流量特征fj可以进行特征融合。
需要说明的是,差值阈值a可以根据实际情况和需要进行设定,例如,差值阈值a取值为0.06。本公开的保护范围不以差值阈值的具体数值为限制。
一个实施例中,为了进一步提升模型训练的效果,对样本特征集合中的样本流量特征进行特征选择。具体的,获取样本特征集合的第一信息熵之前,基于样本特征集合中的每一个样本流量特征,分别与标签特征的相关性,移除相关性低于相关性阈值的样本流量特征,获得第一样本特征集合;根据移除后的样本特征集合对应的决策树,删除第一样本特征集合中的冗余特征,获得第二样本特征集合;计算第二样本特征集合中,每一个样本流量特征分别对应的准确影响度;基于准确影响度,选择第二样本特征集合中的至少一个最优样本流量特征,获得最优特征集合;通过最优特征集合更新样本特征集合,其中,异常检测模型通过更新后的样本特征集合进行训练。
本实施例中,对于样本特征集合中的各个样本流量特征,首先与标签(label)特征进行相关性分析。对于样本特征集合中的任意一个样本流量特征,与预设的标签特征相似性,达到预设的相似性阈值时,则将该样本流量特征从样本特征集合中移除。更具体的,该过程最主要目的找到与lable最相关性的特征子集,优选的,利用互信息来衡量相似性。互信息是衡量特征相关性的重要指标,它表示特征相关性的非线性估计。对称不确定性通过将互信息规范化为特征值之间的熵,或特征与目标类的熵而得到的,它弥补了信息增益对具有大量不同值的特征导致的偏差。
本实施例中,根据移除后的样本特征集合对应的决策树,删除第一样本特征集合中的冗余特征。具体的,利用最小决策树简化冗余特征计算,优选的,任意两个样本流量特征之间的冗余性可以通过互信息值来衡量,从而确定任意两个样本流量特征是否存在冗余,从而获得第二样本特征集合。
本实施例中,基于准确影响度,选择第二样本特征集合中的至少一个最优样本流量特征,获得最优特征集合。
一个实施例中,计算第二样本特征集合中,每一个样本流量特征分别对应的准确影响度,具体实现过程如下:基于第二样本特征集合,获取对网络流量进行描述时异常检测的集合精度;对于第二样本特征集合中的每一个样本流量特征:将样本流量特征从第二样本特征集合中移除,获得第三样本特征集合;基于第三样本特征集合,获取对网络流量进行描述时异常检测的特征精度;基于特征精度与集合精度,计算每一个样本流量特征分别对应的准确影响度。
本实施例中,根据各个样本流量特征对异常检测性能的影响程度,对特征子集进行网络优化,得到最优特征集合,用于对异常流量的更好检测,选择更有的样本流量特征,能够进一步提升异常检测的效率和准确性,对异常检测尤为重要。
本实施例中,首先将整个样本特征集合作为衡量特征影响度的标准,作为标准的样本特征集合记为F′。对于样本特征集合中的任意一个样本流量特征fi,对于流量识别的准确影响度I(fi),计算公式如下:
Figure BDA0003934665180000111
其中,PF′表示集合精度,即使用样本特征集合F′对网络流量进行描述时异常检测的精度;
Figure BDA0003934665180000112
表示移除样本流量特征fi后的特征精度,即将fi移除后的样本特征集合对网络流量进行描述时异常检测的精度。
由上式(5)可知,当准确影响度越大则说明该特征对于流量数据识别准确度的影响度就越小。
一个实施例中,计算得到每一个样本流量特征分别对应的准确影响度后,基于准确影响度,选择第二样本特征集合中的至少一个最优样本流量特征,获得最优特征集合,具体过程如下:将准确影响度最小的样本流量特征,确定为最优样本流量特征,以及从第二样本结合中移除最优样本流量特征;重复计算第二样本特征集合中,每一个样本流量特征分别对应的准确影响度的步骤,直至确定的最优样本流量特征达到预设的最优样本数,获得最优特征集合。
本实施例中,基于准确影响度,从样本特征集合中不断进行特征选择。当首次从第二样本特征集合中确定最优样本流量特征时,将准确影响度最小的样本流量特征,确定为最优样本流量特征,即第一个被选择的样本流量特征为min[I(fi)],将最优样本流量特征添加至最优特征集合Fz。从第二样本结合中移除最优样本流量特征,然后再次计算第二样本特征集合中,剩余的每一个样本流量特征分别对应的准确影响度,再次将准确影响度最小的样本流量特征,确定为最优样本流量特征,依次类推。
进一步的,随着最优特征集合Fz中特征数量会不断的迭代与增加,流量异常的检测精确率会出现上升再到下降的趋势。由此,计算最优特征集合Fz中有n个样本流量特征时,计算对应的异常流量的检测准确率,记为为Cn。如果此后获得的特征Cn>Cn+1>Cn+2时,就会最优特征集合Fz中有n个样本流量特征时,认为已经拿到需要的最优特征集合,停止系统选择,此时特征选择确定的特征个数为n。
步骤103,根据检测结果确定实时采样流量为异常流量时,将实时流量特征更新至样本特征集合,其中,更新后的样本特征集合,用于重新训练异常检测模型。
本实施例中,根据异常检测模型输出的检测结果,来确定实时采样流量是否为异常流量,若不是异常流量,则重新对网络流量进行采样;若是异常流量,同时做两方面处理,一方面对异常流量进行剔除与拦截,另一方面利用将异常流量对应的实时流量特征更新至样本特征集合,重新对异常检测模型进行训练。通过重新训练的过程,使异常检测模型不断学习最新出现的异常流量的特征,能够更好的适应网络流量的实时变化。
本实施例中,异常检测模型重新训练的过程与上述实施例提供的训练过程相同,仅在于样本特征集合包含的具体特征不同,在此不在赘述。
一个实施例中,为了进一步降低系统的开销,减少系统开销,将实时流量特征更新至样本特征集合,具体实现过程如下:将实时流量特征作为新的样本特征集合,添加至样本特征集合,其中样本特征集合对应预设的集合样本数;基于样本流量特征对应的采样时刻,逐个删除样本特征集合中距离当前时刻最久的样本流量特征,直至样本特征集合中样本流量特征的实时数量,达到集合样本数,获得更新后的样本特征集合。
本实施例中,随着网络流量检测过程的不断进行,检测到的异常流量会越来越多。若不对样本特征集合进行处理,则样本特征集合中样本流量特征的数量会越来越多,进而导致异常检测模型重新训练的过程占用的资源越来越多。为此,如图3所示,图3中的各个圆形表示样本流量特征分别对应的采样点,按照采样时间顺序排列,黑色圆形表示实际出现异常的采样点。预先根据需要和实际情况设置一个集合样本数。一次采样可以对一个或多个采样点采集实时采样流量,若距离当前时刻t最近一次采样时,采集了b个采样点,预先设置的集合样本数为b+r,则删除最早的b个采样点对应的样本流量集合,保证样本特征集合中特征的数量维持在b+r,避免样本特征集合过于庞大。
一个实施例中,基于SDN网络架构时,网络流量处理的过程,基于如图4所述的网络流量处理架构来实现。具体的,网络流量处理时,经过数据平面中的交换机和控制平面中的控制器,实时采样提取流表项中的特征,收集流量信息,以向量形式初步构建采样流量特征,得到检测向量V′,对检测向量V′进行数据预处理,得到实时采样特征对应的向量。将实时采样特征输入异常检测模型中,判断实时采样流量是否为异常流量,若否,则直接通过控制器下发流表条目,执行流规则;若是,则更新异常检测模型训练需要的样本特征集合,采用基于相关性和影响度的特征选择(Feature Selection based on Correlation andInfluence,FSCI)算法对样本特征集合进行特征选择后,重新训练异常检测模型,保存训练完成的异常检测模型的基础数据,进而通过重新训练的异常检测模型,更新原来的异常检测模型。
本实施例中,为了保证系统的稳定运行,降低机器的CPU消耗,网络流量处理时,只有当检测到异常流量时,才会启动异常处理模块对异常数据进行剔除与处理,同时重新训练异常检测模型,这样可减轻处理过程的负担与消耗。
一个实施例中,如图5所示,基于SDN网络架构时,SDN网络流量处理步骤如下:
步骤501,实时流量采集;
步骤502,数据预处理。对实时采样流量进行特征提取与编码,同时对初步提取的流量特征数据进行预处理与数据填充,
步骤503,SDN网络流量表示,即基于预处理后得到的实时流量特征构建对应的向量;
步骤504,异常检测。将实时流量特征输入预设的异常检测模型,获得异常检测模型输出的检测结果;
步骤505,通过该检测结果确定实时采样流量是否为异常流量,若是,执行步骤506,若否,执行步骤501;
步骤506,异常处理,重新训练异常检测模型,执行步骤501。
具体的,攻击源地址导入到异常处理模块,对异常流量进行数据处理,对包含攻击源或异常流量的数据进行数据丢弃,防止异常网络数据进入到正常服务器上。同时利用启动特征选择和模型更新,更新样本特征集合,并且重新训练异常检测模型,将重新训练的模型数据更新到异常检测模型中,形成新的异常检测模型。异常处理完成后,可重新采集网络流量
通过上述步骤,可以不断的更新异常检测模型,对新的异常流量有更好的拦截效果,实现一个完整的异常流量检测过程。构造一个基于SDN的异常流量检测系统,对收集到的流量进行检测,然后对检测结果进行输出,报警等,方便管理员可以采用相对应的措施,进行网络管理。
本公开提供的网络流量处理方法,获取实时采样流量对应的实时流量特征之后,将实时流量特征输入预设的异常检测模型,由异常检测模型输出检测结果。当根据检测结果确定实时采样流量为异常流量时,将实时流量特征更新至样本特征集合,更新后的样本特征集合,用于重新训练异常检测模型。该过程中,对网络流量实时采样得到后实时流量特征,可以对网络流量实现实时检测。同时,通过预设的异常检测模型,来处理该实时流量特征。通过异常检测模型实时对流量进行检测,避免对大量网络流量并行处理导致的检测效率低的问题。此外,若实时采样流量为异常流量时,通过实时流量特征更新样本特征集合,重新训练异常检测模型,保证了异常检测模型对不断变化的网络流量进行检测的准确性,进一步提升网络检测的效率。
进一步的,本公开提供的方法可以实现对异常流量进行提前拦截和异常处理,降低系统的并发量,保证系统面对大量异常流量时的稳定性。同时,提供一种随着网络攻击类型的不断增加和网络异常流量不断变化而变化的异常检测模型,具体的,利用对网络流量的语义特征提取,实现网络异常检测模型,保证了系统可以对不断变化的异常流量检测的准确性,更适用于电商等大流量系统中。
下面对本公开实施例提供的网络流量处理装置进行描述,下文描述的网络流量处理装置与上文描述的网络流量处理方法可相互对应参照。如图7所示,网络流量处理装置包括:
获取模块601,用于获取实时采样流量对应的实时流量特征,其中,实时采样流量为实时对网络流量进行采样得到的流量数据;
检测模块602,用于将实时流量特征输入预设的异常检测模型,获得异常检测模型输出的检测结果,其中,异常检测模型通过样本特征集合训练得到,样本特征集合包括至少一个样本流量特征;
更新模块603,用于根据检测结果确定实时采样流量为异常流量时,将实时流量特征更新至样本特征集合,其中,更新后的样本特征集合,用于重新训练异常检测模型。
一个实施例中,网络流量处理装置还包括训练模块604,用于异常检测模型的训练,过程如下:获取样本特征集合的第一信息熵;对于样本特征集合中每一个样本流量特征:以样本流量特征对样本特征集合进行划分,获得样本特征流量对应的样本特征子集;获取样本特征子集的第二信息熵;根据第一信息熵和每一个样本流量特征分别对应的第二信息熵,获得每一个样本流量特征分别对应的信息增益;根据信息增益,获取基于决策树的异常检测模型。其中,异常检测模型基于决策树训练得到;
一个实施例中,训练模块604,用于对于样本特征集合中每一个样本流量特征:获取基于样本流量特征对应的特征决策树;获取特征决策树的叶子节点数;基于每一个样本流量特征分别对应的信息增益和叶子节点数,获取每一个样本流量特征分别对应的特征选定概率;计算任意两个样本流量特征分别对应的特征选定概率的差值;确定差值小于差值阈值时,融合差值对应的两个样本流量特征;基于融合后的样本流量特征,获取异常检测模型。
一个实施例中,更新模块603,用于将实时流量特征作为新的样本特征集合,添加至样本特征集合,其中样本特征集合对应预设的集合样本数;基于样本流量特征对应的采样时刻,逐个删除样本特征集合中距离当前时刻最久的样本流量特征,直至样本特征集合中样本流量特征的实时数量,达到集合样本数,获得更新后的样本特征集合。
一个实施例中,训练模块604,用于获取样本特征集合的第一信息熵之前,还包括:基于样本特征集合中的每一个样本流量特征,分别与标签特征的相关性,移除相关性低于相关性阈值的样本流量特征,获得第一样本特征集合;根据移除后的样本特征集合对应的决策树,删除第一样本特征集合中的冗余特征,获得第二样本特征集合;计算第二样本特征集合中,每一个样本流量特征分别对应的准确影响度;基于准确影响度,选择第二样本特征集合中的至少一个最优样本流量特征,获得最优特征集合;通过最优特征集合更新样本特征集合,其中,异常检测模型通过更新后的样本特征集合进行训练。
一个实施例中,训练模块604,用于基于第二样本特征集合,获取对网络流量进行描述时异常检测的集合精度;对于第二样本特征集合中的每一个样本流量特征:将样本流量特征从第二样本特征集合中移除,获得第三样本特征集合;基于第三样本特征集合,获取对网络流量进行描述时异常检测的特征精度;基于特征精度与集合精度,计算每一个样本流量特征分别对应的准确影响度。
一个实施例中,训练模块604,用于将准确影响度最小的样本流量特征,确定为最优样本流量特征,以及从第二样本结合中移除最优样本流量特征;重复计算第二样本特征集合中,每一个样本流量特征分别对应的准确影响度的步骤,直至确定的最优样本流量特征达到预设的最优样本数,获得最优特征集合。
图7示例了一种电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)701、通信接口(Communications Interface)702、存储器(memory)703和通信总线704,其中,处理器701,通信接口702,存储器703通过通信总线704完成相互间的通信。处理器701可以调用存储器703中的逻辑指令,以执行网络流量处理方法,该方法包括:获取实时采样流量对应的实时流量特征,其中,实时采样流量为实时对网络流量进行采样得到的流量数据;将实时流量特征输入预设的异常检测模型,获得异常检测模型输出的检测结果,其中,异常检测模型通过样本特征集合训练得到,样本特征集合包括至少一个样本流量特征;根据检测结果确定实时采样流量为异常流量时,将实时流量特征更新至样本特征集合,其中,更新后的样本特征集合,用于重新训练异常检测模型。
此外,上述的存储器703中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本公开还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的网络流量处理方法,该方法包括:获取实时采样流量对应的实时流量特征,其中,实时采样流量为实时对网络流量进行采样得到的流量数据;将实时流量特征输入预设的异常检测模型,获得异常检测模型输出的检测结果,其中,异常检测模型通过样本特征集合训练得到,样本特征集合包括至少一个样本流量特征;根据检测结果确定实时采样流量为异常流量时,将实时流量特征更新至样本特征集合,其中,更新后的样本特征集合,用于重新训练异常检测模型。
又一方面,本公开还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的网络流量处理方法,该方法包括:获取实时采样流量对应的实时流量特征,其中,实时采样流量为实时对网络流量进行采样得到的流量数据;将实时流量特征输入预设的异常检测模型,获得异常检测模型输出的检测结果,其中,异常检测模型通过样本特征集合训练得到,样本特征集合包括至少一个样本流量特征;根据检测结果确定实时采样流量为异常流量时,将实时流量特征更新至样本特征集合,其中,更新后的样本特征集合,用于重新训练异常检测模型。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围。

Claims (10)

1.一种网络流量处理方法,其特征在于,包括:
获取实时采样流量对应的实时流量特征,其中,所述实时采样流量为实时对网络流量进行采样得到的流量数据;
将所述实时流量特征输入预设的异常检测模型,获得所述异常检测模型输出的检测结果,其中,所述异常检测模型通过样本特征集合训练得到,所述样本特征集合包括至少一个样本流量特征;
根据所述检测结果确定所述实时采样流量为异常流量时,将所述实时流量特征更新至所述样本特征集合,其中,更新后的所述样本特征集合,用于重新训练所述异常检测模型。
2.根据权利要求1所述的网络流量处理方法,其特征在于,所述异常检测模型基于决策树训练得到;
所述异常检测模型的训练过程如下:
获取所述样本特征集合的第一信息熵;
对于所述样本特征集合中每一个所述样本流量特征:以所述样本流量特征对所述样本特征集合进行划分,获得所述样本特征流量对应的样本特征子集;获取所述样本特征子集的第二信息熵;
根据所述第一信息熵和每一个所述样本流量特征分别对应的所述第二信息熵,获得每一个所述样本流量特征分别对应的信息增益;
根据所述信息增益,获取基于所述决策树的所述异常检测模型。
3.根据权利要求2所述的网络流量处理方法,其特征在于,所述根据所述信息增益,获取基于所述决策树的所述异常检测模型,包括:
对于所述样本特征集合中每一个所述样本流量特征:获取基于所述样本流量特征对应的特征决策树;获取所述特征决策树的叶子节点数;
基于每一个所述样本流量特征分别对应的信息增益和所述叶子节点数,获取每一个所述样本流量特征分别对应的特征选定概率;
计算任意两个所述样本流量特征分别对应的所述特征选定概率的差值;
确定所述差值小于差值阈值时,融合所述差值对应的两个所述样本流量特征;
基于融合后的所述样本流量特征,获取所述异常检测模型。
4.根据权利要求1所述的网络流量处理方法,其特征在于,所述将所述实时流量特征更新至所述样本特征集合,包括:
将所述实时流量特征作为新的所述样本特征集合,添加至所述样本特征集合,其中所述样本特征集合对应预设的集合样本数;
基于样本流量特征对应的采样时刻,逐个删除所述样本特征集合中距离当前时刻最久的所述样本流量特征,直至所述样本特征集合中所述样本流量特征的实时数量,达到所述集合样本数,获得更新后的所述样本特征集合。
5.根据权利要求2所述的网络流量处理方法,其特征在于,所述获取所述样本特征集合的第一信息熵之前,还包括:
基于所述样本特征集合中的每一个所述样本流量特征,分别与标签特征的相关性,移除所述相关性低于相关性阈值的所述样本流量特征,获得第一样本特征集合;
根据移除后的所述样本特征集合对应的决策树,删除所述第一样本特征集合中的冗余特征,获得第二样本特征集合;
计算所述第二样本特征集合中,每一个所述样本流量特征分别对应的准确影响度;
基于所述准确影响度,选择所述第二样本特征集合中的至少一个最优样本流量特征,获得最优特征集合;
通过所述最优特征集合更新所述样本特征集合,其中,所述异常检测模型通过更新后的所述样本特征集合进行训练。
6.根据权利要求5所述的网络流量处理方法,其特征在于,所述计算所述第二样本特征集合中,每一个所述样本流量特征分别对应的准确影响度,包括:
基于所述第二样本特征集合,获取对网络流量进行描述时异常检测的集合精度;
对于所述第二样本特征集合中的每一个所述样本流量特征:将所述样本流量特征从所述第二样本特征集合中移除,获得第三样本特征集合;基于所述第三样本特征集合,获取对网络流量进行描述时异常检测的特征精度;
基于特征精度与所述集合精度,计算每一个所述样本流量特征分别对应的准确影响度。
7.根据权利要求5所述的网络流量处理方法,其特征在于,所述基于所述准确影响度,选择所述第二样本特征集合中的至少一个最优样本流量特征,获得最优特征集合,包括:
将所述准确影响度最小的所述样本流量特征,确定为所述最优样本流量特征,以及从所述第二样本结合中移除所述最优样本流量特征;
重复计算所述第二样本特征集合中,每一个所述样本流量特征分别对应的准确影响度的步骤,直至确定的所述最优样本流量特征达到预设的最优样本数,获得所述最优特征集合。
8.一种网络流量处理装置,其特征在于,包括:
获取模块,用于获取实时采样流量对应的实时流量特征,其中,所述实时采样流量为实时对网络流量进行采样得到的流量数据;
检测模块,用于将所述实时流量特征输入预设的异常检测模型,获得所述异常检测模型输出的检测结果,其中,所述异常检测模型通过样本特征集合训练得到,所述样本特征集合包括至少一个样本流量特征;
更新模块,用于根据所述检测结果确定所述实时采样流量为异常流量时,将所述实时流量特征更新至所述样本特征集合,其中,更新后的所述样本特征集合,用于重新训练所述异常检测模型。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述的网络流量处理方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述的网络流量处理方法。
CN202211400209.8A 2022-11-09 2022-11-09 网络流量处理方法、装置、设备及存储介质 Pending CN115766176A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211400209.8A CN115766176A (zh) 2022-11-09 2022-11-09 网络流量处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211400209.8A CN115766176A (zh) 2022-11-09 2022-11-09 网络流量处理方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115766176A true CN115766176A (zh) 2023-03-07

Family

ID=85369124

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211400209.8A Pending CN115766176A (zh) 2022-11-09 2022-11-09 网络流量处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115766176A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117056980A (zh) * 2023-10-13 2023-11-14 晨达(广州)网络科技有限公司 一种基于人工智能的网络安全数据存储方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117056980A (zh) * 2023-10-13 2023-11-14 晨达(广州)网络科技有限公司 一种基于人工智能的网络安全数据存储方法及系统

Similar Documents

Publication Publication Date Title
CN110311829B (zh) 一种基于机器学习加速的网络流量分类方法
CN111783100A (zh) 基于图卷积网络对代码图表示学习的源代码漏洞检测方法
CN109818961B (zh) 一种网络入侵检测方法、装置和设备
CN112910859B (zh) 基于c5.0决策树和时序分析的物联网设备监测预警方法
CN111930592A (zh) 一种实时检测日志序列异常的方法和系统
CN111191767A (zh) 一种基于向量化的恶意流量攻击类型的判断方法
CN114816909A (zh) 一种基于机器学习的实时日志检测预警方法及系统
CN114553591B (zh) 随机森林模型的训练方法、异常流量检测方法及装置
CN113687972B (zh) 业务系统异常数据的处理方法、装置、设备及存储介质
EP3230891A1 (en) Perceptual associative memory for a neuro-linguistic behavior recognition system
CN111431819A (zh) 一种基于序列化的协议流特征的网络流量分类方法和装置
CN109547251B (zh) 一种基于监控数据的业务系统故障与性能预测方法
CN114697068A (zh) 一种恶意流量识别方法及相关装置
CN112667750A (zh) 一种报文类别的确定、识别方法及装置
CN115766176A (zh) 网络流量处理方法、装置、设备及存储介质
CN108156018B (zh) 电力网络设备拓扑识别方法、电子设备和计算机存储介质
CN115277102A (zh) 网络攻击检测方法、装置、电子设备及存储介质
CN117220920A (zh) 基于人工智能的防火墙策略管理方法
Kamath et al. Machine learning based flow classification in DCNs using P4 switches
CN115238799A (zh) 基于ai随机森林恶意流量检测方法和系统
CN116756327A (zh) 基于知识推断的威胁情报关系抽取方法、装置和电子设备
CN115361195A (zh) 一种基于时空代价成本的大规模物联网流量多分类方法
CN115118482A (zh) 工业控制系统入侵检测线索分析溯源方法、系统及终端
CN117633666A (zh) 网络资产识别方法、装置、电子设备和存储介质
CN117221087A (zh) 告警根因定位方法、装置及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination