CN116668083A

CN116668083A - 一种网络流量异常检测方法及系统

Info

Publication number: CN116668083A
Application number: CN202310503241.7A
Authority: CN
Inventors: 刘渝; 夷州; 周可
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2023-05-06
Filing date: 2023-05-06
Publication date: 2023-08-29

Abstract

本发明公开了一种网络流量异常检测方法及系统，属于网络流量异常检测技术领域；针对网络流量的上下文依赖以及不同特征空间维度的相关性，设计自适应的滑动窗口机制，当数据中存在大量异常，通过维护部分历史正常样本分布，能够有效降低异常检测的漏报率；同时该机制能够动态更新正常网络流量特征的联合分布，进而能够全面捕获正常网络流量的变化模式，有效降低异常检测的误报率。并且在这个过程中，考虑到Vine Copula函数不要求网络流量特征符合特定的分布类型，从而消解了先验假设，更贴近网络流量特征的实际分布，通过引入VineCopula函数来拟合历史窗口内正常样本的分布，能够精确建立网络流量不同特征间的耦合关系，能够高效精确地进行网络流量异常检测。

Description

一种网络流量异常检测方法及系统

技术领域

本发明属于网络流量异常检测技术领域，更具体地，涉及一种网络流量异常检测方法及系统。

背景技术

网络流量是等时间间隔内解析网络数据包产生的多变量时间序列，其中隐含着各类用户行为模式。网络流量异常是指干扰网络正常稳定运行、降低网络性能、甚至严重影响网络可用性的网络流量模式，通常与正常流量模式存在差异。

现有异常检测算法忽略了网络流量多维特征的上下文关联与局部空间分布之间的联系，从而导致误报。具体而言，现阶段无监督网络流量异常检测方法可分为统计学习方法及深度学习模型，前者没有考虑网络流量特征空间样本分布随时间的变化规律，此外，部分方法需要对高维数据进行大量距离计算，频繁的距离计算造成了大量的时间开销。后者部分模型要求正负样本符合相同的空间分布，对随机噪声敏感，模型结构复杂，训练开销大，无法满足高效准确的异常检测需求。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种网络流量异常检测方法及系统，用以解决现有技术无法高效精确地进行网络流量异常检测的技术问题。

为了实现上述目的，本发明提供了一种网络流量异常检测方法，包括以下步骤：

S1、对待进行异常检测的网络流量进行预处理后，得到具有d个特征维度的序列样本；d为正整数；每个特征维度下的序列为将网络流量同一特征下的记录按时序进行拼接所得；

S2、构建由历史窗口W和待测窗口w按照时间顺序拼接而成的临检窗口T；初始状态下，历史窗口W保存有具有d个特征维度的正常序列样本；待测窗口w放置在序列样本的起始端；

S3、采用Vine Copula函数计算临检窗口T中样本所有特征维度之间的多元联合分布，进而得到每一个特征维度的边缘分布；基于各特征维度的边缘分布，计算得到临检窗口T内待测窗口w的异常得分矩阵，并基于异常得分矩阵判断待测窗口w内是否存在异常点，若是，则历史窗口W中的样本保持不变，在序列样本的时间轴上滑动待测窗口w，并更新临检窗口T；否则：将待测窗口w中的样本移入历史窗口W中，且当移入后历史窗口W中的样本总长度超出历史窗口W的窗口大小时，移出历史窗口W中时间较久的样本，移出的样本长度为超出长度；在序列样本的时间轴上滑动待测窗口w，并更新临检窗口T；

S4、重复步骤S3，直至待测窗口w从序列样本上滑出；

其中，上述异常得分矩阵中第i行第j列的值为临检窗口T内待测窗口w中第i个特征维度下第j时刻处的样本点x_ij的异常得分，具体为：

M_i(x_ij)为第i个特征维度下样本点x_ij的边缘分布值；b_i为临检窗口T内历史窗口W中第i个特征维度下的样本偏度。

进一步优选地，采用Vine Copula函数计算临检窗口T中序列样本所有特征维度之间的多元联合分布的方法包括：

分别计算临检窗口T中序列样本各特征维度的边缘概率密度后，进一步采用二元Copula函数拟合，得到特征维度两两之间的二元联合分布；并基于Vine Copula函数的Cantor树形结构，从Cantor树形结构的叶子节点出发，逐层构建并合并二元联合分布直至根节点，从而得到临检窗口T中序列样本所有特征维度之间的多元联合分布。

进一步优选地，二元Copula函数为二元Copula函数候选集中具有最小赤池信息量和贝叶斯信息的二元Copula函数；二元Copula函数候选集中的二元Copula函数包括：Gaussian函数、t-Copula函数和Frank函数。

进一步优选地，基于异常得分矩阵判断待测窗口w内是否存在异常点的方法包括：

比较待测窗口w中的各样本点所对应的异常得分与预设阈值之间的大小，若大于，则判定该样本点为异常，否则，判定该样本点为正常。

进一步优选地，预设阈值τ的设定方法包括：

获取异常得分矩阵中的异常得分的最小值min、最大值max和平均值Avg；

将预设阈值τ的取值从min递增到max，在这个过程中，分别计算异常得分矩阵中异常得分小于τ的概率P_lower和大于τ的概率P_upper、以及小于τ的异常得分的均值Avg_lower和大于τ的异常得分的均值Avg_upper，并计算对应的2 2result＝P_lower×(Avg-Avg_lower)+P_upper×(Avg-Avg_upper)；

将所得的result的最大值作为最终的预设阈值τ。

进一步优选地，对待进行异常检测的网络流量进行预处理的方法包括：删除网络流量中的重复值，并以删除后的缺失值时间戳领域内的值作为参考，对其做线性插值补全后，进行归一化处理。

进一步优选地，上述d个特征为基于相关性分析对网络流量所包含的所有特征进行筛选后得到；具体筛选方法包括：

采用皮尔森系数对网络流量特征两两之间的相关程度进行度量，当两两之间的相关程度大于第一预设程度值时，仅保留其中一个特征；

采用斯皮尔曼对各特征维度与异常程度之间的关联程度进行度量，将所得各关联程度从大到小进行排序，保留前d个关联程度较高的特征。

进一步优选地，待测窗口w的时间窗口大小和滑动步长均为p；历史窗口W的时间窗口大小k为p的整数倍。

进一步优选地，上述网络流量异常检测方法还包括步骤S5，具体包括：当将检测出的异常点后，获取异常点邻域范围内具有d个特征维度的异常时序片段，并输入至分类模型中，得到该异常点的状态类别；

其中，上述分类模型包括级联的特征提取网络和分类网络；特征提取网络为预训练好的SimSiam模型中的编码网络；

当检测到异常点后，将异常点邻域范围内具有d个特征维度的异常时序片段保存至缓存池中，当缓存池内的时序片段数量超过预设阈值时，对SimSiam模型进行训练；SimSiam模型的训练方法包括：

对缓存池中的每一个异常时序片段，在保留异常时序片段的条件下，在序列样本时间轴上向前采样恒定时间步长得到异常样本V，向后采样同样的恒定时间步长得到异常样本V’，得到对应的正样本对<V,V'>；将各正样本对<V,V'>输入到SimSiam模块中进行对比学习；

上述分类模型的训练方法包括：将预采集到训练样本集输入到分类模型中进行训练；训练样本集包括：不同类别标签的时序片段，以及对应的状态类别标签；状态类别包括正常类别和不同的异常类别。

进一步优选地，SimSiam模块中的编码网络包括：级联的编码模块和投影模块；编码模块包括级联的三层编码器，投影模块包括级联的两层投影感知机。

进一步优选地，上述编码器为GRU网络。

进一步优选地，在得到正样本对<V,V'>后，通过随机掩膜的方式对V和V'中的公共部分进行多种变换，以正样本对数据进行扩充。

第二方面，本发明提供了一种网络流量异常检测系统，包括：存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时执行本发明第一方面所提供的网络流量异常检测方法。

第三方面，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序被处理器运行时控制所述存储介质所在设备执行本发明第一方面所提供的网络流量异常检测方法。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

1、本发明提供了一种网络流量异常检测方法，针对网络流量的上下文依赖以及不同特征空间维度的相关性，设计了自适应的滑动窗口机制，即通过维护一个具有上界的包含历史正常样本的历史窗口，构建距待测窗口最近时间范围内的正常样本的联合分布，对待测窗口内的样本异常检测后，根据结果动态更新历史滑动窗口；由于维护了最近的历史正常样本分布，当某一个待测窗口内存在大量异常样本时，该机制能够有效降低异常检测的漏报率；同时该机制能够动态更新正常网络流量特征的联合分布，进而能够全面捕获正常网络流量的变化模式，有效降低异常检测的误报率。并且在这个过程中，考虑到VineCopula函数不要求网络流量特征符合特定的分布类型，从而消解了先验假设，更贴近网络流量特征的实际分布，通过Vine Copula函数来拟合历史窗口内正常样本的分布，能够精确建立网络流量不同特征间的耦合关系，能够高效精确地进行网络流量异常检测。

2、进一步地，本发明所提供的网络流量异常检测方法，在通过步骤S1-S4检测到的异常样本后，进一步基于步骤S5对所得的样本进一步进行状态分类分类，以减轻误报对网络流量检测效果造成的影响。在这个过程中，本发明根据异常网络流量的时间序列特性，设计合理了数据增强方式以避免错误的负样本对划分方式，基于SimSiam模型中的编码网络构建了分类模型。通过将扰动后的异常网络流量片段逐对输入SimSiam模块中，使同类异常样本经SimSiam模块中的编码网络映射投影后生成的表征在超球面更为接近，产生的扰动在流形分布更为均匀，整个过程无需负样本对；另外，通过对比学习可以提取同类正样本对的关键同质信息，相较于采用自编码器或生成式对抗网络的方法，训练开销更小，不容易陷入过度拟合或者模式坍缩的困境。

附图说明

图1为本发明实施例1提供的网络流量异常检测方法流程图；

图2为本发明实施例1提供的特征相关性矩阵示意图；

图3为本发明实施例1提供的异常得分矩阵的计算流程图；

图4为本发明实施例1提供的SimSiam模块的结构示意图；

图5为本发明实施例1提供的错误的负样本对构造方式的示意图；

图6为本发明实施例1提供的正样本对构造方式的示意图；

图7为本发明实施例1一种可选实施方式所提供的网络流量异常检测方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提供了一种网络流量异常检测方法及系统，通过异常检测算法识别由网络攻击产生的异常网络流量，明确网络用户正常与异常行为模式的边界，据此高效检出疑似异常的网络流量并及时告警。进一步地，还可以将疑似异常流量输入分类模型，旨在使得模型学习到各类恶意行为反映于网络流量载体的流形嵌入表征，并且及时修正异常检测结果中的误报，即通过分类模型将疑似异常流量划分为由不同攻击方式产生的异常数据，以及由于异常检测误判而混入的少量正常样本。

实施例1、

一种网络流量异常检测方法，如图1所示，包括以下步骤：

具体地，由于网络波动延时以及进程通信阻塞等原因，原始网络流量数据中存在一些相同时间戳的重复值以及不同时刻的缺失值。若不对这些错误样本数据加以处理，那么后续将学习到错误的模式，这将会影响最终的异常分析效果。因此在进行异常分析前需要去除原始数据中重复值，并补全缺失值。在一种可选实施方式下，对待进行异常检测的网络流量进行预处理的方法包括：去噪和标准化处理，具体为：删除网络流量中的重复值，并以删除后的缺失值时间戳领域内的值作为参考，对其做线性插值补全后，进行归一化处理。本实施例使用集合数据结构来消除重复值，以缺失值时间戳邻域内特征值为参考，对其做线性插值补全，以此消除错误样本对后续工作的负面影响。进一步地，由于部分属性具有不同的量纲，而且在数值范围上具有较大差异，导致不同特征在模型学习过程中对网络权重的影响程度不同，无法准确地反映网络流量的真实状况。因此，上述预处理方法还包括归一化(标准化)处理。本实施方式对比了Min-Max归一化方法与Z-Score标准化方法，发现选用Min-Max归一化方法对样本属性范围内的所有数值进行处理会得到更准确的异常分析结果。

基于KDD Cup 99数据集(当前被广泛使用的网络流量异常分析数据集)可知，网络流量所包含的特征如表1所示：

表1

序号	特征名	含义
			1	duration	连接的持续时间
2	protocol_type	协议类型
			3	service	服务类型
4	flag	连接状态码
			5	src_bytes	源地址发送字节数
6	dst_bytes	源地址接收字节数
			7	land	连接状态码
8	wrong_fragment	错误段数量
			9	urgent	紧急包数量
10	hot	访问敏感文件或目录的次数
			11	num_failed_logins	登录失败次数
12	logged_in	是否登录成功
			13	num_compromised	连接中无错误次数
14	root_shell	是否获取root_shell
			15	su_attempted	是否执行超级管理员命令
16	num_root	root用户访问量
			17	num_file_creations	连接中创建文件数量
18	num_shells	用户正常登录数
			19	num_access_files	连接中访问文件量
20	num_outbound_cmds	ftp会话中出站次数
			21	is_hot_login	是否以root权限登录
22	is_guest_login	是否以访客权限登录
			23	count	历史2秒内具有相同目标主机的连接数
24	srv_count	历史2秒内具有同一目的端口的连接数
			25	serror_rate	历史2秒内同一目标主机的SYN错误连接比例
26	srv_serror_rate	历史2秒内同一服务的SYN错误连接比例
			27	rerror_rate	历史2秒内同一目标主机的REJ错误连接比例
28	srv_rerror_rate	历史2秒内同一服务的连接中REJ错误连接比例
			29	sane_srv_rate	历史2秒内相同服务连接比例
30	diff_srv_rate	历史2秒内不同服务连接比例
			31	srv_diff_host_rate	历史2秒内不同目标主机连接比例
32	dst_host_count	100个连接时间窗口内相同目的IP连接数
			33	dst_host_srv_count	100个连接时间窗口内(下同)同一服务连接数
34	dst_host_same_srv_rate	相同目标主机的连接中相同服务占比
			35	dst_host_diff_srv_rate	相同目标主机的连接中不同服务占比
36	dst_host_same_src_port_rate	具有相同目标主机同一源端口的连接占比
			37	dst_host_srv_diff_host_rate	具有同一目标主机且不同源主机的连接占比
38	dst_host_serror_rate	相同目标主机的SYN错误连接比例
			39	dst_host_srv_serror_rate	相同目标主机相同服务的SYN错误连接比例
40	dst_host_rerror_rate	相同目标主机的REJ错误连接比例
			41	dst_host_srv_rerror_rate	相同目标主机相同服务的REJ错误连接比例

需要说明的是，所选取的d个特征维度可以根据经验进行确定，选取与异常状态相关的特征维度，同时要保证各特征维度直接的相关性较弱。优选地，d个特征维度为基于相关性分析对网络流量所包含的所有特征进行筛选后得到，具体过程如下：

由于在真实场景的网络流量中异常样本占比较低，样本分布极度不平衡，针对分布极不均衡的数据集，本实施例在消除冗余样本的基础上选取与网络流量异常有关的时序特征。本实施例选取了36个连续型特征，并进一步分析其相关性，将对网络流量数据按照上述预处理方法进行预处理后，将同一特征的记录按时序拼接为一个连续随机变量X_i(x₁,x₂,…,x_t)，i＝1,2,3,…,36。具体地，在一种可选实施方式下，基于相关性分析对特征进行筛选的方法包括：

1)采用皮尔森系数(Pearson系数)对网络流量特征两两之间的相关程度进行度量，当两两之间的相关程度大于第一预设程度值时，仅保留其中一个特征；具体地，Pearson系数如下所示，r的值域为[-1，1]，当Pearson系数的值接近1时，说明两个随机变量几乎正线性相关。

为避免选取冗余特征，可结合后续特征选择结果从一对相关性较强的特征中挑选一个即可，相关性矩阵如图2所示，图中热力图色块的深浅程度反映了特征间相关性的强弱，此外，对于两个特征而言，它们的相关性与组合顺序无关，所以在图2中隐去对称的上半部分。由热力图可知，具有强相关性的特征对为：serror_rate与srv_serror_rate，rerror_rate与srv_error_rate，dst_host_serror_rate与dst_host_srv_serror_rate。

2)采用斯皮尔曼对各特征维度与异常程度之间的关联程度进行度量，将所得各关联程度从大到小进行排序，保留前d个关联程度较高的特征。

具体地，用于描绘一个时间窗口内异常程度的时序样本标签也可看作一个离散随机变量Y。采用斯皮尔曼系数来评估一个连续随机变量与一个离散随机变量的相关性，具体公式如下为：

本实施例中，在保持95％的置信度的前提下，将各个特征的斯皮尔曼系数从大到小进行排序，最终保留了前d个关联程度较高的特征。

进一步地，由于流量数据中可能存在与时序特征密切相关的异常，所以本实施例采用前述筛选后的特征，采用tsfresh数学工具包进一步增强了时序统计特征。

S2、构建由历史窗口W和待测窗口w按照时间顺序拼接而成的临检窗口T；初始状态下，历史窗口W保存有具有d个特征维度的正常历史序列样本；待测窗口w放置在序列样本起始端；

需要说明的是，目前大多数非监督的网络流量异常检测方法，均未以整个时间序列作为研究对象，而是选取固定的时间间隔对其检测。首先，这是由于对整个时间序列进行检测与现实场景中的情形不符。若以5秒的时间间隔固定采样，那么3天监控的流量时序数据长度可达5万以上，对如此量级的时序建模需要大量的计算资源，难以满足在线实时检测的需求。其次，在观测点邻域内的时序数据与之存在一定的长期或短期依赖性，而超出邻域范围的样本点对观测样本的影响随距离增加逐渐减弱，若将时序数据建模时只顾整体，往往会忽略细微的时序特征，进而影响异常检测精确度。因此，本发明选取合适大小的历史窗口以及待测窗口作为研究对象，用以检测异常时序片段。

优选地，在一种可选实施方式，待测窗口w的时间窗口大小和滑动步长均为p；历史窗口W的时间窗口大小k为p的整数倍；本实施方式中，k取值为90，p取值为5。具体地，设定一个时间窗口大小上限为k的历史窗口W，用于保留正常样本的历史观测值，以及一个窗口大小与移动步长相等的待测窗口w；历史窗口W用于消除待测滑动窗口内可能存在的大量异常样本对异常检测精度的影响；待测窗口w的窗口大小为p，p可被k整除，在待测窗口w的滑动期间总是包含待观测样本。滑动窗口的运行机制为：在初始状态时，首先将小于历史滑窗大小上限的正常样本保存至历史滑窗W，随后根据历史滑窗W内的正常样本分布，检测大小为p的待测滑窗w内是否存在异常样本。具体而言，在判断异常样本的过程中，将历史滑窗W与待测滑窗w内的数据按时间顺序拼接，形成一个临检窗口T，为减小计算开销，可保留历史滑窗的中间结果，以增量方式计算临检窗口内的样本分布。若生成的异常得分矩阵中存在异常点，则待测滑窗移动继续划定下一段待检测的网络流量样本，不更新历史滑窗；若不存在异常样本，则历史滑窗将待测滑窗内样本纳入历史观测。若纳入后超出窗口大小上限，则剔除窗口内的久远历史观测样本，随后继续移动待测窗口，重复该过程直至待测窗口超出序列样本的长度。

具体地，如图3所示，采用Vine Copula函数计算临检窗口T中序列样本所有特征维度的多元联合分布的方法包括：

分别计算临检窗口T中序列样本各特征维度的边缘概率密度后，进一步采用二元Copula函数拟合，得到特征维度两两之间的二元联合分布；并基于Vine Copula函数的Cantor树形结构，从Cantor树形结构的叶子节点出发，逐层构建并合并二元联合分布直至根节点，从而得到临检窗口T中序列样本所有特征维度的多元联合分布。

具体地，首先对网络流量各特征维度采用直方图统计或核密度估计法计算边缘概率密度，随后通过选取最优的二元Copula函数拟合网络流量中特征维度两两之间的二元联合分布，最后从Cantor树的叶子节点出发，逐层构建并合并多个二元联合分布，直至根节点，由此构建网络流量所有特征维度的联合分布。

需要说明的是，之所以能够依据Vine Copula函数的Cantor树形结构拟合多元联合分布，是因为经过上述预处理与时序特征提取过程，已剔除网络流量中与异常无关的特征维度，从而降低了拟合过程中的噪声干扰；并且已基于皮尔森系数减少相关性较强的特征维度，使得网络流量各特征维度的概率密度可近似为联合分布的边缘概率密度。

此外，由于提取了原始网络流量数据的卷积、微分、累积量等上下文特征，网络流量的特征与原始数据耦合紧密，因此，在构建联合分布时，应分别对原始数据和特征进行建模，识别异常时，若待测样本在任一分布处于极低的概率密度空间，则判定为异常。

在一种可选实施方式下，采用非参数检验的核密度估计算法计算中的临检时间窗口内的网络流量各特征的概率密度函数。记X为临检窗口T内由某一特征空间维度的样本组成的随机变量，m为样本容量。本实施例使用径向基核函数来进行核密度估计。在核密度估计算法中，平滑系数h用于控制概率密度曲线的平滑程度。令μ∈R为历史观测窗口W内样本的平均值，σ∈R为标准差，则平滑系数h可由经验公式计算得出。

偏度反映数据分布的不对称程度，在非正态分布的数据表征中具有重要作用，记x_j为历史窗口W内的一个样本，则偏度b为：

若偏度b大于0，则数据在数轴左侧更为密集；若偏度b小于0，则数据在数轴右侧更为密集；若偏度b等于0，则为正态分布。第i特征维度下的边缘概率密度函数为：

对每一个特征空间维度进行上述计算，得到各特征维度下的边缘概率密度函数f_i(X)(i＝1，2，3…，d)。

进一步地，基于Vine Copula函数模型选择合适的二元Copula连接函数是准确构建多元联合分布模型的关键。下面介绍最优二元Copula函数的选取方法，本实施例使用半参数的极大似然估计(MLE)法来获取目标二元Copula函数的相关参数，以赤池信息量和贝叶斯信息准则评估二元Copula函数的拟合效果。具体地，以二元随机变量x₁和x₂为例，可根据样本数值建立自然对数似然函数：

其中c(·)为二元Copula概率密度函数，和/>是随机变量x₁和x₂中的一组样本点，n为网络流量样本容量。求解自然对数似然函数最大化的问题可以归结为在参数空间找到一点θ^*，使得如下公式成立：

许多参数估算问题都将似然函数视为一个指标，在大样本的前提下，可以使其得到更好的拟合效果，但其代价却是增加了模型的复杂度，并由此产生了一种在机器学习中十分常见的问题：过度拟合。因此，需要在建模的复杂度和模型的表征能力之间寻找一个平衡。赤池信息量(Akaike Information Criterion，AIC)和贝叶斯信息准则(BayesianInformation Criterion，BIC)是常见的两个模型拟合效果度量方法。

对二元Copula函数候选集中的二元Copula函数分别进行上述度量，得到各参数集，以变量样本对和各候选Copula参数集作为输入，代入下列公式得到候选函数集的BIC与AIC值：

其中k为c(·)中的参数数量，BIC的惩罚项大于AIC，当样本量过大时，可有效避免选择过高精度拟合的模型，以降低运算代价。最终根据计算结果，具有最小AIC和BIC值的二元Copula函数即为最优选择，当AIC与BIC冲突时，应优先参考AIC值。

基于此，本实施例中所采用的二元Copula函数为二元Copula函数候选集中具有最小赤池信息量和贝叶斯信息的二元Copula函数；本实施例中，二元Copula函数候选集中的二元Copula函数包括：Gaussian函数、t-Copula函数和Frank函数。

进一步地，异常得分矩阵中第i行第j列的值为临检窗口T内待测窗口w中第i个特征维度下第j时刻处的样本点x_ij的异常得分，具体为：

进一步地，基于异常得分矩阵判断待测窗口w内是否存在异常点的方法包括：

本发明可以根据异常得分矩阵来判定当前网络的健康状况，有助于网络运维工程师依据告警估计异常的严重程度，针对不同级别的网络安全事故采取对应的安全防御措施，及时修复网络故障。

需要说明的是，上述预设阈值可以根据经验值进行设定。

在一种可选实施方式下，预设阈值τ的设定方法包括：

将预设阈值τ的取值从min递增到max，在这个过程中，分别计算异常得分矩阵中异常得分小于τ的概率P_lower和大于τ的概率P_upper、以及小于τ的异常得分的均值Avg_lower和大于τ的异常得分的均值Avg_upper，并计算对应的result＝P_lower×(Avg-Avg_lower)²+P_upper×(Avg-Avg_upper)²；

将所得的result的最大值作为最终的预设阈值τ。

S4、重复步骤S3，直至待测窗口w从序列样本的末端滑出。

基于上述方法，本发明在KDD Cup 99和NSL-KDD两个数据集下进行实验，实验结果表明本发明在两个数据集下的异常检测平均精准率为0.924，平均召回率为0.908，平均F1分数达0.916，平均训练耗时为16秒，支持在线异常检测。与基于统计学习方法的异常检测算法对比，平均提高了14.2％的精准率，平均提高了22.2％的召回率，平均增长了18.3％的F1分数；相比于基于深度神经网络模型的异常检测算法，平均提高了3.4％的精准率，平均提高了9.2％的召回率，平均增长了6.4％的F1分数，实验证实了本发明所提供的上述方法的有效性。

进一步地，基于上述实验结果可知，上述方法存在误报的问题，为减轻误报对网络流量检测效果造成的影响，并且辅助专家根据不同的异常网络流量类型，快速采取有效的网络防御措施或开展网络故障修复工作。具体地，在一种可选实施方式下，上述网络流量异常检测方法还包括步骤S5，具体包括：当将检测出的异常点后，获取异常点邻域范围内具有d个特征维度的异常时序片段，并输入至分类模型中，得到该异常点的状态类别；

当检测到异常点后，将获取异常点邻域范围内具有d个特征维度的异常时序片段保存至缓存池中，当缓存池中的时序片段数量超过预设阈值时，对SimSiam模型进行训练；SimSiam模型的训练方法包括：

需要说明的是，SimSiam模块无需负样本对的关键在于预测感知机对投影后表征的扰动使其在流形分布更为均匀，同时孪生网络的另一支停止更新梯度，通过共享参数缓慢更新参数，类似于强化学习DQN算法的目标网络。SimSiam模块的训练过程可近似为求解EM问题的过程，构造正样本对的过程可视为对同类数据的随机掩码，通过对比学习可以提取同类正样本对的关键同质信息，相较于采用自编码器或生成式对抗网络的方法，孪生网络对比学习框架的结构简单，训练开销更小，不容易陷入过度拟合的困境。

具体地，当上述步骤S1-S4的方法识别出异常的网络流量样本后，将其保存至缓存池内，待缓存池内的样本容量超出设定阈值后，依据先验异常类别知识，默认以无监督方式训练SimSiam模块，以修正上述步骤S1-S4的方法的误报及异常流量分类，旨在利用异常检测算法的时间开销低的特点加速异常分类模型，同时基于异常分类模型的高精确度修正异常检测算法的误报，当网络专家收到异常告警与分类提示后，便会及时开展现网修复工作，同时按照业务特性针对已知类别的异常快速分析，保障网络服务的可用性与稳定性。

优选地，SimSiam模块中的编码网络包括：级联的编码模块和投影模块；编码模块包括级联的三层编码器，投影模块包括级联的两层投影感知机。优选地，上述编码器为GRU网络。需要说明的是，与RNN相比，LSTM和GRU能够很好地克服由于隐藏层数太多导致的梯度消失以及梯度爆炸等问题，同时能够捕获历史时间序列的长期依赖关系。两者在许多任务中性能表现不分伯仲，GRU相较于LSTM削减了一个“门”结构，参数相对较少易于训练收敛。在有限的网络层数目下，该模型使用GRU作为编码器组件以更低的训练时间开销达到接近LSTM的分类精度，因此，本实施例中优先选取GRU作为分类模型的编码器。

具体地，在一种可选实施方式下，如图4所示为SimSiam模块的结构示意图，该模型由一个缓存池组件以及一个孪生GRU网络异常分类组件组成。缓存池组件旨在保存一定容量的异常网络流量样本，以形成离线训练数据集。在实际训练过程中，按照7：3的比例划分样本池内的测试集与验证集，采用交叉验证的方式进行分类阈值选择。

由于缺乏异常类别标签，本发明支持自监督学习“预训练-微调”的范式以提升分类精度，首先对无类别标签的异常样本通过多种变换进行数据增强，以异常样本自身作为参考，生成多个正样本对；其次，将相似的正样本对输入SimSiam模块，通过不断反向传播更新SimSiam模块中的参数，使得正样本对经过编码器嵌入后，其在超球面投影所生成的表征向量距离相近；最后针对少量带有类别标签的异常样本进行数据增强后，生成正负样本对，根据下游分类任务的需求微调模型参数。

具体地，记现在缓存池内存在一个异常样本V，首先生成多个增强后的样本对<V,V'>，本模型使用两个GRU编码器分别接收这两个样本，将其嵌入至高维超球面空间，随后分别通过一个两层的全连接网络经过投影变换f(·)得到两个易于比较的向量，值得注意的是，特征向量通过全连接隐层后进行批量标准化，随后采用ReLU函数激活，最后将其中一个向量V与预测感知机连接，用于预测嵌入向量误差，预测感知机每个隐层间的设置同前述全连接网络，其算子为p(·)，向量V通过预测感知机后将与另一个向量V'比较余弦相似度，公式如下所示。

总损失函数为：

其中，m为正样本对数，为增强模型的泛化能力，往往会在式中添加一个正则项μR(Ω)，Ω为神经网络权重参数，μ为超参数，值得注意的是，在反向传播更新梯度时，孪生网络的一支不接受梯度信息，这样做是为避免模型坍缩学习到平凡解。当训练完成后，移除预测感知机，经过编码投影后的向量即为异常时序片段的表征，可用于下游分类任务。若在具体的业务场景中可获取经过专家标注的小样本数据，那么可用softmax函数替换多层感知机，采用类似的方法对经过标注的正负样本进行数据增强，使用先前预训练习得的网络参数初始化模型，随后将正负样本对输入模型微调网络参数，训练完毕后，输入时间窗口内的多维异常时序片段，输出待测异常样本的状态类别。

进一步地，在上述过程中，为获取足量的异常样本用于训练，本实施例中将缓存池的样本容量阈值确定为128。记从t₀到t_k时间戳范围内存在异常点t_a，通过分析t_a邻域内的时序属性可以更为全面地捕获异常时序的变化模式，采集的某个时间点t_i处的单个样本可表示为一个特征空间维度为d的向量部分自监督的对比学习模型将不同批次的样本视为负样本，则可能存在如图5所示的错误，批次1中的样本与批次2中的样本属于同类网络流量异常，但却被错误当作负样本对，这样可能致使模型学习到错误的模式。因此，本发明使用如图6所示的数据增强方式，保留时间窗口内的异常样本V，向前或向后采样恒定的时间步长，作为正样本对<V,V'>，在此基础上对样本对的公共部分做随机掩码等多种变换，以增强模型的泛化能力及鲁棒性，组成多个正样本对用于后续分类任务。虽然不依赖负样本对的对比学习框架可以规避上述错误划分样本对的风险，而且正样本对容易获取，但这种构建正样本对的方式不可避免地降低了训练样本容量，为此，应尽量增加数据变换方式，以避免模型由于缺少样本而陷入过度拟合的困境。假设数据集中仅包含A、B两类样本，若采用m种数据增强方式，则训练样本容量为单一训练方式的m(2m-1)倍，由于m>1，增长倍数在此区间内单调递增，且二阶导函数大于0，因此应尽量扩充变换方式，以最大限度地增大训练集容量，从而可以更好地避免模型产生过度拟合现象。

综上，针对现有异常分类模型难以习得各类异常网络流量的高维抽象表征且计算开销大的问题，本发明将无需负样本对的孪生网络对比学习框架应用于网络流量异常分类中，提出了一种新的模型，该模型以孪生GRU网络为骨架，采用增强采样的方式，自动化地构造多组正样本对，加入随机掩码以增强模型的健壮性，随后输入孪生GRU网络实现时空特征映射，最后基于对比损失完成聚类，模型支持“预训练-微调”方式提升精确度。具体地，本发明根据异常网络流量的时间序列特性，设计合理的数据增强方式以避免错误的负样本对划分方式，随后将扰动后的异常网络流量片段逐对输入GRU孪生神经网络，通过对比损失函数使同类异常样本经GRU编码器映射投影后生成的表征在超球面更为接近。该分类模型无需负样本对的关键在于预测感知机对投影后表征的扰动使其在流形分布更为均匀，同时孪生网络的另一支停止更新梯度，因而整个模型的训练过程可近似为求解EM问题的过程，构造正样本对的过程可视为对数据的合理扰动，通过对比学习可以提取同类正样本对的关键同质信息，相较于采用自编码器或生成式对抗网络的方法，孪生网络对比学习框架的训练开销更小，不容易陷入过度拟合或者模式坍缩的困境。

具体地，本实施方式的整体流程如图7所示。

实施例2、

一种网络流量异常检测系统，包括：存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时执行本发明实施例1所提供的网络流量异常检测方法。

相关技术方案同实施例1，这里不做赘述。

实施例3、

一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序被处理器运行时控制所述存储介质所在设备执行本发明实施例1所提供的网络流量异常检测方法。

相关技术方案同实施例1，这里不做赘述。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种网络流量异常检测方法，其特征在于，包括以下步骤：

S3、采用Vine Copula函数计算临检窗口T中样本所有特征维度之间的多元联合分布，进而得到每一个特征维度的边缘分布；基于各特征维度的边缘分布，计算得到临检窗口T内待测窗口w的异常得分矩阵，并基于所述异常得分矩阵判断待测窗口w内是否存在异常点，若是，则历史窗口W中的样本保持不变，在序列样本的时间轴上滑动待测窗口w，并更新临检窗口T；否则：将待测窗口w中的样本移入历史窗口W中，且当移入后历史窗口W中的样本总长度超出历史窗口W的窗口大小时，移出历史窗口W中时间较久的样本，移出的样本长度为超出长度；在序列样本的时间轴上滑动待测窗口w，并更新临检窗口T；

S4、重复步骤S3，直至待测窗口w从序列样本上滑出；

其中，所述异常得分矩阵中第i行第j列的值为待测窗口w中第i个特征维度下第j时刻处的样本点x_ij的异常得分，具体为：

2.根据权利要求1所述的网络流量异常检测方法，其特征在于，采用VineCopula函数计算临检窗口T中序列样本所有特征维度之间的多元联合分布的方法包括：

分别计算临检窗口T中序列样本各特征维度的边缘概率密度，并进一步采用二元Copula函数拟合，得到特征维度两两之间的二元联合分布；基于VineCopula函数的Cantor树形结构，从Cantor树形结构的叶子节点出发，逐层构建并合并二元联合分布直至根节点，从而得到临检窗口T中序列样本所有特征维度之间的多元联合分布。

3.根据权利要求1所述的网络流量异常检测方法，其特征在于，基于所述异常得分矩阵判断待测窗口w内是否存在异常点的方法包括：

比较待测窗口w中的各样本点所对应的异常得分与预设阈值之间的大小，若大于，则判定该样本点为异常，否则，判定该样本点为正常；

所述预设阈值τ的设定方法包括：

获取所述异常得分矩阵中的异常得分的最小值min、最大值max和平均值Avg；

将预设阈值τ的取值从min递增到max，在这个过程中，分别计算所述异常得分矩阵中异常得分小于τ的概率P_lower和大于τ的概率P_upper、以及小于τ的异常得分的均值Avg_lower和大于τ的异常得分的均值Avg_upper，并计算对应的result＝P_lower×(Avg-Avg_lower)²+P_upper×(Avg-Avg_upper)²；

将所得的result中的最大值作为最终的预设阈值τ。

4.根据权利要求1所述的网络流量异常检测方法，其特征在于，所述的d个特征为基于相关性分析对网络流量所包含的所有特征进行筛选后得到；具体筛选方法包括：

5.根据权利要求1所述的网络流量异常检测方法，其特征在于，待测窗口w的时间窗口大小和滑动步长均为p；历史窗口W的时间窗口大小k为p的整数倍。

6.根据权利要求1-5任意一项所述的网络流量异常检测方法，其特征在于，还包括步骤S5，具体包括：当将检测出的异常点后，获取异常点邻域范围内具有d个特征维度的异常时序片段，并输入至分类模型中，得到该异常点的状态类别；

其中，所述分类模型包括级联的特征提取网络和分类网络；所述特征提取网络为预训练好的SimSiam模型中的编码网络；

当检测到异常点后，将异常点邻域范围内具有d个特征维度的异常时序片段保存至缓存池中，当缓存池内的时序片段数量超过预设阈值时，对所述SimSiam模型进行无监督训练；所述SimSiam模型的训练方法包括：

对缓存池中的每一个异常时序片段，在保留异常时序片段的条件下，在序列样本时间轴上向前采样恒定时间步长得到异常样本V，向后采样同样的恒定时间步长得到异常样本V’，得到对应的正样本对<V,V'>；将各正样本对<V,V'>输入到所述SimSiam模块中进行对比学习；

所述分类模型的训练方法包括：将预采集到训练样本集输入到所述分类模型中进行有监督训练；所述训练样本集包括：不同类别标签的时序片段，以及对应的状态类别标签；所述状态类别包括正常类别和不同的异常类别。

7.根据权利要求6所述的网络流量异常检测方法，其特征在于，所述SimSiam模块中的编码网络包括：级联的编码模块和投影模块；所述编码模块包括级联的三层编码器；所述投影模块包括级联的两层投影感知机。

8.根据权利要求6所述的网络流量异常检测方法，其特征在于，在得到正样本对<V,V'>后，通过随机掩膜的方式对V和V'中的公共部分进行多种变换，以正样本对数据进行扩充。

9.一种网络流量异常检测系统，其特征在于，包括：存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时执行权利要求1-8任意一项所述的网络流量异常检测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序被处理器运行时控制所述存储介质所在设备执行权利要求1-8任意一项的网络流量异常检测方法。