CN113378990B

CN113378990B - 基于深度学习的流量数据异常检测方法

Info

Publication number: CN113378990B
Application number: CN202110766895.XA
Authority: CN
Inventors: 张琳杰; 朱笑岩; 马建峰
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-07-07
Filing date: 2021-07-07
Publication date: 2023-05-05
Anticipated expiration: 2041-07-07
Also published as: CN113378990A

Abstract

本发明公开了一种基于深度学习的流量数据异常检测方法，主要解决现有流量数据异常检测方法检测精度低、误报率高和聚类时间长的问题。其方案包括：1)获取流量数据，并对其进行数据预处理；2)构建密度聚类模型，将预处理后流量数据输入到其中得到密度聚类数据集；3)根据密度聚类数据集生成训练样本集、测试样本集和验证样本集；4)搭建神经网络，并设置网络模型的参数；5)利用训练样本集和测试样本集对神经网络进行训练；6)将验证样本集输入到训练好的神经网络模型中，获得流量数据异常检测结果。本发明充分利用了流量数据的聚类特征，提高了检测精度，降低了误报率和聚类时间，可用于访问控制、安全防护、故障管理、流量路由。

Description

基于深度学习的流量数据异常检测方法

技术领域

本发明属于网络安全技术领域，更进一步涉及一种流量数据异常检测方法，可用于访问控制、安全防护、故障管理、流量路由、拥塞控制、资源管理和服务质量管理。

背景技术

随着第五代移动通信网络、云计算、大数据和机器学习等技术的飞速发展，流量数据呈指数级地增长。而流量数据异常能较全面地反映网络的实时异常状况，检测流量数据的异常已经成为有效的网络安全防护手段。但是传统的依靠网络安全专家人工进行流量数据异常检测的方法因效率低下变得几乎不可用。由于复杂的网络拓扑结构和繁多的网络应用背景，流量数据异常的发生的原因日趋多元化。流量数据异常检测的处理流程与技术的复杂度也相应地提升。现有的流量数据异常检测技术普遍存在检测层面单一、信息获取不够全面、需要人工协助、数据样本不平衡、检测速度较慢效率低下的问题，使得防护范围具有局限性，同时异常现象的处理也会产生延迟性。流量数据异常检测是可以通过检测流量的异常变化，帮助在复杂和大规模的网络中突发事件而进行的信息处理技术。流量数据异常检测可以找到与正常数据分布不同的异常数据，比如从信用卡交易中找出诈骗案例，从正常的网络数据流中找出入侵数据流，在正常案例中找到罕见病患者，有非常广泛的商业应用价值。一是可用于访问控制，实现对网络访问中不安全访问行为的实时预警。通过管理人员预设好的安全防护规则，相应地对产生异常的用户与设备进行安全验证并采取相对应的安全策略，包括但不限于限流、短信验证、设备的标识号与密码的验证。二是可用于安全防护，根据历史流量信息设定相应的正常数据量化范围，从网络内部检测异常流量行为，对恶意流量和代码的内部传播进行动态预防，弥补了防火墙的在网络内部防护不足的缺陷。三是可用于故障管理，对网络和设备中的恶意代码进行相应的检测和清除，突破未收录的故障的检测盲区，对异常现象的及时预警。

福州大学在申请号为202010835255.5的专利申请文献公开了一种“基于多维特征融合和堆栈集成学习的异常流量检测方法”。该方法的实施步骤是：第一步，从网络数据流中采集相关维度数据，预处理后构成若干个基础特征数据集；第二步，将得到的若干个基础特征数据集进行排列组合，构成若干个综合特征数据集；第三步，利用初级学习算法对各个多维子空间的综合特征数据集分别进行训练，生成初级模型；第四步，将所有初级模型的预测概率输出作为次级学习算法的输入，得到次级检测识别模型；第五步，根据初级模型和次级检测识别模型，构建两级堆栈式集成学习模型；第六步，将待检测数据输入两级堆栈式集成学习模型，得到分类结果。该方法由于初级学习算法没有考虑到数据聚类中心的随机性，会出现局部最优的情况，次级检测识别模型参数不能共享，导致提取流量数据特征的聚类时间增加，误报率高。

广东技术师范大学在申请号为202010220448.X的专利申请文献中公开了“一种基于深度学习的网络流量异常检测方法”。该方法的实施步骤是：第一步，利用卷积神经网络对图像处理在空间特征提取上的优势，将网络流量数据图像化处理后进行空间特征训练，形成流量空间分类模型；第二步，把经过卷积神经网络处理后的流量向量再进行时间序列处理，通过长期短期记忆网络来学习流量的时间特征，形成流量时间特征识别模型；第三步，结合空间分类模型和时间特征识别模型，对当前网络流量进行分类判别和攻击预测。该方法由于空间特征训练模型对流量数据的隐含特征的提取不够精确,时间序列处理模型对流量数据之间的关联关系表征不够明显,难以发现针对较长时序数据的长期依赖，导致检测精度降低，阻碍其大规模使用。

发明内容

本发明的目的在于针对上述现有技术的不足，提出一种基于深度学习的多维流量数据异常检测方法，以通过高效提取多维流量数据隐含特征，实现对流量数据进行智能异常检测分类，减少多维流量数据特征的聚类时间，提高对流量数据的检测精度，降低误报率。

为实现上述目的，本发明的技术方案包括如下：

A)从流量网络的日志中获取流量数据，并对其依次进行数据清洗、标准变换，向量编码的数据预处理；

B)构建由数据采集模块、距离计算模块、领域计算模块、阈值比较模块、聚类修正模块、聚类统计模块依次级联组成的密度聚类模型，并将数据预处理后的流量数据输入该模型中得到密度聚类数据集；

C)将密度聚类数据集按照70％，20％，10％划分为训练样本集，测试样本集，验证样本集；

D)构建依次由输入层，长短时记忆单元层，全连接层，分类器层和输出层级联组成的神经网络，选择长短时记忆单元层作为神经网络的隐藏层，选择双曲正切函数作为输出层的激活函数，选择交叉熵作为损失函数；

E)训练神经网络：

设置最大迭代轮次数为500，初始学习率为0.01，将训练样本集和测试样本集输入到神经网络中，利用损失比较方法对其进行训练，直到神经网络达到最大迭代轮次数，得到训练好的神经网络；

F)将验证样本集中的密度聚类数据输入到已经训练好的神经网络中，得到流量数据异常检测结果。

本发明与现有技术相比，具有以下优点：

第一，本发明由于构建了密度聚类模型，并用该模型对数据点进行有效类别划分，同时对野值数据点进行聚类修正，所以能够减少冗余信息所造成的误差，从而提高对大批量数据的处理能力，降低聚类时间开销；

第二，本发明由于选择双曲正切函数作为输出层的激活函数，实现了对特征的定量刻画，从而增强了数据特征的代表性和适应性，降低异常检测的误报率；

第三，本发明由于选择选择交叉熵作为损失函数，加快了神经网络的收敛速度和权重的更新速度，从而实现了对特征的自动提取，大大减少神经网络训练所需的参数，提高异常检测的精度；

第四，本发明由于选择长短时记忆单元层作为神经网络的隐藏层，使得神经网络的输入和输出具有时序可变性和参数共享性，从而能够更加细化的处理单元门限，解决数据之间的长时间依赖的问题，提高异常检测的精度。

附图说明

图1为本发明的实现流程图；

图2为用本发明和现有5种方法分别在2个数据集上进行异常检测精度的仿真图；

图3为用本发明和现有5种方法分别在2个数据集上进行异常检测误报率的仿真图。

具体实施方式

下面结合附图对本发明的实施例和效果做进一步详细的描述。

参照图1，本实例的实现包括如下步骤：

步骤1，获取流量数据，并对其进行预处理。

1.1)从流量网络的日志中获取流量数据；

本实例采取但不限于网络爬虫来获取流量数据，即按照接口抓取规则，自动地抓取流量网络日志信息；

1.2)设置无效值和缺失值为0xoo，对获取流量数据进行数据清洗；

1.3)将数据清洗后的流量数据添加空格进行分割，利用变换函数将其按照784节进行统一长度处理，完成标准变换；

本实例采取但不限于用线性变换函数作为变换函数，即从一个向量空间到另一个向量空间的线性映射；

1.4)将标准变换后的流量数据映射到整数值，将其表示为二进制向量，完成向量编码，得到预处理后的流量数据；

本实例采取但不限于用整数转换法来映射到整数值，即利用阶乘进制建立整数表，通过整数表进行转换。

步骤2，构建密度聚类模型，并将流量数据输入该模型中得到密度聚类数据集。

2.1)建立数据采集模块：用以采集流量数据中的数据点{x_1i,x_2i，x_pi，…，x_Vi}和数据点值对{(x_1i，y_1i)，(x_2i，y_2i),(x_pi，y_pi)…,(x_Vi，y_Vi)}，其中x_pi为列属性为i的第p个数据点，p的取值范围为[1,V],其中V为列属性为i的数据点的个数，y_pi为列属性为i的第p个数据点对应的函数数据点；

本实例采取但不限于埋点分析法来采集流量数据中的数据点，即在流量数据关键点植入统计埋点，确保数据点采集不重复；

2.2)建立距离计算模块：用于计算流量数据中每个数据点x_pi到其他数据点x_qi的距离d_i：

其中，x_pi为列属性为i的第q个数据点，q的取值范围为[1,V]，p≠q；

2.3)建立邻域计算模块：用于计算邻域半径：

其中，mean()为平均值函数，std()为方差函数，κ为领域常数，本实例对领域常数采取但不限于0.11；

2.4)建立阈值比较模块：用以完成选取数据点x_pi邻域半径内的数据点x_k，计算密度阈值h和领域阈值m，确定数据点x_pi的类别，其中：

选取数据点x_pi邻域半径内的数据点x_k，是将数据点x_pi到其他数据点x_qi的距离d_i和领域半径ε进行比较，将数据点x_pi到其他数据点x_qi的距离d_i小于领域半径ε时的其他数据点x_qi选取为数据点x_pi邻域半径内的数据点x_k，否则，不选取当前的其他数据点x_qi为数据点x_pi邻域半径内的数据点x_k；

计算密度阈值h和领域阈值m，通过如下进行：

m＝count(x_k)，其中U为数据点x_pi邻域半径内的数据点的个数，count()为数量函数；

确定数据点x_pi的类别：是通过将邻域阈值m与密度阈值h进行比较来确定数据点x_pi的类别：

如果m≥h，则数据点x_pi为正常数据点x_ia；

如果0<m<h且邻域半径内有正常数据点，则数据点x_pi为边界数据点x_ib；

如果0≤m<h且邻域内无正常数据点，则数据点x_pi为野值数据点x_ic。

2.5)建立聚类修正模块：用以修正野值数据点x_ic为正常数据点，其实现如下：

判断当前数据点x_pi是否为野值数据点x_ic：

若是，则从数据点值对(x_pi，y_pi)中获得该野值数据点对应的函数数据点y_pi，并对其利用最小二乘法多项式进行拟合修正，用野值数据点的估计函数数据点y′对野值数据点对应的函数数据点y_pi进行替代，得到替代后的估计函数数据点：

y′＝ξ_o+ξ₁y₁+ξ₂y₂+...+ξ_ny_n，

再将野值数据点x_ic的数据类型从野值数据点修改为正常数据点，得到修正后的正常数据点，其中，ξ为修正系数，ξ_n为修正系数的n阶分量，y_n为野值数据点的对应的函数数据点y_pi的n阶分量；

若不是，则继续判断下一个数据点是否为野值数据点，直到所有的数据点被判断完；

2.6)建立聚类统计模块：用以将聚类修正模块得到的修正后的正常数据点、阈值比较模块中得到的正常数据点、阈值比较模块中得到的边界数据点进行组合；

本实例采取但不限于集合法来将数据点进行组合，即运用集合运算将数据点组合；

2.7)将数据采集模块、距离计算模块、领域计算模块、阈值比较模块、聚类修正模块、聚类统计模块依次级联组成的密度聚类模型；

2.8)将数据预处理后的流量数据输入密度聚类模型中得到密度聚类数据集。

步骤3，生成训练样本集，测试样本集和验证样本集。

将密度聚类数据集按照70％，20％，10％划分为训练样本集，测试样本集，验证样本集。

步骤4，构建神经网络。

4.1)建立输入层：其采用512个输入神经单元级联组成；

4.2)建立长短时记忆单元层：其采用从上至下的2个长短时记忆单元层级联组成，并设置第一层长短时记忆单元节点个数为512，第二层长短时记忆单元节点个数为512，每个长短时记忆单元节点的遗忘门函数值f_t和记忆单元函数值g_t通过如下公式计算：

f_t＝σ(wg_t-1+wh_t-1+wx_t+r)，

其中，σ(·)表示激活函数，w表示遗忘门权值，r表示遗忘门偏置，g_t-1表示t-1时刻长短时记忆单元选择放弃的信息，h_t-1表示t-1时刻长短时记忆单元层的输出，x_t表示t时刻输入的密度聚类数据，

表示元素乘积符号，l_t为记忆系数，tanh表示双曲正切激活函数；

4.3)建立全连接层：其采用从上至下的2个全连接层级联组成，并设置第一个全连接层和第二个全连接层的节点个数分别为512和128；

4.4)建立分类器层：其采用从上至下的2个分类器层级联组成，设置分类器层之间的激活函数为Softmax函数，设置全连接层与分类器层之间的激活函数为线性修正单元激活函数；

4.5)建立输出层：其采用从上至下的2个输出层级联组成，设置输出层之间的激活函数为双曲正切激活函数，期望标签值p(x)为：

其中，w₀表示遗忘门输出权值，r₀表示遗忘门输出偏置；

4.6)将输入层，长短时记忆单元层，全连接层，分类器层和输出层依次级联组成的神经网络，并选择长短时记忆单元层作为神经网络的隐藏层，选择双曲正切函数作为输出层的激活函数，选择交叉熵作为损失函数。

步骤5，训练神经网络。

5.1)设置最大迭代轮次数为500，初始学习率为0.01；

5.2)将训练样本集和测试样本集输入到神经网络中，利用损失比较方法对其进行训练：

5.2.1)将训练样本集和测试样本集输入到神经网络中，得到神经网络的期望标签值p(x)；

5.2.2)根据期望标签和实际标签值利用交叉熵方法计算训练误差：

其中，q(x)表示实际标签值；

5.2.3)根据当前的训练误差s和学习率η计算梯度值，根据得到的梯度值更新遗忘门权值和遗忘门偏置，完成一次训练；

本实例取且不限于梯度下降法更新遗忘门权重和遗忘门偏置，即指沿着梯度方向对遗忘门权重和遗忘门偏置进行更新以求解神经网络收敛的最优解。

5.2.4)判断训练轮次数是否达到最大训练轮次数：

若是，停止对该网络的训练，得到训练好的神经网络；

否则，将训练轮次数增加1，返回5.2.1)。

步骤6，将验证样本集中的密度聚类数据输入到已经训练好的神经网络中，得到流量数据异常检测结果。

下面结合仿真实验，对本发明的效果做进一步的说明。

1.仿真实验条件：

本发明的仿真实验的运行环境是：处理器为Intel(R)Core(TM)i3-9100 CPU@3.60GHz，内存为8.00GB，硬盘为929G，操作系统为Windows 10，编程环境为Python，编程软件为PyCharm Community Edition 2020.2.3x64。

仿真所使用的数据集为DARPA数据集和ISCX数据集。

DARPA数据集是l998年林肯实验室在DARPA资助下模拟各类入侵行为的流量数据集。它包含7周训练流量和2周测试流量，41种人工设计的特征。数据集的流量种类列表正常流量、Dos攻击流量、Probe攻击流量、U2R攻击流量、R2L攻击流量。

ISCX数据集是在2012年由加拿大新不伦瑞克大学的信息安全中心发布的一个入侵检测数据集。它包含7天的流量数据。数据集的流量种类列表为正常流量、Brute ForceSSH恶意流量、DoS恶意流量、Infiltrating恶意流量。

2.仿真内容及其结果分析：

仿真使用的现有方法有以下5种：

1、根据合适的参数分布的概率密度和概率分布模型，计算后验分布以更新对参数分布的认知的贝叶斯模型方法。

2、根据在高维数据中寻找正样本和负样本之间的最大化分隔平面来划分数据的支持向量机模型方法。

3、根据K个与待判别数据距离最近的数据的类别，确定待判别数据所属的类别的最近邻模型方法。

4、根据历史数据的表现对未来结果发生的概率进行预测的逻辑回归模型方法。

5、根据已知的各种情况发生概率，通过构成决策树来求取净现值的期望值的决策树模型方法。

仿真实验1：比较本发明与现有5种方法的检测精度。

仿真过程如下：

首先，从DARPA数据集和ISCX数据集中获取流量数据，并分别使用本发明方法和现有5种方法对流量数据进行异常检测，得到本发明方法和现有5种方法的流量数据异常检测结果；

其次，根据本发明方法和现有5种方法流量数据异常检测结果分别统计各方法被正确识别出的目标流量数目TP、被正确识别出的其它流量数目TN、被错误识别出的目标流量数目FP、被遗漏识别的目标流量数目FN，再分别计算各方法准确率

和召回率

根据准确率和召回率的计算结果，计算各方法F1得分

F1得分的高低可表示流量数据异常检测的检测精度的高低；

最后，比较各方法的F1得分，结果如图2所示，其中横轴表示数据集名称，不同柱状图案代表不同方法，纵轴表示F1得分。

由图2可以看出，本发明标示的柱状图对应的F1得分位于现有5种方法标示的柱状图对应的F1得分的上方，即本发明的F1得分是这6种方法中最高的，表明本发明的异常检测的检测精度高于现有的5种方法。

仿真实验2：比较本发明与现有5种方法的异常检测的误报率。

仿真过程如下：

其次，根据本发明方法和现有5种方法流量数据异常检测结果分别统计各方法被正确识别出的目标流量数目TP，被正确识别出的其它流量数目TN，被错误识别出的目标流量数目FP，被遗漏识别的目标流量数目FN，再分别计算各方法误报率

最后，比较各方法的误报率，结果如图3所示，其中横轴表示数据集名称，不同柱状图案代表不同方法，纵轴表示误报率。

由图3可以看出，本发明标示的柱状图对应的误报率位于现有5种方法标示的柱状图对应的误报率的下方，即本发明的误报率是这6种方法中最低的，表明本发明的异常检测的误报率低于现有的5种方法。

仿真实验3：比较本发明与现有5种方法的聚类时间。

用本发明和5种现有方法，分别计算仿真实验1中本发明的方法与5种现有方法的聚类时间，并将这6种方法聚类时间进行比较，结果如表1。

表1各方法的聚类时间

方法名称	聚类时间(s)	聚类时间由短至长排序
			贝叶斯模型方法	143	5
支持向量机模型方法	35	2
			最近邻模型方法	240	6
逻辑回归模型方法	104	4
			决策树模型方法	46	3
本发明方法	17	1

由表1可以看出，现有5种方法进行聚类的时间均较长，本发明进行聚类的时间较短，表明本发明的聚类时间快于现有的5种方法的聚类时间。

Claims

1.一种基于深度学习的流量数据异常检测方法，其特征在于，包括：

其中构成密度聚类模型的数据采集模块、距离计算模块、邻域计算模块的功能与参数设置如下：

所述数据采集模块：用于采集流量数据中的数据点{x_1i,x_2i，x_pi，…，x_Vi}和数据点值对{(x_1i，y_1i)，(x_2i，y_2i),(x_pi，y_pi)…,(x_Vi，y_Vi)}，其中x_pi为列属性为i的第p个数据点，p的取值范围为[1,V],其中V为列属性为i的数据点的个数，y_pi为列属性为i的第p个数据点对应的函数数据点；

所述距离计算模块：用于计算流量数据中每个数据点x_pi到其他数据点x_qi的距离d_i：

所述邻域计算模块：用于计算邻域半径：

其中，mean()为平均值函数，κ为领域常数，std()为方差函数；

其中的构成密度聚类模型中的阈值比较模块：用以完成选取数据点x_pi邻域半径内的数据点x_k，计算密度阈值h和领域阈值m，确定数据点x_pi的类别，其实现如下：

所述选取数据点x_pi邻域半径内的数据点x_k，是将数据点x_pi到其他数据点x_qi的距离d_i和领域半径ε进行比较，将数据点x_pi到其他数据点x_qi的距离d_i小于领域半径ε时的其他数据点x_qi选取为数据点x_pi邻域半径内的数据点x_k，否则，不选取当前的其他数据点x_qi为数据点x_pi邻域半径内的数据点x_k；

所述计算密度阈值h和领域阈值m，通过如下进行：

所述确定数据点x_pi的类别：是通过将邻域阈值m与密度阈值h进行比较来确定数据点x_pi的类别：

如果m≥h，则数据点x_pi为正常数据点x_ia；

如果0≤m<h且邻域内无正常数据点，则数据点x_pi为野值数据点x_ic；

其中构成密度聚类模型中的聚类修正模块，用以修正野值数据点x_ic为正常数据点，实现如下：

判断当前数据点x_pi是否为野值数据点x_ic：

若是，则从数据点值对(x_pi，y_pi)中获得该野值数据点对应的函数数据点y_pi，并对其利用最小二乘法多项式进行拟合修正，用野值数据点的估计函数数据点y′对野值数据点对应的函数数据点y_pi进行替代，得到替代后的估计函数数据点：y′＝ξ_o+ξ₁y₁+ξ₂y₂+...+ξ_ny_n，再将野值数据点x_ic的数据类型从野值数据点修改为正常数据点，得到修正后的正常数据点，其中，ξ为修正系数，ξ_n为修正系数的n阶分量，y_n为野值数据点的对应的函数数据点y_pi的n阶分量；

其中构成密度聚类模型中的聚类统计模块：用以将聚类修正模块得到的修正后的正常数据点、阈值比较模块中得到的正常数据点、阈值比较模块中得到的边界数据点组合；

E)训练神经网络：

2.根据权利要求1所述的方法，其特征在于，A)中对获取的流量数据依次进行数据清洗、标准变换，向量编码，是先对获取的流量数据的无效值和缺失值设置为0xoo的数据清洗处理，再添加空格进行分割，利用变换函数将其按照784节进行统一长度处理的标准变换处理，再映射到整数值，将其表示为二进制向量的向量编码处理，得到预处理后的流量数据。

3.根据权利要求1所述的方法，其特征在于，D)构建的神经网络，其各层结构、功能与参数设置如下：

所述输入层：采用512个输入神经单元级联组成；

所述长短时记忆单元层：采用从上至下的2个长短时记忆单元层级联组成，设置第一层长短时记忆单元节点个数为512，第二层长短时记忆单元节点个数为512，每个长短时记忆单元节点的遗忘门函数值f_t和记忆单元函数值g_t通过如下公式计算：

f_t＝σ(wg_t-1+wh_t-1+wx_t+r)，