CN110098944B

CN110098944B - 一种基于FP-Growth和RNN预测协议数据流量的方法

Info

Publication number: CN110098944B
Application number: CN201810084538.3A
Authority: CN
Inventors: 叶晓舟; 汪媛
Original assignee: Beijing Scv Technology Co ltd; Institute of Acoustics CAS
Current assignee: Zhengzhou Xinrand Network Technology Co ltd
Priority date: 2018-01-29
Filing date: 2018-01-29
Publication date: 2020-09-08
Anticipated expiration: 2038-01-29
Also published as: CN110098944A

Abstract

本发明公开了一种基于FP‑Growth和RNN的协议流量预测方法，包括如下步骤：步骤1)对若干个网络数据包进行预处理，分别统计协议的个数以及各个协议在m个时间段内的流量，根据流量变化情况生成若干个数据集合；基于这些数据集合通过FP‑Tree找出与需要预测的M个协议最相关的N个协议；针对需要预测的M个协议构建M个RNN模型，基于最相关的N个协议的采样数据构建训练集、测试集和验证集，训练M个RNN模型；步骤2)对实时接收的网络数据包进行预处理，构建步骤1)RNN模型的样本，将样本输入步骤1)训练的M个RNN模型，由此预测第m+1时刻的M个协议的流量。本发明的方法通过协议流量变化时间上的关联性，基于RNN模型预测协议流量变化，提高了流量预测的准确率。

Description

一种基于FP-Growth和RNN预测协议数据流量的方法

技术领域

本发明涉及计算机网络、网络安全和机器学习技术，具体涉及一种基于FP-Growth和RNN预测协议数据流量的方法。

背景技术

随着网络的飞速发展，安全问题日益突出，虽然已经采取了各种网络安全防护措施，但是单一的安全防护措施没有综合考虑各种防护措施之间的关联性，无法满足从宏观角度评估网络安全性的需求。网络安全态势感知的研究就是在这种背景下产生的。它在融合各种网络安全要素的基础上从宏观的角度实时评估网络的安全态势，并在一定条件下对网络安全态势的发展趋势进行预测。协议数据流量的变化与攻击之间存在紧密关系，网络攻击与协议数据流量的变化有紧密的关系，协议数据流量一般比较平稳，若发生异常变化时，通常伴随网络攻击；网络中有很多潜在的攻击，在安全产品的安全日志的是无法体现的，但是可以体现在流量的变化上；有的攻击可以躲过安全产品的检查，却无法躲过流量的变化。如果能够准确预测协议数据流量的变化，并与安全日志的预测融合在一起，可以获得较为准确的安全态势评估。

发明内容

本发明的目的在于为了能够准确预测协议数据流量的变化，考虑到各个协议之间的关联性，对协议之间进行关联分析(态势要素的理解)，通过FP-Growth找出协议间空间上相关联的，再通过RNN模型预测出协议流量的变化。

为了实现上述目的，本发明提供了一种基于FP-Growth和RNN预测协议数据流量的方法，一种基于FP-Tree和RNN的协议流量预测方法，包括如下步骤：

步骤1)对若干个网络数据包进行预处理，分别统计协议的个数以及各个协议在m+1个时间段内的流量，根据流量变化情况生成若干个数据集合；基于这些数据集合通过FP-Tree分别找出与需要预测的M个协议最相关的N个协议；针对需要预测的M个协议构建M个RNN模型，基于最相关的N个协议的采样数据构建训练集、测试集和验证集，训练M个RNN模型；

步骤2)对实时接收的网络数据包进行预处理，构建步骤1)训练完成的RNN模型的样本，将样本输入步骤1)训练的M个RNN模型，由此预测第m+1个时间段的M个协议的流量。

作为上述方法的一种改进，所述步骤1)具体包括：

步骤101)对接收到的若干个网络数据包进行预处理，统计解析出协议的个数n；

步骤102)分别统计每个协议在m+1个时间段内的流量[s₁₁，s₂₁，...，s_n1]，[s₁₂，s₂₂，...，s_n2]，…[s_1(m+1)，s_2(m+1)，...，s_n(m+1)]，并标记每个协议在第m+1个时间段内均值是否较第一个时间段内均值达到门限变化，生成数据集合L₁；

步骤103)选择不同的起始时间，重复步骤102)，得到z个数据集合L₁，记为L₂；

步骤104)基于集合L₂，通过构造FP-Tree找出与需要预测的协议最相关的N个协议；

步骤105)构建RNN模型，统计最相关的N个协议流量情况，最相关的N个协议包含所需预测的M个协议；构建训练集、测试集和验证集；训练M个RNN模型，得到网络参数，完成模型训练。

作为上述方法的一种改进，所述步骤102)具体为：

分别统计每个协议在m+1个时间段内的流量{[s₁₁，s₂₁，...，s_n1]，[s₁₂，s₂₂，...，s_n2]，...，[s_1(m+1)，s_2(m+1)，...，s_n(m+1)]}，并标记每个协议在第m+1时间段内均值是否较第一时间段内均值的变化达率到θ_n，θ_n即为第n个协议的门限值，若达到则记符号A，A为协议名称，并且放入集合L₁中。

作为上述方法的一种改进，所述步骤104)进一步包括：

步骤104-1)设置最小绝对支持度为sp，扫描L₂中数据记录，生成一级频繁项集L，并按出现次数由多到少排序[item1，item2...]；

步骤104-2)再次扫描数据记录，过滤不频繁集合，剩下的频繁项集按一级频繁项集L顺序排序；

步骤104-3)把每条数据的频繁项集插入到FP-Tree中，相同前缀的路径公用，这些前缀路径就是该item的条件模式基；同时增加一个header table，把FP-Tree中相同的项连接起来，进行降序排序；

步骤104-4)从header table的最下面的项开始，构造每个项的条件模式基，顺着header table中项的链表，找出所有包含该项的前缀路径，所有这些条件模式基(CPB)的频繁度为该路径上项的频繁度；

步骤104-5)累加每个CPB上的项的频繁度，过滤低于阈值的项，构建条件FP-Tree；

步骤104-6)递归的挖掘每个条件FP-tree，累加后缀频繁项集，直到找到FP-Tree为空或者FP-Tree只有一条路径；

步骤104-7)获取到所有频繁项集后，找到所需预测协议出现的项集，项集里出现的N个协议为最相关的N个协议。

作为上述方法的一种改进，所述步骤105)进一步包括：

步骤105-1)统计最相关的N个协议在m+1个时间段内的总流量，构造形如{[s₁₁，s₂₁，...，s_N1]，[s₁₂，s₂₂，...，s_N2]，...，[s_1m，s_2m，...，s_Nm]}的样本数T条，样本标签为需要预测的协议第m+1时间段相对于第m时间段的流量变化幅度对应的梯度标签；

步骤105-2)所需预测协议第m+1时间段相对于第m时间段的流量变化幅度为y，将当前时间段流量较上一时间段流量的变化率分为k个梯度，对应k种变化情况，变化梯度集合为{r₁，r₂，...，r_k}；

步骤105-3)选取不同的起始时间段，重复步骤105-1)及105-2)构造训练集，测试集和验证集；

步骤105-4)对于一个RNN模型，输入层有N个神经元，隐藏层激活函数为逻辑函数，隐藏层有w个神经元，输出层的激活函数为softmax，输出层有k个神经元，对应预测的k个流量变化结果；

步骤105-5)利用训练集，测试集和验证集的每一组数据训练一个协议的RNN模型，构建代价函数：

其中，s为样本的数目，k为分类的种类，x，y为样本对，{y⁽ⁱ⁾＝j}表示：y⁽ⁱ⁾的值为j时该表达式为1，其余时候为0，θ为特征向量；

通过反向传播算法，得到使目标函数最小化的参数值，模型训练完成。

本发明的优点在于：

1、由于协议之间是相关联的，本发明的方法获取到协议之间的相关性，对目标协议进行预测，提高了效率和准确率；

2、本发明的方法通过RNN网络预测协议流量变化，考虑协议流量变化时间上的关联性，提高了流量预测的准确率。

附图说明

图1为本发明的RNN模型训练的流程图。

具体实施方式

现结合附图和具体实施例对本发明做进一步的描述，我们将预测未来一小时内各个协议数据流量变化情况。

一种基于FP-Growth和RNN预测协议数据流量的方法，包括如下步骤：

步骤1)对若干个网络数据包进行预处理，分别统计协议的个数以及各个协议在m+1个时间段内的流量，根据流量变化情况生成若干个数据集合；基于这些数据集合通过FP-Tree找出与需要预测的M个协议最相关的N个协议；针对需要预测的M个协议构建M个RNN模型，基于最相关的N个协议的采样数据构建训练集、测试集和验证集，训练M个RNN模型；

如图1所示，所述步骤1)具体包括：

步骤101)对接收到的网络数据包进行预处理，统计各个协议个数为1500个；

步骤102)分别统计每个协议在m+1个时间段内的流量[s₁₁，s₂₁，...，s_n1]，[s₁₂，s₂₂，...，s_n2]，…[s_1(m+1)，s_2(m+1)，...，s_n(m+1)]，并标记每个协议在第m+1时间段内均值是否较第一时间段内均值达到门限变化，生成数据集合L₁；选择不同的起始时间段，重复上述过程，得到1000000条数据集合L₁，记为L₂；

步骤103)构造FP-Tree，找出与需要预测的协议最相关的N个协议；具体包括：

步骤103-1)设置最小绝对支持度为100，扫描L₂中数据记录，生成一级频繁项集L，并按出现次数由多到少排序[item1,item2...]；

步骤103-2)再次扫描数据记录，过滤不频繁集合，剩下的频繁项集按一级频繁项集L顺序排序；

步骤103-3)把每条数据的频繁项集插入到FP-Tree中，相同前缀的路径可以公用，这些前缀路径就是该item的条件模式基(CPB)；

步骤103-4)同时增加一个headertable，把FP-Tree中相同的项连接起来，降序排序；

步骤103-5)从header table的最下面的项开始，构造每个项的条件模式基，顺着headertable中项的链表，找出所有包含该项的前缀路径，所有这些CPB的频繁度(计数)为该路径上项的频繁度(计数)；

步骤103-6)累加每个CPB上的项的频繁度(计数)，过滤低于阈值的项，构建条件FP-Tree；

步骤103-7)递归的挖掘每个条件FP-tree，累加后缀频繁项集，直到找到FP-Tree为空或者FP-Tree只有一条路径；

步骤103-8)最终的到所有频繁项集后，找到所预测协议出现的项集，项集里出现的N个协议，为最相关的N个协议；如果所预测协议未在频繁项集中出现，则该协议为无相关协议；最相关的N个协议中包括需要预测的M个协议。

步骤104)构建M个RNN模型，处理协议成为可以训练的模式，训练M个RNN模型，得到模型参数，完成模型训练。

所述步骤104)进一步包括：

步骤104-1)统计所有协议在m+1个时间段内的总流量，构造形如{[s₁₁，s₂₁，...，s_N1]，[s₁₂，s₂₂，...，s_N2]，...，[s_1m，s_2m，...，s_Nm]}的样本数T条，其中sNm即表示第N个协议在第m时间段内总流量，样本标签为需要预测的协议第m+1时间段相对于第m时间段的流量变化幅度对应的梯度标签；其中s_Nm表示第N个协议在第m时间段内总流量；

步骤104-2)所要预测协议第m+1时间段相对于第m时间段的流量变化幅度为y，将当前时间段流量较上一时间段流量的变化率分为k个梯度，对应k种变化情况，变化梯度集合为{r₁，r₂，...，r_k}；

步骤104-3)选取不同的起始时间段，重复步骤104-1)及104-2)构造训练集，测试集和验证集；

步骤104-4)对于一个RNN模型，输入层有500个神经元，隐藏层激活函数为逻辑函数，隐藏层有1000个神经元，输出层的激活函数为softmax，输出层有20个神经元，对应预测的20个流量变化结果；

步骤104-5)每一组数据训练一个协议的RNN模型，构建代价函数：

其中，s为样本的数目，k为分类的种类，x，y为样本对，{y⁽ⁱ⁾＝j}表示当第i个y，y⁽ⁱ⁾的值为j时该表达式为1，其余时候为0，θ为特征向量，通过反向传播算法，得到使目标函数最小化的参数值，模型训练完成。

步骤2)对实时接收的网络数据包进行预处理，构建步骤1)训练完成的RNN模型的样本，将样本输入步骤1)训练的M个RNN模型，由此预测第m+1时间段的M个协议的流量。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于FP-Growth和RNN的协议流量预测方法，包括如下步骤：

步骤2)对实时接收的网络数据包进行预处理，构建步骤1)训练完成的RNN模型的样本，将样本输入步骤1)训练的M个RNN模型，由此预测第m+1个时间段的M个协议的流量；

所述步骤1)具体包括：

步骤102)分别统计每个协议在m+1个时间段内的流量[s₁₁,s₂₁,…,s_n1]，[s₁₂,s₂₂,…,s_n2]，…[s_1(m+1),s_2(m+1),…,s_n(m+1)]，并标记每个协议在第m+1个时间段内均值是否较第一个时间段内均值的变化达率达到θ_n，θ_n为第n个协议的门限值，若达到则记符号A，A为协议名称，并且放入集合L₁中，生成数据集合L₁；

步骤105)构建RNN模型，统计最相关的N个协议流量情况；构建训练集、测试集和验证集；训练M个RNN模型，得到网络参数，完成模型训练；

所述步骤104)进一步包括：

步骤104-1)设置最小绝对支持度为sp，扫描L₂中数据记录，生成一级频繁项集L，并按出现次数由多到少排序[item1,item2…]；

步骤104-7)获取到所有频繁项集后，找到所需预测协议出现的项集，项集里出现的N个协议为最相关的N个协议；

所述步骤105)进一步包括：

步骤105-1)统计最相关的N个协议在m+1个时间段内的总流量，构造形如{[s₁₁,s₂₁,…,s_N1],[s₁₂,s₂₂,…,s_N2],…,[s_1m,s_2m,…,s_Nm]}的样本数T条，样本标签为需要预测的协议第m+1时间段相对于第m时间段的流量变化幅度对应的梯度标签；

步骤105-2)所需预测协议第m+1时间段相对于第m时间段的流量变化幅度为y，将当前时间段流量较上一时间段流量的变化率分为k个梯度，对应k种变化情况，变化梯度集合为{r₁,r₂,…,r_k}；

其中，s为样本的数目，k为分类的种类，x,y为样本对，{y⁽ⁱ⁾＝j}表示：y⁽ⁱ⁾的值为j时该表达式为1，其余时候为0，θ为权重矩阵，向量；第i个样本的特征通过反向传播算法，得到使目标函数最小化的参数值，模型训练完成。