CN110098944B - 一种基于FP-Growth和RNN预测协议数据流量的方法 - Google Patents
一种基于FP-Growth和RNN预测协议数据流量的方法 Download PDFInfo
- Publication number
- CN110098944B CN110098944B CN201810084538.3A CN201810084538A CN110098944B CN 110098944 B CN110098944 B CN 110098944B CN 201810084538 A CN201810084538 A CN 201810084538A CN 110098944 B CN110098944 B CN 110098944B
- Authority
- CN
- China
- Prior art keywords
- protocols
- protocol
- flow
- rnn
- time period
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/147—Network analysis or design for predicting network behaviour
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
Abstract
本发明公开了一种基于FP‑Growth和RNN的协议流量预测方法,包括如下步骤:步骤1)对若干个网络数据包进行预处理,分别统计协议的个数以及各个协议在m个时间段内的流量,根据流量变化情况生成若干个数据集合;基于这些数据集合通过FP‑Tree找出与需要预测的M个协议最相关的N个协议;针对需要预测的M个协议构建M个RNN模型,基于最相关的N个协议的采样数据构建训练集、测试集和验证集,训练M个RNN模型;步骤2)对实时接收的网络数据包进行预处理,构建步骤1)RNN模型的样本,将样本输入步骤1)训练的M个RNN模型,由此预测第m+1时刻的M个协议的流量。本发明的方法通过协议流量变化时间上的关联性,基于RNN模型预测协议流量变化,提高了流量预测的准确率。
Description
技术领域
本发明涉及计算机网络、网络安全和机器学习技术,具体涉及一种基于FP-Growth和RNN预测协议数据流量的方法。
背景技术
随着网络的飞速发展,安全问题日益突出,虽然已经采取了各种网络安全防护措施,但是单一的安全防护措施没有综合考虑各种防护措施之间的关联性,无法满足从宏观角度评估网络安全性的需求。网络安全态势感知的研究就是在这种背景下产生的。它在融合各种网络安全要素的基础上从宏观的角度实时评估网络的安全态势,并在一定条件下对网络安全态势的发展趋势进行预测。协议数据流量的变化与攻击之间存在紧密关系,网络攻击与协议数据流量的变化有紧密的关系,协议数据流量一般比较平稳,若发生异常变化时,通常伴随网络攻击;网络中有很多潜在的攻击,在安全产品的安全日志的是无法体现的,但是可以体现在流量的变化上;有的攻击可以躲过安全产品的检查,却无法躲过流量的变化。如果能够准确预测协议数据流量的变化,并与安全日志的预测融合在一起,可以获得较为准确的安全态势评估。
发明内容
本发明的目的在于为了能够准确预测协议数据流量的变化,考虑到各个协议之间的关联性,对协议之间进行关联分析(态势要素的理解),通过FP-Growth找出协议间空间上相关联的,再通过RNN模型预测出协议流量的变化。
为了实现上述目的,本发明提供了一种基于FP-Growth和RNN预测协议数据流量的方法,一种基于FP-Tree和RNN的协议流量预测方法,包括如下步骤:
步骤1)对若干个网络数据包进行预处理,分别统计协议的个数以及各个协议在m+1个时间段内的流量,根据流量变化情况生成若干个数据集合;基于这些数据集合通过FP-Tree分别找出与需要预测的M个协议最相关的N个协议;针对需要预测的M个协议构建M个RNN模型,基于最相关的N个协议的采样数据构建训练集、测试集和验证集,训练M个RNN模型;
步骤2)对实时接收的网络数据包进行预处理,构建步骤1)训练完成的RNN模型的样本,将样本输入步骤1)训练的M个RNN模型,由此预测第m+1个时间段的M个协议的流量。
作为上述方法的一种改进,所述步骤1)具体包括:
步骤101)对接收到的若干个网络数据包进行预处理,统计解析出协议的个数n;
步骤102)分别统计每个协议在m+1个时间段内的流量[s11,s21,...,sn1],[s12,s22,...,sn2],…[s1(m+1),s2(m+1),...,sn(m+1)],并标记每个协议在第m+1个时间段内均值是否较第一个时间段内均值达到门限变化,生成数据集合L1;
步骤103)选择不同的起始时间,重复步骤102),得到z个数据集合L1,记为L2;
步骤104)基于集合L2,通过构造FP-Tree找出与需要预测的协议最相关的N个协议;
步骤105)构建RNN模型,统计最相关的N个协议流量情况,最相关的N个协议包含所需预测的M个协议;构建训练集、测试集和验证集;训练M个RNN模型,得到网络参数,完成模型训练。
作为上述方法的一种改进,所述步骤102)具体为:
分别统计每个协议在m+1个时间段内的流量{[s11,s21,...,sn1],[s12,s22,...,sn2],...,[s1(m+1),s2(m+1),...,sn(m+1)]},并标记每个协议在第m+1时间段内均值是否较第一时间段内均值的变化达率到θn,θn即为第n个协议的门限值,若达到则记符号A,A为协议名称,并且放入集合L1中。
作为上述方法的一种改进,所述步骤104)进一步包括:
步骤104-1)设置最小绝对支持度为sp,扫描L2中数据记录,生成一级频繁项集L,并按出现次数由多到少排序[item1,item2...];
步骤104-2)再次扫描数据记录,过滤不频繁集合,剩下的频繁项集按一级频繁项集L顺序排序;
步骤104-3)把每条数据的频繁项集插入到FP-Tree中,相同前缀的路径公用,这些前缀路径就是该item的条件模式基;同时增加一个header table,把FP-Tree中相同的项连接起来,进行降序排序;
步骤104-4)从header table的最下面的项开始,构造每个项的条件模式基,顺着header table中项的链表,找出所有包含该项的前缀路径,所有这些条件模式基(CPB)的频繁度为该路径上项的频繁度;
步骤104-5)累加每个CPB上的项的频繁度,过滤低于阈值的项,构建条件FP-Tree;
步骤104-6)递归的挖掘每个条件FP-tree,累加后缀频繁项集,直到找到FP-Tree为空或者FP-Tree只有一条路径;
步骤104-7)获取到所有频繁项集后,找到所需预测协议出现的项集,项集里出现的N个协议为最相关的N个协议。
作为上述方法的一种改进,所述步骤105)进一步包括:
步骤105-1)统计最相关的N个协议在m+1个时间段内的总流量,构造形如{[s11,s21,...,sN1],[s12,s22,...,sN2],...,[s1m,s2m,...,sNm]}的样本数T条,样本标签为需要预测的协议第m+1时间段相对于第m时间段的流量变化幅度对应的梯度标签;
步骤105-2)所需预测协议第m+1时间段相对于第m时间段的流量变化幅度为y,将当前时间段流量较上一时间段流量的变化率分为k个梯度,对应k种变化情况,变化梯度集合为{r1,r2,...,rk};
步骤105-3)选取不同的起始时间段,重复步骤105-1)及105-2)构造训练集,测试集和验证集;
步骤105-4)对于一个RNN模型,输入层有N个神经元,隐藏层激活函数为逻辑函数,隐藏层有w个神经元,输出层的激活函数为softmax,输出层有k个神经元,对应预测的k个流量变化结果;
步骤105-5)利用训练集,测试集和验证集的每一组数据训练一个协议的RNN模型,构建代价函数:
其中,s为样本的数目,k为分类的种类,x,y为样本对,{y(i)=j}表示:y(i)的值为j时该表达式为1,其余时候为0,θ为特征向量;
通过反向传播算法,得到使目标函数最小化的参数值,模型训练完成。
本发明的优点在于:
1、由于协议之间是相关联的,本发明的方法获取到协议之间的相关性,对目标协议进行预测,提高了效率和准确率;
2、本发明的方法通过RNN网络预测协议流量变化,考虑协议流量变化时间上的关联性,提高了流量预测的准确率。
附图说明
图1为本发明的RNN模型训练的流程图。
具体实施方式
现结合附图和具体实施例对本发明做进一步的描述,我们将预测未来一小时内各个协议数据流量变化情况。
一种基于FP-Growth和RNN预测协议数据流量的方法,包括如下步骤:
步骤1)对若干个网络数据包进行预处理,分别统计协议的个数以及各个协议在m+1个时间段内的流量,根据流量变化情况生成若干个数据集合;基于这些数据集合通过FP-Tree找出与需要预测的M个协议最相关的N个协议;针对需要预测的M个协议构建M个RNN模型,基于最相关的N个协议的采样数据构建训练集、测试集和验证集,训练M个RNN模型;
如图1所示,所述步骤1)具体包括:
步骤101)对接收到的网络数据包进行预处理,统计各个协议个数为1500个;
步骤102)分别统计每个协议在m+1个时间段内的流量[s11,s21,...,sn1],[s12,s22,...,sn2],…[s1(m+1),s2(m+1),...,sn(m+1)],并标记每个协议在第m+1时间段内均值是否较第一时间段内均值达到门限变化,生成数据集合L1;选择不同的起始时间段,重复上述过程,得到1000000条数据集合L1,记为L2;
步骤103)构造FP-Tree,找出与需要预测的协议最相关的N个协议;具体包括:
步骤103-1)设置最小绝对支持度为100,扫描L2中数据记录,生成一级频繁项集L,并按出现次数由多到少排序[item1,item2...];
步骤103-2)再次扫描数据记录,过滤不频繁集合,剩下的频繁项集按一级频繁项集L顺序排序;
步骤103-3)把每条数据的频繁项集插入到FP-Tree中,相同前缀的路径可以公用,这些前缀路径就是该item的条件模式基(CPB);
步骤103-4)同时增加一个headertable,把FP-Tree中相同的项连接起来,降序排序;
步骤103-5)从header table的最下面的项开始,构造每个项的条件模式基,顺着headertable中项的链表,找出所有包含该项的前缀路径,所有这些CPB的频繁度(计数)为该路径上项的频繁度(计数);
步骤103-6)累加每个CPB上的项的频繁度(计数),过滤低于阈值的项,构建条件FP-Tree;
步骤103-7)递归的挖掘每个条件FP-tree,累加后缀频繁项集,直到找到FP-Tree为空或者FP-Tree只有一条路径;
步骤103-8)最终的到所有频繁项集后,找到所预测协议出现的项集,项集里出现的N个协议,为最相关的N个协议;如果所预测协议未在频繁项集中出现,则该协议为无相关协议;最相关的N个协议中包括需要预测的M个协议。
步骤104)构建M个RNN模型,处理协议成为可以训练的模式,训练M个RNN模型,得到模型参数,完成模型训练。
所述步骤104)进一步包括:
步骤104-1)统计所有协议在m+1个时间段内的总流量,构造形如{[s11,s21,...,sN1],[s12,s22,...,sN2],...,[s1m,s2m,...,sNm]}的样本数T条,其中sNm即表示第N个协议在第m时间段内总流量,样本标签为需要预测的协议第m+1时间段相对于第m时间段的流量变化幅度对应的梯度标签;其中sNm表示第N个协议在第m时间段内总流量;
步骤104-2)所要预测协议第m+1时间段相对于第m时间段的流量变化幅度为y,将当前时间段流量较上一时间段流量的变化率分为k个梯度,对应k种变化情况,变化梯度集合为{r1,r2,...,rk};
步骤104-3)选取不同的起始时间段,重复步骤104-1)及104-2)构造训练集,测试集和验证集;
步骤104-4)对于一个RNN模型,输入层有500个神经元,隐藏层激活函数为逻辑函数,隐藏层有1000个神经元,输出层的激活函数为softmax,输出层有20个神经元,对应预测的20个流量变化结果;
步骤104-5)每一组数据训练一个协议的RNN模型,构建代价函数:
其中,s为样本的数目,k为分类的种类,x,y为样本对,{y(i)=j}表示当第i个y,y(i)的值为j时该表达式为1,其余时候为0,θ为特征向量,通过反向传播算法,得到使目标函数最小化的参数值,模型训练完成。
步骤2)对实时接收的网络数据包进行预处理,构建步骤1)训练完成的RNN模型的样本,将样本输入步骤1)训练的M个RNN模型,由此预测第m+1时间段的M个协议的流量。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (1)
1.一种基于FP-Growth和RNN的协议流量预测方法,包括如下步骤:
步骤1)对若干个网络数据包进行预处理,分别统计协议的个数以及各个协议在m+1个时间段内的流量,根据流量变化情况生成若干个数据集合;基于这些数据集合通过FP-Tree分别找出与需要预测的M个协议最相关的N个协议;针对需要预测的M个协议构建M个RNN模型,基于最相关的N个协议的采样数据构建训练集、测试集和验证集,训练M个RNN模型;
步骤2)对实时接收的网络数据包进行预处理,构建步骤1)训练完成的RNN模型的样本,将样本输入步骤1)训练的M个RNN模型,由此预测第m+1个时间段的M个协议的流量;
所述步骤1)具体包括:
步骤101)对接收到的若干个网络数据包进行预处理,统计解析出协议的个数n;
步骤102)分别统计每个协议在m+1个时间段内的流量[s11,s21,…,sn1],[s12,s22,…,sn2],…[s1(m+1),s2(m+1),…,sn(m+1)],并标记每个协议在第m+1个时间段内均值是否较第一个时间段内均值的变化达率达到θn,θn为第n个协议的门限值,若达到则记符号A,A为协议名称,并且放入集合L1中,生成数据集合L1;
步骤103)选择不同的起始时间,重复步骤102),得到z个数据集合L1,记为L2;
步骤104)基于集合L2,通过构造FP-Tree找出与需要预测的协议最相关的N个协议;
步骤105)构建RNN模型,统计最相关的N个协议流量情况;构建训练集、测试集和验证集;训练M个RNN模型,得到网络参数,完成模型训练;
所述步骤104)进一步包括:
步骤104-1)设置最小绝对支持度为sp,扫描L2中数据记录,生成一级频繁项集L,并按出现次数由多到少排序[item1,item2…];
步骤104-2)再次扫描数据记录,过滤不频繁集合,剩下的频繁项集按一级频繁项集L顺序排序;
步骤104-3)把每条数据的频繁项集插入到FP-Tree中,相同前缀的路径公用,这些前缀路径就是该item的条件模式基;同时增加一个header table,把FP-Tree中相同的项连接起来,进行降序排序;
步骤104-4)从header table的最下面的项开始,构造每个项的条件模式基,顺着header table中项的链表,找出所有包含该项的前缀路径,所有这些条件模式基(CPB)的频繁度为该路径上项的频繁度;
步骤104-5)累加每个CPB上的项的频繁度,过滤低于阈值的项,构建条件FP-Tree;
步骤104-6)递归的挖掘每个条件FP-tree,累加后缀频繁项集,直到找到FP-Tree为空或者FP-Tree只有一条路径;
步骤104-7)获取到所有频繁项集后,找到所需预测协议出现的项集,项集里出现的N个协议为最相关的N个协议;
所述步骤105)进一步包括:
步骤105-1)统计最相关的N个协议在m+1个时间段内的总流量,构造形如{[s11,s21,…,sN1],[s12,s22,…,sN2],…,[s1m,s2m,…,sNm]}的样本数T条,样本标签为需要预测的协议第m+1时间段相对于第m时间段的流量变化幅度对应的梯度标签;
步骤105-2)所需预测协议第m+1时间段相对于第m时间段的流量变化幅度为y,将当前时间段流量较上一时间段流量的变化率分为k个梯度,对应k种变化情况,变化梯度集合为{r1,r2,…,rk};
步骤105-3)选取不同的起始时间段,重复步骤105-1)及105-2)构造训练集,测试集和验证集;
步骤105-4)对于一个RNN模型,输入层有N个神经元,隐藏层激活函数为逻辑函数,隐藏层有w个神经元,输出层的激活函数为softmax,输出层有k个神经元,对应预测的k个流量变化结果;
步骤105-5)利用训练集,测试集和验证集的每一组数据训练一个协议的RNN模型,构建代价函数:
其中,s为样本的数目,k为分类的种类,x,y为样本对,{y(i)=j}表示:y(i)的值为j时该表达式为1,其余时候为0,θ为权重矩阵,向量;第i个样本的特征通过反向传播算法,得到使目标函数最小化的参数值,模型训练完成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810084538.3A CN110098944B (zh) | 2018-01-29 | 2018-01-29 | 一种基于FP-Growth和RNN预测协议数据流量的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810084538.3A CN110098944B (zh) | 2018-01-29 | 2018-01-29 | 一种基于FP-Growth和RNN预测协议数据流量的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110098944A CN110098944A (zh) | 2019-08-06 |
CN110098944B true CN110098944B (zh) | 2020-09-08 |
Family
ID=67441862
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810084538.3A Active CN110098944B (zh) | 2018-01-29 | 2018-01-29 | 一种基于FP-Growth和RNN预测协议数据流量的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110098944B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111314242B (zh) * | 2020-01-20 | 2022-05-13 | 烽火通信科技股份有限公司 | 一种支持多通道的包缓存调度仿真验证方法及系统 |
CN110995769B (zh) * | 2020-02-27 | 2020-06-05 | 上海飞旗网络技术股份有限公司 | 深度数据包检测方法及装置 |
CN116074127B (zh) * | 2023-04-03 | 2023-07-04 | 成都工业职业技术学院 | 一种基于大数据的自适应网络安全态势评估系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103747477A (zh) * | 2014-01-15 | 2014-04-23 | 广州杰赛科技股份有限公司 | 网络流量分析与预测方法和装置 |
CN104464291A (zh) * | 2014-12-08 | 2015-03-25 | 杭州智诚惠通科技有限公司 | 一种交通流量预测方法和系统 |
CN106875684A (zh) * | 2017-04-01 | 2017-06-20 | 广东石油化工学院 | 基于大规模动态语义图的交通流量预测算法 |
CN107103758A (zh) * | 2017-06-08 | 2017-08-29 | 厦门大学 | 一种基于深度学习的城市区域交通流量预测方法 |
CN107154150A (zh) * | 2017-07-25 | 2017-09-12 | 北京航空航天大学 | 一种基于道路聚类和双层双向lstm的交通流量预测方法 |
-
2018
- 2018-01-29 CN CN201810084538.3A patent/CN110098944B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103747477A (zh) * | 2014-01-15 | 2014-04-23 | 广州杰赛科技股份有限公司 | 网络流量分析与预测方法和装置 |
CN104464291A (zh) * | 2014-12-08 | 2015-03-25 | 杭州智诚惠通科技有限公司 | 一种交通流量预测方法和系统 |
CN106875684A (zh) * | 2017-04-01 | 2017-06-20 | 广东石油化工学院 | 基于大规模动态语义图的交通流量预测算法 |
CN107103758A (zh) * | 2017-06-08 | 2017-08-29 | 厦门大学 | 一种基于深度学习的城市区域交通流量预测方法 |
CN107154150A (zh) * | 2017-07-25 | 2017-09-12 | 北京航空航天大学 | 一种基于道路聚类和双层双向lstm的交通流量预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110098944A (zh) | 2019-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110098944B (zh) | 一种基于FP-Growth和RNN预测协议数据流量的方法 | |
CN102265227B (zh) | 用于在机器状况监视中创建状态估计模型的方法和设备 | |
Sun et al. | Quantifying variable interactions in continuous optimization problems | |
CN107645503A (zh) | 一种基于规则的恶意域名所属dga家族的检测方法 | |
Huelsenbeck et al. | Do phylogenetic methods produce trees with biased shapes? | |
CN108809989B (zh) | 一种僵尸网络的检测方法及装置 | |
CN110213124A (zh) | 基于tcp多会话的被动操作系统识别方法及装置 | |
CN109558952A (zh) | 数据处理方法、系统、设备及存储介质 | |
Ponti et al. | A Wasserstein distance based multiobjective evolutionary algorithm for the risk aware optimization of sensor placement | |
CN111047173A (zh) | 基于改进d-s证据理论的社团可信度评估方法 | |
Fischer et al. | A methodology for neural spatial interaction modelling | |
EP4169223A1 (en) | Method and apparatus to detect scripted network traffic | |
Roy et al. | Deep predictive coverage collection | |
Zhang et al. | Neural network weights do not converge to stationary points: An invariant measure perspective | |
CN106156107A (zh) | 一种新闻热点的发现方法 | |
CN110191081A (zh) | 基于学习自动机的网络流量攻击检测的特征筛选系统及方法 | |
CN113889274B (zh) | 一种孤独症谱系障碍的风险预测模型构建方法及装置 | |
CN117335998A (zh) | 基于行为模式异常检测中样本平衡方法以及装置 | |
CN108053093A (zh) | 一种基于平均影响值数据变换的k-近邻故障诊断方法 | |
CN112416789B (zh) | 一种面向演化软件的过程度量元评价方法 | |
CN113807453B (zh) | 基于加权概率融合并行贝叶斯网络的异常行为检测方法 | |
CN117792933B (zh) | 一种基于深度学习的网络流量优化方法及系统 | |
CN112183576B (zh) | 一种基于不均衡数据集的Time-LSTM分类方法 | |
CN117319258A (zh) | EdgeX的节点异常检测方法、装置、设备及存储介质 | |
Gioacchini | Automatic Detection of Coordinated Events in Darknet Traffic |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230731 Address after: 450000 Ximei building, No. 6, Changchun Road, high tech Industrial Development Zone, Zhengzhou City, Henan Province Patentee after: Zhengzhou xinrand Network Technology Co.,Ltd. Address before: 100190, No. 21 West Fourth Ring Road, Beijing, Haidian District Patentee before: INSTITUTE OF ACOUSTICS, CHINESE ACADEMY OF SCIENCES Patentee before: BEIJING SCV TECHNOLOGY Co.,Ltd. |
|
TR01 | Transfer of patent right |