CN110098944B - 一种基于FP-Growth和RNN预测协议数据流量的方法 - Google Patents

一种基于FP-Growth和RNN预测协议数据流量的方法 Download PDF

Info

Publication number
CN110098944B
CN110098944B CN201810084538.3A CN201810084538A CN110098944B CN 110098944 B CN110098944 B CN 110098944B CN 201810084538 A CN201810084538 A CN 201810084538A CN 110098944 B CN110098944 B CN 110098944B
Authority
CN
China
Prior art keywords
protocols
protocol
flow
rnn
time period
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810084538.3A
Other languages
English (en)
Other versions
CN110098944A (zh
Inventor
叶晓舟
汪媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Xinrand Network Technology Co ltd
Original Assignee
Beijing Scv Technology Co ltd
Institute of Acoustics CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Scv Technology Co ltd, Institute of Acoustics CAS filed Critical Beijing Scv Technology Co ltd
Priority to CN201810084538.3A priority Critical patent/CN110098944B/zh
Publication of CN110098944A publication Critical patent/CN110098944A/zh
Application granted granted Critical
Publication of CN110098944B publication Critical patent/CN110098944B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection

Abstract

本发明公开了一种基于FP‑Growth和RNN的协议流量预测方法,包括如下步骤:步骤1)对若干个网络数据包进行预处理,分别统计协议的个数以及各个协议在m个时间段内的流量,根据流量变化情况生成若干个数据集合;基于这些数据集合通过FP‑Tree找出与需要预测的M个协议最相关的N个协议;针对需要预测的M个协议构建M个RNN模型,基于最相关的N个协议的采样数据构建训练集、测试集和验证集,训练M个RNN模型;步骤2)对实时接收的网络数据包进行预处理,构建步骤1)RNN模型的样本,将样本输入步骤1)训练的M个RNN模型,由此预测第m+1时刻的M个协议的流量。本发明的方法通过协议流量变化时间上的关联性,基于RNN模型预测协议流量变化,提高了流量预测的准确率。

Description

一种基于FP-Growth和RNN预测协议数据流量的方法
技术领域
本发明涉及计算机网络、网络安全和机器学习技术,具体涉及一种基于FP-Growth和RNN预测协议数据流量的方法。
背景技术
随着网络的飞速发展,安全问题日益突出,虽然已经采取了各种网络安全防护措施,但是单一的安全防护措施没有综合考虑各种防护措施之间的关联性,无法满足从宏观角度评估网络安全性的需求。网络安全态势感知的研究就是在这种背景下产生的。它在融合各种网络安全要素的基础上从宏观的角度实时评估网络的安全态势,并在一定条件下对网络安全态势的发展趋势进行预测。协议数据流量的变化与攻击之间存在紧密关系,网络攻击与协议数据流量的变化有紧密的关系,协议数据流量一般比较平稳,若发生异常变化时,通常伴随网络攻击;网络中有很多潜在的攻击,在安全产品的安全日志的是无法体现的,但是可以体现在流量的变化上;有的攻击可以躲过安全产品的检查,却无法躲过流量的变化。如果能够准确预测协议数据流量的变化,并与安全日志的预测融合在一起,可以获得较为准确的安全态势评估。
发明内容
本发明的目的在于为了能够准确预测协议数据流量的变化,考虑到各个协议之间的关联性,对协议之间进行关联分析(态势要素的理解),通过FP-Growth找出协议间空间上相关联的,再通过RNN模型预测出协议流量的变化。
为了实现上述目的,本发明提供了一种基于FP-Growth和RNN预测协议数据流量的方法,一种基于FP-Tree和RNN的协议流量预测方法,包括如下步骤:
步骤1)对若干个网络数据包进行预处理,分别统计协议的个数以及各个协议在m+1个时间段内的流量,根据流量变化情况生成若干个数据集合;基于这些数据集合通过FP-Tree分别找出与需要预测的M个协议最相关的N个协议;针对需要预测的M个协议构建M个RNN模型,基于最相关的N个协议的采样数据构建训练集、测试集和验证集,训练M个RNN模型;
步骤2)对实时接收的网络数据包进行预处理,构建步骤1)训练完成的RNN模型的样本,将样本输入步骤1)训练的M个RNN模型,由此预测第m+1个时间段的M个协议的流量。
作为上述方法的一种改进,所述步骤1)具体包括:
步骤101)对接收到的若干个网络数据包进行预处理,统计解析出协议的个数n;
步骤102)分别统计每个协议在m+1个时间段内的流量[s11,s21,...,sn1],[s12,s22,...,sn2],…[s1(m+1),s2(m+1),...,sn(m+1)],并标记每个协议在第m+1个时间段内均值是否较第一个时间段内均值达到门限变化,生成数据集合L1
步骤103)选择不同的起始时间,重复步骤102),得到z个数据集合L1,记为L2
步骤104)基于集合L2,通过构造FP-Tree找出与需要预测的协议最相关的N个协议;
步骤105)构建RNN模型,统计最相关的N个协议流量情况,最相关的N个协议包含所需预测的M个协议;构建训练集、测试集和验证集;训练M个RNN模型,得到网络参数,完成模型训练。
作为上述方法的一种改进,所述步骤102)具体为:
分别统计每个协议在m+1个时间段内的流量{[s11,s21,...,sn1],[s12,s22,...,sn2],...,[s1(m+1),s2(m+1),...,sn(m+1)]},并标记每个协议在第m+1时间段内均值是否较第一时间段内均值的变化达率到θn,θn即为第n个协议的门限值,若达到则记符号A,A为协议名称,并且放入集合L1中。
作为上述方法的一种改进,所述步骤104)进一步包括:
步骤104-1)设置最小绝对支持度为sp,扫描L2中数据记录,生成一级频繁项集L,并按出现次数由多到少排序[item1,item2...];
步骤104-2)再次扫描数据记录,过滤不频繁集合,剩下的频繁项集按一级频繁项集L顺序排序;
步骤104-3)把每条数据的频繁项集插入到FP-Tree中,相同前缀的路径公用,这些前缀路径就是该item的条件模式基;同时增加一个header table,把FP-Tree中相同的项连接起来,进行降序排序;
步骤104-4)从header table的最下面的项开始,构造每个项的条件模式基,顺着header table中项的链表,找出所有包含该项的前缀路径,所有这些条件模式基(CPB)的频繁度为该路径上项的频繁度;
步骤104-5)累加每个CPB上的项的频繁度,过滤低于阈值的项,构建条件FP-Tree;
步骤104-6)递归的挖掘每个条件FP-tree,累加后缀频繁项集,直到找到FP-Tree为空或者FP-Tree只有一条路径;
步骤104-7)获取到所有频繁项集后,找到所需预测协议出现的项集,项集里出现的N个协议为最相关的N个协议。
作为上述方法的一种改进,所述步骤105)进一步包括:
步骤105-1)统计最相关的N个协议在m+1个时间段内的总流量,构造形如{[s11,s21,...,sN1],[s12,s22,...,sN2],...,[s1m,s2m,...,sNm]}的样本数T条,样本标签为需要预测的协议第m+1时间段相对于第m时间段的流量变化幅度对应的梯度标签;
步骤105-2)所需预测协议第m+1时间段相对于第m时间段的流量变化幅度为y,将当前时间段流量较上一时间段流量的变化率分为k个梯度,对应k种变化情况,变化梯度集合为{r1,r2,...,rk};
步骤105-3)选取不同的起始时间段,重复步骤105-1)及105-2)构造训练集,测试集和验证集;
步骤105-4)对于一个RNN模型,输入层有N个神经元,隐藏层激活函数为逻辑函数,隐藏层有w个神经元,输出层的激活函数为softmax,输出层有k个神经元,对应预测的k个流量变化结果;
步骤105-5)利用训练集,测试集和验证集的每一组数据训练一个协议的RNN模型,构建代价函数:
Figure GDA0002526175200000031
其中,s为样本的数目,k为分类的种类,x,y为样本对,{y(i)=j}表示:y(i)的值为j时该表达式为1,其余时候为0,θ为特征向量;
通过反向传播算法,得到使目标函数最小化的参数值,模型训练完成。
本发明的优点在于:
1、由于协议之间是相关联的,本发明的方法获取到协议之间的相关性,对目标协议进行预测,提高了效率和准确率;
2、本发明的方法通过RNN网络预测协议流量变化,考虑协议流量变化时间上的关联性,提高了流量预测的准确率。
附图说明
图1为本发明的RNN模型训练的流程图。
具体实施方式
现结合附图和具体实施例对本发明做进一步的描述,我们将预测未来一小时内各个协议数据流量变化情况。
一种基于FP-Growth和RNN预测协议数据流量的方法,包括如下步骤:
步骤1)对若干个网络数据包进行预处理,分别统计协议的个数以及各个协议在m+1个时间段内的流量,根据流量变化情况生成若干个数据集合;基于这些数据集合通过FP-Tree找出与需要预测的M个协议最相关的N个协议;针对需要预测的M个协议构建M个RNN模型,基于最相关的N个协议的采样数据构建训练集、测试集和验证集,训练M个RNN模型;
如图1所示,所述步骤1)具体包括:
步骤101)对接收到的网络数据包进行预处理,统计各个协议个数为1500个;
步骤102)分别统计每个协议在m+1个时间段内的流量[s11,s21,...,sn1],[s12,s22,...,sn2],…[s1(m+1),s2(m+1),...,sn(m+1)],并标记每个协议在第m+1时间段内均值是否较第一时间段内均值达到门限变化,生成数据集合L1;选择不同的起始时间段,重复上述过程,得到1000000条数据集合L1,记为L2
步骤103)构造FP-Tree,找出与需要预测的协议最相关的N个协议;具体包括:
步骤103-1)设置最小绝对支持度为100,扫描L2中数据记录,生成一级频繁项集L,并按出现次数由多到少排序[item1,item2...];
步骤103-2)再次扫描数据记录,过滤不频繁集合,剩下的频繁项集按一级频繁项集L顺序排序;
步骤103-3)把每条数据的频繁项集插入到FP-Tree中,相同前缀的路径可以公用,这些前缀路径就是该item的条件模式基(CPB);
步骤103-4)同时增加一个headertable,把FP-Tree中相同的项连接起来,降序排序;
步骤103-5)从header table的最下面的项开始,构造每个项的条件模式基,顺着headertable中项的链表,找出所有包含该项的前缀路径,所有这些CPB的频繁度(计数)为该路径上项的频繁度(计数);
步骤103-6)累加每个CPB上的项的频繁度(计数),过滤低于阈值的项,构建条件FP-Tree;
步骤103-7)递归的挖掘每个条件FP-tree,累加后缀频繁项集,直到找到FP-Tree为空或者FP-Tree只有一条路径;
步骤103-8)最终的到所有频繁项集后,找到所预测协议出现的项集,项集里出现的N个协议,为最相关的N个协议;如果所预测协议未在频繁项集中出现,则该协议为无相关协议;最相关的N个协议中包括需要预测的M个协议。
步骤104)构建M个RNN模型,处理协议成为可以训练的模式,训练M个RNN模型,得到模型参数,完成模型训练。
所述步骤104)进一步包括:
步骤104-1)统计所有协议在m+1个时间段内的总流量,构造形如{[s11,s21,...,sN1],[s12,s22,...,sN2],...,[s1m,s2m,...,sNm]}的样本数T条,其中sNm即表示第N个协议在第m时间段内总流量,样本标签为需要预测的协议第m+1时间段相对于第m时间段的流量变化幅度对应的梯度标签;其中sNm表示第N个协议在第m时间段内总流量;
步骤104-2)所要预测协议第m+1时间段相对于第m时间段的流量变化幅度为y,将当前时间段流量较上一时间段流量的变化率分为k个梯度,对应k种变化情况,变化梯度集合为{r1,r2,...,rk};
步骤104-3)选取不同的起始时间段,重复步骤104-1)及104-2)构造训练集,测试集和验证集;
步骤104-4)对于一个RNN模型,输入层有500个神经元,隐藏层激活函数为逻辑函数,隐藏层有1000个神经元,输出层的激活函数为softmax,输出层有20个神经元,对应预测的20个流量变化结果;
步骤104-5)每一组数据训练一个协议的RNN模型,构建代价函数:
Figure GDA0002526175200000051
其中,s为样本的数目,k为分类的种类,x,y为样本对,{y(i)=j}表示当第i个y,y(i)的值为j时该表达式为1,其余时候为0,θ为特征向量,通过反向传播算法,得到使目标函数最小化的参数值,模型训练完成。
步骤2)对实时接收的网络数据包进行预处理,构建步骤1)训练完成的RNN模型的样本,将样本输入步骤1)训练的M个RNN模型,由此预测第m+1时间段的M个协议的流量。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (1)

1.一种基于FP-Growth和RNN的协议流量预测方法,包括如下步骤:
步骤1)对若干个网络数据包进行预处理,分别统计协议的个数以及各个协议在m+1个时间段内的流量,根据流量变化情况生成若干个数据集合;基于这些数据集合通过FP-Tree分别找出与需要预测的M个协议最相关的N个协议;针对需要预测的M个协议构建M个RNN模型,基于最相关的N个协议的采样数据构建训练集、测试集和验证集,训练M个RNN模型;
步骤2)对实时接收的网络数据包进行预处理,构建步骤1)训练完成的RNN模型的样本,将样本输入步骤1)训练的M个RNN模型,由此预测第m+1个时间段的M个协议的流量;
所述步骤1)具体包括:
步骤101)对接收到的若干个网络数据包进行预处理,统计解析出协议的个数n;
步骤102)分别统计每个协议在m+1个时间段内的流量[s11,s21,…,sn1],[s12,s22,…,sn2],…[s1(m+1),s2(m+1),…,sn(m+1)],并标记每个协议在第m+1个时间段内均值是否较第一个时间段内均值的变化达率达到θn,θn为第n个协议的门限值,若达到则记符号A,A为协议名称,并且放入集合L1中,生成数据集合L1
步骤103)选择不同的起始时间,重复步骤102),得到z个数据集合L1,记为L2
步骤104)基于集合L2,通过构造FP-Tree找出与需要预测的协议最相关的N个协议;
步骤105)构建RNN模型,统计最相关的N个协议流量情况;构建训练集、测试集和验证集;训练M个RNN模型,得到网络参数,完成模型训练;
所述步骤104)进一步包括:
步骤104-1)设置最小绝对支持度为sp,扫描L2中数据记录,生成一级频繁项集L,并按出现次数由多到少排序[item1,item2…];
步骤104-2)再次扫描数据记录,过滤不频繁集合,剩下的频繁项集按一级频繁项集L顺序排序;
步骤104-3)把每条数据的频繁项集插入到FP-Tree中,相同前缀的路径公用,这些前缀路径就是该item的条件模式基;同时增加一个header table,把FP-Tree中相同的项连接起来,进行降序排序;
步骤104-4)从header table的最下面的项开始,构造每个项的条件模式基,顺着header table中项的链表,找出所有包含该项的前缀路径,所有这些条件模式基(CPB)的频繁度为该路径上项的频繁度;
步骤104-5)累加每个CPB上的项的频繁度,过滤低于阈值的项,构建条件FP-Tree;
步骤104-6)递归的挖掘每个条件FP-tree,累加后缀频繁项集,直到找到FP-Tree为空或者FP-Tree只有一条路径;
步骤104-7)获取到所有频繁项集后,找到所需预测协议出现的项集,项集里出现的N个协议为最相关的N个协议;
所述步骤105)进一步包括:
步骤105-1)统计最相关的N个协议在m+1个时间段内的总流量,构造形如{[s11,s21,…,sN1],[s12,s22,…,sN2],…,[s1m,s2m,…,sNm]}的样本数T条,样本标签为需要预测的协议第m+1时间段相对于第m时间段的流量变化幅度对应的梯度标签;
步骤105-2)所需预测协议第m+1时间段相对于第m时间段的流量变化幅度为y,将当前时间段流量较上一时间段流量的变化率分为k个梯度,对应k种变化情况,变化梯度集合为{r1,r2,…,rk};
步骤105-3)选取不同的起始时间段,重复步骤105-1)及105-2)构造训练集,测试集和验证集;
步骤105-4)对于一个RNN模型,输入层有N个神经元,隐藏层激活函数为逻辑函数,隐藏层有w个神经元,输出层的激活函数为softmax,输出层有k个神经元,对应预测的k个流量变化结果;
步骤105-5)利用训练集,测试集和验证集的每一组数据训练一个协议的RNN模型,构建代价函数:
Figure FDA0002541963750000021
其中,s为样本的数目,k为分类的种类,x,y为样本对,{y(i)=j}表示:y(i)的值为j时该表达式为1,其余时候为0,θ为权重矩阵,向量;第i个样本的特征通过反向传播算法,得到使目标函数最小化的参数值,模型训练完成。
CN201810084538.3A 2018-01-29 2018-01-29 一种基于FP-Growth和RNN预测协议数据流量的方法 Active CN110098944B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810084538.3A CN110098944B (zh) 2018-01-29 2018-01-29 一种基于FP-Growth和RNN预测协议数据流量的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810084538.3A CN110098944B (zh) 2018-01-29 2018-01-29 一种基于FP-Growth和RNN预测协议数据流量的方法

Publications (2)

Publication Number Publication Date
CN110098944A CN110098944A (zh) 2019-08-06
CN110098944B true CN110098944B (zh) 2020-09-08

Family

ID=67441862

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810084538.3A Active CN110098944B (zh) 2018-01-29 2018-01-29 一种基于FP-Growth和RNN预测协议数据流量的方法

Country Status (1)

Country Link
CN (1) CN110098944B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111314242B (zh) * 2020-01-20 2022-05-13 烽火通信科技股份有限公司 一种支持多通道的包缓存调度仿真验证方法及系统
CN110995769B (zh) * 2020-02-27 2020-06-05 上海飞旗网络技术股份有限公司 深度数据包检测方法及装置
CN116074127B (zh) * 2023-04-03 2023-07-04 成都工业职业技术学院 一种基于大数据的自适应网络安全态势评估系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103747477A (zh) * 2014-01-15 2014-04-23 广州杰赛科技股份有限公司 网络流量分析与预测方法和装置
CN104464291A (zh) * 2014-12-08 2015-03-25 杭州智诚惠通科技有限公司 一种交通流量预测方法和系统
CN106875684A (zh) * 2017-04-01 2017-06-20 广东石油化工学院 基于大规模动态语义图的交通流量预测算法
CN107103758A (zh) * 2017-06-08 2017-08-29 厦门大学 一种基于深度学习的城市区域交通流量预测方法
CN107154150A (zh) * 2017-07-25 2017-09-12 北京航空航天大学 一种基于道路聚类和双层双向lstm的交通流量预测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103747477A (zh) * 2014-01-15 2014-04-23 广州杰赛科技股份有限公司 网络流量分析与预测方法和装置
CN104464291A (zh) * 2014-12-08 2015-03-25 杭州智诚惠通科技有限公司 一种交通流量预测方法和系统
CN106875684A (zh) * 2017-04-01 2017-06-20 广东石油化工学院 基于大规模动态语义图的交通流量预测算法
CN107103758A (zh) * 2017-06-08 2017-08-29 厦门大学 一种基于深度学习的城市区域交通流量预测方法
CN107154150A (zh) * 2017-07-25 2017-09-12 北京航空航天大学 一种基于道路聚类和双层双向lstm的交通流量预测方法

Also Published As

Publication number Publication date
CN110098944A (zh) 2019-08-06

Similar Documents

Publication Publication Date Title
CN110098944B (zh) 一种基于FP-Growth和RNN预测协议数据流量的方法
CN102265227B (zh) 用于在机器状况监视中创建状态估计模型的方法和设备
Sun et al. Quantifying variable interactions in continuous optimization problems
CN107645503A (zh) 一种基于规则的恶意域名所属dga家族的检测方法
Huelsenbeck et al. Do phylogenetic methods produce trees with biased shapes?
CN108809989B (zh) 一种僵尸网络的检测方法及装置
CN110213124A (zh) 基于tcp多会话的被动操作系统识别方法及装置
CN109558952A (zh) 数据处理方法、系统、设备及存储介质
Ponti et al. A Wasserstein distance based multiobjective evolutionary algorithm for the risk aware optimization of sensor placement
CN111047173A (zh) 基于改进d-s证据理论的社团可信度评估方法
Fischer et al. A methodology for neural spatial interaction modelling
EP4169223A1 (en) Method and apparatus to detect scripted network traffic
Roy et al. Deep predictive coverage collection
Zhang et al. Neural network weights do not converge to stationary points: An invariant measure perspective
CN106156107A (zh) 一种新闻热点的发现方法
CN110191081A (zh) 基于学习自动机的网络流量攻击检测的特征筛选系统及方法
CN113889274B (zh) 一种孤独症谱系障碍的风险预测模型构建方法及装置
CN117335998A (zh) 基于行为模式异常检测中样本平衡方法以及装置
CN108053093A (zh) 一种基于平均影响值数据变换的k-近邻故障诊断方法
CN112416789B (zh) 一种面向演化软件的过程度量元评价方法
CN113807453B (zh) 基于加权概率融合并行贝叶斯网络的异常行为检测方法
CN117792933B (zh) 一种基于深度学习的网络流量优化方法及系统
CN112183576B (zh) 一种基于不均衡数据集的Time-LSTM分类方法
CN117319258A (zh) EdgeX的节点异常检测方法、装置、设备及存储介质
Gioacchini Automatic Detection of Coordinated Events in Darknet Traffic

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230731

Address after: 450000 Ximei building, No. 6, Changchun Road, high tech Industrial Development Zone, Zhengzhou City, Henan Province

Patentee after: Zhengzhou xinrand Network Technology Co.,Ltd.

Address before: 100190, No. 21 West Fourth Ring Road, Beijing, Haidian District

Patentee before: INSTITUTE OF ACOUSTICS, CHINESE ACADEMY OF SCIENCES

Patentee before: BEIJING SCV TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right