CN115766125A - 一种基于lstm和生成对抗网络的网络流量预测方法 - Google Patents
一种基于lstm和生成对抗网络的网络流量预测方法 Download PDFInfo
- Publication number
- CN115766125A CN115766125A CN202211354489.3A CN202211354489A CN115766125A CN 115766125 A CN115766125 A CN 115766125A CN 202211354489 A CN202211354489 A CN 202211354489A CN 115766125 A CN115766125 A CN 115766125A
- Authority
- CN
- China
- Prior art keywords
- network
- output
- lstm
- gate
- network traffic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明涉及一种基于LSTM和生成对抗网络的网络流量预测方法,包括:(1)针对网络流量数据,构建网络流量仿真数据集;(2)在步骤(1)构建的仿真网络流量数据集的基础上,通过生成对抗网络模型对其数据进行增广,以满足训练需求;(3)针对步骤(2)获得的数据集,结合网络流量数据具有连续性、周期性的特点,构建长短期记忆网络模型;(4)针对步骤(3)构建的LSTM模型,在步骤(2)所获得的网络流量仿真数据集上进行训练,利用训练后的LSTM模型对网络流量数据进行预测,获得网络流量预测结果。本发明利用生成对抗网络思想,对仿真数据进行增广,解决了模型训练过程中数据量短缺的问题,提升了模型的预测精度与泛化能力。
Description
技术领域
本发明涉及一种基于LSTM和生成对抗网络的网络流量预测方法,这是一种考虑了时间序列的长期依赖性,结合了循环卷积与门控单元的深度模型,适用于具有连续性、周期性、自相关性的网络流量数据。
背景技术
随着互联网的不断发展,网络规模持续增大,网络中的流量数据也随之暴涨。网络流量作为反映网络状态的重要参数,对其进行分析和精准的预测,可以实现对网络的有效管理,提高网络的利用率,且可以通过对异常网络流量的监控来实现对入侵、攻击等的检测,提高网络安全等级。网络流量预测在保证网络服务质量、合理分配网络资源、优化设计网络结构等方面具有重大意义。因此实现对网络流量的精准预测至关重要。
网络流量预测任务,本质上是对时间序列数据的预测任务。时间序列是指在生产和科学研究等过程中,按照时间顺序所记录得到的一系列观测值,它是单一变量或多变量在不同时刻所形成的随机数据,反映了事件随时间发展的变化规律。过去通常使用各种统计学习方法和传统的机器学习技术来对时间序列进行预测。传统的时间序列数据预测方法如移动平均、指数平滑、差分自回归移动平均、一般多元回归等虽然计算方法简单、求解速度较快,但是其无法描述网络流量的非平稳特性,且过于依靠先验知识和人工选择,消耗大量人力成本,难以保证最终结果的精度,具有很大的应用局限性。传统机器学习方法如线性回归、随机森林、支持向量机等方法利用数据中的多维特征,求解时间序列因变量特征到目标预测值的函数方程,通过建立损失函数并进行优化,构建回归模型。但是传统的机器学习方法在建模时仅考虑时间序列当前时间点的特征,忽略了时间序列数据的时间依赖特性。时间序列预测任务本身也面临着诸多挑战,例如时间序列具有随机性,即当前时间点的数据会收到外界因素的影响干扰;时间序列具有连续性,即当前时间点的数据极有可能受之前一个点或之前多个时间点影响;时间序列还具有周期性,即时间序列数据往往呈现出周期性或者遵循某种变化趋势的现象。
通过深度CNN网络进行监督学习,已经成为近年来解决时间序列预测任务的主要方法,例如RNN、LSTM、GeoMAN模型等,进行端到端的训练,获得预测结果。然而针对网络流量进行时间序列预测的方法较少,目前的研究难点主要表现在以下几个方面:(1)真实的网络流量数据难以获得,需要花费大量精力去构建数据集;(2)不同地区的网络流量具有不同的趋势,需要根据实际情况对其进行调整;(3)现有的基于深度学习的时间序列预测算法没有充分利用数据的时间依赖性,需要对其进行优化改进。
发明内容
本发明所要解决的技术问题是:克服现有技术不足,针对网络流量预测问题,提供基于LSTM的网络流量预测方法,改善模型预测效果,提升模型泛化能力,提高模型的预测精度。
本发明采用的技术方案为:
一种基于LSTM和生成对抗网络的网络流量预测方法,包括以下步骤:
(1)构建网络流量仿真数据集;
(2)利用生成对抗网络,对网络流量仿真数据集进行增广;
(3)针对增广后获得的数据集,结合网络流量数据连续性和周期性的特点,构建基于LSTM的网络流量预测模型;
(4)针对步骤(3)构建的网络流量预测模型,在步骤(2)增广后获得的数据集上进行训练,利用训练后的网络流量预测模型对网络流量数据进行预测,获得网络流量预测结果。
进一步的,所述步骤(2)生成对抗网络中,生成器采用RNN模型,鉴别器采用由5个卷积层组成的神经网络模型,生成对抗网络的训练过程使用合成损失函数,即两组损失函数的加权和:
式中,Lgen为生成器中的损失函数,Ldis为鉴别器的损失函数,N为数据集重构后图像的数量,Xi表示某一输入训练图像,Yi表示对应真实值标签图,S(Xi)表示生成器输出的预测值图;p(X,Y)表示鉴别器预测Y是X的真实标签的概率,取值范围为[0,1],λ表示权重系数;
鉴别器的训练使以下损失函数Ldis最小化:
其中,当样本为生成器网络输出的预测值图时,zi=0;当样本为真实值标签图时,zi=1;D(S(Xi))p是Xi在像素p处的置信图,D(Yi)p是Yi在像素p处的置信图;
生成器的训练使以下损失函数Lgen最小化:
Lgen=Lce+λadvLadv
其中,Lce为是交叉熵损失,Ladv是对抗损失Adversarial Loss;λadv是最小化多任务损失函数的权重系数,对抗损失Lacv为:
进一步的,所述步骤(3)中,构建基于LSTM的网络流量预测模型,具体为:
首先构建LSTM层,LSTM使用门结构,本质是3个控制开关;第一个开关为遗忘门,用来决定从网络神经元中丢弃哪些信息;第二个开关为输入门,用来决定哪些状态的值要被更新;第三个开关为输出门,用来控制长期记忆对当前输出的影响;
遗忘门的衰减系数计算公式为:
ft=σ(Wf[ht-1,xt]+bf)
式中,σ是Sigmoid激活函数,Wf是遗忘门的权重矩阵,ht-1是上一时刻遗忘门的神经元状态,xt是当前时刻的输入值,bf是遗忘偏置项;通过获取ht-1和xt的数值,在经过Sigmoid激活函数处理之后得到范围在[0,1]的ft,ft的大小代表了网络神经元中信息的保留程度,当ft值为0时,表示完全舍弃,当ft值为1时,表示完全保留;
输入门的计算公式为:
it=σ(Wi[ht-1,xt]+bi)
输出门的计算公式如下:
ot=σ(W[ht-1,xt]+bo)
式中,输出门通过一层Sigmoid激活函数来筛选输出信息ot,bo为输出偏置项,W为输出权重矩阵;
LSTM层最终的输出ht由神经元状态ct与输出门输出ot共同决定,即:
ht=ot tanh(ct)
并基于LSTM层的输出ht和期望预测值yt构建如下平均绝对误差损失函数Lpre:
式中,M为数据集样本容量。
本发明与现有技术相比的优点在于:
(1)本发明利用生成对抗网络思想,对仿真数据进行增广,解决了模型训练过程中数据量短缺的问题,提升了模型的预测精度与泛化能力。
(2)本发明使用LSTM层代替循环卷积层,增强了模型对于长期记忆的利用能力,使其更好的适应时间序列数据的连续性、周期性、时间依赖性,进一步提升了模型的预测精度。
总之,本发明采用的方法原理简洁,预测效果良好,可达到对网络流量精确预测的目的。
附图说明
图1为本发明基于LSTM和生成对抗网络的网络流量预测方法流程图;
图2为采用本发明方法获得的预测结果示例。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅为本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域的普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例,都属于本发明的保护范围。
如图1所示,本发明的具体实现步骤如下:
步骤1、构建网络流量仿真数据集。
根据MAWI Working Group Traffic Archive采集的samplepoint-F上从2020年7月20日到8月19日的网络流量数据进行实验,该数据的收集间隔为10分钟,每小时采集6组数据,一天采集144组数据。实验中共使用了3447组数据在完成模型的训练和验证。
为了尽可能的模拟真实网络流量分布趋势,将以上数据集作为全国流量总体数据,根据第七次全国人口普查数据的人口占比,对其进行分配,分别计算不同省份的流量数据。且为了更加贴近真实网络数据分布情况,在计算时还应根据中国互联网络信息中心发布的第49次中国互联网络发展状况统计报告中提到的不同年龄段中的网络用户占比,来更加细化网络流量分布情况。
首先根据各省份人口总数,不同年龄段的分布比例以及各年龄段网络用户占比计算各省真实网络用户数量;然后根据各省份真实网络用户数量,计算其网络流量占比;最后该占比数据计算网络流量分布情况,且为了方便后续模型的训练,防止梯度消失,加快网络收敛速度,使用最大最小值归一化对其进行预处理,归一化处理过程如下:
式中,max和min分别代表数据的最大值和最小值,经过归一化处理后的数据值都在[0,1]内。
步骤2、利用生成对抗网络,对网络流量仿真数据集进行增广。
生成对抗网络GAN模型中,生成器采用RNN模型,鉴别器采用由5个卷积层组成的神经网络模型,生成对抗网络的训练过程使用合成损失函数,即两组损失函数的加权和:
在实际训练过程中,将数据重构成维度为H×W的图像进行输入;H为图像高度,W为图像宽度。式中,Lgen为生成器中的损失函数,Ldis为鉴别器的损失函数,N为数据集重构后图像的数量,Xi表示某一输入训练图像,Yi表示对应真实值标签图,第一项为生成器中的损失项,促进生成模型预测每个像素的正确数值;S(Xi)表示生成器输出的维度为H×W的预测值图;第二项为鉴别器的损失函数;当对抗网络正确判别出真实标签图和生成预测图时,此损失项大于预定阈值;p(X,Y)表示鉴别器预测Y是X的真实标签的概率,取值范围为[0,1];λ表示权重系数;
鉴别器的训练使以下损失函数Ldis最小化:
其中,当样本为生成器网络输出的预测值图时,zi=0;而当样本为真实标签图时,zi=1;此外,D(S(Xi))p是Xi在像素p处的置信图,同理,D(Yi)p是Yi在像素p处的置信图;
生成器的训练使以下损失函数Lseg最小化:
Lgen=Lce+λadvLadv
其中,Lce为是交叉熵损失,Ladv是对抗损失Adversarial Loss;λadv是最小化多任务损失函数的权重系数,设置为0.01。
其中,给定完全卷积判别网络D(·),通过进行对抗学习,来训练鉴别器,对抗损失Lacv为:
步骤3、构建LSTM层,LSTM的特点是使用了“门”结构,其本质上是3个控制开关。第一个开关称为“遗忘门”,用来决定从细胞状态中丢弃哪些信息;第二个开关称为“输出门”,用来决定哪些状态的值要被更新;第三个开关称为“输出门”,它的作用是控制长期记忆对当前输出的影响。
遗忘门的衰减系数计算公式为:
ft=σ(Wf[ht-1,xt]+bf)
式中,σ是Sigmoid激活函数,Wf是遗忘门的权值矩阵,ht-1是上一时刻遗忘门的神经元状态,xt是当前时刻的输入值,bf是遗忘偏置项。通过获取ht-1和xt的数值,在经过Sigmoid激活函数处理之后得到范围在[0,1]的ft。ft的大小代表了细胞状态中信息的保留程度,当其为0时,表示完全舍弃;当其值为1时,表示完全保留。
输入门的计算公式为:
it=σ(Wi[ht-1,xt]+bi)
与遗忘门类似的,先经过一层Sigmoid激活函数,输出[0,1]的值来决定更新哪些输入值it,bi和bc为输入偏置项,Wi和Wc为输入权重矩阵,为通过tanh激活函数筛选出的新的候选值,ct-1为上一时刻输入门的神经元状态;计算神经元状态,将其从ct-1更新为ct。通过这样的操作实现当前记忆与长期记忆的结合。
输出门的计算公式如下;
ot=σ(W[ht-1,xt]+bo)
输出门同样通过一层Sigmoid激活函数来筛选输出信息ot,bo为输出偏置项,W为输出权重矩阵;
LSTM层最终的输出ht由神经元状态ct与输出门输出ot共同决定,即:
ht=ot tanh(ct)
本文所构建的模型包含三个LSTM层实现对数据时间依赖性的利用,并构建如下平均绝对误差损失函数:
式中,M为数据集样本容量。
步骤4、在网络流量仿真数据集上进行模型的训练,获得训练后的模型,利用训练后模型对网络流量进行预测,方法如下:进行模型训练过程的参数及优化方式的设置,包括学习率策略、训练步数;
学习率策略选择“POLY”,初始学习率设置为0.001-0.01,初始训练步数为200-300步,学习率衰减步数设为25-75,学习速率衰减因子为0.1-0.2。
如图2所示,该图第一行为输入的原始数据,图2第二行为模型预测数据,可见,数据预测结果与真实数据相差无几。由此可见,本发明能够针对网络流量数据,提升预测精度。
本发明说明书中未作详细描述的内容属于本领域专业技术人员的公知技术。尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,且应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (3)
1.一种基于LSTM和生成对抗网络的网络流量预测方法,其特征在于,包括以下步骤:
(1)构建网络流量仿真数据集;
(2)利用生成对抗网络,对网络流量仿真数据集进行增广;
(3)针对增广后获得的数据集,结合网络流量数据连续性和周期性的特点,构建基于LSTM的网络流量预测模型;
(4)针对步骤(3)构建的网络流量预测模型,在步骤(2)增广后获得的数据集上进行训练,利用训练后的网络流量预测模型对网络流量数据进行预测,获得网络流量预测结果。
2.根据权利要求1所述的基于LSTM和生成对抗网络的网络流量预测方法,其特征在于,所述步骤(2)生成对抗网络中,生成器采用RNN模型,鉴别器采用由5个卷积层组成的神经网络模型,生成对抗网络的训练过程使用合成损失函数,即两组损失函数的加权和:
式中,Lgen为生成器中的损失函数,Ldis为鉴别器的损失函数,N为数据集重构后图像的数量,Xi表示某一输入训练图像,Yi表示对应真实值标签图,S(Xi)表示生成器输出的预测值图;p(X,Y)表示鉴别器预测Y是X的真实标签的概率,取值范围为[0,1],λ表示权重系数;
鉴别器的训练使以下损失函数Ldis最小化:
其中,当样本为生成器网络输出的预测值图时,zi=0;当样本为真实值标签图时,zi=1;D(S(Xi))p是Xi在像素p处的置信图,D(Yi)p是Yi在像素p处的置信图;
生成器的训练使以下损失函数Lgen最小化:
Lgen=Lce+λadvLadv
其中,Lce为是交叉熵损失,Ladv是对抗损失Adversarial Loss;λadv是最小化多任务损失函数的权重系数,对抗损失Lacv为:
3.根据权利要求1所述的基于LSTM和生成对抗网络的网络流量预测方法,其特征在于,所述步骤(3)中,构建基于LSTM的网络流量预测模型,具体为:
首先构建LSTM层,LSTM使用门结构,本质是3个控制开关;第一个开关为遗忘门,用来决定从网络神经元中丢弃哪些信息;第二个开关为输入门,用来决定哪些状态的值要被更新;第三个开关为输出门,用来控制长期记忆对当前输出的影响;
遗忘门的衰减系数计算公式为:
ft=σ(Wf[ht-1,xt]+bf)
式中,σ是Sigmoid激活函数,Wf是遗忘门的权重矩阵,ht-1是上一时刻遗忘门的神经元状态,xt是当前时刻的输入值,bf是遗忘偏置项;通过获取ht-1和xt的数值,在经过Sigmoid激活函数处理之后得到范围在[0,1]的ft,ft的大小代表了网络神经元中信息的保留程度,当ft值为0时,表示完全舍弃,当ft值为1时,表示完全保留;
输入门的计算公式为:
it=σ(Wi[ht-1,xt]+bi)
输出门的计算公式如下:
ot=σ(W[ht-1,xt]+bo)
式中,输出门通过一层Sigmoid激活函数来筛选输出信息ot,bo为输出偏置项,W为输出权重矩阵;
LSTM层最终的输出ht由神经元状态ct与输出门输出ot共同决定,即:
ht=ottanh(ct)
并基于LSTM层的输出ht和期望预测值yt构建如下平均绝对误差损失函数Lpre:
式中,M为数据集样本容量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211354489.3A CN115766125A (zh) | 2022-11-01 | 2022-11-01 | 一种基于lstm和生成对抗网络的网络流量预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211354489.3A CN115766125A (zh) | 2022-11-01 | 2022-11-01 | 一种基于lstm和生成对抗网络的网络流量预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115766125A true CN115766125A (zh) | 2023-03-07 |
Family
ID=85356009
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211354489.3A Pending CN115766125A (zh) | 2022-11-01 | 2022-11-01 | 一种基于lstm和生成对抗网络的网络流量预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115766125A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116663434A (zh) * | 2023-07-31 | 2023-08-29 | 江铃汽车股份有限公司 | 一种基于lstm深度神经网络的整车载荷分解方法 |
CN116668198A (zh) * | 2023-07-31 | 2023-08-29 | 南京争锋信息科技有限公司 | 基于深度学习的流量回放测试方法、装置、设备及介质 |
-
2022
- 2022-11-01 CN CN202211354489.3A patent/CN115766125A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116663434A (zh) * | 2023-07-31 | 2023-08-29 | 江铃汽车股份有限公司 | 一种基于lstm深度神经网络的整车载荷分解方法 |
CN116668198A (zh) * | 2023-07-31 | 2023-08-29 | 南京争锋信息科技有限公司 | 基于深度学习的流量回放测试方法、装置、设备及介质 |
CN116668198B (zh) * | 2023-07-31 | 2023-10-20 | 南京争锋信息科技有限公司 | 基于深度学习的流量回放测试方法、装置、设备及介质 |
CN116663434B (zh) * | 2023-07-31 | 2023-12-05 | 江铃汽车股份有限公司 | 一种基于lstm深度神经网络的整车载荷分解方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115766125A (zh) | 一种基于lstm和生成对抗网络的网络流量预测方法 | |
CN113723007B (zh) | 基于drsn和麻雀搜索优化的设备剩余寿命预测方法 | |
CN111680786B (zh) | 一种基于改进权重门控单元的时序预测方法 | |
Dong et al. | An integrated deep neural network approach for large-scale water quality time series prediction | |
CN109886496B (zh) | 一种基于气象信息的农产量预测方法 | |
CN115688579A (zh) | 一种基于生成对抗网络的流域多点水位预测预警方法 | |
CN113554466A (zh) | 一种短期用电量预测模型构建方法、预测方法和装置 | |
CN111985719B (zh) | 一种基于改进的长短期记忆网络的电力负荷预测方法 | |
CN117175588B (zh) | 基于时空相关性的用电负荷预测方法及装置 | |
CN113298131B (zh) | 一种基于注意力机制的时序数据缺失值插补方法 | |
CN114139783A (zh) | 基于非线性加权组合的风电短期功率预测方法及装置 | |
CN113128666A (zh) | 基于Mo-S-LSTMs模型的时间序列多步预测方法 | |
CN115018193A (zh) | 基于lstm-ga模型的时间序列风能数据预测方法 | |
CN114694379B (zh) | 一种基于自适应动态图卷积的交通流预测方法及系统 | |
CN113393034A (zh) | 一种在线自适应oselm-garch模型的电量预测方法 | |
CN116187835A (zh) | 一种基于数据驱动的台区理论线损区间估算方法及系统 | |
Robati et al. | Inflation rate modeling: adaptive neuro-fuzzy inference system approach and particle swarm optimization algorithm (ANFIS-PSO) | |
CN116542701A (zh) | 一种基于cnn-lstm组合模型的碳价预测方法及系统 | |
Cao et al. | Fast and explainable warm-start point learning for AC Optimal Power Flow using decision tree | |
CN113762591B (zh) | 一种基于gru和多核svm对抗学习的短期电量预测方法及系统 | |
Chen et al. | Short-term Wind Speed Forecasting Based on Singular Spectrum Analysis, Fuzzy C-Means Clustering, and Improved POABP | |
CN113191526A (zh) | 一种基于随机敏感度的短期风速区间多目标优化预测方法及系统 | |
CN116822742A (zh) | 一种基于动态分解-重构集成处理的电力负荷预测方法 | |
Yang et al. | Host load prediction based on PSR and EA-GMDH for cloud computing system | |
CN116523001A (zh) | 电网薄弱线路识别模型构建方法、装置和计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |