CN114006826B - 一种融合流量特征的网络流量预测方法 - Google Patents

一种融合流量特征的网络流量预测方法 Download PDF

Info

Publication number
CN114006826B
CN114006826B CN202210000659.1A CN202210000659A CN114006826B CN 114006826 B CN114006826 B CN 114006826B CN 202210000659 A CN202210000659 A CN 202210000659A CN 114006826 B CN114006826 B CN 114006826B
Authority
CN
China
Prior art keywords
network traffic
network
sequence
traffic
flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210000659.1A
Other languages
English (en)
Other versions
CN114006826A (zh
Inventor
王钰玥
石怀峰
潘成胜
蔡韧
朱江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202210000659.1A priority Critical patent/CN114006826B/zh
Publication of CN114006826A publication Critical patent/CN114006826A/zh
Application granted granted Critical
Publication of CN114006826B publication Critical patent/CN114006826B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种融合流量特征的网络流量预测方法,具体涉及网络信息工程技术领域,收集并获得预设时间周期范围内的历史网络流量数据,并将所获的历史网络流量数据按照预设时间步长划分为预设数量个子流量序列,分别针对各个流量序列,构建并获得网络流量预测模型,应用网络流量预测模型,对子流量序列所对应的网络流量进行预测,获得网络流量的预测分类标签结果。通过本发明的技术方案将网络流量的自相似特性作为先验知识,将其融入长短记忆神经网络的门控机制中,再结合一维卷积神经网络和注意力机制提取流量序列的时间特征,能够恢复原始数据的特征,赋予模型预测结果的可解释性,从而提高网络流量的预测精度更好的描述网络流量的变化趋势。

Description

一种融合流量特征的网络流量预测方法
技术领域
本发明涉及网络信息工程技术领域,具体而言涉及一种融合流量特征的网络流量预测方法。
背景技术
在智能网络系统中,准确、有效的预测可以提前了解网络流量的特征与变化趋势,从而提高网络资源的利用率,预防网络拥塞。因此,对网络流量建立高效可靠的预测模型显得尤为重要。流量预测的本质是对时间序列进行预测,即根据待预测节点的历史数据,建立其特征关于时间变化的函数。常见的网络流量预测模型可以划分为两大类:线性预测和非线性预测。传统的线性预测模型有历史平均模型(HA),自回归(AR)、自回归滑动平均(ARMA)和基于它们的改进模型。随着人工神经网络的提出,出现了基于机器学习算法的支持向量回归(SVR)和基于数据驱动的深度学习模型预测非线性的时间序列,有卷积神经网络(CNN)、循环神经网络(RNN)等。尽管神经网络的相关模型具备着良好的预测性能,但是深度学习的模型通常被用作“黑箱”模型,与传统的统计学模型相比,深度学习算法学习过程是不透明的,可解释性较差。
研究表明网络业务流具有明显的自相似性,大多数的预测都是以短相关的网络流量作为预测对象,实质上忽略了流量本身的自相似特性,而自相似特性恰好体现在时间序列的局部和整体具有一定的联系。
发明内容
本发明的目的在于提供一种融合流量特征的网络流量预测方法,以解决现有技术中的问题。
为实现上述目的,本发明提供如下技术方案:
一种融合流量特征的网络流量预测方法,收集并获得预设时间周期范围内的历史网络流量数据,并将所获的历史网络流量数据按照预设时间步长划分为预设数量个子流量序列,分别针对各个流量序列,执行如下步骤A至步骤F,构建并获得网络流量预测模型,应用网络流量预测模型,对子流量序列所对应的网络流量进行预测,获得网络流量的预测分类标签结果:
步骤A、按照预设比例将各个流量序列中的历史网络流量数据划分为用于训练网络流量预测模型的训练集、以及用于测试网络流量预测模型的测试集,随后进入步骤B;
步骤B、对训练集所对应的历史网络流量数据进行预处理,基于预处理后的历史网络流量数据,构建用于对历史网络流量数据进行流量特征分析、并输出历史网络流量数据所对应的流量序列的赫斯特指数的流量特征分析模块,随后进入步骤C;
步骤C、构建用于对训练集中历史网络流量数据进行预设特征提取、并输出历史网络流量数据大小分布特征的特征提取模块,随后进入步骤D;
步骤D、针对该流量序列所对应训练集中的各个历史网络流量数据,基于赫斯特指数、以及历史网络流量数据大小分布特征,构建用于对历史网络流量数据进行预测、获得网络流量预测分类标签的融合预测模块,随后进入步骤E;
步骤E、针对子流量序列,基于历史网络流量数据、流量特征分析模块、特征提取模块、以及融合预测模块构建待训练网络流量预测模型,所述待训练网络流量预测模型以计算分析模块的输入端和特征提取模块的输入端为输入,以融合预测模块的输出端为输出进行训练,获得用于对网络流量进行预测、输出网络流量预测分类标签结果的网络流量预测模型,随后进入步骤F;
步骤F、针对测试集对应的历史网络流量数据,依次利用计算分析模块、特征提取模块、以及融合预测模块,得到历史网络流量数据对应的网络流量预测分类标签,利用赫斯特指数以及网络流量预测模型的误差指标对网络流量预测模型的预测分类标签结果进行修正更新。
进一步地,前述的步骤B中,分别针对各个流量序列分别所对应的各个训练集,输出流量序列的赫斯特指数,包括以下步骤:
步骤B1、对训练集中缺失预设指定属性的历史网络流量数据进行插补,根据以下公式:
Figure 280102DEST_PATH_IMAGE001
计算得到该流量序列在该预设时间步长内历史网络流量数据大小的平均值
Figure 728401DEST_PATH_IMAGE002
,其 中,
Figure 39296DEST_PATH_IMAGE003
为流量序列所对应的预设时间步长,
Figure 965664DEST_PATH_IMAGE004
为在该预设时间步长
Figure 107933DEST_PATH_IMAGE003
内,时间片
Figure 461553DEST_PATH_IMAGE005
对应的网络 流量数据的大小;
步骤B2、基于历史网络流量数据大小的平均值,获得该流量序列所对应的累积偏差序列,进一步得到累积偏差序列的范围、以及标准偏差,具体包括以下步骤:
基于历史网络流量数据大小的平均值,获得该流量序列对应的均值调整序列
Figure 259745DEST_PATH_IMAGE006
,基于均值调整序列获得累积偏差序列
Figure 724225DEST_PATH_IMAGE007
,累积偏差序 列的范围为
Figure 723929DEST_PATH_IMAGE008
,进一步得到流量序列的标准偏差
Figure 982872DEST_PATH_IMAGE009
步骤B3、基于该流量序列对应的累计偏差序列的范围、以及该流量序列的标准偏 差,计算得到该流量序列的缩放范围
Figure 65098DEST_PATH_IMAGE010
,基于缩放范围进一步得到该流量子序 列的赫斯特指数,根据公式:
Figure 333268DEST_PATH_IMAGE011
其中,
Figure 122232DEST_PATH_IMAGE012
为该流量子序列的赫斯特指数,
Figure 83235DEST_PATH_IMAGE013
为常数,
Figure 856019DEST_PATH_IMAGE005
为预设时间步长
Figure 662301DEST_PATH_IMAGE003
内的时间 片。
进一步地,前述的步骤C中提取历史网络流量数据的预设特征,通过一维卷积非线 性激活得到历史网络流量数据大小分布特征
Figure 633668DEST_PATH_IMAGE014
,其中,
Figure 499993DEST_PATH_IMAGE015
为一维卷积层,
Figure 494494DEST_PATH_IMAGE016
为 一维卷积核,
Figure 104467DEST_PATH_IMAGE017
为卷积运算,
Figure 133603DEST_PATH_IMAGE018
为偏置项。
进一步地,前述的步骤D,基于融合流量特征后的LSTM网络构建网络流量预测模型,基于融合流量特征后的LSTM网络根据以下公式:
Figure 970496DEST_PATH_IMAGE019
获得融合流量特征后的LSTM网络的遗忘门
Figure 452293DEST_PATH_IMAGE020
、输入门
Figure 662694DEST_PATH_IMAGE021
、输出门
Figure 546337DEST_PATH_IMAGE022
、以及LSTM网络 的更新信息
Figure 754464DEST_PATH_IMAGE023
,其中,
Figure 723557DEST_PATH_IMAGE024
sigmoid函数,
Figure 472070DEST_PATH_IMAGE025
为输入张量,
Figure 475799DEST_PATH_IMAGE026
分别为遗忘门
Figure 854827DEST_PATH_IMAGE020
对应的权 重矩阵和偏置项,
Figure 107954DEST_PATH_IMAGE027
分别为隐藏状态下遗忘门
Figure 863420DEST_PATH_IMAGE020
所对应的权重矩阵和偏置项,
Figure 190497DEST_PATH_IMAGE028
为输出向量,
Figure 997217DEST_PATH_IMAGE029
分别为输入门
Figure 940902DEST_PATH_IMAGE021
对应的权重矩阵和偏置项,
Figure 765639DEST_PATH_IMAGE030
分别为隐藏状态 下输入门
Figure 478380DEST_PATH_IMAGE021
所对应的权重矩阵和偏置项,
Figure 199211DEST_PATH_IMAGE031
分别为输出门
Figure 630192DEST_PATH_IMAGE022
对应的权重矩阵和偏置 项,
Figure 727461DEST_PATH_IMAGE032
分别为隐藏状态下输出门
Figure 560288DEST_PATH_IMAGE022
所对应的权重矩阵和偏置项,
Figure 452021DEST_PATH_IMAGE033
分别为更 新信息
Figure 370298DEST_PATH_IMAGE023
对应的权重矩阵和偏置项,
Figure 474520DEST_PATH_IMAGE034
分别为隐藏状态下更新信息
Figure 693012DEST_PATH_IMAGE023
对应的权重 矩阵和偏置项,
Figure 224488DEST_PATH_IMAGE035
为双曲正切函数;
基于融合流量特征后的LSTM网络的遗忘门
Figure 364482DEST_PATH_IMAGE020
、输入门
Figure 69133DEST_PATH_IMAGE021
、输出门
Figure 610973DEST_PATH_IMAGE022
、以及LSTM网络 的更新信息
Figure 110087DEST_PATH_IMAGE023
,根据以下公式:
Figure 740307DEST_PATH_IMAGE036
获得融合流量特征后的LSTM网络的隐含状态
Figure 983070DEST_PATH_IMAGE037
、输出张量
Figure 644995DEST_PATH_IMAGE038
、以及注意力层的输 出
Figure 315011DEST_PATH_IMAGE039
,其中,
Figure 429597DEST_PATH_IMAGE040
为哈达玛乘子,
Figure 210472DEST_PATH_IMAGE041
为注意力系数,
Figure 726904DEST_PATH_IMAGE042
Figure 567821DEST_PATH_IMAGE043
为激活函数,
Figure 169703DEST_PATH_IMAGE044
为注意力系数的权重,
Figure 754268DEST_PATH_IMAGE045
为注意力系数的偏置项。
进一步地,网络流量预测模型在对网络流量进行预测时,网络流量预测模型中所包含的融合预测模块中所对应的融合后的LSTM网络中,该融合LSTM网络的遗忘门和输入门的输出经过sigmoid函数,输出的取值为0至1,当输出值趋向于1时,融合LSTM网络为记忆状态,当输出值趋向于0时,融合LSTM网络为遗忘状态。
进一步地,前述的步骤F中,所述误差指标包括平方绝对误差、均方根误差、以及校正绝对系数。
本发明所述一种融合流量特征的网络流量预测方法,采用以上技术方案与现有技术相比,具有以下技术效果:
本发明将网络流量的自相似特性作为先验知识,提出了一种融合流量特征作为先验知识的网络流量预测方法,结合一维卷积神经网络和注意力机制提取流量序列的时间特征增加了深度学习模型的可解释性,该模型结合流量的自相似性和基于注意力的长短记忆神经网络指导预测未来时间段的流量大小,在训练模型时积累先验知识有意义的指导网络流量预测,使得融合先验知识后的训练模型性能得到提高,校正绝对系数达到76.4%,相较于传统的统计学模型提高了至少10%,预测效果明显提高,且本发明具有长期预测的能力。
附图说明
图1为本发明示例性实施例的网络流量预测模型的结构示意图;
图2为本发明示例性实施例的一种网络流量预测方法的效果示意图;
图3为本发明示例性实施例的一维卷积的结构示意图;
图4为本发明示例性实施例的LSTM网络的结构示意图;
图5为本发明示例性实施例的传统预测方法预测值与真实值的对比图;
图6为本发明示例性实施例的深度学习模型预测方法预测值与真实值的对比图;
图7为本发明示例性实施例的预测效果示意图。
具体实施方式
为了更了解本发明的技术内容,特举具体实施例并配合所附图式说明如下。
在本发明中参照附图来描述本发明的各方面,附图中示出了许多说明性实施例。本发明的实施例不局限于附图所示。应当理解,本发明通过上面介绍的多种构思和实施例,以及下面详细描述的构思和实施方式中的任意一种来实现,这是因为本发明所公开的构思和实施例并不限于任何实施方式。另外,本发明公开的一些方面可以单独使用,或者与本发明公开的其他方面的任何适当组合来使用。
一种融合流量特征的网络流量预测方法,收集并获得预设时间周期范围内的历史网络流量数据,并将所获的历史网络流量数据按照预设时间步长划分为预设数量个子流量序列,分别针对各个流量序列,执行如下步骤A至步骤F,构建并获得网络流量预测模型,应用网络流量预测模型,对子流量序列所对应的网络流量进行预测,获得网络流量的预测分类标签结果:
步骤A、按照预设比例将各个流量序列中的历史网络流量数据划分为用于训练网络流量预测模型的训练集、以及用于测试网络流量预测模型的测试集,随后进入步骤B;
步骤B、对训练集所对应的历史网络流量数据进行预处理,基于预处理后的历史网络流量数据,构建用于对历史网络流量数据进行流量特征分析、并输出历史网络流量数据所对应的流量序列的赫斯特指数的流量特征分析模块,随后进入步骤C;
步骤C、构建用于对训练集中历史网络流量数据进行预设特征提取、并输出历史网络流量数据大小分布特征的特征提取模块,随后进入步骤D;
步骤D、针对该流量序列所对应训练集中的各个历史网络流量数据,基于赫斯特指数、以及历史网络流量数据大小分布特征,构建用于对历史网络流量数据进行预测、获得网络流量预测分类标签的融合预测模块,随后进入步骤E;
步骤E、针对子流量序列,基于历史网络流量数据、流量特征分析模块、特征提取模块、以及融合预测模块构建待训练网络流量预测模型,所述待训练网络流量预测模型以计算分析模块的输入端和特征提取模块的输入端为输入,以融合预测模块的输出端为输出进行训练,获得用于对网络流量进行预测、输出网络流量预测分类标签结果的网络流量预测模型,随后进入步骤F;
步骤F、针对测试集对应的历史网络流量数据,依次利用计算分析模块、特征提取模块、以及融合预测模块,得到历史网络流量数据对应的网络流量预测分类标签,利用赫斯特指数以及网络流量预测模型的误差指标对网络流量预测模型的预测分类标签结果进行修正更新。
结合图1以及步骤A至步骤D中所描述过程,选取一个开放的数据集作为实验数据, 这个数据集是2013年2月以来日本WIDE网络的中转链路,其下载地址为http:// mawi.wide.ad.jp/~agurim/,数据集的采样频率为10min/次,即一天包含144个采样点,从 2020年1月1日到2020年12月31日之间共计52493条数据,即在一年的时间周期范围内,针对 每天的流量数据以采样间隔10分钟作为预设时间步长将网络流量数据划分为各个子流量 序列,图1描述了网络流量具有明显的自相似性,大图是一周内的流量变化,小是抽取其中 的一天的流量变化,可以看出网络流量一周的变化趋势和一天的变化趋势大致相同。赫斯 特指数是根据重新缩放范围的渐进行为定义为时间序列的时间跨度的函数,用于描述具有 长相关性质的时间序列的自相似性,经过赫斯特指数的刻画,可以看出时间序列是具有平 均、回归、聚集等趋势,赫斯特指数可以用来度量具有长期记忆性和分形性的时间序列。赫 斯特指数的值可以划分为三类,值越高越平滑,波动性越小,粗糙度越小。当它的值在0到1 之间,时间序列具有不同的性质:当
Figure 125207DEST_PATH_IMAGE046
,时间序列呈现负相关趋势,时间序列的波 动剧烈;当
Figure 137025DEST_PATH_IMAGE047
,表示时间序列具有长相关性,表示网络业务流在一段时间范围内 具有相关性;当
Figure 960625DEST_PATH_IMAGE048
,时间序列呈现布朗运动的过程,序列之间的相关系数为0,相互独 立。
结合图2-图4以及步骤E中所描述过程,网络流量预测模型包括流量特征分析模块、特征提取模块、融合预测模块,其中,流量特征分析模块用于衡量不同步长的流量序列的自相似程度,融合预测模块将在流量特征分析模块中求得的参数,将其融入长短记忆神经网络的门控机制中,具体为:
LSTM网络从前端抽取出的细粒度特征中抽取粗粒度特征,精细化处理不同维度特征,在一定程度上,并且能够避免因步长过长造成的记忆丢失和梯度弥散。当CNN联合LSTM时,时间序列的短期特征会被忽略,因此,在CNN-LSTM模型基础上加上注意力机制,扩大输入的感受野,全面的感知到前后时间序列的信息,注意力机制在提高时序特征影响力的同时,模型中的不重要的特征影响力也会降低。通过基于注意力机制的CNN-LSTM模型,融合粗细粒度特征,全面刻画时序数据。
传统的LSTM在计算下一步隐含状态
Figure 552143DEST_PATH_IMAGE037
前,需要通过Sigmoid函数计算出
Figure 574326DEST_PATH_IMAGE020
的值以控 制上一步的隐含状态
Figure 960308DEST_PATH_IMAGE049
流入下一步的程度,网络流量预测模型将输入序列的赫斯特值加 在sigmoid函数变换之前来改进LSTM的遗忘门和输入门,LSTM具体遗忘和保留的值是由当 前输入和上一步隐含状态通过sigmoid函数去控制,由上式可以看出遗忘门和输入门最后 都需要经过sigmoid函数输出,输出的取值范围是在0到1之间,当趋向于1的时候,是记忆状 态,反之,趋向于0的时候,是遗忘状态。而赫斯特值反映了流量序列的局部与整体有着尺度 不变性,即当
Figure 536783DEST_PATH_IMAGE047
时能预知流量序列在未来时间段内的趋势,且H值越大,自相似程 度越高,与遗忘门、输入门的运行机制呈正相关。因此这种改进的门控机制具有合理性,如 果将H值加在线性变换之前就能有意义的学习线性变换权重,从而指导流量序列预测。
在引入上一步信息的同时,也需要计算当前的时间步的信息
Figure 466080DEST_PATH_IMAGE023
,即是
Figure 546031DEST_PATH_IMAGE035
激活函 数结合当前的输入张量
Figure 165232DEST_PATH_IMAGE025
和上一步隐含状态输出向量
Figure 963423DEST_PATH_IMAGE028
的线性变换。在计算
Figure 693482DEST_PATH_IMAGE023
时需要控 制流到神经网络信息的多少,由
Figure 893519DEST_PATH_IMAGE021
结合输入张量
Figure 418041DEST_PATH_IMAGE025
和上一步的隐含状态输出向量
Figure 969108DEST_PATH_IMAGE028
的线 性变换得到,通过
Figure 237279DEST_PATH_IMAGE021
Figure 291822DEST_PATH_IMAGE023
的乘积,再结合上一步的隐含信息,从而得到新的隐含状态的信息
Figure 252825DEST_PATH_IMAGE037
,如上所示。最后,新的隐含状态
Figure 494451DEST_PATH_IMAGE050
Figure 831891DEST_PATH_IMAGE037
通过
Figure 6520DEST_PATH_IMAGE035
激活函数计算得到。乘以Sigmoid函数结 合输入张量
Figure 872845DEST_PATH_IMAGE025
和上一步的输出向量
Figure 132925DEST_PATH_IMAGE028
的线性变换得到结果
Figure 745828DEST_PATH_IMAGE022
,输出结果
Figure 774964DEST_PATH_IMAGE022
结合新的隐含 状态
Figure 812190DEST_PATH_IMAGE037
,得到输出结果
Figure 762828DEST_PATH_IMAGE038
。在整个计算过程中,使用的线性变换的权重系数各不相同。对于 长短记忆神经网络最后的隐藏输出
Figure 176492DEST_PATH_IMAGE050
,将作为注意力层的输入,并需要根据权重计算不同 输出对应的分数,计算公式如下,其中,
Figure 60135DEST_PATH_IMAGE043
函数是对隐藏层的输出计算一个分数,得 到一个归一化后的权重。
结合图5-图6以及步骤F中过程,通过以下误差指标,根据以下公式:
Figure 533841DEST_PATH_IMAGE051
获得平方绝对误差
Figure 502934DEST_PATH_IMAGE052
,用来衡量误差与真实值之间的平均绝对误差,取值范围 在[0,+∞),
Figure 454710DEST_PATH_IMAGE052
越接近于0,模型的性能越好;
根据以下公式:
Figure 458438DEST_PATH_IMAGE053
获得均方根误差
Figure 837467DEST_PATH_IMAGE054
,反映了模型预测误差,值范围在[0,+∞),
Figure 559435DEST_PATH_IMAGE054
越接近 于0,模型的性能越好;
根据以下公式:
Figure 49322DEST_PATH_IMAGE055
获得校正绝对系数
Figure 173136DEST_PATH_IMAGE056
,反映了模型的拟合质量,范围为[0,1],
Figure 988645DEST_PATH_IMAGE056
越接近1,模型性 能越好,其中,
Figure 932330DEST_PATH_IMAGE057
为总样本个数,
Figure 225909DEST_PATH_IMAGE058
为特征数量,
Figure 953298DEST_PATH_IMAGE059
为网络流量的实际值,
Figure 939709DEST_PATH_IMAGE060
为网络流量的预 测值。
传统流量预测方法与本发明提出的方法在误差和准确度两方面的数据经过对比,各模型训练好后在测试集测试5次后取平均值作为最终结果如以下表1所示:
表1 不同方法在数据集上的性能比较
Figure 573952DEST_PATH_IMAGE061
传统预测方法和深度学习模型预测结果与真实值对比可以看出,本发明提出的网 络流量预测模型与其他5种模型相比,在各个评价指标中均达到最优效果,网络流量预测模 型的校正绝对系数达到了76.9%,均方根误差达到0.509。与ARIMA模型相比,网络流量预测 模型的MSE和
Figure 671221DEST_PATH_IMAGE062
分别降低了0.248和提高了26.0%;而与SVM相比,网络流量预测模型的
Figure 238469DEST_PATH_IMAGE062
和 提高了9.2%,由于SVM使用的是线性核函数,因此预测效果较差。分析是由于HA和ARIMA对与 这种长序列不平稳数据的拟合能力差,而神经网络模型对非线性数据的拟合能力较好所导 致。
由于赫斯特指数提供了可预测性的度量,不同的时间步长对应的时间序列的自相似程度也不尽相同,赫斯特值越大,映射在Sigmoid函数上的值越趋向于1,LSTM具体遗忘和保留的值是由当前输入和上一步隐含状态通过Sigmoid函数去控制,遗忘门呈记忆状态。当步长为70时,遗忘门的输出值是0.46,即是图7中y1对应的值,此时求得序列的赫斯特值H为0.67,当将赫斯特值加在线性变换之前时,经过线性变换之后的值更加靠近1,即是图7中的(x2,y2)对应的点。由上表可以看出,在预测之前使用这个值来指导模型训练,当step为70时,本发明所提供的网络流量预测模型FPK-Net模型的预测效果最好,因此,我们认为此时融合先验知识,LSTM可以高效且有意义的遗忘掉上一步的一些输入信息,在尝试建立预测模型之前,可以先计算较大赫斯特指数的网络流量序列。此外,还可以关注赫斯特指数大的序列,在具有长时间尺度上的网络流量,它的自相似性都是具有规律可寻的,这样可以节省时间和精力,并指导更好的预测。
本发明将网络流量的自相似特性作为先验知识,提出了一种融合先验知识的流量预测方法FPK-Net,结合一维卷积神经网络和注意力机制提取流量序列的时间特征增加了深度学习模型的可解释性,该模型结合流量的自相似性和基于注意力的长短记忆神经网络指导预测未来时间段的流量大小,在训练模型时积累先验知识有意义的指导网络流量预测,使得融合先验知识后的训练模型性能得到提高,校正绝对系数达到76.4%,相较于传统的统计学模型提高了至少10%。因此,说明本发明提出的模型的可靠性,结果证明了该模型具有可解释性。
虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明。本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。

Claims (6)

1.一种融合流量特征的网络流量预测方法,其特征在于,收集并获得预设时间周期范围内的历史网络流量数据,并将所获的历史网络流量数据按照预设时间步长划分为预设数量个流量序列,分别针对各个流量序列,执行如下步骤A至步骤F,构建并获得网络流量预测模型,应用网络流量预测模型,对流量序列所对应的网络流量进行预测,获得网络流量的预测分类标签结果:
步骤A、按照预设比例将各个流量序列中的历史网络流量数据划分为用于训练网络流量预测模型的训练集、以及用于测试网络流量预测模型的测试集,随后进入步骤B;
步骤B、对训练集所对应的历史网络流量数据进行预处理,基于预处理后的历史网络流量数据,构建用于对历史网络流量数据进行流量特征分析、并输出历史网络流量数据所对应的流量序列的赫斯特指数的流量特征分析模块,随后进入步骤C;
步骤C、构建用于对训练集中历史网络流量数据进行预设特征提取、并输出历史网络流量数据大小分布特征的特征提取模块,随后进入步骤D;
步骤D、针对该流量序列所对应训练集中的各个历史网络流量数据,基于赫斯特指数、以及历史网络流量数据大小分布特征,构建用于对历史网络流量数据进行预测、获得网络流量预测分类标签的融合预测模块,随后进入步骤E;
步骤E、针对流量序列,基于历史网络流量数据、流量特征分析模块、特征提取模块、以及融合预测模块构建待训练网络流量预测模型,所述待训练网络流量预测模型以计算分析模块的输入端和特征提取模块的输入端为输入,以融合预测模块的输出端为输出进行训练,获得用于对网络流量进行预测、输出网络流量预测分类标签结果的网络流量预测模型,随后进入步骤F;
步骤F、针对测试集对应的历史网络流量数据,依次利用计算分析模块、特征提取模块、以及融合预测模块,得到历史网络流量数据对应的网络流量预测分类标签,利用赫斯特指数以及网络流量预测模型的误差指标对网络流量预测模型的预测分类标签结果进行修正更新。
2.根据权利要求1所述的一种融合流量特征的网络流量预测方法,其特征在于,所述步骤B中,分别针对各个流量序列分别所对应的各个训练集,输出流量序列的赫斯特指数,包括以下步骤:
步骤B1、对训练集中缺失预设指定属性的历史网络流量数据进行插补,根据以下公式:
Figure FDA0003540623800000021
计算得到该流量序列在该预设时间步长内历史网络流量数据大小的平均值m,其中,n为流量序列所对应的预设时间步长,Xi为在该预设时间步长n内,时间片i对应的网络流量数据的大小;
步骤B2、基于历史网络流量数据大小的平均值,获得该流量序列所对应的累积偏差序列,进一步得到累积偏差序列的范围以及标准偏差,具体包括以下步骤:
基于历史网络流量数据大小的平均值,获得该流量序列对应的均值调整序列Yi=Xi-m,i=1,2,…,n,基于均值调整序列获得累积偏差序列
Figure FDA0003540623800000022
累积偏差序列的范围为Ri=max(Zi)-min(Zi),i=1,2,…,n,进一步得到流量序列的标准偏差
Figure FDA0003540623800000023
步骤B3、基于该流量序列对应的累积 偏差序列的范围、以及该流量序列的标准偏差,计算得到该流量序列的缩放范围(R/S)=Ri/Si,基于缩放范围进一步得到该流量序列的赫斯特指数,根据公式:
Figure FDA0003540623800000024
其中,H为该流量序列的赫斯特指数,s为常数,i为预设时间步长n内的时间片。
3.根据权利要求1所述的一种融合流量特征的网络流量预测方法,其特征在于,所述步骤C中提取历史网络流量数据的预设特征,通过一维卷积非线性激活得到历史网络流量数据大小分布特征
Figure FDA0003540623800000025
其中,l为一维卷积层,Wl为一维卷积核,*为卷积运算,bl为偏置项。
4.根据权利要求2所述的一种融合流量特征的网络流量预测方法,其特征在于,所述步骤D,基于融合流量特征后的LSTM网络构建网络流量预测模型,基于融合流量特征后的LSTM网络根据以下公式:
Figure FDA0003540623800000026
获得融合流量特征后的LSTM网络的遗忘门fi、输入门ii、输出门oi、以及LSTM网络的更新信息gi,其中,σ为sigmoid函数,xi为输入张量,wif、bif分别为遗忘门fi对应的权重矩阵和偏置项,whf、bhf分别为隐藏状态下遗忘门fi所对应的权重矩阵和偏置项,ai-1为输出向量,wii、bii分别为输入门ii对应的权重矩阵和偏置项,whi、bhi分别为隐藏状态下输入门ii所对应的权重矩阵和偏置项,wio、bio分别为输出门oi对应的权重矩阵和偏置项,who、bho分别为隐藏状态下输出门oi所对应的权重矩阵和偏置项,wig、big分别为更新信息gi对应的权重矩阵和偏置项,whg、bhg分别为隐藏状态下更新信息gi对应的权重矩阵和偏置项,tanh为双曲正切函数;
基于融合流量特征后的LSTM网络的遗忘门fi、输入门ii、输出门oi、以及LSTM网络的更新信息gi,根据以下公式:
Figure FDA0003540623800000031
获得融合流量特征后的LSTM网络的隐含状态ci、输出张量yi、以及注意力层的输出Aout,其中,i为时间片,ci-1为时间片i-1对应的隐含状态,⊙为哈达玛乘子,score为注意力系数,score=softmax(wai+b),softmax为激活函数,w为注意力系数的权重,b为注意力系数的偏置项,ai为时间片i对应的输出向量。
5.根据权利要求4所述的一种融合流量特征的网络流量预测方法,其特征在于,网络流量预测模型在对网络流量进行预测时,网络流量预测模型中所包含的融合预测模块中所对应的融合后的LSTM网络中,该融合LSTM网络的遗忘门和输入门的输出经过sigmoid函数,输出的取值为0至1,当输出值趋向于1时,融合LSTM网络为记忆状态,当输出值趋向于0时,融合LSTM网络为遗忘状态,基于赫斯特指数H,当0.5<H<1时,对未来预设时间周期范围内的流量序列进行预测,赫斯特指数H的值越大,流量序列的自相似度越高,与遗忘门、输入门的运行机制呈正相关。
6.根据权利要求1所述的一种融合流量特征的网络流量预测方法,其特征在于,所述步骤F中,所述误差指标包括平方绝对误差、均方根误差、以及校正绝对系数。
CN202210000659.1A 2022-01-04 2022-01-04 一种融合流量特征的网络流量预测方法 Active CN114006826B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210000659.1A CN114006826B (zh) 2022-01-04 2022-01-04 一种融合流量特征的网络流量预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210000659.1A CN114006826B (zh) 2022-01-04 2022-01-04 一种融合流量特征的网络流量预测方法

Publications (2)

Publication Number Publication Date
CN114006826A CN114006826A (zh) 2022-02-01
CN114006826B true CN114006826B (zh) 2022-04-22

Family

ID=79932570

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210000659.1A Active CN114006826B (zh) 2022-01-04 2022-01-04 一种融合流量特征的网络流量预测方法

Country Status (1)

Country Link
CN (1) CN114006826B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114793197B (zh) * 2022-03-29 2023-09-19 广州杰赛科技股份有限公司 基于nfv的网络资源配置方法、装置、设备及存储介质
CN115037642B (zh) * 2022-03-30 2023-11-21 武汉烽火技术服务有限公司 一种识别流量瓶颈的方法和装置
CN115081680B (zh) * 2022-05-23 2023-06-20 天津大学 一种基于异质特征融合的停电风险预测方法
CN115359654B (zh) * 2022-08-02 2023-09-08 支付宝(杭州)信息技术有限公司 流量预测系统的更新方法及装置
CN115460099B (zh) * 2022-09-20 2024-09-17 中国电信股份有限公司 模型训练方法和装置、流量预测方法和装置、存储介质
CN115333959B (zh) * 2022-10-12 2023-03-31 南通中泓网络科技有限公司 一种分布式网络平台的流量预测方法
CN115720212A (zh) * 2022-11-11 2023-02-28 吉林大学 一种基于多源数据融合的网络流量预测及自动优化均衡方法
CN116233026B (zh) * 2023-03-01 2024-05-31 深圳市创载网络科技有限公司 一种用于数据中心的智能管理方法及系统
CN118200204A (zh) * 2024-02-18 2024-06-14 北京中电飞华通信有限公司 基于卫星的网络流量预测方法及电子设备
CN118095358B (zh) * 2024-04-18 2024-06-25 清华大学 数据中心网络流量超分辨率的生成方法、装置及程序
CN118641969A (zh) * 2024-08-14 2024-09-13 华东交通大学 一种锂电池剩余寿命预测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1780955A1 (en) * 2005-10-28 2007-05-02 Siemens Aktiengesellschaft Monitoring method and apparatus of processing of a data stream with high rate/flow
CN107026763A (zh) * 2017-06-02 2017-08-08 广东电网有限责任公司中山供电局 一种基于流量分解的数据通信网流量预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111970163B (zh) * 2020-06-30 2022-06-21 网络通信与安全紫金山实验室 一种基于注意力机制的lstm模型的网络流量预测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1780955A1 (en) * 2005-10-28 2007-05-02 Siemens Aktiengesellschaft Monitoring method and apparatus of processing of a data stream with high rate/flow
CN107026763A (zh) * 2017-06-02 2017-08-08 广东电网有限责任公司中山供电局 一种基于流量分解的数据通信网流量预测方法

Also Published As

Publication number Publication date
CN114006826A (zh) 2022-02-01

Similar Documents

Publication Publication Date Title
CN114006826B (zh) 一种融合流量特征的网络流量预测方法
CN110414788B (zh) 一种基于相似日和改进lstm的电能质量预测方法
CN111079998B (zh) 基于长短时序相关性注意力机制模型的流量预测方法
CN108445752B (zh) 一种自适应选择深度特征的随机权神经网络集成建模方法
CN109101584B (zh) 一种将深度学习与数学分析相结合的句子分类改进方法
Wang et al. A hesitant fuzzy wind speed forecasting system with novel defuzzification method and multi-objective optimization algorithm
CN116721537A (zh) 基于gcn-ipso-lstm组合模型的城市短时交通流预测方法
CN112418476A (zh) 一种超短期电力负荷预测方法
Song et al. BUAK-AIS: Efficient Bayesian updating with active learning Kriging-based adaptive importance sampling
CN111275479A (zh) 一种人流量预测方法、装置及系统
CN112766603A (zh) 一种交通流量预测方法、系统、计算机设备及存储介质
CN114065996A (zh) 基于变分自编码学习的交通流预测方法
CN116885699A (zh) 基于双重注意力机制的电力负荷预测方法
CN112784479A (zh) 一种洪水流量预测的方法
CN116434569A (zh) 基于stnr模型的交通流量预测方法及系统
CN117592593A (zh) 基于改进二次模态分解和WOA优化BILSTM-attention的短期电力负荷预测方法
CN116826737A (zh) 一种光伏功率的预测方法、装置、存储介质及设备
CN118364963A (zh) 基于lstm神经网络的建筑材料价格预测方法
CN118468122A (zh) 基于大数据分析与优化的索具模具寿命分析方法及装置
Busari et al. An application of AdaBoost-GRU ensemble model to economic time series prediction
Koskela Neural network methods in analysing and modelling time varying processes
CN109034497A (zh) 多晶硅还原工序能耗值的预测方法、系统、介质及设备
CN118017482A (zh) 基于预测误差特征提取的灵活性爬坡容量需求分析方法
CN117763475A (zh) 基于预测跟踪控制的电量波动异常识别方法及系统
CN114298413B (zh) 一种水电机组振摆趋势预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant