CN113157663B - 基于数据重建和混合预测的网络流量预测方法及装置 - Google Patents

基于数据重建和混合预测的网络流量预测方法及装置 Download PDF

Info

Publication number
CN113157663B
CN113157663B CN202110282845.4A CN202110282845A CN113157663B CN 113157663 B CN113157663 B CN 113157663B CN 202110282845 A CN202110282845 A CN 202110282845A CN 113157663 B CN113157663 B CN 113157663B
Authority
CN
China
Prior art keywords
data
network
flow value
gru
vtd
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110282845.4A
Other languages
English (en)
Other versions
CN113157663A (zh
Inventor
徐展琦
杜爽
虞丰檑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202110282845.4A priority Critical patent/CN113157663B/zh
Publication of CN113157663A publication Critical patent/CN113157663A/zh
Application granted granted Critical
Publication of CN113157663B publication Critical patent/CN113157663B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • G06F16/212Schema design and management with details for data modelling support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Game Theory and Decision Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于数据重建和混合预测的网络流量预测方法及装置,该方法包括:获取网络流量值数据;对网络流量值数据进行重建,得到重建的网络流量值数据;利用EMD算法对重建的网络流量值数据进行分解处理,得到若干网络流量值分量;利用若干网络流量值分量对GRU‑VTD神经网络进行训练,得到训练好的GRU‑VTD神经网络;利用训练好的GRU‑VTD神经网络进行预测,并根据得到的预测值和网络流量值数据计算预测误差,以对模型进行性能评估。本发明提供的基于数据重建和混合预测的网络流量预测方法,具有更高的预测精度和稳定性。

Description

基于数据重建和混合预测的网络流量预测方法及装置
技术领域
本发明属于网络通信技术领域,具体涉及一种基于数据重建和混合预测的网络流量预测方法及装置。
背景技术
人们近年来对即时通信、搜索引擎、社交娱乐、远程办公、在线交易和公共服务等网络业务的需求日益增加,导致网络业务规模爆炸性增长,技术进步与用户需求致使网络类型也更加多样化。但是由于网络资源有限,网络需求量的不断增加必然会造成网络拥塞和服务质量降低的情况出现。因此需要对网络的行为与状态进行掌握以增强网络管理的有效性和及时性。而网络流量是监测网络行为状态、研究网络行为的基础,因而有关网络流量预测的研究愈发受到国内外研究学者和工业界的广泛关注。然而,现代网络流量具有的自相似性、周期性、混沌性和多尺度等特征使得预测网络行为颇具挑战性。
为了能够充分利用流量数据间的时间相关性,实现对具有复杂特性的网络流量的预测,Tokuyama Y等人在论文The Effect of Using Attribute Information in NetworkTraffic Prediction with Deep Learning[C]//2018International Conference onInformation and Communication Technology Convergence(ICTC).IEEE,2018:521-525中提出了一种RNN-VTD模型,它通过向RNN添加流量的一些属性信息来利用流量数据的周期性,将网络流量的流量值、时间戳和周几分别送入神经网络中进行训练和预测,有效地提高了预测的精度。但是,当数据集规模较大或数据波动较大时,单纯使用神经网络进行预测存在收敛速度较慢、容易陷入局部最优等问题。
目前,一些研究人员使用傅里叶分解或小波分解来平滑时间序列,用以解决上述问题。但这些方法依赖于先验谐波基函数或小波基函数,不适用于处理非平稳非线性数据。同时,由于网络流量具有较多突变数据,使得预测模型规模更加庞大,既增加预测复杂度,又降低预测精度。此外,现有的预测算法大都需要真实有效的数据集作为输入,但由于网络拓扑的复杂性、网络设备的资源限制和监视高速网络的高开销,在实际网络中收集所有真实流量数据是不切实际的,这也影响了预测模型的鲁棒性,从而影响系统的稳定性。
发明内容
为了解决现有技术中存在的上述问题,本发明提供了一种基于数据重建和混合预测的网络流量预测方法及装置。本发明要解决的技术问题通过以下技术方案实现:
一种基于数据重建和混合预测的网络流量预测方法,包括:
获取网络流量值数据;
对所述网络流量值数据进行重建,得到重建的网络流量值数据;
利用EMD算法对所述重建的网络流量值数据进行分解处理,得到若干网络流量值分量;
利用所述若干网络流量值分量对GRU-VTD神经网络进行训练,得到训练好的GRU-VTD神经网络;
利用训练好的GRU-VTD神经网络进行预测,并根据得到的预测值和网络流量值数据计算预测误差,以对模型进行性能评估。
在本发明的一个实施例中,对所述网络流量值数据进行重建,得到重建的网络流量值数据,包括:
对所述网络流量值数据进行初始化,得到多信息的网络流量值数据;
对所述多信息的网络流量值数据中的缺失点进行补足,得到补足完整的网络流量值数据;
对所述补足完整的网络流量值数据中的离群点进行剔除,得到重建的网络流量值数据。
在本发明的一个实施例中,对所述多信息的网络流量值数据中的缺失点进行补足,得到补足完整的网络流量值,包括:
根据可接受的流量最小值和相邻网络流量值之间的时间间隔对所述多信息的网络流量值数据进行筛查,当满足Xt<σ或两个相邻数据的时间间隔大于采样间隔时,则判定该点为缺失点;其中,Xt表示流量序列X(t)在时刻t的数据,σ表示可接受的流量最小值;
利用平均值法对所述缺失点进行补足,得到补足完整的网络流量值数据。
在本发明的一个实施例中,利用平均值法对所述缺失点进行补足,包括:
根据当前缺失点的前三个时刻的数据平均值对该缺失点进行补足,表示为:
Figure BDA0002979268730000031
其中,
Figure BDA0002979268730000032
表示缺失点的补足值,Xt-1,Xt-2,Xt-3分别表示Xt前一个时刻、前两个时刻、前三个时刻的流量值。
在本发明的一个实施例中,对所述补足完整的网络流量值数据中的离群点进行剔除,得到重建的网络流量值数据,包括:
对所述补足完整的网络流量值数据进行归一化处理,得到归一化的网络流量值数据;
对所述归一化的网络流量值数据进行筛查,当不满足
Figure BDA0002979268730000041
Figure BDA0002979268730000042
时,判定该点为离群点;其中,Xt表示流量序列X(t)在时刻t的数据,/>
Figure BDA0002979268730000043
表示一天的Xt的平均值,δt表示一天的Xt的波动程度,k表示异常值消除程度影响因子,其取值范围为3到9的整数;
利用差值替换法或趋势替换法对所述离群点进行剔除,得到重建后的网络流量值。
在本发明的一个实施例中,利用差值替换法或者趋势替换法对所述离群点进行剔除,包括:
利用插值替换法计算离群点的替换值,计算公式为:
Figure BDA0002979268730000044
或者利用趋势替换法计算离群点的替换值,计算公式为:
Figure BDA0002979268730000045
其中,
Figure BDA0002979268730000046
表示离群点的替换值,Xt-1、Xt-2、Xt-3分别表示Xt前一个时刻、前两个时刻、前三个时刻的流量值;
利用该离群点的替换值替换所述离群点的流量值。
在本发明的一个实施例中,利用EMD算法对所述重建的网络流量值数据进行分解处理,得到若干网络流量值分量,包括:
利用EMD算法对所述重建的网络流量值数据进行分解处理,得到具有不同频率的IMF分量;
将每个所述IMF分量按照一定比例分割为训练集和测试集。
在本发明的一个实施例中,利用所述若干网络流量值分量对GRU-VTD神经网络进行训练,得到训练好的GRU-VTD神经网络,包括:
构建多信息感知的GRU-VTD神经网络;
将每个所述IMF分量中训练集的网络流量值及其对应的时间戳和来源信息分别输入到所述GRU-VTD神经网络的第一输入层、第二输入层以及第三输入层,得到的GRU-VTD神经网络的输出层结果;
将所述GRU-VTD神经网络的输出层结果与输入的网络流量值之间的MSE作为损失函数调整神经网络节点间的连接权重,以对各个GRU-VTD神经网络进行训练,得到训练好的GRU-VTD神经网络。
在本发明的一个实施例中,利用训练好的GRU-VTD神经网络进行预测,并根据得到的预测值和网络流量值数据计算预测误差,以对模型进行性能评估,包括:
将每个所述IMF分量中测试集的网络流量值及其对应的时间戳和来源信息分别输入到对应的训练好的GRU-VTD神经网络的第一输入层、第二输入层以及第三输入层,并将每个GRU-VTD神经网络的输出结果进行累加,得到模型的预测值;
计算所述模型的预测值与所述网络流量值数据之间的预测误差,并根据该预测误差对网络模型进行评估。
本发明的另一个实施例提供了一种基于数据重建和混合预测的网络流量预测装置,包括:
数据获取模块,用于获取网络流量值数据;
重建模块,用于对所述网络流量值数据进行重建,得到重建的网络流量值数据;
分解模块,用于利用EMD方法对所述重建的网络流量值数据进行分解处理,得到若干网络流量值分量;
训练模块,用于利用所述若干网络流量值分量对GRU-VTD神经网络进行训练,得到训练好的GRU-VTD神经网络;
预测模块,用于利用训练好的GRU-VTD神经网络进行预测,并根据得到的预测值和网络流量值数据计算预测误差,以对模型进行性能评估。
本发明的有益效果:
1、本发明通过对网络流量值数据进行重建,并利用EMD技术将网络流量序列分解为多个分量,从而将网络流量从多尺度进行分离,然后综合考虑网络流量的多种信息构建神经网络GRU-VTD,并将EMD分解得到的各个分量分别用于训练和预测与之对应的GRU-VTD,最后将所有神经网络的输出送入到累加器中以获得最终的预测结果,克服了现有预测技术中预测精度低、易陷入局部最优、鲁棒性低的缺点,具有更高的预测精度和稳定性;
2、本发明通过归一化、缺失点补足和离群值剔除的方法对流量数据进行重建,可以有效避免异常数据对预测性能产生的负面影响,进一步提高预测精度;
3、本发明采用EMD分解算法对数据流量值进行分解重构,将分解后的各个分量作为神经网络的输入数据,可有效利用网络流量的多尺度特性,并在一定程度上削弱了流量的混沌性对预测模型的影响,使不稳定的网络流量也可获得高预测精度,从而增加整体预测性能的稳定性;
4、本发明通过综合考虑网络流量的流量值、时间戳和来源信息,构建多信息感知的神经网络GRU-VTD来利用流量数据的周期性,有效提高了预测的精度;同时,根据网络流量的自相似性,采用多信息感知的神经网络GRU-VTD进行预测,克服传统预测模型预测精度低、收敛速度慢的缺点。
以下将结合附图及实施例对本发明做进一步详细说明。
附图说明
图1是本发明实施例提供的基于数据重建和混合预测的网络流量预测方法流程示意图;
图2是本发明实施例提供的基于数据重建和混合预测的网络流量预测方法框架示意图;
图3是本发明实施例提供的离群点剔除示意图;
图4是本发明实施例提供的EMD分解流程示意图;
图5是本发明实施例提供的多信息感知的GRU-VTD神经网络结构示意;
图6是本发明实施例提供的基于数据重建和混合预测的网络流量预测装置结构示意图;
图7为本发明仿真中结合不同的网络流量属性信息后神经网络预测误差的对比图;
图8为本发明仿真中结合了网络流量值、时间戳和星期几信息的预测模型GRU-VTD与加入所提数据重建机制后的预测模型GRU-VTD-RC的预测误差对比图;
图9为本发明仿真中GRU-VTD、GRU-VTD-RC以及结合了EMD和GRU-VTD-RC预测模型GRU-VTD-RC-EMD的预测误差对比图。
具体实施方式
下面结合具体实施例对本发明做进一步详细的描述,但本发明的实施方式不限于此。
实施例一
请参见图1,图1是本发明实施例提供的基于数据重建和混合预测的网络流量预测方法流程示意图,具体包括以下步骤:
S1:获取网络流量值数据。
在本实施例中,设置流量序列X(t)在时刻t的流量值数据表示为Xt
S2:对网络流量值数据进行重建,得到重建的网络流量值数据。
请参见图2,图2是本发明实施例提供的基于数据重构的网络流量混合预测方法框架示意图,其中,步骤S2包括:
S21:对网络流量值数据进行初始化,得到多信息的网络流量值数据。
具体地,可根据网络流量值数据集和采样的起始时间计算与网络流量值对应的时间戳以及网络流量来源信息,得到多信息的网络流量数据。其中,来源信息可以根据网络流量的周期设定,例如,以星期为周期可设定为该网络流量值的来源信息为星期几。此外,还可以以天为周期进行设定。
S22:对多信息的网络流量值数据中的缺失点进行补足,得到补足完整的网络流量值数据。
首先,根据可接受的流量最小值和相邻网络流量值之间的时间间隔对网络流量值进行筛查;当满足Xt<σ或两个相邻数据的时间间隔大于采样间隔时,则判定该点为缺失点;其中,Xt表示流量序列X(t)在时刻t的数据,σ表示可接受的流量最小值。
然后,利用平均值法对缺失点进行补足,得到补足完整的网络流量值数据。
具体地,可根据当前缺失点的前三个时刻的数据平均值对该缺失点进行补足。例如,若Xt对应的点被判定为缺失点,则补足公式表示为:
Figure BDA0002979268730000091
其中,
Figure BDA0002979268730000092
表示缺失点的补足值,Xt-1,Xt-2,Xt-3分别表示Xt前一个时刻、前两个时刻、前三个时刻的流量值。
S23:对补足完整的网络流量值数据中的离群点进行剔除,得到重建的网络流量值数据。
首先,对补足完整的网络流量值数据进行归一化处理,得到归一化的网络流量值数据。例如,可通过最大最小归一化方法对补足后的网络流量值进行归一化处理,最大最小归一化的公式如下:
Figure BDA0002979268730000093
其中,X表示归一化值,x表示网络流量值,xmax和xmin分别表示网络流量数据集中的最大值和最小值。
然后,对归一化的网络流量值数据进行筛查,当不满足
Figure BDA0002979268730000094
Figure BDA0002979268730000095
时,判定该点为离群点;其中,Xt表示流量序列X(t)在时刻t的数据,/>
Figure BDA0002979268730000096
表示一天的Xt的平均值,δt表示一天的Xt的波动程度,k表示异常值消除程度影响因子,其取值范围为3到9的整数。
进一步地,一天中Xt的波动程度δt的计算公式为:
Figure BDA0002979268730000097
最后,利用差值替换法或者趋势替换法对离群点进行剔除,得到重建后的网络流量值。
请参见图3,图3是本发明实施例提供的离群点剔除示意图。具体地,若判断Xt是离群值(即Xt对应的点是离群点),则用一个替换值将其覆盖。
在本实施例中,可以利用差值替换法计算离群点的替换值,如图3中(a)所示,通过将最后一个时间间隔中的流量值差与Xt前一时刻的流量值相加得到离群点的替换值,计算公式为:
Figure BDA0002979268730000101
其中,
Figure BDA0002979268730000102
表示离群点的替换值。Xt-1、Xt-2分别表示Xt前一个时刻、前两个时刻的流量值。
然后利用该离群点的替换值替换所述离群点的流量值。
在本发明的另一个实施例中,还可以利用趋势替换法计算离群点的替换值,如图3中(b)所示,其中,离群值Xt延续最近两个时间间隔内流量值的变化趋势,使离群点与前一时刻流量值间的差值继承上一时间间隔中的流量值之差,计算公式为:
Figure BDA0002979268730000103
其中,
Figure BDA0002979268730000104
表示离群点的替换值,Xt-1、Xt-2、Xt-3分别表示Xt前一个时刻、前两个时刻、前三个时刻的流量值。
然后利用该离群点的替换值替换所述离群点的流量值。
由于流量收集设备的故障或某些意外情况(例如紧急情况,社会事件和自然灾害等),采集的网络流量数据中存在一些缺失点和离群值,这些异常的流量值会导致较大的预测误差和较低的神经网络收敛速度,本发明提供的数据重建方法通过对流量数据中的缺失点和离群点进行筛选和剔除,可以有效避免异常数据对预测性能产生的负面影响,提高预测精度。
此外,本发明提供的差值替换法和趋势替换法可有效剔除流量中的离群点使流量数据更加稳定,从而为后续的EMD分解和神经网络训练做准备。其中,差值替换法更为直观,趋势替换法可以更好地捕获流量动态变化的特征。
S3:利用EMD算法对重建的网络流量值数据进行分解处理,得到若干网络流量值分量,包括:
S31:利用EMD算法对重建的网络流量值数据进行分解处理,得到具有不同频率的IMF分量。
EMD(Empirical Mode Decomposition,经验模态分解)主要是以信号的自身尺度特性为基础,无需预先设定任何基函数,而是通过筛选的方式将原始的时间序列自适应地分解为一系列的本征模态函数(Intrinsic Mode Function,IMF),这些IMFs彼此相互独立,且可凸显原始数据的局部特征信息。该方法既具备传统小波变换方法的多尺度分析的优势,又可克服小波分析中需提前设定基函数的问题,在处理非平稳非线性数据时具有明显优势,因此常用于处理具有自相似性的网络流量数据。
具体地,请参见图4,图4是本发明实施例提供的EMD分解流程示意图,具体流程如下:
31a)寻找重建后的网络流量值数据集x(t)中的上极值点和下极值点;
31b)用三次样条曲线分别拟合上极值点和下极值点的包络线eup(t)和elow(t),并找到包络线eup(t)和elow(t)的平均值m(t):
Figure BDA0002979268730000111
31c)通过在x(t)中减去m(t)来计算中间状态S(t):
S(t)=x(t)-m(t)
31d)判断S(t)是否符合IMF的约束条件;
31e)如果不符合,就用S(t)替换x(t)并重复上述步骤,直到S(t)符合IMF的约束条件,此时S(t)就是分解出的IMFi(t);
31f)若分解出一个IMF,就将该IMF信号从x(t)中剔除出去。
31g)重复上述步骤,直到信号的最后剩余部分rN(t)只是单调序列或小于阈值。至此,x(t)被分解为一系列IMF分量和一个余量rN(t):
Figure BDA0002979268730000121
其中,IMF有两个约束条件:①在整个数据段内,极值点的个数和过零点的个数必须相等或相差最多不能超过一个。②在任意时刻,由局部极大值点形成的上包络线和由局部极小值点形成的下包络线的平均值为零,即上、下包络线相对于时间轴局部对称。
通过以上方式,流量数据被分为从高频到低频的各尺度分量,使各分量的数据突发性小于原始流量数据,为神经网络训练和预测做准备。
本发明采用EMD分解算法,将数据流量值进行分解重构,将分解后的各个分量作为神经网络的输入数据,有效利用网络流量的多尺度特性,并在一定程度上削弱流量的混沌性对预测模型的影响,可以为不稳定的网络流量获得高精度的结果,使整体预测性能更加稳定。
S32:将每个IMF分量按照一定比例分割为训练集和测试集。
具体的,本实施例可按照35:1的比例分割为训练集和测试集,前者用于训练神经网络模型,后者用于测试训练后的模型的预测性能。
S4:利用所述若干网络流量值分量对GRU-VTD神经网络进行训练,得到训练好的GRU-VTD神经网络。
S41:构建多信息感知的GRU-VTD神经网络。请参见图5,图5是本发明实施例提供的多信息感知的GRU-VTD神经网络结构示意,具体流程如下:
41a)首先构建一个包括一个输入层、若干隐含层和一个输出层的普通RNN,各层之间依次连接,用于传输数据;
41b)将普通RNN中隐含层神经元替换为具有门控机制的GRU,得到一个普通的GRU神经网络,其输入层为输入层1,也即第一输入层,若干隐含层为第一批隐含层;
41c)将网络流量值作为普通的GRU神经网络的输入数据,得到GRU-V神经网络;
41d)在GRU-V神经网络的基础上,在第一批隐含层的最后一层与输出层之间加入与输入层1具有同等数量神经元的输入层2(即第二输入层)和与第一批隐含层具有同等规模的第二批隐含层,将输入层2和第一批隐含层的最后一层的输出作为第二批隐含层中第一层的输入数据,并将第二批隐含层中最后一层的输出数据传送给输出层,得到双信息感知的神经网络;
41e)将网络流量值对应的时间戳作为双信息感知的神经网络输入层2的输入数据,得到GRU-VT神经网络;
41f)在GRU-VT神经网络的基础上,在第二批隐含层的最后一层与输出层之间加入与输入层1具有同等数量神经元的输入层3(即第三输入层)和与第一批隐含层具有同等规模的第三批隐含层,将输入层3和第二批隐含层的最后一层的输出作为第三批隐含层中第一层的输入数据,并将第三批隐含层中最后一层的输出数据传送给输出层,得到多信息感知的神经网络;
41g)将网络流量值来自于星期几作为多信息感知的神经网络输入层3的输入数据,得到GRU-VTD神经网络。
通过该神经网络模型可以有效利用神经网络的多种属性信息,充分把握网络流量的周期性,从而提高预测精度。
本发明通过综合考虑网络流量的流量值、时间戳和星期几信息,构建多信息感知的神经网络GRU-VTD来利用流量数据的周期性,有效提高了预测的精度;同时,采用多信息感知的神经网络GRU-VTD进行预测,还可以有效利用网络流量的自相似性,克服传统预测模型预测精度低、收敛速度慢的缺点。
S42:将每个IMF分量中训练集的网络流量值及其对应的时间戳和来源信息分别输入到GRU-VTD神经网络的第一输入层、第二输入层以及第三输入层,得到的GRU-VTD神经网络的输出层结果。
具体地,将每个IMF分量中训练集的网络流量值及其对应的时间戳和来源信息(也即星期几)分别输入到与各IMF分量匹配的GRU-VTD神经网络的第一输入层(输入层1)、第二输入层(输入层2)以及第三输入层(输入层3),得到每个GRU-VTD神经网络的输出层结果。
S43:将GRU-VTD神经网络的输出层结果与输入的网络流量值之间的MSE作为损失函数调整神经网络节点间的连接权重,以对各个GRU-VTD神经网络进行训练,得到训练好的GRU-VTD神经网络。
S5:利用训练好的GRU-VTD神经网络进行预测,并根据得到的预测值和网络流量值数据计算预测误差,以对模型进行性能评估。
S51:将每个所述IMF分量中测试集的网络流量值及其对应的时间戳和来源信息分别输入到对应的训练好的GRU-VTD神经网络的第一输入层、第二输入层以及第三输入层,并将每个GRU-VTD神经网络的输出结果进行累加,得到模型的预测值。
具体地,将每个IMF分量中测试集的网络流量值及其对应的时间戳和来源信息(也即星期几)分别输入到对应的训练好的GRU-VTD神经网络的第一输入层(输入层1)、第二输入层(输入层2)以及第三输入层(输入层3),并将每个GRU-VTD神经网络的输出结果进行累加,得到模型的预测值。
S52:计算所述模型的预测值与所述网络流量值数据之间的预测误差,并根据该预测误差对网络模型进行评估。
本发明针对采集到的原始流量数据中的失真数据,以及当前网络流量的自相似性、周期性、混沌性、多尺度等特征,通过归一化、缺失点补全和离群值剔除来重建流量数据;再通过EMD技术将网络流量序列分解为多个分量,从而将网络流量的多尺度进行分离;然后综合考虑网络流量的流量值、时间戳和来源信息,构建多信息感知的神经网络GRU-VTD,并将EMD分解得到的各个分量分别用于训练与之对应的GRU-VTD,最后将所有神经网络的输出送入到累加器中以获得最终的预测结果。克服了现有预测技术中预测精度低、易陷入局部最优、鲁棒性低的缺点,具有更高的预测精度和稳定性。
实施例二
在上述实施例一的基础上,本实施例提供了一种基于数据重建和混合预测的网络流量预测装置,请参见图6,图6是本发明实施例提供的基于数据重建和混合预测的网络流量预测装置结构示意图,其包括:
数据获取模块1,用于获取网络流量值数据;
重建模块2,用于对所述网络流量值数据进行重建,得到重建的网络流量值数据;
分解模块3,用于利用EMD方法对所述重建的网络流量值数据进行分解处理,得到若干网络流量值分量;
训练模块4,用于利用若干网络流量值分量对GRU-VTD神经网络进行训练,得到训练好的GRU-VTD神经网络;
预测模块5,用于利用训练好的GRU-VTD神经网络进行预测,并根据得到的预测值和网络流量值数据计算预测误差,以对模型进行性能评估。
本实施例提供的基于数据重建和混合预测的网络流量预测装置可实现上述实施例一提供的基于数据重建和混合预测的网络流量预测方法,具体过程在此不再赘述。
实施例三
下面通过仿真实验对本发明的有益效果进行进一步说明。
1.仿真条件:
在本次仿真实验中使用的流量数据集由WIDE Internet的测量与分析(MAWI)工作组提供,提取2014年至2017年数据速率的平均值(以兆比特/秒(Mbps)为单位),采样间隔为10分钟,将采样后的网络流量数据作为实验的数据集。我们使用2014年1月至2017年11月的数据进行训练,其余数据用于测试训练好的模型。
在本次仿真实验中,缺失点补足步骤中的可接受的流量最低值为300Mbps,离群值消除的强度设置为6,EMD中IMF的保留数量设置为3。此外,将输入流量长度设置为一天(1440分钟),并将预测流量长度设置为半天(720分钟),因此将输入层中的神经元数设置为144,将输出层中的神经元数设置为72。隐藏层中的层数设置为1,隐藏层中的神经元数在GRU中设置为100,在GRU-VT和GRU-VTD中设置为10。神经网络的损失函数为MSE,学习率为0.1,训练的循环次数为30。具体如下表1所示:
表1仿真参数设置
Figure BDA0002979268730000171
2.仿真内容及结果分析:
本次仿真实验是利用本发明的方法和现有技术的方法,针对不同的改进机制,对各预测模型在对真实网络流量进行预测时的预测性能进行评估计算,仿真结果如图7-9所示。
在加入不同的网络流量属性信息时,GRU神经网络具有不同的预测精度。图7给出了本发明仿真中结合不同的网络流量属性信息后神经网络预测误差的对比图,图7中GRU-V表示基于GRU的预测模型,该模型仅将流量值作为输入,GRU-VT同时使用流量的值和时间戳,而GRU-VTD基于GRU-VT添加流量的星期几信息。如图7所示,GRU-VT的MSE平均值比GRU-V的小71.07%,GRU-VTD的MSE平均值比GRU-VT的小71.88%,这表明考虑了GRU-VT的属性信息使预测模型能够捕获网络流量的周期性,从而提高了预测准确性。
图8为本发明仿真中结合了网络流量值、时间戳和星期几信息的预测模型GRU-VTD与加入所提数据重建机制后的预测模型GRU-VTD-RC的预测误差对比图,从图8可以看出,在26天的测试数据中,在GRU-VTD模型基础上加入数据重建模块的GRU-VTD-RC具有比GRU-VTD更低的MSE,且MSE的平均值降低了45.76%。结果表明,数据重构过程可以有效消除数据集中的缺失点和离群值,有利于训练过程,从而提高了预测精度。但是,若某天的离群点较多,数据重建反而会增加预测误差。
图9为本发明仿真中GRU-VTD、GRU-VTD-RC以及结合了EMD和GRU-VTD-RC预测模型GRU-VTD-RC-EMD的预测误差对比图,如图7所示,通过添加EMD模块,与GRU-VTD-RC相比,GRU-VTD-RC-EMD具有更稳定的预测性能。GRU-VTD-RC和GRU-VTD-RC-EMD的MSE平均值分别为0.00268和0.00253。但是MSE的标准偏差在GRU-VTD-RC中为0.00171,在GRU-VTD-RC-EMD中为0.00081。换句话说,这两种预测方法的精度相似,但是GRU-VTD-RC-EMD的预测性能比GRU-VTD-RC更稳定。因此EMD可以平滑原始数据并减少因异常值频繁发生而造成的影响,从而使GRU更容易捕获数据特征并稳定地获得较高的预测精度。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (8)

1.一种基于数据重建和混合预测的网络流量预测方法,其特征在于,包括:
获取网络流量值数据;
对所述网络流量值数据进行重建,得到重建的网络流量值数据;
利用EMD算法对所述重建的网络流量值数据进行分解处理,得到具有不同频率的IMF分量,并将每个所述IMF分量按照一定比例分割为训练集和测试集;
构建多信息感知的GRU-VTD神经网络;其中,所述GRU-VTD神经网络包括第一输入层、第二输入层、第三输入层、第一批隐含层、第二批隐含层、第三批隐含层以及输出层;其中,第一输入层的数据输入到第一批隐含层,第二输入层的数据输入到第二批隐含层,第三输入层的数据输入到第三批隐含层,且前一批隐含层的输出数据为后一级隐含层的输入数据;
将每个所述IMF分量中训练集的网络流量值及其对应的时间戳和来源信息分别输入到所述GRU-VTD神经网络的第一输入层、第二输入层以及第三输入层,得到的GRU-VTD神经网络的输出层结果;
将所述GRU-VTD神经网络的输出层结果与输入的网络流量值之间的MSE作为损失函数调整神经网络节点间的连接权重,以对各个GRU-VTD神经网络进行训练,得到训练好的GRU-VTD神经网络;
利用训练好的GRU-VTD神经网络进行预测,并根据得到的预测值和网络流量值数据计算预测误差,以对模型进行性能评估。
2.根据权利要求1所述的基于数据重建和混合预测的网络流量预测方法,其特征在于,对所述网络流量值数据进行重建,得到重建的网络流量值数据,包括:
对所述网络流量值数据进行初始化,得到多信息的网络流量值数据;
对所述多信息的网络流量值数据中的缺失点进行补足,得到补足完整的网络流量值数据;
对所述补足完整的网络流量值数据中的离群点进行剔除,得到重建的网络流量值数据。
3.根据权利要求2所述的基于数据重建和混合预测的网络流量预测方法,其特征在于,对所述多信息的网络流量值数据中的缺失点进行补足,得到补足完整的网络流量值,包括:
根据可接受的流量最小值和相邻网络流量值之间的时间间隔对所述多信息的网络流量值数据进行筛查,当满足Xt<σ或两个相邻数据的时间间隔大于采样间隔时,则判定该点为缺失点;其中,Xt表示流量序列X(t)在时刻t的数据,σ表示可接受的流量最小值;
利用平均值法对所述缺失点进行补足,得到补足完整的网络流量值数据。
4.根据权利要求3所述的基于数据重建和混合预测的网络流量预测方法,其特征在于,利用平均值法对所述缺失点进行补足,包括:
根据当前缺失点的前三个时刻的数据平均值对该缺失点进行补足,表示为:
Figure QLYQS_1
其中,
Figure QLYQS_2
表示缺失点的补足值,Xt-1,Xt-2,Xt-3分别表示Xt前一个时刻、前两个时刻、前三个时刻的流量值。
5.根据权利要求2所述的基于数据重建和混合预测的网络流量预测方法,其特征在于,对所述补足完整的网络流量值数据中的离群点进行剔除,得到重建的网络流量值数据,包括:
对所述补足完整的网络流量值数据进行归一化处理,得到归一化的网络流量值数据;
对所述归一化的网络流量值数据进行筛查,当不满足
Figure QLYQS_3
Figure QLYQS_4
时,判定该点为离群点;其中,Xt表示流量序列X(t)在时刻t的数据,/>
Figure QLYQS_5
表示一天的Xt的平均值,δt表示一天的Xt的波动程度,k表示异常值消除程度影响因子,其取值范围为3到9的整数;
利用差值替换法或趋势替换法对所述离群点进行剔除,得到重建后的网络流量值。
6.根据权利要求5所述的基于数据重建和混合预测的网络流量预测方法,其特征在于,利用差值替换法或者趋势替换法对所述离群点进行剔除,包括:
利用插值替换法计算离群点的替换值,计算公式为:
Figure QLYQS_6
或者利用趋势替换法计算离群点的替换值,计算公式为:
Figure QLYQS_7
其中,
Figure QLYQS_8
表示离群点的替换值,Xt-1、Xt-2、Xt-3分别表示Xt前一个时刻、前两个时刻、前三个时刻的流量值;
利用该离群点的替换值替换所述离群点的流量值。
7.根据权利要求1所述的基于数据重建和混合预测的网络流量预测方法,其特征在于,利用训练好的GRU-VTD神经网络进行预测,并根据得到的预测值和网络流量值数据计算预测误差,以对模型进行性能评估,包括:
将每个所述IMF分量中测试集的网络流量值及其对应的时间戳和来源信息分别输入到对应的训练好的GRU-VTD神经网络的第一输入层、第二输入层以及第三输入层,并将每个GRU-VTD神经网络的输出结果进行累加,得到模型的预测值;
计算所述模型的预测值与所述网络流量值数据之间的预测误差,并根据该预测误差对网络模型进行评估。
8.一种基于数据重建和混合预测的网络流量预测装置,其特征在于,包括:
数据获取模块(1),用于获取网络流量值数据;
重建模块(2),用于对所述网络流量值数据进行重建,得到重建的网络流量值数据;
分解模块(3),用于利用EMD方法对所述重建的网络流量值数据进行分解处理,得到具有不同频率的IMF分量,并将每个所述IMF分量按照一定比例分割为训练集和测试集;
训练模块(4),用于构建多信息感知的GRU-VTD神经网络;其中,所述GRU-VTD神经网络包括第一输入层、第二输入层、第三输入层、第一批隐含层、第二批隐含层、第三批隐含层以及输出层;其中,第一输入层的数据输入到第一批隐含层,第二输入层的数据输入到第二批隐含层,第三输入层的数据输入到第三批隐含层,且前一批隐含层的输出数据为后一级隐含层的输入数据;
所述训练模块(4)还用于将每个所述IMF分量中训练集的网络流量值及其对应的时间戳和来源信息分别输入到所述GRU-VTD神经网络的第一输入层、第二输入层以及第三输入层,得到的GRU-VTD神经网络的输出层结果;
所述训练模块(4)还用于将所述GRU-VTD神经网络的输出层结果与输入的网络流量值之间的MSE作为损失函数调整神经网络节点间的连接权重,以对各个GRU-VTD神经网络进行训练,得到训练好的GRU-VTD神经网络;
预测模块(5),用于利用训练好的GRU-VTD神经网络进行预测,并根据得到的预测值和网络流量值数据计算预测误差,以对模型进行性能评估。
CN202110282845.4A 2021-03-16 2021-03-16 基于数据重建和混合预测的网络流量预测方法及装置 Active CN113157663B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110282845.4A CN113157663B (zh) 2021-03-16 2021-03-16 基于数据重建和混合预测的网络流量预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110282845.4A CN113157663B (zh) 2021-03-16 2021-03-16 基于数据重建和混合预测的网络流量预测方法及装置

Publications (2)

Publication Number Publication Date
CN113157663A CN113157663A (zh) 2021-07-23
CN113157663B true CN113157663B (zh) 2023-07-11

Family

ID=76887364

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110282845.4A Active CN113157663B (zh) 2021-03-16 2021-03-16 基于数据重建和混合预测的网络流量预测方法及装置

Country Status (1)

Country Link
CN (1) CN113157663B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114500298A (zh) * 2022-01-10 2022-05-13 南昌首页科技发展有限公司 一种网络流量的调度方法、系统、设备及存储介质
CN114881436B (zh) * 2022-04-22 2024-05-28 浙江大学 资源更新方法及装置
CN115442246B (zh) * 2022-08-31 2023-09-26 武汉烽火技术服务有限公司 数据平面网络的流量预测方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108306894A (zh) * 2018-03-19 2018-07-20 西安电子科技大学 一种基于攻击发生置信度的网络安全态势评估方法及系统
CN110851782A (zh) * 2019-11-12 2020-02-28 南京邮电大学 一种基于轻量级时空深度学习模型的网络流量预测方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103840988B (zh) * 2014-03-17 2017-03-01 湖州师范学院 一种基于rbf神经网络的网络流量测量方法
CN109816095B (zh) * 2019-01-14 2023-04-07 湖南大学 基于改进门控循环神经网络的网络流量预测方法
CN109802862B (zh) * 2019-03-26 2022-02-22 重庆邮电大学 一种基于集合经验模态分解的组合型网络流量预测方法
CN110866631A (zh) * 2019-10-09 2020-03-06 重庆大学 基于集成的门递归单元神经网络gru来预测大气污染情况的方法
CN112469053A (zh) * 2020-11-16 2021-03-09 山东师范大学 一种td-lte无线网络数据流量预测方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108306894A (zh) * 2018-03-19 2018-07-20 西安电子科技大学 一种基于攻击发生置信度的网络安全态势评估方法及系统
CN110851782A (zh) * 2019-11-12 2020-02-28 南京邮电大学 一种基于轻量级时空深度学习模型的网络流量预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
小波分析与神经网络的网络流量预测模型;王祥;;无线电工程(第06期);第 12-15页 *

Also Published As

Publication number Publication date
CN113157663A (zh) 2021-07-23

Similar Documents

Publication Publication Date Title
CN113157663B (zh) 基于数据重建和混合预测的网络流量预测方法及装置
CN110730099B (zh) 基于历史流量数据时间序列的流量预测方法
CN110866604A (zh) 一种电力变压器状态监测数据的清洗方法
CN111582551B (zh) 风电场短期风速预测方法、系统及电子设备
CN105469611B (zh) 一种短时交通流预测模型方法
CN113271225B (zh) 一种基于带内网络遥测技术的网络可靠性评估方法
CN109547251B (zh) 一种基于监控数据的业务系统故障与性能预测方法
CN109743356B (zh) 工业互联网数据采集方法及装置、可读存储介质和终端
CN110334105B (zh) 一种基于Storm的流数据异常检测方法
CN111241208A (zh) 一种周期性时序数据的异常监测方法及装置
Krishnaswamy et al. Data-driven learning to predict wan network traffic
CN110427298A (zh) 一种分布式日志的自动特征提取方法
CN112433927A (zh) 基于时间序列聚类和lstm的云服务器老化预测方法
CN117076955A (zh) 一种高压变频器的故障检测方法及系统
CN115376526A (zh) 一种基于声纹识别的电力设备故障检测方法及系统
CN111237646A (zh) 一种供水管网漏损的自动识别和定位方法
CN113780398A (zh) 一种无线网络链路质量预测方法及系统
WO2024104406A1 (zh) 异常检测的方法和云网络平台
CN113627685A (zh) 一种考虑风电上网负荷限制的风力发电机功率预测方法
CN110740063A (zh) 基于信号分解和周期特性的网络流量特征指标预测方法
CN115936196A (zh) 基于时序卷积网络的月降水模型预测方法
CN116016288A (zh) 工业设备的流量监测方法、装置、设备及存储介质
Zhao et al. Wavelet embedded attentive Bi-LSTM for short-term passenger flow forecasting
CN109241060B (zh) 换流站远传信号的分层分级方法与装置
Akritas et al. Nonlinear analysis of network traffic

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant