CN110417577B - 一种混杂数据流分流量峰值预测方法 - Google Patents

一种混杂数据流分流量峰值预测方法 Download PDF

Info

Publication number
CN110417577B
CN110417577B CN201910525350.2A CN201910525350A CN110417577B CN 110417577 B CN110417577 B CN 110417577B CN 201910525350 A CN201910525350 A CN 201910525350A CN 110417577 B CN110417577 B CN 110417577B
Authority
CN
China
Prior art keywords
flow
delay
correlation coefficient
delay time
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910525350.2A
Other languages
English (en)
Other versions
CN110417577A (zh
Inventor
章昭辉
蒋昌俊
王鹏伟
刘秋文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Donghua University
Original Assignee
Donghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Donghua University filed Critical Donghua University
Priority to CN201910525350.2A priority Critical patent/CN110417577B/zh
Publication of CN110417577A publication Critical patent/CN110417577A/zh
Application granted granted Critical
Publication of CN110417577B publication Critical patent/CN110417577B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour

Abstract

本发明的目的是:提高混杂数据流中分流量峰值预测的结果。为用户或系统提供更加准确的系统流量信息,并对系统的弹性伸缩提供更为准确的指标参数。为了达到上述目的,本发明的技术方案是提供了一种混杂数据流分流量峰值预测模型与方法。本发明提出延迟相关系数模型,在原有的时差相关分析法中引入了滑动时间窗口,可以更有效地计算得到延迟时间与延迟相关系数。本发明提出的混杂数据流分流量峰值预测方法,在原有单一预测模型的结果基础上引入辅助分流量对主分流量的影响,最终提高了最终峰值预测的结果。

Description

一种混杂数据流分流量峰值预测方法
技术领域
本发明涉及一种混杂数据流分流量峰值预测模型与方法,属于网络流量预测技术领域。
背景技术
随着我们的社会进入一个由数字数据主导的时代,我们已经看到了前所未有的数据量、速度和多样性。及时处理海量的高速数据已经成为一个主要的需求。处理大规模业务的流处理系统应运而生,如Storm、System S、Spark Streaming、Flink等。在流处理系统的实际应用中需要应对的一个复杂挑战是主动的弹性伸缩。在大规模业务系统环境中,短时的大规模用户合法行为聚集会造成系统行为异常,使得系统可用性受到极大的损害。这时需要对系统进行弹性伸缩以提高系统处理能力或提高资源利用率。
因此在主动的弹性伸缩中对于流量的峰值预测尤为重要。现有的主动弹性伸缩的研究中,较少研究流处理系统中存在业务相关的混杂数据流的分流量峰值预测方法。而分流量峰值预测方法能够为主动弹性伸缩提供更为准确的伸缩方向。
现有的网络流量预测将网络流量视为一个整体的流量。在文献中已经提出了几种用于网络流量预测的方法。传统的线性模型包括自回归模型(AR)、移动平均模型(MA)、自回归移动平均模型(ARMA)、自回归合成移动平均模型(ARIMA)等。同时随着神经网络,支持向量机等技术的不断提出,出现了基于机器学习算法的预测模型,例如人工神经网络,多层感知器(MLP),深度(deep learning)等。这些预测模型能够较好地解释流量的随机性和周期性。其中循环神经网络(recurrent neural network,RNN)是一种引入循环反馈的深层神经网络,考虑到时间序列的时序相关性,在学习具有长期依赖的时序数据上表现出更强的实用性。长短期记忆(long short-term memory,LSTM)循环神经网络作为RNN的一种特殊模型,能够学习时序数据之间的长期依赖关系,有效地解决了常规RNN训练过程中的梯度消失和梯度爆炸问题,在时间序列预测领域得到广泛应用。
但是上述方法将流量视为一体忽视了网络流量作为混杂流,其中各数据流之间可能存在的相关性。因此在混杂数据流中,对于分流量的预测缺少相关性的研究。同时由于混杂流中任意一时刻的数据的不确定性,导致混杂流中不同数据流之间的相关性难以确定。
发明内容
本发明的目的是:提高混杂数据流中分流量峰值预测的结果,为用户或系统提供更加准确的系统流量信息,并对系统的弹性伸缩提供更为准确的指标参数。
为了达到上述目的,本发明的技术方案是提供了一种混杂数据流分流量峰值预测方法,其特征在于,包括以下步骤:
步骤1、输入混杂数据流,混杂数据流包括要预测的主分流量及辅助分流量;
步骤2、计算混杂数据流中要预测的主分流量与其他辅助分流量之间的延迟相关系数与延迟时间,包括以下步骤:
步骤201、将主分流量定义为X={x1,x2,…,xl},将辅助分流量定义为P={y1,y2,…,yl},式中,l为观测值个数,xl表示主分流量中第l个观测值,yl表示辅助分流量中第l个观测值,计算主分流量X与辅助分流量Y之间的延迟相关系数,得到最佳的延迟时间与延迟相关系数;
步骤202、遍历所有延迟时间的情况,定义当前的延迟时间为e,判断是否遍历完所有可能的延迟时间,若遍历完所有可能的延迟时间,则跳转至步骤210,若未遍历完所有可能的延迟时间,进入步骤203;
步骤203、遍历所有时间窗口情况,定义时间窗口大小为h,定义滑动距离为t,若已遍历完,则跳转至步骤206,若未遍历完,则进入步骤204;
步骤204、计算当前延迟时间e下当前时间窗口的相关系数:
当前主分流量的滑动时间窗内序列为Xt={xt-h,xt-h+1,…,xt},xt表示序列x中第t个观测值,辅助分流量的滑动时间窗内序列Yt-e={yt-h-e,yt-h-e+1,…,yt-e},yt-e表示序列Y中第t-e个观测值,那么在延迟时间e、滑动距离t下,延迟相关系数
Figure BDA0002098015960000021
式中,ρ(·)表示计算Pearson相关系数;
步骤205、累加当前延迟时间e下的相关系数:
在当前延迟时间e下,对所有的滑动时间窗的延迟相关系数进行累加;
步骤206、计算得到当前延迟时间e下延迟相关系数均值作为主分流量与辅助分流量在延迟时间e下延迟相关系数dρ(X,Y)e
Figure BDA0002098015960000031
步骤207、如果步骤206计算得到的延迟相关系数大于等于最大延迟相关系数,则进入步骤208,否则进入步骤202;
步骤208、将当前两分流量的最大延迟相关系数更新为步骤206计算得到的延迟相关系数;
步骤209、将当前两分流量的延迟时间更新为步骤206计算延迟相关系数时的延迟时间;
步骤210、输出主分流量与辅助分流量的延迟相关系数与延迟时间;
步骤3、根据计算得到的最大延迟相关系数,选取主分流量的辅助分流量;
步骤4、对主分流量进行预测。
优选地,步骤4中,对主分流量进行预测时在原有单一预测模型的结果基础上引入辅助分流量对主分流量的影响,计算得到最终峰值预测的结果,包括以下步骤:
步骤401、通过单一流量预测方法的得到主分流量的初始预测结果X′={x′1,x′2,…,x′t,…,x′l},其中x′t表示对X中在t时刻的值xt的初始预测结果;
步骤402、若已经遍历完所有时刻,则结束本方法,若未遍历完所有时刻则进入步骤403;
步骤403、计算当前时刻主分流量的变化量Δxt=x′t-xt-1
步骤404、计算延迟时间的辅助分流量变化量Δyt=yt-e-yt-e-1
步骤405、计算主分流量与辅助分流量滑动时间窗内最值差的比值prot,则有:
Figure BDA0002098015960000032
式中,Xt-1表示序列X中滑动距离为t-1的滑动窗口子序列,Yt-1-e表示序列Y中滑动距离为t-1-e的滑动窗口子序列;
步骤406、计算权重α,
Figure BDA0002098015960000033
步骤407、根据分流量预测公式计算当前时刻的最终预测结果
Figure BDA0002098015960000041
本发明提出的混杂数据流分流量峰值预测模型与基模型(LSTM、一元线性回归)进行比较,可以得出该方法能够在原有方法的基础上有效提高混杂流中分流量峰值的预测结果,平均提高约23%。为用户或系统提供更加准确的系统流量信息,并对系统的弹性伸缩提供更为准确的指标参数。
附图说明
图1为预测模型整体流程图;
图2为延迟相关系数模型的具体流程图;
图3为分流量峰值预测方法的具体流程图。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
本发明涉及的一种混杂数据流分流量峰值预测的方法,主要有以下四部分内容:
(1)计算延迟相关系数
(2)选择辅助分流量
(3)单一流量预测
(4)通过分流量峰值预测方法计算得到最终预测结果
本发明的技术核心在于第(1)部分和第(4)部分。第(1)部分和第(4)部分提出的方法是选择辅助数据流和分流量峰值预测的核心。其中,第(2)部分中提出延迟相关系数模型,在原有的时差相关分析法中引入了滑动时间窗口。第(3)部分提出的混杂数据流分流量峰值预测方法,在原有单一预测模型的结果基础上引入辅助分流量对主分流量的影响,从而提高了最终峰值预测的结果。
根据以上思想,本发明提供了一种混杂数据流分流量峰值预测方法,具体计算流程如下:
S101、输入混杂数据流;
S102、对混杂数据流中的分数据流之间计算延迟相关系数,包括以下步骤:
S201、输入两组分流量,一组为主分流量,一组为辅助分流量。计算两者之间的延迟相关系数。定义主分流量X={x1,x2,…,xl},定义辅助分流量Y={y1,y2,…,yl},其中l为观测值个数,xl表示主分流量中第l个观测值,yl表示辅助分流量中第l个观测值。得到最佳的延迟时间与延迟相关系数;
S202、遍历所有延迟时间的情况,定义当前的延迟时间为e。判断是否遍历完所有可能的延迟时间,若遍历完所有可能的延迟时间,则跳转至步骤S210,若未遍历完所有可能的延迟时间,进入步骤S203;
S203、遍历所有时间窗口情况,定义时间窗大小为h。定义滑动距离为t。若已遍历完,则跳转至步骤S206,若未遍历完,则进入步骤S204;
S204、计算当前延迟时间e下当前时间窗口的相关系数:
当前主分流量的滑动时间窗内序列Xt={xt-h,xt-h+1,…,xt},xt表示序列X中第t个观测值,辅助分流量的滑动时间窗内序列Yt-e={yt-h-e,yt-h-e+1,…,yt-e},yt-e表示序列Y中第t-e个观测值。那么在延迟时间e、滑动距离t下,延迟相关系数
Figure BDA0002098015960000051
Figure BDA0002098015960000052
其中ρ(·)表示计算Pearson相关系数;
S205、累加当前延迟时间e下的相关系数。在当前的延迟时间e下,对所有的滑动时间窗口的延迟相关系数进行累加。
S206、计算得到当前延迟时间e下延迟相关系数均值作为主分流量与辅助分流量在延迟时间e下延迟相关系数dρ(X,Y)e
Figure BDA0002098015960000053
S207、如果步骤S206计算得到的延迟相关系数大于等于最大延迟相关系数,则进入步骤S208,否则进入S202;
S208、将当前两分流量的最大延迟相关系数更新为步骤206计算得到的延迟相关系数;
S209、将当前两分流量的延迟时间更新为步骤206计算延迟相关系数时的延迟时间;
S210、输出主分流量与辅助分流量的延迟相关系数与延迟时间;
S103、根据计算得到的最大延迟相关系数,选取主分流量的辅助分流量;
S104、对主分流量进行预测。其中:
混杂数据流分流量峰值预测模型包括以下步骤:
S301、通过单一流量预测方法的得到主分流量的初始预测结果X′={x′1,x′2,…,x′t,…,x′l},其中x′t表示对X中在t时刻的值xt的初始预测结果;
S302、遍历完所有时刻,若是则结束本方法,若否则进入步骤S303;
S303、计算当前时刻主分流量的变化量Δxt=x′t-xt-1
S304、计算延迟时间的辅助分流量变化量Δyt=yt-e-yt-e-1
S305、计算主分流量与辅助分流量滑动时间窗内最值差的比值prot
Figure BDA0002098015960000061
式中,Xt-1表示序列X中滑动距离为t-1的滑动窗口子序列,Yt-1-e表示序列Y中滑动距离为t-1-e的滑动窗口子序列;
S306、计算权重
Figure BDA0002098015960000062
S307、根据分流量预测公式计算当前时刻的最终预测结果
Figure BDA0002098015960000063

Claims (1)

1.一种混杂数据流分流量峰值预测方法,其特征在于,包括以下步骤:
步骤1、输入混杂数据流,混杂数据流包括要预测的主分流量及辅助分流量;
步骤2、计算混杂数据流中要预测的主分流量与其他辅助分流量之间的延迟相关系数与延迟时间,包括以下步骤:
步骤201、将主分流量定义为X={x1,x2,…,xl},将辅助分流量定义为Y={y1,y2,…,yl},式中,l为观测值个数,xl表示主分流量中第l个观测值,yl表示辅助分流量中第l个观测值,计算主分流量X与辅助分流量Y之间的延迟相关系数,得到最佳的延迟时间与延迟相关系数;
步骤202、遍历所有延迟时间的情况,定义当前的延迟时间为e,判断是否遍历完所有可能的延迟时间,若遍历完所有可能的延迟时间,则跳转至步骤210,若未遍历完所有可能的延迟时间,进入步骤203;
步骤203、遍历所有时间窗口情况,定义时间窗口大小为h,定义滑动距离为t,若已遍历完,则跳转至步骤206,若未遍历完,则进入步骤204;
步骤204、计算当前延迟时间e下当前时间窗口的相关系数:
当前主分流量的滑动时间窗内序列为Xt={xt-h,xt-h+1,…,xt},xt表示序列X中第t个观测值,辅助分流量的滑动时间窗内序列Yt-e={yt-h-e,yt-h-e+1,…,yt-e},yt-e表示序列Y中第t-e个观测值,那么在延迟时间e、滑动距离t下,延迟相关系数
Figure FDA0003114568800000012
式中,ρ(·)表示计算Pearson相关系数;
步骤205、累加当前延迟时间e下的相关系数:
在当前延迟时间e下,对所有的滑动时间窗的延迟相关系数进行累加;
步骤206、计算得到当前延迟时间e下延迟相关系数均值作为主分流量与辅助分流量在延迟时间e下延迟相关系数dρ(X,Y)e
Figure FDA0003114568800000011
步骤207、如果步骤206计算得到的延迟相关系数大于等于最大延迟相关系数,则进入步骤208,否则进入步骤202;
步骤208、将当前两分流量的最大延迟相关系数更新为步骤206计算得到的延迟相关系数;
步骤209、将当前两分流量的延迟时间更新为步骤206计算延迟相关系数时的延迟时间;
步骤210、输出主分流量与辅助分流量的延迟相关系数与延迟时间;
步骤3、根据计算得到的最大延迟相关系数,选取主分流量的辅助分流量;
步骤4、对主分流量进行预测,对主分流量进行预测时在原有单一预测模型的结果基础上引入辅助分流量对主分流量的影响,计算得到最终峰值预测的结果,包括以下步骤:
步骤401、通过单一流量预测方法的得到主分流量的初始预测结果X′={x′1,x′2,…,x′t,…,x′l},其中x′t表示对X中在t时刻的值xt的初始预测结果;
步骤402、若已经遍历完所有时刻,则结束本方法,若未遍历完所有时刻则进入步骤403;
步骤403、计算当前时刻主分流量的变化量Δxt=x′t-xt-1
步骤404、计算延迟时间的辅助分流量变化量Δyt=yt-e-yt-e-1
步骤405、计算主分流量与辅助分流量滑动时间窗内最值差的比值prot,则有:
Figure FDA0003114568800000021
式中,Xt-1表示序列X中滑动距离为t-1的滑动窗口子序列,Yt-1-e表示序列Y中滑动距离为t-1-e的滑动窗口子序列;
步骤406、计算权重α,
Figure FDA0003114568800000022
步骤407、根据分流量预测公式计算当前时刻的最终预测结果
Figure FDA0003114568800000023
CN201910525350.2A 2019-06-18 2019-06-18 一种混杂数据流分流量峰值预测方法 Active CN110417577B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910525350.2A CN110417577B (zh) 2019-06-18 2019-06-18 一种混杂数据流分流量峰值预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910525350.2A CN110417577B (zh) 2019-06-18 2019-06-18 一种混杂数据流分流量峰值预测方法

Publications (2)

Publication Number Publication Date
CN110417577A CN110417577A (zh) 2019-11-05
CN110417577B true CN110417577B (zh) 2021-11-26

Family

ID=68359183

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910525350.2A Active CN110417577B (zh) 2019-06-18 2019-06-18 一种混杂数据流分流量峰值预测方法

Country Status (1)

Country Link
CN (1) CN110417577B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291922B (zh) * 2020-01-16 2022-06-21 东华大学 一种基于动态时间窗的混杂数据流分流量预测方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0989755A2 (en) * 1998-09-25 2000-03-29 Sarnoff Corporation A system and method for processing a video stream with a flash sequence
CN101150581A (zh) * 2007-10-19 2008-03-26 华为技术有限公司 分布式拒绝服务攻击检测方法及装置
CN103716180A (zh) * 2013-12-04 2014-04-09 国网上海市电力公司 基于网络流量实际预测的网络异常预警方法
CN106128101A (zh) * 2016-06-29 2016-11-16 肖锐 交通流量短时预测结果的可视化装置
CN107885803A (zh) * 2017-10-31 2018-04-06 中国地质大学(武汉) 一种大数据写入、读取速度耦合的方法、设备及存储设备
WO2019001722A1 (en) * 2017-06-29 2019-01-03 Huawei Technologies Co., Ltd. SYSTEMS AND METHOD FOR PREDICTING FLOWS IN A NETWORK
CN109740044A (zh) * 2018-12-24 2019-05-10 东华大学 一种基于时间序列智能预测的企业异动预警方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7321565B2 (en) * 2003-08-29 2008-01-22 Ineoquest Technologies System and method for analyzing the performance of multiple transportation streams of streaming media in packet-based networks

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0989755A2 (en) * 1998-09-25 2000-03-29 Sarnoff Corporation A system and method for processing a video stream with a flash sequence
CN101150581A (zh) * 2007-10-19 2008-03-26 华为技术有限公司 分布式拒绝服务攻击检测方法及装置
CN103716180A (zh) * 2013-12-04 2014-04-09 国网上海市电力公司 基于网络流量实际预测的网络异常预警方法
CN106128101A (zh) * 2016-06-29 2016-11-16 肖锐 交通流量短时预测结果的可视化装置
WO2019001722A1 (en) * 2017-06-29 2019-01-03 Huawei Technologies Co., Ltd. SYSTEMS AND METHOD FOR PREDICTING FLOWS IN A NETWORK
CN107885803A (zh) * 2017-10-31 2018-04-06 中国地质大学(武汉) 一种大数据写入、读取速度耦合的方法、设备及存储设备
CN109740044A (zh) * 2018-12-24 2019-05-10 东华大学 一种基于时间序列智能预测的企业异动预警方法

Also Published As

Publication number Publication date
CN110417577A (zh) 2019-11-05

Similar Documents

Publication Publication Date Title
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
CN110149237B (zh) 一种Hadoop平台计算节点负载预测方法
CN106933649B (zh) 基于移动平均和神经网络的虚拟机负载预测方法及系统
CN114503121A (zh) 资源约束的神经网络架构搜索
CN106897254B (zh) 一种网络表示学习方法
CN108304890B (zh) 一种分类模型的生成方法及装置
CN108446770B (zh) 一种基于采样的分布式机器学习慢节点处理系统及方法
CN107704426A (zh) 基于扩展小波神经网络模型的水位预测方法
CN110417577B (zh) 一种混杂数据流分流量峰值预测方法
CN115862319A (zh) 一种面向时空图自编码器的交通流量预测方法
CN111444328A (zh) 一种带有解释生成的自然语言自动预测推断方法
CN114219027A (zh) 一种基于离散小波变换的轻量级时间序列预测方法
CN112417890B (zh) 一种基于多样化语义注意力模型的细粒度实体分类方法
CN112214592A (zh) 一种回复对话评分模型训练方法、对话回复方法及其装置
CN111667694A (zh) 一种基于改进dtw-knn的短时交通流预测方法
Yuan Jitter buffer control algorithm and simulation based on network traffic prediction
CN110826397A (zh) 一种基于高阶低秩多模态注意力机制的视频描述方法
CN111291922B (zh) 一种基于动态时间窗的混杂数据流分流量预测方法
Yang et al. A chaotic time series prediction model for speech signal encoding based on genetic programming
CN115796187A (zh) 一种基于对话结构图约束的开放域对话方法
CN113240098A (zh) 基于混合门控神经网络的故障预测方法、装置和存储介质
Cantarella et al. Macroscopic vs. mesoscopic traffic flow models in signal setting design
Wang A study on the stock market prediction based on genetic neural network
Kesumawati et al. Forecasting Bank Indonesia Rate based on Fuzzy Time Series with Higher Forecast Accuracy Rate
CN111091011A (zh) 领域预测方法、领域预测装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant