CN114826947A - 一种基于自动编码器的流量矩阵恢复预测方法及系统 - Google Patents

一种基于自动编码器的流量矩阵恢复预测方法及系统 Download PDF

Info

Publication number
CN114826947A
CN114826947A CN202210271908.0A CN202210271908A CN114826947A CN 114826947 A CN114826947 A CN 114826947A CN 202210271908 A CN202210271908 A CN 202210271908A CN 114826947 A CN114826947 A CN 114826947A
Authority
CN
China
Prior art keywords
data
traffic matrix
matrix
training
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210271908.0A
Other languages
English (en)
Other versions
CN114826947B (zh
Inventor
郑伟平
黎毅勇
洪敏丽
赵淦森
叶锐豪
陈宗晓
季河锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Normal University
Original Assignee
South China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Normal University filed Critical South China Normal University
Priority to CN202210271908.0A priority Critical patent/CN114826947B/zh
Publication of CN114826947A publication Critical patent/CN114826947A/zh
Application granted granted Critical
Publication of CN114826947B publication Critical patent/CN114826947B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明属于流量矩阵预测技术领域,具体涉及一种基于自动编码器的流量矩阵恢复预测方法、系统及平台。本发明通过方法:获取流量矩阵数据集;按照流量矩阵的采集时间先后划分出三个子集;使用滑动窗口的方法生成可供模型训练的数据样本,同时为每一个流量矩阵按照特定比例随机生成一个对应的掩码标记矩阵,标记数据值是否缺失,以得到可训练的数据样本集;利用得到的数据样本集对构建的自动编码器网络模型进行训练,根据恢复的流量数据值与缺失的真实值和预测的流量矩阵数据与预测目标值的误差调整模型参数,以得到流量矩阵的恢复与预测的最终模型,可以降低流量矩阵采集的成本以及提升流量矩阵预测的性能。

Description

一种基于自动编码器的流量矩阵恢复预测方法及系统
技术领域
本发明属于流量矩阵预测技术领域,具体涉及一种基于自动编码器的流量矩阵恢复预测方法、系统及平台。
背景技术
流量矩阵表示网络中所有节点两两成对组成一条条从源端到目的端的流在一定时间间隔内的流量值。准确预测未来的流量矩阵对网络管理有重要作用,特别是在流量工程、流量调度或重新路由、容量规划、网络设计、资源规划、网络异常检测、服务质量起着重要作用。网络管理者或运营商通过收集流量矩阵,准确预测未来流量矩阵可以提前预知网络未来可能的流量需求,提前做出相应决策,从而节省网络成本,优化网络资源。然而,现代网络流量是极其复杂和动态的,这使得对网络行为的建模和预测变得异常困难。过去常用的方法是应用传统的时间序列预测技术,如自回归综合移动平均或线性回归。由于网络流量的复杂性、突变性以及动态性,这些传统时间序列预测技术性能有限,难以模拟网络流量的非线性特征。
为此,有一些研究利用深度学习技术,如递归神经网络来预测流量矩阵。然而,这些现有的预测方法需要精确的历史流量矩阵作为输入,而由于网络拓扑结构的复杂性、网络监控设备性能有限以及在高速网络中获取全网端到端流量的高开销,在大型真实网络中收集准确的流量矩阵数据是非常困难的。模型的预测精度很大程度取决于历史的流量矩阵数据,然而测量全网的网络流量是不太可能的或成本过高的。因此在输入的流量矩阵数据中出现缺失或错误的情况下,模型的预测性能较差。面对输入的流量矩阵数据缺失或错误的情况,一种常见的做法是通过数据插值填补缺失或者异常的数据,比如填充平均值。然而,这样的方法难以真正的填补缺失的流量数值,对模型的预测性能提升有限。
因此,针对以上传统时间序列预测技术性能有限,难以模拟网络流量的非线性特征的技术问题缺陷,急需设计和开发一种基于自动编码器的流量矩阵恢复预测方法、系统及平台。
发明内容
本发明的第一目的在于提供一种基于自动编码器的流量矩阵恢复预测方法;
本发明的第二目的在于提供一种基于自动编码器的流量矩阵恢复预测系统;
本发明的第三目的在于提供一种基于自动编码器的流量矩阵恢复预测平台;
本发明的第一目的是这样实现的:所述方法具体包括如下步骤:
实时获取流量矩阵数据集;
对原始数据集进行实时划分,并实时生成模型训练特定长度的数据样本;
通过预设比例为每一个所述数据样本中,每一个历史流量矩阵数据生成掩码标记矩阵,实时标记所述流量矩阵各条流的数据是否缺失;
根据所述数据样本,结合构建的网络模型,对缺失的历史流量矩阵数据进行恢复处理;
将未缺失的真实数据值和缺失的重建数据值组合成新的重组流量矩阵序列;
预测未来下一个的流量矩阵;
利用训练集对构建的自动编码器网络模型进行训练和参数调优处理;
使用验证集挑选最优的网络模型参数,以及使用测试集对所选的网络模型参数进行有效性验证。
进一步地,所述步骤对原始数据集进行实时划分,并实时生成模型训练特定长度的数据样本之中,还包括如下步骤:
将原始数据集分别划分为训练集、验证集和测试集;
使用滑动窗口方法将所述数据集生成网络模型训练需要的数据样本。
进一步地,所述步骤根据所述数据样本,结合构建的网络模型,对缺失的历史流量矩阵数据进行恢复处理之中,还包括如下步骤:
将流量矩阵数据投影至高维空间,生成可学习的潜在的特征表示或特征向量。
进一步地,所述步骤将未缺失的真实数据值和缺失的重建数据值组合成新的重组流量矩阵序列具体为:
将原始输入的流量矩阵序列中带有掩码标记为1的真实数据值和恢复后的流量矩阵序列中带有掩码标记为0的重建数据值组合成新的重组流量矩阵序列。
进一步地,所述步骤预测未来下一个的流量矩阵之中,还包括如下步骤:
对重组流量矩阵序列进行经过多层LSTM单元处理,并生成一个新的流量矩阵序列;
将新生成的流量矩阵序列末尾的一个流量矩阵作为模型对未来下一个流量矩阵的预测值。
进一步地,所述步骤利用训练集对构建的自动编码器网络模型进行训练和参数调优处理之中,还包括如下步骤:
根据计算模型对历史流量矩阵缺失数据的预测值与真实值的误差和对下一个流量矩阵预测值与目标值的误差对模型进行训练;
调整模型中各个部分网络结构的参数,生成一个能够恢复历史流量矩阵数据和预测下一个流量矩阵的模型。
进一步地,所述步骤利用训练集对构建的自动编码器网络模型进行训练和参数调优处理之中,网络模型训练中的总损失函数采用以下计算公式:
Loss=0.5*Loss_X+0.5*Loss_Y (1)
其中,Loss表示所述总损失函数,Loss_X表示数据恢复部分损失函数,数据恢复部分的损失函数只计算掩码标记为0的历史流量矩阵数据的预测误差;Loss_Y,表示流量预测部分的损失函数;
Figure BDA0003553788570000041
Figure BDA0003553788570000042
其中,m表示所述流量矩阵数据值的数量,maski表示数据值的掩码标记,xi表示历史流量矩阵数据的真实值,
Figure BDA0003553788570000043
表示模型恢复的预测值,yi表示预测的流量矩阵数据的真实值,
Figure BDA0003553788570000044
表示预测流量矩阵的预测值。
本发明的第二目的是这样实现的:所述系统具体包括:
获取单元,用于实时获取流量矩阵数据集;
划分生成单元,用于对原始数据集进行实时划分,并实时生成模型训练特定长度的数据样本;
生成标记单元,用于通过预设比例为每一个所述数据样本中,每一个历史流量矩阵数据生成掩码标记矩阵,实时标记所述流量矩阵各条流的数据是否缺失;
恢复处理单元,用于根据所述数据样本,结合构建的网络模型,对缺失的历史流量矩阵数据进行恢复处理;
重组单元,用于将未缺失的真实数据值和缺失的重建数据值组合成新的重组流量矩阵序列;
预测单元,用于预测未来下一个的流量矩阵;
训练及调优处理单元,用于利用训练集对构建的自动编码器网络模型进行训练和参数调优处理;
验证单元,用于使用验证集挑选最优的网络模型参数,以及使用测试集对所选的网络模型参数进行有效性验证。
进一步地,所述划分生成单元中,还设置有:
划分模块,用于将原始数据集分别划分为训练集、验证集和测试集;
第一生成模块,用于使用滑动窗口方法将所述数据集生成网络模型训练需要的数据样本;
所述恢复处理单元中,还设置有:
第二生成模块,用于将流量矩阵数据投影至高维空间,生成可学习的潜在的特征表示或特征向量;
所述步骤将未缺失的真实数据值和缺失的重建数据值组合成新的重组流量矩阵序列具体为:
将原始输入的流量矩阵序列中带有掩码标记为1的真实数据值和恢复后的流量矩阵序列中带有掩码标记为0的重建数据值组合成新的重组流量矩阵序列;
所述预测单元中,还包设置有:
第三生成模块,用于对重组流量矩阵序列进行经过多层LSTM单元处理,并生成一个新的流量矩阵序列;
预测值确定模块,用于将新生成的流量矩阵序列末尾的一个流量矩阵作为模型对未来下一个流量矩阵的预测值;
所述步骤训练及调优处理单元中,还设置有:
模型训练模块,用于根据计算模型对历史流量矩阵缺失数据的预测值与真实值的误差和对下一个流量矩阵预测值与目标值的误差对模型进行训练;
第四生成模块,用于调整模型中各个部分网络结构的参数,生成一个能够恢复历史流量矩阵数据和预测下一个流量矩阵的模型。
本发明的第三目的是这样实现的:包括:处理器、存储器以及基于自动编码器的流量矩阵恢复预测平台控制程序;
其中在所述的处理器执行所述的基于自动编码器的流量矩阵恢复预测平台控制程序,所述的基于自动编码器的流量矩阵恢复预测平台控制程序被存储在所述存储器中,所述的基于自动编码器的流量矩阵恢复预测平台控制程序,实现所述的基于自动编码器的流量矩阵恢复预测方法步骤。
本发明通过方法实时获取流量矩阵数据集;对原始数据集进行实时划分,并实时生成模型训练特定长度的数据样本;通过预设比例为每一个所述数据样本中,每一个历史流量矩阵数据生成掩码标记矩阵,实时标记所述流量矩阵各条流的数据是否缺失,以此模拟数据缺失的情况;根据所述数据样本,结合构建的网络模型,对缺失的历史流量矩阵数据进行恢复处理;将未缺失的真实数据值和缺失的重建数据值组合成新的重组流量矩阵序列;预测未来下一个的流量矩阵;利用训练集对构建的自动编码器网络模型进行训练和参数调优处理;使用验证集挑选最优的网络模型参数,以及使用测试集对所选的网络模型参数进行有效性验证,以及与所述方法相应的系统、平台,本方案利用流量矩阵的部分真实数据,恢复流量矩阵缺失的数据,然后根据恢复的流量矩阵序列预测下一个流量矩阵,可以降低流量矩阵采集的成本以及提升流量矩阵预测的性能。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种基于自动编码器的流量矩阵恢复预测方法优选实施例总体流程示意图;
图2为本发明一种基于自动编码器的流量矩阵恢复预测方法之使用的滑动窗口方法生成数据样本示意图;
图3为本发明一种基于自动编码器的流量矩阵恢复预测方法之基于掩码自动编码器的模型网络总体结构示意图;
图4为本发明一种基于自动编码器的流量矩阵恢复预测方法之基于掩码自动编码器的模型网络中所述编码器部分的网络结构示意图;
图5为本发明一种基于自动编码器的流量矩阵恢复预测方法之基于掩码自动编码器的模型网络中所述处理块的网络结构示意图;
图6为本发明一种基于自动编码器的流量矩阵恢复预测方法之基于掩码自动编码器的模型网络中所述解码器部分的网络结构示意图;
图7为本发明一种基于自动编码器的流量矩阵恢复预测方法之基于掩码自动编码器的流量矩阵的恢复方法示意图;
图8为本发明一种基于自动编码器的流量矩阵恢复预测方法流程示意图;
图9为本发明一种基于自动编码器的流量矩阵恢复预测系统架构示意图;
图10为本发明一种基于自动编码器的流量矩阵恢复预测平台架构示意图;
图11为本发明一种实施例中计算机可读取存储介质架构示意图;
本发明目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为便于更好的理解本发明的目的、技术方案和优点更加清楚,下面结合附图和具体的实施方式对本发明作进一步说明,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。
本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
需要说明,若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后……),则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,若本发明实施例中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。其次,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时,应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
优选地,本发明一种基于自动编码器的流量矩阵恢复预测方法应用在一个或者多个终端或者服务器中。所述终端是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述终端可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端可以与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
本发明为实现一种基于自动编码器的流量矩阵恢复预测方法、系统、平台及存储介质。
如图1-8所示,是本发明实施例提供的基于自动编码器的流量矩阵恢复预测方法的流程图。
在本实施例中,所述基于自动编码器的流量矩阵恢复预测方法,可以应用于具备显示功能的终端或者固定终端中,所述终端并不限定于个人电脑、智能手机、平板电脑、安装有摄像头的台式机或一体机等。
所述基于自动编码器的流量矩阵恢复预测方法也可以应用于由终端和通过网络与所述终端进行连接的服务器所构成的硬件环境中。网络包括但不限于:广域网、城域网或局域网。本发明实施例的基于自动编码器的流量矩阵恢复预测方法可以由服务器来执行,也可以由终端来执行,还可以是由服务器和终端共同执行。
例如,对于需要进行基于自动编码器的流量矩阵恢复预测终端,可以直接在终端上集成本发明的方法所提供的基于自动编码器的流量矩阵恢复预测功能,或者安装用于实现本发明的方法的客户端。再如,本发明所提供的方法还可以软件开发工具包(SoftwareDevelopment Kit,SDK)的形式运行在服务器等设备上,以SDK的形式提供基于自动编码器的流量矩阵恢复预测功能的接口,终端或其他设备通过所提供的接口即可实现基于自动编码器的流量矩阵恢复预测功能。
以下结合附图对本发明作进一步阐述。
如图1-8所示,本发明提供了一种基于自动编码器的流量矩阵恢复预测方法,所述的方法具体包括如下步骤:
S1、实时获取流量矩阵数据集;
S2、对原始数据集进行实时划分,并实时生成模型训练特定长度的数据样本;
S3、通过预设比例为每一个所述数据样本中,每一个历史流量矩阵数据生成掩码标记矩阵,实时标记所述流量矩阵各条流的数据是否缺失;
S4、根据所述数据样本,结合构建的网络模型,对缺失的历史流量矩阵数据进行恢复处理;
S5、将未缺失的真实数据值和缺失的重建数据值组合成新的重组流量矩阵序列;
S6、预测未来下一个的流量矩阵;
S7、利用训练集对构建的自动编码器网络模型进行训练和参数调优处理;
S8、使用验证集挑选最优的网络模型参数,以及使用测试集对所选的网络模型参数进行有效性验证。
所述步骤对原始数据集进行实时划分,并实时生成模型训练特定长度的数据样本之中,还包括如下步骤:
S21、将原始数据集分别划分为训练集、验证集和测试集;
S22、使用滑动窗口方法将所述数据集生成网络模型训练需要的数据样本。
所述步骤根据所述数据样本,结合构建的网络模型,对缺失的历史流量矩阵数据进行恢复处理之中,还包括如下步骤:
S41、将流量矩阵数据投影至高维空间,生成可学习的潜在的特征表示或特征向量。
所述步骤将未缺失的真实数据值和缺失的重建数据值组合成新的重组流量矩阵序列具体为:
将原始输入的流量矩阵序列中带有掩码标记为1的真实数据值和恢复后的流量矩阵序列中带有掩码标记为0的重建数据值组合成新的重组流量矩阵序列。
所述步骤预测未来下一个的流量矩阵之中,还包括如下步骤:
S61、对重组流量矩阵序列进行经过多层LSTM单元处理,并生成一个新的流量矩阵序列;
S62、将新生成的流量矩阵序列末尾的一个流量矩阵作为模型对未来下一个流量矩阵的预测值。
所述步骤利用训练集对构建的自动编码器网络模型进行训练和参数调优处理之中,还包括如下步骤:
S71、根据计算模型对历史流量矩阵缺失数据的预测值与真实值的误差和对下一个流量矩阵预测值与目标值的误差对模型进行训练;
S72、调整模型中各个部分网络结构的参数,生成一个能够恢复历史流量矩阵数据和预测下一个流量矩阵的模型。
所述步骤利用训练集对构建的自动编码器网络模型进行训练和参数调优处理之中,网络模型训练中的总损失函数采用以下计算公式:
Loss=0.5*Loss_X+0.5*Loss_Y (1)
其中,Loss表示所述总损失函数,Loss_X表示数据恢复部分损失函数,数据恢复部分的损失函数只计算掩码标记为0的历史流量矩阵数据的预测误差;Loss_Y,表示流量预测部分的损失函数;
Figure BDA0003553788570000111
Figure BDA0003553788570000112
其中,m表示所述流量矩阵数据值的数量,maski表示数据值的掩码标记,xi表示历史流量矩阵数据的真实值,
Figure BDA0003553788570000113
表示模型恢复的预测值,yi表示预测的流量矩阵数据的真实值,
Figure BDA0003553788570000114
表示预测流量矩阵的预测值。
具体地,在本发明实施例中,构建的基于自动编码器的网络模型,主要包括两部分:数据恢复部分和预测部分。一方面提供流量矩阵数据的恢复方法,另一方面根据这些恢复的流量矩阵数据预测下一个时间段的流量矩阵。
对于构建的网络模型中数据恢复部分,主要是由自动编码器完成,包括编码器和解码器,其中编码器负责将真实获取的流量矩阵数据映射为高维特征向量,解码器则从这些高维特征向量恢复缺失的流量矩阵数据。
所述编码器由嵌入层、位置编码层、归一化层和一系列的处理块组成。嵌入层将流量矩阵数据投影到高维空间,得到可学习的潜在的特征表示或特征向量;位置编码层则为这些特征向量添加位置信息,使得所述解码器能够得到流量矩阵序列中的位置信息。加入归一化层可以改变模型训练过程中的数据特征分布,保证其的稳定性;所述处理块包含归一化层、注意力机制和多层感知器。
所述解码器包含嵌入层、所述位置编码层、归一化层、全连接层和上述的一系列所述处理块。
对于构建的网络模型中预测部分由LSTM网络完成。所述的LSTM网络有一系列LSTM单元组成,每个LSTM单元都包含遗忘门、输入门和输出门。当输入新的信息时,遗忘门决定LSTM单元遗忘哪些就得信息。输入门则确定哪些新的信息会被保留在LSTM单元状态中。输出门则决定LSTM单元的输出值。LSTM通过遗忘门、输入门、输出门以及Sigmoid函数和tanh函数减少梯度消失和梯度爆炸的问题。因此可以处理流量矩阵序列中的长短期依赖问题。
本发明提出的一种基于自动编码器的流量矩阵恢复和预测的方法,主要步骤包括:
获取流量矩阵数据集,将原始数据集划分为训练集、验证集与测试集,根据需要使用滑动窗口的方法生成模型训练的特定长度的数据样本,其中前一部分则为历史流量矩阵序列,最后一个则是模型预测的目标流量矩阵。
按照预设比例为每一个生成的数据样本中每一个历史流量矩阵数据生成掩码标记矩阵,标记此流量矩阵各条流的数据是否缺失,以此模拟数据缺失的情况。
将所述的数据样本输入到构建的网络模型中,样本先经过编码器处理,经过嵌入层和位置编码层处理后得到特征向量,然后输入到编码器中的一系列处理块,其中只有掩码标记为未缺失的数据才会被处理块处理,节省计算成本和减少内存占用。包含经所述编码器处理的特征向量和掩码令牌的全集会被输入到解码器中。每个掩码令牌都是一个共享的、可学习的向量,表明待恢复的缺失数据的存在。所述全集在解码器中会经过位置编码层添加位置嵌入,否则掩码令牌没有关于其在流量矩阵序列中的位置信息。最后经过解码器中处理块处理得到特征向量集,再经过归一化层和一个全连接层最终得到恢复后的流量矩阵序列。
将原始输入的流量矩阵序列中标记为未缺失的真实数据值和恢复后的流量矩阵序列中标记为缺失的重建数据值组合成新的重组流量矩阵序列。
所述的重组流量矩阵序列被输入到预测部分的LSTM网络中,经过多层LSTM单元中各个门的作用下得到一个新的流量矩阵序列,其中末尾的一个流量矩阵则作为模型对未来下一个流量矩阵的预测值。
利用所述的流量矩阵样本集对构建的自动编码器网络模型进行训练,根据计算模型对历史流量矩阵缺失数据的预测值与真实值的误差和对下一个流量矩阵预测值与目标值的误差对模型进行训练,调整模型中各个部分网络结构的参数,最终得到一个能够恢复历史流量矩阵数据和预测下一个流量矩阵的模型。所述的网络模型训练中的总损失函数采用以下计算公式:
Loss=0.5*Loss_X+0.5*Loss_Y (1)
其中,Loss表示所述总损失函数,Loss_X表示数据恢复部分损失函数,数据恢复部分的损失函数只计算掩码标记为0的历史流量矩阵数据的预测误差;Loss_Y,表示流量预测部分的损失函数;
Figure BDA0003553788570000131
Figure BDA0003553788570000132
其中,m表示所述流量矩阵数据值的数量,maski表示数据值的掩码标记,xi表示历史流量矩阵数据的真实值,
Figure BDA0003553788570000133
表示模型恢复的预测值,yi表示预测的流量矩阵数据的真实值,
Figure BDA0003553788570000134
表示预测流量矩阵的预测值。
也就是说,图1是本发明的一种基于自动编码器的流量矩阵的恢复与预测方法的总体流程图,包括:
步骤S101,获取流量矩阵数据集,本发明中使用的数据集是Abilene数据集,该数据收集自Abilene真实网络,该网络具有12个网络节点,因此流量矩阵中存在144条流的流量值数据。该数据集总共有48046个采集间隔为5分钟的流量矩阵数据。
步骤S102,所述数据集是从2004年3月1日到2004年9月10日之间采集的,本发明按采集时间顺序和60%、20%和20%的比例将该数据集划分成3个子集:训练集、验证集和测试集。训练集用作构建的网络模型训练和参数调优;验证集则选择误差最小的模型参数;测试集则验证上述最优模型参数的有效性。
步骤S103,为了增加可训练的样本,使用滑动窗口的方法将所述数据集生成网络模型训练需要的数据样本。
图2是本发明中使用的滑动窗口方法生成数据样本的示意图。通过设置一个窗口大小为L+1的滑动窗口,前L部分则是历史流量矩阵序列,最后1个则是要预测的流量矩阵目标值。滑动窗口在流量矩阵序列上滑动,每次滑动1个步长,因此在包含S个流量矩阵的数据集上可生成S-L个数据样本。因此,本发明使用大小为13的滑动窗口,步长为1进行切割,得到长度为13的流量矩阵序列。其中前12个流量矩阵为历史流量矩阵序列,最后1个流量矩阵则为模型要预测的目标流量矩阵。
步骤S104,随机添加掩码标记。为了模拟历史数据缺失的情况,给历史流量矩阵序列中每一个流量矩阵生成一个对应的掩码标记矩阵。若掩码标记矩阵中值标记为0则表示该数据缺失,标记为1则表示该数据是获取的真实值。本发明按照特定数据缺失比例(如75%)随机生成的掩码标记矩阵。将历史流量矩阵序列和对应掩码标记矩阵叠加可以得到可供模型训练、带有掩码标记的数据样本。
将上述数据样本输入到构建的网络模型中训练。图3是本发明提出的基于掩码自动编码器的模型网络总体结构示意图。构建的基于自动编码器的网络模型,主要包括两部分:数据恢复部分和预测部分。一方面提供流量矩阵数据的恢复方法,另一方面根据这些恢复的流量矩阵数据预测下一个时间段的流量矩阵。
对于构建的网络模型中数据恢复部分,主要是由自动编码器完成,包括编码器和解码器,其中编码器负责将真实获取到的流量矩阵数据(即掩码标记为1的值)映射为高维特征向量,解码器则从这些高维特征向量和掩码令牌恢复缺失的流量矩阵数据。
图4是本发明提出的基于掩码自动编码器的模型网络中所述编码器部分的网络结构示意图。所述编码器由嵌入层、位置编码层、归一化层和一系列的处理块组成。所述编码器的嵌入层由二维卷积实现,将流量矩阵数据投影到高维空间,得到可学习的潜在的特征表示或特征向量。位置编码层则为这些特征向量添加位置信息,使得所述解码器能够得到流量矩阵序列中的位置信息,本发明使用正余弦函数作为位置编码的实现。模型训练时,输入数据的特征分布会不断发生变化,为了保证数据特征分布的稳定性,会加入归一化层。从而可以使用更大的学习率,从而加速模型的收敛速度。同时,归一化层也有一定的抗过拟合作用,使训练过程更加平稳。本发明使用LayerNorm作为归一化层的具体实现。
图5本发明提出的基于掩码自动编码器的模型网络中所述处理块的网络结构示意图。所述处理块包含归一化层、注意力层、多层感知器以及加入了残差网络结构。残差网络容易优化,并且能够通过增加相当的深度来提高准确率,其内部的残差块使用了跳跃连接,缓解了在深度神经网络中增加深度带来的梯度消失问题。注意力层包含一系列的注意力分配系数,也就是一系列权重参数,可以用来强调或选择目标预测流量矩阵的重要信息,并且抑制一些无关的细节信息。多层感知器是一种前馈人工神经网络模型,包括三层,输入层、隐藏层和输出层,不同层之间是全连接的,可以将输入的多个特征值映射到单一的输出的特征值上。
图6本发明提出的基于掩码自动编码器的模型网络中所述解码器部分的网络结构示意图。所述解码器包含嵌入层、所述位置编码层、归一化层、全连接层和上述的一系列所述处理块。所述解码器的嵌入层较所述的编码器轻量,使用一个全连接层获得能够表示流量矩阵序列数据的特征向量。
对于构建的网络模型中预测部分由LSTM网络完成。所述的LSTM网络有一系列LSTM单元组成,每个LSTM单元都包含遗忘门、输入门和输出门。当输入新的信息时,遗忘门决定LSTM单元遗忘哪些就得信息。输入门则确定哪些新的信息会被保留在LSTM单元状态中。输出门则决定LSTM单元的输出值。LSTM通过遗忘门、输入门、输出门以及Sigmoid函数和tanh函数减少梯度消失和梯度爆炸的问题。因此可以处理流量矩阵序列中的长短期依赖问题。
步骤S105,恢复缺失的历史流量矩阵序列的数据。图7是本发明提出的基于掩码自动编码器的流量矩阵的恢复方法的示意图。将所述的数据样本输入到构建的网络模型,样本先经过编码器处理。具体地,经过嵌入层和位置编码层处理后得到特征向量,然后输入到编码器中的一系列处理块,其中只有掩码标记为未缺失(值标记为1)的数据才会被所述编码器的处理块处理,为此可以节省计算成本和减少内存占用。
包含经所述编码器处理后的特征向量和掩码令牌的全集会被输入到解码器中。每个掩码令牌都是一个共享的、可学习的向量,表明存在待恢复的缺失数据值。这些掩码令牌会被随机初始化,之后通过模型训练调整。所述全集在解码器中会经过位置编码层添加位置嵌入,否则掩码令牌将没有关于其在流量矩阵序列中的位置信息。最后经过解码器中处理块处理得到特征向量集,再经过归一化层和一个全连接层最终得到恢复后的流量矩阵序列。
步骤S106,获取重组的流量矩阵序列。将原始输入的流量矩阵序列中带有掩码标记为1的真实数据值和恢复后的流量矩阵序列中带有掩码标记为0的重建数据值组合成新的重组流量矩阵序列。
步骤S107,预测未来下一个的流量矩阵。上述的重组流量矩阵序列被输入到预测部分的LSTM网络中,经过多层LSTM单元处理,其中各个门决定输入的重组流量矩阵序列中保留哪些关键信息和摒弃哪些无用信息,最终得到一个新的流量矩阵序列,其中末尾的一个流量矩阵则作为模型对未来下一个流量矩阵的预测值。
步骤S108,用所述训练集对构建的自动编码器网络模型进行训练和参数调优。根据计算构建的网络模型对历史流量矩阵缺失数据的预测值(即步骤S105产生的预测值)与真实值的误差和对未来下一个流量矩阵预测值(即步骤107产生的预测值)与目标值的误差对模型进行训练,调整模型中各个部分网络结构的参数。所述的网络模型训练中的总损失函数采用以下计算公式:
Loss=0.5*Loss_X+0.5*Loss_Y (1)
其中,Loss表示所述总损失函数,Loss_X表示数据恢复部分损失函数,数据恢复部分的损失函数只计算掩码标记为0的历史流量矩阵数据的预测误差;Loss_Y,表示流量预测部分的损失函数;
Figure BDA0003553788570000171
Figure BDA0003553788570000172
其中,m表示所述流量矩阵数据值的数量,maski表示数据值的掩码标记,xi表示历史流量矩阵数据的真实值,
Figure BDA0003553788570000173
表示模型恢复的预测值,yi表示预测的流量矩阵数据的真实值,
Figure BDA0003553788570000174
表示预测流量矩阵的预测值。
步骤S109,使用验证集挑选最优的网络模型参数。利用所述的验证集挑选预测误差最小的模型,保留对应的模型参数与结构,得到一个能够同时恢复历史流量矩阵数据和预测未来下一个流量矩阵的网络模型。
步骤S110,使用测试集对所选的网络模型参数进行有效性验证。使用所述的测试集对根据在所述验证集性能表现挑选的网络模型进行有效性验证,评价所挑选的网络模型的泛化能力。最终得到一个有效的、误差小的能够恢复缺失数据和预测未来流量矩阵的网络模型。
为实现上述目的,本发明还提供一种基于自动编码器的流量矩阵恢复预测系统,如图9所示,所述的系统具体包括:
获取单元,用于实时获取流量矩阵数据集;
划分生成单元,用于对原始数据集进行实时划分,并实时生成模型训练特定长度的数据样本;
生成标记单元,用于通过预设比例为每一个所述数据样本中,每一个历史流量矩阵数据生成掩码标记矩阵,实时标记所述流量矩阵各条流的数据是否缺失;
恢复处理单元,用于根据所述数据样本,结合构建的网络模型,对缺失的历史流量矩阵数据进行恢复处理;
重组单元,用于将未缺失的真实数据值和缺失的重建数据值组合成新的重组流量矩阵序列;
预测单元,用于预测未来下一个的流量矩阵;
训练及调优处理单元,用于利用训练集对构建的自动编码器网络模型进行训练和参数调优处理;
验证单元,用于使用验证集挑选最优的网络模型参数,以及使用测试集对所选的网络模型参数进行有效性验证。
进一步地,所述划分生成单元中,还设置有:
划分模块,用于将原始数据集分别划分为训练集、验证集和测试集;
第一生成模块,用于使用滑动窗口方法将所述数据集生成网络模型训练需要的数据样本;
所述恢复处理单元中,还设置有:
第二生成模块,用于将流量矩阵数据投影至高维空间,生成可学习的潜在的特征表示或特征向量;
所述步骤将未缺失的真实数据值和缺失的重建数据值组合成新的重组流量矩阵序列具体为:
将原始输入的流量矩阵序列中带有掩码标记为1的真实数据值和恢复后的流量矩阵序列中带有掩码标记为0的重建数据值组合成新的重组流量矩阵序列;
所述预测单元中,还包设置有:
第三生成模块,用于对重组流量矩阵序列进行经过多层LSTM单元处理,并生成一个新的流量矩阵序列;
预测值确定模块,用于将新生成的流量矩阵序列末尾的一个流量矩阵作为模型对未来下一个流量矩阵的预测值;
所述步骤训练及调优处理单元中,还设置有:
模型训练模块,用于根据计算模型对历史流量矩阵缺失数据的预测值与真实值的误差和对下一个流量矩阵预测值与目标值的误差对模型进行训练;
第四生成模块,用于调整模型中各个部分网络结构的参数,生成一个能够恢复历史流量矩阵数据和预测下一个流量矩阵的模型。
在本发明系统方案实施例中,所述的一种基于自动编码器的流量矩阵恢复预测中涉及的方法步骤,具体细节已在上文阐述,此处不再赘述。
为实现上述目的,本发明还提供一种基于自动编码器的流量矩阵恢复预测平台,如图10所示,包括:处理器、存储器以及基于自动编码器的流量矩阵恢复预测平台控制程序;
其中在所述的处理器执行所述的基于自动编码器的流量矩阵恢复预测平台控制程序,所述的基于自动编码器的流量矩阵恢复预测平台控制程序被存储在所述存储器中,所述的基于自动编码器的流量矩阵恢复预测平台控制程序,实现所述的基于自动编码器的流量矩阵恢复预测方法步骤,例如:
S1、实时获取流量矩阵数据集;
S2、对原始数据集进行实时划分,并实时生成模型训练特定长度的数据样本;
S3、通过预设比例为每一个所述数据样本中,每一个历史流量矩阵数据生成掩码标记矩阵,实时标记所述流量矩阵各条流的数据是否缺失;
S4、根据所述数据样本,结合构建的网络模型,对缺失的历史流量矩阵数据进行恢复处理;
S5、将未缺失的真实数据值和缺失的重建数据值组合成新的重组流量矩阵序列;
S6、预测未来下一个的流量矩阵;
S7、利用训练集对构建的自动编码器网络模型进行训练和参数调优处理;
S8、使用验证集挑选最优的网络模型参数,以及使用测试集对所选的网络模型参数进行有效性验证。
步骤具体细节已在上文阐述,此处不再赘述。
本发明实施例中,所述的基于自动编码器的流量矩阵恢复预测平台内置处理器,可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processingunit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。处理器利用各种接口和线路连接取各个部件,通过运行或执行存储在存储器内的程序或者单元,以及调用存储在存储器内的数据,以执行基于自动编码器的流量矩阵恢复预测各种功能和处理数据;
存储器用于存储程序代码和各种数据,安装在基于自动编码器的流量矩阵恢复预测平台中,并在运行过程中实现高速、自动地完成程序或数据的存取。
所述存储器包括只读存储器(Read-Only Memory,ROM),随机存储器(RandomAccess Memory,RAM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
为实现上述目的,本发明还提供一种计算机可读取存储介质,如图11所示,所述计算机可读取存储介质存储有基于自动编码器的流量矩阵恢复预测平台控制程序,所述的基于自动编码器的流量矩阵恢复预测平台控制程序,实现所述的基于自动编码器的流量矩阵恢复预测方法步骤,例如:
S1、实时获取流量矩阵数据集;
S2、对原始数据集进行实时划分,并实时生成模型训练特定长度的数据样本;
S3、通过预设比例为每一个所述数据样本中,每一个历史流量矩阵数据生成掩码标记矩阵,实时标记所述流量矩阵各条流的数据是否缺失;
S4、根据所述数据样本,结合构建的网络模型,对缺失的历史流量矩阵数据进行恢复处理;
S5、将未缺失的真实数据值和缺失的重建数据值组合成新的重组流量矩阵序列;
S6、预测未来下一个的流量矩阵;
S7、利用训练集对构建的自动编码器网络模型进行训练和参数调优处理;
S8、使用验证集挑选最优的网络模型参数,以及使用测试集对所选的网络模型参数进行有效性验证。
步骤具体细节已在上文阐述,此处不再赘述。
在本发明的实施方式的描述中,需要说明的是,流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理模块的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读取介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。
另外,计算机可读取介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
在本发明实施例中,为实现上述目的,本发明还提供一种芯片系统,所述芯片系统包括至少一个处理器,当程序指令在所述至少一个处理器中执行时,使得所述芯片系统执行所述的基于自动编码器的流量矩阵恢复预测方法步骤,例如:
S1、实时获取流量矩阵数据集;
S2、对原始数据集进行实时划分,并实时生成模型训练特定长度的数据样本;
S3、通过预设比例为每一个所述数据样本中,每一个历史流量矩阵数据生成掩码标记矩阵,实时标记所述流量矩阵各条流的数据是否缺失;
S4、根据所述数据样本,结合构建的网络模型,对缺失的历史流量矩阵数据进行恢复处理;
S5、将未缺失的真实数据值和缺失的重建数据值组合成新的重组流量矩阵序列;
S6、预测未来下一个的流量矩阵;
S7、利用训练集对构建的自动编码器网络模型进行训练和参数调优处理;
S8、使用验证集挑选最优的网络模型参数,以及使用测试集对所选的网络模型参数进行有效性验证。
步骤具体细节已在上文阐述,此处不再赘述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本发明通过方法实时获取流量矩阵数据集;对原始数据集进行实时划分,并实时生成模型训练特定长度的数据样本;通过预设比例为每一个所述数据样本中,每一个历史流量矩阵数据生成掩码标记矩阵,实时标记所述流量矩阵各条流的数据是否缺失,以此模拟数据缺失的情况;根据所述数据样本,结合构建的网络模型,对缺失的历史流量矩阵数据进行恢复处理;将未缺失的真实数据值和缺失的重建数据值组合成新的重组流量矩阵序列;预测未来下一个的流量矩阵;利用训练集对构建的自动编码器网络模型进行训练和参数调优处理;使用验证集挑选最优的网络模型参数,以及使用测试集对所选的网络模型参数进行有效性验证,以及与所述方法相应的系统、平台,本方案利用流量矩阵的部分真实数据,恢复流量矩阵缺失的数据,然后根据恢复的流量矩阵序列预测下一个流量矩阵,可以降低流量矩阵采集的成本以及提升流量矩阵预测的性能。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于自动编码器的流量矩阵恢复预测方法,其特征在于所述方法具体包括如下步骤:
实时获取流量矩阵数据集;
对原始数据集进行实时划分,并实时生成模型训练特定长度的数据样本;
通过预设比例为每一个所述数据样本中,每一个历史流量矩阵数据生成掩码标记矩阵,实时标记所述流量矩阵各条流的数据是否缺失;
根据所述数据样本,结合构建的网络模型,对缺失的历史流量矩阵数据进行恢复处理;
将未缺失的真实数据值和缺失的重建数据值组合成新的重组流量矩阵序列;
预测未来下一个的流量矩阵;
利用训练集对构建的自动编码器网络模型进行训练和参数调优处理;
使用验证集挑选最优的网络模型参数,以及使用测试集对所选的网络模型参数进行有效性验证。
2.根据权利要求1所述的一种基于自动编码器的流量矩阵恢复预测方法,其特征在于所述步骤对原始数据集进行实时划分,并实时生成模型训练特定长度的数据样本之中,还包括如下步骤:
将原始数据集分别划分为训练集、验证集和测试集;
使用滑动窗口方法将所述数据集生成网络模型训练需要的数据样本。
3.根据权利要求1所述的一种基于自动编码器的流量矩阵恢复预测方法,其特征在于所述步骤根据所述数据样本,结合构建的网络模型,对缺失的历史流量矩阵数据进行恢复处理之中,还包括如下步骤:
将流量矩阵数据投影至高维空间,生成可学习的潜在的特征表示或特征向量。
4.根据权利要求1所述的一种基于自动编码器的流量矩阵恢复预测方法,其特征在于所述步骤将未缺失的真实数据值和缺失的重建数据值组合成新的重组流量矩阵序列具体为:
将原始输入的流量矩阵序列中带有掩码标记为1的真实数据值和恢复后的流量矩阵序列中带有掩码标记为0的重建数据值组合成新的重组流量矩阵序列。
5.根据权利要求1所述的一种基于自动编码器的流量矩阵恢复预测方法,其特征在于所述步骤预测未来下一个的流量矩阵之中,还包括如下步骤:
对重组流量矩阵序列进行经过多层LSTM单元处理,并生成一个新的流量矩阵序列;
将新生成的流量矩阵序列末尾的一个流量矩阵作为模型对未来下一个流量矩阵的预测值。
6.根据权利要求1所述的一种基于自动编码器的流量矩阵恢复预测方法,其特征在于所述步骤利用训练集对构建的自动编码器网络模型进行训练和参数调优处理之中,还包括如下步骤:
根据计算模型对历史流量矩阵缺失数据的预测值与真实值的误差和对下一个流量矩阵预测值与目标值的误差对模型进行训练;
调整模型中各个部分网络结构的参数,生成一个能够恢复历史流量矩阵数据和预测下一个流量矩阵的模型。
7.根据权利要求1或6所述的一种基于自动编码器的流量矩阵恢复预测方法,其特征在于所述步骤利用训练集对构建的自动编码器网络模型进行训练和参数调优处理之中,网络模型训练中的总损失函数采用以下计算公式:
Loss=0.5*Loss_X+0.5*Loss_Y (1)
其中,Loss表示所述总损失函数,Loss_X表示数据恢复部分损失函数,数据恢复部分的损失函数只计算掩码标记为0的历史流量矩阵数据的预测误差;Loss_Y,表示流量预测部分的损失函数;
Figure FDA0003553788560000021
Figure FDA0003553788560000031
其中,m表示所述流量矩阵数据值的数量,maski表示数据值的掩码标记,xi表示历史流量矩阵数据的真实值,
Figure FDA0003553788560000032
表示模型恢复的预测值,yi表示预测的流量矩阵数据的真实值,
Figure FDA0003553788560000033
表示预测流量矩阵的预测值。
8.一种基于自动编码器的流量矩阵恢复预测系统,其特征在于所述系统具体包括:
获取单元,用于实时获取流量矩阵数据集;
划分生成单元,用于对原始数据集进行实时划分,并实时生成模型训练特定长度的数据样本;
生成标记单元,用于通过预设比例为每一个所述数据样本中,每一个历史流量矩阵数据生成掩码标记矩阵,实时标记所述流量矩阵各条流的数据是否缺失;
恢复处理单元,用于根据所述数据样本,结合构建的网络模型,对缺失的历史流量矩阵数据进行恢复处理;
重组单元,用于将未缺失的真实数据值和缺失的重建数据值组合成新的重组流量矩阵序列;
预测单元,用于预测未来下一个的流量矩阵;
训练及调优处理单元,用于利用训练集对构建的自动编码器网络模型进行训练和参数调优处理;
验证单元,用于使用验证集挑选最优的网络模型参数,以及使用测试集对所选的网络模型参数进行有效性验证。
9.根据权利要求8所述的一种基于自动编码器的流量矩阵恢复预测系统,其特征在于所述划分生成单元中,还设置有:
划分模块,用于将原始数据集分别划分为训练集、验证集和测试集;
第一生成模块,用于使用滑动窗口方法将所述数据集生成网络模型训练需要的数据样本;
所述恢复处理单元中,还设置有:
第二生成模块,用于将流量矩阵数据投影至高维空间,生成可学习的潜在的特征表示或特征向量;
所述步骤将未缺失的真实数据值和缺失的重建数据值组合成新的重组流量矩阵序列具体为:
将原始输入的流量矩阵序列中带有掩码标记为1的真实数据值和恢复后的流量矩阵序列中带有掩码标记为0的重建数据值组合成新的重组流量矩阵序列;
所述预测单元中,还包设置有:
第三生成模块,用于对重组流量矩阵序列进行经过多层LSTM单元处理,并生成一个新的流量矩阵序列;
预测值确定模块,用于将新生成的流量矩阵序列末尾的一个流量矩阵作为模型对未来下一个流量矩阵的预测值;
所述步骤训练及调优处理单元中,还设置有:
模型训练模块,用于根据计算模型对历史流量矩阵缺失数据的预测值与真实值的误差和对下一个流量矩阵预测值与目标值的误差对模型进行训练;
第四生成模块,用于调整模型中各个部分网络结构的参数,生成一个能够恢复历史流量矩阵数据和预测下一个流量矩阵的模型。
10.一种基于自动编码器的流量矩阵恢复预测平台,其特征在于,包括:处理器、存储器以及基于自动编码器的流量矩阵恢复预测平台控制程序;
其中在所述的处理器执行所述的基于自动编码器的流量矩阵恢复预测平台控制程序,所述的基于自动编码器的流量矩阵恢复预测平台控制程序被存储在所述存储器中,所述的基于自动编码器的流量矩阵恢复预测平台控制程序,实现如权利要求1至7中任一项所述的基于自动编码器的流量矩阵恢复预测方法步骤。
CN202210271908.0A 2022-03-18 2022-03-18 一种基于自动编码器的流量矩阵恢复预测方法及系统 Active CN114826947B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210271908.0A CN114826947B (zh) 2022-03-18 2022-03-18 一种基于自动编码器的流量矩阵恢复预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210271908.0A CN114826947B (zh) 2022-03-18 2022-03-18 一种基于自动编码器的流量矩阵恢复预测方法及系统

Publications (2)

Publication Number Publication Date
CN114826947A true CN114826947A (zh) 2022-07-29
CN114826947B CN114826947B (zh) 2023-03-21

Family

ID=82530308

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210271908.0A Active CN114826947B (zh) 2022-03-18 2022-03-18 一种基于自动编码器的流量矩阵恢复预测方法及系统

Country Status (1)

Country Link
CN (1) CN114826947B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115458071A (zh) * 2022-08-08 2022-12-09 北京信息科技大学 土壤重金属含量预测方法、装置与设备
CN116383617A (zh) * 2023-04-21 2023-07-04 复旦大学 一种基于脉搏波波形特征的智能血压检测方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050286434A1 (en) * 2004-06-25 2005-12-29 Inmon Corporation Methods and computer programs for generating data traffic matrices
CN111130839A (zh) * 2019-11-04 2020-05-08 清华大学 一种流量需求矩阵预测方法及其系统
CN111585783A (zh) * 2020-03-18 2020-08-25 宁波送变电建设有限公司永耀科技分公司 基于时空流量矩阵预测的流量动态调度方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050286434A1 (en) * 2004-06-25 2005-12-29 Inmon Corporation Methods and computer programs for generating data traffic matrices
CN111130839A (zh) * 2019-11-04 2020-05-08 清华大学 一种流量需求矩阵预测方法及其系统
US20210133569A1 (en) * 2019-11-04 2021-05-06 Tsinghua University Methods, computing devices, and storage media for predicting traffic matrix
CN111585783A (zh) * 2020-03-18 2020-08-25 宁波送变电建设有限公司永耀科技分公司 基于时空流量矩阵预测的流量动态调度方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郭芳等: "基于MGU的大规模IP骨干网络实时流量预测", 《山东大学学报(工学版)》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115458071A (zh) * 2022-08-08 2022-12-09 北京信息科技大学 土壤重金属含量预测方法、装置与设备
CN115458071B (zh) * 2022-08-08 2024-02-02 北京信息科技大学 土壤重金属含量预测方法、装置与设备
CN116383617A (zh) * 2023-04-21 2023-07-04 复旦大学 一种基于脉搏波波形特征的智能血压检测方法及系统
CN116383617B (zh) * 2023-04-21 2023-09-22 复旦大学 一种基于脉搏波波形特征的智能血压检测方法及系统

Also Published As

Publication number Publication date
CN114826947B (zh) 2023-03-21

Similar Documents

Publication Publication Date Title
CN114826947B (zh) 一种基于自动编码器的流量矩阵恢复预测方法及系统
CN109872535B (zh) 一种智慧交通通行预测方法、装置及服务器
CN112990530B (zh) 区域人口数量预测方法、装置、电子设备和存储介质
CN111325444B (zh) 一种风险防控决策方法、装置、系统及设备
CN114580263A (zh) 基于知识图谱的信息系统故障预测方法及相关设备
CN114915630A (zh) 基于物联网设备的任务分配方法、网络训练方法及装置
CN110909942A (zh) 训练模型的方法及系统和预测序列数据的方法及系统
CN112396254A (zh) 目的地预测方法、装置、介质及电子设备
CN113918884A (zh) 业务量预测模型构建方法和业务量预测方法
KR20200115369A (ko) 이미지 인식 딥러닝 알고리즘을 이용한 온라인 부도 예측 시스템
CN111612274B (zh) 一种基于时空相关性的潮汐水位预报方法
CN114860542A (zh) 趋势预测模型的优化方法、优化装置、电子设备和介质
CN114872730A (zh) 一种车辆行驶轨迹预测方法、装置、汽车及存储介质
Sinha Short term load forecasting using artificial neural networks
CN115983497A (zh) 一种时序数据预测方法和装置、计算机设备、存储介质
CN117315331A (zh) 一种基于gnn和lstm的动态图异常检测方法及系统
CN115081613A (zh) 生成深度学习模型的方法、装置、电子设备及存储介质
CN117540136A (zh) 时序信号预测方法、装置、设备及存储介质
CN112330332A (zh) 识别关于节点任务的欺诈风险的方法、计算设备和介质
CN114399901A (zh) 一种控制交通系统的方法和设备
JP2023535202A (ja) コンテキスト・アウェア・アノマリ検出
KR20180020334A (ko) 통신 시스템에서 장애 예측 장치 및 방법
CN112801156A (zh) 用于人工智能机器学习的业务大数据采集方法及服务器
CN117132958B (zh) 道路要素识别方法及相关装置
CN115598455B (zh) 一种电子信息装备自动测试系统及测试方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant