CN113297191B

CN113297191B - 一种网络缺失数据在线填充的流处理方法及系统

Info

Publication number: CN113297191B
Application number: CN202110588570.7A
Authority: CN
Inventors: 谢若天; 谢鲲; 李肯立; 文吉刚
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2022-04-05
Anticipated expiration: 2041-05-28
Also published as: CN113297191A

Abstract

本发明公开了一种网络缺失数据在线填充的流处理方法，包括：在对网络缺失数据进行流处理的过程中，通过特征提取器和门控循环单元对前一时段内的监控数据矩阵序列蕴含的时间和空间信息进行提取，能够获取保留历史数据中有效信息的上下文向量，将其与当前时刻网络缺失数据对应的空间特征向量信息进行联合，已将联合向量输入至预先训练好的缺失数据生成模型，以获取对网络缺失数据填充后的当前监控数据矩阵。本发明提供的网络缺失数据在线填充的流处理方法及系统，通过将网络缺失数据对应的空间特征向量与此前历史数据相关的上下文向量进行联合，使其融合了此前时段网络数据的时空信息，能有效地提高对网络缺失数据进行在线填充的精度。

Description

一种网络缺失数据在线填充的流处理方法及系统

技术领域

本发明属于计算机网络技术领域，更具体地，涉及一种网络缺失数据在线填充的流处理方法及系统。

背景技术

随着通信技术的飞速发展，需要维护的网络规模也在不断增加。在网络运维过程中，有必要对网络监控数据进行测量，以进行后续的异常检测、根因分析、流量预测等任务。然而在大规模网络上执行全网测量的成本很高，频繁的测量也会大幅占用网络资源。

有研究表明，网络监控数据之间具有时间相关性和空间相关性，因此当前的主流处理方法是测量部分数据，并根据相关性恢复未测量的数据。由于网络性能数据随时可以形成矩阵，因此我们也将此问题称为网络监控矩阵(Network Monitoring Matrix，简称NMM)填充问题。

如何以尽可能少的测量动作准确快速地推断出未观测数据，已经成为一个具有挑战性的问题。为了解决该问题，业界进行了许多探索并提出了许多填充方法。总结起来主要为两类：

第一类方法是以张量分解的方式处理数据，其将多个NMM组合为一个三维张量，并通过张量分解技术去除噪声保留数据间的关系从而实现对缺失部分的填充；然而，该方法存在一个显著缺陷：其需要将长序列的缺失矩阵作为输入，且每个序列需要对参数从头开始训练，这大大增加了填充的时间成本，进而导致后续即使能够准确恢复缺失数据，对有危害的网络行为进行检测与拦截也已经来不及了。

第二类是利用机器学习方法提取特征，并学习数据相关性进行填充，其主要使用自编码器参考文献、生成对抗网络、以及循环神经网络(如门控循环单元)；其中自编码器和生成对抗网络用于捕捉每个时刻监控数据内部的空间关系，门控循环单元用于学习时序数据的时间关系，最后对时空关系进行整合用于恢复。然而，该方法的缺陷在于：第一，其是通过历史数据训练一个参数固定的填充模型，因此只适合于填充相关性不变的数据，而网络数据的相关性会随着时间缓慢且动态地发生变化，因此该方法并不适用；第二，其使用的损失函数为均方根误差，并没有考虑到网络数据符合重尾分布的特性，这会导致模型的收敛速度慢；第三、由于在训练模型过程中存在梯度更新不平衡的缺陷，因此会影响最终的填充精度。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种网络缺失数据在线填充的流处理方法及系统，其目的在于，解决现有基于张量分解的填充方法由于需要将长序列的缺失矩阵作为输入，且每个序列需要对参数从头开始训练，导致大大增加填充时间成本的技术问题，以及现有基于机器学习的填充方法由于只是通过历史数据训练一个参数固定的填充模型导致其并不适用于填充网络数据的技术问题，以及由于没有考虑到网络数据符合重尾分布的特性，导致模型的收敛速度慢的技术问题，以及由于在训练模型过程中存在梯度更新不平衡的缺陷，导致最终的填充精度不高的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种网络缺失数据在线填充的流处理方法，包括：

S11，按照预设采样频率采集当前网络的监控数据矩阵，并将所采集的所有网络监控数据矩阵按照时间顺序，构建监控数据矩阵序列；

S12，获取与当前时刻k的待填充监控数据矩阵相关的历史矩阵序列；所述历史矩阵序列是以窗口长度为T的滑动窗口，从所述监控数据矩阵序列上选择的k-T到k-1范围内的T个监控数据矩阵构成的；

S13，将所述历史矩阵序列输入至预先训练好的特征提取器，以获取由所述特征提取器输出的空间特征向量序列；所述空间特征向量序列包含与所述T个监控数据矩阵所对应的T个空间特征向量；

S14，将所述空间特征向量序列依次输入值预先训练好的门控循环单元，以获取由所述门控循环单元输出的上下文向量；

S15，将所述上下文向量与所述当前时刻k对应的空间特征向量进行联合处理，以获取联合向量；

S16，将所述联合向量输入至预先训练好的缺失数据生成模型，以获取由所述缺失数据生成模型输出的当前监控数据矩阵；

S17，在流处理过程中，迭代执行上述步骤S11至S16的步骤，以获取针对每个所述当前时刻k的待填充监控数据矩阵进行填充后的所述当前监控数据矩阵。

优选地，在将所述历史矩阵序列输入至预先训练好的特征提取器以及将所述空间特征向量序列依次输入值预先训练好的门控循环单元之前，还对所述特征提取器以及所述门控循环单元进行预训练，具体包括：

S01，按照预设采样频率采集当前网络的监控数据矩阵，并将所采集的所有网络监控数据矩阵按照时间顺序，构建监控数据矩阵序列；

S02，获取与任一时刻S的待填充监控数据矩阵相关的历史矩阵序列；所述历史矩阵序列是以窗口长度为T的滑动窗口，从所述监控数据矩阵序列上选择的S-T到S-1范围内的T个监控数据矩阵构成的；

S03，将所述历史矩阵序列输入至预先训练好的特征提取器，以获取由所述特征提取器输出的空间特征向量序列；所述空间特征向量序列包含与所述T个监控数据矩阵所对应的T个空间特征向量；

S04，将所述空间特征向量序列依次输入值预先训练好的门控循环单元，以获取由所述门控循环单元输出的上下文向量；

S05，随机从所述历史矩阵序列中选取N个监控数据矩阵，作为监控数据矩阵样本，并获取每个所述监控数据矩阵样本对应的空间特征向量；将N个所述空间特征向量作为N个负样本，将所述任一时刻S对应的空间特征向量作为1个正样本，将所述任一时刻S对应的上下文向量作为锚点，使用基于正样本与负样本的对比学习方法，对所述特征提取器以及所述门控循环单元进行预训练；

S06，迭代执行上述步骤S01至S05的步骤，直至训练结果收敛，获取所述训练好的特征提取器以及所述训练好的门控循环单元。

优选地，使用基于正样本与负样本的对比学习方法，对所述特征提取器以及所述门控循环单元进行预训练，包括：

将所述N个负样本与所述锚点对应的上下文向量分别重构成矩阵后相乘，以获取正样本重构矩阵；

将所述1个正样本与所述锚点对应的上下文向量分别重构成矩阵后相乘，以获取负样本重构矩阵；

分别对所述正样本重构矩阵和所述负样本重构矩阵，进行Softmax操作，分别获取正样本预测结果和负样本预测结果；

基于噪声比估计函数，根据所述正样本预测结果和所述负样本预测结果对所述特征提取器以及所述门控循环单元的模型参数进行更新，直至更新结果收敛为止。

优选地，在将所述联合向量输入至预先训练好的缺失数据生成模型之前，还包括利用加权复合损失函数，对所述缺失数据生成模型进行预训练；

所述加权复合损失函数是由鲁棒性相对误差函数与均方根误差函数构建的。

根据本发明提供的一种网络缺失数据在线填充的流处理方法，所述加权复合损失函数的函数模型表达式为：

1≤b,0＜μ＜＜1；

其中，E_current为当前训练回合数；E_max为总训练回合数；α为动态权重；为数据中的缺失位置；

为在时刻k中矩阵位置[i，j]置处的真实值；

为在时刻k中矩阵位置[i，j]置处模型给出的填充值；b和μ均为调节损失函数的超参数。

优选地，任一所述监控数据矩阵的行代表源节点、列代表目标节点；所述监控数据矩阵的元素值为链路值。

优选地，所述将所述上下文向量与所述当前时刻k对应的空间特征向量进行联合处理，以获取联合向量，包括：

将尺寸为1×k的所述上下文向量，与1×k的所述空间特征向量，联合构成的所述联合向量的尺寸为2×k。

按照本发明的另一方面，提供了一种网络缺失数据在线填充的流处理系统，包括：第一处理单元，用于按照预设采样频率采集当前网络的监控数据矩阵，并将所采集的所有网络监控数据矩阵按照时间顺序，构建监控数据矩阵序列；

第二处理单元，用于获取与当前时刻k的待填充监控数据矩阵相关的历史矩阵序列；所述历史矩阵序列是以窗口长度为T的滑动窗口，从所述监控数据矩阵序列上选择的k-T到k-1范围内的T个监控数据矩阵构成的；

第三处理单元，用于将所述历史矩阵序列输入至预先训练好的特征提取器，以获取由所述特征提取器输出的空间特征向量序列；所述空间特征向量序列包含与所述T个监控数据矩阵所对应的T个空间特征向量；

第四处理单元，用于将所述空间特征向量序列依次输入值预先训练好的门控循环单元，以获取由所述门控循环单元输出的上下文向量；

第五处理单元，用于将所述上下文向量与所述当前时刻k对应的空间特征向量进行联合处理，以获取联合向量；

第六处理单元，用于将所述联合向量输入至预先训练好的缺失数据生成模型，以获取由所述缺失数据生成模型输出的当前监控数据矩阵；

第七处理单元，用于在流处理过程中，迭代执行上述步骤S11至S16的步骤，以获取针对每个所述当前时刻k的待填充监控数据矩阵进行填充后的所述当前监控数据矩阵。

按照本发明的又一方面，提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述网络缺失数据在线填充的流处理方法的步骤。

本发明还提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述网络缺失数据在线填充的流处理方法的步骤。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)由于本发明采用了步骤S11和步骤S12，其通过滑动窗口的模式动态捕捉历史序列信息。因此能够解决现有基于张量分解的填充方法由于需要将长序列的缺失矩阵作为输入，且每个序列需要对参数从头开始训练，导致大大增加填充时间成本的技术问题；

(2)由于本发明采用了步骤S17，其能够在之前捕捉到的数据相关性基础上及时更新当前的相关性，因此能够解决现有基于机器学习的填充方法由于只是通过历史数据训练一个参数固定的填充模型导致其并不适用于填充网络数据的技术问题；

(3)由于本发明采用了步骤步骤S13和步骤S16，其使用的“噪声对比估计”训练方式及生成模型的复合函数在训练初期均方误差权重较高，因此能够解决现有基于机器学习的填充方法由于需要额外借助辅助网络训练数据表征且未考虑网络数据服从重尾分布，导致模型的训练成本高、收敛速度慢的技术问题；

(4)由于本发明采用了步骤S16，其中提出的鲁棒相对误差有助于均衡重尾分布中头数据、尾数据的训练，因此能够解决现有基于机器学习的填充方法由于在训练模型过程中存在梯度更新不平衡的缺陷，导致最终的填充精度不高的技术问题。

附图说明

图1是本发明提供的网络缺失数据在线填充的流处理方法的流程示意图；

图2是本发明提供的网络缺失数据在线填充的流处理方法的模型示意图；

图3是本发明提供的基于滑动窗口获取监控数据矩阵序列的模型示意图；

图4是本发明提供的获取监控数据矩阵中的空间信息以输出空间特征向量的模型示意图；

图5是本发明提供的获取门控循环单元输出的上下文向量的模型示意图；

图6是本发明提供的基于正负样本进行对比学习训练上下文向量的模型意图；

图7是本发明提供的结合上下文向量以及空间特征向量对缺失位置进行填充的模型示意图；

图8是本发明提供的使用三种不同损失函数针对Abliene数据集在相同条件相同迭代次数下的精度收敛曲线示意图；

图9是本发明提供的是由四种不同算法针对Abilene数据集在五种不同采样率下的准确率ER示意图；

图10是本发明提供的是由四种不同算法针对GEANT数据集在五种不同采样率下的准确率ER示意图；

图11是本发明提供的为实验中两种不同算法在流处理模式下，针对Abliene数据集接下来1000个时刻进行填充的准确率ER变化曲线，以及对该曲线进行滑动计算平均值后的变化曲线；

图12是本发明提供的网络缺失数据在线填充的流处理系统的结构示意图；

图13是本发明提供的电子设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。。

需要说明的是，在本发明实施例的描述中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

另外，本发明各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

本发明的基本思路在于，提供一种网络缺失数据在线填充的流处理方法，其通过将网络缺失数据对应的空间特征向量与此前历史数据相关的上下文向量进行联合，使其融合了此前时段网络数据的时空信息，能有效地提高对网络缺失数据进行在线填充的地精度、填充速度快，能充分满足实时填充的需求，完全可以应用于网络缺失数据的在线流处理。

下面结合图1-图13描述本发明实施例所提供的网络缺失数据在线填充的流处理方法和系统。

图1是本发明提供的网络缺失数据在线填充的流处理方法的流程示意图，如图1所示，包括但不限于以下步骤：

步骤S11，按照预设采样频率采集当前网络的监控数据矩阵，并将所采集的所有网络监控数据矩阵按照时间顺序，构建监控数据矩阵序列；

步骤S12，获取与当前时刻k的待填充监控数据矩阵相关的历史矩阵序列；所述历史矩阵序列是以窗口长度为T的滑动窗口，从所述监控数据矩阵序列上选择的k-T到k-1范围内的T个监控数据矩阵构成的；其中T是自然数，其优选为8到24之间的自然数；

步骤S13，将所述历史矩阵序列输入至预先训练好的特征提取器，以获取由所述特征提取器输出的空间特征向量序列；所述空间特征向量序列包含与所述T个监控数据矩阵所对应的T个空间特征向量；

步骤S14，将所述空间特征向量序列依次输入值预先训练好的门控循环单元，以获取由所述门控循环单元输出的上下文向量；

步骤S15，将所述上下文向量与所述当前时刻k对应的空间特征向量进行联合处理，以获取联合向量；

步骤S16，将所述联合向量输入至预先训练好的缺失数据生成模型，以获取由所述缺失数据生成模型输出的当前监控数据矩阵；

步骤S17，在流处理过程中，迭代执行上述步骤S11至S16的步骤，以获取针对每个所述当前时刻k的待填充监控数据矩阵进行填充后的所述当前监控数据矩阵。

图2是本发明提供的网络缺失数据在线填充的流处理方法的模型示意图，如图2所示，在步骤S11中，可以按照预设的采样频率(如每分钟60次)采集当前网络的监控数据矩阵，并将每次采样的数据生成一个监控数据矩阵。其中，所述监控数据矩阵的行代表源地址、列代表目的地址，矩阵中的每个元素值分别代表对应链路的值。

然后，将采集的所有监控数据矩阵，按照采样时间的先后顺序，依次排列，组成一个包含有M个监控数据矩阵的监控数据矩阵序列[X⁰，X¹…，X^M]；其中采样顺序是由X⁰开始采样，直至采集到的X^M后，依次将所有采集的监控数据矩阵构成监控数据矩阵序列，其中M的取值范围依据具体的数据集而定，可以取1000到10000，优选为2000

在步骤S12中，首先，设定一个窗口长度为T的滑动窗口；然后针对当前时刻k来说，总是选择k-T次采样到k-1次采样范围内的T个监控数据矩阵[X^k-T，...，X^k-1]，作为k时刻所对应的待填充监控数据矩阵X^k的历史矩阵序列。

图3是本发明提供的基于滑动窗口获取监控数据矩阵序列的模型示意图，如图3中的(a)图所示，当需要填充k时刻对应的待填充监控数据矩阵X^k时，本发明通过使用滑动窗口选取由最近T个监控数据矩阵构成的监控数据矩阵序列[X^k-T，...，X^k-1]，与待填充监控数据矩阵X^k一起组成一个新的序列，具体过程及原理如图3(b)所示。

进一步地，将这一新的序列输入至预先训练好的特征提取器中，以获取各个监控数据矩阵对应的空间特征向量序列。

可选地，也可以如步骤S13所记载的，分别将监控数据矩阵序列[X^k-T，...，X^k-1]与待填充监控数据矩阵X^k分别输入至预先训练好的特征提取器中，以获取各自对应的空间特征向量序列。这样，监控数据矩阵序列[X^k-T，...，X^k-1]则能够获取到T个相应的空间特征向量。

需要说明的是，当完成了待填充监控数据矩阵X^k的网络缺失数据填充之后，在流处理过程中，继续对下一个待填充监控数据矩阵X^k+1进行填充处理。此时，仅需将图3中的(a)图所示的滑动窗口向前(右)滑动一个监控数据矩阵，以使得历史矩阵序列变为[X^k ^-T+1，...，X^k]，并按此迭代依次类推，本发明奖不作一一赘述。。

在步骤S13中，将历史矩阵序列[X^k-T，...，X^k-1]依次输入至预先训练的特征提取器中，以分别提取其中每个监控数据矩阵所蕴含的空间相关性，并分别以向量的形式输出，从而获得包含T个空间特征向量的空间特征向量序列[z^k-T，...，z^k-1]。相应地，将待填充监控数据矩阵X^k也输入至特征提取器中，可以获取对应的特征向量z^k以备后续填充。

图4是本发明提供的获取监控数据矩阵中的空间信息以输出空间特征向量的模型示意图，如图4所示，本发明所采用的特征提取器可以是由多层全连接层、卷积层等构建的神经网络，主要用于提取出输入的监控数据矩阵的空间相关性，并以空间特征向量的形式输出。

以全连接层为例，设输入的是待填充监控数据矩阵X^k，则通过下式获得该层输出Z^k：

Z^k＝f(W·X^k+b)；

其中W代表权重矩阵，b为偏执项，f()为激活函数。

通过权重矩阵对待填充监控数据矩阵X^k中的元素进行加权混合及引入激活函数加入非线性关系，最后实现对矩阵不同元素间关系的提取。理论上来讲，全连接层越多，特征提取器的提取能力就越强；本发明同时兼顾特征提取器的运算速度，经过多次测试，采用了如图4所示的特征提取器，能够在确保满足要求的提取能力的前提下，还能够满足在线填充流处理的速度要求。

在步骤S13中，本发明通过将历史矩阵序列[X^k-T，...，X^k-1]与当前的待填充监控数据矩阵X^k，依次通过特征提取器，实现对其空间相关性的提取，从而获取空间特征向量序列[z^k-T，...，z^k-1]及空间特征向量z^k-1。

在步骤S14中，将步骤S13中所获取到的空间特征向量序列『z^k-T，...，z^k-1]，依次输入至预先训练好的门控循环单元(相当于按照时间顺序)，以提取空间特征向量序列的时间相关性，并输出一个既包含空间相关性、又包括时间相关性的上下文特征向量c^k-1。

图5是本发明提供的获取门控循环单元输出的上下文向量的模型示意图，如图5所示，依次将空间特征向量序列[z^k-T，...，z^k-1]中的各个空间特征向量，输入至预先训练好的门控循环单元(Update-Reset Gate，GRU)，以获取上下文向量c^k-1。

事实上，GRU每接收一个空间特征向量z^k-n(1≤n≤T)，就会生成一个对应的上下文向量c^k-n以及一个隐藏状态h^k-n。其中，隐藏状态h^k-n用于传递历史信息给下一时刻的输入c^k ^-n+1，故最终输出的是一个上下文向量c^k-1。故本发明考虑到隐藏状态的传递，实现了对输入的空间特征向量序列的时间相关性的学习，故采用GRU提取任一空间特征向量的时空相关性。

在步骤S15中，将步骤S14中所获取的上下文向量文c^k-1与当前时刻k所对应的空间特征向量z^k联合，以结合时空相关性与当前时刻监控数据矩阵本身的信息，计联合后所生成的向量为联合向量。

在步骤S16中，将步骤S15中所获取的联合向量，输入至预先训练好的缺失数据生成模型，以生成无缺失的当前监控数据矩阵。本轮迭代过程中所获取到的当前监控数据矩阵，是针对当前时刻k的待填充监控数据矩阵X^k进行填充后的当前监控数据矩阵。

上述步骤S11至步骤S16仅仅是对任一当前时刻k的网络缺失数据进行在线填充的步骤。那么，在流处理的过程可以根据上述方法，依次对每个当前时刻k相关的网络缺失数据进行逐一的在线填充，故在步骤S17中，在流处理过程中，迭代执行上述步骤S11至S16的步骤，以获取针对每个当前时刻k的待填充监控数据矩阵，进行填充后的当前监控数据矩阵。

本发明提供的网络缺失数据在线填充的流处理方法及系统，通过将网络缺失数据对应的空间特征向量与此前历史数据相关的上下文向量进行联合，使其融合了此前时段网络数据的时空信息，能有效地提高对网络缺失数据进行在线填充的地精度、填充速度快，能充分满足实时填充的需求，完全可以应用于网络缺失数据的在线流处理。

在上述实施例的基础上，作为一种可选实施例，在将所述历史矩阵序列输入至预先训练好的特征提取器以及将所述空间特征向量序列依次输入值预先训练好的门控循环单元之前，还对所述特征提取器以及所述门控循环单元进行预训练，具体包括：

需要说明的是，本发明在对特征提取器以及所述门控循环单元进行预训练的过程中，同样需要预先构建当前网络的监控数据矩阵，并将所采集的所有网络监控数据矩阵按照时间顺序，构建监控数据矩阵序列。

然后，从监控数据矩阵序列随机取出N个监控数据矩阵

然后将与之对应的空间特征向量

作为负样本；

然后，将任一时刻k监控数据对应的特征上下文向量z^k作为正样本，同时以上下文向量c^k-1作为锚点，实现通过使用基于正样本与负样本的对比学习方法，训练特征提取器与门控循环单元，以通过训练增强二者的时空信息提取能力。

基于上述实施例的内容，作为一种可选实施例，上述使用基于正样本与负样本的对比学习方法，对所述特征提取器以及所述门控循环单元进行预训练，主要包括但不限于以下步骤：

图6是本发明提供的基于正负样本进行对比学习训练上下文向量的模型意图，如图6所示，将正样本z^k与上下文向量c^k-1分别重构成矩阵而后相乘，得到正样本重构矩阵f(z^k，c^k-1)。

同理，将N个负样本构成的负样本集合

重构成矩阵，再与上下文向量c^k-1进行矩阵乘，则得到负样本重构矩阵

然后，将正样本重构矩阵f(z^k，c^k-1)及负样本重构矩阵

统一进行Softmax操作获得每一个结果对应的分数。

在获取结果对应的分数之后，通过损失函数L对模型进行更新。具体公式如下：

其中，各参数的定义为：Λ为损失函数符号，z^k为X^k提取后的空间特征向量，

为

提取后的空间特征向量，c^k-1为从历史序列中提取的上下文向量，f(z^k，c^k-1)为正样本重构矩阵，

为负样本重构矩阵，E_z[]代表对空间特征向量z^k与

求括号内公式的期望。

噪声比估计的目标是令f(z^k，c^k-1)的值尽量大，而

尽量小。故本发明中所指出的更新结果收敛，是指若上述模型能够认出正样本和负样本的区别，显然这个上下文向量已经训练得足够好了。

基于上述实施例的内容，作为一种可选实施例，在步骤S15中所述的将上下文向量与所述当前时刻k对应的空间特征向量进行联合处理，以获取联合向量，包括：

具体地，此处将两者联合的目的是：将经过训练的上下文c^k-1与时刻k数据对应的特征向量z^k联合，以结合时空相关性与当前时刻数据的信息。

基于上述实施例的内容，作为一种可选实施例，在将所述联合向量输入至预先训练好的缺失数据生成模型之前，还包括利用加权复合损失函数，对所述缺失数据生成模型进行预训练；加权复合损失函数是由鲁棒性相对误差函数与均方根误差函数构建的。

本发明是将步骤S15中获取到的联合向量输入至缺失数据生成模型，以对当前时刻k的待填充监控数据矩阵进行填充，输出到最终的当前监控数据矩阵，为提高缺失数据生成模型的识别精度，还需对其进行预训练。

本发明创造性地提出将鲁棒性相对误差函数(RRE)与均方根误差函数(MSE)加权复合，构成加权复合损失函数，以用于训练缺失数据生成模型。这样，由于监控数据矩阵的时空相关性具有整体性，通过令当前时刻k的生成矩阵向k时刻的可观测矩阵靠近能够实现对非观测位置的填充。

图7是本发明提供的结合上下文向量以及空间特征向量对缺失位置进行填充的模型示意图，如图7所示，缺失数据生成模型可以是多层神经网络，其主要作用为将联合向量还原为填充后的监控数据矩阵。

为提高生成位置的精度，本发明使用由鲁棒性相对误差函数与均方根误差函数构建的加权复合损失函数来训练模型，公式如下：

1≤b，0＜μ＜＜1；

为在时刻k中矩阵位置[i，j]处的真实值；

为在时刻k中矩阵位置[i，j]处模型给出的填充值；b和μ均为调节损失函数的超参数。当b较大时，模型收敛的速度会快一些，同时收敛稳定性会稍弱。当μ较大时靠近目标值的梯度将更平缓，但逼近目标值的速度会稍慢。

通过上述模型预训练方法，就能够准确的将鲁棒性相对误差函数与均方根误差函数的优点结合：在模型预训练地初期既有均方根误差函数快收敛的速度，在预训练的中后期又有鲁棒相对误差函数高精度的特性。

最后，基于已有历史数据(监控数据矩阵序列)，循环执行步骤S01至步骤S05，进行迭代训练，直至训练结果收敛。此时特征提取器、门控循环单元以及缺失数据生成模型的前期训练均告完毕。在实际流处理时，具体为对于接下来每一时刻执行步骤S11至步骤S16，与预训练的区别为：不再以填充历史数据的形式训练模型，且此时由于不再迭代，参数α可以设为固定值0.9以便于训练。

图8是本发明提供的使用三种不同损失函数针对Abliene数据集在相同条件相同迭代次数下的精度收敛曲线示意图，如图8所示，本发明提供的网络缺失数据在线填充的流处理方法，对网络监控数据以滑动窗口的形式将当前待填充矩阵和历史监控数据矩阵序列输入预先训练的特征提取器，从而充分利用待填充矩阵和历史监控数据矩阵的时空相关性，并利用预先训练好的门控循环单元进行表征学习，大大加快训练速度。

同时在缺失数据生成模型预训练部分，创造性地引入鲁棒性相对误差函数RRE，通过将均方根误差函数MSE和鲁棒性相对误差函数RRE的加权，使得对于缺失数据生成模型的预训练兼顾均方根误差函数MSE初期训练快、鲁棒性相对误差函数RRE识别精度高的特点。

表1四种算法对Abliene数据集不同采样率下的ER表

表2四种算法对GEANT数据集不同采样率下的ER表

表1是将本发明提供的网络缺失数据在线填充的流处理方法(简称Our method)，与现有的三种网络缺失数据填充算法(包括DLMC、BTMF以及CoSTCo)针对Abliene数据集，在五种不同采样率下的填充误差(Error Rate，ER)比对表，表2是将本发明提供的网络缺失数据在线填充的流处理方法，与现有的三种网络缺失数据填充算法针对GEANT数据集在五种不同采样率下的填充误差比对表。

图9是本发明提供的是由四种不同算法针对Abilene数据集在五种不同采样率下的准确率ER示意图；图10是本发明提供的是由四种不同算法针对GEANT数据集在五种不同采样率下的准确率ER示意图；图11是本发明提供的为实验中两种不同算法在流处理模式下，针对Abliene数据集接下来1000个时刻进行填充的准确率ER变化曲线，以及对该曲线进行滑动计算平均值后的变化曲线。

如图9至图11所示，并结合表1以及表2所示，可以获知：相较于背景技术提及，以及现有的网络缺失数据填充方法来说，本发明提供的网络缺失数据在线填充的流处理方法，将当前时刻的数据与历史数据的时间及空间相关性进行融合后再做填充。从流处理流程中可以发现，在当前时刻的数据来临时，只需要在已训练好的模型的基础上，进行小幅度的参数更新，而非对所有模型从头开始预训练，因此时间复杂度更低，能够满足流处理的需求。

需要说明的是，如图10所示，相较于传统的张量分解方法，本发明所提供的网络缺失数据在线填充的流处理方法，具有更低的时间复杂度，能够显著提高数据填充的运行速度与响应速度。与此同时，由于采取了合理的损失函数，在流处理过程中即使时空相关性发生突变，也能够快速捕捉并显著提升了填充精度。

综上所述，本发明提供的网络缺失数据在线填充的流处理方法，在进行缺失数据填充任务(特别是在低采样率的情况下)具有显著的精度优势。其次，不同于传统方法需要重新训练，本发明通过增量更新参数的方式，能够实现在线缺失数据填充的功能，填充及时性得到可靠保证。

图12是本发明提供的网络缺失数据在线填充的流处理系统的结构示意图，如图12所示，主要包括：第一处理单元、第二处理单元、第三处理单元、第四处理单元、第五处理单元、第六处理单元和第七处理单元，其中：

第一处理单元主要用于按照预设采样频率采集当前网络的监控数据矩阵，并将所采集的所有网络监控数据矩阵按照时间顺序，构建监控数据矩阵序列。

第二处理单元主要用于获取与当前时刻k的待填充监控数据矩阵相关的历史矩阵序列；所述历史矩阵序列是以窗口长度为T的滑动窗口，从所述监控数据矩阵序列上选择的k-T到k-1范围内的T个监控数据矩阵构成的。

第三处理单元主要用于将所述历史矩阵序列输入至预先训练好的特征提取器，以获取由所述特征提取器输出的空间特征向量序列；所述空间特征向量序列包含与所述T个监控数据矩阵所对应的T个空间特征向量。

第四处理单元主要用于将所述空间特征向量序列依次输入值预先训练好的门控循环单元，以获取由所述门控循环单元输出的上下文向量。

第五处理单元主要用于将所述上下文向量与所述当前时刻k对应的空间特征向量进行联合处理，以获取联合向量。

第六处理单元主要用于将所述联合向量输入至预先训练好的缺失数据生成模型，以获取由所述缺失数据生成模型输出的当前监控数据矩阵。

第七处理单元主要用于在流处理过程中，迭代执行上述步骤S11至S16的步骤，以获取针对每个所述当前时刻k的待填充监控数据矩阵进行填充后的所述当前监控数据矩阵。

需要说明的是，本发明实施例提供的网络缺失数据在线填充的流处理系统，在具体执行时，可以基于上述任一实施例所述的网络缺失数据在线填充的流处理方法来实现，对此本实施例不作赘述。

图13是本发明提供的电子设备的结构示意图，如图13所示，该电子设备可以包括：处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令，以执行网络缺失数据在线填充的流处理方法，该方法包括：

此外，上述的存储器1330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的网络缺失数据在线填充的流处理方法，该方法包括：

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的网络缺失数据在线填充的流处理方法，该方法包括：

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种网络缺失数据在线填充的流处理方法，其特征在于，包括：

S17，在流处理过程中，迭代执行上述步骤S11至S16的步骤，以获取针对每个所述当前时刻k的待填充监控数据矩阵进行填充后的所述当前监控数据矩阵；其中在将所述联合向量输入至预先训练好的缺失数据生成模型之前，还包括利用加权复合损失函数，对所述缺失数据生成模型进行预训练；

所述加权复合损失函数是由鲁棒性相对误差函数与均方根误差函数构建的，所述加权复合损失函数的函数模型表达式为：

1≤b,0＜μ＜＜1；

为在时刻k中矩阵位置[i,j]处的真实值；

为在时刻k中矩阵位置[i,j]处模型给出的填充值；b和μ均为调节损失函数的超参数。

2.根据权利要求1所述的网络缺失数据在线填充的流处理方法，其特征在于，在将所述历史矩阵序列输入至预先训练好的特征提取器以及将所述空间特征向量序列依次输入值预先训练好的门控循环单元之前，还对所述特征提取器以及所述门控循环单元进行预训练，具体包括：

3.根据权利要求2所述的网络缺失数据在线填充的流处理方法，其特征在于，使用基于正样本与负样本的对比学习方法，对所述特征提取器以及所述门控循环单元进行预训练，包括：

将正样本与上下文向量分别重构成矩阵而后相乘，得到正样本重构矩阵；

将N个负样本构成的负样本集合重构成矩阵，再与上下文向量进行矩阵乘，则得到负样本重构矩阵；

4.根据权利要求1所述的网络缺失数据在线填充的流处理方法，其特征在于，任一所述监控数据矩阵的行代表源节点、列代表目标节点；所述监控数据矩阵的元素值为链路值。

5.根据权利要求1所述的网络缺失数据在线填充的流处理方法，其特征在于，所述将所述上下文向量与所述当前时刻k对应的空间特征向量进行联合处理，以获取联合向量，包括：

6.一种网络缺失数据在线填充的流处理系统，其特征在于，包括：

第一处理单元，用于按照预设采样频率采集当前网络的监控数据矩阵，并将所采集的所有网络监控数据矩阵按照时间顺序，构建监控数据矩阵序列；

第七处理单元，用于在流处理过程中，迭代执行上述第一处理单元至第六处理单元的步骤，以获取针对每个所述当前时刻k的待填充监控数据矩阵进行填充后的所述当前监控数据矩阵；其中在将所述联合向量输入至预先训练好的缺失数据生成模型之前，还包括利用加权复合损失函数，对所述缺失数据生成模型进行预训练；

1≤b,0＜μ＜＜1；

为在时刻k中矩阵位置[i,j]处的真实值；

7.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述网络缺失数据在线填充的流处理方法步骤。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述网络缺失数据在线填充的流处理方法步骤。