CN109947597B

CN109947597B - 一种网络流量数据恢复方法及系统

Info

Publication number: CN109947597B
Application number: CN201910211736.6A
Authority: CN
Inventors: 王香阁; 谢鲲; 陈宇翔; 文吉刚
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2019-03-20
Filing date: 2019-03-20
Publication date: 2022-12-23
Anticipated expiration: 2039-03-20
Also published as: CN109947597A

Abstract

本发明公开了一种网络流量数据恢复方法及系统，输入一个3阶的流量张量

其中，

是一个不完整张量，I维度表示时隙、J维度表示天数、K维度表示源节点到目的节点之间的流量数据，即OD对；通过张量的平行因子分解，即CP分解，求因子矩阵

利用三个因子矩阵A,B,C选择锚点，计算数据间的相似度距离，构建子张量。通过子张量的填充和数据加权融合恢复原始的网络流量张量。本发明能够有效的挖掘并利用数据内部隐藏的相似性，实现更加精准的张量数据填充；对所需填充的张量数据放松了整体低秩的假设约束，只需假设需要恢复的张量具有局部低秩性，更加适用于真实数据集。

Description

一种网络流量数据恢复方法及系统

技术领域

本发明涉及计算机技术和网络技术领域，特别是涉及网络流量监测中，需要根据部分采样数据快速填充全部数据的应用，具体是基于局部张量填充的网络流量数据精准恢复方法及系统。

背景技术

监控大型网络的性能需要耗费高测量代价。最近的一些研究表明，监控的网络数据(如端到端延迟和流量)隐藏了时空相关性。这激发了新型稀疏网络监测技术的发展。在该技术中应用基于样本的网络监测，其中仅在一些随机节点对之间或者在给定节点对的某个间隔进行测量，其他节点的流量数据利用网络流量数据本身的时空相关性推导出来，可以大大降低测量成本。

虽然有减少测量开销的好处，但用于异常检测和故障恢复的网络状态跟踪对数据的丢失非常敏感。从部分网络流量测量中准确恢复缺失值成为稀疏网络监测的重要步骤。目前已知的单纯的利用空间或时间信息的设计方法，数据恢复性能是很低的。为了更加精确地恢复数据，将网络监控数据表示为一个称为张量的高维数组。虽然通过张量填充来恢复缺失的数据很有前景，但是现有的张量填充算法一般都假设缺失的张量数据具有整体低秩的结构，并试图找到一个单一的全局模型来拟合整个张量的数据。然而，在许多实际应用中，大张量中的数据可能具有不同程度的相关性。由于数据集中各个部分的数据具有不同的结构特征，单个模型无法捕获数据集中的所有数据特征，导致缺失数据恢复精度较低。

发明内容

本发明所要解决的技术问题是，针对现有技术不足，提供一种网络流量数据恢复方法及系统，实现更加精准的张量数据填充。

为解决上述技术问题，本发明所采用的技术方案是：一种网络流量数据恢复方法，包括以下步骤：

一种网络流量数据恢复方法，其特征在于，包括以下步骤：

1)输入一个3阶的流量张量

其中，

是一个不完整张量，_I维度表示时隙、_J维度表示天数、_K维度表示源节点到目的节点之间的流量数据，即OD对；

2)通过张量

的平行因子分解，即CP分解，使张量中采样元素误差的损失函数最小化，找出因子矩阵

损失函数定义如下：

其中，[[A,B,C]]_i,j,k和m_i,j,k分别是填充的数据元素，以及采样点(i,j,k)处的值；[[A,B,C]]_i,j,k-m_i,j,k是在索引为(i,j,k)处的恢复误差，Ω为采样位置张量；

3)利用因子矩阵A,B,C选择锚点以构建局部子张量，填充局部子张量，对填充好的局部子张量中的数据进行加权融合，使用加权融合恢复的局部子张量数据填充出原始的大张量

还包括如下步骤4)：输出原始的大张量

中的任意一个数据表示为

其中m_i,j,k是采样位置的元素，其值由采样张量

确定；Ω为采样位置张量。

步骤3)中，利用因子矩阵A,B,C选择锚点的具体实现过程包括：

1)对时隙、天数和OD对切片进行编码，构建三个LSH表，根据每个维度的数据相关性将时隙、天数和OD对重新排序到X、Y和Z组；

2)使用{a₁,a₂,…,a_X},{b₁,b₂,…,b_Y}和{c₁,c₂,…,c_Z}分别表示三个维度上的分组中心点，通过组合这三个维度的中心a_i,b_j,c_k得到候选锚点

其中1≤i≤X,1≤j≤Y,1≤k≤Z；

3)计算以每个候选锚点为参考点提取的子张量的采样密度，候选锚点

与已选锚点

间的平均距离

选取使

最大的候选锚点作为选择的锚点，其中0≤α≤1，l是已选锚点个数。

构建和填充每个局部子张量的具体实现过程包括：

1)选择与锚点的距离小于h的数据元素m_i,j,k形成局部子张量；

2)利用下述公式对局部子张量进行填充：

其中

为锚点，A_t,B_t,C_t是以锚点

为中心的子张量的三个因子矩阵，

和m_i,j,k分别是填充的数据元素，以及采样点(i,j,k)处的值；[[A,B,C]]_i,j,k-m_i,j,k是在索引为(i,j,k)处的恢复误差，Ω为采样位置张量，

是度量样本点m_ijk与锚点

之间相似性的核函数，

其中h为距离的阈值，

为样本点m_ijk与锚点

在I,J,K三个维度的角度距离。

本发明中，0＜h＜1。

对已填充的局部子张量数据加权融合，填充出原始的大张量

的具体实现过程包括：通过以下公式加权计算原始的大张量

中任意(i,j,k)位置的数据

其中，A_t,B_t,C_t是在第t个子张量中的因子矩阵，[[A_t,B_t,C_t]]_i,j,k是在第t个子张量中恢复出来的值。

相应地，本发明还提供了一种基于局部张量填充的网络流量数据恢复系统，包括：输入模块：用于输入一个3阶的流量张量

其中，

是一个不完整张量，_I维度表示时隙、_J维度表示天数、_K维度表示源目的节点间的流量数据，即OD对；

估计模块：通过张量的平行因子分解，即CP分解，使张量

中采样元素误差的损失函数最小化，找出因子矩阵

使用基于采样距离和密度的选点算法选择锚点

距离锚点h以内的数据构建子张量，子张量填充方法的损失函数定义如下：

其中，

和m_i,j,k分别是在第t个张量中填充的数据元素，以及采样张量(_i,j,k)处的值；

是在索引为(i,j,k)处的恢复误差，Ω为采样位置张量；

恢复模块：用于利用因子矩阵A,B,C选择锚点以构建局部子张量，填充局部子张量，对填充好的局部子张量中的数据进行加权融合，使用加权融合恢复的局部子张量数据填充出原始的大张量

与现有技术相比，本发明所具有的有益效果为：在网络流量数据恢复技术中，现有的张量填充技术通常基于很强的假设，即张量数据具有整体低秩结构，并且试图找到单个全局模型以满足整个张量的数据。本发明提出了一种新颖的局部张量填充(LTC)的网络测量数据恢复技术，通过利用具有更强相关性的局部数据来形成和恢复每个具有低秩结构的子张量，实验结果证明本发明的数据恢复技术比现有技术更加精确。本发明能够有效的挖掘并利用数据内部隐藏的相似性，实现更加精准的张量数据填充；对所需填充的张量数据放松了整体低秩的假设约束，只需假设需要恢复的张量具有局部低秩性，更加适用于真实数据集。

附图说明

图1为流量数据的3-阶张量建模形式；

图2为LTC技术的流程图；

图3(a)～图3(b)为构建LSH表的实例；

图4为锚点选择过程简介；

图5为子张量采样密度计算；

图6(a)～图6(f)为LTC技术中相关参数的训练；

图7(a)～图7(b)为LTC技术与经典的三种张量填充技术性能比较。

具体实施方式

1)问题

第一步：建模

将监测的网络流量数据建模为一个3-阶张量

为例来描述(如图1所示)，其中K对应于网络中源点和目的节点(OD)对的个数，每一天有I个时间间隔，需要考虑J天。例如本发明中的真实数据集Abilene，I＝288,J＝168,K＝144。它的三个维度的物理含义是时隙、天数和源目的节点间流量数据((OD)对)。张量模型中的任意数据可以表示为

第二步：CP分解(张量分解)。将观测到的张量

和采样位置张量Ω利用公式(1)做CP分解。CP分解技术能够很好的处理具有张量结构的数据问题，挖掘出多维数据之间的相关联系。得到三个因子矩阵

第三步：选择一些锚点。LTC算法的流程如图2所示，其中选择锚点技术是本发明的亮点之一。具体的采样密度和锚点间距离的锚点选择算法下面详细说明：

基本思想是建立LSH表来有效计算候选锚点。我们首先根据LSH表将相似的时隙、天数和OD对分组在一起来实现近似于最近邻查询。

1)在因子矩阵的基下对张量切片进行编码。3-阶张量

的CP分解可以表示如下：

直接根据时隙、天数和OD对切片计算距离需要每个矩阵都有完整的数据。相反，我们对切片进行编码并计算它们之间的距离。在时刻i，j天，OD对k的编码可以表示为a_i:,b_j:,c_k:。很明显，分别是因子矩阵A,B,C的行。

2)构建LSH表来重新排序时间、天和OD对，选择出候选锚点。以重排OD对为例，为了将相似的OD对分组在一起，我们将LSH应用到OD对的编码中，将OD对编码映射到LSH表中。首先，将OD对投影到直线上。给定OD对k其编码为

我们定义LSH哈希函数为

建立LSH表。我们将直线上的第一个投影值和最后一个投影值分别表示为p_s和p_e。给定要分割的组的总数Z，我们将p_s和p_e之间的投影线分割成Z部分来构建哈希表，表的桶宽为

图3(a)从几何意义上展示了步骤1的投影过程。将LSH哈希函数(13)应用于OD对之后，这些OD对k₁,k₂,k₃,k₄,k₅,k₆投影在这条直线上，在图3(b)中，第一个投影值和最后一个投影值分别为

我们假设Z＝2，将所有投影值聚集到两个哈希桶(组)中，每个哈希桶的宽度为

公式(3)中我们使用OD对编码后数据的归一化来做投影而不是原始OD对数据。因为我们更关心数据编码的方向(即OD对之间的角度)，而不是它们的绝对值，以便更精确地恢复张量。

为了将相似的OD对存放到同一个哈希桶中，同时降低不相关的OD对投影到同一个哈希桶中产生碰撞的概率，我们不使用单个哈希函数，而是将OD对投影为n个LSH函数的平均值，如下：

其中，

是编码为c_k:的OD对k的由单个LSH哈希函数映射计算生成的值。在本发明中，我们设置n＝10。

3)相似距离计算。计算张量中数据m_ijk和m_i,j,k,之间的相似性，是为了将与锚点m_i′j′k′相似的数据提取来形成子张量。我们不能用一个简单的利用划分张量的索引来生成子张量，因为在大张量中，相邻索引的数据可能不相似。因此需要将与锚点m_i′j′k′的相似性转化为距离，定义为：

d(m_ijk，m_i′j′k′)＝d(a_i：，a_i′：)×d(b_j:，b_j′：)×d(c_k：，c_k′：) (5)

其中，

分别是时间槽i和i′、两天j和j′、2个OD对(k和k′)的角度距离。距离越小，数据就越相似。这样就可以把相似度高的数据划分在同一个子张量中。

本发明中，给定一个锚点

其中a_t、b_t、c_t是三个维度的类中心。当a_t∈{a₁,a₂,…,a_X}，b_t∈{b₁,b₂,…,b_Y}，c_t∈{c₁,c₂,…,c_Z}时，选择与

距离小于h的数据m_ijk形成子张量：

在我们的算法性能分析实验中，我们将研究h对LTC算法恢复性能的影响。

4)候选锚点中选择锚点。为了有效、准确地恢复缺失数据，需要选择合适的锚点形成子张量。选取锚点有两个准则:1)选取的每个子张量都应该包含更多的采样信息来恢复子张量中缺失的数据；2)被选择的子张量应该包含更多的信息来恢复原始的大张量。

给定候选锚点

选取与

相关性较高的样本数据组成子张量。给定子张量中选取的样本总数为N_t，我们将样本密度定义为子张量中样本总数与其总数据量大小的比值：

式中，I_t,J_t,K_t分别为时隙、天、OD对中所选择的不同子张量的下标，I_t×J_t×K_t为子张量的大小。

结合采样密度和锚点距离，我们提出一种选取锚点算法，逐点选择直至所选锚点总数达到q。特别地，如果目前我们已经选取了l个锚点，在所有剩下q-l的候选锚点中，我们将选取使公式(7)最大化的锚点

其中，

是备选锚点

和l个已选锚点的平均距离，α是平衡备选锚点的采样密度和距离的调整系数，0＜α＜1。在仿真实验中，我们将研究α对算法的恢复性能的影响。第四步：在上一步选择的锚点附近一定距离范围内组建低秩的子张量，并对每一个子张量使用加权最小化误差的损失函数进行填充，计算公式如下：

通过最小化填充误差的平方，以及根据样本点m_ijk与锚点

的相似度进行加权，从而得到每个局部张量数据的低秩近似。在(2)中，

是度量样本点m_ijk与锚点

的之间相似性的平滑核函数，定义为：

使用核函数把距离转换成相似度。显然，随着核函数的引入，距离越大，相似度越小，权值越小；距离越小，相似度越大，权值越大。距离锚点越近的数据的权值越大。在公式(8)中，

误差越小，误差权重越大，数据恢复更准确。

第五步：子张量数据融合。这一步给出的子张量数据融合解决方法，是本发明的亮点之二。

任意一个张量元素(i,j,k)可以包含在不同的子张量中。在恢复每个子张量之后，我们需要融合它所在的各个子张量中的填充数据，最终填充出原始的张量。如果我们选择q个子张量根据相应的锚点

我们可以通过以下公式的加权运算求出最终恢复的大张量中第(i,j,k)位置的数值:

其中，A_t,B_t,C_t是在锚点

处提取的子张量的因子矩阵，[[A_t,B_t,C_t]]_i,j,k在第t个子张量中恢复出来的值。实际上，公式(10)是与m_ijk相关子张量中恢复值的加权和。给定一个包含在多个子张量中的元素m_ijk，我们在数据融合公式(10)中赋予了恢复误差较小的子张量更大的权重，而恢复误差大的权重较小。因此，我们的融合过程可以实现大张量更准确的缺失数据恢复。

如果存在缺失元素(i,j,k)不被任何子张量覆盖的极端情况，我们可以通过三个因子矩阵A,B,C结合公式

来估计填充。

我们在两个真实的流量数据集Abilene和GEANT上做了相关参数的训练和恢复精度的比较等实验，我们以Abilene数据集上的实验结果为例，评估我们提出的LTC算法的性能。

使用原始跟踪数据作为参考，通过将恢复的数据与跟踪中的原始数据进行比较来计算恢复性能指标。

我们使用两个相对错误率指标来评估恢复的准确性:

和

其中，m_ijk和

分别表示原始数据和填充数据在

中第(i,j,k)-th索引处的数值，这里1≤i≤I,1≤j≤J，1≤k≤K。第一个度量是评价张量填充对已有观测数据元素的影响，是相对误差，第二个度量是根据张量填充在推断位置估计的值的误差。对于这两个流量跟踪张量，采样率都设置为40％。

实验结果

我们做了两种实验。在本发明中，我们的LTC是基于张量的CP分解设计的，为了后面方便比较，简化表示为CP-LTC。为了实验性能的比较，我们还实现了经典的张量填充算法CP分解(简称为CP)。

在第一类的实验中。我们对CP-LTC中使用的参数进行了实验研究，在此基础上，我们在实验中为CP-LTC的性能研究提供了合适的参数设置。在第二类实验中，我们按照LTC的设计模式实现了其他张量填充算法，例如CP_NMU，CP_OPT。并证明了我们的算法LTC设计是通用的，可以利用它来提高丢失数据的恢复精度，而不受后面具体填充算法的影响。

·相似度阈值参数h的训练

在我们的CP-LTC中，距离锚点小于h的项被选择到子张量中。h直接影响子张量的大小和子张量中数据之间的相似性程度。如图6(a)和图6(b)所示，随着h的增加，采样误差和推断错误率开始下降，但当h超过一定值时错误率又开始上升。一方面，h的增加使得子张量中包含更多的相关项，有助于提高恢复精度。另一方面，h越大，子张量内部数据的相似性系数越低，恢复精度越低。在流量数据集Abilene中h＝0.6时，CP-LTC技术的实验性能最好。

·参数α的训练

从候选锚点中选择锚点时，参数α控制距离和密度的比例的平衡。当α增大时，密度比例将增加，距离比例将减少。不同大小的α，导致不同的锚点被选择，从而影响CP-LTC技术的恢复性能。图6(c)和图6(d)通过调整不同的α，观察CP-LTC技术的恢复性能。从实验结果，我们可以得出结论，我们CP-LTC在α＝0.5时可以达到最好的恢复性能在流量张量中。因此，我们在实验中设置参数α＝0.5。

·参数q的训练

图6(e)和图6(f)直观的展示CP-LTC算法的恢复性能与锚点个数(即q)的函数关系。我们还实现了另外两种锚点选择算法。第一种算法是在大张量中随机选取锚点，记为RAN。第二个方法(记为RAN-LSH)从计算的候选锚点中随机选取锚点。

在所有张量填充算法中(CP-LTC、CP、RAN和RAN_LSH)中，当锚点个数相同时，我们的CP-LTC的性能最好。当子张量数接近10时，CP-LTC收敛，恢复误差稳定。我们局部低阶张量近似方法CP-LTC的效率是RAN-LSH的两倍。根据训练结果，我们在下面的对比实验中为Abilene流量数据集设置q＝10。

·局部张量填充算法的有效性

图7(a)和图7(b)比较了局部张量填充方法与经典的张量填充方法的数据恢复精度。我们实现了三种张量填充算法CP，CP_opt，CP_nmu中应用我们的方案LTC。为了性能比较，我们还直接使用整个采样张量来实现张量填充算法，而不直接从采样数据中提取子张量。实验证明我们的LTC技术在提高张量数据恢复精度方面非常有效。