CN110941793A

CN110941793A - 一种网络流量数据填充方法、装置、设备及存储介质

Info

Publication number: CN110941793A
Application number: CN201911145150.0A
Authority: CN
Inventors: 李思齐; 谢鲲; 欧阳与点; 文吉刚
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2019-11-21
Filing date: 2019-11-21
Publication date: 2020-03-31
Anticipated expiration: 2039-11-21
Also published as: CN110941793B

Abstract

本发明公开了一种网络流量数据填充方法、装置、设备及存储介质，将网络流量数据建模成三维原始张量，深入挖掘网络流量数据之间的周期性特征，反映了网络流量数据的多维特性；将Expectile回归与CP分解结合来构造损失函数，通过对设定权重w的选择可以有针对性的进行数据的精准恢复，实现对大象流数据的精准恢复；同时，Expectile回归既能描述数据的中心特性，又能描述数据的尾部特性，反映了数据的全貌特征，解决了传统方法无法描述数据各部分局部特性的问题；该方法根据非负矩阵分解算法与Expectile回归对因子矩阵进行更新，在更新过程中，既不需要像ALS算法计算矩阵的逆矩阵，又无需像SGD算法反复权衡一个合适的学习步长，极大地降低了计算的复杂度。

Description

一种网络流量数据填充方法、装置、设备及存储介质

技术领域

本发明属于计算机技术和网络技术领域，尤其涉及一种网络流量数据填充方法、装置、设备及存储介质。

背景技术

流量矩阵通常用来记录源节点与目标节点之间的流量数据，被应用于诸如负载均衡、异常检测和协议设计等网络工程场景中。但是对于一个拥有复杂结构的网络而言，通过获取源节点与目标节点之间的网络流量数据来构建流量矩阵不是一件容易的事情。一方面，流量数据需要在节点部署物理设备并进行测量获得，复杂的网络结构会产生众多网络节点，在各个节点均部署物理设备，显然是不太现实的。Q.Zhao等在“Robust trafficmatrix estimation with imperfect information:Making use of multiple datasources”,in ACM SIGMETRICS Perform.Eval.Rev.,vol.34,no.1,pp.133–144,2006中明确指出了该现状，并提出采用多种数据源来对流量矩阵进行估计。另一方面，如果网络发生拥塞或者物理设备失效，接收端接收到的数据将会是不完整的。

流量数据填充算法就是用来解决这一问题，这类算法的关键就在于利用网络中的部分流量数据来对整个网络中的流量数据进行恢复，例如：申请号为CN201810543422.1，名称为一种基于时空约束的交通数据张量填充方法的专利文献。在早期这种对于缺失数据的恢复方法仅是从空间(可参见A.Lakhina et al.提出的“Structural analysis ofnetwork traffic flows,”in ACMSIGMETRICS Perform.Eval.Rev.,vol.32,no.1,pp.61–72,2004.)或时间(Y.Vardi等提出的“Network tomography:Estimating source-destination traffic intensities from link data,”in J.Amer.Statist.Assoc.,vol.91,no.433,pp.365–377,1996.)这样一个维度上进行的，利用这类填充方法所得到的填充结果其准确率通常不高，尤其是在采样率很低的情况下，这类填充方法并不占有优势。基于矩阵的填充算法，同时利用流量数据的时间和空间特性，将其构建成二维矩阵再进行数据填充，它是对上面一维填充算法的改进，它的填充结果在一定程度上优于一维填充算法所得到的结果，但是在采样率很低的情况下，这种二维的填充算法依旧不具备明显优势。基于矩阵的填充算法可参考M.Roughan等提出的“Spatio-temporal compressive sensingand Internet traffic matrices(extended version),”IEEE/ACM Trans.Netw.,vol.20,no.3,pp.662–676,Jun.2012，以及M.Mardani等提出的“Robust network trafficestimation via sparsity and low rank,”in Proc.IEEE ICASSP,May 2013,pp.4529–4533。

在对真实的网络流量数据进行深入分析之后，发现了流量数据之间存在的周期特性，例如：K.Xie et al.提出的“Accurate recovery of Internet traffic data:Atensor completion approach,”in Proc.IEEE INFOCOM,Apr.2016,pp.1–9.，它意味着网络用户在每天的固定时间段可能会有类似的网络行为，从而导致网络流量数据在每天的该时段内会有相似的表现。研究员将这种数据的周期性加入到数据的建模中，于是开始用三维张量去描述网络流量数据。

张量填充的一个重要解决方法是张量分解，如图1所示。张量分解主要有两种形式：CANDECOMP PARAFAC(CP)分解和Tucker分解，可参见R.A.Harshman等提出的“Foundations of the PARAFAC Procedure:Modelsand Conditions for an‘Explanatory’Multimodal Factor Analysis.”Los Angeles,CA,USA:Univ.California,Los Angeles,1970.，以及L.R.Tucker提出的“Some mathematical notes on three-modefactor analysis,”Psychometrika,vol.31,no.3,pp.279–311,1966.。

CP分解是张量分解领域中的一种典型方法，它是将一个高维张量分解成多个核的和的过程，每个核由向量的外积组成，通过这样的分解，可以大大降低参数维度。

一个三维张量

的CP分解用公式表示为：

式中，R表示张量的秩，

和

均表示秩一张量(这些秩一张量构成了张量中的因子矩阵)。对于一个三维张量

其水平切片矩阵

的数量为I₁，i∈1，…，I₁，其纵向切片矩阵

的数量为I₂，j∈1，…，I₂，其正面切片矩阵

的数量为I₃，k∈1，…，I₃。将相同类型的切片矩阵沿同一方向进行重新组合的过程称为张量展开，其展开过程如图2所示。于是将三维张量

沿三个维度展开，并且利用Khatri-Rao积对这个三维张量矩阵化：

X₁≈A⁽¹⁾(A⁽³⁾⊙A⁽²⁾)^T

X₂≈A⁽²⁾(A⁽³⁾⊙A⁽¹⁾)^T

X₃≈A⁽³⁾(A⁽²⁾⊙A⁽¹⁾)^T

上式中的A⁽¹⁾、A⁽²⁾和A⁽³⁾表示因子矩阵。

为了使得CP分解之后得到的恢复张量与原始张量之间尽可能相似，常使用交替最小二乘法(The Alternating Least Squares,ALS)对CP分解过程进行优化，这是一种固定其余因子，而对剩下的那一个因子进行更新的优化算法。ALS的更新过程可以被表示为：

随机梯度下降算法(Stochastic Gradient Descent,SGD)是另一种用于优化CP分解的方法。SGD算法的关键点在于利用损失函数的梯度与一个预先设定的学习步长λ来对因子矩阵进行迭代更新，SGD的更新过程可以被表示为：

无论是基于ALS或基于SGD的CP分解优化算法，其求解过程本质上都是基于对称最小二乘法，我们可以将这个损失函数表示如下：

其中，f表示损失函数，

代表原始张量，

代表恢复张量，通过经由ALS或者SGD优化之后的CP分解算法来求得恢复张量

并且力图使张量

在恢复过程中逐渐接近原始张量

从损失函数的表达式中也可以看出，这种恢复算法是基于对称最小二乘法的，主要是用来表达数据的中心性。

然而通过对网络流量数据进行分析之后，发现：真实的网络流量数据的分布并不遵循严格的正态分布，而是呈现一种尖峰厚尾分布，也就是说，老鼠流(老鼠流特指网络流量中数据值较小的那部分流量数据)在网络流量中的比例占据了大部分，但是大象流(大象流特指网络流量中数据值较大的那部分流量数据)所占的比例仍旧不能忽略，呈现这种分布特征的数据在进行填充操作时，如果继续采用基于对称最小二乘的恢复算法将会导致填充结果出现一定偏差；这些算法主要是反映数据的中心性，会导致对老鼠流的恢复值偏大而对大象流的恢复值偏小。但是对于大象流的准确估计在诸如异常检测等网络工程中具有十分重要的意义，因此，我们应该采取一种更能反映数据局部特性的填充算法来完成张量填充的工作。

Expectile回归是一种基于非对称最小二乘的回归算法，它通过对正负残差施以不同的权重来达到函数值在正残差位置与对应负残差位置不对称的目的，可以被表示为：

Π_w(u)＝|w-I(u＜0)|u²

其中，w为设定权重，u为残差，I为指示函数，如果u大于0，则I的值为0，如果u小于0，则I的值为1。П_w(u)的示意图如图3所示，可以看出，当设定权重w>0.5时，该函数在正残差部分的函数值要大于对应负残差位置的函数值，当设定权重w<0.5时，情况则正好相反，而将w正好设置为0.5时，非对称最小二乘退化成对称最小二乘。Expectile回归的非对称特性正好可以被用在具有偏斜性分布特征的网络流量数据的恢复场景中，当需要重点关注大象流的数据特征时，可以将w设置为大于0.5的小数，这样，通过根据不同的场景选择不同的权重w最终达到描绘数据全貌的目的，即Expectile回归算法能够反映数据的局部特性。

发明内容

针对现有技术的不足，本发明提供一种网络流量数据填充方法、装置、设备及存储介质，用以克服传统的基于对称最小二乘的张量分解算法主要反映数据的中心性而无法描述数据各部分局部特性的缺陷，以实现对大象流数据的精准恢复，并能降低计算复杂度。

本发明是通过如下的技术方案来解决上述技术问题的：一种网络流量数据填充方法，包括以下步骤：

步骤1：根据采集的网络流量数据构建原始张量；

步骤2：对步骤1中原始张量进行不同维度的展开得到对应的因子矩阵，并基于Expectile回归构造原始张量与用所述因子矩阵表示的恢复张量之间的损失函数；

步骤3：根据非负矩阵分解算法与Expectile回归对步骤2中的因子矩阵进行更新；

步骤4：根据步骤3更新后的因子矩阵求取步骤2中损失函数的值，循环执行步骤3，直到得到损失函数的最小值，最小损失函数对应的恢复张量即为最终求得的恢复张量。

本发明所述的网络流量数据填充方法，将Expectile回归与CP分解结合来构造损失函数，通过对设定权重ω的选择可以有针对性的进行大象流数据或老鼠流数据的精准恢复，当设定权重大于0.5时，可以实现对大象流数据的精准恢复，当设定权重小于0.5时，可以实现对老鼠流数据的精准恢复；同时Expectile回归是一种基于非对称最小二乘的回归算法，既能描述数据的中心特性，又能描述数据的尾部特性，反映了数据的全貌特征，解决了传统方法无法描述数据各部分局部特性的问题；该方法根据非负矩阵分解算法与Expectile回归对因子矩阵进行更新，在更新过程中，既不需要像ALS算法计算矩阵的逆矩阵，又无需像SGD算法反复权衡一个合适的学习步长，极大地降低了计算的复杂度，节省了计算时间。

进一步地，所述步骤1中，原始张量是由源节点、目标节点和时间构成的三维原始张量，能够更好地反映数据的多维特征，挖掘数据之间更深层次的关系。

进一步地，所述步骤2中，损失函数F的表达式为：

式中，A⁽¹⁾、A⁽²⁾、A⁽³⁾为原始张量展开式中的因子矩阵，[[A⁽¹⁾,A⁽²⁾,A⁽³⁾]]为采用因子矩阵表示的恢复张量，[[·]]为对因子矩阵作Khatri-Rao积，[[A⁽¹⁾,A⁽²⁾,A⁽³⁾]]_ijk为恢复张量在采样点(i,j,k)的恢复值，χ_ijk为原始张量在采样点(i,j,k)的原始值，Ω为所有采样点的集合，ρ(·)为非对称最小二乘函数，且ρ(u)＝|ω-I(u＜0)|u²，ω为设定权重，u为原始值χ_ijk与恢复值[[A⁽¹⁾,A⁽²⁾,A⁽³⁾]]_ijk之间的残差，即u＝χ_ijk-[[A⁽¹⁾,A⁽²⁾,A⁽³⁾]]_ijk，I为指示函数。

进一步地，所述设定权重ω大于0.5。

进一步地，所述步骤3的具体操作包括以下子步骤：

步骤3.1：将原始张量展开式中的一个因子矩阵与非负矩阵分解算法中的一个因子矩阵对应，原始张量展开式中剩余因子矩阵的Khatri-Rao积与非负矩阵分解算法中的另一个因子矩阵对应，得到非负张量分解算法；

步骤3.2：将Expectile回归与步骤3.1中的非负张量分解法相结合，对原始张量展开式中的因子矩阵进行更新，具体的更新表达式为：

其中，

为更新前原始张量展开式中的因子矩阵，

为更新后原始张量展开式中的因子矩阵，⊙为Khatri-Rao积，[χ]₍₁₎、[χ]₍₂₎、[χ]₍₃₎分别为原始张量在水平方向、纵向、正面三个维度的展开矩阵，P为权重矩阵。

进一步地，所述权重矩阵P中的元素由设定权重ω和1-ω组成，ω或1-ω的选择取决于原始张量与恢复张量在对应位置上的残差的正负。

本发明提供了一种网络流量数据填充装置，包括：

输入模块，用于输入采集的网络流量数据，并根据网络流量数据构建原始张量；

损失构建模块，用于对原始张量进行不同维度的展开得到对应的因子矩阵，并基于Expectile回归构造原始张量与用所述因子矩阵表示的恢复张量之间的损失函数；

更新模块，用于根据非负矩阵分解算法与Expectile回归对原始张量展开式中的因子矩阵进行更新；

恢复模块，用于根据更新模块更新后的因子矩阵求取损失函数的值，直到得到损失函数的最小值，最小损失函数对应的恢复张量即为最终求得的恢复张量。

进一步地，所述更新模块包括：

非负张量分解单元，用于将原始张量展开式中的一个因子矩阵与非负矩阵分解算法中的一个因子矩阵对应，原始张量展开式中剩余因子矩阵的Khatri-Rao积与非负矩阵分解算法中的另一个因子矩阵对应，得到非负张量分解算法；

更新规则单元，用于将Expectile回归与非负张量分解法相结合，对原始张量展开式中的因子矩阵按照更新表达式进行更新，具体的更新表达式为：

其中，

为更新前原始张量展开式中的因子矩阵，

本发明提供了一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征是，所述处理器执行所述程序时实现如实施例中任意一项所述的方法。

本发明提供了一种计算机可读存储介质，其上存储有计算机程序，其特征是，该程序被处理器执行时实现如实施例中任意一项所述的方法。

有益效果

与现有技术相比，本发明提供的一种网络流量数据填充方法，将网络流量数据建模成三维原始张量，深入挖掘网络流量数据之间的周期性特征，反映了网络流量数据的多维特性；针对网络流量数据尖峰厚尾分布特点，将Expectile回归与CP分解结合来构造损失函数，通过对设定权重ω的选择可以有针对性的进行数据的精准恢复，实现对大象流数据的精准恢复；同时，Expectile回归是一种基于非对称最小二乘的回归算法，既能描述数据的中心特性，又能描述数据的尾部特性，反映了数据的全貌特征，解决了传统方法无法描述数据各部分局部特性的问题；该方法根据非负矩阵分解算法与Expectile回归对因子矩阵进行更新，在更新过程中，既不需要像ALS算法计算矩阵的逆矩阵，又无需像SGD算法反复权衡一个合适的学习步长，极大地降低了计算的复杂度，节省了计算时间。

本发明还提供了一种网络流量数据填充装置、设备及存储介质，具有和上述网络流量数据填充方法相同的有益效果。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一个实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明背景技术中张量分解示意图；

图2是本发明背景技术中张量展开示意图；

图3是本发明背景技术中Expectile回归曲线图；

图4是本发明实施例中因子矩阵迭代更新过程中损失函数及辅助函数趋势变化图；

图5是本发明实施例中Abilene数据集的采样数据和测试数据在迭代过程中的收敛性示意图，图5(a)为Abilene数据集的采样数据在迭代过程中的收敛性示意图，图5(b)为Abilene数据集的测试数据在迭代过程中的收敛性示意图；

图6是本发明实施例中Geant数据集的采样数据和测试数据在迭代过程中的收敛性示意图，图6(a)为Geant数据集的采样数据在迭代过程中的收敛性示意图，图6(b)为Geant数据集的测试数据在迭代过程中的收敛性示意图；

图7是本发明实施例中ENTF算法在不同设定权重w下Abilene数据集中大象流数据恢复误差示意图，图7(a)为Abilene采样数据中大象流数据恢复误差示意图，图7(b)为Abilene测试数据中大象流数据恢复误差示意图；

图8是本发明实施例中ENTF算法在不同设定权重w下Geant数据集中大象流数据恢复误差示意图，图8(a)为Geant采样数据中大象流数据恢复误差示意图，图8(b)为Geant测试数据中大象流数据恢复误差示意图；

图9是本发明实施例中ENTF-0.9与其他常用张量分解算法对Abilene数据集产生的恢复误差示意图，图9(a)为以MAE作为衡量标准的恢复误差示意图，图9(b)为以ER作为衡量标准的恢复误差示意图，图9(c)为以RMSE作为衡量标准的恢复误差示意图；

图10是本发明实施例中ENTF-0.9与其他常用张量分解算法对Geant数据集产生的恢复误差示意图，图10(a)为以MAE作为衡量标准的恢复误差示意图，图10(b)为以ER作为衡量标准的恢复误差示意图，图10(c)为以RMSE作为衡量标准的恢复误差示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明所提供的一种网络流量数据填充方法，包括以下步骤：

1、根据采集的网络流量数据构建三维原始张量。

三维原始张量包括源节点、目标节点和时间形成的三个维度向量，该三维原始张量是向量模型和矩阵模型向多维方向进行扩展后的模型，不再局限于向量模型中的一维数据特征和矩阵模型中的二维数据特征，能够更好地反映数据的多维特征，挖掘数据之间更深层次的关系，因此，三维原始张量更具有学术价值和现实意义。

2、对步骤1中三维原始张量进行不同维度的展开得到对应的因子矩阵，并基于Expectile回归构造三维原始张量与用因子矩阵表示的恢复张量之间的损失函数。

传统的张量填充算法主要目的是得到一个与原始张量χ近似的恢复张量

不同于原始张量中包含若干缺失值，恢复张量

是一个完整的张量，又由于其在更新过程中(因子矩阵更新而实现恢复张量的更新)受更新规则的影响使其不断接近原始张量，所以当原始张量与恢复张量之间的差距小于某一个阈值或达到最小时，用该恢复张量来替代原始张量χ。

对一个N维的原始张量进行矩阵化，它在第n维上的展开矩阵[χ]_(n)与各因子矩阵之间的关系可表示为：

式(1)中，A⁽¹⁾,…,A⁽ⁿ⁾,…,A^(N)表示N维原始张量在第n维展开时对应的因子矩阵，⊙为Khatri-Rao积，

为N维原始张量展开时除A⁽ⁿ⁾外其余因子矩阵的Khatri-Rao积。本实施例中，原始张量为一个三维的原始张量，即[χ]₍₁₎＝A⁽¹⁾(A⁽³⁾⊙A⁽²⁾)^T，[χ]₍₂₎＝A⁽²⁾(A⁽³⁾⊙A⁽¹⁾)^T，[χ]₍₃₎＝A⁽³⁾(A⁽²⁾⊙A⁽¹⁾)^T。矩阵化后，在计算过程中对原始张量进行了降维，把对原始张量的计算转化成了多个因子矩阵之间的计算。

Expectile回归的本质就是在回归模型中对正残差和负残差施以不同的设定权重，它是一种非对称的最小二乘算法。根据背景技术可知，当设定权重ω>0.5时，Π_ω(u)在正残差部分的函数值要大于对应负残差位置所取得的函数值，当设定权重ω<0.5时，情况则正好相反，而将ω正好设置为0.5时，非对称最小二乘退化成对称最小二乘。Expectile回归中的残差不同于传统意义的期望值，使用者可以根据自己的需要来选择合适的设定权重，例如：在异常检测中通常期望获得比较准确的大象流数据，就可以将设定权重设置为大于0.5的数。

将Expectile回归与传统的CP分解相结合可以解决传统张量分解算法无法反映数据局部特性的缺陷。设χ_ijk表示原始张量在采样点(i,j,k)的原始值，[[A⁽¹⁾,A⁽²⁾,A⁽³⁾]]为采用因子矩阵表示的恢复张量，[[·]]表示对因子矩阵作Khatri-Rao积，[[A⁽¹⁾,A⁽²⁾,A⁽³⁾]]_ijk表示恢复张量在采样点(i,j,k)的恢复值，将张量分解的表达式(即所求损失函数)写成如下形式：

式(2)中，A⁽¹⁾、A⁽²⁾、A⁽³⁾为原始张量展开式中的因子矩阵，Ω为所有采样点的集合，ρ(·)为非对称最小二乘函数，且ρ(u)＝|ω-I(u＜0)|u²，ω为设定权重，u为原始值χ_ijk与恢复值[[A⁽¹⁾,A⁽²⁾,A⁽³⁾]]_ijk之间的残差，即u＝χ_ijk-[[A⁽¹⁾,A⁽²⁾,A⁽³⁾]]_ijk，I为指示函数。本实施例中，为了实现对大象流数据的精准恢复，将设定权重ω设置为大于0.5的数。对于ρ(·)函数，对每一个残差u都赋予ω或1-ω，设定权重的赋予取决于残差是大于0还是小于0，残差u大于0时，取ω，残差u小于0时，取1-ω。

3、根据非负矩阵分解算法与Expectile回归对步骤2中的因子矩阵进行更新。

非负矩阵分解算法可以被描述成：

式(3)中，f表示损失函数，U、V分别表示因子矩阵，将下列式(4)的更新规则应用在因子矩阵U、V上将使损失函数f单调减小：

根据式(1)、(3)和(4)，将因子矩阵A⁽ⁿ⁾与非负矩阵分解算法中的因子矩阵U对应，将

与非负矩阵分解算法中的因子矩阵V对应，得到非负张量分解算法。而对于三维原始张量，在更新因子矩阵A⁽¹⁾时，将A⁽²⁾和A⁽³⁾视为一个整体，同理，在更新A⁽²⁾时将A⁽¹⁾和A⁽³⁾视为一个整体，更新A⁽³⁾时将A⁽¹⁾和A⁽²⁾视为一个整体。从式(4)非负矩阵分解的更新规则，可以推断出非负张量分解的更新规则为：

式(5)～(7)中，

为更新前三维原始张量展开式中的因子矩阵，

为更新后三维原始张量展开式中的因子矩阵。

由上述分析可知，在非负张量分解的过程中把针对张量的计算转化成针对矩阵的计算，从而完成非负矩阵分解中因子矩阵更新规则从矩阵维度向张量维度的扩展，得到相应非负张量分解算法中因子矩阵的更新规则。非负矩阵分解算法可参考提出的Lee D.D“Algorithms for non-negative matrix factorization,”Advances in NeuralInformation Processing System 13,556-562,2001.。

在尝试将Expectile回归与非负张量分解算法进行融合的过程中，采用类似于因子矩阵更新规则在非负张量分解算法中的推导，也就是说，先将Expectile回归与非负矩阵分解算法进行融合，推导出对应的因子矩阵的更新规则之后，再将这个更新规则推广应用到三维张量中去。

基于Expectile回归的非负矩阵分解算法的表达式可以被表示为：

式(8)中，U_ij为因子矩阵U在位置上(i,j)的元素，v为因子矩阵V中的一列，v_j为向量v在位置j上的元素，x为原始张量在某一维度上的展开矩阵中的一列，x_i为向量x在位置i上的元素，p为权重矩阵P中的一列，p_i为向量p在位置i上的元素，权重矩阵P中的元素由设定权重ω和1-ω组成，ω或1-ω的选择取决于原始张量与恢复张量在对应位置上的残差的正负。根据非负矩阵分解算法中的更新规则，在基于非对称最小二乘的非负矩阵分解算法中，对应的更新规则为：

式(9)中，K为对角矩阵，v^t为更新前的因子矩阵V的列向量，v^t+1为更新后的因子矩阵V的列向量，

为对损失函数求导数，F(v^t)为损失函数。相对原来的更新规则，对角矩阵发生了变化：

式(10)中，

u_i为因子矩阵U中的列向量，×表示向量间对应位置相乘，δ_jk为对角矩阵(其对角线上的元素为1，其余位置的元素均为0)，K_ij为对角矩阵在位置上(i,j)上的元素。对损失函数F(v^t)求导的表达式为：

式(11)中，x为原始张量在某一维度上的展开矩阵中的一列。需要说明的是，不需要将U'^TU直接参与运算，因为可以将其作为一个整体直接代入到后面的计算过程中。基于以上变化，对于因子矩阵V中的列向量v，其更新规则可以被改写为：

然后将

从U'^T中提取，重新改写列向量v的更新规则：

式(13)中，p为权重矩阵P中的一列。该式即为基于非对称最小二乘的非负矩阵分解算法中因子矩阵更新规则。根据式(5)～(7)更新规则在张量维度上的扩展，将Expectile回归应用在非负张量分解算法中，提出基于非对称最小二乘的非负张量分解算法模型，该模型可以被表示为：

式(14)中，A⁽ⁿ⁾为原始张量展开式中的第n个因子矩阵，

为原始张量展开式中除A⁽ⁿ⁾外的因子矩阵的Khatri-Rao积，p_i为权重矩阵P中的第i列，x_i为原始张量在第n维展开式中的第i列，a_j为因子矩阵A⁽ⁿ⁾中的第j列。

式(14)虽然适用于张量模型，但在求解过程中本质上是对矩阵进行处理，因此其求解过程可以参照对基于非对称最小二乘的非负矩阵分解模型的求解过程。因此，在张量模型中的因子矩阵的完整更新法则可以被表示为：

其中，

为更新前原始张量展开式中的因子矩阵，

对基于非对称最小二乘的非负张量分解算法的收敛性进行证明：构造一个辅助函数G(s,s^t)，该辅助函数被表示为：

在上述表达式中，G(s,s^t)是一个关于列向量s的辅助函数，s是因子矩阵中的一列，s^t表示列向量s第t次迭代后的结果，F是损失函数，

表示对损失函数进行求导，

的具体表达式为：

上式中，B是

的结果，同时

K(s^t)也表示对角矩阵，其表达式为：

B同样是

的结果，同时

辅助函数G(s,s^t)满足非负矩阵算法中所提出的辅助函数与损失函数之间的关系，即：

G(s,s^t)≥F(s) G(s,s)＝F(s) (21)

在上面的限制关系中，G(s,s^t)表示辅助函数，F(s)表示损失函数，这个限制关系是指辅助函数的函数值始终大于等于损失函数的函数值，且两函数必定相切。

对于满足以上关系的损失函数和辅助函数，当辅助函数以如下方式对变量进行更新时，就能保证损失函数非增：

s^t+1＝arg min G(s，s^t) (22)

这个更新原则是指：第t次更新，也就是说以s^t作为输入所产生的迭代结果使辅助函数G(s,s^t)达到最小的值，并作为第t+1次迭代的输入，其中G(s,s^t)中的s^t是第t次迭代的输入，s表示该轮迭代中使G(s,s^t)达到最小的值。以该种方式进行更新，就能保证第t+1次迭代的输入所产生的函数值一定小于第t次迭代的输入所产生的函数值，从而使得G(s,s^t)逐渐减小并最终与F(s)相交于F(s)的极小值点。具体的趋近过程可参考图4。

图5和6为不同数据集下采样数据和测试数据在迭代过程中的收敛性，图5(a)为Abilene数据集的采样数据在迭代过程中的收敛性示意图，根据图5(a)可知，基于非对称最小二乘的非负张量分解算法(下文简称ENTF算法)在Abilene采样数据的测试下，经多次迭代训练后逐渐收敛；图5(b)为Abilene数据集的测试数据在迭代过程中的收敛性示意图，根据图5(b)可知，ENTF算法在Abilene测试数据的测试下，经多次迭代训练后逐渐收敛。

图6(a)为Geant数据集的采样数据在迭代过程中的收敛性示意图，根据图6(a)可知，ENTF算法在Geant采样数据的测试下，经多次迭代训练后逐渐收敛；图6(b)为Geant数据集的测试数据在迭代过程中的收敛性示意图，根据图6(b)可知，ENTF算法在Abilene测试数据的测试下，经多次迭代训练后逐渐收敛。

Abilene数据集是取自美国某网络中的数据，该网络中包含12个节点，组成144个OD对，每5分钟一次记录了168天中这些节点之间的流量数据。Geant数据集是取自泛欧洲研究骨干网络中的数据，该网络中包含23个节点，组成529个OD对，每15分钟一次记录了112天中这些节点之间的流量数据。

4、根据步骤3更新后的因子矩阵求取步骤2中损失函数的值，循环执行步骤3，直到得到损失函数的最小值，最小损失函数对应的恢复张量即为最终求得的恢复张量。

根据式(15)～(17)更新因子矩阵，再将更新后的因子矩阵代入式(2)中计算损失函数的值，直到找到前后两次迭代所产生的损失函数的差值小于设定阈值(表明已收敛)，则后一次迭代所产生的损失函数的值为最小损失函数，且该最小值损失函数所对应的恢复张量即为最终求得的恢复张量。本实施例中，设定阈值为10^-6。

图7～10为对本发明算法的验证。由图7和8可知，Expectile回归确实对大象流的恢复产生了正面影响，ENTF-0.9与ESGD-0.9(Expectile回归与SGD算法相结合)所产生的相对误差要远小于其他常用算法所产生的误差，且对于大象流数据，应该取较大的设定权重，这一结论可以由ENTF-0.75与ENTF-0.9的相对误差比较中得到。由图9和10可知，分别以平均绝对误差(MAE)、相对误差(ER)以及均方根误差(RMSE)作为衡量标准，各算法所得到的恢复结果，其误差都随采样率的升高而降低，但ENTF-0.9在各个采样率下均能保持比较好的恢复效果(在各个采样率下误差都很低)，在低采样率的情况下，ENTF-0.9相对于其它算法的优势尤为明显。

将Expectile回归与SGD算法相结合提出ESGD算法，并用Abilene数据集进行验证。在验证过程中赋予其不同的步长，根据下表1可知，学习步长的设定对于ESGD算法的恢复效果具有十分重大的影响，步长过大，恢复精度降低，而将其学习步长设置为0.00001时，其恢复效果要优于ENTF-0.9，但过小的学习步长会导致收敛速度下降。并采用表2利用Geant数据集对ESGD算法进行验证，其结果同样验证了表1中的结论。

表1 ESGD-步长在Abilene数据集下的恢复误差

表2 ESGD-步长在Geant数据集下的恢复误差

本发明中，非负张量分解算法不再局限于一维向量和二维矩阵，将网络流量数据建模形成三维张量，充分利用数据内部的结构化信息，挖掘网络流量数据中的周期性特征。同时，针对传统方法无法反映数据局部特性的缺陷，将Expectile回归与非负张量分解算法相结合，这其中包含两个部分，第一部分是非负矩阵分解算法中因子矩阵更新规则从二维到三维的扩展，第二部分是将Expectile回归与非负矩阵分解算法相融合，得到新的更新规则之后，根据第一步的扩展，再次完成更新规则从二维到三维的扩展。

相比较于其它传统方法，由于都是基于对称最小二乘来进行求解，主要反映数据的中心性，而无法描述数据的局部特性。本发明提出了一种非对称的最小二乘算法，它能更全面地描述数据的分布特征，能根据需求调整设定权重从而使得对目标数据的恢复更加准确。同时，改进后的更新规则无需计算矩阵的逆矩阵，也无需反复实验确定学习步长，从而大大降低了时间复杂度。SGD算法恢复结果的好坏十分依赖步长，如果步长设置过大，更新过程易错过极小值点，步长设置过小，收敛过程很慢，因此选择一个合适的步长对于SGD算法尤为重要。事实上，在实验过程中，已经将Expectile回归与SGD算法进行结合并且提出了ESGD算法，在表1和表2中可以看到ESGD算法在不同步长下对于流量数据恢复误差的影响。而对于ALS算法来说，由于其更新过程中涉及到逆矩阵的运算，所以时间复杂度过大。基于以上两点考虑，我们选择将非负矩阵分解算法中的更新法则应用到三维张量中，这样既不用训练步长，也可以降低时间复杂度。通过实验数据进行了验证，本发明ENTF算法在针对大象流进行精准恢复的实验中准确度要明显优于其它传统张量分解算法。

本发明提供了一种网络流量数据填充装置，包括：输入模块，用于输入采集的网络流量数据，并根据网络流量数据构建原始张量；损失构建模块，用于对原始张量进行不同维度的展开得到对应的因子矩阵，并基于Expectile回归构造原始张量与用所述因子矩阵表示的恢复张量之间的损失函数；更新模块，用于根据非负矩阵分解算法与Expectile回归对原始张量展开式中的因子矩阵进行更新；恢复模块，用于根据更新模块更新后的因子矩阵求取损失函数的值，直到得到损失函数的最小值，最小损失函数对应的恢复张量即为最终求得的恢复张量。

更新模块包括：非负张量分解单元，用于将原始张量展开式中的一个因子矩阵与非负矩阵分解算法中的一个因子矩阵对应，原始张量展开式中剩余因子矩阵的Khatri-Rao积与非负矩阵分解算法中的另一个因子矩阵对应，得到非负张量分解算法；更新规则单元，用于将Expectile回归与非负张量分解法相结合，对原始张量展开式中的因子矩阵按照更新表达式(15)～(17)进行更新。

本发明提供了一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征是，处理器执行程序时实现如实施例中任意一项所述的方法。

以上所揭露的仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或变型，都应涵盖在本发明的保护范围之内。