CN109947597B - 一种网络流量数据恢复方法及系统 - Google Patents

一种网络流量数据恢复方法及系统 Download PDF

Info

Publication number
CN109947597B
CN109947597B CN201910211736.6A CN201910211736A CN109947597B CN 109947597 B CN109947597 B CN 109947597B CN 201910211736 A CN201910211736 A CN 201910211736A CN 109947597 B CN109947597 B CN 109947597B
Authority
CN
China
Prior art keywords
tensor
data
sub
anchor point
filling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910211736.6A
Other languages
English (en)
Other versions
CN109947597A (zh
Inventor
王香阁
谢鲲
陈宇翔
文吉刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN201910211736.6A priority Critical patent/CN109947597B/zh
Publication of CN109947597A publication Critical patent/CN109947597A/zh
Application granted granted Critical
Publication of CN109947597B publication Critical patent/CN109947597B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种网络流量数据恢复方法及系统,输入一个3阶的流量张量
Figure DDA0002000749180000011
其中,
Figure DDA0002000749180000012
是一个不完整张量,I维度表示时隙、J维度表示天数、K维度表示源节点到目的节点之间的流量数据,即OD对;通过张量的平行因子分解,即CP分解,求因子矩阵
Figure DDA0002000749180000013
利用三个因子矩阵A,B,C选择锚点,计算数据间的相似度距离,构建子张量。通过子张量的填充和数据加权融合恢复原始的网络流量张量。本发明能够有效的挖掘并利用数据内部隐藏的相似性,实现更加精准的张量数据填充;对所需填充的张量数据放松了整体低秩的假设约束,只需假设需要恢复的张量具有局部低秩性,更加适用于真实数据集。

Description

一种网络流量数据恢复方法及系统
技术领域
本发明涉及计算机技术和网络技术领域,特别是涉及网络流量监测中,需要根据部分采样数据快速填充全部数据的应用,具体是基于局部张量填充的网络流量数据精准恢复方法及系统。
背景技术
监控大型网络的性能需要耗费高测量代价。最近的一些研究表明,监控的网络数据(如端到端延迟和流量)隐藏了时空相关性。这激发了新型稀疏网络监测技术的发展。在该技术中应用基于样本的网络监测,其中仅在一些随机节点对之间或者在给定节点对的某个间隔进行测量,其他节点的流量数据利用网络流量数据本身的时空相关性推导出来,可以大大降低测量成本。
虽然有减少测量开销的好处,但用于异常检测和故障恢复的网络状态跟踪对数据的丢失非常敏感。从部分网络流量测量中准确恢复缺失值成为稀疏网络监测的重要步骤。目前已知的单纯的利用空间或时间信息的设计方法,数据恢复性能是很低的。为了更加精确地恢复数据,将网络监控数据表示为一个称为张量的高维数组。虽然通过张量填充来恢复缺失的数据很有前景,但是现有的张量填充算法一般都假设缺失的张量数据具有整体低秩的结构,并试图找到一个单一的全局模型来拟合整个张量的数据。然而,在许多实际应用中,大张量中的数据可能具有不同程度的相关性。由于数据集中各个部分的数据具有不同的结构特征,单个模型无法捕获数据集中的所有数据特征,导致缺失数据恢复精度较低。
发明内容
本发明所要解决的技术问题是,针对现有技术不足,提供一种网络流量数据恢复方法及系统,实现更加精准的张量数据填充。
为解决上述技术问题,本发明所采用的技术方案是:一种网络流量数据恢复方法,包括以下步骤:
一种网络流量数据恢复方法,其特征在于,包括以下步骤:
1)输入一个3阶的流量张量
Figure BDA0002000749160000011
其中,
Figure BDA0002000749160000012
是一个不完整张量,I维度表示时隙、J维度表示天数、K维度表示源节点到目的节点之间的流量数据,即OD对;
2)通过张量
Figure BDA0002000749160000021
的平行因子分解,即CP分解,使张量中采样元素误差的损失函数最小化,找出因子矩阵
Figure BDA0002000749160000022
损失函数定义如下:
Figure BDA0002000749160000023
其中,[[A,B,C]]i,j,k和mi,j,k分别是填充的数据元素,以及采样点(i,j,k)处的值;[[A,B,C]]i,j,k-mi,j,k是在索引为(i,j,k)处的恢复误差,Ω为采样位置张量;
3)利用因子矩阵A,B,C选择锚点以构建局部子张量,填充局部子张量,对填充好的局部子张量中的数据进行加权融合,使用加权融合恢复的局部子张量数据填充出原始的大张量
Figure BDA0002000749160000025
还包括如下步骤4):输出原始的大张量
Figure BDA0002000749160000026
Figure BDA0002000749160000027
中的任意一个数据表示为
Figure BDA0002000749160000028
其中mi,j,k是采样位置的元素,其值由采样张量
Figure BDA0002000749160000029
确定;Ω为采样位置张量。
步骤3)中,利用因子矩阵A,B,C选择锚点的具体实现过程包括:
1)对时隙、天数和OD对切片进行编码,构建三个LSH表,根据每个维度的数据相关性将时隙、天数和OD对重新排序到X、Y和Z组;
2)使用{a1,a2,…,aX},{b1,b2,…,bY}和{c1,c2,…,cZ}分别表示三个维度上的分组中心点,通过组合这三个维度的中心ai,bj,ck得到候选锚点
Figure BDA00020007491600000210
其中1≤i≤X,1≤j≤Y,1≤k≤Z;
3)计算以每个候选锚点为参考点提取的子张量的采样密度,候选锚点
Figure BDA00020007491600000211
与已选锚点
Figure BDA00020007491600000212
间的平均距离
Figure BDA00020007491600000213
选取使
Figure BDA0002000749160000031
最大的候选锚点作为选择的锚点,其中0≤α≤1,l是已选锚点个数。
构建和填充每个局部子张量的具体实现过程包括:
1)选择与锚点的距离小于h的数据元素mi,j,k形成局部子张量;
2)利用下述公式对局部子张量进行填充:
Figure BDA0002000749160000032
其中
Figure BDA0002000749160000033
为锚点,At,Bt,Ct是以锚点
Figure BDA0002000749160000034
为中心的子张量的三个因子矩阵,
Figure BDA00020007491600000316
和mi,j,k分别是填充的数据元素,以及采样点(i,j,k)处的值;[[A,B,C]]i,j,k-mi,j,k是在索引为(i,j,k)处的恢复误差,Ω为采样位置张量,
Figure BDA0002000749160000035
是度量样本点mijk与锚点
Figure BDA0002000749160000036
之间相似性的核函数,
Figure BDA0002000749160000037
其中h为距离的阈值,
Figure BDA0002000749160000038
为样本点mijk与锚点
Figure BDA0002000749160000039
在I,J,K三个维度的角度距离。
本发明中,0<h<1。
对已填充的局部子张量数据加权融合,填充出原始的大张量
Figure BDA00020007491600000310
的具体实现过程包括:通过以下公式加权计算原始的大张量
Figure BDA00020007491600000311
中任意(i,j,k)位置的数据
Figure BDA00020007491600000312
Figure BDA00020007491600000313
其中,At,Bt,Ct是在第t个子张量中的因子矩阵,[[At,Bt,Ct]]i,j,k是在第t个子张量中恢复出来的值。
相应地,本发明还提供了一种基于局部张量填充的网络流量数据恢复系统,包括:输入模块:用于输入一个3阶的流量张量
Figure BDA00020007491600000314
其中,
Figure BDA00020007491600000315
是一个不完整张量,I维度表示时隙、J维度表示天数、K维度表示源目的节点间的流量数据,即OD对;
估计模块:通过张量的平行因子分解,即CP分解,使张量
Figure BDA0002000749160000041
中采样元素误差的损失函数最小化,找出因子矩阵
Figure BDA0002000749160000042
使用基于采样距离和密度的选点算法选择锚点
Figure BDA0002000749160000043
距离锚点h以内的数据构建子张量,子张量填充方法的损失函数定义如下:
Figure BDA0002000749160000044
其中,
Figure BDA0002000749160000046
和mi,j,k分别是在第t个张量中填充的数据元素,以及采样张量(i,j,k)处的值;
Figure BDA0002000749160000047
是在索引为(i,j,k)处的恢复误差,Ω为采样位置张量;
恢复模块:用于利用因子矩阵A,B,C选择锚点以构建局部子张量,填充局部子张量,对填充好的局部子张量中的数据进行加权融合,使用加权融合恢复的局部子张量数据填充出原始的大张量
Figure BDA0002000749160000045
与现有技术相比,本发明所具有的有益效果为:在网络流量数据恢复技术中,现有的张量填充技术通常基于很强的假设,即张量数据具有整体低秩结构,并且试图找到单个全局模型以满足整个张量的数据。本发明提出了一种新颖的局部张量填充(LTC)的网络测量数据恢复技术,通过利用具有更强相关性的局部数据来形成和恢复每个具有低秩结构的子张量,实验结果证明本发明的数据恢复技术比现有技术更加精确。本发明能够有效的挖掘并利用数据内部隐藏的相似性,实现更加精准的张量数据填充;对所需填充的张量数据放松了整体低秩的假设约束,只需假设需要恢复的张量具有局部低秩性,更加适用于真实数据集。
附图说明
图1为流量数据的3-阶张量建模形式;
图2为LTC技术的流程图;
图3(a)~图3(b)为构建LSH表的实例;
图4为锚点选择过程简介;
图5为子张量采样密度计算;
图6(a)~图6(f)为LTC技术中相关参数的训练;
图7(a)~图7(b)为LTC技术与经典的三种张量填充技术性能比较。
具体实施方式
1)问题
第一步:建模
将监测的网络流量数据建模为一个3-阶张量
Figure BDA0002000749160000051
为例来描述(如图1所示),其中K对应于网络中源点和目的节点(OD)对的个数,每一天有I个时间间隔,需要考虑J天。例如本发明中的真实数据集Abilene,I=288,J=168,K=144。它的三个维度的物理含义是时隙、天数和源目的节点间流量数据((OD)对)。张量模型中的任意数据可以表示为
Figure BDA0002000749160000052
第二步:CP分解(张量分解)。将观测到的张量
Figure BDA0002000749160000053
和采样位置张量Ω利用公式(1)做CP分解。CP分解技术能够很好的处理具有张量结构的数据问题,挖掘出多维数据之间的相关联系。得到三个因子矩阵
Figure BDA0002000749160000054
Figure BDA0002000749160000055
第三步:选择一些锚点。LTC算法的流程如图2所示,其中选择锚点技术是本发明的亮点之一。具体的采样密度和锚点间距离的锚点选择算法下面详细说明:
基本思想是建立LSH表来有效计算候选锚点。我们首先根据LSH表将相似的时隙、天数和OD对分组在一起来实现近似于最近邻查询。
1)在因子矩阵的基下对张量切片进行编码。3-阶张量
Figure BDA0002000749160000057
的CP分解可以表示如下:
Figure BDA0002000749160000056
直接根据时隙、天数和OD对切片计算距离需要每个矩阵都有完整的数据。相反,我们对切片进行编码并计算它们之间的距离。在时刻i,j天,OD对k的编码可以表示为ai:,bj:,ck:。很明显,分别是因子矩阵A,B,C的行。
2)构建LSH表来重新排序时间、天和OD对,选择出候选锚点。以重排OD对为例,为了将相似的OD对分组在一起,我们将LSH应用到OD对的编码中,将OD对编码映射到LSH表中。首先,将OD对投影到直线上。给定OD对k其编码为
Figure BDA0002000749160000061
我们定义LSH哈希函数为
Figure BDA0002000749160000062
建立LSH表。我们将直线上的第一个投影值和最后一个投影值分别表示为ps和pe。给定要分割的组的总数Z,我们将ps和pe之间的投影线分割成Z部分来构建哈希表,表的桶宽为
Figure BDA0002000749160000063
图3(a)从几何意义上展示了步骤1的投影过程。将LSH哈希函数(13)应用于OD对之后,这些OD对k1,k2,k3,k4,k5,k6投影在这条直线上,在图3(b)中,第一个投影值和最后一个投影值分别为
Figure BDA0002000749160000064
我们假设Z=2,将所有投影值聚集到两个哈希桶(组)中,每个哈希桶的宽度为
Figure BDA0002000749160000065
公式(3)中我们使用OD对编码后数据的归一化来做投影而不是原始OD对数据。因为我们更关心数据编码的方向(即OD对之间的角度),而不是它们的绝对值,以便更精确地恢复张量。
为了将相似的OD对存放到同一个哈希桶中,同时降低不相关的OD对投影到同一个哈希桶中产生碰撞的概率,我们不使用单个哈希函数,而是将OD对投影为n个LSH函数的平均值,如下:
Figure BDA0002000749160000066
其中,
Figure BDA0002000749160000067
是编码为ck:的OD对k的由单个LSH哈希函数映射计算生成的值。在本发明中,我们设置n=10。
3)相似距离计算。计算张量中数据mijk和mi,j,k,之间的相似性,是为了将与锚点mi′j′k′相似的数据提取来形成子张量。我们不能用一个简单的利用划分张量的索引来生成子张量,因为在大张量中,相邻索引的数据可能不相似。因此需要将与锚点mi′j′k′的相似性转化为距离,定义为:
d(mijk,mi′j′k′)=d(ai:,ai′:)×d(bj:,bj′:)×d(ck:,ck′:) (5)
其中,
Figure BDA0002000749160000071
Figure BDA0002000749160000072
分别是时间槽i和i′、两天j和j′、2个OD对(k和k′)的角度距离。距离越小,数据就越相似。这样就可以把相似度高的数据划分在同一个子张量中。
本发明中,给定一个锚点
Figure BDA0002000749160000073
其中at、bt、ct是三个维度的类中心。当at∈{a1,a2,…,aX},bt∈{b1,b2,…,bY},ct∈{c1,c2,…,cZ}时,选择与
Figure BDA0002000749160000074
距离小于h的数据mijk形成子张量:
Figure BDA0002000749160000075
在我们的算法性能分析实验中,我们将研究h对LTC算法恢复性能的影响。
4)候选锚点中选择锚点。为了有效、准确地恢复缺失数据,需要选择合适的锚点形成子张量。选取锚点有两个准则:1)选取的每个子张量都应该包含更多的采样信息来恢复子张量中缺失的数据;2)被选择的子张量应该包含更多的信息来恢复原始的大张量。
给定候选锚点
Figure BDA0002000749160000076
选取与
Figure BDA0002000749160000077
相关性较高的样本数据组成子张量。给定子张量中选取的样本总数为Nt,我们将样本密度定义为子张量中样本总数与其总数据量大小的比值:
Figure BDA0002000749160000078
式中,It,Jt,Kt分别为时隙、天、OD对中所选择的不同子张量的下标,It×Jt×Kt为子张量的大小。
结合采样密度和锚点距离,我们提出一种选取锚点算法,逐点选择直至所选锚点总数达到q。特别地,如果目前我们已经选取了l个锚点,在所有剩下q-l的候选锚点中,我们将选取使公式(7)最大化的锚点
Figure BDA0002000749160000079
Figure BDA0002000749160000081
其中,
Figure BDA0002000749160000082
是备选锚点
Figure BDA0002000749160000083
和l个已选锚点的平均距离,α是平衡备选锚点的采样密度和距离的调整系数,0<α<1。在仿真实验中,我们将研究α对算法的恢复性能的影响。第四步:在上一步选择的锚点附近一定距离范围内组建低秩的子张量,并对每一个子张量使用加权最小化误差的损失函数进行填充,计算公式如下:
Figure BDA0002000749160000084
通过最小化填充误差的平方,以及根据样本点mijk与锚点
Figure BDA0002000749160000085
的相似度进行加权,从而得到每个局部张量数据的低秩近似。在(2)中,
Figure BDA0002000749160000086
是度量样本点mijk与锚点
Figure BDA0002000749160000087
的之间相似性的平滑核函数,定义为:
Figure BDA0002000749160000088
使用核函数把距离转换成相似度。显然,随着核函数的引入,距离越大,相似度越小,权值越小;距离越小,相似度越大,权值越大。距离锚点越近的数据的权值越大。在公式(8)中,
Figure BDA00020007491600000811
误差越小,误差权重越大,数据恢复更准确。
第五步:子张量数据融合。这一步给出的子张量数据融合解决方法,是本发明的亮点之二。
任意一个张量元素(i,j,k)可以包含在不同的子张量中。在恢复每个子张量之后,我们需要融合它所在的各个子张量中的填充数据,最终填充出原始的张量。如果我们选择q个子张量根据相应的锚点
Figure BDA0002000749160000089
我们可以通过以下公式的加权运算求出最终恢复的大张量中第(i,j,k)位置的数值:
Figure BDA00020007491600000810
其中,At,Bt,Ct是在锚点
Figure BDA0002000749160000091
处提取的子张量的因子矩阵,[[At,Bt,Ct]]i,j,k在第t个子张量中恢复出来的值。实际上,公式(10)是与mijk相关子张量中恢复值的加权和。给定一个包含在多个子张量中的元素mijk,我们在数据融合公式(10)中赋予了恢复误差较小的子张量更大的权重,而恢复误差大的权重较小。因此,我们的融合过程可以实现大张量更准确的缺失数据恢复。
如果存在缺失元素(i,j,k)不被任何子张量覆盖的极端情况,我们可以通过三个因子矩阵A,B,C结合公式
Figure BDA0002000749160000092
来估计填充。
我们在两个真实的流量数据集Abilene和GEANT上做了相关参数的训练和恢复精度的比较等实验,我们以Abilene数据集上的实验结果为例,评估我们提出的LTC算法的性能。
使用原始跟踪数据作为参考,通过将恢复的数据与跟踪中的原始数据进行比较来计算恢复性能指标。
我们使用两个相对错误率指标来评估恢复的准确性:
Figure BDA0002000749160000093
Figure BDA0002000749160000094
其中,mijk
Figure BDA0002000749160000095
分别表示原始数据和填充数据在
Figure BDA0002000749160000096
中第(i,j,k)-th索引处的数值,这里1≤i≤I,1≤j≤J,1≤k≤K。第一个度量是评价张量填充对已有观测数据元素的影响,是相对误差,第二个度量是根据张量填充在推断位置估计的值的误差。对于这两个流量跟踪张量,采样率都设置为40%。
实验结果
我们做了两种实验。在本发明中,我们的LTC是基于张量的CP分解设计的,为了后面方便比较,简化表示为CP-LTC。为了实验性能的比较,我们还实现了经典的张量填充算法CP分解(简称为CP)。
在第一类的实验中。我们对CP-LTC中使用的参数进行了实验研究,在此基础上,我们在实验中为CP-LTC的性能研究提供了合适的参数设置。在第二类实验中,我们按照LTC的设计模式实现了其他张量填充算法,例如CP_NMU,CP_OPT。并证明了我们的算法LTC设计是通用的,可以利用它来提高丢失数据的恢复精度,而不受后面具体填充算法的影响。
·相似度阈值参数h的训练
在我们的CP-LTC中,距离锚点小于h的项被选择到子张量中。h直接影响子张量的大小和子张量中数据之间的相似性程度。如图6(a)和图6(b)所示,随着h的增加,采样误差和推断错误率开始下降,但当h超过一定值时错误率又开始上升。一方面,h的增加使得子张量中包含更多的相关项,有助于提高恢复精度。另一方面,h越大,子张量内部数据的相似性系数越低,恢复精度越低。在流量数据集Abilene中h=0.6时,CP-LTC技术的实验性能最好。
·参数α的训练
从候选锚点中选择锚点时,参数α控制距离和密度的比例的平衡。当α增大时,密度比例将增加,距离比例将减少。不同大小的α,导致不同的锚点被选择,从而影响CP-LTC技术的恢复性能。图6(c)和图6(d)通过调整不同的α,观察CP-LTC技术的恢复性能。从实验结果,我们可以得出结论,我们CP-LTC在α=0.5时可以达到最好的恢复性能在流量张量中。因此,我们在实验中设置参数α=0.5。
·参数q的训练
图6(e)和图6(f)直观的展示CP-LTC算法的恢复性能与锚点个数(即q)的函数关系。我们还实现了另外两种锚点选择算法。第一种算法是在大张量中随机选取锚点,记为RAN。第二个方法(记为RAN-LSH)从计算的候选锚点中随机选取锚点。
在所有张量填充算法中(CP-LTC、CP、RAN和RAN_LSH)中,当锚点个数相同时,我们的CP-LTC的性能最好。当子张量数接近10时,CP-LTC收敛,恢复误差稳定。我们局部低阶张量近似方法CP-LTC的效率是RAN-LSH的两倍。根据训练结果,我们在下面的对比实验中为Abilene流量数据集设置q=10。
·局部张量填充算法的有效性
图7(a)和图7(b)比较了局部张量填充方法与经典的张量填充方法的数据恢复精度。我们实现了三种张量填充算法CP,CP_opt,CP_nmu中应用我们的方案LTC。为了性能比较,我们还直接使用整个采样张量来实现张量填充算法,而不直接从采样数据中提取子张量。实验证明我们的LTC技术在提高张量数据恢复精度方面非常有效。

Claims (10)

1.一种网络流量数据恢复方法,其特征在于,包括以下步骤:
1)输入一个3阶的流量张量
Figure FDA0002000749150000011
其中,
Figure FDA0002000749150000012
是一个不完整张量,I维度表示时隙、J维度表示天数、K维度表示源节点到目的节点之间的流量数据,即OD对;
2)通过张量
Figure FDA0002000749150000013
的平行因子分解,即CP分解,使张量中采样元素误差的损失函数最小化,找出因子矩阵
Figure FDA0002000749150000014
损失函数定义如下:
Figure FDA0002000749150000015
其中,[[A,B,C]]i,j,k和mi,j,k分别是填充的数据元素,以及采样点(i,j,k)处的值;[[A,B,C]]i,j,k-mi,j,k是在索引为(i,j,k)处的恢复误差,Ω为采样位置张量;
3)利用因子矩阵A,B,C选择锚点以构建局部子张量,填充局部子张量,对填充好的局部子张量中的数据进行加权融合,使用加权融合恢复的数据填充出原始的大张量
Figure FDA0002000749150000016
2.根据权利要求1所述的网络流量数据恢复方法,其特征在于,步骤3)之后,还包括如下步骤4):输出原始的大张量
Figure FDA0002000749150000017
3.根据权利要求1所述的网络流量数据恢复方法,其特征在于,步骤3)中,利用因子矩阵A,B,C选择锚点的具体实现过程包括:
1)对时隙、天数和OD对切片进行编码,构建三个LSH表,根据每个维度的数据相关性将时隙、天数和OD对重新排序到X、Y和Z组;
2)使用{a1,a2,…,aX},{b1,b2,…,bY}和{c1,c2,…,cZ}分别表示三个维度上的分组中心点,通过组合这三个维度的中心ai,bj,ck得到候选锚点
Figure FDA0002000749150000018
其中1≤i≤X,1≤j≤Y,1≤k≤Z;
3)计算以每个候选锚点为参考点提取的子张量的采样密度
Figure FDA0002000749150000021
候选锚点
Figure FDA0002000749150000022
与已选锚点
Figure FDA0002000749150000023
间的平均距离
Figure FDA0002000749150000024
选取使
Figure FDA0002000749150000025
最大的候选锚点作为选择的锚点,其中0≤α≤1,l是已选锚点个数。
4.根据权利要求3所述的网络流量数据恢复方法,其特征在于,构建和填充每个局部子张量的具体实现过程包括:
1)选择与锚点的距离小于h的数据元素mi,j,k形成局部子张量;
2)利用下述公式对局部子张量进行填充:
Figure FDA0002000749150000026
其中
Figure FDA0002000749150000027
为锚点,At,Bt,Ct是以锚点
Figure FDA0002000749150000028
为中心的子张量的三个因子矩阵,
Figure FDA00020007491500000217
和mi,j,k分别是填充的数据元素,以及采样点(i,j,k)处的值;[[A,B,C]]i,j,k-mi,j,k是在索引为(i,j,k)处的恢复误差,Ω为采样位置张量,
Figure FDA0002000749150000029
是度量样本点mijk与锚点
Figure FDA00020007491500000210
之间相似性的核函数,
Figure FDA00020007491500000211
其中h为距离的阈值,
Figure FDA00020007491500000212
为样本点mijk与锚点
Figure FDA00020007491500000213
在I,J,K三个维度的角度距离。
5.根据权利要求4所述的网络流量数据恢复方法,其特征在于,0<h<1。
6.根据权利要求1所述的网络流量数据恢复方法其特征在于,步骤3)中填充出原始的大张量
Figure FDA00020007491500000214
的具体实现过程包括:通过以下公式加权计算原始的大张量
Figure FDA00020007491500000215
中任意(i,j,k)位置的数据
Figure FDA00020007491500000216
Figure FDA0002000749150000031
其中,At,Bt,Ct是在第t个子张量中的因子矩阵,[[At,Bt,Ct]]i,j,k是在第t个子张量中恢复出来的值。
7.一种基于局部张量填充的网络流量数据恢复系统,其特征在于,包括:
输入模块:用于输入一个3阶的流量张量
Figure FDA0002000749150000032
其中,
Figure FDA0002000749150000033
是一个不完整张量,I维度表示时隙、J维度表示天数、K维度表示源目的节点间的流量数据,即OD对;
估计模块:通过张量的平行因子分解,即CP分解,使张量
Figure FDA0002000749150000034
中采样元素误差的损失函数最小化,找出因子矩阵
Figure FDA0002000749150000035
使用基于采样距离和密度的选点算法选择锚点
Figure FDA0002000749150000036
距离锚点h以内的数据构建子张量,子张量填充方法的损失函数定义如下:
Figure FDA0002000749150000037
其中,
Figure FDA0002000749150000039
和mi,j,k分别是在第t个张量中填充的数据元素,以及采样张量(i,j,k)处的值;
Figure FDA00020007491500000310
是在索引为(i,j,k)处的恢复误差,Ω为采样位置张量;
恢复模块:用于利用因子矩阵A,B,C选择锚点以构建局部子张量,填充局部子张量,对填充好的局部子张量中的数据进行加权融合,使用加权融合恢复的局部子张量数据填充出原始的大张量
Figure FDA0002000749150000038
8.根据权利要求7所述的网络流量数据恢复系统,其特征在于,所述恢复模块包括:
锚点选择单元,用于利用因子矩阵A,B,C选择锚点以构建局部子张量;
局部子张量融合单元,用于填充局部子张量,对填充好的局部子张量中的数据进行加权融合;
填充单元,用于使用加权融合恢复的局部子张量数据填充出原始的大张量
Figure FDA0002000749150000041
9.根据权利要求8所述的网络流量数据恢复系统,其特征在于,所述锚点选择单元具体执行如下操作:
1)对时隙、天数和OD对切片进行编码,构建三个LSH表,根据每个维度的数据相关性将时隙、天数和OD对重新排序到X、Y和Z组;
2)使用{a1,a2,…,aX},{b1,b2,…,bY}和{c1,c2,…,cZ}分别表示三个维度上的分组中心点,通过组合这三个维度的中心ai,bj,ck得到候选锚点
Figure FDA0002000749150000042
其中1≤i≤X,1≤j≤Y,1≤k≤Z;
3)计算以每个候选锚点为参考点提取的子张量的采样密度
Figure FDA0002000749150000043
候选锚点
Figure FDA0002000749150000044
与已选锚点
Figure FDA0002000749150000045
间的平均距离
Figure FDA0002000749150000046
选取使
Figure FDA0002000749150000047
最大的候选锚点作为选择的锚点,其中0≤α≤1,l是已选锚点个数。
10.根据权利要求9所述的网络流量数据恢复系统,其特征在于,所述局部子张量融合单元填充局部子张量的具体实现过程包括:
1)选择与锚点的距离小于h的数据元素mi,j,k形成局部子张量;
2)利用下述公式对局部子张量进行填充:
Figure FDA0002000749150000048
其中
Figure FDA0002000749150000049
为锚点,At,Bt,Ct是以锚点
Figure FDA00020007491500000410
为中心的子张量的三个因子矩阵,
Figure FDA00020007491500000413
和mi,j,k分别是填充的数据元素,以及采样点(i,j,k)处的值;[[A,B,C]]i,j,k-mi,j,k是在索引为(i,j,k)处的恢复误差,Ω为采样位置张量,
Figure FDA00020007491500000411
是度量样本点mijk与锚点
Figure FDA00020007491500000412
之间相似性的核函数,
Figure FDA0002000749150000051
其中h为距离的阈值,
Figure FDA0002000749150000052
为样本点mijk与锚点
Figure FDA0002000749150000053
在I,J,K三个维度的角度距离。
CN201910211736.6A 2019-03-20 2019-03-20 一种网络流量数据恢复方法及系统 Active CN109947597B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910211736.6A CN109947597B (zh) 2019-03-20 2019-03-20 一种网络流量数据恢复方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910211736.6A CN109947597B (zh) 2019-03-20 2019-03-20 一种网络流量数据恢复方法及系统

Publications (2)

Publication Number Publication Date
CN109947597A CN109947597A (zh) 2019-06-28
CN109947597B true CN109947597B (zh) 2022-12-23

Family

ID=67011173

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910211736.6A Active CN109947597B (zh) 2019-03-20 2019-03-20 一种网络流量数据恢复方法及系统

Country Status (1)

Country Link
CN (1) CN109947597B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110572389A (zh) * 2019-09-06 2019-12-13 湖南大学 基于增量塔克分解的在线异常检测方法、系统及存储介质
CN110941793B (zh) * 2019-11-21 2023-10-27 湖南大学 一种网络流量数据填充方法、装置、设备及存储介质
CN115225528B (zh) * 2022-06-10 2024-04-09 中国科学院计算技术研究所 网络流量数据分布式测量调度方法、系统和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010138536A1 (en) * 2009-05-27 2010-12-02 Yin Zhang Method and apparatus for spatio-temporal compressive sensing
CN107220211A (zh) * 2016-12-14 2017-09-29 北京理工大学 一种融合张量填充和张量恢复的数据重建方法
CN109241491A (zh) * 2018-07-28 2019-01-18 天津大学 基于联合低秩和稀疏表示的张量结构性缺失填充方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10824693B2 (en) * 2015-12-10 2020-11-03 Reservoir Labs, Inc. Systems and methods for selective expansive recursive tensor analysis

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010138536A1 (en) * 2009-05-27 2010-12-02 Yin Zhang Method and apparatus for spatio-temporal compressive sensing
CN107220211A (zh) * 2016-12-14 2017-09-29 北京理工大学 一种融合张量填充和张量恢复的数据重建方法
CN109241491A (zh) * 2018-07-28 2019-01-18 天津大学 基于联合低秩和稀疏表示的张量结构性缺失填充方法

Also Published As

Publication number Publication date
CN109947597A (zh) 2019-06-28

Similar Documents

Publication Publication Date Title
CN109947597B (zh) 一种网络流量数据恢复方法及系统
CN109033234B (zh) 一种基于状态更新传播的流式图计算方法及系统
CN110677284B (zh) 一种基于元路径的异构网络链路预测的方法
Xie et al. Accurate recovery of missing network measurement data with localized tensor completion
CN113515370A (zh) 一种面向大规模深度神经网络的分布式训练方法
EP3509366B1 (en) Method and device for predicting network distance
JP6973150B2 (ja) 最短経路行列生成プログラム、装置、及び方法
CN110428614B (zh) 一种基于非负张量分解的交通拥堵热度时空预测方法
CN113206831B (zh) 一种面向边缘计算的数据采集隐私保护方法
CN104952039A (zh) 分布式图像压缩感知重建方法
Xie et al. Accurate and fast recovery of network monitoring data: A gpu accelerated matrix completion
Li et al. Respipe: Resilient model-distributed dnn training at edge networks
Jahani-Nezhad et al. Optimal communication-computation trade-off in heterogeneous gradient coding
Wang et al. Quantum computing with nearest neighbor interactions and error rates over 1%
CN109088796B (zh) 基于网络层析成像技术的网络流量矩阵预测方法
CN111541572B (zh) 一种低约束条件的随机机会网络图的精确重构方法
CN110149228B (zh) 一种基于离散化张量填充的top-k大象流预测方法及系统
CN110941793B (zh) 一种网络流量数据填充方法、装置、设备及存储介质
Tsang et al. Nonparametric internet tomography
Chen et al. A Barzilai–Borwein gradient algorithm for spatio-temporal internet traffic data completion via tensor triple decomposition
Ye et al. A method of repairing single node failure in the distributed storage system based on the regenerating-code and a hybrid genetic algorithm
Ling et al. A novel data reduction technique with fault-tolerance for internet-of-things
CN110139233B (zh) 基于时空特征融合的无线传感器网络数据修复方法
Dhondea et al. DFTS2: Simulating deep feature transmission over packet loss channels
Tomita et al. Probability-changing cluster algorithm: Study of three-dimensional Ising model and percolation problem

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant