CN109947597B - 一种网络流量数据恢复方法及系统 - Google Patents
一种网络流量数据恢复方法及系统 Download PDFInfo
- Publication number
- CN109947597B CN109947597B CN201910211736.6A CN201910211736A CN109947597B CN 109947597 B CN109947597 B CN 109947597B CN 201910211736 A CN201910211736 A CN 201910211736A CN 109947597 B CN109947597 B CN 109947597B
- Authority
- CN
- China
- Prior art keywords
- tensor
- data
- sub
- anchor point
- filling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
Description
技术领域
本发明涉及计算机技术和网络技术领域,特别是涉及网络流量监测中,需要根据部分采样数据快速填充全部数据的应用,具体是基于局部张量填充的网络流量数据精准恢复方法及系统。
背景技术
监控大型网络的性能需要耗费高测量代价。最近的一些研究表明,监控的网络数据(如端到端延迟和流量)隐藏了时空相关性。这激发了新型稀疏网络监测技术的发展。在该技术中应用基于样本的网络监测,其中仅在一些随机节点对之间或者在给定节点对的某个间隔进行测量,其他节点的流量数据利用网络流量数据本身的时空相关性推导出来,可以大大降低测量成本。
虽然有减少测量开销的好处,但用于异常检测和故障恢复的网络状态跟踪对数据的丢失非常敏感。从部分网络流量测量中准确恢复缺失值成为稀疏网络监测的重要步骤。目前已知的单纯的利用空间或时间信息的设计方法,数据恢复性能是很低的。为了更加精确地恢复数据,将网络监控数据表示为一个称为张量的高维数组。虽然通过张量填充来恢复缺失的数据很有前景,但是现有的张量填充算法一般都假设缺失的张量数据具有整体低秩的结构,并试图找到一个单一的全局模型来拟合整个张量的数据。然而,在许多实际应用中,大张量中的数据可能具有不同程度的相关性。由于数据集中各个部分的数据具有不同的结构特征,单个模型无法捕获数据集中的所有数据特征,导致缺失数据恢复精度较低。
发明内容
本发明所要解决的技术问题是,针对现有技术不足,提供一种网络流量数据恢复方法及系统,实现更加精准的张量数据填充。
为解决上述技术问题,本发明所采用的技术方案是:一种网络流量数据恢复方法,包括以下步骤:
一种网络流量数据恢复方法,其特征在于,包括以下步骤:
其中,[[A,B,C]]i,j,k和mi,j,k分别是填充的数据元素,以及采样点(i,j,k)处的值;[[A,B,C]]i,j,k-mi,j,k是在索引为(i,j,k)处的恢复误差,Ω为采样位置张量;
步骤3)中,利用因子矩阵A,B,C选择锚点的具体实现过程包括:
1)对时隙、天数和OD对切片进行编码,构建三个LSH表,根据每个维度的数据相关性将时隙、天数和OD对重新排序到X、Y和Z组;
2)使用{a1,a2,…,aX},{b1,b2,…,bY}和{c1,c2,…,cZ}分别表示三个维度上的分组中心点,通过组合这三个维度的中心ai,bj,ck得到候选锚点其中1≤i≤X,1≤j≤Y,1≤k≤Z;
构建和填充每个局部子张量的具体实现过程包括:
1)选择与锚点的距离小于h的数据元素mi,j,k形成局部子张量;
2)利用下述公式对局部子张量进行填充:
其中为锚点,At,Bt,Ct是以锚点为中心的子张量的三个因子矩阵,和mi,j,k分别是填充的数据元素,以及采样点(i,j,k)处的值;[[A,B,C]]i,j,k-mi,j,k是在索引为(i,j,k)处的恢复误差,Ω为采样位置张量,是度量样本点mijk与锚点之间相似性的核函数,其中h为距离的阈值,为样本点mijk与锚点在I,J,K三个维度的角度距离。
本发明中,0<h<1。
对已填充的局部子张量数据加权融合,填充出原始的大张量的具体实现过程包括:通过以下公式加权计算原始的大张量中任意(i,j,k)位置的数据 其中,At,Bt,Ct是在第t个子张量中的因子矩阵,[[At,Bt,Ct]]i,j,k是在第t个子张量中恢复出来的值。
相应地,本发明还提供了一种基于局部张量填充的网络流量数据恢复系统,包括:输入模块:用于输入一个3阶的流量张量其中,是一个不完整张量,I维度表示时隙、J维度表示天数、K维度表示源目的节点间的流量数据,即OD对;
估计模块:通过张量的平行因子分解,即CP分解,使张量中采样元素误差的损失函数最小化,找出因子矩阵使用基于采样距离和密度的选点算法选择锚点距离锚点h以内的数据构建子张量,子张量填充方法的损失函数定义如下:其中,和mi,j,k分别是在第t个张量中填充的数据元素,以及采样张量(i,j,k)处的值;是在索引为(i,j,k)处的恢复误差,Ω为采样位置张量;
与现有技术相比,本发明所具有的有益效果为:在网络流量数据恢复技术中,现有的张量填充技术通常基于很强的假设,即张量数据具有整体低秩结构,并且试图找到单个全局模型以满足整个张量的数据。本发明提出了一种新颖的局部张量填充(LTC)的网络测量数据恢复技术,通过利用具有更强相关性的局部数据来形成和恢复每个具有低秩结构的子张量,实验结果证明本发明的数据恢复技术比现有技术更加精确。本发明能够有效的挖掘并利用数据内部隐藏的相似性,实现更加精准的张量数据填充;对所需填充的张量数据放松了整体低秩的假设约束,只需假设需要恢复的张量具有局部低秩性,更加适用于真实数据集。
附图说明
图1为流量数据的3-阶张量建模形式;
图2为LTC技术的流程图;
图3(a)~图3(b)为构建LSH表的实例;
图4为锚点选择过程简介;
图5为子张量采样密度计算;
图6(a)~图6(f)为LTC技术中相关参数的训练;
图7(a)~图7(b)为LTC技术与经典的三种张量填充技术性能比较。
具体实施方式
1)问题
第一步:建模
将监测的网络流量数据建模为一个3-阶张量为例来描述(如图1所示),其中K对应于网络中源点和目的节点(OD)对的个数,每一天有I个时间间隔,需要考虑J天。例如本发明中的真实数据集Abilene,I=288,J=168,K=144。它的三个维度的物理含义是时隙、天数和源目的节点间流量数据((OD)对)。张量模型中的任意数据可以表示为
第三步:选择一些锚点。LTC算法的流程如图2所示,其中选择锚点技术是本发明的亮点之一。具体的采样密度和锚点间距离的锚点选择算法下面详细说明:
基本思想是建立LSH表来有效计算候选锚点。我们首先根据LSH表将相似的时隙、天数和OD对分组在一起来实现近似于最近邻查询。
直接根据时隙、天数和OD对切片计算距离需要每个矩阵都有完整的数据。相反,我们对切片进行编码并计算它们之间的距离。在时刻i,j天,OD对k的编码可以表示为ai:,bj:,ck:。很明显,分别是因子矩阵A,B,C的行。
2)构建LSH表来重新排序时间、天和OD对,选择出候选锚点。以重排OD对为例,为了将相似的OD对分组在一起,我们将LSH应用到OD对的编码中,将OD对编码映射到LSH表中。首先,将OD对投影到直线上。给定OD对k其编码为我们定义LSH哈希函数为
图3(a)从几何意义上展示了步骤1的投影过程。将LSH哈希函数(13)应用于OD对之后,这些OD对k1,k2,k3,k4,k5,k6投影在这条直线上,在图3(b)中,第一个投影值和最后一个投影值分别为我们假设Z=2,将所有投影值聚集到两个哈希桶(组)中,每个哈希桶的宽度为
公式(3)中我们使用OD对编码后数据的归一化来做投影而不是原始OD对数据。因为我们更关心数据编码的方向(即OD对之间的角度),而不是它们的绝对值,以便更精确地恢复张量。
为了将相似的OD对存放到同一个哈希桶中,同时降低不相关的OD对投影到同一个哈希桶中产生碰撞的概率,我们不使用单个哈希函数,而是将OD对投影为n个LSH函数的平均值,如下:
3)相似距离计算。计算张量中数据mijk和mi,j,k,之间的相似性,是为了将与锚点mi′j′k′相似的数据提取来形成子张量。我们不能用一个简单的利用划分张量的索引来生成子张量,因为在大张量中,相邻索引的数据可能不相似。因此需要将与锚点mi′j′k′的相似性转化为距离,定义为:
d(mijk,mi′j′k′)=d(ai:,ai′:)×d(bj:,bj′:)×d(ck:,ck′:) (5)
本发明中,给定一个锚点其中at、bt、ct是三个维度的类中心。当at∈{a1,a2,…,aX},bt∈{b1,b2,…,bY},ct∈{c1,c2,…,cZ}时,选择与距离小于h的数据mijk形成子张量:
在我们的算法性能分析实验中,我们将研究h对LTC算法恢复性能的影响。
4)候选锚点中选择锚点。为了有效、准确地恢复缺失数据,需要选择合适的锚点形成子张量。选取锚点有两个准则:1)选取的每个子张量都应该包含更多的采样信息来恢复子张量中缺失的数据;2)被选择的子张量应该包含更多的信息来恢复原始的大张量。
式中,It,Jt,Kt分别为时隙、天、OD对中所选择的不同子张量的下标,It×Jt×Kt为子张量的大小。
其中,是备选锚点和l个已选锚点的平均距离,α是平衡备选锚点的采样密度和距离的调整系数,0<α<1。在仿真实验中,我们将研究α对算法的恢复性能的影响。第四步:在上一步选择的锚点附近一定距离范围内组建低秩的子张量,并对每一个子张量使用加权最小化误差的损失函数进行填充,计算公式如下:
使用核函数把距离转换成相似度。显然,随着核函数的引入,距离越大,相似度越小,权值越小;距离越小,相似度越大,权值越大。距离锚点越近的数据的权值越大。在公式(8)中,误差越小,误差权重越大,数据恢复更准确。
第五步:子张量数据融合。这一步给出的子张量数据融合解决方法,是本发明的亮点之二。
任意一个张量元素(i,j,k)可以包含在不同的子张量中。在恢复每个子张量之后,我们需要融合它所在的各个子张量中的填充数据,最终填充出原始的张量。如果我们选择q个子张量根据相应的锚点我们可以通过以下公式的加权运算求出最终恢复的大张量中第(i,j,k)位置的数值:
其中,At,Bt,Ct是在锚点处提取的子张量的因子矩阵,[[At,Bt,Ct]]i,j,k在第t个子张量中恢复出来的值。实际上,公式(10)是与mijk相关子张量中恢复值的加权和。给定一个包含在多个子张量中的元素mijk,我们在数据融合公式(10)中赋予了恢复误差较小的子张量更大的权重,而恢复误差大的权重较小。因此,我们的融合过程可以实现大张量更准确的缺失数据恢复。
我们在两个真实的流量数据集Abilene和GEANT上做了相关参数的训练和恢复精度的比较等实验,我们以Abilene数据集上的实验结果为例,评估我们提出的LTC算法的性能。
使用原始跟踪数据作为参考,通过将恢复的数据与跟踪中的原始数据进行比较来计算恢复性能指标。
我们使用两个相对错误率指标来评估恢复的准确性:
和
其中,mijk和分别表示原始数据和填充数据在中第(i,j,k)-th索引处的数值,这里1≤i≤I,1≤j≤J,1≤k≤K。第一个度量是评价张量填充对已有观测数据元素的影响,是相对误差,第二个度量是根据张量填充在推断位置估计的值的误差。对于这两个流量跟踪张量,采样率都设置为40%。
实验结果
我们做了两种实验。在本发明中,我们的LTC是基于张量的CP分解设计的,为了后面方便比较,简化表示为CP-LTC。为了实验性能的比较,我们还实现了经典的张量填充算法CP分解(简称为CP)。
在第一类的实验中。我们对CP-LTC中使用的参数进行了实验研究,在此基础上,我们在实验中为CP-LTC的性能研究提供了合适的参数设置。在第二类实验中,我们按照LTC的设计模式实现了其他张量填充算法,例如CP_NMU,CP_OPT。并证明了我们的算法LTC设计是通用的,可以利用它来提高丢失数据的恢复精度,而不受后面具体填充算法的影响。
·相似度阈值参数h的训练
在我们的CP-LTC中,距离锚点小于h的项被选择到子张量中。h直接影响子张量的大小和子张量中数据之间的相似性程度。如图6(a)和图6(b)所示,随着h的增加,采样误差和推断错误率开始下降,但当h超过一定值时错误率又开始上升。一方面,h的增加使得子张量中包含更多的相关项,有助于提高恢复精度。另一方面,h越大,子张量内部数据的相似性系数越低,恢复精度越低。在流量数据集Abilene中h=0.6时,CP-LTC技术的实验性能最好。
·参数α的训练
从候选锚点中选择锚点时,参数α控制距离和密度的比例的平衡。当α增大时,密度比例将增加,距离比例将减少。不同大小的α,导致不同的锚点被选择,从而影响CP-LTC技术的恢复性能。图6(c)和图6(d)通过调整不同的α,观察CP-LTC技术的恢复性能。从实验结果,我们可以得出结论,我们CP-LTC在α=0.5时可以达到最好的恢复性能在流量张量中。因此,我们在实验中设置参数α=0.5。
·参数q的训练
图6(e)和图6(f)直观的展示CP-LTC算法的恢复性能与锚点个数(即q)的函数关系。我们还实现了另外两种锚点选择算法。第一种算法是在大张量中随机选取锚点,记为RAN。第二个方法(记为RAN-LSH)从计算的候选锚点中随机选取锚点。
在所有张量填充算法中(CP-LTC、CP、RAN和RAN_LSH)中,当锚点个数相同时,我们的CP-LTC的性能最好。当子张量数接近10时,CP-LTC收敛,恢复误差稳定。我们局部低阶张量近似方法CP-LTC的效率是RAN-LSH的两倍。根据训练结果,我们在下面的对比实验中为Abilene流量数据集设置q=10。
·局部张量填充算法的有效性
图7(a)和图7(b)比较了局部张量填充方法与经典的张量填充方法的数据恢复精度。我们实现了三种张量填充算法CP,CP_opt,CP_nmu中应用我们的方案LTC。为了性能比较,我们还直接使用整个采样张量来实现张量填充算法,而不直接从采样数据中提取子张量。实验证明我们的LTC技术在提高张量数据恢复精度方面非常有效。
Claims (10)
1.一种网络流量数据恢复方法,其特征在于,包括以下步骤:
其中,[[A,B,C]]i,j,k和mi,j,k分别是填充的数据元素,以及采样点(i,j,k)处的值;[[A,B,C]]i,j,k-mi,j,k是在索引为(i,j,k)处的恢复误差,Ω为采样位置张量;
3.根据权利要求1所述的网络流量数据恢复方法,其特征在于,步骤3)中,利用因子矩阵A,B,C选择锚点的具体实现过程包括:
1)对时隙、天数和OD对切片进行编码,构建三个LSH表,根据每个维度的数据相关性将时隙、天数和OD对重新排序到X、Y和Z组;
2)使用{a1,a2,…,aX},{b1,b2,…,bY}和{c1,c2,…,cZ}分别表示三个维度上的分组中心点,通过组合这三个维度的中心ai,bj,ck得到候选锚点其中1≤i≤X,1≤j≤Y,1≤k≤Z;
5.根据权利要求4所述的网络流量数据恢复方法,其特征在于,0<h<1。
7.一种基于局部张量填充的网络流量数据恢复系统,其特征在于,包括:
估计模块:通过张量的平行因子分解,即CP分解,使张量中采样元素误差的损失函数最小化,找出因子矩阵使用基于采样距离和密度的选点算法选择锚点距离锚点h以内的数据构建子张量,子张量填充方法的损失函数定义如下:其中,和mi,j,k分别是在第t个张量中填充的数据元素,以及采样张量(i,j,k)处的值;是在索引为(i,j,k)处的恢复误差,Ω为采样位置张量;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910211736.6A CN109947597B (zh) | 2019-03-20 | 2019-03-20 | 一种网络流量数据恢复方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910211736.6A CN109947597B (zh) | 2019-03-20 | 2019-03-20 | 一种网络流量数据恢复方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109947597A CN109947597A (zh) | 2019-06-28 |
CN109947597B true CN109947597B (zh) | 2022-12-23 |
Family
ID=67011173
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910211736.6A Active CN109947597B (zh) | 2019-03-20 | 2019-03-20 | 一种网络流量数据恢复方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109947597B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110572389A (zh) * | 2019-09-06 | 2019-12-13 | 湖南大学 | 基于增量塔克分解的在线异常检测方法、系统及存储介质 |
CN110941793B (zh) * | 2019-11-21 | 2023-10-27 | 湖南大学 | 一种网络流量数据填充方法、装置、设备及存储介质 |
CN115225528B (zh) * | 2022-06-10 | 2024-04-09 | 中国科学院计算技术研究所 | 网络流量数据分布式测量调度方法、系统和介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010138536A1 (en) * | 2009-05-27 | 2010-12-02 | Yin Zhang | Method and apparatus for spatio-temporal compressive sensing |
CN107220211A (zh) * | 2016-12-14 | 2017-09-29 | 北京理工大学 | 一种融合张量填充和张量恢复的数据重建方法 |
CN109241491A (zh) * | 2018-07-28 | 2019-01-18 | 天津大学 | 基于联合低秩和稀疏表示的张量结构性缺失填充方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10824693B2 (en) * | 2015-12-10 | 2020-11-03 | Reservoir Labs, Inc. | Systems and methods for selective expansive recursive tensor analysis |
-
2019
- 2019-03-20 CN CN201910211736.6A patent/CN109947597B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010138536A1 (en) * | 2009-05-27 | 2010-12-02 | Yin Zhang | Method and apparatus for spatio-temporal compressive sensing |
CN107220211A (zh) * | 2016-12-14 | 2017-09-29 | 北京理工大学 | 一种融合张量填充和张量恢复的数据重建方法 |
CN109241491A (zh) * | 2018-07-28 | 2019-01-18 | 天津大学 | 基于联合低秩和稀疏表示的张量结构性缺失填充方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109947597A (zh) | 2019-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109947597B (zh) | 一种网络流量数据恢复方法及系统 | |
CN109033234B (zh) | 一种基于状态更新传播的流式图计算方法及系统 | |
CN110677284B (zh) | 一种基于元路径的异构网络链路预测的方法 | |
Xie et al. | Accurate recovery of missing network measurement data with localized tensor completion | |
CN113515370A (zh) | 一种面向大规模深度神经网络的分布式训练方法 | |
EP3509366B1 (en) | Method and device for predicting network distance | |
JP6973150B2 (ja) | 最短経路行列生成プログラム、装置、及び方法 | |
CN110428614B (zh) | 一种基于非负张量分解的交通拥堵热度时空预测方法 | |
CN113206831B (zh) | 一种面向边缘计算的数据采集隐私保护方法 | |
CN104952039A (zh) | 分布式图像压缩感知重建方法 | |
Xie et al. | Accurate and fast recovery of network monitoring data: A gpu accelerated matrix completion | |
Li et al. | Respipe: Resilient model-distributed dnn training at edge networks | |
Jahani-Nezhad et al. | Optimal communication-computation trade-off in heterogeneous gradient coding | |
Wang et al. | Quantum computing with nearest neighbor interactions and error rates over 1% | |
CN109088796B (zh) | 基于网络层析成像技术的网络流量矩阵预测方法 | |
CN111541572B (zh) | 一种低约束条件的随机机会网络图的精确重构方法 | |
CN110149228B (zh) | 一种基于离散化张量填充的top-k大象流预测方法及系统 | |
CN110941793B (zh) | 一种网络流量数据填充方法、装置、设备及存储介质 | |
Tsang et al. | Nonparametric internet tomography | |
Chen et al. | A Barzilai–Borwein gradient algorithm for spatio-temporal internet traffic data completion via tensor triple decomposition | |
Ye et al. | A method of repairing single node failure in the distributed storage system based on the regenerating-code and a hybrid genetic algorithm | |
Ling et al. | A novel data reduction technique with fault-tolerance for internet-of-things | |
CN110139233B (zh) | 基于时空特征融合的无线传感器网络数据修复方法 | |
Dhondea et al. | DFTS2: Simulating deep feature transmission over packet loss channels | |
Tomita et al. | Probability-changing cluster algorithm: Study of three-dimensional Ising model and percolation problem |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |