章寅等,美国临时专利申请号No.61/181,613,标题:“SPATIO-TEMPORALCOMPRESSIVE SENSING ON TRAFFIC MATRICES”,申请日期为2009年5月27日。在此被全部包括。
具体实施方式
本发明具体实施例将参考附图在下文中作更多说明,附图中所表示的只是本发明的一些但并非全部内容。本发明的具体内容,可以以许多不同的形式来概括,不应看作对本发明以后的权利范围的限制;提供这些具体内容的目的是满足适当的法律要求。全文同样的数字请查阅同样的要素。
本发明公开假设读者熟悉线性代数的标准符号,尤其是矩阵的概念(即二维数组)、(列和行)向量、矩阵向量积、矩阵乘法和线性方程组(见G.H.Golub,C.F.Van Loan,Matrix Computations.Third edition.London:Johns HopkinsUniversity Press(1996))。所需背景知识可以通过阅读与线性代数和/或矩阵分析大学课程相关的书籍获得。
本发明全面公开了一种方法和装置,用以准确重建矩阵形式(二维数组)或更普遍的张量形式(即多维数组)表示的任何数字化信息中的缺失值。矩阵形式的数字化信息的例子可能包括:流量矩阵(说明网络在不同时间从不同源节点到不同目标节点的流量),延迟矩阵(描述网络节点之间的往返延迟),社交相似性矩阵(反映社交的毗邻或社交网络用户之间的亲密程度),数字图像(指定在不同的坐标的颜色),时空信号(指定在不同的空间地点和不同时间的信号值),以及照片。张量形式的数字化信息的一个例子是数字视频(指定不同时间、不同XY坐标的像素)。流量矩阵也可自然地表示成具有流量源、流量目的地和时间的一个张量(三维数组)。
为了帮助读者更好地理解本发明,用流量矩阵来说明本发明在此公开的具体情况。然而,本发明的应用并不局限于流量矩阵。换句话说,本发明可应用于重建任何矩阵形式(二维数组)或张量形式(即多维数组)的数据中的缺失值,如延迟矩阵,社交相似性矩阵,数字图像,时空信号,数字视频,照片等。
1、问题:缺失值插值
本发明所述的实施例提供了对于缺失值插值的一种一般解决方案,即:在矩阵形式或张量形式表示的数字化信息中重建缺失值。如上所述,流量矩阵是用于以下描述的上下文。具体来说,在详细介绍本发明的实施例之前,将首先介绍以下概念:(一)流量矩阵;(二)缺失值;(三)缺失值插值。
1.1流量矩阵
一个流量矩阵(TM)是一个非负矩阵Z(i,j),描述了一个源i和一个目的地j之间的链路量(单位可以是字节、包、或流的数目)。一个有N个网络节点的TM是一个N×N方阵。在实践中,TM通常在一个时间区间上测量,并且报告的是一个平均值。因此,让Z(i,j;t)表示从i到j在时间区间[t,t+Δt).上的平均流量。让TM Z(*,*,t)被称为快照,尽管事实上,它真正代表的是一个时间区间上的平均值。因此,TM可以会被当作是一个3维数组(其中有m个时间区间)。一种通常的做法是把TM快照Z(*,*,t)中所有的列堆叠成一个列向量xt.。这些列向量可以被组合成一个更大的矩阵(其中n=N2),这种矩阵形式的TM往往比3维数组代数运算更方便。请注意,X中的列代表在不同时间的TM,而行代表一个单一的TM元素的时间演化。
需要注意的是流量矩阵是许多网络工程任务的关键输入,如流量工程(见Fortz等2002,Roughan等2003),容量规划,和异常检测。由于其重要性,现在已经有大量与流量矩阵相关的研究工作(见D.Alderson,H.Chang,M.Roughan,S.Uhlig,and W.Willinger,“The many facets of Internet topology andtraffic,”Networks and Heterogeneous Media,1(4):569-600,2006(Alderson等2006)和其中的参考文献)。这些研究的重点主要在TM的测量(见A.Feldmann,A.Greenberg,C.Lund,N.Reingold,J.Rexford,and F.True,“Deriving trafficdemands for operational IP networks:Methodology and experience,”IEEE/ACMTransactions on Networking,pages 265-279,2001(Feldmann等2001),G.Vargheseand C.Estan,“The measurement manifesto,”Proc.of 2nd Workshop on Hot Topicsin Networks(HotNets-II),2003(Varghese等2003))和推理(见,A.Medina,N.Taft,K.Salamatian,S.Bhattacharyya,and C.Diot,“Traffic matrix estimation:Existingtechniques and new directions,”Proc.of ACM SIGCOMM,2002(Medina等2002),A.Soule,A.Lakhina,N.Taft,K.Papagiannaki,K.Salamatian,A.Nucci,M.Crovella,and C.Diot,“Traffic matrices:Balancing measurements,inference andmodeling,”Proc.of ACM SIGMETRICS,pages 362-373,2005(Soule等2005),Q.Zhao,Z.Ge,J.Wang,and J.Xu,“Robust traffic matrix estimation with imperfectinformation:Making use of multiple data sources,”SIGMETRICS Perform.Eval.Rev.,34(1):133-144,2006(Zhao等2006),Erramilli等2006,Vardi 1996,Zhang等2003a,Zhang等2003b,Zhang等2005a)),以及最新研究的方向如异常检测(见H.Ringberg,A.Soule,J.Rexford,and C.Diot,“Sensitivity of PCA for trafficanomaly detection,”Proc.of ACM SIGMETRICS,2007(Ringberg等2007),K.Xu,J.Chandrashekar,and Z.-L.Zhang,“A first step toward understanding inter-domainrouting dynamics,”Proc.of ACM SIGCOMM Workshop on Mining Network Data(MineNet),pages 207-212,2005(Xu等2005),Y.Zhang,Z.Ge,M.Roughan,andA.Greenberg,“Network anomography,“Proc.of Internet Measurement Conference(IMC),2005(Zhang等2005b),Lakhina等2004a,Lakhina等2004b)。
1.2缺失值
在实践中对大型网络的TM进行可靠测量因为各种原因是非常具有挑战性的。首先,许多网络中的TM是不能直接观察到的,只能通过测量到的链路负载进行估计。这样测量到的链路负载,虽然与TM本身线性相关,但并不足以准确地找出真正的TM。通常情况下,问题是一个欠约束的线性逆问题,其解决方案依赖TM的一个先验模型,例如,泊松模型(见Vardi 1996),重力模型(见Zhang等2003a,Zhang等2005a),或独立的流模型(见Erramilli等2006)。其次,虽然现在很多网络至少部分采集(采样后的)流级测量数据,可靠地大规模采集TM数据依然存在严重的障碍:数据采集系统可能会失败,流量收集程序经常使用不可靠的传输协议,传统的网络组件可能不支持流量捕获或者资源不足。第三,可扩性的需求,可能意味着流级数据的采集不会发生在整个网络的边缘(这将是真正的TM重建所必须的(见Feldmann等,2001)),而往往只是在某些路由器的子集。从这些数据来推测实际的端到端的TM是很不容易的。最后,在TM数据集中发生异常时,为了故障检测或其他网络任务往往需要知道非异常向关的流量。其结果是,任何大的TM数据集都存在一些而往往是显著数量的缺失值。
注意,即使在过去的TM测量完成后,许多网络工程任务(如容量规划,生存性分析,流量工程)往往需要预测未来的TM。未来的TM当然对过去测量的TM而言是缺失值,因为他们还没有出现。因此,TM预测可以被看作是一个在TM重建缺失值问题的特殊实例。
1.3缺失值插值
由于许多应用程序要么不允许任何缺失数据,要么结果对缺失的数据高度敏感,重要的是如何从不完整、不直接的测量数据中准确地重建缺失的部分。插值是填补这些缺失值的数学术语。在此本发明公开的其余部分,将可互换地使用“插值”和“重建”两个术语。
上述缺失值插值问题的一个例子是网络层析的问题(见Vardi 1996)。在这个问题中,TMX与更容易测量的链路负载Y通过下面的线性矩阵方程向联系:
Y=AX, (1)
其中A是路由矩阵,表示哪个链路由哪个路由使用(更确切地说,每个元素A[e,p],代表一个(源节点,目的节点)对p经过链路e的概率)。TM层析涉及寻找(1)式在给定链路负载Y下的“最优”解X。
更普遍的是,其他TM测量策略可与链路负载的测量相结合,这往往比使用单个测量类型本身的估计产生的TM更好(参见Zhao等2006)。例如,通常是在入口路由器收集流量记录(参见Feldmann等2001)。在这种情况下,每个路由器看到每个TM快照中的一行,所以随着时间的推移,路由器i可以看到Z(i,*,*)。在一个路由器的数据丢失意味着缺少Z的一行或一些行。流量记录也可以在出口或在骨干路由器收集。在这种情况下,虽然可能难以明确确定所观察到的入口路由器的流量,额外的测量仍可以形成一套对该流量可能起源的线性约束。另一种测量策略(参见Varghese等2003,Zhang等2005a)是在每个路由器收集局部TM。这类测量也可以形成对于全局TM的线性约束。
把所有这些测量策略相结合,可以使用以下对于TM的线性约束来表示:
这里是一个线性算子,矩阵B包含了测量数据。算子表示了测量数据中提供的有效信息。
注意,丢失数据的存在是隐含在(2)中的;例如,线性算子可以包括在入口路由器处无误差(但有缺失)的TM测量。这只需将(2)写作:
M.*X=M.*D, (3)
其中D(i,j)包含(如果可用)直接测量,M时一个N2×m矩阵满足
.*表示按每个元素的乘积,即A=C.*B意味着A(i,j)=B(i,j)C(i,j)。当链路负责测量和直接测量都可用时,约束(3)将(通常)被纳入(2)以简化符号。
缺失值插值的目标是找到一个估计的TM,满足测量即公式(2)所规定的条件。然而,象许多这样的线性逆问题,有可能缺乏足够的信息来明确确定它的解。这些问题被称为欠约束线性逆问题(在通过链路负载推测TM的情况下,其所欠的约束数是非常高的)。
2.本发明:时空压缩感知
本发明实施例提供了一种普遍的方法和仪器,称为“时空压缩感知”,允许对矩阵形式或张量形式代表的数字化信息的缺失值进行精确重建。以下所述方法的实施方案,包括以下三个主要组成部分:(一)稀疏正则矩阵分解(SRMF)的方法,一种对感兴趣的数据获得低秩近似的方法,能同时与现有的测量数据和对其时空结构的先验知识保持一致;(二)一种在执行测量数据的约束的同时保持与SRMF获得的低秩近似解相接近的方法;(三)一种将低秩近似与局部插值相结合的方法。
2.1稀疏正则矩阵分解(SRMF)
由于许多现实世界的信号或数据集表现出一定的结构或冗余(即它们不是纯粹的噪音),可以利用这样的先验知识来获取和重建手头的信号或数据集。数据中的结构和冗余往往是稀疏的代名词。稀疏向量是一个只有少数非零元素的向量。在矩阵中,低秩类似于稀疏,因为由一个低秩矩阵的奇异值所组成的频谱是稀疏的(见下文)。现在众所周知,TM存在很好的低秩矩阵近似(见,Lakhina2004a,Lakhina 2004b),所以这个概念很适合这里。因此,本发明实施例明确使用此类稀疏方法来解决欠约束的缺失值插值问题。
本发明一个实施例,稀疏正则矩阵分解(SRMF),旨在对TM获得如下的低秩近似来解决式(2)中原有的缺失值插值问题:
X≈LRT,
其中X是感兴趣的TM(大小m×n),L是左因子矩阵(大小m×r),R是右因子矩阵(大小m×r),RT表示R的转置矩阵,r是低秩近似(即LRT)的秩的一个上限。
根据一个实施例,这两个因子矩阵L和R可以通过解决以下最小化问题获得:
这里||·||F表示Frobenius范数,对任何矩阵Z有因此,量化了对(2)式给出的测量约束的总违反量。正规化项抓住了所得低秩近似的复杂性,λ是一个正规化参数。抓住了矩阵X的元素间的时空结构(例如,时间接近的TM元素有类似值),其中C(·)可以是任何线性算子。因此(5)的目标,同时抓住了三重愿望:(一)尽量减少对测量约束的违反;(二)用复杂性最低的低秩近似模型(即X≈LRT);(三)利用X的时空结构。
为了解决(5)式以推导出L和R,可以使用一个交替最小二乘法程序。具体来说,先随机初始化L和R。然后通过固定L和R之间的一个作为已知值而把另一个作为优化变量(这是一个标准的线性最小二乘法问题)来解决上述优化。随后通过L和R之间的角色互换和程序不断交替向前直到结果收敛为止。根据一个实施例,上述交替最小二乘法程序的实施可以进一步利用稀疏矩阵操作,以尽量减少内存需求,并最大限度提高速度。上述方法将被称为稀疏正则矩阵分解(SRMF)插值。
2.1.1 SRMF例子
以上所述的方法,线性算子C(·)(5)允许有不同的选择。线性算子C(·)典型配置是
C(Z)=CONCAT(vectorize(SZ),vectorize(ZTT))
其中Z是任何矩阵,函数vectorize(·)把一个矩阵所有的列堆叠成一个列向量,函数CONCAT(·,·)连接两个列向量,S和T分别为空间和时间的约束矩阵。矩阵S和T表达对TM的时空结构的先验知识(例如,时间相近的TM元素有类似值)。
在以上C(·)典型选择时,优化问题(5)变成以下等价的最小化问题,根据一个实施例:
对S和T的选择有多种可能性,为了更好地说明SRMF的原理和益处,下面的讨论中故意使用S和T比较简单的选择作为例子。重要的是要了解,这些讨论只是举例,而不构成任何限制。一个技术熟练者应该很容易能够更好的量身定制S和T以满足不同的数据集的特点和应用的需求。
(a)时间约束矩阵T的选择:时间约束矩阵T抓住了TM的时间平滑性。时间约束矩阵的一个简单选择是T=Toeplitz(0,1,-1),这是由中央对角线全是1和第一上对角线全是-1组成的Toeplitz矩阵:
这个时间的约束矩阵直观地表示TM在相邻的时间点往往是相似的事实。举例来说,XTT正是时间上相邻要素X之间的差分矩阵。通过最小化该方法寻求一个近似LRT使得该近似在时间上相近的元素也具有相似的值。
时间约束矩阵的另一个简单的选择是:Toeplitz矩阵T=(0,1,-2,1),表示由中央对角线和第二上对角线全是1及第一上对角线全是-2组成的Toeplitz矩阵,即,
这个时间约束矩阵直观地表示如下事实:TM在时间t的值可以很好地近似为TM在时间(t-1)的值和TM在时间(t+1)的值的平均值。
一个更复杂的选择,如果能考虑到相关领域知识(如流量数据的周期性知识),可能会导致进一步的改进。本专利公开后面将在介绍流量预测时给出这样一个例子。在一般情况下,不难开发出这样的TM时间模型。
(b)选择的空间约束矩阵S:空间约束矩阵可以表达TM的哪些行值彼此接近。但由于TM中的行任意排序,上述形式的简单矩阵可能并不合适。作为本发明的一个可能的体现,可以首先使用简单的插值算法获得一个初始TM估计然后通过的行之间的相似性(近似于X的行之间的相似性)来选择S。根据一个具体实施例,需要以下三个步骤以获得S:
第1步,计算X的基线估计(由Xbase表示)。在一个实施例中,使用表1中所述的变量计算Xbase。Xbase可以通过一个秩为2的对X的近似来表示:其中1是一个所有元素都是1的列向量。正则最小二乘算法(参见R.Bell,Y.Koren,and C.Volinksy,“Chasing the $1,000,000:How wewon the Netflix progress prize,”Statistical Computing and Graphics,18(2),2007(Bell等2007)),可用来根据输入和B计算出Xrow,Xcol。也就是说,解决以下最小化问题:
这里λ是正规化参数。在此公式中,第一项最大限度地减少了差的Frobenius范数,而第二个正规化项有助于避免过适。
(b)选择的空间约束矩阵S:空间约束矩阵可以表达TM的哪些行值彼此接近。但由于TM中的行任意排序,上述形式的简单矩阵可能并不合适。作为本发明的一个可能的体现,可以首先使用简单的插值算法获得一个初始TM估计然后通过的行之间的相似性(近似于X的行之间的相似性)来选择S。根据一个具体实施例,需要以下三个步骤以获得S:
第1步,计算X的基线逼近(由Xbase表示)。在一个实施例中,使用表1中所述的变量计算Xbase。Xbase可以通过一个秩为2的对X的近似来表示:其中1是一个所有元素都是1的列向量。正则最小二乘算法(参见R.Bell,Y.Koren,and C.Volinksy,“Chasing the $1,000,000:How wewon the Netflix progress prize,”Statistical Computing and Graphics,18(2),2007(Bell et al.2007),可用来根据输入和B计算出Xrow,Xcol。也就是说,解决以下最小化问题:
这里λ是正规化参数。在此公式中,第一项最大限度地减少了差的Frobenius范数,而第二个正规化项有助于避免过适。
表1、基线估计的输出
第2步,计算根据一个可能的体现,被设置为这里M由式(4)定义,指定了哪些TM元素是通过直接测量获得,而D包含直接测量的结果。换句话说,直接测量用于这些可用之处,而在其他点使用内插。
第3步,基于选择S。基于来选择S有许多可行的方法。例如,根据一个可能的体现,一类一般的方法是:(一)构建一个加权图G,其中每个节点代表的一行,而每个边的权重代表的两行之间的相似性度量;(二)设置S为图G的Laplacian矩阵(见S.Uhlig,B.Quoitin,S.Balon,and J.Lepropre,“Providing public intradomain traffic matrices to the research community,”ACMSIGCOMM CCR,36(1):83-86,2006(Uhlig等2006))。这样得到的S,作为图G上的一个差分算子,可以消除G的相似节点(即的行)之间的冗余从而导入稀疏性。此类的几种方法已经在本发明公开中实施并使用真正的TM数据集进行测试。以下基于线性回归方法的S的选择始终产生良好的测试性能,将用于实验评价。对于中的每一行i,该实施方案所述的方法首先找到K最相似的行jk≠i(k=1,...,K),然后,该方法执行线性回归,找到了一组行的权重w(k)使得其线性组合能最佳地逼近行i:假设能很好的近似X(i,*),该方法就设置S(i,i)=1和S(i,jk)=-w(k),其中k=1,2,...,K,以表示近似误差。
(c)S和T的缩放:根据本发明的一个实施例,可以对S和T进行缩放使得||S(LRT)||F,||(LRT)TT||F,和具有类似的数量级。在按(6)优化时,这种缩放可以防止三个惩罚项相互掩盖。在实验考核中,根据一个实施例,S和T被简单地缩放使得它们满足和式中反映了可以忍受的的逼近误差水平。评价结果表明,这种缩放能在广泛的情景下获得优异的性能,并且性能对λ的选择不敏感。请注意被故意设成小于因为通过相关领域知识获得的时间模型预计会更加可靠。
2.1.2扩展SRMF用来处理以张量形式表示的数据
如上所述,到目前为止,本发明的实施方案提供的方法隐含地假定感兴趣的数字化信息(即X)是以矩阵形式(即二维数组)表示的。然而,本发明实施方案的方法可以被自然地延伸到处理以张量形式(即一个d维数组(d≥1))表示的任何数字化信息X。更具体而言,类似于SRMF的矩阵版本,SRMF的张量版本寻求张量X的以下形式的低秩近似:
X≈TP(F1,F2,...,Fd),
其中X是一个以d维数组(大小为m1×m2×...md)的形式代表的数字化信息,Fk是与第k个维度相关的因子矩阵(大小mk×r),r是低秩近似所期望的秩的上线,而TP(......)代表张量乘积。特别是,让P表示所有的因子矩阵Fk的张量乘积,即P=TP(F1,F2,...,Fd),则P是大小为m1×m2×...md的一个d维张量,其元素由下式定义:
根据本发明的体现之一,张量版SRMF的获得可以通过求解如下最小化问题的因素矩阵Fk:
这里||·||F表示Frobenius范数,为任何d维张量Z。因此,量化了对式(2)中给定的测量约束的总违反量。正规化项衡量了最终低秩近似的复杂性,其中λ是一个正规化参数。抓住了张量X的要素之间的时空结构(例如,时间接近的TM元素有类似的值),其中C(·)可以是任何线性算子。因此类似于式(5),式(10)同时捕捉的愿望是:尽量减少对测量约束的违反;(二)用复杂性最低的低秩近似模型;(三)利用X的时空结构。
2.2强制满足测量约束
许多应用中希望能强制满足测量约束(2)而没有任何违反。然而,SRMF获得低秩逼近可能无法满足测量约束,原因是测量噪声的存在,或真正的X可能是不完全的低秩(即X可能无法分解为两个因子矩阵L和R的乘积,其中L和R只有r列)。
本发明实施例提供了一种通用的方法,用于更好地满足测量约束。具体来说,该方法首先使用SRMF得到的低秩近似作为一个先验解。然后,该方法的实施方案寻求一个新的解,一方面与先验解保持接近(根据某种距离函数),同时能满足所有的测量约束方程。由此产生的方法被称为层析SRMF(层析SRMF),因为它在包含SRMF的同时满足网络层析的约束(2)。标准的凸规划的技术可用于解决由此产生的优化问题。
根据一个可能的实施例,层析SRMF涉及求解如下最小化问题:
minX J(X,LRT),
满足A(X)=B (11)
其中J(X,Y)是一个惩罚函数,量化了两个矩阵X和Y之间的距离。J(......)可以有多种选择。作为一个例子,可以设置作为另一个例子,Kullback-Liebler差异(见D.D.Lee and H.S.Seung,“Algorithms for non-negativematrix factorization,”Proc.of Neural Information Processing Systems (NIPS),pages 556-562,2000(Lee等2000))也可以用作惩罚函数。
在实践中,测量往往含有噪声。在这种情况下,它可能无法完全满足测量约束(2)。一个层析SRMF可能的体现,可以通过解决以下优化问题以应对测量噪声:
式中,α是正规化参数。
在层析SRMF中同时纳入对数据的时空属性的知识也是可能的。具体来说,层析SRMF的一个可能体现是在解决以下优化问题:
其中C(·)是一个线性算子,表示X的时空属性。在这个方法中,最终的解决方案将在保持接近低秩的前提下,同时考虑测量数据的约束和对数据时空属性的领域知识。
注意,为了使读者更容易理解本发明,上述实施例只介绍了层析SRMF方法的矩阵版本。然而,本发明并不局限于此。对于一个技术上熟练的人来说,即可以在实践中用一个熟练的技巧来执行测量约束,当感兴趣的数字化信息是以d维数组(即张量)的形式来表示的时,类似2.1.2节所述的扩展可以被用来强制满足测量约束。
2.3结合全局和局部插值
SRMF和层析SRMF两者都可以有效捕捉到感兴趣的数字化数据中的全局结构,如(近似的)低秩性和时空的平滑性。本发明进一步提供了一种方法,通过将SRMF或层析SRMF与局部插值相结合,更好地利用TM中存在的局部结构和冗余。
作为一个说明性的例子,SRMF可以与K-最近邻(K最近邻)相结合,获取称作SRMF+K最近邻的混合算法。在一个实施例中,SRMF+K最近邻首先为X计算基于SRMF的插值(记作XSRMF)。对于每个丢失的数据点(i,j),该实施例的方法检查同一行中近邻的元素X(i,j-3),...,X(i,j+3)是否存在。如果没有一个近邻的元素被直接观察到,那么该方法简单地采用XSRMF(i,j)的值;但如果有任何可用的近邻元素,该方法将用这些近邻元素来更好地近似X(i,j)。
根据一个实施例,通过建立一个考虑到TM中所有行的本地时序模型,可以更好地逼近X(i,j)。具体而言,可以使用线性回归找到一个权重集w(k)对所有p=1,2,...;n最佳地逼近XSRMF(p,j)=∑k∈nbrsw(k)XSRMF(p,k)。然后,该方法采用上述权重对最近邻的值进行加权线性插值,即
3.插值性能结果说明
本节使用真正的TM数据来说明本发明的性能。
3.1数据集介绍
这里使用的数据是真正的TM数据:两个标准集和一个新的数据集。前两个是2006年Alderson等人在各种研究中使用的Abilene(Internet2)数据集(见Lakhina等2004a,Lakhina等2004b,Zhang等2005b)和GEANT TM数据集(见S.Uhlig,B.Quoitin,S.Balon,and J.Lepropre,“Providing public intradomaintraffic matrices to the research community,”ACM SIGCOMM CCR,36(1):83-86,2006(Uhlig等2006))。虽然这些都是比较老的数据集了,使用他们还是有价值,因为可以与过去发表的实验结果相比较。此外,以下性能评价还使用了一家大型互联网服务供应商的一个更长和更近期的商用TM数据集。数据集的特性汇总列于表2。
网络 |
日期 |
持续时间 |
分辨率 |
大小 |
Abilene |
2003年4月 |
1周 |
10分钟 |
121x1008 |
Commercial |
2006年10月 |
3周 |
1小时 |
400x504 |
GEANT |
2005年4月 |
1周 |
15分钟 |
529x672 |
表2、研究中的数据集
3.2考虑的算法
以下评估中比较了如下八种为TM中缺失值进行插值的算法。
SRMF:这是解决优化问题(6)获得的解。
基线:这是基线估计Xbase,由式(9)给出。
SRSVD:作为SRMF的一个极端的例子,可以简单地设置C(Z)=0。该意味着没有时空属性被考虑。由此产生的优化问题是
该解尽量向低秩近似靠近,但并不严格满足测量方程。正规化参数λ允许在精确拟合实测数据和实现低秩目标之间权衡调节。上述方法与奇异值分解(SVD)密切相关,并将被称为稀疏规范奇异值分解(SRSVD)插值。在矩阵压缩感知文献中(见Candes等2009,Recht等2007,Recht等2008)已经证明,如果原始数据X正好是低秩,并且秩足够低,当满足一定的技术条件(受约束的等距属性(见Recht等2007))时,SRSVD能把X完全精确地恢复。
SRSVD基线:在这种方法中,基线估计Xbase被置于测量的中心。然后将SRSVD应用到中心化后的数据(X-Xbase)。将这种方法简称为SRSVD基线
非负矩阵分解(NMF):非负矩阵分解(NMF)(见Lee等2000)试图找到非负矩阵因子L和R,最大程度降低观测到的差的Frobenius范数。该方法除了坚持使用非负的因子矩阵,与奇异值分解非常相似。为了防止过适,可以采用与奇异值分解相类似的正规化过程,即解决式(12)但附加额外的非负约束条件。评估实现了两个非负矩阵分解的最常见的算法:乘法更新(见Lee等2000)和交替非负最小二乘法。这两种算法都是为没有缺失值的矩阵设计的。因此,性能评估时把它们进一步扩展到支持测量方程(2)。这两个算法给出类似的插值性能,但乘法更新更快速。因此,下文的结果是基于这种算法。
K最近邻:下面的性能评估还测试了一个完全不同的方法:K最近邻。简单最近邻直接使用最近邻的值进行插值,K最近邻扩展使用K-最近邻的加权平均值。贝尔等人2007年描述的方法可用来确定权重。
SRMF+K最近邻:这是把SRMF与K最近邻(如2.3节所述)有机结合起来的混合算法。
SRSVD基线+K最近邻:最后,为了揭示纳入时空信息的重要性,以下评估还把SRSVD基线和K-最近邻相结合,形成一种混合算法,称为SRSVD基线+K最近邻。
以上八个算法,SRMF和SRMF+K最近邻代表本发明的实施例。
3.3评价方法
评价使用以下方法:在现有测量数据中删除一些数据,再用插值算法对这些缺失值插值。这就提供了比较的基本事实。这些被人为删除的数据是不准以任何方式用于插值算法的。
评估插值算法时,典型的方法是随机删除数据。以下实验会从随机删除数据开始。然而,在实际测量TM时有不同的机理造成数据丢失,且丢失的数据是结构性的。这种结构显然对插值的性能有重要影响。在4.5节将探讨几种结构性数据缺失的模型。
插值的性能指标采用被插值的归一化平均绝对误差(NMAE)。具体来说,NMAE计算公式为:
其中是估计值的矩阵。请注意,NMAE只考虑缺失值的插值误差。因此,NMAE只有在存在至少一个缺失值时才有定义。评估还研究其他三个性能指标(均方根误差,归一化均方根差和相关系数,),但结果没有实质区别。在每种场景下,随机丢弃数据和重建矩阵的过程会运行10次。结果给出了10次运行的平均NMAE。
3.4初步比较
图1比较了不同算法在独立随机数据丢失下的插值性能,数据丢失率范围从0.02到0.98(丢失概率为0时NMAE无定义)。TM数据来自Abilene(图1A)、商业ISP(图1B)和GEANT(图1C)。所有的全局算法都用同样的正规化参数λ=0.1和同样的输入秩参数r=8;K最近邻使用k=4(这些选择的理由将延至下节说明)。
对于低丢失率,SRMF比K最近邻达到更好的性能。对于高丢失概率,很明显SRMF的性能超过K最近邻。然而,混合算法SRMF+K最近邻在整个丢失率的范围内性能优于所有算法。有趣的是,混合算法明显比任何单一算法更好。
同时,混合算法SRSVD基线+K最近邻也表现良好,虽然不及SRMF+K最近邻好。当损失率增高时性能差距通常会扩大。因为这是基于独立随机损失。损失率不太高时,缺失值近邻的值很可能被直接观察到的,所以K最近邻成为一个有效的恢复策略。然而,当丢失率增大大或者数据丢失呈现高度结构化时(见第3.6节),SRSVD基线+K最近邻和SRMF+K最近邻之间的性能差距将扩大。
其他方法的性能都更糟糕。对低损失而言,基线是最糟糕的(不出所料,因为它只给出一个秩为2的近似)。然而,对高丢失率而言,基线的性能出奇地好,肯定比SRSVD好(其性能在高丢失率时非常糟糕)。然而,减去基线后应用SRSVD在整个损失范围内都得到了合理的性能,在某些情况下和简单SRMF几乎一样好。非负矩阵分解则对所有丢失率表现不佳。
实验中观察了许多这样的图。非负矩阵分解和SRSVD(无基线清除)都一样差。因此,为了简化叙述,以下评估结果中不再考虑它们。
3.5参数灵敏度和设置
考虑的算法中有几个输入参数。这些算法相对于这些参数的性能(在大多数情况下)与当前的数据集有关。在实践中,当插值一个真正的数据集时,可能无法准确地为当前的数据集优化λ和r的值,因此渴望拥有对输入参数不太敏感的算法。其实,所有算法都对一些参数的设置有一定的依赖,并没有一个单一的参数设置对所有数据集都是最佳的选择。然而,以下评估揭示了离最佳值从不太远的参数的粗略设置。
第一个输入参数是秩。从理论上讲,只要输入秩大于真正的秩,不同的算法会收敛到正确的矩阵(见Candes等2009,Recht等2007,Recht等2008)。但需要注意的理论结果仅对严格低秩的矩阵才有效。真正的TM通常有很多很小,但是非零的奇异值,所以只是近似的低秩。此外,还有在测量数据中的误差,所以不应该指望得到零误差的缺失值重建。
图2显示了一部分关于秩的性能测试结果(注意,基线算法被排除在外,因为它有一个固定为2的秩,)。具体来说,图2A显示了Abilene的结果,丢失概率设置为0.2;图2B显示了商业ISP的结果,丢失概率设置为0.6;图2C显示了GEANT结果,丢失概率设置为0.95。结果表明,大多依赖秩的方法当输入秩增加时有更好的性能。虽然并非总是如此,偏差是轻微的。但是,请注意x-轴用的是对数轴。这些结果显示,在不断增加秩时,对差值性能的相对改善越来越小。在秩增加时,也会导致计算成本的增长。结果表明输入秩r=8是一个比较合理的作业点。将秩提高到r=16对插值性能只有非常小的改善,同时计算成本会增加。
对这些结果最重要的发现是混合算法SRMF+K最近邻对输入参数的相对不敏感性。一般情况下,它是对输入秩依赖性最小的算法。增加秩对插值性能有一些小的的改善,但通常比其他算法的改善小。
K最近邻不用输入秩,而用邻居数k。图2显示了k对K最近邻性能的影响,k=4用于其它实验,因为它始终可避免最坏的结果。
正规化参数λ是最后一个重要的参数,它决定了满足测量约束和保持低秩之间的权衡(优化)。较大λ导致较低秩的似,而较小的值导致与测量数据的拟合度更好。图3给出了三个例子,显示在不同参数下和三种不同的损失率和网络上的性能差异。图3A显示了Abilene的结果,丢失概率设置为0.2;图3B显示了商业ISP的结果,丢失概率设置为0.6;图3C显示了GEANT结果,丢失概率设置为0.95。K最近邻被省略,因为它不用正规化。再次注意x-轴用的是对数轴。目的是为了看出数量级上的影响,而不是为了对性能进行微调。所有这些算法都对λ不太敏感。其中,SRSVD(整体)是最敏感的。通常,λ越大,性能就越好,虽然有时趋势相反。很多情况下,最佳的性能在λ=0.1左右时获得。所以该值被用于实验其余的实验。
再次注意SRMF+K最近邻是最不敏感的算法。图3C显示了对该算法观测到的参数敏感性最高的极端情况。
3.6比较:其他损失模型
如前所述,并不是所有的数据丢失都是随机的。损失往往是高度结构化的,这里考察这种高度结构化数据丢失对插值对结果的影响。黑体字名称表示用于数据集的标签,其中“xx”是由受影响的行(或列)的百分比所取代。
PureRandLoss(纯随机损失):这是简单随机损失模型。矩阵中的每个数据点都以概率q被随机独立的删除。
xxTimeRandLoss(xx%时域随机损失):这模拟了在特定时间发生的结构化的数据丢失事件。例如在某时间点可能发生监测设备超载,或可能磁盘已满。在这些情况下,在一个特定的时间点一部分数据可能会会随机被丢失。为了模拟此类数据损失,先随机选择xx%被影响的列,再从选出的列中以概率q随机删除数据。注意100%时域随机损失对应纯随机损失的情况,所以不用重复考虑。
xxElemRandLoss(xx%元素随机损失):这模拟了一个结构性的丢失事件,其中一组随机选择的TM元素遭受数据丢失。此类损失可能会发生在那些用不可靠的传输层协议把测量结果送回网络测量站的情况。通常,这种传输问题往往取决于测量所在的位置(例如,位置靠近管理站时不太可能出现因网络拥塞导致的损失)。实验中随机选择xx%被影响的行。注意100%元素随机损失对应纯随机损失的情况,所以不用重复考虑。
xxElemSyncLoss(xx%元素同步损失):这模拟了一个结构性的丢失事件,其中一组TM元素都由同样的原因丢失数据。因此,对每个元素的损失是同步的。实验中先选择xx%受影响的行,并以概率q选择一组时间点(即:列)。选定的行和列的交叉点的所有数据都被丢失。
RowRandLoss(随机行损失):上面介绍的随机元素的损失,不是一个特别现实的数据丢失模型。在使用基于流的测量时,流量水平测量由路由器收集数据。如果该路由器不能收集数据,则每个TM快照z的一整行将丢失,其对X的影响是删除了一组结构相关的行。这一损失的模拟是从原始TM z(在形成的矩阵X之前)丢弃一些行。
ColRandLoss(随机列损失):在原始TM z中一整列的数据被丢失的概率可能较小。出于完整性,以下也考虑随机列损失的情况。
本节探讨损失模型对插值算法性能的影响。很明显,观看这些数据的方法很多。由于篇幅有限,这里介绍的是少数几个有代表性的结果。首先,图4显示了关键算法在所有数据损失模型和两个不同的损失水平下的性能条形图。图4A和图4B损失概率分别是0.2和0.95。关键性的结果是,在低度到中度损失下,对所有损失模型来说SRMF+K最近邻算法的性能明显更好。当损失较高时,也有一些情况下SRSVD基线和K最近邻的性能和SRMF+K最近邻差不多,偶尔稍微好一点。但是当损失是高度结构化的(例如,全部元素同步损失),显然SRMF+K最近邻总是更胜一筹。
这3种情况更详细地显示在图5中。图5A显示了Abilene网络数据的随机行损失。随机列损失的结果是相似的。而且两者的性能都与纯随机损失相类似。原因是在考虑高损耗的情况下,无论是基线(用在SRSVD基线中)和相似度(用在K最近邻中)都是难以计算的,因为整行或整列的数据都丢失了。与之相反,本发明实施例的方法同时考虑了时间和空间的模型。
图5B GEANT网络数据显示了非常极端的时间同步下的结构损失(即全部元素同步损失),在这种情况下,基线插值的性能是那么差,导致其他技术的性能全部折回到这个基线,而本发明实施例的方法仍能获得合理的性能。
图5C显示了数据网络的商业ISP,随机列损失影响大约一半的行(即50%时域随机损失)。在这种情况下,本发明的实施例的方法执行出奇地好,即使这么多的矩阵结构已经丢失。这又显示了时空模型的重要性。
总结:这些结果表明,对于广泛的数据损失场景和损失率来说,SRMF+K最近邻是最佳算法。即使在少数情况下,SRMF+K最近邻没有胜出,它也落后极少。同时,SRSVD基线+K最近邻的性能一贯优于SRSVD基线,但不如SRMF+K最近邻更好,尤其是当有大量的结构性损失时。这些结果清楚地表明时空压缩感知框架的威力,因为该框架能同时利用全局和局部的结构与时空属性。预计对于时空约束矩阵S和T的更详尽的建模将进一步提高插值精度。
3.7计算的时间
性能评估也考虑了SRMF对不同大小的矩阵的计算时间(注意K最近邻需要少量的额外时间)。计算时间相对于矩阵元素的数目呈线性增长的关系。一个200×1000的矩阵(在分解时使用秩r=10)只需要花小于3.5秒(使用2.66GHz的Linux机器上的MATLAB)。同时相对于秩r,计算时间基本上与r2成正比,所以也很合理。
4.完成常见数据分析任务的统一方法
上一节考虑的是简单的插值问题。本节介绍了几个不同的应用体现,其中缺失值的含义或重要性是由当前的应用决定。这些例子表明,本文所述的实施例的方法,为多种常见的数据分析任务,如网络层析、预测和异常检测提供了一个统一的框架。
4.1网络层析
本实施例中所描述的方法的一个特例是从测量的链路负载推测一个TM的网络层析问题。在前面考虑的情况下,约束来自直接测量。对于网络层析,约束由式(1)给出。但是,通常可以把这两种测量数据组合起来以获得TM的最佳近似。在这种情况下,根据一个实施例,只需简单地在的定义中将式(1)及式(3)两者相结合,得到一个组合后的惩罚项
评价集中在两个相对简单和相对知名的TM算法:重力模型和层析重力法(Tomo-Gravity)。重力模型(参见Zhang等2005b)给出了一个TM的一个简单的秩-1近似。众所周知它不很精确,但它已成功用于层析重力法的第一步(见Zhang等2005b)算法。后者是基于重力模型和测量约束之间的Kullback-Leibler差异的正规化方法。
重力模型和层析重力法的显著特征是两者都不涉及时间信息。他们只能被分别用于每一个TM快照上。其中,重力模型只需要得到一个TM快照中所有的行和与列和,所以没有需要(或方法)来纳入新的信息。然而,层析重力法是一个标准的正规化方法,因此可以轻松地添加额外的测量方程。
说明性结果
本节比较上述算法与下面三种别的方法:基线法,SRMF和层析SRMF法。图6显示了不同算法用于网络层析的性能(相对于流量矩阵元素损失率)。数据来自Abilene(图6A)、商业ISP(图6B)和GEANT(图6C)。请注意,除了直接测量的矩阵元素,评估假设可以测量在网络中的所有链路负载。所以在这个图中,100%的数据丢失对应于标准的网络层析问题。由于这部分的数字很重要,但在图中比较难读,表3重复显示了关键性能指标。
|
Abilene |
Commercial |
GEANT |
层析重力法 |
0.197/0.197 |
0.292/0.292 |
0.441/0.439 |
基线 |
0.321/0.233 |
0.566/0.380 |
1.198/0.489 |
SRMF |
0.280/0.204 |
0.483/0.285 |
1.185/0.516 |
层析SRMF |
0.227/0.155 |
0.288/0.203 |
0.433/0.240 |
表3、网络拓扑的性能:第一个数字是没有直接观察的TM元素时的性能,第二个数字是仅有0.5%的TM直接观察时的性能。
首先请注意,重力模型的性能极差,基线法在大多数情况下排倒数第二,但仍比重力模型更好。其次,SRMF对于不存在直接TM测量时的纯网络层析问题性能不佳。然而,即使只有极少数(少至0.5%)的TM元素的直接观察,SRMF性能就可以戏剧化地提高。相反的,层析重力法的性能在性息增加是大致呈线性提高。最后,层析SRMF因为将SRMF和层析重力法相结合而得以两全其美,其性能显着优于每一种方法本身。图6和表3显示了性能的改进。
注意,Soule等2005年还建议在TM中纳入基于流的测量数据。层析SRMF与他们所谓的“第三代”TM算法相比,有两个主要优点:(一)它不需要任何昂贵的校准阶段(在校准阶段整个TM都需要直接测量);(二)它是非常准确的,只需要直接测量0.5-5%的TM元素就能把层析重力法的误差降低一半(而Soule等2005需要直接观察10-20%的TM元素才能达到同样的效果)。
4.2预测
本节考虑SRMF在用于TM预测时的行为。时间被分成两段,初始训练阶段长达一段时间t,然后进入测试阶段进行TM预测。
预测与一般的插值问题不同。一些技术(SRSVD和K最近邻)都没发用。K最近邻也不能很好地工作,因为没有时间上的“近”邻,空间上完全没有任何邻居。然而通过对数据中时空格局更具有创造性的使用,可以有显著的进展。例如,可以用周期性近邻,而不是简单直接近邻。TM显示出很强的昼夜模式,所以间隔24小时的邻居有益处就毫不奇怪了。从本质上讲,周期性近邻方法是假设今天的流量与昨天具有相同的模式。
类似的,对于SRMF,没有必要使用空间约束矩阵,因为整个TM的一大块都被丢失了(即所有需要预测的未来数据)。然而,为了与周期性近邻进行公平比较,需要在构建时间约束矩阵T时也考虑TM的周期性。具体来说,T被设成一个差分矩阵,其中作差的TM元素相差的间隔是24小时。
说明性结果
图7显示了不同算法对于流量矩阵预测的性能(相对于需要预测的数据的比例)。数据来自Abilene(图7A),商业ISP(图7B),和GEANT(图7C)。注意,SRMF优于其他技术,而且当需要预测的数据长度不断增加(从而训练数据长度不断减小)时,SRMF的性能下降非常缓慢。这表明,SRMF可以有效地利用典型的TM表现出的时间规律。
4.3异常检测
网络运营的一个常见任务是发现问题。对一些问题有特殊的工具(例如,SNMP通常用于查找链路故障);对一些其他问题,如具体的攻击,可以通过特定的标志进行检测。然而,上述两种方法都需要在问题出现前就拥有先验知识。在很多网络中有一个检测意外问题的互补的需要。
这些问题在发生之前不知道其特征,所以异常检测的常用方法是寻找与历史的观察相比时的显著差异。大部分方法涉及到先对数据进行转换然后再转换后的数据内寻找异常值(见Zhang等2005b)。常见的例子包括简单的过滤数据,傅立叶变换,小波法或PCA。该转换的目的是把历史事件的“正常”空间和“异常”空间相分离。PCA技术明确进行这样的分离,而其他转换依赖一些常见的属性。例如,傅立叶技术依赖于正常的数据主要栖息于低频到中频的空间,因此诸如快速变化所产生那些异常通常栖息于高频的空间。异常检测可以通过计算正常的数据模型,并在各时间点与实际数据比较,然后找出那些差值超过某个阀值T的点。
本节将比较几种异常检测方法。为了简化叙述,让读者获得对不同方法的各种性能的直观了解,本节考虑三种算法:一种时预算法,一种空域算法,和本实施例所描述的时空算法。所使用的这三种方法是:
差分:差分是一个标准的时间序列技术,用以去除线性趋势(典型的流量数据都是非平稳的,在几分钟到几小时的时间往往可以用线性趋势来合理地近似)。差分还能突出突然变化,如流量尖峰或水平移位(见Zhang等2005b)。差分实质上是使用上一个时刻的数据作为当前的时间模型。虽然在网络文献中没有被广泛考虑,但它提供了一个简单的时间基准可以用来获得好的直觉。差分算子可以书写为用X乘以T=Toeplitz(0,1,-1)。这是一个纯粹的时域上的操作,没有考虑TM要素之间的空间相关性。
PCA/奇异值分解:近年来有很大的兴趣将PCA/奇异值分解用于异常检测(见L.Huang,X.Nguyen,M.Garofalakis,J.Hellerstein,M.Jordan,M.Joseph,and N.Taft,“Communication-efficient online detection of network-wideanomalies,”Proc.of IEEE INFOCOM,2007(Huang等2007),Lakhina等2004a,Lakhina等2004b,Ringberg等2007,Xu等2005,Zhang等2005b),并且是异常检测唯一常用的的空域技术。如前所述,PCA/奇异值分解首先选择应用的正常子空间的秩r(可以根据前r个奇异值中的总功率进行计算),然后把输入数据X投射到异常子空间,然后在那里测试大小。本质上,该方法是利用低秩奇异值分解近似作为正常的数据模型,检查低秩近似与数据本身之差。直观地说,这个过程利用一个TM元素之间的历史关系建立一个(简单)模型。新的时间点与这个模型进行比较,看看他们是否满足这种关系。如果不满足,则被宣布为异常。这是一个纯粹的空间技术,因为对输入数据在时间上重新排序不会对结果产生影响。
SRMF:SRMF在这种背景下被直接应用到流量数据(包括异常),就如同奇异值分解一样。然而,本实施方案的方法是真正的时空方法,因为所得的模型既涉及TM的时间属性,也涉及其空间属性。所得的低秩近似被用作正常数据的模型。低秩近似和实际流量之间的差被用作异常信号。本实施例的方法使用一个标准的阈值来对所得的差进行异常检测。
本节将使用模拟方法比较这些算法。模拟方法的目的是要突出不同的技术特点。模拟虽然不能说是完全现实的,但只有它能够清楚说明不同的异常检测技术的属性。模拟执行两个步骤:首先创建正常流量,然后注入异常。TM是由一种人工合成的重力模型,由TM正交在空间域创建组成(见M.Roughan,“Simplifying the synthesis of Internet traffic matrices,”SIGCOMM ComputerCommunications Review,35(5):93-96,2005),并在时域采用周期性的Norros模型(参见I.Norros,“A storage model with self-similar input,”Queueing Systems,16:387-396,1994(Norros 1994),M.Roughan and J.Gottlieb,“Large-scalemeasurement and modeling of backbone Internet traffic,”Proc.of SPIE ITCOM,2002(Roughan等2002))。这两种模型都有有利于自己的论据,但主要是需要创建一个低秩的TM,加上一些真实的TM中可见的局部的时空特性。
模拟使用此模型生成的TM 1000实例组成一周的测量,每15分钟一个实例。在每一个实例中注入了一个异常现象。该异常是一个尖峰,在一个随机选取的单一的时间点被添加到TM,所以不能对另一个异常检测产生干扰。尖峰的值是一个高斯随机变量(在每个TM的元素)的向量。该尖峰的规模是一个固定值,从0.1到100不等。大小为0.1(在这里使用的数据集)的尖峰(肉眼)几乎难以从标准流量的随机变化中区分。大小为100的尖峰比典型的TM元素要大很多,所以很容易观察到。然后对适用于上面三个技术中的每个创建一个“正常”的流量向量,评估并检测“正常”流量向量和实际测量的流量向量只差是否超过一个给定的异常阈值。请注意,在输入时没有任何丢失数据(不清楚在有丢失数据时如何公平比较三种算法,因为SRMF有更好的插值性能)。但是,异常是包括在输入中的,这样可以比较公平地比较奇异值分解和SRMF。
一个非常重要的细节是异常检测的阈值的选择。对非平稳数据集,设置阈值会在比较困难。当异常小时,允许一点点微调,可以找到对所有三种方法在统计上没有区别的阈值。
说明性结果
图8A显示了三种技术之间的误报率按95%置信区间的估计比较。对于较大的异常很难调整PCA/奇异值分解的误报率。这种异常污染了用来建立正常的子空间的数据,导致用来确定阈值的标准统计假设失效(见Ringberg等2007)。所以很难获得阈值能为大的异常产生同样的误报率,但在这些情况下的区别对所得的结果无关紧要。同样,它也很难调整SRMF和大型异常的误报率,但出于相反的原因:误报率几乎很快下降到零。鉴于高检出率,比较结果时这不是一个问题。
图8B显示了三种技术的检出率。首先,对于小异常比较PCA/奇异值分解和差分法。当异常的值很小时,它们将产生小的差异,这些差异的检测概率会很小。需要注意的是,在异常越来越小时,即使允许一个较大的误报率,差分法的异常检出率也急剧下降。另一方面,PCA/奇异值分解利用数据元素之间的空间关系,它使用的所有信息可从特定的时点上获得,而不是独立处理每个时间序列的信息。虽然对于越来越小的异常PCA/奇异值分解的性能也有所下降,但它远远比差分法要好。
对于中等规模的异常,这两种技术都有完善的检测记录。这些异常用哪一种方法都不太难检测。但是,大的异常要另当别论:较大的异常会污染PCA/奇异值分解用于创建正常子空间的数据,导致检出率的急剧下降。请注意,虽然差分的误报率和PCA/奇异值分解方法略有不同,PCA/奇异值分解检出率下降到几乎为零,而差分法始终保持其完善的检出记录。所以误报的概率的微小的差别不是造成这一急剧下降的原因。这一结果与过去的数据观察(见Ringberg等2007)是一致的。
一个可能解决的办法是在时间域预先过滤掉大的异常数据,然后应用PCA/奇异值分解。这是前面提到的插值数据的问题。一个更好的方法是使用一种方法能同时处理好频谱的两端。SRMF提供了这样一个方法。图8显示了其性能。很明显其对每个异常的大小的检测,从概率统计上与两个其他方法没有区别,误报率要么难以区分,要么远低于其他两种方法,所以SRMF提供了一种更好的方法来处理各种异常。
SRMF的性能来自其使用了时空模型。当异常比较小的时候,空间模型更有效,所以是这部分的算法在起作用;当异常比较大的时候,它们是在时预被检测出来的(本质上是通过差分法)。可以在这里看到的是,通过对LRT施加时间平滑性约束,因为异常导致的数据污染对算法的影响要小得多。直观地说,如果太多的能量泄漏到正常的子空间(如PCA),那么进入正常子空间的投影不再是光滑的,这将导致与平滑性相关的惩罚项变得太大。因此,平滑长期有助于将数据污染的损害降到最低,从而避免了在PCA/奇异值分解观察到的问题。
重要的是要理解,这里使用的时间约束矩阵T是一个很天真的选择,所以SRMF可能不会是对于TM的最佳预测或异常检测技术。由于对此类应用有大量的方法(例如,见Zhang等2005b),无疑可以有更好、更慎重的选择。然而,有一个在这里可以要学到的道理:首先,本实施方案的正规化方法可以通过适当选择T而推广应用于任何线性预测/异常检测技术。在每一种情况下可取的是性能的提高。然而,这项工作更重要的方面来自于上述特性:(一)本文所述的方法的实施方案可以很自然地处理丢失的数据;(二)它可以灵活的包括其他数据源(例如,链路负载);(三)异常检测(和排除)是该算法的固有的一部分。这些功能可能对任何基于TM的算法都是可取的。
5.结论
本发明公开了一种普遍的方法和装置,用以准确重建以矩阵形式(即二维数组)或更普遍的张量形式(即多维数组)表示的数字化信息中的缺失值。此处描述的实施方案,具体方法包括三个主要部分:(一)SRMF的方法:用以获得与测量数据和数据的时空结构保持一致的低秩近似;(二)层析SRMF的方法:能强制满足测量的约束,并且保持对SRMF获得的低秩近似解保持接近;(三)一种结合全局和局部插值的方法。该方法的实施方案,为矩阵形式或张量形式的数据提供了一个统一的框架,能实现如层析、预测和异常检测等常见分析任务。
采用三个真实网络的TM数据,评价验证了本方法的实施例所描述的功能的有效性。被应用于TM估计(即层析)、TM预测和异常检测时,本发明公开所述的方法,在一系列数据缺失场景下的性能始终优于其他常用的方法。这些场景包括从单纯随机到高度结构化的数据丢失(如整行或整列发生丢失),从非常低的失踪率到失踪很高(如90%以上)的水平。本发明公开所述技术已成功用于有70多万元素的矩阵,该技术只需几秒钟就可以处理这些矩阵。实施例给出算法的复杂性随数据量的增加线性增长,所以能很容易地分析更大的数据集。
如上所述,也如任何熟悉该行技术的人所知,本发明实施例可作为一个系统、方法或装置。因此,本发明的实施例可能包括各种方式,包括完全的软件,完全的硬件,或任何软件和硬件的结合。此外,本发明的实施例的形式可以是一个计算机程序产品,存在于计算机可读的存储介质中,包含计算机可读的程序指令(例如,计算机软件)。可利用任何合适的计算机可读的存储介质,包括硬盘、光盘、光存储设备或磁性存储设备。
对于一个熟悉与上述发明的实施例相关技术的人,在上述说明和相关图纸的启发下,可以在脑海中想到许多对本发明的修改或者其他的实施例。因此,需要理解的是本发明的实施例并不局限于本公开中所述的具体实施例,修改和其他实施方案,都属于所附的本发明权利要求的范围内。此外,虽然上述说明和相关图纸在某些元素和/或功能的示范组合下描述了实施方案的示范实例,人们应该明白,不同的实施方案可以提出元素和/或功能的不同组合,但这并未脱离所附的本发明权利要求范围。在这点上讲,作为一个例子,所附的权利要求有可能包括上文没有明确说明的一些不同的元素和/或功能的不同组合。虽然这里用了很多具体的术语,它们的用法是一种通用和描述性的方式,并不限制本发明要求的权利。