CN110149228B - 一种基于离散化张量填充的top-k大象流预测方法及系统 - Google Patents

一种基于离散化张量填充的top-k大象流预测方法及系统 Download PDF

Info

Publication number
CN110149228B
CN110149228B CN201910418582.8A CN201910418582A CN110149228B CN 110149228 B CN110149228 B CN 110149228B CN 201910418582 A CN201910418582 A CN 201910418582A CN 110149228 B CN110149228 B CN 110149228B
Authority
CN
China
Prior art keywords
tensor
data
binary
factor
bit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910418582.8A
Other languages
English (en)
Other versions
CN110149228A (zh
Inventor
田家政
谢鲲
文吉刚
曾彬
周新峰
袁小坊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Cnsunet Information Technology Co ltd
Original Assignee
Hunan Cnsunet Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Cnsunet Information Technology Co ltd filed Critical Hunan Cnsunet Information Technology Co ltd
Priority to CN201910418582.8A priority Critical patent/CN110149228B/zh
Publication of CN110149228A publication Critical patent/CN110149228A/zh
Application granted granted Critical
Publication of CN110149228B publication Critical patent/CN110149228B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • H04L43/0888Throughput

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种基于离散化张量填充的top‑k大象流预测方法及系统,该方法包括:从已知流量数据中获取含有缺失流量数据的张量;将张量分解为三个离散的二值因子矩阵形成实值因子矩阵;用三个因子矩阵的构成元素分别为张量源节点、时间和目标节点三个维度方向的二值因子向量表示实值张量数据;用三个维度方向的二值因子向量的内积表示每个时刻缺失流量数据,通过基于位运算的高效数据预测方法计算汉明距离代替内积;基于二值码分割的top‑k预测加速方法计算汉明距离,并根据汉明距离确定对应的实值张量数据是否top‑k大象流;检索所有实值张量数据,并返回前k个最大的实值张量数据,获得top‑k大象流。解决现有技术中计算复杂问题,减少时间和降低空间复杂度。

Description

一种基于离散化张量填充的top-k大象流预测方法及系统
技术领域
本发明涉及数据交互技术领域,具体是一种基于离散化张量填充的top-k大象流预测方法及系统。
背景技术
大象流在网络流量中占据非常重要的位置,对网络状况分析尤为重要。对前k个最大流预测,也称为top-k大象流预测,是一个基本的网络管理功能。很多管理应用能够从top-k大象流的有效标识中获益,包括通过拥塞控制来动态调度大象流、网络容量规划、异常检测和转发表条目的缓存等。
目前国内外有许多top-k大象流预测的研究,大致可以分为两类:
第一,一些文献研究试图使用少量的内存来测量每个数据流的基数,比如统计包的个数或字节数。以基于概要数据结构的算法为例,它依赖于概要数据结构(例如CM概要数据结构[5])来测量网络流的大小,同时使用最小堆来跟踪top-k网络流。对于每个传入的数据包,它在概要数据结构中记录并更新此包所属流fi的大小ni。如果ni大于最下堆中的流大小,而fi不在堆中,则用流fi替换堆中的最小流。如果fi在最小堆中,它将使用ni更新fi的流大小。
第二,还有一些研究尝试利用部分获得的网络流数据,首先恢复丢失的数据,然后在对恢复的数据并进行排序后,最后返回前k个最大的流。例如:基于一维属性信息(纯空间或纯时间属性)的数据恢复算法[1]-[3]、基于二维属性信息(时空属性)的矩阵填充算法[4]-[6]、基于三维或更多维属性信息的张量填充算法[7]、[8]尝试将流量数据建模为一个三维张量,然后通过张量填充算法填充缺失数据。
[1]A.Lakhina,K.Papagiannaki,M.Crovella,C.Diot,E.D.Kolaczyk,andN.Taft,“Structural analysis of network traffific flflows,”in ACM SIGMETRICS,2003.
[2]Y.Vardi,“Network tomography,”J.Amer.Statist.Assoc.,vol.vol.91,no.433,,p.pp.365377,1996.
[3]P.Barford,J.Kline,D.Plonka,and A.Ron,“A signal analysis of networktraffific anomalies,”ACM IMW,2002.
[4]M.Roughan,Y.Zhang,W.Willinger,and L.Qiu,“Spatio-temporalcompressive sensing and internet traffific matrices(extended version),”
Networking IEEE/ACM Transactions on,vol.20,no.3,pp.662–676,2012.
[5]G.Gursun and M.Crovella,“On traffific matrix completion in theinternet,”in ACM IMC 2012.
[6]Y.-C.Chen,L.Qiu,Y.Zhang,G.Xue,and Z.Hu,“Robust network compressivesensing,”in ACM MobiCom,2014.
[7]K.Xie,L.Wang,X.Wang,G.Xie,J.Wen,and G.Zhang,“Accurate recovery ofinternet traffific data:A tensor completion approach,”in IEEE INFOCOM,2016.
[8]K.Xie,C.Peng,X.Wang,G.Xie,and J.Wen,“Accurate recovery of internettraffific data under dynamic measurements,”in IEEE INFOCOM,2017.
现有的大象流预测技术,在真实网络环境中无法达到精确、高效的要求,比如在实际网络环境中,由于网络监控和通信成本高,基于概要数据结构技术从大量网络节点收集完整的流量信息是不现实的。此外,测量数据在极端的网络条件下可能丢失,包括网络拥塞、节点行为不当、监控故障、通过不可靠的传输协议传输测量信息等。而现有的通过恢复部分网络流数据,进而预测大象流的算法也都存在一些问题。比如基于纯空间或纯时间信息的数据恢复方法性能往往较低;同时利用时空信息的基于矩阵填充的算法恢复缺失的流量数据时,数据缺失率较低时性能较好,但数据缺失率较大时性能较差;基于三维或更多维属性信息的张量填充算法够对缺失的测量数据进行更准确的填充,可以利用部分测量数据找到top-k大象流。但当流量监测张量较大时,算法过于耗时成为阻碍高效查找top-k大象流的一大瓶颈。
发明内容
本发明提供一种基于离散化张量填充的top-k大象流预测方法及系统,用于克服现有技术中由于空间复杂度较高导致耗时过长等缺陷,实现极大减少时间和降低空间复杂度。
为实现上述目的,本发明提供一种基于离散化张量填充的top-k大象流预测方法,包括以下步骤:
从已知流量数据中获取含有缺失流量数据的张量;
将所述张量分解为三个离散的二值因子矩阵形成实值因子矩阵;其中三个因子矩阵的构成元素分别为所述张量源节点、时间和目标节点三个维度方向的二值因子向量;用所有所述二值因子向量表示实值张量数据,所述实值张量数据包括所述已知流量数据和缺失流量数据;
用三个维度方向的二值因子向量的内积表示每个时刻缺失流量数据,通过基于位运算的高效数据预测方法计算汉明距离以代替内积;
基于二值码分割的top-k预测加速方法计算汉明距离,并根据汉明距离判断两二值因子向量是否相似以确定所述二值因子向量对应的实值张量数据是否是top-k大象流;
检索所有实值张量数据,并返回前k个最大的实值张量数据,获得top-k大象流。
为实现上述目的,本发明还提供一种基于离散化张量填充的top-k大象流预测系统,包括存储器和处理器,所述存储器存储有大象流预测程序,在所述处理器运行所述大象流预测程序时执行所述权利要求1~8任一项所述基于离散化张量填充的top-k大象流预测方法的步骤。
本发明提供的基于离散化张量填充的top-k大象流预测方法及系统,通过对张量进行多维度离散分解,用二值因子矩阵表达实值因子矩阵,能够充分利用多维信息提高精度的同时,利用运算的特点提高效率,同时降低空间复杂度。与上述的其他发明相比,首先是在面向复杂的网络环境时,大象流的预测精度获得提升;其次,能够通过位运算的特性,有效提升时间效率;最后,离散化的编码转成二进制存储,可以极大降低空间复杂度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明实施例提供的大象流预测方法中基于离散化张量分解的top-k大象流预测机制;
图2为图1中离散化张量分解示意图;
图3为图2中张量分解和张量按模式展开之间的关系;
图4为实施例提供的大象流预测方法中二值码分割示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“连接”、“固定”等应做广义理解,例如,“固定”可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接,还可以是物理连接或无线通信连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
另外,本发明各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
实施例一
如附图1-4所示,本发明实施例提供一种基于离散化张量填充的top-k大象流预测方法,包括以下步骤:
步骤S1,从已知流量数据中获取含有缺失流量数据的张量;
参见图1,在复杂的网络环境中,通常只能获得极其稀疏的部分流量数据。当获得这些部分数据时,首先通过离散化张量填充算法,将含有大量缺失数据的张量分解为三个二值因子矩阵,缺失数据获取对象是部分网络流量数据,来源于网络节点。然后通过基于位运算的高效数据预测算法,对数据进行恢复,达到填充张量的目的。最后再基于二值码分割的top-k预测的加速方法,检索所有元素,并返回前k个最大的元素,即为top-k大象流。
步骤S2,继续参见图1,将所述张量分解为三个离散的二值因子矩阵A、B、C形成实值因子矩阵;其中三个因子矩阵的构成元素分别为所述张量源节点维度方向的二值因子行向量ai、列向量a(i),时间维度方向的二值因子行向量bj、列向量b(j)和目标节点维度方向的二值因子行向量ck、列向量c(k);用所有所述二值因子向量表示实值张量数据,所述实值张量数据包括所述已知流量数据和缺失流量数据;
步骤S3,用三个维度方向的二值因子向量的内积表示每个时刻缺失流量数据,通过基于位运算的高效数据预测方法(该方法为已知算法,具体参见K.Zhou andH.Zha.Learning binary codes for collaborative filtering.In KDD,2012.)计算汉明距离以代替内积;
步骤S4,基于二值码分割的top-k预测加速方法计算汉明距离,并根据汉明距离判断两二值因子向量是否相似以确定所述二值因子向量对应的实值张量数据是否是top-k大象流;
步骤S5,检索所有实值张量数据,并返回前k个最大的实值张量数据,获得top-k大象流。
本发明在充分利用多线性结构的基础上,利用张量填充算法首先对缺失数据进行预测,然后求出top-k大象流。为了减少计算量,本发明提出了一种新的离散张量填充方法,该方法采用二值码(0或1)表示因子矩阵,因子矩阵的值为-1或1。在此基础上,我们进一步提出了三种新的加速top-k流推理的新技术:训练二值因子矩阵的离散化求解算法,基于比特位运算的低成本、高效率的缺失数据填充方法,快速top-k大象流预测的二值编码分割方法。在离散化张量填充算法中,只需要一个位来表示因子矩阵中的项,而传统张量补全模型中需要一个实值(32位),因此存储成本大大降低。
参见图1、图2,步骤S2中所述将所述张量分解为三个二值因子矩阵的步骤,包括:
步骤S21,根据秩为R的张量的部分已知流量数据及恢复数据构建以下目标函数:
Figure GDA0003240064650000061
其中A,B,C为张量分解后得到的三个二值因子矩阵,值为1或-1;ai,bj,ck分别为因子矩阵A,B,C的行向量,a(i),b(j),c(k)分别为因子矩阵A,B,C的列向量;xijk为张量的第i个源节点到第j个目标节点在第k个时刻的流量数据,在i,j,k∈Ω时表示获取的已知流量数据;在
Figure GDA0003240064650000062
时,表示待填充流量数据;
通过求解上述目标函数,我们将实值张量数据表示为源、目标和时刻的二值因子向量,进而可以用简单的位操作加快公式(8)中缺失的数据恢复过程。这将反过来帮助加快查找top-k大象流。I*J*K表示张量的大小,I个源,J个目标,K个时刻。这种分解方式可以将连续的实值张量分解成为二值的因子矩阵,进而利用快速的汉明距离计算代替内积的计算,实现加速效果。
步骤S22,通过迭代求解上述目标函数获得实值张量数据,以实现对缺失流量数据的填充。具体包括:
步骤S22a,分别固定其中两个二值因子矩阵,对另外一个二值因子矩阵中每个二值因子向量进行逐位更新;
固定B和C,根据对式(1)展开的式(2)更新A:
Figure GDA0003240064650000071
式(2)中的目标函数对ai求和,逐位更新每个ai来更新A:
Figure GDA0003240064650000072
每次位数迭代更新过程中均固定除更新位数之外的余位,只更新该位数;
aih表示ai的第h位,
Figure GDA0003240064650000073
表示除aih外的其余位;bjh表示bj的第h位,
Figure GDA0003240064650000074
表示除bjh外的其余位;ckh表示ck的第h位,
Figure GDA0003240064650000075
表示除ckh外的其余位;每一次迭代,固定
Figure GDA0003240064650000076
只更新aih
Figure GDA0003240064650000077
表示中间变量;
令:
Figure GDA0003240064650000078
式(3)重写为:
Figure GDA0003240064650000079
令:
Figure GDA00032400646500000710
式(4)可以重写为:
Figure GDA00032400646500000711
其中:
Figure GDA00032400646500000712
aih的更新规则如下:
Figure GDA00032400646500000713
其中:
sgn(m),当m>0时,sgn(m)=1;当m<0时,sgn(m)=-1;
Figure GDA0003240064650000081
步骤S22b,重复上述步骤S22a,交替获得三个二值因子矩阵的所有二值因子向量。求解的结果是分解后的三个二值因子矩阵,根据求解的结果获得实值张量数据,然后根据实值张量数据获得缺失数据,并在缺失数据的位置上进行填充,填充的元素不是二值,是一个在[-R,R]之间的一个整数。
步骤S3具体包括:
参见图3,首先我们研究了张量CP分解与张量按模式展开之间的关系,然后提出了一种基于简单位操作快速预测top-k大象流的算法,将因子矩阵的内积计算转化成更有效率的汉明距离计算。
所述用两个二值因子向量的内积表示每个时刻缺失流量数据,通过基于位运算的高效数据预测方法计算汉明距离以代替内积的步骤包括:
通过计算因子矩阵的行向量之间的外积来表示张量:
χ=∑R r=1(ar·br·cr),
通过将张量按照一个方向展开,张量的第k个面表示为:
X::k=AΣkBT
对于元素xijk=ai·bj·ck转换成xijk=dibj
di和bj是binary(二值,元素为1或-1)向量,因此dibj的顺序和sim(di,bj)一致;
将矩阵C的第k个行向量ck对角成矩阵∑k,令矩阵D=A∑k,则X::k=DBT
将dibj表示为di和bj之间的汉明距离;即比较两者对应元素不相等的个数:dit和bjt
di和bj之间的汉明相似度(可理解为汉明距离)表示为:
Figure GDA0003240064650000082
其中II(·)为指示函数,若为真则返回1,若为假,则返回0;
式(6)表示当di和bj为二值因子向量时,di·bj和sim(i,j)等价;二值因子向量di和bj之间的汉明距离是不同的比特数,通过位的异或操作(是公知技术,具体参见1.K.Zhouand H.Zha.Learning binary codes for collaborative filtering.In KDD,2012;2.Z.Zhang,Q.Wang,L.Ruan,and L.Si.Preference preserving hashing foreffiffifficient recommendation.In SIGIR,2014.)计算;di表示矩阵D的第i个行向量,dit表示di的第t个元素;
D∈{±1}I×R,B∈{±1}J×R;di为D的行向量,有I个;bj为B的行向量,有J个。
传统的算法是离散张量分解得到3个二值因子矩阵,然后3个因子矩阵相乘得到恢复后的完整张量。但是这种恢复方式过于耗时。本方案利用汉明距离进行快速重构,此方法只能计算两个向量之间的距离,不能处理三个。因此,我们根据张量CP分解与张量按照模式展开之间的关系,将三个因子矩阵(ABC)转换成两个因子矩阵(BD),进而利用更高效的汉明距离。
步骤S4包括:
参见图4,将长度为R的二值因子向量按照计算能力处理的单位长度分割为多段子向量;
依次计算并累加每段子向量之间的汉明距离;
在累加的汉明距离大于阈值时,算法终止并比较;在两者之间的汉明距离不超过阈值时,认定两二值因子向量对应的元素相似,确定所述二值因子向量对应的实值张量数据是否是top-k大象流。采用本方案能提前达到停止条件,从而加速计算过程。
为了预测top-k大象流,首先需要计算所有di和bj的汉明距离,共有I×J项。然后对这I×J项进行排序,返回top-k最大的项。对于较大的I和J,计算成本仍然很高。因此,我们将长度为R的二值因子向量分割成p份,每一份的长度刚好是CPU处理的单位长度。在计算汉明距离时,对1到p段,依次计算并累加每段汉明距离,当累加的汉明距离大于某个阈值时,我们认为该元素不可能是满足要求的大象流,算法停止。
这种基于分割的计算方法不仅有助于加快缺失数据预测的阶段,而且缩短了对top-k大象流检索阶段的时间。图4显示了一个示例,设置ε=2。把二值因子向量分成四部分。比较前两个部分之后,发现汉明距离达到3,大于阈值ε=2。因此,这两个二值因子向量不相似,对应的元素不应该被认为是候选的top-k大象流。
本方案提出了:
离散化张量填充方法:为了推断缺失的测量数据,提出了一种新的离散化张量填充方法,用相同大小的二值因子矩阵代替传统张量填充方法中的实值因子矩阵。与传统的张量填充方法相比,使用实值因子矩阵的一个元素需要32位实数表示,而在二值因子矩阵中一个元素仅需要一个比特位表示,这极大减小了空间复杂度。二值因子矩阵元素为-1和1,将所有的-1变为0,最后作为比特位存储的是0和1。
离散化求解方法:对于离散化张量填充,为了获得张量的二值因子矩阵,需要解决一个离散状态下的因子矩阵求解问题。由于离约束通常是非确定性多项式问题。针对这一问题,提出了一种混合整数(离散化张量分解的求解算法,包含3个子问题)规划子问题迭代求解的离散求解算法,并通过理论分析和实验证明了算法的收敛性。
基于位运算的高效数据预测方法:基于张量分解和张量按模式展开之间的关系(参见前面D=A∑k,X::k=DB部分)分析,我们将每个时刻上缺失数据的恢复问题转换成两个二值因子向量的内积,进一步转化为更高效的异或位运算来计算两个向量的汉明距离。
基于二值码分割的top-k预测的加速方法:为了降低缺失数据恢复的计算代价以及top-k大象流的搜索空间,进一步将二值因子向量分割为一组子向量。每组的长度刚好是CPU读取单位长度。如果两个二值因子向量不相似,我们可以很快确定对应的元素肯定不是top-k流。通过划分,我们只需要比较因子矩阵中少量的子向量,而不需要对整个二值因子向量作比较。
具有以下技术效果:能够根据极度稀疏的部分数据,精确的预测top-k大象流。在处理大规模网络数据时,效率更高。在处理大规模网络数据时,占用的空间远远少于现有技术。
实施例二
在上述实施例一的基础上,本发明实施例提供一种基于离散化张量填充的top-k大象流预测系统,包括存储器和处理器,所述存储器存储有大象流预测程序,在所述处理器运行所述大象流预测程序时执行上述基于离散化张量填充的top-k大象流预测方法的步骤。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims (8)

1.一种基于离散化张量填充的top-k大象流预测方法,其特征在于,包括以下步骤:
从已知流量数据中获取含有缺失流量数据的张量;
将所述张量分解为三个离散的二值因子矩阵形成实值因子矩阵;其中三个因子矩阵的构成元素分别为张量源节点、时间和目标节点三个维度方向的二值因子向量;用所有所述二值因子向量表示实值张量数据,所述实值张量数据包括所述已知流量数据和缺失流量数据;
用三个维度方向的二值因子向量的内积表示每个时刻缺失流量数据,通过基于位运算的高效数据预测方法计算汉明距离以代替内积;
基于二值码分割的top-k预测加速方法及所述汉明距离,判断两二值因子向量是否相似以确定所述二值因子向量对应的实值张量数据是否是top-k大象流;
检索所有实值张量数据,并返回前k个最大的实值张量数据,获得top-k大象流;
所述用三个维度方向的二值因子向量的内积表示每个时刻缺失流量数据,通过基于位运算的高效数据预测方法计算汉明距离以代替内积的步骤包括:
通过计算因子矩阵的行向量之间的外积来表示张量:
Figure FDA0003240064640000011
通过将张量按照一个方向展开,张量的第k个面表示为:
Xk=AΣkBT
对于元素xijk=ai·bj·ck转换成xijk=dibj
di和bj是二值因子向量,因此dibj的顺序和sim(di,bj)一致;
将矩阵C的第k个行向量ck对角成矩阵∑k,令矩阵D=A∑k,则Xk=DBT
将dibj表示为di和bj之间的汉明距离;即比较两者对应元素不相等的个数:dit和bjt
di和bj之间的汉明距离表示为:
Figure FDA0003240064640000021
其中II(·)为指示函数,若为真则返回1,若为假,则返回0;
式(6)表示当di和bj为二值因子向量时,di·bj和sim(i,j)等价;二值因子向量di和bj之间的汉明距离是不同的比特数,通过位的异或操作计算;di表示矩阵D的第i个行向量,dit表示di的第t个元素;
D∈{±1}I×R,B∈{±1}J×R
其中,R为二值因子向量的长度,A,B,C为张量分解后得到的三个二值因子矩阵,xijk为张量的第i个源节点到第j个目标节点在第k个时刻的流量数据,ai,bj,ck分别为因子矩阵A,B,C的行向量。
2.如权利要求1所述的基于离散化张量填充的top-k大象流预测方法,其特征在于,所述将所述张量分解为三个二值因子矩阵的步骤,包括:
根据秩为R的张量的部分已知流量数据及恢复数据构建以下目标函数:
Figure FDA0003240064640000022
其中A,B,C为张量分解后得到的三个二值因子矩阵,值为1或-1;ai,bj,ck分别为因子矩阵A,B,C的行向量,a(i),b(j),c(k)分别为因子矩阵A,B,C的列向量;xijk为张量的第i个源节点到第j个目标节点在第k个时刻的流量数据,在i,j,k∈Ω时表示获取的已知流量数据;在
Figure FDA0003240064640000023
时,表示待填充流量数据;I*J*K表示张量的大小,其中包括I个源节点,J个目标节点,K个时刻;
通过迭代求解上述目标函数获得实值张量数据,以实现对缺失流量数据的填充。
3.如权利要求2所述的基于离散化张量填充的top-k大象流预测方法,其特征在于,所述通过迭代求解上述目标函数获得实值张量数据的步骤包括:
分别固定其中两个二值因子矩阵,对另外一个二值因子矩阵中每个二值因子向量进行逐位更新;
重复上述步骤,交替获得三个二值因子矩阵的所有二值因子向量。
4.如权利要求3所述的基于离散化张量填充的top-k大象流预测方法,其特征在于,所述分别固定其中两个二值因子矩阵,对另外一个二值因子矩阵中每个二值因子向量进行逐位更新的步骤包括:
固定B和C,根据对式(1)展开的式(2)更新A:
Figure FDA0003240064640000031
式(2)中的目标函数对ai求和,逐位更新每个ai来更新A:
Figure FDA0003240064640000032
5.如权利要求3所述的基于离散化张量填充的top-k大象流预测方法,其特征在于,所述对另外一个二值因子矩阵中每个二值因子向量进行逐位更新的步骤包括:
每次位数迭代更新过程中均固定除更新位数之外的余位,只更新该位数。
6.如权利要求5所述的基于离散化张量填充的top-k大象流预测方法,其特征在于,所述每次位数迭代更新过程中均固定除更新位数之外的余位,只更新该位数的步骤包括:
aih表示ai的第h位,
Figure FDA0003240064640000033
表示除aih外的其余位;bjh表示bj的第h位,
Figure FDA0003240064640000034
表示除bjh外的其余位;ckh表示ck的第h位,
Figure FDA0003240064640000035
表示除ckh外的其余位;每一次迭代,固定
Figure FDA0003240064640000036
只更新aih
Figure FDA0003240064640000037
表示中间变量;
令:
Figure FDA0003240064640000038
式(3)重写为:
Figure FDA0003240064640000041
令:
Figure FDA0003240064640000042
式(4)可以重写为:
Figure FDA0003240064640000043
其中:
Figure FDA0003240064640000044
aih的更新规则如下:
Figure FDA0003240064640000045
其中:
sgn(m),当m>0时,sgn(m)=1;当m<0时,sgn(m)=-1
Figure FDA0003240064640000046
7.如权利要求2所述的基于离散化张量填充的top-k大象流预测方法,其特征在于,所述基于二值码分割的top-k预测加速方法及所述汉明距离,判断两二值因子向量是否相似以确定所述二值因子向量对应的实值张量数据是否是top-k大象流的步骤包括:
将长度为R的二值因子向量按照计算能力处理的单位长度分割为多段子向量;
依次计算并累加每段子向量之间的汉明距离;
在累加的汉明距离大于阈值时,算法终止并比较;在两者之间的汉明距离不超过阈值时,认定两二值因子向量对应的元素相似,确定所述二值因子向量对应的实值张量数据是否是top-k大象流。
8.一种基于离散化张量填充的top-k大象流预测系统,其特征在于,包括存储器和处理器,所述存储器存储有大象流预测程序,在所述处理器运行所述大象流预测程序时执行所述权利要求1~7任一项所述基于离散化张量填充的top-k大象流预测方法的步骤。
CN201910418582.8A 2019-05-20 2019-05-20 一种基于离散化张量填充的top-k大象流预测方法及系统 Active CN110149228B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910418582.8A CN110149228B (zh) 2019-05-20 2019-05-20 一种基于离散化张量填充的top-k大象流预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910418582.8A CN110149228B (zh) 2019-05-20 2019-05-20 一种基于离散化张量填充的top-k大象流预测方法及系统

Publications (2)

Publication Number Publication Date
CN110149228A CN110149228A (zh) 2019-08-20
CN110149228B true CN110149228B (zh) 2021-11-23

Family

ID=67592129

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910418582.8A Active CN110149228B (zh) 2019-05-20 2019-05-20 一种基于离散化张量填充的top-k大象流预测方法及系统

Country Status (1)

Country Link
CN (1) CN110149228B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110941793B (zh) * 2019-11-21 2023-10-27 湖南大学 一种网络流量数据填充方法、装置、设备及存储介质
CN112201035A (zh) * 2020-09-24 2021-01-08 同济大学 一种轨迹数据驱动的信控交叉口周期流量估计方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241491A (zh) * 2018-07-28 2019-01-18 天津大学 基于联合低秩和稀疏表示的张量结构性缺失填充方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180301223A1 (en) * 2015-04-14 2018-10-18 University Of Utah Research Foundation Advanced Tensor Decompositions For Computational Assessment And Prediction From Data
CN108256077B (zh) * 2018-01-18 2022-02-08 重庆邮电大学 一种面向中国移动智能客服的动态扩展知识图推理方法
CN109377760A (zh) * 2018-11-29 2019-02-22 北京航空航天大学 基于迭代张量算法的丢失交通数据检测和修复方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241491A (zh) * 2018-07-28 2019-01-18 天津大学 基于联合低秩和稀疏表示的张量结构性缺失填充方法

Also Published As

Publication number Publication date
CN110149228A (zh) 2019-08-20

Similar Documents

Publication Publication Date Title
CN111694879B (zh) 一种多元时间序列异常模式预测方法及数据采集监控装置
CN102915347B (zh) 一种分布式数据流聚类方法及系统
CN107070867B (zh) 基于多层局部敏感哈希表的网络流量异常快速检测方法
CN110149228B (zh) 一种基于离散化张量填充的top-k大象流预测方法及系统
CN108986872B (zh) 用于大数据电子病历约简的多粒度属性权重Spark方法
US20090222472A1 (en) Method and Apparatus for Aggregation in Uncertain Data
Xie et al. Efficiently inferring top-k elephant flows based on discrete tensor completion
CN114639483A (zh) 一种基于图神经网络的电子病历检索方法及装置
Wang et al. Neural subgraph counting with wasserstein estimator
Shi et al. Temporal dynamic matrix factorization for missing data prediction in large scale coevolving time series
Yu et al. Motifs in big networks: Methods and applications
Zhu et al. Fast PageRank computation based on network decomposition and DAG structure
CN109947597B (zh) 一种网络流量数据恢复方法及系统
CN112396166A (zh) 基于混合粒度聚合器的图卷积神经网络训练方法及装置
CN109299725B (zh) 一种张量链并行实现高阶主特征值分解的预测系统和装置
CN116483624A (zh) 监测数据恢复模型训练方法、恢复方法、设备及存储介质
Li et al. A single-scan algorithm for mining sequential patterns from data streams
Chen et al. Heterogeneous multiview crowdsensing based on half quadratic optimization for the visual internet of things
CN115168326A (zh) Hadoop大数据平台分布式能源数据清洗方法及系统
Tu et al. M-estimation in low-rank matrix factorization: a general framework
CN108898227A (zh) 学习率计算方法及装置、分类模型计算方法及装置
Gao et al. Dynamic community detection using nonnegative matrix factorization
Tian et al. Efficiently inferring top-k largest monitoring data entries based on discrete tensor completion
Ashby et al. Geometric learning of the conformational dynamics of molecules using dynamic graph neural networks
WO2020223850A1 (en) System and method for quantum circuit simulation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 410000 Building D, E 406-407, No. 368, South Xiaoxiang Road, Yanghu Street, Yuelu District, Changsha City, Hunan Province

Applicant after: Hunan tomomichi Information Technology Co. Ltd.

Address before: 410000 Pofu Commercial Plaza 21025, 416 Furong Road Section, Kaifu District, Changsha City, Hunan Province

Applicant before: Hunan tomomichi Information Technology Co. Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant