CN114826278B

CN114826278B - 基于布尔矩阵分解的图数据压缩方法

Info

Publication number: CN114826278B
Application number: CN202210438892.8A
Authority: CN
Inventors: 翟学萌; 潘梦阳; 李烁; 胡光岷
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-04-25
Filing date: 2022-04-25
Publication date: 2023-04-28
Anticipated expiration: 2042-04-25
Also published as: CN114826278A

Abstract

本发明公开了一种基于布尔矩阵分解的图数据压缩方法，具体包括：对原始图数据进行拆分，使用自我中心网络表示，并进行重排序；使用邻接矩阵对排序后的自我中心网络集合进行表示，生成采样矩阵；将采样矩阵分解成字典矩阵与稀疏码矩阵的乘积；布尔原子挖掘；原子进行线性组合，得到采样恢复矩阵，然后根据采样阶段获得的采样节点集合，将各个节点之间的连边关系按照采样恢复矩阵进行恢复，得到恢复的图数据。本发明的方法通过使用布尔矩阵分解的方式，对矩阵分解得到的字典矩阵与稀疏码矩阵进行约束，使得字典矩阵和稀疏码矩阵都是布尔型矩阵，可以降低图数据表征的误差率，同时提高表征得到的原子的准确率，实现对图数据的压缩。

Description

基于布尔矩阵分解的图数据压缩方法

技术领域

本发明属于互联网技术领域，具体涉及一种图数据压缩方法。

背景技术

近年来，随着互联网的发展，数据量也在爆炸式增长，通过社交媒体中产生的信息构建网络图，进行分析，对科学研究提供了强有力的支撑，例如蛋白质网络分析蛋白质特性，用户商品网络用于商品推荐，社交网络图用于用户好友推荐等。而由于内存的限制，图规模的不断扩大，如今许多图已无法完整放入内存，这对其存储与分析都带来了巨大的挑战。大规模图数据还存在结构复杂的问题，其耦合度高，导致在进行一些信息查询操作时时间开销极大，且缓存命中率不高，这不利于图数据的管理。

增加存储空间与减小存储需求可以应对以上问题。例如外存模式图处理系统和分布式内存图处理系统，通过增加存储空间来解决问题，但是这只是治标不治本，昂贵的硬件成本以及时间开销并没有被较低，在此种情况下，对减小存储空间需求方法的呼声越来越高。

图压缩是为了应对图规模增长对图存储与图分析的带来挑战的技术。通过对图数据进行压缩，可以有效的将降低其规模，去除其中冗余信息，将其中稀疏的有效信息抓取出来，从而使其便于存储。当前的图压缩算法多种多样，它们主要关注两个性能指标：压缩率和运行性能。采用复杂编码的技术可以获得优异的压缩率，但其运行效率较低；而编码简单的可以拥有极低的时间复杂度，但其压缩率却不高。显然，二者不可兼得，图压缩就是在这两个目标之间进行平衡。

图压缩算法一般包括两个阶段：节点排序和编码。“Boldi P,Vigna S.Thewebgraph framework I:compression techniques[C]//Proceedings of the 13thinternational conference on World Wide Web.2004:595-602”开发了一个通用的网页图压缩框架WebGraph，它们利用网页在字典序排序下的局部性与相似性，提出了BV编码，该编码结合了多种编码方法，例如间隙码、差分编码、引用编码等。其中间隙码利用了局部性，将节点的邻居编码为邻居间的间隙，而引用编码则利用了相似性，将重复出现过的邻居序列通过引用表示，从而减少需要存储的邻居数。

文献“Chierichetti F,Kumar R,Lattanzi S,et al.On compressing socialnetworks[C]//Proceedings of the 15th ACM SIGKDD international conference onKnowledge discovery and data mining.2009:219-228”将局部性、相似性带到了社交网络中，将捕获两个特性的问题转换成了最小对数间隙排列的自然组合优化问题，并提出了Shingle节点排序算法，通过每个节点的一阶邻居结构生成该节点的表示，将这些表示进行排序，默认具有相似表示的节点们具有相似的一阶邻居结构，从而捕捉相似性与局部性。同时，将社交网络中用户之间相互关注的极大可能考虑进来，从而进一步减少存储空间，提高压缩率。

文献“Dhulipala L,Kabiljo I,Karrer B,et al.Compressing graphs andindexes with recursive graph bisection[C]//Proceedings of the 22nd ACM SIGKDDInternational Conference on Knowledge Discovery and Data Mining.2016:1535-1544”扩展了Chierichetti等人提出的MLOGGAPA，提出了基于递归二分法的BP节点排序算法，对图和倒排索引的压缩提出了统一的压缩模型。

文献“Besta M,Stanojevic D,Zivic T,et al.Log(graph)a near-optimalhigh-performance graph representation[C]//Proceedings of the 27thinternational conference on parallel architectures and compilationtechniques.2018:1-13”提出的图压缩算法编码方式相对简单，整体的运行效率较高，将图进行对数化编码，从而加速图算法的运行，将间隙码的固定大小特性融入进来，从而提高压缩率。

可以看出，现有的图数据压缩方法都是在编码方向努力，希望借助编码将图数据中的冗余信息剔除，从而达到压缩的目的，它们都没有考虑到图的组成以及图数据的基本结构。

基于网络稀疏表征的图数据压缩能够对同质图进行压缩。其将图结构数据进行分解，得到图结构的基本结构原子以及原子如何构建原始图结构数据的组合方式，对图结构数据实现表征以及存储压缩。在网络稀疏表征中，使用到了自我中心网络这样的概念，当不再关注图结构数据的整体，而是侧重于研究单个节点的性质时，就会用到自我中心网络，网络节点由唯一的一个中心节点，以及这个节点的邻居组成，边只包括中心节点与邻居之间，以及邻居与邻居之间的边。自我中心网络能够表示一个节点的结构信息，从而同时，网络稀疏表征技术使用K-SVD来进行矩阵分解，将采样矩阵进行浮点数矩阵分解，从而生成字典矩阵与稀疏码矩阵。

网络稀疏表征的主要问题在于K-SVD这种浮点数矩阵分解。输入的采样矩阵是布尔矩阵，而输出的字典矩阵和稀疏码矩阵都是正负未定的浮点数。首先，对于浮点数，很难去判断其物理意义，例如对于字典矩阵中的0.5，判断其是否有连边都不合适；其次，对于矩阵中出现的负数，例如-1.5，其本不应该存在，只是为了拟合矩阵的误差而被迫出现，实际上我们并不希望见到它。网络稀疏表征会通过字典矩阵来生成原子，负数以及浮点数都无法正确的判断其在真实图结构数据中是否存在。由于上述问题，导致网络稀疏表征并不能准确的进行表征。

发明内容

为解决现有技术存在的上述问题，本发明提出了一种基于布尔矩阵分解的图数据压缩方法。

本发明的具体技术方案为：一种基于布尔矩阵分解的图数据压缩方法，包括如下步骤：

步骤S1.对原始图结构数据进行采样,具体的，对原始图结构数据进行拆分，使用自我中心网络表示，并进行重排序；

步骤S2.矩阵表示，使用邻接矩阵对排序后的自我中心网络集合进行表示，生成采样矩阵；

步骤S3.布尔矩阵分解，将采样矩阵分解成字典矩阵与稀疏码矩阵的乘积；

步骤S4.布尔原子挖掘，对布尔矩阵分解得到的字典矩阵进行处理，将矩阵拆分成多个列向量，对每个列向量，将其还原成邻接矩阵，将所述邻接矩阵分别恢复成图结构数据，同时去除其中同构图，最终得到的就是原子；

步骤S5.在稀疏码矩阵的指导下，对原子进行线性组合，即可得到采样恢复矩阵，然后根据采样阶段获得的采样节点集合，将各个节点之间的连边关系按照采样恢复矩阵进行恢复，即可得到恢复的图结构数据。

本发明的有益效果：本发明的方法通过使用布尔矩阵分解的方式，对矩阵分解得到的字典矩阵与稀疏码矩阵进行约束，使得字典矩阵和稀疏码矩阵都是布尔型矩阵，可以降低图结构数据表征的误差率，同时提高表征得到的原子的准确率，实现对图数据的压缩。

附图说明

图1为本发明实施例的基于布尔矩阵分解的图数据压缩方法的流程示意图。

具体实施方式

下面结合附图对本发明的实施例做进一步的说明。

针对网络稀疏表征技术存在的问题，本发明提出布尔矩阵的矩阵分解方法，在此基础上，进行图数据压缩，从而给生成的字典矩阵与稀疏码矩阵加上布尔的约束，从而解决上述问题；同时通过降低布尔矩阵分解本身存在的大误差，使得本发明的最终表征效果优于基于网络稀疏表征的图数据压缩方法。具体流程如图1所示，包括如下步骤：

步骤S5.在稀疏码矩阵的指导下，对原子进行线性组合，即可得到采样恢复矩阵，然后根据采样阶段获得的采样节点集合，将各个节点之间的连边关系按照采样恢复矩阵进行恢复，最终即可得到恢复的图结构数据。

在步骤S1中，首先对原始图结构数据进行采样。本阶段主要目的是将原始图结构数据分解成自我中心网络集合。由于原始图结构数据规模太大，无法进行处理，从而将图结构数据拆分成多个自我中心网络，分别进行处理。具体分步骤如下：

步骤S11.设定采样得到的自我中心网络节点规模大小s；

步骤S12.访问某个节点i，创建当前节点i的自我中心网络g_i；

步骤S13.将节点i加入自我中心网络g_i的节点集合，同时将节点i的一阶邻居加入集合；若当前图结构节点数未超过s，则继续添加节点i的二阶邻居；若此时节点数未超过s，则补充虚拟节点到集合；若超过，则剔除多余节点；

步骤S14.对节点集合中的节点进行排序，排序规则为：一阶邻居、二阶邻居均按照自我中心网络g_i中的度从大到小排序；

步骤S15.将节点集合中所有存在的连边加入自我中心网络g_i；

步骤S16.遍历图结构数据中的每个节点，重复步骤S12-S15，得到若干自我中心网络。

通过步骤S1将原始图结构数据分解成N个小的自我中心网络的集合，从而实现了将图结构数据拆分的目的。

步骤S2的目的为将步骤S1得到的自我中心网络集合进行矩阵表示，从而为下一步布尔矩阵分解提供输入。

对于一个图结构数据，有多种表示的形式。链表是一种较好的表示及存储范式,以链表的方式来存储多条路径，可以将图结构数据的规模压缩的很低；邻接矩阵也是一种表示方式，它以图结构数据中n个节点来构建n*n的矩阵A，其中，A_ij代表节点i与节点j具有连边，从而表示整个图结构数据的节点以及连边情况。

步骤S2采用邻接矩阵来表示自我中心网络，因为矩阵表示方式更适合数学运算，虽然它的存储效率比较低。具体分步骤如下：

步骤S21.构建s*s的矩阵，将自我中心网络的连边情况填入，从而得到多个邻接矩阵。由于步骤S1得到的所有自我中心网络的节点编号范围都是[0，s-1]，所以本步骤不需要担心节点序号问题。

步骤S22.针对每个邻接矩阵，进行向量化操作，即将邻接矩阵的所有列向量按序首尾拼接，从而将一个s*s的矩阵转换为一个s²*1的列向量。

步骤S23.将步骤S22得到的列向量全部按列拼接，从而得到一个全新的矩阵，该矩阵的维度为s²*N，最终得到一个采样矩阵Y。

对于步骤S2得到的采样矩阵Y，步骤S3是将其进行分解，分解成字典矩阵与稀疏码矩阵的乘积，字典矩阵的维度为s²*k，稀疏码矩阵的维度为k*N；其中，k为矩阵分解的轮次，它随着分解误差的收敛不同而不同。

布尔矩阵分解是在矩阵分解的过程中施加约束，使得分解得到的字典矩阵和稀疏码矩阵都为布尔型，即矩阵中的元素非0即1。具体分步骤如下：

S31.设置终止阈值c，扩展阈值t；

S32.将初始采样矩阵拷贝，得到残差矩阵，初始化字典矩阵与稀疏码矩阵；

S33.对矩阵中的所有列分别求和，在此基础上对列排序；

S34.在排序之后的列集合中选出中位数列，作为基列集合；

S35.从基列集合中挨个选取基列，以基列与其它列进行比较，若其它列包含基列中的1的比例达到50％以下，则说明不包含；若其它列包含基列中的1的比例达到50％及以上，则继续将该列在初始矩阵中的对应列与基列进行包含关系的判断，如果比例在扩展阈值t及以上，则说明真实包含，该基列的包含个数加1；

S36.统计所有基列的包含个数，选择最大的那个，将该基列选出，加入到字典矩阵中作为新的一列，将每一列是否包含基列用0与1表示，得到一个行向量，将其加入到稀疏码矩阵中作为新的一行；

S37.对于残差矩阵中所有包含基列的列，都与基列做减法运算，若出现负数，也置为0；

S38.重复上述步骤S33-S37，直到误差无法下降或者误差低于终止阈值c。

本步骤主要在于进行矩阵分解，分解的核心思想就是经过多轮迭代，每次都贪心找到最大的矩形，因为矩形就代表着该结构在图结构数据中大量存在。同时，一般而言，中位数列在整个矩阵中能够扩展的矩形会较大，采用这种方式能够更快的找到矩形。

由于布尔矩阵分解本身是NP难问题，即使使用中位数列作为候选基列能够极大的加快矩阵分解速度，但由于图结构数据规模大，整体的分解效率不高。因此本实施例对图数据采样矩阵的布尔矩阵分解进行优化，对矩阵的列向量进行编码，使用散列集合对向量编码去重，从而在提取中位数列时将重复的基列候选去除，同时在每个基列进行扩展时，忽略冗余的对比列，从而大幅降低矩阵分解的时间开销。结合网络稀疏表征的特点，大规模图数据拆分后得到的自我中心子网相对趋于同构，因此它们的向量也较为相似，

步骤S4布尔原子挖掘对布尔矩阵分解得到的字典矩阵进行处理，将矩阵拆分成多个列向量，分别进行处理。由于字典矩阵的维度是s²*k，那么可以拆分成k个列向量。

对每个列向量，将其还原成s*s的邻接矩阵，该过程为矩阵表示的逆过程。如此，便可以得到k个邻接矩阵，将它们分别恢复成图结构数据，同时去除其中同构图，最终得到的就是原子。

原子是图结构数据表征的结果之一，它们是图结构数据中高频出现的局部结构，是图结构数据的骨架，可以认为，它们就可以代表整个图结构数据的结构特征。

对于一个大规模图结构数据，众多的节点与连边使得图结构数据存储的成本增加，而原子是图结构数据的基本机构模式，它可以通过自我复制与线性叠加来构成原始图结构数据，因此，对于图结构数据的存储，经由基于布尔矩阵分解的图压缩方法之后，只需要存储布尔原子及其稀疏编码，这大大了节省了存储空间，实现了图压缩。

将原子按照稀疏码矩阵的指导进行线性组合，即可得到采样恢复矩阵，然后根据采样阶段获得的采样节点集合，将各个节点之间的连边关系按照采样恢复矩阵进行恢复，最终即可得到恢复的图结构数据。

最终图压缩的误差可以使用恢复的图结构数据与原始图结构数据进行对比，以原始图结构数据的边数为分母，以两个图结构数据共有边数目为分母，即可对表征的准确率进行评价。除此之外，布尔原子的准确性也是需要考虑的一个指标，这也是本发明的方法与网络稀疏表征方法的一个重要不同，根据稀疏编码的指导，找到每个布尔原子在原始图结构数据中对应的点集映射，之后判断两个点集的边集是否一致，即可判断该原子在原始图结构数据中是否真实存在，统计所有原子的存在与否，再与原子总数相除，即可得到原子准确性。

稀疏码代表了原子在原始图结构数据中的线性组合的方式，其中，C_ij就代表了第i个原子在第j个自我中心网络中被使用到，因此统计稀疏码中每一行的行和边可以得知该行对应原子在原始图结构数据中的使用次数。根据此方式，统计所有原子的使用次数，按照次数进行排序，便可以得到高频原子，它们便是整个图结构数据特征中的主要特征，它们更具有代表意义。

本发明提出的基于布尔矩阵分解的图压缩方法，解决了基于网络稀疏表征的图压缩方法中浮点数矩阵分解产生的浮点数与负数结果带来的问题，本发明的表征误差更小，图结构数据表征结果更加准确，提取出的原子结构真实存在于原图结构数据中，能更清楚的挖掘图结构数据中的基本结构模式，便于进行图结构数据结构分析。

Claims

1.一种基于布尔矩阵分解的图数据压缩方法，包括如下步骤：

2.根据权利要求1所述的一种基于布尔矩阵分解的图数据压缩方法，其特征在于，步骤S1具体分步骤如下：

步骤S11.设定采样得到的自我中心网络节点规模大小s；

步骤S12.访问某个节点i，创建当前节点i的自我中心网络g_i；

步骤S13.将节点i加入自我中心网络g_i的节点集合，同时将节点i的一阶邻居加入集合；若当前图结构数据节点数未超过s，则继续添加节点i的二阶邻居；若此时节点数未超过s，则补充虚拟节点到集合；若超过，则剔除多余节点；

步骤S15.将节点集合中所有存在的连边加入自我中心网络g_i；

3.根据权利要求2所述的一种基于布尔矩阵分解的图数据压缩方法，其特征在于，步骤S2具体分步骤如下：

步骤S21.构建s*s的矩阵，将自我中心网络的连边情况填入，从而得到多个邻接矩阵；

步骤S22.针对每个邻接矩阵，进行向量化操作，即将邻接矩阵的所有列向量按序首尾拼接，从而将一个s*s的矩阵转换为一个s²*1的列向量；

4.根据权利要求3所述的一种基于布尔矩阵分解的图数据压缩方法，其特征在于，步骤S3具体分步骤如下：

S31.设置终止阈值c，扩展阈值t；

S33.对矩阵中的所有列分别求和，在此基础上对列排序；

S34.在排序之后的列集合中选出中位数列，作为基列集合；