CN113704309B

CN113704309B - 图数据处理方法、装置、计算机设备和存储介质

Info

Publication number: CN113704309B
Application number: CN202111028053.0A
Authority: CN
Inventors: 周旭; 李博仁; 李肯立; 翁同峰; 陈岑; 肖国庆; 阳王东
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2021-09-02
Filing date: 2021-09-02
Publication date: 2024-01-26
Anticipated expiration: 2041-09-02
Also published as: CN113704309A

Abstract

本申请涉及一种图数据处理方法、装置、计算机设备和存储介质。所述方法包括：获取待处理二部图，待处理二部图包括第一顶点集和第二顶点集，第一顶点集中包括各第一顶点，第二顶点集中包括各第二顶点；分别匹配各第一顶点对应的共享邻居，确定各第一顶点以及共享邻居对应的二跳邻居，且第一顶点与共享邻居连接，共享邻居与二跳邻居连接；根据各第一顶点与对应的共享邻居，分别计算包含各第一顶点与对应的二跳邻居的最小非平凡子图的数量；基于各最小非平凡子图的数量，确定各第一顶点与对应的二跳邻居之间的稠密关系。采用本申请实施例的方法，能够有效提高二部图的处理效率。

Description

图数据处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及图数据处理技术领域，特别是涉及一种图数据处理方法、装置、计算机设备和存储介质。

背景技术

二部图是一种结构特殊的图形，包括两个顶点集合，图中每条边连接不同顶点集合中的顶点。近年来，二部图被广泛应用在文档聚类、作者-论文关系分析、用户-产品关系分析、用户兴趣推荐和投资决策和垃圾邮件检测等领域。二部图中的最小非平凡子图，包含分别来自于两个顶点集合的四个顶点以及四条可能的边。两个同侧顶点共享的最小非平凡子图越多，说明二者联系越紧密，该结构可用于衡量二部图中同侧顶点之间的稠密关系。

目前，针对二部图的数据处理方法，需要建立在单个终端或服务器的内存可以满足二部图数据和中间计算结果的存储需求的基础上。但是，随着二部图规模的不断增长，单个终端或服务器的内存已经难以满足大规模的二部图数据的存储需求。此外，由于二部图的结构特殊，在两个顶点集合中存在大量序号相同的顶点，现有的数据处理方法主要针对简单图，通信模式依赖于顶点序号，在处理大规模的二部图数据时会出现消息发送或接收混淆的情况，导致处理准确度不高，而且，由于二部图中同侧顶点之间无直接连接，在确定同侧顶点之间的稠密关系时会导致大量的通信开销，从而使得二部图的处理效率低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高二部图的处理效率的图数据处理方法、装置、计算机设备和存储介质。

一种图数据处理方法，所述方法包括：

获取待处理二部图，所述待处理二部图包括第一顶点集和第二顶点集，所述第一顶点集中包括各第一顶点，所述第二顶点集中包括各第二顶点；

分别匹配各所述第一顶点对应的共享邻居，确定各所述第一顶点以及所述共享邻居对应的二跳邻居，且所述第一顶点与所述共享邻居连接，所述共享邻居与所述二跳邻居连接；

根据各所述第一顶点与对应的所述共享邻居，分别计算包含各所述第一顶点与对应的所述二跳邻居的最小非平凡子图的数量；

基于各所述最小非平凡子图的数量，确定各所述第一顶点与对应的所述二跳邻居之间的稠密关系。

在其中一个实施例中，所述获取待处理二部图，包括：

获取原始二部图，所述原始二部图包括各原始顶点；

根据预设的节点数量以及各所述原始顶点的顶点标识，将各所述原始顶点划分为与所述节点数量相同的各原始顶点集；

按照各所述原始顶点集，将所述原始二部图分解为与所述节点数量相同的各分解后原始二部图，并将各所述分解后原始二部图作为所述待处理二部图。

在其中一个实施例中，所述分别匹配各所述第一顶点对应的共享邻居，确定各所述第一顶点以及所述共享邻居对应的二跳邻居，包括：

针对任意一个所述第一顶点，执行以下处理：

确定所述第二顶点集中的所述第一顶点的共享邻居，所述共享邻居包括至少一个，且所述第一顶点与所述共享邻居连接；

匹配所述第一顶点集中的所述共享邻居对应的二跳邻居，所述二跳邻居包括至少一个，且所述共享邻居与所述二跳邻居连接。

在其中一个实施例中，所述根据各所述第一顶点与对应的所述共享邻居，分别计算包含各所述第一顶点与对应的所述二跳邻居的最小非平凡子图的数量，包括：

针对任意一个所述第一顶点，执行以下处理：

确定所述第一顶点对应的所述共享邻居的数量；

根据所述共享邻居的数量，计算包含所述第一顶点与对应的所述二跳邻居的最小非平凡子图的数量。

在其中一个实施例中，所述根据所述共享邻居的数量，计算包含所述第一顶点与对应的所述二跳邻居的最小非平凡子图的数量，包括：

按照预先设定的各所述第一顶点的优先级，并根据所述共享邻居的数量，计算包含所述第一顶点与对应的所述二跳邻居的最小非平凡子图的数量。

在其中一个实施例中，所述基于各所述最小非平凡子图的数量，确定各所述第一顶点与对应的所述二跳邻居之间的稠密关系，包括：

基于各所述第一顶点所在的所述最小非平凡子图的数量，确定所述最小非平凡子图的数量为最小的最小第一顶点；

根据所述最小第一顶点所在的所述最小非平凡子图，确定所述最小非平凡子图中包含的其他第一顶点；

剥离所述最小第一顶点，得到所述最小第一顶点对应的稠密值，更新所述其他第一顶点所在的所述最小非平凡子图的数量；

返回所述基于各所述第一顶点所在的所述最小非平凡子图的数量，确定所述最小非平凡子图的数量为最小的最小第一顶点的步骤，迭代计算直至得到各所述第一顶点对应的稠密值；

根据各所述第一顶点对应的稠密值，分别确定各所述第一顶点与对应的所述二跳邻居之间的稠密关系。

在其中一个实施例中，所述更新所述其他第一顶点所在的所述最小非平凡子图的数量，包括：

根据所述最小第一顶点所在的所述最小非平凡子图的数量，确定所述最小第一顶点对应的剥离值；

计算所述其他第一顶点所在的所述最小非平凡子图的数量与所述剥离值之差，得到数量差值，并将所述数量差值确定为更新后的所述其他第一顶点所在的所述最小非平凡子图的数量。

一种图数据处理装置，所述装置包括：

图数据获取模块，用于获取待处理二部图，所述待处理二部图包括第一顶点集和第二顶点集，所述第一顶点集中包括各第一顶点，所述第二顶点集中包括各第二顶点；

邻居确定模块，用于分别匹配各所述第一顶点对应的共享邻居，确定各所述第一顶点以及所述共享邻居对应的二跳邻居，且所述第一顶点与所述共享邻居连接，所述共享邻居与所述二跳邻居连接；

图数量计算模块，用于根据各所述第一顶点与对应的所述共享邻居，分别计算包含各所述第一顶点与对应的所述二跳邻居的最小非平凡子图的数量；

稠密关系确定模块，用于基于各所述最小非平凡子图的数量，确定各所述第一顶点与对应的所述二跳邻居之间的稠密关系。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述的图数据处理方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的图数据处理方法的步骤。

上述图数据处理方法、装置、计算机设备和存储介质，通过获取待处理二部图，待处理二部图包括第一顶点集和第二顶点集，第一顶点集中包括各第一顶点，第二顶点集中包括各第二顶点；分别匹配各第一顶点对应的共享邻居，确定各第一顶点以及共享邻居对应的二跳邻居，且第一顶点与共享邻居连接，共享邻居与二跳邻居连接；根据各第一顶点与对应的共享邻居，分别计算包含各第一顶点与对应的二跳邻居的最小非平凡子图的数量；基于各最小非平凡子图的数量，确定各第一顶点与对应的二跳邻居之间的稠密关系。采用上述实施例的方法，通过将原始二部图进行分布式存储之后得到待处理二部图，能够满足图数据处理时所需的计算能力和存储空间，在确定第一顶点和共享邻居对应的二跳邻居之后，计算包含第一顶点与对应的二跳邻居的最小非平凡子图的数量，能够有效避免最小非平凡子图的数量重复计算，并提高确定稠密关系时的准确性，从而有效提高二部图的处理效率。

附图说明

图1为一个实施例中图数据处理方法的应用环境图；

图2为一个实施例中图数据处理方法的流程示意图；

图3为一个具体实施例中二部图及其分布式存储的示意图；

图4为一个具体实施例中图数据处理方法的整体示意图；

图5为一个具体实施例中确定二部图的同侧顶点之间的稠密关系的示意图；

图6为一个实施例中图数据处理装置的结构框图；

图7为一个实施例中计算机设备的内部结构图；

图8为另一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在其中一个实施例中，本申请提供的图数据处理方法，应用环境可以同时涉及终端102和服务器集群104，如图1所示。其中，服务器集群104包括各服务器103，各服务器103之间通过网络或协议等方式进行通信，终端102通过网络或协议等方式与服务器集群104中的各服务器103进行通信。具体地，服务器集群104通过终端102获取待处理二部图，待处理二部图包括第一顶点集和第二顶点集，第一顶点集中包括各第一顶点，第二顶点集中包括各第二顶点，服务器集群104将待处理二部图的第一顶点集和第二顶点集分布式存储在各服务器103中；服务器集群104分别匹配各第一顶点对应的共享邻居，确定各第一顶点以及共享邻居对应的二跳邻居，且第一顶点与共享邻居连接，共享邻居与二跳邻居连接；根据各第一顶点与对应的共享邻居，分别计算包含各第一顶点与对应的二跳邻居的最小非平凡子图的数量；基于各最小非平凡子图的数量，确定各第一顶点与对应的二跳邻居之间的稠密关系。

在其中一个实施例中，在独立的终端102或服务器103的内存大小和计算能力，能够满足图数据处理所需存储空间和计算要求的情况下，本申请提供的图数据处理方法，应用环境可以只涉及终端102或服务器103。具体地，终端102或服务器103直接获取待处理二部图，待处理二部图包括第一顶点集和第二顶点集，第一顶点集中包括各第一顶点，第二顶点集中包括各第二顶点；分别匹配各第一顶点对应的共享邻居，确定各第一顶点以及共享邻居对应的二跳邻居，且第一顶点与共享邻居连接，共享邻居与二跳邻居连接；根据各第一顶点与对应的共享邻居，分别计算包含各第一顶点与对应的二跳邻居的最小非平凡子图的数量；基于各最小非平凡子图的数量，确定各第一顶点与对应的二跳邻居之间的稠密关系。

其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器103可以是独立的服务器，服务器集群104可以是由多个服务器103组成。

在其中一个实施例中，如图2所示，提供了一种图数据处理方法，以该方法应用于图1中的服务器集群104为例进行说明，包括步骤S202-S208：

步骤S202，获取待处理二部图，待处理二部图包括第一顶点集和第二顶点集，第一顶点集中包括各第一顶点，第二顶点集中包括各第二顶点。

在其中一个实施例中，二部图是一种结构特殊的图形，图中的顶点集可分割为两个互不相交的子集，并且图中每条边依附的两个顶点都分属于这两个互不相交的子集，两个子集内的顶点不相邻，也就是，二部图包括两个顶点集合，图中每条边连接不同顶点集合中的顶点。

具体地，将待处理的二部图称为待处理二部图，将待处理二部图的两个顶点集合分别称为第一顶点集和第二顶点集，第一顶点集中包括各第一顶点，第二顶点集中包括各第二顶点。例如，将如图3(a)所示的二部图作为待处理二部图，则待处理二部图包括第一顶点集U和第二顶点集V，第一顶点集U中包括各第一顶点u1、u2和u3，第二顶点集V中包括各第二顶点v1和v2，图中的实线用于表示二部图的边，每条边连接的两个顶点分别属于第一顶点集U和第二顶点集V。

在其中一个实施例中，随着二部图规模的不断增长，单个终端或服务器的内存已经难以满足大规模的二部图数据的存储需求，本申请的实施例将原始二部图进行分布式存储，以提高二部图的处理效率。其中，分布式存储是通过网络将图数据分散存储在多台独立的终端或服务器上，能够提高图数据存储的可靠性、可用性和存取效率。具体地，步骤S202获取待处理二部图，包括步骤S302-S306：

步骤S302，获取原始二部图，原始二部图包括各原始顶点。

在其中一个实施例中，将获取的大规模的二部图称为原始二部图，将原始二部图包括的顶点称为原始顶点。具体地，获取原始二部图，原始二部图包括各原始顶点。需要说明的是，对各原始顶点暂不区分第一顶点集与第二顶点集。

步骤S304，根据预设的节点数量以及各原始顶点的顶点标识，将各原始顶点划分为与节点数量相同的各原始顶点集。

在其中一个实施例中，以图数据存储在服务器上为例，节点用于表示将原始二部图进行分布式存储的服务器，节点数量用于表示将原始二部图进行分布式存储的服务器的数量。例如，将原始二部图的各原始顶点分布式存储在两台服务器中，则节点数量为2。具体地，节点数量为预设的服务器的数量，可以根据实际的原始二部图的规模进行确定。

在其中一个实施例中，各原始顶点的顶点标识是指各原始顶点对应的标识，可以是各原始顶点的id值，id值可以是原始顶点的编号值。其中，根据预设的节点数量以及各原始顶点的顶点标识，将各原始顶点划分为与节点数量相同的各原始顶点集。具体地，将各原始顶点的顶点标识与预设的节点数量进行除法运算，根据除法运算的余数，将各原始顶点进行划分，将余数相同的各原始顶点划分到同一顶点集，得到与节点数量相同的各原始顶点集。例如，将如图3(a)所示的二部图作为原始二部图，原始二部图包括各原始顶点u1、u2、u3、v1和v2，各原始顶点的id值分别为1、2、3、1和2。将节点数量预设为2，则将各原始顶点的id值分别与预设的节点数量进行除法运算，除法运算的余数分别为1、0、1、1和0，则将余数为0的原始顶点u2和v2划分到同一顶点集，将顶点集称为节点0，将u1、u3和v1划分到同一顶点集，将顶点集称为节点1，即得到2个原始顶点集。

步骤S306，按照各原始顶点集，将原始二部图分解为与节点数量相同的各分解后原始二部图，并将各分解后原始二部图作为待处理二部图。

在其中一个实施例中，将各原始顶点划分为与节点数量相同的各原始顶点集之后，也就是，实现了将原始二部图的各原始顶点分布式存储在多台服务器上。其中，多台服务器之间通过网络或协议进行通信，可以采用传输接口MPI实现。具体地，按照各原始顶点集，将原始二部图分解为与节点数量相同的各分解后原始二部图，并将各分解后原始二部图作为待处理二部图。需要说明的是，原始二部图与待处理二部图的图数据本身并无区别，仅实现了原始二部图的分布式存储，以便提高后续的图数据处理效率。

步骤S204，分别匹配各第一顶点对应的共享邻居，确定各第一顶点以及共享邻居对应的二跳邻居，且第一顶点与共享邻居连接，共享邻居与二跳邻居连接。

在其中一个实施例中，针对待处理二部图的任意一个第一顶点，匹配第一顶点对应的共享邻居，确定第一顶点以及共享邻居对应的二跳邻居的方式相同。需要说明的是，针对各第一顶点的图数据处理可以采用并行处理的方式，每次并行处理的第一顶点的数量可以根据服务器集群的规模确定，具体可以设置为1、50和100等。针对任意一个第一顶点，执行步骤S402-S404：

步骤S402，确定第二顶点集中的第一顶点的共享邻居，共享邻居包括至少一个，且第一顶点与共享邻居连接。

在其中一个实施例中，在各第一顶点中选取被激活的第一顶点。在第二顶点集中确定与被激活的第一顶点连接的第二顶点，将确定的第二顶点作为第一顶点的共享邻居，共享邻居包括至少一个。例如，将如图3(a)所示的二部图作为待处理二部图，待处理二部图包括第一顶点集U和第二顶点集V，选取被激活的第一顶点u1，与被激活的第一顶点u1连接的是第二顶点v1和v2，则确定被激活的第一顶点u1的共享邻居为v1和v2，被激活的第一顶点u1的共享邻居包括两个。

步骤S404，匹配第一顶点集中的共享邻居对应的二跳邻居，二跳邻居包括至少一个，且共享邻居与二跳邻居连接。

在其中一个实施例中，在第一顶点集中确定与共享邻居连接的第一顶点，将确定的第一顶点作为共享邻居对应的二跳邻居，二跳邻居包括至少一个。其中，共享邻居对应的二跳邻居，也就是被激活的第一顶点以及共享邻居共同对应的二跳邻居。例如，将如图3(a)所示的二部图作为待处理二部图，待处理二部图包括第一顶点集U和第二顶点集V，选取被激活的第一顶点u1，被激活的第一顶点u1的共享邻居为v1和v2，与共享邻居v1连接的是第一顶点u2和u3，与共享邻居v2连接的是第一顶点u3，则共享邻居v1对应的二跳邻居为u2和u3，共享邻居v2对应的二跳邻居为u3，也就是被激活的第一顶点u1以及共享邻居v1共同对应的二跳邻居为u2和u3，被激活的第一顶点u1以及共享邻居v2共同对应的二跳邻居为u3。换言之，被激活的第一顶点u1与二跳邻居u2之间的共享邻居为v1和v2，被激活的第一顶点u1与二跳邻居u3之间的共享邻居为v1和v2。

步骤S206，根据各第一顶点与对应的共享邻居，分别计算包含各第一顶点与对应的二跳邻居的最小非平凡子图的数量。

在其中一个实施例中，最小非平凡子图也称为Butterfly子图，最小非平凡子图包含分别来自于两个顶点集合的四个顶点以及四条可能的边，即(2,2)-团。两个同侧顶点共享的Butterfly子图越多，说明二者联系越紧密，该结构可用于衡量二部图中同侧顶点之间的稠密关系。其中，针对待处理二部图的任意一个第一顶点，根据第一顶点与对应的共享邻居，计算包含第一顶点与对应的二跳邻居的最小非平凡子图的数量的方式相同。针对任意一个第一顶点，执行步骤S502-S504：

步骤S502，确定第一顶点对应的共享邻居的数量。

在其中一个实施例中，包含第一顶点与对应的二跳邻居的Butterfly子图的数量，与第一顶点以及共享邻居对应的二跳邻居的数量之间存在设定的数量关系。具体地，确定第一顶点对应的共享邻居的数量。

步骤S504，根据共享邻居的数量，计算包含第一顶点与对应的二跳邻居的最小非平凡子图的数量。

在其中一个实施例中，根据共享邻居的数量，计算包含第一顶点与对应的二跳邻居的Butterfly子图的数量，将包含第一顶点u的Butterfly子图表示为将包含第一顶点u的Butterfly子图的数量表示为/>具体地，将共享邻居的数量表示为n，则同时包含第一顶点与对应的二跳邻居的Butterfly子图的数量的计算公式如下：

例如，将如图3(a)所示的二部图作为待处理二部图，被激活的第一顶点u1与二跳邻居u2之间的共享邻居为v1和v2，共享邻居的数量为2个，即u＝2，则包含被激活的第一顶点u1与二跳邻居u2的Butterfly子图的数量为1个。

在其中一个实施例中，为了避免最小非平凡子图的重复计算，对各第一顶点预先设定了优先级。具体地，根据共享邻居的数量，计算包含第一顶点与对应的二跳邻居的最小非平凡子图的数量，包括：按照预先设定的各第一顶点的优先级，并根据共享邻居的数量，计算包含第一顶点与对应的二跳邻居的最小非平凡子图的数量。其中，优先级可以根据各第一顶点的顶点标识对应的数值进行设置，也就是根据第一顶点的id值的大小设置，id值越大则优先级越高。具体地，对于任意一个第一顶点，只计算优先级大于自身的、即id值大于自身的二跳邻居所组成的Butterfly子图的数量。例如，将如图3(a)所示的二部图作为待处理二部图，对于被激活的第一顶点u2，其对应的二跳邻居为u1和u3，当计算包含被激活的第一顶点u2与对应的二跳邻居的Butterfly子图的数量时，只计算包含被激活的第一顶点u2与二跳邻居u3的Butterfly子图的数量，以有效避免第一顶点u1和u2之间Butterfly子图的重复计算。

步骤S208，基于各最小非平凡子图的数量，确定各第一顶点与对应的二跳邻居之间的稠密关系。

在其中一个实施例中，对于同侧顶点，也就是第一顶点与对应的二跳邻居，二者所在的最小非平凡子图的数量，能够用于衡量二者之间的稠密关系。具体地，在计算包含各第一顶点与对应的二跳邻居的最小非平凡子图的数量之后，基于各最小非平凡子图的数量，确定各第一顶点与对应的二跳邻居之间的稠密关系。

在其中一个实施例中，步骤S208基于各最小非平凡子图的数量，确定各第一顶点与对应的二跳邻居之间的稠密关系，包括步骤S602-S610：

步骤S602，基于各第一顶点所在的最小非平凡子图的数量，确定最小非平凡子图的数量为最小的最小第一顶点。

在其中一个实施例中，基于各第一顶点所在的Butterfly子图的数量，生成Butterfly树，也称为BFTree。其中，BFTree由多组键值对组成，键表示第一顶点对应的Butterfly子图的数量，值表示第一顶点对应的顶点标识，也就是第一顶点的id值。具体地，基于各第一顶点所在的Butterfly子图的数量，确定Butterfly子图的数量为最小的第一顶点，称为最小第一顶点。将最小第一顶点表示为GlobalMinKey，即具有全局最小Butterfly子图的数量，在BFTree中，将最小第一顶点表示为BFTree[GlobalMinKey]。

步骤S604，根据最小第一顶点所在的最小非平凡子图，确定最小非平凡子图中包含的其他第一顶点。

在其中一个实施例中，由于最小非平凡子图中包含第一顶点与对应的二跳邻居，因此可以根据最小第一顶点所在的最小非平凡子图，确定最小非平凡子图中包含的二跳邻居，也称为其他第一顶点。

步骤S606，剥离最小第一顶点，得到最小第一顶点对应的稠密值，更新其他第一顶点所在的最小非平凡子图的数量。

在其中一个实施例中，将最小第一顶点进行剥离，即可得到最小第一顶点对应的Tip值，也称为稠密值，稠密值可以用于确定第一顶点与二跳邻居之间的稠密关系，稠密值越大则二者联系越紧密。由于最小非平凡子图中包含最小第一顶点与其他第一顶点，因此在最小第一顶点被剥离时，需要更新其他第一顶点所在的最小非平凡子图的数量，也就是更新BFTree。具体地，步骤S606更新其他第一顶点所在的最小非平凡子图的数量，包括步骤S702-S704：

步骤S702，根据最小第一顶点所在的最小非平凡子图的数量，确定最小第一顶点对应的剥离值。

在其中一个实施例中，最小第一顶点对应的剥离值与最小第一顶点所在的最小非平凡子图的数量相同。例如，当最小第一顶点所在的最小非平凡子图的数量为1，则确定最小第一顶点对应的剥离值为1。

步骤S704，计算其他第一顶点所在的最小非平凡子图的数量与剥离值之差，得到数量差值，并将数量差值确定为更新后的其他第一顶点所在的最小非平凡子图的数量。

在其中一个实施例中，确定其他第一顶点所在的最小非平凡子图的数量，计算其他第一顶点所在的最小非平凡子图的数量与剥离值之差，得到数量差值，并将数量差值确定为更新后的其他第一顶点所在的最小非平凡子图的数量。例如，其他第一顶点所在的最小非平凡子图的数量共为3个，最小第一顶点对应的剥离值为1，则在最小第一顶点剥离之后，其他第一顶点所在的最小非平凡子图的数量由3个更新至2个。

步骤S608，返回基于各第一顶点所在的最小非平凡子图的数量，确定最小非平凡子图的数量为最小的最小第一顶点的步骤，迭代计算直至得到各第一顶点对应的稠密值。

在其中一个实施例中，在第一个最小第一顶点剥离之后，返回步骤S602进行迭代计算，不断地剥离最小第一顶点，直至各第一顶点全部剥离完毕，即可得到各第一顶点对应的稠密值。

步骤S610，根据各第一顶点对应的稠密值，分别确定各第一顶点与对应的二跳邻居之间的稠密关系。

在其中一个实施例中，根据各第一顶点对应的稠密值，分别确定各第一顶点与对应的二跳邻居之间的稠密关系，稠密值越大，则二者联系越紧密。具体地，以应用在用户兴趣推荐为例，用户存在一个确定的感兴趣点，对于另外一个可能的感兴趣点，通过计算两者之间的稠密关系，若确定两者联系紧密，则向用户推荐此可能的感兴趣点。

上述图数据处理方法中，通过获取待处理二部图，待处理二部图包括第一顶点集和第二顶点集，第一顶点集中包括各第一顶点，第二顶点集中包括各第二顶点；分别匹配各第一顶点对应的共享邻居，确定各第一顶点以及共享邻居对应的二跳邻居，且第一顶点与共享邻居连接，共享邻居与二跳邻居连接；根据各第一顶点与对应的共享邻居，分别计算包含各第一顶点与对应的二跳邻居的最小非平凡子图的数量；基于各最小非平凡子图的数量，确定各第一顶点与对应的二跳邻居之间的稠密关系。采用上述实施例的方法，通过将原始二部图进行分布式存储之后得到待处理二部图，能够满足图数据处理时所需的计算能力和存储空间，在确定第一顶点和共享邻居对应的二跳邻居之后，计算包含第一顶点与对应的二跳邻居的最小非平凡子图的数量，能够有效避免最小非平凡子图的数量重复计算，并提高确定稠密关系时的准确性，从而有效提高二部图的处理效率。

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及其中一个具体实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个具体实施例中，如图4所示图数据处理方法的整体示意图，其中，如图4(a)所示的原始二部图，包括各原始顶点u1、u2、u3、u4、u5、v1、v2、v3和v4，对应的id值为1、2、3、4、5、1、2、3和4。预设的节点数量为2个，将各原始顶点的id值与节点数量进行除法运算，除法运算的余数分别为1、0、1、0、1、1、0、1和0，如图4(b)所示，将余数为0的原始顶点u2、u4、v2和v4划分到节点0，将u1、u3、u5、v1和v3划分到节点1，以此将原始二部图进行分布式存储；

在将原始二部图进行分布式存储之后，确定如图4(a)所示为待处理二部图，待处理二部图包括第一顶点集U和第二顶点集V，第一顶点集U中包括各第一顶点u1、u2、u3、u4和u5，第二顶点集V中包括各第二顶点v1、v2、v3、v4和v5，图中的实线用于表示二部图的边，每条边连接的两个顶点分别属于第一顶点集U和第二顶点集V；

分别匹配各第一顶点对应的共享邻居，确定各第一顶点以及共享邻居对应的二跳邻居，且第一顶点与共享邻居连接，共享邻居与二跳邻居连接；分别确定各第一顶点对应的共享邻居的数量，并按照各第一顶点的id值对应的优先级，计算包含第一顶点与对应的二跳邻居的Butterfly子图的数量，计算得到各第一顶点u1、u2、u3、u4和u5对应的Butterfly子图的数量分别为2、5、5、3和1；

如图5所示为确定二部图的同侧顶点之间的稠密关系的示意图，基于各第一顶点所在的Butterfly子图的数量，生成BFTree，BFTree结构如图5中初始化部分所示，Key值表示第一顶点对应的Butterfly子图的数量；基于Key值，确定Butterfly子图的数量为最小的最小第一顶点u5，且其他第一顶点u4共同处于最小第一顶点u5的Butterfly子图中，因此，在第1次迭代时，剥离最小第一顶点u5，得到最小第一顶点u5对应的Tip值为1，并更新其他第一顶点u4所在的Butterfly子图的数量为2，此时BFTree结构如图5中第1次迭代部分所示，此时待处理二部图如图4(c)所示；

确定Butterfly子图的数量为最小的最小第一顶点u1和u4，在第2次迭代时，剥离最小第一顶点u1和u4，得到最小第一顶点u1和u4对应的Tip值为2，此时BFTree结构如图5中第2次迭代部分所示，此时待处理二部图如图4(d)所示；确定Butterfly子图的数量为最小的最小第一顶点u2和u3，在第3次迭代时，剥离最小第一顶点u2和u3，得到最小第一顶点u2和u3对应的Tip值为3，各第一顶点对应的Tip值的结果如图4(e)所示，根据各第一顶点对应的Tip值，可以用于确定各第一顶点与二跳邻居之间的稠密关系。

应该理解的是，虽然上述的各流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述的各流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在其中一个实施例中，如图6所示，提供了一种图数据处理装置，包括：图数据获取模块610、邻居确定模块620、图数量计算模块630和稠密关系确定模块640，其中：

图数据获取模块610，用于获取待处理二部图，所述待处理二部图包括第一顶点集和第二顶点集，所述第一顶点集中包括各第一顶点，所述第二顶点集中包括各第二顶点。

邻居确定模块620，用于分别匹配各所述第一顶点对应的共享邻居，确定各所述第一顶点以及所述共享邻居对应的二跳邻居，且所述第一顶点与所述共享邻居连接，所述共享邻居与所述二跳邻居连接。

图数量计算模块630，用于根据各所述第一顶点与对应的所述共享邻居，分别计算包含各所述第一顶点与对应的所述二跳邻居的最小非平凡子图的数量。

稠密关系确定模块640，用于基于各所述最小非平凡子图的数量，确定各所述第一顶点与对应的所述二跳邻居之间的稠密关系。

在其中一个实施例中，图数据获取模块610包括以下单元：

原始图数据获取单元，用于获取原始二部图，所述原始二部图包括各原始顶点。

原始顶点集划分单元，用于根据预设的节点数量以及各所述原始顶点的顶点标识，将各所述原始顶点划分为与所述节点数量相同的各原始顶点集。

待处理图数据获取单元，用于按照各所述原始顶点集，将所述原始二部图分解为与所述节点数量相同的各分解后原始二部图，并将各所述分解后原始二部图作为所述待处理二部图。

在其中一个实施例中，邻居确定模块620包括以下单元：

共享邻居确定单元，用于确定所述第二顶点集中的所述第一顶点的共享邻居，所述共享邻居包括至少一个，且所述第一顶点与所述共享邻居连接。

二跳邻居匹配单元，用于匹配所述第一顶点集中的所述共享邻居对应的二跳邻居，所述二跳邻居包括至少一个，且所述共享邻居与所述二跳邻居连接。

在其中一个实施例中，图数量计算模块630包括以下单元：

共享邻居数量确定单元，用于确定所述第一顶点对应的所述共享邻居的数量。

图数量确定单元，用于根据所述共享邻居的数量，计算包含所述第一顶点与对应的所述二跳邻居的最小非平凡子图的数量。

在其中一个实施例中，最小非平凡子图数量确定单元包括以下单元：

优先级数量确定单元，用于按照预先设定的各所述第一顶点的优先级，并根据所述共享邻居的数量，计算包含所述第一顶点与对应的所述二跳邻居的最小非平凡子图的数量。

在其中一个实施例中，稠密关系确定模块640包括以下单元：

最小第一顶点确定单元，用于基于各所述第一顶点所在的所述最小非平凡子图的数量，确定所述最小非平凡子图的数量为最小的最小第一顶点。

其他第一顶点确定单元，用于根据所述最小第一顶点所在的所述最小非平凡子图，确定所述最小非平凡子图中包含的其他第一顶点。

图数量更新单元，用于剥离所述最小第一顶点，得到所述最小第一顶点对应的稠密值，更新所述其他第一顶点所在的所述最小非平凡子图的数量。

迭代计算单元，用于返回所述基于各所述第一顶点所在的所述最小非平凡子图的数量，确定所述最小非平凡子图的数量为最小的最小第一顶点的步骤，迭代计算直至得到各所述第一顶点对应的稠密值。

稠密关系确定单元，用于根据各所述第一顶点对应的稠密值，分别确定各所述第一顶点与对应的所述二跳邻居之间的稠密关系。

在其中一个实施例中，图数量更新单元包括以下单元：

剥离值确定单元，用于根据所述最小第一顶点所在的所述最小非平凡子图的数量，确定所述最小第一顶点对应的剥离值。

更新值确定单元，用于计算所述其他第一顶点所在的所述最小非平凡子图的数量与所述剥离值之差，得到数量差值，并将所述数量差值确定为更新后的所述其他第一顶点所在的所述最小非平凡子图的数量。

关于图数据处理装置的具体限定可以参见上文中对于图数据处理方法的限定，在此不再赘述。上述图数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在其中一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储图数据处理数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图数据处理方法。

在其中一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种图数据处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图7和图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在其中一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述的图数据处理方法的步骤。

在其中一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述的图数据处理方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种图数据处理方法，其特征在于，应用于作者-论文关系分析，所述方法包括：

获取待处理二部图，所述待处理二部图包括第一顶点集和第二顶点集，所述第一顶点集中包括各第一顶点，所述第二顶点集中包括各第二顶点；其中，第一顶点为作者，第二顶点为论文；

基于各所述最小非平凡子图的数量，确定各所述第一顶点与对应的所述二跳邻居之间的稠密关系，所述稠密关系用于表征不同作者之间的联系紧密程度。

2.根据权利要求1所述的图数据处理方法，其特征在于，所述获取待处理二部图，包括：

获取原始二部图，所述原始二部图包括各原始顶点；

3.根据权利要求1所述的图数据处理方法，其特征在于，所述分别匹配各所述第一顶点对应的共享邻居，确定各所述第一顶点以及所述共享邻居对应的二跳邻居，包括：

针对任意一个所述第一顶点，执行以下处理：

4.根据权利要求3所述的图数据处理方法，其特征在于，所述根据各所述第一顶点与对应的所述共享邻居，分别计算包含各所述第一顶点与对应的所述二跳邻居的最小非平凡子图的数量，包括：

针对任意一个所述第一顶点，执行以下处理：

确定所述第一顶点对应的所述共享邻居的数量；

5.根据权利要求4所述的图数据处理方法，其特征在于，所述根据所述共享邻居的数量，计算包含所述第一顶点与对应的所述二跳邻居的最小非平凡子图的数量，包括：

6.根据权利要求1所述的图数据处理方法，其特征在于，所述基于各所述最小非平凡子图的数量，确定各所述第一顶点与对应的所述二跳邻居之间的稠密关系，包括：

7.根据权利要求6所述的图数据处理方法，其特征在于，所述更新所述其他第一顶点所在的所述最小非平凡子图的数量，包括：

8.一种图数据处理装置，其特征在于，应用于作者-论文关系分析，所述装置包括：

图数据获取模块，用于获取待处理二部图，所述待处理二部图包括第一顶点集和第二顶点集，所述第一顶点集中包括各第一顶点，所述第二顶点集中包括各第二顶点；其中，第一顶点为作者，第二顶点为论文；

稠密关系确定模块，用于基于各所述最小非平凡子图的数量，确定各所述第一顶点与对应的所述二跳邻居之间的稠密关系，所述稠密关系用于表征不同作者之间的联系紧密程度。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的图数据处理方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的图数据处理方法的步骤。