CN112000848A

CN112000848A - 一种图数据处理方法、装置、电子设备及存储介质

Info

Publication number: CN112000848A
Application number: CN202010842906.3A
Authority: CN
Inventors: 吕志军; 刘成军
Original assignee: Nanjing Wisdom Atlas Information Technology Co ltd
Current assignee: Nanjing Wisdom Atlas Information Technology Co ltd
Priority date: 2020-08-20
Filing date: 2020-08-20
Publication date: 2020-11-27

Abstract

本发明实施例公开了一种图数据处理方法、装置、电子设备以及存储介质，该方法包括：根据增量图数据，确定目标子图和所述目标子图的新增数据；根据所述目标子图的新增数据中点数据，确定所述目标子图的增量关联数据；根据所述目标子图的增量关联数据和原关联数据，确定所述目标子图的新版本关联数据；根据所述目标子图的新版本关联数据和所述目标子图中的边数据，确定所述目标子图的新版本详情数据；其中，关联数据中包括端点id和子图id；详情数据中包括子图id、边id、边类型、边关联的端点id和端点类型。大大降低了数据不断增加的情况下的计算量，提高了图数据处理效率，为子图计算提供了一种新思路。

Description

一种图数据处理方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及数据处理和数据存储技术，具体涉及一种图数据处理处理方法、装置、电子设备及存储介质。

背景技术

图数据库是基于图关系(Graph，非图像)模型建立的数据库，其中包含的数据往往有点数据和边数据。在图数据库领域，经常会有子图计算的需求，尤其是在数据量很大的图中计算弱连通子图的情况，例如有多少弱连通子图，多个点是否属于同一个弱连通子图，一个弱连通子图包含的点和边有哪些等需求。

目前，主要采用实时计算方式和离线计算方式。其中实时计算方式：在数据量很大的图上按需遍历输入的点数据和边数据，以局部图的方式进行计算。该种方式很难处理超大的图上的子图遍历查询，并且无法做到高并发处理。而离线计算方式：基于批量数据，预先将离线的数据构建为子图信息并存储，供后续查询使用。但该种方式由于图的关联依赖，每次需要将所有的数据纳入重新计算子图，随着时间的推移，计算的数据量越来越大，甚至超出线上环境的计算能力。

发明内容

本发明实施例提供一种图数据处理方法、装置、电子设备及存储介质，降低了数据计算量，提高了图数据处理效率。

第一方面，本发明实施例提供了一种图数据处理方法，该方法包括：

根据增量图数据，确定目标子图和所述目标子图的新增数据；

根据所述目标子图的新增数据中点数据，确定所述目标子图的增量关联数据；

根据所述目标子图的增量关联数据和原关联数据，确定所述目标子图的新版本关联数据；

根据所述目标子图的新版本关联数据和所述目标子图中的边数据，确定所述目标子图的新版本详情数据；

其中，关联数据中包括端点id和子图id；详情数据中包括子图id、边id、边类型、边关联的端点id和端点类型。

第二方面，本发明实施例还提供了一种图数据处理装置，该装置包括：

目标数据确定模块，用于根据增量图数据，确定目标子图和所述目标子图的新增数据；

增量关联数据确定模块，用于根据所述目标子图的新增数据中点数据，确定所述目标子图的增量关联数据；

新关联数据确定模块，用于根据所述目标子图的增量关联数据和原关联数据，确定所述目标子图的新版本关联数据；

新详情数据确定模块，用于根据所述目标子图的新版本关联数据和所述目标子图中的边数据，确定所述目标子图的新版本详情数据；

第三方面，本发明实施例还提供了一种电子设备，该电子设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明任意实施例所述的图数据处理方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例所述的图数据处理方法。

本发明实施例提供的技术方案，通过引入子图的关联数据和详情数据，为快速进行子图计算等奠定了基础；同时，对增量图数据进行处理，得到目标子图的新版本关联数据和新版本详情数据，以进行子图计算。相比于现有的离线计算方式，本实施例只处理增量图数据，降低了数据计算量，提高了数据处理效率，同时可满足用户对于子图计算需求的。

附图说明

图1是本发明实施例一中提供的一种图数据处理方法的流程图；

图2是本发明实施例二中提供的一种图数据处理方法的流程图；

图3是本发明实施例三中提供的一种图数据处理方法的流程图；

图4是本发明实施例四中提供的一种图数据处理过程的示意图；

图5是本发明实施例五中提供的一种图数据处理装置的结构框图；

图6是本发明实施例六中提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1是本发明实施例一中提供的一种图数据处理方法的流程图，本实施例可适用于如何对图数据进行处理的情况，尤其适用于如何高效地对图数据进行处理，以满足用户对于子图计算需求的情况。该方法可以由图数据处理装置来执行，该装置可以通过软件和/或硬件的方式来实现。可选的，该装置可以配置于承载图数据处理功能的设备中，如服务器中。参见图1，该方法具体可以包括：

S110，根据增量图数据，确定目标子图和目标子图的新增数据。

可以理解的是，图即图谱，由端点和边构成。对应的，图数据可以包括边数据和点数据两类，点数据可以包括端点id、端点属性以及端点类型等，边数据可以包括边所关联的两个端点id、边类型、边id以及边属性等。其中，端点id为图数据中用于唯一表示端点所代表实体的标识，如人的身份证号；可选的，为便于后续计算、查询等，本实施例中的端点id和边id优选可以为依据设定的id分配规则，所分配的定长的唯一性id，如可以按自然数依次为每一端点和边分配定长的唯一id。端点类型可以包括但不限于人、事、地点和物体等；边类型用于表征边所关联的两个端点之间的关系，可以包括但不限于好友关系、亲属关系和隶属关系等。进一步的，为了便于数据存储，本实施例中的边类型和点类型可以为通过字典编码后的定长数值。

本实施例中，增量图数据是在原图数据(也可称为旧图数据或已有图数据等)基础上增加的内容。其中，原图数据为本批次处理之前所有批次处理的图数据总和。可选的，可以从用户指定的路径下获取增量图数据，进一步的，增量图数据中点数据和边数据可存储于不同路径下，进而可分别从点数据存储路径和边数据存储路径下，获取点数据和边数据。

本实施例中子图可以包括弱连通子图，所谓弱连通子图为一种连通图，且图中任一端点可以不与其他端点全连接；进一步的，子图中端点的数量可以为一个，或者两个及两个以上等。目标子图可以为增量图数据所包括的子图，具体可以包括因引入增量图数据而新增加的子图，和/或变化后的子图，所谓变化后的子图为因引入增量图数据而使已有子图的连通结构发生变化后的子图，例如已有子图中包括端点5、6和8构成的子图，且该子图中端点5和端点6之间有一条边，端点8和端点5之间有一条边，而增量图数据中引入了一条边，该边为端点8和端点4之间的边，进而变化后的子图为端点4、5、6和8构成的子图。可选的，本实施例中的已有子图为根据原图数据所计算得到的子图(进一步为综合本批次之前所有批次计算得到的子图)，进一步的，已有子图中可以包括原子图和变化子图，所谓原子图即为不受增量图数据影响的已有子图，变化子图即为受增量图数据影响的已有子图(例如上述端点5、6和8构成的子图即为变化子图)。

进一步的，本实施例可以提供可视化交互界面，用户可根据可视化界面中提示信息输入相关参数，如增量图数据的存储路径(进一步为增量图数据中点数据存储路径和边数据存储路径)和增量计算标识等。其中，增量计算标识是一种用于表示对图数据进行增量计算的标志，对应的，还可以有用于表示对图数据进行全量计算的全量计算标识。

进而，可以从可视化界面中提取用户输入的增量计算标识、增量图数据中点数据存储路径和边数据存储路径等参数，并在识别到增量计算标识后对图数据进行增量计算，即执行本实施例中S110至S140的过程。具体的，可分别从点数据存储路径和边数据存储路径下，获取增量图数据中的点数据和边数据，之后可以根据所获取的数据，确定目标子图和目标子图的新增数据。

进一步的，根据增量图数据确定目标子图可以是：从增量图数据的点数据中提取第一点集；从增量图数据的边数据中提取边所关联的端点，作为第二点集；可选的，由于同一端点可能关联两条或者两条以上的边(例如，端点1和端点2之间有一条边，端点1和端点3之间有一条边等)，进而从增量图数据的边数据中提取边所关联的端点后，可对所提取的端点进行去重处理，将去重处理后的端点作为第二点集。之后，可以将第一点集与第二点集的差集，作为孤立点集；由于增量图数据是在原图数据的基础上新增加的数据，进而可以直接将孤立点集作为新增加的子图。

同时，可以根据增量图数据中的边数据构建图对象，并可以采用开源的图计算框架(如采用Spark GraphX框架)进行子图计算，得到第一子图；将已有子图中与第一子图具有公共端点的子图(即变化子图)，作为第二子图，并将第一子图和第二子图进行合并，作为变化后的子图；进一步的，若已有子图中不存在与第一子图具有公共端点的子图，则可以直接将第一子图作为新增加的子图。

之后，可以将新增加的子图和变化后的子图，作为目标子图。在确定目标子图之后，也可以确定目标子图的新增数据。进一步的，可以将增量图数据中目标子图相关的数据作为目标子图的新增数据。本实施例中，新增数据即为新增加的数据，例如，对于上述端点4、5、6和8构成的目标子图而言，新增数据为端点8和端点4之间的边的数据。

S120，根据目标子图的新增数据中点数据，确定目标子图的增量关联数据。

本实施例中，关联数据可以按行存储，且每一行可以包括端点id和子图id，每行的结构可以表示为(端点id，子图id)。可选的，子图id可以是子图所包括端点中最小的端点id，或者也可以是子图所包括端点中最大的端点id等。本实施例及后续实施例将以子图id为子图所包括端点中最小的端点id为例进行说明，但并不限于此。目标子图的增量关联数据为根据目标子图的新增数据所确定的关联数据。

具体的，在确定目标子图和目标子图的新增数据之后，可以基于关联数据存储方式，根据目标子图的新增数据中点数据，确定目标子图的增量关联数据。

可选的，在确定目标子图的增量关联数据之后，可以将目标子图的增量关联数据保存到文件系统的临时空间，其中，本实施例的文件系统可以是开源的HDFS(HadoopDistributed File System，分布式文件系统)。需要说明的是，本实施例中，对于每一批次的增量图数据，在根据该增量图数据得到增量关联数据之后，均按照计算时间戳将增量关联数据保存到文件系统的临时空间中，这样可便于后续查询，同时可满足数据回滚和重做的需求。例如，若基于某一批次的增量图数据得到的增量关联数据有误，需要回滚，那么基于本实施例所提供的计算时间戳能够快速定位到处理任一批次增量图数据得到的增量关联数据，不需要进行大量数据处理。

S130，根据目标子图的增量关联数据和原关联数据，确定目标子图的新版本关联数据。

本实施例中，目标子图的原关联数据为根据原图数据所得到目标子图的关联数据(进一步为，综合本批次之前所有批次处理得到的与目标子图相关的关联数据)，例如目标子图由端点5、6、8和10构成，且端点6、8和10所构成的子图为已有子图中的变化子图，该变化子图的关联数据即为目标子图的原关联数据。目标子图的新版本关联数据中可以包括目标子图的变更关联数据，例如可以包括目标子图的修改关联数据和/或目标子图的添加关联数据；进一步的，目标子图的新版本关联数据中还可以包括目标子图的未变关联数据，即目标子图的原关联数据。

具体的，对于每一目标子图，若该目标子图为因引入增量图数据而新增加的子图，则该目标子图没有原关联数据，进而该目标子图的增量关联数据即为该目标子图的新版本关联数据。若该目标子图为变化后的子图，则可以根据增量关联数据中端点id和该目标子图的id，以及原关联数据中端点id和该目标子图的id，确定目标子图的新版本关联数据。

可选的，在确定目标子图的新版本关联数据之后，可以根据目标子图的新版本关联数据和已有子图的关联数据(进一步可以为原子图的关联数据)进行子图数量的计算。例如，可以分别从本批次计算(如第n次计算)得到的目标子图的新版本关联数据，以及本批次之前的所有批次计算(如前n-1次的计算)得到的已有子图的关联数据(进一步的，若目标子图的新版本关联数据中包括目标子图的未变关联数据，则此处可以为已有子图中原子图的关联数据)中提取子图id，并进行去重处理，之后可以统计进行去重处理之后的子图id的数量，并将所统计的子图id的数量作为子图的数量。

进一步的，还可以判断多个端点是否属于同一子图。例如，可以将用户指定的每一端点id作为索引，从本批次计算(如第n次计算)得到的目标子图的新版本关联数据，以及本批次之前的所有批次计算(如前n-1次计算)得到的已有子图的关联数据中查询该端点id关联的子图id；之后，可以根据所获取的各个端点id关联的子图id，确定各端点是否属于同一子图。

S140，根据目标子图的新版本关联数据和目标子图中的边数据，确定目标子图的新版本详情数据。

本实施例中，详情数据可以按行存储，且每一行可以包括子图id、边id、边类型、第一端点id、第一端点类型、第二端点id、和第二端点类型等，每行的结构可以表示为(子图id，边id，边类型，第一端点id，第一端点类型，第二端点id，第二端点类型)，其中，第一端点和第二端点为边所关联的两个端点。

具体的，在确定目标子图的新版本关联数据之后，可以根据目标子图中的边数据构建边对象，并可以根据目标子图的新版本关联数据和边对象，确定目标子图的新版本详情数据。其中，边对象的结构可以表示为(边id，边类型，第一端点id，第一端点类型，第二端点id，第二端点类型)。

进一步的，本实施例中在确定目标子图的增量关联数据之后，还可以根据目标子图的新增数据中的边数据，构建边对象；根据目标子图的增量关联数据和所构建的边对象，确定目标子图的增量详情数据；进而还可根据目标子图的增量详情数据和原详情数据，确目标子图的新版本详情数据等。本实施例中目标子图的增量详情数据也可存储于文件系统的临时空间，便于后续查询等。

可选的，在确定目标子图的新版本详情数据之后，可以进行子图详情数据的计算。例如，可以将用户指定的子图id作为索引，从本批次计算(如第n次计算)得到的目标子图的新版本详情数据，以及本批次之前的所有批次计算(如前n-1次计算)得到的已有子图的详情数据中查询该子图id所对应的子图的详情数据等。

需要说明的是，现有的离线计算方式，随着时间推移，计算的数据量越大；而本实施例引入子图的关联数据和详情数据，每批次可只处理增量图数据，降低了数据计算量，提高了数据处理效率，同时可满足用户对于子图计算需求的。此外，本实施例也可并发处理不同用户或者同一用户的多个子图计算。

本发明实施例的技术方案，通过引入子图的关联数据和详情数据，为快速进行子图计算等奠定了基础；同时，对增量图数据进行处理，得到目标子图的新版本关联数据和新版本详情数据，以进行子图计算。相比于现有的离线计算方式，本实施例只处理增量图数据，降低了数据计算量，提高了数据处理效率，同时可满足用户对于子图计算需求的。

实施例二

图2是本发明实施例二中提供的一种图数据处理方法的流程图，本实施例在上述实施例的基础上，提供了一种确定增量关联数据和新版本关联数据的方案。参见图2，该方法具体可以包括：

S210，根据增量图数据，确定目标子图和目标子图的新增数据。

S220，根据目标子图的新增数据中的端点id，确定目标子图的第一id。

进一步的，对于每一目标子图，若该目标子图为因引入增量图数据而新增加的子图，且该目标子图所包括端点数量为一个，则可以将该目标子图所包括的端点的id作为该目标子图的第一id。若该目标子图为因引入增量图数据而新增加的子图，且该目标子图所包括端点数量为两个或两个以上，则可以从该目标子图的新增数据的各个端点id中选择最小端点id，作为该目标子图的第一id。若该目标子图为变化后的子图，则可以从该目标子图的新增数据的各个端点id中选择最小端点id，作为该目标子图的第一id。

S230，根据目标子图的第一id和目标子图的新增数据中的端点id，确定目标子图的增量关联数据。

可选的，对于每一目标子图，若该目标子图所包括端点数量为一个，则可以将该目标子图所包括的端点的id和该目标子图的第一id关联，作为该目标子图的增量关联数据；若该目标子图所包括端点数量为两个或两个以上，则可以分别将该目标子图所包括的每一端点的id和该目标子图的第一id关联，进而得到该目标子图的增量关联数据。

S240，根据增量关联数据中目标子图的第一id和原关联数据中目标子图的第二id，确定目标子图的目标id。

可选的，对于每一目标子图，若该目标子图为因引入增量图数据而新增加的子图，则该目标子图没有原关联数据，进而该目标子图的第一id即为该目标子图的目标id。

若该目标子图为变化后的子图，则可以将目标子图的第一id和第二id进行比较，若目标子图的第一id小于第二id，则可以将目标子图的第一id作为目标子图的目标id；若目标子图的第一id大于第二id，则可以将目标子图的第二id作为目标子图的目标id；若目标子图的第一id等于第二id，则可以将第二id或者第一id作为目标子图的目标id。

S250，根据目标子图的目标id和目标子图中的端点id，确定目标子图的新版本关联数据。

本实施例中，目标子图的新版本关联数据可以包括目标子图的修改关联数据和/或目标子图的添加关联数据。

可选的，对于每一目标子图，若该目标子图为因引入增量图数据而新增加的子图，则可以将该目标子图的增量关联数据作为该目标子图的新版本关联数据。

若该目标子图为变化后的子图，且该目标子图的第一id大于该目标子图的第二id，即该目标子图的第二id为该目标子图的目标id，此时可以将该目标子图的增量关联数据中的端点id和该目标子图的目标id关联，作为该目标子图的新版本关联数据中添加关联数据。进一步的，可以采用该目标子图的目标id替换该目标子图的增量关联数据中的第一id，并对进行替换处理后的增量关联数据进行去重处理(即删除与原关联数据中相同部分)，之后可以将进行去重处理之后的增量关联数据作为该目标子图的新版本关联数据中添加关联数据。例如，目标子图由端点5、6、8和10构成，目标子图的原关联数据包括(5，5)，(8，5)和(10，5)；目标子图的增量关联数据包括(8，6)和(6，6)，目标子图的第一id(即6)大于目标子图的第二id(即5)，进而目标子图的新版本关联数据中添加关联数据为(6，5)。

若该目标子图为变化后的子图，且该目标子图的第一id小于该目标子图的第二id，即该目标子图的第一id为该目标子图的目标id，此时可以将该目标子图的端点id和该目标子图的目标id关联，作为该目标子图的新版本关联数据。进一步的，可以采用该目标子图的目标id替换该目标子图的原关联数据中的第二id，将进行替换处理后的原关联数据作为该目标子图的新版本关联数据中修改关联数据；与此同时，可以对增量关联数据进行去重处理(即删除与替换处理后的原关联数据中相同部分)，之后可以将进行去重处理之后的增量关联数据作为该目标子图的新版本关联数据中添加关联数据。例如，目标子图由端点4、5、6、8和10构成，目标子图的原关联数据包括(5，5)，(6，5)(8，5)和(10，5)；目标子图的增量关联数据包括(6，4)和(4，4)，目标子图的第一id(即4)小于目标子图的第二id(即5)，进而目标子图的新版本关联数据中修改关联数据包括(5，4)，(6，4)(8，4)和(10，4)；目标子图的新版本关联数据中添加关联数据包括(4，4)。

若该目标子图为变化后的子图，且该目标子图的第一id等于该目标子图的第二id，即该目标子图的第二id或第一id为该目标子图的目标id，此时可以对增量关联数据进行去重处理(即删除与原关联数据中相同部分)，之后可以将进行去重处理之后的增量关联数据作为该目标子图的新版本关联数据中添加关联数据。例如，目标子图由端点5、6、8和10构成，目标子图的原关联数据包括(5，5)，(8，5)和(10，5)；目标子图的增量关联数据包括(5，5)和(6，5)，目标子图的第一id(即5)等于目标子图的第二id(即5)，进而目标子图的新版本关联数据中添加关联数据包括(6，5)。

S260，根据目标子图的新版本关联数据和目标子图中的边数据，确定目标子图的新版本详情数据。

可选的，在目标子图的新版关联数据包括目标子图的修改关联数据和/或目标子图的添加关联数据的情况下，目标子图的新版本详情数据也可以包括目标子图的修改详情数据和/或添加详情数据。

可选的，根据目标子图的新版本关联数据和目标子图中的边数据，确定目标子图的新版本详情数据可以是：根据目标子图的修改关联数据和目标子图的原数据中的边数据，确定目标子图的新版本详情数据中的修改详情数据；根据目标子图的添加关联数据和目标子图的新增数据中的边数据，确定目标子图的新版本详情数据中的添加详情数据。本实施例中的目标子图的原数据即为目标子图中除新增数据之后的所有图数据，或者可以说综合本批次之前所有批次中与目标子图相关的图数据。

具体的，可以根据目标子图的原数据中的边数据，构建边对象；之后根据目标子图的修改关联数据和所构建的边对象，确定目标子图的新版本详情数据中修改详情数据。与此同时，还可以根据目标子图的新增数据中的边数据，构建边对象；之后根据目标子图的添加关联数据中所构建的边对象，确定目标子图的新版本详情数据中添加详情数据。本实施例基于目标子图的新版关联数据，确定目标子图的新版详情数据，为快速精准确定子图的详情数据提供了一种新思路。

本发明实施例提供的技术方案，通过根据目标子图的新增数据，确定目标子图的增量关联数据；之后可根据所确定的增量关联数据中目标子图的第一id、原关联数据中目标子图的第二id、以及目标子图中的端点id，即可得到目标子图的新版本关联数据，并可基于新版本关联数据得到新版本详情数据，以进行子图计算。相比于现有的离线计算方式，本实施例只处理增量图数据，降低了数据计算量，提高了数据处理效率，同时可满足用户对于子图计算需求的。

实施例三

图3是本发明实施例三中提供的一种图数据处理方法的流程图，本实施例在上述实施例的基础上，增加了更新关联查询表和详情查询的过程。参见图3，该方法具体可以包括：

S310，根据增量图数据，确定目标子图和目标子图的新增数据。

S320，根据目标子图的新增数据中点数据，确定目标子图的增量关联数据。

S330，根据目标子图的增量关联数据和原关联数据，确定目标子图的新版本关联数据。

S340，根据目标子图的新版本关联数据和目标子图中的边数据，确定目标子图的新版本详情数据。

S350，采用目标子图的新版本关联数据，对包括已有子图的关联数据的关联查询表进行更新。

为了低延迟查询数据，本实施例中的关联查询表中的数据采用列式存储方式存储，进一步的可以采用基于HBase的列式存储方式存储。例如，表1所示的基于HBase存储引擎的数据存储结构。其中，行键长度为16个字节，行键中的端点id和子图id均为长整型，且长度为8个字节。

表1基于HBase存储引擎的关联数据存储结构

进而，在确定目标子图的新版本关联数据之后，可以先对目标子图的新版本关联数据进行格式转化，即将目标子图的新版本关联数据转化为查询结构数据；而后，可以采用进行格式转化后的数据，对包括已有子图的关联数据的关联查询表进行更新。进一步的，目标子图的新版关联数据中可以包括目标子图的修改关联数据和/或添加关联数据，进而可以采用进行格式转化后的修改关联数据替换关联查询表中的相关数据，同时可以将进行格式转化后的添加关联数据写入关联查询表中。

可选的，在更新关联查询表之后，可以通过更新后的关联查询表，查询子图数量、判断多个端点是否属于同一子图等。

例如，用户在具有判断多个端点是否属于同一子图需求时(例如，用户想要查询目标端点5、6和10是否属于同一子图)，可根据可视化界面中提示信息输入相关参数，如可以输入目标端点id，并提交，以生成包括目标端点id的子图归属查询请求，其中，目标端点的数量为两个或两个以上。

进而，可以获取用户发送的包括目标端点id的子图归属查询请求；根据目标端点id，查询关联查询表；根据查询结果，判断目标端点是否归属于同一子图，并向用户反馈判断结果。例如，可分别将目标端点5、6和10作为输入，通过查询函数scan查询关联查询表，可获取对应的行键(即ROWKEY)，之后可以通过解析行键，获取每一个目标端点所对应的子图id；综合所获取的每一个目标端点所对应的子图id，进行统计分析，可确定目标端点是否属于同一子图。进一步的，获取每一个目标端点所对应的子图id之后，可以基于键值对(key-value)形式确定目标端点是否属于同一子图。例如，可以以任意目标端点所对应的子图id为key，若value中包括各目标端点id，则可以确定目标端点是属于同一子图。

此外，用户在具有子图数量查询需求时，还可根据可视化界面中提示信息输入相关参数，如子图数据查询标识等，并提交，以生成子图数量查询请求。进而，可获取用户发送的子图数量查询请求，可以从关联查询表中提取子图id，并进行去重处理，之后可以统计进行去重处理之后的子图id的数量，并将所统计的子图id的数量作为子图的数量。

S360，采用目标子图的新版本详情数据，对包括已有子图的详情数据的详情查询表进行更新。

可选的，为了低延迟查询数据，本实施例中的详情查询表中的数据也可采用列式存储方式存储，进一步的可以采用基于HBase的列式存储方式存储。例如，表2所示的基于HBase存储引擎的数据存储结构。其中，行键长度为18个字节，行键中包括子图id、边类型和边id，子图id和边id均为长整型，且长度为8个字节；边类型为通过字典编码后的数值，长度为2个字节。组件采用二级列簇存储机制，列簇中有一个属性列即边信息(connection)，长度为20个字节；其中，第一端点id和第二端点id均为长整型，且长度为8个字节；第一端点类型和第二端点类型均为通过字典编码后的数值，长度为2个字节。

表2基于HBase存储引擎的详情数据存储结构

进而，在确定目标子图的新详情关联数据之后，可以先对目标子图的新版本详情数据进行格式转化，即将目标子图的新版本详情数据转化为查询结构数据；而后，可以采用进行格式转化后的数据，对包括已有子图的详情数据的关详情查询表进行更新。进一步的，目标子图的新版详情数据中可以包括目标子图的修改详情数据和/或添加详情数据，进而可以采用进行格式转化后的修改详情数据替换详情查询表中的相关数据，同时可以将进行格式转化后的添加详情数据写入详情查询表中。

可选的，在更新详情查询表之后，可以通过更新后的详情查询表，查询任一子图详情数据(即子图结构)等。

例如，用户在具有查询任一子图详情数据的需求时，可根据可视化界面中提示信息输入相关参数，如可以输入单端点id，并提交，以生成包括单端点id的子图详情查询请求。

进而，可以获取用户发送的包括单端点id的子图详情查询请求；根据单端点id，查询详情查询表，获取单端点关联的子图的详情数据；向用户反馈单端点关联的子图的详情数据。例如，可将单端点id作为输入，通过查询函数scan查询详情查询表，可获取对应的组件和行键，之后可以通过对行键进行解析，得到单端点关联的子图的id；以该子图id为索引，通过查询函数scan查询详情查询表，可以获取该子图所包括的所有组件，通过对组件中的边信息进行解析，构建图结构对象，如[(边id，边类型，第一端点id，第一端点类型，第二端点id，第二端点类型)，……]，之后可以将图结构对象反馈给用户，即将单端点关联的子图的详情数据反馈给用户。

本发明实施例提供的技术方案，通过引入关联查询表和详情查询表，可快速查询子图相关数据如子图数量和子图详情数据等，为快速查询子图相关数据提供了一种可选方式。

实施例四

图4是本发明实施例四中提供的一种图数据处理过程的示意图。本实施例在上述实施例的基础上，提供了一种优选实例。参见图4，该方法具体可以如下：

从可视化界面中提取用户输入的计算标识、点数据存储路径和边数据存储路径等参数，并在识别到计算标识为增量计算标识后，对图数据进行增量计算。具体的，可依据数据存储时间戳分别从点数据存储路径和边数据存储路径下读取本批次(即增量图数据)的点数据和边数据，之后可以根据增量图数据中的点数据和边数据，确定目标子图的增量关联数据，具体过程可以参见上述实施例，本实施例不再赘述。

在确定目标子图的增量关联数据之后，可以根据目标子图的新增数据中的边数据，构建边对象；根据目标子图的增量关联数据和所构建的边对象，确定目标子图的增量详情数据。例如，目标子图的增量关联数据用A_n表示，边对象用edgeFrame，eId表示边id，eType表示边类型，fVId表示第一端点id，fVType表示第一端点类型，tVId表示第二端点id，tVType表示第二端点类型，则边对象的结构可以表示为(eId，eType，VId，fVType，tVId，tVType)。进而基于SQL语句，采用开源的图计算框架(如采用Spark GraphX框架)，确定目标子图的增量详情数据的过程可以描述为：select A_n.gId，edgeFrame.eId，edgeFrame.eType，edgeFrame.fVId，edgeFrame.fVType，edgeFrame.tVId，edgeFrame.tVType from A_njoin edgeFrame on A_n.eId＝edgeFrame.fVId。

进一步的，在确定目标子图的增量关联数据之后，可以按照批次的计算时间顺序，加载之前批次计算的已有子图的关联数据，在此过程中，以关联数据中的端点id进行覆盖(也就是说同一端点id只读取一次)，且覆盖顺序为第n-1次计算的子图的添加关联数据>第n-1次计算的子图的修改关联数据>第n-2次计算的子图的添加关联数据…>第1次计算的子图的修改关联数据。并根据已有子图的关联数据得到目标子图的关联数据，进而可根据目标子图的增量关联数据和原关联数据，确定目标子图的新版本关联数据，目标子图的新版本关联数据可以包括目标子图的修改关联数据和/或目标子图的添加关联数据。或者可直接根据已有子图的关联数据和目标子图的增量关联数据，确定目标子图的新版本关联数据。例如，已有子图的关联数据可以表示为∑A，子图id可以表示为gId，端点id可以表示为vId。进而基于SQL语句，采用开源的图计算框架(如采用Spark GraphX框架)，确定目标子图的新版本关联数据中修改关联数据的过程可以描述为：select A_n.vId，A_n.gId，(∑A).gIdas oGId from A_n join(∑A)on A_n.vId＝(∑A).vId；确定目标子图的新版本关联数据中添加关联数据的过程可以描述为：select A_n.vId，A_n.gId from A_n where A_n.vId except(∑A).vId。

可选的，在得到目标子图的新版关联数据之后，可以将目标子图的新版关联数据存储于文件系统中。进一步的，为便于后续读取，以及基于运行内存的限制，本实施例中目标子图的新版本关联数据中的添加关联数据和修改关联数据可以存储于不同文件中。

进一步的，在得到目标子图的新版本关联数据之后，可以根据目标子图的添加关联数据和目标子图的新增数据中的边数据，确定目标子图的新版本详情数据中的添加详情数据，具体过程可以参见上述实施例，本实施例不再赘述。例如，目标子图的添加关联数据表示为A_n(新添)，则基于SQL语句，采用开源的图计算框架(如采用Spark GraphX框架)，确定目标子图的新版本详情数据中的添加详情数据的过程可以描述为：select A_n(新添).gId，edgeFrame.eId，edgeFrame.eType，edgeFrame.fVId，edgeFrame.fVType，edgeFrame.tVId，edgeFrame.tVType from A_n(新添)join edgeFrame on A_n(新添).vId＝min(edgeFrame.fVId，edgeFrame.tVId)。

同理，读取之前批次的边数据，按照边的编号去重，可以从去重处理后的边数据中获取目标子图的原数据中的边数据，之后可以根据目标子图的原数据中的边数据，构建边对象；根据目标子图的修改关联数据和所构建的边对象，确定目标子图的新版本详情数据中修改详情数据。或者，还可以直接根据去重处理后的边数据构建边对象即∑edgeFrame，之后根据目标子图的修改关联数据和所构建的边对象，确定目标子图的新版本详情数据中修改详情数据。例如，目标子图的修改关联数据表示为A_n(修改)，则基于SQL语句，采用开源的图计算框架(如采用Spark GraphX框架)，确定目标子图的新版本详情数据中的修改详情数据的过程可以描述为：select A_n(修改).gId，(∑edgeFrame).eId，(∑edgeFrame).eType，(∑edgeFrame).fVId，(∑edgeFrame).fVType，(∑edgeFrame).tVId，(∑edgeFrame).tVType from A_n(修改)join(∑edgeFrame)on A_n(修改).vId＝min((∑edgeFrame).fVId，(∑edgeFrame).tVId)。

可选的，在得到目标子图的新版详情数据之后，也可以将目标子图的新版详情数据存储于文件系统中。进一步的，为便于后续读取，以及基于运行内存的限制，本实施例中目标子图的新版本详情数据中的添加详情数据和修改详情数据可以存储于不同文件中。

之后，可以执行对目标子图的新版本详情数据和目标子图的新版本关联数据进行格式转化的操作，以及更新关联查询表和详情查询表的操作；而后可以基于更新后的关联查询表，查询子图数量、判断多个端点是否属于同一子图等，还可以基于更新后的详情查询表，查询任一子图详情数据(即子图结构)等，具体过程可以参见上述实施例，此处不再赘述。需要说明的是，进行格式转化后的数据存储于文件系统的临时空间，因此可以将进行格式转化后的数据从临时空间转到持久空间中，如硬盘中。

示例性的，若识别到计算标识为全量计算标识后，对图数据进行全量计算，可选的，对图数据进行全量计算的过程中，与上述实施例中对增量图数据进行处理得到目标子图的增量关联数据的过程类似，具体处理过程如下：可以从点数据存储路径下读取所有批次的点数据(即总点数据)，并可以从所读取的总点数据中提取第一总点集；从边数据存储路径下读取所有批次的边数据(即总边数据)，并从总边数据中提取边所关联的端点，对所提取的端点进行去重处理，将去重处理后的端点作为第二总点集，之后，可以将第一总点集与第二总点集的差集，作为孤立总点集；之后可以将孤立总点集作为第一总子图。

同时，可以根据总边数据构建图对象，并可以采用开源的图计算框架(如采用Spark GraphX框架)进行子图计算，得到第二总子图。之后，可以将第一总子图和第二总子图一并作为目标总子图；并可以基于关联数据的存储方式，根据目标总子图中的点数据，得到目标总子图的关联数据。

此外，在得到目标总子图的关联数据之后，还可以根据总边数据，得到总边对象，进而根据目标总子图的关联数据和总边对象可以得到目标总子图的详情数据。可选的，本实施例中也可以将目标总子图的关联数据和目标总子图的详情数据存储于文件系统中。

之后，可以执行对目标总子图的本详情数据和目标总子图的关联数据进行格式转化的操作，并可以将进行格式后的数据分别加载到关联查询表和详情查询表中，进而可以基于关联查询表，查询子图数量、判断多个端点是否属于同一子图等，还可以基于详情查询表，查询任一子图详情数据(即子图结构)等，具体过程可以参见上述实施例，此处不再赘述。

需要说明的是，本实施例中基于提供可视化界面，用户可灵活选择计算方式，进一步增加了方案的灵活度。

本发明实施例提供的技术方案，通过引入子图的关联数据和详情数据，为快速进行子图计算等奠定了基础；同时，对增量图数据进行处理，得到目标子图的新版本关联数据和新版本详情数据，以进行子图计算。相比于现有的离线计算方式，本实施例只处理增量图数据，降低了数据计算量，提高了数据处理效率，同时可满足用户对于子图计算需求的。此外，通过引入关联查询表和详情查询表，可快速查询子图相关数据如子图数量和子图详情数据等，为快速查询子图相关数据提供了一种可选方式。

实施例五

图5为本发明实施例五中提供的一种图数据处理装置的结构框图，该装置可执行本发明任意实施例所提供的图数据处理方法，具备执行方法相应的功能模块和有益效果。如图5所示，该装置可以包括：

目标数据确定模块510，用于根据增量图数据，确定目标子图和所述目标子图的新增数据；

增量关联数据确定模块520，用于根据目标子图的新增数据中点数据，确定目标子图的增量关联数据；

新关联数据确定模块530，用于根据目标子图的增量关联数据和原关联数据，确定目标子图的新版本关联数据；

新详情数据确定模块540，用于根据目标子图的新版本关联数据和目标子图中的边数据，确定目标子图的新版本详情数据；

示例性的，增量关联数据确定模块520具体可以用于：

根据目标子图的新增数据中的端点id，确定目标子图的第一id；

根据目标子图的第一id和目标子图的新增数据中的端点id，确定目标子图的增量关联数据。

示例性的，新关联数据确定模块530具体可以用于：

根据增量关联数据中目标子图的第一id和原关联数据中目标子图的第二id，确定目标子图的目标id；

根据目标子图的目标id和目标子图中的端点id，确定目标子图的新版本关联数据；目标子图的新版本关联数据包括目标子图的修改关联数据和/或目标子图的添加关联数据。

示例性的，新详情数据确定模块540具体可以用于：

根据目标子图的修改关联数据和目标子图的原数据中的边数据，确定目标子图的新版本详情数据中修改详情数据；

根据目标子图的添加关联数据和目标子图的新增数据中的边数据，确定目标子图的新版本详情数据中添加详情数据。

示例性的，上述装置还可以包括：更新模块，该更新模块具体可以用于：

采用目标子图的新版本关联数据，对包括已有子图的关联数据的关联查询表进行更新；

采用目标子图的新版本详情数据，对包括已有子图的详情数据的详情查询表进行更新；

其中，关联查询表和详情查询表中的数据采用列式存储方式存储。

示例性的，上述装置还可以包括：同一子图判断模块，该同一子图判断模块具体可以用于：

获取用户发送的包括目标端点id的子图归属查询请求；目标端点的数量为至少两个；

根据目标端点id，查询关联查询表；

根据查询结果，判断目标端点是否归属于同一子图，并向用户反馈判断结果。

示例性的，上述装置还可以包括：子图详情查询模块，该子图详情查询模块具体可以用于：

获取用户发送的包括单端点id的子图详情查询请求；

根据单端点id，查询详情查询表，获取单端点关联的子图的详情数据；

向用户反馈单端点关联的子图的详情数据。

实施例六

图6为本发明实施例六中提供的一种电子设备的结构示意图。图6示出了适于用来实现本发明实施方式的示例性电子设备12的框图。图6显示的电子设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。可选的，电子设备典型可以是承载图数据处理功能的服务器。

如图6所示，电子设备12以通用计算设备的形式表现。电子设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，存储器28，连接不同系统组件(包括存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

电子设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图6未显示，通常称为“硬盘驱动器”)。尽管图6中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

电子设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该电子设备12交互的设备通信，和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，电子设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与电子设备12的其它模块通信。应当明白，尽管图6中未示出，可以结合电子设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的图数据处理方法。

实施例七

本发明实施例七还提供了一种计算机可读存储介质，其上存储有计算机程序(或称为计算机可执行指令)，该程序被处理器执行时用于执行本发明实施例所提供的图数据处理方法。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种图数据处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，根据所述目标子图的新增数据中点数据，确定所述目标子图的增量关联数据，包括：

根据所述目标子图的新增数据中的端点id，确定所述目标子图的第一id；

根据所述目标子图的第一id和所述目标子图的新增数据中的端点id，确定所述目标子图的增量关联数据。

3.根据权利要求1或2所述的方法，其特征在于，根据所述目标子图的增量关联数据和原关联数据，确定所述目标子图的新版本关联数据，包括：

根据所述增量关联数据中目标子图的第一id和所述原关联数据中目标子图的第二id，确定所述目标子图的目标id；

根据所述目标子图的目标id和所述目标子图中的端点id，确定所述目标子图的新版本关联数据；所述目标子图的新版本关联数据包括所述目标子图的修改关联数据和/或所述目标子图的添加关联数据。

4.根据权利要求3所述的方法，其特征在于，根据所述目标子图的新版本关联数据和所述目标子图中的边数据，确定所述目标子图的新版本详情数据，包括：

根据所述目标子图的修改关联数据和所述目标子图的原数据中的边数据，确定所述目标子图的新版本详情数据中修改详情数据；

根据所述目标子图的添加关联数据和所述目标子图的新增数据中的边数据，确定所述目标子图的新版本详情数据中添加详情数据。

5.根据权利要求1所述的方法，其特征在于，根据所述目标子图的增量关联数据和原关联数据，确定所述目标子图的新版本关联数据之后，还包括：

采用所述目标子图的新版本关联数据，对包括已有子图的关联数据的关联查询表进行更新；

采用所述目标子图的新版本详情数据，对包括已有子图的详情数据的详情查询表进行更新；

其中，所述关联查询表和所述详情查询表中的数据采用列式存储方式存储。

6.根据权利要求5所述的方法，其特征在于，还包括：

根据所述目标端点id，查询所述关联查询表；

根据查询结果，判断所述目标端点是否归属于同一子图，并向用户反馈判断结果。

7.根据权利要求5所述的方法，其特征在于，还包括：

获取用户发送的包括单端点id的子图详情查询请求；

根据所述单端点id，查询所述详情查询表，获取单端点关联的子图的详情数据；

向用户反馈所述单端点关联的子图的详情数据。

8.一种图数据处理装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一项所述的图数据处理方法。

10.一种介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的图数据处理方法。