CN109635134B

CN109635134B - 一种用于大规模动态图数据的高效处理流程方法

Info

Publication number: CN109635134B
Application number: CN201811649644.8A
Authority: CN
Inventors: 赵子豪; 杨汉玮
Original assignee: Nupt Institute Of Big Data Research At Yancheng
Current assignee: Nupt Institute Of Big Data Research At Yancheng
Priority date: 2018-12-30
Filing date: 2018-12-30
Publication date: 2023-06-13
Anticipated expiration: 2038-12-30
Also published as: CN109635134A

Abstract

本发明涉及一种用于大规模动态图数据的高效处理流程方法；属于计算机数据处理技术领域。本发明基于NoSQL数据库采用数据预处理对大规模图数据集进行过滤精简数据，确认待分析问题重要度较强的节点；基于关键节点结合网络结构做社区检测；将社区检测后的结果赋予优先级；将高关联度的关键节点之间的的边作为后期处理的数据，进行挖掘。本发明提供的用于大规模动态图数据的高效处理流程方法，能够通过合理筛选数据的方法，在高复杂度的场景下，提升图数据的处理效率。

Description

一种用于大规模动态图数据的高效处理流程方法

技术领域

本发明涉及一种用于大规模动态图数据的高效处理流程方法；属于计算机数据处理技术领域。

背景技术

一直以来，关系数据模型在商业数据中占统治性地位，但是随着数据获取来源的增加以及数据处理技术的发展，数据的数量越来越多，形式也越来越复杂，应用的范围越来越广，对数据处理灵活性和实时性的要求越来越强。关系数据模型在数据建模上的缺陷和问题以及在大数据量和多服务器上进行水平伸缩的限制。

因此NoSQL数据库(非关系型数据库)应运而生，NoSQL是一类应用范围非常广泛的数据持久化解决方案，它们不遵循关传统的系数据库模型，也不使用SQL作为查询语言。其数据存储不须遵循固定的表格模式，一般具有水平可扩展的特征，适应数据快速增长的应用场景。多种多样的NoSQL数据库按照它们所使用的数据模型基本上可以分为如下4类：Key-Value store，BigTable-Implementations，Document-stores，Graph Database。

图数据库是NoSQL在现代化应用场景中经常使用的典型代表。

图数据库起源于欧拉和图理论，其基本含义是以“图”这种数据结构存储和查询数据，其数据模型主要以节点和边来体现，其优点在于可以快速解决复杂的关系问题。常见的图模型还可以是一个被标记和标向的多重属性图，属性图允许每个节点和边有一组可变的属性列表，其中的属性是关联某个名字的值，简化了图形结构。在图数据中，不需要关系型数据库中的JOIN操作即可解决复杂的关系问题，借助于图数据库这一强大的工具，当下很多场景中的数据都转为了图数据模型。而后端的数据处理系统也用传统的关系型数据处理系统升级为图数据处理系统。

随着互联网，尤其是移动互联网的蓬勃发展以及数据采集技术的巨大进步，用户、系统和传感器所产生的数据量呈现指数增长，一些大规模的图数据集有上亿，甚至十亿、百亿级的节点和边。图计算的相关算法本身复杂度就比较高，计算耗时对数据规模的敏感度非常高。处理如此大规模的图数据，所需要的运算力已经远远超过传统的单机处理方式的上限，必须采用大规模机器集群构成的并行处理系统。但是与图计算相关的算法时间复杂度往往较高，许多问题也已被证明是NP难问题。简单地增加集群规模不仅给集群控制工作增添了压力，也增加很多成本，取得的效果也非常有限。

因此，开发一种从处理方式层面上高效解决图处理问题的图数据处理系统非常有必要。

发明内容

本发明针对上述问题提供了结合了预处理机制，支持数据预筛选的大规模动态图数据高效处理流程方法，具体是一种用于大规模动态图数据的高效处理流程方法。

本发明采用如下技术方案：

本发明所述的用于大规模动态图数据的高效处理流程方法，处理步骤如下：

1)、基于NoSQL数据库采用数据预处理对大规模图数据集进行过滤精简数据，经过精简后的大规模图数据集中剔除待分析问题中非同属性数据；

2)、确认待分析问题重要度较强的节点，该节点定义为关键节点；

3)、基于关键节点结合网络结构做社区检测；

4)、将社区检测后的结果赋予优先级，将带优先级的数据集筛选得到高关联度的关键节点；

5)、将高关联度的关键节点之间的边作为后期处理的数据，进行挖掘。

用于大规模动态图数据的高效处理流程方法，其特征在于：所述步骤2)“关键节点”可以人工指定，也可以经由机器处理选择确定通过对问题中的一些关键属性的设置，自动挖掘与问题相关度较高的节点。在此方法中，需要设定问题关注的属性，以及属性的阈值。算法将属性和属性的阈值作为筛选条件在整个图数据集中进行检索。并将检索得到的满足条件的节点设定为关键节点。

用于大规模动态图数据的高效处理流程方法，其特征在于：针对关键节点通过设定属性及属性阔值；NoSQL数据库通过算法将属性和属性的阈值作为筛选条件在大规模图数据集中进行检索；并将满足条件的节点设定为关键节点。比如对“度”这个属性，设置阈值为>＝10，则度大于等于10的节点为满足条件的节点。

本发明所述的用于大规模动态图数据的高效处理流程方法，在社区检测过程中，将上一步得到的关键节点作为种子节点，基于这些种子节点，通过基于种子节点的社区发现方法进行社区检测。可以通过调节社区半径、模块度等方法来限制筛选后数据的规模。经过社区发现所得到的关键节点所在的社区群即为与待分析问题高度相关的数据，将作为后续挖掘计算的基础。用于大规模动态图数据的高效处理流程方法，其特征在于：在社区检测中通过调节社区半径、模块度方法以限制筛选后数据的规模。

本发明所述的用于大规模动态图数据的高效处理流程方法，通过应用场景下的seed_property用于预处理的属性；通过seed_propery及具体值去判定节点是否是用于社区发现的种子节点。

本发明所述的用于大规模动态图数据的高效处理流程方法，在大规模图数据集处理中进程执行monitor()方法，用于监测本系统中已经存入的节点数目；当已存入的达到预先设定的阈值时，即开始执行数据预处理方法。

本发明所述的用于大规模动态图数据的高效处理流程方法，系统在启动时需要用户指定两个额外的参数，一个是数据规模，另一个是相关属性。用户需要预判此系统将要处理的数据规模，并根据此数据规模为size赋值。(若size缺省，则默认为系统要处理的数据规模为10w级的节点规模)用户还需指定将要用于图数据预处理的属性seed_property。

所述的用于大规模动态图数据的高效处理流程方法，定义了一系列在各种应用场景下常用的seed_property，用户可以在此基础上进行调整，也可以根据实际的应用场景和用户兴趣自行选择将用于预处理的属性，得到更适合实际应用场景的seed_property。系统将根据这些seed_propery及具体值去判定哪些节点是用于下一步用于评价其他节点在任务中优先级的种子节点。

在系统运行过程中，维护一个运行monitor()方法的进程，此进程实时监测已存入数据量，当存入数据规模达到预先设定的阈值后，开始执行预处理方法。(例如：预先设定当存入的节点达到一百万时开始执行预处理方法，则当节点数没到100万的时候，不会开始进行预处理。

本发明所述的用于大规模动态图数据的高效处理流程方法，提出用getWeight()方法评价节点权重值的思想，此权重值将用于计算节点在后续计算之中的优先级。对数据集中所有节点增加一个权重属性，通过执行上一条中所述的getWeight()方法获取节点权重值，并将权重属性值作为后续处理数据的一项参考指标。

getWeight()方法可以结合用户兴趣使用不同的实现方法，一种方法是基于离群点检测，另一种方法是基于社区发现的结果，且其具体实现可以由用户定制，特别地，本发明提出了一种基于社区检测的实现方法。

本发明所述的用于大规模动态图数据的高效处理流程方法，提出了一个pick()方法用于从数据集预处理的结果之中选择与用户兴趣关联强的节点用于后续计算，对整个数据集执行pick()方法进行筛选，此方法将从整个数据集中筛选出一部分在整个数据集中关键性较强，处理价值较高的数据，而后对这些数据执行正式处理。pick()方法可以由用户自行定制。

本发明提供了一种基于节点权重的具体实现方法：

采用getWeight()方法和pick()方法的具体实现，支持对整个图数据集中的各种属性进行处理和操作，可操作的属性包括但不限于数值型属性和类别型属性。

本发明所述的用于大规模动态图数据的高效处理流程方法，提供了一套数据传输接口，支持基本的写入、读取等数据交互的基本操作，并且对不同工具之间的差异进行了屏蔽，使得本系统支持与各种主流图处理工具和图数据库(如GraphX、Titan、Neo4j)融合使用。

有益效果

本发明提供的用于大规模动态图数据的高效处理流程方法，能够通过合理筛选数据的方法，在高复杂度的场景下，提升图数据的处理效率。

附图说明

图1是本发明的处理流程示意图。

具体实施方式

为使本发明实施例的目的和技术方案更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示：本发明采用的用于大规模动态图数据的高效处理流程方法；

预处理的作用是筛选出大规模图数据集中与待分析问题(待分析问题是指数据挖掘任务)高度相关的数据并将这些数据作为后续计算的基础，其他数据不送入后续处理过程，从而减轻计算压力。

本发明中所述的预处理过程实际上是根据特定的属性做数据过滤的过程，过滤的目的是精简数据。

首先在大规模图数据集中剔除掉与待分析问题相关度不高的属性。然后确认在待分析问题中重要度较强的节点，并将其称为“关键”节点。然后根据待分析问题，结合网络结构做社区检测，找出在此问题上与这些关键节点关联度较高的节点，将这些节点及节点之间的边作为后期处理的数据，进行更进一步的挖掘。

网络结构和社区是图数据领域的术语，网络结构指图数据中节点和边的相连情况，社区指内部连边密集的子图。挖掘是数据挖掘的意思，指的是在数据上进行特定的处理，从中提取有用的信息。

作为本发明的优选方式：其“关键节点”可以人工指定，也可以经由机器处理选择确定。

本发明提供了一个系统以实现上述流程方法。

本发明提出的系统在启动时需要用户指定两个额外的参数，一个是数据规模，另一个是相关属性。用户需要预判此系统将要处理的数据规模，并根据此数据规模为size赋值。(若size缺省，则默认为系统要处理的数据规模为10w级的节点规模)用户还需指定将要用于图数据预处理的属性seed_property。

进一步地，本发明定义了一系列在各种应用场景下常用的seed_property，用户可以在此基础上进行调整，也可以根据实际的应用场景和用户兴趣自行选择将用于预处理的属性，得到更适合实际应用场景的seed_property。系统将根据这些seed_propery及具体值去判定哪些节点是用于下一步社区发现的种子节点。

具体步骤如下：

第一步是根据预设的seed_property及阈值确定seed_node。系统将根据预设条件，在数据集中检索符合要求的数据，比如“节点度为8以上的节点”。然后将这些检索得到的节点作为社区发现步骤中的种子节点，进一步进行社区发现，进而得到与待研究问题高度相关的子数据集。

作为优选方式：系统提供的seed_property仅作为用户未指定seed_property时的默认值。根据具体使用场景的不同，用户可以自行指定后边用于数据预处理的seed_property。

具体方法为：本发明在系统运行过程中，维护一个运行monitor()方法的进程，此进程实时监测已存入数据量，当数据存入达到一定规模后，开始执行预处理方法。

在启动时会单独启动一个进程执行monitor()方法，此进程用于监测本系统中已经存入的节点数目。当已存入的达到一个预先设定的阈值时，即开始执行数据预处理方法。

一般地，此阈值可以设置为0，即在系统冷启动时便启动预处理进程，对后续存入的数据进行预处理。

但出于对系统稳定性和节约计算资源等因素的考虑，本发明预先设置了动态的阈值，即若用户预先设定的数据规模size小于100万节点，当存入节点达到总节点数的10％时，启动预处理过程；若用户预先设定的数据规模size大于100万个节点，则当存入节点达到10万个时，启动预处理过程。

作为优选方案，用户可以通过setThreshold()方法设置限定的阈值，且设定阈值不必限定在系统启动之前，在系统运行过程中可以热操作修改阈值。monitor进程会自动比较已存入数据量和阈值的关系，动态地启动和停止数据处理进程。

本发明还提出用getWeight()方法评价节点权重值的方案，此权重值将用于计算节点在后续计算之中的优先级。getWeight，首先为第一步中的种子节点赋予最高的权重值。然后基于种子节点做分层次的社区发现，在社区发现结果中，与种子节点共同出现在同一个社区的次数更多的节点与种子节点联系越密切，相应地其权重值也就越大。对数据集中所有节点增加一个权重属性，通过执行上一条中所述的getWeight()方法获取节点权重值，并将权重属性值作为后续处理数据的一项参考指标。

getWeight()方法可以结合用户兴趣使用不同的实现方法，一种方法是基于离群点检测，另一种方法是基于社区发现的结果，且其具体实现可以由用户定制，特别地，本发明提出了一种基于离群点检测的实现方法。

提出了一个pick()方法用于从数据集预处理的结果之中选择与用户兴趣关联强的节点用于后续计算，pick为设置一个权重值阈值，超过这个值的就用于后续分析计算，没达到这个值的就不用于后续计算。

对整个数据集执行pick()方法进行筛选，此方法将从整个数据集中筛选出一部分在整个数据集中关键性较强，处理价值较高的数据，而后对这些数据执行正式处理。pick()方法可以由用户自行定制，特别地，本发明提供了一种基于节点权重的具体实现方法。

具体方法为：预处理过程主要执行getWeight()方法和pick()方法。

数据进行预处理的目的是通过用户设定的seed_property引入用户兴趣，从数据集中剔除掉那些与用户兴趣相关度低，处理价值不高的数据，保留跟用户兴趣相关度高，质量较高的数据，在经过筛选后的数据集上运行图计算方法，以便缩减实际用于图计算的数据，进而节省计算时间。

用户可以自行定义getWeight()方法和pick()方法。

getWeight()方法的目的是计算节点在整个图中的权重值。此权重值被看作节点在图计算中的优先级，此优先级由节点与关键节点的关联度决定，那些与关键节点距离近，关联大的节点在计算中应该被赋予更高的优先级。可以根据社区发现的结果设定节点的优先级，将离关键节点远的节点的优先级调低，或将离关键节点近的节点的优先级调高。

pick()方法用于从经预处理后的数据中选取与用户兴趣关联度大的数据，在选取下一步要计算的数据时，优先选择那些计算优先级较高的节点。

作为优选方案：

本发明提出的getWeight()方法和pick()方法的具体实现，支持对整个图数据集中的各种属性进行处理和操作，可操作的属性包括但不限于数值型属性和类别型属性。

特定的应用场景之中，系统会先将读入的节点顺序随机打乱，以免数据读入的顺序影响计算结果。然后根据预先设定好的seed_property，在数据集上针对节点的seed_property执行离群点检测的方法，在寻找离群点时，计算每个点相对于数据中心点的偏移距离，并将此距离记录，在后续评价节点与用户兴趣契合度的工作中将用到偏移距离。

根据用户兴趣，计算该节点的相关属性与用户兴趣的契合度，最终将节点在seed_property属性上的偏移距离和相关属性与用户兴趣的契合度进行归一化，根据归一化的结果为节点赋予一个与用户兴趣的契合值，这个值就是节点在图计算中的权重。此权重越大，代表这个节点在这个属性上与用户兴趣的契合度越大，代表性越强。因此这个权重被认为是用户执行特定计算时，节点被加入计算集合的优先级。

用户在执行最终要进行的计算处理时，系统会调用pick()方法，根据用户兴趣选择合适优先级的数据进行计算。

pick()方法选取节点的依据是上述的节点在计算中的优先级的高低。用户可以设置pick()方法选取的节点数，系统将按照优先级从高到低的顺序选取节点加入计算集合。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种用于大规模动态图数据的高效处理流程方法，其特征在于：处理步骤如下：

1）、基于NoSQL数据库采用数据预处理对大规模图数据集进行过滤精简数据，经过精简后的大规模图数据集中剔除待分析问题中非同属性数据；

2）、确认待分析问题中重要度较强的节点，该节点定义为关键节点；

3）、基于关键节点结合网络结构做社区检测；

4）、将社区检测后的结果赋予优先级，将带优先级的数据集筛选得到高关联度的关键节点；

5）、将高关联度的关键节点之间的边作为后期处理的数据，进行挖掘；

所述步骤2）中关键节点分为人工定义节点或NoSQL数据库处理选择后的节点；

针对关键节点通过设定属性及属性阈值；NoSQL数据库通过算法将属性和属性的阈值作为筛选条件在大规模图数据集中进行检索；并将满足条件的节点设定为关键节点；

通过得到的关键节点作为种子节点，基于种子节点通过基于种子节点的社区发现方法进行社区检测；

预处理过程主要执行getWeight()方法和pick()方法；

数据进行预处理的目的是通过用户设定的seed_property引入用户兴趣，从数据集中剔除掉那些与用户兴趣相关度低，处理价值不高的数据，保留跟用户兴趣相关度高，质量较高的数据，在经过筛选后的数据集上运行图计算方法；

用户自行定义getWeight()方法和pick()方法；

getWeight()方法的目的是计算节点在整个图中的权重值；此权重值被看作节点在图计算中的优先级，此优先级由节点与关键节点的关联度决定，那些与关键节点距离近，关联大的节点在计算中被赋予更高的优先级；根据社区发现的结果设定节点的优先级，将离关键节点远的节点的优先级调低，或将离关键节点近的节点的优先级调高；

2.根据权利要求1所述的用于大规模动态图数据的高效处理流程方法，其特征在于：在社区检测中通过调节社区半径、模块度方法以限制筛选后数据的规模。

3.根据权利要求1所述的用于大规模动态图数据的高效处理流程方法，其特征在于：通过应用场景下的seed_propert用于预处理的属性；通过seed_propery及具体值去判定节点是否是用于社区发现的种子节点。

4.根据权利要求1所述的用于大规模动态图数据的高效处理流程方法，其特征在于：在大规模图数据集处理中进程执行monitor()方法，用于监测本系统中已经存入的节点数目；当已存入的达到预先设定的阈值时，即开始执行数据预处理方法。