CN110609870B

CN110609870B - 分布式数据处理方法、装置、电子设备及存储介质

Info

Publication number: CN110609870B
Application number: CN201910860272.1A
Authority: CN
Inventors: 汪振兴
Original assignee: Jianlian Technology Guangdong Co ltd
Current assignee: Jianlian Technology Guangdong Co ltd
Priority date: 2019-09-11
Filing date: 2019-09-11
Publication date: 2022-08-16
Anticipated expiration: 2039-09-11
Also published as: CN110609870A

Abstract

本公开实施例公开了一种分布式数据处理方法、装置、电子设备及存储介质。其中，该方法包括：将图数据库的图数据集加载到分布式计算系统中；根据所述图数据集分别构建当前的关系矩阵、传播矩阵和标签矩阵；在所述分布式计算系统中运行分布式的标签传播运算，通过所述传播矩阵更新所述标签矩阵；在最近两次处理结果未收敛时，迭代执行所述构建和所述运算过程；在最近两次处理结果收敛或全部节点均已具备标签数据时，根据所述标签矩阵提取至少一个待评估变量输出给一个或多个人工智能模型。

Description

分布式数据处理方法、装置、电子设备及存储介质

技术领域

本公开涉及大数据挖掘领域，具体涉及一种分布式数据处理方法、装置、电子设备及存储介质。

背景技术

随着大数据和人工智能技术的发展，尤其是认知智能技术在近年来的突破，基于关系型数据库的知识图谱技术已经可以在很多应用领域中为用户提供更为专业更加精准的智能分析服务。典型地，利用知识图谱可以为多种基于关系来识别信息的人工智能模型提供支持，比如个性化推荐、关联信息搜索、地图数据处理、社交网络服务、专业知识库、用户身份验证或互联网金融等应用中均可利用知识图谱来进行优化。

其中，在基于知识图谱的人工智能模型中，利用知识图谱构建的关系图，应用标签传播算法(Label Propagation Algorithm，LPA)能够将种子数据(白名单、黑名单)进行标签传播，进而得到整个网络的概率/置信度情况。然而，现有的知识图谱通常使用图数据库Neo4j存储数据，其并不支持分布式计算，因而只能基于单机计算标签传播算法。而在单机中构建一个标签传播系统时，需要构建一个全部已知标签对位置标签的完整矩阵，这在面对少量数据的示例性研究时没有太大问题，但对于一个可用的商业化系统，通常会建立具有大量数据的图数据库(例如1亿个节点和1亿个边)，显然其计算量会非常巨大，节点跨度也巨大，因而在单机内事实上无法支持商业化知识图谱完成标签传播算法的运行。

现有技术中也曾尝试采用分布式运算来提高计算效率，减少计算时间。虽然Neo4j本身并不支持分布式运算，但将Neo4j与Hadoop结合可部分实现分布式运算，比如“基于节点聚集系数的分布式标签传播算法”(张素智，孙嘉彬，王威，计算机应用与软件，2016年4月)和“Hadoop框架下的多标签传播算法”(孙霞，张敏超，冯筠，张蕾，何绯娟，西安交通大学学报，2015年5月)等多篇文献中均研究了将LPA与Hadoop框架结合进行分布式计算的可能。但从目前的研究看来，现有技术大多是利用Hadoop对原始数据(raw data)进行预处理(preprocessing)，虽然能利用分布式框架优化数据结构，但实际传播过程中的标签矩阵运算仍是单机运行，对性能提升有限。

发明内容

针对现有技术中的上述技术问题，本公开实施例提出了一种分布式数据处理方法、装置、电子设备及计算机可读存储介质，以解决现有技术中标签传播运算单机运行效率低下的问题。

本公开实施例的第一方面提供了一种分布式数据处理方法，包括：

将图数据库的图数据集加载到分布式计算系统中；

根据所述图数据集分别构建当前的关系矩阵、传播矩阵和标签矩阵；

在所述分布式计算系统中运行分布式的标签传播运算，通过所述传播矩阵更新所述标签矩阵；

在最近两次处理结果未收敛时，迭代执行所述构建和所述运算过程；在最近两次处理结果收敛或全部节点均已具备标签数据时，根据所述标签矩阵提取至少一个待评估变量输出给一个或多个人工智能模型。

在一些实施例中，所述构建当前的关系矩阵包括：根据当前无标签的节点的关系对象和关系权重构成表示全部节点关系的稀疏矩阵。

在一些实施例中，所述构建当前的传播矩阵包括：选取在预定义时间区间内与其对应的黑白标签数据表现一致的节点作为表现节点，从所述当前的关系矩阵中抽取由所述表现节点到所述当前无标签的节点的稀疏矩阵，同时确定每个表现节点的键值。

在一些实施例中，所述构建当前的标签矩阵包括：对于每个表现节点，根据其对应的黑白标签数据确定其为黑点和白点的概率值，将所有表现节点的概率值组成所述标签矩阵。

在一些实施例中，所述分布式的标签传播运算包括：利用多个分布式设备并行运行标签传播运算，其中，根据表现节点的键拆分所述运算，使得相同键的数据在相同的设备上运行。

在一些实施例中，所述更新所述标签矩阵包括：对本次标签传播运算后的数据进行组合汇总，更新所述标签矩阵并进行归一化处理。

在一些实施例中，所述组合汇总包括：根据节点的键进行计算，以将拆分后的分布式运算结果合并。

本公开实施例的第二方面提供了一种分布式数据处理装置，包括：

数据加载模块，用于将图数据库的图数据集加载到分布式计算系统中；

矩阵构建模块，用于根据所述图数据集分别构建当前的关系矩阵、传播矩阵和标签矩阵；

分布式运算模块，用于在所述分布式计算系统中运行分布式的标签传播运算，通过所述传播矩阵更新所述标签矩阵；

迭代控制模块，用于在最近两次处理结果未收敛时，迭代执行所述构建和所述运算过程；

输出模块，用于在最近两次处理结果收敛或全部节点均已具备标签数据时，根据所述标签矩阵提取至少一个待评估变量输出给一个或多个人工智能模型。

在一些实施例中，所述矩阵构建模块包括：关系矩阵构建模块，用于根据当前无标签的节点的关系对象和关系权重构成表示全部节点关系的稀疏矩阵。

在一些实施例中，所述矩阵构建模块包括：传播矩阵构建模块，用于选取在预定义时间区间内与其对应的黑白标签数据表现一致的节点作为表现节点，从所述当前的关系矩阵中抽取由所述表现节点到所述当前无标签的节点的稀疏矩阵，同时确定每个表现节点的键值。

在一些实施例中，所述矩阵构建模块包括：标签矩阵构建模块，用于对于每个表现节点，根据其对应的黑白标签数据确定其为黑点和白点的概率值，将所有表现节点的概率值组成所述标签矩阵。

在一些实施例中，所述分布式运算模块包括：任务拆分运行模块，用于利用多个分布式设备并行运行标签传播运算，其中，根据表现节点的键拆分所述运算，使得相同键的数据在相同的设备上运行。

在一些实施例中，分布式运算模块还包括：组合汇总模块，用于对本次标签传播运算后的数据进行组合汇总，更新所述标签矩阵并进行归一化处理。

在一些实施例中，所述组合汇总模块包括：结果合并模块，用于根据节点的键进行计算，以将拆分后的分布式运算结果合并。

本公开实施例的第三方面提供了一种电子设备，包括：

存储器以及一个或多个处理器；

其中，所述存储器与所述一个或多个处理器通信连接，所述存储器中存储有可被所述一个或多个处理器执行的指令，所述指令被所述一个或多个处理器执行时，所述电子设备用于实现如前述各实施例所述的方法。

本公开实施例的第四方面提供了一种计算机可读存储介质，其上存储有计算机可执行指令，当所述计算机可执行指令被计算装置执行时，可用来实现如前述各实施例所述的方法。

本公开实施例的第五方面提供了一种计算机程序产品，所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，可用来实现如前述各实施例所述的方法。

本公开实施例的技术方案通过缩减矩阵规模和并发的分布式运算，在大幅减少运算量的同时极大提高了运算速度，解决了传统标签传播算法的运算瓶颈，缩短了变量计算的响应时间，从而提升了系统效率。

附图说明

通过参考附图会更加清楚的理解本公开的特征和优点，附图是示意性的而不应理解为对本公开进行任何限制，在附图中：

图1是根据本公开的一些实施例所示的一种知识图谱的场景示意图；

图2是根据本公开的一些实施例所示的一种互联网智能平台系统的逻辑示意图；

图3是根据本公开的一些实施例所示的一种分布式数据处理方法的流程示意图；

图4是根据本公开的一些实施例所示的一种标签传播运算的迭代过程示意图；

图5是根据本公开的一些实施例所示的一种基于决策引擎的业务处理场景示意图；

图6是根据本公开的一些实施例所示的一种分布式数据处理装置的模块结构示意图；

图7是根据本公开的一些实施例所示的实现其功能的一种电子设备的结构示意图。

具体实施方式

在下面的详细描述中，通过示例阐述了本公开的许多具体细节，以便提供对相关披露的透彻理解。然而，对于本领域的普通技术人员来讲，本公开显而易见的可以在没有这些细节的情况下实施。应当理解的是，本公开中使用“系统”、“装置”、“单元”和/或“模块”术语，是用于区分在顺序排列中不同级别的不同部件、元件、部分或组件的一种方法。然而，如果其他表达式可以实现相同的目的，这些术语可以被其他表达式替换。

应当理解的是，当设备、单元或模块被称为“在……上”、“连接到”或“耦合到”另一设备、单元或模块时，其可以直接在另一设备、单元或模块上，连接或耦合到或与其他设备、单元或模块通信，或者可以存在中间设备、单元或模块，除非上下文明确提示例外情形。例如，本公开所使用的术语“和/或”包括一个或多个相关所列条目的任何一个和所有组合。

本公开所用术语仅为了描述特定实施例，而非限制本公开范围。如本公开说明书和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的特征、整体、步骤、操作、元素和/或组件，而该类表述并不构成一个排它性的罗列，其他特征、整体、步骤、操作、元素和/或组件也可以包含在内。

参看下面的说明以及附图，本公开的这些或其他特征和特点、操作方法、结构的相关元素的功能、部分的结合以及制造的经济性可以被更好地理解，其中说明和附图形成了说明书的一部分。然而，可以清楚地理解，附图仅用作说明和描述的目的，并不意在限定本公开的保护范围。可以理解的是，附图并非按比例绘制。

本公开中使用了多种结构图用来说明根据本公开的实施例的各种变形。应当理解的是，前面或下面的结构并不是用来限定本公开。本公开的保护范围以权利要求为准。

将知识图谱应用到人工智能模型中，可以借助数据之间的关系来帮助提高机器识别的正确率。其中，图数据库(知识图谱数据库)中存储有关系数据，一般是按现实世界中的实体与关系来存储；不同的实体对应不同的节点，不同的实体间通过关系来完成连接，节点与关系还进一步包括不同的属性，用于定义实体的类型和关系的类型。如图1所示，在一个示例性的图数据库实例中，知识图谱展示了基于个人信息构建的用户关系网络，其中不同的实体构成了图1中不同形状的节点，实体之间的关系构成了节点之间的连线。比如“张明”和“李强”为两个个人实体，每个实体通过例如“工作于”或“拥有电话”等关系与其他的“手机号”或“公司”等实体相连。

进一步参见图2，利用这种知识图谱，可以在一些具体领域构建人工智能系统，从而取代人工自动进行具体事务的智能处理。在图2中，用户通过互联网前端，例如SDK、H5页面、互联网APP程序等提交一个事务进项申请，这个进项可以是各种各样的具体事务，视该人工智能系统的具体应用领域而定，比如图1中示出的李强的某个进项z可以是一次基于位置或兴趣的提问/搜索、一个招聘需求、一项贷款申请、一次网络社交活动或是以互联网为中介的一次交易等，图2中以互联网金融活动为例构建了互联网反欺诈/风险控制的人工智能系统。通过有线和/或无线通信网络，该金融活动进项将接入任务匹配服务器；在任务分配服务器，一个金融活动进项会被自动匹配到不同的金融服务供应商；进一步，对于进入金融服务系统中的进项数据，将会被首先经过数据预处理、并存入图数据库中。在一些实施例中，所述图数据库可以是使用Neo4j的图数据库存储大量关于金融业务的知识图谱数据库，在一个典型的具备实用能力的金融图谱数据库中，数据量需要与互联网用户的庞大数量匹配，通常节点和边的数量能够达到上亿个，这是现有单机运行难以支持的数量级。

进一步，该金融活动进项会生成一个风控分析任务，该任务通过图查询的方式从图数据库中得到关系数据。将这些关系数据输入至变量计算模块，得到关系数据对应的评估变量。进一步，将评估变量输入至一个反欺诈评估模型，完成反欺诈识别。其中反欺诈评估模型可以是基于机器学习的评估模型，例如该模型可以是基于决策树的GDBT模型或基于神经网络的深度模型。进一步，反欺诈识别的结果和评估变量被输入至决策流，该决策流输出可靠性审查结果，该审查结果可以是对本次金融活动请求的处理意见或建议，比如批准、部分批准、拒绝或推荐其他等任意的结果；该审查结果也同样存储至图数据库中。

其中，在进项具体的业务处理中，对图数据库的操作主要是进行图查询以获取关系数据。现有技术已经可以在知识图谱中进行非常高效的图查询，例如通过Neo4j中使用的Cypher语言，即使在面对拥有上亿个节点和边的数据库中，对关系的图查询也可以满足即时响应的水平。注意此处关系数据为广义的关系数据，例如可以是根据社交关系的连接层次获得的相关数据，比如获得与当前进项人2度社交关系的节点数据；或者可以是基于进项数据之间的关系数据，比如获得当前进项属于同一申请人的所有进项数据等。无论要获得哪种关系数据，当前依靠单机进行图查询对整体性能的影响不大。

在获得了相关的关系数据之后，进一步地，系统将通过变量计算引擎计算当前任务的相关变量。变量计算引擎中存储有大量的变量提取模块，不同模块负责抽取当前数据集中的数据，并通过直接或间接的方式，计算出不同的变量。一个典型的变量引擎可以从关系数据中生成数百甚至上千的变量，这些变量被用于后续的反欺诈和风控决策。现有技术中，在变量计算过程中需要应用标签传播算法将关键数据传递给相关节点，以帮助发现节点的潜在属性。其中，在标签传播算法运行过程中，首先需要构建一个全部已知标签对位置标签的完整矩阵，现有技术通过双重循环发现有关系的对象和标签数据，在传播的过程中相应的Y值矩阵会随着标签数据的传播而越来越大，同时由Y值矩阵所能传播的对象也越来越多，这使得运行所占用资源也越来越大，最终会发展成单机系统难以支持的运算量。通常，分布式运算是解决单机运算瓶颈的手段之一，但由于图数据库Neo4j本身不支持分布式，使得现有技术的资源瓶颈无法得到有效的解决。

有鉴于此，本公开实施例提供了一种分布式数据处理方法，通过弹性分布式数据集(Resilient Distributed Datasets，RDD)来存储关系数据和标签数据，并相应构建对应的分布式标签传播矩阵，从而实现了分布式的标签传播处理，显著提升了系统运算的并发能力、速度和效率。如图3所示，在本公开的一个实施例中，分布式数据处理方法包括步骤：

S301，将图数据库的图数据集加载到分布式计算系统中；

S302，根据所述图数据集分别构建当前的关系矩阵、传播矩阵和标签矩阵；

S303，在所述分布式计算系统中运行分布式的标签传播运算，通过所述传播矩阵更新所述标签矩阵；

S304，在最近两次处理结果未收敛时返回S302矩阵构建步骤迭代执行；在最近两次处理结果收敛或全部节点均已具备标签数据时，根据所述标签矩阵提取至少一个待评估变量输出给一个或多个人工智能模型。

其中，在本公开的一个实施例中，所述构建当前的关系矩阵包括：根据当前无标签的节点的关系对象和关系权重构成表示全部节点关系的稀疏矩阵。在实际场景的处理中，一个对象/节点不会与其他所有对象/节点都有关系，因而当排除掉与无标签节点不发生关系的节点后，这里的关系矩阵是稀疏的，而并不是按照传统传播算法构建一个完整矩阵。相对于现有技术的双重循环进行标签传播的方式，本公开的技术方案将当前无标签的节点作为待传播对象，目的是用现有标签为这部分节点打标，因而无需构建完整矩阵，而是仅利用待传播对象的关系来构建关系矩阵(忽略已有标签的节点的关系)，这样得到的关系矩阵是一个稀疏矩阵，可大幅缩减要处理的信息量，降低计算强度，也方便后续分布式运算的任务拆分。

进一步地，所述构建当前的传播矩阵包括：选取在预定义时间区间内与其对应的黑白标签数据表现一致的节点作为表现节点，从所述当前的关系矩阵中抽取由所述表现节点到所述当前无标签的节点的稀疏矩阵，同时确定每个表现节点的键值(key值)。其中，预定义时间区间可以是系统指定或自动选定的一个时间段，比如指定为2016年，或者自动选定最近2年内的数据等。表现一致则是指在预定时间区间内该节点(现实世界中的实体，通常为用户)发起过至少一个事务进项，且该事务进项的处理结果与该节点已有的黑白标签相一致；典型地，比如标签数据表示某节点为高度可信节点(具体高度可信的置信区间可根据经验或实时策略设置和调整)，该节点事务进项的处理结果也表示该节点高度可信，则认为该节点的表现一致，可作为表现节点。在本公开的一个实施例中，传播矩阵为当前的表现节点到当前无标签节点的关系数据，因而可进一步缩减稀疏矩阵的规模、降低运算量。此外，在构建传播矩阵时，指定表现节点(也可称为传播节点)的键值(key值)，该键值稍后将用于分布式运算的任务拆分。

所述构建当前的标签矩阵包括：对于每个表现节点，根据其对应的黑白标签数据确定其为黑点和白点的概率值(即表示为假和为真两种情况的概率的数据对，通常称为Y值标签)，将所有表现节点的概率值组成所述标签矩阵。

在完成当前各个矩阵的构建之后，可进行本次分布式运算。具体地，所述分布式的标签传播运算包括：利用多个分布式设备并行运行标签传播运算，其中，根据表现节点的键(key)拆分所述运算，使得相同键(key)的数据在相同的设备上运行。本公开的实施例中，所述标签传播运算主要通过所述传播矩阵将所述标签矩阵传播给对应的至少一个当前无标签的节点；该传播过程实际上是通过矩阵相乘计算完成，在本公开的实施例中，将矩阵相乘任务按表现节点的键(key)进行拆分，因而每个分布式设备中只运行子矩阵的相乘，一方面实现了任务的并发运行，另一方面也使单个设备中的运算量减少，从而可有效提升运算效率。优选地，本公开的实施例通过Hive(基于Hadoop的一个数据仓库工具)搭建所述分布式计算系统，进一步使用Spark计算引擎完成RDD的复合计算，利用Spark on Hive的分布式计算能力可自动实现分布式任务(矩阵相乘)的拆分和并发执行。

在执行完本次分布式运算之后，所述更新所述标签矩阵包括：对本次标签传播运算后的数据进行组合汇总，更新所述标签矩阵并进行归一化处理。其中，与分布式运算的任务拆分相对应地，所述组合汇总也是根据节点的键进行的计算，以将拆分后的多个子矩阵相乘的运算结果合并。归一化处理为乘以一个标量，使得Y值标签中黑点和白点的概率和为1；归一化处理主要用来保持口径一致，保证计算正确。

其中，所述方法还包括：判断最近两次处理结果的均方差是否小于预设阈值，若是则认为最近两次处理结果收敛，反之则否。预设阈值的设定可以根据具体的场景需求、数据规模、历史数据或经验而自动设置或调整。在结果未收敛时，再次执行矩阵构建和标签传播运算，此时应该已有部分节点在前次运算后被新打上标签(即被赋予Y值标签)，则再次构建当前的关系矩阵时剔除这部分节点，仅使用剩下的无标签的节点(即对本次运算来说当前无标签的节点)来构建关系矩阵；相应地，传播矩阵和标签矩阵也是根据前次运算结果之后的最新状态进行构建，即前文方法步骤中的“当前的”仅表示对迭代过程中单次运算来说的当前状态，是一个根据运算次数动态变化的多次状态，而并非一个固定的单次状态，因而也可将矩阵构建步骤理解为对各个矩阵的更新步骤。

下面以图4为例说明本公开的一个实施例中具体的标签传播算法的多轮迭代计算过程。如图4所示，在第一轮运算中，当前无标签的节点为X5、X6和X7，X1、X2、X3和X4为表现节点，其中，X1和X2为白点(Y值标签表示为{1:0,0:1.0})，X3和X4为黑点(Y值标签表示为{1:1.0,0:0})，节点间的有向边表示实体间的关系，边上的数值则表示关系的权重。通过构建的矩阵完成第一轮运算后，X2、X3的标签数据传播至X5处，X3、X4的标签数据传播至X6处；因此，X5、X6节点在一轮计算后成为具有Y值的数据，在第一轮结束后，X5、X6的表现值将被归一化并更新。在第二轮运算中，当前无标签的节点仅有X7，其余节点均为表现节点，第二轮运算利用X5、X6的标签数据通过分布式计算，生成X7的表现值(Y值标签)，由此，全部节点均被赋予了标签数据，可结束整个标签传播运算。当然，本领域相关技术人员可以理解，图4仅仅是一种示例性的场景，在实际的知识图谱中，节点和边可能有上亿条数据量，简单两轮运算显然不可能给全部节点赋予标签数据，甚至在多轮运算后也不可能完成全部打标，因而通过判断最近两次处理结果的差异来适时结束整个标签传播运算，避免迭代过程无法终止。同时需要说明的是，均方差仅仅是用来评估结果差异的手段之一，不应视作对判断结果差异的具体实施手段的限制。

以上是本公开提供的一种分布式数据处理方法的具体实施方式，通过上述实施方式，本公开的实施例用分布式RDD来存储关系数据和标签数据，并使用分布式运算完成RDD稀疏相乘计算，通过缩减矩阵规模和并发的分布式运算，在大幅减少运算量的同时极大提高了运算速度，解决了传统标签传播算法的运算瓶颈，缩短了变量计算的响应时间，从而提升了系统效率。

进一步地，在获得了相关的数据之后，系统将从中抽取不同的变量，比如数百甚至上千的变量，这些变量被用于后续具体应用场景的人工智能模型的自动识别。比如图5给出了本公开的一个实施例中的用于反欺诈评估的自动识别模型，其中，反欺诈评估是根据抽取的变量计算一个金融进项或申请人的欺诈风险；而对应的风控决策则是根据当前的变量以及申请数据计算当前进项审批结果(比如拒绝、通过或具体的信贷额度等)。其中，图5中的风控决策过程就是根据前述计算得到的变量进行信贷决策的过程；在决策引擎中存储有大量的决策流，每个决策流根据业务数据，实施不同的逻辑或概率计算。典型地，一个决策流内部还包含多个决策分支或计算模块，在本公开的实施例中，决策引擎自动运行，其内部的决策流将自动被实施，通过人工智能的方式自动识别变量并输出信审结果，从而完成对本次进项的评估。需要说明的是，反欺诈评估模型和风控决策模型在现有技术中已有相关的研究，本公开的实施例主要针对之前的变量计算过程进行优化，对后续的变量识别过程不做具体的限制，采用任何适用的现有技术均可，因而在此也不再一一展开描述。

图6是根据本公开的一些实施例所示的一种分布式数据处理装置600，包括：数据加载模块610、矩阵构建模块620、分布式运算模块630、迭代控制模块640和输出模块650；其中，

数据加载模块610，用于将图数据库的图数据集加载到分布式计算系统中；

矩阵构建模块620，用于根据所述图数据集分别构建当前的关系矩阵、传播矩阵和标签矩阵；

分布式运算模块630，用于在所述分布式计算系统中运行分布式的标签传播运算，通过所述传播矩阵更新所述标签矩阵；

迭代控制模块640，用于在最近两次处理结果未收敛时，迭代执行所述构建和所述运算过程；

输出模块650，用于在最近两次处理结果收敛或全部节点均已具备标签数据时，根据所述标签矩阵提取至少一个待评估变量输出给一个或多个人工智能模型。

参见图7，为本申请一个实施例提供的电子设备示意图。如图7所示，该电子设备700包括：

存储器730以及一个或多个处理器710；

其中，所述存储器730与所述一个或多个处理器710通信连接，所述存储器730中存储有可被所述一个或多个处理器执行的程序指令732，所述程序指令732被所述一个或多个处理器710执行，以使所述一个或多个处理器710执行上述方法实施例中的各个步骤。进一步地，该电子设备700还可通过通信接口720与外部设备进行交互。

本申请的一个实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机可执行指令，所述计算机可执行指令被执行后执行上述方法实施例中的各个步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法和/或装置实施例中的对应描述，在此不再赘述。

尽管此处所述的主题是在结合操作系统和应用程序在计算机系统上的执行而执行的一般上下文中提供的，但本领域技术人员可以认识到，还可结合其他类型的程序模块来执行其他实现。一般而言，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、组件、数据结构和其他类型的结构。本领域技术人员可以理解，此处所述的本主题可以使用其他计算机系统配置来实践，包括手持式设备、多处理器系统、基于微处理器或可编程消费电子产品、小型计算机、大型计算机等，也可使用在其中任务由通过通信网络连接的远程处理设备执行的分布式计算环境中。在分布式计算环境中，程序模块可位于本地和远程存储器存储设备的两者中。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对原有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的计算机可读取存储介质包括以存储如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方式或技术来实现的物理易失性和非易失性、可移动和不可因东介质。计算机可读取存储介质具体包括，但不限于，U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、可擦除可编程只读存储器(EPROM)、电可擦可编程只读存储器(EEPROM)、闪存或其他固态存储器技术、CD-ROM、数字多功能盘(DVD)、HD-DVD、蓝光(Blue-Ray)或其他光存储设备、磁带、磁盘存储或其他磁性存储设备、或能用于存储所需信息且可以由计算机访问的任何其他介质。

综上所述，本公开提出了一种分布式数据处理方法、装置、电子设备及其计算机可读存储介质。本公开的实施例用分布式RDD来存储关系数据和标签数据，并使用分布式运算完成RDD稀疏相乘计算，通过缩减矩阵规模和并发的分布式运算，在大幅减少运算量的同时极大提高了运算速度，解决了传统标签传播算法的运算瓶颈，缩短了变量计算的响应时间，从而提升了系统效率。

应当理解的是，本公开的上述具体实施方式仅仅用于示例性说明或解释本公开的原理，而不构成对本公开的限制。因此，在不偏离本公开的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。此外，本公开所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种分布式数据处理方法，其特征在于，包括：

将图数据库的图数据集加载到分布式计算系统中；

在最近两次处理结果未收敛时，迭代执行所述构建和所述运算过程；在最近两次处理结果收敛或全部节点均已具备标签数据时，根据所述标签矩阵提取至少一个待评估变量输出给一个或多个人工智能模型，

所述构建当前的关系矩阵包括：根据当前无标签的节点的关系对象和关系权重构成表示全部节点关系的稀疏矩阵，

所述构建当前的传播矩阵包括：选取在预定义时间区间内与其对应的黑白标签数据表现一致的节点作为表现节点，从所述当前的关系矩阵中抽取由所述表现节点到所述当前无标签的节点的稀疏矩阵，同时确定每个表现节点的键值。

2.根据权利要求1所述的方法，其特征在于，所述构建当前的标签矩阵包括：对于每个表现节点，根据其对应的黑白标签数据确定其为黑点和白点的概率值，将所有表现节点的概率值组成所述标签矩阵。

3.根据权利要求1所述的方法，其特征在于，所述分布式的标签传播运算包括：利用多个分布式设备并行运行标签传播运算，其中，根据表现节点的键拆分所述运算，使得相同键的数据在相同的设备上运行。

4.根据权利要求1或3所述的方法，其特征在于，所述更新所述标签矩阵包括：对本次标签传播运算后的数据进行组合汇总，更新所述标签矩阵并进行归一化处理。

5.根据权利要求4所述的方法，其特征在于，所述组合汇总包括：根据节点的键进行计算，以将拆分后的分布式运算结果合并。

6.一种分布式数据处理装置，其特征在于，包括：

矩阵构建模块，用于根据所述图数据集分别构建当前的关系矩阵、传播矩阵和标签矩阵，所述构建当前的关系矩阵包括：根据当前无标签的节点的关系对象和关系权重构成表示全部节点关系的稀疏矩阵，

所述构建当前的传播矩阵包括：选取在预定义时间区间内与其对应的黑白标签数据表现一致的节点作为表现节点，从所述当前的关系矩阵中抽取由所述表现节点到所述当前无标签的节点的稀疏矩阵，同时确定每个表现节点的键值；

7.一种电子设备，其特征在于，包括：

存储器以及一个或多个处理器；

其中，所述存储器与所述一个或多个处理器通信连接，所述存储器中存储有可被所述一个或多个处理器执行的指令，所述指令被所述一个或多个处理器执行时，所述电子设备用于实现如权利要求1-5任一项所述的方法。

8.一种计算机可读存储介质，其上存储有计算机可执行指令，当所述计算机可执行指令被计算装置执行时，可用来实现如权利要求1-5任一项所述的方法。