CN111538794B

CN111538794B - 一种数据融合方法、装置及设备

Info

Publication number: CN111538794B
Application number: CN202010334175.1A
Authority: CN
Inventors: 金宏; 许小龙; 赵闻飙; 谢文浩; 王维强; 汲小溪
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-04-24
Filing date: 2020-04-24
Publication date: 2023-10-03
Anticipated expiration: 2040-04-24
Also published as: CN111538794A

Abstract

本说明书实施例公开了一种数据融合方法、装置及设备。方案包括：获取第一数据集中的第一实体数据的第一基础数据；获取第二数据集中的第二实体数据的第二基础数据；基于所述第一基础数据和所述第二基础数据判断所述第一实体与所述第二实体是否为同一行为实体，得到判断结果；当所述判断结果表示所述第一实体与所述第二实体为同一行为实体时，将所述第一实体数据和所述第二实体数据合并为第三实体数据，所述第三实体数据用于描述所述行为实体，所述第三实体数据中包含的基础数据的信息大于所述第一实体数据，且大于所述第二实体数据。

Description

一种数据融合方法、装置及设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种数据融合方法、装置及设备。

背景技术

现有技术中，不同的风控领域(比如盗用、内容安全等)会有不同的风控诉求，而每块风控业务会依赖不同的存储平台、计算系统构造不同的风控模型去识别风险。多个风控业务都会进行风险账户、风险商户的推理，但是，每块风控业务对接的风控模型以及策略平台的方式不同，其数据存储的结构和内容也存在差异，因此，每条业务线都需要存储一份数据，从而造成存储资源和计算资源的极大浪费。

需要提供一种可以节省存储资源的数据平台。

发明内容

有鉴于此，本申请实施例提供了一种数据融合方法、装置及设备，用于节省存储资源。

为解决上述技术问题，本说明书实施例是这样实现的：

本说明书实施例提供的一种数据融合方法，包括：

获取第一数据集中的第一实体数据的第一基础数据，所述第一基础数据用于描述所述第一实体数据对应的第一实体的基础信息；

获取第二数据集中的第二实体数据的第二基础数据，所述第二基础数据用于描述所述第二实体数据对应的第二实体的基础信息；

基于所述第一基础数据和所述第二基础数据判断所述第一实体与所述第二实体是否为同一行为实体，得到判断结果；

当所述判断结果表示所述第一实体与所述第二实体为同一行为实体时，将所述第一实体数据和所述第二实体数据合并为第三实体数据，所述第三实体数据用于描述所述行为实体，所述第三实体数据中包含的基础数据的信息大于所述第一实体数据，且大于所述第二实体数据。

本说明书实施例提供的一种数据融合装置，包括：

第一基础数据获取模块，用于获取第一数据集中的第一实体数据的第一基础数据，所述第一基础数据用于描述所述第一实体数据对应的第一实体的基础信息；

第二基础数据获取模块，用于获取第二数据集中的第二实体数据的第二基础数据，所述第二基础数据用于描述所述第二实体数据对应的第二实体的基础信息；

判断模块，用于基于所述第一基础数据和所述第二基础数据判断所述第一实体与所述第二实体是否为同一行为实体，得到判断结果；

数据合并模块，用于当所述判断结果表示所述第一实体与所述第二实体为同一行为实体时，将所述第一实体数据和所述第二实体数据合并为第三实体数据，所述第三实体数据用于描述所述行为实体，所述第三实体数据中包含的基础数据的信息大于所述第一实体数据，且大于所述第二实体数据。

本说明书实施例提供的一种数据融合设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：

本说明书实施例提供的一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现上述数据融合方法。

本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果：

基于第一基础数据和第二基础数据判断第一实体与第二实体是否为同一行为实体，若是将第一实体数据和第二实体数据合并为第三实体数据，合并后的第三实体数据中包含的基础数据的信息大于第一实体数据，且大于第二实体数据。通过上述数据融合方法可以减少冗余数据，从而节省存储资源。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本说明书实施例提供的一种数据融合方法的流程示意图；

图2为本说明书实施例提供的一种知识图谱的结构示意图一；

图3为本说明书实施例提供的一种知识图谱的结构示意图二；

图4为本说明书实施例提供的对应于图1的一种数据融合装置的结构示意图；

图5为本说明书实施例提供的对应于图1的一种数据融合设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本申请各实施例提供的技术方案。

目前每个风险域都有自己知识存储、查询以及推理相关的产品(侧重点略有不同)：比如，针对企业安全的监控有烽火平台，主要用于企业股权、法人、董监高等关系信息的查询和推理来满足监管需求；针对内容安全的监控有天士平台，基于网络结构来挖掘风险主体；针对反盗用、反欺诈的监控又有自己的企业图谱和商户图谱用于挖掘可信关系、同店等信息。

这些平台在各自的风险域做得比较专业，比较细致，但是，这些平台也存在着以下缺点：由于每个业务线需要的数据不同，数据结构也不同，因此每条业务线都需要存储一份数据，从而造成存储资源的极大浪费。而且，一个产品只有一个技术线，而风险业务线确有多个，显然，技术人员还要分别对针对不同的风险业务编写不同的程序代码，以实现不同的数据调用请求。另外，不同平台的数据不互通，造成很多的重复建设，比如多条风险线都会做坏账户、坏商户的推理；每条风险线对接风控模型以及策略平台的方式不同，造成链路定制化、可复用性差。

针对上述问题，本说明书实施例提供了一种数据融合方法，采用知识图谱存储风控层的所有数据，主要包括用户风险图谱、企业风险图谱和商户风险图谱三个知识图谱，知识图谱的存储形式，可以为所有的风控业务线提供数据支持，无需每个风控业务线分别进行数据存储，可以极大减少数据存储、计算上的重复性。

知识图谱是一套基于语义网络的知识表示、迭代和生长框架，用结构化的形式描述客观世界中的概念，实体及其关系。知识图谱包括图和图计算，其中，图是用于表示对象之间关联关系的一种抽象数据结构，使用节点和边进行描述，顶点表示对象，边表示对象之间的关系。图计算是以图作为数据模型来表达问题并予以解决的这一过程。

在本说明书实施例中，用户风险图谱主要包含用户基础数据、用户风险标签和知识推理。用户基础数据主要包含用户性别、职业、出生地等信息，用户风险标签包含安全沉淀的偏事实类的风险标签，比如：欺诈、赌博等。而知识推理是根据不同的业务特点通过知识图谱的推理算法(比如TransE、TransH、TransD等)或者通过逻辑规则生成偏风险概率的推理结果，比如主体风险识别、风险概率预测、用户偏好推断等等。主体风险识别主要依赖用户交易数据、关系数据等推断某个用户是不是坏用户，而风险概率预测是通过用户的基础信息、异常行为等预测该用户未来发生赌博、欺诈等风险的概率，用户偏好推理是根据用户的购买历史推测用户使用场景的转移概率。

企业风险图谱主要包含企业基础数据、企业风险标签和知识推理。企业基础数据主要包含企业营业执照、董监高、法人等信息；企业风险标签同样包含安全沉淀的偏事实类的风险标签，如垃圾注册、身份冒用、欺诈、赌博等。同用户风险图谱，知识推理模块是根据不同的风险特点通过知识图谱的推理算法生成偏风险概率的推理结果，比如UBO(最终受益所有权)穿透、可信关系推理、风险团伙挖掘等等。UBO穿透主要依赖企业基础数据、设备信息和交易数据等利用逻辑规则推理某个企业和某个自然人之间是否存在最终受益人关系，可信关系推理涉及推理企业与企业、企业与个人之间是否存在可信的关系(一般使用知识图谱边推理的算法，比如TransD/H/E等)，风险团伙挖掘一般利用设备、环境的关联信息利用无/半监督的图算法去实现(比如LPA、Louvain等)。

商户风险图谱主要包含商户基础数据、商户风险标签和知识推理。商户基础数据主要包含商户门头照、经营类目、经营地址等信息；商户风险标签同样包含安全沉淀的偏事实类的风险标签，如欺诈、赌博、集资理财等。知识推理模块是根据不同的风险特点通过知识图谱的推理算法生成偏风险概率的推理结果，比如多主体聚合、同店推理等等。多主体聚合主要依赖商户基础数据利用知识图谱融合技术实现两个或多个商户(背后是同一个商户)融合不同维度的信息；同店识别是通过商户的交易行为、经营范围等数据利用二分类的算法判断两两商户背后对应的是不是同一个实体。

同时，针对三张知识图谱中存在数据交叉的情况，本说明书实施例还对数据交叉部分进行了数据融合，进一步节省了存储空间。

另外，本说明书实施例还为多个风控业务线提供基于三张知识图谱的统一服务，与业务系统的对接不再定制化，而是提供标准的接口实现业务的快速复用。

图1为本说明书实施例提供的一种数据融合方法的流程示意图。从程序角度而言，流程的执行主体可以为搭载于应用服务器的程序或应用客户端。

如图1所示，该流程可以包括以下步骤：

步骤102：获取第一数据集中的第一实体数据的第一基础数据，所述第一基础数据用于描述所述第一实体数据对应的第一实体的基础信息。

第一数据集可以是同一类型的实体数据的集合，第一数据集可以是知识图谱数据集，实体数据的类型可以是用户、商户或者企业等等。

可选的，在步骤102之前，还可以将现有的数据转换为知识图谱数据的步骤。

第一实体数据可以是针对任一实体，如用户、商户或者企业的全部数据。实体可以理解为某一平台上的注册账户，如果一个自然人在一个平台上注册了两个账户，那么这两个账户则分别为一个实体。

第一实体数据可以包括多个数据段，可以定义第一实体数据的存储规则，即按字段存储，比如第一实体数据存储的字段为：实体ID、账户名、注册信息、等等。

第一实体数据可以包括实体的基础数据、风险标签数据和知识推理数据。其中，第一基础数据用于描述用户、商户或者企业的技术信息。当实体数据的类型是用户时，第一基础数据可以包含用户姓名、性别、职业、出生地等信息。当实体数据的类型是商户时，第一基础数据可以包括企业营业执照信息、董监高信息、法人信息等。当实体数据的类型是商户时，第一基础数据可以包括商户门头照信息、经营类目信息、经营地址信息等。

步骤104：获取第二数据集中的第二实体数据的第二基础数据，所述第二基础数据用于描述所述第二实体数据对应的第二实体的基础信息。

第二数据集可以与第一数据集相同，也可以与第一数据集不同。其中，第二实体数据对应的实体与第一实体数据对应的实体不同。为了区分不同的实体，每个实体数据还可以包括一个ID，一个ID唯一标识一个实体，因此，可以根据ID确定是否是同一个实体。

步骤106：基于所述第一基础数据和所述第二基础数据判断所述第一实体与所述第二实体是否为同一行为实体，得到判断结果。

上面提到了，第一实体和第二实体可以理解为平台的注册账户，但是注册账户之间往往存在某种联系，例如，两个个体工商户(简称商户)是由同一个人经营的，那么这两个商户可以确定为是同一个行为实体。在本方案中，同一行为实体可以理解为具有相同的行为人的多个实体。另外，当实体A为用户，实体B为商户时，而商户的注册信息恰好是该用户，那么也可以认为实体A和实体B为同一个行为实体。

步骤108：当所述判断结果表示所述第一实体与所述第二实体为同一行为实体时，将所述第一实体数据和所述第二实体数据合并为第三实体数据，所述第三实体数据用于描述所述行为实体，所述第三实体数据中包含的基础数据的信息大于所述第一实体数据，且大于所述第二实体数据。

由于两个实体都会对应存储多种数据，如基础数据，当两个实体为同一个行为实体时，那么，描述这两个实体的实体数据就会有重合的部分，为了节省存储空间，就可以将描述这两个实体的实体数据进行合并，合并后的实体数据就包括第一实体数据的全部信息和第二实体数据的全部信息，因此，合并后的第三实体数据包括的基础数据的信息大于所述第一实体数据，也大于所述第二实体数据。

另外，合并后的第三实体数据是描述行为实体的数据，这个行为实体不同于第一实体，也不同于第二实体。

图1中的方法，基于第一基础数据和第二基础数据判断第一实体与第二实体是否为同一行为实体，若是将第一实体数据和第二实体数据合并为第三实体数据，合并后的第三实体数据中包含的基础数据的信息大于第一实体数据，且大于第二实体数据。通过上述数据融合方法可以减少冗余数据，从而节省存储资源。

另外，采用知识图谱存储数据，利用知识图谱特殊的存储结构，可以为所有的业务风控系统提供数据支持，因此无需为每个风控业务系统单独设置存储风控数据的内存空间，可以大幅减少数据存储空间。

基于图1的方法，本说明书实施例还提供了该方法的一些具体实施方式，下面进行说明。

可选的，所述将所述第一实体数据和所述第二实体数据合并为第三实体数据，具体可以包括：

将所述第一基础数据和所述第二基础数据设置为第三实体的基础数据。

在本方案中，第一实体数据和第二实体数据均可以包括多种数据，对第一实体数据和第二实体数据的合并可以是对多种数据的分别合并，也可以是对其中的一种数据进行合并。其中，合并的数据可以是基础数据。当第一实体和第二实体均为商户时，对两个商户的基础数据进行合并，实体A的基础数据包括：商户门头照A、经营类目A、经营地址A，实体B的基础数据包括：商户门头照B、经营类目B、经营地址B，那么第三实体数据对应的行为实体的基础数据可以包括：商户门头照A、经营类目A、经营地址A；商户门头照B、经营类目B、经营地址B。

如果，实体A和实体B的基础数据中还包括经营者A、经营者B，由于实体A和实体B属于同一行为实体，那么经营者A和经营者B是相同的，那么合并后的第三实体数据只包括经营者A或经营者B，此时，就减少了数据量，但是，并没有丢失任何有价值的信息。

如果，第一实体为用户，第二实体为商户时，实体A的基础数据包括：用户性别、职业、出生地，那么，合并后的第三实体的基础数据包括：用户性别、职业、出生地、商户门头照B、经营类目B和经营地址B。

可选的，所述将所述第一实体数据和所述第二实体数据合并为第三实体数据，还可以包括：

获取所述第一实体数据中的第一风险标签数据；

获取所述第二实体数据中的第二风险标签数据；

将所述第一风险标签数据和所述第二风险标签数据设置为所述第三实体的风险标签数据。

在本实施例中，由于第一实体数据和第二实体数据中不仅包括基础数据，还包括其他数据，如风险标签数据，那么在对第一实体数据和第二实体数据进行合并的时候，也可以将这些风险标签数据进行合并。例如，实体A的风险标签包括：欺诈，实体B的风险标签包括：赌博，那么合并后的第三实体的风险标签包括：欺诈和赌博。由于是同一个行为实体，通过风险标签的合并，也可以对行为实体有更全面的认知，以便提高风控的措施。

如果实体A的风险标签包括：欺诈、赌博，实体B的风险标签包括：赌博，则合并后的第三实体的风险标签包括：欺诈和赌博。这样，风险标签的总数量由3个变为2个，也节省了存储资源。

可选的，所述将所述第一基础数据和所述第二基础数据设置为第三实体的基础数据，具体可以包括：

获取所述第一实体数据中的第一实体类型数据，所述第一实体类型数据用于描述所述第一实体的类型；

获取所述第二实体数据中的第二实体类型数据，所述第二实体类型数据用于描述所述第二实体的类型；

将所述第一实体类型数据和所述第二实体类型数据设置为所述第三实体的实体类型数据。

第一实体类型数据用来描述第一实体的类型，例如，企业类型数据、用户类型数据、商户类型数据、设备类型数据、环境类型数据和网站类型数据。第一实体类型数据可以是第一实体数据的第一基础数据的一部分，也可以是与第一基础数据并列存在的数据。

例如，第一实体的类型为用户，第二实体的类型为商户时，那么合并后的第三实体的类型既包括用户，又包括商户。

当所述第一基础数据与所述第二基础数据的一个或多个数据相互矛盾时，根据所述第一实体数据中的第一实体类型数据确定所述第一基础数据的第一等级；

根据所述第二实体数据中的第二实体类型数据确定所述第二基础数据的第二等级；

当所述第一等级高于所述第二等级时，删除所述第二基础数据中与所述第一基础数据相互矛盾的数据；

将删减后的第二基础数据与所述第一基础数据设置为第三实体的基础数据。

在本说明书实施例中，在对第一实体数据和第二实体数据进行合并时，往往会发生数据互相矛盾的情况。例如，第一实体数据是按设定格式存储数据，设定格式是：地址一栏只能填写第一个地址。那么，当第一实体和第二实体的地址不同时，合并的时候就需要进行取舍。

进行取舍的标准可以按照实体的类型的高低来确定，可以设定实体类型为企业的实体数据的等级高于实体类型为商户或用户的实体数据的等级，实体类型为商户的实体数据的等级高于实体类型为用户的实体数据的等级。这样设置，充分考虑了企业的影响强于商户和用户的影响，更符合现实的情况。即，采用等级高的基础数据作为第三实体的基础数据。

可选的，所述第一实体数据中的第一实体类型数据为商户类型数据，所述第二实体数据中的第二实体类型数据为用户类型数据，所述将所述第一基础数据和所述第二基础数据设置为第三实体的基础数据，具体可以包括：

当所述第一基础数据与所述第二基础数据的一个或多个数据相互矛盾时，删除所述第二基础数据中与所述第一基础数据相互矛盾的数据；

具体的，当第一实体为商户，第二实体为用户时，将采用第一实体数据中的基础数据作为合并后的第三实体的基础数据。

例如，基础数据中包括地址一栏，第一实体的经营地址为北京，第二实体的出生地为上海，则合并后，第三实体的基础数据中的地址为北京。

当所述第一基础数据与所述第二基础数据的一个或多个数据相互矛盾时，获取所述第一基础数据的冲突数据的第一生成时间；

获取第二基础数据的冲突数据的第二生成时间；

当所述第二生产时间晚于所述第一生成时间时，删除所述第二基础数据的冲突数据；

上述实施例提供了另外一种对基础数据进行合并的方法，根据基础数据中的数据的生成时间来进行取舍。一般情况下，生成时间晚的数据更能描述实体的现有状态，因此，可以采用生成时间晚的数据作为第三实体的基础数据。

其中，生成时间可以理解为数据生成的时间，也可以理解为数据对应的事件的发生时间。

上述实施例具体描述了实体数据的合并，本说明书实施例在保留原有知识图谱关系的基础上，还可以增加新的关系种类。例如，实体与实体之间的关系数据。本说明书实施例在原有的实体类型-企业、用户、商户的基础上，还增加了其他实体，如设备、环境和网站。

增加实体类型为设备的实体，可以根据实体类型为企业、用户、商户的实体的登录设备信息来确定其与实体类型为设备的实体的关系。如图2所示，用户A，常用的登录设备为设备M；用户B，常用的登录设备为设备M和设备N；商户C，常用的登录设备为设备M。从基础数据分析，无法确定用户A和用户B的关系，但是根据用户A和用户B的常用登录设备均为设备M，就可以间接的确定用户A和用户B是存在联系的，比如是亲属关系，夫妻关系或者朋友关系。同理，商户C与用户A也存在一定联系。

可选的，所述方法还可以包括：

当所述第三实体数据中的实体类型数据为商户类型数据或企业类型数据时，在所述第三实体数据中增加所述第三实体与网站类型数据对应的关系数据，所述关系数据用于描述所述第三实体的网站数据。

当实体的类型是商户或企业时，为了更好的描述实体，可以引用网站信息来更好的描述实体。通过网站的数据来对商户或者企业进行风险分析。

可选的，当所述第三实体数据中的实体类型数据为企业类型数据时，所述方法还可以包括：

获取所述第三实体数据中的权益人数据，所述权益人数据属于所述第三实体数据的基础数据；

基于所述权益人数据对实体类型数据为用户类型数据的实体进行筛选，确定是否存在第四实体，其中，所述第四实体数据的基础数据中的用户数据与所述权益人数据相同或部分相同；

在所述第三实体数据中增加所述第四实体为所述第三实体的权益人的关系数据。

对于一个企业来说，其法人或股东的一些风险会直接影响一个企业的运营，因此，本说明书实施例为了提高对企业的风险预测，将实体类型为企业的实体与其权益人的用户实体进行关联，增加用户实体与企业实体的关系数据。

如图3所示，企业P的法人为用户A，股东为用户B和用户C，在企业P与用户A、企业P与用户B之间、企业P与用户C之间增加连线，并备注两者的关系。

可选的，所述基于所述第一基础数据和所述第二基础数据判断所述第一实体与所述第二实体是否为同一行为实体，具体可以包括：

计算所述第一基础数据与所述第二基础数据的相似度值；

判断所述相似度值是否大于预设阈值。

上述步骤给出了如何判断两个实体是否为同一个行为实体的方法，具体在进行实体融合的时候，首先根据给定的实体，从知识库中选出一组候选实体对象，然后分别对每个实体进行相似度计算，筛选出符合预设阈值的实体，进行实体链接。如果符合预设阈值的实体有多个，则可以采用其他的方法再进行二次筛选，或者直接选取最高相似度值的实体进行实体链接。

实体链接结束之后就是知识合并，主要包括实体的属性，比如说一个实体既是商户(包含N1维属性)也是用户(包含N2维数据)，我们将其合并成N维属性(N＝Distinct(N1+N2))。

可选的，所述计算所述第一基础数据与所述第二基础数据的相似度值，具体可以包括：

基于所述第一基础数据构建所述第一实体的第一向量，所述第一向量用于描述所述第一基础数据；

基于所述第二基础数据构建所述第二实体的第二向量，所述第二向量用于描述所述第二基础数据；

基于向量相似度公式计算所述第一属性向量与所述第二属性向量的相似度。

在计算两个实体的相似度值时，需要处理的问题是实体消岐的问题，常用的方法有空间向量模型、语义模型、知识模型等，在这里，引入知识表示技术，如TransE、TransH、TransD、KGNN等，所有的实体都会用知识表示得到一个N维的向量，新增实体只要找到与原有图谱中最相似的且大于预设阈值的实体就可以完成实体链接，具体相似度计算可简单使用Cosine(余弦函数)相似度。

利用上述方法获得各个实体的风险知识之后，本说明书实施例还提供了一数据平台，为多个风控业务系统提供数据服务。为了提供数据服务，本说明书实施例还对这些数据进行了管理，具体包括一下两个方面：

一、知识管理

在知识生成的过程中，一定会存在很多的问题，如生产知识的时效性保证、知识访问的权限管控、知识融合过程中如何做实体归一和歧义消除等，依赖知识图谱技术实现对知识的管理显得尤为重要。在知识管理模块，本说明书实施例将具备schema配置(schema为数据库对象的集合)、权限管理、任务管理、信息查询、知识抽取、实体归一、歧义消除和知识融合等能力，这些能力基本将借助基础技术线知识图谱平台的模块化接口。

schema配置可以帮助数据/知识更容易进入到三张图谱，每个知识的进入都受schema的约束，比如知识的分类(属性还是关系)、知识的数据类型(字符型、数值型)、知识的更新周期等。

权限管理可以实现属性、关系数据等的访问限制，比如说反洗钱受强监管，只能把知识的权限开放给专业领域的同学。

任务管理可以实现知识更新任务的机制管理，比如说以周或者月为单位更新。

信息查询可以基于风险图谱数据通过输入用户、企业、商户等主键查询相关信息。

知识抽取模块借助基础技术线的神经语言程序学(NLP，Neuro-LinguisticProgramming))的能力从文本中抽取实体和关系数据等。

实体连接可以实现将从文本中抽取得到的实体对象链接到知识图谱中对应的正确实体。

知识合并可以将文本中抽取的相同实体的不同属性和不同关系融合到现有的三张图谱中。

二、统一服务

有了风险知识和对知识进行体系化管理之后，我们将通过统一的服务来为风险业务线提供服务。在统一服务里面，主要具备四大能力，实时查询、实时计算/推理、流式构图以及流式计算/推理。

实时查询：可以提供三张图谱的查询能力，比如业务系统需要在某个时刻查询某个用户的用户风险概率、商户风险标签、关系数据等，直接通过调用知识中台实时查询的API(数据接口)就可以直接返回结果。

实时计算/推理：风控系统需要实时判断某笔交易或者某个操作是否安全，可以通过调用该统一接口实现。比如说，通过查询某用户使用设备的关联账户是否是风险账户来判断该用户是否可能是风险账户。

流式构图：大部分的情况下，知识图谱都是静态，比如用T+1的图去做查询、计算或推理，但是在风控的很多场景，需要用到更及时的信息对一笔交易或者一次操作做更好的风险判断。基于三张图谱，可以采用流式的方式去更新知识图谱，把分钟级别有风险的信息更新到用户、企业和商户风险图谱里面去。基于流式构图，可以实现准实时知识查询。

流式计算/推理：流式构图之后，需要具备准实时计算和推理的能力。推理算法包括无监督、半监督以及有监督三种分类。无监督算法上，采用具备实现适合风控的准实时异常群组发现算法，包括Louvain(基于图数据的发现算法)、K-Core(K中心算法)等；半监督算法上，利用准实时更新的风险标签，通过半监督算法包括LPA(-star)、关联反查等快速实现风险用户、企业以及商户的定位；有监督算法上，采用图神经网络(GNN，GraphNeuralNetworks)、自适应感受路径的图神经网络(Geniepath)、知识增强的图神经网络(KGNN)等算法可以快速实现训练，并且快速更新节点与边的embeddings或者实现快速end2end模型打分。其中，GeniePath是一种可扩展的能够学习自适应感受路径的图神经网络框架。它定义在具有排列不变性的图数据上(permutation invariantgraphdata)。它的自适应路径层(adaptive path layer)包括两个互补的功能单元，分别用来进行广度与深度的探索，前者用来学习一阶邻居节点的权重，后者用来提取和过滤高阶邻居内汇聚的信息。在直推(transductive)和归纳(inductive)两种学习任务的实验中，在大型图上均达到了state-of-the-art的效果。

通过上述模块，可以实现安全风险数据的不断沉淀、有效管理和统一服务。上可以对接安全的风控系统，包括UCT(事件级别的识别和决策系统)、MCT(聚合级别的识别和决策系统)、GCT(日志级别的监控系统)等。可以对接基础技术线的诸多存储、训练、计算、部署和管理平台，实现风控知识中台与基础技术大中台的标准化对接。最后形成风控知识的有效生成和高效利用。

本方案聚合了风控应用层的所有数据，形成用户、企业和商户三张图谱，可以极大减少数据存储、计算上的重复性。同时，聚合具有风控特点的三张知识图谱，并且利用知识管理、知识推理等技术实现风控知识的快速沉淀和有效管理。

与此同时，本方案提供基于三张图谱的统一服务，与业务系统的对接不再定制化，而是提供标准的接口实现业务的快速复用。提供统一的知识查询、知识计算和知识推理的能力，实现与大安全所有业务系统的快速对接。

基于同样的思路，本说明书实施例还提供了上述方法对应的装置。图4为本说明书实施例提供的对应于图1的一种数据融合装置的结构示意图。如图4所示，该装置可以包括：

第一基础数据获取模块402，用于获取第一数据集中的第一实体数据的第一基础数据，所述第一基础数据用于描述所述第一实体数据对应的第一实体的基础信息；

第二基础数据获取模块404，用于获取第二数据集中的第二实体数据的第二基础数据，所述第二基础数据用于描述所述第二实体数据对应的第二实体的基础信息；

判断模块406，用于基于所述第一基础数据和所述第二基础数据判断所述第一实体与所述第二实体是否为同一行为实体，得到判断结果；

数据合并模块408，用于当所述判断结果表示所述第一实体与所述第二实体为同一行为实体时，将所述第一实体数据和所述第二实体数据合并为第三实体数据，所述第三实体数据用于描述所述行为实体，所述第三实体数据中包含的基础数据的信息大于所述第一实体数据，且大于所述第二实体数据。

图4的装置，基于第一基础数据和第二基础数据判断第一实体与第二实体是否为同一行为实体，若是将第一实体数据和第二实体数据合并为第三实体数据，合并后的第三实体数据中包含的基础数据的信息大于第一实体数据，且大于第二实体数据。通过上述数据融合方法可以减少冗余数据，从而节省存储资源。

可选的，所述数据合并模块408，具体可以包括：

基础数据合并单元，用于将所述第一基础数据和所述第二基础数据设置为第三实体的基础数据。

可选的，所述数据合并模块408，还可以包括：

第一风险标签数据获取单元，用于获取所述第一实体数据中的第一风险标签数据；

第二风险标签数据获取单元，用于获取所述第二实体数据中的第二风险标签数据；

风险标签数据合并单元，用于将所述第一风险标签数据和所述第二风险标签数据设置为所述第三实体的风险标签数据。

可选的，所述基础数据合并单元，具体可以包括：

第一实体类型数据获取子单元，用于获取所述第一实体数据中的第一实体类型数据，所述第一实体类型数据用于描述所述第一实体的类型；

第二实体类型数据获取子单元，用于获取所述第二实体数据中的第二实体类型数据，所述第二实体类型数据用于描述所述第二实体的类型；

实体类型数据合并子单元，用于将所述第一实体类型数据和所述第二实体类型数据设置为所述第三实体的实体类型数据。

可选的，所述基础数据合并单元，具体可以包括：

第一等级确定子单元，用于当所述第一基础数据与所述第二基础数据的一个或多个数据相互矛盾时，根据所述第一实体数据中的第一实体类型数据确定所述第一基础数据的第一等级；

第二等级确定子单元，用于根据所述第二实体数据中的第二实体类型数据确定所述第二基础数据的第二等级；

矛盾数据删除子单元，用于当所述第一等级高于所述第二等级时，删除所述第二基础数据中与所述第一基础数据相互矛盾的数据；

基础数据合并子单元，用于将删减后的第二基础数据与所述第一基础数据设置为第三实体的基础数据。

可选的，所述基础数据合并单元，具体可以包括：

第一生成时间获取子单元，用于当所述第一基础数据与所述第二基础数据的一个或多个数据相互矛盾时，获取所述第一基础数据的冲突数据的第一生成时间；

第二生成时间获取子单元，用于获取第二基础数据的冲突数据的第二生成时间；

冲突数据删除子单元，用于当所述第二生产时间晚于所述第一生成时间时，删除所述第二基础数据的冲突数据；

可选的，所述第一实体类型数据可以包括：企业类型数据、用户类型数据、商户类型数据、设备类型数据、环境类型数据和网站类型数据。

可选的，所述第一实体数据中的第一实体类型数据为商户类型数据，所述第二实体数据中的第二实体类型数据为用户类型数据，所述基础数据合并单元，具体可以用于：

可选的，所述装置还可以包括：

关系数据增加模块，用于当所述第三实体数据中的实体类型数据为商户类型数据或企业类型数据时，在所述第三实体数据中增加所述第三实体与网站类型数据对应的关系数据，所述关系数据用于描述所述第三实体的网站数据。

可选的，当所述第三实体数据中的实体类型数据为企业类型数据时，所述装置还可以包括：

权益人数据获取模块，用于获取所述第三实体数据中的权益人数据，所述权益人数据属于所述第三实体数据的基础数据；

第四实体确定模块，用于基于所述权益人数据对实体类型数据为用户类型数据的实体进行筛选，确定是否存在第四实体，其中，所述第四实体数据的基础数据中的用户数据与所述权益人数据相同或部分相同；

关系数据添加模块，用于在所述第三实体数据中增加所述第四实体为所述第三实体的权益人的关系数据。

可选的，所述判断模块406，具体可以包括：

相似度值计算单元，用于计算所述第一基础数据与所述第二基础数据的相似度值；

判断单元，用于判断所述相似度值是否大于预设阈值。

可选的，所述相似度值计算单元，具体可以包括：

第一向量构建子单元，用于基于所述第一基础数据构建所述第一实体的第一向量，所述第一向量用于描述所述第一基础数据；

第二向量构建子单元，用于基于所述第二基础数据构建所述第二实体的第二向量，所述第二向量用于描述所述第二基础数据；

相似度计算子单元，用于基于向量相似度公式计算所述第一属性向量与所述第二属性向量的相似度。

可选的，所述第一数据集和所述第二数据集为知识图谱数据集。

基于同样的思路，本说明书实施例还提供了上述方法对应的设备。

图5为本说明书实施例提供的对应于图1的一种数据融合设备的结构示意图。如图5所示，设备500可以包括：

至少一个处理器510；以及，

与所述至少一个处理器通信连接的存储器530；其中，

所述存储器530存储有可被所述至少一个处理器510执行的指令520，所述指令被所述至少一个处理器510执行，以使所述至少一个处理器510能够：

图5的设备，基于第一基础数据和第二基础数据判断第一实体与第二实体是否为同一行为实体，若是将第一实体数据和第二实体数据合并为第三实体数据，合并后的第三实体数据中包含的基础数据的信息大于第一实体数据，且大于第二实体数据。通过上述数据融合方法可以减少冗余数据，从而节省存储资源。

一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现：

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(FieldProgrammableGateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced BooleanExpression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell UniversityProgramming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware DescriptionLanguage)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、AtmelAT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带式磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitorymedia)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种数据融合方法，包括：

获取第一数据集中的第一实体数据的第一基础数据，所述第一基础数据用于描述所述第一实体数据对应的第一实体的基础信息；所述第一实体数据包括实体的基础数据、风险标签数据和知识推理数据；所述第一数据集是同一类型的实体数据的集合；所述实体数据的类型包括用户类型、企业类型和商户类型；

获取第二数据集中的第二实体数据的第二基础数据，所述第二基础数据用于描述所述第二实体数据对应的第二实体的基础信息；所述第二实体数据对应的实体与所述第一实体数据对应的实体不同；

基于所述第一基础数据和所述第二基础数据判断所述第一实体与所述第二实体是否为同一行为实体，得到判断结果；所述同一行为实体表示具有相同行为人的多个实体；

当所述判断结果表示所述第一实体与所述第二实体为同一行为实体时，将所述第一实体数据和所述第二实体数据合并为第三实体数据，所述第三实体数据用于描述所述行为实体，所述第三实体数据中包含的基础数据的信息大于所述第一实体数据，且大于所述第二实体数据；所述将所述第一实体数据和所述第二实体数据合并为第三实体数据具体包括：将所述第一基础数据和所述第二基础数据设置为第三实体的基础数据；其中，当所述第一基础数据与所述第二基础数据的一个或多个数据相互矛盾时，根据所述第一实体数据中的第一实体类型数据确定所述第一基础数据的第一等级；根据所述第二实体数据中的第二实体类型数据确定所述第二基础数据的第二等级；当所述第一等级高于所述第二等级时，删除所述第二基础数据中与所述第一基础数据相互矛盾的数据；将删减后的第二基础数据与所述第一基础数据设置为第三实体的基础数据。

2.如权利要求1所述的方法，所述将所述第一实体数据和所述第二实体数据合并为第三实体数据，具体包括：

3.如权利要求2所述的方法，所述将所述第一实体数据和所述第二实体数据合并为第三实体数据，还包括：

获取所述第一实体数据中的第一风险标签数据；

获取所述第二实体数据中的第二风险标签数据；

4.如权利要求2所述的方法，所述将所述第一基础数据和所述第二基础数据设置为第三实体的基础数据，具体包括：

5.如权利要求2所述的方法，所述将所述第一基础数据和所述第二基础数据设置为第三实体的基础数据，具体包括：

6.如权利要求2所述的方法，所述将所述第一基础数据和所述第二基础数据设置为第三实体的基础数据，具体包括：

获取第二基础数据的冲突数据的第二生成时间；

当所述第二生成时间晚于所述第一生成时间时，删除所述第二基础数据的冲突数据；

7.如权利要求4所述的方法，所述第一实体类型数据包括：企业类型数据、用户类型数据、商户类型数据、设备类型数据、环境类型数据和网站类型数据。

8.如权利要求7所述的方法，所述第一实体数据中的第一实体类型数据为商户类型数据，所述第二实体数据中的第二实体类型数据为用户类型数据，所述将所述第一基础数据和所述第二基础数据设置为第三实体的基础数据，具体包括：

9.如权利要求1所述的方法，所述方法还包括：

10.如权利要求1所述的方法，当所述第三实体数据中的实体类型数据为企业类型数据时，所述方法还包括：

11.如权利要求1所述的方法，所述基于所述第一基础数据和所述第二基础数据判断所述第一实体与所述第二实体是否为同一行为实体，具体包括：

计算所述第一基础数据与所述第二基础数据的相似度值；

判断所述相似度值是否大于预设阈值。

12.如权利要求11所述的方法，所述计算所述第一基础数据与所述第二基础数据的相似度值，具体包括：

基于所述第一基础数据构建所述第一实体的第一属性向量，所述第一属性向量用于描述所述第一基础数据；

基于所述第二基础数据构建所述第二实体的第二属性向量，所述第二属性向量用于描述所述第二基础数据；

13.如权利要求1所述的方法，所述第一数据集和所述第二数据集为知识图谱数据集。

14.一种数据融合装置，包括：

第一基础数据获取模块，用于获取第一数据集中的第一实体数据的第一基础数据，所述第一基础数据用于描述所述第一实体数据对应的第一实体的基础信息；所述第一实体数据包括实体的基础数据、风险标签数据和知识推理数据；所述第一数据集是同一类型的实体数据的集合；所述实体数据的类型包括用户类型、企业类型和商户类型；

第二基础数据获取模块，用于获取第二数据集中的第二实体数据的第二基础数据，所述第二基础数据用于描述所述第二实体数据对应的第二实体的基础信息；所述第二实体数据对应的实体与所述第一实体数据对应的实体不同；

判断模块，用于基于所述第一基础数据和所述第二基础数据判断所述第一实体与所述第二实体是否为同一行为实体，得到判断结果；所述同一行为实体表示具有相同行为人的多个实体；

数据合并模块，用于当所述判断结果表示所述第一实体与所述第二实体为同一行为实体时，将所述第一实体数据和所述第二实体数据合并为第三实体数据，所述第三实体数据用于描述所述行为实体，所述第三实体数据中包含的基础数据的信息大于所述第一实体数据，且大于所述第二实体数据；所述将所述第一实体数据和所述第二实体数据合并为第三实体数据具体包括：将所述第一基础数据和所述第二基础数据设置为第三实体的基础数据；其中，当所述第一基础数据与所述第二基础数据的一个或多个数据相互矛盾时，根据所述第一实体数据中的第一实体类型数据确定所述第一基础数据的第一等级；根据所述第二实体数据中的第二实体类型数据确定所述第二基础数据的第二等级；当所述第一等级高于所述第二等级时，删除所述第二基础数据中与所述第一基础数据相互矛盾的数据；将删减后的第二基础数据与所述第一基础数据设置为第三实体的基础数据。

15.如权利要求14所述的装置，所述数据合并模块，具体包括：

16.如权利要求15所述的装置，所述数据合并模块，还包括：

17.如权利要求15所述的装置，所述基础数据合并单元，具体包括：

18.如权利要求15所述的装置，所述基础数据合并单元，具体包括：

19.如权利要求15所述的装置，所述基础数据合并单元，具体包括：

冲突数据删除子单元，用于当所述第二生成时间晚于所述第一生成时间时，删除所述第二基础数据的冲突数据；

20.如权利要求14所述的装置，当所述第三实体数据中的实体类型数据为企业类型数据时，所述装置还包括：

21.如权利要求14所述的装置，所述判断模块，具体包括：

判断单元，用于判断所述相似度值是否大于预设阈值。

22.如权利要求21所述的装置，所述相似度值计算单元，具体包括：

第一向量构建子单元，用于基于所述第一基础数据构建所述第一实体的第一属性向量，所述第一属性向量用于描述所述第一基础数据；

第二向量构建子单元，用于基于所述第二基础数据构建所述第二实体的第二属性向量，所述第二属性向量用于描述所述第二基础数据；

23.一种数据融合设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

24.一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现权利要求1至13中任一项所述的数据融合方法。