CN112200382B

CN112200382B - 一种风险预测模型的训练方法和装置

Info

Publication number: CN112200382B
Application number: CN202011167597.0A
Authority: CN
Inventors: 金宏; 王维强
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-10-27
Filing date: 2020-10-27
Publication date: 2022-11-22
Anticipated expiration: 2040-10-27
Also published as: CN112200382A

Abstract

说明书披露一种风险预测模型的训练方法和装置。所述方法包括：接收若干个数据提供方发送的三元组，三元组为各个数据提供方基于本方持有的数据提取得到，三元组中包括第一实体、第二实体和连边，连边表示第一实体和第二实体之间存在关联关系；基于各个数据提供方的三元组构建全局知识图谱；针对每一条样本交易数据，获取样本交易数据中涉及的各目标实体，并确定各目标实体在全局知识图谱中的邻居实体和与邻居实体之间的连边；基于各目标实体、各目标实体的邻居实体、各目标实体与其邻居实体之间的连边和所述样本交易数据构造训练样本；采用所述训练样本训练风险预测模型。

Description

一种风险预测模型的训练方法和装置

技术领域

本说明书涉及人工智能领域，特别涉及一种风险预测模型的训练方法和装置。

背景技术

在生活中，网络黑产很可能会横跨多个平台，例如非法分子在社交网络平台上通过聊天的方式骗取用户的信用，然后鼓动用户在金融平台发起转账、汇款等交易，力图骗取用户的钱财。针对这些现象如何进行风险预测成为业内关注的重点。

发明内容

有鉴于此，本说明书提供一种风险预测模型的训练方法和装置。

具体地，本说明书是通过如下技术方案实现的：

一种风险预测模型的训练方法，联合若干个数据提供方拥有的数据实现所述风险预测模型的训练，所述方法应用于数据挖掘方，包括：

接收若干个数据提供方发送的三元组，所述三元组为各个数据提供方基于本方持有的数据提取得到，所述三元组中包括第一实体、第二实体和连边，所述连边表示第一实体和第二实体之间存在关联关系；

基于各个数据提供方的三元组构建全局知识图谱；

针对每一条样本交易数据，获取所述样本交易数据中涉及的各目标实体，并确定各目标实体在所述全局知识图谱中的邻居实体和与所述邻居实体之间的连边；

基于各目标实体、各目标实体的邻居实体、各目标实体与其邻居实体之间的连边和所述样本交易数据构造训练样本；

采用所述训练样本训练风险预测模型。

一种风险预测的方法，联合若干个数据提供方拥有的数据进行风险预测，所述方法应用于数据挖掘方，包括：

接收目标数据提供方发起的交易数据风险预测请求，所述风险预测请求中携带所述交易数据和所述交易数据涉及的各目标实体的三元组；

向所述若干个数据提供方中的各个非目标数据提供方发送获取各目标实体的三元组的通知；

接收各个非目标数据提供方发送的各目标实体的三元组；

针对每个所述目标实体，基于各个数据提供方的三元组构建所述目标实体对应的局部知识图谱，确定所述目标实体在所述局部知识图谱中的邻居实体和与所述邻居实体之间的连边；

基于各目标实体、各目标实体的邻居实体、各目标实体与其邻居实体之间的连边和所述交易数据构建输入数据，将所述输入数据输入风险预测模型得到预测结果；

向所述目标数据提供方返回所述预测结果。

一种风险预测方法，联合若干个数据提供方进行风险预测，所述方法应用于目标数据提供方，包括：

接收到任一目标实体发起的交易后，获取所述交易涉及的各目标实体的三元组；

向数据挖掘方发送交易数据风险预测请求，所述风险预测请求中携带交易数据和所述各目标实体的三元组；

接收所述数据挖掘方返回的预测结果，所述预测结果为所述数据挖掘方基于所述若干个数据提供方提供的各目标实体的三元组和所述交易数据，利用风险预测模型预测得到；

根据所述预测结果确定所述交易是否存在风险。

一种业务处理模型的训练方法，联合若干个数据提供方实现所述业务模型的训练，所述方法应用于数据挖掘方，包括：

接收若干个数据提供方发送的三元组，所述三元组为各个数据提供方基于本方持有的非结构化数据提取得到，所述三元组中包括第一实体、第二实体和连边，所述连边表示第一实体和第二实体之间的关联关系；

基于各个数据提供方的三元组构建全局知识图谱；

针对每一条样本业务数据，获取所述样本业务数据中涉及的各目标实体，并确定各目标实体在所述全局知识图谱中的邻居实体和与所述邻居实体之间的连边；

基于各目标实体、各目标实体的邻居实体、各目标实体与其邻居实体之间的连边和所述样本业务数据构造训练样本；

采用所述训练样本训练业务模型。

一种风险预测模型的训练装置，联合若干个数据提供方拥有的数据实现所述风险预测模型的训练，所述装置应用于数据挖掘方，包括：

第一接收单元，接收若干个数据提供方发送的三元组，所述三元组为各个数据提供方基于本方持有的数据提取得到，所述三元组中包括第一实体、第二实体和连边，所述连边表示第一实体和第二实体之间存在关联关系；

知识图谱构建单元，基于各个数据提供方的三元组构建全局知识图谱；

第一确定单元，针对每一条样本交易数据，获取所述样本交易数据中涉及的各目标实体，并确定各目标实体在所述全局知识图谱中的邻居实体和与所述邻居实体之间的连边；

训练样本构造单元，基于各目标实体、各目标实体的邻居实体、各目标实体与其邻居实体之间的连边和所述样本交易数据构造训练样本；

训练单元，采用所述训练样本训练风险预测模型。

一种风险预测的装置，联合若干个数据提供方拥有的数据进行风险预测，所述装置应用于数据挖掘方，包括：

风险预测请求接收单元，接收目标数据提供方发起的交易数据风险预测请求，所述风险预测请求中携带所述交易数据和所述交易数据涉及的各目标实体的三元组；

三元组获取单元，向所述若干个数据提供方中的各个非目标数据提供方发送获取各目标实体的三元组的通知；

第二接收单元，接收各个非目标数据提供方发送的各目标实体的三元组；

第二确定单元，针对每个所述目标实体，基于各个数据提供方的三元组构建所述目标实体对应的局部知识图谱，确定所述目标实体在所述局部知识图谱中的邻居实体和与所述邻居实体之间的连边；

预测单元，基于各目标实体、各目标实体的邻居实体、各目标实体与其邻居实体之间的连边和所述交易数据构建输入数据，将所述输入数据输入风险预测模型得到预测结果；

预测结果发送单元，向所述目标数据提供方返回所述预测结果。

一种风险预测装置，联合若干个数据提供方进行风险预测，所述装置应用于目标数据提供方，包括：

交易接收单元，接收到任一目标实体发起的交易后，获取所述交易涉及的各目标实体的三元组；

风险预测请求发送单元，向数据挖掘方发送交易数据风险预测请求，所述风险预测请求中携带交易数据和所述各目标实体的三元组；

预测结果接收单元，接收所述数据挖掘方返回的预测结果，所述预测结果为所述数据挖掘方基于所述若干个数据提供方提供的各目标实体的三元组和所述交易数据，利用风险预测模型预测得到；

风险确定单元，根据所述预测结果确定所述交易是否存在风险。

一种业务处理模型的训练装置，联合若干个数据提供方实现所述业务模型的训练，所述装置应用于数据挖掘方，包括：

第三接收单元，接收若干个数据提供方发送的三元组，所述三元组为各个数据提供方基于本方持有的非结构化数据提取得到，所述三元组中包括第一实体、第二实体和连边，所述连边表示第一实体和第二实体之间的关联关系；

第二知识图谱构建单元，基于各个数据提供方的三元组构建全局知识图谱；

第三确定单元，针对每一条样本业务数据，获取所述样本业务数据中涉及的各目标实体，并确定各目标实体在所述全局知识图谱中的邻居实体和与所述邻居实体之间的连边；

训练样本构建单元，基于各目标实体、各目标实体的邻居实体、各目标实体与其邻居实体之间的连边和所述样本业务数据构造训练样本；

第二训练单元，采用所述训练样本训练业务模型。

处理器；

用于存储机器可执行指令的存储器；

其中，通过读取并执行所述存储器存储的与风险预测模型的训练逻辑对应的机器可执行指令，所述处理器被促使：

基于各个数据提供方的三元组构建全局知识图谱；

采用所述训练样本训练风险预测模型。

处理器；

用于存储机器可执行指令的存储器；

其中，通过读取并执行所述存储器存储的与风险预测的装置逻辑对应的机器可执行指令，所述处理器被促使：

接收各个非目标数据提供方发送的各目标实体的三元组；

向所述目标数据提供方返回所述预测结果。

一种风险预测的装置，联合若干个数据提供方拥有的数据进行风险预测，所述装置应用于目标数据提供方，包括：

处理器；

用于存储机器可执行指令的存储器；

根据所述预测结果确定所述交易是否存在风险。

本说明书一个实施例实现了，可以联合多个数据提供方拥有的数据来训练风险预测模型，各个数据提供方可以根据自身数据提取得到三元组并发送给数据挖掘方，数据挖掘方可以基于这些三元组构建全局知识图谱，然后针对每一条样本交易数据，从全局知识图谱中获取该样本交易数据涉及的各目标实体的邻居实体、与所述邻居实体之间的连边，然后基于各目标实体、各目标实体的邻居实体、各目标实体与其邻居实体之间的连边和所述样本交易数据构造训练样本，并利用该训练样本来训练风险预测模型。

采用上述方法可以从非结构化数据中挖掘出三元组信息，以找到非结构化数据背后隐含的深层含义，然后根据这些三元组信息来构造全局知识图谱，找到交易涉及的用户或企业之间更多的关联关系，使得构建得到的知识图谱内容更丰富、更全面。然后可以结合交易数据和所述全局知识图谱来训练风险预测模型，使得训练得到的风险预测模型性能更好，风险预测结果更准确。

附图说明

图1是本说明书一示例性实施例示出的一种知识图谱的示意图；

图2是本说明书一示例性实施例示出的一种风险预测模型的训练方法的流程示意图；

图3是本说明书一示例性实施例示出的另一种知识图谱的示意图；

图4是本说明书一示例性实施例示出的一种风险预测方法的流程示意图；

图5是本说明书一示例性实施例示出的另一种风险预测方法的流程示意图；

图6是本说明书一示例性实施例示出的一种风险预测模型的训练装置所在服务器的一种硬件结构图；

图7是本说明书一示例性实施例示出的一种风险预测装置所在服务器的一种硬件结构示意图；

图8是本说明书一示例性实施例示出的另一种风险预测装置所在服务器的一种硬件结构示意图；

图9是本说明书一示例性实施例示出的一种风险预测模型的训练装置的框图；

图10是本说明书一示例性实施例示出的一种风险预测装置的框图；

图11是本说明书一示例性实施例示出的另一种风险预测装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。

在本说明书使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

网络黑产指的是以互联网为媒介，通过网络技术手段为计算机信息系统安全和网络空间管理秩序带来潜在威胁的非法行为，可以包括黑客攻击、盗取账号、钓鱼网站、网络诈骗等等。网络黑产的作战链路很可能会横跨多个平台，例如非法分子在社交网络平台上通过聊天的方式骗取用户的信用，然后鼓动用户在金融平台发起转账、汇款等交易，力图骗取用户的钱财。有必要针对这些业务进行风险预测。

由于网络黑产可以横跨多个平台，单独分析一个平台内的数据很可能无法准确地发现潜在的风险，需要综合地分析多个平台的数据来预测风险。在这一背景下，多个平台之间可以通过联邦学习、多方安全计算等方法，在保护自身数据安全、避免隐私泄露的基础上联合训练模型，以利用该模型进行风险预测。

然而这些方法中虽然利用了多个平台的数据，但仅仅是将多个平台的数据进行简单地组合来训练模型，未挖掘出数据之间深层的关联关系，更没有利用这些深层的关联关系来训练模型，导致训练得到的模型性能不够理想。

基于此，本说明书提供了一种风险预测模型的训练方法和装置，可以通过构建知识图谱来挖掘出数据之间深层的关联关系，以训练得到性能更好的风险预测模型。

首先对本说明书中涉及的知识图谱进行说明。

知识图谱主要用来描述真实世界中存在的各种实体和概念，以及他们之间的关系，具有很强的数据描述能力。其初衷是为了提高搜索引擎的能力，改善用户的搜索质量以及搜索体验。本说明书提供了一种方法，可以将知识图谱与机器学习模型相结合，增强模型的预测能力。

为了便于理解，下面结合图1对知识图谱进行简单说明。图1为本说明书一示例性实施例示出的一种知识图谱的示意图，如图1所示，知识图谱中可以包含多个实体，例如张三、李四、A企业、北京，每个实体对应知识图谱中一个节点。具有一定关联关系的节点之间通过有向边连接(下称为连边)，该连边可以表示所连接的两个节点之间的连接关系。知识图谱中实体之间的连接关系可以有多种类型，例如图1中，从“李四”指向“A企业”的连边对应的连接关系类型可以是“员工”，从“李四”指向“北京”的连边对应的连接关系类型可以是“常驻地”。

可以理解，知识图谱中，不同节点之间可以具有相同连接关系类型的连边，例如图1示出的“张三”和“A企业”、“李四”和“A企业”之间连边的连接关系类型都为“员工”。一个实体也可以和其他的多个实体具有连接关系，如图1中的“A企业”同时和“张三”、“李四”具有连接关系。知识图谱可以理解为是由一个个三元组组成的，三元组中可以包括两个实体和这两个实体之间的连边。本说明书中，将三元组中从左往右数的第一个实体称为第一实体，将第二个实体称为第二实体，每个三元组可以表示为<第一实体，连边，第二实体>，并且连边的指向为第一实体指向第二实体。例如图1中的<张三，员工，A企业>、<张三，兄弟，李四>。

本实施例中，各个参与联合训练的数据提供方可以基于自身的数据，提取出用户相关的三元组，然后利用这些三元组来训练风险预测模型。其中，数据提供方可以是金融平台、购物平台、网络社交平台、支付平台等等。并且，这些平台均可以参与到联合训练中，本说明书对数据提供方的数量并不作特殊限制。

本实施例中，考虑到联合训练过程中保护各方数据隐私的需求，可以利用数据挖掘方来训练风险预测模型，数据挖掘方被认为是安全的、可信的。各个数据提供方可以将自身的数据发送给数据挖掘方，数据挖掘方可以调用可信执行环境来训练模型。例如，数据挖掘方可以采用Intel推出的SGX(software guard extensions，软件保护扩展)技术，SGX技术可通过一组新的指令集扩展与访问控制机制，实现不同程序之间的隔离运行，以硬件安全为强制性保障，不依赖于固件和软件的安全状态，提供可信执行环境。具体可参照相关技术，本说明书在此不一一说明。

下面对本说明书提供的一种风险预测模型的训练方法进行说明。

所述风险预测模型的训练方法可以应用于数据挖掘方，例如数据挖掘方部署的服务器或服务器集群。

请参见图2，图2是本说明书一示例性实施例示出的一种风险预测模型的训练方法的流程示意图，所述风险预测模型的训练方法可以包括以下步骤：

步骤102，接收若干个数据提供方发送的三元组，所述三元组为各个数据提供方基于本方持有的数据提取得到，所述三元组中包括第一实体、第二实体和连边，所述连边表示第一实体和第二实体之间存在关联关系。

本实施例中，每个数据提供方都可以用户为基准，提取出用户相关的三元组。每个数据提供方可以提取出自身拥有的所有用户的相关三元组，也可以仅提取出部分用户的相关三元组，对此不作限制。

以数据提供方为支付平台为例，支付平台可以基于自身持有的结构化数据和/或非结构化数据来提取三元组，其中，结构化数据可以是用户的账号信息、身份信息、历史汇款/转账记录等，非结构化数据可以是图数据、声音数据、视频数据等，如用户的刷脸支付时的人脸图像、用户与客服聊天时产生的聊天记录信息。当然，除上述支付平台的例子外，其他平台也可以基于其持有的各种结构化/非结构化数据来提取三元组，例如购物平台持有的结构化数据可以为：用户的历史交易时间、交易商品标识、交易频率等，非结构化数据可以是历史交易中交易商品的描述、商品介绍、商品的图片等等。

本实施例中，各个数据提供方可以对自身持有的数据进行分析，以提取出用户相关的三元组。以文本信息为例，数据提供方可以通过NER(Named Entity Recognition，命名实体识别)提取文本信息中的各种类型的实体，然后基于这些实体确定三元组。例如，支付平台提取出的三元组可以是：<小明，好友，小芳>、<小芳，转账，小明>。购物平台提取出的三元组可以是：<小明，购买，毛衣>、<小明，浏览，鞋子>、<小芳，出生地，北京>。当然，上述例子仅仅是示意性的说明，在实际情况下也可以提取出其他三元组，本说明书对此不作特殊限制。

并且，各个数据提供方除了可以提取得到上述三元组外，还可以提取到三元组中各个实体的属性信息。比如，当实体为小明时，实体的属性信息可以包括：年龄18岁、性别男、爱好唱歌、职业为学生等。这些属性信息是实体自身附带的，实际上并不包含于知识图谱中，但是这些属性信息可以在后续的步骤104中用于创建全局知识图谱。

本实施例中，数据提供方提取得到上述数据后，可以将其加密发送给数据挖掘方。

在一个例子中，各个数据提供方可以利用数据挖掘方的公钥对这些数据进行加密。

在另一个例子中，各个数据提供方也可以在利用公钥加密之前，先按照与数据挖掘方约定好的脱敏规则对这些数据进行脱敏，然后再利用公钥对脱敏后的数据加密。这样可以实现非对称加密和脱敏加密双重保障，提高数据安全。其中，脱敏规则可参照相关技术，在此不一一说明。

本实施例中，数据挖掘方接收到各个数据提供方发送的加密三元组和加密属性信息后，可以按照对应的解密方法进行解密，得到解密后的三元组及实体的属性信息。由于这些解密后的三元组是凌乱的、分散的，数据挖掘方可以进一步基于这些三元组以及实体的属性信息构建全局知识图谱。

步骤104，基于各个数据提供方的三元组构建全局知识图谱。

本实施例中，可以采取以下的方法来构建全局知识图谱。

在一个例子中，数据挖掘方可以先确定任意一个解密后的三元组，然后找到这个三元组中的第一实体(即三元组中从左右到排序的第一个实体)，然后从所有解密后的三元组中找到与所述第一实体存在关联关系的所有第二实体，以及与第二实体之间的连边，然后将第一实体与这些第二实体、连边进行融合，得到第一实体对应的局部知识图谱。

可以针对每个第一实体都按照上述方法来构建该实体对应的局部知识图谱，然后将各个第一实体对应的局部知识图谱融合为一个全局知识图谱。

仍以上述例子为例，假设数据挖掘方得到支付平台和购物平台提供的三元组，其中，支付平台提供的三元组包括：<小明，好友，小芳>、<小芳，转账，小明>；购物平台提供的三元组包括：<小明，购买，毛衣>、<小明，浏览，鞋子>、<小芳，出生地，北京>。

在上述三元组中，第一实体有两种：“小明”和“小芳”。首先针对第一实体“小明”，与该第一实体存在关联关系的第二实体和连边包括：“小芳”与“好友”、“毛衣”与“购买”、“鞋子”与“浏览”，那么可以据此得到小明的局部知识图谱，可以参见图3中实线框框出的知识图谱。然后针对第一实体“小芳”，与该第一实体存在关联关系的第二实体和连边包括：“小明”与“转账”、“北京”与“出生地”，那么可以据此得到小芳的局部知识图谱，可以参见图3中虚线框框出的知识图谱。

可以将小明对应的局部知识图谱和小芳对应的局部知识图谱，通过图3中的连边a和b进行拼接，得到上述三元组的全局知识图谱。

在另一个例子中，也可以根据各个数据提供方发送的实体的属性信息来构建全局知识图谱，比如可以使用链接预测模型来构建，具体可参照相关技术，本说明书在此不一一说明。

当然，在实际情况下也可以结合上述两种例子的方法来构建全局知识图谱。

在构建全局知识图谱的过程中，还可以采取实体归一、歧义消除等技术，使得构建得到的全局知识图谱更全面、更准确。其中，实体归一指的是同一实体可能在不同情况下具备不同的名称，比如实体“王小明”既可以叫“小明”，也可以叫“小王”、“儿子”等，实体归一技术可以将这些不同名称的实体进行统一。歧义消除指的是相同名称的实体在不同情况下可能具备不同的含义，比如“苹果”既可以指一种水果，也可以指手机品牌，歧义消除技术可以对这些名称相同的实体进行区分。

步骤106，针对每一条样本交易数据，获取所述样本交易数据中涉及的各目标实体，并确定各目标实体在所述全局知识图谱中的邻居实体和与所述邻居实体之间的连边。

本实施例中，数据挖掘方构建得到全局知识图谱后，可以对全局知识图谱进行知识表示学习，以将全局知识图谱中的实体和连边转换为计算机可处理的向量的形式，从而利用该向量来训练模型。

在一个例子中，可以采用知识表示模型来对所述全局知识图谱进行知识表示，所述知识表示模型可以是距离模型、双线性模型、神经张量模型、矩阵分解模型、Trans系列模型等。

以Trans E模型为例，假设三元组为<第一实体，连边，第二实体>，将第一实体的向量记为h，连边的向量记为r，第二实体的向量记为t，可以用h+r＝t来表示这组三元组中实体之间的关系。可以通过训练Trans E模型，不断地调整h、r和t，使得h+r尽可能地与t相等，从而得到用于表示知识图谱中各个实体和连边的向量。

步骤108，基于各目标实体、各目标实体的邻居实体、各目标实体与其邻居实体之间的连边和所述样本交易数据构造训练样本。

本实施例中，数据挖掘方对全局知识图谱进行知识表示后，可以基于全局知识图谱中实体、连边和样本业务数据来构造训练样本。其中，样本业务数据可以是数据提供方发送给数据挖掘方的，比如可以是与三元组一起发送给数据挖掘方的，并且样本业务数据也可以是加密发送的，具体的加密方法可参照前述实施例中对三元组的加密方法，在此不再赘述。

本实施例中可以针对用户发起的交易进行风险预测，那么样本业务数据可以是样本交易数据。比如，样本交易数据可以是来自支付平台的，可以是预设时间段内用户之间的转账交易，包括交易时间、交易金额、交易发起方信息、交易接收方信息等等。再比如，样本交易数据也可以来自购物平台，可以是预设时间段内用户发起的历史订单，包括订单编号、交易商品名称、商品价格、交易时间等等。

下面以两种类型的支付交易进行说明。

在一个例子中，针对C to B(Customer to Business，消费者对企业)的交易进行风险预测，样本交易数据可以为下表1的形式：

样本交易数据	发起方	接收方	交易金额	来源	交易商品
						1	小明	A企业	100元	购物平台	服饰
2	小明	B企业	20元	游戏平台	游戏币

表1

再例如，当针对C to C(Customer to Customer，消费者对消费者)的交易进行风险预测时，样本交易数据可以为下表2的形式：：

样本交易数据	发起方	接收方	交易金额	交易时间	交易类型
						3	小明	小芳	100元	2020-1-1 15:00	转账
4	小明	小王	20元	2020-1-1 12:30	红包

表2

值得说明的是，上述例子仅仅是示意性的说明，在实际情况下也可以得到其他样本交易数据，并且也不一定需要将样本交易数据生成表格的形式。

本实施例中，数据挖掘方确定样本交易数据后，可以基于每条样本交易数据构造训练样本。比如，可以先确定样本交易数据涉及的各目标实体，目标实体可以是用户、企业、组织等，然后根据构建好的全局知识图谱，找到目标实体的邻居实体、目标实体和邻居实体之间的连边，然后综合这些目标数据、邻居实体、连边和样本交易数据来构建得到一条训练样本。训练样本输入模型的特征向量可以是目标实体的向量、邻居实体的向量、连边的向量和样本交易数据的向量进行拼接后得到的向量。

仍以上表2中的样本交易数据3为例，该交易涉及的目标实体有2个，为“小明”和“小芳”，那么可以从知识图谱中找到“小明”的邻居实体和“小芳”的邻居实体。其中，邻居实体可以是与目标实体存在一阶邻居关系的实体。请继续参见图3，图3中与“小明”存在一阶邻居关系的实体有“小芳”、“鞋子”、“毛衣”，可以将这些作为“小明”的邻居实体。与“小芳”存在一阶邻居关系的实体有“小明”、“北京”，可以将这些作为“小芳”的邻居实体。

可以基于目标实体“小明”、“小明”的邻居实体“小芳”、“鞋子”、“毛衣”，和“小明”与这些邻居实体之间的连边、目标实体“小芳”、“小芳”的邻居实体“小明”、“北京”，和“小芳”与这些邻居实体之间的连边构建样本交易数据3对应的训练样本。该训练样本的特征向量可以是将上述实体、连边和样本交易数据3的向量进行拼接得到。

当然，在其他例子中，邻居实体也可以是与目标实体存在二阶、三阶等多阶邻居关系的实体，比如图3中与“小明”存在二阶邻居关系的“北京”，本说明书对此不作特殊限制。

并且，除了可以将上述向量直接拼接得到训练样本的特征向量外，还可以采取对上述向量进行求和、加权求和等方式得到训练样本的特征向量，本说明书在此不一一说明。

本实施例中，在基于样本交易数据来构建训练样本时，除了可以在知识图谱中获取所述交易涉及的各目标实体及其邻居实体、连边外，还可以从其他数据提供方获取样本交易数据的关联数据。比如，关联数据可以是购物平台提供的所述样本交易数据涉及商品的商品介绍、商品售卖率、商品的评价信息、用户的购物习惯等。再比如，还可以是社交网络平台提供的所述样本交易数据涉及用户的好友信息、用户的浏览记录、用户的聊天记录信息、用户的社交影响力等。或者也可以是其他和样本交易数据存在关联关系的数据，在此不一一举例。

本实施例中，构造训练样本后，需要确定训练样本的标签。

在一个例子中，可以根据训练样本中目标实体的初始标签来确定训练样本的标签。其中，目标实体的初始标签可以是各个数据提供方在发送三元组时携带的。以支付平台为例，支付平台可以将其持有的实体的标签作为所述初始标签，例如可以将风险用户的初始标签设置为有风险，将非风险用户的初始标签设置为无风险。其中，支付平台中各实体的标签可基于相关技术来实现，本说明书在此不作过多说明。

本例中，针对某条训练样本中的目标实体，数据挖掘方可能会接收到多个数据提供方发送的该目标实体的初始标签，这些初始标签可能是不同的。

比如对于上述表2中的样本交易数据3，目标实体为小明，支付平台发送的小明的初始标签为无风险，社交网络平台发送的小明的初始标签为有风险。在这种情况下，数据挖掘方可以按照预设的规则来确定训练样本的标签。

例如，数据挖掘方可以先判断各个数据提供方发送的小明的初始标签中，是否存在有风险的初始标签，若存在，则确定小明的综合标签为有风险。然后可以将上述样本交易数据3对应的训练样本的样本标签设置为有风险。

再比如，数据挖掘方也可以先判断各个数据提供方发送的小明的初始标签中有风险的数量、占比是否大于阈值，若大于，则确定小明的综合标签为有风险。然后再将上述样本交易数据3对应的训练样本的样本标签设置为有风险。

当然，上述例子中仅选择了样本交易数据涉及的一个目标实体(小明)来考虑样本标签，在其他例子中也可以选择样本交易数据涉及的部分、所有目标实体来考虑样本标签，本实施例在此不再一一说明。

在另一个例子中，也可以根据训练样本中目标实体之间的连边的初始标签来确定训练样本的标签。其中，连边的初始标签可以是各个数据提供方在发送三元组时携带的。仍以支付平台为例，支付平台可以确定出历史交易中的风险交易，然后将风险交易涉及的发起方、接收方之间的连边的初始标签设置为有风险，将其他非风险交易涉及的发起方、接收方之间的连边的初始标签设置为无风险。

类似的，针对某条训练样本中目标实体之间的连边，数据挖掘方可能会接收到多个数据提供方发送的该连边的初始标签，这些初始标签同样可能是不同的。

比如，仍对于上述表2中的样本交易数据3，目标实体为小明和小芳，支付平台发送的小明和小芳之间的连边(连接关系类型为转账)的初始标签为有风险。而社交网络平台发送的小明和小芳之间的连边(连接关系类型为好友)的初始标签为无风险。在这种情况下，数据挖掘方同样可以按照预设的规则来确定训练样本的标签。

例如，可以根据连边的连接关系类型来设置样本标签。数据挖掘方可以对连边的连接关系类型设置优先级，考虑到本实施例是针对转账交易进行风险预测，那么“转账”这一连接关系类型相比于“好友”来说，优先级更高。那么支付平台可以将“转账”对应连边的初始标签确定为综合标签，并将训练样本的标签设置为有风险。

再例如，数据挖掘方也可以不考虑连边的连接关系类型。比如，可以判断上述“转账”、“好友”2个连边中，初始标签为有风险的数量、占比是否超过阈值，若超过，则确定小明和小芳之间的连边的综合标签为有风险。然后可以确定所述训练样本的样本标签为有风险。

当然，除了上述例子外也可以采取其他方法来确定样本标签，比如也可以将样本交易的初始标签确定为训练样本的标签，本实施例对此不作限制。

步骤110，采用所述训练样本训练风险预测模型。

本实施例中，确定了训练样本和样本标签后，数据挖掘方可以利用这些数据来训练风险预测模型。所述风险预测模型可以是神经网络模型、逻辑回归模型、决策树模型，也可以是其他模型。模型训练的过程参照相关技术，在此不一一说明。训练好的风险预测模型可以部署在数据挖掘方侧的服务器或服务器集群上。

至此完成风险预测模型的训练过程。

由以上描述可以看出，在本说明书的一个实施例中，可以联合多个数据提供方拥有的数据来训练风险预测模型，各个数据提供方可以根据自身数据提取得到三元组并发送给数据挖掘方，数据挖掘方可以基于这些三元组构建全局知识图谱，然后针对每一条样本交易数据，从全局知识图谱中获取该样本交易数据涉及的各目标实体的邻居实体、与所述邻居实体之间的连边，然后基于各目标实体、各目标实体的邻居实体、各目标实体与其邻居实体之间的连边和所述样本交易数据构造训练样本，并利用该训练样本来训练风险预测模型。

相比于相关技术中仅使用结构化的交易数据进行风险预测来说，采用上述方法各个数据提供方都可以从非结构化数据中挖掘出三元组信息，以找到非结构化数据背后隐含的深层含义，然后根据这些三元组信息来构造全局知识图谱，找到交易涉及的用户或企业之间更多的关联关系，使得构建得到的知识图谱内容更丰富、更全面。然后可以结合交易数据和所述全局知识图谱来训练风险预测模型，使得训练得到的风险预测模型性能更好，风险预测结果更准确。

下面对本说明书提供的一种风险预测的方法进行说明，所述风险预测的方法基于上述训练得到的风险预测模型进行风险预测。

所述风险预测的方法可以应用于数据挖掘方。

请参见图4，图4为本说明书一示例性实施例示出的一种风险预测方法的流程示意图，所述方法可以包括以下步骤：

步骤402，接收目标数据提供方发起的交易数据风险预测请求，所述风险预测请求中携带所述交易数据和所述交易数据涉及的各目标实体的三元组。

本实施例中，目标数据提供方接收到目标实体发起的交易后，可以基于该交易向数据挖掘方发送预测请求，并且在该预测请求中携带所述交易涉及的目标实体的三元组和交易数据。其中，目标数据提供方发起预测请求的过程，参见图5，可以包括以下步骤：

步骤502，接收到任一目标实体发起的交易；

步骤504，判断所述交易是否达到风险预测条件；

步骤506，若达到，则获取所述交易涉及的各目标实体的三元组；

步骤508，向数据挖掘方发送所述风险预测请求，所述风险预测请求中携带交易数据和所述各目标实体的三元组。

以目标数据提供方为支付平台为例，下面示例性地以两种类型的交易进行说明。

在一个例子中，交易类型为C to C，支付平台可能接收到用户与用户之间的转账、汇款交易。比如，小明向小芳发起转账100元的交易。支付平台可以先判断该笔交易是否达到风险预测条件。

风险预测条件可以是：所述交易的交易金额达到金额阈值；所述交易中存在可疑交易发起方和/或可疑交易接收方；所述交易中存在可疑交易商品；在预定时长内检测到所述用户发起的交易数量达到次数阈值。可以判断该交易是否满足以上一种或多种条件。当然，在实际应用中也可以存在其他的风险预测条件，本实施例对此不作特殊限制。

若达到风险预测条件，支付平台可以确定该笔交易涉及的各个目标实体，即小明和小芳。然后可以获取小明的三元组信息和小芳的三元组信息。此处的三元组信息可以是支付平台基于交易相关的结构化数据或非结构化数据提取得到的，比如结构化数据可以是小明和小芳之间的历史交易、小明和小芳的账号信息，非结构化数据可以是小明和小芳之间的聊天记录、小明和小芳在支付平台上的行为数据等。这些三元组可以是支付平台接收到小明发起的交易后临时获取的，也可以是预先获取并保存在本地的，本实施例对此不作特殊限制。

然后支付平台可以向数据挖掘方发送风险预测请求，并且在该请求中携带交易数据、小明的三元组信息和小芳的三元组信息。其中，交易数据可以是转账时间、转账地点、转账金额等等，可参照前述实施例，在此不再赘述。

在另一个例子中，交易类型为C to B，支付平台可能通过与第三方平台之间的接口，接收到用户在其他平台发起的交易，如在购物平台发起的购物交易、在游戏平台发起的充值交易、在缴费平台发起的缴费交易等等。

比如，小明在A商家购买了200元的衣服。类似的，支付平台同样可以先判断该笔交易是否达到风险预测条件。若达到，则可以获取小明的三元组信息、A商家的三元组信息，然后将这些信息携带在风险预测请求中发送给数据挖掘方。风险预测条件可参考前述内容，在此不再赘述。

在实际应用中，目标数据提供方除了可以是上述支付平台外，也可以是其他平台，本说明书对此不作特殊限制。

步骤404，向所述若干个数据提供方中的各个非目标数据提供方发送获取各目标实体的三元组的通知。

步骤406，接收各个非目标数据提供方发送的各目标实体的三元组。

本实施例中，数据挖掘方接收到目标数据提供方发送的预测请求后，可以向其他数据提供方发送通知，以从这些数据提方处获取目标实体的三元组。

仍以上述2种类型的交易进行说明。

在一个例子中，交易为小明向小芳转账100元。数据挖掘方可以向各个非支付平台的数据提供方发送通知，这些数据提供方接收到通知后，可以获取自身拥有的小明和小芳的三元组信息，然后返回给数据挖掘方。

在另一个例子中，交易为小明在A商家购买了200元的衣服。类似的，数据挖掘方同样可以从各个非支付平台的数据提供方处获取小明和商家A的三元组信息。当然，一些平台可能仅存在小明的信息，不存在商家A的信息，那么这些平台也可以仅返回小明的三元组信息。此处的三元组信息同样可以是购物平台基于交易相关的结构化数据或非结构化数据提取得到的，结构化数据可以是小明的账号信息、历史交易信息，非结构化数据可以是小明购买商品的图片信息、文本描述、小明和客服人员之间的聊天记录信息等等。

在本例中，购物平台除了获取上述三元组信息后，还可以获取该交易的关联数据，将关联数据同三元组一起返回给数据挖掘方。

比如，关联数据可以是该交易中小明购买的商品的售价、商品最近一个月的成交笔数、商品的评价信息等等。数据挖掘方可以在后续的步骤中基于这些关联数据来构造风险预测模型的输入数据。

值得说明的是，各个数据提供方发送给数据挖掘方的三元组信息、交易数据同样可以是加密的，以提高数据安全性，比如可以是先按照与数据挖掘方约定好的脱敏方法对这些数据进行脱敏，然后利用数据挖掘方的公钥对脱敏后的数据加密。

步骤408，针对每个所述目标实体，基于各个数据提供方的三元组构建所述目标实体对应的局部知识图谱，确定所述目标实体在所述局部知识图谱中的邻居实体和与所述邻居实体之间的连边。

本步骤中，数据挖掘方可以针对每个目标实体，利用各个数据提供方发送的该目标实体的三元组构建局部知识图谱。

在一个例子中，可以仅根据三元组来构建目标实体的局部知识图谱，局部知识图谱中可以仅包括目标实体的一阶邻居实体，也可以包括二阶、多阶邻居实体，可按照实际情况进行设置。

在另一个例子中，也可以根据目标实体的属性信息来构建目标实体的局部知识图谱，其中，属性信息可以是各个数据提供方在发送三元组时一同发送的。可以基于属性信息，利用链接预测模型来构建局部知识图谱。

当然，也可以结合上述两种方法来构建局部知识图谱。

步骤410，基于各目标实体、各目标实体的邻居实体、各目标实体与其邻居实体之间的连边和所述交易数据构建输入数据，将所述输入数据输入风险预测模型得到预测结果。

本步骤中，数据挖掘方可以利用前述风险预测模型训练实施例中的知识表示模型，对目标实体的局部知识图谱进行知识表示，得到局部知识图谱中目标实体的向量、目标实体的邻居实体的向量、各连边的向量。

然后可以基于目标实体的向量、邻居实体的向量、连边的向量、交易数据的向量(以及关联数据的向量)构建得到风险预测模型的输入数据并输入模型，得到预测结果。比如，可以直接将上述向量进行拼接得到输入数据。

步骤412，向所述目标数据提供方返回所述预测结果。

本实施例中，目标数据提供方接收到数据挖掘方发送的预测结果后，可以基于该预测结果确定交易是否存在风险。

比如，风险预测结果可以直接是有风险/无风险，那么基于该结果可以直接确定交易是否存在风险。

再比如，风险预测结果还可以为风险值的形式，如风险值为0.8。目标数据提供方可以判断风险值是否大于风险阈值，若大于，则确定交易存在风险。

由以上描述可以看出，在本说明书的一个实施例中，目标数据提供方接收到用户发起的交易后，可以获取交易数据、该交易涉及的各目标实体及其三元组，然后将这些数据携带在风险预测请求中发送给数据挖掘方，数据挖掘方接收到所述预测请求后，可以向其他非目标数据提供方发送通知，以从其他非目标数据提供方处获取所述目标实体的三元组以及关联业务数据，然后基于各个数据提供方的三元组构建各目标实体的局部知识图谱，从局部知识图谱中包括各目标实体的邻居实体和与所述邻居实体的连边，然后基于各目标实体、邻居实体、连边、交易数据、关联交易数据来构建风险预测模型的输入数据并输入模型，得到预测结果，将预测结果发送给目标数据提供方。

采用上述方法，目标数据提供方在接收到用户发起的交易后，可以从非结构化数据中提取出所述交易涉及的用户或企业的三元组信息，以挖掘出非结构化数据背后隐含的深层信息，找到所述交易涉及用户或企业之间更多的关联关系。并且，其他数据提供方也可以从非结构化数据中提取出所述用户或企业的三元组信息，然后可以根据各个数据提供方提供的三元组信息一起构建得到更全面、更丰富的局部知识图谱，从而可以在使用交易数据进行风险预测的基础上，还可以结合所述局部知识图谱来预测交易的风险情况，大大提高风险预测的准确度。

值得说明的是，上述实施例虽然以风险预测这一特定的业务场景为例对模型训练过程、风险预测过程进行说明，但在实际情况下，采用上述方法还可以训练得到用于其他业务场景的模型，以实现其他业务处理。

下面对本说明书提供的一种业务处理模型的训练方法进行说明。

所述业务数据模型的训练方法可以应用于服务器或服务器集群中，可以包括以下步骤：

步骤602，接收若干个数据提供方发送的三元组，所述三元组为各个数据提供方基于本方持有的非结构化数据提取得到，所述三元组中包括第一实体、第二实体和连边，所述连边表示第一实体和第二实体之间的关联关系；

步骤604，基于各个数据提供方的三元组构建全局知识图谱；

步骤606，针对每一条样本业务数据，获取所述样本业务数据中涉及的各目标实体，并确定各目标实体在所述全局知识图谱中的邻居实体和与所述邻居实体之间的连边；

步骤608，基于各目标实体、各目标实体的邻居实体、各目标实体与其邻居实体之间的连边和所述样本业务数据构造训练样本；

步骤610，采用所述训练样本训练业务模型。

其中，上述步骤的过程可以参照前述实施例，在此不再赘述。

本实施例中，所述业务处理模型可以应用于多种业务场景，相应的，对应不同业务场景可以采用不同的样本业务数据来训练模型，并且提取得到不同的三元组。

例如，当业务处理模型用于实现检索业务时，样本业务数据可以是用户历史检索输入的关键字、检索结果。三元组信息可以是检索关键字对应实体相关的三元组，也可以是用户相关的三元组。

再例如，当业务处理模型用于实现向用户推荐产品时，样本业务数据可以是历史推荐产品的信息、推荐记录。三元组信息可以是用户相关的三元组。

当然，除上述例子外，业务处理模型还可以是预测用户点击意愿、预测用户购买意愿的模型，可根据具体的业务场景选择相应的业务数据，本说明书在此不再一一举例。

本实施例中，当这些业务处理模型训练完成后，目标数据数据提供方同样可以发起预测请求。预测请求的触发条件也可以根据具体的业务场景来确定。例如，当业务处理模型用于检索时，触发条件可以是接收到用户输入的检索关键字。再例如，当业务处理模型用于向用户推荐产品时，触发条件可以是检测到用户正在浏览产品页面或者用户点击了推荐相关的按钮。

数据挖掘方接收到该预测请求后，可以综合各个数据提供方的三元组信息及业务数据来构建业务处理模型的输入数据，以得到预测结果。

与前述风险预测模型的训练方法的实施例相对应，本说明书还提供了风险预测模型的训练装置的实施例。

本说明书风险预测模型的训练装置的实施例可以应用在服务器上。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在服务器的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图6所示，为本说明书风险预测模型的训练装置900所在服务器的一种硬件结构图，除了图6所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的服务器通常根据该服务器的实际功能，还可以包括其他硬件，对此不再赘述。

图9是本说明书一示例性实施例示出的一种风险预测模型的训练装置的框图。

请参考图9，所述风险预测模型的训练装置900可以应用在前述图6所示的服务器中，包括有：第一接收单元910、知识图谱构建单元920、第一知识表示单元930、第一确定单元940、训练样本构造单元950、训练单元960。知识图谱构建单元920包括局部知识图谱构建子单元920a和融合子单元920b。

其中，第一接收单元910，接收若干个数据提供方发送的三元组，所述三元组为各个数据提供方基于本方持有的数据提取得到，所述三元组中包括第一实体、第二实体和连边，所述连边表示第一实体和第二实体之间存在关联关系；

知识图谱构建单元920，基于各个数据提供方的三元组构建全局知识图谱；

第一确定单元940，针对每一条样本交易数据，获取所述样本交易数据中涉及的各目标实体，并确定各目标实体在所述全局知识图谱中的邻居实体和与所述邻居实体之间的连边；

训练样本构造单元950，基于各目标实体、各目标实体的邻居实体、各目标实体与其邻居实体之间的连边和所述样本交易数据构造训练样本；

训练单元960，采用所述训练样本训练风险预测模型。

可选的，所述知识图谱构建单元920包括：

局部知识图谱构建子单元920a，针对每个所述第一实体，从各个数据提供方的三元组中提取出与所述第一实体存在关联关系的第二实体和与所述第二实体之间的连边，将所述第一实体、所述连边和所述第二实体进行融合，得到所述第一实体对应的局部知识图谱；

融合子单元920b，将每个第一实体对应的局部知识图谱融合为所述全局知识图谱。

可选的，所述三元组中还包括实体的初始标签，所述训练样本的样本标签的确定过程，包括：

根据各个数据提供方提供的所述目标实体的初始标签，确定所述目标实体的综合标签；

根据所述目标实体的综合标签确定所述训练样本的样本标签。

可选的，所述三元组中还包括连边的初始标签，所述训练样本的样本标签的确定过程，包括：

根据所述三元组中样本交易数据所涉及的目标实体之间连边的初始标签，确定所述连边的综合标签；

根据所述连边的综合标签确定训练样本的样本标签。

可选的，还包括：

第一知识表示单元940，对所述全局知识图谱进行知识表示训练，得到所述全局知识图谱中各个实体的向量和各条连边的向量；

所述训练样本构造单元950：

综合各目标实体的向量、各目标实体的邻居实体的向量、目标实体与邻居实体之间的连边的向量和所述样本交易数据的向量，得到训练样本的特征向量。

可选的，所述第一知识表示单元930：

利用知识表示模型对所述全局知识图谱进行知识表示训练。

可选的，所述知识表示模型，包括：距离模型、双线性模型、神经张量模型或矩阵分解模型。

可选的，所述数据包括非结构化数据；

所述非结构化数据包括：交易信息和用户的聊天记录信息。

可选的，所述目标实体包括用户实体和企业实体。

与前述风险预测的方法的实施例相对应，本说明书还提供了风险预测的装置的实施例。

本说明书风险预测的装置的实施例可以应用在服务器上。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在服务器的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图7所示，为本说明书风险预测的装置1000所在服务器的一种硬件结构图，除了图7所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的服务器通常根据该服务器的实际功能，还可以包括其他硬件，对此不再赘述。

图10是本说明书一示例性实施例示出的一种风险预测的装置的框图。

请参考图10，所述风险预测的装置1000可以应用在前述图7所示的服务器中，包括有：风险预测请求接收单元1010、三元组获取单元1020、第二接收单元1030、关联数据接收单元1040、第二确定单元1050、第二知识表示单元1060、预测单元1070、预测结果发送单元1080。

其中，风险预测请求接收单元1010，接收目标数据提供方发起的交易数据风险预测请求，所述风险预测请求中携带所述交易数据和所述交易数据涉及的各目标实体的三元组；

三元组获取单元1020，向所述若干个数据提供方中的各个非目标数据提供方发送获取各目标实体的三元组的通知；

第二接收单元1030，接收各个非目标数据提供方发送的各目标实体的三元组；

第二确定单元1050，针对每个所述目标实体，基于各个数据提供方的三元组构建所述目标实体对应的局部知识图谱，确定所述目标实体在所述局部知识图谱中的邻居实体和与所述邻居实体之间的连边；

预测单元1070，基于各目标实体、各目标实体的邻居实体、各目标实体与其邻居实体之间的连边和所述交易数据构建输入数据，将所述输入数据输入风险预测模型得到预测结果；

预测结果发送单元1080，向所述目标数据提供方返回所述预测结果。

可选的，所述第二确定单元1050在基于各个数据提供方的三元组构建所述目标实体对应的局部知识图谱时：

针对所述目标实体，从各个数据提供方提供的三元组中提取出与所述目标实体存在关联关系的第二实体和与所述第二实体之间的连边；

将所述目标实体、所述连边和所述第二实体进行融合，得到所述目标实体对应的局部知识图谱。

可选的，还包括：

第二知识表示单元1060，利用知识表示模型对所述局部知识图谱进行知识表示，得到所述局部知识图谱中各个实体的向量和各条连边的向量；

所述预测单元1070在基于各目标实体、各目标实体的邻居实体、各目标实体与其邻居实体之间的连边和所述交易数据构建输入数据时：

基于所述目标实体的向量、所述邻居实体的向量、所述连边的向量和所述交易数据的向量构建所述输入数据。

可选的，还包括：

关联数据接收单元1040，接收非目标数据提供方发送的所述交易涉及的关联数据；

基于各目标实体、各目标实体的邻居实体、各目标实体与其邻居实体之间的连边、所述交易数据和所述关联数据构建输入数据。

可选的，所述目标实体包括用户实体和企业实体。

可选的，所述交易数据包括以下一种或多种：

用户的身份信息、账号信息、交易时间、交易金额、交易发起方信息、交易接收方信息、交易商品信息、预设时间段内的历史交易数据。

本说明书风险预测的装置的实施例可以应用在服务器上。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在服务器的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图8所示，为本说明书风险预测的装置1100所在服务器的一种硬件结构图，除了图8所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的服务器通常根据该服务器的实际功能，还可以包括其他硬件，对此不再赘述。

图11是本说明书一示例性实施例示出的另一种风险预测的装置的框图。

请参考图10，所述风险预测的装置1100可以应用在前述图8所示的服务器中，包括有：交易接收单元1110、风险预测请求发送单元1120、预测结果接收单元1130、风险确定单元1140。

其中，交易接收单元1110，接收到任一目标实体发起的交易后，获取所述交易涉及的各目标实体的三元组；

风险预测请求发送单元1120，向数据挖掘方发送交易数据风险预测请求，所述风险预测请求中携带交易数据和所述各目标实体的三元组；

预测结果接收单元1130，接收所述数据挖掘方返回的预测结果，所述预测结果为所述数据挖掘方基于所述若干个数据提供方提供的各目标实体的三元组和所述交易数据，利用风险预测模型预测得到；

风险确定单元1140，根据所述预测结果确定所述交易是否存在风险。

可选的，所述交易接收单元1110在获取所述交易涉及的各目标实体的三元组时：

判断所述交易是否达到风险预测条件；

若达到，则获取所述交易涉及的各目标实体的三元组。

可选的，所述风险预测条件包括以下一种或多种：

所述交易的交易金额达到金额阈值；

所述交易中存在可疑交易发起方和/或可疑交易接收方；

所述交易中存在可疑交易商品；

在预定时长内检测到所述用户发起的交易数量达到次数阈值。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

与前述风险预测模型的训练方法的实施例相对应，本说明书还提供一种风险预测模型的训练装置，该装置包括：处理器以及用于存储机器可执行指令的存储器。其中，处理器和存储器通常借由内部总线相互连接。在其他可能的实现方式中，所述设备还可能包括外部接口，以能够与其他设备或者部件进行通信。

在本实施例中，通过读取并执行所述存储器存储的与风险预测模型的训练逻辑对应的机器可执行指令，所述处理器被促使：

基于各个数据提供方的三元组构建全局知识图谱；

采用所述训练样本训练风险预测模型。

可选的，在基于各个数据提供方的三元组构建全局知识图谱时，所述处理器被促使：

针对每个所述第一实体，从各个数据提供方的三元组中提取出与所述第一实体存在关联关系的第二实体和与所述第二实体之间的连边，将所述第一实体、所述连边和所述第二实体进行融合，得到所述第一实体对应的局部知识图谱；

将每个第一实体对应的局部知识图谱融合为所述全局知识图谱。

可选的，所述三元组中还包括实体的初始标签，在训练样本的样本标签的确定过程中，所述处理器被促使：

可选的，所述三元组中还包括连边的初始标签，在训练样本的样本标签的确定过程中，所述处理器被促使：

根据所述连边的综合标签确定训练样本的样本标签。

可选的，在基于各个数据提供方的三元组构建全局知识图谱之后，所述处理器还被促使：

对所述全局知识图谱进行知识表示训练，得到所述全局知识图谱中各个实体的向量和各条连边的向量；

所述基于各目标实体、各目标实体的邻居实体、各目标实体与其邻居实体之间的连边和所述样本交易数据构造训练样本，包括：

可选的，在对所述全局知识图谱进行知识表示训练时，所述处理器被促使：

利用知识表示模型对所述全局知识图谱进行知识表示训练。

可选的，所述数据包括非结构化数据；

所述非结构化数据包括：交易信息和用户的聊天记录信息。

可选的，所述目标实体包括用户实体和企业实体。

与前述风险预测的方法的实施例相对应，本说明书还提供一种风险预测的装置，该装置包括：处理器以及用于存储机器可执行指令的存储器。其中，处理器和存储器通常借由内部总线相互连接。在其他可能的实现方式中，所述设备还可能包括外部接口，以能够与其他设备或者部件进行通信。

接收各个非目标数据提供方发送的各目标实体的三元组；

向所述目标数据提供方返回所述预测结果。

可选的，在基于各个数据提供方的三元组构建所述目标实体对应的局部知识图谱时，所述处理器被促使：

可选的，在基于各个数据提供方的三元组构建所述目标实体对应的局部知识图谱之后，所述处理器还被促使：

利用知识表示模型对所述局部知识图谱进行知识表示，得到所述局部知识图谱中各个实体的向量和各条连边的向量；

所述基于各目标实体、各目标实体的邻居实体、各目标实体与其邻居实体之间的连边和所述交易数据构建输入数据，包括：

可选的，所述处理器还被促使：

接收非目标数据提供方发送的所述交易涉及的关联数据；

可选的，所述目标实体包括用户实体和企业实体。

可选的，所述交易数据包括以下一种或多种：

根据所述预测结果确定所述交易是否存在风险。

可选的，在获取所述交易涉及的各目标实体的三元组时，所述处理器被促使：

判断所述交易是否达到风险预测条件；

若达到，则获取所述交易涉及的各目标实体的三元组。

可选的，所述风险预测条件包括以下一种或多种：

所述交易的交易金额达到金额阈值；

所述交易中存在可疑交易发起方和/或可疑交易接收方；

所述交易中存在可疑交易商品；

与前述风险预测模型的训练方法的实施例相对应，本说明书还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现以下步骤：

基于各个数据提供方的三元组构建全局知识图谱；

采用所述训练样本训练风险预测模型。

可选的，所述基于各个数据提供方的三元组构建全局知识图谱，包括：

根据所述连边的综合标签确定训练样本的样本标签。

可选的，所述基于各个数据提供方的三元组构建全局知识图谱之后，还包括：

可选的，所述对所述全局知识图谱进行知识表示训练，包括：

利用知识表示模型对所述全局知识图谱进行知识表示训练。

可选的，所述数据包括非结构化数据；

所述非结构化数据包括：交易信息和用户的聊天记录信息。

可选的，所述目标实体包括用户实体和企业实体。

与前述风险预测的方法的实施例相对应，本说明书还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现以下步骤：

接收各个非目标数据提供方发送的各目标实体的三元组；

向所述目标数据提供方返回所述预测结果。

可选的，所述基于各个数据提供方的三元组构建所述目标实体对应的局部知识图谱，包括：

可选的，所述基于各个数据提供方的三元组构建所述目标实体对应的局部知识图谱之后，还包括：

可选的，所述方法还包括：

接收非目标数据提供方发送的所述交易涉及的关联数据；

可选的，所述目标实体包括用户实体和企业实体。

可选的，所述交易数据包括以下一种或多种：

根据所述预测结果确定所述交易是否存在风险。

可选的，所述获取所述交易涉及的各目标实体的三元组，包括：

判断所述交易是否达到风险预测条件；

若达到，则获取所述交易涉及的各目标实体的三元组。

可选的，所述风险预测条件包括以下一种或多种：

所述交易的交易金额达到金额阈值；

所述交易中存在可疑交易发起方和/或可疑交易接收方；

所述交易中存在可疑交易商品；

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上所述仅为本说明书的较佳实施例而已，并不用以限制本说明书，凡在本说明书的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书保护的范围之内。

Claims

1.一种风险预测模型的训练方法，联合若干个数据提供方拥有的数据实现所述风险预测模型的训练，所述风险预测模型用于预测交易风险，所述方法应用于数据挖掘方，包括：

基于各个数据提供方的三元组构建全局知识图谱；

针对每一条样本交易数据，获取所述样本交易数据中涉及的各目标实体，并确定各目标实体在所述全局知识图谱中的邻居实体和与所述邻居实体之间的连边，其中，所述目标实体包括用户、企业和组织；

采用所述训练样本训练风险预测模型，所述风险预测模型的输入为所述训练样本的特征向量，输出为所述训练样本的风险预测结果；

所述训练样本的样本标签的确定过程，包括：

根据各个数据提供方提供的所述目标实体的初始标签，确定所述目标实体的综合标签，并根据所述目标实体的综合标签确定所述训练样本的样本标签；

或，

根据所述三元组中样本交易数据所涉及的目标实体之间连边的初始标签，确定所述连边的综合标签，并根据所述连边的综合标签确定训练样本的样本标签。

2.根据权利要求1所述方法，所述基于各个数据提供方的三元组构建全局知识图谱，包括：

3.根据权利要求1所述方法，所述基于各个数据提供方的三元组构建全局知识图谱之后，还包括：

4.根据权利要求3所述方法，所述对所述全局知识图谱进行知识表示训练，包括：

利用知识表示模型对所述全局知识图谱进行知识表示训练。

5.根据权利要求4所述方法，所述知识表示模型，包括：距离模型、双线性模型、神经张量模型或矩阵分解模型。

6.根据权利要求1所述方法，所述数据包括非结构化数据；

所述非结构化数据包括：交易信息和用户的聊天记录信息。

7.根据权利要求1所述方法，所述目标实体包括用户实体和企业实体。

8.一种风险预测的方法，联合若干个数据提供方拥有的数据进行风险预测，所述方法应用于数据挖掘方，包括：

接收各个非目标数据提供方发送的各目标实体的三元组；

基于各目标实体、各目标实体的邻居实体、各目标实体与其邻居实体之间的连边和所述交易数据构建输入数据，将所述输入数据输入风险预测模型得到预测结果，所述风险预测模型基于权利要求1-7任一项所述方法训练得到；

向所述目标数据提供方返回所述预测结果。

9.根据权利要求8所述方法，所述基于各个数据提供方的三元组构建所述目标实体对应的局部知识图谱，包括：

10.根据权利要求8所述方法，所述基于各个数据提供方的三元组构建所述目标实体对应的局部知识图谱之后，还包括：

11.根据权利要求8所述方法，所述方法还包括：

接收非目标数据提供方发送的所述交易涉及的关联数据；

12.根据权利要求8所述方法，所述目标实体包括用户实体和企业实体。

13.根据权利要求8所述方法，所述交易数据包括以下一种或多种：

14.一种风险预测方法，联合若干个数据提供方进行风险预测，所述方法应用于目标数据提供方，包括：

接收所述数据挖掘方返回的预测结果，所述预测结果为所述数据挖掘方基于所述若干个数据提供方提供的各目标实体的三元组和所述交易数据，利用风险预测模型预测得到，所述风险预测模型基于权利要求1-7任一项所述方法训练得到；

根据所述预测结果确定所述交易是否存在风险。

15.根据权利要求14所述方法，所述获取所述交易涉及的各目标实体的三元组，包括：

判断所述交易是否达到风险预测条件；

若达到，则获取所述交易涉及的各目标实体的三元组。

16.根据权利要求15所述方法，所述风险预测条件包括以下一种或多种：

所述交易的交易金额达到金额阈值；

所述交易中存在可疑交易发起方和/或可疑交易接收方；

所述交易中存在可疑交易商品；

在预定时长内检测到用户发起的交易数量达到次数阈值。

17.一种业务处理模型的训练方法，联合若干个数据提供方实现所述业务处理模型的训练，所述方法应用于数据挖掘方，包括：

基于各个数据提供方的三元组构建全局知识图谱；

采用所述训练样本训练业务处理模型；

所述训练样本的样本标签的确定过程，包括：

或，

根据所述三元组中样本业务数据所涉及的目标实体之间连边的初始标签，确定所述连边的综合标签，并根据所述连边的综合标签确定训练样本的样本标签。

18.一种风险预测模型的训练装置，联合若干个数据提供方拥有的数据实现所述风险预测模型的训练，所述风险预测模型用于预测交易风险，所述装置应用于数据挖掘方，包括：

第一确定单元，针对每一条样本交易数据，获取所述样本交易数据中涉及的各目标实体，并确定各目标实体在所述全局知识图谱中的邻居实体和与所述邻居实体之间的连边，其中，所述目标实体包括用户、企业和组织；

训练单元，采用所述训练样本训练风险预测模型，所述风险预测模型的输入为所述训练样本的特征向量，输出为所述训练样本的风险预测结果；

所述训练样本的样本标签的确定过程，包括：

或，

19.根据权利要求18所述装置，所述知识图谱构建单元，包括：

局部知识图谱构建子单元，针对每个所述第一实体，从各个数据提供方的三元组中提取出与所述第一实体存在关联关系的第二实体和与所述第二实体之间的连边，将所述第一实体、所述连边和所述第二实体进行融合，得到所述第一实体对应的局部知识图谱；

融合子单元，将每个第一实体对应的局部知识图谱融合为所述全局知识图谱。

20.根据权利要求18所述装置，所述装置还包括：

第一知识表示单元，对所述全局知识图谱进行知识表示训练，得到所述全局知识图谱中各个实体的向量和各条连边的向量；

所述训练样本构造单元：

21.根据权利要求20所述装置，所述第一知识表示单元：

利用知识表示模型对所述全局知识图谱进行知识表示训练。

22.根据权利要求21所述装置，所述知识表示模型，包括：距离模型、双线性模型、神经张量模型或矩阵分解模型。

23.根据权利要求18所述装置，所述数据包括非结构化数据；

所述非结构化数据包括：交易信息和用户的聊天记录信息。

24.根据权利要求18所述装置，所述目标实体包括用户实体和企业实体。

25.一种风险预测的装置，联合若干个数据提供方拥有的数据进行风险预测，所述装置应用于数据挖掘方，包括：

预测单元，基于各目标实体、各目标实体的邻居实体、各目标实体与其邻居实体之间的连边和所述交易数据构建输入数据，将所述输入数据输入风险预测模型得到预测结果，所述风险预测模型基于权利要求1-7任一项所述方法训练得到；

26.根据权利要求25所述装置，所述第二确定单元在基于各个数据提供方的三元组构建所述目标实体对应的局部知识图谱时：

27.根据权利要求25所述装置，所述装置还包括：

第二知识表示单元，利用知识表示模型对所述局部知识图谱进行知识表示，得到所述局部知识图谱中各个实体的向量和各条连边的向量；

所述预测单元在基于各目标实体、各目标实体的邻居实体、各目标实体与其邻居实体之间的连边和所述交易数据构建输入数据时：

28.根据权利要求25所述装置，所述装置还包括：

关联数据接收单元，接收非目标数据提供方发送的所述交易涉及的关联数据；

29.根据权利要求25所述装置，所述目标实体包括用户实体和企业实体。

30.根据权利要求25所述装置，所述交易数据包括以下一种或多种：

31.一种风险预测装置，联合若干个数据提供方进行风险预测，所述装置应用于目标数据提供方，包括：

预测结果接收单元，接收所述数据挖掘方返回的预测结果，所述预测结果为所述数据挖掘方基于所述若干个数据提供方提供的各目标实体的三元组和所述交易数据，利用风险预测模型预测得到，所述风险预测模型基于权利要求1-7任一项所述方法训练得到；

32.根据权利要求31所述装置，所述交易接收单元在获取所述交易涉及的各目标实体的三元组时：

判断所述交易是否达到风险预测条件；

若达到，则获取所述交易涉及的各目标实体的三元组。

33.根据权利要求32所述装置，所述风险预测条件包括以下一种或多种：

所述交易的交易金额达到金额阈值；

所述交易中存在可疑交易发起方和/或可疑交易接收方；

所述交易中存在可疑交易商品；

在预定时长内检测到用户发起的交易数量达到次数阈值。

34.一种业务处理模型的训练装置，联合若干个数据提供方实现所述业务处理模型的训练，所述装置应用于数据挖掘方，包括：

第二训练单元，采用所述训练样本训练业务处理模型；

所述训练样本的样本标签的确定过程，包括：

或，

35.一种风险预测模型的训练装置，联合若干个数据提供方拥有的数据实现所述风险预测模型的训练，所述风险预测模型用于预测交易风险，所述装置应用于数据挖掘方，包括：

处理器；

用于存储机器可执行指令的存储器；

基于各个数据提供方的三元组构建全局知识图谱；

所述训练样本的样本标签的确定过程，包括：

或，

36.一种风险预测的装置，联合若干个数据提供方拥有的数据进行风险预测，所述装置应用于数据挖掘方，包括：

处理器；

用于存储机器可执行指令的存储器；

接收各个非目标数据提供方发送的各目标实体的三元组；

向所述目标数据提供方返回所述预测结果。

37.一种风险预测的装置，联合若干个数据提供方拥有的数据进行风险预测，所述装置应用于目标数据提供方，包括：

处理器；

用于存储机器可执行指令的存储器；

根据所述预测结果确定所述交易是否存在风险。