CN112215604A

CN112215604A - 交易双方关系信息识别方法及装置

Info

Publication number: CN112215604A
Application number: CN202011105853.3A
Authority: CN
Inventors: 筴硕; 许小龙; 陈晴; 冯天恒
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-10-15
Filing date: 2020-10-15
Publication date: 2021-01-12
Anticipated expiration: 2040-10-15
Also published as: CN112215604B

Abstract

本说明书实施例提供一种交易双方关系信息识别方法及装置。该方法包括：获取基于多个用户之间的多种关系构建的知识图谱；知识图谱包括对应于多个用户的多个节点，以及对应于多种关系而构建的多个类别的连接边，多个用户包括自然人用户和/或企业用户；然后，利用预先训练的图嵌入模型，对知识图谱进行图嵌入处理，得到各个节点对应的节点嵌入向量；将目标交易涉及的两个用户对应的两个节点嵌入向量，与各类别连接边的边嵌入向量分别组成三元组，输入预先训练的预测模型，通过预测模型预测各个三元组对应的评价分数。进而基于该评价分数识别出用户之间的关系类别信息，以辅助确定交易是否安全。

Description

交易双方关系信息识别方法及装置

技术领域

本说明书一个或多个实施例涉及机器学习领域，尤其涉及交易双方关系信息识别方法及装置。

背景技术

第三方支付平台提升了人们日常生活生产中转账、支付等操作的便利性，为保证交易安全性，其风险控制系统会对交易可能存在的风险进行智能化识别，尤其是对涉及大额转账的企业用户之间的交易，一直采用较为严格的风险控制策略。

目前的一些风险控制方案，多从用户行为、转账时采用的硬件设备、网络环境等角度评估可能面临的风险，这类方案虽然能够在一定程度上提升交易安全性，但却忽略了其他能够反映交易安全性的一些关键数据或信息。例如，当存在某种常识性信息，能够表明该笔交易存在风险的概率非常低时，已有技术下的一些方案由于无法识别该常识性信息，仍然采用较为严格的控制策略，使得用户在转账时仍然需要配合进行繁琐的验证操作，影响了用户体验。

因此，希望能有改进的方案，能够更加智能化地挖掘到有助于识别交易安全性的其他数据信息，以尽量降低验证操作的冗余度。

发明内容

本说明书一个或多个实施例描述了一种交易双方关系信息识别方法及装置，以基于用户之间的多种关系构建的知识图谱为基础，通过图嵌入模型对其执行图嵌入处理，获得各种关系类别的边嵌入向量和各节点嵌入向量，然后基于嵌入向量预测两个节点对应的评价分数，进而识别交易双方用户之间的关系类别信息。

根据第一方面，提供了一种交易双方关系信息识别方法，该方法包括：

获取基于多个用户之间的多种关系构建的知识图谱；知识图谱包括对应于多个用户的多个节点，以及对应于多种关系而构建的多个类别的连接边，多个用户包括自然人用户和/或企业用户；利用预先训练的图嵌入模型，基于知识图谱中各个节点的节点特征和各条连接边的边嵌入向量，对知识图谱进行图嵌入处理，得到各个节点对应的节点嵌入向量；边嵌入向量通过训练图嵌入模型获得；将目标交易涉及的两个用户对应的两个节点嵌入向量，与各类别连接边的边嵌入向量分别组成三元组，输入预先训练的预测模型，通过预测模型预测各个三元组对应的评价分数，评价分数至少用于确定两个用户之间的关系类别信息。

在一个实施例中，该方法还包括：根据评价分数和/或关系类别信息，确定目标交易的交易风险。

在一个实施例中，多个类别的连接边中至少一种类别的连接边对应于静态连接边；对应于同一类别的多条静态连接边具有相同的边嵌入向量；

利用预先训练的图嵌入模型，基于知识图谱中各个节点的节点特征和各条连接边的边嵌入向量，对知识图谱进行图嵌入处理，得到各个节点对应的节点嵌入向量，包括：利用预先训练的图嵌入模型，基于知识图谱中各条静态连接边的边嵌入向量，和通过静态连接边连接的各个节点的节点特征，对知识图谱进行图嵌入处理，得到对应的各个节点嵌入向量。

在一个实施例中，多个类别的连接边中至少一种类别的连接边对应于动态连接边；对应于同一类别的多条动态连接边具有不同的边嵌入向量；

利用预先训练的图嵌入模型，基于知识图谱中各个节点的节点特征和各条连接边的边嵌入向量，对知识图谱进行图嵌入处理，得到各个节点对应的节点嵌入向量，包括：利用预先训练的图嵌入模型，基于知识图谱中各条动态连接边的边嵌入向量，和通过动态连接边连接的各个节点的节点特征，对知识图谱进行图嵌入处理，得到对应的各个节点嵌入向量；其中，各条动态连接边的边嵌入向量，基于该条动态连接边的边特征和该条连接边所属关系类别对应的转换矩阵确定，转换矩阵通过训练图嵌入模型获得。

在一个实施例中，对应于动态连接边的各类别连接边的边嵌入向量，基于对该类别下的多条连接边对应的多个边嵌入向量执行融合处理得到；融合处理包括求平均、求最大值、求最小值中的任意一种。

在一个实施例中，对知识图谱进行图嵌入处理之前，该方法还包括：

获取知识图谱中各个节点的节点特征和各条边的边特征；将知识图谱中对应于同一类别的连接边及其连接的两个节点，划分到同一子图中，获得与连接边的类别数目相对应的多个子图；基于与各种关系类别分别对应的预设处理方式，对各个子图中的节点特征进行处理，获得各个节点的节点初始向量；

利用预先训练的图嵌入模型，基于知识图谱中各个节点的节点特征和各条连接边的边嵌入向量，对知识图谱进行图嵌入处理，包括：基于知识图谱中各个节点的节点初始向量和各条连接边的边嵌入向量，对知识图谱进行图嵌入处理。

在一个实施例中，图嵌入模型包括编码器和解码器；

边嵌入向量基于如下方式获得：基于知识图谱中的各个节点的节点特征和各条连接边的边特征，获得相应的节点初始向量和边初始向量并输入编码器，通过编码器执行图嵌入运算，得到各个节点对应的当前节点嵌入向量，以边初始向量作为边嵌入向量的初始值；从知识图谱中确定出至少一个第一三元组，作为训练样本，第一三元组包括第一节点，第二节点，连接第一节点和第二节点的第一连接边，以及与该第一三元组对应的标签值；通过解码器，基于第一节点的当前节点嵌入向量，第一连接边的当前边嵌入向量，第二节点的当前节点嵌入向量，以及标签值，确定损失值；以最小化损失值为目标，更新编码器，直至损失值收敛，获得至少一种类别的连接边对应的边嵌入向量。

在一个实施例中，知识图谱中具有静态连接边和/或动态连接边；

以最小化损失值为目标，迭代更新编码器中的边嵌入向量，直至损失值收敛，获得至少一种类别的连接边对应的边嵌入向量，包括：以最小化损失值为目标，迭代更新编码器中的静态连接边中至少一种类别的连接边的边嵌入向量，直至损失值收敛，获得各条静态连接边对应的边嵌入向量；和/或，以最小化损失值为目标，迭代更新编码器中的动态连接边中至少一种类别的连接边的转换矩阵，直至损失值收敛，基于各条动态连接边的边初始向量和相应的转换矩阵，获得各条动态连接边对应的边嵌入向量。

在一个实施例中，基于第一节点的当前节点嵌入向量，第一连接边的当前边嵌入向量，第二节点的当前节点嵌入向量，以及标签值，确定损失值，包括：

确定第一连接边对应的第一关系类别，调用对应于第一关系类别的第一损失函数；任意两种关系类别对应的两个损失函数之间的差异，基于该两种关系类别之间的亲疏程度确定；以第一节点的当前节点嵌入向量、第一连接边的当前边嵌入向量、第二节点的当前节点嵌入向量以及标签值，作为第一损失函数的自变量，确定第一关系类别对应的损失值。

在一个实施例中，图嵌入模型包括编码器和解码器；

利用预先训练的图嵌入模型，至少基于知识图谱中各个节点的节点特征和各种类别连接边的边嵌入向量，对知识图谱进行图嵌入处理，得到各个节点对应的节点嵌入向量，包括：确定知识图谱中各个节点的节点初始向量和各条连接边的边嵌入向量；节点初始向量基于节点特征获得；至少将各个节点的节点初始向量输入编码器，通过编码器，根据各条连接边的边嵌入向量，执行图嵌入运算，得到各个节点对应的节点嵌入向量。

在一个实施例中，至少将各个节点的节点初始向量输入编码器，通过编码器，根据各条连接边的边嵌入向量，执行图嵌入运算，包括：

以知识图谱中的任一节点作为第一节点，确定第一节点的邻居节点集合，以及将邻居节点集合中的各个节点与第一节点之间的连接边作为目标边；根据第一节点和邻居节点集合中各个节点的节点初始向量以及各条目标边的边嵌入向量，进行至少一级的向量嵌入，得到第一节点对应的节点嵌入向量。

在一个实施例中，根据第一节点和邻居节点集合中各个节点的节点初始向量以及各条目标边的边嵌入向量，进行至少一级的向量嵌入，包括：

基于节点初始向量，以及第一节点的邻居节点集合，执行一级或多级向量聚合，其中，每级向量聚合包括，根据第一节点与各个邻居节点之间的至少一条连接边对应的边嵌入向量确定对应权重，根据权重对邻居节点集合中各个邻居节点的上一级节点嵌入向量进行邻居聚合，根据该邻居聚合结果，以及第一节点的上一级节点嵌入向量，确定第一节点的本级节点嵌入向量。

在一个实施例中，编码器基于GeniePath模型或GraphSAGE模型获得，解码器基于TransE算法获得。

在一个实施例中，知识图谱中还包括对应于组合关系的连接边；组合关系，基于知识图谱中两条连接边对应的两已知关系组合而得。

在一个实施例中，将目标交易涉及的两个用户对应的两个节点嵌入向量，与各类别连接边的边嵌入向量分别组成三元组，输入预先训练的预测模型，包括：将目标交易涉及的两个用户对应的两个节点嵌入向量，分别与各类别连接边的边嵌入向量组合，获得与连接边类别数目一致的多个第二三元组；第二三元组包括第三节点和第四节点，以及连接于第三节点和第四节点之间的第二连接边的边嵌入向量；将目标交易对应的多个第二三元组，依次输入预先训练的预测模型。

在一个实施例中，通过预测模型预测各个三元组对应的评价分数，包括：通过预测模型，分别计算各个第二三元组对应的评价分数；第二三元组的评价分数，基于第三节点的节点嵌入向量与对应的第二连接边的边嵌入向量之和，与第四节点的节点嵌入向量的差值获得。

在一个实施例中，通过预测模型预测各个三元组对应的评价分数之后，该方法还包括：将评价分数与预先确定的各个关系类别对应的阈值区间进行比较；将评价分数落入的阈值区间对应的关系类别，确定为两个用户之间的存在的关系类别。

在一个实施例中，得到各个节点对应的节点嵌入向量之后，通过预测模型预测各个三元组对应的评价分数之前，该方法还包括：基于预先确定出的多个训练样本，通过预测模型分别计算各个训练样本样本对应的评价分数，对任一种连接边对应的评价分数进行统计，确定该种类别连接边对应的阈值区间。

根据第二方面，本说明书实施例还提供一种交易双方关系信息识别装置，该装置包括：

获取单元，被配置为获取基于多个用户之间的多种关系构建的知识图谱；知识图谱包括对应于多个用户的多个节点，以及对应于多种关系而构建的多个类别的连接边，多个用户包括自然人用户和/或企业用户；图嵌入单元，被配置为利用预先训练的图嵌入模型，基于知识图谱中各个节点的节点特征和各条连接边的边嵌入向量，对知识图谱进行图嵌入处理，得到各个节点对应的节点嵌入向量；边嵌入向量通过训练图嵌入模型获得；预测单元，被配置为将目标交易涉及的两个用户对应的两个节点嵌入向量，与各类别连接边的边嵌入向量分别组成三元组，输入预先训练的预测模型，通过预测模型预测各个三元组对应的评价分数，评价分数至少用于确定两个用户之间的关系类别信息。

根据第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面的方法。

根据第四方面，提供了一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

根据本说明书实施例提供的交易双方关系信息识别方法及装置，将自然人用户、企业用户之间的多种复杂关系通过知识图谱的图结构进行表达，而后基于该知识图谱进行表征学习，通过图嵌入模型(例如KARI算法)获得各个节点的嵌入向量以及各种类别的连接边的边嵌入向量，然后采用预测模型，预测两个节点与各类连接边对应的评价分数，进而基于该评价分数确定该两个节点表示的两个用户之间的关系类别信息，交易中双方用户之间的关系(例如父子、夫妻、法人等)往往能够表明交易的安全性，因此，识别出用户之间的关系，能够为风控策略提供更全面的参考信息，减少不必要的验证操作，在保证交易安全性的同时，提升用户执行交易操作的便利性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出根据一个实施例的交易双方关系信息识别方法的系统架构示意图；

图2示出根据一个实施例的交易双方关系信息识别方法的流程图；

图3示出根据一个实施例的知识图谱的局部拓扑结构示意图；

图4示出根据一个实施例的投资关系子图的示意图；

图5示出根据一个实施例的针对不同关系类别分别获得边嵌入向量的框架示意图；

图6示出根据一个实施例的KARI模型示意图；

图7示出根据一个实施例的KARI模型中解码器的示意图；

图8(a)示出根据一个实施例的知识图谱局部拓扑结构示意图；

图8(b)示出根据一个实施例的KARI模型中编码器执行的图嵌入算法示意图；

图9示出根据一个实施例的交易双方关系信息应用于风控策略场景的示意图；

图10示出根据一个实施例的交易双方关系信息识别装置的结构示意图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

发明人在研究过程中发现，在很多应用场景中，用户之间的关系是能够反映交易安全性的关键信息之一，而目前针对用户安全交易识别，尤其是针对企业用户账户，更多基于支付环节的账户与设备、账户与环境历史情况、以及设备有无更换等信息，忽略了用户之间的关系信息对于交易安全性的影响。即已有技术下的部分风控方案，首先未能考虑到用户之间的关系信息对于交易安全性的影响；或者，即便有相关意识也未能实现对交易双方用户之间关系的识别。一方面是由于对于交易双方的关系没有有效的查询渠道，另一方面是由于对于企业用户本身的工商信息等状态信息无法实时查询，未能实现用户之间关系信息的识别，也就无法对其加以充分有效的利用。

例如，以同一自然人作为法人的两家企业之间，在执行较大额度转账时，有很大可能会被目前的风控策略拦截，需要用户配合执行相对复杂的验证操作才能继续交易；或者，某家涉诉公司首次与某家律所合作，涉诉公司在向律所转账较大金额的代理费用时，虽然属于正常的支付行为，但也很可能会被目前的风控策略拦截；或者，两个自然人之间是夫妻关系或者父子关系，针对二人之间的转账执行的控制策略可以相对宽松以减少不必要的验证，而由于目前的方案无法识别用户之间的关系或者未能意识到需要识别用户之间的关系，使得一些可以更便捷的转账交易操作起来相对繁琐。

此外，已有的风控方案中，也忽略了企业所属的行业信息等属性特征对于交易安全性的参考价值，未能对这些属性信息进行充分利用。

鉴于此，本说明书实施例提供了一种交易双方关系信息识别方法，用以识别每笔交易所涉及的双方用户之间的关系，以使交易安全性识别更加智能化。可以理解，该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。其中，本说明书实施例中，交易可以包括支付、转账等各种操作，例如大额支付、转账等，也可以包括贵重货品的置换等交易。

示例性地，参阅图1所示，该方案首先构建知识图谱或者获取预先构建的知识图谱，然后将该知识图谱的图结构信息以及各个节点的节点特征和边特征，作为输入数据，输入图嵌入模型中。例如，在一个实施例中，输入数据可以是点表和边表的形式，输入预先训练得到的图嵌入模型，通过该图嵌入模型(即KARI模型)获得各个类别连接边的边嵌入向量和各个节点的节点嵌入向量。然后将目标交易涉及的关系未知的两个用户对应的两个节点的节点嵌入向量输入预测模型，通过预测模型计算该两个节点与各种类别的连接边组成的各个三元组对应的评价分数，将该评价分数与预先获得的阈值进行比较，进而确定该两个用户之间是否存在关系或者存在哪种类别的关系。

基于该评价分数，可确定待识别的目标交易的交易双方之间的关系信息，进而用于识别该目标交易是否安全，为交易安全性识别提供了高信息量的参考数据，从而减少不必要的身份验证操作，提升用户体验。

具体地，本说明书披露了一种新的表征学习工具-KARI算法，即一种基于注意力机制、逻辑规则和负采样的新型表征学习算法(Knowledge-aware Inference based onNovel Representation Learning+Knowledge Attention+Logic Rule+AdversarialSampling)，以用于将知识图谱映射为嵌入向量。在KARI算法中，将基于节点特征、边特征和知识图谱的图结构信息获得的输入数据输入编码器，通过编码器执行图嵌入运算，例如执行多级向量嵌入，然后通过解码器执行解码，以及根据预先构建的损失函数，确定损失值并将该损失值对应的梯度反向传播至编码器，从而不断优化编码器中的参数(例如边嵌入向量)，直至损失值收敛，得到训练后的编码器，并确定了各种类别连接边的边嵌入向量以及节点嵌入向量。KARI算法至少用于实现从知识图谱到嵌入向量的映射。

在通过KARI算法获得各种类别的连接边对应的边嵌入向量和各个用户对应的节点嵌入向量后，通过预测模型预测两个节点与各种类别的连接边对应的评价分数，即可基于该评价分数确定该两个用户之间的关系。例如，对于两个关系未知的节点，将该两个节点的节点嵌入向量分别与各种边嵌入向量进行组合，哪种关系对应的评价分数高，则认为该两个节点对应的用户之间存在该种类别的关系，或者，评价分数落入哪种关系对应的阈值区间，则认为存在该种关系。

具体地，参阅图2所示，在一个实施例中，本说明书实施例披露的交易双方关系信息识别方法，可以包括：

S201，获取基于多个用户之间的多种关系构建的知识图谱；S202，利用预先训练的图嵌入模型，基于知识图谱中各个节点的节点特征和各条连接边的边嵌入向量，对知识图谱进行图嵌入处理，得到各个节点对应的节点嵌入向量；S203，将目标交易涉及的两个用户对应的两个节点嵌入向量，与各类别连接边的边嵌入向量分别组成三元组，输入预先训练的预测模型，通过预测模型预测各个三元组对应的评价分数。

其中，边嵌入向量通过训练图嵌入模型获得。

为更好理解本说明书披露的上述方法，首先对S201中获取的知识图谱进行详细说明。

本说明书披露了一种新的用于表征用户之间复杂关系拓扑结构的知识图谱，该知识图谱中以节点表示用户，以连接边表示通过该连接边连接的两个节点之间存在某种关系。在一个实施例中，知识图谱可以包括对应于多个用户的多个节点，以及对应于用户之间的多种关系而构建的多个类别的连接边，即一种关系类别对应一种连接边，例如，合作伙伴、法人、竞争、父子等等多种关系对应于不同类别的连接边。

在本说明书实施例中，节点对应的用户，可以包括各种类型的用户实体，至少包括自然人用户和/或企业用户，对应地，节点可以包括分别对应于自然人用户和企业用户的两类节点。

下面对该知识图谱进一步说明，示例性地，参阅图3所示，a～e均为自然人用户节点，节点a对应的用户与节点b对应的用户之间的关系为父子关系，节点c与节点d对应的两个用户之间为合伙人关系，节点d与节点e对应的两个用户之间为夫妻关系，等等；节点A～M均对应于企业用户，节点A对应的企业用户与节点H对应的企业用户之间具有投资关系，一个表示自然人用户的节点b为节点I所表示的企业的法人，节点d对应的自然人用户为节点E表示的企业的董事，等等。

知识图谱中多种不同类别的连接边，不仅限于表示同一类别节点之间的关系，还可以表示不同类别节点之间的关系，例如表示自然人用户之间的父子、夫妻、合伙人、亲戚、血缘、通讯录等多种类别的关系，自然人用户与企业用户之间的法人、董事、总监、高管、控股等类别的关系，以及企业用户与企业用户之间的投资、合作伙伴、质押、控股等多种关系。实际应用中，可表示的关系类别会更多，各种真实存在于用户之间的关系都可以在知识图谱中建立相应的连接边，例如竞争对手、敌人、雇佣、高管、子公司、分公司等各种关系。

在一个实施例中，从另一个角度，知识图谱中的各种类别的连接边还可以划分为两个大类：动态连接边和静态连接边。节点之间的关系包括静态关系和动态关系，静态关系对应的连接边为静态连接边，动态关系对应的连接边为动态连接边。

静态连接边的边特征不因其连接的节点的变化而变化，即静态连接边中同一类别下的多条连接边的边特征是相同的，对应地，图嵌入模型经过训练之后，输出的边嵌入向量中，静态连接边中同一类别下的多条连接边具有相同的边嵌入向量。上述多个类别的连接边中至少有一种类别的连接边对应于静态连接边，例如父子、亲戚、夫妻等多种关系不会因为用户的变化而变化，这类关系对应的连接边均为静态连接边。

相应地，动态连接边的边特征会随其连接的两个节点的变化而变化，动态连接边中同一类别下的多条连接边具有不同的边特征，对应地，各条动态连接边对应的边嵌入向量也是不同的。上述多个类别的连接边中至少有一种类别的连接边对应于动态连接边，例如，投资、控股、交易等多种关系都可以作为动态关系，在知识图谱中对应建立动态连接边，投资金额、投资比例等与两个用户之间的投资行为具体相关的信息都可以作为动态连接边的边特征，不同的用户之间的投资行为不同，因此不同的两个节点之间的投资连接边也就不同。控股关系对应的边特征可以包括控股比例，交易关系表示两个用户之间曾经发生过交易，交易连接边对应的边特征可以包括交易方差、交易最大值、交易最小值、交易笔数等等。

其中，控股关系既可以作为动态连接边，也可以作为静态连接边。考虑控股比例等特征的影响时，则将其作为动态连接边，边特征需要写入相应的控股比例、控股时长等特征；当将超过1％以上的控股关系均视为存在控股关系，而低于1％的控股关系均忽略这种控股关系时，则控股关系也可以作为静态连接边，即知识图谱中的所有控股关系对应的连接边均为控股1％以上的关系，且不区分具体控股比例，多条控股关系连接边具有相同的边特征。

明确了节点与连接边，即确定了知识图谱的图结构，还需要获取节点特征和边特征。节点特征和边特征可按照多种方式获得。例如，节点特征可以根据节点所表示的用户对应的实际属性特征确定，例如，对于自然人用户，其节点特征可基于该用户的历史交易记录、历史行为、性别、年龄、居住地址、信用状况等各种历史数据获得。即，与交易安全性相关的各种能够表明该用户特征的属性信息，都可以作为该用户对应的节点特征的组成部分，各种属性信息进行拼接即可获得相应的节点特征。

需要说明的是，在本说明书实施例披露的交易双方关系信息识别方案中，还进一步考虑将企业用户对应的行业信息、涉诉信息等属性特征。在一个实施例中，对于企业用户，至少将企业用户的涉诉信息、产业信息、行业信息、经营信息等信息作为该企业用户对应的节点的节点特征，其中涉诉信息包括该企业是否牵涉于一些诉讼案件的信息，产业信息包括该企业公开的各种与其生产活动有关的信息，例如生产设备、人员规模等，行业信息则是该企业经营范围所属的行业，经营信息则可以是其具体经营的产品或者项目等等。这些信息一般不属于保密性信息，可以从各个企业的网站或者一些第三方信息平台的公开数据中获得，数据获取难度不高。可选的，在一些实施例中，还可将该企业用户的历史行为、成立时间、注册资本等作为企业用户对应的节点的初始特征的一部分，以更全面地表达该用户的特征。即，节点特征可以基于该节点所表示的用户对应的各个属性项的属性值确定。在一个实施例中，对目标节点所表示的用户对应的各个属性项的属性内容进行编码后进行加权求和，得到的向量进一步进行转换处理，例如线性或非线性变换等，将变换后的向量作为节点初始向量。

对于静态连接边的边特征，可以进行随机初始化；对于动态连接边的边特征，则可以基于与该条连接边所表示的关系具体相关的信息确定，例如对于投资这种连接边，其边特征可以包括其连接的两个节点之间的投资金额、投资比例等信息，对于交易这种连接边，其边特征可以包括交易最大值、交易最小值以及交易方差等信息。

为便于图嵌入运算，需要将知识图谱中的各个节点特征和各个边特征进行处理，以转换到统一维度的向量空间。节点特征或边特征经过one-hot编码等方式转换为向量后，一般维度是较高的，且不同的特征之间维度差异较大，因此需要对节点特征或边特征进行降维、归一化、线性变换等中的任意一种或多种处理，以使其转换为具有指定维度的向量，也就是符合图嵌入模型对输入向量的维度要求。

实际应用中，知识图谱中的节点数量是非常庞大的。在一个实施例中，为提高对节点特征和边特征的处理效率，将知识图谱拆分为多个子图分别进行处理。具体地，在一个实施例中，可以根据连接边所表示的关系类别，将知识图谱拆分为多个子图，一张子图对应一种关系类别，即，将知识图谱中对应于同一类别的连接边及其连接的两个节点，划分到同一子图中，获得与连接边的类别数目相对应的多个子图。例如图3所示的知识图谱(仅为局部示例图)中示出了父子、合伙人、夫妻、法人、质押、投资、合作伙伴等9种类别的关系，则可对应建立9张子图，其中基于图中可视部分的局部拓扑结构，对应于投资关系的子图参阅图4所示。

由于一种关系类别中的各条连接边两端的节点的数据结构是固定的，例如父子关系对应的连接边连接的两个节点都是自然人用户节点，其数据结构都是自然人用户节点-父子连接边-自然人用户节点，节点特征以及连接边的数据格式是一致的；再例如，法人关系对应的连接边两端的两个节点必然一个是自然人用户，另一个是企业用户，其数据结构都是自然人用户节点-法人连接边-企业用户节点。可见，按照关系类别将知识图谱拆分为多个子图后，每个子图中的一种关系类别中，节点-连接边-节点的数据格式是一致的，对于一张子图中的各条连接边及其两侧的节点特征，可以按照相同的数据处理方式进行处理。如此，一种数据处理方式对应于至少一种关系类别，根据与各种关系类别分别对应的预设处理方式，至少对各个子图中的节点特征进行处理，获得各个节点的节点初始向量。此处的数据处理方式，包括将原始的节点特征以及边特征转换为指定格式的边初始向量以及边初始向量的各种技术手段，例如降维、归一化等等。

这种拆分为多个子图的数据处理方式，相比于整张知识图谱的各个节点特征以及边特征逐个进行处理，效率更高。因为逐个节点或者连接边处理的方式，需要先去识别每个节点的类型以及每条边的类型，再去针对这种节点或者这种连接边的数据结构，去选择适合的转换方式，相比于拆分为多个子图分别进行针对性处理的方式，处理效率将大幅下降。

其中，需要说明的是，在一个实施例中，静态连接边的边初始向量采用随机初始化的方式确定时，可直接生成符合指定格式的边初始向量，无需对连接边的边特征进行转换处理，而只需对其两端节点的节点特征进行降维处理。对于动态连接边，其原始的边特征会包括一些具体的与该种关系对应的属性特征，例如交易关系中的交易方差、交易最大值等特征，因此，在包含动态连接边的子图中，需要对连接边及其两端的节点均进行降维等数据处理，以获得指定格式的边初始向量、节点初始向量。动态连接边的边特征不足以获得指定维度的边初始向量时，在一个实施例中，可以采用随机初始化的方式补齐空缺的多个维度的元素值。

在一个实施例中，关于静态连接边的边初始向量，可根据相应类别的连接边所表示的实际意义的关系强度而设置，例如父子这种关系的关系强度要高于亲戚，法人的关系强度要高于高管等等，则父子这种关系对应的连接边的边初始向量中的元素值或者相应的其他标量可以高于亲戚关系，法人的边初始向量的元素值或其他标量可以高于高管等等。

不同类别的连接边对应的子图的数据结构有时是一致的，例如父子与夫妻两种关系对应的子图中，各条连接边两端的节点都是自然人用户，各条连接边都对应于静态关系，数据格式是一致的，因此，具有相同数据格式的不同子图可以采用同一种数据处理方式。

如此，经过对特征数据的预处理，获得了各个节点的节点初始向量和边初始向量。在一个实施例中，在获得各个节点的节点初始向量和各种边的边初始向量后，基于各张子图，分别生成相应的点表和边表，其中点表包括对应子图中各个节点的节点初始向量，边表包括对应子图中各条连接边的边初始向量以及通过该条连接边连接的两个节点。例如投资这种关系对应的边表中的数据构成格式可以是(A，投资连接边边初始向量，H)，假设节点A的初始向量为

节点H的初始向量为

节点A与节点H之间的边初始向量为

则图4所示的子图对应的边表为

该子图的点表即为

不同的子图对应的点表中，同一节点的节点初始向量是一致的。

当然，在另一个实施例中，边表和点表也可以不与子图对应，例如，还可以依据连接边为静态或动态来设置，静态连接边对应于一个大规模的边表和点表，相应地，动态连接边对应于一个大规模的边表和点表。具体的输入数据的格式可以有多种。边表与点表分别与子图对应，能够便于节点初始向量与边表中的连接边的快速匹配，提升相应节点的初始向量的读取速度。

需要说明的是，参阅图5所示，在一个实施例中，将知识图谱按照关系类别拆分为多个子图的另一个目的在于，将对应于不同类别关系的子图分别输入图嵌入模型中，分别进行训练，以分别获得相应类别的边嵌入向量，防止在模型训练阶段，不同类别的关系之间互相干扰，具体的图嵌入模型训练过程将在后续进行阐述。

接下来对S202中对知识图谱进行图嵌入处理的过程进行详细说明。首先对图嵌入模型进行训练，获得各种类别的连接边对应的边嵌入向量，然后，基于边嵌入向量和节点初始向量，执行图嵌入运算，获得各个节点的节点嵌入向量。

图嵌入模型可以是能够执行图嵌入处理的各种模型，在一个实施例中，图嵌入模型可以是基于KARI算法运行的模型。

下面说明如何对图嵌入模型进行训练：

参阅图6所示，基于KARI算法的图嵌入模型包括编码器和解码器。

首先确定用于训练图嵌入模型的训练样本，在一个实施例中，可以从知识图谱中存在已知关系的图结构中，确定出多个第一三元组，作为训练样本，即一个第一三元组作为一个训练样本，第一三元组包括第一节点，第二节点，连接第一节点和第二节点的第一连接边，以及与该第一三元组对应的标签值。

将作为训练样本的各个第一三元组对应的节点初始向量和边初始向量以及图结构信息输入编码器，例如可以生成各个子图对应的边表和点表，然后分别输入编码器，通过编码器执行图嵌入运算，得到各个节点对应的当前节点嵌入向量，并且以边初始向量作为边嵌入向量的初始值。

接着，将各个作为训练样本的第一三元组对应的当前节点嵌入向量以及当前边嵌入向量(首次训练时为边初始向量)，输入解码器，通过解码器，基于第一节点的当前节点嵌入向量，第一连接边的当前边嵌入向量以及第二节点的当前节点嵌入向量，还有标签值，确定损失值。然后，以最小化该损失值为目标，更新编码器，直至损失值收敛，获得至少一种类别的连接边对应的边嵌入向量。

其中，三元组(h，r，t)一般包括头实体节点h、关系r和尾节点t。可以理解，一个三元组可以记录知识图谱中一条连接边所对应的实体关系，其中头节点h(head)为该连接边一端的节点，尾节点t(tail)为该连接边另一端的节点，关系r(relation)即为该连接边。即，在知识图谱中，通过一条连接边连接的任意两个节点与该条连接边，组成一个三元组。例如图3中，父子关系、合伙人关系、投资关系分别用r1，r2，r3表示，则从图3中可以提取出(a，r1，b)、(c，r2，d)、(H，r3，I)(A，r3，H)等多个三元组。

下面先对KARI算法中的解码器进行详细说明。

在一个实施例中，解码器可基于TransE算法获得，解码器执行的解码操作，可以看作是与TransE算法近似相反的操作，本说明书实施例将该解码过程定义为DTransE。TransE算法的目标是使得

即

趋近于0，而本说明书实施例提供的解码器的目标在于使得基于

确定出的评价分数不趋于0，且该评价分数尽量能够体现样本差异。

具体地，解码器的解码过程，即计算各个第一三元组对应的评价分数，然后至少基于其评价分数确定损失值及梯度，将梯度反向传播给编码器，以不断优化编码器的过程。

作为一种可实施方式，评价分数可以基于第一节点的当前节点嵌入向量、第一连接边的当前边嵌入向量以及第二节点的当前节点嵌入向量确定，具体用于确定评价分数的方式有很多种形式，例如，将第一节点的当前节点嵌入向量与第一连接边的当前边嵌入向量之和，与第二节点的当前节点嵌入向量相减，获得的向量的模作为评价分数，即对任意三元组，最简单的确定评价分数的方式即为求取

的模值，也就是将

作为评价分数。或者，在另外的实施例中，还可以将基于

确定的其他形式的无量纲的标量作为评价分数。

例如，参阅图7所示，假设节点A与节点B之间存在关系r，组成的第一三元组为(A，r，B)，将该第一三元组中的节点嵌入向量

节点嵌入向量

以及边嵌入向量

(图中暂未示出)输入解码器中，解码器计算

将其模值

作为评价分数score，或者将

作为评价分数score。

表示

与

的和向量与

之间的距离(欧式距离)。然后，基于该评价分数以及标签值，确定一个第一三元组对应的局部损失，然后将对应于同一关系类别的多个局部损失求平均，获得该关系类别的损失值，该损失值为一个关系类别对应的全局损失。然后根据该损失值确定梯度，将该梯度反向传播至编码器。第一三元组中，第一连接边表示的关系所属的类别，即为该第一三元组对应的关系类别。

具体地，基于评价分数以及标签值确定损失值的损失函数可以有多种，例如，在一个实施例中，最简单的损失函数

其中Si表示第i个第一三元组的评价分数值，Li表示第i个第一三元组的标签值。即，n个第一三元组对应的评价分数减去标签值得到的局部损失进行求和后再取均值，n可以是对应于同一种关系类别的第一三元组的数目，或者，当一张子图规模较大时，也就是对应于同一关系类别的第一三元组数目较多时，也可以分组进行训练，即n为一个组内的第一三元组数目。例如，n＝5000，即5000个第一三元组为一组。然后多个组再进行一次运算，以获得该关系类别对应的损失值。

在另一个实施例中，损失函数还可以是均方误差损失函数，例如

或者，损失函数还可以采用交叉熵，以评价分数作为预测的概率值，以标签值作为实际的概率值(指标值)，计算其交叉熵，例如

等等。在另一个实施例中，不排除损失函数还可以是

其中

表示第i个三元组的边嵌入向量的模值。

如此，根据损失值确定出梯度，迭代更新编码器中的边嵌入向量或者转换矩阵，直至损失值收敛，将确定出的各种类别的边嵌入向量输出。

其中，对于静态连接边，则更新其边嵌入向量，对于动态连接边，一种类别下的多条动态连接边的边特征是不同的，边初始向量也不同，但具有相同的转换矩阵，在对图嵌入模型进行训练的过程中。

对于动态连接边而言，一种类别的连接边对应一个转换矩阵，即一个类别下的多条动态连接边对应相同的转换矩阵，各条动态连接边的边嵌入向量可基于边初始向量和相应的转换矩阵获得。具体地，对于动态连接边，在对图嵌入模型进行训练的阶段，训练的则是各个类别对应的转换矩阵，也就是根据梯度迭代更新各转换矩阵，然后对于每条动态连接边而言，其边嵌入向量，则是基于边初始向量与其所属类别对应的转换矩阵获得，例如边初始向量与转换矩阵的乘积作为边嵌入向量，或者还可以基于边初始向量与转换矩阵的其他数学关系确定，例如求和等等。

前面已经提及，同一种关系类别的静态连接边的边嵌入向量是相同的，即对应于同一类别的多条静态连接边对应于同一边嵌入向量。而由于同一关系类别下的多条动态连接边的边初始向量不同，使得各条动态连接边具有不同的边嵌入向量，对于同一类别的多条动态连接边，在基于转换矩阵及其边初始向量获得各自的边嵌入向量之后，需要将同一类别下的多条动态连接边的边嵌入向量做融合处理。即，属于动态连接边的各类别连接边的边嵌入向量，基于对该类别下的多条连接边对应的多个边嵌入向量执行融合处理得到，融合处理可以是求平均、求最大值、求最小值中的任意一种，多数实施例中为求取均值作为该类别的边嵌入向量。例如多条投资连接边求均值，作为投资关系对应的边嵌入向量，以便在预测阶段进行预测。

在一个实施例中，训练样本既包括正例样本也包括负例样本。负例样本可以是基于对抗机制，根据正例样本生成，例如可以是明确不存在某种关系的两个节点与该种关系对应组成。

在部分实施例中，各个训练样本标签值依据实际是否存在某种关系而设置，即可以仅考虑该三元组中的两个节点对应的用户之间是否存在该第一连接边对应的关系，确定存在该种关系，则该第一三元组的标签值设为1，确定不存在该种关系，则该第一三元组的标签值设为0。例如，已知节点A和节点B之间存在父子关系r_父子，则三元组训练样本(A，r_父子，B)对应的标签值即为1，父子关系也属于一种亲戚关系，即节点A与节点B对应的两个用户之间还存在亲戚关系，那么(A，r_亲戚，B)的标签值也为1。那么节点A与节点B之间不存在仇人关系，那么三元组训练样本(A，r_仇人，B)的标签值为0。假设节点C与节点D之间存在竞争关系、不存在法人关系，那么(C，r_竞争，D)的标签值为1，而(C，r_法人，D)的标签值为0。即，在该实施例中，真实存在该种关系，则标签值为1，不存在该种关系则标签值为0。

经仿真实验表明，训练之后获得的各种类别的连接边对应的边嵌入向量，以及进一步执行图嵌入获得的各个节点的节点嵌入向量，能够使得知识图谱中任意两个节点组成的一对节点，与各种类别的连接边的边嵌入向量分别组成的第二三元组中，当与真实存在的关系对应的连接边组合时，其三元组样本对应的评价分数，与不存在的关系类别对应的连接边组成的负例三元组样本对应的评价分数，明显有所区别，一般是真实关系对应的评价分数明显高于其他类别，尤其是比不存在的某种关系对应的评价分数要高。并且，两种真实关系相近时，其对应的评价分数也相近。

在一个实施例中，对图嵌入模型进行训练时，还进一步考虑关系与关系之间的亲疏程度。例如，父子close to亲戚，法人close to股东，父子far from敌人，法人far from竞争，也就是父子关系与亲戚关系两种关系之间相近，而父子与敌人该两种关系之间较为疏远。在训练图嵌入模型时，为进一步体现关系之间的亲疏程度，还针对不同的关系类别设置不同的损失函数。

具体地，在一个实施例中，不同关系类别对应的损失函数之间的区别，可以通过在损失函数中添加调节系数实现。例如，损失函数是将评价分数与标签值两项进行量化比较，调节系数可以加到评价分数项，也可以加到标签项。例如，当损失函数为

调节系数添加到评价分数项时，父子关系对应的损失函数可以是

亲戚关系对应的损失函数可以是

敌人关系对应的

α₁与α₂之间的比值设置为趋近于1，而α₁与α₃之间的比值则相对远离1，例如，α₁为1，α₂为0.9，α₃为0.5，则添加该3个调节系数之后，能够使得父子关系与亲戚关系对应的两个损失值之间的差异，比父子关系与敌人关系对应的损失值之间的差异更小，也体现训练出的父子关系与亲戚关系对应的边嵌入向量之间相似度相对更高，而父子关系与敌人关系对应的边嵌入向量之间相似度更低。在另外的实施例中，调节系数也可以添加到评价分数项上。

在另外的实施例中，经仿真实验表明，损失函数中不添加调节系数时，基于上述训练机制，也能够使得在预测阶段，对于待识别的两个节点而言，不同类别的关系会呈现出不同的评价分数值，根据其评价分数的差异，足以识别出该两个节点之间是否存在关系以及存在哪种关系。在损失函数添加调节系数，可进一步将相疏远关系之间的差异放大，但在部分情形下，有可能会降低识别准确度。在实际应用中，可根据实际情况，在识别准确度与关系亲疏调节之间进行平衡，即视实际需求选择是否添加调节系数以及调节系数的具体数值，具体本说明书不逐一列举。

在一个实施例中，还进一步考虑组合关系，也就是关系与关系进行组合获得另一种关系，例如，父亲+父亲＝爷爷，再例如，假设节点d与节点e对应的两个用户之间为夫妻关系，节点e与节点s对应的两个用户之间为居住地相同的关系，那么多数情形下，能够对应得到节点a与节点s对应的两个用户之间也为居住地相同的关系，即(a,夫妻，b)+(b,居住地相同，s)＝(a,居住地相同，s)，其中爷爷关系和居住地相同这两种关系都可视为组合关系，即可由至少两种类别的关系的组合确定出的关系。一方面，可以对两已知关系进行组合，以确定出组合关系，使得知识图谱中的关系信息更加丰富；另一方面，对于组合关系，确定该组合关系可通过另外两条连接边对应的关系进行组合而得时，其边嵌入向量，也可以基于另外两条连接边的边嵌入向量进行组合而得到，例如节点a与节点s之间用于表示居住地相同的连接边的边嵌入向量，即可基于节点a与节点b之间的夫妻连接边的边嵌入向量、节点b与节点s之间的居住地相同连接边的边嵌入向量二者进行组合获得，组合的方式可以是向量点乘等。

通过上述训练过程，损失值收敛则图嵌入模型训练完成，当前的边嵌入向量即可作为训练得到的边嵌入向量输出，下面继续说明编码器如何基于边嵌入向量以及节点嵌入向量执行图嵌入运算：

在一个实施例中，编码器可以基于各种具有图嵌入处理功能的图嵌入模型实现，例如GeniePath模型或GraphSAGE模型等。

将各个节点的节点初始向量输入编码器，通过编码器，根据各条连接边的边嵌入向量，执行图嵌入运算，具体地，相应的图嵌入运算过程如下：

以知识图谱中的任一节点作为第一节点，确定第一节点的邻居节点集合，以及将邻居节点集合中的各个节点与第一节点之间的连接边作为目标边，根据第一节点和邻居节点集合中各个节点的节点初始向量以及各条目标边的边嵌入向量，进行至少一级的向量嵌入，得到第一节点对应的节点嵌入向量。其中，至少一级的向量嵌入过程可以是：基于节点初始向量，以及第一节点的邻居节点集合，执行一级或多级向量聚合，而每级向量聚合包括，根据第一节点与各个邻居节点之间的至少一条连接边对应的边嵌入向量确定对应权重，根据权重对邻居节点集合中各个邻居节点的上一级节点嵌入向量进行邻居聚合，根据该邻居聚合结果，以及第一节点的上一级节点嵌入向量，确定第一节点的本级节点嵌入向量。

例如，参阅图8(a)，一张知识图谱中的局部拓扑结构如图8(a)所示，以其中的节点A₁作为目标节点，基于该局部拓扑结构执行的多级向量嵌入过程参阅图8(b)所示。

例如，根据图8(a)所示的拓扑结构，B1、C1、D1分别为目标节点A1的一阶邻居节点，目标节点A1的邻居节点集合即可为(B1，C1，D1)，节点B1的邻居节点集合为(A1，C1)，示例性地，执行针对节点B1的向量嵌入可以采用如下方式：基于注意力机制，以节点A1与节点B1之间的连接边A1-B1的边嵌入向量作为节点A1对应的权重β₁，以节点A1与节点C1之间的连接边A1-C1的边嵌入向量作为节点C1对应的权重β₂，节点B1对于自身的权重为β₃，执行针对节点B1的向量嵌入，即

分别节点A1、B1以及C1的节点初始向量，然后将

作为节点B1的当前节点嵌入向量，以此类推，分别获得节点C1、D1的当前节点嵌入向量，然后以节点B1、节点C1以及节点D1分别与节点A1之间的连接边的边嵌入向量分别作为权重β₄～β₆，A1自身相对权重为β₇，执行针对节点A1的向量嵌入，即为

如此，即可获得目标节点的当前节点嵌入向量

该示例中聚合函数执行的运算为求和，另外的实施例中，聚合函数还可以执行其他类型的运算，例如求平均等等。

下面以知识图谱中的任一节点作为目标节点，对图嵌入过程执行的特征聚合(即多级向量嵌入)过程进行详细说明。首先，确定与目标节点直接连接或者间接连接的各个节点的节点初始向量，目标节点v的目标初始向量

以及确定目标节点的邻居节点集、目标节点与邻居节点集中的各个节点之间的连接边的边嵌入向量，然后针对这些变量执行多级向量嵌入，直到达到预定级数K，将预定级数的聚合向量

作为目标节点v的节点嵌入向量。

在本说明书实施例中，预定级数k可基于拓扑结构确定也可以根据运算复杂度、运算能力而设定，例如设定k最高为10级。

基于节点初始向量

以及目标节点的邻居节点集，执行多级向量聚合，其中，每级向量聚合包括，对邻居节点集中各个邻居节点的上一级嵌入向量进行邻居聚合，根据该邻居聚合结果，以及目标节点的上一级嵌入向量，确定目标节点的本级嵌入向量。

在一个实施例中，上述邻居节点集包括所有与目标节点相连接的节点，即包括，与目标节点有一度连接关系的邻居节点。

在一个实施例中，邻居节点聚合操作可以通过聚合函数AGG_k来表示。如此，对于目标节点v，其第k级向量聚合可以包括，首先利用聚合函数AGG_k，根据该目标节点v的邻居节点u的上一级(即k-1级)嵌入向量

以及将目标节点v对应的各条连接边的边嵌入向量作为相应的邻居节点u对应的权重因子β_uv，即邻居节点u到目标节点v的连接边的边嵌入向量作为权重因子β_uv，先得到邻居聚合向量

其中N(v)表示节点v的邻居节点集合，即：

然后，根据该邻居聚合向量

以及该目标节点v的节点初始向量，以及目标节点v相对于自身节点的权重β_vv，确定该目标节点v的本级(k级)嵌入向量

即：

其中，f表示对邻居聚合向量

和节点v上一级向量

施加的综合函数。在不同实施例中，函数f中的综合操作可以包括，将

与

拼接，或者求和，或者求平均。上述列举的公式(1)以及公式(2)的实施方式，将邻居聚合过程与本级的目标节点的聚合过程分开计算，实际上，在另外的实施例中，当函数f采用求和运算时，基于注意力机制，可以在公式(1)中使目标节点与邻居节点共同参与聚合，一步实现聚合，而无需先将邻居节点聚合而后再与目标节点聚合，相应的公式(1)即可变形为

在不同实施例中，以上进行邻居聚合操作的聚合函数AGG_k可以采取不同的形式和算法。

在一个实施例中，上述聚合函数AGG_k包括池化操作。相应的，在公式(1)中根据邻居节点u的上一级嵌入向量

确定邻居聚合向量

即意味着，对目标节点v的各个邻居节点u的上一级嵌入向量

进行池化操作，得到邻居聚合向量

更具体的，上述池化操作可以包括，最大池化，平均池化，等等。在另一个实施例中，上述聚合函数AGG_k包括求和操作。相应的，公式(1)具体化为，对各个邻居节点u的上一级嵌入向量

进行求和。在又一实施例中，上述聚合函数AGG_k可以表示，将各个邻居节点u的上一级嵌入向量

依次输入LSTM神经网络，将如此得到的隐向量作为邻居聚合向量

前面已经提及，上述权重因子β_uv根据该邻居节点u与目标节点v之间的连接边的边嵌入向量确定。在一个实施例中，边嵌入向量直接作为该邻居节点u对应的权重因子β_uv，在另外的实施例中，可以将边嵌入向量转换为标量后再参与聚合运算。

依次以各个节点作为目标节点，执行经过上述图嵌入运算过程，即可获得各个节点的节点嵌入向量，在图嵌入模型的训练阶段，还获得了多种关系类别的连接边对应的多个边嵌入向量。

接下来，执行S203。在S203中，将当前待识别交易涉及的交易双方用户作为待识别用户，将两个待识别用户对应的两个节点嵌入向量，分别与各类别连接边的边嵌入向量组合，获得与连接边类别数目一致的多个第二三元组。例如，假设当前待识别的两个用户对应的节点为节点A与节点F，知识图谱中存在m种类别的关系，则经过上述过程，可确定出m种边嵌入向量，将节点A、节点F分别与m种关系的连接边分别组合，获得m个第二三元组，第二三元组包括第三节点和第四节点，以及连接于第三节点和第四节点之间的第二连接边的边嵌入向量。然后分别计算该m个第二三元组分别对应的评价分数，前述已经提及，此处评价分数的计算方式同解码器中计算评价分数的方式，即与第一三元组对应的评价分数计算方式一致，第二三元组的评价分数，也是基于第三节点的节点嵌入向量与对应的第二连接边的边嵌入向量之和，与第四节点的节点嵌入向量的差值获得，评价分数具体可以是第三节点的节点嵌入向量与对应的第二连接边的边嵌入向量相加获得的和向量，减去第四节点的节点嵌入向量之后，获得的向量的模值，在另一个实施例中，可以为和向量与第四节点的节点嵌入向量之间的欧式距离。

然后，将各个第二三元组的评价分数与预先获得的各个关系类别对应的阈值区间进行比较，将评价分数落入的阈值区间对应的关系类别，确定为两个用户之间的存在的关系类别。

在一个实施例中，阈值区间，可以通过对多个关系已知的三元组样本的评价分数值进行统计分析得到。即，在获得三元组对应的两个节点嵌入向量和边嵌入向量之后，可以分别计算其对应的评价分数并进行记录，对各种关系类别下的多个三元组样本对应的评价分数值进行统计，例如统计目标数值区间的覆盖率、以及每种关系类别下的评价分数值的概率分布情况，例如，1万对已知存在父子关系的三元组样本中，基于上述S202获得的边嵌入向量以及节点嵌入向量，得出的1万条评价分数值中，有超过95％以上的评价分数落入了0.8-1这个区间，则保证准确率为95％左右时，父子关系对应的阈值区间即可设置为0.8-1。采用同样的方式，可获得其他关系类别的阈值区间。例如，获得敌人这种关系对应的阈值区间为0.6-0.8，等等。

分别计算节点A与节点F的节点嵌入向量与各种关系对应的边嵌入向量组合而成的三元组对应的评价分数，当该两个节点与父子关系组合时，计算的评价分数最高，为0.91，且明显高于其他关系类别时，则认为节点A与节点F之间存在父子关系。

需要说明的是，知识图谱中，相近关系对应的拓扑结构会存在部分重合，例如父子关系属于亲戚关系，那么存在父子关系的两个用户之间，也同时具备亲戚关系，那么当将存在亲戚关系的正样本与存在父子关系的正样本会存在部分重合，也就是会使得多条父子连接边与多条亲戚连接边所连接的两个节点特征或者节点初始向量是有重合的，一方面训练出的父子边嵌入向量与亲戚边嵌入向量本身会较为相似，另一方面会使得评价分数也较为接近，例如一般地，亲戚关系的阈值区间会与父子关系接近，但受不存在父子关系的节点的影响，其阈值区间的数值一般会小于父子关系，例如，1万对亲戚关系对应的评价分数中，落入0.5-0.7这个区间的占90％以上，则0.5-0.7可以作为亲戚关系对应的阈值区间。

经仿真实验表明，多个实施例中，经过上述图嵌入处理，对于不同类别的关系，其连接边连接的两个节点的节点嵌入向量往往也会呈现出与该种关系相对应的特点，例如，夫妻关系的连接边两端节点的节点嵌入向量，与法人这种关系的连接边两端的节点嵌入向量会存在明显差异，在预测阶段，这种差异连同关系类别对应的边嵌入向量本身的差异被一起量化表达为评价分数。例如，存在父子关系的两个节点的节点嵌入向量，一端是作为父亲的自然人对应的经过特征聚合后的节点嵌入向量，另一端是作为儿子的自然人对应的经过特征聚合后的节点嵌入向量，与敌人关系的两个节点的节点嵌入向量，会存在明显差异。即对待识别的两个节点而言，其节点嵌入向量与不同类别的连接边的边嵌入向量分别计算出的评价分数，会存在一定差异，一般情形下，与真实存在的关系类别对应的连接边组合出的三元组(第二三元组)，对应计算出的评价分数，会与不存在的关系类别对应获得的评价分数有明显区别。

例如，节点A与节点F存在父子关系和亲戚关系该两种关系，那么将节点A和节点F的节点嵌入向量与各种类别的连接边的边嵌入向量进行组合，与父子关系对应的边嵌入向量组合时，计算出的评价分数值是最高的，例如是0.9，与亲戚关系对应的边嵌入向量进行组合时，评价分数会略低于父子关系，例如是0.7，而与其他各种关系类别的组成的三元组对应计算出的评价分数均趋近于0，这是由知识图谱本身的结构特性以及图嵌入模型的训练机制决定的。

计算第二三元组对应的评价分数，可以是通过预测模型来计算，需要说明的是，预测模型可以为能够实现评价分数计算的任意一种算法模型。在一个实施例中，预测模型可以采用解码器，也就是在本说明书提供的方法中，KARI模型的训练阶段会用到解码器，在预测阶段，预测模型也可以再次采用KARI模型中的解码器。

综上，本说明书实施例提供的方案中，首先基于知识图谱，通过投资、控股等关系表达企业与企业间的关系强弱信息，通过法人、董事、总监、高管等关系表达企业与自然人之间的关系强弱信息，通过夫妻、血缘、通讯录扥关系表达自然人与自然人之间的关系强弱信息，构建出一张侧重于描述用户之间关系的图谱，将散乱的数据通过知识图谱的形式整合；

然后，基于KARI算法，充分融合图谱中点和边的属性信息以及图的结构信息，KARI算法不仅能够支持图嵌入处理，还具有支持异质图谱(即多种类型的节点和边)、支持1-N,N-1,N-N的复杂连接关系、支持对称/非对称、反转、组合关系、支持自我对抗负采样等特点，KARI模型能够支持大规模图推理以及共享参数，其输出的节点嵌入向量，量化表达了各个用户的综合特征，不仅可以用于预测用户之间的关系，还可以支持常见推理任务，例如实体相似度计算、链接预测、节点分类、社区发现等等。而本说明书实施例预测出的关系信息，至少可以用于识别交易安全性，参阅图9所示，在风险识别场景中，可以在风控策略的快速识别层，利用交易双方的关系信息，快速判断交易是否属于安全交易可放行，以加快风险识别的效率，减少响应时长。例如，对于识别出存在父子关系或夫妻关系的两个用户之间的转账，可将风控策略进行调整，适当减少身份验证操作，对于存在委托关系的企业用户和代理方机构用户之间的转账，也可以适当放松风控策略，以减少不必要的验证操作。

参阅图10所示，本说明书还提供了一种交易双方关系信息识别装置1000，该装置包括：

获取单元1001，被配置为获取基于多个用户之间的多种关系构建的知识图谱；知识图谱包括对应于多个用户的多个节点，以及对应于多种关系而构建的多个类别的连接边，多个用户包括自然人用户和/或企业用户；

图嵌入单元1002，被配置为利用预先训练的图嵌入模型，基于知识图谱中各个节点的节点特征和各条连接边的边嵌入向量，对知识图谱进行图嵌入处理，得到各个节点对应的节点嵌入向量；边嵌入向量通过训练图嵌入模型获得；

预测单元1003，被配置为将目标交易涉及的两个用户对应的两个节点嵌入向量，与各类别连接边的边嵌入向量分别组成三元组，输入预先训练的预测模型，通过预测模型预测各个三元组对应的评价分数，评价分数至少用于确定两个用户之间的关系类别信息。

该交易双方关系信息识别装置可以部署在任何具有计算、处理能力的设备、平台或设备集群中。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图2所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图2所述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种交易双方关系信息识别方法，所述方法包括：

获取基于多个用户之间的多种关系构建的知识图谱；所述知识图谱包括对应于多个用户的多个节点，以及对应于所述多种关系而构建的多个类别的连接边，所述多个用户包括自然人用户和/或企业用户；

利用预先训练的图嵌入模型，基于所述知识图谱中各个节点的节点特征和各条连接边的边嵌入向量，对所述知识图谱进行图嵌入处理，得到各个节点对应的节点嵌入向量；所述边嵌入向量通过训练图嵌入模型获得；

将目标交易涉及的两个用户对应的两个节点嵌入向量，与各类别连接边的边嵌入向量分别组成三元组，输入预先训练的预测模型，通过所述预测模型预测各个三元组对应的评价分数，所述评价分数至少用于确定所述两个用户之间的关系类别信息。

2.根据权利要求1所述的方法，其中，该方法还包括：

根据所述评价分数和/或所述关系类别信息，确定所述目标交易的交易风险。

3.根据权利要求1所述的方法，其中，所述多个类别的连接边中至少一种类别的连接边对应于静态连接边；对应于同一类别的多条静态连接边具有相同的边嵌入向量；

利用预先训练的图嵌入模型，基于所述知识图谱中各个节点的节点特征和各条连接边的边嵌入向量，对所述知识图谱进行图嵌入处理，得到各个节点对应的节点嵌入向量，包括：

利用预先训练的所述图嵌入模型，基于所述知识图谱中各条静态连接边的边嵌入向量，和通过所述静态连接边连接的各个节点的节点特征，对所述知识图谱进行图嵌入处理，得到对应的各个节点嵌入向量。

4.根据权利要求1所述的方法，其中，所述多个类别的连接边中至少一种类别的连接边对应于动态连接边；对应于同一类别的多条动态连接边具有不同的边嵌入向量；

利用预先训练的所述图嵌入模型，基于所述知识图谱中各条动态连接边的边嵌入向量，和通过所述动态连接边连接的各个节点的节点特征，对所述知识图谱进行图嵌入处理，得到对应的各个节点嵌入向量；

其中，所述各条动态连接边的边嵌入向量，基于该条动态连接边的边特征和该条连接边所属关系类别对应的转换矩阵确定，所述转换矩阵通过训练图嵌入模型获得。

5.根据权利要求4所述的方法，其中，对应于所述动态连接边的各类别连接边的边嵌入向量，基于对该类别下的多条连接边对应的多个边嵌入向量执行融合处理得到；所述融合处理包括求平均、求最大值、求最小值中的任意一种。

6.根据权利要求1所述的方法，其中，对所述知识图谱进行图嵌入处理之前，该方法还包括：

获取所述知识图谱中各个节点的节点特征和各条边的边特征；

将所述知识图谱中对应于同一类别的连接边及其连接的两个节点，划分到同一子图中，获得与连接边的类别数目相对应的多个子图；

基于与各种关系类别分别对应的预设处理方式，对各个子图中的节点特征进行处理，获得各个节点的节点初始向量；

利用预先训练的所述图嵌入模型，基于所述知识图谱中各个节点的节点特征和各条连接边的边嵌入向量，对所述知识图谱进行图嵌入处理，包括：

基于所述知识图谱中各个节点的节点初始向量和各条连接边的边嵌入向量，对所述知识图谱进行图嵌入处理。

7.根据权利要求1所述的方法，其中，所述图嵌入模型包括编码器和解码器；

所述边嵌入向量基于如下方式获得：

基于所述知识图谱中的各个节点的节点特征和各条连接边的边特征，获得相应的节点初始向量和边初始向量并输入所述编码器，通过所述编码器执行图嵌入运算，得到各个节点对应的当前节点嵌入向量，以所述边初始向量作为边嵌入向量的初始值；

从所述知识图谱中确定出至少一个第一三元组，作为训练样本，所述第一三元组包括第一节点，第二节点，连接所述第一节点和所述第二节点的第一连接边，以及与该第一三元组对应的标签值；

通过所述解码器，基于所述第一节点的当前节点嵌入向量，第一连接边的当前边嵌入向量，所述第二节点的当前节点嵌入向量，以及所述标签值，确定损失值；

以最小化所述损失值为目标，更新所述编码器，直至所述损失值收敛，获得至少一种类别的连接边对应的边嵌入向量。

8.根据权利要求7所述的方法，其中，所述知识图谱中具有静态连接边和/或动态连接边；

以最小化所述损失值为目标，迭代更新所述编码器中的边嵌入向量，直至所述损失值收敛，获得至少一种类别的连接边对应的边嵌入向量，包括：

以最小化所述损失值为目标，迭代更新所述编码器中的静态连接边中至少一种类别的连接边的边嵌入向量，直至所述损失值收敛，获得各条所述静态连接边对应的边嵌入向量；和/或，

以最小化所述损失值为目标，迭代更新所述编码器中的动态连接边中至少一种类别的连接边的转换矩阵，直至所述损失值收敛，基于各条动态连接边的边初始向量和相应的转换矩阵，获得各条动态连接边对应的边嵌入向量。

9.根据权利要求7所述的方法，其中，基于所述第一节点的当前节点嵌入向量，第一连接边的当前边嵌入向量，所述第二节点的当前节点嵌入向量，以及所述标签值，确定损失值，包括：

确定所述第一连接边对应的第一关系类别，调用对应于第一关系类别的第一损失函数；任意两种关系类别对应的两个损失函数之间的差异，基于该两种关系类别之间的亲疏程度确定；

以所述第一节点的当前节点嵌入向量、所述第一连接边的当前边嵌入向量、所述第二节点的当前节点嵌入向量以及所述标签值，作为所述第一损失函数的自变量，确定所述第一关系类别对应的损失值。

10.根据权利要求1所述的方法，其中，所述图嵌入模型包括编码器和解码器；

利用预先训练的所述图嵌入模型，至少基于所述知识图谱中各个节点的节点特征和各种类别连接边的边嵌入向量，对所述知识图谱进行图嵌入处理，得到各个节点对应的节点嵌入向量，包括：

确定所述知识图谱中各个节点的节点初始向量和各条连接边的边嵌入向量；所述节点初始向量基于所述节点特征获得；

至少将各个节点的所述节点初始向量输入所述编码器，通过所述编码器，根据各条连接边的边嵌入向量，执行图嵌入运算，得到各个节点对应的节点嵌入向量。

11.根据权利要求10所述的方法，其中，至少将各个节点的所述节点初始向量输入所述编码器，通过所述编码器，根据各条连接边的边嵌入向量，执行图嵌入运算，包括：

以所述知识图谱中的任一节点作为第一节点，确定所述第一节点的邻居节点集合，以及将所述邻居节点集合中的各个节点与所述第一节点之间的连接边作为目标边；

根据所述第一节点和所述邻居节点集合中各个节点的节点初始向量以及各条目标边的边嵌入向量，进行至少一级的向量嵌入，得到所述第一节点对应的节点嵌入向量。

12.根据权利要求11所述的方法，其中，根据所述第一节点和所述邻居节点集合中各个节点的节点初始向量以及各条目标边的边嵌入向量，进行至少一级的向量嵌入，包括：

基于所述节点初始向量，以及所述第一节点的邻居节点集合，执行一级或多级向量聚合，其中，每级向量聚合包括，根据所述第一节点与各个邻居节点之间的至少一条连接边对应的边嵌入向量确定对应权重，根据所述权重对所述邻居节点集合中各个邻居节点的上一级节点嵌入向量进行邻居聚合，根据该邻居聚合结果，以及所述第一节点的上一级节点嵌入向量，确定所述第一节点的本级节点嵌入向量。

13.根据权利要求7或10所述的方法，其中，所述编码器基于GeniePath模型或GraphSAGE模型获得，所述解码器基于TransE算法获得。

14.根据权利要求1所述的方法，其中，所述知识图谱中还包括对应于组合关系的连接边；

所述组合关系，基于所述知识图谱中两条连接边对应的两已知关系组合而得。

15.根据权利要求1所述的方法，其中，将目标交易涉及的两个用户对应的两个节点嵌入向量，与各类别连接边的边嵌入向量分别组成三元组，输入预先训练的预测模型，包括：

将目标交易涉及的两个用户对应的两个节点嵌入向量，分别与各类别连接边的边嵌入向量组合，获得与连接边类别数目一致的多个第二三元组；所述第二三元组包括第三节点和第四节点，以及连接于所述第三节点和第四节点之间的第二连接边的边嵌入向量；

将所述目标交易对应的多个第二三元组，依次输入所述预先训练的预测模型。

16.根据权利要求15所述的方法，其中，通过所述预测模型预测各个三元组对应的评价分数，包括：

通过所述预测模型，分别计算各个第二三元组对应的评价分数；所述第二三元组的评价分数，基于所述第三节点的节点嵌入向量与对应的第二连接边的边嵌入向量之和，与所述第四节点的节点嵌入向量的差值获得。

17.根据权利要求1所述的方法，其中，通过所述预测模型预测各个三元组对应的评价分数之后，该方法还包括：

将所述评价分数与预先确定的各个关系类别对应的阈值区间进行比较；

将所述评价分数落入的阈值区间对应的关系类别，确定为所述两个用户之间的存在的关系类别。

18.根据权利要求17所述的方法，其中，得到各个节点对应的节点嵌入向量之后，通过所述预测模型预测各个三元组对应的评价分数之前，该方法还包括：

基于预先确定出的多个训练样本，通过所述预测模型分别计算各个训练样本样本对应的评价分数，对任一种连接边对应的评价分数进行统计，确定该种类别连接边对应的阈值区间。

19.一种交易双方关系信息识别装置，所述装置包括：

获取单元，被配置为获取基于多个用户之间的多种关系构建的知识图谱；所述知识图谱包括对应于多个用户的多个节点，以及对应于所述多种关系而构建的多个类别的连接边，所述多个用户包括自然人用户和/或企业用户；

图嵌入单元，被配置为利用预先训练的图嵌入模型，基于所述知识图谱中各个节点的节点特征和各条连接边的边嵌入向量，对所述知识图谱进行图嵌入处理，得到各个节点对应的节点嵌入向量；所述边嵌入向量通过训练图嵌入模型获得；

预测单元，被配置为将目标交易涉及的两个用户对应的两个节点嵌入向量，与各类别连接边的边嵌入向量分别组成三元组，输入预先训练的预测模型，通过所述预测模型预测各个三元组对应的评价分数，所述评价分数至少用于确定所述两个用户之间的关系类别信息。

20.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-18中任一项的所述的方法。

21.一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-18中任一项所述的方法。