CN112750038A

CN112750038A - 交易风险的确定方法、装置和服务器

Info

Publication number: CN112750038A
Application number: CN202110047541.XA
Authority: CN
Inventors: 陈珊珊; 黄炳; 徐祎; 马格
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2021-01-14
Filing date: 2021-01-14
Publication date: 2021-05-04
Anticipated expiration: 2041-01-14
Also published as: CN112750038B

Abstract

本说明书提供了一种交易风险的确定方法、装置和服务器。在人工智能技术领域中，基于该方法，具体实施前，部署于第一数据域一侧且持有样本数据相对有限的第一服务器可以预先与部署于第二数据域一侧且持有样本数据相对丰富的第二服务器合作，利用双方所分别持有的第一样本数据和第二样本数据通过样本迁移学习和横向联邦学习训练得到精度较高的针对第一数据域的预设的交易风险识别模型；具体实施时，第一服务器在接收到第一数据域中待检测的目标交易数据后，可以调用预设的交易风险识别模型处理该目标交易数据，并根据得到的风险识别结果，准确地确定出目标交易数据是否存在相应的交易风险。从而可以减少交易风险的识别误差，提高识别的准确率。

Description

交易风险的确定方法、装置和服务器

技术领域

本说明书属于人工智能技术领域，尤其涉及交易风险的确定方法、装置和服务器。

背景技术

在许多交易数据处理场景中，往往会存在多个数据方分别持有不同的样本数据，但由于多种原因不同数据方之间存在数据隔离，相互之间不能直接流转所持有的样本数据的情况。

基于上述情况，每个数据方往往只能单独利用己方所持有的样本数据来训练相应的预测模型。但是，由于单个数据方所持有的样本数据通常相对有限，且由于样本数量相对较少还容易出现小样本不平衡等问题，导致基于现有方法所训练得到的模型的模型精度较低、效果较差，进而使得后续在使用上述模型进行所在数据域的数据处理时容易出现误差，影响数据处理的准确率。

针对上述问题，目前尚未提出有效的解决方案。

发明内容

本说明书提供了一种交易风险的确定方法、装置和服务器，以使得持有样本数据相对有限的第一服务器能够有效地利用部署于其他数据域且存在数据隔离的服务器所持有的样本数据，训练得到精度较高、效果较好的预设的交易风险识别模型，进而可以利用该模型准确地识别出所负责的数据域中的交易风险，减少了识别误差，提高交易风险识别的准确率。

本说明书提供的一种交易风险的确定方法，所述方法应用于部署于第一数据域一侧的第一服务器，包括：

获取来自第一数据域的目标交易数据；

调用预设的交易风险识别模型处理所述目标交易数据，得到对应的风险识别结果；其中，所述预设的交易风险识别模型为预先根据第一数据域中的第一样本数据与第二数据域中的第二样本数据基于样本迁移学习和横向联邦学习训练得到的；

根据所述风险识别结果，确定所述目标交易数据是否存在交易风险。

在一个实施例中，在调用预设的交易风险识别模型处理所述目标交易数据之前，所述方法还包括：

向第二服务器发起关于预设的交易风险识别模型的第一训练请求；其中，所述第二服务器用于响应所述第一训练请求，从所持有的第二样本数据中筛选出与第一数据域匹配的第三样本数据；所述第二服务器为部署于第二数据域一侧的服务器；

响应根据基于横向联邦学习的协议规则，与所述第二服务器合作，将所持有的第一样本数据与第二服务器所持有的第三样本数据进行数据融合，得到融合后的样本数据；

利用所述融合后的样本数据对初始模型进行样本迁移学习，得到预设的交易风险识别模型。

在一个实施例中，所述第三样本数据包括第二服务器利用预设的域分类器处理所持有的第二样本数据，得到对应的匹配度评估值；并根据所述匹配度评估值从所述第二样本数据中筛选出的与第一数据域匹配的样本数据。

在一个实施例中，所述预设的域分类器按照以下方式训练得到：

第一服务器响应关于预设的域分类器的第二训练请求，与所述第二服务器合作，从第一样本数据和第二样本数据所包含的交易行为特征中筛选出目标行为特征；其中，所述目标行为特征为在第一数据域中的数据分布与在第二数据域中的数据分布的差异值大于预设的差异阈值的交易行为特征；

从第一样本中抽取第一训练数据；其中，所述第二服务器从第二样本中抽取第二训练数据；所述第一训练数据和所述第二训练数据至少包含有所述目标行为特征；

与所述第二服务器合作，将第一训练数据标记为正样本，将第二训练数据标记为负样本；并利用标记后的第一训练数据和标记后的第二训练数据进行模型训练，以得到预设的域分类器。

在一个实施例中，与所述第二服务器合作，从第一样本数据和第二样本数据所包含的交易行为特征中筛选出目标行为特征，包括：

利用所持有的第一样本数据，与持有第二样本数据的第二服务器合作，计算第一样本数据和第二样本数据所包含的多个交易行为特征中的各个交易行为特征的群体稳定性参数；其中，所述群体稳定性参数用于表征交易行为特征在第一数据域中的数据分布与在第二数据域中的数据分布的差异值；

根据交易行为特征的群体稳定性参数，从第一样本数据和第二样本数据所包含的多个交易行为特征中筛选出目标行为特征。

在一个实施例中，根据以下算式计算交易行为特征的群体稳定性参数：

其中，PSI为交易行为特征的群体稳定性参数，Y_e为交易行为特征在第一数据域中的预期分布，Y为交易行为特征在第二数据域中的预期分布，B为数据分桶的分桶数量，i为数据分桶的分桶编号，

为分桶编号为i的分桶数据中交易行为特征在第一数据域中的预期分布，y_i为分桶编号为i的分桶数据中交易行为特征在第二数据域中的预期分布。

在一个实施例中，所述第一训练数据和所述第二训练数据还包含有相关联的数据对象的肖像特征。

在一个实施例中，所述初始模型包括基于XGBoost算法的模型，和/或，基于GLM算法的模型。

向第二服务器发起关于预设的交易风险识别模型的第一训练请求；其中，所述第二服务器用于响应所述第一训练请求，从所持有的第二样本数据中筛选出与第一数据域匹配的第三样本数据；所述第二服务器还用于利用所述第三样本数据训练得到中间模型；

接收第二服务器发送的中间模型；

利用所持有的第一样本数据训练所述中间模型，得到预设的交易风险识别模型。

在一个实施例中，所述目标交易数据包括银行处理的转账数据；相应的，所述交易风险包括洗钱风险。

本说明书还提供了一种预设的交易风险识别模型的训练方法，所述方法应用于部署于第一数据域一侧的第一服务器，包括：

根据基于横向联邦学习的协议规则，与所述第二服务器合作，将所持有的第一样本数据与第二服务器所持有的第三样本数据进行数据融合，得到融合后的样本数据；

本说明书还提供了一种预设的交易风险识别模型的训练方法，所述方法应用于包含有第一服务器和第二服务器的数据处理系统中，其中，所述第一服务器部署于第一数据域一侧，所述第二服务器部署于第二数据域一侧；

第一服务器向第二服务器发起关于预设的交易风险识别模型的第一训练请求；

第二服务器响应所述第一训练请求，从所持有的第二样本数据中筛选出与第一数据域匹配的第三样本数据；

第一服务器和第二服务器根据基于横向联邦学习的协议规则，通过合作，将分别持有的第一样本数据和第三样本数据进行数据融合，得到融合后的样本数据；

第一服务器利用所述融合后的样本数据对初始模型进行样本迁移学习，得到预设的交易风险识别模型。

本说明书提供了一种交易风险的确定装置，包括：

获取模块，用于获取来自第一数据域的目标交易数据；

调用模块，用于调用预设的交易风险识别模型处理所述目标交易数据，得到对应的风险识别结果；其中，所述预设的交易风险识别模型为预先根据第一数据域中的第一样本数据与第二数据域中的第二样本数据基于样本迁移学习和横向联邦学习训练得到的；

确定模块，用于根据所述风险识别结果，确定所述目标交易数据是否存在交易风险。

本说明书还提供了一种服务器，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现所述交易风险的确定方法的相关步骤。

本说明书还提供了一种计算机可读存储介质，其上存储有计算机指令，所述指令被执行时实现所述交易风险的确定方法的相关步骤。

本说明书提供的一种交易风险的确定方法、装置和服务器，具体实施前，部署于第一数据域一侧且持有样本数据相对有限的第一服务器可以预先与部署于第二数据域一侧且持有样本数据相对丰富的第二服务器合作，利用双方所分别持有的第一样本数据和第二样本数据通过样本迁移学习和横向联邦学习训练得到精度较高的针对第一数据域的预设的交易风险识别模型；具体实施时，第一服务器在接收到来自第一数据域的待检测的目标交易数据后，可以调用上述预设的交易风险识别模型处理该目标交易数据，并根据处理得到的风险识别结果，确定出第一数据域中的该目标交易数据是否存在相应的交易风险。从而可以使得持有样本数据相对有限的第一服务器能够有效地利用部署于其他数据域且存在数据隔离的服务器所持有的样本数据，训练得到精度较高、效果较好的，针对第一数据域的预设的交易风险识别模型，进而第一服务器可以利用该模型准确地识别出所负责的第一数据域中的交易风险，减少了识别误差，提高交易风险识别的准确率。解决了现有方法中存在的由于所在数据域中的样本数据有限，又受数据隔离的限制无法有效地利用其他数据域中的样本数据时，只能基于单个数据域中有限的样本数据训练得到的交易风险识别模型的模型精度低、识别效果差，影响所在的数据域中的交易风险识别的技术问题。

附图说明

为了更清楚地说明本说明书实施例，下面将对实施例中所需要使用的附图作简单地介绍，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是应用本说明书实施例提供的交易风险的确定方法的数据处理系统结构组成的一个实施例的示意图；

图2是本说明书的一个实施例提供的交易风险的确定方法的流程示意图；

图3是本说明书的一个实施例提供的预设的交易风险识别模型的训练方法的流程示意图；

图4是本说明书的一个实施例提供的服务器的结构组成示意图；

图5是本说明书的一个实施例提供的交易风险的确定装置的结构组成示意图图；

图6是本说明书的一个实施例提供的预设的交易风险识别模型的训练装置的结构组成示意图图；

图7是在一个场景示例中，应用本说明书实施例提供的交易风险的确定方法的一种实施例的示意图；

图8是在一个场景示例中，应用本说明书实施例提供的交易风险的确定方法的一种实施例的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

考虑到在一些数据处理场景中，存在多个数据方分别持有不同的样本数据，但由于多种原因不同数据方之间存在数据隔离，相互之间不能直接流转所持有的样本数据的情况。例如，位于A城的银行a和位于B城的银行b分别持有A城居民的交易数据和B城居民的交易数据，但受限于相关规定要求，银行a不能将所持有的A城居民的交易数据传输给银行b，相应的，银行b也不能将所持有的B城居民的交易数据传输给银行a。即，银行a和银行b存在数据隔离。

由于在上述情况下，不同数据方之间存在数据隔离，某一数据方如果想要训练相应的预测模型，只能单独使用己方所持有的样本数据进行模型训练，而无法利用其它数据方所持有的样本数据。但是，单个数据方所持有的样本数据往往相对有限，并且由于单个数据方所持有的样本数据的数量相对较少，还容易出现诸如小样本不平衡等问题。进而导致基于单个数据方所持有的样本数据训练得到的预测模型的模型精度较低、效果较差。进一步，如果使用上述预测模型进行具体的数据处理时，势必容易出现误差，影响数据处理的准确率。

针对产生上述问题的根本原因，本说明书考虑可以同时引入横向联邦学习方法和样本迁移学习方法，这样可以使得部署于第一数据域一侧且持有样本数据相对有限的第一服务器可以与部署于第二数据域一侧且持有样本数据相对丰富的第二服务器合作，不受第一数据域与第二数据域之间数据隔离的影响，有效地利用双方所分别持有的第一样本数据和第二样本数据训练得到精度较高的预设的交易风险识别模型；进而，第一服务器在接收到来自第一数据域的待检测的目标交易数据后，可以调用上述预设的交易风险识别模型处理该目标交易数据，并根据处理得到的风险识别结果，准确地确定出目标交易数据是否存在相应的交易风险。从而可以使得持有样本数据相对有限的第一服务器能够有效地利用部署于其他数据域且存在数据隔离的服务器所持有的样本数据，训练得到精度较高、效果较好的预设的交易风险识别模型，并利用该模型准确地识别出所负责的数据域中的交易风险，减少了识别误差，提高交易风险识别的准确率。

本说明书实施例提供一种交易风险的确定方法，所述交易风险的确定方法具体可以应用于包含有第一服务器和第二服务器的数据处理系统中。其中，可以参阅图1所示。第一服务器和第二服务器可以通过有线或无线的方式相连，以进行相应的数据交互。

在本实施例中，上述第一服务器具体可以理解为部署于第一数据域(或者称第一数据方)一侧的服务器。上述第一服务器可以持有第一数据域中的第一样本数据。其中，上述第一样本数据具体可以理解为从第一数据域中获取的样本数据。上述第一样本数据中的每一条样本数据具体可以包括标识信息(例如，用户甲的身份ID、用户甲的手机号、用户甲的姓名等)和与该标识信息对应的特征数据(例如，用户甲的职业、用户甲的月收入、用户甲的违约次数等)两部分数据。上述特征数据进一步可以包括多种不同特征。

在本实施例中，上述第二服务器具体可以理解为部署于第二数据域(或者称第二数据方)一侧的服务器。上述第二服务器可以持有第二数据域中的第二样本数据。其中，上述第二样本数据具体可以理解为从第二数据域中获取的样本数据。上述第二样本数据中的每一条样本数据具体可以包括标识信息和与该标识信息对应的特征数据两部分数据。上述特征数据进一步可以包括多种不同特征。

其中，上述第一样本数据和第二样本数据具体可以理解为两组标识信息重合度较低，但特征数据所包含的特征的重合度较高的样本数据。

此外，由于第一数据域和第二数据域存在数据隔离，第一服务器无法将所持有的第一样本数据直接传输给第二服务器。相应的，第二服务器也无法将所持有的第二样本数据直接传输给第一服务器。

在本实施例中，具体实施之前，第一服务器和第二服务器可以合作利用双方所持有的样本数据，在数据隔离的条件下联合训练用于识别交易数据是否存在交易风险的预设的交易风险识别模型。

具体的，第一服务器可以向第二服务器发起关于预设的交易风险识别模型的第一训练请求。

第二服务器接收并响应所述第一训练请求，先从所持有的第二样本数据中筛选出与第一数据域匹配的第三样本数据。

接着，第一服务器和第二服务器可以根据基于横向联邦学习的协议规则，通过合作，将各自分别持有的第一样本数据和第三样本数据进行数据融合，得到融合后的样本数据。

通过上述方式，可以打破数据隔离的限制，将第二数据域中的数据知识迁移到融合后的样本数据中。因此，上述融合后的样本数据不但包含有第一数据域中的数据知识，还同时包含有第二数据域中的数据知识。

进而，第一服务器可以利用上述融合后的样本数据训练初始模型，实现样本迁移学习，得到预设的交易风险识别模型。

通过上述方式，第一服务器和第二服务器可以通过综合横向联邦学习和样本迁移学习，合作训练得到模型精度相对较高、效果相对较好的，针对第一数据域的预设的交易风险识别模型。进而第一服务器能够获取并持有上述预设的交易风险识别模型。

具体实施时，第一服务器获取来自第一数据域的待检测的目标交易数据。

第一服务器可以调用上述预设的交易风险识别模型处理所述目标交易数据，得到对应的风险识别结果。

进一步，第一服务器可以根据所述风险识别结果，确定出所述目标交易数据是否存在交易风险。

通过上述方式，第一服务器可以利用上述预设的交易风险识别模型准确地识别所在的第一数据域中的交易数据是否存在交易风险，减少了识别误差，提高了交易风险识别的准确率。

在本实施例中，所述第一服务器、第二服务器具体可以包括一种应用于业务数据处理平台一侧，能够实现数据传输、数据处理等功能的后台服务器。具体的，所述第一服务器、第二服务器例如可以为一个具有数据运算、存储功能以及网络交互功能的电子设备。或者，所述第一服务器、第二服务器也可以为运行于该电子设备中，为数据处理、存储和网络交互提供支持的软件程序。在本实施例中，并不具体限定所述第一服务器、第二服务器所包含的服务器数量。所述第一服务器、第二服务器具体可以为一个服务器，也可以为几个服务器，或者，由若干服务器形成的服务器集群。

参阅图2所示，本说明书实施例提供了一种交易风险的确定方法。其中，该方法具体应用于第一服务器一侧。具体实施时，该方法可以包括以下内容。

S201：获取来自第一数据域的目标交易数据。

S202：调用预设的交易风险识别模型处理所述目标交易数据，得到对应的风险识别结果；其中，所述预设的交易风险识别模型为预先根据第一数据域中的第一样本数据与第二数据域中的第二样本数据基于样本迁移学习和横向联邦学习训练得到的。

S203：根据所述风险识别结果，确定所述目标交易数据是否存在交易风险。

通过上述实施例，第一服务器可以利用预先根据第一数据域中的第一样本数据与第二数据域中的第二样本数据通过样本迁移学习和横向联邦学习，训练得到的精度较高、效果较好的，针对第一数据域的预设的交易风险识别模型；进而第一服务器可以利用该模型处理来自第一数据域的目标交易数据，以准确地识别确定出目标交易数据是否存在交易风险，减少了识别误差，提高了识别的准确率。

在一个实施例中，上述第一服务器具体可以理解为部署于第一数据域一侧的服务器。上述第一服务器可以持有第一数据域中的第一样本数据。其中，上述第一样本数据具体可以理解为从第一数据域中获取的样本数据。

在本实施例中，在应用场景为交易数据处理场景的情况下，上述第一数据域具体可以为包含有多个交易数据的数据域。当然，上述所列举的应用场景和第一数据域只是一种示意性说明。具体实施时，该方法还可以应用于其他的应用场景，并且随着该方法的应用场景的不同，所涉及的第一数据域也可以是不同类型的数据域。

在本实施例中，除第一数据域外还存在区别于第一数据域的第二数据域，并且在第二数据域一侧还部署有第二服务器。类似于第一服务器，上述第二服务器可以持有第二数据域中的第二样本数据。其中，上述第二样本数据具体可以理解为从第二数据域中获取的样本数据。

其中，上述第一数据域与第二数据域之间存在数据隔离，导致第一服务器和第二服务器之间通常无法直接获取、使用对方数据域中的样本数据。

具体的，以交易数据处理场景为例，上述第一数据域可以是由A城居民的交易数据所构成的一个数据域，上述第二数据域可以是由B城居民的交易数据所构成的另一个数据域。相应的，上述第一服务器具体可以为部署于第一数据域一侧的银行a的服务器。上述第二服务器具体可以为部署于第二数据域一侧的银行b的服务器。由于协议规则的约束，上述第一数据域和第二数据域之间存在数据隔离，即银行a的服务器不能将所持有的第一数据域中的数据传输给银行b的服务器，银行b的服务器也不能将所持有的第二数据域中的数据传输给银行a的服务器。

需要说明的是，上述所列举的第一数据域、第二数据域只是一种示意性说明。针对更加复杂的数据处理场景，除了第一数据域、第二数据域外，还可能存在例如第三数据域、第四数据域等多的数据域。对上述更加复杂的数据处理场景，可以参照只包含有的第一数据域和第二数据域两个数据域的数据处理场景来应用本说明书所提供的交易风险的确定方法。

在一个实施例中，上述第一样本数据具体可以理解为从第一数据域中获取的样本数据。具体的，上述第一样本数据中的每一条样本数据具体可以包括标识信息和与该标识信息对应的特征数据两部分数据。

类似的，上述第二样本数据具体可以理解为从第二数据域中获取的样本数据。具体的，上述第二样本数据中的每一条样本数据具体可以包括标识信息和与该标识信息对应的特征数据两部分数据。

在一个实施例中，上述标识信息具体可以理解为一种用于指示与样本数据关联的数据对象的标识字符。其中，上述数据对象可以是用户对象，也可以是数据对象，还可以是企业对象等。相应的，上述标识信息具体可以是用户的姓名、用户的身份ID等，也可以是数据对象的访问地址、数据对象的索引信息等，还可以是企业对象的名称、企业对象的注册编号等等。

在一个实施例中，上述特征数据具体可以理解为一种能够描述数据对象的某种具体属性特征的数据。其中，上述特征数据具体可以包括多种不同的属性特征。

具体的，以交易数据处理场景为例，上述特征数据具体可以包括两大类的特征，分别为：用户的肖像特征，和交易行为特征。

其中，上述用户的肖像特征具体可以包括：用户的性别、用户的年龄、用户的所在城市等涉及与交易数据关联的用户对象的用户特征。上述交易行为特征具体可以包括：交易方式、交易媒介、交易次数等涉及行为动作的行为特征。

在一个实施例中，上述目标交易数据具体可以理解为第一服务器在第一数据域中接收到的待检测是否存在交易风险的交易数据。具体的，上述目标交易数据可以是待检测的转账业务数据，也可以是待检测的汇款业务数据，还可以是待检测的存款业务数据等等。

其中，上述交易风险具体可以是洗钱风险，也可以是欺诈风险等等。当然，上述所列举的交易风险只是一种示意性说明。具体实施时，根据具体的应用场景和处理需求，上述交易风险还可以包括其他类型的风险。对此，本说明书不作限定。

在一个实施例中，上述预设的交易风险识别模型具体可以理解为针对第一数据域的，能够根据所输入的交易数据，确定出该交易数据是否存在交易风险的数据处理模型。其中，上述预设的交易风险模型具体是第一服务器和第二服务器分别利用各自所持有的第一数据域中的第一样本数据域第二数据域中第二样本数据，通过进行样本迁移学习和横向联邦学习，联合训练得到的。

在一个实施例中，第一服务器在接收到目标交易数据后，可以将目标交易数据作为模型输入，输入至上述预设的交易风险识别模型中；并运行该预设的交易风险识别，以处理上述目标交易数据，输出对应的风险识别结果。例如，目标交易数据存在交易风险的预测概率。进而第一服务器可以根据上述风险识别结果确定该目标交易数据是否存在相应的交易风险。

在一个实施例中，第一服务器在根据上述风险识别结果，确定目标交易数据存在交易风险的情况下，可以对目标交易数据，以及与该目标交易数据关联的数据对象设置相应的风险标记；并生成关于该目标交易数据的风险提示信息，以便后续可以根据上述风险标记和风险提示信息，对该目标交易数据，以及与该目标交易数据关联的数据对象进行进一步的数据跟踪和风险监控。

在一个实施例中，在调用预设的交易风险识别模型处理所述目标交易数据之前，第一服务器和第二服务器可以先利用各自所持有的第一样本数据和第二样本数据，通过样本迁移学习和横向联邦学习训练得到同时综合了第一数据域中的数据知识和第二数据域中的数据知识，精度较高的预设的交易风险识别模型。

具体实施时，针对第一服务器一侧，可以按照以下方式与第二服务器合作，训练得到预设的交易风险识别模型。

S1：向第二服务器发起关于预设的交易风险识别模型的第一训练请求；其中，所述第二服务器用于响应所述第一训练请求，从所持有的第二样本数据中筛选出与第一数据域匹配的第三样本数据；所述第二服务器为部署于第二数据域一侧的服务器；

S2：响应根据基于横向联邦学习的协议规则，与所述第二服务器合作，将所持有的第一样本数据与第二服务器所持有的第三样本数据进行数据融合，得到融合后的样本数据；

S3：利用所述融合后的样本数据对初始模型进行样本迁移学习，得到预设的交易风险识别模型。

在本实施例中，上述第三样本数据具体可以理解为来自于第二数据域的，但与第一数据域匹配，适用于训练针对第一数据域的预设的交易风险识别模型的第二样本数据。例如，上述第三样本数据可以是第二数据域中的在数据内容、数据分布等多个不同维度上近似于第一数据域中的第一样本数据的样本数据。

通过上述实施例，可以基于横向联邦学习，打破数据隔离的限制；进而可以有效地利用到第二数据域中的第三样本数据，以引入第二数据域中的数据知识，并通过数据融合，得到融合的样本数据；再利用上述融合后的样本数据进行学习训练，实现样本迁移学习，最终得到精度较高、效果较好的针对第一数据域的预设的交易风险识别模型。

在一个实施例中，所述第三样本数据具体可以包括第二服务器利用预设的域分类器处理所持有的第二样本数据，得到对应的匹配度评估值；并根据所述匹配度评估值从所述第二样本数据中筛选出的与第一数据域匹配的样本数据。

通过上述实施例，第二服务器可以较为高效、准确地从第二数据域的第二样本数据中筛选得到与第一数据域匹配，适合训练针对第一数据域的预设的交易风险识别模型的第三样本数据。

在本实施例中，上述预设的域分类器具体可以理解为第一服务器和第二服务器预先通过合作共同训练得到的用于计算样本数据针对第一数据域的匹配度评估值的数据处理模型。关于预设的域分类器的训练方式，后续将作另外说明。

在本实施例中，上述匹配度评估值具体可以理解为一种用于表征第二样本数据与第一数据域的匹配程度的参数值。通常如果第二样本数据的匹配度评估值越高，可以认为该第二样本数据越接近于第一样本数据，与第一数据域越匹配。相反，匹配度评估值越低，可以认为该第二样本数据越偏离第一样本数据，与第一数据域越不匹配。

在一个实施例中，具体的，第二服务器在接收到来自第一服务器的第一训练请求后，可以响应该第一训练请求，将己方所持有的第二样本数据分别输入预设的域分类器中，并通过运行预设的域分类器计算得到各个第二样本数据的匹配度评估值。进一步，第二服务器可以将第二样本数据的匹配度评估值，与预设的匹配度评估阈值进行比较，从多个第二样本数据中筛选出匹配度评估阈值大于预设的匹配度评估阈值的样本数据作为第三样本数据。

其中，上述预设的匹配度评估阈值可以根据具体情况和模型训练要求来灵活设置。

例如，当第一数据域中的第一样本数据的数量较少，需要从其他数据域中引入数据量较大的样本数据进行扩充时，可以将上述预设的匹配度评估阈值的数值设置得相对较低，以便能够从第二样本数据中筛选得到更多的第三样本数据。

又例如，当第一数据域中的第一样本数据中的黑样本(例如，被标记为存在交易风险的负样本)的占比较少，需要尽量从其他数据域中引入黑样本占比较高的样本数据时，可以通过调整并控制上述预设的匹配度评估阈值的数值，从第二样本数据中筛选得到黑样本占比符合要求的第三样本数据等。

在一个实施例中，第二服务器在计算得到各个第二样本数据的匹配度评估值之后，还可以通过加权筛选的方式从多个第二样本数据中筛选出符合要求的第三样本数据。

具体的，可以按照以下算式计算针对第二样本数据的采样权重：

其中，weight具体可以表示某一个第二样本数据的采样权重，P具体可以表示为该第二样本数据的匹配度评估值，ceil()具体可以表示向上取整函数。

按照上述算式可以计算得到各个第二样本数据的采样权重。进而第二服务器可以根据第二样本数据的采样权重，从多个第二样本数据中筛选出符合要求的第三样本数据。

在一个实施例中，第一服务器和第二服务器可以基于横向联邦学习框架，根据上述基于横向联邦学习的协议规则，将第一服务器所持有的第一样本数据域第二服务器所持有的第三样本数据进行数据融合，得到融合后的样本数据。从而可以打破数据隔离的限制，将第二数据域中的数据知识通过融合的方式迁移到融合后的样本数据中。

具体的，基于横向联邦学习框架，根据基于横向联邦学习的协议规则，通过采用相应的加密算法，可以使得在双方所持有样本数据不出域的前提下，将第一服务器和第二服务器各自持有的第一样本数据和第二样本数据先按特征维度对齐，再取出特征相同而标识信息不完全相同的那部分样本数据进行融合，得到融合后的样本数据。

在一个实施例中，第一服务器可以获取上述融合后的样本数据。其中，上述融合后的样本数据具体可以是一种加密后的样本数据。第一服务器无法知晓样本数据中的标识信息、特征数据的具体数据值，但是上述融合后的样本数据可以携带有数据域的标记。根据上述数据域的标记，可以确定融合后的样本数据是来自于第一数据域还是第二数据域。

在一个实施例中，第一服务器具体利用所述融合后的样本数据训练初始模型时，可以先根据融合后的样本数据是否存在相应的交易风险，将存在交易风险的融合后的样本数据标注为风险样本，将不存在交易风险的融合后的样本数据标注为安全样本，得到标注后的样本数据。进而，第一服务器可以利用上述标注后的样本数据，对初始模型进行训练学习。从而可以使得第一服务器在模型训练过的程中可以引入第二数据域中的数据知识，实现样本迁移学习，训练得到精度较高、效果较好的，针对第一数据域的预设的交易风险识别模型。

在一个实施例中，上述初始模型具体可以包括于XGBoost算法的模型，和/或，基于GLM算法的模型等。

其中，上述XGBoost算法(eXtreme Gradient Boosting，极端梯度提升)具体为一种源于梯度提升框架的高效算法，能实现并行计算、近似建树、对稀疏数据的有效处理以及内存的使用优化，支持在多台机器上进行分布式训练，支持处理回归、分类和排序等多种任务，具有预测性能强、训练速度快等优点。

上述GLM(Generalize Linear Model，广义线性模型)算法具体为一种回归逻辑算法，可以使得变量从正态分布拓展到指数分布族，从连续型变量拓展到离散型变量。

上述实施例中，需要说明的是，通过测试发现上述XGBoost算法或GLM算法在对连续性特征和组合特征表达能力效果较强。因此，选择使用上述XGBoost算法的模型，和/或，基于GLM算法的模型作为初始模型，可以训练得到效果相对更好的预设的交易风险识别模型。

在一个实施例中，第一服务器具体训练初始模型时，可以不断地将标注后的样本数据输入至上述初始模型；并根据模型输出，不断地调整初始模型中的模型参数，以最终通过迁移学习得到符合要求的预设的交易风险识别模型。

在一个实施例中，在按照上述方式训练预设的交易风险识别模型处理所述目标交易数据之前，第一服务器和第二服务器还可以先利用各自所持有的第一样本数据和第二样本数据，通过模型训练，得到效果较好、精度较高的预设的域分类器。

在一个实施例中，上述预设的域分类器具体可以按照以下方式训练得到。

S1：第一服务器响应关于预设的域分类器的第二训练请求，与所述第二服务器合作，从第一样本数据和第二样本数据所包含的交易行为特征中筛选出目标行为特征；其中，所述目标行为特征为在第一数据域中的数据分布与在第二数据域中的数据分布的差异值大于预设的差异阈值的交易行为特征；

S2：从第一样本中抽取第一训练数据；其中，所述第二服务器从第二样本中抽取第二训练数据；所述第一训练数据和所述第二训练数据至少包含有所述目标行为特征；

S3：与所述第二服务器合作，将第一训练数据标记为正样本，将第二训练数据标记为负样本；并利用标记后的第一训练数据和标记后的第二训练数据进行模型训练，以得到预设的域分类器。

通过上述实施例，第一服务器和第二服务器可以通过合作训练得到效果较好的预设的域分类器。

在一个实施例中，上述第二训练请求具体可以是第一服务器发起的，也可以是第二服务器发起。

在一个实施例中，第一服务器和第二服务器可以响应上述第二训练请求，基于横向联邦学习框架，在样本数据不出域的情况下合作，以从第一样本数据和第二样本数据所包含的交易行为特征中筛选出符合要求的目标行为特征。其中，上述目标行为特征具体可以理解为一种能够用于从第二样本数据中区分出接近于第一数据域的样本数据的行为特征。

具体的，上述目标行为特征可以是在第一数据域中的数据分布与在第二数据域中的数据分布的分布差异较大，例如，数据分布的差异值大于预设的差异阈值的交易行为特征。

在一个实施例中，上述与所述第二服务器合作，从第一样本数据和第二样本数据所包含的交易行为特征中筛选出目标行为特征，具体实施时，可以包括以下内容：利用所持有的第一样本数据，与持有第二样本数据的第二服务器合作，计算第一样本数据和第二样本数据所包含的多个交易行为特征中的各个交易行为特征的群体稳定性参数；其中，所述群体稳定性参数用于表征交易行为特征在第一数据域中的数据分布与在第二数据域中的数据分布的差异值；根据交易行为特征的群体稳定性参数，从第一样本数据和第二样本数据所包含的多个交易行为特征中筛选出目标行为特征。

通过上述实施例，第一服务器和第二服务器可以合作，计算并根据群体稳定参数，从第一样本数据和第二样本数据所包含的多个特征中筛选出区分效果较好的目标行为特征。

在本实施例中，上述群体稳定性参数(也可以称为群体稳定指标)具体可以理解为一种用于描述所对应的交易行为特征在第一数据域和第二数据域这两种不同数据域中数据分布的稳定性的指标参数。

在本实施例中，可以通过计算并利用上述交易行为特征的群体稳定性参数所描述的交易行为特征在不同数据域中数据分布的稳定性，来反映出该交易行为特征在不同数据域中数据分布的差异程度；进而可以将上述交易行为特征的群体稳定性参数与预设的稳定性参数阈值进行比较，根据比较结果，筛选出群体稳定性参数大于预设的稳定性参数阈值的交易行为特征作为符合要求的目标行为特征。其中，上述预设的稳定性参数阈值的具体数值可以根据具体情况灵活设置。对此，本说明书不作限定。

通过上述实施例，可以较为高效、准确地从第一样本数据和第二样本数据所包含的多个特征中筛选出效果较好的目标行为特征。

在一个实施例中，具体计算交易行为特征的群体稳定性参数时，可以根据以下算式计算交易行为特征的群体稳定性参数：

其中，PSI具体可以表示为任意一个交易行为特征的群体稳定性参数，Y_e具体可以表示为交易行为特征在第一数据域中的预期分布，Y具体可以表示为交易行为特征在第二数据域中的预期分布，B具体可以表示为数据分桶的分桶数量，i具体可以表示为数据分桶的分桶编号，

具体可以表示为分桶编号为i的分桶数据中交易行为特征在第一数据域中的预期分布，y_i具体可以表示分桶编号为i的分桶数据中交易行为特征在第二数据域中的预期分布。

通过上述实施例，利用上述算式，第一服务器和第二服务器可以合作，分别利用各自所持有的第一样本数据和第二样本数据，在样本数据不出域的情况下，准确地计算得到各个交易行为特征的群体稳定性参数。

在一个实施例中，进一步，第一服务器可以根据从所持有的第一样本数据中抽取至少同时包含有上述目标行为特征的样本数据作为第一训练数据。相应的，第二服务器可以从所持有的第二样本数据中抽取至少同时包含有上述目标行为特征的样本数据作为第二训练数据。

在一个实施例中，除了包含有上述目标行为特征外，所述第一训练数据和所述第二训练数据具体还可以包含有相关联的数据对象的肖像特征。例如，与交易数据相关联的用户对象的肖像特征。

在本实施例中，考虑到用户对象的肖像特征在后续的样本迁移、模型训练时的鲁棒性较差。因此，可以有针对性地删除第一训练数据、第二训练数据中的部分效果较差的肖像特征。例如，可以删除第一训练数据中诸如用户所在城市、用户的姓名等效果较差的肖像特征，而只保留诸如用户的职业、用户的学历、用户的性别等效果较好的部分肖像特征。从而可以得到数据量相对较少，但训练效果较好的第一训练数据和第二训练数据。

在一个实施例中，第一服务器和第二服务器可以通过利用基于横向联邦学习框架，在样本数据不出域的情况下，利用各自持有的第一训练数据和第二训练数据的数据合集进行联合训练，以得到预设的域分类器。

在一个实施例中，具体训练上述预设的域分类器时，可以利用上述第一训练数据和第二训练数据的合集，对基于GBDT(Gradient Boosting Decision Tree，梯度提升决策树)算法的初始模型进行学习训练，以得到符合要求的预设的域分类器。

在一个实施例中，第一服务器和第二服务器还可以采用其他的方式进行合作，以在样本数据不出域的情况下，训练得到预设的交易风险识别模型。

具体的，在调用预设的交易风险识别模型处理所述目标交易数据之前，所述方法具体实施时，还可以包括以下内容。

S1：向第二服务器发起关于预设的交易风险识别模型的第一训练请求；其中，所述第二服务器用于响应所述第一训练请求，从所持有的第二样本数据中筛选出与第一数据域匹配的第三样本数据；所述第二服务器还用于利用所述第三样本数据训练得到中间模型；

S2：接收第二服务器发送的中间模型；

S3：利用所持有的第一样本数据训练所述中间模型，得到预设的交易风险识别模型。

在本实施例中，第二服务器可以在第二数据域一侧利用所持有的第三样本数据先训练初始模型，得到一个中间模型；再将包含有第二数据域的数据知识的中间模型发送给第一服务器，而不需要将第三样本数据发送给第一服务器。

相应的，第一服务器接收上述中间模型，并利用所持有的第一样本数据训练上述中间模型，得到预设的交易风险识别模型。

通过上述实施例，不需要进行数据融合，第一服务器和第二服务器也可以在保证数据不出域的情况下，打破数据隔离的限制，有效地利用双方所分别持有的样本数据，联合训练得到预设的交易风险识别模型。

在一个实施例中，在第一服务器利用所持有的第一样本数据训练上述中间模型，得到的预设的交易风险识别模型(可以简记为第一模型)的模型精度不符合预设的精度要求的情况下，第一服务器可以将上述第一模型发送给第二服务器。第二服务器可以利用所持有的第三样本数据对上述第一模型进行训练，得到新的中间模型(可以简记为第二中间模型)。进而第二服务器可以将上述第二中间模型再发送至第一服务器。第一服务器可以再利用所持有的第一样本数据对上述第二中间模型进行训练，得到新的预设的交易风险识别模型。具体实施时，可以根据具体情况多次重复上述数据处理过程，直到第一服务器得到符合预设的精度要求的预设的交易风险识别模型为止。

在一个实施例中，所述目标交易数据具体可以包括银行处理的转账数据；相应的，所述交易风险具体可以包括洗钱风险。

通过上述实施例，可以利用本说明书实施例所提供的交易风险的确定方法对银行系统的数据处理系统所接入的待处理的大量转账数据进行检测识别，以准确地识别发现存在洗钱风险的可疑交易数据，并对相关的洗钱行为进行监管和拦截，以保护银行系统资产数据安全。

当然，上述所列举的目标交易数据、交易风险只是一种示意性说明。具体实施时，根据具体的处理需求，还可以将本说明书提供的交易风险的确定方法应用到其他合适的应用场景中以对其他类型的交易数据进行相关的交易风险的检测确定。对此，本说明书不作限定。

由上可见，本说明书实施例提供的交易风险的确定方法，基于该方法，具体实施前，部署于第一数据域一侧且持有样本数据相对有限的第一服务器可以预先与部署于第二数据域一侧且持有样本数据相对丰富的第二服务器合作，利用双方所分别持有的第一样本数据和第二样本数据通过样本迁移学习和横向联邦学习训练得到精度较高的预设的交易风险识别模型；具体实施时，第一服务器在接收到来自第一数据域的待检测的目标交易数据后，可以调用上述预设的交易风险识别模型处理该目标交易数据，并根据处理得到的风险识别结果，准确地确定出目标交易数据是否存在相应的交易风险。从而可以使得持有样本数据相对有限的第一服务器能够有效地利用部署于其他数据域且存在数据隔离的服务器所持有的样本数据，训练得到精度较高、效果较好的，针对第一数据域的预设的交易风险识别模型，进而第一服务器可以利用该模型准确地识别出所负责的数据域中的交易风险，减少了识别误差，提高了交易风险识别的准确率。解决了现有方法中存在的所在数据域中的样本数据有限，又受数据隔离的限制无法有效地利用其他数据域中的样本数据的情况下，只能基于单个数据域中有限的样本数据训练得到的交易风险识别模型的模型精度低、识别效果差，影响所在的数据域中的交易风险识别的技术问题。

参阅图3所示，本说明书实施例还提供了一种预设的交易风险识别模型的训练方法，以使得在数据隔离的情况下，第一服务器可以与第二服务器通过相应的合作，在样本数据不出域的前提下，利用双方所各自持有的样本数据训练得到针对第一数据域的预设的交易风险识别模型。其中，该方法应用于第一服务器一侧，具体实施时，可以包括以下内容。

S301：向第二服务器发起关于预设的交易风险识别模型的第一训练请求；其中，所述第二服务器用于响应所述第一训练请求，从所持有的第二样本数据中筛选出与第一数据域匹配的第三样本数据；所述第二服务器为部署于第二数据域一侧的服务器。

S302：根据基于横向联邦学习的协议规则，与所述第二服务器合作，将所持有的第一样本数据与第二服务器所持有的第三样本数据进行数据融合，得到融合后的样本数据。

S303：利用所述融合后的样本数据对初始模型进行样本迁移学习，得到预设的交易风险识别模型。

通过上述实施例，可以使得持有样本数据相对有限的第一服务器能够有效地利用部署于其他数据域且存在数据隔离的服务器所持有的样本数据，训练得到精度较高、效果较好，针对第一数据域的预设的交易风险识别模型。

在一个实施例中，第二服务器具体可以响应所述第一训练请求，利用预设的域分类器处理所持有的第二样本数据，得到对应的匹配度评估值；并根据所述匹配度评估值从所述第二样本数据中筛选出的与第一数据域匹配的样本数据。

在一个实施例中，具体实施前，第一服务器和第二服务器还可以通过合作按照以下方式训练得到预设的域分类器：第一服务器响应关于预设的域分类器的第二训练请求，与所述第二服务器合作，从第一样本数据和第二样本数据所包含的交易行为特征中筛选出目标行为特征；其中，所述目标行为特征为在第一数据域中的数据分布与在第二数据域中的数据分布的差异值大于预设的差异阈值的交易行为特征；从第一样本中抽取第一训练数据；其中，所述第二服务器从第二样本中抽取第二训练数据；所述第一训练数据和所述第二训练数据至少包含有所述目标行为特征；与所述第二服务器合作，将第一训练数据标记为正样本，将第二训练数据标记为负样本；并利用标记后的第一训练数据和标记后的第二训练数据进行模型训练，以得到预设的域分类器。

在一个实施例中，上述与所述第二服务器合作，从第一样本数据和第二样本数据所包含的交易行为特征中筛选出目标行为特征，可以包括：利用所持有的第一样本数据，与持有第二样本数据的第二服务器合作，计算第一样本数据和第二样本数据所包含的多个交易行为特征中的各个交易行为特征的群体稳定性参数；其中，所述群体稳定性参数用于表征交易行为特征在第一数据域中的数据分布与在第二数据域中的数据分布的差异值；根据交易行为特征的群体稳定性参数，从第一样本数据和第二样本数据所包含的多个交易行为特征中筛选出目标行为特征。

本说明书实施例还提供了一种应用于第二服务器一侧的预设的交易风险识别模型的训练方法，具体实施时，可以包括以下内容。

S1：响应第一服务器发起关于预设的交易风险识别模型的第一训练请求，从所持有的第二样本数据中筛选出与第一数据域匹配的第三样本数据；所述第二服务器为部署于第二数据域一侧的服务器。

S2：根据基于横向联邦学习的协议规则，与所述第一服务器合作，将所持有的第三样本数据与第一服务器所持有的第一样本数据进行数据融合，得到融合后的样本数据。

S3：向第一服务器提供上述融合后的样本数据，以便第一服务器利用所述融合后的样本数据对初始模型进行样本迁移学习，得到预设的交易风险识别模型。

本说明书实施例还提供了一种服务器，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器具体实施时可以根据指令执行以下步骤：获取来自第一数据域的目标交易数据；调用预设的交易风险识别模型处理所述目标交易数据，得到对应的风险识别结果；其中，所述预设的交易风险识别模型为预先根据第一数据域中的第一样本数据与第二数据域中的第二样本数据基于样本迁移学习和横向联邦学习训练得到的；根据所述风险识别结果，确定所述目标交易数据是否存在交易风险。

为了能够更加准确地完成上述指令，参阅图4所示，本说明书实施例还提供了另一种具体的服务器，其中，所述服务器包括网络通信端口401、处理器402以及存储器403，上述结构通过内部线缆相连，以便各个结构可以进行具体的数据交互。

其中，所述网络通信端口401，具体可以用于获取来自第一数据域的目标交易数据。

所述处理器402，具体可以用于调用预设的交易风险识别模型处理所述目标交易数据，得到对应的风险识别结果；其中，所述预设的交易风险识别模型为预先根据第一数据域中的第一样本数据与第二数据域中的第二样本数据基于样本迁移学习和横向联邦学习训练得到的；根据所述风险识别结果，确定所述目标交易数据是否存在交易风险。

所述存储器403，具体可以用于存储相应的指令程序。

在本实施例中，所述网络通信端口401可以是与不同的通信协议进行绑定，从而可以发送或接收不同数据的虚拟端口。例如，所述网络通信端口可以是负责进行web数据通信的端口，也可以是负责进行FTP数据通信的端口，还可以是负责进行邮件数据通信的端口。此外，所述网络通信端口还可以是实体的通信接口或者通信芯片。例如，其可以为无线移动网络通信芯片，如GSM、CDMA等；其还可以为Wifi芯片；其还可以为蓝牙芯片。

在本实施例中，所述处理器402可以按任何适当的方式实现。例如，处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。本说明书并不作限定。

在本实施例中，所述存储器403可以包括多个层次，在数字系统中，只要能保存二进制数据的都可以是存储器；在集成电路中，一个没有实物形式的具有存储功能的电路也叫存储器，如RAM、FIFO等；在系统中，具有实物形式的存储设备也叫存储器，如内存条、TF卡等。

本说明书实施例还提供了一种服务器，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器具体实施时可以根据指令执行以下步骤：向第二服务器发起关于预设的交易风险识别模型的第一训练请求；其中，所述第二服务器用于响应所述第一训练请求，从所持有的第二样本数据中筛选出与第一数据域匹配的第三样本数据；所述第二服务器为部署于第二数据域一侧的服务器；根据基于横向联邦学习的协议规则，与所述第二服务器合作，将所持有的第一样本数据与第二服务器所持有的第三样本数据进行数据融合，得到融合后的样本数据；利用所述融合后的样本数据对初始模型进行样本迁移学习，得到预设的交易风险识别模型。

本说明书实施例还提供了一种基于上述交易风险的确定方法的计算机存储介质，所述计算机存储介质存储有计算机程序指令，在所述计算机程序指令被执行时实现：获取来自第一数据域的目标交易数据；调用预设的交易风险识别模型处理所述目标交易数据，得到对应的风险识别结果；其中，所述预设的交易风险识别模型为预先根据第一数据域中的第一样本数据与第二数据域中的第二样本数据基于样本迁移学习和横向联邦学习训练得到的；根据所述风险识别结果，确定所述目标交易数据是否存在交易风险。

本说明书实施例还提供了一种基于上述预设的交易风险识别模型的训练方法的计算机存储介质，所述计算机存储介质存储有计算机程序指令，在所述计算机程序指令被执行时实现：向第二服务器发起关于预设的交易风险识别模型的第一训练请求；其中，所述第二服务器用于响应所述第一训练请求，从所持有的第二样本数据中筛选出与第一数据域匹配的第三样本数据；所述第二服务器为部署于第二数据域一侧的服务器；根据基于横向联邦学习的协议规则，与所述第二服务器合作，将所持有的第一样本数据与第二服务器所持有的第三样本数据进行数据融合，得到融合后的样本数据；利用所述融合后的样本数据对初始模型进行样本迁移学习，得到预设的交易风险识别模型。

在本实施例中，上述存储介质包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的，用于进行网络连接通信的接口。

在本实施例中，该计算机存储介质存储的程序指令具体实现的功能和效果，可以与其它实施方式对照解释，在此不再赘述。

参阅图5所示，在软件层面上，本说明书实施例还提供了一种交易风险的确定装置，该装置具体可以包括以下的结构模块。

获取模块501，具体可以用于获取来自第一数据域的目标交易数据；

调用模块502，具体可以用于调用预设的交易风险识别模型处理所述目标交易数据，得到对应的风险识别结果；其中，所述预设的交易风险识别模型为预先根据第一数据域中的第一样本数据与第二数据域中的第二样本数据基于样本迁移学习和横向联邦学习训练得到的；

确定模块503，具体可以用于根据所述风险识别结果，确定所述目标交易数据是否存在交易风险。

需要说明的是，上述实施例阐明的单元、装置或模块等，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

由上可见，本说明书实施例提供的交易风险的确定装置，可以使得持有样本数据相对有限的第一服务器能够有效地利用部署于其他数据域且存在数据隔离的服务器所持有的样本数据，训练得到精度较高、效果较好的预设的交易风险识别模型，进而可以利用该模型准确地识别出所负责的数据域中的交易风险，减少了识别误差，提高了交易风险识别的准确率。

参阅图6所示，在软件层面上，本说明书实施例还提供了一种预设的交易风险识别模型的训练装置，该装置具体可以包括以下的结构模块。

发起模块601，具体可以用于向第二服务器发起关于预设的交易风险识别模型的第一训练请求；其中，所述第二服务器用于响应所述第一训练请求，从所持有的第二样本数据中筛选出与第一数据域匹配的第三样本数据；所述第二服务器为部署于第二数据域一侧的服务器；

融合模块602，具体可以用于根据基于横向联邦学习的协议规则，与所述第二服务器合作，将所持有的第一样本数据与第二服务器所持有的第三样本数据进行数据融合，得到融合后的样本数据；

学习模块603，具体可以用于利用所述融合后的样本数据对初始模型进行样本迁移学习，得到预设的交易风险识别模型。

由上可见，基于本说明书实施例提供的预设的交易风险识别模型的训练装置，可以使得持有样本数据相对有限的第一服务器能够有效地利用部署于其他数据域且存在数据隔离的服务器所持有的样本数据，训练得到精度较高、效果较好的预设的交易风险识别模型。

本说明书还提了一种用于训练预设的交易风险识别模型的数据处理系统。可以参阅图1所示。其中，所述数据处理系统具体可以包括部署于第一数据域一侧的第一服务器和部署于第二数据域一侧的第二服务器，其中，

在一个具体的场景示例中，可以应用本说明书实施例所提供的预设的交易风险识别模型的训练方法来训练得到应用于银行数据监管场景中的反洗钱模型。具体实施过程可以参阅以下内容。

在银行数据监管场景中，在训练反洗钱模型时，常常会面临数据规模小，高质量样本少等问题。尤其在跨机构、跨部门等合作场景下，还会存在数据孤岛现象，不同机构、部门之间会存在数据隔离。此外，不同机构、部门的建模样本数据还会存在的特征差异大、数据分布偏移等特点。导致在训练反洗钱模型时建模效果不佳。尤其对于小规模金融机构，由于缺少高价值的建模样本，利用单独训练得到的反洗钱模型对洗钱异常交易(例如，交易数据)进行检测识别时的识别率不高。

在本场景示例中，针对上述问题，通过引入迁移学习和联邦学习克服了反洗钱建模中跨机构、跨部门的合作场景下数据流转受阻、小样本不平衡、数据分布偏移等因素导致的反洗钱模型的效果欠佳问题。在遵守相关数据隔离规定和要求的前提下，实现跨机构、跨部门的数据安全融合，使得建模样本较少的机构能够受益于拥有高质量建模样本的机构的数据知识，提高了所建立得到的反洗钱模型的精度，从而可以利用上述精度较高的反洗钱模型有效、精准地对所接入的洗钱异常交易进行识别和拦截，达到企业间的互惠互利。

具体的，在本场景示例中，给出了一种基于样本迁移学习和横向联邦学习的反洗钱建模方案。

首先，通过横向联邦学习技术，将参与反洗钱建模的两方机构的数据进行安全融合。这样可以利用样本迁移技术将拥有大样本量、高价值样本机构(例如，第二数据域)的数据知识迁移到拥有小样本量、低质量样本的机构(例如，第一数据域)。

在本场景示例中，源域(对应第二数据域)和目标域(对应第一数据域)特征空间相同，数据分布不同。

具体实施时，可以参阅图7所示。在样本迁移学习技术的反洗钱模型的训练流程中，包括以下内容：参与建模的两方机构的数据准备工作；基于横向联邦学习技术实现数据融合；生成融合后的两方建模数据；基于样本迁移学习训练反洗钱模型；生成基于样本迁移学习的反洗钱模型。

其中，步骤1：数据准备。此步骤为反洗钱模型建模的数据准备阶段。机构A和机构B准备好各自建模样本。

步骤2：基于横向联邦学习技术对机构A和机构B的样本数据做安全融合。

步骤3：生成融合后的两方机构的数据。

步骤4：基于样本迁移学习技术训练反洗钱模型。

步骤5：生成基于样本迁移学习的反洗钱模型。

其中，机构A为源域，机构B为目标域。

具体的训练时，可以参阅图8所示。

步骤S01，基于源域数据和目标域数据训练域分类器(例如，预设的域分类器)。

在本场景示例中，样本迁移的思路就是对源域样本进行筛选，保留特征接近目标域的样本，丢弃特征偏离目标域的样本。其中，筛选的依据就是预估的值(例如，匹配度评估值)。

在本场景示例中，域分类器的标签可以定义为是否为目标域样本。因此，目标域样本可以被标定为正样本，源域样本可以别标定为负样本。域分类器的作用是为了在洗钱分类器的特征空间中找寻源域中逼近目标域的样本。因此，具体实施时，主要选取洗钱建模场景用到的交易行为特征来训练域分类器，而对于客户基本信息(例如，用户的肖像特征)等离散特征(比如开户行等)具有很明显的地域性特质和行内特性，这部分特征在样本迁移中鲁棒性过低。因此，域分类器的特征选择最终可以仅保留例如性别、年龄、教育程度等部分具有普适性的客户基本信息特征。

在筛选交易行为特征时，可以通过计算并利用群体稳定性指标(PopulationStability Index,PSI)，选取在源域和目标域两个分布上具有差异性的交易行为特征。

考虑到交易行为特征大部分为连续特征，故域分类器的算法可以选择GBDT算法。上述PSI主要反映两个样本之间特征分布的稳定性，PSI具体的计算算式如下所示：

其中，Y_e代表预期分布，在本场景示例中，将目标域机构B作为预期分布；Y代表实际分布，即代表源域机构A的实际分布；B为分桶数量，在本场景示例中将样本数据分为15桶。

基于上述算式，可以针对连续特征来计算同一个特征在两个分布上的差异。其中，PSI数值越大，表示特征在两个分布上的差异越大，进而基于该特征能够更好的区分出源域数据和目标域数据。

在本场景示例中，可以选择PSI值大于0.25的交易行为特征作为域分类器的特征(例如，目标行为特征)。其中，选取PSI数值的可以参考表1所示的内容。

表1

PSI分段	特征稳定性
		大于0.25	不稳定
0.1～0.25	略不稳定
		0～0.1	稳定

步骤S02，使用源域数据利用步骤S01训练的域分类器预估源域数据，得到预估值(例如，匹配度评估值)。

步骤S03，基于步骤S02生成的预估值进行样本筛选或加权。此步骤的实现方式有两种，分别是阈值筛选和加权筛选。

在本场景示例中，具体进行步骤S03时，可以根据步骤S02生成的预估值进行样本筛选或加权。具体实现方法可以包括以下两种方式：

方式一，阈值筛选

对于样本权重预先划定一个阈值(例如，预设的权重阈值)，对于预估值小于阈值的源域样本可以进行丢弃或降采样，对于预估值大于阈值的源域样本可以进行保留或重采样。

对于阈值的选择这里主要采用以下方式来参考对比。统计域分类器预估源域全量样本上，每个预估值区间的黑白样本的数据分布。

在本场景示例中，通过试验测试，验证在源域全量预估集上，当阈值等于及大于0.3的区间，可以筛选出56％的源域黑样本，总样本量为56％的源域样本，基于该比例抽取的源域样本与目标域合并训练的洗钱模型的模型效果相对较好。因此，最终确定阈值为0.3。

方式二，加权筛选

根据域分类器预估值，对源域样本进行加权重采样。所采用的加权公式如下所示：

当预估值P为0.5时，权重为1，即不用加权。在本场景示例中，可以通过调整设置，重点挑选出最想要的源域样本。对于权重小于及等于1的样本，则不挑选或者进行随机降采样。具体加权筛选可以参阅表2所示。

表2

预测值区间	Weight值	加权复制
			<＝0.6	1	降采样
[0.6,0.7)	[2,2)	2
			[0.7,0.8)	[2,4)	3
[0.8,0.9)	[4,9)	6
			>＝0.9	[9,+)	9

步骤S04，使用源域数据和目标域数据，将步骤S03筛选后的源域样本与目标域合并(得到融合后的样本数据)。

步骤S05，使用步骤S04中合并后的数据集，选择相应机器学习算法(作为初始模型)训练模型，得到对应的反洗钱模型(例如，预设的交易风险识别模型)。

在本场景示例中，通过测试对比分析了多个算法，发现：XGBoost算法或GLM算法对连续性特征和组合特征表达能力较佳，适合于反洗钱场景中建模。测试过程中，还对比分析了LR算法，结果发现XGBoost算法或GLM算法确实效果优于LR算法。因此，最终选择XGBoost算法或GLM算法作为初始模型进行训练。

在按照上述训练得到反洗钱模型后，可以利用上述反洗钱模型对系统接入的交易数据进行监测，以精准地识别出洗钱异常交易，并及时地进行拦截处理。

通过上述场景示例，利用横向联邦学习技术打破反洗钱模型训练时，跨机构、跨部门之间的数据壁垒，实现跨机构、跨部门的数据的安全融合，并利用样本迁移技术解决了反洗钱小样本不平衡。跨机构、跨部门数据分布偏移等问题导致的建模效果差的问题，有效提高了反洗钱模型对洗钱异常交易的拦截率，挽回相关经济损失。

虽然本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下，并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

通过以上的实施例的描述可知，本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书的技术方案本质上可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，移动终端，服务器，或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。本说明书可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

虽然通过实施例描绘了本说明书，本领域普通技术人员知道，本说明书有许多变形和变化而不脱离本说明书的精神，希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。

Claims

1.一种交易风险的确定方法，其特征在于，所述方法应用于部署于第一数据域一侧的第一服务器，包括：

获取来自第一数据域的目标交易数据；

2.根据权利要求1所述的方法，其特征在于，在调用预设的交易风险识别模型处理所述目标交易数据之前，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述第三样本数据包括第二服务器利用预设的域分类器处理所持有的第二样本数据，得到对应的匹配度评估值；并根据所述匹配度评估值从所述第二样本数据中筛选出的与第一数据域匹配的样本数据。

4.根据权利要求3所述的方法，其特征在于，所述预设的域分类器按照以下方式训练得到：

5.根据权利要求4所述的方法，其特征在于，与所述第二服务器合作，从第一样本数据和第二样本数据所包含的交易行为特征中筛选出目标行为特征，包括：

6.根据权利要求5所述的方法，其特征在于，根据以下算式计算交易行为特征的群体稳定性参数：

7.根据权利要求4所述的方法，其特征在于，所述第一训练数据和所述第二训练数据还包含有相关联的数据对象的肖像特征。

8.根据权利要求2所述的方法，其特征在于，所述初始模型包括基于XGBoost算法的模型，和/或，基于GLM算法的模型。

9.根据权利要求2所述的方法，其特征在于，在调用预设的交易风险识别模型处理所述目标交易数据之前，所述方法还包括：

接收第二服务器发送的中间模型；

10.根据权利要求1所述的方法，其特征在于，所述目标交易数据包括银行处理的转账数据；相应的，所述交易风险包括洗钱风险。

11.一种预设的交易风险识别模型的训练方法，其特征在于，所述方法应用于部署于第一数据域一侧的第一服务器，包括：

12.一种交易风险的确定装置，其特征在于，包括：

获取模块，用于获取来自第一数据域的目标交易数据；

13.一种数据处理系统，其特征在于，所述数据处理系统包括部署于第一数据域一侧的第一服务器和部署于第二数据域一侧的第二服务器，其中，

14.一种服务器，其特征在于，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现权利要求1至10中任一项所述方法的步骤。

15.一种计算机可读存储介质，其特征在于，其上存储有计算机指令，所述指令被执行时实现权利要求1至10中任一项所述方法的步骤。