CN112801780A

CN112801780A - 基于联邦学习的境内外风险客户识别方法、装置及系统

Info

Publication number: CN112801780A
Application number: CN202110294633.8A
Authority: CN
Inventors: 邱宝鑫; 帅翡芍; 郑洁锋; 温丽明
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2021-03-19
Filing date: 2021-03-19
Publication date: 2021-05-14

Abstract

本发明提供了一种基于联邦学习的境内外风险客户识别方法、装置及系统，涉及大数据处理技术领域，该方法包括采集用户样本信息和监管特征信息；利用用户样本信息和监管特征信息训练第一联邦学习模型，得到第一模型参数；将第一模型参数和监管特征信息中的用户基本信息发送至服务器端，以使服务器端根据第一模型参数和用户基本信息生成第二模型参数；接收第二模型参数，并利用第二模型参数更新第一模型参数，得到更新后的第一联邦学习模型；利用更新后的第一联邦学习模型生成境内外风险客户识别结果。本发明可以缓解跨越国界的政策制度对于客户风险识别的影响，打破地域的限制，快速高效精准的识别风险客户。

Description

基于联邦学习的境内外风险客户识别方法、装置及系统

技术领域

本发明涉及大数据处理技术领域，尤其是涉及一种基于联邦学习的境内外风险客户识别方法、装置及系统。

背景技术

现有技术中，银行对于高风险客户的识别主要是对客户进行采集信息，综合分析，有效提问，并根据所采集的信息及有效提问进行人工计算评分，且各国之间因监管制度的不同，导致各国银行间的公司监管制度也有所差别，客户跨境融资，资金出境，子公司与总公司在不同的国家或者法人代表不同等等这种跨越国界的政策制度对于客户的风险识别也增加了困难，时效性很低，自动化程序也不高，风险客户识别过程受到地域的限制，并且识别风险客户的效率较低，结果准确度不高。

发明内容

本发明提供了一种基于联邦学习的境内外风险客户识别方法、装置及系统，可以缓解跨越国界的政策制度对于客户风险识别的影响，打破地域的限制，快速高效精准的识别风险客户。

第一方面，本发明实施例提供了一种基于联邦学习的境内外风险客户识别方法，该方法应用于参与方端，该方法包括：采集用户样本信息和监管特征信息；所述用户样本信息用于确定用户的风险等级数据；所述监管特征信息用于确定用户与监管数据的关联关系数据；利用所述用户样本信息和所述监管特征信息训练第一联邦学习模型，得到第一模型参数；将所述第一模型参数和所述监管特征信息中的用户基本信息发送至服务器端，以使所述服务器端根据所述第一模型参数和所述用户基本信息生成第二模型参数；接收所述第二模型参数，并利用所述第二模型参数更新所述第一模型参数，得到更新后的第一联邦学习模型；利用所述更新后的第一联邦学习模型生成境内外风险客户识别结果。

第二方面，本发明实施例还提供一种基于联邦学习的境内外风险客户识别方法，该方法应用于服务器端，所述方法包括：获取多个参与方端发送的第一模型参数和用户基本信息；利用多个所述第一模型参数和所述用户基本信息训练第二联邦学习模型，得到第二模型参数；将所述第二模型参数发送至所述多个参与方端，以使每个参与方端利用所述第二模型参数更新第一模型参数，得到更新后的第一联邦学习模型，并利用所述更新后的第一联邦学习模型生成境内外风险客户识别结果。

第三方面，本发明实施例还提供一种基于联邦学习的境内外风险客户识别装置，该装置应用于参与方端，所述装置包括：采集模块，用于采集用户样本信息和监管特征信息；所述用户样本信息用于确定用户的风险等级数据；所述监管特征信息用于确定用户与监管数据的关联关系数据；第一联邦学习模块，用于利用所述用户样本信息和所述监管特征信息训练第一联邦学习模型，得到第一模型参数；第一发送模块，用于将所述第一模型参数和所述监管特征信息中的用户基本信息发送至服务器端，以使所述服务器端根据所述第一模型参数和所述用户基本信息生成第二模型参数；接收模块，用于接收所述第二模型参数，并利用所述第二模型参数更新所述第一模型参数，得到更新后的第一联邦学习模型；结果模块，用于利用所述更新后的第一联邦学习模型生成境内外风险客户识别结果。

第四方面，本发明实施例还提供一种基于联邦学习的境内外风险客户识别装置，该装置应用于服务器端，所述装置包括：获取模块，用于获取多个参与方端发送的第一模型参数和用户基本信息；第二联邦学习模块，用于利用所述第一模型参数和所述多个用户基本信息训练第二联邦学习模型，得到第二模型参数；第二发送模块，用于将所述第二模型参数发送至所述多个参与方端，以使每个参与方端利用所述第二模型参数更新第一模型参数，得到更新后的第一联邦学习模型，并利用所述更新后的第一联邦学习模型生成境内外风险客户识别结果。

第五方面，本发明实施例还提供一种基于联邦学习的境内外风险客户识别系统，该系统包括服务器端和多个参与方端；每个所述参与方端与所述服务器端通信连接；所述参与方端包括上述应用于参与方端的基于联邦学习的境内外风险客户识别装置；所述服务器端包括上述应用于服务器端的基于联邦学习的境内外风险客户识别装置。

第六方面，本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述基于联邦学习的境内外风险客户识别方法。

第七方面，本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有执行上述基于联邦学习的境内外风险客户识别方法的计算机程序。

本发明实施例带来了以下有益效果：本发明实施例提供了一种基于联邦学习的境内外风险客户识别方案，该方案应用于参与方端，该方案包括采集用户样本信息和监管特征信息；用户样本信息用于确定用户的风险等级数据；监管特征信息用于确定用户与监管数据的关联关系数据；利用用户样本信息和监管特征信息训练第一联邦学习模型，得到第一模型参数；将第一模型参数和监管特征信息中的用户基本信息发送至服务器端，以使服务器端根据第一模型参数和用户基本信息生成第二模型参数；接收第二模型参数，并利用第二模型参数更新第一模型参数，得到更新后的第一联邦学习模型；利用更新后的第一联邦学习模型生成境内外风险客户识别结果。本发明实施例将监管特征信息中的部分信息发送至服务器端，将监管特征信息中的部分信息保留在本国，可以缓解跨越国界的政策制度对于客户风险识别的影响，打破地域的限制，快速高效精准的识别风险客户。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的参与方端基于联邦学习的境内外风险客户识别方法流程图；

图2为本发明实施例提供的服务器端基于联邦学习的境内外风险客户识别方法流程图；

图3为本发明实施例提供的于联邦学习的境内外风险客户自动识别模型的构建流程图；

图4为本发明实施例提供的本国用户样本种类示意图；

图5为本发明实施例提供的本国特征信息种类示意图；

图6为本发明实施例提供的基于本国用户样本与特征信息进行的横向联邦学习平面图；

图7为本发明实施例提供的本国横向联邦学习训练流程图；

图8为本发明实施例提供的基于各国用户样本与特征信息进行的横向联邦学习平面图；

图9为本发明实施例提供的云服务器或可信任执行环境中各国间横向联邦学习训练流程图；

图10为本发明实施例提供的基于联邦学习的境内外风险客户自动识别模型的识别过程；

图11为本发明实施例提供的参与方端基于联邦学习的境内外风险客户识别装置结构框图；

图12为本发明实施例提供的服务器端基于联邦学习的境内外风险客户识别装置结构框图；

图13为本发明实施例提供的计算机设备结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

“了解你的客户”(KnowYou Customer，KYC)是要求金融机构了解客户的真实身份，识别特定资金与其真正所有人、受益人的关系，以便当局监测与控制洗钱活动；要求金融机构对政治公众人物及其关系密切者所开立账户进行强化审查；要求对跨境代理银行业务与类似业务给予更加严厉的审查。KYC目前已成为反洗钱领域的基础制度。在执行KYC制度时，所需关注的主要环节包括：接受客户，识别客户，持续审查高风险账户，风险管理。

识别客户是KYC制度一个重要环节。在成功接受客户的开户申请建立业务关系后，对客户账户和交易的审查是一个持续、不可或缺的阶段，是银行对客户作进一步深入了解，认识，并再次确认客户身份的过程。

联邦学习(Federated Learning)是在进行机器学习的过程中，各参与方可借助其他方数据进行联合建模。各方无须共享数据资源，即数据不出本国的情况下，进行数据联合训练，建立共享的机器学习模型。

基于此，本发明实施例提供的一种基于联邦学习的境内外风险客户识别方法、装置及系统，缓解了因各国监管制度不同、公司监管制度也有所差别的情况下，跨地域资源数据不能共享而无法使用的问题，可以对风险客户进行高效，精准的识别。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种基于联邦学习的境内外风险客户识别方法进行详细介绍。

本发明实施例提供了一种基于联邦学习的境内外风险客户识别方法，参见图1所示的一种基于联邦学习的境内外风险客户识别方法流程图，该方法包括以下步骤：

S102，采集用户样本信息和监管特征信息。

在本发明实施例中，用户样本信息用于确定用户的风险等级数据，监管特征信息用于确定用户与监管数据的关联关系数据。

S104，利用用户样本信息和监管特征信息训练第一联邦学习模型，得到第一模型参数。

在本发明实施例中，利用用户样本信息和监管特征信息组成训练集，对第一联邦学习模型进行训练。将采集好的特征先在本国机构进行横向联邦学习，把数据按特征维度对齐，取出双方样本特征相同而用户不完全相同的那部分数据进行训练。

需要说明的是，第一联邦学习模型可以作为本国模型，应用于参与方端，参与方端可以设置在不同的区域，不同的国家，因此，不同的国家可以训练各自的本国模型。

S106，将第一模型参数和监管特征信息中的用户基本信息发送至服务器端，以使服务器端根据第一模型参数和用户基本信息生成第二模型参数。

在本发明实施例中，监管特征信息用于确定用户与监管数据的关联关系数据，监管特征信息中包括用户基本信息和监管信息。考虑到每个国家的法律都不一样，受影响的公司监管也很大差异，而针对监管信息，只单独适用本国更加合适，因此，将监管信息留在本地，将用户基本数据发送至服务器端。

S108，接收第二模型参数，并利用第二模型参数更新第一模型参数，得到更新后的第一联邦学习模型。

在本发明实施例中，利用服务器端返回的第二模型参数优化第一模型参数，得到更新后的第一联邦学习模型，该模型不仅适用于不同国家的商业银行，同时也能满足各国监管合规的硬性要求。

S110，利用更新后的第一联邦学习模型生成境内外风险客户识别结果。

在本发明实施例中，各国银行机构通过输入用户样本信息和监管特征信息到最终模型中，最终模型输出预测值，通过预测值自动识别哪些是高风险客户群，哪些是中风险客户群，哪些是底风险客户群。

参见图10所示的基于联邦学习的境内外风险客户自动识别模型的识别过程，具体可以利用更新后的第一联邦学习模型按照如下步骤执行：

S1001：收集新客户的基本信息及实时法律法规条例及公司实时监管制度等特征。

S1002：将这些特征值输入到更新后的第一联邦学习模型中，进行计算。

S1003：输出计算的预测值。

S1004：根据输出的预测值，判断该预测值是落在预先设立的风险值的哪个区域中。

S1005：判断出该客户的风险程度。进而判断是否该给这个客户开户。

本发明实施例提供了一种基于联邦学习的境内外风险客户识别方案，该方案应用于参与方端，该方案包括采集用户样本信息和监管特征信息；用户样本信息用于确定用户的风险等级数据；监管特征信息用于确定用户与监管数据的关联关系数据；利用用户样本信息和监管特征信息训练第一联邦学习模型，得到第一模型参数；将监管特征信息中的用户基本信息发送至服务器端，以使服务器端根据用户基本信息生成第二模型参数；接收第二模型参数，并利用第二模型参数更新第一模型参数，得到更新后的第一联邦学习模型；利用更新后的第一联邦学习模型生成境内外风险客户识别结果。本发明实施例将监管特征信息中的部分信息发送至服务器端，将监管特征信息中的部分信息保留在本国，可以缓解跨越国界的政策制度对于客户风险识别的影响，打破地域的限制，快速高效精准的识别风险客户。

在一个实施例中，用户样本信息包括第一样本和第二样本；第一样本包括第一风险可开户用户数据、第二风险可开户用户数据和第三风险可开户用户数据；第二样本包括第一风险不可开户用户数据，第二风险不可开户用户数据和第三风险不可开户用户数据。

在本发明实施例中，第一样本和第二样本包括不同风险级别的用户数据。例如，参见图4所示的本国用户样本种类示意图，采集各个国家本国银行的历史用户作为用户样本信息，用户样本信息包含了正样本与负样本，其中正样本为第一样本，负样本为第二样本。正样本包含了低风险可开户用户，中风险可开户用户，高风险可开户用户；负样本包含了低风险不可开户用户，中风险不可开户用户，高风险不可开户用户。

在一个实施例中，监管特征信息包括用户基本信息、第一监管信息和第二监管信息；第一监管信息与第二监管信息对应的监管范围不同。

在本发明实施例中，参见图5所示的本国特征信息种类示意图，用户基本信息中包括客户信息特征数据，例如，包括客户的静态数据、行为数据、客户接触的模式与渠道数据。其中，客户的静态数据包括：客户年龄、收入、婚姻状况、教育程度、所处行业、住房类型、居住地址、联系方式等个人背景数据以及客户拥有的银行产品、资产分布、资产余额等。行为数据可以包括：现金交易、转账、投资理财、还款、借贷等等。客户接触的模式与渠道数据包括：柜台、ATM、网上银行、电话银行、POS机、代理等。

第一监管信息可以包括本国的法律法规条例或监管制度数据。本国法律法规条例或监管制度是国之根本，比如某个客户在该国违法犯纪或者处于观察期或者处于缓刑期等状态，那么，一般情况下，银行是有可能不予这些人开户的，或者该客户直接列为高风险客户。

第二监管信息可以包括本国公司监管制度数据。公司监管制度是根据国家法律条例来制定的，原则上跟本国的法律法规条例或监管制度数据也是类似。

在一个实施例中，利用用户样本信息和监管特征信息训练第一联邦学习模型，可以按照如下步骤执行：

利用聚类算法对监管特征信息进行分类，得到用户基本信息、第一监管信息和第二监管信息；根据用户样本信息、用户基本信息、第一监管信息和第二监管信息，利用深度神经网络算法训练第一联邦学习模型。

在本发明实施例中，参见图7所示的本国横向联邦学习训练流程图，本国横向联邦学习训练流程具体可以按照如下步骤执行：

S701，将收集到的特征信息通过聚类算法进行分类，主要是为了将客户基本信息特征与法律法规信息、公司监管条例信息特征分离开，得到用户基本信息、第一监管信息和第二监管信息。

S702，通过DNN(Deep Neural Networks，深度神经网络算法)算法在本国服务器中计算训练梯度，主要是通过已知客户基本信息特征值、法律法规条例特征值、公司监管制度特征值，已知用户样本信息，求出各个特征所占的权重，再结合用户样本信息训练第一联邦学习模型。

具体地，DNN算法在此处可设置输入层，一层隐藏层，输出层。通过已知客户基本信息特征值X_ij(i表示不同用户，j表示不同的特征信息)、法律法规条例特征值Z_j(j表示不同的特征信息)、公司监管制度特征值C_j(j表示不同的特征信息)，已知标签Y_a(a表示风险情况)，通过步骤701，将聚类好的特征信息分别通过输入层输入，其中，一个神经元代表一个特征值，通过加权的方式将每个特征值输入进隐藏层得到每个特征值的权重

其中，隐藏层中的每个神经元也代表一个特征值(可以根据输入层的特征顺序控制隐藏层的特征顺序)，然后再通过加权的方式输出每个特征的权重

(i表示不同用户，j表示不同的特征信息)。

的计算公式如下：

其中，

表示该特征数量，

表示法律法规条例特征数，

表示公司监管制度特征数。

计算公式如下：

其中，

表示风险情况权重值，一般的可以按照低，中，高设置为1/3，2/3，1这三种比例值。

S703，将本国客户信息特征进行同态加密(加密方法很多，选一个即可)后发送给云服务器或者可信任执行环境中，而对于法律法规信息与公司监管信息特征则保留在本国，不进行跨域训练，因为每个国家的法律都不一样，受影响的公司监管也很大差异，而针对这两类特征，只单独适用本国更加合适。将本国客户信息特征加密处理是为了数据在不共享的情况下也可以跟他国数据联合训练，他国无法窥探别人的数据信息，确保了数据的隐私性。

S704，云服务器或者可信任执行环境通过各国传送进来的加密特征进一步进行横向联邦学习，并将学习结果返回给各国服务器。

S705，各国服务器根据反馈回来的结果进行解密，并更新本国客户信息特征值及权重，同时更新其他两类特征的权重。

S706，检查损失函数是否收敛。如果损失函数不收敛，再次进行步骤702，重复迭代训练。

S707，损失函数收敛，则获得最终的识别模型。

需要说明的是，参见图6所示的基于本国用户样本与特征信息进行的横向联邦学习平面图，同一个国家，银行的样本用户交集非常小，但银行的业务非常相似，用户的基本信息数据也很多类似，比如在银行中，不同的用户，它的基本信息在同一个表中的同一个字段中存储，这就导致他们的特征很相似。针对这种在数据集的样本特征重叠较多，而样本用户重叠较少的情况下，我们采用横向联邦把数据按特征维度对齐，取出双方样本特征相同而用户不完全相同的那部分数据进行训练。图4中，横坐标表示用户样本特征，其中包括客户的基本信息特征(A方数据与B方数据，下面用X_A与X_B代替)；本国的法律法规条例或监管制度；本国公司监管制度。标签Y设为历史用户的风险情况，根据历史数据，给标签Y设立范围值，包括低风险值范围，中风险值范围，高风险值范围，Y₀表示低风险客户，Y₁表示中风险客户，Y₂表示高风险客户。通过基于联邦学习的境内外风险客户自动识别模型计算出的预测值落在标签Y中给定的哪个风险值范围中，来判断客户的风险程度，进而判断是否给予开户。客户的基本信息特征、本国的法律法规条例或监管制度特征、本国公司监管制度特征分隔开是因为各国的法律法规条例大不相同，同时影响着公司监管制度也会有很大差异，在进行各国间的横向联邦学习时法律法规与公司监管制度不进行加密传送至云服务器或可执行环境中。纵坐标表示本国客户样本。

另外需要说明的是，本发明实施例也可以将法律法规的特征作为纵轴，将公司监管制度与客户信息归为一类进行学习训练。

在一个实施例中，将监管特征信息中的用户基本信息发送至服务器端，可以按照如下步骤执行：

对用户基本信息进行加密，将加密结果发送至服务器端。

在本发明实施例中，将本国用户基本信息进行加密后发送给云服务器或者可信任执行环境中，而对于法律法规信息与公司监管信息特征则保留在本国，不进行跨域训练，因为每个国家的法律都不一样，受影响的公司监管也很大差异，而针对这两类特征，只单独适用本国更加合适。将本国客户信息特征加密处理是为了数据在不共享的情况下也可以跟他国数据联合训练，他国无法窥探别人的数据信息，确保了数据的隐私性。

在一个实施例中，对用户基本信息进行同态加密。

在本发明实施例中，具体采用的加密方式可以根据实际需求进行设置，可以采用同态加密以外的方式对用户基本信息进行加密，本发明实施例对此不作具体限定。

本发明实施例中还提供了一种基于联邦学习的境内外风险客户识别方法，该方法应用于服务器端，参见图2所示的服务器端基于联邦学习的境内外风险客户识别方法流程图，该方法包括：

S202，获取多个参与方端发送的第一模型参数和用户基本信息。

在本发明实施例中，每个参与方都发送第一模型参数和用户基本信息至服务器端。服务器端可以设置为云服务器或者可信任执行环境。

S204，利用多个第一模型参数和用户基本信息训练第二联邦学习模型，得到第二模型参数。

在本发明实施例中，云服务器或者可信任执行环境利用多个第一模型参数和用户基本信息进一步进行横向联邦学习，得到第二模型参数。

需要说明的是，参见图8所示的基于各国用户样本与特征信息进行的横向联邦学习平面图，横坐标表示各国加密信息特征，里面只本国客户的基本信息特征(A方数据与B方数据，下面用X_A与X_B代替)。标签Y设为历史用户的风险情况，根据历史数据，给标签Y设立范围值，包括低风险值范围，中风险值范围，高风险值范围，Y₀表示低风险客户，Y₁表示中风险客户，Y₂表示高风险客户。纵坐标是以国家作为维度。因为不同的国家，客户的基本信息也都类似，所以，在云服务器或可信任执行环境中仍然用横向联邦学习进行训练。

S206，将第二模型参数发送至多个参与方端，以使每个参与方端利用第二模型参数更新第一模型参数，得到更新后的第一联邦学习模型，并利用更新后的第一联邦学习模型生成境内外风险客户识别结果。

在一个实施例中，利用多个用户基本信息训练第二联邦学习模型，可以按照如下步骤执行：

对用户基本信息进行解密，得到解密结果；根据解密结果确定目标特征数据；根据目标特征数据，利用深度神经网络算法训练第二联邦学习模型。

在本发明实施例中，收集各国传送来的加密信息，整理出相似的特征数据，得到目标特征数据。

参见图9所示的云服务器或可信任执行环境中各国间横向联邦学习训练流程图，本发明实施例具体可以按照S701-S702的步骤执行：

S901：收集各国传送来的加密信息，整理出相似的特征数据，对该部分特征数据进行训练。

S902：以各国为样本集，以加密信息为特征数据，将相似的特征数据进行DNN算法训练。

S903：将训练结果反馈给各国服务器。如果本国的损失函数一直未收敛，则需要进行重复迭代训练，直至损失函数收敛。

本发明提供了一种基于联邦学习的境内外风险客户识别方法、装置及系统，该方法根据银行收集的客户特征信息以及各国的法律法规、公司监管制度等特征信息，对这些特征信息在本国机构中进行联邦学习，并构建本国模型，然后将参数信息加密发送到云服务器(各国共享的服务器，可以建立在需要联合学习的某国之中，也可以建立在不参与学习的某国之外)或者是可信任执行环境中，在云服务器或者可执行环境中对加密参数再次进行联合学习，并将学习的最终结果反馈给各国机构，各国机构通过解密参数来更新各自的模型，最终，各国银行机构通过输入客户信息及本国的监管法规、公司监管制度信息特征到最终模型中，最终模型输出预测值，通过预测值自动识别哪些是高风险客户群，哪些是中风险客户群，哪些是底风险客户群。

本发明可以实现境内外风险客户自动识别，该方法缓解了因各国监管制度不同、公司监管制度也有所差别的情况下，跨地域资源数据不能共享而无法使用的问题，同时，也解决了商业银行对风险客户的自动识别功能。商业银行有效利用模型预测的结果对高风险客户进行高效，精准识别。该模型不仅适用于不同国家的商业银行，同时也能满足各国监管合规的硬性要求。

本发明解决了人工测算时出现的人工成本高、时效性不高、测算结果准确率存疑等诸多问题，同时，还解决了客户跨境融资，资金出境，子公司与总公司在不同的国家或者法人代表不同等等这种跨国界数据不能共享，数据孤岛所带来的影响与麻烦。对银行来说，对反洗钱领域具有重要意义。具体如下：

1一般性：虽然这边说的数据共享不是真正意义上的数据共享，只是通过加密的形式与不同国家间的数据一起联合进行学习训练，构建模型。但各国间共用一套模型来识别风险客户，充分体现了一般性。

2、满足监管合规的硬性要求：银行通过自动识别模型识别的客户，即在监管合规的范围内，也在公司监管制度内，符合要求，降低了反洗钱的风险。

3、效率高：通过自动识别模型识别客户，减少了大量的人工成本，也增加了识别的准确性，具有时效性。

本发明实施例中还提供了一种基于联邦学习的境内外风险客户识别装置，该装置应用于参与方端，如下面的实施例所述。由于该装置解决问题的原理与基于联邦学习的境内外风险客户识别方法相似，因此该装置的实施可以参见基于联邦学习的境内外风险客户识别方法的实施，重复之处不再赘述。参见图11所示的参与方端基于联邦学习的境内外风险客户识别装置结构框图装置结构框图，该装置包括：

采集模块61，用于采集用户样本信息和监管特征信息；用户样本信息用于确定用户的风险等级数据；监管特征信息用于确定用户与监管数据的关联关系数据；第一联邦学习模块62，用于利用用户样本信息和监管特征信息训练第一联邦学习模型，得到第一模型参数；第一发送模块63，用于将第一模型参数和监管特征信息中的用户基本信息发送至服务器端，以使服务器端根据第一模型参数和用户基本信息生成第二模型参数；接收模块64，用于接收第二模型参数，并利用第二模型参数更新第一模型参数，得到更新后的第一联邦学习模型；结果模块65，用于利用更新后的第一联邦学习模型生成境内外风险客户识别结果。

在一个实施例中，第一联邦学习模块，具体用于：利用聚类算法对监管特征信息进行分类，得到用户基本信息、第一监管信息和第二监管信息；根据用户样本信息、用户基本信息、第一监管信息和第二监管信息，利用深度神经网络算法训练第一联邦学习模型。

在一个实施例中，第一发送模块，具体用于：对用户基本信息进行同态加密，将加密结果发送至服务器端。

在一个实施例中，第一发送模块，具体用于：对用户基本信息进行同态加密。

本发明实施例中还提供了一种基于联邦学习的境内外风险客户识别装置，该装置应用于服务器端，如下面的实施例所述。由于该装置解决问题的原理与基于联邦学习的境内外风险客户识别方法相似，因此该装置的实施可以参见基于联邦学习的境内外风险客户识别方法的实施，重复之处不再赘述。参见图12所示的服务器端基于联邦学习的境内外风险客户识别装置结构框图装置结构框图，该装置包括：

获取模块71，用于获取多个参与方端发送的第一模型参数和用户基本信息；第二联邦学习模块72，用于利用多个第一模型参数和用户基本信息训练第二联邦学习模型，得到第二模型参数；第二发送模块73，用于将第二模型参数发送至多个参与方端，以使每个参与方端利用第二模型参数更新第一模型参数，得到更新后的第一联邦学习模型，并利用更新后的第一联邦学习模型生成境内外风险客户识别结果。

在一个实施例中，第二联邦学习模块，具体用于：对用户基本信息进行解密，得到解密结果；根据解密结果确定目标特征数据；根据目标特征数据，利用深度神经网络算法训练第二联邦学习模型。

本发明实施例中还提供了一种基于联邦学习的境内外风险客户系统，该系统包括服务器端和多个参与方端；每个参与方端与服务器端通信连接；参与方端包括上述应用于参与方端的基于联邦学习的境内外风险客户识别装置；服务器端包括上述应用于服务器端的基于联邦学习的境内外风险客户识别装置。

在本发明实施例中，参见图3所示的基于联邦学习的境内外风险客户自动识别模型的构建流程图，应用于参与方端的基于联邦学习的境内外风险客户识别装置中，采集模块可以设置为样本采集模块301和特征信息采集模块302，第一联邦学习模块和应用于服务器端的基于联邦学习的境内外风险客户识别装置中的第二联邦学习模块构成联邦学习模块303，应用于参与方端的基于联邦学习的境内外风险客户识别装置中的结果模块可作为自动识别风险客户模型模块304。

在本发明实施例中，联邦学习模块将采集好的特征先在本国机构进行横向联邦学习，把数据按特征维度对齐，取出双方样本特征相同而用户不完全相同的那部分数据进行训练。训练后得到本国模型，然后将模型中的参数加密打包发送到云服务器或者可信任执行环境中，在云服务器或者可信任环境中联合各国发送的加密数据再次进行横向联邦学习，最后将学习训练好的参数反馈给各国机构，各国机构根据收到的最新参数解密并更新本国模型。

自动识别风险客户模型模块通过联邦学习模块的操作后，形成一套各国共有却又独立且略微有所差异的自动识别风险客户模型，根据这套模型，银行对新客户能快速预测并判断该客户的风险值，进而判断是否具备开户资格。

本发明实施例还提供一种计算机设备，参见图13所示的计算机设备结构示意框图，该计算机设备包括存储器81、处理器82及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述任一种基于联邦学习的境内外风险客户识别方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的计算机设备的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有执行上述任一种基于联邦学习的境内外风险客户识别方法的计算机程序。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于联邦学习的境内外风险客户识别方法，其特征在于，应用于参与方端，所述方法包括：

采集用户样本信息和监管特征信息；所述用户样本信息用于确定用户的风险等级数据；所述监管特征信息用于确定用户与监管数据的关联关系数据；

利用所述用户样本信息和所述监管特征信息训练第一联邦学习模型，得到第一模型参数；

将所述第一模型参数和所述监管特征信息中的用户基本信息发送至服务器端，以使所述服务器端根据所述第一模型参数和所述用户基本信息生成第二模型参数；

接收所述第二模型参数，并利用所述第二模型参数更新所述第一模型参数，得到更新后的第一联邦学习模型；

利用所述更新后的第一联邦学习模型生成境内外风险客户识别结果。

2.根据权利要求1所述的方法，其特征在于，所述用户样本信息包括第一样本和第二样本；所述第一样本包括第一风险可开户用户数据、第二风险可开户用户数据和第三风险可开户用户数据；所述第二样本包括第一风险不可开户用户数据，第二风险不可开户用户数据和第三风险不可开户用户数据。

3.根据权利要求1所述的方法，其特征在于，监管特征信息包括用户基本信息、第一监管信息和第二监管信息；所述第一监管信息与所述第二监管信息对应的监管范围不同。

4.根据权利要求3所述的方法，其特征在于，利用所述用户样本信息和所述监管特征信息训练第一联邦学习模型，包括：

利用聚类算法对所述监管特征信息进行分类，得到用户基本信息、第一监管信息和第二监管信息；

根据所述用户样本信息、所述用户基本信息、所述第一监管信息和所述第二监管信息，利用深度神经网络算法训练第一联邦学习模型。

5.根据权利要求1所述的方法，其特征在于，将所述监管特征信息中的用户基本信息发送至服务器端，包括：

对所述用户基本信息进行加密，将加密结果发送至服务器端。

6.根据权利要求5所述的方法，其特征在于，包括：

对所述用户基本信息进行同态加密。

7.一种基于联邦学习的境内外风险客户识别方法，其特征在于，应用于服务器端，所述方法包括：

获取多个参与方端发送的第一模型参数和用户基本信息；

利用多个所述第一模型参数和所述用户基本信息训练第二联邦学习模型，得到第二模型参数；

将所述第二模型参数发送至所述多个参与方端，以使每个参与方端利用所述第二模型参数更新第一模型参数，得到更新后的第一联邦学习模型，并利用所述更新后的第一联邦学习模型生成境内外风险客户识别结果。

8.根据权利要求7所述的方法，其特征在于，利用多个用户基本信息训练第二联邦学习模型，包括：

对所述用户基本信息进行解密，得到解密结果；

根据所述解密结果确定目标特征数据；

根据所述目标特征数据，利用深度神经网络算法训练第二联邦学习模型。

9.一种基于联邦学习的境内外风险客户识别装置，其特征在于，应用于参与方端，所述装置包括：

采集模块，用于采集用户样本信息和监管特征信息；所述用户样本信息用于确定用户的风险等级数据；所述监管特征信息用于确定用户与监管数据的关联关系数据；

第一联邦学习模块，用于利用所述用户样本信息和所述监管特征信息训练第一联邦学习模型，得到第一模型参数；

第一发送模块，用于将所述第一模型参数和所述监管特征信息中的用户基本信息发送至服务器端，以使所述服务器端根据所述第一模型参数和所述用户基本信息生成第二模型参数；

接收模块，用于接收所述第二模型参数，并利用所述第二模型参数更新所述第一模型参数，得到更新后的第一联邦学习模型；

结果模块，用于利用所述更新后的第一联邦学习模型生成境内外风险客户识别结果。

10.根据权利要求9所述的装置，其特征在于，所述用户样本信息包括第一样本和第二样本；所述第一样本包括第一风险可开户用户数据、第二风险可开户用户数据和第三风险可开户用户数据；所述第二样本包括第一风险不可开户用户数据，第二风险不可开户用户数据和第三风险不可开户用户数据。

11.根据权利要求9所述的装置，其特征在于，监管特征信息包括用户基本信息、第一监管信息和第二监管信息；所述第一监管信息与所述第二监管信息对应的监管范围不同。

12.根据权利要求11所述的装置，其特征在于，所述第一联邦学习模块，具体用于：

13.根据权利要求9所述的装置，其特征在于，所述第一发送模块，具体用于：

14.根据权利要求13所述的装置，其特征在于，所述第一发送模块，具体用于：

对所述用户基本信息进行同态加密。

15.一种基于联邦学习的境内外风险客户识别装置，其特征在于，应用于服务器端，所述装置包括：

获取模块，用于获取多个参与方端发送第一模型参数和的用户基本信息；

第二联邦学习模块，用于利用多个所述第一模型参数和所述用户基本信息训练第二联邦学习模型，得到第二模型参数；

第二发送模块，用于将所述第二模型参数发送至所述多个参与方端，以使每个参与方端利用所述第二模型参数更新第一模型参数，得到更新后的第一联邦学习模型，并利用所述更新后的第一联邦学习模型生成境内外风险客户识别结果。

16.根据权利要求15所述的装置，其特征在于，所述第二联邦学习模块，具体用于：

对所述用户基本信息进行解密，得到解密结果；

根据所述解密结果确定目标特征数据；

17.一种基于联邦学习的境内外风险客户识别系统，其特征在于，包括服务器端和多个参与方端；每个所述参与方端与所述服务器端通信连接；

所述参与方端包括权利要求9-14任一项所述的基于联邦学习的境内外风险客户识别装置；

所述服务器端包括权利要求15-16任一项所述的基于联邦学习的境内外风险客户识别装置。

18.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8任一所述基于联邦学习的境内外风险客户识别方法。

19.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行权利要求1至8任一所述基于联邦学习的境内外风险客户识别方法的计算机程序。