CN112465626A

CN112465626A - 基于客户端分类聚合的联合风险评估方法及相关设备

Info

Publication number: CN112465626A
Application number: CN202011327614.2A
Authority: CN
Inventors: 李泽远; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-11-24
Filing date: 2020-11-24
Publication date: 2021-03-09
Anticipated expiration: 2040-11-24
Also published as: CN112465626B; WO2022110721A1

Abstract

本发明公开了基于客户端分类聚合的联合风险评估方法及相关设备，涉及人工智能技术领域，可应用于银行风险评估系统中，方法包括：服务器端对客户端进行聚类，确定s个最终聚类中心点；最终聚类中心点从服务器端读取初始模型，并下发至聚类的客户端；客户端基于本地数据集对所述初始模型进行训练得到初始模型参数，并将所述初始模型参数发送至最终聚类中心点；最终聚类中心点对各所述客户端的初始模型参数进行聚合，得到中间模型参数并上传；服务器端对各聚类的所述中间模型参数进行聚合得到最终模型参数，并进行更新，得到用于信用风险评估的全局模型。本发明在同一类的客户端中执行联邦学习的训练所达到的效果更好，最终模型预测准确率更高。

Description

基于客户端分类聚合的联合风险评估方法及相关设备

技术领域

本发明涉及人工智能技术领域，特别涉及基于客户端分类聚合的联合风险评估方法及相关设备。

背景技术

银行的主要业务是借贷，为了降低贷款的信用风险，银行可以对借款人进行信用检查，而信用风险评估就是一种用于计算个人、企业或组织的信用度的方法。它可以帮助银行评估贷款申请人是否会违约以及违约的概率。在传统方法中，银行金融机构主要基于各种借贷数额和相关主观因素来评估信用风险等级，这种方法是反应性的而不是预测性的，模型效果也不理想。因此，需要进一步开发一些较为准确的定量预测模型，而机器学习模型，作为从以往海量数据中获得分析和见解的工具，被认为可以在风险评估中发挥很好的作用。

但是，诸如神经网络之类的机器学习模型需要一个训练中心使用大量的数据对模型进行训练，数据的种类特征越完善，训练的模型效果越好、越能进行准确的信誉评价。然而，一种常见的现象是，一个贷款风险极高的人，在A银行信誉极差无法通过贷款审核，但是在B银行的信誉表现不错，由于银行之间的数据不互通，此人在B银行获得贷款，造成了B银行的损失。因此，为了避免单个银行数据表现不完整带来的风险误判，同时联合使用多家银行的数据是必要的。可是，对于银行来说，出于金融监管和用户敏感数据隐私保护的考虑，当地分行的数据并不能离开本地，要求各家银行互相分享数据、将所有数据发送到一个中心服务器并对其应用机器学习算法训练是不可能也不现实的。这导致了一家家银行成为了一个个的“数据孤岛”。

联邦学习是一种全新的分布式机器学习框架，旨在满足多方用户隐私保护、数据安全和政府法规的要求的同时，进行数据协作和机器学习建模，解决“数据孤岛”的问题。

但是，联邦学习技术在应用的过程中面临着统计方面的挑战。机器学习与深度学习模型的迭代优化依赖于随机梯度下降算法(SGD)，但是为了保证SGD算法中取到的随机梯度是完整梯度的无偏估计，训练数据应该满足独立同分布的假设。联邦学习现在广泛使用的聚合优化算法FedAvg也是基于数据独立同分布的假设，并在参数聚合时加以简单平均。已有研究证明，如果使用高度倾斜的非独立同分布数据进行训练，使用现有的迭代优化算法FedAvg，得到的神经网络模型准确率有显著的降低，降低的准确率甚至可达50％以上。

由于在实践中，要求每个参与方的本地数据满足独立同分布的性质是不现实的，因此有必要对联邦学习的训练过程和参数聚合方法加以改进，尽可能减少各参与训练的客户端的数据异质性给训练的模型带来的影响。

发明内容

本发明的目的是提供基于客户端分类聚合的联合风险评估方法及相关设备，旨在解决现有应用联邦学习的风险评估方法预测准确率较低的问题。

第一方面，本发明实施例提供一种基于客户端分类聚合的联合风险评估方法，其中，包括：

服务器端从多个客户端中随机选择s个作为初始聚类中心点，计算每一个所述初始聚类中心点的本地数据集的数据集质心；

所述服务器端根据每一所述客户端的本地数据集的数据集质心与所述初始聚类中心点的数据集质心之间的距离对各个所述客户端进行聚类，并对聚类结果进行迭代更新确定s个最终聚类中心点以及各聚类下的客户端；

所述最终聚类中心点从服务器端读取用于信用风险评估的初始模型，并将读取的初始模型下发至对应聚类的客户端；

所述客户端基于本地数据集对所述初始模型进行训练得到初始模型参数，并将所述初始模型参数发送至对应聚类的最终聚类中心点；所述本地数据集包括基本信息和信用信息；

所述最终聚类中心点对接收到的对应聚类下的各所述客户端的初始模型参数进行聚合，得到对应聚类的中间模型参数；

各所述最终聚类中心点将所述对应聚类的中间模型参数上传至服务器端；

所述服务器端对各聚类的所述中间模型参数进行聚合，得到最终模型参数，并利用所述最终模型参数对初始模型进行更新，得到用于信用风险评估的全局模型。

第二方面，本发明实施例提供一种基于客户端分类聚合的联合风险评估系统，其中，包括服务器端和多个客户端；其中，所述服务器端包括：初始选取单元、最终选取单元和模型更新单元，所述多个客户端中包括s个最终聚类中心点，每一所述最终聚类中心点包括读取下发单元、初始模型参数聚合单元和上传单元，每一所述客户端包括：模型训练单元；

初始选取单元，用于从多个客户端中随机选择s个作为初始聚类中心点，计算每一个所述初始聚类中心点的本地数据集的数据集质心；

最终选取单元，用于根据每一所述客户端的本地数据集的数据集质心与所述初始聚类中心点的数据集质心之间的距离对各个所述客户端进行聚类，并对聚类结果进行迭代更新确定s个最终聚类中心点以及各聚类下的客户端；

读取下发单元，用于从服务器端读取用于信用风险评估的初始模型，并将读取的初始模型下发至对应聚类的客户端；

模型训练单元，用于基于本地数据集对所述初始模型进行训练得到初始模型参数，并将所述初始模型参数发送至对应聚类的最终聚类中心点；所述本地数据集包括基本信息和信用信息；

初始模型参数聚合单元，用于对接收到的对应聚类下的各所述客户端的初始模型参数进行聚合，得到对应聚类的中间模型参数；

上传单元，用于将所述对应聚类的中间模型参数上传至服务器端；

模型更新单元，用于对各聚类的所述中间模型参数进行聚合，得到最终模型参数，并利用所述最终模型参数对初始模型进行更新，得到用于信用风险评估的全局模型。

第三方面，本发明实施例提供一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如下步骤：

从多个客户端中随机选择s个作为初始聚类中心点，计算每一个所述初始聚类中心点的本地数据集的数据集质心；

根据每一所述客户端的本地数据集的数据集质心与所述初始聚类中心点的数据集质心之间的距离对各个所述客户端进行聚类，并对聚类结果进行迭代更新确定s个最终聚类中心点以及各聚类下的客户端；使所述最终聚类中心点从服务器端读取用于信用风险评估的初始模型，并将读取的初始模型下发至对应聚类的客户端；以及使所述客户端基于本地数据集对所述初始模型进行训练得到初始模型参数，并将所述初始模型参数发送至对应聚类的最终聚类中心点；所述本地数据集包括基本信息和信用信息；以及使对接收到的对应聚类下的各所述客户端的初始模型参数进行聚合，得到对应聚类的中间模型参数；以及使各所述最终聚类中心点将所述对应聚类的中间模型参数上传至服务器端；

对各聚类的所述中间模型参数进行聚合，得到最终模型参数，并利用所述最终模型参数对初始模型进行更新，得到用于信用风险评估的全局模型。

第四方面，本发明实施例提供一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如下步骤：

本发明实施例提供了基于客户端分类聚合的联合风险评估方法及相关设备，方法包括：服务器端从多个客户端中随机选择s个作为初始聚类中心点，计算每一个所述初始聚类中心点的本地数据集的数据集质心；所述服务器端根据每一所述客户端的本地数据集的数据集质心与所述初始聚类中心点的数据集质心之间的距离对各个所述客户端进行聚类，并对聚类结果进行迭代更新确定s个最终聚类中心点以及各聚类下的客户端；所述最终聚类中心点从服务器端读取用于信用风险评估的初始模型，并将读取的初始模型下发至对应聚类的客户端；所述客户端基于本地数据集对所述初始模型进行训练得到初始模型参数，并将所述初始模型参数发送至对应聚类的最终聚类中心点；所述本地数据集包括基本信息和信用信息；所述最终聚类中心点对接收到的对应聚类下的各所述客户端的初始模型参数进行聚合，得到对应聚类的中间模型参数；各所述最终聚类中心点将所述对应聚类的中间模型参数上传至服务器端；所述服务器端对各聚类的所述中间模型参数进行聚合，得到最终模型参数，并利用所述最终模型参数对初始模型进行更新，得到用于信用风险评估的全局模型。本发明实施例提供的方法，经过聚类后同一类的客户端拥有较为相似的本地数据，相较于聚类前更能满足独立同分布的假设，因此在同一类的客户端中执行联邦学习的训练所达到的效果更好，最终模型预测准确率更高。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于客户端分类聚合的联合风险评估方法的流程示意图；

图2为本发明实施例提供的一种基于客户端分类聚合的联合风险评估方法的子流程示意图；

图3为本发明实施例提供的一种基于客户端分类聚合的联合风险评估方法的另一子流程示意图；

图4为本发明实施例提供的一种基于客户端分类聚合的联合风险评估方法的另一子流程示意图；

图5为本发明实施例提供的一种基于客户端分类聚合的联合风险评估方法的另一子流程示意图；

图6为本发明实施例提供的一种基于客户端分类聚合的联合风险评估系统的示意性框图；

图7为本发明实施例提供的一种基于客户端分类聚合的联合风险评估系统的子单元示意性框图；

图8为本发明实施例提供的一种基于客户端分类聚合的联合风险评估系统的另一子单元示意性框图；

图9为本发明实施例提供的一种基于客户端分类聚合的联合风险评估系统的另一子单元示意性框图；

图10为本发明实施例提供的一种基于客户端分类聚合的联合风险评估系统的另一子单元示意性框图；

图11为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1为本发明实施例提供的一种基于客户端分类聚合的联合风险评估方法的流程示意图，其包括：

S101、服务器端从多个客户端中随机选择s个作为初始聚类中心点，计算每一个所述初始聚类中心点的本地数据集的数据集质心；

本发明实施例中，根据各客户端本地数据特征与数据分布的特点，将客户端划分为s个本地数据集类似的聚类(其中s是根据训练任务和参与训练的客户端数量预先设定好的值)。

具体的，首先从多个客户端中随机选择s个客户端作为初始聚类中心点，如从x个客户端中选择s个客户端作为初始聚类中心点。其中这里提到的多个客户端都是需要参与训练的客户端，这些客户端可以是服务器端随机选取的，也可以根据一定的规则进行选取，例如按照数据集的大小等等。服务器端可以根据训练任务确定初始化模型方案并给出初始化参数，之后根据规定好的参与本次训练客户端数量(即前述的x个客户端)。现有技术中，服务器端会将初始化的原始模型下发给随机选择的固定数量的客户端，即将原始模型下发给前述的x个客户端，而本发明实施例则需要先对客户端进行分类聚合，选择中心点，将原始模型下发给所选择的中心点。

在选择了s个初始聚类中心点后，需计算各个初始聚类中心点的本地数据集的数据集质心。

数据集质心的计算方式如下：

假设某个初始聚类中心点的本地数据集拥有N个数据点，这些数据点都是二维数据，其坐标分别(x1,y1)，(x2,y2)，…，那么可计算出这些二维数据的平均值，从而得到数据集质心，具体为

该数据集质心实际上就是N个数据点的平均值。

对于其他维数的数据，同样可以按照类似的方式，进行计算，得到数据集质心。

S102、所述服务器端根据每一所述客户端的本地数据集的数据集质心与所述初始聚类中心点的数据集质心之间的距离对各个所述客户端进行聚类，并对聚类结果进行迭代更新确定s个最终聚类中心点以及各聚类下的客户端；

本步骤中，需要根据每个客户端的本地数据集的数据集质心与初始聚类中心点的数据集质心之间的距离来进行初始聚类，然后不断的迭代更新，从而确定的s个最终聚类中心点，同时还可以确定各个聚类下的客户端，即每一客户端所属的聚类。

在一实施例中，如图2所示，所述步骤S102包括：

S201、计算每一所述客户端的本地数据集的数据集质心与每一所述初始聚类中心点的数据集质心的距离，并按照所计算出的距离的大小，将各所述客户端划分到对应初始聚类中心点的聚类下；

对于每一所述客户端的本地数据集的数据集质心可以按照初始聚类中心点的数据集质心相同的方式进行计算。由于初始聚类中心点也是一个客户端，但其数据集质心在前述步骤中已经计算过，所以此处可无需重复计算。

然后计算出每一所述客户端的数据集质心(本文提到的数据集质心就是本地数据集的数据集质心)与每一所述初始聚类中心点的数据集质心的距离，该距离也即每一所述客户端与每一所述初始聚类中心点的距离，需说明的是，此处提到的每一所述客户端是指除所有初始聚类中心点之外的所有客户端，即无需计算初始聚类中心点自身与自身的距离以及不同初始聚类中心点之间的距离。

距离的计算方式可以是按欧式距离的计算方式，以二维数据为例，客户端i到初始聚类中心点j的欧式距离的计算公式如下：

上述公式以二维数据为例，对于多维数据按上述公式进行拓展即可。

根据计算出的距离的大小，即可对各个客户端进行聚类。具体方法是，针对每一所述客户端，比较其与所有初始聚类中心点的距离大小，然后选取最小的距离对应的初始聚类中心点，然后将对应的客户端划分到该初始聚类中心点的聚类下，因为该客户端与该初始聚类中心点的距离最小，即数据最为相似。

S202、针对每一个初始聚类中心点，计算对应聚类的质心点，并计算对应聚类下的所有客户端与所述质心点的距离，并按照所计算出的距离的大小，重新选取对应聚类的聚类中心点作为中间聚类中心点；

由于最终选取的s个初始聚类中心点，其为随机选取的，所以并不一定是真正的聚类中心点，所以此时需要对聚类中心点进行更新。具体是计算对应聚类的质心点，该质心点代表了对应聚类的数据的平均位置，然后计算出该聚类下的客户端与质心点的距离，从而确定新的聚类中心点，作为中间聚类中心点。

在一实施例中，如图3所示，所述步骤S202包括：

S301、针对每一个初始聚类中心点，计算对应聚类下的所有客户端的本地数据集的数据集质心，并对所述对应聚类下的所有客户端的数据集质心求平均值，得到对应聚类的质心点；

此步骤中，质心点的选取方式是：先计算出对应聚类下的所有客户端的本地数据集的数据集质心，这里提到的所有客户端也包括初始聚类中心点，由于在前述步骤中已经计算过每一所述客户端的数据集质心，同样也计算过每一所述初始聚类中心点的数据集质心，所以可以直接提取所计算出的值，然后对所有客户端的数据集质心求平均值，将计算出的平均值作为对应聚类的质心点。

例如，假如聚类A拥有A1、A2、A3三个客户端，其本地数据集的数据集质心分别为A1(x1,y1),A2(x2,y2),A3(x3,y3)，则计算出的对应聚类的质心点为

S302、计算对应聚类下的所有客户端与所述质心点的距离，将最小距离对应的客户端作为中间聚类中心点。

客户端与所述质心点的距离，也即客户端的数据集质心与质心点的距离。此步骤中的距离计算方式同样可以是欧式距离的计算方式。

以前述聚类A为例，假设最后计算出的距离中，A1(x1,y1)与该质心点距离最小，代表A1与该质心点最近，那么可以选取A1成为聚类A的新的中心点，该新的中心点作为中间聚类中心点。

S203、计算每一所述客户端的本地数据集的数据集质心与每一所述中间聚类中心点的数据集质心之间的距离，并按照计算出的距离的大小，对各个所述客户端重新进行聚类，并对聚类结果进行迭代更新确定s个最终聚类中心点以及各聚类下的客户端。

此步骤中，在重新确定了聚类中心点(即中间聚类中心点)后，即可按照前述步骤相同的方式，重新计算每一所述客户端到每一所述中间聚类中心点的距离，然后按照计算出的距离的大小，重新进行聚类。

对于聚类后的结果，又重新可以按照前述步骤重新选取各个聚类新的中心点，并作为中间聚类中心点，以此类推，不断的迭代更新，从而确定出s个最终聚类中心点和各个聚类下的客户端。

迭代的停止条件可以是迭代次数达到预设值，也可以是各个中间聚类中心点不再变化，即可将最终的中间聚类中心点作为最终聚类中心点。

S103、所述最终聚类中心点从服务器端读取用于信用风险评估的初始模型，并将读取的初始模型下发至对应聚类的客户端；

本步骤中，是由各个最终聚类中心点从服务器端读取初始模型，然后由最终聚类中心点下发初始模型给对应聚类的客户端，而不再是所有客户端从服务器端读取初始模型，这样可以方便最终聚类中心点对对应聚类的结果进行聚合，提升训练效果。

S104、所述客户端基于本地数据集对所述初始模型进行训练得到初始模型参数，并将所述初始模型参数发送至对应聚类的最终聚类中心点；所述本地数据集包括基本信息和信用信息；

各聚类下的客户端在接收到初始模型后，便基于自身的本地数据集对初始模型进行训练，从而得到对应的初始模型参数，然后将初始模型参数上报给对应聚类的最终聚类中心点，以使最终聚类中心点对同类型的客户端的数据进行聚合。本实施例中，各最终聚类中心点同样可以参与训练，即各最终聚类中心点作为客户端也进行训练，最终聚类中心点可以获取自身的初始模型参数。

本发明实施例中，所述本地数据集包括基本信息和信用信息，针对个人，所述基本信息可以是姓名、年龄、性别、婚姻状况等等，针对机构，所述基本信息可以是企业名称、企业人数、成立时间、年营业额、年净利润等等。所述信用信息可以是账户、贷款、逾期记录等等。所述本地数据集还可以包括其他一些辅助信息，例如可用于对个人或机构进行判断的信誉良好或信誉不佳的评分。

S105、所述最终聚类中心点对接收到的对应聚类下的各所述客户端的初始模型参数进行聚合，得到对应聚类的中间模型参数；

本步骤中，每一个最终聚类中心点将会对其聚类下的所有客户端(同样可以包括最终聚类中心点自身)的初始模型参数进行聚合，从而得到对应聚类的中间模型参数。

在一实施例中，如图4所示，所述步骤S105包括：

S401、所述最终聚类中心点收集对应聚类下的所有所述客户端上报的初始模型参数；

S402、采用FedAvg算法对收集的所述初始模型参数进行聚合，得到对应聚类的中间模型参数。

本实施例中，最终聚类中心点首先需要收集其聚类下的所有客户端(同样可以包括最终聚类中心点自身)上报的初始模型参数，然后采用FedAvg算法进行聚合，从而得到能够代表该聚类的中间模型参数。

在一实施例中，所述步骤S402包括：

采用如下公式对收集的所述初始模型参数进行聚合：

其中，n_k为第k个客户端用于训练的样本数量，n为整个联邦学习过程中的样本总数，M为对应聚类下的客户端数量，

为第k个客户端本次训练得到的初始模型参数，w_t+1为所述对应聚类的中间模型参数。

本实施例就是将所有初始模型参数进行聚合，在聚合过程中，各个客户端会有一个权重，该权重体现在n_k与n的比值，从而将客户端的样本数量体现在模型变化量中。

S106、各所述最终聚类中心点将所述对应聚类的中间模型参数上传至服务器端；

本步骤中，每一个最终聚类中心点对其聚类下的所有客户端的初始模型参数进行聚合后，将聚合得到的中间模型参数上传到服务器端。

S107、所述服务器端对各聚类的所述中间模型参数进行聚合，得到最终模型参数，并利用所述最终模型参数对初始模型进行更新，得到用于信用风险评估的全局模型。

本步骤中，服务器端将会对所有最终聚类中心点上传的中间模型参数进行聚合，从而得到能够反应全局的最终模型参数，并利用该最终模型参数对初始模型进行更新。

在一实施例中，如图5所示，所述步骤S107包括：

S501、所述服务器端收集所有所述最终聚类中心点上报的所述中间模型参数；

S502、采用FedAvg算法对收集的所述中间模型参数进行聚合，得到最终模型参数；

S503、采用所述最终模型参数对所述初始模型进行更新，得到全局模型。

本实施例中，服务器端首先需要收集所有最终聚类中心点上报的中间模型参数，然后同样采用FedAvg算法进行聚合，从而得到能够代表全局的最终模型参数。

在一实施例中，所述步骤S502包括：

采用如下公式对收集的所述中间模型参数进行聚合：

其中，n_k为第k个最终聚类中心点对应聚类下所有客户端用于训练的总样本数量，n为整个联邦学习过程中的样本总数，K为最终聚类中心点的数量，

为第k个最终聚类中心点本次训练得到的中间模型参数，w_t+1为最终模型参数。

本实施例就是将所有中间模型参数进行聚合，在聚合过程中，各个聚类会有一个权重，该权重体现在n_k(此处的n_k与前述实施例的n_k不同，此处的n_k是指第k个最终聚类中心点对应聚类下所有客户端用于训练的总样本数量)与n(此处的n与前述实施例的n相同)的比值，从而将对应聚类下的所有样本数量体现在模型变化量中。

服务器端使用聚合后的最终模型参数更新初始模型，并将更新后的全局模型再次下发给选择的最终聚类中心点，重复进行训练的过程，直到模型达到设定的精度要求，或达到预先设置的最大迭代次数为止。

本发明实施例的应用场景可以是：多家银行需要联合进行客户信用风险的评估，其目的是利用机器学习的方法构建出一个全局模型进行信用风险评估，达到输入个人或机构相关特征信息之后自动给出信用风险评估等级。其中，多家银行将选定一个组织者(即服务器，或称服务器端)，负责原始模型的建立、初始化和之后参数的聚合，其他参与的银行被称为客户端。

对于银行风险评估模型的训练，服务器对初始模型进行初始化(即给定模型初始参数，如，选定的是具体的机器学习模型，模型结构，训练轮数等超参数的确定等等)和之后参数的聚合；其余贡献自己本地数据参与训练的参与方为客户端。

本发明实施例使用联邦学习进行银行多下属机构间保障数据隐私的联合风险控制，有效解决了银行各下属机构由于金融监管、数据隐私等问题考虑导致的无法分享数据进行模型训练的“数据孤岛”的问题。同时本发明实施例优化了联邦学习的训练过程和模型参数的聚合方法，使得本地数据分布较为相似的节点聚类在一起执行联合的训练与迭代更新，最后再将不同聚类的模型结果进行聚合，这样的设计减少了由于各参与方的本地数据异质性(类别偏差大、非独立同分布等)给模型训练带来的精度下降的问题，有助于提升联邦学习方式训练出风控模型的质量。

请参阅图6，其为本发明实施例提供的一种基于客户端分类聚合的联合风险评估系统的示意性框图，该基于客户端分类聚合的联合风险评估系统600包括：服务器端610和多个客户端620；其中，所述服务器端610包括：初始选取单元601、最终选取单元602和模型更新单元607，所述多个客户端620中包括s个最终聚类中心点，每一所述最终聚类中心点包括读取下发单元603、初始模型参数聚合单元605和上传单元606，每一所述客户端包括：模型训练单元604；

初始选取单元601，用于从多个客户端中随机选择s个作为初始聚类中心点，计算每一个所述初始聚类中心点的本地数据集的数据集质心；

最终选取单元602，用于根据每一所述客户端的本地数据集的数据集质心与所述初始聚类中心点的数据集质心之间的距离对各个所述客户端进行聚类，并对聚类结果进行迭代更新确定s个最终聚类中心点以及各聚类下的客户端；

读取下发单元603，用于从服务器端读取用于信用风险评估的初始模型，并将读取的初始模型下发至对应聚类的客户端；

模型训练单元604，用于基于本地数据集对所述初始模型进行训练得到初始模型参数，并将所述初始模型参数发送至对应聚类的最终聚类中心点；所述本地数据集包括基本信息和信用信息；

初始模型参数聚合单元605，用于对接收到的对应聚类下的各所述客户端的初始模型参数进行聚合，得到对应聚类的中间模型参数；

上传单元606，用于将所述对应聚类的中间模型参数上传至服务器端；

模型更新单元607，用于对各聚类的所述中间模型参数进行聚合，得到最终模型参数，并利用所述最终模型参数对初始模型进行更新，得到用于信用风险评估的全局模型。

在一实施例中，如图7所示，所述最终选取单元602包括：

划分单元701，用于计算每一所述客户端的本地数据集的数据集质心与每一所述初始聚类中心点的数据集质心的距离，并按照所计算出的距离的大小，将各所述客户端划分到对应初始聚类中心点的聚类下；

重选单元702，用于针对每一个初始聚类中心点，计算对应聚类的质心点，并计算对应聚类下的所有客户端与所述质心点的距离，并按照所计算出的距离的大小，重新选取对应聚类的聚类中心点作为中间聚类中心点；

迭代单元703，用于计算每一所述客户端的本地数据集的数据集质心与每一所述中间聚类中心点的数据集质心之间的距离，并按照计算出的距离的大小，对各个所述客户端重新进行聚类，并对聚类结果进行迭代更新确定s个最终聚类中心点以及各聚类下的客户端。

在一实施例中，如图8所示，所述重选单元702包括：

质心点计算单元801，用于针对每一个初始聚类中心点，计算对应聚类下的所有客户端的本地数据集的数据集质心，并对所述对应聚类下的所有客户端的数据集质心求平均值，得到对应聚类的质心点；

中间聚类中心点选取单元802，用于计算对应聚类下的所有客户端与所述质心点的距离，将最小距离对应的客户端作为中间聚类中心点。

在一实施例中，如图9所示，所述初始模型参数聚合单元605包括：

第一收集单元901，用于所述最终聚类中心点收集对应聚类下的所有所述客户端上报的初始模型参数；

第一聚合单元902，用于采用FedAvg算法对收集的所述初始模型参数进行聚合，得到对应聚类的中间模型参数。

在一实施例中，所述第一聚合单元902包括：

第一聚合子单元，用于采用如下公式对收集的所述初始模型参数进行聚合：

在一实施例中，如图10所示，所述模型更新单元607包括：

第二收集单元1001，用于收集所有所述最终聚类中心点上报的所述中间模型参数；

第二聚合单元1002，用于采用FedAvg算法对收集的所述中间模型参数进行聚合，得到最终模型参数；

更新单元1003，用于采用所述最终模型参数对所述初始模型进行更新，得到全局模型。

在一实施例中，所述第二聚合单元1002包括：

第二聚合子单元，用于采用如下公式对收集的所述中间模型参数进行聚合：

本发明实施例提供的系统，经过聚类后同一类的客户端拥有较为相似的本地数据，相较于聚类前更能满足独立同分布的假设，因此在同一类的客户端中执行联邦学习的训练所达到的效果更好，最终模型预测准确率更高。

请参阅图11，图11是本发明实施例提供的计算机设备的示意性框图。该计算机设备1100是服务器，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图11，该计算机设备1100包括通过系统总线1101连接的处理器1102、存储器和网络接口1105，其中，存储器可以包括非易失性存储介质1103和内存储器1104。

该非易失性存储介质1103可存储操作系统11031和计算机程序11032。该计算机程序11032被执行时，可使得处理器1102执行基于客户端分类聚合的联合风险评估方法。

该处理器1102用于提供计算和控制能力，支撑整个计算机设备1100的运行。

该内存储器1104为非易失性存储介质1103中的计算机程序11032的运行提供环境，该计算机程序11032被处理器1102执行时，可使得处理器1102执行基于客户端分类聚合的联合风险评估方法。

该网络接口1105用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图11中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备1100的限定，具体的计算机设备1100可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器1102用于运行存储在存储器中的计算机程序11032，以实现如下功能：从多个客户端中随机选择s个作为初始聚类中心点，计算每一个所述初始聚类中心点的本地数据集的数据集质心；根据每一所述客户端的本地数据集的数据集质心与所述初始聚类中心点的数据集质心之间的距离对各个所述客户端进行聚类，并对聚类结果进行迭代更新确定s个最终聚类中心点以及各聚类下的客户端；使所述最终聚类中心点从服务器端读取用于信用风险评估的初始模型，并将读取的初始模型下发至对应聚类的客户端；以及使所述客户端基于本地数据集对所述初始模型进行训练得到初始模型参数，并将所述初始模型参数发送至对应聚类的最终聚类中心点；所述本地数据集包括基本信息和信用信息；以及使对接收到的对应聚类下的各所述客户端的初始模型参数进行聚合，得到对应聚类的中间模型参数；以及使各所述最终聚类中心点将所述对应聚类的中间模型参数上传至服务器端；对各聚类的所述中间模型参数进行聚合，得到最终模型参数，并利用所述最终模型参数对初始模型进行更新，得到用于信用风险评估的全局模型。

在本发明的实施例中提供的计算机设备1100中，其中所述处理器1102用于运行存储在存储器中的计算机程序11032，以实现上述基于客户端分类聚合的联合风险评估方法每一实施例所包含的步骤。

本领域技术人员可以理解，图11中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图11所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器1102可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器1102还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现以下步骤：从多个客户端中随机选择s个作为初始聚类中心点，计算每一个所述初始聚类中心点的本地数据集的数据集质心；根据每一所述客户端的本地数据集的数据集质心与所述初始聚类中心点的数据集质心之间的距离对各个所述客户端进行聚类，并对聚类结果进行迭代更新确定s个最终聚类中心点以及各聚类下的客户端；使所述最终聚类中心点从服务器端读取用于信用风险评估的初始模型，并将读取的初始模型下发至对应聚类的客户端；以及使所述客户端基于本地数据集对所述初始模型进行训练得到初始模型参数，并将所述初始模型参数发送至对应聚类的最终聚类中心点；所述本地数据集包括基本信息和信用信息；以及使对接收到的对应聚类下的各所述客户端的初始模型参数进行聚合，得到对应聚类的中间模型参数；以及使各所述最终聚类中心点将所述对应聚类的中间模型参数上传至服务器端；对各聚类的所述中间模型参数进行聚合，得到最终模型参数，并利用所述最终模型参数对初始模型进行更新，得到用于信用风险评估的全局模型。

在本发明的实施例中提供的计算机可读存储介质中，其中计算机程序被处理器执行时实现上述基于客户端分类聚合的联合风险评估方法每一实施例所包含的步骤。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于客户端分类聚合的联合风险评估方法，其特征在于，包括：

2.根据权利要求1所述的基于客户端分类聚合的联合风险评估方法，其特征在于，所述服务器端根据每一所述客户端的本地数据集的数据集质心与所述初始聚类中心点的数据集质心之间的距离对各个所述客户端进行聚类，并对聚类结果进行迭代更新确定s个最终聚类中心点以及各聚类下的客户端，包括：

计算每一所述客户端的本地数据集的数据集质心与每一所述初始聚类中心点的数据集质心的距离，并按照所计算出的距离的大小，将各所述客户端划分到对应初始聚类中心点的聚类下；

针对每一个初始聚类中心点，计算对应聚类的质心点，并计算对应聚类下的所有客户端与所述质心点的距离，并按照所计算出的距离的大小，重新选取对应聚类的聚类中心点作为中间聚类中心点；

计算每一所述客户端的本地数据集的数据集质心与每一所述中间聚类中心点的数据集质心之间的距离，并按照计算出的距离的大小，对各个所述客户端重新进行聚类，并对聚类结果进行迭代更新确定s个最终聚类中心点以及各聚类下的客户端。

3.根据权利要求2所述的基于客户端分类聚合的联合风险评估方法，其特征在于，所述针对每一个初始聚类中心点，计算对应聚类的质心点，并计算对应聚类下的所有客户端与所述质心点的距离，并按照所计算出的距离的大小，重新选取对应聚类的聚类中心点作为中间聚类中心点，包括：

针对每一个初始聚类中心点，计算对应聚类下的所有客户端的本地数据集的数据集质心，并对所述对应聚类下的所有客户端的数据集质心求平均值，得到对应聚类的质心点；

计算对应聚类下的所有客户端与所述质心点的距离，将最小距离对应的客户端作为中间聚类中心点。

4.根据权利要求1所述的基于客户端分类聚合的联合风险评估方法，其特征在于，所述最终聚类中心点对接收到的对应聚类下的各所述客户端的初始模型参数进行聚合，得到对应聚类的中间模型参数，包括：

所述最终聚类中心点收集对应聚类下的所有所述客户端上报的初始模型参数；

采用FedAvg算法对收集的所述初始模型参数进行聚合，得到对应聚类的中间模型参数。

5.根据权利要求4所述的基于客户端分类聚合的联合风险评估方法，其特征在于，所述采用FedAvg算法对收集的所述初始模型参数进行聚合，得到对应聚类的中间模型参数，包括：

采用如下公式对收集的所述初始模型参数进行聚合：

6.根据权利要求1所述的基于客户端分类聚合的联合风险评估方法，其特征在于，所述服务器端对各聚类的所述中间模型参数进行聚合，得到最终模型参数，并利用所述最终模型参数对初始模型进行更新，得到用于信用风险评估的全局模型，包括：

所述服务器端收集所有所述最终聚类中心点上报的所述中间模型参数；

采用FedAvg算法对收集的所述中间模型参数进行聚合，得到最终模型参数；

采用所述最终模型参数对所述初始模型进行更新，得到全局模型。

7.根据权利要求6所述的基于客户端分类聚合的联合风险评估方法，其特征在于，所述采用FedAvg算法对收集的所述中间模型参数进行聚合，得到最终模型参数，包括：

采用如下公式对收集的所述中间模型参数进行聚合：

8.一种基于客户端分类聚合的联合风险评估系统，其特征在于，包括服务器端和多个客户端；其中，所述服务器端包括：初始选取单元、最终选取单元和模型更新单元，所述多个客户端中包括s个最终聚类中心点，每一所述最终聚类中心点包括读取下发单元、初始模型参数聚合单元和上传单元，每一所述客户端包括：模型训练单元；

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如下步骤：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如下步骤：