CN112116103A

CN112116103A - 基于联邦学习的个人资质评估方法、装置及系统及存储介质

Info

Publication number: CN112116103A
Application number: CN202010979864.8A
Authority: CN
Inventors: 孙圣力; 王怀忠; 李青山; 司华友
Original assignee: Boya Chain Beijing Technology Co ltd; Nanjing Boya Blockchain Research Institute Co ltd; Peking University
Current assignee: Boya Chain Beijing Technology Co ltd; Nanjing Boya Blockchain Research Institute Co ltd; Peking University
Priority date: 2020-09-17
Filing date: 2020-09-17
Publication date: 2020-12-22
Anticipated expiration: 2040-09-17
Also published as: CN112116103B; WO2022057108A1

Abstract

本发明提供了一种基于联邦学习的个人资质评估方法、装置及系统及存储介质，其中的系统包括：智能终端、外部参与方、本地参与方及中心服务器端，其中：智能终端基于用户行为数据训练得到第一评估子模型；外部参与方发送外部用户数据给中心服务器端，中心服务器端基于外部用户数据训练得到第二评估子模型；本地参与方发送第三评估子模型的梯度给中心服务器端，中心服务器端对获取到的梯度进行加权平均以生成平均梯度并基于平均梯度更新第三评估子模型的模型参数以使得本地参与方对第三评估模型进行再次训练。中心服务器对第一评估子模型的模型参数、第二评估子模型的模型参数及第三评估子模型的模型参数进行整合以获得的最终的全局评估模型。

Description

基于联邦学习的个人资质评估方法、装置及系统及存储介质

技术领域

本发明涉及大数据技术领域，尤其涉及一种基于联邦学习的个人资质评估方法、装置及系统及存储介质。

背景技术

传统的个人资质评估方法需要大量人工(审核专员)参与，同时具有较高的隐私泄露风险、人为操纵风险以及诈骗风险。例如，传统评估方法中对用户数据的采集方式主要通过申请人自己提供，然后审批机构通过人工方式去核实这些信息的准确性，最终根据自己内部建立的一套评价方法对该申请人进行信用评价，进而确定是否授信以及授信额度，较为典型的有专家评价法和评分评价法。随着人工智能技术的广泛应用，各种基于机器学习算法的个人资质评估模型本不断提出。

然而，在对待评估用户进行资质评估时，经常需要利用存储在不同的业务系统内的用户数据进行采集，其中即包括评估机构自己掌握的本地数据，也包括外部机构的数据。出于信息安全、法规方面的原因，不同的业务系统之间的直接数据交互难以实现，也就是所谓的数据孤岛。为了解决数据孤岛问题，实现敏感数据不对外提供的前提下实现信息的交互与模型的学习，出现了一种新型学习方法-联邦学习。联邦学习是一种新兴的人工智能基础技术，其设计目标是在保障大数据交换时的信息安全、保证合法合规的前提下，在多参与方或多计算结点之间开展高效率的机器学习。

鉴于联邦学习策略的上述优点，目前，已经有基于联邦学习的评估系统被提出。如公开号为CN202010283266及公开号CN202010162831的中国发明专利申请中公开的，现有的基于联邦学习的评估系统一般包括参与方和中心服务器(协调方)，其中：各参与方利用其所拥有的本地数据对目标模型进行训练，得到目标模型的梯度并发送给协调方，协调方对各参与方的梯度进行整合，得到目标模型的更新梯度后返回给各参与方，各参与方基于更新梯度和本地数据再次对目标模型进行训练并再次将训练得到的梯度发送给协调方，迭代，直至获得最终的目标模型。

现有技术中的基于联邦学习的评估系统至少存在如下技术问题：

1、要求各参与方均对目标模型进行训练，然而，在个人资质评估等应用中，作为参与方的外部机构可能并不具备模型训练能力。

2、模型训练过程中，参与方需要频繁、持续地将每轮更新后的梯度发送给协调方，因此必须保证参与方持续在线并要求参与方拥有大量的通信资源(流量)。出于此方面的原因，手机等智能终端很难作为参与方加入至评估系统中。然而，随着智能手机的普及化，使用智能手机直接对用户进行资质评估显示是一种最为便捷、有效的资质评估方式。

发明内容

为了解决上述技术问题中的至少一个，本发明第一方面提供了一种基于联邦学习的个人资质评估方法，其技术方案如下：

一种基于联邦学习的个人资质评估方法，其运行于中心服务器端，其包括：

获取智能终端发送的第一评估子模型的模型参数，其中，所述第一评估子模型为所述智能终端基于智能终端上的经过预处理后的用户行为数据训练得到；

获取至少一个外部参与方发送的经过预处理后的外部用户数据，并基于所述外部用户数据训练得到第二评估子模型及其模型参数；

获取至少两个本地参与方发送的至少两个第三评估子模型的梯度，对获取到的至少两个第三评估子模型的梯度进行加权平均以生成平均梯度，基于所述平均梯度更新所述第三评估子模型的模型参数并将更新后的模型参数发送给各所述本地参与方以使得各所述本地参与方再次对所述第三评估模型进行再次训练，其中，所述第三评估模型为所述本地参与方基于预处理后的本地用户数据训练得到；

对所述第一评估子模型的模型参数、第二评估子模型的模型参数及第三评估子模型的模型参数进行整合以获得的整合后的模型参数，将整合后的模型参数分发给所述智能终端、所述本地参与方用于模型更新。

本发明第二方面提供了一种基于联邦学习的个人资质评估装置，其运行于中心服务器端，其包括：

第一获取模块，用于获取智能终端发送的第一评估子模型的模型参数，其中，所述第一评估子模型为所述智能终端基于智能终端上的经过预处理后的用户行为数据训练得到；

第一训练模块，用于获取至少一个外部参与方发送的经过预处理后的外部用户数据，并基于所述外部用户数据训练得到第二评估子模型及其模型参数；

梯度更新模块，用于获取至少两个本地参与方发送的至少两个第三评估子模型的梯度，对获取到的至少两个第三评估子模型的梯度进行加权平均以生成平均梯度，基于所述平均梯度更新所述第三评估子模型的模型参数并将更新后的模型参数发送给各所述本地参与方以使得各所述本地参与方再次对所述第三评估模型进行再次训练，其中，所述第三评估模型为所述本地参与方基于预处理后的本地用户数据训练得到；

整合模块，用于对所述第一评估子模型的模型参数、第二评估子模型的模型参数及第三评估子模型的模型参数进行整合以获得的整合后的模型参数，将整合后的模型参数分发给所述智能终端、所述本地参与方用于模型更新。

本发明第三方面提供了一种基于联邦学习的个人资质评估方法，其运行于智能终端，其包括：

基于智能终端上的经过预处理后的用户行为数据训练得到第一评估子模型，并将第一评估子模型的模型参数发送给中心服务器；

接收中心服务器生成的整合后的模型参数，并基于整合后的模型参数对所述第一评估子模型进行更新，其中：

所述中心服务器生成所述整合后的模型参数包括：

对所述第一评估子模型的模型参数、第二评估子模型的模型参数及第三评估子模型的模型参数进行整合以获得所述整合后的模型参数。

本发明第四方面提供了一种基于联邦学习的个人资质评估装置，其运行于智能终端，其包括：

第二训练模块，用于基于智能终端上的经过预处理后的用户行为数据训练得到第一评估子模型，并将第一评估子模型的模型参数发送给中心服务器；

更新模块，用于接收中心服务器生成的整合后的模型参数，并基于整合后的模型参数对所述第一评估子模型进行更新，其中：

所述中心服务器生成所述整合后的模型参数包括：

本发明第五方面提供了一种基于联邦学习的个人资质评估系统，其包括智能终端、至少一个外部参与方、至少两个本地参与方及中心服务器端，其中：

所述智能终端基于智能终端上的经过预处理后的用户行为数据训练得到第一评估子模型，并将第一评估子模型的模型参数发送给中心服务器端；

所述外部参与方发送经过预处理后的外部用户数据给中心服务器端，所述中心服务器端基于所述外部用户数据训练得到第二评估子模型及其模型参数；

所述本地参与方发送第三评估子模型的梯度给中心服务器端，所述中心服务器端对获取到的至少两个第三评估子模型的梯度进行加权平均以生成平均梯度，基于所述平均梯度更新所述第三评估子模型的模型参数并将更新后的模型参数发送给各所述本地参与方以使得各所述本地参与方对所述第三评估模型进行再次训练；

所述中心服务器对所述第一评估子模型的模型参数、第二评估子模型的模型参数及第三评估子模型的模型参数进行整合以获得的整合后的模型参数，将整合后的模型参数分发给所述智能终端、所述本地参与方用于模型更新。

本发明第六方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：

与现有技术中的基于联邦学习的评估系统相比，本发明的基于联邦学习的用于资质评估策略在实现评估效果的前提下，能实现如下技术效果：

1、外部参与方仅仅需要将其经过预处理后的本地数据提供给中心服务器，而不需要实施模型训练。

2、智能终端自行完成模型训练后将模型参数提供给中心服务器，而不需要频繁地与中心服务器进行梯度交换，从而使得智能终端能够以参与方的角色加入至评估系统内，并使得用户通过智能终端即能快速获取到评估结果。

附图说明

图1为本发明实施例提供的个人资质评估方法所涉及的实施环境；

图2为本发明实施例中的基于联邦学习的个人资质评估系统的架构图；

图3为本发明实施例中的基于联邦学习的个人资质评估方法的流程图；

图4为本发明实施例中的基于联邦学习的个人资质评估方法的流程图；

图5为本发明实施例中的基于联邦学习的个人资质评估装置的结构框图；

图6为本发明实施例中的基于联邦学习的个人资质评估方法的流程图；

图7为本发明实施例中的基于联邦学习的个人资质评估方法的流程图；

图8为本发明实施例中的基于联邦学习的个人资质评估装置的结构框图；

图9为一个具体应用例中本发明的个人资质评估方法的执行流程图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

申请概述

如上所示，现有的基于联邦学习的评估系统包括参与方和中心服务器(或者成为协调方)，其中：各参与方利用其所拥有的本地数据对目标模型进行训练，得到目标模型的梯度并发送给协调方，协调方对各参与方的梯度进行整合，得到目标模型的更新梯度后返回给各参与方，各参与方基于更新梯度和本地数据再次对目标模型进行训练并再次将训练得到的梯度发送给协调方，迭代，直至获得最终的目标模型。

然而，现有的基于联邦学习的评估系统至少存在如下技术问题：

针对现有的基于联邦学习的评估系统存在的上述缺陷，本申请的基本构思是：

1、智能终端基于用户在智能终端上的行为数据自行完成第一评估子模型的训练，并将第一评估子模型的参数提供给中心服务器。

2、外部参与方仅将其经过预处理后的数据提供给中心服务器，由中心服务器使用这些数据训练模型，从而得到针对外部用户数据的第二评估子模型的模型参数。

3、各本地参与方则采用现有的联邦学习策略，通过与中心服务器的频繁梯度交换实现对第三评估子模型的训练，并获得针对本地用户数据的第三评估子模型的模型参数。

即相当于，智能终端、外部参与方、本地参与方均通过各自的用户数据训练得到一个评估模型。只不过是，外部参与方的模型训练任务是由中心服务器代为实施的。

为了实现对智能终端、外部参与方、本地参与方的数据融合，获得最终的评估模型。中心服务器最后对第一评估子模型的模型参数、第二评估子模型的模型参数及第三评估子模型的模型参数进行整合从而获得的整合后的模型参数并将整合后的模型参数下发给智能终端、各本地参与方。

基于整合后的模型参数，位于智能终端的第一评估子模型、位于中心服务器端的第二评估子模型和位于各本地参与方的第三评估子模型均被更新为统一的全局资质评估模型。

此时，经智能终端、中心服务器端及本地参与方均能实施对用户的资助评估，且评估结果应该具有较大的一致性。

鉴于现有的基于联邦学习的评估系统存在的技术问题，本发明提供了一种基于联邦学习的个人资质评估方法、装置及系统及存储介质。

实施例环境

图1为本发明实施例提供的个人资质评估方法所涉及的实施环境，如图1所示的，该实施环境包括四层，分别为：

数据访问层：

各参与方所需要的模型训练数据均位于存储层，数据以各种不同格式存储于各类业务数据库内。为了实现对这些异构数据的抽取，数据访问层内部署多元数据转换器，从而将各种不同格式的数据转换为统一的数据格式。

数据访问层通过将参与方内部杂乱的数据存储形式，转为统一规整的结构化数据接入大数据平台，实现了对外提供一致Hive接口。

数据处理层：

对数据进行一系列的清洗、转换等操作，从而使得数据满足模型训练对数据的要求。例如，数据处理层可以实现：

缺失值填充，如，统计完数据的缺率后，舍弃缺失率超过预定阈值(如60％) 的数据，对离散型数据采用众数填充，对连续型数据采用最近邻差值或平均插值填充。

离群值检测，如，采用隔离森林法对数据进行离群值检测检测，按着10％的比率舍弃离群值。

数据分箱，如，选择合适的数据间隔，完成数据分箱操作。

特征编码，如，采用WOE编码法完成对数据的编码，

数据降维，如采用主成分分析法对数据进行降维处理，以消除冗余特征。

数据平衡，如，采用SMOTE过采样法进行负样本数据平衡，以弥补样本数据过少带来的模型过拟合问题。

样本对齐，如，对应从外部参与方获取的数据，需要采用样本对齐技术对数据进行处理。

总之，经过数据层的预处理后，数据能够满足模型训练要求。

联邦学习层

在经过数据处理层处理后，来源于不同的业务数据局的异构数据均已经转化为可以直接输入模型的特征数据，且可训练的样本数据的ID也已经达成一致。

本发明的个人资质评估系统被布置在联邦层内，评估系统内的各参与方并与中心服务器进行通信，进行模型的训练。最终形成一个全局的统一模型。后续实施例将对个人资质评估系统的具体模型训练流程进行详细描述。

业务逻辑层

其可实行包括用户信息登记、后台数据审核、评估标准制定、资质评分生成、评估模型微调、用户标签存取、元数据信息标注、可视化信息展示等业务逻辑。

表现层

其可提供包括用户信息页面、全局数据可视化页面、后台数据管理页面等，实施例系统

图2示出了本实施例中的基于联邦学习的个人资质评估系统，如图2所示，该个人资质评估系统至少包括智能终端100、外部参与方200、本地参与方300及中心服务器400。

其中，智能终端100可以是用户的智能手机、掌上电脑等。智能终端100上搭载有各类消费类、信贷类APP，从这些APP上能够获取到用户的历史行为数据，如用户的消费数据、信贷数据以及用户的个人信息等。当然，智能终端100上也搭载有能够实现本发明的模型训练任务的相关程序模块，智能终端100通过无线网络与中心服务器400进行数据交互，从而实现本发明的联邦学习任务。

一般来说，本地参与方300及中心服务器400一般属于同一利益集团，该利益集团正是个人资质评估的发起者或收益者，本地参与方300及中心服务器400 之间的数据交互较为便利，且一般不存在数据孤岛问题。而外部参与方200则与本地参与方300属于不同的利益集团，出于信息安全、信息私有化方面的原因，外部参与方200提供给中心服务器400的数据访问接口受到各类限制，且提供给中心服务器400的模型训练数据也必须经过相关的加密处理等等。

例如，在一个虚构的应用实施例中，腾讯公司需要对客户的信用情况进行评估，为了保证评估的准确性，在训练评估模型时，其不仅需要使用腾讯公司内部各业务部门(如微信、QQ等)的数据库内存储的用户数据，而且还需要使用拼多多的数据库内存储的用户数据，此时，腾讯公司内部各业务部门(如微信、QQ等)即为本地参与方300，而拼多多则为外部参与方200。

本实施例中，本地参与方300、中心服务器400均搭载有实施模型训练任务的相关程序模块，而外部参与方200则仅提供数据接口。

本实施例中，基于联邦学习的训练体系下，智能终端100、外部参与方200、本地参与方300及中心服务器400的模型训练过程大致如下。

一、智能终端训练第一评估子模型

如前文所提及的，智能终端100上存在大量的用户行为数据，且智能终端上搭载有模型训练任务的相关程序模块，且这些行为数据的真实性、时效性非常高，且智能终端100拥有较为强大的计算能力。唯一的缺陷是，智能终端100的通信能力较差，其难以实现与中心服务器400的持续交互。

智能终端100在用户授权的前提下，获取用户日常的支付订单信息、网站访问记录、借贷信息等行为数据。智能终端100基于这些数据样本训练第一评估子模型，并将训练好的第一评估子模型的模型参数发送给中心服务器400，以触发中心服务器400获取全局资质评估模型的模型参数。

可见，第一评估子模型的整个训练过程均由智能终端100自行、独立完成，训练过程中无需与中心服务器400进行交互。

二、中心服务器代理外部参与方训练第二评估子模型

如上文所提及的，外部参与方200并不具备模型训练能力，其仅提供经过预处理后的训练样本数据。

外部参与方200与中心服务器400达成合作共识后，将经过预处理后的外部用户数据加密后提供给中心服务器400。

中心服务器400基于这些外部用户数据训练第二评估子模型，获得第二评估子模型的模型参数。

三、本地参与方300和中心服务器400联合训练第三评估子模型

如前文所述，本地参与方300和中心服务器400属于同一利益集团，两者之间进行便捷、高效的数据交互。因此，为了提升训练效果。本地参与方300和中心服务器400基于传统的联邦学习策略展开对第三评估子模型的训练，具体的：

训练过程中，每完成一轮前向传播，各本地参与方300均发送模型的梯度给中心服务器端400，中心服务器端400对获取到的梯度进行加权平均以生成平均梯度。基于该平均梯度，中心服务器端400更新模型的模型参数并将更新后的模型参数发送给各本地参与方300，本各本地参与方300方对各自的第三评估模型进行再次训练。如此迭代，直至训练完成，获得训练好的第三评估模型。

需要说明的是，为了提升效率，上面的三项工作一般并行执行。

四、中心服务器400获取全局资质评估模型

经过上述三项工作后，第一评估子模型、第二评估子模型及第三评估子模型均已训练好，三个子模型的模型参数均已提供给中心服务器400。

此时，中心服务器400根据不同参与方的数据分布情况、数据价值，分析出各子模型的参数权重，通过加权平均计算即可获得整合后的模型参数，该整合后的模型参数即可作为全局资质评估模型的模型参数分发给各参与方，使得各参与方能够对其评估模型进行更新。

至此，模型训练结束。

本实施例中的评估模型选用XGBoost模型，XGBoost模型具有自动集成的功能，可以防止模型过拟合，从而提高模型的泛化能力。此外，XGBoost模型使用代价函数的一阶偏导和二阶偏导，梯度下降更快、更准，同时有利于损失函数计算和参数的更新、解耦。当然，其他实施例中，也可以选用其他合适的机器学习模型。

为了更加清楚地展示本发明的用户评估方法、系统的执行过程，下文将从中心服务器侧、智能终端侧，对本发明进行进一步介绍。

实施例方法及装置/运行于中心服务器

本实施例中，从中心服务器侧对本发明的执行过程进行描述。

如图3所示，本实施例中的基于联邦学习的个人资质评估方法包括如下步骤：

S101、获取智能终端发送的第一评估子模型的模型参数，其中，所述第一评估子模型为所述智能终端基于智能终端上的经过预处理后的用户行为数据训练得到。

S102、获取至少一个外部参与方发送的经过预处理后的外部用户数据，并基于所述外部用户数据训练得到第二评估子模型及其模型参数。

S103、获取至少两个本地参与方发送的至少两个第三评估子模型的梯度，对获取到的至少两个第三评估子模型的梯度进行加权平均以生成平均梯度，基于所述平均梯度更新所述第三评估子模型的模型参数并将更新后的模型参数发送给各所述本地参与方以使得各所述本地参与方再次对所述第三评估模型进行再次训练，其中，所述第三评估模型为所述本地参与方基于预处理后的本地用户数据训练得到。

S104、对所述第一评估子模型的模型参数、第二评估子模型的模型参数及第三评估子模型的模型参数进行整合以获得的整合后的模型参数，将整合后的模型参数分发给所述智能终端、所述本地参与方用于模型更新。

其中，步骤S101-步骤S103可以并行执行。

上述步骤S101-步骤S103的具体执行过程及可选实施方式可以直接参考上文中的其他实施例，此处不再进行赘述。

完成模型更新后，智能终端、本地参与方及中心服务器上均拥有全局资质评估模型。此时，可以实现对用户的资质评估。

大多数应用场景中，用户均通过智能终端提交个人资质评估请求，由智能终端完成评估工作并给出个人资质评分。当然，为了实现数据的共享及保持，个人资质评分一般需要被上传至中心服务器上。因此，可选的，本实施例中，如图4所示，还包括如下步骤：

S105、获取所述智能终端发送的经过加密后的用户的第一个人资质评分，所述第一个人资质评分由所述智能终端基于所述第一评估子模型获得。

S106、基于所述第二评估子模型获得用户的第二个人资质评分。

S107、对比验证所述第一个人资质评分和所述第二个人资质评分，如果所述第一个人资质评分和所述第二个人资质评分符合预定规则，则将第一个人资质评分或所述第二个人资质评分存储至预先布置好的区块链中。

可见，中心服务器并非直接接受智能终端上传的个人资质评分，其需要对个人资质评分进行验证后方才进行存储。

通过将个人资质评分存储在预先布置好的区块链中，能实现防篡改。且，加入区块链的具有相关权限的访问者能够从区块链查询到特定用户的个人资质评分。本实施例中的区块链为联盟链。

本实施例还提供了一种基于联邦学习的个人资质评估装置，该装置运行于中心服务器400。如图5所示的，该装置包括第一获取模块301、第一训练模块302、梯度更新模块303和整合模块304，第一获取模块301、第一训练模块302、梯度更新模块303和整合模块304分别对应实施本实施例中的方法步骤S101-S104，此处不再赘述。

对应的，可选的，本实施例中的个人资质评估装置还包括用于实现本实施例中的方法步骤S105-S107的相关功能模块。

实施例方法及装置/运行于智能终端

本实施例中，从智能终端100侧对本发明的执行过程进行描述。

如图6所示，本实施例中的基于联邦学习的个人资质评估方法包括如下步骤：

S401、基于智能终端上的经过预处理后的用户行为数据训练得到第一评估子模型，并将第一评估子模型的模型参数发送给中心服务器。

S402、接收中心服务器生成的整合后的模型参数，并基于整合后的模型参数对所述第一评估子模型进行更新，其中：

所述中心服务器生成所述整合后的模型参数包括：

上述步骤S401-步骤S402的具体执行过程及可选实施方式可以参考上文中的其他实施例，此处不再进行赘述。

智能终端完成评估工作并给出个人资质评分后一般需要被上传至中心服务器上。因此，可选的，本实施例中，如图7所示，还包括如下步骤：

S405、基于所述第一评估子模型获得用户的资质评分并显示所述资质评分；

S406、将所述资质评分加密发送至所述中心服务器，以触发所述中心服务器执行：基于所述第二评估子模型获得用户的第二个人资质评分；对比验证所述第一个人资质评分和所述第二个人资质评分，如果所述第一个人资质评分和所述第二个人资质评分符合预定规则，则将第一个人资质评分或所述第二个人资质评分存储至预先布置好的区块链中。

本实施例还提供了一种基于联邦学习的个人资质评估装置，该装置运行于智能终端。如图8所示的，该个人资质评估装置包括第二训练模块601和更新模块602，第二训练模块601和更新模块602分别对应实施本实施例中的方法步骤 S401-S402，此处不再赘述。

对应的，可选的，本实施例中的个人资质评估装置还包括用于实现本实施例中的方法步骤S405-S406的相关功能模块。

随着新的用户数据的产生，已有的评估模型有可能已经不能实现对用户的个人资质的准确评估，因此，在执行资质评估前，有必要对模型的合格性进行检验，以决定选择已有的评估模型进行直接评估，或是选择对评估模型进行重新训练后再进行评估。

鉴于此，可选的，在执行步骤S403之前，还可包括如下步骤(未图示)：

S403、检验第一评估子模型是否合格。

具体地，智能终端从中心服务器同步模型容错率、AUC值和F1-SCORE，并计算第一评估子模型的评估数据，若第一评估子模型符合标准，则执行资质评估，否则，转入步骤S404。

S404、检验第二评估子模型是否合格。

具体地，中心服务器计算第二评估子模型的AUC值和F1-SCORE，并与预先设置的标准模型参数对比，若第二评估子模型符合标准，则将第二评估子模型发送给智能终端，智能终端执行资质评估。否则，进行新一轮的模型训练，以实现对评估模型的更新。

实施例存储介质

本实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：

具体应用例

最后，本说明书还提供了一个具体的应用例，其应用发明的评估方法对贫困户的就业资质进行评估，其由本地参与方实施。

贫困户对象特征包括身份证号、姓名、年龄、性别等公共信息，健康状况、消费水平、受教育程度、收入情况等学习信息。其中公共信息所有参与方所共有的，学习信息交叉储存在不同参与方中。中心服务器协调各参与方训练模型，得到学习信息的特征数据。下面以内部数据分布式系统为例，介绍用户资质评分生成过程。

如图9所示的，使用本发明的评估方法对贫困户对象进行就业资质的部分流程如下：

数据准备

具体地，使用Kafka对本地的各分布式数据库，如Mysql、SQLServer、Oracle 等。收集整合具有同一ID的用户数据项。随后，通过统一接口服务的方式开放给Hadoop，用于数据消费。整合数据项包括贫困户ID、年龄、性别、收入等基本数据，历史订单的订单号、数量、产品名称等交易信息，医保单据的单据号、医院类型、金额、疾病名称等医疗信息以及训练数据的标签字段(如，符合就业扶持/不符合就业扶持)。

数据清洗

具体地，对于不同的特征项，通过求和、计数、取平均值整理数据信息，并统计缺失值比率。舍弃缺失率大于60％的特征项，对于离散型数据使用众数填补，对于连续型数据使用最近邻插值和平均插值填补。同时，使用隔离森林的方法进行离群值检测，按照10％的比率舍弃离群值。统计各特征项数据分布，选择合适的数据间隔，完成数据分箱。随后，计算特征WOE编码

根据id值汇总整个数据。

特征工程

具体地，采用PCA主成分分析方法进行数据降维，旨在消除冗余特征解决多重共线问题，同时，较小的数据尺寸有助于数据可视化。采用SMOTE过采样方法进行负样本的数据平衡，以弥补负样本即不合格贫困户样本数过少带来的模型过拟合问题。

模型初始化

具体地，选取XGBoost模型作为贫困户职业资质评估模型，XGboost是 GradientBoosting Algorithms(GBM)的高级实现，XGboost具有自动集成的功能，可以防止模型过拟合，从而提高模型的泛化能力。XGBoost模型使用代价函数的一阶导数和二阶偏导，梯度下降更快更准，同时有利于损失函数计算和参数更新的解耦。

梯度计算

具体地，内部数据分布式系统内的模型执行一次前向传播，计算得到模型梯度

加密上传至中心服务器。

参数更新

具体地，中心服务器接收各内部数据分布式系统的梯度，解密后汇总整合。根据设置的模型学习率η计算平均梯度，更新的模型参数为

随后同步至各内部数据分布式系统，重复若干次，直至模型训练完成。

评分生成

具体地，特征项评分

根据XGBoost模型参数，计算资质评分加权和

根据资质评分情况，即可判定其是否需要进行就业扶持。

上文对本发明进行了足够详细的具有一定特殊性的描述。所属领域内的普通技术人员应该理解，实施例中的描述仅仅是示例性的，在不偏离本发明的真实精神和范围的前提下做出所有改变都应该属于本发明的保护范围。本发明所要求保护的范围是由所述的权利要求书进行限定的，而不是由实施例中的上述描述来限定的。

Claims

1.一种基于联邦学习的个人资质评估方法，其运行于中心服务器端，其包括：

2.如权利要求1所述的个人资质评估方法，其特征在于，所述预处理操作包括：

将原始的数值、字符串以及比率数值转化为适合模型输入的特征，对数据进行缺失值填充、离群值检测、数据分箱、特征编码、数据降维、数据平衡或样本对齐。

3.如权利要求2所述的个人资质评估方法，其特征在于：

所述缺失值填充包括：舍弃缺失率超过预定阈值的数据，对离散型数据采用众数填充，对连续型数据采用最近邻差值或平均插值填充；

所述离群值检测采用隔离森林法；

所述特征编码采用WOE编码法；

所述数据降维采用主成分分析法；

所述数据平衡采用SMOTE过采样法。

4.如权利要求1所述的个人资质评估方法，其特征在于，其还包括：

获取所述智能终端发送的经过加密后的用户的第一个人资质评分，所述第一个人资质评分由所述智能终端基于所述第一评估子模型获得；

基于所述第二评估子模型获得用户的第二个人资质评分；

对比验证所述第一个人资质评分和所述第二个人资质评分，如果所述第一个人资质评分和所述第二个人资质评分符合预定规则，则将第一个人资质评分或所述第二个人资质评分存储至预先布置好的区块链中。

5.一种基于联邦学习的个人资质评估装置，其运行于中心服务器端，其包括：

6.一种基于联邦学习的个人资质评估方法，其运行于智能终端，其包括：

所述中心服务器生成所述整合后的模型参数包括：

7.一种基于联邦学习的个人资质评估装置，其运行于智能终端，其包括：

所述中心服务器生成所述整合后的模型参数包括：

8.如权利要求6所述的个人资质评估方法，其特征在于，其还包括：

基于所述第一评估子模型获得用户的资质评分并显示所述资质评分；

将所述资质评分加密发送至所述中心服务器，以触发所述中心服务器执行：基于所述第二评估子模型获得用户的第二个人资质评分；对比验证所述第一个人资质评分和所述第二个人资质评分，如果所述第一个人资质评分和所述第二个人资质评分符合预定规则，则将第一个人资质评分或所述第二个人资质评分存储至预先布置好的区块链中。

9.一种基于联邦学习的个人资质评估系统，其特征在于，所述个人资质评估系统包括智能终端、至少一个外部参与方、至少两个本地参与方及中心服务器端，其中：

10.一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：