CN114492605A

CN114492605A - 联邦学习特征选择方法、装置、系统以及电子设备

Info

Publication number: CN114492605A
Application number: CN202210031191.2A
Authority: CN
Inventors: 周一竞; 张宇; 孟丹; 李宏宇; 李晓林
Original assignee: Hangzhou Bodun Xiyan Technology Co ltd
Current assignee: Hangzhou Bodun Xiyan Technology Co ltd
Priority date: 2022-01-12
Filing date: 2022-01-12
Publication date: 2022-05-13

Abstract

本发明实施例提供了一种联邦学习特征选择方法、装置、系统以及电子设备，该方法包括：通过参与方以及发起方分别获取本地的预设用户特征；根据预设用户特征，预设用户特征对应的目标评价参数值；基于该目标评价参数值，确定每种预设用户特征对应的目标评价分值；根据目标评价分值，选取目标评价分值满足预设条件的特征作为目标用户特征。本发明实施例中通过基于目标评价参数值来计算每种预设用户特征对应的目标评价分值，后续再根据该目标评价分值选择目标用户特征用于进行模型训练。这样，提高了联邦学习建模时特征选取的合理性，避免了现有技术中线下沟通、随机选取用户特征导致的特征选取不合理的情况。

Description

联邦学习特征选择方法、装置、系统以及电子设备

技术领域

本发明涉及机器学习技术领域，特别是涉及一种联邦学习特征选择方法、装置、系统以及电子设备。

背景技术

随着人工智能技术的不断发展，越来越多的领域开始基于人工智能的相关模型开展其各种业务。示例性地，评分卡由于其模型的简单和变量的可解释性，已然成为在金融界用于鉴别用户资质的一种常用手段，在贷前贷中和贷后均可使用。

与此同时，在当今数据孤岛的情形下，基于客户日益增长的联合建模需求，对联邦评分卡的建模需求也在迅速增长。现有技术中的联邦学习方式仅仅是各参与方基于线下沟通等方式来选定用户特征，这种选定方式往往是各参与方随机选定用户特征来进行后续的模型训练，这种特征选择方式特征的选择过程是随机的，容易影响特征选取的合理性。

发明内容

本发明实施例提供一种联邦学习特征选择方法、装置、系统以及电子设备，以解决现有技术中联邦学习过程中特征选取的合理性不高的问题。

为了解决上述问题，本发明实施例是这样实现的：

第一方面，本发明实施例公开了一种联邦学习特征选择方法，应用于联邦学习系统，所述联邦学习系统包括发起方和参与方，所述方法包括：

通过所述参与方以及所述发起方分别获取本地的预设用户特征；

根据所述预设用户特征，计算所述预设用户特征对应的目标评价参数值；

基于所述目标评价参数值，确定每种所述预设用户特征对应的目标评价分值；

根据所述目标评价分值，选取所述目标评价分值满足预设条件的特征作为目标用户特征。

可选的，所述目标评价参数值包括目标样本差值；

所述计算所述预设用户特征对应的目标评价参数值，包括：

确定本地预设用户特征的特征取值以及标签数据；

基于所述特征取值以及所述标签数据，确定正负样本统计量；

通过所述发起方基于所述正负样本统计量计算所述正负样本的占比差值，得到备选样本差值；

基于所述备选样本差值，确定所述目标样本差值。

可选的，所述目标评价参数值包括目标信息价值；

所述计算所述预设用户特征对应的目标评价参数值，包括：

基于预设分箱方式对所述预设用户特征进行分箱处理，确定各个分箱以及所述各个分箱对应的分箱点；

通过所述参与方计算各个分箱内的正负样本数，并将所述正负样本数发送至所述发起方；

所述发起方基于各个分箱对应的所述正负样本数，计算得到所述目标信息价值。

可选的，所述目标评价参数值包括目标稳定性指标值；

所述计算所述预设用户特征对应的目标评价参数值，包括：

将本地的所述预设用户特征划分为训练集和验证集；

基于预设稳定性计算方式，计算所述训练集和验证集中的各个预设用户特征对应的目标稳定性指标值。

可选的，在所述目标评价参数值包括目标样本差值、目标信息价值以及目标稳定性指标值的情况下，所述基于所述目标评价参数值，确定每种所述预设用户特征对应的目标评价分值，包括：

计算所述目标样本差值、所述目标信息价值的乘积，并将所述乘积与所述目标稳定性指标值的比值作为所述目标评价分值。

可选的，在所述通过所述参与方以及所述发起方分别获取本地的预设用户特征之后，所述方法还包括：

通过所述发起方获取本地预设用户特征对应的相关性矩阵以及各个所述参与方的预设用户特征对应的相关性矩阵；

基于所述相关性矩阵，通过所述发起方确定所述预设用户特征两两之间的目标相关性系数；

在两个预设用户特征对应的所述目标相关性系数大于预设相关性系数阈值的情况下，依据预设删除规则删除其中一个预设用户特征。

第二方面，本发明实施例公开了一种联邦学习特征选择装置，应用于联邦学习系统，所述联邦学习系统包括发起方和参与方，所述装置包括：

获取模块，用于通过所述参与方以及所述发起方分别获取本地的预设用户特征；

计算模块，用于根据所述预设用户特征，计算所述预设用户特征对应的目标评价参数值；

确定模块，用于基于所述目标评价参数值，确定每种所述预设用户特征对应的目标评价分值；

选取模块，用于根据所述目标评价分值，选取所述目标评价分值满足预设条件的特征作为目标用户特征。

可选的，所述目标评价参数值包括目标样本差值；所述计算模块，具体用于：

确定本地预设用户特征的特征取值以及标签数据；

基于所述备选样本差值，确定所述目标样本差值。

可选的，所述目标评价参数值包括目标信息价值；

所述计算模块，具体用于：

可选的，所述目标评价参数值包括目标稳定性指标值；

所述计算模块，具体用于：

将本地的所述预设用户特征划分为训练集和验证集；

可选的，在所述目标评价参数值包括目标样本差值、目标信息价值以及目标稳定性指标值的情况下，所述第一确定模块，具体用于：

可选的，所述装置还包括：

第二获取模块，用于通过所述发起方获取本地预设用户特征对应的相关性矩阵以及各个所述参与方的预设用户特征对应的相关性矩阵；

第二确定模块，用于基于所述相关性矩阵，通过所述发起方确定所述预设用户特征两两之间的目标相关性系数；

删除模块，用于在两个预设用户特征对应的所述目标相关性系数大于预设相关性系数阈值的情况下，依据预设删除规则删除其中一个预设用户特征。

第三方面，本发明实施例公开了一种联邦学习特征选择系统，应用于联邦学习系统，所述联邦学习系统包括发起方和参与方，其中：

所述参与方以及所述发起方分别获取本地的预设用户特征；

根据所述预设用户特征，所述联邦学习系统计算所述预设用户特征对应的目标评价参数值；

基于所述目标评价参数值，所述联邦学习系统确定每种所述预设用户特征对应的目标评价分值；

根据所述目标评价分值，所述联邦学习系统选取所述目标评价分值满足预设条件的特征作为目标用户特征。

第四方面，本发明实施例还提供了一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现第一方面所述的联邦学习特征选择方法的步骤。

第五方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现第一方面所述的联邦学习特征选择方法的步骤。

在本发明实施例中，通过参与方以及发起方分别获取本地的预设用户特征；根据预设用户特征，得到预设用户特征对应的目标评价参数值；基于该目标评价参数值，确定每种预设用户特征对应的目标评价分值；根据目标评价分值，选取目标评价分值满足预设条件的特征作为目标用户特征。本发明实施例中通过基于目标评价参数值来计算每种预设用户特征对应的目标评价分值，后续再根据该目标评价分值选择目标用户特征用于进行模型训练。这样，提高了联邦学习建模时特征选取的合理性，避免了现有技术中线下沟通、随机选取用户特征导致的特征选取不合理的情况。

附图说明

图1示出了本发明实施例的一种联邦学习特征选择方法的步骤流程图；

图2示出了本发明实施例的一种连续型和类别型变量的目标样本差值计算流程图；

图3示出了本发明实施例的一种离散型变量的目标样本差值计算流程图；

图4示出了发明实施例的一种卡方分箱的流程示意图；

图5示出了本发明实施例的一种决策树分箱的流程示意图；

图6示出了本发明实施例的一种目标信息价值的计算流程图；

图7示出了本发明的一种联邦学习特征选择装置的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。需要说明的是，本发明实施例所涉及的用户信息(包括但不限于用户的设备信息、用户个人信息等)、相关数据等均为经用户授权或经各方授权后的信息。

参照图1，示出了本发明的一种联邦学习特征选择方法的步骤流程图。该联邦学习特征选择方法可以应用于联邦学习系统中，该联邦学习系统包括一个发起方和参与方。

本发明实施例中，联邦学习系统可以是指用于联邦学习、联合建模的系统。联邦学习(Federated Learning)是一种人工智能基础技术，其基本设计目标为在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下，在多参与方或多计算结点之间开展高效率的机器学习。示例性地，假设企业A和企业B需要联合训练一个机器学习模型，企业A和企业B业务系统分别拥有各自用户的相关数据，并且，企业B中还拥有模型需要预测的标签数据。出于数据隐私保护和安全考虑，企业A和企业B无法直接进行数据交换，可使用联邦学习系统建立联合模型。这样，能够保证各参与方在保持独立性的情况下，进行信息与模型参数的加密交换，同时提高模型的质量。

发起方(guest)可以是指发起联邦学习并且在联邦学习中拥有标签数据的一方。参与方(host)可以是指提供用户数据进行联合建模的一方。参与方的数量可以为一个或者多个，本发明实施例对此不作限定。示例性地，若银行需要利用保险公司彼此的数据来对本方业务的客户进行资质评级，即制作联邦评分卡，则该银行可以作为联邦建模的发起方guest，保险公司作为其他参与方host。保险公司这一其他参与方可以扩展为多方，这样银行可以间接采用更多参与方的数据，对客户的贷款资质给出更精准的评分，进一步提高模型的准确度。

该联邦学习特征选择方法具体可以包括：

步骤101、通过所述参与方以及所述发起方分别获取本地的预设用户特征。

本发明实施例中，预设用户特征可以是指联邦学习系统中各方基于本地的用户数据提取的特征。在金融行业中联邦评分卡的联合建模场景中，该预设用户特征可以是指用户的身份特征、健康特征、收支流水特征、工作特征、信用特征，资产特征等，由于各个联邦学习可以有多方参与，具体的预设用户特征可以基于各方实际存储的用户数据进行获取，本发明实施例对此不作限定。

本步骤中，联邦学习系统的各方可以基于各自本地业务开展过程中收集的用户数据，获取预设用户特征，后续可以针对这些预设用户特征进行选择，以确定最终用户模型训练的目标用户特征。

步骤102、根据所述预设用户特征，计算所述预设用户特征对应的目标评价参数值。

本发明实施例中，目标评价参数值可以是指基于预设评价参数，针对预设用户特征计算得到的目标评价参数值。目标评价参数值具体可以是指目标样本差值、目标信息价值、皮尔逊相关系数、斯皮尔曼系数和目标稳定性指标值等，具体种类可以基于实际需求进行选择，本发明实施例对此不作限定。其中，目标样本差值(Kolmogorov-Smirnov，KS)，即KS评价指标，可以通过衡量正负样本累计分布之间的差值，来评估特征的风险区分能力，在金融行业中可以用于区分用户资质的好坏。样本正负也即样本好坏的判断标准可以基于不同的业务场景或者不同的预设用户特征进行定义。示例性地，若基于预设用户特征筛选的目标用户特征最终是用于训练联邦评分卡，则正样本即好样本可以是指资质较好的用户对应的各种特征数据，例如未出现逾期行为、个人账户流水稳定等，负样本即坏样本则可以是指资质较差的用户对应的各种特征数据，例如出现逾期行为等。目标信息价值(InformationValue，IV)可以用于衡量预设用户特征对于好坏样本的区分能力。皮尔逊相关系数(Pearson correlation coefficient)可以用于度量两个特征之间的相关性。斯皮尔曼系数(Spearman)可以用于描述特征之间的相关性和依赖性。目标稳定性指标值(PopulationStability Index，PSI)，即，群体稳定性指标，可以用于衡量特征的稳定性。当然，联邦学习系统也可以采用其他目标评价参数值，例如，中值、均值、标准差、偏度等，具体可以基于实际模型训练需求确定，本发明实施例对此不作限定。

具体的，本步骤中，联邦学习系统中各方在获取到本地的预设用户特征之后，可以基于发起方与参与方之间的数据交互，并基于各个目标评价参数值的计算逻辑，计算得到各种预设用户特征对应的目标评价参数值，这样能够全面、准确地描述每种预设用户特征的各项指标，方便后续选择用于模型训练的目标用户特征。

步骤103、基于所述目标评价参数值，确定每种所述预设用户特征对应的目标评价分值。

本发明实施例中，目标评价分值可以是指基于目标评价参数值计算得到的数值，可以用于描述预设用户特征的质量或者与联邦评分卡模型训练相关程度。具体的，在获取到每种预设用户特征对应的目标评价参数值之后，可以基于预设计算方式，计算并确定每种预设用户特征对应的目标评价分值，该预设计算方式可以是指预先设置的计算公式或者加权处理等，本发明实施例对此不作限定。

步骤104、根据所述目标评价分值，选取所述目标评价分值满足预设条件的特征作为目标用户特征。

本发明实施例中，目标用户特征可以是指基于预设用户特征筛选后得到的、用于进行模型训练的数据。预设条件可以是指预先设置的、基于目标评价分值的特征筛选条件，具体可以是指目标评价分值是否大于预设目标评价分值阈值或者目标评价分值是否排序在前预设数量位等，本发明实施例对于预设条件的具体种类不作限定。

本步骤中，在确定出各种预设用户特征对应的目标评价分值之后，可以进一步判断各个预设用户特征的目标评价分值是否预设条件，之后将满足预设条件的预设用户特征选取出来作为目标用户特征。联邦学习系统后续可以根据筛选出的、质量较佳的目标用户特征进行后续的模型训练得到联邦评分卡模型，能够提高联邦评分卡对于不同用户的区分能力，提高模型的精确度。

综上所述，本发明实施例提供的一种联邦学习特征选择方法，通过参与方以及发起方分别获取本地的预设用户特征；根据预设用户特征，预设用户特征对应的目标评价参数值；基于该目标评价参数值，确定每种预设用户特征对应的目标评价分值；根据目标评价分值，选取目标评价分值满足预设条件的特征作为目标用户特征。本发明实施例中通过基于目标评价参数值来计算每种预设用户特征对应的目标评价分值，后续再根据该目标评价分值选择目标用户特征用于进行模型训练。这样，提高了联邦学习建模时特征选取的合理性，避免了现有技术中线下沟通、随机选取用户特征导致的特征选取不合理的情况。

可选的，本发明实施例中，所述目标评价参数值包括目标样本差值。相应的，步骤102具体可以通过以下步骤S21至步骤S24实现：

步骤S21、确定本地预设用户特征的特征取值以及标签数据。

本发明实施例中，目标样本差值即KS值可以用于衡量的好坏样本累计部分之间的差距。KS值越大，表示该预设用户特征对于用户资质好坏的区分能力越大。特征取值可以是指预设用户特征对应的特征值。每个预设用户特征对应的特征取值中包括该特征的所有统计数据，即正负样本。标签数据可以是指发起方拥有的标签。

本步骤中，在计算KS值时，联邦学习系统中的发起方可以将本方拥有的标签数据加密后发送至参与方，同时发起方和参与方均确定本地的预设用户特征对应的特征取值，后续可以基于特征取值和标签数据来确定好坏样本即正负样本的统计量。

步骤S22、基于所述特征取值以及所述标签数据，确定正负样本统计量。

本发明实施例中，正负样本统计量可以是指预设用户特征对应的每个特征取值下的正负样本的统计量。

步骤S23、通过所述发起方基于所述正负样本统计量计算所述正负样本的占比差值，得到备选样本差值。

本发明实施例中，备选样本差值可以是指正负样本的占比差值组成的差值列(gap列)。该占比差值可以是指正样本的数量占比与负样本的数量占比之间的差值。

本步骤中，发起方guest在确定出正负样本统计量之后，可以直接基于该正负样本统计量进行占比差值的计算，得到发起方的预设用户特征对应的备选样本差值。参与方在确定出正负样本统计量之后，可以将该正负样本统计量加密后发送至发起方，由发起方计算备选样本差值。

步骤S24、基于所述备选样本差值，确定所述目标样本差值指标。

本发明实施例中，在确定出备选样本差值之后，可以在备选样本差值中选取最大的备选样本差值作为预设用户特征对应的目标样本差值KS值。

本发明实施例中，确定本地预设用户特征的特征取值以及标签数据；基于特征取值以及标签数据，确定正负样本统计量；通过发起方基于正负样本统计量计算正负样本的占比差值，得到备选样本差值；基于备选样本差值，确定目标样本差值。这样，通过计算预设用户特征对应的目标样本差值，能够准确描述各种预设用户特征对于不同用户的区分能力，为后续进行特征选择提供了准确的数据依据，使得特征选择的合理性更强。

示例性地，图2示出了本发明实施例的一种连续型和类别型变量的目标样本差值计算流程图。连续型变量可以是指数值连续变化的预设用户特征，例如支出金额等。类别型变量可以是指基于类别进行划分的预设用户特征，例如用户的性别划分为男、女等。如图2所示出的，针对连续型和类别型变量，该目标样本差值的计算过程可以包括以下计算步骤：

1)、发起方guest生成私钥priv_key和公钥pub_key以方便后续进行加密和解密。

2)、guest将本方标签数据y加密为[y]传给参与方host；guest将特征取值从小到大进行排序，并去掉其中未定义或不可表示的值(NaN值)；之后guest统计每个取值对应的正负样本的统计量，然后累积求和，并求出正负样本各自的占比，正负样本占比做差取绝对值得到差值列(gap列)，差值列中最大差值gap即为发起方guest的预设用户特征对应的目标样本差值KS。

3)、host接收加密后的标签数据[y],将本方特征取值从小到大进行排序并去掉其中未定义或不可表示的值(NaN值)，按照步骤2)中的方法计算本方的正样本的统计量(good_num)和负样本的统计量(bad_num)，并进行加密得到加密后的[bad_num，good_num]列，然后发送给guest。

4)、发起方guest接收[bad_num，good_num]并解密,计算负样本占比bad_rate和正样本占比good_rate,再进行累积求和得到新的bad_rate_cum和good_rate_cum；之后计算两列之差得到差值列即gap列，然后取差值列中最大的差值即为参与方预设用户特征对应的目标样本差值KS，并将该目标样本差值KS返回给host。

5)host接收KS值；guest与host输出各自的KS值和KS是否大于给定预设KS阈值的结果。该预设KS阈值可以是指预先设置的目标样本差值的临界值，通常来说，KS大于0.01即表示特征对于好坏样本有一定的区分度。本发明实施例对于预设KS阈值的具体数值不作限定。

示例性地，图3示出了本发明实施例的一种离散型变量的目标样本差值计算的流程图。离散型变量可以是指通常以整数位取值的预设用户特征，例如房产数量等。如图3所示出的，针对离散型变量的目标样本差值的计算过程与针对连续型和类别型变量的计算过程仅仅在差值列(gap列)的具体计算方式上不相同，即上述步骤4)中的计算过程，其余交互过程与上述步骤1)、2)、4)、5)均相同，以下仅介绍针对针对离散型变量的目标样本差值的计算过程4’)，其余步骤可参照上述步骤。

步骤4')、guest接收[bad_num，good_num]并解密计算得到负样本占比bad_rate和正样本占比good_rate,根据bad_rate进行升序排列，然后再累积求和得到新的bad_rate_cum和good_rate_cum，然后作差得到差值列gap列，然后取差值列中最大的差值即为参与方预设用户特征对应的目标样本差值KS，并将该目标样本差值KS返回给host。

可选的，本发明实施例中，所述至少一种目标评价参数值包括目标信息价值。相应的，步骤102具体可以包括以下步骤S31至步骤S33：

步骤S31、基于预设分箱方式对所述预设用户特征进行分箱处理，确定各个分箱以及所述各个分箱对应的分箱点。

本发明实施例中，目标信息价值IV可以用于描述预设用户特征的对于好坏样本的区分能力。IV值越高，表明预设用户特征对于好坏样本的区分能力或者用户资质好坏的区分能力越高。通常IV值大于0.02时表明该预设用户特征具备一定的区分能力，可以用作后续的模型训练。当然，也可以尽量选取IV值更高的预设用户特征，以进一步提高最终选取出的目标用户特征对于用户资质好坏的区分能力。IV值可以基于证据权重(Weight OfEvidence，WOE)进行计算。在计算证据权重值WOE和目标信息价值IV时，需要首先对预设用户特征进行分箱处理。预设分箱方式可以是指预先设置的针对用户预设特征的分组处理方式。分箱点可以是指分箱的切点。

具体的，在联邦学习过程中，分箱操作可以是对连续值属性进行分箱操作即离散化，并且对于取值较多的离散变量也可进行分箱操作。分箱后的特征对异常数据有更好的鲁棒性，避免异常数据对模型训练的负面干扰。同时分箱操作也可以将变量转换到相似的尺度上，方便进行数据处理。预设分箱方式可以是指卡方分箱、决策树分箱等，具体可以基于实际需求进行选择，本发明实施例对此不作限定。

步骤S32、通过所述参与方计算各个分箱内的正负样本数，并将所述正负样本数发送至所述发起方。

本发明实施例中，正负样本数可以是指各个分箱中正样本的总数量和负样本的总数量。

本步骤中，在将预设用户特征进行分箱处理得到各个分箱之后，参与方可以基于标签数据确定各个分箱中正负样本各自的总数量，后续可以将该正负样本数加密后发送至发起方以使得发起方可以基于该正负样本数计算得到目标信息价值。

步骤S33、所述发起方基于各个分箱对应的所述正负样本数，计算得到所述目标信息价值。

本发明实施例中，发起方在接收到各个参与方发送的正负样本数之后，可以基于预设计算公式计算目标信息价值，具体预设计算公式可以结合实际场景和需求进行灵活设置，本发明实施例对此不作具体限定。

本发明实施例中，基于预设分箱方式对预设用户特征进行分箱处理，确定各个分箱以及各个分箱对应的分箱点；通过参与方计算各个分箱内的正负样本数，并将正负样本数发送至发起方；发起方基于各个分箱对应的正负样本数，计算得到目标信息价值。这样，通过计算预设用户特征的特征列对应的目标信息价值，能够准确反映预设用户特征区分能力，为后续特征选择提供了准确的依据。

示例性地，图4示出了发明实施例的一种卡方分箱的流程示意图。卡方分箱可以是一种基于卡方检验的分箱方法，在统计指标上选择卡方统计量(Chi-Square)进行判别，分箱的基本思想是判断相邻的两个区间是否有分布差异，基于卡方统计量的结果进行自下而上的合并，直到满足分箱的限制条件为止。具体的，该卡方分箱具体可以包括以下步骤(1)至步骤(5)：

步骤(1)、发起方Guest生成私钥priv_key和公钥pub_key，并分享公钥pub_key给参与方host；之后发起方先进行本方的等频分箱，再进行卡方分箱，不断合并卡方值最小的相邻两个分箱直到分箱数小于等于预设的最小分箱数，得到本方的分箱结果；参与方host接受pub_key，进行等频分箱。

步骤(2)、发起方Guest加密本方的标签数据对应的标签列[label]并传给host，host接收[label],计算每个等频分箱对应的总样本数和坏样本数bin_count和[bin_bad_count],反传给guest。

步骤(3)、发起方Guest解密[bin_bad_count]得到bin_bad_count，不断合并卡方值最小的相邻两个分箱数，直到分箱数小于等于预设的最小分箱数时，停止分箱并将分箱节点对应的index序列，传给host。

步骤(4)、参与方host接受index序列，并根据index计算最终的卡方分箱点。

步骤(5)、发起方guest与参与方host各自输出分箱结果。

示例性地，图5示出了本发明实施例的一种决策树分箱的流程示意图。决策树分箱可以是一种用离散化的变量通过树模型来拟合目标变量的分箱方式。例如直接使用cart决策树，然后将内部节点的阈值作为分箱的切点。该cart决策树是一种二叉树，每次仅进行二元分类，对于连续性变量，方法是依次计算相邻两元素值的中位数，将数据集一分为二，计算该点作为切割点时的基尼值较分割前的基尼值下降程度，每次切分时，选择基尼下降程度最大的点为最优切分点，再将切分后的数据集按同样原则切分，直至终止条件为止。

具体的，该决策树分箱过程具体可以包括以下步骤(6)至步骤(10)：

步骤(6)、发起方Guest生成private_key和pub_key，分享pub_key给host；先进行本方的等频分箱，根据分箱点计算待划分点median_list，然后计算每个待划分点的gini_gain选取最佳划分点，直到终止条件，输出分箱结果；参与方host接受pub_key,进行等频分箱并计算待划分点。

步骤(7)、Guest加密本方的标签数据得到标签列[label]并传给host，参与方host接受[label]，计算待划分点对应的信息即：

split_info＝split_index:[left_bin_count，right_bin_count，[left_bin_bad_count,right_bin_bad_count]],然后将该待划分点对应的信息反传给发起方guest。

步骤(8)、发起方guest接受所有待划分点的信息split_info，并解密[left_bin_bad_count]和[right_bin_bad_count]得到left_bin_bad_count和right_bin_bad_count，然后计算每个划分点的基尼增益gini_gain，选取基尼值下降程度最大的划分点作为最优的划分点split_index传给host。

步骤(9)、host并根据split_index计算对应的划分点的值split_value,并根据split_value进行数据划分，如果左右叶子节点样本数小于阈值，则停止迭代，否则重新计算待划分节点进行计算。

步骤(10)、当host方结束计算，输出分箱结果。

需要注意的是，以上各个步骤的序号仅仅是区分步骤的不同，并非是限定步骤的先后顺序，具体执行顺序可以基于实际需求进行灵活调整。卡方分箱和决策树分箱作为两种原理不同的分箱方式，在计算目标信息价值时均可以基于实际需求采用，当然也可以采用其他的分箱方式，本发明实施例对此不作限定。

示例性地，图6示出了本发明实施例的一种目标信息价值的计算流程图。如图6所示出的，该目标信息价值即IV值的具体计算过程可以包括如下步骤(11)至步骤(13)：

步骤(11)、发起方guest加密label得到en_label也即[label]发送给参与方host；参与方host先进行分箱，得到每个分箱对应的分箱点，根据en_label，计算每个箱内的好坏样本值en_good_num和en_bad_num，并将综合结果en_good_array和en_bad_arrray返回给guest。

步骤(12)、发起方guest接收参与方host方分箱的en_good_array和en_bad_arrray进行解密得到good_array和bad_array；然后根据

woe＝ln((bad_num/bad_all)/(good_num/good_all))

iv＝((bad_num/bad_all)-(good_num/good_all))*woe

计算每个分箱的woe值和iv值；预设用户特征的目标信息价值即总IV值是所有分箱iv值的总和，IV＝Σiv；发起方将每个分箱的woe值和特征总IV值返回给host。

步骤(13)、host接收woe和IV值，并输出分箱的分裂点[split_points,woe]和总IV值；guest可输出host方分箱对应的好坏样本数量[good_num.bad_num，woe]和总IV值。

可选的，本发明实施例中，所述目标评价参数值包括目标稳定性指标值。相应的，步骤102具体可以包括以下步骤S41至步骤S42：

步骤S41、将本地的所述预设用户特征划分为训练集和验证集。

本发明实施例中，目标稳定性指标PSI值可以用于衡量预设用户特征的稳定性，通常PSI值越小说明预设用户特征越稳定。训练集可以是指用于模型训练的预设用户特征的集合。验证集可以是指用于模型验证的预设用户特征的集合，也可以称作测试集。

本步骤中，在计算目标稳定性指标值时，参与方和发起方可以直接在本地进行计算，无需联邦。具体的，可以由联邦学习系统中的各方将本地的预设用户特征划分为训练集和验证集，后续可以基于预设计算方式来计算各个预设用户特征对应的目标稳定性指标值。

步骤S42、基于预设稳定性计算方式，计算所述训练集和验证集中的各个预设用户特征对应的目标稳定性指标值。

本发明实施例中，预设稳定性计算方式可以是指预先设置的稳定性的计算公式。例如，该预设稳定性计算方式可以为：

PSI＝Σ(train_bin_rate-test_bin_rate)*log(train_bin_rate/test_bin_rate)

其中，bin_rate为分箱占比，具体可以是指按照相同分箱区间，对实际分布统计各分箱内的样本占比。train_bin_rate为训练集的分箱占比，test_bin_rate为验证集的分箱占比。具体的，本步骤中，在划分验证集和训练集之后，可以基于预设的分箱占比，确定出各个分箱中训练集的样本占比和验证集的样本占比，进而可以代入上述公式得到各个预设用户特征对应的PSI值。

需要注意的是，预设稳定性计算方式也可以采用其他公式，具体可以依据实际需求进行确定，本发明实施例对此不作限定。

本发明实施例中，将本地的预设用户特征划分为训练集和验证集；基于预设稳定性计算方式，计算训练集和验证集中的各个预设用户特征对应的目标稳定性指标值。这样，能够基于目标稳定性指标值来衡量特征的稳定性，进而能够为特征的选择提供准确依据。

可选的，本发明实施例中，在目标评价参数值包括目标样本差值、目标信息价值以及目标稳定性指标值的情况下，步骤103可以包括以下步骤1031：

步骤1031、计算所述目标样本差值、所述目标信息价值的乘积，并将所述乘积与所述目标稳定性指标值的比值作为所述目标评价分值。

本发明实施例中，目标样本差值KS值、目标信息价值IV值均与预设用户特征对于用户资质好坏的区分能力正相关，目标稳定性指标值PSI与预设用户特征的稳定性负相关，结合这三个参数，可以基于如下公式计算目标评价分值Score：

Score＝(KS*IV)/PSI

这样，后续在基于该目标评价分值进行特征选择时，可以选取目标评价分值最高的前N个预设用户特征或者目标评价分值大于预设目标评价分值阈值的预设用户特征作为目标用户特征。这样，目标评价分值越高，表明预设用户特征对于用户资质好坏的区分能力和稳定性均较高，可以选取出来作为最终参与模型训练的目标用户特征。本发明实施例通过计算目标评价分值进行特征的筛选，实现了针对用户特征的合理筛选，提高了后续模型训练的精准度，进而也提高了最终训练出的联邦评分卡针对客户的区分能力。

可选的，本发明实施例中，该联邦学习特征选择方法还可以包括以下S51至步骤S53：

步骤S51、通过所述发起方获取本地预设用户特征对应的相关性矩阵以及各个所述参与方的预设用户特征对应的相关性矩阵。

本发明实施例中，相关性矩阵可以是指预设用户特征对应的表达各个特征列之间的相关性的矩阵。基于相关性矩阵可以计算出任意两个预设用户特征之间的目标相关性系数。

步骤S52、基于所述发起方以及所述参与方的相关性矩阵，通过所述发起方确定所述预设用户特征两两之间的目标相关性系数。

本发明实施例中，目标相关性系数可以用于衡量两个预设用户特征之间的相关性。两个预设用户特征之间的目标相关性系数越高，则两个预设用户特征的相关性越高，两个预设用户特征越相近。

本步骤中，发起方在获取到本地以及各个参与方的预设用户特征对应的相关性矩阵之后，可以计算两两特征之间的目标相关性系数，后续可以基于该目标相关性系数对预设用户特征进行筛选。

步骤S53、在两个预设用户特征对应的所述目标相关性系数大于预设相关性系数阈值的情况下，依据预设删除规则删除其中一个预设用户特征。

本发明实施例中，预设相关性系数阈值可以是指预先设置的相关性系数的临界值。两个预设用户特征之间的目标相关性系数大于预设相关性系数阈值时，表明两个预设用户特征相关性较高，特征较为相近。预设相关性系数阈值具体数值可以为0.7、0.8等，可以基于实际需求进行设置，本发明实施例对此不作限定。

预设删除规则可以是指预先设置的、对于两个相关性较高的预设用户特征的筛选规则。该预设删除规则可以是指依据IV值进行筛选，即删除相关性较高的两个预设用户特征中IV值低的预设用户特征，保留IV值高的预设用户特征。这样，能够在避免特征冗余的同时保证选取的预设用户特征具备一定的区分能力。

需要说明的是，基于目标相关性系数对用户特征的筛选过程，可以是在得到预设用户特征之后，在基于目标评价分值选取出目标用户特征之前进行，作为一个预筛选过程来避免特征冗余，一定程度上可以减少目标评价参数值的计算量；基于目标相关性系数对用户特征的筛选过程，也可以是在基于目标评价分值选取出目标用户特征之后进行，作为一个二次筛选过程，进一步提高特征提取的合理性。具体筛选节点可以基于实际需求进行确定，本发明实施例对此不作限定。

本发明实施例中，通过发起方获取本地预设用户特征对应的相关性矩阵以及各个参与方的预设用户特征对应的相关性矩阵；基于相关性矩阵，通过发起方确定预设用户特征两两之间的目标相关性系数；在两个预设用户特征对应的目标相关性系数大于预设相关性系数阈值的情况下，依据预设删除规则删除其中一个预设用户特征。这样，通过相关性矩阵来计算目标相关性系数，基于该目标相关性系数对预设用户特征进行初步筛选，避免特征冗余的同时保证选取出的预设用户特征的区分能力，进一步提高用户特征选择的合理性和科学性。

示例性地，联邦学习系统可以基于以下步骤(14)至步骤(18)计算目标相关性系数并基于该目标相关性系数进行特征过滤：假设一个中间方C，和参与方A(guest)，B(host)

步骤(14)、利用多方安全计算(Secure Multi-party Computation，MPC)的计算方式，发起方得到所有参与方的预设用户特征的相关性矩阵。

本步骤中，多方安全计算MPC可以是指在无可信第三方的情况下，多个参与方协同计算一个约定的函数，并且保证每一方仅获取自己的计算结果，无法通过计算过程中的交互数据推测出其他任意一方的输入和输出数据。基于MPC的计算方式，能够实现隐私数据的共享。

步骤(15)、各个参与方将本方预设用户特征的IV值传给发起方，发起方接受各个参与方的IV值并开始筛选。

步骤(16)、发起方根据相关性矩阵进行两两特征的目标相关性系数的计算，如果目标相关性系数高于预设相关性系数阈值，则删除IV值低的预设用户特征，保留IV值高的预设用户特征，直到所有的特征筛选完毕。

步骤(17)、发起方将筛选后的各个参与方的特征返回给各个参与方，各个参与方得到筛选后的新的预设用户特征。

步骤(18)、发起方和各个参与方分别输出本方筛选后的预设用户特征。

这样，通过上述步骤(14)至步骤(18)，在预设用户特征两两之间目标相关性系数较高，即相关性较高的情况下，可以删除区分能力较低的预设用户特征，保留区分能力较高的预设用户特征，在避免特征冗余的前提下使得选取的用户特征区分能力更强，提高了特征选择的合理性，进而能够提高后续模型训练的准确度，提高最终生成的联邦评分卡模型的区分能力。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图7，示出了本发明实施例的一种联邦学习特征选择装置的结构框图。具体的，该联邦学习特征选择装置70可以包括如下模块：

第一获取模块701，用于通过所述参与方以及所述发起方分别获取本地的预设用户特征；

计算模块702，用于根据所述预设用户特征，计算所述预设用户特征对应的目标评价参数值；

第一确定模块703，用于基于所述目标评价参数值，确定每种所述预设用户特征对应的目标评价分值；

选取模块704，用于根据所述目标评价分值，选取所述目标评价分值满足预设条件的特征作为目标用户特征。

综上所述，本发明实施例提供的一种联邦学习特征选择装置，通过参与方以及发起方分别获取本地的预设用户特征；根据预设用户特征，预设用户特征对应的目标评价参数值；基于该目标评价参数值，确定每种预设用户特征对应的目标评价分值；根据目标评价分值，选取目标评价分值满足预设条件的特征作为目标用户特征。本发明实施例中通过基于目标评价参数值来计算每种预设用户特征对应的目标评价分值，后续再根据该目标评价分值选择目标用户特征用于进行模型训练。这样，提高了联邦学习建模时特征选取的合理性，避免了现有技术中线下沟通、随机选取用户特征导致的特征选取不合理的情况。

可选的，所述目标评价参数值包括目标样本差值；所述计算模块702，具体用于：

确定本地预设用户特征的特征取值以及标签数据；

基于所述备选样本差值，确定所述目标样本差值。

可选的，所述目标评价参数值包括目标信息价值；

所述计算模块702，具体用于：

可选的，所述目标评价参数值包括目标稳定性指标值；

所述计算模块702，具体用于：

将本地的所述预设用户特征划分为训练集和验证集；

可选的，在所述目标评价参数值包括目标样本差值、目标信息价值以及目标稳定性指标值的情况下，所述第一确定模块703，具体用于：

可选的，所述装置70还包括：

可选的，本发明实施例公开了一种联邦学习特征选择系统，应用于联邦学习系统，所述联邦学习系统包括发起方和参与方，其中：

所述参与方以及所述发起方分别获取本地的预设用户特征；

该联邦学习特征选择系统执行时能够实现上述联邦学习特征选择方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

可选的，本发明实施例还提供了一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述联邦学习特征选择方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

可选的，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现上述联邦学习特征选择方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域技术人员易于想到的是：上述各个实施例的任意组合应用都是可行的，故上述各个实施例之间的任意组合都是本发明的实施方案，但是由于篇幅限制，本说明书在此就不一一详述了。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种联邦学习特征选择方法，其特征在于，应用于联邦学习系统，所述联邦学习系统包括发起方和参与方，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述目标评价参数值包括目标样本差值；

所述计算所述预设用户特征对应的目标评价参数值，包括：

确定本地预设用户特征的特征取值以及标签数据；

基于所述备选样本差值，确定所述目标样本差值。

3.根据权利要求1所述的方法，其特征在于，所述目标评价参数值包括目标信息价值；

所述计算所述预设用户特征对应的目标评价参数值，包括：

通过所述发起方基于各个分箱对应的所述正负样本数，计算得到所述目标信息价值。

4.根据权利要求1所述的方法，其特征在于，所述目标评价参数值包括目标稳定性指标值；

所述计算所述预设用户特征对应的目标评价参数值，包括：

将本地的所述预设用户特征划分为训练集和验证集；

5.根据权利要求1-4任一项所述的方法，其特征在于，在所述目标评价参数值包括目标样本差值、目标信息价值以及目标稳定性指标值的情况下，所述基于所述目标评价参数值，确定每种所述预设用户特征对应的目标评价分值，包括：

6.根据权利要求1所述的方法，其特征在于，在所述通过所述参与方以及所述发起方分别获取本地的预设用户特征之后，所述方法还包括：

7.一种联邦学习特征选择装置，其特征在于，应用于联邦学习系统，所述联邦学习系统包括发起方和参与方，所述装置包括：

第一获取模块，用于通过所述参与方以及所述发起方分别获取本地的预设用户特征；

第一确定模块，用于基于所述目标评价参数值，确定每种所述预设用户特征对应的目标评价分值；

8.一种联邦学习特征选择系统，其特征在于，应用于联邦学习系统，所述联邦学习系统包括发起方和参与方，其中：

所述参与方以及所述发起方分别获取本地的预设用户特征；

9.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至6任一项所述的联邦学习特征选择方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的联邦学习特征选择方法。