CN115049070A

CN115049070A - 联邦特征工程数据的筛选方法及装置、设备及存储介质

Info

Publication number: CN115049070A
Application number: CN202210634511.3A
Authority: CN
Inventors: 范昊; 杨恺; 郑邦祺; 黄志翔
Original assignee: Jingdong Technology Holding Co Ltd
Current assignee: Jingdong Technology Holding Co Ltd
Priority date: 2022-06-06
Filing date: 2022-06-06
Publication date: 2022-09-13

Abstract

本公开涉及隐私计算技术领域，尤其涉及联邦学习技术，具体公开一种联邦特征工程数据的筛选方法及装置、设备及存储介质，所述方法包括：向数据端发送与数据端的样本对齐的样本ID和同态加密的指定标签；接收数据端发送的各分箱的密文求和结果、分箱编号和样本总数量；对接收到的各分箱的密文求和结果解密，得到数据端的各分箱的解密结果；按照分箱编号，根据各分箱的解密结果和样本总数量确定数据端的分析结果，以根据分析结果确定是否选择按照当前用于分箱的特征进行分箱的数据作为联邦建模的数据，向数据端发送的数据仅包括一种样本标签，通过获取数据端各分箱的样本总数量来计算各分箱的分析结果，能够大幅度提高联邦特征工程的效率。

Description

联邦特征工程数据的筛选方法及装置、设备及存储介质

技术领域

本公开涉及隐私计算技术领域，尤其涉及联邦学习技术，具体公开一种联邦特征工程数据的筛选方法及装置、设备及存储介质。

背景技术

随着人工智能等技术的快速发展，为了保障用户隐私数据不被泄露，有相关法律规定，用户数据仅能被持有其的机构自身使用，因而，导致了不同机构之间不能流通和共享数据的问题，为了解决这一问题，提供基于差分隐私、同态加密等多项保密技术，致力于保护用户数据隐私的前提下实现多方的数据联合建模，从而发挥社会数据资源价值，加强数据有序共享的联邦学习方法。由于联邦学习过程中外部数据源的质量难以控制，有必要在建模之前也通过联邦的方式进行特征工程，对外部数据源的特征进行筛选和评估。

以金融风控场景下的特征工程为例，常见的特征分析方式是计算特征和标签之间的关联度，即通过计算指标，评估特征的样本区别效果和稳定性等，然而，这些指标往往都需要依赖样本的标签才能得到。例如，在联邦特征工程计算过程中，假设业务方和数据方样本对齐后的样本总数量为N，则业务方需要分别对N个标签值y和N个1-y的值进行加法同态加密得到密文，然后将规模为2N的密文发送给数据方，后续的数据方分箱求和等流程也是2N的量级。此外，在实际业务中数据集的规模往往是非常大的，常常是数十万甚至百万的量级，因此，对其进行加密、求和、解密等操作中会极大的影响联邦特征工程的效率，同时也提高联邦建模参与方的通信开销、计算资源消耗等。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开的实施例提供了一种联邦特征工程数据的筛选方法及装置、设备及存储介质。

第一方面，本公开的实施例提供了一种联邦特征工程数据的筛选方法，包括：

向数据端发送与所述数据端的样本对齐的样本ID和同态加密的指定标签，供所述数据端根据所述同态加密的指定标签确定各分箱的密文求和结果；

接收数据端发送的各分箱的密文求和结果、分箱编号和样本总数量；

对接收到的各分箱的密文求和结果解密，得到所述数据端的各分箱的解密结果；

按照分箱编号，根据各分箱的解密结果和样本总数量确定所述数据端的分析结果，以根据所述分析结果确定是否选择按照当前用于分箱的特征进行分箱的数据作为联邦建模的数据，其中，各分箱的分析结果用于表示在当前用于分箱的特征参数与业务端的正样本标签之间的关联度。

在一种可能的实施方式中，所述解密结果包括：指定标签对应的样本数量，所述根据各分箱的解密结果和样本总数量确定所述数据端的分析结果，包括：

基于所述数据端的各分箱的指定标签对应的样本数量和样本总数量计算所述数据端的每个分箱的正样本总数和负样本总数、所有分箱的正样本总数和负样本总数，其中，所述指定标签为正样本标签或负样本标签；

根据所述数据端的每个分箱的正样本总数和负样本总数、所有分箱的正样本总数和负样本总数计算所述数据端的每个分箱的证据权重；

根据所述数据端的每个分箱的证据权重计算所述数据端的每个分箱的信息量，并求和得到所述数据端的总信息量作为分析结果。

在一种可能的实施方式中，所述指定标签为正样本标签，所述基于所述数据端的各分箱的指定标签对应的样本数量和样本总数量计算所述数据端的每个分箱的正样本总数和负样本总数、所有分箱的正样本总数和负样本总数，包括：

将所述数据端的各分箱的指定标签对应的样本数量作为所述数据端的各分箱的正样本总数；

将所述数据端的各分箱的样本总数量与正样本总数之间的差值作为所述数据端的各分箱的负样本总数；

将所述数据端的各分箱的正样本总数的加和值作为所有分箱的正样本总数；

将所述数据端的各分箱的负样本总数的加和值作为所有分箱的负样本总数。

在一种可能的实施方式中，所述指定标签为负样本标签，所述基于所述数据端的各分箱的指定标签对应的样本数量和样本总数量计算所述数据端的每个分箱的正样本总数和负样本总数、所有分箱的正样本总数和负样本总数，包括：

将所述数据端的各分箱的指定标签对应的样本数量作为所述数据端的各分箱的负样本总数；

将所述数据端的各分箱的样本总数量与负样本总数之间的差值作为所述数据端的各分箱的正样本总数；

在一种可能的实施方式中，所述根据各分箱的解密结果和样本总数量确定所述数据端的分析结果，还包括：

根据所述数据端的每个分箱的正样本总数和负样本总数，计算所述数据端数据的KS值作为分析结果。

在一种可能的实施方式中，通过以下表达式，根据所述数据端的每个分箱的正样本总数和负样本总数，计算所述数据端数据的KS值：

KS＝max{|cum_i(Bad)-cum_i(Good)|}

其中，cum_i(Bad)为每个分箱区间i的累计负样本数量，cum_i(Good)为每个分箱区间i 的累计正样本数量。

第二方面，本公开的实施例提供了一种联邦特征工程数据的筛选方法，应用于数据端，所述方法包括：

接收业务端发送的与所述数据端的样本对齐的样本ID和同态加密的指定标签，其中，所述指定标签为正样本标签或负样本标签；

根据预设的特征参数对样本对齐的样本ID进行分箱；

基于每个分箱中样本ID对应的同态加密的指定标签计算各分箱的密文求和结果；

将各分箱的分箱编号、密文求和结果和样本总数量发送给所述业务端。

在一种可能的实施方式中，所述预设的特征参数通过以下步骤确定：

计算所有样本数据的每一种待选特征参数的样本覆盖率和/或方差值；

删除样本覆盖率小于预设覆盖率阈值的特征参数，和/或，方差值小于预设方差值阈值的特征参数；

对于剩余的待选特征参数中的任意两种，计算所述两种待选特征参数之间的皮尔逊相关系数，并在皮尔逊相关系数大于或等于预设系数阈值时，删除所述两种待选特征参数其中之一，直至不再出现皮尔逊相关系数大于或等于预设系数阈值，将最后剩余的待选特征参数作为预设的特征参数。

第三方面，本公开的实施例提供了一种联邦特征工程数据的筛选装置，应用于业务端，所述装置包括：

发送模块，其用于向数据端发送与所述数据端的样本对齐的样本ID和同态加密的正样本标签，供所述数据端根据所述同态加密的正样本标签确定各分箱的密文求和结果；

接收模块，其用于接收数据端发送的各分箱的密文求和结果、分箱编号和样本总数量；

解密模块，其用于对接收到的各分箱的密文求和结果解密，得到所述数据端的各分箱的解密结果；

确定模块，其用于按照分箱编号，其用于根据各分箱的解密结果和样本总数量确定所述数据端的分析结果，以根据所述分析结果确定是否选择按照当前用于分箱的特征进行分箱的数据作为联邦建模的数据，其中，各分箱的分析结果用于表示在当前用于分箱的特征参数与业务端的正样本标签之间的关联度。

第四方面，本公开的实施例提供了一种联邦特征工程数据的筛选装置，应用于数据端，所述装置包括：

接收模块，其用于接收业务端发送的与所述数据端的样本对齐的样本ID和同态加密的指定标签，其中，所述指定标签为正样本标签或负样本标签；

分箱模块，其用于根据预设的特征参数对样本对齐的样本ID进行分箱；

计算模块，其用于基于每个分箱中样本ID对应的同态加密的指定标签计算各分箱的密文求和结果；

发送模块，其用于将各分箱的分箱编号、密文求和结果和样本总数量发送给所述业务端。

第五方面，本公开的实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口和存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述的联邦特征工程数据的筛选方法。

第六方面，本公开的实施例提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述的联邦特征工程数据的筛选方法。

本公开实施例提供的上述技术方案与现有技术相比至少具有如下优点的部分或全部：

本公开实施例所述的联邦特征工程数据的筛选方法，向数据端发送与所述数据端的样本对齐的样本ID和同态加密的指定标签，供所述数据端根据所述同态加密的指定标签确定各分箱的密文求和结果；接收数据端发送的各分箱的密文求和结果、分箱编号和样本总数量；对接收到的各分箱的密文求和结果解密，得到所述数据端的各分箱的解密结果；按照分箱编号，根据各分箱的解密结果和样本总数量确定所述数据端的分析结果，以根据所述分析结果确定是否选择按照当前用于分箱的特征进行分箱的数据作为联邦建模的数据，其中，各分箱的分析结果用于表示在当前用于分箱的特征参数与业务端的正样本标签之间的关联度，向数据端发送的数据仅包括一种样本标签，而是通过获取数据端各分箱的样本总数量来达到计算各分箱的分析结果的目的，至少减少一半发送、接收、加密和解密的数据量，能够大幅度提高联邦特征工程的效率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出了应用本公开实施例的联邦特征工程数据的筛选方法或装置的示例性系统架构；

图2示意性示出了根据本公开实施例的联邦特征工程数据的筛选方法的流程示意图；

图3示意性示出了根据本公开另一实施例的联邦特征工程数据的筛选方法的流程示意图；

图4示意性示出了根据本公开实施例的联邦特征工程数据的筛选装置的结构框图；

图5示意性示出了根据本公开另一实施例的联邦特征工程数据的筛选装置的结构框图；

图6示意性示出了根据本公开实施例的联邦特征工程数据的筛选系统的交互流程示意图；

图7示意性示出了根据本公开实施例的联邦特征工程数据的筛选系统的工作流程示意图；以及

图8示意性示出了根据本公开实施例的电子设备的结构框图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

图1示出了可以应用本公开实施例的联邦特征工程数据的筛选方法或装置的示例性系统架构100。

如图1所示，系统架构100可以包括数据端101、102、103，网络104和业务端105。网络104用以在数据端101、102、103和业务端105之间提供通信链路的介质。网络104 可以包括各种连接类型，例如有线、无线通信链路等等。

业务端105为联邦学习的业务方，数据端101、102、103为建模参与方，理论上作为业务方的业务端105拥有标签变量(因变量)和部分自变量，其他各参与方拥有其他自变量。交互过程经常涉及业务端105加密后的因变量(或者自变量)与参与方进行交互。

当多个数据拥有方(例如企业、政府等机构)想要联合他们各自的数据训练机器学习模型时，保证建立统一模型的同时，各方拥有的原数据不出本地。

本公开的应用场景是联邦学习。联邦学习要求每个平台所包含的样本ID基本相同，而特征不同。业务端有标签，数据端没有标签。

那么在联邦特征工程中，数据端只有特征没有标签，业务端虽然同时拥有特征和标签，但业务端的特征却同样缺少数据端的部分特征，因此需要通过加密条件下的数据交互来实现。

需要说明的是，业务端可以是硬件，也可以是软件。当业务端为硬件时，可以实现成多个业务端组成的分布式业务端集群，也可以实现成单个业务端。当业务端为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本申请的实施例所提供的联邦特征工程数据的筛选方法可以由数据端 101、102、103执行，也可以由业务端105执行。相应地，用于联邦特征工程数据的筛选装置可以设置于数据端101、102、103中，也可以设置于业务端105中。在此不做具体限定。

应该理解，图1中的数据端、网络和业务端的数目仅仅是示意性的。根据实现需要，可以具有任意数目的数据端、网络和业务端。

参见图2，本公开的实施例提供了一种应用于业务端的联邦特征工程数据的筛选方法，包括以下步骤：

S21，向数据端发送与所述数据端的样本对齐的样本ID和同态加密的指定标签，供所述数据端根据所述同态加密的指定标签确定各分箱的密文求和结果；

在实际应用中，样本对齐通过以下过程实现：在进行联邦特征工程之前，需要求出包括业务端和数据端的参与方用户群体的交集部分，即基于RSA加密(RSA加密是一种非对称加密，可以在不直接传递密钥的情况下，完成解密)等机制，在联邦建模参与方不公开各自用户名单的前提下找到参与方共同的用户集合，同时并不会暴露参与方私有的即不互相重叠的用户。

在实际应用中，业务端会将对齐后每一个样本的指定标签y_n基于加法同态加密进行加密后得到<y_n>，然后将样本主键ID、该ID对应的标签密文值<y_n>一起传输给数据端，假设样本的标签为2分类标签，在加密之前会将标签映射为0、1两种，并设定标签为1代表好用户，标签为0代表坏用户，假设对齐后的样本总量为N，则会加密N量级的标签并传输2N量级的数据。

S22，接收数据端发送的各分箱的密文求和结果、分箱编号和样本总数量；

在实际应用中，业务端的数据为：样本ID为A，指定标签为是；样本ID为B，指定标签为否；样本ID为C，指定标签为是；样本ID为D，指定标签为否；指定标签为正样本标签，指定标签中的是映射为1，同态加密后的值为255；指定标签中的否映射为0，同态加密后的值为256。数据端根据目标特征将样本ID为A、B、C、D的样本分箱为A、C和B、D，其中，包括A、B的分箱1的密文求和结果为255+255，样本总数量为2；包括B、D的分箱2的密文求和结果为256+256，样本总数量为2。

S23，对接收到的各分箱的密文求和结果解密，得到所述数据端的各分箱的解密结果；

在实际应用中，对包括A、B的分箱1的密文求和结果为255+255进行解密，得到分箱1 中的解密结果为1+1，正样本数量(标签为是的样本数量)为2；对包括B、D的分箱2的密文求和结果为256+256进行解密，得到分箱2中的解密结果为0+0，正样本数量(标签为是的样本数量)为0。

S24，按照分箱编号，根据各分箱的解密结果和样本总数量确定所述数据端的分析结果，以根据所述分析结果确定是否选择按照当前用于分箱的特征进行分箱的数据作为联邦建模的数据，其中，各分箱的分析结果用于表示在当前用于分箱的特征参数与业务端的正样本标签之间的关联度。

在步骤S24中，所述解密结果包括：指定标签对应的样本数量，所述根据各分箱的解密结果和样本总数量确定所述数据端的分析结果，包括：

当所述数据端的总信息量作为分析结果时，根据所述分析结果确定是否选择按照当前用于分箱的特征进行分箱的数据作为联邦建模的数据，包括：

在预设分箱方式下，将所述数据端的总信息量与第一预设阈值进行对比：

当所述数据端的总信息量小于第一预设阈值时，更改分箱方式，并计算更改后分箱方式对应的总信息量，直到所述数据端的总信息量大于或等于预设阈值为止；

当所述数据端的总信息量大于或等于第一预设阈值时，将所述数据端的总信息量与第二预设阈值进行对比：

当所述数据端的总信息量小于第二预设阈值时，舍弃按照当前用于分箱的特征进行分箱的数据；

当所述数据端的总信息量大于或等于第二预设阈值时，选择按照当前用于分箱的特征进行分箱的数据作为联邦建模的数据。

在实际应用中，当所述指定标签为正样本标签时，所述基于所述数据端的各分箱的指定标签对应的样本数量和样本总数量计算所述数据端的每个分箱的正样本总数和负样本总数、所有分箱的正样本总数和负样本总数，包括：

在实际应用中，当所述指定标签为负样本标签时，所述基于所述数据端的各分箱的指定标签对应的样本数量和样本总数量计算所述数据端的每个分箱的正样本总数和负样本总数、所有分箱的正样本总数和负样本总数，包括：

在步骤S24中，所述根据各分箱的解密结果和样本总数量确定所述数据端的分析结果，还包括：

根据所述数据端的每个分箱的正样本总数和负样本总数，计算所述数据端数据的KS值作为分析结果，其中，通过以下表达式，根据所述数据端的每个分箱的正样本总数和负样本总数，计算所述数据端数据的KS值：

KS＝max{|cum_i(Bad)-cum_i(Good)|}

当所述数据端数据的KS值作为分析结果时，根据所述分析结果确定是否选择按照当前用于分箱的特征进行分箱的数据作为联邦建模的数据，包括：

在预设分箱方式下，将所述数据端的KS值与第三预设阈值进行对比：

当所述数据端的总信息量小于第三预设阈值时，更改分箱方式，并计算更改后分箱方式对应的总信息量，直到所述数据端的KS值大于或等于预设阈值为止；

当所述数据端的总信息量大于或等于第三预设阈值时，将所述数据端的KS值与第四预设阈值进行对比：

当所述数据端的KS值小于第四预设阈值时，舍弃按照当前用于分箱的特征进行分箱的数据；

当所述数据端的KS值大于或等于第四预设阈值时，选择按照当前用于分箱的特征进行分箱的数据作为联邦建模的数据，或者，将当前用于分箱的特征与其他特征对应的KS值进行对比，选出大于或等于第五预设阈值的KS值对应特征的分箱数据。

参见图3，本公开的实施例提供了一种应用于数据端的联邦特征工程数据的筛选方法，所述方法包括：

S31，接收业务端发送的与所述数据端的样本对齐的样本ID和同态加密的指定标签，其中，所述指定标签为正样本标签或负样本标签；

S32，根据预设的特征参数对样本对齐的样本ID进行分箱；

在实际应用中，所述预设的特征参数通过以下步骤确定：

S33，基于每个分箱中样本ID对应的同态加密的指定标签计算各分箱的密文求和结果；

在实际应用中，数据端按照待评估的特征将样本进行分箱，即对于将要分析的特征，数据端按照预设的分箱方法如等频、等距等方式对样本进行分箱，从而将N个样本按照分箱阈值划分为到少数几个不同分组bin_i内，并统计每个分箱内的样本总数sum(bin_i)。在数据端从业务端得到每个样本对应指定标签的密文<y_n>后，也会对每个分箱中密文值进行加法求和，得到每个分箱中的sum(<y_n>)，最后连同分箱编号bin_i、每个分箱内样本总数sum(bin_i)和每个分箱的密态标签求和值sum(<y_n>)同步给业务端。

S34，将各分箱的分箱编号、密文求和结果和样本总数量发送给所述业务端。

参见图4，本公开的实施例提供了一种应用于业务端的联邦特征工程数据的筛选装置，包括：

发送模块41，其用于向数据端发送与所述数据端的样本对齐的样本ID和同态加密的正样本标签，供所述数据端根据所述同态加密的正样本标签确定各分箱的密文求和结果；

接收模块42，其用于接收数据端发送的各分箱的密文求和结果、分箱编号和样本总数量；

解密模块43，其用于对接收到的各分箱的密文求和结果解密，得到所述数据端的各分箱的解密结果；

确定模块44，其用于按照分箱编号，其用于根据各分箱的解密结果和样本总数量确定所述数据端的分析结果，以根据所述分析结果确定是否选择按照当前用于分箱的特征进行分箱的数据作为联邦建模的数据，其中，各分箱的分析结果用于表示在当前用于分箱的特征参数与业务端的正样本标签之间的关联度。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本实施例中，发送模块41、接收模块42、解密模块43和确定模块44中的任意多个可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。发送模块41、接收模块42、解密模块43和确定模块44中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，发送模块41、接收模块42、解密模块43 和确定模块44中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

参见图5，本公开的实施例提供了一种应用于数据端的联邦特征工程数据的筛选装置，包括：

接收模块51，其用于接收业务端发送的与所述数据端的样本对齐的样本ID和同态加密的指定标签，其中，所述指定标签为正样本标签或负样本标签；

分箱模块52，其用于根据预设的特征参数对样本对齐的样本ID进行分箱；

计算模块53，其用于基于每个分箱中样本ID对应的同态加密的指定标签计算各分箱的密文求和结果；

发送模块54，其用于将各分箱的分箱编号、密文求和结果和样本总数量发送给所述业务端。

本实施例中，接收模块51、分箱模块52、计算模块53和发送模块54中的任意多个可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。接收模块51、分箱模块52、计算模块53和发送模块54中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，接收模块51、分箱模块52、计算模块53 和发送模块54中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

如图1所示的包括业务端和数据端的联邦特征工程数据的筛选系统中，业务端与数据端之间的交互过程如图6所示。

本公开实施例提供的方法能够通过降低加解密样本量级实现高效特征评估，其与现有技术中需要将每个样本的标签y和1-y均基于Paillier等同态加密方案加密后发送给数据方进行密态计算相比，只需要对标签y和1-y中的一种进行加密发送即可，从而降低了接近一半的加密、传输等开销，同时并不会降低计算过程的安全性和结果的准确性，最终实现更高效快捷的评估各数据方的特征。

如图1所示的包括业务端和数据端的联邦特征工程数据的筛选系统的工作流程如图7所示，包括：

(1)数据端过滤无效特征

为了避免某些无效特征的存在影响了其它特征的评估效率和效果，有必要在正式进行特征评估之前过滤删除这些无效特征，无效性具体指的是特征对样本的区别度不高，如所有的样本在某个特征下均为空值或者相同值，前者可以通过计算特征的样本覆盖率来判断，后者可以通过计算计算各个特征的方差值来判断，如果一个特征的方差接近于0，即该特征的特征值之间基本上没有差异，那这个特征对于样本的区分并没有什么用。此外，在量化特征自身的有效性外，还需要考虑特征之间的相关性，例如可以通过计算特征之间的皮尔逊相关性来过滤高相关的特征组合，最终只保留一个特征参与后续建模环节。

(2)数据端与业务端进行加密样本对齐

在剔除各参与方提供数据中的无效特征后，在进行联邦特征工程之前需要求出参与方用户群体的交集部分，即基于RSA加密等机制，在联邦建模参与方不公开各自用户名单的前提下找到参与方共同的用户集合，同时并不会暴露参与方私有的即不互相重叠的用户。

(3)业务端加密标签

在联邦建模所有参与方进行样本对齐后，业务端会将对齐后每一个样本的标签y_n基于加法同态加密进行加密后得到<y_n>，然后将样本主键ID、该ID对应的标签密文值<y_n>一起传输给数据端。假设样本的标签为2分类标签，在加密之前会将标签映射为0、1两种，并设定标签为1代表好用户，标签为0代表坏用户，假设对齐后的样本总量为N，则会加密N量级的标签并传输2N量级的数据。

(4)数据端分箱统计

数据端按照待评估的特征将样本进行分箱，即对于将要分析的特征，数据方按照预设的分箱方法如等频、等距等方式对样本进行分箱，从而将N个样本按照分箱阈值划分为到少数几个不同分组bin_i内，并统计每个分箱内的样本总数sum(bin_i)。在数据方基于步骤(3) 从业务方得到每个样本对应标签的密文<y_n>后，也会对每个分箱中密文值进行加法求和，得到每个分箱中的sum(<y_n>)，最后连同分箱编号bin_i、每个分箱内样本总数sum(bin_i)和每个分箱的密态标签求和值sum(<y_n>)同步给业务方。

(5)业务端解密评估

业务方在收到数据方发来的信息后，首先会对密文求和值进行解密，得到每个分箱的 sum(y_n)，其具体含义为第i个分箱中的正样本总数Good_i(步骤(2)假设标签分为1和 0两类，其1代表正样本，0代表负样本)。由于二分类中标签非正即负，因此负样本数量＝总数量-正样本数量，即可通过以下公式计算出每一分箱bin_i的负样数量。

Bad_i＝sum(bin_i)-Good_i

综上，业务方已获得数据方特征对应的每个分箱下的好人数和坏人数，而业务方自身拥有标签数据，针对业务方自身的特征评估只需要在本地计算每个分箱中的Good_T和Bad_T；在得到每个分箱的好坏人数后，即依次计算每个分箱的

以及对各个分箱IV_i值求和得到的

其中，IV 为information value，信息量。

同时，在得到每箱的好坏人数后，即可计算KS＝max{|cum_i(Bad)-cum_i(Good)|}，其中，cum_i(Bad)为每个分箱区间i的累计负样本数量，cum_i(Good)为每个分箱区间i的累计正样本数量，KS((Kolmogorov-Smimov)这个名字来自苏联的两名数学家A.N.Kolmogorov和N.V.Smirnov，通过经验累积分布函数构建)为取这些绝对值的最大值。

本公开实施例提供的方法利用二分类中负样本数量可由总数量和正样本数量的差值求出，通过对标签的一次同态加密来代替现有技术中的两次同态加密，同样能够实现Woe (weight of Evidence，证据权重)等计算，相对于传统联邦建模需要对标签y、1-y分别进行加密求和等操作，本方案计算效率提升可接近50％，因此具有高效性，在传输效率方面，由于本发明中仅需对标签一次同态加密，通信中也仅需传输规模为N的密文，相比于现有方案传输效率有很大的提升，可以减少过多的通信消耗，降低在实际业务中的通信需求。在安全方面，本公开全程使用同态加密对标签进行传输和求和，同时也不需要提高原始方案以外的额外信息，同时并不会降低计算过程的安全性和结果的准确性。

参照图8所示，本公开的实施例提供了一种提供的电子设备，包括处理器1110、通信接口1120、存储器1130和通信总线1140，其中，处理器1110，通信接口1120，存储器 1130通过通信总线1140完成相互间的通信；

存储器1130，用于存放计算机程序；

处理器1110，用于执行存储器1130上所存放的程序时，实现如下所示联邦特征工程数据的筛选方法：

上述的通信总线1140可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线1140可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口1120用于上述电子设备与其他设备之间的通信。

存储器1130可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器1130 还可以是至少一个位于远离前述处理器1110的存储装置。

上述的处理器1110可以是通用处理器，包括中央处理器(Central ProcessingUnit，简称 CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本公开的实施例提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序，上述计算机程序被处理器执行时实现如上所述的联邦特征工程数据的筛选的方法。

该计算机可读存储介质可以是上述实施例中描述的设备/装置中所包含的；也可以是单独存在，而未装配入该设备/装置中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的联邦特征工程数据的筛选的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器 (CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种联邦特征工程数据的筛选方法，其特征在于，应用于业务端，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述解密结果包括：指定标签对应的样本数量，所述根据各分箱的解密结果和样本总数量确定所述数据端的分析结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述指定标签为正样本标签，所述基于所述数据端的各分箱的指定标签对应的样本数量和样本总数量计算所述数据端的每个分箱的正样本总数和负样本总数、所有分箱的正样本总数和负样本总数，包括：

4.根据权利要求2所述的方法，其特征在于，所述指定标签为负样本标签，所述基于所述数据端的各分箱的指定标签对应的样本数量和样本总数量计算所述数据端的每个分箱的正样本总数和负样本总数、所有分箱的正样本总数和负样本总数，包括：

5.根据权利要求2所述的方法，其特征在于，所述根据各分箱的解密结果和样本总数量确定所述数据端的分析结果，还包括：

6.根据权利要求5所述的方法，其特征在于，通过以下表达式，根据所述数据端的每个分箱的正样本总数和负样本总数，计算所述数据端数据的KS值：

KS＝max{|cum_i(Bad)-cum_i(Good)|}

其中，cum_i(Bad)为每个分箱区间i的累计负样本数量，cum_i(Good)为每个分箱区间i的累计正样本数量。

7.一种联邦特征工程数据的筛选方法，其特征在于，应用于数据端，所述方法包括：

根据预设的特征参数对样本对齐的样本ID进行分箱；

8.根据权利要求7所述的方法，其特征在于，所述预设的特征参数通过以下步骤确定：

9.一种联邦特征工程数据的筛选装置，其特征在于，应用于业务端，所述装置包括：

10.一种联邦特征工程数据的筛选装置，其特征在于，应用于数据端，所述装置包括：

11.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口和存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-8中任一项所述的联邦特征工程数据的筛选方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-8中任一项所述的联邦特征工程数据的筛选方法。