CN113722744A

CN113722744A - 用于联邦特征工程的数据处理方法、装置、设备以及介质

Info

Publication number: CN113722744A
Application number: CN202111078529.1A
Authority: CN
Inventors: 尹靖雯; 孙中伟; 张钧皓; 曹雨晨; 姬艳鑫; 张新; 刘永平; 宋红花; 赵国梁
Original assignee: Jingdong Technology Information Technology Co Ltd
Current assignee: Jingdong Technology Information Technology Co Ltd
Priority date: 2021-09-15
Filing date: 2021-09-15
Publication date: 2021-11-30
Also published as: WO2023040429A1

Abstract

本公开提供了用于联邦特征工程的数据处理方法、装置、设备以及介质，涉及深度学习领域。具体实现方案为：接收业务方发送的样本数据的第一样本标识、与第一样本标识对应的密文标签以及接收数据方发送的样本数据的第二样本标识；根据第一样本标识以及第二样本标识，确定目标样本标识发送给数据方；根据密文标签以及目标样本标识，确定出目标密文标签发送给数据方；响应于接收到数据方基于目标样本标识以及目标密文标签进行特征分桶后计算得到的各分桶的第一标签之和以及第二标签之和，基于目标密文标签、各分桶的第一标签之和以及第二标签之和，计算以及输出目标样本标识对应的参数。本实现方式可以提高数据共享过程中的安全性。

Description

用于联邦特征工程的数据处理方法、装置、设备以及介质

技术领域

本公开涉及计算机技术领域，具体涉及深度学习、数据处理领域，尤其涉及用于联邦特征工程的数据处理方法、装置、设备以及介质。

背景技术

为了解决数据孤岛及数据隐私安全的问题，目前主流方法是运用联邦学习将不同的数据联合训练，得到更好的模型以解决实际问题。联邦学习根据数据的分布情况分为横向联邦学习、纵向联邦学习、以及迁移学习。其中，纵向联邦学习应用较广。例如在金融场景中，银行等金融机构中含有信贷标签，而电商平台有用户的消费数据，双方用户存在交集，银行可以利用电商的数据进行信贷风险预测，但双方不能进行数据共享，这时纵向联邦学习可以用来解决这类问题。

发明内容

本公开提供了一种用于联邦特征工程的数据处理方法、装置、设备以及介质。

根据第一方面，提供了一种用于联邦特征工程的数据处理方法，包括：接收业务方发送的样本数据的第一样本标识、与第一样本标识对应的密文标签以及接收数据方发送的样本数据的第二样本标识，密文标签包括第一标签和第二标签；根据第一样本标识以及第二样本标识，确定目标样本标识发送给数据方；根据密文标签以及目标样本标识，确定出目标密文标签发送给数据方；响应于接收到数据方基于目标样本标识以及目标密文标签进行特征分桶后计算得到的各分桶的第一标签之和以及第二标签之和，基于目标密文标签、各分桶的第一标签之和以及第二标签之和，计算以及输出目标样本标识对应的参数。

根据第二方面，提供了一种用于联邦特征工程的数据处理装置，包括：数据接收单元，被配置成接收业务方发送的样本数据的第一样本标识、与第一样本标识对应的密文标签以及接收数据方发送的样本数据的第二样本标识，密文标签包括第一标签和第二标签；标识发送单元，被配置成根据第一样本标识以及第二样本标识，确定目标样本标识发送给数据方；标签发送单元，被配置成根据密文标签以及目标样本标识，确定出目标密文标签发送给数据方；信息输出单元，被配置成响应于接收到数据方基于目标样本标识以及目标密文标签进行特征分桶后计算得到的各分桶的第一标签之和以及第二标签之和，基于目标密文标签、各分桶的第一标签之和以及第二标签之和，计算以及输出目标样本标识对应的参数。

根据第三方面，提供了一种电子设备，包括：至少一个处理器；以及与上述至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，上述指令被至少一个处理器执行，以使至少一个处理器能够执行如第一方面所描述的方法。

根据第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，上述计算机指令用于使计算机执行如第一方面所描述的方法。

根据第五方面，一种计算机程序产品，包括计算机程序，上述计算机程序在被处理器执行时实现如第一方面所描述的方法。

根据本公开的技术可以实现数据共享，同时保证双方数据的安全性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是本公开的一个实施例可以应用于其中的示例性系统架构图；

图2是根据本公开的用于联邦特征工程的数据处理方法的一个实施例的流程图；

图3是根据本公开的用于联邦特征工程的数据处理方法的一个应用场景的示意图；

图4是根据本公开的用于联邦特征工程的数据处理方法的另一个实施例的流程图；

图5是图4所示实施例中三方交互过程的示意图；

图6是根据本公开的用于联邦特征工程的数据处理装置的一个实施例的结构示意图；

图7是用来实现本公开实施例的用于联邦特征工程的数据处理方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

在进行传统机器学习的过程中，特征工程是必不可少的一环。常见的特征工程处理方法有数据预处理、特征选择、及特征降维。在完成数据预处理后，需要选择有意义的特征训练模型，通常运用一些常见的指标如WOE(Weight Of Evidence，证据权重)、IV(Information Value，特征信息值)等分析每个特征对标签的预测能力。计算WOE值和IV值的过程中需要对数据进行分箱，即将连续变量离散化，使模型快速迭代，可以降低模型过拟合的风险，是一种常用的数据预处理方法。

在联邦特征工程中，通常存在两方，有标签的一方为Guest方(业务方)，无标签仅提供特征数据的一方为Host方(数据方)。Guest方希望通过联合，扩展数据的特征维度。两方的数据交互过程中，没有明文数据的传输，Host方无法获取标签，Guest方也不知道Host方的特征值，从而在保证两方安全隐私的情况下完成了特征工程的计算。

图1示出了可以应用本公开的用于联邦特征工程的数据处理方法或用于联邦特征工程的数据处理装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括业务方101、第三方102和数据方103。业务方101和第三方102之间以及第三方102和数据方103之间可以通过网络进行通信连接。网络可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

业务方101和数据方103可以拥有针对相同对象的相关数据，例如业务方101可以是衣服生产工厂，数据方103可以是衣服销售网站。第三方102可以是独立于业务方101和数据方103的一方，并且是可信的一方。为避免业务方101和数据方103在数据交互过程中可能造成的数据安全风险，本实施例中，业务方101和数据方103可以均将数据发送给第三方102，以提高数据的安全性。

需要说明的是，业务方101、第三方102和数据方103可以是硬件，也可以是软件。当业务方101、第三方102和数据方103为硬件时，可以实现成多个电子设备组成的分布式服务器集群，也可以实现成单个服务器。当业务方101、第三方102和数据方103为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本公开实施例所提供的用于联邦特征工程的数据处理方法一般由第三方102执行。相应地，用于联邦特征工程的数据处理装置一般设置于第三方102中。

应该理解，图1中的业务方、第三方和数据方的数目仅仅是示意性的。根据实现需要，可以具有任意数目的业务方、第三方和数据方。

继续参考图2，其示出了根据本公开的用于联邦特征工程的数据处理方法的一个实施例的流程200。本实施例的用于联邦特征工程的数据处理方法，包括以下步骤：

步骤201，接收业务方发送的样本数据的第一样本标识、与第一样本标识对应的密文标签以及接收数据方发送的样本数据的第二样本标识，密文标签包括第一标签和第二标签。

本实施例中，用于联邦特征工程的数据处理方法的执行主体(例如图1所示的第三方102)可以分别从业务方和数据方接收数据。具体的，执行主体可以从业务方接收样本数据的第一样本标识，从数据方接收样本数据的第二样本标识。这里，第一样本标识和第二样本标识均是用来标识样本数据的字符串。业务方和数据方可以将原始样本数据的标识进行加密后得到第一样本标识和第二样本标识。这里的加密可以采用同态加密方式。同态加密是一种加密形式，允许人们对密文进行特定形式的代数运算，可以使人们在加密的数据中进行检索比较等操作，无需对数据解密。执行主体还可以从业务方接收密文标签。这里，密文标签包括第一标签和第二标签。第一标签和标识正样本，第二标签可以表示负样本。

步骤202，根据第一样本标识以及第二样本标识，确定目标样本标识发送给数据方。

本实施例中，执行主体在接收到第一样本标识以及第二样本标识后，可以分别对第一样本标识以及第二样本标识进行各种处理，以确定第一样本标识以及第二样本标识中相同的样本标识作为目标样本标识，并将目标样本标识只发送给数据方。具体的，上述处理可以是解密、哈希运算等处理。本实施例中，执行主体直将目标样本标识只发送给数据方，能够避免业务方根据目标样本标识对数据方原始数据的猜测，从而能够提高数据的安全性。

步骤203，根据密文标签以及目标样本标识，确定出目标密文标签发送给数据方。

执行主体还可以在确定出目标样本标识后，从上述密文标签中确定出与目标样本标识对应的标签作为目标密文标签。具体的，密文标签中包括了标签与第一样本标识的对应关系，根据上述对应关系，执行主体可以对密文标签进行检索，确定出目标密文标签。并将上述目标密文标签发送给数据方。

步骤204，响应于接收到数据方基于目标样本标识以及目标密文标签进行特征分桶后计算得到的各分桶的第一标签之和以及第二标签之和，基于目标密文标签、各分桶的第一标签之和以及第二标签之和，计算以及输出目标样本标识对应的参数。

数据方在接收到上述目标样本标识以及目标密文标签后，可以对原始数据进行特征分桶，即将原始数据划分到多个桶(bin)中。每个桶中的数据都对应样本标识，数据方可以基于每个分桶中的数据对应的样本标识以及密文标签进行运算，得到每个分桶的第一标签之和以及第二标签之和。然后，将计算得到的数据发送给执行主体。执行主体在接收到上述数据后，可以结合目标密文标签，计算出目标样本标识对应的参数。具体的，上述参数可以包括WOE值和IV值。执行主体可以从目标密文标签中确定出正标签的数量和负标签的数量。根据WOE值和IV值的计算公式，计算得到上述参数。

继续参见图3，其示出了根据本公开的用于联邦特征工程的数据处理方法的一个应用场景的示意图。在图3的应用场景中，银行301将用户的样本数据的样本ID以及加密后的信贷标签发送给第三方302，电商平台303将用户的消费数据的样本ID发送给第三方302。第三方302执行步骤201～204的处理后，计算出WOE值和IV值。并根据上述两个参数值，选取出有意义的特征训练模型，用于信贷风险预测。

本公开的上述实施例提供的用于联邦特征工程的数据处理方法，通过在业务方和数据方中引入第三方，从而能够提高数据的安全性。

继续参见图4，其示出了根据本公开的用于联邦特征工程的数据处理方法的另一个实施例的流程400。如图4所示，本实施例的方法可以包括以下步骤：

步骤401，接收业务方发送的样本数据的第一样本标识、与第一样本标识对应的密文标签以及接收数据方发送的样本数据的第二样本标识。

步骤402，对第一样本标识以及第二样本标识进行对齐，确定业务方和数据方共有的样本标识为目标样本标识发送给数据方。

本实施例中，执行主体可以对第一样本标识以及第二样本标识进行对齐。具体的，执行主体可以采用现有的样本ID对齐方案来实现，例如基于RSA加/解密算法和哈希算法的加密样本ID对齐、基于Diffie-Hellman的加密样本ID对齐等等。在对齐后，执行主体可以确定第一样本标识和第二样本标识共有的样本标识作为目标样本标识。并将目标样本标识发送给数据方。

步骤403，根据密文标签以及目标样本标识，确定出目标密文标签发送给数据方。

在本实施例中，业务方可以在发送密文标签前，生成公私钥对。并将公钥发送给执行主体。然后，利用公钥对原始标签进行加密，得到密文标签。这里密文标签可以以{<y>,<1-y>}表示。<y>可以称为第一标签，<1-y>可以称为第二标签。然后，执行主体可以从上述密文标签{<y>,<1-y>}中确定出目标密文标签，以{<y_n>,<1-y_n>}表示。

步骤404，接收数据方基于目标样本标识以及目标密文标签进行特征分桶后计算得到的各分桶的第一标签之和以及第二标签之和。

数据方在接收到目标样本标识以及目标密文标签后，可以进行特征分桶，并分别计算每个分桶的第一标签之和和第二标签之和。第一标签之和可以记为sum(<y_bin_i>)，第二标签之和可以记为sum(<1-y_bin_i>)。数据方可以将{sum(<y_bin_i>),sum(<1-y_bin_i>)}发送给执行主体。

步骤405，根据目标密文标签，确定正标签之和以及负标签之和。

本实施例中，执行主体可以对目标密文标签进行拆分统计，确定具有相同标签的样本之和。经过解析，执行主体可以确定出正标签之和以及负标签之和。

在本实施例的一些可选的实现方式中，执行主体可以通过以下步骤计算正标签之和以及负标签之和：

步骤4051，确定目标密文标签中第一标签之和以及第二标签之和。

步骤4052，分别将第一标签之和与随机生成的第一掩码相加、第二标签之和与随机生成的第二掩码相加，将得到的两个和值加密后发送给业务方。

步骤4053，接收业务方对加密后的两个和值进行解密得到的第一数据，根据第一数据以及第一掩码、第二掩码，确定正标签之和以及负标签之和。

本实现方式中，执行主体可以首先确定上述目标密文标签中的第一标签和第二标签，进而计算出第一标签之和sum(<y_n>)以及第二标签之和sum(<1-y_n>)。然后，执行主体可以随机生成两个掩码(mask)，分别记为第一掩码<mask_a>、第二掩码<mask_b>。并将第一标签之和与随机生成的第一掩码相加、将第二标签之和与随机生成的第二掩码相加，利用公钥加密后得到数据{sum(<y_n>)+<mask_a>,sum(<1-y_n>)+<mask_b>}。并将上述数据发送给业务方。业务方可以对上述数据进行解密，得到Dec(sum(<y_n>)+<mask_a>)和Dec(sum(<1-y_n>)+<mask_b>)。业务方在解密时可以利用与上述公钥配对的私钥进行解密。然后，业务方将上述数据发送给执行主体。执行主体根据上述数据减掉对应的第一掩码和第二掩码，得到正标签之和pos_total以及负标签之和neg_total。

步骤406，根据各分桶的第一标签之和以及第二标签之和，确定各分桶的正标签数量和负标签数量。

本实施例中，执行主体可以分别直接将各分桶的第一标签之和作为各分桶的正标签数量，将各分桶的第二标签之和作为各分桶的负标签数量。

在本实施例的一些可选的实现方式中，执行主体可以通过以下步骤计算各分桶的正标签数量和负标签数量：

步骤4061，分别将各分桶的第一标签之和与随机生成的第三掩码相加、将各分桶的第二标签之和与随机生成的第四掩码相加，对得到的两个和值加密后发送给业务方。

步骤4062，接收业务方针对加密后的两个和值解密后得到的第二数据，根据第二数据以及第三掩码、第四掩码，确定各分桶的正标签数量和负标签数量。

本实现方式中，执行主持台可以首先生成多个第三掩码和多个第四掩码，分别记为<mask_c>和<mask_d>。然后，执行主体可以将从数据方接收到的各分桶的第一标签之和sum(<y_bin_i>)与第三掩码<mask_c>相加，同时将各分桶的第二标签之和sum(<1-y_bin_i>)与第四掩码<mask_d>相加，并利用公钥进行加密，得到数据{sum(<y_bin_i>)+<mask_c>,sum(<1-y_bin_i>)+<mask_d>}。然后，执行主体可以将上述数据发送给业务方，业务方在得到上述数据后，可以利用与上述公钥配对的私钥进行解密，得到数据Dec(sum(<y_bin_i>)+<mask_c>)和Dec(sum(<1-y_bin_i>)+<mask_d>)。业务方可以将上述数据发送给执行主体，执行主体可以对上述数据减掉对应的掩码后，得到每个分桶的正标签数量npos_i和负标签数量nneg_i。

步骤407，根据正标签之和、负标签之和以及各分桶的正标签数量和负标签数量，计算以及输出所述目标样本标识对应的参数。

执行主体在得到上述正标签之和pos_total、负标签之和neg_total以及各分桶的正标签数量npos_i和负标签数量nneg_i，可以利用上述各参数值计算目标样本标识对应的参数，例如WOE值和IV值。

在本实施例的一些可选的实现方式中，执行主体可以通过以下步骤计算上述参数：

步骤4071，根据正标签之和、负标签之和、各分桶的正标签数量和负标签数量以及预先设置的至少两个参数，计算以及输出目标样本标识对应的参数。

现有技术中，对WOE值的计算可以通过以下公式(1)来实现，对IV值的计算可以通过以下公式(2)来实现：

其中，npos_i是第i个分箱中正样本数，nneg_i是第i个分箱中负样本数，pos_total是总正样本数，neg_total是总负样本数。当业务方的数据同为一类时，pos_total＝0或neg_total＝0，WOE值和IV值均无法计算，数据方便可知道业务方提供的数据同为一类，从而推测出数据标签，存在数据泄露的风险。

本实现方式中，可以对上述公式(1)和公式(2)进行改进，得到公式(3)和公式(4)如下：

其中，ε和δ均为预设值，0<ε<1，0<δ<0.02。

在考虑到特征分箱时分箱中可能存在同一类样本以及数据方提供的特征数据所属标签可能同为一类的情况，公式(3)可以既不影响正常可以计算出WOE情况下的WOE值，同时在特殊情况下也能算出一个WOE的值，不会影响到后续IV值的计算。同样的，在正负样本总数足够大的情况下，公式(4)可以既不影响正常可以计算出IV情况下的IV值，也可以在当数据方提供的特征数据所属标签同为一类的情况下计算出IV值为δ。通常在应用实践中当IV值小于0.02，该特征变量的预测能力几乎没有。这样既可以使得数据方无法从IV值中判断出他提供的数据同属一类，又可以表明该特征变量的预测能力极小，从而达到不泄露Guest方标签的目的。

在本实施例的一些可选的实现方式中，执行主体可以将得到的各参数输出给数据方，这样业务方就不能得知WOE值和IV值，避免业务方获得数据方数据价值的信息。

继续参见图5，其示出了本实施例的三方(Guest方、第三方和Host方)交互过程的示意图。如图5所示，联邦特征工程的具体步骤可以如下：

1、Guest方与Host方将加密后的样本ID传输给可信第三方，可信第三方将加密样本对齐，得到两方共有的样本ID。加密方法包括但不限于非对称加密、哈希算法、同态加密等。可信第三方可以分发公钥给Guest方与Host方，Guest方与Host方利用公钥将样本ID加密传输给可信第三方，可信第三方利用私钥解密并对齐样本。Guest方与Host方也可以将样本ID进行哈希操作，让可信第三方来计算比较哈希值得到对齐样本。

2、可信第三方将对齐后的样本ID发送给Host方，Host方对对齐后的样本特征进行特征分箱。

3、Guest方将标签加密并发送给可信第三方，可信第三方将对齐后的密文标签发送给Host方。

4、可信第三方将对齐后的密文正负标签和加上不同的mask传送给Guest方解密，并将传回的结果减掉mask得到正负标签数的和。

5、Host方分别计算每个特征分桶的密文正负标签数，并发送给可信第三方。

6、可信第三方将特征分桶计算的结果再加上不同mask传送给Guest方解密，并将传回的结果减掉mask得到每个特征分桶下的正负标签数。

7、可信第三方根据步骤4与步骤6的结果计算WOE及IV值，并最终将每个特征的IV值传送给Host方保存。

本公开的上述实施例提供的联邦特征工程的数据处理方法，通过可信第三方负责对齐数据，并将对齐后的样本ID仅发送给Host方。在获取对齐后的数据样本计算正负标签数和的过程中，加入mask使得Guest方无法得知Host方数据样本标签的比例。并且在计算每个特征分桶下的正负标签数时，运用同样加入mask的方法，使得Guest方无法获取Host方的数据信息，最终由第三方计算Host方提供的特征的WOE及IV值，保证了Guest无法获得Host方数据价值的信息。

进一步参考图6，作为对上述各图所示方法的实现，本公开提供了一种用于联邦特征工程的数据处理装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图6所示，本实施例的用于联邦特征工程的数据处理装置600包括：数据接收单元601、标识发送单元602、标签发送单元603和信息输出单元604。

数据接收单元601，被配置成接收业务方发送的样本数据的第一样本标识、与第一样本标识对应的密文标签以及接收数据方发送的样本数据的第二样本标识，密文标签包括第一标签和第二标签。

标识发送单元602，被配置成根据第一样本标识以及第二样本标识，确定目标样本标识发送给数据方。

标签发送单元603，被配置成根据密文标签以及目标样本标识，确定出目标密文标签发送给数据方。

信息输出单元604，被配置成响应于接收到数据方基于目标样本标识以及目标密文标签进行特征分桶后计算得到的各分桶的第一标签之和以及第二标签之和，基于目标密文标签、各分桶的第一标签之和以及第二标签之和，计算以及输出目标样本标识对应的参数。

在本实施例的一些可选的实现方式中，标识发送单元602可以进一步被配置成：对第一样本标识以及第二样本标识进行对齐，确定业务方和数据方共有的样本标识为目标样本标识发送给数据方。

在本实施例的一些可选的实现方式中，信息输出单元604可以进一步被配置成：根据目标密文标签，确定正标签之和以及负标签之和；根据各分桶的第一标签之和以及第二标签之和，确定各分桶的正标签数量和负标签数量；根据正标签之和、负标签之和以及各分桶的正标签数量和负标签数量，计算以及输出目标样本标识对应的参数。

在本实施例的一些可选的实现方式中，信息输出单元604可以进一步被配置成：确定目标密文标签中第一标签之和以及第二标签之和；分别将第一标签之和与随机生成的第一掩码相加、第二标签之和与随机生成的第二掩码相加，将得到的两个和值加密后发送给业务方；接收业务方对加密后的两个和值进行解密得到的第一数据，根据第一数据以及第一掩码、第二掩码，确定正标签之和以及负标签之和。

在本实施例的一些可选的实现方式中，信息输出单元604可以进一步被配置成：分别将各分桶的第一标签之和与随机生成的第三掩码相加、将各分桶的第二标签之和与随机生成的第四掩码相加，对得到的两个和值加密后发送给业务方；接收业务方针对加密后的两个和值解密后得到的第二数据，根据第二数据以及第三掩码、第四掩码，确定各分桶的正标签数量和负标签数量。

在本实施例的一些可选的实现方式中，信息输出单元604可以进一步被配置成：根据正标签之和、负标签之和、各分桶的正标签数量和负标签数量以及预先设置的至少两个参数，计算以及输出目标样本标识对应的参数。

在本实施例的一些可选的实现方式中，信息输出单元604可以进一步被配置成：将计算得到的至少一个参数输出给数据方。

在本实施例的一些可选的实现方式中，装置600还可以进一步包括图6中未示出的加密单元，被配置成：接收业务方发送的公钥；利用公钥进行加密，以供业务方根据与公钥配对的私钥进行解密。

应当理解，用于联邦特征工程的数据处理装置600中记载的单元601至单元605分别与参考图2中描述的方法中的各个步骤相对应。由此，上文针对用于联邦特征工程的数据处理方法描述的操作和特征同样适用于装置600及其中包含的单元，在此不再赘述。

本公开的技术方案中，所涉及的用户个人信息的获取、存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图7示出了根据本公开实施例的执行用于联邦特征工程的数据处理方法的电子设备700的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，电子设备700包括处理器701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储器708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM703中，还可存储电子设备700操作所需的各种程序和数据。处理器701、ROM 702以及RAM 703通过总线704彼此相连。I/O接口(输入/输出接口)705也连接至总线704。

电子设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储器708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许电子设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器701可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器701执行上文所描述的各个方法和处理，例如用于联邦特征工程的数据处理方法。例如，在一些实施例中，用于联邦特征工程的数据处理方法可被实现为计算机软件程序，其被有形地包含于机器可读存储介质，例如存储器708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到电子设备700上。当计算机程序加载到RAM 703并由处理器701执行时，可以执行上文描述的用于联邦特征工程的数据处理方法的一个或多个步骤。备选地，在其他实施例中，处理器701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行用于联邦特征工程的数据处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。上述程序代码可以封装成计算机程序产品。这些程序代码或计算机程序产品可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器701执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读存储介质可以是机器可读信号存储介质或机器可读存储介质。机器可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学存储设备、磁存储设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(“Virtual Private Server”，或简称“VPS”)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以是分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开的保护范围之内。

Claims

1.一种用于联邦特征工程的数据处理方法，应用于第三方，包括：

接收业务方发送的样本数据的第一样本标识、与所述第一样本标识对应的密文标签以及接收数据方发送的样本数据的第二样本标识，所述密文标签包括第一标签和第二标签；

根据所述第一样本标识以及所述第二样本标识，确定目标样本标识发送给所述数据方；

根据所述密文标签以及所述目标样本标识，确定出目标密文标签发送给所述数据方；

响应于接收到所述数据方基于所述目标样本标识以及所述目标密文标签进行特征分桶后计算得到的各分桶的第一标签之和以及第二标签之和，基于所述目标密文标签、各分桶的第一标签之和以及第二标签之和，计算以及输出所述目标样本标识对应的参数。

2.根据权利要求1所述的方法，其中，所述根据所述第一样本标识以及所述第二样本标识，确定目标样本标识发送给所述数据方，包括：

对所述第一样本标识以及所述第二样本标识进行对齐，确定所述业务方和所述数据方共有的样本标识为目标样本标识发送给所述数据方。

3.根据权利要求1所述的方法，其中，所述基于所述目标密文标签、各分桶的第一标签之和以及第二标签之和，计算以及输出所述目标样本标识对应的参数，包括：

根据所述目标密文标签，确定正标签之和以及负标签之和；

根据各分桶的第一标签之和以及第二标签之和，确定各分桶的正标签数量和负标签数量；

根据所述正标签之和、所述负标签之和以及各分桶的正标签数量和负标签数量，计算以及输出所述目标样本标识对应的参数。

4.根据权利要求3所述的方法，其中，所述根据所述目标密文标签，确定正标签之和以及负标签之和，包括：

确定所述目标密文标签中第一标签之和以及第二标签之和；

分别将所述第一标签之和与随机生成的第一掩码相加、所述第二标签之和与随机生成的第二掩码相加，将得到的两个和值加密后发送给所述业务方；

接收所述业务方对加密后的两个和值进行解密得到的第一数据，根据所述第一数据以及所述第一掩码、所述第二掩码，确定正标签之和以及负标签之和。

5.根据权利要求3所述的方法，其中，所述根据各分桶的第一标签之和以及第二标签之和，确定各分桶的正标签数量和负标签数量，包括：

分别将各分桶的第一标签之和与随机生成的第三掩码相加、将各分桶的第二标签之和与随机生成的第四掩码相加，对得到的两个和值加密后发送给所述业务方；

接收所述业务方针对加密后的两个和值解密后得到的第二数据，根据所述第二数据以及所述第三掩码、所述第四掩码，确定各分桶的正标签数量和负标签数量。

6.根据权利要求3所述的方法，其中，所述根据所述正标签之和、所述负标签之和以及各分桶的正标签数量和负标签数量，计算以及输出所述目标样本标识对应的参数，包括：

根据所述正标签之和、所述负标签之和、各分桶的正标签数量和负标签数量以及预先设置的至少两个参数，计算以及输出所述目标样本标识对应的参数。

7.根据权利要求1-6任一项所述的方法，其中，所述计算以及输出所述目标样本标识对应的参数，包括：

将计算得到的至少一个参数输出给所述数据方。

8.根据权利要求4或5所述的方法，其中，所述方法还包括：

接收所述业务方发送的公钥；

利用所述公钥进行加密，以供所述业务方根据与所述公钥配对的私钥进行解密。

9.一种用于联邦特征工程的数据处理装置，包括：

数据接收单元，被配置成接收业务方发送的样本数据的第一样本标识、与所述第一样本标识对应的密文标签以及接收数据方发送的样本数据的第二样本标识，所述密文标签包括第一标签和第二标签；

标识发送单元，被配置成根据所述第一样本标识以及所述第二样本标识，确定目标样本标识发送给所述数据方；

标签发送单元，被配置成根据所述密文标签以及所述目标样本标识，确定出目标密文标签发送给所述数据方；

信息输出单元，被配置成响应于接收到所述数据方基于所述目标样本标识以及所述目标密文标签进行特征分桶后计算得到的各分桶的第一标签之和以及第二标签之和，基于所述目标密文标签、各分桶的第一标签之和以及第二标签之和，计算以及输出所述目标样本标识对应的参数。

10.根据权利要求9所述的装置，其中，所述标识发送单元进一步被配置成：

11.根据权利要求9所述的装置，其中，所述信息输出单元进一步被配置成：

根据所述目标密文标签，确定正标签之和以及负标签之和；

12.根据权利要求11所述的装置，其中，所述信息输出单元进一步被配置成：

确定所述目标密文标签中第一标签之和以及第二标签之和；

13.根据权利要求11所述的装置，其中，所述信息输出单元进一步被配置成：

14.根据权利要求11所述的装置，其中，所述信息输出单元进一步被配置成：

15.根据权利要求9-14任一项所述的装置，其中，所述信息输出单元进一步被配置成：

将计算得到的至少一个参数输出给所述数据方。

16.根据权利要求14或15所述的装置，其中，所述装置还包括加密单元，被配置成：

接收所述业务方发送的公钥；

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。

19.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的方法。