CN111310204B

CN111310204B - 数据处理的方法及装置

Info

Publication number: CN111310204B
Application number: CN202010085081.5A
Authority: CN
Inventors: 刘昊骋; 方灵鹏
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-02-10
Filing date: 2020-02-10
Publication date: 2022-06-14
Anticipated expiration: 2040-02-10
Also published as: CN111310204A

Abstract

本申请实施例提供一种数据处理的方法及装置，涉及数据处理技术领域，具体包括：第一服务器可以获取用户标识对应于所述第一机构的第一用户特征，并将第一用户特征输入设置于所述第一服务器的第一模型，并利用所述第一模型输出第一预测结果；第二服务器可以获取用户标识对应于所述第二机构的第二用户特征，并将第二用户特征输入设置于所述第二服务器的第二模型，并利用所述第二模型输出第二预测结果。第二服务器将第二预测结果发送给第一服务器，则第一服务器可以汇总第一预测结果和第二预测结果，得到全面、准确的目标预测结果。

Description

数据处理的方法及装置

技术领域

本申请涉及数据处理的大数据技术领域，尤其涉及一种数据处理的方法及装置。

背景技术

在大数据领域，数据的多样、完整程度对数据分析具有较大影响。

现有技术中，由于机构之间的竞争或法律限制等原因，不同机构通常具有较为孤立的数据，在基于神经网络的建模中，各机构通常基于自身的数据和样本建立模型。例如，在金融机构中，银行拥有用户的存款、账户交易流水、贷款金额和消费记录等数据，金融机构通常只能基于自身的上述数据建模；在互联网机构中，互联网企业拥有用户的网站浏览行为、兴趣标签和地理位置信息，互联网机构通常也只能根据自身的上述数据建模。

因为现有技术中各机构的模型只是基于自身数据训练，往往不能得到准确的预测结果。

发明内容

本申请实施例提供一种数据处理的方法及装置，以解决现有技术中识别交通信号灯的准确度不高的技术问题。

本申请实施例第一方面提供一种数据处理的方法，应用于第一服务器，所述第一服务器属于第一机构；所述方法包括：

获取用户标识对应于所述第一机构的第一用户特征；将所述第一用户特征输入设置于所述第一服务器的第一模型；所述第一模型为：所述第一服务器基于所述第一机构的训练样本以及第二机构的训练样本，采用纵向联邦学习方法训练得到的；所述第二机构的用户特征与所述第一机构的用户特征不同；利用所述第一模型输出第一预测结果；接收来自第二服务器的第二预测结果；所述第二服务器属于所述第二机构；所述第二预测结果为：所述第二服务器中的第二模型根据所述用户标识对应于所述第二机构的第二用户特征输出的；所述第二模型为：所述第二服务器基于所述第一机构的训练样本以及所述第二机构的训练样本，采用纵向联邦学习方法训练得到的；汇总所述第一预测结果和所述第二预测结果，得到目标预测结果。第一机构的第一服务器中设置第一模型，第二机构的第二服务器中设置第二模型，第一模型和第二模型为各自的服务器基于所述第一机构的训练样本以及第二机构的训练样本，采用纵向联邦学习方法训练得到的，因此，第一模型输出的预测结果与第二模型输出的预测结构可以进行汇总，得到全面、准确的预测结果。

可选的，所述第一服务器设置有第一可信执环境TEE设备，所述第二服务器设置有第二TEE设备，所述方法还包括：基于所述第一TEE设备、所述第一机构对应的第一样本数据、所述第二TEE设备和所述第二机构对应的第二样本数据，采用纵向联邦学习方法训练得到所述第一模型。这样第一TEE设备和第二TEE设备可以采用硬件加密方式，取代了同态加密中的基于加密后数据求聚合，在enclave里明文聚合，这样效率大大增加。

可选的，所述基于所述第一TEE设备、所述第一机构对应的第一样本数据、所述第二TEE设备和所述第二机构对应的第二样本数据，采用纵向联邦学习方法训练得到所述第一模型，包括：

根据所述第一机构对应的第一样本数据训练得到第一预设模型；

将所述第一预设模型设置在所述第一TEE设备中；

利用所述第一TEE设备计算所述第一预设模型的第一中间值，并硬件加密所述第一中间值，得到第一加密中间值；

接收来自所述第二TEE设备的第二加密中间值；所述第二加密中间值为：所述第二TEE设备利用第二预设模型计算并加密得到的；所述第二预设模型为：利用所述第二机构对应的第二样本数据训练得到的；

向所述第二TEE设备发送残差，所述残差为根据所述第一加密中间值和所述第二加密中间值计算得到的；

接收来自所述第二TEE设备的第二加密梯度；所述第二加密梯度为所述第二TEE设备根据所述残差重新计算第二梯度，并硬件加密所述第二梯度得到的；

利用所述第一TEE设备根据所述残差计算第一梯度，并硬件加密所述第一梯度得到第一加密梯度；

根据所述第一加密梯度和所述第二加密梯度计算目标梯度；

利用所述目标梯度更新所述第一预设模型，得到所述第一模型。

可选的，所述将所述第一预设模型设置在所述第一TEE设备中，包括：

采用软件公钥加密所述第一预设模型的数据，得到第一公钥加密数据；

将所述第一公钥加密数据设置在所述第一TEE设备中。

可选的，所述利用所述第一TEE设备计算所述第一预设模型的第一中间值，包括：

利用所述第一TEE设备解密所述第一公钥加密数据，得到第一明文数据；

根据所述第一明文数据计算所述第一中间值。

可选的，还包括：

向所述第二TEE设备发送公钥；所述公钥用于所述第二TEE设备加密数据。

可选的，还包括：

采用硬件加密所述目标梯度；

向所述第二TEE设备发送加密的目标梯度，所述目标梯度用于所述第二TEE设备更新所述第二预设模型，得到所述第二模型。

本申请实施例的纵向联邦学习训练第一模型和第二模型中，不需要协作方服务器，中间值、残差、梯度等只在第一TEE设备和第二TEE设备之间传递，传递前需要用TEE加密，计算前要用TEE解密，从而可以简化联邦学习的架构。

可选的，所述第一机构为金融机构，所述第二机构为互联网机构。

本申请实施例第二方面提供一种数据处理的装置，应用于第一服务器，所述第一服务器属于第一机构；所述装置包括：

获取模块，用于获取用户标识对应于所述第一机构的第一用户特征；

设置模块，用于将所述第一用户特征输入设置于所述第一服务器的第一模型；所述第一模型为：所述第一服务器基于所述第一机构的训练样本以及第二机构的训练样本，采用纵向联邦学习装置训练得到的；所述第二机构的用户特征与所述第一机构的用户特征不同；

输出模块，用于利用所述第一模型输出第一预测结果；

接收模块，用于接收来自第二服务器的第二预测结果；所述第二服务器属于所述第二机构；所述第二预测结果为：所述第二服务器中的第二模型根据所述用户标识对应于所述第二机构的第二用户特征输出的；所述第二模型为：所述第二服务器基于所述第一机构的训练样本以及所述第二机构的训练样本，采用纵向联邦学习装置训练得到的；

汇总模块，用于汇总所述第一预测结果和所述第二预测结果，得到目标预测结果。

可选的，所述第一服务器设置有第一可信执环境TEE设备，所述第二服务器设置有第二TEE设备，所述装置还包括：

训练模块，用于基于所述第一TEE设备、所述第一机构对应的第一样本数据、所述第二TEE设备和所述第二机构对应的第二样本数据，采用纵向联邦学习装置训练得到所述第一模型。

可选的，所述训练模块具体用于：

将所述第一预设模型设置在所述第一TEE设备中；

根据所述第一加密梯度和所述第二加密梯度计算目标梯度；

可选的，所述训练模块具体用于：

将所述第一公钥加密数据设置在所述第一TEE设备中。

可选的，所述训练模块具体用于：

根据所述第一明文数据计算所述第一中间值。

可选的，所述训练模块还用于：

采用硬件加密所述目标梯度；

本申请实施例第三方面提供一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如前述第一方面任一项所述的方法。

本申请实施例第四方面提供一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如前述第一方面中任一项所述的方法。

综上所述，本申请实施例相对于现有技术的有益效果：

本申请实施例中提供了一种数据处理的方法及装置，第一机构的第一服务器中设置第一模型，第二机构的第二服务器中设置第二模型，第一模型和第二模型为各自的服务器基于所述第一机构的训练样本以及第二机构的训练样本，采用纵向联邦学习方法训练得到的，因此，第一模型输出的预测结果与第二模型输出的预测结构可以进行汇总，得到全面、准确的预测结果。具体来说，对于任一个用户标识，第一服务器可以获取用户标识对应于所述第一机构的第一用户特征，并将第一用户特征输入设置于所述第一服务器的第一模型，并利用所述第一模型输出第一预测结果；第二服务器可以获取用户标识对应于所述第二机构的第二用户特征，并将第二用户特征输入设置于所述第二服务器的第二模型，并利用所述第二模型输出第二预测结果。第二服务器将第二预测结果发送给第一服务器，则第一服务器可以汇总第一预测结果和第二预测结果，得到全面、准确的目标预测结果。

附图说明

图1为本申请实施例提供的数据处理的方法适用的系统架构示意图；

图2为本申请实施例提供的数据处理的方法的流程示意图；

图3为本申请实施例提供的一种数据处理过程示意图；

图4为本申请实施例提供的另一种数据处理过程示意图；

图5为本申请实施例提供的数据处理的方法的另一流程示意图；

图6为本申请实施例提供的又一种数据处理过程示意图；

图7为本申请实施例提供的数据处理装置的结构示意图；

图8是用来实现本申请实施例的数据处理的方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

本申请实施例的第一机构和第二机构的用户特征不同，示例性的，第一机构可以是金融机构，金融机构的用户特征可以包括用户的存款、账户交易流水、贷款金额和消费记录等数据；第二机构可以是互联网机构，互联网机构的用户特征可以包括用户的网站浏览数据、兴趣标签和地理位置信息等。或者第一机构可以是互联网机构，第二机构可以是金融机构。或者，第一机构和第二机构也可以为根据实际应用场景确定的任意机构，本申请实施例对此不作具体限定。

本申请实施例中，第一机构的第一服务器中可以设置实现可信执行环境(trustedexecution environment，TEE)的第一TEE设备，TEE设备可以实现硬件加密，实现对TEE设备中数据的安全服务。第二机构的第二服务器可以设置第二TEE设备。

本申请实施例所描述的纵向联邦学习方法在不共享隐私数据的情况下，可以进行协同训练。具体来说，在纵向联邦学习方法中，不用汇聚模型训练所需要的数据进行集中计算，而是分散机器学习的计算到参与各方的数据库上进行加密的分布式计算。例如，第一机构和第二机构的用户可能重叠较多，但第一机构和第二机构的用户特征重叠较少，因此，可以将第一机构和第二机构中用户相同而用户特征不同的数据进行训练，纵向联邦学习可以不同特征在加密的状态下加以聚合，以增强模型能力的联邦学习。

如图1所示，图1为本申请实施例提供的方法所适用的应用场景架构示意图。

本申请实施例中，用户可以在终端设备11中输入用户标识，终端设备11可以向第一服务器12转发用户标识，则第一服务器12可以获取对应于第一机构的第一用户特征，并将第一用户特征输入设置于所述第一服务器的第一模型，并利用所述第一模型输出第一预测结果；第一服务器12和第二服务器13之间可以通信，第二服务器12可以获取用户标识对应于所述第二机构的第二用户特征，并将第二用户特征输入设置于所述第二服务器的第二模型，并利用所述第二模型输出第二预测结果。进一步的，第二服务器13将第二预测结果发送给第一服务器12，则第一服务器12可以汇总第一预测结果和第二预测结果，得到全面、准确的目标预测结果。

可以理解，具体应用中，第一服务器12的数量可以为大于或等于1的任意值，第二服务器13的数量可以为大于或等于1的任意值，本申请实施例对此不作具体限定。

如图2所示，图2为本申请实施例提供的数据处理的方法的流程示意图。应用于第一机构的第一服务器，该方法具体可以包括：

S101：获取用户标识对应于所述第一机构的第一用户特征。

本申请实施例中，用户标识可以是用户的姓名、证件号码、手机号码等用于标识用户身份的信息，本申请实施例对此不作具体限定。

第一服务器可以从数据库等存储区获取该用户标识对应于第一机构的第一用户特征，第一用户特征可以是该用户在第一机构中的任意数据特征，本申请实施例对此不过具体限定。

S102：将所述第一用户特征输入设置于所述第一服务器的第一模型；所述第一模型为：所述第一服务器基于所述第一机构的训练样本以及第二机构的训练样本，采用纵向联邦学习方法训练得到的；所述第二机构的用户特征与所述第一机构的用户特征不同。

本申请实施例中，可以预先训练第一模型，并将第一模型设置在第一服务器中。

具体的，第一模型可以是第一服务器基于第一机构的训练样本以及第二机构的训练样本，采用纵向联邦学习方法训练得到的。第一机构的训练样本和第二机构的训练样本之间的关联关系可以为：两者之间的用户标识相同，用户特征不同。

采用纵向联邦学习方法训练第一模型，既可以保证第一机构和第二机构之间的数据安全，也使得第一模型与第二服务器的第二模型能够输出具有关联关系的预测结果。

需要说明的是，第一模型的具体训练方法在后续实施例中将详细说明，在此不再赘述。

S103：利用所述第一模型输出第一预测结果。

将第一用户特征输入第一模型后，第一模型可以自动输出第一预测结果，可以理解，该第一预测结果与第一模型的训练样本有关联，与第一机构的用户特征有关联。第一预测结果的具体内容可以根据实际的应用场景适应训练，本申请实施例对此不作具体限定。

S104：接收来自第二服务器的第二预测结果；所述第二服务器属于所述第二机构；所述第二预测结果为：所述第二服务器中的第二模型根据所述用户标识对应于所述第二机构的第二用户特征输出的；所述第二模型为：所述第二服务器基于所述第一机构的训练样本以及所述第二机构的训练样本，采用纵向联邦学习方法训练得到的。

本申请实施例中，第二服务器可以获取用户标识，该用户标识可以是第一服务器转发给第二服务器的，也可以是第二服务器采用其他方式获取的，本申请实施例对此不作具体限定。

第二服务器中设置有第二模型，第二模型可以是第二服务器基于第一机构的训练样本以及第二机构的训练样本，采用纵向联邦学习方法训练得到的。

第二服务器可以根据用户标识获取对应于第二机构的第二用户特征，并将第二用户特征输入第二模型，基于第二模型输出第二预测结果，进而将第二预测结果发送给第一服务器。

需要说明的是，第二模型的具体训练方法在后续实施例中将详细说明，在此不再赘述。

S105：汇总所述第一预测结果和所述第二预测结果，得到目标预测结果。

本申请实施例中，第一服务器可以汇总第一预测结果和第二预测结果，得到目标预测结果。具体的汇总方式可以是简单汇合，也可以是基于一定的算法汇合，本申请实施例对此不作具体限定。

综上所述，本申请实施例中提供了一种数据处理的方法及装置，第一机构的第一服务器中设置第一模型，第二机构的第二服务器中设置第二模型，第一模型和第二模型为各自的服务器基于所述第一机构的训练样本以及第二机构的训练样本，采用纵向联邦学习方法训练得到的，因此，第一模型输出的预测结果与第二模型输出的预测结构可以进行汇总，得到全面、准确的预测结果。具体来说，对于任一个用户标识，第一服务器可以获取用户标识对应于所述第一机构的第一用户特征，并将第一用户特征输入设置于所述第一服务器的第一模型，并利用所述第一模型输出第一预测结果；第二服务器可以获取用户标识对应于所述第二机构的第二用户特征，并将第二用户特征输入设置于所述第二服务器的第二模型，并利用所述第二模型输出第二预测结果。第二服务器将第二预测结果发送给第一服务器，则第一服务器可以汇总第一预测结果和第二预测结果，得到全面、准确的目标预测结果。

可选的，本申请实施例中采用纵向联邦学习方法训练第一模型和第二模型的方法可以包括：

所述第一服务器设置有第一可信执环境TEE设备，所述第二服务器设置有第二TEE设备，所述方法还包括：基于所述第一TEE设备、所述第一机构对应的第一样本数据、所述第二TEE设备和所述第二机构对应的第二样本数据，采用纵向联邦学习方法训练得到所述第一模型。

本申请实施例中，可以基于第一TEE设备、第一机构对应的第一样本数据、第二TEE设备和第二机构对应的第二样本数据，采用纵向联邦学习方法训练得到第一模型。

本申请实施例中，第一TEE设备和第二TEE设备可以实现硬件加密。例如，可以采用因特尔软件保护扩展(intel software guard extensions，SGX)的加密逻辑实现加密。SGX中允许创建飞地(enclave)，enclave可以理解为一个数据运行的安全环境，也可以称它为“小黑匣”，SGX对于软件的保护并不是识别或者隔离系统中出现的恶意软件，而是将合法软件对于敏感数据(如加密密钥、密码、用户数据等)的操作封装在一个“小黑匣”中，使得恶意软件无法对这些数据进行访问。数据在enclave的输入和输出都会加密。

示例性的，图3示出了一种第一TEE机器中的对自身数据处理过程示意图。解密的机构数据在enclave中解密后，采用明文的方式执行模型训练更新(具体的过程将在后续实施例说明，在此不再赘述)，之后训练产生的中间值可以经过加密后输出。SGX环境采用硬件加密方式，取代了同态加密中的基于加密后数据求聚合，在enclave里明文聚合，这样效率大大增加。

本申请实施例中，第一机构对应的第一样本数据可以设置在第一TEE机器，第二机构对应的第二样本数据可以设置在第二TEE机器，进而可以基于第一TEE设备和第二TEE设备的交互，采用纵向联邦学习方法训练得到第一模型。

示例性的，图4示出了一种一TEE机器中的结合自身数据和第二机构的数据的处理过程示意图。SGX开辟一块飞地，硬件方式先解密，对A、B两机构的数据解密，然后明文汇总梯度和损失值，汇总后的再硬件加密，出内存，返回给A、B两机构对应的服务器。所有计算过程均在enclave完成，而且是基于明文的，这些明文与内存实现硬件隔离，只能被中央处理器(central processing unit，CPU)读取，不能被内存访问，实现绝对安全。

可选的，如图5所示，所述基于所述第一TEE设备、所述第一机构对应的第一样本数据、所述第二TEE设备和所述第二机构对应的第二样本数据，采用纵向联邦学习方法训练得到所述第一模型，包括：

S501：根据所述第一机构对应的第一样本数据训练得到第一预设模型。

本申请实施例中，第一预设模型可以是采用任意机器学习训练得到的，本申请实施例对此不作具体限定。

S502：将所述第一预设模型设置在所述第一TEE设备中。

在一种可能的实现方式中，所述将所述第一预设模型设置在所述第一TEE设备中，包括：采用软件公钥加密所述第一预设模型的数据，得到第一公钥加密数据；将所述第一公钥加密数据设置在所述第一TEE设备中。

本申请实施例中，先采用软件加密第一预设模型的数据，在将加密得到的第一公钥加密数据设置在第一TEE设备中，可以进一步确保数据的安全。

S503：利用所述第一TEE设备计算所述第一预设模型的第一中间值，并硬件加密所述第一中间值，得到第一加密中间值。

本申请实施例中，第一中间值可以是用于计算梯度的中间值，本申请实施例对第一中间值的具体内容不作限定。

可选的，所述利用所述第一TEE设备计算所述第一预设模型的第一中间值，包括：利用所述第一TEE设备解密所述第一公钥加密数据，得到第一明文数据；根据所述第一明文数据计算所述第一中间值。

本申请实施例中，以明文数据计算第一中间值，提升数据计算效率。

S504：接收来自所述第二TEE设备的第二加密中间值；所述第二加密中间值为：所述第二TEE设备利用第二预设模型计算并加密得到的；所述第二预设模型为：利用所述第二机构对应的第二样本数据训练得到的。

本申请实施例中，第二TEE设备可以计算第二加密中间值，第二TEE设备计算第二加密中间值的方式与第一TEE设备计算第一加密中间值的方式相似，在此不再赘述。

S505：向所述第二TEE设备发送残差，所述残差为根据所述第一加密中间值和所述第二加密中间值计算得到的。

本申请实施例中，第一TEE可以根据第一加密中间值和第二加密中间值计算残差，并向第二TEE设备发送残差，使得第二TEE设备可以根据残差重新计算第二梯度，并硬件加密得到第二加密梯度。

S506：接收来自所述第二TEE设备的第二加密梯度；所述第二加密梯度为所述第二TEE设备根据所述残差重新计算第二梯度，并硬件加密所述第二梯度得到的。

S507：利用所述第一TEE设备根据所述残差计算第一梯度，并硬件加密所述第一梯度得到第一加密梯度。

S508：根据所述第一加密梯度和所述第二加密梯度计算目标梯度。

S509：利用所述目标梯度更新所述第一预设模型，得到所述第一模型。

本申请实施例中，第一TEE设备可以根据残差重新计算第一梯度，并硬件加密得到第一加密梯度，进而第一TEE设备可以汇总第一加密梯度和第二加密梯度，计算得到目标梯度。进而第一TEE设备可以根据目标梯度更新第一预设模型，最终得到第一模型。

可选的，第一TEE设备还向所述第二TEE设备发送公钥；所述公钥用于所述第二TEE设备加密数据。以及采用硬件加密所述目标梯度；向所述第二TEE设备发送加密的目标梯度，所述目标梯度用于所述第二TEE设备更新所述第二预设模型，得到所述第二模型。

本申请实施例中，第一TEE设备可以将目标梯度发送给第二TEE设备，进而第二TEE设备被可以根据目标梯度更新第二预设模型，最终得到第二模型。

具体应用中，可以迭代上述步骤直至损失函数收敛，这样就完成了整个训练过程。在样本对齐及模型训练过程中，第一机构和第二机构各自的数据均保留在本地，且训练中的数据交互均有加密，也不会导致数据隐私泄露。因此，双方在联邦学习的帮助下得以实现合作训练模型。

需要说明的是，与可能的联邦学习不同的是，通常的联邦学习需要依赖协作方服务器。本申请实施例的纵向联邦学习训练第一模型和第二模型中，不需要协作方服务器，中间值、残差、梯度等只在第一TEE设备和第二TEE设备之间传递，传递前需要用TEE加密，计算前要用TEE解密，从而可以简化联邦学习的架构。

示例性的，图6为本申请实施例的纵向联邦学习的交互过程示意图。第一TEE机器把公钥分发给第二TEE机器，用以对训练过程中需要交换的数据进行加密。第一TEE设备和第二TEE设备以加密形式交互用于计算梯度的中间结果，第一TEE设备和第二TEE设备基于加密的梯度值进行计算，之后第一TEE设备计算总梯度，第一TEE设备和第二TEE设备根据总梯度更新各自模型的参数。迭代上述步骤直至损失函数收敛，这样就完成了整个训练过程。

图7为本申请提供的数据处理的装置一实施例的结构示意图。如图7所示，本实施例提供的数据处理的装置包括：

获取模块71，用于获取用户标识对应于所述第一机构的第一用户特征；

设置模块72，用于将所述第一用户特征输入设置于所述第一服务器的第一模型；所述第一模型为：所述第一服务器基于所述第一机构的训练样本以及第二机构的训练样本，采用纵向联邦学习装置训练得到的；所述第二机构的用户特征与所述第一机构的用户特征不同；

输出模块73，用于利用所述第一模型输出第一预测结果；

接收模块74，用于接收来自第二服务器的第二预测结果；所述第二服务器属于所述第二机构；所述第二预测结果为：所述第二服务器中的第二模型根据所述用户标识对应于所述第二机构的第二用户特征输出的；所述第二模型为：所述第二服务器基于所述第一机构的训练样本以及所述第二机构的训练样本，采用纵向联邦学习装置训练得到的；

汇总模块75，用于汇总所述第一预测结果和所述第二预测结果，得到目标预测结果。

可选的，所述训练模块具体用于：

将所述第一预设模型设置在所述第一TEE设备中；

根据所述第一加密梯度和所述第二加密梯度计算目标梯度；

可选的，所述训练模块具体用于：

将所述第一公钥加密数据设置在所述第一TEE设备中。

可选的，所述训练模块具体用于：

根据所述第一明文数据计算所述第一中间值。

可选的，所述训练模块还用于：

采用硬件加密所述目标梯度；

本申请各实施例提供的数据处理的装置可用于执行如前述各对应的实施例所示的方法，其实现方式与原理相同，不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图8所示，是根据本申请实施例的数据处理的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图8所示，该电子设备包括：一个或多个处理器801、存储器802，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图8中以一个处理器801为例。

存储器802即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的数据处理的方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的数据处理的方法。

存储器802作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的数据处理的方法对应的程序指令/模块(例如，附图7所示的获取模块71、设置模块72、输出模块73、接收模块74和汇总模块75)。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的数据处理的方法。

存储器802可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据数据处理的电子设备的使用所创建的数据等。此外，存储器802可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器802可选包括相对于处理器801远程设置的存储器，这些远程存储器可以通过网络连接至数据处理的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

数据处理的方法的电子设备还可以包括：输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接，图8中以通过总线连接为例。

输入装置803可接收输入的数字或字符信息，以及产生与数据处理的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，第一机构的第一服务器中设置第一模型，第二机构的第二服务器中设置第二模型，第一模型和第二模型为各自的服务器基于所述第一机构的训练样本以及第二机构的训练样本，采用纵向联邦学习方法训练得到的，因此，第一模型输出的预测结果与第二模型输出的预测结构可以进行汇总，得到全面、准确的预测结果。具体来说，对于任一个用户标识，第一服务器可以获取用户标识对应于所述第一机构的第一用户特征，并将第一用户特征输入设置于所述第一服务器的第一模型，并利用所述第一模型输出第一预测结果；第二服务器可以获取用户标识对应于所述第二机构的第二用户特征，并将第二用户特征输入设置于所述第二服务器的第二模型，并利用所述第二模型输出第二预测结果。第二服务器将第二预测结果发送给第一服务器，则第一服务器可以汇总第一预测结果和第二预测结果，得到全面、准确的目标预测结果。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种数据处理的方法，其特征在于，应用于第一服务器，所述第一服务器属于第一机构；所述方法包括：

获取用户标识对应于所述第一机构的第一用户特征；

将所述第一用户特征输入设置于所述第一服务器的第一模型；所述第一模型为：所述第一服务器基于所述第一机构的训练样本以及第二机构的训练样本，采用纵向联邦学习方法训练得到的；所述第二机构的用户特征与所述第一机构的用户特征不同；

利用所述第一模型输出第一预测结果；

接收来自第二服务器的第二预测结果；所述第二服务器属于所述第二机构；所述第二预测结果为：所述第二服务器中的第二模型根据所述用户标识对应于所述第二机构的第二用户特征输出的；所述第二模型为：所述第二服务器基于所述第一机构的训练样本以及所述第二机构的训练样本，采用纵向联邦学习方法训练得到的；

汇总所述第一预测结果和所述第二预测结果，得到目标预测结果，其中，所述第一预测结果和所述第二预测结果具有关联关系。

2.根据权利要求1所述的方法，其特征在于，所述第一服务器设置有第一TEE设备，所述第二服务器设置有第二TEE设备，所述方法还包括：

基于所述第一TEE设备、所述第一机构对应的第一样本数据、所述第二TEE设备和所述第二机构对应的第二样本数据，采用纵向联邦学习方法训练得到所述第一模型。

3.根据权利要求2所述的方法，其特征在于，所述基于所述第一TEE设备、所述第一机构对应的第一样本数据、所述第二TEE设备和所述第二机构对应的第二样本数据，采用纵向联邦学习方法训练得到所述第一模型，包括：

将所述第一预设模型设置在所述第一TEE设备中；

根据所述第一加密梯度和所述第二加密梯度计算目标梯度；

4.根据权利要求3所述的方法，其特征在于，所述将所述第一预设模型设置在所述第一TEE设备中，包括：

将所述第一公钥加密数据设置在所述第一TEE设备中。

5.根据权利要求4所述的方法，其特征在于，所述利用所述第一TEE设备计算所述第一预设模型的第一中间值，包括：

根据所述第一明文数据计算所述第一中间值。

6.根据权利要求3-5任一项所述的方法，其特征在于，还包括：

7.根据权利要求3-5任一项所述的方法，其特征在于，还包括：

采用硬件加密所述目标梯度；

8.根据权利要求1所述的方法，其特征在于，所述第一机构为金融机构，所述第二机构为互联网机构。

9.一种数据处理的装置，其特征在于，应用于第一服务器，所述第一服务器属于第一机构；所述装置包括：

输出模块，用于利用所述第一模型输出第一预测结果；

汇总模块，用于汇总所述第一预测结果和所述第二预测结果，得到目标预测结果，其中，所述第一预测结果和所述第二预测结果具有关联关系。

10.根据权利要求9所述的装置，其特征在于，所述第一服务器设置有第一TEE设备，所述第二服务器设置有第二TEE设备，所述装置还包括：

11.根据权利要求10所述的装置，其特征在于，所述训练模块具体用于：

将所述第一预设模型设置在所述第一TEE设备中；

根据所述第一加密梯度和所述第二加密梯度计算目标梯度；

12.根据权利要求11所述的装置，其特征在于，所述训练模块具体用于：

将所述第一公钥加密数据设置在所述第一TEE设备中。

13.根据权利要求12所述的装置，其特征在于，所述训练模块具体用于：

根据所述第一明文数据计算所述第一中间值。

14.根据权利要求11-13任一项所述的装置，其特征在于，所述训练模块还用于：

15.根据权利要求11-13任一项所述的装置，其特征在于，所述训练模块还用于：

采用硬件加密所述目标梯度；

16.根据权利要求9所述的装置，其特征在于，所述第一机构为金融机构，所述第二机构为互联网机构。

17.一种电子设备，其特征在于，包括：

至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-8任一项所述的方法的指令。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，计算机指令用于使所述计算机执行如权利要求1-8任一项所述的方法。