CN112231308A

CN112231308A - 横向联邦建模样本数据的去重方法、装置、设备及介质

Info

Publication number: CN112231308A
Application number: CN202011095634.1A
Authority: CN
Inventors: 吴玙; 范涛; 马国强; 谭明超; 魏文斌; 郑会钿; 陈天健; 杨强
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2020-10-14
Filing date: 2020-10-14
Publication date: 2021-01-15
Anticipated expiration: 2040-10-14
Also published as: CN112231308B

Abstract

本发明公开了一种横向联邦建模样本数据的去重方法、装置、终端设备及存储介质，通过横向联邦的其中一个参与方，接收横向联邦中的其他参与方发送的加密数据，其中，其他参与方各自的加密数据由其他参与方针对各自的第一待选样本数据进行加密得到；根据本端的第二待选样本数据和加密数据，确定第一待选样本数据和第二待选样本数据中的重叠样本数据；联合其他参与方针对重叠样本数据进行去重，以根据去重后的第一待选样本数据和第二待选样本数据构建建模样本数据集。本发明在防止参与方自有数据的泄露，保证数据隐私安全的前提下，规避了直接基于参与方自有数据构建样本建模时，导致模型训练结果向重叠的部分样本倾斜的偏向性问题。

Description

横向联邦建模样本数据的去重方法、装置、设备及介质

技术领域

本发明涉及联邦学习技术领域，尤其涉及一种横向联邦建模样本数据的去重方法、装置、终端设备及存储介质。

背景技术

随着联邦学习技术的发展，联邦学习的应用变得越来越广泛。基于联邦学习技术，各参与方可在无需向其他参与方或者协调方暴露自己本端所拥有的数据，即可利用其他各参与方所拥有的数据进行机器学习建模，充分的保护了各参与方所拥有数据的隐私安全。

然而，在多方联合进行横向联邦学习的场景当中，各个参与方各自所拥有的数据可能存在数据内容一致的情况，即在该横向联邦中各个参与方用于机器学习建模的样本数据存在重叠，如此，若仍然直接利用各个参与方各自的数据进行建模，则会因为重叠的部分样本数据在模型训练过程中的比重加重，最终导致模型训练的结果出现向重叠样本数据倾斜。

综上，如何在确保横向联邦学习中各参与方数据隐私安全的前提下，针对各参与方用于进行机器学习建模的数据进行去重处理，以规避联邦学习模型训练结果向重叠样本数据倾斜的偏向性，俨然是本领域亟待解决的问题。

发明内容

本发明的主要目的在于提供一种横向联邦建模样本数据的去重方法、装置、终端设备及存储介质，旨在横向联邦学习中，在确保各参与方数据隐私安全的前提下，针对各参与方用于进行机器学习建模的数据进行去重处理，规避联邦学习模型训练结果向重叠样本数据倾斜的偏向性。

为实现上述目的，本发明提供一种横向联邦建模样本数据的去重方法，所述方法应用于横向联邦中的任意一个参与方，所述横向联邦建模样本数据的去重方法包括：

接收横向联邦中的其他参与方发送的加密数据，其中，所述其他参与方各自的加密数据由所述其他参与方针对各自的第一待选样本数据进行加密得到；

根据本端的第二待选样本数据和所述加密数据，确定所述第一待选样本数据和所述第二待选样本数据中的重叠样本数据；

联合所述其他参与方针对所述重叠样本数据进行去重，以根据去重后的第一待选样本数据和第二待选样本数据构建建模样本数据集。

进一步地，所述联合所述其他参与方针对所述重叠样本数据进行去重的步骤，包括：

在检测到所述第二待选样本数据中存在所述重叠样本数据时，保留所述第二待选样本数据中的所述重叠样本数据；

向所述其他参与方发送第一数据去重消息，以供所述其他参与方根据所述第一数据去重消息在所述第一待选样本数据中检测所述重叠样本数据并去除所述重叠样本数据。

进一步地，所述联合所述其他参与方针对所述重叠样本数据进行去重的步骤，还包括：

在检测到所述第二待选样本数据中存在所述重叠样本数据时，去除所述第二待选样本数据中的所述重叠样本数据；

向所述其他参与方发送第二数据去重消息，以供所述其他参与方根据所述第二数据去重消息在目标参与方的第一待选样本数据中保留所述重叠样本数据，其中，所述目标参与方为所述其他参与方中的其中一个。

在检测到所述第二待选样本数据中不存在所述重叠样本数据时，向所述其他参与方发送第二数据去重消息，以供所述其他参与方根据所述第二数据去重消息在目标参与方的第一待选样本数据中保留所述重叠样本数据，其中，所述目标参与方为所述其他参与方中的其中一个。

进一步地，所述向所述其他参与方发送第二数据去重消息，以供所述其他参与方根据所述第二数据去重消息在目标参与方的第一待选样本数据中保留所述重叠样本数据的步骤，包括：

向所述其他参与方发送所述第二数据去重消息，以供所述其他参与方从各所述其他参与方中确定目标参与方，并在除所述目标参与方之外的各其他参与方各自的第一待选样本数据中，检测所述重叠样本数据并去除所述重叠样本数据。

进一步地，在所述根据本端的第二待选样本数据和所述加密数据，确定所述第一待选样本数据和所述第二待选样本数据中的重叠样本数据的步骤之前，还包括：

调用预设加密方式针对本端的第二待选样本数据进行加密，其中，所述预设加密方式与横向联邦中的其他参与方针对各自的第一待选样本数据进行加密时所采用的加密方式相同。

进一步地，所述根据本端的第二待选样本数据和所述加密数据，确定所述第一待选样本数据和所述第二待选样本数据中的重叠样本数据的步骤，包括：

检测所述加密数据和针对本端的第二待选样本数据进行加密得到的加密数据中，是否存在数据内容一致的重叠加密数据；

若是，则将所述重叠加密数据在所述第一待选样本数据和/或者所述第二待选样本数据中对应的目标样本数据确定为重叠样本数据；或者，

若是，则向所述其他参与方发送所述重叠加密数据，以供所述其他参与方将所述重叠加密数据在所述第一待选样本数据中对应的目标样本数据确定为重叠样本数据。

此外，为实现上述目的，本发明还提供一种横向联邦建模样本数据的去重装置，所述装置应用与横向联邦中的任意一个参与方，所述横向联邦建模样本数据的去重装置包括：

接收模块，用于接收横向联邦中的其他参与方发送的加密数据，其中，所述其他参与方各自的加密数据由所述其他参与方针对各自的第一待选样本数据进行加密得到；

重叠确定模块，用于根据本端的第二待选样本数据和所述加密数据，确定所述第一待选样本数据和所述第二待选样本数据中的重叠样本数据；

联合去重模块，用于联合所述其他参与方针对所述重叠样本数据进行去重，以根据去重后的第一待选样本数据和第二待选样本数据构建建模样本数据集。

本发明横向联邦建模样本数据的去重装置的各功能模块在运行时实现如上述中的横向联邦建模样本数据的去重方法的步骤。

此外，为实现上述目的，本发明还提供一种终端设备，所述终端设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的横向联邦建模样本数据的去重程序，所述横向联邦建模样本数据的去重程序被所述处理器执行时实现如上述中的横向联邦建模样本数据的去重方法的步骤。

此外，为实现上述目的，本发明还提供一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述的横向联邦建模样本数据的去重方法的步骤。

本发明提出的横向联邦建模样本数据的去重方法、装置、终端设备以及存储介质，通过参与横向联邦学习的任意一个参与方，接收横向联邦中的其他参与方发送的加密数据，其中，所述其他参与方各自的加密数据由所述其他参与方针对各自的第一待选样本数据进行加密得到；根据本端的第二待选样本数据和所述加密数据，确定所述第一待选样本数据和所述第二待选样本数据中的重叠样本数据；联合所述其他参与方针对所述重叠样本数据进行去重，以根据去重后的第一待选样本数据和第二待选样本数据构建建模样本数据集。

本发明在横向联邦学习的多个参与方利用自有数据作为建模样本数据集进行机器学习建模之前，该多个参与方均将自有数据作为待选样本数据，并基于其中一个参与方接收到其他参与方发送的加密数据，该加密数据为其他参与方针对各自第一待选样本数据进行加密得到，然后，该参与方基于自己本端的第二待选样本数据与接收到的加密数据一起，从该全部参与方各自的待选样本数据中确定出数据内容相同的重叠样本数据，最后，该参与方联合其他参与方共同针对确定出的重叠样本数据进行去重处理，以供该横向联邦中的全部参与方各自用经过去重处理之后的待选样本数据来构建建模样本数据集进行机器学习建模。

本发明实现了，在横向联邦中各参与方利用自有数据进行机器学习建模之前，针对全部各参与方所拥有的自有数据进行数据去重处理，然后利用经过去重后的自有数据构建样本数据集用于建模，规避了直接基于参与方自有数据构建样本建模时，因为参与方的自有数据相互之间存在重叠，使重叠的部分样本在模型中的比重加重，进而导致模型训练结果向重叠的部分样本倾斜的偏向性问题，确保了利用去重后自有数据的样本数据集建立的联邦模型，能够训练得到高度可信的训练结果。

此外，本发明基于在横向联邦中各参与方传输的数据进行加密处理，有效的防止了参与方自有数据的泄露，保证了各参与方相互之间的数据隐私安全。

附图说明

图1是本发明实施例方案涉及终端设备的硬件运行的结构示意图；

图2是本发明一种横向联邦建模样本数据的去重方法一实施例的流程示意图；

图3是本发明一种横向联邦建模样本数据的去重方法一实施例中步骤300的一细化流程示意图；

图4是是本发明一种横向联邦建模样本数据的去重方法一实施例中步骤300的另一细化流程示意图；

图5本发明一种横向联邦建模样本数据的去重装置的模块结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及终端设备的硬件运行环境的结构示意图。

需要说明的是，图1即可为终端设备的硬件运行环境的结构示意图。本发明实施例终端设备可以是PC，便携计算机等终端设备。

如图1所示，该终端设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的终端设备结构并不构成对终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及分布式任务的处理程序。其中，操作系统是管理和控制样本终端设备硬件和软件资源的程序，支持分布式任务的处理程序以及其它软件或程序的运行。

在图1所示的终端设备中，用户接口1003主要用于与各个终端进行数据通信；网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；而处理器1001可以用于调用存储器1005中存储的横向联邦建模样本数据的去重程序，并执行以下操作：

进一步地，处理器1001可以调用存储器1005中存储的横向联邦建模样本数据的去重程序，还执行以下操作：

进一步地，处理器1001可以调用存储器1005中存储的横向联邦建模样本数据的去重程序，在执行根据本端的第二待选样本数据和所述加密数据，确定所述第一待选样本数据和所述第二待选样本数据中的重叠样本数据之前，还执行以下操作：

基于上述的结构，提出本发明横向联邦建模样本数据的去重方法的各个实施例。

请参照图2，图2为本发明横向联邦建模样本数据的去重方法第一实施例的流程示意图。

本发明实施例提供了横向联邦建模样本数据的去重方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本发明实施例横向联邦建模样本数据的去重方法应用于上述作为横向联邦中任意一个参与方的终端设备，本发明实施例终端设备可以是PC，便携计算机等终端设备，在此不做具体限制。此外，本发明实施例横向联邦建模样本数据的去重方法还可以应用于作为横向联邦中协调方的终端设备上，将该横向联邦建模样本数据的去重方法应用在作为协调方的终端设备上，与将横向联邦建模样本数据的去重方法应用在作为参与方的终端设备上的区别在于，若该协调方在横向联邦中完全可信，即，该协调方并不会对各参与方的数据造成泄漏以影响各参与方的数据隐私安全，则各参与方可直接将自有的待选样本数据传输给协调方，以供协调方直接进行数据比对来确定重叠样本数据。

本实施例横向联邦建模样本数据的去重方法包括：

步骤S100，接收横向联邦中的其他参与方发送的加密数据，其中，所述其他参与方各自的加密数据由所述其他参与方针对各自的第一待选样本数据进行加密得到；

需要说明的是，在本实施例中，参与横向联邦的各个参与方在依据自有数据构建建模样本数据集，来进行横向联邦的机器学习建模之前，各个参与方均将各自的自有数据作为待选样本数据，以用于提前针对该待选样本数据中重叠的部分数据进行去重处理。此外，在该横向联邦中，参与方的个数大于等于两个，其中，为了便于阐述，将当前参与方(横向联邦中，用于在本端接收来自其他参与方加密数据，以确定该横向联邦各参与方全部待选样本数据中重叠的部分数据)的待选样本数据标记为第二待选样本数据，而将横向联邦中除当前参与方之外的其他参与方的待选样本数据，标记为第一待选样本数据。

在参与横向联邦的多个参与方中，由该横向联邦中的任意一个当前参与方，接收来自该横向联邦中其他参与方发送的、该其他参与方预先针对各自的第一待选样本数据进行加密得到的加密数据。

需要说明的是，在本实施例中，当前参与方具体可以通过“guest方”进行表示，而该横向联邦中除开“guest方”的其他参与方具体可以通过“host方”表示，且该“host方”可以有多个，即“host1”、“host2”...“hostj”。应当理解是，在本实施例中，该横向联邦中的任意一个参与方均可以作为“guest方”，该横向联邦的各个参与方中除开“guest方”之外的其他参与方均为“host方”，该“host方”的具体数量不做限制。例如，在由三个参与方相互联合建立的横向联邦中，将其中任意一个参与方作为“guest方”，而将剩余的两个其他参与方作为“host1”和“host2”，从而，在作为该“guest方”的终端设备上来确定“guest方”、“host1”和“host2”各自所拥有自有数据中重叠的部分数据。

具体地，例如，在由“guest方”、“host1”和“host2”联合建立的横向联邦中，当“guest方”、“host1”和“host2”需要基于各自的自有数据建立样本数据集以进行机器学习建模时，该“guest方”将自有数据标记为第二待选样本数据，“host1”和“host2”则分别将自有数据标记为各自的第一待选样本数据；然后，“host1”和“host2”分别在各自本地针对各自第一待选样本数据进行加密得到各自加密数据，最后，由作为“guest方”的终端设备在本端接收来自“host1”和“host2”各自发送的加密数据。

需要说明的是，在本实施例中，“host1”和“host2”分别在各自本地针对各自第一待选样本数据进行加密时，均采用预先与“guest方”协商好的加密方式，并且，为便于后续“guest方”基于加密数据准确确定出待选样本数据中数据内容一致的重叠数据，“host1”和“host2”基于该加密方式得到的加密数据，与各自的第一待选样本数据之间具有数据内容一一映射的关系。例如，“host1”和“host2”预先与“guest方”协商好的加密方式可以选用哈希算法-sha256，如此，“host1”和“host2”基于该哈希算法-sha256对各自第一待选样本数据进行加密得到的加密数据，即可使加密数据内容与第一待选样本数据的数据内容之间，保持一一映射的关系。

进一步地，在一种可行的实施例中，为了保证“host1”和“host2”分别在各自本地针对各自第一待选样本数据进行加密时的效率，“host1”和“host2”可以在进行加密之前，先基于现有成熟的数据格式转换技术将各自的第一待选样本数据转化成字符串格式，然后基于与“guest方”协商好的加密方式(如哈希算法-sha256)针对该字符串格式的第一待选样本数据进行加密得到加密数据。

步骤S200，根据本端的第二待选样本数据和所述加密数据，确定所述第一待选样本数据和所述第二待选样本数据中的重叠样本数据；

当前参与方在接收到其他参与方发送的加密数据之后，当前参与方根据针对本端自有的第二待选样本数据进行加密得到加密数据，与接收到的该其他参与方发送的加密数据一起，确定出本端自有的第二待选样本数据和其他参与方各自的第一待选样本数据中，所存在数据内容一致的重叠样本数据。

需要说明的是，在本实施例中，将存在于当前参与方本端的第二待选样本数据与其他参与方各自的第一待选样本数据中(或者仅存在于其他参与方各自第一待选样本数据中)，数据内容一致的部分数据标记为重叠样本数据。

进一步地，在一种可行的实施例中，在上述步骤S200之前，本发明实施例横向联邦建模样本数据的去重方法，还可以包括：

步骤S400，调用预设加密方式针对本端的第二待选样本数据进行加密，其中，所述预设加密方式与横向联邦中的其他参与方针对各自的第一待选样本数据进行加密时所采用的加密方式相同。

当前参与方通过调用其他参与方针对各自的第一待选样本数据进行加密得到加密数据时所采用的加密方式，也在本端针对自有的第二待选样本数据进行加密。

需要说明的是，在本实施例中，为了当前参与方能够在本端根据接收到的加密数据，确定本端自有的第二待选样本数据和该加密数据所对应第一待选样本数据中的重叠样本数据，当前参与方可以在接收到其他参与方各自发送的加密数据之后，或者，当前参与方也可以在其他参与方各自针对第一待选样本数据进行加密的同时，调用与其他参与方针对第一待选样本数据进行加密时所使用加密方式相同的加密方式，针对本端自有的第二待选样本数据进行加密处理。此外，当前参与方在调用该加密方式针对第二待选样本数据进行加密时，可执行与其他参与方针对各自第一待选样本数据进行加密相同的过程。

具体地，例如，在“host1”和“host2”分别在各自本地先将各自的第一待选样本数据转化为字符串格式，然后基于与“guest方”协商好的加密方式-哈希算法-sha256，针对该字符串格式的第一待选样本数据进行加密得到加密数据的同时，作为“guest方”的终端设备也同步在本端先将自有的第二待选样本数据转化成为字符串格式，然后基于调用相同的加密方式-哈希算法-sha256，针对该字符串格式的第二待选样本数据进行加密。

需要说明的是，在本实施例中，当前参与方在本端针对自有的第二待选样本数据进行加密得到加密数据，同样与第二待选样本数据本身存在数据内容之间一一映射的关系。

进一步地，在一种可行的实施例中，上述步骤S200，根据本端的第二待选样本数据和所述加密数据，确定所述第一待选样本数据和所述第二待选样本数据中的重叠样本数据，可以包括：

步骤S201，检测所述加密数据和针对本端的第二待选样本数据进行加密得到的加密数据中，是否存在数据内容一致的重叠加密数据；

当前参与方在采用与其他参与方所使用相同的加密方式针对自有的第二待选样本数据进行加密之后，当前参与方将接收到的其他参与方发送的加密数据与在本端对第二待选样本数据进行加密得到加密数据进行数据对齐，然后通过比对该加密数据来检测是否存在数据内容一致的重叠加密数据。

具体地，例如，作为“guest方”的终端设备在本端，先将自有的第二待选样本数据转化成为字符串格式，然后基于调用相同的加密方式-哈希算法-sha256，针对该字符串格式的第二待选样本数据进行加密之后，“guest方”将针对第二待选样本数据进行加密得到的加密数据，与接收到的“host1”和“host2”分别发送的加密数据进行数据对齐，然后检测该三份加密数据中是否存在数据内容(加密后的数据内容)一致的重叠加密数据。

步骤S202，若是，则将所述重叠加密数据在所述第二待选样本数据中对应的目标样本数据确定为重叠样本数据；

当前参与方若通过比对加密数据检测到该加密数据中存在数据内容一致的重叠加密数据，且进一步检测到在本端的加密数据中包含有该重叠加密数据时，当前参与方从本端自有的第二待选样本数据中，确定出该重叠加密数据所对应的目标样本数据作为重叠样本数据。

具体地，例如，作为“guest方”的终端设备在本端检测到一共三份加密数据(针对本端自有的第二待选样本数据得到的加密数据，和接收到的“host1”和“host2”分别发送的加密数据)中存在加密后数据内容一致的重叠加密数据时，并且，“guest方”检测该三份加密数据中，“host1”发送的加密数据和“guest方”本端的加密数据(“guest方”在本端针对第二待选样本数据进行加密得到)均包含有该重叠加密数据(或者，host1”和“host2”分别发送的两份加密数据以及“guest方”本端的加密数据均包含有该重叠加密数据)，从而，“guest方”基于本端的加密数据与自有的第二待选样本数据之间，数据内容一一映射的关系，从该第二待选样本数据中确定出该重叠加密数据对应的目标样本数据作为后续需要进行去重处理的重叠样本数据。

步骤S203，若是，则向所述其他参与方发送所述重叠加密数据，以供所述其他参与方将所述重叠加密数据在所述第一待选样本数据中对应的目标样本数据确定为重叠样本数据。

当前参与方若通过比对加密数据检测到该加密数据中存在数据内容一致的重叠加密数据，且进一步检测到在仅在接收到的其他参与方发送的加密数据中包含有该重叠加密数据时，当前参与方则将该重叠加密数据反馈至其他参与方，其他参与方在接收到该重叠加密数据之后，从自有的第一待选样本数据中，确定出该重叠加密数据所对应的目标样本数据作为重叠样本数据。

需要说明的是，在另一种可行的实施例中，为节约通信成本考虑，当前参与方在进一步检测到在仅在接收到的其他参与方发送的加密数据中包含有该重叠加密数据时，还可以生成重叠加密数据的数据标识，并将该数据标识反馈至其他参与方，其他参与方在接收到该重叠加密数据之后，先从各自的加密数据中定位该重叠加密数据，并从自有的第一待选样本数据中，确定出该重叠加密数据所对应的目标样本数据作为重叠样本数据。

具体地，例如，作为“guest方”的终端设备在本端检测到一共三份加密数据(针对本端自有的第二待选样本数据得到的加密数据，和接收到的“host1”和“host2”分别发送的加密数据)中存在加密后数据内容一致的重叠加密数据时，并且，“guest方”检测该三份加密数据中，“host1”和“host2”分别发送的两份加密数据均包含有该重叠加密数据(或者，host1”和“host2”分别发送的两份加密数据以及“guest方”本端的加密数据均包含有该重叠加密数据)，则“guest方”将该重叠加密数据统一分发至“host1”和“host2”，该“host1”和“host2”在接收到该重叠加密数据之后，基于各自的加密数据与自有的第一待选样本数据之间数据内容一一映射的关系，各自从该第一待选样本数据中确定出该重叠加密数据对应的目标样本数据作为后续需要进行去重处理的重叠样本数据。

步骤S300，联合所述其他参与方针对所述重叠样本数据进行去重，以根据去重后的第一待选样本数据和第二待选样本数据构建建模样本数据集。

当前参与方在从本端自有的第二待选样本数据和其他参与方各自的第一待选样本数据中，确定出数据内容一致的重叠样本数据之后，当前参与方联合其他参与方一起，针对本端自有的第二待选样本数据中的重叠样本数据进行清除，或者针对其他参与方各自的第一待选样本数据中的重叠样本数据进行清除，以完成针对该重叠样本数据的去重处理，从而，使当前横向联邦的各参与方，根据仅保留有一份重叠样本数据的第一待选样本数据和第二待选样本数据，来构建用于进行机器学习建模的建模样本数据集。

具体地，例如，“guest方”在从本端自有的第二待选样本数据和“host1”自有的第一待选样本数据中确定出数据内容一致的重叠样本数据之后，“guest方”可以将该第二待选样本数据中包含的重叠样本数据清除，并通知“host1”保留该第一待选样本数据中包含的那一份重叠样本数据；或者，“guest方”还可以在本端保留第二待选样本数据中包含的重叠样本数据，并通知“host1”将第一待选样本数据中的那一份重叠样本数据清除，从而，保证在“guest方”自有的第二待选样本数据以及“host1”和“host2”各自的第一待选样本数据中，始终仅保留有唯一一份重叠样本数据，以在该“guest方”、“host1”和“host2”进行横向联邦的机器学习建模时，再利用该仅保留有唯一一份重叠样本数据的第一待选样本数据和第二待选样本数据，来构建建模数据样本集。

在本实施例中，通过在参与横向联邦的多个参与方中，由该横向联邦中的任意一个当前参与方，接收来自该横向联邦中其他参与方发送的、该其他参与方预先针对各自的第一待选样本数据进行加密得到的加密数据；当前参与方在接收到其他参与方发送的加密数据之后，当前参与方根据针对本端自有的第二待选样本数据进行加密得到加密数据，与接收到的该其他参与方发送的加密数据一起，确定出本端自有的第二待选样本数据和其他参与方各自的第一待选样本数据中，所存在数据内容一致的重叠样本数据；当前参与方在从本端自有的第二待选样本数据和其他参与方各自的第一待选样本数据中，确定出数据内容一致的重叠样本数据之后，当前参与方联合其他参与方一起，针对本端自有的第二待选样本数据中的重叠样本数据进行清除，或者针对其他参与方各自的第一待选样本数据中的重叠样本数据进行清除，以完成针对该重叠样本数据的去重处理，从而，使当前横向联邦的各参与方，根据仅保留有一份重叠样本数据的第一待选样本数据和第二待选样本数据，来构建用于进行机器学习建模的建模样本数据集。

进一步地，基于上述本发明横向联邦建模样本数据的去重方法的第一实施例，提出本发明横向联邦建模样本数据的去重方法的第二实施例，请参照附图3，在本发明横向联邦建模样本数据的去重方法的第二实施例中，上述步骤S300中，“联合所述其他参与方针对所述重叠样本数据进行去重”的步骤，可以包括：

步骤S301，在检测到所述第二待选样本数据中存在所述重叠样本数据时，保留所述第二待选样本数据中的所述重叠样本数据；

当前参与方在联合其他参与方针对确定出的重叠样本数据进行去重处理时，若当前参与方检测到在本端的第二待选样本数据中包含有该重叠样本数据，则当前参与方可选择不在本端针对自有的该重叠样本数据进行去重，即直接保留将该第二待选样本数据中包含的重叠加密数据。

具体地，例如，作为“guest方”的终端设备在本端检测到三份加密数据(“guest方”针对本端自有的第二待选样本数据得到的加密数据、和接收到的“host1”和“host2”分别发送的加密数据)中，存在加密后数据内容一致的重叠加密数据，并且，“guest方”检测到该三份加密数据中，“host1”发送的加密数据和“guest方”本端的加密数据(“guest方”在本端针对第二待选样本数据进行加密得到)均包含有该重叠加密数据(或者，host1”和“host2”分别发送的两份加密数据以及“guest方”本端的加密数据均包含有该重叠加密数据)，从而，“guest方”确定在自有的第二待选样本数据中包含有重叠样本数据，然后，“guest方”直接针对该第二待选样本数据中包含的重叠样本数据进行保留。

步骤S302，向所述其他参与方发送第一数据去重消息，以供所述其他参与方根据所述第一数据去重消息在所述第一待选样本数据中检测所述重叠样本数据并去除所述重叠样本数据。

需要说明的是，在本实施例中，第一数据去重消息为通知其他参与方针对自有的第一待选样本数据所包含的重叠样本数据进行清除，该第一数据去重消息当中可以携带当前参与方确定出的重叠加密数据或者重叠加密数据的数据标识。应当理解的是，在本实施例中，第一数据去重消息的具体内容可以由横向联邦中各参与方预先进行协商，并且，基于实际应用的不同设计需要，在不同的实施方式当中，该第一数据去重消息的具体内容当然可以存在区别，如，在确定出的重叠加密数据的数据量大于整个第一待选样本数据中除开该重叠加密数据之外的非重叠加密数据时，还可以在该第一数据去重消息中携带该非重叠加密数据或者非重叠加密数据的数据标识。本发明实施例横向联邦建模样本数据的去重方法，并不针对该第一数据去重消息的具体内容进行限定。

当前参与方在保留自有的第二待选样本数据中包含的重叠样本数据时，当前参与方同步向其他参与方发送第一数据去重消息，其他参与方在接收到该第一数据去重消息之后，即开始根据该第一数据去重消息中携带的重叠加密数据或者重叠加密数据的数据标识，在各自的第一待选样本数据当中，检测该第一待选样本数据中是否包含有重叠样本数据，并在检测是时，直接将该重叠样本数据进行清除。

具体地，例如，作为“guest方”的终端设备在本端检测到一共三份加密数据(针对本端自有的第二待选样本数据得到的加密数据，和接收到的“host1”和“host2”分别发送的加密数据)中存在加密后数据内容一致的重叠加密数据时，并且，“guest方”检测该三份加密数据中，host1”发送的加密数据以及“guest方”本端的加密数据均包含有该重叠加密数据，并且，“guest方”保留了自有的第二待选样本数据中包含的与重叠加密数据向对应的重叠样本数据之后，“guest方”将该重叠加密数据封装在用于通知“host1”和“host2”直接清除重叠样本数据的第一数据去重消息当中，并将该第一数据去重消息统一分发至“host1”和“host2”，该“host1”和“host2”在接收到该第一数据去重消息之后，提取出该重叠加密数据，并基于各自的加密数据与自有的第一待选样本数据之间数据内容一一映射的关系，从各自的第一待选样本数据中检测是否包含有该重叠加密数据对应的重叠样本数据，从而，在“host1”检测得到自有的第一待选样本数据中包含有重叠样本数据时，“host1”直接清除该重叠样本数据。

进一步地，在另一种可行的实施例中，当前参与方还可以仅向第一待选样本数据中存在重叠样本数据的其他参与方，发送第一数据去重消息，而向第一待选样本数据中不存在重叠样本数据的其他参与方发送一个空数据集。

具体地，例如，作为“guest方”的终端设备在本端检测到host1”发送的加密数据以及“guest方”本端的加密数据均包含有重叠加密数据，并且，“guest方”保留了自有的第二待选样本数据中包含的与重叠加密数据向对应的重叠样本数据之后，“guest方”向“host2”下发一个空的数据集，并将该重叠加密数据封装在用于通知“host1”直接清除重叠样本数据的第一数据去重消息当中，并将该第一数据去重消息分发至“host1”，从而使“host1”根据该第一数据去重消息在“host1”检测得到自有的第一待选样本数据中包含有重叠样本数据时，“host1”直接清除该重叠样本数据。

进一步地，在另一种可行的实施例中，请参照附图4，上述步骤S300中，“联合所述其他参与方针对所述重叠样本数据进行去重”的步骤，还可以包括：

步骤S303，在检测到所述第二待选样本数据中存在所述重叠样本数据时，去除所述第二待选样本数据中的所述重叠样本数据；

当前参与方在联合其他参与方针对确定出的重叠样本数据进行去重处理时，若当前参与方检测到在本端的第二待选样本数据中包含有该重叠样本数据，则当前参与方还可选择在本端针对自有的该重叠样本数据进行去重，即直接清除掉该第二待选样本数据中包含的重叠加密数据。

具体地，例如，作为“guest方”的终端设备在本端检测到三份加密数据(“guest方”针对本端自有的第二待选样本数据得到的加密数据、和接收到的“host1”和“host2”分别发送的加密数据)中，存在加密后数据内容一致的重叠加密数据，并且，“guest方”检测到该三份加密数据中，“host1”发送的加密数据和“guest方”本端的加密数据(“guest方”在本端针对第二待选样本数据进行加密得到)均包含有该重叠加密数据(或者，host1”和“host2”分别发送的两份加密数据以及“guest方”本端的加密数据均包含有该重叠加密数据)，从而，“guest方”确定在自有的第二待选样本数据中包含有重叠样本数据，然后，“guest方”直接针对该第二待选样本数据中包含的重叠样本数据进行清除。

步骤S304，向所述其他参与方发送第二数据去重消息，以供所述其他参与方根据所述第二数据去重消息在目标参与方的第一待选样本数据中保留所述重叠样本数据，其中，所述目标参与方为所述其他参与方中的其中一个。

需要说明的是，在本实施例中，第二数据去重消息为通知其他参与方，在全部自有的第一待选样本数据中所包含的多份重叠样本数据中，保留其中一份重叠样本数据，该第二数据去重消息当中可以携带当前参与方确定出的重叠加密数据或者重叠加密数据的数据标识。应当理解的是，在本实施例中，第二数据去重消息的具体内容也可以由横向联邦中各参与方预先进行协商，并且，基于实际应用的不同设计需要，在不同的实施方式当中，该第二数据去重消息的具体内容当然可以存在区别，如，在确定出的重叠加密数据的数据量大于整个第一待选样本数据中除开该重叠加密数据之外的非重叠加密数据时，还可以在该第二数据去重消息中携带该非重叠加密数据或者非重叠加密数据的数据标识。本发明实施例横向联邦建模样本数据的去重方法，并不针对该第二数据去重消息的具体内容进行限定。

此外，在本实施例中，目标参与方为其他参与方当中的任意一个，横向联邦中各参与方可以预先协商由其他参与方中的哪一个参与方来作为该目标参与方，或者，当前参与方也可以在向该其他参与方发送第二数据去重消息的同时，在该其他参与方当中随机指定一个参与方作为目标参与方。

当前参与方在清除自有的第二待选样本数据中包含的重叠样本数据时，当前参与方同步向其他参与方发送第二数据去重消息，其他参与方在接收到该第二数据去重消息之后，即开始确定出一个目标参与方，然后该目标参与方根据该第一数据去重消息中携带的重叠加密数据或者重叠加密数据的数据标识，在自有的第一待选样本数据当中，检测并清除该重叠样本数据。

进一步地，在另一种可行的实施例中，上述步骤S300中，“联合所述其他参与方针对所述重叠样本数据进行去重”的步骤，还可以包括：

步骤S305，在检测到所述第二待选样本数据中不存在所述重叠样本数据时，向所述其他参与方发送第二数据去重消息，以供所述其他参与方根据所述第二数据去重消息在目标参与方的第一待选样本数据中保留所述重叠样本数据，其中，所述目标参与方为所述其他参与方中的其中一个。

当前参与方在联合其他参与方针对确定出的重叠样本数据进行去重处理时，若当前参与方检测到在本端的第二待选样本数据中没有包含该重叠样本数据，则当前参与方便直接向其他参与方发送第二数据去重消息，其他参与方在接收到该第二数据去重消息之后，即开始确定出一个目标参与方，然后该目标参与方根据该第一数据去重消息中携带的重叠加密数据或者重叠加密数据的数据标识，在自有的第一待选样本数据当中，检测并清除该重叠样本数据。

进一步地，在一种可行的实施例中，上述步骤S304或者步骤S305中，“向所述其他参与方发送第二数据去重消息，以供所述其他参与方根据所述第二数据去重消息在目标参与方的第一待选样本数据中保留所述重叠样本数据”的步骤，可以包括：

步骤A，向所述其他参与方发送所述第二数据去重消息，以供所述其他参与方从各所述其他参与方中确定目标参与方，并在除所述目标参与方之外的各其他参与方各自的第一待选样本数据中，检测所述重叠样本数据并去除所述重叠样本数据。

具体地，例如，作为“guest方”的终端设备在本端检测到一共三份加密数据(针对本端自有的第二待选样本数据得到的加密数据，和接收到的“host1”和“host2”分别发送的加密数据)中均存在加密后数据内容一致的重叠加密数据，且“guest方”直接选择清除了自有的第二待选样本数据中包含的与重叠加密数据向对应的重叠样本数据(或者，“guest方”仅检测到接收到的“host1”和“host2”分别发送的加密数据中，存在加密后数据内容一致的重叠加密数据)之后，“guest方”将该重叠加密数据封装在用于通知“host1”和“host2”保留一份重叠样本数据的第二数据去重消息当中，将该第二数据去重消息统一分发至“host1”和“host2”并同步随即指定由“host2”作为清除重叠样本数据的目标参与方，从而，被指定为目标参与方的“host2”在接收到该第二数据去重消息之后，提取出该重叠加密数据，并基于自有的加密数据与自有的第一待选样本数据之间数据内容一一映射的关系，从该第一待选样本数据中检测该重叠加密数据对应的重叠样本数据，然后“host2”直接清除该重叠样本数据，而没有被指定为目标参与方的“host1”在接收到该第二数据去重消息之后，提取出重叠加密数据并该第一待选样本数据中检测该重叠加密数据对应的重叠样本数据，然后针对该重叠样本数据进行保留。

在本实施例中，当前参与方联合其他参与方，在本端自有的第二待选样本数据中包含重叠样本数据时，当前参与方可以选择针对该重叠样本数据进行保留，从而当前参与方随即向其他参与方发送第一数据去重消息，以令其他参与方各自针对自有的第一待选样本数据中的重叠样本数据进行清除，此外，当前参与方若选择了针对本端自有的重叠样本数据进行清除，或者，当前参与方本端自有的第二待选样本数据中不包含重叠样本数据，则当前参与方随即向其他参与方发送第二数据去重消息，以令其他参与方先确定出一个保留重叠样本数据的目标参与方，然后，由该其他参与方中除开该目标参与方之外的各参与方，各自针对自有的第一待选样本数据中的重叠样本数据进行清除。

实现了，在横向联邦中各参与方利用自有数据进行机器学习建模之前，由其中的一个参与方联合其他参与方，针对全部各参与方所拥有的自有数据进行数据去重处理，以使得该自有数据中始终只保留有一份重叠的数据，从而，由各参与方利用经过去重后的自有数据构建样本数据集用于建模，确保了利用去重后自有数据的样本数据集建立的联邦模型，能够训练得到高度可信的训练结果。此外，当横向联邦中各参与方进行数据传输的过程中，均针对自有数据进行加密处理，如此，有效的防止了参与方自有数据的泄露，保证了各参与方相互之间的数据隐私安全。

此外，请参照图5，本发明实施例还提出一种横向联邦建模样本数据的去重装置，所述装置应用与横向联邦中的任意一个参与方，所述横向联邦建模样本数据的去重装置包括：

优选地，所述联合去重模块，包括：

保留单元，用于在检测到所述第二待选样本数据中存在所述重叠样本数据时，保留所述第二待选样本数据中的所述重叠样本数据；

第一发送单元，用于向所述其他参与方发送第一数据去重消息，以供所述其他参与方根据所述第一数据去重消息在所述第一待选样本数据中检测所述重叠样本数据并去除所述重叠样本数据。

优选地，所述联合去重模块，还包括：

去除单元，用于在检测到所述第二待选样本数据中存在所述重叠样本数据时，去除所述第二待选样本数据中的所述重叠样本数据；

第二发送单元，向所述其他参与方发送第二数据去重消息，以供所述其他参与方根据所述第二数据去重消息在目标参与方的第一待选样本数据中保留所述重叠样本数据，其中，所述目标参与方为所述其他参与方中的其中一个。

优选地，所述第二发送单元，还用于在检测到所述第二待选样本数据中不存在所述重叠样本数据时，向所述其他参与方发送第二数据去重消息，以供所述其他参与方根据所述第二数据去重消息在目标参与方的第一待选样本数据中保留所述重叠样本数据，其中，所述目标参与方为所述其他参与方中的其中一个。

优选地，所述第二发送单元，还用于向所述其他参与方发送所述第二数据去重消息，以供所述其他参与方从各所述其他参与方中确定目标参与方，并在除所述目标参与方之外的各其他参与方各自的第一待选样本数据中，检测所述重叠样本数据并去除所述重叠样本数据。

优选地，本发明横向联邦建模样本数据的去重装置，还包括：

加密模块，用于调用预设加密方式针对本端的第二待选样本数据进行加密，其中，所述预设加密方式与横向联邦中的其他参与方针对各自的第一待选样本数据进行加密时所采用的加密方式相同。

优选地，所述重叠确定模块，包括：

检测单元，用于检测所述加密数据和针对本端的第二待选样本数据进行加密得到的加密数据中，是否存在数据内容一致的重叠加密数据；

第一确定单元，用于将所述重叠加密数据在所述第二待选样本数据中对应的目标样本数据确定为重叠样本数据；

第二确定单元，用于向所述其他参与方发送所述重叠加密数据，以供所述其他参与方将所述重叠加密数据在所述第一待选样本数据中对应的目标样本数据确定为重叠样本数据。

其中，本发明横向联邦建模样本数据的去重装置的各功能模块在运行时所实现的步骤，可参照上述本发明横向联邦建模样本数据的去重装置方法的各个三实施例，此处不再赘述。

此外，本发明实施例还提出一种终端设备，该终端设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的横向联邦建模样本数据的去重程序，该横向联邦建模样本数据的去重程序被所述处理器执行时实现如上述中的横向联邦建模样本数据的去重方法的步骤。

其中，在所述处理器上运行的横向联邦建模样本数据的去重程序被执行时所实现的步骤可参照本发明横向联邦建模样本数据的去重方法的各个实施例，此处不再赘述。

此外，本发明实施例还提出一种存储介质，应用于计算机，该存储介质可以为非易失性计算机可读存储介质，该存储介质上存储有横向联邦建模样本数据的去重程序，所述横向联邦建模样本数据的去重程序被处理器执行时实现如上所述的横向联邦建模样本数据的去重方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种横向联邦建模样本数据的去重方法，其特征在于，所述方法应用于横向联邦中的任意一个参与方，所述横向联邦建模样本数据的去重方法包括：

2.如权利要求1所述的横向联邦建模样本数据的去重方法，其特征在于，所述联合所述其他参与方针对所述重叠样本数据进行去重的步骤，包括：

3.如权利要求1所述的横向联邦建模样本数据的去重方法，其特征在于，所述联合所述其他参与方针对所述重叠样本数据进行去重的步骤，还包括：

4.如权利要求1所述的横向联邦建模样本数据的去重方法，其特征在于，所述联合所述其他参与方针对所述重叠样本数据进行去重的步骤，还包括：

5.如权利要求3或者4所述的横向联邦建模样本数据的去重方法，其特征在于，所述向所述其他参与方发送第二数据去重消息，以供所述其他参与方根据所述第二数据去重消息在目标参与方的第一待选样本数据中保留所述重叠样本数据的步骤，包括：

6.如权利要求1所述的横向联邦建模样本数据的去重方法，其特征在于，在所述根据本端的第二待选样本数据和所述加密数据，确定所述第一待选样本数据和所述第二待选样本数据中的重叠样本数据的步骤之前，还包括：

7.如权利要求6所述的横向联邦建模样本数据的去重方法，其特征在于，所述根据本端的第二待选样本数据和所述加密数据，确定所述第一待选样本数据和所述第二待选样本数据中的重叠样本数据的步骤，包括：

若是，则将所述重叠加密数据在所述第二待选样本数据中对应的目标样本数据确定为重叠样本数据；或者，

8.一种横向联邦建模样本数据的去重装置，其特征在于，所述装置应用与横向联邦中的任意一个参与方，所述横向联邦建模样本数据的去重装置包括：

9.一种终端设备，其特征在于，所述终端设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的横向联邦建模样本数据的去重程序，所述横向联邦建模样本数据的去重程序被所述处理器执行时实现如权利要求1至7中任一项所述的横向联邦建模样本数据的去重方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的横向联邦建模样本数据的去重方法的步骤。