CN112231768A

CN112231768A - 数据处理方法、装置、计算机设备及存储介质

Info

Publication number: CN112231768A
Application number: CN202011163831.2A
Authority: CN
Inventors: 程勇; 陶阳宇; 王礼斌; 刘洋
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-10-27
Filing date: 2020-10-27
Publication date: 2021-01-15
Anticipated expiration: 2040-10-27
Also published as: CN112231768B

Abstract

本申请公开了一种数据处理方法、装置、计算机设备及存储介质，属于计算机技术领域。本申请通过从基于第一特征数据进行分桶所得的第一样本集中获取样本标识，直接将样本标识而并非是第一特征数据的数据分桶结果发送至目标终端，能够保证终端的数据源的安全性，而目标终端也无需返回基于第二特征数据进行分桶所得的数据分桶结果，而是只需返回目标参数，也即各个分桶的分桶计数，从而能够保证目标终端的数据源的安全性，从而可以保障联邦学习中产生信息交互的双方的数据安全性，大大降低隐私泄露的风险。

Description

数据处理方法、装置、计算机设备及存储介质

技术领域

本申请涉及计算机技术领域，特别涉及一种数据处理方法、装置、计算机设备及存储介质。

背景技术

随着计算机技术的发展和人工智能(Artificial Intelligence，AI)技术的进步，联邦学习(Federated Learning)逐渐成为AI领域的一个热门课题，联邦学习能够通过多方协作完成机器学习模型的训练任务。在训练阶段中涉及到对样本数据进行数据分桶(DataBinning)，数据分桶是指将样本数据按照某一特征的取值范围进行划分，比如将多个用户样本按照“工资”这一特征，划分至多个不同的连续取值范围中。

在多方协作的联邦学习中，通常不同参与方会对样本数据按照不同特征来进行数据分桶，这时要求参与方之间需要向对方透露自身样本数据的分桶计数信息、对特征划分的取值范围信息，甚至还需透露具体哪些样本数据属于哪一个分桶，导致如果某一参与方向其他参与方发起恶意攻击，基于透露的这些信息能够推测出其他参与方的原始数据，导致联邦学习中其他参与方隐私泄露的风险度较高、数据安全性较差。

发明内容

本申请实施例提供了一种数据处理方法、装置、计算机设备及存储介质，能够降低联邦学习中各个参与方的隐私泄露风险度、提升各个参与方的数据安全性。该技术方案如下：

一方面，提供了一种数据处理方法，该方法包括：

获取属于第一样本集的多个样本标识，所述第一样本集为基于样本的第一特征数据划分的多个样本集中的一个；

将所述多个样本标识发送至目标终端；

获取所述目标终端返回的多个目标参数，所述多个目标参数用于表示所述多个样本标识在多个第二样本集中的计数，所述多个第二样本集基于样本的第二特征数据划分得到。

在一种可能实施方式中，所述获取属于第一样本集的多个样本标识包括：

从基于所述第一特征数据划分的所述多个样本集中确定所述第一样本集；

从所述第一样本集中，筛选得到所述多个样本标识。

在一种可能实施方式中，所述第一样本集基于所述多个样本集随机选取得到。

在一种可能实施方式中，所述从所述第一样本集中，筛选得到所述多个样本标识包括：

获取待筛选的样本标识数量；

从所述第一样本集中随机选取与所述样本标识数量匹配的所述多个样本标识。

在一种可能实施方式中，所述样本标识数量大于或等于所述多个第二样本集的数量。

在一种可能实施方式中，所述方法还包括：

从所述第一样本集中，将所述多个样本标识标记为已计数状态；

基于标记后的所述第一样本集以及其他样本集，构建剩余样本集合，所述其他样本集为所述多个样本集中除了所述第一样本集之外的样本集；

基于所述剩余样本集合，迭代执行选取样本标识及获取目标参数的步骤，直到满足停止条件。

在一种可能实施方式中，所述停止条件包括所述剩余样本集合的样本容量小于本次迭代过程待筛选的样本标识数量。

在一种可能实施方式中，所述方法还包括：

对于多次迭代过程获取到的目标参数，将对应于相同第一样本集且对应于相同第二样本集的目标参数相加，得到交叉参数。

在一种可能实施方式中，所述方法还包括：

响应于所述目标终端的样本重选请求，获取与所述多个样本标识不同的多个重选样本标识，将所述多个重选样本标识发送至所述目标终端。

一方面，提供了一种数据处理方法，所述方法包括：

接收属于第一样本集的多个样本标识，所述第一样本集为基于样本的第一特征数据划分的多个样本集中的一个；

获取多个目标参数，所述多个目标参数用于表示所述多个样本标识在多个第二样本集中的计数，所述多个第二样本集基于样本的第二特征数据划分得到；

响应于所述多个目标参数的安全风险低于风险阈值，发送所述多个目标参数。

在一种可能实施方式中，所述方法还包括：

响应于所述多个目标参数的安全风险高于或等于所述风险阈值，发送样本重选请求，所述样本重选请求用于请求返回与所述多个样本标识不同的多个重选样本标识。

在一种可能实施方式中，所述方法还包括：

响应于所述多个样本标识包括历史样本标识，发送终止请求，所述终止请求用于指示停止进行数据交互。

一方面，提供了一种数据处理装置，该装置包括：

标识获取模块，用于获取属于第一样本集的多个样本标识，所述第一样本集为基于样本的第一特征数据划分的多个样本集中的一个；

发送模块，用于将所述多个样本标识发送至目标终端；

参数获取模块，用于获取所述目标终端返回的多个目标参数，所述多个目标参数用于表示所述多个样本标识在多个第二样本集中的计数，所述多个第二样本集基于样本的第二特征数据划分得到。

在一种可能实施方式中，所述标识获取模块包括：

确定单元，用于从基于所述第一特征数据划分的所述多个样本集中确定所述第一样本集；

筛选单元，用于从所述第一样本集中，筛选得到所述多个样本标识。

在一种可能实施方式中，所述筛选单元用于：

获取待筛选的样本标识数量；

在一种可能实施方式中，所述装置还包括：

标记模块，用于从所述第一样本集中，将所述多个样本标识标记为已计数状态；

构建模块，用于基于标记后的所述第一样本集以及其他样本集，构建剩余样本集合，所述其他样本集为所述多个样本集中除了所述第一样本集之外的样本集；

迭代模块，用于基于所述剩余样本集合，迭代执行选取样本标识及获取目标参数的步骤，直到满足停止条件。

在一种可能实施方式中，所述装置还包括：

相加模块，用于对于多次迭代过程获取到的目标参数，将对应于相同第一样本集且对应于相同第二样本集的目标参数相加，得到交叉参数。

在一种可能实施方式中，所述标识获取模块还用于：

一方面，提供了一种数据处理装置，所述装置包括：

接收模块，用于接收属于第一样本集的多个样本标识，所述第一样本集为基于样本的第一特征数据划分的多个样本集中的一个；

获取模块，用于获取多个目标参数，所述多个目标参数用于表示所述多个样本标识在多个第二样本集中的计数，所述多个第二样本集基于样本的第二特征数据划分得到；

发送模块，用于响应于所述多个目标参数的安全风险低于风险阈值，发送所述多个目标参数。

在一种可能实施方式中，所述发送模块还用于：

一方面，提供了一种计算机设备，该计算机设备包括一个或多个处理器和一个或多个存储器，该一个或多个存储器中存储有至少一条计算机程序，该至少一条计算机程序由该一个或多个处理器加载并执行以实现如上述任一种可能实现方式的数据处理方法。

一方面，提供了一种存储介质，该存储介质中存储有至少一条计算机程序，该至少一条计算机程序由处理器加载并执行以实现如上述任一种可能实现方式的数据处理方法。

一方面，提供一种计算机程序产品或计算机程序，所述计算机程序产品或所述计算机程序包括一条或多条程序代码，所述一条或多条程序代码存储在计算机可读存储介质中。计算机设备的一个或多个处理器能够从计算机可读存储介质中读取所述一条或多条程序代码，所述一个或多个处理器执行所述一条或多条程序代码，使得计算机设备能够执行上述任一种可能实施方式的数据处理方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过从基于第一特征数据进行分桶所得的第一样本集中获取样本标识，直接将样本标识而并非是第一特征数据的数据分桶结果发送至目标终端，能够保证终端的数据源的安全性，而目标终端也无需返回基于第二特征数据进行分桶所得的数据分桶结果，而是只需返回目标参数，也即各个分桶的分桶计数，从而能够保证目标终端的数据源的安全性，从而可以保障联邦学习中产生信息交互的双方的数据安全性，大大降低隐私泄露的风险。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还能够根据这些附图获得其他的附图。

图1是本申请实施例提供的一种数据处理方法的实施环境示意图；

图2是本申请实施例提供的一种数据处理方法的流程图；

图3是本申请实施例提供的一种数据处理方法的交互流程图；

图4是本申请实施例提供的一种终端与目标终端之间的信息交互图；

图5是本申请实施例提供的一种数据处理装置的结构示意图；

图6是本申请实施例提供的一种数据处理装置的结构示意图；

图7是本申请实施例提供的一种计算机设备的结构示意图；

图8是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。

本申请中术语“至少一个”是指一个或多个，“多个”的含义是指两个或两个以上，例如，多个第一位置是指两个或两个以上的第一位置。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括音频处理技术、计算机视觉技术、自然语言处理技术以及机器学习/深度学习等几大方向。

让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中联邦学习逐渐成为一种新兴的人工智能基础技术，联邦学习的设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下，在多参与方或多计算节点之间开展高效率的机器学习。可选地，联邦学习可使用的机器学习算法并不局限于神经网络，还包括随机森林等重要算法，联邦学习有望成为下一代人工智能协同算法和协作网络的基础。

以下，对本申请涉及到的术语进行解释：

一、联邦学习(Federated Learning)

联邦学习又称为联合学习，能够在保护用户隐私和数据安全的前提下实现数据的“可用而不可见”，也即通过多方协作完成机器学习模型的训练任务，此外，还能够提供机器学习模型的推理服务。

联邦学习可以利用来自于多个参与方的多方数据源训练机器学习模型，通过使用多方、互补的数据源来提升机器学习模型的性能，例如，提升广告推荐模型的准确率。

联邦学习既能满足数据保护法律和法规的要求，又能实现跨部门、跨组织、甚至跨行业的数据合作，联邦学习的商业应用潜力很大，近年来引起了学术界和工业界的广泛关注，且已经有很多应用产品落地。

与传统的集中式机器学习不同，联邦学习过程中，由两个或两个以上的参与方一起协作训练一个或多个机器学习模型。从分类上来说，基于数据的分布特征，联邦学习可以划分为横向联邦学习(Horizontal Federated Learning)、纵向联邦学习(VerticalFederated Learning)和联邦迁移学习(Federated Transfer Learning)。其中，横向联邦学习又称为基于样本的联邦学习，适用于数据集共享相同特征空间但样本空间不同的情况；纵向联邦学习又称为基于特征的联邦学习，适用于数据集共享相同样本空间但特征空间不同的情况；联邦迁移学习则适用于数据集不仅在样本空间上不同而且在特征空间上也不同的情况。

以两个参与方进行纵向联邦学习为例，假设两个参与方分别称为参与方A和参与方B，两方联合训练一个或多个机器学习模型。其中，参与方A和参与方B共享相同的样本空间，也即两方在经过加密样本对齐之后，拥有一批ID(Identification，标识信息)相同的样本数据，参与方A拥有样本数据的部分特征数据(也即第一特征数据)，例如(X1，X2，X3)，共三维第一特征数据，参与方B拥有样本数据的另一部分特征数据(也即第二特征数据)，例如(X4，X5，X6，X7)，共四维第二特征数据。参与方A和参与方B联合起来，总共能够提供样本数据在七个不同维度上的特征数据，如果是有监督学习，参与方A和/或参与方B还能提供样本数据的标签信息y，从而提供更加丰富的样本数据的标注信息，因此，两方进行联邦学习能够得到性能更加优越的机器学习模型。

二、数据分桶(Data Binning)

数据分桶又称为数据分箱，是机器学习领域中的一种数据预处理方式，用于观察数据的统计分布特点、离散化数据以及去除异常的数据。数据分桶能够将连续的特征值分组至较少数量的“桶”，从而达到将连续值进行离散化的效果。在机器学习领域中，通过数据分桶对一些连续特征进行预处理，使得连续特征离散化，基于离散后的特征训练出的机器学习模型更加稳定，且离散化特征还可以进行特征交叉，以提升特征的表达能力，且能够避免机器学习模型过拟合。

在一个示例中，表1示出了13个用户样本的“工资”特征数据，这一数据表格可以视为原始数据(Base Data)。

表1

样本ID	用户名	工资	用户位置
				1	姓名1	25000	印度
2	姓名2	30000	英国
				3	姓名3	22000	印度
4	姓名4	31000	澳大利亚
				5	姓名5	12000	美国
6	姓名6	21000	美国
				7	姓名7	24000	英国
8	姓名8	45000	加拿大
				9	姓名9	35000	美国
10	姓名10	22000	印度
				11	姓名11	29000	美国
12	姓名12	30000	英国
				13	姓名13	27500	加拿大

在表1所提供数据的基础上，按照工资这一特征对13个用户样本进行分桶处理，通过为工资这一特征划定不同的取值范围(也称为工资区间)，能够分别获取如表2和表3所示的两种不同的数据分桶结果(Binned Data)，也即将所有的用户样本按照不同工资区间划分到不同样本集，一个样本集也俗称为一个分桶，一个样本集的样本容量则俗称为一个分桶的分桶计数。

表2

区间序号	区间下界	区间上界	分桶计数
				1	0	25000	6
2	25001	30000	4
				3	30001	35000	2
4	35001	99999	1

上述表2中，将工资特征划分为4个工资区间，分别包括：[0,25000]、[25001,30000]、[30001,35000]、[35001,99999]。在分桶过程中，将各个用户样本的工资特征数据映射至对应的工资区间，统计落入到各个工资区间的用户样本的计数，最终可以得到表2中最后一列所示的分桶计数。

表3

区间序号	区间下界	区间上界	分桶计数
				1	0	25000	6
2	25001	50000	7
				3	50001	99999	0

同理，在上述表3中，将工资特征划分为3个工资区间，分别包括：[0,25000]、[25001,50000]、[50001,99999]。在分桶过程中，将各个用户样本的工资特征数据映射至对应的工资区间，统计落入到各个工资区间的用户样本的计数，最终可以得到表3中最后一列所示的分桶计数。

可以看出，在一次数据分桶过程中，数据分桶结果至少包括分桶的个数和每个桶里的样本个数，每个桶里的样本个数也即是分桶计数，在上面的示例中，分桶的个数代表划分的工资区间的个数，分桶计数代表每个工资区间中用户样本的个数。

在一些实施例中，为了观察不同的特征数据之间的相关性和联合统计分布特点，还可以依据两个或两个以上的特征进行交叉数据分桶。在另一个示例中，如表4所示，示出了根据两个特征(年龄及性别)对用户样本进行交叉数据分桶的情况。

表4

在上表4中，根据年龄(Age)和性别(Sex)这两个不同维度的特征进行交叉数据分桶，可选地，先依据第一个特征“年龄”进行数据分桶，划分出待分桶的各个年龄段，并统计处于各个年龄段的人口，也即获得各个分桶和对应的分桶计数，然后再基于第一个特征“年龄”获得的数据分桶结果，进一步依据第二个特征“性别”进行数据分桶，划分出待分桶的两个性别，并在已知每个年龄段已有的分桶计数的基础上，统计分桶计数中属于各个性别的人口，也即获得各个交叉分桶及对应的交叉分桶计数。可选地，还可以先按照第二个特征“性别”进行数据分桶，再按照第一个特征“年龄”进行数据分桶，本申请实施例不对两个特征的分桶顺序进行具体限定。

在上述的两方纵向联邦学习场景里，参与方A和参与方B可以分别依据各自拥有的特征数据分别进行数据分桶，例如，参与方A根据特征F₁进行数据分桶，获得k_A个分桶及对应的分桶计数

参与方B根据特征F₂进行数据分桶，获取k_B个分桶及对应的分桶技术

在相关技术中，参与方A和参与方B需要向对方泄露自身的分桶信息，包括分桶计数信息、数据分桶对应的特征的划分范围，甚至还会披露具体哪些样本的特征数据属于哪一个特定的数据分桶。考察一种情况，如果参与方A或参与方B进行有意推理(例如发起恶意攻击)，那么通过对方透露给自己的分桶信息能够推测出每个样本的特征数据的取值范围，甚至还能够推测出每个样本的特征数据对应特征的具体取值，从而导致泄露原始数据。考察另一种情况，如果参与方A或参与方B结合背景知识(即特征数据的物理意义，例如年龄、性别)及分桶计数，能够推断出对方每个数据分桶的物理意义，导致参与方的隐私泄露。

基于数据隐私保护的原则，参与方A和参与方B都希望在保护自身的数据分桶结果，也即不能向对方披露数据分桶信息，例如，不能告知对方自身的数据分桶对应的特征划分范围，不能告知对方任一个样本的特征数据属于哪一个数据分桶。但由于联邦学习又要求进行数据交互以完成机器学习模型的协同训练，因此上述隐私保护要求给两方纵向联邦交叉数据分桶带来了极大的技术挑战，亟需一种能够有效实现两方或多方纵向联邦学习场景中多个参与方之间互相进行安全的交叉数据分桶计数方法。

有鉴于此，本申请实施例提供一种数据处理方法，能够在多方纵向联邦学习场景中，支持多个参与方进行交叉数据分桶技术，且能够保护多个参与方各自的数据分桶信息，保证每个参与方都不会知道任一个样本的特征数据属于其他参与方的哪一个数据分桶，且不知道其他参与方的数据分桶对应的特征的划分范围。

图1是本申请实施例提供的一种数据处理方法的实施环境示意图。参见图1，本申请实施例提供的数据存储方法应用于联邦学习系统100，以下对联邦学习系统100的系统架构进行介绍。

在联邦学习系统100中包括多个参与方终端101，各个参与方终端101作为多个参与方的数据源，用于提供样本数据的一种或多种特征数据。各个参与方终端101之间能够通过有线或无线通信方式进行直接或间接地连接，本申请实施例在此不做限制。

任一参与方终端101能够存储样本数据集，在样本数据集中包括各个样本数据的样本ID以及各个样本数据在至少一个特征维度上的特征数据，该参与方终端101可以包括一台计算设备、多台计算设备、云计算平台或者虚拟化中心中的至少一项。可选地，某一个参与方终端101在联邦学习中承担主要计算工作，其他参与方终端101在联邦学习中承担次要计算工作；或者，各个参与方终端101之间采用分布式计算架构进行协同计算。在一些实施例中，各个参与方终端101还可以是区块链系统中的节点设备，也即各个参与方终端101基于区块链系统进行信息同步。

在一个示例性场景中，联邦学习系统中还包括第三方的协作者服务器，服务器用于提供联邦学习平台或联邦数据分析平台，服务器可以以公有云或私有云的部署方式对外提供联邦学习、联邦数据分析服务、联邦商业智能服务等云服务。例如，服务器配置有联邦学习任务的数据预处理模块，通过该数据预处理模块实现本申请实施例提供的数据处理方法，以提升联邦学习平台的安全性和可用性。又例如，服务器配置有联邦数据分析任务的一个功能模块，通过该功能模块实现本申请实施例提供的数据处理方法，以提升联邦数据分析任务的安全性和可用性。服务器能够实现安全的多方纵向联邦交叉数据分桶计数，用于纵向联邦学习里的数据预处理、联邦数据分析、联邦商业智能等各类应用场景。

可选地，上述协作者服务器可以是独立的物理服务器，或者是多个物理服务器构成的服务器集群或者分布式系统，或者是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

可选地，参与方终端101泛指多个终端中的一个，参与方终端101的设备类型包括但不限于：智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts GroupAudio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机或者台式计算机中的至少一种。以下实施例，以终端包括智能手机来进行举例说明。

本领域技术人员可以知晓，上述参与方终端101的数量能够更多或更少。比如上述参与方终端101仅为一个，或者上述参与方终端101为几十个或几百个，或者更多数量。本申请实施例对参与方终端101的数量和设备类型不加以限定。

图2是本申请实施例提供的一种数据处理方法的流程图。参见图2，该实施例应用于联邦学习系统中的任一参与方终端，以下将该任一参与方终端简称为终端，在本申请实施例中，将介绍一种终端与目标终端之间进行安全的分桶计数信息的交互过程，且能够保证双方数据安全隐私，这里的终端与目标终端可以是两方联邦学习场景的两个参与方，或者，还可以是两方以上联邦学习场景中的任意两个参与方，本申请实施例对此不作限定。该实施例包括下述步骤：

201、终端获取属于第一样本集的多个样本标识，该第一样本集为基于样本的第一特征数据划分的多个样本集中的一个。

可选地，该终端为联邦学习系统中的任一参与方终端，该终端用于提供联邦学习的数据源，示意性地，该终端存储有样本数据集，在该样本数据集中包含样本数据以及样本数据的第一特征数据，可选地，在该样本数据集中还可以包括样本数据的其他特征数据，也即，该样本数据集中可以存储样本数据在至少一个特征维度上的特征数据。

在一些实施例中，终端获取样本数据集，基于第一特征数据将该样本数据集划分成多个样本集，从该多个样本集中筛选出第一样本集，再从第一样本集中继续筛选出多个样本标识。

换一种表述，上述过程也即是终端基于第一特征数据对样本数据集进行数据分桶，得到用于指示多个分桶的数据分桶结果，其中一个分桶用于表示一个样本集，从该多个分桶中筛选出一个特定分桶(第一样本集)，再从该特定分桶中继续筛选出多个样本标识(样本ID)。

可选地，终端对第一特征数据的总取值范围进行划分，得到多个第一区间，其中一个第一区间用于表示第一特征数据的一个取值范围，接着，终端基于该多个第一区间，对该样本数据集中的样本数据进行数据分桶，得到数据分桶结果，该数据分桶结果用于表示样本数据与第一区间之间的映射关系，基于数据分桶结果将映射于同一第一区间的样本数据的样本标识划分到同一样本集，得到多个样本集(本质上是多个样本ID集合)，接着，从该多个样本集中确定出第一样本集，从该第一样本集包含的所有样本数据的样本标识中筛选出该多个样本标识。

在一些实施例中，对该总取值范围进行划分时，可以进行等距划分，也可以进行非等距划分，等距划分是指各个第一区间的区间长度均相等，而非等距划分是指允许存在区间长度不相等的至少两个第一区间。采用等距划分方式时，能够较为容易地观察出一些取值较为稠密的特征数据的特征分布，而采用非等距划分方式时，能够较为容易地观察出一些取值较为稀疏的特征数据的特征分布，本申请实施例不对该总取值范围的划分方式进行具体限定。

可选地，该总取值范围可以取整个样本数据集中第一特征数据的最小值与最大值所构成的数据区间，此时能够避免产生等于零值的分桶计数，也即避免产生不包含任何样本数据的样本标识的样本集，或者，该总取值范围还可以依据第一特征数据的物理意义进行人为划分，此时能够从物理意义的角度对第一特征数据进行更加精准的分析，本申请实施例也不对总取值范围的获取方式进行具体限定。

在一个示例性实施例中，对总取值范围进行划分，可以采用迭代的方式，首先确定出第一个第一区间的下界，保证第一个第一区间的下界小于或等于总取值范围的下界，然后基于等距或非等距的方式确定出第一个第一区间的上界，接着将第一个第一区间的上界加上单位数值，得到第二个第一区间的下界，基于等距或非等距的方式确定出第二个第一区间的上界，以此类推，这里不做赘述，直到某个第一区间的上界大于或等于总取值范围的上界时，说明这个第一区间是最后一个第一区间，停止迭代，能够快速完成总取值范围的划分。

在另一个示例性实施例中，对总取值范围进行划分，还可以基于等距或非等距的方式，确定出总取值范围内的多个分割点，将相邻的分割点所构成的区间确定为第一区间，能够简化总取值范围的划分流程。

在一些实施例中，对样本数据进行数据分桶时，终端可以对各个样本数据的第一特征数据进行映射，得到每个样本数据的第一特征数据所对应的第一区间，需要说明的是，一个第一特征数据与一个第一区间相对应指的是该一个第一特征数据位于该一个第一区间所指示的取值范围内。

可选地，可以将各个样本数据与对应的第一区间之间的映射关系确定为数据分桶结果，此外，数据分桶结果中还可以包括各个第一区间的上下界信息以及各个第一区间对应的分桶计数(指第一区间所对应所有样本数据的个数)。在一些实施例中，可以采用哈希表、链表、数组等方式来存储该映射关系，或者，基于键值对的方式来存储该映射关系，本申请实施例不对该映射关系的存储结构进行具体限定。

在一些实施例中，终端在确定第一样本集时，可以从该多个样本集中随机选取出一个样本集作为第一样本集，能够增加确定过程的随机性，进一步提升数据安全性，或者，终端从该多个第一区间中随机选取出两个或两个以上彼此相邻的第一区间，将彼此相邻的各个第一区间所对应的各个样本集进行合并，得到第一样本集，这样能够不暴露原始划分出的样本集，进一步地提升数据安全性，本申请实施例不对第一样本集的选取方式进行具体限定。

在一些实施例中，终端在基于第一样本集筛选样本标识时，可以先随机确定一个本次待筛选的样本标识数量，也即在本次筛选时要选取的多个样本标识的数量；然后从该第一样本集中随机选取与该样本标识数量匹配的多个样本标识，也即从第一样本集包括的所有样本数据的样本标识中随机选取出该样本标识数量个样本标识，例如，本次待筛选的样本标识数量为3，则从第一样本集中随机选取3个样本数据的样本标识。

在上述过程中，不但随机选取样本标识，而且还随机选取待筛选的样本标识数量，这样大大增加了样本标识的个数以及样本标识自身的随机性，能够降低其他参与方进行恶意攻击时泄露特征数据的风险。

在一些实施例中，在开始进行数据处理之前，目标终端可以先向该终端发送其多个第二样本集的数量，该第二样本集为基于样本的第二特征数据划分的样本标识集合，一个第二样本集对应于一个第二区间，一个第二区间用于表示该第二特征数据的一个取值范围，也即是说，目标终端向终端发送基于第二特征数据的分桶个数。

在接收到该多个第二样本集的数量之后，终端可以保证每次随机出的待筛选的样本标识数量大于或等于该多个第二样本集的数量，这样能够避免每次终端筛选出的样本标识的个数太小，避免终端与目标终端进行频繁通信交互，从而降低了数据处理的通信开销。

在另一些实施例中，终端可以接入服务器提供的联邦数据分析平台，由终端向联邦数据分析平台提供样本数据集，由联邦数据分析平台筛选出该多个样本标识后，将该多个样本标识发送至终端，本申请实施例不对上述步骤201在终端本地执行还是云端的服务器执行进行具体限定。

202、终端将该多个样本标识发送至目标终端。

可选地，目标终端为联邦学习系统中除了该终端之外的任一参与方终端，该目标终端也用于提供联邦学习的数据源，示意性地，该目标终端也存储有样本数据集，在该样本数据集中包含多个样本数据以及该多个样本数据的多个第二特征数据。需要说明的是，目标终端的样本数据集中包括该多个样本标识所对应的多个样本数据，也即该多个样本数据属于终端和目标终端各自样本数据集的交集。

在一些实施例中，终端和目标终端事先已经进行了加密样本对齐，终端可以直接将该多个样本标识进行压缩、加密、打包，生成一个待传输的数据包，将该数据包发送至目标终端，这样能够保证样本标识在传送时的安全性。此外，由于样本标识占用的数据量通常较小，例如用户ID比用户名的数据量小，因此还能够大大节约数据传输的通信开销。

需要说明的是，在向目标终端发送样本标识之前，终端与目标终端之间需要先建立通信连接，可选地，终端与目标终端互相交换IP(Internet Protocol，互联网协议)地址、通信端口，并进行各自的身份校验，在校验通过后才进行发送样本标识。

在另一些实施例中，终端和目标终端均可以接入到服务器提供的联邦学习平台中，终端向联邦学习平台发送该多个样本标识，通过联邦学习平台来向目标终端转发该多个样本标识，避免终端与目标终端进行直接通信，也即避免向联邦学习的其他参与方暴露自身的通信端口，从而提升了数据安全性。

203、终端获取该目标终端返回的多个目标参数，该多个目标参数用于表示该多个样本标识在多个第二样本集中的计数，该多个第二样本集基于样本的第二特征数据划分得到。

在一些实施例中，目标终端在接收该多个样本标识后，从数据库中查询该多个样本标识的第二特征数据，基于多个第二区间对该多个样本标识的第二特征数据进行数据分桶，得到该多个目标参数，该多个目标参数也即是该多个样本标识在多个第二区间上的分桶计数，然后目标终端获取该多个目标参数的安全风险，如果该安全风险低于风险阈值，将该多个目标参数发送至终端。

其中，目标终端划分第二区间的方式与上述步骤201中终端划分第一区间的方式类似，这里不做赘述；目标终端进行数据分桶的方式与上述步骤201中终端进行数据分桶的方式类似，这里不做赘述。

终端在获取到该多个目标参数后，可以记录该多个目标参数，相当于记录了本次抽取的多个样本标识的交叉数据分桶信息，通过重复多次执行上述步骤201-203，能够使得各次抽取的样本标识逐渐覆盖到第一样本集中超过一定数量或者超过一定比例的样本数据，此时可以丢弃剩余未统计交叉数据分桶信息的样本数据，基于已记录的交叉数据分桶信息来训练机器学习模型，通过机器学习模型来达到各类AI处理任务。

上述所有可选技术方案，能够采用任意结合形成本公开的可选实施例，在此不再一一赘述。

本申请实施例提供的方法，通过从基于第一特征数据进行分桶所得的第一样本集中获取样本标识，直接将样本标识而并非是第一特征数据的数据分桶结果发送至目标终端，能够保证终端的数据源的安全性，而目标终端也无需返回基于第二特征数据进行分桶所得的数据分桶结果，而是只需返回目标参数，也即各个分桶的分桶计数，从而能够保证目标终端的数据源的安全性，从而可以保障联邦学习中产生信息交互的双方的数据安全性，大大降低隐私泄露的风险。

在上述实施例中，示出了在一次迭代过程中，终端如何筛选样本标识，并与目标终端之间交互以获取目标参数的情况，可选地，终端在每次获取到目标参数后，从第一样本集中将已经参与过交叉分桶计数的样本标识标记为已计数状态，已计数状态的样本标识不会参与到后续筛选及发送至目标终端的过程，或者直接从第一样本集中删除已经参与过交叉分桶计数的样本标识，然后基于剩余样本集合重复执行上述实施例提供的数据处理方法，直到剩余样本集合中的样本容量低于当前迭代过程随机出的待筛选的样本标识数量，停止迭代并退出循环，这样能够适用于大数据场景下的联邦学习任务，且能够对整个样本数据集完成交叉数据分桶处理，并且能够检测和抵抗其他参与方的恶意攻击，下面进行详述。

图3是本申请实施例提供的一种数据处理方法的交互流程图，请参考图3，该实施例应用于终端与目标终端之间的交互过程，该实施例包括下述步骤：

301、终端与目标终端进行加密样本对齐，得到样本数据集。

可选地，终端为联邦学习系统中任一参与方终端，目标终端为联邦学习系统中除了该终端之外的任一参与方终端，在本实施例中以两方纵向联邦学习为例进行说明，但并不局限于两方纵向联邦学习场景，还可以应用于两个以上参与方的联邦学习场景。

在上述过程中，终端与目标终端需要通过加密算法，筛选出终端与目标终端之间共有的样本，也即筛选出终端的样本集与目标终端的样本集之间的交集(即样本数据集)，且将相同的样本数据对齐到相同的样本标识，例如为样本数据集中的各个样本数据重新分配各自的样本标识，并且，需要保证终端与目标终端之间不会泄露非交集部分的样本标识。在一个示例中，在进行加密样本对齐时采用基于Freedman(费德曼)协议的算法，类似于安全的两方数据库“撞库”操作。在另一个示例中，在进行加密样本对齐时采用基于RSA算法的协议，其中RSA算法是由罗纳德·李维斯特(Ron Rivest)、阿迪·萨莫尔(Adi Shamir)和伦纳德·阿德曼(Leonard Adleman)三人提出的算法，以三人的姓氏首字母命名。

在一些实施例中，终端和目标终端均可以接入服务器提供的联邦数据分析平台，由终端和目标终端向联邦数据分析平台提供样本集，由联邦数据分析平台进行加密样本对齐后，向终端和目标终端返回样本数据集。

302、终端基于第一特征数据对该样本数据集进行划分，得到多个样本集。

可选地，终端对第一特征数据的总取值范围进行划分，得到多个第一区间，其中一个第一区间用于表示第一特征数据的一个取值范围，接着，终端基于该多个第一区间，对该样本数据集中的样本数据进行数据分桶，得到数据分桶结果，该数据分桶结果用于表示样本数据与第一区间之间的映射关系，基于数据分桶结果将映射于同一第一区间的样本数据的样本标识划分到同一样本集，得到多个样本集(本质上是多个样本ID集合)。

换一种表述，上述过程也即是终端基于第一特征数据对样本数据集进行数据分桶，得到用于指示多个分桶的数据分桶结果，其中一个分桶用于表示一个样本集。

在一个示例性实施例中，终端对应于参与方A，目标终端对应于参与方B，在两方进行加密样本对齐之后，参与方A的终端在本地根据所拥有的特征F₁的第一特征数据进行数据分桶，得到k_A＝4个分桶及对应的分桶计数，分桶计数结果如表5所示。

表5

特征F<sub>1</sub>范围	F<sub>1</sub>分桶计数
		[a<sub>1</sub>，a<sub>2</sub>]	m<sub>1</sub>
[a<sub>3</sub>，a<sub>4</sub>]	m<sub>2</sub>
		[a<sub>5</sub>，a<sub>6</sub>]	m<sub>3</sub>
[a<sub>7</sub>，a<sub>8</sub>]	m<sub>4</sub>

在上表5中，对特征F₁的总取值范围划分出的各个第一区间的上下界信息a₁～a₈均为参与方A的秘密信息，各个第一区间的分桶计数{m₁，m₂，m₃，m₄}也是参与方A的秘密信息，均不能透露给参与方B的目标终端。

303、目标终端基于第二特征数据对该样本数据集进行划分，得到多个样本集。

其中，基于第二特征数据划分得到的该多个样本集也即是多个第二样本集。

可选地，目标终端对第二特征数据的总取值范围进行划分，得到多个第二区间，其中一个第二区间用于表示第二特征数据的一个取值范围，接着，目标终端基于该多个第二区间，对该样本数据集中的样本数据进行数据分桶，得到数据分桶结果，该数据分桶结果用于表示样本数据与第二区间之间的映射关系，基于数据分桶结果将映射于同一第二区间的样本数据的样本标识划分到同一样本集，得到多个样本集(本质上是多个样本ID集合)。

换一种表述，上述过程也即是目标终端基于第二特征数据对样本数据集进行数据分桶，得到用于指示多个分桶的数据分桶结果，其中一个分桶用于表示一个样本集。

上述步骤303与上述步骤302类似，这里不做赘述。

在一个示例性实施例中，参与方B的目标终端在本地根据所拥有的特征F₂的第二特征数据进行数据分桶，得到k_B＝3个分桶及对应的分桶计数，分桶计数结果如表6所示。

表6

特征F<sub>2</sub>范围	F<sub>2</sub>分桶计数
		[b<sub>1</sub>，b<sub>2</sub>]	n<sub>1</sub>
[b<sub>3</sub>，b<sub>4</sub>]	n<sub>2</sub>
		[b<sub>5</sub>，b<sub>6</sub>]	n<sub>3</sub>

在上表6中，对特征F₂的总取值范围划分出的各个第二区间的上下界信息b₁～b₆均为参与方B的秘密信息，各个第二区间的分桶计数{n₁，n₂，n₃}也是参与方B的秘密信息，均不能透露给参与方A的终端。

304、终端从基于样本的第一特征数据划分的多个样本集中确定第一样本集。

其中，该第一样本集为基于样本的第一特征数据划分的样本标识集合，换言之，该第一样本集为基于样本的第一特征数据划分的多个样本集中的一个。

在一些实施例中，终端可以从该多个样本集中随机选取出一个样本集作为第一样本集，也即是说，该第一样本集基于该多个样本集随机选取得到，这样能够增加确定过程的随机性，进一步提升数据安全性，或者，终端从该多个第一区间中随机选取出两个或两个以上彼此相邻的第一区间，将彼此相邻的各个第一区间所对应的各个样本集进行合并，得到第一样本集，这样能够不暴露原始划分出的样本集，进一步地提升数据安全性，本申请实施例不对第一样本集的选取方式进行具体限定。

在一个示例性实施例中，参与方A的终端从k_A个数据分桶中随机选择一个分桶，假设为第i个分桶，定义分桶i中各个样本数据的样本标识集合为第一样本集D_i，i的可能取值集合为{1，2，...，k_A}。

305、终端从该第一样本集中，筛选得到多个样本标识。

在一些实施例中，终端可以先获取本次待筛选的样本标识数量，然后从该第一样本集中随机选取与该样本标识数量匹配的多个样本标识，也即从第一样本集包括的所有样本数据的样本标识中随机选取出该样本标识数量个样本标识，例如，本次待筛选的样本标识数量为3，则从第一样本集中随机选取3个样本数据的样本标识。

可选地，终端在每次迭代过程中随机确定一个本次待筛选的样本标识数量，从而不但每次迭代过程中随机选取样本标识，而且不同迭代过程中待筛选的样本标识数量也不同，这样大大增加了样本标识的个数以及样本标识自身的随机性，能够降低其他参与方进行恶意攻击时泄露特征数据的风险。

可选地，终端为每次迭代过程指定相同的待筛选的样本标识数量，从而能够简化每次迭代的流程，本申请实施例不对不同迭代过程中待筛选的样本标识数量是否相同进行具体限定。

在一些实施例中，在开始进行数据处理之前，目标终端可以先向该终端发送其多个第二区间的数量，一个第二区间用于表示第二特征数据的一个取值范围。在接收到该多个第二区间的数量之后，终端可以保证每次随机出的待筛选的样本标识数量大于或等于该多个第二区间的数量，这样能够避免每次终端筛选出的样本标识的个数太小，避免终端与目标终端进行频繁通信交互，从而降低了数据处理的通信开销。

在上述步骤304-305中，提供了终端获取属于第一样本集的多个样本标识的一种可能实施方式，在另一些实施例中，终端也可以接入服务器提供的联邦数据分析平台，由联邦数据分析平台基于样本数据集筛选出多个样本标识，将该多个样本标识发送至终端。本申请实施例不对筛选样本标识的操作是在本地执行还是云端执行进行具体限定。

在一个示例性实施例中，参与方A的终端第j次从上述示例获得的第一样本集中随机选择了r个样本标识，定义随机选出的r个样本标识构成一个集合

其中，i表示第i个分桶，j表示第j次从随机选中的第i个分桶中随机选取r个样本标识(这里使用不放回的采样方式)，r则表示本次待筛选的样本标识数量。可选地，参与方A的终端每次随机选择的样本标识数量r可以动态调整，即参数r的值在每次算法迭代中都可以随机选择，以便进一步增加集合

的随机性。可选地，参与方A的终端设置，且至少要求。

需要说明的是，如果参与方A的终端在某一次迭代过程中不再能随机选出r个样本标识，则算法终止，剩余的小于r个样本标识不再处理。此时认为满足迭代过程的停止条件，该停止条件包括剩余样本集合的样本容量小于本次迭代过程待筛选的样本标识数量r。

306、终端将该多个样本标识发送至目标终端。

在一个示例性实施例中，参与方A的终端将集合

发送给参与方B的目标终端。

上述步骤306与上述步骤202类似，这里不做赘述。

307、目标终端接收属于第一样本集的多个样本标识。

在一些实施例中，目标终端接收到终端发送的数据包之后，对数据包进行解析、解密、解压缩，即可得到该多个样本标识，这样能够保证样本标识在传送时的安全性。

在一些实施例中，目标终端在接收多个样本标识后，还可以检查多个样本标识中是否包括历史样本标识，响应于该多个样本标识包括历史样本标识，发送终止请求，该终止请求用于指示停止进行数据交互。历史样本标识用于指示已经被用于进行联邦分桶计数的历史样本数据，该历史样本数据也即在历史迭代过程中已经进行交叉分桶计数的样本数据。

在一个示例性实施例中，在收到集合

之后，参与方B的目标终端检查集合

中的样本标识是否有已被用于联邦分桶计数的历史样本标识。如果有样本标识已经被用于联邦分桶计数，说明参与方A并未采取不放回的采样方式，参与方B的目标终端则确定参与方A的终端存在恶意攻击的可能性，此时参与方B的目标终端可以选择停止迭代，并发送终止请求来通知参与方A的终端。如果没有样本标识已经被用于联邦分桶计数，参与方B的目标终端则继续执行下述步骤308。

在上述过程中，由于已经参与到联邦分桶计数的样本无需进行二次统计，通过进行历史样本标识的检查，能够敏锐识别出其他参与方是否存在恶意攻击的可能性，提升目标终端的数据安全性。在一些实施例中，目标终端也可以不进行历史样本标识的检查，从而能够简化数据处理的流程。

308、目标终端获取多个目标参数，该多个目标参数用于表示该多个样本标识在多个第二样本集中的计数，该多个第二样本集基于样本的第二特征数据划分得到。

其中，该多个第二样本集也即上述步骤303中基于样本的第二特征数据划分得到的多个样本集，各个第二样本集均为样本标识集合。

在一些实施例中，目标终端在接收该多个样本标识后，从数据库中查询该多个样本标识的第二特征数据，基于多个第二区间对该多个样本标识的第二特征数据进行数据分桶，得到该多个目标参数，该多个目标参数也即是该多个样本标识在多个第二区间上的分桶计数。

其中，目标终端划分第二区间的方式与上述步骤302中终端划分第一区间的方式类似，这里不做赘述；目标终端进行数据分桶的方式与上述步骤302中终端进行数据分桶的方式类似，这里不做赘述。

在一个示例性实施例中，参与方B的目标终端根据特征F₂对集合

中的r个样本标识进行数据分桶，获得分桶计数

需要说明的是，由于多个第二样本集的数量与多个第二区间的数量是相等的，因此在一些实施例中，上述步骤305中所涉及的待筛选的样本标识数量大于或等于多个第二区间的数量的情况，也可以视为该待筛选的样本标识数量大于或等于该多个第二样本集的数量，也即待筛选的样本标识数量大于或等于第二特征数据的分桶个数k_B。

309、目标终端响应于该多个目标参数的安全风险低于风险阈值，向终端发送该多个目标参数。

在上述过程中，目标终端可以评估该多个目标参数的安全风险，例如采用另外的机器学习模型进行评估，例如神经网络、逻辑回归模型等分类模型，或者，还可以采用人工评估，本申请实施例不对安全风险的评估方式进行具体限定。

可选地，如果评估得到的安全风险低于风险阈值，执行上述步骤309中发送目标参数的操作，否则，目标终端还可以响应于该多个目标参数的安全风险高于或等于该风险阈值，发送样本重选请求，该样本重选请求用于请求返回与该多个样本标识不同的多个重选样本标识。

基于上述情况，终端响应于该目标终端的样本重选请求，获取与该多个样本标识不同的多个重选样本标识，将该多个重选样本标识发送至该目标终端，也即是说，终端返回执行步骤304-306，直到满足停止条件，如果终端无法重新构建出不同的多个重选样本标识，此时停止迭代，其他剩余样本标识不再处理，可选地，如果剩余样本标识的数量大于目标阈值，终端还可以返回步骤302重新根据第一特征数据进行数据分桶，并基于重新分桶的结果，重新执行上述步骤304-306。

在上述过程中，通过进行安全风险的评估，能够在发送目标参数之前，预先确定这些目标参数是否存在影响数据安全的隐患，从而能够极大提升目标终端方的数据安全性。

在一个示例性实施例中，参与方B的目标终端在进行风险评估时，也即在判断分桶计数

是否会泄露特征F₂的信息时，可以采取如下评估方式：如果分桶计数

中只有q个数字不为零，例如，q＝1时，即仅有一个分桶计数(也即目标参数)不是零，其他分桶计数都是零，则参与方B的目标终端可认为会泄露特征F₂的信息。在这种情况下，参与方B的目标终端通过样本重选请求来要求参与方A的终端重新发送不同的样本ID集合，并且参与方B的目标终端将集合

中样本标识不记为已被用于联邦分桶计数，也即将集合

中的各个样本标识不记为历史样本标识。如果参与方B的目标终端认为分桶计数

不会泄露特征F₂的信息，参与方B的目标终端则将分桶计数

回复给参与方A的终端，参与方B的目标终端将集合

中的各个样本标识记为已被用于联邦分桶计数，也即将集合

中的各个样本标识记为历史样本标识。

图4是本申请实施例提供的一种终端与目标终端之间的信息交互图，请参考图4，参与方B的目标终端401将分桶个数k_B发送至参与方A的终端402，终端402向目标终端401发送样本ID集合

如果安全风险低于风险阈值，目标终端401向终端402回复分桶计数

310、终端获取该目标终端返回的多个目标参数。

在一些实施例中，终端接收到目标终端发送的数据包之后，对数据包进行解析、解密、解压缩，即可得到该多个目标参数，这样能够保证目标参数在传送时的安全性。可选地，如果目标终端在发送目标参数时并未进行加密或压缩，那么终端也无需对目标参数进行解密或解压缩，本申请实施例对目标参数是否经过加密或压缩不进行具体限定。

在另一些实施例中，在执行上述步骤309之后，可以无需执行上述步骤310，也即仅由目标终端来统计交叉数据分桶计数，而终端并不关心最终的交叉数据分桶计数，从而由目标终端基于交叉数据分桶计数来进行联邦学习。在这种情况下，目标终端无需向终端回复目标参数，而是可以仅回复一个确认消息，比如回复一个确认字符(AcknowledgeCharacter，ACK)，该ACK消息用于触发终端进行新一轮的样本标识筛选及发送流程。

311、终端从该第一样本集中，将该多个样本标识标记为已计数状态。

在上述过程中，由于已经获取到了该多个样本标识的交叉数据分桶计数(即该多个目标参数)，为避免进行重复计数而导致统计出错，终端在第一样本集中将该多个样本标识标记为已计数状态，已计数状态的样本标识将不会参与到后续迭代的筛选及发送过程中，或者，终端直接从第一样本集中删除该多个样本标识，从而能够避免对同一样本标识多次重复计数。

在一些实施例中，终端对于多次迭代过程获取到的目标参数，将对应于相同第一样本集且对应于相同第二样本集的目标参数相加，得到交叉参数。也即是说，随着终端不断获取到新的目标参数，终端将新的目标参数与对应的已有交叉参数相加，得到更新后的交叉参数，直到停止迭代时，各个交叉参数与不同的第一样本集和不同的第二样本集之间的映射关系，即能够表示样本数据集的交叉数据分桶计数结果。

312、终端基于标记后的该第一样本集以及其他样本集，构建剩余样本集合，该其他样本集为该多个样本集中除了该第一样本集之外的样本集。

在一些实施例中，终端可以将标记后的第一样本集与其他样本集的并集作为剩余样本集合。在一些实施例中，可以使用哈希表存储各个样本集，这样在求并集时能够大大简化计算量。

313、终端基于该剩余样本集合，迭代执行上述步骤304-312，直到满足停止条件。

也即是说，终端基于该剩余样本集合，迭代执行选取样本标识及获取目标参数的步骤，直到满足停止条件。

可选地，该停止条件包括该剩余样本集合的样本容量小于本次迭代过程待筛选的样本标识数量。

在一个示例性实施例中，如果参与方A的终端收到参与方B的目标终端发送的分桶计数

则参与方A的终端记录该分桶计数

并将该分桶计数

累加到对应分桶已有的分桶计数中，并从第i个分桶(第一样本集)中减去集合

然后重复执行上述步骤304-312，直到满足停止条件。基于表5和表6的数据分桶方式，最终输出的两方纵向交叉数据分桶计数结果如表7所示，请参考表7，“R₁？”、“R₂？”、“R₃？”表示在本申请实施例中，参与方A的终端最终无法得到参与方B的目标终端对特征F₂划定的分桶范围。

表7

图5是本申请实施例提供的一种数据处理装置的结构示意图，请参考图5，该装置包括：

标识获取模块501，用于获取属于第一样本集的多个样本标识，该第一样本集为基于样本的第一特征数据划分的多个样本集中的一个；

发送模块502，用于将该多个样本标识发送至目标终端；

参数获取模块503，用于获取该目标终端返回的多个目标参数，该多个目标参数用于表示该多个样本标识在多个第二样本集中的计数，该多个第二样本集基于样本的第二特征数据划分得到。

本申请实施例提供的装置，通过从基于第一特征数据进行分桶所得的第一样本集中获取样本标识，直接将样本标识而并非是第一特征数据的数据分桶结果发送至目标终端，能够保证终端的数据源的安全性，而目标终端也无需返回基于第二特征数据进行分桶所得的数据分桶结果，而是只需返回目标参数，也即各个分桶的分桶计数，从而能够保证目标终端的数据源的安全性，从而可以保障联邦学习中产生信息交互的双方的数据安全性，大大降低隐私泄露的风险。

在一种可能实施方式中，基于图5的装置组成，该标识获取模块501包括：

确定单元，用于从基于该第一特征数据划分的该多个样本集中确定该第一样本集；

筛选单元，用于从该第一样本集中，筛选得到该多个样本标识。

在一种可能实施方式中，该第一样本集基于该多个样本集随机选取得到。

在一种可能实施方式中，该筛选单元用于：

获取待筛选的样本标识数量；

从该第一样本集中随机选取与该样本标识数量匹配的该多个样本标识。

在一种可能实施方式中，该样本标识数量大于或等于该多个第二样本集的数量。

在一种可能实施方式中，基于图5的装置组成，该装置还包括：

标记模块，用于从该第一样本集中，将该多个样本标识标记为已计数状态；

构建模块，用于基于标记后的该第一样本集以及其他样本集，构建剩余样本集合，该其他样本集为该多个样本集中除了该第一样本集之外的样本集；

迭代模块，用于基于该剩余样本集合，迭代执行选取样本标识及获取目标参数的步骤，直到满足停止条件。

在一种可能实施方式中，该停止条件包括该剩余样本集合的样本容量小于本次迭代过程待筛选的样本标识数量。

在一种可能实施方式中，该标识获取模块501还用于：响应于该目标终端的样本重选请求，获取与该多个样本标识不同的多个重选样本标识；

该发送模块502还用于：将该多个重选样本标识发送至该目标终端。

需要说明的是：上述实施例提供的数据处理装置在处理数据时，仅以上述各功能模块的划分进行举例说明，实际应用中，能够根据需要而将上述功能分配由不同的功能模块完成，即将计算机设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的数据处理装置与数据处理方法实施例属于同一构思，其具体实现过程详见数据处理方法实施例，这里不再赘述。

图6是本申请实施例提供的一种数据处理装置的结构示意图，请参考图6，该装置包括：

接收模块601，用于接收属于第一样本集的多个样本标识，该第一样本集为基于样本的第一特征数据划分的多个样本集中的一个；

获取模块602，用于获取多个目标参数，该多个目标参数用于表示该多个样本标识在多个第二样本集中的计数，该多个第二样本集基于样本的第二特征数据划分得到；

发送模块603，用于响应于该多个目标参数的安全风险低于风险阈值，发送该多个目标参数。

本申请实施例提供的装置，通过接收基于第一特征数据进行分桶所得的第一样本集中筛选得到的样本标识，基于第二特征数据对接收到的样本标识进行数据分桶，得到多个目标参数也即各个分桶的分桶计数，在安全风险较低时仅发送该多个目标参数，而无需发送各个分桶划分的取值区间，能够保证目标终端的数据源的安全性，并且接收的是样本标识而无需接收样本数据的原始数据，这样能够保障联邦学习中产生信息交互的双方的数据安全性，大大降低隐私泄露的风险。

在一种可能实施方式中，该发送模块603还用于：

响应于该多个目标参数的安全风险高于或等于该风险阈值，发送样本重选请求，该样本重选请求用于请求返回与该多个样本标识不同的多个重选样本标识。

在一种可能实施方式中，该发送模块603还用于：

响应于该多个样本标识包括历史样本标识，发送终止请求，该终止请求用于指示停止进行数据交互。

图7是本申请实施例提供的一种计算机设备的结构示意图。请参考图7，以计算机设备为终端700为例进行说明，可选地，该终端700的设备类型包括：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端700还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端700包括有：处理器701和存储器702。

可选地，处理器701包括一个或多个处理核心，比如4核心处理器、8核心处理器等。可选地，处理器701采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。在一些实施例中，处理器701包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(CentralProcessing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器701集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器701还包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

在一些实施例中，存储器702包括一个或多个计算机可读存储介质，可选地，该计算机可读存储介质是非暂态的。可选地，存储器702还包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器702中的非暂态的计算机可读存储介质用于存储至少一个计算机程序，该至少一个计算机程序用于被处理器701所执行以实现本申请中各个实施例提供的数据处理方法。

在一些实施例中，终端700还可选包括有：外围设备接口703和至少一个外围设备。处理器701、存储器702和外围设备接口703之间能够通过总线或信号线相连。各个外围设备能够通过总线、信号线或电路板与外围设备接口703相连。具体地，外围设备包括：射频电路704、显示屏705、摄像头组件706、音频电路707、定位组件708和电源709中的至少一种。

外围设备接口703可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器701和存储器702。在一些实施例中，处理器701、存储器702和外围设备接口703被集成在同一芯片或电路板上；在一些其他实施例中，处理器701、存储器702和外围设备接口703中的任意一个或两个在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路704用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路704将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路704包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。可选地，射频电路704通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路704还包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏705用于显示UI(User Interface，用户界面)。可选地，该UI包括图形、文本、图标、视频及其它们的任意组合。当显示屏705是触摸显示屏时，显示屏705还具有采集在显示屏705的表面或表面上方的触摸信号的能力。该触摸信号能够作为控制信号输入至处理器701进行处理。可选地，显示屏705还用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏705为一个，设置终端700的前面板；在另一些实施例中，显示屏705为至少两个，分别设置在终端700的不同表面或呈折叠设计；在再一些实施例中，显示屏705是柔性显示屏，设置在终端700的弯曲表面上或折叠面上。甚至，可选地，显示屏705设置成非矩形的不规则图形，也即异形屏。可选地，显示屏705采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件706用于采集图像或视频。可选地，摄像头组件706包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件706还包括闪光灯。可选地，闪光灯是单色温闪光灯，或者是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，用于不同色温下的光线补偿。

在一些实施例中，音频电路707包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器701进行处理，或者输入至射频电路704以实现语音通信。出于立体声采集或降噪的目的，麦克风为多个，分别设置在终端700的不同部位。可选地，麦克风是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器701或射频电路704的电信号转换为声波。可选地，扬声器是传统的薄膜扬声器，或者是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅能够将电信号转换为人类可听见的声波，也能够将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路707还包括耳机插孔。

定位组件708用于定位终端700的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。可选地，定位组件708是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源709用于为终端700中的各个组件进行供电。可选地，电源709是交流电、直流电、一次性电池或可充电电池。当电源709包括可充电电池时，该可充电电池支持有线充电或无线充电。该可充电电池还用于支持快充技术。

在一些实施例中，终端700还包括有一个或多个传感器710。该一个或多个传感器710包括但不限于：加速度传感器711、陀螺仪传感器712、压力传感器713、指纹传感器714、光学传感器715以及接近传感器716。

在一些实施例中，加速度传感器711检测以终端700建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器711用于检测重力加速度在三个坐标轴上的分量。可选地，处理器701根据加速度传感器711采集的重力加速度信号，控制显示屏705以横向视图或纵向视图进行用户界面的显示。加速度传感器711还用于游戏或者用户的运动数据的采集。

在一些实施例中，陀螺仪传感器712检测终端700的机体方向及转动角度，陀螺仪传感器712与加速度传感器711协同采集用户对终端700的3D动作。处理器701根据陀螺仪传感器712采集的数据，实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

可选地，压力传感器713设置在终端700的侧边框和/或显示屏705的下层。当压力传感器713设置在终端700的侧边框时，能够检测用户对终端700的握持信号，由处理器701根据压力传感器713采集的握持信号进行左右手识别或快捷操作。当压力传感器713设置在显示屏705的下层时，由处理器701根据用户对显示屏705的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器714用于采集用户的指纹，由处理器701根据指纹传感器714采集到的指纹识别用户的身份，或者，由指纹传感器714根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器701授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。可选地，指纹传感器714被设置终端700的正面、背面或侧面。当终端700上设置有物理按键或厂商Logo时，指纹传感器714能够与物理按键或厂商Logo集成在一起。

光学传感器715用于采集环境光强度。在一个实施例中，处理器701根据光学传感器715采集的环境光强度，控制显示屏705的显示亮度。具体地，当环境光强度较高时，调高显示屏705的显示亮度；当环境光强度较低时，调低显示屏705的显示亮度。在另一个实施例中，处理器701还根据光学传感器715采集的环境光强度，动态调整摄像头组件706的拍摄参数。

接近传感器716，也称距离传感器，通常设置在终端700的前面板。接近传感器716用于采集用户与终端700的正面之间的距离。在一个实施例中，当接近传感器716检测到用户与终端700的正面之间的距离逐渐变小时，由处理器701控制显示屏705从亮屏状态切换为息屏状态；当接近传感器716检测到用户与终端700的正面之间的距离逐渐变大时，由处理器701控制显示屏705从息屏状态切换为亮屏状态。

本领域技术人员能够理解，图7中示出的结构并不构成对终端700的限定，能够包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图8是本申请实施例提供的一种计算机设备的结构示意图，请参考图8，以计算机设备为服务器800为例进行说明，该服务器800可因配置或性能不同而产生比较大的差异，该服务器800包括一个或一个以上处理器(Central Processing Units，CPU)801和一个或一个以上的存储器802，其中，该存储器802中存储有至少一条计算机程序，该至少一条计算机程序由该处理器801加载并执行以实现上述各个实施例提供的数据处理方法。可选地，该服务器800还具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器800还包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括至少一条计算机程序的存储器，上述至少一条计算机程序可由终端中的处理器执行以完成上述实施例中数据处理方法。例如，该计算机可读存储介质包括ROM(Read-Only Memory，只读存储器)、RAM(Random-Access Memory，随机存取存储器)、CD-ROM(Compact Disc Read-OnlyMemory，只读光盘)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，包括一条或多条程序代码，该一条或多条程序代码存储在计算机可读存储介质中。计算机设备的一个或多个处理器能够从计算机可读存储介质中读取该一条或多条程序代码，该一个或多个处理器执行该一条或多条程序代码，使得计算机设备能够执行以完成上述实施例中数据处理方法。

本领域普通技术人员能够理解实现上述实施例的全部或部分步骤能够通过硬件来完成，也能够通过程序来指令相关的硬件完成，可选地，该程序存储于一种计算机可读存储介质中，可选地，上述提到的存储介质是只读存储器、磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

将所述多个样本标识发送至目标终端；

2.根据权利要求1所述的方法，其特征在于，所述获取属于第一样本集的多个样本标识包括：

从所述第一样本集中，筛选得到所述多个样本标识。

3.根据权利要求2所述的方法，其特征在于，所述第一样本集基于所述多个样本集随机选取得到。

4.根据权利要求2所述的方法，其特征在于，所述从所述第一样本集中，筛选得到所述多个样本标识包括：

获取待筛选的样本标识数量；

5.根据权利要求4所述的方法，其特征在于，所述样本标识数量大于或等于所述多个第二样本集的数量。

6.根据权利要求2所述的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述停止条件包括所述剩余样本集合的样本容量小于本次迭代过程待筛选的样本标识数量。

8.根据权利要求6所述的方法，其特征在于，所述方法还包括：

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

10.一种数据处理方法，其特征在于，所述方法包括：

11.根据权利要求10所述的方法，其特征在于，所述方法还包括：

12.根据权利要求10或11所述的方法，其特征在于，所述方法还包括：

13.一种数据处理装置，其特征在于，所述装置包括：

发送模块，用于将所述多个样本标识发送至目标终端；

14.一种计算机设备，其特征在于，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求9或权利要求10至权利要求12中任一项所述的数据处理方法。

15.一种存储介质，其特征在于，所述存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行以实现如权利要求1至权利要求9或权利要求10至权利要求12中任一项所述的数据处理方法。