CN117955811B

CN117955811B - 数据处理方法、装置、计算机设备及存储介质

Info

Publication number: CN117955811B
Application number: CN202410347029.0A
Authority: CN
Inventors: 赵恢强
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2024-03-26
Filing date: 2024-03-26
Publication date: 2024-05-28
Anticipated expiration: 2044-03-26
Also published as: CN117955811A

Abstract

本申请公开了一种数据处理方法、装置、计算机设备及存储介质，属于计算机技术领域。该方法包括：获取处理模型的多个训练样本；按照多个训练样本的特征值，对多个训练样本进行分箱，得到多个不同特征范围的样本集合；对于任一样本集合，按照目标数值，将样本集合划分为至少一个样本子集合，每个样本子集合中训练样本的数量不大于目标数值；采用多个线程，并行地对划分得到的多个样本子集合执行目标操作，目标操作是指将样本子集合中训练样本的梯度进行合并，得到样本子集合的梯度；将每个样本集合中多个样本子集合的梯度进行合并，得到多个样本集合的梯度直方图。本申请能够对多个线程进行充分利用，提高了生成梯度直方图的整体效率。

Description

数据处理方法、装置、计算机设备及存储介质

技术领域

本申请实施例涉及计算机技术领域，特别涉及一种数据处理方法、装置、计算机设备及存储介质。

背景技术

GBDT（Gradient Boosting Decision Tree，梯度提升决策树）模型是一种机器学习算法，在GBDT算法中，通常采用直方图算法来生成梯度直方图，以对模型进行更新和训练。

相关技术中，按照直方图算法将训练样本进行分箱，得到多个样本集合，而后需要对依次样本集合进行梯度合并，数据处理的效率较低。

发明内容

本申请实施例提供了一种数据处理方法、装置、计算机设备及存储介质，能够提高生成梯度直方图的整体效率。所述技术方案如下。

一方面，提供了一种数据处理方法，所述方法包括：

获取处理模型的多个训练样本，每个训练样本对应有特征值和梯度；

按照所述多个训练样本的特征值，对所述多个训练样本进行分箱，得到多个不同特征范围的样本集合，任一特征范围的样本集合包括特征值属于所述特征范围的训练样本；

对于任一样本集合，按照目标数值，将所述样本集合划分为至少一个样本子集合，每个样本子集合中训练样本的数量不大于所述目标数值；

采用多个线程，并行地对划分得到的多个样本子集合执行目标操作，所述目标操作是指将所述样本子集合中训练样本的梯度进行合并，得到所述样本子集合的梯度；

将每个样本集合中多个样本子集合的梯度进行合并，得到所述多个样本集合的梯度直方图，所述梯度直方图用于对所述处理模型进行训练。

另一方面，提供了一种数据处理装置，所述装置包括：

获取模块，用于获取处理模型的多个训练样本，每个训练样本对应有特征值和梯度；

第一划分模块，用于按照所述多个训练样本的特征值，对所述多个训练样本进行分箱，得到多个不同特征范围的样本集合，任一特征范围的样本集合包括特征值属于所述特征范围的训练样本；

第二划分模块，用于对于任一样本集合，按照目标数值，将所述样本集合划分为至少一个样本子集合，每个样本子集合中训练样本的数量不大于所述目标数值；

第一处理模块，用于采用多个线程，并行地对划分得到的多个样本子集合执行目标操作，所述目标操作是指将所述样本子集合中训练样本的梯度进行合并，得到所述样本子集合的梯度；

第二处理模块，用于将每个样本集合中多个样本子集合的梯度进行合并，得到所述多个样本集合的梯度直方图，所述梯度直方图用于对所述处理模型进行训练。

可选地，所述第一划分模块，用于：

确定最小特征值和最大特征值；

将所述最小特征值和所述最大特征值之间的范围均匀划分为多个特征范围，所述多个特征范围互不重叠；

对于任一训练样本，确定所述训练样本的特征值所属的目标特征范围，将所述训练样本添加至所述目标特征范围的样本集合中。

可选地，所述第二划分模块，用于：

确定第一数量，所述第一数量是指所述样本集合中训练样本的数量；

如果所述第一数量能够被所述目标数值整除，将所述样本集合按照所述目标数值均匀划分为多个样本子集合；

如果所述第一数量不能被所述目标数值整除，将所述样本集合中第二数量的训练样本划分为一个样本子集合，将所述样本集合中剩余的训练样本按照所述目标数值均匀划分为多个样本子集合，所述第二数量等于所述第一数量除以所述目标数值的余数。

可选地，所述装置还包括数值确定模块，用于：

获取预设的目标数值；或者，

确定每个样本集合中训练样本的数量，将最小的数量确定为所述目标数值；或者，

确定每个样本集合中训练样本的数量，如果最小的数量小于预设数值，将所述预设数值确定为所述目标数值，如果最小的数量不小于所述预设数值，将最小的数量确定为所述目标数值。

可选地，所述第一处理模块，用于：

基于所述多个线程的数量和所述多个样本子集合的数量，将所述多个样本子集合分配给所述多个线程；

对于所述多个线程中的任一线程，采用所述线程，依次对分配得到的多个样本子集合执行所述目标操作，所述多个线程并行执行。

可选地，所述目标操作是指将所述样本子集合中训练样本的梯度相加，得到所述样本子集合的梯度；所述第二处理模块，用于：

对于任一样本集合，将所述样本集合中多个样本子集合的梯度相加，得到所述样本集合的梯度；其中，所述多个样本集合的梯度构成所述梯度直方图。

可选地，所述处理模型为第一设备和第二设备联合训练的联邦学习模型，所述装置由所述第一设备执行，所述训练样本的梯度是由所述第二设备发送的加密梯度，所述目标操作是指将所述样本子集合中训练样本的加密梯度进行同态合并，得到所述样本子集合的加密梯度；所述第二处理模块，用于：

将每个样本集合中多个样本子集合的加密梯度进行同态合并，得到所述多个样本集合的加密梯度直方图。

可选地，所述装置还包括发送模块，用于：

将所述加密梯度直方图发送给所述第二设备，由所述第二设备对所述加密梯度直方图进行解密，基于解密后的梯度直方图对所述处理模型进行训练。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行，以实现如上述方面所述的数据处理方法所执行的操作。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行，以实现如上述方面所述的数据处理方法所执行的操作。

另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序由处理器加载并执行，以实现如上述方面所述的数据处理方法所执行的操作。

本申请实施例提供的方案，在对训练样本进行分箱得到多个样本集合后，针对每个样本集合，还按照目标数值将样本集合进一步划分成至少一个样本子集合，使得划分得到的各个样本子集合中训练样本的数量相对均衡，进而采用多个线程以样本子集合为单位进行并行处理，正是由于各个样本子集合中训练样本的数量相对均衡，所以各个线程进行处理所花费的时间也相对均衡，从而避免出现由于有些线程处理的数据量少导致提前空闲的情况，有利于对多个线程进行充分利用，提高了生成梯度直方图的整体效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种实施环境的示意图；

图2是本申请实施例提供的一种数据处理方法的流程图；

图3是本申请实施例提供的另一种数据处理方法的流程图；

图4是本申请实施例提供的一种梯度直方图的生成方法的示意图；

图5是本申请实施例提供的一种纵向联邦学习模式的示意图；

图6是本申请实施例提供的又一种数据处理方法的流程图；

图7是本申请实施例提供的再一种数据处理方法的流程图；

图8是本申请实施例提供的一种数据处理装置的结构示意图；

图9是本申请实施例提供的另一种数据处理装置的结构示意图；

图10是本申请实施例提供的一种终端的结构示意图；

图11是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种概念，但除非特别说明，这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。举例来说，在不脱离本申请的范围的情况下，可以将第一数值称为第二数值，且类似地，可将第二数值称为第一数值。

其中，至少一个是指一个或者一个以上，例如，至少一个样本集合可以是一个样本集合、两个样本集合、三个样本集合等任一大于等于一的整数个样本集合。多个是指两个或者两个以上，例如，多个样本集合可以是两个样本集合、三个样本集合等任一大于等于二的整数个样本集合。每个是指至少一个中的每一个，例如，每个样本集合是指多个样本集合中的每一个样本集合，若多个样本集合为3个样本集合，则每个样本集合是指3个样本集合中的每一个样本集合。

需要说明的是，本申请所涉及的信息（包括但不限于用户设备信息、用户个人信息等）、数据（包括但不限于用于分析的数据、存储的数据、展示的数据等）以及信号（包括但不限于用户终端与其他设备之间传输的信号等），均为经用户或相关方面充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

人工智能（Artificial Intelligence，AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

机器学习（Machine Learning，ML）是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

以下将基于人工智能技术和机器学习技术，对本申请实施例提供的数据处理方法进行说明。

本申请实施例提供的图像处理方法，能够用于计算机设备中。可选地，该计算机设备为终端或服务器。可选地，该服务器是独立的物理服务器，或者，是多个物理服务器构成的服务器集群或者分布式系统，或者，是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN（Content Delivery Network，内容分发网络）以及大数据和人工智能平台等基础云计算服务的云服务器。可选地，该终端是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能终端等，但并不局限于此。

在一种可能实现方式中，本申请实施例所涉及的计算机程序可被部署在一个计算机设备上执行，或者在位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备能够组成区块链系统。

在一种可能实现方式中，本申请实施例中用于训练处理模型的计算机设备是区块链系统中的节点，该节点能够将训练的处理模型存储在区块链中，之后该节点或者该区块链中的其他设备对应的节点可通过该处理模型对数据进行处理。

在一种可能实现方式中，本申请实施例涉及的处理模型是通过多个设备联合训练的联邦学习模型，则本申请实施例提供的数据处理方法的实施环境中包括至少两个设备。其中，纵向联邦学习是常见的联邦学习模式，以两方进行纵向联邦为例，有且仅有一方拥有机器学习的label（标签）数据，称为Guest（客人）方，而另一方没有机器学习的label数据，称为Host（主人）方。而Host方拥有方机器学习的特征数据，Guest方可能有特征数据也可能没有特征数据，Host方和Guest方所拥有的特征数据是不同特征维度的数据，例如Host方所拥有的特征数据为训练样本的年龄，Guest方所拥有的特征数据为训练样本的体重等。通过纵向联邦学习，Guest方可以借助Host方的特征数据，提高机器学习模型的能力，同时又能保护各个参与方的数据隐私。

如上所述，以应用在联邦学习场景下为例，图1是本申请实施例提供的一种实施环境的示意图，参见图1，该实施环境包括：第一设备101和第二设备102。第一设备101和第二设备102之间通过无线或有线网络连接。其中，第一设备101为Host方，第二设备102为Guest方，第二设备102基于标签数据计算训练样本的梯度，将训练样本的梯度发送给第一设备101，第一设备101采用本申请实施例提供的数据处理方法，基于训练样本的特征值和第二设备102发送的梯度，生成训练样本的梯度直方图，将该梯度直方图提供给第二设备102，后续第二设备102可利用该梯度直方图来对模型进行训练。可选地，第二设备102向第一设备101发送的梯度为加密后的梯度，第一设备101需要在密文空间上生成梯度直方图。

需要说明的是，上述图1所示的实施例中仅以第一设备101作为Host方与一个Guest方连接为例进行说明，在另一实施例中，第一设备101作为Host方还可以与多个Guest方进行连接，本申请实施例对此不做限定。

图2是本申请实施例提供的一种数据处理方法的流程图，本申请实施例由计算机设备执行，参见图2，该方法包括以下步骤。

201、计算机设备获取处理模型的多个训练样本，每个训练样本对应有特征值和梯度。

计算机设备获取处理模型的多个训练样本，该多个训练样本可以为计算机设备中预先存储的，或者由其他设备发送给该计算机设备的。

其中，该处理模型可以为任意类型的处理模型，例如该处理模型可以为决策树、机器学习模型或者神经网络模型等。该处理模型还可以为任意领域的处理模型，例如该处理模型可以为用于预测风险对象的模型，或者该处理模型可以为用于预测是否向用户推送多媒体资源的模型，或者该处理模型可以为用于进行信息预测的模型等，本申请实施例对此不做限定。

其中，该多个训练样本用于训练该处理模型，每个训练样本对应有特征值和梯度。训练样本的特征值用于反映训练样本的特性，例如特征值可以包括训练样本的年龄、体重或者身高等。训练样本的特征值可以为计算机设备中预先存储的，或者由其他设备发送给该计算机设备的。训练样本的梯度是针对该处理模型的梯度，该梯度是指用于训练该处理模型的损失参数的梯度，训练样本的梯度包括一阶梯度或者二阶梯度等，本申请实施例对此不做限定。训练样本的梯度可以为计算机设备基于该处理模型计算得到的，或者由其他设备发送给该计算机设备的。

202、计算机设备按照多个训练样本的特征值，对多个训练样本进行分箱，得到多个不同特征范围的样本集合，任一特征范围的样本集合包括特征值属于特征范围的训练样本。

计算机设备获取该多个训练样本的特征值，按照多个训练样本的特征值，将多个训练样本划分到各自所属的特征范围的样本集合中，各个样本集合的特征范围互不重叠，因此各个样本集合中的训练样本也互不相同。

其中，分箱是一种在数据处理领域中的数据离散化技术。对多个训练样本进行分箱是指按照特定的规则对该多个训练样本进行分组。例如，将训练样本的特征值按照特定规则划分成多个特征范围。本申请实施例中所得到的多个样本集合即为对多个训练样本进行分箱的分箱结果，一个样本集合可以看作一个“箱”，样本集合对应的特征范围可以看作“箱的宽度”，也即是该“箱”的取值区间。由于同一样本集合中多个训练样本的特征值属于同一个特征范围，因此同一个样本集合中多个训练样本之间存在一定的关联性。

203、计算机设备对于任一样本集合，按照目标数值，将样本集合划分为至少一个样本子集合，每个样本子集合中训练样本的数量不大于目标数值。

计算机设备获取到多个样本集合后，对于每个样本集合，计算机设备均执行以下操作：按照目标数值将样本集合划分为至少一个样本子集合，以使每个样本子集合中训练样本的数量均不大于目标数值。因此，多个样本集合会被划分成多个样本子集合，且每个样本子集合中训练样本的数量均不大于目标数值，使得各个样本子集合中训练样本的数量相对更加均衡。

204、计算机设备采用多个线程，并行地对划分得到的多个样本子集合执行目标操作，目标操作是指将样本子集合中训练样本的梯度进行合并，得到样本子集合的梯度。

计算机设备中运行有多个线程，该多个线程可以并行执行。计算机设备在划分得到多个样本子集合后，采用该多个线程，并行地对划分得到的多个样本子集合执行目标操作，对样本子集合执行目标操作是指将样本子集合中训练样本的梯度进行合并，合并后的梯度作为该样本子集合的梯度，从而能够得到每个样本子集合的梯度。

由于各个样本子集合中训练样本的数量均不大于目标数值，也即是各个样本子集合中训练样本的数量相对均衡，所以各个线程对多个样本子集合进行并行处理所花费的时间也相对均衡，在一定程度上可以避免出现由于有些线程处理的数据量少导致提前空闲的情况。

205、计算机设备将每个样本集合中多个样本子集合的梯度进行合并，得到多个样本集合的梯度直方图，梯度直方图用于对处理模型进行训练。

计算机设备在得到每个样本子集合的梯度之后，对于每个样本集合，计算机设备均执行以下操作：获取该样本集合所划分得到的至少一个样本子集合，将该至少一个样本子集合的梯度进行合并，合并后的梯度作为该样本集合的梯度，从而能够得到每个样本集合的梯度，多个样本集合的梯度构成了该多个训练样本的梯度直方图。

需要说明的是，训练样本的特征值可以仅包括一个特征维度上的特征值，也可以包括多个特征维度上的特征值。如果训练样本的特征值仅包括一个特征维度上的特征值，则针对该特征维度上的特征值，执行上述步骤202-步骤205，得到该特征维度上的梯度直方图。如果训练样本的特征值包括多个特征维度上的特征值，则针对每个特征维度上的特征值，分别执行上述步骤202-步骤205，得到每个特征维度上的梯度直方图，也即是一个特征维度对应有一个梯度直方图。另外，该多个特征维度上的梯度直方图也可以合并为一个梯度直方图。

本申请实施例提供的方法，在对训练样本进行分箱得到多个样本集合后，针对每个样本集合，还按照目标数值将样本集合进一步划分成至少一个样本子集合，使得划分得到的各个样本子集合中训练样本的数量相对均衡，进而采用多个线程以样本子集合为单位进行并行处理，正是由于各个样本子集合中训练样本的数量相对均衡，所以各个线程进行处理所花费的时间也相对均衡，从而避免出现由于有些线程处理的数据量少导致提前空闲的情况，有利于对多个线程进行充分利用，提高了生成梯度直方图的整体效率。

上述图2的实施例进行是数据处理方法的简要介绍，该数据处理方法更为详细的实现过程可参见下述图3的实施例。图3是本申请实施例提供的另一种数据处理方法的流程图，本申请实施例由计算机设备执行，参见图3，该方法包括以下步骤。

301、计算机设备获取处理模型的多个训练样本，每个训练样本对应有特征值和梯度。

在一种可能实现方式中，该处理模型为GBDT（Gradient Boosting DecisionTree，梯度提升决策树）模型，GBDT是一种流行的机器学习算法。其中，GBDT算法中的核心步骤是梯度直方图的构建，该梯度直方图用于寻找GBDT中的最佳分裂点，本申请实施例提供的方法即是对梯度直方图的构建过程的详细说明。

除此之外，该处理模型还可以为Boosting（提升方法）类型的模型，例如XGboost（eXtreme Gradient Boosting，极限梯度提升算法）、LightGBM（Light Gradient BoostingMachin，轻量级梯度提升机器学习）以及CatBoost（Category Boosting，基于决策树的集成学习算法）等，本申请实施例对处理模型的类型不做限定。

在一种可能实现方式中，该计算机设备为纵向联邦学习中的设备，训练样本的特征值是该计算机设备中所存储的特征值，训练样本的梯度是该计算机设备接收到的其他设备所发送的梯度，例如该梯度为加密后的梯度。或者，训练样本的特征值是该计算机设备接收到的其他设备所发送的特征值，例如该特征值为加密后的特征值，训练样本的梯度是该计算机设备计算得到的。或者，该训练样本的特征值是该计算机设备中所存储的特征值，训练样本的梯度也是该计算机设备计算得到的。本申请实施例对训练样本的特征值和梯度的来源不做限定。

在一种可能实现方式中，本申请实施例应用在风险预测领域，该处理模型为风险预测模型，训练样本为样本对象（例如样本对象为账号），风险预测模型用于预测任一对象是否属于风险对象。样本对象的特征值是基于样本对象的对象信息所提取的，例如对象信息包括注册该样本对象时所提交的信息等。样本对象的梯度是基于样本对象的预测数据和标签数据确定的，预测数据为用于表示该样本对象是否属于风险对象的预测结果，标签数据为用于表示该样本对象是否属于风险对象的真实结果。可选地，该预测数据为风险预测模型输出的预测结果，该标签数据为人工标注的真实结果。

在一种可能实现方式中，本申请实施例应用在多媒体资源推送领域，该处理模型为资源推送模型，训练样本为样本推送任务，样本推送任务为确定是否将样本多媒体资源推送给样本对象，资源推送模型用于预测是否将该多媒体资源推送给该对象。样本推送任务的特征值是基于该样本对象的对象信息和该样本多媒体资源的资源信息所提取的，例如对象信息包括注册该样本对象时所提交的信息等，资源信息包括多媒体资源的资源类型、资源标识以及所包含的素材等。样本推送任务的梯度是基于该样本推送任务的预测数据和标签数据确定的，预测数据用于表示在将该样本多媒体资源推送给该样本对象的情况下，该样本对象与该样本多媒体资源的预测互动情况，标签数据用于表示在将该样本多媒体资源推送给该样本对象的情况下，该样本对象与该样本多媒体资源的真实互动情况。可选地，该预测数据为资源推送模型输出的预测结果，该标签数据为人工标注的真实结果。其中，该多媒体资源可以为视频、音频、图文或者商品等。

302、计算机设备按照多个训练样本的特征值，对多个训练样本进行分箱，得到多个不同特征范围的样本集合，任一特征范围的样本集合包括特征值属于特征范围的训练样本。

例如，在风险预测领域，训练样本为样本对象，样本对象的特征值是基于样本对象的对象信息所提取的。计算机设备按照多个样本对象的特征值，将多个样本对象划分到各自所属的特征范围的样本集合中，从而得到多个样本集合，每个样本集合中包括至少一个样本对象。

在一种可能实现方式中，该步骤302包括：确定最小特征值和最大特征值；将最小特征值和最大特征值之间的范围均匀划分为多个特征范围，多个特征范围互不重叠；对于任一训练样本，确定训练样本的特征值所属的目标特征范围，将训练样本添加至目标特征范围的样本集合中。

可选地，该最小特征值和最大特征值为预先设置的特征值，且该多个训练样本的特征值均不小于该最小特征值，该多个训练样本的特征值均不大于该最大特征值。或者可选地，该最小特征值等于该多个训练样本的特征值中的最小值，该最大特征值等于该多个训练样本的特征值中的最大值。

其中，划分得到的多个特征范围互不重叠，且每个特征范围所覆盖的特征值的数量相等。例如，最小特征值等于0，最大特征值等于1，分箱数量为4（也即是划分4个样本集合），那么该多个特征范围分别为[0,0.25)、[0.25,0.5)、[0.5,0.75)和[0.75,1]。

需要说明的是，由于多个训练样本的特征值分布不均衡，因此不同特征范围内的分布差异也较大，那么各个样本集合中训练样本的数量也会差异较大，例如有些样本集合中训练样本的数量较少，有些样本集合中训练样本的数量较多。

本申请实施例中，将最小特征值和最大特征值之间的范围均匀划分为多个特征范围，然后根据训练样本的特征值将多个训练样本划分至各自对应的特征范围，得到多个样本集合，以使每个样本集合中的各个训练样本的特征值相差较小，实现了对多个训练样本进行聚合，便于后续以样本集合为单位进行处理，有利于提高处理效率。

并且，在应用在GBDT算法的场景下，有利于快速寻找决策树的最佳分裂点，能够提高决策树的训练速度。

303、计算机设备对于任一样本集合，按照目标数值，将样本集合划分为至少一个样本子集合，每个样本子集合中训练样本的数量不大于目标数值。

计算机设备将每个样本集合均划分为至少一个样本子集合，因此多个样本集合会被划分成多个样本子集合，且每个样本子集合中训练样本的数量均不大于目标数值，使得各个样本子集合中训练样本的数量相对更加均衡。

在一种可能实现方式中，该步骤303包括：对于任一样本集合，确定第一数量，第一数量是指该样本集合中训练样本的数量；如果第一数量能够被目标数值整除，将样本集合按照目标数值均匀划分为多个样本子集合；如果第一数量不能被目标数值整除，将样本集合中第二数量的训练样本划分为一个样本子集合，将样本集合中剩余的训练样本按照目标数值均匀划分为多个样本子集合，第二数量等于第一数量除以目标数值的余数。

其中，该目标数值可以理解为期望样本子集合所包含的训练样本的数量。如果样本集合中训练样本的数量可以被目标数值整除，那么可以将该样本集合均匀地划分成多个样本子集合，以使每个样本子集合中训练样本的数量均等于该目标数值。如果样本集合中训练样本的数量不可以被目标数值整除，那么至少存在一个样本子集合中训练样本的数量小于该目标数值，其他样本子集合中训练样本的数量均等于该目标数值。

例如，在风险预测领域，训练样本为样本对象，样本集合中包括样本对象，目标数值等于10。如果样本集合中样本对象的数量等于30，那么该样本集合可以被均匀地划分为3个样本子集合，每个样本子集合均包括10个样本对象。如果样本集合中样本对象的数量等于36，那么该样本集合可以被划分为4个样本子集合，其中3个样本子集合均包括10个样本对象，一个样本子集合包括6个样本对象。如果样本集合中样本对象的数量等于8，则该样本集合只能划分为一个样本子集合，且该样本子集合包括8个样本对象。

本申请实施例中，根据样本集合中训练样本的第一数量以及目标数值之间的大小关系，来将样本集合划分为至少一个样本子集合，以保证在各个样本子集合中训练样本的数量均不大于目标数值的前提下，尽量使各个样本子集合中训练样本的数量更大且更均匀，从而保证后续各个线程并行处理各个样本子集合所花费的时间相对均衡，以避免线程之间需要等待导致浪费处理资源的情况，进一步提高了对多个线程的利用率，有利于提高整体的处理效率。

在另一种可能实现方式中，该步骤303包括：对于任一样本集合，确定第一数量，第一数量是指该样本集合中训练样本的数量；如果第一数量能够被目标数值整除，将样本集合按照目标数值均匀划分为多个样本子集合；如果第一数量不能被目标数值整除，确定样本集合中第二数量的训练样本，将样本集合中剩余的训练样本按照目标数值均匀划分为多个样本子集合，将该第二数量的训练样本随机添加至已划分的至少一个样本子集合中。

例如，在风险预测领域，训练样本为样本对象，样本集合中包括样本对象，目标数值等于10。如果样本集合中样本对象的数量等于36，那么先划分出3个样本子集合，每个样本子集合均包括10个样本对象，则还剩余6个样本对象，然后将该6个样本对象随机添加至已划分的3个样本子集合中，例如每个样本子集合中添加2个样本对象，或者在随机确定的2个样本子集合中分别添加3个样本对象，或者在随机确定的1个样本子集合中添加6个样本对象等。

在另一种可能实现方式中，该目标数值的确定方式，包括以下任意一种。

（1）获取预设的目标数值。也即是，该目标数值为预先设置的数值。可选地，该目标数值可以为线程所允许处理的训练样本的最大数量等。

本申请实施例中，该目标数值可以理解为是样本子集合中训练样本的数量，该目标数值可以预先自行设置，以提高对样本集合进行划分的灵活性。

（2）确定每个样本集合中训练样本的数量，将最小的数量确定为目标数值。例如，3个样本集合中训练样本的数量分别为10、20和35，则将10作为为目标数值。

该目标数值可以理解为期望样本子集合所包含的训练样本的数量。如果目标数值大于样本集合中所包含的训练样本的数量，那么该样本集合所划分的样本子集合中训练样本的数量必定小于该目标数值，也即是无法达到期望的该目标数值，进而后续处理该样本子集合的线程相对其他线程的工作量会较小，提前处理完成后处于空闲，难以对线程进行充分利用。

因此，本申请实施例中将该目标数值设置为各个样本集合中所包含的训练样本的最小数量，以保证尽量多的样本子集合中训练样本的数量均能达到该目标数值，进一步提高了各个样本子集合中训练样本的数量的均衡性，有利于进一步提高对多个线程的利用率。

（3）确定每个样本集合中训练样本的数量，如果最小的数量小于预设数值，将预设数值确定为目标数值，如果最小的数量不小于预设数值，将最小的数量确定为目标数值。例如，预设数值等于10，3个样本集合中训练样本的数量分别为5、15、30，最小的数量5小于10，则将10作为目标数值。可选地，该预设数值可以为已规定的线程所允许处理的训练样本的最小数量等。

本申请实施例中，如果各个样本集合中所包含的训练样本的最小数量不小于预设数值，则将该最小数值作为目标数值，以保证尽量多的样本子集合中训练样本的数量均能达到该目标数值。如果最小的数量小于预设数值，那么将该最小的数量作为目标数值，会增大划分样本子集合的计算量以及样本子集合的数量，为了避免这一问题，此种情况下将预设数值作为目标数值，从而避免计算量过大。

304、计算机设备基于多个线程的数量和多个样本子集合的数量，将多个样本子集合分配给多个线程。

计算机设备在划分得到多个样本子集合后，基于多个线程的数量和多个样本子集合的数量，将多个样本子集合分配给多个线程，以使每个线程分配到的样本子集合的数量不大于第三数值。其中，该第三数值等于多个样本子集合的数量与多个线程的数量的比值向上取整。

在一种可能实现方式中，计算机设备将多个样本子集合的数量与多个线程的数量的比值向下取整，得到第四数值，先为每个线程分配第四数值个样本子集合。如果还存在未被分配的样本子集合，将未被分配的样本子集合分配给至少一个线程。

例如，多个样本子集合的数量等于105，多个线程的数量等于10，多个样本子集合的数量与多个线程的数量的比值向下取整所得到的第四数值等于10，那么先为每个线程分配10个样本子集合，此时还剩余5个样本子集合未被分配，则在10个线程中随机确定5个线程，将5个样本子集合分别分配给这5个线程。

本申请实施例中，将多个样本子集合分配给多个线程，且每个线程分配到的样本子集合的数量不大于第三数值，保证了各个线程分配到的样本子集合的数量是均衡的，避免由于分配不均衡导致某些线程提前处理完成需要等待其他线程的情况，有利于对多个线程进行充分利用，提高了处理效率。

305、计算机设备对于多个线程中的任一线程，采用线程，依次对分配得到的多个样本子集合执行目标操作，多个线程并行执行，目标操作是指将样本子集合中训练样本的梯度进行合并，得到样本子集合的梯度。

计算机设备将多个样本子集合分配给多个线程后，每个线程分配到至少一个样本子集合，对于任一线程，计算机设备执行以下操作：采用该线程，依次对分配得到的至少一个样本子集合执行目标操作。其中，以上多个线程并行地处理各自分配到的样本子集合，因此最终可以确定每个样本子集合的梯度。

在一种可能实现方式中，目标操作是指将样本子集合中训练样本的梯度相加，得到样本子集合的梯度。例如，样本子集合包括10个训练样本，则将这10个训练样本的梯度进行累加，累加得到的梯度作为该样本子集合的梯度。

例如，在风险预测领域，训练样本为样本对象，样本对象的梯度是基于样本对象的预测数据和标签数据确定的。对于多个线程中的任一线程，计算机设备采用该线程，对样本子集合中样本对象的梯度相加，得到样本子集合的梯度。

306、计算机设备将每个样本集合中多个样本子集合的梯度进行合并，得到多个样本集合的梯度直方图，梯度直方图用于对处理模型进行训练。

计算机设备在得到每个样本子集合的梯度之后，对于每个样本集合，计算机设备均执行以下操作：获取该样本集合所划分得到的至少一个样本子集合，将该至少一个样本子集合的梯度进行合并，合并后的梯度作为该样本集合的梯度。因此，该计算机设备可以获取到每个样本集合的梯度，该多个样本集合的梯度即构成可该多个训练样本的梯度直方图。

在一种可能实现方式中，对于任一样本集合，将样本集合中多个样本子集合的梯度相加，得到样本集合的梯度；其中，多个样本集合的梯度构成梯度直方图。

例如，某一个样本集合包括3个样本子集合，则将这3个样本子集合的梯度累加，累加得到的梯度作为该样本集合的梯度。如果某一个样本集合包括1个样本子集合，则该样本子集合的梯度即可作为该样本集合的梯度。

图4是本申请实施例提供的一种梯度直方图的生成方法的示意图，如图4所示，训练样本的数量为n个，n个训练样本的梯度分别为G1-Gn，按照训练样本的特征值将n个训练样本划分为q个样本集合，q个样本集合分别为S1-Sq，每个样本集合包括至少一个训练样本。其中，该训练样本的特征值包括两个特征维度上的特征值。

对于任意一个样本集合，执行以下操作：如图4所示，以样本集合Sq为例，在第一个阶段，先将样本集合Sq进行分段，划分为3个样本子集合，将每个样本子集合中训练样本的梯度累加，例如第一个样本子集合累加后的梯度为∑Gq1，第二个样本子集合累加后的梯度为∑Gq2，第二个样本子集合累加后的梯度为∑Gq3。在第二个阶段，将3个样本子集合的梯度进行累加，得到∑G。对于每个样本集合均执行上述操作，即可得到每个样本集合的梯度，如图4所示，从而形成梯度直方图。

相关技术中，在将多个训练样本分箱得到多个样本集合后，直接将多个样本集合分配给线程进行并行处理，但是由于训练样本的特征值在不同特征范围的分布差异较大，因此不同的样本集合中训练样本的数量差异也较大，有些样本集合中训练样本的数量较多，有些样本集合中训练样本的数量较少，导致有些线程的工作量较大，有些线程的工作量较小，因此有些线程在处理完成后需要等待其他线程，那么处于空闲状态的这些线程就无法得到充分利用，拉低了梯度直方图的生成效率。

而本申请实施例提供的方法，在对训练样本进行分箱得到多个样本集合后，针对每个样本集合，还按照目标数值将样本集合进一步划分成至少一个样本子集合，使得划分得到的各个样本子集合中训练样本的数量相对均衡，进而采用多个线程以样本子集合为单位进行并行处理，正是由于各个样本子集合中训练样本的数量相对均衡，所以各个线程进行处理所花费的时间也相对均衡，从而避免出现由于有些线程处理的数据量少导致提前空闲的情况，有利于对多个线程进行充分利用，提高了生成梯度直方图的整体效率。

在上述实施例的基础上，该处理模型为第一设备和第二设备联合训练的联邦学习模型。如图5所示，例如该第一设备和第二设备对该处理模型进行纵向联邦学习。其中，第一设备作为Host方，仅具有训练样本的特征值但不具有训练样本的标签数据，因此无法计算训练样本的梯度，而第二设备作为Guest方，具有训练样本的标签数据，可以计算训练样本的梯度。因此第二设备需要向第一设备提供训练样本的梯度，以便第一设备基于训练样本的特征值和梯度生成梯度直方图。而在纵向联邦学习中，为了保护数据隐私，第二设备向第一设备提供的梯度为加密后的梯度。

则在上述情况下，本申请实施例提供的数据处理方法的详细实现过程，可参见下述图6的实施例。图6是本申请实施例提供的又一种数据处理方法的流程图，本申请实施例由第一设备和第二设备交互执行，参见图6，该方法包括以下步骤。

601、第二设备向第一设备发送处理模型的多个训练样本的加密梯度。

第二设备包括训练样本的标签数据，该第二设备获取训练样本的预测数据，基于该训练样本的预测数据和训练样本的标签数据，确定该训练样本的梯度，对该训练样本的梯度进行加密，得到训练样本的加密梯度。

其中，该训练样本的预测数据是通过处理模型基于训练样本的特征值确定的。该训练样本的特征值可以理解为处理模型的输入，该训练样本的预测数据可以理解为处理模型的输出。该训练样本的梯度是指损失函数的梯度。

在一种可能实现方式中，该处理模型为GBDT算法中的决策树，在GBDT算法中需要构建梯度直方图来寻找决策树的最佳分裂点。然后由于梯度是根据标签数据计算得到的，因此梯度在一定程度生能够反映训练样本的梯度，例如以logistic loss（对数似然损失函数）为例，对于正样本，一阶梯度恒为负数，对于负样本，一阶梯度恒为正数。因此，第二设备直接将梯度发送给第一设备会导致标签数据泄露，因此需要对梯度进行加密。

可选地，由于梯度直方图的构建仅涉及加法运算，因此满足加法同态的同态加密算法均可用于对梯度进行加密。同态加密算法是指一种密码学技术，对多个明文数据经过同态加密后，在密文空间下进行逻辑计算（例如加法或乘法等）得到密文输出，将该密文输出进行解密，解密得到的结果与对未加密的原始数据进行相同逻辑计算得到的输出结果是相同的。

在一种可能实现方式中，本申请实施例应用在风险预测领域，该处理模型为风险预测模型，训练样本为样本对象（例如样本对象为账号），风险预测模型用于预测任一对象是否属于风险对象。第二设备包括样本对象的标签数据，该第二设备还可以获取样本对象的预测数据。第二设备基于该样本对象的预测数据和样本对象的标签数据，确定该样本对象的梯度，对该样本对象的梯度进行加密，得到样本对象的加密梯度。可选地，第二设备基于该样本对象的预测数据和样本对象的标签数据，确定风险预测模型的损失函数，该样本对象的梯度为该损失函数的梯度。例如，该损失函数可以为交叉熵损失函数、对数似然损失函数等。

在一种可能实现方式中，本申请实施例应用在多媒体资源推送领域，该处理模型为资源推送模型，训练样本为样本推送任务，样本推送任务为确定是否将样本多媒体资源推送给样本对象，资源推送模型用于预测是否将该多媒体资源推送给该对象。第二设备包括样本推送任务的标签数据，该第二设备还可以获取样本推送任务的预测数据。第二设备基于该样本推送任务的预测数据和样本推送任务的标签数据，确定该样本推送任务的梯度，对该样本推送任务的梯度进行加密，得到样本推送任务的加密梯度。可选地，第二设备基于该样本推送任务的预测数据和样本推送任务的标签数据，确定资源推送模型的损失函数，该样本推送任务的梯度为该损失函数的梯度。例如，该损失函数可以为交叉熵损失函数、对数似然损失函数等。

602、第一设备接收第二设备发送的多个训练样本的加密梯度，获取多个训练样本的特征值。

第一设备存储有训练样本的特征值，第一设备还可以接收第二设备发送的该多个训练样本的加密梯度，从而第一设备获取到了多个训练样本的特征值以及加密梯度，后续采用下述步骤603-步骤606基于特征值和加密梯度构建梯度直方图即可。

603、第一设备按照多个训练样本的特征值，对多个训练样本进行分箱，得到多个不同特征范围的样本集合，任一特征范围的样本集合包括特征值属于特征范围的训练样本。

604、第一设备对于任一样本集合，按照目标数值，将样本集合划分为至少一个样本子集合，每个样本子集合中训练样本的数量不大于目标数值。

其中，该步骤603-步骤604的过程与上述步骤202-步骤203或步骤302-步骤303的过程同理，在此不再赘述。

605、第一设备采用多个线程，并行地对划分得到的多个样本子集合执行目标操作，目标操作是指将样本子集合中训练样本的加密梯度进行同态合并，得到样本子集合的加密梯度。

在一种可能实现方式中，第一设备基于所述多个线程的数量和所述多个样本子集合的数量，将所述多个样本子集合分配给所述多个线程；对于所述多个线程中的任一线程，采用所述线程，依次对分配得到的多个样本子集合执行所述目标操作，所述多个线程并行执行。

在一种可能实现方式中，该目标操作是指将样本子集合中训练样本的加密梯度进行同态累加，得到样本子集合的加密梯度。

其中，该步骤605的过程与上述步骤204或步骤304-步骤305的过程同理，不同之处仅在于，该步骤605中是在密文空间对加密后的梯度进行同态合并（例如同态累加），因此不再对该步骤605进行赘述。

606、第一设备将每个样本集合中多个样本子集合的加密梯度进行同态合并，得到多个样本集合的加密梯度直方图。

在一种可能实现方式中，对于任一样本集合，将样本集合中多个样本子集合的加密梯度进行同态累加，得到样本集合的加密梯度；其中，多个样本集合的加密梯度构成加密梯度直方图。

其中，该步骤606的过程与上述步骤205或步骤306的过程同理，不同之处仅在于，该步骤606中是在密文空间对加密后的梯度进行同态合并（例如同态累加），因此不再对该步骤606进行赘述。

607、第一设备将加密梯度直方图发送给第二设备。

第一设备在创建加密梯度直方图后，将该加密梯度直方图提供给第二设备。

608、第二设备接收第一设备发送的加密梯度直方图，对加密梯度直方图进行解密，基于解密后的梯度直方图对处理模型进行训练。

第二设备将第一设备发送的加密梯度直方图进行解密，得到解密后的梯度直方图，利用解密后的梯度直方图对处理模型进行训练。

在一种可能实现方式中，该处理模型为GBDT算法中的决策树，第二设备基于该解密后的梯度直方图确定该决策树的最佳分裂点，基于该最佳分裂点对决策树进行更新。其中，基于最佳分裂点对决策树进行更新是指，更新决策树的树结点、训练样本与树结点之间的索引以及叶子结点的权重值等，叶子节点的权重值用于计算训练样本的预测数据。

可选地，如果第二设备也具有训练样本的特征值，且该特征值所属的特征维度与第一设备上训练样本的特征值所属的特征维度不同，则第二设备也可以基于训练样本的特征值和梯度创建梯度直方图，第二设备基于本端的梯度直方图和第一设备的梯度直方图确定该决策树的最佳分裂点，如果该最佳分裂点属于第二设备上所拥有的特征值，则第二设备基于该最佳分裂点对决策树进行更新即可。如果该最佳分裂点属于第一设备上所拥有的特征值，则第二设备向该第一设备发送该最佳分裂点的标识，由第一设备基于该最佳分裂点对决策树进行更新，也即是会对决策树上的样本进行分裂划分，得到新的树结点，第一设备将决策树的分裂结果提供给第二设备，第二设备基于该分裂结果对决策树进行更新。其中，该分裂结果包括分裂得到的两个子结点所对应的各个训练样本的标识等。

可选地，第二设备获取到梯度直方图后，根据GBDT算法中的分裂增益计算公式，来计算特征值作为分裂点的分裂增益，将分裂增益最大的特征值作为最佳分裂点。

可选地，第二设备在对决策树的树结点进行更新后，根据GBDT算法中的权重计算公式，计算决策树中叶子结点的权重值。通过更新后的决策树，基于训练样本的特征值，确定新的预测数据，进而根据新的预测数据和标签数据确定新的梯度。后续基于新的梯度创建新的梯度直方图，继续对决策树进行更新，从而实现对决策树的迭代训练，以不断提升决策树的准确性。

并且，训练样本的梯度是第二设备发送给第一设备的加密梯度，第一设备需要对加密梯度进行同态处理，由于在密文空间上进行处理的复杂度较高，因此本申请通过均衡各个线程的工作量，能够有效避免线程之间需要相互等待的情况，明显提升对多个线程的利用率，提高了在密文空间上对多个训练样本的加密梯度进行同态处理的效率。

本申请实施例提供的数据处理方法，可应用需要创建梯度直方图的任一场景下。

例如，在风险预测领域，该处理模型为风险预测模型，训练样本为样本对象（例如账号），风险预测模型用于预测任一对象是否属于风险对象。样本对象的特征值为基于样本对象的对象信息所提取的，样本对象的梯度是基于样本对象的预测数据和标签数据确定的，预测数据为用于表示该样本对象是否属于风险对象的预测结果，标签数据为用于表示该样本对象是否属于风险对象的真实结果。可选地，该预测数据为风险预测模型输出的预测结果，该标签数据为人工标注的真实结果。则该数据处理方法包括：获取用于训练风险预测模型的多个样本对象，每个样本对象对应有特征值和梯度；按照多个样本对象的特征值，对多个样本对象进行分箱，得到多个不同特征范围的样本集合，任一特征范围的样本集合包括特征值属于特征范围的样本对象；对于任一样本集合，按照目标数值，将样本集合划分为至少一个样本子集合，每个样本子集合中样本对象的数量不大于目标数值；采用多个线程，并行地对划分得到的多个样本子集合执行目标操作，目标操作是指将样本子集合中样本对象的梯度进行合并，得到样本子集合的梯度；将每个样本集合中多个样本子集合的梯度进行合并，得到多个样本集合的梯度直方图，梯度直方图用于对风险预测模型进行训练。

例如，在多媒体资源推送领域，该处理模型为资源推送模型，训练样本为样本推送任务，该样本推送任务为确定是否向样本对象推送样本多媒体资源，资源推送模型用于预测是否将该样本多媒体资源推送给该样本对象。样本推送任务的特征值是基于该样本对象的对象信息和该样本多媒体资源的资源信息所提取的，样本推送任务的梯度是基于样本推送任务的预测数据和标签数据确定的。可选地，该预测数据为资源推送模型输出的预测结果，该标签数据为人工标注的真实结果。其中，该样本多媒体资源可以为视频、音频、图文或者商品等。则该数据处理方法包括：获取用于训练资源推送模型的多个样本推送任务，每个样本推送任务对应有特征值和梯度；按照多个样本推送任务的特征值，对多个样本推送任务进行分箱，得到多个不同特征范围的样本集合，任一特征范围的样本集合包括特征值属于特征范围的样本推送任务；对于任一样本集合，按照目标数值，将样本集合划分为至少一个样本子集合，每个样本子集合中样本推送任务的数量不大于目标数值；采用多个线程，并行地对划分得到的多个样本子集合执行目标操作，目标操作是指将样本子集合中样本推送任务的梯度进行合并，得到样本子集合的梯度；将每个样本集合中多个样本子集合的梯度进行合并，得到多个样本集合的梯度直方图，梯度直方图用于对资源推送模型进行训练。

除此之外，本申请实施例提供的数据处理方法还可以应用于信息预测领域等，例如成本预估、价格预估等，本申请实施例对应用场景不做限定。

以纵向联邦学习模式为例，Guest方和Host方联合训练联邦学习模型，则该实现过程可参见下述图7所示的实施例，图7是本申请实施例提供的再一种数据处理方法的流程图，如图7所示，该方法包括以下步骤。

701、对决策树的损失函数的梯度进行加密：对于一棵新的决策树，Guest方根据训练样本的预测数据和标签数据进行梯度计算，得到训练样本的梯度，将训练样本的梯度进行加密，得到加密梯度，将训练样本的加密梯度发送至Host方。

702、构建梯度直方图：对于决策树中的树结点，Guest方根据训练样本的特征值和梯度构建梯度直方图，Host方根据训练样本的特征值和加密梯度构建加密梯度直方图，Host方将加密梯度直方图发送至Guest方。

其中，考虑到Host方在密文空间上构建加密梯度直方图的复杂度较高，且由于特征值分布不均衡可能导致多线程并行处理时一些线程的处理资源会被浪费的情况，因此Host方在将多个训练样本进行分箱，得到多个样本集合后，还对每个样本集合进行进一步划分，得到分布均衡的多个样本子集合，以样本子集合为单位进行并行处理，以充分利用多线程的处理能力。进而，在得到每个样本子集合的加密梯度后，对于任一样本集合，将该样本集合下的至少一个样本子集合的加密梯度进行累加，从而得到每个样本集合的加密梯度，以构建完整的加密梯度直方图。

703、寻找决策树的最佳分裂点：Guest方对Host方的加密梯度直方图进行解密，并根据分裂增益计算公式，基于双方的梯度直方图确定最佳分裂点。如果最佳分裂点属于Host方，则Guest方需要将最佳分裂点的标识返回给Host方进行解析。

704、分裂决策树的树结点：拥有最佳分裂点的一方，对该树结点上的训练样本进行分裂划分，并将分裂结果发送给对方，用于更新训练样本-树结点之间的索引。

705、通过决策树更新训练样本的预测数据：Guest方根据权重计算公式，计算决策树中叶子结点的权重值，通过更新后的决策树更新训练样本的预测数据。其中，Host方无法得知Guest方的决策树中叶子结点的权重值。

图8是本申请实施例提供的一种数据处理装置的结构示意图。参见图8，该装置包括：

获取模块801，用于获取处理模型的多个训练样本，每个训练样本对应有特征值和梯度；

第一划分模块802，用于按照多个训练样本的特征值，对多个训练样本进行分箱，得到多个不同特征范围的样本集合，任一特征范围的样本集合包括特征值属于特征范围的训练样本；

第二划分模块803，用于对于任一样本集合，按照目标数值，将样本集合划分为至少一个样本子集合，每个样本子集合中训练样本的数量不大于目标数值；

第一处理模块804，用于采用多个线程，并行地对划分得到的多个样本子集合执行目标操作，目标操作是指将样本子集合中训练样本的梯度进行合并，得到样本子集合的梯度；

第二处理模块805，用于将每个样本集合中多个样本子集合的梯度进行合并，得到多个样本集合的梯度直方图，梯度直方图用于对处理模型进行训练。

本申请实施例提供的数据处理装置，在对训练样本进行分箱得到多个样本集合后，针对每个样本集合，还按照目标数值将样本集合进一步划分成至少一个样本子集合，使得划分得到的各个样本子集合中训练样本的数量相对均衡，进而采用多个线程以样本子集合为单位进行并行处理，正是由于各个样本子集合中训练样本的数量相对均衡，所以各个线程进行处理所花费的时间也相对均衡，从而避免出现由于有些线程处理的数据量少导致提前空闲的情况，有利于对多个线程进行充分利用，提高了生成梯度直方图的整体效率。

可选地，参见图9，第一划分模块802，用于：

确定最小特征值和最大特征值；

将最小特征值和最大特征值之间的范围均匀划分为多个特征范围，多个特征范围互不重叠；

对于任一训练样本，确定训练样本的特征值所属的目标特征范围，将训练样本添加至目标特征范围的样本集合中。

可选地，参见图9，第二划分模块803，用于：

确定第一数量，第一数量是指样本集合中训练样本的数量；

如果第一数量能够被目标数值整除，将样本集合按照目标数值均匀划分为多个样本子集合；

如果第一数量不能被目标数值整除，将样本集合中第二数量的训练样本划分为一个样本子集合，将样本集合中剩余的训练样本按照目标数值均匀划分为多个样本子集合，第二数量等于第一数量除以目标数值的余数。

可选地，参见图9，装置还包括数值确定模块806，用于：

获取预设的目标数值；或者，

确定每个样本集合中训练样本的数量，将最小的数量确定为目标数值；或者，

确定每个样本集合中训练样本的数量，如果最小的数量小于预设数值，将预设数值确定为目标数值，如果最小的数量不小于预设数值，将最小的数量确定为目标数值。

可选地，参见图9，第一处理模块804，用于：

基于多个线程的数量和多个样本子集合的数量，将多个样本子集合分配给多个线程；

对于多个线程中的任一线程，采用线程，依次对分配得到的多个样本子集合执行目标操作，多个线程并行执行。

可选地，参见图9，目标操作是指将样本子集合中训练样本的梯度相加，得到样本子集合的梯度；第二处理模块805，用于：

对于任一样本集合，将样本集合中多个样本子集合的梯度相加，得到样本集合的梯度；其中，多个样本集合的梯度构成梯度直方图。

可选地，参见图9，处理模型为第一设备和第二设备联合训练的联邦学习模型，装置由第一设备执行，训练样本的梯度是由第二设备发送的加密梯度，目标操作是指将样本子集合中训练样本的加密梯度进行同态合并，得到样本子集合的加密梯度；第二处理模块805，用于：

将每个样本集合中多个样本子集合的加密梯度进行同态合并，得到多个样本集合的加密梯度直方图。

可选地，参见图9，装置还包括发送模块807，用于：

将加密梯度直方图发送给第二设备，由第二设备对加密梯度直方图进行解密，基于解密后的梯度直方图对处理模型进行训练。

需要说明的是：上述实施例提供的数据处理装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将计算机设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的数据处理装置与数据处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请实施例还提供了一种计算机设备，该计算机设备包括处理器和存储器，存储器中存储有至少一条计算机程序，该至少一条计算机程序由处理器加载并执行，以实现上述实施例的数据处理方法中所执行的操作。

可选地，该计算机设备提供为终端。图10示出了本申请一个示例性实施例提供的终端1000的结构示意图。

终端1000包括有：处理器1001和存储器1002。

处理器1001可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1001可以采用DSP（Digital Signal Processing，数字信号处理）、FPGA（FieldProgrammable Gate Array，现场可编程门阵列）、PLA（Programmable Logic Array，可编程逻辑阵列）中的至少一种硬件形式来实现。处理器1001也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU（Central ProcessingUnit，中央处理器）；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1001可以集成有GPU（Graphics Processing Unit，图像处理的交互器），GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1001还可以包括AI（Artificial Intelligence，人工智能）处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1002可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1002还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1002中的非暂态的计算机可读存储介质用于存储至少一条计算机程序，该至少一条计算机程序用于被处理器1001所具有以实现本申请中方法实施例提供的数据处理方法。

在一些实施例中，终端1000还可选包括有：外围设备接口1003和至少一个外围设备。处理器1001、存储器1002和外围设备接口1003之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1003相连。可选地，外围设备包括：射频电路1004、显示屏1005、摄像头组件1006、音频电路1007和电源1008中的至少一种。

外围设备接口1003可被用于将I/O（Input /Output，输入/输出）相关的至少一个外围设备连接到处理器1001和存储器1002。在一些实施例中，处理器1001、存储器1002和外围设备接口1003被集成在同一芯片或电路板上；在一些其他实施例中，处理器1001、存储器1002和外围设备接口1003中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1004用于接收和发射RF（Radio Frequency，射频）信号，也称电磁信号。射频电路1004通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1004将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1004包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1004可以通过至少一种无线通信协议来与其它设备进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络（2G、3G、4G及5G）、无线局域网和/或WiFi（Wireless Fidelity，无线保真）网络。在一些实施例中，射频电路1004还可以包括NFC（Near Field Communication，近距离无线通信）有关的电路，本申请对此不加以限定。

显示屏1005用于显示UI（User Interface，用户界面）。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1005是触摸显示屏时，显示屏1005还具有采集在显示屏1005的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1001进行处理。此时，显示屏1005还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1005可以为一个，设置在终端1000的前面板；在另一些实施例中，显示屏1005可以为至少两个，分别设置在终端1000的不同表面或呈折叠设计；在另一些实施例中，显示屏1005可以是柔性显示屏，设置在终端1000的弯曲表面上或折叠面上。甚至，显示屏1005还可以设置成非矩形的不规则图形，也即异形屏。显示屏1005可以采用LCD（Liquid Crystal Display，液晶显示屏）、OLED（Organic Light-EmittingDiode，有机发光二极管）等材质制备。

摄像头组件1006用于采集图像或视频。可选地，摄像头组件1006包括前置摄像头和后置摄像头。前置摄像头设置在终端1000的前面板，后置摄像头设置在终端1000的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR（Virtual Reality，虚拟现实）拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1006还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1007可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1001进行处理，或者输入至射频电路1004以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1000的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1001或射频电路1004的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1007还可以包括耳机插孔。

电源1008用于为终端1000中的各个组件进行供电。电源1008可以是交流电、直流电、一次性电池或可充电电池。当电源1008包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

本领域技术人员可以理解，图10中示出的结构并不构成对终端1000的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

可选地，该计算机设备提供为服务器。图11是本申请实施例提供的一种服务器的结构示意图，该服务器1100可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（Central Processing Units，CPU）1101和一个或一个以上的存储器1102，其中，所述存储器1102中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器1101加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条计算机程序，该至少一条计算机程序由处理器加载并执行，以实现上述实施例的数据处理方法所执行的操作。

本申请实施例还提供了一种计算机程序产品，包括计算机程序，所述计算机程序由处理器加载并执行，以实现如上述实施例的数据处理方法所执行的操作。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请实施例的可选实施例，并不用以限制本申请实施例，凡在本申请实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述按照所述多个训练样本的特征值，对所述多个训练样本进行分箱，得到多个不同特征范围的样本集合，包括：

确定最小特征值和最大特征值；

3.根据权利要求1所述的方法，其特征在于，所述按照目标数值，将所述样本集合划分为至少一个样本子集合，包括：

4.根据权利要求1所述的方法，其特征在于，所述按照目标数值，将所述样本集合划分为至少一个样本子集合之前，所述方法还包括：

获取预设的目标数值；或者，

5.根据权利要求1所述的方法，其特征在于，所述采用多个线程，并行地对划分得到的多个样本子集合执行目标操作，包括：

6.根据权利要求1所述的方法，其特征在于，所述目标操作是指将所述样本子集合中训练样本的梯度相加，得到所述样本子集合的梯度；所述将每个样本集合中多个样本子集合的梯度进行合并，得到所述多个样本集合的梯度直方图，包括：

7.根据权利要求1-6任一项所述的方法，其特征在于，所述处理模型为第一设备和第二设备联合训练的联邦学习模型，所述方法由所述第一设备执行，所述训练样本的梯度是由所述第二设备发送的加密梯度，所述目标操作是指将所述样本子集合中训练样本的加密梯度进行同态合并，得到所述样本子集合的加密梯度；

所述将每个样本集合中多个样本子集合的梯度进行合并，得到所述多个样本集合的梯度直方图，包括：

8.根据权利要求7所述的方法，其特征在于，所述将每个样本集合中多个样本子集合的加密梯度进行同态合并，得到所述多个样本集合的加密梯度直方图之后，所述方法还包括：

9.一种数据处理装置，其特征在于，所述装置包括：

10.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行，以实现如权利要求1至8任一项所述的数据处理方法所执行的操作。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行，以实现如权利要求1至8任一项所述的数据处理方法所执行的操作。

12.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序由处理器加载并执行，以实现如权利要求1至8任一项所述的数据处理方法所执行的操作。