CN115630711A

CN115630711A - 一种训练XGBoost模型的方法和多方安全计算平台

Info

Publication number: CN115630711A
Application number: CN202211633630.3A
Authority: CN
Inventors: 蒋武轩
Original assignee: Huakong Tsingjiao Information Technology Beijing Co Ltd
Current assignee: Huakong Tsingjiao Information Technology Beijing Co Ltd
Priority date: 2022-12-19
Filing date: 2022-12-19
Publication date: 2023-01-20
Anticipated expiration: 2042-12-19
Also published as: CN115630711B

Abstract

本发明实施例提供了一种训练XGBoost模型的方法和多方安全计算平台。其中的方法包括：各参与方获取训练样本集的分片，所述训练样本集包括至少两个数据方的特征数据；其中，每个参与方持有所述训练样本集中每个特征数据的分片；各参与方利用各自持有的特征数据的分片，联合训练XGBoost模型的t棵决策树，使得在训练完成后各参与方得到所述XGBoost模型的参数的分片；其中，t为正整数，每棵决策树均为预设最大深度的完全树，所述XGBoost模型的参数包括每棵决策树中非叶节点的信息和叶子节点的信息。本发明实施例可以保护XGBoost模型的隐私安全。

Description

一种训练XGBoost模型的方法和多方安全计算平台

技术领域

本发明涉及多方安全计算领域，尤其涉及一种训练XGBoost模型的方法和多方安全计算平台。

背景技术

在多个数据方想要将各自的数据联合起来，训练一个共有的XGBoost（eXtremeGradient Boosting，极端梯度提升树）模型，以提高模型的准确性时，如果基于明文数据进行联合训练，数据方的隐私数据无法得到保护；如果基于联邦学习进行联合训练，仍然会牺牲一部分数据隐私，如暴露一些中间信息或模型信息或计算过程，无法对模型进行隐私保护。

发明内容

本发明实施例提供一种训练XGBoost模型的方法和多方安全计算平台，可以提高XGBoost模型的隐私安全性。

为了解决上述问题，本发明实施例公开了一种训练XGBoost模型的方法，应用于多方安全计算平台，所述多方安全计算平台包括两个以上的参与方，所述方法包括：

各参与方获取训练样本集的分片，所述训练样本集包括至少两个数据方的特征数据；其中，每个参与方持有所述训练样本集中每个特征数据的分片；

各参与方利用各自持有的特征数据的分片，联合训练XGBoost模型的t棵决策树，使得在训练完成后各参与方得到所述XGBoost模型的参数的分片；其中，t为正整数，每棵决策树均为预设最大深度的完全树，所述XGBoost模型的参数包括每棵决策树中非叶节点的信息和叶子节点的信息。

另一方面，本发明实施例公开了一种多方安全计算平台，所述多方安全计算平台包括两个以上的参与方，其中：

各参与方，用于获取训练样本集的分片，所述训练样本集包括至少两个数据方的特征数据；其中，每个参与方持有所述训练样本集中每个特征数据的分片；

所述各参与方，还用于利用各自持有的特征数据的分片，联合训练XGBoost模型的t棵决策树，使得在训练完成后各参与方得到所述XGBoost模型的参数的分片；其中，t为正整数，每棵决策树均为预设最大深度的完全树，所述XGBoost模型的参数包括每棵决策树中非叶节点的信息和叶子节点的信息。

再一方面，本发明实施例公开了一种用于训练XGBoost模型的装置，包括有存储器，以及一个以上程序，其中一个以上程序存储于存储器中，且经配置以由一个以上处理器执行所述一个以上程序，所述一个以上程序包含用于进行如前述一个或多个所述的训练XGBoost模型的方法的指令。

又一方面，本发明实施例公开了一种机器可读存储介质，其上存储有指令，当所述指令由装置的一个或多个处理器执行时，使得装置执行如前述一个或多个所述的训练XGBoost模型的方法。

本发明实施例包括以下优点：

本发明实施例提出一种训练XGBoost模型的方法，XGBoost模型采用全密文形式，所述全密文形式指XGBoost模型的输入数据、输出数据和中间结果均为密文，并且模型的参数也是密文，如非叶节点的判断信息和叶子节点的预测信息均为密文。训练模型的各参与方都只持有数据的分片，通过观测各参与方存储的分片得不到任何和实际数值有关的信息，既不能推测非叶节点的判断信息，也不能捕获叶子节点的预测信息，可以保护模型的隐私安全。此外，训练完成的每棵决策树均为预设最大深度的完全树，每棵决策树的尺寸完全一致，攻击者无法区分每棵决策树，可以进一步保护模型的隐私安全。再者，本发明实施例对模型预测过程也进行加密保护，预测时使用了不经意推理方案，在纯密文运算后给出密文的预测结果且不会暴露预测的路径。进一步地，本发明实施例支持任意方不完全串通的半诚实安全模型，在模型的训练和预测过程中均保证数据和模型的隐私安全性，可扩展性较强。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的一种训练XGBoost模型的方法实施例的步骤流程图；

图2是本发明的一个示例中的决策树的结构示意图；

图3是本发明的一种多方安全计算平台实施例的结构框图；

图4是本发明的一种用于训练XGBoost模型的装置800的框图；

图5是本发明的一些实施例中服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中的术语“和/或”用于描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本发明实施例中术语“多个”是指两个或两个以上，其它量词与之类似。

参照图1，示出了本发明的一种训练XGBoost模型的方法实施例的步骤流程图，所述方法应用于多方安全计算平台，所述多方安全计算平台包括两个以上的参与方，所述方法可以包括如下步骤：

步骤101、各参与方获取训练样本集的分片，所述训练样本集包括至少两个数据方的特征数据；其中，每个参与方持有所述训练样本集中每个特征数据的分片；

步骤102、各参与方利用各自持有的特征数据的分片，联合训练XGBoost模型的t棵决策树，使得在训练完成后各参与方得到所述XGBoost模型的参数的分片；其中，t为正整数，每棵决策树均为预设最大深度的完全树，所述XGBoost模型的参数包括每棵决策树中非叶节点的信息和叶子节点的信息。

本发明实施例提供的训练XGBoost模型的方法可用于两个以上参与方利用各自持有的特征数据的分片联合训练XGBoost模型。在训练过程中，任何一个参与方都无法获取特征数据的有效信息。在训练完成后，各参与方获得模型参数的分片，模型不属于任何一个参与方，未经全部参与方同意，任何一个或多个参与方无法使用训练完成的XGBoost模型。只有模型权利拥有者可以通过收集训练模型的各参与方存储的模型参数的分片，获得完整的模型。

在具体实施中，参与方指参与联合训练XGBoost模型的计算方。进一步地，本发明实施例可适用于两种联合训练模式。第一种模式是数据和计算不分离的模式，参与方既提供数据又参与计算。参与方自己有拥有明文的特征数据，通过秘密分享分发给其他参与方，使得各参与方拥有待训练的各特征数据的分片。第二种模式是数据和计算分离的模式，数据方提供训练数据而委托计算方来计算。数据方可以将自己拥有的明文的特征数据，通过秘密分享分发给计算方，使得各计算方持有待训练的各特征数据的分片。

本发明实施例可应用于横向训练的场景。横向训练适用于各数据方的数据集有相同的特征空间和不同的样本空间的场景。例如，数据方A拥有的每条特征数据包括性别、年龄、身高和体重这4个特征，数据方B拥有的每条特征数据也包括性别、年龄、身高和体重这4个特征。数据方A和数据方B拥有的特征数据在这4个特征上可能具有不同的特征值。联合数据方A和数据方B双方的特征数据可以联合训练XGBoost模型。

在本发明实施例中，各参与方获取训练样本集的分片，所述训练样本集包括所有参与联合训练的数据方的特征数据；其中，每个参与方持有所述训练样本集中每个特征数据的分片。具体地，每个参与方可以得到一个特征矩阵，该特征矩阵的每一行是一条特征数据（也即一条训练样本），每一条训练样本具有相同的维度。每个参与方还会得到一个向量化的标签矩阵，该标签矩阵的行数和特征矩阵的行数相同且一一对应。特征矩阵的列数是分类的个数，每一行是一条训练样本的每种特征组成的向量。假设特征数据分为4类，如性别、年龄、身高和体重，则特征矩阵包括4列，每一列对应一个分类。该特征矩阵中的第一行是第一条训练样本，包括对应的性别值、年龄值、身高值和体重值。该特征矩阵中的第二行是第二条训练样本，包括对应的性别值、年龄值、身高值和体重值。依次类推。参照表1，示出了一种特征数据的示例。

表1

编号	性别	年龄	身高	体重	标签
						1	0	25	160	48	1
2	1	28	175	70	1
						3	1	30	178	74	0
4	0	32	163	50	1
						…	…	…	…	…	…

表1中的每一行表示一条训练样本。示例性地，利用数据方A和数据方B的特征数据联合训练XGBoost模型，表1中前1000条训练样本为数据方A拥有的特征数据，后1000条训练样本为数据方B拥有的特征数据。

需要说明的是，对于所述特征矩阵，每个参与方持有的是该特征矩阵的分片，具体地，每个参与方持有的是该特征矩阵中每个元素的分片，只有将全部参与方持有的特征矩阵的分片组合到一起，才可以得到该特征矩阵的原始数据。也即，表1中所示的数据均为密文形式，此处为了便于描述以明文示出。

XGBoost模型的基本组成元素是决策树，组成XGBoost模型的决策树之间是有先后顺序的，后一棵决策树的生成用于矫正前面已生成的决策树产生的误差。

XGBoost模型包含t棵决策树，t为正整数，t的值可以预先根据需要设置。训练XGBoost模型的过程就是构建t棵决策树的过程，训练完成后，每棵决策树的每个节点保存的信息均为密文形式。XGBoost模型中，每棵决策树包括非叶节点和叶子节点，非叶节点保存的信息包括判断信息和非叶节点的子节点信息。判断信息表示向左或向右，例如，若年龄小于30则向左，否则向右。叶子节点保存的信息包括预测值，表示对应分类的概率。

在本发明实施例中，XGBoost模型采用全密文形式，所述全密文形式指XGBoost模型的输入数据、输出数据和中间结果均为密文，并且模型的参数也是密文，如非叶节点的判断信息和叶子节点的预测信息均为密文（具体可以为秘密分享的形式）。训练模型的各参与方都只持有数据的分片，通过观测各参与方存储的分片得不到任何和实际数值有关的信息，既不能推测非叶节点的判断信息，也不能捕获叶子节点的概率分布信息，可以保护模型的隐私安全。

此外，本发明实施例中，训练完成的每棵决策树均为预设最大深度的完全树。预设最大深度为预先设置的决策树可以到达的最大深度。本发明实施例在训练完成后，XGBoost模型的每棵决策树是相同尺寸的完全树，攻击者无法区分每棵决策树，可以进一步保护模型的安全。

在训练完成后，在获得全部参与方同意的情况下，预测方可以安全地使用训练完成的XGBoost模型对待预测数据进行预测，预测方可以来自训练模型的参与方之外，也可以来自训练模型的参与方。本发明实施例对模型预测过程也进行加密保护，例如预测时使用不经意推理方案，在纯密文运算后给出密文的预测结果且不会暴露预测的路径。通过本发明实施例，从提交待预测数据到获取预测结果的过程中，模型计算的各参与方无法获得关于待预测数据的任何有效信息，也无法获得关于模型的任何有效信息。

进一步地，在具体实施中，模型权利拥有者可以通过收集各参与方存储的XGBoost模型的参数的分片，获得完整可用的XGBoost模型。

需要说明的是，本发明实施例中的各参与方可以基于安全计算引擎，支持任意方不完全串通的半诚实安全模型，在模型的训练和预测过程中均实现数据和模型的安全性，可扩展性较强。相对的，有些基础安全假设是诚实方占多数，在n-1方串通时明文就会暴露出来。而本发明实施例基于的安全假设是“任意方不完全串通的半诚实安全模型”。其中，半诚实表示每个参与方会遵守协议，但参与方可能会在规则下尝试获取不应获得的信息。任意方不完全串通，指的是如果有n方参与，即使有n-1方互相串通，私下交流信息，也无法突破协议得到明文的信息。本发明实施例基于这样的基础安全假设能有效保护参与方的信息。

在本发明的一种可选实施例中，所述各参与方利用各自持有的特征数据的分片，联合训练XGBoost模型的t棵决策树，可以包括：

步骤S11、在构建当前决策树中的当前节点时，所述各参与方利用各自持有的候选特征数据的分片，联合确定分裂增益最大的候选特征数据，作为最优切分点；所述候选特征数据包括所述训练样本集中划分至所述当前节点的特征数据；

步骤S12、根据所述最优切分点构建当前节点；

步骤S13、判断所述当前节点是否满足分裂条件；

步骤S14、若所述当前节点满足分裂条件，则对所述当前节点进行分裂；

步骤S15、若所述当前节点不满足分裂条件，且所述当前决策树未到达所述预设最大深度，则在所述当前节点下生成虚拟节点，使得所述当前决策树成为所述预设最大深度的完全树；其中，所述虚拟节点为对所述当前节点复制得到。

训练XGBoost模型的过程实际是构建t棵决策树的过程。构建每棵决策树使用的数据集，是整个训练样本集，所以可以将每棵决策树的生成过程看作是一个完整的决策树生成过程。

XGBoost模型的目标函数表示如下：

（1）

其中，

是XGBoost模型的损失函数，n为样本数，

为模型对第i个样本的预测值，

为第i个样本的真实值（标签）。

是将全部 t 棵树的复杂度进行求和，作为正则化项，用于防止模型过度拟合。

训练XGBoost模型的过程中，可以使用贪心算法构建决策树。贪心算法是保证每一步都是最优解，从而达到全局最优解的方法。在使用贪心算法构建决策树时，就是保证每一次节点分裂产生的新的树，都是目标函数值最小的。

XGBoost模型的目标函数简化后可以表示如下：

（2）

其中，

表示所有属于第j个叶子结点的样本的一阶导数

的总和，

表示所有属于第j个叶子结点的样本的二阶导数

的总和。T表示叶子节点数量。

假设在某一节点进行分裂，则分裂前的目标函数可以写为：

（3）

分裂后的目标函数为：

（4）

对于目标函数来说，分裂产生的收益（该节点的分裂增益）为：

（5）

Gain越大，XGBoost模型的目标函数将越小。因此，当对一个叶子节点进行分裂时，应计算所有的候选特征数据对应的Gain，并选取最大值进行分裂。

观察分裂产生的收益，节点分裂不一定会使得结果变好，因此引入新叶子的惩罚项，也就是说某个节点分裂带来的收益（分裂增益）如果超过预设的增益阈值，则认为该节点满足分裂条件，可以进行分裂；如果某个节点分裂带来的收益（分裂增益）小于预设的增益阈值，则认为相比于增加模型复杂度的副作用，该节点不满足分裂条件，不进行分裂。

在本发明实施例中，若当前节点不满足分裂条件，虽然对当前节点不再进行分裂，但是会判断当前决策树是否到达预设最大深度，如果当前决策树还未到达所述预设最大深度，则在当前节点下生成虚拟节点，使得当前决策树成为所述预设最大深度的完全树。其中，所述虚拟节点为对所述当前节点复制得到。也即，如果当前节点不满足分裂条件并且当前决策树未到达所述预设最大深度，则通过不断复制当前节点以填满子树直到到达所述预设最大深度。

需要说明的是，在当前节点不满足分裂条件时，本发明实施例并没有对当前节点继续分裂，而是通过虚拟节点把当前决策树填满为预设最大深度的完全树，使得生成的每一棵决策树都是完全分裂的假象，从而让攻击者无法区分每一棵决策树，进而可以保护模型结构的安全。在当前节点不满足分裂条件时，对当前节点进行强行分裂到最大深度虽然也能保护模型结构的安全，但是却会损害模型的准确性。因此，本发明实施例使用虚拟节点而不是强行分裂可以保证模型的准确性。

例如，在构建第一棵决策树时，先构建根节点。此时，第一棵决策树的根节点即为当前决策树中的当前节点。在构建第一棵决策树的根节点时，需要考虑整个训练样本集，此时，训练样本集中的所有特征数据均为候选特征数据。从训练样本集中选择令目标函数最小的特征数据构建根节点。判断该根节点是否满足分裂条件；假设满足分裂条件，则在该根节点上分裂出左右两个新的子节点，并为每个子节点关联对应的候选特征数据。接下来构建第二层的第一个子节点，该子节点的候选特征数据包括所述训练样本集中划分至该子节点的特征数据，也即所述训练样本集的一个子集。子节点包括根节点外的所有节点，如根节点外的所有非叶节点和叶子节点。

对于某一棵决策树，构建根节点和子节点的方法相同，区别仅在于，构建根节点使用的候选特征数据是整个训练样本集，构建子节点使用的候选特征数据是所述训练样本集划分至该子节点的子集。

对于t棵决策树，构建每一棵决策树的方法相同，都是从根节点开始，使用整个训练样本集。在t棵决策树构建完成后，XGBoost模型训练完成。在训练完成后，本发明实施例得到t棵结构相同的决策树，且每棵决策树的每个节点保存的信息均为密文。

在本发明的一种可选实施例中，步骤S11中所述各参与方利用各自持有的候选特征数据的分片，联合确定分裂增益最大的候选特征数据，可以包括：

步骤S111、所述各参与方利用各自持有的候选特征数据的分片，联合对所述候选特征数据进行密文排序，使得每个参与方得到排序结果的分片；

步骤S112、所述各参与方利用各自持有的所述排序结果的分片，联合确定所述候选特征数据中分裂增益最大的候选特征数据。

在构建当前节点时，需要确定分裂增益最大的候选特征数据，该过程可以采用贪心算法。首先对候选特征数据进行密文排序，然后根据排序结果确定分裂增益最大的候选特征数据。

在本发明的一种可选实施例中，在所述当前节点为根节点时，所述候选特征数据包括所述训练样本集；步骤S111所述各参与方利用各自持有的候选特征数据的分片，联合对所述候选特征数据进行密文排序，使得每个参与方得到排序结果的分片，可以包括：在训练XGBoost模型之前，所述各参与方利用各自持有的所述训练样本集的分片，联合对所述训练样本集进行密文排序，使得每个参与方得到所述训练样本集的排序结果的分片。进一步地，步骤S112所述各参与方利用各自持有的所述排序结果的分片，联合确定所述候选特征数据中分裂增益最大的候选特征数据，可以包括：所述各参与方通过复用各自持有的所述训练样本集的排序结果的分片，联合确定所述训练样本集中分裂增益最大的候选特征数据。

密文排序是以密文形式进行排序，在排序过程中不会暴露数据的明文，然而，密文排序通常比较耗时。构建每棵决策树的根节点时，候选特征数据均为整个训练样本集，每次都需要对训练样本集进行密文排序。因此，为减少密文排序花费的计算时间，本发明实施例在训练XGBoost模型之前，对训练样本集进行密文排序（本发明实施例中称为预排序），在构建每棵决策树的根节点时，可以复用预排序的结果，从而可以减少密文排序次数，提高训练模型的效率。

在具体实施中，一条特征数据可以包括多种特征，如性别、年龄、身高和体重等。因此，对训练样本集进行密文排序是指分别按照每种特征进行密文排序。例如，对于表1所示的特征数据，需要按照每列（性别、年龄、身高和体重）分别进行4次密文排序。

在本发明的一种可选实施例中，在所述当前节点为子节点时，所述候选特征数据包括当前子集，所述当前子集为所述训练样本集划分至所述当前节点的子集；步骤S111所述各参与方利用各自持有的候选特征数据的分片，联合对所述候选特征数据进行密文排序，使得每个参与方得到排序结果的分片，可以包括：所述各参与方利用各自持有的当前子集的分片，联合对所述当前子集进行密文排序，使得每个参与方得到所述当前子集的排序结果的分片。进一步地，步骤S112所述各参与方利用各自持有的所述排序结果的分片，联合确定所述候选特征数据中分裂增益最大的候选特征数据，可以包括：所述各参与方利用各自持有的所述当前子集的分片，联合确定所述当前子集的分片中分裂增益最大的候选特征数据。

在构建当前节点且当前节点为子节点时，可选择的候选特征数据为所述训练样本集划分至所述当前节点的子集。此时，预排序的结果不能复用，需要对所述当前节点的子集进行重新排序。对子集进行密文排序也是分别按照每种特征进行密文排序。

在具体实施中，密文排序需要花费大量的计算量，本发明实施例在构建根节点时通过复用预排序的结果，可以减少密文排序的次数。在此基础上，本发明实施例在密文排序的过程中还可以利用批量优化的策略，进一步提高密文排序的效率。

本发明实施例中，密文排序可以采用奇偶归并排序算法，进一步地，在奇偶归并排序的过程中，可以利用批量优化的策略进行加速。奇偶归并排序的本质是利用一个排序网络进行排序。该排序网络有多个网络层，对于待排序的密文数据，每一层挑选一些对象进行比较交换，最终完成排序。每一层的比较交换互相独立可以并行执行，但是层和层之间是有顺序的。示例性地，首先第一层对200个数对进行交换，然后第二层对180个数对进行交换，直到最后一层交换完成后，排序完成。

可选地，对于比较网络中的任意一层，可以预先计算本层需要比较交换的每组对象（一组对象称为一个数对）；将每组对象中的第一个对象拼接为第一对象矩阵，以及将每组对象中的第二个对象拼接为第二对象矩阵；对所述第一对象矩阵和所述第二对象矩阵执行一次密文比较，即可得到本层的比较交换结果。

假设某一层需要比较交换的对象包括1号和5号、2号和3号、以及4号和6号这三组对象，则可以将1号、2号和4号这三个对象拼接成第一对象向量，以及将5号、3号和6号这三个对象拼接成第二对象矩阵，通过对该第一对象矩阵和该第二对象矩阵执行一次密文比较操作，即可实现原本需要对1号和5号、2号和3号、以及4号和6号连续的三次密文比较操作。由此，每一层通过批量的单次比较交换，可以减少每一层比较交换的次数，从而在密文排序上能够实现有效的加速。

在本发明的一种可选实施例中，所述各参与方利用各自持有的候选特征数据的分片，联合确定分裂增益最大的候选特征数据之前，所述方法还可以包括：所述各参与方利用各自持有的特征数据的分片，联合计算每个特征数据的第一梯度值和第二梯度值；所述第一梯度值是特征数据在损失函数上的一阶导数，所述第二梯度值是特征数据在损失函数上的二阶导数。

假设现有t-1棵决策树，这t-1棵决策树组成的XGBoost模型对第i个训练样本有一个预测值

。

与第i个样本的真实值

存在差距，该差距可以用损失函数

来表示。所述第一梯度值（记为

）是对于该损失函数的一阶导数，所述第二梯度值（记为

）是对于该损失函数的二阶导数。

在构建当前决策树之前，可以预先计算好每个特征数据的第一梯度值和第二梯度值并保存下来，在构建当前决策树中的各节点时可以复用预先保存的各特征数据的第一梯度值和第二梯度值，可以减少计算量。需要说明的是，在构建当前决策树中的各节点时，可以复用预先计算的各特征数据的第一梯度值和第二梯度值。在当前决策树构建完成之后，在构建下一棵决策树时，由于下一棵决策树依赖于前面已生成的决策树的预测结果，因此，需要重新计算每个特征数据的第一梯度值和第二梯度值并保存下来，以在构建新的决策树中的各节点时复用。

在本发明的一种可选实施例中，步骤S111所述各参与方利用各自持有的候选特征数据的分片，联合对所述候选特征数据进行密文排序之后，所述方法还可以包括：利用所述候选特征数据的排序结果，对所述候选特征数据的第一梯度值的顺序进行不经意打乱，以及对所述候选特征数据的第二梯度值的顺序进行不经意打乱；所述第一梯度值和所述第二梯度值是在构建每棵决策树之前预先计算得到，所述第一梯度值是特征数据在损失函数上的一阶导数，所述第二梯度值是特征数据在损失函数上的二阶导数。

在本发明实施例中，每个特征数据对应有第一梯度值和第二梯度值。如果在对特征数据进行密文排序时，将特征数据对应的第一梯度值和第二梯度值一同进行密文排序，由于密文排序的特性，需要增加较高的计算代价。因此，本发明实施例仅对特征数据进行密文排序。在对特征数据进行密文排序之后，通过不经意打乱，将特征数据对应的第一梯度值的顺序与特征数据的排序结果对齐，以及将特征数据对应的第二梯度值的顺序与特征数据的排序结果对齐。

需要说明的是，本发明实施例对第一梯度值和第二梯度值进行对齐发生在每次对特征数据进行密文排序之后。例如，在训练XGBoost模型之前对训练样本集进行密文排序（预排序）之后，可以根据训练样本集的排序结果对训练样本集中各特征数据的第一梯度值的顺序进行不经意打乱，以及对训练样本集中各特征数据的第二梯度值的顺序进行不经意打乱，使得训练样本集中各特征数据的第一梯度值和第二梯度值与特征数据对齐。

又如，在构建决策树中的当前节点且当前节点为子节点时，在对划分至当前节点的子集进行密文排序之后，可以根据该子集的排序结果对该子集中各特征数据的第一梯度值的顺序进行不经意打乱，以及对该子集中各特征数据的第二梯度值的顺序进行不经意打乱，使得该子集中各特征数据的第一梯度值和第二梯度值与特征数据对齐。

不经意打乱（oblivious shuffle），指对一组秘密分享的数据的顺序进行打乱，并且任何持有分享的一方都无法得知打乱的具体顺序，此过程中不涉及其他方。也即，在本发明实施例中，各参与方在执行不经意打乱时，任意一个参与方都不知道打乱的具体顺序（如训练样本集的排序结果或者子集的排序结果），也无法得知被打乱的数据的具体数值以及打乱后的结果。

一个示例中，假设待排序的特征数据包括[x₀,x₁,x₂,x₃,x₄,x₅,x₆]，待排序的特征数据对应的第一梯度值包括[g₀,g₁,g₂,g₃,g₄,g₅,g₆]，待排序的特征数据对应的第二梯度值包括[h₀,h₁,h₂,h₃,h₄,h₅,h₆]。待排序的特征数据可以是第一候选特征数据或者第二候选特征数据。所述待排序的特征数据可以为当前节点对应的候选特征数据，当前节点可以为根节点或者子节点。

本发明实施例在对待排序的特征数据进行密文排序（如对训练样本集或者子集进行密文排序）之前，对待排序的每个特征数据设置排序编号，如上述待排序的特征数据对应的排序编号可以为[0,1,2,3,4,5,6]。其中，排序编号0对应x₀，排序编号1对应x₁，排序编号2对应x₂，排序编号3对应x₃，排序编号4对应x₄，排序编号5对应x₅，排序编号6对应x₆。排序编号跟着待排序的特征数据一同进行排序。

在对待排序的特征数据进行密文排序之后，排序编号的顺序与特征数据的排序结果相对应。因此，使用排序后的排序编号可以对排序后的特征数据（如排序后的训练样本集或者排序后的子集）的第一梯度值的顺序和第二梯度值的顺序分别进行不经意打乱，实现第一梯度值和第二梯度值与排序后的特征数据对齐。

示例性地，待排序的特征数据[x₀,x₁,x₂,x₃,x₄,x₅,x₆]经过密文排序后得到的排序结果为[x₅,x₂,x₁,x₆,x₃,x₀,x₄]，则排序后的排序编号为[5,2,1,6,3,0,4]。使用该排序后的排序编号对第一梯度值[g₀,g₁,g₂,g₃,g₄,g₅,g₆]进行不经意打乱，可以得到对齐后的第一梯度值为[g₅,g₂,g₁,g₆,g₃,g₀,g₄]；以及使用该排序后的排序编号对第二梯度值[h₀,h₁,h₂,h₃,h₄,h₅,h₆]进行不经意打乱，可以得到对齐后的第二梯度值为[h₅,h₂,h₁,h₆,h₃,h₀,h₄]。

在本发明的一种可选实施例中，所述各参与方利用各自持有的候选特征数据的分片，联合确定分裂增益最大的候选特征数据，可以包括：

步骤S21、所述各参与方利用各自持有的候选特征数据的分片，扫描并记录各候选特征数据的梯度值前缀和，得到待计算矩阵，所述待计算矩阵中的各元素是待参与目标计算的梯度值前缀和；其中，所述各参与方持有所述待计算矩阵的分片；

步骤S22、所述各参与方利用各自持有的所述待计算矩阵的分片，联合对所述待计算矩阵中的元素批量执行所述目标计算，得到增益矩阵，所述增益矩阵中的各元素是所述各候选特征数据的分裂增益；其中，所述各参与方持有所述增益矩阵的分片；

步骤S23、所述各参与方利用各自持有的所述增益矩阵的分片，基于树归并算法，联合确定所述增益矩阵中的最大分裂增益。

在确定最大分裂增益时可以使用贪心算法。假设有5个样本，排序后年龄值为[20,25,30,35,40]，那么在扫描每个样本时，不需要再进行比较，在样本上方自动是小于自己的，在样本下方自动是大于自己的，经过一次线性扫描就能计算所有位置分裂产生的增益。

在本发明实施例中，由于样本已经排好序了，以升序排序（降序也可以）为例，在上述示例中，样本1的年龄值为20，样本2的年龄值为25，样本3的年龄值为30，样本4的年龄值为35，样本5的年龄值为40。按照该排序从上到下扫描各样本（各候选特征数据），并记录各样本（各候选特征数据）的梯度值前缀和。例如，扫描到样本3时，样本3上方是样本1和样本2，年龄值是小于自己的；样本3下面是样本4和样本5，年龄值是大于自己的。这样经过一次线性扫描就自动得到了年龄值“小于自己的”和“大于自己的”两个子集，因此，经过一次线性扫描就能计算所有位置分裂产生的增益。

分裂产生的收益可以表示为：

（6）

其中，G_L为左子节点的一阶导数和，H_L为左子节点的二阶导数和，G_R为右子节点的一阶导数和，H_R为右子节点的二阶导数和，G_ALL为左子节点和右子节点的一阶导数和，H_ALL为左子节点和右子节点的二阶导数和。左子节点指在对当前节点进行分裂时，可以划分到左子节点的候选特征数据。右子节点指在对当前节点进行分裂时，可以划分到右子节点的候选特征数据。

本发明实施例在计算各候选特征数据的分裂增益时，扫描所有的候选特征数据，在扫描过程中并不执行目标计算，而是将待参与目标计算的数值记录在一个矩阵中，本发明实施例将该矩阵称为待计算矩阵。所述目标计算指计算量较大的密文计算，如密文乘法计算和密文除法计算等，如上式（6）中的乘法和除法。所述待计算矩阵中的各元素是待参与目标计算的数值，如梯度值前缀和。所述梯度值前缀和包括左子节点的一阶导数和G_L、左子节点的二阶导数和H_L、右子节点的一阶导数和G_R、以及右子节点的二阶导数和H_R。

可以理解的是，所述梯度值前缀和根据对齐后的一阶导数和二阶导数计算得到。

扫描完成后，可以得到一个存有分裂增益的矩阵（待计算矩阵），该待计算矩阵中的每个位置是需要进行目标计算（如密文乘法和/或密文除法）的数值，本发明实施例对该待计算矩阵中的元素批量执行目标计算。比如目标计算包括a1/b1、a2/b2、以及a3/b3，也即需要进行三次密文除法计算，本发明实施例可以按照向量批量执行目标计算，如进行(a1,a2,a3)/(b1,b2,b3)一次较大规模的批量密文除法计算。由于密文计算引擎的特性，将数据拼装起来进行一次批量计算比单独分别执行多次计算需要更少的通信量，可以提高计算效率。计算完成后，可以得到一个存有各候选特征数据的分裂增益的矩阵，称为增益矩阵。

最后，基于树归并算法进行批量计算，可以确定所述增益矩阵中的最大分裂增益，作为切分点。

在本发明实施例中，所述树归并算法指：对于所述增益矩阵中的各分裂增益，基于密文并行进行两两比较，保留两两比较中的较大者，再对保留的较大者基于密文并行进行两两比较，以此类推，直至得到最大者。

一个示例中，假设增益矩阵为[a₀,a₁,a₂,a₃,a₄,a₅,a₆,a₇,a₈,a₉,]，a₀~a₁为增益矩阵中的元素，分别对应10个分裂增益，现在需要在该增益矩阵中确定最大的分裂增益是哪个元素。首先对增益矩阵中的各元素（如a₀~a₁这10个元素）设置比较编号，得到编号矩阵如[0,1,2,3,4,5,6,7,8,9]，其中，序号0对应第一个元素a₀，序号1对应第二个元素a₁，以此类推。对增益矩阵中的元素两两进行并行的密文比较，保留两两比较中的较大者，直到得出最大者，此时编号矩阵中剩余的为分裂增益最大的元素对应的比较编号。在上述示例中，假设第一轮两两比较后，保留的较大者包括[a₀,a₂,a₅,a₆,a₈]，此时对应的编号矩阵为[0,2,5,6,8]。第二轮中，对[a₀,a₂,a₅,a₆,a₈]中的元素两两进行并行的密文比较，保留两两比较中的较大者。假设第二轮两两比较后，保留的较大者包括[a₀,a₅,a₈]，此时对应的编号矩阵为[0,5,8]。第三轮中，对[a₀,a₅,a₈]中的元素两两进行并行的密文比较，保留两两比较中的较大者。假设第三轮两两比较后，保留的较大者包括[a₅,a₈]，此时对应的编号矩阵为[5,8]。第四轮中，对[a₅,a₈]中的两个元素进行密文比较，保留较大者。假设第四轮比较后，保留的较大者为[a₈]，此时对应的编号矩阵为[8]。该编号矩阵中剩余的即为分裂增益最大的元素对应的比较编号。需要说明的是，本发明实施例中分裂增益和比较编号均为密文，此处为便于描述以明文示出。

接下来，需要根据编号矩阵中剩余的比较编号确定最大分裂增益在增益矩阵中的位置。具体地，可以将目标编号矩阵与初始编号矩阵进行明文相等的密文比较操作。其中，初始编号矩阵指第一轮比较前的编号矩阵，如上述示例中的[0,1,2,3,4,5,6,7,8,9]。目标编号矩阵是将最后一轮剩余的比较编号进行复制，得到的与初始编号矩阵长度相等的矩阵。如上述示例中，目标编号矩阵为[8,8,8,8,8,8,8,8,8,8]。将目标编号矩阵与初始编号矩阵进行明文相等的密文比较操作，得到的结果矩阵为[0,0,0,0,0,0,0,0,1,0]。其中，0表示比较的元素不相等，1表示比较的元素相等。结果矩阵中1所在的位置即为最大分裂增益在增益矩阵中的位置。

需要说明的是，得到的结果矩阵中的元素也是密文，不会暴露最大分裂增益的位置和具体数值。

在求出最大分裂增益在增益矩阵中的位置后，将该位置的元素与增益阈值进行密文比较，得到密文比较结果。例如，若最大分裂增益小于增益阈值，则得到的密文比较结果为数值0的密文；若最大分裂增益超过增益阈值，则得到的密文比较结果为数值1的密文。根据该密文比较结果可以确定当前节点是否满足分裂条件。

在本发明的一种可选实施例中，所述方法还可以包括：在训练完成后，对训练完成的t棵决策树的顺序进行不经意打乱，得到打乱后的t棵决策树。

在具体实施中，由于生成虚拟节点的过程没有不经意属性，因此，参与训练模型的参与方有可能获知哪些节点是虚拟节点。例如，假设第一棵决策树只有根节点，没有分裂，该根节点下面的子节点全部都是虚拟节点，那么各参与方都有可能知道第一棵决策树的结构。

为避免上述情况发生，本发明实施例在训练完成后，对训练完成的t棵决策树的顺序进行不经意打乱，得到打乱后的t棵决策树。这样，任意一个参与方都无法得知t棵决策树的具体顺序。例如，在上述示例中，任意一个参与方都无法区分哪个决策树是第一棵决策树了，可以进一步提高XGBoost模型的安全性。在使用训练完成的XGBoost模型进行预测时，使用打乱后的t棵决策树，由于任意一个参与方都无法得知t棵决策树的具体顺序，任意一个参与方也无法获知每棵决策树的预测路径，可以提高数据预测的隐私安全。

在本发明的一种可选实施例中，在训练完成之后，所述方法还可以包括：

步骤S31、所述各参与方接收预测方通过秘密分享分发的待预测数据的分片；

步骤S32、所述各参与方利用各自持有的待预测数据的分片以及所述XGBoost模型的参数的分片，联合进行不经意推理，得到密文预测结果。

在XGBoost模型训练完成之后，可以使用训练完成的XGBoost模型进行预测。在本发明实施例中，参与方指参与训练模型的计算方，也是模型参数的拥有方以及模型的执行方。预测方指提供待预测数据的数据拥有方。预测方可以与训练模型的参与方不同。当然，预测方也可以是参与训练模型的一个或多个参与方。

参与方对自己拥有的待预测数据进行秘密分享后分发给持有模型参数分片的各参与方，各参与方利用各自持有的待预测数据的分片以及所述XGBoost模型的参数的分片，联合进行不经意推理，得到密文预测结果。密文预测结果可以是分片形式，预测方可以通过收集预测结果的分片得到预测结果的明文。

不经意推理（oblivious infer），指在秘密分享形式的决策树上，输入数据进行推理，参与方无法得知输出值来自于哪个叶子节点，亦不能得知推理的决策路径。

待预测数据可以是一个特征矩阵，待预测数据的数据结构与训练模型的训练样本的数据结构相同。对于待预测数据，可以利用t棵决策树分别进行不经意推理，得到每棵决策树的预测结果（参与方无法得知预测结果位于哪个叶子节点以及预测路径），叠加t棵决策树的预测结果可以得到最终的预测结果。

在本发明的一种可选实施例中，所述方法还可以包括：对于所述t棵决策树中的每棵决策树，生成每棵决策树的边比特矩阵；其中，每棵决策树的边比特矩阵包括该决策树中每个非叶节点的边向量，所述边向量用于表示非叶节点下叶子节点的位置信息，所述边向量的长度为2^h，h为所述预设最大深度。

在本发明实施例中，将边比特矩阵记为bit mask矩阵，本质上是二叉树上每条边的一种表示方法。

每棵决策树的边比特矩阵包括该决策树中每个非叶节点的边向量，所述边向量用于表示非叶节点下叶子节点的位置信息。由于本发明实施例对未到达预设最大深度的决策树使用虚拟节点进行填充，因此，每棵决策树都是深度为h的完全树。完全树包括2^h个叶子节点和2^h-1个非叶节点。

对于每个非叶节点，本发明实施例使用一个边向量表示非叶节点下叶子节点的位置信息，所述边向量的长度为2^h。本发明实施例中边向量的编码规则如下：对于一棵决策树中的某个非叶节点，该非叶节点包括向左的边向量和向右的边向量，边向量的长度均为2^h，该非叶节点向左的边向量中左子树的全部叶子节点的位置置为1，其他置为0；该非叶节点向右的边向量中右子树的全部叶子节点的位置置为1，其他置为0。

参照图2，示出了一个示例中的决策树的结构示意图。以图2所示的决策树为例，最大预设深度h=3，每个非叶节点的边向量的长度为8。其中，根节点0向左的边向量表示为(1,1,1,1,0,0,0,0)，根节点0向右的边向量表示为(0,0,0,0,1,1,1,1)。非叶节点5向左的边向量表示为(0,0,0,0,1,0,0,0)，非叶节点5向右的边向量表示为(0,0,0,0,0,1,0,0)。依此类推，决策树中的每个非叶节点都可以使用上述编码规则得到向左的边向量和向右的边向量。一棵决策树中所有非叶节点的边向量可以构成该决策树的bit mask矩阵。

在本发明实施例中，bit mask矩阵与决策树中各节点的信息无关，只和决策树的深度有关，因此可以预先生成，bit mask矩阵可以为明文，bit mask矩阵可用于不经意推理。

在本发明的一种可选实施例中，所述各参与方利用各自持有的待预测数据的分片以及所述XGBoost模型的参数的分片，联合进行不经意推理，得到密文预测结果，可以包括：

步骤S41、所述各参与方利用各自持有的待预测数据的分片，联合将所述待预测数据与所述t棵决策树中每棵决策树的所有非叶节点进行批量密文比较，使得每个参与方得到转向矩阵的分片；所述转向矩阵包括每个待预测数据在每个非叶节点处的转向信息；

步骤S42、所述各参与方利用所述边比特矩阵以及各自持有的所述转向矩阵的分片，联合确定目标边向量，使得每个参与方得到所述目标边向量的分片；

步骤S43、所述各参与方利用各自持有的所述目标边向量的分片，联合对所述目标边向量进行求和，使得每个参与方得到叠加向量的分片；

步骤S44、所述各参与方利用各自持有的所述叠加向量的分片，联合将所述叠加向量与深度向量进行相等的密文比较操作，使得每个参与方得到比较结果向量的分片；其中，所述深度向量中每个元素值为h，所述深度向量的长度为2^h；

步骤S45、所述各参与方利用各自持有的所述比较结果向量的分片，确定所述待预测数据抵达的叶子节点的信息。

使用训练完成的XGBoost模型进行预测的过程，就是利用t棵决策树中的每棵决策树独立对待预测数据进行预测，将每棵决策树的预测结果叠加起来，得到最终的预测结果。

对于t棵决策树中的任意一棵决策树，本发明实施例将待预测数据与该决策树中的所有非叶节点进行批量密文比较。具体地，所述各参与方利用各自持有的待预测数据的分片，联合将所述待预测数据与所述t棵决策树中每棵决策树的所有非叶节点进行批量密文比较，使得每个参与方得到转向矩阵的分片。

通过批量密文比较可以得到转向矩阵，该转向矩阵记录所述待预测数据在每个非叶节点处的转向信息，转向信息包括向左或者向右。

所述各参与方利用所述bit mask矩阵以及各自持有的所述转向矩阵的分片，联合确定目标边向量，使得每个参与方得到所述目标边向量的分片。通过某个待预测数据在某个非叶节点处的转向信息，可以确定该待预测数据在该非叶节点处的分歧操作是向左还是向右。如果是向左，则可以确定该非叶节点向左的边向量为目标边向量，如果是向右，则可以确定该非叶节点向右的边向量为目标边向量。例如，非叶节点A的判断信息为判断年龄是否小于20，如果小于20则转向信息为向左，否则转向信息为向右。如果待预测数据的年龄值为25，则该待预测数据在非叶节点A处的转向信息为向右，可以确定非叶节点A向右的边向量为目标边向量。由于本发明实施例预先存储了每个决策树的bit mask矩阵，因此可以从bit mask矩阵中检索得到该目标边向量。

接下来，假设在非叶节点A处向右走到非叶节点B，则按照上述方法，继续确定下一个目标边向量。示例性地，假设对于某个待预测数据，在一棵决策树中确定如下三个目标边向量：(1,1,1,1,0,0,0,0)、(0,0,1,1,0,0,0,0)和(0,0,0,1,0,0,0,0)。将这三个目标边向量进行求和，得到叠加向量为(1,1,2,3,0,0,0,0)。

将该叠加向量与深度向量进行相等的密文比较操作。所述深度向量中每个元素值均为h，所述深度向量的长度为2^h。例如，在该示例中，深度向量为(3,3,3,3,3,3,3,3)。将叠加向量(1,1,2,3,0,0,0,0)与深度向量(3,3,3,3,3,3,3,3)进行相等的密文比较操作，比较相等的元素位置置1，否则置0，得到的比较结果向量为(0,0,0,1,0,0,0,0)。其中，元素值为1的位置即为预测得到的叶子节点所在位置。比较结果向量中的元素为密文。

对于待预测数据，可以按照上述步骤S41~步骤S45在每棵决策树中进行不经意推理，得到每棵决策树的预测结果，将t棵决策树的预测结果叠加后得到最终的预测结果。

一个示例中，一个待预测数据包括三种特征，分别是年龄、身高和体重，对应的特征值分别为年龄25、身高180cm、体重90kg。假设训练完成的XGBoost模型只有一棵决策树，深度为3层。开始预测时，将该待预测数据的所有特征值一次性和所有的非叶节点进行批量密文比较，每个非叶节点上的判断信息包括根据年龄、身高和体重的数值如何转向，批量密文比较完成后可以得到一个转向矩阵。该转向矩阵包括该待预测数据在每个非叶节点处的转向信息（向左或向右）。根据转向信息在预先保存的bit mask矩阵中检索得到目标边向量，将所有目标边向量进行求和得到叠加向量，将该叠加向量与深度向量进行相等的密文比较操作，得到预测结果（预测的叶子节点的位置信息）。其中，预测得到的叶子节点的位置信息、预测的路径、以及每个非叶节点的判断信息都是密文，得到的预测结果也是密文。

需要说明的是，本发明实施例中，除了bit mask矩阵的计算过程，训练和预测过程中的每个操作步骤，均是由各参与方利用各自持有的数据分片，通过数据交互和通信，联合执行，并且基于任意方不完全串通的半诚实安全模型，在模型的训练和预测过程中均保证数据和模型的隐私安全性。

综上，本发明实施例提出一种训练XGBoost模型的方法，XGBoost模型采用全密文形式，所述全密文形式指XGBoost模型的输入数据、输出数据和中间结果均为密文，并且模型的参数也是密文，如非叶节点的判断信息和叶子节点的预测信息均为密文。训练模型的各参与方都只持有数据的分片，通过观测各参与方存储的分片得不到任何和实际数值有关的信息，既不能推测非叶节点的判断信息，也不能捕获叶子节点的预测信息，可以保护模型的隐私安全。此外，训练完成的每棵决策树均为预设最大深度的完全树，每棵决策树的尺寸完全一致，攻击者无法区分每棵决策树，可以进一步保护模型的隐私安全。再者，本发明实施例对模型预测过程也进行加密保护，预测时使用了不经意推理方案，在纯密文运算后给出密文的预测结果且不会暴露预测的路径。进一步地，本发明实施例支持任意方不完全串通的半诚实安全模型，在模型的训练和预测过程中均保证数据和模型的隐私安全性，可扩展性较强。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图3，示出了本发明的一种多方安全计算平台300实施例的结构框图，所述多方安全计算平台包括两个以上的参与方301，其中：

各参与方301，用于获取训练样本集的分片，所述训练样本集包括至少两个数据方的特征数据；其中，每个参与方持有所述训练样本集中每个特征数据的分片；

所述各参与方301，还用于利用各自持有的特征数据的分片，联合训练XGBoost模型的t棵决策树，使得在训练完成后各参与方得到所述XGBoost模型的参数的分片；其中，t为正整数，每棵决策树均为预设最大深度的完全树，所述XGBoost模型的参数包括每棵决策树中非叶节点的信息和叶子节点的信息。

可选地，所述各参与方301，还用于在训练完成后，对训练完成的t棵决策树的顺序进行不经意打乱，得到打乱后的t棵决策树。

可选地，所述各参与方具体用于：在构建当前决策树中的当前节点时，利用各自持有的候选特征数据的分片，联合确定分裂增益最大的候选特征数据，作为最优切分点；所述候选特征数据包括所述训练样本集中划分至所述当前节点的特征数据；根据所述最优切分点构建当前节点；判断所述当前节点是否满足分裂条件；若所述当前节点满足分裂条件，则对所述当前节点进行分裂；若所述当前节点不满足分裂条件，且所述当前决策树未到达所述预设最大深度，则在所述当前节点下生成虚拟节点，使得所述当前决策树成为所述预设最大深度的完全树；其中，所述虚拟节点为对所述当前节点复制得到。

可选地，所述各参与方具体用于：利用各自持有的候选特征数据的分片，联合对所述候选特征数据进行密文排序，使得每个参与方得到排序结果的分片；利用各自持有的所述排序结果的分片，联合确定所述候选特征数据中分裂增益最大的候选特征数据。

可选地，在所述当前节点为根节点时，所述候选特征数据包括所述训练样本集；所述各参与方具体用于：在训练XGBoost模型之前，利用各自持有的所述训练样本集的分片，联合对所述训练样本集进行密文排序，使得每个参与方得到所述训练样本集的排序结果的分片；通过复用各自持有的所述训练样本集的排序结果的分片，联合确定所述训练样本集中分裂增益最大的候选特征数据。

可选地，所述各参与方还用于：利用所述候选特征数据的排序结果，对所述候选特征数据的第一梯度值的顺序进行不经意打乱，以及对所述候选特征数据的第二梯度值的顺序进行不经意打乱；所述第一梯度值和所述第二梯度值是在构建每棵决策树之前预先计算得到，所述第一梯度值是特征数据在损失函数上的一阶导数，所述第二梯度值是特征数据在损失函数上的二阶导数。

可选地，所述各参与方具体用于：利用各自持有的候选特征数据的分片，扫描并记录各候选特征数据的梯度值前缀和，得到待计算矩阵，所述待计算矩阵中的各元素是待参与目标计算的梯度值前缀和；其中，所述各参与方持有所述待计算矩阵的分片；利用各自持有的所述待计算矩阵的分片，联合对所述待计算矩阵中的元素批量执行所述目标计算，得到增益矩阵，所述增益矩阵中的各元素是所述各候选特征数据的分裂增益；其中，所述各参与方持有所述增益矩阵的分片；利用各自持有的所述增益矩阵的分片，基于树归并算法，联合确定所述增益矩阵中的最大分裂增益。

可选地，在训练完成之后，所述各参与方还用于：接收预测方通过秘密分享分发的待预测数据的分片；利用各自持有的待预测数据的分片以及所述XGBoost模型的参数的分片，联合进行不经意推理，得到密文预测结果。

可选地，所述各参与方还用于：对于所述t棵决策树中的每棵决策树，生成每棵决策树的边比特矩阵；其中，每棵决策树的边比特矩阵包括该决策树中每个非叶节点的边向量，所述边向量用于表示非叶节点下叶子节点的位置信息，所述边向量的长度为2^h，h为所述预设最大深度；

所述各参与方具体用于：利用各自持有的待预测数据的分片，联合将所述待预测数据与所述t棵决策树中每棵决策树的所有非叶节点进行批量密文比较，使得每个参与方得到转向矩阵的分片；所述转向矩阵包括每个待预测数据在每个非叶节点处的转向信息；利用所述边比特矩阵以及各自持有的所述转向矩阵的分片，联合确定目标边向量，使得每个参与方得到所述目标边向量的分片；利用各自持有的所述目标边向量的分片，联合对所述目标边向量进行求和，使得每个参与方得到叠加向量的分片；利用各自持有的所述叠加向量的分片，联合将所述叠加向量与深度向量进行相等的密文比较操作，使得每个参与方得到比较结果向量的分片；其中，所述深度向量中每个元素值为h，所述深度向量的长度为2^h；利用各自持有的所述比较结果向量的分片，确定所述待预测数据抵达的叶子节点的信息。

本发明实施例提出一种多方安全计算平台，可用于多个参与方联合训练XGBoost模型，XGBoost模型采用全密文形式，所述全密文形式指XGBoost模型的输入数据、输出数据和中间结果均为密文，并且模型的参数也是密文，如非叶节点的判断信息和叶子节点的预测信息均为密文。训练模型的各参与方都只持有数据的分片，通过观测各参与方存储的分片得不到任何和实际数值有关的信息，既不能推测非叶节点的判断信息，也不能捕获叶子节点的预测信息，可以保护模型的隐私安全。此外，训练完成的每棵决策树均为预设最大深度的完全树，每棵决策树的尺寸完全一致，攻击者无法区分每棵决策树，可以进一步保护模型的隐私安全。再者，本发明实施例对模型预测过程也进行加密保护，预测时使用了不经意推理方案，在纯密文运算后给出密文的预测结果且不会暴露预测的路径。进一步地，本发明实施例支持任意方不完全串通的半诚实安全模型，在模型的训练和预测过程中均保证数据和模型的隐私安全性，可扩展性较强。

对于系统实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的多方安全计算平台，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本发明实施例提供了一种用于训练XGBoost模型的装置，包括有存储器，以及一个以上的程序，其中一个以上程序存储于存储器中，且经配置以由一个以上处理器执行所述一个以上程序包含用于进行上述一个或多个实施例中所述的训练XGBoost模型的方法的指令。

图4是根据一示例性实施例示出的一种用于训练XGBoost模型的装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图4，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出（I/ O）的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（SRAM），电可擦除可编程只读存储器（EEPROM），可擦除可编程只读存储器（EPROM），可编程只读存储器（PROM），只读存储器（ROM），磁存储器，快闪存储器，磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器（LCD）和触摸面板（TP）。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风（MIC），当装置800处于操作模式，如呼叫模式、记录模式和语音信息处理模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/ O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以搜索装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信（NFC）模块，以促进短程通信。例如，在NFC模块可基于射频信息处理（RFID）技术，红外数据协会（IrDA）技术，超宽带（UWB）技术，蓝牙（BT）技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路（ASIC）、数字信号处理器（DSP）、数字信号处理设备（DSPD）、可编程逻辑器件（PLD）、现场可编程门阵列（FPGA）、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

图5是本发明的一些实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器（central processingunits，CPU）1922（例如，一个或一个以上处理器）和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930（例如一个或一个以上海量存储设备）。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作系统1941，例如Windows ServerTM，Mac OS XTM，UnixTM, LinuxTM，FreeBSDTM等等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置（服务器或者终端）的处理器执行时，使得装置能够执行图1所示的训练XGBoost模型的方法。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置（服务器或者终端）的处理器执行时，使得装置能够执行前文图1所对应实施例中训练XGBoost模型的方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机程序产品或者计算机程序实施例中未披露的技术细节，请参照本申请方法实施例的描述。

此外，需要说明的是：本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或者计算机程序可以包括计算机指令，该计算机指令可以存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器可以执行该计算机指令，使得该计算机设备执行前文图1所对应实施例中训练XGBoost模型的方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机程序产品或者计算机程序实施例中未披露的技术细节，请参照本申请方法实施例的描述。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

以上对本发明所提供的一种训练XGBoost模型的方法、一种多方安全计算平台、一种用于训练XGBoost模型的装置和一种可读存储介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种训练XGBoost模型的方法，其特征在于，应用于多方安全计算平台，所述多方安全计算平台包括两个以上的参与方，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在训练完成后，对训练完成的t棵决策树的顺序进行不经意打乱，得到打乱后的t棵决策树。

3.根据权利要求1所述的方法，其特征在于，所述各参与方利用各自持有的特征数据的分片，联合训练XGBoost模型的t棵决策树，包括：

在构建当前决策树中的当前节点时，所述各参与方利用各自持有的候选特征数据的分片，联合确定分裂增益最大的候选特征数据，作为最优切分点；所述候选特征数据包括所述训练样本集中划分至所述当前节点的特征数据；

根据所述最优切分点构建当前节点；

判断所述当前节点是否满足分裂条件；

若所述当前节点满足分裂条件，则对所述当前节点进行分裂；

若所述当前节点不满足分裂条件，且所述当前决策树未到达所述预设最大深度，则在所述当前节点下生成虚拟节点，使得所述当前决策树成为所述预设最大深度的完全树；其中，所述虚拟节点为对所述当前节点复制得到。

4.根据权利要求3所述的方法，其特征在于，所述各参与方利用各自持有的候选特征数据的分片，联合确定分裂增益最大的候选特征数据，包括：

所述各参与方利用各自持有的候选特征数据的分片，联合对所述候选特征数据进行密文排序，使得每个参与方得到排序结果的分片；

所述各参与方利用各自持有的所述排序结果的分片，联合确定所述候选特征数据中分裂增益最大的候选特征数据。

5.根据权利要求4所述的方法，其特征在于，在所述当前节点为根节点时，所述候选特征数据包括所述训练样本集；

所述各参与方利用各自持有的候选特征数据的分片，联合对所述候选特征数据进行密文排序，使得每个参与方得到排序结果的分片，包括：

在训练XGBoost模型之前，所述各参与方利用各自持有的所述训练样本集的分片，联合对所述训练样本集进行密文排序，使得每个参与方得到所述训练样本集的排序结果的分片；

所述各参与方利用各自持有的所述排序结果的分片，联合确定所述候选特征数据中分裂增益最大的候选特征数据，包括：

所述各参与方通过复用各自持有的所述训练样本集的排序结果的分片，联合确定所述训练样本集中分裂增益最大的候选特征数据。

6.根据权利要求4所述的方法，其特征在于，所述各参与方利用各自持有的候选特征数据的分片，联合对所述候选特征数据进行密文排序之后，所述方法还包括：

利用所述候选特征数据的排序结果，对所述候选特征数据的第一梯度值的顺序进行不经意打乱，以及对所述候选特征数据的第二梯度值的顺序进行不经意打乱；所述第一梯度值和所述第二梯度值是在构建每棵决策树之前预先计算得到，所述第一梯度值是特征数据在损失函数上的一阶导数，所述第二梯度值是特征数据在损失函数上的二阶导数。

7.根据权利要求3所述的方法，其特征在于，所述各参与方利用各自持有的候选特征数据的分片，联合确定分裂增益最大的候选特征数据，包括：

所述各参与方利用各自持有的候选特征数据的分片，扫描并记录各候选特征数据的梯度值前缀和，得到待计算矩阵，所述待计算矩阵中的各元素是待参与目标计算的梯度值前缀和；其中，所述各参与方持有所述待计算矩阵的分片；

所述各参与方利用各自持有的所述待计算矩阵的分片，联合对所述待计算矩阵中的元素批量执行所述目标计算，得到增益矩阵，所述增益矩阵中的各元素是所述各候选特征数据的分裂增益；其中，所述各参与方持有所述增益矩阵的分片；

所述各参与方利用各自持有的所述增益矩阵的分片，基于树归并算法，联合确定所述增益矩阵中的最大分裂增益。

8.根据权利要求1所述的方法，其特征在于，在训练完成之后，所述方法还包括：

所述各参与方接收预测方通过秘密分享分发的待预测数据的分片；

所述各参与方利用各自持有的待预测数据的分片以及所述XGBoost模型的参数的分片，联合进行不经意推理，得到密文预测结果。

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

对于所述t棵决策树中的每棵决策树，生成每棵决策树的边比特矩阵；其中，每棵决策树的边比特矩阵包括该决策树中每个非叶节点的边向量，所述边向量用于表示非叶节点下叶子节点的位置信息，所述边向量的长度为2^h，h为所述预设最大深度；

所述各参与方利用各自持有的待预测数据的分片以及所述XGBoost模型的参数的分片，联合进行不经意推理，得到密文预测结果，包括：

所述各参与方利用各自持有的待预测数据的分片，联合将所述待预测数据与所述t棵决策树中每棵决策树的所有非叶节点进行批量密文比较，使得每个参与方得到转向矩阵的分片；所述转向矩阵包括每个待预测数据在每个非叶节点处的转向信息；

所述各参与方利用所述边比特矩阵以及各自持有的所述转向矩阵的分片，联合确定目标边向量，使得每个参与方得到所述目标边向量的分片；

所述各参与方利用各自持有的所述目标边向量的分片，联合对所述目标边向量进行求和，使得每个参与方得到叠加向量的分片；

所述各参与方利用各自持有的所述叠加向量的分片，联合将所述叠加向量与深度向量进行相等的密文比较操作，使得每个参与方得到比较结果向量的分片；其中，所述深度向量中每个元素值为h，所述深度向量的长度为2^h；

所述各参与方利用各自持有的所述比较结果向量的分片，确定所述待预测数据抵达的叶子节点的信息。

10.一种多方安全计算平台，其特征在于，所述多方安全计算平台包括两个以上的参与方，其中：

11.一种用于训练XGBoost模型的装置，其特征在于，包括有存储器，以及一个以上程序，其中一个以上程序存储于存储器中，且经配置以由一个以上处理器执行所述一个以上程序，所述一个以上程序包含用于进行如权利要求1至9中任一所述的训练XGBoost模型的方法的指令。

12.一种可读存储介质，其上存储有指令，当所述指令由装置的一个或多个处理器执行时，使得装置执行如权利要求1至9中任一所述的训练XGBoost模型的方法。