CN115730333A

CN115730333A - 基于秘密分享和同态加密的安全树模型构建方法和装置

Info

Publication number: CN115730333A
Application number: CN202211412780.1A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Hangzhou Bodun Xiyan Technology Co ltd
Current assignee: Hangzhou Bodun Xiyan Technology Co ltd
Priority date: 2022-11-11
Filing date: 2022-11-11
Publication date: 2023-03-03

Abstract

本申请实施例公开了一种基于秘密分享和同态加密的安全树模型构建方法，所述方法包括：响应于接收到的模型构建指令，获取利用初始安全树模型对所有参与方特征数据进行预测得到的预测值和所述第一参与方样本的标签值；计算所述标签值和预测值的梯度信息，并将所述梯度信息进行同态加密得到的加密梯度信息发送至第二参与方；接收所述第二参与方根据所述加密梯度信息发送的密文碎片；基于所述标签值、所述预测值、所述密文碎片对所述初始安全树模型的分裂索引进行更新；利用更新后的分裂索引对所述初始安全树进行递归建树，得到目标安全树模型。实现了基于秘密分享和同态加密的安全树模型构建效率和安全性的平衡。

Description

基于秘密分享和同态加密的安全树模型构建方法和装置

技术领域

本申请涉及信息安全技术领域，具体涉及一种基于秘密分享和同态加密的安全树模型构建方法和装置。

背景技术

隐私计算技术旨在不泄露参与方敏感信息的前提下，联合多方实现数据的可用不可见，从而在满足数据隐私保护的前提下，最大程度地释放数据的价值。隐私计算领域的研究与应用已经逐渐成为学术界和工业界的研究重点，其中联邦学习是隐私计算最主要的实现方向。

跨特征联邦安全树算法是联邦学习中一种重要的基础算法，可以在不泄露标签拥有方以及各方特征的前提下，联合多方特征，实现安全树模型的构建。然而目前安全树模型主要是通过引入同态加密确保参与方不会泄露本方信息，但是在安全树构建过程中因为数据整体传输仍然存在中间信息泄露的可能，这使得同态加密安全树构建存在一定安全风险。

此外，基于秘密分享技术，将标签，特征等信息通过秘密分享以碎片的形式存储以及运算也是目前联邦安全树的一种主要构建方式。但基于秘密分享的运算是以多方频繁通信为代价的，其通信和运算成本会随着数据量的提升而逐渐增大，也造成训练安全树模型的效率不够高效。

发明内容

为了解决上述问题，本申请实施例提供一种基于秘密分享和同态加密的安全树模型构建方法。

本申请实施例公开了一种基于秘密分享和同态加密的安全树模型构建方法，应用于第一参与方，所述方法包括：

响应于接收到的模型构建指令，获取利用初始安全树模型对所有参与方特征数据进行预测得到的预测值和所述第一参与方样本的标签值；

计算所述标签值和预测值的梯度信息，并将所述梯度信息进行同态加密得到的加密梯度信息发送至第二参与方；

接收所述第二参与方根据所述加密梯度信息发送的密文碎片；其中，所述密文碎片是所述第二参与方根据第二参与方特征以及所述加密梯度信息计算相应的加密分箱梯度累计信息，并将所述加密分箱梯度累计信息由同态加密态转化为秘密分享态得到的；

基于所述标签值、所述预测值、所述密文碎片对所述初始安全树模型的分裂索引进行更新；

利用更新后的分裂索引对所述初始安全树进行递归建树，得到目标安全树模型。

可选地，所述基于所述标签值、所述预测值、所述密文碎片对所述初始安全树模型的分裂索引进行更新，包括：

对所述密文碎片进行同态解密，得到解密碎片；

基于所述解密碎片和第一分箱梯度累计，获取各参与方设备的总分箱梯度累计；

基于所述总分箱梯度累计对所述初始安全树模型的分裂索引进行更新。

可选地，所述基于所述总分箱梯度累计对所述初始安全树模型的分裂索引进行更新，包括：

基于所述总分箱梯度累计寻找分裂增益、最优切分方和对应特征；

根据所述分裂增益、最优切分方和对应特征进行节点分裂，得到第一分裂索引，并将所述第一分裂索引秘密分享至所述第二参与方；

接收所述第二参与方发送的第二分裂索引；

利用直方图差集算法，基于所述第一分裂索引和所述第二分裂索引对所述初始安全树模型的分裂索引进行更新。

可选地，所述利用直方图差集算法，基于所述第一分裂索引和所述第二分裂索引对所述初始安全树模型的分裂索引进行更新，包括：

从所述第一分裂索引和所述第二分裂索引中获取所述最优参与方的最优切分索引；

基于所述最优切分索引获取当前分裂节点的分裂增益最小的第一分箱梯度累计；

根据所述第一分箱梯度累计和所述当前分裂节点的当前梯度累计，计算当前分裂节点的分裂增益最大的第二分箱梯度累计；

根据所述第二分箱梯度累计和所述第一分箱梯度累计更新所述分裂索引。

可选地，所述利用更新后的分裂索引对所述初始安全树进行递归建树，得到目标安全树模型，包括：

基于更新后的分裂索引对所述初始安全树模型进行递归建树，当所述初始安全树模型的深度达到目标深度时完成建树，得到目标安全树模型。

可选地，在所述响应于接收到的模型构建指令，获取利用初始安全树模型对所有参与方特征数据进行预测得到的预测值和所述第一参与方样本的标签值之前，所述方法还包括：

生成同态加密的公钥和私钥，将所述公钥发送至所述第二参与方，其中所述私钥用于对所述加密梯度信息进行解密；

所述将所述梯度信息进行同态加密得到的加密梯度信息发送至第二参与方，包括：

利用所述公钥对所述梯度信息进行同态加密，得到加密梯度信息，并将所述加密梯度信息发送至所述第二参与方。

可选地，所述计算所述标签值和预测值的梯度信息，包括：

计算所述标签值和所述预测值的一阶梯度和二阶梯度，初始化指示向量，所述指示向量用于描述第一参与方样本是否在所述初始安全树模型的当前分裂节点。

本申请实施例提供一种基于秘密分享和同态加密的安全树模型构建的装置，所述装置包括：

获取模块，用于响应于接收到的模型构建指令，获取利用初始安全树模型对所有参与方特征数据进行预测得到的预测值和所述第一参与方样本的标签值；接收所述第二参与方根据所述加密梯度信息发送的密文碎片；其中，所述密文碎片是所述第二参与方根据第二参与方特征以及所述加密梯度信息计算相应的加密分箱梯度累计信息，并将所述加密分箱梯度累计信息由同态加密态转化为秘密分享态得到的；

交互模块，用于计算所述标签值和预测值的梯度信息，并将所述梯度信息进行同态加密得到的加密梯度信息发送至第二参与方；

构建模块，用于基于所述标签值、所述预测值、所述密文碎片对所述初始安全树模型的分裂索引进行更新；利用更新后的分裂索引对所述初始安全树进行递归建树，得到目标安全树模型。

可选地，所述构建模块，还用于：

对所述密文碎片进行同态解密，得到解密碎片；

可选地，所述构建模块，还用于：

接收所述第二参与方发送的第二分裂索引；

可选地，所述构建模块，还用于：

可选地，所述获取模块，还用于：

本申请实施例提供一种电子设备，包括：

存储器，其中存储有计算机可读代码；

一个或多个处理器，当所述计算机可读代码被所述一个或多个处理器执行时，所述电子设备执行如上述所述的一种基于秘密分享和同态加密的安全树模型构建方法。

本申请实施例提供一种计算机程序，包括计算机可读代码，当所述计算机可读代码在电子设备上运行时，导致所述电子设备执行如上述的一种基于秘密分享和同态加密的安全树模型构建方法。

本申请实施例提供一种存储介质，其中存储了如上述的一种基于秘密分享和同态加密的安全树模型构建方法。

本申请实施例提供的一种基于秘密分享和同态加密的安全树模型构建方法和装置，通过将第一参与方的特征数据的梯度信息通过同态加密发送至第二参与方，第二参与方利用该同态加密后的梯度信息并结合自身特征计算得到加密分箱梯度累计，而后根据所述加密分箱梯度累计得到密文碎片再向第一参与方进行秘密分享，使得同态加密传输的数据无需各参与方的整体数据，保证了同态加密传输的安全性，并且由于第一参与方统一依据各参与方的密文碎片更新安全树模型的分裂索引来构建安全树，因此无需和第二参与方之间频繁通信，也有利于提高安全树模型的训练效率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种基于秘密分享和同态加密的安全树模型构建方法的流程示意图；

图2是本申请实施例提供的一种基于秘密分享和同态加密的安全树构建方法的逻辑示意图；

图3是本申请实施例提供的另一种基于秘密分享和同态加密的安全树构建方法的逻辑示意图；

图4是本申请实施例提供的一种同态加密态向秘密分享态转换方法的原理示意图；

图5是本申请实施例提供的一种基于秘密分享和同态加密的安全树模型构建装置的结构示意图；

图6示意性地示出了用于执行根据本申请实施例的方法的计算处理设备的框图；

图7示意性地示出了用于保持或者携带实现根据本申请实施例的方法的程序代码的存储单元。

具体实施方式

为了便于理解本申请，下面将参照相关附图对本申请进行更全面的描述。附图中给出了本申请的若干实施例。但是，本申请可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本申请的公开内容更加透彻全面。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

请参阅图1，本申请实施例中的基于秘密分享和同态加密的安全树模型构建方法的流程示意图，该构建方法应用于第一参与方，包括以下步骤：

步骤101，响应于接收到的模型构建指令，获取利用初始安全树模型对所有参与方特征数据进行预测得到的预测值和所述第一参与方样本的标签值。

需要说明的是，所述标签值是标志我们要预测的事物的目标和分类或内容，即简单线性回归中的y变量。标签可以是小麦未来的价格、动物品种、音频剪辑的含义或任何事物的描述信息。所述预测值是经过预测得到的预测结果，通过比较有标签样本预测的值和标签的实际值，进而计算所述梯度信息。其中，梯度的本意是一个向量(矢量)，表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向(此梯度的方向)变化最快，变化率最大(为该梯度的模)。梯度是为了寻找损失函数的最小值，而损失函数(loss function)或代价函数(cost function)是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。一阶梯度指示函数在该点处沿着该方向(此梯度的方向)变化最快，但当函数连续变化时，单纯使用一阶梯度会使得优化方向效果不够明显，进而使用二阶梯度来反映一阶梯度的变化进一步确定优化方向。

在本申请实施例中，在接收到模型构建指令后，第一参与方会获取利用初始安全树模型对其所拥有的第一参与方特征数据进行预测得到的预测值和所述第一参与方样本的标签值以进行下一步计算。

步骤102，计算所述标签值和预测值的梯度信息，并将所述梯度信息进行同态加密得到的加密梯度信息发送至第二参与方。

在本申请实施例中，第一参与方会根据标签和预测值计算梯度信息，梯度信息可以包括一阶梯度和二阶梯度，一阶梯度用于寻找损失函数的最小值，而二阶梯度是为了优化一阶梯度的误差。进行同态加密时，会生成公钥和私钥，所述第一参与方使用公钥加密所述梯度信息，并且将所述私钥发送给所述第二参与方，以使得第二参与方可以通过该私钥对第一参与方发送的梯度信息进行同态解密。

步骤103，接收所述第二参与方根据所述加密梯度信息发送的密文碎片；其中，所述密文碎片是所述第二参与方根据第二参与方特征以及所述加密梯度信息计算相应的加密分箱梯度累计信息，并将所述加密分箱梯度累计信息由同态加密态转化为秘密分享态得到的。

需要说明的是，秘密分享是一种将秘密分割存储的密码技术，其思想是将秘密以适当的方式拆分，拆分后的每一个份额由不同的参与者管理，单个参与者无法恢复秘密信息，只有若干个参与者一同协作才能恢复秘密消息。更重要的是，当其中任何相应范围内参与者出问题时，秘密仍可以被完整恢复。其目的是阻止秘密过于集中，以达到分散风险和容忍入侵的目的，是信息安全和数据保密中的重要手段。

在本申请实施例中，所述第二参与方接收第一参与方发送的加密梯度信息，将本方特征进行分箱得到第二掩码，而后把加密梯度信息和第二掩码进行计算，如果特征数据不在该分箱则乘以0不计入梯度累计，在该分箱则乘以1以计入梯度累计，得到第二分箱梯度累计，此后第二参与方初始化随机数，并将加密分箱梯度累计减去随机数的结果作为密文碎片并秘密分享至所述第一参与方。所述第一参与方再对密文碎片进行解密得到解密碎片。

步骤104，基于所述标签值、所述预测值、所述密文碎片对所述初始安全树模型的分裂索引进行更新。

在本申请实施例中，所述第一参与方也会将本方特征数据进行分箱，并且得到对应的第一掩码，根据第一掩码和梯度信息计算第一分箱梯度累计，然后会把第一分箱梯度累计秘密分享至第二参与方，最后综合第一参与方拥有的解密碎片、秘密分享状态下的第一分箱梯度累计以及第二参与方拥有的随机数、秘密分享状态下的第一分箱梯度累计，协同计算出总的分箱梯度累计。

需要说明的是，更新索引的位置有两种方式，第一种是泄露分裂索引给所有参与方，第二种最优切分方直接传输加密索引密文，第一种方式由于将计算任务分散到各参与方，因此效率更高，第二种方式由于需要各参与方之间频繁通讯来传输索引密文，因此会使通信代价变大。针对后续节点的分裂，这里与秘密分享方案中每个节点分裂都会使用全量数据不同，最优切分方根据所述分裂索引，会先计算第一分箱梯度累计和第二分箱梯度累计中取值较小的分箱梯度累计，需要说明的是，此时并未知道所述第一分箱梯度累计和所述第二分箱梯度累计的具体数值。比较二者大小的方法是先基于典型计算公式得到二者的表达式，再利用所述第一分箱梯度减去所述第二分箱梯度，将减去的结果化简为分子分母式，此时将大小比较转变为了分子分母的符号比较，当减去结果为负数，则前者小于后者，若减去结果为正数，则前者大于后者。最后计算出较小的分箱梯度累计，通过所述总分箱梯度累计和所述较小的分箱梯度累计计算得到另一方的分箱梯度累计，因此可以减少节点分裂所需使用的数据量，无需参与方之间传输全量数据，提高了安全树构建的效率。

进一步地，在秘密分享状态下，将计算的总分箱梯度累计划分为左右两边，并改进典型的增益计算公式：为了消除秘密分享态下的除法的低效运算且更好地支持多方，采用典型的增益计算公式，将比较大小的公式转化为两者进行相减，而后经过合并化简得到分子分母样式的计算公式，此时比较分子分母的符号便可知道相减结果为负数还是正数由此得知被减数和减数的大小。最终在秘密分享状态下，通过计算得到了更大增益的一方，从而获取到最优切分方、分裂增益和对应特征。

步骤105，利用更新后的分裂索引对所述初始安全树进行递归建树，得到目标安全树模型。

在本申请实施例中，第一参与方在找到最优切分方后，找到对应待切分特征，若该节点不能再分，将该节点存为叶节点，若可以切分则执行二元切分，在右子树调用建树方法，在左子树调用建树方法，递归进行，直到安全树模型满足最大设定深度时，停止建树过程。

进一步的，本申请实施例中的第一参与方和第二参与方的区别在于第一参与方是安全树模型构建过程的发起方，第二参与方安全树模型构建过程中起到协助第一参与方进行安全树模型构建的作用。同样的，第二参与方在为安全树模型构建构成的发起方时，可与第一参与方的执行逻辑进行替换，从而第二参与方可执行本申请实施例所提供的基于秘密分享和同态加密的安全树模型构建方法的步骤以构建安全树模型，此时第一参与方则替换执行第二参与方在第一参与方作为发起方时第二参与方执行的步骤。其中，第二参与方作为安全树模型构建过程的发起方时的执行步骤与第一参与方作为发起方时候的执行步骤相同，具体可参照上述第一参与方作为发起方时执行步骤的说明，此处不再赘述。

在本申请实施例中，通过将第一参与方的特征数据的梯度信息通过同态加密发送至第二参与方，第二参与方利用该同态加密后的梯度信息并结合自身特征计算得到加密分箱梯度累计，而后根据所述加密分箱梯度累计得到密文碎片再向第一参与方进行秘密分享，使得同态加密传输的数据无需各参与方的整体数据，保证了同态加密传输的安全性，并且由于第一参与方统一依据各参与方的密文碎片更新安全树模型的分裂索引来构建安全树，因此无需和第二参与方之间频繁通信，也有利于提高安全树模型的训练效率。

可选地，步骤104，包括：

A1、对所述密文碎片进行同态解密，得到解密碎片；

A2、基于所述解密碎片和第一分箱梯度累计，获取各参与方设备的总分箱梯度累计；

A3、基于所述总分箱梯度累计对所述初始安全树模型的分裂索引进行更新。

在本申请实施例中，密文碎片为所述第二参与方的加密梯度信息减去随机数的结果，所述第一参与方解密后和所述第二参与方进行协同计算获得总分箱梯度累计。

需要说明的是，分箱的好处有下面5点：提高模型的稳定性与鲁棒性，防止过拟合问题，加快模型训练速度，很好的处理空值与缺失值，增强逻辑回归的拟合力，因此对特征数据进行分箱操作，掩码取值0或1来指示在不在该分箱。

在本申请实施例中，通过分箱提高模型的稳定性与鲁棒性，防止过拟合问题，加快模型训练速度，很好的处理空值与缺失值，增强逻辑回归的拟合力并且通过掩码与加密梯度信息计算，便捷地得到了加密分箱梯度累计。

在本申请实施例中，所述第一参与方会将本方特征数据进行分箱，并且得到对应的第一掩码，根据第一掩码和第一梯度利用秘密分享乘法计算第一分箱梯度累计，然后会把第一分箱梯度累计秘密分享至第一参与方和第二参与方，最后综合第一参与方拥有的解密碎片、秘密分享状态下的第一分箱梯度累计以及第二参与方拥有的随机数、秘密分享状态下的第一分箱梯度累计，而后利用秘密分享运算协同计算出总的分箱梯度累计。

在本申请实施例中，第一参与方通过将第一分箱梯度累计秘密分享至各方，以及所述第一参与方和第二参与方分别持有解密碎片和随机数，使得数据可用而不可见，实现了用户需求。

在本申请实施例中，第二参与方通过初始化随机数，并将所述加密分箱梯度减去所述随机数得到密文碎片，完成了同态加密态向秘密分享态的转化，使得第一参与方无法得到直接的加密分箱梯度，必须和第二参与方进行协同运算，很好地对数据进行了隐私保护。

可选地，步骤A3，包括：

A31，基于所述总分箱梯度累计寻找分裂增益、最优切分方和对应特征；

A32，根据所述分裂增益、最优切分方和对应特征进行节点分裂，得到第一分裂索引，并将所述第一分裂索引秘密分享至所述第二参与方；

A33，接收所述第二参与方发送的第二分裂索引；

A34，利用直方图差集算法，基于所述第一分裂索引和所述第二分裂索引对所述初始安全树模型的分裂索引进行更新。

在本申请实施例中，利用直方图差集法，从而使得每个节点分裂不必再使用全量数据，只需要计算较小的梯度累计而后和总分箱梯度累计进行计算得到另一方的梯度累计，有效提高了安全树模型的构建效率。

可选地，步骤A34，包括：

A341，从所述第一分裂索引和所述第二分裂索引中获取所述最优参与方的最优切分索引；

A341，基于所述最优切分索引获取当前分裂节点的分裂增益最小的第一分箱梯度累计；

A341，根据所述第一分箱梯度累计和所述当前分裂节点的当前梯度累计，计算当前分裂节点的分裂增益最大的第二分箱梯度累计；

A341，根据所述第二分箱梯度累计和所述第一分箱梯度累计更新所述分裂索引。

在本申请实施例中，通过获取分裂增益最小的第一分箱梯度累计，用总分箱梯度累计减去所述第一分箱梯度累计得到分裂增益最大的第二分箱梯度累计，提升了安全树模型的构建效率。

可选地，步骤105，包括：基于更新后的分裂索引对所述初始安全树模型进行递归建树，当所述初始安全树模型的深度达到目标深度时完成建树，得到目标安全树模型。

在本申请实施例中，会根据更新后的分裂索引对安全树进行递归建树，当该节点不可分时，停止分裂，该节点可分裂时，则左子树调用建树方法，右子树调用建树方法，直到不可再分。

可选地，步骤101之前，还包括：生成同态加密的公钥和私钥，将所述公钥发送至所述第二参与方，其中所述私钥用于对所述加密梯度信息进行解密；

所述步骤102，包括：利用所述公钥对所述梯度信息进行同态加密，得到加密梯度信息，并将所述加密梯度信息发送至所述第二参与方。

在本申请实施例中，通过使用同态加密的公钥和私钥，利用公钥加密、私钥解密，使得第二参与方可以在不得知具体数据的情况下对数据进行处理操作，第一参与方也可以得到处理后的明文数据，保障了数据的可用不可见。

可选地，步骤102，包括：计算所述标签值和所述预测值的一阶梯度和二阶梯度，初始化指示向量，所述指示向量用于描述第一参与方样本是否在所述初始安全树模型的当前分裂节点。

需要说明的是，初始时还未进行分裂，因此指示向量的值为1。

在本申请实施例中，通过初始化指示向量，且取值只有0或1，使得用户可以简单明了的通过指示向量的值来判断是否在当前树节点。

可选地，参照图2，作为本申请的一实施例，包括：

标签拥有方guest作为第一参与方，参与方host作为第二参与方。guest方包括标签y、本方特征数据X_g，参与方host，包含本方特征数据X_h；

需要说明的是，秘密分享的基础运算定义为：

ss_share：表示通过切分，将碎片分散到各个参与方，此时的状态可以定义为秘密分享态；

SS_ADD:秘密分享加法，各方获得加法结果碎片，碎片恢复完成后，结果为正常加法的结果；

SS_SUM:基于SS_ADD获取数组累加的结果，各方获得累加结果碎片，碎片恢复完成后，结果为正常数组累加的结果；

SS_MUL:秘密分享乘法，各方获得乘法结果碎片，碎片恢复完成后，结果为正常乘法的结果。

在本申请实施例中，guest方会根据标签y和预测值y_pred计算一阶梯度g和二阶梯度h，并初始化指示向量index以表示样本是否在当前树节点，初始时均为1，而后将g、h、index秘密分享至各参与方，各方得到秘密分享碎片SS_g,SS_h,SS_index，其中，各方指guest方和host方。

进一步地，各方将本方特征数据进行分箱得到对应分箱掩码数据mask，其中mask用0、1矩阵表示，0表示不在该分箱，1表示在该分箱。将掩码秘密分享至各方得到SS_mask。其中，SS_mask包括各方对应的SS_guest_mask以及SS_host_mask。

进一步地，在秘密分享状态下，计算每个特征对应的分箱梯度累计，利用秘密分享运算SS_SUM和SS_MUL,完成上述秘密分享态的运算。即利用公式(1)和公式(2)分别获取对应秘密分享态的分箱梯度累计SS_G,SS_H：

SS_G＝SS_SUM(SS_MUL(SS_mask,SS_g)) (1)

SS_H＝SS_SUM(SS_MUL(SS_mask,SS_h)) (2)

其中，SS_G,SS_H是对应秘密分享态的分箱梯度累计；SS_SUM和SS_MUL为上述秘密分享运算；SS_mask为秘密分享的掩码数据。

进一步地，分裂需要判断当前树节点是否为叶子节点，即根据最大深度和最少叶子节点数来判断当前节点是否满足分裂节点要求，若不满足，需要计算叶子权重，其中，典型权重计算公式(3)如下：

其中，w代表权重，G表示相应叶子节点的一阶梯度累计，H表示相应叶子节点的二阶梯度累计，λ表示正则化系数。

在安全树模型的计算中，需要确保该运算处于秘密分享状态，因此权重也应是秘密分享态，由于秘密分享的运算不支持除法并且采用秘密分享加法和乘法近似除法的操作效率并不高，因此将问题转化为如下公式(4)：

需要说明的是，w代表权重、P代表参与方数，p表示参与方标识，<>表示秘密分享态下的碎片，求解二次优化问题，通过有限次迭代得到对应的权重值，即公式(5)：

其中，

为学习率，其值由

决定，δ为随机值，主要是为了防止可能的数据泄露。

进一步地，当目前样本满足分裂条件时，需要在秘密分享态下计算最优切分方，分裂增益以及对应特征，在秘密分享态下，将计算的秘密分享下的分箱梯度累计SS_G,SS_H划分为左右两边，左和右利用L和R进行表示，其典型的增益计算公式(6)为：

需要说明的是，为了消除秘密分享态下的除法的低效运算且更好地支持多方，这里将获取最大增益的比较方式改为比较分子分母的符号，即对于两个不同的左右划分s₁和s₂,增益g₁和g₂,比较相互大小的运算公式(7)为：

合并分子和分母可得公式(8)：

于是，利用公式(8)将除法运算转化为比较分子分母的符号，从而在秘密分享态下，通过计算符号的碎片并恢复后得到更大增益的一方，从而获取最优切分方，分裂增益以及对应特征。

进一步地，根据最优切分方，分裂增益以及对应特征的特征节点分裂，将分裂索引秘密分享至各方，更新当前索引，然后左右递归建树，直到满足设定最大深度，完成建树。

基于秘密分享的安全树方案，由于所有运算均在秘密分享态下运算，因此基本不会泄露中间信息，其安全性有一定保证，但也可以注意到，在安全树建树过程中，由于采用指示索引的方式表示节点分裂，在每个节点分裂的代价永远是基于全量数据计算的，这严重影响了基于秘密分享的安全树的构建效率，模型训练速度会随着数据量增大而变得特别慢。

可选地，参照图3，包括：

标签拥有方guest作为第一参与方，参与方host作为第二参与方。guest方包括标签y、本方特征数据X_g，参与方host，包含本方特征X_h；

在本申请实施例中，guest生成同态加密的公钥pk_a和私钥sk_a，将公钥pk_a发送给host；

进一步地，guest方根据样本的标签y和预测值y_pred计算一阶梯度g和二阶梯度h。并初始化指示向量index以表示样本是否在当前树节点，初始时均为1，将g，h，index秘密分享至各参与方，各方得到秘密分享碎片SS_g,SS_h,SS_index；

进一步地，guest方将本方特征数据进行分箱得到对应分箱掩码数据guest_mask，使用0，1矩阵表示，0表示不在该分箱，1表示在该分箱。将掩码利用ss_share秘密分享至各方得到ss_guest_mask，host也将本方特征数据进行分箱得到对应分箱掩码数据host_mask，将掩码利用ss_share秘密分享至各方得到ss_host_mask。

进一步地，guest方分批加密一阶梯度g和二阶梯度h，将加密分片shard_g和shard_h发送给host,同时guest在加密工作完成后会利用自身掩码和梯度信息明文状态计算第一分箱梯度累计guest_SS_G、guest_SS_H。host方接收到加密分片后，根据加密分片和本地特征掩码计算每个特征相应加密分箱梯度累计host_en_SS_G、host_en_SS_H，其中，guest边加密边发送，host方边接收边在加密状态下计算。

当计算完毕后，可以得到加密的分箱梯度累计，此时进行同态加密态向秘密分享态的转换，参照图4，包括：

host方会初始化随机数作为秘密分享态碎片<D2>，后使用同态加密的公钥对﹣<D2>进行加密得到密文[﹣<D2>]_a；

进一步地，计算[D]_a+[﹣＜D2>]_a来得到密文碎片[<D1>]_a，其中，[D]_a是host方的加密分箱梯度累计；

进一步地，host方将密文碎片[＜D1＞]_a秘密分享至guest方，guest方使用同态加密的私钥对密文碎片进行解密得到解密碎片<D1>,至此完成同态加密态向秘密分享态的转换操作。

进一步地，guest方基于自身的分箱梯度累计guest_SS_G、guest_SS_H和解密碎片<D1>，host方基于自身拥有的随机数分片<D2>，二者进行协同运算得到总分箱梯度累计SS_G,SS_H。

进一步地，分裂需要判断当前树节点是否为叶子节点，即根据最大深度和最少叶子节点数来判断当前节点是否满足分裂节点要求，若不满足，需要计算叶子权重，其中，典型权重计算公式如公式(3)。

在安全树模型的计算中，需要确保该运算处于秘密分享状态，因此权重也应是秘密分享态，由于秘密分享的运算不支持除法并且采用秘密分享加法和乘法近似除法的操作效率并不高，因此将问题转化为公式(4)

求解二次优化问题，利用公式(5)通过有限次迭代得到对应的权重值。

进一步地，当目前样本满足分裂条件时，需要在秘密分享态下计算最优切分方，分裂增益以及对应特征，在秘密分享态下，将计算的秘密分享下的总分箱梯度累计划分为左右两边SS_G,SS_H，左和右利用L和R进行表示，利用公式(6)进行典型的增益计算。

需要说明的是，为了消除秘密分享态下的除法的低效运算且更好的支持多方，这里将获取最大增益的比较方式改为比较分子分母的符号，即对于总分箱梯度累计进行划分后得到的两个不同的左右划分s₁和s₂,增益g₁和g₂,利用公式(7)比较相互大小。

进一步合并分子和分母可得公式(8)。

于是，将除法运算转化为比较分子分母的符号，从而在秘密分享态下，通过计算符号的碎片并恢复后得到更大增益的一方，从而获取最优切分方，分裂增益以及对应特征。

进一步地，根据最优切分方，分裂增益以及对应特征的特征节点分裂，将分裂索引秘密分享至各方，更新当前索引。

当获取分裂索引后，需要更新索引的位置，这里有两种方式，第一种泄露分裂索引给所有参与方，第二种最优特征方直接传输加密索引密文，前者效率更高，后者会使通信代价变大。

然后左右递归建树，直到满足设定最大深度，完成建树。

图5示意性地示出了本申请提供的一种基于秘密分享和同态加密的安全树模型构建装置20的结构示意图，应用于第一参与方，所述装置包括：

获取模块201，用于响应接收到的模型构建指令，获取利用初始安全树模型对所有参与方特征数据进行预测得到的预测值和所述第一参与方样本的标签值；接收所述第二参与方根据所述加密梯度信息发送的密文碎片；其中，所述密文碎片是所述第二参与方根据第二参与方特征以及所述加密梯度信息计算相应的加密分箱梯度累计信息，并将所述加密分箱梯度累计信息由同态加密态转化为秘密分享态得到的；

交互模块202，用于计算所述标签值和预测值的梯度信息，并将所述梯度信息进行同态加密得到的加密梯度信息发送至第二参与方；

构建模块203，用于基于所述标签值、所述预测值、所述密文碎片对所述初始安全树模型的分裂索引进行更新；利用更新后的分裂索引对所述初始安全树进行递归建树，得到目标安全树模型。

可选地，所述构建模块203，还用于：

对所述密文碎片进行同态解密，得到解密碎片；

可选地，所述构建模块203，还用于：

接收所述第二参与方发送的第二分裂索引；

可选地，所述构建模块203，还用于：

可选地，所述获取模块201，还用于：

以上所描述的设备实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

本申请的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的计算处理设备中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在非瞬态计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

例如，图6示意性地示出了用于执行根据本申请实施例的方法的计算处理设备的框图。该计算处理设备传统上包括处理器310和以存储器320形式的计算机程序产品或者非瞬态计算机可读介质。存储器320可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器320具有用于执行上述方法中的任何方法步骤的程序代码331的存储空间330。例如，用于程序代码的存储空间330可以包括分别用于实现上面的方法中的各种步骤的各个程序代码331。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为如参考图7所述的便携式或者固定存储单元。该存储单元可以具有与图6的计算处理设备中的存储器320类似布置的存储段、存储空间等。程序代码可以例如以适当形式进行压缩。通常，存储单元包括计算机可读代码331’，即可以由例如诸如310之类的处理器读取的代码，这些代码当由计算处理设备运行时，导致该计算处理设备执行上面所描述的方法中的各个步骤。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本文中所称的“一个实施例”、“实施例”或者“一个或者多个实施例”意味着，结合实施例描述的特定特征、结构或者特性包括在本申请的至少一个实施例中。此外，请注意，这里“在一个实施例中”的词语例子不一定全指同一个实施例。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种基于秘密分享和同态加密的安全树模型构建方法，其特征在于，应用于第一参与方，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述标签值、所述预测值、所述密文碎片对所述初始安全树模型的分裂索引进行更新，包括：

对所述密文碎片进行同态解密，得到解密碎片；

基于所述解密碎片和第一分箱梯度累计，获取各参与方的总分箱梯度累计；其中，所述第一分箱梯度累计是所述第一参与方根据自身特征计算得到的；

3.根据权利要求2所述的方法，其特征在于，所述基于所述总分箱梯度累计对所述初始安全树模型的分裂索引进行更新，包括：

接收所述第二参与方发送的第二分裂索引；

4.根据权利要求3所述的方法，其特征在于，所述利用直方图差集算法，基于所述第一分裂索引和所述第二分裂索引对所述初始安全树模型的分裂索引进行更新，包括：

5.根据权利要求1所述的方法，其特征在于，所述利用更新后的分裂索引对所述初始安全树进行递归建树，得到目标安全树模型，包括：

6.根据权利要求1所述的方法，其特征在于，在所述响应于接收到的模型构建指令，获取利用初始安全树模型对所有参与方特征数据进行预测得到的预测值和所述第一参与方样本的标签值之前，所述方法还包括：

7.根据权利要求1-6任一项所述的方法，其特征在于，所述计算所述标签值和预测值的梯度信息，包括：

计算所述标签值和所述预测值的一阶梯度和二阶梯度，初始化指示向量，所述指示向量用于描述参与方样本是否在所述初始安全树模型的当前分裂节点。

8.一种基于秘密分享和同态加密的安全树模型构建装置，其特征在于，应用于第一参与方，所述装置包括：

9.一种电子设备，其特征在于，所述设备包括处理器以及存储器：

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序执行权利要求1-7中任一项所述的基于秘密分享和同态加密的安全树模型构建方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1-7中任一项所述的基于秘密分享和同态加密的安全树模型构建方法。