CN114139202A

CN114139202A - 基于联邦学习的隐私保护样本预测应用方法及系统

Info

Publication number: CN114139202A
Application number: CN202111458352.8A
Authority: CN
Inventors: 汤寒林
Original assignee: Guizhou Chinadatapay Network Technology Co ltd
Current assignee: Guizhou Chinadatapay Network Technology Co ltd
Priority date: 2021-12-02
Filing date: 2021-12-02
Publication date: 2022-03-04

Abstract

本发明涉及一种基于联邦学习的隐私保护样本预测应用方法及系统，属于大数据技术领域。该发明的基于联邦学习的隐私保护样本预测应用方法包括模型训练流程和画像预测流程。模型训练流程利用同态密码技术实现主动参与方与被动参与方共同建立决策树模型，进一步利用该决策树模型实现预测。整体实现过程中，不论是主动参与或是与被动参与方都提供样本特征，而不会将本方用户信息暴露给对方，从而在基于多方参与者的数据的基础上提升模型效果的同时又能够兼顾各方隐私保护，有助于AI技术等的进一步推广发展。

Description

基于联邦学习的隐私保护样本预测应用方法及系统

技术领域

本发明涉及大数据技术领域，特别涉及机器学习技术领域，具体是指一种基于联邦学习的隐私保护样本预测应用方法及系统。

背景技术

随着AI技术的发展，基于大数据的应用场景愈加广泛。为提升应用的准确性，有必要建立基于大数据的精度数据模型。在不同的应用领域中，相同的样本存在不同的特征数据，将相同样本的不同特征加以整合能够有效提升模型效果。

然而不同领域的特征数据往往由不同的主体掌握，将数据开放给对方存在数据安全隐患和法律风险。因此，掌握用户数据的各个主体难以将各自的数据进行整合，对大数据的进一步推广应用产生了制约。

为解决上述问题，现有技术中提出了联邦学习的概念，其本质上是一种分布式机器学习技术，目标在于保证数据隐私安全的基础上，实现共同建模，提升AI模型的效果。

然而，现有的联邦学习实现过程中仍然存在将用户信息暴露给对方的风险，因此，如何提供一种避免用户信息暴露的，能够实现隐私保护的，基于联邦学习的样本预测应用方法成为本领域亟待解决的问题。

发明内容

本发明的目的是克服了上述现有技术中的缺点，提供一种可避免用户信息暴露的基于联邦学习的隐私保护样本预测应用方法及系统。

为了实现上述的目的，本发明的基于联邦学习的隐私保护样本预测应用方法包括模型训练流程和画像预测流程。

所述模型训练流程包括：

主动参与方与至少一个被动参与方均提供样本特征，所述的主动参与方计算当前节点的样本损失函数的梯度信息，并发送至所述被动参与方；

所述被动参与方根据所述的梯度信息产生聚合梯度信息并反馈给主动参与方；

所述的主动参与方根据所述的聚合梯度信息对当前样本节点的样本空间进行划分，将当前节点样本空间划分同步给所述的被动参与方；

所述的主动参与方进入划分后的下一个样本节点，通过多次迭代完成训练形成决策树模型；

所述画像预测流程包括：

所述的主动参与方根据待预测样本的实际特征值查询所述决策树模型的关联节点，获取该关联节点的标注样本特征值，所述的主动参与方将该标注样本特征值发送至所述被动参与方，询问下一节点；

所述的被动参与方根据所述的标注样本特征值确定与所述待预测样本关联的下一节点并反馈给所述的主动参与方；

通过多次迭代达到叶子节点获得预测结果。

该基于联邦学习的隐私保护样本预测应用方法中，所述的主动参与方计算当前节点的样本损失函数的梯度信息，并发送至所述被动参与方，具体为：

所述的主动参与方计算当前节点的样本损失函数的的一阶梯度和二阶梯度作为梯度信息，并两所述的梯度信息加密后发送至所述被动参与方。

该基于联邦学习的隐私保护样本预测应用方法中，所述的被动参与方根据所述的梯度信息产生聚合梯度信息并反馈给主动参与方，具体为：

所述的被动参与方对当前节点样本空间中的样本的特征进行分类，将每个样本特征的特征值映射至每个分类中，基于分类后的特征值，并根据所述的梯度信息，产生聚合梯度信息，并将该聚合梯度信息加密反馈给主动参与方。

该基于联邦学习的隐私保护样本预测应用方法中，所述的主动参与方根据所述的聚合梯度信息对当前样本节点的样本空间进行划分，将当前节点样本空间划分同步给所述的被动参与方，具体包括：

所述的主动参与方根据所述的聚合梯度信息，基于全局最优分割方法，计算获得分割当前样本节点的特征id和阈值id，并将所述的特征id和阈值id反馈给所述的被动参与方；

所述的被动参与方所述的特征id和阈值id对当前样本节点的样本空间进行划分，并确定特征的阈值，并对应记录该特征的记录id和阈值，并反馈给所述主动参与方；

所述主动参与方根据所述的记录id和阈值对当前节点进行划分，并将当前节点与所述的记录id关联，并将当前节点划分信息同步给所述的被动参与方。

该基于联邦学习的隐私保护样本预测应用方法中，所述的通过多次迭代完成训练形成决策树模型，具体为：

通过多次迭代形成决策树模型，并确定决策树中每个叶节点的最佳权值。

该基于联邦学习的隐私保护样本预测应用方法中，所述的主动参与方根据待预测样本的实际特征值查询所述决策树模型的关联节点，获取该关联节点的标注样本特征值，具体为：

所述的主动参与方查询所述的决策树模型与待预测样本的实际特征值关联的节点作为当前节点，根据当前节点的记录id查到的记录信息，所述记录信息包括标注样本特征值。

该基于联邦学习的隐私保护样本预测应用方法中，，所述的被动参与方根据所述的标注样本特征值确定与所述待预测样本关联的下一节点并反馈给所述的主动参与方，具体为：

所述的被动参与方将接收到的标注样本特征值与本地记录的阈值进行比较，并确定下一节点为当前节点的右子节点或左子节点，并将结果反馈给所述的主动参与方。

本发明还提供一种基于联邦学习的隐私保护样本预测应用系统，该系统包括通过网络连接的主动参与方与至少一个被动参与方，所述的主动参与方和被动参与方通过网络交互实现模型训练流程和画像预测流程，

所述模型训练流程包括：

所述的主动参与方计算当前节点的样本损失函数的梯度信息，并发送至所述被动参与方；

所述画像预测流程包括：

通过多次迭代达到叶子节点获得预测结果。

采用了该发明的基于联邦学习的隐私保护样本预测应用方法及系统，其包括模型训练流程和画像预测流程。模型训练流程利用同态密码技术实现主动参与方与被动参与方共同建立决策树模型，进一步利用该决策树模型实现预测。整体实现过程中，不论是主动参与或是与被动参与方都提供样本特征，而不会将本方用户信息暴露给对方，从而在基于多方参与者的数据的基础上提升模型效果的同时又能够兼顾各方隐私保护，有助于AI技术等的进一步推广发展。

附图说明

图1为本发明的基于联邦学习的隐私保护样本预测应用方法的流程示意图。

图2为本发明的实际应用中进行模型训练的示意图。

具体实施方式

为了能够更清楚地理解本发明的技术内容，特举以下实施例详细说明。

请参阅图1所示，为本发明的基于联邦学习的隐私保护样本预测应用方法的流程示意图。

在一种实施方式中，该基于联邦学习的隐私保护样本预测应用方法包括模型训练流程和画像预测流程。

其中，模型训练流程包括：

所述画像预测流程包括：

通过多次迭代达到叶子节点获得预测结果。

具体而言，所述的主动参与方计算当前节点的样本损失函数的梯度信息，并发送至所述被动参与方，具体为：所述的主动参与方计算当前节点的样本损失函数的的一阶梯度和二阶梯度作为梯度信息，并两所述的梯度信息加密后发送至所述被动参与方。

所述的被动参与方根据所述的梯度信息产生聚合梯度信息并反馈给主动参与方，具体为：所述的被动参与方对当前节点样本空间中的样本的特征进行分类，将每个样本特征的特征值映射至每个分类中，基于分类后的特征值，并根据所述的梯度信息，产生聚合梯度信息，并将该聚合梯度信息加密反馈给主动参与方。

所述的主动参与方根据所述的聚合梯度信息对当前样本节点的样本空间进行划分，将当前节点样本空间划分同步给所述的被动参与方，具体包括：

所述的通过多次迭代完成训练形成决策树模型，具体为：通过多次迭代形成决策树模型，并确定决策树中每个叶节点的最佳权值。

而在画像预测流程中，所述的主动参与方根据待预测样本的实际特征值查询所述决策树模型的关联节点，获取该关联节点的标注样本特征值，具体为：所述的主动参与方查询所述的决策树模型与待预测样本的实际特征值关联的节点作为当前节点，根据当前节点的记录id查到的记录信息，所述记录信息包括标注样本特征值。

所述的被动参与方根据所述的标注样本特征值确定与所述待预测样本关联的下一节点并反馈给所述的主动参与方，具体为：所述的被动参与方将接收到的标注样本特征值与本地记录的阈值进行比较，并确定下一节点为当前节点的右子节点或左子节点，并将结果反馈给所述的主动参与方。

本发明还提供一种基于联邦学习的隐私保护样本预测应用系统，该系统包括通过网络连接的主动参与方与至少一个被动参与方，所述的主动参与方和被动参与方通过网络交互实现上述方法中的模型训练流程和画像预测流程。

在本发明的应用中，以电信运营商和银行为例。现实生活中，每个人往往既是电信运营商的用户，同时又是某一银行的用户。因此，运营商与银行存在用户重叠。然而，同一用户在电信运营商和银行的用户行为是不相同的。所以二者被视作具有相同的数据样本，但特征不同，存在共享数据构建模型的基础。然而，双方又基于数据安全和用户隐私，不可能将用户信息向对方公开。成为共享数据构建机器学习模型的制约。

利用本发明的方法，其中的电信运营商作为主动参与方，银行作为被动参与方。通过纵向联邦学习(Vertical Federated Learning，VFL)结合同态密码技术实现，构建共同获益的学习模型。

具体实现方法包括训练获得学习模型的过程和利用模型进行预测的过程。

训练过程如图2所示，其中，首先运营商计算当前样本节点的损失函数的一阶梯度和二阶梯度，并将其加密后发送给银行；银行将当前节点样本空间中样本的特征进行分类，并以此为基础聚合加密梯度统计信息，再发送给运营商；运营商解密梯度信息，根据算法确定最优分割并将其发送给银行；银行根据最优分割来确定特征的阈值，并对当前样本空间进行划分，之后记录选中特征的阈值，形成记录，并将其返回给运营商；运营商根据记录对当前节点进行划分，将当前节点的划分信息与所有被动方同步，并对下一个节点进行分割。迭代进行上述步骤，直至达到训练停止条件。训练过程具体可分为以下步骤：

步骤1：由于运营方拥有样本的标签信息，因此，运营方首先计算g_i和h_i，i∈{1,2,…,N}(其中N为样本数量)，并利用加法同态加密对其进行加密。然后将加密后的g_i和h_i发给银行。

步骤2：银行首先要对其所有的特征进行分类，然后将每个特征的特征值映射至每个类中。具体过程为：遍历每个特征，循环执行：根据特征k的百分位数，获得S_k＝{s_k1,s_k2,…s_kl}，l表示第l条样本。然后循环执行：

基于分类后的特征值，银行将聚合相应的加密梯度统计信息。并将结果发给运营方。

步骤3：运营方解密银行聚合的梯度信息，遍历银行的每一个特征的所有阈值时，循环执行以下语句：

解密值D(G_k,v)和D(H_k,v)，(其中k表示第k个特征，v表示特征的阈值id)；

计算g_l←g_l+D(G_k,v)，h_l←h_l+D(H_k,v)，g_r←g-g_l，h_r←h-h_l，

其中，g_l表示由左子树上样本空间计算而来的一阶梯度，h_l表示由左子树上样本空间计算而来的二阶梯度，g_r表示由右子树上样本空间计算而来的一阶梯度，h_r表示由右子树上样本空间计算而来的二阶梯度，g←∑_i∈Ig_i，h←∑_i∈Ih_i，I为当前节点的样本空间。

当score最大时，为全局最优分割，并给银行返回特征id(k_opt),阈值id(v_opt)。

步骤4：银行根据运营商发送的k_opt和v_opt确定特征的阈值，并对当前的样本空间进行划分。之后，银行在查找表中记录选中特征的阈值，并形成记录[记录id，特征，阈值]，将记录id与I_L返回给运营方。

步骤5：运营方根据接收到的[记录id，I_L]对当前节点进行划分，将当前节点与记录id关联。运营方将当前节点的划分信息与银行同步，并对下一节点进行分割。

迭代进行步骤2-5，直到达到训练停止条件。

当完成当前树的构建时，可以通过以下公式计算每个叶节点的最佳权值，其中I_j是叶节点j的样本空间。然后根据需求继续构建其他决策树。

预测过程中，首先输入待预测样本，将样本特征与已经训练好的记录表进行匹配；然后将预测样本的实际特征值与匹配记录中的特征阈值作比较，如果小于特征阈值则将该样本划分到左样本空间中，反之则划分在右样本空间；最后反复迭代，直到执行到叶子节点，实现给样本打标签。运营商与银行两方联邦建模的预测过程具体包括以下步骤：

步骤1：运营商查询与当前节点项关联的记录信息(被动参与方(银行)的ID和记录的ID)，基于查到的记录信息，向银行发送带标注样本ID和记录ID，主动方询问下一步搜索方向

步骤2：银行将接收到的标注样本的特征值，与银行本地数据库中记录(记录中的属性：记录ID、特征值、阈值)的阈值进行比较，并确定搜索方向(子树中右节点搜索还是左节点搜索)

步骤3：运营商接收银行的搜索决定，前往相应的字节点

步骤4：循环步骤1-3，直到达到叶子节点，即可以确定分类预测结果以及其预测结果的权重值。

在此说明书中，本发明已参照其特定的实施例作了描述。但是，很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此，说明书和附图应被认为是说明性的而非限制性的。

Claims

1.一种基于联邦学习的隐私保护样本预测应用方法，其特征在于，该方法包括模型训练流程和画像预测流程，

所述模型训练流程包括：

所述画像预测流程包括：

通过多次迭代达到叶子节点获得预测结果。

2.根据权利要求1所述的基于联邦学习的隐私保护样本预测应用方法，其特征在于，所述的主动参与方计算当前节点的样本损失函数的梯度信息，并发送至所述被动参与方，具体为：

3.根据权利要求1所述的基于联邦学习的隐私保护样本预测应用方法，其特征在于，所述的被动参与方根据所述的梯度信息产生聚合梯度信息并反馈给主动参与方，具体为：

4.根据权利要求1所述的基于联邦学习的隐私保护样本预测应用方法，其特征在于，所述的主动参与方根据所述的聚合梯度信息对当前样本节点的样本空间进行划分，将当前节点样本空间划分同步给所述的被动参与方，具体包括：

5.根据权利要求1所述的基于联邦学习的隐私保护样本预测应用方法，其特征在于，所述的通过多次迭代完成训练形成决策树模型，具体为：

6.根据权利要求1所述的基于联邦学习的隐私保护样本预测应用方法，其特征在于，所述的主动参与方根据待预测样本的实际特征值查询所述决策树模型的关联节点，获取该关联节点的标注样本特征值，具体为：

7.根据权利要求1所述的基于联邦学习的隐私保护样本预测应用方法，其特征在于，所述的被动参与方根据所述的标注样本特征值确定与所述待预测样本关联的下一节点并反馈给所述的主动参与方，具体为：

8.一种基于联邦学习的隐私保护样本预测应用系统，其特征在于，该系统包括通过网络连接的主动参与方与至少一个被动参与方，所述的主动参与方和被动参与方通过网络交互实现模型训练流程和画像预测流程，

所述模型训练流程包括：

所述画像预测流程包括：

通过多次迭代达到叶子节点获得预测结果。