CN113656833A

CN113656833A - 基于进化计算的在垂直联邦架构下的隐私窃取防御方法

Info

Publication number: CN113656833A
Application number: CN202110907875.XA
Authority: CN
Inventors: 陈晋音; 杨迪烽; 李荣昌; 黄国瀚
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-08-09
Filing date: 2021-08-09
Publication date: 2021-11-16

Abstract

本发明公开了一种基于进化计算的在垂直联邦架构下的隐私窃取防御方法，该方法构建了垂直于垂直联邦的深度学习框架，将用户节点和每个用户的交互信息转换成嵌入加密后上传至中央服务器，防止攻击者得到目标的隐私信息从而导致隐私的泄露。本发明基于进化算法的噪声优化迭代算法来对嵌入进行加密处理，在不断地学习训练的过程中利用反馈的实时信息去不断迭代优化噪声个体，最后达到比较完美的效果。与其他方法相比，本发明具有效率高、实用性强等特点。

Description

基于进化计算的在垂直联邦架构下的隐私窃取防御方法

技术领域

本发明属于面向垂直联邦学习的用户隐私保护领域，尤其涉及一种基于进化计算的在垂直联邦架构下的隐私窃取防御方法。

背景技术

近年来，在越来越多的领域中，人工智能(Artificial intelligence,AI)都取得了巨大成功，如人脸识别、智慧医疗、自然语言处理和语音识别等。然而，人工智能领域仍然存在两个主要的挑战：用户数据隐私泄露和数据量少且质量低的问题。首先，在绝大多数领域，利用大量数据去训练人工智能模型可能会造成数据的泄露，包括公众的身份信息和资金往来等。其次，大数据发展到现在，已经在许多行业形成了无形的壁垒。我们将这样的情况，即大量的数据被分开存放于几乎不能相互交流的实体中，称之为“数据孤岛”。这样的现状导致了一般情况下难以训练出预测精度较高的模型。

面对这样的复杂情况，联邦学习作为一种新的机器学习形式被提出并得到了快速发展。联邦学习的目标是利用散落在互联网各处的“数据孤岛”，在不造成隐私泄露的情况下训练机器学习模型，促进行业的发展。

联邦学习是一种机器学习的方式，它以隐私保护的方式将分散的数据集中起来，以学习深度模型。与基于集中式存储用户数据的大多数现有的机器学习方法不同，在联邦学习中，数据在参与者的设备上本地保存。每个参与者都维护一个本地模型，并根据存储在该用户设备上的数据计算本地模型更新。来自多个参与者的本地模型更新被上传到协调模型训练过程的中央服务器。这些更新被聚合到一个统一的更新中，以用于更新由该服务器维护的全局模型。更新之后的结果被分发到所有用户设备以更新本地模型。此过程反复执行，直到联邦模型收敛。由于模型更新通常包含的隐私信息要少得多，并且原始用户数据从未离开设备，因此可以有效地降低隐私泄露的风险。

此外，根据参与者所拥有的私人数据之间的差异部分不同，我们进一步可以将联邦学习分为水平联邦学习(Horizontal Federated Learning)和垂直联邦学习(VerticalFederated Learning)。本发明主要针对垂直联邦学习下的攻击场景的防御。虽然联邦学习框架是为了保护用户隐私才被提出的，但是足够聪明的攻击者仍旧有可能对该框架发起攻击去得到目标的隐私信息，从而导致隐私的泄露。本发明提出了一种在垂直联邦框架下的基于进化算法的用户隐私保护方法。该方法首先生成一组随机的隐私噪声个体，然后在不断地学习训练的过程中利用反馈的实时信息去不断迭代优化噪声个体，最后达到比较完美的效果。此外，为了使该方法的下限具有一定的使用价值，我们随机生成所采用的方法是业界较为成熟和普遍使用的差分隐私方法。

联邦学习是为了保护参与联合深度学习的参与者的用户隐私而被提出的。参与者在训练过程中只会向其他人传递最低限度的必要信息。在这样的训练方式下，用户隐私已经得到了一定程度的保护。但是，由于部分信息仍旧被传递出去，足够聪明的攻击者可以凭借这一部分知识去推断出参与者的隐私信息，因此存在着数据泄露和对抗安全威胁的问题。在其他的方法中，研究者试图在模型和加密方式上进行优化，但是前者无法取得好的效果，而后者往往会导致计算成本的上升。为此，本发明提出了对于主任务准确性和隐私保护能力具有平衡性的方案。

发明内容

本发明的目的在于针对现有技术的不足，提出了一种基于进化计算的在垂直联邦架构下的隐私窃取防御方法，以保护参与者的用户隐私。

本发明的目的是通过以下技术方案来实现的：

一种基于进化计算的在垂直联邦架构下的隐私窃取防御方法，包括以下步骤：

步骤一：构建基于垂直联邦的深度学习框架，该框架由m个参与者和一个中央服务器组成；

步骤二：每个参与者构建一个本地训练子图G_i(1≦i≦m)，从其本地训练子图G_i学习用户交互信息并提取特征矩阵，构建本地深度学习模型M_i，即参与者将自身所掌握的用户节点[u₁,u₂,...,u_m]和每个用户的交互信息[y_i,1,y_i,2,...,y_i,m]转换成它们的嵌入E_i；

步骤三：所有的嵌入E_i经过加密器加密后上传到中央服务器进行聚合；

步骤四：中央服务器中的聚合器将来自参与者的嵌入聚合成一个统一的嵌入E_s，Es＝E₁οE₂...οE_iο...E_m，其中ο代表拼接操作；

步骤五：将聚合后的嵌入E_s送到中央服务器的深度学习模型M₀进行学习，得到全局的预测结果L_i ^epoch和损失loss_i ^epoch，并将这些预测结果L_i ^epoch和损失loss_i ^epoch将发送给每个参与者进行本地参数更新；

步骤六：将参与者的本地深度学习模型M_i的损失记为loss_i ^u，由loss_i ^u＝loss_i ^epoch来进行更新；

步骤七：重复步骤二至步骤六，直到全局模型收敛，即在中央服务器端的本地深度学习模型M₀上，模型的预测准确度达到设定要求。

进一步地，所述步骤三通过基于进化算法的噪声优化迭代算法来对嵌入进行加密处理，通过以下子步骤来具体实现：

(3.1)将来自参与者的嵌入E_i作为加密对象，对该加密对象选择最优算法进行加密，首先判断是否是第一次加密，若是，则先对嵌入E_i进行种群初始化，再进行步骤(3.2)，若否，则直接进行步骤(3.2)

(3.2)按照经典差分隐私公式，通过预先设置的参数生成随机噪声加入种群E_i，选择种群E_i内的个体，针对这些个体，去获取它们的适应度分数并保存；

(3.3)：若对种群E_i的打分操作结束，则进行步骤(3.4)，若种群E_i的打分操作没有结束，则重复步骤(3.2)的操作；

(3.4)：在获得分数之后，经过计算，参与者将选出最优的噪声个体z_i，并将z_i添加至所需加密的嵌入E_i，即E_i＝E_i+z_i；

(3.5)：对已添加噪声z_i后的种群进行自然选择，淘汰不适应的个体，对剩余的个体，将随机选某两个进行交叉配对，产生新的个体，交叉配对将持续到新的个体补充满原种群数量为止；

(3.6)：在交叉配对过程中，每个个体都将获得一次随机变异的机会，有一点的概率会让其部分基因发生变化；

(3.7)：判断(3.4)得到的加密后的嵌入E_i是否加密成功，若是，则将得到的E_i上传至服务器，若否，则将E_i重复步骤(3.2)至步骤(3.6)的操作直至加密成功。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1为本发明方法的示意图。

图2为基于进化算法的噪声优化迭代算法对嵌入加密流程图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

如图1所示，一种基于进化计算的在垂直联邦架构下的隐私窃取防御方法，包括以下步骤：

步骤二：每个参与者构建一个本地训练子图G_i(1≤i≤m)，从其本地训练子图G_i学习用户交互信息并提取特征矩阵，构建本地深度学习模型M_i，本地深度学习模型将用户节点[u₁,u₂,...,u_m]和每个用户的交互信息[y_i,1,y_i,2,...,y_i,m]转换成它们的嵌入E_i；

本地训练子图G_i是指m个参与者中第i个参与者构建的本地训练子图，其中1≤i≤m；

每个参与者的本地训练子图G_i均由参与者与参与者之间的部分交互数据所构成。在垂直联邦学习中，每个参与者都知道其余所有参与者的用户信息，包括ID和用户属性等，而其余参与者的用户交互数据是部分未知的。

对于中央服务器，在我们的方案中仅仅包含一个简单的深度学习模型，以达到最低的要求。实际应用中可以采用更复杂的方案，以达到更多的目的。

步骤三：所有的嵌入E_i经过加密器加密后上传到服务器进行聚合；

如图2所示，该步骤是本发明的核心，通过基于进化算法的噪声优化迭代算法来对嵌入E_i进行加密处理，通过以下子步骤来具体实现：

1)将来自参与者的嵌入E_i作为加密对象，对该加密对象选择最优算法进行加密，首先判断是否是第一次加密，若是，则先对嵌入E_i进行种群初始化，再进行步骤(2)，若否，则直接进行步骤(2)；

2)按照经典差分隐私公式，通过预先设置的参数生成随机噪声加入种群E_i，选择种群E_i内的个体，针对这些个体，去获取它们的适应度分数并保存；

在进化算法选择最优个体时，参与者首先初始化种群个体E_i，然后分别针对这些个体，去获得它们的适应度分数。本发明在优化时总共采取了两种指标，分别为噪声所导致的对手攻击难度以及加上噪声后的参与者主任务训练集准确率。前者为本发明所需要解决的主要目的，后者为次要目的，因此在优化时，前者的重要性更高。具体的打分方式，本方案采用正则化后的加权计分方案，即score＝p·MSE+q·ACC，其中第一项为攻击难度，第二项为准确率。

3)：若对种群E_i的打分操作结束，则进行步骤(4)，若种群E_i的打分操作没有结束，则重复步骤(2)的操作；

4)：在获得分数之后，经过计算，参与者将选出最优的噪声个体z_i，并将z_i添加至初始种群E_i，即E_i＝E_i+z_i；

5)：对已添加噪声z_i后的种群进行自然选择，淘汰不适应的个体，对剩余的个体，将随机选某两个进行交叉配对，产生新的个体，交叉配对将持续到新的个体补充满原种群数量为止；

6)：在交叉配对过程中，每个个体都将获得一次随机变异的机会，有一点的概率会让其部分基因发生变化。以上5)、6)两个步骤将模拟自然选择过程对种群进行进化，以在后续的加密过程中可以选择更好的加密个体。

7)：判断(4)得到的加密后的种群E_i是否加密成功，若是，则将得到的E_i上传至服务器，若否，则将E_i重复步骤(2)至步骤的操作(6)直至加密成功。

步骤四：中央服务器中的聚合器将来自参与者的嵌入聚合成一个统一的嵌入E_s，即Es＝E₁οE₂...οE_iο...E_m，其中ο代表拼接操作；

步骤七：重复步骤二至步骤六，到全局模型收敛，即在中央服务器端的本地深度学习模型M₀上，模型的预测准确度达到设定要求。

所述中央服务器M₀的目的是协调所有参与者并计算全局损失，以更新中央服务器的深度学习模型。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.一种基于进化计算的在垂直联邦架构下的隐私窃取防御方法，其特征在于,包括以下步骤：

步骤二：每个参与者构建一个本地训练子图G_i(1≦i≦m)，从其本地训练子图G_i学习用户交互信息并提取特征矩阵，构建本地深度学习模型M_i，即参与者将自身所掌握的用户节点[u₁,u₂,...,u_m]和每个用户的交互信息[y_i,1,y_i,2,...,y_i,m]通过本地模型转换成它们的嵌入表示E_i；

步骤四：中央服务器中的聚合器将来自参与者的嵌入聚合成一个统一的嵌入E_s，即

其中

代表拼接操作；

2.根据权利要求1所述的一种基于进化计算的在垂直联邦架构下的隐私窃取防御方法，其特征在于，所述步骤三通过基于进化算法的噪声优化迭代算法来对嵌入进行加密处理，通过以下子步骤来具体实现：

(3.1)将来自参与者的嵌入E_i作为加密对象，对该加密对象选择最优算法进行加密，首先判断是否是第一次加密，若是，则先对嵌入E_i进行种群初始化，再进行步骤(3.2)，若否，则直接进行步骤(3.2)；