CN113656833A - 基于进化计算的在垂直联邦架构下的隐私窃取防御方法 - Google Patents

基于进化计算的在垂直联邦架构下的隐私窃取防御方法 Download PDF

Info

Publication number
CN113656833A
CN113656833A CN202110907875.XA CN202110907875A CN113656833A CN 113656833 A CN113656833 A CN 113656833A CN 202110907875 A CN202110907875 A CN 202110907875A CN 113656833 A CN113656833 A CN 113656833A
Authority
CN
China
Prior art keywords
encryption
population
individuals
privacy
embedding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110907875.XA
Other languages
English (en)
Inventor
陈晋音
杨迪烽
李荣昌
黄国瀚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110907875.XA priority Critical patent/CN113656833A/zh
Publication of CN113656833A publication Critical patent/CN113656833A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于进化计算的在垂直联邦架构下的隐私窃取防御方法,该方法构建了垂直于垂直联邦的深度学习框架,将用户节点和每个用户的交互信息转换成嵌入加密后上传至中央服务器,防止攻击者得到目标的隐私信息从而导致隐私的泄露。本发明基于进化算法的噪声优化迭代算法来对嵌入进行加密处理,在不断地学习训练的过程中利用反馈的实时信息去不断迭代优化噪声个体,最后达到比较完美的效果。与其他方法相比,本发明具有效率高、实用性强等特点。

Description

基于进化计算的在垂直联邦架构下的隐私窃取防御方法
技术领域
本发明属于面向垂直联邦学习的用户隐私保护领域,尤其涉及一种基于进化计算的在垂直联邦架构下的隐私窃取防御方法。
背景技术
近年来,在越来越多的领域中,人工智能(Artificial intelligence,AI)都取得了巨大成功,如人脸识别、智慧医疗、自然语言处理和语音识别等。然而,人工智能领域仍然存在两个主要的挑战:用户数据隐私泄露和数据量少且质量低的问题。首先,在绝大多数领域,利用大量数据去训练人工智能模型可能会造成数据的泄露,包括公众的身份信息和资金往来等。其次,大数据发展到现在,已经在许多行业形成了无形的壁垒。我们将这样的情况,即大量的数据被分开存放于几乎不能相互交流的实体中,称之为“数据孤岛”。这样的现状导致了一般情况下难以训练出预测精度较高的模型。
面对这样的复杂情况,联邦学习作为一种新的机器学习形式被提出并得到了快速发展。联邦学习的目标是利用散落在互联网各处的“数据孤岛”,在不造成隐私泄露的情况下训练机器学习模型,促进行业的发展。
联邦学习是一种机器学习的方式,它以隐私保护的方式将分散的数据集中起来,以学习深度模型。与基于集中式存储用户数据的大多数现有的机器学习方法不同,在联邦学习中,数据在参与者的设备上本地保存。每个参与者都维护一个本地模型,并根据存储在该用户设备上的数据计算本地模型更新。来自多个参与者的本地模型更新被上传到协调模型训练过程的中央服务器。这些更新被聚合到一个统一的更新中,以用于更新由该服务器维护的全局模型。更新之后的结果被分发到所有用户设备以更新本地模型。此过程反复执行,直到联邦模型收敛。由于模型更新通常包含的隐私信息要少得多,并且原始用户数据从未离开设备,因此可以有效地降低隐私泄露的风险。
此外,根据参与者所拥有的私人数据之间的差异部分不同,我们进一步可以将联邦学习分为水平联邦学习(Horizontal Federated Learning)和垂直联邦学习(VerticalFederated Learning)。本发明主要针对垂直联邦学习下的攻击场景的防御。虽然联邦学习框架是为了保护用户隐私才被提出的,但是足够聪明的攻击者仍旧有可能对该框架发起攻击去得到目标的隐私信息,从而导致隐私的泄露。本发明提出了一种在垂直联邦框架下的基于进化算法的用户隐私保护方法。该方法首先生成一组随机的隐私噪声个体,然后在不断地学习训练的过程中利用反馈的实时信息去不断迭代优化噪声个体,最后达到比较完美的效果。此外,为了使该方法的下限具有一定的使用价值,我们随机生成所采用的方法是业界较为成熟和普遍使用的差分隐私方法。
联邦学习是为了保护参与联合深度学习的参与者的用户隐私而被提出的。参与者在训练过程中只会向其他人传递最低限度的必要信息。在这样的训练方式下,用户隐私已经得到了一定程度的保护。但是,由于部分信息仍旧被传递出去,足够聪明的攻击者可以凭借这一部分知识去推断出参与者的隐私信息,因此存在着数据泄露和对抗安全威胁的问题。在其他的方法中,研究者试图在模型和加密方式上进行优化,但是前者无法取得好的效果,而后者往往会导致计算成本的上升。为此,本发明提出了对于主任务准确性和隐私保护能力具有平衡性的方案。
发明内容
本发明的目的在于针对现有技术的不足,提出了一种基于进化计算的在垂直联邦架构下的隐私窃取防御方法,以保护参与者的用户隐私。
本发明的目的是通过以下技术方案来实现的:
一种基于进化计算的在垂直联邦架构下的隐私窃取防御方法,包括以下步骤:
步骤一:构建基于垂直联邦的深度学习框架,该框架由m个参与者和一个中央服务器组成;
步骤二:每个参与者构建一个本地训练子图Gi(1≦i≦m),从其本地训练子图Gi学习用户交互信息并提取特征矩阵,构建本地深度学习模型Mi,即参与者将自身所掌握的用户节点[u1,u2,...,um]和每个用户的交互信息[yi,1,yi,2,...,yi,m]转换成它们的嵌入Ei
步骤三:所有的嵌入Ei经过加密器加密后上传到中央服务器进行聚合;
步骤四:中央服务器中的聚合器将来自参与者的嵌入聚合成一个统一的嵌入Es,Es=E1οE2...οEiο...Em,其中ο代表拼接操作;
步骤五:将聚合后的嵌入Es送到中央服务器的深度学习模型M0进行学习,得到全局的预测结果Li epoch和损失lossi epoch,并将这些预测结果Li epoch和损失lossi epoch将发送给每个参与者进行本地参数更新;
步骤六:将参与者的本地深度学习模型Mi的损失记为lossi u,由lossi u=lossi epoch来进行更新;
步骤七:重复步骤二至步骤六,直到全局模型收敛,即在中央服务器端的本地深度学习模型M0上,模型的预测准确度达到设定要求。
进一步地,所述步骤三通过基于进化算法的噪声优化迭代算法来对嵌入进行加密处理,通过以下子步骤来具体实现:
(3.1)将来自参与者的嵌入Ei作为加密对象,对该加密对象选择最优算法进行加密,首先判断是否是第一次加密,若是,则先对嵌入Ei进行种群初始化,再进行步骤(3.2),若否,则直接进行步骤(3.2)
(3.2)按照经典差分隐私公式,通过预先设置的参数生成随机噪声加入种群Ei,选择种群Ei内的个体,针对这些个体,去获取它们的适应度分数并保存;
(3.3):若对种群Ei的打分操作结束,则进行步骤(3.4),若种群Ei的打分操作没有结束,则重复步骤(3.2)的操作;
(3.4):在获得分数之后,经过计算,参与者将选出最优的噪声个体zi,并将zi添加至所需加密的嵌入Ei,即Ei=Ei+zi
(3.5):对已添加噪声zi后的种群进行自然选择,淘汰不适应的个体,对剩余的个体,将随机选某两个进行交叉配对,产生新的个体,交叉配对将持续到新的个体补充满原种群数量为止;
(3.6):在交叉配对过程中,每个个体都将获得一次随机变异的机会,有一点的概率会让其部分基因发生变化;
(3.7):判断(3.4)得到的加密后的嵌入Ei是否加密成功,若是,则将得到的Ei上传至服务器,若否,则将Ei重复步骤(3.2)至步骤(3.6)的操作直至加密成功。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1为本发明方法的示意图。
图2为基于进化算法的噪声优化迭代算法对嵌入加密流程图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
如图1所示,一种基于进化计算的在垂直联邦架构下的隐私窃取防御方法,包括以下步骤:
步骤一:构建基于垂直联邦的深度学习框架,该框架由m个参与者和一个中央服务器组成;
步骤二:每个参与者构建一个本地训练子图Gi(1≤i≤m),从其本地训练子图Gi学习用户交互信息并提取特征矩阵,构建本地深度学习模型Mi,本地深度学习模型将用户节点[u1,u2,...,um]和每个用户的交互信息[yi,1,yi,2,...,yi,m]转换成它们的嵌入Ei
本地训练子图Gi是指m个参与者中第i个参与者构建的本地训练子图,其中1≤i≤m;
每个参与者的本地训练子图Gi均由参与者与参与者之间的部分交互数据所构成。在垂直联邦学习中,每个参与者都知道其余所有参与者的用户信息,包括ID和用户属性等,而其余参与者的用户交互数据是部分未知的。
对于中央服务器,在我们的方案中仅仅包含一个简单的深度学习模型,以达到最低的要求。实际应用中可以采用更复杂的方案,以达到更多的目的。
步骤三:所有的嵌入Ei经过加密器加密后上传到服务器进行聚合;
如图2所示,该步骤是本发明的核心,通过基于进化算法的噪声优化迭代算法来对嵌入Ei进行加密处理,通过以下子步骤来具体实现:
1)将来自参与者的嵌入Ei作为加密对象,对该加密对象选择最优算法进行加密,首先判断是否是第一次加密,若是,则先对嵌入Ei进行种群初始化,再进行步骤(2),若否,则直接进行步骤(2);
2)按照经典差分隐私公式,通过预先设置的参数生成随机噪声加入种群Ei,选择种群Ei内的个体,针对这些个体,去获取它们的适应度分数并保存;
在进化算法选择最优个体时,参与者首先初始化种群个体Ei,然后分别针对这些个体,去获得它们的适应度分数。本发明在优化时总共采取了两种指标,分别为噪声所导致的对手攻击难度以及加上噪声后的参与者主任务训练集准确率。前者为本发明所需要解决的主要目的,后者为次要目的,因此在优化时,前者的重要性更高。具体的打分方式,本方案采用正则化后的加权计分方案,即score=p·MSE+q·ACC,其中第一项为攻击难度,第二项为准确率。
3):若对种群Ei的打分操作结束,则进行步骤(4),若种群Ei的打分操作没有结束,则重复步骤(2)的操作;
4):在获得分数之后,经过计算,参与者将选出最优的噪声个体zi,并将zi添加至初始种群Ei,即Ei=Ei+zi
5):对已添加噪声zi后的种群进行自然选择,淘汰不适应的个体,对剩余的个体,将随机选某两个进行交叉配对,产生新的个体,交叉配对将持续到新的个体补充满原种群数量为止;
6):在交叉配对过程中,每个个体都将获得一次随机变异的机会,有一点的概率会让其部分基因发生变化。以上5)、6)两个步骤将模拟自然选择过程对种群进行进化,以在后续的加密过程中可以选择更好的加密个体。
7):判断(4)得到的加密后的种群Ei是否加密成功,若是,则将得到的Ei上传至服务器,若否,则将Ei重复步骤(2)至步骤的操作(6)直至加密成功。
步骤四:中央服务器中的聚合器将来自参与者的嵌入聚合成一个统一的嵌入Es,即Es=E1οE2...οEiο...Em,其中ο代表拼接操作;
步骤五:将聚合后的嵌入Es送到中央服务器的深度学习模型M0进行学习,得到全局的预测结果Li epoch和损失lossi epoch,并将这些预测结果Li epoch和损失lossi epoch将发送给每个参与者进行本地参数更新;
步骤六:将参与者的本地深度学习模型Mi的损失记为lossi u,由lossi u=lossi epoch来进行更新;
步骤七:重复步骤二至步骤六,到全局模型收敛,即在中央服务器端的本地深度学习模型M0上,模型的预测准确度达到设定要求。
所述中央服务器M0的目的是协调所有参与者并计算全局损失,以更新中央服务器的深度学习模型。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (2)

1.一种基于进化计算的在垂直联邦架构下的隐私窃取防御方法,其特征在于,包括以下步骤:
步骤一:构建基于垂直联邦的深度学习框架,该框架由m个参与者和一个中央服务器组成;
步骤二:每个参与者构建一个本地训练子图Gi(1≦i≦m),从其本地训练子图Gi学习用户交互信息并提取特征矩阵,构建本地深度学习模型Mi,即参与者将自身所掌握的用户节点[u1,u2,...,um]和每个用户的交互信息[yi,1,yi,2,...,yi,m]通过本地模型转换成它们的嵌入表示Ei
步骤三:所有的嵌入Ei经过加密器加密后上传到中央服务器进行聚合;
步骤四:中央服务器中的聚合器将来自参与者的嵌入聚合成一个统一的嵌入Es,即
Figure FDA0003202505520000011
其中
Figure FDA0003202505520000012
代表拼接操作;
步骤五:将聚合后的嵌入Es送到中央服务器的深度学习模型M0进行学习,得到全局的预测结果Li epoch和损失lossi epoch,并将这些预测结果Li epoch和损失lossi epoch将发送给每个参与者进行本地参数更新;
步骤六:将参与者的本地深度学习模型Mi的损失记为lossi u,由lossi u=lossi epoch来进行更新;
步骤七:重复步骤二至步骤六,直到全局模型收敛,即在中央服务器端的本地深度学习模型M0上,模型的预测准确度达到设定要求。
2.根据权利要求1所述的一种基于进化计算的在垂直联邦架构下的隐私窃取防御方法,其特征在于,所述步骤三通过基于进化算法的噪声优化迭代算法来对嵌入进行加密处理,通过以下子步骤来具体实现:
(3.1)将来自参与者的嵌入Ei作为加密对象,对该加密对象选择最优算法进行加密,首先判断是否是第一次加密,若是,则先对嵌入Ei进行种群初始化,再进行步骤(3.2),若否,则直接进行步骤(3.2);
(3.2)按照经典差分隐私公式,通过预先设置的参数生成随机噪声加入种群Ei,选择种群Ei内的个体,针对这些个体,去获取它们的适应度分数并保存;
(3.3):若对种群Ei的打分操作结束,则进行步骤(3.4),若种群Ei的打分操作没有结束,则重复步骤(3.2)的操作;
(3.4):在获得分数之后,经过计算,参与者将选出最优的噪声个体zi,并将zi添加至所需加密的嵌入Ei,即Ei=Ei+zi
(3.5):对已添加噪声zi后的种群进行自然选择,淘汰不适应的个体,对剩余的个体,将随机选某两个进行交叉配对,产生新的个体,交叉配对将持续到新的个体补充满原种群数量为止;
(3.6):在交叉配对过程中,每个个体都将获得一次随机变异的机会,有一点的概率会让其部分基因发生变化;
(3.7):判断(3.4)得到的加密后的嵌入Ei是否加密成功,若是,则将得到的Ei上传至服务器,若否,则将Ei重复步骤(3.2)至步骤(3.6)的操作直至加密成功。
CN202110907875.XA 2021-08-09 2021-08-09 基于进化计算的在垂直联邦架构下的隐私窃取防御方法 Pending CN113656833A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110907875.XA CN113656833A (zh) 2021-08-09 2021-08-09 基于进化计算的在垂直联邦架构下的隐私窃取防御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110907875.XA CN113656833A (zh) 2021-08-09 2021-08-09 基于进化计算的在垂直联邦架构下的隐私窃取防御方法

Publications (1)

Publication Number Publication Date
CN113656833A true CN113656833A (zh) 2021-11-16

Family

ID=78490527

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110907875.XA Pending CN113656833A (zh) 2021-08-09 2021-08-09 基于进化计算的在垂直联邦架构下的隐私窃取防御方法

Country Status (1)

Country Link
CN (1) CN113656833A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114912146A (zh) * 2022-05-25 2022-08-16 中国信息通信研究院 一种垂直联邦架构下的数据信息防御方法、系统、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105335924A (zh) * 2015-11-18 2016-02-17 曲阜师范大学 基于差分进化的小波域彩色图像水印加密算法
CN109684855A (zh) * 2018-12-17 2019-04-26 电子科技大学 一种基于隐私保护技术的联合深度学习训练方法
CN112329947A (zh) * 2020-10-28 2021-02-05 广州中国科学院软件应用技术研究所 一种基于差分进化的联邦学习激励方法和系统
CN112668726A (zh) * 2020-12-25 2021-04-16 中山大学 一种高效通信且保护隐私的个性化联邦学习方法
CN112686385A (zh) * 2021-01-07 2021-04-20 中国人民解放军国防科技大学 面向多站点三维影像的联邦深度学习方法及系统
CN112862057A (zh) * 2021-04-07 2021-05-28 京东数字科技控股股份有限公司 一种建模方法、装置、电子设备和可读介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105335924A (zh) * 2015-11-18 2016-02-17 曲阜师范大学 基于差分进化的小波域彩色图像水印加密算法
CN109684855A (zh) * 2018-12-17 2019-04-26 电子科技大学 一种基于隐私保护技术的联合深度学习训练方法
CN112329947A (zh) * 2020-10-28 2021-02-05 广州中国科学院软件应用技术研究所 一种基于差分进化的联邦学习激励方法和系统
CN112668726A (zh) * 2020-12-25 2021-04-16 中山大学 一种高效通信且保护隐私的个性化联邦学习方法
CN112686385A (zh) * 2021-01-07 2021-04-20 中国人民解放军国防科技大学 面向多站点三维影像的联邦深度学习方法及系统
CN112862057A (zh) * 2021-04-07 2021-05-28 京东数字科技控股股份有限公司 一种建模方法、装置、电子设备和可读介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114912146A (zh) * 2022-05-25 2022-08-16 中国信息通信研究院 一种垂直联邦架构下的数据信息防御方法、系统、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN112101579B (zh) 基于联邦学习的机器学习方法、电子装置和存储介质
CN109639710B (zh) 一种基于对抗训练的网络攻击防御方法
CN106104406B (zh) 神经网络及神经网络训练的方法
US20230109352A1 (en) Node group-based data processing method and system, device, and medium
CN110889434B (zh) 一种基于活动的社交网络活动特征提取方法
CN112668044B (zh) 面向联邦学习的隐私保护方法及装置
CN113505855B (zh) 一种对抗攻击模型的训练方法
Ueno et al. Computerized adaptive testing based on decision tree
TW201933050A (zh) 確定瞳孔位置的方法和裝置
CN112700326A (zh) 一种基于灰狼算法优化bp神经网络的信贷违约预测方法
Yang et al. Gradient leakage attacks in federated learning: Research frontiers, taxonomy and future directions
CN113656833A (zh) 基于进化计算的在垂直联邦架构下的隐私窃取防御方法
CN116187469A (zh) 一种基于联邦蒸馏学习框架的客户端成员推理攻击方法
CN114780879A (zh) 一种用于知识超图的可解释性链接预测方法
CN108683534B (zh) 一种面向社区发现的网络薄弱节点搜索方法
CN114639174A (zh) 联邦协作下的隐私型深度伪造检测方法
CN116186629B (zh) 基于个性化联邦学习的金融客户分类及预测方法、装置
CN116957106A (zh) 一种基于动态注意力机制的联邦学习模型训练方法
CN115131605A (zh) 一种基于自适应子图的结构感知图对比学习方法
CN116192424A (zh) 一种在联邦学习场景下针对全局数据分布进行攻击的方法
CN115470520A (zh) 一种在垂直联邦框架下的差分隐私及去噪的数据保护方法
CN113255883A (zh) 一种基于幂律分布的权重初始化方法
Sirisin et al. A new technique Gray scale display of input data using shooting SOM and genetic algorithm
CN117973507B (zh) 一种基于数据增强与隐私增强的组联邦元学习方法
CN117994635B (zh) 一种噪声鲁棒性增强的联邦元学习图像识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination