CN115470520A - 一种在垂直联邦框架下的差分隐私及去噪的数据保护方法 - Google Patents
一种在垂直联邦框架下的差分隐私及去噪的数据保护方法 Download PDFInfo
- Publication number
- CN115470520A CN115470520A CN202211226643.9A CN202211226643A CN115470520A CN 115470520 A CN115470520 A CN 115470520A CN 202211226643 A CN202211226643 A CN 202211226643A CN 115470520 A CN115470520 A CN 115470520A
- Authority
- CN
- China
- Prior art keywords
- server
- local
- differential privacy
- embedding
- denoising
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Computer And Data Communications (AREA)
Abstract
本发明公开了一种在垂直联邦框架下的差分隐私及去噪的数据保护方法,通过搭建基于垂直联邦的深度学习框架;设置本地差分隐私预算,将本地差分隐私预算分发给每个本地服务器,每个本地服务器得到本地差分隐私预算后对自身所拥有的数据进行扰动,训练本地服务器,得到初始嵌入向量;将每个本地服务器得到的本地差分隐私嵌入向量和初始嵌入向量上传至中央服务器;服务器拼接每个参与者得到的本地差分隐私嵌入和初始嵌入得到服务器差分隐私嵌入和服务器初始嵌入;将服务器差分隐私嵌入输入去噪层中,基于服务器初始嵌入优化去噪层,得到去噪嵌入;将去噪嵌入输入服务器模型中进行训练,得到预测结果,基于预测结果计算精确度,直至精确度收敛。
Description
技术领域
本发明属于面向垂直联邦学习的用户隐私保护领域,尤其涉及一种在垂直联邦框架下的 差分隐私及去噪的数据保护方法。
背景技术
近年来,在越来越多的领域中,人工智能(Artificial intelligence,AI)都取得了巨大成功, 如人脸识别、智慧医疗、自然语言处理和语音识别等。然而,人工智能领域仍然存在两个主 要的挑战:用户数据隐私泄露和数据量少且质量低的问题。首先,在绝大多数领域,利用大 量数据去训练人工智能模型可能会造成数据的泄露,包括公众的身份信息和资金往来等。其 次,大数据发展到现在,已经在许多行业形成了无形的壁垒。我们将这样的情况,即大量的 数据被分开存放于几乎不能相互交流的实体中,称之为“数据孤岛”。这样的现状导致了一般 情况下难以训练出预测精度较高的模型。
面对这样的复杂情况,联邦学习作为一种新的机器学习形式被提出并得到了快速发展。 联邦学习的目标是利用散落在互联网各处的“数据孤岛”,在不造成隐私泄露的情况下训练机 器学习模型,促进行业的发展。
联邦学习是一种机器学习的方式,它以隐私保护的方式将分散的数据集中起来,以学习 深度模型。与基于集中式存储用户数据的大多数现有的机器学习方法不同,在联邦学习中, 数据在参与者的设备上本地保存。每个参与者都维护一个本地模型,并根据存储在该用户设 备上的数据计算本地模型更新。来自多个参与者的本地模型更新被上传到协调模型训练过程 的中央服务器。这些更新被聚合到一个统一的更新中,以用于更新由该服务器维护的全局模 型。更新之后的结果被分发到所有用户设备以更新本地模型。此过程反复执行,直到联邦模 型收敛。由于模型更新通常包含的隐私信息要少得多,并且原始用户数据从未离开设备,因 此可以有效地降低隐私泄露的风险。
此外,根据参与者所拥有的私人数据之间的差异部分不同,我们进一步可以将联邦学习 分为水平联邦学习(Horizontal Federated Learning)和垂直联邦学习(VerticalFederated Learning)。 本发明主要针对垂直联邦学习下的攻击场景的防御。虽然联邦学习框架是为了保护用户隐私 才被提出的,但是足够聪明的攻击者仍旧有可能对该框架发起攻击去得到目标的隐私信息, 从而导致隐私的泄露。
发明内容
联邦学习是为了保护参与联合深度学习的参与者的用户隐私而被提出的。参与者在训练 过程中只会向其他人传递最低限度的必要信息。在这样的训练方式下,用户隐私已经得到了 一定程度的保护。但是,由于部分信息仍旧被传递出去,足够聪明的攻击者可以凭借这一部 分知识去推断出参与者的隐私信息,因此存在着数据泄露和对抗安全威胁的问题。基于此种 情况,本发明提出了一种在垂直联邦框架下的基于本地差分隐私的用户隐私保护方法,以保 护参与者的用户隐私。
本发明的技术方案如下:本发明实施例的第一方面提供了一种在垂直联邦框架下的差分 隐私及去噪的数据保护方法,所述方法包括以下步骤:
S1,搭建基于垂直联邦的深度学习框架,基于垂直联邦的深度学习框架由干本地服务器 和一个中央服务器组成;将网络数据集作为原始数据集;
S2,设置本地差分隐私预算,将本地差分隐私预算分发给每一个本地服务器,每一个本 地服务器得到本地差分隐私预算后对自身所拥有的数据进行扰动,利用网络数据集训练本地 服务器,得到初始嵌入向量;将每个本地服务器得到的本地差分隐私嵌入向量和初始嵌入向 量上传至中央服务器;
S3,中央服务器拼接每个参与者得到的本地差分隐私嵌入和初始嵌入得到服务器差分隐 私嵌入和服务器初始嵌入;将服务器差分隐私嵌入输入去噪层中,基于服务器初始嵌入优化 去噪层,得到去噪嵌入;将去噪嵌入输入服务器模型中进行训练,得到预测结果,基于预测 结果计算精确度,重复上述步骤,直至精确度收敛。
本发明实施例的第二方面提供了一种电子设备,包括存储器和处理器,所述存储器与所 述处理器耦接;其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以 实现上述的基于梯度的链路预测的后门攻击防御方法。
本发明实施例的第三方面提供了一种计算机可读存储介质,其上存储有计算机程序所述 程序被处理器执行时实现如上述的基于梯度的链路预测的后门攻击防御方法。
本发明的技术构思为:在参与者与服务器进行通信交流的过程中,双方都要进行数据的 交换。假如服务器是恶意的一方,那么它将完全获得参与者的所有上传信息,并以此推断参 与者的本地私有数据。本发明所针对的就是恶意的服务器试图利用自己所掌握的所有公开信 息去攻击得到本地参与方的私有数据。基于这样的情况,本发明将向参与者的私有数据集 DATA中进行符合差分隐私规定的扰动,使得恶意的服务器的攻击只能去获得掩盖后的数据 集DATA',以获得不错的隐私保护效果。
本发明的有益效果主要表现在:1)利用差分隐私机制来保护联邦学习过程中参与者本地 的私有数据信息;2)对私有数据信息进行加密以防止恶意的攻击者(服务器)窃取目标的隐 私数据;3)在本地嵌入向量输入至中央服务器之前先通过去噪层,利用去噪层去除服务器所 接收到的信息中的噪声,以在主任务性能和隐私保护性能之间取得一个较为优良的平衡点, 既保证了联邦学习的任务准确率,又使的攻击者窃取到隐私信息的可能性降低。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术 描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一 些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附 图获得其他附图。
图1为本发明方法的流程示意图。
图2为本发明提供的一种电子设备的示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图对本发明进行进一步 的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明 的保护范围。
本发明提出了一种在垂直联邦框架下的基于本地差分隐私的用户隐私保护方法。该方法 首先在联邦学习的预先对齐阶段对每一个参与者的私有数据进行扰动,以掩盖这些参与者的 私有数据。然后,当进行垂直联邦学习时,参与方在进行本地模型训练时所用的数据均为扰 动后的数据。随后,本地模型的输出被上传到服务器,组合后送入服务器模型中训练。需要 注意的是,服务器模型加入了一个针对前述扰动的去噪层。
参照图1,本发明提出了一种面向垂直联邦学习的基于本地差分隐私的用户隐私保护方 法,步骤如下:
S1搭建基于垂直联邦的深度学习框架,基于垂直联邦的深度学习框架由干本地服务器和 一个中央服务器组成;将网络数据集作为原始数据集;具体包括以下子步骤:
S1.1搭建基于垂直联邦的深度学习框架
所述基于垂直联邦的深度学习框架的结构由两大部分组成,即若干本地服务器和一个中 央服务器。本地服务器保存一个本地子图,所述本地子图由用户之间的部分交互历史组成。 每个本地服务器从其本地子图学习用户交互嵌入和深度学习模型,并将嵌入上传到中央服务 器。中央服务器负责聚合从多个本地服务器接收的嵌入向量,并将聚合的嵌入向量输入自己 的中央服务器中,得到全局的预测结果和损失,之后通过将预测结果和损失返回给每个本地 服务器来得到参与者本地的损失,本地服务器以此来进行更新。
每个本地服务器上的本地子图均由用户与用户之间的部分交互数据所构成。注意,在垂 直联邦学习中,每个参与者都知道所有的用户信息,包括ID和用户属性等,而用户间的交互 数据是部分未知的。
S1.2数据预处理
本发明实施例中将网络数据集作为原始数据集,所述网络数据集包括CORA数据集和 CITESEER数据集。并按自定义将原始数据集划分为训练集和测试集。
所述Cora数据集由机器学习论文组成,是近年来图深度学习很喜欢使用的数据集。在数 据集中,论文分为以下七类之一:基于案例、遗传算法、神经网络、概率方法、强化学习、 规则学习和理论。论文的选择方式是,在最终语料库中,每篇论文引用或被至少一篇其他论 文引用。整个语料库中有2708篇论文。该数据集由特征矩阵X,邻接矩阵A,以及类标矩阵 Y组成。特征矩阵X有2708行以及1433列,每行表示一篇论文,每列表示1433个词汇中的每个单词在文章中是存在(由1表示)还是不存在(由0表示)。这1433个词汇是在词干堵塞和去除词尾后,剩下的1433个独特的单词。邻接矩阵A有2708行与2708列,对于邻接矩 阵中的元素aij,若节点i,j之间存在连边,则aij的数值为1,反之则为0。类标矩阵Y有2708 行,每一行的数值表示论文的类别。
S2设置本地差分隐私预算,将本地差分隐私预算分发给每一个本地服务器,每一个本地 服务器得到本地差分隐私预算后对自身所拥有的数据进行扰动,利用网络数据集训练本地服 务器,得到初始嵌入向量;将每个本地服务器得到的本地差分隐私嵌入向量和初始嵌入向量 上传至中央服务器;具体包括以下子步骤:
S2.1设置本地差分隐私预算
本地差分隐私预算用于控制隐私的保护程度,对本地私有数据信息进行加密,隐私预算 越低,隐私保护性能越高,在一般情况下隐私预算ε=1。
S2.2分发差分隐私预算
将S2.1中设置的本地差分隐私预算分发到每一个本地服务器,要求每一个本地服务器使 用相同的隐私预算。
S2.3本地添加差分隐私噪声
在每一个本地服务器得到差分隐私预算后,本地服务器在满足差分隐私预算的前提下对 自身所拥有的特征信息进行扰动,这里扰动方法以拉普拉斯机制为例:在原有的本地服务器 下的每个用户ui的特征信息[x1,x2,…xi]基础上,添加拉普拉斯噪声[x′1,x′2,…x′i],其中 [x′1,x′2,…x′i]满足拉普拉斯分布,得到差分隐私特征[x1+x′1,x2+x′2,…xi+x′i],即[x″1,x″2,…x″i]。
S2.4训练本地服务器
将训练集输入本地服务器器,本地服务器为节点分类模型,本实例中以两层GCN模型为 例,这种结构可以提取图中的节点特征和结构信息并融合,将每个节点嵌入到高维向量空间。 其过程可以表示为:
其中且I为图的自连接矩阵,为的度值矩阵,X为节点特征; W(0)为输入层到隐藏层的权重矩阵,W(1)为隐藏层到输出层的权重矩阵;σ1和σ2为激活函数, 其中σ1采用Softmax函数,σ2采用ReLU函数。
S2.5上传本地嵌入
S3训练中央服务器:中央服务器拼接每个参与者得到的本地差分隐私嵌入和初始嵌入得 到服务器差分隐私嵌入和服务器初始嵌入;将服务器差分隐私嵌入输入去噪层中,基于服务 器初始嵌入优化去噪层,得到去噪嵌入;将去噪嵌入输入服务器模型中进行训练,得到预测 结果,基于预测结果计算精确度,重复上述步骤,直至精确度收敛。具体包括以下子步骤:
S3.1组合嵌入
S3.2去噪层训练以及去噪
由于本地的差分隐私噪声会影响中央服务器最终的性能,因此在本地嵌入向量输入至中 央服务器之前先通过去噪层,以保证中央服务器最终的性能,其首先将步骤S3.1得到的服务 器差分隐私嵌入Es送入去噪层,得到去噪嵌入向量计算去噪嵌入向量以及初始嵌入 向量之间的欧式距离通过梯度的正向与反向传播优化去噪层,直至欧氏距离 收敛。去噪层训练完成后,将服务器嵌入差分隐私向量Es转换为去噪嵌入向量
S3.3送入中央服务器模型训练,中央服务器得到预测结果
S3.4计算精确度
计算预测结果与真实类标之间的准确度,其过程如下:
S3.5优化本地服务器与中央服务器。
S3.6将测试集输入至训练好的中央服务器中,完成差分隐私及去噪的数据保护。
相应的,本申请还提供一种电子设备,包括:一个或多个处理器;存储器,用于存储一 个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个 处理器实现如上述的一种在垂直联邦框架下的差分隐私及去噪的数据保护方法。如图2所示, 为本发明实施例提供的一种在垂直联邦框架下的差分隐私及去噪的数据保护方法所在任意具 备数据处理能力的设备的一种硬件结构图,除了图2所示的处理器、内存以及网络接口之外, 实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备 的实际功能,还可以包括其他硬件,对此不再赘述。
相应的,本申请还提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处 理器执行时实现如上述的一种在垂直联邦框架下的差分隐私及去噪的数据保护方法。所述计 算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单 元,例如硬盘或内存。所述计算机可读存储介质也可以是风力发电机的外部存储设备,例如 所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介还可以既包括任意具备数据处理能力的设备的 内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及 所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出 或者将要输出的数据。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不 应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据 本发明构思所能够想到的等同技术手段。
Claims (7)
1.一种在垂直联邦框架下的差分隐私及去噪的数据保护方法,其特征在于,所述方法包括以下步骤:
S1,搭建基于垂直联邦的深度学习框架,基于垂直联邦的深度学习框架由干本地服务器和一个中央服务器组成;将网络数据集作为原始数据集;
S2,设置本地差分隐私预算,将本地差分隐私预算分发给每一个本地服务器,每一个本地服务器得到本地差分隐私预算后对自身所拥有的数据进行扰动,利用网络数据集训练本地服务器,得到初始嵌入向量;将每个本地服务器得到的本地差分隐私嵌入向量和初始嵌入向量上传至中央服务器;
S3,中央服务器拼接每个参与者得到的本地差分隐私嵌入和初始嵌入得到服务器差分隐私嵌入和服务器初始嵌入;将服务器差分隐私嵌入输入去噪层中,基于服务器初始嵌入优化去噪层,得到去噪嵌入;将去噪嵌入输入服务器模型中进行训练,得到预测结果,基于预测结果计算精确度,重复上述步骤,直至精确度收敛。
2.根据权利要求1所述的在垂直联邦框架下的差分隐私及去噪的数据保护方法,其特征在于,所述网络数据集包括CORA数据集或CITESEER数据集。
3.根据权利要求1所述的在垂直联邦框架下的差分隐私及去噪的数据保护方法,其特征在于,每一个参与者得到本地差分隐私预算后对自身所拥有的数据进行扰动的过程包括:
基于拉普拉斯机制每一个参与者得到本地差分隐私预算后对自身所拥有的数据进行扰动:在原有的每个用户ui的特征信息[x1,x2,…xi]基础上,添加拉普拉斯噪声[x′1,x′2,…x′i],其中[x′1,x′2,…x′i]满足拉普拉斯分布,得到差分隐私特征[x1+x′1,x2+x′2,…xi+x′i],即[x″1,x″2,…x″i]。
6.一种电子设备,包括存储器和处理器,其特征在于,所述存储器与所述处理器耦接;其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现上述权利要求1-5任一项所述的基于梯度的链路预测的后门攻击防御方法。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-5中任一所述的基于梯度的链路预测的后门攻击防御方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211226643.9A CN115470520A (zh) | 2022-10-09 | 2022-10-09 | 一种在垂直联邦框架下的差分隐私及去噪的数据保护方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211226643.9A CN115470520A (zh) | 2022-10-09 | 2022-10-09 | 一种在垂直联邦框架下的差分隐私及去噪的数据保护方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115470520A true CN115470520A (zh) | 2022-12-13 |
Family
ID=84337498
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211226643.9A Pending CN115470520A (zh) | 2022-10-09 | 2022-10-09 | 一种在垂直联邦框架下的差分隐私及去噪的数据保护方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115470520A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116611118A (zh) * | 2023-07-21 | 2023-08-18 | 北京智芯微电子科技有限公司 | 基于改进差分隐私的数据隐私保护模型的构建方法、装置 |
-
2022
- 2022-10-09 CN CN202211226643.9A patent/CN115470520A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116611118A (zh) * | 2023-07-21 | 2023-08-18 | 北京智芯微电子科技有限公司 | 基于改进差分隐私的数据隐私保护模型的构建方法、装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112529168B (zh) | 一种基于gcn的属性多层网络表示学习方法 | |
Zhang et al. | A model based on convolutional neural network for online transaction fraud detection | |
Pu et al. | Asymptotic network independence in distributed stochastic optimization for machine learning: Examining distributed and centralized stochastic gradient descent | |
CN109766454A (zh) | 一种投资者分类方法、装置、设备及介质 | |
Zhan et al. | A loan application fraud detection method based on knowledge graph and neural network | |
Xin et al. | Federated synthetic data generation with differential privacy | |
CN112231592B (zh) | 基于图的网络社团发现方法、装置、设备以及存储介质 | |
CN111475838A (zh) | 基于深度神经网络的图数据匿名方法、装置、存储介质 | |
US20240177006A1 (en) | Data processing method and apparatus, program product, computer device, and medium | |
CN114579584B (zh) | 数据表处理方法、装置、计算机设备和存储介质 | |
CN109670927A (zh) | 信用额度的调整方法及其装置、设备、存储介质 | |
US10742627B2 (en) | System and method for dynamic network data validation | |
US11551317B2 (en) | Property valuation model and visualization | |
Ouyang et al. | Clique-based method for social network clustering | |
CN112257959A (zh) | 用户风险预测方法、装置、电子设备及存储介质 | |
CN113128667A (zh) | 一种跨域自适应的图卷积平衡迁移学习方法与系统 | |
CN117272195A (zh) | 基于图卷积注意力网络的区块链异常节点检测方法及系统 | |
CN115470520A (zh) | 一种在垂直联邦框架下的差分隐私及去噪的数据保护方法 | |
Guo et al. | IIDQN: an incentive improved DQN algorithm in EBSN recommender system | |
CN116150663A (zh) | 数据分级方法、装置、计算机设备和存储介质 | |
CN116186629B (zh) | 基于个性化联邦学习的金融客户分类及预测方法、装置 | |
CN112989182A (zh) | 信息处理方法、装置、信息处理设备及存储介质 | |
CN112435034A (zh) | 一种基于多网络图聚合的营销套利黑产的识别方法 | |
CN111091198A (zh) | 一种数据处理方法及装置 | |
Ellouze | Social Network Community Detection by Combining Self‐Organizing Maps and Genetic Algorithms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |