CN114912146B - 一种垂直联邦架构下的数据信息防御方法、系统、电子设备及存储介质 - Google Patents

一种垂直联邦架构下的数据信息防御方法、系统、电子设备及存储介质 Download PDF

Info

Publication number
CN114912146B
CN114912146B CN202210580625.4A CN202210580625A CN114912146B CN 114912146 B CN114912146 B CN 114912146B CN 202210580625 A CN202210580625 A CN 202210580625A CN 114912146 B CN114912146 B CN 114912146B
Authority
CN
China
Prior art keywords
model
participant
ciphertext
participants
central server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210580625.4A
Other languages
English (en)
Other versions
CN114912146A (zh
Inventor
魏薇
景慧昀
周凡棣
牛金行
辛鑫
赵凯闻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Academy of Information and Communications Technology CAICT
Original Assignee
China Academy of Information and Communications Technology CAICT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Academy of Information and Communications Technology CAICT filed Critical China Academy of Information and Communications Technology CAICT
Priority to CN202210580625.4A priority Critical patent/CN114912146B/zh
Publication of CN114912146A publication Critical patent/CN114912146A/zh
Application granted granted Critical
Publication of CN114912146B publication Critical patent/CN114912146B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/008Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols involving homomorphic encryption

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioethics (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Storage Device Security (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种垂直联邦架构下的数据信息防御方法、系统、电子设备及存储介质。其中,方法包括:构建了基于垂直联邦的深度学习框架,将真实网络数据集转换成嵌入并加密后上传至中央服务器,防止攻击者得到目标的上传信息从而导致隐私的泄露。本发明基于同态加密来对嵌入进行加密处理,在不断地学习训练的过程中加密嵌入,以达到攻击者无法成功获得真实信息。与其他方法相比,本发明具有防御能力强、对主要任务影响小等特点。

Description

一种垂直联邦架构下的数据信息防御方法、系统、电子设备及 存储介质
技术领域
本发明属于面向垂直联邦学习的用户数据保护领域,尤其涉及一种垂直联邦架构下的数据信息防御方法、系统、电子设备及存储介质。
背景技术
近年来,在越来越多的领域中,人工智能(Artificial intelligence,AI)都取得了巨大成功,如人脸识别、智慧医疗、自然语言处理和语音识别等。然而,人工智能领域仍然存在两个主要的挑战:用户数据隐私泄露和数据量少且质量低的问题。首先,在绝大多数领域,利用大量数据去训练人工智能模型可能会造成数据的泄露,包括公众的身份信息和资金往来等。其次,大数据发展到现在,已经在许多行业形成了无形的壁垒。我们将这样的情况,即大量的数据被分开存放于几乎不能相互交流的实体中,称之为“数据孤岛”。这样的现状导致了一般情况下难以训练出预测精度较高的模型。
面对这样的复杂情况,联邦学习作为一种新的机器学习形式被提出并得到了快速发展。联邦学习的目标是利用散落在互联网各处的“数据孤岛”,在不造成隐私泄露的情况下训练机器学习模型,促进行业的发展。
联邦学习是一种分布式机器学习范式,它实现参与者原始数据不出本地完成联合隐私训练的任务。与基于集中式存储用户数据的大多数现有的机器学习方法不同,在联邦学习中,数据在参与者的设备上本地保存。每个参与者都维护一个本地模型,并根据存储在该用户设备上的数据计算本地模型更新。来自多个参与者的本地模型更新被上传到协调模型训练过程的中央服务器。这些更新被聚合到一个统一的更新中,以用于更新由该服务器维护的全局模型。更新之后的结果被分发到所有用户设备以更新本地模型。此过程反复执行,直到联邦模型收敛。由于模型更新通常包含的隐私信息要少得多,并且原始用户数据从未离开设备,因此可以有效地降低隐私泄露的风险。
此外,根据参与者所拥有的本地数据的分布差异不同,联邦学习通常被分为水平联邦学习(Horizontal Federated Learning)和垂直联邦学习(Vertical FederatedLearning)。本发明主要针对垂直联邦学习范式提出隐私保护方法。虽然联邦学习框架是为了保护用户隐私才被提出的,但是攻击者仍有可能通过窃听通信通道来获取上传与下载数据,从而导致隐私的泄露。
联邦学习是为了保护参与联合深度学习的参与者的用户隐私而被提出的。然而现在的一些研究证明联邦学习中直接传输模型的梯度信息会带来潜在的隐私泄露风险,例如,一个好奇的服务器可以通过参与者上传的梯度信息推断参与者的原始数据。为了解决这种由原始梯度上传带来的隐私泄露风险,一些现有技术尝试为联邦学习的梯度设计保护隐私的方法。一种方法是对联邦学习中的模型利用差分隐私技术添加随机噪声达到对模型的保护;另一种常见的方法为梯度混淆,即对梯度进行离散化或者随机变换。然而这两种常见的隐私保护技术通常会降低模型的预测性能,降低联邦学习的收敛速度,带来额外的通信计算开销。
发明内容
为解决上述技术问题,本发明提出一种垂直联邦架构下的数据信息防御方法、系统、电子设备及存储介质的技术方案,以解决上述技术问题。
本发明第一方面公开了一种垂直联邦架构下的数据信息防御方法,所述方法包括:
步骤S1、构建基于垂直联邦学习框架,该框架由m个参与者和一个中央服务器组成,所述参与者和中央服务器都具有本地计算资源;参与者各自维护一个本地模型,所述中央服务器维护一个顶端模型;
步骤S2、参与者联合选定一种模式作为密钥托管场景:可信模式和非可信模式;所述可信模式中参与者执行半同态加密,参与者使用统一的公钥和私钥;所述非可信模式下,参与者执行阈值同态加密方案,参与者各自使用各自的公钥和私钥;
步骤S3、每个参与者构建一个本地训练子图,从所述本地训练子图学习网络数据信息并提取特征矩阵,构建本地模型,即参与者将自身所掌握的网络数据通过所述本地模型转换成嵌入表示;
步骤S4、参与者利用公钥对本地生成的嵌入表示进行加密,获得加密后的嵌入表示密文,并将所述嵌入表示密文发送至服务器;
步骤S5、所述中央服务器聚合拼接所有的参与者的嵌入表示密文形成聚合隐私密文;
步骤S6、所述中央服务器将所述聚合隐私密文在所述顶端模型中进行前向传播;
步骤S7、所述中央服务器通过损失函数计算损失值,进行反向传播,然后更新所述顶端模型,最后为每个参与者分别发送梯度密文;
步骤S8、参与者本地模型接收服务器下发的梯度密文,对梯度密文进行解密,更新本地模型的参数;
步骤S9、重复步骤S3至步骤S8,直到全局模型收敛,即在所述顶端模型上,所述顶端模型的预测准确度达到设定要求。
根据本发明第一方面的方法,在所述步骤S1中,所述本地模型选择具有2层的图卷积神经网络作为特征提取模型;
所述顶端模型为3层全连接层作为特征提取模型,其中每层全连接层连接Sigmoid激活函数层,第一层全连接层网络的输入维度为参与者数量m*64,其中m为垂直联邦学习中的参与者数量。
根据本发明第一方面的方法,在所述步骤S2中,在所述可信模式下,参与者的加密采用RSA加密方案;
在所述非可信模式下,按照参与者的实际运算资源,采用随机分组或者每个参与者独自生成公钥和私钥。
根据本发明第一方面的方法,在所述步骤S3中,所述参与者将自身所掌握的网络数据通过所述本地模型转换成嵌入表示的方法包括:
Figure BDA0003662226220000041
其中,X和
Figure BDA0003662226220000042
分别为特征矩阵和邻接矩阵,D表示度矩阵,Wl表示所述本地模型第l层的参数,σ(·)为激活函数。
根据本发明第一方面的方法,在所述步骤S4中,参与者利用公钥采用RSA算法对本地生成的嵌入表示进行加密。
根据本发明第一方面的方法,在所述步骤S6中,所述中央服务器将所述聚合隐私密文在所述顶端模型中进行前向传播的方法包括:
所述聚合隐私密文在前向传播过程中分别进行浮点型运算,向量矩阵乘法以及激活函数泰勒展开处理;
浮点型运算将浮点数据乘以常数,取整后模;浮点型运算主要涉及到两个对象,一个是对所述顶端模型的权重的浮点化处理;另一个是对所述聚合隐私密文的浮点化处理;对所述顶端模型的权重参数乘以常数10,对所述聚合隐私密文乘以常数100操作。
根据本发明第一方面的方法,在所述步骤S7中,所述中央服务器通过损失函数计算损失值,进行反向传播,然后更新所述顶端模型的方法包括:
将所述前向传播的输出结果输入到softmax层获得预测置信度,再将softmax层的输出结果和标签计算损失值,损失函数采用多分类交叉熵损失函数;通过对所述顶端模型求偏导,获得所述顶端模型更新的梯度,然后对所述顶端模型参数进行一个步长的梯度下降更新所述顶端模型的参数。
本发明第二方面公开了一种垂直联邦架构下的数据信息防御系统,所述系统包括:
第一处理模块,被配置为,构建基于垂直联邦学习框架,该框架由m个参与者和一个中央服务器组成,所述参与者和中央服务器都具有本地计算资源;参与者各自维护一个本地模型,所述中央服务器维护一个顶端模型;
第二处理模块,被配置为,参与者联合选定一种模式作为密钥托管场景:可信模式和非可信模式;所述可信模式中参与者执行半同态加密,参与者使用统一的公钥和私钥;所述非可信模式下,参与者执行阈值同态加密方案,参与者各自使用各自的公钥和私钥;
第三处理模块,被配置为,每个参与者构建一个本地训练子图,从所述本地训练子图学习网络数据信息并提取特征矩阵,构建本地模型,即参与者将自身所掌握的网络数据通过所述本地模型转换成嵌入表示;
第四处理模块,被配置为,参与者利用公钥对本地生成的嵌入表示进行加密,获得加密后的嵌入表示密文,并将所述嵌入表示密文发送至服务器;
第五处理模块,被配置为,所述中央服务器聚合拼接所有的参与者的嵌入表示密文形成聚合隐私密文;
第六处理模块,被配置为,所述中央服务器将所述聚合隐私密文在所述顶端模型中进行前向传播;
第七处理模块,被配置为,所述中央服务器通过损失函数计算损失值,进行反向传播,然而更新所述顶端模型,最后为每个参与者分别发送梯度密文;
第八处理模块,被配置为,参与者本地模型接收服务器下发的梯度密文,对梯度密文进行解密,更新本地模型的参数;
第九处理模块,被配置为,重复第三处理模块至第八处理模块,直到全局模型收敛,即在所述顶端模型上,所述顶端模型的预测准确度达到设定要求。
根据本发明第二方面的系统,第二处理模块,被配置为,所述本地模型选择具有2层的图卷积神经网络作为特征提取模型;所述顶端模型为3层全连接层作为特征提取模型,其中每层全连接层连接Sigmoid激活函数层,第一层全连接层网络的输入维度为参与者数量m*64,其中m为垂直联邦学习中的参与者数量。
根据本发明第二方面的系统,第二处理模块,被配置为,在所述可信模式下,参与者的加密采用RSA加密方案;
在所述非可信模式下,按照参与者的实际运算资源,采用随机分组或者每个参与者独自生成公钥和私钥。
根据本发明第二方面的系统,第三处理模块,被配置为,所述参与者将自身所掌握的网络数据通过所述本地模型转换成嵌入表示包括:
Figure BDA0003662226220000061
其中,X和
Figure BDA0003662226220000062
分别为特征矩阵和邻接矩阵,D表示度矩阵,Wl表示所述本地模型第l层的参数,σ(·)为激活函数。
根据本发明第二方面的系统,第四处理模块,被配置为,参与者利用公钥采用RSA算法对本地生成的嵌入表示进行加密。
根据本发明第二方面的系统,第六处理模块,被配置为,所述中央服务器将所述聚合隐私密文在所述顶端模型中进行前向传播包括:
所述聚合隐私密文在前向传播过程中分别进行浮点型运算,向量矩阵乘法以及激活函数泰勒展开处理;
浮点型运算将浮点数据乘以常数,取整后模;浮点型运算主要涉及到两个对象,一个是对所述顶端模型的权重的浮点化处理;另一个是对所述聚合隐私密文的浮点化处理;对所述顶端模型的权重参数乘以常数10,对所述聚合隐私密文乘以常数100操作。
根据本发明第二方面的系统,第七处理模块,被配置为,所述中央服务器通过损失函数计算损失值,进行反向传播,然后更新所述顶端模型的方法包括:
将所述前向传播的输出结果输入到softmax层获得预测置信度,再将softmax层的输出结果和标签计算损失值,损失函数采用多分类交叉熵损失函数;通过对所述顶端模型求偏导,获得所述顶端模型更新的梯度,然后对所述顶端模型参数进行一个步长的梯度下降更新所述顶端模型的参数。
本发明第三方面公开了一种电子设备。电子设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时,实现本公开第一方面中任一项的一种垂直联邦架构下的数据信息防御方法中的步骤。
本发明第四方面公开了一种计算机可读存储介质。计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,实现本公开第一方面中任一项的一种垂直联邦架构下的数据信息防御方法中的步骤。
本发明提出的方案,在不断地学习训练的过程中加密嵌入,以达到攻击者无法成功获得真实信息。与其他方法相比,本发明具有防御能力强、对主要任务影响小等特点。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为根据本发明实施例的一种垂直联邦架构下的数据信息防御方法的流程图;
图2为根据本发明实施例的垂直联邦架构下的数据信息防御方法框架图;
图3为根据本发明实施例的一种垂直联邦架构下的数据信息防御系统的结构图;
图4为根据本发明实施例的一种电子设备的结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例只是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明第一方面公开了一种垂直联邦架构下的数据信息防御方法。图1为根据本发明实施例的一种垂直联邦架构下的数据信息防御方法的流程图,如图1和图2所示,所述方法包括:
预先步骤:在步骤S1之前存在一个数据预处理的过程;用于训练模型的数据集为网络数据集:CORA数据集和CITESEER数据集;
Cora数据集由机器学习论文组成,是近年来图深度学习很喜欢使用的数据集;在数据集中,论文分为以下七类之一:基于案例、遗传算法、神经网络、概率方法、强化学习、规则学习和理论;论文的选择方式是,在最终语料库中,每篇论文引用或被至少一篇其他论文引用;整个语料库中有2708篇论文;该数据集由cora.cites与cora.content两个文件组成。content文件包含以下格式的论文描述:<paper_id><word_attributes>+<class_label>。每行(其实就是图的一个节点)的第一个字段是论文的唯一字符串标识,后跟1433个字段(取值为二进制值),表示1433个词汇中的每个单词在文章中是存在(由1表示)还是不存在(由0表示);最后,该行的最后一个字段表示论文的类别标签(7个);因此该数据的特征应该有1433个维度,另外加上第一个字段idx,最后一个字段label,一共有1433+2个维度;在词干堵塞和去除词尾后,只剩下1433个独特的单词。文档频率小于10的所有单词都被删除;cites文件包含语料库的引用关系图。每行(其实就是图的一条边)用以下格式描述一个引用关系:<被引论文编号><引论文编号>;每行包含两个paper id;第一个字段是被引用论文的标识,第二个字段代表引用的论文;引用关系的方向是从右向左。如果一行由“论文1论文2”表示,则“论文2引用论文1”,即链接是“论文2->论文1”,可以通过论文之间的链接(引用)关系建立邻接矩阵adj。
步骤S1、构建基于垂直联邦学习框架,该框架由m个参与者和一个中央服务器组成,所述参与者和中央服务器都具有本地计算资源;参与者各自维护一个本地模型,所述中央服务器维护一个顶端模型;
步骤S2、参与者联合选定一种模式作为密钥托管场景:可信模式和非可信模式;所述可信模式中参与者执行半同态加密,参与者使用统一的公钥和私钥;所述非可信模式下,参与者执行阈值同态加密方案,参与者各自使用各自的公钥和私钥;
步骤S3、每个参与者构建一个本地训练子图Gi,其中1≦i≦m,从所述本地训练子图Gi学习网络数据信息并提取特征矩阵,构建本地模型Mi,即参与者将自身所掌握的网络数据通过所述本地模型转换成嵌入表示Ei
步骤S4、参与者利用公钥对本地生成的嵌入表示进行加密,获得加密后的嵌入表示密文,并将所述嵌入表示密文发送至服务器;
步骤S5、所述中央服务器聚合拼接所有的参与者的嵌入表示密文pri(Ei)形成聚合隐私密文pri(Es);
步骤S6、所述中央服务器将所述聚合隐私密文在所述顶端模型中进行前向传播;
步骤S7、所述中央服务器通过损失函数计算损失值,进行反向传播,然而更新所述顶端模型,最后为每个参与者分别发送梯度密文;
步骤S8、参与者本地模型接收服务器下发的梯度密文,对梯度密文进行解密,更新本地模型的参数;
步骤S9、重复步骤S3至步骤S8,直到全局模型收敛,即在所述顶端模型M0上,所述顶端模型M0的预测准确度达到设定要求。
在步骤S1,构建基于垂直联邦学习框架,该框架由m个参与者和一个中央服务器组成,所述参与者和中央服务器都具有本地计算资源;参与者各自维护一个本地模型,所述中央服务器维护一个顶端模型。
在一些实施例中,在所述步骤S1中,所述本地模型选择具有2层的图卷积神经网络作为特征提取模型;
所述顶端模型为3层全连接层作为特征提取模型,其中每层全连接层连接Sigmoid激活函数层,第一层全连接层网络的输入维度为参与者数量m*64,其中m为垂直联邦学习中的参与者数量。
具体地,本地模型选择具有2层的图卷积神经网络作为特征提取模型,其中每层卷积神经网络层连接ReLU激活函数层,第二层图卷积神经网络的输出维度为64。服务器的顶端模型为3层全连接层作为特征提取模型,其中每层全连接层连接Sigmoid激活函数层,第一层全连接层网络的输入维度为参与者数量m*64,其中m为垂直联邦学习中的参与者数量。顶端模型最后一层全连接网络输出维度为主任务标签类别数量。针对Cora数据集,模型的输出维度为7,在Citeseer数据集中,模型的输出维度为6。
在步骤S2,参与者联合选定一种模式作为密钥托管场景:可信模式和非可信模式;所述可信模式中参与者执行半同态加密,参与者使用统一的公钥和私钥;所述非可信模式下,参与者执行阈值同态加密方案,参与者各自使用各自的公钥和私钥。
在一些实施例中,在所述步骤S2中,在所述可信模式下,参与者的加密采用RSA加密方案;
在所述非可信模式下,按照参与者的实际运算资源,采用随机分组或者每个参与者独自生成公钥和私钥。
具体地,可信模式下的密钥生成方式为统一生成。参与者的加密采用RSA加密方案。参与者随机选择两个质数p和q满足|p|=|q|=t,保证p和q的长度相等。
计算质数p以及质数q之间的乘积N,同时利用字符串模拟计算大素数p与q之间的乘积。
N=p*q
计算素数p-1与q-1之间的最小公倍数:
λ=lcm(p-1,q-1)
其中,lcm()表示最小公倍数。
随机选择一个数
Figure BDA0003662226220000111
满足下列等式:
gcd(L(gλmod N2),N)=1
其中,gcd()表示求最大公约数,
Figure BDA0003662226220000112
上述计算可获得私钥(λ,μ),其中μ表示为:
μ=L(gλmod N2)
参与者通过上述计算获得公钥(N,g)以及私钥(λ,μ),。在信任模式下,生成公钥和私钥的参与者将密钥秘密发送给其他参与者。
在非信任模式下,按照参与者的实际运算资源,采用随机分组或者每个参与者独自生成公钥和私钥。采用阈值同态加密为参与者生成公钥和私钥。在具体实施阈值同态加密过程中,阈值同态加密算法中存在多个私钥、多个公钥,使用该公钥系统加密的密文之间可以相互计算,并且只有当参与解密的私钥数量达到一定阈值时,才能成功解密密文。
在步骤S3,每个参与者构建一个本地训练子图Gi,其中1≦i≦m,从所述本地训练子图Gi学习网络数据信息并提取特征矩阵,构建本地模型Mi,即参与者将自身所掌握的网络数据通过所述本地模型转换成嵌入表示Ei
在一些实施例中,在所述步骤S3中,所述参与者将自身所掌握的网络数据通过所述本地模型转换成嵌入表示Ei的方法包括:
Figure BDA0003662226220000121
其中,X和
Figure BDA0003662226220000122
分别为特征矩阵和邻接矩阵,D表示度矩阵,Wl表示所述本地模型第l层的参数,σ(·)为激活函数。
具体地,本地深度学习模型为2层图卷积神经网络,在训练过程中的随机丢弃率设置为0.2。所述参与者将自身所掌握的网络数据通过所述本地模型转换成嵌入表示Ei的方法包括:
Figure BDA0003662226220000123
其中,X和
Figure BDA0003662226220000124
分别为特征矩阵和邻接矩阵,D表示度矩阵,Wl表示所述本地模型第l层的参数,σ(·)为激活函数。
在步骤S4,参与者利用公钥对本地生成的嵌入表示进行加密,获得加密后的嵌入表示密文,并将所述嵌入表示密文发送至服务器。
在一些实施例中,在所述步骤S4中,参与者利用公钥采用RSA算法对本地生成的嵌入表示进行加密。
具体地,加密的过程为对于本地生成的嵌入表示Ei,用公钥(N,g)对嵌入表示数据进行加密。将Ei转换成数字,然后通过幂取模计算出pri(Ei),计算公式为:
pri(Ei)=Ei g mod N。
在步骤S5,所述中央服务器聚合拼接所有的参与者的嵌入表示密文pri(Ei)形成聚合隐私密文pri(Es)。
具体地,服务器聚合方式为沿行方向进行对齐拼接。
在步骤S6,所述中央服务器将所述聚合隐私密文在所述顶端模型中进行前向传播。
在一些实施例中,在所述步骤S6中,所述中央服务器将所述聚合隐私密文在所述顶端模型中进行前向传播的方法包括:
所述聚合隐私密文在前向传播过程中分别进行浮点型运算,向量矩阵乘法以及激活函数泰勒展开处理;
浮点型运算将浮点数据乘以常数,取整后模;浮点型运算主要涉及到两个对象,一个是对所述顶端模型的权重的浮点化处理;另一个是对所述聚合隐私密文的浮点化处理;对速速顶端模型的权重参数乘以常数10,对所述聚合隐私密文乘以常数100操作。
具体地,浮点型运算将浮点数据乘以常数,取整后模ti。浮点运算主要涉及到两个对象,一个是对模型权重的浮点化处理;另一个是对嵌入表示的浮点化处理。对顶端模型的权重参数乘以常数10,对嵌入表示乘以常数100操作。前向传播的过程中,将聚合隐私密文和模型权重计算向量矩阵乘法。在向量矩阵乘法中,聚合隐私密文的处理采用多项式近似化处理。两个密文c1,c2做乘积可以近似为:
c1·c2=c[0]+c[1]s+c[2]s2
其中,多项式中的
Figure BDA0003662226220000131
Figure BDA0003662226220000132
a,b为比例因子。激活函数同样采用泰勒级数多项式近似计算逼近值。本发明中顶端模型采用Sigmoid激活函数。
在步骤S7,所述中央服务器通过损失函数计算损失值,进行反向传播,然而更新所述顶端模型,最后为每个参与者分别发送梯度密文。
在一些实施例中,在所述步骤S7中,所述中央服务器通过损失函数计算损失值,进行反向传播,然而更新所述顶端模型的方法包括:
将所述前向传播的输出结果输入到softmax层获得预测置信度,再将softmax层的输出结果和标签计算损失值,损失函数采用多分类交叉熵损失函数;通过对所述顶端模型求偏导,获得所述顶端模型更新的梯度,然后对所述顶端模型参数进行一个步长的梯度下降更新所述顶端模型的参数。
具体地,所述中央服务器通过损失函数计算损失值,进行反向传播,然而更新所述顶端模型的方法包括:
将所述前向传播的输出结果输入到softmax层获得预测置信度,再将softmax层的输出结果和标签计算损失值,损失函数采用多分类交叉熵损失函数;通过对所述顶端模型求偏导,获得所述顶端模型更新的梯度,然后对所述顶端模型参数进行一个步长的梯度下降更新所述顶端模型的参数。
顶端模型和本地模型的步长都设为0.01。完成更新顶端模型参数后,服务器对每个参与方的嵌入表示分别计算偏导数,并将梯度信息下发至参与者。
在步骤S8,参与者本地模型接收服务器下发的梯度密文,对梯度密文进行解密,更新本地模型的参数。
具体地,对服务器的梯度密文解密可表示为:
x=L(pri(gi)λmod N2)·μmod N。
综上,本发明提出的方案能够在不断地学习训练的过程中加密嵌入,以达到攻击者无法成功获得真实信息。与其他方法相比,本发明具有防御能力强、对主要任务影响小等特点。
本发明第二方面公开了一种垂直联邦架构下的数据信息防御系统。图3为根据本发明实施例的一种垂直联邦架构下的数据信息防御系统的结构图;如图3所示,所述系统100包括:
第一处理模块101,被配置为,构建基于垂直联邦学习框架,该框架由m个参与者和一个中央服务器组成,所述参与者和中央服务器都具有本地计算资源;参与者各自维护一个本地模型,所述中央服务器维护一个顶端模型;
第二处理模块102,被配置为,参与者联合选定一种模式作为密钥托管场景:可信模式和非可信模式;所述可信模式中参与者执行半同态加密,参与者使用统一的公钥和私钥;所述非可信模式下,参与者执行阈值同态加密方案,参与者各自使用各自的公钥和私钥;
第三处理模块103,被配置为,每个参与者构建一个本地训练子图,从所述本地训练子图学习网络数据信息并提取特征矩阵,构建本地模型,即参与者将自身所掌握的网络数据通过所述本地模型转换成嵌入表示;
第四处理模块104,被配置为,参与者利用公钥对本地生成的嵌入表示进行加密,获得加密后的嵌入表示密文,并将所述嵌入表示密文发送至服务器;
第五处理模块105,被配置为,所述中央服务器聚合拼接所有的参与者的嵌入表示密文形成聚合隐私密文;
第六处理模块106,被配置为,所述中央服务器将所述聚合隐私密文在所述顶端模型中进行前向传播;
第七处理模块107,被配置为,所述中央服务器通过损失函数计算损失值,进行反向传播,然而更新所述顶端模型,最后为每个参与者分别发送梯度密文;
第八处理模块108,被配置为,参与者本地模型接收服务器下发的梯度密文,对梯度密文进行解密,更新本地模型的参数;
第九处理模块109,被配置为,重复第三处理模块至第八处理模块,直到全局模型收敛,即在所述顶端模型上,所述顶端模型的预测准确度达到设定要求。
根据本发明第二方面的系统,第二处理模块102,被配置为,所述本地模型选择具有2层的图卷积神经网络作为特征提取模型;所述顶端模型为3层全连接层作为特征提取模型,其中每层全连接层连接Sigmoid激活函数层,第一层全连接层网络的输入维度为参与者数量m*64,其中m为垂直联邦学习中的参与者数量。
根据本发明第二方面的系统,第二处理模块102,被配置为,在所述可信模式下,参与者的加密采用RSA加密方案;
在所述非可信模式下,按照参与者的实际运算资源,采用随机分组或者每个参与者独自生成公钥和私钥。
根据本发明第二方面的系统,第三处理模块103,被配置为,所述参与者将自身所掌握的网络数据通过所述本地模型转换成嵌入表示包括:
Figure BDA0003662226220000161
其中,X和
Figure BDA0003662226220000162
分别为特征矩阵和邻接矩阵,D表示度矩阵,Wl表示所述本地模型第l层的参数,σ(·)为激活函数。
根据本发明第二方面的系统,第四处理模块104,被配置为,参与者利用公钥采用RSA算法对本地生成的嵌入表示进行加密。
根据本发明第二方面的系统,第六处理模块106,被配置为,所述中央服务器将所述聚合隐私密文在所述顶端模型中进行前向传播包括:
所述聚合隐私密文在前向传播过程中分别进行浮点型运算,向量矩阵乘法以及激活函数泰勒展开处理;
浮点型运算将浮点数据乘以常数,取整后模;浮点型运算主要涉及到两个对象,一个是对所述顶端模型的权重的浮点化处理;另一个是对所述聚合隐私密文的浮点化处理;对所述顶端模型的权重参数乘以常数10,对所述聚合隐私密文乘以常数100操作。
根据本发明第二方面的系统,第七处理模块107,被配置为,所述中央服务器通过损失函数计算损失值,进行反向传播,然后更新所述顶端模型的方法包括:
将所述前向传播的输出结果输入到softmax层获得预测置信度,再将softmax层的输出结果和标签计算损失值,损失函数采用多分类交叉熵损失函数;通过对所述顶端模型求偏导,获得所述顶端模型更新的梯度,然后对所述顶端模型参数进行一个步长的梯度下降更新所述顶端模型的参数。
本发明第三方面公开了一种电子设备。电子设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时,实现本发明公开第一方面中任一项的一种垂直联邦架构下的数据信息防御方法中的步骤。
图4为根据本发明实施例的一种电子设备的结构图,如图4所示,电子设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、近场通信(NFC)或其他技术实现。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该电子设备的输入装置可以是显示屏上覆盖的触摸层,也可以是电子设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本公开的技术方案相关的部分的结构图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本发明第四方面公开了一种计算机可读存储介质。计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,实现本发明公开第一方面中任一项的一种垂直联邦架构下的数据信息防御方法中的步骤中的步骤。
请注意,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种垂直联邦架构下的数据信息防御方法,其特征在于,所述方法包括:
步骤S1、构建基于垂直联邦学习框架,该框架由m个参与者和一个中央服务器组成,所述参与者和中央服务器都具有本地计算资源;参与者各自维护一个本地模型,所述中央服务器维护一个顶端模型;
步骤S2、参与者联合选定一种模式作为密钥托管场景:可信模式和非可信模式;所述可信模式中参与者执行半同态加密,参与者使用统一的公钥和私钥;所述非可信模式下,参与者执行阈值同态加密方案,参与者各自使用各自的公钥和私钥;
步骤S3、每个参与者构建一个本地训练子图,从所述本地训练子图学习网络数据信息并提取特征矩阵,构建本地模型,即参与者将自身所掌握的网络数据通过所述本地模型转换成嵌入表示;
步骤S4、参与者利用公钥对本地生成的嵌入表示进行加密,获得加密后的嵌入表示密文,并将所述嵌入表示密文发送至服务器;
步骤S5、所述中央服务器聚合拼接所有的参与者的嵌入表示密文形成聚合隐私密文;
步骤S6、所述中央服务器将所述聚合隐私密文在所述顶端模型中进行前向传播;
在所述步骤S6中,所述中央服务器将所述聚合隐私密文在所述顶端模型中进行前向传播的方法包括:
所述聚合隐私密文在前向传播过程中分别进行浮点型运算,向量矩阵乘法以及激活函数泰勒展开处理;
浮点型运算将浮点数据乘以常数,取整后模;浮点型运算涉及到两个对象,一个是对所述顶端模型的权重的浮点化处理;另一个是对所述聚合隐私密文的浮点化处理;对所述顶端模型的权重参数乘以常数10,对所述聚合隐私密文乘以常数100操作;
步骤S7、所述中央服务器通过损失函数计算损失值,进行反向传播,然后更新所述顶端模型,最后为每个参与者分别发送梯度密文;
在所述步骤S7中,所述中央服务器通过损失函数计算损失值,进行反向传播,然后更新所述顶端模型的方法包括:
将所述前向传播的输出结果输入到softmax层获得预测置信度,再将softmax层的输出结果和标签计算损失值,损失函数采用多分类交叉熵损失函数;通过对所述顶端模型求偏导,获得所述顶端模型更新的梯度,然后对所述顶端模型参数进行一个步长的梯度下降更新所述顶端模型的参数;
步骤S8、参与者本地模型接收服务器下发的梯度密文,对梯度密文进行解密,更新本地模型的参数;
步骤S9、重复步骤S3至步骤S8,直到全局模型收敛,即在所述顶端模型上,所述顶端模型的预测准确度达到设定要求。
2.根据权利要求1所述的一种垂直联邦架构下的数据信息防御方法,其特征在于,在所述步骤S1中,所述本地模型选择具有2层的图卷积神经网络作为特征提取模型;
所述顶端模型为3层全连接层作为特征提取模型,其中每层全连接层连接Sigmoid激活函数层,第一层全连接层网络的输入维度为参与者数量m*64,其中m为垂直联邦学习中的参与者数量。
3.根据权利要求1所述的一种垂直联邦架构下的数据信息防御方法,其特征在于,在所述步骤S2中,在所述可信模式下,参与者的加密采用RSA加密方案;
在所述非可信模式下,按照参与者的实际运算资源,采用随机分组或者每个参与者独自生成公钥和私钥。
4.根据权利要求1所述的一种垂直联邦架构下的数据信息防御方法,其特征在于,在所述步骤S3中,所述参与者将自身所掌握的网络数据通过所述本地模型转换成嵌入表示的方法包括:
Figure FDA0003907019350000031
其中,X和
Figure FDA0003907019350000032
分别为特征矩阵和邻接矩阵,D表示度矩阵,Wl表示所述本地模型第l层的参数,
Figure FDA0003907019350000033
为激活函数。
5.根据权利要求1所述的一种垂直联邦架构下的数据信息防御方法,其特征在于,在所述步骤S4中,参与者利用公钥采用RSA算法对本地生成的嵌入表示进行加密。
6.一种用于垂直联邦架构下的数据信息防御系统,其特征在于,所述系统包括:
第一处理模块,被配置为,构建基于垂直联邦学习框架,该框架由m个参与者和一个中央服务器组成,所述参与者和中央服务器都具有本地计算资源;参与者各自维护一个本地模型,所述中央服务器维护一个顶端模型;
第二处理模块,被配置为,参与者联合选定一种模式作为密钥托管场景:可信模式和非可信模式;所述可信模式中参与者执行半同态加密,参与者使用统一的公钥和私钥;所述非可信模式下,参与者执行阈值同态加密方案,参与者各自使用各自的公钥和私钥;
第三处理模块,被配置为,每个参与者构建一个本地训练子图,从所述本地训练子图学习网络数据信息并提取特征矩阵,构建本地模型,即参与者将自身所掌握的网络数据通过所述本地模型转换成嵌入表示;
第四处理模块,被配置为,参与者利用公钥对本地生成的嵌入表示进行加密,获得加密后的嵌入表示密文,并将所述嵌入表示密文发送至服务器;
第五处理模块,被配置为,所述中央服务器聚合拼接所有的参与者的嵌入表示密文形成聚合隐私密文;
第六处理模块,被配置为,所述中央服务器将所述聚合隐私密文在所述顶端模型中进行前向传播;
所述中央服务器将所述聚合隐私密文在所述顶端模型中进行前向传播包括:
所述聚合隐私密文在前向传播过程中分别进行浮点型运算,向量矩阵乘法以及激活函数泰勒展开处理;
浮点型运算将浮点数据乘以常数,取整后模;浮点型运算涉及到两个对象,一个是对所述顶端模型的权重的浮点化处理;另一个是对所述聚合隐私密文的浮点化处理;对所述顶端模型的权重参数乘以常数10,对所述聚合隐私密文乘以常数100操作;
第七处理模块,被配置为,所述中央服务器通过损失函数计算损失值,进行反向传播,然而更新所述顶端模型,最后为每个参与者分别发送梯度密文;
所述中央服务器通过损失函数计算损失值,进行反向传播,然后更新所述顶端模型包括:
将所述前向传播的输出结果输入到softmax层获得预测置信度,再将softmax层的输出结果和标签计算损失值,损失函数采用多分类交叉熵损失函数;通过对所述顶端模型求偏导,获得所述顶端模型更新的梯度,然后对所述顶端模型参数进行一个步长的梯度下降更新所述顶端模型的参数;
第八处理模块,被配置为,参与者本地模型接收服务器下发的梯度密文,对梯度密文进行解密,更新本地模型的参数;
第九处理模块,被配置为,重复第三处理模块至第八处理模块,直到全局模型收敛,即在所述顶端模型上,所述顶端模型的预测准确度达到设定要求。
7.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时,实现权利要求1至5中任一项所述的一种垂直联邦架构下的数据信息防御方法中的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现权利要求1至5中任一项所述的一种垂直联邦架构下的数据信息防御方法中的步骤。
CN202210580625.4A 2022-05-25 2022-05-25 一种垂直联邦架构下的数据信息防御方法、系统、电子设备及存储介质 Active CN114912146B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210580625.4A CN114912146B (zh) 2022-05-25 2022-05-25 一种垂直联邦架构下的数据信息防御方法、系统、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210580625.4A CN114912146B (zh) 2022-05-25 2022-05-25 一种垂直联邦架构下的数据信息防御方法、系统、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN114912146A CN114912146A (zh) 2022-08-16
CN114912146B true CN114912146B (zh) 2022-12-06

Family

ID=82768463

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210580625.4A Active CN114912146B (zh) 2022-05-25 2022-05-25 一种垂直联邦架构下的数据信息防御方法、系统、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114912146B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200366459A1 (en) * 2019-05-17 2020-11-19 International Business Machines Corporation Searching Over Encrypted Model and Encrypted Data Using Secure Single-and Multi-Party Learning Based on Encrypted Data
CN112464290B (zh) * 2020-12-17 2024-03-19 浙江工业大学 一种基于自编码器的垂直联邦学习防御方法
CN113344221A (zh) * 2021-05-10 2021-09-03 上海大学 一种基于神经网络架构搜索的联邦学习方法及系统
CN113434873A (zh) * 2021-06-01 2021-09-24 内蒙古大学 一种基于同态加密的联邦学习隐私保护方法
CN113656833A (zh) * 2021-08-09 2021-11-16 浙江工业大学 基于进化计算的在垂直联邦架构下的隐私窃取防御方法

Also Published As

Publication number Publication date
CN114912146A (zh) 2022-08-16

Similar Documents

Publication Publication Date Title
US11301571B2 (en) Neural-network training using secure data processing
Li et al. Privacy-preserving machine learning with multiple data providers
CN113221105B (zh) 一种基于部分参数聚合的鲁棒性联邦学习算法
CN113505882B (zh) 基于联邦神经网络模型的数据处理方法、相关设备及介质
Niu et al. Toward verifiable and privacy preserving machine learning prediction
Liu et al. Secure multi-label data classification in cloud by additionally homomorphic encryption
CN113542228B (zh) 基于联邦学习的数据传输方法、装置以及可读存储介质
CN113836556B (zh) 面向联邦学习的去中心化函数加密隐私保护方法及系统
CN112818374A (zh) 一种模型的联合训练方法、设备、存储介质及程序产品
WO2021106077A1 (ja) ニューラルネットワークの更新方法、端末装置、計算装置及びプログラム
Lyu et al. Towards fair and decentralized privacy-preserving deep learning with blockchain
CN113077060A (zh) 针对边云协同的联邦学习系统及方法
CN114930357A (zh) 经由梯度提升的隐私保护机器学习
CN114186256A (zh) 神经网络模型的训练方法、装置、设备和存储介质
Luo et al. SVFL: Efficient secure aggregation and verification for cross-silo federated learning
CN113221153A (zh) 图神经网络训练方法、装置、计算设备及存储介质
Li et al. Ubiquitous intelligent federated learning privacy-preserving scheme under edge computing
CN114491616A (zh) 基于区块链和同态加密的联邦学习方法和应用
CN117521102A (zh) 一种基于联邦学习的模型训练方法及装置
CN117675270A (zh) 面向纵向联邦学习的多模态数据加密传输方法及系统
CN114912146B (zh) 一种垂直联邦架构下的数据信息防御方法、系统、电子设备及存储介质
Zhou et al. VDFChain: Secure and verifiable decentralized federated learning via committee-based blockchain
CN114936892A (zh) 基于联邦迁移学习标签传播的线下商品推荐系统及方法
CN115130568A (zh) 支持多参与方的纵向联邦Softmax回归方法及系统
Shah et al. Secure featurization and applications to secure phishing detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant