CN117932685A - 基于纵向联邦学习的隐私数据处理方法及相关设备 - Google Patents

基于纵向联邦学习的隐私数据处理方法及相关设备 Download PDF

Info

Publication number
CN117932685A
CN117932685A CN202410331546.9A CN202410331546A CN117932685A CN 117932685 A CN117932685 A CN 117932685A CN 202410331546 A CN202410331546 A CN 202410331546A CN 117932685 A CN117932685 A CN 117932685A
Authority
CN
China
Prior art keywords
participant node
data
node
participant
federal learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410331546.9A
Other languages
English (en)
Inventor
陈铁金
李国庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Athena Eyes Co Ltd
Original Assignee
Athena Eyes Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Athena Eyes Co Ltd filed Critical Athena Eyes Co Ltd
Priority to CN202410331546.9A priority Critical patent/CN117932685A/zh
Publication of CN117932685A publication Critical patent/CN117932685A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/098Distributed learning, e.g. federated learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/08Key distribution or management, e.g. generation, sharing or updating, of cryptographic keys or passwords
    • H04L9/0816Key establishment, i.e. cryptographic processes or cryptographic protocols whereby a shared secret becomes available to two or more parties, for subsequent use
    • H04L9/0819Key transport or distribution, i.e. key establishment techniques where one party creates or otherwise obtains a secret value, and securely transfers it to the other(s)
    • H04L9/0825Key transport or distribution, i.e. key establishment techniques where one party creates or otherwise obtains a secret value, and securely transfers it to the other(s) using asymmetric-key encryption or public key infrastructure [PKI], e.g. key signature or public key certificates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)

Abstract

本发明公开了一种基于纵向联邦学习的隐私数据处理方法及相关设备,包括:通过协作方节点采用加密算法,生成公私钥对,并将公钥发送给各个参与方节点;各个参与方节点和协作方节点,采用公私钥进行相同样本对齐,得到用于对各个参与方进行纵向联邦学习的训练数据集;各个参与方节点通过训练数据集进行纵向联邦学习建模训练,得到目标联邦学习模型;各个参与方节点采用目标联邦学习模型进行隐私数据处理。采用本发明提升了隐私数据处理的安全性和效率。

Description

基于纵向联邦学习的隐私数据处理方法及相关设备
技术领域
本发明涉及数据处理领域,尤其涉及一种基于纵向联邦学习的隐私数据处理方法及相关设备。
背景技术
联邦学习是一种带有隐私保护、安全加密技术的分布式机器学习技术,旨在让分散的各个参与方在不暴露各自敏感数据的前提下,共同协作进行模型的构建跟训练。其核心思想是通过在拥有本地数据源的参与方之间进行分布式模型构建跟训练,并且在不需要交换各自所拥有的个体或样本数据的前提下,只通过交换各自训练模型的参数或中间的运算结果的方式,共同构建基于虚拟融合数据下的全局模型,从而实现数据隐私保护和数据共享计算的平衡,这样就可以达到“数据可用不可见”、“数据不动模型动”的效果。
联邦学习可以根据数据的分布情况分为横向联邦学习、纵向联邦学习以及联邦迁移学习。其中,在纵向联邦学习中,多个数据中心分别拥有的数据训练样本会相互重叠,但是样本特征确是互补的,这样能够适用于多方特征服务于相同业务标签的场景,并且纵向联邦学习方法可以打破数据孤岛,联合各方数据获得更高质量的机器学习模型,同时兼顾用户隐私数据保护,在增加数据流通以广泛应用智能模型方面发挥了重要作用。也使得纵向联邦学习在金融、医疗等领域的应用比较广泛。
现有技术中,申请号为CN202310009611.1的专利申请中,公开涉及一种基于纵向联邦学习的模型训练方法及装置,该方法中多个节点通过纵向联邦学习共同训练全局逻辑回归模型时,拥有样本标签的节点通过本地差分隐私技术产生差分隐私化噪声,再将差分隐私化噪声添加在每一轮训练的模型残差(即第一残差)之上,保护模型残差不会被参与联邦学习的其他节点反推和攻破,进而保护训练样本对应的标签的不会被其他节点获取,从而提高训练样本的安全性。
现有技术中,申请号为CN202310210011.1的专利申请中,公开了一种基于深度哈希的纵向联邦学习隐私保护方法和系统,属于分布式机器学习安全技术领域。通过各合作方本地模型获取样本的抽象表示,通过归一化层得到零均值连续码,利用哈希层对连续码进行二值化后得到哈希码;各参与方将哈希码上传服务器端,服务器端聚合各方哈希码,通过顶层模型计算预测值,依据预测值和标签计算分类损失、利用预生成的二值码计算各参与方哈希码间的余弦相似度损失, 通过上述损失计算梯度,更新顶层模型,并向各合作方分发各自梯度,梯度在本地哈希层传播时保持不变。本发明利用深度哈希技术,能够在保障用户数据安全的前提下,既不损失模型性能,又极大程度地提高了计算效率,不存在模型被攻击者逆向重构的风险。
现有技术中,申请号为CN202310263221.7的专利申请中,提供一种纵向联邦逻辑回归训练方法及装置,各参与方使用CKKS全同态加密将本地计算的半梯度列表加密发送给对方,将接收到的对方加密后的半梯列表,与本地计算的明文半梯度列表相加并与明文数据矩阵的转置相乘,计算得到加密状态下完整的梯度。对加密状态下完整的梯度添加混淆后发送至对方参与方进行解密后返回,消除混淆后得到最终的明文梯度用于更新模型。基于纵向逻辑回归的训练模式,引入CKKS进行全同态加密,极大简化了同态加密过程,提升了计算效率。
发明人在实现本发明的过程中,意识到现有技术至少存在如下技术问题:目前在纵向联邦学习的训练过程中,采取的隐私保护手段通常为差分隐私方法、同态加密方法以及基于深度哈希的纵向联邦学习隐私保护方法。差分隐私方法主要通过为数据或模型更新梯度添加噪声来保护数据隐私,目的在增加攻击者重构数据的难度,但存在的问题是噪声累积会降低数据可用性,从而影响模型的相关性能;同态加密方法则通过密码学的手段保护数据传输和计算过程,客户端在本地通过公钥对上传数据进行加密,服务器端则在加密状态下将数据进行聚合计算,但计算开销相较于明文计算显著增加;基于深度哈希的技术手 段实现隐私保护,虽然在保证模型性能的前提下能够消除数据泄露风险,同时降低了计算开销,不存在模型被攻击者逆向重构的风险,但是会造成整体模型的复杂性会增加,并且会随着模型参数的增加,整体训练效率就会有一定的影响。
综上所述,当前纵向联邦学习隐私保护方法在设计上主要存在以下不足:一、添加随机噪声会导致模型性能下降,会降低数据的可用性;二、整个纵向联邦学习过程中,采用同态加密计算方法,针对大规模的张量数据,会导致加密跟解密时间过长,不利于纵向联邦学习的大规模应用。
发明内容
本发明实施例提供一种基于纵向联邦学习的隐私数据处理方法、装置、计算机设备和存储介质,以提高基于纵向联邦学习的隐私数据处理的安全性和效率。
为了解决上述技术问题,本申请实施例提供一种基于纵向联邦学习的隐私数据处理方法,应用于分布式集群,所述分布式集群包括协作方节点和至少两个参与方节点,所述基于纵向联邦学习的隐私数据处理方法包括:
所述协作方节点采用加密算法,生成公私钥对,并将所述公钥发送给各个参与方节点;
各个参与方节点和所述协作方节点,采用所述公私钥进行相同样本对齐,得到用于对各个参与方进行纵向联邦学习的训练数据集;
各个参与方节点通过所述训练数据集进行纵向联邦学习建模训练,得到目标联邦学习模型;
各个参与方节点采用所述目标联邦学习模型进行隐私数据处理。
可选地,所述各个参与方节点和所述协作方节点,采用所述公私钥进行相同样本对齐,得到用于对各个参与方进行纵向联邦学习的训练数据集包括:
所述第一参与方节点基于公钥对本地数据中的ID进行加密,并构建第一数值对集合,并把所述第一数值对集合发送给第二参与方节点,其中,所述第一参与方节点的本地数据包含标签值,所述第一数值对集合中包含至少两个第一数值对,每个第一数值对由索引和加密的ID组成;
所述第二参与方节点基于本地数据中的ID构建多项式,并将接收到的所述第一数值对集合代入到所述多项式中,得到第二数值对集合,并把所述第二数值对集合发送给所述协作方节点;
所述协作方节点利用私钥对所述第二数值对集合中的加密ID进行解析,得到所述第一参与方节点和所述第二参与方节点的交集索引,并把所述交集索引发送给所述第一参与方节点;
所述第一参与方节点接收所述交集索引,基于所述交集索引确定所述第一参与方节点与所述第二参与方节点的共有群体ID集合,并将所述共有群体ID集合发送给所述第二参与方节点,将所述共有群体ID集合中共有群体对应的数据作为所述训练数据集。
可选地,所述加密算法为paillier同态加密算法。
可选地,所述所述协作方节点采用加密算法,生成公私钥对包括:
在密钥生成阶段取g=n+1,模反元素μ的表达式如下:
根据二项式定理对进行展开,转换成如下所示:
把公式(F2)代入公式(F1),从而得到模反元素μ的最终表达式:
把g=n+1代入到原始paillier算法中的加密公式,并结合公式(F2),得到加密公式的c的最终表达式:
采用所述加密公式的c的最终表达式生成所述公私钥对。
可选地,所述各个参与方节点通过所述训练数据集进行纵向联邦学习建模训练,得到目标联邦学习模型包括:
第一参与方节点和第二参与方节点基于本地数据构建本地模型,并采用公钥对中间结果进行加密以及基于加密的中间结果数据进行交换,其中,中间结果用于计算梯度和损失值;
所述第一参与方节点计算加密梯度和加密损失并对加密后的数据加入随机掩码,作为第一加密数据,所述第二参与方节点计算加密梯度并分别对加密后的数据加入随机掩码,作为第二加密数据;
所述第一参与方节点和所述第二参与方节点分别将所述第一加密数据和所述第二加密数据发送给所述协作方节点;
所述协作方节点对梯度和损失信息进行解密,并将结果发送回所述第一参与方节点和所述第二参与方节点;
所述第一参与方节点和所述第二参与方节点解除梯度信息上的随机掩码,并根据这些梯度信息来更新各自的模型参数;
返回所述第一参与方节点和第二参与方节点基于本地数据构建本地模型的步骤继续迭代执行,直至达到预设迭代轮次或模型达到收敛,得到所述目标联邦学习模型。
为了解决上述技术问题,本申请实施例还提供一种基于纵向联邦学习的隐私数据处理装置,包括:
密钥生成模块,用于所述协作方节点采用加密算法,生成公私钥对,并将所述公钥发送给各个参与方节点;
样本对齐模块,用于各个参与方节点和所述协作方节点,采用所述公私钥进行相同样本对齐,得到用于对各个参与方进行纵向联邦学习的训练数据集;
模型训练模块,用于各个参与方节点通过所述训练数据集进行纵向联邦学习建模训练,得到目标联邦学习模型;
数据处理模块,用于各个参与方节点采用所述目标联邦学习模型进行隐私数据处理。
可选地,所述样本对齐模块包括:
第一数值对集合构建单元,用于所述第一参与方节点基于公钥对本地数据中的ID进行加密,并构建第一数值对集合,并把所述第一数值对集合发送给第二参与方节点,其中,所述第一参与方节点的本地数据包含标签值,所述第一数值对集合中包含至少两个第一数值对,每个第一数值对由索引和加密的ID组成;
第二数值对集合构建单元,用于所述第二参与方节点基于本地数据中的ID构建多项式,并将接收到的所述第一数值对集合代入到所述多项式中,得到第二数值对集合,并把所述第二数值对集合发送给所述协作方节点;
交集索引确定单元,用于所述协作方节点利用私钥对所述第二数值对集合中的加密ID进行解析,得到所述第一参与方节点和所述第二参与方节点的交集索引,并把所述交集索引发送给所述第一参与方节点;
训练数据集获取单元,用于所述第一参与方节点接收所述交集索引,基于所述交集索引确定所述第一参与方节点与所述第二参与方节点的共有群体ID集合,并将所述共有群体ID集合发送给所述第二参与方节点,将所述共有群体ID集合中共有群体对应的数据作为所述训练数据集。
可选地,所述密钥生成模块 包括:
第一计算单元,用于在密钥生成阶段取g=n+1,模反元素μ的表达式如下:
第二计算单元,用于根据二项式定理对进行展开,转换成如下所示:
第三计算单元,用于把公式(F2)代入公式(F1),从而得到模反元素μ的最终表达式:
第四计算单元,用于把g=n+1代入到原始paillier算法中的加密公式,并结合公式(F2),得到加密公式的c的最终表达式:
密钥生成单元,用于采用所述加密公式的c的最终表达式生成所述公私钥对。
可选地,所述模型训练模块包括:
梯度损失计算单元,用于第一参与方节点和第二参与方节点基于本地数据构建本地模型,并采用公钥对中间结果进行加密以及基于加密的中间结果数据进行交换,其中,中间结果用于计算梯度和损失值;
第二加密单元,用于所述第一参与方节点计算加密梯度和加密损失并对加密后的数据加入随机掩码,作为第一加密数据,所述第二参与方节点计算加密梯度并分别对加密后的数据加入随机掩码,作为第二加密数据;
数据发送单元,用于所述第一参与方节点和所述第二参与方节点分别将所述第一加密数据和所述第二加密数据发送给所述协作方节点;
数据解密单元,用于所述协作方节点对梯度和损失信息进行解密,并将结果发送回所述第一参与方节点和所述第二参与方节点;
参数更新单元,用于所述第一参与方节点和所述第二参与方节点解除梯度信息上的随机掩码,并根据这些梯度信息来更新各自的模型参数;
迭代训练单元,用于返回所述第一参与方节点和第二参与方节点基于本地数据构建本地模型的步骤继续迭代执行,直至达到预设迭代轮次或模型达到收敛,得到所述目标联邦学习模型。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于纵向联邦学习的隐私数据处理方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于纵向联邦学习的隐私数据处理方法的步骤。
本发明实施例提供的基于纵向联邦学习的隐私数据处理方法、装置、计算机设备及存储介质,通过协作方节点采用加密算法,生成公私钥对,并将公钥发送给各个参与方节点;各个参与方节点和协作方节点,采用公私钥进行相同样本对齐,得到用于对各个参与方进行纵向联邦学习的训练数据集;各个参与方节点通过训练数据集进行纵向联邦学习建模训练,得到目标联邦学习模型;各个参与方节点采用目标联邦学习模型进行隐私数据处理。实现在各个参与方不公开各自数据的前提下确认各方的共有用户,并且不暴露不互相重叠的用户,以便联合这些用户的特征进行建模,保证了各个参与方的数据隐私安全,也防止协作方拿到各个参与方的共有用户群体的数据。提升了隐私数据处理的安全性和效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性系统架构图;
图2是本申请的基于纵向联邦学习的隐私数据处理方法的一个实施例的流程图;
图3是本申请一个示例中各个参与方的数据分布情况的示例图;
图4是本申请纵向联邦学习的整体流程图的示例图;
图5是根据本申请的基于纵向联邦学习的隐私数据处理装置的一个实施例的结构示意图;
图6是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器( Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3 )、MP4( Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4 )播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的基于纵向联邦学习的隐私数据处理方法由服务器执行,相应地,基于纵向联邦学习的隐私数据处理装置设置于服务器中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器,本申请实施例中的终端设备101、102、103具体可以对应的是实际生产中的应用系统。
请参阅图2,图2示出本发明实施例提供的一种基于纵向联邦学习的隐私数据处理方法,以该方法应用在图1中的服务端为例进行说明,详述如下:
S201:协作方节点采用加密算法,生成公私钥对,并将公钥发送给各个参与方节点。
具体地,在一具体示例中,第一参与方节点为参与方A,第二参与方节点为参与方B,协作方节点为协作方C,协作方C主要用来生成public key和private key,并解密模型梯度等需要传输的数据;参与方A持有标签y,因此可以理解为发起方,发起方持有M个样本对应的样本数据集及标签值/>,样本数据集/>中包含n个数据特征,参与方B持有相同的N个样本对应的样本数据集/>,样本数据集/>中包含n1个数据特征。用户标记字段都为ID。
优选地,加密算法为paillier同态加密算法。
在一具体可选实施方式中,协作方节点采用加密算法,生成公私钥对包括:
在密钥生成阶段取g=n+1,模反元素μ的表达式如下:
根据二项式定理对进行展开,转换成如下所示:
把公式(F2)代入公式(F1),从而得到模反元素μ的最终表达式:
把g=n+1代入到原始paillier算法中的加密公式,并结合公式(F2),得到加密公式的c的最终表达式:
采用加密公式的c的最终表达式生成公私钥对。
S202:各个参与方节点和协作方节点,采用公私钥进行相同样本对齐,得到用于对各个参与方进行纵向联邦学习的训练数据集。
需要说明的是,本实施例在进行样本ID加密对齐的过程中,提供了基于paillier同态加密算法的实现方法,具有标签值的参与方A对本地数据中的ID进行加密,并传送到参与方B,这样可以保证参与方B的数据不会出本地,并且参与方B也只会把配置结果跟参与方A的索引传送给协作方C,也可以防止协作方C暴露共有用户群体的ID,请参照图3,图3为参与方A和参与方B的数据对齐示意图。
在一具体可选实施方式中,各个参与方节点和协作方节点,采用公私钥进行相同样本对齐,得到用于对各个参与方进行纵向联邦学习的训练数据集包括:
第一参与方节点基于公钥对本地数据中的ID进行加密,并构建第一数值对集合,并把第一数值对集合发送给第二参与方节点,其中,第一参与方节点的本地数据包含标签值,第一数值对集合中包含至少两个第一数值对,每个第一数值对由索引和加密的ID组成;
第二参与方节点基于本地数据中的ID构建多项式,并将接收到的第一数值对集合代入到多项式中,得到第二数值对集合,并把第二数值对集合发送给协作方节点;
协作方节点利用私钥对第二数值对集合中的加密ID进行解析,得到第一参与方节点和第二参与方节点的交集索引,并把交集索引发送给第一参与方节点;
第一参与方节点接收交集索引,基于交集索引确定第一参与方节点与第二参与方节点的共有群体ID集合,并将共有群体ID集合发送给第二参与方节点,将共有群体ID集合中共有群体对应的数据作为训练数据集。
继续以S201中的示例为例,请参阅图4,首先由具有标签值的参与方A利用公钥对本地数据中的集合ID进行加密,得到加密后数据集合,然后把加密后的数据传送给参与方B;
参与方B基于本地数据中的ID构建多项式,如公式(F5)所示:
其中,K为参数,为参与方B集合ID中的第i个ID,记为/>
然后利用参与方A传送过来的加密数据代入到多项式中,得到,其中/>,并把集合/>传送到协作方C;
协作方C利用私钥对集合中的/>进行解密,得到参与方A跟参与方B的交集索引/>。然后把/>传送给参与方A;
参与方A根据协作方C传送的集合,得到参与方A跟参与方B的共有用户群体,并把/>传送到参与方B;
参与方A跟参与方B根据共有用户群体,就可以得到各个参与方用来进行纵向联邦学习的数据集。
S203:各个参与方节点通过训练数据集进行纵向联邦学习建模训练,得到目标联邦学习模型。
在一具体可选实施方式中,各个参与方节点通过训练数据集进行纵向联邦学习建模训练,得到目标联邦学习模型包括:
第一参与方节点和第二参与方节点基于本地数据构建本地模型,并采用公钥对中间结果进行加密以及基于加密的中间结果数据进行交换,其中,中间结果用于计算梯度和损失值;
第一参与方节点计算加密梯度和加密损失并对加密后的数据加入随机掩码,作为第一加密数据,第二参与方节点计算加密梯度并分别对加密后的数据加入随机掩码,作为第二加密数据;
第一参与方节点和第二参与方节点分别将第一加密数据和第二加密数据发送给协作方节点;
协作方节点对梯度和损失信息进行解密,并将结果发送回第一参与方节点和第二参与方节点;
第一参与方节点和第二参与方节点解除梯度信息上的随机掩码,并根据这些梯度信息来更新各自的模型参数;
返回第一参与方节点和第二参与方节点基于本地数据构建本地模型的步骤继续迭代执行,直至达到预设迭代轮次或模型达到收敛,得到目标联邦学习模型。
应理解,各个参与方对各自的加密梯度在传输之前加入了随机掩码,能够防止协作方节点暴露解密后的数据,能够更好地保护各个参与方的数据。
S204:各个参与方节点采用目标联邦学习模型进行隐私数据处理。
本实施例中,通过协作方节点采用加密算法,生成公私钥对,并将公钥发送给各个参与方节点;各个参与方节点和协作方节点,采用公私钥进行相同样本对齐,得到用于对各个参与方进行纵向联邦学习的训练数据集;各个参与方节点通过训练数据集进行纵向联邦学习建模训练,得到目标联邦学习模型;各个参与方节点采用目标联邦学习模型进行隐私数据处理。实现在各个参与方不公开各自数据的前提下确认各方的共有用户,并且不暴露不互相重叠的用户,以便联合这些用户的特征进行建模,保证了各个参与方的数据隐私安全,也防止协作方拿到各个参与方的共有用户群体的数据。提升了隐私数据处理的安全性和效率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
图5示出与上述实施例基于纵向联邦学习的隐私数据处理方法一一对应的基于纵向联邦学习的隐私数据处理装置的原理框图。如图5所示,该基于纵向联邦学习的隐私数据处理装置包括密钥生成模块31、样本对齐模块32、模型训练模块33和数据处理模块34。各功能模块详细说明如下:
密钥生成模块31,用于协作方节点采用加密算法,生成公私钥对,并将公钥发送给各个参与方节点;
样本对齐模块32,用于各个参与方节点和协作方节点,采用公私钥进行相同样本对齐,得到用于对各个参与方进行纵向联邦学习的训练数据集;
模型训练模块33,用于各个参与方节点通过训练数据集进行纵向联邦学习建模训练,得到目标联邦学习模型;
数据处理模块34,用于各个参与方节点采用目标联邦学习模型进行隐私数据处理。
可选地,样本对齐模块32包括:
第一数值对集合构建单元,用于第一参与方节点基于公钥对本地数据中的ID进行加密,并构建第一数值对集合,并把第一数值对集合发送给第二参与方节点,其中,第一参与方节点的本地数据包含标签值,第一数值对集合中包含至少两个第一数值对,每个第一数值对由索引和加密的ID组成;
第二数值对集合构建单元,用于第二参与方节点基于本地数据中的ID构建多项式,并将接收到的第一数值对集合代入到多项式中,得到第二数值对集合,并把第二数值对集合发送给协作方节点;
交集索引确定单元,用于协作方节点利用私钥对第二数值对集合中的加密ID进行解析,得到第一参与方节点和第二参与方节点的交集索引,并把交集索引发送给第一参与方节点;
训练数据集获取单元,用于第一参与方节点接收交集索引,基于交集索引确定第一参与方节点与第二参与方节点的共有群体ID集合,并将共有群体ID集合发送给第二参与方节点,将共有群体ID集合中共有群体对应的数据作为训练数据集。
可选地,密钥生成模块31包括:
第一计算单元,用于在密钥生成阶段取g=n+1,模反元素μ的表达式如下:
第二计算单元,用于根据二项式定理对进行展开,转换成如下所示:
第三计算单元,用于把公式(F2)代入公式(F1),从而得到模反元素μ的最终表达式:
第四计算单元,用于把g=n+1代入到原始paillier算法中的加密公式,并结合公式(F2),得到加密公式的c的最终表达式:
密钥生成单元,用于采用加密公式的c的最终表达式生成公私钥对。
可选地,模型训练模块33包括:
梯度损失计算单元,用于第一参与方节点和第二参与方节点基于本地数据构建本地模型,并采用公钥对中间结果进行加密以及基于加密的中间结果数据进行交换,其中,中间结果用于计算梯度和损失值;
第二加密单元,用于第一参与方节点计算加密梯度和加密损失并对加密后的数据加入随机掩码,作为第一加密数据,第二参与方节点计算加密梯度并分别对加密后的数据加入随机掩码,作为第二加密数据;
数据发送单元,用于第一参与方节点和第二参与方节点分别将第一加密数据和第二加密数据发送给协作方节点;
数据解密单元,用于协作方节点对梯度和损失信息进行解密,并将结果发送回第一参与方节点和第二参与方节点;
参数更新单元,用于第一参与方节点和第二参与方节点解除梯度信息上的随机掩码,并根据这些梯度信息来更新各自的模型参数;
迭代训练单元,用于返回第一参与方节点和第二参与方节点基于本地数据构建本地模型的步骤继续迭代执行,直至达到预设迭代轮次或模型达到收敛,得到目标联邦学习模型。
关于基于纵向联邦学习的隐私数据处理装置的具体限定可以参见上文中对于基于纵向联邦学习的隐私数据处理方法的限定,在此不再赘述。上述基于纵向联邦学习的隐私数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图6,图6为本实施例计算机设备基本结构框图。
所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件连接存储器41、处理器42、网络接口43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器 (Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或D界面显示存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件,例如基于纵向联邦学习的隐私数据处理的程序代码等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的程序代码或者处理数据,例如运行基于纵向联邦学习的隐私数据处理的程序代码。
所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有界面显示程序,所述界面显示程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的基于纵向联邦学习的隐私数据处理方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (10)

1.一种基于纵向联邦学习的隐私数据处理方法,其特征在于,应用于分布式集群,所述分布式集群包括协作方节点和至少两个参与方节点,所述基于纵向联邦学习的隐私数据处理方法包括:
所述协作方节点采用加密算法,生成公私钥对,并将公钥发送给各个参与方节点;
各个参与方节点和所述协作方节点,采用所述公私钥进行相同样本对齐,得到用于对各个参与方进行纵向联邦学习的训练数据集;
各个参与方节点通过所述训练数据集进行纵向联邦学习建模训练,得到目标联邦学习模型;
各个参与方节点采用所述目标联邦学习模型进行隐私数据处理。
2.如权利要求1所述的基于纵向联邦学习的隐私数据处理方法,其特征在于,所述各个参与方节点和所述协作方节点,采用所述公私钥进行相同样本对齐,得到用于对各个参与方进行纵向联邦学习的训练数据集包括:
第一参与方节点基于公钥对本地数据中的ID进行加密,并构建第一数值对集合,并把所述第一数值对集合发送给第二参与方节点,其中,所述第一参与方节点的本地数据包含标签值,所述第一数值对集合中包含至少两个第一数值对,每个第一数值对由索引和加密的ID组成;
所述第二参与方节点基于本地数据中的ID构建多项式,并将接收到的所述第一数值对集合代入到所述多项式中,得到第二数值对集合,并把所述第二数值对集合发送给所述协作方节点;
所述协作方节点利用私钥对所述第二数值对集合中的加密ID进行解析,得到所述第一参与方节点和所述第二参与方节点的交集索引,并把所述交集索引发送给所述第一参与方节点;
所述第一参与方节点接收所述交集索引,基于所述交集索引确定所述第一参与方节点与所述第二参与方节点的共有群体ID集合,并将所述共有群体ID集合发送给所述第二参与方节点,将所述共有群体ID集合中共有群体对应的数据作为所述训练数据集。
3.如权利要求1或2所述的基于纵向联邦学习的隐私数据处理方法,其特征在于,所述加密算法为paillier同态加密算法。
4.如权利要求3所述的基于纵向联邦学习的隐私数据处理方法,其特征在于,所述协作方节点采用加密算法,生成公私钥对包括:
在密钥生成阶段取g=n+1,模反元素μ的表达式如下:
根据二项式定理对进行展开,转换成如下所示:
把公式(F2)代入公式(F1),从而得到模反元素μ的最终表达式:
把g=n+1代入到原始paillier算法中的加密公式,并结合公式(F2),得到加密公式的c的最终表达式:
采用所述加密公式的c的最终表达式生成所述公私钥对。
5.如权利要求1所述的基于纵向联邦学习的隐私数据处理方法,其特征在于,所述各个参与方节点通过所述训练数据集进行纵向联邦学习建模训练,得到目标联邦学习模型包括:
第一参与方节点和第二参与方节点基于本地数据构建本地模型,并采用公钥对中间结果进行加密以及基于加密的中间结果数据进行交换,其中,中间结果用于计算梯度和损失值;
所述第一参与方节点计算加密梯度和加密损失并对加密后的数据加入随机掩码,作为第一加密数据,所述第二参与方节点计算加密梯度并分别对加密后的数据加入随机掩码,作为第二加密数据;
所述第一参与方节点和所述第二参与方节点分别将所述第一加密数据和所述第二加密数据发送给所述协作方节点;
所述协作方节点对梯度和损失信息进行解密,并将结果发送回所述第一参与方节点和所述第二参与方节点;
所述第一参与方节点和所述第二参与方节点解除梯度信息上的随机掩码,并根据这些梯度信息来更新各自的模型参数;
返回所述第一参与方节点和第二参与方节点基于本地数据构建本地模型的步骤继续迭代执行,直至达到预设迭代轮次或模型达到收敛,得到所述目标联邦学习模型。
6.一种基于纵向联邦学习的隐私数据处理装置,其特征在于,所述基于纵向联邦学习的隐私数据处理装置包括:
密钥生成模块,用于协作方节点采用加密算法,生成公私钥对,并将公钥发送给各个参与方节点;
样本对齐模块,用于各个参与方节点和所述协作方节点,采用所述公私钥进行相同样本对齐,得到用于对各个参与方进行纵向联邦学习的训练数据集;
模型训练模块,用于各个参与方节点通过所述训练数据集进行纵向联邦学习建模训练,得到目标联邦学习模型;
数据处理模块,用于各个参与方节点采用所述目标联邦学习模型进行隐私数据处理。
7.如权利要求6所述的基于纵向联邦学习的隐私数据处理装置,其特征在于,所述样本对齐模块包括:
第一数值对集合构建单元,用于第一参与方节点基于公钥对本地数据中的ID进行加密,并构建第一数值对集合,并把所述第一数值对集合发送给第二参与方节点,其中,所述第一参与方节点的本地数据包含标签值,所述第一数值对集合中包含至少两个第一数值对,每个第一数值对由索引和加密的ID组成;
第二数值对集合构建单元,用于所述第二参与方节点基于本地数据中的ID构建多项式,并将接收到的所述第一数值对集合代入到所述多项式中,得到第二数值对集合,并把所述第二数值对集合发送给所述协作方节点;
交集索引确定单元,用于所述协作方节点利用私钥对所述第二数值对集合中的加密ID进行解析,得到所述第一参与方节点和所述第二参与方节点的交集索引,并把所述交集索引发送给所述第一参与方节点;
训练数据集获取单元,用于所述第一参与方节点接收所述交集索引,基于所述交集索引确定所述第一参与方节点与所述第二参与方节点的共有群体ID集合,并将所述共有群体ID集合发送给所述第二参与方节点,将所述共有群体ID集合中共有群体对应的数据作为所述训练数据集。
8.如权利要求6所述的基于纵向联邦学习的隐私数据处理装置,其特征在于,所述模型训练模块包括:
梯度损失计算单元,用于第一参与方节点和第二参与方节点基于本地数据构建本地模型,并采用公钥对中间结果进行加密以及基于加密的中间结果数据进行交换,其中,中间结果用于计算梯度和损失值;
第二加密单元,用于所述第一参与方节点计算加密梯度和加密损失并对加密后的数据加入随机掩码,作为第一加密数据,所述第二参与方节点计算加密梯度并分别对加密后的数据加入随机掩码,作为第二加密数据;
数据发送单元,用于所述第一参与方节点和所述第二参与方节点分别将所述第一加密数据和所述第二加密数据发送给所述协作方节点;
数据解密单元,用于所述协作方节点对梯度和损失信息进行解密,并将结果发送回所述第一参与方节点和所述第二参与方节点;
参数更新单元,用于所述第一参与方节点和所述第二参与方节点解除梯度信息上的随机掩码,并根据这些梯度信息来更新各自的模型参数;
迭代训练单元,用于返回所述第一参与方节点和第二参与方节点基于本地数据构建本地模型的步骤继续迭代执行,直至达到预设迭代轮次或模型达到收敛,得到所述目标联邦学习模型。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的基于纵向联邦学习的隐私数据处理方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的基于纵向联邦学习的隐私数据处理方法。
CN202410331546.9A 2024-03-22 2024-03-22 基于纵向联邦学习的隐私数据处理方法及相关设备 Pending CN117932685A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410331546.9A CN117932685A (zh) 2024-03-22 2024-03-22 基于纵向联邦学习的隐私数据处理方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410331546.9A CN117932685A (zh) 2024-03-22 2024-03-22 基于纵向联邦学习的隐私数据处理方法及相关设备

Publications (1)

Publication Number Publication Date
CN117932685A true CN117932685A (zh) 2024-04-26

Family

ID=90766948

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410331546.9A Pending CN117932685A (zh) 2024-03-22 2024-03-22 基于纵向联邦学习的隐私数据处理方法及相关设备

Country Status (1)

Country Link
CN (1) CN117932685A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118381600A (zh) * 2024-06-26 2024-07-23 中电科大数据研究院有限公司 联邦学习隐私保护方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114358433A (zh) * 2022-01-10 2022-04-15 北京理工大学 基于纵向联邦学习工业软件对接的生产计划管理优化方法
CN115760526A (zh) * 2022-11-30 2023-03-07 中化创新(北京)科技研究院有限公司 基于联邦学习的园区本质安全数据分析方法
CN116070276A (zh) * 2023-02-23 2023-05-05 西安理工大学 基于同态加密与Simhash的密文查重与存储方法
CN117076918A (zh) * 2023-06-16 2023-11-17 深圳市云计算科技有限公司 一种基于联邦学习的模型训练系统及模型训练方法
CN117708887A (zh) * 2024-02-05 2024-03-15 智慧眼科技股份有限公司 一种基于纵向逻辑回归的联邦学习模型获取方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114358433A (zh) * 2022-01-10 2022-04-15 北京理工大学 基于纵向联邦学习工业软件对接的生产计划管理优化方法
CN115760526A (zh) * 2022-11-30 2023-03-07 中化创新(北京)科技研究院有限公司 基于联邦学习的园区本质安全数据分析方法
CN116070276A (zh) * 2023-02-23 2023-05-05 西安理工大学 基于同态加密与Simhash的密文查重与存储方法
CN117076918A (zh) * 2023-06-16 2023-11-17 深圳市云计算科技有限公司 一种基于联邦学习的模型训练系统及模型训练方法
CN117708887A (zh) * 2024-02-05 2024-03-15 智慧眼科技股份有限公司 一种基于纵向逻辑回归的联邦学习模型获取方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118381600A (zh) * 2024-06-26 2024-07-23 中电科大数据研究院有限公司 联邦学习隐私保护方法及系统
CN118381600B (zh) * 2024-06-26 2024-09-10 中电科大数据研究院有限公司 联邦学习隐私保护方法及系统

Similar Documents

Publication Publication Date Title
CN113159327B (zh) 基于联邦学习系统的模型训练方法、装置、电子设备
US10972251B2 (en) Secure web browsing via homomorphic encryption
CN107196926B (zh) 一种云外包隐私集合比较方法与装置
US9158925B2 (en) Server-aided private set intersection (PSI) with data transfer
CN109214201B (zh) 一种数据共享方法、终端设备及计算机可读存储介质
CN111898137A (zh) 一种联邦学习的隐私数据处理方法、设备及系统
CN113542228B (zh) 基于联邦学习的数据传输方法、装置以及可读存储介质
CN112347500B (zh) 分布式系统的机器学习方法、装置、系统、设备及存储介质
CN113609508A (zh) 一种基于区块链的联邦学习方法、装置、设备及存储介质
CN113127916A (zh) 数据集合处理方法、数据处理方法、装置及存储介质
CN111404943B (zh) 数据的处理方法、装置、电子设备及计算机可读存储介质
CN114401079A (zh) 多方联合信息价值计算方法、相关设备及存储介质
CN117932685A (zh) 基于纵向联邦学习的隐私数据处理方法及相关设备
CN110391895B (zh) 数据预处理方法、密文数据获取方法、装置和电子设备
CN111950030A (zh) 基于区块链的数据共享存储方法、终端设备和存储介质
CN113505882A (zh) 基于联邦神经网络模型的数据处理方法、相关设备及介质
CN111222645A (zh) 基于物联网区块链量子算法人工智能的管理系统及方法
CN114844620B (zh) 安全多方计算的方法、装置、系统、介质以及电子设备
CN114448598B (zh) 密文压缩方法、密文解压缩方法、装置、设备和存储介质
CN113609781A (zh) 基于联邦学习的汽车生产模具优化方法、系统、设备及介质
CN111611621A (zh) 基于区块链的分布式数据加密存储方法和电子设备
CN112765642A (zh) 数据处理方法、数据处理装置、电子设备及介质
Jammula et al. Hybrid lightweight cryptography with attribute-based encryption standard for secure and scalable IoT system
CN117319086B (zh) 不经意传输系统、方法、电子设备及存储介质
CN116095671B (zh) 一种基于元宇宙的资源共享方法及其相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination