CN114648130B - 纵向联邦学习方法、装置、电子设备及存储介质 - Google Patents
纵向联邦学习方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114648130B CN114648130B CN202210116816.5A CN202210116816A CN114648130B CN 114648130 B CN114648130 B CN 114648130B CN 202210116816 A CN202210116816 A CN 202210116816A CN 114648130 B CN114648130 B CN 114648130B
- Authority
- CN
- China
- Prior art keywords
- secret
- sample
- intersection
- participant
- share
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000012549 training Methods 0.000 claims description 30
- 230000008707 rearrangement Effects 0.000 claims description 19
- 238000004891 communication Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 7
- 230000000873 masking effect Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 239000000654 additive Substances 0.000 description 5
- 230000000996 additive effect Effects 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 238000003491 array Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
- G06F21/6254—Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioethics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Storage Device Security (AREA)
Abstract
本申请涉及一种纵向联邦学习方法、装置、电子设备及存储介质,包括:第一参与方对数据集的样本ID进行编码,并为每个样本的每个特征生成随机数,构造加法秘密分享,第二参与方同理;第一参与方将ID的编码和对应的样本特征的秘密份额发送给服务器,其他秘密份额发送给第二参与方,第二参与方将编码和对应样本特征的秘密份额发送给服务器,其他发给第一参与方;找出两个参与方之间的共有样本,并删除不在交集中的样本的秘密份重新排列交集样本秘密份额的顺序;生成0的秘密份额掩盖原始秘密份额,将混淆后的秘密份额发送给两个参与方,两个参与方得到交集数据的秘密份额在秘密分享值上进行运算。由此,可以增强纵向联邦学习的安全性。
Description
技术领域
本申请涉及机器学习技术领域,特别涉及一种纵向联邦学习方法、装置、电子设备及存储介质。
背景技术
人工智能作为引领新一代产业变革的新兴技术,已经在人们的生产生活中得到了越来越广泛的应用。人工智能的发展离不开支撑其训练模型的海量数据。然而,人工智能技术在各行各业的实际应用中面临着许多挑战,包括隐私、安全和效率等方面,其数据是影响应用发展的重要因素。由于训练数据的隐私问题和参与方之间的信任问题,使得企业之间的隐私数据难以流通,即无法发挥潜在的应用价值和缺乏有价值的数据合作,制约着它们进一步发展。
联邦学习作为人工智能技术的新分支,能够在满足隐私保护和数据安全的前提下,在多参与方之间进行数据共享、模型训练和释放数据价值,助力产业创新,促进企业和行业发展。联邦学习的应用场景可以分为横向联邦学习和纵向联邦学习,横向联邦学习又称为基于样本的联邦学习,各参与方掌握不同的数据样本,通过合作来提高训练模型的性能,各参与方可能是拥有数据的企业或用户的客户端等;纵向联邦学习又称为基于特征的联邦学习,参与方掌握着样本的不同特征,各个参与方通常是领域和方向不同的企业和大型组织。
其中,纵向联邦学习现有的一般做法是各参与方首先求出所有参与方拥有的样本交集,用隐私集合求交技术可以保证各参与方不能获得除交集ID(Identity document,身份证标识号)外的其它信息。在交集中每个参与方将各自拥有的特征拼合,形成完整样本后再进行训练。
然而在实际场景中,样本ID作为能够唯一标识训练样本并且多个参与方共有的数据,通常是用户的身份证号和手机号等敏感数据,因此仅仅交集本身也会造成隐私泄露问题。例如,游戏公司、借贷公司、保险公司和互联网平台,它们掌握的样本ID可能是高额违约用户、高理赔客户、黑灰产账户等,这些信息的泄露将导致公司蒙受巨大的损失。
发明内容
本申请提供一种纵向联邦学习方法、装置、电子设备及存储介质,可以增强纵向联邦学习的安全性,提高纵向联邦学习的效率,方便联邦学习在高敏感数据场景下应用落地。
本申请第一方面实施例提供一种纵向联邦学习方法,包括以下步骤:
分别使得第一参与方与第二参与方对本地数据集的样本ID进行编码,为所述本地数据集中每个样本的每个特征生成随机数,构造加法秘密分享;
在所述第一参与方将样本ID的编码和对应的第一样本特征的秘密份额发送给预设服务器的同时,把所述第一样本特征的另一部分秘密份额发送给所述第二参与方,且在所述第二参与方把样本ID的编码以及对应的第二样本特征的秘密份额发送给所述预设服务器的同时,把所述第二样本特征的另一部分秘密份额发送给所述第一参与方;
基于所述预设服务器通过比较样本ID的编码找出两个参与方之间的共有样本,并删除不在交集中的样本的秘密份额,随机重新排列交集样本秘密份额的顺序;
基于所述预设服务器随机生成0的秘密份额,将原始秘密份额掩盖,并且将混淆后的秘密份额发送给所述两个参与方,使得所述两个参与方得到交集数据的秘密份额,以使所述两个参与方在秘密分享值上进行运算,实现纵向联邦学习。
可选地,所述分别使得第一参与方与第二参与方对本地数据集的样本ID进行编码,为所述本地数据集中每个样本的每个特征生成随机数,构造加法秘密分享,包括:
将样本特征部分的每个值随机拆分,构成所述加法秘密分享。
可选地,在删除所述不在交集中的样本的秘密份额,随机重新排列所述交集样本秘密份额的顺序之后,还包括:
发送重新排列的方法至所述两个参与方,使得所述两个参与方中的另一半秘密份额按照所述重新排列的方法执行相同的重新排列操作。
可选地,所述使所述两个参与方在秘密分享值上进行运算,实现纵向联邦学习,包括:
获取纵向联邦学习模型训练实质上所需要的目标数据集的秘密份额;
基于所述目标数据集的秘密份额,在秘密分享下进行计算,完成模型训练过程。本申请第二方面实施例提供一种纵向联邦学习装置,包括:
数据加密模块,用于分别使得第一参与方与第二参与方对本地数据集的样本ID进行编码,为所述本地数据集中每个样本的每个特征生成随机数,构造加法秘密分享;
发送模块,用于在所述第一参与方将样本ID的编码和对应的第一样本特征的秘密份额发送给预设服务器的同时,把所述第一样本特征的另一部分秘密份额发送给所述第二参与方,且在所述第二参与方把样本ID的编码以及对应的第二样本特征的秘密份额发送给所述预设服务器的同时,把所述第二样本特征的另一部分秘密份额发送给所述第一参与方;
密文交集获取与莫问顺序混淆模块,用于基于所述预设服务器通过比较样本ID的编码找出两个参与方之间的共有样本,并删除不在交集中的样本的秘密份额,随机重新排列交集样本秘密份额的顺序;
密文盲化和私密通信模块,用于基于所述预设服务器随机生成0的秘密份额,将原始秘密份额掩盖,并且将混淆后的秘密份额发送给所述两个参与方,使得所述两个参与方得到交集数据的秘密份额,以使所述两个参与方在秘密分享值上进行运算,实现纵向联邦学习。
可选地,所述数据加密模块,具体用于:
将样本特征部分的每个值随机拆分,构成所述加法秘密分享。
可选地,在删除所述不在交集中的样本的秘密份额,随机重新排列所述交集样本秘密份额的顺序之后,所述密文交集获取与莫问顺序混淆模块,还用于:
发送重新排列的方法至所述两个参与方,使得所述两个参与方中的另一半秘密份额按照所述重新排列的方法执行相同的重新排列操作。
可选地,所述密文盲化和私密通信模块,具体用于:
获取纵向联邦学习模型训练实质上所需要的目标数据集的秘密份额;
基于所述目标数据集的秘密份额,在秘密分享下进行计算,完成模型训练过程。
本申请第三方面实施例提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如上述实施例所述的纵向联邦学习方法。
本申请第四方面实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以用于实现上述的纵向联邦学习方法。
由此,本申请实施例的纵向联邦学习方法具有以下优点:
(1)在功能划分上本申请提出的安全纵向联邦学习方法在数据对齐阶段不仅可以找出纵向划分的数据集中的共有样本,而且可以将特征拼接起来,彻底解决数据纵向划分给联邦学习带来的复杂性增加的问题,因此在模型训练阶段可以直接采用已被广泛研究的通用的模型训练方法;
(2)在隐私方面本申请提出的安全联邦学习方法在数据对齐阶段不会泄露关于哪些样本是共有样本这样的信息,即样本ID的信息没有泄露,当样本ID是敏感的,本申请仍然可以提供训练数据的隐私性;
(3)在可扩展性方面本申请提出的安全纵向联邦学习方法不是针对某种模型训练算法而设计的,本申请提出的安全纵向联邦学习方法的数据对齐阶段的执行结果是纵向联邦学习实质上的目标数据集,可以在这样的数据集上进行任意模型的训练,与已有的做法相比扩展性更好。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本申请实施例提供的一种纵向联邦学习方法的流程图;
图2为根据本申请一个实施例的第一参与方A数据处理过程的示意图;
图3为根据本申请一个实施例的第二参与方B数据处理过程的示意图;
图4为根据本申请一个实施例的第一参与方A、第二参与方B和预设服务器C交换后的结果的示例图;
图5为根据本申请一个实施例的排列后第一参与方A、第二参与方B和预设服务器C交换后的结果的示例图;
图6为根据本申请一个实施例的第一参与方A和第二参与方B最终拥有目标数据集的秘密份额的示例图;
图7为根据本申请实施例的纵向联邦学习装置的示例图;
图8为根据本申请实施例的电子设备的示例图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的纵向联邦学习方法、装置、电子设备及存储介质。本申请提供了一种纵向联邦学习方法,在该方法中,分别使得第一参与方与第二参与方对本地数据集的样本ID进行编码,为本地数据集中每个样本的每个特征生成随机数,构造加法秘密分享,并在第一参与方将样本ID的编码和对应的第一样本特征的秘密份额发送给预设服务器的同时,把第一样本特征的另一部分秘密份额发送给第二参与方,且在第二参与方把样本ID的编码以及对应的第二样本特征的秘密份额发送给预设服务器的同时,把第二样本特征的另一部分秘密份额发送给第一参与方,并基于预设服务器通过比较样本ID的编码找出两个参与方之间的共有样本,并删除不在交集中的样本的秘密份额,随机重新排列交集样本秘密份额的顺序,并基于预设服务器随机生成0的秘密份额,将原始秘密份额掩盖,并且将混淆后的秘密份额发送给两个参与方,使得两个参与方得到交集数据的秘密份额,以使两个参与方在秘密分享值上进行运算,实现纵向联邦学习。由此,可以增强纵向联邦学习的安全性,提高纵向联邦学习的效率,方便联邦学习在高敏感数据场景下应用落地。
具体而言,图1为本申请实施例所提供的一种纵向联邦学习方法的流程示意图。
该实施例中,纵向联邦学习可以分为数据对齐阶段、模型训练阶段以及模型推理阶段。在数据对齐阶段需要对纵向划分的数据集进行处理,方便后续进行模型训练,通常要找出不同参与方数据集中那些对于共同用户的数据;模型训练阶段是从数据中挖掘出价值的过程,常用的模型包括线性回归、逻辑回归、神经网络以及树模型等;推理阶段是模型的使用阶段,是数据价值的使用和变现过程。
由于数据集的纵向划分,需要在模型训练时对中间结果进行更复杂的拼接操作,因此纵向联邦学习与横向联邦学习相比在模型训练时复杂性更高。
如图1所示,该纵向联邦学习方法包括以下步骤:
在步骤S101中,分别使得第一参与方与第二参与方对本地数据集的样本ID进行编码,为本地数据集中每个样本的每个特征生成随机数,构造加法秘密分享。
可选地,分别使得第一参与方与第二参与方对本地数据集的样本ID进行编码,为本地数据集中每个样本的每个特征生成随机数,构造加法秘密分享,包括:将样本特征部分的每个值随机拆分,构成加法秘密分享。
其中,样本包括样本ID和样本特征两个部分,样本标签归为样本特征的一部分进行处理;本申请实施例在进行编码时可以使用具有单向性和机密性的方法,例如,CLK编码是其中一种可行的方法,CLK编码是一种基于布隆过滤器的编码技术,可以保证仅仅从编码值无法恢复出原始明文信息,与普通哈希函数相比抗碰撞性更强,更安全。
加法秘密分享是一种轻量级的隐私保护技术,两方的加法秘密分享即把明文值x拆分成两份秘密份额x1和x2,满足x=x1+x2,两份秘密份额分别由两方保管。在不恢复出原始x的情况下可以对秘密份额进行计算,例如加法、乘法以及其它操作,这样就可以达到在不泄露明文的前提下完成计算的目的。
举例而言,假设本申请实施例的纵向联邦学习方法涉及到第一参与方A、第二参与方B和预设服务器C。其中,本地数据集在第一参与方A和第二参与方B之间纵向划分。
第一参与方A和第二参与方B分别将本地数据集中的样本ID进行编码,所采用的编码方法要确保从编码值无法获得关于原始消息的任何信息,例如采用CLK编码。第一参与方A和第二参与方B将样本特征部分的每个值随机拆分,构成加法秘密分享。例如,第一参与方A有数据集的前两个特征以及样本标签,第二参与方B有数据集的后两个特征,第一参与方A对数据集进行处理,生成数据集的两份秘密份额,可以如图2和图3所示,其中,图2为第一参与方A数据处理过程的示意图,图3为第二参与方B数据处理过程的示意图。
需要说明的是,图2和图3中<1>0是f1的第一份秘密份额,满足<1>0+<1>1=1,其它的符号同理;为方便描述,不同样本的数据使用了相同的符号。
在步骤S102中,在第一参与方将样本ID的编码和对应的第一样本特征的秘密份额发送给预设服务器的同时,把第一样本特征的另一部分秘密份额发送给第二参与方,且在第二参与方把样本ID的编码以及对应的第二样本特征的秘密份额发送给预设服务器的同时,把第二样本特征的另一部分秘密份额发送给第一参与方。
具体地,第一参与方A和第二参与方B可以将生成的第一份秘密份额发送给预设服务器C,第一参与方A和第二参与方B交换第二份秘密份额,交换后的结果可以如图4所示。
在步骤S103中,基于预设服务器通过比较样本ID的编码找出两个参与方之间的共有样本,并删除不在交集中的样本的秘密份额,随机重新排列交集样本秘密份额的顺序。
可选地,在删除不在交集中的样本的秘密份额,随机重新排列交集样本秘密份额的顺序之后,还包括:发送重新排列的方法至两个参与方,使得两个参与方中的另一半秘密份额按照重新排列的方法执行相同的重新排列操作。
具体而言,预设服务器C可以根据样本ID的编码进行比较,找出样本交集,删除交集外的秘密份额并重新随机排列秘密份额的顺序,预设服务器C要告知第一参与方A和第二参与方B重新排列的方法,以便第一参与方A和第二参与方B也相应地调整另一半秘密份额的顺序。调整后的结果可以如图5所示。
在步骤S104中,基于预设服务器随机生成0的秘密份额,将原始秘密份额掩盖,并且将混淆后的秘密份额发送给两个参与方,使得两个参与方得到交集数据的秘密份额,以使两个参与方在秘密分享值上进行运算,实现纵向联邦学习。
可选地,使两个参与方在秘密分享值上进行运算,实现纵向联邦学习,包括:获取纵向联邦学习模型训练实质上所需要的目标数据集的秘密份额;基于目标数据集的秘密份额,在秘密分享下进行计算,完成模型训练过程。
具体而言,预设服务器C可以为每一个样本特征的秘密份额随机生成“0”的秘密份额,并作加法,用来混淆秘密份额的值。预设服务器C把调整后的样本特征的秘密份额发送给第一参与方A和第二参与方B,由于此时的秘密份额被随机调整了顺序并添加了“0”来混淆,因此,第一参与方A和第二参与方B都无法将收到的秘密份额与自己曾发出去的秘密份额对应起来,也就无法得知对应的样本ID。第一参与方A和第二参与方B最终拥有目标数据集的秘密份额可以如图6所示。
进一步地,第一参与方A和第二参与方B得到了纵向联邦学习模型训练实质上所需要的目标数据集的秘密份额,双方在秘密分享下进行计算,完成模型训练过程。
根据本申请实施例提出的纵向联邦学习方法,分别使得第一参与方与第二参与方对本地数据集的样本ID进行编码,为本地数据集中每个样本的每个特征生成随机数,构造加法秘密分享,并在第一参与方将样本ID的编码和对应的第一样本特征的秘密份额发送给预设服务器的同时,把第一样本特征的另一部分秘密份额发送给第二参与方,且在第二参与方把样本ID的编码以及对应的第二样本特征的秘密份额发送给预设服务器的同时,把第二样本特征的另一部分秘密份额发送给第一参与方,并基于预设服务器通过比较样本ID的编码找出两个参与方之间的共有样本,并删除不在交集中的样本的秘密份额,随机重新排列交集样本秘密份额的顺序,并基于预设服务器随机生成0的秘密份额,将原始秘密份额掩盖,并且将混淆后的秘密份额发送给两个参与方,使得两个参与方得到交集数据的秘密份额,以使两个参与方在秘密分享值上进行运算,实现纵向联邦学习。由此,可以增强纵向联邦学习的安全性,提高纵向联邦学习的效率,方便联邦学习在高敏感数据场景下应用落地。
其次参照附图描述根据本申请实施例提出的纵向联邦学习装置。
图7是本申请实施例的纵向联邦学习装置的方框示意图。
如图7所示,该纵向联邦学习装置10包括:数据加密模块100、发送模块200、密文交集获取与莫问顺序混淆模块300和密文盲化和私密通信模块400。
其中,数据加密模块100用于分别使得第一参与方与第二参与方对本地数据集的样本ID进行编码,为本地数据集中每个样本的每个特征生成随机数,构造加法秘密分享;
发送模块200用于在第一参与方将样本ID的编码和对应的第一样本特征的秘密份额发送给预设服务器的同时,把第一样本特征的另一部分秘密份额发送给第二参与方,且在第二参与方把样本ID的编码以及对应的第二样本特征的秘密份额发送给预设服务器的同时,把第二样本特征的另一部分秘密份额发送给第一参与方;
密文交集获取与莫问顺序混淆模块300用于基于预设服务器通过比较样本ID的编码找出两个参与方之间的共有样本,并删除不在交集中的样本的秘密份额,随机重新排列交集样本秘密份额的顺序;
密文盲化和私密通信模块400用于基于预设服务器随机生成0的秘密份额,将原始秘密份额掩盖,并且将混淆后的秘密份额发送给两个参与方,使得两个参与方得到交集数据的秘密份额,以使两个参与方在秘密分享值上进行运算,实现纵向联邦学习。
可选地,数据加密模块100具体用于:
将样本特征部分的每个值随机拆分,构成加法秘密分享。
可选地,在删除不在交集中的样本的秘密份额,随机重新排列交集样本秘密份额的顺序之后,密文交集获取与莫问顺序混淆模块300还用于:
发送重新排列的方法至两个参与方,使得两个参与方中的另一半秘密份额按照重新排列的方法执行相同的重新排列操作。
可选地,密文盲化和私密通信模块400具体用于:
获取纵向联邦学习模型训练实质上所需要的目标数据集的秘密份额;
基于目标数据集的秘密份额,在秘密分享下进行计算,完成模型训练过程。需要说明的是,前述对纵向联邦学习方法实施例的解释说明也适用于该实施例的纵向联邦学习装置,此处不再赘述。
根据本申请实施例提出的纵向联邦学习装置,分别使得第一参与方与第二参与方对本地数据集的样本ID进行编码,为本地数据集中每个样本的每个特征生成随机数,构造加法秘密分享,并在第一参与方将样本ID的编码和对应的第一样本特征的秘密份额发送给预设服务器的同时,把第一样本特征的另一部分秘密份额发送给第二参与方,且在第二参与方把样本ID的编码以及对应的第二样本特征的秘密份额发送给预设服务器的同时,把第二样本特征的另一部分秘密份额发送给第一参与方,并基于预设服务器通过比较样本ID的编码找出两个参与方之间的共有样本,并删除不在交集中的样本的秘密份额,随机重新排列交集样本秘密份额的顺序,并基于预设服务器随机生成0的秘密份额,将原始秘密份额掩盖,并且将混淆后的秘密份额发送给两个参与方,使得两个参与方得到交集数据的秘密份额,以使两个参与方在秘密分享值上进行运算,实现纵向联邦学习。由此,可以增强纵向联邦学习的安全性,提高纵向联邦学习的效率,方便联邦学习在高敏感数据场景下应用落地。
图8为本申请实施例提供的电子设备的结构示意图。该电子设备可以包括:
存储器801、处理器802及存储在存储器801上并可在处理器802上运行的计算机程序。
处理器802执行程序时实现上述实施例中提供的纵向联邦学习方法。
进一步地,电子设备还包括:
通信接口803,用于存储器801和处理器802之间的通信。
存储器801,用于存放可在处理器802上运行的计算机程序。
存储器801可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器801、处理器802和通信接口803独立实现,则通信接口803、存储器801和处理器802可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(PeripheralComponent,简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture,简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器801、处理器802及通信接口803,集成在一块芯片上实现,则存储器801、处理器802及通信接口803可以通过内部接口完成相互间的通信。
处理器802可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。
本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上的纵向联邦学习方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“N个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或N个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (4)
1.一种纵向联邦学习方法,其特征在于,包括以下步骤:
分别使得第一参与方与第二参与方对本地数据集的样本ID进行编码,为所述本地数据集中每个样本的每个特征生成随机数,构造加法秘密分享;
在所述第一参与方将样本ID的编码和对应的第一样本特征的秘密份额发送给预设服务器的同时,把所述第一样本特征的另一部分秘密份额发送给所述第二参与方,且在所述第二参与方把样本ID的编码以及对应的第二样本特征的秘密份额发送给所述预设服务器的同时,把所述第二样本特征的另一部分秘密份额发送给所述第一参与方;
基于所述预设服务器通过比较样本ID的编码找出两个参与方之间的共有样本,并删除不在交集中的样本的秘密份额,随机重新排列交集样本秘密份额的顺序;
基于所述预设服务器随机生成0的秘密份额,将原始秘密份额掩盖,并且将混淆后的秘密份额发送给所述两个参与方,使得所述两个参与方得到交集数据的秘密份额,以使所述两个参与方在秘密分享值上进行运算,实现纵向联邦学习;
所述分别使得第一参与方与第二参与方对本地数据集的样本ID进行编码,为所述本地数据集中每个样本的每个特征生成随机数,构造加法秘密分享,包括:将样本特征部分的每个值随机拆分,构成所述加法秘密分享;
在删除所述不在交集中的样本的秘密份额,随机重新排列所述交集样本秘密份额的顺序之后,还包括:发送重新排列的方法至所述两个参与方,使得所述两个参与方中的另一半秘密份额按照所述重新排列的方法执行相同的重新排列操作;
所述使所述两个参与方在秘密分享值上进行运算,实现纵向联邦学习,包括:获取纵向联邦学习模型训练实质上所需要的目标数据集的秘密份额;基于所述目标数据集的秘密份额,在秘密分享下进行计算,完成模型训练过程。
2.一种纵向联邦学习装置,其特征在于,包括:
数据加密模块,用于分别使得第一参与方与第二参与方对本地数据集的样本ID进行编码,为所述本地数据集中每个样本的每个特征生成随机数,构造加法秘密分享;
发送模块,用于在所述第一参与方将样本ID的编码和对应的第一样本特征的秘密份额发送给预设服务器的同时,把所述第一样本特征的另一部分秘密份额发送给所述第二参与方,且在所述第二参与方把样本ID的编码以及对应的第二样本特征的秘密份额发送给所述预设服务器的同时,把所述第二样本特征的另一部分秘密份额发送给所述第一参与方;
密文交集获取与莫问顺序混淆模块,用于基于所述预设服务器通过比较样本ID的编码找出两个参与方之间的共有样本,并删除不在交集中的样本的秘密份额,随机重新排列交集样本秘密份额的顺序;
密文盲化和私密通信模块,用于基于所述预设服务器随机生成0的秘密份额,将原始秘密份额掩盖,并且将混淆后的秘密份额发送给所述两个参与方,使得所述两个参与方得到交集数据的秘密份额,以使所述两个参与方在秘密分享值上进行运算,实现纵向联邦学习;
其中,所述数据加密模块,具体用于:将样本特征部分的每个值随机拆分,构成所述加法秘密分享;
在删除所述不在交集中的样本的秘密份额,随机重新排列所述交集样本秘密份额的顺序之后,所述密文交集获取与莫问顺序混淆模块,还用于:发送重新排列的方法至所述两个参与方,使得所述两个参与方中的另一半秘密份额按照所述重新排列的方法执行相同的重新排列操作;
所述密文盲化和私密通信模块,具体用于:获取纵向联邦学习模型训练实质上所需要的目标数据集的秘密份额;基于所述目标数据集的秘密份额,在秘密分享下进行计算,完成模型训练过程。
3.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如权利要求1所述的纵向联邦学习方法。
4.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以用于实现如权利要求1所述的纵向联邦学习方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210116816.5A CN114648130B (zh) | 2022-02-07 | 2022-02-07 | 纵向联邦学习方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210116816.5A CN114648130B (zh) | 2022-02-07 | 2022-02-07 | 纵向联邦学习方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114648130A CN114648130A (zh) | 2022-06-21 |
CN114648130B true CN114648130B (zh) | 2024-04-16 |
Family
ID=81993641
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210116816.5A Active CN114648130B (zh) | 2022-02-07 | 2022-02-07 | 纵向联邦学习方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114648130B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115378693B (zh) * | 2022-08-18 | 2024-02-23 | 西安电子科技大学 | 一种用于纵向联邦学习数据对齐的隐匿集合求交方法 |
CN115719094B (zh) * | 2023-01-06 | 2023-04-28 | 腾讯科技(深圳)有限公司 | 基于联邦学习的模型训练方法、装置、设备及存储介质 |
CN116049909B (zh) * | 2023-01-28 | 2023-06-27 | 腾讯科技(深圳)有限公司 | 联邦特征工程中的特征筛选方法、装置、设备及存储介质 |
CN117114059A (zh) * | 2023-05-16 | 2023-11-24 | 华为云计算技术有限公司 | 神经网络中激活函数的计算方法、装置以及计算设备 |
CN117171779B (zh) * | 2023-11-02 | 2024-02-27 | 闪捷信息科技有限公司 | 基于交集保护的数据处理装置 |
CN117579273B (zh) * | 2024-01-12 | 2024-04-30 | 蓝象智联(杭州)科技有限公司 | 一种不暴露交集id的隐私集合求交方法和系统 |
CN117648999B (zh) * | 2024-01-30 | 2024-04-23 | 上海零数众合信息科技有限公司 | 联邦学习回归模型损失函数评估方法、装置及电子设备 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110288094A (zh) * | 2019-06-10 | 2019-09-27 | 深圳前海微众银行股份有限公司 | 基于联邦学习的模型参数训练方法及装置 |
CN111241567A (zh) * | 2020-01-16 | 2020-06-05 | 深圳前海微众银行股份有限公司 | 基于秘密共享的纵向联邦学习方法、系统及存储介质 |
CN111259446A (zh) * | 2020-01-16 | 2020-06-09 | 深圳前海微众银行股份有限公司 | 基于联邦迁移学习的参数处理方法、设备及存储介质 |
CN111860829A (zh) * | 2020-06-19 | 2020-10-30 | 光之树(北京)科技有限公司 | 联邦学习模型的训练方法及装置 |
CN111950740A (zh) * | 2020-07-08 | 2020-11-17 | 光之树(北京)科技有限公司 | 联邦学习模型的训练方法及装置 |
WO2020233137A1 (zh) * | 2019-05-23 | 2020-11-26 | 创新先进技术有限公司 | 损失函数取值的确定方法、装置和电子设备 |
CN112149160A (zh) * | 2020-08-28 | 2020-12-29 | 山东大学 | 基于同态伪随机数的联邦学习隐私保护方法及系统 |
WO2021114618A1 (zh) * | 2020-05-14 | 2021-06-17 | 平安科技(深圳)有限公司 | 联邦学习方法、装置、计算机设备及可读存储介质 |
WO2021139467A1 (zh) * | 2020-08-07 | 2021-07-15 | 平安科技(深圳)有限公司 | 联邦学习方法、系统、计算机设备和存储介质 |
WO2021239006A1 (zh) * | 2020-05-27 | 2021-12-02 | 支付宝(杭州)信息技术有限公司 | 基于秘密共享的训练方法、装置、电子设备及存储介质 |
-
2022
- 2022-02-07 CN CN202210116816.5A patent/CN114648130B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020233137A1 (zh) * | 2019-05-23 | 2020-11-26 | 创新先进技术有限公司 | 损失函数取值的确定方法、装置和电子设备 |
CN110288094A (zh) * | 2019-06-10 | 2019-09-27 | 深圳前海微众银行股份有限公司 | 基于联邦学习的模型参数训练方法及装置 |
CN111241567A (zh) * | 2020-01-16 | 2020-06-05 | 深圳前海微众银行股份有限公司 | 基于秘密共享的纵向联邦学习方法、系统及存储介质 |
CN111259446A (zh) * | 2020-01-16 | 2020-06-09 | 深圳前海微众银行股份有限公司 | 基于联邦迁移学习的参数处理方法、设备及存储介质 |
WO2021114618A1 (zh) * | 2020-05-14 | 2021-06-17 | 平安科技(深圳)有限公司 | 联邦学习方法、装置、计算机设备及可读存储介质 |
WO2021239006A1 (zh) * | 2020-05-27 | 2021-12-02 | 支付宝(杭州)信息技术有限公司 | 基于秘密共享的训练方法、装置、电子设备及存储介质 |
CN111860829A (zh) * | 2020-06-19 | 2020-10-30 | 光之树(北京)科技有限公司 | 联邦学习模型的训练方法及装置 |
CN111950740A (zh) * | 2020-07-08 | 2020-11-17 | 光之树(北京)科技有限公司 | 联邦学习模型的训练方法及装置 |
WO2021139467A1 (zh) * | 2020-08-07 | 2021-07-15 | 平安科技(深圳)有限公司 | 联邦学习方法、系统、计算机设备和存储介质 |
CN112149160A (zh) * | 2020-08-28 | 2020-12-29 | 山东大学 | 基于同态伪随机数的联邦学习隐私保护方法及系统 |
Non-Patent Citations (1)
Title |
---|
基于秘密分享和梯度选择的高效安全联邦学习;董业等;计算机研究与发展;20201009;第57卷(第10期);2241-2250 * |
Also Published As
Publication number | Publication date |
---|---|
CN114648130A (zh) | 2022-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114648130B (zh) | 纵向联邦学习方法、装置、电子设备及存储介质 | |
Liu et al. | Cryptanalyzing a RGB image encryption algorithm based on DNA encoding and chaos map | |
CN109478279A (zh) | 区块链实现的方法和系统 | |
CN104766113B (zh) | 一种明暗码防伪标贴及其防伪方法 | |
CN113591146B (zh) | 基于合作的高效安全两方计算系统及计算方法 | |
CN112101531B (zh) | 基于隐私保护的神经网络模型训练方法、装置及系统 | |
CN108734018A (zh) | 认证方法、装置、系统和计算机可读存储介质 | |
US20120278345A1 (en) | Variable Substitution Data Processing Method | |
CN113761563A (zh) | 数据交集计算方法、装置及电子设备 | |
Chen et al. | Multiple secret image sharing with general access structure | |
CN117171779B (zh) | 基于交集保护的数据处理装置 | |
CN113722753A (zh) | 基于区块链的隐私数据处理方法、装置及系统 | |
Durdu | Image transfer with secure communications application using a new reversible chaotic image encryption | |
Tong et al. | Chaotic coyote optimization algorithm for image encryption and steganography | |
CN109740304A (zh) | 一种车型诊断权限管理方法及相关设备 | |
CN113055153A (zh) | 一种基于全同态加密算法的数据加密方法、系统和介质 | |
CN112948883A (zh) | 保护隐私数据的多方联合建模的方法、装置和系统 | |
CN108334786A (zh) | 一种数据加密方法 | |
CN105550879A (zh) | 一种加密方法及装置 | |
CN116743376A (zh) | 基于高效密文混淆技术的多方秘密分享数据隐私比较方法 | |
CN116915383A (zh) | 不经意键值存储编解码方法、系统、装置和介质 | |
CN114338017B (zh) | 一种基于秘密分享的排序方法和系统 | |
CN112561076B (zh) | 模型处理方法和装置 | |
CN110427768A (zh) | 一种私钥管理方法及系统 | |
CN113592097B (zh) | 联邦模型的训练方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |