CN113505894B - 纵向联邦学习线性回归和逻辑回归模型训练方法及装置 - Google Patents
纵向联邦学习线性回归和逻辑回归模型训练方法及装置 Download PDFInfo
- Publication number
- CN113505894B CN113505894B CN202110615631.4A CN202110615631A CN113505894B CN 113505894 B CN113505894 B CN 113505894B CN 202110615631 A CN202110615631 A CN 202110615631A CN 113505894 B CN113505894 B CN 113505894B
- Authority
- CN
- China
- Prior art keywords
- sample
- party
- data
- training
- encryption
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 101
- 238000007477 logistic regression Methods 0.000 title claims abstract description 47
- 238000012417 linear regression Methods 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000002776 aggregation Effects 0.000 claims abstract description 27
- 238000004220 aggregation Methods 0.000 claims abstract description 27
- 238000003860 storage Methods 0.000 claims abstract description 10
- 230000000694 effects Effects 0.000 claims description 19
- 238000004422 calculation algorithm Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000010801 machine learning Methods 0.000 abstract description 5
- 230000008520 organization Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000006854 communication Effects 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/21—Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/2107—File encryption
Abstract
本申请公开了一种纵向联邦学习线性回归和逻辑回归模型训练方法、装置、计算机设备和存储介质,该方法通过各个参与方加密各自的本地训练数据,并交换加密后的密文;通过可交换加密方式获得参与方拥有样本交集的交集密文;随机选取多条交集密文中的数据,根据选取的数据得到参与方的中间结果密文,对中间结果密文进行解密,并根据解密结果计算加密聚合梯度;对加密聚合梯度进行解密,得到更新参与方模型参数的梯度;对模型进行更新,判断是否满足迭代终止条件,若满足,则结束迭代,若不满足则继续训练。解决了现有技术中由于数据的隐私性和不同组织之间缺乏信任,使得各组织的敏感数据难以充分利用以进行分布式机器学习模型训练的技术问题。
Description
技术领域
本申请涉及机器学习技术领域,特别涉及一种纵向联邦学习线性回归和逻辑回归模型训练方法、装置、计算机设备及存储介质。
背景技术
人工智能作为引领新一代产业变革的新兴技术,已经在人们的生产生活中得到了越来越广泛的应用。人工智能的发展离不开支撑其训练模型的海量数据。然而,人工智能技术在各行各业的实际应用中面临着许多挑战,包括隐私、安全和效率等方面,其数据是影响应用发展的重要因素。由于训练数据的隐私问题和参与方之间的信任问题,使得企业之间的隐私数据难以流通,即无法发挥潜在的应用价值和缺乏有价值的数据合作,制约着它们进一步发展。
联邦学习作为人工智能技术的新分支,能够在满足隐私保护和数据安全的前提下,在多参与方之间进行数据共享、模型训练和释放数据价值,助力产业创新,促进企业和行业发展。联邦学习的应用场景可以分为横向联邦学习和纵向联邦学习,横向联邦学习又称为基于样本的联邦学习,各参与方掌握不同的数据样本,通过合作来提高训练模型的性能,各参与方可能是拥有数据的企业或用户的客户端等;纵向联邦学习又称为基于特征的联邦学习,参与方掌握着样本的不同特征,各个参与方通常是领域和方向不同的企业和大型组织。
其中纵向联邦学习现有的一般做法是各参与方首先求出所有参与方拥有的样本交集,用隐私集合求交技术可以保证各参与方不能获得除交集ID外的其它信息。在交集中每个参与方将各自拥有的特征拼合,形成完整样本后再进行训练。然而在实际场景中,样本ID作为能够唯一标识训练样本并且多个参与方共有的数据,通常是用户的身份证号和手机号等敏感数据,因此仅仅交集本身也会造成隐私泄露问题。例如游戏公司、借贷公司、保险公司和互联网平台,它们掌握的样本ID可能是高额违约用户、高理赔客户、黑灰产账户等,这些信息的泄露将导致公司蒙受巨大的损失。
线性回归是利用数理统计中的回归分析,来确定变量间相互依赖关系的一种统计分析方法,作为最简单的机器学习模型,在金融、经济和医疗等领域有着广泛的用途。逻辑回归是基于线性回归的用作分类问题的机器学习模型,常用于数据挖掘、疾病诊断和经济预测等领域。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请提出一种纵向联邦学习线性回归和逻辑回归模型训练方法和装置,解决了现有技术中由于数据的隐私性和不同组织之间缺乏信任,使得各组织的敏感数据难以充分利用以进行分布式机器学习模型训练的技术问题。
为达上述目的,本申请第一方面实施例提出了一种纵向联邦学习线性回归和逻辑回归模型训练方法,包括:
S1,通过各个参与方加密各自的本地训练数据,并交换加密后的密文;
S2,通过可交换加密方式获得参与方拥有样本交集的交集密文;
S3,随机选取多条所述交集密文中的数据,根据选取的数据得到参与方的中间结果密文,对所述中间结果密文进行解密,并根据解密结果计算加密聚合梯度;
S4,对所述加密聚合梯度进行解密,得到更新参与方模型参数的梯度;
S5,对模型进行更新,判断是否满足迭代终止条件,若满足,则结束迭代,若不满足则转S3。
本申请实施例的纵向联邦学习线性回归和逻辑回归模型训练方法,没有任何参与方可以获得各参与方拥有样本的交集信息,当样本ID是敏感的,仍然可以提供训练数据的隐私性;除了代理重加密中介外不需要可信第三方,提高了系统安全性,即使代理重加密中介被攻击,仍然能够保证数据隐私性。
为达上述目的,本申请第二方面实施例提出了一种纵向联邦学习线性回归和逻辑回归模型训练装置,包括:
数据加密单元,用于通过各个参与方加密各自的本地训练数据,并交换加密后的密文;
交集密文获取单元,用于通过可交换加密方式获得参与方拥有样本交集的交集密文;
加密聚合梯度计算单元,用于随机选取多条所述交集密文中的数据,根据选取的数据得到参与方的中间结果密文,对所述中间结果密文进行解密,并根据解密结果计算加密聚合梯度;
数据解密单元,用于对所述加密聚合梯度进行解密,得到更新参与方模型参数的梯度;
模型更新单元,用于对模型进行更新,判断是否满足迭代终止条件,若满足,则结束迭代,若不满足则通过所述加密聚合梯度计算单元继续进行计算。
本申请实施例的纵向联邦学习线性回归和逻辑回归模型训练装置,没有任何参与方可以获得各参与方拥有样本的交集信息,当样本ID是敏感的,仍然可以提供训练数据的隐私性;除了代理重加密中介外不需要可信第三方,提高了系统安全性,即使代理重加密中介被攻击,仍然能够保证数据隐私性。
为达上述目的,本申请第三方面实施例提出了一种计算机设备,包括:处理器和存储器;其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如第一方面实施例所述的纵向联邦学习线性回归和逻辑回归模型训练方法。
为达上述目的,本申请第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面实施例所述的纵向联邦学习线性回归和逻辑回归模型训练方法。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本申请一个实施例的安全的纵向联邦学习线性回归和逻辑回归模型训练方法的应用场景示意图;
图2为根据本申请一个实施例的纵向联邦学习线性回归和逻辑回归模型训练方法流程图;
图3为根据本申请一个实施例的纵向联邦学习线性回归和逻辑回归模型训练方法流程框图;
图4为根据本申请一个实施例的纵向联邦学习线性回归和逻辑回归模型训练装置结构示意图;
图5为根据本申请一个实施例的计算机设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参照附图描述根据本申请实施例提出的纵向联邦学习线性回归和逻辑回归模型训练方法、装置、计算机设备和存储介质。
图1为根据本申请一个实施例的安全的纵向联邦学习线性回归和逻辑回归模型训练方法的应用场景示意图。如图1所示,展示了本申请中的数据终端。数据终端作为联邦学习的参与者,可以在本地对数据进行加密、处理,数据终端之间、数据终端与代理重加密中介之间建立通讯连接。代理重加密中介提供重加密功能的代理中介,可以在获得授权的情况下将一个数据终端加密的密文重加密为另一个数据终端可以解密的密文,在此过程中代理中介不能获得任何除密文外的任何信息。
参照附图描述根据本申请实施例提出的纵向联邦学习线性回归和逻辑回归模型训练方法。
图2为根据本申请一个实施例的纵向联邦学习线性回归和逻辑回归模型训练方法流程图。
图3为根据本申请一个实施例的纵向联邦学习线性回归和逻辑回归模型训练方法流程框图。
如图2和图3所示,该纵向联邦学习线性回归和逻辑回归模型训练方法包括以下步骤:
步骤S1,通过各个参与方加密各自的本地训练数据,并交换加密后的密文。
可选地,在一些实施例中,S1进一步包括:
在线性回归模型训练中,通过可交换加密的方式加密参与方的本地训练数据中敏感的且与训练模型效果无关的特征;通过同态加密算法加密模型参数与样本特征的乘积与样本标签的差值以及样本特征本身,样本特征是与训练模型效果有关的特征;
在逻辑回归模型训练中,通过可交换加密算法加密参与方的本地训练数据中敏感的且与训练模型效果无关的特征,通过同态加密算法加密模型参数与样本特征的乘积以及样本特征本身,通过同态加密算法加密样本标签;
参与方混淆样本顺序后交换加密数据。
具体地,在纵向联邦学习线性回归和逻辑回归模型训练方法中,应用于联邦学习系统中的第一参与方A与第二参与方B。
加密本地训练数据并交换密文。第一参与方A用可交换加密方式加密本地训练数据中敏感的且与训练模型效果无关的特征(样本ID),用满足加法同态的加密方式加密本地训练数据中与训练模型效果有关的特征(可训练特征):
第二参与方B用可交换加密方式加密本地训练数据的样本ID,用满足加法同态的加密方式加密本地训练数据中的可训练特征及其中间结果:
第一参与方A与第二参与方B混淆样本顺序后交换加密数据。
步骤S2,通过可交换加密方式获得参与方拥有样本交集的交集密文。
可选地,在一些实施例中,参与方包括第一参与方和第二参与方,S2进一步包括:
第二参与方将收到的第一参与方的每条样本相关密文中敏感的且与训练模型效果无关的特征的密文部分重新加密,混淆样本顺序后发送给代理重加密中介:
代理重加密中介将每条样本相关密文中加密的与训练模型效果有关的特征密文部分转化为第二参与方可解密的密文,混淆样本顺序后发送给第一参与方:
第一参与方将第二参与方发送的每条样本相关密文中敏感的且与训练模型效果无关的特征密文部分重新加密,第一参与方获得来自代理重加密中介的密文,对于敏感的且与训练模型效果无关的特征相同的样本,根据可交换加密的性质,第一参与方通过比较获得关于交集中样本数据的密文。
具体地,第二参与方B将收到的第一参与方A的密文中样本ID的密文重新加密一下,混淆样本顺序后发送给代理重加密中介:
代理重加密中介将加密的可训练特征密文转化为第二参与方B可解密的密文,混淆样本顺序后发送给参与方A:
第一参与方A将第二参与方B发送的密文的加密样本ID重新加密一下,第一参与方A也获得来自代理重加密中介的密文,对于样本ID相同的那部分样本,根据可交换加密的性质,它们的密文数据的第一部分是相同的:
第一参与方A通过比较获得关于交集O中样本数据的密文:
步骤S3,随机选取多条交集密文中的数据,根据选取的数据得到参与方的中间结果密文,对中间结果密文进行解密,并根据解密结果计算加密聚合梯度。
可选地,在一些实施例中,S3进一步包括:
第一参与方随机选择交集密文中的多条数据;
将选取的多条数据中分别来自第一参与方和第二参与方的加密的中间结果相加,发送给第二参与方解密;
第二参与方解密后发送给第一参与方,第一参与方将第二参与方解密的明文与对应的样本特征密文相乘,根据加同态加密的性质计算加密聚合梯度。
可选地,在一些实施例中,在训练模型是逻辑回归模型时,第一参与方对两个参与方的中间结果求和时不包括样本标签,加密的标签将和加密的中间结果一起发送给第二参与方进行解密,第一参与方基于第二参与方的解密结果计算加密的逻辑回归梯度。
具体地,参与方A随机选择交集密文中的k条数据,将其中分别来自参与方A和参与方B的加密的中间结果相加,发送给参与方B解密:
参与方B解密后发送给参与方A,这次通讯过程没有混淆样本顺序,因此参与方A将B解密的明文与对应的样本特征密文相乘,根据加同态加密的性质计算k个样本的平均的加密的梯度:
若训练模型是逻辑回归模型,则参与方A对双方中间结果求和时不包括样本标签,加密的标签将和加密的中间结果一起发送给参与方B进行解密:
参与方A基于参与方B的解密结果计算加密的逻辑回归梯度:
步骤S4,对加密聚合梯度进行解密,得到更新参与方模型参数的梯度。
具体点,第二参与方B解密第一参与方A发送的密文,计算用于更新双方模型参数的梯度:
步骤S5,对模型进行更新,判断是否满足迭代终止条件,若满足,则结束迭代,若不满足则转S3。
可选地,在一些实施例中,迭代终止条件为:
当前迭代轮次达到预设轮次;或
训练模型的损失函数达到迭代终止条件。
具体地,双方更新模型,计算模型损失函数是否达到停止条件或是否达到迭代次数,若没有,则第一参与方A重新从交集密文中随机选择k条数据,迭代训练直到收敛。
可选地,在一些实施例中,在S1之前,还包括:
S0,各参与方初始化模型参数,创建可交换加密密钥和加同态代理重加密密钥对;除了加同态代理重加密的公钥外,其它密钥保密,第一参与方A使用第二参与方B的公钥和自己的私钥,生成代理重加密的转化密钥并发送给代理重加密中介。
根据本申请实施例提出的纵向联邦学习线性回归和逻辑回归模型训练方法,没有任何参与方可以获得各参与方拥有样本的交集信息,当样本ID是敏感的,仍然可以提供训练数据的隐私性;除了代理重加密中介外不需要可信第三方,提高了系统安全性,即使代理重加密中介被攻击,仍然能够保证数据隐私性。
其次参照附图描述根据本申请实施例提出的纵向联邦学习线性回归和逻辑回归模型训练装置。
图4为根据申请一个实施例的纵向联邦学习线性回归和逻辑回归模型训练装置结构示意图。
如图4所示,该纵向联邦学习线性回归和逻辑回归模型训练装置包括:数据加密单元301,交集密文获取单元302,加密聚合梯度计算单元303,数据解密单元304和模型更新单元305。
数据加密单元301,用于通过各个参与方加密各自的本地训练数据,并交换加密后的密文。
交集密文获取单元302,用于通过可交换加密方式获得参与方拥有样本交集的交集密文。
加密聚合梯度计算单元303,用于随机选取多条交集密文中的数据,根据选取的数据得到参与方的中间结果密文,对中间结果密文进行解密,并根据解密结果计算加密聚合梯度。
数据解密单元304,用于对加密聚合梯度进行解密,得到更新参与方模型参数的梯度。
模型更新单元305,用于对模型进行更新,判断是否满足迭代终止条件,若满足,则结束迭代,若不满足则通过加密聚合梯度计算单元继续进行计算。
具体地,数据加密单元301用于提供加密功能,在不泄露每个参与方样本信息的情况下进行后续过程。在线性回归模型训练中,数据加密单元用可交换加密算法加密样本ID,用同态加密算法加密模型参数与样本特征的运算中间结果以及样本特征本身;在逻辑回归模型训练中,数据加密单元用可交换加密算法加密样本ID,用同态加密算法加密模型参数与样本特征的乘积以及样本特征本身,拥有样本标签的参与方B也要用同态加密算法加密样本标签。
交集密文获取单元302用于获得密文状态下的双方拥有的共同样本的相关数据。第一参与方A的加密样本数据经过第二参与方B和代理重加密中介的重新加密和顺序混淆后,无法确定密文与原始样本的对应关系;第二参与方B的加密样本数据对于第一参与方A也是未知的。双方的加密样本数据中加密的样本ID都经过两个参与方的可交换加密后,样本ID相同的数据将会是相同的密文,由此确定样本交集数据的密文。
加密聚合梯度计算单元303用于计算加密的聚合梯度,在不向任何参与方泄露具体交集信息的前提下,计算交集中样本的线性回归和逻辑回归模型更新梯度。基于加法同态的性质,将两个参与方的加密的中间结果相加等于双方的中间结果先相加再加密的值,聚合梯度的计算公式中的加法部分直接用加法同态的性质相加,聚合梯度的计算公式中的乘法部分结合解密单元304,将部分不会泄露样本信息的中间结果解密后与敏感的样本特征的密文作数乘运算,浮点数与加同态密文的数乘在工程上转化为密文相加。随机选择k个样本的加密数据计算加密的聚合梯度能提高效率并增加安全性。
解密单元304用于将不会泄露样本信息的中间结果的密文解密,帮助计算加密的聚合梯度和解密用于模型更新的梯度。将两个参与方的中间结果相加之后的值是每个参与方仅用自己的数据无法获得的,并且没有明确含义,解密单元解密之后与敏感的样本特征的密文作数乘运算,可以实现相当于密文相乘的功能同时避免使用开销大的全同态加密。
模型更新单元305,用于判断模型是否达到停止条件,控制模型训练流程。如果未达到停止条件,继续计算加密聚合梯度,迭代训练直到模型收敛。
需要说明的是,前述对方法实施例的解释说明也适用于该实施例的装置,此处不再赘述。
根据本申请实施例提出的纵向联邦学习线性回归和逻辑回归模型训练装置,没有任何参与方可以获得各参与方拥有样本的交集信息,当样本ID是敏感的,仍然可以提供训练数据的隐私性;除了代理重加密中介外不需要可信第三方,提高了系统安全性,即使代理重加密中介被攻击,仍然能够保证数据隐私性。
通过为了实现上述实施例,本申请还提出一种计算机设备,包括:处理器和存储器。其中,处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于实现如前述实施例所述的纵向联邦学习线性回归和逻辑回归模型训练方法。
图5为本申请实施例所提供的计算机设备的结构示意图,示出了适于用来实现本申请实施方式的示例性计算机设备90的框图。图5显示的计算机设备90仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图5所示,计算机设备90以通用计算机设备的形式表现。计算机设备90的组件可以包括但不限于:一个或者多个处理器或者处理单元906,系统存储器910,连接不同系统组件(包括系统存储器910和处理单元906)的总线908。
总线908表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
计算机设备90典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备90访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器910可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)911和/或高速缓存存储器912。计算机设备90可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统913可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc ReadOnly Memory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线908相连。系统存储器910可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。
具有一组(至少一个)程序模块9140的程序/实用工具914,可以存储在例如系统存储器910中,这样的程序模块9140包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块9140通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备90也可以与一个或多个外部设备10(例如键盘、指向设备、显示器100等)通信,还可与一个或者多个使得用户能与该终端设备90交互的设备通信,和/或与使得该计算机设备90能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口902进行。并且,计算机设备90还可以通过网络适配器900与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图5所示,网络适配器900通过总线908与计算机设备90的其它模块通信。应当明白,尽管图5中未示出,可以结合计算机设备90使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元906通过运行存储在系统存储器910中的程序,从而执行各种功能应用,例如实现前述实施例中提及的纵向联邦学习线性回归和逻辑回归模型训练方法。
为了实现上述实施例,本申请还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时,实现如前述实施例所述的纵向联邦学习线性回归和逻辑回归模型训练方法。
为了实现上述实施例,本申请还提出一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,实现如前述实施例所述的纵向联邦学习线性回归和逻辑回归模型训练方法。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (9)
1.一种纵向联邦学习线性回归和逻辑回归模型训练方法,其特征在于,包括以下步骤:
S1,通过各个参与方加密各自的本地训练数据,并交换加密后的密文;
S2,通过可交换加密方式获得参与方拥有样本交集的交集密文;
S3,随机选取多条所述交集密文中的数据,根据选取的数据得到参与方的中间结果密文,对所述中间结果密文进行解密,并根据解密结果计算加密聚合梯度;
S4,对所述加密聚合梯度进行解密,得到更新参与方模型参数的梯度;
S5,对模型进行更新,判断是否满足迭代终止条件,若满足,则结束迭代,若不满足则转S3;
所述S1进一步包括:
在线性回归模型训练中,通过可交换加密的方式加密参与方的本地训练数据中敏感的且与训练模型效果无关的特征;通过同态加密算法加密模型参数与样本特征的乘积与样本标签的差值以及样本特征本身,所述样本特征是与训练模型效果有关的特征;
在逻辑回归模型训练中,通过可交换加密算法加密参与方的本地训练数据中敏感的且与训练模型效果无关的特征,通过同态加密算法加密模型参数与样本特征的乘积以及样本特征本身,通过同态加密算法加密样本标签;
参与方混淆样本顺序后交换加密数据。
2.根据权利要求1所述的方法,其特征在于,所述参与方包括第一参与方和第二参与方,所述S2进一步包括:
所述第二参与方将收到的所述第一参与方的每条样本相关密文中敏感的且与训练模型效果无关的特征的密文部分重新加密,混淆样本顺序后发送给代理重加密中介:
代理重加密中介将每条样本相关密文中加密的与训练模型效果有关的特征密文部分转化为所述第二参与方可解密的密文,混淆样本顺序后发送给所述第一参与方:
所述第一参与方将所述第二参与方发送的每条样本相关密文中敏感的且与训练模型效果无关的特征密文部分重新加密,第一参与方获得来自代理重加密中介的密文,对于敏感的且与训练模型效果无关的特征相同的样本,根据可交换加密的性质,所述第一参与方通过比较获得关于交集中样本数据的密文。
3.根据权利要求2所述的方法,其特征在于,所述S3进一步包括:
所述第一参与方随机选择所述交集密文中的多条数据;
将选取的多条数据中分别来自所述第一参与方和所述第二参与方的加密的中间结果相加,发送给所述第二参与方解密;
所述第二参与方解密后发送给所述第一参与方,所述第一参与方将所述第二参与方解密的明文与对应的样本特征密文相乘,根据加同态加密的性质计算所述加密聚合梯度。
4.根据权利要求3所述的方法,其特征在于,在训练模型是逻辑回归模型时,所述第一参与方对两个参与方的中间结果求和时不包括样本标签,加密的标签将和加密的中间结果一起发送给所述第二参与方进行解密,所述第一参与方基于所述参与方的解密结果计算加密的逻辑回归梯度。
5.根据权利要求1所述的方法,其特征在于,所述迭代终止条件为:
当前迭代轮次达到预设轮次;或
训练模型的损失函数达到迭代终止条件。
6.根据权利要求3所述的方法,其特征在于,所述S1之前包括:
S0,各参与方初始化模型参数,创建可交换加密密钥和加同态代理重加密密钥对;除了加同态代理重加密的公钥外,其它密钥保密,第一参与方使用第二参与方的公钥和自己的私钥,生成代理重加密的转化密钥并发送给代理重加密中介。
7.一种纵向联邦学习线性回归和逻辑回归模型训练装置,其特征在于,包括:
数据加密单元,用于通过各个参与方加密各自的本地训练数据,并交换加密后的密文;
在线性回归模型训练中,通过可交换加密的方式加密参与方的本地训练数据中敏感的且与训练模型效果无关的特征;通过同态加密算法加密模型参数与样本特征的乘积与样本标签的差值以及样本特征本身,所述样本特征是与训练模型效果有关的特征;
在逻辑回归模型训练中,通过可交换加密算法加密参与方的本地训练数据中敏感的且与训练模型效果无关的特征,通过同态加密算法加密模型参数与样本特征的乘积以及样本特征本身,通过同态加密算法加密样本标签;
参与方混淆样本顺序后交换加密数据;
交集密文获取单元,用于通过可交换加密方式获得参与方拥有样本交集的交集密文;
加密聚合梯度计算单元,用于随机选取多条所述交集密文中的数据,根据选取的数据得到参与方的中间结果密文,对所述中间结果密文进行解密,并根据解密结果计算加密聚合梯度;
数据解密单元,用于对所述加密聚合梯度进行解密,得到更新参与方模型参数的梯度;
模型更新单元,用于对模型进行更新,判断是否满足迭代终止条件,若满足,则结束迭代,若不满足则通过所述加密聚合梯度计算单元继续进行计算。
8.一种计算机设备,其特征在于,包括处理器和存储器;
其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如权利要求1-6中任一项所述的纵向联邦学习线性回归和逻辑回归模型训练方法。
9.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一项所述的纵向联邦学习线性回归和逻辑回归模型训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110615631.4A CN113505894B (zh) | 2021-06-02 | 2021-06-02 | 纵向联邦学习线性回归和逻辑回归模型训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110615631.4A CN113505894B (zh) | 2021-06-02 | 2021-06-02 | 纵向联邦学习线性回归和逻辑回归模型训练方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113505894A CN113505894A (zh) | 2021-10-15 |
CN113505894B true CN113505894B (zh) | 2023-12-15 |
Family
ID=78009270
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110615631.4A Active CN113505894B (zh) | 2021-06-02 | 2021-06-02 | 纵向联邦学习线性回归和逻辑回归模型训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113505894B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114003939B (zh) * | 2021-11-16 | 2024-03-15 | 蓝象智联(杭州)科技有限公司 | 一种用于纵向联邦场景的多重共线性分析方法 |
CN114547643B (zh) * | 2022-01-20 | 2024-04-19 | 华东师范大学 | 一种基于同态加密的线性回归纵向联邦学习方法 |
CN114330759B (zh) * | 2022-03-08 | 2022-08-02 | 富算科技(上海)有限公司 | 一种纵向联邦学习模型的训练方法及系统 |
CN114650134A (zh) * | 2022-03-31 | 2022-06-21 | 深圳前海环融联易信息科技服务有限公司 | 一种基于秘密共享的纵向隐私保护逻辑回归方法 |
CN114462626B (zh) * | 2022-04-08 | 2022-07-19 | 北京大学 | 联邦模型训练方法、装置、终端设备以及存储介质 |
CN114553395B (zh) * | 2022-04-24 | 2022-07-26 | 蓝象智联(杭州)科技有限公司 | 一种风控场景下的纵向联邦特征衍生方法 |
CN114595835B (zh) * | 2022-05-07 | 2022-07-22 | 腾讯科技(深圳)有限公司 | 基于联邦学习的模型训练方法及装置、设备、存储介质 |
CN115169576B (zh) * | 2022-06-24 | 2024-02-09 | 上海富数科技有限公司 | 基于联邦学习的模型训练方法、装置及电子设备 |
CN114881248B (zh) * | 2022-06-30 | 2022-09-27 | 华控清交信息科技(北京)有限公司 | 两方横向联邦学习方法和用于两方横向联邦学习的装置 |
CN116049909B (zh) * | 2023-01-28 | 2023-06-27 | 腾讯科技(深圳)有限公司 | 联邦特征工程中的特征筛选方法、装置、设备及存储介质 |
CN115983407B (zh) * | 2023-03-17 | 2023-05-30 | 北京邮电大学 | 一种纵向联邦逻辑回归训练方法及装置 |
CN116579020B (zh) * | 2023-07-04 | 2024-04-05 | 深圳前海环融联易信息科技服务有限公司 | 基于隐私保护的校园风险预测方法、装置、设备及介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110704860A (zh) * | 2019-11-18 | 2020-01-17 | 深圳前海微众银行股份有限公司 | 提升安全性的纵向联邦学习方法、设备、系统及存储介质 |
CN110851869A (zh) * | 2019-11-14 | 2020-02-28 | 深圳前海微众银行股份有限公司 | 敏感信息处理方法、设备及可读存储介质 |
CN111368314A (zh) * | 2020-02-28 | 2020-07-03 | 深圳前海微众银行股份有限公司 | 基于交叉特征的建模、预测方法、装置、设备及存储介质 |
CN111428881A (zh) * | 2020-03-20 | 2020-07-17 | 深圳前海微众银行股份有限公司 | 识别模型的训练方法、装置、设备及可读存储介质 |
CN111967910A (zh) * | 2020-08-18 | 2020-11-20 | 中国银行股份有限公司 | 一种用户客群分类方法和装置 |
CN112000988A (zh) * | 2020-08-28 | 2020-11-27 | 深圳前海微众银行股份有限公司 | 因子分解机回归模型构建方法、设备及可读存储介质 |
CN112613618A (zh) * | 2021-01-04 | 2021-04-06 | 神谱科技(上海)有限公司 | 一种安全联邦学习逻辑回归算法 |
-
2021
- 2021-06-02 CN CN202110615631.4A patent/CN113505894B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110851869A (zh) * | 2019-11-14 | 2020-02-28 | 深圳前海微众银行股份有限公司 | 敏感信息处理方法、设备及可读存储介质 |
WO2021092973A1 (zh) * | 2019-11-14 | 2021-05-20 | 深圳前海微众银行股份有限公司 | 敏感信息处理方法、设备及可读存储介质 |
CN110704860A (zh) * | 2019-11-18 | 2020-01-17 | 深圳前海微众银行股份有限公司 | 提升安全性的纵向联邦学习方法、设备、系统及存储介质 |
CN111368314A (zh) * | 2020-02-28 | 2020-07-03 | 深圳前海微众银行股份有限公司 | 基于交叉特征的建模、预测方法、装置、设备及存储介质 |
CN111428881A (zh) * | 2020-03-20 | 2020-07-17 | 深圳前海微众银行股份有限公司 | 识别模型的训练方法、装置、设备及可读存储介质 |
CN111967910A (zh) * | 2020-08-18 | 2020-11-20 | 中国银行股份有限公司 | 一种用户客群分类方法和装置 |
CN112000988A (zh) * | 2020-08-28 | 2020-11-27 | 深圳前海微众银行股份有限公司 | 因子分解机回归模型构建方法、设备及可读存储介质 |
CN112613618A (zh) * | 2021-01-04 | 2021-04-06 | 神谱科技(上海)有限公司 | 一种安全联邦学习逻辑回归算法 |
Non-Patent Citations (1)
Title |
---|
Stephen Hardy等.Private federated learning on vertically partitioned data via entity resolution and additively homomorphic encryption.《arXiv:1711.10677v1》.2017,第1-60页. * |
Also Published As
Publication number | Publication date |
---|---|
CN113505894A (zh) | 2021-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113505894B (zh) | 纵向联邦学习线性回归和逻辑回归模型训练方法及装置 | |
WO2022247576A1 (zh) | 一种数据处理方法、装置、设备及计算机可读存储介质 | |
CN110851869B (zh) | 敏感信息处理方法、设备及可读存储介质 | |
US9158925B2 (en) | Server-aided private set intersection (PSI) with data transfer | |
US20170359321A1 (en) | Secure Data Exchange | |
CN111898145B (zh) | 一种神经网络模型训练方法、装置、设备及介质 | |
CN110704860A (zh) | 提升安全性的纵向联邦学习方法、设备、系统及存储介质 | |
CN111428887B (zh) | 一种基于多个计算节点的模型训练控制方法、装置及系统 | |
WO2015155896A1 (ja) | サポートベクトルマシン学習システムおよびサポートベクトルマシン学習方法 | |
CN113162752B (zh) | 基于混合同态加密的数据处理方法和装置 | |
CN112149706B (zh) | 模型训练方法、装置、设备和介质 | |
CN110032893A (zh) | 基于秘密分享的安全模型预测方法和装置 | |
Ajala et al. | Reviewing advancements in privacy-enhancing technologies for big data analytics in an era of increased surveillance | |
Zhang et al. | PPNNP: A privacy-preserving neural network prediction with separated data providers using multi-client inner-product encryption | |
Chen et al. | Multiple secret image sharing with general access structure | |
CN116502732B (zh) | 基于可信执行环境的联邦学习方法以及系统 | |
CN117349685A (zh) | 一种通信数据的聚类方法、系统、终端及介质 | |
Duy et al. | A secure and privacy preserving Federated Learning approach for IoT intrusion detection system | |
CN116094686B (zh) | 用于量子卷积计算的同态加密方法、系统、设备及终端 | |
CN114205144B (zh) | 数据传输方法、装置、设备、存储介质及程序产品 | |
CN112149140B (zh) | 预测方法、装置、设备及存储介质 | |
CN115225367A (zh) | 数据处理方法、装置、计算机设备、存储介质和产品 | |
Dadhich et al. | Security of healthcare systems with smart health records using cloud technology | |
JPH10232606A (ja) | 暗号化方法及び復号化方法並びに暗号化装置及び復号化装置 | |
Mishra et al. | Efficient collusion resistant multi-secret image sharing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |