CN114841373B - 应用于混合联邦场景的参数处理方法、装置、系统及产品 - Google Patents
应用于混合联邦场景的参数处理方法、装置、系统及产品 Download PDFInfo
- Publication number
- CN114841373B CN114841373B CN202210570274.9A CN202210570274A CN114841373B CN 114841373 B CN114841373 B CN 114841373B CN 202210570274 A CN202210570274 A CN 202210570274A CN 114841373 B CN114841373 B CN 114841373B
- Authority
- CN
- China
- Prior art keywords
- ciphertext
- participant
- parameter
- gradient
- party
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 14
- 238000000034 method Methods 0.000 claims abstract description 59
- 238000012545 processing Methods 0.000 claims description 28
- 239000012634 fragment Substances 0.000 claims description 26
- 238000004590 computer program Methods 0.000 claims description 14
- 238000007477 logistic regression Methods 0.000 claims description 10
- 238000012417 linear regression Methods 0.000 claims description 8
- 230000003993 interaction Effects 0.000 abstract description 28
- 238000010586 diagram Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 230000002776 aggregation Effects 0.000 description 7
- 238000004220 aggregation Methods 0.000 description 7
- 238000005457 optimization Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 4
- 238000012217 deletion Methods 0.000 description 4
- 230000037430 deletion Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供一种应用于混合联邦场景的参数处理方法、系统、装置、产品、介质及设备,涉及计算机技术领域,该混合联邦场景中包括不包含数据标签的各参与方以及包含数据标签的标签方,该方法包括:基于本方参数、数据标签和各参与方发送的参数密文生成对应于各参与方的第一参考密文;将对应于各参与方的第一参考密文发送至相应的参与方,使其根据相应的第一参考密文确定第二参考密文;根据各参与方发送的第二参考密文生成特定梯度密文;将特定梯度密文发送至主参与方,使其解密特定梯度密文得到特定梯度并将特定梯度同步至副参与方。无需在混合联邦场景下构建多个联邦学习模型,可以减少数据交互量,从而减少对于网络资源和计算资源的占用。
Description
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种应用于混合联邦场景的参数处理方法、应用于混合联邦场景的参数处理装置、应用于混合联邦场景的参数处理系统、计算机程序产品、计算机可读存储介质及电子设备。
背景技术
联邦学习是一种机器学习方式,能有效帮助各参与方(可以代表个人或机构)在满足数据隐私保护的要求下,联合训练模型。联邦学习过程中各方数据都保留在本地,不泄露隐私也不违反法规,各参与方数据联合建立虚拟的共有模型,并且共同获益。
联邦学习包括横向联邦学习(Horizontal Federated Learning,HFL)、纵向联邦学习(Vertical Federated Learning,VFL)和联邦迁移学习(Federated TransferLearning,FTL)。其中,横向联邦学习,指的是不同参与方的数据有较大的特征的重叠(横向),但数据样本(纵向),即特征所属的样本的重叠度不高。例如,联邦学习的参与方是两家服务于不同区域市场的银行,他们所服务的客户群体差别较大,但客户的特征可能会因为相似的商业模式而重叠度较高。其中,纵向联邦学习,指的是不同参与方的数据样本有较大的重叠,但样本特征的重叠度不高。例如,两家公司(银行和电子商务公司)向客户提供不同的服务,拥有客户不同方面的数据,但他们所服务的客户群体有较大的重叠。
一般来说,实际应用中会使用横向联邦学习或是纵向联邦学习解决一些实际的问题。但是,随着越来越多的应用场景应运而生,出现了需要同时使用横向联邦学习和纵向联邦学习的情况,基于目前的单向联邦学习,在面对上述情况时,通常需要通过多阶段构建多个联邦学习模型来分别实现横向联邦学习和纵向联邦学习。但是,这种方式下的数据交互量通常较大,需要占用较多的网络资源和计算资源。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有方案的信息。
发明内容
本申请的目的在于提供一种应用于混合联邦场景的参数处理方法、应用于混合联邦场景的参数处理装置、应用于混合联邦场景的参数处理系统、计算机程序产品、计算机可读存储介质及电子设备,可以通过区分无标签的参与方为主参与方和副参与方,从而实现应用于混合联邦场景的数据交互,在本申请中,有标签的标签方可以与无标签的参与方进行数据交互,并在确定出特定梯度密文之后发送至主参与方,以触发主参与方解密特定梯度密文得到特定梯度并将特定梯度同步至副参与方,以便于副参与方可以基于该特定梯度更新模型,无需在混合联邦场景下构建多个联邦学习模型,可以减少数据交互量,从而减少对于网络资源和计算资源的占用。此外,不需要各方进行数据聚合,可以保护各方的数据安全,解决了传统单向多方联邦学习样本利用率不足的问题,基于上述方式确定出的特定梯度优化模型,可以有效提升模型效果。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请的一方面,提供一种应用于混合联邦场景的参数处理方法,该混合联邦场景中包括不包含数据标签的各参与方以及包含数据标签的标签方,各参与方包括主参与方和副参与方,该方法包括:
基于本方参数、数据标签和各参与方发送的参数密文生成对应于各参与方的第一参考密文;
将对应于各参与方的第一参考密文发送至相应的参与方;其中,各参与方用于根据相应的第一参考密文确定第二参考密文;
根据各参与方发送的第二参考密文生成特定梯度密文;
将特定梯度密文发送至主参与方;其中,主参与方用于解密特定梯度密文得到特定梯度并将特定梯度同步至副参与方。
在本申请的一种示例性实施例中,基于本方参数、数据标签和各参与方发送的参数密文生成对应于各参与方的第一参考密文之前,上述方法还包括:
根据模型参数和样本数据确定本方参数。
在本申请的一种示例性实施例中,各参与方发送的参数密文中包括子参数密文;基于本方参数、数据标签和各参与方发送的参数密文生成对应于各参与方的第一参考密文,包括:
将本方参数、数据标签、子参数密文代入预设的逻辑回归表达式,以计算出对应于各参与方的第一参考密文;或者,
将本方参数、数据标签、子参数密文代入预设的线性回归表达式,以计算出对应于各参与方的第一参考密文。
在本申请的一种示例性实施例中,上述方法还包括:
生成参考损失密文和参考梯度密文;
将参考损失密文和参考梯度密文发送至主参与方;其中,主参与方用于计算对应于参考损失密文的目标损失密文和对应于参考梯度密文的目标梯度密文;
基于主参与方发送的目标损失密文和目标梯度密文获取当前梯度,并基于当前梯度更新模型参数。
在本申请的一种示例性实施例中,各参与方发送的参数密文中还包括子损失密文,生成参考损失密文和参考梯度密文,包括:
获取与各参与方的样本对齐结果,并生成对应于各样本对齐结果的碎片损失;
基于数据标签、本方参数、碎片损失、子参数密文、子损失密文生成对应于各参与方的参考损失密文;
融合各参考损失密文得到参考损失密文,并根据模型参数、样本数据、各参与方的第一参考密文生成参考梯度密文。
在本申请的一种示例性实施例中,获取与各参与方的样本对齐结果,包括:
对各参与方的加密样本进行特征对齐,得到各参与方的新加密样本;
将样本数据分别和各参与方的新加密样本进行样本对齐,得到对应于各参与方的样本对齐结果。
在本申请的一种示例性实施例中,获取与各参与方的样本对齐结果之后,上述方法还包括:
将与各参与方的样本对齐结果进行去重处理。
在本申请的一种示例性实施例中,将特定梯度密文发送至主参与方之前,上述方法还包括:
对各参与方的第一参考密文进行加密。
在本申请的一种示例性实施例中,根据各参与方发送的第二参考密文生成特定梯度密文,包括:
融合各第二参考密文,得到融合密文;
生成对应于融合密文的特定梯度密文。
在本申请的一种示例性实施例中,各参与方还用于根据特定梯度更新本地模型。
在本申请的一种示例性实施例中,各参与方发送的参数密文均基于主参与方分发的主方公钥加密得到。
在本申请的一种示例性实施例中,将特定梯度密文发送至主参与方之后,上述方法还包括:
接收各参与方中的目标参与方发送的待预测样本参数密文;
基于标签方的本地模型预测待预测样本参数密文对应的所属类别;
将所属类别反馈至目标参与方。
根据本申请的一方面,提供一种应用于混合联邦场景的参数处理系统,系统包括不包含数据标签的各参与方以及包含数据标签的标签方,各参与方包括主参与方和副参与方,其中:
标签方,用于基于本方参数、数据标签和各参与方发送的参数密文生成对应于各参与方的第一参考密文;
标签方,还用于将对应于各参与方的第一参考密文发送至相应的参与方;
各参与方,用于根据相应的第一参考密文确定第二参考密文;
标签方,还用于根据各参与方发送的第二参考密文生成特定梯度密文,并将特定梯度密文发送至主参与方;
主参与方,用于解密特定梯度密文得到特定梯度并将特定梯度同步至副参与方;根据特定梯度更新主参与方的本地模型;
副参与方,用于根据特定梯度更新副参与方的本地模型。
根据本申请的一方面,提供一种应用于混合联邦场景的参数处理装置,该混合联邦场景中包括不包含数据标签的各参与方以及包含数据标签的标签方,各参与方包括主参与方和副参与方,该装置包括:
密文生成单元,用于基于本方参数、数据标签和各参与方发送的参数密文生成对应于各参与方的第一参考密文;
密文发送单元,用于将对应于各参与方的第一参考密文发送至相应的参与方;其中,各参与方用于根据相应的第一参考密文确定第二参考密文;
密文生成单元,还用于根据各参与方发送的第二参考密文生成特定梯度密文;
密文发送单元,还用于将特定梯度密文发送至主参与方;其中,主参与方用于解密特定梯度密文得到特定梯度并将特定梯度同步至副参与方。
在本申请的一种示例性实施例中,上述装置还包括:
参数生成单元,用于在基于本方参数、数据标签和各参与方发送的参数密文生成对应于各参与方的第一参考密文之前,根据模型参数和样本数据确定本方参数。
在本申请的一种示例性实施例中,各参与方发送的参数密文中包括子参数密文;密文生成单元基于本方参数、数据标签和各参与方发送的参数密文生成对应于各参与方的第一参考密文,包括:
将本方参数、数据标签、子参数密文代入预设的逻辑回归表达式,以计算出对应于各参与方的第一参考密文;或者,
将本方参数、数据标签、子参数密文代入预设的线性回归表达式,以计算出对应于各参与方的第一参考密文。
在本申请的一种示例性实施例中,其中:
密文生成单元,还用于生成参考损失密文和参考梯度密文;
密文发送单元,还用于将参考损失密文和参考梯度密文发送至主参与方;其中,主参与方用于计算对应于参考损失密文的目标损失密文和对应于参考梯度密文的目标梯度密文;
上述装置还包括:
参数更新单元,用于基于主参与方发送的目标损失密文和目标梯度密文获取当前梯度,并基于当前梯度更新模型参数。
在本申请的一种示例性实施例中,各参与方发送的参数密文中还包括子损失密文,密文生成单元生成参考损失密文和参考梯度密文,包括:
获取与各参与方的样本对齐结果,并生成对应于各样本对齐结果的碎片损失;
基于数据标签、本方参数、碎片损失、子参数密文、子损失密文生成对应于各参与方的参考损失密文;
融合各参考损失密文得到参考损失密文,并根据模型参数、样本数据、各参与方的第一参考密文生成参考梯度密文。
在本申请的一种示例性实施例中,密文生成单元获取与各参与方的样本对齐结果,包括:
对各参与方的加密样本进行特征对齐,得到各参与方的新加密样本;
将样本数据分别和各参与方的新加密样本进行样本对齐,得到对应于各参与方的样本对齐结果。
在本申请的一种示例性实施例中,上述装置还包括:
去重单元,用于在密文生成单元获取与各参与方的样本对齐结果之后,将与各参与方的样本对齐结果进行去重处理。
在本申请的一种示例性实施例中,上述装置还包括:
加密单元,用于在密文发送单元将特定梯度密文发送至主参与方之前,对各参与方的第一参考密文进行加密。
在本申请的一种示例性实施例中,密文生成单元根据各参与方发送的第二参考密文生成特定梯度密文,包括:
融合各第二参考密文,得到融合密文;
生成对应于融合密文的特定梯度密文。
在本申请的一种示例性实施例中,各参与方还用于根据特定梯度更新本地模型。
在本申请的一种示例性实施例中,各参与方发送的参数密文均基于主参与方分发的主方公钥加密得到。
在本申请的一种示例性实施例中,上述装置还包括:
预测单元,用于在密文发送单元将特定梯度密文发送至主参与方之后,接收各参与方中的目标参与方发送的待预测样本参数密文;基于标签方的本地模型预测待预测样本参数密文对应的所属类别;将所属类别反馈至目标参与方。
根据本申请的一方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的各种可选实现方式中提供的方法。
根据本申请的一方面,提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任意一项的方法。
根据本申请的一方面,提供一种电子设备,包括:处理器;以及存储器,用于存储处理器的可执行指令;其中,处理器配置为经由执行可执行指令来执行上述任意一项的方法。
本申请示例性实施例可以具有以下部分或全部有益效果:
在本申请的一示例实施方式所提供的应用于混合联邦场景的参数处理方法中,该混合联邦场景中包括不包含数据标签的各参与方以及包含数据标签的标签方,各参与方包括主参与方和副参与方,该方法包括:基于本方参数、数据标签和各参与方发送的参数密文生成对应于各参与方的第一参考密文;将对应于各参与方的第一参考密文发送至相应的参与方;其中,各参与方用于根据相应的第一参考密文确定第二参考密文;根据各参与方发送的第二参考密文生成特定梯度密文;将特定梯度密文发送至主参与方;其中,主参与方用于解密特定梯度密文得到特定梯度并将特定梯度同步至副参与方。实施本申请的实施例,可以通过区分无标签的参与方为主参与方和副参与方,从而实现应用于混合联邦场景的数据交互,在本申请中,有标签的标签方可以与无标签的参与方进行数据交互,并在确定出特定梯度密文之后发送至主参与方,以触发主参与方解密特定梯度密文得到特定梯度并将特定梯度同步至副参与方,以便于副参与方可以基于该特定梯度更新模型,无需在混合联邦场景下构建多个联邦学习模型,可以减少数据交互量,从而减少对于网络资源和计算资源的占用。此外,不需要各方进行数据聚合,可以保护各方的数据安全,解决了传统单向多方联邦学习样本利用率不足的问题,基于上述方式确定出的特定梯度优化模型,可以有效提升模型效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出了根据本申请的一个实施例的应用于混合联邦场景的参数处理方法的流程图;
图2示意性示出了根据本申请的一个实施例的应用于混合联邦场景的参数处理方法的序列图;
图3示意性示出了根据本申请的一个实施例的应用于混合联邦场景的参数处理系统的结构示意图;
图4示意性示出了根据本申请的另一个实施例的应用于混合联邦场景的参数处理系统的结构示意图;
图5示意性示出了根据本申请的一个实施例中的应用于混合联邦场景的参数处理装置的结构框图;
图6示意性示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本申请的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本申请的各方面变得模糊。
此外,附图仅为本申请的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
请参阅图1,图1示意性示出了根据本申请的一个实施例的应用于混合联邦场景的参数处理方法的流程图。该混合联邦场景中包括不包含数据标签的各参与方(Host)以及包含数据标签的标签方(Guest),各参与方包括主参与方和副参与方。如图1所示,该应用于混合联邦场景的参数处理方法可以包括:步骤S110~步骤S140。
步骤S110:基于本方参数、数据标签和各参与方发送的参数密文生成对应于各参与方的第一参考密文。
步骤S120:将对应于各参与方的第一参考密文发送至相应的参与方;其中,各参与方用于根据相应的第一参考密文确定第二参考密文。
步骤S130:根据各参与方发送的第二参考密文生成特定梯度密文。
步骤S140:将特定梯度密文发送至主参与方;其中,主参与方用于解密特定梯度密文得到特定梯度并将特定梯度同步至副参与方。
实施图1所示的方法,可以通过区分无标签的参与方为主参与方和副参与方,从而实现应用于混合联邦场景的数据交互,在本申请中,有标签的标签方可以与无标签的参与方进行数据交互,并在确定出特定梯度密文之后发送至主参与方,以触发主参与方解密特定梯度密文得到特定梯度并将特定梯度同步至副参与方,以便于副参与方可以基于该特定梯度更新模型,无需在混合联邦场景下构建多个联邦学习模型,可以减少数据交互量,从而减少对于网络资源和计算资源的占用。此外,不需要各方进行数据聚合,可以保护各方的数据安全,解决了传统单向多方联邦学习样本利用率不足的问题,基于上述方式确定出的特定梯度优化模型,可以有效提升模型效果。
下面,对于本示例实施方式的上述步骤进行更加详细的说明。
在步骤S110中,基于本方参数、数据标签和各参与方发送的参数密文生成对应于各参与方的第一参考密文。
可选的,在步骤S110之前,上述方法还可以包括:标签方生成相对应的公钥(PKG)和私钥(SKG);主参与方生成相对应的公钥(PKH)和私钥(SKH);标签方向主参与方发送公钥(PKG),主参与方向标签方和副参与方分发公钥(PKH),各参与方发送的参数密文均基于主参与方分发的主方公钥加密得到。在整体技术方案中,无需应用副参与方的公钥私钥,只需要使用主参与方和标签方的公钥和私钥,就可以实现对于混合联邦场景下的模型训练,可以节约数据交互量,从而减少对于网络资源和计算资源的占用。
作为一种可选的实施例,基于本方参数、数据标签和各参与方发送的参数密文生成对应于各参与方的第一参考密文之前,上述方法还包括:根据模型参数和样本数据确定本方参数。这样可以基于模型参数和样本数据确定出本方参数,以便后续利用本方参数实现混合联邦学习,从而有利于提升混合联邦学习的效率。
具体地,模型参数可以是标签方的部分模型参数也可以是全部模型参数,本申请实施例不作限定。此外,本申请对于标签方的样本数据的数量也不作限定。
在一种实施方式中,根据模型参数和样本数据确定本方参数,包括:将模型参数wG和样本数据代入表达式/>以确定出本方参数/>其中,i表示第i个样本数据,/>为第i个样本数据对应的本方参数,若存在多个样本数据,则对应存在多个本方参数。
在另一种实施方式中,根据模型参数和样本数据确定本方参数,包括:将模型参数wG和样本数据代入表达式/>以确定出本方参数/>其中,i表示第i个样本数据,yi表示数据标签,yi和/>之间存在一一对应的关系,例如,y1用于描述/>
此外,可选的,上述方法还可以包括以下步骤:各参与方基于本地模型参数和本地样本数据计算子参数;各参与方基于子参数计算子损失;根据公钥(PKH)加密子参数得到子参数密文,并根据公钥(PKH)加密子损失得到子损失密文,进而,各参与方可以将己方对应的子参数密文和子损失密文作为己方的参数密文发送至标签方。其中,根据公钥(PKH)加密子参数得到子参数密文,并根据公钥(PKH)加密子损失得到子损失密文的方式可以为:基于加密算法(如,同态加密算法、RSA、SM2等)根据公钥(PKH)加密子参数得到子参数密文,并根据公钥(PKH)加密子损失得到子损失密文。此外,还需要说明的是,上述的各参与方中的本地模型参数可以是本地模型的部分参数也可以是全部参数,本申请实施例不作限定。
举例来说,若存在主参与方和副参与方1和副参与方2。
主参与方可以基于本地模型参数wH和本地样本数据计算子参数并基于子参数/>计算子损失/> 其中,D1是标签方与主参与方的样本对齐结果,i表示D1中的第i个样本。进而,主参与方可以根据公钥(PKH)加密子参数/>得到子参数密文/>并根据公钥(PKH)加密子损失/>得到子损失密文/>进而,主参与方可以将子参数密文/>和子损失密文/>作为己方的参数密文发送至标签方。
副参与方1可以基于本地模型参数wH和本地样本数据计算子参数并基于子参数/>计算子损失/>其中,D2是标签方与主参与方的样本对齐结果,i表示D2中的第i个样本。进而,主参与方可以根据公钥(PKH)加密子参数/>得到子参数密文/>并根据公钥(PKH)加密子损失/>得到子损失密文进而,副参与方1可以将子参数密文/>和子损失密文/>作为己方的参数密文发送至标签方。
副参与方2可以基于本地模型参数wH和本地样本数据计算子参数并基于子参数/>计算子损失/>其中,D3是标签方与主参与方的样本对齐结果,i表示D3中的第i个样本。进而,主参与方可以根据公钥(PKH)加密子参数/>得到子参数密文/>并根据公钥(PKH)加密子损失/>得到子损失密文进而,副参与方2可以将子参数密文/>和子损失密文/>作为己方的参数密文发送至标签方。
作为一种可选的实施例,各参与方发送的参数密文中包括子参数密文;基于本方参数、数据标签和各参与方发送的参数密文生成对应于各参与方的第一参考密文,包括:将本方参数、数据标签、子参数密文代入预设的逻辑回归表达式,以计算出对应于各参与方的第一参考密文;或者,将本方参数、数据标签、子参数密文代入预设的线性回归表达式,以计算出对应于各参与方的第一参考密文。这样可以方便用户根据当前的实际情况选择相适应的逻辑回归表达式/线性回归表达式,方便用户可以更高效地更多样化地实现混合联邦学习。
具体地,将本方参数、数据标签、子参数密文代入预设的逻辑回归表达式,以计算出对应于各参与方的第一参考密文,包括:将本方参数数据标签yi、子参数密文/>代入预设的逻辑回归表达式/> 以计算出对应于各参与方的第一参考密文/>
具体地,将本方参数、数据标签、子参数密文代入预设的线性回归表达式,以计算出对应于各参与方的第一参考密文,包括:将本方参数数据标签yi、子参数密文/>代入预设的逻辑回归表达式/> 以计算出对应于各参与方的第一参考密文/>
举例来说,若存在主参与方和副参与方1和副参与方2。计算出的对应于主参与方的第一参考密文为对应于副参与方1的第一参考密文为/>对应于副参与方2的第一参考密文为/>
作为一种可选的实施例,将特定梯度密文发送至主参与方之前,上述方法还包括:对各参与方的第一参考密文进行加密。这样可以进一步提升第一参考密文的安全性,避免泄露本方的参数/数据,进而提升整体联邦学习的安全性。
具体地,对各参与方的第一参考密文进行加密,包括:通过盲化处理的方式或是掩码处理的方式对各参与方的第一参考密文 进行加密,可以得到其中,/>可以理解为随机数。
基于此,将对应于各参与方的第一参考密文发送至相应的参与方,包括:将对应于各参与方的第一参考密文发送至相应的参与方。举例来说,可以将对应于主参与方的第一参考密文/>发送至主参与方;将对应于副参与方1的第一参考密文/>发送至主参与方;将对应于副参与方2的第一参考密文/>发送至主参与方。
作为一种可选的实施例,上述方法还包括:生成参考损失密文和参考梯度密文;将参考损失密文和参考梯度密文发送至主参与方;其中,主参与方用于计算对应于参考损失密文的目标损失密文和对应于参考梯度密文的目标梯度密文;基于主参与方发送的目标损失密文和目标梯度密文获取当前梯度,并基于当前梯度更新模型参数。这样可以仅基于与主参与方的数据交互就可以实现混合联邦学习中的纵向联邦学习,效率更高,相较于现有的多模型实现混合联邦学习的方案中,本申请无需多模型即可实现混合联邦学习,可以减少多模型对于存储空间的占用。
具体地,将参考损失密文和参考梯度密文发送至主参与方,包括:通过盲化处理的方式或是掩码处理的方式对参考损失密文进行加密,可以得到/>通过盲化处理的方式或是掩码处理的方式对参考梯度密文/>进行加密,可以得到将参考损失密文/>和参考梯度密文/>发送至主参与方。其中,/>和/>可以理解为随机数。
基于此,主参与方用于计算对应于参考损失密文的目标损失密文和对应于参考梯度密文的目标梯度密文,包括:主参与方用于解密和/>得到和/>进而,基于公钥(PKG)加密/>得到目标损失密文/>并基于公钥(PKG)加密/>得到目标梯度密文/>进而,将目标损失密文和目标梯度密文/>发送至标签方。
具体地,基于主参与方发送的目标损失密文和目标梯度密文获取当前梯度,并基于当前梯度更新模型参数,包括:通过私钥(SKH)解密主参与方发送的目标损失密文和目标梯度密文/>获取当前梯度/>并基于当前梯度/>更新模型参数。
作为一种可选的实施例,各参与方发送的参数密文中还包括子损失密文,生成参考损失密文和参考梯度密文,包括:获取与各参与方的样本对齐结果,并生成对应于各样本对齐结果的碎片损失;基于数据标签、本方参数、碎片损失、子参数密文、子损失密文生成对应于各参与方的参考损失密文;融合各参考损失密文得到参考损失密文,并根据模型参数、样本数据、各参与方的第一参考密文生成参考梯度密文。这样可以基于更精细化更多样的参数实现对于参考损失密文和参考梯度密文的计算,从而有利于更高效地实现混合联邦学习。
在一种实施例中,生成对应于各样本对齐结果的碎片损失,包括:或者/>生成对应于各样本对齐结果的碎片损失。举例来说,若各样本对齐结果分别为对应于主参与方的D1、对应于副参与方1的D2、对应于副参与方2的D3,那么,可以生成对应于主参与方的D1的对应于副参与方1的D2的/>对应于副参与方2的D3的/>
在另一种实施例中,生成对应于各样本对齐结果的碎片损失,包括:或者/>生成对应于各样本对齐结果的碎片损失。举例来说,若各样本对齐结果分别为对应于主参与方的D1、对应于副参与方1的D2、对应于副参与方2的D3,那么,可以生成对应于主参与方的D1的 对应于副参与方1的D2的对应于副参与方2的D3的/>
进一步地,在一种实施例中,基于数据标签、本方参数、碎片损失、子参数密文、子损失密文生成对应于各参与方的参考损失密文,包括:将数据标签yi、本方参数碎片损失/>(如,/>等)、子参数密文/>子损失密文/>(如,/>等)代入表达式/> 以计算出对应于各参与方的参考损失密文/>
举例来说,若存在主参与方和副参与方1和副参与方2。可以将数据标签yi、本方参数碎片损失/>子参数密文/>子损失密文/>代入表达式 以计算出对应于主参与方的参考损失密文/>进而,可以将数据标签yi、本方参数/>碎片损失/>子参数密文/>子损失密文/>代入表达式/> 以计算出对应于副参与方1的参考损失密文/>进而,可以将数据标签yi、本方参数/>碎片损失/>子参数密文/>子损失密文/>代入表达式/> 以计算出对应于副参与方1的参考损失密文/>
进一步地,在另一种实施例中,基于数据标签、本方参数、碎片损失、子参数密文、子损失密文生成对应于各参与方的参考损失密文,包括:将数据标签yi、本方参数碎片损失/>(如,/>等)、子参数密文/>子损失密文/>(如,/>等)代入表达式/>以计算出对应于各参与方的参考损失密文/>
举例来说,若存在主参与方和副参与方1和副参与方2。可以将数据标签yi、本方参数碎片损失/>子参数密文/>子损失密文/>代入表达式以计算出对应于主参与方的参考损失密文/>进而,可以将数据标签yi、本方参数/>碎片损失/>子参数密文/>子损失密文/>代入表达式以计算出对应于副参与方1的参考损失密文/>进而,可以将数据标签yi、本方参数/>碎片损失/>子参数密文/>子损失密文/>代入表达式以计算出对应于副参与方1的参考损失密文/>
基于上述内容,进而,融合各参考损失密文得到参考损失密文,包括:基于表达式或者对/>进行融合,得到参考损失密文其中,n为正整数,用于表示参与方的数量。
进而,根据模型参数、样本数据、各参与方的第一参考密文生成参考梯度密文,包括:将模型参数wG、样本数据各参与方的第一参考密文/>代入表达式从而计算出参考梯度密文
作为一种可选的实施例,获取与各参与方的样本对齐结果,包括:对各参与方的加密样本进行特征对齐,得到各参与方的新加密样本;将样本数据分别和各参与方的新加密样本进行样本对齐,得到对应于各参与方的样本对齐结果。这样可以实现训练前的样本对齐,进行样本对齐可以便于更高效地实现混合联邦学习,也可以使得混合联邦学习后的模型具备更好的数据处理效果。
具体地,对各参与方的加密样本进行特征对齐,得到各参与方的新加密样本,包括:将加密样本两两之间进行样本特征对齐,以得到各参与方的新加密样本;或者,以主参与方的加密样本为基准对各参与方的加密样本进行样本特征对齐,以得到各参与方的新加密样本;或者,以其他方式对各参与方的加密样本进行特征对齐,得到各参与方的新加密样本,本申请实施例不作限定。
举例来说,各参与方包括主参与方、副参与方1和副参与方2,主参与方包括特征{性别、年龄、学历}、副参与方1包括特征{年龄、性别、学历}、副参与方2包括特征{年龄、学历、性别、身高},若以主参与方的加密样本为基准进行样本特征对齐,样本特征对齐后的主参与方包括特征{性别、年龄、学历}、副参与方1包括特征{性别、年龄、学历}、副参与方2包括特征{年龄、性别、学历}。
此外,可选的,对各参与方的加密样本进行特征对齐,得到各参与方的新加密样本之前,上述方法还可以包括以下步骤:各参与方将己方样本进行加密从而得到加密样本,各参与方分别将各自对应的加密样本发送至标签方;其中,各参与方的己方样本的数量可以为一个或多个,本申请实施例不作限定。需要说明的是,上述将己方样本进行加密的方式可以为任一加密方式,本申请实施例不作限定。
进而,举例来说,若样本数据包括样本{U1、U2、U3、U4、U5、U6}、主参与方包括样本{U1、U2、U3}、副参与方1包括样本{U6、U5}、副参与方2包括样本{U2、U4、U8、U7},将样本数据分别和各参与方的新加密样本进行样本对齐,可以得到对应于主参与方的样本对齐结果{U1、U2、U3}、对应于副参与方1的样本对齐结果{U6、U5}、对应于副参与方2的样本对齐结果{U2、U4}。
作为一种可选的实施例,获取与各参与方的样本对齐结果之后,上述方法还包括:将与各参与方的样本对齐结果进行去重处理。这样可以减少参与混合联邦学习的重复样本,有利于提升混合联邦学习效率。
具体地,将与各参与方的样本对齐结果进行去重处理,包括:确定与各参与方的样本对齐结果之间是否存在重复样本,如果存在,则确定重复样本的样本数据缺失度,将样本数据缺失度最小的样本进行保留,并将重复样本中的其他样本删除;其中,重复样本的数量可以为一个或多个,样本数据缺失度可以表示为数值、字符串、符号、文本等任一形式,本申请实施例不作限定。
进一步可选的,若样本数据缺失度最小的样本存在至少两个,将样本数据缺失度最小的样本进行保留,并将重复样本中的其他样本删除,包括:从样本数据缺失度最小的样本中随机选取一样本进行保留,并将重复样本中的其他样本删除;或者,从样本数据缺失度最小的样本中选取序号最小的样本进行保留,并将重复样本中的其他样本删除。
举例来说,若对应于主参与方的样本对齐结果为{U1、U2、U3}、对应于副参与方1的样本对齐结果为{U6、U5}、对应于副参与方2的样本对齐结果为{U2、U4},则{U1、U2、U3}中的U2、{U2、U4}中的U2为重复样本,若{U1、U2、U3}中的U2对应于特征{年龄、性别、学历}的数据分别为{18、男、硕士},{U2、U4}中的U2对应于特征{年龄、性别、学历}的数据分别为{-、男、-},则可以确定出{U2、U4}中的U2对特征“年龄”和特征“学历”存在数据缺失,{U1、U2、U3}中的U2对应于特征{年龄、性别、学历}的数据是完整的,因此可以删除{U2、U4}中的U2,并保留{U1、U2、U3}中的U2,从而实现去重。去重后,可以得到虚拟融合数据集Dj,j用于表示第j个样本对齐结果,j可以表示为正整数。
在步骤S120中,将对应于各参与方的第一参考密文发送至相应的参与方;其中,各参与方用于根据相应的第一参考密文确定第二参考密文。
具体地,各参与方用于根据相应的第一参考密文确定第二参考密文的方式可以为:各参与方基于表达式将相应的第一参考密文确定第二参考密文/>并将第二参考密文/>反馈至标签方。举例来说,主参与方计算出的第二参考密文可以表示为/>副参与方1计算出的第二参考密文可以表示为/>副参与方2计算出的第二参考密文可以表示为/>
在步骤S130中,根据各参与方发送的第二参考密文生成特定梯度密文。
作为一种可选的实施例,根据各参与方发送的第二参考密文生成特定梯度密文,包括:融合各第二参考密文,得到融合密文;生成对应于融合密文的特定梯度密文。这样可以通过对于各第二参考密文生成更准确的特定梯度密文,以便参与方基于该特定梯度密文实现联邦学习。
具体地,融合各第二参考密文,得到融合密文,包括:基于表达式融合各第二参考密文,得到融合密文/>进而,生成对应于融合密文的特定梯度密文,包括:基于表达式/>生成对应于融合密文/>的特定梯度密文/>
在步骤S140中,将特定梯度密文发送至主参与方;其中,主参与方用于解密特定梯度密文得到特定梯度并将特定梯度同步至副参与方。
上述方法还可以包括:各参与方还用于根据特定梯度更新本地模型。在此之后,各参与方可以基于损失函数判定本地模型参数是否收敛,如果是,则循环执行本申请实施例,如果否,则退出流程。
作为一种可选的实施例,将特定梯度密文发送至主参与方之后,上述方法还包括:接收各参与方中的目标参与方发送的待预测样本参数密文;基于标签方的本地模型预测待预测样本参数密文对应的所属类别;将所属类别反馈至目标参与方。这样可以实现对于混合联邦学习得到的模型的实际应用,方便各方基于混合联邦场景实现多方数据交互。
具体地,基于标签方的本地模型预测待预测样本参数密文对应的所属类别,包括:基于标签方的本地模型预测待预测样本参数密文对应的所属类别yi,/>其中,/>
进一步地,请参阅图2,图2示意性示出了根据本申请的一个实施例的应用于混合联邦场景的参数处理方法的序列图。该混合联邦场景中包括不包含数据标签的各参与方以及包含数据标签的标签方,各参与方包括主参与方和副参与方。如图2所示,该应用于混合联邦场景的参数处理方法包括:步骤S210~步骤S262。
步骤S210:标签方生成相对应的公钥和私钥。
步骤S212:标签方向主参与方发送标签方的公钥。
步骤S214:主参与方生成相对应的公钥和私钥。
步骤S216:主参与方向标签方发送主参与方的公钥。
步骤S218:主参与方向副参与方发送主参与方的公钥。
步骤S220:标签方根据模型参数和样本数据确定本方参数。
步骤S222:主参与方基于本地模型参数和本地样本数据计算子参数,基于子参数计算子损失,根据主参与方的公钥加密子参数得到子参数密文,并根据主参与方的公钥加密子损失得到子损失密文。
步骤S224:副参与方基于本地模型参数和本地样本数据计算子参数,基于子参数计算子损失,根据主参与方的公钥加密子参数得到子参数密文,并根据主参与方的公钥加密子损失得到子损失密文。
步骤S226:主参与方将己方对应的子参数密文和子损失密文作为己方的参数密文发送至标签方。
步骤S228:副参与方将己方对应的子参数密文和子损失密文作为己方的参数密文发送至标签方。
步骤S230:标签方基于本方参数、数据标签和各参与方发送的参数密文生成对应于各参与方的第一参考密文,对各参与方的第一参考密文进行加密。
步骤S232:标签方将对应于各参与方的第一参考密文发送至相应的参与方。
步骤S234:主参与方根据相应的第一参考密文确定第二参考密文。
步骤S236:副参与方根据相应的第一参考密文确定第二参考密文。
步骤S238:主参与方向标签方发送第二参考密文。
步骤S240:副参与方向标签方发送第二参考密文。
步骤S242:标签方融合各第二参考密文,得到融合密文,并生成对应于融合密文的特定梯度密文。
步骤S244:标签方将特定梯度密文发送至主参与方。
步骤S246:主参与方解密特定梯度密文得到特定梯度。
步骤S248:主参与方将特定梯度同步至副参与方。
步骤S250:主参与方基于特定梯度进行更新本地模型。
步骤S252:副参与方基于特定梯度进行更新本地模型。
步骤S254:标签方获取与各参与方的样本对齐结果,并生成对应于各样本对齐结果的碎片损失,并基于数据标签、本方参数、碎片损失、子参数密文、子损失密文生成对应于各参与方的参考损失密文,进而,融合各参考损失密文得到参考损失密文,并根据模型参数、样本数据、各参与方的第一参考密文生成参考梯度密文。
步骤S256:标签方将参考损失密文和参考梯度密文发送至主参与方。
步骤S258:主参与方计算对应于参考损失密文的目标损失密文和对应于参考梯度密文的目标梯度密文。
步骤S260:主参与方向标签方发送目标损失密文和目标梯度密文。
步骤S262:标签方基于主参与方发送的目标损失密文和目标梯度密文获取当前梯度,并基于当前梯度更新模型参数。
需要说明的是,步骤S210~步骤S262与图1所示的各步骤及其实施例相对应,针对步骤S210~步骤S262的具体实施方式,在前述的针对图1步骤和实施例的描述中已详细示出,具体请参阅图1所示的各步骤及其相关的实施例,此处不再赘述。
可见,实施图2所示的方法,可以通过区分无标签的参与方为主参与方和副参与方,从而实现应用于混合联邦场景的数据交互,在本申请中,有标签的标签方可以与无标签的参与方进行数据交互,并在确定出特定梯度密文之后发送至主参与方,以触发主参与方解密特定梯度密文得到特定梯度并将特定梯度同步至副参与方,以便于副参与方可以基于该特定梯度更新模型,无需在混合联邦场景下构建多个联邦学习模型,可以减少数据交互量,从而减少对于网络资源和计算资源的占用。此外,不需要各方进行数据聚合,可以保护各方的数据安全,解决了传统单向多方联邦学习样本利用率不足的问题,基于上述方式确定出的特定梯度优化模型,可以有效提升模型效果。
进一步地,请参阅图3,图3示意性示出了根据本申请的一个实施例的应用于混合联邦场景的参数处理系统的结构示意图。如图3所示,应用于混合联邦场景的参数处理系统300包括不包含数据标签的各参与方320以及包含数据标签的标签方310,各参与方320包括主参与方321和副参与方322。
标签方310,用于基于本方参数、数据标签和各参与方320发送的参数密文生成对应于各参与方320的第一参考密文;
标签方310,还用于将对应于各参与方320的第一参考密文发送至相应的参与方;
各参与方320,用于根据相应的第一参考密文确定第二参考密文;
标签方310,还用于根据各参与方320发送的第二参考密文生成特定梯度密文,并将特定梯度密文发送至主参与方321;
主参与方321,用于解密特定梯度密文得到特定梯度并将特定梯度同步至副参与方322;根据特定梯度更新主参与方321的本地模型;
副参与方322,用于根据特定梯度更新副参与方322的本地模型。
可见,实施图3所示的系统,可以通过区分无标签的参与方为主参与方和副参与方,从而实现应用于混合联邦场景的数据交互,在本申请中,有标签的标签方可以与无标签的参与方进行数据交互,并在确定出特定梯度密文之后发送至主参与方,以触发主参与方解密特定梯度密文得到特定梯度并将特定梯度同步至副参与方,以便于副参与方可以基于该特定梯度更新模型,无需在混合联邦场景下构建多个联邦学习模型,可以减少数据交互量,从而减少对于网络资源和计算资源的占用。此外,不需要各方进行数据聚合,可以保护各方的数据安全,解决了传统单向多方联邦学习样本利用率不足的问题,基于上述方式确定出的特定梯度优化模型,可以有效提升模型效果。
进一步地,请参阅图4,图4示意性示出了根据本申请的另一个实施例的应用于混合联邦场景的参数处理系统的结构示意图。如图4所示,应用于混合联邦场景的参数处理系统400包括不包含数据标签的各参与方420以及包含数据标签的银行410,各参与方420包括XX省运营商421和(XX省运营商、X2市运营商、……、Xn市运营商)422。其中,n为正整数。
银行410,用于基于本方参数、数据标签和各参与方320发送的参数密文生成对应于各参与方320的第一参考密文;银行410,还用于将对应于各参与方320的第一参考密文发送至相应的参与方;各参与方320,用于根据相应的第一参考密文确定第二参考密文;银行410,还用于根据各参与方320发送的第二参考密文生成特定梯度密文,并将特定梯度密文发送至XX省运营商421;XX省运营商421,用于解密特定梯度密文得到特定梯度并将特定梯度同步至(XX省运营商、X2市运营商、……、Xn市运营商)422;根据特定梯度更新XX省运营商421的本地模型;(XX省运营商、X2市运营商、……、Xn市运营商)422,用于根据特定梯度更新(XX省运营商、X2市运营商、……、Xn市运营商)422的本地模型。
可见,实施图4所示的系统,可以通过区分无标签的参与方为XX省运营商和XX省运营商、X2市运营商、……、Xn市运营商,从而实现应用于混合联邦场景的数据交互,在本申请中,有标签的银行可以与无标签的参与方进行数据交互,并在确定出特定梯度密文之后发送至XX省运营商,以触发XX省运营商解密特定梯度密文得到特定梯度并将特定梯度同步至XX省运营商、X2市运营商、……、Xn市运营商,以便于XX省运营商、X2市运营商、……、Xn市运营商可以基于该特定梯度更新模型,无需在混合联邦场景下构建多个联邦学习模型,可以减少数据交互量,从而减少对于网络资源和计算资源的占用。此外,不需要各方进行数据聚合,可以保护各方的数据安全,解决了传统单向多方联邦学习样本利用率不足的问题,基于上述方式确定出的特定梯度优化模型,可以有效提升模型效果。
进一步地,与图1所示的方法步骤一一对应的虚拟单元请参阅图5,图5示意性示出了根据本申请的一个实施例中的应用于混合联邦场景的参数处理装置的结构框图。该混合联邦场景中包括不包含数据标签的各参与方以及包含数据标签的标签方,各参与方包括主参与方和副参与方。如图5所示,该应用于混合联邦场景的参数处理装置500包括:
密文生成单元501,用于基于本方参数、数据标签和各参与方发送的参数密文生成对应于各参与方的第一参考密文;
密文发送单元502,用于将对应于各参与方的第一参考密文发送至相应的参与方;其中,各参与方用于根据相应的第一参考密文确定第二参考密文;
密文生成单元501,还用于根据各参与方发送的第二参考密文生成特定梯度密文;
密文发送单元502,还用于将特定梯度密文发送至主参与方;其中,主参与方用于解密特定梯度密文得到特定梯度并将特定梯度同步至副参与方。
可见,实施图5所示的装置,可以通过区分无标签的参与方为主参与方和副参与方,从而实现应用于混合联邦场景的数据交互,在本申请中,有标签的标签方可以与无标签的参与方进行数据交互,并在确定出特定梯度密文之后发送至主参与方,以触发主参与方解密特定梯度密文得到特定梯度并将特定梯度同步至副参与方,以便于副参与方可以基于该特定梯度更新模型,无需在混合联邦场景下构建多个联邦学习模型,可以减少数据交互量,从而减少对于网络资源和计算资源的占用。此外,不需要各方进行数据聚合,可以保护各方的数据安全,解决了传统单向多方联邦学习样本利用率不足的问题,基于上述方式确定出的特定梯度优化模型,可以有效提升模型效果。
在本申请的一种示例性实施例中,上述装置还包括:
参数生成单元,用于在基于本方参数、数据标签和各参与方发送的参数密文生成对应于各参与方的第一参考密文之前,根据模型参数和样本数据确定本方参数。
可见,实施该可选的实施例,可以基于模型参数和样本数据确定出本方参数,以便后续利用本方参数实现混合联邦学习,从而有利于提升混合联邦学习的效率。
在本申请的一种示例性实施例中,各参与方发送的参数密文中包括子参数密文;密文生成单元501基于本方参数、数据标签和各参与方发送的参数密文生成对应于各参与方的第一参考密文,包括:
将本方参数、数据标签、子参数密文代入预设的逻辑回归表达式,以计算出对应于各参与方的第一参考密文;或者,
将本方参数、数据标签、子参数密文代入预设的线性回归表达式,以计算出对应于各参与方的第一参考密文。
可见,实施该可选的实施例,可以方便用户根据当前的实际情况选择相适应的逻辑回归表达式/线性回归表达式,方便用户可以更高效地更多样化地实现混合联邦学习。
在本申请的一种示例性实施例中,其中:
密文生成单元501,还用于生成参考损失密文和参考梯度密文;
密文发送单元502,还用于将参考损失密文和参考梯度密文发送至主参与方;其中,主参与方用于计算对应于参考损失密文的目标损失密文和对应于参考梯度密文的目标梯度密文;
上述装置还包括:
参数更新单元,用于基于主参与方发送的目标损失密文和目标梯度密文获取当前梯度,并基于当前梯度更新模型参数。
可见,实施该可选的实施例,可以仅基于与主参与方的数据交互就可以实现混合联邦学习中的纵向联邦学习,效率更高,相较于现有的多模型实现混合联邦学习的方案中,本申请无需多模型即可实现混合联邦学习,可以减少多模型对于存储空间的占用。
在本申请的一种示例性实施例中,各参与方发送的参数密文中还包括子损失密文,密文生成单元501生成参考损失密文和参考梯度密文,包括:
获取与各参与方的样本对齐结果,并生成对应于各样本对齐结果的碎片损失;
基于数据标签、本方参数、碎片损失、子参数密文、子损失密文生成对应于各参与方的参考损失密文;
融合各参考损失密文得到参考损失密文,并根据模型参数、样本数据、各参与方的第一参考密文生成参考梯度密文。
可见,实施该可选的实施例,可以基于更精细化更多样的参数实现对于参考损失密文和参考梯度密文的计算,从而有利于更高效地实现混合联邦学习。
在本申请的一种示例性实施例中,密文生成单元501获取与各参与方的样本对齐结果,包括:
对各参与方的加密样本进行特征对齐,得到各参与方的新加密样本;
将样本数据分别和各参与方的新加密样本进行样本对齐,得到对应于各参与方的样本对齐结果。
可见,实施该可选的实施例,可以实现训练前的样本对齐,进行样本对齐可以便于更高效地实现混合联邦学习,也可以使得混合联邦学习后的模型具备更好的数据处理效果。
在本申请的一种示例性实施例中,上述装置还包括:
去重单元,用于在密文生成单元501获取与各参与方的样本对齐结果之后,将与各参与方的样本对齐结果进行去重处理。
可见,实施该可选的实施例,可以减少参与混合联邦学习的重复样本,有利于提升混合联邦学习效率。
在本申请的一种示例性实施例中,上述装置还包括:
加密单元,用于在密文发送单元502将特定梯度密文发送至主参与方之前,对各参与方的第一参考密文进行加密。
可见,实施该可选的实施例,可以通过对于各第二参考密文生成更准确的特定梯度密文,以便参与方基于该特定梯度密文实现联邦学习。
在本申请的一种示例性实施例中,密文生成单元501根据各参与方发送的第二参考密文生成特定梯度密文,包括:
融合各第二参考密文,得到融合密文;
生成对应于融合密文的特定梯度密文。
可见,实施该可选的实施例,可以进一步提升第一参考密文的安全性,避免泄露本方的参数/数据,进而提升整体联邦学习的安全性。
在本申请的一种示例性实施例中,各参与方还用于根据特定梯度更新本地模型。
在本申请的一种示例性实施例中,各参与方发送的参数密文均基于主参与方分发的主方公钥加密得到。
在本申请的一种示例性实施例中,上述装置还包括:
预测单元,用于在密文发送单元502将特定梯度密文发送至主参与方之后,接收各参与方中的目标参与方发送的待预测样本参数密文;基于标签方的本地模型预测待预测样本参数密文对应的所属类别;将所属类别反馈至目标参与方。
可见,实施该可选的实施例,可以实现对于混合联邦学习得到的模型的实际应用,方便各方基于混合联邦场景实现多方数据交互。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
由于本申请的示例实施例的任务调度装置的各个功能模块与上述任务调度方法的示例实施例的步骤对应,因此对于本申请装置实施例中未披露的细节,请参照本申请上述的任务调度方法的实施例。
请参阅图6,图6示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图6示出的电子设备的计算机系统600仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从储存部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统操作所需的各种程序和数据。CPU601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的储存部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入储存部分608。
特别地,根据本申请的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的方法和装置中限定的各种功能。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的方法。
需要说明的是,本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (16)
1.一种应用于混合联邦场景的参数处理方法,其特征在于,所述混合联邦场景中包括不包含数据标签的各参与方以及包含所述数据标签的标签方,所述各参与方包括主参与方和副参与方,所述方法包括:
基于本方参数、所述数据标签和各参与方发送的参数密文生成对应于所述各参与方的第一参考密文;
将对应于所述各参与方的第一参考密文发送至相应的参与方;其中,所述各参与方用于根据相应的第一参考密文确定第二参考密文;
根据所述各参与方发送的第二参考密文生成特定梯度密文;
将所述特定梯度密文发送至所述主参与方;其中,所述主参与方用于解密所述特定梯度密文得到特定梯度并将所述特定梯度同步至所述副参与方;
其中,所述方法还包括:
所述标签方生成相对应的公钥和私钥;所述主参与方生成相对应的公钥和私钥;所述标签方向所述主参与方发送所述公钥,所述主参与方向所述标签方和所述副参与方分发所述公钥,所述各参与方发送的参数密文均基于所述主参与方分发的公钥加密得到。
2.根据权利要求1所述的方法,其特征在于,基于本方参数、所述数据标签和各参与方发送的参数密文生成对应于所述各参与方的第一参考密文之前,所述方法还包括:
根据模型参数和样本数据确定本方参数。
3.根据权利要求2所述的方法,其特征在于,所述各参与方发送的参数密文中包括子参数密文;基于本方参数、所述数据标签和各参与方发送的参数密文生成对应于所述各参与方的第一参考密文,包括:
将所述本方参数、所述数据标签、所述子参数密文代入预设的逻辑回归表达式,以计算出对应于所述各参与方的第一参考密文;或者,
将所述本方参数、所述数据标签、所述子参数密文代入预设的线性回归表达式,以计算出对应于所述各参与方的第一参考密文。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
生成参考损失密文和参考梯度密文;
将所述参考损失密文和所述参考梯度密文发送至所述主参与方;其中,所述主参与方用于计算对应于所述参考损失密文的目标损失密文和对应于所述参考梯度密文的目标梯度密文;
基于所述主参与方发送的所述目标损失密文和所述目标梯度密文获取当前梯度,并基于所述当前梯度更新所述模型参数。
5.根据权利要求4所述的方法,其特征在于,所述各参与方发送的参数密文中还包括子损失密文,生成参考损失密文和参考梯度密文,包括:
获取与所述各参与方的样本对齐结果,并生成对应于各样本对齐结果的碎片损失;
基于所述数据标签、所述本方参数、所述碎片损失、所述子参数密文、所述子损失密文生成对应于所述各参与方的参考损失密文;
融合各参考损失密文得到参考损失密文,并根据所述模型参数、样本数据、所述各参与方的第一参考密文生成参考梯度密文。
6.根据权利要求5所述的方法,其特征在于,获取与所述各参与方的样本对齐结果,包括:
对所述各参与方的加密样本进行特征对齐,得到所述各参与方的新加密样本;
将所述样本数据分别和所述各参与方的新加密样本进行样本对齐,得到对应于所述各参与方的样本对齐结果。
7.根据权利要求6所述的方法,其特征在于,获取与各参与方的样本对齐结果之后,所述方法还包括:
将与所述各参与方的样本对齐结果进行去重处理。
8.根据权利要求1所述的方法,其特征在于,将所述特定梯度密文发送至所述主参与方之前,所述方法还包括:
对所述各参与方的第一参考密文进行加密。
9.根据权利要求1所述的方法,其特征在于,根据所述各参与方发送的第二参考密文生成特定梯度密文,包括:
融合所述各第二参考密文,得到融合密文;
生成对应于所述融合密文的特定梯度密文。
10.根据权利要求1所述的方法,其特征在于,所述各参与方还用于根据所述特定梯度更新本地模型。
11.根据权利要求1所述的方法,其特征在于,所述各参与方发送的参数密文均基于所述主参与方分发的主方公钥加密得到。
12.根据权利要求1所述的方法,其特征在于,将所述特定梯度密文发送至所述主参与方之后,所述方法还包括:
接收所述各参与方中的目标参与方发送的待预测样本参数密文;
基于标签方的本地模型预测所述待预测样本参数密文对应的所属类别;
将所述所属类别反馈至所述目标参与方。
13.一种应用于混合联邦场景的参数处理系统,其特征在于,所述系统包括不包含数据标签的各参与方以及包含所述数据标签的标签方,所述各参与方包括主参与方和副参与方,其中:
所述标签方,用于基于本方参数、所述数据标签和各参与方发送的参数密文生成对应于所述各参与方的第一参考密文;
所述标签方,还用于将对应于所述各参与方的第一参考密文发送至相应的参与方;
所述各参与方,用于根据相应的第一参考密文确定第二参考密文;
所述标签方,还用于根据所述各参与方发送的第二参考密文生成特定梯度密文,并将所述特定梯度密文发送至所述主参与方;
所述主参与方,用于解密所述特定梯度密文得到特定梯度并将所述特定梯度同步至所述副参与方;根据所述特定梯度更新所述主参与方的本地模型;
所述副参与方,用于根据所述特定梯度更新所述副参与方的本地模型;
其中:
所述标签方生成相对应的公钥和私钥;所述主参与方生成相对应的公钥和私钥;所述标签方向所述主参与方发送所述公钥,所述主参与方向所述标签方和所述副参与方分发所述公钥,所述各参与方发送的参数密文均基于所述主参与方分发的公钥加密得到。
14.一种应用于混合联邦场景的参数处理装置,其特征在于,所述混合联邦场景中包括不包含数据标签的各参与方以及包含所述数据标签的标签方,所述各参与方包括主参与方和副参与方,所述装置包括:
密文生成单元,用于基于本方参数、所述数据标签和各参与方发送的参数密文生成对应于所述各参与方的第一参考密文;
密文发送单元,用于将对应于所述各参与方的第一参考密文发送至相应的参与方;其中,所述各参与方用于根据相应的第一参考密文确定第二参考密文;
所述密文生成单元,还用于根据所述各参与方发送的第二参考密文生成特定梯度密文;
所述密文发送单元,还用于将所述特定梯度密文发送至所述主参与方;其中,所述主参与方用于解密所述特定梯度密文得到特定梯度并将所述特定梯度同步至所述副参与方;
其中:
所述标签方生成相对应的公钥和私钥;所述主参与方生成相对应的公钥和私钥;所述标签方向所述主参与方发送所述公钥,所述主参与方向所述标签方和所述副参与方分发所述公钥,所述各参与方发送的参数密文均基于所述主参与方分发的公钥加密得到。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-12任一项所述的方法。
16.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-12任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210570274.9A CN114841373B (zh) | 2022-05-24 | 2022-05-24 | 应用于混合联邦场景的参数处理方法、装置、系统及产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210570274.9A CN114841373B (zh) | 2022-05-24 | 2022-05-24 | 应用于混合联邦场景的参数处理方法、装置、系统及产品 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114841373A CN114841373A (zh) | 2022-08-02 |
CN114841373B true CN114841373B (zh) | 2024-05-10 |
Family
ID=82571454
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210570274.9A Active CN114841373B (zh) | 2022-05-24 | 2022-05-24 | 应用于混合联邦场景的参数处理方法、装置、系统及产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114841373B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111931950A (zh) * | 2020-09-28 | 2020-11-13 | 支付宝(杭州)信息技术有限公司 | 一种基于联邦学习进行模型参数更新的方法及系统 |
WO2021092980A1 (zh) * | 2019-11-14 | 2021-05-20 | 深圳前海微众银行股份有限公司 | 纵向联邦学习优化方法、装置、设备及存储介质 |
WO2022016964A1 (zh) * | 2020-07-23 | 2022-01-27 | 深圳前海微众银行股份有限公司 | 纵向联邦建模优化方法、设备及可读存储介质 |
CN114004363A (zh) * | 2021-10-27 | 2022-02-01 | 支付宝(杭州)信息技术有限公司 | 联合更新模型的方法、装置及系统 |
CN114021017A (zh) * | 2021-11-05 | 2022-02-08 | 光大科技有限公司 | 信息推送方法、装置及存储介质 |
CN114168295A (zh) * | 2021-12-10 | 2022-03-11 | 深圳致星科技有限公司 | 混合架构系统及基于历史任务效果的任务调度方法 |
WO2022089256A1 (zh) * | 2020-10-27 | 2022-05-05 | 腾讯科技(深圳)有限公司 | 联邦神经网络模型的训练方法、装置、设备、计算机程序产品及计算机可读存储介质 |
-
2022
- 2022-05-24 CN CN202210570274.9A patent/CN114841373B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021092980A1 (zh) * | 2019-11-14 | 2021-05-20 | 深圳前海微众银行股份有限公司 | 纵向联邦学习优化方法、装置、设备及存储介质 |
WO2022016964A1 (zh) * | 2020-07-23 | 2022-01-27 | 深圳前海微众银行股份有限公司 | 纵向联邦建模优化方法、设备及可读存储介质 |
CN111931950A (zh) * | 2020-09-28 | 2020-11-13 | 支付宝(杭州)信息技术有限公司 | 一种基于联邦学习进行模型参数更新的方法及系统 |
WO2022089256A1 (zh) * | 2020-10-27 | 2022-05-05 | 腾讯科技(深圳)有限公司 | 联邦神经网络模型的训练方法、装置、设备、计算机程序产品及计算机可读存储介质 |
CN114004363A (zh) * | 2021-10-27 | 2022-02-01 | 支付宝(杭州)信息技术有限公司 | 联合更新模型的方法、装置及系统 |
CN114021017A (zh) * | 2021-11-05 | 2022-02-08 | 光大科技有限公司 | 信息推送方法、装置及存储介质 |
CN114168295A (zh) * | 2021-12-10 | 2022-03-11 | 深圳致星科技有限公司 | 混合架构系统及基于历史任务效果的任务调度方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114841373A (zh) | 2022-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110245510B (zh) | 用于预测信息的方法和装置 | |
US20230108682A1 (en) | Data processing method and apparatus, device, and computer-readable storage medium | |
CN112131316B (zh) | 应用于区块链系统的数据处理方法及装置 | |
CN108390872B (zh) | 证书管理方法、装置、介质及电子设备 | |
CN111784001B (zh) | 一种模型训练方法、设备及计算机可读存储介质 | |
CN113162752B (zh) | 基于混合同态加密的数据处理方法和装置 | |
CN110795752A (zh) | 基于区块链的物流信息存储方法、装置、介质及电子设备 | |
CN112270597A (zh) | 业务处理、信用评价模型训练方法、装置、设备及介质 | |
JP2012163960A (ja) | 暗号化技術を用いたツリーに基づく分類のための方法及び装置 | |
CN114168977A (zh) | 一种基于密文的数值安全排序方法及系统 | |
WO2023071133A1 (zh) | 标签化网络信息服务生成及应用方法、装置、设备、介质 | |
CN114611008B (zh) | 基于联邦学习的用户服务策略确定方法、装置及电子设备 | |
CN107204997A (zh) | 管理云存储数据的方法和装置 | |
CN114881247A (zh) | 基于隐私计算的纵向联邦特征衍生方法、装置、介质 | |
CN115935438A (zh) | 数据隐私求交系统及方法 | |
CN114492850A (zh) | 基于联邦学习的模型训练方法、设备、介质及程序产品 | |
CN114172655A (zh) | 一种安全多方计算数据系统、方法、设备及数据处理终端 | |
CN114841373B (zh) | 应用于混合联邦场景的参数处理方法、装置、系统及产品 | |
CN113438210A (zh) | 一种数据传输处理方法、装置和电子设备 | |
CN108140336B (zh) | 秘密认证码附加装置、秘密认证码附加方法以及记录介质 | |
CN115225367A (zh) | 数据处理方法、装置、计算机设备、存储介质和产品 | |
CN111832046B (zh) | 一种基于区块链技术的可信数据存证方法 | |
CN112929169A (zh) | 秘钥协商方法及系统 | |
Kumar | Advanced RSA cryptographic algorithm for improving data security | |
CN111159761B (zh) | 一种模型训练方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |