CN111241567B - 纵向联邦学习中的数据共享方法、系统及存储介质 - Google Patents

纵向联邦学习中的数据共享方法、系统及存储介质 Download PDF

Info

Publication number
CN111241567B
CN111241567B CN202010048597.2A CN202010048597A CN111241567B CN 111241567 B CN111241567 B CN 111241567B CN 202010048597 A CN202010048597 A CN 202010048597A CN 111241567 B CN111241567 B CN 111241567B
Authority
CN
China
Prior art keywords
party
federal
sample
share
predicted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010048597.2A
Other languages
English (en)
Other versions
CN111241567A (zh
Inventor
康焱
刘洋
陈天健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202010048597.2A priority Critical patent/CN111241567B/zh
Publication of CN111241567A publication Critical patent/CN111241567A/zh
Application granted granted Critical
Publication of CN111241567B publication Critical patent/CN111241567B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本发明公开一种基于秘密共享的纵向联邦学习方法、系统及存储介质,该方法包括:联邦第一方初始化其预测模型的第一参数;基于秘密共享机制将其第一重叠样本第二份额和第一重叠样本标签第二份额发送至联邦第二方供第二方生成第二训练数据,接收第二方基于秘密共享机制发送的第二方第二重叠样本第一份额以生成第一训练数据;根据第一训练数据对其预测模型进行训练,计算第一损失值和第一梯度以更新第一参数,接收第二方发送的第二方根据第二训练数据对其预测模型进行训练时计算的第二损损失值;计算第一损失值和第二损失值的和,当第一损失值和第二损失值的和收敛时得到其训练好的预测模型,向第二方发送停止训练指令。本发明能够提升联邦学习效率。

Description

纵向联邦学习中的数据共享方法、系统及存储介质
技术领域
本发明涉及联邦学习领域,尤其涉及一种纵向联邦学习中的数据共享方法、系统及存储介质。
背景技术
联邦学习是人工智能的核心研究领域之一。相关技术中,联邦双方在不用给出己方数据的情况下,可以通过加密技术实现数据交换,能够在保障数据隐私前提下进行联邦学习。
然而,目前联邦学习所采用的传统加密技术如同态加密,运算量,加密速度及其缓慢,严重影响联邦学习的效率。
发明内容
本发明的主要目的在于提供一种纵向联邦学习中的数据共享方法、系统及存储介质,旨在解决现有联邦学习所采用的加密技术运算量大,影响联邦学习效率的技术问题。
为实现上述目的,本发明提供一种纵向联邦学习中的数据共享方法,应用于联邦第一方,所述方法包括以下步骤:
初始化所述第一方预测模型的第一参数;
基于秘密共享机制,将所述第一方第一重叠样本第二份额和第一重叠样本标签第二份额发送至联邦第二方,以供所述第二方生成第二训练数据,并接收所述第二方基于秘密共享机制发送的所述第二方第二重叠样本第一份额,以生成第一训练数据;
根据所述第一训练数据对所述第一方预测模型进行训练,计算第一损失值和第一梯度,以更新所述第一参数,并接收所述第二方发送的所述第二方根据所述第二训练数据对所述第二方预测模型进行训练时计算的第二损失值;
计算所述第一损失值和所述第二损失值的和,当所述第一损失值和所述第二损失值的和收敛时,得到所述第一方训练好的预测模型,并向所述第二方发送停止训练指令。
为实现上述目的,本发明还提供一种纵向联邦学习中的数据共享方法,应用于联邦第二方,所述方法包括以下步骤:
初始化所述第二方预测模型的第二参数;
基于秘密共享机制,将所述第二方第二重叠样本第一份额发送至联邦第一方,以供所述第一方生成第一训练数据,并接收所述第一方基于秘密共享机制发送的所述第一方第一重叠样本第二份额和第一重叠样本标签第二份额,以生成第二训练数据;
根据所述第二训练数据对第二方预测模型进行训练,计算第二损失值和第二梯度,以更新所述第二参数,并将所述第二损失值发送至所述第一方;
当接收到所述第一方基于所述第一训练数据和所述第二损失值得到训练好的第一方预测模型而发送的停止训练指令时,得到所述第二方训练好的预测模型。
此外,本发明还提供一种基于数据共享的纵向联邦学习的预测方法,所述方法应用于联邦第一方,包括以下步骤:
通过所述第一方训练好的预测模型对待预测样本进行预测,得到第一预测标签,并接收联邦第二方发送的所述第二方通过所述第二方训练好的预测模型对待预测样本进行预测得到的第二预测标签;
将所述第一预测标签与所述第二预测标签的和作为所述待预测样本的标签。
此外,为实现上述目的,本发明还提供一种纵向联邦学习中的数据共享系统,所述纵向联邦学习中的数据共享系统包括联邦第一方和联邦第二方,其中,所述联邦第一方包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的纵向联邦学习中的数据共享程序或基于数据共享的纵向联邦学习的预测程序,所述纵向联邦学习中的数据共享程序被所述处理器执行时实现上所述的纵向联邦学习中的数据共享方法的步骤,或所述基于数据共享的纵向联邦学习的预测程序被所述处理器执行时实现如上所述的基于数据共享的纵向联邦学习的预测方法的步骤;
所述联邦第二方包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的纵向联邦学习中的数据共享程序,所述纵向联邦学习中的数据共享程序被所述处理器执行时实现如上所述的纵向联邦学习中的数据共享方法的步骤。
此外,为实现上述目的,本发明还提供一种存储介质,所述存储介质上存储有纵向联邦学习中的数据共享程序或基于数据共享的纵向联邦学习的预测程序,所述纵向联邦学习中的数据共享程序被处理器执行时实现如上所述的纵向联邦学习中的数据共享方法的步骤,或所述基于数据共享的纵向联邦学习的预测程序实现如上所述的基于数据共享的纵向联邦学习的预测方法的步骤。
本发明提供一种纵向联邦学习中的数据共享方法、系统及存储介质,本发明联邦第一方初始化所述第一方预测模型的第一参数;基于秘密共享机制,将所述第一方第一重叠样本第二份额和第一重叠样本标签第二份额发送至联邦第二方,以供所述第二方生成第二训练数据,并接收所述第二方基于秘密共享机制发送的所述第二方第二重叠样本第一份额,以生成第一训练数据;根据所述第一训练数据对所述第一方预测模型进行训练,计算第一损失值和第一梯度,以更新所述第一参数,并接收所述第二方发送的所述第二方根据所述第二训练数据对所述第二方预测模型进行训练时计算的第二损失值;计算所述第一损失值和所述第二损失值的和,当所述第一损失值和所述第二损失值的和收敛时,得到所述第一方训练好的预测模型,并向所述第二方发送停止训练指令。本发明依据秘密共享机制,在保证联邦双方各自样本数据隐私的情况下,互相利用联邦双方的样本数据,通过纵向联邦学习方法学习得到用于预测新样本标签的预测模型,不仅提升了对联邦双方的样本数据的利用率和预测模型的精确度,且相比于传统的同态加密技术,本发明秘密共享机制运算量小,从而提升了联邦学习的效率。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图;
图2为本发明纵向联邦学习中的数据共享方法第一实施例的流程示意图;
图3为本发明纵向联邦学习中的数据共享方法第一实施例中涉及的联邦双方A、B的样本空间和特征空间的示意图;
图4为本发明纵向联邦学习中的数据共享方法第一实施例中涉及的联邦双方A、B的一次训练迭代过程示意图;
图5本发明纵向联邦学习中的数据共享方法第二实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例终端涉及的纵向联邦学习中的数据共享方法主要应用于纵向联邦学习中的数据共享系统,该系统包括联邦第一方和联邦第二方,联邦第一方和联邦第二方可以是PC或服务器等具有数据处理功能的设备。
参照图1,图1为本发明实施例方案中涉及的联邦第一方或联邦第二方的硬件结构示意图。如图1所示,联邦第一方或联邦第二方包括:处理器1001,例如CPU,通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选的用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。本领域技术人员可以理解,图1中示出的硬件结构并不构成对本申请的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
继续参照图1,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及纵向联邦学习中的数据共享程序。在图1中,处理器1001可以用于调用存储器1005中存储的纵向联邦学习中的数据共享程序,并执行本发明实施例提供的纵向联邦学习中的数据共享方法的步骤。
基于上述硬件结构,提出本发明纵向联邦学习中的数据共享方法的各个实施例。
参照图2,本发明纵向联邦学习中的数据共享方法第一实施例提供一种纵向联邦学习中的数据共享方法,该方法应用于联邦第一方,联邦第一方可以是单个服务器或服务器集群,该方法包括:
步骤S10、初始化所述第一方预测模型的第一参数;
步骤S20、基于秘密共享机制,将所述第一方第一重叠样本第二份额和第一重叠样本标签第二份额发送至联邦第二方,以供所述第二方生成第二训练数据,并接收所述第二方基于秘密共享机制发送的所述第二方第二重叠样本第一份额,以生成第一训练数据;
步骤S30、根据所述第一训练数据对所述第一方预测模型进行训练,计算第一损失值和第一梯度,以更新所述第一参数,并接收所述第二方发送的所述第二方根据所述第二训练数据对所述第二方预测模型进行训练时计算的第二损失值;
步骤S40、计算所述第一损失值和所述第二损失值的和,当所述第一损失值和所述第二损失值的和收敛时,得到所述第一方训练好的预测模型,并向所述第二方发送停止训练指令。
联邦学习是人工智能的核心研究领域之一,相关技术中,联邦双方在不用给出己方数据的情况下,可以通过加密技术实现数据交换,能够在保障数据隐私前提下进行联邦学习。然而,目前联邦学习所采用的传统加密技术如同态加密,运算量,加密速度及其缓慢,严重影响联邦学习的效率。本实施例在保证联邦双方各自样本数据隐私的情况下,互相利用联邦双方的样本数据,通过纵向联邦学习方法学习得到用于预测新样本标签的预测模型,不仅提升了对联邦双方的样本数据的利用率和预测模型的精确度,且相比于传统的同态加密技术,本发明秘密共享机制运算量小,从而提升了联邦学习的效率。
为更好理解本实施例,首先对纵向联邦学习和秘密共享机制进行介绍。其中,纵向联邦学习是指,在两个数据集的用户重叠较多而用户特征重叠较少的情况下,把数据集按照纵向(即特征维度)切分,并取出联邦双方用户相同而用户特征不完全相同的那部分数据进行训练。秘密共享是实现安全多方计算协议的一种方法,指的是数据拥有者的多方在互不信任的情况下进行协同计算,输出计算结果,并保证任何一方都无法得到除应得的计算结果之外的其他任何信息。具体到本实施例,就是利用联邦双方的重叠样本,通过纵向联邦学习中的数据共享方法学习得到预测模型,用于预测新样本的标签。
以下详细介绍本实施例纵向联邦学习中的数据共享方法的具体步骤:
步骤S10、初始化所述第一方预测模型的第一参数;
在本实施例中,联邦双方的样本空间和特征空间均不同,联邦第一方的样本有标签,联邦第二方的样本无标签,但联邦第一方和联邦第二方拥有若干个重叠样本。例如,以A、B表示联邦双方,A拥有样本XA和样本XA对应的标签YA,B拥有样本XB,样本XB没有标签,联邦双方A、B的样本空间和特征空间均不同,但是A、B拥有NAB个重叠样本NAB,在重叠样本NAB中,属于A的第一重叠样本记为第一重叠样本/>的标签记为/>属于B的第二重叠样本记为/>即,/>和/>可以参照图3,图3为联邦双方A、B的样本空间和特征空间的示意图,阴影部分为双方A、B的重叠样本。
首先,联邦第一方初始化其预测模型的参数(定义为第一参数),与此同时,联邦第二方初始化其预测模型的参数(定义为第二参数)。
步骤S20、基于秘密共享机制,将所述第一方第一重叠样本第二份额和第一重叠样本标签第二份额发送至联邦第二方,以供所述第二方生成第二训练数据,并接收所述第二方基于秘密共享机制发送的所述第二方第二重叠样本第一份额,以生成第一训练数据;
之后,联邦第一方依据秘密共享机制,将联邦第一方的第一重叠样本秘密共享给第二方,还将第一重叠样本的标签秘密共享给第二方。
在一些实施例中,所述基于秘密共享机制,将所述第一方第一重叠样本第二份额和第一重叠样本标签第二份额发送至联邦第二方,具体为:将所述第一方和所述第二方的重叠样本中属于所述第一方的第一重叠样本拆分为第一重叠样本第一份额和第一重叠样本第二份额,以及,将属于所述第一方的第一重叠样本标签拆分为第一重叠样本标签第一份额和第一重叠样本标签第二份额;将所述第一重叠样本第二份额和所述第一重叠样本标签第二份额发送给联邦第二方。
在一些实施例中,所述接收所述第二方基于秘密共享机制发送的所述第二方第二重叠样本第一份额,以生成第一训练数据,具体为:接收所述第二方基于秘密共享机制发送的所述第二方第二重叠样本第一份额;将所述第一重叠样本第一份额、所述第二重叠样本第一份额和所述第一重叠样本标签第一份额组成第一训练数据。
在一些实施例中,所述接收所述第二方基于秘密共享机制发送的所述第二方第二重叠样本第一份额,以生成第一训练数据,具体为:接收所述第二方基于秘密共享机制发送的所述第二方第二重叠样本第一份额;将所述第一重叠样本第一份额、所述第二重叠样本第一份额和所述第一重叠样本标签第一份额组成第一训练数据。
即,联邦第一方将联邦第一方和联邦第二方的重叠样本中属于联邦第一方的第一重叠样本,拆分为第一重叠样本第一份额和第一重叠样本第二份额,以及,将属于联邦第一方的第一重叠样本标签拆分为第一重叠样本标签第一份额和第一重叠样本标签第二份额,并将第一重叠样本第二份额和第一重叠样本标签第二份额发送给第二方。
与此同时,联邦第二方依据秘密共享机制,将联邦第二方的第二重叠样本秘密共享给第一方。具体地,联邦第二方将重叠样本中属于联邦第二方的第二重叠样本拆分为第二重叠样本第一份额和第二重叠样本第二份额,并将第二重叠样本第一份额发送给联邦第一方。
通过上述方式,基于秘密共享机制,联邦双方在保证各自样本数据隐私的情况下,实现了样本数据的秘密互换,后续联邦双方即可分别利用联邦双方拥有的所有特征,通过纵向联邦学习中的数据共享方法学习得到各自的预测模型。
联邦第一方接收联邦第二方发送的第二重叠样本第一份额,将第一重叠样本第一份额、第二重叠样本第一份额和第一重叠样本标签第一份额组成第一训练数据。与此同时,联邦第二方接收联邦第一方发送的第一重叠样本第二份额和第一重叠样本标签第二份额,将第二重叠样本第二份额、第一重叠样本第二份额和第一重叠样本标签第二份额组成第二训练数据。
步骤S30、根据所述第一训练数据对所述第一方预测模型进行训练,计算第一损失值和第一梯度,以更新所述第一参数,并接收所述第二方发送的所述第二方根据所述第二训练数据对所述第二方预测模型进行训练时计算的第二损失值;
进一步地,联邦第一方根据第一训练数据对联邦第一方预测模型进行训练,计算第一损失值和第一梯度,以更新第一参数。与此同时,联邦第二方根据第二训练数据对联邦第二方预测模型进行训练,计算第二损失值和第二梯度,以更新第二参数,并将第二损失值发送给联邦第一方。联邦第一方接收联邦第二方发送的第二损失值。
步骤S40、计算所述第一损失值和所述第二损失值的和,当所述第一损失值和所述第二损失值的和收敛时,得到所述第一方训练好的预测模型,并向所述第二方发送停止训练指令。
之后,联邦第一方计算第一损失值和第二损失值的和,当第一损失值和第二损失值的和收敛时,第一参数更新完成,得到训练好的第一参数,即得到联邦第一方训练好的预测模型。联邦第一方向联邦第二方发送停止训练指令,联邦第二方停止训练,第二参数更新完成,得到训练好的第二参数,即得到联邦第二方训练好的预测模型。
为更好理解本实施例,参照图4,举例联邦双方A、B进行一次训练迭代的过程:
1)A方初始化A方预测模型的参数<θ>A,B方初始化B方预测模型的参数<θ>B
2)A方基于秘密共享机制将重叠样本中属于A方的第一重叠样本拆分为第一重叠样本第一份额和第一重叠样本第二份额,将/>对应的标签/>拆分为第一重叠样本标签第一份额和第一重叠样本标签第二份额:
A方将和/>发送给B方;
B方基于秘密共享机制将重叠样本中属于B方的第二重叠样本拆分为第二重叠样本第一份额和第二重叠样本第二份额:
B方将发送给A方;
3)A方将和/>连结,组成第一训练数据,表示为:
为M×(dA+dB)矩阵;
B方将和/>连结,组成第二训练数据,表示为:
为M×(dA+dB)矩阵;
4)A方根据参数<θ>A、第一训练数据和剩余份标签/>计算第一损失函数:
根据损失函数<L>A,计算第一梯度
B方根据参数<θ>B、第二训练数据和接收到的标签/>计算第二损失函数:
根据损失函数<L>B,计算第二梯度B方将<L>B发送给A方;
5)A方更新参数
B方更新参数
6)在A方计算损失函数L:
L=<L>A+<L>B
判断损失函数L是否收敛,即,当损失函数L的值小于预设阈值时,则确认损失函数L收敛,说明A、B均得到最优参数,A、B各自对应的预测模型训练完成;当损失函数L未收敛时,继续执行步骤4)。
本实施例提供一种纵向联邦学习中的数据共享方法,初始化所述第一方预测模型的第一参数;基于秘密共享机制,将所述第一方第一重叠样本第二份额和第一重叠样本标签第二份额发送至联邦第二方,以供所述第二方生成第二训练数据,并接收所述第二方基于秘密共享机制发送的所述第二方第二重叠样本第一份额,以生成第一训练数据;根据所述第一训练数据对所述第一方预测模型进行训练,计算第一损失值和第一梯度,以更新所述第一参数,并接收所述第二方发送的所述第二方根据所述第二训练数据对所述第二方预测模型进行训练时计算的第二损失值;计算所述第一损失值和所述第二损失值的和,当所述第一损失值和所述第二损失值的和收敛时,得到所述第一方训练好的预测模型,并向所述第二方发送停止训练指令。本发明依据秘密共享机制,在保证联邦双方各自样本数据隐私的情况下,互相利用联邦双方的样本数据,通过纵向联邦学习方法学习得到用于预测新样本标签的预测模型,不仅提升了对联邦双方的样本数据的利用率和预测模型的精确度,且相比于传统的同态加密技术,本发明秘密共享机制运算量小,从而提升了联邦学习的效率。
进一步地,基于上述图2所示的第一实施例,参照图5,本发明纵向联邦学习中的数据共享方法第二实施例提供一种纵向联邦学习中的数据共享方法,该方法应用于联邦第二方,联邦第二方可以是单个服务器或服务器集群,该方法包括:
步骤S50、初始化所述第二方预测模型的第二参数;
步骤S60、基于秘密共享机制,将所述第二方第二重叠样本第一份额发送至联邦第一方,以供所述第一方生成第一训练数据,并接收所述第一方基于秘密共享机制发送的所述第一方第一重叠样本第二份额和第一重叠样本标签第二份额,以生成第二训练数据;
步骤S70、根据所述第二训练数据对第二方预测模型进行训练,计算第二损失值和第二梯度,以更新所述第二参数,并将所述第二损失值发送至所述第一方;
步骤S80、当接收到所述第一方基于所述第一训练数据和所述第二损失值得到训练好的第一方预测模型而发送的停止训练指令时,得到所述第二方训练好的预测模型。
本实施例的具体实现过程可参照第一实施例,此处不再赘述。
进一步地,基于上述图2或图3所示的实施例,还提出本发明基于数据共享的纵向联邦学习的预测方法的各个实施例。
本发明基于数据共享的纵向联邦学习的预测方法的第一实施例提供一种基于数据共享的纵向联邦学习的预测方法,该方法应用于联邦第一方,该方法还包括:
通过所述第一方训练好的预测模型对待预测样本进行预测,得到第一预测标签,并接收联邦第二方发送的所述第二方通过所述第二方训练好的预测模型对待预测样本进行预测得到的第二预测标签;
将所述第一预测标签与所述第二预测标签的和作为所述待预测样本的标签。
即,在联邦第一方和联邦第二方分别得到训练好的预测模型之后,联邦第一方即可联合联邦第二方对待预测样本的标签进行预测。具体地,联邦第一方通过其训练好的预测模型对待预测样本进行预测,得到第一预测标签;与此同时,联邦第二方通过其训练好的预测模型对待预测样本进行预测,得到第二预测标签,并将第二预测标签发送给联邦第一方。联邦第一方接收联邦第二方发送的第二预测标签,将第一预测标签与第二预测标签的和作为待预测样本的标签。
在一些实施例中,所述通过所述第一方训练好的预测模型对待预测样本进行预测,得到第一预测标签,并接收联邦第二方发送的所述第二方通过所述第二方训练好的预测模型对待预测样本进行预测得到的第二预测标签,具体为:获取待预测样本在所述第一方的第一待预测样本;基于秘密共享机制,将所述第一待预测样本第二份额发送至所述第二方,以供所述第二方生成第二目标待预测样本,并接收所述第二方基于秘密共享机制发送的所述第二方第二待预测样本第一份额,以生成第一目标待预测样本;将所述第一目标待预测样本输入所述第一方训练好的预测模型进行分析得到第一预测标签,并接收所述第二方发送的所述第二方将所述第二目标待预测样本输入所述第二方训练好的预测模型进行分析得到的第二预测标签。
在一些实施例中,所述基于秘密共享机制,将所述第一待预测样本第二份额发送至所述第二方,具体为:将所述第一待预测样本拆分为第一待预测样本第一份额和第一待预测样本第二份额,并将所述第一待预测样本第二份额发送至所述第二方。
在一些实施例中,所述接收所述第二方基于秘密共享机制发送的所述第二方第二待预测样本第一份额,以生成第一目标待预测样本,具体为:接收所述第二方基于秘密共享机制发送的所述第二方第二待预测样本第一份额;将所述第一待预测样本第一份额和所述第二待预测样本第一份额组成第一目标待预测样本。
即,可以预先给定待预测样本在联邦第一方的第一待预测样本和在联邦第二方的第二待预测样本。联邦第一方获取待预测样本在联邦第一方的第一待预测样本;与此同时,联邦第二方获取待预测样本在联邦第二方的第二待预测样本。
之后,联邦第一方基于秘密共享机制,将第一待预测样本拆分为第一待预测样本第一份额和第一待预测样本第二份额,并将第一待预测样本第二份额发送至联邦第二方;与此同时,联邦第二方基于秘密共享机制,将第二待预测样本拆分为第二待预测样本第一份额和第二待预测样本第二份额,并将第二待预测样本第一份额发送至联邦第一方。
联邦第一方接收联邦第二方发送的第二待预测样本第一份额,将第一待预测样本第一份额和二待预测样本第一份额组成第一目标待预测样本。与此同时,联邦第二方接收联邦第一方发送的第一待预测样本第二份额,将第二待预测样本第二份额和所述第一待预测样本第二份额组成第二目标待预测样本。
之后,联邦第一方将第一目标待预测样本输入至其训练好的预测模型进行预测,得到其训练好的预测模型输出的第一预测标签,并将第一预测标签发送至联邦第二方;与此同时,联邦第二方将第二目标待预测样本输入至其训练好的预测模型进行预测,得到其训练好的预测模型输出的第二预测标签,并将第二预测标签发送至联邦第一方。
联邦第一方接收联邦第二方发送的第二预测标签,将将第一预测标签与第二标签的和作为预测结果。联邦第二方接收联邦第一方发送的第一预测标签,将第一预测标签与第二标签的和作为预测结果。
为更好理解本实施例,示例联邦双方A、B对待预测样本进行联合预测的过程:
待预测样本表示为其中,/>为预先给定的待预测样本在联邦第一方的第一待预测样本,/>为预先给定的待预测样本在联邦第二方的第二待预测样本。
1)A方基于秘密共享机制将第一待预测样本拆分成两份:
发送给B方;
B方基于秘密共享机制将样本数据拆分成两份:
B方将发送给A方;
2)A方将和/>连结组成第一目标待预测样本,表示为:
B方将和/>连结组成第二目标待预测样本,表示为:
3)A方基于第一目标待预测样本和A方预测模型,得到第一预测标签同时,B方基于第一目标待预测样本/>和B方预测模型,得到第一预测标签/>
4)A方将发送至B方,B方将/>发送至A方,A、B两方得到最终预测结果为:
的结果记为/>在预测完成后,即可得到有标注的样本/>
本发明提供的基于数据共享的纵向联邦学习的预测方法,联邦第一方通过所述第一方训练好的预测模型对待预测样本进行预测,得到第一预测标签,并接收联邦第二方发送的所述第二方通过所述第二方训练好的预测模型对待预测样本进行预测得到的第二预测标签;将所述第一预测标签与所述第二预测标签的和作为所述待预测样本的标签。本发明联邦第一方在其和联邦第二方分别得到训练好的预测模型之后,联合联邦第二方对新样本的标签进行预测,大大提升了所预测出的标签的准确度。
此外,本发明实施例还提出一种存储介质。
本发明所存储介质上存储有纵向联邦学习中的数据共享程序,所述纵向联邦学习中的数据共享程序被处理器执行时实现如上所述的纵向联邦学习中的数据共享方法的步骤,或所述基于数据共享的纵向联邦学习的预测程序实现如上所述的基于数据共享的纵向联邦学习的预测方法的步骤。
本发明存储介质的具体实施例与上述纵向联邦学习中的数据共享方法各实施例基本相同,在此不作赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程映射,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (9)

1.一种纵向联邦学习中的数据共享方法,其特征在于,所述方法应用于联邦第一方,联邦第一方和联邦第二方的用户样本空间和用户特征空间不同,所述联邦第一方的用户样本有标签,所述联邦第二方的用户样本无标签,所述联邦第一方和所述联邦第二方拥有若干个重叠用户样本,所述重叠用户样本中属于所述联邦第一方的记第一重叠用户样本,属于所述联邦第二方的记为第二重叠用户样本,所述第一重叠用户样本包括第一重叠用户样本第一份额和第一重叠用户样本第二份额,所述第一重叠用户样本的标签包括第一重叠用户样本标签第一份额和第一重叠用户样本标签第二份额,所述第二重叠用户样本包括第二重叠用户样本第一份额和第二重叠用户样本第二份额;
所述方法包括以下步骤:
初始化所述联邦第一方的预测模型的第一参数,并确定所述第一重叠用户样本第二份额和所述第一重叠用户样本标签第二份额;
基于秘密共享机制,将所述第一重叠用户样本第二份额和第一重叠用户样本标签第二份额发送至所述联邦第二方,以供所述联邦第二方生成第二训练数据,确定所述第二重叠用户样本第一份额并接收所述联邦第二方基于秘密共享机制发送的所述第二重叠用户样本第一份额,以生成第一训练数据;
根据所述第一训练数据对所述联邦第一方的预测模型进行训练,计算第一损失值和第一梯度,以更新所述第一参数,并接收所述联邦第二方发送的所述联邦第二方根据所述第二训练数据对所述联邦第二方的预测模型进行训练时计算的第二损失值;
计算所述第一损失值和所述第二损失值的和,当所述第一损失值和所述第二损失值的和收敛时,得到所述联邦第一方训练好的预测模型,并向所述联邦第二方发送停止训练指令,其中,训练好的预测模型用于预测新用户样本的标签。
2.如权利要求1所述的纵向联邦学习中的数据共享方法,其特征在于,所述生成第一训练数据的步骤包括:
将所述第一重叠用户样本第一份额、所述第二重叠用户样本第一份额和所述第一重叠用户样本标签第一份额组成第一训练数据。
3.一种纵向联邦学习中的数据共享方法,其特征在于,所述方法应用于联邦第二方,联邦第一方和联邦第二方的用户样本空间和用户特征空间不同,所述联邦第一方的用户样本有标签,所述联邦第二方的用户样本无标签,所述联邦第一方和所述联邦第二方拥有若干个重叠用户样本,所述重叠用户样本中属于所述联邦第一方的记第一重叠用户样本,属于所述联邦第二方的记为第二重叠用户样本,所述第一重叠用户样本包括第一重叠用户样本第一份额和第一重叠用户样本第二份额,所述第一重叠用户样本的标签包括第一重叠用户样本标签第一份额和第一重叠用户样本标签第二份额,所述第二重叠用户样本包括第二重叠用户样本第一份额和第二重叠用户样本第二份额;
所述方法包括以下步骤:
初始化所述联邦第二方的预测模型的第二参数;
基于秘密共享机制,将所述第二重叠用户样本第一份额发送至所述联邦第一方,以供所述联邦第一方生成第一训练数据,并接收所述联邦第一方基于秘密共享机制发送的所述第一重叠用户样本第二份额和第一重叠用户样本标签第二份额,以生成第二训练数据;
根据所述第二训练数据对所述联邦第二方的预测模型进行训练,计算第二损失值和第二梯度,以更新所述第二参数,并将所述第二损失值发送至所述联邦第一方;
当接收到所述联邦第一方基于所述第一训练数据和所述第二损失值得到训练好的第一方预测模型而发送的停止训练指令时,得到所述第二方训练好的预测模型。
4.如权利要求3所述的纵向联邦学习中的数据共享方法,其特征在于,所述生成第二训练数据的步骤包括:
将所述第一重叠用户样本第二份额、所述第二重叠用户样本第二份额和所述第一重叠用户样本标签第二份额组成第二训练数据。
5.一种基于数据共享的纵向联邦学习的预测方法,其特征在于,所述方法应用于联邦第一方,包括以下步骤:
通过如权利要求1或者2中训练好的预测模型对待预测样本进行预测,得到第一预测标签,并接收联邦第二方发送的所述联邦第二方通过所述第二方训练好的预测模型对待预测样本进行预测得到的第二预测标签;
将所述第一预测标签与所述第二预测标签的和作为所述待预测样本的标签。
6.如权利要求5所述的基于数据共享的纵向联邦学习的预测方法,其特征在于,所述通过所述第一方训练好的预测模型对待预测样本进行预测,得到第一预测标签,并接收联邦第二方发送的所述联邦第二方通过所述第二方训练好的预测模型对待预测样本进行预测得到的第二预测标签的步骤包括:
获取待预测样本在所述第一方的第一待预测样本;
基于秘密共享机制,将所述第一待预测样本第二份额发送至所述第二方,以供所述第二方生成第二目标待预测样本,并接收所述第二方基于秘密共享机制发送的所述第二方第二待预测样本第一份额,以生成第一目标待预测样本;
将所述第一目标待预测样本输入所述第一方训练好的预测模型进行分析得到第一预测标签,并接收所述第二方发送的所述第二方将所述第二目标待预测样本输入所述第二方训练好的预测模型进行分析得到的第二预测标签。
7.如权利要求6所述的基于数据共享的纵向联邦学习的预测方法,其特征在于,所述基于秘密共享机制,将所述第一待预测样本第二份额发送至所述第二方的步骤包括:
将所述第一待预测样本拆分为第一待预测样本第一份额和第一待预测样本第二份额,并将所述第一待预测样本第二份额发送至所述第二方;
所述接收所述第二方基于秘密共享机制发送的所述第二方第二待预测样本第一份额,以生成第一目标待预测样本的步骤包括:
接收所述第二方基于秘密共享机制发送的所述第二方第二待预测样本第一份额;
将所述第一待预测样本第一份额和所述第二待预测样本第一份额组成第一目标待预测样本。
8.一种纵向联邦学习中的数据共享系统,其特征在于,所述纵向联邦学习中的数据共享系统包括联邦第一方和联邦第二方,其中,
所述联邦第一方包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的纵向联邦学习中的数据共享程序或基于数据共享的纵向联邦学习的预测程序,所述纵向联邦学习中的数据共享程序被所述处理器执行时实现如权利要求1至2任一项所述的纵向联邦学习中的数据共享方法的步骤,或所述基于数据共享的纵向联邦学习的预测程序被所述处理器执行时实现如权利要求5至7中任一项所述的基于数据共享的纵向联邦学习的预测方法的步骤;
所述联邦第二方包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的纵向联邦学习中的数据共享程序,所述纵向联邦学习中的数据共享程序被所述处理器执行时实现如权利要求3至4中任一项所述的纵向联邦学习中的数据共享方法的步骤。
9.一种存储介质,其特征在于,所述存储介质上存储有纵向联邦学习中的数据共享程序或基于数据共享的纵向联邦学习的预测程序,所述纵向联邦学习中的数据共享程序被处理器执行时实现如权利要求1至2或3至4中任一项所述的纵向联邦学习中的数据共享方法的步骤,或所述基于数据共享的纵向联邦学习的预测程序实现如权利要求5至7中任一项所述的基于数据共享的纵向联邦学习的预测方法的步骤。
CN202010048597.2A 2020-01-16 2020-01-16 纵向联邦学习中的数据共享方法、系统及存储介质 Active CN111241567B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010048597.2A CN111241567B (zh) 2020-01-16 2020-01-16 纵向联邦学习中的数据共享方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010048597.2A CN111241567B (zh) 2020-01-16 2020-01-16 纵向联邦学习中的数据共享方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN111241567A CN111241567A (zh) 2020-06-05
CN111241567B true CN111241567B (zh) 2023-09-01

Family

ID=70871044

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010048597.2A Active CN111241567B (zh) 2020-01-16 2020-01-16 纵向联邦学习中的数据共享方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN111241567B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950740B (zh) * 2020-07-08 2022-05-24 光之树(北京)科技有限公司 联邦学习模型的训练方法及装置
CN111860868B (zh) * 2020-07-27 2023-10-31 深圳前海微众银行股份有限公司 训练样本构建方法、装置、设备及计算机可读存储介质
CN112231308B (zh) * 2020-10-14 2024-05-03 深圳前海微众银行股份有限公司 横向联邦建模样本数据的去重方法、装置、设备及介质
CN112396189B (zh) * 2020-11-27 2023-09-01 中国银联股份有限公司 一种多方构建联邦学习模型的方法及装置
CN112651511B (zh) * 2020-12-04 2023-10-03 华为技术有限公司 一种训练模型的方法、数据处理的方法以及装置
CN112464287B (zh) * 2020-12-12 2022-07-05 同济大学 基于秘密共享与联邦学习的多方XGBoost安全预测模型训练方法
JPWO2022168257A1 (zh) * 2021-02-05 2022-08-11
CN113159152B (zh) * 2021-04-13 2023-04-07 上海嗨普智能信息科技股份有限公司 基于树形结构的多标签预测方法、控制器和介质
CN113011521B (zh) * 2021-04-13 2022-09-30 上海嗨普智能信息科技股份有限公司 基于链式的多标签预测方法、控制器和介质
CN113723621B (zh) * 2021-04-19 2024-02-06 京东科技控股股份有限公司 一种纵向联邦学习建模方法、装置、设备及计算机介质
CN113516256B (zh) * 2021-09-14 2021-12-03 深圳市洞见智慧科技有限公司 基于秘密共享、同态加密的无第三方联邦学习方法及系统
CN115842851A (zh) * 2021-09-18 2023-03-24 大唐移动通信设备有限公司 一种联邦学习组处理方法、装置及功能实体
CN114648130B (zh) * 2022-02-07 2024-04-16 北京航空航天大学 纵向联邦学习方法、装置、电子设备及存储介质
CN114726496B (zh) * 2022-03-07 2023-10-03 电子科技大学 一种安全的应用于纵向联邦学习的特征选择方法
CN114785481A (zh) * 2022-04-13 2022-07-22 上海阵方科技有限公司 一种使安全多方计算与联邦学习数据互联的系统
CN117648999B (zh) * 2024-01-30 2024-04-23 上海零数众合信息科技有限公司 联邦学习回归模型损失函数评估方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109886417A (zh) * 2019-03-01 2019-06-14 深圳前海微众银行股份有限公司 基于联邦学习的模型参数训练方法、装置、设备及介质
CN110288094A (zh) * 2019-06-10 2019-09-27 深圳前海微众银行股份有限公司 基于联邦学习的模型参数训练方法及装置
CN110490738A (zh) * 2019-08-06 2019-11-22 深圳前海微众银行股份有限公司 一种混合联邦学习方法及架构

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4220464A1 (en) * 2017-03-22 2023-08-02 Visa International Service Association Privacy-preserving machine learning
US20200279156A1 (en) * 2017-10-09 2020-09-03 Intel Corporation Feature fusion for multi-modal machine learning analysis

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109886417A (zh) * 2019-03-01 2019-06-14 深圳前海微众银行股份有限公司 基于联邦学习的模型参数训练方法、装置、设备及介质
CN110288094A (zh) * 2019-06-10 2019-09-27 深圳前海微众银行股份有限公司 基于联邦学习的模型参数训练方法及装置
CN110490738A (zh) * 2019-08-06 2019-11-22 深圳前海微众银行股份有限公司 一种混合联邦学习方法及架构

Also Published As

Publication number Publication date
CN111241567A (zh) 2020-06-05

Similar Documents

Publication Publication Date Title
CN111241567B (zh) 纵向联邦学习中的数据共享方法、系统及存储介质
CN109284313B (zh) 基于半监督学习的联邦建模方法、设备及可读存储介质
CN110428058B (zh) 联邦学习模型训练方法、装置、终端设备及存储介质
CN109902186B (zh) 用于生成神经网络的方法和装置
CN110633806B (zh) 纵向联邦学习系统优化方法、装置、设备及可读存储介质
JP7208952B2 (ja) 対話モデルを生成するための方法及び装置
CN111860868B (zh) 训练样本构建方法、装置、设备及计算机可读存储介质
JP7095140B2 (ja) 特徴抽出に基くマルチモデルトレーニング方法及び装置、電子機器と媒体
CN111368901A (zh) 基于联邦学习的多方联合建模方法、设备和介质
CN113505882B (zh) 基于联邦神经网络模型的数据处理方法、相关设备及介质
CN111259446B (zh) 基于联邦迁移学习的参数处理方法、设备及存储介质
CN113627085A (zh) 横向联邦学习建模优化方法、设备、介质及程序产品
CN116032663B (zh) 基于边缘设备的隐私数据处理系统、方法、设备及介质
US20220417339A1 (en) Feature-based network embedding
CN112948885B (zh) 实现隐私保护的多方协同更新模型的方法、装置及系统
CN112785002A (zh) 模型构建优化方法、设备、介质及计算机程序产品
CN114186256B (zh) 神经网络模型的训练方法、装置、设备和存储介质
CN115510186A (zh) 基于意图识别的即时问答方法、装置、设备及存储介质
WO2021068493A1 (zh) 用于处理信息的方法和装置
CN114925853A (zh) 一种梯度提升树模型的构建方法、装置、设备和介质
CN114780701A (zh) 自动问答匹配方法、装置、计算机设备及存储介质
WO2021203913A1 (zh) 生成预测信息的方法、装置、电子设备和计算机可读介质
CN116432665B (zh) 对话模型构建方法、文本生成方法、装置、系统及设备
CN112434746A (zh) 基于层次化迁移学习的预标注方法及其相关设备
CN117313837A (zh) 一种基于联邦学习的大模型提示学习方法以及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant