CN115438770A - 基于自监督学习的纵向联邦学习方法、装置和存储介质 - Google Patents

基于自监督学习的纵向联邦学习方法、装置和存储介质 Download PDF

Info

Publication number
CN115438770A
CN115438770A CN202210924931.5A CN202210924931A CN115438770A CN 115438770 A CN115438770 A CN 115438770A CN 202210924931 A CN202210924931 A CN 202210924931A CN 115438770 A CN115438770 A CN 115438770A
Authority
CN
China
Prior art keywords
data
participant
training
self
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210924931.5A
Other languages
English (en)
Inventor
熊翱
杨少杰
陈洁蔚
郭少勇
陈浩
黄建平
李钟煦
颜拥
韩嘉佳
孙歆
姚影
杨超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
Beijing University of Posts and Telecommunications
Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications, Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd filed Critical Beijing University of Posts and Telecommunications
Priority to CN202210924931.5A priority Critical patent/CN115438770A/zh
Publication of CN115438770A publication Critical patent/CN115438770A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/045Explanation of inference; Explainable artificial intelligence [XAI]; Interpretable artificial intelligence

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明提供了一种基于自监督学习的纵向联邦学习方法、装置和存储介质,所述方法包括每一个参与方利用该参与方的所述非重叠数据集对所述表示层进行训练,并通过训练后的所述表示层对该参与方的所述重叠数据集中的重叠数据进行编码,将得到的编码数据发送至服务器,以使服务器利用融合后的来自于所有参与方的编码数据完成对所述推理层的训练。本发明实现了非重叠数据的利用,释放了数据潜力,减少了数据资源的浪费;并将编码数据发送至服务器中,从而将梯度回传截断在服务器内部,减少了参与方通过梯度反推标签的可能,同时通过减少参与方与服务器之间频繁的梯度传输,也减少了因梯度回传导致的梯度泄露或被篡改的风险。

Description

基于自监督学习的纵向联邦学习方法、装置和存储介质
技术领域
本发明涉及机器学习技术领域,尤其涉及一种基于自监督学习的纵向联邦学习方法、装置和存储介质。
背景技术
优质机器学习模型的训练离不开大量高质量的数据,然而在现实场景中,数据往往以孤岛的形式存在。随着用户数据隐私意识的提高和数据保护法规的完善,传统的将数据收集至云端进行统一训练方法不再适用,联邦学习基于“数据不动模型动“思想,能够在保证参与方数据安全的前提下实现数据共享,得到了越来越多的关注。通常认为联邦学习分为横向联邦学习,纵向联邦学习,联邦迁移学习三类。在纵向联邦学习中,参与方样本标识重叠度高,特征重叠少,纵向联邦学习可以看作实现了特征维度的扩展。纵向联邦学习在现实中有众多应用场景。例如,金融机构需要建立风控模型对金融活动进行风险管理或风险控制,金融机构拥有用户借贷历史,还款情况等金融相关特征,金融机构可以根据其所有数据建立风控模型。同时,金融机构可以与电商联合进行纵向联邦学习,电商拥有用户近期消费情况等数据,这些数据可能有助于风控模型的建立。金融机构与电商进行纵向联邦学习可以看作实现了特征维度的扩展。
现有纵向联邦学习方案包括纵向联邦逻辑回归,纵向联邦决策树等,这些方法基于传统机器学习模型,限制了模型种类。深度学习作为机器学习的一个分支,展现出了巨大的潜力。因此纵向联邦神经网络方法得到了广泛研究,纵向联邦神经网络方法大多服从底层-顶层的模型设计,通过前向传播反向传播更新模型,参与方与标签信息所在的参与方或服务器端之间需要进行梯度交互。
纵向联邦学习需要进行加密实体对齐,即找到各参与方数据样本的交集,将这些数据定义为重叠数据,其余数据定义为非重叠数据。对于非重叠数据,其对应的样本的特征在某些参与方中是缺失的,无法完成加密实体对齐,数据的不完整导致样本无法参与传统纵向联邦学习方案的训练过程,现存纵向联邦学习方案大多未对非重叠数据进行妥善处理,换而言之,在传统纵向联邦学习方案中,非重叠数据被浪费了。同时,现有纵向联邦学习方案需要在参与方与参与方或服务器端之间进行频繁的梯度交互,存在梯度暴露的风险,梯度暴露可能导致标签信息泄露等风险,这在一些应用场景中是不可接受的。同时,在纵向联邦学习过程中往往使用同态加密等技术,计算开销大,影响纵向联邦学习的效率,影响模型性能。随着深度学习的兴起,传统适用于逻辑回归等机器学习算法的纵向联邦学习方案不再适用,需要一种高效,高性能的纵向深度联邦学习方案。
为了解现有技术的发展状况,对已有的论文和专利进行了检索、比较和分析,筛选出如下与本发明相关度比较高的技术信息:
专利号为CN202110615631.4的专利《纵向联邦学习线性回归和逻辑回归模型训练方法及装置》,以及专利号为CN202011224742.4的专利《一种面向决策树的纵向联邦学习方法》,上述两种技术方案分别适用于逻辑回归和决策树等的传统机器学习模型,通过同态加密、差分隐私技术等实现数据隐私的保护,并针对性的优化了纵向联邦学习的效率。专利号为CN202210293677.3的专利《一种用于保护标签信息的纵向联邦神经网络模型学习方法》,通过在梯度交互的过程中添加噪声实现对标签信息的保护,此技术方案适用于深度学习模型,并且一定程度上缓解了标签信息泄露的问题。
上述三种技术方案均未对参与方的非重叠数据进行充分利用,造成了数据资源的浪费。
发明内容
鉴于此,本发明实施例提供了一种基于自监督学习的纵向联邦学习方法、装置和存储介质,以消除或改善现有技术中存在的一个或更多个缺陷。
本发明的一个方面提供了一种基于自监督学习的纵向联邦学习方法,应用于应用场景中获取到训练数据集的每个参与方,包括:利用所述训练数据集中的非重叠数据对本参与方端的表示层进行自监督训练,所述表示层为编码器;利用训练后的编码器对所述训练数据集中的重叠数据进行编码,并将输出的编码数据发送给服务器,以使得所述服务器融合各参与方的编码数据对推理层进行训练;
所述重叠数据表示来自于各参与方的训练数据的交集,所述非重叠数据表示来自于各参与方的训练数据中除所述重叠数据以外的训练数据。
在本发明的一些实施例中,所述参与方设置有自编码器,所述自编码器包括所述编码器和解码器;所述利用所述训练数据集中的非重叠数据对本参与方端的表示层进行自监督训练,包括:将基于所述非重叠数据得到的输入数据输入所述自编码器,所述输入数据经过所述编码器编码及所述解码器解码,得到所述自编码器的输出数据;根据所述自编码器的输入数据和输出数据计算得到所述自编码器的损失函数;利用所述损失函数作为误差进行反向传播来对所述自编码器进行自监督训练,以在所述自编码器训练完毕后完成对所述表示层的训练。
在本发明的一些实施例中,所述自编码器的输入数据为所述非重叠数据;当本参与方端为参与方A时,所述损失函数为:LP=|x′-xl,n,A|2
其中,LP为所述自编码器的损失函数,xl,n,A为所述自编码器的输入数据,表示所述参与方A获取到的的非重叠数据中的第n个样本数据,x′为所述自编码器的输出数据,l指示所述非重叠数据。
在本发明的一些实施例中,所述自编码器的输入数据为被随机掩码破坏的非重叠数据,所述编码器中具有编码器模型,所述解码器中具有数据恢复模型和掩码恢复模型;当本参与方端为参与方A时,所述损失函数为:
Figure BDA0003778055440000031
其中,xl,n,A表示所述参与方A的非重叠数据中的第n个样本数据,mn,A表示所述参与方A的非重叠数据中的第n个样本数据对应的所述随机掩码,
Figure BDA0003778055440000032
表示所述参与方A的非重叠数据中的第n个样本数据经所述数据恢复模型恢复的样本数据,
Figure BDA0003778055440000033
表示所述参与方A的随机掩码mn,A经掩码恢复模型恢复的掩码;α表示权重参数;
Figure BDA0003778055440000034
为样本数据和恢复的样本数据的均方误差;
Figure BDA0003778055440000035
为经恢复的掩码与随机掩码的相对熵。
本发明另一方面提供了一种基于自监督学习的纵向联邦学习方法,应用于服务器,包括:接收来自各参与方的编码数据,并将所述编码数据进行融合,所述编码数据为经训练数据集中的非重叠数据训练的编码器对所述训练数据集中的重叠数据进行编码后得到;利用融合的编码数据对所述服务器的推理层进行训练;
所述重叠数据表示来自于各参与方的训练数据的交集,所述非重叠数据表示来自于各参与方的训练数据中除所述重叠数据以外的训练数据。
在本发明的一些实施例中,在对所述推理层进行训练的步骤中,采用的推理层的损失函数为:LI=loss(y′u,n,yu,n);
其中,LI表示所述推理层的损失函数,yu,n表示存储于所述服务器的所述重叠数据中第n个样本的标签数据,yu,n表示所述推理层输出的对所述重叠数据中第n个样本的标签数据的预测数据,u指示训练数据集中的所述重叠数据;loss(·)表示所述推理层的误差函数,其为均方误差函数。
本发明另一方面提供了一种基于自监督学习的纵向联邦学习装置,应用于应用场景中获取到训练数据集的每个参与方,包括:表示层训练模块,用于利用所述训练数据集中的非重叠数据对本参与方端的表示层进行自监督训练,所述表示层为编码器;发送模块,用于利用训练后的编码器对所述训练数据集中的重叠数据进行编码,并将输出的编码数据发送给服务器,以使得所述服务器融合各参与方的编码数据对推理层进行训练;
所述重叠数据表示来自于各参与方的训练数据的交集,所述非重叠数据表示来自于各参与方的训练数据中除所述重叠数据以外的训练数据。
本发明另一方面提供了一种基于自监督学习的纵向联邦学习装置,应用于服务器,包括:接收模块,用于接收来自各参与方的编码数据,并将所述编码数据进行融合,所述编码数据为经训练数据集中的非重叠数据训练的编码器对所述训练数据集中的重叠数据进行编码后得到;推理层训练模块,用于利用融合的编码数据对所述服务器的推理层进行训练;
所述重叠数据表示来自于各参与方的训练数据的交集,所述非重叠数据表示来自于各参与方的训练数据中除所述重叠数据以外的训练数据。
本发明另一方面提供了一种基于自监督学习的纵向联邦学习系统,包括多个参与方和服务器;所述参与方利用获取到的训练数据集中的非重叠数据对本参与方端的表示层进行自监督训练,所述表示层为编码器;以及利用训练后的编码器对所述训练数据集中的重叠数据进行编码,并将输出的编码数据发送给服务器;所述服务器将来自于各参与方的编码数据进行融合,并利用融合的编码数据对所述服务器的推理层进行训练;
所述重叠数据表示来自于各参与方的训练数据的交集,所述非重叠数据表示来自于各参与方的训练数据中除所述重叠数据以外的训练数据。
本发明另一方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述基于自监督学习的纵向联邦学习方法的步骤。
本发明的提供的一种基于自监督学习的纵向联邦学习方法、装置和存储介质,通过应用场景下每一个参与方端的非重叠数据对该参与方端的表示层进行训练,相较于传统的纵向联邦学习方法,本发明实现了非重叠数据的利用,释放了数据潜力,减少了数据资源的浪费,同时通过增加训练数据一定程度上提升了预测结果的准确性;并通过将重叠数据的编码数据发送至服务器,以使得可以由服务器独立完成推理层的训练,从而在服务器端将回传梯度截断在回传至参与方前,减少了参与方与服务器之间频繁的梯度交互,一方面减少了参与方通过梯度反推标签的可能,另一方面减少了因梯度回传导致的梯度泄露或被篡改的风险,还可以避免各参与方端因为设备异构带来的等待、掉线等负面影响;本发明还针对传统的自编码器的编码在下游任务中效果较差的问题设计了一种自监督学习任务,通过在原始数据中施加噪声来对表示层进行训练,从而提升了编码器编码的鲁棒性,使其输出结果可以保留更多原始数据的信息。
附图说明
图1为参与方基于自监督学习的纵向联邦学习的实施流程图;
图2利用非重叠数据对表示层进行自监督训练的流程图;
图3为通过对施加噪声的原始数据的还原对表示层进行训练的流程图;
图4为参与方基于自监督学习的纵向联邦学习装置结构图;
图5为服务器基于自监督学习的纵向联邦学习的实施流程图;
图6为利用融合的各参与方的编码数据对推理层进行训练的流程图;
图7为服务器基于自监督学习的纵向联邦学习装置结构图;
图8为本发明所述方法与纵横逻辑回归(Logistic)方法和分割学习(Splitlearning)方法的预测结果对比图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
在此,还需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
在此,还需要说明的是,如果没有特殊说明,术语“连接”在本文不仅可以指直接连接,也可以表示存在中间物的间接连接。
在下文中,将参考附图描述本发明的实施例。在附图中,相同的附图标记代表相同或类似的部件,或者相同或类似的步骤。
本发明提供的一种应用于参与方的基于自监督学习的纵向联邦学习方法,其主要的实施流程如图1所示,包括步骤S110-S120:
在步骤S110中,应用场景中的每一个参与方利用训练数据集中的非重叠数据对表示层进行自监督训练。
在一个实施例中利用非重叠数据对表示层进行自监督训练如图2所示,在参与方中基于自编码器的思想通过自监督学习对表示层进行训练,在参与方中设置自编码器,其中自编码器包括作为表示层的编码器和解码器,利用编码器对输入的原始数据进行压缩,再利用解码器将压缩的数据进行解压缩,得到对应的解码数据,为使自编码器输入的原始数据与输出的解码数据尽量接近,利用自编码器的损失函数对自编码器进行反向传播,从而完成自编码器的自监督训练,本实施例中利用非重叠数据对该自编码器进行自监督训练,包括以下步骤:
将该参与方的非重叠数据输入自编码器中,利用编码器对非重叠数据进行压缩并输出对应的编码数据:xenc=fA(xl,n,A);
其中,xenc为编码器的输出,fA(.)为参与方A的编码器模型,xl,n,A为编码器输入的参与方A的非重叠数据中第n个样本数据,l指示非重叠数据。
再利用解码器将该编码数据进行解压缩,得到对应的解码数据:x′=hA(fA(xl,n,A));
其中,x′为解码器的输出,hA(.)为参与方A的解码器模型。
计算自编码器在进行自监督训练时的损失函数:LP=|x′-xl,n,A|2
利用损失函数LP作为误差进行反向传播来对自编码器进行自监督训练,从而在自编码器训练完毕后完成对表示层的训练。
由于基于上述自编码器的自监督训练得到的表示层对异常值很敏感,缺少鲁棒性,提取的特征对下游任务效果不佳,本发明针对利用非重叠数据对表示层进行自监督训练提出了另一种实施例如图3所示,其中编码器中运行有编码器模型,解码器中运行有数据恢复模型和掩码恢复模型,在参与方中基于自编码器的思想通过对施加噪声的原始数据进行还原来对表示层进行训练,包括以下步骤:
针对非重叠数据中的原始随机样本数据xl,n,A生成随机掩码mn,A;利用随机掩码对对应的随机样本进行数据破坏,得到被破坏的数据x′l,n,A;将所述被破坏的数据x′l,n,A输入参与方设置的作为表示层的编码器中,得到编码数据:xenc=fA(x′l,n,A)。
将经所述编码器模型对所述被破坏的数据进行编码后得到的编码数据使用预定的数据恢复模型和掩码恢复模型来得到经恢复的样本数据
Figure BDA0003778055440000061
和掩码
Figure BDA0003778055440000062
计算经过上述自监督训练的损失函数:
Figure BDA0003778055440000071
并利用损失函数作为误差进行反向传播来对所述编码器模型、数据恢复模型和掩码恢复模型进行自监督训练,以实现对所述表示层的训练;
其中,xl,n,A表示参与方A的非重叠数据中第n个样本数据,mn,A表示参与方A的非重叠数据中第n个样本数据对应的随机掩码,
Figure BDA0003778055440000072
表示参与方A的非重叠数据中第n个样本数据对应的经恢复的样本数据,
Figure BDA0003778055440000073
表示参与方A的随机掩码mn,A对应的经恢复的掩码;α表示权重参数;
Figure BDA0003778055440000074
为样本数据和恢复的样本数据的均方误差;
Figure BDA0003778055440000075
为经恢复的掩码与随机掩码的相对熵。
在上述实施例中,编码器模型、数据恢复模型和掩码恢复模型为神经网络模型。
在步骤S120中,每一个参与方利用训练后的表示层对该参与方训练数据集中的重叠数据进行编码,并将输出的编码数据向服务器进行发送,以使得服务器利用融合的各参与方的编码数据对推理层进行训练。
在各参与方利用训练后的编码器对该参与方的重叠数据进行编码,形成重叠数据的编码数据:xu,n,A,enc=fA(xu,n,A);
其中,xu,n,A为参与方A的重叠数据中第n个数据样本,xu,n,A,enc为参与方A中的重叠数据经过该参与方的表示层编码后的编码数据,u指示重叠数据。
将各参与方中重叠数据的编码数据发送至服务器中,以使得服务器利用融合的各参与方的编码数据对推理层进行训练。
上述基于自监督学习的纵向联邦学习方法中,利用各参与方的非重叠数据完成对表示层的训练,利用重叠数据完成对推理层的训练,实现了数据资源的合理利用;还针对传统的自编码器的编码在下游任务中效果较差的问题设计了一种自监督学习任务,通过在原始数据中施加噪声来对表示层进行训练,从而提升了编码器编码的鲁棒性,使其输出结果可以保留更多原始数据的信息,从而避免因为表示层和推理层的训练数据不同而造成的整体模型性能下降的问题。
在纵向联邦学习方法中,本申请实施例将来自于各参与方的训练数据的交集作为该应用场景中重叠数据,其余训练数据被作为非重叠数据;现有的纵向联邦学习方法中,将大量的重叠数据用于联邦训练而忽视了非重叠数据的合理利用,在缩减了训练数据的同时造成了大量非重叠数据资源的浪费;本发明提供的基于自监督学习的纵向联邦学习方法,将纵向联邦学习方案分成了表示层的训练过程和推理层的训练过程,其中利用非重叠数据作为表示层的训练数据,一方面扩大训练数据的规模范围来提高纵向联邦学习的预测准确率,另一方面通过释放非重叠数据的潜力减轻重叠数据的需求压力。
此外,如图4所示,本发明实施例中还提供了一种基于自监督学习的纵向联邦学习装置400,应用于应用场景中获取到训练数据集的每个参与方,包括:表示层训练模块410以及发送模块420。
表示层训练模块410,用于利用所述训练数据集中的非重叠数据对本参与方端的表示层进行自监督训练,所述表示层为编码器;
发送模块420,用于利用训练后的编码器对所述训练数据集中的重叠数据进行编码,并将输出的编码数据发送给服务器,以使得所述服务器融合各参与方的编码数据对推理层进行训练;
所述重叠数据表示来自于各参与方的训练数据的交集,所述非重叠数据表示来自于各参与方的训练数据中除所述重叠数据以外的训练数据。
可选的,所述参与方设置有自编码器,所述自编码器包括所述编码器和解码器;所述表示层训练模块410,用于:将基于所述非重叠数据得到的输入数据输入所述自编码器,所述输入数据经过所述编码器编码及所述解码器解码,得到所述自编码器的输出数据;根据所述自编码器的输入数据和输出数据计算得到所述自编码器的损失函数;利用所述损失函数作为误差进行反向传播来对所述自编码器进行自监督训练,以在所述自编码器训练完毕后完成对所述表示层的训练。
可选的,所述自编码器的输入数据为所述非重叠数据;当本参与方端为参与方A时,所述损失函数为:LP=|x′-xl,n,A|2;其中,LP为所述自编码器的损失函数,xl,n,A为所述自编码器的输入数据,表示所述参与方A获取到的的非重叠数据中的第n个样本数据,x′为所述自编码器的输出数据,l指示所述非重叠数据。
可选的,所述自编码器的输入数据为被随机掩码破坏的所述非重叠数据,所述编码器中具有编码器模型,所述解码器中具有数据恢复模型和掩码恢复模型;本参与方端为参与方A时,所述损失函数为:
Figure BDA0003778055440000081
其中,xl,n,A表示所述参与方A的非重叠数据中的第n个样本数据,mn,A表示所述参与方A的非重叠数据中的第n个样本数据对应的所述随机掩码,
Figure BDA0003778055440000082
表示所述参与方A的非重叠数据中的第n个样本数据经所述数据恢复模型恢复的样本数据,
Figure BDA0003778055440000083
表示所述参与方A的随机掩码mn,A经所述掩码恢复模型恢复的掩码;α表示权重参数;
Figure BDA0003778055440000084
为样本数据和恢复的样本数据的均方误差;
Figure BDA0003778055440000085
为经恢复的掩码与随机掩码的相对熵。
本发明提供的一种应用于服务器的基于自监督学习的纵向联邦学习方法,其主要的实施流程如图5所示,包括步骤S210-S220:
在步骤S210中,服务器接收来自于应用场景中每一个参与方的重叠数据对应的编码数据;并将接收到的编码数据进行融合。
在服务器中将来自于各参与方的重叠数据的编码数据进行拼接形成融合的编码数据,作为融合各参与方同一样本特征的编码表示:xu,n,enc=concat(xu,n,A,enc,xu,n,B,enc,…);
其中,xu,n,enc为推理层的输入数据;concat(·)表示将多个数据进行拼接。
在步骤S220中,服务器利用融合的编码数据对服务器的推理层进行训练。
在一个实施例中利用融合的各参与方的编码数据对推理层进行训练如图6所示,在服务器中将融合的编码数据作为推理层的输入数据,通过推理层输出该输入数据对应样本的标签数据的预测数据,为使推理层输出的标签数据的预测数据与服务器存储的对应样本的实际标签数据尽量接近,利用推理层的损失函数进行反向传播,从而通过损失函数对服务器中的推理层进行训练,包括以下步骤:
编码表示作为服务器中推理层的输入数据,将融合后的编码数据通过推理层转化为相应样本的标签数据的预测数据:y′u,n=g(xu,n,enc);
其中,y′u,n表示推理层输出的对重叠数据中第n个样本的标签数据的预测数据,g(·)表示推理层中对样本标签的预测模型。
根据推理层得到的该样本的标签数据的预测数据与对应的存储于服务器的实际标签数据,计算推理层训练的损失函数:LI=loss(y′u,n,yu,n);并利用损失函数作为误差进行反向传播来实现对推理层的训练;
其中,LI表示推理层的损失函数,yu,n表示存储于服务器的重叠数据中第n个样本的标签数据,u指示训练数据集中的重叠数据;loss(·)表示推理层的误差函数,其为均方误差函数。
上述基于自监督学习的纵向联邦学习方法中,各参与方通过将重叠数据的编码数据发送至服务器,由服务器独立完成推理层的训练,从而在服务器端将回传梯度截断在回传至参与方前,减少了参与方与服务器之间频繁的梯度交互,一方面减少了参与方通过梯度反推标签的可能,另一方面减少了因梯度回传导致的梯度泄露或被篡改的风险,还可以避免各参与方端因为设备异构带来的等待、掉线等负面影响。
此外,如图7所示,本发明实施例中还提供了一种基于自监督学习的纵向联邦学习装置700,应用于服务器,包括接收模块710和推理层训练模块720:
接收模块710,用于接收来自各参与方的编码数据,并将所述编码数据进行融合,所述编码数据为经训练数据集中的非重叠数据训练的编码器对所述训练数据集中的重叠数据进行编码后得到;
推理层训练模块720,用于利用融合的编码数据对所述服务器的推理层进行训练;
所述重叠数据表示来自于各参与方的训练数据的交集,所述非重叠数据表示来自于各参与方的训练数据中除所述重叠数据以外的训练数据。
可选的,所述推理层训练模块720用于将融合的编码数据作为推理层的输入数据,通过推理层输出该输入数据对应样本的标签数据的预测数据,为使推理层输出的标签数据的预测数据与服务器存储的对应样本的实际标签数据尽量接近,利用推理层的损失函数进行反向传播,从而通过损失函数对服务器中的推理层进行训练,
可选的,在对所述推理层进行训练的步骤中,采用的推理层的损失函数为:LI=loss(y′u,n,yu,n);
其中,LI表示所述推理层的损失函数,yu,n表示存储于所述服务器的所述重叠数据中第n个样本的标签数据,y′u,n表示所述推理层输出的对所述重叠数据中第n个样本的标签数据的预测数据,u指示训练数据集中的所述重叠数据;loss(-)表示所述推理层的误差函数,其为均方误差函数。
本发明还提供了一种基于自监督学习的纵向联邦学习系统,包括多个参与端和服务器,参与方利用获取到的训练数据集中的非重叠数据对本端的表示层进行自监督训练,其中表示层为编码器;以及利用训练后的编码器对训练数据集中的重叠数据进行编码,并将输出的编码数据发送给服务器;服务器将来自于各参与方的编码数据进行融合,并利用融合的编码数据对服务器的推理层进行训练;
其中,重叠数据表示来自于各参与方的训练数据的交集,非重叠数据表示来自于各参与方的训练数据中除所述重叠数据以外的训练数据。
在该纵向联邦学习系统中,主要的训练内容包括:在各参与方独立完成的作为表示层的编码器的自监督训练,以及在服务器独立完成的推理层的训练。
在推理层模型的预测过程中将正例样本判断为正例的信心往往小于将负例样本判定为负的信心,即对于一个正例样本y+和对应的模型预测结果y′+,负例样本y_和对应的模型预测结果y_′,|y+-y′+|往往大于|y_′-y_|;而不管样本是正例还是负例,
Figure BDA0003778055440000111
往往非常接近,这是因为
Figure BDA0003778055440000112
与训练样本无关。而根据链式求导法则,模型误差对表示层输出梯度为
Figure BDA0003778055440000113
Figure BDA0003778055440000114
则正例样本和负例样本基于推理层模型的误差函数得到的对于表示层的梯度值会存在较大差异,若将此推理层模型误差在正例样本和负例样本输出的梯度值回传至参与方,则可能会使参与方根据梯度值的差异反推出对应的样本标签;并且在进行梯度值回传的过程中若参与方和服务器之间的通信链路存在不安全,也可能使梯度值在回传过程中发生被窃取或篡改的风险。而在上述纵向联邦学习系统中,由于推理层的训练过程仅在服务器即可完成,所以在推理层的训练过程中不需要将梯度值回传至参与方,从而直接避免了因梯度回传导致的梯度暴露的风险;同时因为本纵向联邦学习系统中不需要在参与方和服务器之间就梯度值进行频繁传输,从而有效地缓解了不同参与方之间的设备异构带来的负面影响。
将上述基于自监督学习的纵向联邦学习方法应用于金融风控之贷款违约预测数据集上,训练数据集为来自于某信贷平台的贷款记录,包括80余万条金融风控值贷款违约数据,每条数据包含47列变量信息,包括贷款金额,贷款期限,贷款利率,年收入等信息,利用本发明所述的基于自监督学习的纵向联邦学习方法对贷款是否违约进行预测。
首先对上述采集到的训练数据进行切分,将其中百分之七十的特征数据作为训练集,百分之三十的特征数据作为验证集;遵循纵向联邦学习的设置,将数据集按变量进行切分,设置参与方A与参与方B的重叠数据为训练集的百分之十,在剩余百分之九十的训练集数据中,一半作为参与方A的非重叠数据,一半作为参与方B的非重叠数据,参与方A与参与方B的非重叠数据样本不重叠。针对上述数据分配结果,利用上述基于自监督学习的纵向联邦学习方法、Logistic方法和Split learning方法对训练数据的违约结果进行预测,将得到的预测结果进行对比,得到以AUC和ks值作为评价指标结果,如图8所示。
通过图8所示的预测结果,可以看出本发明所述的基于自监督学习的纵向联邦学习方法得到的预测结果相较于Logistic方法和Split learning方法得到的预测结果准确性十分接近甚至超越,但是又因为本发明的方法优势在于对数据安全的保护;可以看出,本发明所述的基于自监督学习的纵向联邦学习方法既可以满足保护数据安全的需求,又可以保证数据预测的准确性和有效性。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时以实现上述基于监督学习的纵向联邦学习方法的步骤。该计算机可读存储介质可以是有形存储介质,诸如随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、软盘、硬盘、可移动存储盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。
本领域普通技术人员应该可以明白,结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
本发明中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他实施方式的特征。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于自监督学习的纵向联邦学习方法,应用于应用场景中获取到训练数据集的每个参与方,其特征在于,包括:
利用所述训练数据集中的非重叠数据对本参与方端的表示层进行自监督训练,所述表示层为编码器;
利用训练后的编码器对所述训练数据集中的重叠数据进行编码,并将输出的编码数据发送给服务器,以使得所述服务器融合各参与方的编码数据对推理层进行训练;
所述重叠数据表示来自于各参与方的训练数据的交集,所述非重叠数据表示来自于各参与方的训练数据中除所述重叠数据以外的训练数据。
2.根据权利要求1所述的方法,其特征在于,所述参与方设置有自编码器,所述自编码器包括所述编码器和解码器;所述利用所述训练数据集中的非重叠数据对本参与方端的表示层进行自监督训练,包括:
将基于所述非重叠数据得到的输入数据输入所述自编码器,所述输入数据经过所述编码器编码及所述解码器解码,得到所述自编码器的输出数据;
根据所述自编码器的输入数据和输出数据计算得到所述自编码器的损失函数;利用所述损失函数作为误差进行反向传播来对所述自编码器进行自监督训练,以在所述自编码器训练完毕后完成对所述表示层的训练。
3.根据权利要求2所述的方法,其特征在于,所述自编码器的输入数据为所述非重叠数据;当本参与方端为参与方A时,所述损失函数为:LP=|x′-xl,n,A|2
其中,LP为所述自编码器的损失函数,xl,n,A为所述自编码器的输入数据,表示所述参与方A获取到的的非重叠数据中的第n个样本数据,x′为所述自编码器的输出数据,l指示所述非重叠数据。
4.根据权利要求2所述的方法,其特征在于,所述自编码器的输入数据为被随机掩码破坏的所述非重叠数据,所述编码器中具有编码器模型,所述解码器中具有数据恢复模型和掩码恢复模型;当本参与方端为参与方A时,所述损失函数为:
Figure FDA0003778055430000011
其中,xl,n,A表示所述参与方A的非重叠数据中的第n个样本数据,mn,A表示所述参与方A的非重叠数据中的第n个样本数据对应的所述随机掩码,
Figure FDA0003778055430000012
表示所述参与方A的非重叠数据中的第n个样本数据经所述数据恢复模型恢复的样本数据,
Figure FDA0003778055430000013
表示所述参与方A的随机掩码mn,A经所述掩码恢复模型恢复的掩码;α表示权重参数;
Figure FDA0003778055430000021
为样本数据和恢复的样本数据的均方误差;
Figure FDA0003778055430000022
为经恢复的掩码与随机掩码的相对熵。
5.一种基于自监督学习的纵向联邦学习方法,应用于服务器,其特征在于,包括
接收来自各参与方的编码数据,并将所述编码数据进行融合,所述编码数据为经训练数据集中的非重叠数据训练的编码器对所述训练数据集中的重叠数据进行编码后得到;
利用融合的编码数据对所述服务器的推理层进行训练;
所述重叠数据表示来自于各参与方的训练数据的交集,所述非重叠数据表示来自于各参与方的训练数据中除所述重叠数据以外的训练数据。
6.根据权利要求5所述的方法,其特征在于,在对所述推理层进行训练的步骤中,采用的推理层的损失函数为:LI=loss(y′u,n,yu,n);
其中,LI表示所述推理层的损失函数,yu,n表示存储于所述服务器的所述重叠数据中第n个样本的标签数据,y′u,n表示所述推理层输出的对所述重叠数据中第n个样本的标签数据的预测数据,u指示训练数据集中的所述重叠数据;loss(·)表示所述推理层的误差函数,其为均方误差函数。
7.一种基于自监督学习的纵向联邦学习装置,应用于应用场景中获取到训练数据集的每个参与方,其特征在于,包括:
表示层训练模块,用于利用所述训练数据集中的非重叠数据对本参与方端的表示层进行自监督训练,所述表示层为编码器;
发送模块,用于利用训练后的编码器对所述训练数据集中的重叠数据进行编码,并将输出的编码数据发送给服务器,以使得所述服务器融合各参与方的编码数据对推理层进行训练;
所述重叠数据表示来自于各参与方的训练数据的交集,所述非重叠数据表示来自于各参与方的训练数据中除所述重叠数据以外的训练数据。
8.一种基于自监督学习的纵向联邦学习装置,应用于服务器,其特征在于,包括:
接收模块,用于接收来自各参与方的编码数据,并将所述编码数据进行融合,所述编码数据为经训练数据集中的非重叠数据训练的编码器对所述训练数据集中的重叠数据进行编码后得到;
推理层训练模块,用于利用融合的编码数据对所述服务器的推理层进行训练;
所述重叠数据表示来自于各参与方的训练数据的交集,所述非重叠数据表示来自于各参与方的训练数据中除所述重叠数据以外的训练数据。
9.一种基于自监督学习的纵向联邦学习系统,其特征在于,包括多个参与方和服务器;
所述参与方利用获取到的训练数据集中的非重叠数据对本参与方端的表示层进行自监督训练,所述表示层为编码器;以及利用训练后的编码器对所述训练数据集中的重叠数据进行编码,并将输出的编码数据发送给服务器;
所述服务器将来自于各参与方的编码数据进行融合,并利用融合的编码数据对所述服务器的推理层进行训练;
所述重叠数据表示来自于各参与方的训练数据的交集,所述非重叠数据表示来自于各参与方的训练数据中除所述重叠数据以外的训练数据。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至4或权利要求5至6中任一项所述方法的步骤。
CN202210924931.5A 2022-08-02 2022-08-02 基于自监督学习的纵向联邦学习方法、装置和存储介质 Pending CN115438770A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210924931.5A CN115438770A (zh) 2022-08-02 2022-08-02 基于自监督学习的纵向联邦学习方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210924931.5A CN115438770A (zh) 2022-08-02 2022-08-02 基于自监督学习的纵向联邦学习方法、装置和存储介质

Publications (1)

Publication Number Publication Date
CN115438770A true CN115438770A (zh) 2022-12-06

Family

ID=84243487

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210924931.5A Pending CN115438770A (zh) 2022-08-02 2022-08-02 基于自监督学习的纵向联邦学习方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN115438770A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117853212A (zh) * 2024-03-06 2024-04-09 之江实验室 一种基于知识迁移和自监督学习的纵向联邦金融风控方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117853212A (zh) * 2024-03-06 2024-04-09 之江实验室 一种基于知识迁移和自监督学习的纵向联邦金融风控方法

Similar Documents

Publication Publication Date Title
CN111523668B (zh) 基于差分隐私的数据生成系统的训练方法及装置
CN111695674B (zh) 联邦学习方法、装置、计算机设备及可读存储介质
US10915809B2 (en) Neural network image recognition with watermark protection
CN111400754B (zh) 保护用户隐私的用户分类系统的构建方法及装置
US11151660B1 (en) Intelligent routing control
CN109377532B (zh) 基于神经网络的图像处理方法及装置
US20220207352A1 (en) Methods and systems for generating recommendations for counterfactual explanations of computer alerts that are automatically detected by a machine learning algorithm
CN109831422A (zh) 一种基于端到端序列网络的加密流量分类方法
WO2022105169A1 (zh) 一种欺诈行为识别方法、装置、计算机设备及存储介质
CN111241850B (zh) 提供业务模型的方法及装置
CN110598464B (zh) 一种人脸识别系统的数据与模型安全保护方法
CN115438770A (zh) 基于自监督学习的纵向联邦学习方法、装置和存储介质
CN115587535A (zh) 模型构建优化方法、设备、存储介质及程序产品
CN111582284B (zh) 用于图像识别的隐私保护方法、装置和电子设备
CN117312957A (zh) 遥感图像识别模型生成方法、装置、设备、介质及产品
Fu et al. Improving anticompression robustness of JPEG adaptive steganography based on robustness measurement and DCT block selection
CN116610772A (zh) 一种数据处理方法、装置及服务器
CN115631502A (zh) 文字识别方法、装置、模型训练方法、电子设备及介质
CN112950222A (zh) 资源处理异常检测方法、装置、电子设备及存储介质
CN116823452B (zh) 基于人工智能的异常事件识别方法、装置及设备
CN117077003B (zh) 一种分布式目标意图识别方法及系统
CN116244753B (zh) 隐私数据求交集的方法、装置、设备及存储介质
CN116721315B (zh) 活体检测模型的训练方法、装置、介质及电子设备
CN113836566B (zh) 基于区块链系统的模型处理方法及装置、设备、介质
CN111402012B (zh) 一种基于迁移学习的电商缺陷产品识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination