CN114186694A - 一种高效安全,低通信的纵向联邦学习方法 - Google Patents

一种高效安全,低通信的纵向联邦学习方法 Download PDF

Info

Publication number
CN114186694A
CN114186694A CN202111356723.1A CN202111356723A CN114186694A CN 114186694 A CN114186694 A CN 114186694A CN 202111356723 A CN202111356723 A CN 202111356723A CN 114186694 A CN114186694 A CN 114186694A
Authority
CN
China
Prior art keywords
data
participant
feature
samples
participants
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111356723.1A
Other languages
English (en)
Other versions
CN114186694B (zh
Inventor
刘健
田志华
任奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202111356723.1A priority Critical patent/CN114186694B/zh
Priority to PCT/CN2022/074421 priority patent/WO2023087549A1/zh
Publication of CN114186694A publication Critical patent/CN114186694A/zh
Priority to US18/316,256 priority patent/US20230281517A1/en
Application granted granted Critical
Publication of CN114186694B publication Critical patent/CN114186694B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Complex Calculations (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种高效安全,低通信的纵向联邦学习方法,该方法包括:所有参与者选择持有数据特征集合的部分特征以及所选特征的部分样本;所述参与者将选择的数据添加满足差分隐私的噪声后连同所选样本的数据索引互相发送给其他参与者;所有参与者以接收的特征数据作为标签,以每个缺失的特征作为学习任务,利用相同数据索引中原本持有的特征数据,分别为每个任务训练模型;所述参与者利用训练的模型来预测其他样本的数据以补齐特征数据;所述参与者利用横向联邦学习来共同训练一个模型。本发明的高效安全,低通信的纵向联邦学习方法可以借助横向联邦学习的优势,在高效训练的同时保护数据隐私,为数据隐私保护提供量化支持。

Description

一种高效安全,低通信的纵向联邦学习方法
技术领域
本发明涉及联邦学习技术领域,尤其涉及一种高效安全,低通信的纵向联邦学习方法。
背景技术
联邦学习是由Google提出的,用于在分布式的设备或存储有数据的服务器上共同训练模型的机器学习技术。与传统的中心化学习想比,联邦学习不需要将数据汇集在一起,减少了设备之间的传输成本,同时极大的保护了数据的隐私情况。
自提出以来,联邦学习已得到了巨大的发展。尤其随着分布式场景越来越广泛的应用,联邦学习应用越来越受到人们的重视。根据数据划分方式的不同,联邦学习主要分为横向联邦学习和纵向联邦学习。在横向联邦学习中,分布在不同设备中的数据拥有相同的特征,却属于不同的用户。而在纵向联邦学习中,分布在不同设备上的数据属于相同的用户却有着不同的特征。两种联邦学习范式有着截然不同的训练机制,目前的研究大多将他们分别来讨论。因此虽然目前横向联邦学习已经有了较大的发展,纵向联邦学习却仍存在安全性以及效率低下等问题需要解决。
如今随着大数据时代的到来,公司可以轻易获得庞大的数据集,但不同的特征的数据却难以获取。因此在工业界,纵向联邦学习越来越受到人们的重视。如果可以借助横向联邦学习的优势,在纵向联邦学习的过程中借助横向联邦学习,则可以事半功倍的研究出更加安全,高效的纵向联邦学习机制。
发明内容
本发明的目的在于提供了一种高效安全,低通信的纵向联邦学习方法,在参与者包含不同特征数据(包含仅有一方参与者持有标签的情形)的情况下训练模型补齐每个参与者的特征数据,再利用横向联邦学习利用每个参与者持有的数据共同训练模型,解决了纵向联邦学习过程中安全效率以及通信量等问题。以极小的精度损失为代价,更加高效、快速的完成训练。
本发明的目的是通过以下技术方案来实现的:
一种高效安全,低通信的纵向联邦学习方法,包括以下步骤:
(1)所有参与者选择持有数据特征集合的部分特征,再将所选特征的部分样本添加满足差分隐私的噪声之后连同所选样本的数据索引互相发送给其他参与者;所述持有数据特征集合由特征数据和标签数据组成。将标签数据视为一特征参与特征数据补齐过程,当多方(不包含所有)或仅有一方参与者持有标签时,标签数据同样视为一缺失特征,进行模型训练并预测并进行补齐所有参与者的标签。
(2)所有参与者依据数据索引将数据对齐,并以接收的特征数据作为标签,以每个缺失的特征作为学习任务,利用相同数据索引中原本持有的特征数据,分别训练多个模型;
(3)所有参与者利用步骤(2)训练的多个模型预测其他数据索引对应的数据以补齐缺失的特征数据;
(4)所有参与者利用横向联邦学习方法共同合作,得到最终的训练模型。
进一步地,当所有参与者均持有标签数据时,所述持有数据特征集合仅由特征数据组成。
进一步地,所述步骤(1)中,所述数据特征集合为个人隐私信息。在纵向联邦学习的场景中,发送索引数据并不会泄露额外信息。
进一步地,所述步骤(1)中,每个参与者利用BlinkML方法确定发送给其他每个参与者的每个所选特征的最佳样本数量,再依据确定的最佳样本数量将每个所选特征的部分样本添加满足差分隐私的噪声之后连同所选样本的数据索引发送给其他对应参与者。该方法只需要提前发送极少数量的样本给对方,便可以确定需要发送的最佳(最少)的样本量。
进一步地,每个参与者利用BlinkML方法确定发送给其他每个参与者的每个所选特征的最佳样本数量,具体为:
(a)每个参与者针对选择的每个特征i,均匀并随机选择n0个样本数据,添加差分隐私噪声后连同所选样本的数据索引互相发送给其他参与者。
(b)收到数据的参与者j依据数据索引将数据对齐,收到数据的参与者j依据数据索引将数据对齐,并以接收的该特征i数据作为标签,利用相同数据索引中原本持有的特征数据来训练获得模型Mi,j
(c)构建矩阵Q,Q的每一行为n0个每个样本更新Mi,j的模型参数θi,j而得来的参数梯度;
(d)计算L=UΛ,其中,U为矩阵Q奇异值分解后大小为n0×n0的矩阵,Λ为对角矩阵,其对角线上第r个元素的值为
Figure BDA0003357532500000021
其中sr为∑中的第r个奇异值,β为正则化系数,可取0.001;∑为矩阵Q的奇异值矩阵。
(e)从正态分布N(θi,j,α1LLT)中抽样得到
Figure BDA0003357532500000022
再从正态分布
Figure BDA0003357532500000023
中抽样得到θi,j,N,k,重复K次得到K对
Figure BDA0003357532500000024
k表示抽样次数。
其中,
Figure BDA0003357532500000025
Figure BDA0003357532500000026
表示发送给参与者j的第i个特征的候选样本数量;N为每个参与者的样本总数。
(f)计算
Figure BDA0003357532500000031
其中,
Figure BDA0003357532500000032
表示参与者j以样本x持有的特征数据作为输入,
Figure BDA0003357532500000033
为模型参数,模型Mi,j的输出,D为样本集合,E(*)为期望;∈为实数表示阈值。
如果p>1-δ,令
Figure BDA0003357532500000034
如果p<1-δ,令
Figure BDA0003357532500000035
δ表示阈值,为实数。按照步骤(e)(f)过程执行多次,直至收敛得到每个特征应当选择的最优的候选样本数量
Figure BDA0003357532500000036
(g)所述参与者针对参与者j,每个特征i随机选择的样本数量为
Figure BDA0003357532500000037
进一步地,所述步骤(2)中,每个参与者若存在缺失特征未接收到数据,则利用labeled-unlabeled的多任务学习(A.Pentina and C.H.Lampert,“Multi-task learningwith labeled and unlabeled tasks,”in Proceedings of the 34th InternationalConference on Machine Learning-Volume 70,ser.ICML’17.JMLR.org,2017,p.2807-2816.)方法获得未接收到数据缺失特征的模型,具体为:
(a)参与者将自身已有的数据划分为m个数据集S,分别对应每个缺失特征的训练数据,其中m为参与者缺失特征的数量,I为缺失特征中有标签任务的集合;
(b)根据训练数据计算数据集之间的差异disc(Sp,Sq),p,q∈{1,...,m},p≠q,disc(Sp,Sp)=0;
(c)对于每个无标签的任务,最小化
Figure BDA0003357532500000038
得到权重σT={σ1,...,σm},
Figure BDA0003357532500000039
(e)对于每个无标签的任务,可通过最小化有标签任务的训练误差的凸组合得到其模型MT,T∈{1,...,m}/I:
Figure BDA00033575325000000310
其中
Figure BDA00033575325000000311
L(*)为模型以数据集Sp的样本作为输入的损失函数,
Figure BDA00033575325000000312
表示数据集Sp的样本量,x为输入的样本特征,y为标签。
进一步地,所有参与者利用横向联邦学习来合作训练一个模型,此横向联邦学习方法不限于某特定方法。
与现有技术相比,本发明的有益效果如下:本发明将纵向联邦学习与横向联邦学习相结合,通过将纵向联邦学习转化为横向联邦学习,为纵向联邦学习的发展提供了新的思路;通过将差分隐私应用到本发明的方法当中,保证了数据隐私,为数据安全提供了理论上的保证;结合多任务学习的方法,极大降低数据的通信量,降低了训练时间。本发明的高效安全,低通信的纵向联邦学习方法具有使用简便,训练高效等优点,在保护数据隐私的同时,可以在工业场景中实现。
附图说明
图1为本发明的纵向联邦学习的流程图
具体实施方式
互联网时代的到来虽然为大数据的收集提供了条件,但随着数据安全问题逐渐暴露,以及企业对数据隐私的保护,数据“孤岛”问题的越来越严重。同时,得益于互联网技术的发展,各个企业虽然拥有大量的数据,但由于业务限制等原因,这些数据的用户特征各不相同,如果加以利用,可以训练一个精度更高,泛化能力更强的模型。因此企业之间分享数据,打破数据“孤岛”的同时,保护数据隐私,成为解决该问题的方法之一。
本发明就是针对上述场景。即数据在保存在本地的前提下,利用多方数据来共同训练一个模型,在控制精度损失的同时,保护各方的数据隐私安全,提高训练效率。
如图1为本发明一种高效安全,低通信的纵向联邦学习方法的流程图,本发明中所采用的数据特征集合为个人隐私信息,具体包括以下步骤:
(1)所有参与者选择持有数据特征集合的部分特征以及所选特征的少量样本,其中特征的选择方法为随机选择,样本的选择方法优选为BlinkML方法,具体包括以下步骤:
(a)每个参与者针对选择的每个特征i,均匀并随机选择n0个样本数据,添加差分隐私噪声后连同所选样本的数据索引互相发送给其他参与者,其中n0极小,优选为1-1%×N的正整数;其中N为样本总数。
(b)接收数据的参与者j依据数据索引将数据对齐,并以接收的该特征i数据作为标签利用相同数据索引中原本持有的特征数据,训练获得模型Mi,j,模型Mi,j的模型参数矩阵θi,j的大小为1×di,j;di,j为模型参数的数量;
(c)利用n0个样本和θi,j构建矩阵Q(矩阵大小为n0×di,j),Q的每一行表示每个样本更新θi,j而得来的参数梯度;
(d)利用矩阵分解QT=U∑VT得到∑,其中∑为非负的对角矩阵,U,V分别满足QTQ=U,VTV=I,I为单位矩阵。再构建对角矩阵Λ,其对角线上第r个元素的值为
Figure BDA0003357532500000051
sr为∑中的第r个奇异值,β为正则化系数,可取0.001,计算L=UΛ;
(e)重复以下过程K次,得到K对
Figure BDA0003357532500000052
Figure BDA0003357532500000053
θi,j,N,k分别表示第k个采样得到的用
Figure BDA0003357532500000054
或N个样本训练得到的模型参数;
Figure BDA0003357532500000055
表示发送给参与者j的第i个特征的最佳候选样本数量。
a.从正态分布N(θi,j,α1LLT)中抽样得到
Figure BDA0003357532500000056
其中
Figure BDA0003357532500000057
b.从正态分布
Figure BDA0003357532500000058
中抽样得到θi,j,N,k,其中
Figure BDA0003357532500000059
其中,
Figure BDA00033575325000000510
Figure BDA00033575325000000511
表示发送给参与者j的第i个特征的候选样本数量;
(f)计算
Figure BDA00033575325000000512
其中,
Figure BDA00033575325000000513
表示参与者j以样本x持有的特征数据作为输入,
Figure BDA00033575325000000514
为模型参数,模型Mi,j输出即预测的特征i数据,D为样本集合,E(*)表示期望;∈为实数表示阈值,例如0.1,0.01等,根据要求的模型精度(1-∈)选取。
如果p>1-δ,令
Figure BDA00033575325000000515
如果p<1-δ,令
Figure BDA00033575325000000516
δ表示阈值,为实数,一般取0.05。按照步骤(e)(f)过程执行多次,直至
Figure BDA00033575325000000517
收敛得到每个特征应当选择的最优的候选样本数量
Figure BDA00033575325000000518
(g)将得到的
Figure BDA00033575325000000519
的大小发送给原来的参与者,所述参与者针对参与者j,每个特征i随机选择
Figure BDA00033575325000000520
个样本。每个参与者按照如上步骤确定要发送给每个参与者,每个选择的特征的最优的样本数量,并选择样本。
(2)所有参与者将步骤(1)选中的数据添加满足差分隐私的噪声,并将添加完噪声之后的数据以及数据索引互相发送给其他参与者;
(3)所有参与者接收所有数据后依据数据索引将数据对齐,并以相同数据索引中原本持有的特征数据作为输入,以接收的特征数据作为标签分别训练多个模型。具体来说,若将所有参与者拥有的特征看作一个集合,所有参与者以每个缺失的特征看作一个学习任务。利用步骤(2)接收到的特征数据作为每个任务的标签,将已有的数据作为输入来预测缺失的特征训练多个模型。
对于未接收到数据的特征,利用labeled-unlabled的多任务学习方法来学习该任务的模型,以一个参与者为例,该过程包括以下步骤:
(a)参与者将自身已有的数据划分为m个数据集S,分别对应每个缺失特征的训练数据,其中m为缺失特征的数量,I为缺失特征中有标签任务的特征数量;
(b)根据训练数据计算数据集之间的差异disc(Sp,Sq),p,q∈{1,...,m},p≠q,disc(Sp,Sp)=0;
(c)对于每个无标签的任务,最小化
Figure BDA0003357532500000061
得到权重σT={σ1,...,σm},
Figure BDA0003357532500000062
其中I为有标签任务的集合;
(e)对于每个无标签的任务,可通过最小化有标签任务的训练误差的凸组合得到其模型MT,T∈{1,...,m}/I:
Figure BDA0003357532500000063
其中
Figure BDA0003357532500000064
L(*)为模型以数据集Sp的样本作为输入的损失函数,
Figure BDA0003357532500000065
表示数据集Sp的样本量,x为输入的样本特征,y为标签。
(4)所有参与者利用所述训练得到的每个任务对应的模型来预测其他数据索引对应的数据以补齐缺失的特征数据;
(5)所有参与者利用横向联邦学习方法共同合作,得到最终的训练模型,此横向联邦学习方法不限于某特定方法。
为使本申请的目的、技术方案和优点更加清楚,下面将结合实施例对本发明的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例
A、B分别代表一家银行以及一家电商公司,希望通过本发明的联邦学习方法共同训练一个模型,用于预测用户的经济水平。由于银行和电商公司的业务不同,训练数据持有的特征不同,因此他们一起合作共同训练一个精度更高,泛化性能更强的模型是可行的。A、B分别持有数据(XA,YA),(XB,YB),其中
Figure BDA0003357532500000066
为训练数据,
Figure BDA0003357532500000067
Figure BDA0003357532500000071
为其对应的标签,N表示数据量的大小。A、B的训练数据中包含相同的用户样本,但每个样本拥有不同的特征。用mA,mB分别表示A、B的特征数量,即:
Figure BDA0003357532500000072
Figure BDA0003357532500000073
由于用户隐私问题以及其他原因,A、B之间不能互享数据,因此数据都保存在本地。为了解决这种情况,该银行和电商公司可以使用下面展示的纵向联邦学习来合作训练一个模型。
步骤S101,银行A和电商公司B随机选择持有数据特征集合的部分特征以及所选特征的少量样本;
具体地,银行A以及电商公司B分别从其拥有的mA,mB个特征中随机选择rA,rB个特征,针对选中的每个特征,A,B分别随机选择
Figure BDA0003357532500000074
个样本,其中iA=1...rA,iB=1...rB
步骤S1011,针对每个特征,银行A以及电商公司B利用BlinkML法确定样本数量,可以在减少数据传输量的同时,保证该特征模型的训练精度;
具体地,以A发送B特征iA的部分样本为例。A随机选择n0个样本发送给B,n0非常小,B计算
Figure BDA0003357532500000075
B利用接受到的n0个样本的特征iA作为标签训练模型
Figure BDA0003357532500000076
利用n0个样本和
Figure BDA0003357532500000077
构建矩阵Q,Q的每一行代表用每个样本更新
Figure BDA0003357532500000078
而得来的梯度;利用矩阵分解QT=U∑VT得到∑,构建对角矩阵Λ,第r个元素的值为
Figure BDA0003357532500000079
sr为∑中的第r个奇异值,β为正则化系数,可取0.001,计算L=UA;重复以下过程K次,得到K对
Figure BDA00033575325000000710
a.从正态分布
Figure BDA00033575325000000711
和抽样得到
Figure BDA00033575325000000712
其中
Figure BDA00033575325000000713
b.从正态分布
Figure BDA00033575325000000714
中抽样得到
Figure BDA00033575325000000715
其中
Figure BDA00033575325000000716
计算
Figure BDA00033575325000000717
如果p>1-δ,令
Figure BDA00033575325000000718
如果p<1-δ,令
Figure BDA00033575325000000719
并重复上个过程以及此过程。值得注意的是,该过程实际上是一个二分查找的过程,用于查找最优的
Figure BDA00033575325000000720
之后,B将
Figure BDA00033575325000000721
的大小发送给A。类似的,此过程也可以用于确定B发送给A的最小样本数量。
步骤S1011,A和B分别将选中的数据添加满足差分隐私的噪声,并将添加完噪声之后的数据以及数据索引发送给对方。数据索引可以保证后续阶段进行数据对齐。在纵向联邦学习的场景下,索引不会泄露额外信息。
步骤S102,A和B分别将预测每个缺失的特征看作一个学习任务,以接收到的特征数据作为标签来分别训练多个模型。同时对于没有数据的特征,利用labeled-unlabeled的多任务学习方法来训练模型;
具体地,以A发送给B部分样本为例。
(a)B将自身已有的数据划分为mA个数据集,分别对应每个特征的训练数据,其中mA为缺失特征的数量,本实施例中也为A拥有的特征数量;
(b)根据训练数据计算数据集之间的差异disc(Sp,Sq),p,q∈{1,...,mA},p≠q,disc(Sp,Sp)=0;
(c)假设I为有标签任务的集合,I∈{1,...,mA},|I|=rA,对于每个无标签的任务,最小化
Figure BDA0003357532500000081
得到权重
Figure BDA0003357532500000086
(d)对于有标签的任务,可以利用接收到标签直接训练得到其对应的模型;
(e)对于每个无标签的任务,可通过最小化有标签任务的训练误差的凸组合得到其模型MTT∈{1,...,mA}/I:
Figure BDA0003357532500000083
其中
Figure BDA0003357532500000084
L(*)为模型以数据集Sp的样本作为输入的损失函数,
Figure BDA0003357532500000085
表示数据集Sp的样本量,x为输入的样本特征,y为数据集Sp训练任务时的标签。
步骤S103,A和B利用训练得到的模型分别预测其他样本的数据以补齐缺失的特征数据。
步骤S104,A和B利用横向联邦学习方法共同合作训练,得到最终的训练模型。
本发明的高效安全,低通信的纵向联邦学习方法,通过与横向联邦学习相结合,可以在不暴露参与者本地数据的情况下,利用每个参与者持有的数据共同训练模型。其隐私保护水平满足差分隐私,模型的训练结果接近中心化学习。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种高效安全,低通信的纵向联邦学习方法,其特征在于,包括以下步骤:
(1)所有参与者选择持有数据特征集合的部分特征,再将所选特征的部分样本添加满足差分隐私的噪声之后连同所选样本的数据索引互相发送给其他参与者;所述持有数据特征集合由特征数据和标签数据组成。
(2)所有参与者依据数据索引将数据对齐,并以接收的特征数据作为标签,以每个缺失的特征作为学习任务,利用相同数据索引中原本持有的特征数据,分别为每个任务训练模型;
(3)所有参与者利用步骤(2)训练的多个模型预测其他数据索引对应的数据以补齐缺失的特征数据;
(4)所有参与者利用横向联邦学习方法共同合作,得到最终的训练模型。
2.根据权利要求1所述的高效安全,低通信的纵向联邦学习方法,其特征在于,当所有参与者均持有标签数据时,所述持有数据特征集合仅由特征数据组成。
3.根据权利要求1所述的高效安全,低通信的纵向联邦学习方法,其特征在于,所述步骤(1)中,所述数据特征集合为个人隐私信息。
4.根据权利要求1所述的高效安全,低通信的纵向联邦学习方法,其特征在于,所述步骤(1)中,每个参与者利用BlinkML方法确定发送给其他每个参与者的每个所选特征的最佳样本数量,再依据确定的最佳样本数量将每个所选特征的部分样本添加满足差分隐私的噪声之后连同所选样本的数据索引发送给其他对应参与者。
5.根据权利要求3所述的高效安全,低通信的纵向联邦学习方法,其特征在于,每个参与者利用BlinkML方法确定发送给其他每个参与者的每个所选特征的最佳样本数量,具体为:
(a)每个参与者针对选择的每个特征i,均匀并随机选择n0个样本数据,添加差分隐私噪声后连同所选样本的数据索引互相发送给其他参与者。
(b)收到数据的参与者j依据数据索引将数据对齐,并以接收的该特征i数据作为标签,利用相同数据索引中原本持有的特征数据来训练获得模型Mi,j
(c)构建矩阵Q,Q的每一行为n0个样本更新Mi,j的模型参数θi,j而得来的参数梯度;
(d)计算L=UΛ,其中,U为矩阵Q奇异值分解后大小为n0×n0的矩阵,Λ为对角矩阵,其对角线上第r个元素的值为
Figure FDA0003357532490000011
sr为∑中的第r个奇异值,β为正则化系数;∑为矩阵Q的奇异值矩阵。
(e)从正态分布N(θi,j,α1LLT)中抽样得到
Figure FDA0003357532490000021
再从正态分布
Figure FDA0003357532490000022
中抽样得到θi,j,N,k,重复K次得到K对
Figure FDA0003357532490000023
k表示抽样次数。
其中,
Figure FDA0003357532490000024
Figure FDA0003357532490000025
表示发送给参与者j的第i个特征的候选样本数量;N为每个参与者的样本总数。
(f)计算
Figure FDA0003357532490000026
其中,
Figure FDA0003357532490000027
表示参与者j以样本x持有的特征数据作为输入,
Figure FDA0003357532490000028
为模型参数,模型Mi,j的输出,D为样本集合,E(*)表示期望;∈为实数,表示阈值。
如果p>1-δ,令
Figure FDA0003357532490000029
如果p<1-δ,令
Figure FDA00033575324900000210
δ表示阈值,为实数。按照步骤(e)(f)过程执行多次,直至收敛得到每个特征应当选择的最优的候选样本数量
Figure FDA00033575324900000211
(g)所述参与者针对参与者j,每个特征i随机选择的样本数量为
Figure FDA00033575324900000212
6.根据权利要求1所述的高效安全,低通信的纵向联邦学习方法,其特征在于:所述步骤(2)中,每个参与者若存在缺失特征未接收到数据,则利用labeled-unlabeled的多任务学习方法获得未接收到数据缺失特征的模型,具体为:
(a)参与者将自身已有的数据划分为m个数据集S,分别对应每个缺失特征的训练数据,其中m为参与者缺失特征的数量,I为缺失特征中有标签任务的集合;
(b)根据训练数据计算数据集之间的差异disc(Sp,Sq),p,q∈{1,...,m},p≠q,disc(Sp,Sp)=0;
(c)对于每个无标签的任务,最小化
Figure FDA00033575324900000213
得到权重σT={σ1,...,σm},
Figure FDA00033575324900000214
(e)对于每个无标签的任务,可通过最小化有标签任务的训练误差的凸组合得到其模型MT,T∈{1,...,m}/I:
Figure FDA00033575324900000215
其中
Figure FDA00033575324900000216
L(*)为模型以数据集Sp的样本作为输入的损失函数,
Figure FDA0003357532490000031
表示数据集Sp的样本量,x为输入的样本特征,y为标签。
CN202111356723.1A 2021-11-16 2021-11-16 一种高效安全,低通信的纵向联邦学习方法 Active CN114186694B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202111356723.1A CN114186694B (zh) 2021-11-16 2021-11-16 一种高效安全,低通信的纵向联邦学习方法
PCT/CN2022/074421 WO2023087549A1 (zh) 2021-11-16 2022-01-27 一种高效安全,低通信的纵向联邦学习方法
US18/316,256 US20230281517A1 (en) 2021-11-16 2023-05-12 Efficient, secure and low-communication vertical federated learning method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111356723.1A CN114186694B (zh) 2021-11-16 2021-11-16 一种高效安全,低通信的纵向联邦学习方法

Publications (2)

Publication Number Publication Date
CN114186694A true CN114186694A (zh) 2022-03-15
CN114186694B CN114186694B (zh) 2024-06-11

Family

ID=80540212

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111356723.1A Active CN114186694B (zh) 2021-11-16 2021-11-16 一种高效安全,低通信的纵向联邦学习方法

Country Status (3)

Country Link
US (1) US20230281517A1 (zh)
CN (1) CN114186694B (zh)
WO (1) WO2023087549A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230085322A (ko) * 2021-12-07 2023-06-14 주식회사 엘엑스세미콘 터치 센싱 장치 및 터치 센싱 방법
CN116546429B (zh) * 2023-06-06 2024-01-16 杭州一诺科创信息技术有限公司 一种车联网联邦学习中的车辆选择方法和系统
CN117579215B (zh) * 2024-01-17 2024-03-29 杭州世平信息科技有限公司 基于标签共享的纵向联邦学习差分隐私保护方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110490738A (zh) * 2019-08-06 2019-11-22 深圳前海微众银行股份有限公司 一种混合联邦学习方法及架构
CN110633805A (zh) * 2019-09-26 2019-12-31 深圳前海微众银行股份有限公司 纵向联邦学习系统优化方法、装置、设备及可读存储介质
CN110633806A (zh) * 2019-10-21 2019-12-31 深圳前海微众银行股份有限公司 纵向联邦学习系统优化方法、装置、设备及可读存储介质
CN110674528A (zh) * 2019-09-20 2020-01-10 深圳前海微众银行股份有限公司 联邦学习隐私数据处理方法、设备、系统及存储介质
CN111985649A (zh) * 2020-06-22 2020-11-24 华为技术有限公司 基于联邦学习的数据处理方法和装置
CN112308157A (zh) * 2020-11-05 2021-02-02 浙江大学 一种面向决策树的横向联邦学习方法
CN112364908A (zh) * 2020-11-05 2021-02-12 浙江大学 一种面向决策树的纵向联邦学习方法
CN112464287A (zh) * 2020-12-12 2021-03-09 同济大学 基于秘密共享与联邦学习的多方XGBoost安全预测模型训练方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220414464A1 (en) * 2019-12-10 2022-12-29 Agency For Science, Technology And Research Method and server for federated machine learning
CN112288094B (zh) * 2020-10-09 2022-05-17 武汉大学 联邦网络表示学习方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110490738A (zh) * 2019-08-06 2019-11-22 深圳前海微众银行股份有限公司 一种混合联邦学习方法及架构
CN110674528A (zh) * 2019-09-20 2020-01-10 深圳前海微众银行股份有限公司 联邦学习隐私数据处理方法、设备、系统及存储介质
CN110633805A (zh) * 2019-09-26 2019-12-31 深圳前海微众银行股份有限公司 纵向联邦学习系统优化方法、装置、设备及可读存储介质
WO2021004551A1 (zh) * 2019-09-26 2021-01-14 深圳前海微众银行股份有限公司 纵向联邦学习系统优化方法、装置、设备及可读存储介质
CN110633806A (zh) * 2019-10-21 2019-12-31 深圳前海微众银行股份有限公司 纵向联邦学习系统优化方法、装置、设备及可读存储介质
CN111985649A (zh) * 2020-06-22 2020-11-24 华为技术有限公司 基于联邦学习的数据处理方法和装置
CN112308157A (zh) * 2020-11-05 2021-02-02 浙江大学 一种面向决策树的横向联邦学习方法
CN112364908A (zh) * 2020-11-05 2021-02-12 浙江大学 一种面向决策树的纵向联邦学习方法
CN112464287A (zh) * 2020-12-12 2021-03-09 同济大学 基于秘密共享与联邦学习的多方XGBoost安全预测模型训练方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHIHUA TIAN等: "federboost:private federated learning for GBDT", ARXIV, 5 November 2020 (2020-11-05), pages 1 - 15 *
王亚: "面向数据共享交换的联邦学习技术发展综述", 无人系统技术, vol. 2, no. 06, 15 November 2019 (2019-11-15), pages 58 - 62 *

Also Published As

Publication number Publication date
CN114186694B (zh) 2024-06-11
WO2023087549A1 (zh) 2023-05-25
US20230281517A1 (en) 2023-09-07

Similar Documents

Publication Publication Date Title
Wei et al. Vertical federated learning: Challenges, methodologies and experiments
CN112364943B (zh) 一种基于联邦学习的联邦预测方法
CN114186694B (zh) 一种高效安全,低通信的纵向联邦学习方法
CN110084377B (zh) 用于构建决策树的方法和装置
CN113420232B (zh) 一种面向隐私保护的图神经网络联邦推荐方法
CN113505882B (zh) 基于联邦神经网络模型的数据处理方法、相关设备及介质
CN106815530A (zh) 数据存证方法、数据校验方法及装置
CN112215604B (zh) 交易双方关系信息识别方法及装置
CN113961759B (zh) 基于属性图表示学习的异常检测方法
CN114677200B (zh) 基于多方高维数据纵向联邦学习的商业信息推荐方法及装置
CN114462624B (zh) 一种基于区块链开展可信联邦学习的方法
CN113448694B (zh) 一种提高事务处理能力的区块链共识方法
CN114611128B (zh) 一种纵向联邦学习方法、装置、系统、设备及存储介质
US20230419182A1 (en) Methods and systems for imrpoving a product conversion rate based on federated learning and blockchain
Du Research on engineering project management method based on BIM technology
CN112380572A (zh) 一种多方数据协同场景下的隐私保护量化评估方法和系统
CN117893807B (zh) 基于知识蒸馏的联邦自监督对比学习图像分类系统及方法
CN115686868A (zh) 一种基于联邦哈希学习的面向跨节点多模态检索方法
CN113377656B (zh) 一种基于图神经网络的众测推荐方法
CN112052471A (zh) 一种基于社交网络空间的信息隐藏方法
CN112765481A (zh) 一种数据处理方法、装置、计算机及可读存储介质
CN116029392A (zh) 一种基于联邦学习的联合训练方法及系统
CN115130814B (zh) 一种纵向数据融合的隐私计算方法及系统
Li et al. VFed-SSD: Towards practical vertical federated advertising
CN115860739A (zh) 一种改进的跨链交易公证人信用排序算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant