CN112906912A - 纵向联邦学习中无可信第三方的回归模型训练方法及系统 - Google Patents

纵向联邦学习中无可信第三方的回归模型训练方法及系统 Download PDF

Info

Publication number
CN112906912A
CN112906912A CN202110358220.1A CN202110358220A CN112906912A CN 112906912 A CN112906912 A CN 112906912A CN 202110358220 A CN202110358220 A CN 202110358220A CN 112906912 A CN112906912 A CN 112906912A
Authority
CN
China
Prior art keywords
inner product
gradient
semi
model
mask
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110358220.1A
Other languages
English (en)
Inventor
黄岳嘉
孙慧中
张冠宏
王湾湾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Dongjian Intelligent Technology Co ltd
Original Assignee
Shenzhen Dongjian Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Dongjian Intelligent Technology Co ltd filed Critical Shenzhen Dongjian Intelligent Technology Co ltd
Priority to CN202110358220.1A priority Critical patent/CN112906912A/zh
Publication of CN112906912A publication Critical patent/CN112906912A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种纵向联邦学习中无可信第三方的回归模型训练方法及系统,数据提供方将第一内积发送至模型发起方;模型发起方计算第一内积与第二内积的内积和,采用预设函数计算预测值,计算预测值与真实标签值的残差,对残差进行半同态加密,将半同态加密残差以及半同态加密的公钥发送至数据提供方;数据提供方在半同态加密下,计算针对第一特征参数的第一梯度并增加随机掩码;模型发起方根据半同态加密的私钥,对加密掩码梯度进行解密,将掩码梯度发送至数据提供方;数据提供方去除掩码梯度中的随机掩码,得到第一梯度,更新第一特征参数。实现在不依赖第三方机构,且保护双方隐私数据的前提下,完成纵向联邦学习中回归模型的训练。

Description

纵向联邦学习中无可信第三方的回归模型训练方法及系统
技术领域
本申请涉及机器学习技术领域,特别是涉及一种纵向联邦学习中无可信第三方的回归模型训练方法及系统。
背景技术
当今,大数据驱动的人工智能技术已经广泛应用于金融、零售、医疗等领域。为了得到更好效果的模型,往往需要大量数据的支撑,而现实中数据往往分布于不同的机构。但是,绝大多数人工智能算法在设计之初没有考虑个人隐私信息保护的问题。如何在满足法律和条约的情况下,打破“数据孤岛”,共享和使用这些数据,成为一个急需解决的问题。
联邦学习是由谷歌公司提出的一种分布式学习范式。根据数据分布,联邦学习可以被划分为横向联邦学习、纵向联邦学习和联邦迁移学习三种场景。
逻辑斯蒂回归算法是一种经典的机器学习模型,适用于分类问题。因为其具有简单、高效、可解释强等特性,被人们广泛应用于金融、推荐、广告等领域。诸多现实场景要求在纵向联邦学习的场景下完成逻辑斯蒂回归模型的训练和使用。
目前,在纵向联邦学习场景下,现有的逻辑斯蒂回归算法依赖于一个可信第三方协调数据提供方、模型发起方之间的通信。但在现实场景中,难以寻求一个双方都认可的可信第三方。
发明内容
本申请实施例的目的在于提供一种纵向联邦学习中无可信第三方的回归模型训练方法及系统,以实现在不依赖第三方机构,且保护双方隐私数据的前提下,完成纵向联邦学习中回归模型的训练。具体技术方案如下:
为实现上述目的,本申请实施例提供了一种纵向联邦学习中无可信第三方的回归模型训练方法,所述方法包括:
数据提供方计算第一特征与第一特征参数的第一内积,将所述第一内积发送至模型发起方;其中,所述第一特征是预先从样本用户的第一行为数据中提取的;
模型发起方计算第二特征与第二特征参数的第二内积,并计算所述第一内积与所述第二内积的内积和,基于所述内积和采用预设函数计算预测值,计算所述预测值与真实标签值的残差,对所述残差进行半同态加密,将半同态加密残差以及半同态加密的公钥发送至所述数据提供方;其中,所述第二特征是预先从所述样本用户的第二行为数据中提取的;
所述数据提供方根据半同态加密的公钥,在半同态加密下,基于所述半同态加密残差计算针对所述第一特征参数的第一梯度并增加随机掩码,得到加密掩码梯度,并将所述加密掩码梯度发送至所述模型发起方;
所述模型发起方根据半同态加密的私钥,对所述加密掩码梯度进行解密,得到掩码梯度,将所述掩码梯度发送至所述数据提供方;
所述数据提供方去除所述掩码梯度中的随机掩码,得到所述第一梯度,并基于所述第一梯度更新所述第一特征参数。
可选的,所述方法还包括:
所述模型发起方基于所述预测值与真实标签值的残差,计算针对所述第二特征参数的第二梯度,并基于该第二梯度更新所述第二特征参数。
可选的,所述预设函数为sigmoid函数。
可选的,所述方法还包括:
所述模型发起方将所述预测值和所述真实标签值代入预设损失函数,计算损失值;
根据所述损失值判断回归模型是否收敛,若收敛,则确定所述回归模型训练完成;
若未收敛,则告知所述数据提供方,以使所述数据提供方返回执行所述计算第一特征与第一特征参数的第一内积,把所述第一内积发送至模型发起方的步骤。
可选的,所述预设损失函数为:
Figure BDA0003004432250000031
其中,Jθ表示预设损失函数,i表示样本用户的编号,n表示样本用户的数目,yi表示编号为i的样本用户的真实标签值,xi表示所述内积和,hΘ(·)表示sigmoid函数。
可选的,所述样本用户的数目为n,所述第一特征的特征维度为m,所述回归模型的迭代训练轮数为r;
所述样本用户的数目、所述第一特征的特征维度和所述迭代训练轮数满足如下条件:
n>m
Figure BDA0003004432250000032
可选的,所述回归模型为逻辑斯蒂回归算法。
为实现上述目的,本申请实施例还提供了一种纵向联邦学习中基于回归模型的预测方法,所述方法包括:
数据提供方计算第一特征与第一特征参数的第一内积,将所述第一内积发送至模型发起方;其中,第一特征是预先从待预测用户的第一行为数据中提取的;第一特征参数是预先训练完成的;
模型发起方计算第二特征与第二特征参数的第二内积,并计算所述第一内积与所述第二内积的内积和,基于所述内积和采用预设函数计算预测结果;其中,所述第二特征是预先从所述待预测用户的第二行为数据中提取的;所述第二特征参数是预先训练完成的。
为实现上述目的,本申请实施例还提供了一种纵向联邦学习中无可信第三方的回归模型训练系统,所述系统包括:模型发起方和至少一个数据提供方,
所述数据提供方,用于数据提供方计算第一特征与第一特征参数的第一内积,将所述第一内积发送至模型发起方;其中,所述第一特征是预先从样本用户的第一行为数据中提取的;;
所述模型发起方,用于计算第二特征与第二特征参数的第二内积,并计算所述第一内积与所述第二内积的内积和,基于所述内积和采用预设函数计算预测值,计算所述预测值与真实标签值的残差,对所述残差进行半同态加密,将半同态加密残差以及半同态加密的公钥发送至所述数据提供方;其中,所述第二特征是预先从所述样本用户的第二行为数据中提取的;
所述数据提供方,还用于根据半同态加密的公钥,在半同态加密下,基于所述半同态加密残差计算针对所述第一特征参数的第一梯度并增加随机掩码,得到加密掩码梯度,并将所述加密掩码梯度发送至所述模型发起方;
所述模型发起方,还用于根据半同态加密的私钥,对所述加密掩码梯度进行解密,得到掩码梯度,将所述掩码梯度发送至所述数据提供方;
所述数据提供方,还用于去除所述掩码梯度中的随机掩码,得到所述第一梯度,并基于所述第一梯度更新所述第一特征参数。
可选的,所述模型发起方,还用于基于所述预测值与真实标签值的残差,计算针对所述第二特征参量的第二梯度,并基于该第二梯度更新所述第二特征参数。
本申请实施例有益效果:
应用本申请实施例提供的纵向联邦学习中无可信第三方的回归模型训练方法及系统,数据提供方计算第一特征与第一特征参数的第一内积,将第一内积发送至模型发起方;其中,第一特征是预先从样本用户的第一行为数据中提取的;模型发起方计算第二特征与第二特征参数的第二内积,并计算第一内积与第二内积的内积和,基于内积和采用预设函数计算预测值,计算预测值与真实标签值的残差,对残差进行半同态加密,将半同态加密残差以及半同态加密的公钥发送至数据提供方;其中,第二特征是预先从样本用户的第二行为数据中提取的;数据提供方根据半同态加密的公钥,在半同态加密下,基于半同态加密残差计算针对第一特征参数的第一梯度并增加随机掩码,得到加密掩码梯度,并将加密掩码梯度发送至模型发起方;模型发起方根据半同态加密的私钥,对加密掩码梯度进行解密,得到掩码梯度,将掩码梯度发送至数据提供方;数据提供方去除掩码梯度中的随机掩码,得到第一梯度,并基于第一梯度更新第一特征参数。
可见,在训练回归模型过程中,模型发起方和数据提供方都无法直接获取对方发送的明文数据,但可以在加密下进行模型相关的运算,完成特征参数的更新。实现了在不依赖第三方机构,且保护双方隐私数据的前提下,完成纵向联邦学习中回归模型的训练。
并且,现有的回归模型训练中,需要对回归模型的目标函数进行泰勒展开。但是,这种方式会引入不可避免的误差,进而导致回归模型在精度上有所下降。而应用本申请实施例提供的纵向联邦学习中无可信第三方的回归模型训练方法,在模型训练过程中不需要对函数进行泰勒展开,避免了泰勒展开产生的计算精度损失,因此能够提高模型的精度。
当然,实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为本申请实施例提供的纵向联邦学习中无可信第三方的回归模型训练方法的一种流程示意图;
图2为本申请实施例提供的纵向联邦学习中无可信第三方的回归模型训练方法的一种信令图;
图3为本申请实施例提供的纵向联邦学习中基于回归模型的预测方法的一种流程示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员基于本申请所获得的所有其他实施例,都属于本申请保护的范围。
为了解决现有技术中纵向联邦学习场景下逻辑斯蒂回归算法依赖于可信第三方的技术问题,本申请实施例提供了一种纵向联邦学习中无可信第三方的回归模型训练方法及系统。
参见图1,图1为本申请实施例提供的纵向联邦学习中无可信第三方的回归模型训练方法的一种流程示意图,方法可以包括以下步骤:
S101:数据提供方计算第一特征与第一特征参数的第一内积,将第一内积发送至模型发起方;其中,第一特征是预先从数据提供方存储的第一样本中提取的。
本申请实施例提供的纵向联邦学习涉及数据提供方和模型发起方。其中,数据提供方表示持有样本用户的一部分特征的电子设备,模型发起方表示持有样本用户的另一部分特征以及样本用户标签的电子设备。数据提供方和模型发起方通常属于不同的机构。
本申请实施例中,数据提供方可以预先从样本用户的第一行为数据中提取第一特征
Figure BDA0003004432250000061
第一行为数据可以表示样本用户在数据提供方所属机构的行为所产生的数据,例如在电商公司交易产生的交易类数据。并且,数据提供方持有第一特征
Figure BDA0003004432250000062
对应的第一特征参数,表示为ΘA
模型发起方也可以预先从同一批样本用户的第二行为数据中提取第二特征
Figure BDA0003004432250000063
第二行为数据可以表示样本用户在模型发起方所属机构的行为所产生的数据,例如在银行贷款所产生的贷款类数据。模型发起方也持有第二特征
Figure BDA0003004432250000064
对应的第二特征参数,表示为ΘB;此外,模型发起方还持有样本用户的真实标签值yi
本申请实施例提供的纵向联邦学习中无可信第三方的回归模型训练方法可以应用于金融、推荐、广告等领域。
作为一个示例,在金融领域,银行与电商公司合作进行金融欺诈行为的识别。电商公司作为数据提供方,银行作为模型发起方,样本用户是电商公司和银行公有的用户,例如可以是小微企业。电商公司可以持有样本用户的交易类数据,例如订单量等数据,并根据交易类数据提取出第一特征;银行可以持有样本用户的贷款类数据,例如贷款金额,或者持有样本用户的企业数据,例如成立年限、企业规模等,并从贷款类数据、企业数据中提取出第二特征。并且,银行作为模型发起方,还持有样本用户的真实标签,该真实标签可以为该样本用户是否存在金融欺诈行为等数据。
则采用本申请实施例提供的纵向联邦学习中无可信第三方的回归模型训练方法,可以根据第一特征、第二特征以及样本用户的标签训练回归模型,即更新回归模型中的特征参数,训练好的回归模型即可用于结果预测。
本申请实施例中,回归模型可以是逻辑斯蒂回归模型。
本步骤中,数据提供方可以计算第一特征与第一特征参数的第一内积,表示为
Figure BDA0003004432250000071
并将其发送至模型发起方。
S102:模型发起方计算第二特征与第二特征参数的第二内积,并计算第一内积与第二内积的内积和,基于内积和采用预设函数计算预测值,计算预测值与真实标签值的残差,对残差进行半同态加密,将半同态加密残差以及半同态加密的公钥发送至数据提供方;其中,第二特征是预先从样本用户的第二行为特征数据中提取的。
其中,第二特征与第二特征参数的第二内积表示为
Figure BDA0003004432250000072
内积和表示为
Figure BDA0003004432250000073
基于内积和采用预设函数即可计算预测值。其中,预设函数可以为sigmoid函数,表示为hΘ(·)。即预测值
Figure BDA0003004432250000074
进而可以计算预测值与真实标签值的残差,即
Figure BDA0003004432250000075
其中yi表示模型发起方存储的真实标签值。
根据残差
Figure BDA0003004432250000076
即可计算梯度值,进而更新特征参数。
本申请实施例中,为了保护模型发起方的隐私,可以对残差
Figure BDA0003004432250000077
进行半同态加密,得到半同态加密残差,将半同态加密残差和半同态加密的公钥发送至数据提供方。其中,半同态加密可以采用paillier算法。
S103:数据提供方根据半同态加密的公钥,在半同态加密下,基于半同态加密残差计算针对第一特征参数的第一梯度并增加随机掩码,得到加密掩码梯度,并将加密掩码梯度发送至模型发起方。
本申请实施例中,数据提供方在持有公钥的情况下,可以利用半同态加密的性质进行运算。
具体的,数据提供方在半同态加密下,基于半同态加密残差计算针对第一特征参数的第一梯度
Figure BDA0003004432250000078
在此基础上,为了保护数据提供方的隐私,可以在半同态加密下,为第一梯度
Figure BDA0003004432250000081
增加随机掩码λ,得到半同态加密下附加随机掩码的第一梯度,简称为加密掩码梯度。
数据提供方可以将加密掩码梯度发送至模型发起方。
S104:模型发起方根据半同态加密的私钥,对加密掩码梯度进行解密,得到掩码梯度,将掩码梯度发送至数据提供方。
本申请实施例中,模型发起方可以根据自身持有的私钥对加密掩码梯度进行解密,得到附加随机掩码的第一梯度,简称为掩码梯度。
可见模型发起方即使能够完成半同态解密,也只能获取添加了随机掩码的数据,保护了数据提供方的隐私。
模型发起方可以将掩码梯度发送至数据提供方。
S105:数据提供方去除掩码梯度中的随机掩码,得到第一梯度,并基于第一梯度更新第一特征参数。
本申请实施例中,掩码梯度中的随机掩码是数据提供方添加的,因此数据提供方可以去除随机掩码,得到明文下的第一梯度,进而可以根据第一梯度更新第一特征参数。根据梯度更新模型中特征参数的过程,可以参见相关技术。
应用本申请实施例提供的纵向联邦学习中无可信第三方的回归模型训练方法,数据提供方计算第一特征与第一特征参数的第一内积,将第一内积发送至模型发起方;第一特征是预先从样本用户的第一行为数据中提取的;模型发起方计算第二特征与第二特征参数的第二内积,并计算第一内积与第二内积的内积和,基于内积和采用预设函数计算预测值,计算预测值与真实标签值的残差,对残差进行半同态加密,将半同态加密残差以及半同态加密的公钥发送至数据提供方;第二特征是预先从样本用户的第二行为数据中提取的;数据提供方根据半同态加密的公钥,在半同态加密下,基于半同态加密残差计算针对第一特征参数的第一梯度并增加随机掩码,得到加密掩码梯度,并加密掩码梯度发送至模型发起方;模型发起方根据半同态加密的私钥,对加密掩码梯度进行解密,得到掩码梯度,将掩码梯度发送至数据提供方;数据提供方去除掩码梯度中的随机掩码,得到第一梯度,并基于第一梯度更新第一特征参数。
可见,在训练回归模型过程中,模型发起方和数据提供方都无法直接获取对方发送的明文数据,但可以在加密下进行模型相关的运算,完成特征参数的更新。实现了在不依赖第三方机构,且保护双方隐私数据的前提下,完成纵向联邦学习中回归模型的训练。
并且,现有的回归模型训练中,需要对回归模型的目标函数进行泰勒展开。但是,这种方式会引入不可避免的误差,进而导致回归模型在精度上有所下降。而应用本申请实施例提供的纵向联邦学习中无可信第三方的回归模型训练方法,在模型训练过程中不需要对函数进行泰勒展开,避免了泰勒展开产生的计算精度损失,因此能够提高模型的精度。
为了便于理解,下面结合信令图对本申请实施例提供的纵向联邦学习中无可信第三方的回归模型训练方法进行进一步说明。
参见图2,图2为本申请实施例提供的纵向联邦学习中无可信第三方的回归模型训练方法的一种信令图。
如图2所示,数据提供方计算第一特征与第一特征参数的第一内积,向模型发起方发送第一内积,模型发起方计算第二特征与第二特征参数的第二内积,并计算第一内积与第二内积的内积和,基于内积和采用预设函数计算预测值,计算预测值与真实标签值的残差,对残差进行半同态加密;模型发起方向数据提供方发送半同态加密残差和半同态加密的公钥;数据提供方在半同态加密下,基于半同态加密残差计算针对第一特征参数的第一梯度并增加随机掩码,向模型发起方发送加密掩码梯度;模型发起方根据半同态加密的私钥,对加密掩码梯度进行解密,得到掩码梯度,向数据提供方发送掩码梯度;数据提供方去除掩码梯度中的随机掩码,得到第一梯度,并基于第一梯度更新第一特征参数。
本申请实施例中,模型发起方可以直接基于预测值与真实标签值的残差,计算针对第二特征参数的第二梯度,并基于第二梯度更新第二特征参数。
在本申请的一种实施例中,在每轮迭代训练后,模型发起方可以基于预设损失函数,计算损失值,根据损失值判断回归模型是否收敛,若收敛,则确定回归模型训练完成;
若未收敛,则告知数据提供方,数据提供方可以返回执行S101步骤,进入下一次迭代训练,直到回归模型收敛,或达到预先设置的迭代轮数。
在本申请的一种实施例中,可以采用对数似然函数作为损失函数,表示为:
Figure BDA0003004432250000101
其中,Jθ表示预设损失函数,i表示样本用户的编号,n表示样本用户的数目,yi表示编号为i的样本用户的真实标签值,xi表示所述内积和,hΘ(·)表示sigmoid函数。
在本申请的一种实施例中,为了进一步保护数据提供方的隐私,可以额外对模型的训练轮数进行约束。
具体的,设样本用户的数目为n,第一特征的特征维度为m。
在训练过程中,数据提供方会向模型发起方发送n个中间信息,这n个中间信息是由n×m个特征未知量和m个特征参数未知量运算得到的。
如果训练轮数较大,模型发起方能够根据这些中间信息,构建非线性方程组并进行求解,以获取数据提供方的隐私数据,包括特征数据和参数数据。因此,为了抵御模型发起方的这种攻击,可以对训练轮数等超参数进行限制,具体的,设训练轮数为r。
则本申请实施例中,需要模型中的超参数满足如下条件:
n>m
Figure BDA0003004432250000102
其中,n表示样本用户数目,m表示第一特征的特征维度,r表示回归模型的迭代训练轮数r。
可见,本申请实施例中,对模型中超参数进行限制,避免模型发起方解算出数据提供方的隐私数据,进一步保护了数据提供方的隐私。
本申请实施例还提供了一种纵向联邦学习中基于回归模型的预测方法,参见图3,图3为本申请实施例提供的纵向联邦学习中基于回归模型的预测方法的一种流程示意图,可以包括以下步骤:
S301:数据提供方计算第一特征与第一特征参数的第一内积,将第一内积发送至模型发起方;其中,第一特征是预先从待预测用户的第一行为数据中提取的;第一特征参数是预先训练完成的。
S302:模型发起方计算第二特征与第二特征参数的第二内积,并计算第一内积与第二内积的内积和,基于内积和采用预设函数计算预测结果;其中,第二特征是预先从待预测用户的第二行为数据中提取的,第二特征参数是预先训练完成的。
在训练完成的第一特征参数和第二特征参数的基础上,计算第一内积与第二内积的内积和,将内积和输入sigmoid函数,即可得到待预测用户的预测结果。
作为一个示例,银行与电商公司合作进行金融欺诈行为的识别。电商公司作为数据提供方,银行作为模型发起方,待预测用户是电商公司和银行公有的某一小微企业。
电商公司可以持有待预测用户的交易类数据,例如订单量等数据,并根据交易类数据提取出第一特征;银行可以持有待预测用户的贷款类数据,例如贷款金额,并从贷款类数据中提取出第二特征。
则执行S301-S302步骤,回归模型即可输出针对待预测用户的预测结果,例如,预测结果可以是该待预测用户是否存在金融欺诈行为。
相应于本申请实施例提供的纵向联邦学习中无可信第三方的回归模型训练方法,本申请实施例还提供了一种纵向联邦学习中无可信第三方的回归模型训练系统,该系统可以包括:模型发起方和至少一个数据提供方。
数据提供方,用于计算第一特征与第一特征参数的第一内积,将第一内积发送至模型发起方;其中,所述第一特征是预先从样本用户的第一行为数据中提取的;
模型发起方,用于计算第二特征与第二特征参数的第二内积,并计算第一内积与第二内积的内积和,基于内积和采用预设函数计算预测值,计算预测值与真实标签值的残差,对残差进行半同态加密,将半同态加密残差以及半同态加密的公钥发送至数据提供方;其中,所述第二特征是预先从所述样本用户的第二行为数据中提取的;
数据提供方,还用于根据半同态加密的公钥,在半同态加密下,基于半同态加密残差计算针对第一特征参数的第一梯度并增加随机掩码,得到加密掩码梯度,并将加密掩码梯度发送至模型发起方;
模型发起方,还用于根据半同态加密的私钥,对加密掩码梯度进行解密,得到掩码梯度,将掩码梯度发送至数据提供方;
数据提供方,还用于去除掩码梯度中的随机掩码,得到第一梯度,并基于第一梯度更新第一特征参数。
其中,方法和系统是基于同一申请构思的,由于方法和系统解决问题的原理相似,因此系统和方法的实施可以相互参见,重复之处不再赘述。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于纵向联邦学习中无可信第三方的回归模型训练系统实施例而言,由于其基本相似于纵向联邦学习中无可信第三方的回归模型训练方法实施例,所以描述的比较简单,相关之处参见纵向联邦学习中无可信第三方的回归模型训练方法实施例的部分说明即可。
以上所述仅为本申请的较佳实施例,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本申请的保护范围内。

Claims (10)

1.一种纵向联邦学习中无可信第三方的回归模型训练方法,其特征在于,所述方法包括:
数据提供方计算第一特征与第一特征参数的第一内积,将所述第一内积发送至模型发起方;其中,所述第一特征是预先从样本用户的第一行为数据中提取的;
模型发起方计算第二特征与第二特征参数的第二内积,并计算所述第一内积与所述第二内积的内积和,基于所述内积和采用预设函数计算预测值,计算所述预测值与真实标签值的残差,对所述残差进行半同态加密,将半同态加密残差以及半同态加密的公钥发送至所述数据提供方;其中,所述第二特征是预先从所述样本用户的第二行为数据中提取的;
所述数据提供方根据半同态加密的公钥,在半同态加密下,基于所述半同态加密残差计算针对所述第一特征参数的第一梯度并增加随机掩码,得到加密掩码梯度,并将所述加密掩码梯度发送至所述模型发起方;
所述模型发起方根据半同态加密的私钥,对所述加密掩码梯度进行解密,得到掩码梯度,将所述掩码梯度发送至所述数据提供方;
所述数据提供方去除所述掩码梯度中的随机掩码,得到所述第一梯度,并基于所述第一梯度更新所述第一特征参数。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
所述模型发起方基于所述预测值与真实标签值的残差,计算针对所述第二特征参数的第二梯度,并基于该第二梯度更新所述第二特征参数。
3.根据权利要求1所述的方法,其特征在于,所述预设函数为sigmoid函数。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
所述模型发起方将所述预测值和所述真实标签值代入预设损失函数,计算损失值;
根据所述损失值判断回归模型是否收敛,若收敛,则确定所述回归模型训练完成;
若未收敛,则告知所述数据提供方,以使所述数据提供方返回执行所述计算第一特征与第一特征参数的第一内积,把所述第一内积发送至模型发起方的步骤。
5.根据权利要求4所述的方法,其特征在于,所述预设损失函数为:
Figure FDA0003004432240000021
其中,Jθ表示预设损失函数,i表示样本用户的编号,n表示样本用户的数目,yi表示编号为i的样本用户的真实标签值,xi表示所述内积和,hΘ(·)表示sigmoid函数。
6.根据权利要求1所述的方法,其特征在于,所述样本用户的数目为n,所述第一特征的特征维度为m,所述回归模型的迭代训练轮数为r;
所述样本用户的数目、所述第一特征的特征维度和所述迭代训练轮数满足如下条件:
Figure FDA0003004432240000022
7.根据权利要求1-6任一项所述的方法,其特征在于,所述回归模型为逻辑斯蒂回归算法。
8.一种纵向联邦学习中基于回归模型的预测方法,其特征在于,所述方法包括:
数据提供方计算第一特征与第一特征参数的第一内积,将所述第一内积发送至模型发起方;其中,第一特征是预先从待预测用户的第一行为数据中提取的;第一特征参数是预先训练完成的;
模型发起方计算第二特征与第二特征参数的第二内积,并计算所述第一内积与所述第二内积的内积和,基于所述内积和采用预设函数计算预测结果;其中,所述第二特征是预先从所述待预测用户的第二行为数据中提取的;所述第二特征参数是预先训练完成的。
9.一种纵向联邦学习中无可信第三方的回归模型训练系统,其特征在于,所述系统包括:模型发起方和至少一个数据提供方,
所述数据提供方,用于数据提供方计算第一特征与第一特征参数的第一内积,将所述第一内积发送至模型发起方;其中,所述第一特征是预先从样本用户的第一行为数据中提取的;
所述模型发起方,用于计算第二特征与第二特征参数的第二内积,并计算所述第一内积与所述第二内积的内积和,基于所述内积和采用预设函数计算预测值,计算所述预测值与真实标签值的残差,对所述残差进行半同态加密,将半同态加密残差以及半同态加密的公钥发送至所述数据提供方;其中,所述第二特征是预先从所述样本用户的第二行为数据中提取的;
所述数据提供方,还用于根据半同态加密的公钥,在半同态加密下,基于所述半同态加密残差计算针对所述第一特征参数的第一梯度并增加随机掩码,得到加密掩码梯度,并将所述加密掩码梯度发送至所述模型发起方;
所述模型发起方,还用于根据半同态加密的私钥,对所述加密掩码梯度进行解密,得到掩码梯度,将所述掩码梯度发送至所述数据提供方;
所述数据提供方,还用于去除所述掩码梯度中的随机掩码,得到所述第一梯度,并基于所述第一梯度更新所述第一特征参数。
10.根据权利要求9所述的系统,其特征在于,
所述模型发起方,还用于基于所述预测值与真实标签值的残差,计算针对所述第二特征参量的第二梯度,并基于该第二梯度更新所述第二特征参数。
CN202110358220.1A 2021-04-01 2021-04-01 纵向联邦学习中无可信第三方的回归模型训练方法及系统 Pending CN112906912A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110358220.1A CN112906912A (zh) 2021-04-01 2021-04-01 纵向联邦学习中无可信第三方的回归模型训练方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110358220.1A CN112906912A (zh) 2021-04-01 2021-04-01 纵向联邦学习中无可信第三方的回归模型训练方法及系统

Publications (1)

Publication Number Publication Date
CN112906912A true CN112906912A (zh) 2021-06-04

Family

ID=76110371

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110358220.1A Pending CN112906912A (zh) 2021-04-01 2021-04-01 纵向联邦学习中无可信第三方的回归模型训练方法及系统

Country Status (1)

Country Link
CN (1) CN112906912A (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239391A (zh) * 2021-07-13 2021-08-10 深圳市洞见智慧科技有限公司 一种无第三方的逻辑回归联邦学习模型训练系统及方法
CN113516256A (zh) * 2021-09-14 2021-10-19 深圳市洞见智慧科技有限公司 基于秘密共享、同态加密的无第三方联邦学习方法及系统
CN113935050A (zh) * 2021-09-26 2022-01-14 平安科技(深圳)有限公司 基于联邦学习的特征提取方法和装置、电子设备、介质
CN113989036A (zh) * 2021-12-30 2022-01-28 百融至信(北京)征信有限公司 一种不暴露入模变量的联邦学习预测方法及系统
CN114186263A (zh) * 2021-12-17 2022-03-15 大连理工大学 一种基于纵向联邦学习的数据回归方法及电子装置
CN114282692A (zh) * 2022-03-08 2022-04-05 富算科技(上海)有限公司 一种纵向联邦学习的模型训练方法及系统
CN114330759A (zh) * 2022-03-08 2022-04-12 富算科技(上海)有限公司 一种纵向联邦学习模型的训练方法及系统
CN114429223A (zh) * 2022-01-26 2022-05-03 上海富数科技有限公司 异构模型建立方法及装置
CN114547643A (zh) * 2022-01-20 2022-05-27 华东师范大学 一种基于同态加密的线性回归纵向联邦学习方法
CN114611128A (zh) * 2022-03-15 2022-06-10 北京字节跳动网络技术有限公司 一种纵向联邦学习方法、装置、系统、设备及存储介质
CN114696990A (zh) * 2022-05-31 2022-07-01 深圳市洞见智慧科技有限公司 基于全同态加密的多方计算方法、系统及相关设备
CN115021985A (zh) * 2022-05-23 2022-09-06 北京融数联智科技有限公司 一种无需第三方参与的逻辑回归模型训练方法及系统
CN115169589A (zh) * 2022-09-06 2022-10-11 北京瑞莱智慧科技有限公司 一种参数更新方法、数据处理方法及相关设备
CN115409096A (zh) * 2022-08-17 2022-11-29 北京融数联智科技有限公司 两方泊松回归隐私计算模型训练方法、装置和存储介质
CN115409095A (zh) * 2022-08-17 2022-11-29 北京融数联智科技有限公司 多方泊松回归隐私计算模型训练方法、装置和存储介质
CN115580496A (zh) * 2022-12-09 2023-01-06 北京融数联智科技有限公司 无需第三方的隐私计算下逻辑回归训练方法、系统及装置
WO2023134077A1 (zh) * 2022-01-17 2023-07-20 平安科技(深圳)有限公司 基于联邦因子分解机的同态加密方法、系统、设备及存储介质
CN116882571A (zh) * 2023-07-12 2023-10-13 南京邮电大学 一种基于安全纵向联邦回归模型的烟草销售违规信息预测方法
CN117131443A (zh) * 2023-09-06 2023-11-28 上海零数众合信息科技有限公司 联邦多目标分类方法及系统
CN117648999A (zh) * 2024-01-30 2024-03-05 上海零数众合信息科技有限公司 联邦学习回归模型损失函数评估方法、装置及电子设备
CN118282610B (zh) * 2024-05-31 2024-09-27 南京邮电大学 一种算力网络隐私保护联邦学习方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109886417A (zh) * 2019-03-01 2019-06-14 深圳前海微众银行股份有限公司 基于联邦学习的模型参数训练方法、装置、设备及介质
CN110704860A (zh) * 2019-11-18 2020-01-17 深圳前海微众银行股份有限公司 提升安全性的纵向联邦学习方法、设备、系统及存储介质
CN111415015A (zh) * 2020-03-27 2020-07-14 支付宝(杭州)信息技术有限公司 业务模型训练方法、装置、系统及电子设备
CN112182595A (zh) * 2019-07-03 2021-01-05 北京百度网讯科技有限公司 基于联邦学习的模型训练方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109886417A (zh) * 2019-03-01 2019-06-14 深圳前海微众银行股份有限公司 基于联邦学习的模型参数训练方法、装置、设备及介质
CN112182595A (zh) * 2019-07-03 2021-01-05 北京百度网讯科技有限公司 基于联邦学习的模型训练方法及装置
CN110704860A (zh) * 2019-11-18 2020-01-17 深圳前海微众银行股份有限公司 提升安全性的纵向联邦学习方法、设备、系统及存储介质
CN111415015A (zh) * 2020-03-27 2020-07-14 支付宝(杭州)信息技术有限公司 业务模型训练方法、装置、系统及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SHENGWEN YANG等: "Parallel Distributed Logistic Regression for Vertical Federated Learning without Third-Party Coordinator", 《ARXIV》 *

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239391A (zh) * 2021-07-13 2021-08-10 深圳市洞见智慧科技有限公司 一种无第三方的逻辑回归联邦学习模型训练系统及方法
CN113516256A (zh) * 2021-09-14 2021-10-19 深圳市洞见智慧科技有限公司 基于秘密共享、同态加密的无第三方联邦学习方法及系统
CN113935050A (zh) * 2021-09-26 2022-01-14 平安科技(深圳)有限公司 基于联邦学习的特征提取方法和装置、电子设备、介质
CN114186263B (zh) * 2021-12-17 2024-05-03 大连理工大学 一种基于纵向联邦学习的数据回归方法及电子装置
CN114186263A (zh) * 2021-12-17 2022-03-15 大连理工大学 一种基于纵向联邦学习的数据回归方法及电子装置
CN113989036A (zh) * 2021-12-30 2022-01-28 百融至信(北京)征信有限公司 一种不暴露入模变量的联邦学习预测方法及系统
CN113989036B (zh) * 2021-12-30 2022-03-18 百融至信(北京)征信有限公司 一种不暴露入模变量的联邦学习预测方法及系统
WO2023134077A1 (zh) * 2022-01-17 2023-07-20 平安科技(深圳)有限公司 基于联邦因子分解机的同态加密方法、系统、设备及存储介质
CN114547643B (zh) * 2022-01-20 2024-04-19 华东师范大学 一种基于同态加密的线性回归纵向联邦学习方法
CN114547643A (zh) * 2022-01-20 2022-05-27 华东师范大学 一种基于同态加密的线性回归纵向联邦学习方法
CN114429223A (zh) * 2022-01-26 2022-05-03 上海富数科技有限公司 异构模型建立方法及装置
CN114429223B (zh) * 2022-01-26 2023-11-07 上海富数科技有限公司 异构模型建立方法及装置
CN114330759B (zh) * 2022-03-08 2022-08-02 富算科技(上海)有限公司 一种纵向联邦学习模型的训练方法及系统
CN114330759A (zh) * 2022-03-08 2022-04-12 富算科技(上海)有限公司 一种纵向联邦学习模型的训练方法及系统
CN114282692A (zh) * 2022-03-08 2022-04-05 富算科技(上海)有限公司 一种纵向联邦学习的模型训练方法及系统
CN114611128A (zh) * 2022-03-15 2022-06-10 北京字节跳动网络技术有限公司 一种纵向联邦学习方法、装置、系统、设备及存储介质
WO2023174018A1 (zh) * 2022-03-15 2023-09-21 北京字节跳动网络技术有限公司 一种纵向联邦学习方法、装置、系统、设备及存储介质
CN114611128B (zh) * 2022-03-15 2023-06-06 抖音视界有限公司 一种纵向联邦学习方法、装置、系统、设备及存储介质
CN115021985A (zh) * 2022-05-23 2022-09-06 北京融数联智科技有限公司 一种无需第三方参与的逻辑回归模型训练方法及系统
CN115021985B (zh) * 2022-05-23 2023-06-16 北京融数联智科技有限公司 一种无需第三方参与的逻辑回归模型训练方法及系统
CN114696990A (zh) * 2022-05-31 2022-07-01 深圳市洞见智慧科技有限公司 基于全同态加密的多方计算方法、系统及相关设备
CN115409095A (zh) * 2022-08-17 2022-11-29 北京融数联智科技有限公司 多方泊松回归隐私计算模型训练方法、装置和存储介质
CN115409096B (zh) * 2022-08-17 2023-06-16 北京融数联智科技有限公司 两方泊松回归隐私计算模型训练方法、装置和存储介质
CN115409096A (zh) * 2022-08-17 2022-11-29 北京融数联智科技有限公司 两方泊松回归隐私计算模型训练方法、装置和存储介质
CN115169589A (zh) * 2022-09-06 2022-10-11 北京瑞莱智慧科技有限公司 一种参数更新方法、数据处理方法及相关设备
CN115580496B (zh) * 2022-12-09 2023-03-28 北京融数联智科技有限公司 无需第三方的隐私计算下逻辑回归训练方法、系统及装置
CN115580496A (zh) * 2022-12-09 2023-01-06 北京融数联智科技有限公司 无需第三方的隐私计算下逻辑回归训练方法、系统及装置
CN116882571A (zh) * 2023-07-12 2023-10-13 南京邮电大学 一种基于安全纵向联邦回归模型的烟草销售违规信息预测方法
CN116882571B (zh) * 2023-07-12 2023-12-12 南京邮电大学 一种基于安全纵向联邦回归模型的烟草销售违规信息预测方法
CN117131443A (zh) * 2023-09-06 2023-11-28 上海零数众合信息科技有限公司 联邦多目标分类方法及系统
CN117648999A (zh) * 2024-01-30 2024-03-05 上海零数众合信息科技有限公司 联邦学习回归模型损失函数评估方法、装置及电子设备
CN117648999B (zh) * 2024-01-30 2024-04-23 上海零数众合信息科技有限公司 联邦学习回归模型损失函数评估方法、装置及电子设备
CN118282610B (zh) * 2024-05-31 2024-09-27 南京邮电大学 一种算力网络隐私保护联邦学习方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN112906912A (zh) 纵向联邦学习中无可信第三方的回归模型训练方法及系统
US12056582B2 (en) Method and device for training a model based on federated learning
CN111428881B (zh) 识别模型的训练方法、装置、设备及可读存储介质
CN110245510B (zh) 用于预测信息的方法和装置
US20230006809A1 (en) Homomorphic computations on encrypted data within a distributed computing environment
CN108647962B (zh) 征信系统、征信数据的存储方法、装置、设备及介质
CN113516256B (zh) 基于秘密共享、同态加密的无第三方联邦学习方法及系统
CN107704930B (zh) 基于共享数据的建模方法、装置、系统及电子设备
CN110457912B (zh) 数据处理方法、装置和电子设备
Jarrett et al. The impact of automation and artificial intelligence on digital forensics
WO2021082633A1 (zh) 实现安全防御的多方联合训练神经网络的方法及装置
WO2019173554A1 (en) Blockchain transaction safety
CN112039702B (zh) 基于联邦学习和相互学习的模型参数训练方法及装置
CN108984733B (zh) 跨域数据融合方法、系统以及存储介质
CN111291401B (zh) 基于隐私保护的业务预测模型训练方法和装置
CN113011632B (zh) 企业风险评估方法、装置、设备及计算机可读存储介质
CN112199709A (zh) 基于多方的隐私数据联合训练模型的方法和装置
CN111800411A (zh) 保护隐私的业务预测模型联合更新方法及装置
CN110837653A (zh) 标签预测方法、装置以及计算机可读存储介质
Ali et al. A Comprehensive review on cybersecurity issues and their mitigation measures in FinTech
CN113987512B (zh) 一种信息系统安全风险评估方法
CN112541574B (zh) 保护隐私的业务预测方法及装置
CN115018087A (zh) 一种多方纵向逻辑回归算法模型的训练方法及系统
CN113139796B (zh) 基于纵向联邦学习的推荐方法及装置
CN110943846A (zh) 新型基于环签名技术的异构身份联盟用户信誉值传递方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210604

RJ01 Rejection of invention patent application after publication