CN109388662A - 一种基于共享数据的模型训练方法及装置 - Google Patents

一种基于共享数据的模型训练方法及装置 Download PDF

Info

Publication number
CN109388662A
CN109388662A CN201710652323.2A CN201710652323A CN109388662A CN 109388662 A CN109388662 A CN 109388662A CN 201710652323 A CN201710652323 A CN 201710652323A CN 109388662 A CN109388662 A CN 109388662A
Authority
CN
China
Prior art keywords
data
grad
parameter
global
mining side
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710652323.2A
Other languages
English (en)
Other versions
CN109388662B (zh
Inventor
李龙飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201710652323.2A priority Critical patent/CN109388662B/zh
Publication of CN109388662A publication Critical patent/CN109388662A/zh
Application granted granted Critical
Publication of CN109388662B publication Critical patent/CN109388662B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

公开了一种基于共享数据的模型训练方法及装置。该方案用于根据海量数据样本训练数据模型,其中数据样本来源于多个数据提供方,由于不同的数据提供方可以分别从不同的维度提供数据样本特征,因此将各个数据提供方的共享的数据整合后,可以形成特征维度更丰富的数据样本,从而训练出效果更佳的数据模型,同时可以保证数据共享的安全性问题。

Description

一种基于共享数据的模型训练方法及装置
技术领域
本说明书实施例涉及数据挖掘技术领域,尤其涉及一种基于共享数据的模型训练方法及装置。
背景技术
在大数据时代,通过对海量数据进行挖掘,可以获得各种形式的有用信息,因此数据的重要性不言而喻。不同的机构都拥有各自的数据,但是任何一家机构的数据挖掘效果,都会受限于其自身拥有的数据数量和种类。针对该问题,一种直接的解决思路是:多家机构相互合作,将数据进行共享,从而实现更好的数据挖掘效果,实现共赢。
然而对于数据拥有方而言,数据本身是一种具有很大价值的资产,而且出于保护隐私、防止泄露等需求,数据拥有方往往并不愿意直接把数据提供出来,这种状况导致“数据共享”在现实中很难实际运作。因此,如何在充分保证数据安全的前提下实现数据共享,已经成为行业内备受关注的问题。
发明内容
针对上述技术问题,本说明书实施例提供一种基于共享数据的模型训练方法及装置,技术方案如下:
根据本说明书实施例的第一方面,提供一种基于共享数据的模型训练方法,数据挖掘方维护全局参数集Wglobal=(W1,W2,…,WU),其中Wu(u=1、2…U)为对应于数据提供方u的自有数据特征Xu的参数集;
所述方法包括:利用以下步骤进行迭代训练,直到满足模型训练要求:
任一数据提供方u从数据挖掘方下载Wu,利用具有特征Xu的本地数据以及下载得到的Wu计算gradu,并将gradu上传至数据挖掘方,其中gradu为模型代价函数J(w)的关于数据特征Xu的梯度值;
数据挖掘方获得各数据提供方u上传的gradu,利用gradu以及参数更新公式对Wglobal进行更新;其中,所述参数更新公式根据JN(w)确定,JN(w)为对J(w)添加噪声处理后的模型代价函数,且JN(w)满足差分隐私定义。
根据本说明书实施例的第二方面,提供一种基于共享数据的模型训练方法,数据挖掘方维护全局参数集Wglobal=(W1,W2,…,WU),其中Wu(u=1、2…U)为对应于数据提供方u的自有数据特征Xu的参数集;
所述方法包括:利用以下步骤进行迭代训练,直到满足模型训练要求:
任一数据提供方u从数据挖掘方下载Wu,利用具有特征Xu的本地数据以及下载得到的Wu计算gradu;所述gradu为模型代价函数J(w)的梯度;
将gradu上传至数据挖掘方,以使得数据挖掘方利用各数据提供方u上传的gradu以及参数更新公式对Wglobal进行更新;所述参数更新公式根据JN(w)确定,JN(w)为对J(w)添加噪声处理后的模型代价函数,且JN(w)满足差分隐私定义。
根据本说明书实施例的第三方面,提供一种基于共享数据的模型训练方法,数据挖掘方维护全局参数集Wglobal=(W1,W2,…,WU),其中Wu(u=1、2…U)为对应于数据提供方u的自有数据特征Xu的参数集;
所述方法包括:利用以下步骤进行迭代训练,直到满足模型训练要求:
数据挖掘方向各数据提供方u提供Wu,以使得数据提供方u利用具有特征Xu的本地数据以及下载得到的Wu计算gradu;所述gradu为模型代价函数J(w)的梯度;
接收数据提供方u上传的gradu,利用gradu以及参数更新公式对Wglobal进行更新;其中,所述参数更新公式根据JN(w)确定,JN(w)为对J(w)添加噪声处理后的模型代价函数,且JN(w)满足差分隐私定义。
根据本说明书实施例的第四方面,提供一种基于共享数据的模型训练系统,包括数据挖掘方和数据提供方,数据挖掘方维护全局参数集Wglobal=(W1,W2,…,WU),其中Wu(u=1、2…U)为对应于数据提供方u的自有数据特征Xu的参数集;
所述数据挖掘方和数据提供方利用以下步骤进行迭代训练,直到满足模型训练要求:
任一数据提供方u从数据挖掘方下载Wu,利用具有特征Xu的本地数据以及下载得到的Wu计算gradu,并将gradu上传至数据挖掘方,其中gradu为模型代价函数J(w)的关于数据特征Xu的梯度值;
数据挖掘方获得各数据提供方u上传的gradu,利用gradu以及参数更新公式对Wglobal进行更新;其中,所述参数更新公式根据JN(w)确定,JN(w)为对J(w)添加噪声处理后的模型代价函数,且JN(w)满足差分隐私定义。
根据本说明书实施例的第五方面,提供一种基于共享数据的模型训练装置,应用于数据提供方;其中数据挖掘方维护全局参数集Wglobal=(W1,W2,…,WU),其中Wu(u=1、2…U)为对应于数据提供方u的自有数据特征Xu的参数集;
所述装置包括以下用于实现迭代训练的模块:
参数下载模块,用于从数据挖掘方下载Wu
梯度值计算模块,用于利用具有特征Xu的本地数据以及下载得到的Wu计算gradu;所述gradu为模型代价函数J(w)的梯度值;
梯度值上传模块,用于将gradu上传至数据挖掘方,以使得数据挖掘方利用各数据提供方u上传的gradu以及参数更新公式对Wglobal进行更新;所述参数更新公式根据JN(w)确定,JN(w)为对J(w)添加噪声处理后的模型代价函数,且JN(w)满足差分隐私定义。
根据本说明书实施例的第六方面,提供一种基于共享数据的模型训练装置,应用于数据挖掘方,所述数据挖掘方维护全局参数集Wglobal=(W1,W2,…,WU),其中Wu(u=1、2…U)为对应于数据提供方u的自有数据特征Xu的参数集;
所述装置包括以下用于实现迭代训练的模块:
参数提供模块,用于向各数据提供方u提供Wu,以使得数据提供方u利用具有特征Xu的本地数据以及下载得到的Wu计算gradu;所述gradu为模型代价函数J(w)的梯度;
梯度值接收模块,用于接收数据提供方u上传的gradu
参数更新模块,用于利用gradu以及参数更新公式对Wglobal进行更新;其中,所述参数更新公式根据JN(w)确定,JN(w)为对J(w)添加噪声处理后的模型代价函数,且JN(w)满足差分隐私定义。
本说明书实施例所提供的技术方案,一方面,数据提供方上传到数据挖掘方的仅仅是梯度值,并不包含原始数据;另一方面,对模型本身也进行了加噪处理,保证不会泄密,同时可以保证加噪后的模型训练结果和原始结果相比并无太大损失。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书实施例。
此外,本说明书实施例中的任一实施例并不需要达到上述的全部效果。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是数据共享合作模式示意图;
图2是本说明书实施例的模型训练系统的架构的示意图;
图3是本说明书实施例的一种训练方法的流程示意图;
图4是本说明书实施例的另一种训练方法的流程示意图;
图5是本说明书实施例的一种模型训练装置的结构示意图;
图6是本说明书实施例的另一种模型训练装置的结构示意图;
图7是本说明书实施例的一种计算机设备的结构示意图。
具体实施方式
为了使本领域技术人员更好地理解本说明书实施例中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行详细地描述,显然,所描述的实施例仅仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于保护的范围。
如图1所示,在“数据共享”这一合作模式中,涉及到几个角色:数据提供方、数据挖掘方、数据攻击方。多个数据提供方共同将数据交给数据挖掘方进行数据共享挖掘,但是为了保护数据隐私,并不希望把数据原封不动地提供给数据挖掘方。另一方面,数据提供方还需要防止数据攻击方窃取数据。从广义上看,对于任意数据提供方而言,数据挖掘方和其他数据提供方实际上都构成潜在的攻击方。
因此,实现数据共享安全的基本需求至少应包括两方面:首先,数据提供方不对数据挖掘方提供原始数据;另外,允许任意数据提供方从数据挖掘方获得一些全局信息,但是无法利用该全局信息和自身已知的数据推测出其他数据提供方的数据。
针对上述需求,本说明书实施例提供一种基于数据共享的模型训练方案。该方案用于根据海量数据样本训练数据模型,其中数据样本来源于多个数据提供方,由于不同的数据提供方可以分别从不同的维度提供数据样本特征,因此将各个数据提供方的共享的数据整合后,可以形成特征维度更丰富的数据样本,从而训练出效果更佳的数据模型。而为了解决数据共享的安全问题,采用以下两方面设计:
一方面,各个数据提供方根据本地数据计算模型训练过程中所需的梯度值,然后将梯度值上传至数据挖掘方。数据挖掘方获得各数据提供方上传的梯度值后,对模型参数进行统一更新。整个过程中数据提供方仅需对外提供梯度值,不需要提供原始数据。
另一方面,由于模型训练是一个反复迭代的过程,各个数据提供方在计算梯度值时,需要将当前最新的模型参数下载到本地,为了避免某个数据提供方通过撞库等方式获得其他数据提供方的数据,数据挖掘方在将模型参数提供给数据挖掘方下载之前,先对模型参数添加一定程度的随机化噪声,使得数据提供方无法直接根据下载到的模型参数推测出其他数据提供方的具体数据。
下面首先对本说明书实施例提供的数据共享系统的架构进行介绍,参见图2所示。假设共有U个数据提供方:1、2…U,共同向数据挖掘方提供数据,以供数据挖掘方训练出一个全局模型。整体的数据共享工作原理如下:
各个数据提供方u(u=1、2…U)分别可以提供包含不同特征的数据,全局模型中则包括了各个数据提供方所提供的特征。为了提高数据安全性,各个数据提供方u并不将自己所拥有的数据上传至数据挖掘方进行训练,而是在本地计算训练模型所需的梯度值,并将训练得到的梯度值上传至数据挖掘方。数据挖掘方则对各个数据提供方u所上传的梯度值进行汇总,并更新全局参数,通过反复迭代使得全局参数收敛,得到全局模型。
在上述方案中,各个数据提供方分别维护自己的参数集合,数据挖掘方维护全局参数集合,为便于描述,本说明书定义如下:
各个数据提供方u(u=1、2…U)分别可以提供包含不同特征X1,X2,…,XU的数据,将Xu称为数据提供方u的自有特征、将Wu称为数据提供方u的自有参数。每个Xu可以包括一个或多个特征,例如:
数据提供方1:
提供数据特征:(x1 1,x2 1,x3 1,…),记为(x1,x2,x3,…)1→X1
对应的参数:(w1 1,w2 1,w3 1,…),记为(w1,w2,w3,…)1→W1
特征数量为N1
数据提供方2:
提供数据特征:(x1 2,x2 2,x3 2,…),记为(x1,x2,x3,…)2→X2
对应的参数:(w1 2,w2 2,w3 2,…),记为(w1,w2,w3,…)2→W2
特征数量为N2
……
数据提供方U:
提供数据特征:(x1 U,x2 U,x3 U,…),记为(x1,x2,x3,…)U→XU
对应的参数:(w1 U,w2 U,w3 U,…),记为(w1,w2,w3,…)U→W U
特征数量为NU
全局模型是根据特征集合Xglobal=(X1,X2,…,XU)训练得到,相应的全局参数为Wglobal=(W1,W2,…,WU),总的特征数量L=Nglobal=N1+N2+…+NU
实际应用中,上述Wu的表达式中,还可以包含一常数项参数w0,为了便于统一表示,可以将w0理解为特征x0对应的参数、且特征x0的特征值恒等于1。这样,无论是否存在常数项参数,参数数量与特征数量都是一致的。因此本说明书中对于参数集和特征集的表达式应理解为同时涵盖了“有常数项参数”和“无常数项参数”两种情况。
数据模型的训练,是通过反复迭代寻找最佳模型参数值的过程,每次迭代都会更新模型参数,直到更新的模型参数满足训练要求,则训练结束。在本说明书提供的数据共享架构中,模型训练过程是由数据挖掘方和多个数据提供方配合完成,具体而言,一次迭代过程中,数据提供方和数据挖掘方分别执行以下步骤:
任一数据提供方u(u=1、2…U)从数据挖掘方下载最新的Wu,利用本地数据以及下载得到的Wu计算梯度值gradu,然后将计算得到gradu上传至数据挖掘方。这里的gradu是指模型代价函数J(w)的关于数据特征Xu的梯度值;关于模型代价函数J(w),将在本说明书后面实施例做进一步说明。
数据挖掘方获得各数据提供方u上传的gradu,利用各gradu分别更新Wu,从而实现Wglobal=(W1,W2,…,WU)的整体更新。
重复执行上述步骤进行参数更新,直到满足模型训练要求。
为了避免某个数据提供方根据下载到本地的模型参数推测出其他数据提供方的具体数据,数据挖掘方在迭代过程中,对模型参数添加随机化噪声。在本说明书提供的实施方式中,采用差分隐私(Differential Privacy)技术实现噪声添加。
差分隐私是一种隐私保护技术,它通过对数据添加干扰噪声的方式保护所发布数据中潜在的用户隐私信息,从而达到即便攻击者已经掌握了除某一条信息以外的其他信息,该攻击者仍然无法推测出这条信息。由于在基于数据共享的机器学习场景中,多方需要反复交换信息以实现模型训练,因此使用差分隐私技术可以有效地保证数据安全。下面将对机器学习场景中差分隐私技术的应用方案进行说明:
假设给定一个模型函数:
fW(x)=f(w1x1+w2x2+...+wLxL)
其中x1,x2…xL为L个数据特征,w1,w2…wL为各特征对应的参数。在模型训练的过程中,需要使用代价函数cost function(也称损失函数loss function、目标函数objectivefunction对模型的优劣进行评价,代价函数一般用J(w)表示,是一个关于数据的数据样本的函数值fw(xi)与标签值yi(也称真实值)的函数,即:
J(w)=J(fw(xi),yi)
J(w)的值越小,说明fW(x)对训练数据的拟合效果越好。因此,可以将模型训练的过程理解为一个“寻找一组参数w1,w2…wL,使得代价函数J(w)达到最小”的过程。实际应用中,代价函数J(w)的可用形式有很多,例如均方差函数、交差熵函数、hinge loss函数等等,在本说明书中,并不对代价函数的具体形式进行限定。
为了找到代价函数J(w)的最小值,常用的方法是采用梯度下降法(GradientDescent),即根据形如:
的更新公式,对参数进行迭代更新,直到找到一组w1,w2…wL使得代价函数J(w)达到最小(足够小)。其中a为设定的学习率,为J(w)的关于数据特征xk的梯度值。
由于梯度值计算需要使用数据的特征值,因此数据共享架构中,由各个数据挖掘方u分别计算关于自有特征Xu的梯度值gradu,由于数据提供方u可以提供的数据包含的特征数量为Nu,因此gradu是一个长度为Nu的向量。数据挖掘方可以根据gradu利用公式(1)对Wu进行更新,进而得到Wglobal=(W1,W2,…,WU)的更新值,其中Wglobal的总特征数量L=N1+N2+…+NU
为了实现差分隐私,可以对代价函数J(w)添加噪声,形式如下:
JN(w)=J(w)+N(w) (2)
其中JN(w)需要满足差分隐私定义,关于差分隐私的定义可以参考现有技术,在本说明书中不做展开说明。为提供示意性说明,本说明书中提供一种满足差分隐私定义的JN(w)的设计方法如下:
a)定义两个参数:ε和c,用来确定需要添加的噪声的强度。
b)定义εp如下:
其中n为参与运算的样本数量。
c)从均值为0、方差为1的标准高斯分布中,采样出一个长度为L的向量η,L为Wglobal中包含的参数总数,L=N1+N2+…+NU
d)从α=L、的伽马分布中采样出一个标量φ;
e)令beta=η*φ,并且定义
其中w为长度为L的向量,其中beta=η*φ;
f)根据公式(2)和公式(4)得到添加噪声处理后的代价函数:
根据公式(1)和公式(5),可以得到JN(w)对应的参数更新公式为:
其中即为J(w)的关于数据特征xk的梯度值,在数据共享架构中,每个数据提供方u可以分别计算关于自有特征Xu的梯度值gradu,gradu上传值数据挖掘方后,数据挖掘方根据公式(5.1),就可以更新得到Wglobal=(W1,W2,…,WU)的更新值,更新公式为:
其中betau为beta中对应于Wu的分量。
在实际应用中,为了避免出现过拟合和情况,往往会对代价函数J(w)进行正则化处理,形式如下:
这里J0(w)是指未经正则化处理的代价函数,例如均方差函数、交差熵函数、hingeloss函数等等,是惩罚项,其中λ为2范数的约束系数。由代价函数的定义可知:如果要最小化这个函数,需要令惩罚项足够小,而当λ取值较大时,就需要令各个参数值足够小。事实上,这些参数的值越小,通常对应于越光滑的函数,也就是更加简单的函数,因此就不易发生过拟合的问题。
在本说明书的一个实施例中,如果选用了正则化处理后的代价函数,则根据公式(5)和公式(6)可得添加噪声处理后的代价函数JN(w):
对应的参数更新公式为:
转换为数据共享架构中的参数更新公式形式为:
在本说明书的另一个实施例中,如果选用了正则化处理后的代价函数,可以进一步对惩罚项部分进行噪声添加处理,添加噪声处理后的代价函数JN(w)形式如下:
其中,
对应的参数更新公式为:
转换为数据共享架构中的参数更新公式形式为:
可以证明,公式(5)、公式(7)、公式(8)中的JN(w)都是满足差分隐私定义的,而且JN(w)对应的参数更新公式也都是满足差分隐私定义的,(证明的过程在本说明书中不做详细说明)。
图3和图4分别示出了在一次迭代过程中,数据提供方和数据挖掘方执行的方法流程。
数据提供方(任一数据提供方u):
S101,从数据挖掘方下载Wu
S102,利用具有特征Xu的本地数据以及下载得到的Wu计算gradu
S103,将gradu上传至数据挖掘方,以使得数据挖掘方利用各数据提供方u上传的gradu以及参数更新公式对Wglobal进行更新。
数据挖掘方:
S201,向各数据提供方u提供Wu,以使得数据提供方u利用具有特征Xu的本地数据以及下载得到的Wu计算gradu
S202,接收数据提供方u上传的gradu
S203,利用gradu以及参数更新公式对Wglobal进行更新。
可以理解的是,在仅有1个数据提供方向数据挖掘方提供数据(即U=1)的情况下,仍然可以采用本说明书提供的方案。这种情况可以适用于某个数据提供方委托数据挖掘方进行数据挖掘、并且不希望向数据挖掘方泄露具体数据细节的应用场景。
另外,当存在多个数据提供方向数据挖掘方提供数据、且其中有部分数据提供方对数据没有保密需求时,则对于没有保密需求的数据提供方,可以直接将数据提供给数据挖掘方。本说明书中对于没有保密需求的数据提供方的处理方式不需要进行限定。当然,从数据隐私的角度来看,这里的“没有保密需求”一般并不是绝对意义上的,例如可以是在数据挖掘方内部没有保密需求:假设某数据提供方与数据挖掘方具有深度合作关系、或者数据挖掘方自己也具有一部数据可以用来参与全局模型训练(可以认为数据挖掘方自己就是数据提供方之一),则对于数据挖掘方而言,这些没有保密需求的数据可以直接使用参与模型训练。
下面结合一个具体的实例,对本说明书实施例的方案进行说明;
假设整体训练需求是:根据两家银行机构提供的用户资产数据,建立一个“预测用户是否有能力按期偿还高额贷款”的模型。
银行1可以提供的数据特征为X1=(x1,x2,x3);
银行2可以提供的数据特征为X2=(x4,x5);
整体建模使用逻辑斯谛回归模型,函数形式为:
其中w和x都是长度为5的向量,b为标量。
评价函数J(w)使用正则化的hinge loss函数,函数形式为:
根据公式(8.2),可以得到参数更新公式为:
其中gradu为hinge loss函数关于数据特征Xu的梯度值,
训练开始之前,数据挖掘方先对W1=(w1,w2,w3),W2=(w4,w5)进行初始化,并且配置学习率a、正则化系数λ,噪声强度参数ε和c。另外还需要统一全局标签值yi,yi值用于表示:已经有过高额贷款行为的用户i,是否能够按期偿还贷款。该信息可以从任一家银行获得,也可以从其他的贷款机构获得。
训练开始后,银行1侧处理端下载W1,银行2侧处理端下载W2,分别利用公式(11)计算梯度值后上传至数据挖掘方。可以理解的是,在实际应用中,也可以仅计算梯度表达式中与银行本地数据xi相关的部分,例如仅计算:
数据挖掘方则根据公式(8.2)对W1和W2进行更新。
重复以上迭代,直到满足模型训练条件,得到最终的参数值w1,w2,w3,w4,w5,将这些值代入公式(9),即得到需要训练的模型。
本说明书实施例所提供的技术方案,不需要完全的物理隔离即可保证数据共享的安全性:一方面,数据提供方上传到数据挖掘方的仅仅是梯度值,并不包含原始数据;另一方面,对模型本身也进行了加噪处理,保证不会泄密,同时可以保证加噪后的模型训练结果和原始结果相比并无太大损失。表1示出了一组测试对比结果,测试标准采用常见的模型评价方法AUC和K-S:
ε c AUC K-S
0.125 0.25 0.826 0.496
0.25 0.25 0.852 0.521
0.5 0.25 0.857 0.554
1 0.25 0.858 0.560
2 0.25 0.858 0.559
表1
选用一组测试数据,在不进行加噪处理的情况下,AUC评价方法的得分为0.859,K-S评价方法的得分为0.561,而选用几组不同的ε和c值进行加噪处理后,并未导致两种评价方法的得分有很大变化。
相应于上述方法实施例,本说明书实施例还提供一种基于共享数据的模型训练系统,该系统包括数据挖掘方和多个数据提供方,数据挖掘方维护全局参数集Wglobal=(W1,W2,…,WU),其中Wu(u=1、2…U)为对应于数据提供方u的自有数据特征Xu的参数集;
所述数据挖掘方和数据提供方利用以下步骤进行迭代训练,直到满足模型训练要求:
任一数据提供方u从数据挖掘方下载Wu,利用具有特征Xu的本地数据以及下载得到的Wu计算gradu,并将gradu上传至数据挖掘方,其中gradu为模型代价函数J(w)的关于数据特征Xu的梯度值;
数据挖掘方获得各数据提供方u上传的gradu,利用gradu以及参数更新公式对Wglobal进行更新;其中,所述参数更新公式根据JN(w)确定,JN(w)为对J(w)添加噪声处理后的模型代价函数,且JN(w)满足差分隐私定义。
本说明书实施例还提供一种基于共享数据的模型训练装置,应用于数据提供方;其中数据挖掘方维护全局参数集Wglobal=(W1,W2,…,WU),其中Wu(u=1、2…U)为对应于数据提供方u的自有数据特征Xu的参数集;
参见图5所示,所述装置包括以下用于实现迭代训练的模块:
参数下载模块110,用于从数据挖掘方下载Wu
梯度值计算模块120,用于利用具有特征Xu的本地数据以及下载得到的Wu计算gradu;所述gradu为模型代价函数J(w)的梯度值;
梯度值上传模块130,用于将gradu上传至数据挖掘方,以使得数据挖掘方利用各数据提供方u上传的gradu以及参数更新公式对Wglobal进行更新;所述参数更新公式根据JN(w)确定,JN(w)为对J(w)添加噪声处理后的模型代价函数,且JN(w)满足差分隐私定义。
本说明书实施例还提供一种基于共享数据的模型训练装置,应用于数据挖掘方,所述数据挖掘方维护全局参数集Wglobal=(W1,W2,…,WU),其中Wu(u=1、2…U)为对应于数据提供方u的自有数据特征Xu的参数集;
参见图6所示,所述装置包括以下用于实现迭代训练的模块:
参数提供模块210,用于向各数据提供方u提供Wu,以使得数据提供方u利用具有特征Xu的本地数据以及下载得到的Wu计算gradu;所述gradu为模型代价函数J(w)的梯度;
梯度值接收模块220,用于接收数据提供方u上传的gradu
参数更新模块230,用于利用gradu以及参数更新公式对Wglobal进行更新;其中,所述参数更新公式根据JN(w)确定,JN(w)为对J(w)添加噪声处理后的模型代价函数,且JN(w)满足差分隐私定义。
上述装置中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
本说明书实施例还提供一种计算机设备,该设备可以配置于数据挖掘方或数据提供方。其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行所述程序时实现前述的应用于数据挖掘方或数据提供方的模型训练方法。
图7示出了本说明书实施例所提供的一种更为具体的计算设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
本说明书实施例还提供一种计算机可读存储介质,该介质可以配置于数据挖掘方或数据提供方。介质上其上存储有计算机程序,该程序被处理器执行时实现前述的应用于数据挖掘方或数据提供方的模型训练方法。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本说明书实施例的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本说明书实施例原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本说明书实施例的保护范围。

Claims (12)

1.一种基于共享数据的模型训练方法,数据挖掘方维护全局参数集Wglobal=(W1,W2,…,WU),其中Wu(u=1、2…U)为对应于数据提供方u的自有数据特征Xu的参数集;
所述方法包括:利用以下步骤进行迭代训练,直到满足模型训练要求:
任一数据提供方u从数据挖掘方下载Wu,利用具有特征Xu的本地数据以及下载得到的Wu计算gradu,并将gradu上传至数据挖掘方,其中gradu为模型代价函数J(w)的关于数据特征Xu的梯度值;
数据挖掘方获得各数据提供方u上传的gradu,利用gradu以及参数更新公式对Wglobal进行更新;其中,所述参数更新公式根据JN(w)确定,JN(w)为对J(w)添加噪声处理后的模型代价函数,且JN(w)满足差分隐私定义。
2.根据权利要求1所述的方法,所述JN(w)由J(w)和N(w)共同确定,其中N(w)为噪声项,且
n为参与运算的样本数量,
w为长度为L的向量,L为Wglobal中包含的参数总数,
beta=η*φ,η为从标准高斯分布中采样出的长度为L的向量,φ为从α=L、的伽马分布中采样出的标量,
ε和c为设定的噪声参数。
3.根据权利要求2所述的方法,JN(w)=J(w)+N(w),所述J(w)为不包含正则化的代价函数,或者所述J(w)为包含正则化的代价函数。
4.根据权利要求2所述的方法,所述J(w)为包含正则化的代价函数:
其中λ为2范数的约束系数;
则所述
5.根据权利要求4所述的方法,所述参数更新公式为:
其中a为设定的学习率,betau为beta中对应于Wu的分量。
6.一种基于共享数据的模型训练方法,数据挖掘方维护全局参数集Wglobal=(W1,W2,…,WU),其中Wu(u=1、2…U)为对应于数据提供方u的自有数据特征Xu的参数集;
所述方法包括:利用以下步骤进行迭代训练,直到满足模型训练要求:
任一数据提供方u从数据挖掘方下载Wu,利用具有特征Xu的本地数据以及下载得到的Wu计算gradu;所述gradu为模型代价函数J(w)的梯度;
将gradu上传至数据挖掘方,以使得数据挖掘方利用各数据提供方u上传的gradu以及参数更新公式对Wglobal进行更新;所述参数更新公式根据JN(w)确定,JN(w)为对J(w)添加噪声处理后的模型代价函数,且JN(w)满足差分隐私定义。
7.一种基于共享数据的模型训练方法,数据挖掘方维护全局参数集Wglobal=(W1,W2,…,WU),其中Wu(u=1、2…U)为对应于数据提供方u的自有数据特征Xu的参数集;
所述方法包括:利用以下步骤进行迭代训练,直到满足模型训练要求:
数据挖掘方向各数据提供方u提供Wu,以使得数据提供方u利用具有特征Xu的本地数据以及下载得到的Wu计算gradu;所述gradu为模型代价函数J(w)的梯度;
接收数据提供方u上传的gradu,利用gradu以及参数更新公式对Wglobal进行更新;其中,所述参数更新公式根据JN(w)确定,JN(w)为对J(w)添加噪声处理后的模型代价函数,且JN(w)满足差分隐私定义。
8.一种基于共享数据的模型训练系统,包括数据挖掘方和多个数据提供方,数据挖掘方维护全局参数集Wglobal=(W1,W2,…,WU),其中Wu(u=1、2…U)为对应于数据提供方u的自有数据特征Xu的参数集;
所述数据挖掘方和数据提供方利用以下步骤进行迭代训练,直到满足模型训练要求:
任一数据提供方u从数据挖掘方下载Wu,利用具有特征Xu的本地数据以及下载得到的Wu计算gradu,并将gradu上传至数据挖掘方,其中gradu为模型代价函数J(w)的关于数据特征Xu的梯度值;
数据挖掘方获得各数据提供方u上传的gradu,利用gradu以及参数更新公式对Wglobal进行更新;其中,所述参数更新公式根据JN(w)确定,JN(w)为对J(w)添加噪声处理后的模型代价函数,且JN(w)满足差分隐私定义。
9.一种基于共享数据的模型训练装置,应用于数据提供方;其中数据挖掘方维护全局参数集Wglobal=(W1,W2,…,WU),其中Wu(u=1、2…U)为对应于数据提供方u的自有数据特征Xu的参数集;
所述装置包括以下用于实现迭代训练的模块:
参数下载模块,用于从数据挖掘方下载Wu
梯度值计算模块,用于利用具有特征Xu的本地数据以及下载得到的Wu计算gradu;所述gradu为模型代价函数J(w)的梯度值;
梯度值上传模块,用于将gradu上传至数据挖掘方,以使得数据挖掘方利用各数据提供方u上传的gradu以及参数更新公式对Wglobal进行更新;所述参数更新公式根据JN(w)确定,JN(w)为对J(w)添加噪声处理后的模型代价函数,且JN(w)满足差分隐私定义。
10.一种基于共享数据的模型训练装置,应用于数据挖掘方,所述数据挖掘方维护全局参数集Wglobal=(W1,W2,…,WU),其中Wu(u=1、2…U)为对应于数据提供方u的自有数据特征Xu的参数集;
所述装置包括以下用于实现迭代训练的模块:
参数提供模块,用于向各数据提供方u提供Wu,以使得数据提供方u利用具有特征Xu的本地数据以及下载得到的Wu计算gradu;所述gradu为模型代价函数J(w)的梯度;
梯度值接收模块,用于接收数据提供方u上传的gradu
参数更新模块,用于利用gradu以及参数更新公式对Wglobal进行更新;其中,所述参数更新公式根据JN(w)确定,JN(w)为对J(w)添加噪声处理后的模型代价函数,且JN(w)满足差分隐私定义。
11.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如权利要求1-6任一项所述的方法。
12.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如权利要求7所述的方法。
CN201710652323.2A 2017-08-02 2017-08-02 一种基于共享数据的模型训练方法及装置 Active CN109388662B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710652323.2A CN109388662B (zh) 2017-08-02 2017-08-02 一种基于共享数据的模型训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710652323.2A CN109388662B (zh) 2017-08-02 2017-08-02 一种基于共享数据的模型训练方法及装置

Publications (2)

Publication Number Publication Date
CN109388662A true CN109388662A (zh) 2019-02-26
CN109388662B CN109388662B (zh) 2021-05-25

Family

ID=65412081

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710652323.2A Active CN109388662B (zh) 2017-08-02 2017-08-02 一种基于共享数据的模型训练方法及装置

Country Status (1)

Country Link
CN (1) CN109388662B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977694A (zh) * 2019-03-11 2019-07-05 暨南大学 一种基于协作深度学习的数据共享方法
CN110470294A (zh) * 2019-08-09 2019-11-19 西安电子科技大学 一种虚拟测量与卡尔曼滤波融合的载体姿态估计方法
CN110955915A (zh) * 2019-12-14 2020-04-03 支付宝(杭州)信息技术有限公司 一种隐私数据的处理方法及装置
CN111461215A (zh) * 2020-03-31 2020-07-28 支付宝(杭州)信息技术有限公司 业务模型的多方联合训练方法、装置、系统及设备
CN111832596A (zh) * 2019-04-23 2020-10-27 北京新唐思创教育科技有限公司 数据处理方法、电子设备及计算机可读介质
CN114268422A (zh) * 2021-11-12 2022-04-01 国网浙江省电力有限公司宁波供电公司 一种面向电力系统的多源异构数据共享方法、系统及设备
CN114936650A (zh) * 2020-12-06 2022-08-23 支付宝(杭州)信息技术有限公司 基于隐私保护的联合训练业务模型的方法及装置
US12020154B2 (en) 2019-04-23 2024-06-25 Beijing Xintang Sichuang Education Technology Co., Ltd Data processing method, electronic device and computer-readable medium

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104216994A (zh) * 2014-09-10 2014-12-17 华中科技大学 一种列联表数据发布的隐私保护方法
WO2016074094A1 (en) * 2014-11-14 2016-05-19 Marin Litoiu Systems and methods of controlled sharing of big data
CN105653981A (zh) * 2015-12-31 2016-06-08 中国电子科技网络信息安全有限公司 大数据平台的数据流通与交易的敏感数据保护系统及方法
CN106227953A (zh) * 2016-07-26 2016-12-14 武汉大学 一种具有给定相关性的拉普拉斯噪声序列生成方法及生成器
CN106778314A (zh) * 2017-03-01 2017-05-31 全球能源互联网研究院 一种基于k‑means的分布式差分隐私保护方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104216994A (zh) * 2014-09-10 2014-12-17 华中科技大学 一种列联表数据发布的隐私保护方法
WO2016074094A1 (en) * 2014-11-14 2016-05-19 Marin Litoiu Systems and methods of controlled sharing of big data
CN105653981A (zh) * 2015-12-31 2016-06-08 中国电子科技网络信息安全有限公司 大数据平台的数据流通与交易的敏感数据保护系统及方法
CN106227953A (zh) * 2016-07-26 2016-12-14 武汉大学 一种具有给定相关性的拉普拉斯噪声序列生成方法及生成器
CN106778314A (zh) * 2017-03-01 2017-05-31 全球能源互联网研究院 一种基于k‑means的分布式差分隐私保护方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977694A (zh) * 2019-03-11 2019-07-05 暨南大学 一种基于协作深度学习的数据共享方法
CN111832596A (zh) * 2019-04-23 2020-10-27 北京新唐思创教育科技有限公司 数据处理方法、电子设备及计算机可读介质
WO2020216285A1 (zh) * 2019-04-23 2020-10-29 北京新唐思创教育科技有限公司 数据处理方法、电子设备及计算机可读介质
CN111832596B (zh) * 2019-04-23 2022-03-22 北京新唐思创教育科技有限公司 数据处理方法、电子设备及计算机可读介质
US12020154B2 (en) 2019-04-23 2024-06-25 Beijing Xintang Sichuang Education Technology Co., Ltd Data processing method, electronic device and computer-readable medium
CN110470294A (zh) * 2019-08-09 2019-11-19 西安电子科技大学 一种虚拟测量与卡尔曼滤波融合的载体姿态估计方法
CN110470294B (zh) * 2019-08-09 2020-12-18 西安电子科技大学 一种虚拟测量与卡尔曼滤波融合的载体姿态估计方法
CN110955915A (zh) * 2019-12-14 2020-04-03 支付宝(杭州)信息技术有限公司 一种隐私数据的处理方法及装置
CN111461215A (zh) * 2020-03-31 2020-07-28 支付宝(杭州)信息技术有限公司 业务模型的多方联合训练方法、装置、系统及设备
CN114936650A (zh) * 2020-12-06 2022-08-23 支付宝(杭州)信息技术有限公司 基于隐私保护的联合训练业务模型的方法及装置
CN114268422A (zh) * 2021-11-12 2022-04-01 国网浙江省电力有限公司宁波供电公司 一种面向电力系统的多源异构数据共享方法、系统及设备

Also Published As

Publication number Publication date
CN109388662B (zh) 2021-05-25

Similar Documents

Publication Publication Date Title
CN109388662A (zh) 一种基于共享数据的模型训练方法及装置
CN109388661A (zh) 一种基于共享数据的模型训练方法及装置
CN109308418A (zh) 一种基于共享数据的模型训练方法及装置
TWI712963B (zh) 推薦系統建構方法及裝置
CN111046433A (zh) 一种基于联邦学习的模型训练方法
CN113221183B (zh) 实现隐私保护的多方协同更新模型的方法、装置及系统
CN107969156B (zh) 用于处理图形数据的神经网络
US20180268306A1 (en) Using Different Data Sources for a Predictive Model
Meng et al. A seventh‐degree cubature Kalman filter
CN109327421A (zh) 数据加密、机器学习模型训练方法、装置及电子设备
AU2017101623A4 (en) Methods and Systems for providing a platform for Code-Free Blockchain Application and Smart Contract Development
Kang et al. Tricorns and Multicorns of S‐Iteration Scheme
Zhang et al. A new derivation of the cubature Kalman filters
CN112136111B (zh) 分布式资源分配
Elsadany et al. Dynamic Cournot duopoly game with delay
CN110263294B (zh) 损失函数取值的确定方法、装置和电子设备
Samko Weighted Hardy and potential operators in Morrey spaces
Darbandi et al. involving Kalman filter technique for increasing the reliability and efficiency of cloud computing
Bouezmarni et al. Gamma Kernel Estimators for Density and Hazard Rate of Right‐Censored Data
CN112989411A (zh) 隐私预算计算方法、装置、存储介质以及终端
CN108829769A (zh) 一种可疑群组发现方法和装置
CN108334494A (zh) 一种用户关系网络的构建方法和装置
CN109345252A (zh) 一种线上交易控制方法、装置、及计算机设备
CN109359117A (zh) 一种卡片数据的更新方法和装置
Valcu et al. RangeMapper: A platform for the study of macroecology of life‐history traits

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20191211

Address after: P.O. Box 31119, grand exhibition hall, hibiscus street, 802 West Bay Road, Grand Cayman, Cayman Islands

Applicant after: Innovative advanced technology Co., Ltd

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Co., Ltd.

REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40004776

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant