CN109388661B - 一种基于共享数据的模型训练方法及装置 - Google Patents

一种基于共享数据的模型训练方法及装置 Download PDF

Info

Publication number
CN109388661B
CN109388661B CN201710650740.3A CN201710650740A CN109388661B CN 109388661 B CN109388661 B CN 109388661B CN 201710650740 A CN201710650740 A CN 201710650740A CN 109388661 B CN109388661 B CN 109388661B
Authority
CN
China
Prior art keywords
data
parameters
parameter
global
updating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710650740.3A
Other languages
English (en)
Other versions
CN109388661A (zh
Inventor
赵沛霖
李龙飞
周俊
李小龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Original Assignee
Advanced New Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced New Technologies Co Ltd filed Critical Advanced New Technologies Co Ltd
Priority to CN201710650740.3A priority Critical patent/CN109388661B/zh
Priority to TW107115707A priority patent/TWI713841B/zh
Priority to PCT/US2018/044404 priority patent/WO2019027915A1/en
Priority to AU2018312231A priority patent/AU2018312231A1/en
Priority to EP18755367.2A priority patent/EP3586289B1/en
Priority to CA3057508A priority patent/CA3057508A1/en
Priority to SG11201908841W priority patent/SG11201908841WA/en
Priority to US16/053,606 priority patent/US11106802B2/en
Publication of CN109388661A publication Critical patent/CN109388661A/zh
Priority to US16/720,931 priority patent/US11106804B2/en
Application granted granted Critical
Publication of CN109388661B publication Critical patent/CN109388661B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/043Distributed expert systems; Blackboards
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Operations Research (AREA)
  • General Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • Marketing (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Educational Administration (AREA)
  • Bioethics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Neurology (AREA)
  • Molecular Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开了一种基于共享数据的模型训练方法及装置。数据挖掘方可以根据多个数据提供方提供的数据进行联合训练,并且在模型训练过程中,具体的参数迭代更新的操作是在数据提供方完成,因此数据提供方并不需要向数据挖掘方提供具体数据、仅需将每次参数更新的结果上传至数据挖掘方。

Description

一种基于共享数据的模型训练方法及装置
技术领域
本说明书实施例涉及数据挖掘技术领域,尤其涉及一种基于共享数据的模型训练方法及装置。
背景技术
在大数据时代,通过对海量数据进行挖掘,可以获得各种形式的有用信息,因此数据的重要性不言而喻。不同的机构都拥有各自的数据,但是任何一家机构的数据挖掘效果,都会受限于其自身拥有的数据数量和种类。针对该问题,一种直接的解决思路是:多家机构相互合作,将数据进行共享,从而实现更好的数据挖掘效果,实现共赢。
然而对于数据拥有方而言,数据本身是一种具有很大价值的资产,而且出于保护隐私、防止泄露等需求,数据拥有方往往并不愿意直接把数据提供出来,这种状况导致“数据共享”在现实中很难实际运作。因此,如何在充分保证数据安全的前提下实现数据共享,已经成为行业内备受关注的问题。
发明内容
针对上述技术问题,本说明书实施例提供一种基于共享数据的模型训练方法及装置,技术方案如下:
根据本说明书实施例的第一方面,提供一种基于共享数据的模型训练方法,数据挖掘方以及至少1个数据提供方分别维护针对训练样本数据特征集的模型参数,其中:
数据挖掘方维护公用参数集Wglobal;每个数据提供方u分别维护自有参数集Wu
所述方法包括:利用以下步骤进行迭代训练,直到满足模型训练要求:
数据提供方u从数据挖掘方下载公用参数,利用下载结果替换本地维护的自有参数集Wu
利用本地数据以及模型参数更新算法,对替换后得到的自有参数集Wu进行更新;
将更新结果上传至数据挖掘方,使得数据挖掘方利用数据提供方上传的更新结果更新公用参数集Wglobal
根据本说明书实施例的第二方面,提供一种基于共享数据的模型训练装置,数据挖掘方以及至少1个数据提供方分别维护针对训练样本数据特征集的模型参数,其中:
数据挖掘方维护公用参数集Wglobal;每个数据提供方u分别维护自有参数集Wu,;
所述装置包括以下用于实现迭代训练的模块:
公用参数下载模块,用于数据提供方u从数据挖掘方下载公用参数,利用下载结果替换本地维护的自有参数集Wu
自有参数更新模块,用于利用本地数据以及模型参数更新算法,对替换后得到的自有参数集Wu进行更新;
更新结果上传模块,用于将更新结果上传至数据挖掘方,使得数据挖掘方利用数据提供方上传的更新结果更新公用参数集Wglobal
根据本说明书实施例的第三方面,提供包括数据挖掘方装置以及至少1个数据提供方装置;
数据挖掘方装置和数据提供方装置分别维护针对训练样本数据特征集的模型参数,其中:
数据挖掘方维护公用参数集Wglobal;每个数据提供方u分别维护自有参数集Wu
所述数据提供方装置包括以下用于实现迭代训练的模块:
公用参数下载模块,用于数据提供方u从数据挖掘方装置下载公用参数,利用下载结果替换本地维护的自有参数集Wu
自有参数更新模块,用于利用本地数据以及模型参数更新算法,对替换后得到的自有参数集Wu进行更新;
更新结果上传模块,用于将更新结果上传至数据挖掘方装置;
所述数据挖掘方装置,用于利用数据提供方装置上传的更新结果更新公用参数集Wglobal
本说明书实施例所提供的技术方案,一方面,数据挖掘方可以根据多个数据提供方提供的数据进行联合训练,从而得到更好的训练效果;另一方面,在模型训练过程中,具体的参数迭代更新的操作是在数据提供方完成,因此数据提供方并不需要向数据挖掘方提供具体数据、仅需将每次参数更新的结果上传至数据挖掘方,从而有效地保证了共享数据提供方的数据安全性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书实施例。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是数据共享合作模式示意图;
图2是本说明书公开的模型训练系统的架构的示意图;
图3是本说明书实施例的基于共享数据的模型训练方法的流程示意图;
图4是本说明书公开的模型训练系统的架构的另一种示意图;
图5是本说明书本说明书一个实施例的模型训练系统的架构的示意图;
图6是本说明书实施例的基于共享数据的模型训练装置的结构示意图;
图7是用于配置本说明书基于共享数据的模型训练系统的结构示意图;
图8是本说明书公开一种计算机设备的结构示意图。
具体实施方式
为了使本领域技术人员更好地理解技术方案,下面将结合本说明书实施例中的附图,对本说明书的实施例中的技术方案进行详细地描述,显然,所描述的实施例仅仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本说明书的实施例保护的范围。
如图1所示,在“数据共享”这一合作模式中,涉及到几个角色:数据提供方、数据挖掘方、数据攻击方。多个数据提供方共同将数据交给数据挖掘方进行数据共享挖掘,但是为了保护数据隐私,并不希望把数据原封不动地提供给数据挖掘方。另一方面,数据提供方还需要防止数据攻击方窃取数据。从广义上看,对于任意数据提供方而言,数据挖掘方和其他数据提供方实际上都构成潜在的攻击方。
因此,实现安全数据共享的一种基本需求是:在己方数据尽量不外泄的情况下,使得数据挖掘方能够利用数据提供方的数据进行挖掘。
针对上述需求,本说明书实施例提供一种数据共享方案。该方案用于根据海量数据样本训练数据数据模型,其中数据样本来源于多个数据提供方,由于不同的数据提供方可以提供更大数量的数据样本,因此将各个数据提供方的共享数据整合后,预期可以训练得到效果更佳的数据模型。
本说明书实施例提供的一种数据共享系统的架构参见图2所示。假设共有U个数据提供方:1、2…U,共同向数据挖掘方提供数据,以供数据挖掘方训练出一个全局模型。整体的数据共享工作原理如下:
各个数据提供方u(u=1、2…U)均可以提供包含特征集合X=(x1,x2…xN)的数据,全局模型是根据特征集合X=(x1,x2…xN)训练得到,相应的模型参数集合为W=(w1,w2,…,wN),
为了提高数据安全性,各个数据提供方u并不将自己所拥有的数据上传至数据挖掘方进行训练,而是在本地进行训练,并将训练得到的参数上传至数据挖掘方。数据挖掘方则对各个数据提供方u所上传的参数进行汇总处理,从而得到全局参数模型。
在上述方案中,数据挖掘方以及U个数据提供方需要分别维护一套针对特征集X=(x1,x2…xN)的模型参数集合,为便于描述,本说明书定义如下:
将数据挖掘方维护的参数集称为公用参数集,表示为:
Wglobal=(w1 global,w2 global,…,wN global);
将任一数据提供方u维护的参数集称为u的自有参数集,表示为:
Wu=(w1 u,w2 u,…,wN u),其中u=1,2,…U;
实际应用中,上述参数集的表达式中,还可以包含一常数项参数w0,这种情况下参数集合中的参数数量为N+1,与特征数量N不一致。为了便于统一表示,可以将w0理解为特征x0对应的参数、且特征x0的特征值恒等于1。这样,无论是否存在常数项参数,参数数量与特征数量都是一致的。因此本说明书中对于参数集和特征集的表达式应理解为同时涵盖了“有常数项参数”和“无常数项参数”两种情况。
数据模型的训练,可以是是通过反复迭代寻找最佳模型参数值的过程,每次迭代都会更新模型参数,直到更新的模型参数满足训练要求,则训练结束。下面以一次完整的迭代过程对本说明书实施例方案进行说明。
在数据挖掘方和U个数据提供方,分别对模型参数进行初始化,并保存初始化的参数值。如图3所示,对于任意数据提供方u,在一次迭代过程中执行以下操作:
S101,从数据挖掘方下载公用参数,利用下载结果替换Wu
假设训练模型使用的特征数量为N,对应的参数为W=(w1,w2,…,wN),数据挖掘方维护的公用参数集为:
Wglobal=(w1 global,w2 global,…,wN global);
数据提供方u从数据挖掘方下载Wglobal,并利用下载结果替换自身维护的自有参数集Wu=(w1 u,w2 u,…,wN u)。
S102,利用本地数据以及模型参数更新算法,对替换后得到的Wu进行更新;
模型训练过程中,参数迭代更新的基本形式如下:
W←W-α*Δ*X,即
整个模型训练的过程,是不断迭代更新模型参数,使得模型对训练样本集的拟合效果达到训练要求(例如偏差值足够小)。以下对参数更新公式进行简单说明,关于参数更新公式的具体推导过程,可参见现有技术的介绍。
上述更新公式中,箭头右侧的“W”表示每次更新前的参数值、箭头左侧的“W”表示每次更新后的参数值,可以看出,每次更新的变化量是α、Δ、X三者的乘积。
α表示学习率,也称为步长,该值决定了每次迭代是参数的更新幅度,如果学习率过小,可能导致达到训练要求这一过程的速度缓慢,如果学习率过大,则可能导致overshoot the minimum现象,即无法令模型随更新进程而趋近拟合。关于如何选取适当的学习率,可以参见现有技术的介绍,在本说明书中的实施例中,将α视为预设的数值。
X表示数据样本的特征值,根据所选用更新公式的不同,X也可能代表特征值的不同形式,在本说明书后面的实施例会做进一步的举例说明。
Δ为预测偏差值,定义为模型预测值与标签值的差。假设模型为y=h(X)=h(w1x1+w2x2+…wNxN),则Δ=y-h(X)或Δ=y-h(X)。
对于一条给定的训练样本数据i,其特征值为Xi=(xi1,xi2,…xiN),标签值为y i,则对应的偏差值Δi=h(Xi)-yi或Δi=yi-h(Xi)。
实际应用中,根据选用的模型参数更新算法不同,更新公式的具体形式也不同,例如:
如果使用梯度下降法(gradient descent)进行参数更新,即每次迭代过程中,所有训练样本均参与更新运算,则参数更新公式为:
W←W-α∑iΔiXi,即:
w1←w1-α∑iΔixi1
w2←w2-α∑iΔixi2
……
如果使用随机梯度下降法(stochastic gradient descent)进行参数更新,即每次迭代过程中,随机选取一条训练样本参与更新运算;则参数更新公式为:
W←W-αΔiXi,其中i为任意值,即:
w1←w1-αΔixi1
w2←w2-αΔixi2
……
以上更新算法仅用于示意性说明,其他可用的更新算法本说明书不再逐一例举。总之,数据提供方u可以利用本地数据以及模型参数更新算法,得到更新后的自有参数值集合Wu=(w1 u,w2 u,…,wN u)。
S103,将更新结果上传至数据挖掘方;
数据提供方u将更新后得到的Wu=(w1 u,w2 u,…,wN u)上传至数据挖掘方,数据挖掘方接收到更新结果后,利用更新结果更新Wglobal
以上介绍了单个数据提供方执行的一次模型参数迭代更新过程,从系统全局的角度,每个数据提供方均多次执行上述迭代更新操作,直到满足模型训练要求。
这里的模型训练结束的要求可以是例如:公用参数在相邻两次迭代过程中的差值足够小(小于预设的阈值)、迭代次数(可以是全局迭代次数、或单个数据提供方内部的迭代次数)达到预设值、或者使用额外的验证集进行验证,等等,本说明书对具体的模型训练要求并不需要进行限定。
可见,应用上述方案:对于数据挖掘方而言,可以不断利用多个数据提供方的数据对公用参数Wglobal进行更新;对于单个数据提供方而言,每次下载到的公用参数Wglobal都是多个数据提供方共同参与更新的结果,进而可以利用本地数据再次对参数进行更新。因此,反复执行上述迭代操作,整体上相当于数据挖掘方利用多个数据提供方的数据进行训练,但是在训练过程中,并不需要数据提供方向数据挖掘方提供具体数据、仅需将每次参数更新的结果上传至数据挖掘方,从而有效地保证了共享数据提供方的数据安全性。
在本说明书提供的其他实施方式中,还可以对模型训练过程中公用参数的下载和自有参数的上传过程进行优化,以进一步提升数据安全性。以下分别进行说明:
1)公用参数的下载:
公用参数集Wglobal=(w1 global,w2 global,…,wN global)包含的参数数量为N,而数据提供方可以每次仅从数据挖掘方下载部分参数;
以Wglobal→u表示数据提供方u从数据挖掘方下载的公用参数,则Wglobal→u是Wglobal的一个真子集,即Wglobal→u的参数数量Ndownload u<N。
从全局来看,各个数据提供方u对应的Ndownload u可以相同或不同,而且各个数据提供方u对应的Wglobal→u的交集可以为空或非空。
例如,公用参数集包括w1,w2,w3,w4共4个特征,共有2个数据提供方,则参数下载方案可以是:
Wglobal→1=(w1 global,w2 global)、Wglobal→2=(w3 global,w4 global),即参数提供方1下载参数w1,w2、数据提供方2下载参数w3,w4;(该情况下两个Wglobal→u没有交集)。
或者
Wglobal→1=(w1 global,w2 global,w3 global)、Wglobal→2=(w2 global,w3 global,w4 global),即参数提供方1下载参数w1,w2,w3、数据提供方2下载参数w2,w3,w4;(该情况下两个Wglobal→u存在交集)。
另外,数据提供方u可以在每次迭代过程中,从数据挖掘方下载针对不同特征的公用参数子集。
例如,数据提供方u第1次迭代下载参数(w1 global,w2 global)、第2次迭代下载参数(w2 global,w3 global)、第3次迭代下载参数(w3 global,w4 global)……
实际应用中,可以由数据挖掘方来综合控制,为各个数据提供方分配公用参数子集,使得各个数据提供方从数据挖掘方获得的信息量基本均衡。数据挖掘方还可以利用轮询分配的方式,使得各个数据提供方都有机会利用自己的数据对各个参数进行训练,从而更为充分地利用到各个数据提供方的数据,实现更好的训练效果。另外,数据挖掘方还可以优先分配距离收敛条件较远的参数给数据挖掘方下载,以提高这些参数的收敛速度。
2)自有参数的上传:
一方面,数据提供方u在上传参数更新结果时,既可以将更新后得到的参数值,即(w1 u,w2 u,…,wN u)上传至数据挖掘方,也可用将本次将更新过程中参数的变化值,即(Δw1 u,Δw2 u,…,ΔwN u)上传至数据挖掘方。如果采用前一种方式,数据挖掘方可以通过替换对应参数的方式实现公用参数的更新,如果采用后一种方式,数据挖掘方将参数变化值累加在原公用参数值上,就可以得到更新后的公用参数值,即:
wj global←wj global+Δwj u,其中j=1,2,…N。
另一方面,与下载过程类似,对于数据提供方u维护的自有参数集Wu=(w1 u,w2 u,…,wN u),在每次参数更新后,也可以仅向数据挖掘方上传部分参数:
以Wu→global表示数据提供方u向数据挖掘方上传的公用参数,则Wu→global是Wu的一个真子集,即Wu→global的参数数量Nupload u<N。
各个数据提供方u对应的Nupload u可以相同或不同,实际应用中,可以由数据挖掘方统一指定各个数据提供方需要上传哪些参数,也可以由数据提供方自行控制需要上传哪些参数。
例如,数据提供方u可用在完成参数更新后,对本次更新过程中Wu各参数的变化值大小(即Δw1 u,Δw2 u,…,ΔwN u的绝对值)进行排序,然后根据排序结果,选择变化值较大的一个或多个变化值所对应的参数构成Wu→global。具体的策略可以包括:
从变化值最大的参数开始,选择预设数量为Nupload u的参数构成Wu→global
仅选择变化值不低于预设阈值的参数构成Wu→global
从变化值不低于预设阈值的参数中,随机选择预设数量为Nupload u的参数构成Wu →global
……
以上自有参数子集确定策略仅用于示意性说明,其他可用策略本说明书不再逐一例举。
数据提供方u确定Wu→global后,可以上传对应的参数值wj u,也可以上传对应的参数变化值Δwj u
为了提升数据安全性,数据提供方u在上传参数更新结果时,可以再对更新结果做进一步处理,例如:将更新结果截断至预设的数值范围[-γ,γ]后,上传至数据挖掘方;也可用对更新结果添加一定程度的噪声,然后上传至数据挖掘方。这里的更新结果,既可以是参数值wj u,也可以是参数变化值Δwj u
图4示出了一种基于优化后的公用参数下载及自有参数上传优化方式的数据共享系统架构。利用优化后参数下载及上传策略,每次在数据挖掘方和数据提供方之间进行传输的参数都是不完整的,即便被潜在的数据攻击方截获,也能够有效控制损失。
需要说明的是,上述“公用参数下载”及“自有参数上传”策略,可以是两种独立的优化策略,两种策略既可以同时实施,也可以分别单独实施,即前述的Wglobal→u和Wu→global并不必须存在关联。并且在一些情况下,也允许各个数据提供方分别采用不同的“公用参数下载”或“自有参数上传”策略。因此图4所示不应理解为对本说明书方案的限定。
可以理解的是,在仅有1个数据提供方向数据挖掘方提供数据(即U=1)的情况下,仍然可以采用本说明书提供的方案。这种情况可以适用于某个数据提供方委托数据挖掘方进行数据挖掘、并且不希望向数据挖掘方泄露具体数据细节的应用场景。
另外,当存在多个数据提供方向数据挖掘方提供数据、且其中有部分数据提供方对数据没有保密需求时,则对于没有保密需求的数据提供方,可以直接将数据提供给数据挖掘方,或者直接将参数更新结果发送给数据挖掘方,本说明书中对于没有保密需求的数据提供方的处理方式不需要进行限定。当然,从数据隐私的角度来看,这里的“没有保密需求”一般并不是绝对意义上的,例如可以是在数据挖掘方内部没有保密需求:假设某数据提供方与数据挖掘方具有深度合作关系、或者数据挖掘方自己也具有一部数据可以用来参与全局模型训练(可以认为数据挖掘方自己就是数据提供方之一),则对于数据挖掘方而言,这些没有保密需求的数据可以直接使用参与模型训练。
下面结合一个具体的实例,对本说明书实施例的方案进行说明;
假设整体训练需求是:根据两家银行机构提供的用户资产数据,建立一个“预测用户是否有能力按期偿还高额贷款”的模型。
银行1和银行2均可以提供具有特征x1,x2,x3,x4的数据作为训练样本。
整体建模使用逻辑斯谛回归模型(logistic regression model),函数形式为:
Figure BDA0001367978440000111
其中:
z=(w1x1+w2x2+w3x3+w4x4)
系统整体配置如图5所示:
数据挖掘方维护公用参数集w1 global,w2 global,w3 global,w4 global
配置在银行1侧的处理端维护自有参数集w1 1,w2 1,w3 1,w4 1
配置在银行2侧的处理端维护自有参数集w1 2,w2 2,w3 2,w4 2
训练开始之前,数据挖掘方和银行1侧处理端、银行2侧处理端分别对各自维护的参数进行初始化。银行1和银行2分别配置相同的学习率α。
参数下载方案由数据挖掘方统一分配,银行1每次迭代时下载w1 global,w2 global并替换自有参数集,银行2每次迭代时下载w3 global,w4 global并替换自有参数集。
在银行1和银行2侧处理端内部,分别读取本地银行数据,利用随机梯度下降法对自有参数集进行更新。
更新结束之后,银行1和银行2侧处理端分别确定本次参数更新过程中参数变化量最大的参数,并将对应变化量添加随机噪声后上传给数据挖掘端。即:
银行1侧处理端上传maxΔwj 1+RN;
银行2侧处理端上传maxΔwj 2+RN;
其中j=1,2,3…4,RN代表随机噪声。
数据挖掘端根据银行1和银行2上传的参数,对共有参数集进行更新后,本轮迭代完成。当w1 global,w2 global,w3 global,w4 global在相邻两次迭代中产生的差值均小于预设值后,认为模型参数达到收敛,训练结束。
可见,在上述训练过程中,数据提供方向数据挖掘方上传的仅是每次迭代的参数变化量,有效地避免了原始数据的泄露。此外,数据提供方每次上传的仅是参数变化量的最大值,且经过了加噪处理,即使在网络传输过程中被攻击方截获,也很难从中获取有用的信息。
相应于上述方法实施例,本说明书实施例还提供一种基于共享数据的模型训练装置,该装置应用于数据提供方,参见图6所示,该装置可以包括以下用于实现迭代训练的模块:
公用参数下载模块110,用于数据提供方u从数据挖掘方下载公用参数,利用下载结果替换Wu
自有参数更新模块120,用于利用本地数据以及模型参数更新算法,对替换后得到的Wu进行更新;
更新结果上传模块130,用于将更新结果上传至数据挖掘方,使得数据挖掘方利用数据提供方上传的更新结果更新Wglobal
在本说明书提供的一种具体实施例中,公用参数下载模块110可以具体用于:
从数据挖掘方下载公用参数子集Wglobal→u
其中,Wglobal→u的参数数量Ndownload u小于Wglobal的参数数量N。
在本说明书提供的一种具体实施例中,不同数据提供方的公用参数下载模块可以具体用于:从数据挖掘方下载针对不同特征的公用参数子集。
在本说明书提供的一种具体实施例中,公用参数下载模块110可以具体用于:
数据提供方u在每次迭代过程中,从数据挖掘方下载针对不同特征的公用参数子集。
在本说明书提供的一种具体实施例中,更新结果上传模块130可以具体用于:
将更新后得到的参数值上传至数据挖掘方;或者
将更新过程中参数的变化值上传至数据挖掘方。
在本说明书提供的一种具体实施例中,更新结果上传模块130可以具体用于:
数据提供方u确定自有参数子集Wu→global,将Wu→global对应的参数更新结果上传至数据挖掘方;
其中,Wu→global的参数数量Nupload u小于Wu的参数数量N。
在本说明书提供的一种具体实施例中,更新结果上传模块130可以具体用于:
对更新过程中Wu各参数的变化值大小进行排序,选择变化值较大的一个或多个变化值所对应的参数构成Wu→global
在本说明书提供的一种具体实施例中,更新结果上传模块130可以具体用于:
将更新结果截断至预设的数值范围后,上传至数据挖掘方;或者
对更新结果进行添加噪声处理后,上传至数据挖掘方。
参见图7所示,本说明书实施例还提供一种基于共享数据的模型训练系统,包括数据挖掘方装置以及U个数据提供方装置;
数据挖掘方装置和数据提供方装置分别维护针对训练样本数据特征集的模型参数,其中:
数据挖掘方装置维护公用参数集Wglobal;数据提供方u的装置维护自有参数集Wu
数据提供方装置包括以下用于实现迭代训练的模块:
公用参数下载模块,用于数据提供方u从数据挖掘方装置下载公用参数,利用下载结果替换Wu
自有参数更新模块,用于利用本地数据以及模型参数更新算法,对替换后得到的Wu进行更新;
更新结果上传模块,用于将更新结果上传至数据挖掘方装置;
数据挖掘方装置,用于利用数据提供方装置上传的更新结果更新Wglobal
本说明书实施例还提供一种计算机设备,其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行所述程序时实现前述的模型训练方法。
图8示出了本说明书实施例所提供的一种更为具体的计算设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书的实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
本说明书实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述模型训练方法。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本说明书实施例的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本说明书实施例原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本说明书实施例的保护范围。

Claims (18)

1.一种基于共享数据的模型训练方法,数据挖掘方以及至少1个数据提供方分别维护针对训练样本数据特征集的模型参数,其中:
数据挖掘方维护公用参数集Wglobal;每个数据提供方u分别维护自有参数集Wu
所述方法包括:利用以下步骤进行迭代训练,直到满足模型训练要求:
数据提供方u从数据挖掘方下载公用参数,利用下载结果替换本地维护的自有参数集Wu
利用本地数据以及模型参数更新算法,对替换后得到的自有参数集Wu进行更新;
将更新结果上传至数据挖掘方,使得数据挖掘方利用数据提供方上传的更新结果更新公用参数集Wglobal
2.根据权利要求1所述的方法,所述从数据挖掘方下载公用参数,包括:
数据提供方u从数据挖掘方下载公用参数子集Wglobal→u
其中,Wglobal→u的参数数量Ndownload u小于Wglobal的参数数量N。
3.根据权利要求2所述的方法,所述从数据挖掘方下载公用参数,包括:
不同数据提供方从数据挖掘方下载针对不同特征的公用参数子集。
4.根据权利要求2所述的方法,所述从数据挖掘方下载公用参数,包括:
数据提供方u在每次迭代过程中,从数据挖掘方下载针对不同特征的公用参数子集。
5.根据权利要求1所述的方法,所述将更新结果上传至数据挖掘方,包括:
将更新后得到的参数值上传至数据挖掘方;或者
将更新过程中参数的变化值上传至数据挖掘方。
6.根据权利要求1所述的方法,所述将更新结果上传至数据挖掘方,包括:
数据提供方u确定自有参数子集Wu→global,将Wu→global对应的参数更新结果上传至数据挖掘方;
其中,Wu→global的参数数量Nupload u小于Wu的参数数量N。
7.根据权利要求6所述的方法,所述确定自有参数子集Wu→global,包括:
对更新过程中Wu各参数的变化值大小进行排序,选择变化值较大的一个或多个变化值所对应的参数构成Wu→global
8.根据权利要求1所述的方法,所述将更新结果上传至数据挖掘方,包括:
将更新结果截断至预设的数值范围后,上传至数据挖掘方;或者
对更新结果进行添加噪声处理后,上传至数据挖掘方。
9.一种基于共享数据的模型训练装置,数据挖掘方以及至少1个数据提供方分别维护针对训练样本数据特征集的模型参数,其中:
数据挖掘方维护公用参数集Wglobal;每个数据提供方u分别维护自有参数集Wu,;
所述装置包括以下用于实现迭代训练的模块:
公用参数下载模块,用于数据提供方u从数据挖掘方下载公用参数,利用下载结果替换本地维护的自有参数集Wu
自有参数更新模块,用于利用本地数据以及模型参数更新算法,对替换后得到的自有参数集Wu进行更新;
更新结果上传模块,用于将更新结果上传至数据挖掘方,使得数据挖掘方利用数据提供方上传的更新结果更新公用参数集Wglobal
10.根据权利要求9所述的装置,所述公用参数下载模块,具体用于:
从数据挖掘方下载公用参数子集Wglobal→u
其中,Wglobal→u的参数数量Ndownload u小于Wglobal的参数数量N。
11.根据权利要求10所述的装置,不同数据提供方的公用参数下载模块,具体用于从数据挖掘方下载针对不同特征的公用参数子集。
12.根据权利要求10所述的装置,所述公用参数下载模块,具体用于:
数据提供方u在每次迭代过程中,从数据挖掘方下载针对不同特征的公用参数子集。
13.根据权利要求9所述的装置,所述更新结果上传模块,具体用于:
将更新后得到的参数值上传至数据挖掘方;或者
将更新过程中参数的变化值上传至数据挖掘方。
14.根据权利要求9所述的装置,所述更新结果上传模块,具体用于:
数据提供方u确定自有参数子集Wu→global,将Wu→global对应的参数更新结果上传至数据挖掘方;
其中,Wu→global的参数数量Nupload u小于Wu的参数数量N。
15.根据权利要求14所述的装置,所述更新结果上传模块,具体用于:
对更新过程中Wu各参数的变化值大小进行排序,选择变化值较大的一个或多个变化值所对应的参数构成Wu→global
16.根据权利要求9所述的装置,所述更新结果上传模块,具体用于:
将更新结果截断至预设的数值范围后,上传至数据挖掘方;或者
对更新结果进行添加噪声处理后,上传至数据挖掘方。
17.一种基于共享数据的模型训练系统,包括数据挖掘方装置以及至少1个数据提供方装置;
数据挖掘方装置和数据提供方装置分别维护针对训练样本数据特征集的模型参数,其中:
数据挖掘方维护公用参数集Wglobal;每个数据提供方u分别维护自有参数集Wu
所述数据提供方装置包括以下用于实现迭代训练的模块:
公用参数下载模块,用于数据提供方u从数据挖掘方装置下载公用参数,利用下载结果替换本地维护的自有参数集Wu
自有参数更新模块,用于利用本地数据以及模型参数更新算法,对替换后得到的自有参数集Wu进行更新;
更新结果上传模块,用于将更新结果上传至数据挖掘方装置;
所述数据挖掘方装置,用于利用数据提供方装置上传的更新结果更新公用参数集Wglobal
18.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如权利要求1至8任一项所述的方法。
CN201710650740.3A 2017-08-02 2017-08-02 一种基于共享数据的模型训练方法及装置 Active CN109388661B (zh)

Priority Applications (9)

Application Number Priority Date Filing Date Title
CN201710650740.3A CN109388661B (zh) 2017-08-02 2017-08-02 一种基于共享数据的模型训练方法及装置
TW107115707A TWI713841B (zh) 2017-08-02 2018-05-09 基於共享資料的模型訓練方法及裝置
AU2018312231A AU2018312231A1 (en) 2017-08-02 2018-07-30 Model training method and apparatus based on data sharing
EP18755367.2A EP3586289B1 (en) 2017-08-02 2018-07-30 Model training method and apparatus based on data sharing
PCT/US2018/044404 WO2019027915A1 (en) 2017-08-02 2018-07-30 METHOD AND APPARATUS FOR MODEL LEARNING BASED ON DATA SHARING
CA3057508A CA3057508A1 (en) 2017-08-02 2018-07-30 Model training method and apparatus based on data sharing
SG11201908841W SG11201908841WA (en) 2017-08-02 2018-07-30 Model training method and apparatus based on data sharing
US16/053,606 US11106802B2 (en) 2017-08-02 2018-08-02 Model training method and apparatus based on data sharing
US16/720,931 US11106804B2 (en) 2017-08-02 2019-12-19 Model training method and apparatus based on data sharing

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710650740.3A CN109388661B (zh) 2017-08-02 2017-08-02 一种基于共享数据的模型训练方法及装置

Publications (2)

Publication Number Publication Date
CN109388661A CN109388661A (zh) 2019-02-26
CN109388661B true CN109388661B (zh) 2020-04-21

Family

ID=63207887

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710650740.3A Active CN109388661B (zh) 2017-08-02 2017-08-02 一种基于共享数据的模型训练方法及装置

Country Status (8)

Country Link
US (2) US11106802B2 (zh)
EP (1) EP3586289B1 (zh)
CN (1) CN109388661B (zh)
AU (1) AU2018312231A1 (zh)
CA (1) CA3057508A1 (zh)
SG (1) SG11201908841WA (zh)
TW (1) TWI713841B (zh)
WO (1) WO2019027915A1 (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109388661B (zh) 2017-08-02 2020-04-21 创新先进技术有限公司 一种基于共享数据的模型训练方法及装置
US11182689B2 (en) * 2018-03-28 2021-11-23 International Business Machines Corporation Adaptive learning rate schedule in distributed stochastic gradient descent
US11556730B2 (en) * 2018-03-30 2023-01-17 Intel Corporation Methods and apparatus for distributed use of a machine learning model
CN110197285B (zh) * 2019-05-07 2021-03-23 清华大学 基于区块链的安全协作深度学习方法及装置
CN112183757B (zh) * 2019-07-04 2023-10-27 创新先进技术有限公司 模型训练方法、装置及系统
CN110751291B (zh) * 2019-10-29 2021-02-12 支付宝(杭州)信息技术有限公司 实现安全防御的多方联合训练神经网络的方法及装置
CN111062492B (zh) * 2019-12-20 2022-05-17 支付宝(杭州)信息技术有限公司 一种基于可选隐私数据进行模型训练的方法及系统
CN111708561B (zh) * 2020-06-17 2024-01-05 杭州海康消防科技有限公司 算法模型更新系统、方法、装置及电子设备
CN111783142B (zh) * 2020-07-06 2021-10-08 北京字节跳动网络技术有限公司 数据保护方法、装置、服务器和介质
CN113535799A (zh) * 2020-12-17 2021-10-22 夏红梅 基于人工智能的挖掘网络训练方法及系统
CA3143855A1 (en) * 2020-12-30 2022-06-30 Atb Financial Systems and methods for federated learning on blockchain
CN113780515A (zh) * 2021-01-05 2021-12-10 京东鲲鹏(江苏)科技有限公司 数据处理方法、图像处理方法、装置、存储介质与设备
CN113240127B (zh) * 2021-04-07 2024-07-12 睿蜂群(北京)科技有限公司 基于联邦学习的训练方法、装置、电子设备及存储介质
CN113033825B (zh) * 2021-04-21 2024-05-28 支付宝(杭州)信息技术有限公司 一种隐私保护的模型训练方法、系统及装置
WO2022258149A1 (en) * 2021-06-08 2022-12-15 Huawei Technologies Co., Ltd. User device, server device, method and system for privacy preserving model training

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101651677A (zh) * 2009-09-11 2010-02-17 北京交通大学 基于混沌加密算法解决ims网络dns欺骗攻击的方法
CN104008203A (zh) * 2014-06-17 2014-08-27 浙江工商大学 一种融入本体情境的用户兴趣挖掘方法
CN104301413A (zh) * 2014-10-17 2015-01-21 国云科技股份有限公司 面向云数据库的一种Oracle分布式实时监控方法
CN105046366A (zh) * 2015-07-29 2015-11-11 腾讯科技(深圳)有限公司 模型训练方法及装置
CN105069286A (zh) * 2015-07-24 2015-11-18 上海交通大学 基于垂直分布隐私数据保护的logistic回归分析系统
CN105426857A (zh) * 2015-11-25 2016-03-23 小米科技有限责任公司 人脸识别模型训练方法和装置

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7630986B1 (en) 1999-10-27 2009-12-08 Pinpoint, Incorporated Secure data interchange
US8176563B2 (en) 2000-11-13 2012-05-08 DigitalDoors, Inc. Data security system and method with editor
CN100476819C (zh) 2006-12-27 2009-04-08 章毅 一种基于Web的数据挖掘系统及其控制方法
US8121967B2 (en) 2008-06-18 2012-02-21 International Business Machines Corporation Structural data classification
US8489499B2 (en) * 2010-01-13 2013-07-16 Corelogic Solutions, Llc System and method of detecting and assessing multiple types of risks related to mortgage lending
JP2012212422A (ja) 2011-03-24 2012-11-01 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
US9916538B2 (en) * 2012-09-15 2018-03-13 Z Advanced Computing, Inc. Method and system for feature detection
CN102765643B (zh) * 2012-05-31 2015-06-17 天津大学 基于数据驱动的电梯故障诊断与预警方法
US9324033B2 (en) 2012-09-13 2016-04-26 Nokia Technologies Oy Method and apparatus for providing standard data processing model through machine learning
US20140088989A1 (en) 2012-09-27 2014-03-27 Balaji Krishnapuram Rapid Learning Community for Predictive Models of Medical Knowledge
US9720998B2 (en) 2012-11-19 2017-08-01 The Penn State Research Foundation Massive clustering of discrete distributions
CN104951446A (zh) 2014-03-25 2015-09-30 阿里巴巴集团控股有限公司 大数据处理方法及平台
US10318882B2 (en) 2014-09-11 2019-06-11 Amazon Technologies, Inc. Optimized training of linear machine learning models
CN104699777B (zh) 2015-03-10 2019-06-11 中国联合网络通信集团有限公司 大数据分析挖掘管理面与业务面的关联方法及系统
US10607226B2 (en) * 2015-04-14 2020-03-31 Samsung Electronics Co., Ltd. System and method for fraud detection in a mobile device
US10402469B2 (en) 2015-10-16 2019-09-03 Google Llc Systems and methods of distributed optimization
US10628826B2 (en) * 2015-11-24 2020-04-21 Vesta Corporation Training and selection of multiple fraud detection models
US20170169078A1 (en) 2015-12-14 2017-06-15 Siemens Aktiengesellschaft Log Mining with Big Data
EP3380993B1 (en) 2016-02-12 2021-04-07 Google LLC Systems and methods for robust large-scale machine learning
US20180285759A1 (en) 2017-04-03 2018-10-04 Linkedin Corporation Online hyperparameter tuning in distributed machine learning
CN109388661B (zh) 2017-08-02 2020-04-21 创新先进技术有限公司 一种基于共享数据的模型训练方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101651677A (zh) * 2009-09-11 2010-02-17 北京交通大学 基于混沌加密算法解决ims网络dns欺骗攻击的方法
CN104008203A (zh) * 2014-06-17 2014-08-27 浙江工商大学 一种融入本体情境的用户兴趣挖掘方法
CN104301413A (zh) * 2014-10-17 2015-01-21 国云科技股份有限公司 面向云数据库的一种Oracle分布式实时监控方法
CN105069286A (zh) * 2015-07-24 2015-11-18 上海交通大学 基于垂直分布隐私数据保护的logistic回归分析系统
CN105046366A (zh) * 2015-07-29 2015-11-11 腾讯科技(深圳)有限公司 模型训练方法及装置
CN105426857A (zh) * 2015-11-25 2016-03-23 小米科技有限责任公司 人脸识别模型训练方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孟小峰 等.大数据隐私管理.《计算机研究与发展》.2015, *

Also Published As

Publication number Publication date
CA3057508A1 (en) 2019-02-07
SG11201908841WA (en) 2019-10-30
US20190042763A1 (en) 2019-02-07
US11106802B2 (en) 2021-08-31
US11106804B2 (en) 2021-08-31
AU2018312231A1 (en) 2019-10-31
TWI713841B (zh) 2020-12-21
EP3586289A1 (en) 2020-01-01
TW201911078A (zh) 2019-03-16
EP3586289B1 (en) 2021-12-08
CN109388661A (zh) 2019-02-26
US20200125737A1 (en) 2020-04-23
WO2019027915A1 (en) 2019-02-07

Similar Documents

Publication Publication Date Title
CN109388661B (zh) 一种基于共享数据的模型训练方法及装置
CN109308418B (zh) 一种基于共享数据的模型训练方法及装置
CN111046433B (zh) 一种基于联邦学习的模型训练方法
CN110569227B (zh) 模型参数确定方法、装置和电子设备
CN111813869B (zh) 一种基于分布式数据的多任务模型训练方法及系统
CN113221183B (zh) 实现隐私保护的多方协同更新模型的方法、装置及系统
CN110427969B (zh) 数据处理方法、装置和电子设备
CN110874637B (zh) 基于隐私数据保护的多目标融合学习方法、装置和系统
CN109388662A (zh) 一种基于共享数据的模型训练方法及装置
CN110555315A (zh) 模型参数确定方法、装置和电子设备
CN110457936B (zh) 数据交互方法、装置和电子设备
JP7079483B2 (ja) 情報処理方法、システム及びプログラム
CN112580085A (zh) 一种模型训练方法及装置
US9471299B1 (en) Updating code within an application
KR20190030435A (ko) 자연어 처리를 이용한 지정상품 추천 방법, 장치 및 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램
CN112511361B (zh) 模型训练方法、装置和计算设备
US11995196B2 (en) Electronic apparatus and method for controlling thereof
US20180088930A1 (en) Updating code within an application
CN111160357B (zh) 一种基于对抗学习的模型训练、图片输出方法及装置
US11681816B1 (en) Private session for mobile application
CN113420841B (zh) 有毒样本数据生成方法及装置
CN113011459B (zh) 模型训练方法、装置和计算设备
Bahtiyar et al. Adaptive Trust Scenarios for Mobile Security
CN104765732A (zh) 图片参数获取方法及图片参数获取装置
CA3213680A1 (en) Secure data enclave

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20191209

Address after: P.O. Box 31119, grand exhibition hall, hibiscus street, 802 West Bay Road, Grand Cayman, Cayman Islands

Applicant after: Innovative advanced technology Co., Ltd

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Co., Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40004775

Country of ref document: HK