CN109388661B

CN109388661B - 一种基于共享数据的模型训练方法及装置

Info

Publication number: CN109388661B
Application number: CN201710650740.3A
Authority: CN
Inventors: 赵沛霖; 李龙飞; 周俊; 李小龙
Original assignee: Advanced New Technologies Co Ltd
Current assignee: Advanced New Technologies Co Ltd
Priority date: 2017-08-02
Filing date: 2017-08-02
Publication date: 2020-04-21
Anticipated expiration: 2037-08-02
Also published as: CA3057508A1; SG11201908841WA; US20190042763A1; US11106802B2; US11106804B2; AU2018312231A1; TWI713841B; EP3586289A1; TW201911078A; EP3586289B1; CN109388661A; US20200125737A1; WO2019027915A1

Abstract

公开了一种基于共享数据的模型训练方法及装置。数据挖掘方可以根据多个数据提供方提供的数据进行联合训练，并且在模型训练过程中，具体的参数迭代更新的操作是在数据提供方完成，因此数据提供方并不需要向数据挖掘方提供具体数据、仅需将每次参数更新的结果上传至数据挖掘方。

Description

一种基于共享数据的模型训练方法及装置

技术领域

本说明书实施例涉及数据挖掘技术领域，尤其涉及一种基于共享数据的模型训练方法及装置。

背景技术

在大数据时代，通过对海量数据进行挖掘，可以获得各种形式的有用信息，因此数据的重要性不言而喻。不同的机构都拥有各自的数据，但是任何一家机构的数据挖掘效果，都会受限于其自身拥有的数据数量和种类。针对该问题，一种直接的解决思路是：多家机构相互合作，将数据进行共享，从而实现更好的数据挖掘效果，实现共赢。

然而对于数据拥有方而言，数据本身是一种具有很大价值的资产，而且出于保护隐私、防止泄露等需求，数据拥有方往往并不愿意直接把数据提供出来，这种状况导致“数据共享”在现实中很难实际运作。因此，如何在充分保证数据安全的前提下实现数据共享，已经成为行业内备受关注的问题。

发明内容

针对上述技术问题，本说明书实施例提供一种基于共享数据的模型训练方法及装置，技术方案如下：

根据本说明书实施例的第一方面，提供一种基于共享数据的模型训练方法，数据挖掘方以及至少1个数据提供方分别维护针对训练样本数据特征集的模型参数，其中：

数据挖掘方维护公用参数集W^global；每个数据提供方u分别维护自有参数集W^u；

所述方法包括：利用以下步骤进行迭代训练，直到满足模型训练要求：

数据提供方u从数据挖掘方下载公用参数，利用下载结果替换本地维护的自有参数集W^u；

利用本地数据以及模型参数更新算法，对替换后得到的自有参数集W^u进行更新；

将更新结果上传至数据挖掘方，使得数据挖掘方利用数据提供方上传的更新结果更新公用参数集W^global。

根据本说明书实施例的第二方面，提供一种基于共享数据的模型训练装置，数据挖掘方以及至少1个数据提供方分别维护针对训练样本数据特征集的模型参数，其中：

数据挖掘方维护公用参数集W^global；每个数据提供方u分别维护自有参数集W^u,；

所述装置包括以下用于实现迭代训练的模块：

公用参数下载模块，用于数据提供方u从数据挖掘方下载公用参数，利用下载结果替换本地维护的自有参数集W^u；

自有参数更新模块，用于利用本地数据以及模型参数更新算法，对替换后得到的自有参数集W^u进行更新；

更新结果上传模块，用于将更新结果上传至数据挖掘方，使得数据挖掘方利用数据提供方上传的更新结果更新公用参数集W^global。

根据本说明书实施例的第三方面，提供包括数据挖掘方装置以及至少1个数据提供方装置；

数据挖掘方装置和数据提供方装置分别维护针对训练样本数据特征集的模型参数，其中：

所述数据提供方装置包括以下用于实现迭代训练的模块：

公用参数下载模块，用于数据提供方u从数据挖掘方装置下载公用参数，利用下载结果替换本地维护的自有参数集W^u；

更新结果上传模块，用于将更新结果上传至数据挖掘方装置；

所述数据挖掘方装置，用于利用数据提供方装置上传的更新结果更新公用参数集W^global。

本说明书实施例所提供的技术方案，一方面，数据挖掘方可以根据多个数据提供方提供的数据进行联合训练，从而得到更好的训练效果；另一方面，在模型训练过程中，具体的参数迭代更新的操作是在数据提供方完成，因此数据提供方并不需要向数据挖掘方提供具体数据、仅需将每次参数更新的结果上传至数据挖掘方，从而有效地保证了共享数据提供方的数据安全性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本说明书实施例。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是数据共享合作模式示意图；

图2是本说明书公开的模型训练系统的架构的示意图；

图3是本说明书实施例的基于共享数据的模型训练方法的流程示意图；

图4是本说明书公开的模型训练系统的架构的另一种示意图；

图5是本说明书本说明书一个实施例的模型训练系统的架构的示意图；

图6是本说明书实施例的基于共享数据的模型训练装置的结构示意图；

图7是用于配置本说明书基于共享数据的模型训练系统的结构示意图；

图8是本说明书公开一种计算机设备的结构示意图。

具体实施方式

为了使本领域技术人员更好地理解技术方案，下面将结合本说明书实施例中的附图，对本说明书的实施例中的技术方案进行详细地描述，显然，所描述的实施例仅仅是本说明书的一部分实施例，而不是全部的实施例。基于本说明书的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本说明书的实施例保护的范围。

如图1所示，在“数据共享”这一合作模式中，涉及到几个角色：数据提供方、数据挖掘方、数据攻击方。多个数据提供方共同将数据交给数据挖掘方进行数据共享挖掘，但是为了保护数据隐私，并不希望把数据原封不动地提供给数据挖掘方。另一方面，数据提供方还需要防止数据攻击方窃取数据。从广义上看，对于任意数据提供方而言，数据挖掘方和其他数据提供方实际上都构成潜在的攻击方。

因此，实现安全数据共享的一种基本需求是：在己方数据尽量不外泄的情况下，使得数据挖掘方能够利用数据提供方的数据进行挖掘。

针对上述需求，本说明书实施例提供一种数据共享方案。该方案用于根据海量数据样本训练数据数据模型，其中数据样本来源于多个数据提供方，由于不同的数据提供方可以提供更大数量的数据样本，因此将各个数据提供方的共享数据整合后，预期可以训练得到效果更佳的数据模型。

本说明书实施例提供的一种数据共享系统的架构参见图2所示。假设共有U个数据提供方：1、2…U，共同向数据挖掘方提供数据，以供数据挖掘方训练出一个全局模型。整体的数据共享工作原理如下：

各个数据提供方u(u＝1、2…U)均可以提供包含特征集合X＝(x₁,x₂…x_N)的数据，全局模型是根据特征集合X＝(x₁,x₂…x_N)训练得到，相应的模型参数集合为W＝(w₁,w₂,…,w_N)，

为了提高数据安全性，各个数据提供方u并不将自己所拥有的数据上传至数据挖掘方进行训练，而是在本地进行训练，并将训练得到的参数上传至数据挖掘方。数据挖掘方则对各个数据提供方u所上传的参数进行汇总处理，从而得到全局参数模型。

在上述方案中，数据挖掘方以及U个数据提供方需要分别维护一套针对特征集X＝(x₁,x₂…x_N)的模型参数集合，为便于描述，本说明书定义如下：

将数据挖掘方维护的参数集称为公用参数集，表示为：

W^global＝(w₁ ^global,w₂ ^global,…,w_N ^global)；

将任一数据提供方u维护的参数集称为u的自有参数集，表示为：

W^u＝(w₁ ^u,w₂ ^u,…,w_N ^u),其中u＝1,2,…U；

实际应用中，上述参数集的表达式中，还可以包含一常数项参数w₀，这种情况下参数集合中的参数数量为N+1，与特征数量N不一致。为了便于统一表示，可以将w₀理解为特征x₀对应的参数、且特征x₀的特征值恒等于1。这样，无论是否存在常数项参数，参数数量与特征数量都是一致的。因此本说明书中对于参数集和特征集的表达式应理解为同时涵盖了“有常数项参数”和“无常数项参数”两种情况。

数据模型的训练，可以是是通过反复迭代寻找最佳模型参数值的过程，每次迭代都会更新模型参数，直到更新的模型参数满足训练要求，则训练结束。下面以一次完整的迭代过程对本说明书实施例方案进行说明。

在数据挖掘方和U个数据提供方，分别对模型参数进行初始化，并保存初始化的参数值。如图3所示，对于任意数据提供方u，在一次迭代过程中执行以下操作：

S101，从数据挖掘方下载公用参数，利用下载结果替换W^u；

假设训练模型使用的特征数量为N，对应的参数为W＝(w₁,w₂,…,w_N)，数据挖掘方维护的公用参数集为：

W^global＝(w₁ ^global,w₂ ^global,…,w_N ^global)；

数据提供方u从数据挖掘方下载W^global，并利用下载结果替换自身维护的自有参数集W^u＝(w₁ ^u,w₂ ^u,…,w_N ^u)。

S102，利用本地数据以及模型参数更新算法，对替换后得到的W^u进行更新；

模型训练过程中，参数迭代更新的基本形式如下：

W←W-α*Δ*X，即

整个模型训练的过程，是不断迭代更新模型参数，使得模型对训练样本集的拟合效果达到训练要求(例如偏差值足够小)。以下对参数更新公式进行简单说明，关于参数更新公式的具体推导过程，可参见现有技术的介绍。

上述更新公式中，箭头右侧的“W”表示每次更新前的参数值、箭头左侧的“W”表示每次更新后的参数值，可以看出，每次更新的变化量是α、Δ、X三者的乘积。

α表示学习率，也称为步长，该值决定了每次迭代是参数的更新幅度，如果学习率过小，可能导致达到训练要求这一过程的速度缓慢，如果学习率过大，则可能导致overshoot the minimum现象，即无法令模型随更新进程而趋近拟合。关于如何选取适当的学习率，可以参见现有技术的介绍，在本说明书中的实施例中，将α视为预设的数值。

X表示数据样本的特征值，根据所选用更新公式的不同，X也可能代表特征值的不同形式，在本说明书后面的实施例会做进一步的举例说明。

Δ为预测偏差值，定义为模型预测值与标签值的差。假设模型为y＝h(X)＝h(w₁x₁+w₂x₂+…w_Nx_N)，则Δ＝y-h(X)或Δ＝y-h(X)。

对于一条给定的训练样本数据i，其特征值为X_i＝(x_i1,x_i2,…x_iN)，标签值为y _i，则对应的偏差值Δ_i＝h(X_i)-y_i或Δ_i＝y_i-h(X_i)。

实际应用中，根据选用的模型参数更新算法不同，更新公式的具体形式也不同，例如：

如果使用梯度下降法(gradient descent)进行参数更新，即每次迭代过程中，所有训练样本均参与更新运算，则参数更新公式为：

W←W-α∑_iΔ_iX_i，即：

w₁←w₁-α∑_iΔ_ix_i1

w₂←w₂-α∑_iΔ_ix_i2

……

如果使用随机梯度下降法(stochastic gradient descent)进行参数更新，即每次迭代过程中，随机选取一条训练样本参与更新运算；则参数更新公式为：

W←W-αΔ_iX_i，其中i为任意值，即：

w₁←w₁-αΔ_ix_i1

w₂←w₂-αΔ_ix_i2

……

以上更新算法仅用于示意性说明，其他可用的更新算法本说明书不再逐一例举。总之，数据提供方u可以利用本地数据以及模型参数更新算法，得到更新后的自有参数值集合W^u＝(w₁ ^u,w₂ ^u,…,w_N ^u)。

S103，将更新结果上传至数据挖掘方；

数据提供方u将更新后得到的W^u＝(w₁ ^u,w₂ ^u,…,w_N ^u)上传至数据挖掘方，数据挖掘方接收到更新结果后，利用更新结果更新W^global。

以上介绍了单个数据提供方执行的一次模型参数迭代更新过程，从系统全局的角度，每个数据提供方均多次执行上述迭代更新操作，直到满足模型训练要求。

这里的模型训练结束的要求可以是例如：公用参数在相邻两次迭代过程中的差值足够小(小于预设的阈值)、迭代次数(可以是全局迭代次数、或单个数据提供方内部的迭代次数)达到预设值、或者使用额外的验证集进行验证，等等，本说明书对具体的模型训练要求并不需要进行限定。

可见，应用上述方案：对于数据挖掘方而言，可以不断利用多个数据提供方的数据对公用参数W^global进行更新；对于单个数据提供方而言，每次下载到的公用参数W^global都是多个数据提供方共同参与更新的结果，进而可以利用本地数据再次对参数进行更新。因此，反复执行上述迭代操作，整体上相当于数据挖掘方利用多个数据提供方的数据进行训练，但是在训练过程中，并不需要数据提供方向数据挖掘方提供具体数据、仅需将每次参数更新的结果上传至数据挖掘方，从而有效地保证了共享数据提供方的数据安全性。

在本说明书提供的其他实施方式中，还可以对模型训练过程中公用参数的下载和自有参数的上传过程进行优化，以进一步提升数据安全性。以下分别进行说明：

1)公用参数的下载：

公用参数集W^global＝(w₁ ^global,w₂ ^global,…,w_N ^global)包含的参数数量为N，而数据提供方可以每次仅从数据挖掘方下载部分参数；

以W^global→u表示数据提供方u从数据挖掘方下载的公用参数，则W^global→u是W^global的一个真子集，即W^global→u的参数数量N_download ^u＜N。

从全局来看，各个数据提供方u对应的N_download ^u可以相同或不同，而且各个数据提供方u对应的W^global→u的交集可以为空或非空。

例如，公用参数集包括w₁,w₂,w₃,w₄共4个特征，共有2个数据提供方，则参数下载方案可以是：

W^global→1＝(w₁ ^global,w₂ ^global)、W^global→2＝(w₃ ^global,w₄ ^global)，即参数提供方1下载参数w₁,w₂、数据提供方2下载参数w₃,w₄；(该情况下两个W^global→u没有交集)。

或者

W^global→1＝(w₁ ^global,w₂ ^global,w₃ ^global)、W^global→2＝(w₂ ^global,w₃ ^global,w₄ ^global)，即参数提供方1下载参数w₁,w₂,w₃、数据提供方2下载参数w₂,w₃,w₄；(该情况下两个W^global→u存在交集)。

另外，数据提供方u可以在每次迭代过程中，从数据挖掘方下载针对不同特征的公用参数子集。

例如，数据提供方u第1次迭代下载参数(w₁ ^global,w₂ ^global)、第2次迭代下载参数(w₂ ^global,w₃ ^global)、第3次迭代下载参数(w₃ ^global,w₄ ^global)……

实际应用中，可以由数据挖掘方来综合控制，为各个数据提供方分配公用参数子集，使得各个数据提供方从数据挖掘方获得的信息量基本均衡。数据挖掘方还可以利用轮询分配的方式，使得各个数据提供方都有机会利用自己的数据对各个参数进行训练，从而更为充分地利用到各个数据提供方的数据，实现更好的训练效果。另外，数据挖掘方还可以优先分配距离收敛条件较远的参数给数据挖掘方下载，以提高这些参数的收敛速度。

2)自有参数的上传：

一方面，数据提供方u在上传参数更新结果时，既可以将更新后得到的参数值，即(w₁ ^u,w₂ ^u,…,w_N ^u)上传至数据挖掘方，也可用将本次将更新过程中参数的变化值，即(Δw₁ ^u,Δw₂ ^u,…,Δw_N ^u)上传至数据挖掘方。如果采用前一种方式，数据挖掘方可以通过替换对应参数的方式实现公用参数的更新，如果采用后一种方式，数据挖掘方将参数变化值累加在原公用参数值上，就可以得到更新后的公用参数值，即：

w_j ^global←w_j ^global+Δw_j ^u，其中j＝1,2,…N。

另一方面，与下载过程类似，对于数据提供方u维护的自有参数集W^u＝(w₁ ^u,w₂ ^u,…,w_N ^u)，在每次参数更新后，也可以仅向数据挖掘方上传部分参数：

以W^u→global表示数据提供方u向数据挖掘方上传的公用参数，则W^u→global是W^u的一个真子集，即W^u→global的参数数量N_upload ^u＜N。

各个数据提供方u对应的N_upload ^u可以相同或不同，实际应用中，可以由数据挖掘方统一指定各个数据提供方需要上传哪些参数，也可以由数据提供方自行控制需要上传哪些参数。

例如，数据提供方u可用在完成参数更新后，对本次更新过程中W^u各参数的变化值大小(即Δw₁ ^u,Δw₂ ^u,…,Δw_N ^u的绝对值)进行排序，然后根据排序结果，选择变化值较大的一个或多个变化值所对应的参数构成W^u→global。具体的策略可以包括：

从变化值最大的参数开始，选择预设数量为N_upload ^u的参数构成W^u→global；

仅选择变化值不低于预设阈值的参数构成W^u→global；

从变化值不低于预设阈值的参数中，随机选择预设数量为N_upload ^u的参数构成W^u ^→global；

……

以上自有参数子集确定策略仅用于示意性说明，其他可用策略本说明书不再逐一例举。

数据提供方u确定W^u→global后，可以上传对应的参数值w_j ^u，也可以上传对应的参数变化值Δw_j ^u。

为了提升数据安全性，数据提供方u在上传参数更新结果时，可以再对更新结果做进一步处理，例如：将更新结果截断至预设的数值范围[-γ,γ]后，上传至数据挖掘方；也可用对更新结果添加一定程度的噪声，然后上传至数据挖掘方。这里的更新结果，既可以是参数值w_j ^u，也可以是参数变化值Δw_j ^u。

图4示出了一种基于优化后的公用参数下载及自有参数上传优化方式的数据共享系统架构。利用优化后参数下载及上传策略，每次在数据挖掘方和数据提供方之间进行传输的参数都是不完整的，即便被潜在的数据攻击方截获，也能够有效控制损失。

需要说明的是，上述“公用参数下载”及“自有参数上传”策略，可以是两种独立的优化策略，两种策略既可以同时实施，也可以分别单独实施，即前述的W^global→u和W^u→global并不必须存在关联。并且在一些情况下，也允许各个数据提供方分别采用不同的“公用参数下载”或“自有参数上传”策略。因此图4所示不应理解为对本说明书方案的限定。

可以理解的是，在仅有1个数据提供方向数据挖掘方提供数据(即U＝1)的情况下，仍然可以采用本说明书提供的方案。这种情况可以适用于某个数据提供方委托数据挖掘方进行数据挖掘、并且不希望向数据挖掘方泄露具体数据细节的应用场景。

另外，当存在多个数据提供方向数据挖掘方提供数据、且其中有部分数据提供方对数据没有保密需求时，则对于没有保密需求的数据提供方，可以直接将数据提供给数据挖掘方，或者直接将参数更新结果发送给数据挖掘方，本说明书中对于没有保密需求的数据提供方的处理方式不需要进行限定。当然，从数据隐私的角度来看，这里的“没有保密需求”一般并不是绝对意义上的，例如可以是在数据挖掘方内部没有保密需求：假设某数据提供方与数据挖掘方具有深度合作关系、或者数据挖掘方自己也具有一部数据可以用来参与全局模型训练(可以认为数据挖掘方自己就是数据提供方之一)，则对于数据挖掘方而言，这些没有保密需求的数据可以直接使用参与模型训练。

下面结合一个具体的实例，对本说明书实施例的方案进行说明；

假设整体训练需求是：根据两家银行机构提供的用户资产数据，建立一个“预测用户是否有能力按期偿还高额贷款”的模型。

银行1和银行2均可以提供具有特征x₁,x₂,x₃,x₄的数据作为训练样本。

整体建模使用逻辑斯谛回归模型(logistic regression model)，函数形式为：

其中：

z＝(w₁x₁+w₂x₂+w₃x₃+w₄x₄)

系统整体配置如图5所示：

数据挖掘方维护公用参数集w₁ ^global,w₂ ^global,w₃ ^global,w₄ ^global，

配置在银行1侧的处理端维护自有参数集w₁ ¹,w₂ ¹,w₃ ¹,w₄ ¹，

配置在银行2侧的处理端维护自有参数集w₁ ²,w₂ ²,w₃ ²,w₄ ²，

训练开始之前，数据挖掘方和银行1侧处理端、银行2侧处理端分别对各自维护的参数进行初始化。银行1和银行2分别配置相同的学习率α。

参数下载方案由数据挖掘方统一分配，银行1每次迭代时下载w₁ ^global,w₂ ^global并替换自有参数集,银行2每次迭代时下载w₃ ^global,w₄ ^global并替换自有参数集。

在银行1和银行2侧处理端内部，分别读取本地银行数据，利用随机梯度下降法对自有参数集进行更新。

更新结束之后，银行1和银行2侧处理端分别确定本次参数更新过程中参数变化量最大的参数，并将对应变化量添加随机噪声后上传给数据挖掘端。即：

银行1侧处理端上传maxΔw_j ¹+RN；

银行2侧处理端上传maxΔw_j ²+RN；

其中j＝1,2,3…4，RN代表随机噪声。

数据挖掘端根据银行1和银行2上传的参数，对共有参数集进行更新后，本轮迭代完成。当w₁ ^global,w₂ ^global,w₃ ^global,w₄ ^global在相邻两次迭代中产生的差值均小于预设值后，认为模型参数达到收敛，训练结束。

可见，在上述训练过程中，数据提供方向数据挖掘方上传的仅是每次迭代的参数变化量，有效地避免了原始数据的泄露。此外，数据提供方每次上传的仅是参数变化量的最大值，且经过了加噪处理，即使在网络传输过程中被攻击方截获，也很难从中获取有用的信息。

相应于上述方法实施例，本说明书实施例还提供一种基于共享数据的模型训练装置，该装置应用于数据提供方，参见图6所示，该装置可以包括以下用于实现迭代训练的模块：

公用参数下载模块110，用于数据提供方u从数据挖掘方下载公用参数，利用下载结果替换W^u；

自有参数更新模块120，用于利用本地数据以及模型参数更新算法，对替换后得到的W^u进行更新；

更新结果上传模块130，用于将更新结果上传至数据挖掘方，使得数据挖掘方利用数据提供方上传的更新结果更新W^global。

在本说明书提供的一种具体实施例中，公用参数下载模块110可以具体用于：

从数据挖掘方下载公用参数子集W^global→u；

其中，W^global→u的参数数量N_download ^u小于W^global的参数数量N。

在本说明书提供的一种具体实施例中，不同数据提供方的公用参数下载模块可以具体用于：从数据挖掘方下载针对不同特征的公用参数子集。

数据提供方u在每次迭代过程中，从数据挖掘方下载针对不同特征的公用参数子集。

在本说明书提供的一种具体实施例中，更新结果上传模块130可以具体用于：

将更新后得到的参数值上传至数据挖掘方；或者

将更新过程中参数的变化值上传至数据挖掘方。

数据提供方u确定自有参数子集W^u→global，将W^u→global对应的参数更新结果上传至数据挖掘方；

其中，W^u→global的参数数量N_upload ^u小于W^u的参数数量N。

对更新过程中W^u各参数的变化值大小进行排序，选择变化值较大的一个或多个变化值所对应的参数构成W^u→global。

将更新结果截断至预设的数值范围后，上传至数据挖掘方；或者

对更新结果进行添加噪声处理后，上传至数据挖掘方。

参见图7所示，本说明书实施例还提供一种基于共享数据的模型训练系统，包括数据挖掘方装置以及U个数据提供方装置；

数据挖掘方装置维护公用参数集W^global；数据提供方u的装置维护自有参数集W^u；

数据提供方装置包括以下用于实现迭代训练的模块：

公用参数下载模块，用于数据提供方u从数据挖掘方装置下载公用参数，利用下载结果替换W^u；

自有参数更新模块，用于利用本地数据以及模型参数更新算法，对替换后得到的W^u进行更新；

数据挖掘方装置，用于利用数据提供方装置上传的更新结果更新W^global。

本说明书实施例还提供一种计算机设备，其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行所述程序时实现前述的模型训练方法。

图8示出了本说明书实施例所提供的一种更为具体的计算设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书的实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

本说明书实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述模型训练方法。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本说明书实施例的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本说明书实施例原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本说明书实施例的保护范围。

Claims

1.一种基于共享数据的模型训练方法，数据挖掘方以及至少1个数据提供方分别维护针对训练样本数据特征集的模型参数，其中：

2.根据权利要求1所述的方法，所述从数据挖掘方下载公用参数，包括：

数据提供方u从数据挖掘方下载公用参数子集W^global→u；

3.根据权利要求2所述的方法，所述从数据挖掘方下载公用参数，包括：

不同数据提供方从数据挖掘方下载针对不同特征的公用参数子集。

4.根据权利要求2所述的方法，所述从数据挖掘方下载公用参数，包括：

5.根据权利要求1所述的方法，所述将更新结果上传至数据挖掘方，包括：

将更新后得到的参数值上传至数据挖掘方；或者

将更新过程中参数的变化值上传至数据挖掘方。

6.根据权利要求1所述的方法，所述将更新结果上传至数据挖掘方，包括：

其中，W^u→global的参数数量N_upload ^u小于W^u的参数数量N。

7.根据权利要求6所述的方法，所述确定自有参数子集W^u→global，包括：

8.根据权利要求1所述的方法，所述将更新结果上传至数据挖掘方，包括：

对更新结果进行添加噪声处理后，上传至数据挖掘方。

9.一种基于共享数据的模型训练装置，数据挖掘方以及至少1个数据提供方分别维护针对训练样本数据特征集的模型参数，其中：

所述装置包括以下用于实现迭代训练的模块：

10.根据权利要求9所述的装置，所述公用参数下载模块，具体用于：

从数据挖掘方下载公用参数子集W^global→u；

11.根据权利要求10所述的装置，不同数据提供方的公用参数下载模块，具体用于从数据挖掘方下载针对不同特征的公用参数子集。

12.根据权利要求10所述的装置，所述公用参数下载模块，具体用于：

13.根据权利要求9所述的装置，所述更新结果上传模块，具体用于：

将更新后得到的参数值上传至数据挖掘方；或者

将更新过程中参数的变化值上传至数据挖掘方。

14.根据权利要求9所述的装置，所述更新结果上传模块，具体用于：

其中，W^u→global的参数数量N_upload ^u小于W^u的参数数量N。

15.根据权利要求14所述的装置，所述更新结果上传模块，具体用于：

16.根据权利要求9所述的装置，所述更新结果上传模块，具体用于：

对更新结果进行添加噪声处理后，上传至数据挖掘方。

17.一种基于共享数据的模型训练系统，包括数据挖掘方装置以及至少1个数据提供方装置；

所述数据提供方装置包括以下用于实现迭代训练的模块：

18.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现如权利要求1至8任一项所述的方法。