CN111625572B

CN111625572B - 在数据隐私保护下执行机器学习的方法和系统

Info

Publication number: CN111625572B
Application number: CN201910146143.6A
Authority: CN
Inventors: 涂威威; 郭夏玮; 陈雨强; 戴文渊
Original assignee: 4Paradigm Beijing Technology Co Ltd
Current assignee: 4Paradigm Beijing Technology Co Ltd
Priority date: 2019-02-27
Filing date: 2019-02-27
Publication date: 2023-01-06
Anticipated expiration: 2039-02-27
Also published as: CN111625572A

Abstract

本发明的示例性实施例涉及一种关于数据信息的通信方法，以实现数据中的部分信息在源端和目标端之间的隐私通讯。提供了一种在数据隐私保护下执行机器学习的方法和系统。所述方法包括：获取目标数据集；获取变换源目标函数，其中，变换源目标函数由基于源数据集来训练源机器学习模型的初始源目标函数在数据隐私保护方式下转换而来；以及基于目标数据集，结合所述变换源目标函数来训练目标机器学习模型。

Description

在数据隐私保护下执行机器学习的方法和系统

技术领域

本发明总体说来涉及人工智能领域中的数据安全技术，更具体地说，涉及一种在数据隐私保护下执行机器学习的方法和系统。

背景技术

众所周知，机器学习往往需要大量的数据以通过计算的手段从大量数据中挖掘出有价值的潜在信息。尽管随着信息技术的发展产生了海量的数据，然而，当前环境下，人们对数据的隐私保护越来越重视，这使得即使理论上可用于机器学习的数据很多，也因为不同数据源出于其对自身所拥有的数据的隐私保护上的考虑，而不愿或不能将其数据直接共享给其他有需要的数据使用者，从而使得实际上可用于机器学习的数据仍然可能不足，由此导致无法有效地利用机器学习基于更多的相关数据挖掘出能够创造更多价值的信息。此外，即使已经从其他数据源获取到含有隐私信息的数据或者机构本身拥有含有隐私信息的数据，基于这些数据训练出的机器学习模型仍然可能泄露数据的隐私信息。也就是说，目前还难以有效利用不同来源的数据来共同挖掘价值。

鉴于此，需要既可以保护数据中的隐私信息不被泄露，同时能够有效利用不同数据源的数据进行机器学习的技术。

发明内容

根据本公开的示例性实施例，提供了一种在数据隐私保护下执行机器学习的方法，包括：获取目标数据集；获取变换源目标函数，其中，变换源目标函数由基于源数据集来训练源机器学习模型的初始源目标函数在数据隐私保护方式下转换而来；以及基于目标数据集，结合所述变换源目标函数来训练目标机器学习模型。

可选地，基于目标数据集，结合所述变换源目标函数来训练目标机器学习模型的步骤可包括：基于目标数据集，结合所述变换源目标函数来在数据隐私保护方式下训练目标机器学习模型。

可选地，初始源目标函数可通过添加噪声项而被转换为变换源目标函数。

可选地，初始源目标函数可通过以下方式而被添加噪声项：获得初始源目标函数的多项展开式，并在多项展开式中的每一项的系数分别添加随机噪声。

可选地，所添加的随机噪声的强度整体上可与源机器学习模型的样本特征维度大小的平方成正比。

可选地，源机器学习模型可以为逻辑回归模型，所述多项展开式可以为泰勒展开式，并且，可基于源机器学习模型的不同样本特征针对模型标记而言彼此独立的假设来进一步分解多项展开式中的至少一项，并针对所述至少一项添加随机噪声，其中，所添加的随机噪声的强度整体上可与源机器学习模型的样本特征维度大小成正比。

可选地，基于目标数据集，结合所述变换源目标函数来训练目标机器学习模型的步骤可包括：获取基于目标数据集来训练目标机器学习模型的初始目标函数；构建至少以变换源目标函数和初始目标函数为基础的多任务目标函数；以及通过求解所述多任务目标函数来训练目标机器学习模型。

可选地，所述多任务目标函数可包括变换源目标函数、初始目标函数和正则项的加权和；或者，所述多任务目标函数可包括变换源目标函数、由初始目标函数在数据隐私保护方式下转换而来的变换目标函数和正则项的加权和。所述正则项可用于衡量源机器学习模型与目标机器学习模型的参数之间的差异和/或防止过拟合。

可选地，所述多任务目标函数可包括变换源目标函数和初始目标函数的加权和；或者，所述多任务目标函数可包括变换源目标函数和由初始目标函数在数据隐私保护方式下转换而来的变换目标函数的加权和，其中，通过在源机器学习模型的参数等同于目标机器学习模型的参数的约束下，求解所述多任务目标函数来训练目标机器学习模型。

可选地，所述数据隐私保护方式可以为遵循差分隐私定义的保护方式。

可选地，源机器学习模型可与目标机器学习模型属于基于相同类型的机器学习模型；并且/或者，源机器学习模型可与目标机器学习模型针对相同的预测目标。

可选地，目标机器学习模型可用于执行业务决策，其中，所述业务决策可涉及交易反欺诈、账户开通反欺诈、智能营销、智能推荐、贷款评估之中的至少一项。

根据本公开的另一示例性实施例，提供了一种在数据隐私保护下执行机器学习的系统，所述系统包括：目标数据集获取装置，被配置为获取目标数据集；目标函数获取装置，被配置为获取变换源目标函数，其中，变换源目标函数由基于源数据集来训练源机器学习模型的初始源目标函数在数据隐私保护方式下转换而来；以及目标机器学习模型训练装置，被配置为基于目标数据集，结合所述变换源目标函数来训练目标机器学习模型。

可选地，目标机器学习模型训练装置可被配置为基于目标数据集，结合所述变换源目标函数来在数据隐私保护方式下训练目标机器学习模型。

可选地，源机器学习模型可为逻辑回归模型，所述多项展开式可为泰勒展开式，并且，目标函数获取装置可基于源机器学习模型的不同样本特征针对模型标记而言彼此独立的假设来进一步分解多项展开式中的至少一项，并针对所述至少一项添加随机噪声，其中，所添加的随机噪声的强度整体上可与源机器学习模型的样本特征维度大小成正比。

可选地，目标机器学习模型训练装置可被配置为通过以下操作来训练目标机器学习模型：获取基于目标数据集来训练目标机器学习模型的初始目标函数；构建至少以变换源目标函数和初始目标函数为基础的多任务目标函数；以及通过求解所述多任务目标函数来训练目标机器学习模型。

可选地，所述多任务目标函数可包括变换源目标函数和初始目标函数的加权和；或者，所述多任务目标函数可包括变换源目标函数和由初始目标函数在数据隐私保护方式下转换而来的变换目标函数的加权和，其中，可通过在源机器学习模型的参数等同于目标机器学习模型的参数的约束下，求解所述多任务目标函数来训练目标机器学习模型。

根据本公开的另一示例性实施例，提供了一种存储指令的计算机可读存储介质，其中，当所述指令被至少一个计算装置运行时，促使所述至少一个计算装置执行所述在数据隐私保护下执行机器学习的方法。

根据本公开的另一示例性实施例，提供了一种包括至少一个计算装置和至少一个存储指令的存储装置的系统，其中，所述指令在被所述至少一个计算装置运行时，促使所述至少一个计算装置执行所述在数据隐私保护下执行机器学习的方法。

根据本公开示例性实施例的在数据隐私保护下执行机器学习的方法和系统不仅可实现对源数据和目标数据的隐私保护，并且同时可将源数据集中的知识迁移到目标数据集，进而能够基于目标数据集，结合迁移的知识，训练出模型效果更佳的目标机器学习模型。

附图说明

从下面结合附图对本发明实施例的详细描述中，本发明的这些和/或其他方面和优点将变得更加清楚并更容易理解，其中：

图1是示出根据本公开示例性实施例的在数据隐私保护方式下执行机器学习的系统的框图；

图2是示出根据本公开示例性实施例的在数据隐私保护方式下执行机器学习的方法的流程图；

图3是示出根据本公开示例性实施例的在数据隐私保护方式下执行机器学习的构思的示意图。

具体实施方式

为了使本领域技术人员更好地理解本发明，下面结合附图和具体实施方式对本发明的示例性实施例作进一步详细说明。

图1是示出根据本公开示例性实施例的在数据隐私保护方式下执行机器学习的系统(以下，为描述方便，将其简称为“机器学习系统”)100的框图。参照图1，机器学习系统100可包括目标数据集获取装置110、目标函数获取装置120和目标机器学习模型训练装置130。

具体说来，目标数据集获取装置110可获取目标数据集。这里，目标数据集可以是任何可被用于目标机器学习模型训练的数据集，并且可包括多条目标数据记录和/或目标数据记录经过各种数据处理或特征处理之后的结果。在数据的具体内容上，可涉及图像、声音、文本、业务等各种反映客观物理或用户(包括任何个人或组织等各种实体)行为情况的内容。此外，可选地，目标数据集还可包括目标数据记录关于机器学习目标的标记(label)。例如，目标数据记录可包括反映对象或事件的各种属性的至少一个属性字段(例如，用户ID、年龄、性别、历史信用记录等)，目标数据记录关于机器学习目标的标记可以是例如用户是否有能力偿还贷款、用户是否接受推荐的内容等，但不限于此。此外，目标数据集可涉及用户不期望被他人获知的各种个人隐私信息(例如，用户的姓名、身份证号码、手机号码、财产总额、贷款记录等)，并且也可包括不涉及个人隐私的群体相关信息。这里，目标数据记录可来源于不同的数据源(例如，网络运营商、银行机构、医疗机构等)，并且目标数据集可被特定机构或组织在获得用户授权的情况下使用，但是用户往往期望其涉及个人隐私的信息不再进一步被其他组织或个人获知。需要说明的是，在本公开中，“隐私”可泛指涉及单个个体的任何属性。

作为示例，目标数据集获取装置110可一次性或分批次地从目标数据源获取目标数据集，并且可以手动、自动或半自动方式获取目标数据集。此外，目标数据集获取装置110可实时或离线地获取目标数据集中的目标数据记录和/或关于目标数据记录的标记，并且目标数据集获取装置110可同时获取目标数据记录和关于目标数据记录的标记，或者获取关于目标数据记录的标记的时间可滞后于获取目标数据记录的时间。此外，目标数据集获取装置110可以以加密的形式从目标数据源获取目标数据集或者直接利用其本地已经存储的目标数据集。如果获取的目标数据集是加密的数据，则可选地，机器学习系统100还可包括对目标数据进行解密的装置，并还可包括数据处理装置以将目标数据处理为适用于当前机器学习的形式。需要说明的是，本公开对目标数据集中的目标数据记录及其标记的种类、形式、内容、目标数据集的获取方式等均无限制，采用任何手段获取的可用于机器学习的数据均可作为以上提及的目标数据集。

然而，如本公开背景技术所述，对于期望挖掘出更多有价值信息的机器学习而言，实际中，仅基于获取的目标数据集可能不足以学习出满足实际任务需求或达到预定效果的机器学习模型，因此，可设法获取来自其他数据源的相关信息，以将来自其他数据源的知识迁移到目标数据集，从而结合目标数据集与来自其他数据源的知识共同进行机器学习，进而可提高机器学习模型的效果。但是，迁移的前提是需要确保：其他数据源的数据集(在本公开中，可被称为“源数据集”)中所涉及的隐私信息不被泄露，即，需要对源数据进行隐私保护。

在本发明的示例性实施例中，源数据集可由除了机器学习系统之外的另一方来获取，但是，需要说明的是，也可由机器学习系统中的诸如目标函数获取装置120或目标数据集获取装置110来执行获取源数据集的操作，或者，由以上两者共同获取源数据集，本公开对此并不限制。这里，源数据集可以是与目标数据集有关的任何数据集，相应地，以上关于目标数据集的构成、目标数据集的获取方式等的描述均适用于源数据集，这里不再赘述。在源数据集也由机器学习系统来获取的情况下，获取的源数据集可连同目标数据集均存储在机器学习系统的存储装置(未示出)中。作为可选方式，以上存储的源数据和目标数据可进行物理或访问权限上的隔离，以确保数据的安全使用。

在获取了源数据集的情况下，出于隐私保护的考虑，机器学习系统100并不能够直接利用获取的源数据集连同目标数据集一起进行机器学习，而是需要在保证源数据和/或目标数据被执行隐私保护的情况下才可利用其进行机器学习。为此，可在源数据隐私保护方式下，基于源数据集执行与机器学习相关的处理，并且在基于源数据集执行与机器学习相关的处理的过程中获取关于源数据集的迁移项。根据示例性实施例，源数据隐私保护方式可以是遵循差分隐私定义的保护方式，但不限于此，而是可以是任何已经存在的或未来可能出现的能够对源数据进行隐私保护的任何隐私保护方式。

为便于理解，现在对遵循差分隐私定义的保护方式进行简要描述。假设有一随机机制M(例如，M可以是产生机器学习模型的训练过程)，对于M而言，输入的任意两个仅相差一个样本的数据集

和

的输出等于机器学习模型t的概率分别为

和

并且满足以下等式1(其中，∈是隐私保护程度常数或隐私预算)，则可认为M对于任意输入是满足∈差分隐私保护的。

在以上等式1中，∈越小，隐私保护程度越好，反之则越差。∈的具体取值可根据用户对数据隐私保护程度的要求进行相应地设置。假设有一个用户，对于他而言，是否输入他的个人数据给机制M(假设该个人数据输入前的数据集是

该个人数据输入后的数据集是

与

仅相差该个人数据)，对于输出的影响很小(其中，影响由∈的大小来定义)，那么可以认为M对于他的隐私起到了保护作用。假设∈＝0，则这个用户是否输入自己的数据给M，对M的输出没有任何影响，所以用户的隐私完全被保护。

作为示例，机器学习系统100可获取关于源数据集的迁移项。这里，迁移项可用于在源数据隐私保护方式下将源数据集的知识迁移到目标数据集以在目标数据集上训练目标机器学习模型。具体地，迁移项可以是在源数据被进行隐私保护的情况下获得的任何与源数据集所包含的知识有关的信息，作为示例，其可以是单个项目或多个项目的结合，例如，可以是模型参数与训练数据的结合等。作为示例，机器学习系统100可从外部接收关于源数据集的迁移项。例如，机器学习系统100可从拥有源数据集的实体、或者授权可对源数据源执行相关处理的实体(例如，提供机器学习相关服务的服务提供商)获取所述迁移项。在这种情况下，迁移项可以是由拥有源数据集的实体或者授权可对源数据源执行相关处理的实体基于源数据集执行机器学习相关处理而获得的，并且可由这些实体将获得的与所述知识相关的信息发送给机器学习系统100。可选地，可通过对源数据集执行机器学习相关处理来对源数据集进行隐私保护。

根据示例性实施例，源数据隐私保护方式可以是在基于源数据集执行与机器学习相关的处理的过程中添加随机噪声。例如，可通过添加随机噪声，使得遵循上述差分隐私保护定义。但是，需要说明的是，关于隐私保护的定义并不仅限于差分隐私保护定义这一种定义方式，而是可以是例如k-匿名化、I多样化、t-closeness等其他关于隐私保护的定义方式。

如上所述，迁移项可以是在源数据隐私保护方式下获得的任何与源数据集所包含的知识有关的信息。例如，迁移项可涉及在基于源数据集执行与机器学习相关的处理的过程中得到的模型参数、目标函数和/或关于源数据的统计信息，但不限于此。作为示例，基于源数据集执行与机器学习相关的处理的操作可包括：在源数据隐私保护方式下基于源数据集训练源机器学习模型，但不限于此，而是还可包括例如对源数据集执行特征处理或数据统计分析等机器学习相关处理。此外，需要说明的是，上述模型参数、目标函数和/或关于源数据的统计信息均既可以是在基于源数据执行与机器学习相关的处理的过程中直接获得的上述信息本身，也可以是对这些信息进行进一步变换或处理之后所获得的信息，本公开对此并无限制。

作为示例，涉及模型参数的迁移项可以是源机器学习模型的参数，例如，在满足差分隐私保护定义的源数据保护方式下训练源机器学习模型的过程中获得的源机器学习模型的模型参数，此外，还可以是例如源机器学习模型的参数的统计信息等，但不限于此。作为示例，迁移项所涉及的目标函数可以是指为了训练源机器学习模型而构建出的目标函数，在源机器学习模型本身的参数并不进行迁移的情况下，该目标函数可并不单独进行实际求解，但本公开不限于此。作为示例，涉及关于源数据的统计信息的迁移项可以是在源数据隐私保护方式(例如，满足差分隐私保护定义的保护方式)下获取的关于源数据的数据分布信息和/或数据分布变化信息，但不限于此。

在本发明的示例性实施例中，将针对迁移项涉及针对源机器学习模型的目标函数的情况进行详细说明。此外，在本发明的示例性实施例中，源机器学习模型可以是例如广义线性模型，例如，线性回归模型、逻辑回归模型，但不限于此。

返回参照图1，目标函数获取装置120可获取变换源目标函数，其中，所述变换源目标函数由基于源数据集来训练源机器学习模型的初始源目标函数在数据隐私保护方式下转换而来。仅作为示例，在本发明的示例中实施例中，所述初始源目标函数可通过添加噪声项而被转换为变换源目标函数。上述转换过程可由持有源数据的主体来完成，或者，可在安全措施下由机器学习系统来完成，或者，也可由任何一方在保证数据安全的情况下来完成。

在本发明的示例性实施例中，可获得初始源目标函数的多项展开式，并通过对初始源目标函数的多项展开式中的每一项的系数分别添加随机噪声来将其转换为变换源目标函数，这一具体过程将在下面被更详细地描述。

假设针对源数据集D_s＝{(x₁，y₁)，...，(x_n，y_n)}(其中，x_i是样本并且对于任意i均满足||x_i||≤1，||x_i||表示x_i的二范数，y_i是针对样本x_i的标记，

n为样本数量，d是样本空间的维度，

是d维样本空间)，其对应机器学习模型的初始源目标函数为：

F(w_s，D_s)＝f(w_s|D_s)+λg(w_s)...(2)

其中，

在上边的等式(2)-(4)中，w_s是源机器学习模型的参数，其为一向量，

是损失函数，g(w_s)是正则化函数，λ是用于控制正则化强度的常数。

假设f(w_s|x_i，y_i)可表示为一个J阶多项式，即：

其中，Φ是一组多项式函数，

w_k是源机器学习模型的参数w_s中的第k个参数，且1≤k≤d。

以及β_φ是系数项且为常数(例如，β_φ＝1)，则假设数据集D_s符合分布P，令：

则对每个系数项

所添加的噪声系数为

因此，所获得的变换源目标函数

可如下表示：

以下将结合示例对上述变换过程进行更加详细的说明。由于β_φ是系数项且为常数，因此，在以下说明中，为更清楚地理解本申请，将以β_φ＝1为例进行说明，然而，应该理解，β_φ还可以是其它常数值。

在本发明的示例性实施例中，当源机器学习模型为线性回归模型时，可令f(w_s|x_i，y_i)＝(y_i-w_s ^Tx_i)²，则可通过如下分解来得到初始源目标函数的多项展开式：

在这种情况下，Φ(w_s)＝{1，w₁，...，w_d，w₁w₁，w₁w₂，...，w_dw_d}，此时可计算出：

因此，在这种情况下，对展开式(9)中的每个系数所添加的噪声项可为

此外，当源机器学习模型为逻辑回归模型，可令f(w_s|x_i，y_i)＝log(1+exp(w_s ^Tx_i))-y_iw_s ^Tx_i，该表达式无法直接表示成多项展开式形式，也即，初始源目标函数F(w_s，D_s)无法表达成多项展开式形式。对此，仅作为示例，可使用例如泰勒展开将初始源目标函数F(w_s，D_s)近似展开为多项式。

在本发明的示例性实施例中，基于等式(2)和等式(3)可知，对初始源目标函数F(w_s，D_s)进行展开可转换为其构成中的每一项f(w_s|x_i，y_i)进行展开。具体来说，可令f₁(z)＝log(1+exp(z))，则可通过泰勒展开如下对f(w_s|x_i，y_i)进行近似：

仅作为示例，可对以上近似式右侧部分取不大于2阶的项t≤2，并且在在z＝0处进行展开，此时有

于是有：

在等式(12)中，x_ik以及x_il分别是样本x_i的第k个特征和第l个特征，w_k和w_l分别是源机器学习模型的参数w_s中的第k个参数和第l个参数。

为了能够对源数据集进行差分隐私保护，可对

中的每一项的系数分别添加随机噪声。

在本发明的示例性实施例中，基于等式(12)可得出

此时，可对一阶项系数

以及二阶项系数

分别添加随机噪声

如以上等式(10)和(13)可知，所添加的随机噪声的强度整体上与源机器学习模型的样本特征维度大小d的平方成正比。

然而，在这种情况下，当特征数量较多时，噪声可能极大。优选地，根据本发明的又一示例性实施例，当基于源机器学习模型的不同样本特征针对模型标记而言彼此独立时，可对初始源目标函数的多项展开式中的至少一项进行进一步分解，并针对所述至少一项添加随机噪声。也就是说，在示例性实施例中，源机器学习模型为逻辑回归模型，所述多项展开式为泰勒展开式，并且，基于源机器学习模型的不同样本特征针对模型标记而言彼此独立的假设来进一步分解多项展开式中的至少一项，并针对所述至少一项添加随机噪声，其中，所添加的随机噪声的强度整体上与源机器学习模型的样本特征维度大小成正比。

因此，在求经验期望时，对于标记y＝h，可得到如下的等式(14)：

在等式(14)中，n_h为标记为h的样本的数量，x_ik是第i个样本x_i的第k个特征，x_il是第i个样本x_i的第l个特征。

此时，令

，

则对于二分类任务，如果k≠l，则存在如下关系：

此时，考虑向量v＝[m₀₁,m₀₂,...,m_0d,m₁₁,m₁₂,...m_1d,s₁,s₂,...s_d]，

由于f(w_s|x_i，y_i)可具有如下展开：

因此，从向量v恢复被近似的函数f(w_s|D_s):

基于式(17)，可令：

此时，对于向量v中的每一项添加随机噪声，得到

其中，

由此可获得变换源目标函数

其中，

如上所述，在这种情况下，对多项展开式所中的所述至少一项所添加的随机噪声

的强度整体上与源机器学习模型的样本特征维度d大小成正比，使得在进行隐私保护时所增加的噪声更少

在获得了通过以上方式得到的变换源目标函数之后，目标机器学习模型训练装置130可基于目标数据集，结合所述变换源目标函数来训练目标机器学习模型。在本发明的示例性实施例中，目标机器学习模型可与目标机器学习模型属于基于相同类型的机器学习模型，并且/或者，源机器学习模型与目标机器学习模型可针对相同的预测目标。

目标机器学习模型训练装置130可基于目标数据集，结合所述变换源目标函数来在数据隐私保护方式下训练目标机器学习模型。作为示例，所述数据隐私保护方式可以是前述遵循差分隐私定义的保护方式，但不限于此，而是可以是任何已经存在的或未来可能出现的能够对源数据进行隐私保护的任何隐私保护方式。

具体而言，结合前面的示例，目标机器学习模型训练装置130可首先获取基于目标数据集来训练目标机器学习模型的初始目标函数。目标机器学习模型的初始目标函数的形式可与源机器学习模型的初始源目标函数相似，或者也可以是由用户任意选择或根据需求、经验等因素确定的函数形式。

在获得了目标机器学习模型的初始目标函数之后，目标机器学习模型训练装置130可构建至少以变换源目标函数和初始目标函数为基础的多任务目标函数，并通过求解所述多任务目标函数来训练目标机器学习模型。

这里，所述多任务目标函数可包括变换源目标函数、初始目标函数和正则项的加权和；或者，所述多任务目标函数可包括变换源目标函数、由初始目标函数在数据隐私保护方式下转换而来的变换目标函数和正则项的加权和，其中，所述正则项用于衡量源机器学习模型与目标机器学习模型的参数之间的差异和/或防止过拟合

仅作为示例，可如下构建多任务目标函数F(w)：

在上述构成的多任务目标函数之中，w_t是需要被训练的目标机器学习模型的参数，D_t是目标数据集，

是变换源目标函数，F(w_t，D_t)是目标机器学习模型的初始目标函数。h(w_s，w_t)是用于迁移的正则项，用于衡量源机器学习模型与目标机器学习模型的参数之间的差异和/或防止过拟合。仅作为示例，可使得

然而，应该理解，该正则项的表达形式仅是为了便于说明而列举的示例，本申请不限于此，还可使用其他类型的正则项表示形式，只要能够实现上述衡量源机器学习模型与目标机器学习模型的参数之间的差异和/或防止过拟合目的即可。此外，η₁和η₂分别是目标机器学习模型的初始目标函数以及上述正则化项的权重。

目标机器学习模型训练装置130可通过对上述构建的多任务目标函数F(w_s，w_t)求解来训练目标机器学习模型(即，获取

)。

然而，应该理解，等式(21)中所示的多任务目标函数F(w_s，w_t)的构成形式仅是示例，本发明不限于此。例如，所述多任务目标函数可包括变换源目标函数和初始目标函数的加权和；或者，所述多任务目标函数包括变换源目标函数和由初始目标函数在数据隐私保护方式下转换而来的变换目标函数的加权和，其中，通过在源机器学习模型的参数等同于目标机器学习模型的参数的约束下，求解所述多任务目标函数来训练目标机器学习模型。

例如，所述多任务目标函数F(w_s，w_t)可仅包括变换源目标函数和初始目标函数的加权和，即：

使得

此时，目标机器学习模型训练装置130可通过在源机器学习模型的参数等同于目标机器学习模型的参数(即，w_s＝w_t)的约束下，求解所述多任务目标函数F(w_s，w_t)来训练目标机器学习模型w_t。

优选地，为了防止目标数据集的隐私泄露，目标机器学习模型训练装置130也可利用在数据隐私保护方式下对目标机器学习模型的初始目标函数进行转换而获得的针对目标机器学习模型的变换目标函数

来实现对目标机器学习模型的训练。也就是说，在本发明的示例性实施例中，目标函数获取装置120还可在数据隐私保护方式下对目标机器学习模型的初始目标函数F(w_t，D_t)进行转换以获得针对目标机器学习模型的变换目标函数

并且目标机器学习模型训练装置130可使用

取代上述等式(19)和(20)中的F(w_t，D_t)来对多任务目标函数F(w_s，w_t)求解，从而实现对目标机器学习模型的训练。

应该理解，在本发明的示例性实施例中，利用目标函数获取装置120获得针对目标机器学习模型的变换目标函数

的方式与上文中所描述的获得变换源目标函数

的方式相似，因此为了简明，在此将不再进行进一步解释。

此外，尽管在以上示例中以线性回归模型和逻辑回归模型进行了说明，但这仅是为了使本申请便于理解而列举的示例，初始源目标函数的表达形式不限于此，而是可根据实际需求、用户经验、数据集等各种因素而被任意设置。

图2是示出根据本公开示例性实施例的在数据隐私保护方式下执行机器学习的方法(以下，为描述方便，将其简称为“机器学习方法”)的流程图。

这里，作为示例，图2所示的机器学习方法可由图1所示的机器学习系统100来执行，也可完全通过计算机程序或指令以软件方式实现，还可通过特定配置的计算系统或计算装置来执行。为了描述方便，假设图2所示的方法由图1所示的机器学习系统100来执行，并假设机器学习系统100可具有图1所示的配置。

参照图2，在步骤S210，目标数据集获取装置110可获取目标数据集。以上在参照图1描述目标数据集获取装置110时描述的与获取目标数据集有关的任何内容均适应于此，因此，这里不在对其进行赘述。

在步骤S220，目标函数获取装置120可获取变换源目标函数。这里，变换源目标函数由基于源数据集来训练源机器学习模型的初始源目标函数在数据隐私保护方式下转换而来。这里，作为示例，源数据隐私保护方式可以是遵循差分隐私保护定义的保护方式，但不限于此。此外，所述源机器学习模型可以是例如广义线性模型，例如，逻辑回归模型，但不限于此。

具体地，可通过对源初始目标函数添加噪声项来将初始源目标函数转换为变换源目标函数。仅作为示例，如参照图1所描述的，可获得初始源目标函数的多项展开式，并在多项展开式中的每一项的系数分别添加随机噪声。在本发明的示例性实施例中，当初始源目标函数无法被直接展开为多项展开式形式(例如，源机器学习模型为逻辑回归模型)时，可使用泰勒展开式对其进行展开，但本发明不限于此，也可应用与泰勒展开式相似的其它展开形式。此外，在本发明的示例性实施例中，对多项展开式的系数所添加的随机噪声的强度整体上可与源机器学习模型的样本特征维度大小的平方成正比。然而，当源机器学习模型的不同样本特征针对模型标记而言彼此独立时，可对所述多项展开式中的至少一项进行进一步的分解，并对所述至少一项添加随机噪声，在这种情况下，所添加的随机噪声的强度整体上可与源机器学习模型的样本特征维度大小成正比。

以上已参照图1对产生变换源目标函数的具体操作进行了详细描述，因此为了简明，在此将不再对其进行再次阐述。

在获取了通过对初始源目标函数进行转换而得到的变换源目标函数之后，所述方法可进行到步骤230。

在步骤230，目标机器学习模型训练装置130可基于目标数据集，结合所述变换源目标函数来训练目标机器学习模型。在本发明的示例性实施例中，目标机器学习模型可与目标机器学习模型属于基于相同类型的机器学习模型，并且/或者，源机器学习模型与目标机器学习模型可针对相同的预测目标。

这里，目标机器学习模型训练装置130可基于目标数据集，结合所述变换源目标函数来在数据隐私保护方式下训练目标机器学习模型，作为示例，此处的数据隐私保护方式为遵循差分隐私定义的保护方式。

具体来说，目标机器学习模型训练装置130可获取基于目标数据集来训练目标机器学习模型的初始目标函数，并构建至少以变换源目标函数和初始目标函数为基础的多任务目标函数，之后，目标机器学习模型训练装置130可通过求解所述多任务目标函数来训练目标机器学习模型。

仅作为示例，所述多任务目标函数可包括变换源目标函数、初始目标函数和正则项的加权和。所述正则项用于衡量源机器学习模型与目标机器学习模型的参数之间的差异和/或防止过拟合，并且用于使源机器学习模型和目标机器学习模型尽量接近。或者，优选地，如上文参照图1所描述的，所述多任务目标函数也可包括变换源目标函数、由初始目标函数在数据隐私保护方式下转换而来的变换目标函数和正则项的加权和，

作为另一示例，所述多任务目标函数可包括变换源目标函数和初始目标函数的加权和。或者，优选地，所述多任务目标函数可包括变换源目标函数和由初始目标函数在数据隐私保护方式下转换而来的变换目标函数的加权和。在这种情况下，目标机器学习模型训练装置130可通过在源机器学习模型的参数等同于目标机器学习模型的参数的约束下，求解所述多任务目标函数来训练目标机器学习模型。

按照以上方式训练出的目标机器学习模型可用于执行业务决策，例如，所述业务决策可涉及交易反欺诈、账户开通反欺诈、智能营销、智能推荐、贷款评估之中的至少一项，但不限于此。事实上，本公开对目标机器学习模型可被应用于的具体业务决策的类型并无任何限制，只要是适于利用机器学习模型进行决策的业务即可。

以上描述的根据本公开示例性实施例的在数据隐私保护方式下执行机器学习的方法，既可以确保源数据隐私和目标数据隐私的不被泄露，同时能够通过迁移项将源数据的知识迁移到目标数据集，从而便于利用更多数据源的数据进行机器学习来训练机器学习模型，使得训练出的目标机器学习模型的效果能够具有更佳的模型效果。

需要说明的是，尽管以上在描述图2时，按顺序对图2中的步骤进行了描述，但是，本领域技术人员清楚的是，上述方法中的各个步骤不一定按顺序执行，而是可按照相反的顺序或并行地执行，例如，以上描述的步骤S210与步骤S220便可按照相反顺序或并行执行。另外，在执行步骤S230的同时，也可执行步骤S210或步骤220，也就是说，在利用已经获取的目标数据集和变换源目标函数训练目标机器学习模型的过程中，可同时获取新的目标数据集或变换目标函数，以用于例如后续目标机器学习模型的更新操作等。

为便于更清楚且直观地理解本公开的构思，以下结合图3以金融领域中的贷款审核场景为例(即，目标机器学习模型将用于贷款审核这一业务决策)，对根据本公开示例性实施例的在数据隐私保护下执行机器学习的构思进行简要描述。但是应理解，图3并未用于限制本发明示例性实施例的范围。

如今，随着机器学习的不断发展，其在金融领域开始发挥着日益重要的作用，从审批贷款到资产管理，再到风险评估，机器学习在金融生态系统的许多阶段都起着不可或缺的作用，即，通过机器学习模型的预测来帮助进行业务决策。例如，银行可利用机器学习模型来决定是否批准贷款申请者的贷款申请。但是，单个银行自身所能获得的关于贷款申请者的历史金融活动相关记录可能并不足以全面地反映该贷款申请者的真实信用或贷款偿还能力等情况，在这种情况下，该银行可能期望能够获得该贷款申请者在其他机构的历史金融活动相关记录。然而，出于客户隐私保护的考虑，该银行很难利用其他机构所拥有的贷款申请者的历史金融活动相关记录。然而，利用本公开的构思则可实现在用户数据保护隐私的情况下充分利用多个机构的数据来帮助银行更准确地判断是否批准贷款申请者的贷款申请，进而减少金融风险。

参照图3，目标数据源310(例如，第一银行机构)可将其拥有的涉及用户历史金融活动的目标数据集发送给机器学习系统330。这里，目标数据集中的每条目标数据记录可包括例如用户的姓名、国籍、职业、薪酬、财产、信用记录、历史贷款金额等多种属性信息。此外，目标数据记录还可包括例如关于用户是否按时清偿贷款的标记信息。

这里，机器学习系统330可以是以上参照图1描述的机器学习系统100。作为示例，机器学习系统330可以由专门提供机器学习服务的实体(例如，机器学习服务提供商)提供，或者也可由目标数据源310自己构建。相应地，机器学习系统330既可设置在云端(如公有云、私有云或混合云)，也可以设置在银行机构的本地系统。这里，为描述方便，假设机器学习系统330被设置在公有云端，并且由机器学习服务提供商构建。

为了更准确地预测用户的贷款风险指数或者用户的贷款偿还能力，第一银行机构可例如与源数据源320(例如，第二机构)达成彼此在保护用户数据隐私的情况下共享数据的协议。在这种情况下，基于该协议，作为示例，在相应安全措施下，源数据源320可将其所拥有的源数据集的变换源目标函数发送给机器学习系统330，这里，源数据集例如可以是与以上描述的目标数据集类似的涉及用户金融活动的数据集。然后，可如以上参照图1和图2所述在数据隐私保护方式下基于源数据集执行机器学习相关处理，并在执行机器学习处理的过程中获取关于源数据集的迁移项(例如，源数据集的目标函数)，以将源数据集上的知识迁移到目标数据集。这里，源机器学习模型可以是例如用于预测用户贷款风险指数或贷款清偿能力的机器学习模型或者其他类似预测目标的机器学习模型，或者是与贷款估计业务相关的针对其他预测目标的机器学习模型。

在这种情况下，例如，源数据源320可事先通过其自身的机器学习系统或者委托其他机器学习服务提供商在源数据隐私保护方式下基于源数据集执行机器学习相关处理来获取迁移项，并将迁移项发送给机器学习系统330。可选地，源数据源320也可选择将源数据集/迁移项发送给目标数据源，然后，由目标数据源将源数据集/迁移项与目标数据集一起提供给机器学习系统330，以用于机器学习。

随后，机器学习系统330在数据隐私保护方式下，基于目标数据集，结合获取的迁移项来训练目标机器学习模型。目标数据机器学习模型可以是例如用于预测用户贷款风险指数或贷款清偿能力的机器学习模型。在目标机器学习模型被训练出之后，目标数据源310可将涉及至少一个贷款申请者的待预测数据集发送给机器学习系统330。机器学习系统330可利用训练出的目标机器学习模型针对待预测数据集提供关于每个贷款申请者的贷款风险指数或贷款清偿能力评分，并将预测结果反馈给目标数据源310。随后，目标数据源310可基于接收到的预测结果判断是否批准贷款申请者提出的贷款申请。通过以上方式，银行机构可以利用机器学习在保护用户数据隐私的同时利用其他机构的数据和自身拥有的数据获得更准确的判断结果，从而更好地进行自动业务决策。

需要说明的是，尽管以上以机器学习在金融领域中的贷款估计应用为例介绍了本公开的构思，但是，本领域人员清楚的是，根据本公开示例性实施例的在数据隐私保护下执行机器学习的方法和系统不限于应用于金融领域，也不限于用于执行贷款估计这样的业务决策。而是，可应用于任何涉及数据安全和机器学习的领域和业务决策。例如，根据本公开示例性实施例的在数据隐私保护下执行机器学习的方法和系统还可应用于交易反欺诈、账户开通反欺诈、智能营销、智能推荐等。

作为另一示例，根据本公开示例性实施例的在数据隐私保护下执行机器学习的方法和系统还可应用于公共卫生领域，例如，用于执行生理数据的预测。例如，一家医疗机构希望建立起对某项健康指标的预测模型，但是只用本医疗机构的数据进行训练，则预测模型的效果可能欠佳。而事实上，可能很多其他医疗机构都拥有相应的数据，如果可以利用其它医疗机构的数据，则可以提升该医疗机构的针对某项健康指标的预测模型的预测效果。此时，便可利用本公开的构思在保护各医疗机构的用户数据隐私的情况下，综合各医疗结构的数据利用机器学习提供更加准确的预测结果。

以上已参照图1和图2描述了根据本公开示例性实施例的机器学习方法和机器学习系统，并参照图3示意性地描述了本公开的构思。然而，应理解的是：附图中示出的装置和系统可被分别配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如，这些系统、装置可对应于专用的集成电路，也可对应于纯粹的软件代码，还可对应于软件与硬件相结合的模块。此外，这些系统或装置所实现的一个或多个功能也可由物理实体设备(例如，处理器、客户端或服务器等)中的组件来统一执行。

此外，上述方法可通过记录在计算机可读存储介质上的指令来实现，例如，根据本申请的示例性实施例，可提供一种存储指令的计算机可读存储介质，其中，当所述指令被至少一个计算装置运行时，促使所述至少一个计算装置执行以下步骤：获取目标数据集；获取变换源目标函数，其中，变换源目标函数由基于源数据集来训练源机器学习模型的初始源目标函数在数据隐私保护方式下转换而来；以及基于目标数据集，结合所述变换源目标函数来训练目标机器学习模型。

上述计算机可读存储介质中存储的指令可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，应注意，所述指令还可用于执行除了上述步骤以外的附加步骤或者在执行上述步骤时执行更为具体的处理，这些附加步骤和进一步处理的内容已经在参照图1和图2进行相关方法的描述过程中提及，因此这里为了避免重复将不再进行赘述。

应注意，根据本公开示例性实施例的机器学习系统可完全依赖计算机程序或指令的运行来实现相应的功能，即，各个装置在计算机程序的功能架构中与各步骤相应，使得整个系统通过专门的软件包(例如，lib库)而被调用，以实现相应的功能。

另一方面，当图1所示的系统和装置以软件、固件、中间件或微代码实现时，用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中，使得至少一个处理器或至少一个计算装置可通过读取并运行相应的程序代码或者代码段来执行相应的操作。

例如，根据本申请示例性实施例，可提供一种包括至少一个计算装置和至少一个存储指令的存储装置的系统，其中，所述指令在被所述至少一个计算装置运行时，促使所述至少一个计算装置执行下述步骤：获取目标数据集；获取变换源目标函数，其中，变换源目标函数由基于源数据集来训练源机器学习模型的初始源目标函数在数据隐私保护方式下转换而来；以及基于目标数据集，结合所述变换源目标函数来训练目标机器学习模型。

具体说来，上述系统可以部署在服务器或客户端中，也可以部署在分布式网络环境中的节点上。此外，所述系统可以是PC计算机、平板装置、个人数字助理、智能手机、web应用或其他能够执行上述指令集合的装置。此外，所述系统还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。另外，所述系统的所有组件可经由总线和/或网络而彼此连接。

这里，所述系统并非必须是单个系统，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。所述系统还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子装置。

在所述系统中，所述至少一个计算装置可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，所述至少一个计算装置还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。计算装置可运行存储在存储装置之一中的指令或代码，其中，所述存储装置还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，所述网络接口装置可采用任何已知的传输协议。

存储装置可与计算装置集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储装置可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储装置和计算装置可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得计算装置能够读取存储在存储装置中的指令。

以上描述了本申请的各示例性实施例，应理解，上述描述仅是示例性的，并非穷尽性的，本申请不限于所披露的各示例性实施例。在不偏离本申请的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此，本申请的保护范围应该以权利要求的范围为准。

Claims

1.一种由计算机设备在数据隐私保护下执行机器学习的方法，包括：

获取目标数据集；

获取变换源目标函数，其中，变换源目标函数由基于源数据集来训练源机器学习模型的初始源目标函数在数据隐私保护方式下转换而来；以及

基于目标数据集，结合所述变换源目标函数来训练目标机器学习模型，

其中，目标数据集涉及用户不期望被他人获知的个人隐私信息，目标机器学习模型用于执行业务决策，

其中，初始源目标函数通过添加噪声项而被转换为变换源目标函数。

2.如权利要求1所述的方法，其中，基于目标数据集，结合所述变换源目标函数来训练目标机器学习模型的步骤包括：

基于目标数据集，结合所述变换源目标函数来在数据隐私保护方式下训练目标机器学习模型。

3.如权利要求1所述的方法，其中，初始源目标函数通过以下方式而被添加噪声项：

获得初始源目标函数的多项展开式，并在多项展开式中的每一项的系数分别添加随机噪声。

4.如权利要求3所述的方法，其中，所添加的随机噪声的强度整体上与源机器学习模型的样本特征维度大小的平方成正比。

5.如权利要求3所述的方法，其中，源机器学习模型为逻辑回归模型，所述多项展开式为泰勒展开式，并且，基于源机器学习模型的不同样本特征针对模型标记而言彼此独立的假设来进一步分解多项展开式中的至少一项，并针对所述至少一项添加随机噪声，

其中，所添加的随机噪声的强度整体上与源机器学习模型的样本特征维度大小成正比。

6.如权利要求1所述的方法，其中，基于目标数据集，结合所述变换源目标函数来训练目标机器学习模型的步骤包括：

获取基于目标数据集来训练目标机器学习模型的初始目标函数；

构建至少以变换源目标函数和初始目标函数为基础的多任务目标函数；以及

通过求解所述多任务目标函数来训练目标机器学习模型。

7.如权利要求6所述的方法，其中，所述多任务目标函数包括变换源目标函数、初始目标函数和正则项的加权和；或者，所述多任务目标函数包括变换源目标函数、由初始目标函数在数据隐私保护方式下转换而来的变换目标函数和正则项的加权和，

其中，所述正则项用于衡量源机器学习模型与目标机器学习模型的参数之间的差异和/或防止过拟合。

8.如权利要求6所述的方法，其中，所述多任务目标函数包括变换源目标函数和初始目标函数的加权和；或者，所述多任务目标函数包括变换源目标函数和由初始目标函数在数据隐私保护方式下转换而来的变换目标函数的加权和，

其中，通过在源机器学习模型的参数等同于目标机器学习模型的参数的约束下，求解所述多任务目标函数来训练目标机器学习模型。

9.如权利要求1所述的方法，其中，所述数据隐私保护方式为遵循差分隐私定义的保护方式。

10.如权利要求1所述的方法，其中，源机器学习模型与目标机器学习模型属于基于相同类型的机器学习模型；并且/或者，源机器学习模型与目标机器学习模型针对相同的预测目标。

11.如权利要求1所述的方法，其中，所述业务决策涉及交易反欺诈、账户开通反欺诈、智能营销、智能推荐、贷款评估之中的至少一项。

12.一种在数据隐私保护下执行机器学习的系统，所述系统包括：

目标数据集获取装置，被配置为获取目标数据集；

目标函数获取装置，被配置为获取变换源目标函数，其中，变换源目标函数由基于源数据集来训练源机器学习模型的初始源目标函数在数据隐私保护方式下转换而来；以及

目标机器学习模型训练装置，被配置为基于目标数据集，结合所述变换源目标函数来训练目标机器学习模型，

13.如权利要求12所述的系统，其中，目标机器学习模型训练装置被配置为基于目标数据集，结合所述变换源目标函数来在数据隐私保护方式下训练目标机器学习模型。

14.如权利要求12所述的系统，其中，初始源目标函数通过以下方式而被添加噪声项：

15.如权利要求14所述的系统，其中，所添加的随机噪声的强度整体上与源机器学习模型的样本特征维度大小的平方成正比。

16.如权利要求14所述的系统，其中，源机器学习模型为逻辑回归模型，所述多项展开式为泰勒展开式，并且，

目标函数获取装置基于源机器学习模型的不同样本特征针对模型标记而言彼此独立的假设来进一步分解多项展开式中的至少一项，并针对所述至少一项添加随机噪声，

17.如权利要求12所述的系统，其中，目标机器学习模型训练装置被配置为通过以下操作来训练目标机器学习模型：

通过求解所述多任务目标函数来训练目标机器学习模型。

18.如权利要求17所述的系统，其中，

所述多任务目标函数包括变换源目标函数、初始目标函数和正则项的加权和；

或者，

所述多任务目标函数包括变换源目标函数、由初始目标函数在数据隐私保护方式下转换而来的变换目标函数和正则项的加权和，

19.如权利要求17所述的系统，其中，

所述多任务目标函数包括变换源目标函数和初始目标函数的加权和；

或者，

所述多任务目标函数包括变换源目标函数和由初始目标函数在数据隐私保护方式下转换而来的变换目标函数的加权和，

20.如权利要求12所述的系统，其中，所述数据隐私保护方式为遵循差分隐私定义的保护方式。

21.如权利要求12所述的系统，其中，源机器学习模型与目标机器学习模型属于基于相同类型的机器学习模型；并且/或者，源机器学习模型与目标机器学习模型针对相同的预测目标。

22.如权利要求12所述的系统，其中，所述业务决策涉及交易反欺诈、账户开通反欺诈、智能营销、智能推荐、贷款评估之中的至少一项。

23.一种存储指令的计算机可读存储介质，其中，当所述指令被至少一个计算装置运行时，促使所述至少一个计算装置执行如权利要求1至11中的任一权利要求所述的在数据隐私保护下执行机器学习的方法。

24.一种包括至少一个计算装置和至少一个存储指令的存储装置的系统，其中，所述指令在被所述至少一个计算装置运行时，促使所述至少一个计算装置执行如权利要求1至11中的任一权利要求所述的在数据隐私保护下执行机器学习的方法。