CN110858253A - 在数据隐私保护下执行机器学习的方法和系统 - Google Patents
在数据隐私保护下执行机器学习的方法和系统 Download PDFInfo
- Publication number
- CN110858253A CN110858253A CN201910618274.XA CN201910618274A CN110858253A CN 110858253 A CN110858253 A CN 110858253A CN 201910618274 A CN201910618274 A CN 201910618274A CN 110858253 A CN110858253 A CN 110858253A
- Authority
- CN
- China
- Prior art keywords
- machine learning
- data set
- target
- source data
- learning model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 302
- 238000000034 method Methods 0.000 title claims abstract description 72
- 230000005012 migration Effects 0.000 claims abstract description 112
- 238000013508 migration Methods 0.000 claims abstract description 112
- 238000012549 training Methods 0.000 claims abstract description 63
- 230000006870 function Effects 0.000 claims description 77
- 238000012545 processing Methods 0.000 claims description 48
- 230000008569 process Effects 0.000 claims description 38
- 230000000694 effects Effects 0.000 description 14
- 238000007477 logistic regression Methods 0.000 description 13
- 206010000117 Abnormal behaviour Diseases 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 238000007726 management method Methods 0.000 description 8
- 238000012015 optical character recognition Methods 0.000 description 7
- 238000001514 detection method Methods 0.000 description 6
- 238000004378 air conditioning Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 5
- 230000036541 health Effects 0.000 description 5
- 230000007704 transition Effects 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 238000003745 diagnosis Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 238000004900 laundering Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000002265 prevention Effects 0.000 description 3
- 238000012552 review Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 238000012550 audit Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 241000238558 Eucarida Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000000035 biogenic effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004962 physiological condition Effects 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 230000001681 protective effect Effects 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
Abstract
提供了一种在数据隐私保护下执行机器学习的方法和系统,所述方法包括:获取目标数据集;获取关于源数据集的迁移项,其中,所述迁移项用于在源数据隐私保护方式下将源数据集的知识迁移到目标数据集以在目标数据集上训练目标机器学习模型;以及在目标数据隐私保护方式下,基于目标数据集,结合所述迁移项来训练目标机器学习模型。
Description
技术领域
本申请要求申请号为201810939380.3,申请日为2018年8月17日,名称为“在数据隐私保护下执行机器学习的方法和系统”的中国专利申请的优先权。本发明总体说来涉及人工智能领域中的数据安全技术,更具体地说,涉及一种在数据隐私保护下执行机器学习的方法和系统。
背景技术
众所周知,机器学习往往需要大量的数据以通过计算的手段从大量数据中挖掘出有价值的潜在信息。尽管随着信息技术的发展产生了海量的数据,然而,当前环境下,人们对数据的隐私保护越来越重视,这使得即使理论上可用于机器学习的数据很多,也因为不同数据源(即数据拥有者,如银行、保险公司、医院、金融机构、学校、政府部分等)出于其对自身所拥有的数据的隐私保护上的考虑,而不愿或不能将其数据直接共享给其他有需要的数据使用者,从而使得实际上可用于机器学习的数据仍然可能不足,由此导致无法有效地利用机器学习基于更多的相关数据挖掘出能够创造更多价值的信息。此外,即使已经从其他数据源获取到含有隐私信息的数据或者机构本身拥有含有隐私信息的数据,基于这些数据训练出的机器学习模型仍然可能泄露数据的隐私信息。也就是说,目前还难以有效利用不同来源的数据来共同挖掘价值。
鉴于此,需要既可以保护数据中的隐私信息不被泄露,同时能够有效利用不同数据源的数据进行机器学习的技术。
发明内容
根据本公开示例性实施例,提供了一种在数据隐私保护下执行机器学习的方法,所述方法可包括:获取目标数据集;获取关于源数据集的迁移项,其中,所述迁移项用于在源数据隐私保护方式下将源数据集的知识迁移到目标数据集以在目标数据集上训练目标机器学习模型;以及在目标数据隐私保护方式下,基于目标数据集,结合所述迁移项来训练目标机器学习模型。
可选地,获取关于源数据集的迁移项的步骤可包括:从外部接收所述迁移项;或者,获取关于源数据集的迁移项的步骤可包括:获取源数据集;在源数据隐私保护方式下,基于源数据集执行与机器学习相关的处理;以及在基于源数据集执行与机器学习相关的处理的过程中获取关于源数据集的迁移项。
可选地,所述源数据隐私保护方式和/或所述目标数据隐私保护方式可以是遵循差分隐私定义的保护方式。
可选地,所述迁移项可涉及在基于源数据集执行与机器学习相关的处理的过程中得到的模型参数、目标函数和/或关于源数据的统计信息。
可选地,所述源数据隐私保护方式可以是在基于源数据集执行与机器学习相关的处理的过程中添加随机噪声;并且/或者,所述目标数据隐私保护方式可以是在训练目标机器学习模型的过程中添加随机噪声。
可选地,在源数据隐私保护方式下基于源数据集执行与机器学习相关的处理可包括:在源数据隐私保护方式下基于源数据集训练源机器学习模型。
可选地,源机器学习模型与目标机器学习模型可属于基于相同类型的机器学习模型。
可选地,在所述源数据隐私保护方式中可将用于训练源机器学习模型的目标函数构造为至少包括损失函数和噪声项;并且/或者,在所述目标数据隐私保护方式中可将用于训练目标机器学习模型的目标函数构造为至少包括损失函数和噪声项。
可选地,所述相同类型的机器学习模型可以是逻辑回归模型,并且,所述迁移项为源机器学习模型的参数,
可选地,在目标数据隐私保护方式下,基于目标数据集,结合所述迁移项来训练目标机器学习模型的步骤可包括:将用于训练目标机器学习模型的目标函数构造为还反映目标机器学习模型的参数与所述迁移项之间的差值;基于目标数据集,通过求解构造的目标函数来训练目标机器学习模型。
可选地,所述目标机器学习模型可用于执行业务决策,其中,所述业务决策可涉及交易反欺诈、账户开通反欺诈、智能营销、智能推荐、贷款评估之中的至少一项。
可选地,所述目标机器学习模型用于如下场景中的任一场景:
图像处理场景;
语音识别场景;
自然语言处理场景;
自动控制场景;
智能问答场景;
业务决策场景;
推荐业务场景;
搜索场景;
异常行为检测场景。
可选地,
所述图像处理场景包括:光学字符识别OCR、人脸识别、物体识别和图片分类;
所述语音识别场景包括:可通过语音进行人机交互的产品;
所述自然语音处理场景包括:审查文本、垃圾内容识别和文本分类;
所述自动控制场景包括:矿井组调节操作预测、风力发电机组调节操作预测和空调系统调节操作预测;
所述智能问答场景包括:聊天机器人和智能客服;
所述业务决策场景包括:金融科技领域、医疗领域和市政领域的场景,其中,金融科技领域包括:营销与获客、反欺诈、反洗钱、承保和信用评分,医疗领域包括:疾病筛查和预防、个性化健康管理和辅助诊断,市政领域包括:社会治理与监管执法、资源环境和设施管理、产业发展和经济分析、公众服务和民生保障和智慧城市;
所述推荐业务场景包括:新闻、广告、音乐、咨询、视频和金融产品的推荐;
所述搜索场景,包括:网页搜索、图像搜索、文本搜索、视频搜索;
所述异常行为检测场景,包括:国家电网客户用电异常行为检测、网络恶意流量检测和操作日志中的异常行为检测。
根据本公开另一示例性实施例,提供了一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行如上所述的在数据隐私保护下执行机器学习的方法。
根据本公开另一示例性实施例,提供了一种包括至少一个计算装置和至少一个存储指令的存储装置的系统,其中,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行如上所述的在数据隐私保护下执行机器学习的方法。
根据本公开另一示例性实施例,提供了一种用于在数据隐私保护下执行机器学习的系统,所述系统可包括:目标数据集获取装置,被配置为获取目标数据集;迁移项获取装置,被配置为获取关于源数据集的迁移项,其中,所述迁移项用于在源数据隐私保护方式下将源数据集的知识迁移到目标数据集以在目标数据集上训练目标机器学习模型;以及目标机器学习模型训练装置,被配置为在目标数据隐私保护方式下,基于目标数据集,结合所述迁移项来训练目标机器学习模型。
可选地,迁移项获取装置可被配置为从外部接收所述迁移项,或者,迁移项获取装置可被配置为通过以下操作来获取所述迁移项:获取源数据集;在源数据隐私保护方式下,基于源数据集执行与机器学习相关的处理;以及在基于源数据集执行与机器学习相关的处理的过程中获取关于源数据集的迁移项。
可选地,所述源数据隐私保护方式和/或所述目标数据隐私保护方式可以是遵循差分隐私定义的保护方式。
可选地,所述迁移项可涉及在基于源数据集执行与机器学习相关的处理的过程中得到的模型参数、目标函数和/或关于源数据的统计信息。
可选地,所述源数据隐私保护方式可以是在基于源数据集执行与机器学习相关的处理的过程中添加随机噪声;并且/或者,所述目标数据隐私保护方式可以是在训练目标机器学习模型的过程中添加随机噪声。
可选地,在源数据隐私保护方式下基于源数据集执行与机器学习相关的处理的操作可包括:在源数据隐私保护方式下基于源数据集训练源机器学习模型。
可选地,源机器学习模型与目标机器学习模型可属于基于相同类型的机器学习模型。
可选地,在所述源数据隐私保护方式中,迁移项获取装置可将用于训练源机器学习模型的目标函数构造为至少包括损失函数和噪声项;并且/或者,在所述目标数据隐私保护方式中,目标机器学习模型训练装置可将用于训练目标机器学习模型的目标函数构造为至少包括损失函数和噪声项。
可选地,所述相同类型的机器学习模型可以是逻辑回归模型,并且,所述迁移项可以是源机器学习模型的参数。并且,可选地,目标机器学习模型训练装置可被配置为:将用于训练目标机器学习模型的目标函数构造为还反映目标机器学习模型的参数与所述迁移项之间的差值;基于目标数据集,通过求解构造的目标函数来训练目标机器学习模型。
可选地,所述目标机器学习模型用于执行业务决策,其中,所述业务决策涉及交易反欺诈、账户开通反欺诈、智能营销、智能推荐、贷款评估之中的至少一项。
可选地,所述目标机器学习模型用于如下场景中的任一场景:
图像处理场景;
语音识别场景;
自然语言处理场景;
自动控制场景;
智能问答场景;
业务决策场景;
推荐业务场景;
搜索场景;
异常行为检测场景。
可选地,
所述图像处理场景包括:光学字符识别OCR、人脸识别、物体识别和图片分类;
所述语音识别场景包括:可通过语音进行人机交互的产品;
所述自然语音处理场景包括:审查文本、垃圾内容识别和文本分类;
所述自动控制场景包括:矿井组调节操作预测、风力发电机组调节操作预测和空调系统调节操作预测;
所述智能问答场景包括:聊天机器人和智能客服;
所述业务决策场景包括:金融科技领域、医疗领域和市政领域的场景,其中,金融科技领域包括:营销与获客、反欺诈、反洗钱、承保和信用评分,医疗领域包括:疾病筛查和预防、个性化健康管理和辅助诊断,市政领域包括:社会治理与监管执法、资源环境和设施管理、产业发展和经济分析、公众服务和民生保障和智慧城市;
所述推荐业务场景包括:新闻、广告、音乐、咨询、视频和金融产品的推荐;
所述搜索场景,包括:网页搜索、图像搜索、文本搜索、视频搜索;
所述异常行为检测场景,包括:国家电网客户用电异常行为检测、网络恶意流量检测和操作日志中的异常行为检测。
根据本公开示例性实施例的在数据隐私保护下执行机器学习的方法和系统不仅可实现对源数据和目标数据的隐私保护,并且同时可将源数据集中的知识迁移到目标数据集,进而能够基于目标数据集,结合迁移的知识,训练出模型效果更佳的目标机器学习模型。
附图说明
从下面结合附图对本发明实施例的详细描述中,本发明的这些和/或其他方面和优点将变得更加清楚并更容易理解,其中:
图1是示出根据本公开示例性实施例的在数据隐私保护下执行机器学习的系统的框图;
图2是示出根据本公开示例性实施例的在数据隐私保护方式下执行机器学习的方法的流程图;
图3是示出根据本公开示例性实施例的在数据隐私保护方式下执行机器学习的构思的示意图。
具体实施方式
为了使本领域技术人员更好地理解本发明,下面结合附图和具体实施方式对本发明的示例性实施例作进一步详细说明。
图1是示出根据本公开示例性实施例的在数据隐私保护下执行机器学习的系统(以下,为描述方便,将其简称为“机器学习系统”)100的框图。参照图1,机器学习系统100可包括目标数据集获取装置110、迁移项获取装置120和目标机器学习模型训练装置130。
具体说来,目标数据集获取装置110可获取目标数据集。这里,目标数据集可以是任何可被用于目标机器学习模型训练的数据集,并且可包括多条目标数据记录和/或目标数据记录经过各种数据处理或特征处理之后的结果。此外,可选地,目标数据集还可包括目标数据记录关于机器学习目标的标记(label)。例如,目标数据记录可包括反映对象或事件的各种属性的至少一个属性字段(例如,用户ID、年龄、性别、历史信用记录等),目标数据记录关于机器学习目标的标记可以是例如用户是否有能力偿还贷款、用户是否接受推荐的内容等,但不限于此。此外,目标数据集可涉及用户不期望被他人获知的各种个人隐私信息(例如,用户的姓名、身份证号码、手机号码、财产总额、贷款记录等),并且也可包括不涉及个人隐私的群体相关信息。这里,目标数据记录可来源于不同的数据源(例如,网络运营商、银行机构、医疗机构等),并且目标数据集可被特定机构或组织在获得用户授权的情况下使用,但是用户往往期望其涉及个人隐私的信息不再进一步被其他组织或个人获知。需要说明的是,在本公开中,“隐私”可泛指涉及单个个体的任何属性。
作为示例,目标数据集获取装置110可一次性或分批次地从目标数据源获取目标数据集,并且可以手动、自动或半自动方式获取目标数据集。此外,目标数据集获取装置110可实时或离线地获取目标数据集中的目标数据记录和/或关于目标数据记录的标记,并且目标数据集获取装置110可同时获取目标数据记录和关于目标数据记录的标记,或者获取关于目标数据记录的标记的时间可滞后于获取目标数据记录的时间。此外,目标数据集获取装置110可以以加密的形式从目标数据源获取目标数据集或者直接利用其本地已经存储的目标数据集。如果获取的目标数据集是加密的数据,则可选地,机器学习系统100还可包括对目标数据进行解密的装置,并还可包括数据处理装置以将目标数据处理为适用于当前机器学习的形式。需要说明的是,本公开对目标数据集中的目标数据记录及其标记的种类、形式、内容、目标数据集的获取方式等均无限制,采用任何手段获取的可用于机器学习的数据均可作为以上提及的目标数据集。
然而,如本公开背景技术所述,对于期望挖掘出更多有价值信息的机器学习而言,实际中,仅基于获取的目标数据集可能不足以学习出满足实际任务需求或达到预定效果的机器学习模型,因此,可设法获取来自其他数据源的相关信息,以将来自其他数据源的知识迁移到目标数据集,从而结合目标数据集与来自其他数据源的知识共同进行机器学习,进而可提高机器学习模型的效果。但是,迁移的前提是需要确保:其他数据源的数据集(在本公开中,可被称为“源数据集”)中所涉及的隐私信息不被泄露,即,需要对源数据进行隐私保护。
为此,迁移项获取装置120可获取关于源数据集的迁移项。这里,迁移项可用于在源数据隐私保护方式下将源数据集的知识迁移到目标数据集以在目标数据集上训练目标机器学习模型。具体地,迁移项可以是在源数据被进行隐私保护的情况下(即,在源数据隐私保护方式下)获得的任何与源数据集所包含的知识有关的信息,本公开对迁移项的具体内容和形式不作限制,只要其能够在源数据隐私保护方式下将源数据集的知识迁移到目标数据集即可,例如,迁移项可涉及源数据集的样本、源数据集的特征、基于源数据集获得的模型、用于模型训练的目标函数、关于源数据的统计信息等。
作为示例,迁移项获取装置120可从外部接收关于源数据集的迁移项。例如,迁移项获取装置120可从拥有源数据集的实体、或者授权可对源数据源执行相关处理的实体(例如,提供机器学习相关服务的服务提供商)获取所述迁移项。在这种情况下,迁移项可以是由拥有源数据集的实体或者授权可对源数据源执行相关处理的实体基于源数据集执行机器学习相关处理而获得的,并且可由这些实体将获得的迁移项发送给迁移项获取装置120。这里,根据本发明的示例性实施例,基于源数据集执行机器学习相关处理所针对的预测目标与目标数据集上的目标机器学习模型所针对的预测目标可以是相同的目标(例如,均为预测交易是否为欺诈交易)或相关的目标(例如,具有一定程度近似性的分类问题,例如,预测交易是否为欺诈交易与预测交易是否涉嫌违法)。
与直接从外部获取迁移项不同,可选地,迁移项获取装置120也可通过对源数据集执行机器学习相关处理来获取关于源数据集的迁移项。这里,迁移项获取装置120对源数据集的获取和使用可以是经过授权或经过保护措施的,使得其能够对获取的源数据集进行相应的处理。具体说来,迁移项获取装置120可首先获取源数据集。这里,源数据集可以是与目标数据集有关的任何数据集,相应地,以上关于目标数据集的构成、目标数据集的获取方式等的描述均适用于源数据集,这里不再赘述。另外,尽管为了描述方便,将源数据集描述为由迁移项获取装置120获取,但是,需要说明的是,也可由目标数据集获取装置110来执行获取源数据集的操作,或者,由以上两者共同获取源数据集,本公开对此并不限制。此外,获取的目标数据集、源数据集和迁移项均可存储在机器学习系统的存储装置(未示出)中。作为可选方式,以上存储的目标数据、源数据或迁移项可进行物理或访问权限上的隔离,以确保数据的安全使用。
在获取了源数据集的情况下,出于隐私保护的考虑,机器学习系统100并不能够直接利用获取的源数据集连同目标数据集一起进行机器学习,而是需要在保证源数据被执行隐私保护的情况下才可利用其进行机器学习。为此,迁移项获取装置120可在源数据隐私保护方式下,基于源数据集执行与机器学习相关的处理,并且在基于源数据集执行与机器学习相关的处理的过程中获取关于源数据集的迁移项。根据示例性实施例,源数据隐私保护方式可以是遵循差分隐私定义的保护方式,但不限于此,而是可以是任何已经存在的或未来可能出现的能够对源数据进行隐私保护的任何隐私保护方式。
为便于理解,现在对遵循差分隐私定义的保护方式进行简要描述。假设有一随机机制M(例如,M可以是机器学习模型),对于M而言,输入的任意两个仅相差一个样本的数据集和的输出等于t的概率分别为和并且满足以下等式1(其中,∈是隐私保护程度常数或隐私预算),则可认为M对于任意输入是满足∈差分隐私保护的。
在以上等式1中,∈越小,隐私保护程度越好,反之则越差。∈的具体取值,可根据用户对数据隐私保护程度的要求进行相应地设置。假设有一个用户,对于他而言,是否输入他的个人数据给机制M(假设该个人数据输入前的数据集是该个人数据输入后的数据集是与仅相差该个人数据),对于输出的影响很小(其中,影响由∈的大小来定义),那么可以认为M对于他的隐私起到了保护作用。假设∈=0,则这个用户是否输入自己的数据给M,对M的输出没有任何影响,所以用户的隐私完全被保护。
根据示例性实施例,源数据保护方式可以是在基于源数据集执行与机器学习相关的处理的过程中添加随机噪声。例如,可通过添加随机噪声,使得遵循上述差分隐私保护定义。但是,需要说明的是,关于隐私保护的定义并不仅限于差分隐私保护定义这一种定义方式,而是可以是例如k-匿名化、I多样化、t-closeness等其他关于隐私保护的定义方式。
如上所述,迁移项可以是在源数据隐私保护方式下获得的任何与源数据集所包含的知识有关的信息。具体地,根据本公开示例性实施例,迁移项可涉及在基于源数据集执行与机器学习相关的处理的过程中得到的模型参数、目标函数和/或关于源数据的统计信息,但不限于此。作为示例,基于源数据集执行与机器学习相关的处理的操作可包括:在源数据隐私保护方式下基于源数据集训练源机器学习模型,但不限于此,而是还可包括例如对源数据集执行特征处理或数据统计分析等机器学习相关处理。此外,需要说明的是,上述模型参数、目标函数和/或关于源数据的统计信息均既可以是在基于源数据执行与机器学习相关的处理的过程中直接获得的上述信息本身,也可以是对这些信息进行进一步变换或处理之后所获得的信息,本公开对此并无限制。
作为示例,涉及模型参数的迁移项可以是源机器学习模型的参数,例如,在满足差分隐私保护定义的源数据保护方式下训练源机器学习模型的过程中获得的源机器学习模型的模型参数,此外,还可以是例如源机器学习模型的参数的统计信息等,但不限于此。作为示例,迁移项所涉及的目标函数可以是指为了训练源机器学习模型而构建出的目标函数,在源机器学习模型本身的参数并不进行迁移的情况下,该目标函数可并不单独进行实际求解,但本公开不限于此。作为示例,涉及关于源数据的统计信息的迁移项可以是在源数据隐私保护方式(例如,满足差分隐私保护定义的保护方式)下获取的关于源数据的数据分布信息和/或数据分布变化信息,但不限于此。
如上所述,迁移项获取装置120可在源数据隐私保护方式下基于源数据集训练源机器学习模型。根据示例性实施例,源机器学习模型可以是例如广义线性模型,例如,逻辑回归模型,但不限于此。此外,在源数据隐私保护方式中,迁移项获取装置120可将用于训练源机器学习模型的目标函数构造为至少包括损失函数和噪声项。这里,噪声项可用于在训练源机器学习模型的过程中添加随机噪声,从而使得可实现对源数据的隐私保护。此外,用于训练源机器学习模型的目标函数除了被构造为包括损失函数和噪声项之外,还可被构造为包括其他用于对模型参数进行约束的约束项,例如,还可被构造为包括用于防止模型过拟合现象或防止模型参数过于复杂的正则项、用于隐私保护的补偿项等。
为了便于更直观地理解在源数据隐私保护方式下基于源数据集训练源机器学习模型以获得关于源数据集的迁移项的过程,下面将进一步结合数学表示对该过程进行解释。为描述方便,这里,假设源数据隐私保护方式是遵循差分隐私定义的保护方式,并且源机器学习模型是广义线性模型。
具体地,假设源数据集其中,xi是样本,yi是样本的标记,i∈{1,…,n},其中,n为样本数量,d是样本空间的维度,是d维样本空间,则可基于源数据集利用以下等式2来训练源机器学习模型,从而获得满足差分隐私保护的关于源数据集的迁移项(在该示例性实施例中为源机器学习模型的参数)。
具体地,在利用等式2求解源机器学习模型的参数之前,可令:
1、对源数据集进行缩放,使得对于任意i均满足||xi||≤1,其中,||xi||表示xi的二范数;
接下来,可利用等式2,在源数据隐私保护方式下,基于源数据集训练源机器学习模型,等式2如下:
在等式2中,w是源机器学习模型的参数,l(wTxi,yi)是损失函数,g(w)是正则化函数,是用于在训练源机器学习模型的过程中添加随机噪声以实现源数据隐私保护的噪声项,是用于隐私保护的补偿项,λ是用于控制正则化强度的常数,便为构造的用于训练源机器学习模型的目标函数。根据以上等式2,在目标函数的取值最小时的w值便为最终求解出的源机器学习模型的参数w*。
要使按照以上等式2求解出的w*满足∈差分隐私定义,则需要满足以下预定条件:正则化函数g(w)需要是1-强凸函数并且二阶可微,其次,对于所有的z,损失函数需要满足|l′(z)|≤1并且|l″(z)|≤c,其中,l′(z)和l″(z)分别是损失函数的一阶导数和二阶导数。也就是说,只要是满足以上条件的广义线性模型,均可通过上面的等式2来获得满足差分隐私保护的源数据机器模型的参数。
例如,对于逻辑回归模型,其损失函数如果令常数c等于1/4,正则化函数则正则化函数g(w)满足是1-强凸函数并且二阶可微,并且对于所有的z,损失函数满足|l′(z)|≤1并且|l″(z)|≤c。因此,当源机器学习模型是逻辑回归模型时,可利用以上等式2来求解源机器学习模型的参数,而按照以上方式求解出的源机器学习模型的参数既满足了对源数据的隐私保护,又携带了源数据集的知识。随后,源机器学习模型的参数可作为迁移项被用于将源数据集的知识迁移到目标数据集以在目标数据集上训练目标机器学习模型。
需要说明的是,尽管以上以广义线性模型(例如,逻辑回归模型)为例介绍了求解源机器学习模型的参数的过程,但是,事实上,只要是满足以上提及的关于正则化函数和损失函数的限制条件的线性模型均可利用等式2来求解源机器学习模型的参数,作为迁移项。
在发明的实施例中,所述源数据和目标数据可分别是来自如下实体中的任一个或多个的数据:
来自银行的数据:如用户的登记信息、银行交易流水信息、存款信息、金融产品购买信息、票据信息(图像)等;
来自保险机构的数据:如投保人信息、保单信息、赔付保险的信息等;
来自医疗机构的数据:如病历信息、确诊信息、治疗信息等;
来自证券公司等其他金融机构的数据;如用户登记信息、金融产品交易信息、金融产品价格浮动信息等;
来自学校的数据:如生源信息、升学率、就业率、教学信息、教师信息等;
来自政府部门的数据:如社保信息、人力资源信息、市政资源信息、市政项目相关信息、财政相关信息、教育相关信息等;
来自互联网实体的数据:如用来自电商平台或app运营实体的用户登记信息、用户网络行为(搜索、浏览、收藏、购买、点击、支付等)信息,或来自搜索引擎的网络视频、音频、图片、文本等相关的数据等;
来自电信运营商的数据:如移动用户通信数据、固定网络或移动网络流量相关数据等;
来自传统工业企业的数据:工业控制数据如电网相关操作数据、风力发电机组操控数据、空调系统操控数据、矿井组操控数据等等。
从类型上,在本发明的实施例中涉及的源数据和目标数据可以是视频数据、图像数据、语音数据、文本数据、格式化的表单数据等。
在迁移项获取装置120获取到迁移项之后,目标机器学习模型训练装置130可在目标数据隐私保护方式下,基于目标数据集,结合所述迁移项来训练目标机器学习模型。
在本发明的实施例中,所述目标机器学习模型可被应用于如下场景中的任一场景:
图像处理场景,包括:光学字符识别OCR、人脸识别、物体识别和图片分类;更具体地举例来说,OCR可应用于票据(如发票)识别、手写字识别等,人脸识别可应用安防等领域,物体识别可应用于自动驾驶场景中的交通标志识别,图片分类可应用于电商平台的“拍照购”、“找同款”等。
语音识别场景,包括可通过语音进行人机交互的产品,如手机的语音助手(如苹果手机的Siri)、智能音箱等;
自然语言处理场景,包括:审查文本(如合同、法律文书和客服记录等)、垃圾内容识别(如垃圾短信识别)和文本分类(情感、意图和主题等);
自动控制场景,包括:矿井组调节操作预测、风力发电机组调节操作预测和空调系统调节操作预测;具体的对于矿井组可预测开采率高的一组调节操作,对于风力发电机组可预测发电效率高的一组调节操作,对于空调系统,可以预测满足需求的同时节省能耗的一组调节操作;
智能问答场景,包括:聊天机器人和智能客服;
业务决策场景,包括:金融科技领域、医疗领域和市政领域的场景,其中:
金融科技领域包括:营销(如优惠券使用预测、广告点击行为预测、用户画像挖掘等)与获客、反欺诈、反洗钱、承保和信用评分、商品价格预测;
医疗领域包括:疾病筛查和预防、个性化健康管理和辅助诊断;
市政领域包括:社会治理与监管执法、资源环境和设施管理、产业发展和经济分析、公众服务和民生保障、智慧城市(公交、网约车、共享单车等各类城市资源的调配和管理);
推荐业务场景,包括:新闻、广告、音乐、咨询、视频和金融产品(如理财、保险等)的推荐;
搜索场景,包括:网页搜索、图像搜索、文本搜索、视频搜索等;
异常行为检测场景,包括:国家电网客户用电异常行为检测、网络恶意流量检测、操作日志中的异常行为检测等。
根据示例性实施例,目标数据隐私保护方式可与源数据隐私保护方式相同,例如,也可以是遵循差分隐私定义的保护方式,但不限于此。此外,目标机器学习模型可与源机器学习模型属于基于相同类型的机器学习模型。例如,目标机器学习模型也可以是广义线性模型,例如,逻辑回归模型,但不限于此,例如,可以是满足预定条件的任何线性模型。需要说明的是,目标数据隐私保护方式也可以是与源数据隐私保护方式不同的隐私保护方式,并且目标机器学习模型也可以与源机器学习模型属于不同类型的机器学习模型,本申请对此均无限制。
根据示例性实施例,目标数据隐私保护方式可以是在训练目标机器学习模型的过程中添加随机噪声。例如,目标机器学习模型训练装置120可将用于训练目标机器学习模型的目标函数构造为至少包括损失函数和噪声项。可选地,除了将目标函数构造为至少包括损失函数和噪声项之外,在目标数据隐私保护方式下基于目标数据集结合迁移项来训练目标机器学习模型时,目标机器学习模型训练装置130可将用于训练目标机器学习模型的目标函数构造为还反映目标机器学习模型的参数与所述迁移项之间的差值,然后,可基于目标数据集,通过求解构造的目标函数来训练目标机器学习模型。通过在用于训练目标机器学习模型的目标函数中反映目标机器学习模型的参数与所述迁移项之间的差值,可将源数据集中的知识迁移到目标数据集,从而使得该训练过程能够共同利用源数据集上的知识和目标数据集,因而可训练出的目标机器学习模型的效果更佳。
此外,根据实际需要,目标函数还可被构造为包括用于防止训练出的机器学习模型出现过拟合现象的正则项等,或还可根据实际任务需求被构造为包括其他约束项,例如,用于隐私保护的补偿项,本申请对此并不限制,只要构造的目标函数能够有效地实现对目标数据的隐私保护,同时能够将源数据集上的知识迁移到目标数据集即可。
以下,为便于更加直观地理解上述内容,将进一步结合数学表示对目标机器学习模型训练装置130训练目标机器学习模型的上述过程进行说明。
这里,为描述方便,假设源机器学习模型是逻辑回归模型,目标机器学习模型是广义线性模型,并且目标数据隐私保护方式为遵循差分隐私保护定义的保护方式。
首先,在令源机器学习模型的正则化函数的情况下,可利用以上描述的求解源机器学习模型参数的过程求解出源机器学习模型的参数(这里的即为以上等式2中的w*),其中,A1为如以上等式2所述的求解机制,∈s,λs,gs(·)分别为源数据集、源数据集需要满足的隐私保护程度常数、用于训练源机器学习模型的目标函数中的用于控制正则化强度的常数和正则化函数。随后,在获得源机器学习模型的参数后,可令用于目标机器学习模型的目标函数中的正则化函数为:
其中,0≤η≤1。由于gt(w)是1-强凸函数并且二阶可微,并且逻辑回归模型的损失函数l(wTxi,yi)满足上述预定条件中关于损失函数的要求,因此,可通过将等式2中的g(w)替换为gt(w),并按照以上描述的训练源机器学习模型的过程,利用等式2基于目标数据集在满足差分隐私保护定义的方式下训练目标机器学习模型,从而在用于目标机器学习模型的训练的目标函数取最小值时求解出目标机器学习模型的参数其中,∈t,λt,gt(·)分别是目标数据集、目标数据集需要满足的隐私保护程度常数、用于训练目标机器学习模型的目标函数中的控制正则化强度的常数和正则化函数。
此外,在等式3中,由于含有使得用于目标机器学习模型的训练的目标函数被构造为反映了目标机器学习模型的参数与迁移项(即,源机器学习模型的参数)之间的差值,从而有效地实现了源数据集上的知识到目标数据集的迁移。
需要说明的是,以上虽然重点以逻辑回归模型为例介绍了在目标数据隐私保护方式下训练目标机器学习模型的过程,但是,本领域技术人员应清楚是,本公开中的源机器学习模型和目标机器学习模型均不限于逻辑回归模型,而是可以是例如满足如上所述的预定条件的任何线性模型,甚至还可以是其他任何适当的模型。
根据示例性实施例,训练出的目标机器学习模型可用于执行业务决策,其中,所述业务决策涉及交易反欺诈、账户开通反欺诈、智能营销、智能推荐、贷款评估之中的至少一项,但不限于此,例如,训练出的目标机器学习模型还可用于与生理状况相关的业务决策等。
根据以上示例性实施例,目标机器学习模型训练装置130可在源数据隐私和目标数据隐私均被保护的情况下将源数据集中的知识成功迁移到目标数据集,从而使得能够综合更多知识来训练出模型效果更佳的目标机器学习模型,以应用于相应的业务决策。
以上,已经参照图1描述了根据本申请示例性实施例的机器学习系统100,需要说明的是,尽管以上在描述机器学习系统时将其划分为用于分别执行相应处理的装置(例如,目标数据集获取装置110、迁移项获取装置120和目标机器学习模型训练装置130),然而,本领域技术人员清楚的是,上述各装置执行的处理也可以在机器学习系统不进行任何具体装置划分或者各装置之间并无明确划界的情况下执行。此外,以上参照图1所描述的机器学习系统100并不限于包括以上描述的装置,而是还可以根据需要增加一些其他装置(例如,预测装置、存储装置和/或模型更新装置等),或者以上装置也可被组合。
另外,需要说明的是,本公开中所提及的“机器学习”可被实现为“有监督学习”、“无监督学习”或“半监督学习”的形式,本发明的示例性实施例对具体的机器学习形式并不进行特定限制。
图2是示出根据本公开示例性实施例的在数据隐私保护方式下执行机器学习的方法(以下,为描述方便,将其简称为“机器学习方法”)的流程图。
这里,作为示例,图2所示的机器学习方法可由图1所示的机器学习系统100来执行,也可完全通过计算机程序或指令以软件方式实现,还可通过特定配置的计算系统或计算装置来执行。为了描述方便,假设图2所示的方法由图1所示的机器学习系统100来执行,并假设机器学习系统100可具有图1所示的配置。
参照图2,在步骤S210,目标数据集获取装置110可获取目标数据集。以上在参照图1描述目标数据集获取装置110时描述的与获取目标数据集有关的任何内容均适应于此,因此,这里不在对其进行赘述。
在获取到目标数据集之后,在步骤S220,迁移项获取装置120可获取关于源数据集的迁移项。这里,迁移项可用于在源数据隐私保护方式下将源数据集的知识迁移到目标数据集以在目标数据集上训练目标机器学习模型。具体地,在步骤S220,迁移项获取装置120可从外部接收所述迁移项。或者,迁移项获取装置120可通过自身对源数据集执行机器学习相关处理来获取关于源数据集的迁移项。具体地,迁移项获取装置120可首先获取源数据集,然后,在源数据隐私保护方式下,基于源数据集执行与机器学习相关的处理,并且在基于源数据集执行与机器学习相关的处理的过程中获取关于源数据集的迁移项。
这里,作为示例,源数据隐私保护方式可以是遵循差分隐私保护定义的保护方式,但不限于此。另外,源数据隐私保护方式可以是在基于源数据集执行与机器学习相关的处理的过程中添加随机噪声,以实现对源数据的隐私保护。这里,基于源数据集执行与机器学习相关的处理可包括在源数据隐私保护方式下基于源数据集训练源机器学习模型,但不限于此,例如,还可以是对在源数据隐私保护方式下对源数据集进行统计分析或特征处理等。根据示例性实施例,在所述源数据隐私保护方式中可将用于训练源机器学习模型的目标函数构造为至少包括损失函数和噪声项。这里,噪声项用于在训练源机器学习模型的过程中添加随机噪声,从而实现对源数据隐私保护。此外,可选地,在所述源数据隐私保护方式中还可将目标函数构造为包括其他用于约束模型参数的约束项。
根据示例性实施例,迁移项可涉及在基于源数据集执行与机器学习相关的处理的过程中得到的模型参数、目标函数和/或关于源数据的统计信息。作为示例,迁移项可以是源机器学习模型的参数,即,在源数据隐私保护方式下训练出的源机器学习模型的参数。根据示例性实施例,源机器学习模型可以是广义线性模型(例如,逻辑回归模型),但不限于此,例如,可以是满足预定条件的任何线性模型,甚至还可以是满足一定条件的任何适当模型。
由于以上已经参照图1结合数学表示描述了关于迁移项获取装置120在源数据隐私保护方式下基于源数据集训练源机器学习模型以获得迁移项(即,源机器学习模型的参数)的过程,因此这里不再赘述。此外,需要说明的是,参照图1在描述迁移项获取装置120时提及的关于源数据集、源数据隐私保护方式、迁移项、目标函数等的所有描述均适用于图2,因此,这里不再赘述,并且在描述迁移项获取装置120和步骤S220时相同或相似的内容可相互参考。
在目标数据集和关于源数据集的迁移项被获取到之后,在步骤S230,目标机器学习模型训练装置130可在目标数据隐私保护方式下,基于目标数据集,结合所述迁移项来训练目标机器学习模型。这里,作为示例,目标数据隐私保护方式也可以是遵循差分隐私定义的保护方式,但不限于此,而是可以是与源数据隐私保护方式相同或不同的其他数据隐私保护方式。此外,所述目标数据隐私保护方式可以是在训练目标机器学习模型的过程中添加随机噪声,以实现对目标数据的隐私保护。具体地,例如,在目标数据隐私保护方式中可将用于训练目标机器学习模型的目标函数构造为至少包括损失函数和噪声项,但是不限于此,例如,可将目标函数构造为还包括其他用于约束模型的约束项,例如,用于限制模型参数复杂度或防止模型过拟合的正则项、用于隐私保护的补偿项等。此外,目标机器学习模型可与源机器学习模型属于基于相同类型的机器学习模型,例如,所述相同类型的机器学习模型可以是逻辑回归,但不限于此,而是可以是例如满足预定条件的任何线性模型。需要说明的是,目标机器学习模型也可以是与源机器学习模型属于不同类型的机器学习模型。
除了在目标数据隐私保护方式中将用于训练目标机器学习模型的目标函数构造为至少包括损失函数和噪声项之外,根据示例性实施例,在步骤S230,目标机器学习模型训练装置130可将用于训练目标机器学习模型的目标函数构造为还反映目标机器学习模型的参数与所述迁移项之间的差值,随后,可基于目标数据集,通过求解构造的目标函数来训练目标机器学习模型。关于利用构造的目标函数训练目标机器学习模型的具体过程,以上已参照图1结合数学表示进行过描述,因此,这里不再赘述。
按照以上方式训练出的目标机器学习模型可用于执行业务决策,例如,所述业务决策可涉及交易反欺诈、账户开通反欺诈、智能营销、智能推荐、贷款评估之中的至少一项,但不限于此。事实上,本公开对目标机器学习模型可被应用于的具体业务决策的类型并无任何限制,只要是适于利用机器学习模型进行决策的业务即可。
以上描述的根据本公开示例性实施例的在数据隐私保护方式下执行机器学习的方法,既可以确保源数据隐私和目标数据隐私的不被泄露,同时能够通过迁移项将源数据的知识迁移到目标数据集,从而便于利用更多数据源的数据进行机器学习来训练机器学习模型,使得训练出的目标机器学习模型的效果能够具有更佳的模型效果。
需要说明的是,尽管以上在描述图2时,按顺序对图2中的步骤进行了描述,但是,本领域技术人员清楚的是,上述方法中的各个步骤不一定按顺序执行,而是可按照相反的顺序或并行地执行,例如,以上描述的步骤S210与步骤S220便可按照相反顺序或并行执行,也就是说,可在获取目标数据集之前获取关于源数据集的迁移项,或者可同时获取目标数据集和迁移项。另外,在执行步骤S130的同时,也可执行步骤S110或步骤120,也就是说,在利用已经获取的目标数据集和迁移项训练目标机器学习模型的过程中,可同时获取新的目标数据集或迁移项,以用于例如后续目标机器学习模型的更新操作等。
图3是示出根据本公开示例性实施例的在数据隐私保护方式下执行机器学习的构思的示意图。
为便于更清楚且直观地理解本公开的构思,以下结合图3以金融领域中的贷款审核场景为例(即,目标机器学习模型将用于贷款审核这一业务决策),对根据本公开示例性实施例的在数据隐私保护下执行机器学习的构思进行简要描述。
如今,随着机器学习的不断发展,其在金融领域开始发挥着日益重要的作用,从审批贷款到资产管理,再到风险评估,机器学习在金融生态系统的许多阶段都起着不可或缺的作用。例如,银行可利用机器学习来决定是否批准贷款申请者的贷款申请。但是,单个银行自身所能获得的关于贷款申请者的历史金融活动相关记录可能并不足以全面地反映该贷款申请者的真实信用或贷款偿还能力等情况,在这种情况下,该银行可能期望能够获得该贷款申请者在其他机构的历史金融活动相关记录。然而,出于客户隐私保护的考虑,该银行很难利用其他机构所拥有的贷款申请者的历史金融活动相关记录。然而,利用本公开的构思则可实现在用户数据保护隐私的情况下充分利用多个机构的数据来帮助银行更准确地判断是否批准贷款申请者的贷款申请,进而减少金融风险。
参照图3,目标数据源310(例如,第一银行机构)可将其拥有的涉及用户历史金融活动的目标数据集发送给机器学习系统330。这里,目标数据集中的每条目标数据记录可包括例如用户的姓名、国籍、职业、薪酬、财产、信用记录、历史贷款金额等多种属性信息。此外,目标数据记录还可包括例如关于用户是否按时清偿贷款的标记信息。
这里,机器学习系统330可以是以上参照图1描述的机器学习系统100。作为示例,机器学习系统330可以由专门提供机器学习服务的实体(例如,机器学习服务提供商)提供,或者也可由目标数据源310自己构建。相应地,机器学习系统330既可设置在云端(如公有云、私有云或混合云),也可以设置在银行机构的本地系统。这里,为描述方便,假设机器学习系统330被设置在公有云端,并且由机器学习服务提供商构建。
为了更准确地预测用户的贷款风险指数或者用户的贷款偿还能力,第一银行机构可例如与源数据源320(例如,第二机构)达成彼此在保护用户数据隐私的情况下共享数据的协议。在这种情况下,基于该协议,作为示例,在相应安全措施下,源数据源320可将其所拥有的源数据集发送给机器学习系统330,这里,源数据集例如可以是与以上描述的目标数据集类似的涉及用户金融活动的数据集。然后,机器学习系统330可如以上参照图1和图2所述在源数据隐私保护方式下基于源数据集执行机器学习相关处理,并在执行机器学习处理的过程中获取关于源数据集的迁移项,以将源数据集上的知识迁移到目标数据集。例如,机器学习系统330可基于源数据集训练源机器学习模型,并将训练的源机器学习模型的参数作为迁移项。这里,源机器学习模型可以是例如用于预测用户贷款风险指数或贷款清偿能力的机器学习模型或者其他类似预测目标的机器学习模型,或者是与贷款估计业务相关的针对其他预测目标的机器学习模型。
或者,机器学习系统330也可从源数据源320直接获取迁移项。在这种情况下,例如,源数据源320可事先通过其自身的机器学习系统或者委托其他机器学习服务提供商在源数据隐私保护方式下基于源数据集执行机器学习相关处理来获取迁移项,并将迁移项发送给机器学习系统330。可选地,源数据源320也可选择将源数据集/迁移项发送给目标数据源,然后,由目标数据源将源数据集/迁移项与目标数据集一起提供给机器学习系统330,以用于机器学习。
随后,机器学习系统330在目标数据隐私保护方式下,基于目标数据集,结合获取的迁移项来训练目标机器学习模型。目标数据机器学习模型可以是例如用于预测用户贷款风险指数或贷款清偿能力的机器学习模型。在目标机器学习模型被训练出之后,目标数据源310可将涉及至少一个贷款申请者的的待预测数据集发送给机器学习系统330。机器学习系统330可利用训练出的目标机器学习模型针对待预测数据集提供关于每个贷款申请者的贷款风险指数或贷款清偿能力评分,并将预测结果反馈给目标数据源310。随后,目标数据源310可基于接收到的预测结果判断是否批准贷款申请者提出的贷款申请。通过以上方式,银行机构可以利用机器学习在保护用户数据隐私的同时利用其他机构的数据和自身拥有的数据获得更准确的判断结果,从而可避免不必要的金融风险。
需要说明的是,尽管以上以机器学习在金融领域中的贷款估计应用为例介绍了本公开的构思,但是,本领域人员清楚的是,根据本公开示例性实施例的在数据隐私保护下执行机器学习的方法和系统不限于应用于金融领域,也不限于用于执行贷款估计这样的业务决策。而是,可应用于任何涉及数据安全和机器学习的领域和业务决策。例如,根据本公开示例性实施例的在数据隐私保护下执行机器学习的方法和系统还可应用于交易反欺诈、账户开通反欺诈、智能营销、智能推荐等。
作为另一示例,根据本公开示例性实施例的在数据隐私保护下执行机器学习的方法和系统还可应用于公共卫生领域,例如,用于执行生理数据的预测。例如,一家医疗机构希望建立起对某项健康指标的预测模型,但是只用本医疗机构的数据进行训练,则预测模型的效果可能欠佳。而事实上,可能很多其他医疗机构都拥有相应的数据,如果可以利用其它医疗机构的数据,则可以提升该医疗机构的针对某项健康指标的预测模型的预测效果。此时,便可利用本公开的构思在保护各医疗机构的用户数据隐私的情况下,综合各医疗结构的数据利用机器学习提供更加准确的预测结果。
更进一步来说,基于本申请中的目标模型可应用于的场景包括但不限于以下场景:图像处理场景、语音识别场景、自然语言处理场景、自动控制场景、智能问答场景、业务决策场景、推荐业务场景、搜索场景和异常行为检测场景。上述各类场景下的更具体应用场景详见前面的描述。
因此,本申请的在数据隐私保护下执行机器学习的方法和系统,也可以应用于上述的任一场景,并且本申请的在数据隐私保护下执行机器学习的方法和系统,在应用于不同的场景时,总体执行方案并无差别,只是在不同场景下针对的数据不同,因此本领域的技术人员基于前述的方案公开可以毫无障碍地将本申请的方案应用于不同的场景,因此不需要对每个场景一一进行说明。
以上已参照图1和图2描述了根据本公开示例性实施例的机器学习方法和机器学习系统,并参照图3示意性地描述了本公开的构思。然而,应理解的是:附图中示出的装置和系统可被分别配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如,这些系统、装置可对应于专用的集成电路,也可对应于纯粹的软件代码,还可对应于软件与硬件相结合的模块。此外,这些系统或装置所实现的一个或多个功能也可由物理实体设备(例如,处理器、客户端或服务器等)中的组件来统一执行。
此外,上述方法可通过记录在计算机可读存储介质上的指令来实现,例如,根据本申请的示例性实施例,可提供一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行以下步骤:获取目标数据集;获取关于源数据集的迁移项,其中,所述迁移项用于在源数据隐私保护方式下将源数据集的知识迁移到目标数据集以在目标数据集上训练目标机器学习模型;以及在目标数据隐私保护方式下,基于目标数据集,结合所述迁移项来训练目标机器学习模型。
上述计算机可读存储介质中存储的指令可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,应注意,所述指令还可用于执行除了上述步骤以外的附加步骤或者在执行上述步骤时执行更为具体的处理,这些附加步骤和进一步处理的内容已经在参照图2进行相关方法的描述过程中提及,因此这里为了避免重复将不再进行赘述。
应注意,根据本公开示例性实施例的机器学习系统可完全依赖计算机程序或指令的运行来实现相应的功能,即,各个装置在计算机程序的功能架构中与各步骤相应,使得整个系统通过专门的软件包(例如,lib库)而被调用,以实现相应的功能。
另一方面,当图1所示的系统和装置以软件、固件、中间件或微代码实现时,用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中,使得至少一个处理器或至少一个计算装置可通过读取并运行相应的程序代码或者代码段来执行相应的操作。
例如,根据本申请示例性实施例,可提供一种包括至少一个计算装置和至少一个存储指令的存储装置的系统,其中,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行下述步骤:获取目标数据集;获取关于源数据集的迁移项,其中,所述迁移项用于在源数据隐私保护方式下将源数据集的知识迁移到目标数据集以在目标数据集上训练目标机器学习模型;以及在目标数据隐私保护方式下,基于目标数据集,结合所述迁移项来训练目标机器学习模型。
具体说来,上述系统可以部署在服务器或客户端中,也可以部署在分布式网络环境中的节点上。此外,所述系统可以是PC计算机、平板装置、个人数字助理、智能手机、web应用或其他能够执行上述指令集合的装置。此外,所述系统还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。另外,所述系统的所有组件可经由总线和/或网络而彼此连接。
这里,所述系统并非必须是单个系统,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。所述系统还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子装置。
在所述系统中,所述至少一个计算装置可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,所述至少一个计算装置还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。计算装置可运行存储在存储装置之一中的指令或代码,其中,所述存储装置还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,所述网络接口装置可采用任何已知的传输协议。
存储装置可与计算装置集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储装置可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储装置和计算装置可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得计算装置能够读取存储在存储装置中的指令。
以上描述了本申请的各示例性实施例,应理解,上述描述仅是示例性的,并非穷尽性的,本申请不限于所披露的各示例性实施例。在不偏离本申请的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此,本申请的保护范围应该以权利要求的范围为准。
Claims (10)
1.一种在数据隐私保护下执行机器学习的方法,包括:
获取目标数据集;
获取关于源数据集的迁移项,其中,所述迁移项用于在源数据隐私保护方式下将源数据集的知识迁移到目标数据集以在目标数据集上训练目标机器学习模型;以及
在目标数据隐私保护方式下,基于目标数据集,结合所述迁移项来训练目标机器学习模型。
2.如权利要求1所述的方法,其中,获取关于源数据集的迁移项的步骤包括:从外部接收所述迁移项;或者,获取关于源数据集的迁移项的步骤包括:获取源数据集;在源数据隐私保护方式下,基于源数据集执行与机器学习相关的处理;以及在基于源数据集执行与机器学习相关的处理的过程中获取关于源数据集的迁移项。
3.如权利要求2所述的方法,其中,所述源数据隐私保护方式和/或所述目标数据隐私保护方式为遵循差分隐私定义的保护方式。
4.如权利要求2所述的方法,其中,所述迁移项涉及在基于源数据集执行与机器学习相关的处理的过程中得到的模型参数、目标函数和/或关于源数据的统计信息。
5.如权利要求2所述的方法,其中,所述源数据隐私保护方式为在基于源数据集执行与机器学习相关的处理的过程中添加随机噪声;并且/或者,所述目标数据隐私保护方式为在训练目标机器学习模型的过程中添加随机噪声。
6.如权利要求5所述的方法,其中,在源数据隐私保护方式下基于源数据集执行与机器学习相关的处理包括:在源数据隐私保护方式下基于源数据集训练源机器学习模型。
7.如权利要求6所述的方法,其中,源机器学习模型与目标机器学习模型属于基于相同类型的机器学习模型。
8.一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行如权利要求1至7中的任一权利要求所述的在数据隐私保护下执行机器学习的方法。
9.一种包括至少一个计算装置和至少一个存储指令的存储装置的系统,其中,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行如权利要求1至7中的任一权利要求所述的在数据隐私保护下执行机器学习的方法。
10.一种用于在数据隐私保护下执行机器学习的系统,所述系统包括:
目标数据集获取装置,被配置为获取目标数据集;
迁移项获取装置,被配置为获取关于源数据集的迁移项,其中,所述迁移项用于在源数据隐私保护方式下将源数据集的知识迁移到目标数据集以在目标数据集上训练目标机器学习模型;以及
目标机器学习模型训练装置,被配置为在目标数据隐私保护方式下,基于目标数据集,结合所述迁移项来训练目标机器学习模型。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP19849826.3A EP3839790A4 (en) | 2018-08-17 | 2019-08-19 | METHOD AND SYSTEM FOR PERFORMING MACHINE LEARNING UNDER DATA PRIVACY PROTECTION |
PCT/CN2019/101441 WO2020035075A1 (zh) | 2018-08-17 | 2019-08-19 | 在数据隐私保护下执行机器学习的方法和系统 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2018109393803 | 2018-08-17 | ||
CN201810939380 | 2018-08-17 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110858253A true CN110858253A (zh) | 2020-03-03 |
Family
ID=69636449
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910618274.XA Pending CN110858253A (zh) | 2018-08-17 | 2019-07-10 | 在数据隐私保护下执行机器学习的方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110858253A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111429282A (zh) * | 2020-03-27 | 2020-07-17 | 中国工商银行股份有限公司 | 基于反洗钱模型迁移的交易反洗钱方法及装置 |
CN111782550A (zh) * | 2020-07-31 | 2020-10-16 | 支付宝(杭州)信息技术有限公司 | 基于用户隐私保护训练指标预测模型的方法及装置 |
CN112241549A (zh) * | 2020-05-26 | 2021-01-19 | 中国银联股份有限公司 | 安全的隐私计算方法、服务器、系统以及存储介质 |
CN113379062A (zh) * | 2020-03-10 | 2021-09-10 | 百度在线网络技术(北京)有限公司 | 用于训练模型的方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106355248A (zh) * | 2016-08-26 | 2017-01-25 | 深圳先进技术研究院 | 一种深度卷积神经网络训练方法及装置 |
CN107368752A (zh) * | 2017-07-25 | 2017-11-21 | 北京工商大学 | 一种基于生成式对抗网络的深度差分隐私保护方法 |
CN108182427A (zh) * | 2018-01-30 | 2018-06-19 | 电子科技大学 | 一种基于深度学习模型和迁移学习的人脸识别方法 |
-
2019
- 2019-07-10 CN CN201910618274.XA patent/CN110858253A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106355248A (zh) * | 2016-08-26 | 2017-01-25 | 深圳先进技术研究院 | 一种深度卷积神经网络训练方法及装置 |
CN107368752A (zh) * | 2017-07-25 | 2017-11-21 | 北京工商大学 | 一种基于生成式对抗网络的深度差分隐私保护方法 |
CN108182427A (zh) * | 2018-01-30 | 2018-06-19 | 电子科技大学 | 一种基于深度学习模型和迁移学习的人脸识别方法 |
Non-Patent Citations (4)
Title |
---|
NICOLAS PAPERNOT: "SEMI-SUPERVISED KNOWLEDGE TRANSFER FOR DEEP LEARNING FROM PRIVATE TRAINING DATA", 《ICLR 2017》, no. 2017, 31 March 2017 (2017-03-31), pages 1 - 16, XP055549005 * |
宋蕾;马春光;段广晗;: "机器学习安全及隐私保护研究进展.", 网络与信息安全学报, no. 08, 15 August 2018 (2018-08-15) * |
毛典辉;李子沁;蔡强;薛子育;: "基于DCGAN反馈的深度差分隐私保护方法", 北京工业大学学报, no. 06, 24 April 2018 (2018-04-24) * |
郭鹏;钟尚平;陈开志;程航;: "差分隐私GAN梯度裁剪阈值的自适应选取方法", 网络与信息安全学报, no. 05, 15 May 2018 (2018-05-15), pages 1 - 11 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113379062A (zh) * | 2020-03-10 | 2021-09-10 | 百度在线网络技术(北京)有限公司 | 用于训练模型的方法和装置 |
CN111429282A (zh) * | 2020-03-27 | 2020-07-17 | 中国工商银行股份有限公司 | 基于反洗钱模型迁移的交易反洗钱方法及装置 |
CN111429282B (zh) * | 2020-03-27 | 2023-08-25 | 中国工商银行股份有限公司 | 基于反洗钱模型迁移的交易反洗钱方法及装置 |
CN112241549A (zh) * | 2020-05-26 | 2021-01-19 | 中国银联股份有限公司 | 安全的隐私计算方法、服务器、系统以及存储介质 |
CN111782550A (zh) * | 2020-07-31 | 2020-10-16 | 支付宝(杭州)信息技术有限公司 | 基于用户隐私保护训练指标预测模型的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020020088A1 (zh) | 神经网络模型的训练方法和系统以及预测方法和系统 | |
US20210264272A1 (en) | Training method and system of neural network model and prediction method and system | |
US10956986B1 (en) | System and method for automatic assistance of transaction sorting for use with a transaction management service | |
CA3089076C (en) | Method and system for user data driven financial transaction description dictionary construction | |
WO2020035075A1 (zh) | 在数据隐私保护下执行机器学习的方法和系统 | |
CN110858253A (zh) | 在数据隐私保护下执行机器学习的方法和系统 | |
Xu et al. | Loan default prediction of Chinese P2P market: a machine learning methodology | |
US9798788B1 (en) | Holistic methodology for big data analytics | |
US20190163790A1 (en) | System and method for generating aggregated statistics over sets of user data while enforcing data governance policy | |
CN110751287B (zh) | 神经网络模型的训练方法及系统以及预测方法及系统 | |
US10726501B1 (en) | Method to use transaction, account, and company similarity clusters derived from the historic transaction data to match new transactions to accounts | |
US20230023630A1 (en) | Creating predictor variables for prediction models from unstructured data using natural language processing | |
CN110751285A (zh) | 神经网络模型的训练方法和系统以及预测方法和系统 | |
Di Castri et al. | Financial authorities in the era of data abundance: Regtech for regulators and suptech solutions | |
CN110968887B (zh) | 在数据隐私保护下执行机器学习的方法和系统 | |
Hsu et al. | A BSC-based network DEA model equipped with computational linguistics for performance assessment and improvement | |
Wang et al. | Leveraging Multisource Heterogeneous Data for Financial Risk Prediction: A Novel Hybrid-Strategy-Based Self-Adaptive Method. | |
CN110858326A (zh) | 模型训练及获取附加特征数据的方法、装置、设备及介质 | |
CN110990859B (zh) | 在数据隐私保护下执行机器学习的方法和系统 | |
US11308562B1 (en) | System and method for dimensionality reduction of vendor co-occurrence observations for improved transaction categorization | |
US20220224540A1 (en) | Blockchain Enabled Service Provider System | |
US20230105207A1 (en) | System and methods for intelligent entity-wide data protection | |
CN111625572B (zh) | 在数据隐私保护下执行机器学习的方法和系统 | |
US20220027350A1 (en) | Blockchain enabled service provider system | |
US11561963B1 (en) | Method and system for using time-location transaction signatures to enrich user profiles |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |