CN110968887A - 在数据隐私保护下执行机器学习的方法和系统 - Google Patents

在数据隐私保护下执行机器学习的方法和系统 Download PDF

Info

Publication number
CN110968887A
CN110968887A CN201811135451.0A CN201811135451A CN110968887A CN 110968887 A CN110968887 A CN 110968887A CN 201811135451 A CN201811135451 A CN 201811135451A CN 110968887 A CN110968887 A CN 110968887A
Authority
CN
China
Prior art keywords
machine learning
data
prediction
learning model
training data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811135451.0A
Other languages
English (en)
Other versions
CN110968887B (zh
Inventor
郭夏玮
涂威威
姚权铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
4Paradigm Beijing Technology Co Ltd
Original Assignee
4Paradigm Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 4Paradigm Beijing Technology Co Ltd filed Critical 4Paradigm Beijing Technology Co Ltd
Priority to CN201811135451.0A priority Critical patent/CN110968887B/zh
Publication of CN110968887A publication Critical patent/CN110968887A/zh
Application granted granted Critical
Publication of CN110968887B publication Critical patent/CN110968887B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

提供了一种在数据隐私保护下执行机器学习的方法和系统,所述方法包括:获取包括多条训练数据记录的训练数据集;将训练数据集或训练数据集中的第一训练数据集按照数据属性字段划分为多个第一训练数据子集,其中,第一训练数据集包括所述多条训练数据记录中的部分训练数据记录,每个第一训练数据子集中的数据记录包括至少一个数据属性字段;在数据隐私保护方式下,基于每个第一训练数据子集,针对第一预测目标训练与每个第一训练数据子集对应的第一机器学习模型,以获得多个第一机器学习模型;利用所述多个第一机器学习模型获得第二机器学习模型。

Description

在数据隐私保护下执行机器学习的方法和系统
技术领域
本公开总体说来涉及人工智能领域中的数据安全技术,更具体地说,涉及一种在数据隐私保护下执行机器学习的方法和系统、以及利用机器学习模型执行预测的方法和系统。
背景技术
众所周知,机器学习往往需要大量的数据以通过计算的手段从大量数据中挖掘出有价值的潜在信息。尽管随着信息技术的发展产生了海量的数据,使得人们有可能基于更多的数据来执行机器学习以训练相应的机器学习模型,然而,人们在研究中发现基于涉及隐私信息的数据训练出的机器学习模型可能会泄露数据中的隐私信息,随着人们对数据的隐私保护越来越重视,越来越需要在有效保护数据隐私的情况下进行机器学习的技术。虽然目前存在一些对数据进行隐私保护的方式,但是实际操作中却往往难以同时兼顾数据隐私保护和受隐私保护数据的后续可用性这两者,从而导致机器学习效果欠佳。
鉴于此,需要既保证数据中的隐私信息不被泄露,同时在能够保证受隐私保护的数据的后续可用性的情况下进行机器学习以提高模型效果的技术。
发明内容
根据本公开示例性实施例,提供了一种在数据隐私保护下执行机器学习的方法,所述方法可包括:获取包括多条训练数据记录的训练数据集;将训练数据集或训练数据集中的第一训练数据集按照数据属性字段划分为多个第一训练数据子集,其中,第一训练数据集包括所述多条训练数据记录中的部分训练数据记录,每个第一训练数据子集中的数据记录包括至少一个数据属性字段;在数据隐私保护方式下,基于每个第一训练数据子集,针对第一预测目标训练与每个第一训练数据子集对应的第一机器学习模型,以获得多个第一机器学习模型;利用所述多个第一机器学习模型获得第二机器学习模型。
可选地,利用所述多个第一机器学习模型获得第二机器学习模型的步骤可包括:
将第二机器学习模型的规则设置为:基于通过以下方式获取的与每条预测数据记录对应的多个预测结果来获得第二机器学习模型针对所述每条预测数据记录的预测结果,其中,所述方式包括:获取预测数据记录,并将预测数据记录按照数据属性字段以与划分训练数据集或第一训练数据集相同的方式划分为多个子预测数据;针对每条预测数据记录之中的每个子预测数据,利用与其对应的第一机器学习模型执行预测以获取针对每个子预测数据的预测结果;
或者针对每个第一训练数据子集,利用与其对应的第一机器学习模型执行预测以获取针对每个第一训练数据子集中的每条数据记录的预测结果;并且在数据隐私保护方式下,基于由获取的与每条训练数据记录对应的多个预测结果构成的训练样本的集合,针对第二预测目标训练第二机器学习模型;
或者将第二训练数据集按照数据属性字段以与划分训练数据集或第一训练数据集相同的方式划分为多个第二训练数据子集,其中,第二训练数据子集至少包括训练数据集中排除第一训练数据集之后的剩余训练数据记录;针对每个第二训练数据子集,利用与其对应的第一机器学习模型执行预测以获取针对每个第二训练数据子集中的每条数据记录的预测结果;在数据隐私保护方式下,基于由获取的与第二训练数据集中的每条训练数据记录对应的多个预测结果构成的训练样本的集合,针对第二预测目标训练第二机器学习模型。
可选地,所述数据隐私保护方式可以是遵循差分隐私保护定义的保护方式。
可选地,所述数据隐私保护方式可以是在训练第一机器学习模型和/或第二机器学习模型的过程中添加随机噪声。
可选地,在所述数据隐私保护方式中可将用于训练第一机器学习模型的目标函数和/或用于训练第二机器学习模型的目标函数构造为至少包括损失函数和噪声项。
可选地,所述数据隐私保护方式的隐私预算可取决于与用于训练第一机器学习模型的目标函数所包括的噪声项对应的隐私预算和与用于训练第二机器学习模型的目标函数所包括的噪声项对应的隐私预算两者之和或两者之中较大的隐私预算。
可选地,第一机器学习模型和第二机器学习模型可属于相同类型的机器学习模型;并且/或者,第一预测目标和第二预测目标可以相同或相似。
可选地,第二机器学习模型可用于执行业务决策,其中,所述业务决策可涉及交易反欺诈、账户开通反欺诈、智能营销、智能推荐、贷款评估之中的至少一项。
根据本公开另一示例性实施例,提供了一种利用机器学习模型执行预测的方法,所述方法可包括:获取多个第一机器学习模型以及第二机器学习模型;获取预测数据记录;将预测数据记录按照数据属性字段划分为多个子预测数据,其中,每个子预测数据包括至少一个数据属性字段;针对每条预测数据记录之中的每个子预测数据,利用所述多个第一机器学习模型中的与每个子预测数据对应的第一机器学习模型执行预测以获取针对每个子预测数据的预测结果;将通过所述多个第一机器学习模型获取的与每条预测数据记录对应的多个预测结果输入第二机器学习模型,以获得第二机器学习模型针对所述每条预测数据记录的预测结果。
可选地,第二机器学习模型的规则可被预先设置为:基于获取的与每条预测数据记录对应的多个预测结果来获得第二机器学习模型针对所述每条预测数据记录的预测结果。
可选地,每个第一机器学习模型可在数据隐私保护方式下被预先训练为针对与其对应的子预测数据提供关于第一预测目标的预测结果,并且第二机器学习模型可在数据隐私保护方式下被预先训练为针对由通过所述多个第一机器学习模型获取的与每条预测数据记录对应的多个预测结果构成的预测样本提供关于第二预测目标的预测结果。
可选地,第一机器学习模型和第二机器学习模型可属于相同类型的机器学习模型;并且/或者,第一预测目标和第二预测目标可以相同或相似。
可选地,所述相同类型的机器学习模型可以是逻辑回归模型;并且/或者,所述数据隐私保护方式可以是遵循差分隐私保护定义的保护方式。
可选地,第二机器学习模型可用于执行业务决策,其中,所述业务决策可涉及交易反欺诈、账户开通反欺诈、智能营销、智能推荐、贷款评估之中的至少一项。
根据本公开另一示例性实施例,提供了一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,可促使所述至少一个计算装置执行如上所述的在数据隐私保护下执行机器学习的方法和/或如上所述的利用机器学习模型执行预测的方法。
根据本公开另一示例性实施例,提供了一种包括至少一个计算装置和至少一个存储指令的存储装置的系统,其中,所述指令在被所述至少一个计算装置运行时,可促使所述至少一个计算装置执行如上所述的在数据隐私保护下执行机器学习的方法和/或如上所述的利用机器学习模型执行预测的方法。
根据本公开另一示例性实施例,提供了一种在数据隐私保护下执行机器学习的系统,所述系统可包括:数据集获取装置,被配置为获取包括多条训练数据记录的训练数据集;划分装置,被配置为将训练数据集或训练数据集中的第一训练数据集按照数据属性字段划分为多个第一训练数据子集,其中,第一训练数据集包括所述多条训练数据记录中的部分训练数据记录,每个第一训练数据子集中的数据记录包括至少一个数据属性字段;第一机器学习模型获得装置,被配置为在数据隐私保护方式下,基于每个第一训练数据子集,针对第一预测目标训练与每个第一训练数据子集对应的第一机器学习模型,以获得多个第一机器学习模型;第二机器学习模型获得装置,被配置为利用所述多个第一机器学习模型获得第二机器学习模型。
可选地,第二机器学习模型获得装置可被配置为通过以下操作获得第二机器学习模型:
将第二机器学习模型的规则设置为:基于通过以下方式获取的与每条预测数据记录对应的多个预测结果来获得第二机器学习模型针对所述每条预测数据记录的预测结果,其中,所述方式包括:获取预测数据记录,并将预测数据记录按照数据属性字段以与划分训练数据集或第一训练数据集相同的方式划分为多个子预测数据;针对每条预测数据记录之中的每个子预测数据,利用与其对应的第一机器学习模型执行预测以获取针对每个子预测数据的预测结果;或者
针对每个第一训练数据子集,利用与其对应的第一机器学习模型执行预测以获取针对每个第一训练数据子集中的每条数据记录的预测结果;并且在数据隐私保护方式下,基于由获取的与每条训练数据记录对应的多个预测结果构成的训练样本的集合,针对第二预测目标训练第二机器学习模型;或者
将第二训练数据集按照数据属性字段以与划分训练数据集或第一训练数据集相同的方式划分为多个第二训练数据子集,其中,第二训练数据子集至少包括训练数据集中排除第一训练数据集之后的剩余训练数据记录;针对每个第二训练数据子集,利用与其对应的第一机器学习模型执行预测以获取针对每个第二训练数据子集中的每条数据记录的预测结果;在数据隐私保护方式下,基于由获取的与第二训练数据集中的每条训练数据记录对应的多个预测结果构成的训练样本的集合,针对第二预测目标训练第二机器学习模型。
可选地,所述数据隐私保护方式为遵循差分隐私保护定义的保护方式。
可选地,所述数据隐私保护方式可以是在训练第一机器学习模型和/或第二机器学习模型的过程中添加随机噪声。
可选地,在所述数据隐私保护方式中可将用于训练第一机器学习模型的目标函数和/或用于训练第二机器学习模型的目标函数构造为至少包括损失函数和噪声项。
可选地,所述数据隐私保护方式的隐私预算可取决于与用于训练第一机器学习模型的目标函数所包括的噪声项对应的隐私预算和与用于训练第二机器学习模型的目标函数所包括的噪声项对应的隐私预算两者之和或两者之中较大的隐私预算。
可选地,第一机器学习模型和第二机器学习模型可属于相同类型的机器学习模型;并且/或者,第一预测目标和第二预测目标可以相同或相似。
可选地,第二机器学习模型可用于执行业务决策,其中,所述业务决策可涉及交易反欺诈、账户开通反欺诈、智能营销、智能推荐、贷款评估之中的至少一项。
根据本公开另一示例性实施例,提供了一种利用机器学习模型执行预测的系统,所述系统可包括:机器学习模型获取装置,被配置为获取多个第一机器学习模型以及第二机器学习模型;预测数据记录获取装置,被配置为获取预测数据记录;划分装置,被配置为将预测数据记录按照数据属性字段划分为多个子预测数据,其中,每个子预测数据包括至少一个数据属性字段;预测装置,被配置为针对每条预测数据记录之中的每个子预测数据,利用所述多个第一机器学习模型中的与每个子预测数据对应的第一机器学习模型执行预测以获取针对每个子预测数据的预测结果,并且将通过所述多个第一机器学习模型获取的与每条预测数据记录对应的多个预测结果输入第二机器学习模型,以获得第二机器学习模型针对所述每条预测数据记录的预测结果。
可选地,第二机器学习模型的规则可被预先设置为:基于获取的与每条预测数据记录对应的多个预测结果来获得第二机器学习模型针对所述每条预测数据记录的预测结果。
可选地,每个第一机器学习模型可在数据隐私保护方式下被预先训练为针对与其对应的子预测数据提供关于第一预测目标的预测结果,并且第二机器学习模型可在数据隐私保护方式下被预先训练为针对由通过所述多个第一机器学习模型获取的与每条预测数据记录对应的多个预测结果构成的预测样本提供关于第二预测目标的预测结果。
可选地,第一机器学习模型和第二机器学习模型可属于相同类型的机器学习模型;并且/或者,第一预测目标和第二预测目标可以相同或相似。
可选地,所述相同类型的机器学习模型可以是逻辑回归模型;并且/或者,所述数据隐私保护方式可以是遵循差分隐私保护定义的保护方式。
可选地,第二机器学习模型可用于执行业务决策,其中,所述业务决策可涉及交易反欺诈、账户开通反欺诈、智能营销、智能推荐、贷款评估之中的至少一项。
根据本公开示例性实施例的在数据隐私保护方式下执行机器学习的方法和系统不仅可保证数据隐私信息不被泄露,同时可保证获得的机器学习模型的可用性,使得获得的机器学习模型后续可用于提供更佳的预测效果。另外,根据本公开示例性实施例的利用机器学习模型执行预测的方法和系统可通过在划分预测数据记录之后,利用多个第一机器学习模型执行预测以获得与每条预测数据记录对应的多个预测结果,并进一步基于多个预测结果利用第二机器学习模型获得最终的预测结果,从而可提高模型预测效果。
附图说明
从下面结合附图对本公开实施例的详细描述中,本公开的这些和/或其他方面和优点将变得更加清楚并更容易理解,其中:
图1是示出根据本公开示例性实施例的在数据隐私保护方式下执行机器学习的系统的框图;
图2是示出根据本公开示例性实施例的利用机器学习模型执行预测的系统的框图;
图3是示出根据本公开示例性实施例的在数据隐私保护方式下执行机器学习的方法的流程图;
图4是示出根据本公开示例性实施例的利用机器学习模型执行预测的方法的流程图;
图5是示出本公开构思的示例的示意图。
具体实施方式
为了使本领域技术人员更好地理解本公开,下面结合附图和具体实施方式对本公开的示例性实施例作进一步详细说明。
图1是示出根据本公开示例性实施例的在数据隐私保护下执行机器学习的系统(以下,为描述方便,将其简称为“机器学习系统”)100的框图。参照图1,机器学习系统100可包括数据集获取装置110、划分装置120、第一机器学习模型获得装置130和第二机器学习模型获得装置140。
具体说来,数据集获取装置110可获取包括多条训练数据记录的训练数据集。这里,训练数据集可以是任何可被用于机器学习模型训练的数据集,并且,可选地,训练数据集还可包括训练数据记录关于机器学习目标(预测目标)的标记(label)。例如,训练数据记录可包括反映对象或事件的各种属性的多个数据属性字段(例如,用户ID、年龄、性别、历史信用记录等),训练数据记录关于机器学习目标的标记可以是例如用户是否有能力偿还贷款、用户是否接受推荐的内容等,但不限于此。这里,训练数据记录关于机器学习目标的标记并不仅限于训练数据记录关于一个机器学习目标的标记,而是可包括训练数据记录关于一个或多个机器学习目标的标记,即,一条训练数据记录不限于对应于一个标记,而是可对应于一个或多个标记。此外,训练数据集可涉及用户不期望被他人获知的各种个人隐私信息(例如,用户的姓名、身份证号码、手机号码、财产总额、贷款记录等),并且也可包括不涉及个人隐私的其他相关信息。这里,训练数据记录可来源于不同的数据源(例如,网络运营商、银行机构、医疗机构等),并且训练数据集可被特定机构或组织在获得用户授权的情况下使用,但是往往期望涉及个人隐私的信息不再进一步被其他组织或个人获知。需要说明的是,在本公开中,“隐私”可泛指涉及单个个体的任何属性。
作为示例,数据集获取装置110可一次性或分批次地从各种数据源获取训练数据集,并且可以以手动、自动或半自动方式获取训练数据集。此外,数据集获取装置110可实时或离线地获取训练数据记录和/或训练数据记录关于机器学习目标的标记,并且数据集获取装置110可同时获取训练数据记录和训练数据记录关于机器学习目标的标记,或者获取训练数据记录关于机器学习目标的标记的时间可滞后于获取训练数据记录的时间。此外,数据集获取装置110可以以加密的形式从数据源获取训练数据集或者直接利用其本地已经存储的训练数据集。如果获取的训练数据集是加密的数据,则可选地,机器学习系统100还可包括对训练数据进行解密的装置,并还可包括数据处理装置以将训练数据处理为适用于当前机器学习的形式。需要说明的是,本公开对训练数据集中的训练数据记录及其标记的种类、形式、内容、训练数据集的获取方式等均无限制,采用任何手段获取的可用于机器学习的数据集均可作为以上提及的训练数据集。
在获取到训练数据集的情况下,出于隐私保护的考虑,机器学习系统100并不能够直接利用获取的训练数据集进行机器学习,而是需要在确保数据隐私保护的情况下才可利用其进行机器学习。然而,即使在数据隐私保护方式下进行机器学习,也仍然可能存在由于对数据隐私的保护而使得训练出的机器学习模型的后续可用性下降,例如,如果通过添加噪声的方式来实现数据隐私保护,那么由于添加的噪声太多,可能导致训练出的机器学习模型不可用或可用性不高。为此,根据本公开示例性实施例,机器学习系统100可对获取的训练数据集进行划分,然后在数据隐私保护方式下基于划分出的各个训练数据子集来分别训练对应的机器学习模型以兼顾数据隐私保护和数据可用性这两者(例如,通过划分训练数据集可减少后续在数据隐私保护方式中训练对应的机器学习模型时添加的噪声),最后,再利用基于训练数据子集训练的多个机器学习模型来获得最终的机器学习模型。
具体地,划分装置120可将训练数据集或训练数据集中的第一训练数据集按照数据属性字段划分为多个第一训练数据子集。这里,第一训练数据集可包括所述多条训练数据记录中的部分训练数据记录,并且每个第一训练数据子集中的数据记录可包括至少一个数据属性字段。例如,假设每条训练数据记录包括以下五个数据属性字段:用户ID、年龄、性别、历史信用记录和历史贷款记录,则可按照数据属性字段将这五个数据属性字段划分为三个数据属性字段组,其中,例如,第一数据属性字段组可包括用户ID和年龄这两个数据属性字段,第二数据属性字段组可包括性别和历史信用记录这两个数据属性字段,第三数据属性字段组可包括历史贷款记录这一个数据属性字段。在这种情况下,通过将训练数据集或第一训练数据集按照数据属性字段划分而获得的多个第一训练数据子集便可以是由包括第一数据属性字段组中的数据属性字段的数据记录构成的第一训练数据子集、由包括第二数据属性字段组中的数据属性字段的数据记录构成的第一训练数据子集、以及由包括第三数据属性字段组中的数据属性字段的数据记录构成的第一训练数据子集。
需要说明的是,如上所述,训练数据集除了可包括多条训练数据记录之外,还可包括训练数据记录关于机器学习目标的标记,而在训练数据集包括训练数据记录和训练数据记录关于机器学习目标的标记的情况下,以上所言按照数据属性字段划分训练数据集仅限于按照数据属性字段划分训练数据集中的训练数据记录,而不对训练数据集中包括的训练数据记录关于机器学习目标的标记进行划分。并且,划分每条训练数据记录所获得的每个数据记录(包括至少一个数据字段)关于机器学习目标的标记仍然是该训练数据记录被划分前关于该机器学习目标的标记。
在通过划分装置120划分出多个第一训练数据子集的情况下,第一机器学习模型获得装置130可在数据隐私保护方式下,基于每个第一训练数据子集,针对第一预测目标训练与每个第一训练数据子集对应的第一机器学习模型,以获得多个第一机器学习模型。作为示例,针对第一预测目标训练与每个第一训练数据子集对应的第一机器学习模型可以是基于每个第一训练数据子集(既,每个第一训练数据子集中包括的每个数据记录及其对应的标记)来训练与每个第一训练数据子集对应的第一机器学习模型,而所述每个数据记录(通过划分训练数据记录而获得)针对第一预测目标的标记就是该训练数据记录针对第一预测目标的标记。作为示例,第一预测目标可以是预测交易是否为欺诈交易、预测用户是否有能力清偿贷款等,但不限于此。
根据示例性实施例,所述数据隐私保护方式可以是遵循差分隐私定义的保护方式,但不限于此,而是可以是任何已经存在的或未来可能出现的能够对数据进行隐私保护的任何隐私保护方式。
为便于理解,现在对遵循差分隐私定义的保护方式进行简要描述。假设有一随机机制M(例如,M是机器学习模型的训练过程),对于M而言,输入的任意两个仅相差一个样本的数据集
Figure BDA0001814569510000091
Figure BDA0001814569510000092
的输出等于t的概率分别为
Figure BDA0001814569510000093
Figure BDA0001814569510000094
并且满足以下等式1(其中,∈是隐私预算(privacy budget)),则可认为M对于任意输入是满足∈差分隐私保护的。
Figure BDA0001814569510000101
在以上等式1中,∈越小,隐私保护程度越好,反之则越差。∈的具体取值,可根据用户对数据隐私保护程度的要求进行相应地设置。假设有一个用户,对于他而言,是否输入他的个人数据给机制M(假设该个人数据输入前的数据集是
Figure BDA0001814569510000102
该个人数据输入后的数据集是
Figure BDA0001814569510000103
Figure BDA0001814569510000104
Figure BDA0001814569510000105
仅相差该个人数据),对于输出的影响很小(其中,影响由∈的大小来定义),那么可以认为M对于他的隐私起到了保护作用。假设∈=0,则这个用户是否输入自己的数据给M,对M的输出没有任何影响,所以用户的隐私完全被保护。
根据示例性实施例,所述数据隐私保护方式可以是在如上所述训练第一机器学习模型的过程中添加随机噪声。例如,可通过添加随机噪声,使得遵循上述差分隐私保护定义。但是,需要说明的是,关于隐私保护的定义并不仅限于差分隐私保护定义这一种定义方式,而是可以是例如K-匿名化、L-多样化、T-保密等其他关于隐私保护的定义方式。
根据示例性实施例,第一机器学习模型可以是例如广义线性模型,例如,逻辑回归模型,但不限于此。此外,在所述数据隐私保护方式中,第一机器学习模型获得装置130可将用于训练第一机器学习模型的目标函数构造为至少包括损失函数和噪声项。这里,噪声项可用于在训练第一机器学习模型的过程中添加随机噪声,从而使得可实现对数据的隐私保护。此外,用于训练第一机器学习模型的目标函数除了可被构造为包括损失函数和噪声项之外,还可被构造为包括其他用于对模型参数进行约束的约束项,例如,还可被构造为包括用于防止模型过拟合现象或防止模型参数过于复杂的正则项、用于隐私保护的补偿项等。
为了便于更直观地理解以上所描述的在数据隐私保护方式下基于每个第一训练数据子集针对第一预测目标训练与每个第一训练数据子集对应的第一机器学习模型的过程,下面将进一步对该过程进行解释。为描述方便,这里,假设所述数据隐私保护方式是遵循差分隐私定义的保护方式,并且第一机器学习模型是广义线性模型。
在描述该过程之前,这里,首先对根据本公开示例性实施例的在不划分数据集的情况下,在遵循差分隐私定义的数据隐私保护方式下基于任意数据集训练机器学习模型的机制(以下,为描述方便,将其简称为机制A1)进行描述。随后,将对根据本公开示例性实施例的在对训练数据集进行划分的情况下,在遵循差分隐私定义的数据隐私保护方式下训练多个第一机器学习模型的机制(以下,为描述方便,将其简称为机制A2)进行描述。
具体地,机制A1的实现过程如下:
假设训练数据集
Figure BDA0001814569510000111
其中,xi是样本,yi是样本的标记,
Figure BDA0001814569510000112
其中,n为样本数量,d是样本空间的维度,
Figure BDA0001814569510000113
是d维样本空间,则可基于训练数据集
Figure BDA0001814569510000114
利用以下等式2来训练机器学习模型,从而获得满足差分隐私保护定义的机器学习模型的参数。
具体地,在利用等式2求解机器学习模型的参数之前,可令:
1、对训练数据集
Figure BDA0001814569510000115
进行缩放,使得对于任意i均满足||xi||≤1,其中,||xi||表示xi的二范数;
2、
Figure BDA0001814569510000116
其中,c和λ为常数,∈是以上等式1中的隐私预算;
3、如果∈′>0,则Δ=0,否则,
Figure BDA0001814569510000117
并且∈′=∈/2;
4、从密度函数
Figure BDA0001814569510000118
采样b,具体地,可首先从Gamma分布
Figure BDA0001814569510000119
采样b的二范数||b||,然后基于均匀随机采样b的方向u便可获得b=||b||u。
接下来,可利用等式2,在数据隐私保护方式下,基于数据集
Figure BDA00018145695100001110
训练机器学习模型,等式2如下:
Figure BDA00018145695100001111
在等式2中,w是机器学习模型的参数,l(wTxi,yi)是损失函数,g(w)是正则化函数,
Figure BDA00018145695100001112
是用于在训练机器学习模型的过程中添加随机噪声以实现数据隐私保护的噪声项,
Figure BDA00018145695100001113
是用于隐私保护的补偿项,λ是用于控制正则化强度的常数,
Figure BDA00018145695100001114
为构造的用于训练机器学习模型的目标函数。根据以上等式2,在目标函数的取值最小时的w值便为最终求解出的机器学习模型的参数w*
要使按照以上等式2求解出的w*满足∈差分隐私定义,则需要满足以下预定条件:正则化函数g(w)需要是1-强凸函数并且二阶可微,其次,对于所有的z,损失函数需要满足|l′(z)|≤1并且|l″(z)|≤c,其中,l′(z)和l″(z)分别是损失函数的一阶导数和二阶导数。也就是说,只要是满足以上条件的广义线性模型,均可通过上面的等式2来获得满足差分隐私保护的机器学习模型的参数。
例如,对于逻辑回归模型,其损失函数
Figure BDA00018145695100001210
如果令常数c等于1/4,正则化函数
Figure BDA0001814569510000121
则正则化函数g(w)满足是1-强凸函数并且二阶可微,并且对于所有的z,损失函数满足|l′(z)|≤1并且|l″(z)|≤c。因此,当机器学习模型是逻辑回归模型时,可利用以上等式2来求解机器学习模型的参数。
以上,已经对机制A1进行了描述,需要说明的是,尽管以上以广义线性模型(例如,逻辑回归模型)为例介绍了求解机器学习模型的参数的过程,但是,事实上,只要是满足以上提及的关于正则化函数和损失函数的限制条件的线性模型均可利用等式2来求解满足差分隐私保护的机器学习模型的参数。
接下来,对机制A2进行描述。具体地,机制A2的实现过程如下:
这里,仍然假设训练数据集
Figure BDA0001814569510000122
其中,xi是样本,yi是样本的标记(即,xi针对第一预测目标的标记),
Figure BDA0001814569510000123
Figure BDA0001814569510000124
其中,n为训练数据集中的样本数量,d是样本空间的维度,
Figure BDA0001814569510000125
是d维样本空间,此外,假设将训练数据集中的数据记录包括的数据属性字段集合SG划分为不重叠的K个数据属性字段组G1,G2,…,GK(即,SG={G1,…,GK}),其中,每个组Gk中包括至少一个数据属性字段。在以上假设下,可通过下面的过程来训练与每个第一训练数据子集对应的第一机器学习模型:
对于每个k(其中,k=1,…,K),执行以下操作来获得
Figure BDA0001814569510000126
1、令
Figure BDA0001814569510000127
其中,qk是缩放常数(具体地,其是用于限制每个训练数据子集中的样本的二范数的上界),并且缩放常数集合
Figure BDA0001814569510000128
需要满足
Figure BDA0001814569510000129
c为常数,λk为常数集合,∈是以上等式1中的隐私预算;
2、对于Gk∈SG,获取
Figure BDA0001814569510000131
其中,
Figure BDA0001814569510000132
表示将训练数据集
Figure BDA0001814569510000133
中属于Gk的数据属性字段提取出来而形成的每条数据记录均包括Gk中的数据属性字段的第一训练数据子集,也就是说,
Figure BDA0001814569510000134
是按照数据属性字段划分训练数据集
Figure BDA0001814569510000135
而获得的第k个第一训练数据子集;
3、如果∈′>0,则Δ=0,否则,
Figure BDA0001814569510000136
并且∈′=∈/2;
4、对第一训练数据子集
Figure BDA0001814569510000137
中的包括的样本进行缩放,使得对于任何
Figure BDA0001814569510000138
满足||xi||≤qk
5、从密度函数
Figure BDA0001814569510000139
采样b,具体地可首先从Gamma分布
Figure BDA00018145695100001310
采样b的二范数||b||,然后基于均匀随机采样b的方向u便可获得b=||b||u。
6、利用等式3,在数据隐私保护方式下,基于第一训练数据子集
Figure BDA00018145695100001311
针对第一预测目标来训练与第一训练数据子集
Figure BDA00018145695100001312
对应的第一机器学习模型:
Figure BDA00018145695100001313
其中,在等式3中,w是第一机器学习模型的参数,l(wTxi,yi)是损失函数,gk(w)是正则化函数,
Figure BDA00018145695100001314
是用于在训练第一机器学习模型的过程中添加随机噪声以实现数据隐私保护的噪声项,
Figure BDA00018145695100001315
是用于隐私保护的补偿项,λk是用于控制正则化强度的常数,
Figure BDA00018145695100001316
便为构造的用于训练第k个第一机器学习模型的目标函数。根据以上等式3,在目标函数的取值最小时的w值便为最终求解出的第k个第一机器学习模型的参数
Figure BDA00018145695100001317
同样,要使按照以上等式3求解出的
Figure BDA00018145695100001318
满足∈差分隐私定义,则需要满足以下预定条件:正则化函数gk(w)需要是1-强凸函数并且二阶可微,其次,对于所有的z,损失函数需要满足|l′(z)|≤1并且|l″(z)|≤c,其中,l′(z)和l″(z)分别是损失函数的一阶导数和二阶导数。也就是说,只要是满足以上条件的广义线性模型,均可通过上面的等式3来获得满足差分隐私保护的第一机器学习模型的参数。例如,对于逻辑回归模型,其损失函数
Figure BDA0001814569510000148
如果令常数c等于1/4,正则化函数
Figure BDA0001814569510000142
Figure BDA0001814569510000143
则正则化函数gk(w)满足是1-强凸函数并且二阶可微,并且对于所有的z,损失函数满足|l″(z)|≤1并且|l″(z)|≤c。因此,当每个第一机器学习模型均是逻辑回归模型时,可利用以上描述的机制A2来求解第一机器学习模型的参数。具体地,对于k∈{1,…,K},可令正则化函数
Figure BDA0001814569510000144
并且∈=∈1(其中,∈1是与用于训练第一机器学习模型的目标函数所包括的噪声项对应的隐私预算),在这种情况下,可按照以上描述的求解第一机器学习模型的参数
Figure BDA0001814569510000145
的机制A2最终求解出K个第一机器学习模型的参数
Figure BDA0001814569510000146
其中,
Figure BDA0001814569510000147
为用于控制正则化强度的常数λk、正则化函数gk(W)和缩放常数qk的集合。
如上所述,由于按照数据属性字段对训练数据集划分之后针对每个第一训练数据子集来训练对应的第一机器学习模型,而不是针对整个训练数据集来训练单个机器学习模型,因此,可有效地减小在训练过程中添加的随机噪声,从而使得按照以上方式训练出的与每个第一训练数据子集对应的第一机器学习模型的参数不仅实现了对对应的第一训练数据子集中的隐私信息的保护,同时能够确保训练出的机器学习模型的后续可用性。
需要说明的是,以上虽然重点以逻辑回归模型为例介绍了在数据隐私保护方式下训练第一机器学习模型的过程,但是,本领域技术人员应清楚是,本公开中的第一机器学习模型不限于逻辑回归模型,而是可以是例如满足如上所述的预定条件的任何线性模型,甚至还可以是其他任何适当的模型。
在第一机器学习模型130通过训练获得了多个第一机器学习模型的情况下,第二机器学习模型获得装置140可利用所述多个第一机器学习模型获得第二机器学习模型。这里,第一机器学习模型和第二机器学习模型通常可以是上下层的结构,例如,第一机器学习模型可对应于第一层机器学习模型,第二机器学习模型可对应于第二层机器学习模型。
具体地,根据本公开一示例性实施例,第二机器学习模型获得装置140可通过以下操作来获得第二机器学习模型:针对每个第一训练数据子集,利用与其对应的第一机器学习模型执行预测以获取针对每个第一训练数据子集中的每条数据记录的预测结果;并且在数据隐私保护方式下,基于由获取的与每条训练数据记录对应的多个预测结果构成的训练样本的集合,针对第二预测目标训练第二机器学习模型。这里,训练样本的标记为训练数据记录针对第二预测目标的标记。以下,将详细描述训练样本的特征的产生过程。
例如,假设通过以上描述的机制A2获得的K个第一机器学习模型均为逻辑回归模型,并且K个第一机器学习模型的参数分别为
Figure BDA0001814569510000151
(即,分别对应于
Figure BDA0001814569510000152
)(K同时也是划分出的多个第一训练数据子集的数量),则可将由获取的与每条训练数据记录对应的多个预测结果构成的训练样本表示为:
Figure BDA0001814569510000153
其中,xki是第k(其中,k∈{1,…,K})个第一训练数据子集中的第i个数据记录,作为示例,
Figure BDA0001814569510000154
为K个第一机器学习模型中的第一个第一机器学习模型针对K个第一训练数据子集中的第一个第一训练数据子集中的第i个数据记录的预测结果(例如,该预测结果可以为该第一机器学习模型针对第i个数据记录输出的预测概率值(即,置信度值)),以此类推,便可获得K个第一机器学习模型分别针对对应的第一训练数据子集中的第i个数据记录的预测结果
Figure BDA0001814569510000155
而上述K个预测结果便为与训练数据集中的第i个训练数据记录对应的K个预测结果,而这K个预测结果
Figure BDA0001814569510000156
可构成用于训练第二机器学习模型的训练样本的特征部分。随后,可按照以上描述的在数据隐私保护方式下训练机器学习模型的机制A1,通过令
Figure BDA0001814569510000157
(其中,xi是如上所述的训练样本
Figure BDA0001814569510000158
yi是xi针对第二预测目标的标记,
Figure BDA0001814569510000159
是由训练样本
Figure BDA00018145695100001510
构成的训练样本的集合),λ=λv(其中,λv是用于训练第二机器学习模型的目标函数中用于控制正则化强度的常数),正则化函数
Figure BDA00018145695100001511
并且∈=∈2(其中,∈2为与用于训练第二机器学习模型的目标函数所包括的噪声项对应的隐私预算)来利用等式2求解出第二机器学习模型的参数
Figure BDA00018145695100001512
可选地,根据本公开另一示例性实施例,第二机器学习模型获得装置140可通过以下操作来获得第二机器学习模型:首先,将第二训练数据集按照数据属性字段以与划分训练数据集或第一训练数据集相同的方式划分为多个第二训练数据子集,其中,第二训练数据子集至少包括训练数据集中排除第一训练数据集之后的剩余训练数据记录;针对每个第二训练数据子集,利用与其对应的第一机器学习模型执行预测以获取针对每个第二训练数据子集中的每条数据记录的预测结果;在数据隐私保护方式下,基于由获取的与第二训练数据集中的每条训练数据记录对应的多个预测结果构成的训练样本的集合,针对第二预测目标训练第二机器学习模型。
作为示例,第二训练数据集可仅包括训练数据集中排除第一训练数据集之后的剩余训练数据记录,或者,第二训练数据集除了包括训练数据集中排除第一训练数据集之后的剩余训练数据记录之外还可包括第一训练数据集中的部分训练数据记录。由于按照数据属性字段划分第二训练数据集的方式与以上已经描述的按照数据属性字段划分训练数据集或第一训练数据集的方式相同,故这里不再对第二训练数据集的划分进行赘述。此外,由于以上已经对针对每个第一训练数据子集利用与其对应的第一机器学习模型执行预测以获取针对每个第一训练数据子集中的每条数据记录的预测结果的过程进行了描述,因此,这里不再对针对每个第二训练数据子集利用与其对应的第一机器学习模型执行预测以获取针对每个第二训练数据子集中的每条数据记录的预测结果的过程进行赘述,不同之处仅在于这里预测过程所针对的对象是通过划分第二训练数据集而获得的每个第二训练数据子集。另外,以上也已经描述了按照机制A1在数据隐私保护方式下基于由与每条训练数据记录对应的多个预测结果构成的训练样本的集合训练第二机器学习模型的过程,不同之处仅在于,在该示例性实施例中,训练样本是由获取的与第二训练数据集中的每条训练数据记录对应的多个预测结果构成的,然后按照机制A1求解第二机器学习模型的参数
Figure BDA0001814569510000161
需要说明的是,尽管在以上两个示例性实施例中以第一机器学习模型和第二机器学习模型均为逻辑回归模型为例对训练第二机器学习模型的过程进行了描述,但是,第一机器学习模型和第二机器学习模型均不限于是逻辑回归模型,并且第二机器学习模型可以是与第一机器学习模型属于相同类型或不同类型的任何机器学习模型。此外,在以上示例性实施例中,第二预测目标可以是与以上描述第一机器学习模型的训练时所提及的第一预测目标相同或相似。例如,第一预测目标可以是预测交易是否涉嫌违法,第二预测目标可以是预测交易是否涉嫌违法或者预测交易是否为欺诈。另外,需要说明的是,当第二预测目标与第一预测目标不完全相同时,训练数据集中的每条训练数据记录事实上可对应于两个标记,这两个标记分别为训练数据记录关于第一预测目标的标记和训练数据记录关于第二预测目标的标记。
根据以上示例性实施例,这里的数据隐私保护方式可以是遵循差分隐私定义的保护方式,但不限于此。具体地,所述数据隐私保护方式可以是在训练第二机器学习模型的过程中添加随机噪声。例如,根据以上描述的机制A1,在所述数据隐私保护方式中,第二机器学习模型获得装置140可将用于训练第二机器学习模型的目标函数构造为至少包括损失函数和噪声项。
如上所述,在数据隐私保护方式中,第一机器学习模型获得装置130可将用于训练第一机器学习模型的目标函数构造为至少包括损失函数和噪声项,并且第二机器学习模型获得装置140也可将用于训练第二机器学习模型的目标函数构造为至少包括损失函数和噪声项,而所述数据隐私保护方式的隐私预算可取决于与用于训练第一机器学习模型的目标函数所包括的噪声项对应的隐私预算和与用于训练第二机器学习模型的目标函数所包括的噪声项对应的隐私预算两者之和或两者之中较大的隐私预算。
具体地,在训练第一机器学习模型的过程中使用的训练数据集与训练第二机器学习模型的过程中使用的训练数据集完全重叠(例如,训练第一机器学习模型和第二机器学习模型的过程中使用的训练数据集均是整个训练数据集)或部分重叠(例如,训练第一机器学习模型的过程中使用的训练数据集是第一训练数据集,而训练第二机器学习模型的过程中使用的是第二训练数据集,其中,该第二训练数据集包括整个训练数据集中排除第一训练数据集之后的剩余训练数据记录以及第一训练数据集之中的部分训练数据记录)的情况下,所述数据隐私保护方式的隐私预算可取决于与用于训练第一机器学习模型的目标函数所包括的噪声项对应的隐私预算和与用于训练第二机器学习模型的目标函数所包括的噪声项对应的隐私预算两者之和。例如,在这种情况下,假设令整个数据隐私保护方式的隐私预算为∈t,则在按照机制A2求解多个第一机器学习模型的参数
Figure BDA0001814569510000171
时,可令∈1=p∈t(0≤p≤1),而在按照机制A1求解第二机器学习模型的参数
Figure BDA0001814569510000172
时,可令∈2=(1-p)∈t,即,满足∈t=∈1+∈2
然而,在训练第一机器学习模型的过程中使用的训练数据集与在训练第二机器学习模型的过程中使用的训练数据集完全不重叠(例如,整个训练数据集可按照训练数据记录被划分为第一训练数据集和第二训练数据集,在训练第一机器学习模型的过程中使用第一训练数据集,而在训练第二机器学习模型的过程中使用第二训练数据集)的情况下,所述数据隐私保护方式的隐私预算可取决于与用于训练第一机器学习模型的目标函数所包括的噪声项对应的隐私预算和与用于训练第二机器学习模型的目标函数所包括的噪声项对应的隐私预算两者之中较大的隐私预算。例如,在这种情况下,假设令整个数据隐私保护方式的隐私预算为∈t,则在按照机制A2求解多个第一机器学习模型的参数
Figure BDA0001814569510000181
时,可令∈1=∈t,并且在按照机制A1求解第二机器学习模型的参数
Figure BDA0001814569510000182
时,也可令∈2=∈t,其中,∈t=max(∈1,∈2)。
需要说明的是,尽管在以上两个示例性实施例中,第二机器学习模型是通过机器学习获得的模型,但是,本公开的第二机器学习模型并不限于通过机器学习获得的模型,而是可以泛指对数据进行处理的任何适当的机制。例如,可选地,根据本公开另一示例性实施例,第二机器学习模型获得装置140也可通过以下操作来获得第二机器学习模型:将第二机器学习模型的规则设置为:基于通过以下方式获取的与每条预测数据记录对应的多个预测结果来获得第二机器学习模型针对所述每条预测数据记录的预测结果,其中,所述方式包括:获取预测数据记录,并将预测数据记录按照数据属性字段以与划分训练数据集或第一训练数据集相同的方式划分为多个子预测数据;针对每条预测数据记录之中的每个子预测数据,利用与其对应的第一机器学习模型执行预测以获取针对每个子预测数据的预测结果。
这里,预测数据记录可与先前描述的训练数据记录包括相同的数据属性字段,不同之处在于预测数据记录不包括标记,并且以上已经通过示例对按照数据属性字段划分训练数据集或第一训练数据集的方式进行了描述,因此,这里不再对划分预测数据记录的方式进行赘述。这里,每个子预测数据可包括至少一个数据属性字段。另外,以上也已经对针对每个训练数据子集利用与其对应的第一机器学习模型执行预测以获取针对每个训练数据子集中的每条数据记录的预测结果的过程进行了描述,因此,这里不再对针对每个子预测数据利用与其对应的第一机器学习模型执行预测以获取针对每条预测数据记录中划分出的每个子预测数据的预测结果的过程进行赘述,不同之处仅在于这里预测过程所针对的对象是划分出的子预测数据。
作为示例,基于获取的与每条预测数据记录对应的多个预测结果来获得第二机器学习模型针对所述每条预测数据记录的预测结果可以是对所述多个预测结果求平均、取最大值或对所述多个预测结果进行投票等方式来获得第二机器学习模型针对所述每条预测数据记录的预测结果。作为示例,如果所述多个预测结果为五个预测结果(即,所述多个第一机器学习模型的数量为五个)并且分别是交易为欺诈的概率为20%、50%、60%、70%和80%,则第二机器学习模型针对预测数据记录的预测结果可以是将20%、50%、60%、70%和80%求平均或取最大值之后获得的概率值。作为另一示例,如果所述多个预测结果分别是“交易为欺诈”、“交易非欺诈”、“交易为欺诈”、“交易为欺诈”、“交易为欺诈”,则按照投票方式可获得第二机器学习模型针对预测数据记录的预测结果是“交易为欺诈”。
在以上各种示例性实施例中,第二机器学习模型可用于执行业务决策。这里,所述业务决策可涉及交易反欺诈、账户开通反欺诈、智能营销、智能推荐、贷款评估之中的至少一项,但不限于此,例如,第二机器学习模型还可用于与生理状况相关的业务决策等。事实上,本公开对第二机器学习模型可被应用于的具体业务决策的类型并无任何限制,只要是适于利用机器学习模型进行决策的业务即可。
以上,已经结合图1对根据本公开示例性实施例的机器学习系统100进行了描述,根据以上示例性实施例,机器学习系统100可按照数据属性划分训练数据集,并基于划分出的训练数据子集来训练多个第一机器学习模型,然后利用所述多个第一机器学习模型获得第二机器学习模型,从而使得在机器学习中不仅能够实现数据隐私保护,而且同时兼顾了获得的机器学习模型的可用性。
需要说明的是,尽管以上在描述机器学习系统100时将其划分为用于分别执行相应处理的装置(例如,数据集获取装置110、划分装置120、第一机器学习模型获得装置130和第二机器学习模型获得装置140),然而,本领域技术人员清楚的是,上述各装置执行的处理也可以在机器学习系统100不进行任何具体装置划分或者各装置之间并无明确划界的情况下执行。此外,以上参照图1所描述的机器学习系统100并不限于包括以上描述的装置,而是还可以根据需要增加一些其他装置(例如,预测装置、存储装置和/或模型更新装置等),或者以上装置也可被组合。
另外,需要说明的是,本公开中所提及的“机器学习”可被实现为“有监督学习”、“无监督学习”或“半监督学习”的形式,本公开的示例性实施例对具体的机器学习形式并不进行特定限制。
图2是示出根据本公开示例性实施例的利用机器学习模型执行预测的系统200(以下,为描述方便,将其检测为“预测系统”)的框图。参照图2,预测系统200可包括机器学习模型获取装置210、预测数据记录获取装置220、划分装置230和预测装置240。
这里,机器学习模型获取装置210可获取多个第一机器学习模型以及第二机器学习模型。例如,机器学习模型获取装置210可按照以上参照图1所描述的获得第一机器学习模型和第二机器学习模型的方式来获取多个第一机器学习模型以及第二机器学习模型。也就是说,机器学习模型获取装置210可本身通过执行以上参照图1描述的获得第一机器学习模型和第二机器学习模型的操作来获取多个第一机器学习模型以及第二机器学习模型,在这种情况下,机器学习模型获取装置210可相应于以上所描述的机器学习系统100。可选地,机器学习模型获取装置210也可在机器学习系统100已经通过图1所示的方法分别获得了多个第一机器学习模型以及第二机器学习模型的情况下,从机器学习系统100直接获取所述多个第一机器学习模型和第二机器学习模型以进行后续预测。
预测数据记录获取装置220可获取预测数据记录。这里,预测数据记录可与先前描述的训练数据记录包括相同的数据属性字段。此外,预测数据记录获取装置220可实时地逐条获取预测数据记录,或者可离线地批量获取预测数据记录。划分装置230可将预测数据记录按照数据属性字段划分为多个子预测数据。具体地,划分装置230可按照数据属性字段以与先前参照图1描述的划分训练数据集相同的方式将预测数据记录划分为多个子预测数据,并且每个子预测数据可包括至少一个数据属性字段。由于以上已经结合示例对该划分方式进行了详细描述,因此这里不再赘述,不同之处在于这里所划分的对象是预测数据记录。
预测装置240可针对每条预测数据记录之中的每个子预测数据,利用与其对应的第一机器学习模型执行预测以获取针对每个子预测数据的预测结果。例如,如果子预测数据包括性别和历史信用记录这两个数据属性字段,则基于与该子预测数据包括相同数据属性字段的数据记录的集合(即,以上在描述图1时提及的第一训练数据子集)训练出的第一机器学习模型便为与该子数据对应的第一机器学习模型。此外,这里的预测结果可以是例如置信度值,但不限于此。随后,预测装置240可将通过多个第一机器学习模型获取的与每条预测数据记录对应的多个预测结果输入第二机器学习模型,以获得第二机器学习模型针对所述每条预测数据记录的预测结果。
根据示例性实施例,每个第一机器学习模型可在数据隐私保护方式下被预先训练为针对与其对应的子预测数据提供关于第一预测目标的预测结果。此外,第二机器学习模型可在数据隐私保护方式下被预先训练为针对由通过所述多个第一机器学习模型获取的与每条预测数据记录对应的多个预测结果构成的预测样本提供关于第二预测目标的预测结果。这里,第一机器学习模型和第二机器学习模型可属于相同类型的机器学习模型,例如,所述相同类型的机器学习模型可以是逻辑回归模型,但不限于此。事实上,第二机器学习模型也可以是与第一机器学习模型属于不同类型的任何机器学习模型。此外,这里的第一预测目标和第二预测目标可以相同或相似,并且这里的数据隐私保护方式可以为遵循差分隐私保护定义的保护方式,但不限于此。由于以上已经在描述图1的过程中对第一机器学习模型和第二机器学习模型的训练以及差分隐私保护定义等内容进行过详细描述,因此,这里不再赘述。另外,由于预测样本与以上描述第二机器学习模型的训练时提及的训练样本在特征方面存在对应一致性,因此,预测装置230可按照与以上描述的构成训练样本的方式相同的方式来构成预测样本,并利用预先训练的第二机器学习模型执行预测来提供关于第二预测目标的预测结果。
此外,根据本公开另一示例性实施例,第二机器学习模型也可以不通过训练的方式获得,而是第二机器学习模型的规则可被预先设置为:基于获取的与每条预测数据记录对应的多个预测结果来获得第二机器学习模型针对所述每条预测数据记录的预测结果。在这种情况下,预测装置240可按照以上预先设置的第二机器学习模型的规则来获得第二机器学习模型针对所述每条预测数据记录的预测结果,例如,预测装置240可通过对所述多个预测结果求平均、取最大值或进行投票来获得第二机器学习模型针对所述每条预测数据记录的预测结果。
作为示例,第二机器学习模型可用于执行业务决策,例如,所述业务决策可涉及交易反欺诈、账户开通反欺诈、智能营销、智能推荐、贷款评估之中的至少一项,但不限于此。
根据本公开示例性实施例的预测系统可通过在划分预测数据记录之后,利用多个第一机器学习模型执行预测以获得与每条预测数据记录对应的多个预测结果,并进一步基于多个预测结果利用第二机器学习模型获得最终的预测结果,从而可提高模型预测效果。
图3是示出根据本公开示例性实施例的在数据隐私保护方式下执行机器学习的方法(以下,为描述方便,将其简称为“机器学习方法”)的流程图。
这里,作为示例,图3所示的机器学习方法可由图1所示的机器学习系统100来执行,也可完全通过计算机程序或指令以软件方式实现,还可通过特定配置的计算系统或计算装置来执行,例如,可通过包括至少一个计算装置和至少一个存储指令的存储装置的系统来执行,其中,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行上述机器学习方法。为了描述方便,假设图3所示的方法由图1所示的机器学习系统100来执行,并假设机器学习系统100可具有图1所示的配置。
参照图3,在步骤S310,数据集获取装置110可获取包括多条训练数据记录的训练数据集。以上在参照图1描述数据集获取装置110时提及的与获取训练数据集有关的任何内容均适应于此,因此,这里不在对其进行赘述。
在获取到训练数据集之后,在步骤S320,划分装置120可将训练数据集或训练数据集中的第一训练数据集按照数据属性字段划分为多个第一训练数据子集。这里,第一训练数据集可包括所述多条训练数据记录中的部分训练数据记录,并且每个第一训练数据子集中的数据记录可包括至少一个数据属性字段。以上已经在参照图1描述划分装置120时描述了按照数据属性字段划分训练数据集或第一训练数据集的细节,这里不再赘述。
随后,在步骤S330,第一机器学习模型获得装置130可在数据隐私保护方式下,基于每个第一训练数据子集,针对第一预测目标训练与每个第一训练数据子集对应的第一机器学习模型,以获得多个第一机器学习模型。
接下来,在步骤S340,第二机器学习模型获得装置140可利用所述多个第一机器学习模型获得第二机器学习模型。具体地,第二机器学习模型获得装置140可利用所述多个第一机器学习模型通过机器学习的方式获得第二机器学习模型。例如,在步骤S340,第二机器学习模型获得装置140可针对每个第一训练数据子集,利用与其对应的第一机器学习模型执行预测以获取针对每个第一训练数据子集中的每条数据记录的预测结果,并且在数据隐私保护方式下,基于由获取的与每条训练数据记录对应的多个预测结果构成的训练样本的集合,针对第二预测目标训练第二机器学习模型。在该示例性实施例中,在步骤S330训练第一机器学习模型与在步骤S340训练第二机器学习模型所使用的训练数据记录完全重叠。
然而,根据另一示例性实施例,训练第一机器学习模型与训练第二机器学习模型所使用的训练数据记录可以完全不重叠或部分重叠。在这种情况下,在步骤S340,第二机器学习模型获得装置140可通过以下操作来获得第二机器学习模型:将第二训练数据集按照数据属性字段以与划分训练数据集或第一训练数据集相同的方式划分为多个第二训练数据子集,其中,第二训练数据子集至少包括训练数据集中排除第一训练数据集之后的剩余训练数据记录;针对每个第二训练数据子集,利用与其对应的第一机器学习模型执行预测以获取针对每个第二训练数据子集中的每条数据记录的预测结果;在数据隐私保护方式下,基于由获取的与第二训练数据集中的每条训练数据记录对应的多个预测结果构成的训练样本的集合,针对第二预测目标训练第二机器学习模型。
作为示例,上述数据隐私保护方式可以是遵循差分隐私保护定义的保护方式,但不限于此。此外,所述数据隐私保护方式可以是在训练第一机器学习模型和/或第二机器学习模型的过程中添加随机噪声。例如,在所述数据隐私保护方式中,可将用于训练第一机器学习模型的目标函数和/或用于训练第二机器学习模型的目标函数构造为至少包括损失函数和噪声项,而所述数据隐私保护方式的隐私预算可取决于与用于训练第一机器学习模型的目标函数所包括的噪声项对应的隐私预算和与用于训练第二机器学习模型的目标函数所包括的噪声项对应的隐私预算两者之和或两者之中较大的隐私预算。具体地,在训练第一机器学习模型和训练第二机器学习模型所使用的训练数据集完全重叠或部分重叠的情况下,所述数据隐私保护方式的隐私预算可取决于上述两者之和,而在训练第一机器学习模型和训练第二机器学习模型所使用的训练数据集完全不重叠的情况下,所述数据隐私保护方式的隐私预算可取决于上述两者之中较大的隐私预算。根据示例性实施例,第一机器学习模型和第二机器学习模型可属于相同类型的机器学习模型(例如,两者均为逻辑回归模型,但不限于此),并且,第一预测目标和第二预测目标可以相同或相似。由于以上已在关于图1的描述中对数据隐私保护方式、机器学习模型的类型以及预测目标等相关内容进行过介绍,因此,这里不再赘述。
以上描述了在步骤S340通过训练的方式获得第二机器学习模型,然而,获得第二机器学习模型的方式不限于此,例如,可选地,在步骤S340,第二机器学习模型获得装置140可将第二机器学习模型的规则设置为:基于通过以下方式获取的与每条预测数据记录对应的多个预测结果来获得第二机器学习模型针对所述每条预测数据记录的预测结果,其中,所述方式包括:获取预测数据记录,并将预测数据记录按照数据属性字段以与划分训练数据集或第一训练数据集相同的方式划分为多个子预测数据;针对每条预测数据记录之中的每个子预测数据,利用与其对应的第一机器学习模型执行预测以获取针对每个子预测数据的预测结果。
由于以上已经在图1的描述中介绍了与获得第二机器学习模型的不同方式有关的细节,因此,这里不再赘述,具体细节可参见关于图1的相应描述。此外,在步骤S340获得的第二机器学习模型可用于执行业务决策,例如,所述业务决策可涉及交易反欺诈、账户开通反欺诈、智能营销、智能推荐、贷款评估之中的至少一项,但不限于此。
以上描述的根据本公开示例性实施例的在数据隐私保护方式下执行机器学习的方法,既可以实现数据隐私不被泄露,同时能够使得在获得机器学习模型的过程中为了实现数据隐私保护而添加的噪声相对小,从而可保证获得的机器学习模型的后续可用性。
需要说明的是,尽管以上在描述图3时,按顺序对图3中的步骤进行了描述,但是,本领域技术人员清楚的是,上述方法中的各个步骤不一定按顺序执行,而是可按照相反的顺序或并行地执行,例如,在执行步骤S330或S340的同时,也可执行步骤S310或步骤S320,也就是说,在获得第一机器学习模型或第二机器学习模型的过程中,可同时获取新的训练数据集或对新获取的训练数据集进行划分,以用于例如后续机器学习模型的更新操作等。
图4是示出根据本公开示例性实施例的利用机器学习模型执行预测的方法(为便于描述,将该方法简称为“预测方法”)的流程图。作为示例,该预测方法可由以上参照图2描述的“预测系统”来执行,也可完全通过计算机程序或指令以软件方式实现,还可通过特定配置的计算系统或计算装置来执行。为描述方便,假设“预测方法”由图2的预测系统200执行,并假设预测系统200可包括机器学习模型获取装置210、预测数据记录获取装置220、划分装置230和预测装置240。
具体地,在步骤S410,机器学习模型获取装置210可获取多个第一机器学习模型以及第二机器学习模型。例如,机器学习模型获取装置210可直接获取机器学习系统100通过图3所示的方法获得的多个第一机器学习模型和第二机器学习模型。可选地,机器学习模型获取装置210也可本身通过执行图3所示的方法来获得多个第一机器学习模型和第二机器学习模型,关于获得第一机器学习模型和第二机器学习模型的具体方式,以上已经参照图1进行过描述,因此这里不再赘述。也就是说,这里的“预测方法”既可以是上述“机器学习方法”的继续,也可以是完全独立的预测方法。
在步骤S420,预测数据记录获取装置220可获取预测数据记录。这里,预测数据记录可与先前描述的训练数据记录包括相同的数据属性字段。此外,预测数据记录获取装置220可实时地逐条获取预测数据记录,或者可离线地批量获取预测数据记录。随后,在步骤S430,划分装置230可将预测数据记录按照数据属性字段划分为多个子预测数据,其中,每个子预测数据可包括至少一个数据属性字段。具体地,划分装置230可按照数据属性字段以与先前描述的划分训练数据集相同的方式将预测数据记录划分为多个子预测数据。接下来,在步骤S440,预测装置240可针对每条预测数据记录之中的每个子预测数据,利用与其对应的第一机器学习模型执行预测以获取针对每个子预测数据的预测结果。最后,在步骤S450,预测装置240可将通过多个第一机器学习模型获取的与每条预测数据记录对应的多个预测结果输入第二机器学习模型,以获得第二机器学习模型针对所述每条预测数据记录的预测结果。
关于以上步骤中所涉及的第一机器学习模型、第二机器学习模型以及数据隐私保护方式等的描述均可参照描述图3所示的预测系统时提及的相应描述,因此,这里不再赘述。
根据以上预测方法,通过在划分预测数据记录之后利用多个第一机器学习模型执行预测以获得与每条预测数据记录对应的多个预测结果,并进一步基于获得的多个预测结果利用第二机器学习模型获得最终的预测结果,从而可提高模型预测效果。
图5是示出本公开构思的示例的示意图。为便于更清楚且直观地理解本公开的构思,以下结合图5以金融领域中的贷款审核场景为例(即,第二机器学习模型将用于贷款审核这一业务决策),对本公开的构思进行简要描述。
参照图5,预测系统520可从机器学习系统510获取多个第一机器学习模型以及第二机器学习模型。这里,机器学习系统510可以是以上参照图1描述的机器学习系统100,预测系统520可以是以上参照图2描述的预测系统200。尽管在图5的示例中,假设机器学习系统510和预测系统520是彼此独立的系统,然而,机器学习系统510也可以与预测系统520集成为一体,例如,预测系统520可包括机器学习系统510作为其组成部分,也就是说,预测系统520可本身执行图3所述的在数据隐私保护下执行机器学习的方法来获得第一机器学习模型和第二机器学习模型。这里,为描述方便,假设在图5的示例中由机器学习系统510执行图3所述的在数据隐私保护下执行机器学习的方法来获得第一机器学习模型和第二机器学习模型,并将获得的第一机器学习模型和第二机器学习模型发送给预测系统520。
作为示例,机器学习系统510和预测系统520可以由专门提供机器学习服务的实体(例如,机器学习服务提供商)提供,或者也可由期望获得预测结果的实体(例如,数据源530)自己构建。相应地,机器学习系统510和预测系统520既可设置在云端(如公有云、私有云或混合云),也可以设置在银行机构的本地系统。这里,为描述方便,假设机器学习系统510和预测系统520被设置在公有云端,并且由机器学习服务提供商构建。
作为示例,机器学习系统510可从数据源530(例如,银行机构)获取包括多条训练数据记录的训练数据集。尽管在图5的示例中示出机器学习系统510从单个数据源530获取训练数据集,然而,机器学习系统510可从多个不同的数据源(例如,多个银行机构)获取训练数据集,本公开对此并无限制。作为示例,每条训练数据记录可包括例如用户的姓名、国籍、职业、薪酬、财产、信用记录、历史贷款金额的多个数据属性字段,但不限于此。此外,每条训练数据记录还可包括例如关于用户是否按时清偿贷款的标记信息。在获取到训练数据集之后,机器学习系统510可将获取的训练数据集按照数据属性字段划分为多个第一训练数据子集,然后在数据隐私保护方式下,基于划分出的每个第一训练数据子集,针对第一预测目标训练与每个第一训练数据子集对应的第一机器学习模型,以获得多个第一机器学习模型。例如,第一预测目标可以是预测用户贷款风险指数或贷款清偿能力,相应地,第一机器学习模型可以是用于预测用户贷款风险指数或贷款清偿能力的机器学习模型。然后,机器学习系统510可进一步利用所述多个第一机器学习模型获得第二机器学习模型。具体地获得第一机器学习模型和第二机器学习模型的方式可参见图1和图3的相关描述,这里不再赘述。这里,第二机器学习模型与第一机器学习模型所针对的预测目标可以相同或相似。例如,第二机器学习模型也可以是用于预测用户贷款风险指数或贷款清偿能力的机器学习模型,或者可以是用于预测用户贷款行为是否涉嫌欺诈的机器学习模型。
数据源530可将涉及至少一个贷款申请者的预测数据记录发送给预测系统520。需要说明的是,尽管在图5的示例中示出预测系统520获取预测数据记录的数据源与机器学习系统510获取训练数据记录的数据源相同(即,均为数据源530),但事实上,预测系统520获取预测数据记录的数据源与机器学习系统510获取训练数据记录的数据源可以不同。这里,每条预测数据记录可与以上提及的机器学习系统510训练第一机器学习模型所使用的训练数据记录包括相同的数据属性字段,即,也可包括例如用户的姓名、国籍、职业、薪酬、财产、信用记录、历史贷款金额的多个数据属性字段。然后,预测系统520可将预测数据记录按照数据属性字段以与机器学习系统510划分训练数据集相同的方式划分为多个子预测数据,并且针对每条预测数据记录之中的每个子预测数据,利用所述多个第一机器学习模型中的与每个子预测数据对应的第一机器学习模型执行预测以获取针对每个子预测数据的预测结果,并且将通过所述多个第一机器学习模型获取的与每条预测数据记录对应的多个预测结果输入第二机器学习模型,以获得第二机器学习模型针对所述每条预测数据记录的预测结果。这里,预测结果可以是每个贷款申请者的贷款风险指数或贷款清偿能力评分,或者可以是每个贷款申请者的贷款行为是否涉嫌欺诈。之后,预测系统520可将获取的预测结果反馈给数据源530。数据源530可基于接收到的预测结果判断是否批准贷款申请者提出的贷款申请。
需要说明的是,尽管以上以机器学习在金融领域中的贷款估计应用为例介绍了本公开的构思,但是,本领域人员清楚的是,本公开中提及的机器学习方法和系统以及预测方法和系统均不限于应用于金融领域,也不限于用于执行贷款估计这样的业务决策。而是,可应用于任何涉及数据安全和机器学习的领域和业务决策。例如,本公开还可应用于交易反欺诈、账户开通反欺诈、智能营销、智能推荐、以及公共卫生领域中生理数据的预测等。
以上已参照图1至图5描述了根据本公开示例性实施例的机器学习方法和机器学习系统、以及预测方法和预测系统。然而,应理解的是:附图中示出的装置和系统可被分别配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如,这些系统、装置可对应于专用的集成电路,也可对应于纯粹的软件代码,还可对应于软件与硬件相结合的模块。此外,这些系统或装置所实现的一个或多个功能也可由物理实体设备(例如,处理器、客户端或服务器等)中的组件来统一执行。
此外,上述方法可通过记录在计算机可读存储介质上的指令来实现,例如,根据本公开的示例性实施例,可提供一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行以下步骤:获取包括多条训练数据记录的训练数据集;将训练数据集或训练数据集中的第一训练数据集按照数据属性字段划分为多个第一训练数据子集,其中,第一训练数据集包括所述多条训练数据记录中的部分训练数据记录,每个第一训练数据子集中的数据记录包括至少一个数据属性字段;在数据隐私保护方式下,基于每个第一训练数据子集,针对第一预测目标训练与每个第一训练数据子集对应的第一机器学习模型,以获得多个第一机器学习模型;利用所述多个第一机器学习模型获得第二机器学习模型。
此外,根据本公开的示例性实施例,可提供一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行以下步骤:获取多个第一机器学习模型以及第二机器学习模型;获取预测数据记录;将预测数据记录按照数据属性字段划分为多个子预测数据,其中,每个子预测数据包括至少一个数据属性字段;针对每条预测数据记录之中的每个子预测数据,利用所述多个第一机器学习模型中的与每个子预测数据对应的第一机器学习模型执行预测以获取针对每个子预测数据的预测结果;将通过所述多个第一机器学习模型获取的与每条预测数据记录对应的多个预测结果输入第二机器学习模型,以获得第二机器学习模型针对所述每条预测数据记录的预测结果。
上述计算机可读存储介质中存储的指令可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,应注意,所述指令还可用于执行除了上述步骤以外的附加步骤或者在执行上述步骤时执行更为具体的处理,这些附加步骤和进一步处理的内容已经在参照图3和图4进行机器学习方法和预测方法的描述过程中提及,因此这里为了避免重复将不再进行赘述。
应注意,根据本公开示例性实施例的机器学习系统和预测系统可完全依赖计算机程序或指令的运行来实现相应的功能,即,各个装置在计算机程序的功能架构中与各步骤相应,使得整个系统通过专门的软件包(例如,lib库)而被调用,以实现相应的功能。
另一方面,当图1和图2所示的系统和装置以软件、固件、中间件或微代码实现时,用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中,使得至少一个处理器或至少一个计算装置可通过读取并运行相应的程序代码或者代码段来执行相应的操作。
例如,根据本公开示例性实施例,可提供一种包括至少一个计算装置和至少一个存储指令的存储装置的系统,其中,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行下述步骤:获取包括多条训练数据记录的训练数据集;将训练数据集或训练数据集中的第一训练数据集按照数据属性字段划分为多个第一训练数据子集,其中,第一训练数据集包括所述多条训练数据记录中的部分训练数据记录,每个第一训练数据子集中的数据记录包括至少一个数据属性字段;在数据隐私保护方式下,基于每个第一训练数据子集,针对第一预测目标训练与每个第一训练数据子集对应的第一机器学习模型,以获得多个第一机器学习模型;利用所述多个第一机器学习模型获得第二机器学习模型。
此外,根据本公开的示例性实施例,可提供一种包括至少一个计算装置和至少一个存储指令的存储装置的系统,其中,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行下述步骤:获取多个第一机器学习模型以及第二机器学习模型;获取预测数据记录;将预测数据记录按照数据属性字段划分为多个子预测数据,其中,每个子预测数据包括至少一个数据属性字段;针对每条预测数据记录之中的每个子预测数据,利用所述多个第一机器学习模型中的与每个子预测数据对应的第一机器学习模型执行预测以获取针对每个子预测数据的预测结果;将通过所述多个第一机器学习模型获取的与每条预测数据记录对应的多个预测结果输入第二机器学习模型,以获得第二机器学习模型针对所述每条预测数据记录的预测结果。
具体说来,上述系统可以部署在服务器或客户端中,也可以部署在分布式网络环境中的节点上。此外,所述系统可以是PC计算机、平板装置、个人数字助理、智能手机、web应用或其他能够执行上述指令集合的装置。此外,所述系统还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。另外,所述系统的所有组件可经由总线和/或网络而彼此连接。
这里,所述系统并非必须是单个系统,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。所述系统还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子装置。
在所述系统中,所述至少一个计算装置可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,所述至少一个计算装置还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。计算装置可运行存储在存储装置之一中的指令或代码,其中,所述存储装置还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,所述网络接口装置可采用任何已知的传输协议。
存储装置可与计算装置集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储装置可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储装置和计算装置可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得计算装置能够读取存储在存储装置中的指令。
以上描述了本公开的各示例性实施例,应理解,上述描述仅是示例性的,并非穷尽性的,本公开不限于所披露的各示例性实施例。在不偏离本公开的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此,本公开的保护范围应该以权利要求的范围为准。

Claims (10)

1.一种在数据隐私保护下执行机器学习的方法,包括:
获取包括多条训练数据记录的训练数据集;
将训练数据集或训练数据集中的第一训练数据集按照数据属性字段划分为多个第一训练数据子集,其中,第一训练数据集包括所述多条训练数据记录中的部分训练数据记录,每个第一训练数据子集中的数据记录包括至少一个数据属性字段;
在数据隐私保护方式下,基于每个第一训练数据子集,针对第一预测目标训练与每个第一训练数据子集对应的第一机器学习模型,以获得多个第一机器学习模型;
利用所述多个第一机器学习模型获得第二机器学习模型。
2.如权利要求1所述的方法,其中,利用所述多个第一机器学习模型获得第二机器学习模型的步骤包括:
将第二机器学习模型的规则设置为:基于通过以下方式获取的与每条预测数据记录对应的多个预测结果来获得第二机器学习模型针对所述每条预测数据记录的预测结果,其中,所述方式包括:获取预测数据记录,并将预测数据记录按照数据属性字段以与划分训练数据集或第一训练数据集相同的方式划分为多个子预测数据;针对每条预测数据记录之中的每个子预测数据,利用与其对应的第一机器学习模型执行预测以获取针对每个子预测数据的预测结果;或者
针对每个第一训练数据子集,利用与其对应的第一机器学习模型执行预测以获取针对每个第一训练数据子集中的每条数据记录的预测结果;并且在数据隐私保护方式下,基于由获取的与每条训练数据记录对应的多个预测结果构成的训练样本的集合,针对第二预测目标训练第二机器学习模型;或者
将第二训练数据集按照数据属性字段以与划分训练数据集或第一训练数据集相同的方式划分为多个第二训练数据子集,其中,第二训练数据子集至少包括训练数据集中排除第一训练数据集之后的剩余训练数据记录;针对每个第二训练数据子集,利用与其对应的第一机器学习模型执行预测以获取针对每个第二训练数据子集中的每条数据记录的预测结果;在数据隐私保护方式下,基于由获取的与第二训练数据集中的每条训练数据记录对应的多个预测结果构成的训练样本的集合,针对第二预测目标训练第二机器学习模型。
3.如权利要求2所述的方法,其中,所述数据隐私保护方式为遵循差分隐私保护定义的保护方式。
4.如权利要求2所述的方法,其中,所述数据隐私保护方式为在训练第一机器学习模型和/或第二机器学习模型的过程中添加随机噪声。
5.如权利要求4所述的方法,其中,在所述数据隐私保护方式中将用于训练第一机器学习模型的目标函数和/或用于训练第二机器学习模型的目标函数构造为至少包括损失函数和噪声项。
6.一种利用机器学习模型执行预测的方法,包括:
获取多个第一机器学习模型以及第二机器学习模型;
获取预测数据记录;
将预测数据记录按照数据属性字段划分为多个子预测数据,其中,每个子预测数据包括至少一个数据属性字段;
针对每条预测数据记录之中的每个子预测数据,利用所述多个第一机器学习模型中的与每个子预测数据对应的第一机器学习模型执行预测以获取针对每个子预测数据的预测结果;
将通过所述多个第一机器学习模型获取的与每条预测数据记录对应的多个预测结果输入第二机器学习模型,以获得第二机器学习模型针对所述每条预测数据记录的预测结果。
7.一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行如权利要求1至5中的任一权利要求所述的在数据隐私保护下执行机器学习的方法和/或如权利要求6所述的利用机器学习模型执行预测的方法。
8.一种包括至少一个计算装置和至少一个存储指令的存储装置的系统,其中,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行如权利要求1至5中的任一权利要求所述的在数据隐私保护下执行机器学习的方法和/或如权利要求6所述的利用机器学习模型执行预测的方法。
9.一种在数据隐私保护下执行机器学习的系统,包括:
数据集获取装置,被配置为获取包括多条训练数据记录的训练数据集;
划分装置,被配置为将训练数据集或训练数据集中的第一训练数据集按照数据属性字段划分为多个第一训练数据子集,其中,第一训练数据集包括所述多条训练数据记录中的部分训练数据记录,每个第一训练数据子集中的数据记录包括至少一个数据属性字段;
第一机器学习模型获得装置,被配置为在数据隐私保护方式下,基于每个第一训练数据子集,针对第一预测目标训练与每个第一训练数据子集对应的第一机器学习模型,以获得多个第一机器学习模型;
第二机器学习模型获得装置,被配置为利用所述多个第一机器学习模型获得第二机器学习模型。
10.一种利用机器学习模型执行预测的系统,包括:
机器学习模型获取装置,被配置为获取多个第一机器学习模型以及第二机器学习模型;
预测数据记录获取装置,被配置为获取预测数据记录;
划分装置,被配置为将预测数据记录按照数据属性字段划分为多个子预测数据,其中,每个子预测数据包括至少一个数据属性字段;
预测装置,被配置为针对每条预测数据记录之中的每个子预测数据,利用所述多个第一机器学习模型中的与每个子预测数据对应的第一机器学习模型执行预测以获取针对每个子预测数据的预测结果,并且将通过所述多个第一机器学习模型获取的与每条预测数据记录对应的多个预测结果输入第二机器学习模型,以获得第二机器学习模型针对所述每条预测数据记录的预测结果。
CN201811135451.0A 2018-09-28 2018-09-28 在数据隐私保护下执行机器学习的方法和系统 Active CN110968887B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811135451.0A CN110968887B (zh) 2018-09-28 2018-09-28 在数据隐私保护下执行机器学习的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811135451.0A CN110968887B (zh) 2018-09-28 2018-09-28 在数据隐私保护下执行机器学习的方法和系统

Publications (2)

Publication Number Publication Date
CN110968887A true CN110968887A (zh) 2020-04-07
CN110968887B CN110968887B (zh) 2022-04-05

Family

ID=70026550

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811135451.0A Active CN110968887B (zh) 2018-09-28 2018-09-28 在数据隐私保护下执行机器学习的方法和系统

Country Status (1)

Country Link
CN (1) CN110968887B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368337A (zh) * 2020-05-27 2020-07-03 支付宝(杭州)信息技术有限公司 保护隐私的样本生成模型构建、仿真样本生成方法及装置
CN113424207A (zh) * 2020-10-13 2021-09-21 支付宝(杭州)信息技术有限公司 高效地训练可理解模型的系统和方法
WO2022051237A1 (en) * 2020-09-01 2022-03-10 Argo AI, LLC Methods and systems for secure data analysis and machine learning

Citations (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140040172A1 (en) * 2012-01-10 2014-02-06 Telcordia Technologies, Inc. Privacy-Preserving Aggregated Data Mining
CN103577989A (zh) * 2012-07-30 2014-02-12 阿里巴巴集团控股有限公司 一种基于产品识别的信息分类方法及信息分类系统
CN103617393A (zh) * 2013-11-28 2014-03-05 北京邮电大学 一种基于支持向量机的移动互联网恶意应用软件检测方法
CN105069286A (zh) * 2015-07-24 2015-11-18 上海交通大学 基于垂直分布隐私数据保护的logistic回归分析系统
CN105447525A (zh) * 2015-12-15 2016-03-30 中国科学院软件研究所 一种数据预测分类方法及装置
CN105608389A (zh) * 2015-10-22 2016-05-25 广西师范大学 医疗数据发布的差分隐私保护方法
CN105678129A (zh) * 2015-12-29 2016-06-15 联动优势科技有限公司 一种确定用户身份信息的方法及设备
CN106407999A (zh) * 2016-08-25 2017-02-15 北京物思创想科技有限公司 结合规则来进行机器学习的方法及系统
CN106611375A (zh) * 2015-10-22 2017-05-03 北京大学 一种基于文本分析的信用风险评估方法及装置
CN106611064A (zh) * 2017-01-03 2017-05-03 北京华胜信泰数据技术有限公司 分布式关系数据库的数据处理方法和装置
CN106851633A (zh) * 2017-02-15 2017-06-13 上海交通大学 基于用户隐私保护的电信欺诈检测系统及方法
CN107169574A (zh) * 2017-05-05 2017-09-15 第四范式(北京)技术有限公司 利用嵌套机器学习模型来执行预测的方法及系统
CN107169573A (zh) * 2017-05-05 2017-09-15 第四范式(北京)技术有限公司 利用复合机器学习模型来执行预测的方法及系统
CN107358113A (zh) * 2017-06-01 2017-11-17 徐州医科大学 基于微聚集匿名的差分隐私保护方法
CN107392319A (zh) * 2017-07-20 2017-11-24 第四范式(北京)技术有限公司 生成机器学习样本的组合特征的方法及系统
US20170372095A1 (en) * 2016-06-27 2017-12-28 International Business Machines Corporation Privacy detection of a mobile application program
CN107679625A (zh) * 2017-08-30 2018-02-09 第四范式(北京)技术有限公司 针对数据记录执行机器学习的分布式系统及其方法
CN107704930A (zh) * 2017-09-25 2018-02-16 阿里巴巴集团控股有限公司 基于共享数据的建模方法、装置、系统及电子设备
CN107832631A (zh) * 2017-11-13 2018-03-23 上海斐讯数据通信技术有限公司 一种数据发布的隐私保护方法和系统
CN108256538A (zh) * 2016-12-28 2018-07-06 北京酷我科技有限公司 一种用户资料预测方法和系统
CN108280462A (zh) * 2017-12-11 2018-07-13 北京三快在线科技有限公司 一种模型训练方法及装置,电子设备
CN108363928A (zh) * 2018-02-08 2018-08-03 广西师范大学 关联医疗数据中的自适应差分隐私保护方法
US20180232657A1 (en) * 2017-02-14 2018-08-16 Cognitive Scale, Inc. Cognitive Machine Learning Architecture
US20180253645A1 (en) * 2017-03-03 2018-09-06 International Business Machines Corporation Triage of training data for acceleration of large-scale machine learning
CN108520181A (zh) * 2018-03-26 2018-09-11 联想(北京)有限公司 数据模型训练方法和装置

Patent Citations (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140040172A1 (en) * 2012-01-10 2014-02-06 Telcordia Technologies, Inc. Privacy-Preserving Aggregated Data Mining
CN103577989A (zh) * 2012-07-30 2014-02-12 阿里巴巴集团控股有限公司 一种基于产品识别的信息分类方法及信息分类系统
CN103617393A (zh) * 2013-11-28 2014-03-05 北京邮电大学 一种基于支持向量机的移动互联网恶意应用软件检测方法
CN105069286A (zh) * 2015-07-24 2015-11-18 上海交通大学 基于垂直分布隐私数据保护的logistic回归分析系统
CN106611375A (zh) * 2015-10-22 2017-05-03 北京大学 一种基于文本分析的信用风险评估方法及装置
CN105608389A (zh) * 2015-10-22 2016-05-25 广西师范大学 医疗数据发布的差分隐私保护方法
CN105447525A (zh) * 2015-12-15 2016-03-30 中国科学院软件研究所 一种数据预测分类方法及装置
CN105678129A (zh) * 2015-12-29 2016-06-15 联动优势科技有限公司 一种确定用户身份信息的方法及设备
US20170372095A1 (en) * 2016-06-27 2017-12-28 International Business Machines Corporation Privacy detection of a mobile application program
CN106407999A (zh) * 2016-08-25 2017-02-15 北京物思创想科技有限公司 结合规则来进行机器学习的方法及系统
CN108256538A (zh) * 2016-12-28 2018-07-06 北京酷我科技有限公司 一种用户资料预测方法和系统
CN106611064A (zh) * 2017-01-03 2017-05-03 北京华胜信泰数据技术有限公司 分布式关系数据库的数据处理方法和装置
US20180232657A1 (en) * 2017-02-14 2018-08-16 Cognitive Scale, Inc. Cognitive Machine Learning Architecture
CN106851633A (zh) * 2017-02-15 2017-06-13 上海交通大学 基于用户隐私保护的电信欺诈检测系统及方法
US20180253645A1 (en) * 2017-03-03 2018-09-06 International Business Machines Corporation Triage of training data for acceleration of large-scale machine learning
CN107169573A (zh) * 2017-05-05 2017-09-15 第四范式(北京)技术有限公司 利用复合机器学习模型来执行预测的方法及系统
CN107169574A (zh) * 2017-05-05 2017-09-15 第四范式(北京)技术有限公司 利用嵌套机器学习模型来执行预测的方法及系统
CN107358113A (zh) * 2017-06-01 2017-11-17 徐州医科大学 基于微聚集匿名的差分隐私保护方法
CN107392319A (zh) * 2017-07-20 2017-11-24 第四范式(北京)技术有限公司 生成机器学习样本的组合特征的方法及系统
CN107679625A (zh) * 2017-08-30 2018-02-09 第四范式(北京)技术有限公司 针对数据记录执行机器学习的分布式系统及其方法
CN107704930A (zh) * 2017-09-25 2018-02-16 阿里巴巴集团控股有限公司 基于共享数据的建模方法、装置、系统及电子设备
CN107832631A (zh) * 2017-11-13 2018-03-23 上海斐讯数据通信技术有限公司 一种数据发布的隐私保护方法和系统
CN108280462A (zh) * 2017-12-11 2018-07-13 北京三快在线科技有限公司 一种模型训练方法及装置,电子设备
CN108363928A (zh) * 2018-02-08 2018-08-03 广西师范大学 关联医疗数据中的自适应差分隐私保护方法
CN108520181A (zh) * 2018-03-26 2018-09-11 联想(北京)有限公司 数据模型训练方法和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368337A (zh) * 2020-05-27 2020-07-03 支付宝(杭州)信息技术有限公司 保护隐私的样本生成模型构建、仿真样本生成方法及装置
WO2022051237A1 (en) * 2020-09-01 2022-03-10 Argo AI, LLC Methods and systems for secure data analysis and machine learning
CN113424207A (zh) * 2020-10-13 2021-09-21 支付宝(杭州)信息技术有限公司 高效地训练可理解模型的系统和方法
CN113424207B (zh) * 2020-10-13 2022-05-17 支付宝(杭州)信息技术有限公司 高效地训练可理解模型的系统和方法

Also Published As

Publication number Publication date
CN110968887B (zh) 2022-04-05

Similar Documents

Publication Publication Date Title
Surya An exploratory study of AI and Big Data, and it's future in the United States
US9576248B2 (en) Record linkage sharing using labeled comparison vectors and a machine learning domain classification trainer
AU2021218153A1 (en) Method and apparatus for encrypting data, method and apparatus for training machine learning model, and electronic device
CA3192143A1 (en) Predicting data tampering using augmented machine learning models
US11531987B2 (en) User profiling based on transaction data associated with a user
CN110968887B (zh) 在数据隐私保护下执行机器学习的方法和系统
US20230023630A1 (en) Creating predictor variables for prediction models from unstructured data using natural language processing
EP3839790A1 (en) Method and system for carrying out maching learning under data privacy protection
US11544513B1 (en) Video/animated QR codes
CN110858253A (zh) 在数据隐私保护下执行机器学习的方法和系统
CN113222732A (zh) 信息处理方法、装置、设备及存储介质
CN110990859B (zh) 在数据隐私保护下执行机器学习的方法和系统
Zhou et al. FinBrain 2.0: when finance meets trustworthy AI
Qasem et al. Extreme learning machine for credit risk analysis
CN111625572B (zh) 在数据隐私保护下执行机器学习的方法和系统
CN113094595A (zh) 对象识别方法、装置、计算机系统及可读存储介质
CN111178535A (zh) 实现自动机器学习的方法和装置
US20230274310A1 (en) Jointly predicting multiple individual-level features from aggregate data
US20220366169A1 (en) System and method for crowdsourcing a video summary for creating an enhanced video summary
Mary et al. Design and development of big data-based model for detecting fraud in healthcare insurance industry
US11853825B2 (en) Video/animated QR codes—privacy
US20230362154A1 (en) System and method for providing data authentication for long range communications
US20230080885A1 (en) Systems and methods for detection of synthetic identity malfeasance
US20240152959A1 (en) Systems and methods for artificial intelligence using data analytics of unstructured data
CN113095805A (zh) 对象识别方法、装置、计算机系统及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant