CN112948889A - 在数据隐私保护下执行机器学习的方法和系统 - Google Patents

在数据隐私保护下执行机器学习的方法和系统 Download PDF

Info

Publication number
CN112948889A
CN112948889A CN202110336435.3A CN202110336435A CN112948889A CN 112948889 A CN112948889 A CN 112948889A CN 202110336435 A CN202110336435 A CN 202110336435A CN 112948889 A CN112948889 A CN 112948889A
Authority
CN
China
Prior art keywords
machine learning
target
data
learning model
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110336435.3A
Other languages
English (en)
Other versions
CN112948889B (zh
Inventor
郭夏玮
涂威威
姚权铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
4Paradigm Beijing Technology Co Ltd
Original Assignee
4Paradigm Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 4Paradigm Beijing Technology Co Ltd filed Critical 4Paradigm Beijing Technology Co Ltd
Priority to CN202110336435.3A priority Critical patent/CN112948889B/zh
Publication of CN112948889A publication Critical patent/CN112948889A/zh
Application granted granted Critical
Publication of CN112948889B publication Critical patent/CN112948889B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

提供了一种在数据隐私保护下执行机器学习的方法和系统,所述方法包括:获取包括多条目标数据记录的目标数据集;获取关于源数据集的多个迁移项,其中,所述多个迁移项之中的每个迁移项用于在源数据隐私保护下将对应的一部分源数据集的知识迁移到目标数据集;分别利用所述多个迁移项之中的每个迁移项来获得与每个迁移项对应的第一目标机器学习模型,以获得多个第一目标机器学习模型;利用所述多个第一目标机器学习模型获得第二目标机器学习模型,其中,在获得所述多个第一目标机器学习模型的过程中和/或获得第二目标机器学习模型的过程中,在目标数据隐私保护方式下利用了所述多条目标数据记录中的全部或部分。

Description

在数据隐私保护下执行机器学习的方法和系统
技术领域
本发明总体说来涉及人工智能领域中的数据安全技术,更具体地说,涉及一种在数据隐私保护下执行机器学习的方法和系统、以及利用具有数据隐私保护的机器学习模型进行预测的方法和系统。
背景技术
众所周知,机器学习往往需要大量的数据以通过计算的手段从大量数据中挖掘出有价值的潜在信息。尽管随着信息技术的发展产生了海量的数据,然而,当前环境下,人们对数据的隐私保护越来越重视,这使得即使理论上可用于机器学习的数据很多,也因为不同数据源出于其对自身所拥有的数据的隐私保护上的考虑,而不愿或不能将其数据直接共享给其他有需要的数据使用者,从而使得实际上可用于机器学习的数据仍然可能不足,由此导致无法有效地利用机器学习基于更多的相关数据挖掘出能够创造更多价值的信息。此外,即使已经从其他数据源获取到含有隐私信息的数据或者机构本身拥有含有隐私信息的数据,基于这些数据训练出的机器学习模型仍然可能泄露数据的隐私信息。
另外,虽然目前存在一些对数据进行隐私保护的方式,但是实际操作中却往往难以同时兼顾数据隐私保护和受隐私保护数据的后续可用性这两者,从而导致机器学习效果不佳。
鉴于此,需要既保证数据中的隐私信息不被泄露,同时在能够保证受隐私保护的数据的后续可用性的情况下有效利用不同数据源的数据进行机器学习的技术。
发明内容
根据本公开示例性实施例,提供了一种在数据隐私保护下执行机器学习的方法,所述方法可包括:获取包括多条目标数据记录的目标数据集;获取关于源数据集的多个迁移项,其中,所述多个迁移项之中的每个迁移项用于在源数据隐私保护下将对应的一部分源数据集的知识迁移到目标数据集;分别利用所述多个迁移项之中的每个迁移项来获得与每个迁移项对应的第一目标机器学习模型,以获得多个第一目标机器学习模型;利用所述多个第一目标机器学习模型获得第二目标机器学习模型,其中,在获得所述多个第一目标机器学习模型的过程中和/或获得第二目标机器学习模型的过程中,在目标数据隐私保护方式下利用了所述多条目标数据记录中的全部或部分。
可选地,所述对应的一部分源数据集可以是通过将源数据集按照数据属性字段划分而获得的源数据子集。
可选地,获取关于源数据集的多个迁移项的步骤可包括:从外部接收关于源数据集的多个迁移项。
可选地,获取关于源数据集的多个迁移项的步骤可包括:获取包括多条源数据记录的源数据集,其中,源数据记录和目标数据记录包括相同的数据属性字段;将源数据集按照数据属性字段划分为多个源数据子集,其中,每个源数据子集中的数据记录包括至少一个数据属性字段;在源数据隐私保护方式下,基于每个源数据子集,针对第一预测目标训练与每个源数据子集对应的源机器学习模型,并将训练出的每个源机器学习模型的参数作为与每个源数据子集相关的迁移项。
可选地,获得与每个迁移项对应的第一目标机器学习模型的步骤可包括:在不使用目标数据集的情况下,直接将每个迁移项作为与其对应的第一目标机器学习模型的参数。
可选地,获得与每个迁移项对应的第一目标机器学习模型的步骤可包括:将目标数据集或第一目标数据集按照数据属性字段以与划分源数据集相同的方式划分为多个第一目标数据子集,其中,第一目标数据集包括目标数据集中所包括的部分目标数据记录,每个第一目标数据子集和与其对应的源数据子集中的数据记录包括相同的数据属性字段;在目标数据隐私保护方式下,基于每个第一目标数据子集,结合和与每个第一目标数据子集对应的源数据子集相关的迁移项,针对第二预测目标训练与该迁移项对应的第一目标机器学习模型。
可选地,获得第二目标机器学习模型的步骤可包括:将目标数据集按照数据属性字段以与划分源数据集相同的方式划分为多个目标数据子集,其中,每个目标数据子集和与其对应的源数据子集中的数据记录包括相同的数据属性字段;针对每个目标数据子集,利用与其对应的第一目标机器学习模型执行预测以获取针对每个目标数据子集中的每条数据记录的预测结果;在目标数据隐私保护方式下,基于由获取的与每条目标数据记录对应的多个预测结果构成的训练样本的集合,针对第三预测目标训练第二目标机器学习模型。
可选地,获得第二目标机器学习模型的步骤可包括:将第二目标机器学习模型的规则设置为:基于通过以下方式获取的与每条预测数据记录对应的多个预测结果来获得第二目标机器学习模型针对所述每条预测数据记录的预测结果,其中,所述方式包括:获取预测数据记录,并将预测数据记录按照数据属性字段以与划分源数据集相同的方式划分为多个子预测数据;针对每条预测数据记录之中的每个子预测数据,利用与其对应的第一目标机器学习模型执行预测以获取针对每个子预测数据的预测结果;或者针对每个第一目标数据子集,利用与其对应的第一目标机器学习模型执行预测以获取针对每个第一目标数据子集中的每条数据记录的预测结果;并且在目标数据隐私保护方式下,基于由获取的与每条目标数据记录对应的多个预测结果构成的训练样本的集合,针对第三预测目标训练第二目标机器学习模型;或者将第二目标数据集按照数据属性字段以与划分源数据集相同的方式划分为多个第二目标数据子集,其中,第二目标数据集不同于第一目标数据集并至少包括目标数据集中排除第一目标数据集之后的剩余目标数据记录;针对每个第二目标数据子集,利用与其对应的第一目标机器学习模型执行预测以获取针对每个第二目标数据子集中的每条数据记录的预测结果;在目标数据隐私保护方式下,基于由获取的与每条目标数据记录对应的多个预测结果构成的训练样本的集合,针对第三预测目标训练第二目标机器学习模型。
可选地,所述源数据隐私保护方式和/或所述目标数据隐私保护方式可以为遵循差分隐私定义的保护方式。
可选地,所述源数据隐私保护方式可以为在训练源机器学习模型的过程中添加随机噪声;并且/或者,所述目标数据隐私保护方式可以为在获得第一目标机器学习模型和/或第二目标机器学习模型的过程中添加随机噪声。
可选地,在所述源数据隐私保护方式中可将用于训练源机器学习模型的目标函数构造为至少包括损失函数和噪声项;并且/或者,在所述目标数据隐私保护方式中可将用于训练第一目标机器学习模型的目标函数和/或用于训练第二目标机器学习模型的目标函数构造为至少包括损失函数和噪声项。
可选地,所述目标数据隐私保护方式的隐私预算可取决于与用于训练第一目标机器学习模型的目标函数所包括的噪声项对应的隐私预算和与用于训练第二目标机器学习模型的目标函数所包括的噪声项对应的隐私预算两者之和或两者之中较大的隐私预算。
可选地,源机器学习模型和第一目标机器学习模型可属于相同类型的机器学习模型;并且/或者,第一预测目标和第二预测目标可以相同或相似。
可选地,所述相同类型的机器学习模型可以为逻辑回归模型,其中,训练第一目标机器学习模型的步骤可包括:将用于训练第一目标机器学习模型的目标函数构造为至少包括损失函数和噪声项并反映第一目标机器学习模型的参数与对应于该第一目标机器学习模型的迁移项之间的差值;在目标数据隐私保护方式下,基于每个第一目标数据子集,结合和与每个第一目标数据子集对应的源数据子集相关的迁移项,通过求解构造的目标函数来针对第二预测目标训练与该迁移项对应的第一目标机器学习模型。
可选地,第一目标机器学习模型和第二目标机器学习模型可属于相同类型的机器学习模型;并且/或者,第二预测目标和第三预测目标可以相同或相似。
可选地,第二目标机器学习模型可用于执行业务决策,其中,所述业务决策可涉及交易反欺诈、账户开通反欺诈、智能营销、智能推荐、贷款评估之中的至少一项。
根据本公开另一示例性实施例,提供了一种利用具有数据隐私保护的机器学习模型进行预测的方法,所述方法可包括:获取如上所述的多个第一目标机器学习模型和第二目标机器学习模型;获取预测数据记录;将预测数据记录划分为多个子预测数据;针对每条预测数据记录之中的每个子预测数据,利用与其对应的第一目标机器学习模型执行预测以获取针对每个子预测数据的预测结果;以及将由多个第一目标机器学习模型获取的与每条预测数据记录对应的多个预测结果输入第二目标机器学习模型,以得到针对所述每条预测数据记录的预测结果。
根据本公开另一示例性实施例,提供了一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,可促使所述至少一个计算装置执行如上所述的在数据隐私保护下执行机器学习的方法和/或如上所述的利用具有数据隐私保护的机器学习模型进行预测的方法。
根据本公开另一示例性实施例,提供了一种包括至少一个计算装置和至少一个存储指令的存储装置的系统,其中,所述指令在被所述至少一个计算装置运行时,可促使所述至少一个计算装置执行如上所述的在数据隐私保护下执行机器学习的方法和/或如上所述的利用具有数据隐私保护的机器学习模型进行预测的方法。
根据本公开另一示例性实施例,提供了一种在数据隐私保护下执行机器学习的系统,所述系统可包括:目标数据集获取装置,被配置为获取包括多条目标数据记录的目标数据集;迁移项获取装置,被配置为获取关于源数据集的多个迁移项,其中,所述多个迁移项之中的每个迁移项用于在源数据隐私保护下将对应的一部分源数据集的知识迁移到目标数据集;第一目标机器学习模型获得装置,被配置为分别利用所述多个迁移项之中的每个迁移项来获得与每个迁移项对应的第一目标机器学习模型,以获得多个第一目标机器学习模型;第二目标机器学习模型获得装置,被配置为利用所述多个第一目标机器学习模型获得第二目标机器学习模型,其中,在第一目标机器学习模型获得装置获得所述多个第一目标机器学习模型的过程中和/或第二目标机器学习模型获得装置获得第二目标机器学习模型的过程中,在目标数据隐私保护方式下利用了所述多条目标数据记录中的全部或部分。
可选地,所述对应的一部分源数据集可以是通过将源数据集按照数据属性字段划分而获得的源数据子集。
可选地,迁移项获取装置可被配置为从外部接收关于源数据集的多个迁移项。
可选地,迁移项获取装置可被配置为通过以下操作来获取关于源数据集的多个迁移项:获取包括多条源数据记录的源数据集,其中,源数据记录和目标数据记录包括相同的数据属性字段;将源数据集按照数据属性字段划分为多个源数据子集,其中,每个源数据子集中的数据记录包括至少一个数据属性字段;在源数据隐私保护方式下,基于每个源数据子集,针对第一预测目标训练与每个源数据子集对应的源机器学习模型,并将训练出的每个源机器学习模型的参数作为与每个源数据子集相关的迁移项。
可选地,第一目标机器学习模型获得装置可被配置为在不使用目标数据集的情况下,直接将每个迁移项作为与其对应的第一目标机器学习模型的参数。
可选地,第一目标机器学习模型获得装置可被配置为通过以下操作来获得与每个迁移项对应的第一目标机器学习模型:将目标数据集或第一目标数据集按照数据属性字段以与划分源数据集相同的方式划分为多个第一目标数据子集,其中,第一目标数据集包括目标数据集中所包括的部分目标数据记录,每个第一目标数据子集和与其对应的源数据子集中的数据记录包括相同的数据属性字段;在目标数据隐私保护方式下,基于每个第一目标数据子集,结合和与每个第一目标数据子集对应的源数据子集相关的迁移项,针对第二预测目标训练与该迁移项对应的第一目标机器学习模型。
可选地,第二目标机器学习模型获得装置可被配置为通过以下操作来获得第二目标机器学习模型:将目标数据集按照数据属性字段以与划分源数据集相同的方式划分为多个目标数据子集,其中,每个目标数据子集和与其对应的源数据子集中的数据记录包括相同的数据属性字段;针对每个目标数据子集,利用与其对应的第一目标机器学习模型执行预测以获取针对每个目标数据子集中的每条数据记录的预测结果;在目标数据隐私保护方式下,基于由获取的与每条目标数据记录对应的多个预测结果构成的训练样本的集合,针对第三预测目标训练第二目标机器学习模型。
可选地,第二目标机器学习模型获得装置可被配置为通过以下操作来获得第二目标机器学习模型:将第二目标机器学习模型的规则设置为:基于通过以下方式获取的与每条预测数据记录对应的多个预测结果来获得第二目标机器学习模型针对所述每条预测数据记录的预测结果,其中,所述方式包括:获取预测数据记录,并将预测数据记录按照数据属性字段以与划分源数据集相同的方式划分为多个子预测数据;针对每条预测数据记录之中的每个子预测数据,利用与其对应的第一目标机器学习模型执行预测以获取针对每个子预测数据的预测结果;或者针对每个第一目标数据子集,利用与其对应的第一目标机器学习模型执行预测以获取针对每个第一目标数据子集中的每条数据记录的预测结果;并且在目标数据隐私保护方式下,基于由获取的与每条目标数据记录对应的多个预测结果构成的训练样本的集合,针对第三预测目标训练第二目标机器学习模型;或者将第二目标数据集按照数据属性字段以与划分源数据集相同的方式划分为多个第二目标数据子集,其中,第二目标数据集不同于第一目标数据集并至少包括目标数据集中排除第一目标数据集之后的剩余目标数据记录;针对每个第二目标数据子集,利用与其对应的第一目标机器学习模型执行预测以获取针对每个第二目标数据子集中的每条数据记录的预测结果;在目标数据隐私保护方式下,基于由获取的与每条目标数据记录对应的多个预测结果构成的训练样本的集合,针对第三预测目标训练第二目标机器学习模型。
可选地,所述源数据隐私保护方式和/或所述目标数据隐私保护方式可以为遵循差分隐私定义的保护方式。
可选地,所述源数据隐私保护方式可以为在训练源机器学习模型的过程中添加随机噪声;并且/或者,所述目标数据隐私保护方式可以为在获得第一目标机器学习模型和/或第二目标机器学习模型的过程中添加随机噪声。
可选地,在所述源数据隐私保护方式中迁移项获取装置可将用于训练源机器学习模型的目标函数构造为至少包括损失函数和噪声项;并且/或者,在所述目标数据隐私保护方式中,第一目标机器学习模型获得装置可将用于训练第一目标机器学习模型的目标函数构造为至少包括损失函数和噪声项和/或第二目标机器学习模型获得装置可将用于训练第二目标机器学习模型的目标函数构造为至少包括损失函数和噪声项。
可选地,所述目标数据隐私保护方式的隐私预算可取决于与用于训练第一目标机器学习模型的目标函数所包括的噪声项对应的隐私预算和与用于训练第二目标机器学习模型的目标函数所包括的噪声项对应的隐私预算两者之和或两者之中较大的隐私预算。
可选地,源机器学习模型和第一目标机器学习模型可属于相同类型的机器学习模型;并且/或者,第一预测目标和第二预测目标可以下相同或相似。
可选地,所述相同类型的机器学习模型可以为逻辑回归模型,其中,第一目标机器学习模型获得装置可被配置为执行以下操作来训练第一目标机器学习模型:将用于训练第一目标机器学习模型的目标函数构造为至少包括损失函数和噪声项并反映第一目标机器学习模型的参数与对应于该第一目标机器学习模型的迁移项之间的差值;在目标数据隐私保护方式下,基于每个第一目标数据子集,结合和与每个第一目标数据子集对应的源数据子集相关的迁移项,通过求解构造的目标函数来针对第二预测目标训练与该迁移项对应的第一目标机器学习模型。
可选地,第一目标机器学习模型和第二目标机器学习模型可属于相同类型的机器学习模型;并且/或者,第二预测目标和第三预测目标可以相同或相似。
可选地,第二目标机器学习模型可用于执行业务决策,其中,所述业务决策可涉及交易反欺诈、账户开通反欺诈、智能营销、智能推荐、贷款评估之中的至少一项。
根据本公开另一示例性实施例,提供了一种利用具有数据隐私保护的机器学习模型进行预测的系统,所述系统可包括:目标机器学习模型获取装置,被配置为获取如上所述的多个第一目标机器学习模型和第二目标机器学习模型;预测数据记录获取装置,被配置为获取预测数据记录;划分装置,被配置为将预测数据记录划分为多个子预测数据;预测装置,被配置为针对每条预测数据记录之中的每个子预测数据,利用与其对应的第一目标机器学习模型执行预测以获取针对每个子预测数据的预测结果,并且将由多个第一目标机器学习模型获取的与每条预测数据记录对应的多个预测结果输入第二目标机器学习模型,以得到针对所述每条预测数据记录的预测结果。
根据本公开示例性实施例的在数据隐私保护方式下执行机器学习的方法和系统不仅可保证数据隐私信息不被泄露,同时可在能够保证经过隐私保护的数据的可用性的情况下有效利用不同数据源的数据进行机器学习,从而使得机器学习模型的效果更佳。
附图说明
从下面结合附图对本发明实施例的详细描述中,本发明的这些和/或其他方面和优点将变得更加清楚并更容易理解,其中:
图1是示出根据本公开示例性实施例的在数据隐私保护下执行机器学习的系统的框图;
图2是示出根据本公开示例性实施例的在数据隐私保护方式下执行机器学习的方法的流程图;
图3是示出根据本公开第一示例性实施例的在数据隐私保护方式下执行机器学习的方法的示意图;
图4是示出根据本公开第二示例性实施例的在数据隐私保护方式下执行机器学习的方法的示意图;
图5是示出根据本公开第三示例性实施例的在数据隐私保护方式下执行机器学习的方法的示意图;
图6是示出根据本公开第四示例性实施例的在数据隐私保护方式下执行机器学习的方法的示意图;
图7是示出根据本公开示例性实施例的在数据隐私保护方式下执行机器学习的构思的示意图。
具体实施方式
为了使本领域技术人员更好地理解本发明,下面结合附图和具体实施方式对本发明的示例性实施例作进一步详细说明。
图1是示出根据本公开示例性实施例的在数据隐私保护下执行机器学习的系统(以下,为描述方便,将其简称为“机器学习系统”)100的框图。参照图1,机器学习系统100可包括目标数据集获取装置110、迁移项获取装置120、第一目标机器学习模型获得装置130和第二目标机器学习模型获得装置140。
具体说来,目标数据集获取装置110可获取包括多条目标数据记录的目标数据集。这里,目标数据集可以是任何可被用于机器学习模型训练的数据集,并且,可选地,目标数据集还可包括目标数据记录关于机器学习目标(预测目标)的标记(label)。例如,目标数据记录可包括反映对象或事件的各种属性的多个数据属性字段(例如,用户ID、年龄、性别、历史信用记录等),目标数据记录关于机器学习目标的标记可以是例如用户是否有能力偿还贷款、用户是否接受推荐的内容等,但不限于此。这里,目标数据记录关于机器学习目标的标记并不仅限于目标数据记录关于一个机器学习目标的标记,而是可包括目标数据记录关于一个或多个机器学习目标的标记,即,一条目标数据记录不限于对应于一个标记,而是可对应于一个或多个标记。此外,目标数据集可涉及用户不期望被他人获知的各种个人隐私信息(例如,用户的姓名、身份证号码、手机号码、财产总额、贷款记录等),并且也可包括不涉及个人隐私的其他相关信息。这里,目标数据记录可来源于不同的数据源(例如,网络运营商、银行机构、医疗机构等),并且目标数据集可被特定机构或组织在获得用户授权的情况下使用,但是往往期望涉及个人隐私的信息不再进一步被其他组织或个人获知。需要说明的是,在本公开中,“隐私”可泛指涉及单个个体的任何属性。
作为示例,目标数据集获取装置110可一次性或分批次地从目标数据源获取目标数据集,并且可以手动、自动或半自动方式获取目标数据集。此外,目标数据集获取装置110可实时或离线地获取目标数据集中的目标数据记录和/或目标数据记录关于机器学习目标的标记,并且目标数据集获取装置110可同时获取目标数据记录和目标数据记录关于机器学习目标的标记,或者获取目标数据记录关于机器学习目标的标记的时间可滞后于获取目标数据记录的时间。此外,目标数据集获取装置110可以以加密的形式从目标数据源获取目标数据集或者直接利用其本地已经存储的目标数据集。如果获取的目标数据集是加密的数据,则可选地,机器学习系统100还可包括对目标数据进行解密的装置,并还可包括数据处理装置以将目标数据处理为适用于当前机器学习的形式。需要说明的是,本公开对目标数据集中的目标数据记录及其标记的种类、形式、内容、目标数据集的获取方式等均无限制,采用任何手段获取的可用于机器学习的数据均可作为以上提及的目标数据集。
然而,如本公开背景技术所述,对于期望挖掘出更多有价值信息的机器学习而言,实际中,仅基于获取的目标数据集可能不足以学习出满足实际任务需求或达到预定效果的机器学习模型,因此,可设法获取来自其他数据源的相关信息,以将来自其他数据源的知识迁移到目标数据集,从而结合目标数据集与来自其他数据源的知识共同进行机器学习,进而可提高机器学习模型的效果。但是,迁移的前提是需要确保:其他数据源的数据集(在本公开中,可被称为“源数据集”)中所涉及的隐私信息不被泄露,即,需要对源数据进行隐私保护。
为此,根据本公开示例性实施例,迁移项获取装置120可获取关于源数据集的多个迁移项。具体地,所述多个迁移项之中的每个迁移项可用于在源数据隐私保护下将对应的一部分源数据集的知识迁移到目标数据集。这里,对应的一部分源数据集可指与每个迁移项对应的一部分数据集,也就是说,每个迁移项仅用于在源数据隐私保护方式下将与其对应的一部分源数据集的知识迁移到目标数据集,最终,通过所述多个迁移项将整个源数据集的知识迁移到目标数据集。具体地,每个迁移项可以是在源数据被进行隐私保护的情况下(即,在源数据隐私保护方式下)获得的任何与该迁移项对应的一部分源数据集所包含的知识有关的信息,本公开对每个迁移项的具体内容和形式不作限制,只要其能够在源数据隐私保护方式下将对应的一部分源数据集的知识迁移到目标数据集即可,例如,每个迁移项可涉及对应的一部分源数据集的样本、对应的一部分源数据集的特征、基于对应的一部分源数据集获得的模型、用于基于对应的一部分源数据集进行模型训练的目标函数、关于对应的一部分源数据集的统计信息等。
根据示例性实施例,所述对应的一部分源数据集可以是通过将源数据集按照数据属性字段划分而获得的对应的源数据子集。与目标数据集类似,源数据集可包括多条源数据记录,并且可选地,还可包括每条源数据记录关于机器学习目标的标记。此外,与目标数据记录类似,每条源数据记录也可包括反映对象或事件的各种属性的多个数据属性字段(例如,用户ID、年龄、性别、历史信用记录、历史贷款记录等)。这里,“按照数据属性字段划分”可指对源数据集中包括的每条源数据记录中包括的多个数据属性字段进行分组,使得划分后的每个数据记录(即,每个划分后得到的子数据记录)可包括至少一个数据属性字段,而由具有相同数据属性字段的数据记录构成的集合即为将源数据集按照数据属性字段划分而获得的对应的源数据子集。也就是说,这里,所述对应的源数据子集中的每条数据记录可包括相同的数据属性字段,并且,每条数据记录所包括的数据属性字段可以为一个或多个。此外,不同源数据子集中的数据记录所包括的数据属性字段的数量可以相同或不同。例如,如上所述,假设每条源数据记录可包括以下五个数据属性字段:用户ID、年龄、性别、历史信用记录和历史贷款记录,则可例如将这五个数据属性字段划分为三个数据属性字段组,其中,例如,第一数据属性字段组可包括用户ID和年龄这两个数据属性字段,第二数据属性字段组可包括性别和历史信用记录这两个数据属性字段,第三数据属性字段组可包括历史贷款记录这一个数据属性字段。在这种情况下,通过将源数据集按照数据属性字段划分而获得的对应的源数据子集便可以是由包括第一数据属性字段组中的数据属性字段的数据记录构成的第一源数据子集、由包括第二数据属性字段组中的数据属性字段的数据记录构成的第二源数据子集或由包括第三数据属性字段组中的数据属性字段的数据记录构成的第三源数据子集。以上结合示例对源数据集的划分方式进行了解释,然而,本领域技术人员清楚的是,无论是源数据记录所包括的数据属性字段的数量和内容,还是源数据集的具体划分方式等均不限于以上示例。
作为示例,迁移项获取装置120可从外部接收关于源数据集的多个迁移项。例如,迁移项获取装置120可从拥有源数据集的实体、或者授权可对源数据集执行相关处理的实体(例如,提供机器学习相关服务的服务提供商)获取上述迁移项。在这种情况下,每个迁移项可以是由拥有源数据集的实体或者授权可对源数据集执行相关处理的实体基于以上所描述的对应的源数据子集执行机器学习相关处理而获得的,并且可由这些实体将获得的迁移项发送给迁移项获取装置120。
与直接从外部获取迁移项不同,可选地,迁移项获取装置120也可通过对源数据集执行机器学习相关处理来获取关于源数据集的多个迁移项。这里,迁移项获取装置120对源数据集的获取和使用可以是经过授权或经过保护措施的,使得其能够对获取的源数据集进行相应的处理。具体说来,迁移项获取装置120可首先获取包括多条源数据记录的源数据集。这里,源数据集可以是与目标数据集有关的任何数据集,相应地,以上关于目标数据集的构成、目标数据集的获取方式等的描述均适用于源数据集,这里不再赘述。此外,根据示例性实施例,源数据记录和目标数据记录可包括相同的数据属性字段。另外,尽管为了描述方便,将源数据集描述为由迁移项获取装置120获取,但是,需要说明的是,也可由目标数据集获取装置110来执行获取源数据集的操作,或者,由以上两者共同获取源数据集,本公开对此并不限制。此外,获取的目标数据集、源数据集和迁移项均可存储在机器学习系统的存储装置(未示出)中。作为可选方式,以上存储的目标数据、源数据或迁移项可进行物理或访问权限上的隔离,以确保数据的安全使用。
在获取到源数据集的情况下,出于隐私保护的考虑,机器学习系统100并不能够直接利用获取的源数据集连同目标数据集一起进行机器学习,而是需要在保证源数据被执行隐私保护的情况下才可利用其进行机器学习。为此,迁移项获取装置120可在源数据隐私保护方式下通过对源数据集执行与机器学习相关的处理来获取关于源数据集的多个迁移项。具体地,根据示例性实施例,迁移项获取装置120可将源数据集按照数据属性字段划分为多个源数据子集,并在源数据隐私保护方式下,基于每个源数据子集,针对第一预测目标训练与每个源数据子集对应的源机器学习模型,并将训练出的每个源机器学习模型的参数作为与每个源数据子集相关的迁移项。这里,每个源数据子集中的数据记录可包括至少一个数据属性字段。由于以上已经结合示例对按照数据属性字段划分源数据集的方式进行了解释,因此这里不再赘述。
这里,需要说明的是,可选地,源数据集除了可包括多条源数据记录之外,还可包括源数据记录关于机器学习目标的标记,而在源数据集包括源数据记录和源数据记录关于机器学习目标的标记的情况下,以上所言按照数据属性字段划分源数据集仅限于按照数据属性字段划分源数据集中的源数据记录,而不对源数据集中包括的源数据记录关于机器学习目标的标记进行划分。并且,划分每条源数据记录所获得的每个数据记录(包括至少一个数据字段)关于机器学习目标的标记仍然是该源数据记录被划分前关于该机器学习目标的标记。相应地,这里,针对第一预测目标训练与每个源数据子集对应的源机器学习模型可以是基于每个源数据子集(即,每个源数据子集中包括的每个数据记录及其对应的标记)来训练与每个源数据子集对应的源机器学习模型,而所述每个数据记录(通过划分源数据记录而获得)针对第一预测目标的标记就是该源数据记录针对第一预测目标的标记。作为示例,第一预测目标可以是预测交易是否为欺诈交易、预测用户是否有能力清偿贷款等,但不限于此。
此外,需要说明的是,尽管以上将训练出的每个源机器学习模型的参数作为了与每个源数据子集相关的迁移项,但是这仅是示例。事实上,与每个源数据子集相关的迁移项可以是在源数据隐私保护方式下获得的任何与该源数据子集所包含的知识有关的信息。具体地,根据本公开示例性实施例,与每个源数据子集相关的迁移项可涉及在基于该源数据子集执行与机器学习相关的处理的过程中得到的模型参数、目标函数和/或关于该源数据子集中的数据的统计信息,但不限于此。此外,基于源数据子集执行与机器学习相关的处理的操作可除了包括以上所描述的在源数据隐私保护方式下基于每个源数据子集训练与每个源数据子集对应的源机器学习模型之外,还可包括例如对源数据子集执行特征处理或数据统计分析等机器学习相关处理。另外,需要说明的是,上述模型参数、目标函数和/或关于源数据子集的统计信息均既可以是在基于源数据子集执行与机器学习相关的处理的过程中直接获得的上述信息本身,也可以是对这些信息进行进一步变换或处理之后所获得的信息,本公开对此并无限制。作为示例,涉及模型参数的迁移项可以是源机器学习模型的参数或源机器学习模型的参数的统计信息等,但不限于此。作为示例,迁移项所涉及的目标函数可以是指为了训练源机器学习模型而构建出的目标函数,在源机器学习模型本身的参数并不进行迁移的情况下,该目标函数可并不单独进行实际求解,但本公开不限于此。作为示例,涉及关于源数据子集的统计信息的迁移项可以是在源数据隐私保护方式下获取的关于源数据子集的数据分布信息和/或数据分布变化信息,但不限于此。
根据示例性实施例,源数据隐私保护方式可以是遵循差分隐私定义的保护方式,但不限于此,而是可以是任何已经存在的或未来可能出现的能够对源数据进行隐私保护的任何隐私保护方式。
为便于理解,现在对遵循差分隐私定义的保护方式进行简要描述。假设有一随机机制M(例如,M是机器学习模型的训练过程),对于M而言,输入的任意两个仅相差一个样本的数据集
Figure BDA0002997885480000142
Figure BDA0002997885480000143
的输出等于t的概率分别为
Figure BDA0002997885480000144
Figure BDA0002997885480000145
并且满足以下等式1(其中,∈是隐私预算(privacy budget)),则可认为M对于任意输入是满足∈差分隐私保护的。
Figure BDA0002997885480000141
在以上等式1中,∈越小,隐私保护程度越好,反之则越差。∈的具体取值,可根据用户对数据隐私保护程度的要求进行相应地设置。假设有一个用户,对于他而言,是否输入他的个人数据给机制M(假设该个人数据输入前的数据集是
Figure BDA0002997885480000146
该个人数据输入后的数据集是
Figure BDA0002997885480000147
Figure BDA0002997885480000148
Figure BDA0002997885480000149
仅相差该个人数据),对于输出的影响很小(其中,影响由∈的大小来定义),那么可以认为M对于他的隐私起到了保护作用。假设∈=0,则这个用户是否输入自己的数据给M,对M的输出没有任何影响,所以用户的隐私完全被保护。
根据示例性实施例,源数据隐私保护方式可以是在如上所述训练源机器学习模型的过程中添加随机噪声。例如,可通过添加随机噪声,使得遵循上述差分隐私保护定义。但是,需要说明的是,关于隐私保护的定义并不仅限于差分隐私保护定义这一种定义方式,而是可以是例如K-匿名化、L-多样化、T-保密等其他关于隐私保护的定义方式。
根据示例性实施例,源机器学习模型可以是例如广义线性模型,例如,逻辑回归模型,但不限于此。此外,在源数据隐私保护方式中,迁移项获取装置120可将用于训练源机器学习模型的目标函数构造为至少包括损失函数和噪声项。这里,噪声项可用于在训练源机器学习模型的过程中添加随机噪声,从而使得可实现对源数据的隐私保护。此外,用于训练源机器学习模型的目标函数除了被构造为包括损失函数和噪声项之外,还可被构造为包括其他用于对模型参数进行约束的约束项,例如,还可被构造为包括用于防止模型过拟合现象或防止模型参数过于复杂的正则项、用于隐私保护的补偿项等。
为了便于更直观地理解以上所描述的在源数据隐私保护方式下基于每个源数据子集针对第一预测目标训练与每个源数据子集对应的源机器学习模型的过程,下面将进一步对该过程进行解释。为描述方便,这里,假设源数据隐私保护方式是遵循差分隐私定义的保护方式,并且源机器学习模型是广义线性模型。
具体地,假设数据集
Figure BDA0002997885480000151
其中,xi是样本,yi是样本的标记(即,xi针对预测目标的标记),
Figure BDA0002997885480000152
其中,n为数据集中的样本数量,d是样本空间的维度,
Figure BDA00029978854800001510
是d维样本空间,此外,假设将数据集中的数据记录包括的数据属性字段集合SG划分为不重叠的K个数据属性字段组G1,G2,…,GK(即,SG={G1,…,GK}),其中,每个组Gk中包括至少一个数据属性字段。在以上假设下,可通过下面的过程来训练与每个数据子集对应的机器学习模型:
对于每个k(其中,k=1,…,K),执行以下操作来获得
Figure BDA0002997885480000153
1、令
Figure BDA0002997885480000154
其中,qk是缩放常数(具体地,其是用于限制每个数据子集中的样本的二范数的上界),并且缩放常数集合
Figure BDA0002997885480000155
需要满足
Figure BDA0002997885480000156
c为常数,λk为常数集合,∈是以上等式1中的隐私预算;
2、对于Gk∈SG,获取
Figure BDA00029978854800001511
其中,
Figure BDA00029978854800001512
表示将数据集
Figure BDA00029978854800001513
中属于Gk的数据属性字段提取出来而形成的每条数据记录均包括Gk中的数据属性字段的数据子集,也就是说,
Figure BDA00029978854800001514
是按照数据属性字段划分数据集
Figure BDA00029978854800001515
而获得的第k个数据子集;
3、如果∈′>0,则Δ=0,否则,
Figure BDA0002997885480000157
并且∈′=∈/2;
4、对数据子集
Figure BDA00029978854800001516
中的包括的样本进行缩放,使得对于任何
Figure BDA00029978854800001517
满足||xi||≤qk
5、从密度函数
Figure BDA0002997885480000158
采样b,具体地可首先从Gamma分布
Figure BDA0002997885480000159
采样b的二范数||b||,然后基于均匀随机采样b的方向u便可获得b=||b||u。
6、利用等式2,在数据隐私保护方式下,基于数据子集
Figure BDA0002997885480000161
针对预测目标来训练与数据子集
Figure BDA0002997885480000162
对应的机器学习模型:
Figure BDA0002997885480000163
其中,在等式2中,w是机器学习模型的参数,
Figure BDA00029978854800001611
是损失函数,gk(w)是正则化函数,
Figure BDA0002997885480000164
是用于在训练机器学习模型的过程中添加随机噪声以实现数据隐私保护的噪声项,
Figure BDA0002997885480000165
是用于隐私保护的补偿项,λk是用于控制正则化强度的常数,
Figure BDA0002997885480000166
便为构造的用于训练第k个机器学习模型的目标函数。根据以上等式2,在目标函数的取值最小时的w值便为最终求解出的第k个机器学习模型的参数
Figure BDA0002997885480000167
按照以上描述的过程求解机器学习模型的参数的机制可被定义为A2,需要说明的是,A2既可用于求解源机器学习模型的参数,也可用于求解目标机器学习模型的参数。
要使按照以上等式2求解出的
Figure BDA00029978854800001612
满足∈差分隐私定义,则需要满足以下预定条件:正则化函数gk(w)需要是1-强凸函数并且二阶可微,其次,对于所有的z,损失函数需要满足
Figure BDA00029978854800001613
并且
Figure BDA00029978854800001614
其中,
Figure BDA00029978854800001615
Figure BDA00029978854800001616
分别是损失函数的一阶导数和二阶导数。也就是说,只要是满足以上条件的广义线性模型,均可通过上面的等式2来获得满足差分隐私保护的机器学习模型的参数。
例如,对于逻辑回归模型,其损失函数
Figure BDA00029978854800001617
如果令常数c等于1/4,正则化函数
Figure BDA0002997885480000168
则正则化函数gk(w)满足是1-强凸函数并且二阶可微,并且对于所有的z,损失函数满足
Figure BDA00029978854800001618
并且
Figure BDA00029978854800001619
因此,当源机器学习模型是逻辑回归模型时,可利用以上描述的求解机器学习模型参数的机制A2来求解源机器学习模型的参数。具体地,可令每个源机器学习模型的正则化函数等于
Figure BDA0002997885480000169
即对于k∈{1,…,K},令正则化函数
Figure BDA00029978854800001610
(这里的gsk(w)即为以上等式2中的gk(w)),在这种情况下,可利用以上描述的求解机器学习模型的参数
Figure BDA0002997885480000176
的机制A2最终求解出K个源机器学习模型的参数
Figure BDA0002997885480000171
其中,
Figure BDA0002997885480000177
为源数据集、∈s为源数据隐私保护方式的隐私预算、SG为每条源数据记录包括的数据属性字段的集合,
Figure BDA0002997885480000172
为用于控制正则化强度的常数λsk(即,以上等式2中的λk)、正则化函数gsk(即,以上等式2中的gk(w))和缩放常数qsk(即,以上描述的qk)的集合。而按照以上机制A2求解出的与每个源数据子集对应的源机器学习模型的参数既满足了对源数据的隐私保护,又携带了对应的源数据子集的知识。随后,训练出的每个源机器学习模型的参数可作为与每个源数据子集相关的迁移项被用于将该源数据子集的知识迁移到目标数据集。
如上所述,由于按照数据属性字段对源数据集划分之后针对每个源数据子集来训练对应的源机器学习模型以获取迁移项,而不是针对整个源数据集来训练源机器学习模型以获取迁移项,因此,可有效地减小在训练过程中添加的随机噪声,从而使得按照以上方式训练出的与每个源数据子集对应的源机器学习模型的参数(作为与每个源数据子集相关的迁移项)不仅实现了对对应的源数据子集中的隐私信息的保护,同时能够确保迁移项的可用性。
需要说明的是,尽管以上以广义线性模型(例如,逻辑回归模型)为例介绍了求解源机器学习模型的参数的过程,但是,事实上,只要是满足以上提及的关于正则化函数和损失函数的限制条件的线性模型均可利用等式2来求解源机器学习模型的参数,作为迁移项。
在迁移项获取装置120获取到关于源数据集的多个迁移项之后,第一目标机器学习模型获得装置130可分别利用所述多个迁移项之中的每个迁移项来获得与每个迁移项对应的第一目标机器学习模型,以获得多个第一目标机器学习模型。具体地,作为示例,第一目标机器学习模型获得装置130可在不使用目标数据集的情况下,直接将每个迁移项作为与其对应的第一目标机器学习模型的参数(为描述方便,以下将这种获得第一目标机器学习模型的方式简称为“第一目标机器学习模型直接获得方式”)。也就是说,假设多个第一目标机器学习模型的参数分别为
Figure BDA0002997885480000173
则可令第一目标机器学习模型与源机器学习模型是相同类型的机器学习模型,并且可直接令
Figure BDA0002997885480000174
Figure BDA0002997885480000175
从而获得与每个迁移项对应的第一目标机器学习模型。
可选地,第一目标机器学习模型获得装置130可通过以下方式(为描述方便,以下将这种获得第一目标机器学习模型的方式简称为“通过训练的第一目标机器学习模型获得方式”)来获得与每个迁移项对应的第一目标机器学习模型。具体地,第一目标机器学习模型获得装置130可首先将目标数据集或第一目标数据集按照数据属性字段以与划分源数据集相同的方式划分为多个第一目标数据子集,随后,在目标数据隐私保护方式下,基于每个第一目标数据子集,结合和与每个第一目标数据子集对应的源数据子集相关的迁移项,针对第二预测目标训练与该迁移项对应的第一目标机器学习模型。
这里,第一目标数据集可包括目标数据集中所包括的部分目标数据记录,并且每个第一目标数据子集和与其对应的源数据子集中的数据记录可包括相同的数据属性字段。如上所述,目标数据记录和源数据记录包括相同的数据属性字段,在这种情况下,可将目标数据集或第一目标数据集按照数据属性字段以与划分源数据集相同的方式划分为多个第一目标数据子集。例如,与以上描述的源数据记录的示例相同,假设每条目标数据记录也包括以下五个数据属性字段:用户ID、年龄、性别、历史信用记录和历史贷款记录,则可按照与以上描述的划分源数据记录的示例性划分方式相同的划分方式来对目标数据集或第一目标数据集进行划分。具体地,将这五个数据属性字段也划分为三个数据属性字段组,其中,例如,第一数据属性字段组可包括用户ID和年龄这两个数据属性字段,第二数据属性字段组可包括性别和历史信用记录这两个数据属性字段,第三数据属性字段组可包括历史贷款记录这一个数据属性字段。在这种情况下,通过将目标数据集或第一目标数据集按照数据属性字段划分而获得的多个第一目标数据子集便可以是由包括第一数据属性字段组中的数据属性字段的数据记录构成的第一目标数据子集、由包括第二数据属性字段组中的数据属性字段的数据记录构成的第一目标数据子集和由包括第三数据属性字段组中的数据属性字段的数据记录构成的第一目标数据子集。在这种情况下,例如,与以上的第一个第一目标数据子集对应的源数据子集便为在描述源数据集的划分时所提及的第一源数据子集,并且该第一目标数据子集和第一源数据子集中的数据记录包括相同的数据属性字段(即,均包括用户ID和年龄这两个数据属性字段),以此类推。
根据示例性实施例,上述目标数据隐私保护方式可与源数据隐私保护方式相同,例如,也可以是遵循差分隐私定义的保护方式,但不限于此。此外,第一目标机器学习模型可与源机器学习模型属于相同类型的机器学习模型。例如,第一目标机器学习模型也可以是广义线性模型,例如,逻辑回归模型,但不限于此,例如,可以是满足预定条件的任何线性模型。需要说明的是,这里的目标数据隐私保护方式也可以是与源数据隐私保护方式不同的隐私保护方式,并且第一目标机器学习模型也可以与源机器学习模型属于不同类型的机器学习模型,本申请对此均无限制。
此外,根据示例性实施例,上述目标数据隐私保护方式可以是在获得第一目标机器学习模型的过程中添加随机噪声。作为示例,在目标数据隐私保护方式中,第一目标机器学习模型获得装置130可将用于训练第一目标机器学习模型的目标函数构造为至少包括损失函数和噪声项。除了将目标函数构造为至少包括损失函数和噪声项之外,第一目标机器学习模型获得装置130可将用于训练第一目标机器学习模型的目标函数构造为至少包括损失函数和噪声项并反映第一目标机器学习模型的参数与对应于该第一目标机器学习模型的迁移项之间的差值,然后,第一目标机器学习模型获得装置130可在目标数据隐私保护方式下,基于每个第一目标数据子集,结合和与每个第一目标数据子集对应的源数据子集相关的迁移项,通过求解构造的目标函数来针对第二预测目标训练与该迁移项对应的第一目标机器学习模型。通过在用于训练第一目标机器学习模型的目标函数中反映第一目标机器学习模型的参数与对应于该第一目标机器学习模型的迁移项之间的差值,可将与该迁移项对应的源数据子集中的知识迁移到目标数据集,从而使得该训练过程能够共同利用源数据集上的知识和目标数据集,因而训练出的第一目标机器学习模型的效果更佳。
需要说明的是,这里,第二预测目标可与以上所述的训练源机器学习模型所针对的第一预测目标相同(例如,两者均为预测交易是否为欺诈交易)或相似(例如,第一预测目标可以是预测交易是否为欺诈交易,第二预测目标可以是预测交易是否涉嫌违法)。此外,根据实际需要,上述目标函数还可被构造为包括用于防止训练出的第一目标机器学习模型出现过拟合现象的正则项等,或还可根据实际任务需求被构造为包括其他约束项,例如,用于隐私保护的补偿项,本申请对此并不限制,只要构造的目标函数能够有效地实现对目标数据的隐私保护,同时能够将对应的源数据子集上的知识迁移到目标数据集即可。
以下,为便于更加直观地理解上述内容,将进一步对第一目标机器学习模型获得装置130训练与每个迁移项对应的第一目标机器学习模型的上述过程进行说明。
这里,为描述方便,假设源机器学习模型是逻辑回归模型,第一目标机器学习模型是广义线性模型,并且目标数据隐私保护方式为遵循差分隐私保护定义的保护方式。
首先,将目标数据集
Figure BDA0002997885480000206
或第一目标数据集
Figure BDA0002997885480000205
(其中,
Figure BDA0002997885480000207
是包括
Figure BDA0002997885480000208
中所包括的部分目标数据记录的目标数据集,例如,可将
Figure BDA00029978854800002011
中的所有目标数据记录按照1:1-p的比例划分为第一目标数据集
Figure BDA00029978854800002010
和第二目标数据集
Figure BDA0002997885480000209
)按照数据属性字段以与划分源数据集相同的方式划分为多个第一目标数据子集。如上所述,源数据记录包括的数据属性字段集合SG被划分为不重叠的K个数据字段组G1,G2,…,GK,同样,目标数据记录包括的数据属性字段集合也可以是SG,并且SG={G1,…,GK}。
其次,对于每个k={1,…,K},可令用于训练第k个第一目标机器学习模型的目标函数中的正则化函数为:
Figure BDA0002997885480000201
其中,0≤ηk≤1,u为第k个第一目标机器学习模型的参数,
Figure BDA0002997885480000202
是K个源机器学习模型的参数
Figure BDA0002997885480000203
中的第k个源机器学习模型的参数。由于gtk(u)是1-强凸函数并且二阶可微,并且逻辑回归模型的损失函数满足上述预定条件中关于损失函数的要求,因此,可利用以上描述的求解机器学习模型的参数
Figure BDA00029978854800002014
的机制A2,通过将w替换为u,将
Figure BDA00029978854800002013
替换为
Figure BDA00029978854800002012
Figure BDA00029978854800002015
将gk(w)替换为gtk(u),并将λk替换为λtk(用于训练第一目标机器学习模型的目标函数中的用于控制正则化强度的常数),将qk替换为qtk(用于缩放第k个第一目标数据子集中的样本的缩放常数)来获得与第k个迁移项
Figure BDA00029978854800002017
对应的第k个第一目标机器学习模型的参数
Figure BDA00029978854800002016
具体地,假设令整个目标数据隐私保护方式的隐私预算为∈t,则在先前被划分的目标数据集是
Figure BDA00029978854800002018
且后续用于训练第二目标机器学习模型的目标数据集与
Figure BDA00029978854800002019
完全重叠或部分重叠的情况下,获得的K个第一目标机器学习模型的参数
Figure BDA0002997885480000204
(其中,p∈t是与用于训练第一目标机器学习模型的目标函数所包括的噪声项对应的隐私预算,其中,p为与用于训练第一目标机器学习模型的目标函数所包括的噪声项对应的隐私预算与整个目标数据隐私保护方式的隐私预算的比,并且0≤p≤1),在先前被划分的目标数据集是第一目标数据集
Figure BDA0002997885480000213
而后续用于训练第二目标机器学习模型的目标数据集与
Figure BDA0002997885480000214
完全不重叠的情况下,获得的K个第一目标机器学习模型的参数
Figure BDA0002997885480000211
(其中,∈t是与用于训练第一目标机器学习模型的目标函数所包括的噪声项对应的隐私预算和与用于训练第二目标机器学习模型的目标函数所包括的噪声项对应的隐私预算两者之中较大的隐私预算)。
如上所述,在等式3中,正则化函数gtk(u)中含有
Figure BDA0002997885480000212
使得用于第一目标机器学习模型的训练的目标函数被构造为反映了第一目标机器学习模型的参数与对应于该第一目标机器学习模型的迁移项之间的差值,从而有效地实现了对应的源数据子集上的知识到目标数据集的迁移。
需要说明的是,以上虽然重点以逻辑回归模型为例介绍了在目标数据隐私保护方式下训练第一目标机器学习模型的过程,但是,本领域技术人员应清楚是,本公开中的源机器学习模型和第一目标机器学习模型均不限于逻辑回归模型,而是可以是例如满足如上所述的预定条件的任何线性模型,甚至还可以是其他任何适当的模型。
在获得多个第一目标机器学习模型(例如,按照以上提及的“第一目标机器学习模型直接获得方式”或“通过训练的第一目标机器学习模型”获得多个第一目标机器学习模型)的情况下,第二目标机器学习模型获得装置140可利用所述多个第一目标机器学习模型获得第二目标机器学习模型。这里,第一目标机器学习模型和第二目标机器学习模型通常为上下层的结构,例如,第一目标机器学习模型可对应于第一层机器学习模型,第二目标机器学习模型可对应于第二层机器学习模型。
具体地,在第一目标机器学习模型获得装置130通过以上描述的“第一目标机器学习模型直接获得方式”获得了多个第一目标机器学习模型的情况下,第二目标机器学习模型获得装置140可按照如下方式(以下为描述方便,将该方式简称为“通过训练的第二目标机器学习模型获得方式”)获得第二目标机器学习模型:首先,第二目标机器学习模型获得装置140可将目标数据集按照数据属性字段以与划分源数据集相同的方式划分为多个目标数据子集。这里,每个目标数据子集和与其对应的源数据子集中的数据记录包括相同的数据属性字段。以上已经在描述获得第一目标机器学习模型的“通过训练的第一目标机器学习模型”中描述了如何按照数据属性字段以与划分源数据集相同的方式划分目标数据集,因此这里不再赘述,具体内容可参见上面的描述。其次,第二目标机器学习模型获得装置140可针对每个目标数据子集,利用与其对应的第一目标机器学习模型执行预测以获取针对每个目标数据子集中的每条数据记录的预测结果。最后,在目标数据隐私保护方式下,基于由获取的与每条目标数据记录对应的多个预测结果构成的训练样本的集合,针对第三预测目标训练第二目标机器学习模型。这里,所述训练样本的标记即为目标数据记录针对第三预测目标的标记。以下将详细描述训练样本的特征的产生过程。
具体地,例如,可假设获得的K个第一目标机器学习模型均为逻辑回归模型,并且K个第一目标机器学习模型的参数分别为
Figure BDA0002997885480000225
(K同时也是划分出的多个目标数据子集的数量),则可将由获取的与目标数据集中的每条目标数据记录对应的多个预测结果构成的训练样本表示为:
Figure BDA0002997885480000221
其中,xki是第k(其中,k∈{1,…,K})个目标数据子集中的第i个数据记录,作为示例,
Figure BDA0002997885480000222
为K个第一目标机器学习模型中的第一个第一目标机器学习模型针对K个目标数据子集中的第一个目标数据子集中的第i个数据记录的预测结果(这里,例如,该预测结果可以为该第一目标机器学习模型针对第i个数据记录输出的预测概率值(即,置信度值)),以此类推,便可获得K个第一目标机器学习模型分别针对对应的目标数据子集中的第i个数据记录的预测结果
Figure BDA0002997885480000223
而上述K个预测结果便为与目标数据集中的第i个目标数据记录对应的K个预测结果,而这K个预测结果
Figure BDA0002997885480000224
可构成第二目标机器学习模型的训练样本的特征部分。
根据示例性实施例,第一目标机器学习模型和第二目标机器学习模型可属于相同类型的机器学习模型。例如,第二目标机器学习模型也可以为广义线性模型(例如,逻辑回归模型)。此外,这里的目标数据隐私保护方式可以是遵循差分隐私定义的保护方式,但不限于此。具体地,所述目标数据隐私保护方式可以是在获得第二目标机器学习模型的过程中添加随机噪声。例如,在所述目标数据隐私保护方式中,第二目标机器学习模型获得装置140可将用于训练第二目标机器学习模型的目标函数构造为至少包括损失函数和噪声项。在这种情况下,可按照以下所描述的训练机器学习模型的机制A1来训练第二目标机器学习模型,其中,A1是在满足差分隐私保护定义的情况下求解机器学习模型的参数的机制。具体地,机制A1的实现过程如下:
假设数据集
Figure BDA0002997885480000231
其中,xi是样本,yi是样本的标记,
Figure BDA0002997885480000232
其中,n为样本数量,d是样本空间的维度,
Figure BDA00029978854800002313
是d维样本空间,则可基于数据集
Figure BDA0002997885480000233
利用以下等式4来训练机器学习模型,从而获得满足差分隐私保护定义的机器学习模型的参数。
具体地,在利用等式4求解机器学习模型的参数之前,可令:
1、对数据集
Figure BDA00029978854800002314
进行缩放,使得对于任意i均满足||xi||≤1,其中,||xi||表示xi的二范数;
2、
Figure BDA0002997885480000234
其中,c和λ为常数,∈是以上等式1中的隐私预算;
3、如果∈′>0,则Δ=0,否则,
Figure BDA0002997885480000235
并且∈′=∈/2;
4、从密度函数
Figure BDA0002997885480000236
采样b,具体地,可首先从Gamma分布
Figure BDA0002997885480000237
采样b的二范数||b||,然后基于均匀随机采样b的方向u便可获得b=||b||u。
接下来,可利用等式4,在数据隐私保护方式下,基于数据集
Figure BDA00029978854800002315
训练机器学习模型,等式4如下:
Figure BDA0002997885480000238
在等式4中,w是机器学习模型的参数,
Figure BDA00029978854800002316
是损失函数,g(w)是正则化函数,
Figure BDA0002997885480000239
是用于在训练机器学习模型的过程中添加随机噪声以实现数据隐私保护的噪声项,
Figure BDA00029978854800002310
是用于隐私保护的补偿项,λ是用于控制正则化强度的常数,
Figure BDA00029978854800002311
便为构造的用于训练机器学习模型的目标函数。根据以上等式4,在目标函数的取值最小时的w值便为最终求解出的机器学习模型的参数w*
在训练第二目标机器学习模型时,按照以上机制A1,可通过令以上的
Figure BDA00029978854800002312
Figure BDA0002997885480000241
(其中,xi是如上所述的训练样本
Figure BDA0002997885480000242
yi是xi针对第三预测目标的标记,
Figure BDA0002997885480000243
是由训练样本
Figure BDA0002997885480000244
构成的训练样本的集合),λ=λv(其中,λv是用于训练第二目标机器学习模型的目标函数中用于控制正则化强度的常数),正则化函数
Figure BDA0002997885480000245
并且∈=∈t(∈t为训练第二目标机器学习模型时使用的目标数据隐私保护方式的隐私预算)来利用等式4求解出第二目标机器学习模型的参数
Figure BDA0002997885480000246
需要说明的是,尽管以上以第一目标机器学习模型和第二目标机器学习模型均为逻辑回归模型为例对训练第二目标机器学习模型的过程进行了描述,但是,第一目标机器学习模型和第二目标机器学习模型均不限于是逻辑回归模型,并且第二目标机器学习模型可以是与第一目标机器学习模型相同或不同类型的任何机器学习模型。此外,这里的第三预测目标可以与以上描述第一目标机器学习模型的训练时提及的第二预测目标相同或相似。另外,需要说明的是,当第二预测目标与第三预测目标不完全相同时,目标数据集中的每条目标数据记录事实上可对应于两个标记,这两个标记分别为目标数据记录关于第二预测目标的标记和目标数据记录关于第三预测目标的标记。
此外,可选地,根据本公开另一示例性实施例,在第一目标机器学习模型获得装置130通过以上描述的“通过训练的第一目标机器学习模型获得方式”获得了多个第一目标机器学习模型的情况下,第二目标机器学习模型获得装置140可通过以下操作来获得第二目标机器学习模型(以下,为描述方便,将这种获得第二目标机器学习模型的方式简称为“第二目标机器学习模型直接获得方式”):将第二目标机器学习模型的规则设置为:基于通过以下方式获取的与每条预测数据记录对应的多个预测结果来获得第二目标机器学习模型针对所述每条预测数据记录的预测结果,其中,所述方式包括:获取预测数据记录,并将预测数据记录按照数据属性字段以与划分源数据集相同的方式划分为多个子预测数据;针对每条预测数据记录之中的每个子预测数据,利用与其对应的第一目标机器学习模型执行预测以获取针对每个子预测数据的预测结果。这里,预测数据记录可与先前描述的目标数据记录和源数据记录包括相同的数据属性字段,不同之处在于预测数据记录不包括标记,并且以上已经通过示例对按照数据属性字段以与划分源数据集相同的方式划分数据记录的方式进行了描述,因此,这里不再对如何将预测数据记录划分为多个子预测数据进行赘述。这里,每个子预测数据可包括至少一个数据属性字段。另外,以上也已经对针对每个目标数据子集利用与其对应的第一目标机器学习模型执行预测以获取针对每个目标数据子集中的每条数据记录的预测结果的过程进行了描述,因此,这里不再对针对每个子预测数据利用与其对应的第一目标机器学习模型执行预测以获取针对每条预测数据记录中划分出的每个子预测数据的预测结果的过程进行赘述,不同之处仅在于这里预测过程所针对的对象是划分出的子预测数据。作为示例,基于获取的与每条预测数据记录对应的多个预测结果来获得第二目标机器学习模型针对所述每条预测数据记录的预测结果可以是对所述多个预测结果求平均、取最大值或对所述多个预测结果进行投票等方式来获得第二目标机器学习模型针对所述每条预测数据记录的预测结果。作为示例,如果所述多个预测结果为五个预测结果(即,所述多个第一目标机器学习模型的数量为五个)并且分别是交易为欺诈的概率为20%、50%、60%、70%和80%,则第二目标机器学习模型针对预测数据记录的预测结果可以是将20%、50%、60%、70%和80%求平均之后的所获得的概率值。作为另一示例,如果所述多个预测结果分别是“交易为欺诈”、“交易非欺诈”、“交易为欺诈”、“交易为欺诈”、“交易为欺诈”,则按照投票方式可获得第二目标机器学习模型针对预测数据记录的预测结果是“交易为欺诈”。
需要说明的是,本公开的第二目标机器学习模型不限于通过机器学习而获得的模型,而是可以泛指对数据进行处理的任何适当的机制(例如,以上所述的综合多个预测结果来获得针对每条预测数据记录的预测结果的规则)。
如上所述,第一目标机器学习模型获得装置130在以上的“通过训练的第一目标机器学习模型获得方式”中既可利用目标数据集
Figure BDA0002997885480000251
来获得多个第一目标机器学习模型,也可利用
Figure BDA0002997885480000253
中的第一目标数据集
Figure BDA0002997885480000252
来获得多个第一目标机器学习模型。在第一目标机器学习模型获得装置130在以上描述的“通过训练的第一目标机器学习模型获得方式”中利用目标数据集
Figure BDA0002997885480000254
来获得多个第一目标机器学习模型的情况下,可选地,根据本公开另一示例性实施例,第二目标机器学习模型获得装置140可针对每个第一目标数据子集,利用与其对应的第一目标机器学习模型执行预测以获取针对每个第一目标数据子集中的每条数据记录的预测结果;并且在目标数据隐私保护方式下,基于由获取的与每条目标数据记录对应的多个预测结果构成的训练样本的集合,针对第三预测目标训练第二目标机器学习模型。以上过程与先前描述的“通过训练的第二目标机器学习模型获得方式”类似,所不同的是,由于在获得第一目标机器学习模型的“通过训练的第一目标机器学习模型获得方式”中已经将目标数据集划分为了多个第一目标数据子集,因此,这里无需再进行数据集的划分,而是可直接针对每个目标数据子集,利用与其对应的第一目标机器学习模型执行预测操作,并进而基于由与目标数据集中的每条目标数据记录对应的多个预测结果构成的训练样本的集合来训练第二目标机器学习模型。对于具体的预测操作以及训练第二目标机器学习模型的过程,由于以上已经在先前“通过训练的第二目标机器学习模型获得方式”中进行过描述,因此,这里不再赘述,最终,可获得第二目标机器学习模型的参数
Figure BDA0002997885480000261
其中,∈t为整个目标数据隐私保护方式的隐私预算,(1-p)∈t是与用于训练第二目标机器学习模型的目标函数所包括的噪声项对应的隐私预算。
可选地,根据本公开另一示例性实施例,在第一目标机器学习模型获得装置130在以上描述的“通过训练的第一目标机器学习模型获得方式”中利用第一目标数据集
Figure BDA0002997885480000262
来获得多个第一目标机器学习模型的情况下,第二目标机器学习模型获得装置140可将第二目标数据集按照数据属性字段以与划分源数据集相同的方式划分为多个第二目标数据子集。这里,第二目标数据集可至少包括目标数据集中排除第一目标数据集之后的剩余目标数据记录,其中,第二目标数据集中的目标数据记录与源数据记录具有相同的属性字段。作为示例,第二目标数据集可仅包括目标数据集中排除第一目标数据集之后的剩余目标数据记录(即,第二目标数据集可以是以上提及的
Figure BDA0002997885480000263
),或者,第二目标数据集除了包括目标数据集中排除第一目标数据集之后的剩余目标数据记录之外还可包括第一目标数据集中的部分目标数据记录。此外,以上已经按照数据属性字段划分源数据集的方式进行过描述,因此,这里不再对划分第二目标数据集的操作进行赘述。随后,第二目标机器学习模型获得装置140可针对每个第二目标数据子集,利用与其对应的第一目标机器学习模型执行预测以获取针对每个第二目标数据子集中的每条数据记录的预测结果,并且在目标数据隐私保护方式下,基于由获取的与每条目标数据记录(第二目标数据集中的每条目标数据记录)对应的多个预测结果构成的训练样本的集合,针对第三预测目标训练第二目标机器学习模型。由于以上已经对针对每个目标数据子集利用与其对应的第一目标机器学习模型执行预测以获取针对每个目标数据子集中的每条数据记录的预测结果的过程进行了描述,因此,这里不再对针对每个第二目标数据子集利用与其对应的第一目标机器学习模型执行预测以获取针对每个第二目标数据子集中的每条数据记录的预测结果的过程进行赘述,不同之处仅在于这里预测过程所针对的对象是每个第二目标数据子集。最终,获得的第二目标机器学习模型的参数可被表示为
Figure BDA0002997885480000271
在以上各种示例性实施例中,第三预测目标可以与以上描述第一目标机器学习模型的训练时提及的第二预测目标相同或相似,例如,第二预测目标可以是预测交易是否涉嫌违法,第三预测目标可以是预测交易是否涉嫌违法或者预测交易是否为欺诈。另外,第二目标机器学习模型可以是与第一目标机器学习模型相同或不同类型的任何机器学习模型,并且,第二目标机器学习模型可用于执行业务决策。这里,所述业务决策可涉及交易反欺诈、账户开通反欺诈、智能营销、智能推荐、贷款评估之中的至少一项,但不限于此,例如,训练出的目标机器学习模型还可用于与生理状况相关的业务决策等。事实上,本公开对目标机器学习模型可被应用于的具体业务决策的类型并无任何限制,只要是适于利用机器学习模型进行决策的业务即可。
从以上所描述的获得第一目标机器学习模型的过程和获得第二目标机器学习模型的过程可知,在获得所述多个第一目标机器学习模型的过程中和/或获得第二目标机器学习模型的过程中,在目标数据隐私保护方式下利用了获取的目标数据集中所包括的多条目标数据记录中的全部或部分。
另外,如上所述,在目标数据隐私保护方式中,第一目标机器学习模型获得装置130可将用于训练第一目标机器学习模型的目标函数构造为至少包括损失函数和噪声项,并且第二目标机器学习模型获得装置140可将用于训练第二目标机器学习模型的目标函数构造为至少包括损失函数和噪声项,而所述目标数据隐私保护方式的隐私预算可取决于与用于训练第一目标机器学习模型的目标函数所包括的噪声项对应的隐私预算和与用于训练第二目标机器学习模型的目标函数所包括的噪声项对应的隐私预算两者之和或两者之中较大的隐私预算。具体地,在训练第一目标机器学习模型的过程中使用的目标数据集与训练第二目标机器学习模型的过程中使用的目标数据集完全相同或部分相同(例如,训练第一目标机器学习模型的过程中使用的目标数据集是第一目标数据集,而训练第二目标机器学习模型的过程中使用的目标数据集包括目标数据集中排除第一目标数据集之后的剩余目标数据记录以及第一目标数据集之中的部分目标数据记录)的情况下,所述目标数据隐私保护方式的隐私预算可取决于与用于训练第一目标机器学习模型的目标函数所包括的噪声项对应的隐私预算和与用于训练第二目标机器学习模型的目标函数所包括的噪声项对应的隐私预算两者之和。在训练第一目标机器学习模型的过程中使用的目标数据集与在训练第二目标机器学习模型的过程中使用的目标数据集完全不同或完全不重叠(例如,目标数据集可按照目标数据记录被划分为第一目标数据集和第二目标数据集,在训练第一目标机器学习模型的过程中使用第一目标数据集,而在训练第二目标机器学习模型的过程中使用第二目标数据集)的情况下,所述目标数据隐私保护方式的隐私预算可取决于与用于训练第一目标机器学习模型的目标函数所包括的噪声项对应的隐私预算和与用于训练第二目标机器学习模型的目标函数所包括的噪声项对应的隐私预算两者之中较大的隐私预算。
以上,已经结合图1对根据本公开示例性实施例的机器学习系统100进行了描述,根据以上示例性实施例,机器学习系统100可分别在源数据隐私保护方式下将对应的一部分源数据子集中的知识成功迁移到目标数据集,并且同时可确保迁移的知识的可用性,从而使得能够进一步在目标数据隐私保护方式下综合更多知识来训练出模型效果更佳的第二目标机器学习模型,以应用于相应的业务决策。
需要说明的是,尽管以上在描述机器学习系统时将其划分为用于分别执行相应处理的装置(例如,目标数据集获取装置110、迁移项获取装置120、第一目标机器学习模型获得装置130和第二目标机器学习模型获得装置140),然而,本领域技术人员清楚的是,上述各装置执行的处理也可以在机器学习系统不进行任何具体装置划分或者各装置之间并无明确划界的情况下执行。此外,以上参照图1所描述的机器学习系统100并不限于包括以上描述的装置,而是还可以根据需要增加一些其他装置(例如,预测装置、存储装置和/或模型更新装置等),或者以上装置也可被组合。例如,在机器学习系统100包括预测装置的情况下,预测装置可获取包括至少一个预测数据记录的预测数据集并将预测数据集按照数据属性字段以与划分源数据集相同的方式划分为多个预测数据子集,针对每个预测数据子集利用训练出的与其对应的第一目标机器学习模型执行预测以获取针对每个预测数据子集中的每条数据记录的预测结果,并且基于获取的与每条预测数据记录对应的多个预测结果来获得针对所述每条预测数据记录的预测结果。例如,可直接综合由获取的与每条预测数据记录对应的多个预测结果(例如,对所述多个预测结果求平均)来获得针对所述每条预测数据记录的预测结果,或者,可针对由获取的与每条预测数据记录对应的多个预测结果构成的预测样本利用训练好的第二目标机器学习模型执行预测来获得针对所述每条预测数据记录的预测结果。
具体地,根据示例性实施例,利用具有数据隐私保护的机器学习模型进行预测的系统(以下,为描述方便将其简称为“预测系统”)可包括目标机器学习模型获取装置、预测数据记录获取装置、划分装置和预测装置。这里,目标机器学习模型获取装置可获取以上所描述的多个第一目标机器学习模型和第二目标机器学习模型。具体地,目标机器学习模型获取装置可按照以上提及“第一目标机器学习模型直接获得方式”或“通过训练的第一目标机器学习模型获得方式”获取多个第一目标机器学习模型。相应地,目标机器学习模型获取装置可按照“通过训练的第二目标机器学习模型获得方式”或“第二目标机器学习模型直接获得方式”获取第二目标机器学习模型。也就是说,目标机器学习模型获取装置可本身执行以上描述的获得第一目标机器学习模型和第二目标机器学习模型的操作来获取多个第一目标机器学习模型和第二目标机器学习模型,在这种情况下,目标机器学习模型获取装置可相应于以上所描述的机器学习系统100。可选地,目标机器学习模型获取装置也可在机器学习系统100已经通过上述方式分别获得了多个第一目标机器学习模型和第二目标机器学习模型的情况下,从机器学习系统100直接获取所述多个第一目标机器学习模型和第二目标机器学习模型以进行后续预测。
预测数据记录获取装置可获取预测数据记录。这里,预测数据记录可与先前描述的源数据记录和目标数据记录包括相同的数据属性字段。此外,预测数据记录获取装置可实时地逐条获取预测数据记录,或者可离线地批量获取预测数据记录。划分装置可将预测数据记录划分为多个子预测数据。作为示例,划分装置可按照数据属性字段以与先前描述的划分源数据集相同的方式将预测数据记录划分为多个子预测数据,并且每个子预测数据可包括至少一个数据属性字段。以上已经结合示例对该划分方式进行了描述,因此,这里不再赘述,不同之处在于这里所划分的对象是预测数据记录。
预测装置可针对每条预测数据记录之中的每个子预测数据,利用与其对应的第一目标机器学习模型执行预测以获取针对每个子预测数据的预测结果。例如,如果子预测数据包括性别和历史信用记录这两个数据属性字段,则基于与该子预测数据包括相同数据属性字段的数据记录的集合(即,以上提及的第一目标数据子集)训练出的第一目标机器学习模型便为与该子数据记录对应的第一目标机器学习模型。此外,这里的预测结果可以是例如置信度值,但不限于此。
随后,预测装置可将由多个第一目标机器学习模型获取的与每条预测数据记录对应的多个预测结果输入第二目标机器学习模型,以得到针对所述每条预测数据记录的预测结果。例如,预测装置可按照设置的第二目标机器学习模型的规则基于所述多个预测结果来得到第二目标机器学习模型针对所述每条预测数据记录的预测结果,例如,通过对所述多个预测结果求平均、取最大值或进行投票来获得针对所述每条预测数据记录的预测结果。可选地,预测装置可利用事先训练的第二目标机器学习模型(具体训练过程参见先前描述的训练第二目标机器学习模型的相关描述)针对由所述多个预测结果构成的预测样本执行预测来获得针对所述每条预测数据记录的预测结果。
根据本公开示例性实施例的预测系统可通过在划分预测数据记录之后,利用多个第一目标机器学习模型执行预测以获得与每条预测数据记录对应的多个预测结果,并进一步基于多个预测结果利用第二目标机器学习模型获得最终的预测结果,从而可提高模型预测效果。
另外,需要说明的是,本公开中所提及的“机器学习”可被实现为“有监督学习”、“无监督学习”或“半监督学习”的形式,本发明的示例性实施例对具体的机器学习形式并不进行特定限制。
图2是示出根据本公开示例性实施例的在数据隐私保护方式下执行机器学习的方法(以下,为描述方便,将其简称为“机器学习方法”)的流程图。
这里,作为示例,图2所示的机器学习方法可由图1所示的机器学习系统100来执行,也可完全通过计算机程序或指令以软件方式实现,还可通过特定配置的计算系统或计算装置来执行,例如,可通过包括至少一个计算装置和至少一个存储指令的存储装置的系统来执行,其中,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行上述机器学习方法。为了描述方便,假设图2所示的方法由图1所示的机器学习系统100来执行,并假设机器学习系统100可具有图1所示的配置。
参照图2,在步骤S210,目标数据集获取装置110可获取包括多条目标数据记录的目标数据集。以上在参照图1描述目标数据集获取装置110时描述的与获取目标数据集有关的任何内容均适应于此,因此,这里不在对其进行赘述。
在获取到目标数据集之后,在步骤S220,迁移项获取装置120可获取关于源数据集的多个迁移项,这里,所述多个迁移项之中的每个迁移项可用于在源数据隐私保护下将对应的一部分源数据集的知识迁移到目标数据集,作为示例,所述对应的一部分源数据集可以是通过将源数据集按照数据属性字段划分而获得的源数据子集。关于源数据集、迁移项和对应的源数据子集以及源数据集的划分方式等内容,已经在描述图1的迁移项获取装置120时进行过描述,这里不再赘述。
具体地,在步骤S220,迁移项获取装置120可从外部接收关于源数据集的多个迁移项。或者,迁移项获取装置120可通过自身对源数据集执行机器学习处理来获取关于源数据集的多个迁移项。具体地,迁移项获取装置120可首先获取包括多条源数据记录的源数据集,这里,源数据记录和目标数据记录可包括相同的数据属性字段。随后,迁移项获取装置120可将源数据集按照数据属性字段划分为多个源数据子集,其中,每个源数据子集中的数据记录包括至少一个数据属性字段。接下来,迁移项获取装置120可在源数据隐私保护方式下,基于每个源数据子集,针对第一预测目标训练与每个源数据子集对应的源机器学习模型,并将训练出的每个源机器学习模型的参数作为与每个源数据子集相关的迁移项。
这里,作为示例,源数据隐私保护方式可以是遵循差分隐私保护定义的保护方式,但不限于此。另外,源数据隐私保护方式可以是在基于源数据集执行与机器学习相关的处理的过程中添加随机噪声,以实现对源数据的隐私保护。例如,源数据隐私保护方式可以是在训练源机器学习模型的过程中添加随机噪声。根据示例性实施例,在所述源数据隐私保护方式中可将用于训练源机器学习模型的目标函数构造为至少包括损失函数和噪声项。这里,噪声项用于在训练源机器学习模型的过程中添加随机噪声,从而实现对源数据隐私保护。此外,可选地,在所述源数据隐私保护方式中还可将目标函数构造为包括其他用于约束模型参数的约束项。根据示例性实施例,源机器学习模型可以是广义线性模型(例如,逻辑回归模型),但不限于此,例如,可以是满足预定条件的任何线性模型,甚至还可以是满足一定条件的任何适当模型。
以上在参照图1描述迁移项获取装置120时已经对获取迁移项的细节进行过描述,因此这里不再赘述。此外,需要说明的是,参照图1在描述迁移项获取装置120时提及的关于源数据隐私保护方式、目标函数等的所有描述均适用于图2,因此,这里不再赘述。
在获得了关于源数据集的多个迁移项之后,在步骤S230,第一目标机器学习模型获得装置130可分别利用所述多个迁移项之中的每个迁移项来获得与每个迁移项对应的第一目标机器学习模型,以获得多个第一目标机器学习模型。
随后,在步骤S240,第二目标机器学习模型获得装置140可利用在步骤S230获得的所述多个第一目标机器学习模型来获得第二目标机器学习模型。这里,作为示例,目标数据隐私保护方式也可以是遵循差分隐私定义的保护方式,但不限于此,而是可以是与源数据隐私保护方式相同或不同的其他数据隐私保护方式。此外,目标数据隐私保护方式可以是在获得第一目标机器学习模型和/或第二目标机器学习模型的过程中添加随机噪声。
以下,将参照图3至图6详细描述根据本公开示例性实施例的在数据隐私保护下执行机器学习的方法的示例。
图3是示出根据本公开第一示例性实施例的在数据隐私保护方式下执行机器学习的方法的示意图。
具体地,根据本公开第一示例性实施例,在步骤S220,将获取的源数据集按照数据属性字段划分为多个源数据集,例如,参照图3,Ds是源数据集,其被按照数据属性字段划分为四个源数据子集
Figure BDA0002997885480000321
Figure BDA0002997885480000322
随后,在源数据隐私保护方式下,基于每个源数据子集,针对第一预测目标训练与每个源数据子集对应的源机器学习模型,并将训练出的每个源机器学习模型的参数作为与每个源数据子集相关的迁移项。在图3中,
Figure BDA0002997885480000323
Figure BDA0002997885480000324
分别是与源数据子集
Figure BDA0002997885480000325
Figure BDA0002997885480000326
对应的源机器学习模型的参数,并被分别作为与源数据子集
Figure BDA0002997885480000327
Figure BDA0002997885480000328
相关的迁移项。
在步骤S230,第一目标机器学习模型获得装置130可在不使用目标数据集的情况下,直接将每个迁移项作为与其对应的第一目标机器学习模型的参数。例如,参照图3,
Figure BDA0002997885480000331
Figure BDA0002997885480000332
分别是与迁移项
Figure BDA0002997885480000333
Figure BDA0002997885480000334
对应的第一目标机器学习模型的参数,并且
Figure BDA0002997885480000335
随后,在步骤S240,第二目标机器学习模型获得装置140可将目标数据集按照数据属性字段以与划分源数据集相同的方式划分为多个目标数据子集,其中,每个目标数据子集和与其对应的源数据子集中的数据记录包括相同的数据属性字段。例如,参照图3,按照与划分源数据集Ds相同的划分方式,可将目标数据集Dt划分为四个目标数据子集
Figure BDA0002997885480000336
Figure BDA0002997885480000337
其中,
Figure BDA0002997885480000338
Figure BDA0002997885480000339
中的数据记录包括相同的数据属性字段,类似的,
Figure BDA00029978854800003310
Figure BDA00029978854800003311
中的数据记录包括相同的数据属性字段,
Figure BDA00029978854800003312
Figure BDA00029978854800003313
中的数据记录包括相同的数据属性字段,
Figure BDA00029978854800003314
Figure BDA00029978854800003315
中的数据记录包括相同的数据属性字段。随后,在步骤S240中,第二目标机器学习模型获得装置140可针对每个目标数据子集,利用与其对应的第一目标机器学习模型执行预测以获取针对每个目标数据子集中的每条数据记录的预测结果。例如,参照图3,针对目标数据子集
Figure BDA00029978854800003316
Figure BDA00029978854800003317
分别利用参数为
Figure BDA00029978854800003318
Figure BDA00029978854800003319
的第一目标机器学习模型执行预测,其中,p1是利用参数为
Figure BDA00029978854800003320
的第一目标机器学习模型针对目标数据子集
Figure BDA00029978854800003321
执行预测的预测结果集,其包括参数为
Figure BDA00029978854800003322
的第一目标机器学习模型针对
Figure BDA00029978854800003323
中的每条数据记录的预测结果。类似地,p2、p3和p4分别是利用参数为
Figure BDA00029978854800003324
的第一目标机器学习模型、参数为
Figure BDA00029978854800003325
的第一目标机器学习模型和参数为
Figure BDA00029978854800003326
的第一目标机器学习模型执行预测的预测结果集。接下来,在步骤S240,第二目标机器学习模型获得装置140可在目标数据隐私保护方式下,基于由获取的与每条目标数据记录对应的多个预测结果构成的训练样本的集合,针对第三预测目标训练第二目标机器学习模型。例如,对于目标数据集Dt中的每条目标数据记录在预测结果集p1、p2、p3和p4中均有与其对应的一个预测结果,而这四个预测结果便可构成与每条目标数据记录对应的训练样本,而这样的训练样本的集合可用于在目标数据隐私保护下针对第三预测目标训练第二目标机器学习模型。
如图3所示,在获得第二目标机器学习模型的过程中,在目标数据隐私保护方式下利用了所述多条目标数据记录中的全部数据记录。
图4示出根据本公开第二示例性实施例的在数据隐私保护方式下执行机器学习的方法的示意图。
图4与图3的不同在于步骤S230和步骤S240。具体地,在第二示例性实施例中,在步骤S220获取到关于源数据集的多个迁移项(例如,
Figure BDA0002997885480000341
Figure BDA0002997885480000342
Figure BDA0002997885480000343
)之后,在步骤S230,第一目标机器学习模型获得装置130可将目标数据集按照数据属性字段以与划分源数据集相同的方式划分为多个第一目标数据子集,其中,每个第一目标数据子集和与其对应的源数据子集中的数据记录包括相同的数据属性字段。参照图4,例如,可将目标数据集Dt按照与划分源数据集Ds相同的方式划分为四个第一目标数据子集
Figure BDA0002997885480000344
Figure BDA0002997885480000345
其中,
Figure BDA0002997885480000346
Figure BDA0002997885480000347
分别对应于源数据子集
Figure BDA0002997885480000348
Figure BDA0002997885480000349
随后,第一目标机器学习模型获得装置130可在目标数据隐私保护方式下,基于每个第一目标数据子集,结合和与每个第一目标数据子集对应的源数据子集相关的迁移项,针对第二预测目标训练与该迁移项对应的第一目标机器学习模型。例如,参照图4,基于每个第一目标数据子集
Figure BDA00029978854800003410
Figure BDA00029978854800003411
分别结合迁移项
Figure BDA00029978854800003412
Figure BDA00029978854800003413
来针对第二预测目标训练与各迁移项对应的第一目标机器学习模型。如图4中所示,基于第一目标数据子集
Figure BDA00029978854800003414
结合迁移项
Figure BDA00029978854800003415
训练出的第一目标机器学习模型的参数是
Figure BDA00029978854800003416
基于第一目标数据子集
Figure BDA00029978854800003417
结合迁移项
Figure BDA00029978854800003418
训练出的第一目标机器学习模型的参数是
Figure BDA00029978854800003419
基于第一目标数据子集
Figure BDA00029978854800003420
结合迁移项
Figure BDA00029978854800003421
训练出的第一目标机器学习模型的参数是
Figure BDA00029978854800003422
基于第一目标数据子集
Figure BDA00029978854800003423
结合迁移项
Figure BDA00029978854800003424
训练出的第一目标机器学习模型的参数是
Figure BDA00029978854800003425
接下来,在步骤S240,第二目标机器学习模型获得装置140可将第二目标机器学习模型的规则设置为:基于通过以下方式获取的与每条预测数据记录对应的多个预测结果来获得第二目标机器学习模型针对所述每条预测数据记录的预测结果,其中,所述方式包括:获取预测数据记录,并将预测数据记录按照数据属性字段以与划分源数据集相同的方式划分为多个子预测数据;针对每条预测数据记录之中的每个子预测数据,利用与其对应的第一目标机器学习模型执行预测以获取针对每个子预测数据的预测结果。这里,预测数据记录可以是实时预测或批量预测时需要进行预测的数据记录。参照图4,例如,获取的预测数据记录Dp被按照与划分源数据集相同的方式划分为四个子预测数据
Figure BDA00029978854800003426
Figure BDA00029978854800003427
并且与
Figure BDA00029978854800003428
Figure BDA00029978854800003429
对应的第一目标机器学习模型的参数分别为
Figure BDA00029978854800003430
Figure BDA00029978854800003431
随后,第二目标机器学习模型获得装置140可针对每个子预测数据,利用与其对应的第一目标机器学习模型执行预测以获取针对每个子预测数据的预测结果。例如,参照图4,针对子预测数据
Figure BDA0002997885480000351
可利用参数为
Figure BDA0002997885480000352
的第一目标机器学习模型执行预测来获得预测结果p1。类似地,p2、p3和p4分别是利用参数为
Figure BDA0002997885480000353
的第一目标机器学习模型针对
Figure BDA0002997885480000354
执行预测的预测结果、利用参数为
Figure BDA0002997885480000355
的第一目标机器学习模型针对
Figure BDA0002997885480000356
执行预测的预测结果、以及利用参数为
Figure BDA0002997885480000357
的第一目标机器学习模型针对
Figure BDA0002997885480000358
执行预测的预测结果。第二目标机器学习模型获得装置140可将第二目标机器学习模型的规则设置为:基于获取的与每条预测数据记录对应的多个预测结果来获得第二目标机器学习模型针对所述每条预测数据记录的预测结果。例如,通过将与每条预测数据记录对应的以上四个预测结果求平均可获得第二目标机器学习模型针对每条预测数据记录的预测结果,但获得第二目标机器学习模型针对每条预测数据记录的预测结果的方式不限于此,例如,还可以通过投票的方式来获得第二目标机器学习模型针对每条预测数据记录的预测结果。
如图4所示,在获得第一目标机器学习模型的过程中,在目标数据隐私保护方式下利用了目标数据集中的所述多条目标数据记录中的全部。
图5是示出根据本公开第三示例性实施例的在数据隐私保护方式下执行机器学习的方法的示意图。
图5中在步骤S220获得关于源数据的多个迁移项的方式以及在步骤S230获得多个第一目标机器学习模型的方式与图4完全相同,这里不再赘述。与图4不同的是,在图5的示例性实施例中,在步骤S240,第二目标机器学习模型可直接针对在步骤S230划分出的每个第一目标数据子集,利用与其对应的第一目标机器学习模型执行预测以获取针对每个第一目标数据子集中的每条数据记录的预测结果,并且,在目标数据隐私保护方式下,基于由获取的与每条目标数据记录对应的多个预测结果构成的训练样本的集合,针对第三预测目标训练第二目标机器学习模型。例如,参照图5,针对第一目标数据子集
Figure BDA0002997885480000359
利用参数为
Figure BDA00029978854800003510
的第一目标机器学习模型执行预测来获得预测结果集p1,其中,p1包括参数为
Figure BDA00029978854800003511
的第一目标机器学习模型针对
Figure BDA00029978854800003512
中的每条数据记录的预测结果。类似地,针对第一目标数据子集
Figure BDA00029978854800003513
利用参数为
Figure BDA00029978854800003514
的第一目标机器学习模型执行预测来获得预测结果集p2,针对第一目标数据子集
Figure BDA00029978854800003515
利用参数为
Figure BDA00029978854800003516
的第一目标机器学习模型执行预测来获得预测结果集p3,针对第一目标数据子集
Figure BDA00029978854800003517
利用参数为
Figure BDA00029978854800003518
的第一目标机器学习模型执行预测来获得预测结果集p4。此外,对于目标数据集Dt中的每条目标数据记录在预测结果集p1、p2、p3和p4中均有与其对应的一个预测结果,而这四个预测结果便可构成与每条目标数据记录对应的训练样本,而这样的训练样本的集合可用于在目标数据隐私保护下针对第三预测目标训练第二目标机器学习模型。
如图5所示,在获得第一目标机器学习模型的过程中和获得第二目标机器学习模型的过程中,在目标数据隐私保护方式下利用了在步骤S210获取的目标数据集中的多条目标数据记录中的全部。
图6是示出根据本公开第四示例性实施例的在数据隐私保护方式下执行机器学习的方法的示意图。
与图5不同的是,在图6的示例性实施例中,在获得第一目标机器学习模型的步骤S230中,并不是将目标数据集按照数据属性字段以与划分源数据集相同的方式划分为多个第一目标数据子集,而是将目标数据集中的第一目标数据集(例如,图6中的Dt1)按照数据属性字段以与划分源数据集相同的方式划分为多个第一目标数据子集(例如,图6中的
Figure BDA0002997885480000363
Figure BDA0002997885480000364
),其中,第一目标数据集可包括目标数据集中所包括的部分目标数据记录,每个第一目标数据子集和与其对应的源数据子集中的数据记录包括相同的数据属性字段。随后,第一目标机器学习模型获得装置130可在目标数据隐私保护方式下,基于每个第一目标数据子集,结合和与每个第一目标数据子集对应的源数据子集相关的迁移项,针对第二预测目标训练与该迁移项对应的第一目标机器学习模型。接下来,与图5不同,在图6的示例性实施例中,在步骤S240,第二目标机器学习模型获得装置140在利用所述多个第一目标机器学习模型获得第二目标机器学习模型的过程中并非使用在步骤S230中使用的目标数据集完全相同的目标数据集,而是使用与第一目标数据集不同的第二目标数据集。具体地,在步骤S240,第二目标机器学习模型获得装置140可将第二目标数据集(例如,图6中的D42)按照数据属性字段以与划分源数据集相同的方式划分为多个第二目标数据子集(例如,图6中的
Figure BDA0002997885480000361
Figure BDA0002997885480000362
)。这里,第二目标数据集不同于第一目标数据集并至少包括目标数据集中排除第一目标数据集之后的剩余目标数据记录。随后,第二目标机器学习模型获得装置140,针对每个第二目标数据子集,利用与其对应的第一目标机器学习模型执行预测以获取针对每个第二目标数据子集中的每条数据记录的预测结果,最后,在目标数据隐私保护方式下,基于由获取的与每条目标数据记录对应的多个预测结果构成的训练样本的集合,针对第三预测目标训练第二目标机器学习模型。
如图6所示,在获得第一目标机器学习模型的过程和获得第二目标机器学习模型的过程中,在目标数据隐私保护方式下利用了在步骤S210获取的目标数据集中的所述多条目标数据记录中的部分。
综上所述,在获得所述多个第一目标机器学习模型的过程中和/或获得第二目标机器学习模型的过程中,在目标数据隐私保护方式下利用了目标数据集中的所述多条目标数据记录中的全部或部分。
此外,在以上示例性实施例中提及的目标数据隐私保护方式中,可将用于训练第一目标机器学习模型的目标函数和/或用于训练第二目标机器学习模型的目标函数构造为至少包括损失函数和噪声项,而所述目标数据隐私保护方式的隐私预算可取决于与用于训练第一目标机器学习模型的目标函数所包括的噪声项对应的隐私预算和与用于训练第二目标机器学习模型的目标函数所包括的噪声项对应的隐私预算两者之和或两者之中较大的隐私预算。具体地,在训练第一目标机器学习模型的过程中使用的目标数据集与在训练第二目标机器学习模型的过程中使用的目标数据集完全重叠或部分重叠的情况下,目标数据隐私保护方式的隐私预算可取决于与用于训练第一目标机器学习模型的目标函数所包括的噪声项对应的隐私预算和与用于训练第二目标机器学习模型的目标函数所包括的噪声项对应的隐私预算两者之和。然而,在训练第一目标机器学习模型的过程中使用的目标数据集与在训练第二目标机器学习模型的过程中使用的目标数据集完全不重叠的情况下,目标数据隐私保护方式的隐私预算可取决于与用于训练第一目标机器学习模型的目标函数所包括的噪声项对应的隐私预算和与用于训练第二目标机器学习模型的目标函数所包括的噪声项对应的隐私预算两者之中较大的隐私预算。例如,在以上描述的图5的示例性实施例中目标数据隐私保护方式的隐私预算取决于以上两者之和,在图6的示例性实施例中目标数据隐私保护方式的隐私预算取决于以上两者之中较大的隐私预算。
此外,源机器学习模型和第一目标机器学习模型可属于相同类型的机器学习模型,并且/或者,第一预测目标和第二预测目标相同或相似。作为示例,所述相同类型的机器学习模型为逻辑回归模型。在这种情况下,在步骤S230中,可通过以下方式来训练第一目标机器学习模型:将用于训练第一目标机器学习模型的目标函数构造为至少包括损失函数和噪声项并反映第一目标机器学习模型的参数与对应于该第一目标机器学习模型的迁移项之间的差值;在目标数据隐私保护方式下,基于每个第一目标数据子集,结合和与每个第一目标数据子集对应的源数据子集相关的迁移项,通过求解构造的目标函数来针对第二预测目标训练与该迁移项对应的第一目标机器学习模型。
另外,根据示例性实施例,第一目标机器学习模型和第二目标机器学习模型可属于相同类型的机器学习模型,并且/或者,第二预测目标和第三预测目标可以相同或相似。另外,在本公开中,第二目标机器学习模型可用于执行业务决策。作为示例,所述业务决策可涉及交易反欺诈、账户开通反欺诈、智能营销、智能推荐、贷款评估之中的至少一项,但不限于此。
以上描述的根据本公开示例性实施例的在数据隐私保护方式下执行机器学习的方法,既可以确保源数据隐私和目标数据隐私的不被泄露,同时能够通过多个迁移项将源数据集上的知识迁移到目标数据集,并且由于每个迁移项仅用于将对应的一部分源数据集的知识迁移到目标数据集,使得在源数据隐私保护方式下获得第一目标机器学习模型的过程中为了实现源数据隐私而添加的噪声相对小,从而既可保证迁移项的可用性,又可有效地将知识迁移到目标数据集。相应地,在目标数据隐私保护下获得第二目标机器学习模型的过程中为实现目标数据隐私保护而添加的噪声也会相对小,从而既实现了目标数据隐私,又可获得模型效果更佳的目标机器学习模型。
需要说明的是,尽管以上在描述图2时,按顺序对图2中的步骤进行了描述,但是,本领域技术人员清楚的是,上述方法中的各个步骤不一定按顺序执行,而是可按照相反的顺序或并行地执行,例如,以上描述的步骤S210与步骤S220便可按照相反顺序或并行执行,也就是说,可在获取目标数据集之前获取关于源数据集的多个迁移项,或者可同时获取目标数据集和迁移项。另外,在执行步骤S230的同时,也可执行步骤S210或步骤S220,也就是说,在获得第一目标机器学习模型的过程中,可同时获取新的目标数据集或迁移项,以用于例如后续目标机器学习模型的更新操作等。此外,尽管以上仅参照图3至图6描述了根据本公开的机器学习方法的四个示例性实施例,但是可根据本公开的机器学习方法不限于以上示例性实施例,而是可通过适当的变形获得更多的示例性实施例。
此外,根据本公开另一示例性实施例,可提供一种利用具有数据隐私保护的机器学习模型进行预测的方法(为便于描述,将该方法检测为“预测方法”)。作为示例,该预测方法可由以上描述的“预测系统”来执行,也可完全通过计算机程序或指令以软件方式实现,还可通过特定配置的计算系统或计算装置来执行。为描述方便,假设“预测方法”由上述“预测系统”执行,并假设预测系统包括目标机器学习模型获取装置、预测数据记录获取装置、划分装置和预测装置。
具体地,目标机器学习模型获取装置可在以上描述的步骤S240之后,获取通过上述步骤S210至S240已经获得的多个第一目标机器学习模型和第二目标机器学习模型。可选地,目标机器学习模型获取装置也可本身通过执行步骤S210至S240来获得多个第一目标机器学习模型和第二目标机器学习模型,关于获得第一目标机器学习模型和第二目标机器学习模型的具体方式,以上已经参照图2至图6进行过描述,因此这里不再赘述。也就是说,这里的“预测方法”既可以是上述“机器学习方法”的继续,也可以是完全独立的预测方法。
在获取到多个第一目标机器学习模型和第二目标机器学习模型之后,预测数据记录获取装置可获取预测数据记录。这里,预测数据记录可与先前描述的源数据记录和目标数据记录包括相同的数据属性字段。此外,预测数据记录获取装置可实时地逐条获取预测数据记录,并且可离线地批量获取预测数据记录。接下来,划分装置可将预测数据记录划分为多个子预测数据。作为示例,划分装置可按照数据属性字段以与先前描述的划分源数据集相同的方式将预测数据记录划分为多个子预测数据,并且每个子预测数据可包括至少一个数据属性字段。随后,预测装置可针对每条预测数据记录之中的每个子预测数据,利用与其对应的第一目标机器学习模型执行预测以获取针对每个子预测数据的预测结果。最后,预测装置可将由多个第一目标机器学习模型获取的与每条预测数据记录对应的多个预测结果输入第二目标机器学习模型,以得到针对所述每条预测数据记录的预测结果。
根据以上预测方法,通过在划分预测数据记录之后利用多个第一目标机器学习模型执行预测以获得与每条预测数据记录对应的多个预测结果,并进一步基于获得的多个预测结果利用第二机器学习模型获得最终的预测结果,从而可提高模型预测效果。
图7是示出根据本公开示例性实施例的在数据隐私保护方式下执行机器学习的构思的示意图。
为便于更清楚且直观地理解本公开的构思,以下结合图7以金融领域中的贷款审核场景为例(即,目标机器学习模型将用于贷款审核这一业务决策),对根据本公开示例性实施例的在数据隐私保护下执行机器学习的构思进行简要描述。
如今,随着机器学习的不断发展,其在金融领域开始发挥着日益重要的作用,从审批贷款到资产管理,再到风险评估和信贷反欺诈等,机器学习在金融生态系统的许多阶段都起着不可或缺的作用。例如,银行可利用机器学习来决定是否批准贷款申请者的贷款申请。但是,单个银行自身所能获得的关于贷款申请者的历史金融活动相关记录可能并不足以全面地反映该贷款申请者的真实信用或贷款偿还能力等情况,在这种情况下,该银行可能期望能够获得该贷款申请者在其他机构的历史金融活动相关记录。然而,出于客户隐私保护的考虑,该银行很难利用其他机构所拥有的贷款申请者的历史金融活动相关记录。然而,根据利用本公开的构思则可实现在用户数据保护隐私的情况下充分利用多个机构的数据来帮助银行更准确地判断是否批准贷款申请者的贷款申请,进而减少金融风险。
参照图7,目标数据源710(例如,第一银行机构)可将其拥有的涉及用户历史金融活动的包括多条目标数据记录的目标数据集发送给机器学习系统730。这里,每条目标数据记录可包括例如用户的姓名、国籍、职业、薪酬、财产、信用记录、历史贷款金额的多个数据属性字段,但不限于此。此外,每条目标数据记录还可包括例如关于用户是否按时清偿贷款的标记信息。
这里,机器学习系统730可以是以上参照图1描述的机器学习系统100。作为示例,机器学习系统730可以由专门提供机器学习服务的实体(例如,机器学习服务提供商)提供,或者也可由目标数据源710自己构建。相应地,机器学习系统730既可设置在云端(如公有云、私有云或混合云),也可以设置在银行机构的本地系统。这里,为描述方便,假设机器学习系统730被设置在公有云端,并且由机器学习服务提供商构建。
为了更准确地预测用户的贷款风险指数或者用户的贷款偿还能力,第一银行机构可例如与源数据源720(例如,第二机构)达成彼此在保护用户数据隐私的情况下共享数据的协议。在这种情况下,基于该协议,作为示例,在相应安全措施下,源数据源720可将其所拥有的包括多条源数据记录的源数据集发送给机器学习系统730,这里,源数据集例如可以是与以上描述的目标数据集类似的涉及用户金融活动的数据集,并且源数据记录和目标数据记录可包括相同的数据属性字段,例如,源数据记录也可包括例如用户的姓名、国籍、职业、薪酬、财产、信用记录、历史贷款金额的多个数据属性字段。根据在本公开的构思,机器学习系统730可如以上参照图1至6所述将源数据集按照数据属性字段划分为多个源数据子集,并在源数据隐私保护方式下,基于每个源数据子集针对第一预测目标训练对应的源机器学习模型,并将训练出的每个源机器学习模型的参数作为与每个源数据子集相关的迁移项。这里,源机器学习模型可以是例如用于预测用户贷款风险指数或贷款清偿能力的机器学习模型或者其他类似预测目标的机器学习模型,或者是与贷款估计业务相关的针对其他预测目标的机器学习模型。
或者,机器学习系统730也可从源数据源720直接获取迁移项。在这种情况下,例如,源数据源720可事先通过其自身的机器学习系统或者委托其他机器学习服务提供商在源数据隐私保护方式下基于通过按照数据属性字段划分源数据集而获得的每个源数据子集执行机器学习相关处理来获取与每个源数据子集相关的迁移项,并将多个迁移项发送给机器学习系统730。可选地,源数据源720也可选择将源数据集/多个迁移项发送给目标数据源710,然后,由目标数据源710将源数据集/多个迁移项与目标数据集一起提供给机器学习系统730,以用于后续机器学习。
随后,机器学习系统730可分别利用所述多个迁移项之中的每个迁移项来获得与每个迁移项对应的第一目标机器学习模型,以获得多个第一目标机器学习模型。例如,第一目标机器学习模型也可以是用于预测用户贷款风险指数或贷款清偿能力的机器学习模型。然后,机器学习系统730可进一步利用所述多个第一目标机器学习模型获得第二目标机器学习模型。具体地获得第一目标机器学习模型和第二目标机器学习模型的方式可参见图1至图6的描述。这里,第二目标机器学习模型可与第一目标机器学习模型属于相同类型的机器学习模型。例如,第二目标机器学习模型可以是用于预测用户贷款风险指数或贷款清偿能力的机器学习模型,或者可以是用于预测用户贷款行为是否涉嫌欺诈的机器学习模型。根据本公开的构思,如以上参照图1至图6所述,在获得多个第一目标机器学习模型的过程中和/或获得第二目标机器学习模型的过程中,在目标数据隐私保护方式下利用了目标数据集中的多条目标数据记录中的全部或部分。
在获得了目标机器学习模型(包括第一目标机器学习模型和第二目标机器学习模型)之后,目标数据源710可将涉及至少一个贷款申请者的包括至少一条预测数据记录的预测数据集发送给机器学习系统730。这里,预测数据记录可与以上提及的源数据记录和目标数据记录包括相同的数据属性字段,例如,也可包括用户的姓名、国籍、职业、薪酬、财产、信用记录、历史贷款金额的多个数据属性字段。机器学习系统730可将预测数据集按照数据属性字段以与划分源数据集相同的方式划分为多个预测数据子集,并且针对每个预测数据子集,利用与其对应的第一目标机器学习模型执行预测以获取针对每个预测数据子集中的每条数据记录的预测结果。随后,机器学习系统730可基于获取的与每条预测数据记录对应的多个预测结果来获得第二目标机器学习模型针对所述每条预测数据记录的预测结果。或者,可选地,机器学习系统730可在目标数据隐私保护方式下,利用训练出的第二目标机器学习模型执行预测来提供针对由获取的与每条预测数据记录对应的多个预测结果构成的预测样本的预测结果。这里,预测结果可以是每个贷款申请者的贷款风险指数或贷款清偿能力评分,或者可以是每个贷款申请者的贷款行为是否涉嫌欺诈。此外,机器学习系统730可将预测结果反馈给目标数据源710。随后,目标数据源710可基于接收到的预测结果判断是否批准贷款申请者提出的贷款申请。通过以上方式,银行机构可以利用机器学习在保护用户数据隐私的同时利用其他机构的数据和自身拥有的数据获得更准确的判断结果,从而可避免不必要的金融风险。
需要说明的是,尽管以上以机器学习在金融领域中的贷款估计应用为例介绍了本公开的构思,但是,本领域人员清楚的是,根据本公开示例性实施例的在数据隐私保护下执行机器学习的方法和系统不限于应用于金融领域,也不限于用于执行贷款估计这样的业务决策。而是,可应用于任何涉及数据安全和机器学习的领域和业务决策。例如,根据本公开示例性实施例的在数据隐私保护下执行机器学习的方法和系统还可应用于交易反欺诈、账户开通反欺诈、智能营销、智能推荐、以及公共卫生领域中生理数据的预测等。
以上已参照图1至图7描述了根据本公开示例性实施例的机器学习方法和机器学习系统。然而,应理解的是:附图中示出的装置和系统可被分别配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如,这些系统、装置可对应于专用的集成电路,也可对应于纯粹的软件代码,还可对应于软件与硬件相结合的模块。此外,这些系统或装置所实现的一个或多个功能也可由物理实体设备(例如,处理器、客户端或服务器等)中的组件来统一执行。
此外,上述方法可通过记录在计算机可读存储介质上的指令来实现,例如,根据本申请的示例性实施例,可提供一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行以下步骤:获取包括多条目标数据记录的目标数据集;获取关于源数据集的多个迁移项,其中,所述多个迁移项之中的每个迁移项用于在源数据隐私保护下将对应的一部分源数据集的知识迁移到目标数据集;分别利用所述多个迁移项之中的每个迁移项来获得与每个迁移项对应的第一目标机器学习模型,以获得多个第一目标机器学习模型;利用所述多个第一目标机器学习模型获得第二目标机器学习模型,其中,在获得所述多个第一目标机器学习模型的过程中和/或获得第二目标机器学习模型的过程中,在目标数据隐私保护方式下利用了所述多条目标数据记录中的全部或部分。
上述计算机可读存储介质中存储的指令可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,应注意,所述指令还可用于执行除了上述步骤以外的附加步骤或者在执行上述步骤时执行更为具体的处理,这些附加步骤和进一步处理的内容已经在参照图2至图6进行机器学习方法的描述过程中提及,因此这里为了避免重复将不再进行赘述。
应注意,根据本公开示例性实施例的机器学习系统可完全依赖计算机程序或指令的运行来实现相应的功能,即,各个装置在计算机程序的功能架构中与各步骤相应,使得整个系统通过专门的软件包(例如,lib库)而被调用,以实现相应的功能。
另一方面,当图1所示的系统和装置以软件、固件、中间件或微代码实现时,用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中,使得至少一个处理器或至少一个计算装置可通过读取并运行相应的程序代码或者代码段来执行相应的操作。
例如,根据本申请示例性实施例,可提供一种包括至少一个计算装置和至少一个存储指令的存储装置的系统,其中,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行下述步骤:获取包括多条目标数据记录的目标数据集;获取关于源数据集的多个迁移项,其中,所述多个迁移项之中的每个迁移项用于在源数据隐私保护下将对应的一部分源数据集的知识迁移到目标数据集;分别利用所述多个迁移项之中的每个迁移项来获得与每个迁移项对应的第一目标机器学习模型,以获得多个第一目标机器学习模型;利用所述多个第一目标机器学习模型获得第二目标机器学习模型,其中,在获得所述多个第一目标机器学习模型的过程中和/或获得第二目标机器学习模型的过程中,在目标数据隐私保护方式下利用了所述多条目标数据记录中的全部或部分。
具体说来,上述系统可以部署在服务器或客户端中,也可以部署在分布式网络环境中的节点上。此外,所述系统可以是PC计算机、平板装置、个人数字助理、智能手机、web应用或其他能够执行上述指令集合的装置。此外,所述系统还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。另外,所述系统的所有组件可经由总线和/或网络而彼此连接。
这里,所述系统并非必须是单个系统,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。所述系统还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子装置。
在所述系统中,所述至少一个计算装置可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,所述至少一个计算装置还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。计算装置可运行存储在存储装置之一中的指令或代码,其中,所述存储装置还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,所述网络接口装置可采用任何已知的传输协议。
存储装置可与计算装置集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储装置可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储装置和计算装置可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得计算装置能够读取存储在存储装置中的指令。
以上描述了本申请的各示例性实施例,应理解,上述描述仅是示例性的,并非穷尽性的,本申请不限于所披露的各示例性实施例。在不偏离本申请的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此,本申请的保护范围应该以权利要求的范围为准。

Claims (10)

1.一种在数据隐私保护下执行机器学习的方法,包括:
获取包括多条目标数据记录的目标数据集;
获取关于源数据集的多个迁移项,其中,所述多个迁移项之中的每个迁移项用于在源数据隐私保护下将对应的一部分源数据集的知识迁移到目标数据集;
分别利用所述多个迁移项之中的每个迁移项来获得与每个迁移项对应的第一目标机器学习模型,以获得多个第一目标机器学习模型;
利用所述多个第一目标机器学习模型获得第二目标机器学习模型,
其中,在获得所述多个第一目标机器学习模型的过程中和/或获得第二目标机器学习模型的过程中,在目标数据隐私保护方式下利用了所述多条目标数据记录中的全部或部分。
2.如权利要求1所述的方法,其中,所述对应的一部分源数据集是通过将源数据集按照数据属性字段划分而获得的源数据子集。
3.如权利要求1所述的方法,其中,获取关于源数据集的多个迁移项的步骤包括:从外部接收关于源数据集的多个迁移项。
4.如权利要求2所述的方法,其中,获取关于源数据集的多个迁移项的步骤包括:
获取包括多条源数据记录的源数据集,其中,源数据记录和目标数据记录包括相同的数据属性字段;
将源数据集按照数据属性字段划分为多个源数据子集,其中,每个源数据子集中的数据记录包括至少一个数据属性字段;
在源数据隐私保护方式下,基于每个源数据子集,针对第一预测目标训练与每个源数据子集对应的源机器学习模型,并将训练出的每个源机器学习模型的参数作为与每个源数据子集相关的迁移项。
5.如权利要求4所述的方法,其中,获得与每个迁移项对应的第一目标机器学习模型的步骤包括:
在不使用目标数据集的情况下,直接将每个迁移项作为与其对应的第一目标机器学习模型的参数。
6.一种利用具有数据隐私保护的机器学习模型进行预测的方法,包括:
获取如权利要求1至5中的任一权利要求所述的多个第一目标机器学习模型和第二目标机器学习模型;
获取预测数据记录;
将预测数据记录划分为多个子预测数据;
针对每条预测数据记录之中的每个子预测数据,利用与其对应的第一目标机器学习模型执行预测以获取针对每个子预测数据的预测结果;以及
将由多个第一目标机器学习模型获取的与每条预测数据记录对应的多个预测结果输入第二目标机器学习模型,以得到针对所述每条预测数据记录的预测结果。
7.一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行如权利要求1至5中的任一权利要求所述的在数据隐私保护下执行机器学习的方法和/或如权利要求6所述的利用具有数据隐私保护的机器学习模型进行预测的方法。
8.一种包括至少一个计算装置和至少一个存储指令的存储装置的系统,其中,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行如权利要求1至5中的任一权利要求所述的在数据隐私保护下执行机器学习的方法和/或如权利要求6所述的利用具有数据隐私保护的机器学习模型进行预测的方法。
9.一种在数据隐私保护下执行机器学习的系统,包括:
目标数据集获取装置,被配置为获取包括多条目标数据记录的目标数据集;
迁移项获取装置,被配置为获取关于源数据集的多个迁移项,其中,所述多个迁移项之中的每个迁移项用于在源数据隐私保护下将对应的一部分源数据集的知识迁移到目标数据集;
第一目标机器学习模型获得装置,被配置为分别利用所述多个迁移项之中的每个迁移项来获得与每个迁移项对应的第一目标机器学习模型,以获得多个第一目标机器学习模型;
第二目标机器学习模型获得装置,被配置为利用所述多个第一目标机器学习模型获得第二目标机器学习模型,
其中,在第一目标机器学习模型获得装置获得所述多个第一目标机器学习模型的过程中和/或第二目标机器学习模型获得装置获得第二目标机器学习模型的过程中,在目标数据隐私保护方式下利用了所述多条目标数据记录中的全部或部分。
10.一种利用具有数据隐私保护的机器学习模型进行预测的系统,包括:
目标机器学习模型获取装置,被配置为获取如权利要求9所述的多个第一目标机器学习模型和第二目标机器学习模型;
预测数据记录获取装置,被配置为获取预测数据记录;
划分装置,被配置为将预测数据记录划分为多个子预测数据;
预测装置,被配置为针对每条预测数据记录之中的每个子预测数据,利用与其对应的第一目标机器学习模型执行预测以获取针对每个子预测数据的预测结果,并且将由多个第一目标机器学习模型获取的与每条预测数据记录对应的多个预测结果输入第二目标机器学习模型,以得到针对所述每条预测数据记录的预测结果。
CN202110336435.3A 2018-09-28 2018-09-28 在数据隐私保护下执行机器学习的方法和系统 Active CN112948889B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110336435.3A CN112948889B (zh) 2018-09-28 2018-09-28 在数据隐私保护下执行机器学习的方法和系统

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201811136436.8A CN110990859B (zh) 2018-09-28 2018-09-28 在数据隐私保护下执行机器学习的方法和系统
CN202110336435.3A CN112948889B (zh) 2018-09-28 2018-09-28 在数据隐私保护下执行机器学习的方法和系统

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201811136436.8A Division CN110990859B (zh) 2018-08-17 2018-09-28 在数据隐私保护下执行机器学习的方法和系统

Publications (2)

Publication Number Publication Date
CN112948889A true CN112948889A (zh) 2021-06-11
CN112948889B CN112948889B (zh) 2024-04-09

Family

ID=70059770

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202110336435.3A Active CN112948889B (zh) 2018-09-28 2018-09-28 在数据隐私保护下执行机器学习的方法和系统
CN201811136436.8A Active CN110990859B (zh) 2018-08-17 2018-09-28 在数据隐私保护下执行机器学习的方法和系统

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201811136436.8A Active CN110990859B (zh) 2018-08-17 2018-09-28 在数据隐私保护下执行机器学习的方法和系统

Country Status (1)

Country Link
CN (2) CN112948889B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113326366A (zh) * 2021-06-30 2021-08-31 重庆五洲世纪文化传媒有限公司 一种幼教管理系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11429301B2 (en) * 2020-04-22 2022-08-30 Dell Products L.P. Data contextual migration in an information handling system

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104079574A (zh) * 2014-07-02 2014-10-01 南京邮电大学 云环境下基于属性和同态混合加密的用户隐私保护方法
US20160247501A1 (en) * 2015-02-19 2016-08-25 Microsoft Technology Licensing, Llc Pre-training and/or transfer learning for sequence taggers
US20160283735A1 (en) * 2015-03-24 2016-09-29 International Business Machines Corporation Privacy and modeling preserved data sharing
CN107358121A (zh) * 2017-07-12 2017-11-17 张�诚 一种脱敏数据集的数据融合方法及装置
CN107368752A (zh) * 2017-07-25 2017-11-21 北京工商大学 一种基于生成式对抗网络的深度差分隐私保护方法
CN108021819A (zh) * 2016-11-04 2018-05-11 西门子保健有限责任公司 使用深度学习网络的匿名和安全分类

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095756A (zh) * 2015-07-06 2015-11-25 北京金山安全软件有限公司 可移植文档格式文档的检测方法和装置
CN107704930B (zh) * 2017-09-25 2021-02-26 创新先进技术有限公司 基于共享数据的建模方法、装置、系统及电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104079574A (zh) * 2014-07-02 2014-10-01 南京邮电大学 云环境下基于属性和同态混合加密的用户隐私保护方法
US20160247501A1 (en) * 2015-02-19 2016-08-25 Microsoft Technology Licensing, Llc Pre-training and/or transfer learning for sequence taggers
US20160283735A1 (en) * 2015-03-24 2016-09-29 International Business Machines Corporation Privacy and modeling preserved data sharing
CN108021819A (zh) * 2016-11-04 2018-05-11 西门子保健有限责任公司 使用深度学习网络的匿名和安全分类
CN107358121A (zh) * 2017-07-12 2017-11-17 张�诚 一种脱敏数据集的数据融合方法及装置
CN107368752A (zh) * 2017-07-25 2017-11-21 北京工商大学 一种基于生成式对抗网络的深度差分隐私保护方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113326366A (zh) * 2021-06-30 2021-08-31 重庆五洲世纪文化传媒有限公司 一种幼教管理系统
CN113326366B (zh) * 2021-06-30 2023-04-11 重庆五洲世纪文化传媒有限公司 一种幼教管理系统

Also Published As

Publication number Publication date
CN110990859A (zh) 2020-04-10
CN110990859B (zh) 2021-02-26
CN112948889B (zh) 2024-04-09

Similar Documents

Publication Publication Date Title
US20210042645A1 (en) Tensor Exchange for Federated Cloud Learning
Chang et al. Towards a reuse strategic decision pattern framework–from theories to practices
US9262493B1 (en) Data analytics lifecycle processes
AU2021218153A1 (en) Method and apparatus for encrypting data, method and apparatus for training machine learning model, and electronic device
US20190163790A1 (en) System and method for generating aggregated statistics over sets of user data while enforcing data governance policy
CN110858253B (zh) 在数据隐私保护下执行机器学习的方法和系统
AU2021379927A9 (en) Machine-learning techniques involving monotonic recurrent neural networks
EP3839790A1 (en) Method and system for carrying out maching learning under data privacy protection
CN113222732B (zh) 信息处理方法、装置、设备及存储介质
CN110968887B (zh) 在数据隐私保护下执行机器学习的方法和系统
EP4085332A1 (en) Creating predictor variables for prediction models from unstructured data using natural language processing
US12061671B2 (en) Data compression techniques for machine learning models
US20230105207A1 (en) System and methods for intelligent entity-wide data protection
Böhmecke-Schwafert et al. Exploring blockchain-based innovations for economic and sustainable development in the global south: A mixed-method approach based on web mining and topic modeling
CN110990859B (zh) 在数据隐私保护下执行机器学习的方法和系统
Zhou et al. FinBrain 2.0: when finance meets trustworthy AI
CN111625572B (zh) 在数据隐私保护下执行机器学习的方法和系统
US11561963B1 (en) Method and system for using time-location transaction signatures to enrich user profiles
Sumathi et al. Scale-based secured sensitive data storage for banking services in cloud
CN113094595A (zh) 对象识别方法、装置、计算机系统及可读存储介质
CN111178535A (zh) 实现自动机器学习的方法和装置
US20230274310A1 (en) Jointly predicting multiple individual-level features from aggregate data
US11610402B2 (en) System and method for crowdsourcing a video summary for creating an enhanced video summary
US20240289622A1 (en) Ai model recommendation based on system task analysis and interaction data
Mishra AI Ethics, Biasness, and Reliability

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant