CN111368337B - 保护隐私的样本生成模型构建、仿真样本生成方法及装置 - Google Patents

保护隐私的样本生成模型构建、仿真样本生成方法及装置 Download PDF

Info

Publication number
CN111368337B
CN111368337B CN202010459358.6A CN202010459358A CN111368337B CN 111368337 B CN111368337 B CN 111368337B CN 202010459358 A CN202010459358 A CN 202010459358A CN 111368337 B CN111368337 B CN 111368337B
Authority
CN
China
Prior art keywords
sub
sample
cluster
generation
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010459358.6A
Other languages
English (en)
Other versions
CN111368337A (zh
Inventor
李龙飞
周俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010459358.6A priority Critical patent/CN111368337B/zh
Publication of CN111368337A publication Critical patent/CN111368337A/zh
Application granted granted Critical
Publication of CN111368337B publication Critical patent/CN111368337B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供一种保护隐私的样本生成模型构建、仿真样本生成方法及装置,在样本生成模型构建方法中,对真实样本集中多个真实样本进行聚类,确定N个类簇。对于N个类簇中任意的第一类簇,基于归属于第一类簇的各真实样本,训练对应于第一类簇的、具有差分隐私功能的子生成模型。基于N个类簇分别对应的N个子生成模型,形成样本生成模型。该样本生成模型用于基于原始样本生成对应的仿真样本。

Description

保护隐私的样本生成模型构建、仿真样本生成方法及装置
技术领域
本说明书一个或多个实施例涉及计算机技术领域,尤其涉及一种保护隐私的样本生成模型构建、仿真样本生成方法及装置。
背景技术
为实现数据的共享,机构经常会对外发布数据。比如,医疗机构会对外发布医疗数据,以便于第三方进行研究。再比如,电商平台会对外发布电商数据。还比如,金融机构会对外发布金融数据等。然而,由于这些待发布数据通常为各机构的隐私数据,因此,在保护机构数据隐私的情况下,对外发布数据就称为要解决的问题。
传统技术中,为了实现机构数据的隐私保护,一般会先基于待发布的真实数据(也称真实样本),训练对应的样本生成模型,然后对外发布这个样本生成模型。
发明内容
本说明书一个或多个实施例描述了一种保护隐私的样本生成模型构建、仿真样本生成方法及装置,可以实现真实样本的隐私保护。
第一方面,提供了一种保护隐私的样本生成模型构建方法,包括:
对真实样本集中多个真实样本进行聚类,确定N个类簇;
对于所述N个类簇中任意的第一类簇,基于归属于所述第一类簇的各真实样本,训练对应于所述第一类簇的、具有差分隐私功能的子生成模型;
基于所述N个类簇分别对应的N个子生成模型,形成样本生成模型;所述样本生成模型用于基于原始样本生成对应的仿真样本。
第二方面,提供了一种保护隐私的仿真样本生成方法,包括:
获取样本生成模型,所述样本生成模型包括对应于N个类簇的、具有差分隐私功能的N个子生成模型;
获取原始样本,并确定所述原始样本所属类簇;
根据所述原始样本所属类簇,从所述N个子生成模型中选取若干子生成模型;
将所述原始样本分别作为所述若干子生成模型的输入;
通过所述若干子生成模型的输出,得到所述原始样本的仿真样本。
第三方面,提供了一种保护隐私的样本生成模型构建装置,包括:
聚类单元,用于对真实样本集中多个真实样本进行聚类,确定N个类簇;
训练单元,用于对于所述聚类单元确定的所述N个类簇中任意的第一类簇,基于归属于所述第一类簇的各真实样本,训练对应于所述第一类簇的、具有差分隐私功能的子生成模型;
形成单元,用于基于所述训练单元训练的所述N个类簇分别对应的N个子生成模型,形成样本生成模型;所述样本生成模型用于基于原始样本生成对应的仿真样本。
第四方面,提供了一种保护隐私的仿真样本生成装置,包括:
获取单元,用于获取样本生成模型,所述样本生成模型包括对应于N个类簇的、具有差分隐私功能的N个子生成模型;
确定单元,用于获取原始样本,并确定所述原始样本所属类簇;
选取单元,用于根据所述原始样本所属类簇,从所述N个子生成模型中选取若干子生成模型;
输入单元,用于将所述原始样本分别作为所述选取单元选取的所述若干子生成模型的输入;
所述获取单元,还用于通过所述若干子生成模型的输出,得到所述原始样本的仿真样本。
第五方面,提供了一种计算机存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法或第二方面的方法。
第六方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法或第二方面的方法。
本说明书一个或多个实施例提供的保护隐私的样本生成模型构建、仿真样本生成方法及装置,对真实样本集中多个真实样本进行聚类,确定N个类簇。对于N个类簇中的每个类簇,基于归属于该类簇的各真实样本,训练对应的、具有差分隐私功能的子生成模型。基于N个类簇分别对应的N个子生成模型,形成样本生成模型。由此,可以提升每个类簇的子生成模型的精度。此外,由于N个子生成模型分别具有差分隐私功能,这提升了攻击者基于样本生成模型反推真实样本的难度,进而可以实现真实样本的隐私保护。
附图说明
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本说明书提供的保护隐私的样本生成模型构建方法示意图;
图2为本说明书一个实施例提供的保护隐私的样本生成模型构建方法流程图;
图3为本说明书一个实施例提供的保护隐私的仿真样本生成方法流程图;
图4为本说明书一个实施例提供的保护隐私的样本生成模型构建装置示意图;
图5为本说明书一个实施例提供的保护隐私的仿真样本生成装置示意图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
在描述本说明书提供的方案之前,先对本方案的发明构思进行说明。
在数据发布过程中,通常情况下,一般采用如下两种方法来实现机构数据的隐私保护。
第一种,K-匿名化( k-anonymization)。k-匿名化技术是1998 年由Samarati和Sweeney 提出的,其通过对数据的字段进行匿名化,来实现数据的脱敏处理。该技术要求发布的数据中存在一定数量(至少为k) 的、在准标识符上不可区分的记录,使攻击者不能判别出隐私信息与个体身份之间的对应关系,从而保护了个人隐私。k-匿名通过参数k指定用户可承受的最大信息泄露风险。然而,该种方法在数据维度较高的情况下,很容易被破解,进而还原出上述对应关系。
第二种,发布模型。具体地,基于真实样本集,训样本生成模型。之后发布该样本生成模型。然而,攻击者在获取到上述样本生成模型之后,通过多次查询,很容易就可以反推出真实样本。此外,使用者在基于样本生成模型生成使用样本时,通常无法判断所生成的使用样本的精度。
针对上述第二种方法,本申请的发明人提出如下两点改进思路:第一,对样本生成模型的构建方法进行改进,以实现真实样本的隐私保护。第二,基于构建的样本生成模型生成仿真样本,以用于引导使用样本的生成。
关于第一方面,其具体实现如下:对真实样本集中多个真实样本进行聚类,确定N个类簇。对于N个类簇中的每个类簇,基于归属于该类簇的各真实样本,训练对应的、具有差分隐私功能的子生成模型。基于N个类簇分别对应的N个子生成模型,形成样本生成模型。由于N个子生成模型分别具有差分隐私功能,这提升了攻击者基于样本生成模型反推真实样本的难度,进而可以实现真实样本的隐私保护。
关于第二方面,其具体实现如下:获取原始样本,并确定原始样本所属类簇。根据原始样本所属类簇,从N个子生成模型中选取若干子生成模型。将原始样本分别作为若干子生成模型的输入。通过若干子生成模型的输出,得到原始样本的仿真样本。由此,可以有效地对原始样本进行脱敏处理,从而可以实现原始样本的隐私保护。此外,在所生成的仿真样本与样本生成模型同时被发布时,仿真样本可用于引导使用样本的生成,进而可以确保所生成的使用样本的精度。
以上就是本说明书提供的发明构思,基于该发明构思就可以得到本方案,以下对本方案进行详细阐述。
图1为本说明书提供的保护隐私的样本生成模型构建方法示意图。如图1所示,首先,对真实样本集中多个真实样本进行聚类,确定N个类簇:类簇1-类簇N。其中N为正整数。对于N个类簇中类簇i,其中,1≤i≤N,基于归属于类簇i的各真实样本,训练对应于类簇i的、具有差分隐私功能的子生成模型,从而得到N个类簇分别对应的、具有差分隐私功能的N个子生成模型:模型1-模型N。基于N个子生成模型,可以形成样本生成模型。
此外,在构建得到上述样本生成模型之后,对于任意的原始样本,其对应的仿真样本的生成过程可以如下:确定该原始样本所属类簇。根据原始样本所属类簇,从N个子生成模型中选取若干子生成模型。将原始样本分别作为若干子生成模型的输入。通过若干子生成模型的输出,得到原始样本的仿真样本。
需要说明的是,图1中的原始样本可以为真实样本集中的真实样本,也可以为从预定分布(比如,标准正态分)中随机采样的噪声数据,本说明书对此不作限定。
图2本说明书一个实施例提供的保护隐私的样本生成模型构建方法流程图。所述方法的执行主体可以为具有处理能力的设备:服务器或者系统或者装置。如图2所示,所述方法具体可以包括:
步骤202,对真实样本集中多个真实样本进行聚类,确定N个类簇。
其中,N为正整数。
上述真实样本集中的真实样本可以包括以下任一种:电商数据、医疗数据以及金融数据等。以电商数据为例来说,其可以包括商品类别、商品名称、商品类目、商品详情以及商品品牌等。再以医疗数据为例来说,其可以包括患者名称、患者性别、患者年龄、患者症状以及患病时长等等。最后以金融数据为例来说,其可以包括产品名称、交易时间、交易地点以及支付金额等等。
上述步骤202具体可以包括:采用聚类算法,对真实样本集中多个真实样本进行聚类。这里的聚类算法可以包括但不限于以下任一种:kmeans算法、基于层次的聚类算法(如,BIRCH算法以及CURE算法等)、基于密度的聚类算法(如,DBSCAN算法以及OPTICS算法等)。
以上述真实样本为食品类别的电商数据(也即商品类别为食品)为例来说,在采用kmeans算法对其进行聚类时,该聚类过程可以包括:随机选择k个商品类目,并针对每个商品类目,计算归属于该商品类目的各条电商数据的均值。之后依次计算剩余每条电商数据到对应于K个商品类目的各均值的距离,把它划到距离最小的商品类目中;然后计算新的均值,进行迭代,直至均值未更新或到达最大次数。
步骤204,对于N个类簇中任意的第一类簇,基于归属于第一类簇的各真实样本,训练对应于第一类簇的、具有差分隐私功能的子生成模型。
上述子生成模型用于生成真实样本的模拟样本,其可以包括以下任一种:受限玻尔兹曼机(Restricted Boltzmann Machines,RMB)、变分自编码器(VariationalAutoencoder,VAE)以及生成式对抗网络(Generative Adversarial Networks ,GAN)等。
应理解,本说明书所述的具有差分隐私功能的子生成模型,是指其可以在实现真实样本的隐私保护的情况下,生成与真实样本具有最大仿真度的模拟样本。其具体可以通过如下两种方式得到:
第一种方式,针对归属于第一类簇的各真实样本分别添加高斯噪声。基于归属于第一类簇的、添加高斯噪声后的各真实样本,训练对应于第一类簇的、具有差分隐私功能的子生成模型。
在一个示例中,上述添加高斯噪声的步骤具体可以包括:统计归属于第一类簇的各真实样本的第一数目。将第一数目与类簇个数N的比值作为第一均值,并从第一均值和预定方差限定的高斯分布中,随机采样第一数目个噪声数据。将第一数目个噪声数据,分别添加到第一类簇的各真实样本中。
在另一个示例中,上述添加高斯噪声的步骤具体可以包括:从标准正态分布中随机采样上述第一数目个噪声数据。之后,将随机采样的第一数目个噪声数据,分别添加到第一类簇的各真实样本中。
在第一种方式中,子生成模型的训练过程与传统的训练过程类似,在此不复赘述。
需要说明的是,由于在第一种方式中,在用于训练子生成模型的真实样本中添加了高斯噪声,从而攻击者基于子生成模型,只能反推出带噪声的真实样本,由此实现了子生成模型的差分隐私功能。
第二种方式,针对模型训练过程中产出的中间结果添加高斯噪声。以中间结果为模型梯度为例来说,具体实现如下:
将初始的子生成模型作为当前子生成模型,之后迭代地执行以下步骤A-步骤C,直至达到迭代结束条件(如,迭代次数达到阈值次数或者模型准确率达到阈值等):
步骤A,将归属于第一类簇的各真实样本,输入对应于第一类簇的当前子生成模型。
步骤B,根据当前子生成模型的输出以及各真实样本,确定当前模型梯度。
具体地,可以先根据当前子生成模型的输出以及各真实样本,计算当前预测损失。之后,通过对当前预测损失求导,得到当前模型梯度。
在一个示例中,当前预测损失的计算公式可以如下:
Figure DEST_PATH_IMAGE001
(公式1)
其中,x为真实样本,x’ 真实样本对应的模拟样本(即子生成模型的输出)。
Figure 369015DEST_PATH_IMAGE002
表征真实样本与模拟样本之间的距离。需要说明的是,本说明书在基于上述公式1,训练对应于第一类簇的子生成模型时,也可以理解为,是学习归属于第一类簇的各真实样本的真实分布的过程。也即,在上述迭代步骤执行结束后,子生成模型输出的各模拟样本的分布与上述真实分布相接近。
此外,上述公式1仅为本说明书给出的确定当前预测损失的一种示例,在实际应用中,还可以在公式1中加入正则项等,本说明书对此不作限定。
步骤C,为当前模型梯度添加高斯噪声,并基于添加高斯噪声后的模型梯度,调整当前子生成模型的模型参数。
这里,为当前模型梯度添加高斯噪声与上述为各真实样本添加高斯噪声的步骤相类似,即可以为当前模型梯度,添加从第一均值和预定方差限定的高斯分布中随机采样的噪声数据。也可以为当前模型梯度,添加从标准正态分布中随机采样的噪声数据,本说明书对此不再赘述。
在上述迭代步骤结束后,将达到迭代结束条件时的当前子生成模型,作为对应于第一类簇的、具有差分隐私功能的子生成模型。至此,对应于第一类簇的子生成模型的训练过程结束。
需要说明的是,由于在第二种方式中,为每次迭代产生的模型梯度添加了高斯噪声,从而加大了攻击者基于训练的子生成模型,反推真实样本的难度,由此实现了子生成模型的差分隐私功能。
应理解,在实际应用中,也可以结合上述两种方式,来训练对应于第一类簇的、具有差分隐私功能的子生成模型。如,可以将上述步骤A和步骤B中的各真实样本替换为添加高斯噪声后的各真实样本,其具体实现步骤参照上述步骤A-步骤C,在此不复赘述。
还需要说明的是,以上是针对N个类簇中任意的第一类簇,其对应的子生成模型的训练过程的说明。类似地,可以得到N个类簇中各类簇分别对应的、具有差分隐私功能的子生成模型。
步骤206,基于N个类簇分别对应的N个子生成模型,形成样本生成模型,该样本生成模型用于基于原始样本生成对应的仿真样本。
这里的原始样本可以为上述真实样本集中的真实样本,也可以为从预定分布(比如,标准正态分)中随机采样的噪声数据。另外,这里的仿真样本基于样本生成模型中的至少一个子生成模型,针对原始样本生成的至少一个模拟样本确定。如,在生成的模拟样本的个数为多个时,可以对该多个模拟样本进行加权组合来得到仿真样本。具体确定过程后续说明。
还以上述食品类别的电商数据为例来说,假设该类别的电商数据所包括的商品类目分别为:“休闲食品”、“冲调茶饮”、“粮油干货”、“地方特产”、“饮品”以及“营养保健”等,那么在将上述每个商品类目分别作为一个类簇时,可以训练得到上述6个商品类目分别对应的6个子生成模型。该6个子生成模型形成的样本生成模型,可以用于生成食品类别的电商数据的仿真样本。
需要说明的是,上述N个子生成模型可以组合使用,也可以单独使用。后续详细介绍其使用过程。
综合以上,本方案先对真实样本集中多个真实样本进行聚类,之后针对每个类簇,训练对应的具有差分隐私功能的子生成模型,由此可以更细致地去学习每类真实样本(或添加噪声后的真实样本)的真实分布,进而可以使得训练得到的子生成模型更精确。此外,由于N个子生成模型分别具有差分隐私功能,这提升了攻击者基于样本生成模型反推真实样本的难度,进而可以实现真实样本的隐私保护。
以上是样本生成模型的构建过程的说明,以下对基于该样本生成模型生成原始样本对应的仿真样本的过程进行说明。
图3为本说明书一个实施例提供的保护隐私的仿真样本生成方法流程图。所述方法的执行主体可以为具有处理能力的设备:服务器或者系统或者装置。如图3所示,所述方法具体可以包括:
步骤302,获取样本生成模型。
该样本生成模型可以包括对应于N个类簇的、具有差分隐私功能的N个子生成模型。
步骤304,获取原始样本,并确定原始样本所属类簇。
这里的原始样本可以为上述真实样本集中的真实样本,也可以为从预定分布(比如,标准正态分)中随机采样的噪声数据。如果该原始样本为真实样本,则其所属类簇可以基于上述模型构建过程中的聚类结果确定。而如果该原始样本为噪声数据,则可以通过计算该噪声数据与N个类簇的类簇中心之间的距离,确定该原始样本所属类簇。
步骤306,根据原始样本所属类簇,从N个子生成模型中选取若干子生成模型。
在一个示例中,如果该原始样本为非敏感样本,那么可以从N个子生成模型中,选取对应类簇与原始样本所属类簇相匹配的第一子生成模型,作为若干子生成模型。这里是针对N个子生成模型可以分别使用的情况的说明。
在另一示例中,如果该原始样本为敏感样本,那么可以从N个子生成模型中,选取对应类簇与原始样本所属类簇相匹配的第一子生成模型,并随机选取除第一子生成模型外的其它子生成模型。将第一子生成模型和其它子生成模型作为若干子生成模型。这里是针对N个子生成模型可以组合使用的情况的说明。
步骤308,将原始样本分别作为若干子生成模型的输入。
步骤310,通过若干子生成模型的输出,得到原始样本的仿真样本。
应理解,在若干子生成模型只包括第一子生成模型时,由于通过上述先聚类再训练子生成模型的方式,可以大大提升对应于各类簇的子生成模型的精度。因此,在基于第一子生成模型生成原始样本的仿真样本时,可以大大提升所生成的仿真样本的精度。
此外,在若干子生成模型包括第一子生成模型和其它子生成模型时,可以将该若干子生成模型的输出进行加权组合,并基于组合结果得到原始样本的仿真样本。这里的加权组合可以包括但不限于加权求和或者加权平均等。此外,若干子生成模型中任一子生成模型的输出,即为该子生成模型针对原始样本生成的模拟样本。
在一个优选的例子中,为保证仿真模型的仿真度,在对若干子生成模型的输出进行加权组合时,第一子生成模型的输出对应的权重大于其它子生成模型的输出对应的权重。
应理解,在若干子生成模型的个数为多个时,本说明书的组合多个子生成模型的输出来生成仿真样本的方式,可以有效地对原始样本进行脱敏处理,从而可以实现原始样本的隐私保护。
综合以上,本说明书实施例提供的方案,可以从为真实样本添加高斯噪声、为模型训练过程中每次迭代产生的模型梯度添加噪声以及组合多个子生成模型的输出等多方面着手,对真实样本和/或原始样本进行脱敏处理,由此可以实现在对原始样本进行有效保护的情况下,生成接近原始样本的仿真样本。
最后要说明的是,在通过上述步骤302-步骤310,获取得到原始样本的仿真样本之后,可以通过以下方式进行数据发布:发布样本生成模型以及原始样本对应的仿真样本。在所生成的仿真样本与样本生成模型同时被发布时,仿真样本可用于引导使用样本的生成,进而可以确保所生成的使用样本的精度。
与上述保护隐私的样本生成模型构建方法对应地,本说明书一个实施例还提供的一种保护隐私的样本生成模型构建装置,如图4所示,该装置可以包括:
聚类单元402,用于对真实样本集中多个真实样本进行聚类,确定N个类簇。
这里的真实样本可以包括以下任一种:电商数据、金融数据以及医疗数据。
训练单元404,用于对于聚类单元402确定的N个类簇中任意的第一类簇,基于归属于第一类簇的各真实样本,训练对应于第一类簇的、具有差分隐私功能的子生成模型。
这里的子生成模型可以包括以下任一种:受限玻尔兹曼机RMB、变分自编码器VAE以及生成式对抗网络GAN。
训练单元404具体可以用于:
针对归属于第一类簇的各真实样本分别添加高斯噪声。
基于归属于第一类簇的、添加高斯噪声后的各真实样本,训练对应于第一类簇的、具有差分隐私功能的子生成模型。
训练单元404还具体用于:
统计归属于第一类簇的各真实样本的第一数目。
将第一数目与N的比值作为第一均值,并从第一均值和预定方差限定的高斯分布中,随机采样第一数目个噪声数据。
将第一数目个噪声数据,分别添加到第一类簇的各真实样本中。
训练单元404具体用于:
迭代地执行以下步骤,直至达到迭代结束条件:
将归属于第一类簇的各真实样本,输入对应于第一类簇的当前子生成模型。
根据当前子生成模型的输出以及各真实样本,确定当前模型梯度。
为当前模型梯度添加高斯噪声,并基于添加高斯噪声后的模型梯度,调整当前子生成模型的模型参数。
将达到迭代结束条件时的当前子生成模型,作为对应于第一类簇的、具有差分隐私功能的子生成模型。
形成单元406,用于基于训练单元404训练的N个类簇分别对应的N个子生成模型,形成样本生成模型。该样本生成模型用于基于原始样本生成对应的仿真样本。
本说明书上述实施例装置的各功能模块的功能,可以通过上述方法实施例的各步骤来实现,因此,本说明书一个实施例提供的装置的具体工作过程,在此不复赘述。
本说明书一个实施例提供的保护隐私的样本生成模型构建装置,可以实现真实样本的隐私保护。
与上述保护隐私的仿真样本生成方法对应地,本说明书一个实施例还提供的一种保护隐私的仿真样本生成装置,如图5所示,该装置可以包括:
获取单元502,用于获取样本生成模型,该样本生成模型包括对应于N个类簇的、具有差分隐私功能的N个子生成模型。
确定单元504,用于获取原始样本,并确定该原始样本所属类簇。
选取单元506,用于根据原始样本所属类簇,从N个子生成模型中选取若干子生成模型。
选取单元506具体用于:
从N个子生成模型中,选取对应类簇与原始样本所属类簇相匹配的第一子生成模型,作为若干子生成模型。
选取单元506还具体用于:
从N个子生成模型中,选取对应类簇与原始样本所属类簇相匹配的第一子生成模型,并随机选取除第一子生成模型外的其它子生成模型。将第一子生成模型和其它子生成模型作为若干子生成模型。
输入单元508,用于将原始样本分别作为选取单元506选取的若干子生成模型的输入。
获取单元502,还用于通过若干子生成模型的输出,得到原始样本的仿真样本。
获取单元502具体用于:
将若干子生成模型的输出进行加权组合,并基于组合结果得到原始样本的仿真样本。
这里的加权组合包括加权求和或者加权平均等。
可选地,在上述加权组合中,第一子生成模型的输出对应的权重大于其它子生成模型的输出对应的权重。
本说明书上述实施例装置的各功能模块的功能,可以通过上述方法实施例的各步骤来实现,因此,本说明书一个实施例提供的装置的具体工作过程,在此不复赘述。
本说明书一个实施例提供的保护隐私的仿真样本生成装置,可以实现在对原始样本进行有效保护的情况下,生成接近原始样本的仿真样本。
另一方面,本说明书的实施例提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行图2或图3所示的方法。
另一方面,本说明书的实施例提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现图2或图3所示的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
结合本说明书公开内容所描述的方法或者算法的步骤可以硬件的方式来实现,也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外,该ASIC可以位于服务器中。当然,处理器和存储介质也可以作为分立组件存在于服务器中。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述的具体实施方式,对本说明书的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本说明书的具体实施方式而已,并不用于限定本说明书的保护范围,凡在本说明书的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本说明书的保护范围之内。

Claims (22)

1.一种保护隐私的样本生成模型构建方法,包括:
对真实样本集中多个真实样本进行聚类,确定N个类簇;
对于所述N个类簇中任意的第一类簇,基于归属于所述第一类簇的各真实样本,训练对应于所述第一类簇的、具有差分隐私功能的子生成模型;
基于所述N个类簇分别对应的N个子生成模型,形成样本生成模型;所述样本生成模型用于基于原始样本生成对应的仿真样本;所述样本生成模型与所述N个子生成模型之间是包含关系;
所述基于归属于所述第一类簇的各真实样本,训练对应于所述第一类簇的、具有差分隐私功能的子生成模型,包括:
针对归属于所述第一类簇的各真实样本分别添加高斯噪声;
基于归属于所述第一类簇的、添加高斯噪声后的各真实样本,训练对应于所述第一类簇的、具有差分隐私功能的子生成模型;
所述针对归属于所述第一类簇的各真实样本分别添加高斯噪声,包括:
统计归属于所述第一类簇的各真实样本的第一数目;
将所述第一数目与所述N的比值作为第一均值,并从所述第一均值和预定方差限定的高斯分布中,随机采样所述第一数目个噪声数据;
将所述第一数目个噪声数据,分别添加到所述第一类簇的各真实样本中。
2.根据权利要求1所述的方法,所述基于归属于所述第一类簇的各真实样本,训练对应于所述第一类簇的、具有差分隐私功能的子生成模型,包括:
迭代地执行以下步骤,直至达到迭代结束条件:
将归属于所述第一类簇的各真实样本,输入对应于所述第一类簇的当前子生成模型;
根据所述当前子生成模型的输出以及所述各真实样本,确定当前模型梯度;
为当前模型梯度添加高斯噪声,并基于添加高斯噪声后的模型梯度,调整所述当前子生成模型的模型参数;
将达到迭代结束条件时的当前子生成模型,作为对应于所述第一类簇的、具有差分隐私功能的子生成模型。
3.根据权利要求1所述的方法,所述子生成模型包括以下任一种:受限玻尔兹曼机RMB、变分自编码器VAE以及生成式对抗网络GAN。
4.根据权利要求1所述的方法,所述真实样本包括以下任一种:电商数据、金融数据以及医疗数据。
5.一种保护隐私的仿真样本生成方法,包括:
获取根据权利要求1的方法构建的样本生成模型,所述样本生成模型包括对应于N个类簇的、具有差分隐私功能的N个子生成模型;
获取原始样本,并确定所述原始样本所属类簇;
根据所述原始样本所属类簇,从所述N个子生成模型中选取若干子生成模型;
将所述原始样本分别作为所述若干子生成模型的输入;
通过所述若干子生成模型的输出,得到所述原始样本的仿真样本。
6.根据权利要求5所述的方法,所述根据所述原始样本所属类簇,从所述N个子生成模型中选取若干子生成模型,包括:
从所述N个子生成模型中,选取对应类簇与所述原始样本所属类簇相匹配的第一子生成模型,作为所述若干子生成模型。
7.根据权利要求5所述的方法,所述根据所述原始样本所属类簇,从所述N个子生成模型中选取若干子生成模型,包括:
从所述N个子生成模型中,选取对应类簇与所述原始样本所属类簇相匹配的第一子生成模型,并随机选取除所述第一子生成模型外的其它子生成模型;将所述第一子生成模型和所述其它子生成模型作为所述若干子生成模型。
8.根据权利要求7所述的方法,所述通过所述若干子生成模型的输出,得到所述原始样本的仿真样本,包括:
将所述若干子生成模型的输出进行加权组合,并基于组合结果得到所述原始样本的仿真样本。
9.根据权利要求8所述的方法,所述加权组合包括加权求和或者加权平均。
10.根据权利要求8所述的方法,在所述加权组合中,所述第一子生成模型的输出对应的权重大于所述其它子生成模型的输出对应的权重。
11.一种保护隐私的样本生成模型构建装置,包括:
聚类单元,用于对真实样本集中多个真实样本进行聚类,确定N个类簇;
训练单元,用于对于所述聚类单元确定的所述N个类簇中任意的第一类簇,基于归属于所述第一类簇的各真实样本,训练对应于所述第一类簇的、具有差分隐私功能的子生成模型;
形成单元,用于基于所述训练单元训练的所述N个类簇分别对应的N个子生成模型,形成样本生成模型;所述样本生成模型用于基于原始样本生成对应的仿真样本;所述样本生成模型与所述N个子生成模型之间是包含关系;
所述训练单元具体用于:
针对归属于所述第一类簇的各真实样本分别添加高斯噪声;
基于归属于所述第一类簇的、添加高斯噪声后的各真实样本,训练对应于所述第一类簇的、具有差分隐私功能的子生成模型;
所述训练单元还具体用于:
统计归属于所述第一类簇的各真实样本的第一数目;
将所述第一数目与所述N的比值作为第一均值,并从所述第一均值和预定方差限定的高斯分布中,随机采样所述第一数目个噪声数据;
将所述第一数目个噪声数据,分别添加到所述第一类簇的各真实样本中。
12.根据权利要求11所述的装置,所述训练单元具体用于:
迭代地执行以下步骤,直至达到迭代结束条件:
将归属于所述第一类簇的各真实样本,输入对应于所述第一类簇的当前子生成模型;
根据所述当前子生成模型的输出以及所述各真实样本,确定当前模型梯度;
为当前模型梯度添加高斯噪声,并基于添加高斯噪声后的模型梯度,调整所述当前子生成模型的模型参数;
将达到迭代结束条件时的当前子生成模型,作为对应于所述第一类簇的、具有差分隐私功能的子生成模型。
13.根据权利要求11所述的装置,所述子生成模型包括以下任一种:受限玻尔兹曼机RMB、变分自编码器VAE以及生成式对抗网络GAN。
14.根据权利要求11所述的装置,所述真实样本包括以下任一种:电商数据、金融数据以及医疗数据。
15.一种保护隐私的仿真样本生成装置,包括:
获取单元,用于获取根据权利要求1的方法构建的样本生成模型,所述样本生成模型包括对应于N个类簇的、具有差分隐私功能的N个子生成模型;
确定单元,用于获取原始样本,并确定所述原始样本所属类簇;
选取单元,用于根据所述原始样本所属类簇,从所述N个子生成模型中选取若干子生成模型;
输入单元,用于将所述原始样本分别作为所述选取单元选取的所述若干子生成模型的输入;
所述获取单元,还用于通过所述若干子生成模型的输出,得到所述原始样本的仿真样本。
16.根据权利要求15所述的装置,所述选取单元具体用于:
从所述N个子生成模型中,选取对应类簇与所述原始样本所属类簇相匹配的第一子生成模型,作为所述若干子生成模型。
17.根据权利要求15所述的装置,所述选取单元具体用于:
从所述N个子生成模型中,选取对应类簇与所述原始样本所属类簇相匹配的第一子生成模型,并随机选取除所述第一子生成模型外的其它子生成模型;将所述第一子生成模型和所述其它子生成模型作为所述若干子生成模型。
18.根据权利要求17所述的装置,所述获取单元具体用于:
将所述若干子生成模型的输出进行加权组合,并基于组合结果得到所述原始样本的仿真样本。
19.根据权利要求18所述的装置,所述加权组合包括加权求和或者加权平均。
20.根据权利要求18所述的装置,在所述加权组合中,所述第一子生成模型的输出对应的权重大于所述其它子生成模型的输出对应的权重。
21.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-4中任一项所述的方法或权利要求5-10中任一项所述的方法。
22.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-4中任一项所述的方法或权利要求5-10中任一项所述的方法。
CN202010459358.6A 2020-05-27 2020-05-27 保护隐私的样本生成模型构建、仿真样本生成方法及装置 Active CN111368337B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010459358.6A CN111368337B (zh) 2020-05-27 2020-05-27 保护隐私的样本生成模型构建、仿真样本生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010459358.6A CN111368337B (zh) 2020-05-27 2020-05-27 保护隐私的样本生成模型构建、仿真样本生成方法及装置

Publications (2)

Publication Number Publication Date
CN111368337A CN111368337A (zh) 2020-07-03
CN111368337B true CN111368337B (zh) 2020-09-08

Family

ID=71209630

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010459358.6A Active CN111368337B (zh) 2020-05-27 2020-05-27 保护隐私的样本生成模型构建、仿真样本生成方法及装置

Country Status (1)

Country Link
CN (1) CN111368337B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112541574B (zh) * 2020-12-03 2022-05-17 支付宝(杭州)信息技术有限公司 保护隐私的业务预测方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239787A (zh) * 2016-03-29 2017-10-10 南京大学 一种利用多来源数据具有隐私保护功能的图象分类方法
CN110968887B (zh) * 2018-09-28 2022-04-05 第四范式(北京)技术有限公司 在数据隐私保护下执行机器学习的方法和系统
CN110084374A (zh) * 2019-04-24 2019-08-02 第四范式(北京)技术有限公司 构建基于pu学习的模型的方法、装置及预测方法、装置
CN113515770B (zh) * 2020-04-10 2024-06-18 支付宝(杭州)信息技术有限公司 基于隐私保护确定目标业务模型的方法及装置

Also Published As

Publication number Publication date
CN111368337A (zh) 2020-07-03

Similar Documents

Publication Publication Date Title
AU2022203061B2 (en) Updating attribute data structures to indicate joint relationships among attributes and predictive outputs for training automated modeling systems
Lall et al. The MIDAS touch: accurate and scalable missing-data imputation with deep learning
CN110032665A (zh) 确定关系网络图中图节点向量的方法及装置
CN113379042B (zh) 保护数据隐私的业务预测模型训练方法及装置
WO2017159403A1 (ja) 予測システム、方法およびプログラム
CN114611720B (zh) 联邦学习模型训练方法、电子设备及存储介质
CN113656699B (zh) 用户特征向量确定方法、相关设备及介质
Gondara et al. Recovering loss to followup information using denoising autoencoders
Gallagher et al. On Weighted Portmanteau Tests for Time‐Series Goodness‐Of‐Fit
CN114548300B (zh) 解释业务处理模型的业务处理结果的方法和装置
Martino et al. Multivariate hidden Markov models for disease progression
CN111368337B (zh) 保护隐私的样本生成模型构建、仿真样本生成方法及装置
Wang et al. Robust Client Selection Based Secure Collaborative Learning Algorithm for Pneumonia Detection
US11841863B1 (en) Generating relaxed synthetic data using adaptive projection
US20240028986A1 (en) Apparatus and method for generation an action validation protocol
US11704598B2 (en) Machine-learning techniques for evaluating suitability of candidate datasets for target applications
CA3097731A1 (en) System and method for deep learning recommender
CN113158088A (zh) 一种基于图神经网络的位置推荐方法
CN116720006B (zh) 一种基于有限用户敏感属性的公平推荐方法、设备及介质
CN113111254B (zh) 推荐模型的训练方法、拟合方法、装置和电子设备
Měkota Anomaly Detection Using Generative Adversarial Networks
Kaliyaperumal Privacy-Preserving Federated Analysis for Decentralized Health Data Analysis
CN117726431A (zh) 信用信息更新方法、装置、设备、存储介质和程序产品
Maraia Bayesian likelihoods for intractable data
Tuomaala The Bayesian Synthetic Control: A Probabilistic Framework for Counterfactual Estimation in the Social Sciences

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40032511

Country of ref document: HK