CN110135193A - 一种数据脱敏方法、装置、设备及计算机可读存储介质 - Google Patents
一种数据脱敏方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN110135193A CN110135193A CN201910402391.2A CN201910402391A CN110135193A CN 110135193 A CN110135193 A CN 110135193A CN 201910402391 A CN201910402391 A CN 201910402391A CN 110135193 A CN110135193 A CN 110135193A
- Authority
- CN
- China
- Prior art keywords
- sample
- desensitization
- privacy
- data
- preset standard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000586 desensitisation Methods 0.000 title claims abstract description 177
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 109
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 109
- 238000012549 training Methods 0.000 claims abstract description 39
- 230000006870 function Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 230000009286 beneficial effect Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012797 qualification Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种数据脱敏方法,包括对采集的待训练数据集进行训练,获得样本生成器,样本判别器以及隐私评分器;当接收到待脱敏样本时,通过所述样本生成器生成合成样本;通过所述样本判别器判断所述合成样本相对于所述待脱敏样本的真实度是否满足第一预设标准;通过所述隐私评分器判断所述合成样本相对于所述待脱敏样本的脱敏度是否满足第二预设标准;若所述真实度满足所述第一预设标准,且所述脱敏度满足所述第二预设标准,则将所述合成样本作为脱敏样本输出;该方法可在最大化数据脱敏程度,保证隐私信息不被泄露的同时,有效提高脱敏后数据的实用性;本申请还公开了一种数据脱敏装置、设备以及计算机可读存储介质,均具有上述有益效果。
Description
技术领域
本申请涉及大数据技术领域,特别涉及一种数据脱敏方法,还涉及一种数据脱敏装置、设备以及计算机可读存储介质。
背景技术
大数据的发展对社会宏观调控和经济科技的发展做出了巨大贡献,但是在开发和利用各种统计数据的过程中,隐私保护问题也越来越被人们重视。以政府每年的微观调查数据为例,这些统计数据在各方面都有很高的研究价值,但是却因为涉及了大量的个人隐私和商业机密等而难以在社会各行业间直接共享,埋没了这些珍贵数据本应具有的价值。
为解决上述问题,现有技术一般采用数据脱敏的方法实现数据中隐私信息的弱化,具体而言,可在数据集中添加噪声,以进行数据脱敏;或者直接删去数据集中的敏感部分,以实现数据脱敏。然而,不论以上哪种方法,虽然都能够较好的实现数据脱敏,但却由于噪声的添加或信息的删除导致数据集的实用性变差,从而导致脱敏后的数据集的适用领域受限,无法较好的应用于社会各行业的统计分析。此外,即使想要通过降低噪声添加或减少信息删除的方式来保证脱敏后数据的实用性,也会出现由于数据脱敏程度不够而导致隐私信息被泄露的情况。
因此,如何在最大化数据脱敏程度,保证隐私信息不被泄露的同时,有效提高脱敏后数据的实用性是本领域技术人员亟待解决的问题。
发明内容
本申请的目的是提供一种数据脱敏方法,该数据脱敏方法可在最大化数据脱敏程度,保证隐私信息不被泄露的同时,有效提高脱敏后数据的实用性;本申请的另一目的是提供一种数据脱敏装置、设备以及计算机可读存储介质,也具有上述有益效果。
为解决上述技术问题,本申请提供了一种数据脱敏方法,所述数据脱敏方法包括:
对采集的待训练数据集进行训练,获得样本生成器,样本判别器以及隐私评分器;
当接收到待脱敏样本时,通过所述样本生成器生成合成样本;
通过所述样本判别器判断所述合成样本相对于所述待脱敏样本的真实度是否满足第一预设标准;
通过所述隐私评分器判断所述合成样本相对于所述待脱敏样本的脱敏度是否满足第二预设标准;
若所述真实度满足所述第一预设标准,且所述脱敏度满足所述第二预设标准,则将所述合成样本作为脱敏样本输出。
优选的,所述对采集的待训练数据集进行训练,获得样本生成器,样本判别器以及隐私评分器,包括:
对所述待训练数据集中的各个样本进行特征划分,获得隐私特征和非隐私特征;
根据所述隐私特征构建隐私特征向量,根据所述非隐私特征构建非隐私特征向量;
按照预设规则对各所述样本的所述隐私特征向量和所述非隐私特征向量进行训练,获得所述样本生成器,所述样本判别器以及所述隐私评分器。
优选的,所述样本生成器和所述样本判别器由深度卷积生成对抗网络对各所述样本的所述隐私特征向量和所述非隐私特征向量进行训练获得。
优选的,所述隐私评分器由神经网络对各所述样本的所述隐私特征向量和所述非隐私特征向量进行训练获得。
优选的,所述通过所述样本判别器判断所述合成样本相对于所述待脱敏样本的真实度是否满足第一预设标准,包括:
计算所述合成样本与所述待脱敏样本的损失函数;
判断所述损失函数是否满足所述第一预设标准。
优选的,所述通过所述隐私评分器判断所述合成样本相对于所述待脱敏样本的脱敏度是否满足第二预设标准,包括:
获取所述合成样本的隐私特征和非隐私特征;
按照预设权重对所述隐私特征和所述非隐私特征进行计算,获得所述脱敏度;
判断所述脱敏度是否满足所述第二预设标准。
优选的,所述数据脱敏方法还包括:
若所述真实度不满足所述第一预设标准,且所述脱敏度不满足所述第二预设标准,则返回所述通过所述样本生成器生成合成样本的步骤;
若所述真实度满足所述第一预设标准,且所述脱敏度不满足所述第二预设标准,则返回所述通过所述样本生成器生成合成样本的步骤;
若所述真实度不满足所述第一预设标准,且所述脱敏度满足所述第二预设标准,则将所述合成样本发送至所述样本生成器重新进行训练。
为解决上述技术问题,本申请还提供了一种数据脱敏装置,所述数据脱敏装置包括:
数据集训练模块,用于对采集的待训练数据集进行训练,获得样本生成器,样本判别器以及隐私评分器;
合成样本生成模块,用于当接收到待脱敏样本时,通过所述样本生成器生成合成样本;
真实度判断模块,用于通过所述样本判别器判断所述合成样本相对于所述待脱敏样本的真实度是否满足第一预设标准;
脱敏度判断模块,用于通过所述隐私评分器判断所述合成样本相对于所述待脱敏样本的脱敏度是否满足第二预设标准;
脱敏样本输出模块,用于若所述真实度满足所述第一预设标准,且所述脱敏度满足所述第二预设标准,则将所述合成样本作为脱敏样本输出。
为解决上述技术问题,本申请还提供了一种数据脱敏设备,所述数据脱敏设备包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述任意一种数据脱敏方法的步骤。
为解决上述技术问题,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一种数据脱敏方法的步骤。
本申请所提供的一种数据脱敏方法,包括对采集的待训练数据集进行训练,获得样本生成器,样本判别器以及隐私评分器;当接收到待脱敏样本时,通过所述样本生成器生成合成样本;通过所述样本判别器判断所述合成样本相对于所述待脱敏样本的真实度是否满足第一预设标准;通过所述隐私评分器判断所述合成样本相对于所述待脱敏样本的脱敏度是否满足第二预设标准;若所述真实度满足所述第一预设标准,且所述脱敏度满足所述第二预设标准,则将所述合成样本作为脱敏样本输出。
可见,本申请所提供的数据脱敏方法,预先构建样本生成器、样本判别器以及隐私评分器,其中,样本生成器用于生成待脱敏样本对应的合成样本,样本判别器和隐私评分器分别用于对合成样本进行真实度和脱敏度计算,也就是说,本申请所提供的技术方案对待脱敏样本对应的合成样本进行了真实度和脱敏度两方面的限定,当合成样本的真实度和脱敏度均满足其对应的标准时,才将合成样本作为脱敏样本输出。其中,真实度的限定保证了输出的脱敏样本与原始待脱敏样本具备较高的相似度,有效保证了脱敏样本的实用性,进而保证了脱敏样本具备较为广泛的应用性;脱敏度的限定保证了输出的脱敏样本相较于原始待脱敏样本具备更高的匿名性,使待脱敏样本的脱敏程度达到最大化,有效避免了隐私信息的泄露。
本申请所提供的一种数据脱敏装置、设备以及计算机可读存储介质,均具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请所提供的一种数据脱敏方法的流程示意图;
图2为本申请所提供的另一种数据脱敏方法的流程示意图;
图3为本申请所提供的一种数据脱敏装置的结构示意图;
图4为本申请所提供的一种数据脱敏设备的结构示意图。
具体实施方式
本申请的核心是提供一种数据脱敏方法,该数据脱敏方法可在最大化数据脱敏程度,保证隐私信息不被泄露的同时,有效提高脱敏后数据的实用性;本申请的另一核心是提供一种数据脱敏装置、数据脱敏设备以及计算机可读存储介质,也具有上述有益效果。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
请参考图1,图1为本申请所提供的一种数据脱敏方法的流程示意图,该数据脱敏方法可以包括:
S101:对采集的待训练数据集进行训练,获得样本生成器,样本判别器以及隐私评分器;
本步骤旨在实现数据脱敏过程中各数据处理器的构建,包括样本生成器、样本判别器以及隐私评分器,其中,样本生成器主要用于生成尽可能真实的数据去欺骗样本判别器,样本判别器主用用于尽量将样本生成器生成的数据与真实数据区分开,隐私评分器主要用于避免样本生成器生成和真实数据中隐私信息相同的数据,这些数据处理器均可通过对样本数据进行训练获得。
具体而言,可先基于待脱敏数据的数据类型采集其对应的样本数据,即上述待训练数据集,进一步,通过对待训练数据集进行训练即可获得上述各数据处理器。当然,对于上述各数据处理器的构建方法,均可根据待训练数据集的数据类型进行选择,本申请对此不做限定。此外,本申请对于上述待训练数据集中样本的数量同样不做限定,可以想到的,样本数量越多,其对应构建的数据处理器的精度越高。
优选的,上述对采集的待训练数据集进行训练,获得样本生成器,样本判别器以及隐私评分器,可以包括:对待训练数据集中的各个样本进行特征划分,获得隐私特征和非隐私特征;根据隐私特征构建隐私特征向量,根据非隐私特征构建非隐私特征向量;按照预设规则对各样本的隐私特征向量和非隐私特征向量进行训练,获得样本生成器,样本判别器以及隐私评分器。
本申请提供了一种较为具体的数据处理器的构建过程,首先,可对待训练数据集中的各个样本进行特征划分,获得每个样本的隐私特征和非隐私特征,其中,可将每个样本中能够直接或间接推测出个体身份的特征归为隐私特征,其他的则归为非隐私特征,也就是说,隐私特征即为易于暴露个体身份的隐私信息,如姓名、家庭地址、身份证号等,非隐私特征即为不易暴露个体身份的非敏感性信息,如学历、工资、职业等,对于该特征划分过程,可基于信息提取的方式实现;进一步,进行特征向量的构建,即基于隐私特征构建隐私特征向量,基于非隐私特征构建非隐私特征向量,由此,即可通过对各个特征向量进行训练,获得相应的数据处理器。当然,对于不同的数据处理器,通过不同的训练规则,即上述预设规则进行特征向量的训练即可。
优选的,上述样本生成器和样本判别器由深度卷积生成对抗网络对各样本的隐私特征向量和非隐私特征向量进行训练获得。
优选的,上述隐私评分器由神经网络对各样本的隐私特征向量和非隐私特征向量进行训练获得。
本申请为各个数据处理器提供了较为具体的训练规则,即通过深度卷积生成对抗网络进行样本生成器和样本判别器的构建,通过神经网络进行隐私判别器的构建。对于其具体的构建过程,参照已有技术即可,本申请在此不再赘述。
需要说明的是,上述S101为各个数据处理器的构建过程,后述S102~S105为数据脱敏过程,因此,在数据脱敏过程中,对于属于同一数据类型的待脱敏样本,其对应的数据处理器只需构建一次,当需要基于这些数据处理器进行同类型待脱敏样本的数据脱敏时,直接调用即可。因此,在完成上述各数据处理器的构建后,可将其存储至相应的存储介质中,以便后续调用。
S102:当接收到待脱敏样本时,通过样本生成器生成合成样本;
本步骤旨在实现合成样本的生成,该合成样本即为与待脱敏样本具有一定相似度的样本。具体而言,当接收到待脱敏样本时,即可通过待脱敏样本对应的样本生成器生成该合成样本,由于样本生成器是通过对与待脱敏样本数据类型相同的数据集进行训练获得的,因此,通过其生成的合成样本可以达到以假乱真的效果,即合成样本与待脱敏样本相似度较高。其中,样本生成器的输入为随机噪点,可基于该随机噪点生成待脱敏样本对应的合成样本。
S103:通过样本判别器判断合成样本相对于待脱敏样本的真实度是否满足第一预设标准;
本步骤旨在实现对合成样本真实度的判定,该真实度即为合成样本与待脱敏样本之间的相似度,基于预设的样本判别器实现。具体而言,先将合成样本与待脱敏样本一同输入至样本判别器,对合成样本相对于待脱敏样本的真实度进行计算,再判断该真实度是否满足其预设的标准值,即上述第一预设标准,若满足该第一预设标准,则说明合成样本与待脱敏样本之间的相似度较高,可以达到以假乱真的效果;若不满足该第一预设标准,则说明合成样本与待脱敏样本之间相似度较低,无法达到以假乱真的效果,需要对合成样本重新生成。
其中,对于上述第一预设标准的具体取值,可由技术人员根据实际需求进行设定,如100%真实度或95%真实度等,本申请对此不做具体限定。
优选的,上述通过样本判别器判断合成样本相对于待脱敏样本的真实度是否满足第一预设标准,包括:计算合成样本与待脱敏样本的损失函数;判断损失函数是否满足第一预设标准。
本申请对合成样本的真实度判定提供了一种较为具体的实现方法,即基于损失函数实现。具体而言,可对合成样本与待脱敏样本之间的损失函数进行计算,当损失函数取最低值时,合成样本与待脱敏样本之间的相似度最高。此外,由于大多数脱敏数据都被用于宏观层面的数据分析,因此,除了要求合成样本与待脱敏样本之间的差别尽可能小之外,还可进一步要求合成样本与待脱敏样本之间具有较为相似的统计学特征,如相同的均值、方差、偏度、峰度等。
S104:通过隐私评分器判断合成样本相对于待脱敏样本的脱敏度是否满足第二预设标准;
本步骤旨在实现对合成样本脱敏度的判定,该脱敏度即为合成样本相对于待脱敏样本的脱敏程度,基于预设的隐私评分器实现。具体而言,先将合成样本与待脱敏样本一同输入至隐私评分器,对合成样本相对于待脱敏样本的脱敏度进行计算,再判断该脱敏度是否满足其预设的标准值,即上述第二预设标准,若满足该第二预设标准,则说明合成样本相对于待脱敏样本的脱敏程度较高,其中不再包含与待脱敏样本隐私特征相同的数据信息;若不满足该第二预设标准,则说明合成样本相对于待脱敏样本的脱敏程度不达标准,其中仍然包含与待脱敏样本隐私特征相同的数据信息,此时也需要对合成样本重新生成。
同样的,对于上述第二预设标准的具体取值,可由技术人员根据实际需求进行设定,如100%脱敏度或90%脱敏度等,本申请对此不做具体限定。
优选的,上述通过隐私评分器判断合成样本相对于待脱敏样本的脱敏度是否满足第二预设标准,包括:获取合成样本的隐私特征和非隐私特征;按照预设权重对隐私特征和非隐私特征进行计算,获得脱敏度;判断脱敏度是否满足第二预设标准。
本申请对合成样本的脱敏度判定提供了一种较为具体的实现方法,即基于权重计算实现。具体而言,由于隐私评分器旨在避免样本生成器生成和真实数据中隐私信息相同的数据,可分别对样本中的隐私特征和非隐私特征设定相应的权重,并进行权重计算,获得合成样本的脱敏度,从而实现合成样本的脱敏度判定。
需要说明的是,由于上述S103和S104分别是对合成样本的真实度和脱敏度进行判定,但二者之间互不影响,因此,二者的执行顺序并不影响本技术方案的实施,可同时执行,也可分步骤先后执行,本申请图1仅用于体现一种具体的实现方式,并不唯一。
S105:若真实度满足第一预设标准,且脱敏度满足第二预设标准,则将合成样本作为脱敏样本输出。
本步骤旨在实现脱敏样本的输出,具体的,只有当合成样本的真实度和脱敏度均达到其相应的预设标准时,才说明合成样本既与待脱敏样本足够相似,具备较高的实用性,又避免了与待脱敏样本具有相同的隐私特征,保证隐私信息不被泄露,此时,将该合成样本作为合格的脱敏样本输出即可,该脱敏样本即为待脱敏样本脱敏后的样本数据。
需要说明的是,由于待训练数据集与待脱敏样本均为未进行脱敏的数据,因此,二者可以为相同的数据,即需要进行脱敏的数据既可以作为待训练数据集进行数据处理器的构建,又可以作为待脱敏样本进行数据脱敏,以有效保证脱敏样本的合格;当然,待训练数据集与待脱敏数据也可以为同种数据类型的数据。
本申请所提供的数据脱敏方法,预先构建样本生成器、样本判别器以及隐私评分器,其中,样本生成器用于生成待脱敏样本对应的合成样本,样本判别器和隐私评分器分别用于对合成样本进行真实度和脱敏度计算,也就是说,本申请所提供的技术方案对待脱敏样本对应的合成样本进行了真实度和脱敏度两方面的限定,当合成样本的真实度和脱敏度均满足其对应的标准时,才将合成样本作为脱敏样本输出。其中,真实度的限定保证了输出的脱敏样本与原始待脱敏样本具备较高的相似度,有效保证了脱敏样本的实用性,进而保证了脱敏样本具备较为广泛的应用性;脱敏度的限定保证了输出的脱敏样本相较于原始待脱敏样本具备更高的匿名性,使待脱敏样本的脱敏程度达到最大化,有效避免了隐私信息的泄露。
在上述各实施例的基础上,请参考图2,图2为本申请所提供的另一种数据脱敏方法的流程示意图,该数据脱敏方法可以包括:
S201:对采集的待训练数据集进行训练,获得样本生成器,样本判别器以及隐私评分器;
S202:接收待脱敏样本;
S203:通过样本生成器生成合成样本;
S204:通过样本判别器判断合成样本相对于待脱敏样本的真实度是否满足第一预设标准;若否,则执行S205,若否,则执行S206;
S205:将合成样本发送至样本生成器进行训练,返回S204;
S206:通过隐私评分器判断合成样本相对于待脱敏样本的脱敏度是否满足第二预设标准;若否,则返回S203,若是,则执行S207;
S207:将合成样本作为脱敏样本输出。
对于合成样本的真实度和脱敏度不满足对应标准的情况,本实施例给出了更为具体的处理方式。具体的,对于样本判别器而言,如若合成样本的真实度未达到其对应的预设标准,则可将其反馈至样本合成器进行再训练,以生成与待脱敏样本足够高相似度的合成样本。对于隐私评分器而言,如若合成样本的脱敏度未达到其对应的预设标准,则直接将该合成样本丢弃,重新通过样本生成器生成新的合成样本进行再判断即可,以获得脱敏程度足够高的合成样本。
关于其他步骤的具体实施过程可参照前述实施例的内容,在此不再进行赘述。
在上述各个实施例的基础上,以“政府微观调查数据”中的中国家庭收入项目调查数据(CHIP)为例,本申请提供了更为具体的数据脱敏方法。
步骤1、对政府微观调查数据(即作为待训练数据集,又作为待脱敏样本)进行预处理,将数据的全部特征分为隐私度较高的部分和隐私度较低的部分,并分别构建特征向量,具体的,将数据中的“家庭成员名、家庭地址”等能推断出个体身份的变量构建成隐私特征向量,将“成员与户主关系,受教育程度、职业、工资、家庭总收入、家庭消费、家庭财产”等构建成非隐私特征向量。
步骤2、使用深度卷积生成对抗网络,分别构建样本生成器和样本判别器,以提高样本的质量和收敛的速度。其中,样本生成器的输入是随机噪点;样本判别器的输入是样本生成器输出的合成样本和真实的数据样本(待脱敏样本),优化目标是让损失函数达到最小。如果合成样本与待脱敏样本的相似度达到预设要求,则输出True,否则输出False,且将合成样本反馈至样本生成器重新进行训练。
步骤3、使用神经网络构建一个二分类器,作为隐私评分器,隐私评分器的输入是样本生成器输出的合成样本和真实的数据样本。对于样本生成器生成的合成样本,若与某真实样本的隐私特征完全相同,则表示生成了一个和该真实样本具有相同隐私特征的数据,此时隐私评分器输出False,以表示合成样本的脱敏程度不够,并通过样本生成器生成新的合成样本,否则返回True以表示合成样本的脱敏程度足够;特别的,由于隐私数据中的姓名、身份证号等能够直接确定个体身份,因此,可在隐私评分器的神经网络中为该部分隐私特征设置较大的权值,一旦样本生成器生成了和这部分隐私特征相同的合成样本,隐私评分器同样返回False。
步骤4、通过样本生成器不断生成合成样本,只有当样本判别器和隐私评分器都输出True时,方可表明该合成样本和真实样本非常相似,且隐私特征不会泄露隐私信息。
步骤5、将上述合格的合成样本输出,可实现数据共享,或作为各种机器学习模型的训练集等。
本申请实施例所提供的数据脱敏方法,预先构建样本生成器、样本判别器以及隐私评分器,其中,样本生成器用于生成待脱敏样本对应的合成样本,样本判别器和隐私评分器分别用于对合成样本进行真实度和脱敏度计算,也就是说,本申请所提供的技术方案对待脱敏样本对应的合成样本进行了真实度和脱敏度两方面的限定,当合成样本的真实度和脱敏度均满足其对应的标准时,才将合成样本作为脱敏样本输出。其中,真实度的限定保证了输出的脱敏样本与原始待脱敏样本具备较高的相似度,有效保证了脱敏样本的实用性,进而保证了脱敏样本具备较为广泛的应用性;脱敏度的限定保证了输出的脱敏样本相较于原始待脱敏样本具备更高的匿名性,使待脱敏样本的脱敏程度达到最大化,有效避免了隐私信息的泄露。
为解决上述问题,请参考图3,图3为本申请所提供的一种数据脱敏装置的结构示意图,该数据脱敏装置可包括:
数据集训练模块10,用于对采集的待训练数据集进行训练,获得样本生成器,样本判别器以及隐私评分器;
合成样本生成模块20,用于当接收到待脱敏样本时,通过样本生成器生成合成样本;
真实度判断模块30,用于通过样本判别器判断合成样本相对于待脱敏样本的真实度是否满足第一预设标准;
脱敏度判断模块40,用于通过隐私评分器判断合成样本相对于待脱敏样本的脱敏度是否满足第二预设标准;
脱敏样本输出模块50,用于若真实度满足第一预设标准,且脱敏度满足第二预设标准,则将合成样本作为脱敏样本输出。
作为一种优选实施例,上述数据集训练模块10可包括:
特征划分单元,用于对待训练数据集中的各个样本进行特征划分,获得隐私特征和非隐私特征;
特征向量构建单元,用于根据隐私特征构建隐私特征向量,根据非隐私特征构建非隐私特征向量;
数据集训练单元,用于按照预设规则对各样本的隐私特征向量和非隐私特征向量进行训练,获得样本生成器,样本判别器以及隐私评分器。
作为一种优选实施例,上述真实度判断模块30可具体用于计算合成样本与待脱敏样本的损失函数;判断损失函数是否满足第一预设标准。
作为一种优选实施例,上述脱敏度判断模块40可具体用于获取合成样本的隐私特征和非隐私特征;按照预设权重对隐私特征和非隐私特征进行计算,获得脱敏度;判断脱敏度是否满足第二预设标准。
作为一种优选实施例,该数据脱敏装置还可以包括循环处理模块,用于若真实度不满足第一预设标准,且脱敏度不满足第二预设标准,则返回通过样本生成器生成合成样本的步骤;若真实度满足第一预设标准,且脱敏度不满足第二预设标准,则返回通过样本生成器生成合成样本的步骤;若真实度不满足第一预设标准,且脱敏度满足第二预设标准,则将合成样本发送至样本生成器重新进行训练。
对于本申请提供的装置的介绍请参照上述方法实施例,本申请在此不做赘述。
为解决上述问题,请参考图4,图4为本申请所提供的一种数据脱敏设备的结构示意图,该数据脱敏设备可包括:
存储器1,用于存储计算机程序;
处理器2,用于执行计算机程序时实现如下步骤:
对采集的待训练数据集进行训练,获得样本生成器,样本判别器以及隐私评分器;当接收到待脱敏样本时,通过样本生成器生成合成样本;通过样本判别器判断合成样本相对于待脱敏样本的真实度是否满足第一预设标准;通过隐私评分器判断合成样本相对于待脱敏样本的脱敏度是否满足第二预设标准;若真实度满足第一预设标准,且脱敏度满足第二预设标准,则将合成样本作为脱敏样本输出。
对于本申请提供的设备的介绍请参照上述方法实施例,本申请在此不做赘述。
为解决上述问题,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现如下骤:
对采集的待训练数据集进行训练,获得样本生成器,样本判别器以及隐私评分器;当接收到待脱敏样本时,通过样本生成器生成合成样本;通过样本判别器判断合成样本相对于待脱敏样本的真实度是否满足第一预设标准;通过隐私评分器判断合成样本相对于待脱敏样本的脱敏度是否满足第二预设标准;若真实度满足第一预设标准,且脱敏度满足第二预设标准,则将合成样本作为脱敏样本输出。
该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
对于本申请提供的计算机可读存储介质的介绍请参照上述方法实施例,本申请在此不做赘述。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的数据脱敏方法、装置、设备以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围要素。
Claims (10)
1.一种数据脱敏方法,其特征在于,包括:
对采集的待训练数据集进行训练,获得样本生成器,样本判别器以及隐私评分器;
当接收到待脱敏样本时,通过所述样本生成器生成合成样本;
通过所述样本判别器判断所述合成样本相对于所述待脱敏样本的真实度是否满足第一预设标准;
通过所述隐私评分器判断所述合成样本相对于所述待脱敏样本的脱敏度是否满足第二预设标准;
若所述真实度满足所述第一预设标准,且所述脱敏度满足所述第二预设标准,则将所述合成样本作为脱敏样本输出。
2.如权利要求1所述的数据脱敏方法,其特征在于,所述对采集的待训练数据集进行训练,获得样本生成器,样本判别器以及隐私评分器,包括:
对所述待训练数据集中的各个样本进行特征划分,获得隐私特征和非隐私特征;
根据所述隐私特征构建隐私特征向量,根据所述非隐私特征构建非隐私特征向量;
按照预设规则对各所述样本的所述隐私特征向量和所述非隐私特征向量进行训练,获得所述样本生成器,所述样本判别器以及所述隐私评分器。
3.如权利要求2所述的数据脱敏方法,其特征在于,所述样本生成器和所述样本判别器由深度卷积生成对抗网络对各所述样本的所述隐私特征向量和所述非隐私特征向量进行训练获得。
4.如权利要求2所述的数据脱敏方法,其特征在于,所述隐私评分器由神经网络对各所述样本的所述隐私特征向量和所述非隐私特征向量进行训练获得。
5.如权利要求1所述的数据脱敏方法,其特征在于,所述通过所述样本判别器判断所述合成样本相对于所述待脱敏样本的真实度是否满足第一预设标准,包括:
计算所述合成样本与所述待脱敏样本的损失函数;
判断所述损失函数是否满足所述第一预设标准。
6.如权利要求1所述的数据脱敏方法,其特征在于,所述通过所述隐私评分器判断所述合成样本相对于所述待脱敏样本的脱敏度是否满足第二预设标准,包括:
获取所述合成样本的隐私特征和非隐私特征;
按照预设权重对所述隐私特征和所述非隐私特征进行计算,获得所述脱敏度;
判断所述脱敏度是否满足所述第二预设标准。
7.如权利要求1至6任意一项所述的数据脱敏方法,其特征在于,还包括:
若所述真实度不满足所述第一预设标准,且所述脱敏度不满足所述第二预设标准,则返回所述通过所述样本生成器生成合成样本的步骤;
若所述真实度满足所述第一预设标准,且所述脱敏度不满足所述第二预设标准,则返回所述通过所述样本生成器生成合成样本的步骤;
若所述真实度不满足所述第一预设标准,且所述脱敏度满足所述第二预设标准,则将所述合成样本发送至所述样本生成器重新进行训练。
8.一种数据脱敏装置,其特征在于,包括:
数据集训练模块,用于对采集的待训练数据集进行训练,获得样本生成器,样本判别器以及隐私评分器;
合成样本生成模块,用于当接收到待脱敏样本时,通过所述样本生成器生成合成样本;
真实度判断模块,用于通过所述样本判别器判断所述合成样本相对于所述待脱敏样本的真实度是否满足第一预设标准;
脱敏度判断模块,用于通过所述隐私评分器判断所述合成样本相对于所述待脱敏样本的脱敏度是否满足第二预设标准;
脱敏样本输出模块,用于若所述真实度满足所述第一预设标准,且所述脱敏度满足所述第二预设标准,则将所述合成样本作为脱敏样本输出。
9.一种数据脱敏设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任意一项所述的数据脱敏方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任意一项所述的数据脱敏方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910402391.2A CN110135193A (zh) | 2019-05-15 | 2019-05-15 | 一种数据脱敏方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910402391.2A CN110135193A (zh) | 2019-05-15 | 2019-05-15 | 一种数据脱敏方法、装置、设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110135193A true CN110135193A (zh) | 2019-08-16 |
Family
ID=67574118
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910402391.2A Pending CN110135193A (zh) | 2019-05-15 | 2019-05-15 | 一种数据脱敏方法、装置、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110135193A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110807207A (zh) * | 2019-10-30 | 2020-02-18 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN111062492A (zh) * | 2019-12-20 | 2020-04-24 | 支付宝(杭州)信息技术有限公司 | 一种基于可选隐私数据进行模型训练的方法及系统 |
CN111984987A (zh) * | 2020-09-01 | 2020-11-24 | 上海梅斯医药科技有限公司 | 一种用于电子病历脱敏及还原的方法、装置、系统和介质 |
CN112200132A (zh) * | 2020-10-28 | 2021-01-08 | 支付宝(杭州)信息技术有限公司 | 一种基于隐私保护的数据处理方法、装置及设备 |
CN112528318A (zh) * | 2020-11-27 | 2021-03-19 | 国家电网有限公司大数据中心 | 一种图像脱敏的方法、装置及电子设备 |
CN113051902A (zh) * | 2021-03-30 | 2021-06-29 | 上海思必驰信息科技有限公司 | 语音数据脱敏方法、电子设备及计算机可读存储介质 |
CN113886885A (zh) * | 2021-10-21 | 2022-01-04 | 平安科技(深圳)有限公司 | 数据脱敏方法、数据脱敏装置、设备及存储介质 |
CN114662138A (zh) * | 2020-12-23 | 2022-06-24 | 中国科学院沈阳自动化研究所 | 一种工业过程数据脱敏方法 |
WO2023071563A1 (zh) * | 2021-11-01 | 2023-05-04 | 北京地平线信息技术有限公司 | 脱敏方法的可靠性验证的方法、装置、介质、设备和程序 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107368752A (zh) * | 2017-07-25 | 2017-11-21 | 北京工商大学 | 一种基于生成式对抗网络的深度差分隐私保护方法 |
CN107480549A (zh) * | 2017-06-28 | 2017-12-15 | 银江股份有限公司 | 一种面向数据共享的敏感信息脱敏方法及系统 |
CN107886009A (zh) * | 2017-11-20 | 2018-04-06 | 北京大学 | 防隐私泄露的大数据生成方法和系统 |
CN109656878A (zh) * | 2018-12-12 | 2019-04-19 | 中电健康云科技有限公司 | 健康档案数据生成方法及装置 |
-
2019
- 2019-05-15 CN CN201910402391.2A patent/CN110135193A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107480549A (zh) * | 2017-06-28 | 2017-12-15 | 银江股份有限公司 | 一种面向数据共享的敏感信息脱敏方法及系统 |
CN107368752A (zh) * | 2017-07-25 | 2017-11-21 | 北京工商大学 | 一种基于生成式对抗网络的深度差分隐私保护方法 |
CN107886009A (zh) * | 2017-11-20 | 2018-04-06 | 北京大学 | 防隐私泄露的大数据生成方法和系统 |
CN109656878A (zh) * | 2018-12-12 | 2019-04-19 | 中电健康云科技有限公司 | 健康档案数据生成方法及装置 |
Non-Patent Citations (2)
Title |
---|
HITAJ B等: "Deep models under the GAN:Iformation leakage form collaborative deep learning", 《PROC OF THE 2017 ACM SIGSAC CONFERENCE ON COMPUTER AND COMMUNICATIONS SECURITY》 * |
毛典辉等: "基于DCGAN反馈的深度差分隐私保护方法", 《北京工业大学学报》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110807207A (zh) * | 2019-10-30 | 2020-02-18 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN111062492A (zh) * | 2019-12-20 | 2020-04-24 | 支付宝(杭州)信息技术有限公司 | 一种基于可选隐私数据进行模型训练的方法及系统 |
CN111062492B (zh) * | 2019-12-20 | 2022-05-17 | 支付宝(杭州)信息技术有限公司 | 一种基于可选隐私数据进行模型训练的方法及系统 |
CN111984987A (zh) * | 2020-09-01 | 2020-11-24 | 上海梅斯医药科技有限公司 | 一种用于电子病历脱敏及还原的方法、装置、系统和介质 |
CN111984987B (zh) * | 2020-09-01 | 2024-04-02 | 上海梅斯医药科技有限公司 | 一种用于电子病历脱敏及还原的方法、装置、系统和介质 |
CN112200132A (zh) * | 2020-10-28 | 2021-01-08 | 支付宝(杭州)信息技术有限公司 | 一种基于隐私保护的数据处理方法、装置及设备 |
CN112528318A (zh) * | 2020-11-27 | 2021-03-19 | 国家电网有限公司大数据中心 | 一种图像脱敏的方法、装置及电子设备 |
CN114662138A (zh) * | 2020-12-23 | 2022-06-24 | 中国科学院沈阳自动化研究所 | 一种工业过程数据脱敏方法 |
CN114662138B (zh) * | 2020-12-23 | 2024-06-11 | 中国科学院沈阳自动化研究所 | 一种工业过程数据脱敏方法 |
CN113051902A (zh) * | 2021-03-30 | 2021-06-29 | 上海思必驰信息科技有限公司 | 语音数据脱敏方法、电子设备及计算机可读存储介质 |
CN113886885A (zh) * | 2021-10-21 | 2022-01-04 | 平安科技(深圳)有限公司 | 数据脱敏方法、数据脱敏装置、设备及存储介质 |
WO2023071563A1 (zh) * | 2021-11-01 | 2023-05-04 | 北京地平线信息技术有限公司 | 脱敏方法的可靠性验证的方法、装置、介质、设备和程序 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110135193A (zh) | 一种数据脱敏方法、装置、设备及计算机可读存储介质 | |
CN107368752B (zh) | 一种基于生成式对抗网络的深度差分隐私保护方法 | |
Clavel et al. | Accelerated body size evolution during cold climatic periods in the Cenozoic | |
CN105574098B (zh) | 知识图谱的生成方法及装置、实体对比方法及装置 | |
CN109299811B (zh) | 一种基于复杂网络的欺诈团伙识别和风险传播预测的方法 | |
Srivastava et al. | Design choices for x-vector based speaker anonymization | |
Smith-Cannoy | Insincere commitments: Human rights treaties, abusive states, and citizen activism | |
CN109165683A (zh) | 基于联邦训练的样本预测方法、装置及存储介质 | |
Long et al. | Is urbanization eco-friendly? An energy and land use cross-country analysis | |
CN110276369B (zh) | 基于机器学习的特征选择方法、装置、设备及存储介质 | |
CN108055258A (zh) | 一种身份数据管理方法、系统和计算机可读存储介质 | |
CN103646074B (zh) | 一种确定图片簇描述文本核心词的方法及装置 | |
CN106803039B (zh) | 一种恶意文件的同源判定方法及装置 | |
Wu et al. | Mean reversion of interest rates in the Eurocurrency market | |
CN107563798A (zh) | 中奖数据处理方法及装置 | |
CN111104517A (zh) | 一种基于两个三元组的中文问题生成方法 | |
Cento Bull | Lega Nord: A case of simulative politics? | |
Wild | Java 7's dual pivot quicksort | |
Kong et al. | Data redaction from conditional generative models | |
TeBlunthuis et al. | Density dependence without resource partitioning: Population ecology on Change. org | |
CN104980435B (zh) | 一种身份认证系统及方法 | |
CN116151965B (zh) | 一种风险特征提取方法、装置、电子设备及存储介质 | |
CN110874609B (zh) | 基于用户行为的用户聚类方法、存储介质、设备及系统 | |
CN111858863B (zh) | 一种答复推荐方法、答复推荐装置及电子设备 | |
Dowdle | Constitutional listening |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190816 |
|
RJ01 | Rejection of invention patent application after publication |