CN113704816A - 一种数据脱敏的方法、装置及存储介质 - Google Patents
一种数据脱敏的方法、装置及存储介质 Download PDFInfo
- Publication number
- CN113704816A CN113704816A CN202110894923.6A CN202110894923A CN113704816A CN 113704816 A CN113704816 A CN 113704816A CN 202110894923 A CN202110894923 A CN 202110894923A CN 113704816 A CN113704816 A CN 113704816A
- Authority
- CN
- China
- Prior art keywords
- data
- desensitization
- desensitized
- attribute
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000586 desensitisation Methods 0.000 title claims abstract description 216
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000005516 engineering process Methods 0.000 claims abstract description 27
- 238000004364 calculation method Methods 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 18
- 238000004458 analytical method Methods 0.000 claims description 17
- 239000000284 extract Substances 0.000 claims description 3
- 239000013598 vector Substances 0.000 description 11
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 7
- 201000010099 disease Diseases 0.000 description 6
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 208000019622 heart disease Diseases 0.000 description 2
- 208000031940 Disease Attributes Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
- G06F21/6254—Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Bioethics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Computer Security & Cryptography (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种数据脱敏的方法、装置及存储介质,用以解决现有脱敏技术使用场景片面,效率低的问题。该方法包括:根据待脱敏数据的属性,将所述待脱敏数据划分为包括N个数据集的一级特征数据集;根据接收到的脱敏指令确定所述待脱敏数据脱敏后的使用场景;基于所述使用场景,从所述一级特征数据集中提取二级特征数据集,并确定待脱敏数据的脱敏方式;利用所述脱敏方式对所述二级特征数据集进行脱敏,得到脱敏数据。
Description
技术领域
本申请涉及数据处理领域,尤其是涉及一种数据脱敏的方法、装置及存储介质。
背景技术
当前,为了满足用户所需的服务及应用,智能手机、可视化设备等可以将用户的地理位置及个人信息数据化。为了保护隐私数据,就需要在将数据公布或共享前,进行数据脱敏处理。
现有技术中,对数据脱敏的方法主要为简单的遮蔽、隐藏、仿真、加密等,存在着使用场景片面,不能高效率的实现脱敏;且脱敏数据无法避免重复识别,容易丧失可用性的问题。
发明内容
本发明申请提供一种数据脱敏的方法、装置及存储介质,用以解决现有脱敏技术使用场景片面,效率低的问题。
第一方面,为解决上述技术问题,本发明申请提供一种数据脱敏的方法,所述方法包括:
根据待脱敏数据的属性,将所述待脱敏数据划分为包括N个数据集的一级特征数据集;
根据接收到的脱敏指令确定所述待脱敏数据脱敏后的使用场景;
基于所述使用场景,从所述一级特征数据集中提取二级特征数据集,并确定待脱敏数据的脱敏方式;
利用所述脱敏方式对所述二级特征数据集进行脱敏,得到脱敏数据。
上述基于不同的使用场景,提取待脱敏数据作为二级特征数据,并确定脱敏方式,实现脱敏的方法,使数据脱敏的实现过程更加具有针对性,解决了现有脱敏技术使用场景片面、效率低的问题。
一种可能的实施方式,所述根据待脱敏数据的属性,将所述待脱敏数据划分为包括N个数据集的一级特征数据集之前,还包括:
接收待脱敏数据后,根据预设匹配规则将所述待脱敏数据分类,确定每个待脱敏数据的属性。
一种可能的实施方式,所述根据接收到的脱敏指令确定所述待脱敏数据脱敏后的使用场景,包括:
当接收到第一脱敏指令,则确定所述待脱敏数据脱敏后的使用场景为待脱敏数据脱敏后不需要具备可用性;
当接收到第二脱敏指令,则确定待脱敏数据脱敏后的使用场景为待脱敏数据脱敏后需要参与业务系统计算;
当接收到第三脱敏指令,则确定待脱敏数据脱敏后的使用场景为待脱敏数据脱敏后需要具备分析功能。
一种可能的实现方式,基于所述使用场景,从所述一级特征数据集中提取二级特征数据集包括:
当所述使用场景为待脱敏数据脱敏后不需要具备可用性,则从所述一级特征数据集中提取数据属性是准标识符属性和/或敏感属性的数据,作为二级特征数据集;
当所述使用场景为待脱敏数据脱敏后需要参与业务系统计算,则从所述一级特征数据集中提取数据属性是准标识符属性和/或敏感属性的数值型数据,作为二级特征数据集;
当所述使用场景为待脱敏数据脱敏后需要具备可用性,则从所述一级特征数据集中提取数据属性是准标识符属性中的数值型数据和/或二值非数值型数据,和/或,敏感属性中的数值型数据和/或二值非数值型数据准标识符属性和/或敏感属性的数值型数据,和/或二值非数值型数据,作为二级特征数据集。一种可能的实施方式,所述基于使用场景,确定待脱敏数据的脱敏方式包括:
当确定所述使用场景为待脱敏数据脱敏后不需要具备可用性,则确定所述脱敏方式为使用K-匿名技术实现脱敏。
当确定所述使用场景为待脱敏数据脱敏后需要参与业务系统计算,则确定所述脱敏方式为使用同态加密技术实现脱敏。
当确定所述使用场景为待脱敏数据脱敏后需要具备分析功能,则确定所述脱敏方式为使用添加噪声,使数据失真的方法实现脱敏。
通过使用所述K-匿名技术,得到的脱敏数据可以避免重复识别,达到了便捷高效的保护隐私数据的目的;通过使用所述同态加密技术,在保护隐私数据的同时,保证了待脱敏数据经过脱敏后仍然可以参与业务系统计算的场景需求;通过使用所述添加噪声,使数据失真的方法,在保护隐私数据的同时,保证了待脱敏数据经过脱敏后,保持原有的数据特性,满足待脱敏数据脱敏后仍然具备分析功能的场景需求。
第二方面,本发明申请提供了一种数据脱敏的装置,该装置包括:
划分单元,用于将待脱敏数据根据属性划分为包括N个数据集的一级特征数据集;
确定单元,用于确定待脱敏数据脱敏后的使用场景;和基于所述使用场景,从所述一级特征数据集中提取二级特征数据集,确定待脱敏数据的脱敏方式;
脱敏单元,用于利用所述脱敏方式对所述二级特征数据集脱敏,得到脱敏数据。
一种可能的实施方式,所述划分单元,还用于接收待脱敏数据后,根据预设匹配规则将所述待脱敏数据分类,确定每个待脱敏数据的属性。
一种可能的实施方式,所述确定单元,具体用于当接收到第一脱敏指令,则确定所述待脱敏数据脱敏后的使用场景为待脱敏数据脱敏后不需要具备可用性;当接收到第二脱敏指令,则确定待脱敏数据脱敏后的使用场景为待脱敏数据脱敏后需要参与业务系统计算;当接收到第三脱敏指令,则确定待脱敏数据脱敏后的使用场景为待脱敏数据脱敏后需要具备分析功能。
一种可能的实施方式,所述确定单元,还用于当所述使用场景为待脱敏数据脱敏后不需要具备可用性,则从所述一级特征数据集中提取数据属性是准标识符属性和/或敏感属性的数据,作为二级特征数据集,并确定所述脱敏方式为使用K-匿名技术实现脱敏;当所述使用场景为待脱敏数据脱敏后需要参与业务系统计算,则从所述一级特征数据集中提取数据属性是准标识符属性和/或敏感属性的数值型数据,作为二级特征数据集,并确定所述脱敏方式为使用同态加密技术实现脱敏;当所述使用场景为待脱敏数据脱敏后需要具备可用性,则从所述一级特征数据集中提取数据属性是准标识符属性中的数值型数据和/或二值非数值型数据,和/或,敏感属性中的数值型数据和/或二值非数值型数据,作为二级特征数据集,并确定所述脱敏方式为添加噪声,使数据失真的方法实现脱敏。
一种可能的实施方式,所述脱敏单元,具体用于当确定所述使用场景为待脱敏数据脱敏后不需要具备可用性,则利用所述脱敏方式为K-匿名技术实现脱敏;当确定所述使用场景为待脱敏数据脱敏后需要参与业务系统计算,则利用所述脱敏方式为同态加密技术实现脱敏;当确定所述使用场景为待脱敏数据脱敏后需要具备分析功能,则利用所述脱敏方式为使用添加噪声,使数据失真的方法实现脱敏。
第三方面,本发明申请提供一种可读存储介质,其中,包括:
存储器,
所述存储器用于存储指令,当所述指令被处理器执行时,使得包括所述可读存储介质的装置完成如第一方面以及任意一种实施方式所述的方法。
附图说明
图1为本申请提供的一种数据脱敏方法的流程图;
图2为本申请提供的使用K-匿名技术实现数据脱敏的方法流程图;
图3为本申请提供的一种数据脱敏方法装置的结构示意图。
具体实施方式
当前,数据的脱敏方式主要为遮蔽、隐藏、仿真等,但是,数据经过这些脱敏方式处理后无法避免重复识别或丧失可用性。为了解决现有技术中存在的上述问题,本申请实施例提供一种数据脱敏的方法,使脱敏过程更加具有针对性,从而高效实现数据脱敏,并保证了数据脱敏后可以避免重复识别,具备可用性。
下面首先对本申请中所使用的技术术语进行解释:
微数据(microdata collection):是指一个结构化数据集,其中每条(行)记录对应一个信息主体,记录中的每个字段(列)对应一个属性。
数据的标识符属性(identifier,I):是指微数据中一个或多个属性,可以实现对个人的信息主体的唯一识别。例如,身份证号码,姓名,驾驶证号码等均具备标识符属性;
数据的准标识符属性(quasi-identification,Q):是指微数据中的属性,需要结合其它属性(如标识符属性)唯一识别个人信息主体。例如,性别、出生日期或年龄等均具备准标识符属性;
数据的敏感属性(sensitive-attribute,SA),是指微数据中需要特别保护的属性。在潜在的重标识攻击期间,需要防止具备敏感属性的值与任何一个具备标识符属性、准标识符属性或敏感属性的值相关联。例如,电话号码,疾病,家庭住址等均具备敏感属性;
数据的非敏感属性(insensitive-attribute,ISA):是指微数据中不用保护,公开后没有任何危险的属性。例如,数据表的标识、序号等具备非敏感属性。
K-匿名技术(k-anonymization):是指一种数据发布时保护私有信息的方法。这种技术要求发布的数据中存在一定数量(至少为K)的在准标识符属性上不可区分的记录,使攻击者不能判别出隐私信息所属的具体个体,从而保护了个人隐私,它对数据进行了更概括、抽象的描述,即泛化处理。
同态加密技术(Homomorphic Encryption):是指一类基于数学难题的计算复杂性理论的密码学技术。对经过同态加密的数据进行处理得到一个输出,将这一输出进行解密,解密后的结果与用同一方法处理未加密的原始数据得到的输出结果是一样的。利用此性质,可以委托第三方对包括私密信息的数据进行处理而不泄露信息。
具有同态性质的加密函数可以通过两个明文a、b表示为如下函数:
同态加密技术实际上分为了两类,全同态加密(Fully Homomorphic Encryption,FHE)和非全同态加密(Non-fully Homomorphic Encryption,NFHE)。其中,FHE指同时满足乘法同态和加法同态特性,既满足任意运算同态性的加密算法。因存在计算和存储开销大等问题,难以实现高效的工程应用,FHE仍然处于研究阶段。而NFHE是指满足运算同态性的加密算法,包括乘法同态加密(RSA)算法、加法同态加密(Paillier)算法等。在尝试同态加密落地应用时,可考虑利用Paillier算法等较为成熟且性能较好的非全同态加密算法,解决只存在加法或数乘同态运算需求的应用场景,或通过将复杂计算需求转化为只存在加法或数乘运算的形式实现全同态场景的近似替代。
为了更好的理解上述技术方案,下面通过附图以及具体实施例对本申请技术方案做详细的说明,应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明,而不是对本申请的技术方案的限定,在不冲突的情况下,本申请实施例以及实施例中的技术特征可以相互组合。
请参考图1,本申请实施例提供一种数据脱敏的方法,使脱敏数据避免被重复识别或具备高可用性,该方法的处理过程如下:
步骤101:根据数据的属性,将待脱敏数据划分为包括N个数据集的一级特征数据集;
该N个数据集中每个数据集中所包含的数据属于同一属性,则N个数据集可以为:标识符属性数据集、准标识符属性数据集、敏感属性数据集、非敏感属性数据集。例如,标识符属性数据集中的数据可以是身份证号码。其中,数据的属性是指,数据的标识符属性、准标识符属性、敏感属性、非敏感属性等。
将所述待脱敏数据划分为包括N个数据集的一级特征数据集之前,还包括:接收待脱敏数据后,根据预设匹配规则将所述待脱敏数据分类,确定每个待脱敏数据的属性。
如表1所示为一种包括待脱敏数据的数据列表。其中,每一行数据为一个微数据,每一列数据为一个属性列。
应理解,表1只是对数据列表可能的一种举例,在实际使用中,数据列表可以包括以上四种数据属性中的任意一种或多种,根据需求还可以包括其他的数据类型,本申请不做具体限定。
表1
如表1所述,在该实施例中基于数据属性,标识符属性数据集中可以包括姓名、身份证号码;准标识符属性数据集中可以包括年龄、性别、邮编;敏感属性数据集中可以包括工资、疾病。
步骤102:根据接收到的脱敏指令确定所述待脱敏数据脱敏后的使用场景;具体的,在该实施例中待脱敏数据脱敏后的使用场景可能包括多种,下面以几种典型的使用场景为例,对上述步骤102做进一步说明:
当接收到第一脱敏指令,则可以确定待脱敏数据脱敏后的使用场景为:第一使用场景,即数据脱敏后不需要具备可用性;
当接收到第二脱敏指令,则可以确定待脱敏数据脱敏后的使用场景为:第二使用场景,即数据脱敏后需要参与业务系统计算;
当接收到第三脱敏指令,则可以确定待脱敏数据脱敏后的使用场景为:第三使用场景,即数据脱敏后需要具备分析功能。
步骤103:基于所述使用场景确定数据脱敏的脱敏方式以及从所述一级特征数据集提取需要进行数据脱敏二级特征数据集;
以下结合步骤102中所举例的各种使用场景,对应说明步骤103中所确定的脱敏方式以及提取的二级特征数据集:
一、针对第一种使用场景,因为数据脱敏后不需要具备可用性,所以可以采用便捷高效的脱敏方式来实现,具体来说可以使用算法比较简单的K-匿名技术实现脱敏。另外,使用K-匿名技术对数据进行脱敏可以避免用户根据准标识符属性数据集中的一项或多项数据与敏感属性数据集中数据结合,唯一识别个人信息主体;从而获取用户的隐私信息。保证待脱敏数据脱敏后能够避免重复识别,达到保护隐私数据的目的。
在该实施例中,接收到第一脱敏指令,则确定使用场景为待脱敏数据脱敏后不需要具备可用性,则从一级特征数据集中提取数据属性是准标识符属性数据以及和/或敏感属性的数据,作为二级特征数据集;
基于K-匿名技术以及所述二级特征数据集对所述待脱敏数据进行脱敏处理,得到脱敏后的数据。
如图2所示,以下结合具体的实例对基于K-匿名技术进行脱敏的具体实现做进一步详细的介绍,具体实现可以包括以下步骤:
步骤201:基于所述二级特征数据集中的准标识符属性数据对所述待脱敏数据中的微数据进行微聚类处理,得到至少一个类;
其中,微聚类处理是指,将准标识符属性数据中有一条或一条以上属性列相似的微数据划分为一类。
其中,准标识符属性的相似可以是语义相似,也可以是数值相似。当数值位于相邻数值区间,或同一数值区间,可以认为是数值相似。例如:一组关于用户年龄的准标识属性数据,分别为:14,18,19,它们位于同一区间(15,20),则它们相似。因此,可以划分为一类。
步骤202:针对任一类微数据,将准标识符属性数据中有至少一条属性列相同的微数据划分为一组,每一组称为一个等价组,等价组内微数据的个数为K值。
基于表1中准标识符属性数据进行等价组划分,当年龄列、性别列、邮编列均相同时,划为同一个等价组,处理结果如表2所示:
表2
参见上述表2微聚类的结果,其中基于准标识符数据中的年龄、性别、邮编是否相同的情况,可以得到多个等价组。其中,如一个等价组包括表2中序号1,6,8所对应的数据,则用集合的表述方式将该等价组标示为(1,6,8)。
步骤203:针对每一类微数据,将每个等价组的K值与预设的K0值进行对比,当K值小于K0值时,对等价组中的微数据进行泛化处理,使泛化处理后的等价组K值大于等于预设的K0值。
泛化处理,是指根据概念层次将低概念层次的数据泛化到相应的高层次概念层,得到一致概念层的技术。为了保证数据的最小损失度,泛化处理应该为动态调节过程,不能统一字段替换,泛化树根据属性构建。
比如地址属性的泛化处理:需要进行泛化处理的基础数据为,四川省成都市高新区和乐二街111号。第一步将门牌号泛化,得到:四川省成都市高新区和乐二街;第二步将街道名称泛化,得到:四川省成都市高新区;第三步将区/村名称泛化,得到四川省成都市;第四步将市名称泛化,得到四川省;第五步,此时该地址属性在对应的概念层次树上,没有更高的概念层,进一步泛化,该概念将被去除,得到*。因此,四川省成都市高新区和乐二街111号,泛化树的构建为:四川省成都市高新区和乐二街,四川省成都市高新区,四川省成都市,四川省,*。
示例性的,例如基于表2的微聚类结果,得到的等价组可以包括(1,6,8),(2、7),(3),(4、5),(10000),其中各个等价组对应的K值依次为3,2,1,2,1。若用户预设的K0值为2,则K值为1的等价组(3)和(10000)就需要参与泛化处理,参与泛化处理的是等价组中的准标识符属性数据。等价组(3)和等价组(10000)中的准标识符属性数据分别为年龄、性别、邮编。其中,性别列一致,那么需要将年龄列和邮编列泛化处理为一致,年龄列分别为20和85,泛化为“0~100”;邮编列分别为117110和659420,因没有更高的概念层,所以邮编列的泛化结果为“*”和“*”。由此可得等价组(3,10000),K值为2,满足用户预设的K0值要求。泛化结果如表3所示。
表3
所有等价组K值大于等于用户预设的K0值后,便可执行步骤203。
步骤204:以等价组为单位确定每个等价组所包括的敏感属性数据,以及每一种敏感属性数据的数据值。
例如,表3中属于敏感属性数据的疾病属性列的数据值为良癌症,健康。
步骤205:判断每一种敏感属性数据的数据值是否相同;若某一种敏感属性数据的数据值相同,则该种敏感属性数据的数据值进行修改,使该种敏感属性数据的数据值失真。
示例性的,结合表2,等价组(1,6,8)的敏感属性数据为工资和疾病。其中,工资数据值不一致,敏感属性数据中疾病的取值一致,均为心脏病,因此需要修改敏感属性数据中的疾病列,修改后可以为心脏病、有疾病、不健康,结果如表4所示。
表4
经过上述步骤201~205,通过概括准标识符属性数据集中的年龄、性别、邮编列,并隐匿敏感属性数据中的疾病列,使脱敏数据中的每个微数据至少与数据表中其他K-1条记录具有完全相同的准标识符属性值,保证用户无法根据某列或多列属性值唯一识别信息主体,从而使脱敏数据可以避免重复识别,达到保护隐私数据的目的。
需要说明的是,所述针对每一类微数据,对K值小于K0值的等价组中的微数据进行泛化处理,可使数据中信息的损失最小化。
例如,一列准表示符属性数据为邮编列,分别为152300,152400,152600,可以划分为一类,进一步划分等价组,得到三个等价组,K值均为1。假设用户预设的K0值为3,将这三个等价组泛化处理,可以是152*00,152*00,152*00,则泛化后K值等于K0值。
以上所述为实施例的一种,具体实施中,也可以不进行步骤201所述微聚类处理。可以基于所述二级特征数据集中的准标识符属性数据对所述待脱敏数据直接进行等价组的划分,并参考用户预设的K0值,决定是否进行泛化处理,具体处理及后续操作步骤可以参考步骤202~205,在此不做赘述。
二、针对第二种使用场景,数据脱敏后需要参与业务系统计算。为确保数据脱敏后参加业务系统计算的结果,该结果经过处理与未脱敏数据参加相同计算的结果一样,因此可利用同态加密技术实现数据的脱敏。
在该实施例中,接收到第二脱敏指令,则确定使用场景为待脱敏数据脱敏后需要参与业务系统计算,则从一级特征数据集中提取数据属性为标识符属性和/或敏感属性数据、敏感数据中的数值型数据,作为二级特征数据集。
基于同态加密技术以及所述二级特征数据集对所述待脱敏数据进行脱敏处理,得到脱敏后的数据。其中,同态加密技术是将数据输入同态加密计算工具中,由同态计算工具输出的数据即为脱敏数据。
示例性的,假设业务系统需要对表2中工资数值进行求和,结合表1,将工资数据依次输入同态加密计算工具中,即可得到脱敏后的工资值,如表5所示。
表5
上述表5所示的工资通过同态加密处理,使其脱敏达到了保护用户隐私的目的。同时,利用同态加密的特点:“数据经过加密后进行运算再解密的结果,与数据未进行加密直接使用相同的运算得到的结果一致”,保证了工资脱敏后仍然可以参与业务系统计算的需求。
基于所述使用场景,对待脱敏数据使用K-匿名技术实现脱敏,在保护隐私数据的同时,保证了待脱敏数据经过脱敏后仍然可以参与业务系统计算的场景需求。
三、针对第三种使用场景,可以对二级特征数据添加噪声,使之在脱敏基础上仍然具备分析功能。
在该实施例中,接收到第三脱敏指令,则确定使用场景为待脱敏数据脱敏后需要具备分析功能,则从一级特征数据集中提取数据属性是准标识符属性数据、属性和/或敏感数据中属性的数值型数据以及和/或二值非数值型数据,作为二级特征数据集。
对所述二级特征数据集使用添加噪声,使数据失真的方法进行处理,得到脱敏后的数据。
值得说明的是,以下示例中,具备分析功能的使用场景包含但不限于求和不变,方差不变,统计特征概率不变。
1、针对求和不变场景,这种使用场景仅可以针对数值型数据。示例性的,可以匹配随机向量,并进行乱序操作。操作方法为:将每个微数据中的敏感属性列作为一组向量,将微数据中除敏感属性的其他属性列作为一组向量。将每个微数据中的这两组向量随即匹配成新的微数据,然后将这些微数据随机分布。假设需要表2中的工资数据保持脱敏后和脱敏前求和不变时,可以匹配随机向量,并进行乱序操作。操作方法为:将表2中每个微数据中的敏感属性列作为一组向量,即(工资,疾病)。将表2中每个微数据中除敏感属性的其他属性列作为一组向量,即(序号,姓名,身份证号码,年龄,性别,邮编)。将每个微数据中的这两组向量随即匹配。如表6所示。
表6
或者,使用随机函数生成一组期望为0的随机值。结合表2,将随机函数生成的随机值分别和工资列中的每一个数据相加。如表7所示。
表7
2、针对方差不变场景,这种使用场景仅可以针对数值型数据。示例性的,可以匹配随机向量,并进行乱序操作。
假设需要表2中的工资数据保持脱敏后和脱敏前方差不变,可以匹配随机向量,并进行乱序操作。具体操作方法如前所述。
3、针对统计概率不变场景,这种使用场景不仅可以针对数值型数据,还包括和/或二值非数值型类型。
示例性的,当需要数据脱敏后和脱敏前的统计特征概率不变,且数据为二值非数值类型时,随机分配不同的选项组并取值。
结合表2,假设需要数据表中男女比例不变,制定两组选项,第一组为①女,②男;第二组为①男,②女,将这两组选项随机分配并取值,得到结果如
表8所示。
表8
基于所述使用场景,通过匹配随机向量、并进行乱序操作;添加期望为0的随机函数值;随机分配不同的选项组并取值的方法对数据添加噪声,使得到的脱敏数据保持了求和不变、方差不变、统计特征概率不变的分析功能,在保护隐私数据的同时,保证了待脱敏数据经过脱敏后,保持原有的数据特性,满足待脱敏数据脱敏后仍然具备分析功能的场景需求。
步骤104:利用所述脱敏方式对所述二级特征数据集进行脱敏,得到脱敏数据。
结合上述申请的数据脱敏方法,在保护隐私数据的同时,使数据脱敏的实现过程具有针对性,且更加高效。
基于同一发明构思,本申请实施例中提供一种数据脱敏的装置,该装置与前述图1所示脱敏方法对应,该装置的具体实施方式可参见前述方法实施例部分的描述,重复之处不再赘述,参见图3,该装置包括:
划分单元301:用于将待脱敏数据根据属性划分为包括N个数据集的一级特征数据集;
具体的,所述属性是指,根据预设匹配规则将所述待脱敏数据分类,确定每个待脱敏数据的属性。
确定单元302,用于确定待脱敏数据脱敏后的使用场景和待脱敏数据的脱敏方式;
具体的,当接收到第一脱敏指令,则确定所述待脱敏数据脱敏后的使用场景为待脱敏数据脱敏后不需要具备可用性;当接收到第二脱敏指令,则确定待脱敏数据脱敏后的使用场景为待脱敏数据脱敏后需要参与业务系统计算;当接收到第三脱敏指令,则确定待脱敏数据脱敏后的使用场景为待脱敏数据脱敏后需要具备分析功能。
所述确定单元302还用于:基于所述使用场景,从所述一级特征数据集中提取二级特征数据集,确定待脱敏数据的脱敏方式;
具体的,当所述使用场景为待脱敏数据脱敏后不需要具备可用性,则从所述一级特征数据集中提取数据属性是准标识符属性和/或敏感属性的数据,作为二级特征数据集,并确定所述脱敏方式为使用K-匿名技术实现脱敏;当所述使用场景为待脱敏数据脱敏后需要参与业务系统计算,则从所述一级特征数据集中提取数据属性是准标识符属性和/或敏感属性的数值型数据,作为二级特征数据集,并确定所述脱敏方式为使用同态加密技术实现脱敏;当所述使用场景为待脱敏数据脱敏后需要具备可用性,则从所述一级特征数据集中提取数据属性是准标识符属性中的数值型数据和/或二值非数值型数据,和/或,敏感属性中的数值型数据和/或二值非数值型数据,作为二级特征数据集,并确定所述脱敏方式为添加噪声,使数据失真的方法实现脱敏。
脱敏单元303,用于利用所述脱敏方式对所述二级特征数据集脱敏,得到脱敏数据。
具体的,当确定所述使用场景为待脱敏数据脱敏后不需要具备可用性,则利用所述K-匿名技术对所述二级特征数据脱敏,得到脱敏数据;当确定所述使用场景为待脱敏数据脱敏后需要参与业务系统计算,则利用所述同态加密技术对所述二级特征数据脱敏,得到脱敏数据;当确定所述使用场景为待脱敏数据脱敏后需要具备分析功能,则利用所述添加噪声,使数据失真的方法对所述二级特征数据脱敏,得到脱敏数据。
基于同一发明构思,本申请实施例还提供一种可读存储介质,包括:
存储器,
所述存储器用于存储指令,当所述指令被处理器执行时,使得包括所述可读存储介质的装置完成如上所述的数据脱敏的方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:通用串行总线闪存盘(Universal Serial Bus flash disk)、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (11)
1.一种数据脱敏的方法,其特征在于,所述方法包括:
根据待脱敏数据的属性,将所述待脱敏数据划分为包括N个数据集的一级特征数据集;
根据接收到的脱敏指令确定所述待脱敏数据脱敏后的使用场景;
基于所述使用场景,从所述一级特征数据集中提取二级特征数据集,并确定待脱敏数据的脱敏方式;
利用所述脱敏方式对所述二级特征数据集进行脱敏,得到脱敏数据。
2.如权利要求1所述的方法,其特征在于,所述根据待脱敏数据的属性,将所述待脱敏数据划分为包括N个数据集的一级特征数据集之前,还包括:
接收待脱敏数据后,根据预设匹配规则将所述待脱敏数据分类,确定每个待脱敏数据的属性。
3.如权利要求1或2所述的方法,其特征在于,所述根据接收到的脱敏指令确定所述待脱敏数据脱敏后的使用场景,包括:
当接收到第一脱敏指令,则确定所述待脱敏数据脱敏后的使用场景为待脱敏数据脱敏后不需要具备可用性;
当接收到第二脱敏指令,则确定待脱敏数据脱敏后的使用场景为待脱敏数据脱敏后需要参与业务系统计算;
当接收到第三脱敏指令,则确定待脱敏数据脱敏后的使用场景为待脱敏数据脱敏后需要具备分析功能。
4.如权利要求3所述的方法,其特征在于,基于所述使用场景,从所述一级特征数据集中提取二级特征数据集包括:
当所述使用场景为待脱敏数据脱敏后不需要具备可用性,则从所述一级特征数据集中提取数据属性是准标识符属性和/或敏感属性的数据,作为二级特征数据集;
当所述使用场景为待脱敏数据脱敏后需要参与业务系统计算,则从所述一级特征数据集中提取数据属性是准标识符属性和/或敏感属性的数值型数据,作为二级特征数据集;
当所述使用场景为待脱敏数据脱敏后需要具备可用性,则从所述一级特征数据集中提取数据属性是准标识符属性中的数值型数据和/或二值非数值型数据,和/或,敏感属性中的数值型数据和/或二值非数值型数据准标识符属性和/或敏感属性的数值型数据,和/或二值非数值型数据,作为二级特征数据集。
5.如权利要求1所述的方法,其特征在于,所述基于使用场景,确定待脱敏数据的脱敏方式包括:
当确定所述使用场景为待脱敏数据脱敏后不需要具备可用性,则确定所述脱敏方式为使用K-匿名技术实现脱敏;
当确定所述使用场景为待脱敏数据脱敏后需要参与业务系统计算,则确定所述脱敏方式为使用同态加密技术实现脱敏;
当确定所述使用场景为待脱敏数据脱敏后需要具备分析功能,则确定所述脱敏方式为使用添加噪声,使数据失真的方法实现脱敏。
6.一种数据脱敏的装置,其特征在于,包括:
划分单元,用于将待脱敏数据根据属性划分为包括N个数据集的一级特征数据集;
确定单元,用于确定待脱敏数据脱敏后的使用场景;和基于所述使用场景,从所述一级特征数据集中提取二级特征数据集,确定待脱敏数据的脱敏方式;
脱敏单元,用于利用所述脱敏方式对所述二级特征数据集脱敏,得到脱敏数据。
7.如权利要求6所述的装置,其特征在于,所述划分单元,还用于接收待脱敏数据后,根据预设匹配规则将所述待脱敏数据分类,确定每个待脱敏数据的属性。
8.如权利要求6所述的装置,其特征在于,所述确定单元,具体用于当接收到第一脱敏指令,则确定所述待脱敏数据脱敏后的使用场景为待脱敏数据脱敏后不需要具备可用性;当接收到第二脱敏指令,则确定待脱敏数据脱敏后的使用场景为待脱敏数据脱敏后需要参与业务系统计算;当接收到第三脱敏指令,则确定待脱敏数据脱敏后的使用场景为待脱敏数据脱敏后需要具备分析功能。
9.如权利要求6或8所述的装置,其特征在于,所述确定单元,还用于当所述使用场景为待脱敏数据脱敏后不需要具备可用性,则从所述一级特征数据集中提取数据属性是准标识符属性和/或敏感属性的数据,作为二级特征数据集,并确定所述脱敏方式为使用K-匿名技术实现脱敏;当所述使用场景为待脱敏数据脱敏后需要参与业务系统计算,则从所述一级特征数据集中提取数据属性是准标识符属性和/或敏感属性的数值型数据,作为二级特征数据集,并确定所述脱敏方式为使用同态加密技术实现脱敏;当所述使用场景为待脱敏数据脱敏后需要具备可用性,则从所述一级特征数据集中提取数据属性是准标识符属性中的数值型数据和/或二值非数值型数据,和/或,敏感属性中的数值型数据和/或二值非数值型数据,作为二级特征数据集,并确定所述脱敏方式为添加噪声,使数据失真的方法实现脱敏。
10.如权利要求6所述的装置,其特征在于,所述脱敏单元,具体用于当确定所述使用场景为待脱敏数据脱敏后不需要具备可用性,则利用所述脱敏方式为K-匿名技术实现脱敏;当确定所述使用场景为待脱敏数据脱敏后需要参与业务系统计算,则利用所述脱敏方式为同态加密技术实现脱敏;当确定所述使用场景为待脱敏数据脱敏后需要具备分析功能,则利用所述脱敏方式为使用添加噪声,使数据失真的方法实现脱敏。
11.一种可读存储介质,其中,包括存储器,
所述存储器用于存储指令,当所述指令被处理器执行时,使得包括所述可读存储介质的装置完成如权利要求1~5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110894923.6A CN113704816A (zh) | 2021-08-05 | 2021-08-05 | 一种数据脱敏的方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110894923.6A CN113704816A (zh) | 2021-08-05 | 2021-08-05 | 一种数据脱敏的方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113704816A true CN113704816A (zh) | 2021-11-26 |
Family
ID=78651610
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110894923.6A Pending CN113704816A (zh) | 2021-08-05 | 2021-08-05 | 一种数据脱敏的方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113704816A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023231817A1 (zh) * | 2022-05-31 | 2023-12-07 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、计算机设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018189681A1 (en) * | 2017-04-14 | 2018-10-18 | International Business Machines Corporation | Data tokenization |
CA3054213A1 (en) * | 2018-09-06 | 2020-03-06 | Zhendong Li | Information management method and device |
US10630468B1 (en) * | 2019-01-11 | 2020-04-21 | Alibaba Group Holding Limited | Distributed multi-party security model training framework for privacy protection |
CN111199048A (zh) * | 2020-01-02 | 2020-05-26 | 航天信息股份有限公司 | 基于具有生命周期的容器的大数据分级脱敏方法和系统 |
US20210057058A1 (en) * | 2019-08-23 | 2021-02-25 | Alibaba Group Holding Limited | Data processing method, apparatus, and device |
CN112632597A (zh) * | 2020-12-08 | 2021-04-09 | 国家计算机网络与信息安全管理中心 | 一种数据脱敏方法、装置可读存储介质 |
-
2021
- 2021-08-05 CN CN202110894923.6A patent/CN113704816A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018189681A1 (en) * | 2017-04-14 | 2018-10-18 | International Business Machines Corporation | Data tokenization |
CA3054213A1 (en) * | 2018-09-06 | 2020-03-06 | Zhendong Li | Information management method and device |
US10630468B1 (en) * | 2019-01-11 | 2020-04-21 | Alibaba Group Holding Limited | Distributed multi-party security model training framework for privacy protection |
US20210057058A1 (en) * | 2019-08-23 | 2021-02-25 | Alibaba Group Holding Limited | Data processing method, apparatus, and device |
CN111199048A (zh) * | 2020-01-02 | 2020-05-26 | 航天信息股份有限公司 | 基于具有生命周期的容器的大数据分级脱敏方法和系统 |
CN112632597A (zh) * | 2020-12-08 | 2021-04-09 | 国家计算机网络与信息安全管理中心 | 一种数据脱敏方法、装置可读存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023231817A1 (zh) * | 2022-05-31 | 2023-12-07 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113557512B (zh) | 安全的多方到达率和频率估算 | |
Binjubeir et al. | Comprehensive survey on big data privacy protection | |
US9852306B2 (en) | Conjunctive search in encrypted data | |
CN115688167B (zh) | 匿踪查询方法、装置和系统及存储介质 | |
EP2103032B1 (en) | Privacy enhanced comparison of data sets | |
Gao et al. | Local differential privately anonymizing online social networks under hrg-based model | |
CN111143865B (zh) | 一种密文数据上标签自动生成的用户行为分析系统及方法 | |
CN113449048B (zh) | 数据标签分布确定方法、装置、计算机设备和存储介质 | |
Liu et al. | Secure outsourced frequent pattern mining by fully homomorphic encryption | |
Kim et al. | Efficient Privacy‐Preserving Fingerprint‐Based Authentication System Using Fully Homomorphic Encryption | |
CN111914264A (zh) | 索引创建方法及装置、数据验证方法及装置 | |
CN115544579B (zh) | 一种双随机数据混淆查询方法、装置和系统 | |
CN117390657A (zh) | 数据加密方法、装置、计算机设备和存储介质 | |
Singh et al. | Privacy preserving techniques in social networks data publishing-a review | |
Yamaoka et al. | k-presence-secrecy: Practical privacy model as extension of k-anonymity | |
CN114564744A (zh) | 用于医疗健康档案管理系统的数据保护方法及装置 | |
CN107070932B (zh) | 社会网络动态发布中防止标签邻居攻击的匿名方法 | |
CN113704816A (zh) | 一种数据脱敏的方法、装置及存储介质 | |
Yang et al. | A privacy-preserving data obfuscation scheme used in data statistics and data mining | |
Siva Kumar et al. | Searchable encryption approaches: attacks and challenges | |
WO2022099893A1 (zh) | 数据查询方法、装置、系统以及数据集处理方法 | |
Qu et al. | Privacy preserving in big data sets through multiple shuffle | |
Gheid et al. | An efficient and privacy-preserving similarity evaluation for big data analytics | |
Li et al. | LRDM: Local Record-Driving Mechanism for Big Data Privacy Preservation in Social Networks | |
Nussbaum et al. | Privacy analysis of query-set-size control |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |