CN110378148B - 一种面向云平台的多域数据隐私保护方法 - Google Patents

一种面向云平台的多域数据隐私保护方法 Download PDF

Info

Publication number
CN110378148B
CN110378148B CN201910680596.7A CN201910680596A CN110378148B CN 110378148 B CN110378148 B CN 110378148B CN 201910680596 A CN201910680596 A CN 201910680596A CN 110378148 B CN110378148 B CN 110378148B
Authority
CN
China
Prior art keywords
data
original data
data set
generalization
anonymity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910680596.7A
Other languages
English (en)
Other versions
CN110378148A (zh
Inventor
张伟哲
何慧
方滨兴
刘川意
郭睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN201910680596.7A priority Critical patent/CN110378148B/zh
Publication of CN110378148A publication Critical patent/CN110378148A/zh
Application granted granted Critical
Publication of CN110378148B publication Critical patent/CN110378148B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种面向云平台的多域数据隐私保护方法,涉及多域数据隐私保护技术领域。本发明为了解决现有的多域数据隐私保护方法一般采用静态匿名来发布数据,不够灵活,不能限制数据分析人员获得的数据范围,无法满足使用原始数据的需求的问题。本发明包括数据匿名化处理和原始数据恢复处理;本发明针对数据分析和事务处理场景下的具体需求,来采用相应的隐私保护策略,对不同领域的结构化数据表,通过数据匿名为主体的隐私保护技术,来达到减少云端数据隐私泄露风险的效果,同时满足一定事务处理上的需求。将匿名后数据存储并用于数据分析,降低隐私信息泄露的风险,对数据进行动态的匿名化,限制数据分析人员可以获得的数据范围,同时更好的保护数据隐私。

Description

一种面向云平台的多域数据隐私保护方法
技术领域
本发明涉及一种面向云平台的多域数据隐私保护方法,涉及多域数据隐私保护技术领域。
背景技术
随着云计算的发展和广泛使用,更多用户数据被收集和存储到云平台中,其方便了对数据的使用和共享,同时通过数据挖掘等方法分析数据为用户带来了便利,也为企业带来了收益;然而随着存储和处理的数据量越来越大,通过外部数据表识别出数据中用户信息的链接攻击等时有发生,使用户信息面临隐私泄露的风险,也给企业的效益和信誉造成了极大的损失。因此,对于在云平台上产生和存储大规模数据的企业和组织而言,保证正常数据使用的同时,降低用户数据隐私泄露的可能性,对于用户数据隐私的保护和企业级应用技术的发展有着重要的意义。不同领域的大量记录表型数据,都有存储在云平台上的需求,来方便对数据提供者收集数据和数据使用者访问分析数据。现有多域数据隐私保护方法一般采用静态匿名来发布数据,不够灵活,不能限制数据分析人员获得的数据范围,一般没有设置将匿名数据恢复至原始数据的过程,无法满足使用原始数据的需求。
发明内容
本发明要解决的技术问题是:
本发明为了解决现有的多域数据隐私保护方法一般采用静态匿名来发布数据,不够灵活,不能限制数据分析人员获得的数据范围,无法满足使用原始数据的需求的问题。进而提供了一种面向云平台的多域数据隐私保护方法。
本发明解决上述技术问题所采取的技术方案为:
一种面向云平台的多域数据隐私保护方法,所述方法的实现过程为:
步骤一、数据匿名化处理,其包括数据静态匿名化步骤,过程为:
首先对原始数据集进行预处理;然后为数据集的各个QI属性构建泛化层次;
之后进行满足k-匿名原则的脱敏处理:根据已有的泛化层次信息,构建相应的数据结构以实现满足k匿名原则的匿名算法,来为每个属性选择具体的泛化等级,并根据得到的泛化等级,对原始数据集的数据值进行泛化,将原始数据集转化成相对应的匿名数据集;
步骤二、原始数据恢复处理:
在原始数据集转化成匿名数据集的过程中建立两者的对应关系来实现原始数据的恢复,其过程为:
首先,对原始数据集中不同的数值进行字典编码,将具体数值与整数编码对应,并根据字典生成原始数据表和属性泛化层次表;在匿名过程中生成与原始数据表具有相同行索引的数据转化表,来记录每一行原始数据泛化后所产生的匿名数据,并维持原始数据表中元组与泛化后的数据转化表中的元组具有相同的行索引,来实现原始数据元组与匿名数据元组索引的一一对应关系,从而实现对原始数据的恢复。
进一步地,在步骤一中,对原始数据集进行预处理的具体过程为,提取或收集结构化的记录表型数据(如,可以具体为相应属性的美国人口普查数据),将所述记录表型数据中的数值型代码转换成其所代表的具有实际意义的数值,删除其中属性值为空值的个体,并且将原始数据集导出到csv文件进行存储。
进一步地,在步骤一中,构建属性泛化层次的具体过程为:对不同类型的属性值采用不同的泛化方式,针对整数型有序数据,采用区间的泛化方式;针对字符型数据,采用语义上的范围变化来进行泛化;在泛化方法的选择上,采用要求所有叶子节点的原始属性值,要泛化为同一等级的泛化值的全域泛化。
进一步地,在步骤一中,满足k-匿名原则的脱敏处理过程中,所述匿名算法具体为:匿名算法通过遍历由属性泛化层次组成的泛化格,根据预先定义的属性泛化层次和节点中各个属性所选择的泛化层次等级,来遍历原始数据集对其进行泛化,对每个单独节点进行是否满足k匿名原则的验证,然后根据当前节点匿名与否来在整个搜索空间上进行剪枝;
匿名算法整体由四部分组成:其中路径寻找算法负责构建一条由未被标记的节点组成的路径;节点审查算法负责审核输入节点是否满足相应的匿名原则并将其进行标记;路径审核算法则负责审查路径上的节点是否满足匿名原则,进而寻找满足条件的优化解;最后一部分是算法整体的外部循环,其负责对整个泛化格结构进行遍历。
进一步地,在步骤一中,将原始数据集转化成相对应的匿名数据集进下操作以对匿名数据集等价类的分布进行优化,
操作如下:针对等价类的分布进行优化,在判断相应节点是否匿名时,放宽审查的条件,当根据当前节点对整个数据集进行泛化时,如果泛化后所有大小小于k的等价类包含的元组数量之和,不超过所有元组数量的1/2时,就将大小小于k的等价类包含的元组删除,从而将该节点视为满足k-匿名原则的匿名节点。
进一步地,步骤一所述的数据匿名化处理还包括数据动态匿名化处理,其过程为:
实现数据动态匿名化(动态脱敏)的主要步骤在于对原始数据集合的查询处理,通过对原始数据集的任意部分数据进行匿名处理,数据分析人员提交查询请求,通过所实现的数据脱敏系统来对转化为内部表示的原始数据集进行实际的查询操作,得到返回的原始数据子集合后,通过匿名算法对数据子集进行满足相应匿名原则的脱敏处理,最后将满足相应需求的匿名数据结果返回给数据分析人员。
进一步地,步骤一所述的数据匿名化处理还包括数据动态匿名化处理,其过程为:其中所述查询操作主要由查询语句的构建和根据查询语句对原始数据集进行筛选两个部分组成。对于查询语句的构建,数据脱敏代理提供查询语句所需要的相关谓词,包括关系操作符和布尔运算符等,并且提供原始数据集合所包含的属性字段,来构造需要的查询限制条件;对于原始数据集的筛选,其通过查询语句字符串来构建对象选择器selector,并用对象选择器的isSelected函数判断当前对象是否满足相应的查询语句,遍历整个原始数据集后,选择出满足条件的元组对象得到原始数据集子集。
进一步地,在步骤二中,数据转化表建立过程为:首先根据匿名算法得到的优化解中各属性的泛化层级,对照各个属性具体的泛化层次表,将原始数据表中的数值按行泛化,得到与原始数据表有相同索引的数据转化表;最后,根据字典中数据值和字典值的对应关系,可以将数据转化表的数值变成相对应的实际数值。
本发明具有以下有益技术效果:
本发明针对数据分析和事务处理场景下的具体需求,来采用相应的隐私保护策略,对不同领域的结构化数据表,通过数据匿名为主体的隐私保护技术,来达到减少云端数据隐私泄露风险的效果,同时满足一定事务处理上的需求。
针对存储过程中的数据分析需求,对数据进行静态匿名化处理,将匿名后数据存储并用于数据分析,来降低隐私信息泄露的风险,在查询过程中,对数据进行动态的匿名化,限制数据分析人员可以获得的数据范围,同时更好的保护数据隐私。而现有多域数据隐私保护方法一般采用静态匿名来发布数据,不够灵活,不能限制数据分析人员获得的数据范围,一般没有设置将匿名数据恢复至原始数据的过程,无法满足使用原始数据的需求。本发明完全能满足使用原始数据的需求。
针对事务处理场景,本发明将匿名数据恢复成对应的原始数据,来满足使用数据的需要。
附图说明
图1为数据脱敏流程的流程框图,图2为婚姻状况树状泛化层次结构图(图2中的英文为算法的公知述语),图3为泛化格的表达图,图4为数据动态脱敏流程图,图5为原始数据恢复流程图,图6为数据转化表的建立流程框图,
图7为等价类分布图,图8为优化前后鉴别力度量的对经图,图9为平均风险比较图,图10为执行时间比较图,图11为静态与动态脱敏隐私风险比较图,图12为数据可利用性比较图,图13为低比例下数据可利用性比较图,图14为不同k值下隐私泄露风险对比图,图15不同k值下数据可利用性比较图。
具体实施方式
结合附图对本发明所述的面向云平台的多域数据隐私保护方法的具体实现过程进下如下阐述:
数据静态匿名化过程
数据匿名化的大致流程如图1所示,首先对原始数据集进行预处理,然后为数据集的各个QI属性构建泛化层次,之后根据已有的泛化层次等信息,构建相应的数据结构,实现满足k-匿名原则的具体算法,来为每个属性选择具体的泛化等级,并根据得到的泛化等级,对原始数据集的数据值进行泛化处理,将原始数据集转化成相对应的匿名数据集。
在数据处理阶段,提取相应属性的美国人口普查数据,将其中的数值型代码转换成其所代表的具有实际意义的数值,删除其中属性值为空值的个体,并且将原始数据集导出到csv文件进行存储。
对于属性泛化层次的建立,对不同类型的属性值采用不同的泛化方式,如针对整数型有序数据,可以采用区间的泛化方式,针对字符型数据,可以采用语义上的范围变化来进行泛化,具体的泛化层次结构示例如图2所示;在泛化方法的选择上,采用要求所有叶子节点的原始属性值,要泛化为同一等级的泛化值的全域泛化。
匿名算法通过遍历由属性泛化层次组成的如图3所示的泛化格,根据预先定义的属性泛化层次,和节点中各个属性所选择的泛化层次等级,来遍历原始数据集对其进行泛化,对每个单独节点进行是否满足k-匿名原则的验证,然后根据当前节点匿名与否来在整个搜索空间上进行剪枝。算法整体由四部分组成,其中路径寻找算法负责构建一条由未被标记的节点组成的路径;标记指的是该节点已经被节点审查算法审核过,被标记为是否满足相应的匿名原则;路径审核算法则负责审查路径上的节点是否满足匿名原则,进而寻找满足条件的最优化解;最后一部分是算法整体的外部循环,其负责对整个泛化格结构进行遍历。
仅通过全域泛化来得到的满足k-匿名原则的数据集中,等价类大小接近k的等价类数量较少,这说明为了满足相应的匿名原则,整个数据集进行了过度的泛化,从而使得不少等价类大小远远大于k值。因此,针对等价类的分布进行优化,在判断相应节点是否匿名时,适当放宽审查的条件,当根据当前节点对整个数据集进行泛化时,如果泛化后所有大小小于k的等价类包含的元组之和,不超过所有元组数量的1/2时,就可以将这些元组删除,从而将该节点视为满足k-匿名原则的匿名节点。
数据动态匿名化过程
实现动态脱敏过程的主要步骤在于对原始数据集合的查询处理,通过对原始数据集的任意部分数据进行匿名处理,来实现灵活、动态的数据匿名化操作流程。该方式的大致实现过程如图4所示,其中数据分析人员提交查询请求,通过所实现的数据脱敏系统来对转化为内部表示的原始数据集进行实际的查询操作,得到返回的原始数据子集合后,通过匿名算法对数据子集进行满足相应匿名原则的脱敏处理,最后将满足相应需求的匿名数据结果返回给数据分析人员。
其中查询操作主要由查询语句的构建和根据查询语句对原始数据集进行筛选两个部分组成。对于查询语句的构建,数据脱敏代理提供查询语句所需要的相关谓词,包括关系操作符和布尔运算符等,并且提供原始数据集合所包含的属性字段,来构造需要的查询限制条件;对于原始数据集的筛选,其通过查询语句字符串来构建对象选择器selector,并用对象选择器的isSelected函数判断当前对象是否满足相应的查询语句,遍历整个原始数据集后,选择出满足条件的元组对象得到原始数据集子集。
原始数据恢复过程
针对数据匿名后原始数据的恢复问题,因为无法从泛化后的匿名元组组成的等价类中,区分出元组在原始数据集中所对应的具体元组,所以需要在数据匿名化的过程之中,建立匿名后元组与原始数据元组的对应关系。首先,对原始数据集中不同的数值进行字典编码,将具体数值与整数编码对应,并根据字典生成原始数据表和属性泛化层次表;在匿名过程中生成与原始数据表具有相同行索引的数据转化表,来记录每一行原始数据泛化后所产生的匿名数据,并维持原始数据表中元组与泛化后的数据转化表中的元组具有相同的行索引,来实现原始数据元组与匿名数据元组索引的一一对应关系,从而实现对原始数据的恢复,其实现的大致过程如图5所示。
其中数据转化表建立过程如图6所示,首先根据匿名算法得到的优化解中各属性的泛化层级,对照各个属性具体的泛化层次表,将原始数据表中的数值按行泛化,得到与原始数据表有相同索引的数据转化表。最后,根据字典中数据值和字典值的对应关系,可以将数据转化表的数值变成相对应的实际数值。
针对本发明的技术效果的验证如下:
1、存储过程中匿名化效果
针对存储过程中静态匿名化效果的分析,对美国人口普查数据集进行满足3-匿名原则匿名化处理,在得到的整体匿名数据集中,等价类优化前和优化后的不同大小等价类的分布情况大致如图7中左侧饼图和右侧饼图所示。
从未优化的左图中可以看出,优化前大小为3的等价类仅占2%左右,而在右图中优化后大小为3的等价类占20%左右;通过优化等价类的分布,在删除约为8%的部分元组后,可以减少整个数据集的泛化程度,降低所保留的匿名数据的信息损失。
下面通过分析不同k值得到的匿名数据集,计算鉴别力度量来分析优化等价类分布匿名数据集的信息可利用性。分别在k等于2、3、4、5的情况下进行实验,得到如表1所示的结果。
表1 优化前后鉴别力度量
Figure BDA0002144047590000061
在不同k值的情况下,优化后删除的原始数据集都约为8%左右。下面绘制如图8所示的折线图,来直观的比较优化前后得到的匿名数据集的鉴别力度量。
从图8中可以看出,在优化之前随着k值的增大,鉴别力度量有所减小,这说明在之前为了使所有的元组都满足匿名原则,出现了过度泛化的情况,通过放宽匿名节点判断条件之后,优化了等价类的分布结构,在删除少量元组后使得到的匿名数据集,其鉴别力度量得到了明显的下降,较好地保证了匿名数据集的信息可利用性。
下面分别对匿名算法和采用最优划分的Mondrian算法数据集进行k为2到6的匿名处理,从隐私泄露平均风险和执行时间两个方面来对匿名效果进行对比,其中平均风险的比较如图9所示,相比于先划分等价类再进行泛化处理的mondrain算法,文中的匿名算法采用全域泛化的方式来验证节点是否匿名,所得到的匿名数据集,在不同k值的实验组中,其隐私泄露的平均风险均比蒙德里安算法要小。
在不同k值的分组中,对两个算法匿名过程执行时间进行比较,实验结果如图10所示,其中当k值小于4时,文中的匿名算法执行时间小于mondrain算法,随着k值的增大,mondrain算法划分等价类的大小更大,划分的粒度变粗,其算法执行时间有所减小,而文中匿名算法则需要搜索更高层次的匿名节点,故当k大于4时,匿名算法的执行时间比mondrain的更长。
2、查询过程中匿名化效果
针对查询过程中动态匿名化效果的分析,对静态脱敏匿名数据集中与所查询子集所对应的匿名数据子集,和对子集动态脱敏所得到的匿名数据集,进行多组不同占比数据集的实验,从隐私风险和数据可利用性两方面,评估动态匿名化的效果。
从图11中可以看出,动态脱敏隐私泄露平均风险在各组实验中,都比静态脱敏的平均风险要低一些,且当子集缩小到20%时,动态脱敏的平均风险大大降低,结果表明采用动态脱敏的方式,在限制数据分析者获得数据集范围的同时,在保护数据隐私方面有着更好的表现,其使在静态脱敏中本不能满足相应匿名原则的那部分匿名数据子集,得以满足相应的匿名原则。
如图12所示,动态脱敏在处理20%至80%的数据集子集时,在进一步保护数据隐私的情况下,信息可利用性基本和静态脱敏一致,而且还有所提升,这说明限制对数据集访问范围的动态脱敏不仅可以保护了数据隐私,也使其匿名化的数据具有良好的可用性。
如图13所示,当数据子集占整个数据集的比例小于20%时,虽然可以进一步保护数据的隐私,但是其鉴别力度量相比静态脱敏大大增加,数据可利用性较低;这是因为数据集子集过小时,本应该被分配到其他等价类中的元组,需要与该子集中的其他元组形成新的等价类,使产生的等价类大小更大。所以,为了保证数据信息的可利用性,动态脱敏所查询的子集所占比例不应过小。
最后在占原始数据集60%的数据子集上,分别使其满足k=3、5、7、9、11的k-匿名原则,进行静态和动态的匿名化过程,评估k值变化对其造成的影响。
实验结果如图14所示,随着k值的增加,静态和动态脱敏隐私泄露风险都在减小,同时,动态匿名化过程相比静态而言,隐私泄露的平均风险均更小,充分说明动态匿名化过程在不同的k值的匿名原则下,均能起到更好的数据隐私保护的效果。
如图15所示,在同样占原始数据集60%的数据子集上,随着k值的增大,动态和静态匿名化过程,匿名数据集信息可利用性基本相同,实验结果表明在不同k值的匿名原则下,相对于传统的静态匿名化过程,动态匿名化得到的数据信息损失没有明显的增加。

Claims (4)

1.一种面向云平台的多域数据隐私保护方法,其特征在于:所述方法的实现过程为:
步骤一、数据匿名化处理,其包括数据静态匿名化步骤,过程为:
首先对原始数据集进行预处理;然后为原始数据集的各个QI属性构建泛化层次;
之后进行满足k-匿名原则的脱敏处理:根据已有的泛化层次信息,构建相应的数据结构以实现满足k匿名原则的匿名算法,来为每个属性选择具体的泛化等级,并根据得到的泛化等级,对原始数据集的数据值进行泛化,将原始数据集转化成相对应的匿名数据集;
对原始数据集进行预处理的具体过程为,提取或收集结构化的记录表型数据,将所述记录表型数据中的数值型代码转换成其所代表的具有实际意义的数值,删除其中属性值为空值的个体,并且将原始数据集导出到csv文件进行存储;
构建属性泛化层次的具体过程为:对不同类型的属性值采用不同的泛化方式,针对整数型有序数据,采用区间的泛化方式;针对字符型数据,采用语义上的范围变化来进行泛化;在泛化方法的选择上,采用要求所有叶子节点的原始属性值,要泛化为同一等级的泛化值的全域泛化;
满足k-匿名原则的脱敏处理过程中,所述匿名算法具体为:匿名算法通过遍历由属性泛化层次组成的泛化格,根据预先定义的属性泛化层次和节点中各个属性所选择的泛化层次等级,来遍历原始数据集对其进行泛化,对每个单独节点进行是否满足k-匿名原则的验证,然后根据当前节点匿名与否来在整个搜索空间上进行剪枝;
匿名算法整体由四部分组成:其中路径寻找算法负责构建一条由未被标记的节点组成的路径;节点审查算法负责审核输入节点是否满足相应的匿名原则并将其进行标记;路径审核算法则负责审查路径上的节点是否满足匿名原则,进而寻找满足条件的优化解;最后一部分是算法整体的外部循环,其负责对整个泛化格结构进行遍历;
将原始数据集转化成相对应的匿名数据集进下操作以对匿名数据集等价类的分布进行优化,
操作如下:针对等价类的分布进行优化,在判断相应节点是否匿名时,放宽审查的条件,当根据当前节点对原始数据集进行泛化时,如果泛化后所有大小小于k的等价类包含的元组数量之和,不超过所有元组数量的1/2时,就将大小小于k的等价类包含的元组删除,从而将该节点视为满足k-匿名原则的匿名节点;
步骤二、原始数据恢复处理:
在原始数据集转化成匿名数据集的过程中建立两者的对应关系来实现原始数据的恢复,其过程为:
首先,对原始数据集中不同的数值进行字典编码,将具体数值与整数编码对应,并根据字典生成原始数据表和属性泛化层次表;在匿名过程中生成与原始数据表具有相同行索引的数据转化表,来记录每一行原始数据泛化后所产生的匿名数据,并维持原始数据表中元组与泛化后的数据转化表中的元组具有相同的行索引,来实现原始数据元组与匿名数据元组索引的一一对应关系,从而实现对原始数据的恢复。
2.根据权利要求1所述的一种面向云平台的多域数据隐私保护方法,其特征在于:步骤一所述的数据匿名化处理还包括数据动态匿名化处理,其过程为:
实现数据动态匿名化的主要步骤在于对原始数据集的查询处理,通过对原始数据集的任意部分数据进行匿名处理,数据分析人员提交查询请求,通过所实现的数据脱敏系统来对转化为内部表示的原始数据集进行实际的查询操作,得到返回的原始数据子集合后,通过匿名算法对原始数据子集合进行满足相应匿名原则的脱敏处理,最后将满足相应需求的匿名数据结果返回给数据分析人员。
3.根据权利要求2所述的一种面向云平台的多域数据隐私保护方法,其特征在于:步骤一所述的数据匿名化处理还包括数据动态匿名化处理,其过程为:
其中所述查询操作主要由查询语句的构建和根据查询语句对原始数据集进行筛选两个部分组成;对于查询语句的构建,数据脱敏代理提供查询语句所需要的相关谓词,包括关系操作符和布尔运算符等,并且提供原始数据集合所包含的属性字段,来构造需要的查询限制条件;对于原始数据集的筛选,其通过查询语句字符串来构建对象选择器selector,并用对象选择器的isSelected函数判断当前对象是否满足相应的查询语句,遍历整个原始数据集后,选择出满足条件的元组对象得到原始数据集子集。
4.根据权利要求1、2或3所述的一种面向云平台的多域数据隐私保护方法,其特征在于:
在步骤二中,数据转化表建立过程为:首先根据匿名算法得到的优化解中各属性的泛化层级,对照各个属性具体的泛化层次表,将原始数据表中的数值按行泛化,得到与原始数据表有相同索引的数据转化表;最后,根据字典中数据值和字典值的对应关系,可以将数据转化表的数值变成相对应的实际数值。
CN201910680596.7A 2019-07-25 2019-07-25 一种面向云平台的多域数据隐私保护方法 Active CN110378148B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910680596.7A CN110378148B (zh) 2019-07-25 2019-07-25 一种面向云平台的多域数据隐私保护方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910680596.7A CN110378148B (zh) 2019-07-25 2019-07-25 一种面向云平台的多域数据隐私保护方法

Publications (2)

Publication Number Publication Date
CN110378148A CN110378148A (zh) 2019-10-25
CN110378148B true CN110378148B (zh) 2023-02-03

Family

ID=68256319

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910680596.7A Active CN110378148B (zh) 2019-07-25 2019-07-25 一种面向云平台的多域数据隐私保护方法

Country Status (1)

Country Link
CN (1) CN110378148B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737703A (zh) * 2019-10-28 2020-10-02 埃睿迪信息技术(北京)有限公司 一种基于动态数据脱敏技术的数据湖安全的实现方法
CN110851864A (zh) * 2019-11-08 2020-02-28 国网浙江省电力有限公司信息通信分公司 一种敏感数据自动识别和处理方法及系统
CN111460494B (zh) * 2020-03-24 2023-04-07 广州大学 面向多模态深度学习的隐私保护方法及系统
CN113902303B (zh) * 2021-10-12 2024-04-16 哈尔滨工业大学 基于用户满意度的隐私模型自动推荐系统、算法、设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101834872A (zh) * 2010-05-19 2010-09-15 天津大学 基于度优先的K-Anonymity匿名算法的数据处理方法
JP2013080375A (ja) * 2011-10-04 2013-05-02 Hitachi Ltd 個人情報匿名化装置及び方法
WO2013072930A2 (en) * 2011-09-28 2013-05-23 Tata Consultancy Services Limited System and method for database privacy protection
WO2016021039A1 (ja) * 2014-08-08 2016-02-11 株式会社 日立製作所 k-匿名化処理システム及びk-匿名化処理方法
CN105512566A (zh) * 2015-11-27 2016-04-20 电子科技大学 一种基于k-匿名的健康数据隐私保护方法
JP2016151908A (ja) * 2015-02-18 2016-08-22 株式会社日立ソリューションズ パーソナル情報匿名化支援装置
CN106021541A (zh) * 2016-05-26 2016-10-12 徐州医科大学 区分准标识符属性的二次k-匿名隐私保护算法
CN106096453A (zh) * 2016-06-27 2016-11-09 徐州医科大学 面向微数据的快速匿名隐私算法
WO2017187207A1 (en) * 2016-04-29 2017-11-02 Privitar Limited Computer-implemented privacy engineering system and method
CN107766745A (zh) * 2017-11-14 2018-03-06 广西师范大学 层次数据发布中的分级隐私保护方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7630986B1 (en) * 1999-10-27 2009-12-08 Pinpoint, Incorporated Secure data interchange
CA2690788C (en) * 2009-06-25 2018-04-24 University Of Ottawa System and method for optimizing the de-identification of datasets
TW201426578A (zh) * 2012-12-27 2014-07-01 Ind Tech Res Inst 匿名資料集的產生方法及裝置與風險評估方法及裝置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101834872A (zh) * 2010-05-19 2010-09-15 天津大学 基于度优先的K-Anonymity匿名算法的数据处理方法
WO2013072930A2 (en) * 2011-09-28 2013-05-23 Tata Consultancy Services Limited System and method for database privacy protection
JP2013080375A (ja) * 2011-10-04 2013-05-02 Hitachi Ltd 個人情報匿名化装置及び方法
WO2016021039A1 (ja) * 2014-08-08 2016-02-11 株式会社 日立製作所 k-匿名化処理システム及びk-匿名化処理方法
JP2016151908A (ja) * 2015-02-18 2016-08-22 株式会社日立ソリューションズ パーソナル情報匿名化支援装置
CN105512566A (zh) * 2015-11-27 2016-04-20 电子科技大学 一种基于k-匿名的健康数据隐私保护方法
WO2017187207A1 (en) * 2016-04-29 2017-11-02 Privitar Limited Computer-implemented privacy engineering system and method
CN106021541A (zh) * 2016-05-26 2016-10-12 徐州医科大学 区分准标识符属性的二次k-匿名隐私保护算法
CN106096453A (zh) * 2016-06-27 2016-11-09 徐州医科大学 面向微数据的快速匿名隐私算法
CN107766745A (zh) * 2017-11-14 2018-03-06 广西师范大学 层次数据发布中的分级隐私保护方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"基于敏感度分级量化的微数据匿名模型研究";周晨炜;《中国优秀硕士学位论文全文数据库》;20190215;全文 *
Achieving k-anonymity privacy protection using generalization and suppression;Sweeney L;《International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems》;20021231;全文 *
Delta-Generalization: High Accuracy Data Release for Privacy Preserving;Liang Wang等;《2016 IEEE TrustCom-BigDataSE-ISPA》;20161231;全文 *

Also Published As

Publication number Publication date
CN110378148A (zh) 2019-10-25

Similar Documents

Publication Publication Date Title
CN110378148B (zh) 一种面向云平台的多域数据隐私保护方法
Cheng et al. K-isomorphism: privacy preserving network publication against structural attacks
Gan et al. Privacy preserving utility mining: a survey
Dwork A firm foundation for private data analysis
Ilyas et al. CORDS: Automatic discovery of correlations and soft functional dependencies
Nelson et al. Security and privacy for big data: A systematic literature review
CN106021541B (zh) 区分准标识符属性的二次k‑匿名隐私保护算法
Zhou et al. Preserving privacy in social networks against neighborhood attacks
Kabir et al. Efficient systematic clustering method for k-anonymization
CN107766745B (zh) 层次数据发布中的分级隐私保护方法
Zakerzadeh et al. Faanst: fast anonymizing algorithm for numerical streaming data
Li et al. Anonymization by local recoding in data with attribute hierarchical taxonomies
CN109325062B (zh) 一种基于分布式计算的数据依赖挖掘方法及系统
Gionis et al. k-Anonymization revisited
KR101197443B1 (ko) K-익명성을 제공하는 정보 보호 방법 및 장치
CN113254988A (zh) 高维敏感数据隐私分级保护发布方法、系统、介质及设备
CN116186757A (zh) 一种效用增强的条件特征选择差分隐私数据发布方法
Dewri et al. On the Optimal Selection of k in the k-Anonymity Problem
Batra et al. Incremental maintenance of abac policies
Irudayasamy et al. Parallel bottom-up generalization approach for data anonymization using map reduce for security of data in public cloud
Weng et al. Multi-level privacy preserving k-anonymity
Li et al. Optimal k-anonymity with flexible generalization schemes through bottom-up searching
Spiegel et al. TuG synopses for approximate query answering
Kobayashi et al. Probabilistic scoring methods to assist entity resolution systems using boolean rules
Ding et al. Efficient subgraph search on large anonymized graphs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant