CN110378148B

CN110378148B - 一种面向云平台的多域数据隐私保护方法

Info

Publication number: CN110378148B
Application number: CN201910680596.7A
Authority: CN
Inventors: 张伟哲; 何慧; 方滨兴; 刘川意; 郭睿
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2019-07-25
Filing date: 2019-07-25
Publication date: 2023-02-03
Anticipated expiration: 2039-07-25
Also published as: CN110378148A

Abstract

一种面向云平台的多域数据隐私保护方法，涉及多域数据隐私保护技术领域。本发明为了解决现有的多域数据隐私保护方法一般采用静态匿名来发布数据，不够灵活，不能限制数据分析人员获得的数据范围，无法满足使用原始数据的需求的问题。本发明包括数据匿名化处理和原始数据恢复处理；本发明针对数据分析和事务处理场景下的具体需求，来采用相应的隐私保护策略，对不同领域的结构化数据表，通过数据匿名为主体的隐私保护技术，来达到减少云端数据隐私泄露风险的效果，同时满足一定事务处理上的需求。将匿名后数据存储并用于数据分析，降低隐私信息泄露的风险，对数据进行动态的匿名化，限制数据分析人员可以获得的数据范围，同时更好的保护数据隐私。

Description

一种面向云平台的多域数据隐私保护方法

技术领域

本发明涉及一种面向云平台的多域数据隐私保护方法，涉及多域数据隐私保护技术领域。

背景技术

随着云计算的发展和广泛使用，更多用户数据被收集和存储到云平台中，其方便了对数据的使用和共享，同时通过数据挖掘等方法分析数据为用户带来了便利，也为企业带来了收益；然而随着存储和处理的数据量越来越大，通过外部数据表识别出数据中用户信息的链接攻击等时有发生，使用户信息面临隐私泄露的风险，也给企业的效益和信誉造成了极大的损失。因此，对于在云平台上产生和存储大规模数据的企业和组织而言，保证正常数据使用的同时，降低用户数据隐私泄露的可能性，对于用户数据隐私的保护和企业级应用技术的发展有着重要的意义。不同领域的大量记录表型数据，都有存储在云平台上的需求，来方便对数据提供者收集数据和数据使用者访问分析数据。现有多域数据隐私保护方法一般采用静态匿名来发布数据，不够灵活，不能限制数据分析人员获得的数据范围，一般没有设置将匿名数据恢复至原始数据的过程，无法满足使用原始数据的需求。

发明内容

本发明要解决的技术问题是：

本发明为了解决现有的多域数据隐私保护方法一般采用静态匿名来发布数据，不够灵活，不能限制数据分析人员获得的数据范围，无法满足使用原始数据的需求的问题。进而提供了一种面向云平台的多域数据隐私保护方法。

本发明解决上述技术问题所采取的技术方案为：

一种面向云平台的多域数据隐私保护方法，所述方法的实现过程为：

步骤一、数据匿名化处理，其包括数据静态匿名化步骤，过程为：

首先对原始数据集进行预处理；然后为数据集的各个QI属性构建泛化层次；

之后进行满足k-匿名原则的脱敏处理：根据已有的泛化层次信息，构建相应的数据结构以实现满足k匿名原则的匿名算法，来为每个属性选择具体的泛化等级，并根据得到的泛化等级，对原始数据集的数据值进行泛化，将原始数据集转化成相对应的匿名数据集；

步骤二、原始数据恢复处理：

在原始数据集转化成匿名数据集的过程中建立两者的对应关系来实现原始数据的恢复，其过程为：

首先，对原始数据集中不同的数值进行字典编码，将具体数值与整数编码对应，并根据字典生成原始数据表和属性泛化层次表；在匿名过程中生成与原始数据表具有相同行索引的数据转化表，来记录每一行原始数据泛化后所产生的匿名数据，并维持原始数据表中元组与泛化后的数据转化表中的元组具有相同的行索引，来实现原始数据元组与匿名数据元组索引的一一对应关系，从而实现对原始数据的恢复。

进一步地，在步骤一中，对原始数据集进行预处理的具体过程为，提取或收集结构化的记录表型数据(如，可以具体为相应属性的美国人口普查数据)，将所述记录表型数据中的数值型代码转换成其所代表的具有实际意义的数值，删除其中属性值为空值的个体，并且将原始数据集导出到csv文件进行存储。

进一步地，在步骤一中，构建属性泛化层次的具体过程为：对不同类型的属性值采用不同的泛化方式，针对整数型有序数据，采用区间的泛化方式；针对字符型数据，采用语义上的范围变化来进行泛化；在泛化方法的选择上，采用要求所有叶子节点的原始属性值，要泛化为同一等级的泛化值的全域泛化。

进一步地，在步骤一中，满足k-匿名原则的脱敏处理过程中，所述匿名算法具体为：匿名算法通过遍历由属性泛化层次组成的泛化格，根据预先定义的属性泛化层次和节点中各个属性所选择的泛化层次等级，来遍历原始数据集对其进行泛化，对每个单独节点进行是否满足k匿名原则的验证，然后根据当前节点匿名与否来在整个搜索空间上进行剪枝；

匿名算法整体由四部分组成：其中路径寻找算法负责构建一条由未被标记的节点组成的路径；节点审查算法负责审核输入节点是否满足相应的匿名原则并将其进行标记；路径审核算法则负责审查路径上的节点是否满足匿名原则，进而寻找满足条件的优化解；最后一部分是算法整体的外部循环，其负责对整个泛化格结构进行遍历。

进一步地，在步骤一中，将原始数据集转化成相对应的匿名数据集进下操作以对匿名数据集等价类的分布进行优化，

操作如下：针对等价类的分布进行优化，在判断相应节点是否匿名时，放宽审查的条件，当根据当前节点对整个数据集进行泛化时，如果泛化后所有大小小于k的等价类包含的元组数量之和，不超过所有元组数量的1/2时，就将大小小于k的等价类包含的元组删除，从而将该节点视为满足k-匿名原则的匿名节点。

进一步地，步骤一所述的数据匿名化处理还包括数据动态匿名化处理，其过程为：

实现数据动态匿名化(动态脱敏)的主要步骤在于对原始数据集合的查询处理，通过对原始数据集的任意部分数据进行匿名处理，数据分析人员提交查询请求，通过所实现的数据脱敏系统来对转化为内部表示的原始数据集进行实际的查询操作，得到返回的原始数据子集合后，通过匿名算法对数据子集进行满足相应匿名原则的脱敏处理，最后将满足相应需求的匿名数据结果返回给数据分析人员。

进一步地，步骤一所述的数据匿名化处理还包括数据动态匿名化处理，其过程为：其中所述查询操作主要由查询语句的构建和根据查询语句对原始数据集进行筛选两个部分组成。对于查询语句的构建，数据脱敏代理提供查询语句所需要的相关谓词，包括关系操作符和布尔运算符等，并且提供原始数据集合所包含的属性字段，来构造需要的查询限制条件；对于原始数据集的筛选，其通过查询语句字符串来构建对象选择器selector，并用对象选择器的isSelected函数判断当前对象是否满足相应的查询语句，遍历整个原始数据集后，选择出满足条件的元组对象得到原始数据集子集。

进一步地，在步骤二中，数据转化表建立过程为：首先根据匿名算法得到的优化解中各属性的泛化层级，对照各个属性具体的泛化层次表，将原始数据表中的数值按行泛化，得到与原始数据表有相同索引的数据转化表；最后，根据字典中数据值和字典值的对应关系，可以将数据转化表的数值变成相对应的实际数值。

本发明具有以下有益技术效果：

本发明针对数据分析和事务处理场景下的具体需求，来采用相应的隐私保护策略，对不同领域的结构化数据表，通过数据匿名为主体的隐私保护技术，来达到减少云端数据隐私泄露风险的效果，同时满足一定事务处理上的需求。

针对存储过程中的数据分析需求，对数据进行静态匿名化处理，将匿名后数据存储并用于数据分析，来降低隐私信息泄露的风险，在查询过程中，对数据进行动态的匿名化，限制数据分析人员可以获得的数据范围，同时更好的保护数据隐私。而现有多域数据隐私保护方法一般采用静态匿名来发布数据，不够灵活，不能限制数据分析人员获得的数据范围，一般没有设置将匿名数据恢复至原始数据的过程，无法满足使用原始数据的需求。本发明完全能满足使用原始数据的需求。

针对事务处理场景，本发明将匿名数据恢复成对应的原始数据，来满足使用数据的需要。

附图说明

图1为数据脱敏流程的流程框图，图2为婚姻状况树状泛化层次结构图(图2中的英文为算法的公知述语)，图3为泛化格的表达图，图4为数据动态脱敏流程图，图5为原始数据恢复流程图，图6为数据转化表的建立流程框图，

图7为等价类分布图，图8为优化前后鉴别力度量的对经图，图9为平均风险比较图，图10为执行时间比较图，图11为静态与动态脱敏隐私风险比较图，图12为数据可利用性比较图，图13为低比例下数据可利用性比较图，图14为不同k值下隐私泄露风险对比图，图15不同k值下数据可利用性比较图。

具体实施方式

结合附图对本发明所述的面向云平台的多域数据隐私保护方法的具体实现过程进下如下阐述：

数据静态匿名化过程

数据匿名化的大致流程如图1所示，首先对原始数据集进行预处理，然后为数据集的各个QI属性构建泛化层次，之后根据已有的泛化层次等信息，构建相应的数据结构，实现满足k-匿名原则的具体算法，来为每个属性选择具体的泛化等级，并根据得到的泛化等级，对原始数据集的数据值进行泛化处理，将原始数据集转化成相对应的匿名数据集。

在数据处理阶段，提取相应属性的美国人口普查数据，将其中的数值型代码转换成其所代表的具有实际意义的数值，删除其中属性值为空值的个体，并且将原始数据集导出到csv文件进行存储。

对于属性泛化层次的建立，对不同类型的属性值采用不同的泛化方式，如针对整数型有序数据，可以采用区间的泛化方式，针对字符型数据，可以采用语义上的范围变化来进行泛化，具体的泛化层次结构示例如图2所示；在泛化方法的选择上，采用要求所有叶子节点的原始属性值，要泛化为同一等级的泛化值的全域泛化。

匿名算法通过遍历由属性泛化层次组成的如图3所示的泛化格，根据预先定义的属性泛化层次，和节点中各个属性所选择的泛化层次等级，来遍历原始数据集对其进行泛化，对每个单独节点进行是否满足k-匿名原则的验证，然后根据当前节点匿名与否来在整个搜索空间上进行剪枝。算法整体由四部分组成，其中路径寻找算法负责构建一条由未被标记的节点组成的路径；标记指的是该节点已经被节点审查算法审核过，被标记为是否满足相应的匿名原则；路径审核算法则负责审查路径上的节点是否满足匿名原则，进而寻找满足条件的最优化解；最后一部分是算法整体的外部循环，其负责对整个泛化格结构进行遍历。

仅通过全域泛化来得到的满足k-匿名原则的数据集中，等价类大小接近k的等价类数量较少，这说明为了满足相应的匿名原则，整个数据集进行了过度的泛化，从而使得不少等价类大小远远大于k值。因此，针对等价类的分布进行优化，在判断相应节点是否匿名时，适当放宽审查的条件，当根据当前节点对整个数据集进行泛化时，如果泛化后所有大小小于k的等价类包含的元组之和，不超过所有元组数量的1/2时，就可以将这些元组删除，从而将该节点视为满足k-匿名原则的匿名节点。

数据动态匿名化过程

实现动态脱敏过程的主要步骤在于对原始数据集合的查询处理，通过对原始数据集的任意部分数据进行匿名处理，来实现灵活、动态的数据匿名化操作流程。该方式的大致实现过程如图4所示，其中数据分析人员提交查询请求，通过所实现的数据脱敏系统来对转化为内部表示的原始数据集进行实际的查询操作，得到返回的原始数据子集合后，通过匿名算法对数据子集进行满足相应匿名原则的脱敏处理，最后将满足相应需求的匿名数据结果返回给数据分析人员。

其中查询操作主要由查询语句的构建和根据查询语句对原始数据集进行筛选两个部分组成。对于查询语句的构建，数据脱敏代理提供查询语句所需要的相关谓词，包括关系操作符和布尔运算符等，并且提供原始数据集合所包含的属性字段，来构造需要的查询限制条件；对于原始数据集的筛选，其通过查询语句字符串来构建对象选择器selector，并用对象选择器的isSelected函数判断当前对象是否满足相应的查询语句，遍历整个原始数据集后，选择出满足条件的元组对象得到原始数据集子集。

原始数据恢复过程

针对数据匿名后原始数据的恢复问题，因为无法从泛化后的匿名元组组成的等价类中，区分出元组在原始数据集中所对应的具体元组，所以需要在数据匿名化的过程之中，建立匿名后元组与原始数据元组的对应关系。首先，对原始数据集中不同的数值进行字典编码，将具体数值与整数编码对应，并根据字典生成原始数据表和属性泛化层次表；在匿名过程中生成与原始数据表具有相同行索引的数据转化表，来记录每一行原始数据泛化后所产生的匿名数据，并维持原始数据表中元组与泛化后的数据转化表中的元组具有相同的行索引，来实现原始数据元组与匿名数据元组索引的一一对应关系，从而实现对原始数据的恢复，其实现的大致过程如图5所示。

其中数据转化表建立过程如图6所示，首先根据匿名算法得到的优化解中各属性的泛化层级，对照各个属性具体的泛化层次表，将原始数据表中的数值按行泛化，得到与原始数据表有相同索引的数据转化表。最后，根据字典中数据值和字典值的对应关系，可以将数据转化表的数值变成相对应的实际数值。

针对本发明的技术效果的验证如下：

1、存储过程中匿名化效果

针对存储过程中静态匿名化效果的分析，对美国人口普查数据集进行满足3-匿名原则匿名化处理，在得到的整体匿名数据集中，等价类优化前和优化后的不同大小等价类的分布情况大致如图7中左侧饼图和右侧饼图所示。

从未优化的左图中可以看出，优化前大小为3的等价类仅占2％左右，而在右图中优化后大小为3的等价类占20％左右；通过优化等价类的分布，在删除约为8％的部分元组后，可以减少整个数据集的泛化程度，降低所保留的匿名数据的信息损失。

下面通过分析不同k值得到的匿名数据集，计算鉴别力度量来分析优化等价类分布匿名数据集的信息可利用性。分别在k等于2、3、4、5的情况下进行实验，得到如表1所示的结果。

表1 优化前后鉴别力度量

在不同k值的情况下，优化后删除的原始数据集都约为8％左右。下面绘制如图8所示的折线图，来直观的比较优化前后得到的匿名数据集的鉴别力度量。

从图8中可以看出，在优化之前随着k值的增大，鉴别力度量有所减小，这说明在之前为了使所有的元组都满足匿名原则，出现了过度泛化的情况，通过放宽匿名节点判断条件之后，优化了等价类的分布结构，在删除少量元组后使得到的匿名数据集，其鉴别力度量得到了明显的下降，较好地保证了匿名数据集的信息可利用性。

下面分别对匿名算法和采用最优划分的Mondrian算法数据集进行k为2到6的匿名处理，从隐私泄露平均风险和执行时间两个方面来对匿名效果进行对比，其中平均风险的比较如图9所示，相比于先划分等价类再进行泛化处理的mondrain算法，文中的匿名算法采用全域泛化的方式来验证节点是否匿名，所得到的匿名数据集，在不同k值的实验组中，其隐私泄露的平均风险均比蒙德里安算法要小。

在不同k值的分组中，对两个算法匿名过程执行时间进行比较，实验结果如图10所示，其中当k值小于4时，文中的匿名算法执行时间小于mondrain算法，随着k值的增大，mondrain算法划分等价类的大小更大，划分的粒度变粗，其算法执行时间有所减小，而文中匿名算法则需要搜索更高层次的匿名节点，故当k大于4时，匿名算法的执行时间比mondrain的更长。

2、查询过程中匿名化效果

针对查询过程中动态匿名化效果的分析，对静态脱敏匿名数据集中与所查询子集所对应的匿名数据子集，和对子集动态脱敏所得到的匿名数据集，进行多组不同占比数据集的实验，从隐私风险和数据可利用性两方面，评估动态匿名化的效果。

从图11中可以看出，动态脱敏隐私泄露平均风险在各组实验中，都比静态脱敏的平均风险要低一些，且当子集缩小到20％时，动态脱敏的平均风险大大降低，结果表明采用动态脱敏的方式，在限制数据分析者获得数据集范围的同时，在保护数据隐私方面有着更好的表现，其使在静态脱敏中本不能满足相应匿名原则的那部分匿名数据子集，得以满足相应的匿名原则。

如图12所示，动态脱敏在处理20％至80％的数据集子集时，在进一步保护数据隐私的情况下，信息可利用性基本和静态脱敏一致，而且还有所提升，这说明限制对数据集访问范围的动态脱敏不仅可以保护了数据隐私，也使其匿名化的数据具有良好的可用性。

如图13所示，当数据子集占整个数据集的比例小于20％时，虽然可以进一步保护数据的隐私，但是其鉴别力度量相比静态脱敏大大增加，数据可利用性较低；这是因为数据集子集过小时，本应该被分配到其他等价类中的元组，需要与该子集中的其他元组形成新的等价类，使产生的等价类大小更大。所以，为了保证数据信息的可利用性，动态脱敏所查询的子集所占比例不应过小。

最后在占原始数据集60％的数据子集上，分别使其满足k＝3、5、7、9、11的k-匿名原则，进行静态和动态的匿名化过程，评估k值变化对其造成的影响。

实验结果如图14所示，随着k值的增加，静态和动态脱敏隐私泄露风险都在减小，同时，动态匿名化过程相比静态而言，隐私泄露的平均风险均更小，充分说明动态匿名化过程在不同的k值的匿名原则下，均能起到更好的数据隐私保护的效果。

如图15所示，在同样占原始数据集60％的数据子集上，随着k值的增大，动态和静态匿名化过程，匿名数据集信息可利用性基本相同，实验结果表明在不同k值的匿名原则下，相对于传统的静态匿名化过程，动态匿名化得到的数据信息损失没有明显的增加。

Claims

1.一种面向云平台的多域数据隐私保护方法，其特征在于：所述方法的实现过程为：

首先对原始数据集进行预处理；然后为原始数据集的各个QI属性构建泛化层次；

对原始数据集进行预处理的具体过程为，提取或收集结构化的记录表型数据，将所述记录表型数据中的数值型代码转换成其所代表的具有实际意义的数值，删除其中属性值为空值的个体，并且将原始数据集导出到csv文件进行存储；

构建属性泛化层次的具体过程为：对不同类型的属性值采用不同的泛化方式，针对整数型有序数据，采用区间的泛化方式；针对字符型数据，采用语义上的范围变化来进行泛化；在泛化方法的选择上，采用要求所有叶子节点的原始属性值，要泛化为同一等级的泛化值的全域泛化；

满足k-匿名原则的脱敏处理过程中，所述匿名算法具体为：匿名算法通过遍历由属性泛化层次组成的泛化格，根据预先定义的属性泛化层次和节点中各个属性所选择的泛化层次等级，来遍历原始数据集对其进行泛化，对每个单独节点进行是否满足k-匿名原则的验证，然后根据当前节点匿名与否来在整个搜索空间上进行剪枝；

匿名算法整体由四部分组成：其中路径寻找算法负责构建一条由未被标记的节点组成的路径；节点审查算法负责审核输入节点是否满足相应的匿名原则并将其进行标记；路径审核算法则负责审查路径上的节点是否满足匿名原则，进而寻找满足条件的优化解；最后一部分是算法整体的外部循环，其负责对整个泛化格结构进行遍历；

将原始数据集转化成相对应的匿名数据集进下操作以对匿名数据集等价类的分布进行优化，

操作如下：针对等价类的分布进行优化，在判断相应节点是否匿名时，放宽审查的条件，当根据当前节点对原始数据集进行泛化时，如果泛化后所有大小小于k的等价类包含的元组数量之和，不超过所有元组数量的1/2时，就将大小小于k的等价类包含的元组删除，从而将该节点视为满足k-匿名原则的匿名节点；

步骤二、原始数据恢复处理：

2.根据权利要求1所述的一种面向云平台的多域数据隐私保护方法，其特征在于：步骤一所述的数据匿名化处理还包括数据动态匿名化处理，其过程为：

实现数据动态匿名化的主要步骤在于对原始数据集的查询处理，通过对原始数据集的任意部分数据进行匿名处理，数据分析人员提交查询请求，通过所实现的数据脱敏系统来对转化为内部表示的原始数据集进行实际的查询操作，得到返回的原始数据子集合后，通过匿名算法对原始数据子集合进行满足相应匿名原则的脱敏处理，最后将满足相应需求的匿名数据结果返回给数据分析人员。

3.根据权利要求2所述的一种面向云平台的多域数据隐私保护方法，其特征在于：步骤一所述的数据匿名化处理还包括数据动态匿名化处理，其过程为：

其中所述查询操作主要由查询语句的构建和根据查询语句对原始数据集进行筛选两个部分组成；对于查询语句的构建，数据脱敏代理提供查询语句所需要的相关谓词，包括关系操作符和布尔运算符等，并且提供原始数据集合所包含的属性字段，来构造需要的查询限制条件；对于原始数据集的筛选，其通过查询语句字符串来构建对象选择器selector，并用对象选择器的isSelected函数判断当前对象是否满足相应的查询语句，遍历整个原始数据集后，选择出满足条件的元组对象得到原始数据集子集。

4.根据权利要求1、2或3所述的一种面向云平台的多域数据隐私保护方法，其特征在于：

在步骤二中，数据转化表建立过程为：首先根据匿名算法得到的优化解中各属性的泛化层级，对照各个属性具体的泛化层次表，将原始数据表中的数值按行泛化，得到与原始数据表有相同索引的数据转化表；最后，根据字典中数据值和字典值的对应关系，可以将数据转化表的数值变成相对应的实际数值。