CN106599726A

CN106599726A - 一种基于MapReduce的分布式数据匿名处理方法

Info

Publication number: CN106599726A
Application number: CN201710030621.8A
Authority: CN
Inventors: 黄凯; 张启亮
Original assignee: Jiangsu Xugong Information Technology Ltd By Share Ltd
Current assignee: XCMG Hanyun Technologies Co Ltd
Priority date: 2017-01-16
Filing date: 2017-01-16
Publication date: 2017-04-26
Anticipated expiration: 2037-01-16
Also published as: CN106599726B

Abstract

本发明公开一种基于MapReduce的分布式数据匿名处理方法，包括服务器端和计算机终端，服务器端内存储有数据原表，对数据进行全域泛化，给出可能满足k‑匿名的泛化格；服务器端利用二分法分配给各计算机终端计算节点；各计算机终端并行进行计算，将计算情况向服务器端返回数值；若返回值表示不满足k‑匿名，服务器端则向计算机终端发送一个利用二分法确定的子孙节点；反之，服务器端则向计算机发送一个利用二分法确定的祖先节点；各个计算机终端根据服务器端给出新的节点再次计算，直至找到所有满足k‑匿名的节点。本发明解决了数据爆炸式增长与现今服务器存储和计算能力不足的矛盾，提高了海量数据处理的效率。

Description

一种基于MapReduce的分布式数据匿名处理方法

技术领域

本发明涉及一种基于MapReduce的分布式数据匿名处理方法，属于数据处理技术领域。

背景技术

由于知识决策、信息共享、科学研究的需求，数据拥有者需要将数据对外发布。为了减少数据发布过程中隐私泄露的可能性，数据拥有者有必要在发布前对数据进行隐私保护的相关处理。

目前，Sweeney和Samarati等人提出了k-anonymity隐私保护模型。k-anonymity隐私保护模型能够避免连接攻击发生，对隐私数据信息起到有效的防护作用，但是对于敏感属性信息并没有采取有效的防护手段，仍然存在着隐私数据信息泄漏的风险。在发生同质攻击、背景知识攻击、相似性攻击等情况下，k-anonymity隐私保护模型并不能有效地保护敏感属性信息的安全。

k-anonymity模型作为现今研究最为广泛的匿名模型，近年来不断有学者提出各种算法来实现或者改进k-anonymity隐私模型。Dtafly算法首先统计出每个准标识符属性值出现的次数，然后泛化相同属性值出现次数小于k的属性值，最终使得每个准标识符均满足k-anonymity算法的要求。MinGen最小泛化算法目的在于获得最小信息损失量的泛化结果，它采用完全搜索的方式选出每一步的最优泛化结果，直到所有的数据都满足k-anonymity模型。Incognito算法首先构建包含全域泛化方案的泛化格，然后根据自底向上原则对原始数据进行泛化，使得数据满足k-anonymity模型。Mondrian算法提出了多维k-anonymity模型的概念。

以上提出的隐私模型都是基于单机模式下，它们在处理大数据的隐私保护方面存在着低效率的缺陷。现今流行的隐私保护算法大多都是在单机模式下进行研究的，然而随着大数据时代的来临，这些算法在处理海量数据方面的效率不容乐观。

虽然现今已经有不少学者针对这一缺点提出了许多解决方案，如：Roy等人提出了一个名为Airavat的基于MapReduce的系统，它是强制访控制和差分隐私的集成。Blass等人提出了一个名为PRISM的隐私保护方案，它以Hadoop平台的MapReduce分布式编程模型为基础来执行对加密数据集的文字搜索。Ko等人提出了一个名为HybrEx的MapReduce模型，它提出用一个私有云来处理敏感和隐私数据，然后由其他人安全地扩展到公共云上。但在全域匿名方面还没有一个可行的方案。

发明内容

针对上述现有技术存在的问题，本发明提供一种基于MapReduce的分布式数据匿名处理方法，可以利用多计算机终端协作的优势来实现海量数据的匿名化处理，能解决数据爆炸式增长与现今服务器存储和计算能力不足的矛盾，提高海量数据处理的效率。

为了实现上述目的，本发明采用的一种基于MapReduce的分布式数据匿名处理方法，包括服务器端和多个与服务器端连接的计算机终端，所述服务器端内存储有数据原表，对数据进行全域泛化，给出可能满足k-匿名的泛化格，将泛化节点进行分布式判断；通过分布式计算机终端访问泛化格，服务器端利用二分法分配给各计算机终端计算节点；各个计算机终端同时对分配的节点进行计算，并根据各自的计算情况向服务器端返回数值0或1，0代表节点不满足k-匿名，1代表节点满足k-匿名；若服务器端接收的返回值为0，则服务器端会向相应计算机终端发送一个利用二分法确定的子孙节点；若服务器端接收的返回值为1，则服务器端会向相应计算机发送一个利用二分法确定的祖先节点；各个计算机终端根据服务器端给出的节点再次计算查询节点是否满足k-匿名，直至找到所有满足k-匿名的节点。

一种基于MapReduce的分布式数据匿名处理方法的具体步骤如下：

步骤一、给定一个数据，表T(A₁,...,A_n)及其相关联的准标识符QI_T＝(A_i,...,A_j)，根据先验知识，对准标识符制定相应的泛化规则，预先确定需要满足的k，泛化目的是使当且仅当T[QI_T]中的每一个元组至少在T[QI_T]中出现k次；

步骤二、根据泛化规则、准标识符及其泛化等级生成泛化格，在泛化格的基础上进行全域k-匿名处理；同时，将泛化格的数据结构存储在服务器端的公共存储空间；

步骤三、借鉴二分法的思想，利用子格二分搜索法，将高度处的各个节点分布式分配给各个计算机终端；各个计算机终端根据自身存储的原始数据表、节点准标识符泛化层次及其泛化规则遍历检索计算机终端原始事务数据表，判断是否满足k-匿名，并将所分配节点的检索结果以返回值0或1的形式返回至服务器端；

步骤四、服务器端根据各个计算机终端的返回值，按照以下两种性质返回给相应计算机终端下一次的计算节点：

a、在同一泛化路径中，如果泛化格中的节点m是k-匿名节点，那么比节点m高的节点也是k-匿名节点；

b、在同一泛化路径中，如果泛化格中的节点m是非k-匿名节点，那么比节点m低的节点也是非k-匿名节点；

如果返回值为1，则服务器端mark此节点所在公共存储空间的泛化格中的所有子孙节点，并向对应的计算机终端发送根据二分法确定的祖先节点；

如果返回值为0，则服务器端删除此节点及其所有祖先节点，并向对应的计算机终端发送根据二分法搜索未被mark的子孙节点，等待分配；

步骤五、各计算机终端接收服务器端再次分配的节点，并循环执行步骤三至四，直至泛化格中所有的节点都被mark完毕；

步骤六、服务器端将所有被mark过的节点，按照存储格式导出所有满足k-匿名的节点数据表。

与现有技术相比，本发明中服务器端利用二分法分配给各计算机终端需要计算的节点，并利用多台终端计算机做并行处理。每个计算机终端数据处理完成后会生成一个本地文件来存储本地数据处理的结果，同时把本次处理完成的处理结果传送至服务器端。服务器端根据返回值循环使用二分查找法在泛化格上进行搜索，确定各计算机终端下次任务需要处理的节点，并将搜索结果发送到该计算机终端。通过服务器端存储大量数据泛化格，而不需要各个计算机终端重复存储泛化格，计算机终端计算节点只需要接受服务器端给出的计算节点，在本机上进行数据匿名搜索，确定本节点是否满足k-匿名。最终，利用多个计算机终端协作的优势来实现海量数据的匿名化处理，利用二分法全域搜索泛化格，解决了数据爆炸式增长与现今服务器存储和计算能力不足的矛盾，同时能够高效地处理海量数据，提高了终端计算数据的效率。

附图说明

图1为本发明的拓扑示意图；

图2为本发明全域泛化网格；

图3为本发明泛化格被标记及删除节点示意图；

图4为本发明删除不满足k-匿名节点的示意图；

图5为本发明基于MapReduce的分布式数据匿名处理流程图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明。

如图1和图5所示，一种基于MapReduce的分布式数据匿名处理方法，包括服务器端和多个与服务器端连接的计算机终端，所述服务器端内存储有数据原表，对数据进行全域泛化，给出可能满足k-匿名的泛化格，将泛化节点进行分布式判断；通过分布式计算机终端访问泛化格，服务器端利用二分法分配给各计算机终端计算节点；各个计算机终端同时对分配的节点进行计算，并根据各自的计算情况向服务器端返回数值0或1，0代表节点不满足k-匿名，1代表节点满足k-匿名；若服务器端接收的返回值为0，则服务器端会向相应计算机终端发送一个利用二分法确定的子孙节点；若服务器端接收的返回值为1，则服务器端会向相应计算机发送一个利用二分法确定的祖先节点；各个计算机终端根据服务器端给出的节点再次计算查询节点是否满足k-匿名，直至找到所有满足k-匿名的节点。其中，将泛化节点进行分布式判断是指将多个泛化节点传送给分布式集群，集群中每个计算机终端进行一个泛化节点是否满足k-匿名的判断，即利用分布式计算机终端同时计算多个泛化节点的泛化数据表的情况，节省了大量的时间。子孙节点是指返回值所在节点进一步泛化的节点，即泛化格中返回值所在节点直接或间接指向的泛化节点(泛化节点是一个名词，每个泛化节点是泛化格上的一个节点，代表一个泛化策略)。祖先节点是指比返回值所在节点泛化程度低的节点，即泛化格中直接或间接指向返回值所在节点的泛化节点。

步骤一、给定一个数据，表T(A₁,...,A_n)及其相关联的准标识符QI_T＝(A_i,...,A_j)，根据先验知识，对准标识符制定相应的泛化规则，预先确定需要满足的k，泛化目的是使当且仅当T[QI_T]中的每一个元组至少在T[QI_T]中出现k次；其中，k表示给定的隐私约束，即在匿名表中每条数据至少出现k次；

如果返回值为0，则服务器端删除此节点(此节点指返回值所表示的节点)及其所有祖先节点，并向对应的计算机终端发送根据二分法搜索未被mark的子孙节点，等待分配，其中，未mark表示该节点未经过是否满足k-匿名判断；

这样以多台计算机终端分布式计算，不仅可以减轻服务器端工作量，还可以省去不必要的重复计算，这样可以高效的实现数据的隐私保护。这样各计算机终端与服务器端进行循环传送计算数据，直到全域泛化网格全部被遍历过，留下所以被mark过的节点。因此，使用多台计算机终端分布式计算机会更加高效。

实施例：

以具有四个准标识符的数据表为例，其具体实现过程如下：

步骤一、首选，确定数据表的准标识符，以一个具有四个准标识符(Supplier、Code、Price、Time)的数据表为例进行数据处理，泛化规则如下：S0(供货商)、C0(物料编码)、P0(物料价格)、T0(工序时间)为准标识符，用于泛化的属性。根据先验知识，对准标识符制定相应的泛化规则：

例如，把{徐州市某有限公司,北京某有限公司,合肥某有限公司,苏州某有限公司,……}属性从h＝0泛化到h＝1层变成性别{江苏省，北京市，安徽省,……},从h＝1泛化到h＝2泛化为{中国}；把工序具体时间(T)等泛化为{≤30min，>30min}；把不同物料的价格从数值型转化为分类型，0-1000为低价类型，1000-10万为一般类型，10万-100万高价类型，那么不同的物料价格通过1层泛化变为{低价，一般，高价}；最后不同物品编码通过2层泛化变为35720****；

具体如下：

{徐州市某有限公司,北京某有限公司,合肥某有限公司,苏州某有限公司,...}--{江苏省,北京市,安徽省,…}--{中国}；

{357201872,357201874,357201822,357201775,357201776,357201779,357201676,357201674,…}--{3572018**,3572017**,3572016**,…}--{35720****}；

{2200,5600,5,10,35,880,200,12000,150000,…}--{低价，一般，高价}；

{28min,29min,30min,29min,28min,…}--{≤30min，>30min}。

步骤二、根据此泛化规则，服务器端把四种准备标识符进行组合，构建如图2所示的全域泛化网格图，泛化过程遍历了整个格空间。泛化格及每个节点的存储路径会备份存储在服务器端中。

步骤三、服务器端利用二分法搜索，将一半高度处的各个节点，即<S2,C1,P0,T0>、<S2,C0,P1,T0>、<S2,C0,P0,T1>、<S1,C2,P0,T0>、<S1,C1,P1,T0>、<S1,C1,P0,T1>、<S1,C0,P1,T1>、<S0,C2,P1,T0>、<S0,C2,P0,T1>、<S0,C1,P1,T1>节点，平均分配给拓扑结构中的分布式计算机终端，各个计算机终端根据自身存储的原始数据表、节点代表的准标识符及其泛化规则遍历检索计算机原始事务数据表，计算分配的节点是否满足k-匿名。接着，各计算机终端将各自检索结果返回至服务器端，若该节点满足k-匿名给出返回值为1，若不满足k-匿名，给出返回值0。

步骤四、根据k-匿名的两种性质：在同一泛化路径中，如果泛化格中的节点n是k-匿名节点，那么比n高的节点也是k-匿名节点；在同一泛化路径中，如果泛化格中的节点n是非k-匿名节点，那么比n低的节点也是非k-匿名节点。由以上两种性质及计算机终端的返回值，服务器端判定该节点是否满足k-匿名。如果各计算机端返回值为1，则服务器端mark公共存储空间中泛化格的返回值所在节点的所有子孙节点，根据二分法找到未被mark的祖先节点，服务器端把祖先节点再分配给各计算机端进行k-匿名判断；如果各计算机终端返回值为0，则删除其所有祖父节点，根据二分法找到未被mark的子节点，服务器端把子孙节点再分配给各计算机端进行k-匿名判断。

步骤五、服务器端把满足k-匿名的所有节点存储到服务器当中，同时再次分配给计算机终端节点。计算机终端根据服务器分配任务循环执行步骤三至四，直到泛化格中所有的节点都被mark过。

步骤六、通过各计算机终端计算，服务器端mark所有满足k-匿名的节点，同时存储，最后按照泛化规则导出匿名过后的数据表。

最后，可按照公式:

计算匿名后的数据表的准确度。式中：NCP_N(x)表示匿名后数据表的一个等价类的数值型属性准确度，NCP_C(x)表示匿名后数据表的一个等价类的分类型属性准确度，Range(x)表示数值型属性A在等价组x的分布范围，Range(R_a)表示数值型属性A在整张表的分布范围，|Sub(x)|表示分类型属性C在等价组x的不同属性值的个数，|Sub(R_a)|表示分类型属性C在整张表的不同属性值的个数，n、m表示数值型属性的数量、分类型属性的数量，l表示等价组的个数。

假设：步骤三中将两个节点<S2,C1,P0,T0>和<S0,C2,P0,T1>分别分配给两个计算机终端A、B进行计算。

计算机终端A根据泛化规则，计算查询原表，结果得出节点<S2,C1,P0,T0>符合k-匿名，此时，计算机终端A会返回给服务器端一个数值1。同时，由于在同一泛化路径中，如果泛化格中的节点m是k-匿名节点，那么比节点m高的节点也是k-匿名节点，因此服务器端收到返回值1后，系统会把节点<S2,C1,P0,T0>以及经过该节点的子路径上的所有节点全部mark，标记后的节点将不会被访问。节点<S2,C1,P0,T0>的所有子孙节点有<S2,C2,P0,T0>、<S2,C1,P1,T0>、<S2,C1,P0,T1>、<S2,C2,P1,T0>、<S2,C2,P0,T1>、<S2,C1,P1,T1>、<S2,C2,P1,T1>。

节点<S0,C2,P0,T1>经过计算机终端B计算后，发现其不满足k-匿名，此时计算机终端B会返回给服务器端一个0值。同时，由于在同一泛化路径中，如果泛化格中的节点m是非k-匿名节点，那么比m低的节点也是非k-匿名节点，因此服务器端根据返回值0进行系统操作，删除节点<S0,C2,P0,T1>及通向节点<S0,C2,P0,T1>路径上的所有祖先节点，如图3所示，通向节点<S0,C2,P0,T1>(从<S0,C0,P0,T0>到达<S0,C2,P0,T1>)路径上的的节点<S0,C2,P0,T0>、<S0,C1,P0,T0>、<S0,C0,P0,T0>、<S0,C1,P0,T1>、<S0,C0,P0,T1>被删除。

同时，服务器端按照二分法搜索节点<S2,C1,P0,T0>的祖先节点和节点<S0,C2,P0,T1>子孙节点中未被mark的子孙节点。从图4可知，服务器端将返回计算机终端A一个节点<S1,C0,P0,T0>，返回给计算机终端B一个节点<S1,C2,P1,T1>，计算机终端A、B再进一步计算这两节点是否满足k-匿名。

本发明首先在每台计算机终端存储原始数据表，其中的一台计算机作为服务器端设备，确定数据集准标识符个数及属性，制定泛化规则并计算出数据集所有可能的泛化情况，形成自底向上的泛化格，按照父、子节点的结构来进行存储。利用二分方法取泛化树的处的节点，服务器端将每个节点分配给分布式计算机终端，多台计算机终端同时对数据计算。服务器端根据返回值来mark相应子孙节点或者删除祖先节点，再次分配任务。每台计算机的计算结果传送至服务器端，最终找到所有满足匿名规则的节点。本发明基于MapReduce的分布式数据匿名处理方法，通过多台终端计算机同时运行处理数据，高效快速地给出所有符合k-匿名的数据，解决了数据爆炸式增长与现今服务器存储和计算能力不足的矛盾，同时能够高效地处理海量数据，提高了终端计算数据的效率。

Claims

1.一种基于MapReduce的分布式数据匿名处理方法，其特征在于，包括服务器端和多个与服务器端连接的计算机终端，

所述服务器端内存储有数据原表，对数据进行全域泛化，给出可能满足k-匿名的泛化格，将泛化节点进行分布式判断；

通过分布式计算机终端访问泛化格，服务器端利用二分法分配给各计算机终端计算节点；各个计算机终端同时对分配的节点进行计算，并根据各自的计算情况向服务器端返回数值0或1，0代表节点不满足k-匿名，1代表节点满足k-匿名；若服务器端接收的返回值为0，则服务器端会向相应计算机终端发送一个利用二分法确定的子孙节点；若服务器端接收的返回值为1，则服务器端会向相应计算机发送一个利用二分法确定的祖先节点；各个计算机终端根据服务器端给出的节点再次计算查询节点是否满足k-匿名，直至找到所有满足k-匿名的节点。

2.根据权利要求1所述的一种基于MapReduce的分布式数据匿名处理方法，其特征在于，所述匿名处理方法的具体步骤如下：