CN106503575B

CN106503575B - 一种分布式关联规则挖掘隐私信息保护方法

Info

Publication number: CN106503575B
Application number: CN201610844383.XA
Authority: CN
Inventors: 凌捷; 张燕平; 谢锐; 龚怡
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2016-09-22
Filing date: 2016-09-22
Publication date: 2019-03-05
Anticipated expiration: 2036-09-22
Also published as: CN106503575A

Abstract

本发明提出了一种分布式关联规则挖掘隐私信息保护方法。算法应用差分隐私算法与同态加密技术，引入半可信第三方，将各站点的数据集匿名化，利用Paillier算法计算全局支持数，利用Shamir秘密共享技术将Paillier算法的解密密钥分解发送到各站点。本发明提出的算法具有站点之间无须通信、支持数传输安全、第三方难以计算站点信息等优点。

Description

一种分布式关联规则挖掘隐私信息保护方法

技术领域

本发明涉及数据挖掘技术领域，特别涉及一种分布式关联规则挖掘隐私信息保护方法。

背景技术

伴随着数据挖掘技术在各个领域的广泛应用，数据挖掘对用户的隐私和数据安全所造成的威胁越来越引起人们的关注。在涉及企业敏感数据(如电子病历中包含的医院医疗业务或财务状况)或个人隐私信息(如电子病历中包含的患者隐私病症)的各种数据挖掘日常应用中，对于如何提高数据的安全性引起了学者的广泛关注。

目前国内外的隐私保护数据挖掘算法主要有基于数据扰乱的、基于查询限制等方法，在分布式环境下主要有基于查询限制或数据扰乱和查询限制混合使用等方法。数据扰乱首先通过数据离散化、数据随机变换和增加噪声等操作对原始数据进行干扰，对干扰后的数据进行挖掘，减少挖掘中隐私的泄漏；查询限制则是通过数据隐藏、抽样、划分或加密等方式，再利用概率统计或分布式计算的方法得到挖掘结果，以达到保护数据的目的。目前分布式环境下关联规则挖掘隐私保护算法较多的使用同态加密技术，该技术最主要的特点是对经过同态加密的数据进行处理得到一个输出，将这一输出进行解密，其结果与用同一方法处理未加密的原始数据得到的输出结果是一样的。在将该技术运用在分布式关联规则挖掘中时，私钥拥有者容易通过两两计算站点的信息，获得足够多的方程组后，解出各站点数据集中项集的支持度信息造成隐私泄漏。

发明内容

针对现有技术存在的不足，本发明提出一种分布式关联规则挖掘隐私信息保护方法，增强在水平分布式环境下关联规则挖掘中各站点支持度和个体信息的安全性。

一种分布式关联规则挖掘隐私信息保护方法，其特征包含于以下步骤：

1)各站点使用差分隐私算法对各自拥有的数据集进行匿名化操作；

2)引入的半可信第三方利用Shamir秘密共享算法将产生的私钥分解成n+1个子私钥；

3)第三方将n个子私钥分别发送给各站点(共n个站点)，把原始私钥重置为第n+1个子私钥的值sk_n+1；

4)第三方将所有的子私钥重构成原私钥，对各站点发送过来的支持度矩阵进行解密；

5)第三方对支持度矩阵解密完成后，将原私钥重置为第n+1个子私钥的值sk_n+1。

附图说明

图1是算法流程图

图2是分布式数据挖掘框架

具体实施方式

该方法思想如下：

(1)在对数据进行挖掘前，各站点对各自拥有的原始数据集D使用差分隐私保护算法进行匿名化处理，构成匿名化数据集D’。

(2)引入半可信第三方，第三方产生使用同态加密算法时所需的公钥私钥对(pk，sk)，利用Shamir秘密共享算法将私钥分解成n+1个子私钥，赋值sk为sk_n+1并将公钥子私钥对分别发送给各站点。

(3)各站点计算出k-项集的本地支持数，构成行矩阵，使用公钥pk对该矩阵M进行同态加密，形成新的行矩阵E(M)，将E(M)连同子私钥一并发送给第三方。

(4)第三方整合各站点发来的所有矩阵，利用Shamir算法还原私钥sk，计算k-项集(包含k个项的项集)的全局支持数，利用Shamir算法对私钥再次进行分解，重置sk＝sk_n+1，根据Apriori数据挖掘算法，最终得出关联规则。

下面结合实施例子及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

现设定有三个数据集D₁、D₂、D₃分别分布在三个站点S₁、S₂、S₃中，具体数据集见表1-表3。最小支持度为min_sup，最小置信度为min_conf，挖掘框架如图2所示。

表1原始数据集D₁示例

表2原始数据集D₂示例

表3原始数据集D₃示例

1)站点S₁、S₂、S₃使用差分隐私算法将站点内数据集进行匿名化，得到经过差分隐私算法执行后的数据集(见表4-表6)；

表4匿名化后数据集D₁′示例

表5匿名化后数据集D₂′示例

表6匿名化后数据集D₃′示例

2)第三方DC产生公钥和私钥(pk，sk)，利用Shamir密钥共享方法将私钥sk分解成4个子密钥sk_i(1≤i≤4)，并将sk赋值为sk₄；

3)DC将(pk，sk_i)发送给各站点；

4)各站点并行计算1-项集的支持数，使用pk将1-项集支持数利用Paillier同态加密算法进行加密，构成行矩阵将该行矩阵和sk_i一同发送给DC；

5)DC将各站点发送过来的行矩阵相加，并将sk_i合并到sk，用私钥sk解密得并重置sk＝sk₄。若Sup₁大于min_sup*|D|(|D|为各站点总事务数之和)，则该候选1-项集为全局频繁1-项集；

6)DC使用关联规则挖掘算法Apriori生成全局2-项集；

7)若全局频繁1-项集的数目不等于零，转到第4步，否则继续执行下一步；

8)各站点统计出2-项集的支持数，以同样的方式发送给DC；

9)DC将所有的候选频繁项集支持度与给定的最小置信度进行比较，候选频繁项集支持度大于min_conf的，则为关联规则，否则丢弃；

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种分布式关联规则挖掘隐私信息保护方法，其特征包含于以下步骤：

2)引入的半可信第三方利用Shamir秘密共享算法将产生的原私钥sk分解成n+1个子私钥；

3)第三方将n个子私钥分别发送给各站点，把原私钥sk重置为第n+1个子私钥的值sk_n+1；

4)第三方将所有的子私钥重构成原私钥sk，对各站点发送过来的支持度矩阵进行解密；

5)第三方对支持度矩阵解密完成后，将原私钥sk重置为第n+1个子私钥的值sk_n+1；

所述的一种分布式关联规则挖掘隐私信息保护方法具体为：各站点计算出k-项集的本地支持数，构成行矩阵M，使用公钥pk对该矩阵M进行同态加密，形成新的矩阵E(M)，将E(M)连同子私钥一并发送给第三方。

2.根据权利要求1所述的一种分布式关联规则挖掘隐私信息保护方法，其特征在于：各站点使用差分隐私算法匿名化拥有的数据集，得到一个新的匿名化表，后续计算项集支持度时根据该表计算。

3.根据权利要求1所述的一种分布式关联规则挖掘隐私信息保护方法，其特征在于：第三方将生成的原私钥sk分解成n+1个子私钥sk_i(1≤i≤n+1)。

4.根据权利要求1所述的一种分布式关联规则挖掘隐私信息保护方法，其特征在于：第三方将子私钥sk_i分别发送给各站点，并将原私钥sk赋值为sk_n+1。

5.根据权利要求1所述的一种分布式关联规则挖掘隐私信息保护方法，其特征在于：第三方从各站点发送的包中获取子私钥sk_i，使用这些子私钥和第三方自身拥有的子私钥sk_n+1重构原私钥sk，并使用sk对从各站点发送过来的矩阵相加后的结果进行解密。

6.根据权利要求1所述的一种分布式关联规则挖掘隐私信息保护方法，其特征在于：第三方完成解密操作后，将原私钥sk重置为第n+1个子私钥的值sk_n+1。