CN112966283B

CN112966283B - 基于多方集合求交集的垂直分区数据pparm方法

Info

Publication number: CN112966283B
Application number: CN202110305457.3A
Authority: CN
Inventors: 王保仓; 樊程程; 段普; 张本宇
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-03-19
Filing date: 2021-03-19
Publication date: 2023-04-18
Anticipated expiration: 2041-03-19
Also published as: CN112966283A

Abstract

本发明公开了一种基于多方集合求交集的垂直分区数据PPARM方法，主要解决现有技术通信量代价大、隐私保护不足的技术问题。其方案包括：1)发送方对数据进行预处理；2)协议一执行阶段：首先，发送方加密随机矩阵，接收方利用同态加密算法计算加密中间值；然后，发送方利用散列函数的抗碰撞性进行结果验证；最后，接收方解密，得到支持度；3)协议二执行阶段：此阶段与协议一的区别在于将验证结果先进行盲化处理，以掩盖真实支持度，最后进行安全比较。本发明能够实现随着参与站点的增多，在达到隐私级别一时，具有较小的通信轮数，并在达到隐私级别二时，无需引入完全可信的第三方服务器；从而有效降低通信代价、提高信息私密性。

Description

基于多方集合求交集的垂直分区数据PPARM方法

技术领域

本发明属于电子技术领域，进一步涉及集合求交集技术，具体为一种基于多方集合求交集的垂直分区数据隐私保护关联规则挖掘PPARM方法。可用于在垂直分区上通过对各个站点的信息进行加密，实现对站点信息的隐私保护。

背景技术

随着数据采集和存储技术的迅速发展，以及数据生成与传播便捷性的提升，致使数据爆炸性增长，最终形成了当前的大数据时代。在商业和工业、科学和工程、以及政府和个人等各个社会领域，通过对这些数据集进行可行的深入分析，从而做出决策，已经变得越来越重要。然而，数据的数量、多样性以及收集和处理的速度对于人类来说都太大了，无法进行独立分析。因此,数据挖掘DM作为一种将传统的数据分析方法与用于处理大量数据的复杂算法相结合的技术，也变得越来越流行，并被广泛的应用于一些应用程序中，例如超市预测、天气预报、网络流量管理、电子医疗系统、风险管理、入侵检测等。

关联规则挖掘ARM是最常用的数据挖掘算法之一，主要目的是提取频繁项目组合的规则，并从中推断出有价值的结果。ARM经常被用于简化销售、优化电子商务广告、减轻软件开发障碍等诸多应用程序。近年来，不同领域的组织或者机构被要求进行合作来创造出新的价值。在数据合并和挖掘阶段，很容易暴露各个参与方的机密信息，如果这些信息被不法分子利用，可能会造成严重的商业信息泄露或者社会不良影响。如何在保护参与方数据的隐私性前提下，安全的进行关联规则挖掘这一问题，逐渐成为人们关注的重点。因此，隐私保护关联规则挖掘PPARM的概念被人们提出来，并且吸引越来越多的人参与研究。

目前，基于分布式数据环境下的隐私保护关联规则挖掘PPARM主要分为两类：1)基于加密的方法，这种方法多应用于外包云服务器的场景中。2)基于安全多方计算的方法，这种方法旨在通过联合数据库的协作，挖掘出全局关联规则而不向其他参与方透漏自己的数据。

Jaideep Vaidya和Chris Clifton在文献“Secure set intersectioncardinality with application to association rule mining”(Department ofComputer Sciences，Purdue University，2004)中首次给出了在关联规则挖掘方案中使用集合交集，但在该方案中，通信轮数随着参与站点的个数线性增长，具有较大的通信代价，且在交互的最终结果中会暴露备选项集的支持度。Boris Rozenberg和EhudGudes在文献“Association rules mining in vertically partitioned databases”(Department ofComputer Science,Ben-GurionUniversity，2006)中同样使用集合交集来进行关联规则挖掘，该方案的通信轮数依旧随着参与站点的个数呈线性增长，具有较大的通信代价，虽然同时支持最终交互结果只暴露备选项集支持度和支持度是否超过阈值这一信息，但在隐私级别二中需要引入一个完全可信的第三方服务器。K.Nomura在文献“Secure AssociationRule Mining on Vertically Partitioned Data Using Private Set Intersection”(IEEEAccess,Kobe University，2020)中提出了一个两方的使用集合交集的关联规则挖掘方案，但在实际应用场景中，存在多个参与方，其互相协作去挖掘全局关联规则，导致该方法具有很大局限性。Michael等人在文献“Efficient Private Matching and SetIntersection”(EUROCRYPT,NewYorkUniversity,2004)中提出了一个多方集合求交集的方案，但该方案最终的交互结果会暴露交集中各个项的信息。综上，现有技术存在交互阶段通信量较大、对隐私保护不够完善以及局限性的技术问题。

发明内容

本发明的目的是针对上述现有技术的缺陷与不足，提出一种在多个站点参与下使用集合求交集来进行关联规则挖掘的更安全和高效的方案，用于解决现有技术中存在的通信代价较大和泄露隐私信息的技术问题。

为实现上述目的，本发明的思路是使用集合求交集的技术，利用哈希函数的抗碰撞性，同时使用Paillier同态密码对参与方的信息进行加解密，利用同态Paillier密码的同态特性计算中间数据和支持度信息，通过向支持度添加噪声进行盲化，并与指定阈值信息进行安全比较，最终每一个参与方在较少通信轮数条件下，只知道支持度信息或者支持度是否超过指定阈值这一信息，从而有效降低通信代价、提高信息私密性。

本发明采取的技术方案包括如下步骤：

(1)参与方A_i生成加密公私钥对(pk_i,sk_i)和哈希函数H_i(·)，其中i＝1,2,…,n表示参与方编号，n表示参与方的总个数；在n个参与方中，令前n-1个为发送方A_l、第n个为接收方A_n；发送方A_l中包含主发送方A_q和辅发送方A_n-1,其中q＝1,2,…,n-2；

(2)数据预处理：

(2.1)对发送方A_l输入s维向量数据

发送方A_l利用哈希分配桶思想对该向量数据进行处理，得到处理后的数据

其中l＝1,2,…,n-1表示发送方编号；

(2.2)接收方A_n利用哈希函数H_n(·)加密自身数据

得到加密数据

(3)发送方A_l生成随机矩阵并将该矩阵加密：

(3.1)构建剩余类环

其中N表示Paillier同态加密算法的公开参数，在剩余类环中均匀且随机的选取一个s×(n-1)随机矩阵B^l，且该矩阵满足每一行的异或和为0；

(3.2)发送方A_l将矩阵B^l的每一列元素均使用相应公钥进行加密，得到第一加密矩阵

并将

和

发送给接收方A_n；

(4)接收方A_n根据Paillier同态加密算法的性质，利用

计算中间加密值，得到元组Ψ，采用置换函数τ对元组进行置换处理，得到置换结果Ψ^*，并将该结果发送给发送方A_l；

(5)发送方执行解密操作：

(5.1)发送方A_l从Ψ^*中的每一列提取第(l-1)F+1行和第lF之间的元素，记为N^j _l，并将N^j _l在垂直方向上进行拼接得到矩阵N_l；其中，F表示数据预处理阶段哈希桶的个数，j＝1,2,…,s；

(5.2)发送方A_l收到来自其他发送方的加密矩阵

之后，首先构造一个sF×(n-1)维的矩阵W^l：

其中，

表示用公钥pk_l执行加密操作，β_s,l ^n-1表示矩阵B^l中的元素；

(5.3)将N_l与W^l在水平方向上进行拼接得到拼接矩阵N_l||W^l，其中||表示水平方向上的拼接操作；利用私钥sk_l解密拼接矩阵N_l||W^l，得到第一解密矩阵V。

(5.4)发送方A_l对V的每一行进行异或运算，得到结果D_i ^l。

(6)构建隐私级别一：

(6.1)发送方A_l利用哈希函数的抗碰撞性进行结果验证：

其中：

表示异或运算；

如果验证成功，则发送方A_l用接收方A_n的公钥pk_n加密值1后得到加密数据，并发送给参与方A_n-1；反之，发送方A_l用接收方A_n的公钥pk_n加密值0后得到加密数据，并发送给参与方A_n-1；

参与方A_n-1利用随机置换函数π将收到的加密数据顺序扰乱，得到置换后的第一加密数据δ^*，并将δ^*发送给接收方A_n；

(6.2)接收方A_n利用Paillier同态加密算法的性质进行解密，得到多方集合交集的大小，即第一解密结果d：

其中，δ^* _z表示δ^*的分量，且z＝1,2,…,(n-1)F；

(7)构建隐私级别二：

(7.1)发送方中的主发送方A_q在剩余类环

上产生一个随机数，记为第一随机数α_q；接收方A_n在剩余类环

上产生一个随机数，记为第二随机数α，并将其发送给辅发送方A_n-1；

(7.2)发送方A_l利用散列函数的抗碰撞性进行结果验证，验证公式如下：

主发送方验证：如果主发送方A_q验证成功，则A_q用接收方A_n的公钥pk_n加密值1+α_q反之，A_q用接收方A_n的公钥pk_n加密值0+α_q；最终得到第一加密值

并将其发送给辅发送方A_n-1；

辅发送方验证：如果辅发送方A_n-1验证成功，则A_n-1用接收方A_n的公钥pk_n加密值1+α。否则，A_n-1用接收方A_n的公钥pk_n加密值0+α；最终得到第二加密值

辅发送方A_n-1利用随机置换函数π将收到的第一加密值

和自身得到的第二加密值

顺序扰乱，得到置换后的第二加密数据σ^*，并将其发送给接收方A_n；

(7.3)接收方A_n利用Paillier同态加密算法的性质进行解密，得到第二解密结果d'：

d'＝Dec(σ^* ₁×σ^* ₂×…×σ^* _z×…×σ^* _(n-1)F)

其中，σ^* _z表示σ^*的分量，且z＝1,2,…,(n-1)F；并将第二解密结果d'发送给主发送方A_q；

(7.4)主发送方A_q依次进行去除噪声操作：

发送方A₁利用第二解密结果d'减去随机数α₁得到d₁'，并将d₁'传递给其右邻居A₂；A₂利用d₁'减去随机数α₂得到d₂'，并将d₂'传递给其右邻居A₃；以此类推，直到中间数值d_n-2'传递到辅发送方A_n-1；

(7.5)设定全局支持度阈值为supp_min，接收方A_n将值supp_min+α发送给辅发送方A_n-1，辅发送方A_n-1判断下式是否成立：

d_n-2≥supp_min+α

若成立，则辅发送方A_n-1发送"Yes"给接收方A_n，即代表多方集合的交集是一个频繁项集；反之，辅发送A_n-1发送"No"给接收方A_n，即代表多方集合的交集不是一个频繁项集。

本发明与现有技术相比，具有以下优点：

第一、本发明采用效率更高的安全集合求交集技术，使得随着参与站点个数的增加，在较少通信轮数的条件下达到隐私级别一；

第二、由于本发明采用散列函数，利用其抗碰撞性，使得发送方在验证阶段无法获得接收方集合中真实的数据；

第三，由于本发明采用Paillier同态加密算法的性质，使得接收方利用关于输入产生的多项式的加密系数，便可以计算出待验证数据，且最终只利用验证结果的乘积，解密该值便可得到相应的支持度值，有效保证了方案的安全性；

第四、本发明在验证部分采用添加噪声技术对原始支持度进行盲化，使得在不引入完全可信第三方服务器的前提下，达到隐私级别二，弱化了现存方案中的假设条件。

附图说明

附图1为本发明的实现流程图。

具体实施方式

下面结合附图1，对本发明实现的步骤作进一步的详细描述。

实施例一：

参照图1，本发明提出的一种基于多方集合求交集的垂直分区数据PPARM方法，包括如下步骤：

步骤1，参与方A_i生成加密公私钥对(pk_i,sk_i)和哈希函数H_i(·)，其中i＝1,2,…,n表示参与方编号，n表示参与方的总个数；在n个参与方中，令前n-1个为发送方A_l、第n个为接收方A_n；发送方A_l中包含主发送方A_q和辅发送方A_n-1,其中q＝1,2,…,n-2；

步骤2，数据预处理：

(2.1)对发送方A_l输入s维向量数据

其中l＝1,2,…,n-1表示发送方编号；具体按如下方式得到：

(2.1.1)按照下式，对输入每个发送方A_l的s维向量进行分块：

其中，F＝4r_l表示块的个数，且r_l是由A_l随机选取，其大小约为在每一个交易集中实际存在物品的平均值；每一个块中至多包含E个元素；

(2.1.2)发送方A_l对分好的块中每一个元素进行哈希处理；

(2.1.3)对于任意一个块X_l ^(h)，发送方A_l产生一个次数为E的多项式Q_l ^(h)，并利用Paillier同态加密算法的公钥pk_l加密该多项式的系数，得到一组加密数据，即处理后的数据

其中，

表示发送方A_l产生的多项式的所有系数，且k∈{0,1,…,s}。

(2.2)接收方A_n利用哈希函数H_n(·)加密自身数据

得到加密数据

步骤3，发送方A_l生成随机矩阵并将该矩阵加密：

(3.1)构建剩余类环

其中N表示Paillier同态加密算法的公开参数，在剩余类环中均匀且随机的选取一个s×(n-1)随机矩阵B^l，且该矩阵满足每一行的异或和为0；本实施例给出矩阵的具体形式如下：

其中，β_j,k ^l是发送方A_l随机选取的元素，且k∈{1,…,n-1}；

表示定义符号。

并将

和

发送给接收方A_n；具体是：针对矩阵的每一列k，每一个发送方A_l分别用参与方A_k的公钥pk_k进行加密，最终每一个发送方A_l得到一个加密矩阵

步骤4，接收方A_n根据Paillier同态加密算法的性质，利用

计算中间加密值，得到元组Ψ，采用置换函数τ对元组进行置换处理，得到置换结果Ψ^*，并将该结果发送给发送方A_l；置换结果Ψ^*具体按照如下方式得到：

(4.1)利用

计算中间加密值

其中，g＝1,2,...,F，元素

是由A_n所选取的新的随机数；

(4.2)接收方A_n产生维数为s的元组Ψ：

Ψ＝(F₁,F₂,…,F_s)；

(4.3)接收方A_n采用置换函数τ对元组进行置换处理，得到置换结果Ψ^*：

Ψ:{ARefresh(Ψ),Ψ^*＝τ(Ψ)＝τ(F₁ ^*,F₂ ^*,…,F_s ^*)}，

其中F_i ^*表示接收方A_n将元组Ψ置换后的对应分量处的新元素，Ψ^*中的每一个元组含有(n-1)×F个元素。

步骤5，发送方执行解密操作：

(5.2)发送方A_l收到来自其他发送方的加密矩阵

之后，首先构造一个sF×(n-1)维的矩阵W^l：

其中，

(5.4)发送方A_l对V的每一行进行异或运算，得到结果D_i ^l，具体步骤如下：

每个发送方A_l进行如下计算：

其中，

表示发送方A_l用私钥sk_l对加密数据解密后的值；关于计算结果

只保留

并重新定义为D_j ^l，每一个发送方A_l将D_j ^l向其它发送方公开；

所有发送方A_l按照下式计算得到结果D_j ^l：

步骤6，构建隐私级别一：

(6.1)发送方A_l利用哈希函数的抗碰撞性进行结果验证：

其中：

表示异或运算；

其中，δ^* _z表示δ^*的分量，且z＝1,2,…,(n-1)F；

步骤7，构建隐私级别二：

(7.1)发送方中的主发送方A_q在剩余类环

并将其发送给辅发送方A_n-1；

辅发送方A_n-1利用随机置换函数π将收到的第一加密值

和自身得到的第二加密值

d'＝Dec(σ^* ₁×σ^* ₂×…×σ^* _z×…×σ^* _(n-1)F)

(7.4)主发送方A_q依次进行去除噪声操作：

d_n-2≥supp_min+α

实施例二：

本实施例提供的基于多方集合求交集的垂直分区数据PPARM方法同实施例一，其具体实现步骤还可以概括如下：

步骤一，各个参与方A_l将自己的数据进行预处理，主要分为三个阶段进行：

(一)分块阶段。按照下式，对每个发送方A_l(l＝1,2,…,n-1)输入的s维向量进行分块：

其中，

是发送方A_l的输入，F＝4r_l个块，其中r_l是由A_l随机选取，大小约为在每一个交易集中实际存在物品的平均值，每一个块中至多有E个元素；

(二)哈希阶段。发送方A_l使用自己产生的哈希函数H_l将分好的块中的每一个元素进行哈希处理；

(三)加密阶段。对于任意一个块X_l(^h)，A_l产生一个次数为E的多项式Q_l ^(h)，然后发送方A_l用自己的Paillier同态加密算法的公钥pk_l加密产生的多项式的系数，最后每一个发送方A_l得到一组加密数据：

其中，

表示发送方A_l产生的多项式的所有系数，并且k∈{0,1,…,s}，

表示发送方用自己的公钥pk_l加密后的密文数据；

步骤二，协议一执行阶段，主要分为五步，具体步骤如下所示：

第一步，发送方执行。每一个发送方A_l选择一个s×(n-1)维的随机矩阵B^l：

其中β_j,k ^l,j∈{1,2,...,s},k∈{1,…,n-1}是发送方A_l随机选取的元素,

表示定义符号；

矩阵的每一行满足:

其中

表示异或运算；

针对矩阵的每一列k，每一个发送方A_l分别用参与方A_k的公钥pk_k进行加密，最终每一个发送方A_l得到一个加密矩阵

发送方A_l将加密矩阵

向其他发送方公开。随后，每一个发送方A_l将在预处理阶段得到的加密系数和自己的哈希函数H_l一起发送给接收方A_n；

第二步，接收方执行。接收方A_n使用自己的哈希函数H_n将自己的向量

中的每一个元素进行哈希处理：

然后接收方A_n将

公开，并执行以下操作：

Step1：对于每一个分量

A_n准备n-1个随机共享

且这n-1个随机共享满足异或值等于

的哈希值

Step2：接收方A_n用发送方A_l的公钥pk_l计算：

其中，g＝1,2,...,F，元素

是由A_n所选取的新的随机数。最终，接收方A_n产生维数为s的元组：

Ψ＝(F₁,F₂,…,F_s)

其中F_i是该步骤中接收方A_n用发送方A_l的公钥pk_l计算出的结果。接收方A_n用自己的置换函数τ将Ψ进行置换，得到置换后的结果：

Ψ:{ARefresh(Ψ),Ψ^*＝τ(Ψ)＝τ(F₁ ^*,F₂ ^*,…,F_s ^*)}

其中F_i ^*表示接收方A_n将Ψ置换后的对应分量处的新元素，在Ψ^*中，每一个元组有(n-1)×F个元素，接收方A_n将这s个元组公开；

第三步，发送方执。每个发送方A_l收到来自其他参与方的加密矩阵之后，首先构造一个sf×(n-1)维的新矩阵W^l：

然后，发送方A_l用自己私钥sk_l解密来自接收方的s个元组中用自己公钥pk_l加密的数据和新构造的矩阵W^l。最后，每个发送方A_l计算：

其中，

表示发送方A_l用自己的私钥sk_l对加密数据解密后的值，关于计算结果D_j ^l，每一个发送方A_l将其向其它发送方公开；

第四步，发送方执行。每一个发送方A_l计算：

如果下式成立：

则发送方A_l用接收方A_n的公钥pk_n加密值1，即计算：

并将加密后的值

发送给参与方A_n-1。如果该公式不成立，则发送方A_l用接收方A_n的公钥pk_n加密值0，即计算：

并将加密后的值

发送给参与方A_n-1；最后，参与方A_n-1得到(n-1)×F个加密值：

δ＝(δ₁,...,δ_(n-1)F)

参与方A_n-1用自己的置换函数π置换这些加密值：

π:{ARefresh(δ),δ^*＝π(δ)＝(δ^* ₁,...,δ^* _(n-1)F)}

并将置换后的结果发送给接收方A_n；

第五步，接收方执行。A_n计算：

解密结果d就是备选项集c的支持度supp(c)。

步骤三，协议二执行阶段，该阶段主要由7步组成，具体内容如下所示：

第1步，重复步骤2中协议一执行阶段的第一步、第二步和第三步；

第2步，参数生成；每一个主发送方A_q产生一个随机数：

接收方A_n产生一个随机数α，并将该随机数发送给辅发送方A_n-1。

第3步，主发送方执行；每一个主发送A_q方计算：

如果下式成立：

主发送方A_q用接收方A_n的公钥pk_n加密值1+α_q，即计算：

并将加密后的结果发送给辅发送方A_n-1。如果上式不成立，则主发送方A_q用接收方A_n的公钥pk_n加密值0+α_q，即计算：

并将加密后的结果发送给辅发送方A_n-1；

第4步，辅发送方执行；辅发送方A_n-1计算：

如果下式成立：

辅发送方A_n-1用接收方A_n的公钥pk_n加密值1+α，即计算：

如果上式不成立，则辅发送方A_n-1用接收方A_n的公钥pk_n加密值0+α，即计算：

最后，辅发送方A_n-1将拥有的(n-1)×F个加密数据向量σ，用自己的置换函数π进行置换，计算：

π:{ARefresh(δ),σ^*＝π(σ)＝(σ^* ₁,...,σ^* _(n-1)F)}

之后，置换后的结果发送给接收方A_n；

第5步，接收方执行；A_n计算：

d＝Dec(σ^* ₁×σ^* ₂×…×σ^* _(n-1)F)

得到解密结果d；

第6步，主发送方执行；接收方A_n将得到的解密结果发送给主发送方A₁，主发送方A₁计算：

d₁＝T-α₁

之后，将计算结果传递给下一个主发送方，下一个主发送方收到中间数值后，将该中间数值减去自身产生的随机数的值，类似操作继续执行，直到计算中间数值为：

d_n-2＝T-α₁-α₂-…-α_n-2

最后，d_n-2传递到最后一个主发送方A_n-2。

第7步，辅发送方执行：接收方A_n将值supp_min+α发送给辅发送方A_n-1，其中supp_min为设定的全局支持度阈值。辅发送方判断：

d_n-2≥supp_min+α

得到的结果为以下两种情形：

情形1，若上述不等式成立，则辅发送方A_n-1发送"Yes"给接收方A_n，即代表被选项集c是一个频繁项集；

情形2，若上述不等式不成立，则辅发送A_n-1发送"No"给接收方A_n，即代表备选项集c不是一个频繁项集。

本发明在有多个站点以不共享各自隐私信息为前提条件，却想要获取全局关联规则挖掘结果的场景下，利用安全多方集合求交集，根据不同隐私级的需求，分别设计出最终交互结果只泄露支持度(隐私级别一)的协议一，以及最终交互结果只泄露支持度是否超过指定阈值(隐私级别二)的协议二；实现随着参与站点的增多，在达到隐私级别一时，具有较小的通信轮数，并在达到隐私级别二时，无需引入完全可信的第三方服务器；从而有效降低通信代价、提高信息私密性。

本发明未详细说明部分属于本领域技术人员公知常识。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，显然对于本领域的专业人员来说，在了解了本发明内容和原理后，都可能在不背离本发明原理、结构的情况下，进行形式和细节上的各种修正和改变，但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。