CN112464277A

CN112464277A - 一种不确定数据隐私保护频繁项集发布方法

Info

Publication number: CN112464277A
Application number: CN202011315406.0A
Authority: CN
Inventors: 倪巍伟; 邹云峰; 鲍晓涵
Original assignee: State Grid Jiangsu Electric Power Co ltd Marketing Service Center; Southeast University
Current assignee: State Grid Jiangsu Electric Power Co ltd Marketing Service Center; Southeast University
Priority date: 2020-11-20
Filing date: 2020-11-20
Publication date: 2021-03-09
Anticipated expiration: 2040-11-20
Also published as: CN112464277B

Abstract

本发明公开了一种基于差分隐私的不确定数据频繁项集发布方法，所述方法包括步骤：(1)给定数据集D，对D进行频繁项集挖掘获取频繁1‑项集ILIST以及第k大频繁项集的支持度λ，对其添加噪声获得

以及

Description

一种不确定数据隐私保护频繁项集发布方法

技术领域

本发明涉及到的是一种基于差分隐私的不确定数据频繁项集发布方法，属于不确定数据领域的频繁项集发布算法。

背景技术

目前，隐私保护不确定数据频繁项集发布研究仍处于起步阶段，已有研究主要基于差分隐私。差分隐私已经成为一种新的热门隐私保护模型，该模型不关心攻击者拥有的背景知识，它对攻击者的背景知识假设是最大的，即在攻击者知道除了需要保护的隐私记录以外的其余所有数据。差分隐私通过向查询或者分析结果中添加噪声来达到隐私保护效果。现存基于差分隐私的隐私保护不确定数据频繁项集发布方法存在以下不足：(1)隐私保护机制独立于挖掘过程，造成所发布top-k频繁项集准确性受k值影响(2)算法使用指数机制，应用于规模较大频繁项集时隐私预算较大，难以兼顾数据可用性与隐私安全性(3)割裂对频繁项集及其支持度进行隐私保护处理间的关联，导致输出结果不满足top-k降序排列约束以及正确性约束。综上所述，已有方法均存在隐私保护机制独立于挖掘过程的缺陷，难以兼顾隐私保护安全性和数据可用性。

发明内容

本发明目的在于提供一种不确定数据集满足差分隐私的频繁项集发布方案，运用这个方案，可以在不确定数据集上发布满足差分隐私的top-k频繁项集，同时满足以下约束：(1)输出Top-K项集满足降序排列约束以及正确性约束(2)k值对算法准确性影响不大(3)兼顾数据隐私安全性和可用性，即保证较低隐私预算。

本发明采用的技术方案为：一种不确定数据隐私保护频繁项集发布方法，所述方法包含以下步骤：

(1)给定不确定事务数据D,其事务记录数为N，记录由属性项及其存在概率组成，设置支持度阈值为λ₀，λ₀采用经验值设置为小于1的正实数，利用传统频繁项集挖掘Apriori算法生成频繁项集FI，在FI中获取频繁1-项集ILIST以及第k大频繁项集的支持度记λ，其中FI数量为m，向ILIST、λ中添加噪声得到

以及

(2)设置最优截断长度l_opt，遍历D，对于记录长度(记录中项的数目)大于l_opt的记录，保留

中支持度较大的项，组成新的事务记录，使得处理后的记录长度为l_opt，得到截断后数据集D’；

(3)在D’中提取包含x的最大频繁项集的长度估计值，记为层次信息level(x)；

(4)在D’中，设置初始节点为空集，使用层次信息约束和子集频繁约束筛选得到当前节点的候选项列表NodeList，将NodeList中每一项分别与当前节点的项集合并得到新的项集，判断该项集是否频繁，若频繁则将该项集添加为当前节点的子节点，不断迭代上述过程，最终得到包含所有频繁项集FISet的结果树。

(5)获取FISet中支持度前k项的频繁项集作为top-k频繁项集发布。

其中，步骤(1)中

为ILIST的估计值，

的估计方法是设定隐私预算

敏感度Δq＝1，q(D,r)设定为项的支持度计数，ILIST的项数为n，以正比于

的概率从D的所有1-项集中选择n项添加到

为λ的估计值，

的估计方法是设定隐私预算为

在阈值[1,|I|]上以

的概率采样获得，其中q(D,i)表示第i-项频繁项集的支持度，I为D的频繁项集集合。步骤(2)中的l_opt表示最优截断长度，其定义如下：

存在l_opt,使得γ％的事务数据的长度都小于等于l_opt。

步骤(3)层次信息level(x)定义如下：

层次信息level(x).对于给定项x，包含该项的最大频繁项集的长度估计为level(x)，即存在level(x)，使得expSup^Cap(x)×M^level(x)-3≤T，且T≤expSup^Cap(x)×M(x)^level(x)-2，其中T为支持度阈值。

expSup^Cap(x)的定义如下：项目x的期望支持度的上限阈值，记为expSup^Cap(x)，定义为所有包含项目x的事务记录t_j的上限概率阈值之和。即：

其中，|DB|表示事务记录条数，项目x的层次迭代参数M(x)定义为对每条记录的M₂(x,t_j)的整体估计，M(x)取值为

其中，L为数据集D记录的长度限制。

P^cap(x,t_j)的定义如下：

记录t_j中项目x的上限阈值，记为P^cap(x,t_j)，定义为记录t_j中项目x的概率与除x外的最大概率的乘积。令h＝|t_j|表示t_j的长度，即t_j中项的个数，

如式

M₂(x,t_j)定义如下：

M₂(x,t_j).M₂(x,t_j)为事务记录t_j中除了项目x本身第二大的概率。取值为

q满足

步骤(4)采用的判断项集是否频繁的方法如下：给定查询序列

其中⊥表示支持度大于阈值，

表示支持度小于阈值，对于D’中查询得到的项集支持度，设置ε＝ε₂/m，Δf＝1，向该项集支持度添加满足分布Lap(Δf/ε)噪声，若处理后的支持度大于

返回⊥以及加噪的支持度，若不频繁，返回

保证输出的频繁项集及其支持度满足差分隐私，且有效降低隐私预算。其中子集频繁约束表示x与当前节点项集的任意(num-1)-项子集合并所得项集均频繁；层次信息约束表示层次信息level(x)大于等于num+1。其中num表示当前节点所处层次。

相对于现有技术，本发明的技术效果如下：本发明通过在挖掘过程中使用拉普拉斯机制扰动项集的支持度和最小支持度阈值，保证输出的频繁项集及其支持度满足差分隐私，实现挖掘过程和隐私保护处理过程的一体化，规避k值对算法准确性的影响，同时获取频繁项集及其支持度，保证输出结果满足top-k降序排列约束以及正确性约束；借助不确定数据集具有上限阈值特性，设计候选项层次信息提取策略，利用层次信息减小挖掘的搜索空间，有效降低隐私预算，从而更好地保证发布的频繁项集的可用性和安全性；本发明在进行候选列表筛选时采用的子集频繁约束有效利用已有挖掘结果的信息，极大提高整个算法效率。

附图说明

图1是本发明的处理流程图。

图2是频繁项集结果树示意图。

具体实施方式

以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例1：参见图1-图2，本发明为一种基于差分隐私的不确定数据频繁项集发布方法，包括以下步骤：

步骤一：设置λ₀，从D中挖掘得到频繁项集FI，然后获取FI中所有的频繁1-项集ILIST和第k大频繁项集的支持度λ，设定隐私预算

的概率从D的所有1-项集中选择n项添加到

设定隐私预算为

Δq＝1，在阈值[1,|I|]上以

的概率采样获得

其中q(D,i)表示为第i-项频繁项集的支持度，I为D的频繁项集集合。通过步骤一获得参数

作为后续处理的基础。

步骤二：事务截断。遍历数据集D，对所有记录长度超过l_opt的记录，进行截断，优先保留

中存在且支持度较大的项组成新的事务记录，使得处理后的事务记录长度为l_opt，得到D’。

步骤三：层次信息提取。

实例数据集如下：

根据实例数据集计算代入公式得到M₂(x,t_j)如下：

计算代入公式得到P^cap(x,t_j)以及对应各项的expSupcap(x)如下：

e:0.63f:0.63

计算带入M(x)的计算公式得到：

a:0.67b:0.63c：0.47d:0.35e：0.6f：0.6

假设层次信息为l，T为0.5，将l代入公式，使得expSup^Cap(x)×M^level(x)-3≤T，且T≤expSup^Cap(x)×M(x)^level(x)-2成立，计算得到层次信息如下所示：level(a):3level(b):3level(c):3level(d):1level(e):1level(f):1

至此计算得到所有项目的层次信息。

步骤四：构建层次频繁项集树如图2所示。初始项列表I＝{a(3)，b(3)，c(3)，d(1)}，第1步，将I中所有项及其支持度依次加入到1-项集；第2步，对处于第一层的{a}，候选项为{b，c}，删除d是因为d的层次信息level小于2，不满足层次信息level(x)大于等于num+1，分别合并当前节点项集{a}和候选项中的每一项得到两个新的节点{ab}，{ac}，判断{ab},{ac}是否频繁，若是，返回加噪后的支持度存入节点，将该节点加入到2-项集集合中，否则，删除节点，经此步骤，得{ab}频繁，同样对第一层的{b},{c},{d}做相同处理，得{bc}频繁，第一层节点处理完毕，得到第二层节点，且第二层节点都频繁；然后对第二层节点做处理，对于节点{ab}，候选项集为空集，删除c是因为c在与a合并不频繁，不满足子集频繁约束。同理可对第二层的{bc}做处理，得到结果树。结果树如图1所示，从图上我们可知频繁项集是{a}、{b}、{c}、{d}、{ab}、{bc}以及对应噪声支持度分别为s₁、s₂、s₃、s₄、s₅、s₆。

步骤五：从步骤四中获取的频繁项集获取支持度为前k个的top-k频繁项集。

需要说明的是上述实施例仅仅是本发明的较佳实施例，并没有用来限定本发明的保护范围，在上述技术方案的基础上做出的等同替换或者替代，均属于本发明的保护范围。

Claims

1.一种基于差分隐私的不确定数据频繁项集发布方法，其特征在于：所述方法包括以下步骤：

(1)给定不确定事务数据D，其事务记录数为N，记录由属性项及其存在概率组成，设置支持度阈值为λ₀，λ₀采用经验值设置为小于1的正实数，利用传统频繁项集挖掘Apriori算法生成频繁项集FI，在FI中获取频繁1-项集ILIST以及第k大频繁项集的支持度记λ，其中FI数量为m，向ILIST、λ中添加噪声得到

以及

(4)在D’中，设置初始节点为空集，使用层次信息约束和子集频繁约束筛选得到当前节点的候选项列表NodeList，将NodeList中每一项分别与当前节点的项集合并得到新的项集，判断该项集是否频繁，若频繁则将该项集添加为当前节点的子节点，不断迭代上述过程，最终得到包含所有频繁项集FISet的结果树；

2.根据权利要求1所述的基于差分隐私的不确定数据频繁项集发布方法，其特征在于：步骤(1)中

为ILIST的估计值，

的估计方法是设定隐私预算

敏感度Δq＝1，q(D，r)设定为项的支持度计数，ILIST的项数为n，以正比于

的概率从D的所有1-项集中选择n项添加到

3.根据权利要求1所述基于差分隐私的不确定数据top-k频繁项集发布算法，其特征在于：步骤(1)中

为λ的估计值，

的估计方法是设定隐私预算为

在阈值[1，|I|]上以

的概率采样获得，其中q(D，i)表示第i-项频繁项集的支持度，I为D的频繁项集集合。

4.根据权利要求1所述基于差分隐私的不确定数据top-k频繁项集发布算法，其特征在于：步骤(2)中的l_opt表示最优截断长度，其定义如下：存在l_opt，使得γ％的事务数据的长度都小于l_opt。

5.根据权利要求1所述的基于差分隐私的不确定数据频繁项集发布方法，其特征在于：步骤(3)层次信息level(x)定义如下：

层次信息level(x).对于给定项x，包含该项的最大频繁项集的长度估计为level(x)，即存在level(x)，使得expSup^Cap(x)×M^level(x)-3≤T，且T≤expSup^Cap(x)×M(x)^level(x)-2，其中T为支持度阈值；

n＝|DB|；

其中，|DB|表示事务记录条数，项目x的层次迭代参数M(x)定义为对每条记录的M₂(x，t_j)的整体估计，M(x)取值为

其中，L为数据集D记录的长度限制；

P^cap(x，t_j)的定义如下：

记录t_j中项目x的上限阈值，记为P^cap(x，t_j)，定义为记录t_j中项目x的概率与除x外的最大概率的乘积，令h＝|t_j|表示t_j的长度，即t_j中项的个数，

如式

M₂(x，t_j)定义如下：

M₂(x，t_j).M₂(x，t_j)为事务记录t_j中除了项目x本身第二大的概率，取值为

q满足

6.根据权利要求1所述的基于差分隐私的不确定数据频繁项集发布方法，其特征在于：步骤(4)采用的判断项集是否频繁的方法如下：给定查询序列{⊥，T}，其中⊥表示支持度大于阈值，T表示支持度小于阈值，对于D’中查询得到的项集支持度，设置ε＝ε₂/m，Δf＝1，向该项集支持度添加满足分布Lap(Δf/ε)噪声，若处理后的支持度大于

返回⊥以及加噪的支持度，若不频繁，返回T，保证输出的频繁项集及其支持度满足差分隐私，且有效降低隐私预算。

7.根据权利要求1所述的基于差分隐私的不确定数据频繁项集发布方法，其特征在于：步骤(4)当中的子集频繁约束表示x与当前节点项集的任意(num-1)-项子集合并所得项集均频繁；层次信息约束表示层次信息level(x)大于等于num+1，其中num表示当前节点所处层次。