CN112464277A - 一种不确定数据隐私保护频繁项集发布方法 - Google Patents
一种不确定数据隐私保护频繁项集发布方法 Download PDFInfo
- Publication number
- CN112464277A CN112464277A CN202011315406.0A CN202011315406A CN112464277A CN 112464277 A CN112464277 A CN 112464277A CN 202011315406 A CN202011315406 A CN 202011315406A CN 112464277 A CN112464277 A CN 112464277A
- Authority
- CN
- China
- Prior art keywords
- frequent
- item set
- item
- frequent item
- record
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
技术领域
本发明涉及到的是一种基于差分隐私的不确定数据频繁项集发布方法,属于不确定数据领域的频繁项集发布算法。
背景技术
目前,隐私保护不确定数据频繁项集发布研究仍处于起步阶段,已有研究主要基于差分隐私。差分隐私已经成为一种新的热门隐私保护模型,该模型不关心攻击者拥有的背景知识,它对攻击者的背景知识假设是最大的,即在攻击者知道除了需要保护的隐私记录以外的其余所有数据。差分隐私通过向查询或者分析结果中添加噪声来达到隐私保护效果。现存基于差分隐私的隐私保护不确定数据频繁项集发布方法存在以下不足:(1)隐私保护机制独立于挖掘过程,造成所发布top-k频繁项集准确性受k值影响(2)算法使用指数机制,应用于规模较大频繁项集时隐私预算较大,难以兼顾数据可用性与隐私安全性(3)割裂对频繁项集及其支持度进行隐私保护处理间的关联,导致输出结果不满足top-k降序排列约束以及正确性约束。综上所述,已有方法均存在隐私保护机制独立于挖掘过程的缺陷,难以兼顾隐私保护安全性和数据可用性。
发明内容
本发明目的在于提供一种不确定数据集满足差分隐私的频繁项集发布方案,运用这个方案,可以在不确定数据集上发布满足差分隐私的top-k频繁项集,同时满足以下约束:(1)输出Top-K项集满足降序排列约束以及正确性约束(2)k值对算法准确性影响不大(3)兼顾数据隐私安全性和可用性,即保证较低隐私预算。
本发明采用的技术方案为:一种不确定数据隐私保护频繁项集发布方法,所述方法包含以下步骤:
(1)给定不确定事务数据D,其事务记录数为N,记录由属性项及其存在概率组成,设置支持度阈值为λ0,λ0采用经验值设置为小于1的正实数,利用传统频繁项集挖掘Apriori算法生成频繁项集FI,在FI中获取频繁1-项集ILIST以及第k大频繁项集的支持度记λ,其中FI数量为m,向ILIST、λ中添加噪声得到以及
(3)在D’中提取包含x的最大频繁项集的长度估计值,记为层次信息level(x);
(4)在D’中,设置初始节点为空集,使用层次信息约束和子集频繁约束筛选得到当前节点的候选项列表NodeList,将NodeList中每一项分别与当前节点的项集合并得到新的项集,判断该项集是否频繁,若频繁则将该项集添加为当前节点的子节点,不断迭代上述过程,最终得到包含所有频繁项集FISet的结果树。
(5)获取FISet中支持度前k项的频繁项集作为top-k频繁项集发布。
其中,步骤(1)中为ILIST的估计值,的估计方法是设定隐私预算敏感度Δq=1,q(D,r)设定为项的支持度计数,ILIST的项数为n,以正比于的概率从D的所有1-项集中选择n项添加到 为λ的估计值,的估计方法是设定隐私预算为在阈值[1,|I|]上以的概率采样获得,其中q(D,i)表示第i-项频繁项集的支持度,I为D的频繁项集集合。步骤(2)中的lopt表示最优截断长度,其定义如下:
存在lopt,使得γ%的事务数据的长度都小于等于lopt。
步骤(3)层次信息level(x)定义如下:
层次信息level(x).对于给定项x,包含该项的最大频繁项集的长度估计为level(x),即存在level(x),使得expSupCap(x)×Mlevel(x)-3≤T,且T≤expSupCap(x)×M(x)level(x)-2,其中T为支持度阈值。
expSupCap(x)的定义如下:项目x的期望支持度的上限阈值,记为expSupCap(x),定义为所有包含项目x的事务记录tj的上限概率阈值之和。即:
其中,|DB|表示事务记录条数,项目x的层次迭代参数M(x)定义为对每条记录的M2(x,tj)的整体估计,M(x)取值为
其中,L为数据集D记录的长度限制。
Pcap(x,tj)的定义如下:
M2(x,tj)定义如下:
步骤(4)采用的判断项集是否频繁的方法如下:给定查询序列其中⊥表示支持度大于阈值,表示支持度小于阈值,对于D’中查询得到的项集支持度,设置ε=ε2/m,Δf=1,向该项集支持度添加满足分布Lap(Δf/ε)噪声,若处理后的支持度大于返回⊥以及加噪的支持度,若不频繁,返回保证输出的频繁项集及其支持度满足差分隐私,且有效降低隐私预算。其中子集频繁约束表示x与当前节点项集的任意(num-1)-项子集合并所得项集均频繁;层次信息约束表示层次信息level(x)大于等于num+1。其中num表示当前节点所处层次。
相对于现有技术,本发明的技术效果如下:本发明通过在挖掘过程中使用拉普拉斯机制扰动项集的支持度和最小支持度阈值,保证输出的频繁项集及其支持度满足差分隐私,实现挖掘过程和隐私保护处理过程的一体化,规避k值对算法准确性的影响,同时获取频繁项集及其支持度,保证输出结果满足top-k降序排列约束以及正确性约束;借助不确定数据集具有上限阈值特性,设计候选项层次信息提取策略,利用层次信息减小挖掘的搜索空间,有效降低隐私预算,从而更好地保证发布的频繁项集的可用性和安全性;本发明在进行候选列表筛选时采用的子集频繁约束有效利用已有挖掘结果的信息,极大提高整个算法效率。
附图说明
图1是本发明的处理流程图。
图2是频繁项集结果树示意图。
具体实施方式
以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例1:参见图1-图2,本发明为一种基于差分隐私的不确定数据频繁项集发布方法,包括以下步骤:
步骤一:设置λ0,从D中挖掘得到频繁项集FI,然后获取FI中所有的频繁1-项集ILIST和第k大频繁项集的支持度λ,设定隐私预算敏感度Δq=1,q(D,r)设定为项的支持度计数,ILIST的项数为n,以正比于的概率从D的所有1-项集中选择n项添加到设定隐私预算为Δq=1,在阈值[1,|I|]上以的概率采样获得其中q(D,i)表示为第i-项频繁项集的支持度,I为D的频繁项集集合。通过步骤一获得参数 作为后续处理的基础。
步骤三:层次信息提取。
实例数据集如下:
根据实例数据集计算代入公式得到M2(x,tj)如下:
计算代入公式得到Pcap(x,tj)以及对应各项的expSupcap(x)如下:
e:0.63f:0.63
计算带入M(x)的计算公式得到:
a:0.67b:0.63c:0.47d:0.35e:0.6f:0.6
假设层次信息为l,T为0.5,将l代入公式,使得expSupCap(x)×Mlevel(x)-3≤T,且T≤expSupCap(x)×M(x)level(x)-2成立,计算得到层次信息如下所示:level(a):3level(b):3level(c):3level(d):1level(e):1level(f):1
至此计算得到所有项目的层次信息。
步骤四:构建层次频繁项集树如图2所示。初始项列表I={a(3),b(3),c(3),d(1)},第1步,将I中所有项及其支持度依次加入到1-项集;第2步,对处于第一层的{a},候选项为{b,c},删除d是因为d的层次信息level小于2,不满足层次信息level(x)大于等于num+1,分别合并当前节点项集{a}和候选项中的每一项得到两个新的节点{ab},{ac},判断{ab},{ac}是否频繁,若是,返回加噪后的支持度存入节点,将该节点加入到2-项集集合中,否则,删除节点,经此步骤,得{ab}频繁,同样对第一层的{b},{c},{d}做相同处理,得{bc}频繁,第一层节点处理完毕,得到第二层节点,且第二层节点都频繁;然后对第二层节点做处理,对于节点{ab},候选项集为空集,删除c是因为c在与a合并不频繁,不满足子集频繁约束。同理可对第二层的{bc}做处理,得到结果树。结果树如图1所示,从图上我们可知频繁项集是{a}、{b}、{c}、{d}、{ab}、{bc}以及对应噪声支持度分别为s1、s2、s3、s4、s5、s6。
步骤五:从步骤四中获取的频繁项集获取支持度为前k个的top-k频繁项集。
需要说明的是上述实施例仅仅是本发明的较佳实施例,并没有用来限定本发明的保护范围,在上述技术方案的基础上做出的等同替换或者替代,均属于本发明的保护范围。
Claims (7)
1.一种基于差分隐私的不确定数据频繁项集发布方法,其特征在于:所述方法包括以下步骤:
(1)给定不确定事务数据D,其事务记录数为N,记录由属性项及其存在概率组成,设置支持度阈值为λ0,λ0采用经验值设置为小于1的正实数,利用传统频繁项集挖掘Apriori算法生成频繁项集FI,在FI中获取频繁1-项集ILIST以及第k大频繁项集的支持度记λ,其中FI数量为m,向ILIST、λ中添加噪声得到以及
(3)在D’中提取包含x的最大频繁项集的长度估计值,记为层次信息level(x);
(4)在D’中,设置初始节点为空集,使用层次信息约束和子集频繁约束筛选得到当前节点的候选项列表NodeList,将NodeList中每一项分别与当前节点的项集合并得到新的项集,判断该项集是否频繁,若频繁则将该项集添加为当前节点的子节点,不断迭代上述过程,最终得到包含所有频繁项集FISet的结果树;
(5)获取FISet中支持度前k项的频繁项集作为top-k频繁项集发布。
4.根据权利要求1所述基于差分隐私的不确定数据top-k频繁项集发布算法,其特征在于:步骤(2)中的lopt表示最优截断长度,其定义如下:存在lopt,使得γ%的事务数据的长度都小于lopt。
5.根据权利要求1所述的基于差分隐私的不确定数据频繁项集发布方法,其特征在于:步骤(3)层次信息level(x)定义如下:
层次信息level(x).对于给定项x,包含该项的最大频繁项集的长度估计为level(x),即存在level(x),使得expSupCap(x)×Mlevel(x)-3≤T,且T≤expSupCap(x)×M(x)level(x)-2,其中T为支持度阈值;
其中,|DB|表示事务记录条数,项目x的层次迭代参数M(x)定义为对每条记录的M2(x,tj)的整体估计,M(x)取值为
其中,L为数据集D记录的长度限制;
Pcap(x,tj)的定义如下:
M2(x,tj)定义如下:
7.根据权利要求1所述的基于差分隐私的不确定数据频繁项集发布方法,其特征在于:步骤(4)当中的子集频繁约束表示x与当前节点项集的任意(num-1)-项子集合并所得项集均频繁;层次信息约束表示层次信息level(x)大于等于num+1,其中num表示当前节点所处层次。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011315406.0A CN112464277B (zh) | 2020-11-20 | 2020-11-20 | 一种不确定数据隐私保护频繁项集发布方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011315406.0A CN112464277B (zh) | 2020-11-20 | 2020-11-20 | 一种不确定数据隐私保护频繁项集发布方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112464277A true CN112464277A (zh) | 2021-03-09 |
CN112464277B CN112464277B (zh) | 2022-11-25 |
Family
ID=74798233
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011315406.0A Active CN112464277B (zh) | 2020-11-20 | 2020-11-20 | 一种不确定数据隐私保护频繁项集发布方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112464277B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112966281A (zh) * | 2021-03-19 | 2021-06-15 | 西安电子科技大学 | 基于稀疏数据集的隐私保护关联规则挖掘方法 |
CN113569286A (zh) * | 2021-03-26 | 2021-10-29 | 东南大学 | 基于本地化差分隐私的频繁项集挖掘方法 |
CN116522403A (zh) * | 2023-07-04 | 2023-08-01 | 大白熊大数据科技(常熟)有限公司 | 聚焦大数据隐私安全的互动信息脱敏方法及服务器 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107092837A (zh) * | 2017-04-25 | 2017-08-25 | 华中科技大学 | 一种支持差分隐私的频繁项集挖掘方法和系统 |
CN109409128A (zh) * | 2018-10-30 | 2019-03-01 | 南京邮电大学 | 一种面向差分隐私保护的频繁项集挖掘方法 |
CN110096900A (zh) * | 2019-04-30 | 2019-08-06 | 西安理工大学 | 一种高效的差分隐私保护的频繁模式挖掘方法 |
-
2020
- 2020-11-20 CN CN202011315406.0A patent/CN112464277B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107092837A (zh) * | 2017-04-25 | 2017-08-25 | 华中科技大学 | 一种支持差分隐私的频繁项集挖掘方法和系统 |
CN109409128A (zh) * | 2018-10-30 | 2019-03-01 | 南京邮电大学 | 一种面向差分隐私保护的频繁项集挖掘方法 |
CN110096900A (zh) * | 2019-04-30 | 2019-08-06 | 西安理工大学 | 一种高效的差分隐私保护的频繁模式挖掘方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112966281A (zh) * | 2021-03-19 | 2021-06-15 | 西安电子科技大学 | 基于稀疏数据集的隐私保护关联规则挖掘方法 |
CN112966281B (zh) * | 2021-03-19 | 2023-04-07 | 西安电子科技大学 | 基于稀疏数据集的隐私保护关联规则挖掘方法 |
CN113569286A (zh) * | 2021-03-26 | 2021-10-29 | 东南大学 | 基于本地化差分隐私的频繁项集挖掘方法 |
CN113569286B (zh) * | 2021-03-26 | 2024-03-19 | 东南大学 | 基于本地化差分隐私的频繁项集挖掘方法 |
CN116522403A (zh) * | 2023-07-04 | 2023-08-01 | 大白熊大数据科技(常熟)有限公司 | 聚焦大数据隐私安全的互动信息脱敏方法及服务器 |
CN116522403B (zh) * | 2023-07-04 | 2023-08-29 | 大白熊大数据科技(常熟)有限公司 | 聚焦大数据隐私安全的互动信息脱敏方法及服务器 |
Also Published As
Publication number | Publication date |
---|---|
CN112464277B (zh) | 2022-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112464277B (zh) | 一种不确定数据隐私保护频繁项集发布方法 | |
CN106066873B (zh) | 一种基于本体的旅游信息推荐方法 | |
CN104537025B (zh) | 频繁序列挖掘方法 | |
KR101130734B1 (ko) | 상황 구조 생성 방법 및, 상황 구조 생성 시스템 | |
CN109409128B (zh) | 一种面向差分隐私保护的频繁项集挖掘方法 | |
CN106570128A (zh) | 一种基于关联规则分析的挖掘算法 | |
CN107918664B (zh) | 基于不确定图的社会网络数据差分隐私保护方法 | |
CN102122291A (zh) | 一种基于树形日志模式分析的博客好友推荐方法 | |
Shah et al. | Association rule hiding by heuristic approach to reduce side effects & hide multiple RHS items | |
CN113934936A (zh) | 融合知识图卷积网络和用户偏好的推荐算法 | |
CN106156271A (zh) | 基于分布式存储的关联信息索引系统及其建立与使用方法 | |
CN104102699B (zh) | 一种聚簇图集合中的子图检索方法 | |
CN111177410A (zh) | 基于进化R-tree的知识图谱存储和相似性检索方法 | |
CN106095859A (zh) | 基于olam的多维度中医针灸关联规则挖掘方法 | |
CN116611101A (zh) | 一种基于交互式查询差分隐私轨迹数据保护方法 | |
CN111461348A (zh) | 一种基于图核的深度网络嵌入学习方法 | |
CN112069306B (zh) | 一种基于作者著作树和图神经网络的论文合作者推荐方法 | |
Chadokar et al. | Optimizing network traffic by generating association rules using hybrid apriori-genetic algorithm | |
CN112580070B (zh) | 一种基于前缀字典树的rbac角色分层辅助构建方法 | |
Lin et al. | Efficient updating of sequential patterns with transaction insertion | |
CN112380267B (zh) | 一种基于隐私图的社区发现方法 | |
Yang et al. | Clues: a unified framework supporting interactive exploration of density-based clusters in streams | |
CN114722304A (zh) | 异质信息网络上基于主题的社区搜索方法 | |
CN114691744A (zh) | 传播力约束下的微地图用户关联规则挖掘方法 | |
CN102955796B (zh) | 基于频繁子树来导出记录模板的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |