CN112464277A - 一种不确定数据隐私保护频繁项集发布方法 - Google Patents

一种不确定数据隐私保护频繁项集发布方法 Download PDF

Info

Publication number
CN112464277A
CN112464277A CN202011315406.0A CN202011315406A CN112464277A CN 112464277 A CN112464277 A CN 112464277A CN 202011315406 A CN202011315406 A CN 202011315406A CN 112464277 A CN112464277 A CN 112464277A
Authority
CN
China
Prior art keywords
frequent
item set
item
frequent item
record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011315406.0A
Other languages
English (en)
Other versions
CN112464277B (zh
Inventor
倪巍伟
邹云峰
鲍晓涵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Jiangsu Electric Power Co ltd Marketing Service Center
Southeast University
Original Assignee
State Grid Jiangsu Electric Power Co ltd Marketing Service Center
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Jiangsu Electric Power Co ltd Marketing Service Center, Southeast University filed Critical State Grid Jiangsu Electric Power Co ltd Marketing Service Center
Priority to CN202011315406.0A priority Critical patent/CN112464277B/zh
Publication of CN112464277A publication Critical patent/CN112464277A/zh
Application granted granted Critical
Publication of CN112464277B publication Critical patent/CN112464277B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于差分隐私的不确定数据频繁项集发布方法,所述方法包括步骤:(1)给定数据集D,对D进行频繁项集挖掘获取频繁1‑项集ILIST以及第k大频繁项集的支持度λ,对其添加噪声获得
Figure DDA0002791196220000011
以及

Description

一种不确定数据隐私保护频繁项集发布方法
技术领域
本发明涉及到的是一种基于差分隐私的不确定数据频繁项集发布方法,属于不确定数据领域的频繁项集发布算法。
背景技术
目前,隐私保护不确定数据频繁项集发布研究仍处于起步阶段,已有研究主要基于差分隐私。差分隐私已经成为一种新的热门隐私保护模型,该模型不关心攻击者拥有的背景知识,它对攻击者的背景知识假设是最大的,即在攻击者知道除了需要保护的隐私记录以外的其余所有数据。差分隐私通过向查询或者分析结果中添加噪声来达到隐私保护效果。现存基于差分隐私的隐私保护不确定数据频繁项集发布方法存在以下不足:(1)隐私保护机制独立于挖掘过程,造成所发布top-k频繁项集准确性受k值影响(2)算法使用指数机制,应用于规模较大频繁项集时隐私预算较大,难以兼顾数据可用性与隐私安全性(3)割裂对频繁项集及其支持度进行隐私保护处理间的关联,导致输出结果不满足top-k降序排列约束以及正确性约束。综上所述,已有方法均存在隐私保护机制独立于挖掘过程的缺陷,难以兼顾隐私保护安全性和数据可用性。
发明内容
本发明目的在于提供一种不确定数据集满足差分隐私的频繁项集发布方案,运用这个方案,可以在不确定数据集上发布满足差分隐私的top-k频繁项集,同时满足以下约束:(1)输出Top-K项集满足降序排列约束以及正确性约束(2)k值对算法准确性影响不大(3)兼顾数据隐私安全性和可用性,即保证较低隐私预算。
本发明采用的技术方案为:一种不确定数据隐私保护频繁项集发布方法,所述方法包含以下步骤:
(1)给定不确定事务数据D,其事务记录数为N,记录由属性项及其存在概率组成,设置支持度阈值为λ0,λ0采用经验值设置为小于1的正实数,利用传统频繁项集挖掘Apriori算法生成频繁项集FI,在FI中获取频繁1-项集ILIST以及第k大频繁项集的支持度记λ,其中FI数量为m,向ILIST、λ中添加噪声得到
Figure BDA0002791196200000021
以及
Figure BDA0002791196200000022
(2)设置最优截断长度lopt,遍历D,对于记录长度(记录中项的数目)大于lopt的记录,保留
Figure BDA0002791196200000023
中支持度较大的项,组成新的事务记录,使得处理后的记录长度为lopt,得到截断后数据集D’;
(3)在D’中提取包含x的最大频繁项集的长度估计值,记为层次信息level(x);
(4)在D’中,设置初始节点为空集,使用层次信息约束和子集频繁约束筛选得到当前节点的候选项列表NodeList,将NodeList中每一项分别与当前节点的项集合并得到新的项集,判断该项集是否频繁,若频繁则将该项集添加为当前节点的子节点,不断迭代上述过程,最终得到包含所有频繁项集FISet的结果树。
(5)获取FISet中支持度前k项的频繁项集作为top-k频繁项集发布。
其中,步骤(1)中
Figure BDA0002791196200000024
为ILIST的估计值,
Figure BDA0002791196200000025
的估计方法是设定隐私预算
Figure BDA0002791196200000026
敏感度Δq=1,q(D,r)设定为项的支持度计数,ILIST的项数为n,以正比于
Figure BDA0002791196200000027
的概率从D的所有1-项集中选择n项添加到
Figure BDA0002791196200000028
Figure BDA0002791196200000029
为λ的估计值,
Figure BDA00027911962000000210
的估计方法是设定隐私预算为
Figure BDA00027911962000000211
在阈值[1,|I|]上以
Figure BDA00027911962000000212
的概率采样获得,其中q(D,i)表示第i-项频繁项集的支持度,I为D的频繁项集集合。步骤(2)中的lopt表示最优截断长度,其定义如下:
存在lopt,使得γ%的事务数据的长度都小于等于lopt
步骤(3)层次信息level(x)定义如下:
层次信息level(x).对于给定项x,包含该项的最大频繁项集的长度估计为level(x),即存在level(x),使得expSupCap(x)×Mlevel(x)-3≤T,且T≤expSupCap(x)×M(x)level(x)-2,其中T为支持度阈值。
expSupCap(x)的定义如下:项目x的期望支持度的上限阈值,记为expSupCap(x),定义为所有包含项目x的事务记录tj的上限概率阈值之和。即:
Figure BDA0002791196200000031
其中,|DB|表示事务记录条数,项目x的层次迭代参数M(x)定义为对每条记录的M2(x,tj)的整体估计,M(x)取值为
Figure BDA0002791196200000032
其中,L为数据集D记录的长度限制。
Pcap(x,tj)的定义如下:
记录tj中项目x的上限阈值,记为Pcap(x,tj),定义为记录tj中项目x的概率与除x外的最大概率的乘积。令h=|tj|表示tj的长度,即tj中项的个数,
Figure BDA0002791196200000033
Figure BDA0002791196200000034
如式
Figure BDA0002791196200000035
M2(x,tj)定义如下:
M2(x,tj).M2(x,tj)为事务记录tj中除了项目x本身第二大的概率。取值为
Figure BDA0002791196200000036
q满足
Figure BDA0002791196200000037
步骤(4)采用的判断项集是否频繁的方法如下:给定查询序列
Figure BDA0002791196200000038
其中⊥表示支持度大于阈值,
Figure BDA0002791196200000039
表示支持度小于阈值,对于D’中查询得到的项集支持度,设置ε=ε2/m,Δf=1,向该项集支持度添加满足分布Lap(Δf/ε)噪声,若处理后的支持度大于
Figure BDA00027911962000000310
返回⊥以及加噪的支持度,若不频繁,返回
Figure BDA00027911962000000311
保证输出的频繁项集及其支持度满足差分隐私,且有效降低隐私预算。其中子集频繁约束表示x与当前节点项集的任意(num-1)-项子集合并所得项集均频繁;层次信息约束表示层次信息level(x)大于等于num+1。其中num表示当前节点所处层次。
相对于现有技术,本发明的技术效果如下:本发明通过在挖掘过程中使用拉普拉斯机制扰动项集的支持度和最小支持度阈值,保证输出的频繁项集及其支持度满足差分隐私,实现挖掘过程和隐私保护处理过程的一体化,规避k值对算法准确性的影响,同时获取频繁项集及其支持度,保证输出结果满足top-k降序排列约束以及正确性约束;借助不确定数据集具有上限阈值特性,设计候选项层次信息提取策略,利用层次信息减小挖掘的搜索空间,有效降低隐私预算,从而更好地保证发布的频繁项集的可用性和安全性;本发明在进行候选列表筛选时采用的子集频繁约束有效利用已有挖掘结果的信息,极大提高整个算法效率。
附图说明
图1是本发明的处理流程图。
图2是频繁项集结果树示意图。
具体实施方式
以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例1:参见图1-图2,本发明为一种基于差分隐私的不确定数据频繁项集发布方法,包括以下步骤:
步骤一:设置λ0,从D中挖掘得到频繁项集FI,然后获取FI中所有的频繁1-项集ILIST和第k大频繁项集的支持度λ,设定隐私预算
Figure BDA0002791196200000041
敏感度Δq=1,q(D,r)设定为项的支持度计数,ILIST的项数为n,以正比于
Figure BDA0002791196200000042
的概率从D的所有1-项集中选择n项添加到
Figure BDA0002791196200000043
设定隐私预算为
Figure BDA0002791196200000044
Δq=1,在阈值[1,|I|]上以
Figure BDA0002791196200000045
的概率采样获得
Figure BDA0002791196200000046
其中q(D,i)表示为第i-项频繁项集的支持度,I为D的频繁项集集合。通过步骤一获得参数
Figure BDA0002791196200000047
Figure BDA0002791196200000048
作为后续处理的基础。
步骤二:事务截断。遍历数据集D,对所有记录长度超过lopt的记录,进行截断,优先保留
Figure BDA0002791196200000051
中存在且支持度较大的项组成新的事务记录,使得处理后的事务记录长度为lopt,得到D’。
步骤三:层次信息提取。
实例数据集如下:
Figure BDA0002791196200000052
根据实例数据集计算代入公式得到M2(x,tj)如下:
Figure BDA0002791196200000053
计算代入公式得到Pcap(x,tj)以及对应各项的expSupcap(x)如下:
Figure BDA0002791196200000054
e:0.63f:0.63
计算带入M(x)的计算公式得到:
a:0.67b:0.63c:0.47d:0.35e:0.6f:0.6
假设层次信息为l,T为0.5,将l代入公式,使得expSupCap(x)×Mlevel(x)-3≤T,且T≤expSupCap(x)×M(x)level(x)-2成立,计算得到层次信息如下所示:level(a):3level(b):3level(c):3level(d):1level(e):1level(f):1
至此计算得到所有项目的层次信息。
步骤四:构建层次频繁项集树如图2所示。初始项列表I={a(3),b(3),c(3),d(1)},第1步,将I中所有项及其支持度依次加入到1-项集;第2步,对处于第一层的{a},候选项为{b,c},删除d是因为d的层次信息level小于2,不满足层次信息level(x)大于等于num+1,分别合并当前节点项集{a}和候选项中的每一项得到两个新的节点{ab},{ac},判断{ab},{ac}是否频繁,若是,返回加噪后的支持度存入节点,将该节点加入到2-项集集合中,否则,删除节点,经此步骤,得{ab}频繁,同样对第一层的{b},{c},{d}做相同处理,得{bc}频繁,第一层节点处理完毕,得到第二层节点,且第二层节点都频繁;然后对第二层节点做处理,对于节点{ab},候选项集为空集,删除c是因为c在与a合并不频繁,不满足子集频繁约束。同理可对第二层的{bc}做处理,得到结果树。结果树如图1所示,从图上我们可知频繁项集是{a}、{b}、{c}、{d}、{ab}、{bc}以及对应噪声支持度分别为s1、s2、s3、s4、s5、s6
步骤五:从步骤四中获取的频繁项集获取支持度为前k个的top-k频繁项集。
需要说明的是上述实施例仅仅是本发明的较佳实施例,并没有用来限定本发明的保护范围,在上述技术方案的基础上做出的等同替换或者替代,均属于本发明的保护范围。

Claims (7)

1.一种基于差分隐私的不确定数据频繁项集发布方法,其特征在于:所述方法包括以下步骤:
(1)给定不确定事务数据D,其事务记录数为N,记录由属性项及其存在概率组成,设置支持度阈值为λ0,λ0采用经验值设置为小于1的正实数,利用传统频繁项集挖掘Apriori算法生成频繁项集FI,在FI中获取频繁1-项集ILIST以及第k大频繁项集的支持度记λ,其中FI数量为m,向ILIST、λ中添加噪声得到
Figure FDA0002791196190000011
以及
Figure FDA00027911961900000113
(2)设置最优截断长度lopt,遍历D,对于记录长度(记录中项的数目)大于lopt的记录,保留
Figure FDA0002791196190000013
中支持度较大的项,组成新的事务记录,使得处理后的记录长度为lopt,得到截断后数据集D’;
(3)在D’中提取包含x的最大频繁项集的长度估计值,记为层次信息level(x);
(4)在D’中,设置初始节点为空集,使用层次信息约束和子集频繁约束筛选得到当前节点的候选项列表NodeList,将NodeList中每一项分别与当前节点的项集合并得到新的项集,判断该项集是否频繁,若频繁则将该项集添加为当前节点的子节点,不断迭代上述过程,最终得到包含所有频繁项集FISet的结果树;
(5)获取FISet中支持度前k项的频繁项集作为top-k频繁项集发布。
2.根据权利要求1所述的基于差分隐私的不确定数据频繁项集发布方法,其特征在于:步骤(1)中
Figure FDA0002791196190000014
为ILIST的估计值,
Figure FDA0002791196190000015
的估计方法是设定隐私预算
Figure FDA0002791196190000016
敏感度Δq=1,q(D,r)设定为项的支持度计数,ILIST的项数为n,以正比于
Figure FDA0002791196190000017
的概率从D的所有1-项集中选择n项添加到
Figure FDA0002791196190000018
3.根据权利要求1所述基于差分隐私的不确定数据top-k频繁项集发布算法,其特征在于:步骤(1)中
Figure FDA0002791196190000019
为λ的估计值,
Figure FDA00027911961900000110
的估计方法是设定隐私预算为
Figure FDA00027911961900000114
在阈值[1,|I|]上以
Figure FDA00027911961900000112
的概率采样获得,其中q(D,i)表示第i-项频繁项集的支持度,I为D的频繁项集集合。
4.根据权利要求1所述基于差分隐私的不确定数据top-k频繁项集发布算法,其特征在于:步骤(2)中的lopt表示最优截断长度,其定义如下:存在lopt,使得γ%的事务数据的长度都小于lopt
5.根据权利要求1所述的基于差分隐私的不确定数据频繁项集发布方法,其特征在于:步骤(3)层次信息level(x)定义如下:
层次信息level(x).对于给定项x,包含该项的最大频繁项集的长度估计为level(x),即存在level(x),使得expSupCap(x)×Mlevel(x)-3≤T,且T≤expSupCap(x)×M(x)level(x)-2,其中T为支持度阈值;
expSupCap(x)的定义如下:项目x的期望支持度的上限阈值,记为expSupCap(x),定义为所有包含项目x的事务记录tj的上限概率阈值之和。即:
Figure FDA0002791196190000021
Figure FDA0002791196190000022
n=|DB|;
其中,|DB|表示事务记录条数,项目x的层次迭代参数M(x)定义为对每条记录的M2(x,tj)的整体估计,M(x)取值为
Figure FDA0002791196190000023
其中,L为数据集D记录的长度限制;
Pcap(x,tj)的定义如下:
记录tj中项目x的上限阈值,记为Pcap(x,tj),定义为记录tj中项目x的概率与除x外的最大概率的乘积,令h=|tj|表示tj的长度,即tj中项的个数,
Figure FDA0002791196190000024
Figure FDA0002791196190000025
如式
Figure FDA0002791196190000026
M2(x,tj)定义如下:
M2(x,tj).M2(x,tj)为事务记录tj中除了项目x本身第二大的概率,取值为
Figure FDA0002791196190000028
q满足
Figure FDA0002791196190000027
6.根据权利要求1所述的基于差分隐私的不确定数据频繁项集发布方法,其特征在于:步骤(4)采用的判断项集是否频繁的方法如下:给定查询序列{⊥,T},其中⊥表示支持度大于阈值,T表示支持度小于阈值,对于D’中查询得到的项集支持度,设置ε=ε2/m,Δf=1,向该项集支持度添加满足分布Lap(Δf/ε)噪声,若处理后的支持度大于
Figure FDA0002791196190000031
返回⊥以及加噪的支持度,若不频繁,返回T,保证输出的频繁项集及其支持度满足差分隐私,且有效降低隐私预算。
7.根据权利要求1所述的基于差分隐私的不确定数据频繁项集发布方法,其特征在于:步骤(4)当中的子集频繁约束表示x与当前节点项集的任意(num-1)-项子集合并所得项集均频繁;层次信息约束表示层次信息level(x)大于等于num+1,其中num表示当前节点所处层次。
CN202011315406.0A 2020-11-20 2020-11-20 一种不确定数据隐私保护频繁项集发布方法 Active CN112464277B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011315406.0A CN112464277B (zh) 2020-11-20 2020-11-20 一种不确定数据隐私保护频繁项集发布方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011315406.0A CN112464277B (zh) 2020-11-20 2020-11-20 一种不确定数据隐私保护频繁项集发布方法

Publications (2)

Publication Number Publication Date
CN112464277A true CN112464277A (zh) 2021-03-09
CN112464277B CN112464277B (zh) 2022-11-25

Family

ID=74798233

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011315406.0A Active CN112464277B (zh) 2020-11-20 2020-11-20 一种不确定数据隐私保护频繁项集发布方法

Country Status (1)

Country Link
CN (1) CN112464277B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966281A (zh) * 2021-03-19 2021-06-15 西安电子科技大学 基于稀疏数据集的隐私保护关联规则挖掘方法
CN113569286A (zh) * 2021-03-26 2021-10-29 东南大学 基于本地化差分隐私的频繁项集挖掘方法
CN116522403A (zh) * 2023-07-04 2023-08-01 大白熊大数据科技(常熟)有限公司 聚焦大数据隐私安全的互动信息脱敏方法及服务器

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107092837A (zh) * 2017-04-25 2017-08-25 华中科技大学 一种支持差分隐私的频繁项集挖掘方法和系统
CN109409128A (zh) * 2018-10-30 2019-03-01 南京邮电大学 一种面向差分隐私保护的频繁项集挖掘方法
CN110096900A (zh) * 2019-04-30 2019-08-06 西安理工大学 一种高效的差分隐私保护的频繁模式挖掘方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107092837A (zh) * 2017-04-25 2017-08-25 华中科技大学 一种支持差分隐私的频繁项集挖掘方法和系统
CN109409128A (zh) * 2018-10-30 2019-03-01 南京邮电大学 一种面向差分隐私保护的频繁项集挖掘方法
CN110096900A (zh) * 2019-04-30 2019-08-06 西安理工大学 一种高效的差分隐私保护的频繁模式挖掘方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966281A (zh) * 2021-03-19 2021-06-15 西安电子科技大学 基于稀疏数据集的隐私保护关联规则挖掘方法
CN112966281B (zh) * 2021-03-19 2023-04-07 西安电子科技大学 基于稀疏数据集的隐私保护关联规则挖掘方法
CN113569286A (zh) * 2021-03-26 2021-10-29 东南大学 基于本地化差分隐私的频繁项集挖掘方法
CN113569286B (zh) * 2021-03-26 2024-03-19 东南大学 基于本地化差分隐私的频繁项集挖掘方法
CN116522403A (zh) * 2023-07-04 2023-08-01 大白熊大数据科技(常熟)有限公司 聚焦大数据隐私安全的互动信息脱敏方法及服务器
CN116522403B (zh) * 2023-07-04 2023-08-29 大白熊大数据科技(常熟)有限公司 聚焦大数据隐私安全的互动信息脱敏方法及服务器

Also Published As

Publication number Publication date
CN112464277B (zh) 2022-11-25

Similar Documents

Publication Publication Date Title
CN112464277B (zh) 一种不确定数据隐私保护频繁项集发布方法
CN106066873B (zh) 一种基于本体的旅游信息推荐方法
CN104537025B (zh) 频繁序列挖掘方法
KR101130734B1 (ko) 상황 구조 생성 방법 및, 상황 구조 생성 시스템
CN109409128B (zh) 一种面向差分隐私保护的频繁项集挖掘方法
CN106570128A (zh) 一种基于关联规则分析的挖掘算法
CN107918664B (zh) 基于不确定图的社会网络数据差分隐私保护方法
CN102122291A (zh) 一种基于树形日志模式分析的博客好友推荐方法
Shah et al. Association rule hiding by heuristic approach to reduce side effects & hide multiple RHS items
CN113934936A (zh) 融合知识图卷积网络和用户偏好的推荐算法
CN106156271A (zh) 基于分布式存储的关联信息索引系统及其建立与使用方法
CN104102699B (zh) 一种聚簇图集合中的子图检索方法
CN111177410A (zh) 基于进化R-tree的知识图谱存储和相似性检索方法
CN106095859A (zh) 基于olam的多维度中医针灸关联规则挖掘方法
CN116611101A (zh) 一种基于交互式查询差分隐私轨迹数据保护方法
CN111461348A (zh) 一种基于图核的深度网络嵌入学习方法
CN112069306B (zh) 一种基于作者著作树和图神经网络的论文合作者推荐方法
Chadokar et al. Optimizing network traffic by generating association rules using hybrid apriori-genetic algorithm
CN112580070B (zh) 一种基于前缀字典树的rbac角色分层辅助构建方法
Lin et al. Efficient updating of sequential patterns with transaction insertion
CN112380267B (zh) 一种基于隐私图的社区发现方法
Yang et al. Clues: a unified framework supporting interactive exploration of density-based clusters in streams
CN114722304A (zh) 异质信息网络上基于主题的社区搜索方法
CN114691744A (zh) 传播力约束下的微地图用户关联规则挖掘方法
CN102955796B (zh) 基于频繁子树来导出记录模板的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant