CN113569286B

CN113569286B - 基于本地化差分隐私的频繁项集挖掘方法

Info

Publication number: CN113569286B
Application number: CN202110852419.XA
Authority: CN
Inventors: 倪巍伟; 吴尔立; 吴宁
Original assignee: State Grid Jiangsu Electric Power Co ltd Marketing Service Center; Southeast University
Current assignee: State Grid Jiangsu Electric Power Co ltd Marketing Service Center; Southeast University
Priority date: 2021-03-26
Filing date: 2021-07-27
Publication date: 2024-03-19
Anticipated expiration: 2041-07-27
Also published as: CN113569286A

Abstract

本发明公开了一种基于本地化差分隐私的的频繁项集挖掘方法，包括以下步骤：步骤1：本地数据保护阶段：采用自适应的编码策略，根据编码后0/1串中每一位上0与1的情况，产生扰动参数数组，依据该扰动数组应用随即响应技术对数据进行扰动；步骤2：联合概率估计阶段：对扰动之后的数据，通过隐马尔可夫模型进行模型参数的学习，并用参数计算估计联合概率；步骤3：频繁项集发现阶段：根据步骤2结果构建原始数据对应的概率依赖图，通过频繁项集先验原理在概率图中寻找频繁项集。本发明可以支持多用户端分布环境下兼顾个各个用户数据隐私的频繁项集挖掘。

Description

基于本地化差分隐私的频繁项集挖掘方法

技术领域

本发明涉及的是一种隐私保护数据挖掘方法，具体涉及的是一种基于本地化差分隐私的频繁项集挖掘方法。

背景技术

近年来，隐私保护频繁项集挖掘成为了研究者们关注的热点问题。差分隐私以其保护效果有严格的数学定义和无需关心攻击者的背景知识成为了当前隐私保护领域的热点技术。传统的中心化差分隐私技术，将数据集中到第三方数据中心，但在现实应用中往往难以找到可信的第三方数据中心，所以通常采用本地化差分隐私技术，该技术主要针对不存在可信第三方数据中心的分布式应用场景，通过在用户端对用户敏感数据进行扰动来保护用户的隐私数据。定义如下

定义1.本地化差分隐私：给定一个算法Μ，若Μ对任意两个用户所持有的数据项V₁和V₂的输出结果y∈Range(M)，Range(M)表示算法M的值域。若算法M满足下列不等式，则称其满足ε-本地化差分隐私(ε-LDP)。

Pr[M(V₁)＝y]≤e^ε×Pr[M(V₂)＝y]

上述定义可以看出，本地化差分隐私通过使任意两项数据以一定概率产生相同的结果来保护用户的隐私。本地化差分隐私主要采用随即响应技术对用户数据进行扰动。现有本地化差分隐私保护频繁项集挖掘方法主要存在以下问题：(1)传统基于采样的频繁项集挖掘方法每次仅采样一个值，需要多次与用户端进行交互获取相关数据特征，通信代价较大，导致隐私预算增加，降低了隐私保护强度；(2)本地化差分隐私数据扰动协议的信噪比相对较大，多维数据在数据交互时会产生多种不同的数据组合，由于每一个属性都会被扰动，组合后无疑会放大扰动数据中的噪声，使得数据可用性降低；(3)多维数据中属性的关联性不可忽视，直接将已有的本地化差分隐私频繁项挖掘技术应用到多维数据会导致挖掘结果质量降低。

发明内容

本发明目的在于提供一种多维数据场景下的满足本地化差分隐私的频繁项集挖掘方法。

为了实现上述目的，本发明的技术方案如下：一种基于本地化差分隐私的频繁项集挖掘方法，该方法包括以下几个步骤：步骤1用户总数记为N，每个用户都拥有包含k个属性的记录，编号为i的用户拥有的记录为D_i＝{a₁,a₂,a₃,...,a_k},1≤i≤N，每一个属性的值域记为Ω_i,1≤i≤k，其中a_i∈Ω_i,所有值域的大小记为每个用户对值域中所有可能的值进行编码进而确定扰动所需要的参数数组f，f为长度为L的实数数组，其中将属性值域中所有取值转换为2进制编码的0/1串s其形如[0,1,1,0,...,0]，因此编号为j的属性的0/1串记为s_j,1≤j≤m,则f中元素的计算方法为/>其中函数/>用户依据如下扰动函数进行对0/1串进行扰动操作：

用户扰动后将数据发送给不可信第三方进行收集与模型重构。

步骤2：用户的扰动后数据记为形式与原始数据相同，将所有用户扰动后数据组成扰动后数据集记为/>将原数据集视为隐马尔可夫模型中的隐状态集合，则扰动后数据集可以视为隐马尔可夫模型中的可见状态集合，因此通过期望最大化算法对该数据对应的隐马尔科夫模型进行参数估计，得到模型参数集合记为λ＝(C,B,π)，其中C是大小为m×m的状态转移矩阵，B是大小为/>的观测概率矩阵，π为大小为m的初始状态向量，其中存在限制条件/>

步骤3：根据步骤2得到的参数进行1维联合概率求解，通过1维联合概率级联计算出2维联合概率，并以此构建概率依赖图G，设置支持度阈值为δ(0<δ≤1)，通过支持度阈值δ和频繁项集的先验原理对概率图进行路径的删除优化，并通过对图中所有满足支持度阈值的路径进行搜索，生成所需要的频繁项集的集合，记为F即所有的频繁项集的集合。

所述步骤3中，1维联合概率定义P(ω)定义为1项集ω单独出现的概率，即数据集D中一项集ω出现次数占总体的比例，该值为小于1的正实数；

由步骤2得到初始状态向量π可以看做频繁项集中第一项对应的概率，即而项集中非第一项所对应的项集可由状态转移矩阵C和初始状态向量π计算得到，即/>其中1≤ω_pre,ω≤m且/>P(ω_pre)表示项ω任意一个前置项单独出现的概率，/>为矩阵中第ω_pre行第ω列的值，其表示项ω_pre后出现项ω的概率；

2维联合概率表示任意一个2项集出现的概率，记为P(ω_u,ω_v)，其中ω_u,ω_v∈[1,m]，根据贝叶斯公式可得其中ω_middle表示所有介于ω_u与ω_v之间的中间项；

上述步骤得到的2维联合概率分布可以视为概率依赖图G中的边的权重，节点为所有的属性值，则概率依赖图G中每一条边可由一个三元组e＝(ω_u,ω_v,P(ω_u,ω_v)),若P(ω_u,ω_v)≥δ，则将添加对应的边到图G中，反之则将其忽略；

概率依赖图G中任意一条从ω_u到ω_v的路径可视作数据集D中的一个频繁项集记为E＝{e₁,e₂,...,e_|E|}，定义路径的权重如下：P(E)＝Π_e∈EP(e)，其中P(e)为边的权重。由频繁项集先验原理(如果一个项集是频繁的，那包含它的所有子集也是频繁的)可知，若该路径为频繁的即P(E)≥δ，则该路径内的任意一条子路径也是频繁的，因此其中is为E的所有子集。

本发明与现有技术相比，具有以下优点：1)本发明通过改进的数据扰动方案，是扰动方案能够自适应的调整以契合数据集，降低编码冗余导致匹配误差，保护数据隐私的同时提高数据精度；2)本发明引入隐马尔可夫模型，对频数统计问题进行转化，通过对模型的参数重估计，实现对数据频数的统计，降低了传统采样方法所存在的隐私预算分割问题；3)本发明通过构建概率图获取频繁项集，将频繁项集生成转换为图上的路径搜索，采用启发式的方法避免了对多维数据庞大候选项集的访问，提高算法效率且降低挖掘结果可用性损失；4)本发明采用非交互式本地化差分隐私框架，降低了多轮通信产生的隐私预算消耗与通信代价。

附图说明：

图1为本发明整体流程示意图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施例，进一步阐述本发明。

实施例1：用户数量N＝10，其所拥有的数据集如下，为了方便说明，所有的属性值采用编号代替：

步骤1：由上表可知，用户拥有4个属性，每个属性拥有2个属性值，所以数据集的值域Ω₁＝{0,1},Ω₂＝{2,3},Ω₃＝{4,5},Ω₄＝{6,7}，m＝8。方便起见，定义支持度阈值δ＝0.015，所有属性值直接转换为其对应的2进制形式，例如5＝101₂，代入f数组计算函数可以得到扰动函数的参数数组：

f＝[0.5,0.5,0.5,0.5]

代入扰动函数计算可得对应扰动函数的形式：

步骤二：采用随机应答对用户数据集进行扰动，得到扰动数据集如下所示：

对隐马尔可夫模型进行参数进行初始化，并将扰动数据集作为训练数据并使用sklearn库对隐马尔可夫模型进行参数估计，得到如下结果：

π＝[0.20027649 0.31568108 0.14805749 0.08113393 0.00297808 0.128003150.083918 0.03995178]

C＝[[0.12921098 0.14529412 0.14837849 0.11637489 0.110192710.13797499 0.10325222 0.10932161][0.12403 0.14651615 0.15126991 0.121540350.11526564 0.13010489 0.10269709 0.10857598][0.13011799 0.14133953 0.129462910.11914511 0.11817699 0.13885856 0.11636358 0.10653532][0.13228053 0.133490790.1420593 0.12498341 0.11870736 0.12752757 0.11327037 0.10768066][0.126168380.11811482 0.14600917 0.12315435 0.11116306 0.13164771 0.11380487 0.12993765][0.12089743 0.12215562 0.14806382 0.12708525 0.11639784 0.13506749 0.108188950.12214359][0.12508395 0.12924291 0.14906727 0.12443407 0.11641564 0.130585160.10789654 0.11727445][0.12214827 0.12564297 0.12569979 0.13013066 0.130978810.13419525 0.12131594 0.1098883]]

B＝[[0.1015569 0.39159782 0.12989582 0.00507885 0.11481196 0.032506920.19424435 0.03030738][0.05289349 0.57578135 0.16555177 0.03104633 0.033753290.0422048 0.0700275 0.02874148][0.30867787 0.2595688 0.08112057 0.015386060.00529806 0.17178141 0.14589871 0.01226852][0.14709727 0.16585499 0.130807650.09462627 0.16303763 0.17120669 0.11947686 0.00789264][0.31961758 0.00649320.22930627 0.0292411 0.26813919 0.08146883 0.04656907 0.01916476][0.407753070.24010632 0.00327167 0.05584856 0.23164281 0.02018587 0.01756916 0.023622541[0.12721193 0.19046101 0.20399639 0.11013437 0.18918899 0.02257343 0.13111690.0253171[0.37399194 0.08910742 0.07972215 0.18646906 0.02267841 0.119905950.10876946 0.01935561]]

步骤3：根据步骤2所得到的参数进行概率依赖图的构建，将π和C代入公式中，计算得到1维联合概率分布P_ld，如下所示

P_ld＝[0.20027649，0.31568108，0.07746977172909，0.0616751434449141，0.01647643789，0.018622622118，0.003889860，0.0044155435]

再将P_1d和C代入公式可得2维联合概率分布P_2d，在实际计算中，2维联合概率分布可以看做是概率依赖图中的边集数组，因此可以有2维联合概率分布直接得到对应的概率依赖图G，采用邻接矩阵形式表示，具体如下所示：

G＝[[-1.0，-1.0，0.02971672，0.02330715，0.00627856，0.00709873，0.00550116，0.00624281，-1.0]，[-1.0，-1.0，0.04775305，0.03836799，0.01019787，0.0115239，0.00858454，0.0097447，-1.0]，[-1.0，-1.0，-1.0，-1.0，0.00915514，0.01075734，0.00220573，0.00250354，-1.0]，[-1.0，-1.0，-1.0，-1.0，0.00732129，0.00786528，0.00168414，0.00191201，-1.0]，[-1.0，-1.0，-1.0，-1.0，-1.0，-1.0，0.0018751，0.00214091，-1.0]，[-1.0，-1.0，-1.0，-1.0，-1.0，-1.0，0.00201476，0.00227463，-1.0]，[-1.0，-1.0，-1.0，-1.0，-1.0，-1.0，-1.0，-1.0，-1.0]，[-1.0，-1.0，-1.3，-1.0，-1.0，-1.0，-1.0，-1.3，-1.0]，[0.20027649，0.31568108，0.07746977，0.06167514，0.01647644，0.01862262，0.00388986，-0.99558446]]

邻接矩阵G_u，v表示属性值u转换到属性值v的概率值，其中-1.0表示两个节点之间没有边相连，其余非负实数表示边的权值。

通过公式P(E)＝∏_e∈EP(e)计算路径权值，使用深度优先搜索图中所有满足路径权值大于支持度阈值δ＝0.015的路径，将该路径及其子路径添加到频繁项集集合F中，图中存在一条1→3的的符合要求的路径，则将项集{1}，{3}，{1，3}添加到F中，其对应的计数为对应路径的权值P与数据总数N的乘积，最终所得F记为所求频繁项集。

需要说明的是上述实施例仅仅是本发明的简单实施例，且由于算法中存在一定的随机性，同样的数据会产生的结果存在差异，并没有用来限定本发明的保护范围，在上述技术方案的基础上做出的等同替换或者替代，均属于本发明的保护范围。

Claims

1.基于本地化差分隐私的频繁项集挖掘方法，其特征在于，该方法包括以下几个步骤：

步骤1：用户总数记为N，每个用户都拥有包含k个属性的记录，编号为i的用户拥有的记录为D_i＝{a₁，a₂，a₃，...，a_k}，1≤i≤N，每一个属性的值域记为Ω_q，1≤q≤k，其中a_q∈Ω_q，所有值域的大小记为每个用户对值域中所有可能的值进行编码进而确定扰动所需要的参数数组f，通过随机响应方法对用户的数据进行扰动并提交给不可信第三方服务器；

步骤2：用户的扰动后数据记为形式与原始数据相同，将所有用户扰动后数据组成扰动后数据集记为/>将原数据集视为隐马尔可夫模型中的隐状态集合，则扰动后数据集视为隐马尔可夫模型中的可见状态集合，因此通过期望最大化算法对扰动后数据集对应的隐马尔可夫模型进行参数估计，得到模型参数集合记为λ＝(C，B，π)，其中C是大小为m×m的状态转移矩阵，B是大小为/>的观测概率矩阵，π为大小为m的初始状态向量；π[r]，1≤r≤m，表示隐马尔可夫模型中初始状态的概率，m是所有属性值域大小总和，因此存在限制条件∑_1≤r≤mπ[r]＝1；

步骤3：根据步骤2得到的参数进行1维联合概率求解，通过1维联合概率级联计算出2维联合概率，并以此构建概率依赖图记为G，设置支持度阈值为δ，0＜δ≤1，通过支持度阈值δ和频繁项集的先验原理对概率图进行路径的删除优化，并通过对图中所有满足支持度阈值的路径进行搜索，生成所需要的频繁项集的集合记为F。

2.根据权利要求1所述基于本地化差分隐私的频繁项集挖掘方法，其特征在于：所述步骤1中，f为长度为L的实数数组，其中f[g]∈[0，1]，1≤g≤L，将属性值域中所有取值转换为[0，1，1，0，…，0]的2进制编码0/1串s，因此编号为r的属性的0/1串记为s_r，1≤r≤m，则f中元素的计算方法为/>其中函数/>用户依据如下扰动函数进行对0/1串进行扰动操作：

上述扰动过程满足ε-本地化差分隐私，其中

3.根据权利要求1所述基于本地化差分隐私的频繁项集挖掘方法，其特征在于：

所述步骤3中，1维联合概率定义P(ω)定义为1项集ω，1≤ω≤m单独出现的概率，即数据集D中一项集ω出现次数占总体的比例，

P(ω)为小于1的正实数；

由步骤2得到初始状态向量π看做频繁项集中第一项对应的概率，即P(ω)＝π[r]，其中1≤r≤m，ω＝a₁，而项集中非第一项所对应的项集可由状态转移矩阵C和初始状态向量π计算得到，即其中1≤ω_pre，ω≤m且/>P(ω_pre)表示项ω任意一个前置项单独出现的概率，/>为矩阵中第ω_pre行第ω列的值，其表示项ω_pre后出现项ω的概率；

2维联合概率表示任意一个2项集出现的概率，记为P(ω_u，ω_v)，其中ω_u，ω_v∈[1，m]，根据贝叶斯公式可得其中ω_middle表示所有介于ω_u与ω_v之间的中间项；

上述步骤得到的2维联合概率分布视为概率依赖图G中的边的权重，节点为所有的属性值，则概率依赖图G中每一条边由一个三元组e＝(ω_u，ω_v，P(ω_u，ω_v))，若P(ω_u，ω_v)≥δ，则将添加对应的边到图G中，反之则将其忽略；

概率依赖图G中任意一条从ω_u到ω_v的路径可视作数据集D中的一个频繁项集记为E＝{e₁，e₂，…，e_total}，e_total表示图G中从ω_u到ω_v的某条路径中的第total条边，E中共有total条边，定义路径的权重如下：

P(E)＝Π_e∈EP(e)，其中P(e)为边的权重，由频繁项集先验原理，如果一个项集是频繁的，那包含它的所有子集也是频繁的，可知，若该路径为频繁的即P(E)≥δ，则该路径内的任意一条子路径也是频繁的，因此其中is为E的所有子集。