CN103605749A

CN103605749A - 一种基于多参数干扰的隐私保护关联规则数据挖掘方法

Info

Publication number: CN103605749A
Application number: CN201310591116.2A
Authority: CN
Inventors: 马云龙; 刘敏; 楼灏亮; 章锋; 魏晓婷
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2013-11-20
Filing date: 2013-11-20
Publication date: 2014-02-26

Abstract

本发明涉及一种基于多参数干扰的隐私保护关联规则数据挖掘方法，包括：将原始数据集构造为二维布尔矩阵D，利用数据干扰和查询限制策略对布尔矩阵D进行随机干扰以提高隐私保护度，得到干扰后数据集D′；采用改进后的MASK算法对干扰后数据集D′进行项集支持度重构，并通过集合原理优化计数过程，获取频繁项集，得到关联规则。与现有技术相比，本发明实现了数据干扰策略和查询限制策略的相互结合，克服了两个策略本身存在的缺陷，提高了隐私保护程度；根据矩阵分块思想发现了概率逆矩阵之间的递推关系，避免了先求出概率矩阵再计算其逆矩阵的繁琐过程，基于集合原理优化计数过程，消除了计数过程中的指数级时间复杂度，很大地提高了方法执行效率。

Description

一种基于多参数干扰的隐私保护关联规则数据挖掘方法

技术领域

本发明涉及数据挖掘中隐私数据的保护技术，尤其是涉及一种基于多参数干扰的隐私保护关联规则数据挖掘方法。

背景技术

数据挖掘技术通过融合人工智能、统计学和数据库管理等传统数据分析方法可以从大规模数据集中提取出隐藏的规则和模式，从而为相关部门提供有效决策支持。当数据挖掘发挥越来越大的作用时，随之也带来了隐私方面的问题。比如说疾病控制中心可以通过分析医院病人的病历信息得到疾病间的关系(成年女性患疟疾的同时可能会患有肺结核)。但是数据挖掘技术是基于真实的数据上进行的，无法有效地保护病人所患疾病等隐私信息。与此同时，这些敏感的信息恰恰是医院和病人不想泄露的。再例如，两个公司共享各自数据库进行合作挖掘，得出对双方都有用的信息，但是企业往往不愿意公布自己的真实数据给合作方以免泄露自己的企业机密。隐私保护数据挖掘技术就是为了解决上述问题而产生的。

隐私保护数据挖掘的目标就是在保证数据挖掘的同时尽可能地保护隐私数据，在无法获得精确数据的情况下，却能够得到准确的模型和分析结果。基于隐私保护的关联规则挖掘是隐私保护数据挖掘中最活跃的研究方向之一。申请号为201010209518.8的中国专利公开了一种面向关联规则挖掘的隐私数据保护方法，该方法保护了隐私数据在传输过程中的安全性，但在挖掘前仍要恢复原始数据，存在泄漏隐私的风险。2009年王锐提出了MRD算法，提高了关联规则挖掘过程中的隐私保护度，但是运行时间效率不高。2010年沈中林提出了改进的隐私保护关联规则挖掘算法，通过分治策略对MASK算法进行改进，提高了运行时间效率但隐私保护程度低。现有的隐私保护关联规则挖掘方法普遍存在着时间复杂度高、隐私保护程度低等缺点，很难将其应用到实际中。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于多参数干扰的隐私保护关联规则数据挖掘方法，该方法结合数据干扰和查询限制策略，通过设置不同的参数对原始数据进行不同的处理，实现了对隐私数据更有效的保护，数据挖掘的对象是干扰后的数据，而且在重构过程中引入集合原理，依据扰动参数对数据的真实支持度进行重构以获得频繁项集，消除了额外的计数开销，提高了执行效率。

本发明的目的可以通过以下技术方案来实现：一种基于多参数干扰的隐私保护关联规则数据挖掘方法，其特征在于，包括以下步骤：

(1)将原始数据集构造为二维布尔矩阵D，利用数据干扰和查询限制策略对布尔矩阵D进行随机干扰以提高隐私保护度，得到干扰后数据集D′；

(2)采用改进后的MASK算法对干扰后数据集D′进行项集支持度重构，并通过集合原理优化计数过程，获取频繁项集，得到关联规则数据。

实施步骤(1)具体为，

11)布尔矩阵D的行代表数据记录，列代表项，一个数据记录表示成T=［i₁，i₂，...i_k]，k代表项的个数；

其中，i_j，l≤j≤k的值为0或1，1表示该项出现，0表示该项不出现；

12)设置三个随机化参数：p₁、p₂、p₃，满足0≤p₁，p₂，p₃≤1和p₁+p₂+p₃=1；

13)对每个项i_j进行随机干扰，将数据记录T=［i₁，i₂，...i_k］变换成T′=［i₁′，i₂′，...i_k′］，得到干扰后数据集D′，其中，i_j′表示以p₁的概率保持原来的值i_j，以p₂的概率变成1-i_j，以p₃的概率取值为0。

实施步骤(2)具体为，

21)设置最小支持度阈值s，扫描干扰后数据集D′，产生候选1-项集C₁；

22)n=1，根据下式从干扰后数据集D′中重构得到候选1-项集中各个1-项集的真实支持度

\begin{matrix} C_{n}^{D} = M_{2^{n}}^{- 1} C_{n}^{D^{'}} \\ &DoubleRightArrow; C_{1}^{D} = M_{2}^{- 1} C_{1}^{D^{'}} \\ &DoubleRightArrow; (\begin{matrix} c_{1}^{D} \\ c_{0}^{D} \end{matrix}) = {(\begin{matrix} p_{1} & p_{2} \\ p_{2} + p_{3} & p_{1} + p_{3} \end{matrix})}^{- 1} (\begin{matrix} c_{1}^{D^{'}} \\ c_{0}^{D^{'}} \end{matrix}) \\ &DoubleRightArrow; c_{1}^{D} = \frac{c_{1}^{D^{'}} - p_{2} (c_{1}^{D^{'}} + c_{0}^{D^{'}})}{p_{1} - p_{2}} \end{matrix}

其中，

表示在干扰后数据集D′的任意1-项集c中1的个数，

表示在干扰后数据集D′的任意1-项集c中0的个数；

23)若每个1-项集的真实支持度均不小于最小支持度阈值s，则将候选1-项集C₁作为频繁1-项集L₁；否则将真实支持度小于阈值s的1-项集从候选1-项集C₁中剔除后得到频繁1-项集L₁；

24)更新n＝n+1，根据频繁n-1-项集得到候选n-项集C_n，计算候选n-项集C_n中各个n-项集的真实支持度

C_{n}^{D} = M_{2^{n}}^{- 1} C_{n}^{D^{'}} &DoubleRightArrow; (\begin{matrix} c_{2^{n} - 1}^{D} \\ . \\ . \\ . \\ C_{1}^{D} \\ c_{0}^{D} \end{matrix}) = M_{2^{n}}^{- 1} (\begin{matrix} c_{2^{n} - 1}^{D^{'}} \\ . \\ . \\ . \\ c_{1}^{D^{'}} \\ c_{0}^{D^{'}} \end{matrix}),

其中，

表示元组l在干扰后数据集D′的任意n-项集中出现的次数，元组l为十进制数m的二进制形式，m=0，1，…，2ⁿ-1；

表示十进制数j_x的二进制元组变成十进制数i_x的二进制元组的扭曲概率，i_x=0，1，…，2ⁿ-1，j_x=0，1，…，2ⁿ-1；

25)若每个n-项集的真实支持度均不小于最小支持度阈值s，则将候选n-项集C_n作为频繁n-项集L_n；否则将真实支持度小于阈值s的n-项集从候选n-项集C_n中剔除后得到频繁n-项集L_n；

26)判断频繁n-项集L_n是否为空，是则执行步骤27)，否则返回步骤24)；

27)从干扰后数据集中重构得到所有原始频繁项集L=L₁∪…∪L_n-1。

步骤24)所述的

可以根据已知的

通过以下公式简化后计算得到，

M_{2^{n}}^{- 1} = (\begin{matrix} \frac{1 - p_{2}}{p_{1} - p_{2}} M_{2^{n - 1}}^{- 1} & \frac{- p_{2}}{p_{1} - p_{2}} M_{2^{n - 1}}^{- 1} \\ \frac{p_{1 - 1}}{p_{1} - p_{2}} M_{2^{n - 1}}^{- 1} & \frac{p_{1}}{p_{1} - p_{2}} M_{2^{n - 1}}^{- 1} \end{matrix}),

其中，

M_{2}^{- 1} = {(\begin{matrix} p_{1} & p_{2} \\ p_{2} + p_{3} & p_{1} + p_{3} \end{matrix})}^{- 1} .

步骤24)所述的计算任意n-项集的真实支持度

需要计算2ⁿ个

m=0，1，…，2ⁿ-1，计算2ⁿ个

的过程具体为，

51)先扫描干扰后数据集D′，得到全由1组成的元组在任意n-项集中出现的次数

其中χ+y=n，{A₁A₂...A_xB₁B₂...B_y｝表示干扰后数据集D′中的任意n-项集；

52)再通过集合原理的公式，得出其余元组在任意n-项集中出现的次数，

I ({\overset{&OverBar;}{A}}_{1} {\overset{&OverBar;}{A}}_{2} . . . {\overset{&OverBar;}{A}}_{x} B_{1} B_{2} . . . B_{y}) = I (B_{1} B_{2} . . . B_{y}) + Σ_{i = 1}^{x} \underset{{x_{1} . . . x_{i}} &Subset; {1 . . . x}}{Σ} {(- 1)}^{i} I (A_{x_{1}} A_{x_{2}} . . . A_{x_{1}} . . . B_{1} B_{2} . . . B_{y}),

其中

表示A₁的补集。

与现有技术相比，本发明具有以下优点：

1、数据干扰和查询限制策略的结合：本发明方法通过采用多参数扰动，根据不同参数对数据进行不同处理，既可以变换数据项也可以隐藏数据项，实现了数据干扰策略和查询限制策略的相互结合，克服了两个策略本身存在的缺陷，提高了隐私保护程度。

2、概率矩阵求逆的优化：在根据公式进行支持度重构过程中，求解概率逆矩阵的效率严重影响整个挖掘方法的执行性能，本发明方法根据矩阵分块思想发现了概率逆矩阵之间的递推关系，从而简化了求解过程，只需要求一次概率逆矩阵，后面的逆矩阵均可通过递推公式直接获得，避免了先求出概率矩阵再计算其逆矩阵的繁琐过程，提高了方法执行效率。

3、基于集合原理优化计数过程：由于本发明方法的挖掘对象是干扰后的数据，支持度重构的过程比较复杂，本方法通过集合原理可以优化项集计数过程，只需查询那些项集全为“1”的个数，其它组合的个数可以通过基于集合原理的公式计算出来，消除了计数过程中的指数级时间复杂度，方法执行效率获得了很大改进。

附图说明

图1为本发明随机扰乱原始数据集得到干扰后数据集的流程图；

图2为本发明项集支持度重构获得频繁项集的流程图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

一种基于多参数干扰的隐私保护关联规则数据挖掘方法，其特征在于，包括以下步骤：

(2)采用改进后的MASK算法对干扰后数据集D′进行项集支持度重构，并通过集合原理优化计数过程，获取频繁项集，得到关联规则。

如图1所示，实施步骤(1)具体为，

11)布尔矩阵D的行代表数据记录，列代表项，一个数据记录表示成T=[i₁，i₂，...i_k]，k代表项的个数；

12)设置三个随机化参数：p₁、p₂、p₃，满足0≤p₁，p₂，p₃≤1和p₁+p₂+p₃＝1；

13)对每个项i_j进行随机干扰，将数据记录T=［i₁，i₂，...i_k]变换成T′=［i₁′，i₂′，...i_k′］，得到干扰后数据集D′，其中，i_j′表示以p₁的概率保持原来的值i_j，以p₂的概率变成1-i_j，以p₃的概率取值为0。

如图2所示，实施步骤(2)具体为，

22)n＝1，根据下式从干扰后数据集D′中重构得到候选1-项集中各个1-项集的真实支持度

\begin{matrix} C_{n}^{D} = M_{2^{n}}^{- 1} C_{n}^{D^{'}} \\ &DoubleRightArrow; C_{1}^{D} = M_{2}^{- 1} C_{1}^{D^{'}} \\ &DoubleRightArrow; (\begin{matrix} c_{1}^{D} \\ c_{0}^{D} \end{matrix}) = {(\begin{matrix} p_{1} & p_{2} \\ p_{2} + p_{3} & p_{1} + p_{3} \end{matrix})}^{- 1} (\begin{matrix} c_{1}^{D^{'}} \\ c_{0}^{D^{'}} \end{matrix}) \\ &DoubleRightArrow; c_{1}^{D} = \frac{c_{1}^{D^{'}} - p_{2} (c_{1}^{D^{'}} + c_{0}^{D^{'}})}{p_{1} - p_{2}} \end{matrix}

其中，

表示在干扰后数据集D′的任意1-项集c中1的个数，

表示在干扰后数据集D′的任意1-项集c中0的个数；

C_{n}^{D} = M_{2^{n}}^{- 1} C_{n}^{D^{'}} &DoubleRightArrow; (\begin{matrix} c_{2^{n} - 1}^{D} \\ . \\ . \\ . \\ C_{1}^{D} \\ c_{0}^{D} \end{matrix}) = M_{2^{n}}^{- 1} (\begin{matrix} c_{2^{n} - 1}^{D^{'}} \\ . \\ . \\ . \\ c_{1}^{D^{'}} \\ c_{0}^{D^{'}} \end{matrix}),

其中，

步骤24)所述的

可以根据已知的

通过以下公式简化后计算得到，

M_{2^{n}}^{- 1} = (\begin{matrix} \frac{1 - p_{2}}{p_{1} - p_{2}} M_{2^{n - 1}}^{- 1} & \frac{- p_{2}}{p_{1} - p_{2}} M_{2^{n - 1}}^{- 1} \\ \frac{p_{1 - 1}}{p_{1} - p_{2}} M_{2^{n - 1}}^{- 1} & \frac{p_{1}}{p_{1} - p_{2}} M_{2^{n - 1}}^{- 1} \end{matrix}),

其中，

M_{2}^{- 1} = {(\begin{matrix} p_{1} & p_{2} \\ p_{2} + p_{3} & p_{1} + p_{3} \end{matrix})}^{- 1} .

由于本发明方法是在干扰后数据集中进行挖掘的，支持度重构的过程比较复杂。例如，原始数据项000经过干扰后可能变成000，001，010，100，011，110，101，111中的任意一种，而在重构n-项集支持度时必须考虑到2ⁿ种情况，即需要扫描2ⁿ次数据集来得到2ⁿ种组合的个数。本发明方法通过集合原理可以优化计数过程，只需查询那些项集全为“1”的个数，其它组合的个数可以通过基于集合原理的公式计算出来。

步骤24)所述的计算任意n-项集的真实支持度

需要计算2ⁿ个

m=0，1，…，2ⁿ-1，计算2ⁿ个

的过程具体为，

I ({\overset{&OverBar;}{A}}_{1} {\overset{&OverBar;}{A}}_{2} . . . {\overset{&OverBar;}{A}}_{x} B_{1} B_{2} . . . B_{y}) = I (B_{1} B_{2} . . . B_{y}) + Σ_{i = 1}^{x} \underset{{x_{1} . . . x_{i}} &Subset; {1 . . . x}}{Σ} {(- 1)}^{i} I (A_{x_{1}} A_{x_{2}} . . . A_{x_{1}} . . . B_{1} B_{2} . . . B_{y}),

其中

表示A₁的补集。

例如，假设数据库中的数据记录总数为Number，对于数据集中的任意集合a和b，有以下关系成立：

其中

是集合a的补集，I(b)表示集合b的元素个数。

以2-项集为例，a和b分别表示候选2-项集中的元素，那么‘11’元组的个数可以表示成I(a∩b)，‘10’元组的个数可以表示成

‘01’元组的个数可以表示成

‘00’元组的个数可以表示成

我们只需要扫描‘11’元组的个数，运用以上的集合公式我们可以得到其它组合的个数：

I (\overset{&OverBar;}{a} \cap b) = I (b) - I (a \cap b),

得到“01”元组的个数；

I (a \cap \overset{&OverBar;}{b}) = I (a) - I (a \cap b),

得到“10”元组的个数；

I (\overset{&OverBar;}{a} \cap \overset{&OverBar;}{b}) = I (\overset{&OverBar;}{b}) - I (a \cap \overset{&OverBar;}{b}) = Number - I (a) - (b) + I (a \cap b),

得到“00”元组的个数。

以3-项集为例，a，b和c分别表示候选3-项集中的元素，运用以上公式我们可以得到：

I (\overset{&OverBar;}{a} \cap b \cap c) = I (b \cap c) - I (a \cap b \cap c),

得到“011”元组的个数；

I (\overset{&OverBar;}{a} \cap \overset{&OverBar;}{b} \cap c) = I (c) - [I (a \cap c) + I (b \cap c) - I (a \cap b \cap c)],

得到“001”元组的个数；

I (\overset{&OverBar;}{a} \cap b \cap \overset{&OverBar;}{c}) = I (b) - [I (a \cap b) + I (c \cap b) - I (a \cap b \cap c)],

得到“010”元组的个数。

实施例：

如表1所示，原始数据集由3个项目和10个数据记录组成，最小支持度阈值设为2。

表1原始数据集

ID	A	B	C
				1	1	1	0
2	0	1	0
				3	0	1	1
4	1	1	0
				5	1	0	1
6	0	1	1
				7	1	0	1
8	1	1	1
				9	1	1	1
10	1	0	1

具体执行步骤如下：

(1)设置三个干扰参数为p₁=0.4，p₂=0.3，p₃=0.3，对于原始数据集中的任意一个项目t∈{0，1}，设f₁=t，f₂=1-t，f₃=0，定义一个函数f(t)，函数值以概率p_j取值为f_j，j＝1，2，3，对原始数据库进行随机干扰，得到干扰后数据集D′，如表2所示；

表2干扰后数据集D′

ID	A	B	C
				1	1	1	0
2	0	1	1
				3	0	1	0
4	0	0	1
				5	1	1	1
6	0	0	1
				7	0	1	0
8	0	1	0
				9	1	0	1
10	1	0	1

(2)还原频繁项集

①还原频繁1-项集：

M_{2} = (\begin{matrix} p_{1} & p_{2} \\ p_{2} + p_{3} & p_{1} + p_{3} \end{matrix}) = (\begin{matrix} 0.4 & 0.3 \\ 0.6 & 0.7 \end{matrix}), M_{2}^{- 1} = (\begin{matrix} 7 & - 3 \\ - 6 & 4 \end{matrix}),

根据公式可以得到候选1-项集中各个项的真实支持度

并将各个项在干扰后数据集中出现的次数记录下来：I(A)=4，I(B)=6，I(C)=6；

分别判断各个项的真实支持度是否大于最小支持度阈值：Sup(A)=10>2；Sup(B)=30>2；Sup(C)=30>2，所以频繁1-项集为L={A，B，C｝；

②还原频繁2-项集：

由频繁1-项集得到候选2-项集：{{A，B}{A，C}{B，C｝｝，

M_{4}^{- 1} = (\begin{matrix} \frac{1 - p_{2}}{p_{1} - p_{2}} M_{2}^{- 1} & \frac{- p_{2}}{p_{1} - p_{2}} M_{2}^{- 1} \\ \frac{p_{1} - 1}{p_{1} - p_{2}} M_{2}^{- 1} & \frac{p_{1}}{p_{1} - p_{2}} M_{2}^{- 1} \end{matrix}) = \{\begin{matrix} 49 & - 21 & - 21 & 9 \\ - 42 & 28 & 18 & - 12 \\ - 42 & 18 & 28 & - 12 \\ 36 & - 24 & - 24 & 16 \end{matrix}\},

此时我们只需要扫描数据集得到I(AB)也即

的个数即可，通过集合原理便可直接计算得出其它各个组合的个数：

{c,}_{01'}^{D'} = I (\overset{&OverBar;}{A} \cap B) = I (B) - I (A \cap B) = 6 - 2 = 4;

{c,}_{10'}^{D'} = I (A \cap \overset{&OverBar;}{B}) = I (A) - I (A \cap B) = 4 - 2 = 2;

c_{00}^{D^{'}} = I (\overset{&OverBar;}{A} \cap \overset{&OverBar;}{B}) = Number - I (A) - I (B) + I (A \cap B) = 10 - 4 - 6 + 2 = 2;

由以上结果可得到候选2-项集中各个项集的真实支持度，

Sup(A，B)：

C_{4}^{D} = M_{4}^{- 1} * (\begin{matrix} c_{11}^{D^{'}} \\ c_{10}^{D^{'}} \\ c_{01}^{D^{'}} \\ c_{00}^{D^{'}} \end{matrix}) = \{\begin{matrix} 49 & - 21 & - 21 & 9 \\ - 42 & 28 & 18 & - 12 \\ - 42 & 18 & 28 & - 12 \\ 36 & - 24 & - 24 & 16 \end{matrix}\} * \{\begin{matrix} 2 \\ 2 \\ 4 \\ 2 \end{matrix}\} = \{\begin{matrix} - 10 \\ 20 \\ 40 \\ - 40 \end{matrix}\};

Sup(A，C)：

C_{4}^{D} = M_{4}^{- 1} * (\begin{matrix} c_{11}^{D^{'}} \\ c_{10}^{D^{'}} \\ c_{01}^{D^{'}} \\ c_{00}^{D^{'}} \end{matrix}) = \{\begin{matrix} 49 & - 21 & - 21 & 9 \\ - 42 & 28 & 18 & - 12 \\ - 42 & 18 & 28 & - 12 \\ 36 & - 24 & - 24 & 16 \end{matrix}\} * \{\begin{matrix} 3 \\ 1 \\ 3 \\ 3 \end{matrix}\} = \{\begin{matrix} 90 \\ - 80 \\ - 60 \\ 60 \end{matrix}\};

Sup(B，C)：

C_{4}^{D} = M_{4}^{- 1} * (\begin{matrix} c_{11}^{D^{'}} \\ c_{10}^{D^{'}} \\ c_{01}^{D^{'}} \\ c_{00}^{D^{'}} \end{matrix}) = \{\begin{matrix} 49 & - 21 & - 21 & 9 \\ - 42 & 28 & 18 & - 12 \\ - 42 & 18 & 28 & - 12 \\ 36 & - 24 & - 24 & 16 \end{matrix}\} * \{\begin{matrix} 2 \\ 4 \\ 4 \\ 0 \end{matrix}\} = \{\begin{matrix} - 70 \\ 100 \\ 100 \\ - 120 \end{matrix}\};

从上式得到：

所以{A，B)不是频繁2-项集；Sup(A，C)=90>2，所以{A，C}是频繁2-项集；Sup(B，C)=-70<2，所以{B，C}不是频繁2-项集。

③由频繁2-项集生成候选3-项集，候选3-项集为空集，整个过程结束；

④我们最后可以得出频繁项集L=L₁∪L₂={{A｝，{B}，{C｝，{A，C｝｝。