CN106909666A

CN106909666A - 一种基于多参数扰动的数据挖掘隐私保护方法

Info

Publication number: CN106909666A
Application number: CN201710111404.1A
Authority: CN
Inventors: 柳毅; 晏青; 凌捷
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2017-02-27
Filing date: 2017-02-27
Publication date: 2017-06-30

Abstract

隐私保护是当前数据挖掘领域中一个十分重要的研究方向，其目的是在不精确访问真实数据的条件下，得到潜在的模式和规律。本发明提出了一种多参数扰动的数据挖掘隐私保护方法，该方法用三个随机参数对原始数据进行干扰，采用矩阵分块的方法划分转换矩阵，并在求转换矩阵逆矩阵时，只需求出逆矩阵的首行元素而不用求出所有逆矩阵元素，消除了重构项集支持度的指数级复杂度；利用集合运算原理，用已知数据项推出未知数据项，简化了计算合成项集支持数的过程，结合项集支持度重构公式，从而还原出原始数据的频繁项集。本发明用于关联规则数据挖掘隐私保护效果显著，既可以有效地挖掘频繁项集，又具有更高的计算效率。

Description

一种基于多参数扰动的数据挖掘隐私保护方法

技术领域

本发明涉及数据挖掘的隐私保护领域，具体涉及一种基于多参数扰动的数据挖掘隐私保护方法。

背景技术

近年来，随着信息技术的飞速发展，各行各业都积累了大量的数据。如何从这些数据中挖掘出更深层次的信息，成为当务之急。数据挖掘作为一种有效的数据分析技术，可以发现海量数据中隐含的知识和规律。然而，在使用一般的挖掘方法过程中，容易泄露隐私数据。因此，在进行数据挖掘的同时保护隐私数据是数据挖掘领域亟待解决的问题。

目前，数据挖掘隐私保护按策略上主要分为数据干扰和查询限制两大类。数据干扰就是对原始数据进行随机变换、数据离散化和添加噪声等方法进行干扰，从而保护隐私数据，再对干扰后的数据进行挖掘，得到所需的模式和规律；查询限制就是通过对原始数据进行隐藏、抽样和划分等方式，避免数据挖掘者获得完整的原始数据，然后再通过概率统计或者分布式计算的方法得到所需的模式和规律。但是，这两种策略都存在固有的不足。数据干扰策略中，所有干扰的数据均与真实的原始数据直接相关；而查询限制策略中，所有提供的数据都是真实的原始数据，这些都会降低对隐私数据的保护程度。

现行针对数据扰乱策略的相关研究主要有基于随机变换的MASK算法，该算法是数据挖掘隐私保护领域扰乱策略的代表，该算法通过数据干扰和分布重构实现了隐私保护挖掘，但需要对数据库中的多个项集进行计算且只用一个参数进行干扰，使得隐私性较低。后续提出的EMASK算法对其进行了改进，在数据库转变时，1和0分别以概率p和q进行转换；在项集计数时，用到了集合计算的方法。虽然提高了隐私性，简化了项集计数，但重构原始数据项的支持度是指数级运算，仍然影响执行效率。后续提出的一种多参数随机扰动算法(MRD)，解决了单一使用数据干扰和数据查询策略的缺陷，有效地提高了隐私保护度，但重构项集支持度时的计算为指数级时间复杂度，执行效率仍然很低。

发明内容

针对现有方法存在的不足，本发明提出了一种改进的多参数扰动数据挖掘隐私保护方法。该方法思想如下：

(1)矩阵分块的方法

在改进前的多参数扰动算法中，为了估算k-项集的真实支持度，需要先构造阶数为2^k的转换矩阵M，然后再求出M的逆矩阵M^-1。随着k的增大，转换矩阵M的阶数以2^k的速度增大，求解M^-1的时间复杂度为O(n³)，其中n＝2^k，随着n的增大，算法的时间开销也越来越大。通过对转换矩阵的研究，采用矩阵分块的方法，发现M^-1满足递归关系。因此可以直接求出M^-1而不用先求出M，以下给出了求解M^-1的方法。

由于C^D＝MC^T，则1-项集对应的公式为C^D＝M₂C^T，其转换矩阵M表示为

同理，2-项集对应的公式为C^D＝M₄C^T，其转换矩阵M表示为

用矩阵分块的思想对M₄进行划分：

同理可得，3-项集的转换矩阵M表示为

依次类推，转换矩阵M有如下递归关系：

因此，

由分块对角矩阵的性质可知：

为求采用高斯消元法，过程如下：

所以，

则

由公式(2)可知，满足递归关系。又

当p₁，p₂，p₃确定时，唯一确定。因此，可以通过求出依次递推求出然后，根据公式C^T＝M^-1C^D求出各项集的真实支持度，得到频繁项集。

根据公式(2)，可以推算其时间复杂度如下：

其中：k＝2ⁿ,n＝1,2,…；T(2)为生成所需要的时间；S(2)为生成矩阵所需要的时间；由于T(2)和S(2)的时间复杂度均为O(1)，即看作常数，所以T(k)＝O(k)。而改进前的多参数扰动算法直接求解逆矩阵所需的时间复杂度为O(n³)，矩阵分块的方法在时间复杂度上提高了两个数量级。(2)求逆矩阵首行元素的方法

本次改进方法对计算项集支持度的方式做了进一步的优化，只需求出M-¹的首行元素即可，而不用求出M-¹中所有的元素。对于公式C^T＝Μ-¹C^D，

要求出项集的支持度，只需求出而要求只须让的首行元素和C^D的元素逐个相乘。因此在求的时候只需求出首行元素即可。

因为又

因此，的首行元素是和的乘积组合。

用0代替用1代替则有：

的首行元素是(0，1)。

的首行元素是(0*(0，1)，1*(0，1))，即(00，01，10，11)。

的首行元素是(0*(00，01，10，11)，1*(00，01，10，11))，即(000，001，010，011，100，101，110，111)。

依此类推，可以得出：k-项集的转换矩阵逆矩阵的首行元素对应的是由0到2^k-1的k位二进制数。

即

其中：j为十进制数i对应的二进制数中1的个数。

由公式(3)可知，k-项集支持度表示为

与公式(1)重构项集支持度的方式不同，优化后的项集支持度重构公式(4)的等式左边只用到而不是C^T中的所有2^k个元素，等式右边只用到了转换矩阵逆矩阵首行的2^k个元素，而不是转换矩阵逆矩阵中的所有2^2k个元素，使得执行效率得到进一步地提高。

(3)集合运算的方法

以上方法改进了求解M^-1的过程，但从公式C^T＝Μ^-1C^D可知，除了求解M^-1的过程，还有求解C^D，即对合成数据集的计数过程，而在对合成数据集估算k-项集的真实支持度的时候，需要考虑的则是原始项扰乱后可能产生的2ⁿ种情况，而对每一种情况都要对其合成数据集进行计数，使得开销很大。针对以上问题，可以运用集合运算的原理进行简化计算。根据布尔型数据集的项集特性，可以发现在计算2-项集{A,B}时，A,B取值为0或1，只要查询出A,B取值都为1的个数，即11的个数，其他的取值组合10、01、00可以表示为

10:

01:

00:

根据集合运算的原理进行推理：

又因为由于事务内的各项都是相互独立的，所以

最后可以得到

利用公式(5)，在对合成数据集计数的过程中，只需查询一次弯曲数据集，其他组合的计数可以通过之前在弯曲数据集中得到的频繁项集取值都为1的计数求得。在挖掘过程中，建立动态哈希链表来存储取值都为1的项集计数，为之后的挖掘提供所需的中间结果。这样就可以明显的降低对歪曲数据集各组合计数过程所产生的系统开销，显著地改善了执行效率。

附图说明

图1数据挖掘隐私保护方法流程图。

具体实施方式

在改进方法中，定义函数sup(A)用于计算项集A在歪曲数据集中的支持数，函数cal(k)用于计算k-项集各个组合的个数，哈希表hashtab用于存储频繁项集在歪曲数据集中取值都为1的个数。下面用伪代码表示改进方法的实现过程，方法流程图见图1。

输入：弯曲数据集D，扰动参数p₁，p₂，p₃，最小支持度s。

输出：原始数据集T中的频繁项集L

表1事务列表

表2事务列表的布尔型表示

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种基于多参数扰动的数据挖掘隐私保护方法，其特征在于：

针对超市购物篮数据集，数据集的列代表商品名，行代表顾客的购物行为，所挖掘的数据集可以看作由0和1组成的布尔型矩阵，1表示购买某商品，0表示未购买；对原始数据集进行概率变换，形成弯曲数据集，达到对真实数据集的保护；使用多参数扰动方法，对弯曲后的数据集进行项集支持度重构，得到原始数据集的频繁项集。

2.根据权利要求1所述的数据挖掘隐私保护方法，其特征在于：所述的原始数据集，由0和1组成的布尔型矩阵，行表示顾客的购物行为，列表示商品名，1表示购买某商品，0表示未购买。

3.根据权利要求2所述的数据挖掘隐私保护方法，其特征在于：所述的概率变换，其特征在于：

给定三个随机化参数p1，p2，p3，其中0≤p1，p2，p3≤1，并且p1+p2+p3＝1；对于事务集的任意一个项t∈{0，1}，设f1＝t，f2＝1-t，f3＝0，定义一个随机函数f(t)，函数值以概率pi取值fi，i＝1，2，3；设事务集项的总数为k，则对于原始事务集T＝(t₁,t₂,…,t_k)扰动后变为事务集D＝(d₁,d₂,…,d_k)可通过D＝F(T)计算得到，其中di＝f(ti)；di以概率p1取值ti，以概率p2取值1-ti，以概率p3取值0。

当选择概率p1或p2时，实现了数据的干扰策略；而当选择概率p3时，数据值变为0，相应的事务被隐藏起来，实现了查询限制策略的数据隐藏方法。以p3的概率取0的原因是数据1是数据集信息的体现，是用户需要保护的值，希望通过变换把它隐藏起来，即1→0，当以p3的概率变换时达到了此目的，这正是对查询限制策略的应用。

4.根据权利要求1所述的数据挖掘隐私保护方法，其特征在于：所述的弯曲数据集，由0和1组成的布尔型矩阵，行表示顾客的购物行为，列表示商品名，1表示购买某商品，0表示未购买。

5.根据权利要求1所述的数据挖掘隐私保护方法，其特征在于：所述的项集支持度重构，设原始数据集是T，经过概率变换后的数据集是D，对于数据集中任意一个项i，cT 0和cT1分别表示T中第i列0和1的个数，cD 0和cD 1分别表示D中第i列0和1的个数。由概率变换可得方程组：即MC^T＝C^D，则C^T＝Μ^-1C^D，其中解方程组可求出1-项集的真实支持度(其中p₁≠p₂，N为总项数)；

由1-项集的支持度重构方法可以推出k-项集的重构方法，通过等式C^T＝Μ^-1C^D，此时M是一个2^k阶矩阵，当M可逆时，假设M^-1＝(a_i,j)，则k-项集的支持度可用如下公式表示：