CN101872361A

CN101872361A - 一种面向关联规则挖掘的隐私数据保护方法

Info

Publication number: CN101872361A
Application number: CN 201010209518
Authority: CN
Inventors: 朱玉全; 欧吉顺; 孙蕾; 陈耿
Original assignee: ZHEJIANG JINQUAN SOFTWARE CO Ltd
Current assignee: ZHEJIANG JINQUAN SOFTWARE CO Ltd
Priority date: 2010-06-25
Filing date: 2010-06-25
Publication date: 2010-10-27

Abstract

本发明涉及一种关联规则挖掘中隐私数据的保护方法，该方法通过随机产生两个无符号整数，对数据拥有者所要保护的数据项进行随机置换，在进行关联规则挖掘之前，将数据库中各事务用相应的二进制数表示，各位位值即为该事务所对应的数据项，并采用一定的方法恢复置换后的数据，确保关联规则挖掘有正确的输入数据；对于恢复后的事务数据库，采用基于二进制形式的关联规则挖掘方法来确定事务数据库中的关联规则。该方法包括候选频繁项目集的生成及其支持数的计算方法。本发明所采用方法除了能发现所有的关联规则外，与现有的关联规则挖掘方法相比，不但降低了算法的执行难度，而且能进一步提高算法的执行效率。

Description

一种面向关联规则挖掘的隐私数据保护方法

技术领域

本发明涉及数据挖掘中隐私数据的保护技术，具体涉及一种面向关联规则挖掘的隐私数据保护方法。

背景技术

随着网络、数据库存储以及高性能处理器等技术的飞速发展，数据库中存储的数据呈爆炸式增长。日前，数据库系统可以很好地实现数据查询、删除和统计等功能，OLAP也能较好地进行数据的分析等工作，但这些技术并不支持对数据背后重要信息的挖掘，无法发现数据中隐藏的关系和规则，从而导致出现了”数据爆炸，知识贫乏”的现象。另外，20世纪下半叶发展起来的专家系统，也遇到了“知识获取”这一瓶颈问题。在此背景下，强有力数据分析工具的需求推动了数据挖掘技术的产生。

数据挖掘技术可以帮助人们从大量的数据中智能地、自动地抽取隐含的、事先未知的，具有潜在价值的知识或信息，它不仅被许多研究人员看作是数据库系统和机器学习等方面的一个重要研究课题，而且被许多产业界人士看作是一个能带来巨大回报的重要领域，从数据库中发现出来的规则和知识可以用在信息管理、查询响应、决策支持、过程控制等诸多方面。

在数据挖掘产生巨大财富的同时，随之产生的就是隐私泄露问题，据一份Web用户的权威调查表明，17％的被调查者表示会拒绝透露涉及到自己隐私的任何信息，27％的被调查者表示会经认真考虑后，决定是否会给予涉及到自己隐私的信息，而56％的被调查者表示，如果数据收集机构或数据使用者可以确保个人隐私信息得到有效保护，他们是可以提供涉及到自己隐私的信息。从上述调查结果可以看出，如果无法保证被调查者的隐私，所收集到的数据往往和真实的数据之间存在很大的差异甚至无法完成数据的收集工作，如果在这些错误的数据上进行数据挖掘，那么得到的结果必然是不准确的甚至是完全错误的。然而，可喜的是人们并没有因噎废食，在数据挖掘能够提供的益处面前，只要数据采集机构或使用者采取措施来保证个人的隐私，大部分数据拥有着还是愿意提供自己的隐私数据，隐私保护程度的高低将直接关系到是否能够获得足够真实的信息，从而影响到挖掘结果的可靠有用性。因而，如何在数据挖掘的过程中解决好隐私保护的问题已经成为数据挖掘领域中的一个研究热点，隐私保护数据挖掘技术的研究具有十分重要的理论和现实意义。

在1995年召开的第一届KDD会议上，基于隐私保护的数据挖掘就成为一个专门的研究主题。1999年，RakeshAgrawal在KDD99上作了一场精彩的有关隐私保护数据挖掘主题演讲，并将其作为未来的研究重点之一。自此以后，隐私保护数据挖掘越来越得到人们的高度重视，各种新方法和新技术层出不穷。

隐私保护关联规则挖掘是隐私保护数据挖掘中最活跃的研究方向之一，一般情况下，它包含两个方面的问题，一是数据库中敏感关联规则的保护，所谓敏感关联规则是指数据拥有者不愿公开的关联规则，这些规则的不法使用可能会威胁到数据拥有者的权益。二是隐私数据的保护，隐私数据是指数据拥有者不愿公开的数据项，它可能包括姓名、身份证号、银行帐号、住址、工资等。本发明专利主要解决第二个问题。对于此问题，目前常用的方法是采取数据干扰技术，即通过数据变换或在数据中增加噪声等方法来对原始数据进行干扰，关联规则挖掘是在干扰后的数据集上进行的，因而，该类方法很有可能会影响到关联规则挖掘结果的可用性和有效性，即有可能挖掘出一些原始数据库中本来不存在的且有误导作用的规则，丢失一些原始数据库中存在的且非常有用的规则，从而失取了关联规则挖掘本身的价值。其实，隐私数据是相对的，是与载体相关联的，更换了或脱离了载体，数据就有可能失去其物理意义或敏感性，因此，我们可以通过交换事务之间项目所对应的值来实现隐私数据的保护。

本发明给出了一种基于项目交换技术的隐私数据保护方法，该方法既可以实现对隐私数据的有效保护，又能确保关联规则挖掘结果的有效可行性。

发明内容

本发明的目的在于针对现有隐私数据保护方法可能会影响到关联规则挖掘结果的可用性和有效性等问题，提出了一种新颖的面向关联规则挖掘的隐私数据保护方法，该方法既可以实现对隐私数据的有效保护，同时又不会产生过多的负面影响。

本发明提出的“面向关联规则挖掘的隐私数据保护方法”包括以下步骤：

(1)隐私数据项的确定

根据数据拥有者的意图确定要隐藏的隐私数据项。

(2)隐私数据项的修改

对原事务数据库中的事务进行分组，每k条记录为一组，不足部分补足。假设原事务数据库中有n条事务，分组数为m，则每一组对应一个k位数a_i，i＝1，2，...，m。隐私数据项的修改如下：

①随机产生两个k位的正整数b₁和b₂；

②给每一组的a_i赋值，a_i的第j位对应于第i组组内的第j个事务，其值即为该事务隐私数据项所对应的值，如事务包含隐私数据项则为1，否则为0，i＝1，2，...，m，j＝1，2，...，k；

③执行a_i and b₁orb₂，and为逻辑”与”操作，or为逻辑”或”操作，设其结果为a_i‘。

现在公开的是a_i’，而不是a_i，仅根据a_i’是不可能推出或猜出a_i的值的，就是知道b₁、b₂及a_i’，而不知所执行的操作类型，也是不可能推出或猜出a_i的值的，从而有效保护或隐藏了隐私数据项。

(3)事务的整型化

将事务数据库中的各事务用相应的二进制数表示，各位位值即为该事务所对应的数据项，设对应的二进制数为R_i’，i＝1，2，...，n。

(4)数据的传输

传输整型化后的事务。

(5)数据的恢复

执行a_i’and

or

令a_i”＝a_i’and

or

根据a_i”修改R_j’，修改后的值记为R_j”，i＝1，2，...，m，j＝1，2，...，n。

(6)频繁项目集的生成

设最小支持度阈值为minsup，项目集c的支持数记为count(c)，支持度记为sup(c)，频繁项目集生成分为两小步：候选频繁项目集的产生、候选频繁项目集支持数的计算。

①候选频繁项目集的产生

由频繁项目集L_k-1生成候选频繁k-项目集C_k方法包括下列步骤：

a对于L_k-1中的任意两个不同项目集x和y；

b设xoy＝x or y，统计xoy中1的总数count_xor(1)；

c如果count_xor(1)的值为k，执行下列步骤：

i设置一个计数器count；

ii for(i＝0；i≤m；i++)do begin

iii z＝01b；

iv h＝xoy xor z；// xor为异或操作符

v if(h∈L_(k-1))then count＝count+1；

vi z向左移一位，i＝i+1，转(ii)；

vii如果count的值为m，则将xoy加入C_k中；

d转(a)；

②候选频繁项目集支持数的计算

设D’＝{R₁”，R₂”，......，R_n”}，候选频繁项目集items的支持数count(items)计算方法包括下列两步：

a for each transaction t∈D’

b if(t or items＝＝t)then count(items)＝count(items)+1；

(7)关联规则的产生

设最小置信度阈值为minconf，AR为关联规则集，关联规则产生的方法如下：

①for all λ_k∈L(k≥2)//λ_k为频繁k-项目集

②for all subset//α_h为λ_k的非空真子集

③β＝λ_k-α_h；

④

if (\frac{count (λ_{k})}{count (α_{h})} &GreaterEqual; \min conf)

⑤AR＝AR∪{α_h→β}；

⑥end；

⑦end；

本发明上述的面向关联规则挖掘的隐私数据保护方法用随机产生的两个无符号整数对数据拥有者所要保护的数据项进行随机置换，用户所看到的或网上所传输的将是置换后的数据，要想根据置换后的数据推测出原始数据几乎是不可能的。在进行关联规则挖掘之前，将数据库中的各事务用相应的二进制数表示，各位值即为该事务所对应的数据项，并采用一定的方法恢复置换后的数据，确保关联规则挖掘有正确的输入数据。挖掘出所有的频繁项目集是本发明的最终目的，也是本发明的核心内容，如果不能有效甚至无法挖掘出原始事务数据库中的频繁项目集，最好的隐私保护方法也将是徒劳的。对于恢复后的事务数据库，本发明研究并提出了一种基于二进制形式的关联规则挖掘方法，该方法包括候选频频繁项目集的生成及其支持数的计算方法。

本发明主要有以下两个方面的有益效果。

(1)在隐私数据项的保护方面

本发明提出了一种新颖的隐私数据项保护方法，该方法只需对相关数据执行”与”和”或”操作，一方面，本发明所采用方法可以有效地保护隐私数据项，根据所公开数据是无法导出或猜出真实数据的；另一方面，本发明所采用方法可以确保包含隐私数据项的关联规则仍然有效，克服了现有隐私数据保护方法所带来的两个缺陷，一是可能挖掘出一些原始数据库中本来不存在的且有误导作用的关联规则，二是丢失一些原始数据库中存在的且非常有用的关联规则。

(2)在关联规则挖掘方面

针对修改后的事务数据库，即进行了隐私保护操作后的数据，本发明提出了一种基于二进制形式的候选项目集生成及其支持度计算方法，该方法只需对操作对象执行一些”或”、”与”、”异或”、”非”等逻辑运算操作。本发明所采用方法除了能发现所有的关联规则外，与现有关联规则挖掘方法相比，不但能显著降低算法的实现难度，而且能进一步提高了算法的执行效率。

附图说明

图1是本发明实施例的流程图

图2是本发明实施例的关联规则挖掘流程图

具体实施方式

设数据库DB如表1所示，最小支持度阈值为50％，隐私数据项为A，这里仅考虑布尔型属性，对于数量属性，其基本思路完全相同，如A表示工资时，0可以表示小于某阈值的工资，1可以表示不小于该阈值的工资，如需将A分成4个区间，我们可以将属性A拆成两个布尔型属性，以此类推。

表1 数据库DB

RecordID	A	B	C	D	E	F	G	H
RecordID	A	B	C	D	E	F	G	H	01	1	1	1	0	1	1	0	0
02	1	1	1	0	0	1	0	0	01	1	1	1	0	1	1	0	0
02	1	1	1	0	0	1	0	0	03	0	0	1	1	0	0	0	1
04	1	1	0	0	1	0	1	0	03	0	0	1	1	0	0	0	1
04	1	1	0	0	1	0	1	0	05	1	1	1	0	0	0	1	0

RecordID	A	B	C	D	E	F	G	H
RecordID	A	B	C	D	E	F	G	H	06	1	1	1	0	1	0	1	0
07	0	0	1	1	0	1	0	1	06	1	1	1	0	1	0	1	0
07	0	0	1	1	0	1	0	1	08	1	1	0	0	1	0	0	1

具体执行步骤如下：

(1)修改隐私数据项A，即表1中的第一列，设参与修改的扰乱值为b₁、b₂，b₁＝01101011，b₂＝00100110，

b₁和b₂是不公开的。

数据库DB中各记录数据项A的值为11011101，记为a，执行a’＝aand b₁ orb₂＝11011101 and 01101011 or 00100110＝01101111，修改数据库DB中各记录的第一列值，修改后的数据库如表2所示，现在公开的是数据库DB’，而不是数据库DB，仅根据DB’是不可能推出数据库DB的，根据b₁、b₂及DB’，而不知所执行的操作类型，也是不可能推出数据库DB的，从而隐私数据项A得到了保护或隐藏。

表2 修改后数据库DB’

RecordID	A	B	C	D	E	F	G	H
RecordID	A	B	C	D	E	F	G	H	01	0	1	1	0	1	1	0	0
02	1	1	1	0	0	1	0	0	01	0	1	1	0	1	1	0	0
02	1	1	1	0	0	1	0	0	03	1	0	1	1	0	0	0	1
04	0	1	0	0	1	0	1	0	03	1	0	1	1	0	0	0	1
04	0	1	0	0	1	0	1	0	05	1	1	1	0	0	0	1	0
06	1	1	1	0	1	0	1	0	05	1	1	1	0	0	0	1	0
06	1	1	1	0	1	0	1	0	07	1	0	1	1	0	1	0	1
08	1	1	0	0	1	0	0	1	07	1	0	1	1	0	1	0	1

(2)将数据库DB’中的各记录用二进制数表示，即：R₁’＝01101100，R₂’＝11100100，R₃’＝10110001，R₄’＝01001010，R₅’＝11100010，R₆’＝11101010，R₇’＝10110101，R₈’＝11001001。

(3)执行操作a’and

or

＝01101111 and 11011001or 10010100＝11011101，根据此结果修改R_i’(i＝1，2，...，8)，得：R₁”＝11101100，R₂”＝11100100，R₃”＝00110001，R₄”＝11001010，R₅”＝11100010，R₆”＝11101010，R₇”＝00110101，R₈”＝11001001。

(4)频繁1-项目集L₁的生成

分别统计R₁”～R₈”相应位中”1”的个数，得L₁＝{10000000，01000000，00100000，00001000}。

(5)根据频繁1-项目集L₁生成候选频繁2-项目集C₂

C₂＝{11000000，10100000，10001000，01100000，01001000，00101000}。

(6)频繁2-项目集L₂的确定

分别计算C₂中各项目集的支持数，例如对于R₁”来讲，由于11101100or11000000＝R₁”，因而R₁”支持项目集11000000；对于R₂”来讲，由于11100100or10001000≠11100100，因而R₂”不支持项目集10001000。如此多次操作，分别得到C₂中各元素的支持数为：6、4、4、4、4、2。因而，L₂＝{11000000，10100000，10001000，01100000，01001000}。

(7)根据频繁2-项目集L₂生成候选频繁3-项目集C₃

C₃＝{11100000，11001000}。

(8)频繁3-项目集L₃的确定

类似于第(6)步中支持数的计算方法，分别计算C₃中各元素的支持数，其值分别为：4、4。因而，L₃＝{11100000，11001000}。

(9)根据频繁3-项目集生成候选频繁3-项目集C₄

C₄＝Φ。由于C₄为空集，整个过程结束。

由此可见，L＝L₁∪L₂∪L₃＝{10000000，01000000，00100000，00001000，11000000，10100000，10001000，01100000，01001000，11100000，11001000}，即L＝{{A}，{B}，{C}，{E}，{A，B}，{A，C}，{A，E}，{B，C}，{B，E}，{A，B，C}，{A，B，E}}。可以验证数据库DB中所有的频繁项目集即为{{A}，{B}，{C}，{E}，{A，B}，{A，C}，{A，E}，{B，C}，{B，E}，{A，B，C}，{A，B，E}}，两者是完全一致的。因此，本发明不但保护了隐私数据项，而且不会丢失原数据库中已有的频繁项目集或关联规则，也不会产生原数据库中不存在的频繁项目集或关联规则。