CN101561854B

CN101561854B - 一种序列模式挖掘隐私数据保护方法

Info

Publication number: CN101561854B
Application number: CN2009100271318A
Authority: CN
Inventors: 朱玉全; 孙蕾; 陈耿; 胡天寒
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2009-05-22
Filing date: 2009-05-22
Publication date: 2011-03-30
Anticipated expiration: 2029-05-22
Also published as: CN101561854A

Abstract

本发明涉及一种序列模式挖掘中的隐私数据保护方法。该方法是随机产生两个32位无符号整数，对数据拥有者所要保护的数据项进行随机置换，在进行序列模式挖掘之前，将数据库中的各事务用相应的二进制数表示，各位值即为该事务所对应的数据项，并采用一定的方法恢复置换后的数据，确保序列模式挖掘模块有正确的输入数据；对于恢复后的事务数据库，采用基于二进制形式的序列模式挖掘方法，来确定出频繁序列模式。该方法包括候选频繁序列模式的生成及其支持数的计算方法。本发明所采用方法除了能发现所有的序列模式外，与现有的序列模式挖掘方法相比，不但降低了算法的执行难度，而且能进一步提高算法的执行效率。

Description

一种序列模式挖掘隐私数据保护方法

技术领域

本发明属于数据挖掘中的隐私数据保护技术，具体涉及一种序列模式挖掘中的隐私数据保护方法。

背景技术

随着网络技术、数据库存储技术以及高性能处理器技术等的飞速发展，数据库中存储的数据呈爆炸式增长。日前，数据库系统可以很好地实现数据查询、删除和统计等功能，OLAP也能较好地进行数据的分析等工作，但这些技术并不支持对数据背后重要信息的挖掘，无法发现数据中隐藏的关系和规则，无法根据现有的数据预测未来的发展趋势，从而导致出现了”数据爆炸，知识贫乏”的现象。另外，20世纪下半叶发展起来的专家系统，也遇到“知识获取”这一瓶颈问题。在此背景下，对强有力的数据分析工具的需求推动了数据挖掘技术的产生。

数据挖掘技术可以帮助人们从大量的数据中智能地、自动地抽取隐含的、事先未知的，具有潜在价值的知识或信息，它不仅被许多研究人员看作是数据库系统和机器学习等方面的一个重要研究课题，而且被许多产业界人士看作是一个带来巨大回报的重要领域，从数据库中发现出来的规则和知识可以用在信息管理、查询响应、决策支持、过程控制等许多方面。

任何事情都有其两面性，数据挖掘也不例外，在数据挖掘产生巨大财富的同时，随之产生的就是隐私泄露的问题，据一份Web用户的调查表明，17％的被调查者表示会拒绝透露涉及到自己隐私的任何信息，27％的被调查者表示会经认真考虑后，决定是否给予涉及到自己隐私的信息，而56％的被调查者表示，如果数据收集机构或数据使用者可以确保个人隐私信息得到有效保护，他们可以提供涉及自己隐私的信息。从这些调查材料可以看出，如果无法保证被调查者的隐私，所收集到的数据往往和真实的数据之间存在很大的误差甚至无法完成数据收集，如果在这些错误数据的基础上进行数据挖掘，那么得到的结果必然是不准确甚至是完全错误的。数据挖掘则面临着“巧妇难为无米之炊”的尴尬局面，最好的数据挖掘方法也无济于事。然而，可喜的是人们并没有因噎废食，在数据挖掘能够提供的益处前面，只要数据采集机构或使用者采取措施保证个人的隐私，大部分数据拥有着还是愿意提供自己的隐私数据，隐私保护程度的高低将直接关系到是否能够获得足够真实的信息，从而影响到挖掘结果的可靠有用性。因而，如何在数据挖掘的过程中解决好隐私保护问题已经成为数据挖掘领域中的一个非常关键的问题。

隐私保护序列模式挖掘是隐私保护数据挖掘中比较活跃的研究方向之一，一般情况下，它包含两个方面的问题：一是数据库中敏感序列模式的保护，所谓敏感序列模式是指数据拥有者不愿公开的模式，这些模式的不法使用可能会威胁到数据拥有者的权益；二是敏感原始数据的保护，敏感原始数据是指数据拥有者不愿公开的数据，它可能包括姓名、身份证号、银行帐号、住址、工资等。本发明专利主要解决第二个问题。

对于敏感原始数据的保护问题，目前常用的方法是采取数据干扰技术，即通过数据变换或在数据中增加噪声等方法来对原始数据进行干扰，序列模式挖掘是在干扰后的数据集上进行的，因而，该种方法很有可能影响到挖掘结果的可用和有效性，即挖掘出一些原始数据库中本来不存在的且有误导作用的规则，丢失一些原始数据库中存在的非常有用的规则，从而失取了数据挖掘本身的意义。其实，敏感数据是相对的，是与载体相关联的，更换了或脱离了载体，数据就有可能失去其物理意义或敏感性，因此，我们可以通过修改事务相应的项目来实现敏感数据的保护。

本发明给出了一种基于项目变换的隐私数据保护方法，该方法既可以实现敏感数据的有效保护，又能确保序列模式挖掘结果的有效可行性。

发明内容

本发明的目的在于针对现有隐私数据保护方法可能会影响到序列模式挖掘结果的可用性和有效性等问题，提出了一种新颖的序列模式隐私数据保护方法，该方法既可实现对隐私数据的保护，同时又不会产生负面的影响。

本发明提出的“序列模式挖掘隐私数据保护方法”包括以下步骤：

(1)隐私数据项的确定

根据数据拥有者的意愿确定要隐藏的隐私数据项。

(2)隐私数据项的修改

对原事务数据库中的事务进行分组，每32条记录为一组，不足部分补足。假设原事务数据库中有n条记录，分组数为m，则

每一组对应一个32位数a_i，i＝1，2，...，m。随机产生两个32位的正整数b₁和b₂，隐私数据项的修改的方法为：

①给每一组的a_i赋值，a_i的第j位对应于第i组组内的第j条记录，其值即为该记录隐私数据项所对应的值，i＝1，2，...，m，j＝1，2，...，32。

②执行a_i and b₁ or b₂，and为逻辑”与”操作，or为逻辑”或”操作。为方便起见，令a_i‘＝a_i and b₁ or b₂。

用户所看到的或网上所传输的是a_i‘，而不是a_i，仅根据a_i‘是不可能推出a_i的，就是知道b₁、b₂及a_i‘，而不知道所执行操作的类型，也是不可能推出a_i的，从而隐私数据项得到了有效保护。

(3)记录的整型化

将事务数据库中的各记录用相应的二进制数表示，各位位值即为该记录所对应的数据项，设对应的二进制数为R_i’，i＝1，2，...，n。

(4)数据的传输：用二进制数进行数据的传输；

(5)隐私保护数据项的恢复

执行a_i and b₂ or b₁，其中b₂、b₁分别为对b₂、b₁执行逻辑”非”操作后的结果。令a_i”＝a_i and b₂ or b₁，根据a_i”修改R_j’，修改后的值记为R_j”，i＝1，2，...，m，j＝1，2，...，n。

(6)序列模式的挖掘

设最小支持度阈值为minsup，序列模式c的支持数记为count(c)，相应的支持度记为sup(c)。序列模式的挖掘分为两小步：候选频繁序列模式的生成、候选频繁序列模式支持数的计算。

①候选频繁序列模式的生成

由BL_k-1生成候选频繁k-序列模式BC_k方法包括下列步骤：

a对于BL_k-1中的任意两个元素BL_f、BL_r；

b 将Bs_f1中的第一个1改为0；

c 将Bs_r1中的最后一个1改为0；

d 如果BL_f’与BL_r’相等，即BL_f’与BL_r’的对应位均相同，则由Bs_f1与Bs_r1合成新的序列模式，记合成后的序列模式为BL_k；

f如果不存在BL_n的子(k-1)-序列模式为非频繁(k-1)-序列模式，则把BL_k为候选频繁序列模式；

②候选频繁序列模式支持数的计算

已知序列模式库为SD，候选频繁序列模式BL的支持数count(BL)计算方法包括下列两步：

a对于SD中的任何事务bc；

b如果bc支持BL，则count(BL)++；

本发明上述的序列模式挖掘隐私数据保护方法中。随机产生两个32位无符号整数，对数据拥有者所要保护的数据项进行随机置换，用户所看到的或网上所传输的将是置换后的数据，要想根据置换后的数据推测出原始数据几乎是不可能的。在进行序列模式挖掘之前，将数据库中的各事务用相应的二进制数表示，各位值即为该事务所对应的数据项，并采用一定的方法恢复置换后的数据，确保序列模式挖掘模块有正确的输入数据。挖掘出所有的频繁序列模式是本发明的最终目的，也是本发明的核心内容，如果不能有效甚至无法挖掘出原始事务数据库中的序列模式，最好的隐私保护方法也将是徒劳的。对于恢复后的事务数据库，本发明研究并提出了一种基于二进制形式的序列模式挖掘方法，该方法包括候选频繁序列模式的生成及其支持数的计算方法。

本发明主要有以下两个方面的有益效果：

(1)在隐私数据项的保护方面

本发明提出了一种新颖的隐私数据项保护方法，该方法只需对相关数据执行”与”、”或”、”非”等逻辑操作。一方面，本发明所采用方法可以有效地保护隐私数据项，公开的是经过处理后的数据，根据所公开的数据是无法推导出真实数据的；另一方面，本发明中的序列模式挖掘方法可以确保包含隐私数据项在内的序列模式仍然有效，克服了现有隐私数据保护方法所带来的两个缺陷，一是可能挖掘出一些原始事务数据库中本来不存在的且有误导作用的序列模式，二是丢失一些原始事务数据库中存在的且非常有用的序列模式。

(2)在序列模式挖掘方面

针对修改后的数据库，即执行隐私保护操作后的数据，本发明提出了一种基于二进制形式的候选频繁序列模式生成及其支持度计算方法，该方法只需对操作对象执行一些”与”、”或”、”非”、”异或”等逻辑操作。本发明所采用方法除了能发现所有的序列模式外，与现有的序列模式挖掘方法相比，不但降低了算法的执行难度，而且能进一步提高算法的执行效率。

附图说明

图1是本发明实施例的流程图

图2是本发明实施例的序列模式挖掘流程图

具体实施方式

如图1所示，一种序列模式挖掘隐私数据保护方法包括隐私数据项的确定步骤、隐私数据项的修改步骤、记录的整型化、数据的传输和恢复步骤、以及序列模式的挖掘步骤。

隐私数据项的修改步骤中包括下列步骤：

(1)随机产生两个数b₁和b₂。

(2)记录的分组，每组对应一个整数a_i。

(3)a_i的赋值。

(4)a_i的修改。

记录的整型化、数据的传输和恢复步骤中包括下列步骤：

(1)将事务数据库中的各记录用相应的二进制数表示。

(2)二进制数的传输。

(3)根据b₁和b₂，恢复a_i。

(4)根据恢复后的a_i值修改接收到的二进制事务数据库。

序列模式挖掘步骤如图2，其中的候选频繁序列模式的确定包括下列步骤：

Procedure B-GSP-Gen(BL_k-1)

/*由BL_k-1生成候选频繁k-序列模式BC_k方法，BL_k-1为长度为k的频繁序列模式，k＝2，3，...。*/

(1)BC_k＝φ；

(2)for each BL_f∈BL_k-1 do begin //设BL_f＝Bs_f1→Bs_f2→...→Bs_fp

(3) for each BL_r∈BL_k-1 do begin //设BL_r＝Bs_r1→...→Bs_rq

(4) 将Bs_f1中的第一个1改为0，并记修改后的BL_f为BL_f’＝Bs_fl’→...→Bs_fp

(5) 将Bs_r1中的最后一个1改为0，并记修改后的BL_r为BL_r’＝Bs_r1→...→Bs_rq’

(6) i＝1；

(7) while(i＜＝h)do begin //h为BL_f’中元素的个数

(8) if((BL_f’的第i个元素xorBL_r’的第i个元素)≠0)then//xor为异或操作

(9) break；//它们肯定不相等，没有必要再比较下去了

(10) else i＝i+1；

(11) end；

(12) if(i＝h+1)then do begin//表示语句(11)共执行了h次

(13) Bs_f1与Bs_r1合成新的序列模式，记为BL_n＝Bs_n1→Bs_n2→...→Bs_nt；

(14) i＝1；

(15) while(i＜＝h)//h为BL_n中1的个数

(16) 将BL_n的第i个1改为0，其余不变，并记修改后的BL_n为BL_n’；

(17) flag＝0；

(18) for each BL_k-1∈BSL_k-1 do begin

(19) if(BL_n’＝BL_k-1)then flag＝1；break；//方法参见语句(7)～(11)

(20) end；

(21) if(flag＝0)then break；//表示存在BL_n的子(k-1)-序列模式不属于

BSL_k-1，故BL_n不可能成为频繁序列模式

(22) else i＝i+1；

(23) end；

(24) if(i＝h+1)then BC_k＝BC_k∪BL_n；//i的值不会超过h+1。如果i＜(h+1)，则

表示语句(21)至少成功执行一次，BL_n不可能成为频繁序列模式。

(25) end；

(26) end；

(27) end；

序列模式挖掘步骤中的候选频繁序列模式支持数的计算包括下列步骤：

Procedure B-Calculate-count(SD，BC)

/*计算BC中各元素的支持数，SD为给定的序列模式库，BC为一个任意给定的序列模式集合*/

(1)for each sequential data B_sd∈SD do begin//B_sd＝＝Bt₁→Bt₂→...→Bt_h

(2) for each BS∈BC do begin //BS＝Bs₁→Bs₂→...→Bs_m

(3) i＝1；j＝1；

(4) while(i＜＝h and j＜＝m)do begin

(5) if(Bt_i or Bs_j＝Bt_i)then do begin//t_i支持s_j

(6) i＝i+1；j＝j+1；//比较下一个

(7) end；

(8) else

(9) i＝i+1；//序列数据B_sd向后移动一项，序列模式BS不动

(10) end；

(11) if(j＝m+1)then

(12) count(BS)＝count(BS)+1；

(13) end；

(14)end；

Claims

1.一种序列模式挖掘隐私数据保护方法，包括以下步骤：

(1)隐私数据项的确定：根据数据拥有者的意愿确定要隐藏的隐私数据项；

(2)隐私数据项的修改：原事务数据库中有n条记录，对原事务数据库中的事务进行分组，每32条记录为一组，不足部分补足，分组数为正整数m，每一组对应一个32位数a_i，i＝1，2，...，m；随机产生两个32位的正整数b₁和b₂；

①给每一组的a_i赋值，a_i的第j位对应于第i组组内的第j条记录，其值即为该记录隐私数据项所对应的值，i＝1，2，...，m，j＝1，2，...，32；

②执行a_iand b₁or b₂，and为逻辑”与”操作，or为逻辑”或”操作，令a_i‘＝a_iand b₁ or b₂；

(3)记录的整型化：将事务数据库中的各记录用相应的二进制数表示，各位位值即为该记录所对应的数据项，设对应的二进制数为R_i’，i＝1，2，...，n；

(4)数据传输：用二进制数进行数据的传输；

(5)隐私保护数据项的恢复：执行a_i and

or

其中

分别为对b₂、b₁执行逻辑”非”操作后的结果；令a_i”＝a_i and

or

根据a_i”修改R_j’，

修改后的值记为R_j”，i＝1，2，...，m，j＝1，2，...，n；

(6)序列模式的挖掘：对恢复后的事务数据库，采用基于二进制形式的序列模式挖掘方法，确定频繁序列模式；所说的序列模式的挖掘分为两步：候选频繁序列模式的生成、候选频繁序列模式支持数的计算。