CN101561854B - 一种序列模式挖掘隐私数据保护方法 - Google Patents
一种序列模式挖掘隐私数据保护方法 Download PDFInfo
- Publication number
- CN101561854B CN101561854B CN2009100271318A CN200910027131A CN101561854B CN 101561854 B CN101561854 B CN 101561854B CN 2009100271318 A CN2009100271318 A CN 2009100271318A CN 200910027131 A CN200910027131 A CN 200910027131A CN 101561854 B CN101561854 B CN 101561854B
- Authority
- CN
- China
- Prior art keywords
- data
- sequence pattern
- sequential mode
- private data
- mining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种序列模式挖掘中的隐私数据保护方法。该方法是随机产生两个32位无符号整数,对数据拥有者所要保护的数据项进行随机置换,在进行序列模式挖掘之前,将数据库中的各事务用相应的二进制数表示,各位值即为该事务所对应的数据项,并采用一定的方法恢复置换后的数据,确保序列模式挖掘模块有正确的输入数据;对于恢复后的事务数据库,采用基于二进制形式的序列模式挖掘方法,来确定出频繁序列模式。该方法包括候选频繁序列模式的生成及其支持数的计算方法。本发明所采用方法除了能发现所有的序列模式外,与现有的序列模式挖掘方法相比,不但降低了算法的执行难度,而且能进一步提高算法的执行效率。
Description
技术领域
本发明属于数据挖掘中的隐私数据保护技术,具体涉及一种序列模式挖掘中的隐私数据保护方法。
背景技术
随着网络技术、数据库存储技术以及高性能处理器技术等的飞速发展,数据库中存储的数据呈爆炸式增长。日前,数据库系统可以很好地实现数据查询、删除和统计等功能,OLAP也能较好地进行数据的分析等工作,但这些技术并不支持对数据背后重要信息的挖掘,无法发现数据中隐藏的关系和规则,无法根据现有的数据预测未来的发展趋势,从而导致出现了”数据爆炸,知识贫乏”的现象。另外,20世纪下半叶发展起来的专家系统,也遇到“知识获取”这一瓶颈问题。在此背景下,对强有力的数据分析工具的需求推动了数据挖掘技术的产生。
数据挖掘技术可以帮助人们从大量的数据中智能地、自动地抽取隐含的、事先未知的,具有潜在价值的知识或信息,它不仅被许多研究人员看作是数据库系统和机器学习等方面的一个重要研究课题,而且被许多产业界人士看作是一个带来巨大回报的重要领域,从数据库中发现出来的规则和知识可以用在信息管理、查询响应、决策支持、过程控制等许多方面。
任何事情都有其两面性,数据挖掘也不例外,在数据挖掘产生巨大财富的同时,随之产生的就是隐私泄露的问题,据一份Web用户的调查表明,17%的被调查者表示会拒绝透露涉及到自己隐私的任何信息,27%的被调查者表示会经认真考虑后,决定是否给予涉及到自己隐私的信息,而56%的被调查者表示,如果数据收集机构或数据使用者可以确保个人隐私信息得到有效保护,他们可以提供涉及自己隐私的信息。从这些调查材料可以看出,如果无法保证被调查者的隐私,所收集到的数据往往和真实的数据之间存在很大的误差甚至无法完成数据收集,如果在这些错误数据的基础上进行数据挖掘,那么得到的结果必然是不准确甚至是完全错误的。数据挖掘则面临着“巧妇难为无米之炊”的尴尬局面,最好的数据挖掘方法也无济于事。然而,可喜的是人们并没有因噎废食,在数据挖掘能够提供的益处前面,只要数据采集机构或使用者采取措施保证个人的隐私,大部分数据拥有着还是愿意提供自己的隐私数据,隐私保护程度的高低将直接关系到是否能够获得足够真实的信息,从而影响到挖掘结果的可靠有用性。因而,如何在数据挖掘的过程中解决好隐私保护问题已经成为数据挖掘领域中的一个非常关键的问题。
隐私保护序列模式挖掘是隐私保护数据挖掘中比较活跃的研究方向之一,一般情况下,它包含两个方面的问题:一是数据库中敏感序列模式的保护,所谓敏感序列模式是指数据拥有者不愿公开的模式,这些模式的不法使用可能会威胁到数据拥有者的权益;二是敏感原始数据的保护,敏感原始数据是指数据拥有者不愿公开的数据,它可能包括姓名、身份证号、银行帐号、住址、工资等。本发明专利主要解决第二个问题。
对于敏感原始数据的保护问题,目前常用的方法是采取数据干扰技术,即通过数据变换或在数据中增加噪声等方法来对原始数据进行干扰,序列模式挖掘是在干扰后的数据集上进行的,因而,该种方法很有可能影响到挖掘结果的可用和有效性,即挖掘出一些原始数据库中本来不存在的且有误导作用的规则,丢失一些原始数据库中存在的非常有用的规则,从而失取了数据挖掘本身的意义。其实,敏感数据是相对的,是与载体相关联的,更换了或脱离了载体,数据就有可能失去其物理意义或敏感性,因此,我们可以通过修改事务相应的项目来实现敏感数据的保护。
本发明给出了一种基于项目变换的隐私数据保护方法,该方法既可以实现敏感数据的有效保护,又能确保序列模式挖掘结果的有效可行性。
发明内容
本发明的目的在于针对现有隐私数据保护方法可能会影响到序列模式挖掘结果的可用性和有效性等问题,提出了一种新颖的序列模式隐私数据保护方法,该方法既可实现对隐私数据的保护,同时又不会产生负面的影响。
本发明提出的“序列模式挖掘隐私数据保护方法”包括以下步骤:
(1)隐私数据项的确定
根据数据拥有者的意愿确定要隐藏的隐私数据项。
(2)隐私数据项的修改
对原事务数据库中的事务进行分组,每32条记录为一组,不足部分补足。假设原事务数据库中有n条记录,分组数为m,则每一组对应一个32位数ai,i=1,2,...,m。随机产生两个32位的正整数b1和b2,隐私数据项的修改的方法为:
①给每一组的ai赋值,ai的第j位对应于第i组组内的第j条记录,其值即为该记录隐私数据项所对应的值,i=1,2,...,m,j=1,2,...,32。
②执行ai and b1 or b2,and为逻辑”与”操作,or为逻辑”或”操作。为方便起见,令ai‘=ai and b1 or b2。
用户所看到的或网上所传输的是ai‘,而不是ai,仅根据ai‘是不可能推出ai的,就是知道b1、b2及ai‘,而不知道所执行操作的类型,也是不可能推出ai的,从而隐私数据项得到了有效保护。
(3)记录的整型化
将事务数据库中的各记录用相应的二进制数表示,各位位值即为该记录所对应的数据项,设对应的二进制数为Ri’,i=1,2,...,n。
(4)数据的传输:用二进制数进行数据的传输;
(5)隐私保护数据项的恢复
执行ai and b2 or b1,其中b2、b1分别为对b2、b1执行逻辑”非”操作后的结果。令ai”=ai and b2 or b1,根据ai”修改Rj’,修改后的值记为Rj”,i=1,2,...,m,j=1,2,...,n。
(6)序列模式的挖掘
设最小支持度阈值为minsup,序列模式c的支持数记为count(c),相应的支持度记为sup(c)。序列模式的挖掘分为两小步:候选频繁序列模式的生成、候选频繁序列模式支持数的计算。
①候选频繁序列模式的生成
由BLk-1生成候选频繁k-序列模式BCk方法包括下列步骤:
a对于BLk-1中的任意两个元素BLf、BLr;
b 将Bsf1中的第一个1改为0;
c 将Bsr1中的最后一个1改为0;
d 如果BLf’与BLr’相等,即BLf’与BLr’的对应位均相同,则由Bsf1与Bsr1合成新的序列模式,记合成后的序列模式为BLk;
f如果不存在BLn的子(k-1)-序列模式为非频繁(k-1)-序列模式,则把BLk为候选频繁序列模式;
②候选频繁序列模式支持数的计算
已知序列模式库为SD,候选频繁序列模式BL的支持数count(BL)计算方法包括下列两步:
a对于SD中的任何事务bc;
b如果bc支持BL,则count(BL)++;
本发明上述的序列模式挖掘隐私数据保护方法中。随机产生两个32位无符号整数,对数据拥有者所要保护的数据项进行随机置换,用户所看到的或网上所传输的将是置换后的数据,要想根据置换后的数据推测出原始数据几乎是不可能的。在进行序列模式挖掘之前,将数据库中的各事务用相应的二进制数表示,各位值即为该事务所对应的数据项,并采用一定的方法恢复置换后的数据,确保序列模式挖掘模块有正确的输入数据。挖掘出所有的频繁序列模式是本发明的最终目的,也是本发明的核心内容,如果不能有效甚至无法挖掘出原始事务数据库中的序列模式,最好的隐私保护方法也将是徒劳的。对于恢复后的事务数据库,本发明研究并提出了一种基于二进制形式的序列模式挖掘方法,该方法包括候选频繁序列模式的生成及其支持数的计算方法。
本发明主要有以下两个方面的有益效果:
(1)在隐私数据项的保护方面
本发明提出了一种新颖的隐私数据项保护方法,该方法只需对相关数据执行”与”、”或”、”非”等逻辑操作。一方面,本发明所采用方法可以有效地保护隐私数据项,公开的是经过处理后的数据,根据所公开的数据是无法推导出真实数据的;另一方面,本发明中的序列模式挖掘方法可以确保包含隐私数据项在内的序列模式仍然有效,克服了现有隐私数据保护方法所带来的两个缺陷,一是可能挖掘出一些原始事务数据库中本来不存在的且有误导作用的序列模式,二是丢失一些原始事务数据库中存在的且非常有用的序列模式。
(2)在序列模式挖掘方面
针对修改后的数据库,即执行隐私保护操作后的数据,本发明提出了一种基于二进制形式的候选频繁序列模式生成及其支持度计算方法,该方法只需对操作对象执行一些”与”、”或”、”非”、”异或”等逻辑操作。本发明所采用方法除了能发现所有的序列模式外,与现有的序列模式挖掘方法相比,不但降低了算法的执行难度,而且能进一步提高算法的执行效率。
附图说明
图1是本发明实施例的流程图
图2是本发明实施例的序列模式挖掘流程图
具体实施方式
如图1所示,一种序列模式挖掘隐私数据保护方法包括隐私数据项的确定步骤、隐私数据项的修改步骤、记录的整型化、数据的传输和恢复步骤、以及序列模式的挖掘步骤。
隐私数据项的修改步骤中包括下列步骤:
(1)随机产生两个数b1和b2。
(2)记录的分组,每组对应一个整数ai。
(3)ai的赋值。
(4)ai的修改。
记录的整型化、数据的传输和恢复步骤中包括下列步骤:
(1)将事务数据库中的各记录用相应的二进制数表示。
(2)二进制数的传输。
(3)根据b1和b2,恢复ai。
(4)根据恢复后的ai值修改接收到的二进制事务数据库。
序列模式挖掘步骤如图2,其中的候选频繁序列模式的确定包括下列步骤:
Procedure B-GSP-Gen(BLk-1)
/*由BLk-1生成候选频繁k-序列模式BCk方法,BLk-1为长度为k的频繁序列模式,k=2,3,...。*/
(1)BCk=φ;
(2)for each BLf∈BLk-1 do begin //设BLf=Bsf1→Bsf2→...→Bsfp
(3) for each BLr∈BLk-1 do begin //设BLr=Bsr1→...→Bsrq
(4) 将Bsf1中的第一个1改为0,并记修改后的BLf为BLf’=Bsfl’→...→Bsfp
(5) 将Bsr1中的最后一个1改为0,并记修改后的BLr为BLr’=Bsr1→...→Bsrq’
(6) i=1;
(7) while(i<=h)do begin //h为BLf’中元素的个数
(8) if((BLf’的第i个元素xorBLr’的第i个元素)≠0)then//xor为异或操作
(9) break;//它们肯定不相等,没有必要再比较下去了
(10) else i=i+1;
(11) end;
(12) if(i=h+1)then do begin//表示语句(11)共执行了h次
(13) Bsf1与Bsr1合成新的序列模式,记为BLn=Bsn1→Bsn2→...→Bsnt;
(14) i=1;
(15) while(i<=h)//h为BLn中1的个数
(16) 将BLn的第i个1改为0,其余不变,并记修改后的BLn为BLn’;
(17) flag=0;
(18) for each BLk-1∈BSLk-1 do begin
(19) if(BLn’=BLk-1)then flag=1;break;//方法参见语句(7)~(11)
(20) end;
(21) if(flag=0)then break;//表示存在BLn的子(k-1)-序列模式不属于
BSLk-1,故BLn不可能成为频繁序列模式
(22) else i=i+1;
(23) end;
(24) if(i=h+1)then BCk=BCk∪BLn;//i的值不会超过h+1。如果i<(h+1),则
表示语句(21)至少成功执行一次,BLn不可能成为频繁序列模式。
(25) end;
(26) end;
(27) end;
序列模式挖掘步骤中的候选频繁序列模式支持数的计算包括下列步骤:
Procedure B-Calculate-count(SD,BC)
/*计算BC中各元素的支持数,SD为给定的序列模式库,BC为一个任意给定的序列模式集合*/
(1)for each sequential data Bsd∈SD do begin//Bsd==Bt1→Bt2→...→Bth
(2) for each BS∈BC do begin //BS=Bs1→Bs2→...→Bsm
(3) i=1;j=1;
(4) while(i<=h and j<=m)do begin
(5) if(Bti or Bsj=Bti)then do begin//ti支持sj
(6) i=i+1;j=j+1;//比较下一个
(7) end;
(8) else
(9) i=i+1;//序列数据Bsd向后移动一项,序列模式BS不动
(10) end;
(11) if(j=m+1)then
(12) count(BS)=count(BS)+1;
(13) end;
(14)end;
Claims (1)
1.一种序列模式挖掘隐私数据保护方法,包括以下步骤:
(1)隐私数据项的确定:根据数据拥有者的意愿确定要隐藏的隐私数据项;
(2)隐私数据项的修改:原事务数据库中有n条记录,对原事务数据库中的事务进行分组,每32条记录为一组,不足部分补足,分组数为正整数m,每一组对应一个32位数ai,i=1,2,...,m;随机产生两个32位的正整数b1和b2;
①给每一组的ai赋值,ai的第j位对应于第i组组内的第j条记录,其值即为该记录隐私数据项所对应的值,i=1,2,...,m,j=1,2,...,32;
②执行aiand b1or b2,and为逻辑”与”操作,or为逻辑”或”操作,令ai‘=aiand b1 or b2;
(3)记录的整型化:将事务数据库中的各记录用相应的二进制数表示,各位位值即为该记录所对应的数据项,设对应的二进制数为Ri’,i=1,2,...,n;
(4)数据传输:用二进制数进行数据的传输;
修改后的值记为Rj”,i=1,2,...,m,j=1,2,...,n;
(6)序列模式的挖掘:对恢复后的事务数据库,采用基于二进制形式的序列模式挖掘方法,确定频繁序列模式;所说的序列模式的挖掘分为两步:候选频繁序列模式的生成、候选频繁序列模式支持数的计算。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009100271318A CN101561854B (zh) | 2009-05-22 | 2009-05-22 | 一种序列模式挖掘隐私数据保护方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009100271318A CN101561854B (zh) | 2009-05-22 | 2009-05-22 | 一种序列模式挖掘隐私数据保护方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101561854A CN101561854A (zh) | 2009-10-21 |
CN101561854B true CN101561854B (zh) | 2011-03-30 |
Family
ID=41220655
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009100271318A Expired - Fee Related CN101561854B (zh) | 2009-05-22 | 2009-05-22 | 一种序列模式挖掘隐私数据保护方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101561854B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101866405B (zh) * | 2010-06-23 | 2011-11-16 | 江苏大学 | 一种关联规则挖掘中隐私数据的保护方法 |
CN101872361A (zh) * | 2010-06-25 | 2010-10-27 | 镇江金全软件有限公司 | 一种面向关联规则挖掘的隐私数据保护方法 |
CN102480481B (zh) * | 2010-11-26 | 2015-01-07 | 腾讯科技(深圳)有限公司 | 一种提高产品用户数据安全性的方法及装置 |
CN102984156B (zh) * | 2012-11-30 | 2016-01-20 | 无锡赛思汇智科技有限公司 | 一种可验证的分布式隐私数据比较与排序方法及装置 |
CN103500226B (zh) * | 2013-10-23 | 2016-05-25 | 中国农业银行股份有限公司 | 一种去除敏感数据敏感性的方法及装置 |
CN104537025B (zh) * | 2014-12-19 | 2017-10-10 | 北京邮电大学 | 频繁序列挖掘方法 |
CN106549762B (zh) * | 2015-09-22 | 2019-08-09 | 阿里巴巴集团控股有限公司 | 一种数据加密方法和装置 |
CN105701200B (zh) * | 2016-01-12 | 2019-08-20 | 中国人民大学 | 一种内存云计算平台上的数据仓库安全olap方法 |
US11055492B2 (en) | 2018-06-02 | 2021-07-06 | Apple Inc. | Privatized apriori algorithm for sequential data discovery |
-
2009
- 2009-05-22 CN CN2009100271318A patent/CN101561854B/zh not_active Expired - Fee Related
Non-Patent Citations (3)
Title |
---|
孙蕾等.频繁序列模式挖掘中关键技术的研究.《计算机工程》.2006,第32卷(第11期),95-96、99. * |
常鹏等.一种分布式序列模式挖掘算法.《计算机应用》.2008,第28卷(第11期),2964-2966、2974. * |
陈健美等.频繁序列模式更新算法.《江苏大学学报(自然科学版)》.2007,第28卷(第3期),250-253. * |
Also Published As
Publication number | Publication date |
---|---|
CN101561854A (zh) | 2009-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101561854B (zh) | 一种序列模式挖掘隐私数据保护方法 | |
Duong et al. | An efficient method for mining frequent itemsets with double constraints | |
CN102460404B (zh) | 生成混淆数据 | |
Hassani et al. | Density-based projected clustering of data streams | |
CN101866405B (zh) | 一种关联规则挖掘中隐私数据的保护方法 | |
CN101872361A (zh) | 一种面向关联规则挖掘的隐私数据保护方法 | |
CN103678530A (zh) | 一种频繁项集快速检出的方法 | |
Ding et al. | De-anonymizing dynamic social networks | |
Apiletti et al. | Pampa-HD: A parallel MapReduce-based frequent pattern miner for high-dimensional data | |
CN111475837A (zh) | 一种网络大数据隐私保护方法 | |
Mewada | Data mining-based privacy preservation technique for medical dataset over horizontal partitioned | |
Bouasker et al. | New exact concise representation of rare correlated patterns: Application to intrusion detection | |
Li et al. | LRDM: Local Record-Driving Mechanism for Big Data Privacy Preservation in Social Networks | |
El-Shafeiy et al. | A big data framework for mining sensor data using Hadoop | |
Manikandan et al. | Design of Transactional Prediction using Plan Mine and Genetic Algorithms | |
CN110796546A (zh) | 一种基于区块链的分布式聚类算法 | |
Tohidi et al. | A frequent pattern mining algorithm based on FP-growth without generating tree | |
CN110633285A (zh) | 一种满足差分隐私的不确定数据频繁项集挖掘方法 | |
CN117349889B (zh) | 一种基于云计算的安全数据的访问控制方法、系统及终端 | |
Tao et al. | Discovering overlapping communities by clustering local link structures | |
Biswas et al. | Parallel and distributed association rule mining algorithms: a recent survey | |
Bhattarai | Scalable Graph Pattern Matching for Cyber Threat Hunting | |
Venkatesan et al. | A multiple window–based co–location pattern mining approach for various types of spatial data | |
TWI835203B (zh) | 具有自適應叢集化功能的日誌分類裝置與相關的電腦程式產品 | |
Wu | 10 Years of Data Mining Research: Retrospect and Prospect. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110330 Termination date: 20110522 |