CN105138926B - 敏感信息数据的高效用隐藏保护方法 - Google Patents
敏感信息数据的高效用隐藏保护方法 Download PDFInfo
- Publication number
- CN105138926B CN105138926B CN201510402353.9A CN201510402353A CN105138926B CN 105138926 B CN105138926 B CN 105138926B CN 201510402353 A CN201510402353 A CN 201510402353A CN 105138926 B CN105138926 B CN 105138926B
- Authority
- CN
- China
- Prior art keywords
- item
- sensitive
- sensitive item
- value
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种敏感信息数据的高效用隐藏保护方法,包括:从一含有原数据的数据库中挖掘原数据,获取所有的高效用项集,再从所述高效用项集中获取含有敏感信息数据的敏感项集;通过隐藏保护算法对所述敏感项集中的各敏感项进行一一处理,同时从数据库中查找含有各所述敏感项的事务,通过隐藏保护算法修改所述事务,从而实现对所述事务的敏感项进行隐藏;将修改后的事务回写到数据库中以更新数据库,并输出隐藏保护后的数据。本发明解决了高效用数据挖掘中隐私保护问题,通过隐藏保护算法,能够保证定义的敏感信息数据不被挖掘出来。
Description
技术领域
本发明涉及一种基于数据挖掘中的隐私保护方法,特别指一种敏感信息数据的高效用隐藏保护方法。
背景技术
近年来,数据挖掘被广泛的应用在数据分析上,尤其是在大数据上。数据挖掘能够发现数据中隐藏的直接信息,也能发现数据之间的间接关系,把这些隐藏的信息加以适当的可视化就可以直观的发现其价值,基于这些分析的结果,可以为用为提供更好的服务,同时也能给数据拥有者带来更多的利润。
数据挖掘是通过各种方法发现数据中的隐藏信息和关系,其目标就是要发现这些信息,这种发现能给我们带来好处,但前提是数据中不含有敏感信息。在实际的应用当中,数据是较为完整的,包含各种各样的信息,如用户的信用卡号、电话号码和地址等,虽然单个信息对用户来说是不具有威胁的,但把所有信息都拼凑汇总就会变成非常具有危险性,常用的电子诈骗等就是通过这些相关的信息来进行的。另一方面,有时从数据中也能发现一些可以给一方带来利益而同时会损害另一方利益,这对数据拥有者来说就成了不好的情形,所以如何高效地保护这些敏感信息成了重要的议题。
发明内容
本发明要解决的技术问题,在于提供一种敏感信息数据的高效用隐藏保护方法。
本发明是这样实现的:一种敏感信息数据的高效用隐藏保护方法,包括以下步骤:
步骤一:从一含有原数据的数据库中挖掘原数据,获取所有的高效用项集,再从所述高效用项集中获取含有敏感信息数据的敏感项集;
步骤二:通过隐藏保护算法对所述敏感项集中的各敏感项进行一一处理,同时从数据库中查找含有各所述敏感项的事务,通过隐藏保护算法修改所述事务,从而实现对所述事务的敏感项进行隐藏;
步骤三:将修改后的事务回写到数据库中以更新数据库,并输出隐藏保护后的数据。
进一步地,所述隐藏保护算法的执行方法如下:
(1)根据指标覆盖率、效用值和敏感项长度,对所述敏感项集中的各敏感项的处理顺序进行排序;
(2)依照所述处理顺序从敏感项集中提取一敏感项,计算该敏感项的目标隐藏值:目标隐藏值=(敏感项的效用值—预设的最低效用阈值);
若所述目标隐藏值大于0,则需隐藏该敏感项,执行步骤(3);若所述目标隐藏值小于或等于0,则该敏感项不需隐藏,执行步骤(6);
(3)从数据库中查找含有所述敏感项的所有事务集合,再从所有事务集合中获取具有最大效用值的所述敏感项的事务,作为目标事务;
(4)从目标事务中查找所述敏感项中的具有最小效用值的属性项,然后修改目标事务中的属性项,具体如下:
A、当属性项的效用值小于目标隐藏值时,则从目标事务中删除属性项,以隐藏所述敏感项;
B、当属性项的效用值大于目标隐藏值时,则降低目标事务中属性项的数量以降低所述敏感项的效用值,从而隐藏所述敏感项;
(5)根据目标事务中的属性项的修改,相应地更新数据库和敏感项集中的数据,从而更新其中的敏感信息数据的效用值信息。
(6)判断当前的敏感项是否为所述敏感项集中的最后一项,若是,则结束流程;若否,则进入步骤(2)。
进一步地,所述步骤(1)中,各敏感项的处理顺序的排序原则具体如下:
A、覆盖率高的敏感项优先;
B、当数据库为稀疏数据库时,按敏感项的效用值由小到大进行排序;当数据库为密集型数据库,则按敏感项长度由大到小进行排序;
进一步地,所述覆盖率是指一敏感项与其余的敏感项的包含度和/或相似度;若一敏感项与其余的一敏感项是包含关系,则覆盖率为1,否则根据二者相似性,赋予该敏感项一个0到1之间的实数值。
本发明的优点在于:解决了高效用数据挖掘中隐私保护问题,通过隐藏保护算法,能够保证定义的敏感信息数据不被挖掘出来。
附图说明
下面参照附图结合实施例对本发明作进一步的说明。
图1是本发明敏感信息数据的高效用隐藏保护方法的算法流程图。
具体实施方式
请参阅图1所示,一种敏感信息数据的高效用隐藏保护方法,包括以下步骤:
步骤一:从一含有原数据的数据库中挖掘原数据,获取所有的高效用项集,再从所述高效用项集中获取含有敏感信息数据的敏感项集;
步骤二:通过隐藏保护算法对所述敏感项集中的各敏感项进行一一处理,同时从数据库中查找含有各所述敏感项的事务,通过隐藏保护算法修改所述事务,从而实现对所述事务的敏感项进行隐藏;
步骤三:将修改后的事务回写到数据库中以更新数据库,并输出隐藏保护后的数据。
所述步骤二中,隐藏保护算法的执行方法如下:
(1)根据指标覆盖率、效用值和敏感项长度,对所述敏感项集中的各敏感项的处理顺序进行排序,具体如下:
A、覆盖率高的敏感项优先;
B、当数据库为稀疏数据库时,按敏感项的效用值由小到大进行排序;当数据库为密集型数据库,则按敏感项长度由大到小进行排序;
所述覆盖率是指一敏感项与其余的敏感项的包含度和/或相似度;若一敏感项与其余的一敏感项是包含关系,则覆盖率为1,否则根据二者相似性,赋予该敏感项一个[0,1)之间的实数值。
(2)依照所述处理顺序从所述敏感项集中提取一敏感项,计算该敏感项的目标隐藏值:目标隐藏值=(敏感项的效用值—预设的最低效用阈值);
若所述目标隐藏值大于0,则需隐藏该敏感项,执行步骤(3);若所述目标隐藏值小于或等于0,则该敏感项不需隐藏,执行步骤(6);
(3)从数据库中查找含有所述敏感项的所有事务集合,再从所有事务集合中获取含有最大效用值的所述敏感项的事务,作为目标事务T;
(4)从目标事务T中查找所述敏感项中的具有最小效用值的属性项i,然后修改目标事务T中的属性项i,具体如下:
A、当属性项i的效用值小于目标隐藏值时,则从目标事务T中删除属性项i,以隐藏所述敏感项;
B、当属性项i的效用值大于目标隐藏值时,则降低目标事务T中属性项i的数量以降低所述敏感项的效用值,从而隐藏所述敏感项;
例如:要隐藏ABC,它的效用值为100,最低效用阈值定义为80,那目标隐藏值为100-80=20。通过上述步骤,假设得出要对目标事务Tu中的属性项C进行操作,是删除还是降低数量就取决于目标事务Tu中属性项C的效用值与目标隐藏值(20)的大小关系了。若属性项C的值大,通过降低目标事务Tu中属性项C的数量就可以完成隐藏,否则就从目标事务Tu中删除C。
(5)根据目标事务T中的属性项i的修改,相应地更新数据库和敏感项集中的数据,从而更新其中的敏感信息数据的效用值信息。
目标事务T每一次修改(删除项或是修改数量)后,当前隐藏的敏感项的值都在变化,因为对于被修改的目标事务T来说,也可能包含其它的敏感项,那么这一次修改也会影响到其它敏感项的值,所以在每一次的修改后都要去更新敏感项的值。只有得到这些最新的值,在下一次迭代中才会得到正确的结果。例如:
目标事务T=ABCDEF,属性项i=B,敏感项集S={AB,BCE,DF},敏感项s=AB;会修改目标事务T中的B,对于敏感项集中其它的敏感项{BCE,DF}来说,DF不受影响,而BCE会受到影响,因为它包含B并且目标事务T中也包含BCE,所以在隐藏敏感项s=AB时,就需要更新敏感项集S中BCE的值。
(6)判断当前的敏感项是否为所述敏感项集中的最后一项,若是,则结束流程;若否,则进入步骤(2)。
Claims (3)
1.一种敏感信息数据的高效用隐藏保护方法,其特征在于:包括以下步骤:
步骤一:从一含有原数据的数据库中挖掘原数据,获取所有的高效用项集,再从所述高效用项集中获取含有敏感信息数据的敏感项集;
步骤二:通过隐藏保护算法对所述敏感项集中的各敏感项进行一一处理,同时从数据库中查找含有各所述敏感项的事务,通过隐藏保护算法修改所述事务,从而实现对所述事务的敏感项进行隐藏;
所述隐藏保护算法的执行方法如下:
(1)根据指标覆盖率、效用值和敏感项长度,对所述敏感项集中的各敏感项的处理顺序进行排序;
(2)依照所述处理顺序从敏感项集中提取一敏感项,计算该敏感项的目标隐藏值:目标隐藏值=(敏感项的效用值—预设的最低效用阈值);
若所述目标隐藏值大于0,则需隐藏该敏感项,执行步骤(3);若所述目标隐藏值小于或等于0,则该敏感项不需隐藏,执行步骤(6);
(3)从数据库中查找含有所述敏感项的所有事务集合,再从所有事务集合中获取具有最大效用值的所述敏感项的事务,作为目标事务;
(4)从目标事务中查找所述敏感项中的具有最小效用值的属性项,然后修改目标事务中的属性项,具体如下:
A、当属性项的效用值小于目标隐藏值时,则从目标事务中删除属性项,以隐藏所述敏感项;
B、当属性项的效用值大于目标隐藏值时,则降低目标事务中属性项的数量以降低所述敏感项的效用值,从而隐藏所述敏感项;
(5)根据目标事务中的属性项的修改,相应地更新数据库和敏感项集中的数据,从而更新其中的敏感信息数据的效用值信息;
(6)判断当前的敏感项是否为所述敏感项集中的最后一项,若是,则结束流程;若否,则进入步骤(2);
步骤三:将修改后的事务回写到数据库中以更新数据库,并输出隐藏保护后的数据。
2.如权利要求1所述的敏感信息数据的高效用隐藏保护方法,其特征在于:所述步骤(1)中,各敏感项的处理顺序的排序原则具体如下:
A、覆盖率高的敏感项优先;
B、当数据库为稀疏数据库时,按敏感项的效用值由小到大进行排序;当数据库为密集型数据库,则按敏感项长度由大到小进行排序。
3.如权利要求2所述的敏感信息数据的高效用隐藏保护方法,其特征在于:所述覆盖率是指一敏感项与其余的敏感项的包含度和/或相似度;若一敏感项与其余的一敏感项是包含关系,则覆盖率为1,否则根据二者相似性,赋予该敏感项一个0到1之间的实数值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510402353.9A CN105138926B (zh) | 2015-07-10 | 2015-07-10 | 敏感信息数据的高效用隐藏保护方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510402353.9A CN105138926B (zh) | 2015-07-10 | 2015-07-10 | 敏感信息数据的高效用隐藏保护方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105138926A CN105138926A (zh) | 2015-12-09 |
CN105138926B true CN105138926B (zh) | 2018-04-27 |
Family
ID=54724270
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510402353.9A Expired - Fee Related CN105138926B (zh) | 2015-07-10 | 2015-07-10 | 敏感信息数据的高效用隐藏保护方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105138926B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108984625A (zh) * | 2018-06-19 | 2018-12-11 | 平安科技(深圳)有限公司 | 信息过滤方法、装置、计算机设备及存储介质 |
CN110781188B (zh) * | 2019-10-23 | 2022-09-02 | 泰康保险集团股份有限公司 | 表单信息处理方法、装置、电子设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101499066A (zh) * | 2008-02-01 | 2009-08-05 | 北京石油化工学院 | 一种用于关联规则隐藏的事务增减方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7543145B2 (en) * | 2005-03-03 | 2009-06-02 | Microsoft Corporation | System and method for protecting configuration settings in distributed text-based configuration files |
US7974942B2 (en) * | 2006-09-08 | 2011-07-05 | Camouflage Software Inc. | Data masking system and method |
-
2015
- 2015-07-10 CN CN201510402353.9A patent/CN105138926B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101499066A (zh) * | 2008-02-01 | 2009-08-05 | 北京石油化工学院 | 一种用于关联规则隐藏的事务增减方法 |
Non-Patent Citations (1)
Title |
---|
数据共享中的敏感信息保护研究;张亚君;《中国优秀硕士学位论文全文数据库 信息科技辑》;20121015;第I138-2150页 * |
Also Published As
Publication number | Publication date |
---|---|
CN105138926A (zh) | 2015-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108124184A (zh) | 一种直播互动的方法及装置 | |
CN102541937B (zh) | 一种网页信息探测方法及系统 | |
CN103761236A (zh) | 一种增量式频繁模式增长数据挖掘方法 | |
CN105550583A (zh) | 基于随机森林分类方法的Android平台恶意应用检测方法 | |
CN104778273B (zh) | 一种用于购物网站的大数据分析系统 | |
CN104915334A (zh) | 一种基于语义分析的招投标项目关键信息自动化提取方法 | |
CN107967347A (zh) | 批量数据处理方法、服务器、系统及存储介质 | |
CN107832440B (zh) | 一种数据挖掘方法、装置、服务器及计算机可读存储介质 | |
CN107704436A (zh) | 数据抽样方法、终端、设备以及计算机可读存储介质 | |
CN104933191A (zh) | 一种基于贝叶斯算法的垃圾评论识别方法、系统及终端 | |
CN103838754A (zh) | 信息搜索装置及方法 | |
CN104516962A (zh) | 一种微博舆情监控方法及监控系统 | |
Neves et al. | Assessment of TerraClass and MapBiomas data on legend and map agreement for the Brazilian Amazon biome | |
CN105138926B (zh) | 敏感信息数据的高效用隐藏保护方法 | |
CN109145911A (zh) | 一种街拍照片目标人物提取方法 | |
CN110672072A (zh) | 一种用于裂隙岩体结构的信息多元解译与表征方法 | |
CN108182294B (zh) | 一种基于频繁项集增长算法的电影推荐方法及系统 | |
Kan et al. | Risk of intact forest landscape loss goes beyond global agricultural supply chains | |
CN104462462B (zh) | 基于业务变化频度的数据仓库建模方法和建模装置 | |
Lee et al. | Hashnwalk: Hash and random walk based anomaly detection in hyperedge streams | |
Junaidi et al. | Analysis of Community Response to Disasters through Twitter Social Media | |
CN105589916B (zh) | 显式和隐式兴趣知识的提取方法 | |
CN106933880B (zh) | 一种标签数据泄漏渠道检测方法及装置 | |
CN110580304A (zh) | 数据融合方法、装置、计算机设备及计算机存储介质 | |
CN106257449A (zh) | 一种信息确定方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180427 Termination date: 20210710 |