CN106874779A - 一种数据挖掘隐私保护方法及系统 - Google Patents

一种数据挖掘隐私保护方法及系统 Download PDF

Info

Publication number
CN106874779A
CN106874779A CN201710141180.9A CN201710141180A CN106874779A CN 106874779 A CN106874779 A CN 106874779A CN 201710141180 A CN201710141180 A CN 201710141180A CN 106874779 A CN106874779 A CN 106874779A
Authority
CN
China
Prior art keywords
data set
attribute
treatment
decision tree
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710141180.9A
Other languages
English (en)
Inventor
凌捷
马波
龚怡
柳毅
顾国生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201710141180.9A priority Critical patent/CN106874779A/zh
Publication of CN106874779A publication Critical patent/CN106874779A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Bioethics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)

Abstract

本申请公开了一种数据挖掘隐私保护方法及系统,该方法包括:获取原始数据集;对原始数据集中的连续属性进行离散化,得到第一处理后数据集;对第一处理后数据集中的属性进行约简处理,得到第二处理后数据集;对第二处理后数据集中的属性进行完全泛化处理,得到相应的细分方案集;对细分方案集展开相应的决策树构建操作,得到相应的目标决策树;利用目标决策树,对数据挖掘过程展开隐私保护。本申请可以避免在创建决策树的过程中消耗过多的隐私预算,并且能够消除冗余属性对分类准确度的影响,从而提高了最终的隐私保护效果。

Description

一种数据挖掘隐私保护方法及系统
技术领域
本发明涉及数据挖掘技术领域,特别涉及一种数据挖掘隐私保护方法及系统。
背景技术
当前,随着大数据时代的到来,数据挖掘技术得到了快速的发展,应用范围也越来越广。而数据挖掘技术本身就像是一把双刃剑,在企业和个人合理使用数据挖掘技术的情况下,能够为日常的商业活动以及工作生活带来积极作用。然而,如果用户将挖掘目标瞄准个人隐私或商业机密的情况下,则很可能会导致隐私信息遭受泄露。
为了避免在数据挖掘过程中隐私信息遭到泄露,人们提出了基于决策树来对数据挖掘展开隐私保护,然而,现有用于对数据挖掘进行隐私保护的决策树在创建过程中需要消耗较多的隐私预算,并且容易导致最终的隐私保护效果较差。
综上所述可以看出,如何在创建决策树的过程中避免消耗过多的隐私预算并提高最终的隐私保护效果是目前有待解决的问题。
发明内容
有鉴于此,本发明的目的在于提供一种数据挖掘隐私保护方法及系统,能够在创建决策树的过程中避免消耗过多的隐私预算并提高了最终的隐私保护效果。其具体方案如下:
一种数据挖掘隐私保护方法,包括:
获取原始数据集;
对所述原始数据集中的连续属性进行离散化,得到第一处理后数据集;
对所述第一处理后数据集中的属性进行约简处理,得到第二处理后数据集;
对所述第二处理后数据集中的属性进行完全泛化处理,得到相应的细分方案集;
对所述细分方案集展开相应的决策树构建操作,得到相应的目标决策树;
利用所述目标决策树,对数据挖掘过程展开隐私保护。
可选的,所述对所述原始数据集中的连续属性进行离散化的过程,包括:
利用断点法,对所述原始数据集中的连续属性进行离散化处理,得到所述第一处理后数据集。
可选的,所述对所述第一处理后数据集中的属性进行约简处理的过程,包括:
创建与所述第一处理后数据集对应的可辨识矩阵;
基于所述可辨识矩阵,对所述第一处理后数据集中的属性展开约简处理,得到所述第二处理后数据集。
可选的,所述对所述第二处理后数据集中的属性进行完全泛化处理的过程,包括:
对所述第二处理后数据集中数值型的离散属性进行直接泛化,并对所述第二处理后数据集中非数值型的离散属性进行逐级泛化,得到所述细分方案集。
可选的,所述对所述细分方案集展开相应的决策树构建操作的过程,包括:
利用差分隐私的指数机制,对所述细分方案集展开相应的决策树构建操作,得到所述目标决策树。
本发明还公开了一种数据挖掘隐私保护系统,包括:
数据集获取模块,用于获取原始数据集;
属性离散化模块,用于对所述原始数据集中的连续属性进行离散化,得到第一处理后数据集;
属性约简模块,用于对所述第一处理后数据集中的属性进行约简处理,得到第二处理后数据集;
属性泛化模块,用于对所述第二处理后数据集中的属性进行完全泛化处理,得到相应的细分方案集;
决策树构建模块,用于对所述细分方案集展开相应的决策树构建操作,得到相应的目标决策树;
隐私保护模块,用于利用所述目标决策树,对数据挖掘过程展开隐私保护。
可选的,所述属性离散化模块,具体用于利用断点法,对所述原始数据集中的连续属性进行离散化处理,得到所述第一处理后数据集。
可选的,所述属性约简模块,具体用于创建与所述第一处理后数据集对应的可辨识矩阵,然后基于所述可辨识矩阵,对所述第一处理后数据集中的属性展开约简处理,得到所述第二处理后数据集。
可选的,所述属性泛化模块,具体用于对所述第二处理后数据集中数值型的离散属性进行直接泛化,并对所述第二处理后数据集中非数值型的离散属性进行逐级泛化,得到所述细分方案集。
可选的,所述决策树构建模块,具体用于利用差分隐私的指数机制,对所述细分方案集展开相应的决策树构建操作,得到所述目标决策树。
本发明中,数据挖掘隐私保护方法,包括:获取原始数据集;对原始数据集中的连续属性进行离散化,得到第一处理后数据集;对第一处理后数据集中的属性进行约简处理,得到第二处理后数据集;对第二处理后数据集中的属性进行完全泛化处理,得到相应的细分方案集;对细分方案集展开相应的决策树构建操作,得到相应的目标决策树;利用目标决策树,对数据挖掘过程展开隐私保护。
可见,本发明获取到原始数据集之后,先对原始数据集中的连续属性进行离散化处理,从而为后续对数据集中的属性进行约简提供基础,在对数据集中的属性进行约简之后,将可以去除数据集中的冗余属性,这样可以避免在创建决策树的过程中消耗过多的隐私预算,并且能够消除冗余属性对分类准确度的影响,从而提高了最终的隐私保护效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例公开的一种数据挖掘隐私保护方法流程图;
图2为本发明实施例公开的一种具体的数据挖掘隐私保护方法流程图;
图3为本发明实施例公开的一种数据挖掘隐私保护系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种数据挖掘隐私保护方法,参见图1所示,该方法包括:
步骤S11:获取原始数据集。
步骤S12:对原始数据集中的连续属性进行离散化,得到第一处理后数据集。
步骤S13:对第一处理后数据集中的属性进行约简处理,得到第二处理后数据集。
步骤S14:对第二处理后数据集中的属性进行完全泛化处理,得到相应的细分方案集。
步骤S15:对细分方案集展开相应的决策树构建操作,得到相应的目标决策树。
步骤S16:利用目标决策树,对数据挖掘过程展开隐私保护。
可见,本发明实施例获取到原始数据集之后,先对原始数据集中的连续属性进行离散化处理,从而为后续对数据集中的属性进行约简提供基础,在对数据集中的属性进行约简之后,将可以去除数据集中的冗余属性,这样可以避免在创建决策树的过程中消耗过多的隐私预算,并且能够消除冗余属性对分类准确度的影响,从而提高了最终的隐私保护效果。
参见图2所示,本发明实施例公开了一种具体的数据挖掘隐私保护方法,包括如下步骤:
步骤S21:获取原始数据集。
步骤S22:利用断点法,对原始数据集中的连续属性进行离散化处理,得到第一处理后数据集。
其中,利用断点法对连续属性进行离散化的过程具体包括:将连续属性的属性值按照从小到大的顺序进行排序,接着取相邻值的均值作为候选断点来划分等价子集,然后计算各等价子集的信息熵,选取熵最小的断点作为分裂点,重复选取,直到等价子集的实例的决策属性相同,此时分裂点与原属性值的区间即为离散后的属性值。
步骤S23:创建与第一处理后数据集对应的可辨识矩阵;
步骤S24:基于可辨识矩阵,对第一处理后数据集中的属性展开约简处理,得到第二处理后数据集。
步骤S25:对第二处理后数据集中数值型的离散属性进行直接泛化,并对第二处理后数据集中非数值型的离散属性进行逐级泛化,得到细分方案集。
需要说明的是,本实施例中,第二处理后数据集经过泛化处理之后,此时的每个属性值便构成一个方案。
步骤S26:利用差分隐私的指数机制,对细分方案集展开相应的决策树构建操作,得到目标决策树。
本实施例中,在利用差分隐私的指数机制来对细分方案集展开相应的决策树构建操作时,需要经过多轮的迭代操作。假设每一轮迭代操作所需的隐私预算为预设阈值,则在进行每次迭代之前均判断当前剩余的隐私预算是否小于上述预设阈值,如果否,则可以继续展开迭代过程,如果是,则停止迭代过程,从而得到上述目标决策树。
步骤S27:利用目标决策树,对数据挖掘过程展开隐私保护。
相应的,本发明实施例公开了一种数据挖掘隐私保护系统,参见图3所示,该系统包括:
数据集获取模块11,用于获取原始数据集;
属性离散化模块12,用于对原始数据集中的连续属性进行离散化,得到第一处理后数据集;
属性约简模块13,用于对第一处理后数据集中的属性进行约简处理,得到第二处理后数据集;
属性泛化模块14,用于对第二处理后数据集中的属性进行完全泛化处理,得到相应的细分方案集;
决策树构建模块15,用于对细分方案集展开相应的决策树构建操作,得到相应的目标决策树;
隐私保护模块16,用于利用目标决策树,对数据挖掘过程展开隐私保护。
其中,上述属性离散化模块12,具体可以用于利用断点法,对原始数据集中的连续属性进行离散化处理,得到第一处理后数据集。
另外,上述属性约简模块13,具体可以用于创建与第一处理后数据集对应的可辨识矩阵,然后基于可辨识矩阵,对第一处理后数据集中的属性展开约简处理,得到第二处理后数据集。
进一步的,上述属性泛化模块14,具体可以用于对第二处理后数据集中数值型的离散属性进行直接泛化,并对第二处理后数据集中非数值型的离散属性进行逐级泛化,得到细分方案集。
进一步的,上述决策树构建模块15,具体可以用于利用差分隐私的指数机制,对细分方案集展开相应的决策树构建操作,得到目标决策树。
可见,本发明实施例获取到原始数据集之后,先对原始数据集中的连续属性进行离散化处理,从而为后续对数据集中的属性进行约简提供基础,在对数据集中的属性进行约简之后,将可以去除数据集中的冗余属性,这样可以避免在创建决策树的过程中消耗过多的隐私预算,并且能够消除冗余属性对分类准确度的影响,从而提高了最终的隐私保护效果。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种数据挖掘隐私保护方法及系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种数据挖掘隐私保护方法,其特征在于,包括:
获取原始数据集;
对所述原始数据集中的连续属性进行离散化,得到第一处理后数据集;
对所述第一处理后数据集中的属性进行约简处理,得到第二处理后数据集;
对所述第二处理后数据集中的属性进行完全泛化处理,得到相应的细分方案集;
对所述细分方案集展开相应的决策树构建操作,得到相应的目标决策树;
利用所述目标决策树,对数据挖掘过程展开隐私保护。
2.根据权利要求1所述的数据挖掘隐私保护方法,其特征在于,所述对所述原始数据集中的连续属性进行离散化的过程,包括:
利用断点法,对所述原始数据集中的连续属性进行离散化处理,得到所述第一处理后数据集。
3.根据权利要求2所述的数据挖掘隐私保护方法,其特征在于,所述对所述第一处理后数据集中的属性进行约简处理的过程,包括:
创建与所述第一处理后数据集对应的可辨识矩阵;
基于所述可辨识矩阵,对所述第一处理后数据集中的属性展开约简处理,得到所述第二处理后数据集。
4.根据权利要求3所述的数据挖掘隐私保护方法,其特征在于,所述对所述第二处理后数据集中的属性进行完全泛化处理的过程,包括:
对所述第二处理后数据集中数值型的离散属性进行直接泛化,并对所述第二处理后数据集中非数值型的离散属性进行逐级泛化,得到所述细分方案集。
5.根据权利要求4所述的数据挖掘隐私保护方法,其特征在于,所述对所述细分方案集展开相应的决策树构建操作的过程,包括:
利用差分隐私的指数机制,对所述细分方案集展开相应的决策树构建操作,得到所述目标决策树。
6.一种数据挖掘隐私保护系统,其特征在于,包括:
数据集获取模块,用于获取原始数据集;
属性离散化模块,用于对所述原始数据集中的连续属性进行离散化,得到第一处理后数据集;
属性约简模块,用于对所述第一处理后数据集中的属性进行约简处理,得到第二处理后数据集;
属性泛化模块,用于对所述第二处理后数据集中的属性进行完全泛化处理,得到相应的细分方案集;
决策树构建模块,用于对所述细分方案集展开相应的决策树构建操作,得到相应的目标决策树;
隐私保护模块,用于利用所述目标决策树,对数据挖掘过程展开隐私保护。
7.根据权利要求6所述的数据挖掘隐私保护系统,其特征在于,
所述属性离散化模块,具体用于利用断点法,对所述原始数据集中的连续属性进行离散化处理,得到所述第一处理后数据集。
8.根据权利要求7所述的数据挖掘隐私保护系统,其特征在于,
所述属性约简模块,具体用于创建与所述第一处理后数据集对应的可辨识矩阵,然后基于所述可辨识矩阵,对所述第一处理后数据集中的属性展开约简处理,得到所述第二处理后数据集。
9.根据权利要求8所述的数据挖掘隐私保护系统,其特征在于,
所述属性泛化模块,具体用于对所述第二处理后数据集中数值型的离散属性进行直接泛化,并对所述第二处理后数据集中非数值型的离散属性进行逐级泛化,得到所述细分方案集。
10.根据权利要求9所述的数据挖掘隐私保护系统,其特征在于,
所述决策树构建模块,具体用于利用差分隐私的指数机制,对所述细分方案集展开相应的决策树构建操作,得到所述目标决策树。
CN201710141180.9A 2017-03-10 2017-03-10 一种数据挖掘隐私保护方法及系统 Pending CN106874779A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710141180.9A CN106874779A (zh) 2017-03-10 2017-03-10 一种数据挖掘隐私保护方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710141180.9A CN106874779A (zh) 2017-03-10 2017-03-10 一种数据挖掘隐私保护方法及系统

Publications (1)

Publication Number Publication Date
CN106874779A true CN106874779A (zh) 2017-06-20

Family

ID=59170066

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710141180.9A Pending CN106874779A (zh) 2017-03-10 2017-03-10 一种数据挖掘隐私保护方法及系统

Country Status (1)

Country Link
CN (1) CN106874779A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368752A (zh) * 2017-07-25 2017-11-21 北京工商大学 一种基于生成式对抗网络的深度差分隐私保护方法
CN112464289A (zh) * 2020-12-11 2021-03-09 广东工业大学 一种隐私数据的清洗方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462787A (zh) * 2014-11-19 2015-03-25 西京学院 基于rst/iahp的航空维修人因可靠性评估方法
CN105930723A (zh) * 2016-04-20 2016-09-07 福州大学 一种基于特征选择的入侵检测方法
CN106022583A (zh) * 2016-05-12 2016-10-12 中国电力科学研究院 基于模糊化决策树的电力通信业务风险计算方法及系统
CN106202886A (zh) * 2016-06-29 2016-12-07 中国铁路总公司 基于模糊粗糙集与决策树的轨道电路红光带故障定位方法
CN106339714A (zh) * 2016-08-10 2017-01-18 上海交通大学 多层嵌入差分隐私到决策树模型的隐私风险控制方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462787A (zh) * 2014-11-19 2015-03-25 西京学院 基于rst/iahp的航空维修人因可靠性评估方法
CN105930723A (zh) * 2016-04-20 2016-09-07 福州大学 一种基于特征选择的入侵检测方法
CN106022583A (zh) * 2016-05-12 2016-10-12 中国电力科学研究院 基于模糊化决策树的电力通信业务风险计算方法及系统
CN106202886A (zh) * 2016-06-29 2016-12-07 中国铁路总公司 基于模糊粗糙集与决策树的轨道电路红光带故障定位方法
CN106339714A (zh) * 2016-08-10 2017-01-18 上海交通大学 多层嵌入差分隐私到决策树模型的隐私风险控制方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
段翀: "数据挖掘技术及其在金融中的应用", 《科技信息》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368752A (zh) * 2017-07-25 2017-11-21 北京工商大学 一种基于生成式对抗网络的深度差分隐私保护方法
CN107368752B (zh) * 2017-07-25 2019-06-28 北京工商大学 一种基于生成式对抗网络的深度差分隐私保护方法
CN112464289A (zh) * 2020-12-11 2021-03-09 广东工业大学 一种隐私数据的清洗方法

Similar Documents

Publication Publication Date Title
WO2007070676A3 (en) Systems and methods for social mapping
DE602006014971D1 (de) Zaunmechanismus für client-fehler zur umzäunung von netzwerkdateisystemdaten in einer host-cluster-umgebung
CN108197486A (zh) 大数据脱敏方法、系统、计算机可读介质及设备
CN105976048A (zh) 一种基于改进人工蜂群算法的输电网扩展规划方法
CN108829884A (zh) 数据映射方法及装置
KR102600018B1 (ko) 엔티티 관계 마이닝 방법, 장치, 전자 기기, 저장 매체 및 프로그램
EP3388957A1 (en) Method and system for optimizing database system, electronic device, and storage medium
CN106874779A (zh) 一种数据挖掘隐私保护方法及系统
WO2009088727A3 (en) Asynchronous multi-level undo support in javascript grid
CN104881461A (zh) 一种快速数据保存方法
Walshe et al. Artificial intelligence as enabler for sustainable development
CN101710322A (zh) 一种信息关联的方法和系统
CN105069320A (zh) 一种离散型空间故障树的因素联合重要度和因素重要度分析方法
CN104463480A (zh) 一种多功能旅客信息管理系统
CN102855278B (zh) 一种仿真方法和系统
CN103605631A (zh) 一种基于支持向量几何意义的增量学习方法
CN107169044A (zh) 一种城市人才资源综合管理方法
Sun et al. An adaptive chaotic secure communication scheme with channel noises
CN202524426U (zh) 一种企业云计算服务应用系统
CN105093964A (zh) 工业电子嵌入式系统仿真用设备模型的构建方法
CN104933267A (zh) 一种工业电子系统的行为逻辑建模方法
Verbeke et al. An integrative framework for long-term strategic seaport planning: An application to the port of Antwerp
CN110766586A (zh) 一种环保投诉事件处理的方法及装置
CN104539709B (zh) 分布式态势图的数据备份方法和系统
CN105930494A (zh) 一种基于多模式匹配模型的复杂事件检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170620

RJ01 Rejection of invention patent application after publication