CN110377605A - 一种结构化数据的敏感属性识别与分类分级方法 - Google Patents
一种结构化数据的敏感属性识别与分类分级方法 Download PDFInfo
- Publication number
- CN110377605A CN110377605A CN201910669519.1A CN201910669519A CN110377605A CN 110377605 A CN110377605 A CN 110377605A CN 201910669519 A CN201910669519 A CN 201910669519A CN 110377605 A CN110377605 A CN 110377605A
- Authority
- CN
- China
- Prior art keywords
- sensitive attributes
- classification
- attribute
- data
- sensitive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种一种结构化数据的敏感属性识别与分类分级方法。本发明将结构化数据表中的敏感属性实现自动化识别及精确地分类分级处理,以便后续将敏感属性的分类分级结果输出采取适当的隐私保护处理后进行数据发布。聚类分析是机器学习中的一种无监督学习方式,不需要预知样本集的分类情况就可以根据属性间相似度自动实现数据属性的分类。在敏感属性的最终识别阶段,考虑了敏感属性与疑似敏感属性之间的关联关系,目的是为了解决链接攻击的问题,从而进一步挖掘与敏感属性有关联的属性,减少隐私的泄露程度。在敏感属性的分类分级阶段,既考虑了敏感属性间的互信息相关性,也分析了属性间的关联关系,两者结合从而对敏感属性更加精准地分类。
Description
技术领域
本发明涉及信息安全技术领域,尤其是一种结构化数据的敏感属性识别与分类分级方法。
背景技术
在数据分析预处理阶段,面向结构化数据表,数据集中包含未标记的属性样本及其相对应的属性值,未标记的属性样本中包括敏感属性和非敏感属性,数据预处理的目的是准确地完成未标记的属性样本的分类,并且一定程度上减少人工分类的成本消耗。其中敏感属性是用户不愿意公布的重要信息,与个人隐私相关,为了避免隐私披露,此类属性需要在数据预处理阶段筛选出来进行标识,并使用相应地隐私保护手段进行处理后才可发布。
医疗、人社和社交网络等各类数据平台和信息系统中汇聚越来越多与个人隐私信息相关的敏感数据,个人隐私面临巨大风险。面临海量且持续增长的数据,应用差分、匿名等算法保护隐私已成为共识,但数据间的关系愈发复杂,对数据集中的敏感属性进行识别、分类分级变得愈困难,不能精确地对敏感数据进行恰当的隐私保护,故出现了链接攻击、背景知识攻击、聚合攻击等隐私攻击,致使隐私保护难以达到预期效果。如何对海量数据集中的敏感数据进行自动化识别,标识出数据集中和个人隐私相关的属性后进行分类分级,成为隐私保护领域亟待解决的问题。
针对上述问题,该领域的研究者们根据数据属性间先验概念相似信息提出了一种数据分类方法,初步考虑属性对数据分类的作用,其分类效果并不明显,继而有人基于不一致率的特征选择方法,提出了一种快速特征选择的数据分类方法,其分类精度依旧不高,近年来有人提出了一种基于敏感数据字典和正则表达式匹配的数据库敏感数据识别方法,虽然其分类效果比之前的方法分类效果好一些,但是不适用于大规模数据的自动化识别。
相较已有方法,本发明针对结构化数据,提出一种结构化数据敏感属性的自动化识别与分类分级方法,其优势在于:
(1)以往分类方法的操作对象都是数据记录,主要是对所有数据记录的值进行识别,该方法对结构化数据集中的属性进行隐私识别,并不关注数据记录的值,更具备通用性。
(2)以往分类方法的敏感数据识别需要对特征信息进行预定义和设置,并不适用于大规模未知数据内容的数据集,该方法不依赖任何预设信息,适用于任何已知数据内容和未知数据内容的结构化数据集。
以往分类方法的敏感数据分级利用数值特征的敏感权重之和,并未考虑数据间的相关性、关联性,该方法充分考虑了数据属性间的相关性和关联关系,能够更好的对数据敏感属性进行分组、分级。
发明内容
本发明所要解决的技术问题是提供一种结构化数据的敏感属性识别与分类分级方法,它解决现有敏感属性分类方法不适用于大数据时代数据的精确识别:字典匹配和人工识别,以及目前敏感属性分类方法需根据预设信息来进一步分类,不能自动化识别等问题。
本发明是这样实现的:一种结构化数据的敏感属性识别与分类分级方法,包含如下步骤进行:
步骤1:首先用户通过数据输入模块导入结构化数据表;
步骤2:接收到用户请求识别的结构化数据表后,针对结构化数据集,采用熵的相关定义来量化各个属性的敏感度,利用聚类分析实现属性的初始识别,将属性识别为敏感属性集和疑似敏感属性集两个簇:
步骤3:进一步利用数据挖掘中的关联规则挖掘算法挖掘数据集中疑似敏感属性与敏感属性之间的关联规则,通过比较两者之间能够建立关联规则的数目,以此作为准确划分疑似敏感属性的依据,最终将数据集的属性识别为敏感属性集和非敏感属性集;
步骤4:输出识别模块中的敏感属性集,导入敏感属性分类分级模块,通过对敏感属性集中属性间的相关性和关联规则分析,对敏感属性进行分类,并对各敏感属性类的平均敏感度进行量化来定义各属性类的敏感级别,从而实现敏感属性的分类分级;
步骤5:输出敏感属性的分类分级结果。
所述步骤2中采用了信息论中信息熵和最大离散熵来定义属性的敏感度,属性划分的方法采用了聚类分析,聚类是将数据中的样本划分为若干个通常是不相交的子集,每个子集称为一个“簇”。
所述步骤3中通过建立关联规则来挖掘属性之间潜在的关联关系,关联分析是一种在大规模数据集中寻找有趣关系的非监督学习算法。
所述步骤4中对敏感属性间的相关性分析采用了互信息的方式,互信息在测度两个变量之间的相关性方面,对大数据集具有优势。
本发明将结构化数据表中的敏感属性实现自动化识别及精确地分类分级处理,以便后续将敏感属性的分类分级结果输出采取适当的隐私保护处理后进行数据发布。在敏感属性的初步识别阶段,采用了信息熵与最大熵之间的距离来量化各个属性的敏感度,利用聚类分析实现属性的初始识别,由于熵是用来度量信息的不确定度,针对任意结构化数据集只需要考虑属性对应的数据记录值,聚类分析是机器学习中的一种无监督学习方式,不需要预知样本集的分类情况就可以根据属性间相似度自动实现数据属性的分类。在敏感属性的最终识别阶段,考虑了敏感属性与疑似敏感属性之间的关联关系,目的是为了解决链接攻击的问题,从而进一步挖掘与敏感属性有关联的属性,减少隐私的泄露程度。在敏感属性的分类分级阶段,既考虑了敏感属性间的互信息相关性,也分析了属性间的关联关系,两者结合从而对敏感属性更加精准地分类。
附图说明
图1为本发明的流程示意图。
具体实施方式
本发明的实施例:一种结构化数据的敏感属性识别与分类分级方法的流程如图1所示。
结构化数据敏感属性的识别与分类分级过程由三个模块组成:结构化数据表输入模块、敏感属性的识别与分类分级模块、敏感级别输出模块。在结构化数据表输入模块中,用户只需导入需要处理的数据表即可。在敏感属性的识别与分类分级模块中,针对敏感属性的识别,已知原始数据集中属性的熵H(xi)与其最大离散熵Hmax(xi),将属性的敏感度定义为:
其中SVi∈(0,1),若熵H(xi)的值越大,则敏感度SVi的值越小,说明该属性越敏感,反之,则非敏感。
通过量化属性集的敏感度,可采用k-means聚类或层次聚类等聚类算法对敏感属性实现自动化分类,以各属性敏感度作为聚类分析的数据点,若属性的敏感度SVi∈(0,0.6),则将该属性划分到敏感属性集SA中,若属性的敏感度SVi∈(0.6,1),则将该属性划分到疑似敏感属性集PSA中,即初步将属性集D划分为敏感属性集SA、疑似敏感属性集PSA。然后再通过Apriori算法分析敏感属性集SA与疑似敏感属性集PSA之间的关联关系,并建立形如的关联规则表达式,根据疑似敏感属性集与敏感属性集之间成功建立关联规则的数量进一步对疑似敏感属性集进行分类,最终划分为敏感属性集SA、非敏感属性集NSA。针对敏感属性的分类分级,只考虑敏感属性集SA中的敏感属性,根据敏感属性间相关性程度及关联关系为敏感属性分类,并采用加权平均敏感度或平均敏感度来定义并量化各类属性的敏感级别。平均敏感度的计算公式定义为:
其中N代表组内属性个数,Ui代表组数,SVi表示属性的敏感度,且的值越小,代表该组敏感级别越高。其中相关性计算在统计学方面有诸多方法,互信息在测度两个变量之间的相关性方面,对大数据集具有优势,故可利用互信息来度量属性之间的相关性。具体分类分级策略如下:首先可用互信息I(xi;xj)来度量敏感属性集中属性之间的相关性,并根据相关性程度来分类,假设敏感属性集中包含三个属性:x1、x2和x3,若它们之间存在:I(x1;x2)>I(x2;x3),则将x1和x2分为一类,x3分为一类,记为U1={x1,x2},U2={x3}。然后分别量化各类属性的平均敏感度和若则第一类属性属于高敏感属性,第二类属性属于低敏感属性。在敏感级别输出模块中,输出经过分级分类处理的敏感属性,以便后续进行适当的隐私保护处理。该方法适用任意规模的结构化数据集敏感属性的识别与分类分级,对于小规模记录的数据集可采用全量数据处理,对于大规模记录的数据集,可对数据记录进行均匀抽样后进行处理以提高效率。
以上结合具体实施例对本发明进行了详细的说明,这些并非构成对发明的限制。在不脱离本发明原理的情况下,本领域的技术人员还可以作出许多变形和改进,这些也应属于本发明的保护范围。
Claims (4)
1.一种结构化数据的敏感属性识别与分类分级方法,其特征在于,包含如下步骤进行:
步骤1:首先用户通过数据输入模块导入结构化数据表;
步骤2:接收到用户请求识别的结构化数据表后,针对结构化数据集,采用熵的相关定义来量化各个属性的敏感度,利用聚类分析实现属性的初始识别,将属性识别为敏感属性集和疑似敏感属性集两个簇:
步骤3:进一步利用数据挖掘中的关联规则挖掘算法挖掘数据集中疑似敏感属性与敏感属性之间的关联规则,通过比较两者之间能够建立关联规则的数目,以此作为准确划分疑似敏感属性的依据,最终将数据集的属性识别为敏感属性集和非敏感属性集;
步骤4:输出识别模块中的敏感属性集,导入敏感属性分类分级模块,通过对敏感属性集中属性间的相关性和关联规则分析,对敏感属性进行分类,并对各敏感属性类的平均敏感度进行量化来定义各属性类的敏感级别,从而实现敏感属性的分类分级;
步骤5:输出敏感属性的分类分级结果。
2.根据权利要求1所述的结构化数据的敏感属性识别与分类分级方法,其特征在于:所述步骤2中采用了信息论中信息熵和最大离散熵来定义属性的敏感度,属性划分的方法采用了聚类分析,聚类是将数据中的样本划分为若干个通常是不相交的子集,每个子集称为一个“簇”。
3.根据权利要求1所述的结构化数据的敏感属性识别与分类分级方法,其特征在于:所述步骤3中通过建立关联规则来挖掘属性之间潜在的关联关系,关联分析是一种在大规模数据集中寻找有趣关系的非监督学习算法。
4.根据权利要求1所述的结构化数据的敏感属性识别与分类分级方法,其特征在于:所述步骤4中对敏感属性间的相关性分析采用了互信息的方式,互信息在测度两个变量之间的相关性方面,对大数据集具有优势。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910669519.1A CN110377605B (zh) | 2019-07-24 | 2019-07-24 | 一种结构化数据的敏感属性识别与分类分级方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910669519.1A CN110377605B (zh) | 2019-07-24 | 2019-07-24 | 一种结构化数据的敏感属性识别与分类分级方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110377605A true CN110377605A (zh) | 2019-10-25 |
CN110377605B CN110377605B (zh) | 2023-04-25 |
Family
ID=68255401
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910669519.1A Active CN110377605B (zh) | 2019-07-24 | 2019-07-24 | 一种结构化数据的敏感属性识别与分类分级方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110377605B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111563271A (zh) * | 2020-04-29 | 2020-08-21 | 曹嘉宁 | 智能敏感数据动态脱敏管理系统 |
CN112329069A (zh) * | 2020-11-30 | 2021-02-05 | 海南大学 | 跨数据、信息、知识模态的用户差异隐私保护方法 |
CN113254988A (zh) * | 2021-04-25 | 2021-08-13 | 西安电子科技大学 | 高维敏感数据隐私分级保护发布方法、系统、介质及设备 |
CN114611125A (zh) * | 2022-03-15 | 2022-06-10 | 南京师范大学 | 一种基础地理数据属性保密处理方法及系统 |
CN115081025A (zh) * | 2022-08-19 | 2022-09-20 | 湖南华菱电子商务有限公司 | 基于数字中台的敏感数据管理方法、装置及电子设备 |
CN116090006A (zh) * | 2023-02-01 | 2023-05-09 | 北京三维天地科技股份有限公司 | 一种基于深度学习的敏感识别方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101841529A (zh) * | 2010-03-12 | 2010-09-22 | 北京工业大学 | 基于信息论和信任的隐私信息保护方法 |
CN104765839A (zh) * | 2015-04-16 | 2015-07-08 | 湘潭大学 | 一种基于属性间相关系数的数据分类方法 |
US20150254555A1 (en) * | 2014-03-04 | 2015-09-10 | SignalSense, Inc. | Classifying data with deep learning neural records incrementally refined through expert input |
WO2017187207A1 (en) * | 2016-04-29 | 2017-11-02 | Privitar Limited | Computer-implemented privacy engineering system and method |
CN107944283A (zh) * | 2017-11-15 | 2018-04-20 | 中国农业银行股份有限公司 | 一种数据敏感性识别方法及装置 |
CN109711197A (zh) * | 2018-12-29 | 2019-05-03 | 南京工业大学 | 面向道路网络连续查询攻击的用户隐私保护方法 |
CN109783698A (zh) * | 2019-01-15 | 2019-05-21 | 辽宁大学 | 基于Merkle-tree的工业生产数据实体识别方法 |
CN109800600A (zh) * | 2019-01-23 | 2019-05-24 | 中国海洋大学 | 面向保密需求的海洋大数据敏感度评估系统及防范方法 |
-
2019
- 2019-07-24 CN CN201910669519.1A patent/CN110377605B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101841529A (zh) * | 2010-03-12 | 2010-09-22 | 北京工业大学 | 基于信息论和信任的隐私信息保护方法 |
US20150254555A1 (en) * | 2014-03-04 | 2015-09-10 | SignalSense, Inc. | Classifying data with deep learning neural records incrementally refined through expert input |
CN104765839A (zh) * | 2015-04-16 | 2015-07-08 | 湘潭大学 | 一种基于属性间相关系数的数据分类方法 |
WO2017187207A1 (en) * | 2016-04-29 | 2017-11-02 | Privitar Limited | Computer-implemented privacy engineering system and method |
CN107944283A (zh) * | 2017-11-15 | 2018-04-20 | 中国农业银行股份有限公司 | 一种数据敏感性识别方法及装置 |
CN109711197A (zh) * | 2018-12-29 | 2019-05-03 | 南京工业大学 | 面向道路网络连续查询攻击的用户隐私保护方法 |
CN109783698A (zh) * | 2019-01-15 | 2019-05-21 | 辽宁大学 | 基于Merkle-tree的工业生产数据实体识别方法 |
CN109800600A (zh) * | 2019-01-23 | 2019-05-24 | 中国海洋大学 | 面向保密需求的海洋大数据敏感度评估系统及防范方法 |
Non-Patent Citations (2)
Title |
---|
王秋月等: "基于多敏感属性分级的(α_(ij),k,m)-匿名隐私保护方法", 《计算机应用》 * |
马晓亭: "大数据环境下图书馆敏感数据的识别与保护", 《图书馆论坛》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111563271A (zh) * | 2020-04-29 | 2020-08-21 | 曹嘉宁 | 智能敏感数据动态脱敏管理系统 |
CN112329069A (zh) * | 2020-11-30 | 2021-02-05 | 海南大学 | 跨数据、信息、知识模态的用户差异隐私保护方法 |
CN112329069B (zh) * | 2020-11-30 | 2022-05-03 | 海南大学 | 跨数据、信息、知识模态的用户差异隐私保护方法 |
CN113254988A (zh) * | 2021-04-25 | 2021-08-13 | 西安电子科技大学 | 高维敏感数据隐私分级保护发布方法、系统、介质及设备 |
CN113254988B (zh) * | 2021-04-25 | 2022-10-14 | 西安电子科技大学 | 高维敏感数据隐私分级保护发布方法、系统、介质及设备 |
CN114611125A (zh) * | 2022-03-15 | 2022-06-10 | 南京师范大学 | 一种基础地理数据属性保密处理方法及系统 |
CN115081025A (zh) * | 2022-08-19 | 2022-09-20 | 湖南华菱电子商务有限公司 | 基于数字中台的敏感数据管理方法、装置及电子设备 |
CN116090006A (zh) * | 2023-02-01 | 2023-05-09 | 北京三维天地科技股份有限公司 | 一种基于深度学习的敏感识别方法及系统 |
CN116090006B (zh) * | 2023-02-01 | 2023-09-08 | 北京三维天地科技股份有限公司 | 一种基于深度学习的敏感识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110377605B (zh) | 2023-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110377605A (zh) | 一种结构化数据的敏感属性识别与分类分级方法 | |
CN110134719A (zh) | 一种结构化数据敏感属性的识别与分类分级方法 | |
CN109492026B (zh) | 一种基于改进的主动学习技术的电信欺诈分类检测方法 | |
Lv et al. | Advanced machine learning on cognitive computing for human behavior analysis | |
CN108364028A (zh) | 一种基于深度学习的互联网网站自动分类方法 | |
WO2023155508A1 (zh) | 一种基于图卷积神经网络和知识库的论文相关性分析方法 | |
CN110619084B (zh) | 一种根据图书馆读者借阅行为进行图书推荐的方法 | |
CN110533116A (zh) | 基于欧式距离的自适应集成的不平衡数据分类方法 | |
CN112926045B (zh) | 一种基于逻辑回归模型的群控设备识别方法 | |
Gu et al. | [Retracted] Application of Fuzzy Decision Tree Algorithm Based on Mobile Computing in Sports Fitness Member Management | |
Angelin et al. | Outlier Detection using Clustering Techniques–K-means and K-median | |
CN105046323A (zh) | 一种正则化rbf网络多标签分类方法 | |
Zheng et al. | Anomalous telecom customer behavior detection and clustering analysis based on ISP’s operating data | |
Ali et al. | Fake accounts detection on social media using stack ensemble system | |
Chen et al. | An efficient network intrusion detection model based on temporal convolutional networks | |
CN110287237A (zh) | 一种基于社会网络结构分析高效社团数据挖掘方法 | |
Cheng et al. | A projection-based split-and-merge clustering algorithm | |
Umarani et al. | A study on effective mining of association rules from huge databases | |
CN111539465A (zh) | 一种基于机器学习的物联网非结构化大数据分析算法 | |
Xiong et al. | Microgroup mining on tsina via network structure and user attribute | |
Ma | The Research of Stock Predictive Model based on the Combination of CART and DBSCAN | |
Chen | Quality evaluation of student education management work based on wireless network data mining | |
Lee et al. | Validation measures of bicluster solutions | |
CN109544003A (zh) | 基于互联网大数据的经济发展指数评价方法 | |
Liu | Construction of personalized recommendation system of university library based on SOM neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |