CN110134719B - 一种结构化数据敏感属性的识别与分类分级方法 - Google Patents
一种结构化数据敏感属性的识别与分类分级方法 Download PDFInfo
- Publication number
- CN110134719B CN110134719B CN201910412420.3A CN201910412420A CN110134719B CN 110134719 B CN110134719 B CN 110134719B CN 201910412420 A CN201910412420 A CN 201910412420A CN 110134719 B CN110134719 B CN 110134719B
- Authority
- CN
- China
- Prior art keywords
- sensitive
- attribute
- attributes
- data
- structured data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Fuzzy Systems (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了结构化数据敏感属性的识别与分类分级方法,该方法包括步骤,首先根据用户需求输入待处理的结构化数据表;然后利用信息熵及最大熵计算属性的隐私敏感度;利用k‑means聚类算法对属性的敏感度进行聚类,将属性初始划分为敏感属性集和疑似敏感属性集两个簇;进一步利用Apriori算法挖掘疑似敏感属性集与敏感属性集间关联关系,将任意结构化数据的敏感属性进最终识别为敏感属性集与非敏感属性集;最后,仅仅针对敏感属性集来操作,通过对敏感属性集中属性间的互信息相关性和关联规则分析,对敏感属性进行分类,并对各敏感属性组的平均敏感度量化,实现敏感属性的分类分级。该方法面向隐私保护能同时达到敏感属性的识别与分级效果,不需要预知结构化数据集的属性特征、敏感特征字典,兼顾了属性间的相关性和关联关系。
Description
技术领域
本发明涉及一种结构化数据敏感属性的识别与分类分级方法,属于信息安全领域。
背景技术
在数据分析预处理阶段,面向结构化数据表,数据集中包含未标记的属性样本及其相对应的属性值,未标记的属性样本中包括敏感属性和非敏感属性,数据预处理的目的是准确地完成未标记的属性样本的分类,并且一定程度上减少人工分类的成本消耗。其中敏感属性是用户不愿意公布的重要信息,与个人隐私相关,为了避免隐私披露,此类属性需要在数据预处理阶段筛选出来进行标识,并使用相应地隐私保护手段进行处理后才可发布。
医疗、人社和社交网络等各类数据平台和信息系统中汇聚越来越多与个人隐私信息相关的敏感数据,个人隐私面临巨大风险。面临海量且持续增长的数据,应用差分、匿名等算法保护隐私已成为共识,但数据间的关系愈发复杂,对数据集中的敏感属性进行识别、分类分级变得愈困难,不能精确地对敏感数据进行恰当的隐私保护,故出现了链接攻击、背景知识攻击、聚合攻击等隐私攻击,致使隐私保护难以达到预期效果。如何对海量数据集中的敏感数据进行自动化识别,标识出数据集中和个人隐私相关的属性后进行分类分级,成为隐私保护领域亟待解决的问题。
针对上述问题,该领域的研究者们根据数据属性间先验概念相似信息提出了一种数据分类方法,初步考虑属性对数据分类的作用,其分类效果并不明显,继而有人基于不一致率的特征选择方法,提出了一种快速特征选择的数据分类方法,其分类精度依旧不高,近年来有人提出了一种基于敏感数据字典和正则表达式匹配的数据库敏感数据识别方法,虽然其分类效果比之前的方法分类效果好一些,但是不适用于大规模数据的自动化识别。
相较已有方法,本发明针对结构化数据,提出一种结构化数据敏感属性的自动化识别与分类分级方法,其优势在于:
(1)以往分类方法的操作对象都是数据记录,主要是对所有数据记录的值进行识别,该方法对结构化数据集中的属性进行隐私识别,并不关注数据记录的值,更具备通用性。
(2)以往分类方法的敏感数据识别需要对特征信息进行预定义和设置,并不适用于大规模未知数据内容的数据集,该方法不依赖任何预设信息,适用于任何已知数据内容和未知数据内容的结构化数据集。
(3)以往分类方法的敏感数据分级利用数值特征的敏感权重之和,并未考虑数据间的相关性、关联性,该方法充分考虑了数据属性间的相关性和关联关系,能够更好的对数据敏感属性进行分组、分级。
发明内容
本发明要解决的技术问题是:解决现有敏感属性分类方法不适用于大数据时代数据的精确识别:字典匹配和人工识别,以及目前敏感属性分类方法需根据预设信息来进一步分类,不能自动化识别等问题。
本发明的技术方案是:一种结构化数据敏感属性的识别与分类分级方法,包括以下步骤:步骤1:首先用户通过数据输入模块导入结构化数据表;步骤2:接收到用户请求识别的结构化数据表后,针对结构化数据集,采用熵的相关定义来量化各个属性的敏感度,利用聚类分析实现属性的初始识别,将属性识别为敏感属性集和疑似敏感属性集两个簇;步骤3:进一步利用数据挖掘中的关联规则挖掘算法挖掘数据集中疑似敏感属性与敏感属性之间的关联规则,通过比较两者之间能够建立关联规则的数目,以此作为准确划分疑似敏感属性的依据,最终将数据集的属性识别为敏感属性集和非敏感属性集;步骤4:输出识别模块中的敏感属性集,导入敏感属性分类分级模块,通过对敏感属性集中属性间的相关性和关联规则分析,对敏感属性进行分类,并对各敏感属性类的平均敏感度进行量化来定义各属性类的敏感级别,从而实现敏感属性的分类分级;步骤5:输出敏感属性的分类分级结果。
所述步骤3中的关联规则挖掘算法为Apriori算法,关联分析是一种在大规模数据集中寻找有趣关系的非监督学习算法,其算法思想是通过对数据库的多次扫描来计算项集的支持度,发现所有的频繁项集从而生成关联规则,所述步骤4中对敏感属性间的相关性分析采用了互信息的方式,互信息在测度两个变量之间的相关性方面,对大数据集具有优势。
本发明的有益效果:本发明涉及一种结构化数据敏感属性的识别与分类分级方法。这种方法与技术将结构化数据表中的敏感属性实现自动化识别及精确地分类分级处理,以便后续将敏感属性的分类分级结果输出采取适当的隐私保护处理后进行数据发布。在敏感属性的初步识别阶段,采用了信息熵与最大熵之间的距离来量化各个属性的敏感度,利用聚类分析实现属性的初始识别,由于熵是用来度量信息的不确定度,针对任意结构化数据集只需要考虑属性对应的数据记录值,聚类分析是机器学习中的一种无监督学习方式,不需要预知样本集的分类情况就可以根据属性间相似度自动实现数据属性的分类。在敏感属性的最终识别阶段,考虑了敏感属性与疑似敏感属性之间的关联关系,目的是为了解决链接攻击的问题,从而进一步挖掘与敏感属性有关联的属性,减少隐私的泄露程度。在敏感属性的分类分级阶段,既考虑了敏感属性间的互信息相关性,也分析了属性间的关联关系,两者结合从而对敏感属性更加精准地分类。
附图说明
图1为本发明所述一种结构化数据敏感属性的识别与分类分级方法的流程图;
具体实施方式
下面结合附图和实施例对本发明做进一步的说明。
一种结构化数据敏感属性的识别与分类分级方法与技术流程如图1所示。
结构化数据敏感属性的识别与分类分级过程由三个模块组成:结构化数据表输入模块、敏感属性的识别与分类分级模块、敏感级别输出模块。在结构化数据表输入模块中,用户只需导入需要处理的数据表即可。在敏感属性的识别与分类分级模块中,针对敏感属性的识别,已知原始数据集中属性的熵H(xi)与其最大离散熵Hmax(xi),将属性的敏感度定义为:
其中SVi∈(0,1),若熵H(xi)的值越大,则敏感度SVi的值越小,说明该属性越敏感,反之,则非敏感。
通过量化属性集的敏感度,可采用k-means聚类或层次聚类等聚类算法对敏感属性实现自动化分类,以各属性敏感度作为聚类分析的数据点,若属性的敏感度SVi∈(0,0.6),则将该属性划分到敏感属性集SA中,若属性的敏感度SVi∈(0.6,1),则将该属性划分到疑似敏感属性集PSA中,即初步将属性集D划分为敏感属性集SA、疑似敏感属性集PSA。然后再通过Apriori算法分析敏感属性集SA与疑似敏感属性集PSA之间的关联关系,并建立形如的关联规则表达式,根据疑似敏感属性集与敏感属性集之间成功建立关联规则的数量进一步对疑似敏感属性集进行分类,最终划分为敏感属性集SA、非敏感属性集NSA。针对敏感属性的分类分级,只考虑敏感属性集SA中的敏感属性,根据敏感属性间相关性程度及关联关系为敏感属性分类,并采用加权平均敏感度或平均敏感度来定义并量化各类属性的敏感级别。平均敏感度的计算公式定义为:
其中N代表组内属性个数,Ui代表组数,SVi表示属性的敏感度,且SVi的值越小,代表该组敏感级别越高。其中相关性计算在统计学方面有诸多方法,互信息在测度两个变量之间的相关性方面,对大数据集具有优势,故可利用互信息来度量属性之间的相关性。具体分类分级策略如下:首先可用互信息I(xi;xj)来度量敏感属性集中属性之间的相关性,并根据相关性程度来分类,假设敏感属性集中包含三个属性:x1、x2和x3,若它们之间存在:I(x1;x2)>I(x2;x3),则将x1和x2分为一类,x3分为一类,记为U1={x1,x2},U2={x3}。然后分别量化各类属性的平均敏感度和若则第一类属性属于低敏感属性,第二类属性属于高敏感属性。在敏感级别输出模块中,输出经过分级分类处理的敏感属性,以便后续进行适当的隐私保护处理。该方法适用任意规模的结构化数据集敏感属性的识别与分类分级,对于小规模记录的数据集可采用全量数据处理,对于大规模记录的数据集,可对数据记录进行均匀抽样后进行处理以提高效率。
以上结合具体实施例对本发明进行了详细的说明,这些并非构成对发明的限制。在不脱离本发明原理的情况下,本领域的技术人员还可以作出许多变形和改进,这些也应属于本发明的保护范围。
Claims (1)
1.一种结构化数据的敏感属性识别与分类分级方法,其特征在于:包括以下步骤:步骤1:首先用户通过数据输入模块导入结构化数据表,该结构化数据表的内容包括医疗、人社和社交网络的数据平台中与个人隐私信息相关的数据;步骤2:接收到用户请求识别的结构化数据表后,针对结构化数据集,先计算数据集中属性的熵H(xi)与其最大离散熵Hmax(xi),再基于下式得到敏感度的量化值SVi,
式中SVi∈(0,1),若熵H(xi)的值越大,则敏感度SVi的值越小,说明该属性越敏感,反之,则非敏感;
再利用聚类分析实现属性的初始识别,将属性识别为敏感属性集和疑似敏感属性集两个簇;步骤3:进一步利用数据挖掘中的关联规则挖掘算法挖掘数据集中疑似敏感属性与敏感属性之间的关联规则,通过比较两者之间能够建立关联规则的数目,以此作为准确划分疑似敏感属性的依据,最终将数据集的属性识别为敏感属性集和非敏感属性集;步骤4:输出识别模块中的敏感属性集,导入敏感属性分类分级模块,通过互信息来度量敏感属性间的相关性,进而进行敏感信息的属性分类,并对各敏感属性类的平均敏感度进行量化来定义各属性类的敏感级别,从而实现敏感属性的分类分级;步骤5:输出敏感属性的分类分级结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910412420.3A CN110134719B (zh) | 2019-05-17 | 2019-05-17 | 一种结构化数据敏感属性的识别与分类分级方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910412420.3A CN110134719B (zh) | 2019-05-17 | 2019-05-17 | 一种结构化数据敏感属性的识别与分类分级方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110134719A CN110134719A (zh) | 2019-08-16 |
CN110134719B true CN110134719B (zh) | 2023-04-28 |
Family
ID=67574897
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910412420.3A Active CN110134719B (zh) | 2019-05-17 | 2019-05-17 | 一种结构化数据敏感属性的识别与分类分级方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110134719B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110659513B (zh) * | 2019-09-29 | 2022-12-06 | 哈尔滨工程大学 | 一种面向多敏感属性数据发布的匿名隐私保护方法 |
CN111079185B (zh) * | 2019-12-20 | 2022-12-30 | 医渡云(北京)技术有限公司 | 数据库信息处理的方法、装置、存储介质及电子设备 |
CN112231745A (zh) * | 2020-09-03 | 2021-01-15 | 中国电子科技集团公司第三十研究所 | 一种基于几何变形的大数据安全隐私保护方法、存储介质 |
CN114172702A (zh) * | 2021-11-26 | 2022-03-11 | 中能电力科技开发有限公司 | 一种电网工控系统网络安全监测方法及系统 |
CN115081025A (zh) * | 2022-08-19 | 2022-09-20 | 湖南华菱电子商务有限公司 | 基于数字中台的敏感数据管理方法、装置及电子设备 |
CN116432208B (zh) * | 2023-06-08 | 2023-09-05 | 长扬科技(北京)股份有限公司 | 工业互联网数据的安全管理方法、装置、服务器及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104712542A (zh) * | 2015-01-12 | 2015-06-17 | 北京博华信智科技股份有限公司 | 一种基于物联网的往复压缩机敏感特征提取与故障诊断方法 |
CN105445022A (zh) * | 2015-11-17 | 2016-03-30 | 中国矿业大学 | 一种基于双树复小波变换-熵特征融合的行星齿轮故障诊断方法 |
CN107480549A (zh) * | 2017-06-28 | 2017-12-15 | 银江股份有限公司 | 一种面向数据共享的敏感信息脱敏方法及系统 |
CN109145706A (zh) * | 2018-06-19 | 2019-01-04 | 徐州医科大学 | 一种用于振动信号分析的敏感特征选取与降维方法 |
CN109716345A (zh) * | 2016-04-29 | 2019-05-03 | 普威达有限公司 | 计算机实现的隐私工程系统和方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015079647A1 (ja) * | 2013-11-28 | 2015-06-04 | 日本電気株式会社 | 情報処理装置および情報処理方法 |
-
2019
- 2019-05-17 CN CN201910412420.3A patent/CN110134719B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104712542A (zh) * | 2015-01-12 | 2015-06-17 | 北京博华信智科技股份有限公司 | 一种基于物联网的往复压缩机敏感特征提取与故障诊断方法 |
CN105445022A (zh) * | 2015-11-17 | 2016-03-30 | 中国矿业大学 | 一种基于双树复小波变换-熵特征融合的行星齿轮故障诊断方法 |
CN109716345A (zh) * | 2016-04-29 | 2019-05-03 | 普威达有限公司 | 计算机实现的隐私工程系统和方法 |
CN107480549A (zh) * | 2017-06-28 | 2017-12-15 | 银江股份有限公司 | 一种面向数据共享的敏感信息脱敏方法及系统 |
CN109145706A (zh) * | 2018-06-19 | 2019-01-04 | 徐州医科大学 | 一种用于振动信号分析的敏感特征选取与降维方法 |
Non-Patent Citations (2)
Title |
---|
一种基于权重属性熵的分类匿名算法;廖军等;《计算机科学》;20170715(第07期);全文 * |
基于多敏感属性分级的(α_(ij),k,m)-匿名隐私保护方法;王秋月等;《计算机应用》;20180110(第01期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110134719A (zh) | 2019-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110134719B (zh) | 一种结构化数据敏感属性的识别与分类分级方法 | |
CN110377605B (zh) | 一种结构化数据的敏感属性识别与分类分级方法 | |
Lv et al. | Advanced machine learning on cognitive computing for human behavior analysis | |
CN112613536B (zh) | 一种基于smote和深度学习的近红外光谱柴油牌号识别方法 | |
Chormunge et al. | Efficient Feature Subset Selection Algorithm for High Dimensional Data. | |
CN110826618A (zh) | 一种基于随机森林的个人信用风险评估方法 | |
CN112228054A (zh) | 基于卷积神经网络的页岩气产量确定方法、装置和设备 | |
CN110990718B (zh) | 一种公司形象提升系统的社会网络模型构建模块 | |
CN111061700A (zh) | 基于相似性学习的就医迁移方案推荐方法及系统 | |
CN109190698B (zh) | 一种网络数字虚拟资产的分类识别系统及方法 | |
CN112508726B (zh) | 一种基于信息传播特点的虚假舆论识别系统及其处理方法 | |
CN113569920A (zh) | 基于自动编码的第二近邻异常检测方法 | |
CN115694985A (zh) | 基于tmb的混合网络流量攻击预测方法 | |
CN111625578A (zh) | 适用于文化科技融合领域时间序列数据的特征提取方法 | |
Cai et al. | An efficient outlier detection method for data streams based on closed frequent patterns by considering anti-monotonic constraints | |
Zhang et al. | A new outlier detection algorithm based on fast density peak clustering outlier factor. | |
Cheng et al. | A projection-based split-and-merge clustering algorithm | |
CN112258235A (zh) | 一种电力营销稽核新业务发现方法及系统 | |
CN110597993A (zh) | 一种微博热点话题数据挖掘方法 | |
CN110502669A (zh) | 基于n边dfs子图的轻量级无监督图表示学习方法及装置 | |
Cui et al. | An improved method for K-means clustering | |
Devanta | Optimization of the K-Means Clustering Algorithm Using Davies Bouldin Index in Iris Data Classification | |
CN115018007A (zh) | 一种基于改进id3决策树的敏感数据分类方法 | |
CN113535527A (zh) | 一种面向实时流数据预测性分析的降载方法及系统 | |
Lou | Massive Ship Fault Data Retrieval Algorithm Supporting Complex Query in Cloud Computing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |