CN110134719A - 一种结构化数据敏感属性的识别与分类分级方法 - Google Patents

一种结构化数据敏感属性的识别与分类分级方法 Download PDF

Info

Publication number
CN110134719A
CN110134719A CN201910412420.3A CN201910412420A CN110134719A CN 110134719 A CN110134719 A CN 110134719A CN 201910412420 A CN201910412420 A CN 201910412420A CN 110134719 A CN110134719 A CN 110134719A
Authority
CN
China
Prior art keywords
sensitive attributes
sensitive
attribute
data
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910412420.3A
Other languages
English (en)
Other versions
CN110134719B (zh
Inventor
彭长根
何文竹
王毛妮
丁兴
樊玫玫
丁红发
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou University
Original Assignee
Guizhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou University filed Critical Guizhou University
Priority to CN201910412420.3A priority Critical patent/CN110134719B/zh
Publication of CN110134719A publication Critical patent/CN110134719A/zh
Application granted granted Critical
Publication of CN110134719B publication Critical patent/CN110134719B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了结构化数据敏感属性的识别与分类分级方法,该方法包括步骤,首先根据用户需求输入待处理的结构化数据表;然后利用信息熵及最大熵计算属性的隐私敏感度;利用k‑means聚类算法对属性的敏感度进行聚类,将属性初始划分为敏感属性集和疑似敏感属性集两个簇;进一步利用Apriori算法挖掘疑似敏感属性集与敏感属性集间关联关系,将任意结构化数据的敏感属性进最终识别为敏感属性集与非敏感属性集;最后,仅仅针对敏感属性集来操作,通过对敏感属性集中属性间的互信息相关性和关联规则分析,对敏感属性进行分类,并对各敏感属性组的平均敏感度量化,实现敏感属性的分类分级。该方法面向隐私保护能同时达到敏感属性的识别与分级效果,不需要预知结构化数据集的属性特征、敏感特征字典,兼顾了属性间的相关性和关联关系。

Description

一种结构化数据敏感属性的识别与分类分级方法
技术领域
本发明涉及一种结构化数据敏感属性的识别与分类分级方法,属于信息安全领域。
背景技术
在数据分析预处理阶段,面向结构化数据表,数据集中包含未标记的属性样本及其相对应的属性值,未标记的属性样本中包括敏感属性和非敏感属性,数据预处理的目的是准确地完成未标记的属性样本的分类,并且一定程度上减少人工分类的成本消耗。其中敏感属性是用户不愿意公布的重要信息,与个人隐私相关,为了避免隐私披露,此类属性需要在数据预处理阶段筛选出来进行标识,并使用相应地隐私保护手段进行处理后才可发布。
医疗、人社和社交网络等各类数据平台和信息系统中汇聚越来越多与个人隐私信息相关的敏感数据,个人隐私面临巨大风险。面临海量且持续增长的数据,应用差分、匿名等算法保护隐私已成为共识,但数据间的关系愈发复杂,对数据集中的敏感属性进行识别、分类分级变得愈困难,不能精确地对敏感数据进行恰当的隐私保护,故出现了链接攻击、背景知识攻击、聚合攻击等隐私攻击,致使隐私保护难以达到预期效果。如何对海量数据集中的敏感数据进行自动化识别,标识出数据集中和个人隐私相关的属性后进行分类分级,成为隐私保护领域亟待解决的问题。
针对上述问题,该领域的研究者们根据数据属性间先验概念相似信息提出了一种数据分类方法,初步考虑属性对数据分类的作用,其分类效果并不明显,继而有人基于不一致率的特征选择方法,提出了一种快速特征选择的数据分类方法,其分类精度依旧不高,近年来有人提出了一种基于敏感数据字典和正则表达式匹配的数据库敏感数据识别方法,虽然其分类效果比之前的方法分类效果好一些,但是不适用于大规模数据的自动化识别。
相较已有方法,本发明针对结构化数据,提出一种结构化数据敏感属性的自动化识别与分类分级方法,其优势在于:
(1)以往分类方法的操作对象都是数据记录,主要是对所有数据记录的值进行识别,该方法对结构化数据集中的属性进行隐私识别,并不关注数据记录的值,更具备通用性。
(2)以往分类方法的敏感数据识别需要对特征信息进行预定义和设置,并不适用于大规模未知数据内容的数据集,该方法不依赖任何预设信息,适用于任何已知数据内容和未知数据内容的结构化数据集。
(3)以往分类方法的敏感数据分级利用数值特征的敏感权重之和,并未考虑数据间的相关性、关联性,该方法充分考虑了数据属性间的相关性和关联关系,能够更好的对数据敏感属性进行分组、分级。
发明内容
本发明要解决的技术问题是:解决现有敏感属性分类方法不适用于大数据时代数据的精确识别:字典匹配和人工识别,以及目前敏感属性分类方法需根据预设信息来进一步分类,不能自动化识别等问题。
本发明的技术方案是:一种结构化数据敏感属性的识别与分类分级方法,包括以下步骤:步骤1:首先用户通过数据输入模块导入结构化数据表;步骤2:接收到用户请求识别的结构化数据表后,针对结构化数据集,采用熵的相关定义来量化各个属性的敏感度,利用聚类分析实现属性的初始识别,将属性识别为敏感属性集和疑似敏感属性集两个簇;步骤3:进一步利用数据挖掘中的关联规则挖掘算法挖掘数据集中疑似敏感属性与敏感属性之间的关联规则,通过比较两者之间能够建立关联规则的数目,以此作为准确划分疑似敏感属性的依据,最终将数据集的属性识别为敏感属性集和非敏感属性集;步骤4:输出识别模块中的敏感属性集,导入敏感属性分类分级模块,通过对敏感属性集中属性间的相关性和关联规则分析,对敏感属性进行分类,并对各敏感属性类的平均敏感度进行量化来定义各属性类的敏感级别,从而实现敏感属性的分类分级;步骤5:输出敏感属性的分类分级结果。
所述步骤3中的关联规则挖掘算法为Apriori算法,关联分析是一种在大规模数据集中寻找有趣关系的非监督学习算法,其算法思想是通过对数据库的多次扫描来计算项集的支持度,发现所有的频繁项集从而生成关联规则,所述步骤4中对敏感属性间的相关性分析采用了互信息的方式,互信息在测度两个变量之间的相关性方面,对大数据集具有优势。
本发明的有益效果:本发明涉及一种结构化数据敏感属性的识别与分类分级方法。这种方法与技术将结构化数据表中的敏感属性实现自动化识别及精确地分类分级处理,以便后续将敏感属性的分类分级结果输出采取适当的隐私保护处理后进行数据发布。在敏感属性的初步识别阶段,采用了信息熵与最大熵之间的距离来量化各个属性的敏感度,利用聚类分析实现属性的初始识别,由于熵是用来度量信息的不确定度,针对任意结构化数据集只需要考虑属性对应的数据记录值,聚类分析是机器学习中的一种无监督学习方式,不需要预知样本集的分类情况就可以根据属性间相似度自动实现数据属性的分类。在敏感属性的最终识别阶段,考虑了敏感属性与疑似敏感属性之间的关联关系,目的是为了解决链接攻击的问题,从而进一步挖掘与敏感属性有关联的属性,减少隐私的泄露程度。在敏感属性的分类分级阶段,既考虑了敏感属性间的互信息相关性,也分析了属性间的关联关系,两者结合从而对敏感属性更加精准地分类。
附图说明
图1为本发明所述一种结构化数据敏感属性的识别与分类分级方法的流程图;
具体实施方式
下面结合附图和实施例对本发明做进一步的说明。
一种结构化数据敏感属性的识别与分类分级方法与技术流程如图1所示。
结构化数据敏感属性的识别与分类分级过程由三个模块组成:结构化数据表输入模块、敏感属性的识别与分类分级模块、敏感级别输出模块。在结构化数据表输入模块中,用户只需导入需要处理的数据表即可。在敏感属性的识别与分类分级模块中,针对敏感属性的识别,已知原始数据集中属性的熵H(xi)与其最大离散熵Hmax(xi),将属性的敏感度定义为:
其中SVi∈(0,1),若熵H(xi)的值越大,则敏感度SVi的值越小,说明该属性越敏感,反之,则非敏感。
通过量化属性集的敏感度,可采用k-means聚类或层次聚类等聚类算法对敏感属性实现自动化分类,以各属性敏感度作为聚类分析的数据点,若属性的敏感度SVi∈(0,0.6),则将该属性划分到敏感属性集SA中,若属性的敏感度SVi∈(0.6,1),则将该属性划分到疑似敏感属性集PSA中,即初步将属性集D划分为敏感属性集SA、疑似敏感属性集PSA。然后再通过Apriori算法分析敏感属性集SA与疑似敏感属性集PSA之间的关联关系,并建立形如PSAl SAk的关联规则表达式,根据疑似敏感属性集与敏感属性集之间成功建立关联规则的数量进一步对疑似敏感属性集进行分类,最终划分为敏感属性集SA、非敏感属性集NSA。针对敏感属性的分类分级,只考虑敏感属性集SA中的敏感属性,根据敏感属性间相关性程度及关联关系为敏感属性分类,并采用加权平均敏感度或平均敏感度来定义并量化各类属性的敏感级别。平均敏感度的计算公式定义为:
其中N代表组内属性个数,Ui代表组数,SVi表示属性的敏感度,且的值越小,代表该组敏感级别越高。其中相关性计算在统计学方面有诸多方法,互信息在测度两个变量之间的相关性方面,对大数据集具有优势,故可利用互信息来度量属性之间的相关性。具体分类分级策略如下:首先可用互信息I(xi;xj)来度量敏感属性集中属性之间的相关性,并根据相关性程度来分类,假设敏感属性集中包含三个属性:x1、x2和x3,若它们之间存在:I(x1;x2)>I(x2;x3),则将x1和x2分为一类,x3分为一类,记为U1={x1,x2},U2={x3}。然后分别量化各类属性的平均敏感度则第一类属性属于高敏感属性,第二类属性属于低敏感属性。在敏感级别输出模块中,输出经过分级分类处理的敏感属性,以便后续进行适当的隐私保护处理。该方法适用任意规模的结构化数据集敏感属性的识别与分类分级,对于小规模记录的数据集可采用全量数据处理,对于大规模记录的数据集,可对数据记录进行均匀抽样后进行处理以提高效率。
以上结合具体实施例对本发明进行了详细的说明,这些并非构成对发明的限制。在不脱离本发明原理的情况下,本领域的技术人员还可以作出许多变形和改进,这些也应属于本发明的保护范围。

Claims (4)

1.一种结构化数据的敏感属性识别与分类分级方法,其特征在于:包括以下步骤:步骤1:首先用户通过数据输入模块导入结构化数据表;步骤2:接收到用户请求识别的结构化数据表后,针对结构化数据集,采用熵的相关定义来量化各个属性的敏感度,利用聚类分析实现属性的初始识别,将属性识别为敏感属性集和疑似敏感属性集两个簇;步骤3:进一步利用数据挖掘中的关联规则挖掘算法挖掘数据集中疑似敏感属性与敏感属性之间的关联规则,通过比较两者之间能够建立关联规则的数目,以此作为准确划分疑似敏感属性的依据,最终将数据集的属性识别为敏感属性集和非敏感属性集;步骤4:输出识别模块中的敏感属性集,导入敏感属性分类分级模块,通过对敏感属性集中属性间的相关性和关联规则分析,对敏感属性进行分类,并对各敏感属性类的平均敏感度进行量化来定义各属性类的敏感级别,从而实现敏感属性的分类分级;步骤5:输出敏感属性的分类分级结果。
2.根据权利要求1所述的一种结构化数据的敏感属性识别与分类分级方法,其特征在于:所述步骤2中采用了信息论中信息熵和最大离散熵来定义属性的敏感度,属性划分的方法采用了聚类分析,聚类是将数据中的样本划分为若干个通常是不相交的子集,每个子集称为一个“簇”。
3.根据权利要求1所述的一种结构化数据的敏感属性识别与分类分级方法,其特征在于:所述步骤3中通过建立关联规则来挖掘属性之间潜在的关联关系,关联分析是一种在大规模数据集中寻找有趣关系的非监督学习算法。
4.根据权利要求1所述的一种结构化数据的敏感属性识别与分类分级方法,其特征在于:所述步骤4中对敏感属性间的相关性分析采用了互信息的方式,互信息在测度两个变量之间的相关性方面,对大数据集具有优势。
CN201910412420.3A 2019-05-17 2019-05-17 一种结构化数据敏感属性的识别与分类分级方法 Active CN110134719B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910412420.3A CN110134719B (zh) 2019-05-17 2019-05-17 一种结构化数据敏感属性的识别与分类分级方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910412420.3A CN110134719B (zh) 2019-05-17 2019-05-17 一种结构化数据敏感属性的识别与分类分级方法

Publications (2)

Publication Number Publication Date
CN110134719A true CN110134719A (zh) 2019-08-16
CN110134719B CN110134719B (zh) 2023-04-28

Family

ID=67574897

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910412420.3A Active CN110134719B (zh) 2019-05-17 2019-05-17 一种结构化数据敏感属性的识别与分类分级方法

Country Status (1)

Country Link
CN (1) CN110134719B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110659513A (zh) * 2019-09-29 2020-01-07 哈尔滨工程大学 一种面向多敏感属性数据发布的匿名隐私保护方法
CN111079185A (zh) * 2019-12-20 2020-04-28 南京医康科技有限公司 数据库信息处理的方法、装置、存储介质及电子设备
CN112231745A (zh) * 2020-09-03 2021-01-15 中国电子科技集团公司第三十研究所 一种基于几何变形的大数据安全隐私保护方法、存储介质
CN114172702A (zh) * 2021-11-26 2022-03-11 中能电力科技开发有限公司 一种电网工控系统网络安全监测方法及系统
CN115081025A (zh) * 2022-08-19 2022-09-20 湖南华菱电子商务有限公司 基于数字中台的敏感数据管理方法、装置及电子设备
CN116432208A (zh) * 2023-06-08 2023-07-14 长扬科技(北京)股份有限公司 工业互联网数据的安全管理方法、装置、服务器及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104712542A (zh) * 2015-01-12 2015-06-17 北京博华信智科技股份有限公司 一种基于物联网的往复压缩机敏感特征提取与故障诊断方法
CN105445022A (zh) * 2015-11-17 2016-03-30 中国矿业大学 一种基于双树复小波变换-熵特征融合的行星齿轮故障诊断方法
US20170161519A1 (en) * 2013-11-28 2017-06-08 Nec Corporation Information processing device, information processing method and recording medium
CN107480549A (zh) * 2017-06-28 2017-12-15 银江股份有限公司 一种面向数据共享的敏感信息脱敏方法及系统
CN109145706A (zh) * 2018-06-19 2019-01-04 徐州医科大学 一种用于振动信号分析的敏感特征选取与降维方法
CN109716345A (zh) * 2016-04-29 2019-05-03 普威达有限公司 计算机实现的隐私工程系统和方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170161519A1 (en) * 2013-11-28 2017-06-08 Nec Corporation Information processing device, information processing method and recording medium
CN104712542A (zh) * 2015-01-12 2015-06-17 北京博华信智科技股份有限公司 一种基于物联网的往复压缩机敏感特征提取与故障诊断方法
CN105445022A (zh) * 2015-11-17 2016-03-30 中国矿业大学 一种基于双树复小波变换-熵特征融合的行星齿轮故障诊断方法
CN109716345A (zh) * 2016-04-29 2019-05-03 普威达有限公司 计算机实现的隐私工程系统和方法
CN107480549A (zh) * 2017-06-28 2017-12-15 银江股份有限公司 一种面向数据共享的敏感信息脱敏方法及系统
CN109145706A (zh) * 2018-06-19 2019-01-04 徐州医科大学 一种用于振动信号分析的敏感特征选取与降维方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
廖军等: "一种基于权重属性熵的分类匿名算法", 《计算机科学》 *
王秋月等: "基于多敏感属性分级的(α_(ij),k,m)-匿名隐私保护方法", 《计算机应用》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110659513A (zh) * 2019-09-29 2020-01-07 哈尔滨工程大学 一种面向多敏感属性数据发布的匿名隐私保护方法
CN110659513B (zh) * 2019-09-29 2022-12-06 哈尔滨工程大学 一种面向多敏感属性数据发布的匿名隐私保护方法
CN111079185A (zh) * 2019-12-20 2020-04-28 南京医康科技有限公司 数据库信息处理的方法、装置、存储介质及电子设备
CN112231745A (zh) * 2020-09-03 2021-01-15 中国电子科技集团公司第三十研究所 一种基于几何变形的大数据安全隐私保护方法、存储介质
CN114172702A (zh) * 2021-11-26 2022-03-11 中能电力科技开发有限公司 一种电网工控系统网络安全监测方法及系统
CN115081025A (zh) * 2022-08-19 2022-09-20 湖南华菱电子商务有限公司 基于数字中台的敏感数据管理方法、装置及电子设备
CN116432208A (zh) * 2023-06-08 2023-07-14 长扬科技(北京)股份有限公司 工业互联网数据的安全管理方法、装置、服务器及系统
CN116432208B (zh) * 2023-06-08 2023-09-05 长扬科技(北京)股份有限公司 工业互联网数据的安全管理方法、装置、服务器及系统

Also Published As

Publication number Publication date
CN110134719B (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
CN110134719A (zh) 一种结构化数据敏感属性的识别与分类分级方法
CN110377605A (zh) 一种结构化数据的敏感属性识别与分类分级方法
CN106973057A (zh) 一种适用于入侵检测的分类方法
CN111125469B (zh) 一种社交网络的用户聚类方法、装置以及计算机设备
CN112926045B (zh) 一种基于逻辑回归模型的群控设备识别方法
CN105488211A (zh) 基于特征分析的用户群确定方法
CN107729377A (zh) 基于数据挖掘的顾客分类方法与系统
Ali et al. Fake accounts detection on social media using stack ensemble system
Maddumala A Weight Based Feature Extraction Model on Multifaceted Multimedia Bigdata Using Convolutional Neural Network.
Chen et al. An efficient network intrusion detection model based on temporal convolutional networks
CN110287237A (zh) 一种基于社会网络结构分析高效社团数据挖掘方法
Yuan et al. CSCIM_FS: Cosine similarity coefficient and information measurement criterion-based feature selection method for high-dimensional data
CN110554429A (zh) 一种基于变邻域滑动窗口机器学习的地震断层识别方法
Al-Khamees et al. Survey: Clustering techniques of data stream
Xiong et al. Microgroup mining on tsina via network structure and user attribute
Wang et al. Enhanced soft subspace clustering through hybrid dissimilarity
Ma The Research of Stock Predictive Model based on the Combination of CART and DBSCAN
CN103761433A (zh) 一种网络服务资源分类方法
CN114003803A (zh) 一种社交平台上特定地域的媒体账号发现方法及系统
Qu et al. A generalized graph features fusion framework for finger biometric recognition
Li et al. Clustering algorithm for mixed attributes data based on glowworm swarm optimisation algorithm and K-prototypes algorithm
Wang et al. Research on Web Log Data Mining Technology Based on Optimized Clustering Analysis Algorithm
Yang et al. Dimension reduction based on small sample entropy learning for hand-writing image
Yang et al. Analysis of dishonorable behavior on railway online ticketing system based on k-means and FP-growth
Wang et al. Clustering analysis of human behavior based on mobile phone sensor data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant