CN110377605A

CN110377605A - 一种结构化数据的敏感属性识别与分类分级方法

Info

Publication number: CN110377605A
Application number: CN201910669519.1A
Authority: CN
Inventors: 彭长根; 何文竹; 王毛妮; 丁兴; 樊玫玫; 丁红发
Original assignee: Guizhou University
Current assignee: Guizhou University
Priority date: 2019-07-24
Filing date: 2019-07-24
Publication date: 2019-10-25
Anticipated expiration: 2039-07-24
Also published as: CN110377605B

Abstract

本发明公开了一种一种结构化数据的敏感属性识别与分类分级方法。本发明将结构化数据表中的敏感属性实现自动化识别及精确地分类分级处理，以便后续将敏感属性的分类分级结果输出采取适当的隐私保护处理后进行数据发布。聚类分析是机器学习中的一种无监督学习方式，不需要预知样本集的分类情况就可以根据属性间相似度自动实现数据属性的分类。在敏感属性的最终识别阶段，考虑了敏感属性与疑似敏感属性之间的关联关系，目的是为了解决链接攻击的问题，从而进一步挖掘与敏感属性有关联的属性，减少隐私的泄露程度。在敏感属性的分类分级阶段，既考虑了敏感属性间的互信息相关性，也分析了属性间的关联关系，两者结合从而对敏感属性更加精准地分类。

Description

一种结构化数据的敏感属性识别与分类分级方法

技术领域

本发明涉及信息安全技术领域，尤其是一种结构化数据的敏感属性识别与分类分级方法。

背景技术

在数据分析预处理阶段，面向结构化数据表，数据集中包含未标记的属性样本及其相对应的属性值，未标记的属性样本中包括敏感属性和非敏感属性，数据预处理的目的是准确地完成未标记的属性样本的分类，并且一定程度上减少人工分类的成本消耗。其中敏感属性是用户不愿意公布的重要信息，与个人隐私相关，为了避免隐私披露，此类属性需要在数据预处理阶段筛选出来进行标识，并使用相应地隐私保护手段进行处理后才可发布。

医疗、人社和社交网络等各类数据平台和信息系统中汇聚越来越多与个人隐私信息相关的敏感数据，个人隐私面临巨大风险。面临海量且持续增长的数据，应用差分、匿名等算法保护隐私已成为共识，但数据间的关系愈发复杂，对数据集中的敏感属性进行识别、分类分级变得愈困难，不能精确地对敏感数据进行恰当的隐私保护，故出现了链接攻击、背景知识攻击、聚合攻击等隐私攻击，致使隐私保护难以达到预期效果。如何对海量数据集中的敏感数据进行自动化识别，标识出数据集中和个人隐私相关的属性后进行分类分级，成为隐私保护领域亟待解决的问题。

针对上述问题，该领域的研究者们根据数据属性间先验概念相似信息提出了一种数据分类方法，初步考虑属性对数据分类的作用，其分类效果并不明显，继而有人基于不一致率的特征选择方法，提出了一种快速特征选择的数据分类方法，其分类精度依旧不高，近年来有人提出了一种基于敏感数据字典和正则表达式匹配的数据库敏感数据识别方法，虽然其分类效果比之前的方法分类效果好一些，但是不适用于大规模数据的自动化识别。

相较已有方法，本发明针对结构化数据，提出一种结构化数据敏感属性的自动化识别与分类分级方法，其优势在于：

(1)以往分类方法的操作对象都是数据记录，主要是对所有数据记录的值进行识别，该方法对结构化数据集中的属性进行隐私识别，并不关注数据记录的值，更具备通用性。

(2)以往分类方法的敏感数据识别需要对特征信息进行预定义和设置，并不适用于大规模未知数据内容的数据集，该方法不依赖任何预设信息，适用于任何已知数据内容和未知数据内容的结构化数据集。

以往分类方法的敏感数据分级利用数值特征的敏感权重之和，并未考虑数据间的相关性、关联性，该方法充分考虑了数据属性间的相关性和关联关系，能够更好的对数据敏感属性进行分组、分级。

发明内容

本发明所要解决的技术问题是提供一种结构化数据的敏感属性识别与分类分级方法，它解决现有敏感属性分类方法不适用于大数据时代数据的精确识别：字典匹配和人工识别，以及目前敏感属性分类方法需根据预设信息来进一步分类，不能自动化识别等问题。

本发明是这样实现的：一种结构化数据的敏感属性识别与分类分级方法，包含如下步骤进行：

步骤1：首先用户通过数据输入模块导入结构化数据表；

步骤2：接收到用户请求识别的结构化数据表后，针对结构化数据集，采用熵的相关定义来量化各个属性的敏感度，利用聚类分析实现属性的初始识别，将属性识别为敏感属性集和疑似敏感属性集两个簇：

步骤3：进一步利用数据挖掘中的关联规则挖掘算法挖掘数据集中疑似敏感属性与敏感属性之间的关联规则，通过比较两者之间能够建立关联规则的数目，以此作为准确划分疑似敏感属性的依据，最终将数据集的属性识别为敏感属性集和非敏感属性集；

步骤4：输出识别模块中的敏感属性集，导入敏感属性分类分级模块，通过对敏感属性集中属性间的相关性和关联规则分析，对敏感属性进行分类，并对各敏感属性类的平均敏感度进行量化来定义各属性类的敏感级别，从而实现敏感属性的分类分级；

步骤5：输出敏感属性的分类分级结果。

所述步骤2中采用了信息论中信息熵和最大离散熵来定义属性的敏感度，属性划分的方法采用了聚类分析，聚类是将数据中的样本划分为若干个通常是不相交的子集，每个子集称为一个“簇”。

所述步骤3中通过建立关联规则来挖掘属性之间潜在的关联关系，关联分析是一种在大规模数据集中寻找有趣关系的非监督学习算法。

所述步骤4中对敏感属性间的相关性分析采用了互信息的方式，互信息在测度两个变量之间的相关性方面，对大数据集具有优势。

本发明将结构化数据表中的敏感属性实现自动化识别及精确地分类分级处理，以便后续将敏感属性的分类分级结果输出采取适当的隐私保护处理后进行数据发布。在敏感属性的初步识别阶段，采用了信息熵与最大熵之间的距离来量化各个属性的敏感度，利用聚类分析实现属性的初始识别，由于熵是用来度量信息的不确定度，针对任意结构化数据集只需要考虑属性对应的数据记录值，聚类分析是机器学习中的一种无监督学习方式，不需要预知样本集的分类情况就可以根据属性间相似度自动实现数据属性的分类。在敏感属性的最终识别阶段，考虑了敏感属性与疑似敏感属性之间的关联关系，目的是为了解决链接攻击的问题，从而进一步挖掘与敏感属性有关联的属性，减少隐私的泄露程度。在敏感属性的分类分级阶段，既考虑了敏感属性间的互信息相关性，也分析了属性间的关联关系，两者结合从而对敏感属性更加精准地分类。

附图说明

图1为本发明的流程示意图。

具体实施方式

本发明的实施例：一种结构化数据的敏感属性识别与分类分级方法的流程如图1所示。

结构化数据敏感属性的识别与分类分级过程由三个模块组成：结构化数据表输入模块、敏感属性的识别与分类分级模块、敏感级别输出模块。在结构化数据表输入模块中，用户只需导入需要处理的数据表即可。在敏感属性的识别与分类分级模块中，针对敏感属性的识别，已知原始数据集中属性的熵H(x_i)与其最大离散熵H_max(x_i)，将属性的敏感度定义为：

其中SV_i∈(0,1)，若熵H(x_i)的值越大，则敏感度SV_i的值越小，说明该属性越敏感，反之，则非敏感。

通过量化属性集的敏感度，可采用k-means聚类或层次聚类等聚类算法对敏感属性实现自动化分类，以各属性敏感度作为聚类分析的数据点，若属性的敏感度SV_i∈(0,0.6)，则将该属性划分到敏感属性集SA中，若属性的敏感度SV_i∈(0.6,1)，则将该属性划分到疑似敏感属性集PSA中，即初步将属性集D划分为敏感属性集SA、疑似敏感属性集PSA。然后再通过Apriori算法分析敏感属性集SA与疑似敏感属性集PSA之间的关联关系，并建立形如的关联规则表达式，根据疑似敏感属性集与敏感属性集之间成功建立关联规则的数量进一步对疑似敏感属性集进行分类，最终划分为敏感属性集SA、非敏感属性集NSA。针对敏感属性的分类分级，只考虑敏感属性集SA中的敏感属性，根据敏感属性间相关性程度及关联关系为敏感属性分类，并采用加权平均敏感度或平均敏感度来定义并量化各类属性的敏感级别。平均敏感度的计算公式定义为：

其中N代表组内属性个数，U_i代表组数，SV_i表示属性的敏感度，且的值越小，代表该组敏感级别越高。其中相关性计算在统计学方面有诸多方法，互信息在测度两个变量之间的相关性方面，对大数据集具有优势，故可利用互信息来度量属性之间的相关性。具体分类分级策略如下：首先可用互信息I(x_i；x_j)来度量敏感属性集中属性之间的相关性，并根据相关性程度来分类，假设敏感属性集中包含三个属性：x₁、x₂和x₃，若它们之间存在：I(x₁；x₂)>I(x₂；x₃)，则将x₁和x₂分为一类，x₃分为一类，记为U₁＝{x₁,x₂}，U₂＝{x₃}。然后分别量化各类属性的平均敏感度和若则第一类属性属于高敏感属性，第二类属性属于低敏感属性。在敏感级别输出模块中，输出经过分级分类处理的敏感属性，以便后续进行适当的隐私保护处理。该方法适用任意规模的结构化数据集敏感属性的识别与分类分级，对于小规模记录的数据集可采用全量数据处理，对于大规模记录的数据集，可对数据记录进行均匀抽样后进行处理以提高效率。

以上结合具体实施例对本发明进行了详细的说明，这些并非构成对发明的限制。在不脱离本发明原理的情况下，本领域的技术人员还可以作出许多变形和改进，这些也应属于本发明的保护范围。

Claims

1.一种结构化数据的敏感属性识别与分类分级方法，其特征在于，包含如下步骤进行：

步骤1：首先用户通过数据输入模块导入结构化数据表；

步骤5：输出敏感属性的分类分级结果。

2.根据权利要求1所述的结构化数据的敏感属性识别与分类分级方法，其特征在于：所述步骤2中采用了信息论中信息熵和最大离散熵来定义属性的敏感度，属性划分的方法采用了聚类分析，聚类是将数据中的样本划分为若干个通常是不相交的子集，每个子集称为一个“簇”。

3.根据权利要求1所述的结构化数据的敏感属性识别与分类分级方法，其特征在于：所述步骤3中通过建立关联规则来挖掘属性之间潜在的关联关系，关联分析是一种在大规模数据集中寻找有趣关系的非监督学习算法。

4.根据权利要求1所述的结构化数据的敏感属性识别与分类分级方法，其特征在于：所述步骤4中对敏感属性间的相关性分析采用了互信息的方式，互信息在测度两个变量之间的相关性方面，对大数据集具有优势。