CN110990869B

CN110990869B - 一种应用于隐私保护的电力大数据脱敏方法

Info

Publication number: CN110990869B
Application number: CN201911200196.8A
Authority: CN
Inventors: 孙林檀; 吕静贤; 韩维; 陈龙; 汪亚娟
Original assignee: State Grid Co ltd Customer Service Center
Current assignee: State Grid Co ltd Customer Service Center
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2022-11-18
Anticipated expiration: 2039-11-29
Also published as: CN110990869A

Abstract

本发明涉及一种应用于隐私保护的电力大数据脱敏方法。包括以下步骤：步骤1：对各个数据库中的敏感信息进行收集和整理，形成源数据表；步骤2：对数据表T中的数据进行聚类；本发明相对于现有技术的优点在于：一方面对数据泛化前，先确定一种分类型属性对数据表初分类，以减少计算复杂度；另一方面在计算数据间距离时，根据当前属性值的方差确定该属性值在距离测算中所占的比重，从而使得聚类更加合理化，尽可能减小泛化程度从而降低数据损失量。

Description

一种应用于隐私保护的电力大数据脱敏方法

技术领域：

本发明涉及防止未授权行为的保护计算机信息安全的方法，进一步涉及一种应用于隐私保护的电力大数据脱敏方法。

背景技术：

随着数字化技术的高速发展和移动终端的普及，数据成爆炸式增长，大数据时代已悄然来临。随着大数据所蕴含着的巨大商业价值愈发受到各方关注，目前各行各业都在致力于大数据的挖掘和分析。然而，大数据往往包含用户大量的敏感信息，而未经处理直接发布或共享原始数据，将不可避免地泄露用户隐私信息。因此，在大数据应用过程中，应坚持安全与发展并重的原则，在充分发挥数据价值的同时，着力解决数据安全及个人信息保护问题。

例如，国家电网公司目前在大力推进智慧家庭建设，提高居民的用电智能化水平，采集了用户的海量信息，主要包括两方面：(1)工作中业务系统的运行数据，包括各类工单数据，各类仪器实时用电量数据，现场工作票等数据信息。(2)用户的个人信息，包括：姓名，手机号，身份证号，家庭住址，所在单位等信息。当国家电网公司在外包项目工程时，需要提供测试数据，如果直接从数据库中导出，必然会泄露用户信息。不仅如此，很多大数据平台，医疗系统等也存在隐私泄露的风险。目前，个人隐私保护问题己经引起了公众的广泛关注，不仅在我国，在欧盟和美国也有新增立法保护个人信息。由此可见，如果不能解决由于大数据共享导致的个人隐私泄露的问题，将给相关数据发布和使用方带来严重的法律风险，进而阻碍大数据技术的应用和发展。兙

Sweeney等人2002年提出的k-匿名(k-anonymity)模型是一种经典的隐私保护方法，进一步，Machanavajjhala等人在之后提出了L-diversity的概念，解决了k-anonymity模型无法解决的同质攻击。Aggrawal等人于2006年首次提出利用聚类方法实现数据匿名隐私保护,此后陆续可见一些聚类匿名的研究成果，包括姜火文等人提出了GAA-CP聚类匿名算法，借用贪心法和聚类思想将n个元组按距离最小化进行贪心聚类划分,分别实现匿名,尽可能保证数据损失最小。GAA-CP在计算元祖间距离时，一开始就将数值型属性数据和分类型属性数据合并计算，导致在聚类时将分类型数据无差别化合并，从而扩大了数据的泛化程度，使数据损失量变大，用于数据挖掘、分析的价值较低。

发明内容：

本发明提供一种对数值型数据和分类型数据进行聚类匿名的BKC-LDA算法(Binary K-Clustering L-Diversity Algorithm)，通过改进GAA-CP算法，对电力用户相关大数据进行筛选，挖掘和分析，对需要隐私保护的敏感类数据和需要泛化可公开数据进行分类。具体技术方案如下：

一种应用于隐私保护的电力大数据脱敏方法，包括以下步骤：

步骤1：对各个数据库中的敏感信息进行收集和整理，敏感信息包括：姓名，身份证号，年龄，联系电话，电表用户号，用电量，账户余额等信息，形成源数据表；整理过程包括：数值型数据和分类型数据的分类，属性表示为：QI＝{N₁,...,N_n1,C₁,...,C_n2}，其中{N₁,...,N_n1}表示数值型属性，{C₁,...,C_n2}表示为分类型属性；对需要隐匿的属性数据进行隐匿，对需要公开的数据进行泛化；

步骤2：对数据表T中的数据进行聚类，其步骤为：

步骤2.1：对于源数据表T中每条数据记录，即为元祖，选定一个带有分类属性的准标识C_d进行初划分，即：

T＝{P₁,P₂,,P_i,...,P_I}(P₁≠P₂≠...≠P_i≠P_I)；

根据元祖间的距离计算公式对P_i中的元祖执行聚类操作，进一步确定泛化类；

假设对于任意两个元祖r_j,r_k，包括数值型数据{N₁,...,N_n1}和分类型数据{C₁,...,C_n2}，对于数值型属性N_s，其数据间的距离为

定义如下：

其中，

σ分别为属性N_s的平均值和方差，

为初分类的数据集P_i中属性N_s的域值长度。

相当于对数值型数据进行加权，σ越大，即为该属性的数据越容易辨别，需加大数据间的泛化距离，减小在记录间距离测算的重要度，从而有效减小数据损失量；

对于分类型属性C_t，令D为分类域，T_D为D上的泛化树，对于任意两个分类值r_j,r_k∈D，r_j，r_k之间的距离

定义为：

d_Ci(r_j,r_k)＝W(Δ(r_j,r_k))/W(T_D)

其中，Δ(r_j,r_k)表示泛化树中以节点x和y的最小公共祖先为根的子树，W(T)表示泛化树T的层次距离总和，以实现距离的标准化；

那么元祖间的总距离表示为：

步骤2.2：对初分类集合P_i执行聚类操作，即：从数据集P_i中任意选定元祖r_j，求出P_i中距离r_j最远的元祖r_k，并以这两个元祖为质心执行聚类操作；对P_i中的其他数据记录r_m，计算其与两个质心的距离D(r_m,r_j)，D(r_m,r_k)，将r_m归类为与其距离较近的质心，由此将P_i二化分，分为

若当前数据集

或

已经满足数据条数的限制，则将形成的等价类加入到等价类集合：EQ←{EQ,E(P_j)}(假设

满足条件)，停止对该数据集P_j的二化分，否则重复执行步骤2.2；

步骤2.3：在上一步的基础上，对聚类后的数据执行泛化操作。为了避免出现同质攻击，考虑敏感属性SA，对于符合L-diversity的集合进行泛化，对于不符合敏感属性种类的集合重新执行二划分，增加其中元祖数，扩大等价类的大小，直到满足等价类种类不小于L的要求；若此时P_i不满足数据条数限制，则将其归为当前等价类。这样虽然可能导致泛化范围的扩大，数据损失量增大，但减小了敏感信息泄露的危险，确保了信息安全。将最终划分好的满足K聚类，L多样性的泛化后的数据放入数据表

步骤2.4：在执行步骤2.3时根据用户的查看数据库的权限大小，将数据分为三个等级，从一级到三级用户查看权限依次变高，用户的查看权限越大，数据的泛化程度越小，越能看到更多的用户信息。

本发明相对于现有技术的优点在于：一方面对数据泛化前，先确定一种分类型属性对数据表初分类，以减少计算复杂度；另一方面在计算数据间距离时，根据当前属性值的方差确定该属性值在距离测算中所占的比重，从而使得聚类更加合理化，尽可能减小泛化程度从而降低数据损失量。

附图说明：

图1是本发明实施例中用户地址信息分布图。

图2执行BKC-LDA算法与GAA-CP算法时，调整K,L值，从而改变泛化类的大小，得到三个等级权限下平均每条记录的数据损失量对比图。易知，权限越大的用户能够看到的用户信息越多，随着权限等级的变大，在保护用户隐私的条件下，本发明的BKC-LDA算法在同等级下始终保持较低的数据损失量，当公开本发明所处理后的数据时，数据的可用性较强，能够有效保护用户隐私，对数据脱敏效果显著。

具体实施方式：

实施例：

下面结合图表和具体实例对本发明提供的基于贪心和聚类的思想，以及K匿名算法和L多样性算法的大数据脱敏方法进行详细说明。

表1

本发明的BKC-LDA算法由以下步骤实现：

步骤1：从电力各类数据库中选取北京市昌平区、海淀区和朝阳区三个区域的用户数据，图1为以三个区域的划分图，从上到下依次为三个等级权限所能看到的信息；本发明以海淀区为例，海淀区分为街道，镇和地区三种行政区域；表1为从选出的海淀区部分用户的源数据表T，其中包括带有分类属性的地址信息，以及数值属性的年龄，月用电量和账户余额信息；住址信息为分类型数据C₁；年龄，月用电量以及账户余额为数值型数据，分别表示为N₁,N₂,N₃,其中账户余额为敏感属性SA，为了数据的信息安全，需要对住址信息，年龄以及月用电量信息进行泛化，以此达到隐私保护的目的；

步骤2：对数据表T中的数据进行聚类，步骤如下：

步骤2.1：首先，以三级查看权限为例进行说明，将表1中的数据以住址信息C₁为依据进行初分类，即，将数据中地址信息中为北京市海淀区街道、北京市海淀区镇和北京市海淀区地区分别划分为三大类，T＝{P₁,P₂,P₃}，然后分别对这三类数据采用BKC-LDA算法进一步划分；由表1知，P₁包括元祖r₁:r₅，P₂包括元祖r₆:r₇，P₃包括元祖r₈:r₁₁；根据数据表T的元祖个数设定本实例中K＝3,L＝2,以P₁为例，实施泛化；

步骤2.2：对初分类集合P_i执行聚类操作，随机选定一个元祖r_j，假设为r_j←r₂，根据公式：

遍历可得与r₂距离最远的元祖为r₁；以r₁,r₂为聚类中心，若当前数据集

或

已经满足数据条数K的限制，则等价类集合将r₃～r₅进行二化分，得到

满足K聚类；

步骤2.3：在上一步的基础上，对聚类后的数据执行泛化操作；为了避免出现同质攻击，考虑敏感属性SA，对于符合L-diversity的集合进行泛化，对于不符合敏感属性种类的集合重新执行二划分，增加其中元祖数，扩大等价类的大小，直到满足等价类种类不小于L的要求；对于剩下的

由于元祖数为2，且敏感属性账户余额的种类为2，满足条件L≥2，则直接执行泛化；同理可对P₂,P₃中的数据采用步骤2.2～2.3进一步划分，以此完成对整个数据表的脱敏过程，执行结果如表2所示；

表2

步骤2.4：上述是针对一种用户权限的数据脱敏方法，对于不同的用户权限，本发明调整K,L值，改变类中元祖的个数，扩大准标识符属性的泛化程度，根据数据泛化程度的不同分别确定1～3等级的用户权限。

对比例：

同样对表1中的数据执行GAA-CP算法，其数据脱敏结果如表3所示，易知，由于GAA-CP算法在计算元祖之间距离时没有进行初分类，而单纯依据距离公式进行聚类将导致扩大等价类的泛化程度，如表3中所示，已经将r₁～r₃泛化为北京市海淀区，扩大了泛化程度从而使数据信息量的损失变大，不利于数据分析和进一步的挖掘；

3.

表3

本发明的BKC-LDA算法由以下步骤实现：

步骤1：从电力各类数据库中选取北京市昌平区、海淀区和朝阳区三个区域的用户数据，图1为以三个区域的划分图，从上到下依次为三个等级权限所能看到的信息；本实施例以海淀区为例，海淀区分为街道，镇和地区三种行政区域；表1为从选出的海淀区部分用户的源数据表T，其中包括带有分类属性的地址信息，以及数值属性的年龄，月用电量和账户余额信息；住址信息为分类型数据C₁；年龄，月用电量以及账户余额为数值型数据，分别表示为N₁,N₂,N₃,其中账户余额为敏感属性SA，为了数据的信息安全，需要对住址信息，年龄以及月用电量信息进行泛化，以此达到隐私保护的目的；

步骤2：首先，以三级查看权限为例进行说明，根据步骤2.1对表1中的数据以住址信息C₁为依据进行初分类，即，将数据中地址信息中为北京市海淀区街道、北京市海淀区镇和北京市海淀区地区分别划分为三大类，T＝{P₁,P₂,P₃}，然后分别对这三类数据采用BKC-LDA算法进一步划分；由表1知，P₁包括元祖r₁:r₅，P₂包括元祖r₆:r₇，P₃包括元祖r₈:r₁₁；根据数据表T的元祖个数设定本实例中K＝3,L＝2,以P₁为例，泛化步骤如下：

步骤2.1：随机选定一个元祖r_j，假设为r_j←r₂，根据公式：

遍历可得与r₂距离最远的元祖为r₁；

步骤2.2：以r₁,r₂为聚类中心，根据步骤2.2～2.3将r₃～r₅进行二化分，得到

满足K聚类，L多样性要求，可执行泛化操作；对于剩下的

由于元祖数为2，且敏感属性账户余额的种类为2，满足条件L≥2，则直接执行泛化；同理可对P₂,P₃中的数据采用BKC-LDA算法进一步划分，以此完成对整个数据表的脱敏过程，执行结果如表2所示；

表2

对于不同的用户权限，本发明调整K,L值，改变类中元祖的个数，扩大准标识符属性的泛化程度，根据数据泛化程度的不同分别确定1～3等级的用户权限。

对比例：

同样对表1中的数据执行GAA-CP算法，其数据脱敏结果如表3所示，易知，由于GAA-CP算法在计算元祖之间距离时没有进行初分类，而单纯依据距离公式进行聚类将导致扩大等价类的泛化程度，如表3中所示，已经将r₁～r₃泛化为北京市海淀区，扩大了泛化程度从而使数据信息量的损失变大，不利于数据分析和进一步的挖掘。

表3

Claims

1.一种应用于隐私保护的电力大数据脱敏方法，其特征在于，包括以下步骤：

步骤1：对各个数据库中的敏感信息进行收集和整理，形成源数据表；整理过程包括：数值型数据和分类型数据的分类，属性表示为：QI＝{N₁,...,N_n1,C₁,...,C_n2}，其中{N₁,...,N_n1}表示数值型属性，{C₁,...,C_n2}表示为分类型属性；对需要隐匿的属性数据进行隐匿，对需要公开的数据进行泛化；