CN114092729A

CN114092729A - 基于聚类匿名化与差分隐私保护的异构用电数据发布方法

Info

Publication number: CN114092729A
Application number: CN202111191708.6A
Authority: CN
Inventors: 奚建飞; 徐欢; 雷美炼; 张锐; 沈博; 孙一帆
Original assignee: China Southern Power Grid Co Ltd; Institute of Information Engineering of CAS; Southern Power Grid Digital Grid Research Institute Co Ltd
Current assignee: China Southern Power Grid Co Ltd; Institute of Information Engineering of CAS; Southern Power Grid Digital Grid Research Institute Co Ltd
Priority date: 2021-09-10
Filing date: 2021-10-13
Publication date: 2022-02-25

Abstract

本发明公开了一种基于聚类匿名化与差分隐私保护的异构用电数据发布方法，涉及信息技术安全领域，以实现对异构用电数据进行隐私保护的目的，将聚类分析问题转化为分类问题，利用类标签对原始数据的聚类结构同时进行泛化匿名机制和加噪处理后，发布满足∈‑差分隐私保护的电力交易数据集，实现了灵活的隐私保护聚类分析，提升发布数据用于聚类分析时的准确性，同时保证了多种类型数据的隐私性和可用性，为用电数据分析提供可靠的数据。

Description

基于聚类匿名化与差分隐私保护的异构用电数据发布方法

技术领域

本发明涉及信息技术安全领域，具体涉及一种基于匿名化与差分隐私的异构用电数据发布方法。

背景技术

随着智能电网采集、处理和存储能力的快速提高，所采集用电数据的也有了巨大的增长。对于收集到的多种类型的用电数据，利用大数据分析和挖掘技术，不仅可以准确分析个人用电情况，还可以为用户提供个性化的用电服务。然而，原始用电数据往往包含有关个人的敏感信息，直接发布用电数据会导致个人隐私泄露。因此，如何在准确分析用户用电数据的同时，保护用户的隐私不被泄露，成为亟待解决的问题。

隐私保护数据发布是近年来研究的热点，其目的是在挖掘和分析敏感数据的同时，保护数据集中的个人隐私。传统的隐私保护数据发布模型，如k-匿名、l-多样性、t-近似等模型，它们根据原始数据的特性，将全部数据记录泛化成为若干组记录，不仅使得每一组中的各个记录无法相互区分。差分隐私保护是一种更强健的隐私保护模型，它对隐私泄露风险给出了严格的、定量化的表示和证明，从根本上解决了传统的隐私保护方法无法量化隐私保护程度和缺少对攻击模型的定义等问题。

然而，在用电信息采集系统环境下，当输入数据集包含混合类型的属性时，如果要实现在差分隐私的约束下提供准确的数据发布结果，则需要解决两个关键问题：

(1)如何处理异构数据；

(2)如何降低查询敏感度。

因为，在非交互式用电信息采集场景中，使用差分隐私的噪声机制对数据集进行保护时，用电数据的异构性会使噪声机制引入大量的扰动误差，使得对隐私保护用电数据进行聚类分析时无法提供准确的分析结果，导致发布数据失去应有的可用性，直接制约了差分隐私在非交互式隐私保护数据发布中的应用。

发明内容

本发明提出了一种基于聚类匿名化与差分隐私保护的异构用电数据发布方法，以实现对异构用电数据进行隐私保护的目的，而且在有效地保护用电数据隐私性的情况下，提升了发布数据用于聚类分析时的准确性，为用电数据分析提供可靠的数据。

为了解决上述问题，本发明提供了一种基于聚类匿名化与差分隐私保护的异构用电数据发布方法，所述方法包括以下步骤：

根据数据使用者的聚类分析请求，对原始数据集D中的原始用电数据进行聚类处理，得到具有类标签的标签数据集D^*，标签数据集D^*包括多个原始数据记录；

对标签数据集D^*中的数值型属性、分类型属性、集值型属性分别进行泛化处理；

对泛化处理后的数据进行以下匿名处理：按照预定义的分类树对分类型属性数据进行分组，利用拉普拉斯机制对集值型属性数据添加噪声，利用指数机制对数值型属性数据添加噪声，确保数据满足差分隐私，得到匿名数据集D′；

通过在匿名数据集D′上删除任意一条数据记录并添加噪声后获得满足差分隐私的查询集，计算上述查询集与原始数据集的真实查询集的相似度，当该相似度大于0时，发布满足差分隐私保护的数据集给所述数据使用者。

进一步地，采用k-means算法或DBSCAN算法进行聚类处理。

进一步地，标签数据集D^*的原始数据记录中的属性表示为r^*＝{A₁,…,A_d,Class}，其中A表示属性，Class表示每个原始数据记录r_i在标签数据集D^*中的类标签。

进一步地，泛化处理的方法为：使用t-接近划分(t-closeness slicing，TCS)算法对标签数据集D^*进行层次泛化。

进一步地，泛化处理后，对原始数据记录进行分组，方法为：计算任意属性和类标签之间的信息增益

其中Ω(Class)表示属性的域，D_g表示属性值泛化为g的数据记录集合，

表示属性值泛化为包含类标签的数据记录集合。

进一步地，按照预定义的分类树对分类型属性数据进行分组时，设置其全局敏感度Δq＝1。

进一步地，对集值型属性进行泛化处理时，其泛化处理产生(2^t-1)个组，其中t为集值型属性对应的分类树中含有的子节点数。

进一步地，对于集值型属性，验证由拉普拉斯机制产生的噪声大小是否大于一阈值，如果分组出的子分区的噪声大小大于一阈值，则子分区将被保留，否则子分区被修剪。

进一步地，利用指数机制对数值型属性数据添加噪声的方法为：通过动态生成或展开相应的分类树，概率性地处理数值型属性，计算数值划分范围内各属性值的效用分数，利用指数机制选择一个属性值g作为数值划分s的概率

其中，I(s)表示在划分的分组p范围内的属性值集合，Δq表示查询函数敏感度，∈表示隐私预算参数。

进一步地，当所述相似度小于等于0时，调整一隐私预算参数∈，返回满足差分隐私的查询集。

进一步地，相似度计算公式为：

其中，Sim(θ)为相似度；

为匿名数据集D′在删除第n条数据记录并添加噪声后获取的满足差分隐私的查询集；f(D)为原始数据集D的真实查询集；k为数据记录总数。

与现有技术相比，本发明的技术效果是：该发明将聚类分析问题转化为分类问题，利用类标签对原始数据的聚类结构同时进行泛化匿名机制和加噪处理后，发布满足∈-差分隐私保护的电力交易数据集，实现了灵活的隐私保护聚类分析，同时保证了多种类型数据的隐私性和可用性。

附图说明

通过参考下面的附图，可以更为完整地理解本发明的示例性实施方式：

图1为实施例公开的基于聚类匿名化与差分隐私保护的异构用电数据发布方法流程图。

图2为聚类簇数k变化对算法隐私性影响图。

图3为邻域密度阈值M变化对隐私性影响图。

图4为隐私预算变化对可用性影响图。

具体实施方式

为使本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合所附图作详细说明如下。

本发明实施例公开一种基于聚类匿名化与差分隐私保护的异构用电数据发布方法，如图1所示，本方法的步骤具体包括：

1、数据预处理。

首先根据数据使用者的聚类分析请求，对原始数据集D进行聚类处理，应用k-means算法或DBSCAN算法，得到包含聚类结构及类标签的标签数据集D^*，将D^*中的原始数据记录中的属性表示为r^*＝{A₁,…,A_d,Class}，其中Class表示每个原始数据记录r_i在D^*中的类标签，在匿名化过程中利用类标签可帮助识别原始数据集D的聚类结构。

2、数据隐私保护。

对标签数据集D^*中的数值型属性、分类型属性、集值型属性分别进行泛化匿名处理，具体如下：

使用t-接近划分(t-closeness slicing,TCS)算法，对标签数据集D^*进行层次泛化。

泛化处理后，进一步对原始数据记录进行分组。分类型属性d_c按照预定义的分类树进行划分，其全局敏感度Δq＝1，根据对分类型属性相应的分类树对其分组后的记录满足差分隐私。与分类型属性相比，对集值型属性d_s进行泛化处理的不同之处在于子节点组合。假设选择p个集值型属性节点，其对应的分类树中有t个子节点，对其泛化将产生(2^t-1)个组。为了提高准确性，空子组应尽早剪除。由于差异隐私所要求的不确定性，通过验证每个分组的噪声大小(由拉普拉斯机制产生)是否大于阈值来将其视为“非空”。也就是说，如果子分区的噪声大小大于阈值，则子分区将被保留；否则，子分区将被视为“空”并应被修剪。对于数值型属性d_n，通过动态生成或展开相应的分类树概率性的处理数值型属性，计算数值划分范围内各属性值的效用分数，利用指数机制选择一个属性值g作为数值划分s的概率

其中，I(s)表示在划分p范围内的属性值集合。

基于数据匿名化与差分隐私技术，对D^*进行隐私保护处理，得到匿名数据集D′。

3、数据发布。

度量匿名数据集D′的隐私性和可用性，在需要时调整隐私预算参数，将满足隐私性和可用性的D′发布给数据使用者。

D′的可用性度量，通过在匿名数据集D′上删除任意一条数据记录并添加噪声后获得满足差分隐私的查询集，计算上述查询集与原始数据集的真实查询集的相似度，并在所述相似度大于0时，发布该等价组的满足差分隐私保护的数据集。

删除任意一条数据并添加噪声后的满足差分隐私的查询集和真实查询集计算相似度，包括：

其中，Sim(θ)为相似度；

为匿名数据集D′在删除第n条数据记录并添加噪声后获取的满足差分隐私的查询集；f(D)为原始数据集D的真实查询集。

当所述相似度小于等于0，则调整隐私预算参数，并返回满足差分隐私的查询集。

实验测试：

本实验将从隐私性与可用性两方面对本发明进行实验分析。

1)隐私性分析

为了衡量发布数据的隐私性，本实验引入记录链接(Record Linkages，RL)，它用来表示从隐私保护数据集中正确匹配原始数据记录的百分比，

其中，n为原始数据记录的个数，Pr(r′_j)为匿名记录的记录链接概率,

G为与r′_j距离最小的原始记录集。如果正确的原始记录r_j在G中，则计算猜测G中r_j的概率

否则，Pr(r_j′)＝0。记录链接从隐私攻击的角度度量实际的隐私性，较高隐私预算∈的差分隐私模型不能抵抗记录链接的攻击。因此，RL值越低，隐私泄露的概率越低，匿名后发布数据的隐私性越好。

本实验将隐私预算∈设置为0.1，分别比较分析聚类簇数和邻域阈值变化对算法隐私性的影响。如图2所示，本实验观察到本发明并没有随着聚类簇数k的增加而增加，这说明攻击者只能以极小的概率获得隐私信息。同时，本发明比DPLKmeans算法的RL值更小，这意味着本发明可以达到更高的隐私性。在图3中，本实验将聚类簇数k设置为10，隐私预算∈设置为0.01时，比较本发明与DPDBSCAN算法的隐私性，观察到本发明没有随着邻域密度阈值Minpts的增加而增加，具有较好的隐私性。综上，本实验的算法在隐私性方面均优于其他两种算法。

2)可用性分析

本实验使用平方误差和(Sum of the Squared Errors，SSE)，

度量隐私保护处理后数据和原始数据之间的信息损失，进一步分析发布数据的可用性。平方误差和是衡量信息损失的标准，越小的SSE值表示隐私保护处理后的数据与原始数据的偏差越小，数据可用性越高。为了评估本发明的可用性，分别比较、分析本发明、DPLKmeans算法、DPDBSCAN算法与传统的差分隐私算法的信息损失分数

表示表示本发明、DPLKmeans算法、DPDBSCAN算法的信息损失，SSE_Laplace表示使用拉普拉斯机制的信息损失。评分的过程是对信息损失量数据进行归一化的过程，

相对于SSE_Laplace越小，表示发布数据可用性的越高。

本实验聚类个数k设置为5，邻域密度阈值Minpts设置为10，在三个数据集下分别比较隐私预算∈为0.01、0.1、0.25、0.5、1时对算法可用性的影响。如图4所示，本实验观察到信息损失分数SCORE随着隐私预算∈的增大而降低，这意味着三种算法的数据可用性都会受到隐私预算的影响。但本发明比DPLKmeans算法、DPDBSCAN算法具有更好的数据可用性，因为当隐私预算增加时，其他两种算法的SCORE比本实验的算法高。因此，本发明与另外两种算法相比，实现了更好的数据可用性。

虽然本发明已以实施例公开如上，然其并非用以限定本发明，本领域的普通技术人员对本发明的技术方案进行的适当修改或者等同替换，均应涵盖于本发明的保护范围内，本发明的保护范围以权利要求所限定者为准。

Claims

1.一种基于聚类匿名化与差分隐私保护的异构用电数据发布方法，其特征在于，包括以下步骤：

2.如权利要求1所述的方法，其特征在于，采用k-means算法或DBSCAN算法进行聚类处理。

3.如权利要求1所述的方法，其特征在于，标签数据集D^*的原始数据记录中的属性表示为r^*＝{A₁，...，A_d，Class}，其中A表示属性，Class表示每个原始数据记录r_i在标签数据集D^*中的类标签。

4.如权利要求1所述的方法，其特征在于，泛化处理的方法为：使用t-接近划分算法对标签数据集D^*进行层次泛化。

5.如权利要求1所述的方法，其特征在于，泛化处理后，对原始数据记录进行分组，方法为：计算任意属性和类标签之间的信息增益

表示属性值泛化为包含类标签的数据记录集合。

6.如权利要求1所述的方法，其特征在于，按照预定义的分类树对分类型属性数据进行分组时，设置其全局敏感度Δq＝1。

7.如权利要求1所述的方法，其特征在于，对集值型属性进行泛化处理时，其泛化处理产生(2^t-1)个组，其中t为集值型属性对应的分类树中含有的子节点数；对于集值型属性，验证由拉普拉斯机制产生的噪声大小是否大于一阈值，如果分组出的子分区的噪声大小大于一阈值，则子分区将被保留，否则子分区被修剪。

8.如权利要求1所述的方法，其特征在于，利用指数机制对数值型属性数据添加噪声的方法为：通过动态生成或展开相应的分类树，概率性地处理数值型属性，计算数值划分范围内各属性值的效用分数，利用指数机制选择一个属性值g作为数值划分s的概率

9.如权利要求8所述的方法，其特征在于，当所述相似度小于等于0时，调整隐私预算参数∈，返回满足差分隐私的查询集。

10.如权利要求1所述的方法，其特征在于，相似度计算公式为：

其中，Sim(θ)为相似度；