CN109376549A

CN109376549A - 一种基于差分隐私保护的电力交易大数据发布方法

Info

Publication number: CN109376549A
Application number: CN201811247679.9A
Authority: CN
Inventors: 杜龙
Original assignee: Beijing Zhongke Ruichang Technology Co Ltd; Guangzhou Electric Power Trading Center LLC
Current assignee: Beijing Zhongke Ruichang Technology Co Ltd; Guangzhou Electric Power Trading Center LLC
Priority date: 2018-10-25
Filing date: 2018-10-25
Publication date: 2019-02-22
Anticipated expiration: 2038-10-25
Also published as: CN109376549B

Abstract

本发明公开了一种基于差分隐私保护的电力交易大数据发布方法，包括：利用MICFS对电力交易的原始数据集的相关性进行特征选择，并选取相关性低的数据记录生成待定数据集B；利用聚类算法对B进行K‑区块划分，得到属性相互独立的多个子数据块；计算子数据块中删除某一条记录后，查询函数f询问原始数据集的敏感度GS_D以及询问B的敏感度GS_B；根据差分隐私并行组合性质，进行Laplace噪声的添加，得满足差分隐私的训练样本查询集将满足GS_B≤GS_D的B的查询集与为机器学习训练样本集；训练Lasso回归算法生成预测模型，并将原始数据集输入该模型，输出D的查询集。本发明数据发布准确性、安全性；减少计算开销和隐私预算。

Description

一种基于差分隐私保护的电力交易大数据发布方法

技术领域

本发明涉及信息技术安全领域，具体涉及一种基于差分隐私保护的电力交易大数据发布方法。

背景技术

随着智能电网及大数据技术的发展，利用发布的电力系统大数据对电力行业的状态进行数据挖掘和分析的数据共享模式，已成为电力信息化时代的发展潮流。然而，数据共享带来便捷的同时也伴随着个人隐私数据泄露的风险，因此隐私保护数据发布受到广泛关注。

传统的隐私保护数据发布模型，如k-匿名、l-多样性、t-近似等模型，它们根据原始数据的特性，将全部数据记录泛化成为若干组记录，不仅使得每一组中的各个记录无法相互区分；而且，由于缺乏对隐私保护程度的量化和对攻击者能力的清楚界定，这些模型仍然有隐私泄露风险，需不断地针对新的泄露风险提出修补方案。

差分隐私保护作为一种更强隐私保护模型，它对隐私泄露风险给出了严格的、定量化的表示和证明，从根本上解决了传统的隐私保护方法无法量化隐私保护程度和缺少对攻击模型的定义等问题。现有的差分隐私技术主要应用于交互式数据发布中，通过向查询结果中添加随机噪声保护敏感数据，以达到保护用户隐私的目的。

但是，在大数据时代，如果要实现在差分隐私的约束下提供准确的非交互式发布结果，则需要解决两个关键问题：

(1)如何减少大量查询集之间的相关性；

(2)如何对新的查询进行预测。

因为，在非交互式数据保护应用场景中，需要满足一次性对大数据集设计发布大量差分隐私的查询，而现有的基于差分隐私的非交互式数据保护技术在数据高度相关时，由于大数据集中数据间的高相关性与差分隐私的噪声机制紧密相关，高相关性会导致大量的随机噪声引入到查询结果中，使查询发布数据时无法提供准确的查询结果，导致发布数据失去应有的效用性，直接制约了差分隐私在非交互式系统中的应用。

有鉴于此，亟需解决现有差分隐私技术在非交互式数据保护应用场景中，由于大量查询集之间的高度相关性，致使查询发布数据时无法提供准确的查询结果的问题。

发明内容

本发明所要解决的技术问题是现有差分隐私技术在非交互式数据保护应用场景中，由于大量查询集之间的高度相关性，致使查询发布数据时无法提供准确的查询结果的问题。

为了解决上述技术问题，本发明所采用的技术方案是提供一种基于差分隐私保护的电力交易大数据发布方法，包括步骤如下：

步骤S10、利用基于最大信息系数的特征选择方法MICFS对电力交易的原始数据集中数据记录之间的相关性进行特征选择，统计数据集的相关性，并从原始大数据集中选取相关性低的数据记录生成待定数据集B；

步骤S20、利用聚类算法对待定数据集B进行K-区块划分，得到具有相互独立属性的k个子数据块；计算每个子数据块D_i(i＝1，2，...，k)中删除某一条记录j后，查询函数f询问原始数据集D的敏感度GS_D以及询问待定数据集B的敏感度GS_B；

步骤S30、根据差分隐私并行组合性质，利用查询函数f询问待定数据集B的敏感度，进行Laplace噪声的添加，获得满足差分隐私的训练样本查询集ε为总的隐私预算；

步骤S40、将满足GS_B≤GS_D的待定数据集B的查询集f(B)与待定数据集B满足差分隐私的训练样本查询集作为机器学习的训练样本集并利用训练样本集T训练Lasso回归算法模型，生成预测模型M；

步骤S50、将原始数据集输入到预测模型M中，输出满足差分隐私原始数据集D的查询集并对该查询集进行最终数据发布。

在上述方法中，步骤S10具体包括以下步骤：

步骤S11、初始化包含所有变量n的原始数据集D及待定数据集B，待定数据集B初始状态为空集；

步骤S12、从原始数据集D中选取候选变量f_i，计算f_i与因变量C之间的最大信息系数MIC(f_i，C)；

步骤S13、对计算出的最大信息系数排序，并选择最大的最大信息系数值作为初始变量，则D＝D-{f_i}，B＝B+{f_i}；

步骤S14、使用贪婪算法(Greedy Algorithm)进行特征选择，直到选定变量的数目达到预设数量ρ；

步骤S15、输出包含所有选定变量的待定数据集B。

在上述方法中，计算查询函数f询问数据的敏感度GS的方法为：

B＝{D₁，D₂，...，D_k}为k-区块划分数据集，其中，是数据集D_i与删除数据集D_i的第j条数据后产生的数据集之间的不同数据记录；则查询函数f的敏感度计算公式为：

其中，

v(x_j)表示数据记录x_j的值，g(·)表示数据x_j与它的相关记录之间的依赖关系；

定义差分隐私为其中，为隐私机制，ε为总的隐私预算。

在上述方法中，最大信息系数MIC(f_i，C)计算公式为：

互信息P(f_i，C)为两个变量的联合概率分布，B(n)＝n^0.6。

在上述方法中，步骤S14具体为：

计算选择变量f_B与候选变量f_i之间的最大信息系数MIC(f_B，f_i)；

选择最大值以下的评估函数的变量作为下一个变量，则

循环以上两个步骤直到选定变量的数目达到预设数目ρ。

在上述方法中，利用训练样本机器训练Lasso回归算法模型，生成预测模型M的方法为：

应用Lasso回归模型，通过输入变量的固定非线性函数的线性组合获得预测模型M；

其中μ是的均值，u是预先定义参数用来控制基函数的可伸缩性；

当生成模型M时，新查询答案由M生成且不消耗任何隐私预算。

与现有技术相比，本发明具有以下有益效果：

(1)将非交互式的差分隐私数据发布问题转化成具有差分隐私约束的机器学习问题，利用基于最大信息系数的特征选择方法重新构造相关数据的依赖关系，提高了查询函数敏感度的准确性，有效地解决了引入噪声过大导致准确性降低的问题；

(2)实现大数据集数据记录的整体隐私保护会消耗过多的计算资源和隐私预算，该方法通过将大数据集分块处理，对少量数据记录应用机器学习方法实现差分隐私，然后根据差分隐私的并行组合性质，实现整个大数据集上的隐私保护，减少计算开销和隐私预算；

(3)应用Lasso回归算法训练样本产生预测模型，通过预测模型发布满足差分隐私的数据集，而不是直接从原始数据集得出，这使得攻击者无法通过对比发布数据差异来获得用户信息，安全性进一步提高。

(4)预测模型的隐私级别由在训练时消耗的隐私预算ε_i确定，这使得添加的噪声不会过小，能满足数据保护的目的；也不会过大，能保障数据的准确性，即最大限度的保护数据不被泄露的同时，维持数据的准确性及平衡性。

附图说明

图1为本发明提供的一种基于差分隐私保护的电力交易大数据发布方法的流程图；

图2为本发明中步骤S10的具体流程图。

具体实施方式

本发明提出一种基于差分隐私保护的电力交易大数据发布方法，旨在非交互式差分隐私框架下，保证电力交易大数据中个人敏感数据的安全性的同时确保发布数据的可用性。

为了解决现有差分隐私技术在非交互式数据保护应用场景中，由于大量查询集之间的高度相关性，致使查询发布数据时无法提供准确的查询结果的问题，本发明在不考虑攻击者拥有什么样的背景知识的情况下，利用机器学习与差分隐私技术实现隐私保护数据发布，通过有效地选取相关性较低的查询数据集作为训练样本，并利用Lasso回归算法训练样本生成预测模型；再利用预测模型回答当前提交的查询，以及预测来自数据集的新查询的结果。与传统方法相比，本发明中生成的预测模型有效的提高了非交互式数据发布查询结果的准确性，并确保了发布数据的可用性。

如图1所示，一种基于差分隐私保护的电力交易大数据发布方法，包括步骤如下：

一、相关性较低的训练样本选择。

步骤S10、利用基于最大信息系数的特征选择方法MICFS(Feature Select basedon Maximal Information Coefficient)对电力交易的原始数据集(图1中电力交易大数据集D，包含不同ID_i的子数据集，每个子数据集包括n条数据记录)中数据记录之间的相关性进行特征选择，统计原始数据集的相关性，并从原始大数据集中选取相关性低的数据记录生成待定数据集B，作为机器学习训练样本。

二、实现训练样本的差分隐私。

步骤S20、利用聚类算法(k-means)对待定数据集B进行K-区块划分，得到具有相互独立属性的k个子数据块，即B＝{D₁，D₂，...，D_k}，且子数据块D₁∪D₂∪，..∪D_k＝B相互独立；计算每个子数据块D_i(i＝1，2，...，k)中删除某一条记录j后查询函数f询问原始数据集D的敏感度GS_D以及查询函数f询问待定数据集B中每个子数据块D_i的敏感度GS_B。

在本发明中，计算查询函数f询问数据集的敏感度GS方法为：

B＝{D₁，D₂，...，D_k}为k-区块划分数据集，D_i(i＝1，2，...k)其中，是数据集D_i与删除数据集D_i的第j条数据后产生的数据集之间的不同数据记录；查询函数f的敏感度GS(包括查询函数f询问原始数据集D的敏感度GS_D和查询函数f询问原始数据集B的敏感度GS_B)计算公式为：

其中，

所定义差分隐私为其中，为隐私机制，ε为总的隐私预算。

步骤S30、根据差分隐私并行组合性质，利用查询函数f询问待定数据集B的敏感度，进行Laplace噪声的添加，获得满足差分隐私的训练样本查询集。在本发明中，对于待定数据集B＝{D₁，D₂，...，D_k}，要每个子数据块D_i满足差分隐私的顺序组合性质，则需要每个数据块D_i满足ε_i-差分隐私，即待定数据集B满足其中ε_i为每个数据块D_i的隐私预算，得到满足差分隐私的训练样本查询集其中，f(B)为待定数据集B的查询集，为待定数据集B满足差分隐私的训练样本查询集。

三、生成预测模型。

步骤S40、根据上述步骤获取的低相关性数据集(待定数据集)，将满足GS_B≤GS_D的待定数据集B的查询集f(B)与待定数据集B满足差分隐私的训练样本查询集作为机器学习的训练样本集利用训练样本集T训练Lasso回归算法模型，生成预测模型M；其中GS_B为查询函数f询问原始数据集B的敏感度，GS_D为查询函数f询问原始数据集D的敏感度。

四、大数据的发布。

步骤S50、将原始数据集输入到预测模型M中，输出满足差分隐私原始数据集D的查询集并进行最终数据发布。

在本发明中，如图2所示，步骤S10包括以下步骤：

步骤S12、从原始数据集D中选取候选变量f_i，计算f_i与因变量C之间的最大信息系数MIC(f_i，C)；最大信息系数MIC(f_i，C)计算公式为：

互信息P(f_i，C)为两个变量的联合概率分布，B(n)＝n^0.6；

在本发明中，步骤S14具体为：

a)计算选择变量f_B与候选变量f_i之间的最大信息系数MIC(f_B，f_i)；

b)选择最大值以下的评估函数的变量作为下一个变量，则

循环以上两个步骤直到选定变量的数目达到预设数目ρ；

步骤S15、输出包含所有选定变量的待定数据集B，作为相关性低的待定数据集。

在本发明中，利用训练样本机器训练Lasso回归算法模型，生成预测模型M的方法为：

应用Lasso回归模型，通过输入变量的固定非线性函数的线性组合获得预测模型M，其中 μ是的均值，u是预先定义参数用来控制基函数的可伸缩性。当生成模型M时，新查询答案由M生成且不消耗任何隐私预算。

预测模型M的性能受噪声误差E_N与模型误差E_M两类误差的影响，其中，噪声误差E_N由添加到训练样本集中的噪声引起，模型误差E_M由学习模型的弱精确度引起。

在本发明中，训练样本集的选择有两个准则，满足这两个准则可以有效地减少上述的两类误差，产生性能良好的预测模型M：

a)数据的独立性：由于数据集B是在相关性低的数据中选取，因此数据集B中数据间的独立性较高，在对数据集B进行分块处理后的每个数据块D_i(i＝1，2，...，k)之间相互独立，数据之间独立性与灵敏度高度相关，选择高度独立的数据作为训练集会有效的降低噪声误差E_N及查询函数的敏感度，减少添加到数据集中的噪声，从而确保发布数据的效用性；

b)变量的选取范围：模型误差E_M由训练集中包含的变量数量决定，如果训练集不能覆盖某些变量或一个查询涵盖所有变量，都会导致很高的模型误差E_M。因此训练集应由具有最大覆盖范围的查询生成，并且保证这些查询之间具有最小的相关性，从而降低由学习模型的弱精确度引起的模型误差E_M。

应用满足上述两种选择标准训练产生的差分隐私预测模型，将原始数据集中的数据记录输入到预测模型M中，输出满足差分隐私的查询集最终发布数据集，不仅准确性，并确保了发布数据的可用性。

本发明并不局限于上述最佳实施方式，任何人应该得知在本发明的启示下做出的结构变化，凡是与本发明具有相同或相近的技术方案，均落入本发明的保护范围之内。

Claims

1.一种基于差分隐私保护的电力交易大数据发布方法，其特征在于，包括步骤如下：

步骤S10、利用最大信息系数的特征选择方法MICFS对电力交易的原始数据集中数据记录之间的相关性进行特征选择，统计数据集的相关性，并从原始大数据集中选取相关性低的数据记录生成待定数据集B；

步骤S40、将满足GS_B≤GS_D的待定数据集B的查询集f(B)与待定数据集B满足差分隐私的训练样本查询集作为机器学习的训练样本集T＝＜f(B)，并利用训练样本集T训练Lasso回归算法模型，生成预测模型M；

步骤S50、将原始数据集输入到预测模型M中，输出满足差分隐私原始数据集D的查询集对该查询集进行最终数据发布。

2.如权利要求1所述的方法，其特征在于，步骤S10具体包括以下步骤：

步骤S14、使用贪婪算法进行特征选择，直到选定变量的数目达到预设数量ρ；

步骤S15、输出包含所有选定变量的待定数据集B。

3.如权利要求1所述的方法，其特征在于，计算查询函数f询问数据的敏感度GS的方法为：

其中，

定义差分隐私为其中，为隐私机制，ε为隐私预算。

4.如权利要求2所述的方法，其特征在于，最大信息系数MIC(f_i，C)计算公式为：

互信息P(f_i，C)为两个变量的联合概率分布，B(n)＝n^0.6。

5.如权利要求2所述的方法，其特征在于，步骤S14具体为：

选择最大值以下的评估函数的变量作为下一个变量，则

循环以上两个步骤直到选定变量的数目达到预设数目ρ。

6.如权利要求1所述的方法，其特征在于，利用训练样本机器训练Lasso回归算法模型，生成预测模型M的方法为：