CN110866276A

CN110866276A - 一种混合云环境下数据的隐私保护方法

Info

Publication number: CN110866276A
Application number: CN201911107507.6A
Authority: CN
Inventors: 张宏莉; 周志刚; 于海宁; 张羽; 王星; 叶麟; 方滨兴; 孙燕; 刘妙玲
Original assignee: Guangdong Institute Of Electronic And Information Engineering University Of Electronic Science And Technology Of China; Harbin Institute of Technology
Current assignee: Guangdong Institute Of Electronic And Information Engineering University Of Electronic Science And Technology Of China; Harbin Institute of Technology
Priority date: 2019-11-13
Filing date: 2019-11-13
Publication date: 2020-03-06

Abstract

本发明属于数据的隐私保护的技术领域，具体涉及一种混合云环境下数据的隐私保护方法，包括如下步骤，步骤一、将DaaS承载平台作为混合云，根据高维稀疏数据的特征及数据发布模式，分析引入云平台后数据隐私泄露的潜在风险；步骤二、在匿名分割策略的基础上，通过贪心策略，分析数据可用性最大化的约束场景；步骤三、利用交互型差分隐私保护的统计搜索，分析加噪对数据可用性的影响；步骤四、针对并行化匿名分割造成的数据误分割，通过共享聚合簇，减小保留在私有云上的数据量。本发明能够减少信息损失，提高算法的执行效率，从而提高数据的隐私保护的可行性和实用性。

Description

一种混合云环境下数据的隐私保护方法

技术领域

本发明属于数据的隐私保护的技术领域，具体涉及一种混合云环境下数据的隐私保护方法。

背景技术

如今，隐私保护的数据发布技术已经涌现出许多里程碑式的研究成果，这些方案大多是针对结构化数据设计的，而大数据的数据结构多样，不仅包括传统的结构化数据，还包括半结构化数据(如交易数据、用户网页浏览记录等)、非结构化数据(如图片、音频、视频文件等)，已有针对结构化数据的隐私保护方案是否能够直接迁移到针对大数据的隐私保护场景，现已成为学界讨论的热点。

这类数据具有维度高、数据稀疏的特点，对其进行隐私保护无法直接照搬针对结构化数据所设计的隐私保护方案。以k-匿名类准则为例，首先，需将待匿名的数据集按属性划分为信息属性和隐私/敏感属性，以此为基础，其核心思想是割裂从信息属性值到敏感属性值的高概率映射关系；为此，k-匿名准则以信息属性集作为论域，将数据集划分为若干等价类，通过属性值泛化、记录加噪等方式要求每一个等价类中至少存在k条记录；l-多样性准则进而要求每个信息等价类中所含记录对应的敏感属性至少包含l个不同的值；在此基础上，t-贴近性考虑了敏感属性的分布问题，以t作为“相近程度”的距离度量，要求每个等价类中敏感属性值的分布与整体大数据中敏感属性值的分布t-相近。然而，在集值大数据应用场景中，这样的数据隐私保护方案往往难以实施。例如，在交易数据中，每条记录代表一个用户的一次购物记录，包含若干购买的商品。首先，由于用户购买需求的差异化，单从商品本身看，很难对其作二元划分<普通商品，敏感商品>；其次，由于数据属性维度的爆炸型增长，属性之间的推理映射关系错综复杂；第三，由于记录在各个属性上的映射分布稀疏，导致记录等价类的数量激增，若要实现k-匿名，将导致加入的噪声量也极具增多，从而令数据的可用性严重恶化。

发明内容

本发明的目的在于：针对现有技术的不足，提供一种混合云环境下数据的隐私保护方法，能够减少信息损失，提高算法的执行效率，从而提高数据的隐私保护的可行性和实用性。

为了实现上述目的，本发明采用如下技术方案：

一种混合云环境下数据的隐私保护方法，包括如下步骤：

步骤一、将DaaS承载平台作为混合云，根据高维稀疏数据的特征及数据发布模式，分析引入云平台后数据隐私泄露的潜在风险；

步骤二、在匿名分割策略的基础上，通过贪心策略，分析数据可用性最大化的约束场景；

步骤三、利用交互型差分隐私保护的统计搜索，分析加噪对数据可用性的影响；

步骤四、针对并行化匿名分割造成的数据误分割，通过共享聚合簇，减小保留在私有云上的数据量。

作为本发明所述的一种混合云环境下数据的隐私保护方法的一种改进，所述步骤一中，所述混合云包括公有云和私有云。

作为本发明所述的一种混合云环境下数据的隐私保护方法的一种改进，所述步骤二中，所述匿名分割策略包括：

将数据属性作为内涵，并将含有的记录作为外延的数据索引结构，通过识别并割裂概念内涵集中隐含的准标识符，使得攻击者无法以额定的概率推测出数据中隐含的个体数据隐私信息。

作为本发明所述的一种混合云环境下数据的隐私保护方法的一种改进，所述步骤二中，所述贪心策略包括：

步骤1)将所有的概念按其内涵域的维度降序排列，并选择列首概念作为待划分的目标；

步骤2)用目标概念对剩余概念实施概念覆盖操作，以此消除冗余的概念；

步骤3)将所得剩余概念集中的所有概念逐一被目标概念实施约简操作，消除候选概念，集中将被目标概念划分出去的记录项；

步骤4)重复执行步骤1)，直至概念集为空；

步骤5)将数据簇中剩余的数据打包成一个私有数据块。

作为本发明所述的一种混合云环境下数据的隐私保护方法的一种改进，所述步骤三中，所述交互型差分隐私采用拉普拉斯机制、指数机制或高斯机制。

作为本发明所述的一种混合云环境下数据的隐私保护方法的一种改进，所述步骤三中，所述统计搜索采用计数查询、线性查询或批量线性查询。

作为本发明所述的一种混合云环境下数据的隐私保护方法的一种改进，所述步骤三中，所述批量线性查询包括：

同时提交的由m个线性搜索构成的搜索任务集合；

搜索任务集，由具有m行，n列的加权矩阵W表示，W中任意元素w_ij为关于记录项t_j的线性查询Q_i的第j项权重系数，批量线性搜索Q(E)可形式化为

作为本发明所述的一种混合云环境下数据的隐私保护方法的一种，进，所述步骤三中，分析所述加噪对数据可用性的影响，包括：

将视每个记录项为单元对象进行加噪，以满足α-差分隐私；

将查询项Q(t_j)的敏感度为Δs_j，则查询Q(E)的全局敏感度为Δs＝max_j∑_i|w_ij|Δs_j，即各搜索项的加权和的最大值。满足差分隐私的附加噪声的均方误差度量为

作为本发明所述的一种混合云环境下数据的隐私保护方法的一种改进，所述步骤三中，分析所述加噪对数据可用性的影响，包括：

将每个查询为单元对象进行加噪，以满足α-差分隐私。

将查询项Q(t_j)的敏感度为Δs_j，由于所有的子查询都是线性的，查询Q(E)的全局敏感度为Δs＝∑_i∑_jw_ijΔs_j，相应的，满足差分隐私的附加噪声的均方误差度量为

作为本发明所述的一种混合云环境下数据的隐私保护方法的一种改进，所述步骤四中，所述共享聚合簇包括

聚焦私有云上的数据块，从叶子节点沿着划分树向上逐层聚集直到目标记录簇满足设定的匿名阈值，或该层节点的其它节点都不包含该目标记录项为止。

本发明的有益效果在于，本发明包括如下步骤，步骤一、将DaaS承载平台作为混合云，根据高维稀疏数据的特征及数据发布模式，分析引入云平台后数据隐私泄露的潜在风险；步骤二、在匿名分割策略的基础上，通过贪心策略，分析数据可用性最大化的约束场景；步骤三、利用交互型差分隐私保护的统计搜索，分析加噪对数据可用性的影响；步骤四、针对并行化匿名分割造成的数据误分割，通过共享聚合簇，减小保留在私有云上的数据量。本发明能够减少信息损失，提高算法的执行效率，从而提高数据的隐私保护的可行性和实用性。

附图说明

图1为本发明的流程示意图。

具体实施方式

如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解，硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语，故应解释成“包含但不限定于”。“大致”是指在可接受的误差范围内，本领域技术人员能够在一定误差范围内解决技术问题，基本达到技术效果。

在本发明的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、水平”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

以下结合附图对本发明作进一步详细说明，但不作为对本发明的限定。

如图1所示，一种混合云环境下数据的隐私保护方法，包括如下步骤：

需要说明的是：以混合云为DaaS的承载平台，首先，从高维稀疏大数据自身的特征及新型的数据发布模式入手，分析引入云平台后数据隐私泄露的潜在风险，引入数据组织结构——概念，提出面向集值数据的匿名分割策略，接着，通过概念覆盖、约简、扩展等操作，在基本匿名分割策略的基础上提出进一步的改进方案，分析了基于贪心策略实现数据可用性最大化的约束场景，并通过引入概念权重指标，提出一个数据匿名分割的启发式算法；在此基础之上，实现基于交互型差分隐私保护的统计搜索，分析了两类加噪实现方案对数据可用性的影响；最后，针对并行化匿名分割可能造成的数据误分割现象，提出基于共享聚合簇的解决方案，进一步减小保留在私有云上的数据量。

优选的，步骤一中，混合云包括公有云和私有云。公共云拥有大量的存储和计算资源，并以“按需配置”的方式为数据拥有者提供资源租赁服务，在数据查询阶段，公共云接收从私有云发送的数据查询任务，并将结果返回私有云，授权用户，授权用户被授予对特定外包数据集的查询权限，其向私有云提交数据查询，并从私有云直接获取查询结果集。

为了防止未经授权的用户访问数据，数据拥有者在将数据外包之前，需要对其实施数据访问控制策略，假设数据拥有者已经采用适当的策略构建了用户与数据之间的访问映射关系，当授权用户向私有云发送查询请求时，Cocktail会根据数据分布自动映射为一系列子查询，然后，这些子查询根据请求数据的依赖性有序地分配到相应的云平台上。

步骤二中，匿名分割策略包括：

优选的，步骤二中，贪心策略包括：

步骤4)重复执行步骤1)，直至概念集为空；

步骤5)将数据簇中剩余的数据打包成一个私有数据块。

需要说明的是：首先引入一个数据结构，称为概念，其中，

被称为概念的内涵域，|I|表示内涵的维度；

称为概念的外延，由包含内涵域I的记录组成，对于给定的集值数据集，其上的概念集

可以根据其内涵的维度进行分类，例如，

表示内涵域包含i个记录项的概念集，EQI-分割是一种数据垂直分割方案，将其应用于每一个簇，使得目标簇被划分为若干个数据块，这些数据块根据是否满足k^m-匿名准则被分为共享数据块C^Pu和私有数据块C^Pr两类，其中，算法的输入概念集

来自基于EQI过滤方案，因此，

中任意概念U均满足k^m-匿名，通过对

实施概念涵盖和概念简化操作，获得非覆盖的概念集

由性质1可得，

因此，C^Pu中的每个数据块都满足k^m-匿名。

优选的，步骤三中，交互型差分隐私采用拉普拉斯机制、指数机制或高斯机制。交互型差分隐私模式的定义如下：

给定数据集E和E′，两者仅相差一条记录，给定一个隐私保护机制M，若M在数据集E和E′的任意输出结果

满足下式，则M满足α-差分隐私。

交互型差分隐私的实现机制有很多，包括拉普拉斯机制、指数机制、高斯机制等。

采用拉普拉斯机制给定目标数据集E及其上的搜索操作

若搜索结果M(Q，E)满足下式：

M(Q，E)＝Q(E)+Lap(Δs/α)，

则称M(Q，E)满足α-差分隐私，其中，拉普拉斯分布的概率密度函数

λ＝Δs/α。Δs为操作Q的全局敏感度，Δs通常使用L₁距离来度量。

优选的，步骤三中，统计搜索采用计数查询、线性查询或批量线性查询。

计数查询是许多复杂统计查询的基础，针对搜索记录项聚集于一个数据块中的场景，则对于目标数据集E上的计数查询Q，将返回Q(E)+Lap(1/α)以实现α-差分隐私，其中，Q(E)为精确的统计结果，Lap(1/α)为符合拉普拉斯分布的噪声，计数查询的全局敏感度为1，对于跨多个数据块的计数查询，该查询可以划归为由一系列子查询构成的批量线性查询，其中，每一个子查询的目标记录聚集在一个数据块。

线性查询可以看作是由有限个计数查询的线性加权代数和。即，给定权重向量{w₁，w₂，...，w_m}，线性查询Q{Q(t₁)，...，Q(t_m)}返回权重向量和计数查询向量之间的内积，

Q(E)＝w₁Q(t₁)+w₂Q(t₂)+...+w_mQ(t_m)

添加基于拉普拉斯分布的噪声，相应的符合α-差分隐私机制的搜索结果为

批量线性搜索是同时提交的由m个线性搜索构成的搜索任务集合Q＝{Q₁，Q₂，...，Q_m}，搜索任务集Q由具有m行和n列的加权矩阵W表示，W中任意元素w_ij为关于记录项t_j的线性查询Q_i的第j项权重系数，批量线性搜索Q(E)可形式化为

基于拉普拉斯机制，在批量线性查询中，有两种实现α-差分隐私的解决方案。

方案1.视每个记录项为单元对象进行加噪，以满足α-差分隐私，令查询项Q(t_j)的敏感度为Δs_j，则查询Q(E)的全局敏感度为Δs＝max_j∑_i|w_ij|Δs_j，即各搜索项的加权和的最大值，满足差分隐私的附加噪声的均方误差度量为

方案2.视每个查询为单元对象进行加噪，以满足α-差分隐私，令查询项Q(t_j)的敏感度为Δs_j，由于所有的子查询都是线性的，查询Q(E)的全局敏感度为Δs＝∑_i∑_jw_ijΔs_j，相应的，满足差分隐私的附加噪声的均方误差度量为

表1集值数据实例

例如，表1展示了一个集值数据实例E(R，T，F)，其中R＝{R₁，R₂，R₃，R₄}，T＝{T₁，T₂，T₃，T₄}。批量查询Q＝{Q₁，Q₂，Q₃}如下所示，

Q₁＝2Q(T₁)+Q(T₂)+Q(T₃)

Q₂＝Q(T₁)+2Q(T₃)

Q₃＝2Q(T₂)+2Q(T₃)+Q(T₄)

使用NoT加噪方案，由于Q(T₁)、Q(T₂)、Q(T₃)和Q(T₄)在Q中的全局敏感度分别为{3、3、5、1}，因此，批量查询Q满足差分隐私的附加噪声的L₂距离为||Lap(Δs/α)||₂＝50α^-2；而使用NoQ加噪方案，{Q₁，Q₂，Q₃}的满足差分隐私的附加噪声的L₂距离分别为{12α^-2，10α^-2，18α^-2}，因此，批量查询Q满足差分隐私的附加噪声的L₂距离为||Lap(Δs/α)||₂＝40，此外，对于NoQ加噪方案，上述批量查询Q通过引入子查询Q′₁＝Q(T₄)/3+Q(T₂)和Q′₂＝2Q(T₄)/3，可等价转化为下式

Q₁＝Q′₁+2Q(T₁)+Q(T₃)-Q′₂/2

Q₂＝Q(T₁)+2Q(T₃)

Q₃＝2Q′₁+2Q(T₃)+Q′₂/2

其中，{Q₁，Q₂，Q₃}的满足差分隐私的附加噪声的L₂距离分别为{12.5α^-2，10α^-2，16.5α^-2}，因此，||Lap(Δs/α)||₂＝39。由此可知，对于批量线性查询，由于实现差分隐私的方案差异，可能导致不同的数据可用性。

优选的，步骤四中，共享聚合簇包括

需要说明的是：共享聚合块通过联合不同的数据簇进一步提炼联合簇中满足k^m-匿名条件的记录项，由于用户端通过记录项检索数据，这里根据记录中是否含有目标记录项来构建层状记录项划分树，首先，基于记录项被搜索的频率对记录项按降序排列，然后，依序取记录项作为划分目标，构建逻辑划分，划分树的第1、2、3层所选取的划分目标记录项集分别为T₁＝{a，c}，T₂＝{e}和T₃＝{k，t}，其中，第1层被逻辑划分为4个分支簇P₁₁(ac)，

和

每一个叶子节点包含满足该逻辑分支的所有数据块，基于划分树，通过使用自底向上的递归策略生成共享聚合簇。其核心思想如下，聚焦私有云上的数据块，从叶子节点沿着划分树向上逐层聚集直到目标记录簇满足设定的k^m-匿名阈值，或该层节点的其它兄弟节点都不包含该目标记录项为止。由于共享聚集簇是针对目标记录项沿划分树向上迭代产生的，其生成步骤确保共享聚集簇满足k^m-匿名准则，而定理3进一步给出所提机制造成误划分的上界。

例如：给定匿名参数对k、m，所提策略导致误划分的上界为

其中，q(t_i)表示包含记录项t_i的记录集合，

表示私有块簇集中所含有的记录项集。

对于

分以下两种情况进行讨论。情况1)|q(t_i)|＜k且

由于在全总域中含有t_i的记录数低于匿名阈值k，因此，该情况不会引发误分割，也即

则

情况2)|q(t_i)|≥k，这里通过反证法证明该记录项被误分割的上界，假设在任意私有块C^Pr中含有t_i的记录数大于k-1，由于C^Pr隶属于一个水平分割数据簇，而在该簇中|q(t_i)|≥k，则根据EQI-分割策略易知，t_i一定存在于一个C^Pu中，与假设产生矛盾，因此，在每个私有块中含有t_i的记录数至多为k-1，又根据共享聚集簇构造规则，若

则含有t_i的子记录集将以共享聚集簇的形式迁移至公有云，因此，对于私有云中含有t_i的记录数至多为k-1，即

则

综上得误划分上界为

根据上述说明书的揭示和教导，本发明所属领域的技术人员还能够对上述实施方式进行变更和修改。因此，本发明并不局限于上述的具体实施方式，凡是本领域技术人员在本发明的基础上所作出的任何显而易见的改进、替换或变型均属于本发明的保护范围。此外，尽管本说明书中使用了一些特定的术语，但这些术语只是为了方便说明，并不对本发明构成任何限制。

Claims

1.一种混合云环境下数据的隐私保护方法，其特征在于，包括如下步骤：

2.如权利要求1所述的一种混合云环境下数据的隐私保护方法，其特征在于：所述步骤一中，所述混合云包括公有云和私有云。

3.如权利要求1所述的一种混合云环境下数据的隐私保护方法，其特征在于，所述步骤二中，所述匿名分割策略包括：

4.如权利要求1所述的一种混合云环境下数据的隐私保护方法，其特征在于，所述步骤二中，所述贪心策略包括：

步骤4)重复执行步骤1)，直至概念集为空；

步骤5)将数据簇中剩余的数据打包成一个私有数据块。

5.如权利要求1所述的一种混合云环境下数据的隐私保护方法，其特征在于：所述步骤三中，所述交互型差分隐私采用拉普拉斯机制、指数机制或高斯机制。

6.如权利要求5所述的一种混合云环境下数据的隐私保护方法，其特征在于：所述步骤三中，所述统计搜索采用计数查询、线性查询或批量线性查询。

7.如权利要求6所述的一种混合云环境下数据的隐私保护方法，其特征在于，所述步骤三中，所述批量线性查询包括：

同时提交的由m个线性搜索构成的搜索任务集合；

8.如权利要求7所述的一种混合云环境下数据的隐私保护方法，其特征在于，所述步骤三中，分析所述加噪对数据可用性的影响，包括：

将视每个记录项为单元对象进行加噪，以满足α-差分隐私；

9.如权利要求7所述的一种混合云环境下数据的隐私保护方法，其特征在于，所述步骤三中，分析所述加噪对数据可用性的影响，包括：

将每个查询为单元对象进行加噪，以满足α-差分隐私。

将查询项Q(tj)的敏感度为Δs_j，由于所有的子查询都是线性的，查询Q(E)的全局敏感度为Δs＝∑_i∑_jw_ijΔs_j，相应的，满足差分隐私的附加噪声的均方误差度量为

10.如权利要求1所述的一种混合云环境下数据的隐私保护方法，其特征在于，所述步骤四中，所述共享聚合簇包括：