CN110866277A

CN110866277A - 一种DaaS应用的数据集成的隐私保护方法

Info

Publication number: CN110866277A
Application number: CN201911107523.5A
Authority: CN
Inventors: 张宏莉; 周志刚; 张羽; 高阳; 王星; 于海宁; 方滨兴; 刘妙玲; 孙燕
Original assignee: Guangdong Institute Of Electronic And Information Engineering University Of Electronic Science And Technology Of China; Harbin Institute of Technology
Current assignee: Guangdong Institute Of Electronic And Information Engineering University Of Electronic Science And Technology Of China; Harbin Institute of Technology
Priority date: 2019-11-13
Filing date: 2019-11-13
Publication date: 2020-03-06

Abstract

本发明公开了一种DaaS应用的数据集成的隐私保护方法，包括如下步骤，步骤一、在满足数据匿名的条件下，通过租户间多轮协作，每轮采用信息增益最大的属性加细数据集；步骤二、设定云服务提供商的信誉等级，并根据信誉等级划分云服务提供商；步骤三、对于低于预设信誉等级的云服务提供商，采用基于分割的隐私保护机制，隐藏数据之间的关联关系，并通过分组均衡化的方式，确保属性的值域均衡分布，防止云服务提供商泄露租户数据隐私；对于高于预设信誉等级的云服务提供商，采用分类索引树数据结构，验证云服务提供商返回数据的正确性及完整性。本发明通过分类索引树数据结构，使云租户有能力验证云服务提供商返回结果集的正确性及完整性。

Description

一种DaaS应用的数据集成的隐私保护方法

技术领域

本发明属于隐私保护的技术领域，具体涉及一种DaaS应用的数据集成的隐私保护方法。

背景技术

在目前的商业环境下，企业或政府机构内部各部门甚至不同企业、不同职能组织机构之间的数据共享已经成为制定决策、为用户提供高质量服务的基本需求，多个数据拥有者需要相互协作集成彼此的数据以实现数据共享。在此过程中有两个问题急需解决：(1)对融合后数据的存储、维护及统计分析操作可能超出现有设备的载荷；(2)融合后的数据含有更为丰富的知识，攻击者可能据此推导出其中的隐私数据。因此，在数据多源融合时，各数据提供者要对数据进行匿名化处理。云计算作为一种新型的数据操作方式为数据共享提供了一个强有力的软硬件平台。有别于传统的以大型服务器为核心的计算模式，云计算以互联网及内部专用网为核心，采用虚拟化技术构建大规模数据中心，为云租户提供泛在网络信息共享、按需资源租用及以实际使用计费的新型服务模式。对云租户而言，云计算缓解了其一次性购买软\硬件的开销及其对数据存储管理维护的压力。

针对数据加密隐私保护的不足，研究者提出在数据明文的情况下，通过对敏感数据匿名化的方式防止隐私泄露。Sweeney等提出的k-匿名原则，要求所发布的数据表中的每一条记录不能区分于其他k-1条记录。对此进行了改进，保证每一个等价类中的数据，与任一敏感属性值相关的记录百分比不高于。l-diversity保证每一个等价类的敏感属性至少有l个不同的值，t-Closeness在l-diversity基础上，考虑了敏感属性的分布问题，要求所有等价类中敏感属性值的分布尽量接近该属性的全局分布。

针对安全的多方计算领域，Clifton等提出分布式k-匿名算法，该算法假设在垂直划分的数据环境下同一条记录有唯一的全局标识，参与数据融合的各方都只拥有部分属性的数据，利用可交换加密在通信过程中隐藏原始信息，再构建完整的匿名表判断是否满足匿名门限来实现数据隐私保护。但该算法的时间开销很大，一个针对关系数据计数、并、交、笛卡儿积4种典型操作的安全数据多方数据融合工具。Mohammed等基于分类树结构使用数据泛化技术实现数据融合各方的数据隐私保护，但融合后数据的信息损失较高，具体的信息损失度与数据集相关。还提出一种可追责计算框架，该框架可以实现数据融合的各方相互验证。然而这些方法的计算开销过于昂贵。

针对云数据隐私，通过完备格设计了属性分块树形结构，该树形结构中每一个实线框表示属性被分割的一个合理状态。通过定义机密限制和属性可见请求分割数据集并采用分组匿名的方式保护数据隐私，但需要应用领域专家事先建立属性约束规则集。提出隐私保护机制，通过定义属性集合的隐私约束对数据进行垂直分割，使每一个数据分块中的属性都不会导致数据组合隐私泄露，并引入3个层次的组合均衡化概念，确保每个数据分块物理存储中各种数据切片出现的概率尽可能的平均，从而保护DaaS数据隐私，属性隐私约束集的构建需要领域专家的指导，且伪数据的生成、识别和混淆数据的重构都需要在可信第三方的协作下完成。

发明内容

本发明的目的在于：针对现有技术的不足，提供一种DaaS应用的数据集成的隐私保护方法，通过构造属性辨识集对属性集划分，使各数据分块内的属性组合不会导致隐私泄露，还通过分类索引树数据结构，使云租户有能力验证云服务提供商返回结果集的正确性及完整性。

为了实现上述目的，本发明采用如下技术方案：

一种DaaS应用的数据集成的隐私保护方法，包括如下步骤：

步骤一、在满足数据匿名的条件下，通过租户间多轮协作，每轮采用信息增益最大的属性加细数据集；

步骤二、设定云服务提供商的信誉等级，并根据信誉等级划分所述云服务提供商；

步骤三、对于低于预设信誉等级的所述云服务提供商，采用基于分割的隐私保护机制，隐藏数据之间的关联关系，并通过分组均衡化的方式，确保属性的值域均衡分布，防止所述云服务提供商泄露租户数据隐私；对于高于所述预设信誉等级的所述云服务提供商，采用分类索引树数据结构，验证所述云服务提供商返回数据的正确性及完整性。

作为本发明所述的一种DaaS应用的数据集成的隐私保护方法的一种改进，所述步骤一中，所述数据集加细包括：

将所述数据集进行逐轮加细划分，每一个轮次都选取当次全局信息增益最大的属性对数据进行划分，直至融合数据集不可再分。

作为本发明所述的一种DaaS应用的数据集成的隐私保护方法的一种改进，还包括：

融合后的数据集上载到云端，将数据的最终控制权交由所述云服务提供商。

作为本发明所述的一种DaaS应用的数据集成的隐私保护方法的一种改进，所述步骤一中，加细所述数据集包括：

在本地数据中，计算各属性的信息熵并公布最大的熵值进行比较，选出本轮全局熵值最大的属性，所述属性的所有者基于上一轮的数据划分结果，进行加细划分，若划分结果满足数据匿名约束，则公布划分结果，否则直接进行下一轮，直至没有属性能满足所述匿名约束。

作为本发明所述的一种DaaS应用的数据集成的隐私保护方法的一种改进，所述步骤三中，所述分割的隐私保护机制包括：

根据属性对信息决策的重要性不同，运用属性超图消解法分割数据集。

作为本发明所述的一种DaaS应用的数据集成的隐私保护方法的一种改进，所述属性超图消解法包括：

在提取准标识符时，每次选取超图中最大公共子边中的属性集作为候选集，并删除所有含有候选集属性的超边，直至超图中不含有超边为止，最终将所有候选集作笛卡儿积。

作为本发明所述的一种DaaS应用的数据集成的隐私保护方法的一种改进，所述步骤三中，分组均衡化的方式包括：

通过生成伪造数据对分块的所述数据集进行分组均衡化，使得云服务提供商无法通过数据分布统计攻击推导出更多的知识。

作为本发明所述的一种DaaS应用的数据集成的隐私保护方法的一种改进，所述步骤三中，所述分类索引树数据结构包括依次使用不必要属性集、重要属性集、核心属性集迭代地分割数据。

本发明的有益效果在于，本发明包括如下步骤，步骤一、在满足数据匿名的条件下，通过租户间多轮协作，每轮采用信息增益最大的属性加细数据集；步骤二、设定云服务提供商的信誉等级，并根据信誉等级划分所述云服务提供商；步骤三、对于低于预设信誉等级的所述云服务提供商，采用基于分割的隐私保护机制，隐藏数据之间的关联关系，并通过分组均衡化的方式，确保属性的值域均衡分布，防止所述云服务提供商泄露租户数据隐私；对于高于所述预设信誉等级的所述云服务提供商，采用分类索引树数据结构，验证所述云服务提供商返回数据的正确性及完整性。本发明通过构造属性辨识集对属性集划分，使各数据分块内的属性组合不会导致隐私泄露，还通过分类索引树数据结构，使云租户有能力验证云服务提供商返回结果集的正确性及完整性。

附图说明

图1为本发明的多租户外包数据融合架构。

图2为本发明的分类索引树示意图。

具体实施方式

如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解，硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语，故应解释成“包含但不限定于”。“大致”是指在可接受的误差范围内，本领域技术人员能够在一定误差范围内解决技术问题，基本达到技术效果。

在本发明的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、水平”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

以下结合附图对本发明作进一步详细说明，但不作为对本发明的限定。

如图1所示，一种DaaS应用的数据集成的隐私保护方法，包括如下步骤：

步骤二、设定云服务提供商的信誉等级，并根据信誉等级划分云服务提供商；

步骤三、对于低于预设信誉等级的云服务提供商，采用基于分割的隐私保护机制，隐藏数据之间的关联关系，并通过分组均衡化的方式，确保属性的值域均衡分布，防止云服务提供商泄露租户数据隐私；对于高于预设信誉等级的云服务提供商，采用分类索引树数据结构，验证云服务提供商返回数据的正确性及完整性。

需要说明的是：针对多租户分布式数据融合，提出多轮加细的匿名数据保护策略，在满足数据匿名的条件下通过租户间多轮协作，每轮采用信息增益最大的属性加细数据集，使得融合数据在完成数据隐私保护的前提下尽可能含有更多的信息；针对非可信的云服务提供商，根据租户对其设定的信誉等级，提出面向DaaS应用的两级隐私保护机制，对于半可信信誉等级的云服务提供商，采用一种与应用无关的基于分块的隐私保护机制，隐藏数据之间的关联关系，并通过分组均衡化的方式，确保属性的值域均衡分布，防止云服务提供商泄露租户数据隐私；对于完全非可信信誉等级的云服务提供商，提出分类索引树数据结构，验证云服务提供商返回数据的正确性及完整性。

多方数据融合使得决策者可以在较之前更完备的数据集上从容地制定策略，以为用户提供更高质量的服务为目标，拥有不同信息属性的数据拥有者将各自的数据进行相协融合，首先形式化地定义云租户所拥有的数据集为一个四元组T(U,A,F,Class)，其中，U为数据对象集，即U＝{x₁,x₂,...,x_n}，每个x_i称为一个对象；A为属性集A＝{a₁,a₂,...,a_m}；F为U和A之间的关系集F＝{f_k:U→V_k}，V_k为a_k的值域；Class为决策属性，为了简化模型，以T₁(U₁,A₁,F₁,Class₁)、T₂(U₂,A₂,F₂,Class₂)2个云租户数据融合为例，假设T₁、T₂具有相同的记录集且记录的属性集无交集，即U₁＝U₂,Class₁＝Class₂,

设P为数据融合的云租户集合P＝{P₁,P₂,...,P_n}，T_i为云租户P_i所拥有的数据表，A_i为T_i表中所包含的属性集合A_i＝{a₁,a₂,...,a_k}，且

A_j，

T为n个云租户数据融合后所形成的数据表，其中

安全数据外包融合必须满足以下3个条件：1)满足数据匿名要求，即要求融合后的数据表中的每一条记录不能区分于其它k-1条记录；2)参与数据融合的任意云租户P_i无法从数据融合的交互过程中学习到比最终融合数据表T更多的知识；3)云服务提供商无法从融合数据表T中推导出隐私信息或统计知识。

即，为了安全有效的防止前面所提的威胁模型泄露数据隐私，数据隐私保护策略应该同时满足以下三方面的要求，零知识性：云服务提供商无法通过数据统计、数据背景攻击等推导出比融合的数据集T更多的知识；数据正确性和完整性：隐私保护策略能够使云租户有能力验证云服务提供商返回结果集的正确性及完整性；高效性：在数据隐私保护策略框架内，云端服务器应该在可比的时间复杂度下完成租户的查询请求。

优选的，步骤一中，数据集加细包括：

将数据集进行逐轮加细划分，每一个轮次都选取当次全局信息增益最大的属性对数据进行划分，直至融合数据集不可再分。

优选的，还包括：

融合后的数据集上载到云端，将数据的最终控制权交由云服务提供商。

优选的，步骤一中，加细数据集包括：

在本地数据中，计算各属性的信息熵并公布最大的熵值进行比较，选出本轮全局熵值最大的属性，属性的所有者基于上一轮的数据划分结果，进行加细划分，若划分结果满足数据匿名约束，则公布划分结果，否则直接进行下一轮，直至没有属性能满足匿名约束。

准标识符为m个属性联合起来能唯一的标识表中的一类敏感信息或隐私记录，且其任一子集都不能唯一标识，设QID为数据表T中准标识符集合，num(QID_i)表示在T中第i个标识符所含属性的对应属性值相同的记录的个数，k-匿名要求对于

使得num(QID_i)≥k，其中k为租户商定的匿名门限值。

表1符号及其含义

如表1所示，Shared属性集为S₁和S₂的公共属性，其中ID为记录的标识符，Class为记录的决策/类属性(敏感属性)；属性a₁、a₂、a₃和a₄为信息属性，分别表示年龄、眼镜处方、眼睛流泪度和散光，其中a₁、a₂是S₁的本地属性，a₃、a₄是S₂的本地属性，并且S₁、S₂各自的数据集都满足2-匿名。

等价类：在T(U,A,F,Class)上，对于

记R_B＝{(x_i,x_j)|f_k(x_i)＝f_k(x_j)(a_k∈B)}，R_B是U上的等价类。

加细：在T(U,A,F,Class)上,

设R_B、R_C是U上的等价类，若

即R_B U对的每一个划分都含于R_C的某个划分中，称R_B是R_C的加细。

多轮加细匿名算法是：数据融合的各方就自己所拥有的本地数据计算各属性的信息熵并公布最大的熵值进行比较，各方选出本轮全局熵值最大的属性。该属性的所有者基于上一轮的数据划分结果对其进行加细划分，若划分结果不违背数据匿名约束，则公布划分结果，否则直接进行下一轮，直至没有属性能在满足匿名约束的前提下对数据加细划分产生贡献。

优选的，步骤三中，分割的隐私保护机制包括：

优选的，属性超图消解法包括：

首先，给出数据分割的相关概念。

准标识符：在T(U,A,F,Class)上，对于属性集

使得R_B＝R_A，且B的任何真子集都使得等式不成立，称B为T的准标识符。

属性辨识集：T(U,A,F,Class)为信息系统，记U/R_A＝{[x_i]_A|x_i∈U},D([x_i]_A,[x_j]_A)＝{a_k∈A|f_k(x_i)≠f_k(x_j)},称D([x_i]_A,[x_j]_A)为[x_i]_A与[x_j]_A的属性辨识集，称D＝(D([x_i]_A,[x_j]_A)|[x_i]_A,[x_j]_A∈U/R_A)为属性辨识矩阵，辨识矩阵是辨识集的全体，辨识集中的元素用于区别不同等价类的各种属性。

属性超图：属性超图可以定义为一个二元组(V,HE)，其中，V为融合数据表T中全体属性的集合，HE是超边的集合，每一条超边表示属性辨识矩阵D的一项。

通过辨识矩阵查找准标识符B，使得R_B＝R_A，在辨识矩阵中识别准标识符是一个NP问题，这里采用属性超图消解法，在提取准标识符时，每次选取超图中最大公共子边中的属性集作为候选集，并删除所有含有候选集属性的超边，如此迭代，直至超图中不含有超边为止，最终将所有候选集作笛卡儿积。

属性划分：T(U,A,F,Class)为信息系统，B_k(k≤r)为属性极小集，r为极小集总数，记

其中C为核心属性集，K为重要属性集，I为不必要属性集。

分析本发明的数据分割策略满足数据隐私保护需求。

首先证明命题“if|B|≥2，

”，这是显然的；第二步，证明命题“若a是核心属性，则

x_j∈U，D([x_i]_A,[x_j]_A)＝{a}”，通过反证法，假设

x_j∈U，D([x_i]_A,[x_j]_A)＝{a}，即对于a∈D([x_i]_A,[x_j]_A)，|D([x_i]_A,[x_j]_A)|≥2，存在

因此，对于

存在

使得R_B＝R_A，所以

使得C为准标识符，但

这与假设矛盾，原命题得证；第三，证明命题“若a为核心属性，则R_B-{a}≠R_B”，，

x_j∈U使得f_a(x_i)≠f_a(x_j)并且f_b(x_i)＝f_b(x_j)，因此(x_i,x_j)∈R_A-{a}，

即R_A-{a}≠R_A。又由于R_B＝R_A，

所以R_B-{a}≠R_B，综上，B是准标识符，而B-{a}和a不构成准标识符。

优选的，步骤三中，分组均衡化的方式包括：

通过生成伪造数据对分块的数据集进行分组均衡化，使得云服务提供商无法通过数据分布统计攻击推导出更多的知识。

数据分块策略割裂了数据间的关联关系，但云服务提供商仍然可以通过统计不同数据分块中各属性值的分布关系泄露租户数据隐私，如表1，使用二元组(v(a_i),n)表示属性a_i值域中的每一个值在融合数据集T的数量，云服务提供商统计属性a₃、a₄及Class的属性值分布情况(为了简化标记，式中用d替换Class)：

a₃:{{normal,2},{reduced,4},{more,2}}；

a₄:{{yes,2},{no,6}}；

d:{{hard,3},{none,3},{soft,2}}。

根据最大覆盖原则，云服务提供商可以得到以下三条规则：

a₃:{reduced,4}→{d:{hard,3}|d:{none,3}},

a₃:{reduced,4}→a₄:{no,6},

d:{none,3}→a₄:{no,6}。

又因为属性a₄和d在一个数据分块中，云服务提供商可以得出租户数据中的商业机密，因此提出(α,k)-组均衡化策略，使得各属性值域在各数据分块中均衡分布，防止云服务提供商泄露租户数据隐私。

概率分布函数：T(U,A,F,Class)为信息系统，记

U/R_B＝{[x_i]_B|x_i∈U}，U/R_d＝{[x_i]_d|x_i∈U}，为了表述方便U/R_d＝{d₁,d₂,...,d_r}，设x_i∈U，

概率分布函数μ_B(x_i)＝(D(d₁/[x_i]_B),...,D(d_r/[x_i]_B))。

(α,k)-组均衡：设T(U,A,F,Class)满足k-匿名，属性集的所有非空子集构成M个组，

表示组

值域中一个可取的值，若对于任意的

有

且

则称T满足(α,k)-组均衡。

为满足数据均衡化，使用插入伪造数据的方法，在满足各数据值符合k-匿名的前提下，对使得各数据分块中属性值的分布在基于决策属性的数据划分中满足预设的分布阈值α。

分析本发明数据分割策略对云服务提供商满足零知识性。

证明：由融合数据T的数据匿名度为k(k＞1)，云服务提供商对融合数据满足零知识性，当且仅当执行数据分割策略后的融合数据的数据匿名度小于k；融合数据T被分为3部分且每个部分都不含有QID，云服务提供商重组一条记录的概率为1/k³，租户通过生成伪造数据对分块的数据集T′进行分组均衡化，使得云服务提供商无法通过数据分布统计攻击推导出更多的知识，同时云服务提供商重组一条记录的概率小于1/k³(1/k³＜＜1/k)，所以本发明数据分割策略对云服务提供商满足零知识性。

优选的，步骤三中，分类索引树数据结构包括依次使用不必要属性集、重要属性集、核心属性集迭代地分割数据。

对于完全非可信的云，云服务提供商可能在经济利益的驱动下仅对云租户上传数据的子集进行操作，依靠属性分割割裂数据的关联关系的策略已经不能满足需要，针对这种威胁，采用一个数据验证数据结构分类索引树。

分类索引树：分类索引树是一个深度为3的数据验证树形结构(设root为第0层)，root包含全总数据集，从root到叶节点依次根据数据集的I、K、C属性集作为分类条件逐层细化，每一个节点可以看作是一个三元组(B,〈B_i,Index〉,Count)，B_i为节点所在层的分类属性集，〈B_i,Index〉＝{〈b₁,Index₁>,...,<b_n,Index_n>}，其中，b_i∈B_i，Index_i为属性b_i指针指向同层中与本节点b_i属性值相同的节点，B＝{A-B_i|A为全总属性集}，Count为本节点所包含的数据个数。

分析构建分类索引树算法的时间复杂度为O(n)，租户在上传融合数据前在本地构建分类索引树，由于云服务提供商对云端的数据拥有绝对的控制权，租户无法阻止云服务提供商的违反SLA的行为，但通过分类索引树，租户可以验证云服务提供商返回数据的正确性及完整性，分类索引树的root节点是全总记录的泛化，以下各层依次使用不必要属性集、重要属性集、核心属性集迭代地分割数据，形成由粗到细的分类树形结构，叶节点包含满足由root到叶节点路径限制的所有记录的ID，租户通过分类索引树获得所查记录的个数及记录的ID，从而验证云服务提供商返回数据的正确性及完整性。

根据上述说明书的揭示和教导，本发明所属领域的技术人员还能够对上述实施方式进行变更和修改。因此，本发明并不局限于上述的具体实施方式，凡是本领域技术人员在本发明的基础上所作出的任何显而易见的改进、替换或变型均属于本发明的保护范围。此外，尽管本说明书中使用了一些特定的术语，但这些术语只是为了方便说明，并不对本发明构成任何限制。

Claims

1.一种DaaS应用的数据集成的隐私保护方法，其特征在于，包括如下步骤：

2.如权利要求1所述的一种DaaS应用的数据集成的隐私保护方法，其特征在于，所述步骤一中，所述数据集加细包括：

3.如权利要求2所述的一种DaaS应用的数据集成的隐私保护方法，其特征在于，还包括：

将融合后的数据集上载到云端，将数据的最终控制权交由所述云服务提供商。

4.如权利要求1所述的一种DaaS应用的数据集成的隐私保护方法，其特征在于，所述步骤一中，加细所述数据集包括：

5.如权利要求1所述的一种DaaS应用的数据集成的隐私保护方法，其特征在于，所述步骤三中，所述分割的隐私保护机制包括：

6.如权利要求5所述的一种DaaS应用的数据集成的隐私保护方法，其特征在于，所述属性超图消解法包括：

7.如权利要求1所述的一种DaaS应用的数据集成的隐私保护方法，其特征在于，所述步骤三中，分组均衡化的方式包括：

通过生成伪造数据对分块的所述数据集进行分组均衡化，使得所述云服务提供商无法通过数据分布统计攻击推导出更多的知识。

8.如权利要求1所述的一种DaaS应用的数据集成的隐私保护方法，其特征在于，所述步骤三中，所述分类索引树数据结构包括依次使用不必要属性集、重要属性集、核心属性集迭代地分割数据。