CN110866277A - 一种DaaS应用的数据集成的隐私保护方法 - Google Patents
一种DaaS应用的数据集成的隐私保护方法 Download PDFInfo
- Publication number
- CN110866277A CN110866277A CN201911107523.5A CN201911107523A CN110866277A CN 110866277 A CN110866277 A CN 110866277A CN 201911107523 A CN201911107523 A CN 201911107523A CN 110866277 A CN110866277 A CN 110866277A
- Authority
- CN
- China
- Prior art keywords
- data
- attribute
- cloud service
- service providers
- daas
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000010354 integration Effects 0.000 title claims abstract description 22
- 230000007246 mechanism Effects 0.000 claims abstract description 11
- 230000011218 segmentation Effects 0.000 claims abstract description 8
- 238000007670 refining Methods 0.000 claims 1
- 230000004927 fusion Effects 0.000 description 20
- 230000006872 improvement Effects 0.000 description 8
- 238000000638 solvent extraction Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 2
- 238000013524 data verification Methods 0.000 description 2
- 238000005315 distribution function Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000012946 outsourcing Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 206010023644 Lacrimation increased Diseases 0.000 description 1
- 102000002274 Matrix Metalloproteinases Human genes 0.000 description 1
- 108010000684 Matrix Metalloproteinases Proteins 0.000 description 1
- 201000009310 astigmatism Diseases 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000006854 communication Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004317 lacrimation Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6227—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/64—Protecting data integrity, e.g. using checksums, certificates or signatures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/21—Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/2107—File encryption
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Storage Device Security (AREA)
Abstract
本发明公开了一种DaaS应用的数据集成的隐私保护方法,包括如下步骤,步骤一、在满足数据匿名的条件下,通过租户间多轮协作,每轮采用信息增益最大的属性加细数据集;步骤二、设定云服务提供商的信誉等级,并根据信誉等级划分云服务提供商;步骤三、对于低于预设信誉等级的云服务提供商,采用基于分割的隐私保护机制,隐藏数据之间的关联关系,并通过分组均衡化的方式,确保属性的值域均衡分布,防止云服务提供商泄露租户数据隐私;对于高于预设信誉等级的云服务提供商,采用分类索引树数据结构,验证云服务提供商返回数据的正确性及完整性。本发明通过分类索引树数据结构,使云租户有能力验证云服务提供商返回结果集的正确性及完整性。
Description
技术领域
本发明属于隐私保护的技术领域,具体涉及一种DaaS应用的数据集成的隐私保护方法。
背景技术
在目前的商业环境下,企业或政府机构内部各部门甚至不同企业、不同职能组织机构之间的数据共享已经成为制定决策、为用户提供高质量服务的基本需求,多个数据拥有者需要相互协作集成彼此的数据以实现数据共享。在此过程中有两个问题急需解决:(1)对融合后数据的存储、维护及统计分析操作可能超出现有设备的载荷;(2)融合后的数据含有更为丰富的知识,攻击者可能据此推导出其中的隐私数据。因此,在数据多源融合时,各数据提供者要对数据进行匿名化处理。云计算作为一种新型的数据操作方式为数据共享提供了一个强有力的软硬件平台。有别于传统的以大型服务器为核心的计算模式,云计算以互联网及内部专用网为核心,采用虚拟化技术构建大规模数据中心,为云租户提供泛在网络信息共享、按需资源租用及以实际使用计费的新型服务模式。对云租户而言,云计算缓解了其一次性购买软\硬件的开销及其对数据存储管理维护的压力。
针对数据加密隐私保护的不足,研究者提出在数据明文的情况下,通过对敏感数据匿名化的方式防止隐私泄露。Sweeney等提出的k-匿名原则,要求所发布的数据表中的每一条记录不能区分于其他k-1条记录。对此进行了改进,保证每一个等价类中的数据,与任一敏感属性值相关的记录百分比不高于。l-diversity保证每一个等价类的敏感属性至少有l个不同的值,t-Closeness在l-diversity基础上,考虑了敏感属性的分布问题,要求所有等价类中敏感属性值的分布尽量接近该属性的全局分布。
针对安全的多方计算领域,Clifton等提出分布式k-匿名算法,该算法假设在垂直划分的数据环境下同一条记录有唯一的全局标识,参与数据融合的各方都只拥有部分属性的数据,利用可交换加密在通信过程中隐藏原始信息,再构建完整的匿名表判断是否满足匿名门限来实现数据隐私保护。但该算法的时间开销很大,一个针对关系数据计数、并、交、笛卡儿积4种典型操作的安全数据多方数据融合工具。Mohammed等基于分类树结构使用数据泛化技术实现数据融合各方的数据隐私保护,但融合后数据的信息损失较高,具体的信息损失度与数据集相关。还提出一种可追责计算框架,该框架可以实现数据融合的各方相互验证。然而这些方法的计算开销过于昂贵。
针对云数据隐私,通过完备格设计了属性分块树形结构,该树形结构中每一个实线框表示属性被分割的一个合理状态。通过定义机密限制和属性可见请求分割数据集并采用分组匿名的方式保护数据隐私,但需要应用领域专家事先建立属性约束规则集。提出隐私保护机制,通过定义属性集合的隐私约束对数据进行垂直分割,使每一个数据分块中的属性都不会导致数据组合隐私泄露,并引入3个层次的组合均衡化概念,确保每个数据分块物理存储中各种数据切片出现的概率尽可能的平均,从而保护DaaS数据隐私,属性隐私约束集的构建需要领域专家的指导,且伪数据的生成、识别和混淆数据的重构都需要在可信第三方的协作下完成。
发明内容
本发明的目的在于:针对现有技术的不足,提供一种DaaS应用的数据集成的隐私保护方法,通过构造属性辨识集对属性集划分,使各数据分块内的属性组合不会导致隐私泄露,还通过分类索引树数据结构,使云租户有能力验证云服务提供商返回结果集的正确性及完整性。
为了实现上述目的,本发明采用如下技术方案:
一种DaaS应用的数据集成的隐私保护方法,包括如下步骤:
步骤一、在满足数据匿名的条件下,通过租户间多轮协作,每轮采用信息增益最大的属性加细数据集;
步骤二、设定云服务提供商的信誉等级,并根据信誉等级划分所述云服务提供商;
步骤三、对于低于预设信誉等级的所述云服务提供商,采用基于分割的隐私保护机制,隐藏数据之间的关联关系,并通过分组均衡化的方式,确保属性的值域均衡分布,防止所述云服务提供商泄露租户数据隐私;对于高于所述预设信誉等级的所述云服务提供商,采用分类索引树数据结构,验证所述云服务提供商返回数据的正确性及完整性。
作为本发明所述的一种DaaS应用的数据集成的隐私保护方法的一种改进,所述步骤一中,所述数据集加细包括:
将所述数据集进行逐轮加细划分,每一个轮次都选取当次全局信息增益最大的属性对数据进行划分,直至融合数据集不可再分。
作为本发明所述的一种DaaS应用的数据集成的隐私保护方法的一种改进,还包括:
融合后的数据集上载到云端,将数据的最终控制权交由所述云服务提供商。
作为本发明所述的一种DaaS应用的数据集成的隐私保护方法的一种改进,所述步骤一中,加细所述数据集包括:
在本地数据中,计算各属性的信息熵并公布最大的熵值进行比较,选出本轮全局熵值最大的属性,所述属性的所有者基于上一轮的数据划分结果,进行加细划分,若划分结果满足数据匿名约束,则公布划分结果,否则直接进行下一轮,直至没有属性能满足所述匿名约束。
作为本发明所述的一种DaaS应用的数据集成的隐私保护方法的一种改进,所述步骤三中,所述分割的隐私保护机制包括:
根据属性对信息决策的重要性不同,运用属性超图消解法分割数据集。
作为本发明所述的一种DaaS应用的数据集成的隐私保护方法的一种改进,所述属性超图消解法包括:
在提取准标识符时,每次选取超图中最大公共子边中的属性集作为候选集,并删除所有含有候选集属性的超边,直至超图中不含有超边为止,最终将所有候选集作笛卡儿积。
作为本发明所述的一种DaaS应用的数据集成的隐私保护方法的一种改进,所述步骤三中,分组均衡化的方式包括:
通过生成伪造数据对分块的所述数据集进行分组均衡化,使得云服务提供商无法通过数据分布统计攻击推导出更多的知识。
作为本发明所述的一种DaaS应用的数据集成的隐私保护方法的一种改进,所述步骤三中,所述分类索引树数据结构包括依次使用不必要属性集、重要属性集、核心属性集迭代地分割数据。
本发明的有益效果在于,本发明包括如下步骤,步骤一、在满足数据匿名的条件下,通过租户间多轮协作,每轮采用信息增益最大的属性加细数据集;步骤二、设定云服务提供商的信誉等级,并根据信誉等级划分所述云服务提供商;步骤三、对于低于预设信誉等级的所述云服务提供商,采用基于分割的隐私保护机制,隐藏数据之间的关联关系,并通过分组均衡化的方式,确保属性的值域均衡分布,防止所述云服务提供商泄露租户数据隐私;对于高于所述预设信誉等级的所述云服务提供商,采用分类索引树数据结构,验证所述云服务提供商返回数据的正确性及完整性。本发明通过构造属性辨识集对属性集划分,使各数据分块内的属性组合不会导致隐私泄露,还通过分类索引树数据结构,使云租户有能力验证云服务提供商返回结果集的正确性及完整性。
附图说明
图1为本发明的多租户外包数据融合架构。
图2为本发明的分类索引树示意图。
具体实施方式
如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语,故应解释成“包含但不限定于”。“大致”是指在可接受的误差范围内,本领域技术人员能够在一定误差范围内解决技术问题,基本达到技术效果。
在本发明的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、水平”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
以下结合附图对本发明作进一步详细说明,但不作为对本发明的限定。
如图1所示,一种DaaS应用的数据集成的隐私保护方法,包括如下步骤:
步骤一、在满足数据匿名的条件下,通过租户间多轮协作,每轮采用信息增益最大的属性加细数据集;
步骤二、设定云服务提供商的信誉等级,并根据信誉等级划分云服务提供商;
步骤三、对于低于预设信誉等级的云服务提供商,采用基于分割的隐私保护机制,隐藏数据之间的关联关系,并通过分组均衡化的方式,确保属性的值域均衡分布,防止云服务提供商泄露租户数据隐私;对于高于预设信誉等级的云服务提供商,采用分类索引树数据结构,验证云服务提供商返回数据的正确性及完整性。
需要说明的是:针对多租户分布式数据融合,提出多轮加细的匿名数据保护策略,在满足数据匿名的条件下通过租户间多轮协作,每轮采用信息增益最大的属性加细数据集,使得融合数据在完成数据隐私保护的前提下尽可能含有更多的信息;针对非可信的云服务提供商,根据租户对其设定的信誉等级,提出面向DaaS应用的两级隐私保护机制,对于半可信信誉等级的云服务提供商,采用一种与应用无关的基于分块的隐私保护机制,隐藏数据之间的关联关系,并通过分组均衡化的方式,确保属性的值域均衡分布,防止云服务提供商泄露租户数据隐私;对于完全非可信信誉等级的云服务提供商,提出分类索引树数据结构,验证云服务提供商返回数据的正确性及完整性。
多方数据融合使得决策者可以在较之前更完备的数据集上从容地制定策略,以为用户提供更高质量的服务为目标,拥有不同信息属性的数据拥有者将各自的数据进行相协融合,首先形式化地定义云租户所拥有的数据集为一个四元组T(U,A,F,Class),其中,U为数据对象集,即U={x1,x2,...,xn},每个xi称为一个对象;A为属性集A={a1,a2,...,am};F为U和A之间的关系集F={fk:U→Vk},Vk为ak的值域;Class为决策属性,为了简化模型,以T1(U1,A1,F1,Class1)、T2(U2,A2,F2,Class2)2个云租户数据融合为例,假设T1、T2具有相同的记录集且记录的属性集无交集,即U1=U2,Class1=Class2,
设P为数据融合的云租户集合P={P1,P2,...,Pn},Ti为云租户Pi所拥有的数据表,Ai为Ti表中所包含的属性集合Ai={a1,a2,...,ak},且Aj,T为n个云租户数据融合后所形成的数据表,其中安全数据外包融合必须满足以下3个条件:1)满足数据匿名要求,即要求融合后的数据表中的每一条记录不能区分于其它k-1条记录;2)参与数据融合的任意云租户Pi无法从数据融合的交互过程中学习到比最终融合数据表T更多的知识;3)云服务提供商无法从融合数据表T中推导出隐私信息或统计知识。
即,为了安全有效的防止前面所提的威胁模型泄露数据隐私,数据隐私保护策略应该同时满足以下三方面的要求,零知识性:云服务提供商无法通过数据统计、数据背景攻击等推导出比融合的数据集T更多的知识;数据正确性和完整性:隐私保护策略能够使云租户有能力验证云服务提供商返回结果集的正确性及完整性;高效性:在数据隐私保护策略框架内,云端服务器应该在可比的时间复杂度下完成租户的查询请求。
优选的,步骤一中,数据集加细包括:
将数据集进行逐轮加细划分,每一个轮次都选取当次全局信息增益最大的属性对数据进行划分,直至融合数据集不可再分。
优选的,还包括:
融合后的数据集上载到云端,将数据的最终控制权交由云服务提供商。
优选的,步骤一中,加细数据集包括:
在本地数据中,计算各属性的信息熵并公布最大的熵值进行比较,选出本轮全局熵值最大的属性,属性的所有者基于上一轮的数据划分结果,进行加细划分,若划分结果满足数据匿名约束,则公布划分结果,否则直接进行下一轮,直至没有属性能满足匿名约束。
准标识符为m个属性联合起来能唯一的标识表中的一类敏感信息或隐私记录,且其任一子集都不能唯一标识,设QID为数据表T中准标识符集合,num(QIDi)表示在T中第i个标识符所含属性的对应属性值相同的记录的个数,k-匿名要求对于使得num(QIDi)≥k,其中k为租户商定的匿名门限值。
表1符号及其含义
如表1所示,Shared属性集为S1和S2的公共属性,其中ID为记录的标识符,Class为记录的决策/类属性(敏感属性);属性a1、a2、a3和a4为信息属性,分别表示年龄、眼镜处方、眼睛流泪度和散光,其中a1、a2是S1的本地属性,a3、a4是S2的本地属性,并且S1、S2各自的数据集都满足2-匿名。
多轮加细匿名算法是:数据融合的各方就自己所拥有的本地数据计算各属性的信息熵并公布最大的熵值进行比较,各方选出本轮全局熵值最大的属性。该属性的所有者基于上一轮的数据划分结果对其进行加细划分,若划分结果不违背数据匿名约束,则公布划分结果,否则直接进行下一轮,直至没有属性能在满足匿名约束的前提下对数据加细划分产生贡献。
优选的,步骤三中,分割的隐私保护机制包括:
根据属性对信息决策的重要性不同,运用属性超图消解法分割数据集。
优选的,属性超图消解法包括:
在提取准标识符时,每次选取超图中最大公共子边中的属性集作为候选集,并删除所有含有候选集属性的超边,直至超图中不含有超边为止,最终将所有候选集作笛卡儿积。
首先,给出数据分割的相关概念。
属性辨识集:T(U,A,F,Class)为信息系统,记U/RA={[xi]A|xi∈U},D([xi]A,[xj]A)={ak∈A|fk(xi)≠fk(xj)},称D([xi]A,[xj]A)为[xi]A与[xj]A的属性辨识集,称D=(D([xi]A,[xj]A)|[xi]A,[xj]A∈U/RA)为属性辨识矩阵,辨识矩阵是辨识集的全体,辨识集中的元素用于区别不同等价类的各种属性。
属性超图:属性超图可以定义为一个二元组(V,HE),其中,V为融合数据表T中全体属性的集合,HE是超边的集合,每一条超边表示属性辨识矩阵D的一项。
通过辨识矩阵查找准标识符B,使得RB=RA,在辨识矩阵中识别准标识符是一个NP问题,这里采用属性超图消解法,在提取准标识符时,每次选取超图中最大公共子边中的属性集作为候选集,并删除所有含有候选集属性的超边,如此迭代,直至超图中不含有超边为止,最终将所有候选集作笛卡儿积。
分析本发明的数据分割策略满足数据隐私保护需求。
首先证明命题“if|B|≥2,”,这是显然的;第二步,证明命题“若a是核心属性,则xj∈U,D([xi]A,[xj]A)={a}”,通过反证法,假设xj∈U,D([xi]A,[xj]A)={a},即对于a∈D([xi]A,[xj]A),|D([xi]A,[xj]A)|≥2,存在因此,对于存在使得RB=RA,所以使得C为准标识符,但这与假设矛盾,原命题得证;第三,证明命题“若a为核心属性,则RB-{a}≠RB”,,xj∈U使得fa(xi)≠fa(xj)并且fb(xi)=fb(xj),因此(xi,xj)∈RA-{a},即RA-{a}≠RA。又由于RB=RA,所以RB-{a}≠RB,综上,B是准标识符,而B-{a}和a不构成准标识符。
优选的,步骤三中,分组均衡化的方式包括:
通过生成伪造数据对分块的数据集进行分组均衡化,使得云服务提供商无法通过数据分布统计攻击推导出更多的知识。
数据分块策略割裂了数据间的关联关系,但云服务提供商仍然可以通过统计不同数据分块中各属性值的分布关系泄露租户数据隐私,如表1,使用二元组(v(ai),n)表示属性ai值域中的每一个值在融合数据集T的数量,云服务提供商统计属性a3、a4及Class的属性值分布情况(为了简化标记,式中用d替换Class):
a3:{{normal,2},{reduced,4},{more,2}};
a4:{{yes,2},{no,6}};
d:{{hard,3},{none,3},{soft,2}}。
根据最大覆盖原则,云服务提供商可以得到以下三条规则:
a3:{reduced,4}→{d:{hard,3}|d:{none,3}},
a3:{reduced,4}→a4:{no,6},
d:{none,3}→a4:{no,6}。
又因为属性a4和d在一个数据分块中,云服务提供商可以得出租户数据中的商业机密,因此提出(α,k)-组均衡化策略,使得各属性值域在各数据分块中均衡分布,防止云服务提供商泄露租户数据隐私。
概率分布函数:T(U,A,F,Class)为信息系统,记U/RB={[xi]B|xi∈U},U/Rd={[xi]d|xi∈U},为了表述方便U/Rd={d1,d2,...,dr},设xi∈U,概率分布函数μB(xi)=(D(d1/[xi]B),...,D(dr/[xi]B))。
为满足数据均衡化,使用插入伪造数据的方法,在满足各数据值符合k-匿名的前提下,对使得各数据分块中属性值的分布在基于决策属性的数据划分中满足预设的分布阈值α。
分析本发明数据分割策略对云服务提供商满足零知识性。
证明:由融合数据T的数据匿名度为k(k>1),云服务提供商对融合数据满足零知识性,当且仅当执行数据分割策略后的融合数据的数据匿名度小于k;融合数据T被分为3部分且每个部分都不含有QID,云服务提供商重组一条记录的概率为1/k3,租户通过生成伪造数据对分块的数据集T′进行分组均衡化,使得云服务提供商无法通过数据分布统计攻击推导出更多的知识,同时云服务提供商重组一条记录的概率小于1/k3(1/k3<<1/k),所以本发明数据分割策略对云服务提供商满足零知识性。
优选的,步骤三中,分类索引树数据结构包括依次使用不必要属性集、重要属性集、核心属性集迭代地分割数据。
对于完全非可信的云,云服务提供商可能在经济利益的驱动下仅对云租户上传数据的子集进行操作,依靠属性分割割裂数据的关联关系的策略已经不能满足需要,针对这种威胁,采用一个数据验证数据结构分类索引树。
分类索引树:分类索引树是一个深度为3的数据验证树形结构(设root为第0层),root包含全总数据集,从root到叶节点依次根据数据集的I、K、C属性集作为分类条件逐层细化,每一个节点可以看作是一个三元组(B,〈Bi,Index〉,Count),Bi为节点所在层的分类属性集,〈Bi,Index〉={〈b1,Index1>,...,<bn,Indexn>},其中,bi∈Bi,Indexi为属性bi指针指向同层中与本节点bi属性值相同的节点,B={A-Bi|A为全总属性集},Count为本节点所包含的数据个数。
分析构建分类索引树算法的时间复杂度为O(n),租户在上传融合数据前在本地构建分类索引树,由于云服务提供商对云端的数据拥有绝对的控制权,租户无法阻止云服务提供商的违反SLA的行为,但通过分类索引树,租户可以验证云服务提供商返回数据的正确性及完整性,分类索引树的root节点是全总记录的泛化,以下各层依次使用不必要属性集、重要属性集、核心属性集迭代地分割数据,形成由粗到细的分类树形结构,叶节点包含满足由root到叶节点路径限制的所有记录的ID,租户通过分类索引树获得所查记录的个数及记录的ID,从而验证云服务提供商返回数据的正确性及完整性。
根据上述说明书的揭示和教导,本发明所属领域的技术人员还能够对上述实施方式进行变更和修改。因此,本发明并不局限于上述的具体实施方式,凡是本领域技术人员在本发明的基础上所作出的任何显而易见的改进、替换或变型均属于本发明的保护范围。此外,尽管本说明书中使用了一些特定的术语,但这些术语只是为了方便说明,并不对本发明构成任何限制。
Claims (8)
1.一种DaaS应用的数据集成的隐私保护方法,其特征在于,包括如下步骤:
步骤一、在满足数据匿名的条件下,通过租户间多轮协作,每轮采用信息增益最大的属性加细数据集;
步骤二、设定云服务提供商的信誉等级,并根据信誉等级划分所述云服务提供商;
步骤三、对于低于预设信誉等级的所述云服务提供商,采用基于分割的隐私保护机制,隐藏数据之间的关联关系,并通过分组均衡化的方式,确保属性的值域均衡分布,防止所述云服务提供商泄露租户数据隐私;对于高于所述预设信誉等级的所述云服务提供商,采用分类索引树数据结构,验证所述云服务提供商返回数据的正确性及完整性。
2.如权利要求1所述的一种DaaS应用的数据集成的隐私保护方法,其特征在于,所述步骤一中,所述数据集加细包括:
将所述数据集进行逐轮加细划分,每一个轮次都选取当次全局信息增益最大的属性对数据进行划分,直至融合数据集不可再分。
3.如权利要求2所述的一种DaaS应用的数据集成的隐私保护方法,其特征在于,还包括:
将融合后的数据集上载到云端,将数据的最终控制权交由所述云服务提供商。
4.如权利要求1所述的一种DaaS应用的数据集成的隐私保护方法,其特征在于,所述步骤一中,加细所述数据集包括:
在本地数据中,计算各属性的信息熵并公布最大的熵值进行比较,选出本轮全局熵值最大的属性,所述属性的所有者基于上一轮的数据划分结果,进行加细划分,若划分结果满足数据匿名约束,则公布划分结果,否则直接进行下一轮,直至没有属性能满足所述匿名约束。
5.如权利要求1所述的一种DaaS应用的数据集成的隐私保护方法,其特征在于,所述步骤三中,所述分割的隐私保护机制包括:
根据属性对信息决策的重要性不同,运用属性超图消解法分割数据集。
6.如权利要求5所述的一种DaaS应用的数据集成的隐私保护方法,其特征在于,所述属性超图消解法包括:
在提取准标识符时,每次选取超图中最大公共子边中的属性集作为候选集,并删除所有含有候选集属性的超边,直至超图中不含有超边为止,最终将所有候选集作笛卡儿积。
7.如权利要求1所述的一种DaaS应用的数据集成的隐私保护方法,其特征在于,所述步骤三中,分组均衡化的方式包括:
通过生成伪造数据对分块的所述数据集进行分组均衡化,使得所述云服务提供商无法通过数据分布统计攻击推导出更多的知识。
8.如权利要求1所述的一种DaaS应用的数据集成的隐私保护方法,其特征在于,所述步骤三中,所述分类索引树数据结构包括依次使用不必要属性集、重要属性集、核心属性集迭代地分割数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911107523.5A CN110866277A (zh) | 2019-11-13 | 2019-11-13 | 一种DaaS应用的数据集成的隐私保护方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911107523.5A CN110866277A (zh) | 2019-11-13 | 2019-11-13 | 一种DaaS应用的数据集成的隐私保护方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110866277A true CN110866277A (zh) | 2020-03-06 |
Family
ID=69653803
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911107523.5A Pending CN110866277A (zh) | 2019-11-13 | 2019-11-13 | 一种DaaS应用的数据集成的隐私保护方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110866277A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112613068A (zh) * | 2020-12-15 | 2021-04-06 | 国家超级计算深圳中心(深圳云计算中心) | 一种多重数据混淆隐私保护方法及系统、存储介质 |
CN112765653A (zh) * | 2021-01-06 | 2021-05-07 | 山财高新科技(山西)有限公司 | 一种多隐私策略组合优化的多源数据融合隐私保护方法 |
CN114297714A (zh) * | 2021-12-30 | 2022-04-08 | 电子科技大学广东电子信息工程研究院 | 一种云环境下数据隐私保护与安全搜索的方法 |
CN116257657A (zh) * | 2022-12-30 | 2023-06-13 | 北京瑞莱智慧科技有限公司 | 数据处理方法、数据查询方法、相关装置及存储介质 |
CN117313135A (zh) * | 2023-08-02 | 2023-12-29 | 东莞理工学院 | 一种基于属性划分的可高效重构的个人隐私保护方法 |
-
2019
- 2019-11-13 CN CN201911107523.5A patent/CN110866277A/zh active Pending
Non-Patent Citations (1)
Title |
---|
周志刚等: "面向DaaS 应用的数据集成隐私保护机制研究", 《通信学报》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112613068A (zh) * | 2020-12-15 | 2021-04-06 | 国家超级计算深圳中心(深圳云计算中心) | 一种多重数据混淆隐私保护方法及系统、存储介质 |
CN112613068B (zh) * | 2020-12-15 | 2024-03-08 | 国家超级计算深圳中心(深圳云计算中心) | 一种多重数据混淆隐私保护方法及系统、存储介质 |
CN112765653A (zh) * | 2021-01-06 | 2021-05-07 | 山财高新科技(山西)有限公司 | 一种多隐私策略组合优化的多源数据融合隐私保护方法 |
CN112765653B (zh) * | 2021-01-06 | 2022-11-25 | 山财高新科技(山西)有限公司 | 一种多隐私策略组合优化的多源数据融合隐私保护方法 |
CN114297714A (zh) * | 2021-12-30 | 2022-04-08 | 电子科技大学广东电子信息工程研究院 | 一种云环境下数据隐私保护与安全搜索的方法 |
CN116257657A (zh) * | 2022-12-30 | 2023-06-13 | 北京瑞莱智慧科技有限公司 | 数据处理方法、数据查询方法、相关装置及存储介质 |
CN116257657B (zh) * | 2022-12-30 | 2024-02-06 | 北京瑞莱智慧科技有限公司 | 数据处理方法、数据查询方法、相关装置及存储介质 |
CN117313135A (zh) * | 2023-08-02 | 2023-12-29 | 东莞理工学院 | 一种基于属性划分的可高效重构的个人隐私保护方法 |
CN117313135B (zh) * | 2023-08-02 | 2024-04-16 | 东莞理工学院 | 一种基于属性划分的可高效重构的个人隐私保护方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110866277A (zh) | 一种DaaS应用的数据集成的隐私保护方法 | |
Truex et al. | A hybrid approach to privacy-preserving federated learning | |
Jiang et al. | Privacy-preserving and efficient multi-keyword search over encrypted data on blockchain | |
Li et al. | Fast range query processing with strong privacy protection for cloud computing | |
Bohli et al. | Security and privacy-enhancing multicloud architectures | |
Yang et al. | Privacy-preserving computation of bayesian networks on vertically partitioned data | |
Kol et al. | Interactive distributed proofs | |
CN105164971A (zh) | 具有额外安全性的用于低熵输入记录的核验系统和方法 | |
Sarfraz et al. | Dbmask: Fine-grained access control on encrypted relational databases | |
Gambs et al. | Privacy-preserving boosting | |
Sahi et al. | A Review of the State of the Art in Privacy and Security in the eHealth Cloud | |
Kerschbaum | A verifiable, centralized, coercion-free reputation system | |
Gao et al. | Privacy threats against federated matrix factorization | |
Qu et al. | A electronic voting protocol based on blockchain and homomorphic signcryption | |
CN115242371A (zh) | 差分隐私保护的集合交集及其基数计算方法、装置及系统 | |
Yang et al. | Improved privacy-preserving Bayesian network parameter learning on vertically partitioned data | |
CN115189966A (zh) | 区块链隐私数据加解密服务系统 | |
Jarrous et al. | Secure computation of functionalities based on Hamming distance and its application to computing document similarity | |
Mehnaz et al. | Privacy-preserving multi-party analytics over arbitrarily partitioned data | |
CN114329588A (zh) | 一种云环境下多源融合的数据隐私保护方法 | |
CN112948864B (zh) | 基于垂直分区数据库的可验证ppfim方法 | |
Dongare et al. | Panda: Public auditing for shared data with efficient user revocation in the cloud | |
Hu et al. | A Lightweight Mutual Privacy Preserving $ k $-means Clustering in Industrial IoT | |
Peng et al. | Redactable Blockchain in the Permissioned Setting | |
CN116094797B (zh) | 一种基于安全多方计算的分布式身份信任管理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200306 |