CN110866276A - 一种混合云环境下数据的隐私保护方法 - Google Patents

一种混合云环境下数据的隐私保护方法 Download PDF

Info

Publication number
CN110866276A
CN110866276A CN201911107507.6A CN201911107507A CN110866276A CN 110866276 A CN110866276 A CN 110866276A CN 201911107507 A CN201911107507 A CN 201911107507A CN 110866276 A CN110866276 A CN 110866276A
Authority
CN
China
Prior art keywords
data
privacy
query
hybrid cloud
cloud environment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911107507.6A
Other languages
English (en)
Inventor
张宏莉
周志刚
于海宁
张羽
王星
叶麟
方滨兴
孙燕
刘妙玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Institute Of Electronic And Information Engineering University Of Electronic Science And Technology Of China
Harbin Institute of Technology
Original Assignee
Guangdong Institute Of Electronic And Information Engineering University Of Electronic Science And Technology Of China
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Institute Of Electronic And Information Engineering University Of Electronic Science And Technology Of China, Harbin Institute of Technology filed Critical Guangdong Institute Of Electronic And Information Engineering University Of Electronic Science And Technology Of China
Priority to CN201911107507.6A priority Critical patent/CN110866276A/zh
Publication of CN110866276A publication Critical patent/CN110866276A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于数据的隐私保护的技术领域,具体涉及一种混合云环境下数据的隐私保护方法,包括如下步骤,步骤一、将DaaS承载平台作为混合云,根据高维稀疏数据的特征及数据发布模式,分析引入云平台后数据隐私泄露的潜在风险;步骤二、在匿名分割策略的基础上,通过贪心策略,分析数据可用性最大化的约束场景;步骤三、利用交互型差分隐私保护的统计搜索,分析加噪对数据可用性的影响;步骤四、针对并行化匿名分割造成的数据误分割,通过共享聚合簇,减小保留在私有云上的数据量。本发明能够减少信息损失,提高算法的执行效率,从而提高数据的隐私保护的可行性和实用性。

Description

一种混合云环境下数据的隐私保护方法
技术领域
本发明属于数据的隐私保护的技术领域,具体涉及一种混合云环境下数据的隐私保护方法。
背景技术
如今,隐私保护的数据发布技术已经涌现出许多里程碑式的研究成果,这些方案大多是针对结构化数据设计的,而大数据的数据结构多样,不仅包括传统的结构化数据,还包括半结构化数据(如交易数据、用户网页浏览记录等)、非结构化数据(如图片、音频、视频文件等),已有针对结构化数据的隐私保护方案是否能够直接迁移到针对大数据的隐私保护场景,现已成为学界讨论的热点。
这类数据具有维度高、数据稀疏的特点,对其进行隐私保护无法直接照搬针对结构化数据所设计的隐私保护方案。以k-匿名类准则为例,首先,需将待匿名的数据集按属性划分为信息属性和隐私/敏感属性,以此为基础,其核心思想是割裂从信息属性值到敏感属性值的高概率映射关系;为此,k-匿名准则以信息属性集作为论域,将数据集划分为若干等价类,通过属性值泛化、记录加噪等方式要求每一个等价类中至少存在k条记录;l-多样性准则进而要求每个信息等价类中所含记录对应的敏感属性至少包含l个不同的值;在此基础上,t-贴近性考虑了敏感属性的分布问题,以t作为“相近程度”的距离度量,要求每个等价类中敏感属性值的分布与整体大数据中敏感属性值的分布t-相近。然而,在集值大数据应用场景中,这样的数据隐私保护方案往往难以实施。例如,在交易数据中,每条记录代表一个用户的一次购物记录,包含若干购买的商品。首先,由于用户购买需求的差异化,单从商品本身看,很难对其作二元划分<普通商品,敏感商品>;其次,由于数据属性维度的爆炸型增长,属性之间的推理映射关系错综复杂;第三,由于记录在各个属性上的映射分布稀疏,导致记录等价类的数量激增,若要实现k-匿名,将导致加入的噪声量也极具增多,从而令数据的可用性严重恶化。
发明内容
本发明的目的在于:针对现有技术的不足,提供一种混合云环境下数据的隐私保护方法,能够减少信息损失,提高算法的执行效率,从而提高数据的隐私保护的可行性和实用性。
为了实现上述目的,本发明采用如下技术方案:
一种混合云环境下数据的隐私保护方法,包括如下步骤:
步骤一、将DaaS承载平台作为混合云,根据高维稀疏数据的特征及数据发布模式,分析引入云平台后数据隐私泄露的潜在风险;
步骤二、在匿名分割策略的基础上,通过贪心策略,分析数据可用性最大化的约束场景;
步骤三、利用交互型差分隐私保护的统计搜索,分析加噪对数据可用性的影响;
步骤四、针对并行化匿名分割造成的数据误分割,通过共享聚合簇,减小保留在私有云上的数据量。
作为本发明所述的一种混合云环境下数据的隐私保护方法的一种改进,所述步骤一中,所述混合云包括公有云和私有云。
作为本发明所述的一种混合云环境下数据的隐私保护方法的一种改进,所述步骤二中,所述匿名分割策略包括:
将数据属性作为内涵,并将含有的记录作为外延的数据索引结构,通过识别并割裂概念内涵集中隐含的准标识符,使得攻击者无法以额定的概率推测出数据中隐含的个体数据隐私信息。
作为本发明所述的一种混合云环境下数据的隐私保护方法的一种改进,所述步骤二中,所述贪心策略包括:
步骤1)将所有的概念按其内涵域的维度降序排列,并选择列首概念作为待划分的目标;
步骤2)用目标概念对剩余概念实施概念覆盖操作,以此消除冗余的概念;
步骤3)将所得剩余概念集中的所有概念逐一被目标概念实施约简操作,消除候选概念,集中将被目标概念划分出去的记录项;
步骤4)重复执行步骤1),直至概念集为空;
步骤5)将数据簇中剩余的数据打包成一个私有数据块。
作为本发明所述的一种混合云环境下数据的隐私保护方法的一种改进,所述步骤三中,所述交互型差分隐私采用拉普拉斯机制、指数机制或高斯机制。
作为本发明所述的一种混合云环境下数据的隐私保护方法的一种改进,所述步骤三中,所述统计搜索采用计数查询、线性查询或批量线性查询。
作为本发明所述的一种混合云环境下数据的隐私保护方法的一种改进,所述步骤三中,所述批量线性查询包括:
同时提交的由m个线性搜索构成的搜索任务集合;
搜索任务集,由具有m行,n列的加权矩阵W表示,W中任意元素wij为关于记录项tj的线性查询Qi的第j项权重系数,批量线性搜索Q(E)可形式化为
Figure BDA0002271761570000031
作为本发明所述的一种混合云环境下数据的隐私保护方法的一种,进,所述步骤三中,分析所述加噪对数据可用性的影响,包括:
将视每个记录项为单元对象进行加噪,以满足α-差分隐私;
将查询项Q(tj)的敏感度为Δsj,则查询Q(E)的全局敏感度为Δs=maxji|wij|Δsj,即各搜索项的加权和的最大值。满足差分隐私的附加噪声的均方误差度量为
Figure BDA0002271761570000041
作为本发明所述的一种混合云环境下数据的隐私保护方法的一种改进,所述步骤三中,分析所述加噪对数据可用性的影响,包括:
将每个查询为单元对象进行加噪,以满足α-差分隐私。
将查询项Q(tj)的敏感度为Δsj,由于所有的子查询都是线性的,查询Q(E)的全局敏感度为Δs=∑ijwijΔsj,相应的,满足差分隐私的附加噪声的均方误差度量为
Figure BDA0002271761570000042
作为本发明所述的一种混合云环境下数据的隐私保护方法的一种改进,所述步骤四中,所述共享聚合簇包括
聚焦私有云上的数据块,从叶子节点沿着划分树向上逐层聚集直到目标记录簇满足设定的匿名阈值,或该层节点的其它节点都不包含该目标记录项为止。
本发明的有益效果在于,本发明包括如下步骤,步骤一、将DaaS承载平台作为混合云,根据高维稀疏数据的特征及数据发布模式,分析引入云平台后数据隐私泄露的潜在风险;步骤二、在匿名分割策略的基础上,通过贪心策略,分析数据可用性最大化的约束场景;步骤三、利用交互型差分隐私保护的统计搜索,分析加噪对数据可用性的影响;步骤四、针对并行化匿名分割造成的数据误分割,通过共享聚合簇,减小保留在私有云上的数据量。本发明能够减少信息损失,提高算法的执行效率,从而提高数据的隐私保护的可行性和实用性。
附图说明
图1为本发明的流程示意图。
具体实施方式
如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语,故应解释成“包含但不限定于”。“大致”是指在可接受的误差范围内,本领域技术人员能够在一定误差范围内解决技术问题,基本达到技术效果。
在本发明的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、水平”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
以下结合附图对本发明作进一步详细说明,但不作为对本发明的限定。
如图1所示,一种混合云环境下数据的隐私保护方法,包括如下步骤:
步骤一、将DaaS承载平台作为混合云,根据高维稀疏数据的特征及数据发布模式,分析引入云平台后数据隐私泄露的潜在风险;
步骤二、在匿名分割策略的基础上,通过贪心策略,分析数据可用性最大化的约束场景;
步骤三、利用交互型差分隐私保护的统计搜索,分析加噪对数据可用性的影响;
步骤四、针对并行化匿名分割造成的数据误分割,通过共享聚合簇,减小保留在私有云上的数据量。
需要说明的是:以混合云为DaaS的承载平台,首先,从高维稀疏大数据自身的特征及新型的数据发布模式入手,分析引入云平台后数据隐私泄露的潜在风险,引入数据组织结构——概念,提出面向集值数据的匿名分割策略,接着,通过概念覆盖、约简、扩展等操作,在基本匿名分割策略的基础上提出进一步的改进方案,分析了基于贪心策略实现数据可用性最大化的约束场景,并通过引入概念权重指标,提出一个数据匿名分割的启发式算法;在此基础之上,实现基于交互型差分隐私保护的统计搜索,分析了两类加噪实现方案对数据可用性的影响;最后,针对并行化匿名分割可能造成的数据误分割现象,提出基于共享聚合簇的解决方案,进一步减小保留在私有云上的数据量。
优选的,步骤一中,混合云包括公有云和私有云。公共云拥有大量的存储和计算资源,并以“按需配置”的方式为数据拥有者提供资源租赁服务,在数据查询阶段,公共云接收从私有云发送的数据查询任务,并将结果返回私有云,授权用户,授权用户被授予对特定外包数据集的查询权限,其向私有云提交数据查询,并从私有云直接获取查询结果集。
为了防止未经授权的用户访问数据,数据拥有者在将数据外包之前,需要对其实施数据访问控制策略,假设数据拥有者已经采用适当的策略构建了用户与数据之间的访问映射关系,当授权用户向私有云发送查询请求时,Cocktail会根据数据分布自动映射为一系列子查询,然后,这些子查询根据请求数据的依赖性有序地分配到相应的云平台上。
步骤二中,匿名分割策略包括:
将数据属性作为内涵,并将含有的记录作为外延的数据索引结构,通过识别并割裂概念内涵集中隐含的准标识符,使得攻击者无法以额定的概率推测出数据中隐含的个体数据隐私信息。
优选的,步骤二中,贪心策略包括:
步骤1)将所有的概念按其内涵域的维度降序排列,并选择列首概念作为待划分的目标;
步骤2)用目标概念对剩余概念实施概念覆盖操作,以此消除冗余的概念;
步骤3)将所得剩余概念集中的所有概念逐一被目标概念实施约简操作,消除候选概念,集中将被目标概念划分出去的记录项;
步骤4)重复执行步骤1),直至概念集为空;
步骤5)将数据簇中剩余的数据打包成一个私有数据块。
需要说明的是:首先引入一个数据结构,称为概念,其中,
Figure BDA00022717615700000714
被称为概念的内涵域,|I|表示内涵的维度;
Figure BDA0002271761570000071
称为概念的外延,由包含内涵域I的记录组成,对于给定的集值数据集,其上的概念集
Figure BDA0002271761570000072
可以根据其内涵的维度进行分类,例如,
Figure BDA0002271761570000073
表示内涵域包含i个记录项的概念集,EQI-分割是一种数据垂直分割方案,将其应用于每一个簇,使得目标簇被划分为若干个数据块,这些数据块根据是否满足km-匿名准则被分为共享数据块CPu和私有数据块CPr两类,其中,算法的输入概念集
Figure BDA0002271761570000074
来自基于EQI过滤方案,因此,
Figure BDA0002271761570000075
中任意概念U均满足km-匿名,通过对
Figure BDA0002271761570000076
实施概念涵盖和概念简化操作,获得非覆盖的概念集
Figure BDA0002271761570000077
由性质1可得,
Figure BDA0002271761570000078
因此,CPu中的每个数据块都满足km-匿名。
优选的,步骤三中,交互型差分隐私采用拉普拉斯机制、指数机制或高斯机制。交互型差分隐私模式的定义如下:
给定数据集E和E′,两者仅相差一条记录,给定一个隐私保护机制M,若M在数据集E和E′的任意输出结果
Figure BDA0002271761570000079
满足下式,则M满足α-差分隐私。
Figure BDA00022717615700000710
交互型差分隐私的实现机制有很多,包括拉普拉斯机制、指数机制、高斯机制等。
采用拉普拉斯机制给定目标数据集E及其上的搜索操作
Figure BDA00022717615700000711
若搜索结果M(Q,E)满足下式:
M(Q,E)=Q(E)+Lap(Δs/α),
则称M(Q,E)满足α-差分隐私,其中,拉普拉斯分布的概率密度函数
Figure BDA00022717615700000712
Figure BDA00022717615700000713
λ=Δs/α。Δs为操作Q的全局敏感度,Δs通常使用L1距离来度量。
Figure BDA0002271761570000081
优选的,步骤三中,统计搜索采用计数查询、线性查询或批量线性查询。
计数查询是许多复杂统计查询的基础,针对搜索记录项聚集于一个数据块中的场景,则对于目标数据集E上的计数查询Q,将返回Q(E)+Lap(1/α)以实现α-差分隐私,其中,Q(E)为精确的统计结果,Lap(1/α)为符合拉普拉斯分布的噪声,计数查询的全局敏感度为1,对于跨多个数据块的计数查询,该查询可以划归为由一系列子查询构成的批量线性查询,其中,每一个子查询的目标记录聚集在一个数据块。
线性查询可以看作是由有限个计数查询的线性加权代数和。即,给定权重向量{w1,w2,...,wm},线性查询Q{Q(t1),...,Q(tm)}返回权重向量和计数查询向量之间的内积,
Q(E)=w1Q(t1)+w2Q(t2)+...+wmQ(tm)
添加基于拉普拉斯分布的噪声,相应的符合α-差分隐私机制的搜索结果为
Figure BDA0002271761570000082
批量线性搜索是同时提交的由m个线性搜索构成的搜索任务集合Q={Q1,Q2,...,Qm},搜索任务集Q由具有m行和n列的加权矩阵W表示,W中任意元素wij为关于记录项tj的线性查询Qi的第j项权重系数,批量线性搜索Q(E)可形式化为
Figure BDA0002271761570000083
基于拉普拉斯机制,在批量线性查询中,有两种实现α-差分隐私的解决方案。
方案1.视每个记录项为单元对象进行加噪,以满足α-差分隐私,令查询项Q(tj)的敏感度为Δsj,则查询Q(E)的全局敏感度为Δs=maxji|wij|Δsj,即各搜索项的加权和的最大值,满足差分隐私的附加噪声的均方误差度量为
Figure BDA0002271761570000084
方案2.视每个查询为单元对象进行加噪,以满足α-差分隐私,令查询项Q(tj)的敏感度为Δsj,由于所有的子查询都是线性的,查询Q(E)的全局敏感度为Δs=∑ijwijΔsj,相应的,满足差分隐私的附加噪声的均方误差度量为
Figure BDA0002271761570000091
表1集值数据实例
Figure BDA0002271761570000092
例如,表1展示了一个集值数据实例E(R,T,F),其中R={R1,R2,R3,R4},T={T1,T2,T3,T4}。批量查询Q={Q1,Q2,Q3}如下所示,
Q1=2Q(T1)+Q(T2)+Q(T3)
Q2=Q(T1)+2Q(T3)
Q3=2Q(T2)+2Q(T3)+Q(T4)
使用NoT加噪方案,由于Q(T1)、Q(T2)、Q(T3)和Q(T4)在Q中的全局敏感度分别为{3、3、5、1},因此,批量查询Q满足差分隐私的附加噪声的L2距离为||Lap(Δs/α)||2=50α-2;而使用NoQ加噪方案,{Q1,Q2,Q3}的满足差分隐私的附加噪声的L2距离分别为{12α-2,10α-2,18α-2},因此,批量查询Q满足差分隐私的附加噪声的L2距离为||Lap(Δs/α)||2=40,此外,对于NoQ加噪方案,上述批量查询Q通过引入子查询Q′1=Q(T4)/3+Q(T2)和Q′2=2Q(T4)/3,可等价转化为下式
Q1=Q′1+2Q(T1)+Q(T3)-Q′2/2
Q2=Q(T1)+2Q(T3)
Q3=2Q′1+2Q(T3)+Q′2/2
其中,{Q1,Q2,Q3}的满足差分隐私的附加噪声的L2距离分别为{12.5α-2,10α-2,16.5α-2},因此,||Lap(Δs/α)||2=39。由此可知,对于批量线性查询,由于实现差分隐私的方案差异,可能导致不同的数据可用性。
优选的,步骤四中,共享聚合簇包括
聚焦私有云上的数据块,从叶子节点沿着划分树向上逐层聚集直到目标记录簇满足设定的匿名阈值,或该层节点的其它节点都不包含该目标记录项为止。
需要说明的是:共享聚合块通过联合不同的数据簇进一步提炼联合簇中满足km-匿名条件的记录项,由于用户端通过记录项检索数据,这里根据记录中是否含有目标记录项来构建层状记录项划分树,首先,基于记录项被搜索的频率对记录项按降序排列,然后,依序取记录项作为划分目标,构建逻辑划分,划分树的第1、2、3层所选取的划分目标记录项集分别为T1={a,c},T2={e}和T3={k,t},其中,第1层被逻辑划分为4个分支簇P11(ac),
Figure BDA0002271761570000101
Figure BDA0002271761570000102
每一个叶子节点包含满足该逻辑分支的所有数据块,基于划分树,通过使用自底向上的递归策略生成共享聚合簇。其核心思想如下,聚焦私有云上的数据块,从叶子节点沿着划分树向上逐层聚集直到目标记录簇满足设定的km-匿名阈值,或该层节点的其它兄弟节点都不包含该目标记录项为止。由于共享聚集簇是针对目标记录项沿划分树向上迭代产生的,其生成步骤确保共享聚集簇满足km-匿名准则,而定理3进一步给出所提机制造成误划分的上界。
例如:给定匿名参数对k、m,所提策略导致误划分的上界为
Figure BDA0002271761570000103
其中,q(ti)表示包含记录项ti的记录集合,
Figure BDA0002271761570000104
表示私有块簇集中所含有的记录项集。
对于
Figure BDA0002271761570000105
分以下两种情况进行讨论。情况1)|q(ti)|<k且
Figure BDA0002271761570000106
由于在全总域中含有ti的记录数低于匿名阈值k,因此,该情况不会引发误分割,也即
Figure BDA0002271761570000107
Figure BDA0002271761570000108
情况2)|q(ti)|≥k,这里通过反证法证明该记录项被误分割的上界,假设在任意私有块CPr中含有ti的记录数大于k-1,由于CPr隶属于一个水平分割数据簇,而在该簇中|q(ti)|≥k,则根据EQI-分割策略易知,ti一定存在于一个CPu中,与假设产生矛盾,因此,在每个私有块中含有ti的记录数至多为k-1,又根据共享聚集簇构造规则,若
Figure BDA0002271761570000109
则含有ti的子记录集将以共享聚集簇的形式迁移至公有云,因此,对于私有云中含有ti的记录数至多为k-1,即
Figure BDA00022717615700001010
Figure BDA00022717615700001011
综上得误划分上界为
Figure BDA00022717615700001012
根据上述说明书的揭示和教导,本发明所属领域的技术人员还能够对上述实施方式进行变更和修改。因此,本发明并不局限于上述的具体实施方式,凡是本领域技术人员在本发明的基础上所作出的任何显而易见的改进、替换或变型均属于本发明的保护范围。此外,尽管本说明书中使用了一些特定的术语,但这些术语只是为了方便说明,并不对本发明构成任何限制。

Claims (10)

1.一种混合云环境下数据的隐私保护方法,其特征在于,包括如下步骤:
步骤一、将DaaS承载平台作为混合云,根据高维稀疏数据的特征及数据发布模式,分析引入云平台后数据隐私泄露的潜在风险;
步骤二、在匿名分割策略的基础上,通过贪心策略,分析数据可用性最大化的约束场景;
步骤三、利用交互型差分隐私保护的统计搜索,分析加噪对数据可用性的影响;
步骤四、针对并行化匿名分割造成的数据误分割,通过共享聚合簇,减小保留在私有云上的数据量。
2.如权利要求1所述的一种混合云环境下数据的隐私保护方法,其特征在于:所述步骤一中,所述混合云包括公有云和私有云。
3.如权利要求1所述的一种混合云环境下数据的隐私保护方法,其特征在于,所述步骤二中,所述匿名分割策略包括:
将数据属性作为内涵,并将含有的记录作为外延的数据索引结构,通过识别并割裂概念内涵集中隐含的准标识符,使得攻击者无法以额定的概率推测出数据中隐含的个体数据隐私信息。
4.如权利要求1所述的一种混合云环境下数据的隐私保护方法,其特征在于,所述步骤二中,所述贪心策略包括:
步骤1)将所有的概念按其内涵域的维度降序排列,并选择列首概念作为待划分的目标;
步骤2)用目标概念对剩余概念实施概念覆盖操作,以此消除冗余的概念;
步骤3)将所得剩余概念集中的所有概念逐一被目标概念实施约简操作,消除候选概念,集中将被目标概念划分出去的记录项;
步骤4)重复执行步骤1),直至概念集为空;
步骤5)将数据簇中剩余的数据打包成一个私有数据块。
5.如权利要求1所述的一种混合云环境下数据的隐私保护方法,其特征在于:所述步骤三中,所述交互型差分隐私采用拉普拉斯机制、指数机制或高斯机制。
6.如权利要求5所述的一种混合云环境下数据的隐私保护方法,其特征在于:所述步骤三中,所述统计搜索采用计数查询、线性查询或批量线性查询。
7.如权利要求6所述的一种混合云环境下数据的隐私保护方法,其特征在于,所述步骤三中,所述批量线性查询包括:
同时提交的由m个线性搜索构成的搜索任务集合;
搜索任务集,由具有m行,n列的加权矩阵W表示,W中任意元素wij为关于记录项tj的线性查询Qi的第j项权重系数,批量线性搜索Q(E)可形式化为
Figure FDA0002271761560000021
8.如权利要求7所述的一种混合云环境下数据的隐私保护方法,其特征在于,所述步骤三中,分析所述加噪对数据可用性的影响,包括:
将视每个记录项为单元对象进行加噪,以满足α-差分隐私;
将查询项Q(tj)的敏感度为Δsj,则查询Q(E)的全局敏感度为Δs=maxji|wij|Δsj,即各搜索项的加权和的最大值。满足差分隐私的附加噪声的均方误差度量为
Figure FDA0002271761560000022
9.如权利要求7所述的一种混合云环境下数据的隐私保护方法,其特征在于,所述步骤三中,分析所述加噪对数据可用性的影响,包括:
将每个查询为单元对象进行加噪,以满足α-差分隐私。
将查询项Q(tj)的敏感度为Δsj,由于所有的子查询都是线性的,查询Q(E)的全局敏感度为Δs=∑ijwijΔsj,相应的,满足差分隐私的附加噪声的均方误差度量为
Figure FDA0002271761560000031
10.如权利要求1所述的一种混合云环境下数据的隐私保护方法,其特征在于,所述步骤四中,所述共享聚合簇包括:
聚焦私有云上的数据块,从叶子节点沿着划分树向上逐层聚集直到目标记录簇满足设定的匿名阈值,或该层节点的其它节点都不包含该目标记录项为止。
CN201911107507.6A 2019-11-13 2019-11-13 一种混合云环境下数据的隐私保护方法 Pending CN110866276A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911107507.6A CN110866276A (zh) 2019-11-13 2019-11-13 一种混合云环境下数据的隐私保护方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911107507.6A CN110866276A (zh) 2019-11-13 2019-11-13 一种混合云环境下数据的隐私保护方法

Publications (1)

Publication Number Publication Date
CN110866276A true CN110866276A (zh) 2020-03-06

Family

ID=69653788

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911107507.6A Pending CN110866276A (zh) 2019-11-13 2019-11-13 一种混合云环境下数据的隐私保护方法

Country Status (1)

Country Link
CN (1) CN110866276A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112822004A (zh) * 2021-01-14 2021-05-18 山西财经大学 一种基于信念网络的靶向型隐私保护数据发布方法
CN113094751A (zh) * 2021-04-21 2021-07-09 山东大学 一种个性化隐私数据处理方法、装置、介质及计算机设备
CN114297714A (zh) * 2021-12-30 2022-04-08 电子科技大学广东电子信息工程研究院 一种云环境下数据隐私保护与安全搜索的方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106991335A (zh) * 2017-02-20 2017-07-28 南京邮电大学 一种基于差分隐私保护的数据发布方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106991335A (zh) * 2017-02-20 2017-07-28 南京邮电大学 一种基于差分隐私保护的数据发布方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周志刚: "云环境下数据隐私保护与安全搜索技术研究" *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112822004A (zh) * 2021-01-14 2021-05-18 山西财经大学 一种基于信念网络的靶向型隐私保护数据发布方法
CN113094751A (zh) * 2021-04-21 2021-07-09 山东大学 一种个性化隐私数据处理方法、装置、介质及计算机设备
CN114297714A (zh) * 2021-12-30 2022-04-08 电子科技大学广东电子信息工程研究院 一种云环境下数据隐私保护与安全搜索的方法

Similar Documents

Publication Publication Date Title
US20210311964A1 (en) System and method for load, aggregate and batch calculation in one scan in a multidimensional database environment
US7890541B2 (en) Partition by growth table space
US9479508B2 (en) Efficient indexing and searching of access control listed documents
US8463815B1 (en) System and method for access controls
CN110866276A (zh) 一种混合云环境下数据的隐私保护方法
US20110078143A1 (en) Mechanisms for Privately Sharing Semi-Structured Data
Ye et al. Anonymizing classification data using rough set theory
Deshpande et al. Efficient reverse skyline retrieval with arbitrary non-metric similarity measures
CN109117669B (zh) MapReduce相似连接查询的隐私保护方法及系统
US9111104B2 (en) Entitlements determination via access control lists
US9262486B2 (en) Fuzzy full text search
US11093541B2 (en) Transforming an ontology query to an SQL query
JP5470082B2 (ja) 情報蓄積検索方法及び情報蓄積検索プログラム
CN113468560A (zh) 数据保护方法、装置及服务器
US11968214B2 (en) Efficient retrieval and rendering of access-controlled computer resources
To et al. Differentially private h-tree
US10229186B1 (en) Data set discovery engine comprising relativistic retriever
Li et al. A low cost and un-cancelled laplace noise based differential privacy algorithm for spatial decompositions
US11847121B2 (en) Compound predicate query statement transformation
CN114297711A (zh) 一种基于云端服务器的数据安全保护方法
US20130304738A1 (en) Managing multimedia information using dynamic semantic tables
EP3771992A1 (en) Methods and systems for data ingestion in large-scale databases
Xu et al. A multi‐dimensional index for privacy‐preserving queries in cloud computing
Wu et al. A differentially private random decision tree classifier with high utility
Wang et al. Interactive multiple-user location-based keyword queries on road networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination