CN110874348A

CN110874348A - 一种混合云环境下隐私的差异化数据检索方法

Info

Publication number: CN110874348A
Application number: CN201911106280.3A
Authority: CN
Inventors: 张宏莉; 周志刚; 王星; 于海宁; 张羽; 叶麟; 方滨兴; 吕文娟; 曾浩华
Original assignee: Guangdong Institute Of Electronic And Information Engineering University Of Electronic Science And Technology Of China; Harbin Institute of Technology
Current assignee: Guangdong Institute Of Electronic And Information Engineering University Of Electronic Science And Technology Of China; Harbin Institute of Technology
Priority date: 2019-11-13
Filing date: 2019-11-13
Publication date: 2020-03-10

Abstract

本发明属于大数据的技术领域，具体涉及一种混合云环境下隐私的差异化数据检索方法，包括确定目标关键字，向数据文件输入检索请求，显示数据文件的关键字，度量数据文件的关键字与目标关键字的距离值，通过距离值构建数据检索索引，获得检索结果。本发明不仅同时提高了用户在大数据中的搜索速度和在大数据中信息的传输速度，还扩大了搜索的空间和搜索关键字的语义空间，从而使攻击者不能准确地推断出文件的内容，有效地解决了混合云环境下隐私泄露的问题。

Description

一种混合云环境下隐私的差异化数据检索方法

技术领域

本发明属于大数据的技术领域，具体涉及一种混合云环境下隐私的差异化数据检索方法。

背景技术

混合云融合了公有云和私有云，在混合云的环境下，用户在搜索过程中可能会遇到对非授权数据的推理攻击，使得用户的隐私信息被攻击者所窃取。

目前，常用的隐私保护方式是在发布数据时进行对信息进行k-匿名处理，即对于给定的搜索关键字，所得到的结果视图至少包含了k个数据文件，其中，k个数据文件中包含了k-1个干扰数据文件，使攻击者无法在不解密文件的情况下推测出目标文件的内容。

然而，申请人发现：1)采用k-匿名技术会导致通信产生负面影响，降低了用户在大数据中的搜索速度和在大数据中信息的传输速度，极大地影响网络带宽的有效使用，从而降低了用户的搜索体验；2)采用k-匿名技术不能扩大搜索的空间和搜索关键字的语义空间，攻击者能够推断出搜索关键字和数据文件之间的关联程度，获得对结果更为清晰的轮廓，从而导致文件的内容信息泄露。

发明内容

本发明的目的在于：针对现有技术的不足，提供一种混合云环境下隐私的差异化数据检索方法，不仅同时提高了用户在大数据中的搜索速度和在大数据中信息的传输速度，还扩大了搜索的空间和搜索关键字的语义空间，从而使攻击者不能准确地推断出文件的内容，有效地解决了混合云环境下隐私泄露的问题。

为了实现上述目的，本发明采用如下技术方案：

一种混合云环境下隐私的差异化数据检索方法，包括：

步骤一：确定目标关键字，向数据文件输入检索请求，显示所述数据文件的关键字，度量所述数据文件的关键字与所述目标关键字的距离值；

步骤二：通过所述距离值构建数据检索索引，获得检索结果。

进一步地，所述步骤一中，所述距离值的度量过程包括：分别排列所述数据文件的关键字的字符与所述目标关键字的字符，记录两者相同和/或相异字符的数量。

进一步地，还可以根据数据文件的关键字和目标关键字之间的语义表达的覆盖、隶属、泛化、具象等偏序关系实现数据文件的关键字和目标关键字的全语义距离测量。

进一步地，所述步骤二中，还包括：判断所述距离值是否满足预设的要求，若满足所述预设的要求，构建所述数据文件与所述目标关键字的相关性参数，以所述相关性参数构建数据检索索引。

进一步地，判断所述距离值的过程包括：设定预设距离值为L，所述数据文件的关键字与所述目标关键字的距离值为R，若R≤L，则满足预设的要求。

进一步地，所述数据检索索引的构建过程包括：对若干个所述数据文件的关键字生成关键字集合，构建所述关键字集合和若干个所述数据文件的映射表，以所述映射表构建表格索引或粒度索引。

进一步地，所述表格索引的构建过程包括：设定所述映射表的粒度下限，比较所述粒度下限与若干个所述相关性参数的大小，构建表格概念集，约简所述表格概念集得到所述表格索引。

进一步地，所述表格概念集的构建过程包括：若所述相关性参数大于或等于所述粒度下限，提取所述相关性参数所对应的数据文件，若干个被提取的所述数据文件构成所述表格概念集。

进一步地，所述表格概念集的约简过程包括：当提取的若干个所述数据文件均拥有相同的相关性参数，合并所述相关性参数相同的数据文件。

进一步地，所述粒度索引的构建过程包括：设定所述映射表的粒度阈值，提取部分的所述数据文件，计算所述数据文件与所述数据文件的关键字之间的粒度域，比较所述粒度阈值与若干个所述粒度域的大小，构建粒度概念集，合并所述粒度概念集得到所述粒度索引。

进一步地，所述粒度概念集的构建过程包括：若所述粒度域小于所述粒度阈值，剔除所述粒度域所对应的数据文件，剩下的若干个所述数据文件构成所述粒度概念集。

本发明的有益效果在于：本发明通过构建数据文件的关键字与目标关键字之间的近似关系，不仅同时提高了用户在大数据中的搜索速度和在大数据中信息的传输速度，还对若干个数据文件的关键字生成关键字集合，从而扩大了搜索关键字的语义空间，并对关键字集合和若干个数据文件构建映射表，从而扩大了搜索的空间，使攻击者不能准确地推断出搜索关键字和数据文件之间的关联程度，从而使其不能准确地推断出文件的内容，有效地解决了混合云环境下隐私泄露的问题。

附图说明

图1为本发明实施例1的检索流程图。

具体实施方式

如在说明书及权利要求当中使用了某些词汇来指称特定组件，本领域技术人员应可理解，制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语，故应解释成“包含但不限定于”。“大致”是指在可接受的误差范围内，本领域技术人员能够在一定误差范围内解决技术问题，基本达到技术效果。

在本发明的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、水平”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

以下结合附图和具体实施例对本发明作进一步详细说明，但不作为对本发明的限定。

实施例1

如图1所示，一种混合云环境下隐私的差异化数据检索方法，包括：

步骤一：确定目标关键字，向数据文件输入检索请求，显示数据文件的关键字，将目标关键字设为k_i，将数据文件的关键字设为k_n，度量数据文件的关键字k_n与目标关键字k_i的距离值，分别排列数据文件的关键字k_n的字符与目标关键字k_i的字符，记录两者相异字符的数量，以两者相异字符的数量值为数据文件的关键字k_n与目标关键字k_i的距离值，当云平台具有若干个不同的数据文件时，即使输入相同的检索请求，最终也会得到若干个不同的距离值；

步骤二：根据若干个不同的距离值，将若干个距离值按一定的数理逻辑(如：大小关系)进行排列，构建与每个距离值相对应的数据检索索引，使得若干个数据检索索引也能按一定的逻辑排列，排列后的若干个数据检索索引就是差异化数据的检索结果。

实施例2

本实施例与实施例1不同的是，步骤一中，记录数据文件的关键字k_n与目标关键字k_i两者相同字符的数量，以数据文件的关键字k_n与目标关键字k_i两者相同字符的数量值为数据文件的关键字k_n与目标关键字k_i的海明距离；步骤二中：设定预设距离值为L，数据文件的关键字k_n与目标关键字k_i的海明距离的距离值为R，若R≤L，距离值R满足预设的要求，以R(k_i，k_n)表示两个关键字之间的近似关系，两个关键字形成近似关系后，将数据文件设为W，构建数据文件W与目标关键字k_i的相关性参数u，以相关性参数u构建数据检索索引，通过数据检索索引获得检索结果。

其中，相关性参数u所表示的含义为：用户能够获得大于相关性参数u的查询权限粒度来获得信息，能够保证即便攻击者拥有一个查询所得到的所有的密文数据及部分解密密钥，也无法以大于相关性参数u的概率推测出其余加密文件的精确内容。相关性参数u即用户的查询权限粒度是通过数据文件W与目标关键字k_i的模糊关系获得。

优选地，数据检索索引的构建过程包括：若干个数据文件W构成数据文件集合Wn＝{w₁，w₂，w₃，…，w_n}，w_i(i≤n)代表其中的一个数据文件，对若干个数据文件W的关键字k_n生成关键字集合K＝{k₁，k₂，k₃，…，k_n}，构建关键字集合K和若干个数据文件W的映射表，以映射表构建表格索引。

其中，映射表所表示的含义为：数据文件集合Wn＝{w₁，w₂，w₃，…，w_n}中的每个数据文件与关键字集合K＝{k₁，k₂，k₃，…，k_n}中的每个关键字对应形成映射关系F：W×K→[0,1]。

优选地，表格索引的构建过程包括：对若干个数据文件W进行检索从而形成了若干个相关性参数，设定映射表的粒度下限，比较粒度下限与若干个相关性参数的大小，构建表格概念集，约简表格概念集得到表格索引。

其中，映射表的粒度下限所表示的含义为：在若干个数据文件W及其关键字k_n对应形成的若干个映射关系中，以粒度下限来表示在每个映射关系中实际能够搜索到的信息的权限粒度。

优选地，表格概念集的构建过程包括：若相关性参数大于或等于粒度下限，即查询权限粒度大于或等于实际能够搜索到的信息的权限粒度，提取该相关性参数所对应的数据文件，并使这些被提取出来的若干个数据文件构成表格概念集。

优选地，表格概念集的约简过程包括：当提取的若干个数据文件均拥有相同的相关性参数，合并相关性参数相同的数据文件，得到表格索引，所得到的表格索引是基于目标关键字和数据文件之间的关系生成的多级索引，所得到的表格索引就是差异化数据的检索结果。

如果攻击者渴望获知其中一个数据文件w_x(w_x∈Wn)的内容，由于攻击者没有对应该数据文件的解密密钥，一般情况下，攻击者无法准确地搜索出该数据文件。但是，该攻击者仍然可以对云平台发送一组关键字查询Q＝{q₁，q₂，q₃，…，q_n}，从而得到n组检索文件集合，再通过剔除干扰文件，从而获知目标文件w_x的核心内容。其本质是通过对一组关键字的搜索来锁定某个特定的目标文件，也就是说，这组关键字即为该目标文件的准标识符。对于攻击者的攻击进行防御的策略为：识别出该准标识符，然后将其割裂，从而能够有效地抵抗攻击者的查询行为。

上述防御的具体方式包括：在外包数据文件之前，由数据拥有者构造一张待上传文件集合的映射表，并将其上传至私有云服务器，其中，映射表中每个条目代表一个数据文件，包含该文件的识别号及所含的关键字的序列化的数值信息，当私有云服务器接收到该映射表后，私有云服务器构建相应的辨识矩阵，从而有效地识别出攻击者的准标识符，并阻断攻击者的推理路径。

实施例3

本实施例与实施例2不同的是，以映射表构建粒度索引。

粒度索引的构建过程包括：对若干个数据文件W进行检索，设定映射表的粒度阈值，提取部分的数据文件，计算数据文件与数据文件的关键字之间的粒度域，比较粒度阈值与若干个粒度域的大小，构建粒度概念集，合并粒度概念集得到粒度索引。

其中，映射表的粒度阈值所表示的含义为：在若干个数据文件W及其关键字k_n对应形成的若干个映射关系中，以粒度阈值来表示在每个映射关系中搜索到的信息应该达到的权限粒度。

数据文件与数据文件的关键字之间的粒度域所表示的含义为：基于粗糙集理论，数据文件与数据文件的关键字之间的映射粒度。

优选地，粒度概念集的构建过程包括：若粒度域小于粒度阈值，即数据文件与数据文件的关键字之间的映射粒度小于每个映射关系中搜索到的信息应该达到的权限粒度，剔除该粒度域所对应的数据文件，剩下的若干个数据文件构成粒度概念集，当剩下的若干个数据文件均拥有相同的粒度域，合并粒度域相同的数据文件，得到粒度索引，所得到的粒度索引是基于目标关键字和数据文件之间的关系生成的多级索引，所得到的粒度索引就是差异化数据的检索结果。

实施例4

本实施例与实施例2不同的是，找出映射表中所有高于粒度下限的单元内涵概念，扫描所有映射表中的条目，以标记每个数据文件中满足条件的关键字，其中，若相应关键字与目标关键字的相关度等于或大于粒度下限，则将该数据文件作为外延纳入以目标关键字为单元内涵的概念中，同时将该文件的相关度与当前概念粒度域的上限进行比较，若相应关键字与目标关键字的相关度大于当前概念粒度域的上限，则将概念粒度域的上限修改为相应关键字与目标关键字的相关度。

根据(i-1)元内涵概念构造i元内涵概念，如果任意(i-1)元内涵概念所对应的粒度上限低于粒度下限，那么包含(i-1)元内涵概念的对应i元内涵概念的粒度上限也必定低于粒度下限，因此，可以对(i-1)元内涵概念作笛卡尔积操作，构建i元概念集，基于i元概念集可以获得差异化数据的检索结果。

经过仿真测试发现：上述实施例在混合云环境下均能够提高用户在大数据中的搜索速度和在大数据中信息的传输速度，还扩大了搜索的空间和搜索关键字的语义空间，从而使攻击者不能准确地推断出文件的内容，有效地解决了混合云环境下隐私泄露的问题。

根据上述说明书的揭示和教导，本发明所属领域的技术人员还能够对上述实施方式进行变更和修改。因此，本发明并不局限于上述的具体实施方式，凡是本领域技术人员在本发明的基础上所作出的任何显而易见的改进、替换或变型均属于本发明的保护范围。此外，尽管本说明书中使用了一些特定的术语，但这些术语只是为了方便说明，并不对本发明构成任何限制。

Claims

1.一种混合云环境下隐私的差异化数据检索方法，其特征在于，包括：

2.如权利要求1所述的混合云环境下隐私的差异化数据检索方法，其特征在于，所述步骤一中，所述距离值的度量过程包括：分别排列所述数据文件的关键字的字符与所述目标关键字的字符，记录两者相同和/或相异字符的数量。

3.如权利要求1所述的混合云环境下隐私的差异化数据检索方法，其特征在于，所述步骤二中，还包括：判断所述距离值是否满足预设的要求，若满足所述预设的要求，构建所述数据文件与所述目标关键字的相关性参数，以所述相关性参数构建数据检索索引。

4.如权利要求3所述的混合云环境下隐私的差异化数据检索方法，其特征在于，判断所述距离值的过程包括：设定预设距离值为L，所述数据文件的关键字与所述目标关键字的距离值为R，若R≤L，则满足预设的要求。

5.如权利要求3所述的混合云环境下隐私的差异化数据检索方法，其特征在于，所述数据检索索引的构建过程包括：对若干个所述数据文件的关键字生成关键字集合，构建所述关键字集合和若干个所述数据文件的映射表，以所述映射表构建表格索引或粒度索引。

6.如权利要求5所述的混合云环境下隐私的差异化数据检索方法，其特征在于，所述表格索引的构建过程包括：设定所述映射表的粒度下限，比较所述粒度下限与若干个所述相关性参数的大小，构建表格概念集，约简所述表格概念集得到所述表格索引。

7.如权利要求6所述的混合云环境下隐私的差异化数据检索方法，其特征在于，所述表格概念集的构建过程包括：若所述相关性参数大于或等于所述粒度下限，提取所述相关性参数所对应的数据文件，若干个被提取的所述数据文件构成所述表格概念集。

8.如权利要求7所述的混合云环境下隐私的差异化数据检索方法，其特征在于，所述表格概念集的约简过程包括：当提取的若干个所述数据文件均拥有相同的相关性参数，合并所述相关性参数相同的数据文件。

9.如权利要求5所述的混合云环境下隐私的差异化数据检索方法，其特征在于，所述粒度索引的构建过程包括：设定所述映射表的粒度阈值，提取部分的所述数据文件，计算所述数据文件与所述数据文件的关键字之间的粒度域，比较所述粒度阈值与若干个所述粒度域的大小，构建粒度概念集，合并所述粒度概念集得到所述粒度索引。

10.如权利要求9所述的混合云环境下隐私的差异化数据检索方法，其特征在于，所述粒度概念集的构建过程包括：若所述粒度域小于所述粒度阈值，剔除所述粒度域所对应的数据文件，剩下的若干个所述数据文件构成所述粒度概念集。