CN112597268A

CN112597268A - 一种面向云环境密文检索效率优化的检索过滤阈值选取方法

Info

Publication number: CN112597268A
Application number: CN202011525642.5A
Authority: CN
Inventors: 戴华; 姜莹莹; 陈之秀; 杨天畅; 周倩; 杨庚; 黄海平
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2021-04-02
Anticipated expiration: 2040-12-22
Also published as: CN112597268B

Abstract

本发明公开一种面向云环境密文检索效率优化的检索过滤阈值选取方法，包括：第一阶段为构建关键词区块：利用关键词和文档之间的相关度量化方法，计算每一个文档和每一个关键词的单关键词‑单文档相关度得分；对该相关度得分进行降序排列，并进行等量划分，生成全局区块表和对应的下边界数组；再利用全局区块表和下边界数组信息，为每个关键词构建相应的关键词区块表；第二阶段为确定检索过滤阈值：在执行密文检索时，根据检索关键词及其对应的关键词区块表信息，计算并确定检索过滤阈值。本发明提供的检索过滤阈值选取方法，适用于面向云环境的基于树形结构索引的密文检索应用场景，且能够在不影响检索结果精度的情况下，提升检索效率。

Description

一种面向云环境密文检索效率优化的检索过滤阈值选取方法

技术领域

本发明属于信息检索领域，具体的说是涉及一种面向云环境密文检索效率优化的检索过滤阈值选取方法。

背景技术

在信息爆炸的时代，云计算以其近乎无尽的存储空间和计算能力，吸引着资源受限的用户将计算任务外包给云服务器，以便于享受高质量数据服务，又能大大降低本地管理开销。然而，数据外包带来严重的隐私安全问题。实现云环境中隐私保护最直接的方法是将数据加密后再进行外包，但这种方式会严重影响数据的可用性，例如在信息检索领域，现有的多关键词检索主要是面向明文数据的，无法直接应用到密文检索场景中。而将所有加密数据从云端下载到本地进行解密，显然是一种不切实际且浪费资源的处理方法。因此，许多可搜索加密方法被提出，能够保证数据的机密性，同时能在云环境中对密文数据进行高效检索。

近年来，研究者提出的解决方案主要采用基于树形结构索引的加密文档排序检索方法，该类方法通过构建结构简单且自身安全的树形结构索引，通过深度优先搜索检索出最相关的若干文档。例如，论文“Xia Z,Wang X,Sun X,et al.A secure and dynamicmulti-keyword ranked search scheme over encrypted cloud data.IEEEtransactions onparallel and distributed systems,2015”使用了二叉平衡树索引、论文“Chen C,Zhu X,Shen P,et al.An efficient privacy-preserving ranked keywordsearch method.IEEE Transactions on Parallel and Distributed Systems,2015”使用了层次聚类二叉树索引、论文“Dai H,Dai X,Yi X,et al.Semantic-aware multi-keywordranked search scheme over encrypted cloud data.Journal ofNetwork andComputerApplications,2019”使用了蕴含语义特征信息的完全二叉树索引等，该类方法均使用检索过滤阈值提高检索效率。在执行检索时，初始检索过滤阈值均设置为0，然后在深度优先搜索过程中通过访问代表文档的节点，从而对检索过滤阈值进行非递减更新。同时，在检索过程中，对于深度优先访问的索引树中的节点，若该节点满足检索过滤阈值的限制要求，则继续执行针对该节点的深度优先搜索；否则，以该节点为根的子树被剪枝。利用上述基于阈值控制的剪枝方法，能够过滤掉不满足要求的子树。

然而，由于现有的基于树形索引的检索方法中的初始检索过滤阈值均设置为0，在检索初期，该阈值的剪枝过滤作用不明显，这在一定程度上限制了检索的高效性。如果能够在检索启动时，选取合适的检索过滤阈值，就能进一步提高深度优先搜索过程中的剪枝效率。本发明正是围绕“如何选取合适的检索过滤阈值”这一问题，提出一种能够提升密文检索效率的检索过滤阈值选取方法。

发明内容

针对现有方法在阈值选取上的不足，本发明提出一种面向云环境密文检索效率优化的检索过滤阈值选取方法，能在不影响检索结果精度的情况下，提升检索效率。

为了达到上述目的，本发明是通过以下技术方案实现的：

本发明是一种面向云环境密文检索效率优化的检索过滤阈值选取方法，包括：构建关键词区块；确定检索过滤阈值；

为解决上述技术问题，本发明所述构建关键词区块包括：

从文档集合D中提取关键词，生成关键词集合W；

利用关键词和文档之间的相关度量化方法，依次对D中的每一个文档d_j，以及d_j中每一个关键词w_i，计算w_i和d_j之间的单关键词-单文档相关度得分score(w_i，d_j)，生成的相关度得分集合记为

根据相关度得分集合S和给定的划分因子τ，生成全局区块表GBT和对应的下边界数组outline；

根据全局区块表GBT和下边界数组outline，对W中的所有关键词，构建相应的关键词区块表集合KBT＝{KBT_i|w_i∈W}，其中KBT_i为w_i对应的关键词区块表。

为解决上述技术问题，本发明所述确定检索过滤阈值包括：

假设用户提交的检索关键词集合为Q，检索需返回的文档数量k。依次计算Q各检索关键词对应的前i个关键词区块中的文档标记集合的并集U_i，

U_i的计算方法如下：

若U_i满足如下两个条件中的任一个，则outline[i]即为最终的检索过滤阈值。

条件1：i＝1∧|U_i|>＝k；

条件2：i>1∧|U_i|>＝k∧|U_i-1|<k。

作为本发明所述方法的改进，所述根据相关度得分集合S和给定的划分因子τ，生成全局区块表GBT和对应的下边界数组outline，包括如下步骤：

对S中相关度得分进行降序排列，生成相关度得分降序序列Ω；

根据划分因子τ，对Ω进行等量划分，生成包含

个区块的全局区块表

其中前

个区块均包含τ个相关度得分，最后一个区块包含的相关度得分数量小于等于τ，并且对于任意相邻的两个区块GBlock_i和GBlock_i+1而言，GBlock_i中的任一相关度得分均大于GBlock_i+1中的任一相关度得分；

针对GBT中的每一个区块GBlock_i，

计算该区块对应的下边界outline[i]，计算方法如下：

其中rand(x,y)表示取介于x和y之间的随机值，min(X)表示取集合X中的最小值，max(X)表示取X中的最大值。最终，与GBT相对应的下边界数组outline构造完成。

本发明进一步改进在于，所述根据全局区块表GBT和下边界数组outline，对W中的所有关键词，构建相应的关键词区块表集合KBT＝{KBT_i|w_i∈W}，其中KBT_i为w_i对应的关键词区块表包括：

对W中的每一个关键词w_i，构建w_i对应的关键词区块表

其中

是用于存储文档标签的集合，其初始化状态为空；

对于文档集合D中包含w_i的每一个文档d_j，设其对应的唯一标签为tag_j，计算w_i和d_j的相关度得分score(w_i,d_j)；若score(w_i,d_j)>outline[1]成立，则将tag_j加入关键词区块

若outline[h-1]>score(w_i,d_j)>outline[h]且h>1成立，则将tag_j加入关键词区块

当包含w_i的每一个文档都处理完毕时，与w_i对应的关键词区块表KBT_i构造完成；

当W中的每一个关键词w_i均按照步骤(1d1)和步骤(1d2)处理完毕，关键词区块表集合KBT＝{KBT_i|w_i∈W}构造完成。

与现有技术相比，本发明的有益效果：

1、利用本发明的检索阈值选取方法，能够显著提高检索效率；

2、本发明利用区块划分确定检索过滤阈值，此检索过滤阈值不会影响每一个文档和检索关键词之间的相关度得分，且检索过滤阈值小于候选结果集中最后一个文档的相关度得分，不会漏检；利用本发明的检索过滤阈值进行检索，不会以降低准确度为代价提高检索效率，保证了检索结果的精确性；

3、本发明适用于面向云环境的基于树形结构索引的密文检索应用场景，不依赖于特定的关键词和文档之间的相关度量化方法，基于词频的相关度度量方法(TF-IDF、BM25)、基于语义的相关度度量方法(Query Likelihood Model)等均可使用，具有通用性特点。

附图说明

图1是本发明检索过滤阈值选取的流程图。

图2是本发明全局区块表和关键词区块表的对应关系示意图。

图3是本发明检索过滤阈值为0的检索过程示例图。

图4是本发明检索过滤阈值为1.6的检索过程示例图。

具体实施方式

以下将以图式说明本发明的实施方式，为明确说明起见，许多实务上的细节将在以下叙述中一并说明。然而，应了解到，这些实务上的细节不应用以限制本发明。也就是说，在本发明的部分实施方式中，这些实务上的细节是非必要的。

为了方便描述，现对相关符号作如下定义：

文档集合D＝{d₁,d₂,…,d_n}，D中各文档包含的词构成关键词集合W＝{w₁,w₂,…,w_m}，Q为用户提交的检索关键词集合，k为检索需返回的文档数量。score(w_i，d_j)表示关键词w_i和D中每个文档d_j之间的单关键词-单文档相关度得分。GBT是全局区块表，outline是全局区块表对应的下边界数组，KBT是关键词区块表集合，KBT_i是w_i的关键词区块表。

图1是本发明的流程图，描述了面向云环境密文检索效率优化的检索过滤阈值选取的过程。利用关键词和文档之间的相关度量化方法，计算每一个关键词和每一个文档之间的单关键词-单文档相关度得分，对该相关度得分进行降序排列，并进行等量划分，生成全局区块表和对应的下边界数组，然后利用全局区块表和下边界数组信息，为每个关键词构建相应的关键词区块表；最终在执行检索时，根据检索指令及检索关键词对应的关键词区块表信息，计算并确定检索过滤阈值。

一种面向云环境密文检索效率优化的检索过滤阈值选取方法，主要包括以下两个阶段：

1、构建关键词区块阶段，包括以下步骤：

(1)从文档集合D中提取关键词，生成关键词集合W；

(2)利用关键词和文档之间的相关度量化方法，如TF-IDF等，依次对D中的每一个文档d_j，以及d_j中每一个关键词w_i，计算w_i和d_j之间的单关键词-单文档相关度得分score(w_i，d_j)，生成的相关度得分集合记为

(3)根据相关度得分集合S和给定的划分因子τ，生成全局区块表GBT和对应的下边界数组outline，具体处理过程如下：

①对S中相关度得分进行降序排列，生成相关度得分降序序列Ω；

②根据划分因子τ，对Ω进行等量划分，生成包含

个区块的全局区块表

其中前

③针对GBT中的每一个区块GBlock_i，

计算该区块对应的下边界outline[i]，计算方法如下：

其中rand(x,y)表示取介于x和y之间的随机值，min(X)表示取集合X中的最小值，max(X)表示取X中的最大值。最终，与GBT相对应的下边界数组outline构造完成；

(4)根据全局区块表GBT和下边界数组outline，对W中的所有关键词，构建相应的关键词区块表集合KBT＝{KBT_i|w_i∈W}，其中KBT_i为w_i对应的关键词区块表，GBT和KBT具有对应关系，如图2所示，具体处理过程如下：

①对W中的每一个关键词w_i，构建w_i对应的关键词区块表

其中

是用于存储文档标签的集合，其初始化状态为空；

②对于文档集合D中包含w_i的每一个文档d_j，设其对应的唯一标签为tag_j，计算w_i和d_j的相关度得分score(w_i,d_j)；若score(w_i,d_j)>outline[1]成立，则将tag_j加入关键词区块

③当W中的每一个关键词w_i均按照步骤①和步骤②处理完毕，关键词区块表集合KBT＝{KBT_i|w_i∈W}构造完成。

2、确定检索过滤阈值阶段，包括以下步骤：

假设用户提交的检索关键词集合为Q，检索需返回的文档数量k。依次计算Q中各检索关键词对应的前i个关键词区块中的文档标记集合的并集U_i，

U_i的计算方法如下：

条件1：i＝1∧|U_i|>＝k

条件2：i>1∧|U_i|>＝k∧|U_i-1|<k。

以论文“Xia Z,Wang X,Sun X,et al.A secure and dynamic multi-keywordranked search scheme over encrypted cloud data.IEEE transactions on paralleland distributed systems,2015”中所述的方法为例，说明本发明在提升检索效率上的显著提升效果，设有文档集合D＝{d_i|i＝1,…,6}，D中提取的关键词集合为W＝{w₁,w₂,w₃,w₄}，检索向量Q为(1,0,1,1)，检索需返回的2个最相关文档。图3是检索过滤阈值为0的检索过程，共需访问9个节点：r、r₁₁、r₂₁、d₁、d₂、r₂₂、r₁₂、d₆和d₅，只有r₁₁的右子树r₂₂被剪枝。图4是利用本发明选取的检索过滤阈值为1.6的检索过程，只需访问7个节点：r、r₁₁、r₂₁、r₂₂、r₁₂、d₆和d₅，其中r₁₁的左子树r₂₁和右子树r₂₂均被剪枝。根据该检索示例的对比可知，利用本发明的检索阈值选取方法，检索效率能够提升约22.2％，检索效率显著提升。

以上所述仅为本发明的实施方式而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理的内所作的任何修改、等同替换、改进等，均应包括在本发明的权利要求范围之内。

Claims

1.一种面向云环境密文检索效率优化的检索过滤阈值选取方法，包括：构建关键词区块；确定检索过滤阈值；其特征在于，

所述构建关键词区块包括：

从文档集合D中提取关键词，生成关键词集合W；利用关键词和文档之间的相关度量化方法，依次对D中的每一个文档d_j，以及d_j中每一个关键词w_i，计算w_i和d_j之间的单关键词-单文档相关度得分score(w_i，d_j)，生成的相关度得分集合记为

根据相关度得分集合S和给定的划分因子τ，生成全局区块表GBT和对应的下边界数组outline；根据全局区块表GBT和下边界数组outline，对W中的所有关键词，构建相应的关键词区块表集合KBT＝{KBT_i|w_i∈W}，其中KBT_i为w_i对应的关键词区块表；

所述确定检索过滤阈值包括：

假设用户提交的检索关键词集合为Q，检索需返回的文档数量k；依次计算Q各检索关键词对应的前i个关键词区块中的文档标记集合的并集U_i，

若U_i满足如下两个条件中的任一个，则outline[i]即为最终的检索过滤阈值；条件1：i＝1∧|U_i|>＝k；条件2：i>1∧|U_i|>＝k∧|U_i-1|<k。

2.根据权利要求1所述的一种面向云环境密文检索效率优化的检索过滤阈值选取方法，其特征在于，所述U_i的计算方法如下：

3.根据权利要求1所述的一种面向云环境密文检索效率优化的检索过滤阈值选取方法，其特征在于，所述根据相关度得分集合S和给定的划分因子τ，生成全局区块表GBT和对应的下边界数组outline包括：

根据划分因子τ，对Ω进行等量划分，生成包含

个区块的全局区块表

其中前

针对GBT中的每一个区块GBlock_i，

计算该区块对应的下边界outline[i]，最终，与GBT相对应的下边界数组outline构造完成。

4.根据权利要求3所述的一种面向云环境密文检索效率优化的检索过滤阈值选取方法，其特征在于，所述outline的计算方法如下：

其中，rand(x,y)表示取介于x和y之间的随机值，min(X)表示取集合X中的最小值，max(X)表示取X中的最大值。

5.根据权利要求1所述的一种面向云环境密文检索效率优化的检索过滤阈值选取方法，其特征在于，所述根据全局区块表GBT和下边界数组outline，对W中的所有关键词，构建相应的关键词区块表集合KBT＝{KBT_i|w_i∈W}。

6.根据权利要求5所述的一种面向云环境密文检索效率优化的检索过滤阈值选取方法，其特征在于，所述构建相应的关键词区块表集合KBT＝{KBT_i|w_i∈W}包括：

对W中的每一个关键词w_i，构建w_i对应的关键词区块表

其中

是用于存储文档标签的集合，其初始化状态为空；

当包含w_i的每一个文档都处理完毕时，与w_i对应的关键词区块表KBT_i构造完成。

7.根据权利要求1所述的一种面向云环境密文检索效率优化的检索过滤阈值选取方法，其特征在于，所述利用关键词和文档之间的相关度量化方法为词频-逆文档频率TF-IDF。