CN112597268A - 一种面向云环境密文检索效率优化的检索过滤阈值选取方法 - Google Patents
一种面向云环境密文检索效率优化的检索过滤阈值选取方法 Download PDFInfo
- Publication number
- CN112597268A CN112597268A CN202011525642.5A CN202011525642A CN112597268A CN 112597268 A CN112597268 A CN 112597268A CN 202011525642 A CN202011525642 A CN 202011525642A CN 112597268 A CN112597268 A CN 112597268A
- Authority
- CN
- China
- Prior art keywords
- keyword
- retrieval
- filtering threshold
- block table
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种面向云环境密文检索效率优化的检索过滤阈值选取方法,包括:第一阶段为构建关键词区块:利用关键词和文档之间的相关度量化方法,计算每一个文档和每一个关键词的单关键词‑单文档相关度得分;对该相关度得分进行降序排列,并进行等量划分,生成全局区块表和对应的下边界数组;再利用全局区块表和下边界数组信息,为每个关键词构建相应的关键词区块表;第二阶段为确定检索过滤阈值:在执行密文检索时,根据检索关键词及其对应的关键词区块表信息,计算并确定检索过滤阈值。本发明提供的检索过滤阈值选取方法,适用于面向云环境的基于树形结构索引的密文检索应用场景,且能够在不影响检索结果精度的情况下,提升检索效率。
Description
技术领域
本发明属于信息检索领域,具体的说是涉及一种面向云环境密文检索效率优化的检索过滤阈值选取方法。
背景技术
在信息爆炸的时代,云计算以其近乎无尽的存储空间和计算能力,吸引着资源受限的用户将计算任务外包给云服务器,以便于享受高质量数据服务,又能大大降低本地管理开销。然而,数据外包带来严重的隐私安全问题。实现云环境中隐私保护最直接的方法是将数据加密后再进行外包,但这种方式会严重影响数据的可用性,例如在信息检索领域,现有的多关键词检索主要是面向明文数据的,无法直接应用到密文检索场景中。而将所有加密数据从云端下载到本地进行解密,显然是一种不切实际且浪费资源的处理方法。因此,许多可搜索加密方法被提出,能够保证数据的机密性,同时能在云环境中对密文数据进行高效检索。
近年来,研究者提出的解决方案主要采用基于树形结构索引的加密文档排序检索方法,该类方法通过构建结构简单且自身安全的树形结构索引,通过深度优先搜索检索出最相关的若干文档。例如,论文“Xia Z,Wang X,Sun X,et al.A secure and dynamicmulti-keyword ranked search scheme over encrypted cloud data.IEEEtransactions onparallel and distributed systems,2015”使用了二叉平衡树索引、论文“Chen C,Zhu X,Shen P,et al.An efficient privacy-preserving ranked keywordsearch method.IEEE Transactions on Parallel and Distributed Systems,2015”使用了层次聚类二叉树索引、论文“Dai H,Dai X,Yi X,et al.Semantic-aware multi-keywordranked search scheme over encrypted cloud data.Journal ofNetwork andComputerApplications,2019”使用了蕴含语义特征信息的完全二叉树索引等,该类方法均使用检索过滤阈值提高检索效率。在执行检索时,初始检索过滤阈值均设置为0,然后在深度优先搜索过程中通过访问代表文档的节点,从而对检索过滤阈值进行非递减更新。同时,在检索过程中,对于深度优先访问的索引树中的节点,若该节点满足检索过滤阈值的限制要求,则继续执行针对该节点的深度优先搜索;否则,以该节点为根的子树被剪枝。利用上述基于阈值控制的剪枝方法,能够过滤掉不满足要求的子树。
然而,由于现有的基于树形索引的检索方法中的初始检索过滤阈值均设置为0,在检索初期,该阈值的剪枝过滤作用不明显,这在一定程度上限制了检索的高效性。如果能够在检索启动时,选取合适的检索过滤阈值,就能进一步提高深度优先搜索过程中的剪枝效率。本发明正是围绕“如何选取合适的检索过滤阈值”这一问题,提出一种能够提升密文检索效率的检索过滤阈值选取方法。
发明内容
针对现有方法在阈值选取上的不足,本发明提出一种面向云环境密文检索效率优化的检索过滤阈值选取方法,能在不影响检索结果精度的情况下,提升检索效率。
为了达到上述目的,本发明是通过以下技术方案实现的:
本发明是一种面向云环境密文检索效率优化的检索过滤阈值选取方法,包括:构建关键词区块;确定检索过滤阈值;
为解决上述技术问题,本发明所述构建关键词区块包括:
从文档集合D中提取关键词,生成关键词集合W;
根据相关度得分集合S和给定的划分因子τ,生成全局区块表GBT和对应的下边界数组outline;
根据全局区块表GBT和下边界数组outline,对W中的所有关键词,构建相应的关键词区块表集合KBT={KBTi|wi∈W},其中KBTi为wi对应的关键词区块表。
为解决上述技术问题,本发明所述确定检索过滤阈值包括:
若Ui满足如下两个条件中的任一个,则outline[i]即为最终的检索过滤阈值。
条件1:i=1∧|Ui|>=k;
条件2:i>1∧|Ui|>=k∧|Ui-1|<k。
作为本发明所述方法的改进,所述根据相关度得分集合S和给定的划分因子τ,生成全局区块表GBT和对应的下边界数组outline,包括如下步骤:
对S中相关度得分进行降序排列,生成相关度得分降序序列Ω;
根据划分因子τ,对Ω进行等量划分,生成包含个区块的全局区块表其中前个区块均包含τ个相关度得分,最后一个区块包含的相关度得分数量小于等于τ,并且对于任意相邻的两个区块GBlocki和GBlocki+1而言,GBlocki中的任一相关度得分均大于GBlocki+1中的任一相关度得分;
其中rand(x,y)表示取介于x和y之间的随机值,min(X)表示取集合X中的最小值,max(X)表示取X中的最大值。最终,与GBT相对应的下边界数组outline构造完成。
本发明进一步改进在于,所述根据全局区块表GBT和下边界数组outline,对W中的所有关键词,构建相应的关键词区块表集合KBT={KBTi|wi∈W},其中KBTi为wi对应的关键词区块表包括:
对于文档集合D中包含wi的每一个文档dj,设其对应的唯一标签为tagj,计算wi和dj的相关度得分score(wi,dj);若score(wi,dj)>outline[1]成立,则将tagj加入关键词区块若outline[h-1]>score(wi,dj)>outline[h]且h>1成立,则将tagj加入关键词区块当包含wi的每一个文档都处理完毕时,与wi对应的关键词区块表KBTi构造完成;
当W中的每一个关键词wi均按照步骤(1d1)和步骤(1d2)处理完毕,关键词区块表集合KBT={KBTi|wi∈W}构造完成。
与现有技术相比,本发明的有益效果:
1、利用本发明的检索阈值选取方法,能够显著提高检索效率;
2、本发明利用区块划分确定检索过滤阈值,此检索过滤阈值不会影响每一个文档和检索关键词之间的相关度得分,且检索过滤阈值小于候选结果集中最后一个文档的相关度得分,不会漏检;利用本发明的检索过滤阈值进行检索,不会以降低准确度为代价提高检索效率,保证了检索结果的精确性;
3、本发明适用于面向云环境的基于树形结构索引的密文检索应用场景,不依赖于特定的关键词和文档之间的相关度量化方法,基于词频的相关度度量方法(TF-IDF、BM25)、基于语义的相关度度量方法(Query Likelihood Model)等均可使用,具有通用性特点。
附图说明
图1是本发明检索过滤阈值选取的流程图。
图2是本发明全局区块表和关键词区块表的对应关系示意图。
图3是本发明检索过滤阈值为0的检索过程示例图。
图4是本发明检索过滤阈值为1.6的检索过程示例图。
具体实施方式
以下将以图式说明本发明的实施方式,为明确说明起见,许多实务上的细节将在以下叙述中一并说明。然而,应了解到,这些实务上的细节不应用以限制本发明。也就是说,在本发明的部分实施方式中,这些实务上的细节是非必要的。
为了方便描述,现对相关符号作如下定义:
文档集合D={d1,d2,…,dn},D中各文档包含的词构成关键词集合W={w1,w2,…,wm},Q为用户提交的检索关键词集合,k为检索需返回的文档数量。score(wi,dj)表示关键词wi和D中每个文档dj之间的单关键词-单文档相关度得分。GBT是全局区块表,outline是全局区块表对应的下边界数组,KBT是关键词区块表集合,KBTi是wi的关键词区块表。
图1是本发明的流程图,描述了面向云环境密文检索效率优化的检索过滤阈值选取的过程。利用关键词和文档之间的相关度量化方法,计算每一个关键词和每一个文档之间的单关键词-单文档相关度得分,对该相关度得分进行降序排列,并进行等量划分,生成全局区块表和对应的下边界数组,然后利用全局区块表和下边界数组信息,为每个关键词构建相应的关键词区块表;最终在执行检索时,根据检索指令及检索关键词对应的关键词区块表信息,计算并确定检索过滤阈值。
一种面向云环境密文检索效率优化的检索过滤阈值选取方法,主要包括以下两个阶段:
1、构建关键词区块阶段,包括以下步骤:
(1)从文档集合D中提取关键词,生成关键词集合W;
(2)利用关键词和文档之间的相关度量化方法,如TF-IDF等,依次对D中的每一个文档dj,以及dj中每一个关键词wi,计算wi和dj之间的单关键词-单文档相关度得分score(wi,dj),生成的相关度得分集合记为
(3)根据相关度得分集合S和给定的划分因子τ,生成全局区块表GBT和对应的下边界数组outline,具体处理过程如下:
①对S中相关度得分进行降序排列,生成相关度得分降序序列Ω;
②根据划分因子τ,对Ω进行等量划分,生成包含个区块的全局区块表其中前个区块均包含τ个相关度得分,最后一个区块包含的相关度得分数量小于等于τ,并且对于任意相邻的两个区块GBlocki和GBlocki+1而言,GBlocki中的任一相关度得分均大于GBlocki+1中的任一相关度得分;
其中rand(x,y)表示取介于x和y之间的随机值,min(X)表示取集合X中的最小值,max(X)表示取X中的最大值。最终,与GBT相对应的下边界数组outline构造完成;
(4)根据全局区块表GBT和下边界数组outline,对W中的所有关键词,构建相应的关键词区块表集合KBT={KBTi|wi∈W},其中KBTi为wi对应的关键词区块表,GBT和KBT具有对应关系,如图2所示,具体处理过程如下:
②对于文档集合D中包含wi的每一个文档dj,设其对应的唯一标签为tagj,计算wi和dj的相关度得分score(wi,dj);若score(wi,dj)>outline[1]成立,则将tagj加入关键词区块若outline[h-1]>score(wi,dj)>outline[h]且h>1成立,则将tagj加入关键词区块当包含wi的每一个文档都处理完毕时,与wi对应的关键词区块表KBTi构造完成;
③当W中的每一个关键词wi均按照步骤①和步骤②处理完毕,关键词区块表集合KBT={KBTi|wi∈W}构造完成。
2、确定检索过滤阈值阶段,包括以下步骤:
若Ui满足如下两个条件中的任一个,则outline[i]即为最终的检索过滤阈值。
条件1:i=1∧|Ui|>=k
条件2:i>1∧|Ui|>=k∧|Ui-1|<k。
以论文“Xia Z,Wang X,Sun X,et al.A secure and dynamic multi-keywordranked search scheme over encrypted cloud data.IEEE transactions on paralleland distributed systems,2015”中所述的方法为例,说明本发明在提升检索效率上的显著提升效果,设有文档集合D={di|i=1,…,6},D中提取的关键词集合为W={w1,w2,w3,w4},检索向量Q为(1,0,1,1),检索需返回的2个最相关文档。图3是检索过滤阈值为0的检索过程,共需访问9个节点:r、r11、r21、d1、d2、r22、r12、d6和d5,只有r11的右子树r22被剪枝。图4是利用本发明选取的检索过滤阈值为1.6的检索过程,只需访问7个节点:r、r11、r21、r22、r12、d6和d5,其中r11的左子树r21和右子树r22均被剪枝。根据该检索示例的对比可知,利用本发明的检索阈值选取方法,检索效率能够提升约22.2%,检索效率显著提升。
以上所述仅为本发明的实施方式而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理的内所作的任何修改、等同替换、改进等,均应包括在本发明的权利要求范围之内。
Claims (7)
1.一种面向云环境密文检索效率优化的检索过滤阈值选取方法,包括:构建关键词区块;确定检索过滤阈值;其特征在于,
所述构建关键词区块包括:
从文档集合D中提取关键词,生成关键词集合W;利用关键词和文档之间的相关度量化方法,依次对D中的每一个文档dj,以及dj中每一个关键词wi,计算wi和dj之间的单关键词-单文档相关度得分score(wi,dj),生成的相关度得分集合记为根据相关度得分集合S和给定的划分因子τ,生成全局区块表GBT和对应的下边界数组outline;根据全局区块表GBT和下边界数组outline,对W中的所有关键词,构建相应的关键词区块表集合KBT={KBTi|wi∈W},其中KBTi为wi对应的关键词区块表;
所述确定检索过滤阈值包括:
3.根据权利要求1所述的一种面向云环境密文检索效率优化的检索过滤阈值选取方法,其特征在于,所述根据相关度得分集合S和给定的划分因子τ,生成全局区块表GBT和对应的下边界数组outline包括:
对S中相关度得分进行降序排列,生成相关度得分降序序列Ω;
根据划分因子τ,对Ω进行等量划分,生成包含个区块的全局区块表其中前个区块均包含τ个相关度得分,最后一个区块包含的相关度得分数量小于等于τ,并且对于任意相邻的两个区块GBlocki和GBlocki+1而言,GBlocki中的任一相关度得分均大于GBlocki+1中的任一相关度得分;
5.根据权利要求1所述的一种面向云环境密文检索效率优化的检索过滤阈值选取方法,其特征在于,所述根据全局区块表GBT和下边界数组outline,对W中的所有关键词,构建相应的关键词区块表集合KBT={KBTi|wi∈W}。
6.根据权利要求5所述的一种面向云环境密文检索效率优化的检索过滤阈值选取方法,其特征在于,所述构建相应的关键词区块表集合KBT={KBTi|wi∈W}包括:
7.根据权利要求1所述的一种面向云环境密文检索效率优化的检索过滤阈值选取方法,其特征在于,所述利用关键词和文档之间的相关度量化方法为词频-逆文档频率TF-IDF。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011525642.5A CN112597268B (zh) | 2020-12-22 | 2020-12-22 | 一种面向云环境密文检索效率优化的检索过滤阈值选取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011525642.5A CN112597268B (zh) | 2020-12-22 | 2020-12-22 | 一种面向云环境密文检索效率优化的检索过滤阈值选取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112597268A true CN112597268A (zh) | 2021-04-02 |
CN112597268B CN112597268B (zh) | 2022-09-20 |
Family
ID=75200007
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011525642.5A Active CN112597268B (zh) | 2020-12-22 | 2020-12-22 | 一种面向云环境密文检索效率优化的检索过滤阈值选取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112597268B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012074087A (ja) * | 2012-01-17 | 2012-04-12 | Mitsubishi Electric Information Systems Corp | 文書検索システム、文書検索プログラム、および文書検索方法 |
CN106961427A (zh) * | 2017-03-10 | 2017-07-18 | 北京科技大学 | 一种基于5g通信标准的密文数据搜索方法 |
CN108363689A (zh) * | 2018-02-07 | 2018-08-03 | 南京邮电大学 | 面向混合云的隐私保护多关键词Top-k密文检索方法及系统 |
-
2020
- 2020-12-22 CN CN202011525642.5A patent/CN112597268B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012074087A (ja) * | 2012-01-17 | 2012-04-12 | Mitsubishi Electric Information Systems Corp | 文書検索システム、文書検索プログラム、および文書検索方法 |
CN106961427A (zh) * | 2017-03-10 | 2017-07-18 | 北京科技大学 | 一种基于5g通信标准的密文数据搜索方法 |
CN108363689A (zh) * | 2018-02-07 | 2018-08-03 | 南京邮电大学 | 面向混合云的隐私保护多关键词Top-k密文检索方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112597268B (zh) | 2022-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10198530B2 (en) | Generating and providing spelling correction suggestions to search queries using a confusion set based on residual strings | |
EP2788896B1 (en) | Fuzzy full text search | |
CN102915365A (zh) | 基于Hadoop的分布式搜索引擎构建方法 | |
CN102087669A (zh) | 基于语义关联的智能搜索引擎系统 | |
CN104391908B (zh) | 一种图上基于局部敏感哈希的多关键字索引方法 | |
JP2019087249A (ja) | 自動検索辞書およびユーザインターフェイス | |
CN117251879A (zh) | 基于信任扩展的安全存储与查询方法、系统及计算机储存介质 | |
Wen et al. | KAT: Keywords-to-SPARQL translation over RDF graphs | |
CN112597268B (zh) | 一种面向云环境密文检索效率优化的检索过滤阈值选取方法 | |
CN115794873A (zh) | 一种基于全文检索技术的权限控制方法 | |
Yadav et al. | Wavelet tree based hybrid geo-textual indexing technique for geographical search | |
AU2021102702A4 (en) | A process for query reformulation system using rank aggregation and genetic approach | |
Vieira et al. | Incremental entity resolution process over query results for data integration systems | |
Gupta et al. | Page ranking algorithms in online digital libraries: A survey | |
Gampala et al. | An efficient Multi-Keyword Synonym Ranked Query over Encrypted Cloud Data using BMS Tree | |
Jiang et al. | Ranking in genealogy: search results fusion at ancestry | |
CN110569327A (zh) | 一种支持动态更新的多关键字密文检索方法 | |
Li | Research on fuzzy retrieval method of blockchain information based on B+ tree index structure | |
CN115757435A (zh) | 一种支持语义感知密文检索加速的筛选因子确定方法 | |
Wang et al. | Optimization of Query Expansion Source in Formal Concept Analysis. | |
Hagen et al. | Weblog Analysis. | |
Abdulraheem et al. | An Automatic Image Tagging Based on Word Co-Occurrence Analysis | |
Lee | MDH*: Multidimensional histograms for Linked Data queries | |
Cui et al. | Deep web data source classification based on query interface context | |
Lee et al. | Hybrid Index Structure based on MBB Approximation for Linked Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |