CN112199461A

CN112199461A - 基于块索引结构的文档检索方法、装置、介质和设备

Info

Publication number: CN112199461A
Application number: CN202010980661.0A
Authority: CN
Inventors: 刘波; 李宇
Original assignee: Jinan University
Current assignee: Jinan University
Priority date: 2020-09-17
Filing date: 2020-09-17
Publication date: 2021-01-08
Anticipated expiration: 2040-09-17
Also published as: CN112199461B

Abstract

本发明公开了一种基于块索引结构的文档检索方法、装置、介质和设备，首先从文档集中提取关键词并扩展关键词；然后以关键词为索引词，根据索引词与包含该索引词的文档之间的相关性分数，采用块索引结构，构建多层次索引表。针对查询语句，从中抽取查询词，并且获取查询词的扩展词；从索引表中获取与查询词和扩展词匹配的所有索引词；利用索引表中预计算的信息，将匹配的查询词及扩展词与文档之间的相关性分数累加，动态锁定相关性累加分数前k名的文档；当满足检索终止条件，即前k名文档不再发生替换变动时，停止索引块的检索遍历，得到按查询相关性分数累加值排名前k的文档结果集。本发明具有文档检索效率高、成本低以及准确性高的优点。

Description

基于块索引结构的文档检索方法、装置、介质和设备

技术领域

本发明涉及计算机自然语言处理与信息检索研究领域，特别涉及一种基于块索引结构的文档检索方法、装置、介质和设备。

背景技术

在信息检索应用中，采用索引技术可以加快检索速度。但是针对大数据集，所构建的索引表十分庞大，当用户提出查询要求时，如果与索引表中的所有索引词匹配，则需要耗费很长时间，因此，许多学者仍在不断研究优化索引结构以及提高检索效率的方法。

目前，在文本检索中应用最广的索引方法依然是倒排索引(Inverted Index)，索引结构包括关键词和对应关键词的文档编号列表。Lucence在此基础上，添加了关键词在各文档出现的频率和出现位置；为了节省大量文本数据的存储空间，Lucene4.X版本之后使用了FST(Finite State Transducers)有限状态机压缩技术。Elasticsearch是目前将倒排索引应用于集群最成熟的全文本搜索服务之一，将所有非结构化的数据都可以追加索引并使用，但不管是分布式集群还是提供更多的数据信息，都是根据实际场景的应用优化，没有从本质上改变倒排索引的构建过程，没有考虑文档中出现的词语重要性的区别，同时对海量数据的维护成本较大。

现有技术中有一些与语义索引有关的研究，研究基于图模型索引库的查询词组与文本关联匹配方法，将文档映射到几个图结构中，查询是在索引图库中查找子图同构的相应文本。构建概率语义模型(Probabilistic Latent Semantic Indexing，PLST)，计算单词项与文档集所代表的概率矩阵之间的关系，查找关联文本，但这些仍然有比较高的储存和维护成本。

发明内容

本发明的第一目的在于克服现有技术的缺点与不足，提供一种基于块索引结构的文档检索方法，该方法解决了文档检索过程中由于查询匹配规模大所产生的效率低、索引表维护成本较大且检索结果准确性低的问题，具有文档检索效率高、成本低以及准确性高的优点。

本发明的第二目的在于提供一种基于块索引结构的文档检索装置。

本发明的第三目的在于提供一种存储介质。

本发明的第四目的在于提供一种计算设备。

本发明的第一目的通过下述技术方案实现：一种基于块索引结构的文档检索方法，所述方法包括：

从输入的文档集中提取关键词；

针对于各关键词进行扩展，得到与其相关联的扩展词，构建得到各关键词的扩展词表；

以各关键词作为索引词，预计算索引词与文档集中各文档之间的相关性分数，并排序存储到块索引结构中，从而构建得到输入文档集的索引表；

接收输入的查询语句；

从查询语句中抽取查询词，得到查询词集；

针对于查询词集中的各查询词，从索引表中获取与查询词匹配的所有索引词；同时从上述扩展词表中获取查询词的扩展词；

利用索引表中预计算的信息，将匹配的查询词及查询词相关联的扩展词与文档之间的相关性分数累加，动态锁定相关性累加分数前k名的文档；

判定是否满足检索终止条件；

当满足检索终止条件，即前k名文档不再发生替换变动时，停止索引块的检索遍历，得到按查询相关性分数累加值排名前k的文档结果集。

优选的，针对于各关键词进行扩展时，采用Aprior算法计算2-频繁项集，其中，形式为{T1，T 2}，T 1为关键词，T2为与T1相关联的扩展词，关联规则T1→T 2的支持度和置信度满足设置的最小支持度阈值和最小置信度阈值；将T1、T2以及关联规则T1→T 2的置信度存储在扩展词表中。

优选的，构建输入文档集索引表的具体过程如下：

S31、对于每一索引词，确定文档集中包含该索引词的文档，并且计算该索引词与包含该索引词的文档之间的相关性分数：

S(t,d)＝(idf(t)×R(t,d))；

其中：

S(t，d)表示索引词t与文档d的相关性分数；

idf(t)值表示索引词t的逆文档频率；

|D|表示文档集中的文档总数；

n_t表示在文档集中包含索引词t的文档数；

t_d表示索引词t在文档d中出现的次数；

N_d表示文档d的单词总数；

tf(t，d)表示索引词t在文档d中出现的频率；

qf(t，q)表示索引词t在查询句q中出现的频率；

len(d)表示文档d的长度，len(d)＝N_d；

b、k₁、k₂分别是需要设置的超参数，avgl是文档集中所有文档的平均长度；

S32、针对于每一索引词，将上述计算得到的该索引词与包含该索引词的各文档之间的相关性分数进行从大到小的排序，然后从头到尾每几个文档划分成一个索引块中的索引项，存储到对应索引块中，其中每一层对应一个索引块，每个索引词对应一层或多层索引块，基于索引词每层索引块构建得到各索引词的索引表；

在每个索引块中包括块标记和块列表；其中：

块列表中的存储内容为元组列表的形式，即[(DID₁，score₁)，...，(DID_n，score_n)]，n为元组列表中元组的总数，对应为每个索引块中索引项的总数，每个元组对应索引块中的一个索引项；各元组中，DID_j表示包含索引词的文档j的文档编号，score_j表示索引词与包含索引词的文档j的相关性分数，j＝1，2，3，…，n；

块标记中包括索引块的块编号和max_score，max_score记录了索引块的块列表元组列表中存储的最大的相关性分数。

更进一步的，利用索引表中预计算的信息，将匹配的查询词及查询词相关联的扩展词与文档之间的相关性分数累加，动态锁定相关性累加分数前k名的文档的具体过程如下：

S41、从索引表中获取与各查询词匹配的所有索引词，同时从索引表中获取与查询词的扩展词匹配的所有索引词；

S42、针对于各查询词，获取索引表中与该查询词匹配的索引词的各索引块，并且获取到各索引块中的max_score；

针对于各扩展词，获取索引标配中与该扩展词匹配的索引词的各索引块，并且获取到各索引块中的max_score，然后将各索引块中的max_score与该扩展词的置信度相乘，得到max_score1；

S43、按照上述获取到的各查询词对应各索引块的max_score、各扩展词对应各索引块对应得到max_score1从大到小的排序，对各查询词和扩展词的索引块进行降序排序；

S44、构建score_list列表，通过score_list列表存储候选文档的文档编号以及候选文档对应的相关性分数累加值，score_list列表初始设置为空；并且设置以下变量的初始值：max_score_next＝0，score_k+1＝0，score_k＝0，V＝0；V表示已经扫描的索引块的数目，max_score_next表示下一个要扫描索引块中的max_score；

S45、针对于上述步骤S43降序排序后的各索引块，进行依次扫描；

针对于当前扫描的索引块中各文档编号对应的各文档，若该文档d的文档编号未出现在score_list列表中，则获取索引块中该文档的文档编号及该文档与索引词对应的相关性分数；其中：

若当前扫描的索引块对应的索引词为查询词q匹配的索引词时，则将该文档d的文档编号及该文档d与索引词对应的相关性分数S(q,d)添加到score_list列表；

若当前扫描的索引块对应的索引词为查询词的扩展词e匹配的索引词时，则将该文档d的文档编号及该文档d与索引词对应的相关性分数S(e,d)和扩展词的置性度Conf(e,q)乘积后的值，添加到score_list列表；

针对于当前扫描的索引块中各文档编号对应的各文档，若该文档d的文档编号已经出现在score_list列表中，则获取索引块中该文档的文档编号及该文档与索引词对应的相关性分数；其中：

若当前扫描的索引块对应的索引词为查询词q匹配的索引词时，则将当前扫描前该文档对应的相关性分数累加值，加上当前扫描的索引块中该文档与索引词的相关性分数S(q,d)，作为该文档当前扫描更新的相关性分数累加值；

若当前扫描的索引块对应的索引词为查询词的扩展词匹配的索引词时，则将当前扫描前score_list列表该文档对应的相关性分数累加值，加上当前扫描的索引块中该文档与索引词的相关性分数S(e,d)与扩展词的置性度Conf(e,q)乘积后的值，作为该文档当前的相关性分数累加值；

S46、在当前扫描后，按照被扫描到的各文档当前的相关性分数累加值从大到小的顺序，在score_list列表存储文档编号及文档对应的相关性分数累加值，得到更新后的score_list列表；

同时，V的值加1，通过更新后的score_list列表更新score_k和score_k+1的值；其中：

若当前扫描后，被扫描过的文档数目小于k，则score_k和score_k+1均为0；

若扫描过的文档数目等于k，则score_k为当前更新后的score_list列表中排名第k的相关性分数累加值，score_k+1为0；

若扫描过的文档数目大于k时，则score_k、score_k+1表示score_list列表中当前排名第k和k+1的相关性分数累加值；

同时，根据下一次所要扫描的索引块更新max_score_next的值，其中：

当下一次所要扫描的索引块是：与查询词匹配的索引词的索引块，则max_score_next更新为：下一次所要扫描的索引块中的max_score的值；

当下一次所要扫描的索引块是：与查询词的扩展词匹配的索引词的索引块，则max_score_next更新为：下一次所要扫描的索引块中的max_score和扩展词的置信度相乘后的值。

更进一步的，按照以下公式计算得到当前扫描的索引块中各文档编号对应文档的相关性分数累加值Score(Q,d)：

Score(Q,d)＝∑_q∈QS(q,d)+∑_{q∈Q，e∈E}Conf(e,q)×S(e,d)；

其中：

Q为：当前扫描过的所有索引块中，与查询词匹配的索引词中，包括在文档d中的索引词的集合；

E为：当前扫描过的所有索引块中，与查询词的扩展词匹配的索引词中，包括在文档d中的索引词的集合。

更进一步的，在当前次扫描完成后，且score_list列表更新完成后，判定是否满足检索终止条件，其中，检索终止条件为：

score_k-score_k+1≥(m-V)×max_score_next且len(score_list)≥k；

其中m为降序排列的索引块的总数；len(score_list)为当前扫描次后总共扫描过的文档总数；

在当前次扫描后，若满足上述检索终止条件，则结束扫描，获取score_list列表中相关性分数累加值排名前k的文档结果集；否则扫描下一个索引块。

优选的，针对于文档集，采用TextRank算法提取关键词；

针对于接收到的查询语句，对其进行分词、去停用词、词干化的预处理后，从中抽取出查询词，得到查询词集。

本发明的第二目的通过下述技术方案实现：一种基于块索引结构的文档检索装置，包括

关键词提取模块，用于从输入的文档集中提取关键词；

扩展模块，用于针对于各关键词进行扩展，得到与其相关联的扩展词，构建得到各关键词的扩展词表；

索引表构建模块，用于以各关键词作为索引词，预计算索引词与文档集中各文档之间的相关性分数，并排序存储到块索引结构中，以构建得到输入文档集的索引表；

查询语句接收模块，用于接收输入的查询语句；

查询词抽取模块，用于从查询语句中抽取查询词，得到查询词集；

匹配模块，用于针对于查询词集中的各查询词，从索引表中获取与查询词匹配的所有索引词；同时从上述扩展词表中获取查询词的扩展词；

文档动态锁定模块，用于利用索引表中预计算的信息，将匹配的查询词及查询词相关联的扩展词与文档之间的相关性分数累加，动态锁定相关性累加分数前k名的文档；

判定模块，判定是否满足检索终止条件；

文档结果确定模块，用于在满足检索终止条件，即前k名文档不再发生替换变动时，停止索引块的检索遍历，得到按查询相关性分数累加值排名前k的文档结果集。

本发明的第三目的通过下述技术方案实现：一种存储介质，存储有程序，其特征在于，所述程序被处理器执行时，实现本发明第一目的所述的基于块索引结构的文档检索方法。

本发明的第四目的通过下述技术方案实现：一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现本发明第一目所述的基于块索引结构的文档检索方法。

本发明相对于现有技术具有如下的优点及效果：

(1)本发明一种基于块索引结构的文档检索方法，该方法首先从文档集中提取关键词并获取关键词的扩展词；然后以关键词为索引词，根据索引词与包含该索引词的文档之间的相关性分数，采用块索引结构，构建多层次索引表。针对于用户输入的查询语句；从查询语句中抽取查询词，并且从扩展词表中获取查询词的扩展词；接着，从索引表中获取与查询词和扩展词匹配的所有索引词；利用索引表中预计算的信息，将匹配的查询词及查询词相关联的扩展词与文档之间的相关性分数累加，动态锁定相关性累加分数前k名的文档；当满足检索终止条件，即前k名文档不再发生替换变动时，停止索引块的检索遍历，得到按查询相关性分数累加值排名前k的文档结果集。由上述可知，本发明为给定的文档集构建块索引表，预先计算索引词与包含索引词的文档之间的相关性，且按次序排序后存储在索引表中，省去查询时再次提取文档库以及计算文档相关信息的过程；此外，针对查询句查询，动态锁定排名靠前的k个文档，提前终止后续搜索操作，在结果产生中筛选质量较高且对查询结果有重要影响的文档集，不需要对包含查询词的全部文档都抽取出来进行相关性评分，缩小候选文档范围，能够加快文档检索过程，且获得质量较高的文档结果集，解决了现有技术中查询匹配规模大导致的检索效率低的问题。

(2)本发明基于块索引结构的文档检索方法中，从文档集中提取关键词，并且以文档集种提取的各关键词作为索引，通过关联分析获取关键词的关联词表，即扩展词表，降低索引表存储与维护成本，查询时依据与查询词以及查询词的扩展词匹配的索引词与文档之间的相关性分数精简候选文档集，从而获得质量较高的文档结果集。解决了现有技术中对海量数据的索引表维护成本较大且检索结果准确性低的问题。

(3)本发明基于块索引结构的文档检索方法中，在构建索引表时，将计算得到的索引词与包含该索引词的各文档之间的相关性分数进行从大到小的排序，然后从头到尾每几个文档划分成一个索引块中的索引项，存储到对应索引块中，其中每一层对应一个索引块，每个索引词对应一层或多层索引块，基于索引词每层索引块构建得到各索引词的索引表，这种索引表的构建策略不仅能降低索引表存储与维护成本，还能削弱了低效索引词的影响并提升语义关联的能力。

(4)本发明基于块索引结构的文档检索方法中，采用Aprior算法从文档集中提取的关键词进行关联扩展，用于计算查询与文档之间的相关性，以提高检索准确率。

附图说明

图1是本发明基于块索引结构的文档检索方法的流程图。

图2是本发明基于块索引结构的文档检索装置的结构框图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例1

本实施例公开了一种基于块索引结构的文档检索方法，通过该方法可以解决检索过程中由于查询匹配规模大所产生的效率低、以及索引表维护成本较大且检索结果准确性低的问题。基于本实施方法设计的块索引结构，能够动态锁定与查询相关性高的文档结果，提前终止检索过程，提高了文档检索的准确度和效率；如图1中所示，本实施例方法包括：

S1、从输入的文档集中提取关键词。在本实施例中，针对于文档集，可以采用TextRank算法提取关键词。

例如获取一个简单的英文文本数据集Med，该数据集来自于Glasgow大学收录的信息检索标准文本测试集中的一个。该数据集共包含1033个医学报告，文档编号为1～1033，文本词汇量为10337，对Med文档集采用TextRank算法进行关键词提取，最后获取4628个单词。

S2、针对于各关键词进行扩展，得到与其相关联的扩展词，构建得到各关键词的扩展词表。在本实施例中，针对于各关键词进行扩展时，可以采用Aprior算法计算2-频繁项集，其中，形式为{T1，T 2}，T 1为关键词，T2为与T1相关联的扩展词，关联规则T1→T 2的支持度和置信度满足设置的最小支持度阈值和最小置信度阈值；将T1、T2以及关联规则T1→T2的置信度存储在扩展词表中。本实施例中，将关联规则T1→T 2的置信度也直接称为：T 2的置信度。

例如针对于步骤S1中提取的关键词hemophilia、pseudotumor，通过本步骤扩展后，可得到的关联规则有：hemophilia→hemophilic、pseudotumor→pseudotumour，将hemophilic与对应关联规则的置信度存入关键词hemophilia的扩展词表中，将pseudotumour与对应关联规则的置信度存入关键词pseudotumor的扩展词表中。

S3、以各关键词作为索引词，预计算索引词与文档集中各文档之间的相关性分数，并排序存储到块索引结构中，从而构建得到输入文档集的索引表。具体过程如下：

S(t,d)＝(idf(t)×R(t,d))；

其中：

S(t，d)表示索引词t与文档d的相关性分数；

idf(t)值表示索引词t的逆文档频率；

|D|表示文档集中的文档总数；

n_t表示在文档集中包含索引词t的文档数；

t_d表示索引词t在文档d中出现的次数；

N_d表示文档d的单词总数；

tf(t，d)表示索引词t在文档d中出现的频率；

qf(t，q)表示索引词t在查询句q中出现的频率；

len(d)表示文档d的长度，len(d)＝N_d；

S32、针对于每一索引词，将上述计算得到的该索引词与包含该索引词的各文档之间的相关性分数进行从大到小的排序，然后从头到尾每z个文档划分成一个索引块中的索引项，存储到对应索引块中，其中每一层对应一个索引块，每个索引词对应一层或多层索引块，基于索引词每层索引块构建得到各索引词的索引表；在本实施例中，z可以设置为16，其中每个索引块中最大可以包括16个索引项，对应16个文档；在划分到最后时，若不足16个，则以这不足16个的文档构成最后一个索引块的索引项。

在每个索引块中包括块标记和块列表；其中：

基于本实施例上述各索引块中所得到的索引项的划分规则，第i层中的所有相关性分数值都比第i+1层中的所有相关性分数值高，而且各层中元组按照相关性分数递减排序。

例如：针对于索引词hemophilia、pseudotumor，在Med文档集中得到包含两个索引词的文档编号分别如下：

Hemophilia：[308、378，388，467，478，501，502，638，...]；

Pseudotumor：[5，118，245，267，277，278，842，...]。

基于本步骤，针对于索引词hemophilia构建得到的索引表如表1所示：

表1

其中上述索引表中，每一行分别代表一个索引块，BID6164至BID6168分别是索引词hemophilia的5个索引块的块编号，在5个索引块中，块标号为BID6164索引块的max_score是最大的，从上至下，索引块的max_score值依次减小；除最后一个索引块外，每个索引块中包括16个索引项，每个索引项中分别存储的是包含索引词的文档的文档编号，以及索引词与文档之间的相关性分数。例如('1018'，9.3452)。其中1018为包含“hemophilia”文档的文档编号，9.3452为“hemophilia”与文档编号为1018的文档之间的相关性分数。

S4、接收输入的查询语句；用户可以选择检索结果，例如要求检索结果为top-k的文档集，即从文档集中检索到排名前k的文档。

S5、从查询语句中抽取查询词，得到查询词集；针对于接收到的查询语句，对其进行分词、去停用词、词干化的预处理后，从中抽取出查询词，得到查询词集Q，例如Q＝{hemophilia，pseudotumor}。

S6、针对于查询词集中的各查询词，从索引表中获取与查询词匹配的所有索引词；同时从上述扩展词表中获取查询词的扩展词。在本实施例中，针对于查询词集Q中的各查询词：hemophilia，pseudotumor，通过步骤S2中获取到的扩展词表，获取到各查询词的扩展词，得到扩展词集E＝{hemophilic，pseudotumour}。

S7、利用索引表中预计算的信息，将匹配的查询词及查询词相关联的扩展词与文档之间的相关性分数累加，动态锁定相关性累加分数前k名的文档；具体过程如下：

S71、从索引表中获取与各查询词匹配的所有索引词，同时从索引表中获取与查询词的扩展词匹配的所有索引词。上述所谓匹配，指的就是从索引表中获取到与查询词相同的索引词，以及查询词的扩展词相同的索引词。

例如针对于查询词hemophilia，pseudotumor，其扩展词分别对应为hemophilic，pseudotumour，则在索引表中寻找到hemophilia、pseudotumor、hemophilic、pseudotumour四个索引词对应的索引块。

S72、针对于各查询词，获取索引表中与该查询词匹配的索引词的各索引块，并且获取到各索引块中的max_score；针对于各扩展词，获取索引标配中与该扩展词匹配的索引词的各索引块，并且获取到各索引块中的max_score，然后将各索引块中的max_score与该扩展词的置信度相乘，得到max_score1。

本实施例中，获取到索引表中hemophilia、pseudotumor索引词的索引块，并且得到各索引块中的max_score；同时获取到索引表中hemophilic、pseudotumour索引词的索引块，并且获取到各索引块中的max_score，针对于索引词hemophilic，将其各索引块中的max_score分别与关联规则hemophilia→hemophilic的置信度相乘，得到max_score1，针对于索引词pseudotumour，将其各索引块中的max_score分别与关联规则pseudotumor→pseudotumour的置信度相乘，得到max_score1。

S73、按照上述获取到的各查询词的各索引块的max_score、各扩展词的各索引块对应得到的max_score1从大到小的排序，对各查询词和扩展词的索引块进行降序排序。

针对于步骤S72中举例的查询词及其扩展词，经过本步骤后，得到对各查询词和扩展词的索引块排序如表2所示；

表2

S74、构建score_list列表，通过score_list列表存储候选文档的文档编号以及候选文档对应的相关性分数累加值，score_list列表初始设置为空；并且设置变量max_score_next、变量score_k+1、变量score_k、变量V的初始值：max_score_next＝0，score_k+1＝0，score_k＝0，V＝0；其中，V表示已经扫描的索引块的数目；score_k，score_k+1为文档相关性分数累加过程中在score_list列表中排名为第k和第k+1的锁定排名分数；max_score_next表示下一次要扫描的索引块列表的最大相关性分数值，或最大相关性分数值与扩展词的置信度乘积后的值

S75、针对于上述步骤S73降序排序后的各索引块，进行依次扫描；

1)、针对于当前扫描的索引块中各文档编号对应的文档，若该文档d的文档编号未出现在score_list列表中，则获取索引块中该文档的文档编号及该文档与索引词对应的相关性分数；其中：

2)、针对于当前扫描的索引块中各文档编号对应的各文档，若该文档d的文档编号已经出现在score_list列表中，则获取索引块中该文档的文档编号及该文档与索引词对应的相关性分数；其中：

若当前扫描的索引块对应的索引词为查询词q匹配的索引词时，则将扫描前该文档对应的相关性分数累加值，加上当前扫描的索引块中该文档与索引词的相关性分数S(q,d)，作为该文档当前扫描更新的相关性分数累加值；

若当前扫描的索引块对应的索引词为查询词的扩展词匹配的索引词时，则将扫描前score_list列表该文档对应的相关性分数累加值，加上当前扫描的索引块中该文档与索引词的相关性分数S(e,d)与扩展词的置性度Conf(e,q)乘积后的值，作为该文档当前的相关性分数累加值，并且更新score_list列表；

具体，基于以下公式计算得到当前扫描的索引块中各文档编号对应文档的相关性分数累加值Score(Q,d)：

Score(Q,d)＝∑_q∈QS(q,d)+∑_{q∈Q，e∈E}Conf(e,q)×S(e,d)；

其中：

E为：当前扫描过的所有索引块中，与查询词的扩展词匹配的索引词中，包括在文档d中的索引词的集合；

Conf(e,q)表示关联规则q→e的置信度，q为查询词，e为查询词q的扩展词。

S76、在当前扫描后，按照被扫描到的各文档当前的相关性分数累加值从大到小的顺序，在score_list列表存储文档编号及文档对应的相关性分数累加值，得到更新后的score_list列表；

上述可以表达为：

其中next(score_k)为score_list中相关性累加分数排名第k+1名的文档相关性累加分数；

S8、判定是否满足检索终止条件；当满足检索终止条件，即前k名文档不再发生替换变动时，停止索引块的检索遍历，得到按查询相关性分数累加值排名前k的文档结果集。

本实施例中，在当前次扫描完成后，且score_list列表更新完成后，判定是否满足检索终止条件，其中，检索终止条件为：

score_k-score_k+1≥(m-V)×max_score_next且len(score_list)≥k；

其中m为降序排列的索引块的总数；len(score_list)为当前扫描次后总共扫描过的文档总数。

例如在构建score_list列表后，针对于步骤S73表2所示的降序排列的各索引块从上至下依次进行扫描，表2中包括14个索引块，m＝14，如果要求k为5，则扫描过程以及获取到最终文档结果集的过程如下：

第一次：扫描(BID6164)

扫描后V＝1，进行评分累加后扫描过的文档分数列表为:

score_list：[('1018'，9.3452)，('1024'，9.0147)，('829'，8.8107)，('840'，8.7862)，('842'，8.6790)，('1021'，8.0211)...]

len(score_list)＝16 max_score_next＝7.9228 score_k＝8.6790 score_k+1＝8.0211

8.6790-8.0211<(14-1)×7.9228，终止条件不满足。

第二次：扫描(BID6165)

扫描后V＝2，进行评分累加后扫描过的各文档分数列表为:

score_list：[('1018'，9.3452)，('1024'，9.0147)，('829'，8.8107)，('840'，8.7862)，('842'，8.6790)，('1021'，8.0211)，...，('501'，7.9228)，('502'，7.9187)，...]

len(score_list)＝32 max_score_next＝7.1430 score_k＝8.6790 score_k+1＝8.0211

8.6790-8.0211<(14-2)×7.1430，终止条件不满足。

第九次:扫描(BID34020)

扫描后V＝9，进行评分累加后扫描过的各文档分数列表为:

score_list:[('840'，14.1174)，('1018'，12.3014)，('1032'，12.1899)，('1025'，10.8283)，('829'，10.7742)，('1024'，9.0147)....]

len(score_list)＝68 max_score_next＝0.3452 score_k＝10.7742 score_k+1＝9.0147

(10.7742-9.0147＝1.7595)≥(14-9)×0.3452＝1.726且len(score_list)>k，终止条件满足。

最终得到检索结果top-5的列表为:[('840'，14.1174)，('1018'，12.3014)，('1032'，12.1899)，('1025'，10.8283)，('829'，10.7742)]，输出文档结果集对应的文档编号为{840，1018，1032，1025，829}。

本领域技术人员可以理解，实现本实施例方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成，相应的程序可以存储于计算机可读存储介质中。应当注意，尽管在附图中以特定顺序描述了本实施例1的方法操作，但是这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，描绘的步骤可以改变执行顺序，有些步骤也可以同时执行。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

实施例2

本实施例公开了一种基于块索引结构的文档检索装置，如图2所示，包括关键词提取模块、扩展模块、索引表构建模块、查询语句接收模块、查询词抽取模块、匹配模块、文档动态锁定模块、判定模块和文档结果确定模块，各模块对应实现的功能具体如下：

关键词提取模块，用于从输入的文档集中提取关键词；

查询语句接收模块，用于接收输入的查询语句；

判定模块，判定是否满足检索终止条件；

本实施例上述各个模块的具体实现可以参见上述实施例1，在此不再一一赘述。需要说明的是，本实施例提供的装置仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

实施例3

本实施例公开了一种存储介质，存储有程序，所述程序被处理器执行时，实现实施例1所述的基于块索引结构的文档检索方法，如下：

从输入的文档集中提取关键词；

接收输入的查询语句；

从查询语句中抽取查询词，得到查询词集；

判定是否满足检索终止条件；

在本实施例中，存储介质可以是磁盘、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、U盘、移动硬盘等介质。

实施例4

本实施例公开了一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现实施例1所述的基于块索引结构的文档检索方法，如下：

从输入的文档集中提取关键词；

接收输入的查询语句；

从查询语句中抽取查询词，得到查询词集；

判定是否满足检索终止条件；

本实施例中，计算设备可以是台式电脑、笔记本电脑、智能手机、PDA手持终端、平板电脑等终端设备。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于块索引结构的文档检索方法，其特征在于，所述方法包括：

从输入的文档集中提取关键词；

接收输入的查询语句；

从查询语句中抽取查询词，得到查询词集；

判定是否满足检索终止条件；

2.根据权利要求1所述的基于块索引结构的文档检索方法，其特征在于，针对于各关键词进行扩展时，采用Aprior算法计算2-频繁项集，其中，形式为{T1，T2}，T1为关键词，T2为与T1相关联的扩展词，关联规则T1→T2的支持度和置信度满足设置的最小支持度阈值和最小置信度阈值；将T1、T2以及关联规则T1→T2的置信度存储在扩展词表中。

3.根据权利要求1所述的基于块索引结构的文档检索方法，其特征在于，构建输入文档集索引表的具体过程如下：

S(t,d)＝(idf(t)×R(t,d))；

其中：

S(t，d)表示索引词t与文档d的相关性分数；

idf(t)值表示索引词t的逆文档频率；

|D|表示文档集中的文档总数；

n_t表示在文档集中包含索引词t的文档数；

t_d表示索引词t在文档d中出现的次数；

N_d表示文档d的单词总数；

tf(t，d)表示索引词t在文档d中出现的频率；

qf(t，q)表示索引词t在查询句q中出现的频率；

len(d)表示文档d的长度，len(d)＝N_d；

在每个索引块中包括块标记和块列表；其中：

4.根据权利要求3所述的基于块索引结构的文档检索方法，其特征在于，利用索引表中预计算的信息，将匹配的查询词及查询词相关联的扩展词与文档之间的相关性分数累加，动态锁定相关性累加分数前k名的文档的具体过程如下：

S44、构建score_list列表，通过score_list列表存储候选文档的文档编号以及候选文档对应的相关性分数累加值，score_list列表初始设置为空；并且设置以下变量的初始值：max_score_next＝0，score_k+1＝0，score_k＝0，V＝0；V表示已经扫描的索引块的数目；

5.根据权利要求4所述的基于块索引结构的文档检索方法，其特征在于，按照以下公式计算得到当前扫描的索引块中各文档编号对应文档的相关性分数累加值Score(Q,d)：

Score(Q,d)＝∑_q∈QS(q,d)+∑_{q∈Q，e∈E}Conf(e,q)×S(e,d)；

其中：

6.根据权利要求4所述的基于块索引结构的文档检索方法，其特征在于，在当前次扫描完成后，且score_list列表更新完成后，判定是否满足检索终止条件，其中，检索终止条件为：

score_k-score_k+1≥(m-V)×max_score_next且len(score_list)≥k；

7.根据权利要求1所述的基于块索引结构的文档检索方法，其特征在于，针对于文档集，采用TextRank算法提取关键词；

8.一种基于块索引结构的文档检索装置，其特征在于，包括：

关键词提取模块，用于从输入的文档集中提取关键词；

查询语句接收模块，用于接收输入的查询语句；

判定模块，判定是否满足检索终止条件；

9.一种存储介质，存储有程序，其特征在于，所述程序被处理器执行时，实现权利要求1～7中任一项所述的基于块索引结构的文档检索方法。

10.一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现权利要求1～7中任一项所述的基于块索引结构的文档检索方法。