CN111737413A

CN111737413A - 基于概念网语义的反馈模型信息检索方法、系统及介质

Info

Publication number: CN111737413A
Application number: CN202010457126.7A
Authority: CN
Inventors: 潘敏; 杨杏本; 刘兴红; 徐琦; 裴全力; 周成志; 赵美玲
Original assignee: Hubei Normal University
Current assignee: Hubei Normal University
Priority date: 2020-05-26
Filing date: 2020-05-26
Publication date: 2020-10-02

Abstract

本发明公开了一种基于概念网语义的反馈模型信息检索方法、系统及介质，通过提供多个查询关键词，得到伪相关文档集；根据权重检索模型和概念网的语义查询对所述伪相关文档集进行处理，得到多个目标扩展候选词；将所述多个查询关键词与所述多个目标扩展候选词进行线性融合，生成查询关键词集合；对所述查询关键词集合进行检索，得到最终检索结果。本发明公开的基于概念网语义的反馈模型信息检索方法、系统及介质使得用户查询的效率和效果大幅度提高。

Description

基于概念网语义的反馈模型信息检索方法、系统及介质

技术领域

本发明涉及信息检索技术领域，特别涉及一种基于概念网语义的反馈模型信息检索方法、系统及介质。

背景技术

在互联网技术飞速发展的年代，网络信息呈现爆炸式增长态势，借助搜索引擎浏览和获取所需信息已成为人们日常生活的重要组成部分。然而，网络资源数量庞大、种类繁多，在给人们带来便利的同时也使得用户难以高效准确的获取真正需要的信息，为了更加有效地处理日益增长的海量数据，信息检索方法作为经典文本处理技术，已经成为信息处理技术的研究关键点。

伪相关反馈(Pseudo Relevance Feedback，简称PRF)提供一种自动局部分析方法，它可以自动化相关反馈的人工操作部分，用户不需要参加额外的交互就能够获得更佳的检索性能。该方法首先进行普通的检索过程，返回与用户初始查询最相关的文档并将其作为一个初始结果集，然后在此基础上假设排名前N篇的文档是相关的，最后在这个假设上像前面一样进行相关反馈。BERT模型是一种预训练语言表示的新方法，提出了一种在大量上下文相关的语言的预训练模型中，BERT通过根据前后单词的意思创建上下文检索表达语义，开源了多种语言的源码和模型。

然而通过单一的模型得到的信息量过于庞大，得到的扩展词的精确度也不够，因此，如果直接使用BERT对所有文档进行计算，则会出现信息量过大、精确度不足等问题。

发明内容

鉴于上述现有技术的不足之处，本发明的目的在于提供一种基于概念网语义的反馈模型信息检索方法、系统及介质，解决现有技术中直接使用 BERT对所有文档进行计算，则会出现信息量过大、精确度不足的技术问题。

为了达到上述目的，本发明采取了以下技术方案：

一种基于概念网语义的反馈模型信息检索方法，包括如下步骤：S1，提供多个查询关键词，得到伪相关文档集；S2，根据权重检索模型和概念网的语义查询对所述伪相关文档集进行处理，得到多个目标扩展候选词； S3，将所述多个查询关键词与所述多个目标扩展候选词进行线性融合，生成查询关键词集合；S4，对所述查询关键词集合进行检索，得到最终检索结果。

优选的，所述S1具体包括以下步骤：S11，提供多个查询关键词，得到目标文档集；S12，将所述目标文档集运用于BM25模型，得到所述目标文档集中每一文档的BM25得分，按得分由高至低选出前N篇文档，记为第一文档集；S13，将所述第一文档集运用于BERT模型，得到所述第一文档集中每一文档的BERT得分；S14，将所述目标文档集中每一文档的BM25得分与所述第一文档集中每一文档的BERT得分进行线性融合，得到第二文档集及其每一文档的得分；S15，对所述第二文档集按得分由高至低选出前N'篇文档，作为伪相关文档集。

优选的，所述S2具体包括以下步骤：S21，将所述伪相关文档集中全部的词作为扩展候选词，计算每一扩展候选词本身在所述伪相关文档集中的重要度得分，并按得分由高至低选取前m₁个扩展候选词作为第一扩展候选词集；S22，将从所述伪相关文档集中选取的第i篇文档中的扩展候选词运用于概念网中，得到其在概念网中的语义向量，并将查询关键词运用于概念网中，得到查询关键词在概念网中的语义向量，计算两语义向量间的语义距离；S23，计算每一扩展候选词与全部的查询关键词的语义距离，并按语义距离由小到大选取前m₂个扩展候选词作为第二扩展候选词集；S24，将所述第一扩展候选词集与所述第二扩展候选词集进行融合，得到多个目标扩展候选词。

优选的，所述S21中，所述扩展候选词本身在伪相关文档集中的重要度得分计算公式为：

其中，

表示重要度得分，V(D₁)表示伪相关文档集的向量，

表示伪相关文档集D₁中的第i篇文档d_i中的词

的向量，N表示伪相关文档集合D₁中文档的个数。

优选的，所述S22中，所述语义距离的计算公式为：

其中，

表示语义距离，

表示伪相关文档集中选取第i篇文档中的扩展候选词

在概念网中的语义向量，

表示查询关键词在概念网中的语义向量，N表示伪相关文档集合D₁中文档的个数，Q_s表示查询关键词Q中第s个词，

表示

和

通过余弦相似度进行语义计算。

优选的，所述S23中，扩展候选词与全部的查询关键词的语义距离的计算公式为：

其中，|Q|表示查询关键词的总个数，

表示扩展候选词，Q_s表示查询关键词Q中第s个词，

表示候选扩展词

与所有查询关键词Q的语义距离。

优选的，所述S3中查询关键词集合的计算公式为：

其中，||M||表示对向量M进行归一化运算，Q表示初始用户查询词，θ 和λ是调节因子，范围为[0，1]。

优选的，所述S1中的所述多个查询关键词通过对用户提交的查询主题进行预处理得到。

本发明为解决上述技术问题，提供又一技术方案如下：一种基于概念网语义的反馈模型信息检索系统，所述基于概念网语义的反馈模型信息系统包括处理器和存储器；所述存储器上存储有可被所述处理器执行的计算机可读程序；所述处理器执行所述计算机可读程序时实现如上述任意一项所述的基于概念网语义的反馈模型信息检索方法中的步骤。

本发明为解决上述技术问题，提供又一技术方案如下：一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个多个程序可被一个或者多个处理器执行，以实现如上所述的基于概念网语义的反馈模型信息检索方法中的步骤。

与现有技术相比，本发明所提供的基于概念网语义的反馈模型信息检索方法、系统及介质通过提供多个查询关键词，得到伪相关文档集；根据权重检索模型和概念网的语义查询对所述伪相关文档集进行处理，得到多个目标扩展候选词；将所述多个查询关键词与所述多个目标扩展候选词进行线性融合，生成查询关键词集合；对所述查询关键词集合进行检索，得到最终检索结果。本发明将权重检索模型和概念网的语义查询融入到查询扩展中，使得文档得分和查询扩展词都携带语义特征，和初始查询相比具有更高的语义相关性，能够克服多语义环境下语义混乱的不足，在实际需要中能提取出与查询更相关更有效的信息，提高了检索的精度，节省了检索时间。

附图说明

图1为本发明提供的基于概念网语义的反馈模型信息检索方法的一较佳实施例的流程图；

图2为图1中所示S1的步骤流程示意图；

图3为图1中所示S2的步骤流程示意图。

具体实施方式

本发明提供一种基于概念网语义的反馈模型信息检索方法、设备及介质，为使本发明的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例1

请参阅图1，图1为本发明提供的检索方法的一较佳实施例的流程图。本发明提供的基于概念网语义的反馈模型信息检索方法的流程图S10，包括如下步骤：

S1，提供多个查询关键词，得到伪相关文档集；

S2，根据权重检索模型和概念网的语义查询对所述伪相关文档集进行处理，得到多个目标扩展候选词；

S3，将所述多个查询关键词与所述多个目标扩展候选词进行线性融合，生成查询关键词集合；

S4，对所述查询关键词集合进行检索，得到最终检索结果。

本发明所提供的基于概念网语义的反馈模型信息检索方法通过提供多个查询关键词，得到伪相关文档集；根据权重检索模型和概念网的语义查询对所述伪相关文档集进行处理，得到多个目标扩展候选词；将所述多个查询关键词与所述多个目标扩展候选词进行线性融合，生成查询关键词集合；对所述查询关键词集合进行检索，得到最终检索结果。本发明将权重检索模型和概念网的语义查询融入到查询扩展中，使得文档得分和查询扩展词都携带语义特征，和初始查询相比具有更高的语义相关性，能够克服多语义环境下语义混乱的不足，在实际需要中能提取出与查询更相关更有效的信息，提高了检索的精度，节省了检索时间。

具体地，如图2所示，所述S1具体包括以下步骤：

S11，提供多个查询关键词，得到目标文档集；

S12，将所述目标文档集运用于BM25模型，得到所述目标文档集中每一文档的BM25得分，按得分由高至低选出前N篇文档，记为第一文档集；

S13，将所述第一文档集运用于BERT模型，得到所述第一文档集中每一文档的BERT得分；

S14，将所述目标文档集中每一文档的BM25得分与所述第一文档集中每一文档的BERT得分进行线性融合，得到第二文档集及其每一文档的得分；

S15，对所述第二文档集按得分由高至低选出前N`篇文档，作为伪相关文档集。

当用户根据相关查询主题进行检索时，信息检索系统会根据目标文档集合建立查询索引，当用户提交相关查询主题时，系统会将查询主题进行预处理为查询关键词Q，通过查询关键词Q能检索得到目标文档集。随后检索系统会通过经典检索模型BM25模型来对目标文档集进行集合筛选，计算得到目标文档集中的每一个文档的BM25得分，按得分结果从高到低排列得到第一次查询结果，取出得分高的前N篇文档，记为第一文档集，接着使用BERT模型对第一文档集中的每一文档再次进行评估，基于BERT 语义相似度对第一文档集中的文档中的每个句子与原始查询进行打分，得到第二文档集及其每一文档的得分，对所述第二文档集按得分由高至低选出前N`篇文档，作为伪相关文档集。对于N及N'的选取，本领域技术人员可预设取值，适宜即可。

如图3所示，所述S2具体包括以下步骤：

S21，将所述伪相关文档集中全部的词作为扩展候选词，计算每一扩展候选词本身在所述伪相关文档集中的重要度得分，并按得分由高至低选取前m₁个扩展候选词作为第一扩展候选词集；

S22，将从所述伪相关文档集中选取的第i篇文档中的扩展候选词运用于概念网中，得到其在概念网中的语义向量，并将查询关键词运用于概念网中，得到查询关键词在概念网中的语义向量，计算两语义向量间的语义距离；及

S23，计算每一扩展候选词与全部的查询关键词的语义距离，并按语义距离由小到大选取前m₂个扩展候选词作为第二扩展候选词集；

S24，将所述第一扩展候选词集与所述第二扩展候选词集进行融合，得到多个目标扩展候选词。

通过对伪相关文档集运用权重检索模型和概念网的语义查询来挑选目标扩展候选词，相较于传统BM25模型，得到的扩展候选词精度更高，检索效果更好。

具体地，所述S21中，所述扩展候选词本身在伪相关文档集中的重要度得分计算公式为：

其中，

表示重要度得分，

表示伪相关文档集的向量，

表示伪相关文档集D₁中的第i篇文档d_i中的词

的向量，N表示伪相关文档集合D₁中文档的个数。

所述S22中，所述语义距离的计算公式为：

其中，

表示语义距离，

表示伪相关文档集中选取第i篇文档中的扩展候选词

在概念网中的语义向量，

表示

和

通过余弦相似度进行语义计算。

所述S23中，扩展候选词与全部的查询关键词的语义距离的计算公式为：

其中，|Q|表示查询关键词的总个数，

表示扩展候选词，Q_s表示查询关键词Q中第s个词，

表示候选扩展词

与所有查询关键词Q的语义距离。

将所述多个查询关键词与所述多个目标扩展候选词进行线性融合，生成查询关键词集合，S3中查询关键词集合的计算公式为：

其中，||M||表示对向量M进行归一化运算，Q表示初始用户查询词，θ 和λ是调节因子，范围为[0，1]。θ和λ后期由信息检索领域人员进行实验调节获得，获得其最优值。它的功能是用来平衡原查询词与扩展查询词，以及从不同方面获得的候选扩展词之间的权重，具体实施时可设置为经验值。

通过检索查询关键词集合，得到最终的检索结果，该检索结果依据 BM25模型、BERT模型与概念网语义查询，相较于传统的BM25模型，检索精度更高，反馈效率更好。

本发明还提供了基于概念网语义的反馈模型的信息检索系统，包括处理器以及存储器，所述存储器上存储有计算机程序，所述计算机程序被所述处理器执行时，实现实施例1提供的基于概念网语义的反馈模型信息检索方法。

本实施例提供的基于概念网语义的反馈模型的信息检索系统，用于实现基于概念网语义的反馈模型的信息检索方法，因此，上述基于概念网语义的反馈模型的信息检索方法所具备的技术效果，基于概念网语义的反馈模型的信息检索系统同样具备，在此不再赘述。

实施例3

本发明的实施例3提供了计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现实施例1基于概念网语义的反馈模型的信息检索方法。

本实施例提供的计算机存储介质，用于实现基于概念网语义的反馈模型的信息检索方法，因此，上述基于概念网语义的反馈模型的信息检索方法所具备的技术效果，计算机存储介质同样具备，在此不再赘述。

综上所述，本发明提供的基于概念网语义的反馈模型的信息检索方法、系统及介质中通过提供多个查询关键词，得到伪相关文档集；根据权重检索模型和概念网的语义查询对所述伪相关文档集进行处理，得到多个目标扩展候选词；将所述多个查询关键词与所述多个目标扩展候选词进行线性融合，生成查询关键词集合；对所述查询关键词集合进行检索，得到最终检索结果。本发明将权重检索模型和概念网的语义查询融入到查询扩展中，使得文档得分和查询扩展词都携带语义特征，和初始查询相比具有更高的语义相关性，能够克服多语义环境下语义混乱的不足，在实际需要中能提取出与查询更相关更有效的信息，提高了检索的精度，节省了检索时间。

当然，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关硬件(如处理器，控制器等) 来完成，所述的程序可存储于一计算机可读取的存储介质中，该程序在执行时可包括如上述各方法实施例的流程。其中所述的存储介质可为存储器、磁碟、光盘等。

可以理解的是，对本领域普通技术人员来说，可以根据本发明的技术方案及其发明构思加以等同替换或改变，而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。