CN111723179A

CN111723179A - 基于概念图谱的反馈模型信息检索方法、系统及介质

Info

Publication number: CN111723179A
Application number: CN202010457181.6A
Authority: CN
Inventors: 潘敏; 王晶晶; 陈琦; 裴全力; 赵美玲; 沈雅玲; 徐琦
Original assignee: Hubei Normal University
Current assignee: Hubei Normal University
Priority date: 2020-05-26
Filing date: 2020-05-26
Publication date: 2020-09-29
Anticipated expiration: 2040-05-26
Also published as: CN111723179B

Abstract

本发明公开一种基于概念图谱的反馈模型信息检索方法、系统及介质，通过提供多个查询关键词，并将多个查询关键词通过查询似然模型、概念图谱等进行处理，得到优化后的信息检索结果。所述基于概念图谱的反馈模型信息检索方法、系统及介质通过概念图谱对查询关键词进行优化，从而得到了更加准确的信息检索结果，使得用户查询的效率和效果大幅度提高。

Description

基于概念图谱的反馈模型信息检索方法、系统及介质

技术领域

本发明涉及信息检索技术领域，具体涉及一种基于概念图谱的反馈模型信息检索方法、系统及介质。

背景技术

在数据爆炸的年代，信息资源极其庞大并且越来越趋向多样化增长，如何在浩如烟海的数据中有效全面的获取所需内容成为广大用户所密切关注的问题。那么信息检索(Information Retrieval)技术作为一种有效获取、处理信息的手段应运而生，并以搜索引擎(如百度、谷歌等)的方式和用户见面，相较于传统的纸质信息查找大大缩短了用户搜集信息的时间。随着计算机性能的不断优化，已经出现了大量经典的信息检索模型，如概率模型、语言模型、相关反馈模型等。

在传统的相关反馈模型中，不同相关程度的反馈文档总是被同样的对待，显然不符合一般的认知规律，这就需要进一步对反馈的文档进行筛选和处理，那么寻找一种更加有效的算法融入到相关反馈模型中显得十分有必要。伪相关反馈技术中的对应的语言模型的查询相关模型(Relevance Model)是一种已经被证实效果不错的技术方法，如果选择一种新的扩展语句的方式融入这种传统的方法中，可能会在某方面提高检索的精度。而知识图谱(Knowledge Graph)作为一种展示知识关系和知识序列的结构化图形将大量的数据形象的进行了整理和归类，概念图谱(Concept Graph)作为众多知识图谱中的一类，既能形象化的表征知识又能给予知识相关的信息权重值，这些权重值是基于大量网络数据的统计和分析出来的，对信息检索中扩展词的选择和应用意义深远。查询关键词相关的知识体系越丰富、越具体，那么查询扩展词的加入将会使查询变得更加连贯，这将会让查询结果更加具有说服力。

然而，现有的信息检索技术查询结果精确度不高，也不方便于普通用户的搜索，因此，需要一种运用概念图谱建立完整的知识体系的检索技术来帮助用户获取更加有效的查询结果。

发明内容

本发明的目的在于克服所述技术不足，提出一种基于概念图谱的反馈模型信息检索方法、系统及介质，解决现有技术中信息检索技术检索效率和效果不足的技术问题。

为达到所述技术目的，提供如下的技术方案：一种基于概念图谱的反馈模型信息检索方法，其包括以下步骤：S1，提供查询关键词集合；S2，根据查询似然模型，将所述查询关键词集合中的所有查询关键词运用于该查询似然模型，得到伪相关文档集合；S3，根据概念图谱对所述查询关键词集合中的所有查询关键词进行计算，得到每一查询关键词对应的相关概念词，及每一相关概念词对应的得分；并将所述相关概念词作为扩展候选词，得到扩展候选词与查询关键词的相关度向量；S4，根据一查询相关模型与所述伪相关文档集合建立语言模型，并将该语言模型与查询关键词进行相关度计算，得到基于伪文档的扩展候选词的相关度向量；S5，将根据所述扩展候选词与查询关键词得到的相关度向量，与所述基于伪文档的扩展候选词的相关度向量进行归一化处理后再进行余弦相似度计算，得到第一扩展候选词权重；S6，根据所述第一扩展候选词权重，得到用于检索的扩展候选词集合；S7，将所述扩展候选词集合与查询关键词进行整合，得到查询式；S8，将所述查询式代入所述查询似然模型，得到优化后的信息检索结果。

优选地，所述S2具体包括以下步骤：S21，提供一预设的查询似然模型，将所述多个查询关键词运用于该查询似然模型，得到多个目标文档及每一目标文档与所述查询关键词的相似度得分；S22，将所述多个目标文档按相似度得分由高至低排序，提取前N(N为自然数)个目标文档组成伪相关文档集合。

优选地，在所述S3中，扩展候选词与查询关键词的相关度向量的计算公式为：

其中，K为根据每个相关概念词的得分BLC(Q_i)高低选出的排名靠前的词语个数，Qe为查询关键词Q利用概念图谱的计算方法得到的基于查询词的扩展候选词，Q_i是指查询关键词Q中第i个查询关键词的相关概念词，a⊙b表示a与b进行相关度计算，

为扩展候选词Qe与查询关键词Q的相关度向量。

优选地，在所述S4中，基于伪文档的扩展候选词的相关度向量的计算公式为：

其中，

为基于伪文档的扩展候选词的相关度向量，Doce表示基于伪文档的扩展候选词集合，t_ij表示第i篇伪文档中第j个关键词项，

表示关键词项t_ij在第i篇伪文档语言模型

中出现的概率，

表示第i 篇伪文档语言模型

的先验概率，P(Q|θ_Doc)为查询关键词Q在伪文档语言模型θ_Doc中出现的概率，z表示根据步骤S2所得到的前N(N为自然数)个目标文档的个数，y表示第i篇伪文档中关键词项的总个数。

优选地，在所述S5中，所述第一扩展候选词权重的计算公式为：

其中，a表示基于伪文档的扩展候选词集合Doce中的第a个词，b表示基于查询词的扩展候选词Qe中的第b个词，ρ表示调节变量且0<ρ<1，

表示对向量

的归一化处理。

优选地，在所述S7中，新的查询式计算公式为：

其中，ω∈(0,1)，

且ω和

为调节因子，

为扩展词集合，Q为查询关键词，Q'为新的查询式。

优选地，所述查询关键词集合由用户提供的查询主题进行预处理得到。

优选地，所述用于检索的扩展候选词集合是按所述第一扩展候选词权重由高到低对所述扩展候选词进行排序，取出靠前的前

项得到。

本发明为解决上述技术问题，提供又一技术方案如下：一种基于概念图谱的反馈模型信息检索系统，所述基于概念图谱的反馈模型信息检索系统包括处理器和存储器；所述存储器上存储有可被所述处理器执行的计算机可读程序；所述处理器执行所述计算机可读程序时实现如上述任意一项所述的基于概念图谱的反馈模型信息检索方法中的步骤。

本发明为解决上述技术问题，提供又一技术方案如下：一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个多个程序可被一个或者多个处理器执行，以实现如上所述的基于概念图谱的反馈模型信息检索方法中的步骤。

与现有技术相比，本发明所提供的基于概念图谱的反馈模型信息检索方法、系统及介质通过提供查询关键词集合，将所述查询关键词集合中的所有查询关键词运用于一预设的查询似然模型，得到伪相关文档集合；再利用概念图谱对所述多个查询关键词进行计算，得到每一查询关键词对应的相关概念词，及每一相关概念词对应的得分；并将所述相关概念词作为扩展候选词，得到扩展候选词与查询关键词的相关度向量；利用一查询相关模型与所述伪相关文档集合建立语言模型，并将该语言模型与查询关键词进行相关度计算，得到基于伪文档的扩展候选词的相关度向量；将所述利用扩展候选词与查询关键词得到的相关度向量，与所述基于伪文档的扩展候选词的相关度向量进行归一化处理后再进行余弦相似度计算，得到第一扩展候选词权重；利用所述第一扩展候选词权重，得到用于检索的扩展候选词集合；将所述扩展候选词集合与查询关键词进行整合，得到查询式；最后将所述查询式代入所述查询似然模型，得到优化后的信息检索结果。所述基于概念图谱的反馈模型信息检索方法、系统及介质通过概念图谱对查询关键词进行优化，从而得到了更加准确的信息检索结果，使得用户查询的效率和效果大幅度提高。

附图说明

图1是本发明第一实施例所提供的基于概念图谱的反馈模型信息检索方法的步骤流程示意图；

图2是图1中所示步骤S2的步骤流程示意图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图及实施实例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例1

请参阅图1，本发明的第一实施例提供一种基于概念图谱的反馈模型信息检索方法S10，其包括如下的步骤：

S1，提供查询关键词集合；

S2，根据查询似然模型，将所述查询关键词集合中的所有查询关键词运用于该查询似然模型，得到伪相关文档集合；

S3，根据概念图谱对所述查询关键词集合中的所有查询关键词进行计算，得到每一查询关键词对应的相关概念词，及每一相关概念词对应的得分；并将所述相关概念词作为扩展候选词，得到扩展候选词与查询关键词的相关度向量；

S4，根据一查询相关模型与所述伪相关文档集合建立语言模型，并将该语言模型与查询关键词进行相关度计算，得到基于伪文档的扩展候选词的相关度向量；

S5，将根据所述扩展候选词与查询关键词得到的相关度向量，与所述基于伪文档的扩展候选词的相关度向量进行归一化处理后再进行余弦相似度计算，得到第一扩展候选词权重；

S6，根据所述第一扩展候选词权重，得到用于检索的扩展候选词集合；

S7，将所述扩展候选词集合与查询关键词进行整合，得到查询式；

S8，将所述查询式代入所述查询似然模型，得到优化后的信息检索结果。

需要说明的是，S1中所提供的多个查询关键词是在正常的用户查询下通过预处理提取得到的，通过预处理不仅能够排除查询主题中一些非必要用词(如特殊字符、停用词等)的干扰，还能对查询主题进行词干还原、词性归并，最终得到较为精准的多个查询关键词，有助于提高查询结果的精确度。

S2中将S1中处理好的查询关键词集合运用在查询似然模型(Query LikelihoodModel)中，得到伪相关文档集合。

具体的，如图2所示，所述S2具体包括以下步骤：

S21，提供一预设的查询似然模型，将所述多个查询关键词运用于该查询似然模型，得到多个目标文档及每一目标文档与所述查询关键词的相似度得分；

S22，将所述多个目标文档按相似度得分由高至低排序，提取前N(N 为自然数)个目标文档组成伪相关文档集合。

通过运用预设的方法将处理好的查询关键词运用在查询似然模型中，计算出查询关键词与目标文档集合中每一篇文档的相似度得分，按得分高低取前N篇文档，该N篇文档组成伪相关文档集合。具体实施时，N的值由用户按需求设置。

S3中，把查询关键词置于概念图谱中中心词的位置，把它进行词语联想和关系扩展，在扩展出的查询关键词图谱中去除掉关系动词之后，将产生的相关概念词和这些相关概念词在概念图谱中与查询关键词的得分进行调用并反馈回来，将反馈回来的相关概念词作为基于查询词的扩展候选词，基于查询词的扩展候选词的相关度向量能够通过以下方法计算得出：

在所述公式中，Qe为查询关键词Q利用概念图谱的计算方法得到的基于查询词的扩展候选词集合，即Qe是由全部查询关键词项 Q(Q＝{q₁，q₂，q₃…q_t})的相关概念词中得分排名靠前的K个相关概念词构成的集合，k为根据每个相关概念词的得分BLC(Q_i)高低进行排序,选出的排名靠前的相关概念词语个数，Q_i是指查询关键词Q(Q＝{q₁，q₂，q₃…q_t})中第i(i＝1，2，3…k)个查询关键词项q_i的若干相关概念词，即Q_i是指某一个查询关键词项在概念图谱中联想出来的相关概念词构成的集合，由于不同的查询关键词项q_i可能会产生相同的相关概念词，为了简化获取这些相同的相关概念词，先统计出它们在各自的查询关键词项q_i条件下的得分，再把它们的 BLC(Q_i)分数进行相加，作为该相关概念词的最终得分，a⊙b表示a与b进行相关度计算；

计算查询关键词Q与基于查询词的扩展候选词Qe的相关度时采用了⊙ 计算，该计算方式具体为Jaccard相似度计算，其具体实现方式如下:

其中，|X|表示取X这个集合中的关键词项和这个关键词项对应的权重值，并且设置初始查询关键词Q(Q＝{q₁，q₂，q₃…q_t})中的所有词项的权重值为1，

表示将

中的关键词项和Q中的关键词项进行取交集运算。

S4中，对于S2中得到的N篇文档组成伪相关文档集合Doce，把这些伪相关文档中所有的词作为基于伪文档的扩展候选词，利用查询相关模型 (Relevance Model)对该N篇伪相关文档的得分进行加权整合后建立该N篇伪相关文档集合的语言模型θ_Doc，根据一个词项在文档中出现的概率越高，表示该关键词项在该文档中的重要程度就越高的规律，将伪相关文档中的词t_ij与查询关键词Q进行相关度计算得到基于伪相关文档的扩展候选词Doce的相关度向量

其计算方法如下：

在公式(2)中，Doce表示基于N篇伪相关文档的扩展候选词集合，t_ij表示第i篇文档中第j个关键词项，其中，i的取值为i＝1，2，3…N，j的取值范围从0到该篇伪相关文档的总词数大小，

表示根据第i篇伪相关文档在N 篇伪相关文档中的权重值建立的该第i篇伪相关文档的语言模型，

表示关键词项t_ij在第i篇伪相关文档的语言模型

中出现的概率，若不同的伪相关文档中出现相同的关键词项，那么先分别算出该关键词项在各自文档中的概率得分，然后再将该关键词项的得分进行累加即为该关键词项的最终得分，

表示伪相关文档模型

建立时的先验概率，通常假设为一个统一值，P(Q|θ_Doc)为查询关键词Q在伪相关文档模型θ_Doc中出现的概率，z表示根据S2所得到的z篇伪相关文档个数，y表示第i篇伪相关文档中关键词项的总个数。

S5中，将S3得到的扩展候选词与查询关键词的相关度向量

和S4 得到的基于伪文档的扩展候选词的相关度向量

进行归一化之后，进行余弦相似度计算得到第一扩展候选词权重

具体地，由于无法预测扩展词向量的大小分布趋势，故对S3得到的扩展候选词与查询关键词的相关度向量

和S4得到的基于伪文档的扩展候选词的相关度向量

采用线性函数归一化的方法，归一化后的

和

可分别表示为：

其中，

表示对向量

的归一化处理，

表示该组向量中的最小值向量，

表示该组向量中的最大值向量。

进一步地，将归一化好的基于查询词的扩展候选词Qe的相关度向量

和基于伪相关文档的扩展候选词Doce的向量

进行余弦相似度计算，得到第一扩展候选词权重

其计算如下：

其中，a表示基于伪文档的扩展候选词集合Doce中的第a个词，b表示基于查询词的扩展候选词Qe中第b个词，ρ表示调节变量，用于调节基于伪文档的扩展候选词和基于查询词的扩展候选词的权重关系，且ρ的取值范围为 0＜ρ＜1。

S6中，根据S5得到新的查询扩展词语的新得分中，得分越高，代表两个向量之间的相似度也越高，接着按照每个查询扩展词的得分高低进行从高到低排序，取出靠前的前

项作为用于检索的扩展候选词集合

S7中，将S6中得到的扩展候选词集合

与原始查询关键词Q进行进一步整合得到新的查询式子Q'，其整合方式如下：

在公式(4)中采取了归一化方法，即线性函数归一化法，其中，ω∈(0,1)，

一般情况下且

的取值为1，ω和

均为调节因子，用于调节扩展词

在新的查询式子中的权重大小。

S8中，将S7中的所述查询式代入查询似然模型进行第二次信息检索，得到优化后的信息检索结果。

依照本发明所提供的将概念图谱的相关概念词考虑进查询扩展词得到语义增强的效果的反馈模型信息检索方法，能够充分挖掘查询关键词的内在关联词和属性概念词，而在传统的方法中，考虑到查询词的语义信息时却难以真正实现目标文档内容的有效匹配。那么通过概念图谱反馈的每一个查询关键词的相关概念词的权重，就能合理的将权重值高的词语有机整合到原有的查询中，再与传统的方法能够从伪相关文档中挑选合适的相关词相结合，就能扩展出更加有效的查询词，使得最终的查询语句不仅能够显著提高信息检索结果的正确率还能给市场带来一定的效益，对社会产生了积极作用。

实施例2

本发明还提供了基于概念图谱的反馈模型信息检索系统，包括处理器以及存储器，所述存储器上存储有计算机程序，所述计算机程序被所述处理器执行时，实现实施例1提供的基于概念图谱的反馈模型信息检索方法。

本实施例提供的基于概念图谱的反馈模型信息检索系统，用于实现基于概念图谱的反馈模型信息检索方法，因此，上述基于概念图谱的反馈模型信息检索方法所具备的技术效果，基于概念图谱的反馈模型信息检索系统同样具备，在此不再赘述。

实施例3

本发明的实施例3提供了计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现实施例1基于概念图谱的反馈模型信息检索方法。

本实施例提供的计算机存储介质，用于实现基于概念图谱的反馈模型信息检索方法，因此，上述基于概念图谱的反馈模型信息检索方法所具备的技术效果，计算机存储介质同样具备，在此不再赘述。

需要说明的是，在具体实施本发明提供的技术方案时，可采用软件技术实现所述流程的自动化运行，如Java、Eclipse、PyCharm等软件，均可运用于该项技术的开发。

综上所述，本发明所提供的基于概念图谱的反馈模型信息检索方法、系统及介质通过提供查询关键词集合，将所述查询关键词集合中的所有查询关键词运用于一预设的查询似然模型，得到伪相关文档集合；再利用概念图谱对所述多个查询关键词进行计算，得到每一查询关键词对应的相关概念词，及每一相关概念词对应的得分；并将所述相关概念词作为扩展候选词，得到扩展候选词与查询关键词的相关度向量；利用一查询相关模型与所述伪相关文档集合建立语言模型，并将该语言模型与查询关键词进行相关度计算，得到基于伪文档的扩展候选词的相关度向量；将所述利用扩展候选词与查询关键词得到的相关度向量，与所述基于伪文档的扩展候选词的相关度向量进行归一化处理后再进行余弦相似度计算，得到第一扩展候选词权重；利用所述第一扩展候选词权重，得到用于检索的扩展候选词集合；将所述扩展候选词集合与查询关键词进行整合，得到查询式；最后将所述查询式代入所述查询似然模型，得到优化后的信息检索结果。所述基于概念图谱的反馈模型信息检索方法、系统及介质通过概念图谱对查询关键词进行优化，从而得到了更加准确的信息检索结果，使得用户查询的效率和效果大幅度提高。

以上所述本发明的具体实施方式，并不构成对本发明保护范围的限定。任何根据本发明的技术构思所做出的各种其他相应的改变与变形，均应包含在本发明权利要求的保护范围内。