CN111723179A - 基于概念图谱的反馈模型信息检索方法、系统及介质 - Google Patents

基于概念图谱的反馈模型信息检索方法、系统及介质 Download PDF

Info

Publication number
CN111723179A
CN111723179A CN202010457181.6A CN202010457181A CN111723179A CN 111723179 A CN111723179 A CN 111723179A CN 202010457181 A CN202010457181 A CN 202010457181A CN 111723179 A CN111723179 A CN 111723179A
Authority
CN
China
Prior art keywords
query
information retrieval
pseudo
concept
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010457181.6A
Other languages
English (en)
Other versions
CN111723179B (zh
Inventor
潘敏
王晶晶
陈琦
裴全力
赵美玲
沈雅玲
徐琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei Normal University
Original Assignee
Hubei Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei Normal University filed Critical Hubei Normal University
Priority to CN202010457181.6A priority Critical patent/CN111723179B/zh
Publication of CN111723179A publication Critical patent/CN111723179A/zh
Application granted granted Critical
Publication of CN111723179B publication Critical patent/CN111723179B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开一种基于概念图谱的反馈模型信息检索方法、系统及介质,通过提供多个查询关键词,并将多个查询关键词通过查询似然模型、概念图谱等进行处理,得到优化后的信息检索结果。所述基于概念图谱的反馈模型信息检索方法、系统及介质通过概念图谱对查询关键词进行优化,从而得到了更加准确的信息检索结果,使得用户查询的效率和效果大幅度提高。

Description

基于概念图谱的反馈模型信息检索方法、系统及介质
技术领域
本发明涉及信息检索技术领域,具体涉及一种基于概念图谱的反馈模 型信息检索方法、系统及介质。
背景技术
在数据爆炸的年代,信息资源极其庞大并且越来越趋向多样化增长, 如何在浩如烟海的数据中有效全面的获取所需内容成为广大用户所密切关 注的问题。那么信息检索(Information Retrieval)技术作为一种有效获取、 处理信息的手段应运而生,并以搜索引擎(如百度、谷歌等)的方式和用 户见面,相较于传统的纸质信息查找大大缩短了用户搜集信息的时间。随 着计算机性能的不断优化,已经出现了大量经典的信息检索模型,如概率 模型、语言模型、相关反馈模型等。
在传统的相关反馈模型中,不同相关程度的反馈文档总是被同样的对 待,显然不符合一般的认知规律,这就需要进一步对反馈的文档进行筛选 和处理,那么寻找一种更加有效的算法融入到相关反馈模型中显得十分有 必要。伪相关反馈技术中的对应的语言模型的查询相关模型(Relevance Model)是一种已经被证实效果不错的技术方法,如果选择一种新的扩展语 句的方式融入这种传统的方法中,可能会在某方面提高检索的精度。而知识图谱(Knowledge Graph)作为一种展示知识关系和知识序列的结构化图 形将大量的数据形象的进行了整理和归类,概念图谱(Concept Graph)作 为众多知识图谱中的一类,既能形象化的表征知识又能给予知识相关的信 息权重值,这些权重值是基于大量网络数据的统计和分析出来的,对信息 检索中扩展词的选择和应用意义深远。查询关键词相关的知识体系越丰富、 越具体,那么查询扩展词的加入将会使查询变得更加连贯,这将会让查询结果更加具有说服力。
然而,现有的信息检索技术查询结果精确度不高,也不方便于普通用 户的搜索,因此,需要一种运用概念图谱建立完整的知识体系的检索技术 来帮助用户获取更加有效的查询结果。
发明内容
本发明的目的在于克服所述技术不足,提出一种基于概念图谱的反馈 模型信息检索方法、系统及介质,解决现有技术中信息检索技术检索效率 和效果不足的技术问题。
为达到所述技术目的,提供如下的技术方案:一种基于概念图谱的反 馈模型信息检索方法,其包括以下步骤:S1,提供查询关键词集合;S2, 根据查询似然模型,将所述查询关键词集合中的所有查询关键词运用于该 查询似然模型,得到伪相关文档集合;S3,根据概念图谱对所述查询关键 词集合中的所有查询关键词进行计算,得到每一查询关键词对应的相关概 念词,及每一相关概念词对应的得分;并将所述相关概念词作为扩展候选词,得到扩展候选词与查询关键词的相关度向量;S4,根据一查询相关模型与 所述伪相关文档集合建立语言模型,并将该语言模型与查询关键词进行相 关度计算,得到基于伪文档的扩展候选词的相关度向量;S5,将根据所述 扩展候选词与查询关键词得到的相关度向量,与所述基于伪文档的扩展候 选词的相关度向量进行归一化处理后再进行余弦相似度计算,得到第一扩 展候选词权重;S6,根据所述第一扩展候选词权重,得到用于检索的扩展 候选词集合;S7,将所述扩展候选词集合与查询关键词进行整合,得到查 询式;S8,将所述查询式代入所述查询似然模型,得到优化后的信息检索 结果。
优选地,所述S2具体包括以下步骤:S21,提供一预设的查询似然模 型,将所述多个查询关键词运用于该查询似然模型,得到多个目标文档及 每一目标文档与所述查询关键词的相似度得分;S22,将所述多个目标文档 按相似度得分由高至低排序,提取前N(N为自然数)个目标文档组成伪 相关文档集合。
优选地,在所述S3中,扩展候选词与查询关键词的相关度向量的计算 公式为:
Figure BDA0002509778180000031
其中,K为根据每个相关概念词的得分BLC(Qi)高低选出的排名靠前的 词语个数,Qe为查询关键词Q利用概念图谱的计算方法得到的基于查询词的 扩展候选词,Qi是指查询关键词Q中第i个查询关键词的相关概念词,a⊙b表 示a与b进行相关度计算,
Figure BDA0002509778180000032
为扩展候选词Qe与查询关键词Q的相关度 向量。
优选地,在所述S4中,基于伪文档的扩展候选词的相关度向量的计算 公式为:
Figure BDA0002509778180000041
其中,
Figure BDA0002509778180000042
为基于伪文档的扩展候选词的相关度向量,Doce表示基 于伪文档的扩展候选词集合,tij表示第i篇伪文档中第j个关键词项,
Figure BDA0002509778180000043
表示关键词项tij在第i篇伪文档语言模型
Figure BDA0002509778180000044
中出现的概率,
Figure BDA0002509778180000045
表示第i 篇伪文档语言模型
Figure BDA0002509778180000046
的先验概率,P(Q|θDoc)为查询关键词Q在伪文档语言模 型θDoc中出现的概率,z表示根据步骤S2所得到的前N(N为自然数)个目标 文档的个数,y表示第i篇伪文档中关键词项的总个数。
优选地,在所述S5中,所述第一扩展候选词权重的计算公式为:
Figure BDA0002509778180000047
其中,a表示基于伪文档的扩展候选词集合Doce中的第a个词,b表示基 于查询词的扩展候选词Qe中的第b个词,ρ表示调节变量且0<ρ<1,
Figure BDA0002509778180000048
表 示对向量
Figure BDA0002509778180000049
的归一化处理。
优选地,在所述S7中,新的查询式计算公式为:
Figure BDA00025097781800000410
其中,ω∈(0,1),
Figure BDA00025097781800000411
且ω和
Figure BDA00025097781800000412
为调节因子,
Figure BDA00025097781800000413
为扩展词集合,Q为 查询关键词,Q'为新的查询式。
优选地,所述查询关键词集合由用户提供的查询主题进行预处理得到。
优选地,所述用于检索的扩展候选词集合是按所述第一扩展候选词权 重由高到低对所述扩展候选词进行排序,取出靠前的前
Figure BDA00025097781800000414
项得到。
本发明为解决上述技术问题,提供又一技术方案如下:一种基于概念 图谱的反馈模型信息检索系统,所述基于概念图谱的反馈模型信息检索系 统包括处理器和存储器;所述存储器上存储有可被所述处理器执行的计算 机可读程序;所述处理器执行所述计算机可读程序时实现如上述任意一项 所述的基于概念图谱的反馈模型信息检索方法中的步骤。
本发明为解决上述技术问题,提供又一技术方案如下:一种计算机可 读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一 个多个程序可被一个或者多个处理器执行,以实现如上所述的基于概念图 谱的反馈模型信息检索方法中的步骤。
与现有技术相比,本发明所提供的基于概念图谱的反馈模型信息检索 方法、系统及介质通过提供查询关键词集合,将所述查询关键词集合中的 所有查询关键词运用于一预设的查询似然模型,得到伪相关文档集合;再利 用概念图谱对所述多个查询关键词进行计算,得到每一查询关键词对应的 相关概念词,及每一相关概念词对应的得分;并将所述相关概念词作为扩展 候选词,得到扩展候选词与查询关键词的相关度向量;利用一查询相关模 型与所述伪相关文档集合建立语言模型,并将该语言模型与查询关键词进 行相关度计算,得到基于伪文档的扩展候选词的相关度向量;将所述利用 扩展候选词与查询关键词得到的相关度向量,与所述基于伪文档的扩展候 选词的相关度向量进行归一化处理后再进行余弦相似度计算,得到第一扩 展候选词权重;利用所述第一扩展候选词权重,得到用于检索的扩展候选 词集合;将所述扩展候选词集合与查询关键词进行整合,得到查询式;最 后将所述查询式代入所述查询似然模型,得到优化后的信息检索结果。所 述基于概念图谱的反馈模型信息检索方法、系统及介质通过概念图谱对查 询关键词进行优化,从而得到了更加准确的信息检索结果,使得用户查询 的效率和效果大幅度提高。
附图说明
图1是本发明第一实施例所提供的基于概念图谱的反馈模型信息检索 方法的步骤流程示意图;
图2是图1中所示步骤S2的步骤流程示意图。
具体实施方式
为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图 及实施实例,对本发明进行进一步详细说明。应当理解,此处所描述的具 体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1
请参阅图1,本发明的第一实施例提供一种基于概念图谱的反馈模型信 息检索方法S10,其包括如下的步骤:
S1,提供查询关键词集合;
S2,根据查询似然模型,将所述查询关键词集合中的所有查询关键词 运用于该查询似然模型,得到伪相关文档集合;
S3,根据概念图谱对所述查询关键词集合中的所有查询关键词进行计 算,得到每一查询关键词对应的相关概念词,及每一相关概念词对应的得 分;并将所述相关概念词作为扩展候选词,得到扩展候选词与查询关键词的 相关度向量;
S4,根据一查询相关模型与所述伪相关文档集合建立语言模型,并将 该语言模型与查询关键词进行相关度计算,得到基于伪文档的扩展候选词 的相关度向量;
S5,将根据所述扩展候选词与查询关键词得到的相关度向量,与所述 基于伪文档的扩展候选词的相关度向量进行归一化处理后再进行余弦相似 度计算,得到第一扩展候选词权重;
S6,根据所述第一扩展候选词权重,得到用于检索的扩展候选词集合;
S7,将所述扩展候选词集合与查询关键词进行整合,得到查询式;
S8,将所述查询式代入所述查询似然模型,得到优化后的信息检索结 果。
需要说明的是,S1中所提供的多个查询关键词是在正常的用户查询下 通过预处理提取得到的,通过预处理不仅能够排除查询主题中一些非必要 用词(如特殊字符、停用词等)的干扰,还能对查询主题进行词干还原、 词性归并,最终得到较为精准的多个查询关键词,有助于提高查询结果的 精确度。
S2中将S1中处理好的查询关键词集合运用在查询似然模型(Query LikelihoodModel)中,得到伪相关文档集合。
具体的,如图2所示,所述S2具体包括以下步骤:
S21,提供一预设的查询似然模型,将所述多个查询关键词运用于该查 询似然模型,得到多个目标文档及每一目标文档与所述查询关键词的相似 度得分;
S22,将所述多个目标文档按相似度得分由高至低排序,提取前N(N 为自然数)个目标文档组成伪相关文档集合。
通过运用预设的方法将处理好的查询关键词运用在查询似然模型中, 计算出查询关键词与目标文档集合中每一篇文档的相似度得分,按得分高 低取前N篇文档,该N篇文档组成伪相关文档集合。具体实施时,N的值由 用户按需求设置。
S3中,把查询关键词置于概念图谱中中心词的位置,把它进行词语联 想和关系扩展,在扩展出的查询关键词图谱中去除掉关系动词之后,将产 生的相关概念词和这些相关概念词在概念图谱中与查询关键词的得分进行 调用并反馈回来,将反馈回来的相关概念词作为基于查询词的扩展候选词, 基于查询词的扩展候选词的相关度向量能够通过以下方法计算得出:
Figure BDA0002509778180000081
在所述公式中,Qe为查询关键词Q利用概念图谱的计算方法得到的基于 查询词的扩展候选词集合,即Qe是由全部查询关键词项 Q(Q={q1,q2,q3…qt})的相关概念词中得分排名靠前的K个相关概念词构成 的集合,k为根据每个相关概念词的得分BLC(Qi)高低进行排序,选出的排名 靠前的相关概念词语个数,Qi是指查询关键词Q(Q={q1,q2,q3…qt})中第i(i=1,2,3…k)个查询关键词项qi的若干相关概念词,即Qi是指某一个查询 关键词项在概念图谱中联想出来的相关概念词构成的集合,由于不同的查 询关键词项qi可能会产生相同的相关概念词,为了简化获取这些相同的相关 概念词,先统计出它们在各自的查询关键词项qi条件下的得分,再把它们的 BLC(Qi)分数进行相加,作为该相关概念词的最终得分,a⊙b表示a与b进 行相关度计算;
计算查询关键词Q与基于查询词的扩展候选词Qe的相关度时采用了⊙ 计算,该计算方式具体为Jaccard相似度计算,其具体实现方式如下:
Figure BDA0002509778180000091
其中,|X|表示取X这个集合中的关键词项和这个关键词项对应的权重 值,并且设置初始查询关键词Q(Q={q1,q2,q3…qt})中的所有词项的权重值 为1,
Figure BDA0002509778180000092
表示将
Figure BDA0002509778180000093
中的关键词项和Q中的 关键词项进行取交集运算。
S4中,对于S2中得到的N篇文档组成伪相关文档集合Doce,把这些伪 相关文档中所有的词作为基于伪文档的扩展候选词,利用查询相关模型 (Relevance Model)对该N篇伪相关文档的得分进行加权整合后建立该N篇 伪相关文档集合的语言模型θDoc,根据一个词项在文档中出现的概率越高, 表示该关键词项在该文档中的重要程度就越高的规律,将伪相关文档中的 词tij与查询关键词Q进行相关度计算得到基于伪相关文档的扩展候选词Doce的相关度向量
Figure BDA0002509778180000094
其计算方法如下:
Figure RE-GDA0002641507480000095
在公式(2)中,Doce表示基于N篇伪相关文档的扩展候选词集合,tij表 示第i篇文档中第j个关键词项,其中,i的取值为i=1,2,3…N,j的取值范 围从0到该篇伪相关文档的总词数大小,
Figure BDA0002509778180000096
表示根据第i篇伪相关文档在N 篇伪相关文档中的权重值建立的该第i篇伪相关文档的语言模型,
Figure BDA0002509778180000097
表示关键词项tij在第i篇伪相关文档的语言模型
Figure BDA0002509778180000098
中出现的概率,若不同的 伪相关文档中出现相同的关键词项,那么先分别算出该关键词项在各自文 档中的概率得分,然后再将该关键词项的得分进行累加即为该关键词项的 最终得分,
Figure BDA0002509778180000099
表示伪相关文档模型
Figure BDA00025097781800000910
建立时的先验概率,通常假设为 一个统一值,P(Q|θDoc)为查询关键词Q在伪相关文档模型θDoc中出现的概率,z表示根据S2所得到的z篇伪相关文档个数,y表示第i篇伪相关文档中关键 词项的总个数。
S5中,将S3得到的扩展候选词与查询关键词的相关度向量
Figure BDA0002509778180000101
和S4 得到的基于伪文档的扩展候选词的相关度向量
Figure BDA0002509778180000102
进行归一化之后, 进行余弦相似度计算得到第一扩展候选词权重
Figure BDA0002509778180000103
具体地,由于无法预测扩展词向量的大小分布趋势,故对S3得到的扩 展候选词与查询关键词的相关度向量
Figure BDA0002509778180000104
和S4得到的基于伪文档的扩 展候选词的相关度向量
Figure BDA0002509778180000105
采用线性函数归一化的方法,归一化后的
Figure BDA0002509778180000106
Figure BDA0002509778180000107
可分别表示为:
Figure BDA0002509778180000108
Figure BDA0002509778180000109
其中,
Figure BDA00025097781800001010
表示对向量
Figure BDA00025097781800001011
的归一化处理,
Figure BDA00025097781800001012
表示该组向量中的最小值 向量,
Figure BDA00025097781800001013
表示该组向量中的最大值向量。
进一步地,将归一化好的基于查询词的扩展候选词Qe的相关度向量
Figure BDA00025097781800001014
和基于伪相关文档的扩展候选词Doce的向量
Figure BDA00025097781800001015
进行 余弦相似度计算,得到第一扩展候选词权重
Figure BDA00025097781800001016
其 计算如下:
Figure BDA00025097781800001017
其中,a表示基于伪文档的扩展候选词集合Doce中的第a个词,b表示基 于查询词的扩展候选词Qe中第b个词,ρ表示调节变量,用于调节基于伪文 档的扩展候选词和基于查询词的扩展候选词的权重关系,且ρ的取值范围为 0<ρ<1。
S6中,根据S5得到新的查询扩展词语的新得分中,得分越高,代表两 个向量之间的相似度也越高,接着按照每个查询扩展词的得分高低进行从 高到低排序,取出靠前的前
Figure BDA0002509778180000111
项作为用于检索的扩展候选词集合
Figure BDA0002509778180000112
S7中,将S6中得到的扩展候选词集合
Figure BDA0002509778180000113
与原始查询关键词Q进行进一 步整合得到新的查询式子Q',其整合方式如下:
Figure BDA0002509778180000114
在公式(4)中采取了归一化方法,即线性函数归一化法,其中,ω∈(0,1),
Figure BDA0002509778180000115
一般情况下且
Figure BDA0002509778180000116
的取值为1,ω和
Figure BDA0002509778180000117
均为调节因子,用于调节扩展 词
Figure BDA0002509778180000118
在新的查询式子中的权重大小。
S8中,将S7中的所述查询式代入查询似然模型进行第二次信息检索, 得到优化后的信息检索结果。
依照本发明所提供的将概念图谱的相关概念词考虑进查询扩展词得到 语义增强的效果的反馈模型信息检索方法,能够充分挖掘查询关键词的内 在关联词和属性概念词,而在传统的方法中,考虑到查询词的语义信息时 却难以真正实现目标文档内容的有效匹配。那么通过概念图谱反馈的每一 个查询关键词的相关概念词的权重,就能合理的将权重值高的词语有机整 合到原有的查询中,再与传统的方法能够从伪相关文档中挑选合适的相关 词相结合,就能扩展出更加有效的查询词,使得最终的查询语句不仅能够 显著提高信息检索结果的正确率还能给市场带来一定的效益,对社会产生 了积极作用。
实施例2
本发明还提供了基于概念图谱的反馈模型信息检索系统,包括处理器 以及存储器,所述存储器上存储有计算机程序,所述计算机程序被所述处 理器执行时,实现实施例1提供的基于概念图谱的反馈模型信息检索方法。
本实施例提供的基于概念图谱的反馈模型信息检索系统,用于实现基 于概念图谱的反馈模型信息检索方法,因此,上述基于概念图谱的反馈模 型信息检索方法所具备的技术效果,基于概念图谱的反馈模型信息检索系 统同样具备,在此不再赘述。
实施例3
本发明的实施例3提供了计算机存储介质,其上存储有计算机程序, 所述计算机程序被处理器执行时,实现实施例1基于概念图谱的反馈模型 信息检索方法。
本实施例提供的计算机存储介质,用于实现基于概念图谱的反馈模型 信息检索方法,因此,上述基于概念图谱的反馈模型信息检索方法所具备 的技术效果,计算机存储介质同样具备,在此不再赘述。
需要说明的是,在具体实施本发明提供的技术方案时,可采用软件技 术实现所述流程的自动化运行,如Java、Eclipse、PyCharm等软件,均可运 用于该项技术的开发。
综上所述,本发明所提供的基于概念图谱的反馈模型信息检索方法、 系统及介质通过提供查询关键词集合,将所述查询关键词集合中的所有查 询关键词运用于一预设的查询似然模型,得到伪相关文档集合;再利用概念 图谱对所述多个查询关键词进行计算,得到每一查询关键词对应的相关概 念词,及每一相关概念词对应的得分;并将所述相关概念词作为扩展候选词, 得到扩展候选词与查询关键词的相关度向量;利用一查询相关模型与所述 伪相关文档集合建立语言模型,并将该语言模型与查询关键词进行相关度 计算,得到基于伪文档的扩展候选词的相关度向量;将所述利用扩展候选 词与查询关键词得到的相关度向量,与所述基于伪文档的扩展候选词的相 关度向量进行归一化处理后再进行余弦相似度计算,得到第一扩展候选词 权重;利用所述第一扩展候选词权重,得到用于检索的扩展候选词集合; 将所述扩展候选词集合与查询关键词进行整合,得到查询式;最后将所述 查询式代入所述查询似然模型,得到优化后的信息检索结果。所述基于概 念图谱的反馈模型信息检索方法、系统及介质通过概念图谱对查询关键词 进行优化,从而得到了更加准确的信息检索结果,使得用户查询的效率和 效果大幅度提高。
以上所述本发明的具体实施方式,并不构成对本发明保护范围的限定。 任何根据本发明的技术构思所做出的各种其他相应的改变与变形,均应包 含在本发明权利要求的保护范围内。

Claims (10)

1.一种基于概念图谱的反馈模型信息检索方法,其特征在于:其包括以下步骤:
S1,提供查询关键词集合;
S2,根据查询似然模型,将所述查询关键词集合中的所有查询关键词运用于该查询似然模型,得到伪相关文档集合;
S3,根据概念图谱对所述查询关键词集合中的所有查询关键词进行计算,得到每一查询关键词对应的相关概念词,及每一相关概念词对应的得分;并将所述相关概念词作为扩展候选词,得到扩展候选词与查询关键词的相关度向量;
S4,根据一查询相关模型与所述伪相关文档集合建立语言模型,并将该语言模型与查询关键词进行相关度计算,得到基于伪文档的扩展候选词的相关度向量;
S5,将根据所述扩展候选词与查询关键词得到的相关度向量,与所述基于伪文档的扩展候选词的相关度向量进行归一化处理后再进行余弦相似度计算,得到第一扩展候选词权重;
S6,根据所述第一扩展候选词权重,得到用于检索的扩展候选词集合;
S7,将所述扩展候选词集合与查询关键词进行整合,得到查询式;
S8,将所述查询式代入所述查询似然模型,得到优化后的信息检索结果。
2.如权利要求1中所述的一种基于概念图谱的反馈模型信息检索方法,其特征在于:所述S2具体包括以下步骤:
S21,提供一预设的查询似然模型,将所述多个查询关键词运用于该查询似然模型,得到多个目标文档及每一目标文档与所述查询关键词的相似度得分;
S22,将所述多个目标文档按相似度得分由高至低排序,提取前N(N为自然数)个目标文档组成伪相关文档集合。
3.如权利要求1中所述的一种基于概念图谱的反馈模型信息检索方法,其特征在于:在所述S3中,扩展候选词与查询关键词的相关度向量的计算公式为:
Figure FDA0002509778170000021
其中,k为根据每个相关概念词的得分BLC(Qi)高低选出的排名靠前的词语个数,Qe为查询关键词Q利用概念图谱的计算方法得到的基于查询词的扩展候选词,Qi是指查询关键词Q中第i个查询关键词的相关概念词,a⊙b表示a与b进行相关度计算,
Figure FDA0002509778170000022
为扩展候选词Qe与查询关键词Q的相关度向量。
4.如权利要求1中所述的一种基于概念图谱的反馈模型信息检索方法,其特征在于:在所述S4中,基于伪文档的扩展候选词的相关度向量的计算公式为:
Figure FDA0002509778170000023
其中,
Figure FDA0002509778170000024
为基于伪文档的扩展候选词的相关度向量,Doce表示基于伪文档的扩展候选词集合,tij表示第i篇伪文档中第j个关键词项,
Figure FDA0002509778170000025
表示关键词项tij在第i篇伪文档语言模型
Figure FDA0002509778170000026
中出现的概率,
Figure FDA0002509778170000027
表示第i篇伪文档语言模型
Figure FDA0002509778170000031
的先验概率,P(Q|θDoc)为查询关键词Q在伪文档语言模型
Figure FDA0002509778170000032
中出现的概率,z表示根据S2所得到的前N(N为自然数)个目标文档的个数,y表示第i篇伪文档中关键词项的总个数。
5.如权利要求1中所述的一种基于概念图谱的反馈模型信息检索方法,其特征在于:在所述S5中,所述第一扩展候选词权重的计算公式为:
Figure FDA0002509778170000033
其中,a表示基于伪文档的扩展候选词集合Doce中的第a个词,b表示基于查询词的扩展候选词Qe中的第b个词,ρ表示调节变量且0<ρ<1,
Figure FDA0002509778170000034
表示对向量
Figure FDA0002509778170000035
的归一化处理。
6.如权利要求1中所述的一种基于概念图谱的反馈模型信息检索方法,其特征在于:在所述S7中,新的查询式计算公式为:
Figure FDA0002509778170000036
其中,ω∈(0,1),
Figure FDA0002509778170000037
且ω和
Figure FDA0002509778170000038
为调节因子,
Figure FDA0002509778170000039
为扩展词集合,Q为查询关键词,Q'为新的查询式。
7.如权利要求1中所述的一种基于概念图谱的反馈模型信息检索方法,其特征在于:所述查询关键词集合由用户提供的查询主题进行预处理得到。
8.如权利要求1中所述的一种基于概念图谱的反馈模型信息检索方法,其特征在于:所述用于检索的扩展候选词集合是按所述第一扩展候选词权重由高到低对所述扩展候选词进行排序,取出靠前的前
Figure FDA00025097781700000310
项得到。
9.一种基于概念图谱的反馈模型信息检索系统,其特征在于:包括处理器以及存储器,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时,实现如权利要求1-8任一所述的基于概念图谱的反馈模型信息检索。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于:所述计算机该程序被处理器执行时,实现如权利要求1-8任一所述的基于概念图谱的反馈模型信息检索。
CN202010457181.6A 2020-05-26 2020-05-26 基于概念图谱的反馈模型信息检索方法、系统及介质 Active CN111723179B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010457181.6A CN111723179B (zh) 2020-05-26 2020-05-26 基于概念图谱的反馈模型信息检索方法、系统及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010457181.6A CN111723179B (zh) 2020-05-26 2020-05-26 基于概念图谱的反馈模型信息检索方法、系统及介质

Publications (2)

Publication Number Publication Date
CN111723179A true CN111723179A (zh) 2020-09-29
CN111723179B CN111723179B (zh) 2023-07-07

Family

ID=72565176

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010457181.6A Active CN111723179B (zh) 2020-05-26 2020-05-26 基于概念图谱的反馈模型信息检索方法、系统及介质

Country Status (1)

Country Link
CN (1) CN111723179B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732883A (zh) * 2020-12-31 2021-04-30 平安科技(深圳)有限公司 基于知识图谱的模糊匹配方法、装置和计算机设备

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080104061A1 (en) * 2006-10-27 2008-05-01 Netseer, Inc. Methods and apparatus for matching relevant content to user intention
US20100070521A1 (en) * 2008-09-18 2010-03-18 Xerox Corporation Query translation through dictionary adaptation
CN103593792A (zh) * 2013-11-13 2014-02-19 复旦大学 一种基于中文知识图谱的个性化推荐方法与系统
US9218427B1 (en) * 2015-01-21 2015-12-22 Maana, Inc. Dynamic semantic models having multiple indices
JP2016091331A (ja) * 2014-11-05 2016-05-23 日本放送協会 検索装置、検索方法及び検索プログラム
CN107247745A (zh) * 2017-05-23 2017-10-13 华中师范大学 一种基于伪相关反馈模型的信息检索方法及系统
CN107423371A (zh) * 2017-07-03 2017-12-01 湖北师范大学 一种文本正负类情感分类方法
CN108920527A (zh) * 2018-06-07 2018-11-30 桂林电子科技大学 一种基于知识图谱的个性化推荐方法
US20190065612A1 (en) * 2017-08-24 2019-02-28 Microsoft Technology Licensing, Llc Accuracy of job retrieval using a universal concept graph
CN109829104A (zh) * 2019-01-14 2019-05-31 华中师范大学 基于语义相似度的伪相关反馈模型信息检索方法及系统
CN110851613A (zh) * 2019-09-09 2020-02-28 中国电子科技集团公司电子科学研究院 基于实体概念的知识图谱补全、推演、存储方法及装置
CN110879834A (zh) * 2019-11-27 2020-03-13 福州大学 一种基于循环卷积网络的观点检索系统及其观点检索方法
CN111159333A (zh) * 2019-12-09 2020-05-15 芜湖乐哈哈信息科技有限公司 藏文期刊论文检索系统

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080104061A1 (en) * 2006-10-27 2008-05-01 Netseer, Inc. Methods and apparatus for matching relevant content to user intention
US20100070521A1 (en) * 2008-09-18 2010-03-18 Xerox Corporation Query translation through dictionary adaptation
CN103593792A (zh) * 2013-11-13 2014-02-19 复旦大学 一种基于中文知识图谱的个性化推荐方法与系统
JP2016091331A (ja) * 2014-11-05 2016-05-23 日本放送協会 検索装置、検索方法及び検索プログラム
US9218427B1 (en) * 2015-01-21 2015-12-22 Maana, Inc. Dynamic semantic models having multiple indices
CN107247745A (zh) * 2017-05-23 2017-10-13 华中师范大学 一种基于伪相关反馈模型的信息检索方法及系统
CN107423371A (zh) * 2017-07-03 2017-12-01 湖北师范大学 一种文本正负类情感分类方法
US20190065612A1 (en) * 2017-08-24 2019-02-28 Microsoft Technology Licensing, Llc Accuracy of job retrieval using a universal concept graph
CN108920527A (zh) * 2018-06-07 2018-11-30 桂林电子科技大学 一种基于知识图谱的个性化推荐方法
CN109829104A (zh) * 2019-01-14 2019-05-31 华中师范大学 基于语义相似度的伪相关反馈模型信息检索方法及系统
CN110851613A (zh) * 2019-09-09 2020-02-28 中国电子科技集团公司电子科学研究院 基于实体概念的知识图谱补全、推演、存储方法及装置
CN110879834A (zh) * 2019-11-27 2020-03-13 福州大学 一种基于循环卷积网络的观点检索系统及其观点检索方法
CN111159333A (zh) * 2019-12-09 2020-05-15 芜湖乐哈哈信息科技有限公司 藏文期刊论文检索系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
FANG WANG ET AL.: "Concept-based Short Text Classification and Ranking" *
MIN PAN: "A simple kernel co-occurrence-based enhancement for pseudo-relevance feedback", JASIST, vol. 71, no. 3, pages 264 - 281 *
WEIXIN_33795833: "《 短文本数据理解》——1.3短文本理解框架" *
刘德元;魏晶晶;吴运兵;廖祥文;: "基于文本概念化的观点检索方法", no. 02 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732883A (zh) * 2020-12-31 2021-04-30 平安科技(深圳)有限公司 基于知识图谱的模糊匹配方法、装置和计算机设备

Also Published As

Publication number Publication date
CN111723179B (zh) 2023-07-07

Similar Documents

Publication Publication Date Title
CN108804641B (zh) 一种文本相似度的计算方法、装置、设备和存储介质
CN109829104B (zh) 基于语义相似度的伪相关反馈模型信息检索方法及系统
CN108132927B (zh) 一种融合图结构与节点关联的关键词提取方法
CN108846029B (zh) 基于知识图谱的情报关联分析方法
CN109960756B (zh) 新闻事件信息归纳方法
CN109408743B (zh) 文本链接嵌入方法
US7324988B2 (en) Method of generating a distributed text index for parallel query processing
CN112000783B (zh) 基于文本相似性分析的专利推荐方法、装置、设备及存储介质
CN111522905A (zh) 一种基于数据库的文档搜索方法和装置
US20170185672A1 (en) Rank aggregation based on a markov model
CN112307182B (zh) 一种基于问答系统的伪相关反馈的扩展查询方法
KR20220119745A (ko) 콘텐츠를 검색하는 방법, 장치, 기기 및 컴퓨터 판독 가능 저장 매체
CN112100470B (zh) 基于论文数据分析的专家推荐方法、装置、设备及存储介质
CN112836029A (zh) 一种基于图的文档检索方法、系统及其相关组件
US20120130999A1 (en) Method and Apparatus for Searching Electronic Documents
CN111813888A (zh) 训练目标模型
US10073890B1 (en) Systems and methods for patent reference comparison in a combined semantical-probabilistic algorithm
CN110728135A (zh) 文本主题标引方法、装置、电子设备及计算机存储介质
Deshmukh et al. A literature survey on latent semantic indexing
CN111723179B (zh) 基于概念图谱的反馈模型信息检索方法、系统及介质
Saha et al. A large scale study of SVM based methods for abstract screening in systematic reviews
CN111737413A (zh) 基于概念网语义的反馈模型信息检索方法、系统及介质
Wahyudi et al. Information retrieval system for searching JSON files with vector space model method
CN112199461B (zh) 基于块索引结构的文档检索方法、装置、介质和设备
Li et al. Complex query recognition based on dynamic learning mechanism

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant