CN109829104B - 基于语义相似度的伪相关反馈模型信息检索方法及系统 - Google Patents

基于语义相似度的伪相关反馈模型信息检索方法及系统 Download PDF

Info

Publication number
CN109829104B
CN109829104B CN201910031478.3A CN201910031478A CN109829104B CN 109829104 B CN109829104 B CN 109829104B CN 201910031478 A CN201910031478 A CN 201910031478A CN 109829104 B CN109829104 B CN 109829104B
Authority
CN
China
Prior art keywords
query
expansion
semantic similarity
word
polynomial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910031478.3A
Other languages
English (en)
Other versions
CN109829104A (zh
Inventor
何婷婷
潘敏
王俊美
曾俊
王雪彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central China Normal University
Original Assignee
Central China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central China Normal University filed Critical Central China Normal University
Priority to CN201910031478.3A priority Critical patent/CN109829104B/zh
Publication of CN109829104A publication Critical patent/CN109829104A/zh
Application granted granted Critical
Publication of CN109829104B publication Critical patent/CN109829104B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于语义相似度的伪相关反馈模型信息检索方法及系统,包括根据查询关键词从目标文档集合中进行第一次查询提取伪相关文档集合后,采用Rocchio算法进行查询扩展,同时根据句子的语义相似度进行查询扩展,将两种查询扩展方法的结果融合,进行第二次查询实现最终的信息检索。本发明在选取扩展词项的时候,既能突出传统方法的查询词项与扩展词的重要度关系,又结合了词项所在句子的语义相关性,符合现实中句子语义相似时词项是有关联的情况,即词项之间即使表述不同,语义也相关的情况,从而使查询词在多语义的环境下具有更好地区分度,支持在海量信息中去除大量无用和不相关的信息,得出更加精准的候选词,提高扩展查询及最终检索的精度。

Description

基于语义相似度的伪相关反馈模型信息检索方法及系统
技术领域
本发明属于信息检索技术领域,特别涉及一种将语义相似度融合到伪相关反馈模型中的信息检索方法及系统。
背景技术
在信息竞争趋势日盛的年代,借助搜索引擎浏览和获取所需信息是人们日常生活的重要组成部分。然而,网络资源异常丰富,信息总量迅速膨胀,使得用户难以高效和准确的获取并识别重要信息,信息处理技术迫切需要一种更为有效的理论和方法来处理日益增长的海量数据。信息检索作为经典的文本处理技术,能够适应这一要求并迅速成为当前信息处理研究领域中的研究热点。
信息检索(Information Retrieval)是指信息按一定的方式组织起来,并根据用户的需要找出有关的信息的过程和技术。信息检索技术是指利用现代信息检索系统,如联机数据库、光盘数据库或网络数据库检索有关信息而采用的相关技术,主要有布尔检索,词位检索,截词检索和限制检索。信息检索过程可以简单地描述为:用户根据其信息需求,组织一个查询字符串提交给信息检索系统,信息检索系统在文档集中检索出与查询相关的文档子集返回给用户。具体来说是指给定一组特定的查询主题,通过某种信息检索模型,对目标中的所有文档与查询主题进行相关度计算,并将每个文档按得分从大到小的顺序返回,返回的结果中文档越靠前说明该文档与查询主题越相关。经过近半个世纪的研究发展,一些有效的信息检索模型陆续提出并逐渐应用到相关的系统中。其中,影响比较大的检索模型包括:布尔逻辑模型、向量空间模型、概率模型、语言模型以及最近提出来的基于监督学习的检索模型。
在实际的信息检索应用中,用户的查询请求与系统反馈的查询结果之间存在一定的偏差,造成检索系统的性能下降。所以,信息检索往往是一个反复的过程,用户常常需要经过多次的查询调整才能获得满意的检索结果。实际问题中,用户往往会出现查询输入不完整或不准确的情况,这时候就需要用到查询扩展技术来改善这一问题。查询扩展技术通过对用户的初始查询进行扩展和重构,较好地解决了用户查询用词与文档用词不匹配以及用户表达不完整的问题,因而被广泛应用于信息检索领域。简单说来,查询扩展就是检索系统在进行检索之前,先根据扩展词表,自动把用户查询中的关键词的同义词或者近义词扩展进而形成新的查询,然后再进行检索的过程。
伪相关反馈(pseudo relevance),提供了一种自动局部分析的方法。它将相关反馈的人工操作部分自动化,因此用户不需要进行额外地交互就可以获得检索性能的提升。该方法首先进行正常的检索过程,返回最相关的文档构成初始集,然后假设排名靠前的k篇文档是相关的,最后在此假设上像以往一样进行相关反馈。伪相关反馈的出现是为了使检索系统更加有效,使检索结果更好地满足用户的查询请求。
在自然语言处理中,需要把自然语言转化为计算机可以理解的形式,一般采用向量空间模型(Vector Space Model,VSM)进行表示,通过神经网络模型把句子进行编码,得到一个固定长度的句子向量化表示,便于句子在计算机中的表示和处理。
通常,影响一个检索系统的性能有很多因素,其中最为关键的是信息检索策略,包括文档和查询条件的表示方法、评价文档和查询相关性的匹配策略、查询结果的排序方法和用户进行相关反馈的机制等。
随着网络用户对检索的精度、检索效率要求的不断提高,信息检索技术更重视开发检索工具在检索功能及检索服务上的智能化程度。信息获取和精化技术已成为当代计算机科学与技术研究中迫切需要研究的课题,信息检索已经成为现代社会信息化的关键。在这个高速发展的信息时代,信息就是商品,就是财富和资源,人人渴望及时并精确地获得有用的信息。目前,信息检索已经发展到网络化和智能化的阶段。信息检索的对象从相对封闭,稳定一致,由独立数据库集中管理的信息内容扩展到开放、动态、更新快、分布广泛、管理松散的网络内容。因此,未来的信息检索领域必将出现信息智能化,个性化,专业化,多样化的检索引擎。并不断更新完善出新的信息检索技术,来满足人们对于信息检索精度的更高需求。
发明内容
本发明所要解决的技术问题是,优化查询扩展以提高检索的平均精度。
本发明提供一种基于语义相似度的伪相关反馈模型信息检索方法,根据查询关键词Q从目标文档集合D中进行第一次查询提取伪相关文档集合D1后,采用Rocchio算法进行查询扩展,同时根据句子的语义相似度进行查询扩展,将两种查询扩展方法的结果融合,进行第二次查询实现最终的信息检索;
所述根据句子的语义相似度进行查询扩展,包括以伪相关文档集合D1中每篇文档中所有的词为扩展候选词,将伪相关文档集合D1中每篇文档分成单独的句子,基于深度学习计算每个句子与查询关键词Q之间的语义相似度得分,每个扩展候选词的总得分就是该扩展候选词所在的所有句子的语义相似度得分累加和,根据总得分得到基于语义相似度的查询扩展结果。
而且,设句子sz与查询关键词Q之间的语义相似度得分记为Scoresz,计算实现如下,
通过基于Directional Self-Attention Network的神经网络模型对两个句子进行编码,得到的句子向量化表示分别记为U和V,将U,V,U-V,U*V串联起来得到组合向量M,经过一个全连接层生成两个隐藏单元,然后将映射到两个隐藏单元的值通过Softmax函数,计算这两个句子相似的概率psz,将此概率值记为语义相似度得分Scoresz
而且,设以向量的方式
Figure BDA0001944383710000031
表示所有扩展候选词tj的语义相似度得分,
Figure BDA0001944383710000032
其中,
Figure BDA0001944383710000033
表示扩展候选词tj的得分,j=1,2,3...n,n表示扩展候选词的总数;将
Figure BDA0001944383710000034
中每个词的语义相似度得分取出后按从大到小的顺序排序,将得分最大的前n1个值在
Figure BDA0001944383710000035
对应的词选取出来构成语义相似度扩展候选词集合Q'1
而且,将两种查询扩展的结果融合的实现方式如下,
设采用Rocchio算法进行查询扩展,得到重要度查询扩展词集合Q1,用多项式V1来表示集合Q1中的每个词和该词对应的重要度得分,
Figure BDA0001944383710000036
其中,
Figure BDA0001944383710000037
表示Q1中的扩展候选词,
Figure BDA0001944383710000038
表示对应的扩展候选词的重要度得分;
用多项式V1'来表示集合Q'1中的每个词和该词对应的语义相似度得分,
Figure BDA0001944383710000039
其中,
Figure BDA00019443837100000310
表示Q'1中的扩展候选词,
Figure BDA00019443837100000311
表示对应的语义相似度得分;
将多项式V1和V1'归一化后进行线性组合,得到新的查询词多项式V,按每个词项的系数从大到小排序,将系数最大的前n1个词项取出得到新的扩展词集合
Figure BDA00019443837100000312
然后,将原始查询词Q表示为多项式VQ,将扩展词集合
Figure BDA0001944383710000041
用多项式V'来表示,将多项式VQ和多项式V'归一化后进行线性组合,得到新的查询词多项式K;
根据查询词多项式K相应新的查询关键词集合Q'进行第二次查询,从目标文档集合D中得到的查询结果为最终信息检索结果。
本发明提供一种基于语义相似度的伪相关反馈模型信息检索系统,包括以下模块,
第一模块,用于根据查询关键词Q从目标文档集合D中进行第一次查询提取伪相关文档集合D1后,采用Rocchio算法进行查询扩展,同时根据句子的语义相似度进行查询扩展;
第二模块,用于将两种查询扩展方法的结果融合,进行第二次查询实现最终的信息检索;
所述根据句子的语义相似度进行查询扩展,包括以伪相关文档集合D1中每篇文档中所有的词为扩展候选词,将伪相关文档集合D1中每篇文档分成单独的句子,基于深度学习计算每个句子与查询关键词Q之间的语义相似度得分,每个扩展候选词的总得分就是该扩展候选词所在的所有句子的语义相似度得分累加和,根据总得分得到基于语义相似度的查询扩展结果。
而且,设句子sz与查询关键词Q之间的语义相似度得分记为Scoresz,计算实现如下,
通过基于Directional Self-Attention Network的神经网络模型对两个句子进行编码,得到的句子向量化表示分别记为U和V,将U,V,U-V,U*V串联起来得到组合向量M,经过一个全连接层生成两个隐藏单元,然后将映射到两个隐藏单元的值通过Softmax函数,计算这两个句子相似的概率psz,将此概率值记为语义相似度得分Scoresz
而且,设以向量的方式
Figure BDA0001944383710000042
表示所有扩展候选词tj的语义相似度得分,
Figure BDA0001944383710000043
其中,
Figure BDA0001944383710000044
表示扩展候选词tj的得分,j=1,2,3...n,n表示扩展候选词的总数;将
Figure BDA0001944383710000045
中每个词的语义相似度得分取出后按从大到小的顺序排序,将得分最大的前n1个值在
Figure BDA0001944383710000046
对应的词选取出来构成语义相似度扩展候选词集合Q'1
而且,将两种信息检索的结果融合的实现方式如下,
设采用Rocchio算法进行查询扩展,得到重要度查询扩展词集合Q1,用多项式V1来表示集合Q1中的每个词和该词对应的重要度得分,
Figure BDA0001944383710000051
其中,
Figure BDA0001944383710000052
表示Q1中的扩展候选词,
Figure BDA0001944383710000053
表示对应的扩展候选词的重要度得分;
用多项式V1'来表示集合Q'1中的每个词和该词对应的语义相似度得分,
Figure BDA0001944383710000054
其中,
Figure BDA0001944383710000055
表示Q'1中的扩展候选词,
Figure BDA0001944383710000056
表示对应的语义相似度得分;
将多项式V1和V1'归一化后进行线性组合,得到新的查询词多项式V,按每个词项的系数从大到小排序,将系数最大的前n1个词项取出得到新的扩展词集合
Figure BDA0001944383710000057
然后,将原始查询词Q表示为多项式VQ,将扩展词集合
Figure BDA0001944383710000058
用多项式V'来表示,将多项式VQ和多项式V'归一化后进行线性组合,得到新的查询词多项式K;
根据查询词多项式K相应新的查询关键词集合Q'进行第二次查询,从目标文档集合D中得到的查询结果为最终信息检索结果。
依照本发明所提供的将句子的语义相似度信息融到伪相关反馈模型中的信息检索方法,能够克服传统的伪相关反馈模型只考虑词频信息以及词袋模型中词项无关联的不足,而现实中,词项所在句子间具有语义相似性,词项之间是有关联性的。依据句子的语义相似度得分,给每个候选扩展词打分,再与传统的得分规则相结合,使最终的候选扩展词得分不仅与词项频率有关,还与其所在句子的语义有关。本发明能够显著提高检索的精确度,在查询扩展的过程中将句子语义信息融入到候选扩展词中,使扩展词携带语义特征,和原始查询在语义上有更大的相关性,从而使查询词在多语义的环境下具有更好地区分度,更能符合实际情况需要,支持在海量信息中去除大量无用和不相关的信息,提高最终的检索效果,具有重要的市场价值。
附图说明
图1为本发明实施例完整的信息检索过程流程图。
具体实施方式
以下结合附图和实施例详细说明本发明的技术方案。
本发明要提出基于语义相似度对每个句子与原始查询Q进行打分,再对每个词进行扫描,词的总得分就是词所在的所有句子的句子得分累加和,并把这种语义相似度作为附加权重融合到伪相关反馈模型中,实现查询扩展以提高检索的精确度。
实施例提出将语义相似度融合到伪相关反馈模型中的信息检索方法,包括将句子的语义相似度度融合到伪相关反馈模型中实现信息检索,包括在伪相关文档集合中生成查询扩展词的时候,将初始查询的前N篇反馈文档分成单独的句子,对每个句子通过深度学习的方法计算其与查询句子之间的语义相似度,对每个句子打分,建立一个词表,每个词的总得分就是词所在的所有句子的句子得分累加和,与传统的Rocchio算法(经典的相关反馈算法)融合,找出最终扩展词项,完成最终的信息检索。
本发明针对经典方法中不尽合理的词汇独立假设,提出把句子的语义相似性以及词与词之间的关联关系考虑进来。通过对文档集合中数据的一些统计信息(比如词项所在句子的语义与原始查询句子的相似性)的有效利用,结合查询条件设计相关技术方案来获得能够反映查询条件主题并由查询条件所触发的词汇,也就是利用这些信息来更准确的捕获用户的信息需求。
实施例中,信息检索系统会根据目标文档集合建立查询索引,当用户提交相关查询主题时,系统会将查询主题进行预处理为查询关键词Q(Q是一个集合,一般包含多个主题词q1, q2,q3等),D为所有目标文档,ND为目标文档集合D的文档总数。随后,检索系统会通过某种预设的检索权重模型(如TF-IDF、BM25、RM3等)方式计算查询关键词Q与文档集合D中的每一个文档的得分,按得分结果从高到低排列得到第一次查询结果。根据伪相关反馈的原理,检索系统将取出文档集合D的第一次查询结果文档中的前N(在大量相关研究文献中,N一般为取值为10、20或30)篇文档作为伪相关文档集合D1,N小于等于ND,本领域技术人员可预设取值。参见图1,在检索系统得到第一次查询所产生的伪相关文档集合D1,并进行查询扩展词选择的时候进行以下步骤:
步骤1,分别计算伪相关文档集合D1中每篇文档中所有的词(即扩展候选词)本身的重要度得分,该重要度得分可以通过词的词频及逆文档词频(传统的Rocchio算法等)计算获得,再将不同文档中相同的词重要度得分以词向量的方式进行累加后除以D1中的文档数N,即可得到所有的扩展候选词的重要度得分向量,将向量
Figure BDA0001944383710000071
中元素的得分按从大到小的顺序排列,取出前n1(n1一般为取值为10、20、30或50,本领域技术人员可预设取值)个得分在
Figure BDA0001944383710000072
中所对应的词,得到重要度扩展候选词集合Q1,可用一个多项式V1来表示集合Q1中的每个词和该词对应的重要度得分。
本步骤中,采用传统的Rocchio算法,将N篇伪相关文档集合D1中的每篇文档看作词袋模型,以向量的方式表示,其中第i篇文档的重要度向量公式如下所示。
Figure BDA0001944383710000073
在上述公式中,
Figure BDA0001944383710000074
表示伪相关文档集合D1中的第i篇文档(i=1,2,3…,N)di的词向量表达,t1、t2、t3、…、tn为伪相关文档集合D1中所有文档中的所有词,n表示这些词的总数,即伪相关文档集合D1中所有词的个数;
Figure BDA0001944383710000075
表示对应的t1、t2、t3、…、tn在文档di中的权重得分(也称重要度得分,权重用来表现扩展候选词的重要度)。某个词的重要度得分通过该词的词频及逆文档词频等信息计算获得,使用TF-IDF的方式计算文档di中词条tj的重要度,
Figure BDA0001944383710000076
其中,
Figure BDA0001944383710000077
指某个词tj在文档di中的重要度得分(j=1,2,3…,n),TF(tj,d)指词条tj在文档di中出现的频率(次数),N为伪相关文档集合D1的文档总数,df(tj)是伪相关集合D1中,包含了词tj的文档个数。
依照公式(2),N个文档中的每个文档di都可以表示成相应的词的重要度的向量形式
Figure BDA0001944383710000078
并对每个文档向量进行累加求和后再除以伪相关文档总数N,得到所有词条在所有文档中的重要度得分向量
Figure BDA0001944383710000079
如公式(3)所示:
Figure BDA00019443837100000710
Figure BDA00019443837100000711
中每个词的重要度得分取出后按从大到小的顺序排序,将得分最大的前n1个值在
Figure BDA0001944383710000081
对应的词选取出来构成重要度查询扩展词集合Q1。为了方便后面的计算,用多项式V1来表示集合Q1中的每个词和该词对应的重要度得分,如公式(4)所示。
Figure BDA0001944383710000082
在公式(4)中,
Figure BDA0001944383710000083
表示Q1中每个具体的扩展候选词(一共有n1个),
Figure BDA0001944383710000084
表示对应的扩展候选词在
Figure BDA0001944383710000085
中的得分。
步骤2,将伪相关文档集合D1的每篇文档分为单独的句子,记为sz(z=1,2,3…m),m为句子的总数,基于深度学习分别计算每个句子sz与查询关键词Q之间的语义相似度得分,把该得分记为句子sz的得分Scoresz
以下将详细说明D1中每个句子sz与查询关键词Q之间的语义相似度得分Scoresz是如何得来的。
将查询关键词Q视为句子,采用两个句子相似度计算方法提取语义相似度得分:两个句子分别为(Q,sz),其中Q表示原始查询,sz表示伪相关文档集合D1中的第z个句子。通过基于Directional Self-Attention Network(定向自注意力机制)的神经网络模型对两个句子进行编码,得到一个固定的长度的句子向量化表示,分别为U和V。将U,V,U-V,U*V串联起来,经过一个全连接层生成两个隐藏单元,即将一个多维向量经过全连接层映射到一个二维向量中,且该二维向量分别代表向量相似和不相似两个标签,然后将映射到两个隐藏单元的值通过Softmax函数,计算这两个句子相似的概率psz,将此概率值记为每个句子的得分 Scoresz
其中,基于Directional Self-Attention Network的神经网络模型是现有技术,作用是将一个单句编码成固定长度的向量。该向量包含句子的高层和底层的语义信息。Self-Attention Network可以不通过传统RNN或者CNN结构,而是通过自注意力机制计算句子的编码。在准确度、空间和时间复杂度上都比传统网络模型有提升。传统Self-AttentionNetwork忽略了句子的方向信息,Directional Self-Attention Network克服了传统方法方向信息不足的问题,从而融合更多的句子语义信息。
例如,根据基于Directional Self-Attention Network的神经网络模型设置句子编码器,输入句子A(小明买了一个苹果品牌手机),句子B(小明边吃苹果边玩手机)。经过句子编码器,生成句子A,B的向量,分别用U和V表示。
U=[0.45456,-0.0454,…,-0.454578](1*600)
V=[-0.5414,-0.3454,…,-0.454578](1*600)
其中,1×600表示向量的长度,即600维的向量,串联方法常用于深度学习的向量分类任务中,传统的向量距离计算公式(欧式距离,马氏距离等)并不能很好地解决两个向量分类问题。在深度学习模型中,将U,V,U-V,U*V串联起来得到一个新的向量M。U-V表示向量对应元素的差,U*V表示向量乘积,这两个步骤可以增加待分类向量M特征的多样性,能提高分类的准确率。将得到的组合向量表示为M,M包含了句子向量语义相似程度的信息,但是通过向量不能直观地看出句子相似程度,所以将M输入到全连接层,全连接层通过特征映射将组合向量M特征应用到两个分类中。分类标签分别是两个句子向量相关和不相关,该方法能得到更好的分类结果,可以更直观的通过全连接特征映射出来的二维向量的数值判断句子向量间的语义相似程度。
其中,全连接层在整个卷积神经网络中起到“分类器”的作用。全连接层将“分布式特征表示”映射到样本标记空间的作用。全连接层中的每个神经元与其前一层的所有神经元进行全连接.全连接层可以整合卷积层或者池化层中具有类别区分性的局部信息。
本质就是由一个特征空间线性变换到另一个特征空间。目标空间的任一维(也就是隐层单元)都认为会受到源空间的每一维的影响。可以说,目标向量是源向量的加权和。全连接的核心操作就是矩阵向量乘积:
y=x×W+b 公式(5)
其中:x∈Rm×d是输入矩阵(R表示实数范围,m表示x矩阵的行数,d表示x矩阵的列数),W∈Rd×n表示可学习的权重矩阵(R表示实数范围,d表示w矩阵的行数,此处d与x矩阵的列数保持数值一致,n表示w矩阵的列数),y∈Rm×n是结果矩阵(R表示实数范围,m 表示y矩阵的行数,n表示y矩阵的列数,此处m和n分别与x矩阵的行数和w列数数值一致)。具体的,例如输入的向量x为1×2400的矩阵,也就是2400维的向量,W为2400×2的矩阵,得到的y为1×2的矩阵,也就是2维向量。即m=1,d=2400,n=2。
目标空间一般由“分类标签”组成,这样就可以将串联U,V,U-V,U*V得到的向量空间蕴含的句子向量语义相似程度的特征映射到目标标签。实施例中映射到一个二维向量,第一维表示不相似,第二维表示相似,每一维的数值表示相似或不相似程度的数值表示。
Softmax用于多分类任务中,它将多个神经元的输出,映射到(0,1)区间内,可以看成概率来理解,从而来进行多分类。分类器最后的输出单元需要Softmax函数进行数值处理。 Softmax的输出表示了不同类别之间的相对概率,得到不同分类结果的概率分布。假设有一个数组V,Vq表示V中的第q个元素,那么这个元素的Softmax值就是公式如下:
Figure BDA0001944383710000101
其中,Sq表示数组元素Vq对应的Softmax值,Vq表示V数组中的第q个元素,C表示数组V 的全部元素个数,
Figure BDA0001944383710000102
表示以e为底,指数为Vq的指数函数。比如:V中有3,1,-3三个数组元素,则其中3的Softmax值为
Figure BDA0001944383710000103
在数学,尤其是概率论和相关领域中,Softmax函数,或称归一化指数函数,是逻辑函数的一种推广。Softmax函数实际上是有限项离散概率分布的梯度对数归一化。
例如:通过全连接成输出的结果为R=[0.4,5]。通过Softmax处理后,数值转化成相对概率S=[0.0099518 0.9900482]。第一维表示不相似,第二维表示相似,只需看相似的概率值即可。可以看做分类结果为第二维的概率为0.99,也就是之前提到的两句相似的概率为0.99。该概率值就是该句子的得分,也就是句子中每个词在此句中的得分,而词的最终得分为该词所在的所有句子的得分累加和。
步骤3,根据步骤2所得各句子的得分,设D1中每个扩展候选词tj的得分
Figure BDA0001944383710000104
即为该词所在的所有句子的句子得分累加和,如下公式所示,
Figure BDA0001944383710000105
其中,
Figure BDA0001944383710000106
表示扩展候选词tj的得分(j=1,2,3...n),扩展候选词tj为伪相关文档集合D1的所有词,
Figure BDA0001944383710000107
表示出现了扩展候选词tj的句子得分。
具体实施时,可对D1中每个扩展候选词进行扫描,建立一个词典,该词典存放词和相应的得分。词典中的各扩展候选词tj的得分
Figure BDA0001944383710000111
就是该词所在的所有句子的句子得分
Figure BDA0001944383710000112
的累加和。
以向量的方式
Figure BDA0001944383710000113
表示所有词条tj的语义相似度得分,
Figure BDA0001944383710000114
其中,
Figure BDA0001944383710000115
表示扩展候选词tj的得分(j=1,2,3...n),t1、t2、t3、…、tn为伪相关文档集合D1中所有文档中的所有词,n表示这些词的总数,即伪相关文档集合D1中所有词的个数;
Figure BDA0001944383710000116
中每个词的语义相似度得分取出后按从大到小的顺序排序,将得分最大的前n1个值在
Figure BDA0001944383710000117
对应的词选取出来构成语义相似度扩展候选词集合Q'1,此处和步骤1中n1的数值保持一致,都取前n1个扩展候选词,便于最后将两种方法得到的词得分线性融合,得出最终扩展词。
为了方便后面的计算,用多项式V1'来表示集合Q'1中的每个词和该词对应的语义相似度得分,如公式(9)所示。
Figure BDA0001944383710000118
在公式(9)中,
Figure BDA0001944383710000119
表示Q'1中每个具体的扩展词(一共有n1个),
Figure BDA00019443837100001110
Figure BDA00019443837100001111
表示对应的扩展词在
Figure BDA00019443837100001112
中的得分。
步骤4,将步骤1和步骤3中得到的查询扩展词多项式V1和V1'归一化后再进行线性组合,即把根据重要度和语义相似度方法依次得到的扩展候选词线性组合,得到新的查询词多项式 V,具体组合方式如公式(10)所示。
V=(1-γ)×||V1||+γ×||V1'|| 公式(10)
在公式(10)中,||X||表示对向量X进行归一化运算,归一化的目的是统一量纲,即将向量中每个元素的值规范到区间[0,1.0]中,方便后续的参数调节。归一化有多种方法可以实现,本实施例中采用的是除以最大值法,即每个元素归一化后的值为该元素原来的值除以向量中元素的最大值。例如有一个向量[1,2,3,4],有4个元素,元素的最大值是4,那么对这个向量进行除以最大值法归一化后的结果为
Figure BDA0001944383710000121
即[0.25,0.5,0.75,1],可将原向量中的所有值归一化到[0,1.0]之间。
公式(10)中的调节因子γ的取值范围为0到1.0,它的功能是平衡扩展词的重要度得分和扩展词与查询词之前的语义相似度得分,在具体应用时,可以预先用测试数据在需要应用的目标文档集上测试得出γ的最优值。
步骤5,根据步骤4中的多项式V按每个词项的系数(综合权重得分)从大到小排序,将系数最大的前n1个词项取出得到新的扩展词集合
Figure BDA0001944383710000122
Figure BDA0001944383710000123
即为最终的查询扩展词集合。
步骤6,将原始查询词Q表示为多项式VQ,多项式VQ中的每个项为Q中的每个主题词ql, l=1,2,3...k,其中k表示原始查询词Q内所包含的主题词个数。每个项的系数值设置为1.0,则原始查询词Q可表示为:
VQ=1.0×q1+1.0×q2+1.0×q3+...+1.0×ql 公式(11)
然后,将步骤5中得到的扩展词集合
Figure BDA0001944383710000124
也用多项式V'来表示,多项式V'中的每个项为
Figure BDA0001944383710000125
中的每个具体的查询扩展词,每个项(词项)的系数为该词项在步骤4中多项式V中对应的值。多项式V'表示为:
Figure BDA0001944383710000126
其中,
Figure BDA0001944383710000127
表示
Figure BDA0001944383710000128
中每个具体的扩展词(一共有n1个),
Figure BDA0001944383710000129
表示对应的扩展词在查询词多项式V中的得分。
将查询多项式VQ和查询扩展词多项式V'归一化后再次进行线性组合得到新的查询词多项式K,具体组合方式如公式(13)所示。
K=α×||VQ||+β×||V'|| 公式(13)
在公式(13)中采用了与步骤3一致的归一化方法,公式中的调节因子α一般取固定值1.0,调节因子β的取值范围为0到1.0,它的功能是平衡原查询词与扩展查询词之前的权重,具体实施时可设置为经验值。
步骤7,根据步骤6可以得到新的查询关键词集合Q',Q'中的每个查询词即为查询词多项式K中每个词项。使用新查询关键词集合Q'和Q'中每个查询词在查询词多项式K中对应的权重进行第二次查询(与第一次查询所采用同一个检索模型),即再次计算Q'与目标文档集合D中每篇文档的得分,得到的查询结果即为最终信息检索结果。
在进行第二次查询时,查询词为新产生的查询关键词集合Q',在计算查询词与每个文档的得分时,每个查询词的权重为该词在查询词多项式K中的系数,而在进行第一次查询每个查询词的权重为1.0。
本发明主要解决的问题,能够克服传统的伪相关反馈模型只考虑词频信息以及词袋模型中词项无关联的不足,而现实中,词项所在句子间具有语义相似性,语义相似度高的句子,应给予所包含词项较高的权重。比如:1、词项之间虽然表达不同,语义上却有很大的关联性。如词项“话筒”和“麦克风”,两个词项在语义上是相同的,但是表达完全不同,如果按照传统的Rocchio方法,只考虑词频信息,得分会较低,结果就会不尽人意,如果将语义相似度考虑在内,该词项就会获得较高的得分,这将更符合实际情况需要。2、词项表达相同,词项内容、词频、词之间的距离都相同,但是语义关联很小。例如:原始查询关键词Q为“苹果手机”,现在D1中分别有两个句子:①小明上周买了一个苹果品牌手机;②小明边吃苹果边玩手机。虽然在两个句子中,“苹果”和“手机”出现的词频、词间距和顺序都是相同的,但所在句子的语义却存在很大的差异,根据每个句子si与查询关键词Q的语义相似度,对每个句子进行打分,此时①句子就会获得相对较高的得分,同时,该句子中的词项得分也会提高,这更符合实际情况需要,从而提高检索效率。
具体实施时,本领域技术人员可采用软件技术实现以上流程的自动运行。实施例中所采用的信息检索的开发环境为Java、Eclipse、phython开发环境,开发支持库为Lucene。
相应地,如果提供一种基于伪相关反馈模型的信息检索系统,包括计算机或服务器,在计算机或服务器上执行以上流程将词所在句子的的语义相似度融合到伪相关反馈模型中实现信息检索,也应当在本发明的保护范围内。本发明实施例还提供一种基于语义相似度的伪相关反馈模型信息检索系统,包括以下模块,
第一模块,用于根据查询关键词Q从目标文档集合D中进行第一次查询提取伪相关文档集合D1后,采用Rocchio算法进行查询扩展,同时根据句子的语义相似度进行查询扩展;
第二模块,用于将两种查询扩展方法的结果融合,进行第二次查询实现最终的信息检索;
所述根据句子的语义相似度进行查询扩展,包括以伪相关文档集合D1中每篇文档中所有的词为扩展候选词,将伪相关文档集合D1中每篇文档分成单独的句子,基于深度学习计算每个句子与查询关键词Q之间的语义相似度得分,每个扩展候选词的总得分就是该扩展候选词所在的所有句子的语义相似度得分累加和,根据总得分得到基于语义相似度的查询扩展结果。
具体各模块实现可参见相应步骤,本发明不予赘述。
本文中所描述的具体实施例仅仅是对本发明精神做举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或超越所附权利要求书所定义的范围。

Claims (6)

1.一种基于语义相似度的伪相关反馈模型信息检索方法,其特征在于:根据查询关键词Q从目标文档集合D中进行第一次查询提取伪相关文档集合D1后,采用Rocchio算法进行查询扩展,同时根据句子的语义相似度进行查询扩展,将两种查询扩展方法的结果融合,进行第二次查询实现最终的信息检索;
所述根据句子的语义相似度进行查询扩展,包括以伪相关文档集合D1中每篇文档中所有的词为扩展候选词,将伪相关文档集合D1中每篇文档分成单独的句子,基于深度学习计算每个句子与查询关键词Q之间的语义相似度得分,每个扩展候选词的总得分就是该扩展候选词所在的所有句子的语义相似度得分累加和,根据总得分得到基于语义相似度的查询扩展结果;设句子sz与查询关键词Q之间的语义相似度得分记为Scoresz,计算实现如下,
通过基于Directional Self-Attention Network的神经网络模型对两个句子进行编码,得到的句子向量化表示分别记为U和V,将U,V,U-V,U*V串联起来得到组合向量M,经过一个全连接层生成两个隐藏单元,然后将映射到两个隐藏单元的值通过Softmax函数,计算这两个句子相似的概率psz,将此概率值记为语义相似度得分Scoresz
2.根据权利要求1所述基于语义相似度的伪相关反馈模型信息检索方法,其特征在于:设以向量的方式
Figure FDA0003922826710000011
表示所有扩展候选词tj的语义相似度得分,
Figure FDA0003922826710000012
其中,
Figure FDA0003922826710000013
表示扩展候选词tj的得分,j=1,2,3...n,n表示扩展候选词的总数;
Figure FDA0003922826710000014
中每个词的语义相似度得分取出后按从大到小的顺序排序,将得分最大的前n1个值在
Figure FDA0003922826710000015
对应的词选取出来构成语义相似度扩展候选词集合Q1'。
3.根据权利要求2所述基于语义相似度的伪相关反馈模型信息检索方法,其特征在于:将两种查询扩展的结果融合的实现方式如下,
设采用Rocchio算法进行查询扩展,得到重要度查询扩展词集合Q1,用多项式V1来表示集合Q1中的每个词和该词对应的重要度得分,
Figure FDA0003922826710000021
其中,
Figure FDA0003922826710000022
表示Q1中的扩展候选词,
Figure FDA0003922826710000023
表示对应的扩展候选词的重要度得分;
用多项式V1'来表示集合Q1'中的每个词和该词对应的语义相似度得分,
Figure FDA0003922826710000024
其中,
Figure FDA0003922826710000025
表示Q1'中的扩展候选词,
Figure FDA0003922826710000026
表示对应的语义相似度得分;
将多项式V1和V1'归一化后进行线性组合,得到新的查询词多项式V,按每个词项的系数从大到小排序,将系数最大的前n1个词项取出得到最终的扩展词集合
Figure FDA0003922826710000027
然后,将原始查询词Q表示为多项式VQ,将扩展词集合
Figure FDA0003922826710000028
用多项式V'来表示,将多项式VQ和多项式V'归一化后进行线性组合,得到新的查询词多项式K;
根据查询词多项式K相应新的查询关键词集合Q'进行第二次查询,从目标文档集合D中得到的查询结果为最终信息检索结果。
4.一种基于语义相似度的伪相关反馈模型信息检索系统,其特征在于:包括以下模块,
第一模块,用于根据查询关键词Q从目标文档集合D中进行第一次查询提取伪相关文档集合D1后,采用Rocchio算法进行查询扩展,同时根据句子的语义相似度进行查询扩展;
第二模块,用于将两种查询扩展方法的结果融合,进行第二次查询实现最终的信息检索;
所述根据句子的语义相似度进行查询扩展,包括以伪相关文档集合D1中每篇文档中所有的词为扩展候选词,将伪相关文档集合D1中每篇文档分成单独的句子,基于深度学习计算每个句子与查询关键词Q之间的语义相似度得分,每个扩展候选词的总得分就是该扩展候选词所在的所有句子的语义相似度得分累加和,根据总得分得到基于语义相似度的查询扩展结果;设句子sz与查询关键词Q之间的语义相似度得分记为Scoresz,计算实现如下,
通过基于Directional Self-Attention Network的神经网络模型对两个句子进行编码,得到的句子向量化表示分别记为U和V,将U,V,U-V,U*V串联起来得到组合向量M,经过一个全连接层生成两个隐藏单元,然后将映射到两个隐藏单元的值通过Softmax函数,计算这两个句子相似的概率psz,将此概率值记为语义相似度得分Scoresz
5.根据权利要求4所述基于语义相似度的伪相关反馈模型信息检索系统,其特征在于:设以向量的方式
Figure FDA0003922826710000031
表示所有扩展候选词tj的语义相似度得分,
Figure FDA0003922826710000032
其中,
Figure FDA0003922826710000033
表示扩展候选词tj的得分,j=1,2,3...n,n表示扩展候选词的总数;
Figure FDA0003922826710000034
中每个词的语义相似度得分取出后按从大到小的顺序排序,将得分最大的前n1个值在
Figure FDA0003922826710000035
对应的词选取出来构成语义相似度扩展候选词集合Q1'。
6.根据权利要求5所述基于语义相似度的伪相关反馈模型信息检索系统,其特征在于:将两种信息检索的结果融合的实现方式如下,
设采用Rocchio算法进行查询扩展,得到重要度查询扩展词集合Q1,用多项式V1来表示集合Q1中的每个词和该词对应的重要度得分,
Figure FDA0003922826710000036
其中,
Figure FDA0003922826710000037
表示Q1中的扩展候选词,
Figure FDA0003922826710000038
表示对应的扩展候选词的重要度得分;
用多项式V1'来表示集合Q1'中的每个词和该词对应的语义相似度得分,
Figure FDA0003922826710000039
其中,
Figure FDA00039228267100000310
表示Q1'中的扩展候选词,
Figure FDA00039228267100000311
表示对应的语义相似度得分;
将多项式V1和V1'归一化后进行线性组合,得到新的查询词多项式V,按每个词项的系数从大到小排序,将系数最大的前n1个词项取出得到新的扩展词集合
Figure FDA00039228267100000312
然后,将原始查询词Q表示为多项式VQ,将扩展词集合
Figure FDA00039228267100000313
用多项式V'来表示,将多项式VQ和多项式V'归一化后进行线性组合,得到新的查询词多项式K;
根据查询词多项式K相应新的查询关键词集合Q'进行第二次查询,从目标文档集合D中得到的查询结果为最终信息检索结果。
CN201910031478.3A 2019-01-14 2019-01-14 基于语义相似度的伪相关反馈模型信息检索方法及系统 Active CN109829104B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910031478.3A CN109829104B (zh) 2019-01-14 2019-01-14 基于语义相似度的伪相关反馈模型信息检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910031478.3A CN109829104B (zh) 2019-01-14 2019-01-14 基于语义相似度的伪相关反馈模型信息检索方法及系统

Publications (2)

Publication Number Publication Date
CN109829104A CN109829104A (zh) 2019-05-31
CN109829104B true CN109829104B (zh) 2022-12-16

Family

ID=66860841

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910031478.3A Active CN109829104B (zh) 2019-01-14 2019-01-14 基于语义相似度的伪相关反馈模型信息检索方法及系统

Country Status (1)

Country Link
CN (1) CN109829104B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110442777B (zh) * 2019-06-24 2022-11-18 华中师范大学 基于bert的伪相关反馈模型信息检索方法及系统
CN110532354B (zh) * 2019-08-27 2023-01-06 腾讯科技(深圳)有限公司 内容的检索方法及装置
CN111639661A (zh) * 2019-08-29 2020-09-08 上海卓繁信息技术股份有限公司 文本相似度判别方法
CN110543549B (zh) * 2019-08-30 2022-02-22 北京百分点科技集团股份有限公司 语义等价性判断方法和装置
US11874863B2 (en) 2020-03-10 2024-01-16 International Business Machines Corporation Query expansion in information retrieval systems
CN111414765B (zh) * 2020-03-20 2023-07-25 北京百度网讯科技有限公司 句子一致性的判定方法、装置、电子设备及可读存储介质
CN111382341B (zh) * 2020-03-23 2022-08-26 湖南城市学院 一种基于大数据的科技信息资源检索查询系统及方法
CN111737413A (zh) * 2020-05-26 2020-10-02 湖北师范大学 基于概念网语义的反馈模型信息检索方法、系统及介质
CN113297452A (zh) * 2020-05-26 2021-08-24 阿里巴巴集团控股有限公司 多级检索方法、多级检索装置及电子设备
CN111723179B (zh) * 2020-05-26 2023-07-07 湖北师范大学 基于概念图谱的反馈模型信息检索方法、系统及介质
CN111625624A (zh) * 2020-05-27 2020-09-04 湖北师范大学 基于bm25+albert模型的伪相关反馈信息检索方法、系统及存储介质
CN111897927B (zh) * 2020-08-04 2022-08-26 广西财经学院 融合Copulas理论和关联规则挖掘的中文查询扩展方法
CN112232367B (zh) * 2020-09-10 2022-06-21 山东师范大学 一种网络行为相似性判断方法及系统
CN112307182B (zh) * 2020-10-29 2022-11-04 上海交通大学 一种基于问答系统的伪相关反馈的扩展查询方法
CN112307738A (zh) * 2020-11-11 2021-02-02 北京沃东天骏信息技术有限公司 用于处理文本的方法和装置
CN115221872B (zh) * 2021-07-30 2023-06-02 苏州七星天专利运营管理有限责任公司 一种基于近义扩展的词汇扩展方法和系统
CN113505290A (zh) * 2021-08-31 2021-10-15 上海飞旗网络技术股份有限公司 一种面向自定义用户意图模型的信息检索方法及系统
CN114064855B (zh) * 2021-11-10 2024-05-17 国电南瑞南京控制系统有限公司 一种基于变压器知识库的信息检索方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100107610A (ko) * 2009-03-26 2010-10-06 한국과학기술원 질의/문서 주제 범주 변화 분석 시스템 및 그 방법과 이를 이용한 질의 확장 기반 정보 검색 시스템 및 그 방법
CN107247745A (zh) * 2017-05-23 2017-10-13 华中师范大学 一种基于伪相关反馈模型的信息检索方法及系统
CN108520033A (zh) * 2018-03-28 2018-09-11 华中师范大学 基于超空间模拟语言的增强伪相关反馈模型信息检索方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100107610A (ko) * 2009-03-26 2010-10-06 한국과학기술원 질의/문서 주제 범주 변화 분석 시스템 및 그 방법과 이를 이용한 질의 확장 기반 정보 검색 시스템 및 그 방법
CN107247745A (zh) * 2017-05-23 2017-10-13 华中师范大学 一种基于伪相关反馈模型的信息检索方法及系统
CN108520033A (zh) * 2018-03-28 2018-09-11 华中师范大学 基于超空间模拟语言的增强伪相关反馈模型信息检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度学习的概念语义空间查询扩展研究;李卫疆等;《软件导刊》;20180515(第05期);全文 *

Also Published As

Publication number Publication date
CN109829104A (zh) 2019-05-31

Similar Documents

Publication Publication Date Title
CN109829104B (zh) 基于语义相似度的伪相关反馈模型信息检索方法及系统
CN111611361B (zh) 抽取式机器智能阅读理解问答系统
CN110442777B (zh) 基于bert的伪相关反馈模型信息检索方法及系统
CN109284357B (zh) 人机对话方法、装置、电子设备及计算机可读介质
Alami et al. Unsupervised neural networks for automatic Arabic text summarization using document clustering and topic modeling
US8150822B2 (en) On-line iterative multistage search engine with text categorization and supervised learning
CN110674252A (zh) 一种面向司法领域的高精度语义搜索系统
CN108509521B (zh) 一种自动生成文本索引的图像检索方法
WO2010014082A1 (en) Method and apparatus for relating datasets by using semantic vectors and keyword analyses
CN112307182B (zh) 一种基于问答系统的伪相关反馈的扩展查询方法
CN114880447A (zh) 信息检索方法、装置、设备及存储介质
CN110866102A (zh) 检索处理方法
CN112463944A (zh) 一种基于多模型融合的检索式智能问答方法及装置
CN113220864A (zh) 智能问答数据处理系统
CN116975271A (zh) 文本相关性的确定方法、装置、计算机设备和存储介质
CN113505196B (zh) 基于词性的文本检索方法、装置、电子设备及存储介质
CN114298020A (zh) 一种基于主题语义信息的关键词向量化方法及其应用
Granados et al. Multimodal Information Approaches for the Wikipedia Collection at ImageCLEF 2011.
CN111061939B (zh) 基于深度学习的科研学术新闻关键字匹配推荐方法
CN116226320A (zh) 一种预测下文信息的方法、装置、电子设备及存储介质
Ribeiro et al. UA. PT Bioinformatics at ImageCLEF 2019: Lifelog Moment Retrieval based on Image Annotation and Natural Language Processing.
CN112199461A (zh) 基于块索引结构的文档检索方法、装置、介质和设备
CN116414939B (zh) 基于多维度数据的文章生成方法
CN117708308B (zh) 一种基于rag自然语言智能知识库管理的方法和系统
Sadat et al. A Clustering Study for the Optimization of Emotional Information Retrieval Systems: DBSCAN vs K-means

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant