CN111625624A - 基于bm25+albert模型的伪相关反馈信息检索方法、系统及存储介质 - Google Patents

基于bm25+albert模型的伪相关反馈信息检索方法、系统及存储介质 Download PDF

Info

Publication number
CN111625624A
CN111625624A CN202010457925.4A CN202010457925A CN111625624A CN 111625624 A CN111625624 A CN 111625624A CN 202010457925 A CN202010457925 A CN 202010457925A CN 111625624 A CN111625624 A CN 111625624A
Authority
CN
China
Prior art keywords
document
score
pseudo
model
scores
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010457925.4A
Other languages
English (en)
Inventor
潘敏
黄湘冀
王俊美
余昕阳
张柔静
刘航
陈英杰
宋媛媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei Normal University
Original Assignee
Hubei Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei Normal University filed Critical Hubei Normal University
Priority to CN202010457925.4A priority Critical patent/CN111625624A/zh
Publication of CN111625624A publication Critical patent/CN111625624A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于BM25+ALBERT模型的伪相关反馈信息检索方法、系统及存储介质,通过提供多个查询关键词,并将多个查询关键词通过BM25模型、ALBERT模型等进行处理,得到优化后的信息检索结果。所述方法及系统通过BM25模型、ALBERT模型对查询关键词进行优化,从而得到了更加准确的信息检索结果,使得用户查询的效率和效果大幅度提高。

Description

基于BM25+ALBERT模型的伪相关反馈信息检索方法、系统及存 储介质
技术领域
本发明涉及信息检索技术领域,特别涉及一种基于BM25+ALBERT模型的伪相关反馈信息检索方法、系统及存储介质。
背景技术
在互联网技术飞速发展的年代,网络信息呈现爆炸式增长态势,借助搜索引擎浏览和获取所需信息已成为人们日常生活的重要组成部分。然而,网络资源数量庞大、种类繁多,在给人们带来便利的同时也使得用户难以高效准确的获取真正需要的信息,为了更加有效地处理日益增长的海量数据,信息检索方法作为经典文本处理技术,已经成为信息处理技术的研究关键点。
伪相关反馈(Pseudo Relevance Feedback,简称PRF)提供一种自动局部分析方法,它可以自动化相关反馈的人工操作部分,用户不需要参加额外的交互就能够获得更佳的检索性能。该方法首先进行普通的检索过程,返回与用户初始查询最相关的文档并将其作为一个初始结果集,然后在此基础上假设排名前N篇的文档是相关的,最后在这个假设上像前面一样进行相关反馈。ALBERT(A Lite BERT)是一个轻量级的BERT模型,在 BERT模型的基础上有显著的性能提升。虽然BERT有诸多优点,但使用参数过于庞大,训练模型耗时且成本开销高;ALBERT具有良好的可扩展性,通过参数约减技术来降低内存消耗,提高了模型训练速度。
ALBERT解决了训练模型时的速度提升问题,却并未做到总体运算量的减少,因此,如果直接使用ALBERT对所有文档进行计算,则会出现信息量过大、计算时间过长等问题。
发明内容
鉴于所述现有技术的不足之处,本发明的目的在于提供一种基于 BM25+ALBERT模型的伪相关反馈信息检索方法、系统及存储介质,解决现有技术中直接使用ALBERT对所有文档进行计算出现信息量过大、计算时间过长的技术问题。
为了达到所述目的,本发明采取了以下技术方案:
一种基于BM25+ALBERT模型的伪相关反馈信息检索方法,包括如下步骤:S1,提供多个查询关键词,得到目标文档集;S2,根据BM25模型,将所述目标文档集运用于该BM25模型,得到伪相关文档集;S3,根据 ALBERT模型,对所述伪相关文档集进行处理,得到第一文档集合;S4,对所述伪相关文档集进行得分排序处理,得到伪相关文档集的扩展词及扩展词得分,将扩展词及扩展词得分记录在数据表中;对所述第一文档集合进行得分排序处理,得到第一文档集合的扩展词及扩展词得分,将扩展词及扩展词得分记录在数据表中;S5,对所述伪相关文档集的扩展词及其得分,和第一文档集合的扩展词及其得分进行线性融合,得到新扩展词的及其新得分;S6,对所述新扩展词按新得分进行排列,对排列后的扩展词与原始查询关键词进行结合,生成最终文档集合;S7,根据所述BM25模型对最终文档集合进行检索,得到最终检索结果。
优选的,所述S2具体包括以下步骤:S21,将所述目标文档集运用于 BM25模型中,得到目标文档集中每一篇文档的得分;S22,将目标文档集中的每篇文档按得分由高到低排序,筛选出得分高的前N(N为自然数) 篇文档,得到伪相关文档集。
优选的,所述S21中,目标文档集中每一篇文档得分的计算公式为:
Figure BDA0002509993450000031
其中,q表示所提供的查询关键词,dm表示目标文档集中的第m篇文档, VBM25(q,dm)是通过BM25模型得到的第m篇文档得分,tf是词项t在文档dm中的权重,idf是词项t在目标文档集中的稀有程度。
优选的,所述S3具体包括以下步骤:S31,将所述伪相关文档集中的每篇文档划分为若干个句子,并将每篇文档的若干个句子运用于ALBERT 模型中,得到每篇文档的若干个句子的得分;S32,将每篇文档中的句子按得分从高到低排序,每篇文档得分前N`(N`为自然数)的句子代表这篇文档,得到第一文档集合。
优选的,所述S31中,每一篇文档的得分的计算公式为:
Figure BDA0002509993450000032
其中,VALBERT[j]表示第j篇文档的文档得分,Sj,k表示第j篇文档的第k 个句子,F(Sj,k,Qy)表示第j篇文档的第k个句子和原始查询关键词Qy的相似度得分,maxF(Sj,k,Qy)表示第j篇文档的第k个句子和原始查询关键词Qy的相似度最高的得分,
Figure BDA0002509993450000033
表示取第j篇文档内句子得分最高的 N`(N`为自然数)个句子得分之和。
优选的,每个扩展词的得分,等于该词所在的所有句子得分的累加和。
优选的,所述S5中,扩展词的新得分的计算公式为:
VBM25+ALBERT=α*Sdit+(1-α)*Seit′ (3)
其中,α为调优参数,取值范围[0,1],VBM25+ALBERT表示通过BM25取得的10篇文档中的词得分与通过ALBERT取得的10篇文档中的词得分线性融合后的词项得分,Sdit`表示伪相关文档集的扩展词得分,Seit`表示第一文档集合的扩展词得分。
优选的,所述S1中的查询关键词是通过对初始查询进行预处理得到。
本发明为解决所述技术问题,提供又一技术方案如下:一种基于 BM25+ALBERT模型的伪相关反馈信息检索系统,包括处理器以及存储器,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时,实现如以上任一所述的基于BM25+ALBERT模型的伪相关反馈信息检索方法。
本发明为解决所述技术问题,提供又一技术方案如下:一种计算机存储介质,其上存储有计算机程序,所述计算机该程序被处理器执行时,实现如以上任一所述的基于BM25+ALBERT模型的伪相关反馈信息检索方法。
与现有技术相比,本发明所提供的基于BM25+ALBERT模型的伪相关反馈信息检索方法、系统及存储介质,具有如下的有益效果:
本发明提供了一种基于BM25+ALBERT模型的伪相关反馈信息检索方法、系统及存储介质,依照本发明所提供的将ALBERT方法融入到伪相关反馈模型中的信息检索方法,能够克服传统的伪相关反馈模型只考虑词频信息的不足,传统的检索系统在处理查询时,对一个完整的用户查询语句进行分词,分词后的查询词项之间无序、无关联,原有的句子整体语义信息缺失;本发明在第一轮检索中,在采用传统的BM25算法基础上,不仅考虑了单个查询词项在文档中出现的频率,也将整个查询的语义信息与文档中句子的语义信息联系起来;在对文档进行评估时,不考虑文档中每个句子都与查询相关,只假设得分排名靠前的部分句子与查询最相关,本发明取文档中ALBERT得分最高的前五个句子得分和作为该文档的得分,通过文档得分判断句子所在文档与查询的相关度。关于查询扩展,评估候选扩展词与查询主题的相关度,其依据在于候选扩展词所在文档或句子与整个查询之间的语义相似度。本发明在第一轮检索的过程中将词项语义信息和句子语义信息融入到查询扩展中,使得文档得分和查询扩展词都携带语义特征,和初始查询相比具有更高的语义相关性,能够克服多语义环境下语义混乱的不足,在实际需要中能提取出与查询更相关更有效的信息,提升最终的检索效果,具有重要的市场价值。
附图说明
图1是本发明第一实施例所提供的基于BM25+ALBERT模型的伪相关反馈信息检索方法的步骤流程示意图;
图2是图1中所示S2的步骤流程示意图;
图3是图1中所示S3的步骤流程示意图。
具体实施方式
本发明提供一种基于BM25+ALBERT模型的伪相关反馈信息检索方法、系统及存储介质,为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例1
请参阅图1,本发明的第一实施例提供一种基于BM25+ALBERT模型的伪相关反馈信息检索方法S10,其包括如下的步骤:
S1,提供多个查询关键词,得到目标文档集;
S2,根据BM25模型,将所述目标文档集运用于该BM25模型,得到伪相关文档集;
S3,根据ALBERT模型,对所述伪相关文档集进行处理,得到第一文档集合;
S4,对所述伪相关文档集进行得分排序处理,得到伪相关文档集的扩展词及扩展词得分,将扩展词及扩展词得分记录在数据表中;
对所述第一文档集合进行得分排序处理,得到第一文档集合的扩展词及扩展词得分,将扩展词及扩展词得分记录在数据表中;
S5,对所述伪相关文档集的扩展词及其得分,和第一文档集合的扩展词及其得分进行线性融合,得到新扩展词的及其新得分;
S6,对所述新扩展词按新得分进行排列,对排列后的扩展词与原始查询关键词进行结合,生成最终文档集合;
S7,根据所述BM25模型对最终文档集合进行检索,得到最终检索结果。
本发明要提出一种基于BM25+ALBERT模型的词项扩展伪相关信息检索方法。方法包括:通过BM25模型对目标文档集进行初次筛选,取前1000 篇文档,从中选取得分前10的文档作为BM25模型候选扩展词来源文档,使用Rocchio算法从中选取得分前10的词项作为候选扩展词项,再基于 ALBERT语义相似度对BM25筛选出的1000篇文档内每个句子与原始查询进行语义相似度打分,取每篇文档内句子得分最高的(本方法中设定5)个句子得分作为该文档的得分,同样选取得分前10的文档作为ALBERT模型候选扩展词项来源文档,使用Rocchio算法进行候选词项扩展操作,对于每个通过Rocchio算法产生的重要度候选扩展词进行扫描,读取每一个词项与得分,线性融合每一个词项得分(相同词项的得分进行累加),对融合后的得分从大到小进行排序,取前10个词项与原始查询合并作为最终的查询词,再通过BM25模型对最终的查询词与目标文档集进行信息检索,实现最终的文档筛选和查询词项扩展,最终提高检索的精确度。
实施例提出将语义相似度融合到伪相关反馈模型中,并使用摘要形式优化词项扩展来源文档的信息检索方法,包括将句子的语义相似度度融合到伪相关反馈模型中实现信息检索,包括在初次检索过程中,通过BM25 模型对目标文档集进行筛选,将得分靠前的前N(N在本方法中设定值为 1000)篇文档筛选出,从中选取得分前10的文档作为BM25模型候选扩展词来源文档,使用Rocchio算法从中选取得分前10的词项作为候选扩展词项,将此N篇文档内的每篇文档划分成句子,对每个句子通过ALBERT模型语义相似度计算方法计算其与每篇文档内句子之间的语义相似度得分,取每篇文档内句子得分最高的j个句子得分和作为该文档的得分,选取得分前10的文档作为ALBERT模型候选扩展词来源文档,得到了两个分别以 BM25模型和ALBERT模型为依托的词项来源文档集,再使用Rocchio算法分别对两个词项来源文档集进行词项得分计算,在两个词项来源文档集中各取前10个词项及得分,线性融合词项得分,再取前10个作为最终的候选扩展词项结果;根据伪相关反馈的原理,BM25模型将取出目标文档集的初次查询结果文档集中的前N(N在本方法中设定值为1000)篇文档作为伪相关文档集,从两个候选扩展词来源文档集中生成查询扩展词的时候,先采用传统的Rocchio算法(一种具有代表性的相关反馈算法),选出候选扩展词集合,再对该候选扩展词集合建立一个词表,每个词的BM25得分就是BM25模型在初次检索过程中生成的TF-IDF权重得分,每个词的 ALBERT得分就是词所在的候选扩展词来源文档集中所有含有该词句子的句子得分累加和,两种模型下的候选词项得分进行线性融合,生成最终查询扩展词,完成最终的信息检索。
本发明针对传统方法中不尽人意的单一考虑词频因素的检索模型以及单一使用一种模型进行改进的方法,提出把句子的语义相似度以及词与词之间的关联关系考虑进来,基于BM25模型与ALBERT模型两种重要模型,将词项查询扩展的候选词项来源分为两部分,文档集来源和摘要文档集来源。通过对文档集以及其中文档的多种信息(比如按照查询词与文档内句子相关度得分,以摘要形式表示每篇文档)的充分利用。结合获得的查询词设计相关的技术应用方案,获取能够反映查询词主题并返回相关的词汇,利用这些通过技术方案改进获得的额外信息,更好的反馈用户所需要的信息。
实施例中,信息检索系统会对目标文档集进行检索,并建立查询索引表。当使用者提交查询主题时,检索系统会将查询主题进行预处理,生成查询关键词集Q0(Q0={q1,q2...qn}),Dd为初始目标文档集,
Figure BDA0002509993450000081
为初始目标文档集Dd的文档总数。随后,检索系统首先会通过BM25检索权重模型方式计算查询关键词Q0与文档集Dd中每一个文档的得分,将文档得分存放到数组VBM25[i]内,表示文档的BM25得分,筛选出得分高的前N篇文档,记为伪相关文档集Ddoc,从中选取得分前10的文档作为BM25模型候选扩展词来源文档,使用Rocchio算法从中选取得分前10的词项作为候选扩展词项。
依照本发明所提供的将ALBERT方法融入到伪相关反馈模型中的信息检索方法,能够克服传统的伪相关反馈模型只考虑词频信息的不足,传统的检索系统在处理查询时,对一个完整的用户查询语句进行分词,分词后的查询词项之间无序、无关联,原有的句子整体语义信息缺失。通常情况下,在包含单个词项语义信息的同时,句子整体本身也蕴含了其他语义信息,这些信息对句子整体的语义理解起着至关重要的作用,也是检索效果的关键突破点。当一个句子中出现多义词时,可以通过整个句子的语义来判断该词的真正含义。
为了提高信息检索效率,同时方便对用户初始查询进行扩展,本发明在第一轮检索中,在采用传统的BM25算法基础上,不仅考虑了单个查询词项在文档中出现的频率,也将整个查询的语义信息与文档中句子的语义信息联系起来,即在文档中句子与查询之间的语义相似度越高的情况下,该句子与查询的相关度越高,相应地,该句子所在文档与查询越相关,其被赋予的得分也越高。
在对文档进行评估时,不考虑文档中每个句子都与查询相关,只假设得分排名靠前的部分句子与查询最相关,本发明取文档中ALBERT得分最高的前五个句子得分和作为该文档的得分,通过文档得分判断句子所在文档与查询的相关度。
关于查询扩展,评估候选扩展词与查询主题的相关度,其依据在于候选扩展词所在文档或句子与整个查询之间的语义相似度,即一篇文档或一个句子与查询的语义相似度越高,则该文档或该句子与查询越相关,在检索过程中该文档或该句子中的词项也会被赋予更高的权重。本发明中候选扩展词有两个来源:BM25模型筛选出的部分最相关文档中的词项和在 BM25模型筛选结果的基础上由ALBERT模型筛选出的部分最相关文档中的词项。
本发明在第一轮检索的过程中将词项语义信息和句子语义信息融入到查询扩展中,使得文档得分和查询扩展词都携带语义特征,和初始查询相比具有更高的语义相关性,能够克服多语义环境下语义混乱的不足,在实际需要中能提取出与查询更相关更有效的信息,提升最终的检索效果,具有重要的市场价值。
具体的,如图2所示,所述S2具体包括以下步骤:
S21,将所述目标文档集运用于BM25模型中,得到目标文档集中每一篇文档的得分;
S22,将目标文档集中的每篇文档按得分由高到低排序,筛选出得分高的前N(N为自然数)篇文档,得到伪相关文档集。
通过BM25模型对目标文档集Dd进行筛选,得到每篇文档的BM25得分,用数组VBM25[IDdm][VBM25(q,dm)]存储得分。其中,IDdm是第m篇文档的编号, VBM25(q,dm)是第m篇文档的得分。
将Dd得分靠前的前N篇文档筛选出来,使用BM25模型对目标文档集进行评分的公式(1)如下,
Figure BDA0002509993450000091
其中,q表示所提供的查询关键词,dm表示目标文档集中的第m篇文档, VBM25(q,dm)是通过BM25模型得到的第m篇文档得分,tf是词项t在文档dm中的权重,idf是词项t在目标文档集中的稀有程度。
将公式(1)中得到的每篇文档的BM25得分存储在数组 VBM25[IDdm][VBM25(q,dm)]中,里面的数据会在后续步骤中多次使用。
ALBERT计算非常耗费内存与时间,会造成数据量过大,计算时间很长的情况,基于此,取前N篇文档使用ALBERT模型进行语义相似度评估,很好地缩减了ALBERT模型的计算量,使在信息检索领域中应用ALBERT 模型更加容易。
具体的,如图3所示,所述S3具体包括以下步骤:
S31,将所述伪相关文档集中的每篇文档划分为若干个句子,并将每篇文档的若干个句子运用于ALBERT模型中,得到每篇文档的若干个句子的得分;
S32,将每篇文档中的句子按得分从高到低排序,每篇文档得分前N` (N`为自然数)的句子代表这篇文档,得到第一文档集合。
将每篇文档划分为若干个句子,将这些句子用ALBERT模型与查询关键词集Qy(Qy={q1,q2...qn})中的每个词项分别进行语义相似度得分计算。
其中,j为文档序号,k为Sj,k是第j篇文档的第k个句子的得分,Qy时初始查询关键词集。
以下要具体介绍目标文档Ddoc中每个句子Sj,k与查询关键词之间的语义相似度得分F(Sj,k,Qy)是如何得来的。
首先确定ALBERT的输入序列,ALBERT的输入部分是个线性序列,如图2所示,输入(Input)的每个序列的第一个标记始终是特殊的分类向量,用“[CLS]”表示,该特殊符可以视为汇集了整个输入序列的表征,被用来作为分类任务中总的序列表示,两个句子(Si,j与Q)通过“[SEP]”分隔符分割,最后面增加一个标识符号“[SEP]”。例如,[cls]she is alovely girl[sep]she likes eating[sep]。每个单词由词项嵌入(Token embeddings)、分段嵌入(Segmentation Embeddings)和位置嵌入(Position Embeddings)三个部分组成,其中,词项嵌入(E[CLS]、E[she]、E[is]···E[SEP])指的是对应序列中的每个单词;添加位置嵌入信息,是因为自然语言处理中单词顺序是很重要的特征,需要在这里对位置信息进行编码,例如E0、E1···E11,分别表示从0~11个位置;第三个是分段嵌入,因为以两个句子为输入的分类任务训练数据是由两个句子构成的,每个句子都有一个句子整体的 embedding项对应于每个单词,例子中EA表示该词属于序列A,EB表示该词属于序列B。把单词对应的三个embedding叠加,就形成了ALBERT的输入。
ALBERT语言深度学习模型是已有技术,而本发明提出使用该模型实现大量句子的分类任务。用ALBERT模型计算两个句子Sj,k与Qy的语义相似度,Sj,k表示伪相关文档集Ddoc内的每个句子,用Sen1代表,Qy表示原始查询,用Sent2代表,实施例设置的ALBERT模型有12个子层。其中每一层结构相同(类似于网络全连接结构,具体的如图3,输入序列和输出序列中间的结构)。假设句子Sj,k和查询Qy组成的输入序列(Input)为 [[CLS],[SEP],[SEP]],其中,“[CLS]”是开始的标志,同时该特殊符被用来作为分类任务中总的序列表示,“[SEP]”表示分隔符,T1,T2…TH表示句子1中的各个词,T’1,T’2…T’M表示句子2中的各个词;Pa1,Pa2… PaH和Pa’1Pa·2…Pa’M分别表示句子1和句子2中的词融入了词项嵌入、分段嵌入和位置嵌入后的序列表示,即为ALBERT的输入序列,P1…PN 和P’1…P’M表示经过ALBERT模型后两个句子的输出序列,P[SEP]仍是分隔符,Class label表示句子分类标签,模型最终的输出序列的第0个字符位置U对应Transformer的输出结果即为每个句子Si,j与关键词Qy的语义相似度得分。
其次,将每个句子与查询关键词集Qy中每个词项的语义相似度得分进行累加,如公式(2)所示,得到每篇文档中每个句子的语义相似度得分,每篇文档中句子按照得分从高到低排列,用每篇文档中得分排名前k的句子代表这篇文档,生成文档集合为E'={e1,e2,...,eN},同时使用MAP数据表储存文档的相关信息(文档编号,句子编号,句子得分)。该记录可以在后面的步骤中调用;
Figure BDA0002509993450000121
其中,VALBERT[j]表示第j篇文档的文档得分,Sj,k表示第j篇文档的第 k个句子的得分,F(Sj,k,Qy)表示第j篇文档的第k个句子和原始查询关键词 Qy的相似度得分,maxF(Sj,k,Qy)表示第j篇文档的第k个句子和原始查询关键词Qy的相似度最高的得分,
Figure BDA0002509993450000122
表示取第篇文档内句子得分最高的g个句子得分之和,作为第j篇文档的文档得分。在实际操作过程中,可预先设置g的值。在本发明中,g取值为5。不要求文档内的语句和查询主题的相关性大小,仅取每篇文档句子得分最高的5句代表这篇文档,或者说这5个句子得分和作为这篇文档的得分。
在S4中,通过BM25所取得的N(N在这里优选1000)篇文档取前10 篇文档的得分数据,读取每篇文章中每个词得分Sdit={Sd1t,Sd2t,Sd3t,..,Sd10t},存入数据表MAP(term,Sdit)中。其中,这里的N可以取任意大于0的整数值, term是每篇文档中的单词;
根据伪相关反馈的原理,检索系统将取出目标文档集Dd的初次查询结果文档中的前N篇文档作为伪相关文档集Ddoc,取伪相关文档集Ddoc中得分排名前10的文档作为查询扩展词来源文档集,用DKB表示。
首先,分别计算查询扩展词来源文档集DKB中每篇文档中所有的词(即扩展候选词)本身的权重得分,该权重得分可以通过词的词频及逆文档词频(传统的Rocchio算法中的TF-IDF计算方法)计算获得,再将不同文档中相同的词权重得分以词向量的方式进行累加后除以DKB中的文档数10,即可得到所有的扩展候选词的权重得分向量,将向量
Figure BDA0002509993450000134
中词的得分从大到小进行排序,取出前10个得分在
Figure BDA0002509993450000135
中所对应的词,得到以权重得分为依据的查询扩展词集QKB,可用一个多项式Vbm来表示集合QKB中的每个词和该词对应的权重得分。
本步骤采用经典的Rocchio计算算法,将10篇查询扩展词来源文档集 DKB中的每篇文档看作词袋模型,用向量方法计算,其中第i篇文档的重要度向量公式如下所示。
Figure BDA0002509993450000137
在(3)中,
Figure BDA0002509993450000136
表示查询扩展词来源文档集DKB中的第i篇文档 (i=1,2,3,…10)di的词向量表达,t1、t2、t3、…、t10为查询扩展词来源文档集DKB中所有文档中的所有词,n表示这些词的总数,即查询扩展词来源文档集DKB中所有词的个数;Sd1t、Sd2t、Sd3t,…、Sd10t表示对应的t1、t2、 t3、…、t10在文档di中的权重得分(权重用来表现查询扩展词的重要性)。某个词的权重得分通过使用TF-IDF(即词项的词频及逆文档词频)的方式计算文档di中词项的重要度,
Figure BDA0002509993450000131
其中,tj代表文档di中的第j个词,
Figure BDA0002509993450000132
指某个词项tj在文档di中的权重得分(j=1,2,3…,n),指词项tj在文档di中出现的次数(频数),Nk为查询扩展词来源文档集DKB的文档总数,df(tj)是伪相关集D1中,包含了词tj的文档个数。
根据(3),查询扩展词来源文档集DKB中N个文档中的每个文档都可以表示成相应的词的重要度的向量形式
Figure BDA0002509993450000133
并对每个文档的向量进行累加求和后再除以查询扩展词来源文档集DKB中文档总数10,得到所有词项在所有文档中的重要度得分向量
Figure BDA0002509993450000141
如(5)所示:
Figure BDA0002509993450000142
Figure BDA0002509993450000143
中每个词的权重得分取出后从大到小进行排序,将得分最大的前 10个值在
Figure BDA0002509993450000144
对应的词选取出来构成权重查询扩展词集合QKB。为了方便后面的计算,用多项式V1来表示集合QKB中的每个词和该词对应的权重得分,如(6)所示。
V1=wh1×h1+wh2×h2+...whr×hr (6)
在(6)中,h1,h2,h3…hr表示QKB中每个具体的扩展候选词(我们取得分在前10的词项),wh1,wh2wh3…wh10表示对应的扩展候选词在
Figure BDA0002509993450000145
中的得分。
至此,我们已经通过BM25模型以及Rocchio算法通过BM25筛选出的查询扩展词来源文档集获得了我们所需要的BM25方面的查询扩展词集 QKB以及这些扩展词的得分记录。
ALBERT模型获取扩展词的方法与BM25方面获取查询扩展词集QKB的方法完全一致,具体实施步骤如下,通过ALBERT所取得的N篇文档(每篇文档由g个句子代表)中,取前10篇文档,使用Rocchio算法对这10 篇文档中的词进行步骤三中的操作,每个词得分数据Sdit`= {Sd1t`,Sd2t`,Sd3t`,..,Sd10t`},记录在数据表MAP`(term`,S`dit)中。其中,这里的 N可以取任意大于0的整数值。从这10篇文档中选取10个得分靠前的词项,构成查询扩展关键词集Qkb
S5中,将得到的查询扩展词多项式V1和V`1归一化后再进行线性组合,即对根据重要度产生的候选扩展词,用ALBERT语义相似度方法对其进行优化,得到新的查询词多项式V,具体组合方式如(7)所示。
V=(1-γ)×||V1||+γ×||V′1|| (7)
在(7)中,||X||表示对向量X进行归一化运算,归一化的目的是统一量纲,即将向量中每个元素的值规范到区间[0,1.0]中,方便后续的参数调节。归一化有多种方法可以实现,本实施例中采用的是除以最大值法,即每个元素归一化后的值为该元素原来的值除以向量中元素的最大值。例如有一个向量[4,3,2,1],有4个元素,元素的最大值是4,那么对这个向量进行除以最大值法归一化后的结果为
Figure BDA0002509993450000151
即[1,.075,0.5,0.25],可将原向量中的所有值归一化到[0,1.0]之间。
公式(7)中的调节因子γ的取值范围为0到1,它的功能是平衡扩展词的重要度得分和语义相似度得分,在具体应用时,可以预先用测试数据在需要应用的目标文档集上测试得出γ的最优值。
多项式V按每个词项的综合权重得分从大到小排序,将得分最高的前 10(本领域技术人员可预设取值)个词项取出得到新的扩展词集合,QF即为最终的查询扩展词集。
S7中,通过BM25模型对目标文档集Dd进行信息检索,得到最终的检索结果。
本发明提供了一种新的词项查询扩展的方法,通过BM25模型和 ALBERT模型两者相结合来获得扩展词,并且将词项语义信息和句子语义信息融入到查询词项扩展中,使得文档得分和查询扩展词都携带语义特征,最终生成的查询语句和初始查询相比具有更高的语义相关性,能够克服多语义环境下语义混乱的不足,在实际需要中能提取出与查询更相关更有效的信息,提升最终的检索效果。
实施例2
本发明还提供了一种基于BM25+ALBERT模型的伪相关反馈信息检索系统,包括处理器以及存储器,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时,实现实施例1提供的基于BM25+ALBERT 模型的伪相关反馈信息检索方法。
本实施例提供的基于BM25+ALBERT模型的伪相关反馈信息检索系统,用于实现基于BM25+ALBERT模型的伪相关反馈信息检索方法,因此,上述基于BM25+ALBERT模型的伪相关反馈信息检索方法所具备的技术效果,基于BM25+ALBERT模型的伪相关反馈信息检索系统同样具备,在此不再赘述。
实施例3
本发明的实施例3提供了计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现实施例1基于BM25+ALBERT模型的伪相关反馈信息检索方法。
本实施例提供的计算机存储介质,用于实现基于BM25+ALBERT模型的伪相关反馈信息检索方法,因此,上述基于BM25+ALBERT模型的伪相关反馈信息检索方法所具备的技术效果,计算机存储介质同样具备,在此不再赘述。
综上所述,本发明提供的一种基于BM25+ALBERT模型的伪相关反馈信息检索方法、系统及存储介质,依照本发明所提供的将ALBERT方法融入到伪相关反馈模型中的信息检索方法,能够克服传统的伪相关反馈模型只考虑词频信息的不足,传统的检索系统在处理查询时,对一个完整的用户查询语句进行分词,分词后的查询词项之间无序、无关联,原有的句子整体语义信息缺失;本发明在第一轮检索中,在采用传统的BM25算法基础上,不仅考虑了单个查询词项在文档中出现的频率,也将整个查询的语义信息与文档中句子的语义信息联系起来;在对文档进行评估时,不考虑文档中每个句子都与查询相关,只假设得分排名靠前的部分句子与查询最相关,本发明取文档中ALBERT得分最高的前五个句子得分和作为该文档的得分,通过文档得分判断句子所在文档与查询的相关度。关于查询扩展,评估候选扩展词与查询主题的相关度,其依据在于候选扩展词所在文档或句子与整个查询之间的语义相似度。本发明在第一轮检索的过程中将词项语义信息和句子语义信息融入到查询扩展中,使得文档得分和查询扩展词都携带语义特征,和初始查询相比具有更高的语义相关性,能够克服多语义环境下语义混乱的不足,在实际需要中能提取出与查询更相关更有效的信息,提升最终的检索效果,具有重要的市场价值。
可以理解的是,对本领域普通技术人员来说,可以根据本发明的技术方案及其发明构思加以等同替换或改变,而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。

Claims (10)

1.一种基于BM25+ALBERT模型的伪相关反馈信息检索方法,其特征在于,包括如下步骤:
S1,提供多个查询关键词,得到目标文档集;
S2,根据BM25模型,将所述目标文档集运用于该BM25模型,得到伪相关文档集;
S3,根据ALBERT模型,对所述伪相关文档集进行处理,得到第一文档集合;
S4,对所述伪相关文档集进行得分排序处理,得到伪相关文档集的扩展词及扩展词得分,将扩展词及扩展词得分记录在数据表中;
对所述第一文档集合进行得分排序处理,得到第一文档集合的扩展词及扩展词得分,将扩展词及扩展词得分记录在数据表中;
S5,对所述伪相关文档集的扩展词及其得分,和第一文档集合的扩展词及其得分进行线性融合,得到新扩展词及其新得分;
S6,对所述新扩展词按新得分进行排列,对排列后的扩展词与原始查询关键词进行结合,生成最终文档集合;
S7,根据所述BM25模型对最终文档集合进行检索,得到最终检索结果。
2.根据权利要求1所述的一种基于BM25+ALBERT模型的伪相关反馈信息检索方法,其特征在于,所述S2具体包括以下步骤:
S21,将所述目标文档集运用于BM25模型中,得到目标文档集中每一篇文档的得分;
S22,将目标文档集中的每篇文档按得分由高到低排序,筛选出得分高的前N(N为自然数)篇文档,得到伪相关文档集。
3.根据权利要求2所述的一种基于BM25+ALBERT模型的伪相关反馈信息检索方法,其特征在于,所述S21中,目标文档集中每一篇文档得分的计算公式为:
Figure FDA0002509993440000021
其中,q表示所提供的查询关键词,dm表示目标文档集中的第m篇文档,VBM25(q,dm)是通过BM25模型得到的第m篇文档得分,tf是词项t在文档dm中的权重,idf是词项t在目标文档集中的稀有程度。
4.根据权利要求1所述的一种基于BM25+ALBERT模型的伪相关反馈信息检索方法,其特征在于,所述S3具体包括以下步骤:
S31,将所述伪相关文档集中的每篇文档划分为若干个句子,并将每篇文档的若干个句子运用于ALBERT模型中,得到每篇文档的若干个句子的得分;
S32,将每篇文档中的句子按得分从高到低排序,每篇文档得分前N`(N`为自然数)的句子代表这篇文档,得到第一文档集合。
5.根据权利要求4所述的一种基于BM25+ALBERT模型的伪相关反馈信息检索方法,其特征在于,所述S31中,每一篇文档的得分的计算公式为:
Figure FDA0002509993440000022
其中,VALBERT[j]表示第j篇文档的文档得分,Sj,k表示第j篇文档的第k个句子,F(Sj,k,Qy)表示第j篇文档的第k个句子和原始查询关键词Qy的相似度得分,maxF(Sj,k,Qy)表示第j篇文档的第k个句子和原始查询关键词Qy的相似度最高的得分,
Figure FDA0002509993440000023
表示取第j篇文档内句子得分最高的N`(N`为自然数)个句子得分之和。
6.根据权利要求1所述的一种基于BM25+ALBERT模型的伪相关反馈信息检索方法,其特征在于,每个扩展词的得分,等于该词所在的所有句子得分的累加和。
7.根据权利要求1所述的一种基于BM25+ALBERT模型的伪相关反馈信息检索方法,其特征在于,所述S5中,扩展词的新得分的计算公式为:
VBM25+ALBERT=α*Sdit+(1-α)*Seit′ (3)
其中,α为调优参数,取值范围[0,1],VBM25+ALBERT表示通过BM25取得的10篇文档中的词得分与通过ALBERT取得的10篇文档中的词得分线性融合后的词项得分,Sdit`表示伪相关文档集的扩展词得分,Seit`表示第一文档集合的扩展词得分。
8.根据权利要求1所述的一种基于BM25+ALBERT模型的伪相关反馈信息检索方法,其特征在于,所述S1中的查询关键词是通过对初始查询进行预处理得到。
9.一种基于BM25+ALBERT模型的伪相关反馈信息检索系统,其特征在于,包括处理器以及存储器,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时,实现如权利要求1-8任一所述的基于BM25+ALBERT模型的伪相关反馈信息检索方法。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机该程序被处理器执行时,实现如权利要求1-8任一所述的基于BM25+ALBERT模型的伪相关反馈信息检索方法。
CN202010457925.4A 2020-05-27 2020-05-27 基于bm25+albert模型的伪相关反馈信息检索方法、系统及存储介质 Withdrawn CN111625624A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010457925.4A CN111625624A (zh) 2020-05-27 2020-05-27 基于bm25+albert模型的伪相关反馈信息检索方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010457925.4A CN111625624A (zh) 2020-05-27 2020-05-27 基于bm25+albert模型的伪相关反馈信息检索方法、系统及存储介质

Publications (1)

Publication Number Publication Date
CN111625624A true CN111625624A (zh) 2020-09-04

Family

ID=72272085

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010457925.4A Withdrawn CN111625624A (zh) 2020-05-27 2020-05-27 基于bm25+albert模型的伪相关反馈信息检索方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN111625624A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112307182A (zh) * 2020-10-29 2021-02-02 上海交通大学 一种基于问答系统的伪相关反馈的扩展查询方法
CN112818093A (zh) * 2021-01-18 2021-05-18 平安国际智慧城市科技股份有限公司 基于语义匹配的证据文档检索方法、系统及存储介质
CN113094519A (zh) * 2021-05-07 2021-07-09 超凡知识产权服务股份有限公司 一种基于文档进行检索的方法及装置
CN113806237A (zh) * 2021-11-18 2021-12-17 杭州费尔斯通科技有限公司 一种基于词典的语言理解模型的测评方法和系统
CN114969310A (zh) * 2022-06-07 2022-08-30 南京云问网络技术有限公司 一种面向多维数据的分段式检索排序系统设计方法
CN117034961A (zh) * 2023-10-09 2023-11-10 武汉大学 一种基于bert的中法互译质量测评方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107247745A (zh) * 2017-05-23 2017-10-13 华中师范大学 一种基于伪相关反馈模型的信息检索方法及系统
CN109829104A (zh) * 2019-01-14 2019-05-31 华中师范大学 基于语义相似度的伪相关反馈模型信息检索方法及系统
CN110442777A (zh) * 2019-06-24 2019-11-12 华中师范大学 基于bert的伪相关反馈模型信息检索方法及系统
CN110837559A (zh) * 2019-11-08 2020-02-25 卫盈联信息技术(深圳)有限公司 语句样本集的生成方法、电子装置及存储介质
CN111144131A (zh) * 2019-12-25 2020-05-12 北京中科研究院 一种基于预训练语言模型的网络谣言检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107247745A (zh) * 2017-05-23 2017-10-13 华中师范大学 一种基于伪相关反馈模型的信息检索方法及系统
CN109829104A (zh) * 2019-01-14 2019-05-31 华中师范大学 基于语义相似度的伪相关反馈模型信息检索方法及系统
CN110442777A (zh) * 2019-06-24 2019-11-12 华中师范大学 基于bert的伪相关反馈模型信息检索方法及系统
CN110837559A (zh) * 2019-11-08 2020-02-25 卫盈联信息技术(深圳)有限公司 语句样本集的生成方法、电子装置及存储介质
CN111144131A (zh) * 2019-12-25 2020-05-12 北京中科研究院 一种基于预训练语言模型的网络谣言检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHENZHONG LAN等: ""ALBERT: A Lite BERT for Self-supervised Learning of Language Representations"" *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112307182A (zh) * 2020-10-29 2021-02-02 上海交通大学 一种基于问答系统的伪相关反馈的扩展查询方法
CN112307182B (zh) * 2020-10-29 2022-11-04 上海交通大学 一种基于问答系统的伪相关反馈的扩展查询方法
CN112818093A (zh) * 2021-01-18 2021-05-18 平安国际智慧城市科技股份有限公司 基于语义匹配的证据文档检索方法、系统及存储介质
CN113094519A (zh) * 2021-05-07 2021-07-09 超凡知识产权服务股份有限公司 一种基于文档进行检索的方法及装置
CN113094519B (zh) * 2021-05-07 2023-04-14 超凡知识产权服务股份有限公司 一种基于文档进行检索的方法及装置
CN113806237A (zh) * 2021-11-18 2021-12-17 杭州费尔斯通科技有限公司 一种基于词典的语言理解模型的测评方法和系统
CN113806237B (zh) * 2021-11-18 2022-03-08 杭州费尔斯通科技有限公司 一种基于词典的语言理解模型的测评方法和系统
CN114969310A (zh) * 2022-06-07 2022-08-30 南京云问网络技术有限公司 一种面向多维数据的分段式检索排序系统设计方法
CN114969310B (zh) * 2022-06-07 2024-04-05 南京云问网络技术有限公司 一种面向多维数据的分段式检索排序系统设计方法
CN117034961A (zh) * 2023-10-09 2023-11-10 武汉大学 一种基于bert的中法互译质量测评方法
CN117034961B (zh) * 2023-10-09 2023-12-19 武汉大学 一种基于bert的中法互译质量测评方法

Similar Documents

Publication Publication Date Title
CN110442777B (zh) 基于bert的伪相关反馈模型信息检索方法及系统
CN111625624A (zh) 基于bm25+albert模型的伪相关反馈信息检索方法、系统及存储介质
Xiong et al. Explicit semantic ranking for academic search via knowledge graph embedding
CN109829104B (zh) 基于语义相似度的伪相关反馈模型信息检索方法及系统
CN106997382B (zh) 基于大数据的创新创意标签自动标注方法及系统
US8027977B2 (en) Recommending content using discriminatively trained document similarity
KR101721338B1 (ko) 검색 엔진 및 그의 구현 방법
US8527506B2 (en) Media discovery and playlist generation
Yan et al. Learning query-class dependent weights in automatic video retrieval
CN103136352B (zh) 基于双层语义分析的全文检索系统
US20110191336A1 (en) Contextual image search
US20100281034A1 (en) Query-Independent Entity Importance in Books
US20080154886A1 (en) System and method for summarizing search results
US8788494B2 (en) Method, device and system for processing, browsing and searching an electronic documents
CN108241613A (zh) 一种提取关键词的方法及设备
Anoop et al. A topic modeling guided approach for semantic knowledge discovery in e-commerce
CN114996444A (zh) 一种新闻自动摘要方法及系统
CN111737413A (zh) 基于概念网语义的反馈模型信息检索方法、系统及介质
CN111767724A (zh) 一种文本相似度计算方法及系统
CN111966899A (zh) 搜索排序方法、系统及计算机可读存储介质
CN112507097A (zh) 一种提高问答系统泛化能力的方法
Sadat et al. A Clustering Study for the Optimization of Emotional Information Retrieval Systems: DBSCAN vs K-means
Thao et al. A relevance model for Web image search
Zhao et al. An augmented user model for personalized search in collaborative social tagging systems
Min Utilizing external resources for enriching information retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20200904

WW01 Invention patent application withdrawn after publication