CN114298055B - 基于多级语义匹配的检索方法、装置、计算机设备和存储介质 - Google Patents

基于多级语义匹配的检索方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN114298055B
CN114298055B CN202111599012.7A CN202111599012A CN114298055B CN 114298055 B CN114298055 B CN 114298055B CN 202111599012 A CN202111599012 A CN 202111599012A CN 114298055 B CN114298055 B CN 114298055B
Authority
CN
China
Prior art keywords
retrieval
document
semantic matching
semantic
screening
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111599012.7A
Other languages
English (en)
Other versions
CN114298055A (zh
Inventor
王健
林怀忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202111599012.7A priority Critical patent/CN114298055B/zh
Publication of CN114298055A publication Critical patent/CN114298055A/zh
Application granted granted Critical
Publication of CN114298055B publication Critical patent/CN114298055B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种基于多级语义匹配的检索方法、装置、计算机设备和存储介质,包括:对检索语句和候选文档进行语义特征提取,得到检索语句的语句表征向量和候选文档的文档表征向量;依据语句表征向量和文档表征向量确定检索语句与每个候选文档的相关性,以进行初级语义匹配,并依据初级语义匹配结果筛选候选文档组成预筛选文档集;针对预筛选文档集中每个候选文档,利用LDA主题模型分别计算每个候选文档和检索语句的主题信息,利用BERT预训练模型提取检索语句与每个候选文档的结合语义信息,结合两个主题信息和结合语义信息进行二级语义匹配,依据二级语义匹配结果返回检索语句对应的候选文档的检索排序,该方法可以提高检索效率和准确率。

Description

基于多级语义匹配的检索方法、装置、计算机设备和存储介质
技术领域
本发明涉及自然语言处理、语义解析和文本匹配等技术领域,具体来涉及一种基于多级语义匹配的检索方法、装置、计算设备和存储介质。
背景技术
随着互联网的快速发展,网络中的信息也呈指数形式飞速增长,这些海量数据为用户提供了一个数据丰富查询数据源。通常人们会使用各种搜索引擎辅助查找所需要的相关信息,然而在很多垂直领域中搜索引擎的检索效果并不好,如医疗、教育、金融等,由于这些领域的专业性和特殊性,搜索引擎返回给用户的大量结果中与检索相关性较大的较少,用户还需要在查询结果中再次筛选,此时搜索引擎往往无法给出用户满意的检索结果,无法很好的满足用户智能化检索的请求,因此研究一种适用于特定垂直领域的智能检索方法迫在眉睫。
现有搜索引擎在搜索时仍然主要使用关键字匹配、PageRank算法和倒排索引等经典算法作为检索的依据,首先对用户输入的检索语句进行分词等自然语言处理方法,将检索语句解析成多个用户检索意图关键词,并对关键词依据已有词库进行错误纠正和相似词扩展,然后再进行联合查询,即在创建的文档索引中进行关键词匹配,以多个关键词命中数作为倒排索引的依据,并将相关的网页返回给用户。这样的检索方法在大多数场景下都能向用户返回满意的结果,但是在一些垂直领域中由于没有进行对文本进行深层的语义解析,很难理解用户的查询意图,效果较差。
在很多自然语言处理任务中,预训练模型得到了广泛的应用。比如最近兴起的Google提出来的BERT预训练模型,通过对海量文本数据进行无监督学习,通过MaskedLanguage Model(掩码语言模型)和Next Sentence Prediction(下个语句预测)这两个任务来对模型参数进行预训练,然后根据具体的下游任务的数据对模型参数进行微调。预训练语言模型的成功,证明了可以从海量的无标注文本中学到潜在的语义信息,而无需为每一项下游NLP任务单独标注大量训练数据。因此,可以通过引入预训练模型来提升对自然语言的特征提取能力。
另外,在候选文档数量特别多的情况下,比如几百万到上亿的规模,如果对检索语句和所有的候选文档来进行语义匹配往往是不现实的,这样的检索方式计算量很大且耗时很长,不符合现实需求。因此,海量候选文档的检索除了要考虑到检索精度,还需要考虑到检索时间。
海量文档的智能语义检索不需要直接对检索语句和候选文档进行精确语义匹配,结合预训练模型对海量候选文档进行初步筛选,然后对再对检索语句和预筛选文档进行精确的语义匹配,平衡检索效率和检索精度,最后返回最符合用户意图的检索结果。
发明内容
针对上述问题,本发明提供了一种基于多级语义匹配的检索方法和装置,以提高检索效率和准确率。
为实现上述发明目的,本发明实施例提供了一种基于多级语义匹配的检索方法,包括以下步骤:
语义特征解析:对检索语句和候选文档进行语义特征提取,得到检索语句的语句表征向量和候选文档的文档表征向量;
初级语义匹配和预筛选:对采用注意力机制依据语句表征向量和文档表征向量确定检索语句与每个候选文档的初级语义匹配结果,并依据初级语义匹配结果筛选候选文档组成预筛选文档集;
二级语义匹配和确定检索结果:针对预筛选文档集中每个候选文档,利用LDA主题模型分别计算每个候选文档和检索语句的主题信息,利用BERT预训练模型提取检索语句与每个候选文档的结合语义信息,结合两个主题信息和结合语义信息进行二级语义匹配,依据二级语义匹配结果返回检索语句对应的候选文档的检索排序。
在一个实施方式中,所述语义特征解析,包括:利用基于ELECTRA模型和BiLSTM模型构建的语义特征解析模型对检索语句和候选文档进行语义特征提取,以得到检索语句的语句表征向量和候选文档的文档表征向量。
在一个实施方式中,所述初级语义匹配和预筛选,还包括:依据文档表征向量对候选文档进行聚类,得到多个聚类簇及对应的聚类中心,采用注意力机制依据语句表征向量和每个聚类中心对应文档表征向量确定检索语句与每个聚类中心对应的候选文档的初级语义匹配结果,依据初级语义匹配结果从所有聚类中心中筛选多个相似的聚类中心作为预筛聚类中心,然后筛选预筛聚类中心对应的聚类簇包含的候选文档组成预筛选文档集。
在一个实施方式中,在对检索语句与每个候选文档进行初级语义匹配时,首先,对语句表征向量和文档表征向量进行L2正则化处理,然后,依据L2正则化处理后的语句表征向量和文档表征向量进行余弦相似度计算以确定初级语义匹配得分作为初级语义匹配结果。
在一个实施方式中,所述依据初级语义匹配结果筛选候选文档组成预筛选文档集,包括:依据文档表征向量对候选文档进行聚类,得到多个聚类簇及对应的聚类中心,依据初级语义匹配结果从所有聚类中心中筛选多个相似的聚类中心作为预筛聚类中心,然后筛选预筛聚类中心对应的聚类簇包含的候选文档组成预筛选文档集。
在一个实施方式中,所述结合两个主题信息和结合语义信息进行二级语义匹配,包括:两个主题信息和结合语义信息拼接后输入至全连接层,经过全连接融合后,输入至softmax层,经计算得到二级语义匹配结果。
在一个实施方式中,所述检索方法还包括:语义特征解析后,采用Faiss向量索引库存储候选文档的文档表征向量,初级语义匹配和预筛选过程、二级语义匹配和确定检索结果过程均通过Faiss向量索引库调取文档表征向量进行计算。
为实现上述发明目的,实施例还提供了一种基于多级语义匹配的检索装置,包括:
语义特征解析模块,用于对检索语句和候选文档进行语义特征提取,得到检索语句的语句表征向量和候选文档的文档表征向量;
初级语义匹配和预筛选模块,英语依据语句表征向量和文档表征向量确定检索语句与每个候选文档的相关性,以进行初级语义匹配,并依据初级语义匹配结果筛选候选文档组成预筛选文档集;
二级语义匹配和确定检索结果模块,用于针对预筛选文档集中每个候选文档,利用LDA主题模型分别计算每个候选文档和检索语句的主题信息,利用BERT预训练模型提取检索语句与每个候选文档的结合语义信息,结合两个主题信息和结合语义信息进行二级语义匹配,依据二级语义匹配结果返回检索语句对应的候选文档的检索排序。
为实现上述发明目的,实施例还提供了一种计算机设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序,所述处理器执行所述计算机程序时实现上述基于多级语义匹配的检索方法的步骤。
为实现上述发明目的,实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理执行时实现上述基于多级语义匹配的检索方法的步骤。
与现有技术相比,实施例提供的基于多级语义匹配的检索方法、装置、计算设备和存储介质,具有的有益效果至少包括:
通过语义特征解析得到检索语句的语句表征向量和候选文档的文档表征向量后,计算输入检索语句与候选文档的相关性得到初级语义匹配结果,并筛选得到预筛选文档;然后通过LDA主题模型和BERT预训练模型提取检索语句和预筛选文档的主题信息和结合语义信息得到二级语义匹配结果,这样提高了检索速度,且同时保证了检索精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是实施例提供的基于多级语义匹配的检索方法的流程图;
图2是实施例提供的语义特征解析模型的结构示意图;
图3是实施例提供的二级语义匹配的流程图;
图4是实施例提供的基于多级语义匹配的检索装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
图1是实施例提供的基于多级语义匹配的检索方法的流程图。如图1所示,实施例提供的基于多级语义匹配的检索方法,包括以下步骤:
步骤1,语义特征解析:利用语义分析模型对输入的检索语句和候选文档进行语义特征提取,得到检索语句的语句表征向量和候选文档的文档表征向量。
图2是实施例提供的语义特征解析模型的结构示意图。如图2所示,语义特征解析模型包括ELECTRA模型和BiLSTM模型。其中用ELECTRA模型对输入的检索语句和候选文档进行语义特征提取,提取的语义特征再通过BiLSTM模型进行进一步特征提取,最后输出的二维向量即为语义特征解析结果,具体为语句表征向量和文档表征向量。
实施例中,语义特征解析模型采用基于Seq2Seq的Encoder-Decoder模式进行语义解析任务,其中,Encoder端和Decoder端都采用基于Transformer的ECLECTRA预训练模型的进行编码和解码任务,同时Decoder端最后使用BiLSTM模型进行最终的语义特征向量提取。
ELECTRA模型使用Transformer结构对文本进行建模,通过注意力机制能够捕捉远距离的依赖信息,克服了LSTM模型的梯度爆炸和消失的问题。同时Transformer使用position embedding保留有文本单词的顺序信息,使其像CNN模型一样能够处理时序信息;Transformer是双向模型,能够捕捉输入在上下文语境中的信息,综合的生成单词在特定语境下的向量表示,使得向量表示更加准确。
ELECTRA模型通过一种类似生成—判别网络的RTD(replaced token detection)机制加快模型的训练速度。RTD机制是对BERT模型的Mask语言模型进行的改进:1)与MLM机制相同,首先对输入的语句进行随机mask;2)然后由RTD机制的生成器将输入语句中的mask随机替换为其他单词;3)最后交由RTD机制中的判别器来判定生成器生成的语句中哪些单词是原有的,哪些单词是被替换后的。通过RTD机制,ELECTRA模型能更好的学习句子层级的语义关系,根据句子的上下文信息学习更准确的语义表示。
针对语义特征解析模型的Encoder端和Decoder端的ELECTRA模型来进行编码解码任务,对输入的文本信息(检索语句或候选文档)进行单词层级和基于上下文的句子层级信息的抽取。在使用ELECTRA模型对文本信息进行特征提取后,再使用双向LSTM模型(BiLSTM模型)对其进行进一步的特征提取,双向LSTM能同时提取该输入在上文和下文中的历史信息,两者结合能充分挖掘该输入在上下文相关文本中的特征,使得向量表示更为准确。
针对文本信息x={x1,x2,x3,...xn},经过ELECTRA模型计算后得到输出向量c={c1,c2,c3,...cn},该输出向量c={c1,c2,c3,...cn}经过BiLSTM模型计算后分别得到前向输出序列
Figure BDA0003432530240000071
和反向输出序列
Figure BDA0003432530240000072
将输出序列进行拼接得到向量
Figure BDA0003432530240000073
即为BiLSTM模型得到的文本语义表示向量。由于文本信息的长度并不是定值,实际处理中会对文本信息进行填充使得每个batch中所有文本信息的长度相同,因此在得到文本语义表示向量
Figure BDA0003432530240000074
后还需要对其进行截断得到
Figure BDA0003432530240000075
n表示文本信息长度,K表示截取后文本信息长度。针对检索语句,经过语义特征解析,得到的语句表征向量为q={q1,q2,...,qK},针对第i个候选文档,经过语义特征解析,得到的文档表征向量为di={d1,d2,...,dK}。
实施例中,采用语义特征解析模型对候选文档进行离线特征提取,得到的文档表征向量D={di,d2,...,dm}存储到Faiss向量索引库,后面的初级语义匹配和预筛选过程、二级语义匹配和确定检索结果过程均通过Faiss向量索引库调取文档表征向量进行计算,这样能够加速后续的语义检索过程。
步骤2,初级语义匹配和预筛选:基于语句表征向量和文档表征向量进行初级语义匹配并筛选得到预筛选文档集。
实施例中,采用两种初级语义匹配和预筛选的方式。在一个实施方式中,依据语句表征向量和文档表征向量确定检索语句与每个候选文档的相关性,以进行初级语义匹配,并依据初级语义匹配结果筛选候选文档组成预筛选文档集T={t1,t2,...,tO}。
具体地,在对检索语句与每个候选文档进行初级语义匹配时,首先,对语句表征向量和文档表征向量进行L2正则化处理,然后,依据L2正则化处理后的语句表征向量和文档表征向量进行余弦相似度计算以确定初级语义匹配得分作为初级语义匹配结果。
语句表征向量q={q1,q2,...,qk}与文档表征向量di={d1,d2,...,dk}的余弦相似度cossim(q,di)的计算公式为:
Figure BDA0003432530240000081
实施例中将语义特征解析模型输出的语句表征向量和文档表征向量经过L2正则化处理,使得其中||q||和||di||值都为1,这样任意两个向量的余弦相似度所对应的内积都在合法区间[0,1]中,在具体计算余弦相似度时,只需要通过向量内积q*di来计算余弦相似度。
具体地,计算所输入的检索语句对应的语句表征向量q中第k个语素对应向量qk,计算qk和候选文档对应的文档表征向量di中第j个语素对应向量dj的内积的最大值,然后对语句表征向量q中每个语素求得的内积最大值求和作为最终语义匹配得分score1,该语义匹配得分即为初级语义匹配结果:
Figure BDA0003432530240000091
实施例中,依据初级语义匹配结果筛选候选文档组成预筛选文档集,包括:依据文档表征向量对候选文档进行聚类,得到多个聚类簇及对应的聚类中心,依据初级语义匹配结果从所有聚类中心中筛选多个相似的聚类中心作为预筛聚类中心,然后筛选预筛聚类中心对应的聚类簇包含的候选文档组成预筛选文档集。
在另外一个实施方式中,依据文档表征向量对候选文档进行聚类,得到多个聚类簇及对应的聚类中心,依据语句表征向量和每个聚类中心对应文档表征向量确定检索语句与每个聚类中心对应的候选文档的初级语义匹配结果,依据初级语义匹配结果从所有聚类中心中筛选多个相似的聚类中心作为预筛聚类中心,然后筛选预筛聚类中心对应的聚类簇包含的候选文档组成预筛选文档集T={t1,t2,...,tO}。该方式由于先进行聚类,基于聚类中心与检索语句的匹配结果筛选预筛聚类中心,然后基于预筛聚类中心确定预筛选文档集,该方式大大减少了语义匹配计算次数,进而提升了检索效率。
当经过语义特征解析模型解析得到的文档表征向量存储在Faiss向量索引库时,在对文档表征向量聚类处理时,可以采用Faiss的IVFPQ索引在处理向量时先用IVF算法把文档表征向量聚类,得到多个聚类簇及对应的聚类中心。
步骤3,二级语义匹配和确定检索结果:利用LDA主题模型和BERT预训练模型提取候选文档和检索语句的主体信息和结合语义信息,并进行二级语义匹配后返回检索结果。
LDA主题模型用于推测文档的主题分布。它可以将文档集中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题分布后,便可以根据主题分布进行主题聚类或文本分类等任务。
图3是实施例提供的二级语义匹配的流程图。如图3所示,利用BERT预训练模型提取检索语句与每个候选文档的结合语义信息C=BERT(q,to)∈Rd,其中,to表示预筛选文档集T中第o个候选文档,BERT(·)表示BERT预训练模型。
如图3所示,实施例还利用LDA主题模型分别计算预筛选文档集T中每个候选文档和检索语句的主题信息:
Figure BDA0003432530240000101
Figure BDA0003432530240000102
其中,W1和W2分别表示候选文档和检索语句的主题信息,LDA(·)表示LDA主题模型,wn和w′n分别表示LDA主题模型对to和q针对第n个语素的主题表征。
实施例中,在获得结合语义信息C、主题信息W1和W2后,结合两个主题信息和结合语义信息进行二级语义匹配,依据二级语义匹配结果返回检索语句对应的候选文档的检索排序。如图3所示,具体过程包括:C、W1、W2拼接后形成向量V=[C;W1;W2]∈Rd+2t,该向量V输入至隐藏层hidden(·),该隐藏层采用全连接层,经过全连接融合后,输入至softmax层,经计算得到二级语义匹配得分score2作为二级语义匹配结果,score2=Softmax(hidden(V))。然后,根据score2对候选文档进行排序并输出。
图4是实施例提供的基于多级语义匹配的检索装置的结构示意图。如图4所示,实施例提供的检索装置包括:
语义特征解析模块,对检索语句和候选文档进行语义特征提取,得到检索语句的语句表征向量和候选文档的文档表征向量;
初级语义匹配和预筛选模块,依据语句表征向量和文档表征向量确定检索语句与每个候选文档的相关性,以进行初级语义匹配,并依据初级语义匹配结果筛选候选文档组成预筛选文档集;
二级语义匹配和确定检索结果模块,针对预筛选文档集中每个候选文档,利用LDA主题模型分别计算每个候选文档和检索语句的主题信息,利用BERT预训练模型提取检索语句与每个候选文档的结合语义信息,结合两个主题信息和结合语义信息进行二级语义匹配,依据二级语义匹配结果返回检索语句对应的候选文档的检索排序。
需要说明的是,上述实施例提供的检索装置在进行于多级语义匹配的检索时,应以上述各功能模块的划分进行举例说明,可以根据需要将上述功能分配由不同的功能模块完成,即在终端或服务器的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的检索装置与检索方法实施例属于同一构思,其具体实现过程详见检索方法实施例,这里不再赘述。
实施例还提供了一种计算机设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述基于多级语义匹配的检索方法,包括以下步骤:
步骤1,语义特征解析:利用语义分析模型对输入的检索语句和候选文档进行语义特征提取,得到检索语句的语句表征向量和候选文档的文档表征向量。
步骤2,初级语义匹配和预筛选:基于语句表征向量和文档表征向量进行初级语义匹配并筛选得到预筛选文档集。
步骤3,二级语义匹配和确定检索结果:利用LDA主题模型和BERT预训练模型提取候选文档和检索语句的主体信息和结合语义信息,并进行二级语义匹配后返回检索结果。
实际应用中,计算机存储器可以为在近端的易失性存储器,如RAM,还可以是非易失性存储器,如ROM,FLASH,软盘,机械硬盘等,还可以是远端的存储云。计算机处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA),即可以通过这些处理器实现基于多级语义匹配的检索步骤。
实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理执行时实现上述基于多级语义匹配的检索方法的步骤。
针对传统方法中使用word2vec、GloVe等静态词向量无法解决的一词多义问题,CNN、LSTM等网络结果在特征提取中效果效果较差的问题,上述实施例提供的基于多级语义匹配的检索方法、装置、计算设备和存储介质,使用基于Transformer结构的ELECTRA模型进行词级和句子级别的语义特征提取,使得模型能够更准确的理解输入的检索词,提高了语义检索中语义理解的准确性,快速准确地理解用户的查询意图。
针对现有语义检索方法难以平衡检索的速度和精度的问题,上述实施例提供的基于多级语义匹配的检索方法、装置、计算设备和存储介质引入了Faiss向量索引库,先离线处理所有的候选文档并保存在Faiss索引中,把相似的文本特征向量聚簇在一块方便后续筛选。
上述实施例提供的基于多级语义匹配的检索方法、装置、计算设备和存储介质,结合LDA主题模型和BERT预训练模型对主题信息和语义信息进行特征提取,在某些特定领域的场景下效果更加明显。
上述实施例提供的基于多级语义匹配的检索方法、装置、计算设备和存储介质,通过多次语义匹配,第一次匹配筛选出多个相关的聚类中心,得到少量的预筛选文档,第二次匹配对预筛选文档和检索语句提取主题信息和语义信息,计算二者相关性。对于海量文档集合的匹配,加快了检索的速度,同时效果上也得到了提升。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于多级语义匹配的检索方法,其特征在于,包括以下步骤:
语义特征解析:对检索语句和候选文档进行语义特征提取,得到检索语句的语句表征向量和候选文档的文档表征向量;
初级语义匹配和预筛选:依据语句表征向量和文档表征向量确定检索语句与每个候选文档的相关性,以进行初级语义匹配,并依据初级语义匹配结果筛选候选文档组成预筛选文档集;
二级语义匹配和确定检索结果:针对预筛选文档集中每个候选文档,利用LDA主题模型分别计算每个候选文档和检索语句的主题信息,利用BERT预训练模型提取检索语句与每个候选文档的结合语义信息,结合主题信息和结合语义信息进行二级语义匹配,依据二级语义匹配结果返回检索语句对应的候选文档的检索排序;
其中,在对检索语句与每个候选文档进行初级语义匹配时,首先,对语句表征向量和文档表征向量进行L2正则化处理,然后,依据L2正则化处理后的语句表征向量和文档表征向量进行余弦相似度计算以确定初级语义匹配得分作为初级语义匹配结果;
或,计算所输入的检索语句对应的语句表征向量q中第k个语素对应向量qk,计算qk和候选文档对应的文档表征向量di中第j个语素对应向量dj的内积的最大值,然后对语句表征向量q中每个语素求得的内积最大值求和作为最终语义匹配得分score1,该语义匹配得分即为初级语义匹配结果:
score1=∑k∈||q||maxj∈||d||qk·dj
2.根据权利要求1所述的基于多级语义匹配的检索方法,其特征在于,所述语义特征解析,包括:利用基于ELECTRA模型和BiLSTM模型构建的语义特征解析模型对检索语句和候选文档进行语义特征提取,以得到检索语句的语句表征向量和候选文档的文档表征向量。
3.根据权利要求1所述的基于多级语义匹配的检索方法,其特征在于,所述初级语义匹配和预筛选,还包括:依据文档表征向量对候选文档进行聚类,得到多个聚类簇及对应的聚类中心,依据语句表征向量和每个聚类中心对应文档表征向量确定检索语句与每个聚类中心对应的候选文档的初级语义匹配结果,依据初级语义匹配结果从所有聚类中心中筛选多个相似的聚类中心作为预筛聚类中心,然后筛选预筛聚类中心对应的聚类簇包含的候选文档组成预筛选文档集。
4.根据权利要求1所述的基于多级语义匹配的检索方法,其特征在于,所述依据初级语义匹配结果筛选候选文档组成预筛选文档集,包括:依据文档表征向量对候选文档进行聚类,得到多个聚类簇及对应的聚类中心,依据初级语义匹配结果从所有聚类中心中筛选多个相似的聚类中心作为预筛聚类中心,然后筛选预筛聚类中心对应的聚类簇包含的候选文档组成预筛选文档集。
5.根据权利要求1所述的基于多级语义匹配的检索方法,其特征在于,所述结合两个主题信息和结合语义信息进行二级语义匹配,包括:两个主题信息和结合语义信息拼接后输入至全连接层,经过全连接融合后,输入至softmax层,经计算得到二级语义匹配结果。
6.根据权利要求1或3所述的基于多级语义匹配的检索方法,其特征在于,所述检索方法还包括:语义特征解析后,采用Faiss向量索引库存储候选文档的文档表征向量,初级语义匹配和预筛选过程、二级语义匹配和确定检索结果过程均通过Faiss向量索引库调取文档表征向量进行计算。
7.一种基于多级语义匹配的检索装置,其特征在于,包括:
语义特征解析模块,用于对检索语句和候选文档进行语义特征提取,得到检索语句的语句表征向量和候选文档的文档表征向量;
初级语义匹配和预筛选模块,用于依据语句表征向量和文档表征向量确定检索语句与每个候选文档的相关性,以进行初级语义匹配,并依据初级语义匹配结果筛选候选文档组成预筛选文档集;
二级语义匹配和确定检索结果模块,用于针对预筛选文档集中每个候选文档,利用LDA主题模型分别计算每个候选文档和检索语句的主题信息,利用BERT预训练模型提取检索语句与每个候选文档的结合语义信息,结合两个主题信息和结合语义信息进行二级语义匹配,依据二级语义匹配结果返回检索语句对应的候选文档的检索排序;
其中,在对检索语句与每个候选文档进行初级语义匹配时,首先,对语句表征向量和文档表征向量进行L2正则化处理,然后,依据L2正则化处理后的语句表征向量和文档表征向量进行余弦相似度计算以确定初级语义匹配得分作为初级语义匹配结果;
或,计算所输入的检索语句对应的语句表征向量q中第k个语素对应向量qk,计算qk和候选文档对应的文档表征向量di中第j个语素对应向量dj的内积的最大值,然后对语句表征向量q中每个语素求得的内积最大值求和作为最终语义匹配得分score1,该语义匹配得分即为初级语义匹配结果:
score1=∑k∈||q||maxj∈||d||qk·dj
8.一种计算机设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-6任一项所述的基于多级语义匹配的检索方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理执行时实现权利要求1-6任一项所述的基于多级语义匹配的检索方法的步骤。
CN202111599012.7A 2021-12-24 2021-12-24 基于多级语义匹配的检索方法、装置、计算机设备和存储介质 Active CN114298055B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111599012.7A CN114298055B (zh) 2021-12-24 2021-12-24 基于多级语义匹配的检索方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111599012.7A CN114298055B (zh) 2021-12-24 2021-12-24 基于多级语义匹配的检索方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN114298055A CN114298055A (zh) 2022-04-08
CN114298055B true CN114298055B (zh) 2022-08-09

Family

ID=80970544

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111599012.7A Active CN114298055B (zh) 2021-12-24 2021-12-24 基于多级语义匹配的检索方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN114298055B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115114395B (zh) * 2022-04-15 2024-03-19 腾讯科技(深圳)有限公司 内容检索及模型训练方法、装置、电子设备和存储介质
CN115309872B (zh) * 2022-10-13 2023-03-10 深圳市龙光云众智慧科技有限公司 一种基于Kmeans召回的多模型熵加权检索方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136352A (zh) * 2013-02-27 2013-06-05 华中师范大学 基于双层语义分析的全文检索系统
CN103744984A (zh) * 2014-01-15 2014-04-23 北京理工大学 一种利用语义信息检索文档的方法
CN103823799A (zh) * 2012-11-16 2014-05-28 镇江诺尼基智能技术有限公司 新一代行业知识全文检索方法
CN109190117A (zh) * 2018-08-10 2019-01-11 中国船舶重工集团公司第七〇九研究所 一种基于词向量的短文本语义相似度计算方法
GB201901832D0 (en) * 2019-02-08 2019-04-03 All Street Res Limited Improved method and system for text based searching

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103823799A (zh) * 2012-11-16 2014-05-28 镇江诺尼基智能技术有限公司 新一代行业知识全文检索方法
CN103136352A (zh) * 2013-02-27 2013-06-05 华中师范大学 基于双层语义分析的全文检索系统
CN103744984A (zh) * 2014-01-15 2014-04-23 北京理工大学 一种利用语义信息检索文档的方法
CN109190117A (zh) * 2018-08-10 2019-01-11 中国船舶重工集团公司第七〇九研究所 一种基于词向量的短文本语义相似度计算方法
GB201901832D0 (en) * 2019-02-08 2019-04-03 All Street Res Limited Improved method and system for text based searching

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Correlated Topic Model for Web Services Ranking;Aznag M et.al;《International Journal of Advanced Computer Science and Applications》;20130601;全文 *
一种用于深层网接口集成的模式匹配方法;陈丽君 等;《计算机工程》;20120630;全文 *

Also Published As

Publication number Publication date
CN114298055A (zh) 2022-04-08

Similar Documents

Publication Publication Date Title
CN109543017B (zh) 法律问题关键词生成方法及其系统
CN110704601A (zh) 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法
Cai et al. Intelligent question answering in restricted domains using deep learning and question pair matching
CN114298055B (zh) 基于多级语义匹配的检索方法、装置、计算机设备和存储介质
WO2021204014A1 (zh) 一种模型训练的方法及相关装置
CN111414481A (zh) 基于拼音和bert嵌入的中文语义匹配方法
CN112307182B (zh) 一种基于问答系统的伪相关反馈的扩展查询方法
CN110956038B (zh) 图文内容重复判断方法及装置
CN111291188A (zh) 一种智能信息抽取方法及系统
CN111753167B (zh) 搜索处理方法、装置、计算机设备和介质
CN112148831B (zh) 图文混合检索方法、装置、存储介质、计算机设备
KR20220114495A (ko) 탐색, 검색 및 순위화를 위한 상호작용 계층 신경망
CN111291177A (zh) 一种信息处理方法、装置和计算机存储介质
CN114428850B (zh) 一种文本检索匹配方法和系统
CN112232053A (zh) 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN115146629A (zh) 一种基于对比学习的新闻文本与评论相关性分析方法
CN112183083A (zh) 文摘自动生成方法、装置、电子设备及存储介质
CN113761890A (zh) 一种基于bert上下文感知的多层级语义信息检索方法
CN114722176A (zh) 一种智能答疑的方法、装置、介质及电子设备
CN111881264B (zh) 一种开放领域问答任务中长文本检索的方法和电子设备
Ye et al. A sentiment based non-factoid question-answering framework
CN110377753B (zh) 基于关系触发词与gru模型的关系抽取方法及装置
CN116204622A (zh) 一种跨语言稠密检索中的查询表示增强方法
CN110941958A (zh) 一种文本类目标注方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant