CN109189915B - 一种基于深度相关匹配模型的信息检索方法 - Google Patents

一种基于深度相关匹配模型的信息检索方法 Download PDF

Info

Publication number
CN109189915B
CN109189915B CN201811082554.5A CN201811082554A CN109189915B CN 109189915 B CN109189915 B CN 109189915B CN 201811082554 A CN201811082554 A CN 201811082554A CN 109189915 B CN109189915 B CN 109189915B
Authority
CN
China
Prior art keywords
document
word
retrieval
search
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811082554.5A
Other languages
English (en)
Other versions
CN109189915A (zh
Inventor
朱小飞
杨州
张宜浩
王越
甄少明
兰毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Technology
Original Assignee
Chongqing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Technology filed Critical Chongqing University of Technology
Priority to CN201811082554.5A priority Critical patent/CN109189915B/zh
Publication of CN109189915A publication Critical patent/CN109189915A/zh
Application granted granted Critical
Publication of CN109189915B publication Critical patent/CN109189915B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开一种基于深度相关匹配模型的信息检索方法,包括如下步骤:获取检索词及文档的文档词;构建各个文档对应不同检索词的初始交互矩阵;使用具有检索维度的k‑max池化函数对各个初始交互矩阵降维得到各个文档对应不同检索词Top‑K交互矩阵;使用多层神经网络计算各个文档的Top‑K交互矩阵的检索得分;基于各个文档的检索得分的大小对各个文档进行排序,得到检索结果。本发明充分考虑了相似检索词的重要性,显著提高了检索的性能。

Description

一种基于深度相关匹配模型的信息检索方法
技术领域
本发明涉及计算机领域,尤其涉及一种基于深度相关匹配模型的信息检索方法。
背景技术
在传统的信息检索模型中,它们会根据精确匹配信号测量文档的相关性。也就是说,相关性得分通过来自文档的检索词的频率所确定。因为忽略了相似匹配信号,这类模型经常面临典型的单词不匹配问题。最近,深度神经网络在许多自然语言处理任务中取得了巨大成功。同时,这些深度神经网络也已应用于信息检索,称为神经信息检索(即NeuIR)。他们用词嵌入作为单词的表达,再基于这些表达来构建一些模型,这些模型的检索性能有比较大的提高。
单词的重要性对信息检索的模型非常重要。在传统的检索模型中,他们基于逆文档频率(即IDF)来测量单词的重要性。由于这些模型仅考虑与检索词相同的文档词,因此仅考虑检索词的IDF就足够了。最近,神经检索模型采用深度神经网络来模拟检索词和文档词之间的相似匹配。通过这种方式,与检索词相似的词也能够被检索到。然而,现有的神经检索模型忽略了这些相似检索词的重要性,检索性能较差。
因此,如何提供一种新的技术方案,提高检索性能成为了本领域技术人员急需解决的问题。
发明内容
针对现有技术中存在的上述不足,本发明公开了一种基于深度相关匹配模型的信息检索方法,充分考虑了相似检索词的重要性,显著提高了检索的性能。
为解决上述技术问题,本发明采用了如下的技术方案:
一种基于深度相关匹配模型的信息检索方法,包括如下步骤:
获取检索词及文档的文档词;
随机初始化每个检索词及文档词对应的多层神经网络中的神经节点的权重;
将各个检索词以词嵌入的形式表示得到各个检索词的词嵌入矩阵;
将各个文档的文档词以词嵌入的形式表示得到各个文档的词嵌入矩阵;
基于文档词对应的神经节点的权重对各个文档的词嵌入矩阵进行映射得到各个文档的文档词权重向量;
分别求各个检索词的词嵌入矩阵与各个文档的词嵌入矩阵的向量的点积,并添加各个文档的文档词权重向量得到各个文档对应不同检索词的初始交互矩阵;
使用具有检索维度的k-max池化函数对各个初始交互矩阵降维得到各个文档对应不同检索词Top-K交互矩阵;
使用多层神经网络计算各个文档的Top-K交互矩阵的检索得分;
基于各个文档的检索得分的大小对各个文档进行排序,得到检索结果。
优选地,所述多层神经网络可表示为
Figure BDA0001802322950000021
Figure BDA0001802322950000022
其中,wk和bk分别表示第k层神经网络的权重矩阵和偏差,ak表示第k层神经网络的激活函数,gqi表示第i个检索词的权重系数,i=1,2,…,M,M表示检索词的总个数,s表示检索得分,k=1,2,…,L,L表示多层神经网络的网络总层数,
Figure BDA0001802322950000023
表示第i个检索词第k层神经网络的Top-K交互矩阵。
优选地,第i个检索词的权重系数gqi=softmax(wqiqi),qi表示第i个检索词的词嵌入矩阵,wqi表示第i个检索词对应的多层神经网络中的神经节点的权重,softmax()表示归一化指数函数。
优选地,任一文档中第i个检索词对应的降维后的Top-K交互矩阵为
Figure BDA0001802322950000024
其中,
Figure BDA0001802322950000025
M表示检索词的总个数,Tk表示具有检索维度的k-max池化函数,d为所述文档的词嵌入矩阵,gd为所述文档的文档词权重向量,gd={gd1,gd2,…,gdj,…,gdN},gdj为所述文档中第j个文档词的权重,gdj=wdjdj,wdj表示第j个文档词对应的多层神经网络中的神经节点的权重,dj为第j个文档词的词嵌入矩阵,j=1,2,…,N,N表示文档中包含的文档词的总个数,文档的词嵌入矩阵由所述文档中所有文档词的词嵌入矩阵组成。
优选地,通过损失函数L(θ)对神经网络的参数进行优化,其中,
Figure BDA0001802322950000031
θ表示神经网络中任意一种需要优化的参数,q表示检索词的集合,d+来自正样本文档集D+,d+表示与检索词正相关的文档词集,d-来自负样本文档集D-,d-表示与检索词无关和/或负相关的文档词集。
综上所述,本发明公开一种基于深度相关匹配模型的信息检索方法,包括如下步骤:获取检索词及文档的文档词;随机初始化每个检索词及文档词对应的多层神经网络中的神经节点的权重;将各个检索词以词嵌入的形式表示得到各个检索词的词嵌入矩阵;将各个文档的文档词以词嵌入的形式表示得到各个文档的词嵌入矩阵;基于文档词对应的神经节点的权重对各个文档的词嵌入矩阵进行映射得到各个文档的文档词权重向量;分别求各个检索词的词嵌入矩阵与各个文档的词嵌入矩阵的向量的点积,并添加各个文档的文档词权重向量得到各个文档对应不同检索词的初始交互矩阵;使用具有检索维度的k-max池化函数对各个初始交互矩阵降维得到各个文档对应不同检索词Top-K交互矩阵;使用多层神经网络计算各个文档的Top-K交互矩阵的检索得分;基于各个文档的检索得分的大小对各个文档进行排序,得到检索结果。
附图说明
图1为本发明公开的一种基于深度相关匹配模型的信息检索方法的流程图。
图2为本发明采用本发明的方法选择不同的top-k时的性能比较。
具体实施方式
下面结合附图对本发明作进一步的详细说明。
如图1所示,本发明公开了一种基于深度相关匹配模型的信息检索方法,包括如下步骤:
S101、获取检索词及文档的文档词;
S102、随机初始化每个检索词及文档词对应的多层神经网络中的神经节点的权重;
S103、将各个检索词以词嵌入的形式表示得到各个检索词的词嵌入矩阵;
S104、将各个文档的文档词以词嵌入的形式表示得到各个文档的词嵌入矩阵;
S105、基于文档词对应的神经节点的权重对各个文档的词嵌入矩阵进行映射得到各个文档的文档词权重向量;
gd为文档词权重向量,首先用文档中所有的文档词的词嵌入进行映射,假设,文档有300个词,词嵌入为50维,那么文档词嵌入矩阵为300*50维,用文档词对应的多层神经网络中的神经节点的权重映射为300*1维,如果检索词有5个单词,则将300*1维的矩阵扩展为5*300*1维,即文档词权重向量。
S106、分别求各个检索词的词嵌入矩阵与各个文档的词嵌入矩阵的向量的点积,并添加各个文档的文档词权重向量得到各个文档对应不同检索词的初始交互矩阵;
每个文档的词嵌入矩阵与各个检索词的词嵌入矩阵都会得到一个初始交互矩阵,即一个文档的初始交互矩阵的个数等于检索词的个数。
给定检索词和文档,每个检索词和文档的文档词均处于分布式表示中,以求点积的方式以形成待添加重要性数据初始交互矩阵,为了强调文档中的不同单词具有不同的显着性水平,将文档词的重要性添加到矩阵中,即将待添加重要性数据初始交互矩阵的值和文档词权重向量的值相加,得到初始交互矩阵。
S107、使用具有检索维度的k-max池化函数对各个初始交互矩阵降维得到各个文档对应不同检索词Top-K交互矩阵;
文档中不重要的文档词也包括在初始交互矩阵中并参与了后续计算。通过我们的研究,与检索词具有高相关性的文档词基本上确定了文档的检索得分,低相关的文档词,如停用词,对检索得分的影响很低,在此基础上,我们提出了基于检索维度的top-k池化函数,以选择最优文档词,去除不良文档词。处理k-max池层后,对于每个文档都是选取前K个最强的文档词,整个文档维度的长度为K,它形成一个固定值,能够有效减少计算量,提高检索效率,并为传入神经网络提供条件。
一般情况下,检索词或者文档中的文档词的词嵌入输入神经网路是不会改变的,但是由于词嵌入是通过其他数据训练而来,在当前数据训练或者预测时,难免会有偏差,因此,在当前数据训练的时候,神经网络也会像调整其他参数的值一样调整词嵌入的值,以此来调节数据的不一致问题。本发明充分利用现有的词嵌入来加速训练,突破了原始单词嵌入的局限,最大限度地避免了缺点。
S108、使用多层神经网络计算各个文档的Top-K交互矩阵的检索得分;
S109、基于各个文档的检索得分的大小对各个文档进行排序,得到检索结果。
本发明中,检索词可以以检索词集的形式存在,一个检索词集包括多个检索词。
在传统的信息检索模型中,它们会根据精确匹配信号测量文档的相关性。也就是说,相关性得分通过来自文档的检索词的频率所确定。因为忽略了相似匹配信号,这类模型经常面临典型的单词不匹配问题。最近,深度神经网络在许多自然语言处理任务中取得了巨大成功。同时,这些深度神经网络也已应用于信息检索,称为神经信息检索(即NeuIR)。他们用词嵌入作为单词的表达,再基于这些表达来构建一些模型,这些模型性能上有比较大的提高。
单词的重要性对信息检索的模型非常重要。在传统的检索模型中,他们基于逆文档频率(即IDF)来测量单词的重要性。由于这些模型仅考虑与检索词相同的文档词,因此仅考虑检索词的IDF就足够了。最近,神经检索模型采用深度神经网络来模拟检索词和文档词之间的相似匹配。通过这种方式,与检索词相似的词也能够被检索到。然而,现有的神经检索模型忽略了这些相似检索词的重要性,它们对模型的贡献也很大。以下面的例子为例:
检索:介绍生活在水中的动物,如鲨鱼
文档片段A:在水中游泳的海豚正在寻找食物。
文档片段B:一只黄色小狗落入水中。
从上面的例子可以看出,与精确匹配的信号“水”相比,“海豚”和“小狗”作为相似的匹配信号分别出现在文件A,B中。鉴于“水”和“鲨鱼”在检索中提供的语义环境,“海豚”的重要性应该大于“小狗”。因此,在不强调文档单词的重要性的情况下,很容易发生匹配错误。当强调词语的重要性时,它将对正确的匹配产生有利的贡献。
因此,本发明在对检索和文档之间的相关性进行建模时考虑了文档词的重要性,具体来说,本发明的方法以检索和文档的文本的词嵌入为输入,通过深度神经网络自动提取相关信号,产生最终的检索得分,首先构建交互矩阵,其中每个元素表示相应检索词和文档词之间的交互。同时,我们将文档词的词嵌入压缩到一个小维度,并融合到交互矩阵中。这样,交互矩阵不仅可以捕获匹配信号,还可以捕获文档重要性。然后,我们在交互矩阵上应用top-k池化层,并获得必要的最强的k个相关信号。最强相关性信号与每个检索项相关联,并投影到多层神经网络中以获得检索层面的匹配分数。最后,网络所产生的匹配分数与权重控制网络点积以产生检索得分。与现有技术相比,采用本发明公开的方法,能够显著提升检索性能。
本发明公开的方法,可以以一个深度相关匹配模型的形式存在,这个模型的工作原理即是本发明中S102至S109步骤中的方法。
具体实施时,所述多层神经网络可表示为
Figure BDA0001802322950000061
Figure BDA0001802322950000062
其中,wk和bk分别表示第k层神经网络的权重矩阵和偏差,ak表示第k层神经网络的激活函数,gqi表示第i个检索词的权重系数,i=1,2,…,M,M表示检索词的总个数,s表示检索得分,k=1,2,…,L,L表示多层神经网络的网络总层数,
Figure BDA0001802322950000071
表示第i个检索词第k层神经网络的Top-K交互矩阵,任一文档中第i个检索词对应的降维后的Top-K交互矩阵为
Figure BDA0001802322950000072
Figure BDA0001802322950000073
为多层神经网络第一层的输入。
本发明中,激活函数可以采用softplus函数。
具体实施时,第i个检索词的权重系数gqi=softmax(wqiqi),qi表示第i个检索词的词嵌入矩阵,wqi表示第i个检索词对应的多层神经网络中的神经节点的权重,softmax()表示归一化指数函数。
具体实施时,任一文档中第i个检索词对应的降维后的Top-K交互矩阵为
Figure BDA0001802322950000074
其中,
Figure BDA0001802322950000075
M表示检索词的总个数,Tk表示具有检索维度的k-max池化函数,d为所述文档的词嵌入矩阵,gd为所述文档的文档词权重向量,gd={gd1,gd2,…,gdj,…,gdN},gdj为所述文档中第j个文档词的权重,gdj=wdjdj,wdj表示第j个文档词对应的多层神经网络中的神经节点的权重,dj为第j个文档词的词嵌入矩阵,j=1,2,…,N,N表示文档中包含的文档词的总个数,文档的词嵌入矩阵由所述文档中所有文档词的词嵌入矩阵组成。
·表示检索词和文档词之间的交互操作符,其作用是求向量的点积。
具体实施时,通过损失函数L(θ)对神经网络的参数进行优化,其中,
Figure BDA0001802322950000076
θ表示神经网络中任意一种需要优化的参数,q表示检索词的集合,d+来自正样本文档集D+,d+表示与检索词正相关的文档词集,d-来自负样本文档集D-,d-表示与检索词无关和/或负相关的文档词集。
θ表示神经网络中任意一种需要优化的参数,例如wk或bk。正样本和负样本文档集是通过官方下载的标准文档库,他们是用人工标注的正负样例,规整为文档集。本发明中,扩大了正样本和负样本之间的差距,使得正分数大于负分大于1,通过反向传播算法优化神经网络。
如图2所示,下面为本发明的方法与传统方法的实验比较示例:
数据集
Million Query Track 2007:简称MQ2007。数据集是LETOR4.0的子集,由网络爬虫从域名GOV2网站收集,用户点击用作文档排序的基础,包括25M文档和10000个检索词集。MQ2007共有58730个文档和1501个检索词集。其中,文档和检索词集中的单词是小写的和索引的,并且使用Krovetz词干分析器提取相应的单词。另外,参考INQUERY中的停用词列表,我们删除了检索词集中的停用词。表1详细列出了数据集的参数。
Robust04:Robust04是一个小型新闻数据集。我们使用Robust04-title作为我们的数据集之一。这些主题来自TREC Robust Track 2004.这里的Robust04-Title意味着主题的标题被用作检索词。该集合包含0.5M文档和250个检索词集。词汇量大小为0.6M,文档大小为252M。在下表1中更清楚地描述。
表1
MQ2007 Robust04
检索词集数 1501 250
文档数 58730 324541
基准方法
我们的基准包括传统模型,包括BM25,以及一些最近的神经网络模型。一种类型是以表示为中心的深度匹配模型,包括ACR-I,DSSM,CDSSM,另一种以交互为中心的深度匹配模型如下:ACR-II,MatchPyramid,DRMM。
我们选择一些神经深度匹配模型进行比较,我们将在下面介绍这些模型:
ARC-I:ARC-I是一种以表示为中心的模型。ARC-I已经在一组NLP任务上进行了测试,包括短语匹配,完形填空和释义识别。
DSSM:DSSM是一个出色的网络搜索模型。原始论文提到训练DSSM需要大量数据。在以下实验中,它没有显示出优异的结果。
CDSSM:DSSM是CDSSM的改进版本。它主要将DSSM中的全连接层改为卷积层,通过这种方式获得更多的结构信息,并且性能得到改善。
ARC-II:它是ACI-I的改进版本。它已经注意到交互的重要性,并且比ARC-I更早地学习了交互信息。ARC-I和ARC-II没有开源代码,因此它被重新实现并应用于比较模型。
MatchPyramid:它是一种广泛使用的模型。MatchPyramid有三个版本。我们选择最佳模型进行比较。实验比较中使用的模型是作者提供的原始模型。
DRMM:DRMM是以交互为中心的模型,具有不同类型的直方图映射函数(即,CH,NH和LCH)和权重门控函数(即,TV和IDF)。我们选择最佳的结果模型进行比较。同样,实验中使用的模型是作者提供的原始模型。
在使用中,采用本发明的方法时:
词嵌入尺寸:我们使用50维的词嵌入,它由GloVe模型提前训练。在培训过程中由于数据量较小,我们没有同步训练词嵌入。通过我们的统计,语料库的词汇是193367。
K-max池化层大小:k-max池化层选择512个最佳文档词,其他不会输入神经网络。通过我们的研究,数据集中的不同特征和数量会影响此参数大小的设置。
多层神经网络规模:多层神经网络的大小设置为[512,512,256,128,64,32,16,1],实验使用softplus的激活函数。
模型优化:使用Adam优化器进行优化,e为1-5,学习率为0.001,批量大小为100。我们在MatchZoo开发上进行了开发,它是一个使用keras tensorflow的开源匹配模型开发平台,包括当今最先进的匹配模型。
评估结果:
显然,我们提出的方法(即表中的DTMM)比基线有显着改进。MQ2007和robust04中的模型的实验结果如表2及表3。
表2
Figure BDA0001802322950000101
表3
Figure BDA0001802322950000102
在MQ2007数据集上,所有以表示为中心的模型(包括DSSM,CDSSM,ARC-I)和大多数以交互为中心的模型(包括DRMM,ARC-II,MatchPyramid)都不如BM25。在之前的模型中,只有DRMM的性能优于BM25。以表示为中心的模型的性能通常不如以交互为中心的模型的性能。在某种程度上,这说明了IR中相关性强调的三个因素的作用。在MQ2007上DTMM对最佳深度学习基准(即DRMM)的提升如下NDCG@1为20.6%,P@1为15%,MAP为8%,这说明了我们的方法在IR任务上的优越性。
在robust04数据集上,大多数以交互为中心的模型的性能也明显优于以表示为中心的模型。但是一个例外是,以交互为中心的模型ARC-II具有与CDSSM相同的性能,并且不如以表示为中心的模型DSSM。这可能与该数据集中特征的不均匀分布有关。当ARC-II截断文本长度时,它会删除文档末尾的重要信息,这会对模型性能产生影响。同样,除DRMM模型外,大多数以交互为中心的模型和以表示为中心的模型不能超过BM25性能。在此数据集上,与最佳模型DRMM相比,DTMM也实现了最佳效果。DTMM相对于robust04的最佳深度学习基准(即DRMM)的改进分别是NDCG@20为7.4%,P@20为13%,MAP为12.5%。
表4显示了DTMM和没有注重文档词权重的DTMM版本(DTMMno)之间的比较。DTMMno表示没有文档单词重要性的模型。在评估ndcg@3,ndcg@5,ndcg@10和MAP时,完整的DTMM在ndcg@3,ndcg@5,ndcg@10和MAP指标上分别比DTMMno的性能高8.25%,7.58%,6.39%,2.85%。它表明强调文档中不同单词的重要性是有意义的。
表4
Figure BDA0001802322950000111
此外,在本发明进行检索时,可以先使用OKapi BM25算法初步筛选出符合的文档,然后使用本方法来选出更加精确的文档。
上述仅是本发明优选的实施方式,需指出是,对于本领域技术人员在不脱离本技术方案的前提下,还可以作出若干变形和改进,上述变形和改进的技术方案应同样视为落入本发明要求保护的范围。

Claims (2)

1.一种基于深度相关匹配模型的信息检索方法,其特征在于,包括如下步骤:
获取检索词及文档的文档词;
随机初始化每个检索词及文档词对应的多层神经网络中的神经节点的权重;
将各个检索词以词嵌入的形式表示得到各个检索词的词嵌入矩阵;
将各个文档的文档词以词嵌入的形式表示得到各个文档的词嵌入矩阵;
基于文档词对应的神经节点的权重对各个文档的词嵌入矩阵进行映射得到各个文档的文档词权重向量;
分别求各个检索词的词嵌入矩阵与各个文档的词嵌入矩阵的向量的点积,并添加各个文档的文档词权重向量得到各个文档对应不同检索词的初始交互矩阵;
使用具有检索维度的k-max池化函数对各个初始交互矩阵降维得到各个文档对应不同检索词Top-K交互矩阵;
使用多层神经网络计算各个文档的Top-K交互矩阵的检索得分;
基于各个文档的检索得分的大小对各个文档进行排序,得到检索结果;
所述多层神经网络可表示为
Figure FDA0003239692390000011
Figure FDA0003239692390000012
其中,wk和bk分别表示第k层神经网络的权重矩阵和偏差,ak表示第k层神经网络的激活函数,gqi表示第i个检索词的权重系数,i=1,2,…,M,M表示检索词的总个数,s表示检索得分,k=1,2,…,L,L表示多层神经网络的网络总层数,
Figure FDA0003239692390000013
表示第i个检索词第k层神经网络的Top-K交互矩阵;
第i个检索词的权重系数gqi=softmax(wqiqi),qi表示第i个检索词的词嵌入矩阵,wqi表示第i个检索词对应的多层神经网络中的神经节点的权重,softmax()表示归一化指数函数;
任一文档中第i个检索词对应的降维后的Top-K交互矩阵为
Figure FDA0003239692390000014
其中,
Figure FDA0003239692390000021
M表示检索词的总个数,Tk表示具有检索维度的k-max池化函数,d为所述文档的词嵌入矩阵,gd为所述文档的文档词权重向量,gd={gd1,gd2,…,gdj,…,gdN},gdj为所述文档中第j个文档词的权重,gdj=wdjdj,wdj表示第j个文档词对应的多层神经网络中的神经节点的权重,dj为第j个文档词的词嵌入矩阵,j=1,2,…,N,N表示文档中包含的文档词的总个数,文档的词嵌入矩阵由所述文档中所有文档词的词嵌入矩阵组成。
2.如权利要求1所述的基于深度相关匹配模型的信息检索方法,其特征在于,通过损失函数L(θ)对神经网络的参数进行优化,其中,
Figure FDA0003239692390000022
θ表示神经网络中任意一种需要优化的参数,q表示检索词的集合,d+来自正样本文档集D+,d+表示与检索词正相关的文档词集,d-来自负样本文档集D-,d-表示与检索词无关和/或负相关的文档词集。
CN201811082554.5A 2018-09-17 2018-09-17 一种基于深度相关匹配模型的信息检索方法 Active CN109189915B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811082554.5A CN109189915B (zh) 2018-09-17 2018-09-17 一种基于深度相关匹配模型的信息检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811082554.5A CN109189915B (zh) 2018-09-17 2018-09-17 一种基于深度相关匹配模型的信息检索方法

Publications (2)

Publication Number Publication Date
CN109189915A CN109189915A (zh) 2019-01-11
CN109189915B true CN109189915B (zh) 2021-10-15

Family

ID=64911800

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811082554.5A Active CN109189915B (zh) 2018-09-17 2018-09-17 一种基于深度相关匹配模型的信息检索方法

Country Status (1)

Country Link
CN (1) CN109189915B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112948537A (zh) * 2021-01-25 2021-06-11 昆明理工大学 一种融入文档词权重的跨境民族文化文本检索方法
CN113469365B (zh) * 2021-06-30 2024-03-19 上海寒武纪信息科技有限公司 基于神经网络模型的推理和编译方法及其相关产品

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933183A (zh) * 2015-07-03 2015-09-23 重庆邮电大学 一种融合词向量模型和朴素贝叶斯的查询词改写方法
CN106095872A (zh) * 2016-06-07 2016-11-09 北京高地信息技术有限公司 用于智能问答系统的答案排序方法及装置
CN106203432A (zh) * 2016-07-14 2016-12-07 杭州健培科技有限公司 一种基于卷积神经网显著性图谱的感兴趣区域的定位方法
CN107087161A (zh) * 2017-04-28 2017-08-22 南京邮电大学 视频业务中基于多层神经网络的用户体验质量的预测方法
CN107247745A (zh) * 2017-05-23 2017-10-13 华中师范大学 一种基于伪相关反馈模型的信息检索方法及系统
CN108269122A (zh) * 2017-12-29 2018-07-10 广东神马搜索科技有限公司 广告的相似度处理方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070250590A1 (en) * 2006-04-21 2007-10-25 Microsoft Corporation Ad-hoc proxy for discovery and retrieval of dynamic data such as a list of active devices
US8316030B2 (en) * 2010-11-05 2012-11-20 Nextgen Datacom, Inc. Method and system for document classification or search using discrete words

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933183A (zh) * 2015-07-03 2015-09-23 重庆邮电大学 一种融合词向量模型和朴素贝叶斯的查询词改写方法
CN106095872A (zh) * 2016-06-07 2016-11-09 北京高地信息技术有限公司 用于智能问答系统的答案排序方法及装置
CN106203432A (zh) * 2016-07-14 2016-12-07 杭州健培科技有限公司 一种基于卷积神经网显著性图谱的感兴趣区域的定位方法
CN107087161A (zh) * 2017-04-28 2017-08-22 南京邮电大学 视频业务中基于多层神经网络的用户体验质量的预测方法
CN107247745A (zh) * 2017-05-23 2017-10-13 华中师范大学 一种基于伪相关反馈模型的信息检索方法及系统
CN108269122A (zh) * 2017-12-29 2018-07-10 广东神马搜索科技有限公司 广告的相似度处理方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A Deep Relevance Matching Model for Ad-hoc Retrieval;Jiafeng Guo et al.;《http://dx.doi.org/10.1145/2983323.2983769》;20171123;1-11 *
A Deep Top-K Relevance Matching Model for Ad-hoc Retrieval;Zhou Yang et al.;《https://doi.org/10.1007/978-3-030-01012-6_2》;20180927;16-27 *
一种改进的向量空间模型的文本表示算法;张小川 等;《重庆理工大学学报(自然科学)》;20170131;第31卷(第1期);87-92 *
基于文本检索的深度关联匹配模型算法的研究与改进;杨州;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190815;I138-1467 *

Also Published As

Publication number Publication date
CN109189915A (zh) 2019-01-11

Similar Documents

Publication Publication Date Title
CN111310438B (zh) 基于多粒度融合模型的中文句子语义智能匹配方法及装置
CN109271505B (zh) 一种基于问题答案对的问答系统实现方法
CN104199857B (zh) 一种基于多标签分类的税务文档层次分类方法
CN110046240B (zh) 结合关键词检索与孪生神经网络的目标领域问答推送方法
CN109858028B (zh) 一种基于概率模型的短文本相似度计算方法
CN108132927B (zh) 一种融合图结构与节点关联的关键词提取方法
CN105045875B (zh) 个性化信息检索方法及装置
CN106528845A (zh) 基于人工智能的检索纠错方法及装置
CN107895000B (zh) 一种基于卷积神经网络的跨领域语义信息检索方法
CN111159359B (zh) 文档检索方法、装置及计算机可读存储介质
CN109408743B (zh) 文本链接嵌入方法
CN111241294A (zh) 基于依赖解析和关键词的图卷积网络的关系抽取方法
CN106372117B (zh) 一种基于词共现的文本分类方法及其装置
CN101419625B (zh) 一种基于最小可查询模式的Deep Web自适应爬取方法
EP3940582A1 (en) Method for disambiguating between authors with same name on basis of network representation and semantic representation
CN109697289A (zh) 一种改进的用于命名实体识别的主动学习方法
CN105975596A (zh) 一种搜索引擎查询扩展的方法及系统
CN102023986A (zh) 参考外部知识构建文本分类器的方法和设备
CN109829045A (zh) 一种问答方法和装置
CN112307182B (zh) 一种基于问答系统的伪相关反馈的扩展查询方法
CN111078832A (zh) 一种智能客服的辅助应答方法及系统
CN104699797A (zh) 一种网页数据结构化解析方法和装置
CN109189915B (zh) 一种基于深度相关匹配模型的信息检索方法
CN102693321A (zh) 一种跨媒体间信息分析与检索的方法
CN111966810A (zh) 一种用于问答系统的问答对排序方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant