CN112732864B - 一种基于稠密伪查询向量表示的文档检索方法 - Google Patents

一种基于稠密伪查询向量表示的文档检索方法 Download PDF

Info

Publication number
CN112732864B
CN112732864B CN202011559159.9A CN202011559159A CN112732864B CN 112732864 B CN112732864 B CN 112732864B CN 202011559159 A CN202011559159 A CN 202011559159A CN 112732864 B CN112732864 B CN 112732864B
Authority
CN
China
Prior art keywords
vector
document
query
vectors
pseudo
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011559159.9A
Other languages
English (en)
Other versions
CN112732864A (zh
Inventor
唐弘胤
金蓓弘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Software of CAS
Original Assignee
Institute of Software of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Software of CAS filed Critical Institute of Software of CAS
Priority to CN202011559159.9A priority Critical patent/CN112732864B/zh
Publication of CN112732864A publication Critical patent/CN112732864A/zh
Application granted granted Critical
Publication of CN112732864B publication Critical patent/CN112732864B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于稠密伪查询向量表示的文档检索方法,属于自然语言处理技术领域,在文档编码阶段使用编码器对已有文档集合中的文档进行编码,对每个文档生成多个伪查询向量,这些伪查询向量模拟了多种可能针对该文档所提出的查询的语义信息。在文档检索阶段,对每个查询文本生成一个查询向量,然后利用查询向量和文档中的多个向量进行相似度计算,并且通过该相似度来聚合文档的多个向量。最终计算查询向量和聚合后的文档向量的相似度,作为查询和文档的匹配分数。提高了在文档检索任务中,针对同一文档的多种语义信息进行查询的查询准确性,并且在提高查询准确性的同时,降低了该方法的时间和空间消耗,提高了效率。

Description

一种基于稠密伪查询向量表示的文档检索方法
技术领域
本发明属于自然语言处理技术领域,特别设计了一种基于稠密伪查询向量表示的文档检索方法。
背景技术
文档检索是信息检索领域中的基本任务。给定一个查询,文档检索模型在已有的文档库中检索出和查询最为匹配的文档。早期的信息检索模型所使用的文本表示形式一般是基于词袋的稀疏表示形式(例如,BM25)。然而,这种表示非常依赖文档和查询之间的精确匹配,很大程度上影响了检索的准确性。随着神经网络和深度学习的发展,使用神经网络将文本编码为稠密向量表示的方法得到了广泛的应用(Lee Xiong,Chenyan Xiong,Ye Li,Kwok-Fung Tang,Jialin Liu,Paul Bennett,Junaid Ahmed,and ArnoldOverwijk.2020.Approximate nearest neighbor negative contrastive learning fordense text retrieval)。这类方法通过卷积神经网络等结构将文本映射为连续的稠密的向量表示,文档和查询之间的匹配分数由两部分的向量的相似度函数定义。随着预训练语言模型的发展,很多研究者开始使用预训练语言模型对文档中的每个字符位置进行上下文相关的编码,最后将整个文档的表示映射为一个向量,并且保存编码后的文档向量。在检索时,将查询同样映射为一个向量,计算该向量和文档集合中每个文档的向量的相似度。然而,由于查询的长度较短,而文档的长度较长,查询所包含的文本信息可能只对应目标文档中的一部分,但文档可能包含多种语义信息,可以作为多个不同查询的目标文档。因此,在使用模型对文档进行编码时,如果只将文档保存为一个向量可能会忽略文档蕴含的多种语义信息,在应对不同的查询时,会极大影响文档检索的准确度。相反,对一篇文档保存所有字符位置的文档编码又会影响检索效率。
在文档检索任务中,可能会出现多个不同的查询对应同一个文档的情况,这说明文档可能蕴涵多种语义信息。如果将文档编码为一个向量,可能会造成编码只能保留少量的某种语义信息而丢失其他蕴涵在文档中的语义信息,使得文档无法匹配丢失语义对应的查询,极大的降低了文档检索模型对于这类查询的准确度。另外,如果将文档中所有的字符位置的编码都保存,虽然可以最大程度上保留文档所蕴涵的语义信息,但是会占用非常大的记忆空间,并且在计算查询和文档的相似度时,会产生非常大的时间消耗。因此,如何在保证文档检索的准确率的同时,减少时间和空间的消耗,是文档检索任务所面临的重大挑战。
发明内容
本发明的目的是提供一种基于神经网络编码的稠密向量表示的文档检索方法,在文档的编码过程中模拟在检索过程中可能出现的对应该文档的不同查询,提高了在文档检索任务中,针对同一文档的多种语义信息进行查询的查询准确性,并且在提高查询准确性的同时,降低了该方法的时间和空间消耗,提高了效率。
为实现上述目的,本发明采用的技术方案如下:
一种基于稠密伪查询向量表示的文档检索方法,包含两个阶段:
第一阶段是文档编码阶段,其目的是将文档的文本内容编码到多个编码向量之中,保留文档中尽量多的语义信息,包括以下步骤:
(1)利用预训练语言模型作为编码器,对文档进行编码,得到文档中每个字符位置的编码向量;
(2)将随机若干个文档中每个字符位置的编码向量作为初始伪查询向量,并且迭代更新伪查询向量,使其模拟文档检索过程中潜在出现的对应该文档中不同语义信息的多个查询向量,得到每个文档的多个伪查询向量;
方法的第二阶段是文档检索阶段,在第二阶段中,模型需要从文档集合中检索出用户给定的查询所对应的文档,包括以下步骤:
(3)利用预训练语言模型作为编码器,对给定的查询文本进行编码,得到包含语义信息的查询向量;
(4)利用所述每个文档的多个伪查询向量和所述包含语义信息的查询向量,计算每个文档的多个伪查询向量的相似度分数,使用所述包含语义信息的查询向量和同一个文档的多个向量的相似度分数的最大值作为每个文档的相似度得分,筛选出相似度得分最大的前若干个文档作为候选文档;
(5)利用上述相似度分数来聚合每个文档的多个伪查询向量,生成最终的文档向量表示;
(6)利用所述最终的文档向量表示和所述包含语义信息的查询向量计算相似度,以该相似度作为最终的查询匹配分数,对所述候选文档进行排序,实现最终的文档检索。
进一步地,步骤(1)中,首先将文档截断或使用占位符(如“[PAD]”)补足成共含有n个字符的文本,然后输入到编码器中进行编码,再然后保留编码器的最后一层所得到的每个字符位置输出的编码向量
Figure BDA0002859774200000021
其中di表示第i个字符的编码向量。
进一步地,步骤(1)中,通过WordPiece算法对文档的文本进行分词。
进一步地,步骤(2)中,随机选取k个编码向量
Figure BDA0002859774200000022
形成
Figure BDA0002859774200000023
作为初始伪查询向量(多个)。
进一步地,步骤(2)中,计算伪查询向量
Figure BDA0002859774200000031
和文档每个字符位置输出的编码向量
Figure BDA0002859774200000032
的距离,利用相距伪查询向量一定距离内的多个字符编码向量,更新多个伪查询向量,使其对应文档中不同的语义信息,迭代进行多次。
进一步地,步骤(2)中,迭代更新伪查询向量,直至伪查询向量的变化值小于一设定阈值,然后保留每个文档的k个伪查询向量,作为文档的表示向量,在检索阶段使用。
进一步地,通过k-means算法迭代更新伪查询向量。
进一步地,所述预训练语言模型采用BERT结构,BERT包括嵌入层和堆叠的多个Transformer层,每个transformer层包含一个多头注意力层以及一个前向传播网络层,其中多头注意力层的定义如下式所示:
MultiHead(Q,K,V)=Concat(head1,...,headh)WO
headi=Attention(QWi Q,KWi K,VWi V)
Figure BDA0002859774200000033
其中,Q,K,V表示输入向量,Wi Q,Wi K,Wi V,WO为可训练的参数,dk为编码的维度数量,Concat(·)表示对括号中的各个向量进行拼接,MultiHead表示多头注意力向量拼接函数、Attention表示注意力机制函数、softmax表示归一化函数、T表示矩阵转置;BERT中使用的注意力层为自注意力层,即Q=K=V,输入为上一层的输入向量。
进一步地,步骤(1)和(3)中利用预训练语言模型进行编码的步骤包括:
令输入为长度为n的文本序列x1,...,xn,每个输入单元对应一个单词;
BERT通过查找词表,通过嵌入层将每个单词转换为对应的词向量Ew,将每个单词的位置转换为对应的位置向量Epos,将每个单词所属的段转换为对应的段向量Eseg
将三种向量相加,得到每个单词的输入向量E,即:
E=Ew+Epos+Eseg
将每个单词的输入向量E输入到BERT的注意力层,得到向量后进入到一个前向传播网络中,定义如下式所示:
FFNN(x)=max(0,xW1+b1)W2+b2
其中,W1,W2,b1,b2为可训练的参数;FFNN表示前向传播神经网络、x表示输入到神经网络中的向量;
由前向传播网络处理得到向量,然后进入到BERT中的下一个tranformer层中进行计算,得到下一层中每个单词所对应的编码,直到得到最后一层中的最终编码。
进一步地,步骤(4)中利用函数softmax或argmax计算相似度分数。
进一步地,步骤(6)中直接对所述最终的文档向量表示和所述包含语义信息的查询向量进行点积来计算相似度。
文档检索任务需要首先将已有的文档集合中的文档进行编码并保存,在检索给定的查询时,计算文档编码与查询的相似度,将与查询相似度较高的文档检索出来。然而,由于在编码过程中,模型并不能提前知道未来的查询的目标是针对文档的哪部分语义,单一的文档编码可能会丢失语义信息。为了解决这个问题,本发明提出的方法首先利用文档本身模拟其可能对应的多个查询向量,称为伪查询向量,并将这些向量作为文档的表示向量保存到文档集合中。在检索过程中,将查询进行编码,和每个文档的多个表示向量进行相似度的计算。
具体地,本发明在文档编码阶段使用编码器对已有文档集合中的文档进行编码,对每个文档生成多个伪查询向量,这些伪查询向量模拟了多种可能针对该文档所提出的查询的语义信息。在文档检索阶段,对每个查询文本生成一个查询向量,然后利用查询向量和文档中的多个向量进行相似度计算,并且通过该相似度来聚合文档的多个向量。最终计算查询向量和聚合后的文档向量的相似度,作为查询和文档的匹配分数。
本发明与现有技术相比的优点在于:
(1)本发明对每个文档生成多个伪查询向量,分别对应文档中的不同语义信息。这些伪查询向量的目标是模拟针对当前文档可能出现的真实的查询。因此,相对于只保存单一文档编码向量的方法,在检索过程中,本发明所生成的编码可以提高同一文档对不同的查询匹配准确度。
(2)本发明在检索阶段采用两阶段的匹配分数计算方法,利用计算相似度进行筛选,目可以缩小排序的范围,降低方法本身的时间和空间占用,可以高效地对包含大量文档的集合进行排序。
附图说明
图1是本发明的基于稠密伪查询向量表示的文档检索方法对文档编码的流程图。
图2是本发明的基于稠密伪查询向量表示的文档检索方法对文档检索的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图及实施例对本发明作进一步的详细描述。
本实施例提供了一种基于神经网络编码的稠密向量表示的文档检索方法,包括两个阶段,
第一阶段如图1所示,对文档产生多个编码向量,步骤包括:
(1)将文档处理为长度为n的固定长度文本,通过WordPiece算法对文本进行分词。在文本的开头和结尾分别加入“[CLS]”和“[SEP]”占位符。
(2)将文本中的每个单词通过BERT的嵌入层(embedding层)映射成向量Ew,另外加上每个位置的位置向量Epos,以及每个单词所属的段对应的段向量Eseg,组成E=Ew+Epos+Eseg输入到BERT编码器中,BERT编码器中的每一层通过如下多头注意力机制来对输入进行编码:
MultiHead(Q,K,V)=Concat(head1,...,headh)WO
headi=Attention(QWi Q,KWi K,VWi V)
Figure BDA0002859774200000051
其中,Q,K,V在BERT中是同一个编码,表示每个词在当前层的编码。Wi Q,Wi K,Wi V,WO为当前层的参数。dk为编码的维度数量。Concat(·)表示对括号中的各个向量进行拼接。
(3)从BERT的最后一层总得到不同字符位置的编码向量
Figure BDA0002859774200000052
从中随机抽取出k个编码向量,组成初始的伪查询向量
Figure BDA0002859774200000053
通过k-means算法迭代的更新这些伪查询向量。
(4)对于文档中每个位置的向量,通过以下公式得到和它距离最近的伪查询向量。
Figure BDA0002859774200000054
其中,t表示迭代的步数,
Figure BDA0002859774200000056
表示迭代到第t步时,距离向量di最近的伪查询向量。
(5)通过以下公式来更新伪查询向量:
Figure BDA0002859774200000057
其中,
Figure BDA0002859774200000058
表示伪查询向量;
Figure BDA0002859774200000059
表示距离第j个伪查询向量最近的向量的个数;
Figure BDA00028597742000000510
表示距离第j个伪查询向量最近的向量相加的和所组成的向量。
(6)迭代执行步骤(4)-(5),直到相邻两步的伪查询向量
Figure BDA00028597742000000511
的变化量小于一定的阈值。
(7)将最终的多个伪查询向量作为文档的表示向量保存起来。
第二阶段是文档检索阶段,如图2所示,模型将查询编码为同量,并与文档集合中的同量进行相似度计算,具体步骤如下:
(8)将查询文本通过步骤(4)-(5)编码为向量,取[CLS]位置的向量作为查询的表示向量Eq
(9)将查询向量Eq和文档集合中的伪查询向量cj进行如下公式的点积相似度计算,得到相似度分数aqj
aqj=softmax(Eq·cj)
(10)利用相似度分数聚合文档的多个伪查询向量,得到最终的文档向量表示Ed
Figure BDA0002859774200000061
(11)根据最终的文档向量表示和查询向量进行点积相似度计算,得到查询和整个文档的相似度分数y,
y=Eq·Ed
以上步骤(9)-(11)需要对文档集合中的所有文档的所有向量进行聚合。然而,实践中可能有很多的文档的所有表示向量和查询向量的相似度较低,可以直接排除掉这些文档,只在包含某一个相似度较高的表示向量的文档中进行后续的聚合操作。基于此,本发明另外提出一种更佳的实施方式,来提高(9)-(11)步骤效率的方法,即使用argmax替代softmax,将如下公式中的
Figure BDA0002859774200000062
替代(9)中的aqj,即
Figure BDA0002859774200000063
上述式子的含义为,利用文档的多个表示向量中,和查询向量相似度最高的向量的相似度分数作为查询和整个文档的相似度分数。
使用
Figure BDA0002859774200000064
作为匹配度分数,筛选出分数最高的前T个文档。
在这些筛选出的文档中,执行步骤(9)-(11)。
对本发明提出的方法进行测试,测试结果如下:
在公开的文档检索数据集MSMARCO中,本发明提出的方法(CL-BERT)相较于已有的一些方法在准确度上(评测标准包含MRR@100和NDCG@10)有所提升,见如下表1。
表1
Figure BDA0002859774200000071
另外,在三个以wikipedia作为文档的公开文档检索数据集中,本发明提出的方法(CL-BERT)在准确度上(评测标准为前20/100个返回结果的准确率)同样可以取得较大的提升,见如下表2。
表2
Figure BDA0002859774200000072
在检索阶段,对比未经过优化的检索过程,本发明提出的方法可以极大的减少检索过程所占用的时间,见如下表3的最后两行的对比。
表3
Figure BDA0002859774200000073
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,本发明的保护范围以权利要求所述为准。

Claims (8)

1.一种基于稠密伪查询向量表示的文档检索方法,包括以下步骤:
(1)利用预训练语言模型作为编码器,对文档进行编码,得到文档中每个字符位置的编码向量;
(2)将随机若干个文档中每个字符位置的编码向量作为初始伪查询向量,并且迭代更新伪查询向量,使其模拟文档检索过程中潜在出现的对应该文档中不同语义信息的多个查询向量,得到每个文档的多个伪查询向量;
(3)利用预训练语言模型作为编码器,对给定的查询文本进行编码,得到包含语义信息的查询向量;
(4)利用所述每个文档的多个伪查询向量和所述包含语义信息的查询向量,计算每个文档的多个伪查询向量的相似度分数,使用所述包含语义信息的查询向量和同一个文档的多个向量的相似度分数的最大值作为每个文档的相似度得分,筛选出相似度得分最大的前若干个文档作为候选文档;
(5)利用上述相似度分数来聚合每个文档的多个伪查询向量,生成最终的文档向量表示;
(6)利用所述最终的文档向量表示和所述包含语义信息的查询向量计算相似度,以该相似度作为最终的查询匹配分数,对所述候选文档进行排序,实现最终的文档检索;
所述预训练语言模型采用BERT结构,BERT包括嵌入层和堆叠的多个Transformer层,每个Transformer层包含一个多头注意力层以及一个前向传播网络层,该多头注意力层为自注意力层,输入为上一层的输入向量;步骤(1)和(3)中利用预训练语言模型进行编码的步骤包括:查找词表,通过嵌入层将每个单词转换为对应的词向量Ew,将每个单词的位置转换为对应的位置向量Epos,将每个单词所属的段转换为对应的段向量Eseg;将三种向量相加,得到每个单词的输入向量E;将每个单词的输入向量E输入到BERT的多头注意力层,得到向量后进入到一个前向传播网络中;由前向传播网络处理得到向量,然后进入到BERT中的下一个Tranformer层中进行计算,得到下一层中每个单词所对应的编码,直到得到最后一层中的最终编码。
2.如权利要求1所述的方法,其特征在于,步骤(1)中,将文档截断或使用占位符补足成共含有多个字符的文本,输入到编码器中进行编码,保留编码器的最后一层所得到的每个字符位置输出的编码向量。
3.如权利要求1所述的方法,其特征在于,步骤(2)中,计算伪查询向量和文档每个字符位置输出的编码向量的距离,利用相距伪查询向量一定距离内的多个字符编码向量,该一定距离是指相距伪查询向量最近的向量个数,更新多个伪查询向量,使其对应文档中不同的语义信息,迭代进行多次。
4.如权利要求1或3所述的方法,其特征在于,步骤(2)中,迭代更新伪查询向量,直至伪查询向量的变化值小于一设定阈值,然后保留每个文档的多个伪查询向量。
5.如权利要求1所述的方法,其特征在于,通过k-means算法迭代更新伪查询向量。
6.如权利要求1所述的方法,其特征在于,多头注意力层的表达式如下:
MultiHead(Q,K,V)=Concat(head1,...,headh)WO
headi=Attention(QWi Q,KWi K,VWi V);
Figure FDA0003187608660000021
其中,Q,K,V表示输入向量,Q=K=V;Wi Q,Wi K,Wi V,WO为可训练的参数,dk为编码的维度数量,Concat(·)表示对括号中的各个向量进行拼接,MultiHead表示多头注意力向量拼接函数,Attention表示注意力机制函数,softmax表示归一化函数,T表示矩阵转置。
7.如权利要求1所述的方法,其特征在于,步骤(4)中利用函数softmax或argmax计算相似度分数。
8.如权利要求1所述的方法,其特征在于,步骤(6)中直接对所述最终的文档向量表示和所述包含语义信息的查询向量进行点积来计算相似度。
CN202011559159.9A 2020-12-25 2020-12-25 一种基于稠密伪查询向量表示的文档检索方法 Active CN112732864B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011559159.9A CN112732864B (zh) 2020-12-25 2020-12-25 一种基于稠密伪查询向量表示的文档检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011559159.9A CN112732864B (zh) 2020-12-25 2020-12-25 一种基于稠密伪查询向量表示的文档检索方法

Publications (2)

Publication Number Publication Date
CN112732864A CN112732864A (zh) 2021-04-30
CN112732864B true CN112732864B (zh) 2021-11-09

Family

ID=75616004

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011559159.9A Active CN112732864B (zh) 2020-12-25 2020-12-25 一种基于稠密伪查询向量表示的文档检索方法

Country Status (1)

Country Link
CN (1) CN112732864B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113204666B (zh) * 2021-05-26 2022-04-05 杭州联汇科技股份有限公司 一种基于文字查找匹配图片的方法
CN113378539B (zh) * 2021-06-29 2023-02-14 华南理工大学 一种面向标准文档编写的模板推荐方法
CN114860868B (zh) * 2022-03-08 2024-10-11 中国海洋大学 一种语义相似度向量再稀疏编码索引与检索方法
CN114676218B (zh) * 2022-03-10 2024-08-27 清华大学 一种信息检索方法、装置、电子设备及可读存储介质
CN116226357B (zh) * 2023-05-09 2023-07-14 武汉纺织大学 一种输入中包含错误信息场景下的文档检索方法
CN116431837B (zh) * 2023-06-13 2023-08-22 杭州欧若数网科技有限公司 基于大型语言模型和图网络模型的文档检索方法和装置
CN118069814B (zh) * 2024-04-16 2024-07-09 苏州元脑智能科技有限公司 文本处理方法、装置、电子设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678412B (zh) * 2012-09-21 2016-12-21 北京大学 一种文档检索的方法及装置
US10346494B2 (en) * 2017-04-16 2019-07-09 Radim Rehurek Search engine system communicating with a full text search engine to retrieve most similar documents
CN110647629B (zh) * 2019-09-20 2021-11-02 北京理工大学 一种多粒度答案排序的多文档机器阅读理解方法
CN111177366B (zh) * 2019-12-30 2023-06-27 北京航空航天大学 一种基于查询机制的抽取式文档摘要自动生成方法、装置及系统

Also Published As

Publication number Publication date
CN112732864A (zh) 2021-04-30

Similar Documents

Publication Publication Date Title
CN112732864B (zh) 一种基于稠密伪查询向量表示的文档检索方法
CN110413785A (zh) 一种基于bert和特征融合的文本自动分类方法
CN111666427B (zh) 一种实体关系联合抽取方法、装置、设备及介质
CN108920720A (zh) 基于深度哈希和gpu加速的大规模图像检索方法
CN106033426B (zh) 一种基于潜在语义最小哈希的图像检索方法
CN110941734B (zh) 基于稀疏图结构的深度无监督图像检索方法
CN111985228B (zh) 文本关键词提取方法、装置、计算机设备和存储介质
CN110990596B (zh) 一种基于自适应量化多模态哈希检索方法及系统
CN110457514A (zh) 一种基于深度哈希的多标签图像检索方法
CN112434159B (zh) 一种利用深度神经网络进行论文多标签分类的方法
CN112306494A (zh) 一种基于卷积和循环神经网络的代码分类及聚类方法
CN112380319A (zh) 一种模型训练的方法及相关装置
CN109918507B (zh) 一种基于TextCNN改进的文本分类方法
CN110598022B (zh) 一种基于鲁棒深度哈希网络的图像检索系统与方法
CN110955745B (zh) 一种基于深度学习的文本哈希检索方法
CN113177141A (zh) 基于语义嵌入软相似性的多标签视频哈希检索方法及设备
CN116226357B (zh) 一种输入中包含错误信息场景下的文档检索方法
CN115422369B (zh) 基于改进TextRank的知识图谱补全方法和装置
CN111506726A (zh) 基于词性编码的短文本聚类方法、装置及计算机设备
CN112256727A (zh) 基于人工智能技术的数据库查询处理及优化方法
Kan et al. Zero-shot learning to index on semantic trees for scalable image retrieval
KR102615073B1 (ko) 유사도 검색을 위한 신경 해싱
CN110134956A (zh) 基于blstm-crf的地名组织名识别方法
CN117763185A (zh) 一种基于思考空间维度的哈希图像检索方法
CN115906845B (zh) 一种电商商品标题命名实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant