CN111881264B - 一种开放领域问答任务中长文本检索的方法和电子设备 - Google Patents

一种开放领域问答任务中长文本检索的方法和电子设备 Download PDF

Info

Publication number
CN111881264B
CN111881264B CN202011037021.2A CN202011037021A CN111881264B CN 111881264 B CN111881264 B CN 111881264B CN 202011037021 A CN202011037021 A CN 202011037021A CN 111881264 B CN111881264 B CN 111881264B
Authority
CN
China
Prior art keywords
document
search request
text
text segment
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011037021.2A
Other languages
English (en)
Other versions
CN111881264A (zh
Inventor
钱泓锦
刘占亮
刘家俊
窦志成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhiyuan Artificial Intelligence Research Institute
Original Assignee
Beijing Zhiyuan Artificial Intelligence Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhiyuan Artificial Intelligence Research Institute filed Critical Beijing Zhiyuan Artificial Intelligence Research Institute
Priority to CN202011037021.2A priority Critical patent/CN111881264B/zh
Publication of CN111881264A publication Critical patent/CN111881264A/zh
Application granted granted Critical
Publication of CN111881264B publication Critical patent/CN111881264B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种开放领域问答任务中长文本检索的方法和电子设备。该方法包括:利用预先训练的编码器将开放领域文档和搜索请求分别编码为文档稠密向量和请求稠密向量;其中,编码器采用历史搜索请求、正样本和负样本作为样本数据进行训练;根据文档稠密向量与请求稠密向量计算搜索请求与开放领域文档的相似度得分,并选择相似度得分符合要求的开放领域文档为候选文档;从候选文档中选择搜索请求对应的目标文档。本发明的复用性强;同一指代的词附带了近似的语义表达;有效地改善了一词多义给搜索带来的歧义问题;模型训练效果好;对于跨领域文档有较强的泛化能力;在搜索效果、搜索性能、易用性、维护性等方面有较大提升和提升潜力。

Description

一种开放领域问答任务中长文本检索的方法和电子设备
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种开放领域问答任务中长文本检索的方法和电子设备。
背景技术
开放领域问答是自然语言处理领域的一个重要任务。开放领域问答过程可以简单描述为:对于一个给定的事实型问题,首先从一个大规模多领域文档库中检索到问题答案所在文档,然后再从该文档中提取或生成答案。其中,文档检索的准确程度往往决定了整个过程的效果上限,因此,文档检索是开放领域问答任务最重要的一部分。
目前,文档检索阶段的常用方法是基于稀疏矩阵的,例如使用TD-IDF或BM25。具体来说,这样的方法通常包括以下几个步骤:步骤一,对文档进行语义信息提取,进行包括关键词抽取、命名实体识别、专有名词提取等处理,来找到文档中的关键信息;步骤二,利用文档文本和信息提取的结果构建多个索引域,这一步骤往往使用如Elasticsearch等搜索引擎工具;步骤三,对于一个新的搜索请求,进行同样的语义信息提取,然后转化为稀疏矩阵,与库中文档进行对比打分,召回评分最高的结果。
这种方法在实际应用中存在以下几个不可避免的缺点:(1)需要进行复杂的手动特征工程,而该过程繁琐、费时又易出错。此外,每次进行手动特征工程的代码只针对特定的问题,当需要解决一个新问题、新数据集时,需要重写相关代码;(2)很难解决在开放领域中词的歧义问题。例如,对于“苹果”这个词,如果忽略其上下文信息,系统很难识别它代表的是水果还是科技公司;(3)缺乏对语义的深度理解。例如,对于“工信部”和“工业和信息化部”两个词,系统不能自动发现其中关联性,需要人为进行归一化;(4)效果优化空间有限。由于人工特征工程的技术限制,当检索效果达到一定程度后,很难继续进行优化;(5)泛化性差。由于系统中的各种索引构建有很强的领域属性,当遇到文本领域以外的搜索请求时,效果往往很差。
发明内容
为了解决现有技术中存在的问题,本发明提供了如下技术方案。
本发明提供了一种开放领域问答任务中长文本检索的方法,包括:
利用预先训练的编码器将开放领域文档和搜索请求分别编码为文档稠密向量和请求稠密向量;其中,所述编码器采用历史搜索请求、正样本和负样本作为样本数据进行训练;
根据所述文档稠密向量与所述请求稠密向量计算搜索请求与开放领域文档的相似度得分,并选择相似度得分符合要求的所述开放领域文档为候选文档;
从所述候选文档中选择所述搜索请求对应的目标文档。
优选地,所述正样本采用如下方法获得:
对存在与历史搜索请求对应的答案的文档进行切分,得到多个第一文本片段;
计算所述第一文本片段与所述历史搜索请求的相关性得分;
选取答案所在的第一文本片段及其前后文各一个第一文本片段及其相关性得分组成正样本。
优选地,所述计算所述第一文本片段与所述历史搜索请求的相关性得分,包括:
答案所在的第一文本片段的相关性得分为1;
Figure 36404DEST_PATH_IMAGE001
个第一文本片段的相关性得分按照如下公式计算:
Figure 314064DEST_PATH_IMAGE002
其中,
Figure 156118DEST_PATH_IMAGE003
为答案所在的第一文本片段的序号,
Figure 613644DEST_PATH_IMAGE004
为第
Figure 726219DEST_PATH_IMAGE001
个第一文本片段与答案所在的第一文本片段的相对距离,
Figure 610998DEST_PATH_IMAGE005
为其他第一文本片段与答案所在的第一文本片段的最大相对距离。
优选地,所述负样本包括:
与所述历史搜索请求的相关性得分为零的第一文本片段;
和/或
其他历史搜索请求的正样本。
优选地,所述编码器训练的目标函数如下:
Figure 100002_DEST_PATH_IMAGE006
其中,
Figure 363185DEST_PATH_IMAGE007
为正样本中第一文本片段的相关性得分,
Figure 358822DEST_PATH_IMAGE008
表示搜索请求数据,
Figure 558860DEST_PATH_IMAGE009
表示负样本数据,
Figure 880119DEST_PATH_IMAGE010
表示正样本数据,
Figure 198231DEST_PATH_IMAGE011
表示历史搜索请求被编码器编码后的稠密向量,
Figure 731980DEST_PATH_IMAGE012
表示正样本被编码器编码后的稠密向量,
Figure 52103DEST_PATH_IMAGE013
表示负样本被编码器编码后的稠密向量,
Figure 544264DEST_PATH_IMAGE014
表示搜索请求与正样本的相似度,
Figure 615251DEST_PATH_IMAGE015
表示搜索请求与负样本的相似度。
优选地,所述利用预先训练的编码器将开放领域文档编码为文档稠密向量,包括:
切分开放领域文档,得到多个第二文本片段;
利用预先训练的编码器将所述第二文本片段转化为所述文档稠密向量。
优选地,所述根据所述文档稠密向量与所述请求稠密向量计算搜索请求与开放领域文档的相似度得分,并选择相似度得分符合要求的所述开放领域文档为候选文档,包括:
计算所述文档稠密向量与所述请求稠密向量的相似度得分,作为所述文档稠密向量对应的第二文本片段与所述搜索请求的相似度得分;
获取与所述搜索请求的所述相似度得分符合要求的多个第二文本片段;
以多个所述第二文本片段所属的开放领域文档作为候选文档。
优选地,所述从所述候选文档中选择所述搜索请求对应的目标文档,包括:
获取属于所述候选文档的每个所述第二文本片段与所述搜索请求的相似度得分;
累计属于同一候选文档的所述第二文本片段与所述搜索请求的相似度得分,得到每个候选文档与搜索请求的相似度得分;
根据候选文档与搜索请求的相似度得分的排序得到所述目标文档。
本发明还提供了一种存储器,存储有多条指令,所述指令用于实现上述的方法。
本发明还提供了一种电子设备,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如上述的方法。
本发明的有益效果为:本发明提供的方案基于预先训练的深度神经网络模型,将开放领域文档和搜索请求分别编码为稠密向量,方案的复用性强,且保留了词之间的语义关系,给同一指代的词附带了近似的语义表达;同时,使用了双向语言模型,融合整体语义信息,有效地改善了一词多义给搜索带来的歧义问题;另外,采用对称概率衰竭的样本采集方法,提高了准确率;该方案在实际应用中,发现搜索效果、搜索性能、易用性、维护性等方面具有较大提升和提升潜力。
附图说明
图1为本发明所述开放领域问答任务中长文本检索的方法流程示意图;
图2为本发明所述文档切分及第一文本片段的相关性得分的计算结果展示示意图;
图3为本发明所述开放领域问答任务中长文本检索的装置结构示意图。
具体实施方式
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。
本发明提供的方法可以在如下的终端环境中实施,该终端可以包括一个或多个如下部件:处理器、存储器和显示屏。其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现下述实施例所述的方法。
处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分,通过运行或执行存储在存储器内的指令、程序、代码集或指令集,以及调用存储在存储器内的数据,执行终端的各种功能和处理数据。
存储器可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory,ROM)。存储器可用于存储指令、程序、代码、代码集或指令。
显示屏用于显示各个应用程序的用户界面。
除此之外,本领域技术人员可以理解,上述终端的结构并不构成对终端的限定,终端可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件,在此不再赘述。
实施例一
如图1所示,本发明实施例提供了一种开放领域问答任务中长文本检索的方法,包括:
S101,利用预先训练的编码器将开放领域文档和搜索请求分别编码为文档稠密向量和请求稠密向量;其中,所述编码器采用历史搜索请求、正样本和负样本作为样本数据进行训练;
S102,根据所述文档稠密向量与所述请求稠密向量计算搜索请求与开放领域文档的相似度得分,并选择相似度得分符合要求的所述开放领域文档为候选文档;
S103,从所述候选文档中选择所述搜索请求对应的目标文档。
上述方法可以描述为:
给定一个历史搜索请求集合
Figure 952691DEST_PATH_IMAGE016
、与历史搜索请求对应的答案(即目标答案)所在文档集合
Figure 392900DEST_PATH_IMAGE017
以及一个开放领域文档集合
Figure 259225DEST_PATH_IMAGE018
。利用已知目标答案所在文档的历史搜索请求构建一个训练数据集。其中,所述开放领域文档为长文本。
Figure 784884DEST_PATH_IMAGE019
,训练一个编码器
Figure 161901DEST_PATH_IMAGE020
,其中,
Figure 456616DEST_PATH_IMAGE021
表示正样本数据,也就是包含历史搜索请求的目标答案的文档,
Figure 759421DEST_PATH_IMAGE022
代表负样本,也就是不包含历史搜索请求的目标答案的文档。
利用训练得到的编码器
Figure 506797DEST_PATH_IMAGE023
将开放领域文档集合
Figure 186040DEST_PATH_IMAGE024
中的文档编码成稠密向量
Figure 69683DEST_PATH_IMAGE025
,对于一个新的搜索请求
Figure 298715DEST_PATH_IMAGE026
,用编码器将它编码为稠密向量
Figure 798966DEST_PATH_IMAGE027
,通过相似度计算获得候选文档,再从候选文档中选择最终的目标文档。
在执行步骤S101之前,预先训练得到编码器。编码器的训练数据集中包括多条数据,一条数据由一个历史搜索请求、正样本和负样本构成。
其中,正样本数据来自于存在与历史搜索请求对应的答案的文档。
本发明中,使用基于Transformer神经网络结构的模型。当单条文本序列过长时,会耗费大量的计算资源。另外,对于过长的文本序列,其远距离语义依赖性也较为有限。为此,本发明中,采用如下方法获得能够节省计算资源且语义依赖性好的的正样本数据:
首先,对存在与历史搜索请求对应的答案的文档进行切分,得到多个第一文本片段。具体的,可以先对文档进行按句切分,按照规定长度将文档分成多个第一文本片段。
然后计算各所述第一文本片段与所述历史搜索请求的相关性得分。在计算过程中,首先找到答案所在的第一文本片段,并依此为中心,计算两边其他第一文本片段的相关性得分。其中,答案所在的第一文本片段与历史搜索请求的相关性最大,其他第一文本片段与历史搜索请求的相关性会随着与答案所在的第一文本片段的距离增大而降低。所以,答案所在的第一文本片段的相关性得分为1;第
Figure 16321DEST_PATH_IMAGE001
个第一文本片段的相关性得分按照如下公式计算:
Figure 20049DEST_PATH_IMAGE028
其中,
Figure 930236DEST_PATH_IMAGE003
为答案所在的第一文本片段的序号,
Figure 652205DEST_PATH_IMAGE004
为第
Figure 909136DEST_PATH_IMAGE001
个第一文本片段与答案所在的第一文本片段的相对距离,
Figure 767370DEST_PATH_IMAGE029
为其他第一文本片段与答案所在的第一文本片段的最大相对距离。文档切分及第一文本片段的相关性得分的计算过程可如图2所示。图2中,文档切分后得到的第一文本片段总数为16段,答案所在的第一文本片段的序号为7,其他第一文本片段与答案所在的第一文本片段之间的最大相对距离为9,对于第6段第一文本片段,其得分为
Figure 848459DEST_PATH_IMAGE030
,对于第16段第一文本片段,其得分为
Figure 57723DEST_PATH_IMAGE031
最后,对于一个历史搜索请求,从其答案所在文档切分后的第一文本片段中选取三个作为其正样本,具体的,选择答案所在的第一文本片段及其前后文各一个第一文本片段,前后文第一文本片段的选取是随机的。将三个第一文本片段的相关性得分作为其权重,与从而得到带有权重的正样本集合。例如,图2中,选择第6、第7和第16第一文本片段,其得分分别为:0.593,1,0.095,则得到的正样本集合
Figure 616881DEST_PATH_IMAGE032
本发明中,训练用的样本数据除了包括正样本外,还包括负样本。具体的,负样本包括:
与所述历史搜索请求的相关性得分为零的第一文本片段;
和/或
其他历史搜索请求的正样本。
经过上述步骤,获得了由历史搜索请求、正样本、负样本组成的训练数据集:
Figure 595201DEST_PATH_IMAGE033
。对于一条数据
Figure 83076DEST_PATH_IMAGE034
,使用编码器
Figure 514058DEST_PATH_IMAGE035
对其进行编码,得到历史搜索请求的稠密向量
Figure 876906DEST_PATH_IMAGE036
、正样本的稠密向量
Figure 975312DEST_PATH_IMAGE037
和负样本的稠密向量
Figure 867045DEST_PATH_IMAGE038
。对于两条文本,定义其相似度为两个向量的点积,以搜索请求与正样本为例:
Figure 50901DEST_PATH_IMAGE039
编码器模型训练的目标函数为:
Figure 718905DEST_PATH_IMAGE040
其中,
Figure 671818DEST_PATH_IMAGE041
为正样本中第一文本片段的相关性得分,
Figure 265610DEST_PATH_IMAGE042
表示搜索请求数据,
Figure 671184DEST_PATH_IMAGE043
表示负样本数据,
Figure 641414DEST_PATH_IMAGE044
表示正样本数据。“*”为通配符。
经过固定迭代次数训练后,得到训练好的编码器
Figure 215877DEST_PATH_IMAGE045
本发明中,在利用预先训练的编码器对开放领域文档编码之前,首先对开放领域文档进行切分,得到多个第二文本片段。在具体的切分过程中,为了保证切分后的文本片段语义信息完整,先按段落进行切分。对于切分后得到的段落文本小于最大序列长度的,可以用前后文进行拼接;对于切分后得到的段落文本长度过长的,可以再按句切分,变成多个短的子段落。在切分的同时,可以为得到的每一个第二文本片段生成ID码,通过每个第二文本片段的ID码信息能够还原得到原文档。
采用上述方法对开放领域文档进行切分,得到多个第二文本片段后,可以利用预先训练的编码器将所述第二文本片段转化为所述文档稠密向量。可选地,为所述文档稠密向量建立文本向量索引,向量索引类型包括点积、内积、IVFx等。
对于新的搜索请求,利用预先训练的编码器将其编码为请求稠密向量。
执行步骤S102,根据所述文档稠密向量与所述请求稠密向量计算搜索请求与开放领域文档的相似度得分,并选择相似度得分符合要求的所述开放领域文档为候选文档,具体包括:
计算所述文档稠密向量与所述请求稠密向量的相似度得分,作为所述文档稠密向量对应的第二文本片段与所述搜索请求的相似度得分;
获取与所述搜索请求的所述相似度得分符合要求的多个第二文本片段;
以多个所述第二文本片段所属的开放领域文档作为候选文档。
其中,可使用多种类型的向量检索引擎,利用上述文本向量索引计算所述文档稠密向量与所述请求稠密向量的相似度得分,得到相似度得分符合要求的多个第二文本片段。所述向量检索引擎包括faiss、milvus等。
其中,相似度得分符合要求包括相似度得分大于预设的阈值,或者相似度得分的排序位于预设范围内。需要说明的是,关于第二文本片段与所述搜索请求的相似度得分的要求,可以根据实际情况进行设置和调整,系统也可以根据数据的不断更新按照一定的规则进行自动调整。
在执行该步骤的过程中,将与所述搜索请求的所述相似度得分符合要求的所有第二文本片段均筛选出来,筛选出的这些第二文本片段可能属于多个不同的开放领域文档,将这些文档作为候选文档。
执行步骤S103,从所述候选文档中选择所述搜索请求对应的目标文档,包括:
获取属于所述候选文档的每个所述第二文本片段与所述搜索请求的相似度得分;
累计属于同一候选文档的所述第二文本片段与所述搜索请求的相似度得分,得到每个候选文档与搜索请求的相似度得分;
根据候选文档与搜索请求的相似度得分的排序得到所述目标文档。
该步骤中,首先获取在步骤S102中筛选出的第二文本片段与所述搜索请求的相似度得分,该相似度得分在步骤S102中计算得出,系统可以直接输出。然后,将步骤S102中筛选出的第二文本片段进行归类,将属于同一候选文档的归为一类,并将同一类别中的第二文本片段的相似度得分进行累计,将累计结果作为该候选文档与搜索请求的相似度得分。最后将所有候选文档按照与搜索请求的相似度得分排序,根据排序结果得到所述目标文档,即存在与搜索请求对应的答案的文档。
本发明实施例提供的开放领域问答任务中长文本检索的方法,具有如下的有益效果:
(1)本发明提供的方案是基于深度神经网络模型的,与以往文档检索的手工特征工程相比,方法的复用性增强;
(2)本发明中,使用了大规模预训练语言模型提取文本特征,能够提取文本的深层语义信息,保留词之间的语义关系,给同一指代的词附带了近似的语义表达。同时,使用了双向语言模型,融合整体语义信息,有效地改善了一词多义给搜索带来的歧义问题;
(3)本发明中,针对长文档的特性提出了一种新的正样本采样方法,有效提升了模型训练效果,也更大程度地保留了长文本的上下文语义信息;
(4)本发明提供的技术方案,改善了以往人工特征工程存在的效果瓶颈,模型优化方向明确,当训练数据足够时,能够全面超越以往方法的效果,而且对于跨领域文档有较强的泛化能力;
(5)采用本发明提供的技术方案进行文档搜索,在搜索效果、搜索性能、易用性、维护性等方面都比以往方法有较大提升,且有很大的提升潜力。
实施例二
如图3所示,本发明的另一方面还包括和前述方法流程完全对应一致的功能模块架构,即本发明实施例还提供了开放领域问答任务中长文本检索的装置,包括:
编码模块201,用于利用预先训练的编码器将开放领域文档和搜索请求分别编码为文档稠密向量和请求稠密向量;其中,所述编码器采用历史搜索请求、正样本和负样本作为样本数据进行训练;
候选文档选择模块202,用于根据所述文档稠密向量与所述请求稠密向量计算搜索请求与开放领域文档的相似度得分,并选择相似度得分符合要求的所述开放领域文档为候选文档;
目标文档选择模块203,用于从所述候选文档中选择所述搜索请求对应的目标文档。
进一步地,所述编码模块包括训练数据构建模块、编码器训练模块和转化模块;
所述训练数据构建模块用于构建编码器训练的样本数据,即训练数据集,所述样本数据包括历史搜索请求、正样本和负样本作为样本数据;
编码器训练模块用于利用训练数据集对编码器进行训练。对于训练数据集:
Figure 980570DEST_PATH_IMAGE046
中的一条数据
Figure 873440DEST_PATH_IMAGE047
,所述编码器训练的目标函数如下:
Figure 381782DEST_PATH_IMAGE048
其中,
Figure 76331DEST_PATH_IMAGE041
为正样本中第一文本片段的相关性得分,
Figure 543084DEST_PATH_IMAGE042
表示搜索请求数据,
Figure 923250DEST_PATH_IMAGE043
表示负样本数据,
Figure 969703DEST_PATH_IMAGE044
表示正样本数据;
所述转化模块用于利用预先训练的编码器将开放领域文档和搜索请求分别编码为文档稠密向量和请求稠密向量。
进一步地,所述训练数据构建模块包括正样本构建模块和负样本构建模块,其中,所述正样本构建模块用于获得正样本,具体包括:
对存在与历史搜索请求对应的答案的文档进行切分,得到多个第一文本片段;
计算所述第一文本片段与所述历史搜索请求的相关性得分;
选取答案所在的第一文本片段及其前后文各一个第一文本片段及其相关性得分组成正样本。
进一步地,按照如下方法计算所述第一文本片段与所述历史搜索请求的相关性得分:
答案所在的第一文本片段的相关性得分为1;
Figure 751714DEST_PATH_IMAGE001
个第一文本片段的相关性得分按照如下公式计算:
Figure 94096DEST_PATH_IMAGE028
其中,
Figure 961558DEST_PATH_IMAGE003
为答案所在的第一文本片段的序号,
Figure 811702DEST_PATH_IMAGE004
为第
Figure 182641DEST_PATH_IMAGE001
个第一文本片段与答案所在的第一文本片段的相对距离,
Figure 460039DEST_PATH_IMAGE029
为其他第一文本片段与答案所在的第一文本片段的最大相对距离。
所述负样本构建模块用于获得负样本,负样本包括:
与所述历史搜索请求的相关性得分为零的第一文本片段;
和/或
其他历史搜索请求的正样本。
进一步地,所述候选文档选择模块,具体地用于:
计算所述文档稠密向量与所述请求稠密向量的相似度得分,作为所述文档稠密向量对应的第二文本片段与所述搜索请求的相似度得分;
获取与所述搜索请求的所述相似度得分符合要求的多个第二文本片段;
以多个所述第二文本片段所属的开放领域文档作为候选文档。
进一步地,所述目标文档选择模块,具体的用于:
获取属于所述候选文档的每个所述第二文本片段与所述搜索请求的相似度得分;
累计属于同一候选文档的所述第二文本片段与所述搜索请求的相似度得分,得到每个候选文档与搜索请求的相似度得分;
根据候选文档与搜索请求的相似度得分的排序得到所述目标文档。
该装置可通过上述实施例一提供的开放领域问答任务中长文本检索的方法实现,具体的实现方法可参见实施例一中的描述,在此不再赘述。
本发明还提供了一种存储器,存储有多条指令,所述指令用于实现如实施例一所述的方法。
本发明还提供了一种电子设备,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如实施例一所述的方法。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种开放领域问答任务中长文本检索的方法,其特征在于,包括:
利用预先训练的编码器将开放领域文档和搜索请求分别编码为文档稠密向量和请求稠密向量;其中,所述编码器采用历史搜索请求、正样本和负样本作为样本数据进行训练;
根据所述文档稠密向量与所述请求稠密向量计算搜索请求与开放领域文档的相似度得分,并选择相似度得分符合要求的所述开放领域文档为候选文档;
从所述候选文档中选择所述搜索请求对应的目标文档;
其中,所述正样本采用如下方法获得:
对存在与历史搜索请求对应的答案的文档进行切分,得到多个第一文本片段;
计算所述第一文本片段与所述历史搜索请求的相关性得分;
选取答案所在的第一文本片段及其前后文各一个第一文本片段及其相关性得分组成正样本;
所述编码器训练的目标函数如下:
Figure DEST_PATH_IMAGE001
其中,
Figure DEST_PATH_IMAGE003
为正样本中第一文本片段的相关性得分,
Figure DEST_PATH_IMAGE004
表示搜索请求数据,
Figure DEST_PATH_IMAGE005
表示负样本数据,
Figure DEST_PATH_IMAGE006
表示正样本数据,
Figure DEST_PATH_IMAGE007
表示历史搜索请求被编码器编码后的稠密向量,
Figure DEST_PATH_IMAGE008
表示正样本被编码器编码后的稠密向量,
Figure DEST_PATH_IMAGE009
表示负样本被编码器编码后的稠密向量,
Figure DEST_PATH_IMAGE010
表示搜索请求与正样本的相似度,
Figure DEST_PATH_IMAGE011
表示搜索请求与负样本的相似度。
2.如权利要求1所述的开放领域问答任务中长文本检索的方法,其特征在于,所述计算所述第一文本片段与所述历史搜索请求的相关性得分,包括:
答案所在的第一文本片段的相关性得分为1;
第i个第一文本片段的相关性得分按照如下公式计算:
Figure DEST_PATH_IMAGE014
其中,
Figure DEST_PATH_IMAGE015
为答案所在的第一文本片段的序号,
Figure DEST_PATH_IMAGE016
为第
Figure DEST_PATH_IMAGE017
个第一文本片段与答案所在的第一文本片段的相对距离,
Figure DEST_PATH_IMAGE018
为其他第一文本片段与答案所在的第一文本片段的最大相对距离。
3.如权利要求1所述的开放领域问答任务中长文本检索的方法,其特征在于,所述负样本包括:
与所述历史搜索请求的相关性得分为零的第一文本片段;
和/或
其他历史搜索请求的正样本。
4.如权利要求1所述的开放领域问答任务中长文本检索的方法,其特征在于,所述利用预先训练的编码器将开放领域文档编码为文档稠密向量,包括:
切分开放领域文档,得到多个第二文本片段;
利用预先训练的编码器将所述第二文本片段转化为所述文档稠密向量。
5.如权利要求4所述的开放领域问答任务中长文本检索的方法,其特征在于,所述根据所述文档稠密向量与所述请求稠密向量计算搜索请求与开放领域文档的相似度得分,并选择相似度得分符合要求的所述开放领域文档为候选文档,包括:
计算所述文档稠密向量与所述请求稠密向量的相似度得分,作为所述文档稠密向量对应的第二文本片段与所述搜索请求的相似度得分;
获取与所述搜索请求的所述相似度得分符合要求的多个第二文本片段;
以多个所述第二文本片段所属的开放领域文档作为候选文档。
6.如权利要求5所述的开放领域问答任务中长文本检索的方法,其特征在于,所述从所述候选文档中选择所述搜索请求对应的目标文档,包括:
获取属于所述候选文档的每个所述第二文本片段与所述搜索请求的相似度得分;
累计属于同一候选文档的所述第二文本片段与所述搜索请求的相似度得分,得到每个候选文档与搜索请求的相似度得分;
根据候选文档与搜索请求的相似度得分的排序得到所述目标文档。
7.一种存储器,其特征在于,存储有多条指令,所述指令用于实现如权利要求1-6任一项所述的方法。
8.一种电子设备,其特征在于,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如权利要求1-6任一项所述的方法。
CN202011037021.2A 2020-09-28 2020-09-28 一种开放领域问答任务中长文本检索的方法和电子设备 Active CN111881264B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011037021.2A CN111881264B (zh) 2020-09-28 2020-09-28 一种开放领域问答任务中长文本检索的方法和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011037021.2A CN111881264B (zh) 2020-09-28 2020-09-28 一种开放领域问答任务中长文本检索的方法和电子设备

Publications (2)

Publication Number Publication Date
CN111881264A CN111881264A (zh) 2020-11-03
CN111881264B true CN111881264B (zh) 2020-12-15

Family

ID=73198630

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011037021.2A Active CN111881264B (zh) 2020-09-28 2020-09-28 一种开放领域问答任务中长文本检索的方法和电子设备

Country Status (1)

Country Link
CN (1) CN111881264B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112988952B (zh) * 2021-04-20 2021-08-24 北京智源人工智能研究院 一种多层级长文本向量检索方法、装置和电子设备
CN117272937B (zh) * 2023-11-03 2024-02-23 腾讯科技(深圳)有限公司 文本编码模型训练方法、装置、设备及存储介质
CN118114677B (zh) * 2024-04-30 2024-07-05 杭州思锐信息技术股份有限公司 一种基于稠密检索的实体识别自动标注优化方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220296A (zh) * 2017-04-28 2017-09-29 北京拓尔思信息技术股份有限公司 问答知识库的生成方法、神经网络的训练方法以及设备
CN108959556A (zh) * 2018-06-29 2018-12-07 北京百度网讯科技有限公司 基于神经网络的实体问答方法、装置和终端
CN109918487A (zh) * 2019-01-28 2019-06-21 平安科技(深圳)有限公司 基于网络百科全书的智能问答方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107491518B (zh) * 2017-08-15 2020-08-04 北京百度网讯科技有限公司 一种搜索召回方法和装置、服务器、存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220296A (zh) * 2017-04-28 2017-09-29 北京拓尔思信息技术股份有限公司 问答知识库的生成方法、神经网络的训练方法以及设备
CN108959556A (zh) * 2018-06-29 2018-12-07 北京百度网讯科技有限公司 基于神经网络的实体问答方法、装置和终端
CN109918487A (zh) * 2019-01-28 2019-06-21 平安科技(深圳)有限公司 基于网络百科全书的智能问答方法和系统

Also Published As

Publication number Publication date
CN111881264A (zh) 2020-11-03

Similar Documents

Publication Publication Date Title
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN111881264B (zh) 一种开放领域问答任务中长文本检索的方法和电子设备
CN110929038B (zh) 基于知识图谱的实体链接方法、装置、设备和存储介质
CN109840287A (zh) 一种基于神经网络的跨模态信息检索方法和装置
WO2024131111A1 (zh) 一种智能写作方法、装置、设备及非易失性可读存储介质
CN111930792B (zh) 数据资源的标注方法、装置、存储介质及电子设备
CN112307182B (zh) 一种基于问答系统的伪相关反馈的扩展查询方法
CN113761868B (zh) 文本处理方法、装置、电子设备及可读存储介质
CN115495555A (zh) 一种基于深度学习的文献检索方法和系统
CN112328800A (zh) 自动生成编程规范问题答案的系统及方法
CN118093834B (zh) 一种基于aigc大模型的语言处理问答系统及方法
CN115203421A (zh) 一种长文本的标签生成方法、装置、设备及存储介质
CN112800205A (zh) 基于语义变化流形分析获取问答相关段落的方法、装置
CN111666376A (zh) 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置
CN115795018A (zh) 一种面向电网领域的多策略智能搜索问答方法及系统
CN113590811A (zh) 文本摘要生成方法、装置、电子设备及存储介质
CN114298055B (zh) 基于多级语义匹配的检索方法、装置、计算机设备和存储介质
CN117494815A (zh) 面向档案的可信大语言模型训练、推理方法和装置
CN117828024A (zh) 一种插件检索方法、装置、存储介质及设备
CN112035629B (zh) 基于符号化知识与神经网络的问答模型的实现方法
CN116719915A (zh) 智能问答方法、装置、设备及存储介质
KR20240128104A (ko) 언어 모델 신경망을 사용하여 인라인 증거를 갖는 출력 시퀀스 생성
CN112988952B (zh) 一种多层级长文本向量检索方法、装置和电子设备
CN113468311B (zh) 一种基于知识图谱的复杂问句问答方法、装置及存储介质
CN116186220A (zh) 信息检索方法、问答处理方法、信息检索装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant