CN111552781B - 一种联合机器检索阅读的方法 - Google Patents

一种联合机器检索阅读的方法 Download PDF

Info

Publication number
CN111552781B
CN111552781B CN202010356269.9A CN202010356269A CN111552781B CN 111552781 B CN111552781 B CN 111552781B CN 202010356269 A CN202010356269 A CN 202010356269A CN 111552781 B CN111552781 B CN 111552781B
Authority
CN
China
Prior art keywords
stage
chapters
reading
candidate
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010356269.9A
Other languages
English (en)
Other versions
CN111552781A (zh
Inventor
蔡世清
房鹏展
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Focus Technology Co Ltd
Original Assignee
Focus Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Focus Technology Co Ltd filed Critical Focus Technology Co Ltd
Priority to CN202010356269.9A priority Critical patent/CN111552781B/zh
Publication of CN111552781A publication Critical patent/CN111552781A/zh
Application granted granted Critical
Publication of CN111552781B publication Critical patent/CN111552781B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种联合机器检索阅读的方法,其特征在于,以BERT为基线模型,使用多任务学习兼并检索和阅读两个子任务,具体包括,步骤一:数据样本预处理,步骤二:训练第一阶段BERT模型,步骤三:训练第二阶段BERT模型,步骤四:应用第一、第二阶段BERT模型,能够将抽取式问答任务的检索和阅读两个子任务集成到一个框架中,能够适用于多篇章、长篇章的大范围篇章检索场景,使用最先进的BERT语言模型完成所有的学习任务,达到在大范围的篇章检索阅读场景下具备非常高的准确率的效果。

Description

一种联合机器检索阅读的方法
技术领域
本发明涉及智能问答、自然语言处理领域,特别是涉及一种联合机器检索阅读的方法。
背景技术
篇章抽取式问答是智能问答的其中一种,任务形式为根据用户提出的一个问题,在相关的篇章中抽取出一个子片段作为答案。与其他的问答任务不同,篇章抽取式问答不要求知识库具有一定的结构,而是直接在自然文本形式的文档集合中检索答案,这大大降低了知识库构建成本。然而这种形式的问答需要将问题和相关的篇章段落同时输入模型,即需要先用传统检索方法从海量文档中筛选出最相关的一批文档,再将这些文档分别输入模型独立计算,根据结果分数做精排,对于文档数量较多、篇章长度较长的场景效果较差。
发明内容
本发明所要解决的技术问题是克服现有技术的不足,提供一种联合机器检索阅读的方法。
为解决上述技术问题,本发明提供一种联合机器检索阅读的方法,其特征在于,以BERT为基线模型,使用多任务学习兼并检索和阅读两个子任务,具体包括如下步骤:
步骤一:数据样本预处理,输入数据样本为一对二元组,所述二元组包括问题Q、篇章C,利用分段算法将篇章C做分段截断处理,得到子篇章集{ci};
步骤二:训练第一阶段BERT模型,具体为,将预处理好的子篇章集{ci}与对应的问题Q送入第一阶段BERT模型,优化检索任务与阅读任务,利用第一阶段BERT模型对子篇章集{ci}做出粗筛,得到粗筛后的候选篇章集;
步骤三:训练第二阶段BERT模型,具体为,将候选篇章集与问题Q输入第二阶段BERT模型做训练,以训练第一阶段BERT模型同样的形式训练第二阶段BERT模型;
步骤四:应用第一、第二阶段BERT模型,具体为,将训练好的第一、第二阶段BERT模型用于应用当中,把问题和篇章输入第一阶段BERT模型做粗筛,将粗筛的候选篇章集与问题输入第二阶段BERT模型进行检索和阅读,最后返回答案。
所述步骤一中,所述利用分段算法将数据样本做分段截断处理,具体包括如下步骤:
步骤1:使用标点符号分隔符将篇章分割为句子序列{Sent1,Sent2,…,SentN};
步骤2:以输入长度最大为512作为限制条件,在所述限制条件下,挑选出所有候选子篇章集;
步骤3:将步骤2得到的候选子篇章集{Para1,Para2,…,ParaM}组织成有向无环图DAG(V,E),其中V为所有的子段落构成的节点集合,E为边的集合,两个子段落节点之间具有交叉则构成一条边,边的权重为两个子段落之间的L2范式交叉度:
Figure BDA0002473583990000021
其中cij为第i和第j个子段落的交叉长度;
步骤4:使用动态规划优化分段方案,目标函数为:
Figure BDA0002473583990000022
递归地定义子问题:F(i,j)=F(i,j-1)+wj-1,j,其中F(i,j)表示从第i个节点到第j个节点的最优方案,则F(1,M)表示从起始节点到最终节点的最优方案,使用动态规划求解F(1,M)得到子篇章集{cj},所述子篇章集{cj}是{Para1,Para2,…,ParaM}的一个子集。
所述步骤二中,使用多任务学习合并检索任务与阅读任务,强化第一阶段BERT模型对上下文信息和答案的特征的提取,将问题与篇章拼接,利用第一阶段BERT模型的多头注意力机制融合问题与篇章的信息,所述检索任务设置为二分类检索网络,用于判断段落中是否存在问题对应的答案,具体为,用BERT模型的[CLS]向量作为问题与篇章的融合特征向量,传入二分类检索网络,使用sigmoid函数作为判断问题的答案是否存在于篇章的二元逻辑函数;所述阅读任务使用指针网络预测答案片段的首和尾的位置,设置检索任务和阅读任务的损失权重作为超参数,用以调和多任务并行学习,根据两个任务的熵将损失权重设置为{log(2),log(L)},其中L为篇章的平均长度,得到综合损失函数用以优化第一阶段BERT模型。
所述步骤四中,将问题与所有篇章都输入第一阶段BERT模型中,通过检索任务和阅读任务得到多个候选篇章的答案以及对应分数,根据答案的分数做粗排序,动态截取排名靠前的候选答案所在候选篇章,将其输入第二阶段BERT做检索和阅读,得到最终的答案,检索和阅读分数的融合公式如下:
Figure BDA0002473583990000023
其中wans与wnsp分别表示指针子网络与二分类检索网络的分数权重,Pans和Pnsp分别表示指针子网络与二分类检索网络的输出分数,P表示融合后的答案分数。
所述动态截取排名靠前的候选答案所在候选篇章,具体为,候选篇章的选择采用top_k和top_p双策略动态截取,top_k为候选文档最大数量,top_p为候选文档的最大累积概率分数,当前top_k个文档的累积分数大于top_p时,按照累积概率<=top_p截取候选段落,而当前top_k个文档的累积分数小于top_p时,则截取top_k个候选文档。双策略动态截取算法可以根据第一阶段相关文档分数的分布自适应地选择top数量,提升整体检索效率。
本发明所达到的有益效果:输入一个问题和多个相关的篇章文档,并且不限定篇章的长度,可以给所有篇章中的所有子篇章区域打分,得到可靠性较高的少数子篇章,并阅读和理解段落语义,最终精确定位答案。
附图说明
图1为本发明的示例性实施例的方法流程示意图;
图2为本发明的示例性实施例中分段算法示意图;
图3为本发明的示例性实施例中检索阅读的模型结构示意图。
具体实施方式
下面结合附图和示例性实施例对本发明作进一步的说明:
如图1所示的一种联合机器检索阅读的方法,其特征在于,以BERT为基线模型,使用多任务学习兼并检索和阅读两个子任务,具体包括如下步骤:
步骤一:数据样本预处理,具体为,利用分段算法将输入篇章做分段截断处理;在保证最小化答案截断风险的前提下减小问题规模;具体包括如下步骤:
步骤1:使用标点符号分隔符将篇章分割为句子序列{Sent1,Sent2,…,SentN};
步骤2:以输入长度最大为512作为限制条件,在所述限制条件下,挑选出所有候选子篇章,即每个候选的子篇章的长度达到临界值,加入相邻句子便会超出最大长度限制,从而保证所有候选子篇章满足长度限制的同时具有充足的上下文信息,减少答案信息丢失的风险。由于模型能够处理的文本长度有限,对于大篇幅文档传统的方式是按照最大长度进行截断,但是这样的方式可能会导致答案被截掉,所以需要分段然后对每一段分别处理。然而,具体分成几段、分割点怎么选择却面临庞大的搜索空间,需要满足两个约束:一是每个子篇章要尽量长,越长的子篇章要比越短的子篇章具有更充分的上下文,然而又不能超过模型所能处理的最大长度,所以要保证每个候选子篇章的选择刚好不超过最大长度限制,即采用贪婪扩充的方式获得每一个候选子篇章;二是要保证分段后的所有子篇章能够完整覆盖原文,即搜索过程中每一步后续子篇章在前一子篇章的相连节点做选择。优化目标是使得分段后的总体冗余度最小并且冗余均衡,所以这是一个复杂约束条件下的组合优化问题,特别是在机器阅读理解领域首次提出。
步骤3:将步骤2得到的子篇章序列{Para1,Para2,…,ParaM}组织成有向无环图DAG(V,E),其中V为所有的子段落构成的节点集合,E为边的集合,两个子篇章节点之间具有交叉则构成一条边,边的权重为两个子篇章之间的L2范式交叉度:
Figure BDA0002473583990000041
其中cij为第i和第j个子段落的交叉长度;利用L2范式的度量方式,即可以约束总体冗余度大小,又能控制不同子篇章之间的交叉均衡,降低丢失答案信息的风险,
步骤4:使用动态规划优化分段方案,目标函数为:
Figure BDA0002473583990000042
递归地定义子问题:F(i,j)=F(i,j-1)+wj-1,j,其中F(i,j)表示从第i个节点到第j个节点的最优方案,则F(1,M)表示从起始节点到最终节点的最优方案,使用动态规划求解F(1,M)。
步骤二:训练第一阶段BERT模型,具体为,将预处理好的子篇章集与对应问题送入第一阶段BERT模型,优化检索任务与阅读任务,使用多任务学习合并检索任务与阅读任务,强化第一阶段BERT模型对上下文信息和答案的特征的提取,将问题与篇章拼接,利用第一阶段BERT模型的多头注意力机制融合问题与答案,所述检索任务设置为二分类检索网络,用于判断篇章中是否存在问题对应的答案,具体为,用BERT模型的[CLS]向量作为问题与篇章的融合特征向量,传入二分类检索网络,使用sigmoid函数作为判断问题的答案是否存在于篇章的二元逻辑函数;所述阅读任务使用指针网络预测答案片段的首和尾的位置,设置检索任务和阅读任务的损失权重作为超参数,用以调和多任务并行学习,根据两个任务的熵将损失权重设置为{log(2),log(L)},其中L为段落的平均长度,得到综合损失函数用以优化第一阶段BERT模型。利用第一阶段BERT模型对数据样本做出粗筛,得到粗筛后的候选篇章集。
步骤三:训练第二阶段BERT模型,具体为,将粗筛后的候选篇章集与对应问题输入第二阶段BERT模型做训练,以训练第一阶段BERT模型同样的形式训练第二阶段BERT模型;第一阶段检索范围大,正负样本比例失衡,第二阶段的输入数据为第一阶段过滤之后的,具有更少的负样本和较小的检索范围,即第二阶段模型在第一阶段筛选的候选篇章集中精确定位问题答案。
步骤四:应用第一、第二阶段BERT模型,具体为,将训练好的第一、第二阶段BERT模型用于应用当中,把问题和预处理后的子篇章集输入第一阶段BERT模型做粗筛,将粗筛的候选篇章集合对应问题作为数据样本输入第二阶段BERT模型进行检索和阅读,最后返回答案,更具体为:
将问题与所有子篇章集都输入第一阶段BERT模型中,通过检索任务和阅读任务得到多个候选篇章中的候选答案以及对应分数,根据答案的分数做粗排序,动态截取排名靠前的候选答案所在候选篇章,将其输入第二阶段BERT做检索和阅读,得到最终的答案,检索和阅读分数的融合公式如下:
Figure BDA0002473583990000051
其中wans与wnsp分别表示指针子网络与二分类检索网络的分数权重,Pans和Pnsp分别表示指针子网络与二分类检索网络的输出分数,P表示融合后的答案分数。对数变换是对融合概率做平滑处理,当两个分数不一致时会产生明显的惩罚。
候选篇章的选择采用top_k和top_p双策略动态截取,top_k为候选文档最大数量,top_p为候选文档的最大累积概率分数,当前top_k个文档的累积分数大于top_p时,按照累积概率<=top_p截取候选段落,而当前top_k个文档的累积分数小于top_p(即累积概率到达top_p时的文档数量大于top_k)时,则截取top_k个候选文档。双策略动态截取算法可以根据第一阶段相关文档分数的分布自适应地选择top数量,提升整体检索效率。
如图2所示的一种基于动态规划算法的分段方案的实施例,包括:
将篇章按照标点符号切割为多个句子{Sent1,Sent2,…,SentN}。
以每个句子为起点,分别向后选择满足最大长度限制条件的候选子篇章集,如图所示{Sent1,Sent2,Sent3}作为第一个子段落Para1,若加入Sent4则Para1长度超过最大限制,接着{Sent2,Sent3,Sent4}作为第二个子段落,以这样的方式得到M个候选子篇章{Para1,Para2,...,ParaM}。
将子篇章作为节点,组织成有向无环图,具有交叉的的子篇章之间构成有向边,例如Para1和Para2之间有公共的Sent1、Sent2,所以(Para1,Para2)构成一条边,边权重为Sent1、Sent2的总长度,依次构造出整个有向无环图。
用动态规划求解一条从Para1(初始节点)到ParaM(最终节点)的最短路径,路径上的节点作为截断后的子篇章。
该方法基于L2范式的度量方式,可以快速优化分段方案,得到冗余性最小、且分割最为均匀的方案,尽量避免答案丢失或者落在子篇章边缘上,从而保留更多的上下文信息。
如图3所示,本发明公开一种基于BERT的检索、阅读联合学习模型,包括BERT基础子网络、二分类检索子网络、指针子网络。
所述BERT基础子网络,用于对答案和篇章的词语做语义编码,得到每个词的向量:将问题句子分词得到词语{Tok1,Tok2,...,TokN},将篇章句子分词得到{Tok1’,Tok2’,...,TokM’},并且添加辅助词[cls]用于获得全局表示,经过Embedding层和多层注意力层得到每个词对应的上下文向量表示,其中向量C对应于[cls],表示整个样本的全局向量,篇章的M个词语的向量表示为{T1’,T2’,...,TM’}。
所述二分类检索子网络,用于在全局表示向量C上添加二分类网络,得到检索概率输出。
所述指针子网络,用于在篇章词语的向量{T1’,T2’,...,TM’}表示上指示出最高概率的起始词语和结束词语,从而抽取出答案片段。
该方法可以将检索和阅读两个任务集成到一个模型中,并通过调节不同任务的损失权重来调和多任务学习过程,大大增加了模型的紧凑性。
本发明公开一种针对大范围检索的两阶段检索阅读方法,两阶段的BERT模型具有相同的结构,训练第一阶段BERT1时将所有的训练集样本经过均衡采样后输入模型,而训练第二阶段BERT2时使用第一阶段BERT1对训练集过滤,在过滤后的数据集上做均衡采样后输入模型。在测试阶段用同样的方式先对测试集做过滤然后输入第二阶段BERT2模型。
该方法有效地解决了检索范围太大、负样本太多的问题,并且具备很高的扩展性,如果面对超大规模的检索范围可以继续增加第三、第四阶段模型,逐级筛选。
本发明主要用于提供一种联合机器检索阅读的方法及系统,该方法能够将抽取式问答任务的检索和阅读两个子任务集成到一个框架中,能够适用于多篇章、长篇章的大范围篇章检索场景,使用最先进的BERT语言模型完成所有的学习任务,在大范围的篇章检索阅读场景下具备非常高的准确率。
以上实施例不以任何方式限定本发明,凡是对以上实施例以等效变换方式做出的其它改进与应用,都属于本发明的保护范围。

Claims (5)

1.一种联合机器检索阅读的方法,其特征在于,以BERT为基线模型,使用多任务学习兼并检索和阅读两个子任务,具体包括如下步骤:
步骤一:数据样本预处理,输入数据样本为一对二元组,所述二元组包括问题Q、篇章C,利用分段算法将篇章C做分段截断处理,得到子篇章集{ci};
步骤二:训练第一阶段BERT模型,具体为,将预处理好的子篇章集{ci}与对应的问题Q送入第一阶段BERT模型,优化检索任务与阅读任务,利用第一阶段BERT模型对子篇章集{ci}做出粗筛,得到粗筛后的候选篇章集;
步骤三:训练第二阶段BERT模型,具体为,将候选篇章集与问题Q输入第二阶段BERT模型做训练,以训练第一阶段BERT模型同样的形式训练第二阶段BERT模型;
步骤四:应用第一、第二阶段BERT模型,具体为,将训练好的第一、第二阶段BERT模型用于应用当中,把问题和篇章输入第一阶段BERT模型做粗筛,将粗筛的候选篇章集与问题输入第二阶段BERT模型进行检索和阅读,最后返回答案。
2.如权利要求1所述的一种联合机器检索阅读的方法,其特征在于:所述步骤一中,所述利用分段算法将数据样本做分段截断处理,具体包括如下步骤:
步骤1:使用标点符号分隔符将篇章分割为句子序列{Sent1,Sent2,…,SentN};
步骤2:以输入长度最大为512作为限制条件,在所述限制条件下,挑选出所有候选子篇章集;
步骤3:将步骤2得到的候选子篇章集{Para1,Para2,…,ParaM}组织成有向无环图DAG(V,E),其中V为所有的子篇章构成的节点集合,E为边的集合,两个子篇章节点之间具有交叉则构成一条边,边的权重为两个子篇章之间的L2范式交叉度:
Figure FDA0002826579750000011
其中cij为第i和第j个子篇章的交叉长度;
步骤4:使用动态规划优化分段方案,目标函数为:
Figure FDA0002826579750000012
递归地定义子问题:F(i,j)=F(i,j-1)+wj-1,j,其中F(i,j)表示从第i个节点到第j个节点的最优方案,则F(1,M)表示从起始节点到最终节点的最优方案,使用动态规划求解F(1,M)得到子篇章集{cj},所述子篇章集{cj}是{Para1,Para2,…,ParaM}的一个子集。
3.如权利要求2所述的一种联合机器检索阅读的方法,其特征在于:所述步骤二中,使用多任务学习合并检索任务与阅读任务,强化第一阶段BERT模型对上下文信息和答案的特征的提取,将问题与篇章拼接,利用第一阶段BERT模型的多头注意力机制融合问题与篇章的信息,所述检索任务设置为二分类检索网络,用于判断段落中是否存在问题对应的答案,具体为,用BERT模型的[CLS]向量作为问题与篇章的融合特征向量,传入二分类检索网络,使用sigmoid函数作为判断问题的答案是否存在于篇章的二元逻辑函数;所述阅读任务使用指针网络预测答案片段的首和尾的位置,设置检索任务和阅读任务的损失权重作为超参数,用以调和多任务并行学习,根据两个任务的熵将损失权重设置为{log(2),log(L)},其中L为篇章的平均长度,得到综合损失函数用以优化第一阶段BERT模型。
4.如权利要求3所述的一种联合机器检索阅读的方法,其特征在于:所述步骤四中,将问题与所有篇章都输入第一阶段BERT模型中,通过检索任务和阅读任务得到多个候选篇章的答案以及对应分数,根据答案的分数做粗排序,动态截取排名靠前的候选答案所在候选篇章,将其输入第二阶段BERT做检索和阅读,得到最终的答案,检索和阅读分数的融合公式如下:
Figure FDA0002826579750000021
其中wans与wnsp分别表示指针子网络与二分类检索网络的分数权重,Pans和Pnsp分别表示指针子网络与二分类检索网络的输出分数,P表示融合后的答案分数。
5.如权利要求4所述的一种联合机器检索阅读的方法,其特征在于:所述动态截取排名靠前的候选答案所在候选篇章,具体为,候选篇章的选择采用top_k和top_p双策略动态截取,top_k为候选文档最大数量,top_p为候选文档的最大累积概率分数,当前top_k个文档的累积分数大于top_p时,按照累积概率<=top_p截取候选段落,而当前top_k个文档的累积分数小于top_p时,则截取top_k个候选文档。
CN202010356269.9A 2020-04-29 2020-04-29 一种联合机器检索阅读的方法 Active CN111552781B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010356269.9A CN111552781B (zh) 2020-04-29 2020-04-29 一种联合机器检索阅读的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010356269.9A CN111552781B (zh) 2020-04-29 2020-04-29 一种联合机器检索阅读的方法

Publications (2)

Publication Number Publication Date
CN111552781A CN111552781A (zh) 2020-08-18
CN111552781B true CN111552781B (zh) 2021-03-02

Family

ID=72003266

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010356269.9A Active CN111552781B (zh) 2020-04-29 2020-04-29 一种联合机器检索阅读的方法

Country Status (1)

Country Link
CN (1) CN111552781B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113076759A (zh) * 2021-04-25 2021-07-06 昆明理工大学 基于答案类别和句法指导的案情阅读理解方法
CN113407685A (zh) * 2021-05-14 2021-09-17 北京金山数字娱乐科技有限公司 一种样本筛选方法及装置
CN113688876B (zh) * 2021-07-30 2023-08-22 华东师范大学 一种基于lda和bert的金融文本机器阅读理解方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110096699A (zh) * 2019-03-20 2019-08-06 华南师范大学 基于语义的机器阅读理解的候选答案筛选方法和系统
CN110688491A (zh) * 2019-09-25 2020-01-14 暨南大学 基于深度学习的机器阅读理解方法、系统、设备及介质
CN111027327A (zh) * 2019-10-29 2020-04-17 平安科技(深圳)有限公司 机器阅读理解方法、设备、存储介质及装置
CN111046155A (zh) * 2019-11-27 2020-04-21 中博信息技术研究院有限公司 一种基于fsm多轮问答的语义相似度计算方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106445911B (zh) * 2016-03-18 2022-02-22 苏州大学 一种基于微观话题结构的指代消解方法及系统
US10585939B2 (en) * 2016-10-11 2020-03-10 International Business Machines Corporation Real time object description service integrated with knowledge center on augmented reality (AR) and virtual reality (VR) devices
US11836611B2 (en) * 2017-07-25 2023-12-05 University Of Massachusetts Method for meta-level continual learning
CN110532563B (zh) * 2019-09-02 2023-06-20 苏州美能华智能科技有限公司 文本中关键段落的检测方法及装置
CN110990533B (zh) * 2019-11-29 2023-08-25 支付宝(杭州)信息技术有限公司 确定查询文本所对应标准文本的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110096699A (zh) * 2019-03-20 2019-08-06 华南师范大学 基于语义的机器阅读理解的候选答案筛选方法和系统
CN110688491A (zh) * 2019-09-25 2020-01-14 暨南大学 基于深度学习的机器阅读理解方法、系统、设备及介质
CN111027327A (zh) * 2019-10-29 2020-04-17 平安科技(深圳)有限公司 机器阅读理解方法、设备、存储介质及装置
CN111046155A (zh) * 2019-11-27 2020-04-21 中博信息技术研究院有限公司 一种基于fsm多轮问答的语义相似度计算方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Dynamic Routing in Machine Reading Comprehension;Yiwen Duan,等;《2019 IEEE 5th International Conference on Computer and Communications (ICCC)》;20200413;第348-354页 *

Also Published As

Publication number Publication date
CN111552781A (zh) 2020-08-18

Similar Documents

Publication Publication Date Title
CN111552781B (zh) 一种联合机器检索阅读的方法
CN109829104B (zh) 基于语义相似度的伪相关反馈模型信息检索方法及系统
CN111324728B (zh) 文本事件摘要的生成方法、装置、电子设备及存储介质
CN111414479B (zh) 基于短文本聚类技术的标签抽取方法
CN108460089A (zh) 基于Attention神经网络的多元特征融合中文文本分类方法
CN110597961B (zh) 一种文本类目标注方法、装置、电子设备及存储介质
CN110309305A (zh) 基于多任务联合训练的机器阅读理解方法及计算机存储介质
CN106649786A (zh) 基于深度问答的答案检索方法及装置
CN110633407B (zh) 信息检索方法、装置、设备及计算机可读介质
CN110046250A (zh) 三嵌入卷积神经网络模型及其文本多分类方法
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN111858896A (zh) 一种基于深度学习的知识库问答方法
CN115309910B (zh) 语篇要素和要素关系联合抽取方法、知识图谱构建方法
CN112307182A (zh) 一种基于问答系统的伪相关反馈的扩展查询方法
CN114611491A (zh) 基于文本挖掘技术的智慧政务舆情分析研究方法
CN115390806A (zh) 基于双模态联合建模的软件设计模式推荐方法
CN111274494B (zh) 结合深度学习和协同过滤技术的复合标签推荐方法
CN112434134A (zh) 搜索模型训练方法、装置、终端设备及存储介质
CN115357692A (zh) 一种中文问答信息抽取方法、系统、设备及存储介质
CN116756303A (zh) 一种多主题文本摘要自动生成方法及系统
CN114880428A (zh) 一种基于图神经网络的语篇成分识别方法
Kelkar et al. Resume analyzer using text processing
CN116910599A (zh) 数据聚类方法、系统、电子设备及存储介质
CN116403231A (zh) 基于双视图对比学习与图剪枝的多跳阅读理解方法及系统
CN113780832B (zh) 舆情文本评分方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant