CN111563378A - 一种联合学习的多文档阅读理解实现方法 - Google Patents

一种联合学习的多文档阅读理解实现方法 Download PDF

Info

Publication number
CN111563378A
CN111563378A CN202010370071.6A CN202010370071A CN111563378A CN 111563378 A CN111563378 A CN 111563378A CN 202010370071 A CN202010370071 A CN 202010370071A CN 111563378 A CN111563378 A CN 111563378A
Authority
CN
China
Prior art keywords
document
paragraph
extraction
representing
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010370071.6A
Other languages
English (en)
Inventor
张琨
朱锦雷
张传锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Synthesis Electronic Technology Co Ltd
Original Assignee
Synthesis Electronic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Synthesis Electronic Technology Co Ltd filed Critical Synthesis Electronic Technology Co Ltd
Priority to CN202010370071.6A priority Critical patent/CN111563378A/zh
Publication of CN111563378A publication Critical patent/CN111563378A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种联合学习的多文档阅读理解实现方法,本方法首先通过文档检索、段落检索可以快速的查找到与问题相关度较高文档与段落,然后进行答案、文档、段落抽取,并联合学习三个子任务的损失函数LAE、LDE、LPE的和,可以更好的学习共享层参数,提高答案抽取的精度。因此,本发明提出的这种联合学习的多文档阅读理解实现方法很好的兼顾了精度与速度的要求。

Description

一种联合学习的多文档阅读理解实现方法
技术领域
本发明涉及一种联合学习的多文档阅读理解实现方法,属于自然语言处理领域。
背景技术
阅读理解指的是:给定一个问题,机器通过处理分析大量文档,最终直接得到答案。该项技术不仅可以解决搜索引擎最后一公里的问题,不再需要返回许多链接,让人们自己分析,而是直接返回正确链接或者答案,而且可以促使智能问答、人机对话等技术更加强大。
近年来,阅读理解技术迅速发展。得益于评测数据集的日益成熟,许多单段落阅读理解模型的性能已经超越人类水平。但实际场景需要从许多长文档中寻找答案,不仅需要较高精度,还需要兼顾速度与效率。
专利《阅读理解方法及装置》针对长答案文本和短答案文本分别训练模型并进行预测来提高抽取答案的精度。专利《一种基于注意力池化机制的阅读理解方法》在通用阅读理解框架的基础上提出了注意力池化机制,引入局部注意力来提高抽取答案的精度。专利《基于多任务联合训练的机器阅读理解方法及计算机存储介质》提出通过联合学习答案位置和问题类型两个任务、平均多个模型结果来提高抽取答案精度。以上专利都是旨在提高答案抽取模型的精度。专利《一种机器阅读理解的实现方法以及装置》和《一种针对复杂数据的机器阅读理解方法》都是通过构建流水线的方式,先筛选相关段落,后进行答案抽取,但是他们过于依赖前者,容易遗漏包含正确答案的文档或者段落。专利《一种多粒度答案排序的多文档机器阅读理解方法》提出了通过滑动窗口的方法从多个文档中抽取候选答案,然后利用不同粒度的语义信息排序选择答案。由于该方法需要答案抽取模型处理所有的文档,因此消耗的计算资源很大,不太实用。
发明内容
本发明要解决的技术问题是提供一种联合学习的多文档阅读理解实现方法,本方法由粗到精联合学习,在通过联合学习方法尽量满足模型精度前提下,充分考虑到速度与效率,以便于技术落地。
为了解决所述技术问题,本发明采用的技术方案是:一种联合学习的多文档阅读理解实现方法,包括以下步骤:S01)、文档检索,确定满足与问题相似度要求的前K个文档,即保留top-K文档;S02)、段落检索,确定每个文档满足与问题相似度要求的前N个段落,即针对每个文档保留top-N段落;S03)、文档、段落、答案抽取,文档、段落、答案抽取共用共享层,共享层通过编码、匹配、融合形成文档相对于问题的语义表示,该语义表示是一个矩阵,每一列表示文档中某个词的向量表示
Figure BDA0002474952200000011
答案抽取是利用文档的语义表示dD和人工特征f计算出答案在所有top-K文档中每个位置作为开始和结尾的概率,结合真实答案位置得到答案预测损失LAE;文档抽取先将文档语义表示dD转换为向量表示rD,然后利用相似度函数、文档向量表示rD和问题向量表示rQ计算文档与问题的相似度,结果归一化,最后结合答案所在文档利用交叉熵损失函数计算文档抽取损失LDE;段落抽取将文档语义表示dD拆分为各个段落的语义表示dP,再将各个段落的语义表示dP依次转换为向量表示rP,然后利用相似度函数、段落向量表示rP和问题向量表示rQ计算段落与问题的相似度,结果归一化,最后结合答案所在段落利用交叉熵损失函数计算段落抽取损失LPE;S04)、联合学习三个损失函数LAE、LDE、LPE的和,学习共享层参数,从而提高答案抽取的准确性。
进一步的,共享层对经过文档检索和段落检索的输入进行编码、匹配和融合的过程为:
编码:
Figure BDA0002474952200000021
Figure BDA0002474952200000022
其中
Figure BDA0002474952200000023
Figure BDA0002474952200000024
分别表示问题和文档的词向量、字向量,
Figure BDA0002474952200000025
分别表示问题和文档的t位置隐状态,
Figure BDA0002474952200000026
分别表示问题和文档的t-1位置隐状态;
匹配和融合:
Figure BDA0002474952200000027
Figure BDA0002474952200000028
其中
Figure BDA0002474952200000029
表示融合了问题信息的文档向量表示,
Figure BDA00024749522000000210
分别表示问题、文档中某个词的隐状态,Wl表示权重矩阵l;
Figure BDA00024749522000000211
Figure BDA00024749522000000212
其中
Figure BDA00024749522000000213
表示融合了文档中其他部分信息的文档向量表示,
Figure BDA00024749522000000214
分别表示文档中两个不同位置的词的表示,Ws表示权重矩阵s。
进一步的,文档抽取的具体过程为:
文档向量表示:
Figure BDA0002474952200000031
Figure BDA0002474952200000032
其中wd表示权重矩阵d,
Figure BDA0002474952200000033
表示文档自对齐后的向量表示;
问题向量表示:
Figure BDA0002474952200000034
Figure BDA0002474952200000035
wq表示权重矩阵,rQ表示问题自对齐后的向量表示;
文档与问题相关性计算:
Figure BDA0002474952200000036
Figure BDA0002474952200000037
Figure BDA0002474952200000038
表示文档与问题的相关性,
Figure BDA0002474952200000039
Figure BDA00024749522000000310
的标准化值,Wqd表示权重矩阵qd;文档抽取损失:
Figure BDA00024749522000000311
K表示文档总个数,
Figure BDA00024749522000000312
表示文档i与问题相关性真实标签。
进一步的,段落抽取的具体过程为:
段落向量表示:
Figure BDA00024749522000000313
Figure BDA0002474952200000041
其中wp表示权重矩阵p,
Figure BDA0002474952200000042
表示段落自对齐后的向量表示,
Figure BDA0002474952200000043
表示段落;
段落与问题相关性计算:
Figure BDA0002474952200000044
Figure BDA0002474952200000045
Figure BDA0002474952200000046
表示段落与问题的相关性,
Figure BDA0002474952200000047
Figure BDA0002474952200000048
的标准化值;
段落抽取损失:
Figure BDA0002474952200000049
其中K表示文档总个数,N表示段落总个数,
Figure BDA00024749522000000410
表示段落ij与问题相关性真实标签。
进一步的,答案抽取的具体过程为:
Figure BDA00024749522000000411
Figure BDA00024749522000000412
表示位置t作为开始和结束位置的概率向量,
Figure BDA00024749522000000413
为上一位置的概率向量,f是人工特征向量;
答案抽取损失:
Figure BDA00024749522000000414
Figure BDA00024749522000000415
分别是向量αt中的两个元素,M表示文档的长度;
Figure BDA0002474952200000051
wa表示权重矩阵a,αt
Figure BDA0002474952200000052
的归一化值,
Figure BDA0002474952200000053
表示位置j作为开始和结束位置的概率向量,Dw表示整个文档;
联合学习与预测:
L=LAE1LDE2LPE (22),
联合文档抽取、段落抽取、答案抽取分数得到最终答案预测分数:
Figure BDA0002474952200000054
Figure BDA0002474952200000055
由公式(21)计算得到。
进一步的,先对文档抽取和段落抽取部分进行训练,然后联合学习三个损失函数LAE、LDE、LPE的和,学习共享层参数。
本发明的有益效果:本发明通过文档检索、段落检索两个模块,我们可以快速的查找到与问题相关度较高文档与段落,通过联合学习三个损失函数LAE、LDE、LPE的和可以更好的学习共享层参数,提高答案抽取的精度。因此,本发明提出的这种联合学习的多文档阅读理解实现方法很好的兼顾了精度与速度的要求。
附图说明
图1为本发明进行文档检索、段落检索的流程图;
图2为本发明进行文档、段落、答案抽取的流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步的说明。
实施例1
本实施例公开一种联合学习的多文档阅读理解实现方法,如图1、2所示,包括以下步骤:
S01)、文档检索
首先使用传统信息检索技术,比如:BM25、TF-IDF等,在元数据上构造问题与文档的相关度特征。除此之外,问题中词语的召回率作为另一个特征,指示相关度。然后,为了学习不同特征的重要性,我们使用排序学习模型来学习不同特征的权重。最后利用该模型对所有的文档进行排序,确定满足与问题相似度要求的前K个文档,即保留top-K文档。
S02)、段落检索
首先利用词或者实体匹配过滤掉噪声段落,结合文档结构构建特征,比如:是否为首段或尾段、段落长度、前一段落或后一段落长度、问题类型等。然后利用机器学习方法,比如XGBoost,学习不同特征的权重,最后根据该模型确定每个文档满足与问题相似度要求的前N个段落,即针对每个文档保留top-N段落。
S03)、文档、段落、答案抽取
本步骤基于一个多任务联合学习的深度网络模型实现,如图2所示,该模型的输入是前面两个步骤处理后的top-K个文档,每个文档包含top-N个段落。本模型包括三个子任务:文档抽取、段落抽取、答案抽取。这三个子任务使用一个共享层,它代表了相对于问题的语义表示。答案抽取子任务用于直接抽取答案,文档抽取子任务、段落抽取子任务是为了更好的抽取答案,帮助学习共享层。
S31)、本实施例中,共享层通过编码、匹配与融合形成了文档相对于问题的语义表示,它是一个矩阵,每一列表示文档中某个词的向量表示
Figure BDA0002474952200000061
下面给出了共享层网络的一种表示方法:
编码层:
Figure BDA0002474952200000062
Figure BDA0002474952200000063
其中
Figure BDA0002474952200000064
Figure BDA0002474952200000065
分别表示问题和文档的词向量、字向量,
Figure BDA0002474952200000066
分别表示问题和文档的t位置隐状态,
Figure BDA0002474952200000067
分别表示问题和文档的t-1位置隐状态;
匹配和融合:
Figure BDA0002474952200000068
Figure BDA0002474952200000069
其中
Figure BDA00024749522000000610
表示融合了问题信息的文档向量表示,
Figure BDA00024749522000000611
分别表示问题、文档中某个词的隐状态,Wl表示权重矩阵l;
Figure BDA00024749522000000612
Figure BDA0002474952200000071
其中
Figure BDA0002474952200000072
表示融合了文档中其他部分信息的文档向量表示,
Figure BDA0002474952200000073
分别表示文档。
S32)、本实施例中,文档抽取子任务先将共享层输出的文档语义表示dD由矩阵表示转换为向量表示rD,然后利用相似度函数、文档向量表示rD和问题向量表示rQ计算文档与问题的相似度,结果归一化,最后结合答案所在文档利用交叉熵损失函数计算文档抽取损失LDE。下面给出了文档抽取子任务的一种计算方法:
文档向量表示:
Figure BDA0002474952200000074
Figure BDA0002474952200000075
其中wd表示权重矩阵d,
Figure BDA0002474952200000076
表示文档自对齐后的向量表示;
问题向量表示:
Figure BDA0002474952200000077
Figure BDA0002474952200000078
wq表示权重矩阵,rQ表示问题自对齐后的向量表示;
文档与问题相关性计算:
Figure BDA0002474952200000079
Figure BDA00024749522000000710
Figure BDA0002474952200000081
表示文档与问题的相关性,
Figure BDA0002474952200000082
Figure BDA0002474952200000083
的标准化值,Wqd表示权重矩阵qd;
文档抽取损失:
Figure BDA0002474952200000084
K表示文档总个数,
Figure BDA0002474952200000085
表示文档i与问题相关性真实标签。
S33)、段落抽取子任务首先需要将共享层输出的文档语义表示dD拆分为各个段落的语义表示dP,依次转换为向量表示rP,然后利用相似度函数、段落向量表示rP和问题向量表示rQ计算段落与问题的相似度,结果归一化,最后结合答案所在段落利用交叉熵损失函数计算段落抽取损失LPE。下面给出段落抽取子任务的一种表示方法。
段落向量表示:
Figure BDA0002474952200000086
Figure BDA0002474952200000087
其中wp表示权重矩阵p,
Figure BDA0002474952200000088
表示段落自对齐后的向量表示,
Figure BDA0002474952200000089
表示段落;
段落与问题相关性计算:
Figure BDA00024749522000000810
Figure BDA00024749522000000811
Figure BDA00024749522000000812
表示段落与问题的相关性,
Figure BDA00024749522000000813
Figure BDA00024749522000000814
的标准化值;
段落抽取损失:
Figure BDA0002474952200000091
其中K表示文档总个数,N表示段落总个数,
Figure BDA0002474952200000092
表示段落ij与问题相关性真实标签。
S34)、答案抽取任务在解码层利用文档的语义表示dD和人工特征f计算出答案在所有top-K文档中每个位置作为开始、结束位置的概率向量
Figure BDA0002474952200000093
结合真实答案位置可以得到答案预测损失LAE
下面给出答案抽取子任务的一种计算方法:
指针网络:
Figure BDA0002474952200000094
Figure BDA0002474952200000095
表示位置t作为开始和结束位置的概率向量,
Figure BDA0002474952200000096
为上一位置的概率向量,f是人工特征向量,比如:该词是否出现在问题中、该词是否是句子分隔符等。
答案抽取损失:
Figure BDA0002474952200000097
Figure BDA0002474952200000098
分别是向量αt中的两个元素,M表示文档的长度;
Figure BDA0002474952200000099
wa表示权重矩阵a,αt
Figure BDA00024749522000000910
的归一化值,
Figure BDA00024749522000000911
表示位置j作为开始和结束位置的概率向量,Dw表示;
S35)、联合学习与预测:
L=LAE1LDE2LPE (22),
联合文档抽取、段落抽取、答案抽取分数得到最终答案预测分数:
Figure BDA0002474952200000101
为了让训练过程平稳,本实施例先对文档抽取和段落抽取部分进行训练,然后联合学习三个损失函数LAE、LDE、LPE的和,学习共享层参数。
阅读理解主要有两步:文档选择和抽取式阅读理解。目前存在的方法,要么采用流水线的方式串联两步,要么联合学习的方法优化这两步。前者一旦文档选择错误,抽取的答案将会出现错误;后者需要联合处理所有的文档,需要占用的计算资源太多。然而,本实施例提出的这种联合学习的阅读理解实现方法是速度与精度进行了折衷,通过配置参数K、N可以很好的兼顾二者。
本实施例通过文档检索、段落检索两个模块,我们可以快速的查找到与问题相关度较高文档与段落,通过联合学习三个损失函数LAE、LDE、LPE的和可以更好的学习共享层参数,提高答案抽取的精度。因此,本发明提出的这种联合学习的多文档阅读理解实现方法很好的兼顾了精度与速度的要求。
以上描述的仅是本发明的基本原理和优选实施例,本领域技术人员根据本发明做出的改进和替换,属于本发明的保护范围。

Claims (6)

1.一种联合学习的多文档阅读理解实现方法,其特征在于:包括以下步骤:S01)、文档检索,确定满足与问题相似度要求的前K个文档,保留top-K文档;S02)、段落检索,确定每个文档满足与问题相似度要求的前N个段落,针对每个文档保留top-N段落;S03)、文档、段落、答案抽取,文档、段落、答案抽取共用共享层,共享层通过编码、匹配、融合形成文档相对于问题的语义表示,该语义表示是一个矩阵,每一列表示文档中某个词的向量表示
Figure FDA0002474952190000011
答案抽取是利用文档的语义表示dD和人工特征f计算出答案在所有top-K文档中每个位置作为开始和结尾的概率,结合真实答案位置得到答案预测损失LAE;文档抽取先将文档语义表示dD转换为向量表示rD,然后利用相似度函数、文档向量表示rD和问题向量表示rQ计算文档与问题的相似度,结果归一化,最后结合答案所在文档利用交叉熵损失函数计算文档抽取损失LDE;段落抽取将文档语义表示dD拆分为各个段落的语义表示dP,再将各个段落的语义表示dP依次转换为向量表示rP,然后利用相似度函数、段落向量表示rP和问题向量表示rQ计算段落与问题的相似度,结果归一化,最后结合答案所在段落利用交叉熵损失函数计算段落抽取损失LPE;S04)、联合学习三个损失函数LAE、LDE、LPE的和,学习共享层参数,从而提高答案抽取的准确性。
2.根据权利要求1所述的联合学习的多文档阅读理解实现方法,其特征在于:共享层对经过文档检索和段落检索的输入文档进行编码、匹配和融合的过程为:编码:
Figure FDA0002474952190000012
Figure FDA0002474952190000013
其中
Figure FDA0002474952190000014
Figure FDA0002474952190000015
分别表示问题和文档的词向量、字向量,
Figure FDA0002474952190000016
Figure FDA0002474952190000017
分别表示问题和文档的位置t的隐状态,
Figure FDA0002474952190000018
分别表示问题和文档的位置t-1的隐状态;
匹配和融合:
Figure FDA0002474952190000019
Figure FDA00024749521900000110
其中
Figure FDA0002474952190000021
表示融合了问题信息的文档向量表示,
Figure FDA0002474952190000022
分别表示问题、文档中某个词的隐状态,Wl表示权重矩阵l;
Figure FDA0002474952190000023
Figure FDA0002474952190000024
其中
Figure FDA0002474952190000025
表示融合了文档中其他部分信息的文档向量表示,
Figure FDA0002474952190000026
分别表示文档中两个不同位置的词的表示,Ws表示权重矩阵s。
3.根据权利要求2所述的联合学习的多文档阅读理解实现方法,其特征在于:文档抽取的具体过程为:
文档向量表示:
Figure FDA0002474952190000027
Figure FDA0002474952190000028
其中wd表示权重矩阵d,
Figure FDA0002474952190000029
表示文档自对齐后的向量表示;
问题向量表示:
Figure FDA00024749521900000210
Figure FDA00024749521900000211
wq表示权重矩阵,rQ表示问题自对齐后的向量表示;
文档与问题相关性计算:
Figure FDA00024749521900000212
Figure FDA0002474952190000031
Figure FDA0002474952190000032
表示文档与问题的相关性,
Figure FDA0002474952190000033
Figure FDA0002474952190000034
的标准化值,Wqd表示权重矩阵qd;
文档抽取损失:
Figure FDA0002474952190000035
K表示文档总个数,
Figure FDA0002474952190000036
表示文档i与问题相关性真实标签。
4.根据权利要求3所述的联合学习的多文档阅读理解实现方法,其特征在于:
段落抽取的具体过程为:
段落向量表示:
Figure FDA0002474952190000037
Figure FDA0002474952190000038
其中wp表示权重矩阵p,
Figure FDA0002474952190000039
表示段落自对齐后的向量表示,
Figure FDA00024749521900000310
表示段落;
段落与问题相关性计算:
Figure FDA00024749521900000311
Figure FDA00024749521900000312
Figure FDA00024749521900000313
表示段落与问题的相关性,
Figure FDA00024749521900000314
Figure FDA00024749521900000315
的标准化值;
段落抽取损失:
Figure FDA00024749521900000316
其中K表示文档总个数,N表示段落总个数,
Figure FDA0002474952190000041
表示段落ij与问题相关性真实标签。
5.根据权利要求4所述的联合学习的多文档阅读理解实现方法,其特征在于:答案抽取的具体过程为:
Figure FDA0002474952190000042
Figure FDA0002474952190000043
表示位置t作为开始和结束位置的概率向量,
Figure FDA0002474952190000044
为上一位置的概率向量,f是人工特征向量;
答案抽取损失:
Figure FDA0002474952190000045
Figure FDA0002474952190000046
分别是向量αt中的两个元素,M表示文档的长度;
Figure FDA0002474952190000047
wa表示权重矩阵a,αt
Figure FDA0002474952190000048
的归一化值,
Figure FDA0002474952190000049
表示位置j作为开始和结束位置的概率向量,Dw表示整个文档;
联合学习与预测:
L=LAE1LDE2LPE (22),
联合文档抽取、段落抽取、答案抽取分数得到最终答案预测分数:
Figure FDA00024749521900000410
Figure FDA00024749521900000411
由公式21计算得到。
6.根据权利要求1所述的联合学习的多文档阅读理解实现方法,其特征在于:先对文档抽取和段落抽取部分进行训练,然后联合学习三个损失函数LAE、LDE、LPE的和,学习共享层参数。
CN202010370071.6A 2020-04-30 2020-04-30 一种联合学习的多文档阅读理解实现方法 Pending CN111563378A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010370071.6A CN111563378A (zh) 2020-04-30 2020-04-30 一种联合学习的多文档阅读理解实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010370071.6A CN111563378A (zh) 2020-04-30 2020-04-30 一种联合学习的多文档阅读理解实现方法

Publications (1)

Publication Number Publication Date
CN111563378A true CN111563378A (zh) 2020-08-21

Family

ID=72067995

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010370071.6A Pending CN111563378A (zh) 2020-04-30 2020-04-30 一种联合学习的多文档阅读理解实现方法

Country Status (1)

Country Link
CN (1) CN111563378A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434536A (zh) * 2020-11-06 2021-03-02 合肥讯飞数码科技有限公司 文档理解方法、设备和存储介质
CN113836893A (zh) * 2021-09-14 2021-12-24 北京理工大学 一种融入多个段落信息的抽取式机器阅读理解方法
CN115269807A (zh) * 2022-08-17 2022-11-01 北京中科深智科技有限公司 一种基于问题类型识别的问答对联合生成模型

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832295A (zh) * 2017-11-08 2018-03-23 山西大学 阅读机器人的标题选择方法及系统
CN109255012A (zh) * 2018-07-23 2019-01-22 深思考人工智能机器人科技(北京)有限公司 一种机器阅读理解的实现方法以及装置
CN109885672A (zh) * 2019-03-04 2019-06-14 中国科学院软件研究所 一种面向在线教育的问答式智能检索系统及方法
CN110334184A (zh) * 2019-07-04 2019-10-15 河海大学常州校区 基于机器阅读理解的智能问答系统
CN110543631A (zh) * 2019-08-23 2019-12-06 上海深芯智能科技有限公司 机器阅读理解的实现方法、装置、存储介质及电子设备
CN110647629A (zh) * 2019-09-20 2020-01-03 北京理工大学 一种多粒度答案排序的多文档机器阅读理解方法
CN110929006A (zh) * 2019-10-29 2020-03-27 中科能效(北京)科技有限公司 一种数据型问答系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832295A (zh) * 2017-11-08 2018-03-23 山西大学 阅读机器人的标题选择方法及系统
CN109255012A (zh) * 2018-07-23 2019-01-22 深思考人工智能机器人科技(北京)有限公司 一种机器阅读理解的实现方法以及装置
CN109885672A (zh) * 2019-03-04 2019-06-14 中国科学院软件研究所 一种面向在线教育的问答式智能检索系统及方法
CN110334184A (zh) * 2019-07-04 2019-10-15 河海大学常州校区 基于机器阅读理解的智能问答系统
CN110543631A (zh) * 2019-08-23 2019-12-06 上海深芯智能科技有限公司 机器阅读理解的实现方法、装置、存储介质及电子设备
CN110647629A (zh) * 2019-09-20 2020-01-03 北京理工大学 一种多粒度答案排序的多文档机器阅读理解方法
CN110929006A (zh) * 2019-10-29 2020-03-27 中科能效(北京)科技有限公司 一种数据型问答系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434536A (zh) * 2020-11-06 2021-03-02 合肥讯飞数码科技有限公司 文档理解方法、设备和存储介质
CN113836893A (zh) * 2021-09-14 2021-12-24 北京理工大学 一种融入多个段落信息的抽取式机器阅读理解方法
CN115269807A (zh) * 2022-08-17 2022-11-01 北京中科深智科技有限公司 一种基于问题类型识别的问答对联合生成模型
CN115269807B (zh) * 2022-08-17 2023-06-30 北京中科深智科技有限公司 一种基于问题类型识别的问答对联合生成模型

Similar Documents

Publication Publication Date Title
CN114020862B (zh) 一种面向煤矿安全规程的检索式智能问答系统及方法
CN111985239A (zh) 实体识别方法、装置、电子设备及存储介质
CN113239169B (zh) 基于人工智能的回答生成方法、装置、设备及存储介质
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
CN111563378A (zh) 一种联合学习的多文档阅读理解实现方法
CN111666376B (zh) 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置
CN114428850B (zh) 一种文本检索匹配方法和系统
CN114328807A (zh) 一种文本处理方法、装置、设备及存储介质
CN112349294B (zh) 语音处理方法及装置、计算机可读介质、电子设备
CN114691864A (zh) 文本分类模型训练方法及装置、文本分类方法及装置
CN113111663A (zh) 一种融合关键信息的摘要生成方法
CN113392265A (zh) 多媒体处理方法、装置及设备
CN113505198A (zh) 关键词驱动的生成式对话回复方法、装置及电子设备
CN113704434A (zh) 知识库问答方法、电子设备及可读存储介质
CN111145914A (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN113051904B (zh) 一种面向小规模知识图谱的链接预测方法
CN117195892B (zh) 一种基于大数据的课堂教学评测方法及系统
CN113934835A (zh) 结合关键词和语义理解表征的检索式回复对话方法及系统
CN116955579B (zh) 一种基于关键词知识检索的聊天回复生成方法和装置
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN117437461A (zh) 一种面向开放世界的图像描述生成方法
CN116910251A (zh) 基于bert模型的文本分类方法、装置、设备及介质
CN116432755A (zh) 一种基于动态实体原型的权重网络推理方法
CN115081445A (zh) 一种基于多任务学习的短文本实体消歧方法
CN116150353A (zh) 意图特征提取模型训练方法、意图识别方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200821