CN111563378A - 一种联合学习的多文档阅读理解实现方法 - Google Patents
一种联合学习的多文档阅读理解实现方法 Download PDFInfo
- Publication number
- CN111563378A CN111563378A CN202010370071.6A CN202010370071A CN111563378A CN 111563378 A CN111563378 A CN 111563378A CN 202010370071 A CN202010370071 A CN 202010370071A CN 111563378 A CN111563378 A CN 111563378A
- Authority
- CN
- China
- Prior art keywords
- document
- paragraph
- extraction
- representing
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000000605 extraction Methods 0.000 claims abstract description 65
- 230000006870 function Effects 0.000 claims abstract description 17
- 239000013598 vector Substances 0.000 claims description 67
- 239000011159 matrix material Substances 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 2
- 235000019580 granularity Nutrition 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000013549 information retrieval technique Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种联合学习的多文档阅读理解实现方法,本方法首先通过文档检索、段落检索可以快速的查找到与问题相关度较高文档与段落,然后进行答案、文档、段落抽取,并联合学习三个子任务的损失函数LAE、LDE、LPE的和,可以更好的学习共享层参数,提高答案抽取的精度。因此,本发明提出的这种联合学习的多文档阅读理解实现方法很好的兼顾了精度与速度的要求。
Description
技术领域
本发明涉及一种联合学习的多文档阅读理解实现方法,属于自然语言处理领域。
背景技术
阅读理解指的是:给定一个问题,机器通过处理分析大量文档,最终直接得到答案。该项技术不仅可以解决搜索引擎最后一公里的问题,不再需要返回许多链接,让人们自己分析,而是直接返回正确链接或者答案,而且可以促使智能问答、人机对话等技术更加强大。
近年来,阅读理解技术迅速发展。得益于评测数据集的日益成熟,许多单段落阅读理解模型的性能已经超越人类水平。但实际场景需要从许多长文档中寻找答案,不仅需要较高精度,还需要兼顾速度与效率。
专利《阅读理解方法及装置》针对长答案文本和短答案文本分别训练模型并进行预测来提高抽取答案的精度。专利《一种基于注意力池化机制的阅读理解方法》在通用阅读理解框架的基础上提出了注意力池化机制,引入局部注意力来提高抽取答案的精度。专利《基于多任务联合训练的机器阅读理解方法及计算机存储介质》提出通过联合学习答案位置和问题类型两个任务、平均多个模型结果来提高抽取答案精度。以上专利都是旨在提高答案抽取模型的精度。专利《一种机器阅读理解的实现方法以及装置》和《一种针对复杂数据的机器阅读理解方法》都是通过构建流水线的方式,先筛选相关段落,后进行答案抽取,但是他们过于依赖前者,容易遗漏包含正确答案的文档或者段落。专利《一种多粒度答案排序的多文档机器阅读理解方法》提出了通过滑动窗口的方法从多个文档中抽取候选答案,然后利用不同粒度的语义信息排序选择答案。由于该方法需要答案抽取模型处理所有的文档,因此消耗的计算资源很大,不太实用。
发明内容
本发明要解决的技术问题是提供一种联合学习的多文档阅读理解实现方法,本方法由粗到精联合学习,在通过联合学习方法尽量满足模型精度前提下,充分考虑到速度与效率,以便于技术落地。
为了解决所述技术问题,本发明采用的技术方案是:一种联合学习的多文档阅读理解实现方法,包括以下步骤:S01)、文档检索,确定满足与问题相似度要求的前K个文档,即保留top-K文档;S02)、段落检索,确定每个文档满足与问题相似度要求的前N个段落,即针对每个文档保留top-N段落;S03)、文档、段落、答案抽取,文档、段落、答案抽取共用共享层,共享层通过编码、匹配、融合形成文档相对于问题的语义表示,该语义表示是一个矩阵,每一列表示文档中某个词的向量表示答案抽取是利用文档的语义表示dD和人工特征f计算出答案在所有top-K文档中每个位置作为开始和结尾的概率,结合真实答案位置得到答案预测损失LAE;文档抽取先将文档语义表示dD转换为向量表示rD,然后利用相似度函数、文档向量表示rD和问题向量表示rQ计算文档与问题的相似度,结果归一化,最后结合答案所在文档利用交叉熵损失函数计算文档抽取损失LDE;段落抽取将文档语义表示dD拆分为各个段落的语义表示dP,再将各个段落的语义表示dP依次转换为向量表示rP,然后利用相似度函数、段落向量表示rP和问题向量表示rQ计算段落与问题的相似度,结果归一化,最后结合答案所在段落利用交叉熵损失函数计算段落抽取损失LPE;S04)、联合学习三个损失函数LAE、LDE、LPE的和,学习共享层参数,从而提高答案抽取的准确性。
进一步的,共享层对经过文档检索和段落检索的输入进行编码、匹配和融合的过程为:
进一步的,文档抽取的具体过程为:
问题向量表示:
wq表示权重矩阵,rQ表示问题自对齐后的向量表示;
文档与问题相关性计算:
进一步的,段落抽取的具体过程为:
段落向量表示:
段落与问题相关性计算:
段落抽取损失:
进一步的,答案抽取的具体过程为:
答案抽取损失:
联合学习与预测:
L=LAE+λ1LDE+λ2LPE (22),
联合文档抽取、段落抽取、答案抽取分数得到最终答案预测分数:
进一步的,先对文档抽取和段落抽取部分进行训练,然后联合学习三个损失函数LAE、LDE、LPE的和,学习共享层参数。
本发明的有益效果:本发明通过文档检索、段落检索两个模块,我们可以快速的查找到与问题相关度较高文档与段落,通过联合学习三个损失函数LAE、LDE、LPE的和可以更好的学习共享层参数,提高答案抽取的精度。因此,本发明提出的这种联合学习的多文档阅读理解实现方法很好的兼顾了精度与速度的要求。
附图说明
图1为本发明进行文档检索、段落检索的流程图;
图2为本发明进行文档、段落、答案抽取的流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步的说明。
实施例1
本实施例公开一种联合学习的多文档阅读理解实现方法,如图1、2所示,包括以下步骤:
S01)、文档检索
首先使用传统信息检索技术,比如:BM25、TF-IDF等,在元数据上构造问题与文档的相关度特征。除此之外,问题中词语的召回率作为另一个特征,指示相关度。然后,为了学习不同特征的重要性,我们使用排序学习模型来学习不同特征的权重。最后利用该模型对所有的文档进行排序,确定满足与问题相似度要求的前K个文档,即保留top-K文档。
S02)、段落检索
首先利用词或者实体匹配过滤掉噪声段落,结合文档结构构建特征,比如:是否为首段或尾段、段落长度、前一段落或后一段落长度、问题类型等。然后利用机器学习方法,比如XGBoost,学习不同特征的权重,最后根据该模型确定每个文档满足与问题相似度要求的前N个段落,即针对每个文档保留top-N段落。
S03)、文档、段落、答案抽取
本步骤基于一个多任务联合学习的深度网络模型实现,如图2所示,该模型的输入是前面两个步骤处理后的top-K个文档,每个文档包含top-N个段落。本模型包括三个子任务:文档抽取、段落抽取、答案抽取。这三个子任务使用一个共享层,它代表了相对于问题的语义表示。答案抽取子任务用于直接抽取答案,文档抽取子任务、段落抽取子任务是为了更好的抽取答案,帮助学习共享层。
编码层:
匹配和融合:
S32)、本实施例中,文档抽取子任务先将共享层输出的文档语义表示dD由矩阵表示转换为向量表示rD,然后利用相似度函数、文档向量表示rD和问题向量表示rQ计算文档与问题的相似度,结果归一化,最后结合答案所在文档利用交叉熵损失函数计算文档抽取损失LDE。下面给出了文档抽取子任务的一种计算方法:
文档向量表示:
问题向量表示:
wq表示权重矩阵,rQ表示问题自对齐后的向量表示;
文档与问题相关性计算:
文档抽取损失:
S33)、段落抽取子任务首先需要将共享层输出的文档语义表示dD拆分为各个段落的语义表示dP,依次转换为向量表示rP,然后利用相似度函数、段落向量表示rP和问题向量表示rQ计算段落与问题的相似度,结果归一化,最后结合答案所在段落利用交叉熵损失函数计算段落抽取损失LPE。下面给出段落抽取子任务的一种表示方法。
段落向量表示:
段落与问题相关性计算:
段落抽取损失:
下面给出答案抽取子任务的一种计算方法:
指针网络:
答案抽取损失:
S35)、联合学习与预测:
L=LAE+λ1LDE+λ2LPE (22),
联合文档抽取、段落抽取、答案抽取分数得到最终答案预测分数:
为了让训练过程平稳,本实施例先对文档抽取和段落抽取部分进行训练,然后联合学习三个损失函数LAE、LDE、LPE的和,学习共享层参数。
阅读理解主要有两步:文档选择和抽取式阅读理解。目前存在的方法,要么采用流水线的方式串联两步,要么联合学习的方法优化这两步。前者一旦文档选择错误,抽取的答案将会出现错误;后者需要联合处理所有的文档,需要占用的计算资源太多。然而,本实施例提出的这种联合学习的阅读理解实现方法是速度与精度进行了折衷,通过配置参数K、N可以很好的兼顾二者。
本实施例通过文档检索、段落检索两个模块,我们可以快速的查找到与问题相关度较高文档与段落,通过联合学习三个损失函数LAE、LDE、LPE的和可以更好的学习共享层参数,提高答案抽取的精度。因此,本发明提出的这种联合学习的多文档阅读理解实现方法很好的兼顾了精度与速度的要求。
以上描述的仅是本发明的基本原理和优选实施例,本领域技术人员根据本发明做出的改进和替换,属于本发明的保护范围。
Claims (6)
1.一种联合学习的多文档阅读理解实现方法,其特征在于:包括以下步骤:S01)、文档检索,确定满足与问题相似度要求的前K个文档,保留top-K文档;S02)、段落检索,确定每个文档满足与问题相似度要求的前N个段落,针对每个文档保留top-N段落;S03)、文档、段落、答案抽取,文档、段落、答案抽取共用共享层,共享层通过编码、匹配、融合形成文档相对于问题的语义表示,该语义表示是一个矩阵,每一列表示文档中某个词的向量表示答案抽取是利用文档的语义表示dD和人工特征f计算出答案在所有top-K文档中每个位置作为开始和结尾的概率,结合真实答案位置得到答案预测损失LAE;文档抽取先将文档语义表示dD转换为向量表示rD,然后利用相似度函数、文档向量表示rD和问题向量表示rQ计算文档与问题的相似度,结果归一化,最后结合答案所在文档利用交叉熵损失函数计算文档抽取损失LDE;段落抽取将文档语义表示dD拆分为各个段落的语义表示dP,再将各个段落的语义表示dP依次转换为向量表示rP,然后利用相似度函数、段落向量表示rP和问题向量表示rQ计算段落与问题的相似度,结果归一化,最后结合答案所在段落利用交叉熵损失函数计算段落抽取损失LPE;S04)、联合学习三个损失函数LAE、LDE、LPE的和,学习共享层参数,从而提高答案抽取的准确性。
6.根据权利要求1所述的联合学习的多文档阅读理解实现方法,其特征在于:先对文档抽取和段落抽取部分进行训练,然后联合学习三个损失函数LAE、LDE、LPE的和,学习共享层参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010370071.6A CN111563378A (zh) | 2020-04-30 | 2020-04-30 | 一种联合学习的多文档阅读理解实现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010370071.6A CN111563378A (zh) | 2020-04-30 | 2020-04-30 | 一种联合学习的多文档阅读理解实现方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111563378A true CN111563378A (zh) | 2020-08-21 |
Family
ID=72067995
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010370071.6A Pending CN111563378A (zh) | 2020-04-30 | 2020-04-30 | 一种联合学习的多文档阅读理解实现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111563378A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112434536A (zh) * | 2020-11-06 | 2021-03-02 | 合肥讯飞数码科技有限公司 | 文档理解方法、设备和存储介质 |
CN113836893A (zh) * | 2021-09-14 | 2021-12-24 | 北京理工大学 | 一种融入多个段落信息的抽取式机器阅读理解方法 |
CN115269807A (zh) * | 2022-08-17 | 2022-11-01 | 北京中科深智科技有限公司 | 一种基于问题类型识别的问答对联合生成模型 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107832295A (zh) * | 2017-11-08 | 2018-03-23 | 山西大学 | 阅读机器人的标题选择方法及系统 |
CN109255012A (zh) * | 2018-07-23 | 2019-01-22 | 深思考人工智能机器人科技(北京)有限公司 | 一种机器阅读理解的实现方法以及装置 |
CN109885672A (zh) * | 2019-03-04 | 2019-06-14 | 中国科学院软件研究所 | 一种面向在线教育的问答式智能检索系统及方法 |
CN110334184A (zh) * | 2019-07-04 | 2019-10-15 | 河海大学常州校区 | 基于机器阅读理解的智能问答系统 |
CN110543631A (zh) * | 2019-08-23 | 2019-12-06 | 上海深芯智能科技有限公司 | 机器阅读理解的实现方法、装置、存储介质及电子设备 |
CN110647629A (zh) * | 2019-09-20 | 2020-01-03 | 北京理工大学 | 一种多粒度答案排序的多文档机器阅读理解方法 |
CN110929006A (zh) * | 2019-10-29 | 2020-03-27 | 中科能效(北京)科技有限公司 | 一种数据型问答系统 |
-
2020
- 2020-04-30 CN CN202010370071.6A patent/CN111563378A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107832295A (zh) * | 2017-11-08 | 2018-03-23 | 山西大学 | 阅读机器人的标题选择方法及系统 |
CN109255012A (zh) * | 2018-07-23 | 2019-01-22 | 深思考人工智能机器人科技(北京)有限公司 | 一种机器阅读理解的实现方法以及装置 |
CN109885672A (zh) * | 2019-03-04 | 2019-06-14 | 中国科学院软件研究所 | 一种面向在线教育的问答式智能检索系统及方法 |
CN110334184A (zh) * | 2019-07-04 | 2019-10-15 | 河海大学常州校区 | 基于机器阅读理解的智能问答系统 |
CN110543631A (zh) * | 2019-08-23 | 2019-12-06 | 上海深芯智能科技有限公司 | 机器阅读理解的实现方法、装置、存储介质及电子设备 |
CN110647629A (zh) * | 2019-09-20 | 2020-01-03 | 北京理工大学 | 一种多粒度答案排序的多文档机器阅读理解方法 |
CN110929006A (zh) * | 2019-10-29 | 2020-03-27 | 中科能效(北京)科技有限公司 | 一种数据型问答系统 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112434536A (zh) * | 2020-11-06 | 2021-03-02 | 合肥讯飞数码科技有限公司 | 文档理解方法、设备和存储介质 |
CN113836893A (zh) * | 2021-09-14 | 2021-12-24 | 北京理工大学 | 一种融入多个段落信息的抽取式机器阅读理解方法 |
CN115269807A (zh) * | 2022-08-17 | 2022-11-01 | 北京中科深智科技有限公司 | 一种基于问题类型识别的问答对联合生成模型 |
CN115269807B (zh) * | 2022-08-17 | 2023-06-30 | 北京中科深智科技有限公司 | 一种基于问题类型识别的问答对联合生成模型 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114020862B (zh) | 一种面向煤矿安全规程的检索式智能问答系统及方法 | |
CN111985239A (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN113239169B (zh) | 基于人工智能的回答生成方法、装置、设备及存储介质 | |
CN111159485B (zh) | 尾实体链接方法、装置、服务器及存储介质 | |
CN111563378A (zh) | 一种联合学习的多文档阅读理解实现方法 | |
CN111666376B (zh) | 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置 | |
CN114428850B (zh) | 一种文本检索匹配方法和系统 | |
CN114328807A (zh) | 一种文本处理方法、装置、设备及存储介质 | |
CN112349294B (zh) | 语音处理方法及装置、计算机可读介质、电子设备 | |
CN114691864A (zh) | 文本分类模型训练方法及装置、文本分类方法及装置 | |
CN113111663A (zh) | 一种融合关键信息的摘要生成方法 | |
CN113392265A (zh) | 多媒体处理方法、装置及设备 | |
CN113505198A (zh) | 关键词驱动的生成式对话回复方法、装置及电子设备 | |
CN113704434A (zh) | 知识库问答方法、电子设备及可读存储介质 | |
CN111145914A (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN113051904B (zh) | 一种面向小规模知识图谱的链接预测方法 | |
CN117195892B (zh) | 一种基于大数据的课堂教学评测方法及系统 | |
CN113934835A (zh) | 结合关键词和语义理解表征的检索式回复对话方法及系统 | |
CN116955579B (zh) | 一种基于关键词知识检索的聊天回复生成方法和装置 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN117437461A (zh) | 一种面向开放世界的图像描述生成方法 | |
CN116910251A (zh) | 基于bert模型的文本分类方法、装置、设备及介质 | |
CN116432755A (zh) | 一种基于动态实体原型的权重网络推理方法 | |
CN115081445A (zh) | 一种基于多任务学习的短文本实体消歧方法 | |
CN116150353A (zh) | 意图特征提取模型训练方法、意图识别方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200821 |