CN111858857A - 一种跨文档长文本的分层融合阅读理解方法及系统 - Google Patents

一种跨文档长文本的分层融合阅读理解方法及系统 Download PDF

Info

Publication number
CN111858857A
CN111858857A CN202010765021.8A CN202010765021A CN111858857A CN 111858857 A CN111858857 A CN 111858857A CN 202010765021 A CN202010765021 A CN 202010765021A CN 111858857 A CN111858857 A CN 111858857A
Authority
CN
China
Prior art keywords
document
representation
question
reasoning
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010765021.8A
Other languages
English (en)
Other versions
CN111858857B (zh
Inventor
庞文君
杨猛
许红波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qianhai Qibao Technology Shenzhen Co ltd
Original Assignee
Qianhai Qibao Technology Shenzhen Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qianhai Qibao Technology Shenzhen Co ltd filed Critical Qianhai Qibao Technology Shenzhen Co ltd
Priority to CN202010765021.8A priority Critical patent/CN111858857B/zh
Publication of CN111858857A publication Critical patent/CN111858857A/zh
Application granted granted Critical
Publication of CN111858857B publication Critical patent/CN111858857B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及本发明公开一种跨文档长文本的分层融合阅读理解方法及系统,该阅读理解系统包括:问题与多文档的编码、基于注意力的联合增广表示、多步推理与多文档抽取、多文档长文本答案抽取多步融合、以及问题分类等多任务学习模块。本发明通过深度预训练的联合增广表示,对问题与文档进行编码与信息融合,使用多步推理机制对文档抽取与融合,能够解决跨文档长文本的信息离散化问题,提升多文档阅读理解的推理能力。

Description

一种跨文档长文本的分层融合阅读理解方法及系统
技术领域
本发明涉及自然语言文本分类处理领域,尤其涉及一种跨文档长文本的分层融合阅读理解方法及系统。
背景技术
随着信息技术的发展,信息爆发式的增长,对信息的整合与归纳提出了更高的要求。在人机交互场景中,从检索到推理、从单文档到多文档、从单答案到多答案融合,面临场景更加复杂,机器的阅读理解能力是体现人机智能化的重要标准,也成为研究的热点。
机器阅读理解旨在计算机如同人类一样,具备阅读由自然语言组成的材料,并对提出的问题能够进行推理回答的能力。在信息化高度发达的今天,具有重要的科研价值和工业实用价值。
近几年,机器阅读理解有了突破性的进展,在部分数据集上,甚至超越了人类的性能,但大多数都是基于篇章的文档的片段式局部词句匹配,并非基于对文档的推理与语义理解。同时,文档上也多仅限于单文档,不能解决离散化的多文档,答案局限于单片段,多片段的答案预测还是面临居多难题,满足不了现实中的人机交互场景。
现有技术主要存在以下问题:
(1)机器阅读理解中,很多相关方法仅限于单篇章的片段式抽取,处理多文档时面临信息表示分散导致抽取困难,信息表示上没有结合问题和篇章材料的权重信息,模型表示学习能力差;
(2)在模型学习过程中,现行的方法中能回答的问题偏简单,答案过于显式,模型不具备多步推理能力;
(3)在基于材料回答问题时,主流的方案多限于单答案直接抽取,不能很好的解决多文档答案的融合,性能差。
因此,现有技术存在问题,需要进一步改进。
发明内容
本发明正是针对上述问题,提出一种跨文档长文本的分层融合阅读理解方法及系统。本发明提出了跨文档长文本的分层融合阅读技术,让模型具备跨文档长文本的学习表示的能力以及多步推理、多步答案融合的能力,解决机器阅读中现行方法中几大核心难点问题。
为实现上述目的,本发明的具体技术方案如下:
一种跨文档长文本的分层融合阅读理解方法,包括步骤:
S1、通过问题、文档、问题类别编码模块分别对问题、文档、问题类别进行编码,得到对应问题表示、文档表示,其中所述文档表示包含问题关联信息;
S2、通过多步推理与多文档抽取模块,对问题表示、文档表示基于自注意力机制得到问题整合向量、文档整合向量,经多步推理得到问题关联的文档和段落分数的抽取表示;
S3、通过多文档长文本答案抽取多步融合模块,从文档和段落分数的抽取表示中经多步推理融合出一个最优的答案作为最终结果。
优选地,步骤S1中所述问题类别经由问题分类模块如下表示:
输入的问题类别c,先将其表示成维度为nc的One-hot向量,通过随机赋值的嵌入矩阵得到问题类别的嵌入表示:
cQ=Wcc,
其中Wc为可训练学习的嵌入矩阵。
优选地,步骤S1中所述问题、文档、问题类别编码模块采用如下方法获得问题整合向量、文档整合向量:
(1)将多文档D按照段落划分,例如有N个文档,每个文档包含M个段落P,多文档Di=[Pi1,Pi2,Λ,Pim],每个段落长度为lp,多文档表示成一个N×M×lp的文本序列;问题为Q,长度lQ
(2)多文档和问题分别采用了最新的roberta预训练语言模型,能根据下游任务进行微调,表示如下:
Figure BDA0002613390980000031
uQ=roberta(wQ)。
(3)计算文档和问题的关联表示:采用基于注意力的联合增广表示,该表示在计算注意力权重时,从文档中的词和问题中的词计算:
Figure BDA0002613390980000032
其中,Wl为线性变换矩阵,
Figure BDA0002613390980000033
表示多文档的中i文档的第j个词,
Figure BDA0002613390980000034
表示问题的第k个词,然后加权求和的方式的得到文档的问题关联表示:
Figure BDA0002613390980000035
(4)为了使两者结合,采用Fusion方法计算,并做了多种变换,体现两种表示之间的共性与差异性,计算方法如下:
Figure BDA0002613390980000036
经过编码模块分别得到了问题、文档以及问题的类别的表示:
Figure BDA0002613390980000037
优选地,步骤S2中,所述通过多步推理与多文档抽取模块,对问题向量、文档向量基于自注意力机制得到问题整合向量、文档整合向量,具体方法如下:
对步骤S1中文档表示、问题表示,做自注意力计算,得到自注意力整合向量表示,其中,文档整合向量为:
Figure BDA0002613390980000038
通过上面的方法利用问题表示uQ得到问题自注意力表示
Figure BDA0002613390980000041
结合问题类别表示cQ,两者拼接得到问题整合向量rQ,即:
Figure BDA0002613390980000042
进一步地,步骤S2中,所述经多步推理得到问题关联的文档和段落分数的抽取表示的具体方法如下:
(1)采用门控制单元单向的GRU网络,每一步推理都有文档整合向量rD作为固定参照,问题的整合向量rQ为推理的初始状态,推理步骤如下,以第t步推理为例:
Figure BDA0002613390980000043
上述将问题的rQ作为GRU的网络的初始隐含状态量,即h0=rQ,Wqd为计算推理的隐含状态量与文档向量之间的相似度的双线性参数矩阵,得文档整合向量rD作为输入;
(2)重复以上推理模块,隐含状态量ht不断更新,每一步都结合上一层的隐含状态量对文档重新打分,经过T步推理后,得到最后文档的分数:
Figure BDA0002613390980000044
(3)按照步骤(1)(2)对每个文档的段落进行多步推理,N个文档进行N次推理,每次推理步数为T步,得到段落分数
Figure BDA0002613390980000045
表示第i个文档的第j个段落分数。
进一步地,在所述经多步推理得到问题关联的文档和段落分数的抽取表示中,多步推理涉及的模型定义如下损失,用以调整预测与实际文档及段落的差异:
Figure BDA0002613390980000046
Figure BDA0002613390980000047
其中,LD表示文档抽取损失,LP表示段落级别的损失,整体模型训练时将加入到联合损失中。
优选地,步骤S3的具体实现方法如下:
(1)向量的整合:将问题类别表示cQ、问题自注意力表示
Figure BDA0002613390980000051
文档级别和段落级别的抽取表示向量rD、rP,采用拼接方式整合:
Figure BDA0002613390980000052
(2)将zQ输入到指针网络的编码模块,指针网络的编码模块为单层的BiLSTM,对所有的抽取文档进行编码,如下所示:
Figure BDA0002613390980000053
(3)通过指针解码模块,采用非线性的缩放点击自注意力结构作为指针网络来解码,预测文档抽取模块中的答案起始位置概率,计算方式如下:
Figure BDA0002613390980000054
Figure BDA0002613390980000055
其中Ws1,Ws2,We1,We2为可学习的参数,d为输入表示的维度;
(4)在答案融合模块中,决定答案起始位置没有采用最后的步长输出作为最终起始计算,这里采用最后M步作为输出,采用g0=rQ作为初始状态,[zQ,rQ]作为输入,逐级输出隐藏状态、逐层融合,这里每一组都有一对起始位置,最后对M组取平均值。
Figure BDA0002613390980000056
Figure BDA0002613390980000057
进一步地,所述步骤S3中,训练过程中为增加鲁棒性,通过dropout层随机输出起始位置对的个数,这里dropout对所有的开始和起始位置都成对的选择丢失,得到Pstart,Pend
进一步地,所述步骤S3中,计算答案的损失函数:
Figure BDA0002613390980000061
ys和ye为真实答案的实际开始和结束位置。
将LD,LP,LS三个损失组合成联合损失函数L,进行联合训练学习,其中λ1,λ2,λ3为可调节的超参数;
L=λ1LD2LP3LS
联合学习时,通过调整模型参数λ1,λ2,λ3至L收敛。
本发明还提供一种跨文档长文本的分层融合阅读理解系统,包括:问题分类模块,问题、文档、问题类别编码模块,多步推理与多文档抽取模块,多文档长文本答案抽取多步融合模块;
通过问题分类模块,将问题类别进行嵌入表示;
通过编码模块分别对问题、文档、问题类别进行编码,得到对应问题向量、文档向量,其中所述文档向量包含问题关联信息;
通过多步推理与多文档抽取模块,对问题向量、文档向量基于自注意力机制得到问题整合向量、文档整合向量,经多步推理得到问题关联的文档和段落分数的抽取表示;
通过多文档长文本答案抽取多步融合模块,从文档和段落分数的抽取表示进一步融合出一个最优的答案作为最终结果。
本发明设计了分层次多步推理融合模型,实现基于注意力的联合增广表示,解决了多文档信息表示分散的问题,丰富了跨文档长文本的信息表示;实现了多步推理机制,让模型具备反复推理的能力;设计了多文档长文本的多步答案融合模型,解决信息分散的答案预测问题。该模型属于端到端的模型,在实际工业界应用场景中具备很强的适用性,尤其面临现今碎片化的信息内容,该技术能大大减少信息理解的成本。
本发明可以提高人机交互领域中的机器阅读理解能力,尤其需要具备推理、面临多文档长文本的场景,提升人机交互能力。
附图说明
图1为本发明跨文档长文本的分层融合阅读理解方法的流程图;
图2为本发明跨文档长文本的分层融合阅读理解系统的架构图;
图3为本发明中文档、问题、问题类别编码模块的原理图;
图4为本发明中多步推理与多文档抽取融合模块的原理图;
图5为本发明中多文档长文本答案抽取多步融合模块的原理图。
具体实施方式
为了便于本领域的普通技术人员能够理解并实施本发明,下面将结合附图对本发明实施例作进一步说明。
参考图1至图5,本发明提供一种跨文档长文本的分层融合阅读理解方法,包括步骤:
S1、通过问题、文档、问题类别编码模块分别对问题、文档、问题类别进行编码,得到对应问题表示、文档表示,其中所述文档表示包含问题关联信息;
S2、通过多步推理与多文档抽取模块,对问题表示、文档表示基于自注意力机制得到问题整合向量、文档整合向量,经多步推理得到问题关联的文档和段落分数的抽取表示;
S3、通过多文档长文本答案抽取多步融合模块,从文档和段落分数的抽取表示中经多步推理融合出一个最优的答案作为最终结果。
参考图3,步骤S1中,所述问题类别经由问题分类模块如下表示:
输入的问题类别c,先将其表示成维度为nc的One-hot向量,通过随机赋值的嵌入矩阵得到问题类别的嵌入表示:
cQ=Wcc,
其中Wc为可训练学习的嵌入矩阵。
步骤S1中,所述问题、文档、问题类别编码模块采用如下方法获得问题整合向量、文档整合向量:
(1)将多文档D按照段落划分,例如有N个文档,每个文档包含M个段落P,多文档Di=[Pi1,Pi2,Λ,Pim],每个段落长度为lp,多文档表示成一个N×M×lp的文本序列;问题为Q,长度lQ
(2)多文档和问题分别采用了最新的roberta预训练语言模型,能根据下游任务进行微调,表示如下:
Figure BDA0002613390980000081
Figure BDA0002613390980000082
(3)计算文档和问题的关联表示:采用基于注意力的联合增广表示,该表示在计算注意力权重时,从文档中的词和问题中的词计算:
Figure BDA0002613390980000083
其中,Wl为线性变换矩阵,
Figure BDA0002613390980000084
表示多文档的中i文档的第j个词,
Figure BDA0002613390980000085
表示问题的第k个词,然后加权求和的方式的得到文档的问题关联表示:
Figure BDA0002613390980000086
(4)为了使两者结合,采用Fusion方法计算,并做了多种变换,体现两种表示之间的共性与差异性,计算方法如下:
Figure BDA0002613390980000091
经过编码模块分别得到了问题、文档以及问题的类别的表示:
Figure BDA0002613390980000092
参考图4,步骤S2中,采用多步推理与多文档抽取模块,该主要结合前面的问题表示,从多文档的表示中,逐步推理出与答案最相关的文档和段落。如同人类思考推理问题的过程,采用多步推理的机制对文档打分。
对于文档和问题,分别对步骤S1得到的文档表示和问题表示,做如下自注意力计算,得到自注意力整合向量表示,以文档为例。
Figure BDA0002613390980000093
同理通过上面的方法利用问题表示uQ得到问题自注意力表示
Figure BDA0002613390980000094
结合问题类别表示cQ,两者拼接得到问题整合向量rQ,即:
Figure BDA0002613390980000095
多步推理模块中采用门控制单元单向的GRU网络,每一步推理都有文档整合向量rD作为固定参照,问题的整合向量rQ为推理的初始状态,推理步骤如下,以第t步推理为例:
Figure BDA0002613390980000096
这里将问题的rQ作为GRU的网络的初始隐含状态量,即h0=rQ,Wqd为计算推理的隐含状态量与文档向量之间的相似度的双线性参数矩阵,参考步骤S1得文档整合向量rD作为输入。重复以上推理模块,隐含状态量ht不断更新,每一步都结合上一层的隐含状态量对文档重新打分,经过T步推理后,得到最后文档的分数:
Figure BDA0002613390980000097
上面推理模块的完成文档级别的打分,为了更加细腻的打分,还对每个文档的段落推理进行了多步推理,N个文档进行N次推理,每次推理步数为T步。过程如文档多步推理,不在重复,得到段落分数
Figure BDA0002613390980000101
表示第i个文档的第j个段落分数。
为了更好的找到正确的文档以及段落,模型设置上,定义了该模块的如下损失,调整预测与实际文档及段落的差异。
Figure BDA0002613390980000102
Figure BDA0002613390980000103
LD表示文档抽取损失,LP表示段落级别的损失,整体模型训练时将加入到联合损失中。
参考图5,步骤S3中,采用多文档长文本答案抽取多步融合模块实现,基于步骤S2中的结果我们没有直接进行选用分数最高的文档和段落作为答案抽取备选,避免因为步骤S2中的错误导致答案整个推理错误,答案抽取模块也采用带多步推理的答案融合模块,类似于人从几个比较相似的答案中选择一个最优的答案作为最终结果。
对于每个文档,经过步骤S2可以得到每个文档抽取的表示,文档级别和段落级别。首先进行向量的整合,采用了拼接方式:
Figure BDA0002613390980000104
将zQ输入到指针网络的编码模块,指针网络的编码模块为单层的BiLSTM,对所有的抽取文档进行编码,如下所示:
Figure BDA0002613390980000105
指针解码模块,采用非线性的缩放点击自注意力结构作为指针网络来解码,预测文档抽取模块中的答案起始位置概率,计算方式如下:
Figure BDA0002613390980000111
Figure BDA0002613390980000112
其中Ws1,Ws2,We1,We2为可学习的参数,d为输入表示的维度。
答案融合模块中,决定答案起始位置没有采用最后的步长输出作为最终起始计算,这里采用最后M步作为输出,和步骤S2类似,采用g0=rQ作为初始状态,[zQ,rQ]作为输入,逐级输出隐藏状态、逐层融合,这里每一组都有一对起始位置,最后对M组取平均值。
Figure BDA0002613390980000113
Figure BDA0002613390980000114
训练过程中为增加鲁棒性,通过dropout层随机输出起始位置对的个数,这里dropout对所有的开始和起始位置都成对的选择丢失。得到Pstart,Pend。计算答案的损失函数:
Figure BDA0002613390980000115
ys和ye为真实答案的实际开始和结束位置。
将LD,LP,LS三个损失组合成联合损失函数L,进行联合训练学习,其中λ1,λ2,λ3为可调节的超参数;
L=λ1LD2LP3LS
联合学习时,通过调整模型参数λ1,λ2,λ3至L收敛。
本发明还提供一种跨文档长文本的分层融合阅读理解系统,包括:问题分类模块,问题、文档、问题类别编码模块,多步推理与多文档抽取模块,多文档长文本答案抽取多步融合模块;
通过问题分类模块,将问题类别进行嵌入表示;
通过编码模块分别对问题、文档、问题类别进行编码,得到对应问题向量、文档向量,其中所述文档向量包含问题关联信息;
通过多步推理与多文档抽取模块,对问题向量、文档向量基于自注意力机制得到问题整合向量、文档整合向量,经多步推理得到问题关联的文档和段落分数的抽取表示;
通过多文档长文本答案抽取多步融合模块,从文档和段落分数的抽取表示中融合出一个最优的答案作为最终结果。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种跨文档长文本的分层融合阅读理解方法,其特征在于,包括步骤:
S1、通过问题、文档、问题类别编码模块分别对问题、文档、问题类别进行编码,得到对应问题表示、文档表示,其中所述文档表示包含问题关联信息;
S2、通过多步推理与多文档抽取模块,对问题表示、文档表示基于自注意力机制得到问题整合向量、文档整合向量,经多步推理得到问题关联的文档和段落分数的抽取表示;
S3、通过多文档长文本答案抽取多步融合模块,从文档和段落分数的抽取表示中经多步推理融合出一个最优的答案作为最终结果。
2.根据权利要求1所述的跨文档长文本的分层融合阅读理解方法,其特征在于,步骤S1中所述问题类别经由问题分类模块如下表示:
输入的问题类别c,先将其表示成维度为nc的One-hot向量,通过随机赋值的嵌入矩阵得到问题类别的嵌入表示:
cQ=Wcc,
其中Wc为可训练学习的嵌入矩阵。
3.根据权利要求2跨文档长文本的分层融合阅读理解方法,其特征在于,步骤S1中所述问题、文档、问题类别编码模块采用如下方法获得问题整合向量、文档整合向量:
(1)将多文档D按照段落划分,设有N个文档,每个文档包含M个段落P,多文档Di=[Pi1,Pi2,Λ,Pim],每个段落长度为lp,多文档表示成一个N×M×lp的文本序列;问题为Q,长度lQ
(2)多文档和问题分别采用了最新的roberta预训练语言模型,能根据下游任务进行微调,表示如下:
Figure FDA0002613390970000011
uQ=roberta(wQ);
(3)计算文档和问题的关联表示:采用基于注意力的联合增广表示,该表示在计算注意力权重时,从文档中的词和问题中的词计算:
Figure FDA0002613390970000021
其中,Wl为线性变换矩阵,
Figure FDA0002613390970000022
表示多文档的中i文档的第j个词,
Figure FDA0002613390970000023
表示问题的第k个词,然后加权求和的方式的得到文档的问题关联表示:
Figure FDA0002613390970000024
(4)为了使两者结合,采用Fusion方法计算,并做了多种变换,体现两种表示之间的共性与差异性,计算方法如下:
Figure FDA0002613390970000025
经过编码模块分别得到了问题、文档以及问题的类别的表示:
Figure FDA0002613390970000026
4.根据权利要求3跨文档长文本的分层融合阅读理解方法,其特征在于,所述通过多步推理与多文档抽取模块,对问题向量、文档向量基于自注意力机制得到问题整合向量、文档整合向量,具体方法如下:
对步骤S1中文档表示、问题表示,做自注意力计算,得到自注意力整合向量表示,其中,文档整合向量为:
Figure FDA0002613390970000027
通过上面的方法利用问题表示uQ得到问题自注意力表示
Figure FDA0002613390970000028
结合问题类别表示cQ,两者拼接得到问题整合向量rQ,即:
Figure FDA0002613390970000029
5.根据权利要求4跨文档长文本的分层融合阅读理解方法,其特征在于,步骤S2中,所述经多步推理得到问题关联的文档和段落分数的抽取表示的具体方法如下:
(1)采用门控制单元单向的GRU网络,每一步推理都有文档整合向量rD作为固定参照,问题的整合向量rQ为推理的初始状态,推理步骤如下,以第t步推理为例:
Figure FDA0002613390970000031
上述将问题的rQ作为GRU的网络的初始隐含状态量,即h0=rQ,Wqd为计算推理的隐含状态量与文档向量之间的相似度的双线性参数矩阵,得文档整合向量rD作为输入;
(2)重复以上推理模块,隐含状态量ht不断更新,每一步都结合上一层的隐含状态量对文档重新打分,经过T步推理后,得到最后文档的分数:
Figure FDA0002613390970000032
(3)按照步骤(1)(2)对每个文档的段落进行多步推理,N个文档进行N次推理,每次推理步数为T步,得到段落分数
Figure FDA0002613390970000033
表示第i个文档的第j个段落分数。
6.根据权利要求5跨文档长文本的分层融合阅读理解方法,其特征在于,在所述经多步推理得到问题关联的文档和段落分数的抽取表示中,多步推理涉及的模型定义如下损失,用以调整预测与实际文档及段落的差异:
Figure FDA0002613390970000034
Figure FDA0002613390970000035
其中,LD表示文档抽取损失,LP表示段落级别的损失,整体模型训练时将加入到联合损失中。
7.根据权利要求6跨文档长文本的分层融合阅读理解方法,其特征在于,步骤S3的具体实现方法如下:
(1)向量的整合:将问题类别表示cQ、问题自注意力表示
Figure FDA0002613390970000036
文档级别和段落级别的抽取表示向量rD、rP,采用拼接方式整合:
Figure FDA0002613390970000041
(2)将zQ输入到指针网络的编码模块,指针网络的编码模块为单层的BiLSTM,对所有的抽取文档进行编码,如下所示:
Figure FDA0002613390970000042
(3)通过指针解码模块,采用非线性的缩放点击自注意力结构作为指针网络来解码,预测文档抽取模块中的答案起始位置概率,计算方式如下:
Figure FDA0002613390970000043
Figure FDA0002613390970000044
其中Ws1,Ws2,We1,We2为可学习的参数,d为输入表示的维度;
(4)在答案融合模块中,决定答案起始位置没有采用最后的步长输出作为最终起始计算,这里采用最后M步作为输出,采用g0=rQ作为初始状态,[zQ,rQ]作为输入,逐级输出隐藏状态、逐层融合,这里每一组都有一对起始位置,最后对M组取平均值;
Figure FDA0002613390970000045
Figure FDA0002613390970000046
8.根据权利要求7跨文档长文本的分层融合阅读理解方法,其特征在于,所述步骤S3中,训练过程中为增加鲁棒性,通过dropout层随机输出起始位置对的个数,这里dropout对所有的开始和起始位置都成对的选择丢失,得到Pstart,Pend
9.根据权利要求2跨文档长文本的分层融合阅读理解方法,其特征在于,所述步骤S3中,计算答案的损失函数:
Figure FDA0002613390970000051
ys和ye为真实答案的实际开始和结束位置;
将LD,LP,LS三个损失组合成联合损失函数L,进行联合训练学习,其中λ1,λ2,λ3为可调节的超参数;
L=λ1LD2LP3LS
联合学习时,通过调整模型参数λ1,λ2,λ3至L收敛。
10.一种跨文档长文本的分层融合阅读理解系统,其特征在于,包括:问题分类模块,问题、文档、问题类别编码模块,多步推理与多文档抽取模块,多文档长文本答案抽取多步融合模块;
通过问题分类模块,将问题类别进行嵌入表示;
通过编码模块分别对问题、文档、问题类别进行编码,得到对应问题向量、文档向量,其中所述文档向量包含问题关联信息;
通过多步推理与多文档抽取模块,对问题向量、文档向量基于自注意力机制得到问题整合向量、文档整合向量,经多步推理得到问题关联的文档和段落分数的抽取表示;
通过多文档长文本答案抽取多步融合模块,从文档和段落分数的抽取表示中进一步融合出一个最优的答案作为最终结果。
CN202010765021.8A 2020-07-31 2020-07-31 一种跨文档长文本的分层融合阅读理解方法及系统 Active CN111858857B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010765021.8A CN111858857B (zh) 2020-07-31 2020-07-31 一种跨文档长文本的分层融合阅读理解方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010765021.8A CN111858857B (zh) 2020-07-31 2020-07-31 一种跨文档长文本的分层融合阅读理解方法及系统

Publications (2)

Publication Number Publication Date
CN111858857A true CN111858857A (zh) 2020-10-30
CN111858857B CN111858857B (zh) 2021-03-30

Family

ID=72954250

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010765021.8A Active CN111858857B (zh) 2020-07-31 2020-07-31 一种跨文档长文本的分层融合阅读理解方法及系统

Country Status (1)

Country Link
CN (1) CN111858857B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112381057A (zh) * 2020-12-03 2021-02-19 上海芯翌智能科技有限公司 手写文字识别方法及装置、存储介质、终端
CN112632216A (zh) * 2020-12-10 2021-04-09 深圳得理科技有限公司 一种基于深度学习的长文本检索系统及方法
CN113011196A (zh) * 2021-04-28 2021-06-22 广西师范大学 一种概念增强表示与单向蕴含注意力的主观题自动阅卷神经网络模型
CN113836893A (zh) * 2021-09-14 2021-12-24 北京理工大学 一种融入多个段落信息的抽取式机器阅读理解方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180300314A1 (en) * 2017-04-12 2018-10-18 Petuum Inc. Constituent Centric Architecture for Reading Comprehension
CN108763444A (zh) * 2018-05-25 2018-11-06 杭州知智能科技有限公司 利用分层编码解码器网络机制来解决视频问答的方法
CN109635947A (zh) * 2018-12-14 2019-04-16 安徽省泰岳祥升软件有限公司 基于答案采样的机器阅读理解模型训练方法及装置
CN110688491A (zh) * 2019-09-25 2020-01-14 暨南大学 基于深度学习的机器阅读理解方法、系统、设备及介质
US20200034427A1 (en) * 2016-06-24 2020-01-30 Elemental Cognition Llc Architecture and processes for computer learning and understanding
CN111046661A (zh) * 2019-12-13 2020-04-21 浙江大学 基于图卷积网络的阅读理解方法
CN111090734A (zh) * 2019-12-25 2020-05-01 湖南大学 基于层级注意力机制优化机器阅读理解能力的方法和系统
CN111460176A (zh) * 2020-05-11 2020-07-28 南京大学 一种基于哈希学习的多文档机器阅读理解方法
CN111460092A (zh) * 2020-03-11 2020-07-28 中国电子科技集团公司第二十八研究所 一种基于多文档的复杂问题自动化求解方法
CN111538819A (zh) * 2020-03-27 2020-08-14 北京工商大学 一种基于文档集多跳推理的问答系统的构建方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200034427A1 (en) * 2016-06-24 2020-01-30 Elemental Cognition Llc Architecture and processes for computer learning and understanding
US20180300314A1 (en) * 2017-04-12 2018-10-18 Petuum Inc. Constituent Centric Architecture for Reading Comprehension
CN108763444A (zh) * 2018-05-25 2018-11-06 杭州知智能科技有限公司 利用分层编码解码器网络机制来解决视频问答的方法
CN109635947A (zh) * 2018-12-14 2019-04-16 安徽省泰岳祥升软件有限公司 基于答案采样的机器阅读理解模型训练方法及装置
CN110688491A (zh) * 2019-09-25 2020-01-14 暨南大学 基于深度学习的机器阅读理解方法、系统、设备及介质
CN111046661A (zh) * 2019-12-13 2020-04-21 浙江大学 基于图卷积网络的阅读理解方法
CN111090734A (zh) * 2019-12-25 2020-05-01 湖南大学 基于层级注意力机制优化机器阅读理解能力的方法和系统
CN111460092A (zh) * 2020-03-11 2020-07-28 中国电子科技集团公司第二十八研究所 一种基于多文档的复杂问题自动化求解方法
CN111538819A (zh) * 2020-03-27 2020-08-14 北京工商大学 一种基于文档集多跳推理的问答系统的构建方法
CN111460176A (zh) * 2020-05-11 2020-07-28 南京大学 一种基于哈希学习的多文档机器阅读理解方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WEI WANG等: "Multi—Granularity Hierarchical Attention Fusion Networks for Rea", 《RESEARCHGATE》 *
刘家骅等: "基于多篇章多答案的阅读理解系统", 《中文信息学报》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112381057A (zh) * 2020-12-03 2021-02-19 上海芯翌智能科技有限公司 手写文字识别方法及装置、存储介质、终端
CN112632216A (zh) * 2020-12-10 2021-04-09 深圳得理科技有限公司 一种基于深度学习的长文本检索系统及方法
CN113011196A (zh) * 2021-04-28 2021-06-22 广西师范大学 一种概念增强表示与单向蕴含注意力的主观题自动阅卷神经网络模型
CN113011196B (zh) * 2021-04-28 2023-01-10 陕西文都教育科技有限公司 一种概念增强表示与单向蕴含注意力的主观题自动阅卷神经网络模型
CN113836893A (zh) * 2021-09-14 2021-12-24 北京理工大学 一种融入多个段落信息的抽取式机器阅读理解方法

Also Published As

Publication number Publication date
CN111858857B (zh) 2021-03-30

Similar Documents

Publication Publication Date Title
CN111858857B (zh) 一种跨文档长文本的分层融合阅读理解方法及系统
CN110134771B (zh) 一种基于多注意力机制融合网络问答系统的实现方法
CN108763284B (zh) 一种基于深度学习和主题模型的问答系统实现方法
CN110188176B (zh) 深度学习神经网络及训练、预测方法、系统、设备、介质
CN113158665B (zh) 一种基于文本摘要生成与双向语料改善对话文本生成的方法
CN113254599A (zh) 一种基于半监督学习的多标签微博文本分类方法
CN111274362B (zh) 一种基于transformer架构的对话生成方法
CN111930918B (zh) 一种跨模态的双边个性化人机社交对话生成方法及系统
CN112115687A (zh) 一种结合知识库中的三元组和实体类型的生成问题方法
CN112001166A (zh) 面向政务咨询服务的智能问答句子对语义匹配方法和装置
CN115048447B (zh) 一种基于智能语义补全的数据库自然语言接口系统
CN109033294A (zh) 一种融入内容信息的混合推荐方法
CN114625866A (zh) 训练摘要生成模型的方法、装置、设备及介质
CN114218928A (zh) 一种基于图知识和主题感知的抽象文本摘要方法
CN113609284A (zh) 一种融合多元语义的文本摘要自动生成方法及装置
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN113887836B (zh) 一种融合事件环境信息的叙述性事件预测方法
Kumari et al. Context-based question answering system with suggested questions
CN116681078A (zh) 一种基于强化学习的关键词生成方法
CN112434512A (zh) 一种结合上下文语境的新词确定方法及装置
CN111813907A (zh) 一种自然语言问答技术中的问句意图识别方法
CN113590745B (zh) 一种可解释的文本推断方法
CN115309894A (zh) 一种基于对抗训练和tf-idf的文本情感分类方法及装置
CN115422388A (zh) 一种视觉对话方法及系统
Song Distilling knowledge from user information for document level sentiment classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant