CN113254575B - 一种基于多步证据推理的机器阅读理解方法与系统 - Google Patents

一种基于多步证据推理的机器阅读理解方法与系统 Download PDF

Info

Publication number
CN113254575B
CN113254575B CN202110441185.XA CN202110441185A CN113254575B CN 113254575 B CN113254575 B CN 113254575B CN 202110441185 A CN202110441185 A CN 202110441185A CN 113254575 B CN113254575 B CN 113254575B
Authority
CN
China
Prior art keywords
vector
reasoning
evidence
question
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110441185.XA
Other languages
English (en)
Other versions
CN113254575A (zh
Inventor
胡玥
彭伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN202110441185.XA priority Critical patent/CN113254575B/zh
Publication of CN113254575A publication Critical patent/CN113254575A/zh
Application granted granted Critical
Publication of CN113254575B publication Critical patent/CN113254575B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Abstract

本发明公开了一种基于多步证据推理的机器阅读理解方法与系统。本方法的步骤包括:1)将文章P和问题Q输入全局编码器,生成输入字符向量表示U;2)对U进行编码得到输入表示g并输入多步证据推理机;3)多步证据推理机根据g进行推理得到与问题Q相关的的开始证据向量和结束证据向量;4)根据多步证据推理机最终计算得到的与问题Q相关的起始证据向量sT+1、结束证据向量eT+1和问题的表达向量qcls计算问题Q的分值score,当分值score高于设定阈值θ,则判定该问题Q不可回答;否则判定该问题Q存在答案,并抽取从文章P中获取答案的开始位置start‑position和结束位置end‑position。

Description

一种基于多步证据推理的机器阅读理解方法与系统
技术领域
本发明属于自然语言处理领域,特别涉及一种多步证据推理的机器阅读理解方法和系统。
背景技术
近年来,机器阅读理解(MRC)在最近的自然语言处理领域研究中获得了蓬勃发展,其各种神经网络模型在某些基准上迅速接近了人类水平,其目的是鼓励机器能够理解给定段落的内容并回答问题。抽取式机器阅读理解是其中的一个分支,它主要是从文章当中抽取一个连续的片段,作为文本最终的答案,然而这种任务存在一个巨大的假设,即每一个问题都能够在文章中找到答案,这样的话,模型只需要去匹配与问题最相似的段落即可,并没有真正的理解问题是否被文本所蕴含。如何让模型自适应地准确地判定问题是可回答还是不可回答是一个巨大的挑战。
传统的抽取式机器阅读理解方法旨在关注问题和文章的语义,从文章当中去匹配一个相似的段落,将其结果作为最终的答案。具体来说通常会使用一个长短时记忆网络(LSTM,Long Short-Term Memory)对问题的语义进行建模,得到问题的表示。类似的本发明也会建模文章的语义信息。得到两者的语义表达后,注意力机制(Attention Mechanism)会被应用,目的是为了融合两者的交互信息,从而获得感知问题的文章表达。匹配LSTM网络(Match-LSTM)提出了一个端到端的神经架构,该架构是基于匹配网络的方法进行文本蕴含判断。同时提出了一个指针网络,它是一个序列到序列的模型,为了从输入的文本去构建输出词的概率分布从而判断答案的边界。该模型只考虑了从问题到文章方向的注意流,忽略了从文章指向问题方向的注意力流。为了解决上述问题,双向注意力流模型(Bi-Directional Attention Flow Network)提出了一个多阶段层级结构的过程,能够捕获和表达不同粒度的上下文信息,同时使用了一个双向的注意力流机制,增强了感知问题的文章语义信息。大量后续的抽取机器阅读理解的方法都是在这个模型的基础上去进行的改进和迭代,以获取更加准确的效果。比如注意力过度阅读器(Attention-over-attentionReader)以及基于门控机制的自注意力网络(Gated Self-Matching Networks)等等。
为了使机器在给定段落没有答案时,输出不可回答的预测,先前的工作设计了不同的方法来达到此目的,包括二分类器,关系网络和验证系统等等。一个简单而有效的多段落网络(Simple and Effective Multi-Paragraph Network)除了对每一个位置计算概率分布之外,还学习了额外的不可回答概率。随机应答网络(Stochastic Answer Networks)将重点放在一个全连接层上作为二分类器判断问题是否可回答。尽管上述方法易于实现,但它们并未考虑问题为何无法回答,而是直接做了一个二分类,不知其所以然;同时准确性相对较低。关系网络(Relational Network)传递语义对象,该语义对象为无法回答的问题生成关系得分,但是其未显式地建模问题和段落之间的交互关系。语法指导的神经网络(SG-Net)提出使用句法来指导段落和问题的文本建模,考虑将显式的句法约束融入注意机制中,以获得更好的语言动机词表示形式,但是它需要构造给定段落和问题的依存关系分析树,较为繁琐。阅读+验证网络(Read+Verify Network)提出了一种验证机制,先用抽取式机器阅读理解的方法选择一个候选片段,然后验证候选答案是否能被其周围的句子和以及问题所支撑。但是,阅读+验证的系统是一种流水线方法,会导致错误累积,当选出的片段是错误的,再进行验证就会有错误级联的现象;同时可能会发生根据错误答案进行验证的情况。如何设计有效和具有可解释性的系统是该专利的主要重点。
因此,随着机器阅读理解任务的发展,传统抽取式的机器阅读理解方法不再适用于解决不可回答任务。基于二分类器的方法虽然易于实现,但是可解释性差,同时对不可回答问题预测的准确率和召回率也较低。基于关系网络或者可验证的方法,他们虽然在准确率上有一定提高,但是并未显示建模问题和文章之间的关系,同时有可能造成错误级联等问题。
发明内容
针对现有技术中存在的技术问题,本发明目的在于提供一种针对不可回答问题的多步证据推理的机器阅读理解方法和系统,该系统通过全局编码器和多步推理模块显式提炼关键线索,提高模型的可解释性,同时通过答案探测器自适应地选择抽取一个答案片段或者输出一个不可回答问题的预测。
本发明的技术方案为:
一种基于多步证据推理的机器阅读理解方法,其步骤包括:
1)将文章P和问题Q输入全局编码器;全局编码器包含一个预训练语言模型和一个全局编码模块;所述预训练语言模型根据输入信息生成输入字符向量表示U;所述预训练语言模型对问题Q中的字符进行编码得到向量表示
Figure BDA0003035080320000021
2)所述全局编码模块使用自注意力机制对向量表示U进行编码,得到上下文感知的全局上的输入表示g并输入多步证据推理机;其中,gi为第i个字符的上下文感知的全局上的输入表示;
3)多步证据推理机根据输入表示g进行推理得到与问题Q相关的的开始证据向量和结束证据向量;其中所述多步证据推理机包含顺序执行的多个推理块,每一推理块对应一推理步,前一推理块的输出作为当前推理块的输入,s0为初始化的起始证据向量,e0为初始化的结束证据向量;第j个推理块的推理过程为:31)将gi和第j-1推理步所得的起始证据向量sj进行拼接得到第j推理步下文章P中第i个字符的向量表示
Figure BDA0003035080320000031
32)根据qcls
Figure BDA0003035080320000032
计算起始注意力
Figure BDA0003035080320000033
然后根据公式
Figure BDA0003035080320000034
Figure BDA0003035080320000035
进行加权求和得到第j+1推理步的起始证据向量sj+1并发送给第j+1推理块;33)将起始证据向量sj+1、gi和第j-1推理步所得的结束证据向量ej进行拼接得到向量表示
Figure BDA0003035080320000036
34)根据qcls
Figure BDA0003035080320000037
计算结束注意力
Figure BDA0003035080320000038
然后根据公式
Figure BDA0003035080320000039
Figure BDA00030350803200000310
进行加权求和得到第j+1推理步的结束证据向量ej+1并发送给第j+1推理块;
4)答案探测器根据多步证据推理机最终计算得到的与问题Q相关的起始证据向量sT+1、结束证据向量eT+1和问题的表达向量qcls计算问题Q的分值score,当分值score高于设定阈值θ,则判定该问题Q不可回答;否则判定该问题Q存在答案,并抽取从文章P中获取答案的开始位置start-position和结束位置end-position;其中,start-position=argmax(αT),end-position=argmax(βT),
Figure BDA00030350803200000311
Figure BDA00030350803200000312
T为多步证据推理机的总步数。
进一步的,设置一分类嵌入标识符[CLS],并用设定标识符[SEP]分隔文章P中的字符XP和问题Q中的字符XQ;其中XP用于表示文章P中所有的字符,XQ表示问题Q中的所有字符;全局编码器的输入信息表示为[CLS,XQ,SEP,XP,SEP]。
进一步的,向量表示
Figure BDA00030350803200000313
U的总长度为l,n是文章的长度,m是问题的长度,ucls表示标识符[CLS]的向量表示,
Figure BDA00030350803200000314
表示文章P中第i个字符的向量表示,
Figure BDA00030350803200000315
表示问题Q中第i个字符的向量表示,usep是标识符[SEP]的向量表示。
进一步的,
Figure BDA00030350803200000316
Figure BDA00030350803200000317
为问题Q中第m个字符的向量表示,qcls为问题的表达向量,qsep为标识符[SEP]对应的向量表示。
进一步的,分值score=σ(Wc[qcls;sj;ej]);其中σ表示sigmoid激活函数,Wc是推理块的可训练参数。
进一步的,
Figure BDA00030350803200000318
一种基于多步证据推理的机器阅读理解系统,其特征在于,包括全局编码器、多步证据推理机和答案探测器;其中
全局编码器,包含一个预训练语言模型和一个全局编码模块;所述预训练语言模型用于根据输入的文章P和问题Q生成输入字符向量表示U;所述预训练语言模型对问题Q中的字符进行编码得到向量表示
Figure BDA0003035080320000041
多步证据推理机,用于根据输入表示g进行推理得到与问题Q相关的的开始证据向量和结束证据向量;其中所述多步证据推理机包含顺序执行的多个推理块,每一推理块对应一推理步,前一推理块的输出作为当前推理块的输入,s0为初始化的起始证据向量,e0为初始化的结束证据向量;第j个推理块的推理过程为:31)将gi和第j-1推理步所得的起始证据向量sj进行拼接得到第j推理步下文章P中第i个字符的向量表示
Figure BDA0003035080320000042
32)根据qcls
Figure BDA0003035080320000043
计算起始注意力
Figure BDA0003035080320000044
然后根据公式
Figure BDA0003035080320000045
Figure BDA0003035080320000046
进行加权求和得到第j+1推理步的起始证据向量sj+1并发送给第j+1推理块;33)将起始证据向量sj+1、gi和第j-1推理步所得的结束证据向量ej进行拼接得到向量表示
Figure BDA0003035080320000047
34)根据qcls
Figure BDA0003035080320000048
计算结束注意力
Figure BDA0003035080320000049
然后根据公式
Figure BDA00030350803200000410
Figure BDA00030350803200000411
进行加权求和得到第j+1推理步的结束证据向量ej+1并发送给第j+1推理块;
答案探测器,用于根据多步证据推理机最终计算得到的与问题Q相关的起始证据向量sT+1、结束证据向量eT+1和问题的表达向量qcls计算问题Q的分值score,当分值score高于设定阈值θ,则判定该问题Q不可回答;否则判定该问题Q存在答案,并抽取从文章P中获取答案的开始位置start-position和结束位置end-position;其中,start-position=argmax(αT),end-position=argmax(βT),
Figure BDA00030350803200000412
T为多步证据推理机的总步数。
与现有技术相比,本发明的积极效果为:
原始基于二分类的机器阅读理解方法,虽然实现较为简单,但是没有很好地解释为什么问题不可回答,同时识别的准确率也较低。考虑关系网络或者验证的方法也不能很好地挖掘问题和文章之间的关键线索,从而导致精度不足。本发明提出的技术能够自适应地对问题进行判断,同时从文中挖掘相关线索,该线索可以用来进一步检索相关的外部知识来回答不可回答的问题,这将是对未来很有意义的一项研究。
本发明能够自适应地对问题进行判断,从而决定输出不可回答预测还是抽取的答案片段。本发明实现将全局编码器和多步证据推理模块相结合的方法,改进当前机器阅读理解模型的不足,并且提高了模型预测的准确率。
附图说明
图1是本发明系统结构图;
图2是全局编码器示意图;
图3是多步证据推理机示意图;
图4是系统预测流程示意图。
具体实施方式
下面结合附图对本发明的优选实例进行详细阐述。
本发明的总体框架如图1所示,包括全局解码器、多步证据推理机和答案探测器。
1.全局编码器
图2是全局编码器示意图。全局编码器包含一个预训练语言模型和一个全局编码模块,以更好地理解语义。
类似目前预训练语言模型的处理方式,本发明添加一分类嵌入标识符[CLS],并用设定标记[SEP]分隔文章XP和问题XQ,其中XP用于表示文章中所有的字符,同理XQ表示的是问题中的所有字符。因此本发明的输入可以表示为[CLS,XQ,SEP,XP,SEP]。经过预训练语言模型BERT得到输入字符向量表示
Figure BDA0003035080320000051
总长度为l=(n+m+3),其中n和m分别是文章和问题的长度,“3”表示三个特殊的标识符,ucls表示的是[CLS]标识符经过预训练语言模型BERT得到的向量表示,
Figure BDA0003035080320000052
表示的是文章P中第i个字符的表示,
Figure BDA0003035080320000053
表示的是问题Q中的第i个字符的表示,而usep则是[SEP]标识符对应的表示。为了重新阅读问题以找到与问题相关的线索,本发明对问题中的字符进行单独编码得到问题中的每个字符的向量表示
Figure BDA0003035080320000054
并获得单纯问题向量表示qcls,即没有串联文章输入到预训练语言模型中,而是单独对问题中的字符进行编码,qcls表示选择第一个字符[CLS]对应的表示作为问题的表达。qsep则是[SEP]特殊标识符对应的向量表示,是一个分割符号,本发明不对其进行使用。公式如下:
U=BERT(CLS,XQ,SEP,XP,SEP)
Figure BDA0003035080320000055
ucls=u0,qcls=q0
对于全局编码模块,本发明考虑使用自注意力机制(Self-attention)对U进行编码,得到最终上下文感知的全局上的输入表示g:
gi=Self-attention(ui)
2.多步证据推理机
在现实世界中,当人类进行阅读理解时,往往会反复寻找文章和问题之间的交互关系。即人类通常从阅读问题出发,并寻找与问题相关的信息,获得大致范围的答案。然后,人们通过重读该问题并寻找更多的关键线索,来确定一个问题是否无法回答或以较高的信任度来缩小答案的范围。模仿人类,本发明的系统通过多个推理步骤,使线索从粗粒度的线索变为细粒度的线索。具体而言,多步证据推理机的示意图如图3所示,其包含一系列的推理块(图中只画出了三个推理步),这三个推理步有时间上的先后关系,因此本发明用T=1,2,3进行表示。其中,每一个推理步又包含两个子模块,分别是起始证据向量推理子模块和结束证据向量推理子模块,两个子模块分别建模线索的开始位置和结束位置,即一个推理块能够抽取出关键线索的片段。经过多步推理,能够从粗粒度的信息捕获到细粒度的线索信息。本发明具体以T=1时刻进行介绍,①~⑥表示操作的流程,步骤如下,注意s0和e0我们通过随机初始化获得起始向量:
1)经过上一时刻的推理块,将其输出作为当前时刻推理块的输入。本发明把gi和s1向量进行拼接,目的是为了用起始证据向量s1增强gi的表示,其中RELU表示激活函数,Ws是当前推理块可训练的参数。
Figure BDA0003035080320000061
其中,
Figure BDA0003035080320000062
表示的是经过起始证据向量s1增强之后的文章的字符表示,即在T=1推理步下第i个字符的表示为
Figure BDA0003035080320000063
2)然后使用归一化指数函数Softmax计算起始注意力
Figure BDA0003035080320000064
目的是为了3)中对
Figure BDA0003035080320000065
进行加权求和得到下一时刻的起始证据向量s2
Figure BDA0003035080320000066
其中
Figure BDA0003035080320000067
表示在T=1推理步下第i个字符的起始注意力。
3)对2)中计算的起始注意力
Figure BDA0003035080320000068
和1)计算的
Figure BDA0003035080320000069
进行加权求和,目的是为了更新下一时刻的起始证据向量s2,获得细粒度的信息表示。
Figure BDA00030350803200000610
4)计算第二个子模块的结束证据向量。同样地,本发明把gi和3)中计算得到的s2向量以及上一个推理步计算的e1向量进行拼接,增强gi的表示,其中RELU表示激活函数,We是该模块的可训练参数。
Figure BDA0003035080320000071
其中
Figure BDA0003035080320000072
表示的是经过起始证据向量s2和结束证据向量e1增强之后的文章的字符表示,即T=1推理步下第i个字符的向量表示。
5)然后计算结束注意力
Figure BDA0003035080320000073
目的是为了6)步中对
Figure BDA0003035080320000074
进行加权求和得到下一时刻的结束证据向量e2
Figure BDA0003035080320000075
其中
Figure BDA0003035080320000076
表示在T=1推理步下第i个字符的结束注意力。
6)对5)中计算的结束注意力
Figure BDA0003035080320000077
和4)计算的
Figure BDA0003035080320000078
进行加权求和,目的是为了更新下一时刻即T=2的结束证据向量e2,获得细粒度的信息表示。
Figure BDA0003035080320000079
至此,本发明就计算完了一步的推理过程,然后以计算出来的结果作为下一个推理步的输入,循环反复迭代,直到得到最终的结束证据向量,该结束证据向量经过多步的推理,已经从粗粒度的信息捕获到细粒度的线索信息。本发明通过实验设置确定该推理步数的大小,最终设置为2效果最好。通过该线索信息,有据可依,增加模型的可解释性,同时实验效果也说明通过多步证据推理模块,本发明的模型取得了最好的结果。
3.答案探测器
该模块包含两部分的功能,第1部分需要去判断问题是否可回答,第2部分是当问题可回答时,本发明需要去抽取一个连续的片段,作为本发明最终的答案。
1)本发明将多步证据推理机计算得到的开始证据向量和结束证据向量作为判断不可回答问题的关键依据,同时将问题的表达向量qcls融入计算。其中score表示不可回答问题的打分,当分值高于一定阈值θ,本发明认为该问题是不可回答;否则认为问题存在答案。σ表示sigmoid激活函数,Wc是该模块的可训练参数,j表示第j步的推理步。
score=σ(Wc[qcls;sj;ej])
本发明用训练集对模型进行训练,优化下列交叉熵损失。N表示训练集样例个数,
Figure BDA00030350803200000711
表示样本的真实标签,不可回答标签为1,反之为0。
Figure BDA00030350803200000710
2)接下来本发明根据在证据推理机中的步骤2)和5),用最后一时刻的推理步中的概率分布α和β作为最终的概率分布,假设推理步设置为T=2,即α2和β2。在预测过程中,本发明只需要对其求最大值,就可以当作抽取的连续片段的开始位置start-position和结束位置end-position。
start-position=argmax(α2)
end-position=argmax(β2)
其中
Figure BDA0003035080320000081
l表示输入的长度,2表示T=2最后一时刻推理步。
同样的,本发明用训练集对模型进行训练,优化下列负对数似然损失。
Figure BDA0003035080320000082
最终本发明的系统预测流程,如图4所示。
实验结果
主要结果显示在表1中。提出的模型在数据集SQuAD 2.0上始终优于以前的方法和基线模型。在SQuAD 2.0中,基于ALBERT的模型在EM上获得2.20%的改善,而在F1上获得1.40%的改善,并且在ALBERT-xxlarge模型上得到了改善。该结果说明了以多步推理的方式捕获段落和问题之间关键证据有助于模型达到更好的效果,并且增强了模型的可解释性。
表1:SQuAD 2.0开发集中的完全匹配(EM)和F1分数(%)。
Figure BDA0003035080320000083
评测指标考虑使用EM(Exact Match)绝对匹配值和F1值,EM衡量了预测答案是否与标准答案完全一致,F1值衡量了预测答案与标准答案的相似度。
Figure BDA0003035080320000084
Wmatch=Wpred∩Wref
Figure BDA0003035080320000091
Figure BDA0003035080320000092
Figure BDA0003035080320000093
其中,预测答案和标准答案的文本字符串分别为Spred和Sref;两个字符串中包含单词的集合分别为Wpred和Wref;|W|表示集合W当中的单词个数。
此外,为了验证本发明预测不可回答问题的有效性,本发明计算了分类结果的准确率,召回率和F1值。可以从表格中看到召回率有了很大的提升,说明本发明的模型能够找到更多的不可回答问题。即使准确率有略微的下降,但是总体的F1值得到了2.18%的提高。
表2不可回答问题判断的准确率,召回率和F1值
模型 P(%) R(%) F1(%)
基线模型 88.44% 77.12% 82.39%
本发明 87.84% 81.55% 84.57%
以上所述仅是本发明的一种优选方案,应当指出,对于本技术领域的普通人员来说,在不脱离本发明的原理前提下,还可以做出若干修饰和润色,在不脱离本发明的精神和范围内,各种替换、变化和修改都是可能的。本发明不应局限于本说明书的实施例和附图所公开的内容,本发明的保护范围以权利要求书界定的范围为准。

Claims (10)

1.一种基于多步证据推理的机器阅读理解方法,其步骤包括:
1)将文章P和问题Q输入全局编码器;全局编码器包含一个预训练语言模型和一个全局编码模块;所述预训练语言模型根据输入信息生成输入字符向量表示U;所述预训练语言模型对问题Q中的字符进行编码得到向量表示
Figure FDA0003035080310000011
2)所述全局编码模块使用自注意力机制对向量表示U进行编码,得到上下文感知的全局上的输入表示g并输入多步证据推理机;其中,gi为第i个字符的上下文感知的全局上的输入表示;
3)多步证据推理机根据输入表示g进行推理得到与问题Q相关的开始证据向量和结束证据向量;其中所述多步证据推理机包含顺序执行的多个推理块,每一推理块对应一推理步,前一推理块的输出作为当前推理块的输入,s0为初始化的起始证据向量,e0为初始化的结束证据向量;第j个推理块的推理过程为:31)将gi和第j-1推理步所得的起始证据向量sj进行拼接得到第j推理步下文章P中第i个字符的向量表示
Figure FDA0003035080310000012
32)根据qcls
Figure FDA0003035080310000013
计算起始注意力
Figure FDA0003035080310000014
然后根据公式
Figure FDA0003035080310000015
Figure FDA0003035080310000016
进行加权求和得到第j+1推理步的起始证据向量sj+1并发送给第j+1推理块;33)将起始证据向量sj+1、gi和第j-1推理步所得的结束证据向量ej进行拼接得到向量表示
Figure FDA0003035080310000017
34)根据qcls
Figure FDA0003035080310000018
计算结束注意力
Figure FDA0003035080310000019
然后根据公式
Figure FDA00030350803100000110
Figure FDA00030350803100000111
进行加权求和得到第j+1推理步的结束证据向量ej+1并发送给第j+1推理块;
4)答案探测器根据多步证据推理机最终计算得到的与问题Q相关的起始证据向量sT+1、结束证据向量eT+1和问题的表达向量qcls计算问题Q的分值score,当分值score高于设定阈值θ,则判定该问题Q不可回答;否则判定该问题Q存在答案,并抽取从文章P中获取答案的开始位置start-position和结束位置end-position;其中,start-position=argmax(αT),end-position=argmax(βT),
Figure FDA00030350803100000112
Figure FDA00030350803100000113
T为多步证据推理机的总步数。
2.如权利要求1所述的方法,其特征在于,设置一分类嵌入标识符[CLS],并用设定标识符[SEP]分隔文章P中的字符XP和问题Q中的字符XQ;其中XP用于表示文章P中所有的字符,XQ表示问题Q中的所有字符;全局编码器的输入信息表示为[CLS,XQ,SEP,XP,SEP]。
3.如权利要求2所述的方法,其特征在于,向量表示
Figure FDA00030350803100000114
U的总长度为l,n是文章的长度,m是问题的长度,ucls表示标识符[CLS]的向量表示,
Figure FDA00030350803100000115
表示文章P中第i个字符的向量表示,
Figure FDA0003035080310000021
表示问题Q中第i个字符的向量表示,usep是标识符[SEP]的向量表示。
4.如权利要求2所述的方法,其特征在于,
Figure FDA0003035080310000022
Figure FDA0003035080310000023
为问题Q中第m个字符的向量表示,qcls为问题的表达向量,qsep为标识符[SEP]对应的向量表示。
5.如权利要求3所述的方法,其特征在于,分值score=σ(Wc[qcls;sj;ej]);其中σ表示sigmoid激活函数,Wc是推理块的可训练参数。
6.如权利要求3所述的方法,其特征在于,
Figure FDA0003035080310000024
7.一种基于多步证据推理的机器阅读理解系统,其特征在于,包括全局编码器、多步证据推理机和答案探测器;其中
全局编码器,包含一个预训练语言模型和一个全局编码模块;所述预训练语言模型用于根据输入的文章P和问题Q生成输入字符向量表示U;所述预训练语言模型对问题Q中的字符进行编码得到向量表示
Figure FDA0003035080310000025
多步证据推理机,用于根据输入表示g进行推理得到与问题Q相关的开始证据向量和结束证据向量;其中所述多步证据推理机包含顺序执行的多个推理块,每一推理块对应一推理步,前一推理块的输出作为当前推理块的输入,s0为初始化的起始证据向量,e0为初始化的结束证据向量;第j个推理块的推理过程为:31)将gi和第j-1推理步所得的起始证据向量sj进行拼接得到第j推理步下文章P中第i个字符的向量表示
Figure FDA0003035080310000026
32)根据qcls
Figure FDA0003035080310000027
计算起始注意力
Figure FDA0003035080310000028
然后根据公式
Figure FDA0003035080310000029
Figure FDA00030350803100000210
进行加权求和得到第j+1推理步的起始证据向量sj+1并发送给第j+1推理块;33)将起始证据向量sj+1、gi和第j-1推理步所得的结束证据向量ej进行拼接得到向量表示
Figure FDA00030350803100000211
34)根据qcls
Figure FDA00030350803100000212
计算结束注意力
Figure FDA00030350803100000213
然后根据公式
Figure FDA00030350803100000214
Figure FDA00030350803100000215
进行加权求和得到第j+1推理步的结束证据向量ej+1并发送给第j+1推理块;
答案探测器,用于根据多步证据推理机最终计算得到的与问题Q相关的起始证据向量sT +1、结束证据向量eT+1和问题的表达向量qcls计算问题Q的分值score,当分值score高于设定阈值θ,则判定该问题Q不可回答;否则判定该问题Q存在答案,并抽取从文章P中获取答案的开始位置start-position和结束位置end-position;其中,start-position=argmax(αT),end-position=argmax(βT),
Figure FDA00030350803100000216
T为多步证据推理机的总步数。
8.如权利要求7所述的系统,其特征在于,还包括一预处理模块,用于根据设置的分类嵌入标识符[CLS]、定标识符[SEP]对输入的文章P和问题Q进行分隔;将全局编码器的输入信息表示为[CLS,XQ,SEP,XP,SEP];其中XP用于表示文章P中所有的字符,XQ表示问题Q中的所有字符。
9.如权利要求8所述的系统,其特征在于,向量表示
Figure FDA0003035080310000031
U的总长度为l,n是文章的长度,m是问题的长度,ucls表示标识符[CLS]的向量表示,
Figure FDA0003035080310000032
表示文章P中第i个字符的向量表示,
Figure FDA0003035080310000033
表示问题Q中第i个字符的向量表示,usep是标识符[SEP]的向量表示;
Figure FDA0003035080310000034
Figure FDA0003035080310000035
为问题Q中第m个字符的向量表示,qsep为标识符[SEP]对应的向量表示。
10.如权利要求7所述的系统,其特征在于,
Figure FDA0003035080310000036
分值score=σ(Wc[qcls;sj;ej]);其中σ表示sigmoid激活函数,Wc是推理块的可训练参数。
CN202110441185.XA 2021-04-23 2021-04-23 一种基于多步证据推理的机器阅读理解方法与系统 Active CN113254575B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110441185.XA CN113254575B (zh) 2021-04-23 2021-04-23 一种基于多步证据推理的机器阅读理解方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110441185.XA CN113254575B (zh) 2021-04-23 2021-04-23 一种基于多步证据推理的机器阅读理解方法与系统

Publications (2)

Publication Number Publication Date
CN113254575A CN113254575A (zh) 2021-08-13
CN113254575B true CN113254575B (zh) 2022-07-22

Family

ID=77221434

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110441185.XA Active CN113254575B (zh) 2021-04-23 2021-04-23 一种基于多步证据推理的机器阅读理解方法与系统

Country Status (1)

Country Link
CN (1) CN113254575B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113742467B (zh) * 2021-09-02 2023-08-08 新疆大学 一种分层选择槽位相关上下文的对话状态生成方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110083682A (zh) * 2019-04-19 2019-08-02 西安交通大学 一种基于多轮注意力机制的机器阅读理解答案获取方法
CN110222349A (zh) * 2019-06-13 2019-09-10 成都信息工程大学 一种深度动态上下文词语表示的模型及方法、计算机
CN110674279A (zh) * 2019-10-15 2020-01-10 腾讯科技(深圳)有限公司 基于人工智能的问答处理方法、装置、设备及存储介质
CN111581350A (zh) * 2020-04-30 2020-08-25 识因智能科技(北京)有限公司 一种基于预训练语言模型的多任务学习阅读理解方法
CN112347756A (zh) * 2020-09-29 2021-02-09 中国科学院信息工程研究所 一种基于序列化证据抽取的推理阅读理解方法及系统
CN112417104A (zh) * 2020-12-04 2021-02-26 山西大学 一种句法关系增强的机器阅读理解多跳推理模型及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110083682A (zh) * 2019-04-19 2019-08-02 西安交通大学 一种基于多轮注意力机制的机器阅读理解答案获取方法
CN110222349A (zh) * 2019-06-13 2019-09-10 成都信息工程大学 一种深度动态上下文词语表示的模型及方法、计算机
CN110674279A (zh) * 2019-10-15 2020-01-10 腾讯科技(深圳)有限公司 基于人工智能的问答处理方法、装置、设备及存储介质
CN111581350A (zh) * 2020-04-30 2020-08-25 识因智能科技(北京)有限公司 一种基于预训练语言模型的多任务学习阅读理解方法
CN112347756A (zh) * 2020-09-29 2021-02-09 中国科学院信息工程研究所 一种基于序列化证据抽取的推理阅读理解方法及系统
CN112417104A (zh) * 2020-12-04 2021-02-26 山西大学 一种句法关系增强的机器阅读理解多跳推理模型及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Modified VS3-NET for Reading Comprehension and Question Answering with No-answers;Cheoneum Park等;《2019 IEEE International Conference on Big Data and Smart Computing 》;20191231;第1-8页 *

Also Published As

Publication number Publication date
CN113254575A (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
CN110737801B (zh) 内容分类方法、装置、计算机设备和存储介质
CN112084331A (zh) 文本处理、模型训练方法、装置、计算机设备和存储介质
CN110362819B (zh) 基于卷积神经网络的文本情感分析方法
CN110390397A (zh) 一种文本蕴含识别方法及装置
CN113673535B (zh) 一种多模态特征融合网络的图像描述生成方法
CN110781290A (zh) 一种长篇章结构化文本摘要提取方法
CN115292463B (zh) 一种基于信息抽取的联合多意图检测和重叠槽填充的方法
CN113392265A (zh) 多媒体处理方法、装置及设备
CN115510236A (zh) 基于信息融合和数据增强的篇章级事件检测方法
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN111984780A (zh) 多意图识别模型训练方法和多意图识别方法及相关装置
CN116977457A (zh) 一种数据处理方法、设备以及计算机可读存储介质
Deb et al. Variational stacked local attention networks for diverse video captioning
CN113254575B (zh) 一种基于多步证据推理的机器阅读理解方法与系统
CN113221553A (zh) 一种文本处理方法、装置、设备以及可读存储介质
CN114048290A (zh) 一种文本分类方法及装置
CN115617975B (zh) 针对少样本多轮对话的意图识别方法及装置
CN111563161A (zh) 一种语句识别方法、语句识别装置及智能设备
CN115828142A (zh) 一种基于双路编码器的可解释性文本分类系统
CN115422945A (zh) 一种融合情感挖掘的谣言检测方法及系统
CN114386412B (zh) 一种基于不确定性感知的多模态命名实体识别方法
CN115130461A (zh) 一种文本匹配方法、装置、电子设备及存储介质
CN117521674B (zh) 对抗信息的生成方法、装置、计算机设备和存储介质
CN117558270B (zh) 语音识别方法、装置、关键词检测模型的训练方法和装置
CN113705315B (zh) 视频处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant