CN109657246B - 一种基于深度学习的抽取式机器阅读理解模型的建立方法 - Google Patents

一种基于深度学习的抽取式机器阅读理解模型的建立方法 Download PDF

Info

Publication number
CN109657246B
CN109657246B CN201811556939.0A CN201811556939A CN109657246B CN 109657246 B CN109657246 B CN 109657246B CN 201811556939 A CN201811556939 A CN 201811556939A CN 109657246 B CN109657246 B CN 109657246B
Authority
CN
China
Prior art keywords
word
article
representation
vector
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811556939.0A
Other languages
English (en)
Other versions
CN109657246A (zh
Inventor
陈尧钧
印鉴
高静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Hengdian Information Technology Co ltd
National Sun Yat Sen University
Original Assignee
Guangdong Hengdian Information Technology Co ltd
National Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Hengdian Information Technology Co ltd, National Sun Yat Sen University filed Critical Guangdong Hengdian Information Technology Co ltd
Priority to CN201811556939.0A priority Critical patent/CN109657246B/zh
Publication of CN109657246A publication Critical patent/CN109657246A/zh
Application granted granted Critical
Publication of CN109657246B publication Critical patent/CN109657246B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于深度学习的抽取式机器阅读理解模型的建立方法,该方法使用卷积代替了广泛应用在机器阅读理解的LSTM、GRU等RNN的变种,不同于RNN当前时刻的计算依赖上一时刻,卷积是可以并行计算的,这使得模型不论训练还是推理速度都优于使用RNN变种的模型;在使用注意力机制捕捉关键信息时,使用到了多头注意力机制,使得对于文章这样的长文本能够捕捉所有相关的信息,进一步提升模型的准确率。

Description

一种基于深度学习的抽取式机器阅读理解模型的建立方法
技术领域
本发明涉及自然语言处理技术领域,更具体地,涉及一种基于深度学习的抽取式机器阅读理解模型的建立方法。
背景技术
自然语言处理是将人类自然语言转化为机器语言从而达到人机交互的一门技术。机器阅读理解是自然语言处理的核心任务之一,也是研究的热点之一,它对于搜索引擎、智能客服等都有直接的应用价值。阅读理解作为应试的常见题型,它需要应试者通过阅读原文和问题,然后综合原文和问题进行理解和推理,进而得到答案。这能够有效考察应试者理解文本的水平。而机器阅读理解与此类似,形式都是根据文章去提出一些问题,然后机器对问题进行作答。从答案类型的角度进行划分,可以分为选择题、问答题、完形填空等等。目前针对不同类型的题目都有相应的数据集陆陆续续地推出,推动着机器阅读理解的发展。比如针对问答题,就有SQuAD、MS MARCO数据集,但两个数据集设计有所不同。微软研究院发布的MS MARCO数据集要求对文本语义先进行归纳整合,再去生成具有自然语言形式的答案,所以针对此数据集的模型属于生成式模型。而斯坦福大学发布的SQuAD数据集将问题的标准答案设置为原文的一个片段,所以针对该数据集的模型属于抽取式模型,这类模型从原文中抽取一个片段作为答案。具体的抽取方法就是输出两个数字代表答案短语第一个单词和最后一个单词在原文的位置。
近年来深度学习的不断发展,使得LSTM、GRU等RNN的变种被广泛应用到机器阅读理解的任务中,结合注意力机制取得了不错的性能效果。但也正因为LSTM等RNN变种网络结构的使用,使得这些机器阅读理解模型的推理速度和训练速度都较慢。并且以往的模型大多在对文章进行注意力操作时仅进行一次,这对于长文本的文章来说可能无法捕捉到所有相关的信息,可能会漏掉一些关键信息。
发明内容
本发明提供一种基于深度学习的抽取式机器阅读理解模型的建立方法,利用该方法建立的模型可提升阅读理解的效率,并且保证较高的准确率。
为了达到上述技术效果,本发明的技术方案如下:
一种基于深度学习的抽取式机器阅读理解模型的建立方法,包括以下步骤:
S1:对文章和问题的句子进行分词;
S2:为每个文章词设置一个精准匹配特征,表示该文章词是否出现在问题中,如果出现则该特征置为1,否则置为0;
S3:把单词映射成词表当中对应的词向量,得到每个单词词级别的表示;
S4:把单词的每个字母映射成字符表当中对应的字符向量,输入到卷积神经网络训练得到固定大小的向量,得到每个单词字符级别的表示;
S5:将文章和问题的每个单词对应的词级别和字符级别的表示拼接在一起,分别输入到两层highway networks中,输出即为文章词和问题词的特征向量表示;
S6:将文章和问题的词向量表示分别通过多层卷积进行处理,从而融合每个词周围的上下文信息去调整每个词的表示;
S7:将S6得到的文章和问题的词向量表示通过文章-问题注意力机制,得到每个文章词对应相关的问题词表示;
S8:将S6得到的文章和问题的词向量表示通过问题-文章多头注意力机制,得到每个问题词对应相关的文章词表示;
S9:将S6得到的问题的词向量表示利用注意力机制,得到每个问题词对于整个问句表达的重要性占比,通过这个重要性占比与S8得到的每个问题词对应相关的文章词表示进行加权求和,从而得到一个与问题长度无关的向量,该向量整合了和问题相关的文章词信息;
S10:将S6得到的文章词表示、S2得到的每个文章词对应的精准匹配特征、S7得到每个文章词对应相关的问题词向量、S6和S7得到的每个词向量表示对应元素相乘的结果、S6的每个文章词向量表示和S9得到的向量对应元素相乘的结果进行合并,再次输入到多层卷积进行处理,从而融合每个文章词周围的上下文信息和精准匹配特征及结合S7、S9的注意力计算结果去整合每个词的表示;
S11:将S10得到的文章词向量表示通过文章-文章多头注意力机制,得到每个文章词在全文范围内的对应相关的上下文表示;
S12:将S10得到的文章词表示与S11得到的每个文章词对应相关的上下文表示进行合并,输入到多层卷积进行处理,从而融合每个词周围上下文和全局范围内的上下文去调整每个文章词的表示;
S13:将S12得到的文章词表示进行线性变换后,经过softmax函数进行归一化转化为一个概率分布,该分布代表了文章中每个单词是标准答案短语第一个单词的概率,优化该概率分布,作为模型的优化目标之一,使得标准答案短语第一个单词在原文的位置对应的概率相应增大,即通过代表标准答案短语的第一个单词在原文位置的One-hot向量和该概率分布计算交叉熵损失,得到Ls
S14:预测答案短语最后一个单词的位置需要将预测答案短语第一个单词的位置的信息考虑在内,所以对S12得到的文章词表示再一次经过多层卷积进行处理得到新的文章词表示,最后通过线性变换和softmax函数归一化得到一个概率分布,该分布代表了文章每个单词是标准答案短语最后一个单词的概率,优化该概率分布,作为模型的优化目标之一,使得标准答案短语最后一个单词在原文的位置对应的概率相应增大,即通过代表标准答案短语的最后一个单词在原文位置的One-hot向量与该概率分布计算交叉熵损失,得到Le
S15:将S13和S14的两个优化目标相结合,即把S13的Ls和S14的Le相加,就得到损失函数,使用基于梯度下降原理的优化器来进行优化训练;
S16:取S13和S14两个概率分布最大值的位置,分别对应了模型预测的答案短语的第一个单词和最后一个单词在原文中的位置,这两个位置区间的单词序列即为模型预测的答案短语。
进一步地,所述步骤S6中的多层卷积过程如下:
1)、设定多层卷积操作输出的词向量表示的维度大小为d,d为超参数,输入的每个词向量表示维度大小为v,词的个数为t个,则输入的大小1×t×v,如果d≠v,则需要先经过一层卷积操作,即设置步长为1,使用d个大小为1×1×v的卷积核对输入的词向量堆叠的矩阵进行卷积,则输出的每个词向量表示的维度大小就转化为d;
2)、设定每次要卷积的词的个数为k个,k为超参数,设置步长为1,使用d个大小为1×k×d的卷积核对输入的矩阵进行卷积操作,再经过relu激活函数得到输出;
3)、设定多层卷积的层数为z,z为超参数,所以步骤2)循环z次,每层的输入都为上一层的输出,且每次进行卷积前,为保证输出的词向量个数一致,对输入补零;
4)、设定步长为1,对步骤3)最后一层的输出使用d个大小为1×1×d的卷积核对其进行卷积操作,经过relu激活函数得到输出后再次使用d个大小为1×1×d的卷积核对其进行卷积操作,从而对特征进行进一步整合。
进一步地,所述的步骤S7中的文章-问题注意力机制过程如下:
1)、所有问题词表示进行堆叠就形成问题矩阵Q,所有文章词表示进行堆叠就形成文章矩阵P,矩阵Q和矩阵P的每一行都代表了一个词向量表示,输入一个文章词向量表示和一个问题词向量表示及它们向量对应元素相乘的结果,将三者拼接后进行线性变换,就得到该文章词和该问题词的相关性分数,为矩阵P的每个文章词表示和矩阵Q的每个问题词表示都计算相关性分数,就得到了相关性分数矩阵S,Sij表示第i个文章词和第j个问题词相关性分数;
2)、对步骤1)得到的矩阵S按以下方式计算:
A=softmax(S)Q
其中,矩阵A的每行代表了对应位置的文章词相关的问题词表示。
进一步地,所述的步骤S8中的问题-文章多头注意力机制过程如下:
1)、将所有问题词表示堆叠成的问题矩阵Q和文章词表示堆叠成的文章矩阵P通过线性变换映射到不同空间m次,得到Q1,Q2…Qm和P1,P2…Pm,m为超参数;
2)、由步骤1)得到m个问题矩阵与m个文章矩阵按以下方式计算:
Figure BDA0001912187770000041
其中,1≤i≤m且i为整数,
Figure BDA0001912187770000042
为一个文章词向量表示的维度大小,矩阵Hi的每行代表了对应位置的问题词相关的文章词表示;
3)、最后将步骤2)得到的这m个相关文章词矩阵进行合并通过线性变换将这m次注意力计算的结果整合为一个矩阵,这个矩阵的每行代表了对应位置的问题词相关的文章词表示。
进一步地,所述的步骤S11中的文章-文章多头注意力机制过程如下:
1)、将所有文章词表示堆叠成的文章矩阵P通过线性变换映射到不同空间m次,P1,P2…Pm,m为超参数;
2)、由步骤1)得到m个文章矩阵按以下方式计算:
Figure BDA0001912187770000051
其中,1≤i≤m且i为整数,
Figure BDA0001912187770000052
为一个文章词向量表示的维度大小,矩阵Hi的每行代表了对应位置的文章词相关的上下文表示;
3)最后将步骤2)得到的这m个相关上下文矩阵进行合并通过线性变换将这m次自注意力机制计算得到的结果整合为一个矩阵,这个矩阵的每行代表了对应位置的文章词相关的上下文表示。
其中,模型的每层输入都会进行Batch Normalization,用以调整输入的分布和防止进行优化训练时梯度无法下降,并且层与层之间会进行残差连接;步骤S15的优化器包括:SGD+Momentum、AdaDelta或者Adam。
与现有技术相比,本发明技术方案的有益效果是:
本发明使用卷积代替了广泛应用在机器阅读理解的LSTM、GRU等RNN的变种。不同于RNN当前时刻的计算依赖上一时刻,卷积是可以并行计算的,这使得模型不论训练还是推理速度都优于使用RNN变种的模型。
本发明在使用注意力机制捕捉关键信息时,使用到了多头注意力机制,使得对于文章这样的长文本能够捕捉所有相关的信息,进一步提升模型的准确率。
附图说明
图1为本发明方法的流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,一种基于深度学习的抽取式机器阅读理解模型的建立方法,其具体实现包括以下步骤:
R1、对文章和问题的句子进行分词。
R2、为每个文章词设置一个精准匹配特征,表示该文章词是否出现在问题中,如果出现则该特征置为1,否则置为0。
R3、把单词映射成词表当中对应的词向量,得到每个单词词级别的表示,词表中的词向量为预训练的Glove词向量,维度大小为300。
R4、把单词的每个字母映射成字符表当中对应的字符向量,字符向量的维度大小为64。设置每个单词字母个数为16,个数小于16则进行补零,大于16则直接截断。每次卷积的字母个数为5,所以使用96个大小为1×5×64的卷积核对大小为1×16×64的单词进行卷积操作,并且卷积操作的步长设为1,然后再对每个卷积核卷积的结果进行最大池化得到固定大小的向量。对每个单词都进行卷积,就得到每个单词字符级别的表示。
R5、将文章和问题的每个单词对应的词级别和字符级别的表示拼接在一起,分别输入到两层highway networks中,输出即为文章词和问题词的特征向量表示,并且输出的每个词向量维度大小为96。
R6、将文章和问题的词向量表示堆叠成的矩阵使用多层卷积操作,具体过程如下:设定层数为7,设置步长为1,每次卷积单词个数为7,则一层卷积操作为使用96个大小为1×7×96的卷积核对输入的矩阵进行卷积操作,再经过relu激活函数得到输出。多层卷积每层的输入为上一层的输出。再使用96个大小为1×1×96的卷积核进行卷积操作,经过relu激活函数得到输出后再次使用96个大小为1×1×96的卷积核对输出进行卷积操作。
R7、将R6得到的文章和问题的词向量表示通过文章-问题注意力机制,得到每个文章词对应相关的问题词表示,具体过程如下:所有问题词表示进行堆叠就形成问题矩阵Q,所有文章词表示进行堆叠就形成文章矩阵P,矩阵Q和矩阵P的每一行都代表了一个词向量表示,输入一个文章词向量表示和一个问题词向量表示及它们向量对应元素相乘的结果,将三者拼接后进行线性变换,就得到该文章词和该问题词的相关性分数。为矩阵P的每个文章词表示和矩阵Q的每个问题词表示都计算相关性分数,就得到了相关性分数矩阵S,Sij表示第i个文章词和第j个问题词相关性分数;对得到的矩阵S按以下方式计算:
A=softmax(S)Q
其中,矩阵A的每行代表了对应位置的文章词相关的问题词表示。
R8、将R6得到的文章和问题的词向量表示通过问题-文章多头注意力机制,得到每个问题词对应相关的文章词表示,具体过程如下:将所有问题词表示堆叠成的问题矩阵Q和文章词表示堆叠成的文章矩阵P通过线性变换映射到不同空间8次,得到Q1,Q2…Q8和P1,P2…P8。将得到的8个问题矩阵与8个文章矩阵按以下方式计算:
Figure BDA0001912187770000071
其中,1≤i≤8且i为整数,矩阵Hi的每行代表了对应位置的问题词相关的文章词表示。最后将得到的这8个相关文章词矩阵进行合并通过线性变换将这8次注意力计算的结果整合为一个矩阵,这个矩阵的每行代表了对应位置的问题词相关的文章词表示。
R9、将R6得到的问题的词向量表示利用注意力机制,得到每个问题词对于整个问句表达的重要性占比,通过这个重要性占比与R8得到的每个问题词对应相关的文章词表示进行加权求和,从而得到一个与问题长度无关的向量,该向量整合了和问题相关的文章词信息。
R10、将R6得到的文章词表示、R2得到的每个文章词对应的精准匹配特征、R7得到每个文章词对应相关的问题词向量、R6和R7得到的每个词向量表示对应元素相乘的结果、R6的每个文章词向量表示和R9得到的向量对应元素相乘的结果进行合并,再次输入到多层卷积进行处理。多层卷积具体过程如下:此时输入的每个词向量维度大小为385≠96,所以先经过一层卷积操作,即设置步长为1,使用96个大小为1×1×385的卷积核对输入进行卷积,则输出的每个词向量表示的维度大小就转化为96。再进行多层卷积,先设定层数为4,设置步长为1,每次卷积单词个数为5,则一层卷积操作为使用96个大小为1×5×96的卷积核对输入的矩阵进行卷积操作,再经过relu激活函数得到输出。多层卷积每层的输入为上一层的输出。再使用96个大小为1×1×96的卷积核进行卷积操作,经过relu激活函数得到输出后再次使用96个大小为1×1×96的卷积核对输出进行卷积操作。
R11、将R10得到的文章词向量表示通过文章-文章多头注意力机制,得到每个文章词在全文范围内的对应相关的上下文表示,具体过程如下:将所有文章词表示堆叠成的文章矩阵P通过线性变换映射到不同空间8次,P1,P2…P8,然后将得到8个文章矩阵按以下方式计算:
Figure BDA0001912187770000081
其中,1≤i≤8且i为整数,矩阵Hi的每行代表了对应位置的文章词相关的上下文表示。最后将得到的这8个相关上下文矩阵进行合并通过线性变换将这8次自注意力机制计算得到的结果整合为一个矩阵,这个矩阵的每行代表了对应位置的文章词相关的上下文表示。
R12、将R10得到的文章词表示与R11得到的每个文章词对应相关的上下文表示进行合并,输入到多层卷积进行处理。多层卷积具体过程如下:此时的输入的每个词向量维度大小为192≠96,所以先经过一层卷积操作,即设置步长为1,使用96个大小为1×1×192的卷积核对输入进行卷积,则输出的每个词向量表示的维度大小就转化为96。再进行多层卷积,先设定层数为14,设置步长为1,每次卷积单词个数为5,则一层卷积操作为使用96个大小为1×5×96的卷积核对输入的矩阵进行卷积操作,再经过relu激活函数得到输出。多层卷积每层的输入为上一层的输出。再使用96个大小为1×1×96的卷积核进行卷积操作,经过relu激活函数得到输出后再次使用96个大小为1×1×96的卷积核对输出进行卷积操作。
R13、将R12得到的文章词表示进行线性变换后,经过softmax函数进行归一化转化为一个概率分布,该分布代表了文章中每个单词是标准答案短语第一个单词的概率,通过代表标准答案短语的第一个单词在原文位置的one-hot向量和该概率分布计算交叉熵损失,得到Ls
R14、将R12得到的文章词表示再一次经过多层卷积进行处理得到新的文章词表示,最后通过线性变换和softmax函数归一化得到一个概率分布,该分布代表了文章每个单词是标准答案短语最后一个单词的概率,通过代表标准答案短语的最后一个单词在原文位置的one-hot向量与该概率分布计算交叉熵损失,得到Le
R15、模型的每层输入都会进行Batch Normalization,并且层与层之间会进行残差连接。
R16、将R13的Ls和R14的Le相加,就得到损失函数,使用Adam优化器来进行优化训练。
R17、取R13和R14两个概率分布最大值的位置,分别对应了模型预测的答案短语的第一个单词和最后一个单词在原文中的位置,这两个位置区间的单词序列即为模型预测的答案短语。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (5)

1.一种基于深度学习的抽取式机器阅读理解模型的建立方法,其特征在于,包括以下步骤:
S1:对文章和问题的句子进行分词;
S2:为每个文章词设置一个精准匹配特征,表示该文章词是否出现在问题中,如果出现则该特征置为1,否则置为0;
S3:把单词映射成词表当中对应的词向量,得到每个单词词级别的表示;
S4:把单词的每个字母映射成字符表当中对应的字符向量,输入到卷积神经网络训练得到固定大小的向量,得到每个单词字符级别的表示;
S5:将文章和问题的每个单词对应的词级别和字符级别的表示拼接在一起,分别输入到两层highway networks中,输出即为文章词和问题词的特征向量表示;
S6:将文章和问题的词向量表示分别通过多层卷积进行处理,从而融合每个词周围的上下文信息去调整每个词的表示;
S7:将S6得到的文章和问题的词向量表示通过文章-问题注意力机制,得到每个文章词对应相关的问题词表示;
S8:将S6得到的文章和问题的词向量表示通过问题-文章多头注意力机制,得到每个问题词对应相关的文章词表示;
S9:将S6得到的问题的词向量表示利用注意力机制,得到每个问题词对于整个问句表达的重要性占比,通过这个重要性占比与S8得到的每个问题词对应相关的文章词表示进行加权求和,从而得到一个与问题长度无关的向量,该向量整合了和问题相关的文章词信息;
S10:将S6得到的文章词表示、S2得到的每个文章词对应的精准匹配特征、S7得到每个文章词对应相关的问题词向量、S6和S7得到的每个词向量表示对应元素相乘的结果、S6的每个文章词向量表示和S9得到的向量对应元素相乘的结果进行合并,再次输入到多层卷积进行处理,从而融合每个文章词周围的上下文信息和精准匹配特征及结合S7、S9的注意力计算结果去整合每个词的表示;
S11:将S10得到的文章词向量表示通过文章-文章多头注意力机制,得到每个文章词在全文范围内的对应相关的上下文表示;
S12:将S10得到的文章词表示与S11得到的每个文章词对应相关的上下文表示进行合并,输入到多层卷积进行处理,从而融合每个词周围上下文和全局范围内的上下文去调整每个文章词的表示;
S13:将S12得到的文章词表示进行线性变换后,经过softmax函数进行归一化转化为一个概率分布,该分布代表了文章中每个单词是标准答案短语第一个单词的概率,优化该概率分布,作为模型的优化目标之一,使得标准答案短语第一个单词在原文的位置对应的概率相应增大,即通过代表标准答案短语的第一个单词在原文位置的One-hot向量和该概率分布计算交叉熵损失,得到Ls
S14:预测答案短语最后一个单词的位置需要将预测答案短语第一个单词的位置的信息考虑在内,所以对S12得到的文章词表示再一次经过多层卷积进行处理得到新的文章词表示,最后通过线性变换和softmax函数归一化得到一个概率分布,该分布代表了文章每个单词是标准答案短语最后一个单词的概率,优化该概率分布,作为模型的优化目标之一,使得标准答案短语最后一个单词在原文的位置对应的概率相应增大,即通过代表标准答案短语的最后一个单词在原文位置的One-hot向量与该概率分布计算交叉熵损失,得到Le
S15:将S13和S14的两个优化目标相结合,即把S13的Ls和S14的Le相加,就得到损失函数,使用基于梯度下降原理的优化器来进行优化训练;
S16:取S13和S14两个概率分布最大值的位置,分别对应了模型预测的答案短语的第一个单词和最后一个单词在原文中的位置,这两个位置区间的单词序列即为模型预测的答案短语。
2.根据权利要求1所述的基于深度学习的抽取式机器阅读理解模型的建立方法,其特征在于,所述步骤S6中的多层卷积过程如下:
1)、设定多层卷积操作输出的词向量表示的维度大小为d,d为超参数,输入的每个词向量表示维度大小为v,词的个数为t个,则输入的大小1×t×v,如果d≠v,则需要先经过一层卷积操作,即设置步长为1,使用d个大小为1×1×v的卷积核对输入的词向量堆叠的矩阵进行卷积,则输出的每个词向量表示的维度大小就转化为d;
2)、设定每次要卷积的词的个数为k个,k为超参数,设置步长为1,使用d个大小为1×k×d的卷积核对输入的矩阵进行卷积操作,再经过relu激活函数得到输出;
3)、设定多层卷积的层数为z,z为超参数,所以步骤2)循环z次,每层的输入都为上一层的输出,且每次进行卷积前,为保证输出的词向量个数一致,对输入补零;
4)、设定步长为1,对步骤3)最后一层的输出使用d个大小为1×1×d的卷积核对其进行卷积操作,经过relu激活函数得到输出后再次使用d个大小为1×1×d的卷积核对其进行卷积操作,从而对特征进行进一步整合。
3.根据权利要求2所述的基于深度学习的抽取式机器阅读理解模型的建立方法,其特征在于,所述的步骤S7中的文章-问题注意力机制过程如下:
1)、所有问题词表示进行堆叠就形成问题矩阵Q,所有文章词表示进行堆叠就形成文章矩阵P,矩阵Q和矩阵P的每一行都代表了一个词向量表示,输入一个文章词向量表示和一个问题词向量表示及它们向量对应元素相乘的结果,将三者拼接后进行线性变换,就得到该文章词和该问题词的相关性分数,为矩阵P的每个文章词表示和矩阵Q的每个问题词表示都计算相关性分数,就得到了相关性分数矩阵S,Sij表示第i个文章词和第j个问题词相关性分数;
2)、对步骤1)得到的矩阵S按以下方式计算:
A=softmax(S)Q
其中,矩阵A的每行代表了对应位置的文章词相关的问题词表示。
4.根据权利要求3所述的基于深度学习的抽取式机器阅读理解模型的建立方法,其特征在于,所述的步骤S8中的问题-文章多头注意力机制过程如下:
1)、将所有问题词表示堆叠成的问题矩阵Q和文章词表示堆叠成的文章矩阵P通过线性变换映射到不同空间m次,得到Q1,Q2...Qm和P1,P2...Pm,m为超参数;
2)、由步骤1)得到m个问题矩阵与m个文章矩阵按以下方式计算:
Figure FDA0002538922640000031
其中,1≤i≤m且i为整数,
Figure FDA0002538922640000032
为一个文章词向量表示的维度大小,矩阵Hi的每行代表了对应位置的问题词相关的文章词表示;
3)、最后将步骤2)得到的这m个相关文章词矩阵进行合并通过线性变换将这m次注意力计算的结果整合为一个矩阵,这个矩阵的每行代表了对应位置的问题词相关的文章词表示。
5.根据权利要求4所述的基于深度学习的抽取式机器阅读理解模型的建立方法,其特征在于,所述的步骤S11中的文章-文章多头注意力机制过程如下:
1)、将所有文章词表示堆叠成的文章矩阵P通过线性变换映射到不同空间m次,P1,P2...Pm
2)、由步骤1)得到m个文章矩阵按以下方式计算:
Figure FDA0002538922640000033
其中,1≤i≤m且i为整数,
Figure FDA0002538922640000034
为一个文章词向量表示的维度大小,矩阵Hi’的每行代表了对应位置的文章词相关的上下文表示;
3)最后将步骤2)得到的这m个相关上下文矩阵进行合并通过线性变换将这m次自注意力机制计算得到的结果整合为一个矩阵,这个矩阵的每行代表了对应位置的文章词相关的上下文表示。
CN201811556939.0A 2018-12-19 2018-12-19 一种基于深度学习的抽取式机器阅读理解模型的建立方法 Active CN109657246B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811556939.0A CN109657246B (zh) 2018-12-19 2018-12-19 一种基于深度学习的抽取式机器阅读理解模型的建立方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811556939.0A CN109657246B (zh) 2018-12-19 2018-12-19 一种基于深度学习的抽取式机器阅读理解模型的建立方法

Publications (2)

Publication Number Publication Date
CN109657246A CN109657246A (zh) 2019-04-19
CN109657246B true CN109657246B (zh) 2020-10-16

Family

ID=66115190

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811556939.0A Active CN109657246B (zh) 2018-12-19 2018-12-19 一种基于深度学习的抽取式机器阅读理解模型的建立方法

Country Status (1)

Country Link
CN (1) CN109657246B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263321B (zh) * 2019-05-06 2023-06-09 成都数联铭品科技有限公司 一种情感词典构建方法及系统
CN110222152B (zh) * 2019-05-29 2021-05-14 北京邮电大学 一种基于机器阅读理解的问题答案获取方法及系统
CN110321486B (zh) * 2019-06-28 2021-08-03 北京科技大学 一种网络商城的推荐方法和装置
CN110457710B (zh) * 2019-08-19 2022-08-02 电子科技大学 一种基于动态路由机制的机器阅读理解网络模型的建立方法、方法、存储介质及终端
CN112417089B (zh) * 2019-08-21 2022-12-09 东北大学秦皇岛分校 一种基于深度学习的高并行性阅读理解的方法
CN110704587B (zh) * 2019-08-22 2023-10-20 平安科技(深圳)有限公司 文本答案的查找方法及装置
CN110705273B (zh) * 2019-09-02 2023-06-13 腾讯科技(深圳)有限公司 基于神经网络的信息处理方法及装置、介质和电子设备
CN110597991B (zh) * 2019-09-10 2021-08-17 腾讯科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质
CN110647629B (zh) * 2019-09-20 2021-11-02 北京理工大学 一种多粒度答案排序的多文档机器阅读理解方法
CN110688491B (zh) * 2019-09-25 2022-05-10 暨南大学 基于深度学习的机器阅读理解方法、系统、设备及介质
CN110750998B (zh) * 2019-10-14 2023-10-31 腾讯科技(深圳)有限公司 一种文本输出方法、装置、计算机设备和存储介质
CN110795535A (zh) * 2019-10-28 2020-02-14 桂林电子科技大学 一种深度可分离卷积残差块的阅读理解方法
CN110879934B (zh) * 2019-10-31 2023-05-23 杭州电子科技大学 一种基于Wide&Deep深度学习模型的文本预测方法
CN111259142B (zh) * 2020-01-14 2020-12-25 华南师范大学 基于注意力编码和图卷积网络的特定目标情感分类方法
CN112183085A (zh) * 2020-09-11 2021-01-05 杭州远传新业科技有限公司 机器阅读理解方法、装置、电子设备及计算机存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108717574A (zh) * 2018-03-26 2018-10-30 浙江大学 一种基于连词标记和强化学习的自然语言推理方法
CN108717413A (zh) * 2018-03-26 2018-10-30 浙江大学 一种基于假设性半监督学习的开放领域问答方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10592607B2 (en) * 2016-06-03 2020-03-17 Microsoft Technology Licensing, Llc Iterative alternating neural attention for machine reading
CN108415977B (zh) * 2018-02-09 2022-02-15 华南理工大学 一个基于深度神经网络及强化学习的生成式机器阅读理解方法
CN108664632B (zh) * 2018-05-15 2021-09-21 华南理工大学 一种基于卷积神经网络和注意力机制的文本情感分类算法
CN108959396B (zh) * 2018-06-04 2021-08-17 众安信息技术服务有限公司 机器阅读模型训练方法及装置、问答方法及装置
CN108959246B (zh) * 2018-06-12 2022-07-12 北京慧闻科技(集团)有限公司 基于改进的注意力机制的答案选择方法、装置和电子设备
CN109033068B (zh) * 2018-06-14 2022-07-12 北京慧闻科技(集团)有限公司 基于注意力机制的用于阅读理解的方法、装置和电子设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108717574A (zh) * 2018-03-26 2018-10-30 浙江大学 一种基于连词标记和强化学习的自然语言推理方法
CN108717413A (zh) * 2018-03-26 2018-10-30 浙江大学 一种基于假设性半监督学习的开放领域问答方法

Also Published As

Publication number Publication date
CN109657246A (zh) 2019-04-19

Similar Documents

Publication Publication Date Title
CN109657246B (zh) 一种基于深度学习的抽取式机器阅读理解模型的建立方法
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN106980683B (zh) 基于深度学习的博客文本摘要生成方法
CN106547737B (zh) 基于深度学习的自然语言处理中的序列标注方法
CN109947912A (zh) 一种基于段落内部推理和联合问题答案匹配的模型方法
CN109871538A (zh) 一种中文电子病历命名实体识别方法
CN104598611B (zh) 对搜索条目进行排序的方法及系统
CN108829719A (zh) 一种非事实类问答答案选择方法及系统
CN107329949A (zh) 一种语义匹配方法和系统
CN108804677A (zh) 结合多层级注意力机制的深度学习问题分类方法及系统
CN111222305A (zh) 一种信息结构化方法和装置
CN110990555B (zh) 端到端检索式对话方法与系统及计算机设备
CN110096711A (zh) 序列全局关注和局部动态关注的自然语言语义匹配方法
US20190057084A1 (en) Method and device for identifying information
CN110390106B (zh) 基于双向关联的语义消歧方法、装置、设备及存储介质
US20210174003A1 (en) Sentence encoding and decoding method, storage medium, and device
CN110110800A (zh) 自动图像标注方法、装置、设备及计算机可读存储介质
CN111984772A (zh) 一种基于深度学习的医疗影像问答方法及系统
CN110516070A (zh) 一种基于文本纠错与神经网络的中文问句分类方法
CN112988963A (zh) 基于多流程节点的用户意图预测方法、装置、设备及介质
CN109977404A (zh) 基于深度学习的答案抽取方法、装置和存储介质
CN114077673A (zh) 一种基于btbc模型的知识图谱构建方法
CN109948163A (zh) 序列动态阅读的自然语言语义匹配方法
CN114781380A (zh) 一种融合多粒度信息的中文命名实体识别方法、设备和介质
Lhasiw et al. A bidirectional LSTM model for classifying Chatbot messages

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant