CN109933792B - 基于多层双向lstm和验证模型的观点型问题阅读理解方法 - Google Patents
基于多层双向lstm和验证模型的观点型问题阅读理解方法 Download PDFInfo
- Publication number
- CN109933792B CN109933792B CN201910180548.1A CN201910180548A CN109933792B CN 109933792 B CN109933792 B CN 109933792B CN 201910180548 A CN201910180548 A CN 201910180548A CN 109933792 B CN109933792 B CN 109933792B
- Authority
- CN
- China
- Prior art keywords
- vector
- article
- representation
- feature
- articles
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于多层双向LSTM和验证模型的观点型问题阅读理解方法,所述方法融合了抽取式模型和判别式模型的优点,在阅读理解、特征学习的基础上,加入推理建模,以得到问题和文章具有推理性的特征表示,并且在后续学习中将候选答案与正确答案的关系作为分类问题,设计了相应的Loss函数,针对部分问题在给定文章中得不到正确答案的情况,设计了验证模型,所述方法在处理观点型问题阅读理解数据集时相比现有的方法准确率更高。
Description
技术领域
本发明涉及机器学习技术领域,尤其涉及基于多层双向LSTM和验证模型的观点型问题阅读理解方法。
背景技术
观点型问题阅读理解的特点是,给定一个问题以及一篇文章,利用文章中多个句子的信息得出正确答案,现有的技术通常是对整篇文章进行建模,利用神经网络模型从文章中提取出与给定问题相关的段落,并从中提取出候选答案,再从候选答案中得到正确答案,然而此类方法在学习过程中都存在一个重要的强假设,即在给定的文章中始终存在候选答案,这样会使得在处理主观性较强、针对没有明确答案的问题时无法得到正确答案,现有的方法使得机器在观点型问题阅读理解中回答无法推断出答案的问题时表现不好,并且会影响整个观点型问题阅读理解系统的表现,使其表现出较差的理解能力和推理能力。
发明内容
鉴以此,本发明的目的在于提供一种基于多层双向LSTM和验证模型的观点型问题阅读理解方法,以至少解决以上问题。
基于多层双向LSTM和验证模型的观点型问题阅读理解方法,所述方法包括以下步骤:
S1、对文章及问题中的句子进行预处理,所述预处理包括分词、词性标注、命名实体识别,将单词映射成词表当中对应的词向量,并与词性及命名实体类型的特征向量拼接在一起,形成文章和问题的初始特征向量表示;
S2、将文章与问题的初始特征向量表示分别通过第一层BiLSTM进行处理,得到文章和问题的浅层特征表示;
S3、将文章与问题的浅层特征表示进行推理建模,得到文章和问题具有推理关系的浅层特征表示,将文章和问题具有推理关系的浅层特征表示通过第二层BiLSTM进行处理,得到文章和问题具有相关性的深层特征表示;
S4、对问题中各单词的表示进行加权组合,形成一个与问题长度无关的向量,通过向量与文章的向量表示做内积,抽取出文章中能够用于回答问题的信息片段,再次通过注意力机制,对信息片段进行加权组合,形成一个与文章长度无关的向量,作为解码器的初始隐状态输入;
S5、使用一个单向LSTM作为解码器,并以文章的最终特征向量表示作为其输入序列,按照序列到序列的方式逐个单词地生成对应的候选答案;
S6、将能否从文章中获取到合理的候选答案的问题建模成二分类模型,通过二分类模型对得到的候选答案的合理性进行验证;
S7、根据候选答案合理性对生成的答案文本进行处理,输出正确答案。
进一步的,步骤S3中,推理建模具体包括:假设得到的浅层特征表示对为<pi,qj>,计算特征表示对的点积作为注意力权重,对注意力权重进行归一化获得伴随向量,如公式(1)、(2)所示,
其中,pi为文章的伴随向量,qj为问题的伴随向量,lp为文章的伴随向量长度,lq为问题的伴随向量长度,aij为<pi,qj>的注意力权重,随后通过BiLSTM进行建模,得到具有推理性的文章特征表示和具有推理性的问题特征表示
进一步的,步骤S4中,对观点型问题的答案分为是、否、无法判断三类,在做内积抽取信息片段时,将三分类问题与信息片段作为联合任务进行建模,所述建模包括:将问题和文章的最终特征表示进行串联,得到新特征表示sjoint;将sjoint输入到判别模型中,得到正确答案所属分类的概率,所述判别模型的DisQALoss函数如公式(3)和(4)所示,
p(y|sjonit)=softmax((wssjoint+b)wy) (3)
其中,y为表示三个类别的向量,ws为特征的权重,wy为类别的权重,b为偏置量。
进一步的,步骤S6具体包括以下步骤:将问题和文章的最终特征表示串联,得到新特征表示sjoint;将sjoint输入到二分类验证模型中,得到正确答案所属分类的概率,所述判别模型的VerQALoss函数如公式(5)所示,
进一步的,将步骤S6中得到的二维向量表示通过logistic regression函数进行处理得到一个概率分布,对概率分布进行优化。
进一步的,将问题的注意力加权组合向量与文章的最终向量表示做内积,其结果通过softmax函数转化为概率分布,对概率分布进行优化。
进一步的,将问题和文章的最终向量表示与权重做内积得到一个三维向量表示,通过softmax函数转化为概率分布,对概率分布进行优化。
进一步的,步骤S7中,设定阈值tv,当不存在合理的候选答案的概率大于或等于tv时,输出答案为无法确定;当不存在合理的候选答案的概率小于tv时,输出答案为步骤S5中得出的候选答案。
与现有技术相比,本发明的有益效果是:
本发明提供一种基于多层双向LSTM和验证模型的观点型问题阅读理解方法,采用先阅读后验证的方式来进行观点型问题阅读理解的建模先利用神经网络从给定文章中提取候选答案,再对候选答案进行验证其是否合理,即该问题是否能从给定文章中得到正确答案,本方法融合了抽取式模型和判别式模型的优点,采用多任务联合优化的方式进行训练,有利于更精准地选取候选答案,相较于现有方法在处理观点型问题阅读理解时准确率更高。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的优选实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的整体模型设计示意图。
图2是本发明实施例的具体模型设计示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所列举实施例只用于解释本发明,并非用于限定本发明的范围。
本发明提供一种多层双向LSTM和验证模型的观点型问题阅读理解方法,所述方法具体包括以下步骤:
S1、对文章及问题中的句子进行预处理,所述预处理包括分词、词性标注、命名实体识别,将单词映射成词表当中对应的词向量,并与词性及命名实体类型的特征向量拼接在一起,形成文章和问题的初始特征向量表示。
S2、将文章与问题的初始特征向量表示分别通过第一层BiLSTM进行处理,得到文章和问题的浅层特征表示。
S3、将文章与问题的浅层特征表示进行推理建模,得到文章和问题具有推理关系的浅层特征表示,将文章和问题具有推理关系的浅层特征表示通过第二层BiLSTM进行处理,得到文章和问题具有相关性的深层特征表示。
该步骤中,通过对文章与问题的特征表示进行推理建模,捕捉问题和文章之间的相互作用,从而分别得到问题和文章具有推理关系的浅层特征表示。
所述推理建模的数学表示为:假设文章与问题的浅层特征表示对为<pi,qj>,计算浅层特征表示对的点积作为注意力权重,随后对注意力权重进行归一化获得伴随向量,如公式(1)、(2)所示,
其中,pi为文章的伴随向量,qj为问题的伴随向量,lp为文章的伴随向量长度,lq为问题的伴随向量长度,aij为<pi,qj>的注意力权重,随后通过BiLSTM进行建模,得到具有推理性的文章特征表示和具有推理性的问题特征表示
S4、对问题中各单词的表示进行加权组合,形成一个与问题长度无关的向量通过向量与文章的向量表示做内积,抽取出文章中能够用于回答问题的信息片段,再次通过注意力机制,对信息片段进行加权组合,形成一个与文章长度无关的向量作为解码器的初始隐状态输入。
在本发明的可选实施例中,步骤S4通过自匹配注意力机制,对问题中各个单词的表示进行加权组合。并且,对于观点型问题的答案可以将其抽象为三分类问题,即是、否、无法判断三类,在做内积抽取能够用于回答问题的信息片段时,将三分类问题与信息片段作为联合任务进行建模,对问题和文章的最终向量和进行一个三分类判断。
所述建模包括:将问题和文章的最终特征表示和串联,得到新特征表示sjoint,将sjoint输入到判别模型中,得到答案所属分类的概率,其中,所述判别模型的DisQALoss函数如公式(3)和(4)所示,
p(y|sjonit)=softmax((wssjoint+b)wy) (3)
其中,y为表示三个类别的向量,ws为特征的权重,wy为类别的权重,b为偏置量。
S5、使用一个单向LSTM作为解码器,并以文章的最终特征向量表示作为其输入序列,按照序列到序列的方式逐个单词地生成对应的答案文本。
S6、将能否从文章中获取到合理的候选答案的问题建模成二分类模型,通过该模型对得到的候选答案的合理性进行验证。
步骤S6中,为了验证答案的合理性,将能否从文章中获取到合理的候选答案的问题建模成二分类模型。具体包括以下步骤:将问题和文章的最后特征表示串联,得到新特征表示sjoint;将sjoint输入到二分类验证模型中,通过将sjoint与权重做内积,得到sjoint的二维表示,进而得到所属类别的概率,所述二分类验证模型的VerQALoss函数如公式(5)所示。
S7、根据候选答案合理性对生成的答案文本进行处理,输出正确答案。
步骤S7中,根据是否存在合理候选答案的概率,结合步骤S5中得到的答案文本,输出正确的答案。
在本发明的可选实施例中,步骤S7中得到是否存在合理候选答案的概率后,设定一个阈值tv,当不存在合理的候选答案的概率大于或等于tv时,输出答案为无法确定;当不存在合理的候选答案的概率小于tv时,则输出步骤S5中得出的候选答案。
在上述实施例的基础上,为了更加精准的从文章中抽取候选答案,本发明还采用了多任务联合优化的方式进行训练。主要包括以下几个方面:
一是将步骤S4中问题的注意力加权组合向量与文章的最终向量表示做内积,其结果通过softmax函数转换为概率分布,对概率分布进行优化,使文章中用于回答问题的有效信息片段的概率相应增大。
二是将问题和文章的最终向量表示与权重做内积得到一个三维向量表示,通过softmax函数将该三维向量表示转换为概率分布,对该概率分布进行优化,使该问题与文章对应的答案的正确率增大。
三是将步骤S6中得到的二维向量表示,通过logistic regression函数进行处理得到概率分布,对该概率分布进行优化,得到文章中是否存在该问题的答案的正确概率相应增大,即在输出答案之前,验证文章中是否包含问题的答案。
在进行多任务联合优化时,采用神经网络的BP算法训练模型,可以采用SGD、Mini-batch SGD、Momentum、AdaGrad以及AdaDelta等算法进行优化。
参照图1、图2,本方法采用先阅读后验证的模型来进行观点型问题阅读理解的建模,先利用神经网络从文章中提取候选答案,再对候选答案进行验证其是否合理,即该问题是否能从对应的文章中得到正确答案,本方法在应用于观点型问题阅读理解数据集时准确率比传统方法提升了3.07。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.基于多层双向LSTM和验证模型的观点型问题阅读理解方法,其特征在于,所述方法包括以下步骤:
S1、对文章及问题中的句子进行预处理,所述预处理包括分词、词性标注、命名实体识别,将单词映射成词表当中对应的词向量,并与词性及命名实体类型的特征向量拼接在一起,形成文章和问题的初始特征向量表示;
S2、将文章与问题的初始特征向量表示分别通过第一层BiLSTM进行处理,得到文章和问题的浅层特征表示;
S3、将文章与问题的浅层特征表示进行推理建模,得到文章和问题具有推理关系的浅层特征表示,将文章和问题具有推理关系的浅层特征表示通过第二层BiLSTM进行处理,得到文章和问题具有相关性的深层特征表示;
S4、对问题中各单词的表示进行加权组合,形成问题的最终特征表示向量通过向量与文章的向量表示做内积,抽取出文章中能够用于回答问题的信息片段,再次通过注意力机制,对信息片段进行加权组合,形成文章的最终特征表示向量作为解码器的初始隐状态输入,对观点型问题的答案分为是、否、无法判断三个类别,在做内积抽取信息片段时,将三分类问题与信息片段作为联合任务进行建模,所述建模包括:将问题的最终特征表示和文章的最终特征表示进行串联,得到新特征表示sjoint;将sjoint输入到判别模型中,得到正确答案所属分类的概率,所述判别模型的DisQA Loss函数如公式(3)和(4)所示,
p(y|sjonit)=softmax((wssjoint+b)wy) (3)
其中,y为表示三个类别的向量,ws为特征的权重,wy为类别的权重,b为偏置量;
S5、使用一个单向LSTM作为解码器,并以文章的最终特征向量表示作为其输入序列,按照序列到序列的方式逐个单词地生成对应的候选答案;
S6、将能否从文章中获取到合理的候选答案的问题建模成二分类模型,通过二分类模型对得到的候选答案的合理性进行验证,具体包括以下步骤:将问题的最终特征表示和文章的最终特征表示进行串联,得到新特征表示sjoint;将sjoint输入到二分类验证模型中,通过将sjoint与权重做内积,得到sjoint的二维向量表示,从而得到所属类别的概率,所述二分类验证模型的VerQA Loss函数如公式(5)所示,
S7、根据候选答案合理性对生成的答案文本进行处理,输出正确答案。
3.根据权利要求1所述的基于多层双向LSTM和验证模型的观点型问题阅读理解方法,其特征在于,将步骤S6中得到的二维向量表示通过logistic regression函数进行处理得到一个概率分布,对概率分布进行优化。
4.根据权利要求1所述的基于多层双向LSTM和验证模型的观点型问题阅读理解方法,其特征在于,将问题的注意力加权组合向量与文章的最终向量表示做内积,其结果通过softmax函数转化为概率分布,对概率分布进行优化。
5.根据权利要求1所述的基于多层双向LSTM和验证模型的观点型问题阅读理解方法,其特征在于,将问题和文章的最终向量表示与权重做内积得到一个三维向量表示,通过softmax函数转化为概率分布,对概率分布进行优化。
6.根据权利要求1所述的基于多层双向LSTM和验证模型的观点型问题阅读理解方法,其特征在于,步骤S7中,设定阈值tv,当不存在合理的候选答案的概率大于或等于tv时,输出答案为无法确定;当不存在合理的候选答案的概率小于tv时,输出答案为步骤S5中得出的候选答案。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910180548.1A CN109933792B (zh) | 2019-03-11 | 2019-03-11 | 基于多层双向lstm和验证模型的观点型问题阅读理解方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910180548.1A CN109933792B (zh) | 2019-03-11 | 2019-03-11 | 基于多层双向lstm和验证模型的观点型问题阅读理解方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109933792A CN109933792A (zh) | 2019-06-25 |
CN109933792B true CN109933792B (zh) | 2020-03-24 |
Family
ID=66986706
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910180548.1A Active CN109933792B (zh) | 2019-03-11 | 2019-03-11 | 基于多层双向lstm和验证模型的观点型问题阅读理解方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109933792B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110347813B (zh) * | 2019-06-26 | 2021-09-17 | 北京大米科技有限公司 | 一种语料处理方法、装置、存储介质及电子设备 |
CN110688854B (zh) * | 2019-09-02 | 2022-03-25 | 平安科技(深圳)有限公司 | 命名实体识别方法、装置及计算机可读存储介质 |
CN110781663B (zh) * | 2019-10-28 | 2023-08-29 | 北京金山数字娱乐科技有限公司 | 文本分析模型的训练方法及装置、文本分析方法及装置 |
CN110929265B (zh) * | 2019-11-25 | 2022-04-26 | 安徽工业大学 | 一种面向阅读理解问答的多角度答案验证方法 |
CN111143507B (zh) * | 2019-12-05 | 2023-05-02 | 重庆兆光科技股份有限公司 | 一种基于复合式问题的阅读理解方法 |
CN112417104B (zh) * | 2020-12-04 | 2022-11-11 | 山西大学 | 一种句法关系增强的机器阅读理解多跳推理模型及方法 |
CN112651225B (zh) * | 2020-12-29 | 2022-06-14 | 昆明理工大学 | 一种基于多阶段最大化注意力的多项选择机器阅读理解的方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101997783B1 (ko) * | 2017-08-18 | 2019-07-08 | 동아대학교 산학협력단 | 품사 분포와 양방향 LSTM CRFs를 이용한 음절 단위 형태소 분석기 및 분석 방법 |
CN108415977B (zh) * | 2018-02-09 | 2022-02-15 | 华南理工大学 | 一个基于深度神经网络及强化学习的生成式机器阅读理解方法 |
CN108628828B (zh) * | 2018-04-18 | 2022-04-01 | 国家计算机网络与信息安全管理中心 | 一种基于自注意力的观点及其持有者的联合抽取方法 |
-
2019
- 2019-03-11 CN CN201910180548.1A patent/CN109933792B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109933792A (zh) | 2019-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109933792B (zh) | 基于多层双向lstm和验证模型的观点型问题阅读理解方法 | |
CN110083705B (zh) | 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端 | |
CN112069811B (zh) | 多任务交互增强的电子文本事件抽取方法 | |
CN110377759B (zh) | 事件关系图谱构建方法及装置 | |
CN108846077B (zh) | 问答文本的语义匹配方法、装置、介质及电子设备 | |
CN110287323B (zh) | 一种面向目标的情感分类方法 | |
CN110969020A (zh) | 基于cnn和注意力机制的中文命名实体识别方法、系统及介质 | |
CN110222163A (zh) | 一种融合cnn与双向lstm的智能问答方法及系统 | |
CN112232053B (zh) | 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质 | |
CN109472462B (zh) | 一种基于多模型堆栈融合的项目风险评级方法及装置 | |
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN112069831A (zh) | 基于bert模型和增强混合神经网络的不实信息检测方法 | |
CN109918647A (zh) | 一种安全领域命名实体识别方法及神经网络模型 | |
CN109344399A (zh) | 一种基于堆叠双向lstm神经网络的文本相似度计算方法 | |
CN113868432B (zh) | 一种用于钢铁制造企业的知识图谱自动构建方法和系统 | |
CN114780690B (zh) | 基于多模态矩阵向量表示的专利文本检索方法及装置 | |
CN109614611B (zh) | 一种融合生成非对抗网络与卷积神经网络的情感分析方法 | |
CN110569355A (zh) | 一种基于词块的观点目标抽取和目标情感分类联合方法及系统 | |
CN110956039A (zh) | 一种基于多维度向量化编码的文本相似度计算方法及装置 | |
CN118296150B (zh) | 一种基于多对抗网络改进的评论情感识别方法 | |
CN113821587A (zh) | 文本相关性确定方法、模型训练方法、装置及存储介质 | |
CN111914553A (zh) | 一种基于机器学习的金融信息负面主体判定的方法 | |
CN114841151A (zh) | 基于分解-重组策略的医学文本实体关系联合抽取方法 | |
Jeyakarthic et al. | Optimal bidirectional long short term memory based sentiment analysis with sarcasm detection and classification on twitter data | |
CN116956228A (zh) | 一种技术交易平台的文本挖掘方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |