CN112380326B - 一种基于多层感知的问题答案抽取方法及电子装置 - Google Patents

一种基于多层感知的问题答案抽取方法及电子装置 Download PDF

Info

Publication number
CN112380326B
CN112380326B CN202011079727.5A CN202011079727A CN112380326B CN 112380326 B CN112380326 B CN 112380326B CN 202011079727 A CN202011079727 A CN 202011079727A CN 112380326 B CN112380326 B CN 112380326B
Authority
CN
China
Prior art keywords
representation
answer
question
document
inference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011079727.5A
Other languages
English (en)
Other versions
CN112380326A (zh
Inventor
林政�
付鹏
刘欢
王伟平
孟丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN202011079727.5A priority Critical patent/CN112380326B/zh
Publication of CN112380326A publication Critical patent/CN112380326A/zh
Application granted granted Critical
Publication of CN112380326B publication Critical patent/CN112380326B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于多层感知的问题答案抽取方法,其步骤包括:将一问题与若干目标文档拼接,输入到预训练语言模型中,得到问题的表示Q与目标文档的上下文表示P,将表示Q与上下文表示P交互,得到文档相关的问题表示u与融合问题信息的文档表示h;对问题表示u进行多层感知分类,获取问题的推理类型,并根据推理类型、问题表示u、文档表示h及通过表示Q生成的子问题ct,得到所述问题在目标文档中的答案注意力分布,其中t为生成子问题的次数;依据答案注意力分布,获取该问题的答案预测结果。本发明以子问题拆分的形式递进回答问题,引入推理类别分类器控制拆分,对问题的回答进行共享,提升推理阅读理解效果。

Description

一种基于多层感知的问题答案抽取方法及电子装置
技术领域
本发明属于自然语言处理领域,尤其涉及一种基于多层感知的问题答案抽取方法及电子装置。
背景技术
推理阅读理解是给定用户一个问题的多个相关文档,从文档中找到问题的答案和相关的证据句子。推理阅读理解问题需要模型结合问题,对文本语义上的含义进行推理,找到问题的相关证据句子和最终答案。推理阅读模型整体上可以分为三大类方法。一类是记忆网络的方法,通过不断迭代更新推理状态来模拟推理过程;另一类是基于图神经网络的方式,通过图神经网络的更新来进行推理;还有一些其他的基于深度学习的方法。其中,基于图神经网络的推理阅读理解模型的框架整体可以分为三个部分:1)语义编码阶段;2)推理建模阶段;3)证据和答案预测阶段。语义编码阶段将问题、文档编码成具有上下文语义信息的词向量,推理建模阶段将使用图神经网络技术对推理过程进行建模,答案预测阶段得到词表示后进行相关证据句子和答案片段的预测。针对一些候选段落较多的数据,还需要进行段落选择,段落选择阶段将从候选段落中选择相关段落,用作后续语义编码的输入。
基于记忆网络的方法比较典型的有Dynamic Co-attention Network(CaimingXiong,Victor Zhong,Richard Socher:Dynamic Coattention Networks For QuestionAnswering.ICLR,2017),该方法将模型分为编码和解码两部分,一方面,编码阶段使用了co-attention机制将问题和文档进行编码,得到问题相关的稳定表示;另一方面,在解码阶段,利用答案预测的结果进行迭代,每轮都会根据当前状态值去预测答案,根据答案预测结果更新当轮状态值,不断迭代更新,最后一轮的结果作为最终答案。
基于图神经网络的方法比较典型的有DFGN模型(Lin Qiu,Yunxuan Xiao,YanruQu,Hao Zhou,Lei Li,Weinan Zhang,Yong Yu:Dynamically Fused Graph Network forMulti-hop Reasoning.ACL 2019:6140-6150)。DFGN模型首先使用Bert对文档独立分类,进行段落选择,语义编码阶段使用Bert得到文档和问题的上下文词表示,推理建模阶段采用GAT的图神经网络实现,使用BiLSTM建模了图与词表示双向融合的过程,将图推理后得到的节点信息融合到词表示中,通过不断迭代这个图推理的过程来完成图信息与文本信息的双向融合,从而预测抽取式答案;此外,DFGN还建模了问题在图构建过程中的作用,采用BiAttention更新问题表示,根据问题表示与节点表示的匹配程度构建动态图,同时在迭代过程中不断更新问题表示。
其他非图神经网络的方法中,Jianxing Yu、Zhengjun Zha、Jian Yin等人设计了一种推理神经元(Inferential Machine Comprehension:Answering Questions byRecursively Deducing the Evidence Chain from Text.ACL 2019:2241-2251),通过循环链接这种推理神经元,模拟推理过程的链式结构。这种推理神经元包括记忆向量、读操作单元、写操作单元、控制器操作单元组成,控制器单元基于问题产生一系列基于注意力的操作,读操作单元根据控制器的操作指示读取相关内容,写单元根据控制器操作和读单元结果产生新的结果,并更新记忆向量,这个推理神经元是递归链接在一起的,前一步的输出是后一步的结果;此外,由于不同样本推理深度的不确定性,推理过程的终止动作是动态决定的,整个网络通过强化学习来训练。
Sewon Min、Victor Zhong、Luke Zettlemoyer、Hannaneh Hajishirzi等人提出的模型将问题分解成多个简单的子问题(Multi-hop Reading Comprehension throughQuestion Decomposition and Rescoring.ACL 2019:6097-6109),这些子问题可以较好的被现有的单跳阅读理解模型回答。为了较为容易的获取分解子问题的标注数据,他们将子问题形式化成原来问题的片段,子问题生成问题变成了片段预测问题,训练这个部分只用了400个人工标注的数据就可以与人类标注一样有效。此外,还提出了一种根据子问题和答案的重打分的方法来选择最好的答案。Yichen Jiang、Mohit Bansal等人提出的自集成的模型化网络(Self-Assembling Modular Networks for Interpretable Multi-HopReasoning.EMNLP/IJCNLP 2019:4473-4483),采用神经网络的方式模拟栈来搭建一个自集成的模块化神经网络,可以将子问题拆解和组合完全自动集成在一起。
但目前的大多数模型没有针对不同类别的推理类型进行分别处理,模型为了建模通用的推理过程大都比较复杂。
本方法重点在于针对数据集中不同推理问题的特点,生成不同的子问题并拆分成不同的子任务,层级递进完成子任务来预测答案。
发明内容
为解决上述问题,本发明提出一种基于多层感知的问题答案抽取方法及电子装置,通过简单的问题分类机制,控制不同子模块进行层级结构组合,实现更加简单,便于以一种模块方式来与其他部分组合。
为达到上述目的,本发明采用如下技术方案:
一种基于多层感知的问题答案抽取方法,其步骤包括:
1)将一问题与若干目标文档拼接,输入到预训练语言模型中,得到问题的表示Q与目标文档的上下文表示P,将表示Q与上下文表示P交互,得到文档相关的问题表示u与融合问题信息的文档表示h;
2)对问题表示u进行多层感知分类,获取问题的推理类型,并根据推理类型、问题表示u、文档表示h及通过表示Q生成的子问题ct,得到所述问题在目标文档中的答案注意力分布,其中t为生成子问题的次数;
3)依据答案注意力分布,获取该问题的答案预测结果。
进一步地,通过以下步骤得到目标文档:
1)将若干原始文档输入一由BERT模型与一层线性分类器组成的段落选择模型;
2)根据一阈值,在各原始文档中选取与所述问题相关的段落,得到若干目标文档。
进一步地,所述预训练语言模型包括BERT模型。
进一步地,将表示Q与上下文表示P进行交互的方法包括:使用双向注意力机制;生成子问题的步骤包括:
1)将表示Q输入通过BiLSTM网络,得到问题向量qv;
2)通过问题向量qv、子问题ct-1和问题表示u,得到子问题ct
进一步地,所述推理类型包括:桥接实体类或比较类问题。
进一步地,若推理类型为桥接实体类,通过以下步骤得到答案注意力分布:
1)根据问题表示u、文档表示h及子问题,调用Find函数,生成中间桥接实体att1
2)根据中间桥接实体att1、问题表示u、文档表示h及子问题ct,调用Transfer函数,得到答案注意力分布。
进一步地,若推理类型为比较类问题,通过以下步骤得到答案注意力分布:
1)根据问题表示u、文档表示h及子问题ct,分别调用两次Find函数,生成中间桥接实体att1与中间桥接实体att2
2)通过调用Compare函数比较中间桥接实体att1与中间桥接实体att2,得到答案注意力分布。
进一步地,得到该问题答案预测结果的方法包括:将上下文表示C′(t)输入若干层层堆叠且不共享参数的LSTM层;答案预测结果包括:相关证据句子、答案开始位置、答案结束位置和答案类型中的一种或多种。
一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述所述的方法。
一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机以执行上述所述的方法。
与现有技术相比,本发明具有以下积极效果:
1)提出以子问题拆分的简单形式来层级递进式回答问题,不需要对问题拆分进行监督,提升推理阅读理解的效果。
2)提出引入推理类别分类器来控制拆分,通过子任务模块共享回答问题,提升推理阅读理解的效果。
附图说明
图1为本发明的流程示意图。
图2为本发明的桥接实体类问题拆解框架示意图。
图3为本发明的比较类问题拆解框架示意图。
具体实施方式
为使本发明的上述特征和优点能更明显易懂,下文特举实施例,并配合所附图作详细说明如下。
本发明针对HotpotQA数据集中的推理类别进行分类。主要有两类,桥接实体类和比较类。如果问题是桥接实体类推理类型,模型会将答案预测过程处理成两个层级堆叠的子任务,第一层是通过寻找模块来寻找中间桥接实体,第二层是通过转换模块将第一层输出的桥接实体表示以及问题和上下文内容来锁定最终答案;如果问题是比较类推理类型,模型会将答案预测过程处理成两层层级堆叠的子任务,第一层是通过两个寻找模块来寻找到模型中相关的两个实体部分,第二层是通过一个比较模块来对第一层中输出的实体表示进行比较,预测最终答案。其中涉及到的子任务通过三个函数来实现,Find函数实现寻找子任务,Transfer函数实现通过桥接实体来锁定答案,Compare函数实现对两个实体表示进行比较从而得出答案。问题拆解框架如图例所示:
如图1所示,本发明采用的框架整体分为三个部分:1)段落选择模块;2)语义编码模块;3)层级答案预测模块。段落选择模块对多个文档进行筛选,过滤掉无关的文档,避免输入文档长度过大。语义编码模块将问题、文档编码成具有上下文语义信息的向量表示。层级答案预测模块将对不同推理类型的问题分别处理,预测最终证据句子和答案。其中,本发明的重点在于层级答案预测模块,可以分为一个分类控制器、一个子问题生成器和三个子任务执行器。
过程一:段落选择模块。
段落选择模块,使用BERT模型(acob Devlin,Ming-Wei Chang,Kenton Lee,Kristina Toutanova:BERT:Pre-training of Deep Bidirectional Transformers forLanguage Understanding.NAACL-HLT 2019:4171-4186)和一层线性分类器来微调得到一个段落选择的模型,单独判断问题与段落是否相关,设置阈值为0.3来选取较为相关的段落。这是在保证召回率下的选择,同时召回的相关文档总长度基本满足下一阶段的最大输入长度512。
过程二:语义编码模块。
语义编码层将问题和上下文文档编码成具有上下文语义信息的向量表示。问题和该问题所有的相关文档拼接在一起构成编码模块的输入,编码模块采用预训练的BERT模型。经过编码后,获得表示
Figure BDA0002717800380000051
以及
Figure BDA0002717800380000052
其中R代表实数集合,L和N分别是问题和上下文的长度,d1是BERT隐藏层的维度大小。
然后,利用双向注意力机制(Min Joon Seo,Aniruddha Kembhavi,Ali Farhadi,Hannaneh Hajishirzi:Bidirectional Attention Flow for MachineComprehension.ICLR 2017)对问题和上下文进行交互建模。模型使用双向注意力机制,对问题和上下文进行交互建模,学习到文档相关的问题表示
Figure BDA0002717800380000053
以及问题相关的文档表示
Figure BDA0002717800380000054
其中d2是输出的词表示维度大小。
过程三:层级答案预测模块。
问题推理类型判别器的输入是问题表示u,通过多层感知机对编码阶段得到的问题词表示进行二分类,得到问题的推理类型。
进一步地,如果推理类型是桥接实体类,如图2所示,模型会先调用Find函数生成中间桥接实体att1,然后调用Transfer函数根据桥接实体得到相关答案的注意力分布。如果推理类型是比较类问题,如图3所示,模型会调动两次Find函数得到两个相关实体att1和att2,然后调用Compare函数通过比较这两个相关实体得到最终答案的注意力分布。
Find函数首先将子问题ct注入到问题相关的文档表示h中,得到h′=h⊙ct,接下来通过双向注意力机制来得到问题相关的上下文表示
Figure BDA0002717800380000055
具体过程如下:
Mj,s=W1uj+W2h’s+W3(uj⊙h′s)
Figure BDA0002717800380000061
Figure BDA0002717800380000062
Figure BDA0002717800380000063
Figure BDA0002717800380000064
Figure BDA0002717800380000065
Figure BDA0002717800380000066
进一步地,M是双向注意力机制中的相似度矩阵,W是可训练的参数,cq与qc分别是双向注意力机制中计算得到的上下文相关的问题注意力与问题相关的上下文注意力,p是计算出来的注意力权重,s为上下文的个数,J是上下文序列中隐含表示的维数,m是取M最大一维值,uj是问题表示中第j个词表示。
Figure BDA0002717800380000067
最后会通过线性变换压缩成问题输入的原始维度作为最终的输出,作为相关实体的注意力分布,记为att1
Transfer函数首先通过注意力机制计算得到桥接实体表示b,然后将桥接实体表示注入到上下文表示中得到hb,再利用Transfer中的Findtrans函数寻找定位最终答案所在的位置,这个函数与Find函数设计完全相同,从而得到相关的原文上下文表示。同样这一部分的ct也需要子问题生成器进行生成。具体过程如下:
Figure BDA0002717800380000068
hb=h⊙b
Figure BDA0002717800380000069
进一步地,att1是桥接实体的注意力分布,hs是上下文表示h中的第s个词。
Compare函数的输入为两个实体相关的注意力att1和att2,分别是Find函数根据两个子问题生成的相关实体注意力分布。因此这里需要得到两个实体相关的表示信息hs1和hs2,最终通过这两个表示信息与子问题进行拼接组合,得到比较所需要的信息oin后,将这些信息输入到多层感知机中进行比较。整体思路就是将两个注意力分布进行聚合,根据子问题表示进行比较得出答案。通过以上部分我们会得到一个最终的注意力分布,这个注意力分布会用于预测答案片段的开始和结束位置。具体公式如下:
Figure BDA0002717800380000071
Figure BDA0002717800380000072
oin=[ct;hs1;hs2;ct·(hs1-hs2)]
hc=W1·(ReLU(W2·oin))
进一步地,W是可训练的模型参数。
同时,模型每次调用Find、Transfer和Compare函数都会通过子问题生成器计算当前函数解决的子问题,这个子问题表示的计算过程如下:
qt=W1,t·qv+b1,t
cqt=W2·[ct-1;qt]+b2
et,j=W4·(cqt·uj)+b4
cvt=Softmax(et)
Figure BDA0002717800380000073
其中,qv表示问题向量,由BiLSTM产生。由过程二知,
Figure BDA0002717800380000074
qv=BiLSTM(Q),将隐含变量头尾相接就是qv的值。ct表示当前计算的子问题表示。其中的W和b都是可训练的参数。这个计算过程中,我们将问题表示与上一个子问题表示进行融合得到cqt,从而通过注意力机制计算当前子问题的表示。
然后,将得到的表示计算证据和答案的概率分布,作为预测层的输入。当问题为桥接实体类时,预测层的输入是Transfer函数的输出;当问题为比较类问题是,预测层的输入是Compare函数的输出。预测层的输出有四个维度,包括相关证据句子、答案的开始位置、答案的结束位置、答案的类型。预测层采用一种垂直结构设计来解决输出之间的依赖关系,四个不共享参数的LSTM层通过层层的堆叠在一起。最后一轮推理模块的上下文表示是第一层LSTM的输入,每层LSTM都会输出一个概率分布
Figure BDA0002717800380000075
然后使用这些概率分布计算交叉熵。具体LSTM的堆叠方式如下:
Osup=F0(C(t))
Ostart=F1([C(t),Osup])
Oend=F2([C(t),Osup,Ostart])
Otype=F3([C(t),Osup,Ostart])
进一步地,F0,F1,F2,F3分别是四个多层感知机,Osup是用来预测证据表示概率分布,Ostart和Oend分别是用来预测答案开始和结束位置的概率分布,Otype是用来预测答案类型的概率分布。
最终联合优化这四个交叉熵损失函数。
L=Lstart+LendsLsuptLtype
进一步地,Lstart,Lend,Lsup,Ltype分别是Osup,Ostart,Oend,Otype与真实标签计算交叉熵损失函数得到的损失函数,λs和λt分别是计算证据预测损失和答案类型损失的超参数。
在实验效果中,本发明在HotpotQA推理阅读理解数据集(Zhilin Yang,Peng Qi,Saizheng Zhang,Yoshua Bengio,William W.Cohen,Ruslan Salakhutdinov,ChristopherD.Manning:HotpotQA:A Dataset for Diverse,Explainable Multi-hop QuestionAnswering.EMNLP 2018:2369-2380)上进行了实验。训练数据有90247个样本,验证数据有7405个样本。桥接类和比较类推理问题在数据集中的统计结果如表所示:
数据集 桥接类 比较类 全部
训练集 17456 72991 90247
验证集 1487 5918 7405
表1:HotpotQA中的桥接类和比较类问题统计结果
本发明的评价指标为EM值和F1值。EM值是比较预测的答案与真实答案完全一致的占比情况,F1值综合度量了预测结果和真实结果的准确率与召回率。
本发明的问题分类器性能如下:
正确样本 错误样本 准确率
问题分类器 7375 30 99.59%
表2:问题分类器的性能评估
本发明与主流方法进行了比较,其中最后一行是本发明提出的模型,具体结果如表1所示。可以看到本发明提出的模型超过了许多主流模型的性能,证明了本发明提出方法的有效性。
Figure BDA0002717800380000091
以上通过形式表达和实施例对本发明方法进行了详细的说明,但本发明的具体实现形式并不局限于此。本领域的一般技术人员,可以在不背离本发明所述方法的精神和原则的情况下对其进行各种显而易见的变化与修改。本发明的保护范围应以权利要求书所述为准。

Claims (7)

1.一种基于多层感知的问题答案抽取方法,其步骤包括:
1)将一问题与若干目标文档拼接,输入到预训练语言模型中,得到问题的表示
Figure DEST_PATH_IMAGE002
与目标文档的上下文表示
Figure DEST_PATH_IMAGE004
,将表示
Figure 848980DEST_PATH_IMAGE002
与上下文表示
Figure 703804DEST_PATH_IMAGE004
交互,得到文档相关的问题表示
Figure DEST_PATH_IMAGE006
与融合问题信息的文档表示
Figure DEST_PATH_IMAGE008
2)对问题表示
Figure 296590DEST_PATH_IMAGE006
进行多层感知分类,获取问题的推理类型,所述推理类型包括:桥接实体类或比较类问题;
3)若推理类型为桥接实体类,则根据问题表示
Figure 567166DEST_PATH_IMAGE006
、文档表示
Figure 316291DEST_PATH_IMAGE008
及子问题,调用Find函数,生成中间桥接实体
Figure DEST_PATH_IMAGE010
,并根据中间桥接实体
Figure 14120DEST_PATH_IMAGE010
、问题表示
Figure 218836DEST_PATH_IMAGE006
、文档表示
Figure 293103DEST_PATH_IMAGE008
及子问题
Figure DEST_PATH_IMAGE012
,调用Transfer函数,得到答案注意力分布;
若推理类型为比较类问题,则根据问题表示
Figure 837348DEST_PATH_IMAGE006
、文档表示
Figure 765465DEST_PATH_IMAGE008
及子问题
Figure 457477DEST_PATH_IMAGE012
,分别调用两次Find函数,生成中间桥接实体
Figure 69855DEST_PATH_IMAGE010
与中间桥接实体
Figure DEST_PATH_IMAGE014
,并通过调用Compare函数比较中间桥接实体
Figure 468607DEST_PATH_IMAGE010
与中间桥接实体
Figure 836134DEST_PATH_IMAGE014
,得到答案注意力分布;
4)依据答案注意力分布,获取该问题的答案预测结果。
2.如权利要求1所述的方法,其特征在于,通过以下步骤得到目标文档:
1)将若干原始文档输入一由BERT模型与一层线性分类器组成的段落选择模型;
2)根据一阈值,在各原始文档中选取与所述问题相关的段落,得到若干目标文档。
3.如权利要求1所述的方法,所述预训练语言模型包括BERT模型。
4.如权利要求1所述的方法,其特征在于,将表示
Figure 950196DEST_PATH_IMAGE002
与上下文表示
Figure 163003DEST_PATH_IMAGE004
进行交互的方法包括:使用双向注意力机制;生成子问题的步骤包括:
1)将表示
Figure 744157DEST_PATH_IMAGE002
输入通过BiLSTM网络,得到问题向量
Figure DEST_PATH_IMAGE016
2)通过问题向量
Figure 954690DEST_PATH_IMAGE016
、子问题
Figure DEST_PATH_IMAGE018
和问题表示
Figure 496661DEST_PATH_IMAGE006
,得到子问题
Figure 510228DEST_PATH_IMAGE012
5.如权利要求1所述的方法,其特征在于,得到该问题答案预测结果的方法包括:将上下文表示
Figure DEST_PATH_IMAGE020
输入若干层层堆叠且不共享参数的LSTM层;答案预测结果包括:相关证据句子、答案开始位置、答案结束位置和答案类型中的一种或多种。
6.一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1-5中任一所述方法。
7.一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行如权利要求1-5中任一所述方法。
CN202011079727.5A 2020-10-10 2020-10-10 一种基于多层感知的问题答案抽取方法及电子装置 Active CN112380326B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011079727.5A CN112380326B (zh) 2020-10-10 2020-10-10 一种基于多层感知的问题答案抽取方法及电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011079727.5A CN112380326B (zh) 2020-10-10 2020-10-10 一种基于多层感知的问题答案抽取方法及电子装置

Publications (2)

Publication Number Publication Date
CN112380326A CN112380326A (zh) 2021-02-19
CN112380326B true CN112380326B (zh) 2022-07-08

Family

ID=74581232

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011079727.5A Active CN112380326B (zh) 2020-10-10 2020-10-10 一种基于多层感知的问题答案抽取方法及电子装置

Country Status (1)

Country Link
CN (1) CN112380326B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113420111B (zh) * 2021-06-17 2023-08-11 中国科学院声学研究所 一种用于多跳推理问题的智能问答方法及装置
CN118070893A (zh) * 2024-04-24 2024-05-24 北京百川智能科技有限公司 基于大语言模型的信息反馈方法、装置及计算机程序产品

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674279A (zh) * 2019-10-15 2020-01-10 腾讯科技(深圳)有限公司 基于人工智能的问答处理方法、装置、设备及存储介质
CN111027327A (zh) * 2019-10-29 2020-04-17 平安科技(深圳)有限公司 机器阅读理解方法、设备、存储介质及装置
CN111339281A (zh) * 2020-03-24 2020-06-26 苏州大学 一种多视角融合的阅读理解选择题的答案选择方法
CN111460092A (zh) * 2020-03-11 2020-07-28 中国电子科技集团公司第二十八研究所 一种基于多文档的复杂问题自动化求解方法
CN111598118A (zh) * 2019-12-10 2020-08-28 中山大学 一种视觉问答任务实现方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180082184A1 (en) * 2016-09-19 2018-03-22 TCL Research America Inc. Context-aware chatbot system and method

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674279A (zh) * 2019-10-15 2020-01-10 腾讯科技(深圳)有限公司 基于人工智能的问答处理方法、装置、设备及存储介质
CN111027327A (zh) * 2019-10-29 2020-04-17 平安科技(深圳)有限公司 机器阅读理解方法、设备、存储介质及装置
CN111598118A (zh) * 2019-12-10 2020-08-28 中山大学 一种视觉问答任务实现方法及系统
CN111460092A (zh) * 2020-03-11 2020-07-28 中国电子科技集团公司第二十八研究所 一种基于多文档的复杂问题自动化求解方法
CN111339281A (zh) * 2020-03-24 2020-06-26 苏州大学 一种多视角融合的阅读理解选择题的答案选择方法

Also Published As

Publication number Publication date
CN112380326A (zh) 2021-02-19

Similar Documents

Publication Publication Date Title
US11797835B2 (en) Explainable transducer transformers
Lin et al. Deep learning for missing value imputation of continuous data and the effect of data discretization
Craven et al. Using neural networks for data mining
Yogatama et al. Learning word representations with hierarchical sparse coding
CN112380835B (zh) 融合实体和句子推理信息的问题答案提取方法及电子装置
US20200074296A1 (en) Learning to search deep network architectures
CN112380326B (zh) 一种基于多层感知的问题答案抽取方法及电子装置
Wang et al. Tensor networks meet neural networks: A survey and future perspectives
CN117151222B (zh) 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质
Eyraud et al. TAYSIR Competition: Transformer+\textscrnn: Algorithms to Yield Simple and Interpretable Representations
Xia An overview of deep learning
Lu Learning Guarantees for Graph Convolutional Networks in the Stochastic Block Model
CN114065769B (zh) 情感原因对抽取模型的训练方法、装置、设备及介质
Sun et al. Evolutionary Deep Neural Architecture Search: Fundamentals, Methods, and Recent Advances
Abuelenin et al. Optimizing deep learning based on deep auto encoder and genetic algorithm
Anireh et al. HTM-MAT: An online prediction software toolbox based on cortical machine learning algorithm
Tran Unsupervised neural-symbolic integration
Karthika Renuka et al. Visual question answering system using co-attention model
Cameron Information compression of molecular representations using neural network auto-encoders
US12026624B2 (en) System and method for loss function metalearning for faster, more accurate training, and smaller datasets
Popescu et al. An algorithm for training a class of polynomial models
Gangal et al. Neural Computing
US20230141655A1 (en) System and Method For Loss Function Metalearning For Faster, More Accurate Training, and Smaller Datasets
Matovič et al. Establishing Pattern Sequences Using Artificial Neural Networks with an Application to Organizational Patterns
Busireddy A Framework for Question Answering System Using Dynamic Co-attention Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant