CN113010662B - 一种层次化会话式机器阅读理解系统和方法 - Google Patents
一种层次化会话式机器阅读理解系统和方法 Download PDFInfo
- Publication number
- CN113010662B CN113010662B CN202110441176.0A CN202110441176A CN113010662B CN 113010662 B CN113010662 B CN 113010662B CN 202110441176 A CN202110441176 A CN 202110441176A CN 113010662 B CN113010662 B CN 113010662B
- Authority
- CN
- China
- Prior art keywords
- information
- article
- question
- vector
- articles
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 239000013598 vector Substances 0.000 claims abstract description 99
- 230000003993 interaction Effects 0.000 claims abstract description 13
- 238000006243 chemical reaction Methods 0.000 claims abstract description 8
- 238000000605 extraction Methods 0.000 claims abstract description 8
- 239000011159 matrix material Substances 0.000 claims abstract description 8
- 239000010410 layer Substances 0.000 claims description 51
- 230000007246 mechanism Effects 0.000 claims description 43
- 230000015654 memory Effects 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 230000005540 biological transmission Effects 0.000 claims description 8
- 230000010354 integration Effects 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 239000013604 expression vector Substances 0.000 claims description 6
- 238000007726 management method Methods 0.000 claims description 6
- 238000013461 design Methods 0.000 claims description 5
- 239000002356 single layer Substances 0.000 claims description 4
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 2
- 230000007787 long-term memory Effects 0.000 claims 1
- 230000006403 short-term memory Effects 0.000 claims 1
- 230000008569 process Effects 0.000 description 22
- 238000010586 diagram Methods 0.000 description 12
- 238000012546 transfer Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 6
- 238000011160 research Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009901 attention process Effects 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种层次化会话式机器阅读理解系统和方法。该系统包括:信息编码层,用于通过问题与文章的交互获得每一个问题所对应的文章的词向量,并将所有词向量进行拼接,获得问题与文章的初始化词向量矩阵;层次化转换推理层,用于对文章和问题的编码抽取深层次的上下文信息,捕获多个会话信息流并执行分层推理,其中会话信息流用于将一个问题与之前的一个问答对进行联系;答案预测层,用于对当前问题进行类型分类和答案跨度提取。本发明利用多种通道从多个角度搜索回答问题所需要的文章信息,能够生成更高质量的答案。
Description
技术领域
本发明涉及计算机技术领域,更具体地,涉及一种层次化会话式机器阅读理解系统和方法。
背景技术
随着互联网技术的迅猛发展,机器与人类的交互已经从最初简单的指令级命令交互过渡到目前的非结构化文本交互,人们希望机器能够适应更加复杂多变的语言环境,从而更好更快的完成所给予的任务。各类智能教育和智能客服系统迅猛发展,作为上述服务核心的机器阅读理解任务已成为自然语言处理的研究热点。会话式阅读理解通过文字或语音与用户进行多轮交流,根据用户提供的信息在产品文档中快速找到解决方案,具有广阔的应用前景。
随着信息时代的到来,文本的规模呈爆炸式发展。因此,机器阅读理解带来的自动化和智能化恰逢其时,在工业界的众多领域和人们生活中的方方面面都有着广阔的应用空间。日常生活中充满着机器阅读理解技术的影子,例如,客服机器人是一种基于自然语言处理的拟人式服务,通过文字或语音与用户进行多轮交流,获取相关信息并提供解答。智能法律用于自动处理和应用各种错综复杂的法律法规实现对案例的自动审判,这可以利用机器阅读理解处理和分析大规模文档方面的速度优势。智能教育能够利用计算机辅助人类的学习过程。机器阅读理解在该领域的典型应用是作文自动批阅。自动作文批阅模型可以作为学生写作时的助手,理解作文语义,自动修改语法错误,个性化总结易错知识点。
机器阅读理解任务在自然语言处理中占据着非常重要的位置。它通过给予机器一段非结构化文本及其相应的问题,要求机器能够根据文本回答该问题,而这些问题往往充斥着迷惑性,如果不理解文本内容而根据规则进行回答,由此得到的答案大概率是错误答案。因此,机器阅读理解是检测机器理解文本语义能力的一个重要任务。
传统的机器阅读理解任务中不同轮的问题和答案之间没有相关性,可以独立求解。由于问题之间都是相互独立的,因此模型难以获得系统的知识。大部分机器阅读理解任务属于该类型。然而,在现实生活中,人类获取答案经常发生在对话行为中。人类会基于已经学习到的信息,然后通过不断的询问来获取更多额外的信息,这是机器智能化的体现。对话式机器阅读理解任务被提出,它要求机器能够模拟人类捕获信息的方式来回答问题。对话式机器阅读理解任务被证实比普通机器阅读理解任务更具有挑战性,因为它的一系列问题只有在理解了对话历史以及文章内容后才能被回答。这类任务中,邻近轮的问题和答案之间存在相关性,即回答第N+1轮的问题有可能需要依据第N轮及之前的问题和答案。这种形式的阅读理解任务更符合人与人之间对话的过程。当给定一篇文章时,对文章进行多轮问答对话,在得到答案的基础上提出另一个相关的问题,多次迭代。
在现有的对话式机器阅读理解方案中,最经典的是FlowQA模型。该模型在以往传统机器阅读理解模型对文章进行双向循环神经网络提取特征的基础上,加入了问题方向的单向循环神经网络,将历史问题的推理信息以隐向量的形式传入当前问题中并参与推理过程。使用单向循环神经网络是因为对于当前问题而言,它拥有的信息只来自“历史”,无法获得来自“未来”的信息。这一简单的处理提升了原本模型在此任务中的效果,也证明了流机制在多轮机器阅读理解任务中的重要性。可以看出,关于流机制在多轮机器阅读理解任务中的研究尚处于萌芽阶段,但其在此任务中增强模型逻辑推理的能力却十分强悍。如何进一步运用流机制来完善机器的逻辑推理能力,使其拥有真正的自然语言理解能力,是未来一个重要的研究方向。
据分析,传统的基于规则的机器阅读理解任务中,主要是依赖专家系统所建立的复杂规则,而且数据集比较简单,限制了系统扩展到其他领域的能力。由于过分依赖现有的语言特征工具,很难模拟人类阅读,难以构建有效特征,而且标记数据太少,机器学习方法虽然比规则方法好,但是并不能检测机器理解文本语义的能力。而对于深度学习时代,命名实体识别,指代消解等技术的发明,再加上深度学习端到端算法的提出(不依赖语言特征工具),一定程度上避免了噪声误差,因此极大的推动了机器阅读理解任务的发展过程。然而,在现实生活中,人类的交流更多是基于对话式的。人类获取答案经常发生在对话行为中,为了探索机器在历史对话中提取有效信息并结合文章内容进行逻辑推理的能力,一种全新的机器阅读理解任务,即会话式机器阅读理解任务被提出。它要求机器能够模拟人类捕获信息的方式来回答问题。
目前会话式机器阅读理解的模型主要是在传统机器阅读理解模型的基础上添加历史问题信息来进行。但是这些方法主要存在以下两个缺点:1)、当前大部分模型忽略了历史问题之间的推理过程,直接以拼接词向量的形式来增强当前问题的信息;2)、当前大部分模型仅考虑了短期语义和时间依赖性,仅在“token”级别上考虑了推理过程中的信息流转换,忽略了文章全局信息对历史问题的推理过程,使得模型只关注文章的局部内容,造成信息损失。
发明内容
本发明的目的是克服上述现有技术的缺陷,提供一种层次化会话式机器阅读理解系统和方法,实现在会话式机器阅读理解任务中,提高机器阅读理解系统对文本以及历史问答信息的有效利用,充分挖掘深层次语义信息,进而完成对当前问题的准确回答。
根据本发明的第一方面,提供一种层次化会话式机器阅读理解系统。该系统包括:
信息编码层:用于通过问题与文章的交互获得每一个问题所对应的文章的词向量,并将所有词向量进行拼接,获得问题与文章的初始化词向量矩阵;
层次化转换推理层:用于对文章和问题的编码抽取深层次的上下文信息,捕获多个会话信息流并执行分层推理,其中会话信息流用于将一个问题与之前的一个问答对进行联系;
答案预测层:用于对当前问题进行类型分类和答案跨度提取。
根据本发明的第二方面,提供一种层次化会话式机器阅读理解方法。该方法包括以下步骤:
通过问题与文章的交互获得每一个问题所对应的文章的词向量,并将所有词向量进行拼接,获得问题与文章的初始化词向量矩阵;
用于对文章和问题的编码抽取深层次的上下文信息,捕获多个会话信息流并执行分层推理,其中会话信息流用于将一个问题与之前的一个问答对进行联系;
对当前问题进行类型分类和答案跨度提取。
与现有技术相比,本发明的优点在于,设计了一种创新的基于深度学习的层次化会话式机器阅读理解模型(或称系统),该模型将过往问题的推理信息以信息流的方式传递到当前问题的推理过程中,完善回答当前问题所需要的信息,同时,利用多种通道从多个角度搜索回答问题所需要的文章信息,使得机器能够生成更高质量的答案。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。
图1是根据本发明一个实施例的层次化会话式机器阅读理解系统的整体结构图;
图2是根据本发明一个实施例的多通道信息流传递机制示意图;
附图中,Self-Attention-自注意力机制;MFT-多通道信息流传递推理模块;Multilevel Attention-多层次注意力机制;Aligned flow-aware Embedding-融合会话流的嵌入模块。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
针对目前大部分模型忽略了历史问题之间的推理过程,直接以拼接词向量的形式来增强当前问题的信息的问题,本发明设计使用多通道信息流传递机制,首先从局部和全文两种角度提取对回答问题有帮助的信息,再利用Memory的“读-写”思想更新模型的存储信息,最后利用Delta信息增益的思想辅助回答问题。
此外,针对目前模型仅考虑了短期语义和时间依赖性,忽略了文章全局信息对历史问题的推理过程的问题,本发明设计使用多层次上下文注意力机制,用于融合多层次细粒度表示并进行高级推理。
进一步地,本发明还探索了大规模预处理模型BERT提取的文章及问题特征向量对结果的影响,以利用额外信息协助提升对机器自然语言理解能力。
具体地,参见图1所示,结合深度学习与流思想,所提供的层次化会话式机器阅读理解系统整体上包括信息编码层、层次化转换推理层和答案预测层。
信息编码层,使用GloVe等词向量去初始化问题和文章中的每一个单词,对于不在预训练词表中的单词,使用随机初始化的向量代替。因为在会话式阅读理解任务中,存在着多个问题,因此通过问题与文章的交互来获得每一个问题所对应的文章的词向量。例如,将上述的所有词向量进行拼接,获得问题与文章的初始化词向量矩阵。
层次化转换推理层,为了更好地理解文章和问题,该模块用于对文章和问题的编码抽取更深层次的上下文信息。层次化转换推理层捕获多个会话信息流并执行分层推理。例如,层次化转换推理层包括问题-文章信息集成模块、多级上下文注意机制力模块和多通道信息流传递机制模块。
答案预测层,用于实现对问题类型分类和答案跨度提取两个子任务,例如,通过单层神经网络获得对该任务的预测。
具体地,首先对会话式阅读理解任务的进行数学定义,给定输入:(1)文章信息Context=[c1,c2,…,cm],这里ci表示文章中的第i个单词,m代表文章的长度。以及(2)会话中的信息流,定义了一个新术语“会话信息流”,方法是将一个问题与之前的一个问答对联系起来。在第i轮问题中,会话信息流被构建为Flowi=[Qi-1,Ai-1,Qi](Flow1=[Q1])。其中每个问题Qi被表示为一个词序列每个答案Ai被表示为输出包含两类子任务,分别是预测问的答案以及答案的种类,答案这里表示第i个问题在文章中答案的起始位置是下标为所代表的单词,同理。答案种类这里表示第i个问题的答案种类。
在下文中,结合上述的数学定义将详细阐述信息编码层、层次化转换推理层和答案预测层的具体实施例。
第一、信息编码层
在一个实施例中,使用了GloVe词向量和CoVE词向量去初始化问题和文章中的每一个单词,对于不在预训练词表中的单词,使用随机初始化的向量代替。然后使用ELMo预训练好的模型,在数据集上测试所得到向量表示。
优选地,为了加入文章单词的词性信息,还添加了23维的语言特征向量,包括8维的NER特征向量,20维的词性特征向量,3维精准匹配(Exact Matching)特征向量。由于在多轮阅读理解任务中,存在着多个问题,因此可以通过问题与文章的交互来获得每一个问题所对应的文章的词向量,记为falign(c),c表示文章中的单词。最终,将上述的所有词向量进行拼接,获得问题与文章的初始化词向量矩阵,数学形式为:
其中,g表示上文提到的Gloe词向量,Co表示CoVE词向量,e表示ELMo词向量,表示文章单词的词性信息,表示通过问题与文章的交互来获得每一个问题所对应的文章的词向量。表示第i个问题下的文章初始向量,表示第i轮会话流的初始向量。
第二、层次化转换推理层。
为了更好地理解文章和问题会话流,该模块用于对文章和问题的编码抽取更深层次的上下文信息。层次化转换推理层捕获多个会话信息流并执行分层推理。例如,其包含3个组件,分别是问题-文章信息集成模块、多级上下文注意机制力模块和多通道信息流传递推理模块。
1)问题-文章信息集成模块
在问题-文章编码层,需要对问题与文章的初始向量做编码,这样才能获得文章和问题的上下文表示。例如,使用双层BiLSTM模型,这样得到的隐藏层向量包含了前后信息的词向量表示,数学形式如下:
其中分别表示第i个问题的文章初始向量在第一层、第二层BiLSTM的输出向量,分别表示第i个问题所对应的会话流的初始向量在第一层、第二层BiLSTM的输出向量,表示第i个问题下的文章初始向量,表示第i轮会话流的初始向量。
另外,对于问题的编码向量,由于问题的长度一般很短,仅由最终的并不能很好的表达问题的信息,因此在问题中还添加了高级(High Level)BiLSTM来丰富它的信息,它是将第一、二层问题的BiLSTM隐藏层向量相互拼接,再传入另一BiLSTM来完成的,数学形式如下:
2)多级上下文注意机制力模块
为了捕捉在不同层次上的匹配程度,在一个实施例中,设计使用了多级注意力机制。设文章在词表示层级的向量为问题所对应的会话流在词表示层级的向量为文章在编码层的表示向量为问题在编码层的表示向量为不同层次的注意力层表示如下:
可以看出,注意力层用于将文章和问题的向量进行相似度匹配,该相似度代表着“问题哪部分对文章的重要性更大”,再将其相似度与不同层次的问题编码向量做乘积操作,这样可以将问题的信息从不同角度上融合到文章信息中。具体来说,Attlevel1表示的是文章对问题在词层级的注意力信息,Attlevel2表示的是文章对问题在浅层语义上的注意力信息,Attlevel3表示的是文章对问题在深层语义上的注意力信息。通过从多个角度来进行文章与问题的注意力编码,可以丰富问题在文章中的信息,这样对后续的问题之间的逻辑推理有很大的帮助。最后,对这些得到的文章不同层次的表达做拼接操作,得到详细表示向量:
在得到文章的不同层次的编码信息后,优选地从两个角度来对文章信息进行融合,包括双向LSTM的上下文信息表示层以及文章自注意力推理层。上下文信息表示层的目的是使文章中每一个单词可以捕捉到前后的信息,增强每一个单词的表达能力,表示为:
同时,为了使文章中每一个单词对文章全局有更好的了解,在一个实施例中,利用Self-Attention模型来达到这一目的。通过Self-Attention,文章中相似信息的位置会有更高的匹配度,因此可以将相似信息收集融合起来,从而更好的回答问问题,数学表达形式如下,
其中,SAC表示最终的文章表示向量。
通过使用多层次上下文注意力机制,可以融合多层次细粒度表示并进行高级推理。
3)多通道信息流传递推理模块
会话式机器阅读理解任务中要求模型能够进行不同问题之间逻辑推理,针对目前大部分模型忽略了历史问题之间的推理过程,直接以拼接词向量的形式来增强当前问题的信息的问题,本发明实施例使用多通道信息流传递机制,它是随着问题论述的增多而动态变化的模块,收集文章的推理信息和问题的推理信息,并将它们结合起来。
如图2所示,其示出了所使用的三种形式的信息通道,分别是分层全局信息传递机制、Memory信息传递机制和Delta信息增益机制。
对于分层全局信息传递机制,通过类似RNN的信息传递机制,将上一轮问题所获得的信息与本轮问题所获得的信息进行交互融合,补全回答本轮问题需要的额外信息。具体地,如图2(a)所示,首先,第一层LSTM是将上一轮问题的推理信息与本轮的文章向量做单词与全文两个层次上的结合,得到具有前一轮问题信息的上下文逻辑向量。然后,再与本轮问题的文章向量做注意力操作。接下来,再将包含文章信息和前一轮问题推理信息的向量做第二层的LSTM操作,这样操作目的是为了得到融合程度更高的综合推理信息,再传给下一轮问题。具体公式如下:
其中,Context i代表在第i个问题的时候文章的最终表达向量Token代表文章中每一个单词的特征向量,State表示文章的总体特征向量,这里通过对文章整体求平均获得,LSTM表示单向LSTM模型(因为在多轮阅读理解里,只能“看到”历史的问题,而无法获得未来问题的内容),Alignment(HAlign)表示推理信息注意力操作。
对于Memory信息传递机制,其网络结构如图2(c)所示,Memory的思想重点在于设计一个临时内容存储结构,然后通过类似计算机对内存的读、写操作来更新临时存储结构的内容。设第i轮问题的表示向量为第i轮Memory中存储的内容为文章表示向量为Erase Operation(擦除操作)和Write-Operation(写操作)用Sigmod函数的线性模型完成,这一结构的数学表达形式如下:
对于Delta信息增益,其利用信息流代表信息增益。具体地,在人类对话的过程中,讨论的主题会随着时间线推移而缓慢的发生变化,这一特性在会话式阅读理解任务中也十分常见。而且由于问题轮数一般比较多,最开始一轮的主题与最后一轮的主题可能完全没有关系,从这一角度出发,可以设置一个信息流代表这一信息增益的思想。Delta信息增益机制的结构如图2(b)所示,数学表达形式如下:
最后,将三个通道的信息拼接到一起,获得不同角度下的历史问题推理向量,并输入一个单层BiLSTM中,使文章中的每一个单词能够同时获得分层次会话流的推理信息,数学表达式为:
Contextfinal=BiLSTM([SAC;FTG;FTM;FTDelta])
其中,SAC表示最终的文章表示向量,FTG表示分层全局信息传递通道获得的推理信息,FTM表示Memory信息传递通道获得的推理信息,FTDelta表示Delta信息增益通道获得推理信息。
在上述过程中,采用多通道信息流传递机制,首先从局部和全文两种角度提取对回答问题有帮助的信息,再利用Memory的“读-写”思想更新模型的存储信息,最后利用Delta信息增益的思想辅助回答问题,从而提升了推理的正确性。
第三、答案预测层
答案预测层包括对当前问题进行类型分类和答案跨度提取两个子任务,例如通过单层神经网络以获得对该任务的预测。具体公式如下:
为了验证本发明的有效性和先进性,在CoQA以及QuAC数据集上进行了大量实验,对于提出的基于深度学习框架的层次化会话流传递模型与目前较为先进的机器阅读理解模型进行了比较。实验采用评估指标是F1值,它是精确率和召回率的调和均值,用于综合反映整体的指标。具体来说,实验中的F1分数是用标准答案中的单词与预测答案中的单词来计算。将对比模型分为使用BERT预训练词向量的模型与没有使用的模型进行对比。实验结果表明,本发明优于目前最好的基于深度学习的会话式机器阅读理解任务系统,同时在使用了BERT预训练词向量作为本发明模型的初始向量后,实现的效果也具有很强的竞争力。本发明在会话式机器阅读理解研究领域具有一定的创新性和研究价值,对多轮对话任务也具有一定的借鉴意义。
综上所述,针对现有技术中存在的技术问题(即仅考虑了推理过程中的信息流转换,而会话的全局转换信息尚未得到利用,并且忽略了历史问题之间的推理过程,直接以拼接词向量的形式来增强当前问题的信息),本发明至少从以下方面来改善模型效果:
1)首次提出基于分层全局信息传递的流模块,利用局部信息和全局信息的交互,使得模型在会话式机器阅读理解任务上的效果有所提升。其中局部信息为文章中字母与单词对问题的相互attention过程,这一过程使得问题可以捕捉文章中的关键词信息;而全局信息为文章的特征向量与问题向量相互attention的过程,这一过程使得问题可以在粗粒度上捕捉文章整体的逻辑信息,从而提高模型效果。
2)首次将Memory思想引入多轮机器阅读理解任务的模型中。设立了一个临时的存储模块来存储历史问题及其推理信息,每当新来一个问题,模型就会调用Read Operation来读取存储器中的信息来参与此问题的推理过程,而推理的结果又会被模型调用的WriteOperation来更新存储器中的信息,从而达到了结合历史问题信息,历史推理过程,文章内容三部分内容对问题进行逻辑推理的效果。
3)结合了Delta信息传递模块来进一步提升模型在多轮机器阅读理解任务中的效果。Delta信息传递模块将多轮问题看成在时间维度上不同的时间点,其特征向量的差异代表着问题主题的显性变化。
4)设计一个多层次会话流注意机制,整合了语境的多层次整合,融合多层次细粒度表示,对会话推理过程进行了全面的理解和推理。
5)探索了大规模预处理模型BERT提取的文章及问题特征向量对结果的影响,说明额外信息对机器自然语言理解能力的帮助之大。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++、Python等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。
Claims (7)
1.一种层次化会话式机器阅读理解系统,包括:
信息编码层:用于通过问题与文章的交互获得每一个问题所对应的文章的词向量,并将所有词向量进行拼接,获得问题与文章的初始化词向量矩阵;
层次化转换推理层:用于对文章和问题的编码抽取深层次的上下文信息,捕获多个会话信息流并执行分层推理,其中会话信息流用于将一个问题与之前的一个问答对进行联系;
答案预测层:用于对当前问题进行类型分类和答案跨度提取;
其中,所述层次化转换推理层包括问题-文章信息集成模块、多级上下文注意机制力模块、多通道信息流传递推理模块,其中所述问题-文章信息集成模块对问题与文章的初始向量做编码,获得文章和问题的上下文表示;所述多级上下文注意机制力模块,使用多级注意力机制,获得文章对问题在词层级的注意力信息、文章对问题在浅层语义上的注意力信息,以及文章对问题在深层语义上的注意力信息;所述多通道信息流传递推理模块,使用多通道信息流传递机制,收集文章的推理信息和问题的推理信息,并进行结合;
其中,所述问题-文章信息集成模块采用双层的双向长短期记忆网络模型BiLSTM获得隐藏层向量表示;
其中,所述多通道信息流传递推理模块包括分层全局信息传递机制,执行以下步骤:
将上一轮问题的推理信息与本轮的文章向量做单词与全文两个层次上的结合,得到了具有前一轮问题信息的上下文逻辑向量;
与本轮问题的文章向量做注意力操作;
将包含文章信息和前一轮问题推理信息的向量做第二层的长短期记忆网络LSTM操作,再传给下一轮问题;
其中,所述多通道信息流传递推理模块还包括Memory信息传递机制和Delta信息增益机制,所述Memory信息传递机制是设计一个临时存储结构,然后通过读、写操作来更新临时存储结构的内容,所述Delta信息增益机制利用信息流代表信息增益。
5.根据权利要求1所述的系统,其特征在于,所述答案预测层通过单层神经网络实现对当前问题进行类型分类和答案跨度提取。
6.一种层次化会话式机器阅读理解方法,包括以下步骤:
通过问题与文章的交互获得每一个问题所对应的文章的词向量,并将所有词向量进行拼接,获得问题与文章的初始化词向量矩阵;
对文章和问题的编码抽取深层次的上下文信息,捕获多个会话信息流并执行分层推理,其中会话信息流用于将一个问题与之前的一个问答对进行联系;
对当前问题进行类型分类和答案跨度提取;
其中,所述对文章和问题的编码抽取深层次的上下文信息,捕获多个会话信息流并执行分层推理包括:
对问题与文章的初始向量做编码,获得文章和问题的上下文表示,其中采用双层的双向长短期记忆网络模型BiLSTM获得隐藏层向量表示;
使用多级注意力机制,获得文章对问题在词层级的注意力信息、文章对问题在浅层语义上的注意力信息,以及文章对问题在深层语义上的注意力信息;
使用多通道信息流传递机制,收集文章的推理信息和问题的推理信息,并进行结合,包括:
将上一轮问题的推理信息与本轮的文章向量做单词与全文两个层次上的结合,得到了具有前一轮问题信息的上下文逻辑向量;
与本轮问题的文章向量做注意力操作;
将包含文章信息和前一轮问题推理信息的向量做第二层的长短期记忆网络LSTM操作,再传给下一轮问题;
其中,所述多通道信息流传递机制还包括Memory信息传递机制和Delta信息增益机制,所述Memory信息传递机制是设计一个临时存储结构,然后通过读、写操作来更新临时存储结构的内容,所述Delta信息增益机制利用信息流代表信息增益。
7.一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现根据权利要求6所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110441176.0A CN113010662B (zh) | 2021-04-23 | 2021-04-23 | 一种层次化会话式机器阅读理解系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110441176.0A CN113010662B (zh) | 2021-04-23 | 2021-04-23 | 一种层次化会话式机器阅读理解系统和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113010662A CN113010662A (zh) | 2021-06-22 |
CN113010662B true CN113010662B (zh) | 2022-09-27 |
Family
ID=76389266
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110441176.0A Active CN113010662B (zh) | 2021-04-23 | 2021-04-23 | 一种层次化会话式机器阅读理解系统和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113010662B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113590790B (zh) * | 2021-07-30 | 2023-11-28 | 北京壹心壹翼科技有限公司 | 应用于多轮问答的问题检索方法、装置、设备及介质 |
CN118133884A (zh) * | 2023-11-02 | 2024-06-04 | 福建时代星云科技有限公司 | 一种基于lstm模型的充电量预测方法与终端 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959396A (zh) * | 2018-06-04 | 2018-12-07 | 众安信息技术服务有限公司 | 机器阅读模型训练方法及装置、问答方法及装置 |
CN109657226A (zh) * | 2018-09-20 | 2019-04-19 | 北京信息科技大学 | 多联结注意力的阅读理解模型、系统及方法 |
CN109992657A (zh) * | 2019-04-03 | 2019-07-09 | 浙江大学 | 一种基于强化动态推理的对话式问题生成方法 |
CN110083682A (zh) * | 2019-04-19 | 2019-08-02 | 西安交通大学 | 一种基于多轮注意力机制的机器阅读理解答案获取方法 |
CN110222349A (zh) * | 2019-06-13 | 2019-09-10 | 成都信息工程大学 | 一种深度动态上下文词语表示的模型及方法、计算机 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100592293C (zh) * | 2007-04-28 | 2010-02-24 | 李树德 | 基于智能本体的知识搜索引擎及其实现方法 |
KR101753358B1 (ko) * | 2015-12-28 | 2017-07-04 | 동서대학교산학협력단 | 단어를 이용한 웹 관련기사 수집 및 블라인드 이벤트 제공 시스템 및 방법 |
CN108269110B (zh) * | 2016-12-30 | 2021-10-26 | 华为技术有限公司 | 基于社区问答的物品推荐方法、系统及用户设备 |
US11593672B2 (en) * | 2019-08-22 | 2023-02-28 | International Business Machines Corporation | Conversation history within conversational machine reading comprehension |
CN110619123B (zh) * | 2019-09-19 | 2021-01-26 | 电子科技大学 | 一种机器阅读理解方法 |
-
2021
- 2021-04-23 CN CN202110441176.0A patent/CN113010662B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959396A (zh) * | 2018-06-04 | 2018-12-07 | 众安信息技术服务有限公司 | 机器阅读模型训练方法及装置、问答方法及装置 |
CN109657226A (zh) * | 2018-09-20 | 2019-04-19 | 北京信息科技大学 | 多联结注意力的阅读理解模型、系统及方法 |
CN109992657A (zh) * | 2019-04-03 | 2019-07-09 | 浙江大学 | 一种基于强化动态推理的对话式问题生成方法 |
CN110083682A (zh) * | 2019-04-19 | 2019-08-02 | 西安交通大学 | 一种基于多轮注意力机制的机器阅读理解答案获取方法 |
CN110222349A (zh) * | 2019-06-13 | 2019-09-10 | 成都信息工程大学 | 一种深度动态上下文词语表示的模型及方法、计算机 |
Non-Patent Citations (4)
Title |
---|
D-Reader:一种以全文预测的阅读理解模型;赖郁婷等;《中文信息学报》;20181115(第11期);全文 * |
N-Reader:基于双层Self-attention的机器阅读理解模型;梁小波等;《中文信息学报》;20181015(第10期);全文 * |
基于XLNET的抽取式多级语义融合模型;胡益淮;《通信技术》;20200710(第07期);全文 * |
基于神经网络的机器阅读理解综述;顾迎捷等;《软件学报》;20200731;第2096-2124页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113010662A (zh) | 2021-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Uc-Cetina et al. | Survey on reinforcement learning for language processing | |
CN108874972B (zh) | 一种基于深度学习的多轮情感对话方法 | |
CN111581361A (zh) | 一种意图识别方法及装置 | |
CN109992669B (zh) | 一种基于语言模型和强化学习的关键词问答方法 | |
Wang et al. | Interactive natural language processing | |
Chen et al. | Joint entity and relation extraction for legal documents with legal feature enhancement | |
WO2023201975A1 (zh) | 一种差异描述语句生成方法、装置、设备及介质 | |
CN113010662B (zh) | 一种层次化会话式机器阅读理解系统和方法 | |
Wang et al. | TEDT: transformer-based encoding–decoding translation network for multimodal sentiment analysis | |
Qi et al. | MEDT: Using multimodal encoding-decoding network as in transformer for multimodal sentiment analysis | |
CN115310551A (zh) | 文本分析模型训练方法、装置、电子设备和存储介质 | |
CN113312912A (zh) | 一种用于交通基础设施检测文本的机器阅读理解方法 | |
CN117292146A (zh) | 一种面向工业场景的构建多模态大语言模型的方法、系统和应用方法 | |
CN115795044A (zh) | 基于知识注入的用户关系挖掘方法和装置 | |
Mao et al. | Grammar-based grounded lexicon learning | |
CN113536798B (zh) | 一种多实例文档关键信息抽取方法和系统 | |
CN112463935A (zh) | 一种带有强泛化知识选择的开放域对话生成方法及模型 | |
CN115422388B (zh) | 一种视觉对话方法及系统 | |
CN114861627B (zh) | 一种基于深度学习的选择题干扰项自动化生成方法及装置 | |
CN113590745B (zh) | 一种可解释的文本推断方法 | |
Gupta | A review of generative AI from historical perspectives | |
CN115130461A (zh) | 一种文本匹配方法、装置、电子设备及存储介质 | |
CN114330701A (zh) | 模型训练方法、装置、计算机设备、存储介质及程序产品 | |
CN115146589A (zh) | 文本处理方法、装置、介质以及电子设备 | |
Phade et al. | Question Answering System for low resource language using Transfer Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |