CN113010662A - 一种层次化会话式机器阅读理解系统和方法 - Google Patents

一种层次化会话式机器阅读理解系统和方法 Download PDF

Info

Publication number
CN113010662A
CN113010662A CN202110441176.0A CN202110441176A CN113010662A CN 113010662 A CN113010662 A CN 113010662A CN 202110441176 A CN202110441176 A CN 202110441176A CN 113010662 A CN113010662 A CN 113010662A
Authority
CN
China
Prior art keywords
information
article
question
vector
questions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110441176.0A
Other languages
English (en)
Other versions
CN113010662B (zh
Inventor
刘啸
杨敏
李成明
姜青山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN202110441176.0A priority Critical patent/CN113010662B/zh
Publication of CN113010662A publication Critical patent/CN113010662A/zh
Application granted granted Critical
Publication of CN113010662B publication Critical patent/CN113010662B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种层次化会话式机器阅读理解系统和方法。该系统包括:信息编码层,用于通过问题与文章的交互获得每一个问题所对应的文章的词向量,并将所有词向量进行拼接,获得问题与文章的初始化词向量矩阵;层次化转换推理层,用于对文章和问题的编码抽取深层次的上下文信息,捕获多个会话信息流并执行分层推理,其中会话信息流用于将一个问题与之前的一个问答对进行联系;答案预测层,用于对当前问题进行类型分类和答案跨度提取。本发明利用多种通道从多个角度搜索回答问题所需要的文章信息,能够生成更高质量的答案。

Description

一种层次化会话式机器阅读理解系统和方法
技术领域
本发明涉及计算机技术领域,更具体地,涉及一种层次化会话式机器阅读理解系统和方法。
背景技术
随着互联网技术的迅猛发展,机器与人类的交互已经从最初简单的指令级命令交互过渡到目前的非结构化文本交互,人们希望机器能够适应更加复杂多变的语言环境,从而更好更快的完成所给予的任务。各类智能教育和智能客服系统迅猛发展,作为上述服务核心的机器阅读理解任务已成为自然语言处理的研究热点。会话式阅读理解通过文字或语音与用户进行多轮交流,根据用户提供的信息在产品文档中快速找到解决方案,具有广阔的应用前景。
随着信息时代的到来,文本的规模呈爆炸式发展。因此,机器阅读理解带来的自动化和智能化恰逢其时,在工业界的众多领域和人们生活中的方方面面都有着广阔的应用空间。日常生活中充满着机器阅读理解技术的影子,例如,客服机器人是一种基于自然语言处理的拟人式服务,通过文字或语音与用户进行多轮交流,获取相关信息并提供解答。智能法律用于自动处理和应用各种错综复杂的法律法规实现对案例的自动审判,这可以利用机器阅读理解处理和分析大规模文档方面的速度优势。智能教育能够利用计算机辅助人类的学习过程。机器阅读理解在该领域的典型应用是作文自动批阅。自动作文批阅模型可以作为学生写作时的助手,理解作文语义,自动修改语法错误,个性化总结易错知识点。
机器阅读理解任务在自然语言处理中占据着非常重要的位置。它通过给予机器一段非结构化文本及其相应的问题,要求机器能够根据文本回答该问题,而这些问题往往充斥着迷惑性,如果不理解文本内容而根据规则进行回答,由此得到的答案大概率是错误答案。因此,机器阅读理解是检测机器理解文本语义能力的一个重要任务。
传统的机器阅读理解任务中不同轮的问题和答案之间没有相关性,可以独立求解。由于问题之间都是相互独立的,因此模型难以获得系统的知识。大部分机器阅读理解任务属于该类型。然而,在现实生活中,人类获取答案经常发生在对话行为中。人类会基于已经学习到的信息,然后通过不断的询问来获取更多额外的信息,这是机器智能化的体现。对话式机器阅读理解任务被提出,它要求机器能够模拟人类捕获信息的方式来回答问题。对话式机器阅读理解任务被证实比普通机器阅读理解任务更具有挑战性,因为它的一系列问题只有在理解了对话历史以及文章内容后才能被回答。这类任务中,邻近轮的问题和答案之间存在相关性,即回答第N+1轮的问题有可能需要依据第N轮及之前的问题和答案。这种形式的阅读理解任务更符合人与人之间对话的过程。当给定一篇文章时,对文章进行多轮问答对话,在得到答案的基础上提出另一个相关的问题,多次迭代。
在现有的对话式机器阅读理解方案中,最经典的是FlowQA模型。该模型在以往传统机器阅读理解模型对文章进行双向循环神经网络提取特征的基础上,加入了问题方向的单向循环神经网络,将历史问题的推理信息以隐向量的形式传入当前问题中并参与推理过程。使用单向循环神经网络是因为对于当前问题而言,它拥有的信息只来自“历史”,无法获得来自“未来”的信息。这一简单的处理提升了原本模型在此任务中的效果,也证明了流机制在多轮机器阅读理解任务中的重要性。可以看出,关于流机制在多轮机器阅读理解任务中的研究尚处于萌芽阶段,但其在此任务中增强模型逻辑推理的能力却十分强悍。如何进一步运用流机制来完善机器的逻辑推理能力,使其拥有真正的自然语言理解能力,是未来一个重要的研究方向。
据分析,传统的基于规则的机器阅读理解任务中,主要是依赖专家系统所建立的复杂规则,而且数据集比较简单,限制了系统扩展到其他领域的能力。由于过分依赖现有的语言特征工具,很难模拟人类阅读,难以构建有效特征,而且标记数据太少,机器学习方法虽然比规则方法好,但是并不能检测机器理解文本语义的能力。而对于深度学习时代,命名实体识别,指代消解等技术的发明,再加上深度学习端到端算法的提出(不依赖语言特征工具),一定程度上避免了噪声误差,因此极大的推动了机器阅读理解任务的发展过程。然而,在现实生活中,人类的交流更多是基于对话式的。人类获取答案经常发生在对话行为中,为了探索机器在历史对话中提取有效信息并结合文章内容进行逻辑推理的能力,一种全新的机器阅读理解任务,即会话式机器阅读理解任务被提出。它要求机器能够模拟人类捕获信息的方式来回答问题。
目前会话式机器阅读理解的模型主要是在传统机器阅读理解模型的基础上添加历史问题信息来进行。但是这些方法主要存在以下两个缺点:1)、当前大部分模型忽略了历史问题之间的推理过程,直接以拼接词向量的形式来增强当前问题的信息;2)、当前大部分模型仅考虑了短期语义和时间依赖性,仅在“token”级别上考虑了推理过程中的信息流转换,忽略了文章全局信息对历史问题的推理过程,使得模型只关注文章的局部内容,造成信息损失。
发明内容
本发明的目的是克服上述现有技术的缺陷,提供一种层次化会话式机器阅读理解系统和方法,实现在会话式机器阅读理解任务中,提高机器阅读理解系统对文本以及历史问答信息的有效利用,充分挖掘深层次语义信息,进而完成对当前问题的准确回答。
根据本发明的第一方面,提供一种层次化会话式机器阅读理解系统。该系统包括:
信息编码层:用于通过问题与文章的交互获得每一个问题所对应的文章的词向量,并将所有词向量进行拼接,获得问题与文章的初始化词向量矩阵;
层次化转换推理层:用于对文章和问题的编码抽取深层次的上下文信息,捕获多个会话信息流并执行分层推理,其中会话信息流用于将一个问题与之前的一个问答对进行联系;
答案预测层:用于对当前问题进行类型分类和答案跨度提取。
根据本发明的第二方面,提供一种层次化会话式机器阅读理解方法。该方法包括以下步骤:
通过问题与文章的交互获得每一个问题所对应的文章的词向量,并将所有词向量进行拼接,获得问题与文章的初始化词向量矩阵;
用于对文章和问题的编码抽取深层次的上下文信息,捕获多个会话信息流并执行分层推理,其中会话信息流用于将一个问题与之前的一个问答对进行联系;
对当前问题进行类型分类和答案跨度提取。
与现有技术相比,本发明的优点在于,设计了一种创新的基于深度学习的层次化会话式机器阅读理解模型(或称系统),该模型将过往问题的推理信息以信息流的方式传递到当前问题的推理过程中,完善回答当前问题所需要的信息,同时,利用多种通道从多个角度搜索回答问题所需要的文章信息,使得机器能够生成更高质量的答案。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。
图1是根据本发明一个实施例的层次化会话式机器阅读理解系统的整体结构图;
图2是根据本发明一个实施例的多通道信息流传递机制示意图;
附图中,Self-Attention-自注意力机制;MFT-多通道信息流传递推理模块;Multilevel Attention-多层次注意力机制;Aligned flow-aware Embedding-融合会话流的嵌入模块。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
针对目前大部分模型忽略了历史问题之间的推理过程,直接以拼接词向量的形式来增强当前问题的信息的问题,本发明设计使用多通道信息流传递机制,首先从局部和全文两种角度提取对回答问题有帮助的信息,再利用Memory的“读-写”思想更新模型的存储信息,最后利用Delta信息增益的思想辅助回答问题。
此外,针对目前模型仅考虑了短期语义和时间依赖性,忽略了文章全局信息对历史问题的推理过程的问题,本发明设计使用多层次上下文注意力机制,用于融合多层次细粒度表示并进行高级推理。
进一步地,本发明还探索了大规模预处理模型BERT提取的文章及问题特征向量对结果的影响,以利用额外信息协助提升对机器自然语言理解能力。
具体地,参见图1所示,结合深度学习与流思想,所提供的层次化会话式机器阅读理解系统整体上包括信息编码层、层次化转换推理层和答案预测层。
信息编码层,使用GloVe等词向量去初始化问题和文章中的每一个单词,对于不在预训练词表中的单词,使用随机初始化的向量代替。因为在会话式阅读理解任务中,存在着多个问题,因此通过问题与文章的交互来获得每一个问题所对应的文章的词向量。例如,将上述的所有词向量进行拼接,获得问题与文章的初始化词向量矩阵。
层次化转换推理层,为了更好地理解文章和问题,该模块用于对文章和问题的编码抽取更深层次的上下文信息。层次化转换推理层捕获多个会话信息流并执行分层推理。例如,层次化转换推理层包括问题-文章信息集成模块、多级上下文注意机制力模块和多通道信息流传递机制模块。
答案预测层,用于实现对问题类型分类和答案跨度提取两个子任务,例如,通过单层神经网络获得对该任务的预测。
具体地,首先对会话式阅读理解任务的进行数学定义,给定输入:(1)文章信息Context=[c1,c2,…,cm],这里ci表示文章中的第i个单词,m代表文章的长度。以及(2)会话中的信息流,定义了一个新术语“会话信息流”,方法是将一个问题与之前的一个问答对联系起来。在第i轮问题中,会话信息流被构建为Flowi=[Qi-1,Ai-1,Qi](Flow1=[Q1])。其中每个问题Qi被表示为一个词序列
Figure BDA0003035136080000061
每个答案Ai被表示为
Figure BDA0003035136080000062
输出包含两类子任务,分别是预测问的答案以及答案的种类,答案
Figure BDA0003035136080000063
这里
Figure BDA0003035136080000064
表示第i个问题在文章中答案的起始位置是下标为
Figure BDA0003035136080000065
所代表的单词,
Figure BDA0003035136080000066
同理。答案种类
Figure BDA0003035136080000067
这里
Figure BDA0003035136080000068
表示第i个问题的答案种类。
在下文中,结合上述的数学定义将详细阐述信息编码层、层次化转换推理层和答案预测层的具体实施例。
第一、信息编码层
在一个实施例中,使用了GloVe词向量和CoVE词向量去初始化问题和文章中的每一个单词,对于不在预训练词表中的单词,使用随机初始化的向量代替。然后使用ELMo预训练好的模型,在数据集上测试所得到向量表示。
优选地,为了加入文章单词的词性信息,还添加了23维的语言特征向量,包括8维的NER特征向量,20维的词性特征向量,3维精准匹配(Exact Matching)特征向量。由于在多轮阅读理解任务中,存在着多个问题,因此可以通过问题与文章的交互来获得每一个问题所对应的文章的词向量,记为falign(c),c表示文章中的单词。最终,将上述的所有词向量进行拼接,获得问题与文章的初始化词向量矩阵,数学形式为:
Figure BDA0003035136080000071
其中,g表示上文提到的Gloe词向量,Co表示CoVE词向量,e表示ELMo词向量,
Figure BDA0003035136080000072
表示文章单词的词性信息,
Figure BDA0003035136080000073
表示通过问题与文章的交互来获得每一个问题所对应的文章的词向量。
Figure BDA0003035136080000074
表示第i个问题下的文章初始向量,
Figure BDA0003035136080000075
表示第i轮会话流的初始向量。
第二、层次化转换推理层。
为了更好地理解文章和问题会话流,该模块用于对文章和问题的编码抽取更深层次的上下文信息。层次化转换推理层捕获多个会话信息流并执行分层推理。例如,其包含3个组件,分别是问题-文章信息集成模块、多级上下文注意机制力模块和多通道信息流传递推理模块。
1)问题-文章信息集成模块
在问题-文章编码层,需要对问题与文章的初始向量做编码,这样才能获得文章和问题的上下文表示。例如,使用双层BiLSTM模型,这样得到的隐藏层向量包含了前后信息的词向量表示,数学形式如下:
Figure BDA0003035136080000076
其中
Figure BDA0003035136080000077
分别表示第i个问题的文章初始向量在第一层、第二层BiLSTM的输出向量,
Figure BDA0003035136080000078
分别表示第i个问题所对应的会话流的初始向量在第一层、第二层BiLSTM的输出向量,
Figure BDA0003035136080000079
表示第i个问题下的文章初始向量,
Figure BDA00030351360800000710
表示第i轮会话流的初始向量。
另外,对于问题的编码向量,由于问题的长度一般很短,仅由最终的
Figure BDA00030351360800000711
并不能很好的表达问题的信息,因此在问题中还添加了高级(High Level)BiLSTM来丰富它的信息,它是将第一、二层问题的BiLSTM隐藏层向量相互拼接,再传入另一BiLSTM来完成的,数学形式如下:
Figure BDA00030351360800000712
2)多级上下文注意机制力模块
为了捕捉在不同层次上的匹配程度,在一个实施例中,设计使用了多级注意力机制。设文章在词表示层级的向量为
Figure BDA0003035136080000081
问题所对应的会话流在词表示层级的向量为
Figure BDA0003035136080000082
文章在编码层的表示向量为
Figure BDA0003035136080000083
问题在编码层的表示向量为
Figure BDA0003035136080000084
不同层次的注意力层表示如下:
Figure BDA0003035136080000085
可以看出,注意力层用于将文章和问题的向量进行相似度匹配,该相似度代表着“问题哪部分对文章的重要性更大”,再将其相似度与不同层次的问题编码向量做乘积操作,这样可以将问题的信息从不同角度上融合到文章信息中。具体来说,Attlevel1表示的是文章对问题在词层级的注意力信息,Attlevel2表示的是文章对问题在浅层语义上的注意力信息,Attlevel3表示的是文章对问题在深层语义上的注意力信息。通过从多个角度来进行文章与问题的注意力编码,可以丰富问题在文章中的信息,这样对后续的问题之间的逻辑推理有很大的帮助。最后,对这些得到的文章不同层次的表达做拼接操作,得到详细表示向量:
Figure BDA0003035136080000086
在得到文章的不同层次的编码信息后,优选地从两个角度来对文章信息进行融合,包括双向LSTM的上下文信息表示层以及文章自注意力推理层。上下文信息表示层的目的是使文章中每一个单词可以捕捉到前后的信息,增强每一个单词的表达能力,表示为:
Figure BDA0003035136080000087
同时,为了使文章中每一个单词对文章全局有更好的了解,在一个实施例中,利用Self-Attention模型来达到这一目的。通过Self-Attention,文章中相似信息的位置会有更高的匹配度,因此可以将相似信息收集融合起来,从而更好的回答问问题,数学表达形式如下,
Figure BDA0003035136080000088
其中,SAC表示最终的文章表示向量。
通过使用多层次上下文注意力机制,可以融合多层次细粒度表示并进行高级推理。
3)多通道信息流传递推理模块
会话式机器阅读理解任务中要求模型能够进行不同问题之间逻辑推理,针对目前大部分模型忽略了历史问题之间的推理过程,直接以拼接词向量的形式来增强当前问题的信息的问题,本发明实施例使用多通道信息流传递机制,它是随着问题论述的增多而动态变化的模块,收集文章的推理信息和问题的推理信息,并将它们结合起来。
如图2所示,其示出了所使用的三种形式的信息通道,分别是分层全局信息传递机制、Memory信息传递机制和Delta信息增益机制。
对于分层全局信息传递机制,通过类似RNN的信息传递机制,将上一轮问题所获得的信息与本轮问题所获得的信息进行交互融合,补全回答本轮问题需要的额外信息。具体地,如图2(a)所示,首先,第一层LSTM是将上一轮问题的推理信息与本轮的文章向量做单词与全文两个层次上的结合,得到具有前一轮问题信息的上下文逻辑向量。然后,再与本轮问题的文章向量做注意力操作。接下来,再将包含文章信息和前一轮问题推理信息的向量做第二层的LSTM操作,这样操作目的是为了得到融合程度更高的综合推理信息,再传给下一轮问题。具体公式如下:
Figure BDA0003035136080000091
其中,Context i代表在第i个问题的时候文章的最终表达向量
Figure BDA0003035136080000092
Token代表文章中每一个单词的特征向量,State表示文章的总体特征向量,这里通过对文章整体求平均获得,LSTM表示单向LSTM模型(因为在多轮阅读理解里,只能“看到”历史的问题,而无法获得未来问题的内容),Alignment(HAlign)表示推理信息注意力操作。
对于Memory信息传递机制,其网络结构如图2(c)所示,Memory的思想重点在于设计一个临时内容存储结构,然后通过类似计算机对内存的读、写操作来更新临时存储结构的内容。设第i轮问题的表示向量为
Figure BDA0003035136080000093
第i轮Memory中存储的内容为
Figure BDA0003035136080000101
文章表示向量为
Figure BDA0003035136080000102
Erase Operation(擦除操作)和Write-Operation(写操作)用Sigmod函数的线性模型完成,这一结构的数学表达形式如下:
Figure BDA0003035136080000103
对于Delta信息增益,其利用信息流代表信息增益。具体地,在人类对话的过程中,讨论的主题会随着时间线推移而缓慢的发生变化,这一特性在会话式阅读理解任务中也十分常见。而且由于问题轮数一般比较多,最开始一轮的主题与最后一轮的主题可能完全没有关系,从这一角度出发,可以设置一个信息流代表这一信息增益的思想。Delta信息增益机制的结构如图2(b)所示,数学表达形式如下:
Figure BDA0003035136080000104
其中,
Figure BDA0003035136080000105
表示第(i-1)轮问题的Delta信息增益模块输出,同理表示第(i-2)轮输出,文章表示向量为
Figure BDA0003035136080000106
最后,将三个通道的信息拼接到一起,获得不同角度下的历史问题推理向量,并输入一个单层BiLSTM中,使文章中的每一个单词能够同时获得分层次会话流的推理信息,数学表达式为:
Contextfinal=BiLSTM([SAC;FTG;FTM;FTDelta])
其中,SAC表示最终的文章表示向量,FTG表示分层全局信息传递通道获得的推理信息,FTM表示Memory信息传递通道获得的推理信息,FTDelta表示Delta信息增益通道获得推理信息。
在上述过程中,采用多通道信息流传递机制,首先从局部和全文两种角度提取对回答问题有帮助的信息,再利用Memory的“读-写”思想更新模型的存储信息,最后利用Delta信息增益的思想辅助回答问题,从而提升了推理的正确性。
第三、答案预测层
答案预测层包括对当前问题进行类型分类和答案跨度提取两个子任务,例如通过单层神经网络以获得对该任务的预测。具体公式如下:
Figure BDA0003035136080000111
其中,
Figure BDA0003035136080000112
表示对于第i个问题文章中第j个位置为起始位置的概率,
Figure BDA0003035136080000113
表示对于第i个问题,文章中第j个位置为终止位置的概率,WS∈Rd×d,WE∈Rd×d,均为可学习参数。
为了验证本发明的有效性和先进性,在CoQA以及QuAC数据集上进行了大量实验,对于提出的基于深度学习框架的层次化会话流传递模型与目前较为先进的机器阅读理解模型进行了比较。实验采用评估指标是F1值,它是精确率和召回率的调和均值,用于综合反映整体的指标。具体来说,实验中的F1分数是用标准答案中的单词与预测答案中的单词来计算。将对比模型分为使用BERT预训练词向量的模型与没有使用的模型进行对比。实验结果表明,本发明优于目前最好的基于深度学习的会话式机器阅读理解任务系统,同时在使用了BERT预训练词向量作为本发明模型的初始向量后,实现的效果也具有很强的竞争力。本发明在会话式机器阅读理解研究领域具有一定的创新性和研究价值,对多轮对话任务也具有一定的借鉴意义。
综上所述,针对现有技术中存在的技术问题(即仅考虑了推理过程中的信息流转换,而会话的全局转换信息尚未得到利用,并且忽略了历史问题之间的推理过程,直接以拼接词向量的形式来增强当前问题的信息),本发明至少从以下方面来改善模型效果:
1)首次提出基于分层全局信息传递的流模块,利用局部信息和全局信息的交互,使得模型在会话式机器阅读理解任务上的效果有所提升。其中局部信息为文章中字母与单词对问题的相互attention过程,这一过程使得问题可以捕捉文章中的关键词信息;而全局信息为文章的特征向量与问题向量相互attention的过程,这一过程使得问题可以在粗粒度上捕捉文章整体的逻辑信息,从而提高模型效果。
2)首次将Memory思想引入多轮机器阅读理解任务的模型中。设立了一个临时的存储模块来存储历史问题及其推理信息,每当新来一个问题,模型就会调用Read Operation来读取存储器中的信息来参与此问题的推理过程,而推理的结果又会被模型调用的WriteOperation来更新存储器中的信息,从而达到了结合历史问题信息,历史推理过程,文章内容三部分内容对问题进行逻辑推理的效果。
3)结合了Delta信息传递模块来进一步提升模型在多轮机器阅读理解任务中的效果。Delta信息传递模块将多轮问题看成在时间维度上不同的时间点,其特征向量的差异代表着问题主题的显性变化。
4)设计一个多层次会话流注意机制,整合了语境的多层次整合,融合多层次细粒度表示,对会话推理过程进行了全面的理解和推理。
5)探索了大规模预处理模型BERT提取的文章及问题特征向量对结果的影响,说明额外信息对机器自然语言理解能力的帮助之大。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++、Python等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims (10)

1.一种层次化会话式机器阅读理解系统,包括:
信息编码层:用于通过问题与文章的交互获得每一个问题所对应的文章的词向量,并将所有词向量进行拼接,获得问题与文章的初始化词向量矩阵;
层次化转换推理层:用于对文章和问题的编码抽取深层次的上下文信息,捕获多个会话信息流并执行分层推理,其中会话信息流用于将一个问题与之前的一个问答对进行联系;
答案预测层:用于对当前问题进行类型分类和答案跨度提取。
2.根据权利要求1所述的系统,其特征在于,所述信息编码层获得的问题与文章的初始化词向量矩阵为:
Figure FDA0003035136070000011
Figure FDA0003035136070000012
其中,
Figure FDA0003035136070000013
表示第i个问题下的文章初始向量,
Figure FDA0003035136070000014
表示第i轮会话流的初始向量,C表示文章中的单词,g表示Gloe词向量,Co表示CoVE词向量,e表示ELMo词向量,
Figure FDA0003035136070000015
表示文章单词的词性信息,
Figure FDA0003035136070000016
表示通过问题与文章的交互来获得每一个问题所对应的文章的词向量。
3.根据权利要求1所述的系统,其特征在于,所述层次化转换推理层包括问题-文章信息集成模块、多级上下文注意机制力模块、多通道信息流传递推理模块,其中所述问题-文章信息集成模块对问题与文章的初始向量做编码,获得文章和问题的上下文表示;所述多级上下文注意机制力模块,使用多级注意力机制,获得文章对问题在词层级的注意力信息、文章对问题在浅层语义上的注意力信息,以及文章对问题在深层语义上的注意力信息;所述多通道信息流传递推理模块,使用多通道信息流传递机制,收集文章的推理信息和问题的推理信息,并进行结合。
4.根据权利要求3所述的系统,其特征在于,所述问题-文章信息集成模块采用双层的双向长短期记忆网络模型BiLSTM获得隐藏层向量表示。
5.根据权利要求4所述的系统,其特征在于,所述多通道信息流传递推理模块包括分层全局信息传递机制,执行以下步骤:
将上一轮问题的推理信息与本轮的文章向量做单词与全文两个层次上的结合,得到了具有前一轮问题信息的上下文逻辑向量;
与本轮问题的文章向量做注意力操作;
将包含文章信息和前一轮问题推理信息的向量做第二层的长短期记忆网络LSTM操作,再传给下一轮问题。
6.根据权利要求3所述的系统,其特征在于,所述多通道信息流传递推理模块包括Memory信息传递机制,表示为:
Figure FDA0003035136070000021
Figure FDA0003035136070000022
Figure FDA0003035136070000023
Figure FDA0003035136070000024
Figure FDA0003035136070000025
Figure FDA0003035136070000026
其中,第i轮问题的表示向量为
Figure FDA0003035136070000027
第i轮Memory中存储的内容为
Figure FDA0003035136070000028
文章表示向量为
Figure FDA0003035136070000029
EP表示擦除操作,WP表示写操作,用Sigmod函数的线性模型完成。
7.根据权利要求3所述的系统,其特征在于,所述多通道信息流传递推理模块包括Delta信息增益机制,表示为:
Figure FDA00030351360700000210
其中,
Figure FDA00030351360700000211
表示第i-1轮问题的Delta信息增益模块的输出,
Figure FDA00030351360700000212
表示第i-2轮Delta信息增益模块的输出,
Figure FDA00030351360700000213
表示文章表示向量。
8.根据权利要求4所述的系统,其特征在于,所述答案预测层通过单层神经网络实现对当前问题进行类型分类和答案跨度提取。
9.一种层次化会话式机器阅读理解方法,包括以下步骤:
通过问题与文章的交互获得每一个问题所对应的文章的词向量,并将所有词向量进行拼接,获得问题与文章的初始化词向量矩阵;
对文章和问题的编码抽取深层次的上下文信息,捕获多个会话信息流并执行分层推理,其中会话信息流用于将一个问题与之前的一个问答对进行联系;
对当前问题进行类型分类和答案跨度提取。
10.一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现根据权利要求9所述方法的步骤。
CN202110441176.0A 2021-04-23 2021-04-23 一种层次化会话式机器阅读理解系统和方法 Active CN113010662B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110441176.0A CN113010662B (zh) 2021-04-23 2021-04-23 一种层次化会话式机器阅读理解系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110441176.0A CN113010662B (zh) 2021-04-23 2021-04-23 一种层次化会话式机器阅读理解系统和方法

Publications (2)

Publication Number Publication Date
CN113010662A true CN113010662A (zh) 2021-06-22
CN113010662B CN113010662B (zh) 2022-09-27

Family

ID=76389266

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110441176.0A Active CN113010662B (zh) 2021-04-23 2021-04-23 一种层次化会话式机器阅读理解系统和方法

Country Status (1)

Country Link
CN (1) CN113010662B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113590790A (zh) * 2021-07-30 2021-11-02 北京壹心壹翼科技有限公司 应用于多轮问答的问题检索方法、装置、设备及介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080270384A1 (en) * 2007-04-28 2008-10-30 Raymond Lee Shu Tak System and method for intelligent ontology based knowledge search engine
KR101753358B1 (ko) * 2015-12-28 2017-07-04 동서대학교산학협력단 단어를 이용한 웹 관련기사 수집 및 블라인드 이벤트 제공 시스템 및 방법
WO2018121380A1 (zh) * 2016-12-30 2018-07-05 华为技术有限公司 基于社区问答的物品推荐方法、系统及用户设备
CN108959396A (zh) * 2018-06-04 2018-12-07 众安信息技术服务有限公司 机器阅读模型训练方法及装置、问答方法及装置
CN109657226A (zh) * 2018-09-20 2019-04-19 北京信息科技大学 多联结注意力的阅读理解模型、系统及方法
CN109992657A (zh) * 2019-04-03 2019-07-09 浙江大学 一种基于强化动态推理的对话式问题生成方法
CN110083682A (zh) * 2019-04-19 2019-08-02 西安交通大学 一种基于多轮注意力机制的机器阅读理解答案获取方法
CN110222349A (zh) * 2019-06-13 2019-09-10 成都信息工程大学 一种深度动态上下文词语表示的模型及方法、计算机
US20210056445A1 (en) * 2019-08-22 2021-02-25 International Business Machines Corporation Conversation history within conversational machine reading comprehension
US20210089718A1 (en) * 2019-09-19 2021-03-25 University Of Electronic Science And Technology Of China Method for machine reading comprehension

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080270384A1 (en) * 2007-04-28 2008-10-30 Raymond Lee Shu Tak System and method for intelligent ontology based knowledge search engine
KR101753358B1 (ko) * 2015-12-28 2017-07-04 동서대학교산학협력단 단어를 이용한 웹 관련기사 수집 및 블라인드 이벤트 제공 시스템 및 방법
WO2018121380A1 (zh) * 2016-12-30 2018-07-05 华为技术有限公司 基于社区问答的物品推荐方法、系统及用户设备
CN108959396A (zh) * 2018-06-04 2018-12-07 众安信息技术服务有限公司 机器阅读模型训练方法及装置、问答方法及装置
CN109657226A (zh) * 2018-09-20 2019-04-19 北京信息科技大学 多联结注意力的阅读理解模型、系统及方法
CN109992657A (zh) * 2019-04-03 2019-07-09 浙江大学 一种基于强化动态推理的对话式问题生成方法
CN110083682A (zh) * 2019-04-19 2019-08-02 西安交通大学 一种基于多轮注意力机制的机器阅读理解答案获取方法
CN110222349A (zh) * 2019-06-13 2019-09-10 成都信息工程大学 一种深度动态上下文词语表示的模型及方法、计算机
US20210056445A1 (en) * 2019-08-22 2021-02-25 International Business Machines Corporation Conversation history within conversational machine reading comprehension
US20210089718A1 (en) * 2019-09-19 2021-03-25 University Of Electronic Science And Technology Of China Method for machine reading comprehension

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
林世平等: "基于时间卷积网络的机器阅读理解", 《福州大学学报(自然科学版)》 *
梁小波等: "N-Reader:基于双层Self-attention的机器阅读理解模型", 《中文信息学报》 *
胡益淮: "基于XLNET的抽取式多级语义融合模型", 《通信技术》 *
赖郁婷等: "D-Reader:一种以全文预测的阅读理解模型", 《中文信息学报》 *
顾迎捷等: "基于神经网络的机器阅读理解综述", 《软件学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113590790A (zh) * 2021-07-30 2021-11-02 北京壹心壹翼科技有限公司 应用于多轮问答的问题检索方法、装置、设备及介质
CN113590790B (zh) * 2021-07-30 2023-11-28 北京壹心壹翼科技有限公司 应用于多轮问答的问题检索方法、装置、设备及介质

Also Published As

Publication number Publication date
CN113010662B (zh) 2022-09-27

Similar Documents

Publication Publication Date Title
Uc-Cetina et al. Survey on reinforcement learning for language processing
CN113255755B (zh) 一种基于异质融合网络的多模态情感分类方法
CN109992669B (zh) 一种基于语言模型和强化学习的关键词问答方法
CN114511860B (zh) 一种差异描述语句生成方法、装置、设备及介质
CN113987179A (zh) 基于知识增强和回溯损失的对话情绪识别网络模型、构建方法、电子设备及存储介质
CN112364148B (zh) 一种基于深度学习方法的生成型聊天机器人
CN114489669A (zh) 一种基于图学习的Python语言代码片段生成方法
Dethlefs Domain transfer for deep natural language generation from abstract meaning representations
Qi et al. Medt: Using multimodal encoding-decoding network as in transformer for multimodal sentiment analysis
CN115630145A (zh) 一种基于多粒度情感的对话推荐方法及系统
Majid et al. Conversations sentiment and intent categorization using context RNN for emotion recognition
Wang et al. TEDT: Transformer-based encoding–decoding translation network for multimodal sentiment analysis
CN115795044A (zh) 基于知识注入的用户关系挖掘方法和装置
CN116204674A (zh) 一种基于视觉概念词关联结构化建模的图像描述方法
CN115310551A (zh) 文本分析模型训练方法、装置、电子设备和存储介质
Mao et al. Grammar-based grounded lexicon learning
CN113010662B (zh) 一种层次化会话式机器阅读理解系统和方法
CN112463935B (zh) 一种带有强泛化知识选择的开放域对话生成方法及系统
CN117292146A (zh) 一种面向工业场景的构建多模态大语言模型的方法、系统和应用方法
CN112364659A (zh) 一种无监督的语义表示自动识别方法及装置
CN116975288A (zh) 文本处理方法及文本处理模型训练方法
CN116561251A (zh) 一种自然语言处理方法
Kulkarni et al. Applied Generative AI for Beginners
CN115130461A (zh) 一种文本匹配方法、装置、电子设备及存储介质
CN113590745A (zh) 一种可解释的文本推断方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant