CN109033068B - 基于注意力机制的用于阅读理解的方法、装置和电子设备 - Google Patents

基于注意力机制的用于阅读理解的方法、装置和电子设备 Download PDF

Info

Publication number
CN109033068B
CN109033068B CN201810611199.XA CN201810611199A CN109033068B CN 109033068 B CN109033068 B CN 109033068B CN 201810611199 A CN201810611199 A CN 201810611199A CN 109033068 B CN109033068 B CN 109033068B
Authority
CN
China
Prior art keywords
question
semantic
representation
text
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810611199.XA
Other languages
English (en)
Other versions
CN109033068A (zh
Inventor
杨鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Huiwen Technology Group Co ltd
Original Assignee
Beijing Huiwen Technology Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Huiwen Technology Group Co ltd filed Critical Beijing Huiwen Technology Group Co ltd
Priority to CN201810611199.XA priority Critical patent/CN109033068B/zh
Publication of CN109033068A publication Critical patent/CN109033068A/zh
Application granted granted Critical
Publication of CN109033068B publication Critical patent/CN109033068B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Abstract

公开了基于注意力机制的用于阅读理解的方法、装置和电子设备。该方法包括:对获得文本数据和问题数据分别进行词向量转化;处理问题和文本的词向量表示,以分别获得问题和文本的语义向量表示;对问题和文本的语义向量表示进行语义加强;通过注意力机制层获得融合问题信息的上下文表示;对融合问题信息的上下文表示进行语义加强,以及,基于加强的融合问题信息的上下文表示和加强的问题语义向量表示,获得问题数据对应的答案。这样,通过采用语义加强方法的特定模型架构优化用于机器阅读理解的系统,以提升短文本答案抽取任务的效果。

Description

基于注意力机制的用于阅读理解的方法、装置和电子设备
技术领域
本发明总体地涉及数据处理领域,特别是涉及基于注意力机制的用于阅读理解的方法、装置和电子设备。
背景技术
自从计算机诞生以来,计算机在很多事情上的处理能力以超过人类,那么计算机能不能拥有智能,像人类一样懂得自然语言呢?机器阅读理解(Machine ReadingComprehension,MRC)是自然语言处理领域的一个重要课题,其目的在于让计算机在海量文本中找到精确的答案,从而减轻人类获得信息的成本。
机器阅读理解任务包括完形填空式的任务,答案抽取式的任务和更复杂的基于网络数据的问答任务,其中,最流行的阅读理解任务为答案抽取式的任务。答案抽取式的阅读理解任务指的是,给定问题和与该问题相关的短文本(通常为1000词以内),从该短文本中抽取文本片段作为该问题的正确答案。
目前针对答案抽取式的阅读理解任务,主流的做法是通过深度学习来完成此任务。然而,在具体实现基于深度学习的短文本答案抽取的过程中,仍存在着诸多难题需要攻克,这些难题制约着机器阅读理解系统的性能和实际产业应用范围。
因此,对于一种能够更为全面地克服短文本答案抽取实现难题的基于注意力机制的用于阅读理解的方案之需求是持续存在的。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了基于注意力机制的用于阅读理解的方法、装置和电子设备,其通过采用语义加强方法的特定模型架构优化用于机器阅读理解的系统,以提升短文本答案抽取任务的效果。
根据本申请的一方面,提供了一种基于注意力机制的用于阅读理解的方法,包括:对获得的文本数据和与所述文本数据相关的问题数据分别进行词向量转化,以分别获得所述问题数据和所述文本数据的词向量表示;以第一循环神经网络模型分别处理所述问题数据和所述文本数据的词向量表示,以分别获得所述问题数据的问题语义向量表示和所述文本数据的文本语义向量表示;通过第一语义加强层处理所述问题语义向量表示和文本向量语义表示,以分别获得加强的问题语义向量表示和加强的文本语义向量表示;通过注意力机制层处理所述加强的问题语义向量表示和所述加强的文本语义向量表示,以获得融合问题信息的上下文表示;通过第二语义加强层处理所述融合问题信息的上下文表示,以获得加强的融合问题信息的上下文表示;以及,基于所述加强的融合问题信息的上下文表示和所述加强的问题语义向量表示,获得所述文本数据中每个词语为所述问题数据对应答案的起始位置和结束位置的概率,以将起始位置和结束位置的联合分布概率最大的文本片段确定为所述问题数据对应的答案。
在上述基于注意力机制的用于阅读理解的方法中,通过第一语义加强层分别获得加强的问题语义向量表示和加强的文本语义向量表示,包括:以所述第一循环神经网络模型再次分别处理所述问题语义向量表示和所述文本语义向量,以分别获得第二问题语义向量表示和第二文本语义向量表示;以第二循环神经网络模型分别处理所述第二问题语义向量表示和所述第二文本语义向量表示,以分别获得第三问题语义向量表示和第三文本语义向量表示;以第三循环神经网络模型分别处理所述第二问题语义向量表示和所述第二文本语义向量表示,以分别获得所述问题数据的每个词语的语义处理权重和所述文本数据的每个词语的语义处理权重;基于所述问题数据的每个词语的语义处理权重、所述第二问题语义向量表示和所述第三问题语义向量表示,获得所述加强的问题语义向量表示;以及,基于所述文本数据的每个词语的语义处理权重、所述第二文本语义向量表示和所述第三文本语义向量表示,获得所述加强的文本语义向量表示。
在上述基于注意力机制的用于阅读理解的方法中,通过注意力机制层获得融合问题信息的上下文表示,包括:获得所述加强的问题语义向量表示和所述加强的文本语义向量表示之间的相似度矩阵,其中,所述相似度矩阵表示所述文本数据的每个词语与所述问题数据的每个词语的相关程度;对所述相似度矩阵逐行进行归一化处理,以获得所述文本数据关于问题数据的注意力权重;基于所述文本数据关于问题数据的注意力权重和所述加强的问题语义向量表示,以获得融合问题信息的初始上下文表示;拼接所述加强的文本语义向量表示和所述融合问题信息的初始上下文表示,以获得连接向量;通过门单元对所述连接向量进行归一化处理;以及,基于所述连接向量和所述归一化处理后的所述连接向量,获得所述融合问题信息的上下文表示。
在上述基于注意力机制的用于阅读理解的方法中,通过第二语义加强层处理所述融合问题信息的上下文表示,以获得加强的融合问题信息的上下文表示,包括:通过所述第一循环神经网络模型处理所述融合问题信息的上下文表示,以获得第一融合问题信息的上下文语义表示;通过所述第一循环神经网络模型再次处理所述第一融合问题信息的上下文语义表示,以获得第二融合问题信息的上下文语义表示;以第二循环神经网络模型处理所述第二融合问题信息的上下文语义表示,以分别获得第三融合问题信息的上下文语义表示;以第三循环神经网络模型处理所述第二融合问题信息的上下文语义表示,以获得所述融合问题信息的上下文表示的每个词语的语义处理权重;以及,基于所述融合问题信息的上下文表示的每个词语的语义处理权重、所述第二融合问题信息的上下文语义表示和所述第三融合问题信息的上下文语义表示,获得加强的所述融合问题信息的上下文语义表示。
在上述基于注意力机制的用于阅读理解的方法中,所述第一循环神经网络模型,所述第二循环神经网络模型和所述第三循环神经网络模型分别为不同的循环神经网络模型。
在上述基于注意力机制的用于阅读理解的方法中,所述第三循环神经网络的激活函数被设置为Sigmoid函数。
根据本申请的另一方面,提供了一种基于注意力机制的用于阅读理解的装置,包括:词向量转化单元,用于对获得文本数据和与所述文本数据相关的问题数据分别进行词向量转化,以分别获得所述问题数据和所述文本数据的词向量表示;语义信息获得单元,用于以第一循环神经网络分别处理所述问题数据和所述文本数据的词向量表示,以分别获得所述问题数据的问题语义向量表示和所述文本数据的文本语义向量表示;第一语义加强单元,用于处理所述问题语义向量表示和文本向量语义表示,以分别获得加强的问题语义向量表示和加强的文本语义向量表示;注意力机制单元,用于通过注意力机制处理所述加强的问题语义向量表示和所述加强的文本语义向量表示,以获得融合问题信息的上下文表示;第二语义加强单元,用于处理所述融合问题信息的上下文表示,以获得所述加强的融合问题信息的上下文表示;以及,答案预测单元,用于基于所述加强的融合问题信息的上下文表示和所述加强的问题语义向量表示,获得所述文本数据中每个词语为所述问题数据对应答案的起始位置和结束位置的概率,以将起始位置和结束位置的联合分布概率最大的文本片段确定为所述问题数据对应的答案。
在上述基于注意力机制的用于阅读理解的装置中,所述第一语义加强单元,用于:以所述第一循环神经网络模型再次分别处理所述问题语义向量表示和所述文本语义向量,以分别获得第二问题语义向量表示和第二文本语义向量表示;以第二循环神经网络模型分别处理所述第二问题语义向量表示和所述第二文本语义向量表示,以分别获得第三问题语义向量表示和第三文本语义向量表示;以第三循环神经网络模型分别处理所述第二问题语义向量表示和所述第二文本语义向量表示,以分别获得所述问题数据的每个词语的语义处理权重和所述文本数据的每个词语的语义处理权重;基于所述问题数据的每个词语的语义处理权重、所述第二问题语义向量表示和所述第三问题语义向量表示,获得所述加强的问题语义向量表示;以及,基于所述文本数据的每个词语的语义处理权重、所述第二文本语义向量表示和所述第三文本语义向量表示,获得所述加强的文本语义向量表示。
在上述基于注意力机制的用于阅读理解的装置中,所述注意力机制单元,用于:获得所述加强的问题语义向量表示和所述加强的文本语义向量表示之间的相似度矩阵,其中,所述相似度矩阵表示所述文本数据的每个词语与所述问题数据的每个词语的相关程度;对所述相似度矩阵逐行进行归一化处理,以获得所述文本数据关于问题数据的注意力权重;基于所述文本数据关于问题数据的注意力权重和所述加强的问题语义向量表示,以获得融合问题信息的初始上下文表示;拼接所述加强的文本语义向量表示和所述融合问题信息的初始上下文表示,以获得连接向量;通过门单元对所述连接向量进行归一化处理;以及,基于所述连接向量和所述归一化处理后的所述连接向量,获得所述融合问题信息的上下文表示。
在上述基于注意力机制的用于阅读理解的装置中,所述第二语义加强单元,用于:通过所述第一循环神经网络模型处理所述融合问题信息的上下文表示,以获得第一融合问题信息的上下文语义表示;通过所述第一循环神经网络模型再次处理所述第一融合问题信息的上下文语义表示,以获得第二融合问题信息的上下文语义表示;以第二循环神经网络模型处理所述第二融合问题信息的上下文语义表示,以分别获得第三融合问题信息的上下文语义表示;以第三循环神经网络模型处理所述第二融合问题信息的上下文语义表示,以获得所述融合问题信息的上下文表示的每个词语的语义处理权重;以及,基于所述融合问题信息的上下文表示的每个词语的语义处理权重、所述第二融合问题信息的上下文语义表示和所述第三融合问题信息的上下文语义表示,获得加强的所述融合问题信息的上下文语义表示。
在上述基于注意力机制的用于阅读理解的装置中,所述第一循环神经网络模型,所述第二循环神经网络模型和所述第三循环神经网络模型分别为不同的循环神经网络模型。
在上述基于注意力机制的用于阅读理解的装置中,所述第三循环神经网络的激活函数被设置为Sigmoid函数。
根据本申请的又一方面,提供一种电子设备,包括:处理器;以及,存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的基于注意力机制的用于阅读理解的方法。
根据本申请的又一方面,提供一种计算机可读存储介质,其上存储有计算机程序指令,当所述计算机程序指令被计算装置执行时,可操作来执行如上所述的基于注意力机制的用于阅读理解的方法。
本申请提供的基于注意力机制的用于阅读理解的方法、装置和电子设备,可以通过采用语义加强方法的特定模型架构优化用于机器阅读理解的系统,以提升短文本答案抽取任务的效果。
附图说明
从下面结合附图对本发明实施例的详细描述中,本发明的这些和/或其它方面和优点将变得更加清楚并更容易理解,其中:
图1图示了根据本申请实施例的基于注意力机制的用于阅读理解的方法的流程图。
图2图示了根据本申请实施例的利用语义加强层对所述问题数据和所述文本数据进行语义加强的流程图。
图3图示了根据本申请实施例的通过所述注意力机制层获得所述融合问题信息的上下文表示的流程图。
图4图示了根据本申请实施例的用于机器阅读理解的系统模型架构的示意图。
图5图示了根据本申请实施例的用于机器阅读理解的系统的训练过程示意图。
图6示意了本申请实施例提供的用于机器阅读理解的系统利用斯坦福公开阅读理解数据集(Stanford Question Answering Dataset,SQuAD)的测试结果。
图7图示了本申请实施例提供的用于机器阅读理解的系统用于处理短文本答案抽取的一个示例。
图8图示了根据本申请实施例的基于注意力机制的用于阅读理解的装置的框图。
图9图示了根据本申请实施例的电子设备的框图。
具体实施方式
下面,将参考附图详细描述根据本申请的示例实施例。显然,所描述的实施例仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解本申请不受这里描述的示例实施例的限制。
申请概述
如上所述,机器阅读理解(Machine Reading Comprehension,MRC)是自然语言处理领域的一个重要课题,其目的在于让计算机在海量文本中找到精确的答案,从而减轻人类获得信息的成本。目前,最流行的机器阅读理解任务为答案抽取式的任务。答案抽取式的阅读理解任务指的是,给定问题和与该问题相关的短文本(通常为1000词以内),从该短文本中抽取文本片段作为该问题的正确答案。解决该任务具有如下几个主要的特点:第一,难度适中,抽取式的阅读理解目的是从单篇文本数据中抽取文本片段作为问题对应的答案,比完形填空式抽取单个实体词复杂,比网络问答式从更大语料库中抽取答案简单;第二,意义重大,解决该任务要求机器对文本数据和问题数据进行语义理解和知识提取,这种能力也是解决更复杂任务所必须的前提。
然而,在具体实现短文本答案抽取任务中,存在着诸多难题需要攻克。首先,如何让机器理解文本数据和问题数据的语义信息。这里,语义信息指的是能够消除事物不确定性的有一定意义的信息,其中,语义信息可以借助自然语言领会和理解。其次,如何捕捉短文本数据和问题数据之间的关系,以获得融合问题信息和文本信息的新表示;还有,如何从文本数据中截取文本片段作为问题对应的答案。这些难题,在优化短文本答案抽取效果的过程中皆需逐一克服或改进,以提升短文本答案抽取任务的效果。
针对上述技术问题,本申请的基本构思是首先将所述问题数据和所述文本数据转化为机器能够识别的表现形式;进而,通过循环神经网络模型获得所述问题数据和所述文本数据的语义向量表示;进一步地,通过特定的语义加强方法对所述问题语义向量表示和所述文本语义向量表示进行语义加强,继而,通过注意力机制层捕捉所述问题数据和所述文本数据之间的关系,以获得融合问题信息的上下文表示;并进一步地,通过特定的语义加强方法对所述融合问题信息的上下文表示进行语义加强;最终,基于所述加强的融合问题信息的上下文表示和所述加强的问题语义向量表示,从所述文本数据中获得所述问题数据对应的答案文本片段。
基于此,本发明提供一种基于注意力机制的用于阅读理解的方法、装置和电子设备,其首先对获得文本数据和与所述文本数据相关的问题数据分别进行词向量转化,以分别获得所述问题数据和所述文本数据的词向量表示;然后,以第一循环神经网络分别处理所述问题数据和所述文本数据的词向量表示,以分别获得所述问题数据的问题语义向量表示和所述文本数据的文本语义向量表示;进而,通过第一语义加强层处理所述问题语义向量表示和文本向量语义表示,以分别获得加强的问题语义向量表示和加强的文本语义向量表示;然后,通过注意力机制层处理所述加强的问题语义向量表示和所述加强的文本语义向量表示,以获得融合问题信息的上下文表示;进一步地,通过第二语义加强层处理所述融合问题信息的上下文表示,以获得加强的融合问题信息的上下文表示;然后,基于所述加强的融合问题信息的上下文表示和所述加强的问题语义向量表示,获得所述文本数据中每个词语为所述问题数据对应答案的起始位置和结束位置的概率;以及,最终,确定起始位置和结束位置的联合分布概率最大的文本片段为所述问题数据对应的答案。这样,通过采用语义加强方法的特定模型架构优化用于机器阅读理解的系统,以提升短文本答案抽取任务的效果。
在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。
示意性方法
图1图示了根据本申请实施例的基于注意力机制的用于阅读理解的方法的流程图。如图1所示,根据本申请实施例的基于注意力机制的用于阅读理解的方法包括:S110,对获得的文本数据和与所述文本数据相关的问题数据分别进行词向量转化,以分别获得所述问题数据和所述文本数据的词向量表示;S120,以第一循环神经网络模型分别处理所述问题数据和所述文本数据的词向量表示,以分别获得所述问题数据的问题语义向量表示和所述文本数据的文本语义向量表示;S130,通过第一语义加强层处理所述问题语义向量表示和文本向量语义表示,以分别获得加强的问题语义向量表示和加强的文本语义向量表示;S140,通过注意力机制层处理所述加强的问题语义向量表示和所述加强的文本语义向量表示,以获得融合问题信息的上下文表示;S150,通过第二语义加强层处理所述融合问题信息的上下文表示,以获得加强的融合问题信息的上下文表示;S160,基于所述加强的融合问题信息的上下文表示和所述加强的问题语义向量表示,获得所述文本数据中每个词语为所述问题数据对应答案的起始位置和结束位置的概率,以将起始位置和结束位置的联合分布概率最大的文本片段确定为所述问题数据对应的答案。
这里,在本申请实施例中,所述基于注意力机制的用于阅读理解的方法用于处理短文本答案抽取任务。换言之,基于注意力机制的用于阅读理解的方法为用于短文本答案抽取的数据处理方法,其目的在于:给定问题数据和与所述问题数据相关的文本数据,从所述文本数据中抽取文本片段作为所述问题数据的正确答案。
在步骤S110中,对获得文本数据和与所述文本数据相关的问题数据分别进行词向量转化,以分别获得所述问题数据和所述文本数据的词向量表示。本领域的技术人员应可以理解,在完成自然语言处理的相关任务时,第一个技术难点为:如何让机器理解所述问题数据和所述文本数据的语义信息。这里,数据的语义信息表示数据所对应现实世界中的事物所代表的概念的含义,以及这些含义之间的关系,是数据在某个领域上的解释和逻辑表示。而,在机器进行数据语义理解之前,需将自然语言转化为计算设备能够识别的语言,即数学符号,其中该数学符号通常为向量。换言之,在获取问题数据和答案数据之后,需将所述问题数据和所述文本数据转化为机器能够识别的表示作为输入。
特别地,在本申请实施例中,对所述问题数据和所述文本数据进行词向量转化处理,以分别获得所述问题数据和所述文本数据的词向量表示。更具体地,在本申请实施例中,通过词嵌入方法对所述问题数据和所述文本数据进行词向量转化,以分别获得所述问题数据和所述文本数据的每个词语的词向量表示,其中,词向量是词语的连续、稠密、低纬度的分布表示。词嵌入方法(Word Embedding Method)是将自然语言词语数学化的一种方法,其指的是将自然语言中的每一个词映射到高维空间,并表示为一个高维向量。这种词语表示方法通过训练将词语映射到一个K维实数向量(一般K可取50、100等)其中,每个词即为K维向量空间中的一点,词语之间的距离(如欧式距离、Cosine距离)代表词语之间的语义相似度。
在本申请实施例中,例如,可以使用经过预训练的GloVe词向量作为原始文本的词嵌入词表,直接获得所述问题数据和所述文本数据的每个词语到d维空间的映射(d=100/300),以获得所述问题数据和所述文本数据的每个词语的词向量表示。换言之,所述问题数据和所述文本数据的词向量表示为所述问题数据和所述文本数据的词嵌入信息,其表示所述问题数据中每个词语的词向量按照顺序拼接的结果和所述文本数据中每个词语的词向量按照顺序拼接的结果。
在步骤S120中,以第一循环神经网络模型分别处理所述问题数据和所述文本数据的词向量表示,以分别获得所述问题数据的问题语义向量表示和所述文本数据的文本语义向量表示。换言之,以所述问题数据和所述文本数据的词向量表示作为所述第一循环神经网络模型的输入,并藉由所述第一循环神经网络模型生成所述文本数据和所述答案数据的语义向量表示(所述问题语义向量表示和所述文本语义向量表示)。这里,所述问题数据和所述答案数据的语义信息包括文本主语、宾语、事件等所有信息。
在数据处理过程中,所述问题数据和所述文本数据的词向量表示作为所述第一循环神经网络模型的输入,并将网络中每个时间片的输出结果进行拼接,以获得所述问题语义向量表示和所述文本语义向量表示。也就是说,求得所述问题数据和所述文本数据的语义信息等价于利用所述第一循环神经网络模型获得所述问题数据和所述文本数据的词向量表示的抽象向量表达,此抽象向量表达蕴含了文本主语、宾语、事情等所有信息。即,所述抽象向量表示为所述问题语义向量表示和所述文本语义向量表示。值得一提的是,所述问题语义向量表示和所述文本语义向量表示是一个中间变量,其值很难被人类理解,但对于神经网络模型和机器阅读理解却有重要意义。
值得一提的是,在本申请实施例中,用于对所述问题数据和所述答案数据的词向量表示进行处理以获得所述问题语义向量表示和所述文本语义向量表示的循环神经网络模型(Recurrent Neural Network,RNN)为同一循环神经网络模型,即,所述第一循环神经网络模型。并且,所述第一循环神经网络模型的循环单元设置为门控单元(GatedRecurrent Unit,GRU)。
在处理短文本答案抽取任务中,对于所述问题数据和所述文本数据的语义信息的编码结果直接影响其最终答案抽取的准确性。因此,虽然只以所述循环神经网络模型为基本结构的语义编码方法已经能够获得所述问题数据和所述文本数据的语义信息表示,但是,如果能够让所述问题数据和所述问题数据中的部分无用信息(例如,由错误语法引起的重复)能够被忽略,以及,部分重要信息(例如,所述问题数据和所述文本数据中的关键词)能够得到加强,这样,对提升短文本答案抽取的效果具有重要意义。
具体地,在步骤S130中,通过第一语义加强层处理所述问题语义向量表示和文本向量语义表示,以分别获得加强的问题语义向量表示和加强的文本语义向量表示。换言之,所述第一语义加强层对所述问题数据和所述文本数据的语义信息进行二次处理,以忽略所述问题数据和所述问题数据中的部分无用信息并加强部分重要信息。
具体地,在通过所述第一语义加强层对所述问题语义向量表示和文本语义向量表示进行语义加强的过程中,首先,以所述第一循环神经网络模型再次分别处理所述问题语义向量表示和所述文本语义向量,以分别获得第二问题语义向量表示和第二文本语义向量表示。换言之,利用所述第一循环神经网络模型对所述问题数据和所述文本数据再次进行一次语义理解,以获得所述第二问题语义向量表示和所述第二文本语义向量表示。此过程用公式可表示为:
xt=GRU(inputt,tt-1)
其中,xt表示在第t时刻的所述第二问题语义向量表示或所述第二文本语义向量表示,xt-1表示在第t-1时刻的所述问题语义向量表示或所述文本语义向量表示,也就是说,x表示所述第二问题语义向量表示或者所述第二文本语义向量表示。i表示所述问题语义向量表示或所述文本语义向量表示,且inputt表示input的第t个分量,即网络的第t时刻的输入,以及GRU表示Gated Recurrent unit,即,门循环单元。
进一步地,以第二循环神经网络模型分别处理所述第二问题语义向量表示和所述第二文本语义向量表示,以分别获得第三问题语义向量表示和第三文本语义向量表示。也就是说,使用另一循环神经网络模型(即,所述第二神经网络模型)对所述问题数据和所述文本数据再次进行一次语义理解的结果进行处理,以获得所述第三语义向量表示和所述第三文本语义向量表示。这里,所述第二循环神经网络的工作过程用公式可表示为:
H=activation(RNN2(x))∈Rn×2h
其中,RNN2表示所述第二循环神经网络模型,H表示所述第三语义向量表示或所述第三文本语义向量表示,以及,activation()表示所述第二循环神经网络进行激活操作。
基于上述公式可看出,在数据处理过程中,以所述第二问题语义向量表示或所述第二文本语义向量表示作为所述第二循环神经网络模型的输入,并通过对其进行激活操作,以生成所述第三问题语义向量表示或所述第三文本语义向量表示。
进而,以第三循环神经网络模型分别处理所述第二问题语义向量表示和所述第二文本语义向量表示,以分别获得所述问题数据的每个词语的语义处理权重和所述文本数据的每个词语的语义处理权重。这里,再使用另一循环神经网络模型(所述第三循环圣经网络模型)对所述问题数据和所述文本数据再次进行一次语义理解的结果进行不同方式的处理,以获得所述问题数据的每个词语的语义处理权重和所述文本数据的每个词语的语义处理权重。其中,所述问题数据的每个词语的语义处理权重的对应元素值表示所述问题数据的原始语义对该词语位置的重视程度;所述文本数据的每个词语的语义处理权重的对应元素值表示所述文本数据的原始语义对该词语位置的重视程度。
这里,所述第三循环神经网络模型的数据处理过程用公式可表示为:
T=activation(RNN3(x))∈Rn×2h
其中,RNN3表示所述第二循环神经网络模型,T表示所述问题数据的每个词语的语义处理权重或所述文本数据的每个词语的语义处理权重,以及,activation()表示所述第三循环神经网络模型进行激活操作。基于上述公式可看出,在数据处理过程中,以所述第二问题语义向量表示或所述第二文本语义向量表示作为所述第三循环神经网络模型的输入,并通过对其进行激活操作,以生成所述问题数据的每个词语的语义处理权重或所述文本数据的每个词语的语义处理权重。特别地,在本发明的该较佳实施例中,所述第三循环神经网络模型的激活函数为Sigmoid函数。
最终,基于所述问题数据的每个词语的语义处理权重、所述第二问题语义向量表示和所述第三问题语义向量表示,获得所述加强的问题语义向量表示;以及,基于所述文本数据的每个词语的语义处理权重、所述第二文本语义向量表示和所述第三文本语义向量表示,获得所述加强的文本语义向量表示。其过程用公式可表示为:
input′=H*T+x*(1-T)
其中,input′表示所述加强的文本语义向量或所述加强的问题语义向量,H表示所述第三语义向量表示或所述第三文本语义向量表示,T表示表示所述问题数据的每个词语的语义处理权重或所述文本数据的每个词语的语义处理权重,x表示所述第二问题语义向量表示或所述第二文本语义向量表示。
综上,利用所述语义加强层采用特定的语义加强方法对所述问题数据和所述文本数据进行语义加强的过程被说明。图2图示了根据本申请实施例的利用所述第一语义加强层对所述问题数据和所述文本数据进行语义加强的流程图。如图2所示,对所述问题数据和所述文本数据进行语义加强的过程,包括:S210,以所述第一循环神经网络模型再次分别处理所述问题语义向量表示和所述文本语义向量,以分别获得第二问题语义向量表示和第二文本语义向量表示;S220,以第二循环神经网络模型分别处理所述第二问题语义向量表示和所述第二文本语义向量表示,以分别获得第三问题语义向量表示和第三文本语义向量表示;S230,以第三循环神经网络模型分别处理所述第二问题语义向量表示和所述第二文本语义向量表示,以分别获得所述问题数据的每个词语的语义处理权重和所述文本数据的每个词语的语义处理权重;S240,基于所述问题数据的每个词语的语义处理权重、所述第二问题语义向量表示和所述第三问题语义向量表示,获得所述加强的问题语义向量表示;以及,S250,基于所述文本数据的每个词语的语义处理权重、所述第二文本语义向量表示和所述第三文本语义向量表示,获得所述加强的文本语义向量表示。
值得一提的是,在利用所述第一语义加强层对所述问题数据和所述文本数据进行语义加强的过程中,所述第一循环神经网络模型,所述第二循环神经网络模型和所述第三循环神经网络模型为不同的循环神经网络模型。
进一步地,在通过第一语义加强层处理所述问题语义向量表示和文本向量语义表示以分别获得加强的问题语义向量表示和加强的文本语义向量表示之后,使用注意力机制捕捉所述文本数据和所述问题数据之间的关系,以获得两者的融合语义表示。
在步骤S140中,通过注意力机制层处理所述加强的问题语义向量表示和所述加强的文本语义向量表示,以获得融合问题信息的上下文表示。这里,使用注意力机制捕捉所述问题数据和所述文本数据之间的关系的目的在于:关注所述问题数据和所述文本数据相关的部分。形象地说,此过程等价于让机器像人类一样带着所述问题数据阅读所述文本数据,并将所述文本数据关键部分与所述问题数据相关联。之所以采用注意力机制的原因是因为,在使用深度神经网络处理复杂任务时(例如处理大量的输入信息时),如果仅仅是通过深度神经网络将输入转化为对应的向量表示,那么,该向量表示很难反映出输入的所有语义信息。相应地,利用注意力机制可以根据任务的需要只编码相关信息,忽略次要信息以减少输入量。换言之,这是一种有效的资源分类方案,将计算资源等分配给更加重要的任务。更具体地,对于所述加强的问题语义向量表示和文本语义向量表示而言,求得两者之间的关系以获得所述融合问题信息的上下文表示的过程如下:
首先,获得所述加强的问题语义向量表示和所述加强的文本语义向量表示之间的相似度矩阵,其中,所述相似度矩阵表示所述文本数据的每个词语与所述问题数据的每个词语的相关程度。这里,为了便于说明,定义所述相似度矩阵为
M∈Rn×m
其中,Mij表示所述文本数据中第i个词与所述问题数据中第j个词的相关程度,该值越大表示两个词之间相关程度越高。在具体实施中,可依如下公式对所述相关度矩阵进行最简单的计算:
M=c_enc×q_encT∈Rn×m
其中c_enc表示所述文本数据的文本语义向量表示,q_enc表示所述问题所述的问题语义向量表示。这里,对所述相关度矩阵的计算可更为复杂,例如,以如下公式进行计算:
Figure BDA0001695595420000141
其中,c_enc,表示所述文本数据的文本语义向量表示,q_enc,表示所述问题所述的问题语义向量表示,
Figure BDA0001695595420000142
为待训练参数矩阵。对此,可基于所述机器阅读理解系统的具体应用场景采用特定的所述相关度矩阵计算方法,对此,本申请实施例不作限制。
在得到所述相关度矩阵之后,对所述相关度矩阵每一行进行归一化处理,以获得所述文本数据关于问题数据的注意力权重。这里,所述文本数据关于问题数据的注意力权重表示:对于所述文本数据中的每个词语,所述问题数据中的各个词语与所述文本数据的该词语的相关程度,其具体计算过程可表示如下:
Mq=softmax(M)∈Rn×m
或者以更直观的方式可表示为:
Figure BDA0001695595420000151
继而,基于所述文本数据关于问题数据的注意力权重和所述加强的问题语义向量表示,以获得融合问题信息的初始上下文表示。该过程用公式可表示为:
Cq=Mq×q_enc∈Rn×2h
其中Mq表示所述文本数据关于问题数据的注意力权重,q_enc表示所述加强的问题语义向量表示,Cq表示融合问题信息的初始上下文表示。
进一步地,将所述加强的文本语义向量表示和所述融合问题信息的初始上下文表示进行拼接,以获得连接向量。这里,该过程用公式可表示为:
res=concat([c_enc,Cq],axis=1)∈Rn×4h
其中,res表示所述连接向量,concat()表示数组连接函数,用于连接两个或以上数组,c_enc表示所述加强的文本语义向量表示,以及,Cq表示所述融合问题信息的初始上下文表示。
继而,通过门单元对所述连接向量进行归一化处理;以及,基于所述连接向量和所述归一化处理后的所述连接向量,获得所述融合问题信息的上下文表示。这里,所述门单元对所述连接向量的处理过程用公式可表示为:
gate=σ(res×W2)∈Rn×4h
其中,res表示所述连接向量,σ()表示所述门单元的处理函数,gate表示归一化处理后的所述连接向量,以及W2为待训练矩阵。相应地,获得所述融合问题信息的上下文表示的过程用公式可表示为:
fusion_info′=res*gate∈Rn×4h
其中,fusion_info′表示所述融合问题信息的上下文表示,res表示所述连接向量,以及,gate表示归一化处理后的所述连接向量。
综上,通过注意力机制层处理所述加强的问题语义向量表示和所述加强的文本语义向量表示,以获得融合问题信息的上下文表示的过程被说明。图3图示了根据本申请实施例的通过所述注意力机制层获得所述融合问题信息的上下文表示的流程图。如图3所示,通过所述注意力机制层获得所述融合问题信息的上下文表示的过程,包括:S310,获得所述加强的问题语义向量表示和所述加强的文本语义向量表示之间的相似度矩阵,其中,所述相似度矩阵表示所述文本数据的每个词语与所述问题数据的每个词语的相关程度;S320,对所述相似度矩阵逐行进行归一化处理,以获得所述文本数据关于问题数据的注意力权重;S330,基于所述文本数据关于问题数据的注意力权重和所述加强的问题语义向量表示,以获得融合问题信息的初始上下文表示;S340,拼接所述加强的文本语义向量表示和所述融合问题信息的初始上下文表示,以获得连接向量;S350,通过门单元对所述连接向量进行归一化处理;以及,S360,基于所述连接向量和所述归一化处理后的所述连接向量,获得所述融合问题信息的上下文表示。
如前所述,在处理短文本答案抽取任务中,语义信息的编码结果直接影响其最终答案抽取的准确性。相似地,在本申请该实施例中,同样选择对所述融合问题信息的上下文表示进行语义加强处理,以忽略部分无用信息(例如,由错误语法引起的重复)并加强突出部分重要信息(例如,所述问题数据和所述文本数据中的关键词),这样利于提升短文本答案抽取的准确性。
在步骤S150,通过第二语义加强层处理所述融合问题信息的上下文表示,以获得加强的融合问题信息的上下文表示。这里,用于加强所述融合问题信息的上下文表示的第二语义加强层和用于加强所述问题语义向量表示和所述文本语义向量表示的第一语义加强层可以实现为相同的语义加强层。或者,用于加强所述融合问题信息的上下文表示的第二语义加强层和用于加强所述问题语义向量表示和所述文本语义向量表示的第一语义加强层的具体实现方法相同。因此,在本申请实施例中,通过所述第二语义加强层对所述融合问题信息的上下文表示进行语义加强的过程可简述为:首先,通过所述第一循环神经网络模型处理所述融合问题信息的上下文表示,以获得第一融合问题信息的上下文语义表示;进而,通过所述第一循环神经网络模型再次处理所述第一融合问题信息的上下文语义表示,以获得第二融合问题信息的上下文语义表示;进一步地,以第二循环神经网络模型处理所述第二融合问题信息的上下文语义表示,以分别获得第三融合问题信息的上下文语义表示;继而,以第三循环神经网络模型处理所述第二融合问题信息的上下文语义表示,以获得所述融合问题信息的上下文表示的每个词语的语义处理权重;最终,基于所述融合问题信息的上下文表示的每个词语的语义处理权重、所述第二融合问题信息的上下文语义表示和所述第三融合问题信息的上下文语义表示,获得加强的所述融合问题信息的上下文语义表示。
换言之,在本申请实施例中,使用注意力机制方法使得机器能够带着问题数据阅读所述文本数据,重点关注所述文本数据和所述问题数据中的相关的部分。进而,使用语义加强方法对得到的融合问题信息的上下文表示进行语义加强,使得部分无用信息被忽略,部分重要信息被加强。值得一提的是,在对所述融合问题信息的上下文表示进行语义加强的过程中,所述第一循环神经网络模型,所述第二循环神经网络模型和所述第三循环神经网络模型同样为不同的循环神经网络模型。
进一步地,在通过所述注意力机制层获得所述融合问题信息的上下文表示和通过所述语义加强层对所述融合问题信息的上下文表示进行语义加强之后,执行步骤S160:基于所述加强的融合问题信息的上下文表示和所述加强的问题语义向量表示,获得所述文本数据中每个词语为所述问题数据对应答案的起始位置和结束位置的概率,以将起始位置和结束位置的联合分布概率最大的文本片段确定为所述问题数据对应的答案。
本领域的技术人员可以理解,短文本答案抽取任务具有一个显著的特点:问题数据对应的答案是所述文本数据中一个连续的文本片段。基于此,在本申请实施例中,利用指针网络(Pointer Network)进行答案预测。换言之,通过指针网络处理所述加强的融合问题信息的上下文表示和所述加强的问题语义向量表示,以获得所述文本数据中每个词语为所述问题数据对应答案的起始位置和结束位置的概率:p(start|D,Q)、p(end|D,Q,start)∈Rn。进而,建立答案起始位置和答案结束位置的联合概率分布,用公式可表示为:
p(answer|D,Q)=p(start|D,Q)p(end|D,Q,start)
其中p(start|D,Q)表示所述文本数据中每个词语为所述问题数据对应答案的起始位置的概率,p(end|D,Q,start)表示所述文本数据中每个词语为所述问题数据对应答案的结束位置的概率。最终,计算答案片段的联合分布概率,并抽取概率最大的一段文本为所述问题数据对应的答案。
图4图示了根据本申请实施例的用于机器阅读理解的系统模型架构的示意图。如图4所示,所述用于机器阅读理解的系统模型架构包括编码层,文章问题交互层、自交互层和预测层。所述编码层用于分别对所述问题数据和所述文本数据进行编码,以使得机器阅读理解系统分别理解所述文本数据和所述问题数据的语义信息,即,生成所述问题数据和所述文本数据的语义向量表示。
在本申请实施例中,所述语义理解层选用经过预训练的GloVe词向量作为所述问题数据和所述稳保本数据的词嵌入词表,并使用所述第一循环神经网络模型得到所述问题语义向量表示和所述文本语义向量表示,进而使用如上所述的语义加强方法对所述问题语义信息和所述文本语义信息进行加强表达。需要注意的是,在语义理解步骤中,对所述文本数据和问题数据的处理都使用同一个循环神经网络(所述第一循环神经网络模型);然而,在语义加强步骤中,使用的循环神经网络均不同(所述第一循环神经网络模型,所述第二循环神经网络模型和所述第三循环神经网络模型模型)。所述语义理解层生成的语义信息表示直接影响整个模型的性能,其原因在于有效的机器阅读理解方法是建立在对文本语义的正确理解之下的。
所述文章问题交互层,用于对所述文本数据语义信息和所述问题数据语义信息进行融合,让所述机器阅读理解系统学习两个序列之间的关系。更具体地,使用如上所述的注意力机制方法抽取所述问题数据和所述文本数据中的重要内容,并生成两者的融合信息(即,所述融合问题信息的上下文表示)。
所述自交互层,用于将所述融合问题信息的上下文表示作为所述第一循环神经网络的输入,使用如上所述的语义加强方法对融合信息进行加强表示。值得一提的是,用于加强所述融合问题信息的上下文表示的语义加强层和用于加强所述问题语义向量表示和所述文本语义向量表示的语义加强层为同一语义加强层。
所述预测层的功能是预测所述文本数据中每个词语为所述问题对应答案的起始位置和结束位置的概念,并且,建立答案起始位置和答案结束位置的联合概率分布,用公式可表示为:
p(answer|D,Q)=p(start|D,Q)p(end|D,Q,start)
其中p(start|D,Q)表示所述文本数据中每个词语为所述问题数据对应答案的起始位置的概率,p(end|D,Q,start)表示所述文本数据中每个词语为所述问题数据对应答案的结束位置的概率。进而,计算答案片段的联合分布概率,并抽取概率最大的一段文本为所述问题数据对应的答案。
值得一提的是,在所述用于机器阅读理解的系统投入服务以处理短文本答案抽取任务时,需先对所述用于机器阅读理解的系统模型进行训练。这里,对所述系统进行训练的过程表示让训练数据集作为所述系统的输入,根据网络模型实际的输出和期望输出之间的差别构建损失函数,不断调节参数权重的过程。图5图示了根据本发明实施例的所述用于机器阅读理解的系统的训练过程示意图。特别地,在本申请实施例中,设定该损失函数为网络预测的答案分布情况和真实分布情况的交叉熵。同时,可使用Adadelata优化器对所述系统的整个网络进行优化。
此外,还值得一提的是,本申请实施例所提供的所述用于机器阅读理解的系统处理短文本答案抽取任务的效果,可用准确率(Precision),召回率(Recall),F1值(F1-Score)等效果评价指标来评价。特别地,图6示意了本申请实施例所提供的所述用于机器阅读理解的系统利用斯坦福公开阅读理解数据集(Stanford Question Answering Dataset,SQuAD)的测试结果。
图7图示了所述用于机器阅读理解的系统用于处理短文本答案抽取的一个示例。如图7所述,所述短文本数据为文章部分所呈现的内容,所述问题数据为“what day wasthe game played on?”,基于所述机器阅读系统预测的答案为“February 7,2016”,标准答案为“February 7”。
这里,应领会的是,虽然在上文中,以所述用于机器阅读理解的系统用于处理短文本答案抽取任务是示例。本领域的技术人员应可以理解,所述用于机器阅读理解的系统还可用于处理完形填空任务,基于网络数据的问答任务。对此,本申请实施例不作限制。
示意性装置
图8图示了根据本申请实施例的基于注意力机制的用于阅读理解的装置的框图。
如图8所示,根据本申请实施例的基于注意力机制的用于阅读理解的装置800包括:词向量转化单元810,用于对获得文本数据和与所述文本数据相关的问题数据分别进行词向量转化,以分别获得所述问题数据和所述文本数据的词向量表示;语义信息获得单元820,用于以第一循环神经网络分别处理所述问题数据和所述文本数据的词向量表示,以分别获得所述问题数据的问题语义向量表示和所述文本数据的文本语义向量表示;第一语义加强单元830,用于处理所述问题语义向量表示和文本向量语义表示,以分别获得加强的问题语义向量表示和加强的文本语义向量表示;注意力机制单元840,用于通过注意力机制处理所述加强的问题语义向量表示和所述加强的文本语义向量表示,以获得融合问题信息的上下文表示;第二语义加强单元850,用于处理所述融合问题信息的上下文表示,以获得所述加强的融合问题信息的上下文表示;以及,答案预测单元860,用于基于所述加强的融合问题信息的上下文表示和所述加强的问题语义向量表示,获得所述文本数据中每个词语为所述问题数据对应答案的起始位置和结束位置的概率,以将起始位置和结束位置的联合分布概率最大的文本片段确定为所述问题数据对应的答案。
在一个示例中,在上述基于注意力机制的用于阅读理解的装置800中,所述第一语义加强单元830,用于:以所述第一循环神经网络模型再次分别处理所述问题语义向量表示和所述文本语义向量,以分别获得第二问题语义向量表示和第二文本语义向量表示;以第二循环神经网络模型分别处理所述第二问题语义向量表示和所述第二文本语义向量表示,以分别获得第三问题语义向量表示和第三文本语义向量表示;以第三循环神经网络模型分别处理所述第二问题语义向量表示和所述第二文本语义向量表示,以分别获得所述问题数据的每个词语的语义处理权重和所述文本数据的每个词语的语义处理权重;基于所述问题数据的每个词语的语义处理权重、所述第二问题语义向量表示和所述第三问题语义向量表示,获得所述加强的问题语义向量表示;以及,基于所述文本数据的每个词语的语义处理权重、所述第二文本语义向量表示和所述第三文本语义向量表示,获得所述加强的文本语义向量表示。
在一个示例中,在上述基于注意力机制的用于阅读理解的装置800中,所述注意力机制单元840,用于:获得所述加强的问题语义向量表示和所述加强的文本语义向量表示之间的相似度矩阵,其中,所述相似度矩阵表示所述文本数据的每个词语与所述问题数据的每个词语的相关程度;对所述相似度矩阵逐行进行归一化处理,以获得所述文本数据关于问题数据的注意力权重;基于所述文本数据关于问题数据的注意力权重和所述加强的问题语义向量表示,以获得融合问题信息的初始上下文表示;拼接所述加强的文本语义向量表示和所述融合问题信息的初始上下文表示,以获得连接向量;通过门单元对所述连接向量进行归一化处理;以及,基于所述连接向量和所述归一化处理后的所述连接向量,获得所述融合问题信息的上下文表示。
在一个示例中,在上述基于注意力机制的用于阅读理解的装置800中,所述第二语义加强单元850,用于:通过所述第一循环神经网络模型处理所述融合问题信息的上下文表示,以获得第一融合问题信息的上下文语义表示;通过所述第一循环神经网络模型再次处理所述第一融合问题信息的上下文语义表示,以获得第二融合问题信息的上下文语义表示;以第二循环神经网络模型处理所述第二融合问题信息的上下文语义表示,以分别获得第三融合问题信息的上下文语义表示;以第三循环神经网络模型处理所述第二融合问题信息的上下文语义表示,以获得所述融合问题信息的上下文表示的每个词语的语义处理权重;以及,基于所述融合问题信息的上下文表示的每个词语的语义处理权重、所述第二融合问题信息的上下文语义表示和所述第三融合问题信息的上下文语义表示,获得加强的所述融合问题信息的上下文语义表示。
在一个示例中,在上述基于注意力机制的用于阅读理解的装置800中,所述第一循环神经网络模型,所述第二循环神经网络模型和所述第三循环神经网络模型分别为不同的循环神经网络模型。
在一个示例中,在上述基于注意力机制的用于阅读理解的装置800中,所述第三循环神经网络的激活函数被设置为Sigmoid函数。
这里,本领域技术人员可以理解,上述基于注意力机制的用于阅读理解的装置800中的各个单元和模块的具体功能和操作已经在上面参考图1到图7描述的基于注意力机制的用于阅读理解的方法中详细介绍,并因此,将省略其重复描述。
如上所述,根据本申请实施例的基于注意力机制的用于阅读理解的装置可以实现在各种终端设备中,例如用于短文本答案抽取系统的服务器。在一个示例中,根据本申请实施例的基于注意力机制的用于阅读理解的装置可以作为一个软件模块和/或硬件模块而集成到所述终端设备中。例如,该装置可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该装置同样可以是该终端设备的众多硬件模块之一。
替换地,在另一示例中,该基于注意力机制的用于阅读理解的装置与该终端设备也可以是分立的终端设备,并且该装置可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。
示意性电子设备
下面,参考图9来描述根据本申请实施例的电子设备。
图9图示了根据本申请实施例的电子设备的框图。
如图9所示,电子设备10包括一个或多个处理器11和存储器12。
处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。
存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本申请的各个实施例的基于注意力机制的用于阅读理解的方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如所述问题数据和所述文本数据等各种内容。
在一个示例中,电子设备10还可以包括:输入装置13和输出装置14,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
例如,该输入装置13可以是例如键盘、鼠标等等。
该输出装置14可以向外部输出各种信息,包括问题对应的预测答案等。该输出设备14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图9中仅示出了该电子设备10中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备10还可以包括任何其他适当的组件。
示意性计算机程序产品
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的基于注意力机制的用于阅读理解的方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“,还语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的基于注意力机制的用于阅读理解的方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (12)

1.一种基于注意力机制的用于机器阅读理解的方法,其特征在于,包括:
对获得文本数据和与所述文本数据相关的问题数据分别进行词向量转化,以分别获得所述问题数据和所述文本数据的词向量表示;
以第一循环神经网络模型分别处理所述问题数据和所述文本数据的词向量表示,以分别获得所述问题数据的问题语义向量表示和所述文本数据的文本语义向量表示;
通过第一语义加强层处理所述问题语义向量表示和文本向量语义表示,以分别获得加强的问题语义向量表示和加强的文本语义向量表示;
通过注意力机制层处理所述加强的问题语义向量表示和所述加强的文本语义向量表示,以获得融合问题信息的上下文表示;
通过第二语义加强层处理所述融合问题信息的上下文表示,以获得加强的融合问题信息的上下文表示;
基于所述加强的融合问题信息的上下文表示和所述加强的问题语义向量表示,获得所述文本数据中每个词语为所述问题数据对应答案的起始位置和结束位置的概率,以将所述起始位置和结束位置的联合分布概率最大的文本片段确定为所述问题数据对应的答案,
其中,通过第一语义加强层分别获得加强的问题语义向量表示和加强的文本语义向量表示,包括:
以所述第一循环神经网络模型再次分别处理所述问题语义向量表示和所述文本语义向量,以分别获得第二问题语义向量表示和第二文本语义向量表示;
以第二循环神经网络模型分别处理所述第二问题语义向量表示和所述第二文本语义向量表示,以分别获得第三问题语义向量表示和第三文本语义向量表示;
以第三循环神经网络模型分别处理所述第二问题语义向量表示和所述第二文本语义向量表示,以分别获得所述问题数据的每个词语的语义处理权重和所述文本数据的每个词语的语义处理权重;
基于所述问题数据的每个词语的语义处理权重、所述第二问题语义向量表示和所述第三问题语义向量表示,获得所述加强的问题语义向量表示;以及
基于所述文本数据的每个词语的语义处理权重、所述第二文本语义向量表示和所述第三文本语义向量表示,获得所述加强的文本语义向量表示。
2.如权利要求1所述的基于注意力机制的用于机器阅读理解的方法,其中,通过注意力机制层获得融合问题信息的上下文表示,包括:
获得所述加强的问题语义向量表示和所述加强的文本语义向量表示之间的相似度矩阵,其中,所述相似度矩阵表示所述文本数据的每个词语与所述问题数据的每个词语的相关程度;
对所述相似度矩阵逐行进行归一化处理,以获得所述文本数据关于问题数据的注意力权重;
基于所述文本数据关于问题数据的注意力权重和所述加强的问题语义向量表示,以获得融合问题信息的初始上下文表示;
拼接所述加强的文本语义向量表示和所述融合问题信息的初始上下文表示,以获得连接向量;
通过门单元对所述连接向量进行归一化处理;以及
基于所述连接向量和归一化处理后的连接向量,获得所述融合问题信息的上下文表示。
3.如权利要求2所述的基于注意力机制的用于机器阅读理解的方法,其中,通过第二语义加强层处理所述融合问题信息的上下文表示,以获得加强的融合问题信息的上下文表示,包括:
通过所述第一循环神经网络模型处理所述融合问题信息的上下文表示,以获得第一融合问题信息的上下文语义表示;
通过所述第一循环神经网络模型再次处理所述第一融合问题信息的上下文语义表示,以获得第二融合问题信息的上下文语义表示;
以第二循环神经网络模型处理所述第二融合问题信息的上下文语义表示,以分别获得第三融合问题信息的上下文语义表示;
以第三循环神经网络模型处理所述第二融合问题信息的上下文语义表示,以获得所述融合问题信息的上下文表示的每个词语的语义处理权重;以及
基于所述融合问题信息的上下文表示的每个词语的语义处理权重、所述第二融合问题信息的上下文语义表示和所述第三融合问题信息的上下文语义表示,获得加强的所述融合问题信息的上下文语义表示。
4.如权利要求3所述的基于注意力机制的用于机器阅读理解的方法,其中,所述第一循环神经网络模型,所述第二循环神经网络模型和所述第三循环神经网络模型分别为不同的循环神经网络模型。
5.如权利要求4所述的基于注意力机制的用于机器阅读理解的方法,其中,所述第三循环神经网络的激活函数被设置为Sigmoid函数。
6.一种基于注意力机制的用于机器阅读理解的装置,其特征在于,包括:
词向量转化单元,用于对获得文本数据和与所述文本数据相关的问题数据分别进行词向量转化,以分别获得所述问题数据和所述文本数据的词向量表示;
语义信息获得单元,用于以第一循环神经网络模型分别处理所述问题数据和所述文本数据的词向量表示,以分别获得所述问题数据的问题语义向量表示和所述文本数据的文本语义向量表示;
第一语义加强单元,用于处理所述问题语义向量表示和文本向量语义表示,以分别获得加强的问题语义向量表示和加强的文本语义向量表示;
注意力机制单元,用于通过注意力机制处理所述加强的问题语义向量表示和所述加强的文本语义向量表示,以获得融合问题信息的上下文表示;
第二语义加强单元,用于处理所述融合问题信息的上下文表示,以获得加强的融合问题信息的上下文表示;以及
答案预测单元,用于基于所述加强的融合问题信息的上下文表示和所述加强的问题语义向量表示,获得所述文本数据中每个词语为所述问题数据对应答案的起始位置和结束位置的概率,以将起始位置和结束位置的联合分布概率最大的文本片段确定为所述问题数据对应的答案,
其中所述第一语义加强单元用于:
以所述第一循环神经网络模型再次分别处理所述问题语义向量表示和所述文本语义向量,以分别获得第二问题语义向量表示和第二文本语义向量表示;
以第二循环神经网络模型分别处理所述第二问题语义向量表示和所述第二文本语义向量表示,以分别获得第三问题语义向量表示和第三文本语义向量表示;
以第三循环神经网络模型分别处理所述第二问题语义向量表示和所述第二文本语义向量表示,以分别获得所述问题数据的每个词语的语义处理权重和所述文本数据的每个词语的语义处理权重;
基于所述问题数据的每个词语的语义处理权重、所述第二问题语义向量表示和所述第三问题语义向量表示,获得所述加强的问题语义向量表示;以及
基于所述文本数据的每个词语的语义处理权重、所述第二文本语义向量表示和所述第三文本语义向量表示,获得所述加强的文本语义向量表示。
7.如权利要求6所述的基于注意力机制的用于机器阅读理解的装置,其中,所述注意力机制单元,用于:
获得所述加强的问题语义向量表示和所述加强的文本语义向量表示之间的相似度矩阵,其中,所述相似度矩阵表示所述文本数据的每个词语与所述问题数据的每个词语的相关程度;
对所述相似度矩阵逐行进行归一化处理,以获得所述文本数据关于问题数据的注意力权重;
基于所述文本数据关于问题数据的注意力权重和所述加强的问题语义向量表示,以获得融合问题信息的初始上下文表示;
拼接所述加强的文本语义向量表示和所述融合问题信息的初始上下文表示,以获得连接向量;
通过门单元对所述连接向量进行归一化处理;以及
基于所述连接向量和归一化处理后的连接向量,获得所述融合问题信息的上下文表示。
8.如权利要求6所述的基于注意力机制的用于机器阅读理解的装置,其中,所述第二语义加强单元用于:
通过所述第一循环神经网络模型处理所述融合问题信息的上下文表示,以获得第一融合问题信息的上下文语义表示;
通过所述第一循环神经网络模型再次处理所述第一融合问题信息的上下文语义表示,以获得第二融合问题信息的上下文语义表示;
以第二循环神经网络模型处理所述第二融合问题信息的上下文语义表示,以分别获得第三融合问题信息的上下文语义表示;
以第三循环神经网络模型处理所述第二融合问题信息的上下文语义表示,以获得所述融合问题信息的上下文表示的每个词语的语义处理权重;以及
基于所述融合问题信息的上下文表示的每个词语的语义处理权重、所述第二融合问题信息的上下文语义表示和所述第三融合问题信息的上下文语义表示,获得加强的所述融合问题信息的上下文语义表示。
9.如权利要求6-8任一所述的基于注意力机制的用于机器阅读理解的装置,其中,所述第一循环神经网络模型,所述第二循环神经网络模型和所述第三循环神经网络模型分别为不同的循环神经网络模型。
10.如权利要求9所述的基于注意力机制的用于机器阅读理解的装置,其中,所述第三循环神经网络的激活函数被设置为Sigmoid函数。
11.一种电子设备,包括:
处理器;以及
存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求1-5中任一项所述的基于注意力机制的用于机器阅读理解的方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,当所述计算机程序指令被计算装置执行时,执行如权利要求1-5中任一项所述的基于注意力机制的用于机器阅读理解的方法。
CN201810611199.XA 2018-06-14 2018-06-14 基于注意力机制的用于阅读理解的方法、装置和电子设备 Active CN109033068B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810611199.XA CN109033068B (zh) 2018-06-14 2018-06-14 基于注意力机制的用于阅读理解的方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810611199.XA CN109033068B (zh) 2018-06-14 2018-06-14 基于注意力机制的用于阅读理解的方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN109033068A CN109033068A (zh) 2018-12-18
CN109033068B true CN109033068B (zh) 2022-07-12

Family

ID=64609286

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810611199.XA Active CN109033068B (zh) 2018-06-14 2018-06-14 基于注意力机制的用于阅读理解的方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN109033068B (zh)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11544259B2 (en) * 2018-11-29 2023-01-03 Koninklijke Philips N.V. CRF-based span prediction for fine machine learning comprehension
CN109657246B (zh) * 2018-12-19 2020-10-16 中山大学 一种基于深度学习的抽取式机器阅读理解模型的建立方法
CN109658270A (zh) * 2018-12-19 2019-04-19 前海企保科技(深圳)有限公司 一种基于保险产品阅读理解的核赔系统及方法
CN110059152A (zh) * 2018-12-25 2019-07-26 阿里巴巴集团控股有限公司 一种文本信息预测模型的训练方法、装置及设备
CN109670029B (zh) * 2018-12-28 2021-09-07 百度在线网络技术(北京)有限公司 用于确定问题答案的方法、装置、计算机设备及存储介质
CN109740158B (zh) * 2018-12-29 2023-04-07 安徽省泰岳祥升软件有限公司 一种文本语义解析方法及装置
CN109740163A (zh) * 2019-01-09 2019-05-10 安徽省泰岳祥升软件有限公司 应用于深度学习模型的语义表示资源生成方法及装置
CN110096698B (zh) * 2019-03-20 2020-09-29 中国地质大学(武汉) 一种考虑主题的机器阅读理解模型生成方法与系统
CN110597947B (zh) * 2019-03-20 2023-03-28 桂林电子科技大学 一种基于全局和局部注意力交互的阅读理解系统及方法
CN110310619A (zh) * 2019-05-16 2019-10-08 平安科技(深圳)有限公司 多音字预测方法、装置、设备及计算机可读存储介质
CN110134967A (zh) * 2019-05-22 2019-08-16 北京金山数字娱乐科技有限公司 文本处理方法、装置、计算设备及计算机可读存储介质
CN110188362B (zh) * 2019-06-10 2021-04-20 北京百度网讯科技有限公司 文本处理方法及装置
CN110309305B (zh) * 2019-06-14 2021-05-11 中国电子科技集团公司第二十八研究所 基于多任务联合训练的机器阅读理解方法及计算机存储介质
CN110309282B (zh) * 2019-06-14 2021-08-27 北京奇艺世纪科技有限公司 一种答案确定方法及装置
CN110674280B (zh) * 2019-06-21 2023-12-15 北京中科微末生物科技有限公司 一种基于增强问题重要性表示的答案选择算法
CN110287290A (zh) * 2019-06-26 2019-09-27 平安科技(深圳)有限公司 基于阅读理解的营销线索提取方法、装置及计算机可读存储介质
CN110750630A (zh) * 2019-09-25 2020-02-04 北京捷通华声科技股份有限公司 一种生成式机器阅读理解方法、装置、设备及存储介质
CN112685543B (zh) * 2019-10-18 2024-01-26 普天信息技术有限公司 一种基于文本回答问题的方法及装置
CN111027327B (zh) * 2019-10-29 2022-09-06 平安科技(深圳)有限公司 机器阅读理解方法、设备、存储介质及装置
CN111143507B (zh) * 2019-12-05 2023-05-02 重庆兆光科技股份有限公司 一种基于复合式问题的阅读理解方法
CN111241244A (zh) * 2020-01-14 2020-06-05 平安科技(深圳)有限公司 基于大数据的答案位置获取方法、装置、设备及介质
CN111309891B (zh) * 2020-03-16 2022-05-31 山西大学 一种阅读机器人进行自动问答的系统及其应用方法
CN111611361B (zh) * 2020-04-01 2022-06-14 西南电子技术研究所(中国电子科技集团公司第十研究所) 抽取式机器智能阅读理解问答系统
CN112182151B (zh) * 2020-09-23 2021-08-17 清华大学 基于多语言的阅读理解任务识别方法及装置
CN111966812B (zh) * 2020-10-20 2021-01-05 中国人民解放军国防科技大学 一种基于动态词向量的自动问答方法和存储介质
CN112580365A (zh) * 2020-11-05 2021-03-30 中科讯飞互联(北京)信息科技有限公司 篇章解析方法及电子设备、存储装置
CN112347229B (zh) * 2020-11-12 2021-07-20 润联软件系统(深圳)有限公司 一种答案抽取方法、装置、计算机设备及存储介质
CN112307773B (zh) * 2020-12-02 2022-06-21 上海交通大学 机器阅读理解系统的自定义问题数据自动生成方法
CN113239166B (zh) * 2021-05-24 2023-06-06 清华大学深圳国际研究生院 一种基于语义知识增强的自动化人机互动方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106886516A (zh) * 2017-02-27 2017-06-23 竹间智能科技(上海)有限公司 自动识别语句关系和实体的方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017210634A1 (en) * 2016-06-03 2017-12-07 Maluuba Inc. Iterative alternating neural attention for machine reading

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106886516A (zh) * 2017-02-27 2017-06-23 竹间智能科技(上海)有限公司 自动识别语句关系和实体的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Gated Self-Matching Networks for Reading Comprehension and Question Answering;Wenhui Wang et al.;《Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics》;20170804;第189-198页 *
面向机器阅读理解的补写句子答案选择研究;徐丽丽 等;《计算机工程》;20180129;第1-9页 *

Also Published As

Publication number Publication date
CN109033068A (zh) 2018-12-18

Similar Documents

Publication Publication Date Title
CN109033068B (zh) 基于注意力机制的用于阅读理解的方法、装置和电子设备
CN108959246B (zh) 基于改进的注意力机制的答案选择方法、装置和电子设备
CN108875074B (zh) 基于交叉注意力神经网络的答案选择方法、装置和电子设备
CN109101537B (zh) 基于深度学习的多轮对话数据分类方法、装置和电子设备
CN108846077B (zh) 问答文本的语义匹配方法、装置、介质及电子设备
CN108959482B (zh) 基于深度学习的单轮对话数据分类方法、装置和电子设备
CN112329465A (zh) 一种命名实体识别方法、装置及计算机可读存储介质
WO2021139229A1 (zh) 文本修辞句的生成方法、装置、设备及可读存储介质
CN112015868B (zh) 基于知识图谱补全的问答方法
CN114565104A (zh) 语言模型的预训练方法、结果推荐方法及相关装置
CN116415654A (zh) 一种数据处理方法及相关设备
CN110457718B (zh) 一种文本生成方法、装置、计算机设备及存储介质
CN114676234A (zh) 一种模型训练方法及相关设备
CN110990555B (zh) 端到端检索式对话方法与系统及计算机设备
CN113268609A (zh) 基于知识图谱的对话内容推荐方法、装置、设备及介质
CN113239169A (zh) 基于人工智能的回答生成方法、装置、设备及存储介质
CN116304748B (zh) 一种文本相似度计算方法、系统、设备及介质
US20240152770A1 (en) Neural network search method and related device
US20220383119A1 (en) Granular neural network architecture search over low-level primitives
CN115221846A (zh) 一种数据处理方法及相关设备
CN111597816A (zh) 一种自注意力命名实体识别方法、装置、设备及存储介质
CN114328943A (zh) 基于知识图谱的问题回答方法、装置、设备及存储介质
US20240037335A1 (en) Methods, systems, and media for bi-modal generation of natural languages and neural architectures
CN116150334A (zh) 基于UniLM模型和Copy机制的中文共情语句训练方法及系统
CN113704466B (zh) 基于迭代网络的文本多标签分类方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: A201, Tonghui building, 1132 Huihe South Street, Gaobeidian, Chaoyang District, Beijing 100124

Applicant after: Beijing Huiwen Technology (Group) Co.,Ltd.

Address before: 100000 Room 203, Baolan financial innovation center, No. 137, Xiwai street, Xicheng District, Beijing

Applicant before: BEIJING HUIWEN TECHNOLOGY DEVELOPMENT CO.,LTD.

GR01 Patent grant
GR01 Patent grant