CN108959246B - 基于改进的注意力机制的答案选择方法、装置和电子设备 - Google Patents
基于改进的注意力机制的答案选择方法、装置和电子设备 Download PDFInfo
- Publication number
- CN108959246B CN108959246B CN201810601421.8A CN201810601421A CN108959246B CN 108959246 B CN108959246 B CN 108959246B CN 201810601421 A CN201810601421 A CN 201810601421A CN 108959246 B CN108959246 B CN 108959246B
- Authority
- CN
- China
- Prior art keywords
- question
- representation
- data
- attention mechanism
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及基于改进的注意力机制的用于答案选择的方法、装置和电子设备。该方法包括:对获得的文本数据和问题数据分别进行词向量转化,以分别获得所述问题数据和所述文本数据的每个词语的词向量表示;通过循环神经网络模型处理所述问题数据和所述文本数据,以分别获得问题语义向量表示和文本语义向量表示;通过堆叠注意力机制层处理所述问题语义向量表示和所述文本语义向量以获得融合问题信息的上下文表示;基于所述融合问题信息的上下文表示和所述问题语义向量表示,从所述文本数据中获得所述问题数据对应的答案。这样,通过包含改进的注意力机制的特定的模型架构优化用于机器阅读理解的系统,以提高短文本答案抽取的效果。
Description
技术领域
本发明总体地涉及数据处理领域,特别是涉及一种基于改进的注意力机制的用于答案选择的方法、装置和电子设备。
背景技术
自从计算机诞生以来,计算机在很多事情上的处理能力已超过人类,那么计算机能不能拥有智能,像人类一样懂得自然语言呢?机器阅读理解(Machine ReadingComprehension,MRC)是自然语言处理领域的一个重要课题,其目的在于让计算机在海量文本中找到精确的答案,从而减轻人类获得信息的成本。
机器阅读理解任务包括完形填空式的任务,答案抽取式的任务和更复杂的基于网络数据的问答任务,其中,最流行的阅读理解任务为答案抽取式的任务。答案抽取式的阅读理解任务指的是,给定问题和与该问题相关的短文本(通常为1000词以内),从该短文本中抽取文本片段作为该问题的正确答案。
目前针对答案抽取式的阅读理解任务,主流的做法是通过深度学习来完成此任务。然而,在具体实现基于深度学习的短文本答案抽取的过程中,仍存在着诸多难题需要攻克,这些难题制约着机器阅读理解系统的性能和实际产业应用范围。
因此,对于一种能够更为全面地克服短文本答案抽取实现难题的答案选择方案的需求是持续存在的。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种基于改进的注意力机制的用于答案选择的方法、装置和电子设备,其通过包含改进的注意力机制的特定的模型架构优化用于机器阅读理解的系统,以提高短文本答案抽取的效果。
根据本申请的一方面,提供了一种基于改进的注意力机制的用于答案选择的方法,包括:对获得文本数据和与文本数据相关的问题数据分别进行词向量转化,以分别获得所述问题数据和所述文本数据的每个词语的词向量表示;通过循环神经网络模型处理所述问题数据和所述文本数据,以分别获得所述问题数据对应的问题语义向量表示和所述文本数据对应的文本语义向量表示;通过堆叠注意力机制层处理所述问题语义向量表示和所述文本语义向量以获得融合问题信息的上下文表示,其中,所述堆叠注意力机制层包括相互串联的第一注意力机制单元和第二注意力机制单元以及融合单元,其中,第一注意力机制单元用于处理所述问题语义向量表示和所述文本语义向量以获得第一基于问题的上下文表示,所述第二注意力机制单元用于基于所述第一基于问题的上下文表示和所述问题语义向量表示获得第二基于问题的上下文表示,所述融合单元用于融合所述第一基于问题的上下文表示和所述第二基于问题的上下文表示,以获得所述融合问题信息的上下文表示;基于所述融合问题信息的上下文表示和所述问题语义向量表示,获得所述文本数据中每个词语为所述问题数据对应答案的起始位置和结束位置的概率,以将起始位置和结束位置的联合分布概率最大的文本片段确定为所述问题数据对应的答案。
在上述基于改进的注意力机制的用于答案选择的方法中,在通过堆叠注意力机制层获得融合问题的上下文表示之后进一步包括:通过自注意力机制层处理所述融合问题的上下文表示,以获得加强的融合问题信息的上下文表示,其中,两个所述融合问题的上下文表示被设置为所述自注意力机制层的两个输入。
在上述基于改进的注意力机制的用于答案选择的方法中,通过所述第一注意力机制单元获得所述第一基于问题的上下文表示,包括:获得所述问题语义向量表示和所述文本语义向量表示之间的相关度矩阵;对所述相关度矩阵每一行进行归一化处理,以获得所述文本数据关于问题数据的注意力权重;以及,基于所述文本数据关于问题数据的注意力权重和所述问题语义向量表示获得所述第一基于问题的上下文表示。
在上述基于改进的注意力机制的用于答案选择的方法中,通过与所述第一注意力机制单元串联的所述第二注意力机制单元获得所述第二基于问题的上下文表示表示,包括:获得所述第一基于问题的上下文表示和所述问题语义向量表示之间的相关度矩阵;对所述相关度矩阵每一行进行归一化处理,以获得所述第一基于问题的上下文表示关于问题数据的注意力权重;以及,基于所述第一基于问题的上下表示关于问题数据的注意力权重和所述问题语义向量表示,获得所述第二基于问题的上下文表示。
在上述基于改进的注意力机制的用于答案选择的方法中,其中,通过循环神经网络模型分别获得所述问题数据对应的问题语义向量表示和所述文本数据对应的文本语义向量表示,包括:对所述文本数据和所述问题数据的每个字表示进行字符级编码;通过所述循环神经网络模型处理进行字符级编码后的所述文本数据和所述问题数据,以获得所述文本数据的字符粒度向量表示和所述问题数据的字符粒度向量表示;将所述文本数据和所述问题数据的每个词语的词向量表示进行拼接,以获得所述文本数据的词语粒度向量表示和所述问题数据的词语粒度向量表示;通过所述循环神经网络模型处理所述问题数据的字符粒度向量表示和词语粒度向量表示的拼接向量以及所述文本数据的字符粒度向量表示和词语粒度向量表示的拼接向量;以及,通过高速网络拼接所述循环神经网络模型每一时间片的隐藏状态,以获得所述问题数据对应的问题语义向量表示和所述文本数据对应的文本语义向量表示。
在上述基于改进的注意力机制的用于答案选择的方法中,用以处理所述文本数据和所述问题数据的所述循环神经网络模型和所述高速网络为同一个循环神经网络模型和高速网络。
根据本申请的另一方面,提供了一种基于改进的注意力机制的用于答案选择的装置,包括:词向量转化单元,用于对获得文本数据和与文本数据相关的问题数据分别进行词向量转化,以分别获得所述问题数据和所述文本数据的每个词语的词向量表示;语义向量获取单元,通过循环神经网络模型处理所述问题数据和所述文本数据,以分别获得所述问题数据对应的问题语义向量表示和所述文本数据对应的文本语义向量表示;注意力机制处理单元,用于通过堆叠注意力机制层处理所述问题语义向量表示和所述文本语义向量以获得融合问题信息的上下文表示,其中,所述堆叠注意力机制层包括相互串联的第一注意力机制单元和第二注意力机制单元以及融合单元,其中,第一注意力机制单元用于处理所述问题语义向量表示和所述文本语义向量以获得第一基于问题的上下文表示,所述第二注意力机制单元用于基于所述第一基于问题的上下文表示和所述问题语义向量表示获得第二基于问题的上下文表示,所述融合单元用于融合所述第一基于问题的上下文表示和所述第二基于问题的上下文表示,以获得所述融合问题信息的上下文表示;答案预测单元,用于基于所述融合问题信息的上下文表示和所述问题语义向量表示,获得所述文本数据中每个词语为所述问题数据对应答案的起始位置和结束位置的概率,以将起始位置和结束位置的联合分布概率最大的文本片段确定为所述问题数据对应的答案。
在上述基于改进的注意力机制的用于答案选择的装置中,所述注意力机制处理单元进一步地用于:通过自注意力机制层处理所述融合问题的上下文表示,以获得加强的融合问题信息的上下文表示,其中,两个所述融合问题的上下文表示被设置为所述自注意力机制层的两个输入。
在上述基于改进的注意力机制的用于答案选择的装置中,所述第一注意力单元用于:获得所述问题语义向量表示和所述文本语义向量表示之间的相关度矩阵;对所述相关度矩阵每一行进行归一化处理,以获得所述文本数据关于问题数据的注意力权重;以及,基于所述文本数据关于问题数据的注意力权重和所述问题语义向量表示获得所述第一基于问题的上下文表示。
在上述基于改进的注意力机制的用于答案选择的装置中,所述第二注意力单元用于:获得所述第一基于问题的上下文表示和所述问题语义向量表示之间的相关度矩阵;对所述相关度矩阵每一行进行归一化处理,以获得所述第一基于问题的上下文表示关于问题数据的注意力权重;以及,基于所述第一基于问题的上下表示关于问题数据的注意力权重和所述问题语义向量表示,获得所述第二基于问题的上下文表示。
在上述基于改进的注意力机制的用于答案选择的装置中,所述语义向量获取单元用于:对所述文本数据和所述问题数据的每个字表示进行字符级编码;通过所述循环神经网络模型处理进行字符级编码后的所述文本数据和所述问题数据,以获得所述文本数据的字符粒度向量表示和所述问题数据的字符粒度向量表示;将所述文本数据和所述问题数据的每个词语的词向量表示进行拼接,以获得所述文本数据的词语粒度向量表示和所述问题数据的词语粒度向量表示;通过所述循环神经网络模型处理所述问题数据的字符粒度向量表示和词语粒度向量表示的拼接向量以及所述文本数据的字符粒度向量表示和词语粒度向量表示的拼接向量;以及,通过高速网络拼接所述循环神经网络模型每一时间片的隐藏状态,以获得所述问题数据对应的问题语义向量表示和所述文本数据对应的文本语义向量表示。
在上述基于改进的注意力机制的用于答案选择的装置中,用以处理所述文本数据和所述问题数据的所述循环神经网络模型和所述高速网络为同一个循环神经网络模型和高速网络。
根据本申请的又一方面,提供一种电子设备,包括:处理器;以及,存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的基于改进的注意力机制的用于答案选择的方法。
根据本申请的又一方面,提供一种计算机可读存储介质,其上存储有计算机程序指令,当所述计算机程序指令被计算装置执行时,可操作来执行如上所述的基于改进的注意力机制的用于答案选择的方法。
本申请提供的基于改进的注意力机制的用于答案选择的方法、装置和电子设备,可以通过包含改进的注意力机制的特定的模型架构优化用于机器阅读理解的系统以提高短文本答案抽取的效果。
附图说明
从下面结合附图对本发明实施例的详细描述中,本发明的这些和/或其它方面和优点将变得更加清楚并更容易理解,其中:
图1图示了根据本申请实施例的基于改进的注意力机制的用于答案选择的方法的流程图。
图2图示了根据本申请实施例的获得所述问题数据和所述文本数据的语义向量表示的流程图。
图3图示了根据本申请实施例的所述第一注意力机制单元获得所述第一基于问题的上下文表示的流程图。
图4图示了根据本申请实施例的所述第二注意力机制单元获得所述第二基于问题的上下文表示的流程图。
图5图示了根据本申请实施例的用于机器阅读理解的系统模型架构的示意图。
图6示意了根据本申请实施例的用于机器阅读理解的系统利用斯坦福公开阅读理解数据集(Stanford Question Answering Dataset,SQuAD)的测试结果。
图7图示了根据本申请实施例的基于改进的注意力机制的用于答案选择的装置的框图。
图8图示了根据本申请实施例的电子设备的框图。
具体实施方式
下面,将参考附图详细描述根据本申请的示例实施例。显然,所描述的实施例仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解本申请不受这里描述的示例实施例的限制。
申请概述
如上所述,机器阅读理解(Machine Reading Comprehension,MRC)是自然语言处理领域的一个重要课题,其目的在于让计算机在海量文本中找到精确的答案,从而减轻人类获得信息的成本。目前,最流行的机器阅读理解任务为答案抽取式的任务。答案抽取式的阅读理解任务指的是,给定问题和与该问题相关的短文本(通常为1000词以内),从该短文本中抽取文本片段作为该问题的正确答案。例如,查询天气,查询事实类问题、定义类问题等等。
然而,在具体实现短文本答案抽取任务中,存在着诸多难题需要攻克。首先,如何让机器理解短文本数据和问题数据的语义信息。这里,语义信息指的是能够消除事物不确定性的有一定意义的信息,其中,语义信息可以借助自然语言领会和理解。其次,如何捕捉短文本数据和问题数据之间的关系,以定位出所述问题数据对应的答案范围;还有,如何在答案候选部分进行筛选以确定最终答案。这些难题,在优化短文本答案抽取效果的过程中皆需逐一克服或改进,以提升短文本答案抽取任务的效果。
针对上述技术问题,本申请的基本构思是首先将所述问题数据和所述文本数据转化为机器能够识别的表现形式,进而,通过循环神经网络模型获得所述问题数据和所述文本数据的语义信息表示,进一步地,通过堆叠注意力机制层捕捉所述问题数据和所述文本数据之间的关系,最终,基于所述融合问题信息的上下文表示和所述问题语义向量表示,从所述文本数据中获得所述问题数据对应的答案文本片段。
基于此,本发明提供一种基于改进的注意力机制的用于答案选择的方法、装置和电子设备,其首先对获得文本数据和与文本数据相关的问题数据分别进行词向量转化,以分别获得所述问题数据和所述文本数据的每个词语的词向量表示;然后,通过循环神经网络模型处理所述问题数据和所述文本数据,以分别获得所述问题数据对应的问题语义向量表示和所述文本数据对应的文本语义向量表示;进一步地,通过堆叠注意力机制层处理所述问题语义向量表示和所述文本语义向量以获得融合问题信息的上下文表示;继而,基于所述融合问题信息的上下文表示和所述问题语义向量表示,获得所述文本数据中每个词语为所述问题数据对应答案的起始位置和结束位置的概率,并将起始位置和结束位置的联合分布概率最大的文本片段确定为所述问题数据对应的答案。这样,通过注意力机制,并利用特定的模型架构优化所述机器阅读理解系统用于短文本答案抽取任务的效果。
在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。
示意性方法
图1图示了根据本申请实施例的基于改进的注意力机制的用于答案选择的方法的流程图。如图1所示,根据本申请实施例的基于改进的注意力机制的用于答案选择的方法包括:S110,对获得文本数据和与文本数据相关的问题数据分别进行词向量转化,以分别获得所述问题数据和所述文本数据的每个词语的词向量表示;S120,通过循环神经网络模型处理所述问题数据和所述文本数据,以分别获得所述问题数据对应的问题语义向量表示和所述文本数据对应的文本语义向量表示;S130,通过堆叠注意力机制层处理所述问题语义向量表示和所述文本语义向量以获得融合问题信息的上下文表示,其中,所述堆叠注意力机制层包括相互串联的第一注意力机制单元和第二注意力机制单元以及融合单元,其中,第一注意力机制单元用于处理所述问题语义向量表示和所述文本语义向量以获得第一基于问题的上下文表示,所述第二注意力机制单元用于基于所述第一基于问题的上下文表示和所述问题语义向量表示获得第二基于问题的上下文表示,所述融合单元用于融合所述第一基于问题的上下文表示和所述第二基于问题的上下文表示,以获得所述融合问题信息的上下文表示;S140,基于所述融合问题信息的上下文表示和所述问题语义向量表示,获得所述文本数据中每个词语为所述问题数据对应答案的起始位置和结束位置的概率,以将所述起始位置和结束位置的联合分布概率最大的文本片段确定为所述问题数据对应的答案。
这里,在本申请实施例中,设置用于机器阅读理解的系统以用于处理短文本答案抽取任务。换言之,基于改进的注意力机制的用于答案选择的方法为用于短文本答案抽取的数据处理方法,其目的在于:给定问题数据和与所述问题数据相关的文本数据,从所述文本数据中抽取文本片段作为所述问题数据的正确答案。
在步骤S110中,对获得文本数据和与文本数据相关的问题数据分别进行词向量转化,以分别获得所述问题数据和所述文本数据的每个词语词向量表示。本领域的技术人员应可以理解,在完成自然语言处理的相关任务时,首先,需将自然语言转化为计算设备能够识别的语言,即数学符号,其中该数学符号通常为向量。换言之,在获取问题数据和答案数据之后,需将所述问题数据和所述文本数据转化为机器能够识别的表示。这里,在本申请该实施例中,对所述问题数据和所述文本数据进行词向量转化,以分别获得所述问题数据和所述文本数据的词向量表示。
特别地,在本申请实施例中,通过词嵌入方法对所述问题数据和所述文本数据进行词向量转化,以分别获得所述问题数据和所述文本数据的每个词语的词向量表示,其中,词向量是词语的连续、稠密、低纬度的分布表示。词嵌入方法(Word Embedding Method)是将自然语言词语数学化的一种方法,其指的是将自然语言中的每一个词映射到高维空间,并表示为一个高维向量。这种词语表示方法通过训练将词语映射到一个K维实数向量(一般K可取50、100等)其中,每个词即为K维向量空间中的一点,词语之间的距离(如欧式距离、Cosine距离)代表词语之间的语义相似度。这里,在本申请实施例中,使用经过预训练的GloVe词向量,直接获得所述问题数据和所述文本数据的每个词语到d维空间的映射(d=100/300),以获得所述问题数据和所述文本数据的每个词语的词向量表示。
在步骤S120中,通过循环神经网络模型处理所述问题数据和所述文本数据,以分别获得所述问题数据对应的问题语义向量表示和所述文本数据对应的文本语义向量表示。换言之,通过循环神经网络处理所述问题数据和所述文本数据,以获取所述文本数据和所述答案数据的语义信息,从而机器(计算设备)能够理解所述文本数据和所述问题数据的内容。
特别地,在本申请实施例中,所述循环神经网络模型从不同编码粒度级别对所述问题数据和所述文本数据的词向量表示进行编码,并将不同编码粒度下的表示进行融合的方式,通过这样的方式,获得所述文本数据的文本语义向量表示和所述问题数据的问题语义向量表示。更具体地说,在本申请实施例中,通过字符粒度级别编码、词语粒度级别编码和上下文粒度级别编码,这三个编码粒度级别对所述问题数据和所述文本数据进行编码,以获得所述问题语义向量表示和所述文本语义向量表示。
字符粒度级别编码:将英文26个字母和其他标点符号等进行特定模式编码(例如,one-hot编码),以获得每个字符的编码。进而,将所述文本数据和所述问题数据的每个字对应的字符编码作为所述循环神经网络模型的输入。这样,在所述循环神经网络模型的最后一层隐藏状态获得将所述文本数据和所述问题数据的字符粒度表征向量,其中,所述问题数据和所述文本数据的字符粒度表征向量可表示为ch_enc∈Rn×2h和,其中h为所述循环神经网络模型中隐藏层的节点数量,n为所述问题数据的文本长度或所述文本数据的文本长度。
词语粒度级别编码:使用经过预训练的GloVe词向量,直接所述问题数据和所述文本数据的每个单词到d维(d=100/300)空间的映射,以获得所述问题数据和所述文本数据的每个词语的词向量表示。进而,将所述问题数据的每个词语的词向量拼接起来以获得所述问题数据的词语粒度向量表示,以及,将所述文本数据的每个单词的词向量拼接起来以获得所述文本数据的词语粒度向量表示,其中,所述问题数据和所述文本数据的词语粒度向量表示可表示为:c_emb∈Rn×d,n为所述问题数据的文本长度或所述文本数据的文本长度,d为向量映射空间的维度。换言之,在本申请该实施例中,对所述问题数据和所述答案数据的词语粒度级别编码与在步骤S110中对所述问题数据和所述答案数据的每个词语进行词向量转化所获得的每个词语的词向量表示紧密相关。
上下文粒度级别编码:将所述问题数据和所述文本数据的字符级别向量表示和词语级别向量表示进行拼接,并将拼接结果作为所述循环神经网络模型的输入。这样,经过所述循环神经网络的处理之后,利用一个高度网络(Highway Network)将所述循环神经网络模型每个时间片隐藏状态拼接起来,以获得所述问题数据和所述本文数据的上下文粒度级别的向量表示,即,所述问题数据和所述文本数据的语义向量表示。换言之,在对所述问题数据和所述文本数据进行上下文粒度级别的编码过程中,利用所述循环神经网络模型和所述高度网络处理所述文本数据和所述问题数据中相邻词语之间的交互关系,以得到所述问题数据和所述文本数据中含对整个句子的语义信息的上下文编码。为了便于后续描述,将所述问题数据和所述本文数据的上下文粒度级别的向量表示表示为:c_enc∈Rn×2h、q_enc∈Rm×2h,其中,h为所述循环神经网络模型中隐藏层的节点数量,m为所述问题数据的文本长度,n为所述文本数据的文本长度。
值得一提的是,在本申请实施例中,对于所述问题数据和所述答案数据不同粒度级别的编码使用相同的循环神经网络和高度网络。本领域技术人员应可以理解,对所述问题数据和所述答案数据的不同粒度级别的编码结果直接影响短文本答案抽取任务的最终结果,因此,在具体实现中,还可以根据所述问题数据和所述文本数据进行预处理,并灵活地调整特征提取算法以提升对所述问题数据和所述答案数据的语义信息的理解,例如,可以加入所述问题数据和所述文本数据的词性,词频等传统统计学特征。对此,本申请实施例不做限制。
图2图示了根据本申请实施例的获得所述问题数据和所述文本数据的语义向量表示的流程图。如图2所示,通过循环神经网络模型分别获得所述问题数据对应的问题语义向量表示和所述文本数据对应的文本语义向量表示,包括:S210,对所述文本数据和所述问题数据的每个字表示进行字符级编码;S220,通过所述循环神经网络模型处理进行字符级编码后的所述文本数据和所述问题数据,以获得所述文本数据的字符粒度向量表示和所述问题数据的字符粒度向量表示;S230,将所述文本数据和所述问题数据的每个词语的词向量表示进行拼接,以获得所述文本数据的词语粒度向量表示和所述问题数据的词语粒度向量表示;S240,通过所述循环神经网络模型处理所述问题数据的字符粒度向量表示和词语粒度向量表示的拼接向量以及所述文本数据的字符粒度向量表示和词语粒度向量表示的拼接向量;以及,S250,通过高速网络拼接所述循环网络每一时间片的隐藏状态,以获得所述问题数据对应的问题语义向量表示和所述文本数据对应的文本语义向量表示。
进一步地,在通过循环神经网络模型获得所述问题数据对应的问题语义向量表示和所述文本数据对应的文本语义向量表示之后,利用堆叠注意力机制捕捉所述问题数据和所述文本数据之间的关系。即,执行步骤S130:通过堆叠注意力机制层处理所述问题语义向量表示和所述文本语义向量,以获得融合问题信息的上下文表示,其中,所述堆叠注意力机制层包括相互串联的第一注意力机制单元和第二注意力机制单元以及融合单元,其中,第一注意力机制单元用于处理所述问题语义向量表示和所述文本语义向量以获得第一基于问题的上下文表示,所述第二注意力机制单元用于基于所述第一基于问题的上下文表示和所述问题语义向量表示获得第二基于问题的上下文表示,所述融合单元用于融合所述第一基于问题的上下文表示和所述第二基于问题的上下文表示,以获得所述融合问题信息的上下文表示。
这里,使用注意力机制捕捉所述问题数据和所述文本数据之间的关系的目的在于:关注所述问题数据和所述文本数据相关的部分。形象地说,让机器像人类一样带着所述问题数据阅读所述文本数据,并将所述文本数据关键部分与所述问题数据相关联。之所以采用注意力机制的原因是因为,在使用深度神经网络处理复杂任务时(例如处理大量的输入信息时),如果仅仅是通过深度神经网络将输入转化为对应的向量表示,那么,该向量表示很难反映出输入的所有语义信息。相应地,利用注意力机制可以根据任务的需要只编码相关信息,忽略次要信息以减少输入量。换言之,这是一种有效的资源分类方案,将计算资源等分配给更加重要的任务。
特别地,在本申请实施例中,利用堆叠的注意力机制捕捉所述问题数据和所述文本数据之间的关系。顾名思义,堆叠的注意力机制表示多个注意力机制同时作用于捕捉所述问题数据和所述答案数据之间的关系。在本申请实施例中,所述堆叠注意力机制层包括第一注意力机制单元,第二注意力机制单元以及融合单元,其中,所述第一注意力机制单元和所述第二注意力机制单元均为静态单向注意力机制单元且相互串联。在工作过程中,所述第一注意力机制单元用于处理所述问题语义向量表示和所述文本语义向量以获得第一基于问题的上下文表示;与所述第一注意力机制单元串联的所述第二注意力机制单元用于基于所述第一基于问题的上下文表示和所述问题语义向量表示获得第二基于问题的上下文表示;同时,所述融合单元融合所述第一基于问题的上下文表示和所述第二基于问题的上下文表示,以获得所述融合问题信息的上下文表示。
更具体地,在本申请实施例中,所述第一注意力机制单元处理所述问题语义向量表示和所述文本语义向量以获得第一基于问题的上下文表示的具体过程为:首先,定义一个相关度矩阵M∈Rn×m,所述相关度矩阵表示了所述文本数据中的每个词语和所述问题数据的每个词语之间的相关程度。例如,Mij表示所述文本数据中第i个词语与所述问题数据中第j个词语之间的相关程度,其中,两个词语越相关,该值越大。在具体实施例中,可如下公式对所述相关度矩阵进行最简单的计算:
M=c_enc×q_encT∈Rn×m
其中,c_enc表示所述文本数据的文本语义向量表示,q_enc表示所述问题所述的问题语义向量表示。这里,对所述相关度矩阵的计算可更为复杂,例如,以如下公式进行计算:
其中,c_enc表示所述文本数据的文本语义向量表示,q_enc表示所述问题所述的问题语义向量表示,为待训练参数矩阵。对此,可基于所述机器阅读理解系统的具体应用场景采用特定的所述相关度矩阵计算方法,对此,本申请实施例不作限制。
进一步,在得到所述相关度矩阵之后,对所述相关度矩阵每一行进行归一化处理,以获得所述文本数据关于问题数据的注意力权重。这里,所述文本数据关于问题数据的注意力权重表示:对于所述文本数据中的每个词语,所述问题数据中的各个词语与所述文本数据的该词语的相关程度,其具体计算过程可表示如下:
Mq=softmax(M)∈Rn×m
或者以更直观的方式可表示为:
进一步,基于所述文本数据关于问题数据的注意力权重和所述问题语义向量表示获得所述第一基于问题的上下文表示,用公式可表示为:
Cq=Mq×q_enc∈Rn×2h
其中,Mq表示所述文本数据关于问题数据的注意力权重,q_enc表示所述问题语义向量表示。
图3图示了根据本申请该实施例的第一注意力机制单元获得所述第一基于问题的上下文表示的流程图。如图3所示,所述第一注意力机制单元获得所述第一基于问题的上下文表示的过程,包括:S310,获得所述问题语义向量表示和所述文本语义向量表示之间的相关度矩阵;S320,对所述相关度矩阵每一行进行归一化处理,以获得所述文本数据关于问题数据的注意力权重;以及,S330,基于所述文本数据关于问题数据的注意力权重和所述问题语义向量表示获得所述第一基于问题的上下文表示。
相应地,所述第二注意力机制单元获得所述第二基于问题的上下文表示的机理与所述第一注意力机制单元获得所述第一基于问题的上下文表示的机理相一致,除了输入的数据类型。更具体地,对于所述第一注意力机制单元而言,其输入为:所述问题语义向量表示和所述文本语义向量表示;而,对于所述第二注意力机制单元而言,其输入为:所述第一基于问题的上下文表示和所述问题语义向量表示。换言之,所述第一注意力机制单元的输出为所述第二注意力机制单元的输入,即,所述第二注意力机制单元串联于所述第一注意力机制单元。
更具体地,所述第二注意力机制单元获得所述第二基于问题的上下文表示的过程为:首先,获得所述第一基于问题的上下文表示和所述问题语义向量表示之间的相关度矩阵,其中该相关度矩阵可用如下公式进行计算:
其中,Ct-1为所述第一基于问题的上下文表示,q_enc表示所述问题的语义向量表示。
进一步,对所述相关度矩阵每一行进行归一化处理,以获得所述第一基于问题的上下文表示关于问题数据的注意力权重。这里,所述第一基于问题的上下文表示关于问题数据的注意力权重表示:对于所述第一基于问题的上下文表示中的每个词语,所述问题数据中的各个词语与所述第一基于问题的上下文表示的该词语的相关程度,其具体计算过程可表示如下:
Mq=softmax(M,axis=1)∈Rn×m
进一步,基于所述第一基于问题的上下表示关于问题数据的注意力权重和所述问题语义向量表示,获得所述第二基于问题的上下文表示,用公式表示为:
ct=Mq×qenc∈Rn×2h
其中,Mq表示所述第一基于问题的上下表示关于问题数据的注意力权重,qenc表示所述问题语义向量表示。
图4图示了根据本申请该实施例的所述数据处理方法中所述第二注意力机制单元获得所述第二基于问题的上下文表示的流程图。如图4所示,所述第二注意力机制单元获得所述第二基于问题的上下文表示的过程,包括:S410,获得所述第一基于问题的上下文表示和所述问题语义向量表示之间的相关度矩阵;S420,对所述相关度矩阵每一行进行归一化处理,以获得所述第一基于问题的上下文表示关于问题数据的注意力权重;以及,S430,基于所述第一基于问题的上下表示关于问题数据的注意力权重和所述问题语义向量表示,获得所述第二基于问题的上下文表示。
进一步,在通过所述第一注意力机制单元和所述第二注意力机制单元分别获得所述第一基于问题的上下文表示和所述第二基于问题的上下文表示之后,利用所述融合单元融合所述第一基于问题的上下文表示和所述第二基于问题的上下文表示以获得所述融合问题信息的上下文表示。这里,融合过程用公式可表示为:
其中,Ct表示所述第二基于问题的上下文表示,Ct-1表示所述第一基于问题的上下文表示,Fusion表示融合函数。从上述公式可以看到,所述融合单元对传入的参数进行了一次非线性变换操作。
综上,通过所述第一注意力机制单元,所述第二注意力机制单元和所述融合单元所构建的所述堆叠注意机制层,利用堆叠的注意力机制在低层次,中等层次和高层次都捕捉了所述问题数据和所述文本数据的交互程度。值得一提的是,对应于具体的所述机器阅读系统的应用场景,所述堆叠注意机制层的注意力机制单元的数目可做出调整,以改变注意力机制堆叠的层数。例如,在本申请另外的实施例中,所述堆叠注意力机制层还包括第三注意力机制单元,其与所述第二注意力机制单元相串联,并以相同的注意力机制机理更新基于问题的上下文表示。这里,当所述注意力机制单元的数量增加时,所述堆叠注意力机制层能在更多层次上捕捉了所述问题数据和所述文本数据的交互程度,当然,这样将导致计算量增加。在具体实施中,所述堆叠注意力机制层一般包括2或3个所述注意力机制单元,即,所述堆叠注意力机制层的注意力堆叠层数为2或3。
进一步地,在通过堆叠注意力机制层处理所述问题语义向量表示和所述文本语义向量以获得融合问题信息的上下文表示后,执行步骤S140和步骤S150,即,基于所述融合问题信息的上下文表示和所述问题语义向量表示,获得所述文本数据中每个词语为所述问题数据对应答案的起始位置和结束位置的概率,以及将所述起始位置和结束位置的联合分布概率最大的文本片段确定为所述问题数据对应的答案。
这里,在本申请实施例中,利用指针网络(Pointer Network)进行答案预测。换言之,通过指针网络处理所述融合问题信息的上下文表示和所述问题语义向量表示,以获得所述文本数据中每个词语为所述问题数据对应答案的起始位置和结束位置的概率,p(start|D,Q)、p(end|D,Q,start)∈Rn。进而,建立答案起始位置和答案结束位置的联合概率分布,用公式可表示为:
p(answer|D,Q)=p(start|D,Q)p(end|D,Q,start)
其中,p(start|D,Q)表示所述文本数据中每个词语为所述问题数据对应答案的起始位置的概率,p(end|D,Q,start)表示所述文本数据中每个词语为所述问题数据对应答案的结束位置的概率。最终,计算答案片段的联合分布概率,并抽取概率最大的一段文本为所述问题数据对应的答案。
值得一提的是,为了优化所述机器阅读理解系统完成短文本答案抽取任务的效果,在利用指针网络进行答案预测和确定最终答案之前,可利用自注意力机制对所述融合问题信息的上下文表示进行自加强。本领域的技术人员应可以理解,对于所述机器阅读理解系统而言,总希望文本的部分无用信息能够被忽略,部分重要信息(例如,关键词信息)能够得以加强,以优化最终的预测性能。这里,通过自注意力机制对所述融合问题信息的上下表示进行加强的目的也是如此。
更具体地,在本申请该实施例中,所述自注意力机制层与所述堆叠注意力机制层的注意力机制思想相一致,其区别在于,对于所述自注意力机制层而言,两个所述融合问题的上下文表示被设置为所述自注意力机制层的两个输入,而堆叠注意力机制层中两个输入分别为所述文本数据和所述问题数据的语义编码。换言之,在自注意力机制层中,计算获得的所述相关度矩阵Mij=0(i=j)。并且,在自注意力机制运行完成之后,注意力机制的层数T取值为1。
也就是说,在本申请实施例中,在通过堆叠注意力机制层获得融合问题的上下文表示和基于所述融合问题信息的上下文表示和所述问题语义向量表示获得所述文本数据中每个词语为所述问题数据对应答案的起始位置和结束位置的概率之间,包括:通过自注意力机制层处理所述融合问题的上下文表示,以获得加强的融合问题信息的上下文表示,其中,两个所述融合问题的上下文表示被设置为所述自注意力机制层的两个输入。
综上,说明了根据本申请实施例的用于机器阅读理解的基于改进的注意力机制的用于答案选择的方法,其利用基于改进的注意力机制的特定的模型架构优化短文本答案抽取,从而提高处理效果。
图5图示了根据本申请实施例的用于机器阅读理解的系统模型架构的示意图。如图5所示,所述用于机器阅读理解的系统包括编码层,文章问题交互层,自交互层和预测层。所述编码层,分别对所述问题数据和所述文本数据进行不同粒度级别编码,以使得机器充分理解所述文本数据和所述问题数据的语义信息。所述文章问题交互层,使用堆叠注意力机制捕捉所述问题数据和所述文本数据之间的不同层级的交互关系,重点关注所述文本数据和所述问题数据之间相关联的部分,并获得融合问题信息的上下文表示(question-aware context representation)。所述自交互层,利用一种内部注意力机制对所述融合问题信息的上下文表示进行加强。最终,所述预测层进行答案预测,其先预测所述文本数据中每个词语为所述问题数据对应答案的起始位置的概率,再使用该概率值结合其他计算结果继续预测所述文本数据中每个词语为所述问题数据对应答案的结束位置的概率,继而,将起始位置和结束位置的联合分布概率最大的文本片段确定为所述问题数据对应的答案。值得一提的是,这种串行的预测方法充分考虑了答案开始位置,结束位置之间的相关性,利于提升答案预测正确率。
值得一提的是,在所述用于机器阅读理解的系统投入服务以处理短文本答案抽取任务时,需先对所述系统的模型进行训练,即调整所述系统的网络参数。特别地,在本申请实施例中,分别使用所述文章问题交互层和所述自交互层的结果计算所述文本数据中每个词语为所述问题数据对应答案的起始位置的概率,并以起始位置预测概率分布与实际概率分布的负对数概率总和构建损失函数,进而,以1:4比例进行综合得到所述用于机器阅读理解的系统的整个网络的损失函数。值得一提的是,可使用Adadelata优化器对所述系统的整个网络进行优化。
此外,值得一提的是,本申请实施例所提供的所述用于机器阅读理解的系统处理短文本答案抽取任务的效果,可用准确率(Precision),召回率(Recall),F1值(F1-Score)等效果评价指标来评价。特别地,图6示意了根据本申请实施例的所述用于机器阅读理解的系统利用斯坦福公开阅读理解数据集(Stanford Question Answering Dataset,SQuAD)的测试结果。
这里,应领会的是,在上文中以所述用于机器阅读理解的系统用于处理短文本答案抽取任务是示例。本领域的技术人员应可以理解,所述用于机器阅读理解的系统还可用于处理完形填空任务,基于网络数据的问答任务。对此,本申请不作限制。
示意性装置
图7图示了根据本申请实施例的基于改进的注意力机制的用于答案选择的装置的框图。
如图7所示,根据本申请实施例的基于改进的注意力机制的用于答案选择的装置700包括:词向量转化单元710,用于对获得文本数据和与文本数据相关的问题数据分别进行词向量转化,以分别获得所述问题数据和所述文本数据的每个词语的词向量表示;语义向量获取单元720,通过循环神经网络模型处理所述问题数据和所述文本数据,以分别获得所述问题数据对应的问题语义向量表示和所述文本数据对应的文本语义向量表示;注意力机制处理单元730,用于通过堆叠注意力机制层处理所述问题语义向量表示和所述文本语义向量以获得融合问题信息的上下文表示,其中,所述堆叠注意力机制层包括相互串联的第一注意力机制单元和第二注意力机制单元以及融合单元,其中,第一注意力机制单元用于处理所述问题语义向量表示和所述文本语义向量以获得第一基于问题的上下文表示,所述第二注意力机制单元用于基于所述第一基于问题的上下文表示和所述问题语义向量表示获得第二基于问题的上下文表示,所述融合单元用于融合所述第一基于问题的上下文表示和所述第二基于问题的上下文表示,以获得所述融合问题信息的上下文表示;预测单元740,用于基于所述融合问题信息的上下文表示和所述问题语义向量表示,获得所述文本数据中每个词语为所述问题数据对应答案的起始位置和结束位置的概率,以将所述起始位置和结束位置的联合分布概率最大的文本片段确定为所述问题数据对应的答案。
在一个示例中,在上述装置700中,所述注意力机制处理单元730进一步用于:通过自注意力机制层处理所述融合问题的上下文表示,以获得加强的融合问题信息的上下文表示,其中,两个所述融合问题的上下文表示被设置为所述自注意力机制层的两个输入。
在一个示例中,在上述装置700中,所述第一注意力机制单元用于:获得所述问题语义向量表示和所述文本语义向量表示之间的相关度矩阵;对所述相关度矩阵每一行进行归一化处理,以获得所述文本数据关于问题数据的注意力权重;以及,基于所述文本数据关于问题数据的注意力权重和所述问题语义向量表示获得所述第一基于问题的上下文表示。
在一个示例中,在上述装置700中,所述第二注意力机制单元用于:获得所述第一基于问题的上下文表示和所述问题语义向量表示之间的相关度矩阵;对所述相关度矩阵每一行进行归一化处理,以获得所述第一基于问题的上下文表示关于问题数据的注意力权重;以及,基于所述第一基于问题的上下表示关于问题数据的注意力权重和所述问题语义向量表示,获得所述第二基于问题的上下文表示。
在一个示例中,在上述装置700中,所述语义向量获取单元720用于:对所述文本数据和所述问题数据的每个字表示进行字符级编码;通过所述循环神经网络模型处理进行字符级编码后的所述文本数据和所述问题数据,以获得所述文本数据的字符粒度向量表示和所述问题数据的字符粒度向量表示;将所述文本数据和所述问题数据的每个词语的词向量表示进行拼接,以获得所述文本数据的词语粒度向量表示和所述问题数据的词语粒度向量表示;通过所述循环神经网络模型处理所述问题数据的字符粒度向量表示和词语粒度向量表示的拼接向量以及所述文本数据的字符粒度向量表示和词语粒度向量表示的拼接向量;以及,通过高速网络拼接所述循环神经网络模型每一时间片的隐藏状态,以获得所述问题数据对应的问题语义向量表示和所述文本数据对应的文本语义向量表示。
在一个示例中,在上述装置700中,用以处理所述文本数据和所述问题数据的所述循环神经网络模型和所述高速网络为相同的循环神经网络模型和高速网络。。
这里,本领域技术人员可以理解,上述基于改进的注意力机制的用于答案选择的装置700中的各个单元和模块的具体功能和操作已经在上面参考图1到图6描述的基于改进的注意力机制的用于答案选择的方法中详细介绍,并因此,将省略其重复描述。
如上所述,根据本申请实施例的基于改进的注意力机制的用于答案选择的装置700可以实现在各种终端设备中,例如用于短文本答案抽取系统的服务器。在一个示例中,根据本申请实施例的装置700可以作为一个软件模块和/或硬件模块而集成到所述终端设备中。例如,该装置700可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该装置700同样可以是该终端设备的众多硬件模块之一。
替换地,在另一示例中,该装置700与该终端设备也可以是分立的终端设备,并且该装置700可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。
示意性电子设备
下面,参考图8来描述根据本申请实施例的电子设备。
图8图示了根据本申请实施例的电子设备的框图。
如图8所示,电子设备10包括一个或多个处理器11和存储器12。
处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。
存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本申请的各个实施例的基于改进的注意力机制的用于答案选择的方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如所述问题数据和所述文本数据等各种内容。
在一个示例中,电子设备10还可以包括:输入装置13和输出装置14,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
例如,该输入装置13可以是例如键盘、鼠标等等。
该输出装置14可以向外部输出各种信息,包括问题对应的预测答案等。该输出设备14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图8中仅示出了该电子设备10中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备10还可以包括任何其他适当的组件。
示意性计算机程序产品
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的基于改进的注意力机制的用于答案选择的方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“,还语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的基于改进的注意力机制的用于答案选择的方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (14)
1.一种基于改进的注意力机制的用于答案选择的方法,其特征在于,包括:
对获得的文本数据和与文本数据相关的问题数据分别进行词向量转化,以分别获得所述问题数据和所述文本数据的每个词语的词向量表示;
通过循环神经网络模型处理所述问题数据和所述文本数据,以分别获得所述问题数据对应的问题语义向量表示和所述文本数据对应的文本语义向量表示;
通过堆叠注意力机制层处理所述问题语义向量表示和所述文本语义向量以获得融合问题信息的上下文表示,其中,所述堆叠注意力机制层包括相互串联的第一注意力机制单元、第二注意力机制单元以及融合单元,所述第一注意力机制单元用于处理所述问题语义向量表示和所述文本语义向量以获得第一基于问题的上下文表示,所述第二注意力机制单元用于基于所述第一基于问题的上下文表示和所述问题语义向量表示获得第二基于问题的上下文表示,所述融合单元用于融合所述第一基于问题的上下文表示和所述第二基于问题的上下文表示以获得所述融合问题信息的上下文表示,融合过程用公式表示为:
基于所述融合问题信息的上下文表示和所述问题语义向量表示,获得所述文本数据中每个词语为所述问题数据对应答案的起始位置和结束位置的概率,以将所述起始位置和结束位置的联合分布概率最大的文本片段确定为所述问题数据对应的答案。
2.如权利要求1所述的基于改进的注意力机制的用于答案选择的方法,在通过堆叠注意力机制层处理所述问题语义向量表示和所述文本语义向量以获得融合问题信息的上下文表示之后进一步包括:
通过自注意力机制层处理所述融合问题信息的上下文表示,以获得加强的融合问题信息的上下文表示,其中,两个所述融合问题信息的上下文表示设置为所述自注意力机制层的两个输入。
3.如权利要求2所述的基于改进的注意力机制的用于答案选择的方法,其中,通过所述第一注意力机制单元获得所述第一基于问题的上下文表示,包括:
获得所述问题语义向量表示和所述文本语义向量表示之间的相关度矩阵;
对所述相关度矩阵每一行进行归一化处理,以获得所述文本数据关于问题数据的注意力权重;以及
基于所述文本数据关于问题数据的注意力权重和所述问题语义向量表示获得所述第一基于问题的上下文表示。
4.如权利要求3所述的基于改进的注意力机制的用于答案选择的方法,其中,通过与所述第一注意力机制单元串联的所述第二注意力机制单元获得所述第二基于问题的上下文表示,包括:
获得所述第一基于问题的上下文表示和所述问题语义向量表示之间的相关度矩阵;
对所述相关度矩阵每一行进行归一化处理,以获得所述第一基于问题的上下文表示关于问题数据的注意力权重;以及
基于所述第一基于问题的上下表示关于问题数据的注意力权重和所述问题语义向量表示,获得所述第二基于问题的上下文表示。
5.如权利要求1所述的基于改进的注意力机制的用于答案选择的方法,其中,通过循环神经网络模型分别获得所述问题数据对应的问题语义向量表示和所述文本数据对应的文本语义向量表示包括:
对所述文本数据和所述问题数据的每个字表示进行字符级编码;
通过所述循环神经网络模型处理进行字符级编码后的所述文本数据和所述问题数据,以获得所述文本数据的字符粒度向量表示和所述问题数据的字符粒度向量表示;
将所述文本数据和所述问题数据的每个词语的词向量表示进行拼接,以获得所述文本数据的词语粒度向量表示和所述问题数据的词语粒度向量表示;
通过所述循环神经网络模型处理所述问题数据的字符粒度向量表示和词语粒度向量表示的拼接向量以及所述文本数据的字符粒度向量表示和词语粒度向量表示的拼接向量;以及
通过高速网络拼接所述循环神经网络模型每一时间片的隐藏状态,以获得所述问题数据对应的问题语义向量表示和所述文本数据对应的文本语义向量表示。
6.如权利要求5所述的基于改进的注意力机制的用于答案选择的方法,其中,用以处理所述文本数据和所述问题数据的所述循环神经网络模型和所述高速网络为相同的循环神经网络模型和高速网络。
7.一种基于改进的注意力机制的用于答案选择的装置,其特征在于,包括:
词向量转化单元,用于对获得文本数据和与文本数据相关的问题数据分别进行词向量转化,以分别获得所述问题数据和所述文本数据的每个词语的词向量表示;
语义向量获取单元,用于通过循环神经网络模型处理所述问题数据和所述文本数据,以分别获得所述问题数据对应的问题语义向量表示和所述文本数据对应的文本语义向量表示;
注意力机制处理单元,用于通过堆叠注意力机制层处理所述问题语义向量表示和所述文本语义向量以获得融合问题信息的上下文表示,其中,所述堆叠注意力机制层包括相互串联的第一注意力机制单元和第二注意力机制单元以及融合单元,其中,第一注意力机制单元用于处理所述问题语义向量表示和所述文本语义向量以获得第一基于问题的上下文表示,所述第二注意力机制单元用于基于所述第一基于问题的上下文表示和所述问题语义向量表示获得第二基于问题的上下文表示,所述融合单元用于融合所述第一基于问题的上下文表示和所述第二基于问题的上下文表示,以获得所述融合问题信息的上下文表示,融合过程用公式表示为:
答案预测单元,用于基于所述融合问题信息的上下文表示和所述问题语义向量表示,获得所述文本数据中每个词语为所述问题数据对应答案的起始位置和结束位置的概率,以将所述起始位置和结束位置的联合分布概率最大的文本片段确定为所述问题数据对应的答案。
8.如权利要求7所述的基于改进的注意力机制的用于答案选择的装置,所述注意力机制处理单元进一步地用于:
通过自注意力机制层处理所述融合问题信息的上下文表示,以获得加强的融合问题信息的上下文表示,其中,两个所述融合问题信息的上下文表示被设置为所述自注意力机制层的两个输入。
9.如权利要求8所述的基于改进的注意力机制的用于答案选择的装置,其中,所述第一注意力机制单元用于:
获得所述问题语义向量表示和所述文本语义向量表示之间的相关度矩阵;
对所述相关度矩阵每一行进行归一化处理,以获得所述文本数据关于问题数据的注意力权重;以及
基于所述文本数据关于问题数据的注意力权重和所述问题语义向量表示获得所述第一基于问题的上下文表示。
10.如权利要求9所述的基于改进的注意力机制的用于答案选择的装置,其中,所述第二注意力机制单元用于:
获得所述第一基于问题的上下文表示和所述问题语义向量表示之间的相关度矩阵;
对所述相关度矩阵每一行进行归一化处理,以获得所述第一基于问题的上下文表示关于问题数据的注意力权重;以及
基于所述第一基于问题的上下表示关于问题数据的注意力权重和所述问题语义向量表示,获得所述第二基于问题的上下文表示。
11.如权利要求7所述的基于改进的注意力机制的用于答案选择的装置,其中,所述语义向量获取单元用于:
对所述文本数据和所述问题数据的每个字表示进行字符级编码;
通过所述循环神经网络模型处理进行字符级编码后的所述文本数据和所述问题数据,以获得所述文本数据的字符粒度向量表示和所述问题数据的字符粒度向量表示;
将所述文本数据和所述问题数据的每个词语的词向量表示进行拼接,以获得所述文本数据的词语粒度向量表示和所述问题数据的词语粒度向量表示;
通过所述循环神经网络模型处理所述问题数据的字符粒度向量表示和词语粒度向量表示的拼接向量以及所述文本数据的字符粒度向量表示和词语粒度向量表示的拼接向量;以及
通过高速网络拼接所述循环神经网络模型每一时间片的隐藏状态,以获得所述问题数据对应的问题语义向量表示和所述文本数据对应的文本语义向量表示。
12.如权利要求11所述的基于改进的注意力机制的用于答案选择的装置,其中,用以处理所述文本数据和所述问题数据的所述循环神经网络模型和所述高速网络为同一个循环神经网络模型和高速网络。
13.一种电子设备,包括:
处理器;以及
存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求1-6中任一项所述的基于改进的注意力机制的用于答案选择的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,当所述计算机程序指令被计算装置执行时,可操作来执行如权利要求1-6中任一项所述的基于改进的注意力机制的用于答案选择的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810601421.8A CN108959246B (zh) | 2018-06-12 | 2018-06-12 | 基于改进的注意力机制的答案选择方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810601421.8A CN108959246B (zh) | 2018-06-12 | 2018-06-12 | 基于改进的注意力机制的答案选择方法、装置和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108959246A CN108959246A (zh) | 2018-12-07 |
CN108959246B true CN108959246B (zh) | 2022-07-12 |
Family
ID=64488468
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810601421.8A Active CN108959246B (zh) | 2018-06-12 | 2018-06-12 | 基于改进的注意力机制的答案选择方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108959246B (zh) |
Families Citing this family (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11544259B2 (en) * | 2018-11-29 | 2023-01-03 | Koninklijke Philips N.V. | CRF-based span prediction for fine machine learning comprehension |
CN109766418B (zh) * | 2018-12-13 | 2021-08-24 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
CN109685211B (zh) * | 2018-12-14 | 2022-11-25 | 安徽省泰岳祥升软件有限公司 | 基于联合损失函数的机器阅读理解模型训练方法及装置 |
CN109635094B (zh) * | 2018-12-17 | 2023-04-18 | 北京百度网讯科技有限公司 | 用于生成答案的方法和装置 |
CN109657246B (zh) * | 2018-12-19 | 2020-10-16 | 中山大学 | 一种基于深度学习的抽取式机器阅读理解模型的建立方法 |
CN111382264B (zh) * | 2018-12-27 | 2023-06-09 | 阿里巴巴集团控股有限公司 | 会话质量评价方法、装置及电子设备 |
CN109670029B (zh) * | 2018-12-28 | 2021-09-07 | 百度在线网络技术(北京)有限公司 | 用于确定问题答案的方法、装置、计算机设备及存储介质 |
CN109740158B (zh) * | 2018-12-29 | 2023-04-07 | 安徽省泰岳祥升软件有限公司 | 一种文本语义解析方法及装置 |
CN111382243A (zh) * | 2018-12-29 | 2020-07-07 | 深圳市优必选科技有限公司 | 文本的类别匹配方法、类别匹配装置及终端 |
CN109766424B (zh) * | 2018-12-29 | 2021-11-19 | 安徽省泰岳祥升软件有限公司 | 一种阅读理解模型训练数据的过滤方法及装置 |
CN109815490B (zh) * | 2019-01-04 | 2023-11-14 | 平安科技(深圳)有限公司 | 文本分析方法、装置、设备及存储介质 |
CN109753661B (zh) * | 2019-01-11 | 2022-12-02 | 国信优易数据股份有限公司 | 一种机器阅读理解方法、装置、设备及存储介质 |
CN109815325B (zh) * | 2019-01-18 | 2021-12-10 | 北京百度网讯科技有限公司 | 答案抽取方法、装置、服务器及存储介质 |
CN109858004B (zh) * | 2019-02-12 | 2023-08-01 | 四川无声信息技术有限公司 | 文本改写方法、装置及电子设备 |
CN111612025B (zh) * | 2019-02-25 | 2023-12-12 | 北京嘀嘀无限科技发展有限公司 | 描述模型训练方法、文本描述方法、装置及电子设备 |
CN109977404A (zh) * | 2019-03-22 | 2019-07-05 | 深圳追一科技有限公司 | 基于深度学习的答案抽取方法、装置和存储介质 |
CN111858859A (zh) * | 2019-04-01 | 2020-10-30 | 北京百度网讯科技有限公司 | 自动问答处理方法、装置、计算机设备及存储介质 |
CN110096591A (zh) * | 2019-04-04 | 2019-08-06 | 平安科技(深圳)有限公司 | 基于词袋模型的长文本分类方法、装置、计算机设备及存储介质 |
CN110134967A (zh) * | 2019-05-22 | 2019-08-16 | 北京金山数字娱乐科技有限公司 | 文本处理方法、装置、计算设备及计算机可读存储介质 |
CN110309305B (zh) * | 2019-06-14 | 2021-05-11 | 中国电子科技集团公司第二十八研究所 | 基于多任务联合训练的机器阅读理解方法及计算机存储介质 |
CN110674280B (zh) * | 2019-06-21 | 2023-12-15 | 北京中科微末生物科技有限公司 | 一种基于增强问题重要性表示的答案选择算法 |
CN110287290A (zh) * | 2019-06-26 | 2019-09-27 | 平安科技(深圳)有限公司 | 基于阅读理解的营销线索提取方法、装置及计算机可读存储介质 |
CN110472238B (zh) * | 2019-07-25 | 2022-11-18 | 昆明理工大学 | 基于层级交互注意力的文本摘要方法 |
CN110569343B (zh) * | 2019-08-16 | 2023-05-09 | 华东理工大学 | 一种基于问答的临床文本结构化方法 |
CN110502627A (zh) * | 2019-08-28 | 2019-11-26 | 上海海事大学 | 一种基于多层Transformer聚合编码器的答案生成方法 |
CN111104492B (zh) * | 2019-09-19 | 2023-12-19 | 中国民航信息网络股份有限公司 | 一种基于层次化Attention机制的民航领域自动问答方法 |
CN110633472B (zh) * | 2019-09-19 | 2021-03-12 | 电子科技大学 | 一种基于注意力与聚合机制的文章与问题的融合方法 |
CN110619123B (zh) * | 2019-09-19 | 2021-01-26 | 电子科技大学 | 一种机器阅读理解方法 |
CN110647629B (zh) * | 2019-09-20 | 2021-11-02 | 北京理工大学 | 一种多粒度答案排序的多文档机器阅读理解方法 |
CN110750998B (zh) * | 2019-10-14 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 一种文本输出方法、装置、计算机设备和存储介质 |
CN112685543B (zh) * | 2019-10-18 | 2024-01-26 | 普天信息技术有限公司 | 一种基于文本回答问题的方法及装置 |
CN110795535A (zh) * | 2019-10-28 | 2020-02-14 | 桂林电子科技大学 | 一种深度可分离卷积残差块的阅读理解方法 |
CN111143507B (zh) * | 2019-12-05 | 2023-05-02 | 重庆兆光科技股份有限公司 | 一种基于复合式问题的阅读理解方法 |
CN111144126A (zh) * | 2019-12-24 | 2020-05-12 | 北京三快在线科技有限公司 | 一种语义分析模型的训练方法、语义分析方法及装置 |
CN111324717B (zh) * | 2020-02-24 | 2023-06-27 | 武汉大学 | 一种面向开放域问答的基于机器阅读理解的答案获取方法及系统 |
CN111353035B (zh) * | 2020-03-11 | 2021-02-19 | 镁佳(北京)科技有限公司 | 人机对话方法、装置、可读存储介质及电子设备 |
CN111428005A (zh) * | 2020-04-12 | 2020-07-17 | 中信银行股份有限公司 | 标准问答对确定方法、装置及电子设备 |
CN111858878B (zh) * | 2020-06-18 | 2023-12-22 | 达观数据有限公司 | 从自然语言文本中自动提取答案的方法、系统及存储介质 |
CN113837212B (zh) * | 2020-06-24 | 2023-09-26 | 四川大学 | 一种基于多模态双向导向注意力的视觉问答方法 |
CN111949791B (zh) * | 2020-07-28 | 2024-01-30 | 中国工商银行股份有限公司 | 一种文本分类方法、装置及设备 |
CN111881694A (zh) * | 2020-08-05 | 2020-11-03 | 科大讯飞股份有限公司 | 篇章要点检测方法、装置、设备及存储介质 |
CN111966812B (zh) * | 2020-10-20 | 2021-01-05 | 中国人民解放军国防科技大学 | 一种基于动态词向量的自动问答方法和存储介质 |
CN114064820B (zh) * | 2021-11-29 | 2023-11-24 | 上证所信息网络有限公司 | 一种基于混合架构的表格语义查询粗排方法 |
CN114398961B (zh) * | 2021-12-28 | 2023-05-05 | 西南交通大学 | 一种基于多模态深度特征融合的视觉问答方法及其模型 |
CN114020881B (zh) * | 2022-01-10 | 2022-05-27 | 珠海金智维信息科技有限公司 | 话题定位的方法及系统 |
CN114840648A (zh) * | 2022-03-21 | 2022-08-02 | 阿里巴巴(中国)有限公司 | 答案生成方法、装置及计算机程序产品 |
CN114662482B (zh) * | 2022-03-25 | 2024-06-18 | 北京感易智能科技有限公司 | 文本表格中答案文本的抽取方法及装置 |
CN116028613B (zh) * | 2023-03-29 | 2023-06-20 | 上海数字大脑科技研究院有限公司 | 常识问答方法、系统、计算机设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9262406B1 (en) * | 2014-05-07 | 2016-02-16 | Google Inc. | Semantic frame identification with distributed word representations |
CN106126596A (zh) * | 2016-06-20 | 2016-11-16 | 中国科学院自动化研究所 | 一种基于层次化记忆网络的问答方法 |
CN107256228A (zh) * | 2017-05-02 | 2017-10-17 | 清华大学 | 基于结构化注意力机制的答案选择系统及方法 |
CN107766506A (zh) * | 2017-10-20 | 2018-03-06 | 哈尔滨工业大学 | 一种基于层次化注意力机制的多轮对话模型构建方法 |
CN108062388A (zh) * | 2017-12-15 | 2018-05-22 | 北京百度网讯科技有限公司 | 人机对话的回复生成方法和装置 |
-
2018
- 2018-06-12 CN CN201810601421.8A patent/CN108959246B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9262406B1 (en) * | 2014-05-07 | 2016-02-16 | Google Inc. | Semantic frame identification with distributed word representations |
CN106126596A (zh) * | 2016-06-20 | 2016-11-16 | 中国科学院自动化研究所 | 一种基于层次化记忆网络的问答方法 |
CN107256228A (zh) * | 2017-05-02 | 2017-10-17 | 清华大学 | 基于结构化注意力机制的答案选择系统及方法 |
CN107766506A (zh) * | 2017-10-20 | 2018-03-06 | 哈尔滨工业大学 | 一种基于层次化注意力机制的多轮对话模型构建方法 |
CN108062388A (zh) * | 2017-12-15 | 2018-05-22 | 北京百度网讯科技有限公司 | 人机对话的回复生成方法和装置 |
Non-Patent Citations (3)
Title |
---|
Bidirectional Attention Flow for Machine Comprehension;Minjoon Seo 等;《arXiv》;20170224;第1-13页 * |
QANET: COMBINING LOCAL CONVOLUTION WITH GLOBAL SELF-ATTENTION FOR READING COMPREHENSION;Adams Wei Yu等;《arXiv》;20180523;第1-16页 * |
基于深度学习的答案选择;贾长娥;《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》;20180215;第1-10页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108959246A (zh) | 2018-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108959246B (zh) | 基于改进的注意力机制的答案选择方法、装置和电子设备 | |
CN109033068B (zh) | 基于注意力机制的用于阅读理解的方法、装置和电子设备 | |
WO2022088672A1 (zh) | 基于bert的机器阅读理解方法、装置、设备及存储介质 | |
CN108875074B (zh) | 基于交叉注意力神经网络的答案选择方法、装置和电子设备 | |
CN108959482B (zh) | 基于深度学习的单轮对话数据分类方法、装置和电子设备 | |
CN116775847B (zh) | 一种基于知识图谱和大语言模型的问答方法和系统 | |
CN111680494B (zh) | 相似文本的生成方法及装置 | |
CN111985228B (zh) | 文本关键词提取方法、装置、计算机设备和存储介质 | |
CN115455171B (zh) | 文本视频的互检索以及模型训练方法、装置、设备及介质 | |
CN112632224B (zh) | 基于案例知识图谱的案件推荐方法、装置和电子设备 | |
CN115221846A (zh) | 一种数据处理方法及相关设备 | |
CN116304748B (zh) | 一种文本相似度计算方法、系统、设备及介质 | |
CN113158687B (zh) | 语义的消歧方法及装置、存储介质、电子装置 | |
CN111898636A (zh) | 一种数据处理方法及装置 | |
EP4060526A1 (en) | Text processing method and device | |
CN110727769B (zh) | 语料库生成方法及装置、人机交互处理方法及装置 | |
CN111767714B (zh) | 一种文本通顺度确定方法、装置、设备及介质 | |
CN113434636A (zh) | 基于语义的近似文本搜索方法、装置、计算机设备及介质 | |
CN116151604A (zh) | 一种web环境下办公系统流程分析系统及其方法 | |
CN115730597A (zh) | 多级语义意图识别方法及其相关设备 | |
CN114925702A (zh) | 文本相似度识别方法、装置、电子设备及存储介质 | |
CN113761192B (zh) | 文本处理方法、文本处理装置及文本处理设备 | |
CN112925912B (zh) | 文本处理方法、同义文本召回方法及装置 | |
CN113704466B (zh) | 基于迭代网络的文本多标签分类方法、装置及电子设备 | |
CN113297854A (zh) | 文本到知识图谱实体的映射方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: Block D, alsa Park, No. 17, xidawang Road, Chaoyang District, Beijing 100124 Applicant after: Beijing Huiwen Technology (Group) Co.,Ltd. Address before: 100000 Room 203, Baolan financial innovation center, No. 137, Xiwai street, Xicheng District, Beijing Applicant before: BEIJING HUIWEN TECHNOLOGY DEVELOPMENT CO.,LTD. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |