CN108875074A - 基于交叉注意力神经网络的答案选择方法、装置和电子设备 - Google Patents
基于交叉注意力神经网络的答案选择方法、装置和电子设备 Download PDFInfo
- Publication number
- CN108875074A CN108875074A CN201810742706.3A CN201810742706A CN108875074A CN 108875074 A CN108875074 A CN 108875074A CN 201810742706 A CN201810742706 A CN 201810742706A CN 108875074 A CN108875074 A CN 108875074A
- Authority
- CN
- China
- Prior art keywords
- answer
- data
- character representation
- described problem
- specific
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及基于交叉注意力神经网络的答案选择方法,装置和电子设备。该方法包括:获取问题数据和每条包括标题数据和摘要数据的多条答案数据;将问题数据和多条答案数据编码为问题特征表示和多个答案特征表示;以多个答案特征表示中的参考答案特征表示对特定答案特征表示中的每个词进行基于注意力机制的评分以获得其交叉评价分数;计算问题特征表示和特定答案特征表示之间的相似度分数;以及基于相似度分数和交叉评价分数获得特定答案特征表示所对应的特定答案数据相对于问题数据的相关性分数。这样,可以通过注意力机制利用不同候选答案之间的相互信息进行交叉评分以确定问题数据和答案数据之间的相关性,从而提升答案选择的准确性。
Description
技术领域
本发明总体地涉及数据处理领域,且更为具体地,涉及一种基于交叉注意力神经网络的答案选择方法、装置和电子设备。
背景技术
随着人工智能领域关键技术的快速发展,人工智能助手应用逐渐成熟,各大科技公司相继发布了自己的家用人工智能产品。受益于语音识别和自然语言处理领域的新技术,用户可以通过语音的方式更自然地与这类产品进行交互。
在这种交互场景中,一个很重要的部分就是由人工智能产品回答人类用户以自然语言提出的问题。因此,在这种真实的开放领域问答应用场景下,需要能够自动发现真实世界的海量知识,以获得与问题对应的答案。
此外,随着互联网技术的发展,越来越多的人选择在网上搜索问题,并获取与问题相关的答案。常见地,网民可以通过社区问答系统(Community-based QuestionAnswering),例如百度知道,知乎、Stack Overflow等,检索自己想了解的问题,并获取与问题相关的满意答案。
但是,通常当基于问题进行搜索时,会获得与问题对应的大量答案,因此,因此,需要改进的答案选择方案。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种基于交叉注意力神经网络的答案选择方法、装置和电子设备,其通过注意力机制利用不同候选答案之间的相互信息进行交叉评分以确定问题数据和答案数据之间的相关性,从而提升答案选择的准确性。
根据本申请的一方面,提供了一种基于交叉注意力神经网络的答案选择方法,包括:获取问题数据和与所述问题数据对应的多条答案数据,每条答案数据包括标题数据和摘要数据;将所述问题数据和所述多条答案数据编码为与所述问题数据对应的问题特征表示和与所述多条答案数据对应的多个答案特征表示;以所述多个答案特征表示中的特定答案特征表示以外的参考答案特征表示对所述特定答案特征表示中的每个词进行基于注意力机制的评分以获得所述特定答案特征表示的交叉评价分数;计算所述问题特征表示和所述特定答案特征表示之间的相似度分数;以及,基于所述相似度分数和所述交叉评价分数获得所述特定答案特征表示所对应的特定答案数据相对于所述问题数据的相关性分数。
在上述基于交叉注意力神经网络的答案选择方法中,进一步包括:基于与所述问题数据对应的所述多条答案数据中的每条答案数据的相关性分数对所述多条答案数据进行排序。
在上述基于交叉注意力神经网络的答案选择方法中,所述多条答案数据是通过多个搜索引擎获得的所述问题数据的多条候选答案数据。
在上述基于交叉注意力神经网络的答案选择方法中,获取问题数据和与所述问题数据对应的多条答案数据包括:对所述多条候选答案数据中的每条候选答案数据进行文本分词和去除停用词。
在上述基于交叉注意力神经网络的答案选择方法中,将所述问题数据和所述多条答案数据编码为与所述问题数据对应的问题特征表示和与所述多条答案数据对应的多个答案特征表示包括:通过双向长短期记忆层分别处理所述问题数据的词向量表示以获得与所述问题数据对应的问题隐状态序列;以卷积神经网络从所述问题隐状态序列获得所述问题特征表示;以及,对于所述多条答案数据中的每条答案数据:通过双向长短期记忆层分别处理每条答案数据的标题数据和摘要数据的词向量表示以获得与所述标题数据对应的标题隐状态序列和与所述摘要数据对应的摘要隐状态序列;以卷积神经网络分别从所述标题隐状态序列和摘要隐状态序列获得标题特征表示和摘要特征表示;以及,拼接所述标题特征表示和所述摘要特征表示以获得与每条答案数据对应的答案特征表示。
在上述基于交叉注意力神经网络的答案选择方法中,将所述问题数据和所述多条答案数据编码为与所述问题数据对应的问题特征表示和与所述多条答案数据对应的多个答案特征表示进一步包括:将所述问题特征表示在序列长度上进行平均以获得更新向量;以所述更新向量对于所述标题隐状态序列和所述摘要隐状态序列分别进行词级别注意力的更新以获得更新后的标题隐状态序列和摘要隐状态序列;以及,以卷积神经网络分别从所述标题隐状态序列和摘要隐状态序列获得标题特征表示和摘要特征表示包括:以卷积神经网络分别从所述更新后的标题隐状态序列和摘要隐状态序列获得所述标题特征表示和所述摘要特征表示。
在上述基于交叉注意力神经网络的答案选择方法中,以所述多个答案特征表示中的特定答案特征表示以外的参考答案特征表示对所述特定答案特征表示中的每个词进行基于注意力机制的评分以获得所述特定答案特征表示的交叉评价分数包括:对所述问题特征表示和所述参考答案特征表示分别进行最大值池化以获得问题最终表示和参考答案最终表示;计算所述参考答案最终表示中的每个参考答案最终表示与所述问题最终表示之间的余弦相似度分数;基于所述余弦相似度分数对所述参考答案最终表示进行加权求和以获得评分向量;采用注意力机制对所述特定答案特征表示中的每个词进行评分以获得所述特定答案特征表示的每个词对应的初始评分;以及,将对所述初始评分进行归一化获得的所述特定答案特征表示的每个词对应的最终评分的特定数字特征设置为所述特定答案特征表示的交叉评价分数。
在上述基于交叉注意力神经网络的答案选择方法中,将对所述初始评分进行归一化获得的所述特定答案特征表示的每个词对应的最终评分的特定数字特征设置为所述特定答案特征表示的交叉评价分数包括:将对所述初始评分进行归一化获得的所述特定答案特征表示的每个词对应的最终评分中的平均值、最大值和最小值设置为所述特定答案特征表示的交叉评价分数。
在上述基于交叉注意力神经网络的答案选择方法中,以所述多个答案特征表示中的特定答案特征表示以外的参考答案特征表示对所述特定答案特征表示中的每个词进行基于注意力机制的评分以获得所述特定答案特征表示的交叉评价分数进一步包括:确定所述多个答案特征表示的数目是否大于预定阈值;以及,响应于所述多个答案特征表示的数目大于预定阈值,随机采样所述多个答案特征表示中的一部分作为参考答案特征表示。
在上述基于交叉注意力神经网络的答案选择方法中,计算所述问题特征表示和所述特定答案特征表示之间的相似度分数包括:对所述问题特征表示和所述特定答案特征表示进行最大值池化以获得问题最终表示和特定答案最终表示;以及,计算所述问题最终表示和所述特定答案最终表示之间的余弦相似度以获得所述相似度分数。
在上述基于交叉注意力神经网络的答案选择方法中,基于所述相似度分数和所述交叉评价分数获得所述特定答案特征表示所对应的特定答案数据相对于所述问题数据的相关性分数包括:对所述相似度分数、所述交叉评价分数和引入的额外特征进行线性变化以获得所述特定答案特征表示所对应的特定答案数据相对于所述问题数据的相关性分数。
根据本申请的另一方面,提供了一种基于交叉注意力神经网络的答案选择装置,包括:数据获取单元,用于获取问题数据和与所述问题数据对应的多条答案数据,每条答案数据包括标题数据和摘要数据;输入编码单元,用于将所述问题数据和所述多条答案数据编码为与所述问题数据对应的问题特征表示和与所述多条答案数据对应的多个答案特征表示;交叉评分单元,用于以所述多个答案特征表示中的特定答案特征表示以外的参考答案特征表示对所述特定答案特征表示中的每个词进行基于注意力机制的评分以获得所述特定答案特征表示的交叉评价分数;中间评分单元,用于计算所述问题特征表示和所述特定答案特征表示之间的相似度分数;以及,最终评分单元,用于基于所述相似度分数和所述交叉评价分数获得所述特定答案特征表示所对应的特定答案数据相对于所述问题数据的相关性分数。
在上述基于交叉注意力神经网络的答案选择装置中,进一步包括:排序单元,用于基于与所述问题数据对应的所述多条答案数据中的每条答案数据的相关性分数对所述多条答案数据进行排序。
在上述基于交叉注意力神经网络的答案选择装置中,所述多条答案数据是通过多个搜索引擎获得的所述问题数据的多条候选答案数据。
在上述基于交叉注意力神经网络的答案选择装置中,所述数据获取单元用于:对所述多条候选答案数据中的每条候选答案数据进行文本分词和去除停用词。
在上述基于交叉注意力神经网络的答案选择装置中,所述输入编码单元用于:通过双向长短期记忆层分别处理所述问题数据的词向量表示以获得与所述问题数据对应的问题隐状态序列;以卷积神经网络从所述问题隐状态序列获得所述问题特征表示;以及,对于所述多条答案数据中的每条答案数据:通过双向长短期记忆层分别处理每条答案数据的标题数据和摘要数据的词向量表示以获得与所述标题数据对应的标题隐状态序列和与所述摘要数据对应的摘要隐状态序列;以卷积神经网络分别从所述标题隐状态序列和摘要隐状态序列获得标题特征表示和摘要特征表示;以及,拼接所述标题特征表示和所述摘要特征表示以获得与每条答案数据对应的答案特征表示。
在上述基于交叉注意力神经网络的答案选择装置中,所述输入编码单元进一步用于:将所述问题特征表示在序列长度上进行平均以获得更新向量;以所述更新向量对于所述标题隐状态序列和所述摘要隐状态序列分别进行词级别注意力的更新以获得更新后的标题隐状态序列和摘要隐状态序列;以及,所述输入编码单元以卷积神经网络分别从所述标题隐状态序列和摘要隐状态序列获得标题特征表示和摘要特征表示包括:以卷积神经网络分别从所述更新后的标题隐状态序列和摘要隐状态序列获得所述标题特征表示和所述摘要特征表示。
在上述基于交叉注意力神经网络的答案选择装置中,所述交叉评分单元用于:对所述问题特征表示和所述参考答案特征表示分别进行最大值池化以获得问题最终表示和参考答案最终表示;计算所述参考答案最终表示中的每个参考答案最终表示与所述问题最终表示之间的余弦相似度分数;基于所述余弦相似度分数对所述参考答案最终表示进行加权求和以获得评分向量;采用注意力机制对所述特定答案特征表示中的每个词进行评分以获得所述特定答案特征表示的每个词对应的初始评分;以及,将对所述初始评分进行归一化获得的所述特定答案特征表示的每个词对应的最终评分的特定数字特征设置为所述特定答案特征表示的交叉评价分数。
在上述基于交叉注意力神经网络的答案选择装置中,所述交叉评分单元将对所述初始评分进行归一化获得的所述特定答案特征表示的每个词对应的最终评分的特定数字特征设置为所述特定答案特征表示的交叉评价分数包括:将对所述初始评分进行归一化获得的所述特定答案特征表示的每个词对应的最终评分中的平均值、最大值和最小值设置为所述特定答案特征表示的交叉评价分数。
在上述基于交叉注意力神经网络的答案选择装置中,所述交叉评分单元进一步用于:确定所述多个答案特征表示的数目是否大于预定阈值;以及,响应于所述多个答案特征表示的数目大于预定阈值,随机采样所述多个答案特征表示中的一部分作为参考答案特征表示。
在上述基于交叉注意力神经网络的答案选择装置中,所述中间评分单元用于:对所述问题特征表示和所述特定答案特征表示进行最大值池化以获得问题最终表示和特定答案最终表示;以及,计算所述问题最终表示和所述特定答案最终表示之间的余弦相似度以获得所述相似度分数。
在上述基于交叉注意力神经网络的答案选择装置中,所述最终评分单元用于:对所述相似度分数、所述交叉评价分数和引入的额外特征进行线性变化以获得所述特定答案特征表示所对应的特定答案数据相对于所述问题数据的相关性分数。
根据本申请的再一方面,提供了一种电子设备,包括:处理器;以及,存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述基于交叉注意力神经网络的答案选择方法。
根据本申请的又一方面,提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,当所述计算机程序指令被计算装置执行时,可操作来执行如上所述的基于交叉注意力神经网络的答案选择方法。
本申请提供的基于交叉注意力神经网络的答案选择方法、装置和电子设备,可以通过注意力机制利用不同候选答案之间的相互信息进行交叉评分以确定问题数据和答案数据之间的相关性,从而提升答案选择的准确性。
附图说明
从下面结合附图对本发明实施例的详细描述中,本发明的这些和/或其它方面和优点将变得更加清楚并更容易理解,其中:
图1图示了根据本申请实施例的基于交叉注意力神经网络的答案选择方法的流程图。
图2图示了根据本申请实施例的基于交叉注意力神经网络的答案选择方法中的输入编码过程的示意图。
图3图示了根据本申请实施例的基于交叉注意力神经网络的答案选择方法中的交叉评分过程的示意图。
图4图示了根据本申请实施例的基于交叉注意力神经网络的答案选择方法中的示例性交叉评分过程的流程图。
图5图示了根据本申请实施例的基于交叉注意力神经网络的答案选择方法中的层次化输出模型的示意图。
图6图示了根据本申请实施例的基于交叉注意力神经网络的答案选择方法的示意性整体过程的流程图。
图7图示了根据本申请实施例的交叉注意力神经网络架构的示例的示意图。
图8图示了根据本申请实施例的基于交叉注意力神经网络的答案选择装置的框图。
图9图示了根据本申请实施例的电子设备的框图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
申请概述
如上所述,无论是人工智能助手还是网上问答系统,都需要针对特定问题选择与其对应的答案。目前,获取与问题对应的答案主要通过搜索引擎实现,即,通过搜索引擎初步筛选出一系列相关文档,再在搜索引擎返回的搜索结果中寻找正确答案。
但是,在直接使用搜索引擎的过程中,存在两方面的局限,一是搜索引擎最擅长的任务是传统的信息检索类查询,和问答类搜索有一定区别;二是商用搜索引擎的排序算法是个黑盒,并不知道其内部是如何实现的,难以通过简单的方法对多个搜索引擎的结果进行整合和排序。
因此,为了解决上述技术问题,本申请实施例提供了一种基于交叉注意力神经网络的答案选择方法、装置和电子设备,其首先获取问题数据和每条包括标题数据和摘要数据的多条答案数据,并将问题数据和多条答案数据编码为问题特征表示和多个答案特征表示,然后以多个答案特征表示中的参考答案特征表示对特定答案特征表示中的每个词进行基于注意力机制的评分以获得其交叉评价分数,最后计算问题特征表示和特定答案特征表示之间的相似度分数,并基于相似度分数和交叉评价分数获得特定答案特征表示所对应的特定答案数据相对于问题数据的相关性分数。这样,可以通过注意力机制利用不同候选答案之间的相互信息进行交叉评分以确定问题数据和答案数据之间的相关性,从而提升答案选择的准确性。
因此,本申请实施例提供的基于交叉注意力神经网络的答案选择方法、装置和电子设备可以更好地利用搜索引擎的信息,也就是说,可以有效地整合搜索引擎的结果并且根据问答类任务的特点对搜索结果进行评分,以使得分数较高的检索结果反映用户想要的答案。
这里,本领域技术人员可以理解,根据本申请实施例的基于交叉注意力神经网络的答案选择方法、装置和电子设备可以用于通过计算与问题对应的多条候选答案的相关性分数来选择答案,而不仅限于利用由搜索引擎给出的候选答案排序信息。此外,根据本申请实施例的基于交叉注意力神经网络的答案选择方法、装置和电子设备也可以应用于除人工智能助手和网上问答系统以外的需要选择与问题相关的答案的场景。
在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。
示例性方法
图1图示了根据本申请实施例的基于交叉注意力神经网络的答案选择方法的流程图。
如图1所示,根据本申请实施例的基于交叉注意力神经网络的答案选择方法包括:S110,获取问题数据和与所述问题数据对应的多条答案数据,每条答案数据包括标题数据和摘要数据;S120,将所述问题数据和所述多条答案数据编码为与所述问题数据对应的问题特征表示和与所述多条答案数据对应的多个答案特征表示;S130,以所述多个答案特征表示中的特定答案特征表示以外的参考答案特征表示对所述特定答案特征表示中的每个词进行基于注意力机制的评分以获得所述特定答案特征表示的交叉评价分数;S140,计算所述问题特征表示和所述特定答案特征表示之间的相似度分数;以及S150,基于所述相似度分数和所述交叉评价分数获得所述特定答案特征表示所对应的特定答案数据相对于所述问题数据的相关性分数。
在步骤S110中,获取问题数据和与所述问题数据对应的多条答案数据,每条答案数据包括标题数据和摘要数据。在根据本申请实施例的基于交叉注意力神经网络的答案选择方法中,将深度神经网络模型扩展为可以处理问题、标题和摘要三段文本,从而提高答案选择的准确性。
这里,如上所述,所述多条答案数据可以是与问题对应的候选答案的集合,即,与单条问题对应的多条答案。并且,这多条答案可以是通过不同搜索引擎针对问题进行搜索获得的。
因此,在根据本申请实施例的基于交叉注意力神经网络的答案选择方法中,所述多条答案数据是通过多个搜索引擎获得的所述问题数据的多条候选答案数据。
此外,在得到候选答案集合之后,可以对所述多条答案数据进行预处理,例如,可以包括进行文本分词和去除停用词两个步骤。
也就是,在根据本申请实施例的基于交叉注意力神经网络的答案选择方法中,获取问题数据和与所述问题数据对应的多条答案数据包括:对所述多条候选答案数据中的每条候选答案数据进行文本分词和去除停用词。
在步骤S120中,将所述问题数据和所述多条答案数据编码为与所述问题数据对应的问题特征表示和与所述多条答案数据对应的多个答案特征表示。
图2图示了根据本申请实施例的基于交叉注意力神经网络的答案选择方法中的输入编码过程的示意图。如图2所示,针对获得的问题数据q,标题数据h和摘要数据c,首先通过双向长短期记忆(Long-Short Term Memory:LSTM)层处理所述问题数据、标题数据和摘要数据的词向量表示以获得与所述问题数据对应的问题隐状态序列、与所述标题数据对应的标题隐状态序列和与所述摘要数据对应的摘要隐状态序列。
这里,本领域技术人员可以理解,在完成自然语言处理的相关任务时,首先,需要将自然语言转化为计算设备能够识别的语言,即数学符号,其中该数学符号通常为向量。换言之,在获取问题数据、标题数据和摘要数据之后,需将这些数据转化为机器能够识别的表示。
特别地,在本申请实施例中,可以通过词嵌入方法对所述数据进行词向量转化,以获得所述数据的词向量表示,其中,词向量是词语的连续、稠密、低维度的分布表示。词嵌入方法(Word Embedding Method)是将自然语言词语数学化的一种方法,其指的是将自然语言中的每一个词映射到多维空间,并表示为一个多维向量。这种词语表示方法通过训练将词语映射到一个K维实数向量(一般K可取50、100等)其中,每个词即为K维向量空间中的一点,词语之间的距离(如欧式距离、Cosine距离)代表词语之间的语义相似度。例如,在本申请实施例中,可以将提前训练好的100维度(K=100)的Glove词向量作为所述问题数据、所述标题数据和所述摘要数据的词向量表示,并且,在模型训练过程中,根据训练任务自动更新词向量。
在将所述问题数据、标题数据和摘要数据转换为词向量之后,以双向LSTM层生成与其对应的隐状态序列。这里,双向长短期记忆层(双向LSTM层)是在单向LSTM网络的基础上发展而来,其包括两个方向相反的LSTM神经网络层,分别为前向LSTM(forward LSTM)层和后向LSTM(backward LSTM)层。其中,前向LSTM层可利用文本序列中每个词完整的未来上下文信息,后向LSTM层可利用文本序列中每个词完整的过去上下文信息。也就是说,前向LSTM层从前向后进行处理,而后向LSTM层从后向前进行处理。每一时刻,两个长短期记忆模型的结果被拼接在一起作为这一时刻的整体输出。
本领域技术人员可以理解,LSTM是一种特殊的RNN,相较于RNN能更好地解决较长的句子,同时在短句子上也有不输RNN的表现。而RNN是一种“自循环”的神经网络,常用于各种自然语言处理任务,其基本的神经网络单元跟传统的神经网络单元一样,能够根据输入给出对应的输出,而“自循环”能够保证在序列信息能一步一步地传递到下一个神经网络单元。其“自循环”的形式也可以看作是将同一个神经网络单元复制n次,在迭代过程中每一个神经网络单元都把信息传递到下一个单元。
对于转换为词向量形式的输入文本{x1,x2,…,xn},以t时刻的输入xt为例,长短期记忆模型通过如下的方式计算输出:
ot=σ(Wo·[ht-1;xt]+bo)
ht=ot·tanh(ct)
最后一个时刻的输出被作为整个序列的表示。也就是说,前向LSTM层输出的隐状态为:[fh1,fh2,...fht],类似地,后向LSTM层输出的隐状态为:[bh1,bh2,...bht]。将每个时刻两个方向的隐状态进行连接后即可得到双向LSTM的输出:[h1,h2...ht]=[(fh1,bh1),(fh2,bh2)...(fht,bht)]。例如,以问题数据为例,令和分别表示前向长短期记忆模型和后向长短期记忆模型对问题q在t时刻的输出,则双向长短期记忆模型在时刻t的输出
值得一提的是,在本申请实施例中,所述前向LSTM层和所述后向LSTM层的隐含层之间没有信息流,即,所述前向LSTM层和所述后向LSTM层之间没有数据流动,这保证所述双向LSTM层的展开图是非循环的。同时,本领域技术人员可以理解,双向LSTM层可以有效地避免梯度消失和梯度爆炸,从而通过所述双向LSTM层可以更好地处理文本数据长依赖问题,也就是说,在本申请实施例中,通过所述双向LSTM层可更好地处理所述文本数据的长依赖问题,以进一步地提升分类效果。
继续参考图2,在获得所述问题隐状态序列、标题隐状态序列和摘要隐状态序列之后,以卷积神经网络分别从所述问题隐状态序列、标题隐状态序列和摘要隐状态序列获得问题特征表示、标题特征表示和摘要特征表示。
在卷积神经网络中,卷积层的参数由一系列小的卷积核构成,同一个卷积核在输入上移动,计算卷积核与对应位置的点积作为输出,在数学上这种操作称作离散卷积。具体地,对于一维的输入{h1,h2,…,hn},卷积层在第i位的输出为:
其中W={Wi}是卷积核,卷积核大小为2L+1,L为输入向量的序列长度。直观地说,这些卷积核在训练过程中会对于一些特定的信号产生响应,因此可以提取出输入中不同的局部所包含的特定特征信号。
对于标题隐状态序列和摘要隐状态序列,在通过卷积层之后分别得到了两组向量,分别包含lh,lc个长度为NF的向量,lh和lc分别为标题和摘要的序列长度。这样,将这两部分拼接在一起构成一组lh+lc个向量,就可以获得与答案数据对应的答案特征表示,如下式所示:
ua=[uh;uc]
因此,在根据本申请实施例的基于交叉注意力神经网络的答案选择方法中,将所述问题数据和所述多条答案数据编码为与所述问题数据对应的问题特征表示和与所述多条答案数据对应的多个答案特征表示包括:通过双向长短期记忆层分别处理所述问题数据的词向量表示以获得与所述问题数据对应的问题隐状态序列;以卷积神经网络从所述问题隐状态序列获得所述问题特征表示;以及,对于所述多条答案数据中的每条答案数据:通过双向长短期记忆层分别处理每条答案数据的标题数据和摘要数据的词向量表示以获得与所述标题数据对应的标题隐状态序列和与所述摘要数据对应的摘要隐状态序列;以卷积神经网络分别从所述标题隐状态序列和摘要隐状态序列获得标题特征表示和摘要特征表示;以及,拼接所述标题特征表示和所述摘要特征表示以获得与每条答案数据对应的答案特征表示。
并且,在根据本申请实施例的基于交叉注意力神经网络的答案选择方法中,为了提高答案选择的准确性,可以基于问题数据进一步对答案数据进行基于注意力机制的更新。
也就是说,问题数据通过双向LSTM模型的输出可以直接作为卷积层的输入,而对于答案数据中的标题和摘要部分,首先使用词级别注意力机制进行更新之后再输入卷积层。
对于问题数据,假定卷积层的输出问题特征表示为:
并且,在序列长度L上平均之后表示为:
其中,NF表示卷积层中卷积核的个数。接下来,使用该向量cq对标题和摘要的隐状态序列同时进行基于词级别注意力的更新。以标题的隐状态序列表示hh,t为例,在t时刻,更新之后的向量表示由以下公式得到:
mh,t=tanh(W1hh,t+W2cq)
sh,t∝exp(wTmh,t)
其中,W1,W2,w是待训练的网络参数。
因此,在根据本申请实施例的基于交叉注意力神经网络的答案选择方法中,将所述问题数据和所述多条答案数据编码为与所述问题数据对应的问题特征表示和与所述多条答案数据对应的多个答案特征表示进一步包括:将所述问题特征表示在序列长度上进行平均以获得更新向量;以所述更新向量对于所述标题隐状态序列和所述摘要隐状态序列分别进行词级别注意力的更新以获得更新后的标题隐状态序列和摘要隐状态序列;以及,以卷积神经网络分别从所述标题隐状态序列和摘要隐状态序列获得标题特征表示和摘要特征表示包括:以卷积神经网络分别从所述更新后的标题隐状态序列和摘要隐状态序列获得所述标题特征表示和所述摘要特征表示。
在步骤S130中,以所述多个答案特征表示中的特定答案特征表示以外的参考答案特征表示对所述特定答案特征表示中的每个词进行基于注意力机制的评分以获得所述特定答案特征表示的交叉评价分数。
图3图示了根据本申请实施例的基于交叉注意力神经网络的答案选择方法中的交叉评分过程的示意图。如图3所示,该过程实质上是通过计算其他候选答案对选定的候选答案中每个词的认可程度,来发现每个词和问题的相关程度。该过程采用的计算方法是首先用一个向量来表示其他候选答案,再使用注意力机制的方法计算当前选定的候选答案中各个词的注意力分数,最后从这些分数中提取数字特征作为输出。
首先,通过上述的输入编码过程,对于同属于问题q的多个不包含当前候选答案(h,c)的其他候选答案{(h1,c1),…,(hK,cK)}进行编码,得到其他候选答案的答案特征表示例如,可以将当前候选答案(h,c)的答案特征表示称为特定答案特征表示,而将其他候选答案{(h1,c1),…,(hK,cK)}的答案特征表示称为参考答案特征表示。
接下来,对问题特征表示和参考答案特征表示进行池化操作。对于问题部分在卷积层之后得到的一组向量,在长度这一维度上求最大值,进行最大值池化,可以得到一个长度为NF的向量作为问题最终表示oq。而对于参考答案特征表示,类似于以上的池化操作,对于每个参考答案特征表示的标题和摘要两个部分,首先将这两部分拼接在一起构成一组lh+lc个向量,再进行最大值池化操作,得到一个长度为NF的向量作为对每条答案的标题和摘要整体的参考答案最终表示oa。因此,多个参考答案特征表示的池化操作的结果为
对于不同的候选答案,对当前选定的候选答案打分时可以占据不同的权重,而这里设置这个权重为不同候选答案与问题的相关性。相关性pk可以采用余弦相似度计算如下:
接下来,利用余弦相似度pk对不同候选答案的参考答案最终表示的向量进行加权求和,计算评分向量:
这个评分向量可以看作是对与参考答案最终表示对应的参考答案的集合的整体表示。
接下来,采用注意力机制让参考答案的集合对当前特定候选答案中的每一个词打分,来判断当前特定候选答案中的每一个词对结果可能的贡献。对于第i个词,其分数为:
其中表示卷积层之后第i个词的向量表示,Ws,Wa和v是待训练的网络参数,然后,对该分数进行归一化,例如,利用Softmax激活函数进行归一化:
最后,将可以获得的所有si的部分数字特征,例如,平均值、最大值、最小值三个统计量提取出来,以作为该交叉评分过程的输出特征。
因此,在根据本申请实施例的基于交叉注意力神经网络的答案选择方法中,以所述多个答案特征表示中的特定答案特征表示以外的参考答案特征表示对所述特定答案特征表示中的每个词进行基于注意力机制的评分以获得所述特定答案特征表示的交叉评价分数包括:对所述问题特征表示和所述参考答案特征表示分别进行最大值池化以获得问题最终表示和参考答案最终表示;计算所述参考答案最终表示中的每个参考答案最终表示与所述问题最终表示之间的余弦相似度分数;基于所述余弦相似度分数对所述参考答案最终表示进行加权求和以获得评分向量;采用注意力机制对所述特定答案特征表示中的每个词进行评分以获得所述特定答案特征表示的每个词对应的初始评分;以及,将对所述初始评分进行归一化获得的所述特定答案特征表示的每个词对应的最终评分的特定数字特征设置为所述特定答案特征表示的交叉评价分数。
并且,在如上所述的基于交叉注意力神经网络的答案选择方法中,将对所述初始评分进行归一化获得的所述特定答案特征表示的每个词对应的最终评分的特定数字特征设置为所述特定答案特征表示的交叉评价分数包括:将对所述初始评分进行归一化获得的所述特定答案特征表示的每个词对应的最终评分中的平均值、最大值和最小值设置为所述特定答案特征表示的交叉评价分数。
这里,本领域技术人员可以理解,在获取答案数据的过程中,例如,在实际的搜索过程中,所获得的其他搜索结果的数量可能会很大,如果采用所有结果进行计算则开销较大。因此,为了提高算法速度,可以在其他答案数据的数据超过某个阈值时,随机采样与全部候选答案数据对应的答案特征表示中选定的特定答案特征表示以外的部分答案特征表示作为参考答案特征表示。
当然,本领域技术人员也可以理解,如果获取的答案数据的数目过大,也可以直接在获取全部答案数据之后,随机采样出部分答案数据,例如,全部搜索结果中的部分搜索结果来应用根据本申请实施例的基于交叉注意力神经网络的答案选择方法。这里,所选取的部分答案数据可以构成对当前选定的需要评分的答案数据的支撑集合。
因此,在根据本申请实施例的基于交叉注意力神经网络的答案选择方法中,以所述多个答案特征表示中的特定答案特征表示以外的参考答案特征表示对所述特定答案特征表示中的每个词进行基于注意力机制的评分以获得所述特定答案特征表示的交叉评价分数进一步包括:确定所述多个答案特征表示的数目是否大于预定阈值;以及,响应于所述多个答案特征表示的数目大于预定阈值,随机采样所述多个答案特征表示中的一部分作为参考答案特征表示。
图4图示了根据本申请实施例的基于交叉注意力神经网络的答案选择方法中的示例性交叉评分过程的流程图。如图4所示,所述示例性交叉评分过程包括:S210,确定所述多个答案特征表示的数目是否大于预定阈值;S220,响应于所述多个答案特征表示的数目大于预定阈值,随机采样所述多个答案特征表示中的一部分作为参考答案特征表示;S230,对所述问题特征表示和所述参考答案特征表示分别进行最大值池化以获得问题最终表示和参考答案最终表示;S240,计算所述参考答案最终表示中的每个参考答案最终表示与所述问题最终表示之间的余弦相似度分数;S250,基于所述余弦相似度分数对所述参考答案最终表示进行加权求和以获得评分向量;S260,采用注意力机制对所述特定答案特征表示中的每个词进行评分以获得所述特定答案特征表示的每个词对应的初始评分;S270,对所述初始评分进行归一化以获得所述特定答案特征表示的每个词对应的最终评分;以及S280,从所述最终评分中提取特定数字特征以作为所述特定答案特征表示的交叉评价分数。
在步骤S140中,计算所述问题特征表示和所述特定答案特征表示之间的相似度分数。
具体地,首先对所述问题特征表示uq和所述特定答案特征表示ua进行最大值池化:
oq=MaxPool(uq)
oa=MaxPool(ua)
然后计算两者之间的余弦相似度:
这里,本领域技术人员可以理解,所述问题特征表示和所述特定答案特征表示之间的相似度也可以利用其它参数表示,本申请实施例并不意在对此进行任何限制。
因此,在根据本申请实施例的基于交叉注意力神经网络的答案选择方法中,计算所述问题特征表示和所述特定答案特征表示之间的相似度分数包括:对所述问题特征表示和所述特定答案特征表示进行最大值池化以获得问题最终表示和特定答案最终表示;以及,计算所述问题最终表示和所述特定答案最终表示之间的余弦相似度以获得所述相似度分数。
在步骤S150中,基于所述相似度分数和所述交叉评价分数获得所述特定答案特征表示所对应的特定答案数据相对于所述问题数据的相关性分数。
例如,将如上所述获得的余弦相似度与其他需要引入的特征一起通过线性变换,得到输出的分数:
s=Wo.[simq,a;means;maxs;mins;afeat]
其中,means,maxs,mins分别表示交叉评分过程中不同词的分数的平均值、最大值和最小值。afeat表示额外引入的特征。
例如,额外引入的特征可以是附加的词重叠特征。具体地,可以引入四个数字作为词重叠特征,包括问题与标题、摘要的词重叠两组,每组分别采用直接计数的方式和词频-逆文档频率(TF-IDF)加权的方式进行计算。
因此,在根据本申请实施例的基于交叉注意力神经网络的答案选择方法中,基于所述相似度分数和所述交叉评价分数获得所述特定答案特征表示所对应的特定答案数据相对于所述问题数据的相关性分数包括:对所述相似度分数、所述交叉评价分数和引入的额外特征进行线性变化以获得所述特定答案特征表示所对应的特定答案数据相对于所述问题数据的相关性分数。
这里,在根据本申请实施例的基于交叉注意力神经网络的答案选择方法中,首先获得选定的答案数据与问题数据的相似度分数,再与基于利用注意力机制的交叉评分过程获得的来自其他候选答案的评分特征结合,这个过程可以被称为层次化输出过程。图5图示了根据本申请实施例的基于交叉注意力神经网络的答案选择方法中的层次化输出模型的示意图。如图5所示,所述层次化输出模型用于整合来自多个模块的不同特征,以实现准确的答案预测输出。
在获得了问题数据和答案数据的相关性分数之后,就可以基于对应于同一问题的多条答案的相关性分数对答案进行排序,从而使得排在前面的答案是用户想要的答案。
也就是,在根据本申请实施例的基于交叉注意力神经网络的答案选择方法中,进一步包括:基于与所述问题数据对应的多条答案数据的多个分数对所述多条答案数据进行排序。
图6图示了根据本申请实施例的基于交叉注意力神经网络的答案选择方法的示意性整体过程的流程图。如图6所示,在步骤S310,针对一个输入问题q,在多个搜索引擎中检索问题以得到候选答案集合{ai}。在步骤S320,针对获得的候选答案集合{ai}进行预处理,包括进行中文文本分词和去除停用词两个步骤,以获得针对每个候选答案ai(包括标题hh和摘要hc)的二元组(q,ai)。在步骤S330,使用如上所述的交叉注意力神经网络模型,对每个候选答案计算与问题之间的相关性分数si,使得任意两个候选答案间可以通过分数大小进行排序。最后,在步骤S340,根据步骤S330计算的相关性分数si将候选答案的结果集合排序并输出。
图7图示了根据本申请实施例的交叉注意力神经网络架构的示例的示意图。如图7所示,所述交叉注意力神经网络利用深度学习技术,设计了一个基于长短期记忆网络、卷积神经网络和注意力机制的深度神经网络模型。其中,基于长短期记忆网络与卷积神经网络的输入编码模块对输入文本进行编码,用于挖掘问题和答案数据中的深层语义信息,且交叉评分模块通过注意力机制发现问题与候选答案间的相关性特征,引入同一问题的其他候选答案以利用不同候选答案间的相互信息,最后利用层次化输出模块整合来自多个模块的特征,以度量问题和答案之间的相似度。
这里,本领域技术人员可以理解,上述交叉注意力神经网络架构可以使用例如python 3.6.3的编程语言实现,并利用诸如PyTorch 0.3.1、NumPy 1.13.3、BeautifulSoup4.6.0、THULAC等第三方库,在Linux、Windows、Mac等系统上运行。通过加载已预训练完成的模型,可以完成对问题相关的搜索结果进行爬取、预处理、排序输出一系列任务。
示例性装置
图8图示了根据本申请实施例的基于交叉注意力神经网络的答案选择装置的示意性框图。
如图8所示,根据本申请实施例的基于交叉注意力神经网络的答案选择装置400包括:数据获取单元410,用于获取问题数据和与所述问题数据对应的多条答案数据,每条答案数据包括标题数据和摘要数据;输入编码单元420,用于将所述问题数据和所述多条答案数据编码为与所述问题数据对应的问题特征表示和与所述多条答案数据对应的多个答案特征表示;交叉评分单元430,用于以所述多个答案特征表示中的特定答案特征表示以外的参考答案特征表示对所述特定答案特征表示中的每个词进行基于注意力机制的评分以获得所述特定答案特征表示的交叉评价分数;中间评分单元440,用于计算所述问题特征表示和所述特定答案特征表示之间的相似度分数;以及,最终评分单元450,用于基于所述相似度分数和所述交叉评价分数获得所述特定答案特征表示所对应的特定答案数据相对于所述问题数据的相关性分数。
在一个示例中,在上述基于交叉注意力神经网络的答案选择装置400中,进一步包括:排序单元,用于基于与所述问题数据对应的所述多条答案数据中的每条答案数据的相关性分数对所述多条答案数据进行排序。
在一个示例中,在上述基于交叉注意力神经网络的答案选择装置400中,所述多条答案数据是通过多个搜索引擎获得的所述问题数据的多条候选答案数据。
在一个示例中,在上述基于交叉注意力神经网络的答案选择装置400中,所述数据获取单元410用于:对所述多条候选答案数据中的每条候选答案数据进行文本分词和去除停用词。
在一个示例中,在上述基于交叉注意力神经网络的答案选择装置400中,所述输入编码单元420用于:通过双向长短期记忆层分别处理所述问题数据的词向量表示以获得与所述问题数据对应的问题隐状态序列;以卷积神经网络从所述问题隐状态序列获得所述问题特征表示;以及,对于所述多条答案数据中的每条答案数据:通过双向长短期记忆层分别处理每条答案数据的标题数据和摘要数据的词向量表示以获得与所述标题数据对应的标题隐状态序列和与所述摘要数据对应的摘要隐状态序列;以卷积神经网络分别从所述标题隐状态序列和摘要隐状态序列获得标题特征表示和摘要特征表示;以及,拼接所述标题特征表示和所述摘要特征表示以获得与每条答案数据对应的答案特征表示。
在一个示例中,在上述基于交叉注意力神经网络的答案选择装置400中,所述输入编码单元420进一步用于:将所述问题特征表示在序列长度上进行平均以获得更新向量;以所述更新向量对于所述标题隐状态序列和所述摘要隐状态序列分别进行词级别注意力的更新以获得更新后的标题隐状态序列和摘要隐状态序列;以及,所述输入编码单元以卷积神经网络分别从所述标题隐状态序列和摘要隐状态序列获得标题特征表示和摘要特征表示包括:以卷积神经网络分别从所述更新后的标题隐状态序列和摘要隐状态序列获得所述标题特征表示和所述摘要特征表示。
在一个示例中,在上述基于交叉注意力神经网络的答案选择装置400中,所述交叉评分单元430用于:对所述问题特征表示和所述参考答案特征表示分别进行最大值池化以获得问题最终表示和参考答案最终表示;计算所述参考答案最终表示中的每个参考答案最终表示与所述问题最终表示之间的余弦相似度分数;基于所述余弦相似度分数对所述参考答案最终表示进行加权求和以获得评分向量;采用注意力机制对所述特定答案特征表示中的每个词进行评分以获得所述特定答案特征表示的每个词对应的初始评分;以及,将对所述初始评分进行归一化获得的所述特定答案特征表示的每个词对应的最终评分的特定数字特征设置为所述特定答案特征表示的交叉评价分数。
在一个示例中,在上述基于交叉注意力神经网络的答案选择装置400中,所述交叉评分单元430将对所述初始评分进行归一化获得的所述特定答案特征表示的每个词对应的最终评分的特定数字特征设置为所述特定答案特征表示的交叉评价分数包括:将对所述初始评分进行归一化获得的所述特定答案特征表示的每个词对应的最终评分中的平均值、最大值和最小值设置为所述特定答案特征表示的交叉评价分数。
在一个示例中,在上述基于交叉注意力神经网络的答案选择装置400中,所述交叉评分单元430进一步用于:确定所述多个答案特征表示的数目是否大于预定阈值;以及,响应于所述多个答案特征表示的数目大于预定阈值,随机采样所述多个答案特征表示中的一部分作为参考答案特征表示。
在一个示例中,在上述基于交叉注意力神经网络的答案选择装置400中,所述中间评分单元440用于:对所述问题特征表示和所述特定答案特征表示进行最大值池化以获得问题最终表示和特定答案最终表示;以及,计算所述问题最终表示和所述特定答案最终表示之间的余弦相似度以获得所述相似度分数。
在一个示例中,在上述基于交叉注意力神经网络的答案选择装置400中,所述最终评分单元450用于:对所述相似度分数、所述交叉评价分数和引入的额外特征进行线性变化以获得所述特定答案特征表示所对应的特定答案数据相对于所述问题数据的相关性分数。
这里,本领域技术人员可以理解,上述基于交叉注意力神经网络的答案选择装置400中的各个单元和模块的具体功能和操作已经在上面参考图1到图7描述的基于交叉注意力神经网络的答案选择方法中详细介绍,并因此,将省略其重复描述。
如上所述,根据本申请实施例的基于交叉注意力神经网络的答案选择装置400可以实现在各种终端设备中,例如用于运行问答系统的服务器,安装作为人工智能助手应用的硬件设备等。在一个示例中,根据本申请实施例的装置400可以作为一个软件模块和/或硬件模块而集成到所述终端设备中。例如,该装置400可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该装置400同样可以是该终端设备的众多硬件模块之一。
可替换地,在另一示例中,该基于交叉注意力神经网络的答案选择装置400与该终端设备也可以是分立的设备,并且该装置400可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。
示例性电子设备
下面,参考图9来描述根据本申请实施例的电子设备。
图9图示了根据本申请实施例的电子设备的框图。
如图9所示,电子设备10包括一个或多个处理器11和存储器12。
处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。
存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本申请的各个实施例的基于交叉注意力神经网络的答案选择方法的功能。在所述计算机可读存储介质中还可以存储诸如问题数据,候选答案数据等各种内容。
在一个示例中,电子设备10还可以包括:输入装置13和输出装置14,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
例如,该输入装置13可以是例如键盘、鼠标等等。
该输出装置14可以向外部输出各种信息,包括所述候选答案数据的排序结果等。该输出设备14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图9中仅示出了该电子设备10中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备10还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的基于交叉注意力神经网络的答案选择方法中的步骤。例如,所述计算机程序指令可以基于Linux操作系统,在PyTorch平台的基础上利用Python编写实现。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的基于交叉注意力神经网络的答案选择方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (10)
1.一种基于交叉注意力神经网络的答案选择方法,包括:
获取问题数据和与所述问题数据对应的多条答案数据,每条答案数据包括标题数据和摘要数据;
将所述问题数据和所述多条答案数据编码为与所述问题数据对应的问题特征表示和与所述多条答案数据对应的多个答案特征表示;
以所述多个答案特征表示中的特定答案特征表示以外的参考答案特征表示对所述特定答案特征表示中的每个词进行基于注意力机制的评分以获得所述特定答案特征表示的交叉评价分数;
计算所述问题特征表示和所述特定答案特征表示之间的相似度分数;以及
基于所述相似度分数和所述交叉评价分数获得所述特定答案特征表示所对应的特定答案数据相对于所述问题数据的相关性分数。
2.如权利要求1所述的基于交叉注意力神经网络的答案选择方法,进一步包括:
基于与所述问题数据对应的所述多条答案数据中的每条答案数据的相关性分数对所述多条答案数据进行排序。
3.如权利要求2所述的基于交叉注意力神经网络的答案选择方法,其中,所述多条答案数据是通过多个搜索引擎获得的所述问题数据的多条候选答案数据。
4.如权利要求3所述的基于交叉注意力神经网络的答案选择方法,其中,获取问题数据和与所述问题数据对应的多条答案数据包括:
对所述多条候选答案数据中的每条候选答案数据进行文本分词和去除停用词。
5.如权利要求1所述的基于交叉注意力神经网络的答案选择方法,其中,将所述问题数据和所述多条答案数据编码为与所述问题数据对应的问题特征表示和与所述多条答案数据对应的多个答案特征表示包括:
通过双向长短期记忆层分别处理所述问题数据的词向量表示以获得与所述问题数据对应的问题隐状态序列;
以卷积神经网络从所述问题隐状态序列获得所述问题特征表示;以及
对于所述多条答案数据中的每条答案数据:
通过双向长短期记忆层分别处理每条答案数据的标题数据和摘要数据的词向量表示以获得与所述标题数据对应的标题隐状态序列和与所述摘要数据对应的摘要隐状态序列;
以卷积神经网络分别从所述标题隐状态序列和摘要隐状态序列获得标题特征表示和摘要特征表示;
拼接所述标题特征表示和所述摘要特征表示以获得与每条答案数据对应的答案特征表示。
6.如权利要求5所述的基于交叉注意力神经网络的答案选择方法,其中,
将所述问题数据和所述多条答案数据编码为与所述问题数据对应的问题特征表示和与所述多条答案数据对应的多个答案特征表示进一步包括:
将所述问题特征表示在序列长度上进行平均以获得更新向量;
以所述更新向量对于所述标题隐状态序列和所述摘要隐状态序列分别进行词级别注意力的更新以获得更新后的标题隐状态序列和摘要隐状态序列;以及
以卷积神经网络分别从所述标题隐状态序列和摘要隐状态序列获得标题特征表示和摘要特征表示包括:
以卷积神经网络分别从所述更新后的标题隐状态序列和摘要隐状态序列获得所述标题特征表示和所述摘要特征表示。
7.如权利要求1所述的基于交叉注意力神经网络的答案选择方法,其中,以所述多个答案特征表示中的特定答案特征表示以外的参考答案特征表示对所述特定答案特征表示中的每个词进行基于注意力机制的评分以获得所述特定答案特征表示的交叉评价分数包括:
对所述问题特征表示和所述参考答案特征表示分别进行最大值池化以获得问题最终表示和参考答案最终表示;
计算所述参考答案最终表示中的每个参考答案最终表示与所述问题最终表示之间的余弦相似度分数;
基于所述余弦相似度分数对所述参考答案最终表示进行加权求和以获得评分向量;
采用注意力机制对所述特定答案特征表示中的每个词进行评分以获得所述特定答案特征表示的每个词对应的初始评分;以及
将对所述初始评分进行归一化获得的所述特定答案特征表示的每个词对应的最终评分的特定数字特征设置为所述特定答案特征表示的交叉评价分数。
8.一种基于交叉注意力神经网络的答案选择装置,包括:
数据获取单元,用于获取问题数据和与所述问题数据对应的多条答案数据,每条答案数据包括标题数据和摘要数据;
输入编码单元,用于将所述问题数据和所述多条答案数据编码为与所述问题数据对应的问题特征表示和与所述多条答案数据对应的多个答案特征表示;
交叉评分单元,用于以所述多个答案特征表示中的特定答案特征表示以外的参考答案特征表示对所述特定答案特征表示中的每个词进行基于注意力机制的评分以获得所述特定答案特征表示的交叉评价分数;
中间评分单元,用于计算所述问题特征表示和所述特定答案特征表示之间的相似度分数;以及
最终评分单元,用于基于所述相似度分数和所述交叉评价分数获得所述特定答案特征表示所对应的特定答案数据相对于所述问题数据的相关性分数。
9.一种电子设备,包括:
处理器;以及
存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求1-7中任一项所述的基于交叉注意力神经网络的答案选择方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,当所述计算机程序指令被计算装置执行时,可操作来执行如权利要求1-7中任一项所述的基于交叉注意力神经网络的答案选择方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810742706.3A CN108875074B (zh) | 2018-07-09 | 2018-07-09 | 基于交叉注意力神经网络的答案选择方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810742706.3A CN108875074B (zh) | 2018-07-09 | 2018-07-09 | 基于交叉注意力神经网络的答案选择方法、装置和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108875074A true CN108875074A (zh) | 2018-11-23 |
CN108875074B CN108875074B (zh) | 2021-08-10 |
Family
ID=64299904
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810742706.3A Active CN108875074B (zh) | 2018-07-09 | 2018-07-09 | 基于交叉注意力神经网络的答案选择方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108875074B (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109815484A (zh) * | 2018-12-21 | 2019-05-28 | 平安科技(深圳)有限公司 | 基于交叉注意力机制的语义相似度匹配方法及其匹配装置 |
CN109829055A (zh) * | 2019-02-22 | 2019-05-31 | 苏州大学 | 基于过滤门机制的用户法条预测方法 |
CN109886392A (zh) * | 2019-02-25 | 2019-06-14 | 深圳市商汤科技有限公司 | 数据处理方法和装置、电子设备和存储介质 |
CN110413741A (zh) * | 2019-08-07 | 2019-11-05 | 山东山大鸥玛软件股份有限公司 | 一种面向主观题的智能阅卷方法 |
CN110489730A (zh) * | 2019-08-14 | 2019-11-22 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、终端及存储介质 |
CN110990555A (zh) * | 2020-03-05 | 2020-04-10 | 中邮消费金融有限公司 | 端到端检索式对话方法与系统及计算机设备 |
CN111309875A (zh) * | 2018-12-10 | 2020-06-19 | 百度在线网络技术(北京)有限公司 | 问题应答的方法、装置、设备和存储介质 |
CN111538908A (zh) * | 2020-06-22 | 2020-08-14 | 腾讯科技(深圳)有限公司 | 搜索排序方法、装置、计算机设备和存储介质 |
CN111898379A (zh) * | 2020-08-14 | 2020-11-06 | 苏州思必驰信息科技有限公司 | 槽填充模型训练方法和自然语言理解模型 |
WO2020224099A1 (zh) * | 2019-05-09 | 2020-11-12 | 平安科技(深圳)有限公司 | 智能化情感问答方法、装置及计算机可读存储介质 |
CN112733522A (zh) * | 2019-10-14 | 2021-04-30 | 上海流利说信息技术有限公司 | 一种离题检测方法、装置、设备及可读存储介质 |
CN113011196A (zh) * | 2021-04-28 | 2021-06-22 | 广西师范大学 | 一种概念增强表示与单向蕴含注意力的主观题自动阅卷神经网络模型 |
CN113392321A (zh) * | 2021-06-02 | 2021-09-14 | 北京三快在线科技有限公司 | 一种信息推荐方法、装置、电子设备及存储介质 |
WO2021237934A1 (zh) * | 2020-05-29 | 2021-12-02 | 深圳壹账通智能科技有限公司 | 答案选择方法、装置、计算机设备及计算机可读存储介质 |
US11586838B2 (en) * | 2019-02-21 | 2023-02-21 | Microsoft Technology Licensing, Llc | End-to-end fuzzy entity matching |
WO2023155678A1 (zh) * | 2022-02-17 | 2023-08-24 | 北京沃东天骏信息技术有限公司 | 用于确定信息的方法和装置 |
CN118210910A (zh) * | 2024-05-21 | 2024-06-18 | 北京中科金有限元技术有限公司 | 基于智能培训的ai交互会话处理方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9063975B2 (en) * | 2013-03-15 | 2015-06-23 | International Business Machines Corporation | Results of question and answer systems |
CN107256228A (zh) * | 2017-05-02 | 2017-10-17 | 清华大学 | 基于结构化注意力机制的答案选择系统及方法 |
CN107463609A (zh) * | 2017-06-27 | 2017-12-12 | 浙江大学 | 一种使用分层时空注意力编解码器网络机制解决视频问答的方法 |
CN107967318A (zh) * | 2017-11-23 | 2018-04-27 | 北京师范大学 | 一种采用lstm神经网络的中文短文本主观题自动评分方法和系统 |
CN108052588A (zh) * | 2017-12-11 | 2018-05-18 | 浙江大学城市学院 | 一种基于卷积神经网络的文档自动问答系统的构建方法 |
-
2018
- 2018-07-09 CN CN201810742706.3A patent/CN108875074B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9063975B2 (en) * | 2013-03-15 | 2015-06-23 | International Business Machines Corporation | Results of question and answer systems |
CN107256228A (zh) * | 2017-05-02 | 2017-10-17 | 清华大学 | 基于结构化注意力机制的答案选择系统及方法 |
CN107463609A (zh) * | 2017-06-27 | 2017-12-12 | 浙江大学 | 一种使用分层时空注意力编解码器网络机制解决视频问答的方法 |
CN107967318A (zh) * | 2017-11-23 | 2018-04-27 | 北京师范大学 | 一种采用lstm神经网络的中文短文本主观题自动评分方法和系统 |
CN108052588A (zh) * | 2017-12-11 | 2018-05-18 | 浙江大学城市学院 | 一种基于卷积神经网络的文档自动问答系统的构建方法 |
Non-Patent Citations (2)
Title |
---|
YANG XIANG 等: "Answer Selection in Community Question Answering via Attentive Neural Networks", 《IEEE SIGNAL PROCESSING LETTERS》 * |
相洋: "问答系统的答案优化方法研究", 《中国博士学位论文全文数据库》 * |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111309875B (zh) * | 2018-12-10 | 2023-08-04 | 百度在线网络技术(北京)有限公司 | 问题应答的方法、装置、设备和存储介质 |
CN111309875A (zh) * | 2018-12-10 | 2020-06-19 | 百度在线网络技术(北京)有限公司 | 问题应答的方法、装置、设备和存储介质 |
CN109815484A (zh) * | 2018-12-21 | 2019-05-28 | 平安科技(深圳)有限公司 | 基于交叉注意力机制的语义相似度匹配方法及其匹配装置 |
CN109815484B (zh) * | 2018-12-21 | 2022-03-15 | 平安科技(深圳)有限公司 | 基于交叉注意力机制的语义相似度匹配方法及其匹配装置 |
US11586838B2 (en) * | 2019-02-21 | 2023-02-21 | Microsoft Technology Licensing, Llc | End-to-end fuzzy entity matching |
CN109829055A (zh) * | 2019-02-22 | 2019-05-31 | 苏州大学 | 基于过滤门机制的用户法条预测方法 |
CN109886392A (zh) * | 2019-02-25 | 2019-06-14 | 深圳市商汤科技有限公司 | 数据处理方法和装置、电子设备和存储介质 |
WO2020224099A1 (zh) * | 2019-05-09 | 2020-11-12 | 平安科技(深圳)有限公司 | 智能化情感问答方法、装置及计算机可读存储介质 |
CN110413741A (zh) * | 2019-08-07 | 2019-11-05 | 山东山大鸥玛软件股份有限公司 | 一种面向主观题的智能阅卷方法 |
CN110413741B (zh) * | 2019-08-07 | 2022-04-05 | 山东山大鸥玛软件股份有限公司 | 一种面向主观题的智能阅卷方法 |
CN110489730B (zh) * | 2019-08-14 | 2024-08-09 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、终端及存储介质 |
CN110489730A (zh) * | 2019-08-14 | 2019-11-22 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、终端及存储介质 |
CN112733522A (zh) * | 2019-10-14 | 2021-04-30 | 上海流利说信息技术有限公司 | 一种离题检测方法、装置、设备及可读存储介质 |
CN110990555B (zh) * | 2020-03-05 | 2020-06-12 | 中邮消费金融有限公司 | 端到端检索式对话方法与系统及计算机设备 |
CN110990555A (zh) * | 2020-03-05 | 2020-04-10 | 中邮消费金融有限公司 | 端到端检索式对话方法与系统及计算机设备 |
WO2021237934A1 (zh) * | 2020-05-29 | 2021-12-02 | 深圳壹账通智能科技有限公司 | 答案选择方法、装置、计算机设备及计算机可读存储介质 |
CN111538908B (zh) * | 2020-06-22 | 2020-10-20 | 腾讯科技(深圳)有限公司 | 搜索排序方法、装置、计算机设备和存储介质 |
CN111538908A (zh) * | 2020-06-22 | 2020-08-14 | 腾讯科技(深圳)有限公司 | 搜索排序方法、装置、计算机设备和存储介质 |
CN111898379A (zh) * | 2020-08-14 | 2020-11-06 | 苏州思必驰信息科技有限公司 | 槽填充模型训练方法和自然语言理解模型 |
CN111898379B (zh) * | 2020-08-14 | 2023-08-22 | 思必驰科技股份有限公司 | 槽填充模型训练方法、电子设备及存储介质 |
CN113011196A (zh) * | 2021-04-28 | 2021-06-22 | 广西师范大学 | 一种概念增强表示与单向蕴含注意力的主观题自动阅卷神经网络模型 |
CN113011196B (zh) * | 2021-04-28 | 2023-01-10 | 陕西文都教育科技有限公司 | 一种概念增强表示与单向蕴含注意力的主观题自动阅卷神经网络模型 |
CN113392321A (zh) * | 2021-06-02 | 2021-09-14 | 北京三快在线科技有限公司 | 一种信息推荐方法、装置、电子设备及存储介质 |
WO2023155678A1 (zh) * | 2022-02-17 | 2023-08-24 | 北京沃东天骏信息技术有限公司 | 用于确定信息的方法和装置 |
CN118210910A (zh) * | 2024-05-21 | 2024-06-18 | 北京中科金有限元技术有限公司 | 基于智能培训的ai交互会话处理方法及系统 |
CN118210910B (zh) * | 2024-05-21 | 2024-07-26 | 北京中科金有限元技术有限公司 | 基于智能培训的ai交互会话处理方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108875074B (zh) | 2021-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108875074A (zh) | 基于交叉注意力神经网络的答案选择方法、装置和电子设备 | |
CN110019701B (zh) | 用于问答服务的方法、问答服务系统以及存储介质 | |
CN112487182A (zh) | 文本处理模型的训练方法、文本处理方法及装置 | |
CN109299237B (zh) | 基于行动者评论家强化学习算法的循环网络人机对话方法 | |
CN101470732B (zh) | 一种辅助词库的生成方法和装置 | |
CN109840287A (zh) | 一种基于神经网络的跨模态信息检索方法和装置 | |
CN110083705A (zh) | 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端 | |
CN109033068A (zh) | 基于注意力机制的用于阅读理解的方法、装置和电子设备 | |
CN108959246A (zh) | 基于改进的注意力机制的答案选择方法、装置和电子设备 | |
CN110795913B (zh) | 一种文本编码方法、装置、存储介质及终端 | |
CN109271493A (zh) | 一种语言文本处理方法、装置和存储介质 | |
CN111898374B (zh) | 文本识别方法、装置、存储介质和电子设备 | |
CN110096567A (zh) | 基于qa知识库推理的多轮对话回复选择方法、系统 | |
CN109002519A (zh) | 基于卷积循环神经网络的答案选择方法、装置和电子设备 | |
CN108845990A (zh) | 基于双向注意力机制的答案选择方法、装置和电子设备 | |
CN113505204B (zh) | 召回模型训练方法、搜索召回方法、装置和计算机设备 | |
CN111382573A (zh) | 用于答案质量评估的方法、装置、设备和存储介质 | |
CN108595629A (zh) | 用于答案选择系统的数据处理方法及应用 | |
CN111666376B (zh) | 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置 | |
CN112380319A (zh) | 一种模型训练的方法及相关装置 | |
US20220383119A1 (en) | Granular neural network architecture search over low-level primitives | |
CN113901191A (zh) | 问答模型的训练方法及装置 | |
CN109740158A (zh) | 一种文本语义解析方法及装置 | |
CN116151263B (zh) | 多模态命名实体识别方法、装置、设备以及存储介质 | |
CN112307048B (zh) | 语义匹配模型训练方法、匹配方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: A201, Tonghui building, 1132 Huihe South Street, Gaobeidian, Chaoyang District, Beijing 100124 Patentee after: Beijing Huiwen Technology (Group) Co.,Ltd. Address before: 100000 Room 203, Baolan financial innovation center, No. 137, Xiwai street, Xicheng District, Beijing Patentee before: BEIJING HUIWEN TECHNOLOGY DEVELOPMENT Co.,Ltd. |
|
CP03 | Change of name, title or address |