CN109885671B

CN109885671B - 基于多任务学习的问答方法

Info

Publication number: CN109885671B
Application number: CN201910152570.5A
Authority: CN
Inventors: 李鹏华; 赵芬; 朱智勤; 袁宇鹏; 李小飞
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2019-02-28
Filing date: 2019-02-28
Publication date: 2022-10-14
Anticipated expiration: 2039-02-28
Also published as: CN109885671A

Abstract

本发明涉及一种基于多任务学习的问答方法，属于人工智能领域，包括步骤：S1：为每个任务配备特定于任务的siamese编码器，将预处理后的句子编码为分布式向量表示；S2：利用一个共享的表示学习层在不同的任务之间共享高级信息；S3：特定于任务的softmax层分类，对于第k个任务中的问答对

及其标签

最后的特征表示形式被输入特定于任务的softmax层进行二进制分类；S4：多任务学习：训练多任务学习模型，使交叉熵损失函数最小化。本发明利用从不同角度学习到的多视图注意力，使这些任务能够相互作用，学习更全面的句子表示，多视角注意方案还可以有效地从不同的表征视角收集注意信息，提高表征学习的整体水平。

Description

基于多任务学习的问答方法

技术领域

本发明属于人工智能领域，涉及一种基于多任务学习(multi-task learning,MTL)的问答方法，利用从不同角度学习的注意力同时处理答案选择和知识库问答任务。

背景技术

问答系统是一种重要而又具有挑战性的自然语言处理应用。近年来，深度神经网络在问答任务中的应用取得了许多成功，但是不同的问答任务是单独解决的，为特定任务设计和培训各种模型既费时又费钱。近来，在许多自然语言处理任务中，多任务学习被广泛研究用来同时解决多个相关任务。多任务学习在自然语言处理领域的应用非常广泛，如文本分类、序列标记、文本摘要等。然而，多任务学习在问答系统中的应用却很少受到关注。答案选择和知识库问答是问答系统的两个重要任务。现有的方法分别解决这两个任务，需要大量的重复工作，而忽略任务之间丰富的相关信息。为了实现联合学习这两项任务的目的，本专利提出一种新的多任务学习方案来同时解决答案选择和知识库问答任务，利用从不同角度学习的多视角注意力，使这些任务能够相互交互，学习更全面的句子表示。

发明内容

有鉴于此，本发明的目的在于提供一种基于多任务学习(multi-task learning,MTL)的问答方法，利用从不同角度学习的注意力同时处理答案选择和知识库问答任务。

为达到上述目的，本发明提供如下技术方案：

一种基于多任务学习的问答方法，包括以下步骤：

S1：为每个任务配备特定于任务的siamese编码器，将预处理后的句子编码为分布式向量表示；

S2：利用一个共享的表示学习层在不同的任务之间共享高级信息；

S3：特定于任务的softmax层分类，对于第k个任务中的问答对

及其标签

最后的特征表示形式被输入特定于任务的softmax层进行二进制分类；

S4：多任务学习：训练多任务学习模型，使交叉熵损失函数最小化。

进一步，步骤S1中，每个特定于任务的siamese编码器都包含一个单词编码器和一个知识编码器，用于学习完整的句子表示。

进一步，所述单词编码器使用双向长短期记忆网络Bi-LSTM捕获上下文信息，所述单词编码器的输入为词向量表示序列E_w＝{e_w1,e_w2,…,e_wl}，第l个词的输出用

表示，其中

为前向网络的输出，

为后向网络的输出，给定问题q和答案a的一对序列，为问题和答案生成基于单词的句子表示

即，

其中L和d_h分别表示句子的长度和隐藏单元的大小。

进一步，所述知识编码器的输入为知识向量表示序列E_k＝{e_k1,e_k2,…,e_kl}，所述知识向量表示序列是由一系列符号化的实体或关系名组成的，由于实体长度的不确定性，采用多个不同大小的滤波器得到不同的输出向量{H¹,H²,…,Hⁿ}，其中Hⁱ为第i个滤波器得到的输出向量，全连接层输入这些向量获得知识的句子表示

其中L是句子的长度，d_f是滤波器的总尺寸，根据问题q和答案a，基于知识的句子表示形式为:

进一步，步骤S2中，还包括集成所有任务的编码向量，并通过高级共享SiameseBi-LSTM生成最终的问答表示，即，S_q＝Bi-LSTM(H_q)；S_a＝Bi-LSTM(H_a)，其中，S_q表示基于双向长短期记忆模型的共享表示层的问题输出，H_q表示问句向量表示；同理，S_a表示基于双向长短期记忆模型的共享表示层的答案输出，H_a表示答案向量表示。

进一步，步骤S2中，还包括应用平均池化，对Bi-LSTM的输出应用平均池化操作，s_q＝Average(S_q),s_a＝Average(S_a)，最终特征空间表示为x＝[s_q,s_a,x_ol]。

进一步，步骤S3中，所述二进制分类，包括

其中p^t为预测概率，

和

为隐层中任务特定权重矩阵和偏置向量。

进一步，步骤S4中，所述多任务学习包括

其中，L为交叉熵损失函数，λ_t表示一个决定第t次任务的权重参数,

是问题答案对

的真实标签，

是问题答案对

的预测概率λ_t表示一个决定第t次任务的权重参数,

是问题答案对

的真实标签。

本发明的有益效果在于：本发明提出的多任务学习方案，利用从不同角度学习到的多视图注意力，使这些任务能够相互作用，学习更全面的句子表示，包括单词视图、知识视图、语义视图、知识语义视图和共注意视图。此外，多视角注意方案还可以有效地从不同的表征视角收集注意信息，提高表征学习的整体水平。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明用于答案选择和知识库问答的基于多任务学习的问答网络的总体架构图；

图2为本发明基于特定任务的编码模型。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

一种基于多任务学习方法来同时解决答案选择和知识库问答任务，知识层的知识库问答任务可以改进答案选择任务，单词层的答案选择任务也可以提高知识库问答任务。而且，该方案利用多视图注意机制来联合学习不同的任务，将任务特定层的重要信息集成到共享层，使模型能够交互式地学习单词级和知识级表示。

图1为本发明用于答案选择和知识库问答的基于多任务学习的问答网络的总体架构图，基本的多任务学习模型是一个深度神经网络，它采用分层特定的共享机制，在不同的任务之间共享一些高层信息，剩下的层是并行独立的，可以学习任务特定的低层信息。本发明解决上述问题的技术方案包括以下步骤：

(1)编码预处理的句子为分布式向量表示。由于不同的问答任务在数据分布和底层表示上的不同，为每个任务配备特定于任务的siamese编码器，每个特定于任务的编码器都包含一个单词编码器和一个知识编码器，用于学习完整的句子表示。

(2)利用一个共享的表示学习层在不同的任务之间共享高级信息。在使用特定于任务的编码器将句子编码成向量表示之后，通过一个共享的表示学习层在不同的任务之间共享高级信息。与任务特定编码器层的输入相比，整句表示具有更丰富的语义含义，与其他任务具有更相似的分布。然后集成所有任务的编码向量，并通过高级共享Siamese Bi-LSTM生成最终的问答表示，即，S_q＝Bi-LSTM(H_q)；S_a＝Bi-LSTM(H_a)，其中，S_q表示基于双向长短期记忆模型的共享表示层的问题输出，H_q表示问句向量表示；同理，S_a表示基于双向长短期记忆模型的共享表示层的答案输出，H_a表示答案向量表示。

(3)应用平均池化。对Bi-LSTM的输出应用平均池化操作，s_q＝Average(S_q),s_a＝Average(S_a)。最终特征空间表示为x＝[s_q,s_a,x_ol]。

(4)特定任务的softmax层分类。对于第k个任务中的问答对

及其标签

最后的特征表示形式被输入特定于任务的softmax层进行二进制分类，即，

其中p^t为预测概率，

和

为隐层中任务特定权重矩阵和偏置向量。

(5)多任务学习。训练多任务学习模型，使交叉熵损失函数最小化，即，

是问题答案对

的真实标签，

是问题答案对

的预测概率λ_t表示一个决定第t次任务的权重参数,

是问题答案对

的真实标签。

图2为本发明基于特定任务的编码模型。每个任务配备siamese编码器，每个特定于任务的编码器都包含一个单词编码器和一个知识编码器，用于学习完整的句子表示，如图2所示。单词编码器模块的输入为词向量表示序列E_w＝{e_w1,e_w2,…,e_wl}。该模型使用双向长短期记忆网络(Bidirectional Long Short-Term Memory Networks，Bi-LSTM)捕获上下文信息。第l个词的输出用

表示，其中

为前向网络的输出，

为后向网络的输出。给定问题q和答案a的一对序列，为问题和答案生成基于单词的句子表示

即，

其中L和d_h分别表示句子的长度和隐藏单元的大小。与单词编码器不同，知识向量表示序列E_k＝{e_k1,e_k2,…,e_kl}，知识序列是由一系列符号化的实体或关系名组成。由于实体长度的不确定性，采用多个不同大小的滤波器得到不同的输出向量{H¹,H²,…,Hⁿ}，其中Hⁱ为第i个滤波器得到的输出向量。全连接层输入这些向量获得知识的句子表示

这里L是句子的长度，d_f是滤波器的总尺寸。根据问题q和答案a，基于知识的句子表示形式为:

本发明研究多任务学习方法同时解决答案选择和知识库问答任务，这些任务都可以看作是一个排序问题，一个在文本层面，另一个在知识层面。具体来说，答案选择的任务是从一组候选答案句中挑选出给定问题的正确答案，而知识库问答的任务侧重于从知识库中提取相应的事实，而且答案选择任务可以从知识库的外部知识中获益。本发明提出的多任务学习方案，利用从不同角度学习到的多视图注意力，使这些任务能够相互作用，学习更全面的句子表示，包括单词视图、知识视图、语义视图、知识语义视图和共注意视图。此外，多视角注意方案还可以有效地从不同的表征视角收集注意信息，提高表征学习的整体水平。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于多任务学习的问答方法，其特征在于：包括以下步骤：

S3：特定于任务的softmax层分类，对于第k个任务中的问答对

及其标签

S4：多任务学习：训练多任务学习模型，使交叉熵损失函数最小化；

步骤S1中，每个特定于任务的siamese编码器都包含一个单词编码器和一个知识编码器，用于学习完整的句子表示；

所述单词编码器使用双向长短期记忆网络Bi-LSTM捕获上下文信息，所述单词编码器的输入为词向量表示序列E_w＝{e_w1,e_w2,…,e_wl}，第l个词的输出用

表示，其中

为前向网络的输出，

即，

其中L和d_h分别表示句子的长度和隐藏单元的大小；

所述知识编码器的输入为知识向量表示序列E_k＝{e_k1,e_k2,…,e_kl}，所述知识向量表示序列是由一系列符号化的实体或关系名组成的，由于实体长度的不确定性，采用多个不同大小的滤波器得到不同的输出向量{H¹,H²,…,Hⁿ}，其中H_i为第i个滤波器得到的输出向量，全连接层输入这些向量获得知识的句子表示

2.根据权利要求1所述的基于多任务学习的问答方法，其特征在于：步骤S2中，还包括集成所有任务的编码向量，并通过高级共享Siamese Bi-LSTM生成最终的问答表示，即，S_q＝Bi-LSTM(H_q)；S_a＝Bi-LSTM(H_a)，其中，S_q表示基于双向长短期记忆模型的共享表示层的问题输出，H_q表示问句向量表示；同理，S_a表示基于双向长短期记忆模型的共享表示层的答案输出，H_a表示答案向量表示。

3.根据权利要求1所述的基于多任务学习的问答方法，其特征在于：步骤S2中，还包括应用平均池化，对Bi-LSTM的输出应用平均池化操作，s_q＝Average(S_q),s_a＝Average(S_a)，最终特征空间表示为x＝[s_q,s_a,x_ol]。

4.根据权利要求1所述的基于多任务学习的问答方法，其特征在于：步骤S3中，所述二进制分类，包括

其中p^t为预测概率，

和

为隐层中任务特定权重矩阵和偏置向量。

5.根据权利要求1所述的基于多任务学习的问答方法，其特征在于：步骤S4中，所述多任务学习包括

是问题答案对

的真实标签，

是问题答案对

的预测概率。