CN111737426B

CN111737426B - 问答模型的训练方法、计算机设备以及可读存储介质

Info

Publication number: CN111737426B
Application number: CN202010388307.9A
Authority: CN
Inventors: 黄薇屹; 杨敏; 曲强; 姜青山; 贺倩明
Original assignee: Shenzhen Deli Technology Co ltd; Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Deli Technology Co ltd; Shenzhen Institute of Advanced Technology of CAS
Priority date: 2020-05-09
Filing date: 2020-05-09
Publication date: 2021-06-01
Anticipated expiration: 2040-05-09
Also published as: CN111737426A

Abstract

本申请公开了问答模型的训练方法、计算机设备以及计算机可读存储介质。该问答模型的训练方法包括：建立文本匹配模型和元学习模型，文本匹配模型和元学习模型具有相同的深度神经网络结构；获取测试任务和多个不同的训练任务；分别基于多个不同的训练任务各自的第一匹配损失来更新元学习模型的元网络参数，第一匹配损失用于表示多个不同的训练任务各自的文本匹配模型的匹配误差；利用更新后的元网络参数生成文本匹配模型的初始参数，并使用测试任务对文本匹配模型进行训练以更新文本匹配模型的初始参数，将经过训练后所得到的文本匹配模型作为问答模型。通过上述方式，本申请的问答模型能够应用于少样本的问答领域中，并提高问答对匹配的准确性。

Description

问答模型的训练方法、计算机设备以及可读存储介质

技术领域

本申请涉及机器学习技术领域，特别是涉及问答模型的训练方法、计算机设备以及计算机可读存储介质。

背景技术

问答系统是信息检索和自然语言处理的重要分支，近年来，随着互联网络的兴起，用户产生内容在网络上得到了大量的积累，产生了丰富的开放领域问答、垂直领域问答数据。

在社区问答场景中，一种常见的应用是在候选回答中选择与当前用户问题最为匹配的答案，即答案排序与选择。准确率高的问答模型能够快速定位出候选答案中与新来问题最为匹配的回答，提高问题回答率，改善用户体验，但往往意味着需要大量的质量较优的问答样本，这意味着大量的人力成本和时间成本。

对于部分专业领域或小众领域的问题，社区提问回答率往往较低，因此无法提供大量的质量较优的问答样本，用于问答模型的训练，因而存在由于样本量少而模型训练困难的问题。

发明内容

本申请主要解决的技术问题是提供问答模型的训练方法、计算机设备以及计算机可读存储介质，能够解决由于样本量少而模型训练困难的问题。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种问答模型的训练方法，该训练方法包括：模型具有相同的深度神经网络结构；获取测试任务和多个不同的训练任务，所述测试任务和所述训练任务均包括多个问答对数据，所述测试任务中的数据量少于所述训练任务的数据量，每个所述问答对数据包括问题和与所述问题相匹配的候选回答；分别基于多个不同的所述训练任务各自的第一匹配损失来更新元学习模型的元网络参数，所述第一匹配损失用于表示多个不同的所述训练任务各自的文本匹配模型的匹配误差；利用更新后的所述元网络参数生成所述文本匹配模型的初始参数，并使用所述测试任务对所述文本匹配模型进行训练以更新所述文本匹配模型的初始参数，将经过训练后所得到的所述文本匹配模型作为所述问答模型。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种计算机设备，该计算机设备包括处理器以及与处理器连接的存储器；其中，存储器用于存储程序数据，处理器用于执行程序数据，以实现如上述的问答模型的训练方法。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种具有计算机可读存储介质，该计算机可读存储介质用于存储程序数据，程序数据在被处理器执行时，用于实现如上述的问答模型的训练方法。

本申请的有益效果是：区别于现有技术的情况，本申请提供一种问答模型的训练方法，该方法通过建立文本匹配模型和元学习模型，且文本匹配模型和元学习模型具有相同的深度神经网络结构，并获取测试任务和多个不同的训练任务，以分别基于多个不同的训练任务各自的第一匹配损失来更新元学习模型的元网络参数，最后利用更新后的元网络参数生成文本匹配模型的初始参数，并使用测试任务对文本匹配模型进行训练以更新文本匹配模型的初始参数，将经过训练后所得到的文本匹配模型作为问答模型，能够模型训练的学习难度，提升了模型的快速收敛能力，使训练更加充分，且所得到的问答模型能够应用于少样本的问答领域中，并提高问答对匹配的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请问答模型的训练方法第一实施例的流程示意图；

图2是本申请问答模型的训练方法第二实施例中元学习模型训练和测试过程示意图；

图3是本申请问答模型的训练方法第二实施例中的流程示意图；

图4是本申请问答模型的训练方法第二实施例中S160的具体流程示意图；

图5是本申请问答模型的训练方法第二实施例中S180的具体流程示意图；

图6是本申请问答模型的训练方法第三实施例中文本匹配模型的结构示意图；

图7是本申请问答模型的训练方法第三实施例的流程示意图；

图8是本申请问答模型的训练方法第四实施例的流程示意图；

图9是本申请计算机设备一实施例的结构示意图；

图10是本申请计算机可读存储介质一实施例的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序或结构。此外，术语“包括”和“具有”以及他们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

相关技术中，给定一个垂直领域(或小众领域、特定领域)的问题，问答模型旨在从已有的回答集合中对所有的候选回答进行相关性打分并排序，从而选择最佳回答。例如在法律领域，用户的提问往往类似。

例如，法律场景下许多用户会发出“不合法拆迁如何上诉？”这样的同类问题。在用户提问同质化且候选回答足够多的情况下，好的问答模型能够定位出与当前用户疑问相似的问题所对应的高质量答案，有效提高垂直领域社区提问的回答率。由于法律问答面临着样本量少且标注成本高的难点，通过使用大量法律垂直领域的问答样本训练一个问答系统开发周期很长且消耗的人力成本巨大，并不适合现实应用。

其他样本量少的领域也存在类似问题。

基于此，本申请提供一种问答模型的训练方法，以解决上述由于样本量少而模型训练困难的问题。

请参阅图1，图1是本申请问答模型的训练方法第一实施例的流程示意图。

本实施例中，问答模型的训练方法包括：

S120：建立文本匹配模型和元学习模型，文本匹配模型和元学习模型具有相同的深度神经网络结构。

深度神经网络结构是一种模仿动物神经网络行为特征、进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的日的。

本实施例中，问答模型的训练方法基于元学习方法，元学习(Meta Learning)是机器学习的子领域。传统的机器学习问题是基于海量数据集从头开始学习一个用于预测的数学模型，这与人类学习、积累历史经验(也称为元知识)指导新的机器学习任务的过程相差甚远。元学习则是学习不同的机器学习任务的学习训练过程，以及学习如何更快更好地训练一个数学模型。

在一种实施方式中，深度神经网络结构可采用长短期记忆神经网络、双向注意力机制以及全连接网络构建。

S140：获取测试任务和多个不同的训练任务。

其中，测试任务和训练任务均包括多个问答对数据，测试任务中的数据量少于训练任务的数据量，每个问答对数据包括问题和与问题相匹配的候选回答。

问答对数据也就是任务中的样本。测试任务和训练任务具有一定的相关性，两者都是基于问答的场景，并且都是文本匹配任务，都是针对一个特定的查询或问题，从候选的文档或者回答集中逐个计算文本与查询的匹配分数，排序后选出最佳的反馈文本。

可选地，相似的问答任务可包括：社区问答中的答案选择任务(用户提出问题，返回相关的回答)，信息检索任务(用户输入查询，返回与查询相关的文本)，多轮对话任务(基于用户新一轮的话语，返回系统回复)。上述三个任务都是基于问答的场景，并且都是文本匹配任务，都是针对一个特定的查询或问题，从候选的文档或者回答集中逐个计算文本与查询的匹配分数，排序后选出最佳的反馈文本。

也就是说，训练任务可包括信息检索任务、社区问答任务和多轮对话任务。

本实施例中，为了便于描述，将文本匹配的待匹配方(查询或问题)统称为问题，将文本匹配的候选方(候选的文档或者回答集)统称为候选回答。

测试任务中的数据量少于训练任务的数据量，即训练任务为富样本数据，测试任务为少样本数据。

S160：分别基于多个不同的训练任务各自的第一匹配损失来更新元学习模型的元网络参数。

其中，第一匹配损失用于表示多个不同的训练任务各自的文本匹配模型的匹配误差。

本实施例率先成功地将元学习方法应用于自然语言处理领域的文本匹配任务中。

由于元学习模型先在问答对数据量较大的训练任务上进行元学习，能够生成较好的元学习模型的元网络参数，所以元学习模型能够在测试任务上通过少量的梯度迭代来产生泛化的性能，即通过上述步骤训练了一个易于微调的元学习模型。

S180：利用更新后的元网络参数生成文本匹配模型的初始参数，并使用测试任务对文本匹配模型进行训练以更新文本匹配模型的初始参数，将经过训练后所得到的文本匹配模型作为问答模型。

通过利用更新后的元网络参数生成文本匹配模型的初始参数，能够增强文本匹配模型在少样本数据条件下快速收敛的能力，即通过测试任务上的少量问答对数据的训练精细地调节文本匹配模型，能够得到训练后所得到的文本匹配模型作为问答模型，该问答模型能够应用于少样本的问答领域中，并提高问答对匹配的准确性。

相比于单独使用少样本数据训练问答模型，通过本实施例所提供的训练方法降低了模型训练的学习难度，提升了模型在测试任务中(即目标任务中)快速收敛的能力，使训练更加充分，且得到问答模型用于问答对的匹配时准确性更高。

在本实施例的问答模型的训练方法，通过建立文本匹配模型和元学习模型，且文本匹配模型和元学习模型具有相同的深度神经网络结构，并获取测试任务和多个不同的训练任务，以分别基于多个不同的训练任务各自的第一匹配损失来更新元学习模型的元网络参数，最后利用更新后的元网络参数生成文本匹配模型的初始参数，并使用测试任务对文本匹配模型进行训练以更新文本匹配模型的初始参数，将经过训练后所得到的文本匹配模型作为问答模型，能够模型训练的学习难度，提升了模型的快速收敛能力，使训练更加充分，且所得到的问答模型能够应用于少样本的问答领域中，并提高问答对匹配的准确性。

请结合参阅图2-图5，图2是本申请问答模型的训练方法第二实施例中元学习模型训练和测试过程示意图。图3是本申请问答模型的训练方法第二实施例中的流程示意图。图4是本申请问答模型的训练方法第二实施例中S160的具体流程示意图。图5是本申请问答模型的训练方法第二实施例中S180的具体流程示意图。

本申请问答模型的训练方法第二实施例是基于本申请问答模型的训练方法第一实施例的，因此本实施例与第一实施例相同的步骤不再赘述，可以参照第一实施例中的描述。

请参与图3，本实施例中，在步骤S140：获取测试任务和多个不同的训练任务之后，可包括：

S150：对测试任务和每个训练任务中的问答对数据进行数据预处理，以将测试任务和每个训练任务中的问答对数据分别划分为两部分，作为训练任务的支撑集和查询集以及测试任务的支撑集和查询集。

请参阅图2，在元学习模型训练和测试过程中，将帮助训练元学习模型的训练集、测试集分别称为D^train，D^test。训练集包括多个不同的训练任务，测试集包括测试任务，每个任务T_i内部的训练集、测试集分别被称做支撑集、查询集。

在步骤S150中，中文句子可采用公开的Python分词模块jieba进行中文分词，以将测试任务和每个训练任务中的问答对数据分别划分为两部分，作为训练任务的支撑集和查询集以及测试任务的支撑集和查询集将任务数据。

可选地，请参阅图4，步骤S160：分别基于多个不同的训练任务各自的第一匹配损失来更新元学习模型的元网络参数，可包括：

S161：对于每个训练任务进行以下操作：

如图2所示，定义元学习模型为F，元网络参数为

更新后的元网络参数为

文本匹配模型为f，文本匹配模型的初始参数为θ₀，更新后的文本匹配模型的参数为

在不同的任务上的最终优化结果表示为

S1611：初始化元学习模型的元网络参数。

S1612：利用元网络参数生成文本匹配模型的初始参数。

利用元网络参数生成文本匹配模型的初始参数，可以是根据

计算出每一个训练任务的初始参数θ₀。

S1613：基于训练任务的支撑集计算文本匹配模型的第一匹配损失。

S1614：基于第一匹配损失更新文本匹配模型的初始参数。

在步骤S1613-S1614中，对于每一个文本匹配任务T_i，可执行如下的文本匹配模型f的参数θ₀的优化过程：

a.在训练任务的支撑集

上可计算文本匹配模型f的第一匹配损失

b.基于第一匹配损失更新文本匹配模型f的初始参数，即优化文本匹配模型f的初始参数得到

c.执行步骤b若干次，并得到该训练任务上的最终参数

S162：当所有训练任务均完成训练后，基于所有训练任务的查询集计算元学习模型的训练损失，并基于训练损失更新元学习模型的元网络参数。

步骤S162中，对于所有的文本匹配任务，可执行如下的元学习网络F的参数

的优化过程：

d.在任务查询集

上计算元学习模型的训练损失

e.优化元网络参数

得到

执行上述步骤a-e若干次，并得到更新后的元学习模型的元网络参数

即

经过上述步骤，能够生成具有较好的元网络参数的元学习模型。

可选地，请参阅图5，步骤S180：利用更新后的元网络参数生成文本匹配模型的初始参数，并使用测试任务对文本匹配模型进行训练以更新文本匹配模型的初始参数，将经过训练后所得到的文本匹配模型作为问答模型，可包括：

S181：利用更新后的元网络参数作为文本匹配模型的初始参数。

定义测试过程中，本匹配模型的初始参数为

利用更新后的元网络参数作为文本匹配模型的初始参数，可以是根据

计计算出测试任务的初始参数

S182：基于测试任务的支撑集计算文本匹配模型的第二匹配损失。

S183：基于第二匹配损失更新文本匹配模型的初始参数。

在步骤S181-S182中，可执行如下的文本匹配网络f的参数

的优化过程：

g.在测试任务的支撑集

上可计算文本匹配模型f的第二匹配损失

h.基于第二匹配损失更新文本匹配模型f的初始参数，即优化文本匹配模型f的参数得到

i.执行步骤h若干次，并得到测试任务上的最终参数

S184：将经过训练后所得到的文本匹配模型作为问答模型。

利用更新后的元网络参数生成文本匹配模型的初始参数，并使用测试任务对文本匹配模型进行训练，以对文本匹配模型进行精调，从而得到训练后所得到的文本匹配模型，可作为问答模型。

请结合参阅图2-图7，图6是本申请问答模型的训练方法第三实施例中文本匹配模型的结构示意图。图7是本申请问答模型的训练方法第三实施例的流程示意图。

本申请问答模型的训练方法第三实施例是基于本申请问答模型的训练方法第二实施例的，因此本实施例与第二实施例相同的步骤不再赘述，可以参照第二实施例中的描述。

如图6所示，本实施例中，步骤S120：建立文本匹配模型和元学习模型，可包括：

采用长短期记忆神经网络、双向注意力机制以及全连接网络建立深度神经网络结构，以分别建立文本匹配模型和元学习模型。

可选地，请参阅图7，步骤S1613：基于训练任务的支撑集计算文本匹配模型的第一匹配损失，可包括：

S220：利用长短期记忆神经网络对问答对数据进行空间映射和语义学习，得到建模后的问答语句。

可选地，可采用word2vec词向量，将每个问题与对应的候选回答转换为输入向量，通过长短期记忆神经网络建模问答句语义。

具体的，问题与回答可先经过词嵌入层建模后可以表示为词向量构成的矩阵，表达形式如下：

Q＝{q₁,q₂,…,q_m},A＝{a₁,a₂,…,a_n}

其中，m和n分别为问题与回答的语句长度。

采用长短期记忆神经网络进行问答语句的语义建模，建模后的问答语句表达如下:

Q′＝q₁′,q₂′,…,q_m′],A′＝[a₁′,a₂′,…,a_n′]。

长短期记忆神经网络能够实现对输入的信息进行空间映射和语义学习。

S240：利用双向注意力机制对问答语句进行语境交互与语义放缩，得到问题向量和回答向量。

语义交互层采用双向注意力机制实现对问答语句的语境交互与语义放缩，具体过程可如下：

首先计算问答语句的交互矩阵R，

R＝Q′^TA′

在交互矩阵R的基础上得到问题侧与回答侧的交互矩阵如下，

R^A＝softmax(R),R^Q＝softmax(R^T)

其中softmax表示在矩阵行层面进行向量的归一化。在问答侧交互矩阵的基础上进行问答侧隐含层的信息重整，即，

Q^att＝Q′R^A,A^att＝A′R^Q

将整合后的特征矩阵Q^att，A^att与语义建模层得到的特征Q′，A′进行连接后得到语义矩阵如下，

Q^final＝Q′,Q^att],A^final＝[A′,A^att]

问答侧的语义矩阵经过最大池化进行特征下采样后，得到问答的向量表示q和a，

q＝maxpool(Q^final),a＝maxpool(^final)

通过在文本匹配模型中采用注意力机制进行语句信息交互，能够起到根据训练样本的问答对匹配情况放大或缩小特定词语的作用，从而提升文本匹配模型的性能。

S260：利用全连接网络基于问题向量和回答向量计算匹配分数。

全连接网络可包括一个全连接层、一个隐含层与一个softmax概率层。

用全连接网络基于问题向量和回答向量计算匹配分数具体可以是：

首先计算基于问题回答向量的匹配分数，即

sim＝q^TWa

再将问答侧向量与匹配分数进行连接，即x＝[q,sim,a]，并通过一个隐含层与一个softmax概率层计算最终的问答对匹配分数p_i。

S280：基于匹配分数计算得到文本匹配模型的第一匹配损失。

可选地，步骤S280中，可通过如下公式计算文本匹配模型的第一匹配损失：

其中，L_f表示文本匹配模型的第一匹配损失，y_i为候选答案是否符合问题的标签，p_i为匹配分数，θ表示文本匹配模型中的初始参数，

为用于防止过拟合的正则项。

可选地，步骤S162：当所有训练任务均完成训练后，基于所有训练任务的查询集计算元学习模型的训练损失，并基于训练损失更新元学习模型的元网络参数，可包括：

利用如下公式计算元学习模型的训练损失：

其中，

为元学习模型的训练损失，

为在第i个训练任务的查询集上得到的第一匹配损失。

请结合参阅图2-图8，图8是本申请问答模型的训练方法第四实施例的流程示意图。

本申请问答模型的训练方法第四实施例是基于本申请问答模型的训练方法第三实施例的，因此本实施例与第三实施例相同的步骤不再赘述，可以参照第三实施例中的描述。

本实施例中，问答模型的训练方法还包括以下问答模型的评价指标计算过程：

S191：基于测试任务的查询集计算问答模型对于每一个问答对数据的预测结果。

具体的，可在测试任务的查询集

上计算文本匹配模型f对于每一个问答对的预测结果p。

S192：将预测结果作为问答对数据的匹配分数，进行匹配分数的降序排序。

对于每一个问题q_k的所有回答a_k1,a_k2,…,_ks均计算得到预测结果p，将p作为问答对数据的匹配分数，并进行匹配分数的降序排序。

S193：基于匹配分数评估问答模型。

本实施例中，可使用评价标准为排序模型中的通用评价指标MAP(Mean AveragePrecision)。

其中，P(q)表示第q个问答对数据的匹配分数。

请参阅图9，图9是本申请计算机设备一实施例的结构示意图。

本实施例中，计算机设备100包括处理器110和与处理器110连接的存储器120。存储器120用于存储程序数据，处理器110用于执行程序数据，以实现上述任一实施例中的问答模型的训练方法。

计算机设备可包括与处理器连接的驱动器。

其中，处理器110还可以称为CPU(Central Processing Unit，中央处理单元)。处理器110可能是一种集成电路芯片，具有信号的处理能力。处理器110还可以是通用处理器110、数字信号处理器110(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器110可以是微处理器110或者该处理器110也可以是任何常规的处理器110等。

请参阅图10，图10是本申请计算机可读存储介质一实施例的示意图。

计算机可读存储介质200用于存储程序数据210，程序数据210在被处理器执行时能够实现上述任一实施例中的问答模型的训练方法。

可以理解的，本实施例中的计算机可读存储介质200可以应用于服务器，其具体的实施可以参考上述实施例，这里不再赘述。

在本申请所提供的几个实施方式中，应该理解到，所揭露的方法以及设备，可以通过其它的方式实现。例如，以上所描述的设备实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述其他实施方式中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分S。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请所提供的问答模型的训练方法，该方法通过建立文本匹配模型和元学习模型，且文本匹配模型和元学习模型具有相同的深度神经网络结构，并获取测试任务和多个不同的训练任务，以分别基于多个不同的训练任务各自的第一匹配损失来更新元学习模型的元网络参数，最后利用更新后的元网络参数生成文本匹配模型的初始参数，并使用测试任务对文本匹配模型进行训练以更新文本匹配模型的初始参数，将经过训练后所得到的文本匹配模型作为问答模型，能够模型训练的学习难度，提升了模型的快速收敛能力，使训练更加充分，且所得到的问答模型能够应用于少样本的问答领域中，并提高问答对匹配的准确性。

以上仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种问答模型的训练方法，其特征在于，所述训练方法包括：

采用长短期记忆神经网络、双向注意力机制以及全连接网络建立深度神经网络结构，以分别建立文本匹配模型和元学习模型，所述文本匹配模型和所述元学习模型具有相同的深度神经网络结构；

获取测试任务和多个不同的训练任务，对所述测试任务和每个所述训练任务中的问答对数据进行数据预处理，以将所述测试任务和每个所述训练任务中的问答对数据分别划分为两部分，作为所述训练任务的支撑集和查询集以及所述测试任务的支撑集和查询集；所述测试任务和所述训练任务均包括多个问答对数据，所述测试任务中的数据量少于所述训练任务的数据量，每个所述问答对数据包括问题和与所述问题相匹配的候选回答；

分别基于多个不同的所述训练任务各自的第一匹配损失来更新元学习模型的元网络参数，所述第一匹配损失用于表示多个不同的所述训练任务各自的文本匹配模型的匹配误差；其中，对于每个所述训练任务进行以下操作：初始化所述元学习模型的元网络参数；利用所述元网络参数生成所述文本匹配模型的初始参数；利用所述长短期记忆神经网络对所述问答对数据进行空间映射和语义学习，得到建模后的问答语句；利用所述双向注意力机制对所述问答语句进行语境交互与语义放缩，得到问题向量和回答向量；利用所述全连接网络基于所述问题向量和所述回答向量计算匹配分数；基于所述匹配分数计算得到所述文本匹配模型的第一匹配损失；基于所述第一匹配损失更新所述文本匹配模型的初始参数；当所有所述训练任务均完成训练后，基于所有所述训练任务的查询集计算所述元学习模型的训练损失，并基于所述训练损失更新所述元学习模型的元网络参数；

利用更新后的所述元网络参数生成所述文本匹配模型的初始参数，并使用所述测试任务对所述文本匹配模型进行训练以更新所述文本匹配模型的初始参数，将经过训练后所得到的所述文本匹配模型作为所述问答模型；

其中，通过如下公式计算所述文本匹配模型的第一匹配损失：