CN114238549A

CN114238549A - 文本生成模型的训练方法、装置、存储介质及计算机设备

Info

Publication number: CN114238549A
Application number: CN202111534333.9A
Authority: CN
Inventors: 舒畅; 陈又新; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2022-03-25
Also published as: WO2023108981A1

Abstract

本发明公开了一种文本生成模型的训练方法、装置、存储介质及计算机设备，涉及机器学习技术领域。其中方法包括：获取多轮对话中的问题文本和多个上下文文本；利用初始文本向量生成模型生成所述多个上下文文本分别对应的第一文本向量矩阵和所述问题文本对应的回复文本向量矩阵；利用初始主题向量提取模型分别提取所述第一文本向量矩阵对应的上下文文本主题向量和所述回复文本向量矩阵对应的回复文本主题向量；基于所述上下文文本主题向量和所述回复文本主题向量，构建损失函数；基于所述损失函数共同对所述初始文本向量生成模型和所述初始主题向量提取模型进行迭代训练，构建文本生成模型。本发明适用于文本生成模型的训练。

Description

文本生成模型的训练方法、装置、存储介质及计算机设备

技术领域

本发明涉及机器学习技术领域，尤其是涉及一种文本生成模型的训练方法、装置、存储介质及计算机设备。

背景技术

在自然语言处理中，多轮对话始终是研究的热点，而如何准确、有效地生成回复文本对多轮对话的研究有重要意义。

目前，通常是基于多轮对话中对上下文的理解，利用深度学习模型，生成相应的回复文本。然而，这种方式在训练深度学习模型的过程中，并没有考虑生成的回复文本与多轮对话中的上下文对话主题是否深层次相关，进而导致利用该深度学习模型生成的回复文本偏离多轮对话的整体逻辑，无法保证回复文本的生成精度。

发明内容

本发明提供了一种文本生成模型的训练方法、装置、存储介质及计算机设备，主要在于能够保证生成的回复本文与上下文对话主题深层次相关，从而能够使生成的回复文本贴合多轮对话的整体逻辑，提高回复文本的生成精度。

根据本发明的第一个方面，提供一种文本生成模型的训练方法，包括：

获取多轮对话中的问题文本和多个上下文文本；

利用初始文本向量生成模型生成所述多个上下文文本分别对应的第一文本向量矩阵和所述问题文本对应的回复文本向量矩阵；

利用初始主题向量提取模型分别提取所述第一文本向量矩阵对应的上下文文本主题向量和所述回复文本向量矩阵对应的回复文本主题向量；

基于所述上下文文本主题向量和所述回复文本主题向量，构建损失函数；

基于所述损失函数共同对所述初始文本向量生成模型和所述初始主题向量提取模型进行迭代训练，构建文本生成模型。

根据本发明的第二个方面，提供一种文本生成模型的训练装置，包括：

获取单元，用于获取多轮对话中的问题文本和多个上下文文本；

生成单元，用于利用初始文本向量生成模型生成所述多个上下文文本分别对应的第一文本向量矩阵和所述问题文本对应的回复文本向量矩阵；

提取单元，用于利用初始主题向量提取模型分别提取所述第一文本向量矩阵对应的上下文文本主题向量和所述回复文本向量矩阵对应的回复文本主题向量；

构建单元，用于基于所述上下文文本主题向量和所述回复文本主题向量，构建损失函数；

训练单元，用于基于所述损失函数共同对所述初始文本向量生成模型和所述初始主题向量提取模型进行迭代训练，构建文本生成模型。

根据本发明的第三个方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现以下步骤：

获取多轮对话中的问题文本和多个上下文文本；

根据本发明的第四个方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下步骤：

获取多轮对话中的问题文本和多个上下文文本；

根据本发明提供的一种文本生成模型的训练方法、装置、存储介质及计算机设备，与目前利用深度学习模型生成相应的回复文本的方式相比，本发明通过获取多轮对话中的问题文本和多个上下文文本；并利用初始文本向量生成模型生成所述多个上下文文本分别对应的第一文本向量矩阵和所述问题文本对应的回复文本向量矩阵；与此同时，利用初始主题向量提取模型分别提取所述第一文本向量矩阵对应的上下文文本主题向量和所述回复文本向量矩阵对应的回复文本主题向量；并基于所述上下文文本主题向量和所述回复文本主题向量，构建损失函数；最终基于所述损失函数共同对所述初始文本向量生成模型和所述初始主题向量提取模型进行迭代训练，构建文本生成模型，由此通过提取上下文主题向量和回复文本主题向量，并基于该上下文本主题向量和回复文本主题向量，构建损失函数对文本生成模型进行训练，能够使回复文本主题向量和上下文主题向量尽可能相近，从而能够保证生成的回复文本与上下文对话主题深层次相关，使生成的回复文本贴合多轮对话的整体逻辑，进而提高了多轮对话中回复文本的生成精度。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了本发明实施例提供的一种文本生成模型的训练方法流程图；

图2示出了本发明实施例提供的另一种文本生成模型的训练方法流程图；

图3示出了本发明实施例提供的一种文本生成模型的训练装置结构示意图；

图4示出了本发明实施例提供的另一种文本生成模型的训练装置结构示意图；

图5示出了本发明实施例提供的一种计算机设备的实体结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

目前，在训练深度学习模型的过程中，并没有考虑生成的回复文本与多轮对话中的上下文对话主题是否深层次相关，进而导致利用该深度学习模型生成的回复文本偏离多轮对话的整体逻辑，无法保证回复文本的生成精度。

为了解决上述问题，本发明实施例提供了一种文本生成模型的训练方法，如图1所示，所述方法包括：

101、获取多轮对话中的问题文本和多个上下文文本。

其中，多轮对话中至少包括三个语句文本，将最后一个语句文本作为问题文本，其他语句文本作为上下文文本。为了克服现有技术中生成的回复文本与上下文对话主题无法深层次相关，进而导致生成的回复文本偏离多轮对话整体逻辑的缺陷，本发明实施例，在训练文本生成模型的过程中，能够提取上下文主题向量和回复文本主题向量，并利用该上下文主题向量和回复文本主题向量，构建损失函数，基于该损失函数对文本生成模型进行训练，从而能够保证利用该文本生成模型生成的回复文本能够与上下文对话主题深层次相关，且贴合多轮对话的整体逻辑。本发明实施例主要应用于多轮对话中训练回复文本生成模型的场景。本发明实施例的执行主体为能够对回复文本生成模型进行训练的装置或者设备，具体可以设置在服务器一侧。

对于本发明实施例，为了训练多轮对话的回复文本生成模型，需要预先收集多轮对话中的样本语句，在一个多轮对话中至少包括三个样本语句，将最后一个样本语句作为问题文本，同时将其他样本语句作为上下文文本，在对文本生成模型进行训练的过程，收集的问题文本对应的真实回复文本是已知的。例如，多轮对话中包括四个样本语句，样本语句1为“我们出去吃东西吧！”，样本语句2为“今天天气不好，你想去哪吃啊？”，样本语句3为“我知道一家刚开业的店，可以坐地铁去吃饭。”，样本语句4为“这样好啊，可以不被雨淋。”，在训练文本生成模型的过程中，将上述样本语句1、样本语句2和样本语句3作为上下文文本，同时将样本语句4(最后一个样本语句)作为问题文本，之后基于该上下文文本，预测问题文本对应的预测回复文本，同时提取回复文本主题向量和上下文文本主题向量，最终基于该预测回复文本、真实回复文本、回复文本主题向量和上下文文本主题向量，构建损失函数，基于该损失函数训练文本生成模型。

102、利用初始文本向量生成模型生成所述多个上下文文本分别对应的第一文本向量矩阵和所述问题文本对应的回复文本向量矩阵。

其中，所述初始文本向量生成模型包括初始编码器、初始解码器和第一初始前馈神经网络。对于本发明实施例，在训练文本生成模型的过程中，为了生成多个上下文文本分别对应的第一文本向量矩阵和问题文本对应的回复文本向量矩阵，步骤102具体包括：将所述多个上下文文本分别对应的嵌入向量矩阵输入至所述初始编码器中进行编码，得到所述多个上下文文本分别对应的第一文本向量矩阵；将多个所述第一文本向量矩阵进行拼接，得到所述多轮对话对应的上下文文本向量矩阵；将所述上下文文本向量矩阵和所述问题文本对应的嵌入向量一同输入至所述初始解码器中进行解码，得到所述问题文本对应的第二文本向量矩阵；将所述第二文本向量矩阵输入至所述第一初始前馈神经网络中，得到所述问题文本对应的回复文本向量矩阵。

进一步地，所述将所述多个上下文文本分别对应的嵌入向量矩阵输入至所述初始编码器中进行编码，得到所述多个上下文文本分别对应的第一文本向量矩阵，包括：对所述多个上下文文本分别对应的嵌入向量进行相应的线性变换，得到所述多个上下文文本分别对应的第一查询矩阵、第一键矩阵和第一值矩阵；对所述第一键矩阵进行转置处理，将转置后的第一键矩阵与所述第一查询矩阵相乘，得到所述多个上下文文本分别对应的注意力强度矩阵；将所述注意力强度矩阵输入至所述初始编码器中的softmax层进行归一化处理，得到所述多个上下文文本分别对应的注意力系数矩阵；将所述注意力系数矩阵与所述第一值矩阵相乘，得到所述多个上下文文本分别对应的第一文本向量矩阵。与此同时，所述初始解码器包括第一注意力层和第二注意力层，所述将所述上下文文本向量矩阵和所述问题文本对应的嵌入向量一同输入至初始解码器中进行解码，得到所述问题文本对应的第二文本向量矩阵，包括：将所述问题文本对应的嵌入向量输入至所述第一注意力层进行文本特征提取，得到所述问题文本对应的第三文本向量矩阵；根据所述第三文本向量矩阵，确定所述问题文本对应的第二查询矩阵；根据所述所述上下文文本向量矩阵，分别确定所述问题文本对应的第二键矩阵和第二值矩阵；根据所述第二查询矩阵、所述第二键矩阵和所述第二值矩阵，计算所述问题文本对应的第二文本向量矩阵。

具体地，本发明实施例的文本生成模型主要包括文本向量生成模型和主题向量提取模型，该文本向量生成模型主要由前馈神经网络，transformer模型中的编码器和解码器组成，文本向量生成模型中共包括6个首尾相连的编码器和6个首尾相连的解码器，上一个编码器的输出向量作为下一个编码器的输入向量，同样上一个解码器的输出向量作为下一个编码器的输入向量，每个编码器包括两个子层，分别是注意力层和前馈神经网络层，子层之间的连接使用LayerNorm和残差连接，每个解码器包括三个子层，分别是第一注意力层、第二注意力层和前馈神经网络层，同样子层之间的连接使用LayerNorm和残差连接。在本发明实施例中，利用编码器生成多个上下文文本分别对应的第一文本向量矩阵，利用解码器和前馈神经网络提取生成问题文本对应的回复文本向量矩阵。

具体地，在利用初始编码器生成多个上下文文本分别对应的第一文本向量矩阵时，首先对多个上下文文本进行分词处理，得到每个上下文文本包含的各个分词，之后利用现有的word2vec方式，确定各个分词对应的嵌入向量，并基于每个上下文文本中包含的各个分词对应的嵌入向量，组成每个上下文本对应的嵌入向量矩阵，嵌入向量矩阵的行数代表分词的数量，嵌入向量矩阵的列数代表每个分词对应的嵌入向量的维度，如256维度。由此按照上述方式能够得到多个上下文文本分别对应的嵌入向量矩阵。

进一步地，将每个上下文文本对应的嵌入向量矩阵输入至初始编码器中的注意力层，通过对上下文文本对应的嵌入向量矩阵进行相应的线性变化，能够得到每个上下文文本对应的第一查询矩阵、第一键矩阵和第一值矩阵，基于该第一查询矩阵、第一键矩阵和第一值矩阵，计算每个上下文文本对应的第一文本向量矩阵，具体公式如下：

其中，Q为第一查询矩阵，K为第一键矩阵，V为第一值矩阵，d_K为第一键矩阵的列数，将转置后的第一键矩阵K与第一查询矩阵Q相乘，能够得到每个上下文文本对应的注意力强度矩阵，之后利用d_K对注意力强度矩阵进行尺度缩放，将尺度缩放后的注意力强度矩阵输入至softmax层进行归一化处理，得到每个上下文文本对应的注意力系数矩阵，接着将该注意力系数矩阵与第一值矩阵V相乘，得到每个上下文文本对应的编码向量矩阵，进一步地，将该编码向量矩阵输入至初始编码器中的前馈神经网络层进行处理，并将处理后的编码向量矩阵输入至下一个初始编码器进行处理，每个初始编码器的处理过程与上述过程相同，最后一个初始编码器输出的向量矩阵即为第一文本向量矩阵，由此能够得到每个上下文文本对应的第一文本向量矩阵。

进一步地，为了利用上下文文本生成问题文本对应的回复文本，需要将多个上下文文本分别对应的第一文本向量矩阵进行拼接，将拼接后的第一文本向量矩阵作为上下文文本向量矩阵，之后将该上下文文本向量矩阵和问题文本对应的嵌入向量矩阵一同输入至初始解码器中进行解码，得到问题文本对应的第二文本向量矩阵，以便基于该第二文本向量矩阵，生成回复文本向量矩阵。在利用初始解码器进行解码时，首先对问题文本进行分词处理，得到问题文本中包含的各个分词，并利用现有的word2vec方式，确定各个分词对应的嵌入向量，并基于问题文本中包含的各个分词对应的嵌入向量，组成问题文本对应的嵌入向量矩阵，进一步地，将该问题文本对应的嵌入向量矩阵输入至初始解码器中的第一注意力层进行处理，得到问题文本对应的第三文本向量矩阵，初始解码器中的第一注意力层对问题文本的嵌入向量矩阵的处理过程与初始编码器中的注意力层的处理过程完全相同，在此不再赘述。

进一步地，将得到的第三文本向量矩阵输入至初始解码器中的第二注意力层进行处理，具体处理时，首先对得到的第三文本向量矩阵进行线性变换，并将线性变化后的第三文本向量矩阵作为问题文本的第二查询矩阵，之后对拼接的上下文文本向量矩阵进行线性变换，并将线性变换后的上下文文本向量分别作为问题文本的第二键矩阵和第二值矩阵，接着根据得到的第二查询矩阵、第二键矩阵和第二值矩阵，计算问题文本对应的解码向量矩阵，需要说明的是，利用第二查询矩阵、第二键矩阵和第二值矩阵，计算问题文本对应的解码向量矩阵的具体过程与上述利用第一查询矩阵、第一键矩阵和第一值矩阵，计算每个上下文文本对应的编码向量矩阵的过程完全相同，在此不再赘述。进一步地，将第二注意力层输出的解码向量矩阵输入至初始解码器中的前馈神经网络进行处理，并将处理后的解码向量输入至下一个初始解码器中进行解码处理，最后一个初始解码器输出的向量矩阵即为第二文本向量矩阵，进一步地，将初始解码器最终输出的第二文本向量矩阵输入至初始文本向量生成模型中的第一前馈神经网络进行处理，生成问题文本对应的回复文本向量矩阵，以便利用该回复文本向量矩阵，生成问题文本对应的预测回复文本。

103、利用初始主题量提取模型分别提取所述第一文本向量矩阵对应的上下文文本主题向量和所述回复文本向量矩阵对应的回复文本主题向量。

其中，初始主题向量提取模型包括多个第二前馈神经网络。对于本发明实施例，为了保证生成的回复文本与上下文本主题深层次相关，需要利用初始主题向量提取模型分别提取第一文本向量矩阵对应的上下文主题向量和回复文本向量矩阵对应的回复文本主题向量，具体地，可以预先初始化每个第二前馈神经网络对应的主题向量参数，该主题向量参数对应的维度与第一文本向量矩阵和回复文本向量矩阵对应的列数相同，之后将每个上下文文本对应的第一文本向量矩阵分别与多个主题向量参数相乘，并将相乘结果输入至对应的第二前馈神经网络进行主题向量提取，得到多个第一主题向量，最终将多个第一主题向量相加，得到每个第一文本向量矩阵对应的上下文文本主题向量，同理将回复文本向量矩阵与多个主题向量参数相乘，并将相乘结果输入至对应的第二前馈神经网络进行主题向量提取，得到多个第二主题向量，最终将多个第二主题向量相加，得到回复文本向量矩阵对应的回复文本主题向量，具体提取上下文文本主题向量和回复文本主题向量的过程见步骤203。

104、基于所述上下文文本主题向量和所述回复文本主题向量，构建损失函数。

对于本发明实施例，在提取上下文文本主题向量和回复文本主题向量之后，分别计算多个上下文文本主题向量与回复文本主题向量之间的余弦相似度，并将计算的各个余弦相似度相加，构建损失函数。

105、基于所述损失函数共同对所述初始文本向量生成模型和所述初始主题向量提取模型进行迭代训练，构建文本生成模型。

其中，文本生成模型包括文本向量生成模型和主题向量提取模型，文本向量生成模型包括编码器、解码器和第一前馈神经网络，主题向量提取模型包括多个第二前馈神经网络及其对应的主题向量参数，对于本发明实施例，在构建完成损失函数之后，利用该损失函数共同对初始文本向量生成模型中的初始编码器、初始解码器和第一初始前馈神经网络，以及多个第二前馈神经网络及其对应的主题向量参数进行训练，构建文本生成模型。

根据本发明提供的一种文本生成模型的训练方法，与目前利用深度学习模型生成相应的回复文本的方式相比，本发明通过获取多轮对话中的问题文本和多个上下文文本；并利用初始文本向量生成模型生成所述多个上下文文本分别对应的第一文本向量矩阵和所述问题文本对应的回复文本向量矩阵；与此同时，利用初始主题向量提取模型分别提取所述第一文本向量矩阵对应的上下文文本主题向量和所述回复文本向量矩阵对应的回复文本主题向量；并基于所述上下文文本主题向量和所述回复文本主题向量，构建损失函数；最终基于所述损失函数共同对所述初始文本向量生成模型和所述初始主题向量提取模型进行迭代训练，构建文本生成模型，由此通过提取上下文主题向量和回复文本主题向量，并基于该上下文本主题向量和回复文本主题向量，构建损失函数对文本生成模型进行训练，能够使回复文本主题向量和上下文主题向量尽可能相近，从而能够保证生成的回复文本与上下文对话主题深层次相关，使生成的回复文本贴合多轮对话的整体逻辑，进而提高了多轮对话中回复文本的生成精度。

进一步地，为了更好的说明上述对文本生成模型的训练过程，作为对上述实施例的细化和扩展，本发明实施例提供了另一种文本生成模型的训练方法，如图2所示，所述方法包括：

201、获取多轮对话中的问题文本和多个上下文文本。

对于本发明实施例，为了对多轮对话的回复文本生成模型进行训练，需要预先收集多轮对话中的样本语句，并将样本语句中的最后一个样本语句作为问题文本，同时将其他样本语句作为上下文文本。

202、利用初始文本向量生成模型生成所述多个上下文文本分别对应的第一文本向量矩阵和所述问题文本对应的回复文本向量矩阵。

对于本发明实施例，回复文本生成模型包括文本向量生成模型和主题向量提取模型，为了训练回复文本生成模型，需要预先初始化一个文本向量生成模型，并利用初始文本向量生成模型生成多个上下文文本分别对应的第一文本向量矩阵和问题文本对应的回复文本向量矩阵，第一文本向量矩阵和回复文本向量矩阵的具体生成过程与步骤102完全相同，在此不再赘述。

203、利用初始主题向量提取模型分别提取所述第一文本向量矩阵对应的上下文文本主题向量和所述回复文本向量矩阵对应的回复文本主题向量。

其中，所述初始主题向量提取模型包括多个第二初始前馈神经网络。对于本发明实施例，为了提取上下文文本主题向量和回复文本主题向量，步骤203具体包括：确定所述多个第二初始前馈神经网络分别对应的主题向量参数；将所述第一文本向量矩阵和所述回复文本向量矩阵分别与所述多个主题向量参数相乘，得到所述第一文本向量矩阵对应的多个第一相乘结果和所述回复文本向量矩阵对应的多个第二相乘结果；将所述多个第一相乘结果和所述多个第二相乘结果分别输入至相应的第二初始前馈神经网络中进行主题向量提取，得到提取的多个第一主题向量和多个第二主题向量；将提取的所述多个第一主题向量相加，得到所述第一文本向量矩阵对应的上下文文本主题向量；将提取的所述多个第二主题向量相加，得到所述回复文本向量矩阵对应的回复文本主题向量。

具体地，首先为每个第二初始前馈神经网络初始化一个主题向量参数，不同的第二初始前馈神经网络对应的主题向量参数不同，之后将每个第一文本向量矩阵分别与多个主题向量参数相乘，得到多个第一相乘结果，接着将多个第一相乘结果分别输入至对应的第二初始前馈神经网络进行主题向量提取，得到多个第一主题向量，具体公式如下：

T_i＝FFN_m(soft max(MeanPooling(X_i)·tv_m))

其中，X_i代表第一文本向量矩阵，tv_m代表主题向量参数，m＝1…k，k为主题向量参数的数量，具体可以根据实际业务需求进行设定，T_i代表第一主题向量，由此按照上述公式能够得到多个第一主题向量，将多个第一主题向量相加，得到每个第一文本向量矩阵对应的上下文文本主题向量，同理可以提取回复文本向量矩阵对应的回复文本主题向量，以便基于该上下文文本主题向量和回复文本主题向量，构建损失函数。

204、分别计算多个所述上下文文本主题向量与所述回复文本主题向量之间的相似度，基于计算的多个相似度，构建所述相似度损失函数。

对于本发明实施例，在得到多个第一文本向量矩阵分别对应的上下文文本主题向量和回复文本向量矩阵对应的回复文本主题向量之后，分别计算每个上下文文本主题向量与回复文本主题向量之间的余弦相似度，并将计算的各个余弦相似度相加，构建相似度损失函数。

205、基于所述回复文本向量矩阵，预测所述多轮对话对应的预测回复文本，并获取所述多轮对话对应的真实回复文本，基于所述真实回复文本和所述预测回复文本，构建所述文本损失函数。

对于本发明实施例，回复文本向量矩阵分别经过全连接层和激活函数的处理，能够得到预测回复文本中各个分词索引位置对应的分词概率值，基于该分词概率值向预设词典做映射，能够得到各个分词索引位置处的回复分词，将各个回复分词拼接起来，便组成回复文本。在此基础上，为了保证生成的回复文本尽可能包含上下文文本中的关键词，避免生成的回复文本是通用回复，如“是的”、“好的”，本发明实施例，通过锁定上下文文本中的关键词，并在生成预测回复文本的过程中，将相应位置处理的回复分词替换成该关键词，能够保证回复文本中尽可能包含关键词，避免回复文本仅仅是通用回答，基于此，所述方法包括：从所述多个上下文文本中确定所述预测回复文本对应的关键词；将所述回复文本向量矩阵输入至全连接层进行处理，并将经过处理后的回复文本向量矩阵输入至激活函数中进行处理，得到所述预测回复文本的各个位置索引对应的分词概率值：基于所述分词概率值，确定所述各个位置索引处的回复分词，并判定各个分词概率值中是否存在大于预设概率值的目标分词概率值；若存在所述目标分词概率值，则将所述目标分词概率值对应的位置索引处的回复分词替换成所述关键词；根据所述关键词和其他位置索引处的回复分词，生成所述预测回复文本。

具体地，首先从多个上下文文本中确定关键词，之后将回复文本向量矩阵分别输入至全连接层和激活函数中进行处理，得到预测回复文本中各个分词索引位置对应的分词概率值，通过该分词概率值和预设词典，能够确定回复文本中各个索引位置处的回复分词，进一步地，判定各个分词概率值中是否存在大于预设概率值的目标分词概率值，如果存在，则将目标分词概率值对应的分词位置索引出的回复分词替换成该关键词，进而基于该关键词和其他回复分词，组成多轮对话中问题文本对应的预测回复文本。

进一步地，在得到预测回复文本之后，基于该预测回复文本和多轮对话对应的真实回复文本，构建文本损失函数，具体公式如下：

其中，L_G代表文本损失函数，P_i代表索引位置i处的预测回复分词，R_i代表索引位置i处的真实回复分词，L代表预测回复文本的长度，即预测回复文本包含的回复分词数量，例如，真实回复文本为“好/那/我们/现在/去/吃饭”，预测回复文本为“好/那/我们/现在/走/呀”，预测回复文本和真实回复文本中共包含6个回复分词，预测回复文本中最后两个回复分词与真实回复文本不同，因此可以计算出L_G＝4/6。

在具体应用场景中，所述从所述多个上下文文本中确定所述预测回复文本对应的关键词，包括：确定所述多个上下文文本中的最长上下文文本；根据所述最长上下文文本对应的第一文本向量矩阵和其他上下文文本对应的第一文本向量矩阵，分别计算所述最长上下文文本与所述其他上下文文本之间的相似度矩阵；将计算的各个相似度矩阵进行横向拼接，并对拼接后的相似度矩阵按行求和，得到所述拼接后的相似度矩阵中各行对应的求和结果；从所述各行对应的求和结果中确定最大求和结果，并确定所述最大求和结果对应的行索引；将所述最长上下文文本中所述行索引处的分词确定为所述关键词。

具体地，首先将多个上下文文本中的最长上下文文本作为可能包含关键词的目标文本，需要说明的是，在本发明实施例中还可以随机选择一个上下文文本作为可能包含关键词的目标文本，或者将多个上下文文本中的首句文本作为可能包含关键词典的目标文本，之后根据目标文本对应的第一文本向量矩阵和其他上下文文本对应的第一文本向量矩阵，分别计算目标文本与其他上下文文本之间的相似度矩阵，并将计算的多个相似度矩阵进行横向拼接，接着对拼接后的相似度矩阵按行求和，并确定最大求和结果及其对应的行索引，并将目标文本中该行索引对应的分词确定为目标分词。由此按照上述方式能够锁定上下文文本中的关键词，以便将该关键词生成在回复文本中。

206、基于所述相似度损失函数和所述文本损失函数共同对所述初始文本向量生成模型和所述初始主题向量提取模型进行迭代训练，构建文本生成模型。

对于本发明实施例，在构建完成相似度损失函数和文本损失函数之后，利用该相似度损失函数和文本损失函数共同对初始文本向量生成模型中的初始编码器、初始解码器和第一初始前馈神经网络，以及多个第二前馈神经网络及其对应的主题向量参数进行训练，构建文本生成模型。

进一步地，作为图1的具体实现，本发明实施例提供了一种文本生成模型的训练装置，如图3所示，所述装置包括：获取单元31、生成单元32、提取单元33、构建单元34和训练单元35。

所述获取单元31，可以用于获取多轮对话中的问题文本和多个上下文文本。

所述生成单元32，可以用于利用初始文本向量生成模型生成所述多个上下文文本分别对应的第一文本向量矩阵和所述问题文本对应的回复文本向量矩阵。

所述提取单元33，可以用于利用初始主题向量提取模型分别提取所述第一文本向量矩阵对应的上下文文本主题向量和所述回复文本向量矩阵对应的回复文本主题向量。

所述构建单元34，可以用于基于所述上下文文本主题向量和所述回复文本主题向量，构建损失函数。

所述训练单元35，可以用于基于所述损失函数共同对所述初始文本向量生成模型和所述初始主题向量提取模型进行迭代训练，构建文本生成模型。

在具体应用场景中，为了生成第一文本向量矩阵和回复文本向量矩阵，所述生成单元32，如图4所示，包括：编码模块321、拼接模块322、解码模块323和生成模块324。

所述编码模块321，可以用于将所述多个上下文文本分别对应的嵌入向量矩阵输入至所述初始编码器中进行编码，得到所述多个上下文文本分别对应的第一文本向量矩阵。

所述拼接模块322，可以用于将多个所述第一文本向量矩阵进行拼接，得到所述多轮对话对应的上下文文本向量矩阵。

所述解码模块323，可以用于将所述上下文文本向量矩阵和所述问题文本对应的嵌入向量一同输入至所述初始解码器中进行解码，得到所述问题文本对应的第二文本向量矩阵。

所述生成模块324，可以用于将所述第二文本向量矩阵输入至所述第一初始前馈神经网络中，得到所述问题文本对应的回复文本向量矩阵。

进一步地，为了生成上下文文本对应的第一文本向量矩阵，所述编码模块321，包括：变换子模块、相乘子模块和第一处理子模块。

所述变换子模块，可以用于对所述多个上下文文本分别对应的嵌入向量进行相应的线性变换，得到所述多个上下文文本分别对应的第一查询矩阵、第一键矩阵和第一值矩阵。

所述相乘子模块，可以用于对所述第一键矩阵进行转置处理，将转置后的第一键矩阵与所述第一查询矩阵相乘，得到所述多个上下文文本分别对应的注意力强度矩阵。

所述第一处理子模块，可以用于将所述注意力强度矩阵输入至所述初始编码器中的softmax层进行归一化处理，得到所述多个上下文文本分别对应的注意力系数矩阵。

所述相乘子模块，还可以用于将所述注意力系数矩阵与所述第一值矩阵相乘，得到所述多个上下文文本分别对应的第一文本向量矩阵。

进一步地，为了生成问题文本对应的第二文本向量矩阵，所述解码模块323，包括：提取子模块、第一确定子模块和计算子模块。

所述提取子模块，可以用于将所述问题文本对应的嵌入向量输入至所述第一注意力层进行文本特征提取，得到所述问题文本对应的第三文本向量矩阵。

所述第一确定子模块，可以用于根据所述第三文本向量矩阵，确定所述问题文本对应的第二查询矩阵。

所述第一确定子模块，还可以用于根据所述所述上下文文本向量矩阵，分别确定所述问题文本对应的第二键矩阵和第二值矩阵。

所述计算子模块，可以用于根据所述第二查询矩阵、所述第二键矩阵和所述第二值矩阵，计算所述问题文本对应的第二文本向量矩阵。

在具体应用场景中，所述初始主题向量提取模型包括多个第二初始前馈神经网络，所述提取单元33，包括：确定模块331、相乘模块332、提取模块333和相加模块334。

所述确定模块331，可以用于确定所述多个第二初始前馈神经网络分别对应的主题向量参数。

所述相乘模块332，可以用于将所述第一文本向量矩阵和所述回复文本向量矩阵分别与所述多个主题向量参数相乘，得到所述第一文本向量矩阵对应的多个第一相乘结果和所述回复文本向量矩阵对应的多个第二相乘结果。

所述提取模块333，可以用于将所述多个第一相乘结果和所述多个第二相乘结果分别输入至相应的第二初始前馈神经网络中进行主题向量提取，得到提取的多个第一主题向量和多个第二主题向量。

所述相加模块334，可以用于将提取的所述多个第一主题向量相加，得到所述第一文本向量矩阵对应的上下文文本主题向量。

所述相加模块334，还可以用于将提取的所述多个第二主题向量相加，得到所述回复文本向量矩阵对应的回复文本主题向量。

在具体应用场景中，所述损失函数包括相似度损失函数和文本损失函数，所述构建单元34，包括：构建模块341和预测模块342。

所述构建模块341，可以用于分别计算多个所述上下文文本主题向量与所述回复文本主题向量之间的相似度，基于计算的多个相似度，构建所述相似度损失函数。

所述预测模块342，可以用于基于所述回复文本向量矩阵，预测所述多轮对话对应的预测回复文本。

所述构建模块341，还可以用于获取所述多轮对话对应的真实回复文本，基于所述真实回复文本和所述预测回复文本，构建所述文本损失函数。

进一步地，为了预测所述多轮对话对应的预测回复文本，所述预测模块342，包括：第二确定子模块、第二处理子模块、判定子模块、替换子模块和生成子模块。

所述第二确定子模块，可以用于从所述多个上下文文本中确定所述预测回复文本对应的关键词。

所述第二处理子模块，可以用于将所述回复文本向量矩阵输入至全连接层进行处理，并将经过处理后的回复文本向量矩阵输入至激活函数中进行处理，得到所述预测回复文本的各个位置索引对应的分词概率值。

所述判定子某块，可以用于基于所述分词概率值，确定所述各个位置索引处的回复分词，并判定各个分词概率值中是否存在大于预设概率值的目标分词概率值。

所述替换子模块，可以用于若存在所述目标分词概率值，则将所述目标分词概率值对应的位置索引处的回复分词替换成所述关键词。

所述生成子模块，可以用于根据所述关键词和其他位置索引处的回复分词，生成所述预测回复文本。

进一步地，所述第二确定子模块，具体可以用于确定所述多个上下文文本中的最长上下文文本；根据所述最长上下文文本对应的第一文本向量矩阵和其他上下文文本对应的第一文本向量矩阵，分别计算所述最长上下文文本与所述其他上下文文本之间的相似度矩阵；将计算的各个相似度矩阵进行横向拼接，并对拼接后的相似度矩阵按行求和，得到所述拼接后的相似度矩阵中各行对应的求和结果；从所述各行对应的求和结果中确定最大求和结果，并确定所述最大求和结果对应的行索引；将所述最长上下文文本中所述行索引处的分词确定为所述关键词。

需要说明的是，本发明实施例提供的一种文本生成模型的训练装置所涉及各功能模块的其他相应描述，可以参考图1所示方法的对应描述，在此不再赘述。

基于上述如图1所示方法，相应的，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现以下步骤：获取多轮对话中的问题文本和多个上下文文本；利用初始文本向量生成模型生成所述多个上下文文本分别对应的第一文本向量矩阵和所述问题文本对应的回复文本向量矩阵；利用初始主题向量提取模型分别提取所述第一文本向量矩阵对应的上下文文本主题向量和所述回复文本向量矩阵对应的回复文本主题向量；基于所述上下文文本主题向量和所述回复文本主题向量，构建损失函数；基于所述损失函数共同对所述初始文本向量生成模型和所述初始主题向量提取模型进行迭代训练，构建文本生成模型。

基于上述如图1所示方法和如图3所示装置的实施例，本发明实施例还提供了一种计算机设备的实体结构图，如图5所示，该计算机设备包括：处理器51、存储器52、及存储在存储器52上并可在处理器上运行的计算机程序，其中，存储器52和处理器51均设置在总线53上，所述处理器51执行所述程序时实现以下步骤：获取多轮对话中的问题文本和多个上下文文本；利用初始文本向量生成模型生成所述多个上下文文本分别对应的第一文本向量矩阵和所述问题文本对应的回复文本向量矩阵；利用初始主题向量提取模型分别提取所述第一文本向量矩阵对应的上下文文本主题向量和所述回复文本向量矩阵对应的回复文本主题向量；基于所述上下文文本主题向量和所述回复文本主题向量，构建损失函数；基于所述损失函数共同对所述初始文本向量生成模型和所述初始主题向量提取模型进行迭代训练，构建文本生成模型。

通过本发明的技术方案，能够获取多轮对话中的问题文本和多个上下文文本；并利用初始文本向量生成模型生成所述多个上下文文本分别对应的第一文本向量矩阵和所述问题文本对应的回复文本向量矩阵；与此同时，利用初始主题向量提取模型分别提取所述第一文本向量矩阵对应的上下文文本主题向量和所述回复文本向量矩阵对应的回复文本主题向量；并基于所述上下文文本主题向量和所述回复文本主题向量，构建损失函数；最终基于所述损失函数共同对所述初始文本向量生成模型和所述初始主题向量提取模型进行迭代训练，构建文本生成模型，由此通过提取上下文主题向量和回复文本主题向量，并基于该上下文本主题向量和回复文本主题向量，构建损失函数对文本生成模型进行训练，能够使回复文本主题向量和上下文主题向量尽可能相近，从而能够保证生成的回复文本与上下文对话主题深层次相关，使生成的回复文本贴合多轮对话的整体逻辑，进而提高了多轮对话中回复文本的生成精度。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种文本生成模型的训练方法，其特征在于，包括：

获取多轮对话中的问题文本和多个上下文文本；

2.根据权利要求1所述的方法，其特征在于，所述初始文本向量生成模型包括初始编码器、初始解码器和第一初始前馈神经网络，所述利用初始文本向量生成模型生成所述多个上下文文本分别对应的第一文本向量矩阵和所述问题文本对应的回复文本向量矩阵，包括：

将所述多个上下文文本分别对应的嵌入向量矩阵输入至所述初始编码器中进行编码，得到所述多个上下文文本分别对应的第一文本向量矩阵；

将多个所述第一文本向量矩阵进行拼接，得到所述多轮对话对应的上下文文本向量矩阵；

将所述上下文文本向量矩阵和所述问题文本对应的嵌入向量一同输入至所述初始解码器中进行解码，得到所述问题文本对应的第二文本向量矩阵；

将所述第二文本向量矩阵输入至所述第一初始前馈神经网络中，得到所述问题文本对应的回复文本向量矩阵。

3.根据权利要求2所述的方法，其特征在于，所述将所述多个上下文文本分别对应的嵌入向量矩阵输入至所述初始编码器中进行编码，得到所述多个上下文文本分别对应的第一文本向量矩阵，包括：

对所述多个上下文文本分别对应的嵌入向量进行相应的线性变换，得到所述多个上下文文本分别对应的第一查询矩阵、第一键矩阵和第一值矩阵；

对所述第一键矩阵进行转置处理，将转置后的第一键矩阵与所述第一查询矩阵相乘，得到所述多个上下文文本分别对应的注意力强度矩阵；

将所述注意力强度矩阵输入至所述初始编码器中的softmax层进行归一化处理，得到所述多个上下文文本分别对应的注意力系数矩阵；

将所述注意力系数矩阵与所述第一值矩阵相乘，得到所述多个上下文文本分别对应的第一文本向量矩阵；

所述初始解码器包括第一注意力层和第二注意力层，所述将所述上下文文本向量矩阵和所述问题文本对应的嵌入向量一同输入至初始解码器中进行解码，得到所述问题文本对应的第二文本向量矩阵，包括：

将所述问题文本对应的嵌入向量输入至所述第一注意力层进行文本特征提取，得到所述问题文本对应的第三文本向量矩阵；

根据所述第三文本向量矩阵，确定所述问题文本对应的第二查询矩阵；

根据所述所述上下文文本向量矩阵，分别确定所述问题文本对应的第二键矩阵和第二值矩阵；

根据所述第二查询矩阵、所述第二键矩阵和所述第二值矩阵，计算所述问题文本对应的第二文本向量矩阵。

4.根据权利要求1所述的方法，其特征在于，所述初始主题向量提取模型包括多个第二初始前馈神经网络，所述利用初始主题向量提取模型分别提取所述第一文本向量矩阵对应的上下文文本主题向量和所述回复文本向量矩阵对应的回复文本主题向量，包括：

确定所述多个第二初始前馈神经网络分别对应的主题向量参数；

将所述第一文本向量矩阵和所述回复文本向量矩阵分别与所述多个主题向量参数相乘，得到所述第一文本向量矩阵对应的多个第一相乘结果和所述回复文本向量矩阵对应的多个第二相乘结果；

将所述多个第一相乘结果和所述多个第二相乘结果分别输入至相应的第二初始前馈神经网络中进行主题向量提取，得到提取的多个第一主题向量和多个第二主题向量；

将提取的所述多个第一主题向量相加，得到所述第一文本向量矩阵对应的上下文文本主题向量；

将提取的所述多个第二主题向量相加，得到所述回复文本向量矩阵对应的回复文本主题向量。

5.根据权利要求1所述的方法，其特征在于，所述损失函数包括相似度损失函数和文本损失函数，所述基于所述上下文文本主题向量和所述回复文本主题向量，构建损失函数，包括：

分别计算多个所述上下文文本主题向量与所述回复文本主题向量之间的相似度，基于计算的多个相似度，构建所述相似度损失函数；

基于所述回复文本向量矩阵，预测所述多轮对话对应的预测回复文本；

获取所述多轮对话对应的真实回复文本，基于所述真实回复文本和所述预测回复文本，构建所述文本损失函数。

6.根据权利要求5所述的方法，其特征在于，所述基于所述回复文本向量矩阵，预测所述多轮对话对应的预测回复文本，包括：

从所述多个上下文文本中确定所述预测回复文本对应的关键词；

将所述回复文本向量矩阵输入至全连接层进行处理，并将经过处理后的回复文本向量矩阵输入至激活函数中进行处理，得到所述预测回复文本的各个位置索引对应的分词概率值：

基于所述分词概率值，确定所述各个位置索引处的回复分词，并判定各个分词概率值中是否存在大于预设概率值的目标分词概率值；

若存在所述目标分词概率值，则将所述目标分词概率值对应的位置索引处的回复分词替换成所述关键词；

根据所述关键词和其他位置索引处的回复分词，生成所述预测回复文本。

7.根据权利要求6所述的方法，其特征在于，所述从所述多个上下文文本中确定所述预测回复文本对应的关键词，包括：

确定所述多个上下文文本中的最长上下文文本；

根据所述最长上下文文本对应的第一文本向量矩阵和其他上下文文本对应的第一文本向量矩阵，分别计算所述最长上下文文本与所述其他上下文文本之间的相似度矩阵；

将计算的各个相似度矩阵进行横向拼接，并对拼接后的相似度矩阵按行求和，得到所述拼接后的相似度矩阵中各行对应的求和结果；

从所述各行对应的求和结果中确定最大求和结果，并确定所述最大求和结果对应的行索引；

将所述最长上下文文本中所述行索引处的分词确定为所述关键词。

8.一种文本生成模型的训练装置，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。