CN110807336A

CN110807336A - 基于最优传输损失的序列模型的翻译方法及相关设备

Info

Publication number: CN110807336A
Application number: CN201910884715.0A
Authority: CN
Inventors: 陈霖捷; 王健宗; 黄章成
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-09-19
Filing date: 2019-09-19
Publication date: 2020-02-18
Anticipated expiration: 2039-09-19
Also published as: CN110807336B

Abstract

本申请涉及人工智能领域，本申请公开了一种基于最优传输损失的序列模型的翻译方法及相关设备，所述方法包括：获取输入文本及参考文本，将所述输入文本输入序列模型，获取源序列向量S、目标序列向量Sg及参考序列向量Sr；将所述源序列向量S转换成源序列矩阵T，并将时刻t的目标序列向量转换成目标序列矩阵T^t；根据所述目标序列向量Sg、参考序列向量Sr、源序列矩阵T及目标序列矩阵T^t获得t+1时刻的目标序列矩阵T^t+1，并将目标序列矩阵转换成逻辑向量，根据所述逻辑向量获得最优传输损失。本申请通过在参考序列与目标序列之间计算最优传输损失，并将最优传输损失替代原损失函数，可以有效提高模型的预测结果。

Description

基于最优传输损失的序列模型的翻译方法及相关设备

技术领域

本申请涉及人工智能领域，特别涉及一种基于最优传输损失的序列模型的翻译方法及相关设备。

背景技术

序列到序列模型基于编码器-解码器结构被广泛应用在机器翻译中，它使用编码器将源序列映射为隐藏向量，并使用解码器将隐藏向量翻译为目标序列。序列到序列模型的目标是优化编码器-解码器网络以生成更接近于目标的序列，因此，一个序列到序列模型一般通过极大似然估计的方法进行训练。这种方法以优化交叉熵损失作为目标，主要测量目标序列各个位置的词差。然而，标准的极大似然估计训练是基于词汇量级的，即给定一部分句子来预测下一个词。此过程侧重于对局部语法进行建模，而无法获得全局语义结构，从而导致模型的预测结果对于长难句的语义表达表现欠佳。

发明内容

本申请的目的在于针对现有技术的不足，提供一种基于最优传输损失的序列模型的翻译方法及相关设备，通过在参考序列与目标序列之间计算最优传输损失，并将最优传输损失替代原损失函数，可以有效提高模型的预测结果。

为达到上述目的，本申请的技术方案提供一种基于最优传输损失的序列模型的翻译方法及相关设备。

本申请公开了一种基于最优传输损失的序列模型的翻译方法，包括以下步骤：

获取输入文本及参考文本，将所述输入文本输入序列模型，获取的源序列及目标序列，根据所述源序列及目标序列获得源序列向量S及目标序列向量Sg，根据所述参考文本获得参考序列向量Sr；

将所述源序列向量S转换成源序列矩阵T，并将时刻t的目标序列向量转换成目标序列矩阵T^t；

根据所述目标序列向量Sg、参考序列向量Sr、源序列矩阵T及目标序列矩阵T^t获得t+1时刻的目标序列矩阵T^t+1，并将目标序列矩阵转换成逻辑向量，根据所述逻辑向量获得最优传输损失；

将所述最优传输损失作为所述序列模型的损失函数对所述序列模型进行训练，获得最终训练模型，根据所述最终训练模型对输入文本进行翻译。

较佳地，所述根据所述源序列及目标序列获得源序列向量S及目标序列向量Sg，包括：

将所述源序列映射到向量空间，获得源序列向量S；

将所述目标序列映射到向量空间，获得目标序列向量Sg。

较佳地，所述将所述目标序列映射到向量空间，获得目标序列向量Sg，包括：

在每个时刻t，将所述目标序列映射到向量空间，获得每个时刻的目标序列向量Sg^t；

将所有时刻的目标向量Sg^t按时间顺序拼接成目标序列向量Sg。

较佳地，所述根据所述目标序列向量Sg、参考序列向量Sr、源序列矩阵T及目标序列矩阵T^t获得t+1时刻的目标序列矩阵T^t+1，包括：

根据所述目标向量Sg及参考序列向量Sr获得所述目标序列向量Sg与参考序列向量Sr之间的向量损失C；

根据公式T^t+1＝argmin{(T，C)+βε(T，T^t)}获得t+1时刻的目标序列矩阵T^t+1，其中β为步长，ε为惩罚项。

较佳地，所述将目标序列矩阵转换成逻辑向量，根据所述逻辑向量获得最优传输损失，包括：

获取每个时刻的目标序列矩阵T^t，并将所述每个时刻的目标序列矩阵T^t转换成每个时刻的逻辑向量V^t；

根据公式W^t＝softmax(V^t/τ)对所述每个时刻的逻辑向量V^t进行归一化处理，获得最优传输损失。

较佳地，所述将所述最优传输损失作为所述序列模型的损失函数对所述序列模型进行训练，包括：

将所述最优传输损失作为序列模型的损失函数，获得新的序列模型，并将输入文本输入到所述新的序列模型中进行训练；

在每一次对所述新的序列模型进行训练时，减小所述序列模型的学习率。

较佳地，所述获得最终训练模型，包括：

预设文本相似度阈值；

当每次对所述序列模型进行训练后，获得输出文本，将所述输出文本与所述参考文本进行比较，获得文本相似度；

当所述文本相似度大于所述文本相似度阈值时，停止训练，将当前的序列模型作为最终训练模型。

本申请还公开了一种基于最优传输损失的序列模型的翻译装置，所述装置包括：

获取模块：设置为获取输入文本及参考文本，将所述输入文本输入序列模型，获取的源序列及目标序列，根据所述源序列及目标序列获得源序列向量S及目标序列向量Sg，根据所述参考文本获得参考序列向量Sr；

第一转换模块：设置为将所述源序列向量S转换成源序列矩阵T，并将时刻t的目标序列向量转换成目标序列矩阵T^t；

第二转换模块：设置为根据所述目标序列向量Sg、参考序列向量Sr、源序列矩阵T及目标序列矩阵T^t获得t+1时刻的目标序列矩阵T^t+1，并将目标序列矩阵转换成逻辑向量，根据所述逻辑向量获得最优传输损失；

翻译模块：设置为将所述最优传输损失作为所述序列模型的损失函数对所述序列模型进行训练，获得最终训练模型，根据所述最终训练模型对输入文本进行翻译。

本申请还公开了一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被一个或多个所述处理器执行时，使得一个或多个所述处理器执行上述所述翻译方法的步骤。

本申请还公开了一种存储介质，所述存储介质可被处理器读写，所述存储介质存储有计算机指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述所述翻译方法的步骤。

本申请的有益效果是：本申请通过在参考序列与目标序列之间计算最优传输损失，并将最优传输损失替代原损失函数，可以有效提高模型的预测结果。

附图说明

图1为本申请第一个实施例的一种基于最优传输损失的序列模型的翻译方法的流程示意图；

图2为本申请第二个实施例的一种基于最优传输损失的序列模型的翻译方法的流程示意图；

图3为本申请第三个实施例的一种基于最优传输损失的序列模型的翻译方法的流程示意图；

图4为本申请第四个实施例的一种基于最优传输损失的序列模型的翻译方法的流程示意图；

图5为本申请第五个实施例的一种基于最优传输损失的序列模型的翻译方法的流程示意图；

图6为本申请第六个实施例的一种基于最优传输损失的序列模型的翻译方法的流程示意图；

图7为本申请第七个实施例的一种基于最优传输损失的序列模型的翻译方法的流程示意图；

图8为本申请实施例的一种基于最优传输损失的序列模型的翻译装置结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。

本申请第一个实施例的一种基于最优传输损失的序列模型的翻译方法流程如图1所示，本实施例包括以下步骤：

步骤s101，获取输入文本及参考文本，将所述输入文本输入序列模型，获取的源序列及目标序列，根据所述源序列及目标序列获得源序列向量S及目标序列向量Sg，根据所述参考文本获得参考序列向量Sr；

具体的，首先可获取输入文本及参考文本，所述输入文本为原始的待翻译文本，例如可以是一段中文或者外文，所述参考文本是翻译后的文本，所述翻译后文本是针对所述输入文本进行翻译的，是最接近所述输入文本的翻译文本，所述参考文本用于和模型的输出文本进行比较，提高模型的翻译精确度；当获取到输入文本后，可将所述输入文本输入到序列模型中，所述序列模型指的是序列到序列的机器翻译模型，所述模型可采用LSTM(LongShort-Term Memory，长短期记忆)时间递归神经网络，并使用2层的双向LSTM单元作为编码器，4层的双向LSTM单元作为解码器，所述序列到序列模型基于编码器-解码器结构被广泛应用在机器翻译中，它使用编码器将源序列映射为隐藏向量，并使用解码器将隐藏矢量翻译为目标序列；所述序列到序列模型以优化交叉熵损失作为目标，主要测量目标序列各个位置的词差；当所述输入文本输入序列模型后，可获得源序列和目标序列，并通过所述序列模型可将所述源序列和目标序列分别映射成源序列向量S和目标序列向量Sg；而对于参考文本，无需输入到序列模型，直接映射成参考序列向量Sr即可。

步骤s102，将所述源序列向量S转换成源序列矩阵T，并将时刻t的目标序列向量转换成目标序列矩阵T^t；

具体的，可将源序列向量S转换成源序列矩阵T，所述转换包括将源序列向量空间中的词向量以矩阵的形式表示；并将时刻t的目标序列向量转换成目标序列矩阵T^t，由于翻译是一步步进行的，因此目标序列会有多个，即在不同的时刻会有不同的目标序列生成，而最终会生成一个最终的目标序列，因此在时刻t将所述目标序列向量进行转换后可获得目标序列矩阵T^t。

步骤s103，根据所述目标序列向量Sg、参考序列向量Sr、源序列矩阵T及目标序列矩阵T^t获得t+1时刻的目标序列矩阵T^t+1，并将目标序列矩阵转换成逻辑向量，根据所述逻辑向量获得最优传输损失；

具体的，当获得目标序列向量Sg、参考序列向量Sr、源序列矩阵T及目标序列矩阵T^t之后，可根据上述参数计算获得t+1时刻的目标序列矩阵T^t+1，所述矩阵T^t+1为通过序列模型对文本进行下一次预测获得的目标序列的矩阵，在每个时刻t，将通过模型输出的目标序列矩阵T^t转换成逻辑向量V^t，然后将所述逻辑向量V^t通过softmax函数进行归一化处理，由于所述目标序列矩阵T^t是不可以进行归一化处理的，因此需要将目标序列矩阵T^t转换成逻辑向量才可以，经过归一化之后，由于原LSTM序列模型中的损失函数是交叉熵损失函数，因此通过归一化之后，交叉熵损失函数转换成新的损失函数，而所述新的损失函数可认为是最优传输损失函数。

步骤s104，将所述最优传输损失作为所述序列模型的损失函数对所述序列模型进行训练，获得最终训练模型，根据所述最终训练模型对输入文本进行翻译。

具体的，当获得最优传输损失函数之后，可将所述最优传输损失函数作为所述序列模型的损失函数对所述序列模型进行训练，所述训练包括输入新的样本文本对所述序列模型进行训练，并观察输出样本的准确率，当所述输出样本的准确率达到要求后，可结束训练，并将最后一次训练获得的序列模型设为最终训练模型，并根据所述最终训练模型对所有的输入文本进行翻译。

本实施例中，通过在参考序列与目标序列之间计算最优传输损失，并将最优传输损失替代原损失函数，可以有效提高模型的预测结果。

图2为本申请第二个实施例的一种基于最优传输损失的序列模型的翻译方法流程示意图，如图所示，所述步骤s101，根据所述源序列及目标序列获得源序列向量S及目标向量Sg，包括：

步骤s201，将所述源序列映射到向量空间，获得源序列向量S；

具体的，当获取到源序列之后，由于源序列是各个词的组合形式，因此可将所述源序列在向量空间上进行映射，获得源序列向量S，所述源序列向量S包括了源序列中各个词的向量。

步骤s202，将所述目标序列映射到向量空间，获得目标序列向量Sg。

具体的，当获取到目标序列之后，由于目标序列是各个词的组合形式，因此可将所述目标序列在向量空间上进行映射，获得目标序列向量Sg，所述目标序列向量Sg包括了目标序列中各个词的向量。

本实施例中，通过将源序列及目标序列进行向量的转换，有利于向量矩阵的获取。

图3为本申请第三个实施例的一种基于最优传输损失的序列模型的翻译方法流程示意图，如图所示，所述步骤s202，将所述目标序列映射到向量空间，获得目标序列向量Sg，包括：

步骤s301，在每个时刻t，将所述目标序列映射到向量空间，获得每个时刻的目标序列向量Sg^t；

具体的，在获取目标序列的过程中，是一步一步获得，即在每个时刻t，都会产生一个目标序列，因此可在每个时刻t，将所述每个时刻t产生的目标序列映射到向量空间，获得每个时刻t的目标序列向量Sg^t。

步骤s302，将所有时刻的目标向量Sg^t按时间顺序拼接成目标序列向量Sg。

具体的，将每个时刻的目标序列向量Sg^t进行存储；由于在每一个时间t得到的解码输出都有/EOS作为结束符，用以标识所述当前时刻的目标序列向量，因此当所有时刻t的目标向量Sg^t获得以后，可以按照时间顺序以及结束符将所有时刻的目标向量Sg^t拼接起来，形成一个新的目标序列向量Sg，例如，第一时刻t1有目标向量Sg^t1，第二时刻t2有目标向量Sg^t2，第n时刻tn有目标向量Sg^tn，则将所有时刻的目标向量拼接之后就形成新的目标向量Sg＝Sg^t1Sg^t2...Sg^tn。

本实施例中，通过对不同时刻的目标序列向量进行拼接，获得总的目标序列向量，可以提高目标序列向量的包含内容，提高模型的翻译准确率。

图4为本申请第四个实施例的一种基于最优传输损失的序列模型的翻译方法流程示意图，如图所示，所述步骤s103，根据所述目标向量Sg、参考序列向量Sr、源序列矩阵T及目标序列矩阵T^t获得t+1时刻的目标序列矩阵T^t+1，包括：

步骤s401，根据所述目标向量Sg及参考序列向量Sr获得所述目标向量Sg与参考序列向量Sr之间的向量损失C；

具体的，当获得目标向量Sg及参考序列向量Sr之后，可计算目标向量Sg中各个词的向量与参考序列向量Sr中各个词的向量之间的损失C(Sr，Sg)所述损失C可通过欧式距离进行计算。

步骤s402，根据公式T^t+1＝argmin{(T，C)+βε(T，T^t)}获得t+1时刻的目标序列矩阵T^t+1，其中β为步长，ε为惩罚项。

具体的，当获得向量损失C之后，可根据公式T^t+1＝argmin{(T，C)+βε(T，T^t)}获得t+1时刻的目标序列矩阵T^t+1，其中，T为文本源序列被映射到向量空间的矩阵形式，C为目标序列与参考序列向量之间的损失，β为通用步长，步长是用来计算矩阵T的用户自定义参数，一般为一个较小数值；这里的步长指的是每一步预测的单词向量数量，一个单词表示为一个向量，每次训练所使用的向量数量，步长越长计算量越大，对机器性能也有要求；ε为惩罚项，T^t为t时刻文本目标序列被映射到向量空间的矩阵形式，(T,C)是对矩阵T和损失函数C进行点乘运算。

本实施例中，通过获取目标序列向量与参考序列向量之间的向量损失，并根据所述向量损失获取目标向量矩阵，有利于获取序列模型中的传输损失。

图5为本申请第五个实施例的一种基于最优传输损失的序列模型的翻译方法流程示意图，如图所示，所述步骤s103，将目标序列矩阵转换成逻辑向量，根据所述逻辑向量获得最优传输损失，包括：

步骤s501，获取每个时刻的目标序列矩阵T^t，并将所述每个时刻的目标序列矩阵T^t转换成每个时刻的逻辑向量V^t；

具体的，可先获取每个时刻的目标序列矩阵T^t，在每个时刻t将所述目标序列矩阵T^t转换成每个时刻的逻辑向量V^t，以便于对所述逻辑向量V^t进行归一化处理。

步骤s502，根据公式W^t＝softmax(V^t/τ)对所述每个时刻的逻辑向量V^t进行归一化处理，获得最优传输损失。

具体的，根据公式W^t＝softmax(V^t/τ)对所述每个时刻的逻辑向量V^t进行归一化处理，其中，τ为退火参数，W^t为归一化后的每个逻辑向量的权重，由于原LSTM序列模型中的损失函数是交叉熵损失函数，因此通过归一化之后，可认为交叉熵损失函数已转换为最优损失函数失函数。

本实施例中，通过将目标序列向量转换成逻辑向量，有利于进行归一化，由此获得最优损失函数。

图6为本申请第六个实施例的一种基于最优传输损失的序列模型的翻译方法流程示意图，如图所示，所述步骤s104，将所述最优传输损失作为所述序列模型的损失函数对所述序列模型进行训练，包括：

步骤s601，将所述最优传输损失作为序列模型的损失函数，获得新的序列模型，并将输入文本输入到所述新的序列模型中进行训练；

具体的，可将获得的最优传输损失函数作为序列模型的损失函数，这样原序列模型就变成新的序列模型，在所述新的序列模型上，可以选取新的样本文本输入到所述新的序列模型中进行训练，由此提高所述序列模型的准确率。

步骤s602，在每一次对所述新的序列模型进行训练时，减小所述序列模型的学习率。

具体的，可使用指数衰减法来减小训练中的学习率，先使用较大学习率得到较优解，随后根据损失逐渐减小学习率使模型在训练时期更稳定。

本实施例中，通过将最优传输损失函数替代序列模型的损失函数，可以提高序列模型的准确率。

图7为本申请第七个实施例的一种基于最优传输损失的序列模型的翻译方法流程示意图，如图所示，所述步骤s104，获得最终训练模型，包括：

步骤s701，预设文本相似度阈值；

具体的，可以预先设定文本相似度阈值，所述文本相似度阈值是两个文本相似度的阈值，所述文本相似度是两个文本相似的程度，所述文本相似度可以通过文本匹配模型获得。

步骤s702，当每次对所述序列模型进行训练后，获得输出文本，将所述输出文本与所述参考文本进行比较，获得文本相似度；

具体的，当每次对所述序列模型进行训练时，可获得每次的输出文本，并将所述每次获得的输出文本与所述参考文本进行比较，每次的输出文本与所述参考文本是对应的，例如，如果输入文本是A，则输出文本是A1，参考文本是A2，这时可将A1与A2进行比较，获得文本相似度；如果输入文本是B，则输出文本是B1，参考文本是B2，这时可将B1与B2进行比较，获得文本相似度。

步骤s703，当所述文本相似度大于所述文本相似度阈值时，停止训练，将当前的序列模型作为最终训练模型。

具体的，当对所述序列模型进行训练过后获得文本相似度时，可将每次的文本相似度与所述预设的文本相似度阈值进行比较，当当所述文本相似度大于所述文本相似度阈值时，这时可以停止训练，所述序列模型已经达到准确度要求，可将当前的序列模型作为最终训练模型。

本实施例中，通过设置文本相似度阈值对所述序列模型进行训练，可以提高所述序列模型的准确度。

本申请实施例的一种基于最优传输损失的序列模型的翻译装置结构如图8所示，包括：

获取模块801、第一转换模块802、第二转换模块803及翻译模块804；其中，获取模块801与第一转换模块802相连，第一转换模块802与第二转换模块803相连，第二转换模块803及翻译模块804相连；获取模块801设置为获取输入文本及参考文本，将所述输入文本输入序列模型，获取的源序列及目标序列，根据所述源序列及目标序列获得源序列向量S及目标序列向量Sg，根据所述参考文本获得参考序列向量Sr；第一转换模块802设置为将所述源序列向量S转换成源序列矩阵T，并将时刻t的目标序列向量转换成目标序列矩阵T^t；第二转换模块803设置为根据所述目标序列向量Sg、参考序列向量Sr、源序列矩阵T及目标序列矩阵T^t获得t+1时刻的目标序列矩阵T^t+1，并将目标序列矩阵转换成逻辑向量，根据所述逻辑向量获得最优传输损失；翻译模块804设置为将所述最优传输损失作为所述序列模型的损失函数对所述序列模型进行训练，获得最终训练模型，根据所述最终训练模型对输入文本进行翻译。

本申请实施例还公开了一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被一个或多个所述处理器执行时，使得一个或多个所述处理器执行上述各实施例中所述翻译方法中的步骤。

本申请实施例还公开了一种存储介质，所述存储介质可被处理器读写，所述存储器存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述各实施例中所述翻译方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于最优传输损失的序列模型的翻译方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于最优传输损失的序列模型的翻译方法，其特征在于，所述根据所述源序列及目标序列获得源序列向量S及目标序列向量Sg，包括：

将所述源序列映射到向量空间，获得源序列向量S；

将所述目标序列映射到向量空间，获得目标序列向量Sg。

3.如权利要求2所述的基于最优传输损失的序列模型的翻译方法，其特征在于，所述将所述目标序列映射到向量空间，获得目标序列向量Sg，包括：

4.如权利要求3所述的基于最优传输损失的序列模型的翻译方法，其特征在于，所述根据所述目标序列向量Sg、参考序列向量Sr、源序列矩阵T及目标序列矩阵T^t获得t+1时刻的目标序列矩阵T^t+1，包括：

5.如权利要求4所述的基于最优传输损失的序列模型的翻译方法，其特征在于，所述将目标序列矩阵转换成逻辑向量，根据所述逻辑向量获得最优传输损失，包括：

6.如权利要求5所述的基于最优传输损失的序列模型的翻译方法，其特征在于，所述将所述最优传输损失作为所述序列模型的损失函数对所述序列模型进行训练，包括：

7.如权利要求6所述的基于最优传输损失的序列模型的翻译方法，其特征在于，所述获得最终训练模型，包括：

预设文本相似度阈值；

8.一种基于最优传输损失的序列模型的翻译装置，其特征在于，所述装置包括：

9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被一个或多个所述处理器执行时，使得一个或多个所述处理器执行如权利要求1至7中任一项所述翻译方法的步骤。

10.一种存储介质，其特征在于，所述存储介质可被处理器读写，所述存储介质存储有计算机指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至7中任一项所述翻译方法的步骤。