CN110399619A

CN110399619A - 面向神经机器翻译的位置编码方法及计算机存储介质

Info

Publication number: CN110399619A
Application number: CN201910693637.6A
Authority: CN
Inventors: 徐小龙; 柳林青; 孙雁飞
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2019-07-30
Filing date: 2019-07-30
Publication date: 2019-11-01
Anticipated expiration: 2039-07-30
Also published as: CN110399619B

Abstract

本发明公开了一种面向神经机器翻译的位置编码方法和计算机存储介质，方法包括以下步骤：1)将训练语料中的非重复词汇构成词典形成词汇空间矩阵，计算位置缩放系数向量矩阵和位置偏移量向量矩阵；2)生成词汇嵌入向量；3)从训练语料中抽取源语句向量矩阵，将其中包含的词汇嵌入向量与位置缩放系数向量矩阵逐元素相乘，再与位置偏移量向量矩阵逐元素相加；4)将结果输入到深度学习模型中进行正向传播，并计算得出模型损失；5)将模型损失通过反向传播更新参数；6)重复步骤2)至步骤5)直至所述深度学习模型收敛。本发明可以在不增加额外的模型训练时间的前提下，使目前主流的机器翻译模型实现更高的翻译精度。

Description

面向神经机器翻译的位置编码方法及计算机存储介质

技术领域

本发明涉及一种位置编码方法及计算机存储介质，特别是涉及一种面向神经机器翻译的位置编码方法及计算机存储介质。

背景技术

位置编码方法是为了将序列化的词汇数据以并行的方式输入并行化深度学习模型，同时又要在这些数据中体现原本词汇的序列特征，在这个过程中，我们可以使用向量串联、向量相乘、向量相加的办法，对词汇数据进行位置编码补偿，使这些数据的位置特征能够在深度学习模型的正向传播和误差逆传播过程中参与运算，使得最终的模型能够既兼顾词汇本身的特征，也能体现语料库的中各个词汇的位置特征。

目前主流的位置编码方法主要有三种：(1)向量串联方法：将词汇的嵌入向量与词汇的位置向量串联起来做为后续深度训练模型的输入表征。在具体的关系分类任务中，一个单词词汇的位置向量由它与两个待分类关系的词汇各自位置的距离有关。初始化一个位置矩阵，当前处理词汇与目标词汇之间的距离对应这个矩阵中不同的向量，即距离向量。向量串联方法包含不同的子方法，区别在于采用了不同的距离到对应向量的映射。(2)绝对位置偏移量方法：据词汇序列中不同位置的序号生成对应的位置向量，并将其各种不同句子中对应位置词汇的嵌入向量相加，做为后续深度训练模型的输入表征。需要说明的是，这个方法要求位置向量维度与词汇的嵌入向量维度相同，否则无法进行加法运算，同时嵌入向量的值也是固定的，而非可训练的。不同的子方法反应不同的位置序号到位置向量的映射函数，这个映射函数为深度学习模型的超参数之一。这种位置编码方法的主要思路是用固定的、可区分彼此的位置编码向量将词汇序列中的词汇彼此区别开来，由于向量参数值在训练过程中不可调整，因此理论上来说其对于模型的优化有限，但试验发现其这种方法的效果在某些特定条件下反而优于其他方法。(3)可训练的位置偏移量方法：可训练的位置偏移量方法与绝对位置偏移量方法之间的不同在于相加的偏移量在数值上是可以通过误差逆传播方式将最终的翻译误差反馈回来进行更新的，即设置这种偏移量的主要思路是计算出与特定语料库相匹配的各个位置的位置编码，其主要特征是“相匹配”的，而非“可区分的”。

上述三种位置编码方法主要的设计思路为“强调位置的重要性是有固定而有区别的，并将这种重要性体现在词汇的编码中”，其中重点在于位置编码对词汇编码的补偿作用，这种补偿可以是正补偿也可以是负补偿，即补偿后的词汇编码在数值上可以增大也可以缩小。位置编码只作为词汇编码的附属性质，针对不同的训练语料，生成不同的位置编码。在未添加位置编码深度学习模型中，由于用于训练的语料库只是对应的语言体系下所生成的全部语言文字作品的真子集，不能够体现对应语言体系的所有规则，因此训练出来的深度模型中的词汇编码与训练语料高度相关，训练模型的鲁棒性不高，表现在测试集的准确性不高且数值不稳定。

发明内容

发明目的：本发明要解决的技术问题是提供一种面向神经机器翻译的位置编码方法及计算机存储介质，解决了现有方法在深度学习中训练模型的鲁棒性不高、准确性不高的不足，在不增加额外的模型训练时间、训练参数量和模型结构复杂度的前提下，有效地提高了训练模型的鲁棒性。

技术方案：本发明所述的面向神经机器翻译的位置编码方法，包括以下步骤：

(1)将训练语料中的非重复词汇构成词典，并对其初始化，形成词汇空间矩阵，随机初始化位置缩放系数和位置偏移量，形成位置缩放系数向量矩阵和位置偏移量向量矩阵；

(2)将训练语料中源语句中的单词词汇通过one-hot方法映射到所述词汇空间矩阵的对应向量上，生成词汇嵌入向量；

(3)从训练语料中抽取源语句向量矩阵，将其中包含的词汇嵌入向量与位置缩放系数向量矩阵逐元素相乘，再与位置偏移量向量矩阵逐元素相加；

(4)将步骤(3)中的结果输入到深度学习模型中进行正向传播，并将结果与源语句所对应的目标翻译语句进行softmax计算得出模型损失；

(5)将模型损失通过反向传播更新模型参数、缩放系数向量组、位置偏移量向量组和词汇空间矩阵；

(6)重复步骤(2)至步骤(5)直至所述深度学习模型收敛。

进一步的，步骤(3)生成的词汇序列为S＝(wp₁,…,wp_N)，其中，

其中，i＝1,…,N，N为词汇嵌入向量的个数，表示词汇嵌入向量，d_model表示词汇的嵌入维度，为步骤(1)中所述的位置缩放系数向量矩阵，为步骤(1)中所述的位置偏移量向量矩阵，

其中，λ₁,…,为可训练参数。

进一步的，步骤(4)中的深度学习模型为RNN模型、CNN模型、Transformer模型和BERT模型中的一种。

进一步的，步骤(4)中所述深度学习模型使用深度学习工具tensor2tensor建立。

进一步的，步骤(5)中通过反向传播更新参数的方法为带Momentum的梯度下降算法。

本发明所述的计算机存储介质，其上存储有计算机程序，所述计算机程序在被计算机处理器执行时实现上述面向神经机器翻译的位置编码方法。

有益效果：本发明能够通过训练位置编码将训练语料各个词汇的位置特征从词汇本身的特征中进一步剥离出来，使训练模型的鲁棒性提高，在不增加额外的模型训练时间、训练参数量和模型结构复杂度的前提下，使目前主流的机器翻译模型实现更高的翻译精度。另一方面，本发明的实现方式与具体深度学习模型的种类无关，添加本发明所提出的方法后技术人员仍可以任意选取他们之前适用的深度学习模型进行工程开发，适用性更强。本发明最终得到的收敛后的深度学习模型应用于目前主流的神经翻译中，进行机器翻译、翻译评估等应用，翻译的精度得到了显著提高。

附图说明

图1是本发明实施方式的整体流程图。

具体实施方式

本发明实施方式的方法流程如图1所示，具体为：

(1)将训练语料中的非重复词汇构成词典，并对其初始化，形成词汇空间矩阵，随机初始化位置缩放系数和位置偏移量，形成位置缩放系数向量矩阵和位置偏移量向量矩阵。

训练样本为平行语料，即“源语句—目标语句”：一组二元源数据，源语句与目标语句互为源语言和目标语言中含义对应的数据。词典是在工程上比较常用的word2vec方法中介绍到的概念，词汇空间矩阵的维度为V_dim行、E_dim列，其中V_dim为语句集合包含的所有非重复词汇的总数量，是由语料库的特性决定的；E_dim为词汇的嵌入维度，是深度学习模型的超参，由用户决定，对模型的最终性能有所影响，而E_dim一般远远小于V_dim，这就相当于对每个非重复词汇来说，初始化了一个维度为E_dim的向量，用此向量中的E_dim个实浮点数所代表的高维向量分布来唯一地表示这个词汇，而V_dim个词汇的嵌入向量彼此之间是不可能相等的，这样在深度学习过程当中，通过深度学习模型的前向传播和误差逆传播，所有词汇对应的向量中的所有元素的值会被不断地更新，以使深度学习模型的输出更符合“源语句—目标语句”的含义对应关系。

位置缩放系数向量矩阵和位置偏移量向量矩阵，与词汇空间矩阵的性质相近，词汇空间矩阵对应独一无二的词汇，而位置缩放系数和位置偏移量对应独一无二的位置，因此位置缩放系数向量矩阵和位置偏移量向量矩阵是同维的矩阵，即P_dim行、E_dim列，P_dim表示用户设置的深度学习模型可接受的最大源语句(目标语句)长度，与E_dim同数量级，词典体现了每个词汇的特征，位置缩放系数和位置偏移量则体现了训练语料中句子上每个位置的特征，词汇A在训练语料中可能会出现很多次，在训练语料中的不同的句子里的位置也大概率不会相同，比如在一个句子中是第5个词汇，在另一个句子中就变成了第9个词汇，那么这个词汇所属的不同的句子在被输入深度学习模型进行训练时，就要与不同的位置缩放系数和偏移量做运算，即一样的词汇向量，不同的位置缩放系数和偏移量。本发明所使用的深度学习模型种类可以不同，即其参数量和参数结构可以变化，但训练语料不会变化，因而词典、位置缩放系数和位置偏移量的结构不会变化，它们为独立于所选择的深度学习模型参数的对象。

对于元素序列化分布的源数据，添加了基于位置的缩放系数使其元素本身的编码特征得到强化或者削弱，并通过后期的训练能够控制这种强化或者削弱的程度，使其匹配模型的最佳参数分布。对于添加了缩放系数的源数据元素，进一步添加了基于位置的偏移量，将元素的序列位置特征与元素本身的编码特征结合了起来，并通过后期的训练能够控制这个序列位置特征在元素编码之中的作用，使其匹配模型的最佳参数分布。所以，经过添加位置缩放系数和位置偏移量，能使原本不适合输入并行深度学习模型的具有序列属性的源数据也能够适用于并行深度学习模型。

步骤(3)生成的词汇序列为S＝(wp₁,…,wp_N)，其中，

其中，i＝1,…,N，N为词汇嵌入向量的个数，表示词汇嵌入向量，d_model表示词汇的嵌入维度，为步骤(1)中所述的位置缩放系数向量矩阵，为步骤(1)中所述的位置偏移量向量矩阵，也为可训练参数，

λ₁,…,为可训练参数。

中非0元素全部为可训练的参数，这样为深度学习模型增加了2×N×d_model个可训练参数，对深度学习模型的训练时间几乎可以忽略不计，也未显著增加模型结构复杂度。

softmax计算方法为根据深度学习模型所计算得出的源语句的词汇向量求出最可能的目标语句词典中对应各个单词序号对应所在位置的概率，并将此概率在真实目标词汇在词典中对应位置的值挑出作为损失，将源语句所有词汇的对应损失求和为最终的训练样本损失。

本方法与具体的深度学习模型的种类无关，无论是RNN模型，CNN模型，Transformer模型，还是BERT模型，本发明方法都适用。因为其本质上是一种训练数据预处理技术，是为了给要输入深度学习模型的数据添加更好的序列化特征而提出的。因此，经过本专利提出的方法处理过的数据，与原数据在纬度和数值特征上并没有什么不同。技术人员可以任意选取他们之前适用的深度学习模型进行工程开发，不会因为添加了本发明的方法以后，原有的深度学习模型就变得不可用了，后续的深度学习模型实现环节是不变的。

具体实现中，可以使用深度学习工具tensor2tensor建立神经机器翻译深度学习模型seq2seq(或者CNN、Transformer等模型)，将步骤(3)生成的结果作为训练语料，输入模型进行正向传播，并将结果与源语句对应的翻译语句进行softmax计算得出模型损失；

(5)将模型损失通过反向传播更新模型参数、缩放系数向量组、位置偏移量向量组和词汇空间矩阵；反向传播更新可以采用反向链式传播方法，不论是理论上还是工程上都已经非常成熟，有大量的标准化模块可以使用。具体实施中，可以使用带Momentum的梯度下降算法进行误差反向传播，将步骤(4)生成的模型损失传播回seq2seq模型的各个参数并对参数进行修正。

(6)重复步骤(2)至步骤(5)直至所述深度学习模型收敛。

下面结合数据实例进一步叙述具体实施过程：

对于输入的每一对平行语料，即源语句——翻译语句，可以得到一对词汇序列，如下所示：

“source_token_1,source_token_2,source_token_3,…source_token_N1”；

“target_token_1,target_token_2,target_token_3,…target_token_N2”；

N1和N2分别表示了源语句和目标翻译语句的词汇个数。

分别统计所有源语句和目标翻译语句所包含非重复词汇并构成词典，给每一个词汇编号，并分别初始化源语句和目标翻译语句的词典，形成可训练的词汇空间矩阵(元素一般服从高斯分布)，维度为V_dim行、E_dim列，其中V_dim为语句集合包含的所有非重复词汇的总数量，是由语料库的特性决定的；E_dim为词汇的嵌入维度，是深度学习模型的超参，由用户决定，对模型的最终性能有所影响。

经过词汇编号这一过程，每一对平行语料的词汇序列表示形式变为：

“source_vector_1,source_vector_2,source_vector_3,…source_vector_N1”；

“target_vector_1,target_vector_2,target_vector_3,…target_vector_N2”；

其中每个vector表示为一个V_dim维的向量，该向量除了编号为此词汇在词典中的编号位置的元素为1之外，其余元素为0(又称为热独向量)。

以源语句的编码表示为例，将源语句的每一个source_vector与词汇空间矩阵做向量与矩阵的乘法，得到对应词汇的嵌入向量。由于E_dim一般远小于V_dim，因此此举相当于为词汇空间进行了降维，源语句的词汇序列表示形式变为：“w₁,w₂,w₃,…w_N1”；

其中每个w表示为一个E_dim维的向量，称为词汇嵌入向量。

将此初始化同样维度的，可训练的缩放系数向量组：“PE_s₁,PE_s₂,PE_s₃,…PE_sN₁”和可训练的偏移量向量组：“PE_o₁,PE_o₂,PE_o₃,…PE_oN₁”，将w与PE_s向量进行逐个元素的点乘，然后与PE_o进行逐个元素的相加，生成添加了位置向量的此嵌入向量，源语句的词汇序列表示形式变为：“wp₁,wp₂,wp₃,…wp_N1”；将此词汇序列输入seq2seq、CNN、Transformer等典型的神经机器翻译深度学习模型进行对模型进行正向传播，并将误差反向传播至缩放系数向量组和偏移量向量组进行修正。

以seq2seq模型为例，已知输入的源语句词汇序列表示形式为“wp₁,wp₂,wp₃,…wp_N1”，其中wp_i的纬度为E_dim，将其扩展为“wp₍₁,0),wp_(2,0),wp₍₃,0),…wp_(N1,0)”。

S4.1:初始化n组E_dim维全0向量z_(0,1)～z_(0,n)，初始化n个编码器LSTM核心LSTM₁～LSTM_n；

S4.2:在i从0到n-1的过程中，重复将wp_(m,i)与z_(m-1,i+1)放入LSTM_i+1进行计算并得到wp_(m,i+1)与z_(m,i+1)，直至最终得到wp_(m,n-1)与z_(m,n)；

S4.3:在m从1到N1的过程中，不断重复步骤S4.2，最终得到z_(N1,1)～z_(N1,n)；

S4.1～S4.3称为编码过程；

输入的目标语句词汇序列表示形式为“wp₁’,wp₂’,wp₃’,…wp_N1’”,其中wp_i’的纬度为E_dim，将其扩展为“wp_(1,0)’,wp_(2,0)’,wp_(3,0)’,…wp_(N1,0)’”；

S4.4:初始化n个解码器LSTM核心LSTM₁’～LSTM_n’，初始化翻译开始信号向量str为E_dim维全0向量；

S4.5:将str和z_(N1,1)～z_(N1,n)实施S4.2计算过程，得到wp_(0,n-1)’和d_(0,1)～d_(0,n)，并用wp_(0,n-1)’与真实的翻译词汇向量wp_(1,0)’一起实施softmax计算，得到第一个词汇翻译对的信息熵；

S4.5:使用后一个位置的词汇向量替换前一个位置的词汇向量作为输入，使用计算得到的向量组d替换前一组向量d，输入解码器核心LSTM₁’～LSTM_n’进行计算，并将最后一个解码器核心LSTM_n’的输出作为下一个位置的预测结果词汇向量，并与下一个位置的真实词汇向量实施softmax计算，得到下一个位置的词汇对的信息熵；

S4.6:直到计算到最后一个词汇对的信息熵为止，对所有位置的词汇对的信息熵求和，记为当前训练语句对的损失值；

S4.4～S4.6称为解码过程；

S5:通过反向链式求导，使用带Momentum的梯度下降算法更新各个LSTM核心的参数，以及深度学习模型的其他参数，包括词典、位置缩放系数和位置偏移量，参数更新的公式为：

其中θ为需要更新的参数，α∈(0,1)为学习率，需要人为设定，J(θ)为以参数θ为自变量的损失函数，在本例中，我们可以将从训练语料的one-hot编码到最终的损失值的计算过程看作J(θ)；

S6:从训练样本中抽取一组样本输入模型进行计算并更新模型参数，并重复这个过程，直至人为设定的循环条件满足(比如对训练样本的抽取使得平均每个样本至少被用来进行了若干次计算，或深度学习模型的所有参数更新变化值的和小于某个阈值)。

本发明实施例如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本发明实例不限制于任何特定的硬件和软件结合。

相应的，本发明的实施例还提供了一种计算机存储介质，其上存储有计算机程序。当所述计算机程序由处理器执行时，可以实现前述面向神经机器翻译的位置编码方法。例如，该计算机存储介质为计算机可读存储介质。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

Claims

1.一种面向神经机器翻译的位置编码方法，其特征在于，包括以下步骤：

(6)重复步骤(2)至步骤(5)直至所述深度学习模型收敛。

2.根据权利要求1所述的面向神经机器翻译的位置编码方法，其特征在于：步骤(3)生成的词汇序列为S＝(wp₁，...，wp_N)，其中，

其中，i＝1，...，N，N为词汇嵌入向量的个数，表示词汇嵌入向量，d_model表示词汇的嵌入维度，为步骤(1)中所述的位置缩放系数向量矩阵，为步骤(1)中所述的位置偏移量向量矩阵，

其中，为可训练参数。

3.根据权利要求1所述的面向神经机器翻译的位置编码方法，其特征在于：步骤(4)中的深度学习模型为RNN模型、CNN模型、Transformer模型和BERT模型中的一种。

4.根据权利要求1所述的面向神经机器翻译的位置编码方法，其特征在于：步骤(4)中所述深度学习模型使用深度学习工具tensor2tensor建立。

5.根据权利要求1所述的面向神经机器翻译的位置编码方法，其特征在于：步骤(5)中通过反向传播更新参数的方法为带Momentum的梯度下降算法。

6.一种计算机存储介质，其上存储有计算机程序，其特征在于：所述计算机程序在被计算机处理器执行时实现权利要求1至5任一项所述的方法。