CN113420869A

CN113420869A - 基于全方向注意力的翻译方法及其相关设备

Info

Publication number: CN113420869A
Application number: CN202110735132.9A
Authority: CN
Inventors: 孔令炜; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2021-09-21
Anticipated expiration: 2041-06-30
Also published as: CN113420869B

Abstract

本申请实施例属于人工智能领域，应用于智慧安防领域，涉及一种基于全方向注意力的翻译方法及其相关设备，包括接收含有线性层、归一层和组合层的深度学习翻译模型，组合层包括全方向层和编码解码层；将训练样本输入第一个编码解码层，获得目标样本特征；将目标样本特征输入第一个全方向层，获得第一序列；第一个全方向层之后存在下一个组合层时，将第一序列输入下一个组合层，获得第二序列；直至经过所有组合层，将第二序列依次经过线性层和归一层，获得翻译结果；训练深度学习翻译模型，获得训练后的深度学习翻译模型；将待翻译数据输入训练后的深度学习翻译模型，获得目标翻译数据。深度学习翻译模型可存储于区块链中。本申请提高翻译的准确率。

Description

基于全方向注意力的翻译方法及其相关设备

技术领域

本申请涉及人工智能技术领域，尤其涉及基于全方向注意力的翻译方法及其相关设备。

背景技术

机器翻译是一种借助程序将一种自然语言翻译成另一种自然语言的的技术，这项技术经过长期的发展变化，已经从最早的基于规则替换，到基于统计的机器翻译模型，变成现在的普遍基于人工神经网络的局面。

目前主流的神经网络翻译模型——Transformer模型，通过训练注意力机制来实现机器翻译，但传统的注意力机制使得在训练中损失了大量的信息，尤其随着模型的深度的增加，注意力机制丢失的信息量会显著提升，这导致机器翻译模型总是难以达到完美流畅的翻译效果。例如，在《Attention is all you need》一文中所提出的Transformer模型架构就有6个编码器和6个解码器，深度为12，最终输出结果相比较输入文本，已经丢失了大量信息。

发明内容

本申请实施例的目的在于提出一种基于全方向注意力的翻译方法及其相关设备，提高翻译的准确率。

为了解决上述技术问题，本申请实施例提供一种基于全方向注意力的翻译方法，采用了如下所述的技术方案：

一种基于全方向注意力的翻译方法，包括下述步骤：

接收已标记的训练样本和预设的深度学习翻译模型，所述深度学习翻译模型包括线性层、归一层和至少一个组合层，所述组合层包括全方向层和编码解码层；

将所述训练样本输入至所述深度学习翻译模型的第一个所述编码解码层中，获得输出的目标样本特征，并将所述目标样本特征输入至所述深度学习翻译模型的第一个所述全方向层中，获得输出的第一序列；

判断所述第一个所述全方向层之后是否存在下一个所述组合层，在所述第一个所述全方向层之后存在下一个所述组合层时，将所述第一序列输入至下一个所述组合层中，获得输出的第二序列；

直至经过所有所述组合层，将所述第二序列依次经过所述线性层和所述归一层，获得输出的翻译结果；

基于所述翻译结果迭代训练所述深度学习翻译模型，获得训练后的深度学习翻译模型；

接收待翻译数据，将所述待翻译数据输入至所述训练后的深度学习翻译模型中，获得目标翻译数据。

进一步的，所述全方向层包括全方向注意力层和池化层，所述将所述目标样本特征输入至所述深度学习翻译模型的第一个所述全方向层中，获得输出的第一序列的步骤包括：

将所述目标样本特征输入至所述全方向注意力层中，获得输出的初始序列；

将所述初始序列输入至所述池化层中，获得输出的所述第一序列。

进一步的，所述将所述目标样本特征输入至所述全方向注意力层中，获得输出的初始序列的步骤包括：

所述全方向注意力层的特征为:

O＝Attend(IndexSort(X₁,X₂,…,X_L))，其中，Attend表示自注意力，IndexSort表示IndexSort函数基于预设的目录对所述目标样本特征中的文本进行排序，O表示所述初始序列，第一个所述编码解码层中所有子层输出的矩阵组成所述目标样本特征，X₁,X₂,X_L分别表示第一个所述编码解码层中第一个子层输出的矩阵、第二个子层输出的矩阵和第L个子层输出的矩阵。

进一步的，所述将所述初始序列输入至所述池化层中，获得输出的所述第一序列的步骤包括：

所述池化层的特征为：

O′＝maxpool1D(O)，其中，maxpool表示最大值池化，O表示所述初始序列，O′表示所述第一序列。

进一步的，所述将所述训练样本输入至所述深度学习翻译模型的第一个所述编码解码层中，获得输出的目标样本特征的步骤包括：

将所述训练样本中的每个句子进行分词操作，获得多个词语；

将所述词语转化为词语综合向量，将所述词语综合向量输入至所述深度学习翻译模型的第一个所述编码解码层中，获得输出的所述目标样本特征。

进一步的，所述将所述词语转化为词语综合向量的步骤包括：

将所述词语转换为词语向量；

根据所述词语在所述句子中的位置信息，获得位置向量；

将所述词语向量和所述位置向量进行拼接操作，获得所述词语综合向量。

将所述词语转换为词语向量；

根据所述词语在所述句子中的位置信息，获得位置向量；

将所述词语向量和所述位置向量在对应维度相加，获得所述词语综合向量。

为了解决上述技术问题，本申请实施例还提供一种基于全方向注意力的翻译装置，采用了如下所述的技术方案：

一种基于全方向注意力的翻译装置，包括：

获取模块，用于接收已标记的训练样本和预设的深度学习翻译模型，所述深度学习翻译模型包括线性层、归一层和至少一个组合层，所述组合层包括全方向层和编码解码层；

输入模块，用于将所述训练样本输入至所述深度学习翻译模型的第一个所述编码解码层中，获得输出的目标样本特征，并将所述目标样本特征输入至所述深度学习翻译模型的第一个所述全方向层中，获得输出的第一序列；

判断模块，用于判断所述第一个所述全方向层之后是否存在下一个所述组合层，在所述第一个所述全方向层之后存在下一个所述组合层时，将所述第一序列输入至下一个所述组合层中，获得输出的第二序列；

获得模块，用于直至经过所有所述组合层，将所述第二序列依次经过所述线性层和所述归一层，获得输出的翻译结果；

训练模块，用于基于所述翻译结果迭代训练所述深度学习翻译模型，获得训练后的深度学习翻译模型；

翻译模块，用于接收待翻译数据，将所述待翻译数据输入至所述训练后的深度学习翻译模型中，获得目标翻译数据。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现上述的基于全方向注意力的翻译方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现上述的基于全方向注意力的翻译方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：

本申请通过在深度学习翻译模型中部署全方向层，提升了翻译效果的同时，保持了可接受的参数量和训练速度。当编码解码层中的子层较多时，会设置有多个全方向层，来保证全方向层的输入不会过于巨大。在计算机执行过程中，获得第一个全方向层输出的第一序列后，会判断模型中是否存在下一个组合层，若存在则继续输入，获得第二序列。直到经过所有的组合层之后，将第二序列依次经过线性层和归一层的处理，最终获得翻译结果。本申请中通过设置有至少一个全方向层，使得深度学习翻译模型训练中能保留更多的信息，翻译效果更加流畅自然。可以使翻译的翻译更加精准。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的基于全方向注意力的翻译方法的一个实施例的流程图；

图3是根据本申请的基于全方向注意力的翻译装置的一个实施例的结构示意图；

图4是根据本申请的计算机设备的一个实施例的结构示意图。

附图标记：200、计算机设备；201、存储器；202、处理器；203、网络接口；300、基于全方向注意力的翻译装置；301、获取模块；302、输入模块；303、判断模块；304、获得模块；305、训练模块；306、翻译模块。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的基于全方向注意力的翻译方法一般由服务器/终端设备执行，相应地，基于全方向注意力的翻译装置一般设置于服务器/终端设备中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的基于全方向注意力的翻译方法的一个实施例的流程图。所述的基于全方向注意力的翻译方法，包括以下步骤：

S1：接收已标记的训练样本和预设的深度学习翻译模型，所述深度学习翻译模型包括线性层、归一层和至少一个组合层，所述组合层包括全方向层和编码解码层。

在本实施例中，计算机预先构建初始的深度学习翻译模型，将初始的深度学习翻译模型传输给用户确认后，接收用户返回的模型作为所述深度学习翻译模型。具体的初始的深度学习翻译模型的构建过程为：获取数据库中存储的历史的Transformer模型的深度，将所述深度作为所有的编码解密层(encoder-decoder层)的子层的数量M。判断所述子层数量M是否大于层级阈值；在所述子层数量M小于或等于层级阈值时，在所述深度学习翻译模型中设置一个组合层。在所述子层数量M大于层级阈值时，在所述深度学习翻译模型中设置多个组合层。其中，每个组合层中的编码解码层中子层的数量为L。上述L和M均为整数，且M整除L。由于模型深度很大时，即子层数量M很大时，全方向层的输入会变得十分巨大。例如，M为12层，输入的序列长度为1000时，输入全方向层的维度就变成了12K。通过上述初始的深度学习模型的构建方式，避免了设置的编码解码层中的子层过多，而全方向层设置的过少，造成全方向层的负担的情况出现。即引入一个参数L，在第L层后插入一次全方向层，第一个全方向层的输入为第一层到第L层的序列，第2L层后插入一次全方向层，第二个全方向层的输入为第L+1层到第2L层的序列，如此，保证了模型每一层的输出输入数据形状一致。同时，本申请设置全方向注意力层，能够更加准确全面的了解训练样本的特征信息。

在本实施例中，基于全方向注意力的翻译方法运行于其上的电子设备(例如图1所示的服务器/终端设备)可以通过有线连接方式或者无线连接方式接收已标记的训练样本和预设的深度学习翻译模型。需要指出的是，上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

S2：将所述训练样本输入至所述深度学习翻译模型的第一个所述编码解码层中，获得输出的目标样本特征，并将所述目标样本特征输入至所述深度学习翻译模型的第一个所述全方向层中，获得输出的第一序列。

在本实施例中，编码解码层(encoder-decoder层)由多个encoder(编码器)和decoder(解码器)组成，对于每个encoder，包含两层，一个self-attention层(自注意力层)和一个前馈神经网络，self-attention能帮助当前节点不仅仅只关注当前的词，从而能获取到上下文的语义。每个decoder包含三层，一个self-attention层、attention层(注意力层)和一个前馈神经网络。decoder中self-attention层和前馈神经网络的作用与上述一致，attention层能帮助当前节点获取到当前需要关注的重点内容。将训练样本输入至第一个编码解码层中，获得输出的目标样本特征。将目标样本特征输入至第一个全方向层中，获得能够保留训练样本的更多信息的第一序列。

具体的，在步骤S2中，所述将所述训练样本输入至所述深度学习翻译模型的第一个所述编码解码层中，获得输出的目标样本特征的步骤包括：

在本实施例中，通过jieba(结巴)分词工具对训练样本中的每个句子进行分词操作，获得多个词语。通过分词工具将句子进行分词，获得多个词语，并将多个词语分别转化为词语综合向量，输入至深度学习翻译模型中，便于深度学习翻译模型训练样本的处理。

其中，所述将所述词语转化为词语综合向量的步骤包括：

将所述词语转换为词语向量；

根据所述词语在所述句子中的位置信息，获得位置向量；

在本实施例中，词语根据预设的词语词典进行词语向量的转换，词语词典中包括词语和词语的向量之间一一对应的关联关系。根据关联关系将词语转换为词语向量。词语根据预设的位置词典进行位置向量的转换，位置词典中包括词语在句子中位置信息和位置的向量之间一一对应的关联关系。根据该关联关系将词语在句子中的位置信息转换为位置向量。具体的，位置信息指词语在句子中的所处的位置，例如词语为句子中的第一个词、第二个词或第三个词等。将词语向量和位置向量进行拼接，即获得词语综合向量，便于模型的后续处理。词语综合向量中包含有位置向量，使得词语综合向量中具有更加丰富的词语的信息。

此外，所述将所述词语转化为词语综合向量的步骤包括：

将所述词语转换为词语向量；

根据所述词语在所述句子中的位置信息，获得位置向量；

在本实施例中，词语综合向量中包含有位置向量，使得词语综合向量中具有更加丰富的词语的信息。将所述词语向量和所述位置向量在对应维度相加，获得所述词语综合向量。例如词语向量为(1,4,2,3)，位置向量为(0,4,2,3)，则词语综合向量为(1,8,4,6)。

具体的，在步骤S2中，即所述全方向层包括全方向注意力层和池化层，所述将所述目标样本特征输入至所述深度学习翻译模型的第一个所述全方向层中，获得输出的第一序列的步骤包括：

在本实施例中，将目标样本特征X_i输入至全方向注意力层中，获得输出的L×N的初始序列。将所述L×N的初始序列输入至池化层中，获得输出的长度为N的第一序列。本申请的方案整体过程举例如下：待翻译样本为who are you，这里例如模型深度为3(L＝3)，分词后得到长度为3的序列(即3个词语)，转化为词语综合向量(或者称为综合词向量)，这里取d为3，d表示向量的编码维度。假设第一个子层后输出，即X₁为

第二个子层输出,即X₂为

第三个子层输出,即X₃为

需要说明的是，这里仅为示意性的例子说明，这里数据会较简单，实际应用中，L,d会取较大值。全方向注意力层获得输入为

Indexsort之后为

求自注意力后，结果为

需要说明的是，此处运算结果由训练结果决定，此处仅为假设性示例。经过最大值池化,得到全方向层输出为

判断是否存在下一个组合层，若存在则输入下一个组合层。若不存在则最终经由一个线性层(全连接层)将N*d的输出变为N*V，此处V为词表中单词个数，再由归一层即softmax层输出每个单词可能出现的概率(N*V矩阵)。假设预设的词表中仅有三个词我，是，谁，且编号分别为0，1，2，最终输出可能为

将其中每一行最大数值对应的词表中的词作为输出，最终可得结果为：我是谁。

需要说明的是：上述举例过程仅为示例性说明。

其中，所述将所述目标样本特征输入至所述全方向注意力层中，获得输出的初始序列的步骤包括：

所述全方向注意力层的特征为:

在本实施例中，O＝Attend(IndexSort(X₁,X₂,…,X_L))，其中，Attend代表自注意力，IndexSort函数按预设的目录对每个矩阵(X₁,X₂.....X_L)中的文本按照位置进行排序，以使编码解码层中每个子层的第i个词的两侧分别是上一个子层的第i个词和下一个子层的第i个词，其中，i属于正整数，即以使第L层的第i个词两侧分别是第L-1层的第i个词和第L+1层的第i个词，获得输出的所述L×N的序列。

L×N的序列即为L×N×d的向量，d表示向量的编码维度。具体为：根据预设的目录排序即可，其中，预设的目录中即设定了排序方式，也即预设目录指预设的矩阵中每个元素的所在位置。全方向注意力层的输入为

X₁矩阵：[[x[1][1],x[1][2]…x[1][N]，

X₂矩阵：[x[2][1],x[2][2]…x[2][N]…，

X_L矩阵：[x[L][1],x[L][2]…x[L][N]]，整体可以看做为L行N列的二维矩阵。其中，各矩阵中，x[i][j]代表第i层第j个词，即代表原序列中第j个词在第i层的输出。经过IndexSort函数排序后为：

[x[1][1],x[2][1],x[3][1],x[4][1]…x[L][1],…x[1][N]，x[2][N],x[3][N],…x[L][N]]。变为长度为L×N的一维序列，其中，每个子向量的编码维度为d，也即获得所述L×N×d的向量。经过池化层后得到长度为N的序列，其中，每个子向量的编码维度依然为d，即获得N×d的向量，该N×d的向量的编码维度d与每一层保持一致，可以完美嵌入模型中。其中，X_i∈R^N×d,

表示第i个子层输出的序列的第j个部分,R表示实数域，L表示编码解码层中子层的层数，N为所述第i个子层输出的序列的文本长度，d为编码维度。本申请的全方向注意力层跨越了全方向注意力层之前的编码解码层中所有子层，又连接了全方向注意力层之前的编码解码层中所有子层，使得模型能够学习到更多的信息。最终通过一个池化层生成最终的输出。

所述池化层的特征为：

在本实施例中，最终的池化层可以根据情况不同有多种设置，最基本的可以设置为最大值池化层，池化层机制写作：O′＝maxpool1D(O)，其中，输入为L×N的初始序列，经过最大值池化，变为长度为N的第一序列，与每个编码解码层的输入和输出的内容的长度保持一致。

S3：判断所述第一个所述全方向层之后是否存在下一个所述组合层，在所述第一个所述全方向层之后存在下一个所述组合层时，将所述第一序列输入至下一个所述组合层中，获得输出的第二序列。

在本实施例中，在第一个全方向层之后存在下一个组合层时,将第一序列输入至下一个组合层,获得第二序列。通过经过多个组合层中的全方向层处理数据，保证在所有的编码解码层的子层数目较多时，输入每个全方向层中的数据量不会过大，全方向层依然能够保持较高的处理速度和准确率。

S4：直至经过所有所述组合层，将所述第二序列依次经过所述线性层和所述归一层，获得输出的翻译结果。

在本实施例中，线性层又称全注意力层，其每个神经元与上一层所有神经元相连，实现对前一层的线性组合和线性变换。归一层即为softmax层，softmax为归一化，例如目前文本内容有一百种，那么经过softmax层的输出就是一个一百维的向量。向量中的第一个值就是当前文本属于第一种的概率值，向量中的第二个值就是当前文本属于第二种的概率值。这一百维的向量之和为1。本申请通过将第二序列依次经过线性层和归一层，获得最终输出的翻译结果。其中，归一层输出每个字符可能出现的概率，根据概率确定出最终输出的字符，将字符连接生成句子，作为翻译结果。

S5：基于所述翻译结果迭代训练所述深度学习翻译模型，获得训练后的深度学习翻译模型。

在本实施例中，在训练过程中，深度学习翻译模型中各层的的所有参数同时被训练。基于翻译结果迭代训练深度学习翻译模型，直至深度学习翻译模型收敛或达到预设的迭代次数，获得训练后的深度学习翻译模型。

S6：接收待翻译数据，将所述待翻译数据输入至所述训练后的深度学习翻译模型中，获得目标翻译数据。

在本实施例中，将待翻译数据输入至训练后的深度学习翻译模型中，训练后的深度学习翻译模型翻译效果更加流畅自然，输出翻译准确率更高的目标翻译数据。

需要强调的是，为进一步保证上述深度学习翻译模型的私密和安全性，上述深度学习翻译模型还可以存储于一区块链的节点中。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本申请可应用于智慧安防领域中，从而推动智慧城市的建设。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图3，作为对上述图2所示方法的实现，本申请提供了一种基于全方向注意力的翻译装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图3所示，本实施例所述的基于全方向注意力的翻译装置300包括：获取模块301、输入模块302、判断模块303、获得模块304、训练模块305以及翻译模块306。其中：获取模块301，用于接收已标记的训练样本和预设的深度学习翻译模型，所述深度学习翻译模型包括线性层、归一层和至少一个组合层，所述组合层包括全方向层和编码解码层；输入模块302，用于将所述训练样本输入至所述深度学习翻译模型的第一个所述编码解码层中，获得输出的目标样本特征，并将所述目标样本特征输入至所述深度学习翻译模型的第一个所述全方向层中，获得输出的第一序列；判断模块303，用于判断所述第一个所述全方向层之后是否存在下一个所述组合层，在所述第一个所述全方向层之后存在下一个所述组合层时，将所述第一序列输入至下一个所述组合层中，获得输出的第二序列；获得模块304，用于直至经过所有所述组合层，将所述第二序列依次经过所述线性层和所述归一层，获得输出的翻译结果；训练模块305，用于基于所述翻译结果迭代训练所述深度学习翻译模型，获得训练后的深度学习翻译模型；翻译模块306，用于接收待翻译数据，将所述待翻译数据输入至所述训练后的深度学习翻译模型中，获得目标翻译数据。

在本实施例中，本申请通过在深度学习翻译模型中部署全方向层，提升了翻译效果的同时，保持了可接受的参数量和训练速度。当编码解码层中的子层较多时，会设置有多个全方向层，来保证全方向层的输入不会过于巨大。在计算机执行过程中，获得第一个全方向层输出的第一序列后，会判断模型中是否存在下一个组合层，若存在则继续输入，获得第二序列。直到经过所有的组合层之后，将第二序列依次经过线性层和归一层的处理，最终获得翻译结果。本申请中通过设置有至少一个全方向层，使得深度学习翻译模型训练中能保留更多的信息，翻译效果更加流畅自然。可以使翻译的翻译更加精准。

输入模块302包括分词子模块和向量转换子模块。其中，分词子模块用于将所述训练样本中的每个句子进行分词操作，获得多个词语；向量转换子模块用于将所述词语转化为词语综合向量，将所述词语综合向量输入至所述深度学习翻译模型的第一个所述编码解码层中，获得输出的所述目标样本特征。

向量转换子模块包括第一词语向量生成单元、第一位置向量生成单元和拼接单元。其中，词语向量生成单元用于将所述词语转换为词语向量；位置向量生成单元用于根据所述词语在所述句子中的位置信息，获得位置向量；拼接单元用于将所述词语向量和所述位置向量进行拼接操作，获得所述词语综合向量。

向量转换子模块还包括第二词语向量生成单元、第二位置向量生成单元和维度相加单元。其中，第二词语向量生成单元用于将所述词语转换为词语向量；第二位置向量生成单元用于根据所述词语在所述句子中的位置信息，获得位置向量；维度相加单元用于将所述词语向量和所述位置向量在对应维度相加，获得所述词语综合向量。

所述全方向层包括全方向注意力层和池化层，输入模块302还包括第一输入子模块和第二输入子模块。其中，所述第一输入子模块用于将所述目标样本特征输入至所述全方向注意力层中，获得输出的初始序列；所述第二输入子模块用于将所述初始序列输入至所述池化层中，获得输出的所述第一序列。

在本实施例的一些可选的实现方式中，上述第一输入子模块进一步用于：所述全方向注意力层的特征为:

在本实施例的一些可选的实现方式中，上述第二输入子模块进一步用于：所述池化层的特征为：

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图4，图4为本实施例计算机设备基本结构框图。

所述计算机设备200包括通过系统总线相互通信连接存储器201、处理器202、网络接口203。需要指出的是，图中仅示出了具有组件201-203的计算机设备200，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器201至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器201可以是所述计算机设备200的内部存储单元，例如该计算机设备200的硬盘或内存。在另一些实施例中，所述存储器201也可以是所述计算机设备200的外部存储设备，例如该计算机设备200上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器201还可以既包括所述计算机设备200的内部存储单元也包括其外部存储设备。本实施例中，所述存储器201通常用于存储安装于所述计算机设备200的操作系统和各类应用软件，例如基于全方向注意力的翻译方法的计算机可读指令等。此外，所述存储器201还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器202在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器202通常用于控制所述计算机设备200的总体操作。本实施例中，所述处理器202用于运行所述存储器201中存储的计算机可读指令或者处理数据，例如运行所述基于全方向注意力的翻译方法的计算机可读指令。

所述网络接口203可包括无线网络接口或有线网络接口，该网络接口203通常用于在所述计算机设备200与其他电子设备之间建立通信连接。

在本实施例中，本申请中通过设置有至少一个全方向层，使得深度学习翻译模型训练中能保留更多的信息，翻译效果更加流畅自然。可以使翻译的翻译更加精准。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的基于全方向注意力的翻译方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种基于全方向注意力的翻译方法，其特征在于，包括下述步骤：

2.根据权利要求1所述的基于全方向注意力的翻译方法，其特征在于，所述全方向层包括全方向注意力层和池化层，所述将所述目标样本特征输入至所述深度学习翻译模型的第一个所述全方向层中，获得输出的第一序列的步骤包括：

3.根据权利要求2所述的基于全方向注意力的翻译方法，其特征在于，所述将所述目标样本特征输入至所述全方向注意力层中，获得输出的初始序列的步骤包括：

所述全方向注意力层的特征为:

4.根据权利要求2所述的基于全方向注意力的翻译方法，其特征在于，所述将所述初始序列输入至所述池化层中，获得输出的所述第一序列的步骤包括：

所述池化层的特征为：

5.根据权利要求1所述的基于全方向注意力的翻译方法，其特征在于，所述将所述训练样本输入至所述深度学习翻译模型的第一个所述编码解码层中，获得输出的目标样本特征的步骤包括：

6.根据权利要求5所述的基于全方向注意力的翻译方法，其特征在于，所述将所述词语转化为词语综合向量的步骤包括：

将所述词语转换为词语向量；

根据所述词语在所述句子中的位置信息，获得位置向量；

7.根据权利要求5所述的基于全方向注意力的翻译方法，其特征在于，所述将所述词语转化为词语综合向量的步骤包括：

将所述词语转换为词语向量；

根据所述词语在所述句子中的位置信息，获得位置向量；

8.一种基于全方向注意力的翻译装置，其特征在于，包括：

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的基于全方向注意力的翻译方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的基于全方向注意力的翻译方法的步骤。