CN110188367B

CN110188367B - 一种数据处理方法及装置

Info

Publication number: CN110188367B
Application number: CN201910469361.3A
Authority: CN
Inventors: 李长亮; 李国良; 郭馨泽; 唐剑波
Original assignee: Beijing Kingsoft Digital Entertainment Co Ltd; Chengdu Kingsoft Digital Entertainment Co Ltd
Current assignee: Beijing Kingsoft Digital Entertainment Co Ltd; Chengdu Kingsoft Digital Entertainment Co Ltd
Priority date: 2019-05-31
Filing date: 2019-05-31
Publication date: 2023-09-22
Anticipated expiration: 2039-05-31
Also published as: CN110188367A

Abstract

本申请提供一种数据处理方法及装置，其中，所述数据处理方法用于解码器，所述解码器包括至少一个解码层，对于每个解码层，所述方法包括：根据输入的参考待解码向量进行计算，得到第一子层向量，根据输入的编码器的编码向量和所述参考待解码向量进行基本注意力计算，得到第二子层向量；将第一子层向量和第二子层向量进行融合，得到融合向量；将融合向量进行线性变换，得到输出的解码向量，从而将解码层中两个子层的串行运算修改为并行运算，实现不同子层向量的有效利用，促进翻译效果的有效提升。

Description

一种数据处理方法及装置

技术领域

本申请涉及计算机技术领域，特别涉及一种数据处理方法及装置、计算设备、计算机可读存储介质和芯片。

背景技术

Transformer翻译模型是一种编码器-解码器的网络结构，其中编码器对输入信息进行编码处理获得编码向量，然后解码器接收输入的参考待解码向量和编码器的编码向量进行解码，并将解码向量依次输入线性层和归一化层，最终获取相应的翻译结果。

现有技术中，Transformer翻译模型的编码器由6个编码层堆叠而成，解码器由6个解码层堆叠而成。对于解码器的每个解码层，包括2个子层：自注意力层与基本注意力层。自注意力层与基本注意力层之间信息的融合是一种串行的方式，即将自注意力层的输出向量作为基本注意力层的输入向量，这种信息传递方式忽略了自注意力层与基本注意力层对每个解码层输出的解码向量的贡献度不同。

发明内容

有鉴于此，本申请实施例提供了一种数据处理方法及装置、计算设备、计算机可读存储介质和芯片，以解决现有技术中存在的技术缺陷。

本申请实施例提供了一种数据处理方法，用于解码器，所述解码器包括至少一个解码层，对于每个解码层，所述方法包括：

根据输入的参考待解码向量进行计算，得到第一子层向量，根据输入的编码器的编码向量和所述参考待解码向量进行基本注意力计算，得到第二子层向量；

将第一子层向量和第二子层向量进行融合，得到融合向量；

将融合向量进行线性变换，得到输出的解码向量。

可选地，对于第一个解码层，根据输入的参考待解码向量进行计算，得到第一子层向量，根据输入的编码器的编码向量和所述参考待解码向量进行基本注意力计算，得到第二子层向量，包括：

根据输入的初始待解码向量作为参考待解码向量进行计算，得到第一子层向量，根据输入的初始待解码向量与所述编码向量进行基本注意力计算，得到第二子层向量；或

根据输入的解码器的前一个最终解码向量作为参考待解码向量进行计算，得到第一子层向量，根据输入的解码器的前一个最终解码向量与所述编码向量进行基本注意力计算，得到第二子层向量。

可选地，对于除去第一个解码层的其他解码层，根据输入的参考待解码向量进行计算，得到第一子层向量，根据输入的编码器的编码向量和所述参考待解码向量进行基本注意力计算，得到第二子层向量，包括：

根据输入的上一个解码层的解码向量进行计算，得到第一子层向量；

根据输入的编码器的编码向量和上一个解码层的解码向量进行基本注意力计算，得到第二子层向量。

可选地，所述解码器包括n个低阶的解码层和m个高阶的解码层，其中，n和m均为正整数；

对于低阶的解码层，根据输入的参考待解码向量进行计算，得到第一子层向量，包括：根据输入的参考待解码向量进行深度可分离卷积计算，得到所述第一子层向量；

对于高阶的解码层，根据输入的参考待解码向量进行计算，得到第一子层向量，包括：根据输入的参考待解码向量进行自注意力计算，得到所述第一子层向量。

可选地，将第一子层向量和第二子层向量进行融合，得到融合向量，包括：

将第一子层向量和第二子层向量进行拼接；

将拼接后的第一子层向量和第二子层向量赋权重值，然后通过激活函数进行计算，得到第一激活向量和第二激活向量；

根据第一子层向量和第一激活向量以及第二子层向量和第二激活向量进行计算，得到融合向量。

可选地，所述数据处理方法还包括：

将最后一个解码层作为解码器的最终解码向量；或

根据所有解码层的解码向量进行计算，得到解码器的最终解码向量。

本申请实施例还公开了一种数据处理装置，用于解码器，所述解码器包括至少一个解码层；

对于每个解码层，所述装置包括：

计算模块，被配置为根据输入的参考待解码向量进行计算，得到第一子层向量，根据输入的编码器的编码向量和所述参考待解码向量进行基本注意力计算，得到第二子层向量；

融合模块，被配置为将第一子层向量和第二子层向量进行融合，得到融合向量；

线性变换模块，被配置为将融合向量进行线性变换，得到输出的解码向量。

本申请实施例还公开了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现如上所述数据处理方法的步骤。

本申请实施例还公开了一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如上所述数据处理方法的步骤。

本申请实施例还公开了一种芯片，其存储有计算机指令，该指令被芯片执行时实现如上所述数据处理方法的步骤。

本申请提供的数据处理方法及装置，通过根据输入的参考待解码向量进行计算得到第一子层向量，根据输入的编码器的编码向量和参考待解码向量进行基本注意力计算得到第二子层向量，然后将第一子层向量和第二子层向量进行融合得到融合向量，从而将解码层中两个子层的串行运算修改为并行运算，实现不同子层向量的有效利用，促进翻译效果的有效提升。

另外，通过将拼接后的第一子层向量和第二子层向量赋权重值，然后通过激活函数进行计算，得到第一激活向量和第二激活向量，并根据第一子层向量和第一激活向量以及第二子层向量和第二激活向量进行计算得到融合向量，从而可以得到融合效果更好的融合向量，有助于提升翻译效果。

再次，由于低阶的解码层的解码向量蕴含更多的语法信息，高阶的解码层的解码向量蕴含更多的语义信息，通过在低阶的解码层中对第一子层向量的生成采用深度可分离卷积计算，有助于增强关注局部特征的能力，从而提取低阶的解码层的语法信息；在高阶的解码层中对第一子层向量的生成采用自注意力计算，有助于增强关注全局相关性的能力，从而提取高阶的解码层的语义信息。通过在不同阶的解码层使用不同的计算方法，可以更好地提取每一个解码层的不同信息。

附图说明

图1是本申请一实施例的计算设备的结构示意图；

图2是本申请一实施例的数据处理方法的流程示意图；

图3是本申请一实施例的数据处理方法的流程示意图；

图4a～图4c是本申请一实施例的翻译模型的架构图；

图5是本申请一实施例的数据处理装置的框架示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本发明一个或多个实施例涉及的名词术语进行解释。

自注意力(self attention)：注意力机制在使用编码器-解码器的网络结构中经常被使用，本质来自于人类视觉注意力机制。人们视觉在感知东西的时候，一般不会是一个场景全部都看，而往往是根据需求观察注意特定的一部分。从一个高的层次看，注意力机制允许解码器从多个上下文向量中选取需要的部分，进而可以表示更多的信息。以解码层为例，对于输入向量仅来自于解码层自身的情形，为自注意力机制。

基本注意力(vanilla attention)：以解码层为例，对于输入向量分别来自于解码层和编码层的情形，为基本注意力机制。

深度可分离卷积(depthwise separable convolution，DSC)：这种方法在保持通道分离的前提下，接上一个深度卷积结构，即可实现空间卷积。假设有一个3×3大小的卷积层，其输入通道为16、输出通道为32，从而产生16×32＝512个特征图谱。这个过程使用了16×32×3×3＝4608个参数。应用深度可分离卷积，用16个3×3大小的卷积核分别遍历16通道的数据，得到了16个特征图谱。在融合操作之前，接着用32个1×1大小的卷积核遍历这16个特征图谱，进行相加融合。这个过程使用了16×3×3+16×32×1×1＝656个参数，远少于上面的4608个参数。

在本申请中，提供了一种数据处理方法及装置、计算设备、计算机可读存储介质和芯片，在下面的实施例中逐一进行详细说明。

图1是示出了根据本说明书一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接，数据库150用于保存数据。

计算设备100还包括接入设备140，接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图1所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备100可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。

其中，处理器120可以执行图2所示方法中的步骤。图2是示出了根据本申请一实施例的数据处理方法的示意性流程图。本实施例的数据处理方法用于解码器，解码器包括至少一个解码层。对于每个解码层，所述方法包括下述步骤201至步骤203：

201、根据输入的参考待解码向量进行计算，得到第一子层向量，根据输入的编码器的编码向量和所述参考待解码向量进行基本注意力计算，得到第二子层向量。

其中，对于不同的解码层，其输入的参考待解码向量是不同的。对于第一个解码层，输入的解码向量为初始待解码向量或解码器的前一个最终解码向量；对于除去第一个解码层的其他解码层，输入的解码向量为上一个解码层输出的解码向量。

需要说明的是，初始待解码向量为预设的解码向量。

以语句翻译为例，编码器生成的编码向量为该原始语句对应的编码后生成的向量，但是对于解码器来说，需要对编码向量进行解码以逐个生成解码向量，并最终根据生成的多个解码向量生成原始语句对应的翻译语句。在这个过程中，解码器解码出的前一个最终解码向量会作为下个解码向量的参考待解码向量。

例如对于翻译模型来说，初始语句为“我爱中国”，最终解码向量分别为“I”对应的解码向量、“love”对应的解码向量、“china”对应的解码向量。在生成“I”对应的解码向量的过程中，需要将初始待解码向量输入第一个解码层；在生成“love”对应的解码向量的过程中，需要输入“I”对应的解码向量作为参考待解码向量输入第一个解码层；在生成“china”对应的解码向量的过程中，需要输入“love”对应的解码向量作为参考待解码向量输入第一个解码层。

具体地，对于第一个解码层，步骤201包括：

根据输入的解码器的前一个最终解码向量作为参考待解码向量进行计算，得到第一子层向量，根据输入的解码器的最终解码向量与所述编码向量进行基本注意力计算，得到第二子层向量。

对于除去第一个解码层的其他解码层，步骤201包括：根据输入的上一个解码层的解码向量进行计算，得到第一子层向量；根据输入的编码器的编码向量和上一个解码层的解码向量进行基本注意力计算，得到第二子层向量。

另外，由于低阶的解码层的解码向量蕴含更多的语法信息，高阶的解码层的解码向量蕴含更多的语义信息，传统的做法是对每层都用相同的计算方法，这样无法更好地提取低阶层、高阶层的不同信息。本实施例中，解码器包括n个低阶的解码层和m个高阶的解码层，其中，n和m均为正整数；

可见，本实施例通过在低阶的解码层中对第一子层向量的生成采用深度可分离卷积计算，有助于增强关注局部特征的能力，从而提取低阶的解码层的语法信息；在高阶的解码层中对第一子层向量的生成采用自注意力计算，有助于增强关注全局相关性的能力，从而提取高阶的解码层的语义信息。通过在不同阶的解码层使用不同的计算方法，可以更好地提取每一个解码层的不同信息。

另外，对于传统的卷积操作和DSC计算，假设输入通道数为3，要求输出通道数为256，有以下两种做法：

对于传统的卷积操作，直接用一个3×3×256的卷积核进行计算，参数量为：3×3×3×256＝6912；

对于深度可分离卷积(DSC)计算分两步完成，先对每一个通道进行各自的卷积操作，有多少个通道就有多少个过滤器，然后再对得到的每个通道的卷积结果进行标准的1×1跨通道卷积操作，参数量为：3×3×3+3×1×1×256＝795，从而降低了参数量。

由上对比可见，深度可分离卷积(DSC)计算比传统的卷积操作降低了参数量，加快了计算速度。

202、将第一子层向量和第二子层向量进行融合，得到融合向量。

具体地，将第一子层向量和第二子层向量通过门控单元进行融合，得到融合向量。参见图3，步骤202包括下述步骤301～303：

301、将第一子层向量和第二子层向量进行拼接。

具体地，可以将第一子层向量和第二子层向量直接进行contact拼接函数来拼接。

302、将拼接后的第一子层向量和第二子层向量赋权重值，然后通过激活函数进行计算，得到第一激活向量和第二激活向量。

具体地，可以在训练阶段设置训练集和验证集，并为第一子层向量和第二子层向量设置初始权重值，根据最终输出的解码向量以及验证集计算评估值，根据评估值调整第一子层向量和第二子层向量的权重值，直至评估值趋于稳定，从而获得最终的权重值。

其中，激活函数可以为多种，例如sigmoid函数、tanh函数、softmax函数等，sigmoid函数可以用于二分类任务，tanh函数、softmax函数可以用于多分类任务。本实施例优选使用sigmoid函数进行计算，可以得到第一激活向量和第二激活向量。

如果不用激活函数，每一层输出都是上层输入的线性函数，无论神经网络有多少层，输出都是输入的线性组合。如果使用的话，激活函数给神经元引入了非线性因素，使得神经网络可以任意逼近任何非线性函数，这样神经网络就可以应用到众多的非线性模型中。

303、根据第一子层向量和第一激活向量以及第二子层向量和第二激活向量进行计算，得到融合向量。

步骤303中，可将第一子层向量和第一激活向量点乘，第二子层向量和第二激活向量点乘，再将点乘结果相加，得到融合向量。

具体地，融合向量的计算过程参见下述公式(1)和(2)：

i_j，f_j＝σ(W[y_j；g_j]) (1)

其中，y_j代表第一子层向量，g_j代表第二子层向量；

i_j代表第一激活向量，f_j代表第二激活向量；

代表融合向量；

W代表赋权重；σ代表进行激活函数sigmoid计算。

203、将融合向量进行线性变换，得到输出的解码向量。

另外，在得到融合向量后，还需要对融合向量进行常规的NDA(norm、dropout、residual，规范化、遗漏、残差计算)处理。

具体地，将融合向量通过前馈网络子层进行前馈网络(feed forward network，FFN)进行linear线性变换，将融合向量映射为线性向量。在得到线性向量后，还需要对线性向量进行常规的NDA(norm、dropout、residual)处理。

其中，

Residual是指通过残差函数对模型输出进行约束，防止过拟合；

Norm是指规范化操作，将模型的输出向量规范至正态分布范围内；

dropout是指在解码过程中随机让某些隐含层节点的权重不加入工作，不工作的那些节点可以暂时认为不是网络结构的一部分，但是它的权重得保留下来(只是暂时不更新而已)，因为下次解码过程中可能又需要加入工作。

可选地，在得到解码层的解码向量后，本实施例解码器的最终解码向量的生成方法有多种，例如将最后一个解码层作为解码器的最终解码向量。

对于包括多个解码层的解码器，解码器的最终解码向量可以根据所有解码层的解码向量进行融合处理而生成。融合的方式可以为每个解码层的解码向量配以权重，然后求和生成最终解码向量。

本申请提供的数据处理方法，通过根据输入的参考待解码向量进行计算得到第一子层向量，根据输入的编码器的编码向量和参考待解码向量进行基本注意力计算得到第二子层向量，然后将第一子层向量和第二子层向量进行融合得到融合向量，从而将解码层中两个子层的串行运算修改为并行运算，实现不同子层向量的有效利用，促进翻译效果的有效提升。

并且，通过将拼接后的第一子层向量和第二子层向量赋权重值，然后通过激活函数进行计算，得到第一激活向量和第二激活向量，并根据第一子层向量和第一激活向量以及第二子层向量和第二激活向量进行计算得到融合向量，从而可以得到融合效果更好的融合向量，有助于提升翻译效果。

为了便于理解，下面以一个具体的transformer模型为例进行说明。参见图4a～图4c，图4a的transformer模型中，编码器和解码器分别包括6层，对于6个解码层，包括3个低阶的解码层和3个高阶的解码层。

对于低阶的解码层，参见图4b，包括深度可分离卷积子层和基本注意力子层。采用深度可分离卷积(DSC)和基本注意力(vanilla attention)分别计算，得到第一子层向量和第二子层向量。

对于高阶的解码层，参见图4c，包括自注意力子层和基本注意力子层。采用自注意力和基本注意力分别计算，得到第一子层向量和第二子层向量。

对于第一个解码层：根据输入的初始待解码向量进行深度可分离卷积计算，得到第一子层向量，根据输入的初始待解码向量与编码向量进行基本注意力计算，得到第二子层向量，将第一子层向量和第二子层向量进行融合得到融合向量，将融合向量进行线性变换得到解码向量。

对于第二个解码层：根据第一个解码层的解码向量进行深度可分离卷积计算，得到第一子层向量，根据第一个解码层的解码向量与编码向量进行基本注意力计算，得到第二子层向量，将第一子层向量和第二子层向量进行融合得到融合向量，将融合向量进行线性变换得到解码向量。

对于第三个解码层：根据第二个解码层的解码向量进行深度可分离卷积计算，得到第一子层向量，根据第二个解码层的解码向量与编码向量进行基本注意力计算，得到第二子层向量，将第一子层向量和第二子层向量进行融合得到融合向量，然后将融合向量进行线性变换得到解码向量。

对于第四个解码层：根据第三个解码层的解码向量进行自注意力计算，得到第一子层向量，根据第三个解码层的解码向量与编码向量进行基本注意力计算，得到第二子层向量，将第一子层向量和第二子层向量进行融合得到融合向量，将融合向量线性变换得到解码向量。

对于第五个解码层：根据第四个解码层的解码向量进行自注意力计算，得到第一子层向量，根据第四个解码层的解码向量与编码向量进行基本注意力计算，得到第二子层向量，将第一子层向量和第二子层向量进行融合得到融合向量，将融合向量线性变换得到解码向量。

对于第六个解码层：根据第五个解码层的解码向量进行自注意力计算，得到第一子层向量，根据第五个解码层的解码向量与编码向量进行基本注意力计算，得到第二子层向量，将第一子层向量和第二子层向量进行融合得到融合向量，将融合向量线性变换得到解码向量，并将第六个解码层的解码向量作为解码器的最终解码向量输出。

本申请一实施例还提供一种数据处理装置，参见图5，用于解码器，所述解码器包括至少一个解码层；

对于每个解码层，所述装置包括：

计算模块501，被配置为根据输入的参考待解码向量进行计算，得到第一子层向量，根据输入的编码器的编码向量和所述参考待解码向量进行基本注意力计算，得到第二子层向量；

融合模块502，被配置为将第一子层向量和第二子层向量进行融合，得到融合向量；

线性变换模块503，被配置为将融合向量进行线性变换，得到输出的解码向量。

可选地，对于第一个解码层，计算模块501具体被配置为：

可选地，对于除去第一个解码层的其他解码层，计算模块501具体被配置为：根据输入的上一个解码层的解码向量进行计算，得到第一子层向量；

对于低阶的解码层，计算模块501具体被配置为：根据输入的参考待解码向量进行深度可分离卷积计算，得到所述第一子层向量；

对于高阶的解码层，计算模块501具体被配置为：根据输入的参考待解码向量进行自注意力计算，得到所述第一子层向量。

可选地，所述融合模块502具体被配置为：

将第一子层向量和第二子层向量进行拼接；

可选地，所述装置还包括：最终解码向量生成模块，被配置为将最后一个解码层作为解码器的最终解码向量，或根据所有解码层的解码向量进行计算，得到解码器的最终解码向量。

本申请提供的数据处理装置，通过根据输入的参考待解码向量进行计算得到第一子层向量，根据输入的编码器的编码向量和参考待解码向量进行基本注意力计算得到第二子层向量，然后将第一子层向量和第二子层向量进行融合得到融合向量，从而将解码层中两个子层的串行运算修改为并行运算，实现不同子层向量的有效利用，促进翻译效果的有效提升。

上述为本实施例的一种数据处理装置的示意性方案。需要说明的是，该数据处理装置的技术方案与上述的数据处理方法的技术方案属于同一构思，数据处理装置的技术方案未详细描述的细节内容，均可以参见上述数据处理方法的技术方案的描述。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如上所述数据处理方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该计算机可读存储介质的技术方案与上述的数据处理方法的技术方案属于同一构思，计算机可读存储介质的技术方案未详细描述的细节内容，均可以参见上述数据处理方法的技术方案的描述。

本申请一实施例还提供一种芯片，其存储有计算机指令，该指令被芯片执行时实现如上所述的数据处理方法的步骤。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种数据处理方法，其特征在于，用于翻译模型，所述翻译模型包括编码器和解码器，所述解码器包括至少一个解码层；

对于每个解码层，所述方法包括：

根据输入的参考待解码向量进行计算，得到第一子层向量，根据输入的所述编码器的编码向量和所述参考待解码向量进行基本注意力计算，得到第二子层向量，其中，所述编码向量为所述编码器对原始语句进行编码后生成的向量；

将所述第一子层向量和所述第二子层向量进行融合，得到融合向量；

将所述融合向量进行线性变换，得到输出的解码向量；

将所述解码层的最终解码向量依次输入线性层和归一化层，获得翻译结果。

2.如权利要求1所述的数据处理方法，其特征在于，对于第一个解码层；

根据输入的参考待解码向量进行计算，得到第一子层向量，根据输入的所述编码器的编码向量和所述参考待解码向量进行基本注意力计算，得到第二子层向量，包括：

根据输入的初始待解码向量作为参考待解码向量进行计算，得到第一子层向量，根据输入的初始待解码向量与所述编码向量进行基本注意力计算，得到第二子层向量；

或

3.如权利要求1所述的数据处理方法，其特征在于，对于除去第一个解码层的其他解码层，

根据输入的上一个解码层的解码向量进行计算，得到所述第一子层向量；

根据输入的所述编码器的编码向量和上一个解码层的解码向量进行基本注意力计算，得到所述第二子层向量。

4.如权利要求1所述的数据处理方法，其特征在于，所述解码器包括n个低阶的解码层和m个高阶的解码层，其中，n和m均为正整数；

5.如权利要求1所述的数据处理方法，其特征在于，将所述第一子层向量和所述第二子层向量进行融合，得到融合向量，包括：

将所述第一子层向量和所述第二子层向量进行拼接；

将拼接后的所述第一子层向量和所述第二子层向量赋权重值，然后通过激活函数进行计算，得到第一激活向量和第二激活向量；

根据所述第一子层向量和所述第一激活向量以及所述第二子层向量和所述第二激活向量进行计算，得到所述融合向量。

6.如权利要求1所述的数据处理方法，其特征在于，还包括：

将最后一个解码层作为解码器的最终解码向量；或

7.一种数据处理装置，其特征在于，用于翻译模型，所述翻译模型包括编码器和解码器，所述解码器包括至少一个解码层；

对于每个解码层，所述装置包括：

计算模块，被配置为根据输入的参考待解码向量进行计算，得到第一子层向量，根据输入的所述编码器的编码向量和所述参考待解码向量进行基本注意力计算，得到第二子层向量，其中，所述编码向量为所述编码器对原始语句进行编码后生成的向量；

融合模块，被配置为将所述第一子层向量和所述第二子层向量进行融合，得到融合向量；

线性变换模块，被配置为将所述融合向量进行线性变换，得到输出的解码向量，将所述解码层的最终解码向量依次输入线性层和归一化层，获得翻译结果。

8.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现权利要求1-6任意一项所述方法的步骤。

9.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-6任意一项所述方法的步骤。

10.一种芯片，其存储有计算机指令，其特征在于，该指令被芯片执行时实现权利要求1-6任意一项所述方法的步骤。