CN114077844A

CN114077844A - 一种数据处理方法及装置

Info

Publication number: CN114077844A
Application number: CN202010825911.3A
Authority: CN
Inventors: 李长亮; 郭馨泽
Original assignee: Beijing Kingsoft Digital Entertainment Co Ltd
Current assignee: Beijing Kingsoft Digital Entertainment Co Ltd
Priority date: 2020-08-17
Filing date: 2020-08-17
Publication date: 2022-02-22

Abstract

本申请提供一种数据处理方法及装置，对于编码器的至少一个编码层，所述方法包括：接收待翻译文本对应的待编码矩阵；根据所述待编码矩阵进行深度分离卷积操作获得第一子层矩阵，根据所述待编码矩阵进行自注意力计算获得第二子层矩阵；将所述第一子层矩阵和所述第二子层矩阵进行线性门控处理，获得融合矩阵；将所述融合矩阵进行线性变换，得到输出的所述待翻译文本对应的编码矩阵。本申请通过在编码层中增加深度分离卷积层，增强编码器的表征能力，增强语言翻译模型的性能。

Description

一种数据处理方法及装置

技术领域

本申请涉及计算机技术领域，特别涉及一种数据处理方法及装置、计算设备和计算机可读存储介质。

背景技术

随着计算机运算能力的提升，神经网络的应用越来越广泛，例如构建翻译模型，以实现待翻译语句到目标语句的转换。

翻译模型是一种端到端的网络结构，包括编码器和解码器，其中编码器对输入信息进行编码处理获得编码结果，然后解码器同时接收编码器的编码结果进行解码，并将解码信息输入线性层、归一化层，最终获取相应的翻译结果，目前的编码器用自注意力层来获取编码器的表征能力，自注意力层在获取表征能力时有一定的局限性，制约了翻译模型性能的提升。

因此，如何能提升编码器的表征能力，就成为技术人员亟待解决的问题。

发明内容

有鉴于此，本申请实施例提供了一种数据处理方法及装置、计算设备和计算机可读存储介质，以解决现有技术中存在的技术缺陷。

根据本申请实施例的第一方面，提供了一种数据处理方法，对于编码器的至少一个所述编码层，所述方法包括：

接收待翻译文本对应的待编码矩阵；

根据所述待编码矩阵进行深度分离卷积操作获得第一子层矩阵，根据所述待编码矩阵进行自注意力计算获得第二子层矩阵；

将所述第一子层矩阵和所述第二子层矩阵进行线性门控处理，获得融合矩阵；

将所述融合矩阵进行线性变换，得到输出的所述待翻译文本对应的编码矩阵。

可选的，对于第一个编码层，在接收待翻译文本对应的待编码矩阵之前，包括：

接收待翻译文本；

对所述待翻译文本做嵌入化处理，获得待翻译文本矩阵；

对所述待翻译文本矩阵添加位置编码，生成待编码矩阵。

可选的，对于除去第一个编码层的其他编码层；

接收待翻译文本对应的待编码矩阵，包括：

接收上一个编码层输出的编码矩阵，并将所述编码矩阵作为当前编码层的待编码矩阵。

可选的，根据所述待编码矩阵进行深度分离卷积操作获得第一子层矩阵，包括：

对所述待编码矩阵进行逐通道卷积处理，获得初始第一子层矩阵；

对所述初始第一子层矩阵进行逐点卷积，获得第一子层矩阵。

可选的，所述方法还包括：

将最后一个编码层输出的编码矩阵作为所述编码器的最终编码矩阵；或

根据每个编码层输出的编码矩阵做加权运算，获得所述编码器的最终编码矩阵。

可选的，所述方法还包括：

将所述最终编码矩阵输入至解码器，以使所述解码器对所述最终编码进行解码，得到所述编码矩阵的翻译信息。

根据本申请实施例的第二方面，提供了一种数据处理装置，配置于编码器的至少一个编码层，所述装置包括：

第一接收模块，被配置为接收待翻译文本对应的待编码矩阵；

编码矩阵处理模块，被配置为根据所述待编码矩阵进行深度分离卷积操作获得第一子层矩阵，根据所述待编码矩阵进行自注意力计算获得第二子层矩阵；

门控处理模块，被配置为将所述第一子层矩阵和所述第二子层矩阵进行线性门控处理，获得融合矩阵；

线性变换模块，被配置为将所述融合矩阵进行线性变换，得到输出的所述待翻译文本对应的编码矩阵。

可选的，在第一编码层之前，所述装置还包括：

第二接收模块，被配置为接收待翻译文本；

嵌入化模块，被配置为对所述待翻译文本做嵌入化处理，获得待翻译文本矩阵；

位置编码模块，被配置为对所述待翻译文本矩阵添加位置编码，生成待编码矩阵。

可选的，对于除去第一个编码层的其他编码层；

所述第一接收模块，被配置为接收上一个编码层输出的编码矩阵，并将所述编码矩阵作为当前编码层的待编码矩阵。

可选的，所述编码矩阵处理模块，被配置为对所述待编码矩阵进行逐通道卷积处理，获得初始第一子层矩阵；对所述初始第一子层矩阵进行逐点卷积，获得第一子层矩阵。

可选的，所述装置还包括：

最终编码矩阵确定模块，被配置为将最后一个编码层输出的编码矩阵作为所述编码器的最终编码矩阵；或根据所有编码层输出的编码矩阵进行计算，得到所述编码器的最终编码矩阵。

可选的，所述装置还包括：

解码模块，被配置为将所述最终编码矩阵输入至解码器，以使所述解码器对所述最终编码进行解码，得到所述编码矩阵的翻译信息。

根据本申请实施例的第三方面，提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现所述数据处理方法的步骤。

根据本申请实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现所述数据处理方法的步骤。

根据本申请实施例的第五方面，提供了一种芯片，其存储有计算机指令，该指令被芯片执行时实现所述数据处理方法的步骤。

本申请实施例提供的数据处理方法，在编码层中增加独立于自注意力层的深度分离卷积层，将输入编码层的待编码矩阵同时送入深度分离卷积层和自注意力层进行处理，获得代表不同维度特征的第一子层矩阵和第二子层矩阵，再由线性门控单元根据所述第一子层矩阵和第二子层矩阵进行特征融合计算得到融合矩阵，再经过前馈神经网络层的线性处理获得当前编码层输出的编码矩阵，深度分离卷积层为编码层向量提供了另一个维度的信息表征，线性门控单元融合深度分离卷积层的特征和自注意力层的特征，可以有效地增强编码器的表征能力，增强语言翻译模型的性能。

附图说明

图1是本申请实施例提供的计算设备的结构框图；

图2是本申请实施例提供的数据处理方法的流程图；

图3是本申请实施例提供的编码层中的模型结构示意图；

图4是本申请实施例提供的语言翻译模型的结构示意图；

图5是本申请实施例提供的数据处理装置的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“响应于确定”。

首先，对本发明一个或多个实施例涉及的名词术语进行解释。

自注意力(self attention)：注意力机制在使用编码器-解码器的网络结构中经常被使用，本质来自于人类视觉注意力机制。人们视觉在感知东西的时候，一般不会是一个场景全部都看，而往往是根据需求观察注意特定的一部分。从一个高的层次看，注意力机制允许解码器从多个上下文向量中选取需要的部分，进而可以表示更多的信息。以解码层为例，对于输入向量仅来自于解码层自身的情形，为自注意力机制。

深度可分离卷积(depthwise separable convolution，DSC)：这种方法在保持通道分离的前提下，接上一个深度卷积结构，即可实现空间卷积，假设有一个3*3大小的卷积层，其输入通道为16，输出通道为32，从而产生16*32＝512个特征图谱，这个过程使用了16*32*3*3＝4608个参数，应用深度可分离卷积用16个3*3大小的卷积核分列遍历16个通道的数据，得到16个特征图谱，在融合操作之前，接着用32个1*1大小的卷积核遍历这16个特征图谱，进行相加融合，此过程使用16*3*3+16*32*1*1＝656个参数，远小于上述的4608个参数。

Transformer：一种翻译模型，用自注意力模型的结构代替了长短期记忆模型，在翻译任务上取得了更好的成绩，包括编码器和解码器。

语言翻译模型：本申请提出的基于Transformer模型的一种端到端的网络结构，其中编码器对输入信息进行编码处理获得编码结果，然后解码器同时接收解码器的输入、编码器的编码结果进行解码，并将解码信息输入线性层、归一化层，最终获取相应的翻译结果，其中，编码器由6个编码层堆叠而成，由最底层的编码层接收输入。在其他编码层中，其输入来自上一个编码层的输出。编码器最后一个编码层的输出作为整个编码器的输出结果，解码器由6个解码层堆叠而成，最底层的解码层接收解码器中每个编码层的输出和参考编码矩阵，在其他解码层，接收解码器中每个编码层的输出和上一个解码层的输出，解码器最后一个解码层的输出作为整个解码器的输出结果。

编码器(encoder)：将待翻译文本由文字转化为编码矩阵。

解码器(decoder)：将编码矩阵生成解码矩阵，并将解码矩阵转换为目标语句。

在本申请中，提供了一种数据处理方法及装置、计算设备和计算机可读存储介质，在下面的实施例中逐一进行详细说明。

图1示出了根据本申请一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接，数据库150用于保存数据。

计算设备100还包括接入设备140，接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本申请的一个实施例中，计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图1所示的计算设备结构框图仅仅是出于示例的目的，而不是对本申请范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备100可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。

其中，处理器120可以执行图2所示数据处理方法中的步骤。图2示出了根据本申请一实施例的数据处理方法的流程图，本申请实施例提供的数据处理方法，用于编码器，所述编码器包括多个编码层，对于至少一个所述编码层，所述方法包括步骤202至步骤208。

步骤202：接收待翻译文本对应的待编码矩阵。

本申请提供的数据处理方法，应用于编码器-解码器结构的语言翻译模型，待翻译文本为需要被翻译成目标语言的文本，如在英语-中文转换的语言翻译模型中，待翻译文本即为英语文本，需要将英语文本通过语言翻译模型转换为中文文本；在中文-日文转换的语言翻译模型中，待翻译文本即为中文文本，需要将中文文本通过语言翻译模型转换为日文文本。

本申请中语言翻译模型的编码器包括多个编码层，对于不同的解码层，待编码矩阵是不同的。

对于第一个编码层，在接收待翻译文本对应的待编码矩阵之前，还包括：接收待翻译文本，对所述待翻译文本做嵌入化处理，获得待翻译文本矩阵，对所述待翻译文本矩阵添加位置编码，生成待编码矩阵。

在实际应用中，语言翻译模型的编码器之前还包括嵌入层，在接收待翻译文本后，经过所述嵌入层的嵌入化处理，将待翻译文本进行切分得到多个词单元，然后对每个词单元进行词嵌入处理，得到每个词单元的词向量，进而获得所述待翻译文本的待翻译文本矩阵M*N，其中M是待翻译文本的长度，N为每个词向量的维度，词嵌入实际上是一种将各个词单元在预定的向量空间中表示为实值向量的一类技术。每个词单元被映射成一个向量(初始随机化)。词向量用预定义的维度来表示，大小随机初始化。在这里，嵌入层其实就是语言翻译模型的输入层，对待翻译文本做嵌入化处理，可以用低维度向量对文本进行编码，同时还可以保留其含义的特点。

位置编码确定了句子中词语的绝对位置和相对位置，保证了句子的顺序性，提供了位置的向量信息，计算公式如下公式1和公式2所示：

其中，PE为二维矩阵，大小跟输入嵌入层的维度一样，行表示词语，列表示词向量；pos表示词语在句子中的位置；d_model表示词向量的维度；i表示词向量的位置。上述公式表示在每个词语的词向量的偶数位置添加sin变量，奇数位置添加cos变量，以此来填满整个PE矩阵，这样便完成位置编码的引入。使用sin编码和cos编码的原因是可以得到词语之间的相对位置，对所述待翻译文本矩阵添加位置编码，生成待编码矩阵。

在本申请提供的实施例中，以语言翻译模型为将中文翻译为英文为例，待翻译文本为“桌子上有只猫”，将待翻译文本输入至嵌入层做嵌入化处理，得到待翻译文本矩阵，并对待翻译文本矩阵添加位置编码，生成待编码矩阵E₀。

对于除去第一个编码层的其他编码层，接收待翻译文本对应的待编码矩阵，包括：接收上一个编码层输出的编码矩阵，并将所述编码矩阵作为当前编码层的待编码矩阵。

编码器中的编码层为依次连接的，对于除去第一个编码层的其他编码层，接收上一个编码层输出的编码矩阵作为当前编码层的待编码矩阵，如第二个编码层接收第一个编码层输出的编码矩阵作为第二个编码层的待编码矩阵，第四个编码层接收第三个编码层输出的编码矩阵作为第四个编码层的待编码矩阵。

在本申请提供的实施例中，沿用上例，第二个编码层接收第一个编码层输出的编码矩阵E₁作为第二个编码层的待编码矩阵，第三个编码层接收第二个编码层输出的编码矩阵E₂作为第三个编码层的待编码矩阵……依次类推。

步骤204：根据所述待编码矩阵进行深度分离卷积操作获得第一子层矩阵，根据所述待编码矩阵进行自注意力计算获得第二子层矩阵。

参见图3，图3示出了至少一个编码层中的模型结构示意图，如图3所示，编码层中包括一个深度分离卷积层、自注意力层、线性门控单元和前馈神经网络层。

将所述待编码矩阵输入至所述深度分离卷积层做深度分离卷积操作，为编码器的编码矩阵提供了另一种维度的特征信息表征，可以增强待编码矩阵表征的能力，在编码层增加深度分离卷积层对全局的向量表征有更强的泛化能力，在编码器中进行编码获得的待编码矩阵可以影响具备更强的整体表征能力。

深度分离卷积操作由逐通道卷积(Depthwise)和逐点卷积(Pointwise)两个部分结合而成，相比于常规的卷积操作，深度分离卷积的参数数量和运算成本都比较低。

假设待编码矩阵的大小为20*512，Depthwise卷积核的大小为3*3，Pointwise卷积核的大小为1*1，先通过Depthwise卷积核对所述待编码矩阵做逐通道卷积操作，得到对应的特征图谱，在通过Pointwise卷积核遍历特征图谱，进行相加融合，获得深度分离卷积层输出的第一子层矩阵。

在自注意力层中，每个词均有3个不同的向量，分别为Query向量(Q)，Key向量(K)和Value向量(V)，他们是通过3个不同的权值矩阵由对应的词向量乘以三个不同的权值矩阵W^Q，W^K，W^V得到，其中三个权值矩阵的尺寸也是相同的，第二子层矩阵的计算方式如下公式3所示：

其中，Attention(Q，K，V)是得到的注意力的值，QK^T为每个向量计算score，为了梯度的稳定，使用score归一化，即除以

再对score释义softmax激活函数，之后再点乘Value值V。

在本申请提供的实施例中，将待编码矩阵E输入至深度分离卷积层做深度分离卷积操作，获得第一子层矩阵A₁，将待编码矩阵E输入至自注意力层做自注意力计算操作，获得第二子层矩阵A₂。

步骤206：将所述第一子层矩阵和所述第二子层矩阵进行线性门控处理，获得融合矩阵。

第一子层矩阵和第二子层矩阵分别承载了所述待编码矩阵在不同维度的特征，需要将第一子层矩阵和第二子层矩阵中不同维度的特征进行融合，线性门控单元不仅能有效地降低梯度弥散，而且还保留了非线性的能力。在线性门控单元中的具体操作处理如下公式4所示：

其中，X为第一子层矩阵和第二子层矩阵的和，W和V为线性门控单元中的两个卷积核，b和c为偏执参数，σ为激活函数，激活函数优选sigmoid函数。

第一子层矩阵和第二子层矩阵经过线性门控单元处理后，获得融合矩阵。

在本申请提供的实施例中，沿用上例，将第一子层矩阵A₁和第二子层矩阵A₂进行线性门控处理，获得融合矩阵B。

步骤208：将所述融合矩阵进行线性变换，得到输出的所述待翻译文本对应的编码矩阵。

如图3所示，将线性门控单元输出的融合矩阵输入至前馈神经网络层进行线性变化，将融合矩阵映射为线性向量，获得当前编码层输出的编码矩阵。

前馈神经网络层是一种最简单的神经网络，各神经元分层排列。每个神经元只与前一层的神经元相连。接收前一层的输出，并输出给下一层，各层间没有反馈。

前馈神经网络层由两个线性层及Relu层组成，如下公式5所示：

FFN(x)＝max(0，xW₁+b₁)W₂+b₂ (5)

其中，W₁和W₂均为前馈网络层中的参数矩阵，b₁、b₂为偏置向量，对于任意一个参数矩阵可以表示为M*N，其中，M代表当前训练句子的长度，N代表特征维度。

在本申请提供的实施例中，沿用上例，将融合矩阵B经过前馈神经网络层的线性处理获得当前编码层输出的编码矩阵E。

下面结合图4，对本申请实施例提供的数据处理方法做进一步解释说明，图4示出了语言翻译模型的结构示意图，如图所示，所述语言翻译模型包括6个依次连接的编码层和6个依次连接的解码层，每个编码层中均增加深度分离卷积层和线性门控层，编码层中的结构如图3所示。

接收待翻译文本“今天是周一”，将所述待翻译文本“今天是周一”输入至嵌入层做嵌入化处理，得到待翻译文本矩阵，并对所述待翻译文本矩阵添加位置编码，生成待编码矩阵E₀。

将所述待编码矩阵E₀输入至第一编码层，在第一编码层中将所述待编码矩阵E₀经过深度分离卷积处理得到第一子层矩阵，将所述待编码矩阵E₀经过自注意力处理得到第二子层矩阵，将所述第一子矩阵和所述第二子矩阵进行线性门控处理，获得融合矩阵，再将所述融合矩阵进行线性变换，得到输出的所述待翻译文本对应的编码矩阵E₁。

将第一编码层输出的编码矩阵E₁作为第二编码矩阵的待编码矩阵，第二编码层接收所述待编码矩阵E₁，将所述待编码矩阵E₁经过深度分离卷积处理得到第一子层矩阵，将所述待编码矩阵E₁经过自注意力处理得到第二子层矩阵，将所述第一子矩阵和所述第二子矩阵进行线性门控处理，获得融合矩阵，再将所述融合矩阵进行线性变换，得到输出的所述待翻译文本对应的编码矩阵E₂。

将第二编码层输出的编码矩阵E₂作为第三编码矩阵的待编码矩阵，第三编码层接收所述待编码矩阵E₂，将所述待编码矩阵E₂经过深度分离卷积处理得到第一子层矩阵，将所述待编码矩阵E₂经过自注意力处理得到第二子层矩阵，将所述第一子矩阵和所述第二子矩阵进行线性门控处理，获得融合矩阵，再将所述融合矩阵进行线性变换，得到输出的所述待翻译文本对应的编码矩阵E₃。

将第三编码层输出的编码矩阵E₃作为第四编码矩阵的待编码矩阵，第四编码层接收所述待编码矩阵E₃，将所述待编码矩阵E₃经过深度分离卷积处理得到第一子层矩阵，将所述待编码矩阵E₃经过自注意力处理得到第二子层矩阵，将所述第一子矩阵和所述第二子矩阵进行线性门控处理，获得融合矩阵，再将所述融合矩阵进行线性变换，得到输出的所述待翻译文本对应的编码矩阵E₄。

将第四编码层输出的编码矩阵E₄作为第五编码矩阵的待编码矩阵，第五编码层接收所述待编码矩阵E₄，将所述待编码矩阵E₄经过深度分离卷积处理得到第一子层矩阵，将所述待编码矩阵E₄经过自注意力处理得到第二子层矩阵，将所述第一子矩阵和所述第二子矩阵进行线性门控处理，获得融合矩阵，再将所述融合矩阵进行线性变换，得到输出的所述待翻译文本对应的编码矩阵E₅。

将第五编码层输出的编码矩阵E₅作为第六编码矩阵的待编码矩阵，第六编码层接收所述待编码矩阵E₅，将所述待编码矩阵E₅经过深度分离卷积处理得到第一子层矩阵，将所述待编码矩阵E₅经过自注意力处理得到第二子层矩阵，将所述第一子矩阵和所述第二子矩阵进行线性门控处理，获得融合矩阵，再将所述融合矩阵进行线性变换，得到输出的所述待翻译文本对应的编码矩阵E₆。

将编码矩阵E₆作为最终编码矩阵，分别输入至解码器的每个解码层中做解码处理，得到所述编码矩阵的翻译信息“Today is Monday”。

与上述方法实施例相对应，本申请还提供了数据处理装置实施例，图5示出了本申请一个实施例的数据处理装置的结构示意图。所述装置配置于编码器的至少一个编码层，所述装置包括：

第一接收模块502，被配置为接收待翻译文本对应的待编码矩阵；

编码矩阵处理模块504，被配置为根据所述待编码矩阵进行深度分离卷积操作获得第一子层矩阵，根据所述待编码矩阵进行自注意力计算获得第二子层矩阵；

门控处理模块506，被配置为将所述第一子层矩阵和所述第二子层矩阵进行线性门控处理，获得融合矩阵；

线性变换模块508，被配置为将所述融合矩阵进行线性变换，得到输出的所述待翻译文本对应的编码矩阵。

可选的，在第一编码层之前，所述装置还包括：

第二接收模块，被配置为接收待翻译文本；

可选的，对于除去第一个编码层的其他编码层；

所述第一接收模块502，被配置为接收上一个编码层输出的编码矩阵，并将所述编码矩阵作为当前编码层的待编码矩阵。

可选的，所述编码矩阵处理模块504，被配置为对所述待编码矩阵进行逐通道卷积处理，获得初始第一子层矩阵；对所述初始第一子层矩阵进行逐点卷积，获得第一子层矩阵。

可选的，所述装置还包括：

本申请实施例提供的数据处理装置，在编码层中增加独立于自注意力层的深度分离卷积层，将输入编码层的待编码矩阵同时送入深度分离卷积层和自注意力层进行处理，获得代表不同维度特征的第一子层矩阵和第二子层矩阵，再由线性门控单元根据所述第一子层矩阵和第二子层矩阵进行特征融合计算得到融合矩阵，再经过前馈神经网络层的线性处理获得当前编码层输出的编码矩阵，深度分离卷积层为编码层向量提供了另一个维度的信息表征，线性门控单元融合深度分离卷积层的特征和自注意力层的特征，可以有效地增强编码器的表征能力，增强语言翻译模型的性能。

需要说明的是，装置权利要求中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块，各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架，而不应当理解为主要通过硬件方式实现该解决方案的实体装置。

本申请一实施例中还提供一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现所述的数据处理方法的步骤。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如前所述数据处理方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的数据处理方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述数据处理方法的技术方案的描述。

本申请实施例公开了一种芯片，其存储有计算机指令，该指令被处理器执行时实现如前所述数据处理方法的步骤。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本申请的内容，可作很多的修改和变化。本申请选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种数据处理方法，其特征在于，对于编码器的至少一个编码层，所述方法包括：

接收待翻译文本对应的待编码矩阵；

2.如权利要求1所述的数据处理方法，其特征在于，对于第一个编码层，在接收待翻译文本对应的待编码矩阵之前，包括：

接收待翻译文本；

对所述待翻译文本做嵌入化处理，获得待翻译文本矩阵；

对所述待翻译文本矩阵添加位置编码，生成待编码矩阵。

3.如权利要求1所述的数据处理方法，其特征在于，对于除去第一个编码层的其他编码层；

接收待翻译文本对应的待编码矩阵，包括：

4.如权利要求1所述的数据处理方法，其特征在于，根据所述待编码矩阵进行深度分离卷积操作获得第一子层矩阵，包括：

5.如权利要求1所述的数据处理方法，其特征在于，所述方法还包括：

6.如权利要求5所述的数据处理方法，其特征在于，所述方法还包括：

7.一种数据处理装置，其特征在于，配置于编码器的至少一个编码层，所述装置包括：

8.如权利要求7所述的数据处理装置，其特征在于，在第一编码层之前，所述装置还包括：

第二接收模块，被配置为接收待翻译文本；

9.如权利要求7所述的数据处理装置，其特征在于，对于除去第一个编码层的其他编码层；

10.如权利要求7所述的数据处理装置，其特征在于，

所述编码矩阵处理模块，被配置为对所述待编码矩阵进行逐通道卷积处理，获得初始第一子层矩阵；对所述初始第一子层矩阵进行逐点卷积，获得第一子层矩阵。

11.如权利要求7所述的数据处理装置，其特征在于，所述装置还包括：

12.如权利要求11所述的数据处理装置，其特征在于，所述装置还包括：

13.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现权利要求1-6任意一项所述方法的步骤。

14.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-6任意一项所述方法的步骤。