CN110781674B

CN110781674B - 一种信息处理方法、装置、计算机设备及存储介质

Info

Publication number: CN110781674B
Application number: CN201910888623.XA
Authority: CN
Inventors: 吴晓琳
Original assignee: Beijing Xiaomi Intelligent Technology Co Ltd
Current assignee: Beijing Xiaomi Intelligent Technology Co Ltd
Priority date: 2019-09-19
Filing date: 2019-09-19
Publication date: 2023-10-27
Anticipated expiration: 2039-09-19
Also published as: CN110781674A

Abstract

本公开是关于一种信息处理方法、装置、计算机设备及存储介质，所述方法包括：利用机器翻译模型的编码器对待翻译词句进行编码，得到编码信息；保存所述全局注意力参数；利用所述机器翻译模型的解码器，在所述待翻译词句中每一个词语的所述编码信息的解码循环中，根据所述全局注意力参数确定所述解码器的全局注意力；根据所述全局注意力获得对应所述解码循环中所要预测的词语的预测结果。由于会将解码时需要用到的全局注意力参数保存起来，因此，在解码器需要利用全局注意力参数确定全局注意力时可以直接调取存储的全局注意力参数，而不需要再次通过处理编码信息得到全局注意力参数，减少解码过程中的计算量；从而提高机器翻译模型的推理效率。

Description

一种信息处理方法、装置、计算机设备及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及信息处理方法、装置、计算机设备及存储介质。

背景技术

机器翻译模型是由编码器和解码器构成，其中，编码器用于对输入的句子进行编码，输入到解码器，解码器用于从前向后根据编码器的输出和前面已经翻译的结果进行下一步的推理或预测。相关技术中，机器翻译模型在工作时需要处理较多的数据量，因而导致利用机器翻译模型进行推理或预测的效率低等问题。

发明内容

根据本公开实施例的第一方面，提供一种信息处理方法，包括：

利用机器翻译模型的编码器对待翻译词句进行编码，得到所述编码信息；

基于所述编码信息，获取并存储全局注意力参数；

利用所述机器翻译模型的解码器，在所述待翻译词句中每一个词语的所述编码信息的解码循环中，根据所述全局注意力参数确定所述解码器的全局注意力；

根据所述全局注意力获得对应所述解码循环中所要预测的词语的预测结果。

可选地，所述全局注意力参数还包括至少以下之一：

基于所述待翻译词句中每一个词语的所述编码信息中的第一序列向量进行线性变换后得到第二序列向量；

基于所述待翻译词句中每一个词语的所述编码信息中的第一内容向量进行线性变换后得到的第二内容向量。

可选地，所述机器翻译模型包括N个编码器，所述N为编码器层的总层数，所述N为大于或等于2的正整数；

所述利用机器翻译模型的编码器对待翻译词句进行编码，得到编码信息，包括：

利用所述机器翻译模型中第n层的所述编码器对n-1层的所述编码器输出第n-1层的第一编码信息进行编码，得到第n层所述第二编码信息；

所述基于所述编码信息，获取并存储全局注意力参数，包括：

基于对应第n层的所述第二编码信息，获取并存储对应第n层的第一全局注意力参数以及第n层的层编号；其中，n为大于或等于2且小于或等于N的正整数。

可选地，所述机器翻译模型包括N个解码器，所述N为解码器的总层数；

所述方法还包括：

根据当前所在解码器的第n层的层编号，读取与第n层编码器的层编号对应保存的第n层的第一全局注意力参数；

所述利用机器翻译模型的解码器，在所述待翻译词句中每一个词语的所述编码信息的解码循环中，根据所述全局注意力参数确定所述解码器的全局注意力，包括：

利用所述机器翻译模型中第n层所述解码器，在所述待翻译词句中每一个词语的第n层的第二编码信息的解码循环中，根据第n层的所述第一全局注意力参数确定所述第n层的所述解码器的第一全局注意力。

可选地，所述方法还包括：

确定所述机器翻译模型的所述编码器和/或所述解码器中至少一层的归一化运算中R个第一归一化算子；其中，所述R为大于或等于2的正整数；

将所述第一归一化算子等效转换第二归一化算子，其中，所述第二归一化算子的运算次数少于所述第一归一化算子的运算次数；

利用所述S个所述第二归一化算子执行所述归一化运算；其中，所述S为小于R的正整数。

可选地，所述将所述第一归一化算子等效转换成第二归一化算子，包括：

将R个所述第一归一化算子对应的第一变量转换成向量；

根据所述向量，确定S个所述第二归一化算子。

根据本公开实施例的第二方面，提供一种信息处理装置，包括：

得到模块，被配置为利用机器翻译模型的编码器对待翻译词句进行编码，得到编码信息；

获取模块，被配置为基于所述编码信息，获取并存储全局注意力参数；

确定模块，被配置为利用所述机器翻译模型的解码器，在所述待翻译词句中每一个词语的所述编码信息的解码循环中，根据所述全局注意力参数确定所述解码器的全局注意力；

获得模块，被配置为根据所述全局注意力获得对应所述解码循环中所要预测的词语的预测结果。

可选地，所述全局注意参数还包括以下至少之一：

基于所述待翻译词句中每一个词语的所述编码信息中的第一序列向量进行线性变换后得到的第二序列向量；

可选地，所述机器翻译模型包括N个编码器，所述N为编码器的总层数，所述N大于或等于2；

所述得到模块，还被配置为利用所述机器翻译模型中第n层的所述编码器对第n-1层的所述编码器输出的第n-1层的第一编码信息进行编码，得到所述第n层的所述第二编码信息；

获取模块，还被配置为基于对应第n层的所述第二编码信息，获取并保存对应第n层的第一全局注意力参数以及第n层的层编号；其中，n为大于或等于2且小于或等于N的正整数。

可选地，所述机器翻译模块包括N个解码器，所述N为解码器的总层数；

所述装置还包括：

读取模块，被配置为根据当前所在解码器的第n层的层编号，读取与第n层编码器的层编号对应保存的第n层的所述第一全局注意力参数；

所述确定模块，还被配置为：

利用所述机器翻译模型中第n层所述解码器，在所述待翻译词句中每一个词语的第n层的第二编码信息的解码循环中，根据第n层所述第一全局注意力参数确定所述第n层的所述解码器的第一全局注意力。

可选地，所述装置还包括：

确定模块，被配置为确定所述机器翻译模型的所述编码器和/或所述解码器中至少一层的归一化运算中R个第一归一化算子；其中，R为大于或等于2的正整数；

转换模块，被配置为将所述第一归一化算子等效转换成第二归一化算子，其中，所述第二归一化算子的运算次数少于所述第一归一化算子的运算次数；

执行模块，被配置为利用所述S个所述第二归一化算子执行所述归一化运算；其中，所述S为小于R的正整数。

可选地，所述转换模块，还包括：

转换子模块，被配置为将R个所述第一归一化算子对应的第一变量转换成向量；

确定子模块，被配置为根据所述向量，确定S个所述第二归一化算子。

根据本公开实施例的第三方面，提供一种计算机设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

利用机器翻译模型的编码器对待翻译词句进行编码，得到编码信息；

基于所述编码信息，获取并存储全局注意力参数；

根据本公开实施例的第四方面，提供一种非临时性计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行实现上述任意所述的方法步骤。

本公开的实施例提供的技术方案可以包括以下有益效果：

本公开的实施例中，通过利用机器翻译模型的编码器对待翻译词句进行编码，得到编码信息；基于所述编码信息，获取并存储全局注意力参数；利用所述机器翻译模型的解码器，在所述待翻译词句中每一个词语的所述编码信息的解码循环中，根据所述全局注意力参数确定所述解码器的全局注意力；根据所述全局注意力获得对应所述解码循环中所要预测的词语的预测结果。由于系统会将解码器在解码时需要用到的全局注意力参数保存起来，因此，在解码器需要利用全局注意力参数确定全局注意时可以直接调取存储的所述全局注意力参，而不需要在每次解码循环中通过处理编码信息得到全局注意力参数来确定所述全局注意力。相比相关技术，解码器在每次解码循环时都需要重新对编码信息进行处理得到所述全局注意力参数而言，减少了解码过程中的全局注意力参数重复计算导致的计算量，提高了计算速度，从而提高机器翻译模型的推理效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种信息处理方法的流程图；

图2是根据一示例性实施例示出的机器翻译模型的框架结构示意图；

图3是根据一示例性实施例示出的一种信息处理装置的框图；

图4是根据一示例性实施例示出的一种计算机设备的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

本发明实施例所述的方法可以应用于文本翻译系统中。该文本翻译系统包括终端和服务器。终端可将待翻译词句处理后发送给服务器，服务器执行翻译，得到待翻译词句的翻译结果，再将翻译结果返回至终端。终端也可以自身获取待翻译词句执行翻译。终端具体可以是手机、平板电脑、笔记本电脑、智能设备等中的至少一种；其中，智能设备可以是智能音响、智能冰箱等。服务器可以是独立的服务器或者多个服务器组成的服务器集群。在实际应用中，所述方法可以应用于能够机器翻译模型的所有计算机设备上。

图1是根据一示例性实施例示出的一种信息处理方法的流程图，如图1所示，所述方法包括以下步骤：

步骤101：利用机器翻译模型的编码器对待翻译词句进行编码，得到编码信息。

所述方法可以应用于计算机设备，所述计算机设备可以为所述终端或所述服务器。

这里，所述待翻译词句可以理解为待翻译的初始文本，待翻译词句可以是词语、词组、句子、段落或篇章等，而且所有的词组、句子、段落或篇章都可以分词为多个词语来表示。需要注意的是，所述待翻译词句可以是以各种国家语言表示的文本，例如包括但不限于中文文本、英文文本、日文文本等。另外，待翻译词句可以是用户以文字形式手动输入或选择的文本，也可以是用户以语音形式输入、然后由计算机设备进行语音识别而产生的文本。

需要理解的是，所述机器翻译模型的编码器在对所述待翻译词句进行编码时，仅运行一次，不会进行循环。

实际上，所述编码信息为所述编码器对所述待翻译词句进行编码后得到的与所述待翻译词句相关的编码矩阵。

步骤102：基于所述编码信息，获取并存储全局注意力参数。

需要补充的是，在本发明实施例中加入了全局注意力机制，所述全局注意力机制的目的在于，为了在生成待翻译词句中所有词语的上下文向量，也就是句向量时，将待翻译词句中所有的词语的权重都考虑进去。

需要说明的是，全局注意力参数是用于确定解码器的全局注意力时所需的相关计算参数，是解码阶段开始时，解码器对所述编码信息进行处理后产生的参数。

在一些实施例中，所述全局注意力参数也可以称为编码-解码注意力参数，用于确定解码器的编码-解码注意力。

这里，所述步骤102可以由解码器执行。

这里，基于所述编码信息，获取全局注意力参数，可以包括：所述解码器基于所述编码信息，对所述编码信息进行训练后的权重经线性变换后得到所述全局注意力参数。

在一些实施例中，所述解码器可以包括自注意力子层和编码-解码注意力子层。所述自注意力子层用于计算所述待翻译词句中每一个词语的自注意力，以确定每一个词语在待翻译词句中的权重。所述编码-解码注意力子层用于计算每一个词语的编码-解码注意力，也就是每一个词语的全局注意力。

需要说明的是，所述全局注意力的计算需要用到全局注意力参数以及解码器的自注意力子层输出的第一参数。这里，由于全局注意力参数是由编码信息进行处理后得到的，而编码信息是由编码器针对待翻译词句一次运行后的结果，这个结果是一个不变的结果，如此一来，所述全局注意力参数也是一个不变的参数。这里，所述第一参数由于来自每一个循环中的针对不同词语的自注意子层的输出结果，因此，所述第一参数是一个随着输入的词语的不同而不同的参数。

所述解码器在进行解码时，需要针对所述待翻译词句中每一个词句都进行一次解码循环，而在每一词解码循环时都需要利用所述全局注意力参数进行全局注意力的计算。在本实施例中，计算机设备会将所述全局注意力参数保存在缓存中，以便机器翻译模型的解码器的编码-解码注意力子层进行全局注意力计算时能够直接调取，而不需要在每次解码循环中再次进行全局注意参数的计算，减少了计算量，提高解码效率，最终提高了翻译处理效率。

具体地，全局注意力可以根据下述公式计算得到：

这里，Attention(Q、K、V)表示全局注意力，所述K，V为上述所述的全局注意力参数，Q为上述所述的第一参数。

这里，所述由全局注意参数计算得到的全局注意力允许机器翻译模型关注待翻译词句中的各个词语的位置及含义等相关信息。

在一些实施例中，所述全局注意力参数还包括至少以下之一：

基于所述待翻译词句中每一个词语的所述编码信息中第一序列向量进行线性变换后得到的第二序列向量；

这里，所述基于所述待翻译词句中每一个词语的所述编码信息中的第一序列向量进行线性变换后得到第二序列向量，包括：对待翻译词句中的每一个词语的所述编码信息中第一序列向量建立第一数组；对所述第一数组进行线性变换后得到第二序列向量；其中，所述第二序列向量可以为经由第一数据线性变换后得到的数值。

在一具体实施例中，所述第二序列向量可以用K表示。

这里，所述基于所述待翻译词句中每一个词语所述编码信息中的第一内容向量进行线性变换后得到第二内容向量，包括：对待翻译词句中的每一个词语的所述编码信息中的第一内容向量建立第二数组；对所述第二数组进行线性变换后得到第二内容向量；其中，其中，所述第二内容向量可以为经由第一数据线性变换后得到的数值。

在一具体实施例中，所述第二内容向量可以用V表示。

如此，由于所述第一序列向量和第一内容向量能够指示所述待翻译词句的各个词语的权重信息，通过第一序列向量转换成的第二序列向量，及通过第一内容向量转换成的第二内容向量，可以确定出待翻译词句的全局注意力参数。

步骤103：利用所述机器翻译模型的解码器，在所述待翻译词句中每一个词语的所述编码信息的解码循环中，根据所述全局注意力参数确定所述解码器的全局注意力。

步骤104：根据所述全局注意力获得对应循环所要预测的词语的预测结果。

可以理解的是，所述机器翻译模型中，编码器和解码器构成一个循环神经网络，将所述待翻译的词句的输入序列输入到编码器中，提取编码信息并用于解码器输入，然后一个接一个地生成单个词语对应的预测结果。实际上，对于机器翻译模型而言，可以理解为不断地将前一时刻输入作为后一个时刻的输入，循环解码，直到输出停止符为止。

因此，在每一次输入解码器的信息是由编码器一次编码后的信息，所述编码信息经过处理后得到解码器在计算全局注意力的全局注意力参数，这个全局注意力参数对于所述待翻译词句中每一个词语而言都是一个不变的参数。本实施例将这个不变的所述全局注意力参数存储起来，以便解码器需要使用所述全局注意力参数计算全局注意力时，可以很方便的调用，无需重复处理，减少计算量，提高翻译处理的效率。

需要补充的是，在一个机器翻译模型中可以包括多个编码器和解码器组，其中，一个编码器和所述编码器对应的解码器可以成为所述机器范围模型中的神经网络的一层。所述待翻译词句中的每一个词语经由机器翻译模型进行多层神经网络的学习训练，最终得到更为准确的翻译结果。

具体地，所述机器翻译模型包括N个编码器，所述N为编码器的总层数，所述N为大于或等于2的正整数；

所述利用机器翻译模型中第n层的所述编码器对第n-1层的所述编码器输出的第n-1层的第一编码信息进行编码，得到第n层的所述第二编码信息；

基于对应第n层的所述第二编码信息，获取并存储对应第n层的第一全局注意力参数以及第n层的层编码；其中，n为大于或等于2且小于或等于N的正整数。

如此，计算机设备会将每一层对应的全局注意力参数及对应的层编号一起保存起来，以便解码器对应的层在执行解码时进行查找和调用，提高获取全局注意力参数的速度。

进一步地，所述机器翻译模型包括N个解码器，所述N为解码器的总层数；

所述方法还包括：

根据当前所在解码器的第n层的层编码，读取与第n层的编码器的层编号对应保存的第n层的第一全局注意力参数；

所述利用所述机器翻译模型的解码器，在所述待翻译词句中每一个词语的所述编码信息的解码循环中，根据所述全局注意力参数确定所述解码器的全局注意力，包括：

如此，计算机设备只需要根据解码器的层，确定出对应层的编码器的编码信息及全局注意力参数，进行解码即可，执行起来方便简单，提高了解码过程的计算速度。

进一步地，可以理解的是，神经网络中层归一化的主要目的是对每一层的每一批数据上进行归一化，例如，对输入到所述层的数据进行归一化。而在计算机设备在进行层归一化过程中，会产生多个归一化算子。

在一些实施例中，所述方法还包括：确定所述机器翻译模型的所述编码器和/或所述解码器中至少一层的归一化运算中的R个第一归一化算子；其中，所述R为大于或等于2的正整数；

将所述的第一归一化算子转换成第二归一化算子，其中，所述第二归一化算子的运算次数少于所述第一归一化算子的运算次数；

利用S个所述第二归一化算子执行所述归一化运算。

本实施例中，将R个所述第一归一化算子转换成了S个所述第二归一化算子，由于第二归一化算子的运算次数少于第一归一化算子的运算次数，因此，利用第二归一化算子进行归一化运算可以提高归一化运算速度，从而提高翻译效率。

实际应用中，在计算机设备执行归一化运算过程中，会将计算机设备中GPU(Graphics Processing Unit，图形处理器)的每一个归一化算子运算得到的计算结果拷贝到CPU(central processing unit，中央处理器)。因此，将第一归一化算子转换成运算次数较少的第二归一化算子，同样也可以减少归一化运算过程中所产生的计算结果，从而减少计算结果在GPU和CPU之间的交互所耗时间和所耗的系统资源，故能够进一步提高归一化运算速度，从而提高翻译效率。

具体地，所述将所述第一归一化算子等效转换成第二归一化算子，包括：所述将R个所述第一归一化算子对应的第一变量转换成向量；根据所述向量，确定S个所述第二归一化算子。

这里，将所述第一归一化算子对应的第一变量转换向量，利用向量运算，相比利用每一个第一变量进行运算而言，能够减少运算次数，提高归一化运算速度，从而提高翻译效率。

本实施例中，通过将编码器编码过程中生成的编码信息，再经由解码器对编码信息处理后得到的全局注意力参数，这一不变量进行保存，以便在解码器可以直接调取所述全局注意力参数进行全局注意力的计算，无需在所述解码器解码时重新利用编码器对所述全局注意力参数进行计算，提高了编码解码过程的计算速度，从而提高了机器翻译模型翻译的效率。此外，本实施例还可以通过改进归一化运算，即减少归一化运算的算子以减少计算量和减少计算带来的计算结果的拷贝交互耗时，提高归一化运算速度，从而提高翻译效率。

进一步地，本公开还提供了一个具体实施例，以进一步理解本公开实施例所提供的信息处理方法。

在本实施例中，所述机器翻译模型以transformer翻译模型为例，transformer翻译模型在推理过程中分为两个阶段，编码器的编码阶段和解码器的解码阶段。在编码阶段，编码器可以将输入的待翻译词句中的每个词语编码为具有相同维度的编码向量，多个编码向量组成固定输入长度乘以固定大小的编码矩阵，然后，编码器的输出端将编码矩阵输入到解码器。在解码阶段，解码器需要执行多个循环过程，以分别对多个待翻译词句中的词语进行预测，其中每一个循环过程对一个词语进行预测。在解码器的每一个循环过程中，解码器会根据从编码器输入的编码信息和前面已预测的词语的预测结果，来预测当前词语。示例性地，解码器在一个循环过程中对当前词语进行预测可以建模如下：

P(y_i|y₁,y₂,y₃,....y_i-1；x₁,x₂,x₃,...,x_M)，

其中X_k，是输入的第k个词语，M为输入的词语总数(M是大于等于1的正整数，k是小于等于M的正整数)，y_i为解码器需要预测的第i个词语，之前已经预测了i-1个词语，即y₁～y_i-1，因此解码阶段可以看成包括用于预测待翻译词句中当前词语的M个循环过程。

由于解码器具有多层结构，在每一个循环过程中，解码器都需要针对每一层计算两种注意力，自注意力和全局注意力。本文所称的全局注意力参数是指用于计算全局注意力的相关参数。因此，对于每一层的全局注意力而言，解码器在M个循环过程中需要分别计算M次这一层的全局注意力参数。

对于全局注意力而言，用于计算全局注意力的全局注意力参数e-k，e-v分别表示编码信息进行训练后的权重经线性变换后的结果。实际上，这里的e-k，e-v是由解码器对所述编码器输出的编码矩阵进行训练后的权重经线性变换后所得到的。

进一步地，如图2所示，所述解码器中的编码-解码注意力子层计算编码-解码注意力时，利用全局注意力的计算公式，即：

计算所述编码-解码注意力。

在本实施例中，利用e-k替代K，利用e-v替代V，进行所述全局注意力的计算。需要理解的是，所述e-k，e-v实际上隐含了这里的K，V是与所述编码信息相关的参数，即上述所述的由所述解码器对编码器输出的编码矩阵进行训练后的权重经线性变换后所得到的。

在另一些实施例中，如图2所示，e-v,e-k可以分别理解为上述实施例所述的第二序列向量和所述第二内容向量。明显的，在执行N次用于预测当前待翻译词语的循环过程中，每次循环过程都需要重新计算每一层的两个全局注意力参数e-v和e-k，因此计算量和待翻译词句中的词语个数成正比。对于每一层的全局注意力参数而言，在每次循环过程中参与计算的e-v，e-k均不变，属于循环不变量。因此，本实施例将e-v，e-k提取出来，以免在每次循环过程中重新计算。具体地，在编码阶段结束后，计算每一层解码器的全局注意力参数e-v，e-k并缓存起来,。这样，在每次循环过程中需要使用全局注意力时，只需从缓存中获取对应层的e-v，e-k即可，无需重复计算。

因此，本实施例通过将e-v，e-k缓存的方式，可以有效减少解码阶段多个循环过程中的计算量。

另外，机器翻译模型的层归一化中，相关技术中的归一化运算可能需要计算平均值、减法、方差、加法、开根号等共计10个归一化算子。对于GPU(Graphics ProcessingUnit，图形处理器)的归一化算子，通常每次运算伴随GUP与CPU(central processingunit，中央处理器)之间的数据拷贝，这种设备之间的交互也耗费一定时间，对于GPU的归一化算子，GPU和CPU之间的内存拷贝也耗费一定时间。因此，本实施例还提出了一种层归一化中的归一化算子进行合并的方法，以进一步减少运算，从而减少运算所产生的计算结果，进而减少计算结果所产生的不必要的设备交互耗时。

具体地，将多个归一化算子的对应的第一变量转换成向量，对向量中每个具体元素的操作,可减少不必要的设备交互。

该运算可根据GPU或者CPU不同的硬件条件进行调度。

具体地，相关技术中，所述归一化运算的程序代码为：

mean＝reduce_mean(x,axis＝-1)*/按轴计算平均值/*

variance＝reduce_mean(square(x-mean),axis＝-1)*/对计算出的平均值进行方差运算/*

norm_x＝(x-mean)*rsqrt(variance+epsilon)*/利用求出的平均值和方差计算得到归一化后的值/*

result＝norm_x*scale+bias*/对归一化后的值进行缩放和平移/*

经过归一化算子的优化，合并后，方差运算(variance)的归一化运算的程序代码为：

for b in range(batchsize)；*/遍历每个批次/*

for j in range(length)；*/遍历每个批次的每个词语/*

for i in range(hiddensize)；*/遍历每个隐藏层/*

s+＝(x[b][j][i]-m[b][j])^2*/计算i轴上每一个值与i轴的所有值的均值之间的差的平方的和/*

v[b][j]＝s/hiddensize*/对计算出的方差求取平均值/*

reduce_mean运算为按轴计算均值，计算均值之前需要按轴求和，该操作为规约操作，可以看成最小优化单元，计算得到的结果记做m[b][j]，表示一个参与推理的批量中第b个中第j个词对隐藏层的均值。

这里，变量batchsize是参与推理的批量大小，也就是待翻译词句的被分成的批数，length是batchsize个输入的最大输入长度(未达到最大程度的用0补齐)，也就是每一批中词语的个数，hiddensize是隐藏层大小，即中间的计算结果个数。

其中,v为方差运算的结果,将多个算子的运算转换为对向量中每个具体元素的操作,可减少不要的设备交互.

转成成向量后，归一化运算的程序代码为:

for b in range(batchsize)；*/遍历每个批次/*

for j in range(length)；*/遍历每个批次的每个词语/*

for i in range(hiddensize)；*/遍历每个隐藏层/*

result[b][j][i]＝(x[b][j][i]-m[b][j])*(v[b][j]+epsilon)^(1/2)*scale+bias*/归一化运算得到归一化结果/*

这里，result为归一化运算的结果，尺度(scale)和偏置(bias)为常数。该归一化运算同样针对向量中的每个元素做了运算，但所产生的中间结果显然比相关技术所产生的计算结果要少，因此，可以减少计算结果的拷贝交互带来的耗时。

进一步地，对所有层归一化运算可以定义为：

m＝reduce_mean(x)*/调用封装好的计算平均值的算子reduce_mean(x)来计算得到平均值m/*

v＝variance(m,x)*/调用封装好的计算方差的算子variance(m,x)来计算得到方差值v/*

norm(x,m,v,sacle,bias)*/调用封装好的归一化/*

采用上述实施例所述的方法可在不损失任何精度的前提下，有效提高推理速度。

参见表1，采用本方法的测试，测试环境为nvidia t4cuda10。在中文翻译到英文的任务上，对于平均字符长度10和40的句子，使用本实施例的方法可提高15％左右的效率，且待翻译的词句越长效果越明显。

表1

	平均句长10字符	平均句长40字符
			未优化	103.027718ms	274.090827ms
优化后	88.085170ms	229.828464ms
			提升	14.5％	16.4％

图3是根据一示例性实施例示出的一种信息处理装置框图。参照图3，该装置包括：得到模块31、获取模块32、确定模块33和获得模块34；其中，

所述得到模块31，被配置为利用机器翻译模型的编码器对待翻译词句进行编码，得到编码信息；

所述获取模块32，被配置为基于所述编码信息，获取并存储全局注意力参数；

所述确定模块33，被配置为利用所述机器翻译模型的解码器，在所述待翻译词句中每一个词语的所述编码信息的解码循环中，根据所述全局注意力参数确定所述解码器的全局注意力；

获得模块34，被配置为根据所述全局注意力获得对应所述解码循环中所要预测的词语的预测结果。

在一个可选的实施例中，所述全局注意力参数还包括至少以下之一：

基于所述待翻译词句中每一个词语的所述编码信息中的第一内容向量进行线性变换后得到第二内容向量；其中，所述第一内容向量表征所述词语的含义。

在一个可选的实施例中，所述机器翻译模型包括N个编码器，所述N为编码器的总层数，所述N为大于或等于2的正整数；

所述得到模块31，还被配置为利用所述机器翻译模型中第n层的所述编码器对第n-1层的所述编码器输出的第n-1层的第一编码信息进行编码，得到第n层的所述第二编码信息；

获取模块32，还被配置为基于对应第n层的所述第二编码信息，获取并保存对应第n层第一全局注意力参数以及第n层的层编号；其中，n为大于或等于2且小于或等于N的正整数。

在一个可选的实施例中，所述机器翻译模型包括N个解码器，所述N为解码器的总层数；

所述装置还包括：

读取模块，被配置为根据当前所在第n层解码器的层编号，读取与第n层编码器的层编号对应保存的第n层的所述第一全局注意力参数；

所述确定模块33，还被配置为：

在一个可选的实施例中，所述装置还包括：

在一个可选的实施例中，所述转换模块，还包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图4是根据一示例性实施例示出的一种终端400的框图。例如，终端400可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图4，计算机设备400可以包括以下一个或多个组件：处理组件402，存储器404，电力组件406，多媒体组件408，音频组件410，输入/输出(I/O)的接口412，传感器组件414，以及通信组件416。

处理组件402通常控制计算机设备400的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件402可以包括一个或多个处理器420来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件402可以包括一个或多个模块，便于处理组件402和其他组件之间的交互。例如，处理组件402可以包括多媒体模块，以方便多媒体组件408和处理组件402之间的交互。

存储器404被配置为存储各种类型的数据以支持在计算机设备400的操作。这些数据的示例包括用于在计算机设备400上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件404为计算机设备400的各种组件提供电力。电力组件404可以包括电源管理系统，一个或多个电源，及其他与为计算机设备400生成、管理和分配电力相关联的组件。

多媒体组件408包括在所述计算机设备400和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件408包括一个前置摄像头和/或后置摄像头。当计算机设备400处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件410被配置为输出和/或输入音频信号。例如，音频组件410包括一个麦克风(MIC)，当计算机设备400处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件416发送。在一些实施例中，音频组件410还包括一个扬声器，用于输出音频信号。

I/O接口412为处理组件402和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件414包括一个或多个传感器，用于为计算机设备400提供各个方面的状态评估。例如，传感器组件414可以检测到计算机设备400的打开/关闭状态，组件的相对定位，例如所述组件为计算机设备400的显示器和小键盘，传感器组件414还可以检测计算机设备400或计算机设备400一个组件的位置改变，用户与计算机设备400接触的存在或不存在，计算机设备400方位或加速/减速和计算机设备400的温度变化。传感器组件414可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件414还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件416被配置为便于计算机设备400和其他设备之间有线或无线方式的通信。计算机设备400可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件416经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件416还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，计算机设备400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器404，上述指令可由计算机设备400的处理器420执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由计算机设备的处理器执行时，使得计算机设备能够执行上述各实施例所述的信息处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种信息处理方法，其特征在于，包括：

基于所述编码信息，获取并存储全局注意力参数；

利用所述机器翻译模型的解码器，在所述待翻译词句中每一个词语的所述编码信息的解码循环中，根据存储的所述全局注意力参数确定所述解码器的全局注意力；

2.根据权利要求1所述的方法，其特征在于，所述全局注意力参数还包括至少以下之一：

3.根据权利要求1所述的方法，其特征在于，所述机器翻译模型包括N个编码器，所述N为编码器的总层数，所述N为大于或等于2的正整数；

利用所述机器翻译模型中第n层的所述编码器对第n-1层的所述编码器输出的第n-1层的第一编码信息进行编码，得到第n层的第二编码信息；

4.根据权利要求3所述的方法，其特征在于，所述机器翻译模型包括N个解码器，所述N为解码器的总层数；

所述方法还包括：

根据当前所在解码器的第n层的层编号，读取与第n层编码器的层编号对应保存的第n层的所述第一全局注意力参数；

利用所述机器翻译模型中第n层所述解码器，在所述待翻译词句中每一个词语的第n层的所述第二编码信息的解码循环中，根据第n层的所述第一全局注意力参数确定所述第n层的所述解码器的第一全局注意力。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定所述机器翻译模型的所述编码器和/或所述解码器中至少一层的归一化运算中的R个第一归一化算子；其中，所述R为大于或等于2的正整数；

将所述第一归一化算子等效转换成第二归一化算子，其中，所述第二归一化算子的运算次数少于所述第一归一化算子的运算次数；

利用S个所述第二归一化算子执行所述归一化运算；其中，所述S为小于R的正整数。

6.根据权利要求5所述的方法，其特征在于，所述将所述第一归一化算子等效转换成第二归一化算子，包括：

将R个所述第一归一化算子对应的第一变量转换成向量；

根据所述向量，确定所述S个所述第二归一化算子。

7.一种信息处理装置，其特征在于，包括：

确定模块，被配置为利用所述机器翻译模型的解码器，在所述待翻译词句中每一个词语的所述编码信息的解码循环中，根据存储的所述全局注意力参数确定所述解码器的全局注意力；

8.根据权利要求7的所述装置，其特征在于，所述全局注意力参数还包括至少以下之一：

基于所述待翻译词句中每一个词语的所述编码信息中的第一内容向量进行线性变换后得到第二内容向量。

9.根据权利要求7所述的装置，其特征是在于，所述机器翻译模型包括N个编码器，所述N为编码器的总层数，所述N为大于或等于2的正整数；

所述得到模块，还被配置为利用所述机器翻译模型中第n层的所述编码器对第n-1层的所述编码器输出的第n-1层的第一编码信息进行编码，得到第n层的第二编码信息；

10.根据权利要求9所述的装置，其特征在于，所述机器翻译模型包括N个解码器，所述N为解码器的总层数；

所述装置还包括：

所述确定模块，还被配置为：

利用所述机器翻译模型中第n层所述解码器，在所述待翻译词句中每一个词语的第n层的所述第二编码信息的解码循环中，根据第n层所述第一全局注意力参数确定所述第n层的所述解码器的第一全局注意力。

11.根据权利要求7所述的装置，其特征在于，所述装置还包括：

执行模块，被配置为利用S个所述第二归一化算子执行所述归一化运算；其中，所述S为小于R的正整数。

12.根据权利要求11所述的装置，所述转换模块，还包括：

确定子模块，被配置为根据所述向量，确定所述S个所述第二归一化算子。

13.一种计算机设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

基于所述编码信息，获取并存储全局注意力参数；

利用所述机器翻译模型的解码器，在所述待翻译词句中每一个词语的所述编码信息的解码循环中，根据所述全局注意参数确定所述解码器的全局注意力；

14.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行实现权利要求1至6中任一项所述的方法步骤。