CN109918684A

CN109918684A - 模型训练方法、翻译方法、相关装置、设备及存储介质

Info

Publication number: CN109918684A
Application number: CN201910179474.XA
Authority: CN
Inventors: 涂兆鹏; 王星; 李建
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-03-05
Filing date: 2019-03-05
Publication date: 2019-06-21

Abstract

本申请公开了一种神经网络模型训练方法，包括：通过初始神经网络模型的向量转换层，将输入样本转换为第一输入向量，通过多个注意力网络中的每个注意力网络，将所述第一输入向量转换为与所述每个注意力网络对应的第一输出向量，通过非线性变换层，将每个第一输出向量分别线性变换为对应的第二输入向量，通过协同路由网络，根据每个第二输入向量对应的投票向量确定对应的第二输出向量，并将每个第二输出向量进行拼接，以得到目标输出向量，根据所述目标输出向量与所述输出样本对应向量的比对结果，对所述初始神经网络模型的参考参数进行迭代调整直到满足收敛条件，以得到目标神经网络模型。本申请训练得到的目标神经网络模型具有更强地学习能力。

Description

模型训练方法、翻译方法、相关装置、设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种神经网络模型训练方法、一种机器翻译方法、神经网络模型训练的装置、机器翻译装置、相关设备以及计算机可读存储介质。

背景技术

近年来，注意力机制(Attention Mechanism)被广泛应用于基于深度学习的自然语言处理(Netural Language Processing，NLP)各个任务中，例如机器翻译、智能问答、语音识别等任务。

目前应用比较广泛的是多头注意力(Multi-headed Attention)机制，所谓多头注意力机制是指通过多个注意力网络学习不同特征，即通过计算多次来捕获不同子空间上的相关信息。

但目前基于多头注意力机制的模型在训练过程中，将各个子空间独立对待，其并不关注各个子空间之间的关联关系，因此目前基于多头注意力机制的模型的学习表征能力还比较弱。

发明内容

本申请实施例提供了一种神经网络模型训练方法，保证训练得到的神经网络模型能够对其中多个注意力网络各自的输出向量进行充分地交互，学习到包含更多信息的特征，从而增强模型的学习表征能力。本申请实施例还提供了相应的机器翻译方法、装置、设备及存储介质。

本申请第一方面提供一种神经网络模型训练的方法，包括：

获取训练样本集合，所述训练样本集合中包括多个训练样本对，其中每个训练样本对包括输入样本和输出样本；

通过初始神经网络模型的向量转换层，将输入样本转换为第一输入向量，所述初始神经网络模型还包括多个注意力网络、非线性变换层和协同路由网络；

通过多个注意力网络中的每个注意力网络，将所述第一输入向量转换为与所述每个注意力网络对应的第一输出向量；

通过非线性变换层，将每个第一输出向量分别线性变换为对应的第二输入向量；

通过协同路由网络，根据每个第二输入向量对应的投票向量确定对应的第二输出向量，并将每个第二输出向量进行拼接，以得到目标输出向量；

根据所述目标输出向量与所述输出样本对应向量的比对结果，对所述初始神经网络模型的参考参数进行迭代调整直到满足收敛条件，以得到目标神经网络模型。

本申请第二方面提供了一种机器翻译方法，包括：

获取待翻译内容；

通过机器翻译模型获得所述待翻译内容对应的翻译结果，所述机器翻译模型为根据上述第一方面所述的模型训练方式训练得到的目标神经网络模型；

显示所述翻译结果。

本申请第三方面提供了一种神经网络模型训练的装置，包括：

获取模块，用于获取训练样本集合，所述训练样本集合中包括多个训练样本对，其中每个训练样本对包括输入样本和输出样本；

第一转换模块，用于通过初始神经网络模型的向量转换层，将获取模块获取的所述输入样本转换为第一输入向量，所述初始神经网络模型还包括多个注意力网络、非线性变换层和协同路由网络；

第二转换模块，用于通过多个注意力网络中的每个注意力网络，将所述第一转换模块转换得到的第一输入向量转换为与所述每个注意力网络对应的第一输出向量；

非线性变换模块，用于通过非线性变换层，将所述第二转换模块转换得到的每个第一输出向量分别线性变换为对应的第二输入向量；

协同路由模块，用于通过协同路由网络，根据所述线性变换模块线性变换得到的每个第二输入向量对应的投票向量确定对应的第二输出向量，并将每个第二输出向量进行拼接，以得到目标输出向量；

调整模块，用于根据所述协同路由模块确定的目标输出向量与所述输出样本对应向量的比对结果，对所述初始神经网络模型的参考参数进行迭代调整直到满足收敛条件，以得到目标神经网络模型。

本申请第四方面提供了一种机器翻译装置，包括：

获取模块，用于获取待翻译内容；

翻译模块，用于通过机器翻译模型获得所述待翻译内容对应的翻译结果，所述机器翻译模型为根据上述第一方面所述的模型训练方式训练得到的目标神经网络模型；

显示模块，用于显示所述翻译结果。

本申请第五方面提供了一种计算机设备，所述计算机设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行上述第一方面所述的神经网络模型训练方法。

本申请第六方面提供了一种计算机设备，所述计算机设备包括处理器以及存储器：

所述存储器用于存储机器翻译模型，所述机器翻译模型是根据上述第一方面所述的神经网络模型训练方法训练得到的目标神经网络模型；

所述处理器用于运行所述机器翻译模型，以获得与待翻译内容对应的翻译结果。

本申请第七方面提供了一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如上述第一方面所述的神经网络模型训练方法。

本申请第八方面提供了一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如上述第二方面所述的机器翻译方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例提供了一种神经网络模型训练方法，在该方法中，先获取训练样本集合；然后，将该训练样本集中的输入样本输入初始神经网络模型中，该初始神经网络模型包括多个注意力网络、非线性变换层和协同路由网络；接着，通过非线性变换层，对多个注意力网络各自的第一输出向量进行非线性变换，得到用于输入到协同路由网络的第二输出向量；进而，再通过协同路由网络，根据每个第二输入向量对应的投票向量确定对应的第二输出向量，并将每个第二输出向量进行拼接，以得到目标输出向量，再结合输出样本对应向量的比对结果，对所述初始神经网络模型的参考参数进行迭代调整直到满足收敛条件，以得到目标神经网络模型。

在上述训练方法中，相比现有技术中通过对各个注意力网络各自的输出向量进行拼接得到输出向量，这种非线性变换的方式考虑了各个注意力网络的第一输出向量之间的复杂关系，通过协同路由网络的投票向量还充分考虑了第二输入向量与第二输出向量之间的关系，从而确保最终生成的目标输出向量可以充分的融合每个注意力网络的特征信息。进而保证最终的输出表示效果更好，基于该训练方法使得训练得到的神经网络模型具有更强地学习能力。

附图说明

图1是本申请实施例提供的神经网络模型训练的一场景示意图；

图2是本申请实施例提供的多个注意力网络的示例示意图；

图3是本申请实施例提供的神经网络模型训练的方法的一实施例示意图；

图4是本申请实施例提供的协同路由网络向量处理过程示意图；

图5是本申请实施例提供的神经网络模型的结构示意图；

图6是本申请实施例提供的机器翻译方法的一实施例示意图；

图7是本申请实施例提供的神经网络模型训练的装置的一实施例示意图；

图8是本申请实施例提供的机器翻译装置的一实施例示意图；

图9是本申请实施例提供的服务器的一实施例示意图；

图10是本申请实施例提供的终端设备的一实施例示意图。

具体实施方式

下面结合附图，对本发明的实施例进行描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。本领域普通技术人员可知，随着技术的发展和新场景的出现，本发明实施例提供的技术方案对于类似的技术问题，同样适用。

本发明实施例提供一种神经网络模型训练方法，保证训练得到的神经网络模型能够对其中多个注意力网络各自的输出向量进行充分地交互，学习到包含更多信息的特征，从而增强模型的学习表征能力。本申请实施例还提供了相应的机器翻译方法、装置、设备及存储介质。以下分别进行详细说明。

现有技术中，在对基于多头注意力机制的模型进行训练的过程中，通常采用线性拼接的方式，将模型中多个注意力网络各自的输出向量直接拼接起来，获得多个注意力网络对应的特征融合向量。然而，这种线性拼接的方式不能有效地建模各个子空间之间的复杂关系，也不能提取各个特征之间的互补关系，是一种低效的特征融合机制。

为了解决上述现有技术存在的问题，本申请实施例提供了一种神经网络模型训练方法，保证训练得到的神经网络模型能够对其中多个注意力网络各自的输出向量进行充分地交互，从而产生更换的最终输出表示。

下面先对本申请实施例提供的神经网络模型训练方法的核心技术思路进行介绍：

在该神经网络模型训练方法中，先获取训练样本集，该训练样本集中包括训练样本及其对应的标准标签向量；然在该方法中，先获取训练样本集合；然后，将该训练样本集中的输入样本输入初始神经网络模型中，该初始神经网络模型包括多个注意力网络、非线性变换层和协同路由网络；接着，通过非线性变换层，对多个注意力网络各自的第一输出向量进行非线性变换，得到用于输入到协同路由网络的第二输出向量；进而，再通过协同路由网络，根据每个第二输入向量对应的投票向量确定对应的第二输出向量，并将每个第二输出向量进行拼接，以得到目标输出向量，再结合输出样本对应向量的比对结果，对所述初始神经网络模型的参考参数进行迭代调整直到满足收敛条件，以得到目标神经网络模型。

在上述训练方法中，非线性变换的方式考虑了各个注意力网络的第一输出向量之间的复杂关系，通过协同路由网络的投票向量还充分考虑了第二输入向量与第二输出向量之间的关系，从而确保最终生成的目标输出向量可以充分的融合每个注意力网络的特征信息。进而保证最终的输出表示效果更好，基于该训练方法使得训练得到的神经网络模型具有更强地学习能力。

需要说明的是，基于注意力机制的神经网络模型目前已被广泛地应用于各种应用场景，如机器翻译、图像注释、智能问答、语音识别等，当需要针对某种应用场景开发能够实现特定功能的神经网络模型时，即可获取该应用场景下的相关数据作为训练样本集，采用本申请实施例提供的神经网络模型训练方法，利用上述训练样本集相应地训练适用于该应用场景的神经网络模型。

应理解，本申请实施例提供的神经网络模型训练方法可以应用于具备模型训练功能的设备，如终端设备、服务器等。其中，终端设备具体可以为智能手机、计算机、个人数字助理(PersonalDigital Assitant，PDA)、平板电脑等；服务器具体可以为应用服务器，也可以为Web服务器，在实际应用部署时，该服务器可以为独立服务器，也可以为集群服务器。

在实际应用中，终端设备和服务器可以单独训练神经网络模型，也可以彼此交互训练神经网络模型，二者交互训练神经网络模型时，终端设备可以从服务器处获取训练样本集，进而利用该训练样本集对神经网络模型进行训练，或者，服务器可以从终端处获取训练样本集，利用该训练样本集对神经网络模型进行训练。

应理解，终端设备或服务器执行本申请实施例提供的神经网络模型训练方法，训练得到目标神经网络模型后，可以将该目标神经网络模型发送至其他终端设备，以在这些终端设备上运行上述目标神经网络模型，实现相应的功能；也可以将该目标神经网络模型发送至其他服务器，以在其他服务器上运行上述目标神经网络模型，通过这些服务器实现相应的功能。

为了便于理解本申请实施例提供的技术方案，下面以服务器训练神经网络模型为例，结合实际应用场景对本申请实施例提供的神经网络模型训练方法进行介绍。

参见图1，图1为本申请实施例提供的神经网络模型训练的一应用场景示意图。

该场景中包括数据库101和用于训练神经网络模型的服务器102，数据库101和服务器102通过网络连接。当然，该数据库101也可以集成在服务器102上，该场景中以数据库位于独立的设备上为例进行说明，数据库101上的训练样本集合中包括多个训练样本对，其中每个训练样本对包括输入样本和输出样本；这些训练样本对可以是开发人员专门制作的，也可以是通过有奖参与的方式由用户参与上报的，当然，还可以通过其他方式获得本申请的训练样本对，本申请中对训练样本对的获取方式不做具体限定。

其中，数据库101能够为服务器提供输入样本和输出样本。

服务器102通过网络从数据库101处获取到训练样本集合后，将输入样本输入到初始神经网络模型。

该初始神经网络模型包括向量转换层、多个注意力网络、非线性变换层和协同路由网络。

在向量转换层可以将输入样本转换为第一输入向量，第一输入向量会传递到多个注意力网络中的每个注意力网络，在每个注意力网络可以将所述第一输入向量转换为与所述每个注意力网络对应的第一输出向量；例如：图1中，若有X个注意力网络，则会有X个第一输出向量，每个注意力网络都会输出一个第一输出向量，因为每个注意力网络所关注的特征不相同，所以每个第一输出向量可以是不相同的。如图2所示，以有两个注意力网络为例，在注意力网络1和注意力网络2中，与Bush的依存关系是不同的，如注意力网络1中Bush与talk的依存关系强，在注意力网络2中，Bush与sharon的依存关系强，所以，这两个注意力网络在输入相同的第一输入向量时，会产生不同的第一输出向量。

接下来，通过非线性变换层，将每个第一输出向量分别线性变换为对应的第二输入向量。

通过协同路由网络，根据每个第二输入向量对应的投票向量确定对应的第二输出向量，并将每个第二输出向量进行拼接，以得到目标输出向量。

服务器102生成目标神经网络模型后，可以进一步将该目标神经网络模型发送至终端设备，以在终端设备上运行该目标神经网络模型，利用这些目标神经网络模型实现相应的功能。

需要说明的是，服务器102在训练神经网络模型的过程中，采用了非线性变换的方式考虑了各个注意力网络的第一输出向量之间的复杂关系，通过协同路由网络的投票向量还充分考虑了第二输入向量与第二输出向量之间的关系，从而确保最终生成的目标输出向量可以充分的融合每个注意力网络的特征信息。进而保证最终的输出表示效果更好，基于该训练方法使得训练得到的神经网络模型具有更强地学习能力。

需要说明的是，上述图1所示的应用场景仅为一种示例，在实际应用中，本申请实施例提供的神经网络模型训练方法还可以应用于其他应用场景，在此不对该神经网络模型训练方法的应用场景做任何限定。

下面通过实施例对本申请提供的神经网络模型训练方法进行介绍。

参见图3，图3为本申请实施例提供的一种神经网络模型训练方法的一实施例示意图。为了便于描述，下述实施例以服务器作为执行主体进行描述，应理解，该神经网络模型训练方法的执行主体并不仅限于服务器，还可以应用于终端设备等具备模型训练功能的设备。如图3所示，该神经网络模型训练方法包括以下步骤：

步骤201：获取训练样本集合，所述训练样本集合中包括多个训练样本对，其中每个训练样本对包括输入样本和输出样本。

服务器获取训练样本集合，以利用该训练样本集合中的训练样本对对神经网络模型进行训练；该训练样本集合中通常包括多个训练样本对。

具体实现时，服务器可以从相关数据库中获取若干历史数据，将所获取的若干历史数据作为训练样本集。应理解，当本申请实施例提供的神经网络模型训练方法的执行主体为终端设备时，终端设备可以向服务器发起获取历史数据的请求，从服务器处获取若干历史数据作为训练样本集。

可选的，上述训练样本对包括但不限于待翻译的文本、视频、音频中的至少一种，该训练样本对应的标准标签为标准翻译文本。

当训练样本对中的输入样本为待翻译的文本时，该输入样本对应的输出样本即为该待翻译的文本对应的标准翻译文本。若作为输入样本的待翻译的文本为中文，需要将该待翻译的文本翻译为对应的英文，则该输出样本即为英文标准翻译文本，例如，输入样本为中文“我爱你”，则该输出样本为“I love you”；若输入样本为英文，需要将该待翻译的文本翻译为对应的中文，则该输出样本为中文标准翻译文本，例如，输入样本为英文“I loveyou”，则该输出样本为“我爱你”。

当输入样本为待翻译的视频时，其通常应用于在图像注释的应用场景，该输出样本为标准翻译文本，该标准翻译文本是与待翻译的视频呈现的场景对应的文本信息；例如，输入样本为一位老师正在教室里给学生上课的待翻译视频，则该输出样本为“老师在教室里上课”。应理解，此处的待翻译视频可以为静态视频帧，也可以为动态视频帧。

当输入样本为待翻译的音频时，该输出样本仍为标准翻译文本，该标准翻译文本是用于与待翻译的音频对应的文本信息；例如，作为输入样本的待翻译的音频是“我很好，谢谢”，相应地，该输入样本对应的输出样本可以为“我很好，谢谢”或“I am fine，thankyou”，该标准标签可以根据神经网络模型所要实现的具体功能来确定。

需要说明的是，上述训练样本对仅为几种示例，在实际应用中，还可以采集其他数据作为训练样本对。

需要说明的是，上述输入样本通常由一组有序排列的元素组成，即该输入样本可以表现为元素序列，以包括I个元素的输入样本为例，输入样本可以表示为X＝{x₁,x₂,x₃,……,x_I}，该输入样本的长度为I；例如，若作为输入样本的待翻译的文本为“今天是星期一”，相应地，该输入样本可以表现为{今，天，是，星，期，一}；又例如，若作为输入样本的待翻译的文本为“Today is Monday”，相应地，该输入样本可以表现为{Today，is，Monday}。

步骤202：通过初始神经网络模型的向量转换层，将输入样本转换为第一输入向量，所述初始神经网络模型还包括多个注意力网络、非线性变换层和协同路由网络。

服务器获取到训练样本集合后，将训练样本集合中的输入样本和输出样本逐一输入初始神经网络模型，以利用训练样本集合中的训练样本对对神经网络模型进行训练，该神经网络模型为预先搭建好的网络模型，其中包括多个注意力网络，多个注意力网络是用来捕获不同特征信息的网络。

需要说明的是，上述初始神经网络模型可以为循环神经网络模型(RecurrentNeural Network，RNN)、神经网络机器翻译模型(Neural Machine Translation，NMT)、编码器-解码器(Encoder-Decoder)等神经网络模型，在此不对神经网络模型的结构做具体限定。

步骤203、通过多个注意力网络中的每个注意力网络，将所述第一输入向量转换为与所述每个注意力网络对应的第一输出向量。

需要说明的是，各个注意力网络分别对应不同的子空间，即子空间与注意力网络呈一一对应的关系，各个子空间通过对输入的元素序列相应地进行注意力函数运算，输出对应的请求(query)向量序列、键(key)向量序列和值(value)向量序列；上述注意力函数具体可以为线性变换，线性变换可以将属于一个向量空间的向量映射至另一个向量空间，向量空间是由相同维度的多个向量构成的集合。

具体实现时，服务器将训练样本集合中的输入样本输入初始神经网络模型后，初始神经网络模型可以利用其中的向量转换层，将输入样本对应的元素序列转换成对应的源端向量序列，也就是第一输入向量，即将离散的元素转换成连续的空间表示，该源端向量序列由训练样本对应的元素序列中的每个元素对应的源端向量构成，该源端向量序列可以表现为Z＝{z₁,z₂,z₃,……,z_I}。例如，初始神经网络模型的向量转换层将输入样本对应的元素序列中的第i个元素x_i转换为一个d维的列向量z_i，进而，将元素序列中各个元素各自对应的列向量组合起来，得到对应于该训练样本的源端向量，其为由I个d维的列向量构成的向量序列。

在一种可能的实现方式中，初始神经网络模型将输入样本转换为其对应的源端向量序列后，初始神经网络模型中的各个注意力网络可以分别将源端向量序列映射至各个不同的子空间，通过各个子空间对源端向量序列进行注意力函数运算，得到其对应的请求向量序列、键向量序列和值向量序列。例如各个注意力网络包括i个子空间，各个子空间包括三个不同的可学习参数矩阵W_i ^Q、W_i ^k和W_i ^V，利用这三个可学习参数矩阵对源端向量序列进行线性变换，得到请求向量序列Q_i、键向量序列K_i和值向量序列V_i，具体线性变换的过程如下所示：

Q_i＝z_i*W_i ^Q

K_i＝z_i*W_i ^K

V_i＝z_i*W_i ^V

其中，第i个子空间输出的请求向量序列Q、键向量序列K和值向量序列V分别为Q_i、K_i和V_i；训练样本X＝{x₁,x₂,x₃,……,x_I}包括I个元素，源端向量序列Z＝{z₁,z₂,z₃,……,z_I}中的各个元素为d维列向量，即Z为I个d维向量构成的向量序列，可记为I*d的矩阵；可学习参数矩阵W_i ^Q、W_i ^k和W_i ^V为d*d的矩阵，则请求向量序列Q、键向量序列K和值向量序列V为I*d的矩阵。

在另一种可能的实现方式中，初始神经网络模型将训练样本转换为其对应的源端向量序列后，神经网络模型先利用三个不同的可学习参数矩阵W^Q、W^K和W^V对源端向量序列Z进行线性变换，得到请求向量基本序列q、键向量基本序列k和值向量基本序列v，具体线性变换的过程如下：

q＝Z*W^Q

k＝Z*W^K

v＝Z*W^V

其中，训练样本X＝{x₁,x₂,x₃,……,x_I}包括I个元素；源端向量序列Z＝{z₁,z₂,z₃,……,z_I}中各个元素为d维列向量，即Z为I个d维列向量构成的向量序列，可记为I*d的矩阵；可学习参数矩阵W_i ^Q、W_i ^k和W_i ^V为d*d的矩阵，则请求向量基本序列q、键向量基本序列k和值向量基本序列v为I*d的矩阵。

再通过初始神经网络中的各个注意力网络分别将请求向量基本序列q、键向量基本序列k和值向量基本序列v分别映射至各个子空间，通过对各个子空间对请求向量基本序列q、键向量基本序列k和值向量基本序列v进行注意力函数运算，得到对应的请求向量序列Q、键向量序列K和值向量序列V，具体计算过程如下：

Q_i＝q*W_i ^Q

K_i＝k*W_i ^K

V_i＝v*W_i ^V

第i个子空间输出的请求向量序列Q、键向量序列K和值向量序列V分别为Q_i、K_i和V_i；其中，各个子空间的可学习参数矩阵W_i ^Q、W_i ^k和W_i ^V并不相同。

获得各个子空间各自对应的请求向量序列、键向量序列和值向量序列后，在各个子空间中，可以分别使用点积来建模请求与每个键-值对之间的逻辑相似度，具体计算逻辑相似度e的公式如下：

其中，e_i为第i个子空间对应的逻辑相似度，为第i个子空间的键向量序列K_i的转置，Q_i为第i个子空间的请求向量序列，d为神经网络模型隐藏状态向量的维度，该d为固定的参数。

然后，再利用对点积计算得到的逻辑相似度进行softmax非线性变换，将逻辑相似度转换为请求与每个键-值对之间的权重关系，具体将逻辑相似度转换为权重关系的公式如下：

α_i＝softmax(e_i)

其中，α_i为第i个子空间对应的权重关系，e_i为第i个子空间对应的逻辑相似度。

进而，利用经上述计算得到的权重关系，相应地对各个子空间对应的值向量序列进行加权处理，得到各个子空间各自对应的输出向量，该输出向量即为注意力网络的输出向量，具体加权处理的公式如下：

O_i＝_i·V_i

其中，O_i为第i个子空间对应的第一输出向量，即为第i个注意力网络对应的输出向量，α_i为第i个子空间对应的权重关系，V_i为第i个子空间对应的值向量序列。

步骤204、通过非线性变换层，将每个第一输出向量分别线性变换为对应的第二输入向量。

各个注意力网络各自对应的第一输出向量输出到非线性变换层后，进一步对各个注意力网络各自的第一输出向量进行非线性变换，以通过非线性变换使得各个注意力网络的第一输出向量进行充分地交互，从而得到更有信息量的特征融合向量。

可选地，该步骤204可以通过如下方式确定第二输入向量:

通过所述非线性变换层，对每个第一输出向量采用不同的非线性函数对所述第一输出向量进行计算，以确定与该第一输出向量对应的第二输入向量。

如：多个注意力网络中每个注意力网络输出的是一个第一输出向量O_i，将其进行非线性变换即可得到对应的第二输入向量即：

其中f_i()是一个非线性变换方程，需要注意的是这里每个第一输入向量都有一个唯一的f_i()，若有h个第一输入向量，则有h个f_i()。

步骤205、通过协同路由网络，根据每个第二输入向量对应的投票向量确定对应的第二输出向量，并将每个第二输出向量进行拼接，以得到目标输出向量。

可选地，该步骤205可以包括：

通过协同路由网络，分别生成与所述每个第二输入向量对应的投票向量，所述投票向量用于表示所述每个第二输入向量传递到对应的第二输出向量的比例；

通过所述每个第二输入向量对应的投票向量和协同权重，确定对应的第二输出向量，所述协同权重用于表示所述第二输出向量与对应的投票向量之间的协同度；

将每个第二输出向量进行拼接，以得到目标输出向量。

可选地，所述通过所述每个第二输入向量对应的投票向量和协同权重，确定对应的第二输出向量之前，所述方法还可以包括：

确定所述第二输出向量与对应的投票向量之间的协同权重。

每个第二输入向量可以有多个投票向量，例如：若有N个第二输出向量每个第二输入向量都会由一次线性映射生成N个投票向量V_i→n，则在有h个第二输入向量时，就会总共有h*N个投票向量，投票向量与第二输入向量的关系可以表达为：

其中，表示第i个第二输入向量，V_i→n表示与相关的投票向量，W_i→n表示V_i→n的系数，本申请模型训练过程中，会通过不断的迭代调整，确定该W_i→n。

第二输入向量以及第二输出向量都可以是胶囊向量。

第二输出向量由投票向量V_i→n加权求和并做正则化得到，即：

其中，协同权重C_i→n总共h*N个，C_i→n度量的是投票向量V_i→n和第二输出型向量之间的协同度，该协同权重C_i→n可以通过两种不同的路由算法(Routing)迭代算出。下面对这两种计算路由算法计算权重C_i→n的过程做介绍：

第一种路由算法也可以称为简单路由算法(Simple Routing)：该种算法：根据投票向量的权重，确定该投票向量与所述第二输出向量之间的协同权重。

每个投票向量V_i→n都对应有一个权重向量B_i→n，即有h*N个权重向量B_i→n，B_i→n用于计算协同权重C_i→n的过程如下：

第一步：可以初始化所有B_i→n为0；

第二步：由每个B_i→n计算每个C_i→n，即

第三步：通过上述的公式确定即：

第四步：更新每个B_i→n，即：

更新B_i→n后返回第二步，总共需要完成T次迭代；

再规范化一次第二输入向量，即

返回N个第二输出向量因为N个第二输出向量拼接可以得到目标输出向量，在模型训练过程中，可以通过输出样本对应的向量来反向推导，从而反向计算出权重C_i→n。

第二种路由算法也可以称为EM路由(EM Routing)算法，该种路由算法可以通过更新所述第二输出向量的均值、方差和激活概率，确定所述第二输出向量与对应的投票向量之间的协同权重，所述均值、所述方差和所述激活概率与所述第二输出向量对应的投票向量和所述协同权重相关联。

EM路由算法针对每个第二输出向量都会乘上一个激活概率A_n，用来代替上述简单路由算法中的规范化操作；另外，该EM路由算法中把路由问题建模成混合高斯聚类，在该算法中，针对每一个第二输出向量都会有3个额外参数，均值μ_n、方差σ_n和激活概率A_n，在迭代过程中也参与更新。该EM路由算法计算C_i→n的过程可以包括：

第一步：初始化所有C_i→n为1/N；

第二步：更新μ_n，即

第三步：更新σ_n，即

第四步：计算中间变量x_n用于更新A_n，即

第五步：更新A_n，即其中λ,β_A,β_μ，都可以是人为选择的超参数；

第六步：计算中间变量P_i→n用于更新C_i→n，即

第七步：更新C_i→n，即

第二步至此完成一次迭代，返回第二步，总共需要完成T次迭代；

规范化第二输出向量，即

经过迭代算法得到各个第二输出向量后，拼接N个则可以得到目标输出向量O，即：

上述所描述的从第二输入向量通过投票向量V_i→n，生成第二输出向量最后拼接得到目标输出向量O的过程可以结合图4进行理解。

步骤206、根据所述目标输出向量与所述输出样本对应向量的比对结果，对所述初始神经网络模型的参考参数进行迭代调整直到满足收敛条件，以得到目标神经网络模型。

服务器获取到初始神经网络模型输出的目标输出向量后，进一步，将该目标输出向量与输出样本的向量进行对比，确定目标输出向量与所述输出样本对应向量的比对结果，进而，根据该对比结果对初始神经网络模型的模型参数进行迭代调整，可以调整W_i→n，C_i→n，通过对模型参数进行迭代调整，使得初始神经网络模型逐步趋于收敛，即逐步优化初始神经网络模型的性能，当初始神经网络模型满足收敛条件时，即当初始神经网络模型的性能达到预设标准时，即可根据当前神经网络模型的模型结构以及模型参数，确定目标神经网络模型。

在上述神经网络模型训练方法中，通过对各个注意力网络各自的输出向量进行拼接得到输出向量，这种非线性变换的方式考虑了各个注意力网络的第一输出向量之间的复杂关系，通过协同路由网络的投票向量还充分考虑了第二输入向量与第二输出向量之间的关系，从而确保最终生成的目标输出向量可以充分的融合每个注意力网络的特征信息。进而保证最终的输出表示效果更好，基于该训练方法使得训练得到的神经网络模型具有更强地学习能力。

需要说明的是，上述神经网络模型在实际应用中可以为机器翻译模型，该机器翻译模型包括编码器和解码器；其中，编码器包括N个级联的第一类网络块，每个第一类网络块包括级联的一个多头注意力网络层和一个前馈神经网络层；解码器包括N个级联的第二类网络块，每个第二类网络块包括级联的两个多头注意力网络层和一个前馈神经网络，此处N为大于等于1的正整数。

其中，机器翻译模型是用于将待翻译的内容翻译成对应的翻译文本的模型，例如，用于将待翻译的中文文本翻译成对应的英文文本的模型，该机器翻译模型具体可以是机器翻译神经网络模型(Neural Machine Translation，NMT)。

参见图5，图5为本申请实施例提供的机器翻译模型的结构示意图。如图5所示，编码器3100中包括N个级联的第一类网络块3110，每个第一类网络块3110包括级联的一个多头注意力网络层3111和一个前馈神经网络层3112，其中，多头注意力网络层3111中包括多个注意力网络和输入输出相加层，前馈神经网络层3112中包括非线性变换层和输入输出相加层。解码器3200中包括N个级联的第二类网络块3210，每个第二类网络块3210包括级联的两个多头注意力网络层3211和3212，以及一个前馈神经网络层3213，解码器3200中的多头注意力网络层3211和3212中包括多个注意力网络和输入输出相加层，前馈神经网络层3213中包括非线性变换层和输入输出相加层。

编码器3100的输出可以作为解码器3200的输入，利用解码器3200对编码器3100输出的数据做解码处理。在对该机器翻译模型进行模型训练时，应当对编码器3100和解码器3200同时进行训练，当解码器3200输出的预测翻译文本对应的向量与训练样本对中输出样本的向量之间的相似度达到预设阈值时，则可以认为该机器翻译模型满足收敛条件，可以将该机器翻译模型作为目标神经网络模型。

在WMT2014英德机器翻译任务的测试中，通过本申请实施例的方案训练处的机器翻译模型，可以显著提升翻译质量，如表1所示，为该机器翻译模型对应的性能测试结果。

表1

表1中，Δ是指提高的绝对数值，参数数量的单位为百万(M)，一般提高超过0.5个点即是显著提高，训练速度单位为每秒迭代次数。

其中，模型0为测试样本，采用现有的机器翻译模型对该测试样本进行翻译，其评估结果为27.31点，该模型中涉及的参数数量有88.0M(百万)，对该机器翻译模型的训练速度为每秒迭代1.92次；模型1为采用简单路由算法训练得到的模型，利用该模型1对输入到模型0的测试样本进行翻译，其评估结果为27.98点，该评估结果相对于采用模型0进行翻译的评估结果提高了0.67点，该模型1中涉及的参数数量有12.6M，对该模型1的训练速度为每秒迭代1.23次。模型2采用采用EM路由算法训练得到的模型，利用模型2对输入到模型0中的测试样本进行翻译，其评估结果为28.28点，该评估结果相对于模型进0行翻译的评估结果提高了0.71点，该模型2中涉及的参数数量有12.6M，对该模型2的训练速度为每秒迭代1.80次。

通过对比可以发现，无论目标神经网络模型是采用简单路由算法，还是采用EM路由算法训练得到的，采用本申请实施例提供的训练方法训练得到的目标神经网络模型不仅能有效地提升翻译质量，而且还减小了参数数量，降低了训练速度，保证了机器翻译模型的高效性。

针对上述图5所示的机器翻译模型，本申请实施例还提供了一种机器翻译方法，以使该机器翻译模型在实际中得以应用。参见图6，图6为本申请实施例提供的机器翻译方法的流程示意图，为了便于描述下面以终端设备作为执行主体对该机器翻译方法进行介绍，应理解，该机器翻译方法在实际应用中，也可以应用于服务器。如图6所示，该机器翻译方法包括：

步骤401：获取待翻译内容。

需要说明的是，上述待翻译内容具体可以为待翻译的文本、视频和音频中的至少一种，类型不同的待翻译内容可以应用于不同的应用场景。例如，当待翻译内容为待翻译的文本时，可以将该待翻译的文本翻译为对应的语言；又例如，当待翻译内容为待翻译的视频时，可以将该待翻译的视频翻译为与该视频呈现的场景对应的文本；再例如，当待翻译内容为待翻译的音频时，可以将该待翻译的音频翻译为与该音频对应的文本，或者翻译为指定语言对应的文本。

针对待翻译的文本，终端设备可以为用户提供文本输入框，用户可以在该文本输入框中输入待翻译的文本，相应地，终端设备获取用户在文本输入框中输入的文本，作为待翻译内容。针对待翻译的视频和/或音频，终端设备可以为用户提供文件上传区，用户可以将待翻译的视频和/或音频拖拽至该待翻译文件上传区，相应地，终端设备检测到文件上传区内存在文件时，将该文件作为待翻译内容；或者，终端设备可以为用户提供文件上传键，用户通过点击该文件上传键触发上传文件的操作，从终端设备存储的文件中选择待翻译的视频和/或音频，将所选择的待翻译的视频和/或音频上传，终端设备由此获得待翻译内容。

需要说明的是，当该机器翻译方法的执行主体为服务器时，服务器可以从终端设备处获取待翻译内容。具体的，服务器与终端设备通过网络连接，终端设备在通过上述方式获取到待翻译内容后，相应地将自身所获取的待翻译内容通过网络发送至服务器，以使服务器获得待翻译内容。

步骤402：通过机器翻译模型获得该待翻译内容对应的翻译结果。

终端设备获取到待翻译内容后，相应地将待翻译内容输入至机器翻译模型，该机器翻译模型是根据上述实施例提供的神经网络模型训练方法训练得到的，其具体结构可以参见图5。

机器翻译模型中的编码器为循环神经网络模型，其能够将待翻译内容对应的源端向量序列读取为固定长度的编码，机器翻译模型中的解码器也是一个循环神经网络模型，其能够对编码器的输入序列进行解码，从而输出目标序列，即输出标签对应的向量序列，进而，机器翻译模型根据解码器输出的向量序列生成输出标签，即生成与待翻译内容对应的翻译结果。

需要说明的是，上述机器翻译模型是基于多注意力机制构建的，其中的编码器和解码器中均包括多个注意力网络，该机器学习模型对编码器和解码器中的多个注意力网络各自的输出向量进行融合时，均采用的是非线性变换的方式，此处的非线性变换方式可以为应用卷积对多个注意力网络各自的输出向量进行处理，也可以为应用双线性模型对多个注意力网络各自的输出向量进行处理，还可以为应用双线性模型和向量拼接对多个注意力网络各自的输出向量进行处理。

步骤403：显示该翻译结果。

终端设备通过机器翻译模型确定出与待翻译内容对应的翻译结果后，可以直接向用户显示该翻译结果。

应理解，当本实施例提供的机器翻译方法的执行主体为服务器时，服务器在通过机器翻译模型确定出与待翻译内容对应的翻译结果后，服务器可以将所确定的翻译结果发送至终端设备，以通过终端设备向用户显示该翻译结果。

本实施例提供的机器翻译方法应用了机器翻译模型对待翻译内容进行翻译，确定与待翻译内容对应的翻译结果，由于所应用的机器翻译模型是通过上述实施例提供的神经网络模型训练方法训练得到的，该机器翻译模型能够使得其中的各个注意力网络的输出向量充分交互，生成更有信息量的特征融合向量，因此，能够保证该机器翻译模型最终输出的翻译结果更加准确。

针对上文描述的神经网络模型训练方法，本申请还提供了对应的神经网络模型训练的装置，以使上述神经网络模型训练方法在实际中得以应用和实现。

参见图7，图7是本申请实施例提供的神经网络模型训练的装置的一实施例示意图。

如图7所示，本申请实施例提供的神经网络模型训练的装置50可以包括：

获取模块501，用于获取训练样本集合，所述训练样本集合中包括多个训练样本对，其中每个训练样本对包括输入样本和输出样本；

第一转换模块502，用于通过初始神经网络模型的向量转换层，将获取模块501获取的所述输入样本转换为第一输入向量，所述初始神经网络模型还包括多个注意力网络、非线性变换层和协同路由网络；

第二转换模块503，用于通过多个注意力网络中的每个注意力网络，将所述第一转换模块502转换得到的第一输入向量转换为与所述每个注意力网络对应的第一输出向量；

非线性变换模块504，用于通过非线性变换层，将所述第二转换模块503转换得到的每个第一输出向量分别线性变换为对应的第二输入向量；

协同路由模块505，用于通过协同路由网络，根据所述线性变换模块504线性变换得到的每个第二输入向量对应的投票向量确定对应的第二输出向量，并将每个第二输出向量进行拼接，以得到目标输出向量；

调整模块506，用于根据所述协同路由模块505确定的目标输出向量与所述输出样本对应向量的比对结果，对所述初始神经网络模型的参考参数进行迭代调整直到满足收敛条件，以得到目标神经网络模型。

可选地，所述非线性变换模块504，用于通过所述非线性变换层，对每个第一输出向量采用不同的非线性函数对所述第一输出向量进行计算，以确定与该第一输出向量对应的第二输入向量。

可选地，所述协同路由模块505用于：

将每个第二输出向量进行拼接，以得到目标输出向量。

可选地，所述协同路由模块505，用于确定所述第二输出向量与对应的投票向量之间的协同权重。

可选地，所述协同路由模块505，用于根据投票向量的权重，确定该投票向量与所述第二输出向量之间的协同权重。

可选地，所述协同路由模块505，用于通过更新所述第二输出向量的均值、方差和激活概率，确定所述第二输出向量与对应的投票向量之间的协同权重，所述均值、所述方差和所述激活概率与所述第二输出向量对应的投票向量和所述协同权重相关联。

本申请实施例提供的神经网络模型训练的装置，采用非线性变换的方式考虑了各个注意力网络的第一输出向量之间的复杂关系，通过协同路由网络的投票向量还充分考虑了第二输入向量与第二输出向量之间的关系，从而确保最终生成的目标输出向量可以充分的融合每个注意力网络的特征信息。进而保证最终的输出表示效果更好，基于该训练方法使得训练得到的神经网络模型具有更强地学习能力。

针对上文描述的机器翻译方法，本申请还提供了对应的机器翻译装置，以使上述机器翻译方法在实际中得以应用和实现。

图8为本申请实施例提供的机器翻译装置的一实施例示意图。

如图8所示，本申请实施例提供的机器翻译装置的一实施例可以包括：

获取模块601，用于获取待翻译内容；

翻译模块602，用于通过机器翻译模型获得所述待翻译内容对应的翻译结果，所述机器翻译模型根据图1至图5所示的神经网络模型训练方式训练得到的；

显示模块603，用于显示所述翻译结果。

本实施例提供的机器翻译装置应用了机器翻译模型对待翻译内容进行翻译，确定与待翻译内容对应的翻译结果，由于所应用的机器翻译模型是通过上述实施例提供的神经网络模型训练方法训练得到的，该机器翻译模型能够使得其中的各个注意力网络的输出向量充分交互，生成更有信息量的特征融合向量，因此，能够保证该机器翻译模型最终输出的翻译结果更加准确。

本申请还提供了一种用于训练神经网络模型的设备，该设备具体可以为服务器，参见图9，图9是本申请实施例提供的一种用于训练神经网络模型的服务器结构示意图，该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)722(例如，一个或一个以上处理器)和存储器732，一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中，存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器722可以设置为与存储介质730通信，在服务器700上执行存储介质730中的一系列指令操作。

服务器700还可以包括一个或一个以上电源726，一个或一个以上有线或无线网络接口750，一个或一个以上输入输出接口758，和/或，一个或一个以上操作系统741，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图9所示的服务器结构。

其中，CPU 722用于执行上述图1至图5部分所描述的神经网络模型训练的过程。

此外，本申请还提供了一种服务器，该服务器与上述图9所示的服务器的结构相类似，其存储器用于存储机器翻译模型，该机器翻译模型是根据本申请实施例提供的神经网络模型训练方法训练得到的；其处理器用于运行该机器翻译模型，以获得与待翻译内容对应的翻译结果。

本申请实施例还提供了另一种用于训练神经网络模型的设备，该设备可以为终端设备，如图10所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(英文全称：PersonalDigital Assistant，英文缩写：PDA)、销售终端(英文全称：Point ofSales，英文缩写：POS)、车载电脑等任意终端设备，以终端为手机为例：

图10示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图10，手机包括：射频(英文全称：Radio Frequency，英文缩写：RF)电路810、存储器820、输入单元830、显示单元840、传感器850、音频电路860、无线保真(英文全称：wirelessfidelity，英文缩写：WiFi)模块870、处理器880、以及电源890等部件。本领域技术人员可以理解，图10中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图10对手机的各个构成部件进行具体的介绍：

RF电路810可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器880处理；另外，将设计上行的数据发送给基站。通常，RF电路810包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(英文全称：LowNoise Amplifier，英文缩写：LNA)、双工器等。此外，RF电路810还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(英文全称：Global System of Mobile communication，英文缩写：GSM)、通用分组无线服务(英文全称：General Packet Radio Service，GPRS)、码分多址(英文全称：CodeDivision Multiple Access，英文缩写：CDMA)、宽带码分多址(英文全称：Wideband CodeDivision Multiple Access,英文缩写：WCDMA)、长期演进(英文全称：Long TermEvolution，英文缩写：LTE)、电子邮件、短消息服务(英文全称：Short Messaging Service，SMS)等。

存储器820可用于存储软件程序以及模块，处理器880通过运行存储在存储器820的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器820可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器820可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元830可用于接收待翻译内容，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元830可包括触控面板831以及其他输入设备832。触控面板831，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板831上或在触控面板831附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板831可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器880，并能接收处理器880发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板831。除了触控面板831，输入单元830还可以包括其他输入设备832。具体地，其他输入设备832可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元840可用于显示翻译结果。显示单元840可包括显示面板841，可选的，可以采用液晶显示器(英文全称：Liquid Crystal Display，英文缩写：LCD)、有机发光二极管(英文全称：Organic Light-Emitting Diode，英文缩写：OLED)等形式来配置显示面板841。进一步的，触控面板831可覆盖显示面板841，当触控面板831检测到在其上或附近的触摸操作后，传送给处理器880以确定触摸事件的类型，随后处理器880根据触摸事件的类型在显示面板841上提供相应的视觉输出。虽然在图10中，触控面板831与显示面板841是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板831与显示面板841集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器850，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板841的亮度，接近传感器可在手机移动到耳边时，关闭显示面板841和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路860、扬声器861，传声器862可提供用户与手机之间的音频接口。音频电路860可将接收到的音频数据转换后的电信号，传输到扬声器861，由扬声器861转换为声音信号输出；另一方面，传声器862将收集的声音信号转换为电信号，由音频电路860接收后转换为音频数据，再将音频数据输出处理器880处理后，经RF电路810以发送给比如另一手机，或者将音频数据输出至存储器820以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块870可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图10示出了WiFi模块870，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器880是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器820内的软件程序和/或模块，以及调用存储在存储器820内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器880可包括一个或多个处理单元；优选的，处理器880可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器880中。

手机还包括给各个部件供电的电源890(比如电池)，优选的，电源可以通过电源管理系统与处理器880逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该终端所包括的处理器880还具有上述所描述的基于机器翻译模型进行翻译的功能。

本申请实施例还提供一种计算机可读存储介质，用于存储程序代码，该程序代码用于执行前述各个实施例所述的一种神经网络模型训练方法中的任意一种实施方式，或者执行前述实施例所述的一种机器翻译方法。

本申请实施例还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行前述各个实施例所述的一种神经网络模型训练方法中的任意一种实施方式，或者执行前述实施例所述的一种机器翻译方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种神经网络模型训练的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述通过非线性变换层，将每个第一输出向量分别线性变换为对应的第二输入向量，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述通过协同路由网络，根据每个第二输入向量对应的投票向量确定对应的第二输出向量，并将每个第二输出向量进行拼接，以得到目标输出向量，包括：

将每个第二输出向量进行拼接，以得到目标输出向量。

4.根据权利要求3所述的方法，其特征在于，所述通过所述每个第二输入向量对应的投票向量和协同权重，确定对应的第二输出向量之前，所述方法还包括：

确定所述第二输出向量与对应的投票向量之间的协同权重。

5.根据权利要求4所述的方法，其特征在于，所述确定所述第二输出向量与对应的投票向量之间的协同权重，包括：

根据投票向量的权重，确定该投票向量与所述第二输出向量之间的协同权重。

6.根据权利要求4所述的方法，其特征在于，所述确定所述第二输出向量与对应的投票向量之间的协同权重，包括：

通过更新所述第二输出向量的均值、方差和激活概率，确定所述第二输出向量与对应的投票向量之间的协同权重，所述均值、所述方差和所述激活概率与所述第二输出向量对应的投票向量和所述协同权重相关联。

7.一种机器翻译方法，其特征在于，包括：

获取待翻译内容；

通过机器翻译模型获得所述待翻译内容对应的翻译结果，所述机器翻译模型为根据上述权利要求1至6任一项所述的模型训练方式训练得到的目标神经网络模型；

显示所述翻译结果。

8.一种神经网络模型训练的装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，

所述非线性变换模块，用于通过所述非线性变换层，对每个第一输出向量采用不同的非线性函数对所述第一输出向量进行计算，以确定与该第一输出向量对应的第二输入向量。

10.根据权利要求8或9所述的装置，其特征在于，

所述协同路由模块用于：

将每个第二输出向量进行拼接，以得到目标输出向量。

11.根据权利要求10所述的装置，其特征在于，

所述协同路由模块，用于确定所述第二输出向量与对应的投票向量之间的协同权重。

12.一种机器翻译装置，其特征在于，包括：

获取模块，用于获取待翻译内容；

翻译模块，用于通过机器翻译模型获得所述待翻译内容对应的翻译结果，所述机器翻译模型为根据上述权利要求1至6任一项所述的模型训练方式训练得到的目标神经网络模型；

显示模块，用于显示所述翻译结果。

13.一种计算机设备，其特征在于，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码；

所述处理器用于根据所述程序代码中的指令执行权利要求1至6任一项所述的神经网络模型训练方法。

14.一种计算机设备，其特征在于，所述计算机设备包括处理器以及存储器：

所述存储器用于存储机器翻译模型，所述机器翻译模型是根据上述权利要求1至6任一项所述的神经网络模型训练方法训练得到的目标神经网络模型；

15.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如上述权利要求1至6任一项所述的神经网络模型训练方法，或者执行如上述权利要求7所述的机器翻译方法。