CN107729324A

CN107729324A - 基于并行处理的翻译方法和设备

Info

Publication number: CN107729324A
Application number: CN201710347966.6A
Authority: CN
Inventors: 李昊潼; 朴永起; 罗辉栋; 文珉暎; 宋仁哲
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2016-08-10
Filing date: 2017-05-17
Publication date: 2018-02-23
Also published as: KR102565275B1; KR20180017622A; US10902216B2; EP3282368A1; JP7066349B2; US20180046618A1; JP2018026127A

Abstract

一种基于并行处理的翻译方法和设备。一种翻译方法和设备可分别执行或包括：使用一个或多个处理器，针对第一语言的源句子并行多个不同的翻译处理，所述多个不同的翻译处理包括：在所述多个翻译处理中的两个或更多个不同的翻译处理中的每个翻译处理中对源句子进行编码，或者在所述多个不同的翻译处理的各个翻译处理中对源句子和源句子的变型进行编码，以产生各自的特征向量，对各自的特征向量中的每个进行解码，以产生第二语言的各自的多个候选句子；从第二语言的所述各自的多个候选句子选择第二语言的最终句子。

Description

基于并行处理的翻译方法和设备

本申请要求于2016年8月10日提交到韩国知识产权局的第10-2016-0101726号韩国专利申请的权益，所述韩国专利申请的全部公开出于所有目的通过引用包含于此。

技术领域

以下描述涉及一种基于并行处理的翻译方法和设备。

背景技术

互联网和信息通信(IT)技术的发展使得提供各种语言的内容成为可能。尤其，经济全球化已加速用于使用各种语言的用户之间的交流和以各种语言提供的内容翻译的翻译技术的发展。

使用现有的翻译硬件和技术，用户之间的语言差异可能会引起不便，因为：翻译可能需要更大量的时间，而且每次翻译可能需要更多数量的阶段来在提供用于不同语言的用户之间的交流的翻译结果的方面传递更加准确的表达和含义。

发明内容

提供本发明内容以用简化的形式介绍对在下面的具体实施方式中进一步描述的构思的选择。本发明内容不是旨在确定所要求保护主题的关键特征或必要特征，本发明内容也不是意图被用于帮助确定所要求保护主题范围。

在一个总体方面，一种翻译方法包括：使用一个或多个处理器，针对第一语言的源句子并行执行多个不同的翻译处理，所述多个不同的翻译处理包括：在所述多个不同的翻译处理中的两个或更多个翻译处理中的每个翻译处理中对源句子进行编码，或者在所述多个不同的翻译处理的各个翻译处理中对源句子和源句子的变型进行编码，以产生各自的特征向量；对各自的特征向量中的每个特征向量进行解码，以产生第二语言的各自的多个候选句子；从第二语言的所述各自的多个候选句子选择第二语言的最终句子。

可通过不同的图形处理器(GPU)来实现所述多个不同的翻译处理，每个GPU包括翻译编码器和翻译解码器，可将源句子输入到至少两个GPU或者可将源句子输入到至少一个GPU并可将源句子的变型输入到另外的至少一个GPU，以执行所述多个不同的翻译处理。

可通过翻译系统的一个或多个处理器来实现所述多个不同的翻译处理，其中，所述一个或多个处理器均包括翻译系统的多个编码器中的一个或多个翻译编码器和翻译系统的多个解码器中的一个或多个翻译解码器，所述翻译方法还可包括：将源句子并行输入到所述多个编码器中的至少两个编码器。

所述方法还可包括：将源句子的变型输入到所述多个编码器中的至少一个编码器；改变所述多个编码器中的至少一个编码器，和/或改变所述多个解码器中的至少一个解码器，以执行所述多个不同的翻译处理。

所述方法还可包括通过基于与第一语言关联的信息改变源句子的词序和/或基于与第一语言关联的信息使用同义词替换包括在源句子中的词，来产生源句子的变型，并可包括将源句子的变型输入到所述多个编码器中的所述至少一个编码器。

改变所述多个编码器中的所述至少一个编码器的步骤包括：通过将噪声分别应用于将被分别应用到所述至少一个编码器的相应参数值或相应激活函数，来改变所述至少一个编码器；其中，改变所述多个解码器中的所述至少一个解码器的步骤包括：通过将噪声分别应用于将被分别应用到所述至少一个解码器的相应参数值或相应激活函数，来改变所述至少一个解码器。

所述方法还可包括：变化或改变所述一个或多个处理器中的至少一个处理器中的编码器，和/或变化或改变所述一个或多个处理器中的至少一个处理器中的解码器，以执行所述多个不同的翻译处理。

所述方法还可包括以下步骤中的至少一个：通过使用已经通过与曾用于训练所述编码器的初始训练值、训练集或训练序列不同的初始训练值、训练集和训练序列中的至少一个训练的另一编码器替换所述编码器，来执行变化或改变所述编码器的操作；通过使用已经通过与曾用于训练所述解码器的初始训练值、训练集或训练序列不同的初始训练值、训练集和训练序列中的至少一个训练的另一解码器替换所述解码器，来执行变化或改变所述解码器的操作。

产生所述多个各自的候选句子的步骤可包括：在每个翻译处理中使用各自的束搜索算法产生预设数量的候选句子。

所述各自的束搜索算法可以是具有比n-最优束搜索算法低的复杂度的m-最优束搜索算法，其中，n大于m。

选择第二语言的最终句子的步骤可包括：计算第二语言的多个候选句子的各自的分数；并选择在第二语言的所述多个候选句子中具有最高分数的所述多个候选句子中的一个候选句子作为第二语言的最终句子。

计算第二语言的所述多个候选句子的各自的分数的步骤可包括：从每个翻译处理计算第二语言的仅单个候选句子的各自的分数。

选择第二语言的最终句子的步骤可包括：在每个翻译处理中使用各自的重评分模型计算与第二语言的相应候选句子中的每个候选句子对应的分数；使用与所述相应候选句子中的一个或多个候选句子中的每个候选句子对应的分数的统计，来从每个翻译处理重计算与所述相应候选句子中的所述一个或多个候选句子对应的分数；选择所述相应候选句子中的所述一个或多个候选句子中具有重计算的分数中的最高的重计算的分数的一个候选句子作为第二语言的最终句子。

在一个总体方面，一种可存储指令的非暂时性计算机可读存储介质，其中，当所述指令被处理器执行时使得所述处理器执行这里描述的一个或多个或者全部方法。

在一个总体方面，一种翻译设备包括：一个或多个处理器中的至少一个处理器，被配置为针对第一语言的源句子并行执行多个不同的翻译处理，所述多个不同的翻译处理包括：在所述多个不同的翻译处理中的两个或更多个翻译处理中的每个翻译处理中对源句子进行编码，或者在所述多个不同的翻译处理的各个翻译处理中对源句子和源句子的变型进行编码，以产生各自的特征向量，以及对各自的特征向量中的每个特征向量进行解码，以产生第二语言的各自的多个候选句子；所述一个或多个处理器中的输出处理器，被配置为从第二语言的所述各自的多个候选句子选择第二语言的最终句子。

所述至少一个处理器均可包括：至少一个编码器，用于对源句子执行相应的编码以产生特征向量；至少一个解码器，用于对特征向量执行相应的解码并针对源句子产生第二语言的多个候选句子。

所述翻译设备可包括用于分别执行所述多个不同的翻译处理的不同的图形处理器GPU，每个GPU包括翻译编码器和翻译解码器，并且所述翻译设备可被配置为将源句子输入到至少两个GPU，或者所述翻译设备可将源句子输入到至少一个GPU并将源句子的变型输入到另外的至少一个GPU，以执行所述多个不同的翻译处理。

所述多个不同的翻译处理可通过翻译系统的一个或多个处理器中的至少一个处理器来实现，其中，所述至少一个处理器均包括翻译系统的多个编码器中的一个或多个翻译编码器和翻译系统的多个解码器中的一个或多个翻译解码器，并且所述翻译设备可被配置为：将源句子并行输入到所述多个编码器中的至少两个编码器。

输出处理器可被配置为：在至少一个翻译处理中产生源句子的变型并实现对产生的源句子的变型进行编码的操作，实现改变所述多个编码器中的至少一个编码器的操作，和/或实现改变所述多个解码器中的至少一个解码器的操作，以执行所述多个不同的翻译处理。

所述一个或多个处理器中的处理器可被配置为：在至少一个翻译处理中产生源句子的变型并实现对产生的源句子的变型进行编码的操作，实现改变所述多个编码器中的至少一个编码器的操作，和/或实现改变所述多个解码器中的至少一个解码器的操作，以执行所述多个不同的翻译处理。

所述处理器可被配置为：在所述至少一个翻译处理中产生源句子的变型并实现对产生的源句子的变型进行编码的操作，并且为产生源句子的变型，所述处理器可被配置为执行以下操作中的至少一个：基于与第一语言关联的信息改变源句子的词序；和/或基于与第一语言关联的信息使用同义词替换包括在源句子中的词。

为实现改变所述多个编码器中的所述至少一个编码器的操作和/或实现改变所述多个解码器中的所述至少一个解码器的操作，所述处理器可被配置为相应地执行以下操作中的至少一个：通过将噪声分别应用于将被分别应用到所述多个编码器中的所述至少一个编码器的相应参数值或相应激活函数，来改变所述多个编码器中的所述至少一个编码器；通过将噪声分别应用于将被分别应用到所述多个解码器中的所述至少一个解码器的相应参数值或相应激活函数，来改变所述多个解码器中的所述至少一个解码器。

所述多个不同的翻译处理通过所述一个或多个处理器中的多个翻译处理器来实现，其中，所述多个翻译处理器均包括翻译编码器和翻译解码器；并且所述一个或多个处理器中的为实现所述多个不同的翻译处理的处理器可被配置为通过使用另一个编码器替换所述多个翻译处理器的多个翻译编码器中的一个翻译编码器，来实现变化或改变所述一个翻译编码器的操作，其中，所述另一个编码器已经通过与曾用于训练所述一个翻译编码器的初始训练值、训练集或训练序列不同的初始训练值、训练集或训练序列训练；和/或可被配置为通过使用另一个解码器替换所述多个翻译处理器的多个翻译解码器中的一个翻译解码器，来实现变化或改变所述一个翻译解码器的操作，其中，所述另一个解码器已经通过与曾用于训练所述一个翻译解码器的初始训练值、训练集或训练序列不同的初始训练值、训练集或训练序列训练。

产生所述各自的候选句子的步骤可包括：在每个翻译处理中使用各自的束搜索算法产生预设数量的候选句子。

输出处理器还可被配置为：计算第二语言的多个候选句子的各自的分数；选择在第二语言的所述多个候选句子中具有最高分数的所述多个候选句子中的一个候选句子作为第二语言的最终句子。

为计算第二语言的所述多个候选句子的各自的分数，输出处理器可被配置为：从每个翻译处理计算第二语言的仅单个候选句子的分数。

为执行选择第二语言的最终句子的操作，输出处理器可被配置为：在每个翻译处理中使用各自的重评分模型计算与第二语言的相应候选句子中的每个候选句子对应的分数；使用与所述相应候选句子中的一个或多个候选句子中的每个候选句子对应的统计，来从每个翻译处理重计算与所述相应候选句子中的所述一个或多个候选句子对应的分数；选择所述相应候选句子中的所述一个或多个候选句子中具有重计算的分数中的最高的重计算的分数的一个候选句子作为第二语言的最终句子。

所述翻译设备还可包括：所述翻译设备的多个存储器中的一个或多个存储器，被配置为存储所述各自的多个候选句子或从分别从所述多个不同的翻译处理产生的所述各自的多个候选句子选择的候选句子。

所述多个存储器中的至少一个存储器是存储指令的非暂时性计算机可读存储介质，其中，当所述指令被所述一个或多个处理器执行时控制所述一个或多个处理器被配置为执行所述多个不同的翻译处理并选择最终句子。

被配置为执行所述多个不同的翻译处理的所述至少一个处理器和被配置为选择最终句子的输出处理器是同一处理器。

在一个总体方面，一种翻译方法包括：针对源句子并行执行多个不同的翻译处理，其中，所述多个不同的翻译处理针对相应的翻译编码处理、相应的翻译解码处理以及相应的翻译处理是编码源句子还是编码源句子的变型中的一个或多个而不同；并基于从不同的翻译处理分别产生的确定的最高排名的候选句子，输出源句子的翻译结果。

所述多个不同的翻译处理中的至少一个翻译处理的翻译解码处理可实现m-最优束搜索算法以确定候选句子，其中，m-最优束搜索算法是具有比n-最优束搜索算法低的复杂度的束搜索算法，其中，n大于m。

在一个总体方面，一种翻译方法包括：针对源句子并行执行多个翻译处理，包括：对源句子进行第一编码和第一解码，对源句子进行不同的编码和/或不同的解码，对源句子的一个或多个变型进行第一编码和第一解码，和/或对源句子的所述一个或多个变型进行不同的编码和/或不同的解码，其中，所述多个翻译处理中的每个翻译处理包括用于从每个翻译处理产生候选列表的各自的翻译编码处理和翻译解码处理；对来自每个候选列表的候选句子进行排名；基于根据排名确定的最高排名的候选句子，输出源句子的翻译结果，其中，每个翻译解码处理实现n-最优束搜索算法以针对每个翻译处理产生候选列表。

通过下面的具体实施方式、附图和权利要求，其他特征和方面将是清楚的。

附图说明

图1是示出自动翻译设备的配置的示例的示图。

图2是示出翻译方法的示例的流程图。

图3是示出翻译方法的示例的流程图。

图4是示出改变将被输入到至少一个翻译处理器的源句子的方法的示例的示图。

图5是示出计算第二语言的候选句子的分数并选择第二语言的最终句子的方法的示例的流程图。

图6是示出计算第二语言的候选句子的分数并选择第二语言的最终句子的方法的示例的流程图。

图7是示出翻译处理器的配置和操作的示例的示图。

图8是示出包括在翻译编码器中的神经网络的结构和操作的示例的示图。

图9是示出包括在翻译解码器中的神经网络的结构和操作的示例的示图。

图10是示出包括在神经网络中的递归神经网络(RNN)的示例的示图。

图11是示出自动翻译设备的配置的示例的示图。

图12A和图12B示出自动翻译设备的示例。

贯穿附图和具体实施方式，除非另外描述或提供，否则相同的附图参考标号将被理解为表示相同的元件、特征和结构。附图可能不是按比例的，并且为了清楚、示出和方便，可能夸大附图中的元件的相对大小、比例和描叙。

具体实施方式

提供下面具体的描述，以帮助读者获得对这里描述的方法、设备和/或系统的全面的理解。然而，在理解本申请的公开之后，这里描述的方法、设备和/或系统的各种改变、修改和等同物将是显而易见的。例如，这里描述的操作的顺序仅仅是示例，操作的顺序不限于这里阐述的顺序，而是除了必须以特定顺序发生的操作以外，可如在理解本申请的公开之后将显而易见的那样被改变。此外，为了更加清楚和简明起见，本领域已知的特征的描述可被省略。

这里描述的特征可以以不同的形式体现，并不将被解释为局限于这里所描述的示例。相反，已经提供这里描述的示例，仅为示出在理解本申请的公开之后将是显而易见的实现这里描述的方法、设备和/或系统的多种可能的方式中的一些。

诸如第一、第二、A、B、(a)和(b)等的术语可用于这里以描述组件。这些术语中的每个术语不用于定义相应组件的本质、顺序或次序，而是仅用于区分相应组件与其他组件。例如，第一组件可被称为第二组件，类似地，第二组件也可被称为第一组件。

应当注意，如果在本说明书描述一个组件“连接”、“结合”或“接合”到另一组件，则虽然第一组件可直接连接、结合或接合到第二组件，但是第三组件可“连接”、“结合”或“接合”在第一组件与第二组件之间。此外，应当注意，如果在本说明书描述一个组件“直接连接”或“直接接合”到另一组件，则它们之间不会存在第三组件。同样地，例如“在…之间”与“直接地在…之间”、“邻近”与“直接地邻近”也可如上所述被解释。

这里使用的术语仅出于描述特定实施例的目的，并不意图限制。如这里所使用，除非上下文清楚地另有指示，否则单数形式也意图包括复数形式。还将理解，当在这里使用术语“包括”和/或“包含”时，说明存在阐述的特征、整体、操作、元件和/或组件，但不排除存在或添加一个或多个其他特征、整体、操作、元件、组件和/或它们的组合。

基于对本公开的理解，除非另外被定义，否则这里所使用的所有术语(包括技术和科学术语)具有与被本公开所属领域的普通技术人员普遍理解的含义相同的含义。术语(诸如在通用字典中所定义的术语)将被解释为具有与他们在相关领域和本公开的语境中的含义一致的含义，而且将不被解释为理想化或过于形式化的意义，除非此处明确这样定义。

下面的示例实施例可根据实施例在汽车、电视(TV)、移动电话和其他电子装置中或作为汽车、TV、移动电话和其他电子装置被应用于帮助提供快速和正确的翻译。示例实施例可被实现为各种类型的产品，诸如，个人计算机(PC)、膝上型计算机、平板计算机、智能电话、智能家电和可穿戴装置等。在示例中，实施例可包括非暂时性计算机可读介质，其中，非暂时性计算机可读介质包括将由这样的智能电话、移动装置、智能家居系统、可穿戴装置和类似实施例的一个或多个处理器或在这样的智能电话、移动装置、智能家庭系统、可穿戴装置和类似实施例的一个或多个处理器中执行的解译应用程序、指令或软件。示例实施例包括全球会议硬件，或被配置为提供音频和/或视频会议的翻译的文字记录(诸如，使用具有副本的视频会议的字幕或说明文字来提供)，或相应的方法或使一个或多个处理器被配置为实现该方法的非暂时性计算机可读介质。此外，仅作为示例，示例实施例包括在私人车辆、公共汽车、出租车、相应的公共交通、旅客捷运系统等中提供用于在这样的车辆上的使用不同语言的驾驶员和乘客之间的交流的解译服务或其他通告或公共听觉声明。以下，将参照附图对这样的非限制性的示例实施例进行更加详细地描述。附图中相同的参考标号表示相同的元件。

图1是示出自动翻译设备的配置的示例的示图。参照图1，自动翻译设备(以下可被称为翻译设备)100执行将用户说的第一语言自动翻译成第二语言的操作。翻译设备100包括代理105、翻译器110、重评分模型150和处理器170。翻译器110可包括多个翻译处理器111至119。

在示例中，翻译设备100包括声音识别器和机器翻译器，诸如，基于深度学习的机器翻译器。声音识别器将用户的声音转换成第一语言句子，诸如，示出的句子机器翻译器将第一语言句子翻译成第二语言句子，其中，第一语言和第二语言是不同的语言。在图1中，可以理解，翻译器110、重评分模型150和处理器170对应于机器翻译器，代理105包括声音识别器和控制器，其中，控制器可被配置为控制自动翻译的处理。控制器可被可选地另外构造在翻译设备中或者翻译设备的外部。代理105可以是智能对话代理，其中，智能对话代理可表示执行对音频信息(诸如，用户与代理之间的智能对话交互中的音频信息)的识别和理解操作的计算机或处理装置硬件，或者仅执行语音识别的计算机或处理装置硬件。例如，代理105可控制代理105的识别的结果和/或处理器170的翻译结果的输出。执行的识别可包括数字化语音的各种语音识别方法(诸如，仅作为示例，通过使用例如用于音标或发音的声学模型和例如用于词或短语之间的连通性的语言模型中的一个或组合的语音识别方法)。数字化语音可由代理105的模数转换器(ADC)和语法分析器得到，其中，语法分析器可将输入语音解析成可随后被提供给示例声学模型和/或语言模型中的一个或者二者的音频帧，再次注意：对这样的模型的引用仅通过示例的方式，实施例不限于此。除指示针对输入可听语音的更可能或最可能的识别的这样的模型之外，模型还可分别指示它们各自可能的音标或词识别的概率或分数。例如，可在代理105中使用解码器来关联识别模型的结果(诸如，当使用示例声学模型和语言模型中的一个或二者(和/或其他模型)时)，以确定可听语音的最终识别。在示例中，代理105和翻译器110、重评分模型150和/或处理器170可各自或共同地通过包括一个或多个指令或软件的非暂时性计算机可读介质、通过一个或多个硬件元件或它们的各种组合来实现。

用户请求翻译设备100使用第二语言解译由第一语言表达的声音信号。在这个示例中，声音信号可以是第一语言的声音信号。用户可与翻译设备100的用户接口进行交互，以请求识别和/或翻译、修复和翻译或者仅翻译操作，或者翻译设备100可例如在底层装置的后台操作中自动或持续运行，或者用户可选择性地实现用户接口请求和自动实现中的二者/一个。

当声音信号被输入到翻译设备100时，代理105识别声音信号，并产生/输出第一语言的第一语言句子(例如，示出的句子 )。如上所述，代理105可包括用于将可听声音转换成数字信号的硬件，例如，代理105可包括一个或多个麦克风、ADC和语法分析器，或者麦克风、ADC和语法分析器中的任何一个或任何组合可在翻译设备100的外部或被包括在翻译设备100中的别处。代理105可通过将相应的音频帧提供给代理105的一个或多个示例识别模型(诸如，声学模型和/或语言模型)并通过将识别模型的结果解码为第一语言的句子，来识别声音信号。例如，句子可作为文本类型数据被完成。仅作为示例，识别模型可以是分别训练的神经网络。翻译设备100还可请求翻译器110使用翻译器110的多个处理器开始分别翻译识别的句子的处理。因此，在由重评分模型150分别重评分之后，例如，以第二语言分别产生的翻译结果可被提供给处理器170用于最终排名。处理器170所执行的排名的结果(例如，代表以第一语言发声的句子的最终翻译)可随后被提供回代理105用于可选的或进一步的处理操作的转发。

翻译器110可包括多个翻译处理器(例如，翻译处理器111、翻译处理器113、翻译处理器115、翻译处理器117和翻译处理器119)，并且这样的处理器中的一个、多于一个或全部可被同时操作，即，并行操作。仅作为非限制的示例，翻译处理器111至119中的每个还可分别被配置为各个图形处理器(GPU)(例如，GPU 1、GPU 2、GPU 3、GPU 4和GPU 5)或者一个或多个图形处理器的并行处理器。这里，虽然已经提供了这样的各个GPU示例，但是实施例不限于此，同样地，额外的和/或可选的处理器实施方式可以是可行的。此外，虽然已经呈现了这样的GPU或处理器示例，但是这样的各个翻译操作中的一个或多个或者全部可通过非暂时性计算机可读介质(诸如，易失性或非易失性存储器或者其他介质)中/上的用于控制一个或多个处理器实现各个翻译操作的非暂时性计算机可读代码或指令来实现。例如，虽然图1使用单独的GPU 1至5示出示例，但是GPU 1至3的翻译操作可通过用于控制第一GPU的一个或多个处理器的这样实现的非暂时性计算机可读代码来实现，GPU 4至5的翻译操作可通过用于控制第二GPU的另外一个或多个处理器的这样实现的计算机可读代码来实现，或者GPU 1至5的全部翻译操作可使用相同的GPU或处理器通过这样实现的非暂时性计算机可读代码来实现。作为另一示例，翻译设备100还可包括通信或收发器硬件和控制器、CPU或图1的可通过例如以主-从或客户端-服务器布置的外部服务器或处理器开始或控制上述各个翻译操作中的一个或多个或者全部的外部实现的使用的GPU中的任何GPU，以使这样的外包的翻译操作的结果可用于翻译设备100或由翻译设备100接收(例如，通过这样的通信或收发器硬件)，并被提供给例如处理器170。下面将参照图7进一步更详细地描述包括在翻译器110中的这样的翻译处理器的示例配置和操作。

翻译处理器111至119中的每个可被配置为执行或包括编码器和解码器，其中，编码器被配置为通过编码第一语言的源句子来产生特征向量，解码器被配置为通过将各个特征向量解码为第二语言来产生第二语言的候选句子。编码器和解码器均可包括神经网络或人工神经网络，其中，神经网络或人工神经网络还均可被预训练。翻译处理器111至119中的每个还代表一个或多个存储器(诸如，用于存储编码器和解码器以及神经网络或人工神经网络的处理结果的高速缓存)。神经网络或人工神经网络还可通过诸如在图11至图12B中示出的翻译设备100的通信或收发器硬件而被训练和/或可升级或更新。下面将参照图8至图10对可包括在编码器和解码器中的神经网络的示例的结构进行更加详细地描述。

在开始翻译之前，翻译设备100可将第一语言的源句子(例如， )提供(或复制)给翻译处理器111至119中的每个。源句子可同时(例如，并行)或根据特定顺序被提供给翻译处理器111至119中的每个。例如，可基于翻译处理器111至119中的每个的各自的期望处理时间来设计特定顺序，使得各自的结果同时或接近同时被提供给处理器170或可用于处理器170。包括在翻译处理器111至119中的每个中的各自的编码器将输入的源句子转换为各自的特征向量，其中，各自的特征向量可以是各自的抽象的句子信息(例如，从输入的源句子或关于输入的源句子分离或提取的音素、语素、句法、句子和/或上下文信息)的形式。从相应的编码器接收相应的特征向量的各自的解码器产生相应的第二语言的候选句子作为用于相应的翻译处理器的各自的输出翻译结果。因此，每个解码器可使用例如m-最优(m-best)束搜索算法来产生包括m个第二语言的候选句子的m-最优列表。这里，m表示束搜索算法的复杂度。

在示例中，将通过一般或典型的n-最优束搜索算法产生的候选句子的数量是n，其中，全部的(n个)词序列(例如，设置的或指定的束内的词序列)被找到。根据一个或多个实施例，在解码器产生的m-最优束搜索算法中，m的值小于n的值，因此，少于指定的束内的全部可用结果的结果被返回作为n-最优束搜索算法的结果。使用根据一个或多个实施例的这样的具有小于典型n-最优束搜索算法的n复杂度的m复杂度的束搜索算法，包括在翻译处理器111至119中的每个中的解码器的操作(或计算)复杂度可被降低。然而，虽然解码器的操作复杂度可通过可实现n-最优束搜索算法的解码器被降低，但是这样的m-最优束搜索算法的解码性能可能低于n-最优束搜索算法的解码性能，因此，在一个或多个实施例中，当m-最优束搜索算法被实现时，并行运行的多个翻译处理器可被用于最小化解码性能的这样的降低。例如，使用在示例翻译处理器111至119中分别表示的多个GPU的并行处理可有助于保证足够接近执行示例n-最优束搜索算法的一般的单个翻译处理器的性能或实际上与执行示例n-最优束搜索算法的一般的单个翻译处理器的性能相同的性能，同时超越这样的执行典型n-最优束搜索算法的单个翻译处理器而潜在地实际提高源句子的整体翻译速度。

可选择地，使用GPU的并行处理可保证与一般的单个翻译器的翻译速度实际上相同的翻译速度，并且还提高翻译的性能。例如，当分别包括在翻译处理器111至119中的解码器中的一个或多个或者全部实现n复杂度的束搜索算法(即，n-最优束搜索算法)时，虽然整体翻译速度可能不会超越执行n-最优束搜索算法的单个翻译处理而被显著地改变或提高，但是翻译的性能可由于通过并行处理的候选句子的数量的增加而被提高。因此，具有期望的翻译速度和/或性能的翻译器可通过选择或调节将用于包括在各自的翻译处理器111至119中的一个或多个解码器中的束搜索算法的复杂度以及翻译处理器111至119的数量来实现，并因此确定实现翻译处理器111至119中的哪一个或者如何基于源/第一语言句子、翻译编码操作、翻译解码操作的变化的或改变的方面来不同地实现相同的翻译处理器中的任意翻译处理器，和/或实现m-最优束搜索算法或n-最优束搜索算法(或其他搜索算法)中的哪一个。在示例中，翻译处理器111至119中的选择的一个或多个翻译处理器可实现n-最优束搜索算法，而剩余的翻译处理器实现示例m-最优束搜索算法，因此，翻译设备100可在某一时间选择仅实现实现m-最优束搜索算法的翻译处理器，而在另一时间，翻译设备100可实现实现m-最优束搜索算法和n-最优束搜索算法二者的翻译处理器。无论怎样，根据哪些翻译处理器被实现，它们的相应结果的最高评分的最终候选句子可通过相应的重评分模型来确定，并被提供/指示给处理器170，其中，处理器170可随后对那些各自提供的最终候选句子进行排名，以确定第一语言的源句子的最终翻译。

为了描述的方便，以下将例如利用与图1的翻译处理器111至119一起示出的示例各个示出的m-最优结果，来对包括在翻译处理器111至119中的每个中的解码器使用具有降低的复杂度的束搜索算法的示例进行描述。然而，如上所述，根据实施例，使用另一解码算法代替束搜索算法的示例也是可用的。

为了通过使用翻译处理器111至119的并行处理防止解码性能的降低，可能期望获得将从翻译处理器111至119提取的m-最优候选句子的变型。翻译设备100可改变以下项中的至少一个：将被输入到翻译处理器111至119中的至少一个的源句子、包括在至少一个翻译处理器中的编码器和包括在至少一个翻译处理器中的解码器。翻译设备100可通过改变源句子、编码器、解码器或它们的各种组合来保证第二语言的候选句子的变型。

例如，翻译设备100可将第一语言的源句子输入到GPU 1，并通过将源句子改变为与源句子具有相同含义的另一句子或类似句子来将第一语言的源句子的变型输入到GPU2，或者可选择地，第一语言的源句子可被提供给GPU2，而GPU 2可改变源句子。下面将参照图4进一步更详细地描述翻译设备100改变源句子的示例方法。

在当前的示例中，翻译设备100可通过将噪声应用于将被应用到例如GPU 3的编码器的参数值或激活函数，来变化或改变编码器的操作。翻译设备100还可(或可选择地)通过将噪声应用于将被应用到例如GPU 4的解码器的参数值或激活函数，来变化或改变解码器的操作。此外，翻译设备100可改变将被应用于将被分别应用到同一翻译处理的编码器和解码器的参数值或激活函数的噪声。例如，参数值可以是包括在例如GPU 4的编码器或解码器的相应的神经网络中的神经元的权重，激活函数可以是指示包括在相应的神经网络中的节点的激活特性的函数。

作为另一示例，翻译设备100可使用通过预先变化或改变初始训练值、训练集和训练序列中的至少一个而训练的编码器A'来替换示出的编码器A，和/或使用通过预先变化或改变初始训练值、训练集和训练序列中的至少一个而训练的解码器B'来替换示出的解码器B。这里，编码器或解码器的替换可通过例如从可用的编码器或解码器之中选择的GPU 1来实现，或者通过选择性地实现包括可选择地训练的编码器和/或解码器的翻译处理器(诸如，GPU5)的翻译操作来实现。例如，使用并行处理，具有编码器A和解码器B的GPU 1的翻译操作可与具有编码器A'和解码器B'、具有编码器A和解码器B'或具有编码器A'和解码器B的GPU 5的翻译操作被并行实现。翻译设备100内的多个编码器和/或多个解码器可被称为翻译设备100的翻译系统的部分。如上所述，这样的翻译系统的各个编码器或解码器可被包括在翻译设备100的分离的处理器中或者被共同地或被不同地共同布置在翻译设备100的一个或多个处理器内或被翻译设备100的一个或多个处理器共同地或被不同地共同布置。

在另一示例中，翻译设备100可使用已经被提供或可用于预先已经被应用到翻译设备100的至少一个翻译处理器的这样的变化或修改的另一翻译器110，而不是自适应地改变或选择翻译处理器111至119中的任何翻译处理器。

在示例中，翻译速度可通过并行多个翻译处理器或操作而被提高，翻译的准确性还可通过经由分别变化或改变源句子、编码器方面、解码器方面和它们的各种组合产生第二语言的各种候选句子(例如，通过翻译处理器或操作中的每个单独找到的第二语言的m-最优候选句子)而被提高。

虽然参照图1对并行使用五个翻译处理器的示例进行了描述，但是示例不限于此，并且各种数量的翻译处理器可被使用。

如图1所示，根据实施例，翻译设备100分离地包括重评分模型150，或者重评分模型150被分别包括在翻译处理器111至119中。重评分模型150被配置为基于分数分别确定第二语言的示例m-最优候选句子或n-最优候选句子的排名，或分别重计算第二语言的m-最优候选句子或n-最优候选句子的分数。在示例中，重评分模型150中的每个可将各自的单个1-最优候选句子作为针对每个翻译处理器或翻译操作的最终候选句子输出到处理器170。

各个重评分模型150可将在对第二语言的相应候选句子分别进行解码时获得的分数确定为第二语言的相应候选句子的分数。例如，由GPU 1识别的第二语言的候选句子的分数可以是该候选句子对应于源句子的程度的概率的值。在这样的示例中，各个重评分模型150还可被称为排名模型。

此外，翻译设备100还包括处理器170。处理器170基于将从重评分模型150接收的第二语言的候选句子，选择与翻译的最终结果对应的候选句子。

处理器170可基于与由重评分模型150计算的第二语言的最终候选句子中的每个对应的各自的分数，从全部的重评分模型150选择第二语言的最终候选句子中具有最高分数的候选句子(例如，“我如何到江南车站？”)作为最终句子，并输出选择的最终句子。

选择的第二语言的最终句子可被提供给代理105，代理105随后可将最终翻译结果传递给用户。代理105可诸如通过翻译设备100的显示器以第二语言的文本的形式将最终翻译结果提供给用户。在示例中，代理105可通过代理105的声音合成处理和翻译设备100的扬声器来将最终翻译结果可听地提供给用户。例如，基于代理105的文本转语音(TTS)技术，代理105可以以第二语言的声音的形式将最终翻译结果提供给用户。

根据实施例，与代理105的交互和翻译操作的开始均可在用户终端中被实现或通过用户终端被实现或者在服务器(诸如，远程服务器)中被实现。代理105和翻译器110、重评分模型150和处理器170可在用户终端(诸如，仅作为示例，智能电话)中运行。代理105和翻译器110、重评分模型150以及处理器170也可或可选地诸如通过从远程终端接收语音的录音或音频帧，在服务器中运行。服务器实现还可包括在具有或不具有一个或多个翻译处理器的本地装置的代理105，并具有也在本地装置中或远离本地装置的相应的重评分模型以及驻留在远程服务器上的处理器，在这种情况下，远程服务器随后可与本地装置进行通信以将翻译的最终结果提供给代理105，代理105可将翻译的最终结果提供给用户或实现其他操作。上述内容仅是示例，因此，各种改变可用于其中。例如，包括在代理105中的控制器可在用户终端中运行，声音识别器和翻译器110、重评分模型150以及处理器170可以在服务器中并在服务器中运行。此外，虽然操作可被讨论为由代理105执行或者操作可被讨论为由翻译器110、重评分模型150和处理器170执行，但是代理105的控制器可控制这样的操作由代理105、翻译器110、重评分模型150和处理器170中的每个执行，并控制它们之间的信息的接收和发送。可选地，仅作为示例，控制器可被包括在翻译器110中，由处理器170表示，或者代理105、翻译器110和处理器170中的任何或全部可分别包括分别控制代理105和翻译器110、重评分模型150以及处理器170的操作中的每个并在它们之间传输上述操作的结果的控制器。

图2是示出自动翻译方法的示例的流程图。参照图2，在操作210，自动翻译设备将第一语言的源句子输入到多个翻译处理器，其中，多个翻译处理器均包括编码器和解码器。下面将参照图7进一步更详细地描述这样的翻译处理器的示例结构和操作。

在操作220，翻译设备通过针对每个翻译处理器编码源句子来产生各自的特征向量。特征向量还可被称为抽象句子信息。翻译设备可通过各自的编码操作将输入的源句子转换为特征向量。例如，当源句子(例如，)被输入时，翻译设备可产生抽象句子信息(例如，作为示例特征向量的3.432,4.742,...,0.299)。

在操作230，翻译设备通过解码每个翻译处理器的特征向量来产生第二语言的候选句子。翻译设备可使用例如m-最优束搜索算法来针对每个翻译处理器产生预设数量的候选句子(例如，m个候选句子)。

翻译设备可使用各自的束搜索算法来输出与抽象句子信息对应的各自的候选句子列表。翻译设备可使用示例m-最优束搜索算法来产生与抽象句子信息(例如，3.432,4.742,...,0.299)对应的这样的候选句子列表或一列候选句子。例如，候选句子列表可包括例如“你好”、“你好吗？”…“你过得如何？”的候选句子。

这里，当由翻译设备产生较小数量的候选句子时(诸如，当实现m-最优束搜索算法时)，虽然翻译设备可相对快速地执行翻译，但是翻译设备可能会产生不正确的翻译结果。反之，当由翻译设备诸如通过n-最优束搜索算法产生较大数量的候选句子时，虽然翻译设备可产生相对正确的翻译结果，但是翻译设备可能会相对缓慢地执行翻译。在示例中，使用多个翻译处理器，将由一个翻译处理器产生的候选句子的数量可被减少，因此，处理速度可被提高。此外，通过经由翻译处理器之间的变化或改变而产生各种候选句子，翻译的准确性也可被提高。下面将参照图3进一步更详细地描述通过变化或改变翻译处理器或它们的操作来产生各种候选句子的示例方法。

在操作240，翻译设备的每个翻译操作从第二语言的候选句子选择第二语言的最终候选句子。例如，翻译设备可使用重评分模型从包括候选句子(例如，“你好”、“你好吗？”和“你过得如何？”)的候选句子列表选择具有最高概率的句子(例如，“你过得如何？”)作为第二语言的最终候选句子。然后，全部的候选句子可被考虑，具有最高排名的最终句子被选择。下面将参照图5和图6进一步更详细地描述使用重评分模型选择第二语言的最终句子的示例方法。

图3是示出翻译方法的另一示例的流程图。参照图3，操作310、330、340和350分别对应于操作210、220、230和240，因此，这里将省略重复的描述。

在操作320，翻译设备变化或改变以下项中的至少一个：将被输入到至少一个翻译处理器的源句子、在输入到至少一个翻译处理器之后的源句子、包括在所述至少一个翻译处理器中的相应编码器和/或包括在所述至少一个翻译处理器中的相应解码器。此外，在针对同一变化的或改变的源句子执行多个翻译操作(例如，相应的编码器、解码器或搜索算法的方面被可选地或另外地改变)的示例中，所述同一变化的或改变的源句子可被提供给相应的多个翻译处理器，或者可针对相应的翻译操作从同一存储器被读取。类似地，例如，仅作为示例，无论是源句子还是变化的或改变的源句子，如果同一句子被输入到多个翻译处理器或可用于多个翻译处理器或者被用在多个翻译操作中，其中，翻译处理器之间的编码器是相同的或翻译操作之间的编码操作是相同的，则仅一个这样的编码器或编码操作的结果(诸如，向量形式的抽象的句子信息)可被提供到多个翻译处理器上不同的解码器或可用于多个翻译处理器上不同的解码器，或被用在多个翻译操作中的不同的解码操作中或者由多个翻译操作中的不同的解码操作访问，因此，可能不需要在例如实现翻译操作的全部翻译处理器中实现编码。

(例如，通过翻译设备)变化或改变包括在至少一个翻译处理器中的编码器和/或解码器的示例方法如下。

通过将噪声应用于将被应用到包括在至少一个翻译处理器中的编码器的参数值或激活函数，翻译设备可变化或改变编码器或编码器的操作，或者包括具有拥有不同的方面的不同的编码器的不同的翻译处理器。参数值可以是包括相应的神经网络的编码器的权重或参数。当编码器和解码器包括神经网络或各自的神经网络时，可预先执行训练编码器和解码器的处理。编码器和解码器的训练可被解释为确定包括在神经网络中的权重或参数。

例如，翻译设备可基于权重的概率分布产生将被应用于这样的确定的权重的噪声，并应用产生的噪声。可选地，翻译设备可基于激活函数的概率分布产生将被应用于激活函数的噪声。

类似地，通过将噪声应用于将被应用到包括在至少一个翻译处理器中的解码器的参数值或激活函数，翻译设备可变化或改变解码器或解码器的操作，或者包括具有拥有不同的方面的不同的解码器的不同的翻译处理器。

此外，翻译设备可通过使用经由不同的以下项中的至少一个而训练的编码器替换包括在至少一个翻译处理器中的编码器：初始训练值、训练集和训练序列，或者通过包括具有这样不同地训练的编码器的额外的翻译处理器，来变化或改变编码器。类似地，翻译设备可通过使用经由不同的以下项中的至少一个而训练的解码器替换包括在翻译处理器中的解码器：初始训练值、训练集和训练序列，或者通过包括具有这样不同地训练的解码器的额外的翻译处理器或另一翻译处理器，来变化或改变解码器。

图4是示出变化或改变将被输入到至少一个翻译处理器的源句子的方法的示例的示图。参照图4，自动翻译设备可基于与第一语言关联的信息，改变将被输入到至少一个翻译处理器的源句子的词序。与第一语言关联的信息可被存储在例如语言模型中。例如，在实施例中，语言模型可以是用在识别器中的同一语言模型或由识别器使用的同一语言模型，其中，识别器实现语言模型，以例如使用用于识别的示例声学模型和语言模型来可听地识别源句子。

在这个示例中，这里假设源句子是

例如，翻译设备可通过改变源句子的词序来将源句子改变为翻译设备可通过按照词单位或子词单位划分源句子并改变子词的词序来改变源句子。虽然以下将对使用子词的示例进行描述，但是使用词代替子词的示例也是可应用的。

翻译设备可基于与第一语言关联的信息，使用同义词或相似的词来替换包括在将被输入到至少一个翻译处理器的源句子中的词。仅作为示例，与第一语言关联的信息可包括同义词词典或类义词典。

例如，将被同义词替换的词可以是子词和词中的一个。这里使用的子词可被解释为在一般的句子中频繁使用的字符的序列。

翻译设备可(例如，针对和)搜索类义词典寻找相应的同义词，然后检索同义词(例如，针对和的针对的以及针对的和)。翻译设备可通过使用检索的同义词替换包括在源句子中的词来将源句子改变为如图4所示的各种句子。

图5是示出计算第二语言的候选句子的分数并选择第二语言的最终句子的方法的示例的流程图。参照图5，在操作510中，自动翻译设备计算第二语言的各个的候选句子的分数。翻译设备可针对每个翻译处理器计算第二语言的各自的候选句子的分数。这里，候选句子的分数可以是与候选句子对应的概率或置信度值。翻译设备可在相应的翻译操作的解码处理中使用针对每个候选句子计算的概率值，并可随后使用新的重评分模型(诸如，通过使用图1的重评分模型150中的相应一个)重计算每个候选句子的分数。

在操作520，翻译设备基于在操作510计算的分数选择第二语言的候选句子中具有最高分数的一个候选句子作为第二语言的最终句子。在示例中，针对每个实现的翻译处理器或翻译操作，具有最高的各自的重计算的分数的相应的一个或多个最终候选句子可被选择，诸如，用于提供给图1的处理器170，其中，处理器170从中选择作为原始的源句子的翻译的最终句子。可选地，已经由相应的重评分模型中的一个或多个或者全部重评分的全部的候选句子可例如作为这样的各自的重评分模型的结果而被提供给或指示到示例处理器170，并且处理器170可从全部的候选句子选择最高评分的候选句子作为最终句子，其中，最终句子作为原始的源句子的翻译。虽然已经提供了示例，但是实施例不限于此，并且示例的组合以及其他示例也是可用的。例如，相应的分数可与对每个分数对应的潜在候选句子的识别或参考一起被输出，而不是候选句子被提供作为各个解码器或重评分模型的输出，因此，例如，处理器170可仅选择最高重计算的分数，并一经识别相应的候选句子就输出该句子作为最终候选句子。

图6是示出计算第二语言的候选句子的分数并选择第二语言的最终句子的方法的示例的流程图。参照图6，在操作605，自动翻译设备计算第二语言的各个的候选句子的分数。翻译设备可针对每个翻译处理器计算第二语言的各自的候选句子的分数。这里，候选句子的分数可以是与候选句子对应的概率或置信度值。

在操作610，翻译设备可基于多个不同的重评分模型，分别重计算与第二语言的每个候选句子对应的多个分数。在示例中，翻译设备可并行使用不同的重评分模型。通过并行使用相应的重评分模型计算不同的翻译处理器或翻译操作中的每个的分数并使用分数的平均值，翻译的准确性可在没有损失翻译速度的情况下被提高。

例如，在操作620，翻译设备使用与每个候选句子对应的分数的统计(例如，平均值和标准偏差)重计算与第二语言的每个候选句子对应的分数。在示例中，基于操作610中的各个重评分模型中的每个的结果选择第二语言的选择数量的最终候选句子用于进一步考虑，从而在操作630中选择最终句子之前，在操作620中使用这些分数的这样的统计来重计算那些选择的最终候选句子的分数。例如，当在重评分模型之间共享来自重评分模型中的这样的统计信息时，可由例如各个翻译处理器的不同的翻译处理的各自的重评分模型执行这样的统计重评分。可选地，在完成重评分模型的操作之后，可诸如由图1的处理器170执行统计分数重计算，用于操作630中用于选择最终句子的最终考虑，其中，这样的额外的统计分数重计算由处理器170基于由处理器170确定的统计的信息或从各个的重评分模型提供给处理器170的统计的信息，例如在从各个的重评分模型提供给或指示到处理器170的最终候选句子中执行。

在操作630，翻译设备选择操作620中具有最高重计算的分数的一个最终候选句子作为最终句子，其中，最终句子作为原始的源句子的翻译。

图7是示出翻译处理器(诸如，仅作为示例，图1的翻译处理器111至119中的任何翻译处理器)的配置和操作的示例的示图。参照图7，翻译处理器700包括编码器710、解码器730和重评分模型750。

例如，当第一语言的源句子被输入到翻译处理器700时，翻译处理器700可将源句子划分为子词，例如和并将子词顺序地输入到编码器710。

当完整源句子被输入时，编码器710可通过编码源句子来产生特征向量。如上所述，在将源句子输入到编码器710之前，翻译处理器700可通过改变源句子的词序或使用同义词替换包括在源句子中的词或子词来改变源句子。翻译处理器700可将改变的第一语言的源句子输入到编码器710。可选地，包括翻译处理器700的翻译设备可在将源句子输入到翻译处理器700和翻译处理器700的编码器710之前执行源句子的改变。

编码器710可包括神经网络715。下面将参照图8进一步更详细地描述神经网络715的示例结构和操作。

编码器710可通过由神经网络715编码第一语言的源句子，来产生特征向量。编码器710可针对单个源句子(例如，源句子 )产生特征向量(例如，2.542,0.827,和5.936)。

解码器730可通过解码由编码器710产生的特征向量，来产生第二语言的候选句子。解码器730可使用例如m-最优束搜索算法产生具有第二语言的候选句子的列表(例如，m-最优列表)。例如，具有第二语言的候选句子的列表可包括“我如何去江南？”、“请让我知道去江南车站的路”、“我如何到江南车站？”以及“我将去江南车站”的候选句子。这里，每个候选句子可被分配与每个候选句子对应的确定的分数或概率或置信度值，例如，0.2,0.05,0.6和0.1。可以按照第二语言的子词单位从解码器730输出每个候选句子。

仅作为示例，编码器710的输入维度可以是包括第一语言的子词的字典的维度，解码器730的输出维度可以是包括第二语言的子词的字典的维度。这里，字典的维度可以是包括在字典中的子词的数量。

重评分模型750可根据候选句子的确定的分数来排列候选句子。重评分模型750可按照预设数量的分数以从具有最高分数的候选句子开始到第预设数量个候选句子的顺序来排列与候选句子分别对应的分数。翻译处理器700可选择与重评分模型750所排列的预设数量的分数中的最高分数对应的候选句子“我如何到江南车站？”作为翻译处理器700的第二语言的最终候选句子。

例如，重评分模型750可使用每个候选句子的原始句子将被翻译成翻译的句子的概率和翻译的句子将被翻译成原始句子的概率的平均值，来选择最终候选句子。

图8是示出神经网络(诸如，仅作为示例，包括在图7的编码器710中的神经网络715)的结构和操作的示例的示图。参照图8，示例神经网络715包括输入层810、隐藏层830和输出层850。

输入层810的维度可对应于第一语言的子词的维度。第一语言可按照子词单位以独热向量(one-hot vector)的形式被输入到输入层810。例如，当将被输入到编码器710的第一子词是时，1可被输入到输入层810的多个节点中与对应的节点，0可被输入到输入层810的剩余节点。输入到输入层810的作为对应于的1被映射到的向量的独热向量可通过隐藏层830被传播到输出层850，其中，输出层850可输出与独热向量(例如，对应于的1被映射到的向量)对应的特征向量(例如，抽象的句子信息)。

仅作为示例，包括在编码器710中的神经网络715可包括递归神经网络(recurrentneural network，RNN)。因此，当对第二子词之后的子词进行编码时，对至少一个在前的子词进行编码的结果可能具有影响。

例如，当第二子词是时，对应于的1被映射到的独热向量可被输入到输入层810。当对应于的1被映射到的独热向量被传播到输出层850时，包括在隐藏层830中的节点可额外接收隐藏层830的传播第一子词的节点的输出作为输入。

因此，当第一语言的子词被顺序输入到神经网络715的输入层810时，可产生将被最终输出的特征向量。

图9是示出神经网络(诸如，仅作为示例，包括在图7的解码器730中的神经网络735)的结构和操作的示例的示图。参照图9，示例神经网络715包括输入层910、隐藏层930和输出层950。

神经网络735可通过解码由图7的编码器710产生的特征向量，来产生第二语言的候选句子。神经网络735的输入层910可接收由编码器710最终产生的特征向量。特征向量可通过隐藏层930被传播到输出层950。输出层950的维度可对应于包括第二语言的子词的字典的维度。包括在输出层950中的每个节点可对应于第二语言的每个子词，输出层950中的每个节点的输出值可指示与每个节点对应的子词将被输出的概率。执行束搜索算法的自动翻译设备可选择预设数量的候选子词，例如，具有最高概率值的前三个候选子词。例如，与预设的30,000个子词中指示特征向量的各个概率值或分数对应的三个分数(例如，P_1-1、P_1-2和P_1-3)可被传播到下一级。

当候选子词被选择时，随后的候选子词可响应于每个候选子词而被解码。这里，类似于编码器710的神经网络715的操作，解码器730的神经网络735的隐藏层930的状态信息可被传输到随后的隐藏层。例如，为确定第i子词，神经网络735可基于确定的第一至第i子词来确定第i子词的概率值或分数。

通过前面描述的处理，候选子词的序列可被产生，第二语言的候选句子可由候选子词的序列形成。然而，当预设数量的候选子词(例如，三个候选子词)被选择，每次一个子词被解码时，最终候选子词的数量可能以指数方式增长。为防止这样的指数增长，剪枝(pruning，修剪)可被应用到每个级。剪枝可用于将候选句子的数量维持为预设数量。例如，通过剪枝，可从通多对子词进行解码所产生的九个候选句子仅选择三个候选句子，并可将选择的候选句子传播到下一级。

在示例中，当在一个级选择子词时，处于下一级的隐藏层可由于选择的子词而改变。例如，指示选择的子词的嵌入向量可被应用到包括在下一级的隐藏层中的节点的内部状态。

图10是示出包括在示例神经网络中的RNN(诸如，针对图8和图9的各自的神经网络的示例RNN)的示例的示图。图10示出RNN的结构的示例。

RNN可具有适于处理包括时序信息的数据(诸如，仅作为示例，声音或语音、音乐、字符串和视频)的结构。

RNN可从数据识别常规模式，并提取抽象信息。这里，术语“递归”可包括重复的含义，并指示神经网络的某些部分可具有重复的结构。神经网络的某些部分的递归或重复可指示相同的任务被施加到一个序列的全部元素，并且输出结果受先前计算的结果的影响。

在图10中示出的RNN的结构中，隐藏层中的神经元包括指示神经元自身的箭头。指示隐藏层中的每个神经元自身的箭头可表示递归结构，并且这样的箭头可被称为递归权重。

递归权重可具有记住或增强先前数据的信息的功能，并当处理新数据时使用这样的信息。也就是说，RNN可以以相同的方式确定递归或时序数据中的信息，其中，相同的方式为：在用户之间的讲话或对话中，通过回溯先前讲话或对话的内容，参与讲话或对话的用户基于先前讲话或对话的内容来理解当前讲话或对话的内容，其中，该方式可以是RNN学习递归或时序数据的原理。

例如，递归权重可连接在时间t-1的先前点的神经网络与在时间t的当前点的神经网络，还连接在时间t-2的先前点的神经网络与在时间t-1的先前点的神经网络。RNN可通过无限追溯时间来扩展模型，因此，信息可从先前初始数据被持续传输到当前数据。

图11是示出自动翻译设备1100的配置的示例的示图。自动翻译设备1100可对应于图1的翻译设备100，但是实施例不限于此。参照图11，翻译设备1100可包括多个翻译处理器1110、处理器1130、存储器1150和收发接口1170。诸如在图12A中所示，翻译处理器1110、处理器1130、存储器1150和收发接口1170可通过总线彼此连接。

每个翻译处理器1110包括接收器1111、编码器1113和解码器1115。每个翻译处理器还可包括重评分模型。示例接收器1111可接收第一语言的源句子，以便相应的编码器1113可通过编码由接收器1111接收的源句子来产生特征向量，相应的解码器1115可通过解码由编码器1113产生的特征向量来产生第二语言的候选句子。每个解码器1115可通过使用例如m-最优或n-最优束搜索算法分别解码相应的特征向量，来产生相应翻译处理器1110的相应预设数量的候选句子。在示例中，每个翻译处理器1110的相应的重评分模型可识别相应的最高评分的候选句子，并将最高评分的候选句子作为最终候选句子而输出到处理器1130。

处理器1130可从由各个翻译处理器1110产生的各自提供的最终候选句子选择第二语言的最终翻译句子。处理器1130可计算第二语言的最终候选句子的分数，并选择第二语言的最终候选句子中具有最高分数的最终候选句子作为第二语言的最终翻译句子。处理器1130可计算来自每个翻译处理器1110的第二语言的最终候选句子的分数。可选地，可将来自每个解码器1115的预设数量的或全部的各自的候选句子提供给或可用于处理器1130，而不是仅将一个最高评分的最终候选句子从每个翻译处理器1110提供给处理器1130，并且处理器1130可从全部产生的候选句子确定最高评分的候选句子作为最终翻译句子。

处理器1130可诸如通过控制将被输入到至少一个翻译处理器1110的源句子、包括在所述至少一个翻译处理器中的编码器的方面或操作、以及包括在所述至少一个翻译处理器中的解码器的方面或操作中的至少一个的变化或改变，来控制一个或多个翻译处理器1110的操作。处理器1130还可选择性地控制具有先前定义的方面和操作的哪个编码器或哪个解码器被改变为由翻译处理器1110中的任何一个使用，而不使用它们已有的编码器和/或解码器或者设置的编码器或解码器。处理器1130还可控制翻译处理器1110中的哪一个被选择性地操作来针对源句子或改变的源句子执行翻译操作。

在处理器1130变化或改变源句子的示例中，处理器1130可执行以下项中的至少一个：基于与第一语言关联的信息改变将被输入到至少一个翻译处理器的源句子的词序，或者使用同义词替换包括在将被输入到至少一个翻译处理器的源句子中的词。

在示例中，处理器130可控制或执行以下操作中的至少一个：通过将噪声应用于将被应用到包括在至少一个翻译处理器中的编码器的参数值或激活函数来变化或改变编码器或编码器的编码操作的操作，和通过将噪声应用于将被应用到包括在至少一个翻译处理器中的解码器的参数值或激活函数来变化或改变解码器或解码器的解码操作的操作。在另一示例中，处理器1130可控制或执行以下操作中的至少一个：使用或可选地使用已经通过不同的初始训练值、训练集和/或训练序列训练的编码器替换包括在至少一个翻译处理器中的编码器的操作，和使用或可选地使用已经通过不同的初始训练值、训练集和/或训练序列训练的解码器替换包括在至少一个翻译处理器中的解码器的操作。

此外，处理器1130可执行上面参照图1至图10描述的至少一个或更多或者全部的处理。例如，处理器1130可被配置为实现用于控制翻译设备1100实现上面示例描述的操作中的任何一个或任何组合或者全部的计算机可执行指令，诸如，在一个或多个非暂时性计算机可读介质中/在一个或多个非暂时性计算机可读介质上(例如，在存储器1150中)的计算机可执行指令。

存储器1150可存储第二语言的分别识别的候选句子，诸如，分别由不同的翻译处理器的每个解码器1115或每个翻译操作识别的候选句子。存储器1150还可存储每个候选句子的各自重评分的结果以及针对每个翻译处理器或翻译操作识别的各自的最终候选句子。存储器1150还可存储从最终候选句子中选择的第二语言的最终翻译句子。此外，存储器1150可存储通过收发接口1170接收的信息。存储器1150还可存储各种数据和可执行指令。存储器1150可包括易失性存储器和非易失性存储器。存储器1150可包括大容量存储介质(诸如，例如，硬盘)，并存储各种数据。例如，存储器1150可包括使用至少一个硬盘的数据库，并将第二语言的候选句子存储在数据库中。存储器1150还可存储可被实现为识别第一语言的源句子的前述声学和声音模型，以及示例相应的识别神经网络编码器和解码器实施方式和其结果。

收发接口1170可将第二语言的最终句子输出到翻译设备1100的外部。例如，参照图1，收发接口1170可被包括在用于输出最终翻译句子的代理105中。

图12A和图12B示出自动翻译设备的示例。图12A和图12B的自动翻译设备可执行上面关于图1至图11描述的操作中的任何一个或任何组合，注意，实施例不限于此。此外，图12A和图12B的自动翻译设备可对应于图1和图7至图11的自动翻译设备中的任何一个或任何组合，注意，实施例不限于此。参照图12A和图12B，各自的自动翻译设备1200包括存储器1210、处理器1220。这里，存储器1210和处理器1220可对应于图11的处理器1130和存储器1150，但是实施例不限于此。诸如在图12A中所示，自动翻译设备1200还可包括声音识别器1230和/或翻译器1240。可选地，声音识别器1230和/或翻译器1240可如配置地那样被包括在处理器1220中。声音识别器1230可对应于上面针对图1的代理105描述的识别器，但是实施例不限于此。此外，仅作为示例，各自的自动翻译设备1200可包括翻译器1240而不包括声音识别器1230，或者例如在翻译器1240代表远程服务器的情况下，可包括声音识别器1230而不包括翻译器1240。翻译器1240还可对应于图1的翻译器110、重评分模型150和处理器170或者图11的翻译处理器1110或处理器1110以及处理器1130。在示例中，诸如在图12A中所示，存储器1210、处理器1220、声音识别器1230和翻译器1240通过总线1250彼此通信。

例如，存储器1210包括用于存储通过总线1250接收的信息的易失性存储器和非易失性存储器。存储器1210包括被配置为存储知识源或其他信息的数据库，其中，由图11的翻译处理器1110和/或处理器1130在自动翻译的各自翻译处理中或者诸如在上面针对图1至图11讨论的处理中的任何一个或任何组合中产生或使用知识源或其他信息。存储器1210还存储各种类型的数据和程序。在实施例中，作为非暂时性计算机可读存储介质，存储器1210可存储当由处理器1220执行时例如使得处理器1220执行关于图1至图11的上述处理中的任何一个或任何组合的指令。可选地，另一存储器可被包括在各自的自动翻译设备1200中，并可存储指令，和/或各自的自动翻译设备1200的另一处理器可执行存储的指令。

处理器1220可执行参照图1描述的代理105的操作。例如，在一个或多个实施例中，处理器1220将例如由用图12B的自动翻译设备1200的用户接口1260表示的麦克风捕获的用户的声音传送到声音识别器1230，并从声音识别器1230接收第一语言句子。此外，在一个或多个实施例中，处理器1220将第一语言句子传送到翻译器1240，翻译器1240可针对不同的翻译操作产生各自相同或不同的特征向量。例如，翻译器1240可包括一个或多个编码器和多个解码器。例如，在实现各自的重评分模型和对各自的重评分模型的结果进行排名之后，处理器1220可从翻译器1240接收作为第二语言句子的最终翻译。在一个或多个实施例中，处理器1220可以是(或被配置为)控制器，其中，控制器被配置为控制声音识别器1230和翻译器1240的这样的传送和/或各自的操作的性能，以分别产生第一语言句子，执行第一语言句子到特征向量的各自编码，执行第二语言的特征向量的各自解码，产生各自评分的候选翻译以及作为翻译器1240的最终翻译结果的排名结果。处理器1220还可控制代理的操作，以将最终翻译结果提供给用户。此外，在一个或多个实施例中，处理器1220或另一处理器可执行对用户的声音的采样以及将得到的采样的音频帧提供给声音识别器1230。

在一个示例中，声音识别器1230和翻译器1240是由处理器1220独立地实现的。在这个示例中，使用与处理器1220不同的处理器或计算资源来实现声音识别器1230和翻译器1240，并可通过同一处理器或计算资源或者通过不同的处理器或计算资源来实现声音识别器1230和翻译器1240。此外，在实施例中，声音识别器1230和翻译器1240(例如，翻译处理器1240的任何一个翻译处理器或全部的翻译器1240)位于各自的自动翻译设备1200的外部或远端，并例如通过有线或无线网络与各自的自动翻译设备1200进行通信。图12B中示出的用户接口1260可表示硬件有线和/或无线通信模块以及其他用户接口装置，诸如，仅作为示例，键盘，触摸屏、鼠标或手写笔。在这样的外部或远端示例中，处理器1220可执行对用户的声音的采样(诸如，由用户接口1260表示的麦克风捕获的模拟信号)，然后使用硬件通信模块将采样传输到一个或多个外部服务器，仅作为示例，一个或多个外部服务器分别包括声音识别器1230和/或翻译器1240。可通过翻译器1240从候选句子列表(例如，可从图1的重评分模型150的各自结果产生的候选句子列表)确定最终第二语言翻译，其中，翻译器1240可随后对候选句子列表中的翻译候选进行排名，并将最终第二语言翻译传输到各自的自动翻译设备1200的处理器1220，各自的自动翻译设备1200还可被配置为随后可视地和/或可听地向用户输出翻译。例如，用户接口1260可表示可听地输出翻译的声音合成器和扬声器，和/或显示器1270可通过文本将翻译可视地显示在显示器1270的屏幕上。

在示例中，声音识别器1230和翻译器1240通过处理器1220和存储器1210(诸如，经由识别和翻译建模)来实现。例如，包括在声音识别器1230中的一个或多个神经网络和/或包括在翻译器器1240中的一个或多个神经网络可被存储在存储器1210中，其中，包括在声音识别器1230中的一个或多个神经网络包括各自的神经网络被包括在声音识别器1230的识别编码器和识别解码器中的示例，包括在翻译器器1240中的一个或多个神经网络包括各自的神经网络被包括在翻译器1240的各个的翻译编码器和翻译解码器中的每个中的示例。在示例中，仅作为示例，可以以可执行目标文件或执行文件的形式将每个神经网络存储在存储器1210中。此外，还可将每个神经网络的参数存储在存储器1210中。在这样的示例中，处理器1210从存储器1210载入神经网络，并针对每个神经网络应用参数，因而实现声音识别器1230的识别和翻译器1240的各个翻译操作。在另一示例中，处理器1220从存储器1210载入神经网络，并针对每个神经网络应用参数，因而实现声音识别器1230的编码器和解码器以及翻译器1240的编码器和解码器。

在另一示例中，处理器1220可编码第一语言的采样的声音信号的帧，并针对第一语言产生第一特征向量。处理器1220可随后解码第一特征向量，并产生第一语言的第一语言句子。处理器1220可针对第二语言编码第一语言句子，并针对第二语言产生第二特征向量。诸如上面讨论的那样，处理器1220还可针对第二语言产生不同的第二特征向量。处理器1220可随后执行各自的第二特征向量的多个各自的解码，并对解码的结果进行重评分，随后对这些重评分的结果进行排名，以输出第二语言的第二语言句子作为第一语言的采样的声音信号的最终翻译。根据一个或多个实施例，在声音识别处理中产生的结果或参考的输出以及在深度学习机器翻译处理中产生的结果或参考的输出可被传送到存储器1210。此外，虽然实施例可讨论这样的输出或产生的结果中的任何输出或结果可在处理器1220、声音识别器1230和/或翻译器1240之间被传送，但是实施例还包括处理器1220、声音识别器1230和/或翻译器1240将它们各自的输出或结果存储到各自的本地高速缓冲存储器、存储器1210或任何其他存储器，以便所述输出或结果可被处理器1220、声音识别器1230和/或翻译器1240中的任何一个从这样的本地高速缓冲存储器、存储器1210或其他存储器获取和请求。通过被配置为执行本申请中描述的由硬件组件执行的操作的硬件组件来实现执行本申请中描述的操作的仅作为示例的在图1和图7至图12B中的自动翻译设备100、自动翻译设备1100、自动翻译设备1200、代理105、翻译器110、翻译器1240、各自的翻译处理器111至119、各自的GPU1至GPU5、翻译处理器700、各自的翻译处理器1100、各自的处理器重评分模型150、各自的重评分模型750、声音识别器1230、处理器170、处理器1130、各自的处理器1220、各自的编码器A、各自的编码器A’、各自的解码器B、各自的解码器B’、各自的编码器710、各自的解码器730、各自的编码器1113、各自的解码器1115、各自的接收器1111、存储器1150、各自的存储器1210、收发接口1170、用户接口1260、显示器1270、各自的神经网络715和各自的神经网络735以及图10的RNN。可用于执行本申请中描述的操作的硬件组件的示例在适当情况下包括控制器、传感器、生成器、驱动器、存储器、比较器、算术逻辑单元、加法器、减法器、乘法器、除法器、集成器和被配置为执行本申请中描述的操作的任何其他电子组件。在其他示例中，通过计算硬件(例如，通过一个或多个处理器或计算机)来实现执行本申请中描述的操作的一个或多个硬件组件。通过一个或多个处理元件(诸如，逻辑门的阵列、控制器和算术逻辑单元、数字信号处理器、微型计算机、可编程逻辑控制器、现场可编程门阵列、可编程逻辑阵列、微处理器或被配置为以限定的方式响应并执行指令以获得期望结果的任意其他装置或装置的组合)来实现处理器或计算机。在一个示例中，处理器或计算机包括(或连接到)存储由处理器或计算机执行的指令或软件的一个或多个存储器。通过处理器或计算机实现的硬件组件可执行指令或软件(诸如，操作系统(OS)和在OS上运行的一个或多个软件应用)，以执行本申请中描述的操作。硬件组件还可响应于指令或软件的执行而访问、操控、处理、创建和存储数据。为了简单，单数术语“处理器”或“计算机”可用于本申请中描述的示例的描述，但在其他示例中，多个处理器或计算机被使用，或者处理器或计算机可包括多个处理元件或多种类型的处理元件或二者。例如，可通过单个处理器或者两个或更多个处理器或者处理器和控制器来实现单个硬件组件或者两个或更多个硬件组件。可通过一个或多个处理器或者处理器和控制器来实现一个或多个硬件组件，可通过一个或多个其他处理器或者另一处理器和另一控制器来实现一个或多个其他硬件组件。一个或多个处理器或者处理器和控制器可实现单个硬件组件或者两个或更多个硬件组件。硬件组件可具有任意一个或多个不同的处理配置，其示例包括单个处理器、独立处理器、并行处理器、单指令单数据(SISD)多处理、单指令多数据(SIMD)多处理、多指令单数据(MISD)多处理和多指令多数据(MIMD)多处理。

在一个或多个实施例中，通过计算硬件(例如，通过被实现为如上面描述地执行指令或软件以执行本申请中描述的由方法执行的操作的一个或多个处理器或计算机)来执行在图1至图12中示出的执行本申请中描述的操作的方法和处理。例如，可通过单个处理器或者两个或更多个处理器或者处理器和控制器来执行单个操作或者两个或更多个操作。可通过一个或多个处理器或者处理器和控制器来执行一个或多个操作，可通过一个或多个其他处理器或者另一处理器和另一控制器来执行一个或多个其他操作。一个或多个处理器或者处理器和控制器可执行单个操作或者两个或更多个操作。

用于控制计算硬件(例如，一个或多个处理器或计算机)实现硬件组件并且执行如上面描述的方法的指令或软件可被写为计算机程序、代码段、指令或其任何组合，以单独地或共同地指示或配置一个或多个处理器或计算机作为用于执行由硬件组件执行的操作和如上所述的方法的机器或专用计算机进行操作。在一个示例中，指令或软件包括直接由一个或多个处理器或计算机执行的机器代码，诸如，由编译器产生的机器代码。在另一示例中，指令或软件包括由一个或多个处理器或计算机使用解释器执行的更高级代码。可基于附图中示出的框图和流程图以及公开了用于执行由硬件组件执行的操作和如上所述的方法的算法的说明书中的相应描述，使用任意的编程语言编写指令或软件。

用于控制计算硬件(例如，一个或多个处理器或计算机)实现硬件组件并且执行如上所述的方法的指令或软件以及任何相关联的数据、数据文件以及数据结构可被记录、存储或固定在一个或多个非暂时性计算机可读存储介质中，或被记录、存储或固定在一个或多个非暂时性计算机可读存储介质上。非暂时性计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取存储器(RAM)、闪存、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘和任意其它装置，所述任意其它装置被配置为以非暂时性的方式存储指令或软件以及任何相关联的数据、数据文件和数据结构，并将指令或软件以及任何相关联的数据、数据文件以及数据结构提供给一个或多个处理器或计算机，以便一个或多个处理器或计算机能执行指令。在一个示例中，指令或软件以及任何相关联的数据、数据文件以及数据结构被分布在联网的计算机系统上，使得指令或软件以及任何相关联的数据、数据文件以及数据结构通过一个或多个处理器或计算机以分布式的方式被存储、访问和执行。

仅作为非穷尽的示例，并在不同的实施例中，这里描述的自动翻译设备可以是移动装置(诸如，蜂窝电话、智能电话、可穿戴智能装置(诸如，戒指、手表、眼镜、手镯、脚镯、腰带、项链、耳环、头巾、头盔、或嵌入在服装中的装置)、便携式个人计算机(PC)(诸如，膝上型计算机、笔记本、小型笔记本电脑、上网本或超移动PC(UMPC)、平板PC(平板电脑)、平板手机、个人数字助理(PDA)、数码相机、便携式游戏机、MP3播放器、便携式/个人多媒体播放器(PMP)、手持电子书、全球定位系统(GPS)导航装置)或固定装置(诸如，台式PC、高清电视(HDTV)、DVD播放器、蓝光播放器、机顶盒、或家电)或被配置为执行无线或网络通信的任意其他移动或固定装置。例如，可以以诸如用于在并发的视频会议上实时输出和显示字幕的实现视频会议的硬件(诸如，移动装置、电视机或PC)来实现这里讨论的这样的自动翻译设备。根据一个或多个示例性实施例的自动翻译设备或系统可以是车辆、公共交通服务亭(public transportation kiosk)或接口或者其他用户接口。在另一示例中，根据一个或多个实施例的移动装置可被配置为诸如在公共交通系统或可听的公共预警系统中自动翻译公共通告。在一个示例中，可穿戴装置是被设计为直接安装在用户的身体上的装置(诸如，眼镜或手镯)。在另一示例中，可穿戴装置是使用附着装置安装在用户的身体上的任何装置，诸如，使用臂带附到用户的手臂或使用挂绳挂在用户的脖子周围的智能电话或平板电脑。这些示例是出于说明性的目的，而不应该被解释为限制自动翻译设备或系统的应用或实现。

虽然本公开包括特定示例，但是在理解本申请的公开之后将清楚的是：在不脱离权利要求和它们的等同物的精神和范围的情况下，可对这些示例进行形式和细节上的各种改变。在此描述的示例应仅在描述意义上考虑，而非为了限制的目的。在每个示例中的特征或方面的描述将被视为可应用于其他示例中的相似特征或方面。如果以不同的顺序执行描述的技术，和/或如果描述的系统、架构、装置或电路中的组件以不同方式被组合和/或被其他组件或其等同物替代或补充，则可实现合适的结果。因此，本公开的范围并非由具体实施方式限定，而是由权利要求和它们的等同物所限定，并且在权利要求和它们的等同物的范围内的所有变化将被解释为包括在本公开中。

Claims

1.一种翻译方法，包括：

使用一个或多个处理器，针对第一语言的源句子并行执行多个不同的翻译处理，所述多个不同的翻译处理包括：

在所述多个不同的翻译处理中的两个或更多个翻译处理中的每个翻译处理中对源句子进行编码，或者在所述多个不同的翻译处理的各个翻译处理中对源句子和源句子的变型进行编码，以产生各自的特征向量，

对各自的特征向量中的每个特征向量进行解码，以产生第二语言的各自的多个候选句子；

从第二语言的所述各自的多个候选句子选择第二语言的最终句子。

2.如权利要求1所述的翻译方法，

其中，通过不同的图形处理器GPU来实现所述多个不同的翻译处理，每个GPU包括翻译编码器和翻译解码器，

其中，将源句子输入到至少两个GPU，或者将源句子输入到至少一个GPU并将源句子的变型输入到另外的至少一个GPU，以执行所述多个不同的翻译处理。

3.如权利要求1所述的翻译方法，其中，通过翻译系统的一个或多个处理器来实现所述多个不同的翻译处理，其中，所述一个或多个处理器均包括翻译系统的多个编码器中的一个或多个翻译编码器和翻译系统的多个解码器中的一个或多个翻译解码器，

其中，所述翻译方法还包括：将源句子并行输入到所述多个编码器中的至少两个编码器。

4.如权利要求3所述的翻译方法，还包括：

将源句子的变型输入到所述多个编码器中的至少一个编码器，改变所述多个编码器中的至少一个编码器，和/或改变所述多个解码器中的至少一个解码器，以执行所述多个不同的翻译处理。

5.如权利要求4所述的翻译方法，还包括：

通过基于与第一语言关联的信息改变源句子的词序和/或基于与第一语言关联的信息使用同义词替换包括在源句子中的词，来产生源句子的变型；

将源句子的变型输入到所述多个编码器中的所述至少一个编码器。

6.如权利要求4所述的翻译方法，其中，改变所述多个编码器中的所述至少一个编码器的步骤包括：通过将噪声分别应用于将被分别应用到所述至少一个编码器的相应参数值或相应激活函数，来改变所述至少一个编码器；

其中，改变所述多个解码器中的所述至少一个解码器的步骤包括：通过将噪声分别应用于将被分别应用到所述至少一个解码器的相应参数值或相应激活函数，来改变所述至少一个解码器。

7.如权利要求3所述的翻译方法，还包括：

变化或改变所述一个或多个处理器中的至少一个处理器中的编码器，和/或变化或改变所述一个或多个处理器中的至少一个中处理器中的解码器，以执行所述多个不同的翻译处理。

8.如权利要求7所述的翻译方法，还包括以下步骤中的至少一个：

通过使用已经通过与曾用于训练所述编码器的初始训练值、训练集或训练序列不同的初始训练值、训练集和训练序列中的至少一个训练的另一编码器替换所述编码器，来执行变化或改变所述编码器的操作；

通过使用已经通过与曾用于训练所述解码器的初始训练值、训练集或训练序列不同的初始训练值、训练集和训练序列中的至少一个训练的另一解码器替换所述解码器，来执行变化或改变所述解码器的操作。

9.如权利要求1所述的翻译方法，其中，产生所述各自的多个候选句子的步骤包括：在每个翻译处理中使用各自的束搜索算法产生预设数量的候选句子。

10.如权利要求9所述的翻译方法，其中，所述各自的束搜索算法是具有比n-最优束搜索算法低的复杂度的m-最优束搜索算法，其中，n大于m。

11.如权利要求1所述的翻译方法，其中，选择第二语言的最终句子的步骤包括：

计算第二语言的多个候选句子的各自的分数；

选择在第二语言的所述多个候选句子中具有最高分数的所述多个候选句子中的一个候选句子作为第二语言的最终句子。

12.如权利要求11所述的翻译方法，其中，计算第二语言的所述多个候选句子的各自的分数的步骤包括：

从每个翻译处理计算第二语言的仅单个候选句子的各自的分数。

13.如权利要求1所述的翻译方法，其中，选择第二语言的最终句子的步骤包括：

在每个翻译处理中使用各自的重评分模型计算与第二语言的相应候选句子中的每个候选句子对应的分数；

使用与所述相应候选句子中的一个或多个候选句子中的每个候选句子对应的分数的统计，来从每个翻译处理重计算与所述相应候选句子中的所述一个或多个候选句子对应的分数；

选择所述相应候选句子中的所述一个或多个候选句子中具有重计算的分数中的最高的重计算的分数的一个候选句子作为第二语言的最终句子。

14.一种存储指令的非暂时性计算机可读存储介质，其中，当所述指令被处理器执行时使得所述处理器执行如权利要求1所述的方法。

15.一种翻译设备，包括：

一个或多个处理器中的至少一个处理器，被配置为针对第一语言的源句子并行执行多个不同的翻译处理，所述多个不同的翻译处理包括：

所述一个或多个处理器中的输出处理器，被配置为从第二语言的所述各自的多个候选句子选择第二语言的最终句子。

16.如权利要求15所述的翻译设备，其中，所述至少一个处理器均包括：

至少一个编码器，用于对源句子执行相应的编码以产生特征向量；

至少一个解码器，用于对特征向量执行相应的解码并针对源句子产生第二语言的多个候选句子。

17.如权利要求15所述的翻译设备，

其中，所述翻译设备包括用于分别执行所述多个不同的翻译处理的不同的图形处理器GPU，每个GPU包括翻译编码器和翻译解码器，

其中，所述翻译设备被配置为将源句子输入到至少两个GPU，或者所述翻译设备将源句子输入到至少一个GPU并将源句子的变型输入到另外的至少一个GPU，以执行所述多个不同的翻译处理。

18.如权利要求15所述的翻译设备，其中，所述多个不同的翻译处理通过翻译系统的一个或多个处理器中的至少一个处理器来实现，其中，所述至少一个处理器均包括翻译系统的多个编码器中的一个或多个翻译编码器和翻译系统的多个解码器中的一个或多个翻译解码器，

其中，所述翻译设备被配置为：将源句子并行输入到所述多个编码器中的至少两个编码器。

19.如权利要求18所述的翻译设备，其中，所述一个或多个处理器中的处理器被配置为：在至少一个翻译处理中产生源句子的变型并实现对产生的源句子的变型进行编码的操作，实现改变所述多个编码器中的至少一个编码器的操作，和/或实现改变所述多个解码器中的至少一个解码器的操作，以执行所述多个不同的翻译处理。

20.如权利要求19所述的翻译设备，

其中，所述处理器被配置为：在所述至少一个翻译处理中产生源句子的变型并实现对产生的源句子的变型进行编码的操作，

其中，为产生源句子的变型，所述处理器被配置为执行以下操作中的至少一个：

基于与第一语言关联的信息改变源句子的词序；

基于与第一语言关联的信息使用同义词替换包括在源句子中的词。

21.如权利要求19所述的翻译设备，其中，为实现改变所述多个编码器中的所述至少一个编码器的操作和/或实现改变所述多个解码器中的所述至少一个解码器的操作，所述处理器被配置为相应地执行以下操作中的至少一个：

通过将噪声分别应用于将被分别应用到所述多个编码器中的所述至少一个编码器的相应参数值或相应激活函数，来改变所述多个编码器中的所述至少一个编码器；

通过将噪声分别应用于将被分别应用到所述多个解码器中的所述至少一个解码器的相应参数值或相应激活函数，来改变所述多个解码器中的所述至少一个解码器。

22.如权利要求15所述的翻译设备，其中，所述多个不同的翻译处理通过所述一个或多个处理器中的多个翻译处理器来实现，其中，所述多个翻译处理器均包括翻译编码器和翻译解码器，

所述一个或多个处理器中的为实现所述多个不同的翻译处理的处理器被配置为通过使用另一个编码器替换所述多个翻译处理器的多个翻译编码器中的一个翻译编码器，来实现变化或改变所述一个翻译编码器的操作，其中，所述另一个编码器已经通过与曾用于训练所述一个翻译编码器的初始训练值、训练集或训练序列不同的初始训练值、训练集或训练序列训练；和/或被配置为通过使用另一个解码器替换所述多个翻译处理器的多个翻译解码器中的一个翻译解码器，来实现变化或改变所述一个翻译解码器的操作，其中，所述另一个解码器已经通过与曾用于训练所述一个翻译解码器的初始训练值、训练集或训练序列不同的初始训练值、训练集或训练序列训练。

23.如权利要求15所述的翻译设备，其中，通过在每个翻译处理中使用各自的束搜索算法产生预设数量的候选句子来产生所述各自的多个候选句子。

24.如权利要求23所述的翻译设备，其中，所述各自的束搜索算法是具有比n-最优束搜索算法低的复杂度的m-最优束搜索算法，其中，n大于m。

25.如权利要求15所述的翻译设备，其中，输出处理器还被配置为：计算第二语言的多个候选句子的各自的分数；选择在第二语言的所述多个候选句子中具有最高分数的所述多个候选句子中的一个候选句子作为第二语言的最终句子。

26.如权利要求25所述的翻译设备，其中，为计算第二语言的所述多个候选句子的各自的分数，输出处理器被配置为：从每个翻译处理计算第二语言的仅单个候选句子的分数。

27.如权利要求15所述的翻译设备，其中，为执行选择第二语言的最终句子的操作，输出处理器被配置为：

28.如权利要求15所述的翻译设备，还包括：所述翻译设备的多个存储器中的一个或多个存储器，被配置为存储所述各自的多个候选句子或从分别从所述多个不同的翻译处理产生的所述各自的多个候选句子选择的候选句子。

29.如权利要求28所述的翻译设备，还包括：所述多个存储器中的至少一个存储器，所述至少一个存储器是存储指令的非暂时性计算机可读存储介质，其中，当所述指令被所述一个或多个处理器执行时控制所述一个或多个处理器被配置为执行所述多个不同的翻译处理并选择最终句子。

30.如权利要求15所述的翻译设备，其中，被配置为执行所述多个不同的翻译处理的所述至少一个处理器和被配置为选择最终句子的输出处理器是所述一个或多个处理器中的同一处理器。

31.一种翻译方法，所述方法包括：

针对源句子并行执行多个不同的翻译处理，其中，所述多个不同的翻译处理针对相应的翻译编码处理、相应的翻译解码处理以及所述相应的翻译编码处理是编码源句子还是编码源句子的变型中的一个或多个而不同；

基于从所述多个不同的翻译处理分别产生的确定的最高排名的候选句子，输出源句子的翻译结果。

32.如权利要求31所述的翻译方法，其中，所述多个不同的翻译处理中的至少一个翻译处理的翻译解码处理实现m-最优束搜索算法以确定候选句子，其中，m-最优束搜索算法是具有比n-最优束搜索算法低的复杂度的束搜索算法，其中，n大于m。

33.一种存储指令的非暂时性计算机可读存储介质，其中，当所述指令被处理器执行时使得所述处理器执行如权利要求31所述的方法。

34.一种翻译方法，所述方法包括：

针对源句子并行执行多个翻译处理，包括：

对源句子进行第一编码和第一解码，

对源句子进行不同的编码和/或不同的解码，

对源句子的一个或多个变型进行第一编码和第一解码，和/或

对源句子的所述一个或多个变型进行不同的编码和/或不同的解码，其中，所述多个翻译处理中的每个翻译处理包括用于从每个翻译处理产生候选列表的各自的翻译编码处理和翻译解码处理；

对来自每个候选列表的候选句子进行排名；

基于根据排名确定的最高排名的候选句子，输出源句子的翻译结果，

其中，每个翻译解码处理实现n-最优束搜索算法以针对每个翻译处理产生候选列表。

35.一种存储指令的非暂时性计算机可读存储介质，其中，当所述指令被处理器执行时使得所述处理器执行如权利要求34所述的方法。

36.一种翻译方法，所述方法包括：

针对源句子并行执行多个翻译处理，包括：

对源句子进行第一编码和第一解码，

对源句子进行不同的编码和/或不同的解码，

对源句子的一个或多个变型进行第一编码和第一解码，和/或

对源句子的所述一个或多个变型进行不同的编码和/或不同的解码；

其中，所述多个翻译处理中的每个翻译处理包括用于从每个翻译处理产生候选列表的各自的翻译编码处理和翻译解码处理；

对来自每个候选列表的候选句子进行排名；

其中，翻译解码处理中的一个或多个翻译解码处理实现m-最优束搜索算法以产生相应的候选列表，其中，m-最优束搜索算法是具有比n-最优束搜索算法低的复杂度的束搜索算法，其中，n大于m。

37.如权利要求36所述的翻译方法，其中，对候选句子进行排名的步骤包括：将各自的重评分模型应用到每个候选列表，并基于来自每个应用的重评分模型的各自结果，选择性地对每个候选列表的少于全部候选句子的候选句子进行重排名，以找到最高排名的候选句子。

38.如权利要求36所述的翻译方法，其中，翻译解码处理中的一个或多个翻译解码处理选择性地实现n-最优束搜索算法以产生相应的候选列表。

39.一种存储指令的非暂时性计算机可读存储介质，其中，当所述指令被处理器执行时使得所述处理器执行如权利要求36所述的方法。