CN107590135A

CN107590135A - 自动翻译方法、设备和系统

Info

Publication number: CN107590135A
Application number: CN201710256367.3A
Authority: CN
Inventors: 李昊潼; 朴永起; 柳尚贤
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2016-07-07
Filing date: 2017-04-19
Publication date: 2018-01-16
Anticipated expiration: 2037-04-19
Also published as: KR20180005850A; CN107590135B; EP3267328A1; KR102565274B1; EP3267328B1; US20180011843A1; US10867136B2; JP2018005218A; JP6923332B2

Abstract

提供一种自动翻译方法、设备和系统。所述自动翻译方法包括：对第一语言的语音信号进行编码以生成第一特征向量；对第一特征向量进行解码以生成第一语言的第一语言句子；对第一语言句子进行编码以生成针对第二语言的第二特征；对第二特征向量进行解码以生成第二语言的第二语言句子；基于第一特征向量、第一语言句子、第二特征向量和第二语言句子中的任意一个或任意组合，控制生成候选句子列表；从候选句子列表选择最终第二语言句子作为语音信号的翻译。

Description

自动翻译方法、设备和系统

本申请要求于2016年7月7日提交到韩国知识产权局的第10-2016-0086036号韩国专利申请的权益，所述韩国专利申请的全部公开为了所有的目的通过引用合并于此。

技术领域

下面的描述涉及一种自动翻译方法和设备。

背景技术

互联网和信息电信(IT)技术的发展已经使人们能够接收各种语言的内容。此外，随着商业的全球化，用于在使用各种语言的用户之间的内容翻译和通信的识别和翻译技术已经引起兴趣。

由于使用的词语或句子的表达方式的不同，可从具有相似或相同含义的语音输入派生出不同的识别和翻译。

发明内容

提供本发明内容来以简化的形式介绍在下面的具体实施方式中进一步描述的构思的选择。本发明内容不旨在标识要求保护的主题的关键特征和必要特征，本发明内容也不旨在作为帮助确定要求保护的主题的范围而被使用。

在一个总体方面，一种自动翻译方法包括：对第一语言的语音信号进行编码以生成第一特征向量；对第一特征向量进行解码以生成第一语言的第一语言句子；对第一语言句子进行编码以生成针对第二语言的第二特征向量；对第二特征向量进行解码以生成第二语言的第二语言句子；基于第一特征向量、第一语言句子、第二特征向量和第二语言句子中的任意一个或任意组合，控制生成候选句子列表；从候选句子列表，选择最终第二语言句子作为语音信号的翻译。

生成候选句子列表的步骤可包括：从数据库获取被确定为对应于来自数据库的第一特征向量、第一语言句子、第二特征向量和第二语言句子中的任意一个或任意组合的候选句子。

获取候选句子的步骤可包括：基于一个或多个近似最近邻(NN)算法，从存储在数据库中的多个元素检索被确定为与第一特征向量、第一语言句子、第二特征向量和第二语言句子中的任意一个相似的各个元素。

生成候选句子列表的步骤可包括以下步骤的任意一个或任意组合：从数据库获取与被确定为相似于第一特征向量的第一语言特征向量匹配的第一翻译结果；从数据库获取与被确定为相似于第一语言句子的先前识别的句子匹配的第二翻译结果；从数据库获取与被确定为相似于第二特征向量的第二语言特征向量匹配的第三翻译结果；从数据库获取与被确定为相似于第二语言句子的先前翻译句子匹配的第四翻译结果。

生成候选句子列表的步骤还可包括：将与第一翻译结果、第二翻译结果、第三翻译结果和第四翻译结果中的任意翻译结果对应的任意先前翻译句子添加到候选句子列表，并且将第二语言句子添加到候选句子列表。

获取第二翻译结果的步骤可包括：将第一语言句子转换成向量，并且基于所述向量从数据库确定多个先前识别的句子中的哪些与第一语言句子相似。

获取第四翻译结果的步骤可包括：将第二语言句子转换成向量，并且基于所述向量从数据库确定多个先前翻译句子中的哪些与第二语言句子相似。

选择最终第二语言句子的步骤可包括：基于第二特征向量，计算在候选句子列表中包括的候选句子的分数，并且从候选句子列表选择具有最高的计算的分数的候选句子作为最终第二语言句子。

生成第一特征向量的步骤可包括：基于预定的帧长度，对第一语言的语音信号进行采样；生成与帧对应的各个输入向量；将各个输入向量顺序地输入到用于语音识别的编码器；将第一特征向量确定为针对顺序地输入的各个输入向量从所述编码器的输出。

生成第一语言句子的步骤可包括：将第一特征向量输入到用于语音识别的解码器；基于从所述解码器顺序地输出的子词的概率，生成预定数量的句子序列；在所述预定数量的句子序列中，选择具有最高分数的句子序列作为第一语言句子。

生成第二特征向量的步骤可包括：将第一语言句子划分为多个子词；将分别指示所述多个子词的输入向量顺序地输入到用于机器翻译的编码器；将第二特征向量确定为针对顺序地输入的输入向量从所述编码器的输出。

生成第二语言句子的步骤可包括：将第二特征向量输入到用于机器翻译的解码器；基于从所述解码器顺序地输出的子词的概率，生成预定数量的句子序列；在所述预定数量的句子序列中，选择具有最高分数的句子序列作为第二语言句子。

所述方法还可包括：将第一特征向量、第一语言句子和第二特征向量存储在数据库中；将与第一特征向量、第一语言句子和第二特征向量对应的第二语言句子和最终第二语言句子中的任意一个或任意组合存储在数据库中。

在一个总体方面，一个或多个实施例可包括：一种存储在由处理器执行时使得处理器执行在此讨论的操作和处理的任意一个或任意组合的指令的非暂时性计算机可读存储介质。

在一个总体方面，一种自动翻译方法包括：对第一语言的第一语言句子进行编码以生成针对第二语言的特征向量；对所述特征向量进行解码以生成第二语言的第二语言句子；基于所述特征向量和第二语言句子的任意一个或任意组合，控制生成候选句子列表；从候选句子列表选择来自候选句子列表的最终第二语言句子。

所述方法还可包括：对第一语言的语音信号进行编码以生成第一特征向量；对第一特征向量进行解码以生成第一语言句子。

生成候选句子列表的步骤可包括以下步骤中的任意一个或任意组合：从数据库获取与被确定为相似于特征向量的第二语言特征向量匹配的第一翻译结果；从数据库获取与被确定为相似于第二语言句子的句子匹配的第二翻译结果。

生成候选句子列表的步骤还可包括：将与第一翻译结果和第二翻译结果中的任意翻译结果对应的任意先前翻译句子添加到候选句子列表；将第二语言句子添加到候选句子列表。

选择最终第二语言句子的步骤可包括：基于所述特征向量，计算在候选句子列表中包括的候选句子的分数；从候选句子列表，选择具有最高的计算的分数的候选句子作为最终第二语言句子。

生成所述特征向量的步骤可包括：将第一语言句子划分为多个子词；将分别指示所述多个子词的输入向量顺序地输入到用于机器翻译的编码器；将所述特征向量确定为针对顺序地输入的输入向量从所述编码器的输出。

生成第二语言句子的步骤可包括：将所述特征向量输入到用于机器翻译的解码器；基于从所述解码器顺序地输出的子词的概率，生成预定数量的句子序列；在所述预定数量的句子序列中，选择具有最高分数的句子序列作为第二语言句子。

所述方法还可包括：在第一语言句子被存储在数据库中的情况下，将所述特征向量存储在数据库中；将与第一语言句子和所述特征向量对应的第二语言句子和最终第二语言句子中的任意一个或任意组合存储在数据库中。

在一个总体方面，一种自动翻译设备包括：语音识别器，被配置为通过对第一特征向量进行解码来生成第一语言句子，并被配置为通过对第一语言的语音信号进行识别编码来生成针对第一语言的第一特征向量；翻译器，被配置为通过对第二特征向量进行解码来生成第二语言的第二语言句子，并被配置为通过对第一语言的第一语言句子进行翻译编码来生成针对第二语言的第二特征向量；处理器，被配置为从基于第一特征向量、第一语言句子、第二特征向量和第二语言句子中的任意一个或任意组合生成的候选句子列表，选择最终第二语言句子作为语音信号的翻译。

语音识别器可包括：被配置为执行第一特征向量的解码以生成第一语言句子的识别解码器和被配置为执行语音信号的识别编码以生成第一特征向量的识别编码器，翻译器可包括：被配置为执行第二特征向量的解码以生成第二语言句子的翻译解码器和被配置为执行第一语言句子的翻译编码以生成第二特征向量的翻译编码器。

处理器还可被配置为包括识别编码器、识别解码器、翻译编码器和翻译解码器，识别编码器可实现所述自动翻译设备的一个或多个神经网络中的被配置为基于语音信号确定第一特征向量的神经网络，识别解码器实现所述自动翻译设备的所述一个或多个神经网络中的被配置为基于第一特征向量确定第一语言句子的神经网络，翻译编码器实现所述自动翻译设备的所述一个或多个神经网络中的被配置为基于第一语言句子确定第二特征向量的神经网络，翻译解码器实现自动翻译设备的所述一个或多个神经网络中的被配置为基于第二特征向量确定第二语言句子的神经网络。

自动翻译设备还可包括具有数据库的存储器，处理器可被配置为从数据库获取被确定为对应于第一特征向量、第一语言句子、第二特征向量和第二语言句子中的任意一个或任意组合的候选句子。

处理器可被配置为：基于一个或多个近似最邻近(NN)算法，从存储在数据库中的多个元素检索被确定与第一特征向量、第一语言句子、第二特征向量和第二语言句子中的任意一个相似的各个元素。

处理器可被配置为获取以下项中的任意一个或任意组合：来自数据库的与被确定为相似于第一特征向量的第一语言特征向量匹配的第一翻译结果、来自数据库的与被确定为相似于第一语言句子的先前识别的句子匹配的第二翻译结果、来自数据库的与被确定为相似于第二特征向量的第二语言特征向量匹配的第三翻译结果，以及来自数据库的与被确定为相似于第二语言句子的先前翻译句子匹配的第四翻译结果。

处理器可被配置为将与第一翻译结果、第二翻译结果、第三翻译结果和第四翻译结果中的任意翻译结果对应的任意先前翻译句子添加到候选句子列表，并且可被配置为将第二语言句子添加到候选句子列表。

处理器可被配置为将第一语言句子转换成向量，并且可被配置为基于所述向量从数据库确定多个先前识别的句子中的哪些与第一语言句子相似。

处理器可被配置为将第二语言句子转换成向量，并且可被配置为基于所述向量从数据库确定多个先前翻译句子中的哪些与第二语言句子相似。

翻译器可被配置为基于第二特征向量计算在候选句子列表中包括的候选句子的分数，处理器可被配置为从候选句子列表选择具有最高的计算的分数的候选句子作为最终第二语言句子。

处理器可被配置为基于预定帧长度对第一语言的语音信号进行采样，被配置为生成与帧对应的各个输入向量，被配置为将各个输入向量顺序地输入到用于语音识别的编码器，并且被配置为将第一特征向量确定为针对顺序地输入的各个输入向量从所述编码器的输出。

处理器可被配置为将第一特征向量输入到用于语音识别的解码器，被配置为基于从所述解码器顺序地输出的子词的概率生成预定数量的句子序列，并且被配置为在所述预定数量的句子序列中选择具有最高分数的句子序列作为第一语言句子。

处理器可被配置为将第一语言句子划分为多个子词，被配置为将分别指示所述多个子词的输入向量顺序地输入到用于机器翻译的编码器，并且被配置为将第二特征向量确定为针对顺序地输入的输入向量从所述编码器的输出。

处理器可被配置为将第二特征向量输入到用于机器翻译的解码器，被配置为基于从所述解码器顺序地输出的子词的概率生成预定数量的句子序列，并且被配置为在所述预定数量的句子序列中选择具有最高分数的句子序列作为第二语言句子。

处理器可被配置为将第一特征向量、第一语言句子和第二特征向量存储在数据库中，并且可被配置为将与第一特征向量、第一语言句子和第二特征向量对应的第二语言句子和最终第二语言句子中的任意一个或任意组合存储在数据库中。

在一个总体方面，一种自动翻译系统包括：翻译器，被配置为通过对特征向量进行解码来生成第二语言的第二语言句子，并且被配置为通过对第一语言的第一语言句子进行翻译编码来生成针对第二语言的所述特征向量；处理器，被配置为从基于所述特征向量和第二语言句子中的任意一个或任意组合生成的候选句子列表，选择最终第二语言句子作为第一语言句子的翻译。

所述自动翻译系统还可包括：语音识别器，被配置为通过对第一特征向量进行解码来生成第一语言句子，其中，通过对第一语言的语音信号进行识别编码而生成第一特征向量。

所述自动翻译系统还可包括具有数据库的存储器，处理器被配置为获取以下项中的任意一个或任意组合：来自数据库的与被确定为相似于特征向量的第二语言特征向量匹配的第一翻译结果以及来自数据库的与被确定为相似于第二语言句子的句子匹配的第二翻译结果。

处理器可被配置为将与第一翻译结果和第二翻译结果中的任意翻译结果对应的任意先前翻译句子添加到候选句子列表，并且被配置为将第二语言句子添加到候选句子列表。

翻译器可被配置为基于所述特征向量计算在候选句子列表中包括的候选句子的分数，处理器可被配置为从候选句子列表选择具有最高的计算的分数的候选句子作为最终第二语言句子。

处理器可被配置为将第一语言句子划分为多个子词，被配置为将分别指示所述多个子词的输入向量顺序地输入到用于机器翻译的编码器，并且被配置为将所述特征向量确定为针对顺序地输入的输入向量从所述编码器的输出。

处理器可被配置为将所述特征向量输入到用于机器翻译的解码器，被配置为基于从所述解码器顺序地输出的子词的概率生成预定数量的句子序列，并且被配置为在所述预定数量的句子序列中选择具有最高分数的句子序列作为第二语言句子。

处理器可被配置为：将所述特征向量存储在数据库中，将第一语言句子一起存储在数据库中，并且可被配置为将与第一语言句子和所述特征向量对应的第二语言句子和最终第二语言句子中的任意一个或任意组合存储在数据库中。

在一个总体方面，一种自动翻译系统包括：一个或多个处理器，被配置为：执行输入语音信号的语音识别，执行语音识别的识别结果的初始翻译，并将初始翻译的结果与选择先前翻译的先前结果进行比较，以确定输入语音信号的最终翻译，其中，所述比较包括：将在语音识别中得到的信息和在初始翻译中得到的信息中的一个或多个的信息与存储在数据库中的一个或多个先前句子翻译结果的信息进行比较，以从信息记录在数据库中的多个先前翻译，标识所述选择先前翻译。

所述比较可包括：将语音识别中得到的第一特征向量、语音识别中得到的第一语言句子、初始翻译中得到的第二特征向量和初始翻译中得到的第二语言句子中的一个或多个的信息与存储在数据库中的信息进行比较，以标识所述选择先前翻译。

所述一个或多个处理器被可被包括在同一移动装置中。

通过下面的具体实施方式、附图和权利要求，其他特征和方面将是清楚的。

附图说明

图1示出根据一个或多个实施例的自动翻译设备的示例操作。

图2示出自动翻译设备的示例及其示例翻译方法。

图3示出机器翻译设备的示例及其示例翻译方法。

图4示出根据一个或多个实施例的自动翻译设备中的翻译器和语音识别器的示例操作和配置。

图5示出从语音信号提取特征的方法的示例。

图6示出根据一个或多个实施例的语音识别器的语音识别方法的示例。

图7示出语音识别方法的示例。

图8示出根据一个或多个实施例的配置翻译器的神经网络的示例操作和结构。

图9示出根据一个或多个实施例的存储在数据库中的信息的类型的示例。

图10示出选择最终第二语言句子的方法的示例。

图11示出自动翻译方法的示例。

图12示出生成第一特征向量的方法的示例。

图13示出生成第一语言句子的方法的示例。

图14示出生成第二特征向量的方法的示例。

图15示出生成第二语言句子的方法的示例。

图16示出生成候选句子列表的方法的示例。

图17示出选择最终第二语言句子的方法的示例。

图18示出机器翻译方法的示例。

图19A和图19B示出自动翻译设备的示例。

贯穿附图和具体实施方式，除非另有描述或提供，否则相同的附图参考标号将被理解为表示相同或相似的元件、特征和结构。附图可不成比例，并且为了清楚、说明和方便，附图中的元件的相对大小、比例和描绘可被夸大。

具体实施方式

提供下面的详细的描述以帮助读者获得对在此描述的方法、设备和/或系统的全面理解。然而，在理解本申请的公开之后，在此描述的方法、设备和/或系统的各种改变、修改和等同物将是清楚的。例如，在此描述的操作的顺序仅是示例，并且不限于在此阐述的那些顺序，但是除了必须以特定的顺序发生的操作之外，操作的顺序可如在理解本申请的公开之后将是清楚的那样被改变。此外，为了更加清楚和简明，对本领域中公知的特征的描述可被省略。

在此描述的特征可以以不同的形式来实现，并且不被解释为限于在此描述的示例。相反，已经提供在此描述的示例仅为了示出实现在此描述的方法、设备和/或系统的许多可能方式中的一些方式，所述许多可能方式在理解了本申请的公开之后将是清楚的。

诸如第一、第二、A、B、(a)、(b)等术语可在此被用于描述组件。这些术语中的每一个术语不是用于限定对应组件的本质、顺序或序列，而仅用于将对应的组件与其他组件进行区分。例如，第一组件可被称为第二组件，类似地，第二组件也可被称为第一组件。

应注意，如果在说明书中描述一个组件“连接”、“结合”或“接合”到另一组件，则虽然第一组件可直接连接、结合或接合到第二组件，但是第三组件可“连接”、“结合”或“接合”在第一组件与第二组件之间。此外，应注意，如果在本说明书中描述一个组件“直接连接”或“直接接合”到另一组件，则它们之间可不存在第三组件。同样地，例如“在..之间”和“直接在…之间”以及“与…相邻”和“直接与…相邻”的表述也可被解释为如前面所述。

在此使用的术语仅为了描述特定实施例的目的，并不意在限制。除非上下文另外明确指示，否则如在此使用的单数形式也意在包括复数形式。还将理解，当在此使用术语“包含”和/或“包括”时，说明存在叙述的特征、整体、操作、元件和/或组件，但不排除存在或添加一个或多个其他特征、整体、操作、元件、组件和/或它们的组。

除非另有定义，否则在此使用的所有术语(包括技术术语和科学术语)具有与本公开所属领域的普通技术人员基于对本公开的理解所通常理解的含义相同的含义。除非在此明确地这样定义，否则术语(诸如，在通用字典中定义的术语)应被解释为具有与它们在相关领域的上下文和本公开中的含义一致的含义，并且将不被解释为理想的或过于形式化的意义。

根据实施例，以下示例实施例可适用于在汽车、电视(TV)、移动电话和其他电子装置中/作为汽车、电视(TV)、移动电话和其他电子装置提供识别和翻译。示例实施例可被实现为各种类型的产品，诸如，个人计算机(PC)、膝上型计算机、平板计算机、智能电话、智能家电、可穿戴装置等。在示例中，实施例包括非暂时性计算机可读介质，非暂时性计算机可读介质包括将在这样的智能电话、移动装置、智能家居系统、可穿戴装置等实施例的一个或多个处理器中被执行的翻译应用程序、指令或软件，或者将由这样的智能电话、移动装置、智能家居系统、可穿戴装置等实施例的一个或多个处理器执行的翻译应用程序、指令或软件。示例实施例包括全球会议硬件或者被配置为提供音频和/或视频会议的翻译转录，或者使得一个或多个处理器被配置为实现所述示例实施例的相应的方法或非暂时性计算机可读介质。此外，仅作为示例，示例实施例可包括为车辆(诸如，公共交通汽车、公交车、火车、自动扶梯或者旅客运输车)的驾驶员与乘客之间的通信提供翻译或者其他公告或公共听觉声明。在下文中，将参照附图更详细地描述这样的非限制性示例实施例。附图中的相同的附图标号表示相同的元件。

图1示出自动翻译(automated interpretation)设备的操作原理的示例。参照图1，自动翻译设备130执行由用户110说出的第一语言到第二语言的自动翻译。自动翻译设备130包括代理133和翻译器136。在一个示例中，自动翻译设备可包括语音识别器和/或机器翻译器。语音识别器将用户的语音转换为第一语言句子。机器翻译器将第一语言句子转换为第二语言句子，其中，第一语言和第二语言是不同的语言。在图1中，可理解，翻译器136对应于机器翻译器，代理133包括语音识别器和被配置为控制自动翻译的处理的控制器。控制器可以可选地另外配置在自动翻译设备中或自动翻译设备的外部。代理133可以是智能对话代理，其可表示诸如在用户与代理之间的智能对话交互中执行音频信息的识别和理解操作的计算机或处理装置硬件，或者仅仅表示执行语音识别的计算机或处理装置硬件。例如，代理133可控制通过代理133的识别的结果和/或翻译器136的翻译结果的输出。执行的识别可包括数字化语音的各种语音识别方法，诸如，仅作为示例，通过使用声学模型(例如，用于音标或发音)和语言模型(例如，用于单词或短语之间的连接)中的任一个或组合。可通过模数转换器(ADC)和代理133的解析器得到数字化语音，其中，代理133的解析器可将输入语音解析成音频帧，然后可将音频帧提供给示例的声学模型和/或语言模型中的任一个或二者，再次注意，对于这样的模型的引用仅是示例性的并且实施例不限于此。除了指示对于输入的可听语音的更可能或最可能的识别的这样的模型之外，模型还可分别指示针对它们各个潜在音标或单词识别的概率或分数。例如，诸如，在使用示例的声学模型和/或语言模型(和/或其他模型)中的任一个或二者时，解码器可被用于将识别模型的结果关联，以确定可听语音的最终识别。在一个示例中，代理133和翻译器136均可通过包括一个或多个指令或软件的非暂时性计算机可读介质、通过一个或多个硬件元件或者通过它们的各种组合来实现。

用户110请求自动翻译设备130使用第二语言翻译由第一语言表达的语音信号A。在该示例中，语音信号A可以是第一语言的语音信号。用户110可与自动翻译设备130的用户接口进行交互以请求识别和/或翻译，或者自动翻译设备130的识别和/或翻译操作可，例如，在底层装置的后台操作中自动或持续地操作，或者用户110可选择性地实现用户接口请求和自动实施二者/任一个。

在操作101中，当语音信号A输入到自动翻译设备130时，自动翻译设备130的代理133识别语音信号A并生成第一语言的句子A。如上所述，代理133可包括用于将可听语音转换为数字信号的硬件，例如，代理133可包括一个或多个麦克风、ADC和解析器，或者麦克风、ADC和解析器的任意或任意组合可在自动翻译设备100的外部或者包括在自动翻译设备100的其他位置。代理133可通过向代理133的一个或多个示例的识别模型(诸如，声学模型和/或语言模型)提供对应的音频帧并且通过将识别模型的结果解码为第一语言的句子A，来识别语音信号A。例如，句子A可被最后确定为文本类型数据。仅作为示例，识别模型可以是各个训练的神经网络。在操作102中，自动翻译设备130请求翻译器136翻译句子A。

在操作103中，翻译器136生成第二语言的句子A'作为句子A的初始翻译结果，并将翻译的结果(例如，句子A')提供回给代理133。在操作104中，代理133向翻译器136提供例如预先存储在数据库中的第二语言的句子B'和句子C'，使得翻译器136从句子A'、句子B'和句子C'选择最佳翻译结果。在此，代理133可(例如，从其他多个句子之中)确定句子B'和句子C'二者都与类似于语音信号A的语音的各个语音相关联。仅作为非限制示例，句子B'和句子C'可作为自动翻译设备130的先前翻译操作的结果而被预先存储在数据库中。例如，当预先处理了请求对语音信号B的翻译时，自动翻译设备130可已经生成句子B'并将生成的句子B'存储在数据库中。此外，句子C'可已经在翻译语音信号C的另一先前处理时被存储在数据库中。例如，在一个示例中，这样的句子可以以分类或可搜索的方式(仅作为示例)被存储在一个或多个数据库中，因此代理133可将先前存储的句子与关于当前翻译的句子的信息相关联，并且将该信息转发到翻译器136用于操作104。

在操作105中，翻译器136在基于确定的相似语音而确定已经获取的句子A'、句子B'和句子C'之中选择最佳翻译结果作为句子A的最终翻译结果，并将最终翻译结果传送回代理133。例如，翻译器136确定与句子A'的初始翻译结果相比，句子B'是针对语音信号A的更好的翻译结果。

与仅直接将第一语言的内容A翻译成第二语言的内容A的性能相比，可更容易地提供来自第二语言的候选句子的第一语言的语音的最佳翻译结果。此外，当候选句子基于它们与第一语言的语音的确定的相关性和/或与第一语言的语音的初始翻译的确定的相关性而被确定为候选时，由于这样的相关性确定基于各种考虑，因此针对第一语言的语音的最终翻译结果可以比仅使用由翻译器136实现的翻译模型(例如，被实现为得到第一语言的语音的初始翻译的翻译模型)的第一语言的语音到第二语言的单一或直接翻译更加稳健和准确。因此，在一个或多个实施例中，翻译器136可总体考虑当前翻译结果和在先前翻译处理中累积的翻译结果，并且选择具有最高确定分数的总体考虑的翻译结果之一作为最终翻译结果，从而提供针对第一语言的语音的更稳健和准确的翻译结果。

在操作106中，代理133将最终翻译结果传送到用户110。代理133可诸如通过自动翻译设备130的显示器，以第二语言的文本的形式向用户110提供最终翻译结果。在一个示例中，代理133可通过自动翻译设备130的代理133和扬声器的语音合成处理来可听地向用户110提供最终翻译结果。例如，代理133可基于代理133的文本转语言(TTS)技术，以第二语言的语音的形式向用户110提供最终翻译结果。

根据实施例，代理133和翻译器136均可在用户终端中、或通过用户终端、或在服务器(诸如，远程服务器)中实现。仅作为一个示例，代理133和翻译器136可在诸如智能电话的用户终端中操作。代理133和翻译器136还可或可选地，诸如，通过从远程终端接收语音或音频帧的语音记录而在服务器中操作。当确定输入语音的最佳翻译时，服务器实施还可考虑来自不同的本地和/或远程终端的候选句子。此外，代理133可在用户终端中操作，翻译136可在服务器中操作，例如，根据图1的操作用户终端将识别结果转发到翻译136并且翻译器136将结果返回到代理133。上述仅是示例，因此，可对其进行各种改变。例如，在代理133中包括的控制器可在用户终端中操作，语音识别器和机器翻译器可在服务器中操作。此外，如上面在图1的操作中所讨论的，虽然操作可被讨论为由代理133执行，或者操作可被讨论为由翻译器136执行，但是代理133的控制器可控制由代理133和翻译器136中的每一个执行的这样的操作并控制其间的信息的接收和传输。可选地，仅作为示例，控制器可被包括在翻译器136中，或者代理133和翻译器136二者可分别包括分别控制代理133和翻译器136中的每一个并且传输它们之间的上述操作的结果的控制器。

在一个示例中，将参照图2来描述被配置为执行识别和翻译二者的自动翻译设备130的配置和操作。在另一示例中，将参照图3来描述无论有没有这样的识别特征的被配置为执行翻译的自动翻译设备130的配置和操作。

参照图2，作为自动翻译设备130的一个示例，自动翻译设备200可包括，例如，语音识别器210、翻译器230和数据库(DB)250。

语音识别器210可包括用于语音识别的编码器211和解码器213。翻译器230可包括用于机器翻译的编码器231和解码器233。

自动翻译设备200可收集在语音识别器210中包括的编码器211和解码器213的操作结果和/或输出，以及在翻译器230中包括的编码器231和解码器233的操作结果和/或输出，并且可以在执行各个识别和/或翻译操作的同时将这样的操作的各个结果和/或输出存储在数据库250中。语音识别器的操作结果和/或输出可包括，例如，输入语音信号的抽象的语音信息(例如，仅作为示例，来自采样的语音帧的分离或提取的语音、声音、音素、语素、语法和/或上下文信息)以及针对输入语音信号的语音识别结果。翻译器230的操作结果和/或输出可包括，例如，针对语音识别结果的抽象的句子信息(例如，针对翻译考虑的这样的分离或提取的信息)以及基于抽象的句子信息的针对语音识别结果的翻译结果。这里，抽象的语音信息和抽象的句子信息的这些示例仅是非限制的示例，如通过语音识别器210和翻译器230中的每一个的操作可分离或提取，例如，其他语音信号、声音信息以及句子或上下文信息。

例如，当用户说出的语音信号被输入到自动翻译设备200或被自动翻译设备200接收时，自动翻译设备200将从语音信号提取的特征提供给语音识别器210，并从语音识别器210获取语音识别结果。语音识别结果可以是与用户的语音对应的第一语言句子，在该示例中，语音识别结果可以是韩语的语音识别。

自动翻译设备200将语音识别结果提供给翻译器230，并从翻译器230获取初始翻译结果。例如，语音识别的初始翻译结果可以是“I'll go to Gangnam？(我将去江南？)”。除了“I'll go to Gangnam？(我将去江南？)”之外翻译器230的各种其他初始翻译结果还可被生成。例如，可选择确定的准确的分数高于第一阈值的一个或多个不同的初始翻译结果。自动翻译设备200选择由翻译器230的解码器233输出的初始翻译结果作为候选翻译或候选句子。候选翻译被存储在，例如，n-最佳候选句子列表中。

自动翻译设备200在数据库250中搜索与在识别和翻译输入的语音信号的处理中生成的编码器211、编码器231、解码器213和解码器233的操作结果和/或输出相似的信息元素。搜索的信息元素可以是，例如，来自先前翻译操作的存储的抽象的语音信息、存储的语音识别结果、存储的抽象的句子信息和存储的翻译结果中的一个。在一个示例中，自动翻译设备200可在数据库250中搜索与被发现相似的搜索的信息元素匹配的或对应的最终翻译句子(例如，作为示出的翻译结果存储在数据库250中)。例如，基于发现的/确定的相似的信息元素，存储的先前的最终翻译“How do I get to length Gangnam？(我怎么到长江南？)”和“How do I get to GangnamStation？(我怎么到江南站？)”可作为候选翻译被标识并被添加到n-最佳候选翻译列表中。

这样，n-最佳候选句子列表包括与初始翻译结果对应的句子和从数据库250获取的一个或多个其他翻译句子。例如，候选句子列表可包括当前翻译结果和先前翻译结果。因此，在本示例中，候选语句列表包括句子“I'llgo toGangnam？(我将去江南？)”、“How do Iget to length Gangnam？(我怎么到长江南？)”和“How do I get to GangnamStation？(我怎么到江南站？)”。

自动翻译设备200对添加了与相似的翻译结果对应的最终句子的候选句子列表中的每一个进行评分，以获取每个候选句子的最终分数。自动翻译设备200可基于与当前翻译目标对应的语音(即，当前正在翻译的语音)，计算候选句子的各个最终分数。这里，自动翻译设备可已经预先分别对来自存储的先前的翻译结果的任意候选句子进行评分(即，当针对它们各自的先前的翻译目标执行它们各自的最终翻译操作时)。因此，在此，当针对当前翻译目标执行翻译操作时，自动翻译设备200可被认为对这样的先前翻译结果进行重新计算或重新评分(即，再次计算或再次评分)，但是此时基于当前翻译目标。例如，自动翻译设备200可基于当前翻译目标使用解码器233来重新计算每个候选句子的最终分数。在该示例中，与在当前翻译处理中获得的初始翻译结果相比，解码器233可向预先存储在数据库250中的翻译结果分配更高的分数。

作为另一示例，并且如下面将进一步更详细地讨论的，图10示出选择最终第二语言句子的方法的示例，其中，候选句子包括通过翻译不同的语音而获得的结果，因此重新计算与当前翻译目标对应的语音的分数。例如，可基于与当前翻译目标对应的预先生成的抽象的句子信息来重新计算候选句子的分数。

在这样的示例中，可在对与翻译目标对应的语音进行解码的处理中，基于针对每个词给出的(例如，或者作为翻译模型的结果而生成的)概率值来执行重新评分。然而，根据实施例，诸如，仅作为示例，可通过替换另一语言模型的词概率值或基于n元语法(n-gram-based)的概率值(考虑到域、用户、国家等)，或者将另一语言模型的词概率值或基于n元语法(n-gram-based)的概率值(考虑到域、用户、国家等)或插入到加权和的形式，来采用不同的重新评分方案。

因此，返回到图2，自动翻译设备200基于候选翻译的重新评分的结果来生成示出的最终翻译结果。例如，当句子“How do I get to GangnamStation？(我怎么到江南站？)”在候选句子列表中包括的翻译结果的重新评分结果中具有最高得分时，自动翻译设备200选择句子“How do I get to GangnamStation？(我怎么到江南站？)”作为自动翻译设备200的最终结果。

例如，将参照下面的表1进一步描述使用自动翻译设备200的翻译语音信号的场景。

表1：

当语音信号1被输入到自动翻译设备200时，翻译器230的初始翻译结果“How do I get to Gangnam？(我怎么到江南？)”被确定为例如在表1的“n-最佳”列中的候选翻译，然后被存储在语音信号1的候选句子列表中，因为在数据库250中可能不存在预存储的信息元素，例如，由于其他翻译可能未被预先执行，所以可能没有初始存储的信息元素以搜索数据库250。在该示例中，初始翻译结果可被提供作为自动翻译设备200的最终翻译结果。

当稍后输入语音信号2时，自动翻译设备200使用翻译器230生成初始翻译结果“Tellus delicious jajangmyen home.(告诉我们美味的炸酱面店。)”，并且将初始翻译结果确定为语音信号2的候选翻译。自动翻译设备200在初始翻译处理中验证在数据库250中是否存在与翻译输出相似的信息元素。例如，自动翻译设备200验证数据库250中是否存在与语音信号2的抽象的语音信息、语音识别结果、抽象的句子信息和翻译结果相似的任何信息元素。因为数据库250还不包括翻译处理输出生成的与当前语音信号2相似的任何信息元素，因此不再额外地选择候选翻译。因此，在该示例中，初始翻译结果也被提供作为自动翻译设备200针对语音信号2的最终翻译结果。

当输入语音信号3时，自动翻译设备200在翻译器230中生成初始翻译结果“How do I get to length Gangnam？(我怎么到长江南？)”，并将初始翻译结果确定为语音信号3的候选翻译。自动翻译设备200在数据库250中搜索额外的候选翻译。例如，自动翻译设备200可从语音信号1和语音信号2中的任一个或二者的翻译结果搜索抽象的语音信息、语音识别结果、抽象的句子信息和翻译结果。自动翻译设备200可在这样的先前的翻译结果中搜索与在语音信号3的当前翻译处理中生成的结果或输出相似的信息元素。然后，与数据库250的抽象的语音信息、语音识别结果、抽象的句子信息和翻译结果中的任何找到的匹配的或相似的信息对应的先前的翻译句子结果被添加到候选翻译列表。例如，在确定当前语音信号3的信息元素和与语音信号1对应的一个或多个存储的信息元素之间存在相似性之后，自动翻译设备200可将先前的最终翻译句子“How do I get toGangnam？(我怎么到江南？)”作为候选翻译添加到候选翻译列表。在该示例中，候选句子列表包括候选翻译“How do I get to length Gangnam？(我怎么到长江南？)”和“How do I get to Gangnam？(我怎么到江南？)”。自动翻译设备200计算在针对语音信号3的候选句子列表中包括的候选翻译的分数，并且从候选翻译选择具有最高分数的候选翻译(例如，“How do I get toGangnam？(我怎么到江南？)”)作为语音信号3的最终翻译结果。

当输入语音信号4时，自动翻译设备200生成初始翻译结果“I'll go to Gangnam？(我要去江南？)”，并且将初始翻译结果确定为语音信号4的候选翻译。自动翻译装置200基于通过针对语音信号4的当前翻译处理中的初始翻译处理而生成的结果和输出，在数据库250中搜索存储的语音信号1的翻译结果、存储的语音信号2的翻译结果和存储的语音信号3的翻译结果中的相似的信息元素。基于这些搜索的结果，自动翻译设备200确定与语音信号1和语音信号3的翻译结果分别对应的最终翻译句子“How do I get to Gangnam(我怎么到江南)”和“How do I get to lengthGangnam？(我怎么到长江南？)”也是语音信号4的候选翻译。在这个示例中，在所有确定的候选翻译中(例如，如在语音信号4的候选句子列表中包括的)具有确定的最高分数的这些确定的候选翻译中的一个(例如，“How doI get to Gangnam？(我怎么到江南？)”)被选择为语音信号4的最终翻译结果。

当在数据库250中搜索信息元素或相似的信息元素时，自动翻译设备200可单独地或组合地使用各种算法。例如，自动翻译设备200可使用近似k最近邻(k-NN，approximatek-nearest neighbor)算法或各个这样的算法，来快速确定或从数据库250检索与从当前翻译处理的编码器211、编码器231、解码器213和解码器233的输出相似的信息元素。在一个示例中，自动翻译设备200还可以或者可选地使用位置敏感哈希(LSH，locality sensitivehashing)算法和/或贪心滤波(greedy filtering)算法，来将编码器211、编码器231、解码器213和解码器233的输出与存储在数据库250中的信息进行比较，以从先前的翻译操作标识额外的候选翻译。另外，数据库250的这样搜索的结果还可存储在数据库250中，并且可用于改善数据库250的当前或未来的搜索。

另外，或可选地，自动翻译设备200在编码器211、编码器231、解码器213和解码器233的输出与数据库250中的信息之间的比较可包括：确定在当前翻译处理中确定的特征向量(例如，第一特征向量和/或第二特征向量)与数据库250中的特征向量之间是否存在相似性的方法。例如，抽象的语音信息、识别结果和抽象的句子信息可能已经以高维向量形式转换为各个信息，并且分别存储在数据库250中。在编码器211和解码器213(仅作为示例)包括神经网络(例如，循环神经网络)并实现神经网络学习以处理语音识别的示例中，作为中间结果生成的向量形式或者音素序列可以是神经网络语音识别处理的副产品。

这里，仅作为另一示例，自动翻译设备200可计算存储在数据库250中的特征向量与当前识别或翻译处理中生成的一个或多个特征向量之间的欧几里得距离(Euclideandistance)。在下文中，在当前的识别或翻译处理中生成的特征向量还被称为目标特征向量。仅作为一个示例，用于确定候选翻译的相似性确定或比较可基于目标特征向量与存储在数据库250中的特征向量之间的相似性根据它们之间的欧几里得距离的减小而增加的设定原则，可选地或另外，相似性确定或比较可基于相似性根据欧几里得距离的增加而减小的设定原则。

另外，或可选地，自动翻译设备200可基于确定的余弦相似性来确定目标特征向量与存储在数据库250中的特征向量是否相似。例如，自动翻译设备200可以确定：目标特征向量与存储在数据库250中的特征向量之间的相似性随着目标特征向量与存储在数据库250中的特征向量之间的余弦相似性更接近于“1”而增加。由于用于验证相似性的阈值不容易确定，因此自动翻译设备200可按照相似性的降序排列存储在数据库250中的特征向量，并确定与最高(相似性)排序中的预定百分比(％)的特征向量或预定数量的最高(上升)排列的特征向量对应的特征向量与目标特征向量相似，然后存储或标识候选翻译列表中的那些确定的特征向量的对应的先前的翻译结果。

仅作为一个示例，确定句子(例如，第一语言句子和第二语言句子)之间是否存在相似性的方法可包括：自动翻译设备200基于词频-逆文档频率(TF-IDF，term frequency-inverse document frequency)来确定句子之间是否存在相似性。TF-IDF可以是指示包括多个文档的文档组之中的文档中的预定词的频率或重要性的统计值。词频(TF)是指示文档中的预定词的频率的值。此外，应确定，单词在文档中的重要性根据该值的增加而增加。当整个文档组中经常使用该单词时，表示该单词是常用的。可由文档频率(DF)指示上述示例，并且DF的逆数(inverse number)可以是逆文档频率(IDF)。TF-IDF可以是通过将TF乘以IDF而获得的值。

在该示例中，自动翻译设备200基于TF-IDF将句子转换成向量，并且比较向量之间的相似性。通过这样，自动翻译设备200确定在当前的识别或翻译处理中生成的句子是否与存储在数据库250中的句子相似。在当前的识别或翻译处理中生成的句子还可被称为目标句子。由于用于验证相似性的阈值可能不容易确定，因此自动翻译设备200可基于它们的相似性按照降序排列存储在数据库250中的句子，并且确定与最高排序中的预定百分比或预定数量的最高排列的句子对应的句子相似于目标句子，然后存储或标识候选翻译列表中的那些特征向量的对应的先前的翻译结果。

虽然未示出，但是从语音信号提取的特征可额外地存储在数据库250中，并且提取的特征可额外地用于选择候选翻译(例如，n-最佳候选翻译)。例如，使用在示例的神经网络语音识别处理期间生成的特征向量，可确定不同长度的两个语音信号之间的相似性或者语音之间的改变的长度的两个语音信号之间的相似性。在该示例中，可将相似部分彼此进行比较，或者可对整个序列执行动态时间规整(dynamic time warping)方案，以便获得两个序列之间的变换。通过这样，例如，可以验证具有不同长度的语音序列之间的相似性，并且可以使用该相似性来选择候选翻译。

参照图3，作为自动翻译设备130的一个示例，机器翻译设备300执行机器翻译，并且根据实施例机器翻译设备30可包括或可不包括识别器，或者可执行或可不执行语音识别。例如，机器翻译设备300可包括翻译器310和数据库(DB)330。

在图2中，语音识别器210的抽象的语音信息和语音识别结果被存储在数据库250中，并用于确定翻译候选(例如，n-最佳翻译候选)。相反，当机器翻译设备300仅执行翻译时，可以或可不使用任何可用的抽象的语音信息和/或语音识别结果。预先输入到翻译器310的示例的第一语言句子可被存储在数据库330中。另外，第一语言句子以及任何其他先前的翻译的任何额外的抽象的句子信息和翻译结果可被用于确定翻译候选。参照图2的翻译器230和数据库250提供的上述描述也适用于此，因此，为了简洁起见，将省略针对翻译器310和数据库330的对应的相同描述的重复。

图4示出在自动翻译设备中包括的翻译器和语音识别器的操作和配置的示例。参照图4，通过语音识别器210和翻译器230的操作来输出输入到自动翻译设备的第一语言的语音信号的初始翻译结果，并将其确定为语音信号的第二语言的候选句子。这里，语音识别器210和/或翻译器230以及图4所示的自动翻译设备可以与图2的那些相同，注意，实施例不限于此。

语音识别器210的编码器211可包括神经网络212，语音识别器210的解码器213可包括神经网络214。此外，翻译器230的编码器231可包括神经网络232，翻译器230的解码器233可包括神经网络234。图4的编码器211、解码器213、编码器231和/或解码器233可以与图2的那些相同，注意，实施例不限于此。神经网络212、神经网络214、神经网络232和神经网络234可在自动翻译设备中具有相同的结构，或者一个或多个神经网络或者全部神经网络具有不同结构。

当编码器211、编码器231、解码器213和解码器233均被配置有神经网络时，可利用编码器211、编码器231、解码器213和解码器213中的每一个预先执行学习处理以翻译当前语音输入。在该示例中，训练编码器211、编码器231、解码器213和解码器233的操作可被理解为通过学习操作确定神经网络的权重或参数的操作。可使用训练数据在制造期间和/或制造后分别执行学习操作，并且该学习操作还可在自动翻译设备的操作期间被更新。

在一个示例中，响应于第一语言的语音信号的输入，自动翻译设备从语音信号提取特征。将参照图5更详细地描述使用自动翻译设备从语音信号提取特征的方法。

响应于输入从语音信号提取的特征，编码器211对提取的特征进行编码，并且生成第一特征向量，例如，实数向量{“2.542”，“0.827”，...，“5.936”}。解码器213对由编码器211生成的第一特征向量进行解码，并生成第一语言句子(例如，句子)作为语音识别结果。解码器213输出第一语言句子子词(sub-word)或单词单元(word unit)。仅作为示例，子词可被理解为常见句子中经常使用的字符的序列，诸如，音素或音节。将参照图6和图7更详细地描述编码器211的神经网络212和解码器213的神经网络214。

解码器213对第一特征向量进行解码，并生成包括第一语言的m个候选句子的m-最佳列表。解码器213基于例如束搜索(beam search)算法生成第一语言的m-最佳列表。在该示例中，m可以是束搜索算法的复杂度。与参照图2和图3描述的句子(和/或短语)候选的n-最佳列表相比，m-最佳列表包括与用于语音识别的候选对应的句子。

m-最佳列表包括第一语言句子，例如，和在m-最佳列表中包括的每个句子(和/或短语)还具有可与句子一起存储的分数或概率值，例如，0.6、0.05、0.2和0.1。

语音识别器210还包括重新评分模型215。重新评分模型215对句子进行评分或基于它们的分数对句子进行排序。重新评分模型215输出m个句子中的一个最佳句子(或短语)作为语音识别的结果。

翻译器230的编码器231对第一语言句子进行编码并生成第二特征向量。编码器231使用神经网络232将第一语言句子编码成第二特征向量。

解码器233对第二特征向量进行解码，并生成包括第二语言的m个候选句子的第二语言的m-最佳列表。与参照图2和图3描述的句子(和/或短语)候选的n-最佳列表相比，m-最佳列表包括与初始翻译的候选对应的句子(和/或短语)。在该示例中，m可以是束搜索算法的复杂度。解码器233使用神经网络234对第二特征向量进行解码。解码器233基于例如束搜索算法来生成m-最佳列表。

在一个示例中，编码器231的输入维度可以是包括第一语言的子词的字典的维度，解码器233的输出维度可以是包括第二语言的子词的字典的维度。字典的维度可以是在字典中包括的子词的数量。将参照图8描述在编码器231中包括的神经网络232的示例配置和操作以及在解码器233中包括的神经网络234的示例配置和操作。

翻译器230还可包括重新评分模型235。例如，重新评分模型235基于每个候选句子的原始句子被正确地翻译成翻译的句子的概率值或置信度值以及翻译的句子被正确地翻译成原始句子的概率值或置信度值的平均值，来选择最终句子。此外，重新评分模型235将在对第二语言的候选语句进行解码的处理中计算的分数确定为第二语言的候选句子的分数。例如，每个候选句子的分数可以是原始句子被正确地翻译成对应的候选句子的概率值或置信度值。在该示例中，重新评分模型235还可被称为排序模型。

尽管不限于此，但是重新评分模型235可仅输出m个句子中的一个最佳或最高评分的句子。例如，重新评分模型235可输出与最高得分(例如，0.5)对应的候选句子“I'll goto Gangnam？(我将去江南？)”作为初始翻译结果。

图5示出从语音信号提取特征的方法的示例。参照图5，自动翻译设备可基于预定的帧速率(例如，每秒100帧)对第一语言的语音信号进行采样。仅作为一个示例，可通过一个或多个ADC和解析器执行采样。因此，在一个示例中，自动翻译设备以设置的帧(例如，作为各自具有设置的帧长度的各个帧)为单位提取特征X₁，X₂，...，X_i，...，X_L，并且生成多个帧中的每个帧的输入向量。每个帧的输入向量可包括，例如，40个点，诸如，示例的40维(dim)点。

图6示出语音识别器210的语音识别方法的示例。参照图6示出在语音识别器210中执行的示例的端到端(end-to-end)语音识别处理。语音识别器210使用在包括编码器和解码器的结构中设置的神经网络610。例如，神经网络610是一种如下的形式的神经网络，在该形式中，神经网络212和神经网络214(诸如，图4的上述示例中描述的)被组合为单个神经网络。在一个示例中，神经网络610可以是循环神经网络(recurrent neural network)。这里，语音识别器210可以是图2和图4中的任何一个的相同的语音识别器，但不限于此，并且引用的神经网络212、214可以是图4的相同的神经网络212和214，但不限于此。

示出的示例的输入向量x₁，x₂，...，x_i，...，x_L(例如，与图5中的各个帧对应生成的)被顺序输入到神经网络610的编码器部分或输入。神经网络610的编码器部分可输出语音抽象信息，然后该语音抽象信息可以或者还可以被提供给或输入到神经网络610的解码器部分或输入。输出的语音抽象信息对应于抽象的语音信息，并且仅作为一个示例，可被存储在单独的数据库(诸如，图2的数据库250)中。

因此，在一个示例中，神经网络610的解码器部分可顺序地输出在第一语言句子中包括的子词y₁，y₂，...，y_i，...，y_L。然后输出的子词可被重新输入到神经网络610的解码器部分，以便之后例如作为时间反馈用于识别后续的子词。神经网络610的解码器部分可生成预定数量的句子(和/或短语)序列，并且可选择多个序列之中的具有最高设置分数的句子序列(或短语)作为第一语言句子，例如，句子识别的第一语言句子对应于语音识别结果，并被存储在数据库中，其中，该数据库可以是与存储输出的语音抽象信息的相同的数据库，或者可以是不同的数据库。

图7示出语音识别方法的示例。参照图7示出基于注意机制(attentionmechanism)的语音识别处理。这里，图7所示的语音识别器210可以是图2和图4中的任一个的相同的语音识别器，但不限于此，并且神经网络710可以是图4的神经网络212、神经网络214的组合，但不限于此。当与图6的神经网络610相比时，图7的神经网络710的解码器部分使用大量的信息。例如，神经网络710的解码器部分可在识别后续的子词的处理中使用由神经网络710的编码器部分输出的附加信息以及语音抽象信息。在该示例中，附加信息可以是在神经网络710的编码器部分识别语音时生成的信息。因此，可以精确地验证在识别后续的子词的处理中神经网络710的解码器部分“注意”的部分。在一个示例中，用于注意机制的连接的结构可被实现为单独的神经网络。

图8示出配置翻译器的神经网络的操作和结构的示例。参照图8示出在翻译器230的编码器中包括的神经网络232的示例配置和操作以及在翻译器230的解码器中包括的神经网络234的示例配置和操作。这里，翻译器230可以是图2和图4中的任一个的相同的翻译器230，但不限于此，图8的神经网络232和/或神经网络234可以是图4的相同的神经网络232和神经网络234，但不限于此。

图8的神经网络232包括输入层810、隐藏层820和输出层830。输入层810的维度对应于第一语言的子词的维度。基于子词为单位以独热向量(one-hot vector)的形式将第一语言输入到输入层810。例如，当输入到编码器的第一子词是时，二进制“1”被输入到与输入层810的多个节点中的对应的节点，并且二进制“0”被输入到其余节点。输入到输入层810的独热向量(例如，二进制“1”映射到的对应于的向量)通过隐藏层820被传播到输出层830。

图8的编码器的神经网络232包括循环神经网络。因此，先前的至少一个子词的编码结果对第二/后续的子词之后的编码的子词施加影响。例如，当第二子词是“(到)”时，将二进制“1”映射到的对应于的独热向量输入到输入层810。在该示例中，当独热向量通过隐藏层820被传播到输出层830时，在隐藏层820中包括的节点额外地接收已经在隐藏层820中传播了第一子词的节点的输出。

这样，响应于第一语言的子词的顺序输入而最终输出到神经网络232的输入层810的特征向量被生成。生成的特征向量对应于抽象的句子信息，并且仅作为一个示例，可被存储在单独的数据库(诸如，图2的数据库250)中。在编码器的神经网络232中最终输出的特征向量被输入到解码器的神经网络234。

图8的解码器的神经网络234包括输入层850、隐藏层860和输出层870。神经网络234对在图8的神经网络232中最终输出的特征向量进行解码，并生成第二语言的候选句子。

神经网络234的输入层850接收从编码器最终输出的特征向量。特征向量通过隐藏层860被传播到输出层870。输出层870的维度对应于包括第二语言的子词的字典的维度。输出层870的每个节点可对应于第二语言的子词，并且每个节点的输出值可指示对应节点的子词被正确地翻译输出的概率或置信度。在一个示例中，执行束搜索算法的自动翻译设备选择预定数量(例如，三个)的候选子词，并且由解码器以降序确定该数量。例如，来自30000个子词中的与前三个分数或概率P_1-1、P_1-2和P_1-3对应的三个子词被传播到后续的操作。

当选择候选子词时，对后续的候选子词进行解码以对应于候选子词中的每一个。在该示例中，与图8的编码器的神经网络232相似，解码器中的神经网络234的隐藏层860的状态信息被传送到隐藏层860的后续的隐藏层。例如，当将要确定第i子词时，神经网络234基于第一子词至第(i-1)子词来确定第i子词的概率或分数。

在上述方法中，生成候选子词的序列并且基于候选子词的序列构建第二语言的候选句子(或短语)。在每当对一个子词进行解码时选择预定数量(例如，三个)的候选子词时，最终候选句子的数量呈指数地增加。为了防止或最小化这样的现象，在一个或多个实施例中，可将修剪(pruning)应用于每个这样的解码处理。修剪是为了维持预定数量的候选句子而执行的选择性去除。例如，通过修剪，从通过解码直到第二子词而生成的九个候选语句选择三个候选句子，并将这三个候选句子传播到后续处理。

当在一个处理中选择子词时，通过选择的子词来改变后续处理的隐藏层。例如，指示选择的子词的嵌入向量可被应用于在后续处理的隐藏层中包括的节点的内部状态。

图9示出存储在数据库(诸如，上面针对图2讨论的数据库250)中的信息的类型的示例，然而数据库不限于此。参照图9，自动翻译设备(诸如，图1至图8以及图19A至图19B的自动翻译设备中的任意自动翻译设备)可以将向量形式的抽象的语音信息、语音识别结果和向量形式的抽象的句子信息存储在数据库中。在该示例中，抽象的语音信息可以是第一特征向量，语音识别结果可以是第一语言句子，抽象的句子信息可以是第二特征向量。此外，自动翻译设备可执行初始翻译结果(例如，第二语言句子)或抽象语音信息的最终翻译结果、语音识别结果中的至少一个与数据库中的抽象的句子信息之间的匹配操作，并且可存储一个或多个匹配结果。

图10示出选择最终第二语言句子(诸如，在不执行语音识别时的第一语言的当前语音信号的最终翻译或者第一语言句子的其他最终翻译)的方法的示例。参照图10，可使用机器翻译器的解码器针对第一候选句子到第n候选句子中的每一个候选句子计算分数。在该示例中，用于重新计算每个候选句子的分数的神经网络可以是，例如，图4和图8中的任一个的神经网络234，注意，实施例不限于此。

获得候选句子作为与不同的/先前的语音对应的翻译结果，因此，将基于与当前翻译目标对应的语音来重新计算(即，再次计算)候选句子的分数。在一个示例中，基于先前生成的抽象的句子信息来重新计算候选句子的分数，以对应于作为当前翻译目标的语音。下面更详细地描述对第一候选句子(例如，用于后续语音信号的示例的第二语言中的表1的上述示例“I'll go toGangnam(我将去江南)”)进行重新评分的处理。

输入到神经网络234的输入层的抽象的句子信息通过隐藏层被传播到输出层。在输出层中包括的节点对应于第二语言的子词，例如，“Gangnam(江南)”、“I(我)”和“will(将)”(对应于“I'll”中的“'ll”。每个节点的输出值指示对应节点的子词被正确地翻译并应该被输出的概率或置信度。

当第一候选句子的第一子词是“I(我)”时，自动翻译设备选择在与“I(我)”对应的节点中输出的概率P_1-1，以计算第一候选句子的分数。当选择与第一子词对应的节点时，神经网络234的输出层输出第二子词的概率。这样，通过基于在第一候选句子中包括的子词顺序地选择输出层中的节点，自动翻译设备计算第一候选句子的分数。

基于上述方法，自动翻译设备重新计算候选句子的分数。例如，自动翻译设备选择对第一候选句子至第n候选句子重新计算的分数之中的具有最高分数的候选句子，作为当前输入语音信号的最终翻译句子(短语)。

图11示出自动翻译方法的示例。这里，可通过图1至图10以及图19A至图19B的自动翻译设备中的任意自动翻译设备来实现图11的方法，然而实施例不限于此。另外，图1至图10讨论的上述操作中的任意一个或任意组合的相应的描述也适用于图11的操作，仅为了简洁起见，这里不再重复。参照图11，在操作1110中，自动翻译设备对第一语言的语音信号进行编码，并生成第一特征向量。在操作1120中，自动翻译设备对第一特征向量进行解码，并生成第一语言句子。在操作1130中，自动翻译设备对第一语言句子进行编码，并且基于第一语言句子的编码来生成第二特征向量。在操作1140中，自动翻译设备对第二特征向量进行解码，并生成第二语言句子。在操作1150中，自动翻译设备基于第一特征向量、第一语言句子、第二特征向量和第二语言句子中的至少一个以及先前的第一语言编码和/或解码识别操作和/或第二语言编码和/或解码翻译操作的信息，来生成或添加候选句子列表。在操作1160中，自动翻译设备从候选句子列表选择最终的第二语言句子。

自动翻译设备将来自当前翻译处理的第一特征向量、第一语言句子和第二特征向量存储在数据库(诸如，图2的数据库250)中。在一个示例中，数据库还存储先前的第一语言编码和/或解码识别操作和/或第二语言编码和/或解码翻译操作的信息。自动翻译设备还可将来自当前翻译处理的初始第二语言句子和最终第二语言句子中的一个或二者与信息存储在数据库中，其中，该信息指示与来自当前翻译处理的存储的第一特征向量、第一语言句子和第二特征向量匹配或对应的各个第二语言句子和/或最终第二语言句子。

还将参照图12至图17更详细地描述图11的操作。可通过图1至图10以及图19A至图19B的自动翻译设备中的任意自动翻译设备来实现图12至图17的各个方法，然而实施例不限于此。

图12示出生成第一特征向量的方法的示例。参照图12，在操作1210中，自动翻译设备基于预定的帧长度/速度对第一语言的语音信号进行采样。例如，自动翻译设备以每秒100帧(例如，与10ms的帧长度对应)为单位，对第一语言的语音信号进行采样。在操作1220中，自动翻译设备生成与各个帧对应的输入向量。在操作1230中，自动翻译设备将生成的输入向量顺序地输入到用于语音识别的语音识别编码器。在操作1240中，自动翻译设备生成或获取由用于语音识别的语音识别编码器输出的第一特征向量，以对应于顺序输入的输入向量。

图13示出生成第一语言句子的方法的示例。参照图13，在操作1310中，自动翻译设备将第一特征向量输入到用于语音识别的语音识别解码器。仅作为一个示例，可已经在图12的操作1240中生成/获取第一特征向量。在操作1320中，自动翻译设备基于由语音识别解码器顺序生成或确定的词或子词的确定的概率或分数，来生成预定数量的句子(或短语)序列。在操作1330中，自动翻译设备从预定数量的句子序列选择具有最高分数的句子序列作为识别的第一语言句子。

图14示出生成第二特征向量的方法的示例。参照图14，在操作1410中，自动翻译设备将第一语言句子划分为多个子词。仅作为一个示例，第一语言句子可以是来自图13的操作1330的识别的第一语言句子。在操作1420中，自动翻译设备将指示多个子词的输入向量顺序地输入到用于第一语言句子的机器翻译的翻译编码器。在操作1430中，自动翻译设备生成或获取由翻译编码器输出的例如针对第二语言的第二特征向量。

图15示出生成第二语言句子的方法的示例。参照图15，在操作1510中，自动翻译设备将第二特征向量输入到用于机器翻译的翻译解码器。仅作为一个示例，第二特征向量可以是图14的操作1430的第二特征向量。在操作1520中，自动翻译设备基于由翻译解码器顺序生成或确定的第二语言的词或子词的概率，来生成预定数量的句子(短语)序列。在操作1530中，自动翻译设备从预定数量的句子序列选择具有最高分数的句子序列作为翻译的第二语言句子。

图16示出生成候选句子列表(诸如，上面在不同实施例中讨论的候选句子列表中的任意一个)的方法的示例。参照图16，在操作1610中，自动翻译设备从数据库获取与用于当前语音信号的识别和翻译的第一特征向量、第一语言句子、第二特征向量和第二语言句子中的至少一个对应的候选句子。例如，自动翻译设备在存储在数据库中的多个信息元素中搜索与第一特征向量、第一语言句子、第二特征向量和第二语言句子中的至少一个相似的信息元素。自动翻译设备在数据库中获取与找到的信息元素对应的候选语句。在操作1620中，自动翻译设备将在操作1610中获取的至少一个候选句子添加到候选句子列表。在操作1630中，自动翻译设备将第二语言句子添加到候选句子列表。仅作为一个示例，第二语言句子可以是图15的操作1530的翻译的第二语言句子。

图17示出选择最终翻译的第二语言句子的方法的另一示例。参照图17，在操作1710中，自动翻译设备基于第二特征向量来计算在候选句子列表中包括的候选句子的分数。仅作为一个示例，候选句子列表可以是用于图16的操作的相同候选句子列表。在操作1720中，自动翻译设备从候选句子列表的候选句子中选择具有最高分数的候选句子，作为最终翻译第二语言句子。

图18示出机器翻译方法的示例。可由图1至图10以及图19A至图19B的自动翻译设备中的任意自动翻译设备来实现图18的操作，然而实施例不限于此。参照图18，在操作1810中，机器翻译设备对第一语言句子进行编码并生成特征向量。机器翻译设备可对应于执行语音识别和语言翻译二者或者仅进行或选择性地执行语言翻译(仅作为示例)的图1至图2、图4至图10和图19A至图19B的自动翻译设备中的任意自动翻译设备。在一个示例中，机器翻译设备可对应于图3的机器翻译设备300，注意，实施例不限于此。在操作1820中，机器翻译设备对特征向量进行解码并生成第二语言句子。在操作1830中，机器翻译设备基于第一语言句子、特征向量和用于第一语言句子的翻译的第二语言句子中的至少一个，来生成候选第二翻译句子的候选句子列表。在操作1840中，机器翻译设备从候选句子列表选择最终第二语言句子作为第一语言句子的最终翻译。

机器翻译设备将特征向量存储在数据库中。此外，机器翻译设备将第二语言句子和与特征向量匹配/对应的最终第二语言句子中的一个或二者存储在数据库中。

这里，虽然已经讨论了针对将第一语言的信息翻译成第二语言的句子或短语的翻译处理，但是实施例不限于此。在一个或多个示例中，自动翻译设备或机器翻译设备中示出的翻译器可以代表多个翻译器，每个翻译器被配置为如所讨论的那样将句子信息从第一语言或另一语言翻译成第二语言或其他语言(例如，除了上述英语的第二语言示例之外的语言)。还可选择性地和/或同时地执行多个不同的翻译处理。另外，不同的翻译处理可进一步被自动地或选择性地执行为底层装置的自动后台进程，以在/如果用户期望或者装置的底层交互代理确定用户会需要或期望时，向用户提供这样的翻译操作的结果。

图19A和图19B示出自动翻译设备的示例。图19A和图19B的自动翻译设备可执行上面针对图1至图18描述的操作中的任意一个或任意组合，注意，实施例不限于此。另外，图19A和图19B的自动翻译设备可对应于图1至图4和图6至图8的自动翻译设备中的任意一个或任意组合，注意，实施例不限于此。参照图19A和19B，各个自动翻译设备1900包括存储器1910和处理器1920。自动翻译设备1900还可包括诸如图19A所示的语音识别器1930和/或翻译器1940。可选地，语音识别器1930和/或翻译器1940可作为配置包括在处理器1920中。另外，仅作为一个示例，各个自动翻译设备1900可包括翻译器1940而不包括语音识别器1930，或者可包括语音识别器1930而不包括翻译器1940。在一个示例中，存储器1910、处理器1920、语音识别器1930和翻译器1940通过诸如图19A中所示的总线1950彼此通信。

例如，存储器1910包括用于存储通过总线1950接收的信息的易失性存储器和非易失性存储器。存储器1910包括数据库，该数据库被配置为存储在自动翻译的处理(诸如，在上面针对图1至图18讨论的处理的任意或任意组合)中生成的第一特征向量、第一语言句子、第二特征向量和第二语言句子。存储器1910将与第一特征向量、第一语言句子和第二特征向量匹配的第二语言句子和/或最终第二语言句子存储在数据库中。存储器1910还存储各种类型的数据和程序。在一个实施例中，作为非暂时性计算机可读存储介质，存储器1910可存储例如在由处理器1920执行时使得处理器1920执行关于图1至图18的前述处理的任意或任意组合的指令。可选地，另一存储器可被包括在各个自动翻译设备1900中并且可存储指令，和/或各个自动翻译设备1900的另一处理器可执行存储的指令。

处理器1920可执行参照图1描述的代理133的操作。例如，在一个或多个实施例中，处理器1920将例如由图19B的自动翻译设备1900的用户接口1960表示的麦克风捕获的用户的语音传送到语音识别器1930，并从语音识别器1930接收第一特征向量和第一语言句子。此外，在一个或多个实施例中，处理器1920将第一语言句子传送到翻译器1940，并从翻译器1940接收第二特征向量和第二语言句子。在一个或多个实施例中，处理器1920可以是或可被配置为控制器，所述控制器被配置为控制语音识别器1930和翻译器1940的这样的传送和/或各个操作的性能，来分别生成第一特征向量和第一语言句子，并生成第二特征向量和第二语言句子。另外，在一个或多个实施例中，处理器1920或另一处理器可执行用户的语音的采样，并将得到的采样的音频帧提供给语音识别器1930。

例如，处理器1920可基于当前识别和/或翻译操作的第一特征向量、第一语言句子、第二特征向量和第二语言句子中的任意一个或任意组合，从存储器1910的数据库获取候选句子。处理器1920可将候选语句和第二特征向量传送到翻译器1940的解码器，并且从翻译器1940的解码器接收例如由翻译器1940的解码器所确定或计算的候选句子的分数。处理器1920还可基于分数从候选句子选择最终句子。

在一个示例中，语音识别器1930和翻译器1940独立于处理器1920被实现。在该示例中，使用不同于处理器1920的处理器或计算资源来实现语音识别器1930和翻译器1940，并且可通过相同的处理器或计算资源或通过不同的处理器或计算资源来实现语音识别器1930和翻译器1940。另外，例如，在一个实施例中，语音识别器1930和翻译器1940位于各个自动翻译设备1900的外部或远离各个自动翻译设备1900，并且通过有线或无线网络与各个自动翻译设备1900通信。仅作为示例，图19B中示出的用户接口1960可表示硬件有线和/或无线通信模块以及其他用户接口装置，诸如，键盘、触摸屏、鼠标或触笔。在这样的外部或远程示例中，处理器1920可执行用户的语音(诸如，通过用户接口1960所表示的麦克风捕获的模拟信号)的采样，然后使用硬件通信模块将其传达到一个或多个外部服务器，仅作为一个示例，所述一个或多个外部服务器分别包括语音识别器1930和/或翻译器1940。可通过翻译器1940从候选句子列表确定最终第二语言翻译，例如，翻译器1940可将最终第二语言翻译传送到各个自动翻译设备1900的处理器1920，其可进一步被配置为之后视觉地和/或听觉地向用户输出翻译。例如，用户接口1960可表示可听地输出翻译的语音合成器和扬声器，和/或显示器1970可在显示器1970的屏幕上，通过文本可视地显示翻译。

在一个示例中，通过处理器1920和存储器1910(诸如，通过识别和翻译建模)来实现语音识别器1930和翻译器1940。例如，在语音识别器1930中包括的一个或多个神经网络(包括各个神经网络被包括在语音识别器1930的编码器和解码器中的示例)，和/或在翻译器1940中包括的一个或多个神经网络(包括各个神经网络被包括在翻译器1940的编码器和解码器中的示例)可被存储在存储器1910中。在一个示例中，仅作为示例，每个神经网络可以以可执行对象文件或执行文件的形式被存储在存储器1910中。另外，每个神经网络的参数还可被存储在存储器1910中。在这样的示例中，处理器1920从存储器1910加载神经网络，并且应用针对每个神经网络的参数，从而实现语音识别器1930的识别和翻译器1940的翻译。在另一示例中，处理器1920从存储器1910加载神经网络，并且应用针对每个神经网络的参数，从而实现语音识别器1930的编码器和解码器以及翻译器1940的编码器和解码器。

在另一示例中，处理器1920可对第一语言的采样的语音信号的帧进行编码，并且生成针对第一语言的第一特征向量。然后，处理器1920可对第一特征向量进行解码并且生成第一语言的第一语言句子。处理器1920可针对第二语言对第一语言句子进行编码，并且生成针对第二语言的第二特征向量。然后，处理器1920可对第二语言向量进行解码并且生成第二语言的第二语言句子。处理器1920可从例如由处理器1920基于第一特征向量、第一语言句子、第二特征向量和第二语言中的任意一个或任意组合生成的候选句子列表，选择最终第二语言句子。在语音识别处理中生成的参考输出或结果以及在机器翻译处理中生成的参考输出或结果可被传送到存储器1910。另外，虽然实施例可讨论任意的这样的输出或生成的结果可在处理器1920、语音识别器1930和/或翻译器1940之间传送，但是实施例还包括各个处理器1920、语音识别器1930和/或翻译器1940将它们各自的输出或结果存储到本地高速缓存器、存储器1910或任意其他存储器，以便可用于通过处理器1920、语音识别器1930和/或翻译器1940中的任意一个从这样的本地高速缓器、存储器1910或其他存储器获取或请求。

通过硬件组件来实现执行本申请中描述的操作的图1至图4、图6至图7和图19A至图19B中的代理133、翻译器136、自动翻译设备130、自动翻译设备200、语音识别器210、编码器211、解码器213、翻译器230、编码器231、解码器233、数据库250、重新评分模型215、重新评分模型235、神经网络212、神经网络214、神经网络232、神经网络234、机器翻译设备300、翻译器310、数据库330、神经网络610、神经网络710、自动翻译设备1900、存储器1910、处理器1920、语音识别器1930、翻译器1940、总线1950、用户接口1960和显示器1970，其中，硬件组件被配置为执行本申请中描述的由硬件组件执行的操作。可被用于在适当的情况下执行本申请中描述的操作的硬件组件的示例包括：控制器、传感器、生成器、驱动器、存储器、比较器、算术逻辑单元、加法器、减法器、乘法器、除法器、积分器以及被配置为执行本申请中描述的操作的任意其他电子组件。在其他示例中，执行本申请中描述的操作的硬件组件中的一个或多个硬件组件通过计算硬件(例如，通过一个或多个处理器或计算机)来实现。可通过一个或多个处理元件(诸如，逻辑门阵列、控制器和算术逻辑单元、数字信号处理器、微型计算机、可编程逻辑控制器、现场可编程门阵列、可编程逻辑阵列、微处理器)或被配置为以限定的方式响应并执行指令以实现期望的结果的任意其他装置或装置的组合来实现处理器或计算机。在一个示例中，处理器或计算机包括存储由处理器或计算机执行的指令或软件的一个或多个存储器，或者连接到存储由处理器或计算机执行的指令或软件的一个或多个存储器。通过处理器或计算机实现的硬件组件可执行指令或软件(诸如，操作系统(OS)和在OS上运行的一个或多个软件应用)，以执行本申请中描述的操作。硬件组件还可响应于指令或软件的执行来访问、操控、处理、创建并且存储数据。为了简单起见，单数术语“处理器”或“计算机”可用于本申请中所述的示例的描述，但是在其他的示例中，多个处理器或计算机可被使用，或者一个处理器或计算机可包括多个处理元件或多种类型的处理元件，或应用以上二者。例如，单个硬件组件或者两个或更多个硬件组件可通过单个处理器，或者两个或更多个处理器，或者一个处理器和一个控制器来实现。一个或多个硬件组件可通过一个或多个处理器，或者一个处理器和一个控制器来实现，一个或多个其他硬件组件可通过一个或多个其他处理器，或者另一个处理器和另一个控制器来实现。一个或多个处理器或者一个处理器和一个控制器可实现单个硬件组件或者两个或更多个硬件组件。硬件组件可具有任意一个或多个不同的处理配置，其示例包括：单个处理器、独立处理器、并行处理器、单指令单数据(SISD)多处理、单指令多数据(SIMD)多处理、多指令单数据(MISD)多处理以及多指令多数据(MIMD)多处理。

在一个或多个实施例中，图1至图18所示的执行本申请中描述的操作的方法和处理通过计算硬件(例如，通过一个或多个处理器或计算机)来执行，一个或多个处理器或计算机如上所述地被实现为执行指令或软件，以执行本申请中描述的通过该方法执行的操作。例如，单个操作或者两个或更多个操作可通过单个处理器或者两个或更多个处理器或者一个处理器和一个控制器来执行。一个或多个操作可通过一个或多个处理器或者一个处理器和一个控制器来执行，并且一个或多个其他操作可通过一个或多个其他处理器或者另一个处理器和另一个控制器来执行。一个或多个处理器或者一个处理器和一个控制器可执行单个操作或者两个或更多个操作。

用于控制计算硬件(例如，一个或多个处理器或计算机)实现硬件组件并执行如上所述的方法的指令或软件可被编写为计算机程序、代码段、指令或它们的任意组合，以单独地或共同地指示或配置一个或多个处理器或者计算机如机器或专用计算机那样进行操作，以执行由硬件组件执行的操作和如上所述的方法。在一个示例中，指令或软件包括由一个或多个处理器或者计算机直接执行的机器代码(诸如，由编译器生成的机器代码)。在另一个示例中，指令或软件包括由一个或多个处理器或者计算机使用翻译器执行的高级代码。可基于附图中所示的框图和流程图以及说明书(其公开了用于执行由硬件组件执行的操作和如上所述的方法的算法)中的相应描述，使用任意编程语言来编写指令或软件。

用于控制计算硬件(例如，一个或多个处理器或者计算机)实现硬件组件并且执行如上所述的方法的指令或软件以及任意关联的数据、数据文件和数据结构可被记录、存储或固定在一个或多个非暂时性计算机可读存储介质中，或者可被记录、存储或固定在一个或多个非暂时性计算机可读存储介质上。非暂时性计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取存储器(RAM)、闪存、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，其中，该任何其他装置被配置为：以非暂时性方式存储指令或软件以及任何关联的数据、数据文件和数据结构，并且向一个或多个处理器或者计算机提供指令或软件以及任何关联的数据、数据文件和数据结构，使得一个或多个处理器或者计算机能够执行指令。在一个示例中，指令或软件以及任何关联的数据、数据文件和数据结构分布于联网的计算机系统上，使得指令和软件以及任何关联的数据、数据文件和数据结构通过一个或多个处理器或者计算机以分布的形式被存储、访问和执行。

仅作为非穷举性示例，并且在不同的实施例中，如在此所描述的自动翻译设备可以是移动装置，诸如，蜂窝电话、智能电话、可穿戴智能装置(诸如，戒指、手表、一副眼镜、手链、脚链、腰带、项链、耳环、头带、头盔或嵌入衣服的装置)、便携式个人计算机(PC)(诸如，膝上型计算机、笔记本、小型笔记本、上网本或超移动PC(UMPC)、平板PC(平板))、平板手机、个人数字助理(PDA)、数码相机、便携式游戏机、MP3播放器、便携式/个人多媒体播放器(PMP)、手持电子书、全球定位系统(GPS)导航装置或固定装置(诸如，台式PC、高清晰度电视(HDTV)、DVD播放器、蓝光播放器、机顶盒或家用电器或者被配置为执行无线或网络通信的任何其他移动或固定装置)。例如，在此讨论的这种自动翻译可以以实现视频会议(诸如，与并发视频会议实时地输出和显示字幕)的硬件(诸如，移动装置、电视或PC)实现。根据一个或多个实施例的自动翻译设备或系统可以是车辆、公共交通亭或接口或其他用户接口。在另一示例中，根据一个或多个实施例的移动装置可被配置为自动翻译公告(诸如，在公共交通系统或可听公共警报系统中)。在一个示例中，可穿戴装置是被设计为可直接安装在用户身体上的装置(诸如，一副眼镜或手链)。在另一示例中，可穿戴装置是使用附接装置安装在用户的身体上的任何装置(诸如，使用臂带附接到用户的手臂或使用挂绳悬挂在用户颈部的智能电话或平板)。这些实施例是为了说明的目的，并且不应被翻译为限制自动翻译设备或系统的应用或实施。

虽然本公开包括特定的示例，但是在理解了本申请的公开之后将清楚，在不脱离权利要求和它们的等同物的精神和范围的情况下可在这些示例中进行形式和细节的各种改变。在此描述的示例仅在描述性意义上被考虑，而不是为了限制的目的。每一个示例中的特征或方面的描述被认为可应用于其他示例中的相似特征或方面。如果描述的技术以不同的顺序被执行，和/或如果描述的系统、架构、装置或电路中的组件以不同方式被组合和/或被其他组件或它们的等同物替换或补充，则可实现适当的结果。因此，本公开的范围不是由具体实施方式限定，而是由权利要求和它们的等同物限定，并且在权利要求和它们的等同物的范围内的所有变化将被翻译为包括在本公开内。

Claims

1.一种自动翻译方法，包括：

对第一语言的语音信号进行编码，以生成第一特征向量；

对第一特征向量进行解码，以生成第一语言的第一语言句子；

对第一语言句子进行编码，以生成针对第二语言的第二特征向量；

对第二特征向量进行解码，以生成第二语言的第二语言句子；

基于第一特征向量、第一语言句子、第二特征向量和第二语言句子中的任意一个或任意组合，控制生成候选句子列表；

从候选句子列表选择最终第二语言句子作为语音信号的翻译。

2.根据权利要求1所述的自动翻译方法，其中，生成候选句子列表的步骤包括：从数据库获取被确定为对应于第一特征向量、第一语言句子、第二特征向量和第二语言句子中的任意一个或任意组合的候选句子。

3.根据权利要求2所述的自动翻译方法，其中，获取候选句子的步骤包括：基于一个或多个近似最近邻(NN)算法，从存储在数据库中的多个元素检索被确定为与第一特征向量、第一语言句子、第二特征向量和第二语言句子中的任意一个相似的各个元素。

4.根据权利要求1所述的自动翻译方法，其中，生成候选句子列表的步骤包括以下步骤中的任意一个或任意组合：

从数据库获取与被确定为相似于第一特征向量的第一语言特征向量匹配的第一翻译结果；

从数据库获取与被确定为相似于第一语言句子的先前识别的句子匹配的第二翻译结果；

从数据库获取与被确定为相似于第二特征向量的第二语言特征向量匹配的第三翻译结果；

从数据库获取与被确定为相似于第二语言句子的先前翻译句子匹配的第四翻译结果。

5.根据权利要求4所述的自动翻译方法，其中，生成候选句子列表的步骤包括：

将与第一翻译结果、第二翻译结果、第三翻译结果和第四翻译结果中的任意翻译结果对应的任意先前翻译句子添加到候选句子列表；

将第二语言句子添加到候选句子列表。

6.根据权利要求4所述的自动翻译方法，其中，获取第二翻译结果的步骤包括：

将第一语言句子转换成向量；

基于所述向量，从数据库确定多个先前识别的句子中的哪些与第一语言句子相似。

7.根据权利要求4所述的自动翻译方法，其中，获取第四翻译结果的步骤包括：

将第二语言句子转换成向量；

基于所述向量，从数据库确定多个先前翻译句子中的哪些与第二语言句子相似。

8.根据权利要求1所述的方法，其中，选择最终第二语言句子的步骤包括：

基于第二特征向量，计算在候选句子列表中包括的候选句子的分数；

从候选句子列表选择具有最高的计算的分数的候选句子，作为最终第二语言句子。

9.根据权利要求1所述的自动翻译方法，其中，生成第一特征向量的步骤包括：

基于预定的帧长度，对第一语言的语音信号进行采样；

生成与帧对应的各个输入向量；

将各个输入向量顺序地输入到用于语音识别的编码器；

将第一特征向量确定为针对顺序地输入的各个输入向量从所述编码器的输出。

10.根据权利要求1所述的自动翻译方法，其中，生成第一语言句子的步骤包括：

将第一特征向量输入到用于语音识别的解码器；

基于从所述解码器顺序地输出的子词的概率，生成预定数量的句子序列；

在所述预定数量的句子序列中，选择具有最高分数的句子序列作为第一语言句子。

11.根据权利要求1所述的自动翻译方法，其中，生成第二特征向量的步骤包括：

将第一语言句子划分为多个子词；

将分别指示所述多个子词的输入向量顺序地输入到用于机器翻译的编码器；

将第二特征向量确定为针对顺序地输入的输入向量从所述编码器的输出。

12.根据权利要求1所述的自动翻译方法，其中，生成第二语言句子的步骤包括：

将第二特征向量输入到用于机器翻译的解码器；

在所述预定数量的句子序列中，选择具有最高分数的句子序列作为第二语言句子。

13.根据权利要求1所述的自动翻译方法，还包括：

将第一特征向量、第一语言句子和第二特征向量存储在数据库中；

将与第一特征向量、第一语言句子和第二特征向量对应的第二语言句子和最终第二语言句子中的任意一个或任意组合存储在数据库中。

14.一种存储在由处理器执行时使得处理器执行权利要求1的方法的指令的非暂时性计算机可读存储介质。

15.一种自动翻译方法，包括：

对第一语言的第一语言句子进行编码，以生成针对第二语言的特征向量；

对所述特征向量进行解码，以生成第二语言的第二语言句子；

基于所述特征向量和第二语言句子中的任意一个或任意组合，控制生成候选句子列表；

从候选句子列表选择最终第二语言句子。

16.根据权利要求15所述的自动翻译方法，还包括：

对第一语言的语音信号进行编码，以生成第一特征向量；

对第一特征向量进行解码，以生成第一语言句子。

17.根据权利要求15所述的自动翻译方法，其中，生成候选句子列表的步骤包括以下步骤中的任意一个或任意组合：

从数据库获取与被确定为相似于所述特征向量的第二语言特征向量匹配的第一翻译结果；

从数据库获取与被确定为相似于第二语言句子的句子匹配的第二翻译结果。

18.根据权利要求17所述的自动翻译方法，其中，生成候选句子列表的步骤还包括：

将与第一翻译结果和第二翻译结果中的任意翻译结果对应的任意先前翻译句子添加到候选句子列表；

将第二语言句子添加到候选句子列表。

19.根据权利要求15所述的自动翻译方法，其中，选择最终第二语言句子的步骤包括：

基于所述特征向量，计算在候选句子列表中包括的候选句子的分数；

20.根据权利要求15所述的自动翻译方法，其中，生成所述特征向量的步骤包括：

将第一语言句子划分为多个子词；

将所述特征向量确定为针对顺序地输入的输入向量从所述编码器的输出。

21.根据权利要求15所述的自动翻译方法，其中，生成第二语言句子的步骤包括：

将所述特征向量输入到用于机器翻译的解码器；

在所述预定数量的句子序列中，选择具有最高分数的句子序列，作为第二语言句子。

22.根据权利要求15所述的自动翻译方法，还包括：

在第一语言句子被存储在数据库中的情况下，将所述特征向量存储在数据库中；

将与第一语言句子和所述特征向量对应的第二语言句子和最终第二语言句子中的任意一个或任意组合存储在数据库中。

23.一种自动翻译设备，包括：

语音识别器，被配置为通过对第一特征向量进行解码来生成第一语言句子，并被配置为通过对第一语言的语音信号进行识别编码来生成针对第一语言的第一特征向量；

翻译器，被配置为通过对第二特征向量进行解码来生成第二语言的第二语言句子，并被配置为通过对第一语言的第一语言句子进行翻译编码来生成针对第二语言的第二特征向量；

处理器，被配置为：从基于第一特征向量、第一语言句子、第二特征向量和第二语言句子中的任意一个或任意组合生成的候选句子列表，选择最终第二语言句子作为语音信号的翻译。

24.根据权利要求23所述的自动翻译设备，

其中，语音识别器包括：识别解码器，被配置为执行第一特征向量的解码以生成第一语言句子；以及识别编码器，被配置为执行语音信号的识别编码以生成第一特征向量，

其中，翻译器包括：翻译解码器，被配置为执行第二特征向量的解码以生成第二语言句子；以及翻译编码器，被配置为执行第一语言句子的翻译编码以生成第二特征向量。

25.根据权利要求24所述的自动翻译设备，

其中，处理器还被配置为包括识别编码器、识别解码器、翻译编码器和翻译解码器，

其中，识别编码器实现所述自动翻译设备的一个或多个神经网络中的被配置为基于语音信号确定第一特征向量的神经网络；识别解码器实现所述自动翻译设备的所述一个或多个神经网络中的被配置为基于第一特征向量确定第一语言句子的神经网络；翻译编码器实现所述自动翻译设备的所述一个或多个神经网络中的被配置为基于第一语言句子确定第二特征向量的神经网络；翻译解码器实现所述自动翻译设备的所述一个或多个神经网络中的被配置为基于第二特征向量确定第二语言句子的神经网络。

26.根据权利要求23所述的自动翻译设备，还包括：

存储器，包括数据库，

其中，处理器被配置为：从数据库获取被确定为对应于第一特征向量、第一语言句子、第二特征向量和第二语言句子中的任意一个或任意组合的候选句子。

27.根据权利要求26所述的自动翻译设备，其中，处理器被配置为：基于一个或多个近似最邻近(NN)算法，从存储在数据库中的多个元素检索被确定与第一特征向量、第一语言句子、第二特征向量和第二语言句子中的任意一个相似的各个元素。

28.根据权利要求23所述的自动翻译设备，其中，处理器被配置为从数据库获取以下项中的任意一个或任意组合：与被确定为相似于第一特征向量的第一语言特征向量匹配的第一翻译结果、与被确定为相似于第一语言句子的先前识别的句子匹配的第二翻译结果、与被确定为相似于第二特征向量的第二语言特征向量匹配的第三翻译结果、以及与被确定为相似于第二语言句子的先前翻译句子匹配的第四翻译结果。

29.根据权利要求28所述的自动翻译设备，其中，处理器被配置为：将与第一翻译结果、第二翻译结果、第三翻译结果和第四翻译结果中的任意翻译结果对应的任意先前翻译句子添加到候选句子列表，并且将第二语言句子添加到候选句子列表。

30.根据权利要求28所述的自动翻译设备，其中，处理器被配置为：将第一语言句子转换成向量，并且基于所述向量从数据库确定多个先前识别的句子中的哪些与第一语言句子相似。

31.根据权利要求28所述的自动翻译设备，其中，处理器被配置为：将第二语言句子转换成向量，并且基于所述向量从数据库确定多个先前翻译句子中的哪些与第二语言句子相似。

32.根据权利要求23所述的自动翻译设备，其中，翻译器被配置为：基于第二特征向量，计算在候选句子列表中包括的候选句子的分数，

处理器被配置为：从候选句子列表选择具有最高的计算的分数的候选句子，作为最终第二语言句子。

33.根据权利要求23所述的自动翻译设备，其中，处理器被配置为：基于预定的帧长度对第一语言的语音信号进行采样，生成与帧对应的各个输入向量，将各个输入向量顺序地输入到用于语音识别的编码器，并且将第一特征向量确定为针对顺序地输入的各个输入向量从所述编码器的输出。

34.根据权利要求23所述的自动翻译设备，其中，处理器被配置为：将第一特征向量输入到用于语音识别的解码器，基于从所述解码器顺序地输出的子词的概率生成预定数量的句子序列，并且在所述预定数量的句子序列中选择具有最高分数的句子序列作为第一语言句子。

35.根据权利要求23所述的自动翻译设备，其中，处理器被配置为：将第一语言句子划分为多个子词，将分别指示所述多个子词的输入向量顺序地输入到用于机器翻译的编码器，并且将第二特征向量确定为针对顺序地输入的输入向量从所述编码器的输出。

36.根据权利要求23所述的自动翻译设备，其中，处理器被配置为：将第二特征向量输入到用于机器翻译的解码器，基于从所述解码器顺序地输出的子词的概率生成预定数量的句子序列，并且在所述预定数量的句子序列中选择具有最高分数的句子序列作为第二语言句子。

37.根据权利要求23所述的自动翻译设备，其中，处理器被配置为：将第一特征向量、第一语言句子和第二特征向量存储在数据库中，并将与第一特征向量、第一语言句子和第二特征向量对应的第二语言句子和最终第二语言句子中的任意一个或任意组合存储在数据库中。

38.一种自动翻译系统，包括：

翻译器，被配置为通过对特征向量进行解码来生成第二语言的第二语言句子，并且被配置为通过对第一语言的第一语言句子进行翻译编码来生成针对第二语言的所述特征向量；

处理器，被配置为：从基于所述特征向量和第二语言句子中的任意一个或任意组合生成的候选句子列表，选择最终第二语言句子作为第一语言句子的翻译。

39.根据权利要求38所述的自动翻译系统，还包括：语音识别器，被配置为通过对第一特征向量进行解码来生成第一语言句子，其中，通过对第一语言的语音信号进行识别编码而生成第一特征向量。

40.根据权利要求38所述的自动翻译系统，还包括：

存储器，包括数据库，

其中，处理器被配置为从数据库获取以下项中的任意一个或任意组合：与被确定为相似于所述特征向量的第二语言特征向量匹配的第一翻译结果以及与被确定为相似于第二语言句子的句子匹配的第二翻译结果。

41.根据权利要求40所述的自动翻译系统，其中，处理器被配置为：将与第一翻译结果和第二翻译结果中的任意翻译结果对应的任意先前翻译句子添加到候选句子列表，并且将第二语言句子添加到候选句子列表。

42.根据权利要求38所述的自动翻译系统，其中，翻译器被配置为：基于所述特征向量，计算在候选句子列表中包括的候选句子的分数，

处理器被配置为：从候选句子列表选择具有最高的计算的分数的候选句子作为最终第二语言句子。

43.根据权利要求38所述的自动翻译系统，其中，处理器被配置为：将第一语言句子划分为多个子词，将分别指示所述多个子词的输入向量顺序地输入到用于机器翻译的编码器，并且将所述特征向量确定为针对顺序地输入的输入向量从所述编码器的输出。

44.根据权利要求38所述的自动翻译系统，其中，处理器被配置为：将所述特征向量输入到用于机器翻译的解码器，基于从所述解码器顺序地输出的子词的概率生成预定数量的句子序列，并且在所述预定数量的句子序列中选择具有最高分数的句子序列作为第二语言句子。

45.根据权利要求38所述的自动翻译系统，其中，处理器被配置为：将所述特征向量存储在数据库中，将第一语言句子一起存储在数据库中，并且将与第一语言句子和所述特征向量对应的第二语言句子和最终第二语言句子中的任意一个或任意组合存储在数据库中。

46.一种自动翻译系统，包括：

一个或多个处理器，被配置为：执行输入语音信号的语音识别，执行语音识别的识别结果的初始翻译，并将初始翻译的结果与选择先前翻译的先前结果进行比较，以确定输入语音信号的最终翻译，

其中，所述比较包括：将在语音识别中得到的信息和在初始翻译中得到的信息中的一个或多个的信息与存储在数据库中的一个或多个先前句子翻译结果的信息进行比较，以从信息记录在数据库中的多个先前翻译，标识所述选择先前翻译。

47.根据权利要求46所述的自动翻译系统，其中，所述比较包括：将语音识别中得到的第一特征向量、语音识别中得到的第一语言句子、初始翻译中得到的第二特征向量和初始翻译中得到的第二语言句子中的一个或多个的信息与存储在数据库中的信息进行比较，以标识所述选择先前翻译。

48.根据权利要求46所述的自动翻译系统，其中，所述一个或多个处理器被包括在同一移动装置中。