CN111563391A

CN111563391A - 机器翻译方法、装置及电子设备

Info

Publication number: CN111563391A
Application number: CN202010353250.9A
Authority: CN
Inventors: 陈杰; 倪煜
Original assignee: Beijing Kingsoft Cloud Network Technology Co Ltd
Current assignee: Beijing Kingsoft Cloud Network Technology Co Ltd
Priority date: 2020-04-28
Filing date: 2020-04-28
Publication date: 2020-08-21

Abstract

本公开实施例提供了一种机器翻译方法、装置及电子设备，涉及云计算神经网络技术领域，该方法包括：获取待翻译信息，该待翻译信息为第一语言的信息，并将待翻译信息编码为第一向量，再将第一向量基于二分类方法在预先确定第二语言的树形结构中进行预测，得到第二语言的预测结果，其中树形结构包括多个第二语言的词。通过二分类的方法确定预测结果，能够降低词汇量，缩短机器翻译的时间，提升机器翻译的效率。

Description

机器翻译方法、装置及电子设备

技术领域

本发明涉及云计算神经网络技术领域，尤其是涉及一种机器翻译方法、装置及电子设备。

背景技术

Transformer(机器翻译结构)于2017年在论文“Attention is all you need”中被首次提出，在机器翻译任务上的表现超过了循环神经网络(Recurrent Neural Network，RNN)和卷积神经网络(Convolutional Neural Networks，CNN)，对解决传统基于RNN或者CNN序列模型的无法并行化训练及长时依赖问题有着重大意义。Transformer机器翻译网络是一种基于编码-解码(Encoder-Decoder)结构的模型，由编码组件、解码组件和它们之间的连接组成。编码组件部分由一堆编码器(encoder)构成，解码组件部分也是由相同数量(与编码器对应)的解码器(decoder)组成的。

在现有的技术方案中，通常机器翻译网络在最后一层采用传统的Softmax(逻辑回归模型)获取概率输出，当处理类似中文这种语言结构的时候，由于存在特别多的词，会增加预测时间，降低整个机器翻译的效率。

发明内容

有鉴于此，本发明的目的在于提供一种机器翻译方法、装置及电子设备，以缓解现有技术中机器翻译网络处理数量较多的词时，训练时间较长的问题。

为了实现上述目的，本发明实施例采用的技术方案如下：

第一方面，本发明实施例提供了一种机器翻译方法，该方法包括：获取待翻译信息，待翻译信息为第一语言的信息；将待翻译信息编码为第一向量；将第一向量基于二分类方法在预先确定第二语言的树形结构中进行预测，得到第二语言的预测结果，树形结构包括多个第二语言的词。

在一些可能的实施方式中，在获取待翻译信息的步骤之前，该方法还包括：获取第二语言的语料库；对语料库进行预处理得到第二语言的词典；基于第二语言的词典构造树形结构。

在一些可能的实施方式中，树形结构为哈夫曼树。

在一些可能的实施方式中，哈夫曼树包括根节点和若干个叶子节点；每个叶子节点对应词典中的一个词；当叶子节点的数量大于2时，哈夫曼树还包括至少一个非叶子节点，非叶子节点对应分类参数，分类参数用于确定第一向量的流向。

在一些可能的实施方式中，将待翻译信息编码为第一向量的步骤，包括：通过预先训练的编码子网络，将待翻译信息编码为第一向量；其中，编码子网络与树形结构构成机器翻译网络，通过对机器翻译网络进行训练以实现对编码子网络进行训练。

在一些可能的实施方式中，编码子网络包括若干个编码器和若干个解码器；若干个编码器依次连接，最后一个编码器的输出连接每一个解码器的输入；若干个解码器依次连接，最后一个解码器的输出连接树形结构。

第二方面，本发明实施例提供了一种机器翻译装置，该装置包括：获取模块，用于获取待翻译信息，待翻译信息为第一语言的信息；编码模块，用于将待翻译信息编码为第一向量；预测模块，用于将第一向量基于二分类方法在预先确定第二语言的树形结构中进行预测，得到第二语言的预测结果，树形结构包括多个第二语言的词。

在一些可能的实施方式中，该装置还包括构造模块，用于：获取第二语言的语料库；对语料库进行预处理得到第二语言的词典；基于第二语言的词典构造树形结构。

在一些可能的实施方式中，该树形结构为哈夫曼树。

在一些可能的实施方式中，编码模块具体用于：通过预先训练的编码子网络，将待翻译信息编码为第一向量；其中，编码子网络与树形结构构成机器翻译网络，通过对机器翻译网络进行训练以实现对编码子网络进行训练。

第三方面，本发明实施例提供了一种电子设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面及其任一项可能的实施方式中所述的方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储有机器可运行指令，该计算机可运行指令在被处理器调用和运行时，所述计算机可运行指令促使所述处理器运行上述第一方面及其任一项可能的实现方式中所述的方法。

本申请实施例带来了以下有益效果：

本申请实施例提供的一种机器翻译方法、装置及电子设备，该方法包括：获取待翻译信息，该待翻译信息为第一语言的信息，并将待翻译信息编码为第一向量，再将第一向量基于二分类方法在预先确定第二语言的树形结构中进行预测，得到第二语言的预测结果，其中树形结构包括多个第二语言的词。通过该方法可以基于二分类方法获得待翻译信息的预测结果，能够降低词汇量，从而缩短机器翻译的预测时间，提升机器翻译的效率。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种机器翻译网络结构图；

图2为本发明实施例提供的一种机器翻译方法流程示意图；

图3为本发明实施例提供的一种机器翻译网络的训练方法流程示意图；

图4为本发明实施例提供的一种机器翻译装置结构示意图；

图5为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例中所提到的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括其他没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

机器翻译网络是一种基于编码-解码(Encoder-Decoder)结构的模型，由编码组件、解码组件和它们之间的连接组成。编码组件部分由一堆编码器(encoder)构成，解码组件部分也是由相同数量(与编码器对应)的解码器(decoder)组成的。每个编码器和解码器都可以包括多个子层。

例如，参见图1，Transformer有以下几个重要特点：(1)整个结构采用自注意力Self-Attention机制；(2)为了增加特征空间，采用多头Multi-Head注意力机制；(3)由于Attention机制没有词的位置信息，所以加入了位置编码Positional Encoding；(4)同时Transformer结构中加入了残差Residual结构和LayerNormal；(5)采用的还是Encoder-Decoder架构；(6)Decoder中的最后通过Softmax获取概率输出。

机器翻译网络通常在最后一层采用全连接输出层Softmax获取概率输出，当处理类似中文这种语言结构的时候，由于存在特别多的词，不但会增加网络的训练时间，还会降低整个机器翻译网络的预测效率。

有基于此，本申请实施例提供了一种机器翻译方法、装置及电子设备，在该方法中，机器翻译网络通常在最后一层采用二分类的方式，可以降低词汇量，以此解决机器翻译训练时间长、预测效率低的问题。

下面结合附图对本发明实施例进行进一步地介绍。

图2为本申请实施例提供的一种机器翻译方法流程示意图。如图2所示，该方法包括以下步骤S210至S230：

S210，获取待翻译信息，该待翻译信息为第一语言的信息；

其中，上述待翻译信息可以是文本信息，文本信息可以通过语言或文字获取，例如，自然场景中的语音、网页上的文字、聊天软件中的语音或文字等等。

该第一语言可以是待翻译信息的语言类型，例如，汉语、英语、日语等。作为一个示例，将某网站上获取的英语单词翻译为汉语，则该英语单词为待翻译信息，英语为第一语言。

S220，将待翻译信息编码为第一向量；

其中，编码是指将待翻译信息的形式进行转换，通常待翻译信息一般是从自然语言中获取的文本信息，需要将其转换至计算机能看懂的语言，例如向量等。

S230，将第一向量基于二分类方法在预先确定第二语言的树形结构中进行预测，得到第二语言的预测结果，其中，树形结构包括多个第二语言的词。

其中，上述第二语言可以是待翻译信息的目标语言类型，例如，汉语、英语、日语等。作为一个示例，将某英语单词翻译为汉语，则该英语单词为待翻译信息，汉语为待翻译信息的目标语言类型，即第二语言。

在一些实施例中，上述步骤S220包括：通过预先训练的编码子网络，将待翻译信息编码为第一向量；其中，编码子网络与树形结构构成机器翻译网络，通过对机器翻译网络进行训练以实现对编码子网络进行训练。

其中，该编码子网络可以由指定数量个编码器组成，也可以由指定数量个编码器和相同数量个解码器共同组成，用于对输入该网络的待翻译信息进行编码或解码。

作为一个示例，该编码子网络可以只包含双向编码器结构(BidirectionalEncoder Representation from Transformers)，也可以既包含编码器也包含解码器。例如，该编码子网络可以包括若干个编码器和若干个解码器；若干个编码器依次连接，最后一个编码器的输出连接每一个解码器的输入；若干个解码器依次连接，最后一个解码器的输出连接树形结构。

其中，该编码器可以包括自注意力(self-attention)层和前馈(feed-forward)层两个子层，用于对输入的语句进行编码，每一个子层之间都可以进行残差连接。具体的，自注意力层可以用于在编码语句中的某个特定单词时查看语句中的其他单词，以获得更精确的编码信息，例如Multi-head attention，前馈层可以是简单的全连接网络，在两个子层中可以使用一个残差连接。输入语句依次经过自注意力层和前馈层完成编码，输出编码向量。

该解码器可以包括自注意力(self-attention)层、解码-编码注意力(Encoder-Decoder Attention)层和前馈(feed-forward)层，用于对编码器输出的语句进行解码，并输出给分类子层，在相连的两个子层中可以使用一个残差连接。从编码器输出的编码向量依次经过解码器的自注意力层、解码-编码注意力层和前馈层完成解码，输出解码向量。

其中，每一个子层之间都可以进行残差连接。例如，编码子网络由6个编码器和6个解码器组成，每一个编码器包括自注意力层和前馈神经网络两个子层，每一个解码器包括自注意力层、编码解码注意力层和前馈神经网络三个子层；每一个编码器之间依次连接，首先使用嵌入算法将输入的待翻译信息的单词转换为向量，作为第一个编码器的输入，输入向量在每一个编码器内部依次经过自注意力层和前馈神经网络层，并进行位置编码，在最后一个编码器输出编码向量；每一个解码器之间也依次连接，并且分别接收编码器的编码向量，编码向量经过每一个解码器的三个子层，并结合位置编码在最后一个解码器输出解码向量，最后将解码向量输入树形结构。

进一步的，编码子网络可以包括多个编码器和多解码器，多个编码器和解码器分别依次相连，并且编码器的总输出连接解码器的总输入。待翻译信息输入编码器后，经过编码子网络从最后一个解码器输出，转换为第一向量。

例如，编码子网络由6个编码器和6个解码器组成，每一个编码器之间依次连接，首先使用嵌入算法将输入的待翻译信息的单词转换为向量，作为第一个编码器的输入，输入向量在每一个编码器内部依次经过自注意力层和前馈神经网络层，并进行位置编码，在最后一个编码器输出编码向量；每一个解码器之间也依次连接，并且分别接收编码器的编码向量，编码向量经过每一个解码器的三个子层，并结合位置编码在最后一个解码器输出预测输出向量(可以记为X’)。

树形结构可以作为分类子网络，用于对编码子网络输出的预测输出向量进行计算。树形结构可以是二叉树，例如哈夫曼树(Huffman Tree)，被称为最优二叉树，是一种带权路径长度最短的二叉树，属于一种层次Hierarchical Softmax的结构。

在一些实施方式中，哈夫曼树包括根节点和若干个叶子节点；每个叶子节点对应词典中的一个词；当叶子节点的数量大于2时，哈夫曼树还包括至少一个非叶子节点，非叶子节点对应分类参数，分类参数用于确定第一向量的流向。

作为一个示例，Huffman树中的每个叶子节点对应词典中的一个词，每个非叶子节点表示分类参数(可以记为θ)，分类参数θ的初始值通过随机产生，用于确定第一向量的流向。

通过公式(1-1)对作为预测输出向量的第一向量进行计算：

其中，X’为预测输出向量，θ为网络参数。

直到到达叶子节点，则该叶子节点对应的词典中的词即为整个机器翻译网络的预测结果。

编码子网络和树形结构构成机器翻译网络，机器翻译网络可以是根据基于自注意力机制的Transformer模型构建所得，用于执行翻译任务，例如，向机器翻译网络输入一种语言(英语)，经过该网络会输出另一种语言(中文)。

本申请实施例提供的一种机器翻译方法，通过获取第一语言的待翻译信息，并将待翻译信息编码为第一向量，再将第一向量基于二分类方法在预先确定第二语言的树形结构中进行预测，得到第二语言的预测结果，其中树形结构包括多个第二语言的词。通过该方法获得第二语言的预测结果，能够极大的减少网络预测的时间，从而提升机器翻译的效率。

在一些实施方式中，在获取待翻译信息的步骤之前，还包括图3所示的以下步骤：

S310，获取第二语言的语料库；

S320，对语料库进行预处理得到第二语言的词典；

S330，基于第二语言的词典构造树形结构。

对于上述步骤S310，语料库可以指经过科学取样和加工的大规模电子文本库，可以包括大量真实场景中会出现的语句，语料库可以是基于不同或多种语言种类而建立的。第二语言的语料库则是基于目标语言而建立的一种特定的语料库，通过预处理可以将语料库进行去重、去停用词、分词等处理，获得可以用于训练和预测机器翻译网络的第二语言的词典，该词典包括若干个词，词典中的词可以组成真实场景中会出现的语句。

在一些实施方式中，可以预先对机器翻译网络进行训练，以便得到训练好的机器翻译网络。作为一个示例，该训练的过程可以包括以下步骤：

步骤(1)，对语料库进行预处理，获得词典，该词典包括若干个词；

步骤(2)，基于词典构造哈夫曼树；

步骤(3)，基于哈夫曼树和初始的编码子网络，确定初始的机器翻译网络，哈夫曼树作为机器翻译网络中的树形结构；

步骤(4)，基于训练样本集对初始的机器翻译网络进行训练，得到训练好的机器翻译网络。

在一些实施例中，对于上述步骤(4)可以包括多种实现方式。作为一个示例，该训练样本集包括训练样本和与每个训练样本对应的标签；该步骤(4)可以通过如下步骤实现：

步骤A，通过编码子网络将训练样本转换为训练输出向量；

步骤B，通过树形结构对训练输出向量进行分类，得到训练样本的训练输出结果；

步骤C，基于训练样本对应的训练输出结果和标签确定训练输出结果是否符合预期；其中，可以基于目标函数等方式来确定训练输出结果是否符合预期。

步骤D，如果不符合调整编码子网络和/或树形结构，继续进行训练；其中，可以通过多种方式来调整编码子网络和/或树形结构的参数，例如，梯度下降法等等。

步骤E，如果符合，输出训练好的机器翻译网络。

其中，训练样本集可以是从语料库中获取的若干条语句，这若干条语句可以是已经分好类的，用于对机器翻译网络进行训练。

对于上述步骤A，编码子网络可以包多个编码器和多解码器，多个编码器和解码器分别依次相连，并且编码器的总输出连接解码器的总输入。训练样本集中的语句输入编码器后，经过编码子网络从最后一个解码器输出，转换为训练输出向量(可以记为向量X)。

本实施方式提供的一种机器翻译网络的训练方法，使用层次Softmax结构的哈夫曼树对编码子网络的训练输出向量进行计算，能够极大的缩短机器翻译网络训练的时间。

其中，从编码子网络输出训练输出向量X到树形结构的哈夫曼树叶子节点的过程相当于进行了多次二分类，假设当分类为正样本则流向哈夫曼树的左分支，当分类为负样本则流向哈夫曼树的右分支，该过程用公式(1-2)表示为：

其中，X为训练输出向量，θ为网络参数。

因此，需要通过训练进行优化的项为：

其中，y为叶子节点的Huffman编码。

图4提供了一种机器翻译装置，该装置400包括：

获取模块410，获取待翻译信息，待翻译信息为第一语言的信息；

编码模块420，用于将待翻译信息编码为第一向量；

预测模块430，用于将第一向量基于二分类方法在预先确定第二语言的树形结构中进行预测，得到第二语言的预测结果，树形结构包括多个第二语言的词。

本申请实施例提供的机器翻译装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。本申请实施例提供的机器翻译装置与上述实施例提供的机器翻译方法具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

在一些实施方式中，该装置还包括构造模块，用于：获取第二语言的语料库；对语料库进行预处理得到第二语言的词典；基于第二语言的词典构造树形结构。

在一些实施方式中，树形结构为哈夫曼树。

在一些实施方式中，编码模块具体用于：通过预先训练的编码子网络，将待翻译信息编码为第一向量；其中，编码子网络与树形结构构成机器翻译网络，通过对机器翻译网络进行训练以实现对编码子网络进行训练。

在一些实施方式中，编码子网络包括若干个编码器和若干个解码器；若干个编码器依次连接，最后一个编码器的输出连接每一个解码器的输入；若干个解码器依次连接，最后一个解码器的输出连接树形结构。

图5为本发明实施例提供的一种电子设备的结构示意图，该电子设备500包括：处理器50，存储器51，总线52和通信接口53，所述处理器50、通信接口53和存储器51通过总线52连接；处理器50用于执行存储器51中存储的可执行模块，例如计算机程序。

其中，存储器51可能包含高速随机存取存储器(RAM，RandomAccessMemory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口53(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。

总线52可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器51用于存储程序，所述处理器50在接收到执行指令后，执行所述程序，前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器50中，或者由处理器50实现。

处理器50可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器50中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器50可以是通用处理器，包括中央处理器(CentralProcessingUnit，简称CPU)、网络处理器(NetworkProcessor，简称NP)等；还可以是数字信号处理器(Digital SignalProcessing，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器51，处理器50读取存储器51中的信息，结合其硬件完成上述方法的步骤。

对应于上述机器翻译方法，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有机器可运行指令，所述计算机可运行指令在被处理器调用和运行时，所述计算机可运行指令促使所述处理器运行上述机器翻译方法的步骤。

本申请实施例所提供的机器翻译装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本申请实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，前述描述的系统、装置和单元的具体工作过程，均可以参考上述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述移动控制方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。

Claims

1.一种机器翻译方法，其特征在于，包括：

获取待翻译信息，所述待翻译信息为第一语言的信息；

将所述待翻译信息编码为第一向量；

将所述第一向量基于二分类方法在预先确定第二语言的树形结构中进行预测，得到第二语言的预测结果，所述树形结构包括多个第二语言的词。

2.根据权利要求1所述的方法，其特征在于，在获取待翻译信息的步骤之前，还包括：

获取所述第二语言的语料库；

对所述语料库进行预处理得到所述第二语言的词典；

基于所述第二语言的词典构造所述树形结构。

3.根据权利要求2所述的方法，其特征在于，所述树形结构为哈夫曼树。

4.根据权利要求3所述的方法，其特征在于，所述哈夫曼树包括根节点和若干个叶子节点；每个所述叶子节点对应所述词典中的一个词；

当所述叶子节点的数量大于2时，所述哈夫曼树还包括至少一个非叶子节点，所述非叶子节点对应分类参数，所述分类参数用于确定所述第一向量的流向。

5.根据权利要求1所述的方法，其特征在于，将所述待翻译信息编码为第一向量的步骤，包括：

通过预先训练的编码子网络，将所述待翻译信息编码为第一向量；其中，所述编码子网络与所述树形结构构成机器翻译网络，通过对所述机器翻译网络进行训练以实现对所述编码子网络进行训练。

6.根据权利要求5所述的方法，其特征在于，所述编码子网络包括若干个编码器和若干个解码器；若干个所述编码器依次连接，最后一个所述编码器的输出连接每一个所述解码器的输入；若干个所述解码器依次连接，最后一个所述解码器的输出连接所述树形结构。

7.一种机器翻译装置，其特征在于，包括：

获取模块，用于获取待翻译信息，所述待翻译信息为第一语言的信息；

编码模块，用于将所述待翻译信息编码为第一向量；

预测模块，用于将所述第一向量基于二分类方法在预先确定第二语言的树形结构中进行预测，得到第二语言的预测结果，所述树形结构包括多个第二语言的词。

8.根据权利要求7所述的装置，其特征在于，还包括构造模块，用于：

获取所述第二语言的语料库；

对所述语料库进行预处理得到所述第二语言的词典；

基于所述第二语言的词典构造所述树形结构。

9.根据权利要求8所述的装置，其特征在于，所述树形结构为哈夫曼树。

10.根据权利要求9所述的装置，其特征在于，所述哈夫曼树包括根节点和若干个叶子节点；每个所述叶子节点对应所述词典中的一个词；

11.根据权利要求7所述的装置，其特征在于，所述编码模块具体用于：

12.根据权利要求11所述的装置，其特征在于，所述编码子网络包括若干个编码器和若干个解码器；若干个所述编码器依次连接，最后一个所述编码器的输出连接每一个所述解码器的输入；若干个所述解码器依次连接，最后一个所述解码器的输出连接所述树形结构。

13.一种电子设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至6任一项所述的方法的步骤。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有机器可运行指令，所述计算机可运行指令在被处理器调用和运行时，所述计算机可运行指令促使所述处理器运行所述权利要求1至6任一项所述的方法。