CN105183720B

CN105183720B - 基于rnn模型的机器翻译方法和装置

Info

Publication number: CN105183720B
Application number: CN201510475973.5A
Authority: CN
Inventors: 蓝翔; 胡晓光; 李伟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-08-05
Filing date: 2015-08-05
Publication date: 2019-07-09
Anticipated expiration: 2035-08-05
Also published as: CN105183720A

Abstract

本申请公开了基于RNN模型的机器翻译方法和装置。该方法的一具体实施方式包括：通过接收输入的待翻译语句，待翻译语句由待翻译词组成；确定待翻译词对应的候选词集合，候选词为待翻译词对应的翻译结果，候选词集合基于预先查找出的候选词生成；第一循环神经网络RNN模型基于待翻译词对应的词向量，生成用于表征待翻译语句的语义的高维向量；第二循环神经网络RNN模型基于高维向量以及候选词集合，确定待翻译语句对应的翻译语句。实现了在利用RNN模型进行翻译时，仅通过计算候选词的输出概率从而得到待翻译语句的翻译结果，提升了翻译速度。

Description

基于RNN模型的机器翻译方法和装置

技术领域

本申请涉及计算机领域，具体涉及机器翻译领域，尤其涉及基于RNN模型的机器翻译方法和装置。

背景技术

机器翻译是利用机器对用户输入的待翻译语句进行翻译得到目标语句的技术。机器翻译技术基于以下原理：将源语句到目标语句的翻译视为一个概率问题，任何一个目标语言句子都有可能是任何一个源语言句子的译文，机器翻译的任务为查找出概率最大的目标语句作为源语句的翻译结果。在机器翻译技术中，利用循环神经网络RNN进行翻译是被广泛使用的一种机器翻译技术。然而，在使用循环神经网络RNN对源语句进行翻译时，由于词表的庞大，每次计算均需计算词表中所有词语的输出概率，从而造成翻译效率较低。

发明内容

本申请提供了一种基于RNN模型的机器翻译方法和装置，用于解决上述背景技术部分存在的技术问题。

第一方面，本申请提供了基于RNN模型的机器翻译方法，该方法包括：接收输入的待翻译语句，待翻译语句由待翻译词组成；确定待翻译词对应的候选词集合，候选词为待翻译词对应的翻译结果，候选词集合基于预先查找出的候选词生成；第一循环神经网络RNN模型基于待翻译词对应的词向量，生成用于表征待翻译语句的语义的高维向量；第二循环神经网络RNN模型基于高维向量以及候选词集合，确定待翻译语句对应的翻译语句。

第二方面，本申请提供了基于RNN模型的机器翻译装置，该装置包括：接收单元，配置用于接收输入的待翻译语句，待翻译语句由待翻译词组成；确定单元，配置用于确定待翻译词对应的候选词集合，候选词为待翻译词对应的翻译结果，候选词集合基于预先查找出的候选词生成；生成单元，配置用于第一循环神经网络RNN模型基于待翻译词对应的词向量，生成用于表征待翻译语句的语义的高维向量；翻译单元，配置用于第二循环神经网络RNN模型基于高维向量以及候选词集合，确定待翻译语句对应的翻译语句。

本申请提供的基于RNN模型的机器翻译方法和装置，通过接收输入的待翻译语句，待翻译语句由待翻译词组成；确定待翻译词对应的候选词集合，候选词为待翻译词对应的翻译结果，候选词集合基于预先查找出的候选词生成；第一循环神经网络RNN模型基于待翻译词对应的词向量，生成用于表征待翻译语句的语义的高维向量；第二循环神经网络RNN模型基于高维向量以及候选词集合，确定待翻译语句对应的翻译语句。实现了在利用RNN模型进行翻译时，仅通过计算候选词的输出概率从而得到待翻译语句的翻译结果，提升了翻译速度。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出了适用于本申请的基于RNN模型的机器翻译方法的示例性系统架构；

图2示出了根据本申请的基于RNN模型的机器翻译方法一个实施例的流程图；

图3示出了待翻译词与候选词的对应关系；

图4示出了本申请的基于RNN模型的机器翻译方法的整体流程图；

图5示出了根据本申请的基于RNN模型的机器翻译装置的一个实施例的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

请参考图1，其示出了适用于本申请的基于RNN模型的机器翻译方法的示例性系统架构100。在图1中，示出了输入端RNN(Recurrent Neural Network，循环神经网络)模型101，以及输出端RNN模型102。输入端RNN模型101的输出结果作为输出端RNN模型102的输入。下面以待翻译语句为“how is the weather today？”为例，说明利用输入端RNN模型101以及输出端RNN模型102对待翻译语句进行翻译得到翻译语句的原理：

首先由输入端RNN模型101读取待翻译语句“how is the weather today？”，分别确定待翻译语句中的“how”、“is”、“the”、“weather”、“today”、“？”等词语各自对应的词向量。然后可以基于上述词语各自对应的词向量、输入端RNN模型101的输出层与隐藏层之间的连接矩阵，以及输入端RNN模型101的隐藏层与输出层之间的连接矩阵，得到表征整个待翻译语句语义的高维向量H。在图1中，1.73*10^-5、2.64*10^-4、7.83*10^-5等数值为高维向量中的单元值示例。在整个翻译过程中，可以将输入端RNN模型101基于待翻译词对应的词向量生成高维向量H的过程称之为对待翻译语句的“理解”步骤。在通过输入端RNN模型101得到表征整个待翻译语句的语义的高维向量H之后，可以将高维向量H输入到输出端RNN模型102，然后由输出端RNN模型102基于高维向量H以及在当前预测的词语之前已经输出的词语，逐一计算词库中的词语的输出概率，然后将输出概率最大的词语进行输出。例如，“howis the weather today？”对应的译文为“今天的天气怎么样？”。假如利用输出端RNN模型102已经输出词语为“今天”、“的”，此时需要预测下一个输出词语。输出端RNN模型102会基于表征整个待翻译语句的语义的高维向量H以及当前预测的词语之前已经输出的词语“今天”、“的”，分别计算词表中的每一个词语的输出概率，最后将输出概率最大的词语“天气”输出。在整个翻译过程中，可以将输出端RNN模型102基于整个待翻译语句的语义来预测下一个输出词的过程称之为翻译语句的生成过程。

请参考图2，其示出了根据本申请的基于RNN模型的机器翻译方法的一个实施例的流程200。该方法包括以下步骤：

步骤201，接收输入的待翻译语句，待翻译语句由待翻译词组成。

在本实施例中，在接收到待翻译语句之后，可以首选确定待翻译语句中的待翻译词。例如，当待翻译语句为“howistheweathertoday？”时，则待翻译词包括how、is、the、weather、today、？等词语。可选地，还可以预先可以对待翻译语句进行分词操作、词性标注操作、命名实体识别操作等操作，从而将待翻译语句划分为多个待翻译词。

在本实施例的一些可选地实现方式中，待翻译语句通过以下步骤生成：接收输入的语音信息；将语音信息转化为对应的文字信息；将文字信息作为待翻译语句。在本实施例中，可以首先接收语音信息，然后将语音信息转化为文字信息，将文字信息作为待翻译语句进行翻译，从而实现语音翻译。

步骤202，确定待翻译词对应的候选词集合。

在本实施例中，候选词为待翻译词对应的翻译结果，候选词集合基于预先查找出的候选词生成。可以预先获取历史双语互译信息，然后对历史双语互译信息中，待翻译词与译文的对应次数进行统计，挑选出互译次数大于预设数量阈值的译文作为待翻译词对应的候选词，聚合待翻译词对应的候选词，生成候选词集合。

在本实施例的一些可选地实现方式中，确定待翻译词对应的候选词集合包括：从双语翻译词典中查找出与待翻译词相关联的互译信息，互译信息包括待翻译词以及其对应的至少一个翻译结果；将翻译结果选取为候选词，生成候选词集合。在本实施例中，还可以从翻译作品以及从互联网上获取的双语新闻、双语学习资料中查找出与待翻译词相关联的互译信息。

请参考图3，其示出了待翻译词与候选词的对应关系。在每一个待翻译词对应多个候选词。可以通过双语词典，查找出待翻译词对应的所有翻译结果即候选，然后将候选词进行聚合，生成待翻译词对应的候选词集合。

在本实施例的一些可选地实现方式中，还包括：在确定待翻译词对应的候选词集合之后，去除候选词集合中重复的候选词。在本实施中，在确定待翻译词对应的候选词集合之后，还可以去除候选词集合中重复的候选词，从而进一步减少计算量。

步骤203，第一循环神经网络RNN模型基于待翻译词对应的词向量，生成用于表征待翻译语句的语义的高维向量。

在本实施例中，第一循环神经网络RNN模型(以下简称第一RNN模型)可以相当于图1中的输入端RNN。词向量可以为用于表征待翻译词的向量，其中，每一个待翻译词对应一个词向量。在实施例中，可以利用第一RNN模型基于“How”、“is”、“the”、“weather”、“today”、“？”等待翻译词各自对应的词向量，生成表征整个待翻译语句语义的高维向量。第一RNN模型可以将“How”、“is”、“the”、“weather”、“today”、“？”等待翻译词对应的词向量作为输入即将上述待翻译词对应的词向量，得到表征待翻译语句语义的高维向量H。

步骤204，第二循环神经网络RNN模型基于高维向量以及候选词集合，确定待翻译语句对应的翻译语句。

在本实施例中，第二循环神经网络RNN模型(以下简称第二RNN模型)可以相当于图1中的输出端RNN。可以利用第二RNN模型接收第一RNN模型输出的高维向量H，即将第一RNN模型输出的高维向量H作为第二RNN模型的输入。

在本实施例中，利用第二RNN模型生成翻译语句基于以下原理：对于给定的待翻译语句，绝大多数词语是不可能出现待翻译语句对应的译文中即翻译语句中。以待翻译语句为“how is the weather today？”为例，其对应的译文中不可能出现“鲜花”，“黑洞”，“掩耳盗铃”等这些词语。因此，在本实施例中，对于给定的待翻译语句，通过将输出的词语限定在一个比较小的范围内，即限定在候选词集合中，从而仅计算候选词集合中的候选词的输出概率，同时，将该范围外的词语的输出概率设定为0，不再进行输出概率的计算。相较于现有技术，即在计算输出词语的概率时，需要计算词表中所有词语的输出概率，以中文为例，词语的总量可能达到数几十万个，于是每输出一个词语，需要进行数十万次计算，而本实施例中的在计算词语的输出概率时仅计算候选词集合中的词语的输出概率，从而可以显著降低计算量，提升翻译速度。

下面以待翻译语句“how is the weather today？”为例，说明第二RNN模型对待翻译语句进行翻译，生成其对应的翻译语句“今天的天气怎么样”的过程：假设目前第二RNN模型已经输出了“今天”、“的”这两个词语，准备输出下一个词语。第二RNN模型可以基于已经翻译出的所有词语即“今天”、“的”这两个词语的词向量，并且结合表征整个待翻译语句的高维向量H，分别计算候选词集合中的每一个候选词的输出概率，从候选词集合中查找出输出概率最大的词语即“天气”，从而将“天气”这个词语输出。

在本实施例的一些可选地实现方式中，第二循环神经网络RNN模型基于高维向量以及候选词集合，确定待翻译语句对应的翻译语句包括：基于高维向量以及已翻译词对应的词向量，分别计算候选词集合中的每一个候选词的输出概率，已翻译词为已经作为翻译结果进行输出的候选词；将对应的输出概率最大的候选词进行输出；基于输出的候选词，生成待翻译语句对应的翻译语句。

在本实施例中，第二RNN模型可以利用以下公式计算输出词语的输出概率：Pi＝Ws*Si-1+W*Yi-1+Wh*H；其中，Pi表示当前计算的词语的输出概率；Si-1表示在上一次计算词语的输出概率时得到的隐藏层向量；Yi-1表示上一个输出的词语的词向量；H为表征整个待翻译语义的高维向量。Ws、W、Wh分别为Si-1、Yi-1以及高维向量H对应的参数矩阵。

在本实施例中，Si-1、Yi-1以及高维向量H对应的参数矩阵均可以在预先对第二RNN模型的训练阶段得到。在本实施例中，第二RNN模型输出的词向量可以为One-Hot形式，例如，当词表中有十万个词语时，此时，每一个词语均对应一个唯一的编号(1～100000)，输出端的词向量维度即为1*100000，其中只有某一位为1，其余均为0，例如第一位为1，则该词向量对应词表中id为1的词。公式中的Pi可以为第二RNN模型输出的词向量，但由于Pi是计算产生的，不可能得到某位为1其余都为0的理想情况，而是每一位上都会有一个数值P，因此可以认为数值最大的那一位为1，其余为0。由此可以对应到词表中的词，而P即为词语的输出概率。

在本实施例的一些可选地实现方式中，还包括：从历史翻译记录中获取互译语句对，互译语句对包括源语句以及其对应的译文语句，译文语句由翻译词组成；对第二循环神经网络RNN模型中的参数矩阵进行初始化操作，参数矩阵包括：输入层矩阵、隐藏层矩阵、输出层矩阵；利用第二循环神经网络RNN模型对源语句进行翻译，得到目标语句，目标语句由目标词组成；计算目标词对应的词向量与翻译词对应的词向量的差值；基于差值，对参数矩阵进行调整。

在本实施例中，可以利用历史翻译记录中获取互译语句对，对第二RNN模型进行训练，从而得到参数矩阵。对第二RNN模型进行训练的过程如下：首先从历史翻译记录中获取大量的互译语句对，并且对第二RNN模型的各个参数矩阵进行初始化，(例如可以使用随机数设定初始值或者统一初始化为相同的数值)。然后由第二RNN模型一次读入一个或多个互译语句对，并使用初始化之后得到的初始化参数矩阵对待翻译语句进行翻译，得到目标语句。目标语句由目标词组成，每一个目标词对应一个词向量。当翻译得到的目标语句中的目标词的词向量与译文语句中的翻译词的词向量不一致时，则计算目标词对应的词向量与翻译词对应的词向量的差值，并且基于差值，对参数矩阵进行调整。

请参考图4，其示出了本申请的基于RNN模型的机器翻译方法的整体流程图。如图4所示，包括以下步骤：

步骤401，输入待翻译语句。该待翻译语句可以为以文字形式输入的语句。也可以为通过接收语音信息，将语音信息转化为文字信息后，最后将文字信息作为待翻译语句。

步骤402,查字典。可以分别从词典资源中查找待翻译语句中的待翻译词对应的所有搜索结果，然后将搜索结果作为候选词，确定出待翻译词对应的候选词集合。

步骤403，去除重复的候选词。可以去除待翻译词对应的候选词集合中重复的候选词。

步骤404，计算候选词的输出概率。当利用RNN模型计算词语的输出概率时，可以仅计算候选词集合中的候选词的输出概率。

步骤405，输出候选词。在计算候选词集合中的每一个候选词的输出概率之后，将对应的概率值最大的候选词进行输出。

请参考图5，其示出了根据本申请的基于RNN模型的机器翻译装置的一个实施例的结构示意图。如图5所示，装置500包括：接收单元501，确定单元502，生成单元503，翻译单元504。其中，接收单元501配置用于接收输入的待翻译语句，待翻译语句由待翻译词组成；确定单元502配置用于确定待翻译词对应的候选词集合，候选词为待翻译词对应的翻译结果，候选词集合基于预先查找出的候选词生成；生成单元503配置用于第一循环神经网络RNN模型基于待翻译词对应的词向量，生成用于表征待翻译语句的语义的高维向量；翻译单元504配置用于第二循环神经网络RNN模型基于高维向量以及候选词集合，确定待翻译语句对应的翻译语句。

在本实施例的一些可选地实现方式中，翻译单元504进一步配置用于：基于高维向量以及已翻译词对应的词向量，分别计算候选词集合中的每一个候选词的输出概率，已翻译词为已经作为翻译结果进行输出的候选词；将对应的输出概率最大的候选词进行输出；基于输出的候选词，生成待翻译语句对应的翻译语句。

在本实施例的一些可选地实现方式中，装置500还包括：互译语句获取单元(未示出)，配置用于从历史翻译记录中获取互译语句对，互译语句对包括源语句以及其对应的译文语句，译文语句由翻译词组成；初始化单元(未示出)，配置用于对第二循环神经网络RNN模型中的参数矩阵进行初始化操作，参数矩阵包括：输入层矩阵、隐藏层矩阵、输出层矩阵；目标语句生成单元(未示出)，配置用于利用第二循环神经网络RNN模型对源语句进行翻译，得到目标语句，目标语句由目标词组成；计算单元(未示出)，配置用于计算目标词对应的词向量与翻译词对应的词向量的差值；调整单元(未示出)，配置用于基于差值，对参数矩阵进行调整。

在本实施例的一些可选地实现方式中，确定单元502进一步配置用于：从双语翻译词典中查找出与待翻译词相关联的互译信息，互译信息包括待翻译词以及其对应的至少一个翻译结果；将翻译结果选取为候选词，生成候选词集合。

在本实施例的一些可选地实现方式中，装置500还包括：去除单元(未示出)，配置用于在确定待翻译词对应的候选词集合之后，去除候选词集合中重复的候选词。

在本实施例的一些可选地实现方式中，接收单元501进一步配置用于接收输入的语音信息；将语音信息转化为对应的文字信息；将文字信息作为待翻译语句。

本申请实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，例如，可以描述为：一种处理器包括接收单元，确定单元，生成单元，翻译单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，接收单元还可以被描述为“接收输入的待翻译语句的单元”。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中所述装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入终端中的计算机可读存储介质。所述计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本申请的基于RNN模型的机器翻译方法。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种基于RNN模型的机器翻译方法，其特征在于，所述方法包括：

接收输入的待翻译语句，所述待翻译语句由待翻译词组成；

确定所述待翻译词对应的候选词集合，所述候选词为所述待翻译词对应的翻译结果，所述候选词集合基于预先查找出的候选词生成；

第一循环神经网络RNN模型基于所述待翻译词对应的词向量，生成用于表征所述待翻译语句的语义的高维向量；

第二循环神经网络RNN模型基于所述高维向量以及所述候选词集合，确定所述待翻译语句对应的翻译语句，所述第二循环神经网络RNN模型基于所述高维向量以及所述候选词集合，确定所述待翻译语句对应的翻译语句包括：基于所述高维向量以及已翻译词对应的词向量，分别计算所述候选词集合中的每一个候选词的输出概率，所述已翻译词为已经作为翻译结果进行输出的候选词；将对应的输出概率最大的候选词进行输出；基于输出的候选词，生成所述待翻译语句对应的翻译语句。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

从历史翻译记录中获取互译语句对，所述互译语句对包括源语句以及其对应的译文语句，所述译文语句由翻译词组成；

对第二循环神经网络RNN模型中的参数矩阵进行初始化操作，所述参数矩阵包括：输入层矩阵、隐藏层矩阵、输出层矩阵；

利用第二循环神经网络RNN模型对所述源语句进行翻译，得到目标语句，所述目标语句由目标词组成；

计算所述目标词对应的词向量与所述翻译词对应的词向量的差值；

基于所述差值，对所述参数矩阵进行调整。

3.根据权利要求2所述的方法，其特征在于，所述确定所述待翻译词对应的候选词集合包括：

从双语翻译词典中查找出与所述待翻译词相关联的互译信息，所述互译信息包括所述待翻译词以及其对应的至少一个翻译结果；

将所述翻译结果选取为候选词，生成所述候选词集合。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：在所述确定所述待翻译词对应的候选词集合之后，去除所述候选词集合中重复的候选词。

5.根据权利要求4所述的方法，其特征在于，所述待翻译语句通过以下步骤生成：

接收输入的语音信息；

将所述语音信息转化为对应的文字信息；

将所述文字信息作为所述待翻译语句。

6.一种基于RNN模型的机器翻译装置，其特征在于，所述装置包括：

接收单元，配置用于接收输入的待翻译语句，所述待翻译语句由待翻译词组成；

确定单元，配置用于确定所述待翻译词对应的候选词集合，所述候选词为所述待翻译词对应的翻译结果，所述候选词集合基于预先查找出的候选词生成；

生成单元，配置用于第一循环神经网络RNN模型基于所述待翻译词对应的词向量，生成用于表征所述待翻译语句的语义的高维向量；

翻译单元，配置用于第二循环神经网络RNN模型基于所述高维向量以及所述候选词集合，确定所述待翻译语句对应的翻译语句，所述翻译单元进一步配置用于：基于所述高维向量以及已翻译词对应的词向量，分别计算所述候选词集合中的每一个候选词的输出概率，所述已翻译词为已经作为翻译结果进行输出的候选词；将对应的输出概率最大的候选词进行输出；基于输出的候选词，生成所述待翻译语句对应的翻译语句。

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

互译语句获取单元，配置用于从历史翻译记录中获取互译语句对，所述互译语句对包括源语句以及其对应的译文语句，所述译文语句由翻译词组成；

初始化单元，配置用于对第二循环神经网络RNN模型中的参数矩阵进行初始化操作，所述参数矩阵包括：输入层矩阵、隐藏层矩阵、输出层矩阵；

目标语句生成单元，配置用于利用第二循环神经网络RNN模型对所述源语句进行翻译，得到目标语句，所述目标语句由目标词组成；

计算单元，配置用于计算所述目标词对应的词向量与所述翻译词对应的词向量的差值；

调整单元，配置用于基于所述差值，对所述参数矩阵进行调整。

8.根据权利要求7所述的装置，其特征在于，所述确定单元进一步配置用于：从双语翻译词典中查找出与所述待翻译词相关联的互译信息，所述互译信息包括所述待翻译词以及其对应的至少一个翻译结果；将所述翻译结果选取为候选词，生成所述候选词集合。

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

去除单元，配置用于在所述确定所述待翻译词对应的候选词集合之后，去除所述候选词集合中重复的候选词。

10.根据权利要求9所述的装置，其特征在于，所述接收单元进一步配置用于接收输入的语音信息；将所述语音信息转化为对应的文字信息；将所述文字信息作为所述待翻译语句。