CN110807335A

CN110807335A - 基于机器学习的翻译方法、装置、设备及存储介质

Info

Publication number: CN110807335A
Application number: CN201910824339.6A
Authority: CN
Inventors: 张祥文; 谢军
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-02
Filing date: 2019-09-02
Publication date: 2020-02-18
Anticipated expiration: 2039-09-02
Also published as: CN110807335B

Abstract

本申请公开了一种基于机器学习的翻译方法、装置、设备及存储介质，涉及人工智能领域，该方法包括：获取第一语种类型的句子；采用不同的分词器将所述句子划分为至少两个分词序列；根据所述至少两个分词序列生成所述句子的词图结构；调用编码器将所述词图结构转换为所述句子的中间向量表示；调用解码器将所述中间向量表示转换为第二语种类型的句子。由于该词图表示覆盖了句子的多种分词可能性，因此能够解决分词产生错误划分，本申请解决分词产生错误划分，导致句子产生错误的语义或歧义，从而对句子的语义造成不可修复的破坏的问题，提高机器翻译模型的翻译准确度。

Description

基于机器学习的翻译方法、装置、设备及存储介质

技术领域

本申请实施例涉及人工智能领域，特别涉及一种基于机器学习的翻译方法、装置、设备及存储介质。

背景技术

基于机器学习的翻译系统是目前主流的翻译系统。典型的，基于机器学习的翻译系统所使用的神经网络模型包括：编码器和解码器。

在使用神经网络模型进行翻译时，由用户输入第一语种的句子，通过分词将句子表示成词序列，编码器将词序列转换为中间向量，解码器将中间向量转换为第二语种的句子。

但是由于分词可能会产生错误划分，导致句子产生错误的语义或歧义，从而对句子的语义造成不可修复的破坏，最终的翻译结果较差。

发明内容

本申请实施例提供了一种基于机器学习的翻译方法、装置、设备及存储介质，可以解决分词产生错误划分，导致句子产生错误的语义或歧义，从而对句子的语义造成不可修复的破坏，翻译效果较差的问题。所述技术方案如下：

一方面，提供了一种基于机器学习的翻译方法，该方法包括：

获取第一语种类型的句子；

采用不同的分词器将句子划分为至少两个分词序列；

根据至少两个分词序列生成句子的词图结构，词图结构中的词图边对应候选分词，词图结构中的节点对应相邻候选分词之间的边界；

调用编码器将词图结构基于与词图边垂直的维度转换为句子的中间向量表示；

调用解码器将中间向量表示转换为第二语种类型的句子。

另一方面，提供了一种基于机器学习的翻译装置，该装置包括：获取模块、分词模块、生成模块、编码模块和解码模块；

获取模块，被配置为获取第一语种类型的句子；

分词模块，被配置为采用不同的分词器将句子划分为至少两个分词序列；

生成模块，被配置为根据至少两个分词序列生成句子的词图结构，词图结构中的词图边对应候选分词，词图结构中的节点对应相邻候选分词之间的边界；

编码模块，被配置为调用编码器将词图结构基于与词图边垂直的维度转换为句子的中间向量表示；

解码模块，被配置为调用解码器将中间向量表示转换为第二语种类型的句子。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中提供的基于机器学习的翻译方法。

另一方面，提供了一种计算机可读存储介质，所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中提供的基于机器学习的翻译方法。

另一方面，提供了一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得计算机执行如上述本申请实施例中提供的基于机器学习的翻译方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过构建句子的词图表示，调用编码器将对源端语言生成的词图结构进行编码，将词图结构转换为句子的中间向量表示；由于该词图表示覆盖了句子的多种分词可能性，因此能够解决分词产生错误划分，导致句子产生错误的语义或歧义，从而对句子的语义造成不可修复的破坏的问题，提高机器翻译模型的翻译准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是相关技术中的门控循环单元(Gated Recurrent Unit，GRU)的示意图；

图2是相关技术中的机器翻译模型的结构框图；

图3是本申请一个示例性实施例提供的机器翻译模型的结构框图；

图4是本申请一个示例性实施例提供的基于机器学习的翻译方法的流程图；

图5是本申请一个示例性实施例提供的翻译的示意图；

图6是本申请一个示例性实施例提供的基于机器学习的翻译方法的流程图；

图7是本申请一个示例性实施例提供的生成句子的词图结构的示意图；

图8是本申请一个示例性实施例提供的基于机器学习的翻译方法的流程图；

图9是本申请一个示例性实施例提供的基于机器学习的翻译方法的流程图；

图10是本申请一个示例性实施例提供的对词图状态进行编码的示意图；

图11是本申请一个示例性实施例提供的对词图状态进行编码的示意图；

图12是本申请一个示例性实施例提供的对词图状态进行编码的示意图；

图13是本申请一个示例性实施例提供的基于机器学习的翻译方法的流程图；

图14是本申请一个示例性实施例提供的基于机器学习的翻译装置的框图；

图15是本申请一个示例性实施例提供的服务器的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先，对本申请实施例中涉及的名词进行简单介绍：

机器翻译：是指通过计算机将一种自然语言的句子翻译成另一种自然语言的句子的翻译方式。通常，该机器翻译是通过训练好的机器翻译模型对句子进行翻译，示意性的，通过大量的翻译语料样本对机器翻译模型进行训练，该翻译语料样本中包括多组第一自然语言的语料和第二自然语言的语料之间的对应关系，每个第一自然语言的语料对应一个第二自然语言的语料作为翻译结果，训练完成后，用户将第一自然语言的源端句子输入该机器翻译模型后，输出得到第二自然语言的目标端句子。示意性的，将中文句子翻译为英文句子，中文句子即为源端句子，英文句子即为目标端句子；比如，机器翻译模型将句子“我必须解决这个问题。”翻译为句子“I must solve the problem.”，则句子“我必须解决这个问题。”是源端句子，句子“I must solve the problem.”是目标端句子。

循环神经网络(Recurrent Neural Network，RNN)：是一类人工神经网络，其可以通过为网络添加额外的权重来在网络图(network graph)中创建循环，以便维持一个内部状态。RNN应用于输入数据具有依赖性且是序列模式时的场景，即前一个输入和后一个输入是有关系的。RNN的隐藏层是循环的，这表明隐藏层的值不仅取决于当前的输入值，还取决于前一时刻隐藏层的值。具体的表现形式是RNN记住前面的信息并将其应用于计算当前输出的，这使得隐藏层之间的节点是有连接的。

GRU：是长短期记忆网络(Long Short-Term Memory，LSTM)的一种变体。GRU的结构与LSTM很相似，LSTM有三个门，而GRU只有两个门且没有细胞状态，简化了LSTM的结构。结合参考图1，GRU的两个门是更新门z和重置门r，“更新门”的作用是控制前一时刻的单元状态有多少信息数能被带入到当前状态中，“重置门”的作用是控制前一状态能被写入到当前状态的信息数。

示意性的，图2是相关技术中提供的机器翻译模型的结构框图，如图2所示，该机器翻译模型100通过注意力机制对序列进行建模，该机器翻译模型100包括编码器110和解码器120，其中，编码器110中包括自注意力模块111和前馈神经网络模块112；解码器120中包括自注意力模块121、源端注意力模块122以及前馈神经网络模块123；该机器翻译模块100中还包括特征映射网络130和softmax网络140，输入句子的词序列向量并通过编码器110进行编码以及通过解码器120进行解码后，通过特征映射网络130进行特征映射，并通过softmax网络140确定输出的翻译结果。

图2所示出的机器翻译模型的输入是句子的词序列向量，该句子的词序列向量是根据分词方式对句子进行分词后，将每个分词对应的词向量进行拼接后得到的。但是由于分词可能出现分词错误、分词歧义等问题，导致翻译结果较差。为此，本申请实施例提供有如下基于机器学习的翻译方法。

如图3所示，本申请提供的基于机器学习的翻译方法，输入编码器的是句子的词图结构。将第一语种的句子210输入该机器翻译模型，分词器221至分词器22N对第一语种的句子210分别进行分词处理，划分得到N个分词序列(N>＝2)。将N个分词序列对应的图结构进行合并操作，生成句子的词图结构，将该句子的词图结构输入编码器220，得到句子的中间向量表示，通过解码器240的解码，得出翻译结果，即第二语种的句子250。

示意性的，本申请涉及的应用场景至少包括如下场景：

1、该机器翻译模型应用于即时通信程序中，即时通信程序能够实现实时语音翻译；如：通过上述机器翻译模型能够实现即时通信程序语音/视频过程中的实时语音翻译；

2、该机器翻译模型应用于视频播放程序中，视频播放程序能够在视频播放过程中实现对第一自然语言的字幕进行实时翻译，得到第二自然语言的字幕；

3、该机器翻译模型应用于文档翻译软件中，可以用于实现对文档类内容快速准确的翻译；

4、该机器翻译模型应用于文章资讯阅读中，可以用于实现对国外资讯、文章或将自有内容进行翻译；

5、该机器翻译模型应用于外文网站翻译中，可以用于实现对国外电商网站、海淘服务网站的便捷访问；

6、该机器翻译模型应用于电子词典中，能够实现各种语言的快速准确的翻译查询；

7、该机器翻译模型应用于翻译机等实时翻译工具时，用户能够通过该实时翻译工具实现快速应答，如：在跨国会议场景中、境外旅游中。

值得注意的是，上述应用场景仅为示意性的举例，在实际操作中，通过上述机器翻译模型的训练方法对机器翻译模型进行训练的应用场景都可以使用本申请实施例中提供的机器翻译模型的训练方法，本申请实施例对此不加以限定。

图4示出了本申请一个示例性实施例提供的基于机器学习的翻译方法的流程图，以该方法应用于服务器中为例进行说明，如图4所示，该方法包括：

步骤301，获取第一语种类型的句子；

可选的，第一语种类型的句子由服务器获取，将第一语种类型的语句翻译为第二语种类型的句子。其中，第一语种类型包括但不限于：汉语、英语、法语、韩语、日语、德语、俄语、西班牙语中的至少一种。

步骤302，采用不同的分词器将句子划分为至少两个分词序列；

分词器是将输入的一段文本(句子)，分析成符合逻辑的分词序列的一种工具。

可选的，分词器采用的分词方法包括但不限于：基于词典分词算法(字符串匹配分词算法)、基于理解的分词方法、基于统计的机器学习算法中的至少一种。

示例性的，以分词器处理的是中文文本为例。中文分词是中文文本处理的一个基础步骤，也是中文人机自然语言交互的基础模块。不同于英文的是，中文句子中没有词的界限，因此在进行中文自然语言处理时，通常需要先进行分词，分词效果将直接影响词性，句法树等模块的效果。

示例性的，采用不同的分词器处理中文文本，得到至少两个分词序列。至少两个分词序列可以是互不相同的。对于中文文本“中华人民共和国”，分词器1的分词序列为“中华人民共和国”；分词器2的分词序列为“中华人民共和国”。

步骤303，根据至少两个分词序列生成句子的词图结构，词图结构中的词图边对应候选分词，词图结构中的节点对应相邻候选分词之间的边界；

词图(Lattice)指的是句子中的可能的候选分词构成的图。词图是有向无环图，有向指的是图中的边是有方向的，无环指的是无法从某个顶点出发经过若干条边回到该点。

可选的，词图能够表示句子潜在的多种切分方式，与普通的分词序列相比，词图是一种表达能力更丰富、灵活的表示结构。

示例性的，对于中文文本“中华人民共和国”，分词器1的分词序列为“中华人民共和国”；分词器2的分词序列为“中华人民共和国”，根据上述2个分词序列生成句子的词图结构。候选分词为“中华”、“人民”、“共和”、“国”和“人民共和国”。

步骤304，调用编码器将词图结构基于与词图边垂直的维度转换为句子的中间向量表示；

可选的，该编码器基于的神经网络包括但不限于：图循环神经网络和图卷积神经网络中的至少一种。

示例性的，该编码器基于图循环神经网络，使用的模型包括但不限于：GRU模型和长短期记忆模型中的至少一种。

可选的，调用基于词图状态的编码器模型将词图结构转换为句子的中间向量表示；其中，词图状态包括词图结构中的所有节点的状态集合和全局状态。

可选的，词图状态是一个集合，表示一个句子的语义信息，随着基于与词图边垂直的维度的迭代进行更新。

可选的，全局状态是句级别的状态，用来建模上下文信息，以辅助对节点间长距离依赖的建模。

步骤305，调用解码器将中间向量表示转换为第二语种类型的句子；

第二语种类型的句子是第一语种类型的句子的翻译结果。

可选的，第二语种类型包括但不限于：汉语、英语、法语、韩语、日语、德语、俄语、西班牙语中的至少一种。第二语种类型与第一语种类型是不同的语种类型。

示例性的，以第一语种类型为汉语，第二语种类型为英语为例进行说明。在如图5所示的翻译软件中，用户输入第一语种类型的句子“房价正在持续上涨”，选择第二语种类型为英语进行翻译，则与该第一语种类型的句子对应的第二语种类型的句子显示为“Thehousing prices continued to rise”。其中，第一语种类型的句子中的每个词汇与第二语种类型的句子中的单词或短语对应，如：词汇“房价”与短语“the housing prices”对应，词汇“正在持续”与单词“continued”对应，词汇“上涨”与短语“to rise”对应。

综上所述，本实施例提供的方法，通过构建句子的词图表示，调用编码器将对源端语言生成的词图结构进行编码，将词图结构转换为句子的中间向量表示，由于该词图表示覆盖了句子的多种分词可能性，因此能够解决分词产生错误划分，导致句子产生错误的语义或歧义，从而对句子的语义造成不可修复的破坏的问题，提高机器翻译模型的翻译准确度。

在基于图4的可选实施例中，图6示出了本申请一个示例性实施例提供的基于机器学习的翻译方法的流程图。在本实施例中，上述实施例中的步骤303可以替换实现为步骤3031和步骤3032，该方法包括：

步骤3031，将至少两个分词序列分别进行图转换处理，得到至少两个图结构；

可选的，由至少两个不同的分词器对句子进行划分，得到至少两个分词序列。其中，一个分词序列对应一个图结构。

可选的，至少两个不同的分词器包括但不限于如下分词器中的至少两个：基于美国滨州大学所提供的开源数据集训练得到的第一分词器(Chinese Tree Bank,CTB)、基于微软所提供的开源数据集训练得到的第二分词器(Microsoft Research,MSR)、基于北京大学所提供的开源数据集训练得到的第三分词器(Peking University，PKU)和基于谷歌所提供的开源数据集训练得到的第四分词器sentencepiece。

如图7所示，图7示出了本申请一个示例性实施例提供的生成句子的词图结构的示意图；

对于中文文本“副总理率团访华”，采用3个不同分词器对该句子进行划分。其中，分词器1对应的分词序列为“副总理率团访华”；分词器2对应的分词序列为“副总理率团访华”；分词器3对应的分词序列为“副总理率团访华”。

步骤3032，将至少两个图结构进行合并，得到句子的词图结构，词图结构中的词图边对应候选分词，词图结构中的节点对应相邻候选分词之间的边界；

在图结构中，任意两个字符的边界对应图上的节点。如图5所示，存在8个节点，从v₀至v₇。字符“副”和字符“总”的边界对应的是节点v₁，字符“总”和字符“理”的边界对应的节点是v₂，字符“理”和字符“率”的边界对应的节点是v₃。节点v₁至节点v₃的词图边对应的是候选分词c_1:3“总理”。

将分词器1、分词器2和分词器3对应的图结构进行合并，去除重复的词图边，得到句子的词图结构。其中，候选分词包括：c_0:1“副”、c_1:3“总理”、c_0:3“副总理”、c_3:4“率”、c_3:5“率团”、c_4:5“团”、c_5:6“访”、c_5:7“访华”、c_6:7“华”。

该词图结构能够表示句子的多种切分方式，除了上述3个分词器对应的划分方式外，还包括如“副总理率团访华”、“副总理率团访华”、“副总理率团访华”、“副总理率团访华”和“副总理率团访华”等划分方式得到的分词序列。

综上所述，本实施例提供的方法，通过运用词图结构对句子进行处理，保留了句子潜在的多种切分方式，允许错误分词和分词歧义的存在，具有容错的能力，避免了简单的分词产生错误划分，导致句子产生错误的语义或歧义，从而对句子的语义造成不可修复的破坏的情况。

在基于图4的可选实施例中，图8示出了本申请一个示例性实施例提供的基于机器学习的翻译方法的流程图，在本实施例中基于词图状态的编码器模型是基于词图状态的循环神经网络。在本实施例中，上述实施例中的步骤304可以替换实现为步骤701和步骤702，该方法包括：

步骤701，调用基于词图结构的编码器模型，将词图结构对应的词图状态进行T次迭代更新；

在一个示例中，T为固定值，T为整数。

可选的，T的值可以是服务器中预先存储的或运维人员所设置的，也可以是服务器从其他服务器中获取的，本申请实施例对T的值的设定方式不加以限定。

词图状态是随着迭代过程的进行而更新的，因此词图状态是一个与迭代次数相关的表示。在第t次迭代时(t＝0...T)，词图的节点状态集合记为

其中

为节点v_i在第t次迭代时的状态；相应地，第t次迭代时的全局状态，记为g^t。

步骤702，根据T次迭代更新的词图状态确定句子的中间向量表示；

T次迭代更新的词图状态包括：T次迭代更新后，词图结构中的所有节点的状态集合H^T和全局状态g^T。

综上所述，本实施例提供的方法，通过对词图状态进行T次迭代更新，对词图结构中的节点进行建模，同时引入了全局状态，用来建模上下文信息，以辅助对节点间长距离依赖的建模，解决了难以获取节点间的长期依赖关系的问题。

同时，由于词图状态的循环步数T是固定的，与翻译模型(分词器+编码器+解码器)的建模过程和词图的具体结构进行了解耦，因此使得翻译模型的复杂度受到控制，从而不受词图结构的个体复杂度的影响。

在基于图8的可选实施例中，图9示出了本申请一个示例性实施例提供的基于机器学习的翻译方法的流程图。在本实施例中，上述实施例中的步骤701可以替换实现为步骤7011、步骤7012和步骤7013，该方法包括：

步骤7011，在调用基于词图状态的编码器进行第t次迭代更新时，根据词图结构中的第i个节点v_i在上一次迭代更新后的隐状态、第i个节点v_i的邻接节点相关的状态信息和上一次迭代更新后的全局状态，更新得到第i个节点v_i在本次迭代更新后的隐状态；

邻接节点是指与一个节点相接的节点。结合参考图6中的分词器1对应的词图结构，节点v₃的邻接节点是节点v₀和节点v₅，节点v₅的邻接节点是节点v₃和节点v₇。

示例性的，在进行第t次迭代更新时，将第i个节点v_i在上一次迭代更新后的隐状态记为将第i个节点v_i在本次迭代更新后的隐状态记为

上一次迭代更新后的全局状态记为g^t-1。

结合参考图10，编码器在垂直于词图边的维度上进行建模，对词图结构的词图状态进行T次迭代更新。

示例性的，需要根据第3个节点v₃在上一次迭代更新后的隐状态

节点v₃的邻接节点v₀、v₁、v₄和v₅相关的状态信息，上一次迭代更新后的全局状态g^t-1，得到词图结构中的节点v₃在第t次迭代更新后的隐状态

步骤7012，根据所有节点在本次迭代更新后的隐状态，更新得到本次迭代更新后的全局状态；

根据如下公式，可得本次迭代更新后的全局状态g^t：

其中，式中的σ为sigmoid函数，让

和

的值趋向于0或者1；式中的⊙为Hadamard乘积，即两个量的对应元素的乘积；式中的tanh为双曲正切函数；矩阵

矩阵

矩阵

和向量

是门控循环单元的参数；

表示在第t次迭代时的所有节点的隐状态的均值；上标gr，gz和gc分别对应门控循环单元中的重置门，更新门和候选隐状态；

表示在第t次迭代的重置门；

表示在第t次迭代的更新门；

表示在第t次迭代更新后的全局状态的候选隐状态；g^t表示在第t次迭代更新后的全局状态。

如图11所示，编码器在垂直于词图边的维度上进行建模，对词图结构的词图状态进行T次迭代更新。

示意的，根据在第t次迭代时的所有节点的隐状态

得到第t次迭代更新后的全局状态g^t。

步骤7013，在t不等于T时，将t加一后重复上述两个步骤；

示例性的，对词图结构的词图状态进行T次迭代更新。结合参考图9，在得到第t次迭代更新后的所有节点v_i在本次迭代更新后的隐状态

和全局状态g^t之后，由于t不等于T，对词图结构的词图状态进行第t+1次迭代更新,直至完成T次迭代更新。

在一个示例中，根据T次迭代更新的词图状态确定句子的中间向量表示，包括：将T次迭代更新的T个词图状态按照时间维度的第三注意力机制进行融合，得到融合后的词图状态，作为句子的中间向量表示。

可选的，在编码器完成循环迭代后，第三注意力机制用于对节点的历史隐状态加权求和，得到每个节点的最终状态h_i。

通过第三注意力机制，每个节点能够动态地决定其状态h_i的信息由哪些历史隐状态组成，并控制每个历史隐状态的贡献值。

确定句子的中间向量表示的公式如下所示：

其中，

为节点v_i的隐状态

在第t次迭代时的归一化权重，通过第三注意机制计算所得；f(·)是一个单层神经网络。

如图12所示，编码器在垂直于词图边的维度上进行建模，对词图结构的词图状态进行T次迭代更新。

示意的，根据节点v₇的历史隐状态

和T次迭代更新后的全局状态g^T,得到节点v₇的最终状态h₇。

根据更新后的所有节点的最终状态h_i，得到句子的中间向量。

综上所述，本实施例提供的方法，通过利用基于词图状态的循环神经网络的编码器，在垂直于词图边的维度上进行建模，对词图结构的词图状态进行T次迭代更新，解决了传统的模型只能建模文本的词序列，不能对图结构进行处理的问题。

在基于图9的可选实施例中，邻接节点相关的状态信息，包括：入度边的融合信息、出度边的融合信息、入度节点的融合信息和出度节点的融合信息；

入度是指图中某点作为图中的边的终点。

出度是指图中某点作为图中的边的起点。

结合参考图7中的分词器1对应的词图结构，节点v₅的入度边是候选分词c_3:5“率团”对应的边，出度边是候选分词c_5:7“访华”对应的边，入度节点是v₃，出度节点是v₇。

根据第一注意力机制将第i个节点在本次迭代更新中的入度边对应的候选词向量以及第i个节点的位置嵌入进行融合，得到入度边的融合信息；

其中，表示节点v_i在第t次迭代的入度所对应的候选词向量；将v_i的邻接节点按照入度分为1个集合，表示为iNodes(v_i)；

为v_i的第j个入度边所对应候选分词c_j:i的词向量；V_x表示源端词表；E_p(v_j)是节点v_j的位置嵌入(Position Embedding)，用来编码节点在词图中的拓扑序；标量

为节点v_i对第j个入度的第一注意力机制中的注意力权重。

根据第二注意力机制将第i个节点在本次迭代更新中的出度边对应的候选词向量以及第i个节点的位置嵌入进行融合，得到出度边的融合信息；

其中，

表示节点v_i在第t次迭代的出度所对应的候选词向量；将v_i的邻接节点按照出度分为1个集合，表示为oNodes(v_i)；

为v_i的第k个出度边所对应候选分词c_i:k的词向量，V_x表示源端词表；E_p(v_k)是节点v_k的位置嵌入，用来编码节点在词图中的拓扑序；标量

为节点v_i对第k个出度的第二注意力机制中的注意力权重。

根据第一注意力机制将第i个节点在上一次迭代更新中的入度节点对应的隐状态以及第i个节点的位置嵌入进行融合，得到入度节点的融合信息；

其中，

表示融合的入度的候选前隐状态；将v_i的邻接节点按照入度分为1个集合，表示为iNodes(v_i)；E_p(v_j)是节点v_j的位置嵌入，用来编码节点在词图中的拓扑序；

表示节点v_j在第t-1次迭代时的状态；标量

为节点v_i对第j个入度的第一注意力机制中的注意力权重。

根据第二注意力机制将第i个节点在上一次迭代更新中的出度节点对应的隐状态以及第i个节点的位置嵌入进行融合，得到出度节点的融合信息。

其中，

表示融合的出度候选前隐状态；将v_i的邻接节点按照出度分为1个集合，表示为oNodes(v_i)；E_p(v_k)是节点v_k的位置嵌入，用来编码节点在词图中的拓扑序；表示节点v_k在第t-1次迭代时的状态；标量

为节点v_i对第k个出度的第二注意力机制中的注意力权重。

可选的，第一注意力机制和第二注意力机制中的权重相同或不同。

其中，为节点v_i对第j个入度的第一注意力机制中的注意力权重；

为节点v_i对第k个出度的第二注意力机制中的注意力权重；E_w(c_j:i)为候选分词c_j:i对参数矩阵E_w进行索引，所得到的相应词向量；E_w(c_i:k)为候选分词c_i:k对参数矩阵E_w进行索引，所得到的相应词向量；

中的分号表示对两个向量的拼接操作；f(·)是一个单层神经网络；Z^α和Z^β为归一化项，定义如下：

对词图中v_i的节点状态

按照如下方式进行更新，得到

其中，式中的σ为sigmoid函数，让

和

矩阵

矩阵和向量

为模型参数；上标r，z和c分别门控循环单元中的重置门，更新门和候选隐状态；

表示对和

进行拼接操作得到的向量；

表示对

和

进行拼接操作得到的向量；表示在第t次迭代的重置门，

表示在第t次迭代的更新门；表示在第t次迭代的第i个节点的候选隐状态；表示在第t次迭代的第i个节点的隐状态。

综上所述，本实施例提供的方法，通过在垂直于词图边的维度上进行建模，每个节点的信息来源可以包括入度和出度的信息，使得入度信息和出度信息可以在语义上相互作用；同时引入第一注意力机制和第二注意力机制，使得模型能够区分入度信息和出度信息。

在基于图9的可选实施例中，上述基于词图结构的编码器是需要预先训练得到的。示例性的，采用基于图循环神经网络的词图状态编码器，给定源句x和前j-1个译文单词，通过线性变换和softmax函数来计算y_j的翻译概率，形式如下：

其中，x为源句；y_j为目标端第j个词；为y_j在第L层输出的隐状态；W为参数矩阵，对

进行线性变换。

给定训练数据集

基于词图结构的编码器，得到目标函数具体定义如下：

其中，

为训练数据集；x为源句；y为目标句；θ为参数。

该式表示给定一个源句x时，目标句y为其翻译结果的条件概率，并将其根据贝叶斯公式分解为所有译文单词的概率连乘。特别地，在本申请的实施例中，源句x用词图结构进行表示。

训练过程以该式定义的似然函数为目标，通过极大似然估计来优化参数θ。

结合参考图13，对基于机器学习的翻译方法在翻译场景中的实现方式进行示例性的说明。

一：对原始文本进行预处理，生成词图结构。用户将原始文本输入服务器中，服务器使用3个不同的分词器对原始文本进行分词处理，得到词序列。服务器将得到的3个词序列转换为图结构，对3个图结构进行合并、剪枝，去掉重复的词图边，得到该原始原本的词图结构。

二：对原始文本的词图状态进行编码。基于图循环神经网络，服务器对词图状态进行迭代更新，其中，引入了全局状态，用来建模上下文信息。重复上述步骤，直到完成对词图状态的T次迭代更新。在编码器完成迭代循环后，服务器采用基于时间维度的注意机制，对各节点的历史隐状态进行融合，转换为原始文本的中间向量表示。

三：对编码生成的中间向量进行解码，输出原始文本对应的新单词，直至所有单词输出完成。

四：结束对原始文本的翻译，返回译文。

图14是本申请一个示例性实施例提供的基于机器学习的翻译装置的框图，该装置包括：获取模块1401、分词模块1402、生成模块1403、编码模块1404和解码模块1405；

获取模块1401，被配置为获取第一语种类型的句子；

分词模块1402，被配置为采用不同的分词器将句子划分为至少两个分词序列；

生成模块1403，被配置为根据至少两个分词序列生成句子的词图结构，词图结构中的词图边对应候选分词，词图结构中的节点对应相邻候选分词之间的边界；

编码模块1404，被配置为调用编码器将词图结构基于与词图边垂直的维度转换为句子的中间向量表示；

解码模块1405，被配置为调用解码器将中间向量表示转换为第二语种类型的句子。

在一个示例中，分词模块1402，被配置为采用至少两个不同的分词器对句子分别进行分词处理，得到至少两个分词序列。

在一个示例中，生成模块1403，被配置为将至少两个分词序列分别进行图转换处理，得到至少两个图结构；生成模块1403，被配置为将至少两个图结构进行合并，得到句子的词图结构。

在一个示例中，编码模块1404，被配置为调用基于词图状态的编码器模型将词图结构转换为句子的中间向量表示；

其中，词图状态包括词图结构中的所有节点的状态集合和全局状态。

在一个示例中，基于词图状态的编码器模型是基于词图状态的循环神经网络；编码模块1404，被配置为调用基于词图状态的循环神经网络，将词图结构对应的词图状态进行T次迭代更新；编码模块1404，被配置为根据T次迭代更新的词图状态确定句子的中间向量表示。

在一个示例中，编码模块1404，被配置为在调用基于词图状态的编码器进行第t次迭代更新时，根据词图结构中的第i个节点v_i在上一次迭代更新后的隐状态、第i个节点v_i的邻接节点相关的状态信息和上一次迭代更新后的全局状态，更新得到第i个节点v_i在本次迭代更新后的隐状态；

编码模块1404，被配置为根据所有节点在本次迭代更新后的隐状态，更新得到本次迭代更新后的全局状态；

编码模块1404，被配置为在t不等于T时，将t加一后重复上述两个步骤。

在一个示例中，邻接节点相关的状态信息，包括：入度边的融合信息、出度边的融合信息、入度节点的融合信息和出度节点的融合信息；

编码模块1404，被配置为根据第一注意力机制将第i个节点在本次迭代更新中的入度边对应的候选词向量以及第i个节点的位置嵌入进行融合，得到入度边的融合信息；

编码模块1404，被配置为根据第二注意力机制将第i个节点在本次迭代更新中的出度边对应的候选词向量以及第i个节点的位置嵌入进行融合，得到出度边的融合信息；

编码模块1404，被配置为根据第一注意力机制将第i个节点在上一次迭代更新中的入度节点对应的隐状态以及第i个节点的位置嵌入进行融合，得到入度节点的融合信息；

编码模块1404，被配置为根据第二注意力机制将第i个节点在上一次迭代更新中的出度节点对应的隐状态以及第i个节点的位置嵌入进行融合，得到出度节点的融合信息。

在一个示例中，第一注意力机制和第二注意力机制中的权重相同或不同。

在一个示例中，T为固定值。

在一个示例中，编码模块1404，被配置为将T次迭代更新的T个词图状态按照时间维度的第三注意力机制进行融合，得到融合后的词图状态，作为句子的中间向量表示。

需要说明的是：上述实施例提供的基于机器学习的翻译装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

本申请还提供了一种服务器，该服务器包括处理器和存储器，存储器中存储有至少一条指令，至少一条指令由处理器加载并执行以实现上述各个方法实施例提供的基于机器学习的翻译方法。需要说明的是，该服务器可以是如下图15所提供的服务器。

请参考图15，其示出了本申请一个示例性实施例提供的服务器的结构示意图。具体来讲：服务器1500包括中央处理单元(CPU)1501、包括随机存取存储器(RAM)1502和只读存储器(ROM)1503的系统存储器1504，以及连接系统存储器1504和中央处理单元1501的系统总线1505。服务器1500还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1506，和用于存储操作系统1513、应用程序1514和其他程序模块1515的大容量存储设备1507。

基本输入/输出系统1506包括有用于显示信息的显示器1508和用于用户输入信息的诸如鼠标、键盘之类的输入设备1509。其中显示器1508和输入设备1509都通过连接到系统总线1505的输入输出控制器1510连接到中央处理单元1501。基本输入/输出系统1506还可以包括输入输出控制器1510以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1510还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备1507通过连接到系统总线1505的大容量存储控制器(未示出)连接到中央处理单元1501。大容量存储设备1507及其相关联的计算机可读介质为服务器1500提供非易失性存储。也就是说，大容量存储设备1507可以包括诸如硬盘或者CD-ROI驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1504和大容量存储设备1507可以统称为存储器。

存储器存储有一个或多个程序，一个或多个程序被配置成由一个或多个中央处理单元1501执行，一个或多个程序包含用于实现上述基于机器学习的翻译方法的指令，中央处理单元1501执行该一个或多个程序实现上述各个方法实施例提供的基于机器学习的翻译方法。

根据本申请的各种实施例，服务器1500还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1500可以通过连接在系统总线1505上的网络接口单元1511连接到网络1512，或者说，也可以使用网络接口单元1511来连接到其他类型的网络或远程计算机系统(未示出)。

存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，一个或者一个以上程序包含用于进行本发明实施例提供的基于机器学习的翻译方法中由服务器所执行的步骤。

本申请实施例还提供一种计算机设备，该计算机设备包括存储器和处理器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并实现上述基于机器学习的翻译方法。

本申请实施例还提供一种计算机可读存储介质，该可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述基于机器学习的翻译方法。

本申请还提供了一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行上述各个方法实施例提供的基于机器学习的翻译方法。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质；也可以是单独存在，未装配入终端中的计算机可读存储介质。该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述基于机器学习的翻译方法。

可选地，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于机器学习的翻译方法，其特征在于，所述方法包括：

获取第一语种类型的句子；

采用不同的分词器将所述句子划分为至少两个分词序列；

根据所述至少两个分词序列生成所述句子的词图结构，所述词图结构中的词图边对应候选分词，所述词图结构中的节点对应相邻候选分词之间的边界；

调用编码器将所述词图结构基于与所述词图边垂直的维度转换为所述句子的中间向量表示；

调用解码器将所述中间向量表示转换为第二语种类型的句子。

2.根据权利要求1所述的方法，其特征在于，所述采用不同的分词器将所述句子划分为至少两个分词序列，包括：

采用至少两个不同的分词器对所述句子分别进行分词处理，得到至少两个分词序列。

3.根据权利要求1所述的方法，其特征在于，所述根据所述至少两个分词序列生成所述句子的词图结构，包括：

将所述至少两个分词序列分别进行图转换处理，得到至少两个图结构；

将所述至少两个图结构进行合并，得到所述句子的词图结构。

4.根据权利要求1至3任一所述的方法，其特征在于，所述调用编码器将所述词图结构基于与所述词图边垂直的维度转换为所述句子的中间向量表示，包括：

调用基于词图状态的编码器模型将所述词图结构基于与所述词图边垂直的维度转换为所述句子的中间向量表示；

其中，所述词图状态包括所述词图结构中的所有节点的状态集合和全局状态。

5.根据权利要求4所述的方法，其特征在于，所述基于词图状态的编码器模型是基于词图状态的循环神经网络；

所述调用基于词图结构的编码器模型基于与所述词图边垂直的维度将所述词图结构转换为所述句子的中间向量表示，包括：

调用所述基于词图状态的循环神经网络，将所述词图结构对应的词图状态进行T次迭代更新；

根据所述T次迭代更新的词图状态确定所述句子的中间向量表示。

6.根据权利要求5所述的方法，其特征在于，所述调用所述基于词图状态的编码器模型，将所述词图结构对应的词图状态进行T次迭代更新，包括：

在调用所述基于词图状态的编码器进行第t次迭代更新时，根据所述词图结构中的第i个节点v_i在上一次迭代更新后的隐状态、所述第i个节点v_i的邻接节点相关的状态信息和上一次迭代更新后的全局状态，更新得到所述第i个节点v_i在本次迭代更新后的隐状态；

根据所有节点在本次迭代更新后的隐状态，更新得到本次迭代更新后的全局状态；

在所述t不等于T时，将所述t加一后重复上述两个步骤。

7.根据权利要求6所述的方法，其特征在于，所述邻接节点相关的状态信息，包括：入度边的融合信息、出度边的融合信息、入度节点的融合信息和出度节点的融合信息；

根据第一注意力机制将所述第i个节点在本次迭代更新中的入度边对应的候选词向量以及所述第i个节点的位置嵌入进行融合，得到所述入度边的融合信息；

根据第二注意力机制将所述第i个节点在本次迭代更新中的出度边对应的候选词向量以及所述第i个节点的位置嵌入进行融合，得到所述出度边的融合信息；

根据所述第一注意力机制将所述第i个节点在上一次迭代更新中的入度节点对应的隐状态以及所述第i个节点的位置嵌入进行融合，得到所述入度节点的融合信息；

根据所述第二注意力机制将所述第i个节点在上一次迭代更新中的出度节点对应的隐状态以及所述第i个节点的位置嵌入进行融合，得到所述出度节点的融合信息。

8.根据权利要求7所述的方法，其特征在于，所述第一注意力机制和所述第二注意力机制中的权重相同或不同。

9.根据权利要求6所述的方法，其特征在于，所述T为固定值。

10.根据权利要求5所述的方法，其特征在于，所述根据所述T次迭代更新的词图状态确定所述句子的中间向量表示，包括：

将所述T次迭代更新的T个词图状态按照时间维度的第三注意力机制进行融合，得到融合后的词图状态，作为所述句子的中间向量表示。

11.一种基于机器学习的翻译装置，其特征在于，所述装置包括：获取模块、分词模块、生成模块、编码模块和解码模块；

所述获取模块，被配置为获取第一语种类型的句子；

所述分词模块，被配置为采用不同的分词器将所述句子划分为至少两个分词序列；

所述生成模块，被配置为根据所述至少两个分词序列生成所述句子的词图结构，所述词图结构中的词图边对应候选分词，所述词图结构中的节点对应相邻候选分词之间的边界；

所述编码模块，被配置为调用编码器将所述词图结构基于与所述词图边垂直的维度转换为所述句子的中间向量表示；

所述解码模块，被配置为调用解码器将所述中间向量表示转换为第二语种类型的句子。

12.根据权利要求11所述的装置，其特征在于，

所述分词模块，被配置为采用至少两个不同的分词器对所述句子分别进行分词处理，得到至少两个分词序列。

13.根据权利要求11所述的装置，其特征在于，

所述生成模块，被配置为将所述至少两个分词序列分别进行图转换处理，得到至少两个图结构；

所述生成模块，被配置为将所述至少两个图结构进行合并，得到所述句子的词图结构。

14.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集由所述处理器加载并执行以实现如权利要求1至10任一所述的基于机器学习的翻译方法。

15.一种计算机可读存储介质，其特征在于，所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如权利要求1至10任一所述的基于机器学习的翻译方法。