CN110263353B

CN110263353B - 一种机器翻译方法及装置

Info

Publication number: CN110263353B
Application number: CN201910557372.7A
Authority: CN
Inventors: 李长亮; 郭馨泽; 唐剑波; 王怡然
Original assignee: Beijing Kingsoft Digital Entertainment Co Ltd; Chengdu Kingsoft Digital Entertainment Co Ltd
Current assignee: Beijing Kingsoft Digital Entertainment Co Ltd; Chengdu Kingsoft Digital Entertainment Co Ltd
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2023-10-13
Anticipated expiration: 2039-06-25
Also published as: CN110263353A

Abstract

本申请提供一种机器翻译方法及装置。所述机器翻译方法，包括：获取待翻译语句；获取预先通过编码单元处理得到的背景知识向量集；将所述待翻译语句和所述背景知识向量集通过编码器进行融合处理，得到第一编码向量；将所述第一编码向量输入至解码器中进行处理，得到所述待翻译语句的翻译语句。本申请提供的机器翻译方法及装置，通过将待翻译语句与背景知识相结合，以避免在翻译的过程中由于文化等差异带来的影响，提高翻译结果的准确性和贴合度。

Description

一种机器翻译方法及装置

技术领域

本申请涉及计算机技术领域，特别涉及一种机器翻译方法、装置、计算设备、计算机可读存储介质及芯片。

背景技术

机器翻译，又称为自动翻译，是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。

目前，机器翻译通常采用编码器-解码器框架，编码器负责将源语言句子压缩为语义空间中的一个向量，期望该向量包含源语言句子的主要信息；解码器将编码器提供的语义向量，作为输入，不断迭代，产生在语义上等价的目标端句子，即机器翻译结果。

在机器翻译过程中，如何确定与源语言对应更为准确的目标语言是机器翻译一直需要解决的问题。

发明内容

有鉴于此，本申请实施例提供了一种机器翻译方法、装置、计算设备、计算机可读存储介质及芯片，以解决现有技术中存在的技术缺陷。

本申请实施例公开了一种机器翻译方法，包括：

获取待翻译语句；

获取预先通过编码单元处理得到的背景知识向量集；

将所述待翻译语句和所述背景知识向量集通过编码器进行融合处理，得到第一编码向量；

将所述第一编码向量输入至解码器中进行处理，得到所述待翻译语句的翻译语句。

进一步地，在获取待翻译语句之前，还包括：

获取背景知识，并将所述背景知识输入至编码单元进行处理，得到背景知识向量集。

进一步地，所述编码单元包括知识嵌入层和卷积神经网络层，所述将所述背景知识输入至编码单元进行处理，得到背景知识向量集，包括：

将所述背景知识输入至所述知识嵌入层进行处理，得到知识嵌入层的输出向量集；

将所述知识嵌入层的输出向量集输入至所述卷积神经网络层进行处理，得到所述背景知识向量集。

进一步地，所述编码器包括n个顺次连接的翻译编码层，其中，n≥1，且n为整数；

所述将所述待翻译语句和所述背景知识向量集通过编码器进行融合处理，得到第一编码向量，包括：

S11、将所述待翻译语句转换为语句向量，并将所述语句向量输入至第1个翻译编码层进行处理，得到第1个翻译编码层的输出向量；

S12、判断第i个翻译编码层的输出向量是否与所述背景知识向量集进行融合处理以及i是否等于n，其中，1≤i≤n，且i为整数；

S13、在所述第i个翻译编码层的输出向量与所述背景知识向量集进行融合处理且i等于n的情况下，将所述第i个翻译编码层的输出向量与所述背景知识向量集进行融合处理得到的融合向量作为第一编码向量；

S14、在所述第i个翻译编码层的输出向量与所述背景知识向量集进行融合处理且i小于n的情况下，将所述第i个翻译编码层的输出向量与所述背景知识向量集进行融合处理得到的融合向量输入至第i+1层，并将i+1赋值给i，执行步骤S12；

S15、在所述第i个翻译编码层的输出向量与所述背景知识向量集不进行融合处理且i等于n的情况下，将所述第i个翻译编码层的输出向量作为第一编码向量；

S16、在所述第i个翻译编码层的输出向量与所述背景知识向量集不进行融合处理且i小于n的情况下，将所述第i个翻译编码层的输出向量输入至第i+1层，并将i+1赋值给i，执行上述判断步骤S12。

进一步地，所述编码器还包括源嵌入层，所述翻译编码层包括自注意力层和前馈神经网络层，所述将所述待翻译语句转换为语句向量，并将所述语句向量输入至第1个翻译编码层进行处理，得到第1个翻译编码层的输出向量，包括：

将所述待翻译语句输入至所述源嵌入层进行处理，得到所述语句向量；

将所述语句向量输入至所述自注意力层进行处理，得到所述自注意力层的输出向量；

将所述自注意力层的输出向量输入至所述前馈神经网络层进行处理，得到所述第1个翻译编码层的输出向量。

进一步地，所述背景知识向量集包括至少一个背景知识向量，将所述第i个翻译编码层的输出向量与所述背景知识向量集进行融合处理，得到融合向量，包括：

计算所述第i个翻译编码层的输出向量和所述背景知识向量集中的每一个所述背景知识向量之间的相关度；

基于所述相关度为每一个所述背景知识向量配置相关度权重；

基于所述背景知识向量的相关度权重，将所述第i个翻译编码层的输出向量与所述背景知识向量融合，得到所述融合向量。

进一步地，所述编码器包括编码单元以及一个编码层；

将所述待翻译语句转换为语句向量；

将所述语句向量与所述背景知识向量集输入至所述编码层中进行处理，得到所述第一编码向量。

进一步地，所述编码层包括自注意力层、知识注意力层和前馈神经网络层，

所述将所述语句向量与所述背景知识向量集输入至所述编码层中进行处理，得到所述第一编码向量，包括：

将所述语句向量输入至所述编码层的自注意力层中进行处理，得到自注意力层的输出向量；

将所述背景知识向量集与所述自注意力层的输出向量输入至所述知识注意力层中进行融合处理，得到知识注意力层的输出向量；

将所述知识注意力层的输出向量输入至所述前馈神经网络层中进行处理，得到所述第一编码向量。

进一步地，所述编码器包括编码单元以及m个顺次连接的编码层，其中，m＞1，且m为整数；

S21、将所述待翻译语句转换为语句向量，并输入至第1个编码层中进行处理，得到第1个编码层的输出向量；

S22、将第p个编码层的输出向量与所述背景知识向量集输入至第p+1个编码层中进行融合处理，得到第p+1个编码层的输出向量，其中，1≤p＜m，且p为整数；

S23、判断p+1是否等于m，若是，则执行步骤S24，若否，则执行步骤S25；

S24、将所述第p+1个编码层的输出向量作为第一编码向量；

S25、将p+1赋值给p，执行步骤S22。

所述将背景知识向量集与第p个编码层的输出向量输入至第p+1个编码层中进行融合处理，得到第p+1个编码层的输出向量，包括：

将所述第p个编码层的输出向量输入至第p+1个编码层的自注意力层中进行处理，得到自注意力层的输出向量；

将所述知识注意力层的输出向量输入至所述前馈神经网络层中进行处理，得到所述第p+1个编码层的输出向量。

进一步地，所述背景知识向量集包括至少一个背景知识向量，所述将所述背景知识向量集与所述自注意力层的输出向量输入至所述知识注意力层中进行融合处理，得到知识注意力层的输出向量，包括：

计算所述自注意力层的输出向量与所述背景知识向量集中的每一个所述背景知识向量之间的相关度；

判断所述自注意力层的输出向量与所述背景知识向量之间的相关度是否大于目标阈值；

若是，基于所述相关度为所述背景知识向量配置权重，并基于所述背景知识向量的权重与所述自注意力层的输出向量进行融合处理，得到融合向量；

若否，将所述自注意力层的输出向量作为融合向量。

进一步地，所述解码器包括至少一个解码层，所述将所述第一编码向量输入至解码器中进行处理，得到所述待翻译语句的翻译语句，包括：

将所述第一编码向量分别输入至所述解码器中的每一个所述解码层中进行处理，并根据所述解码层的输出向量得到所述待翻译语句的翻译语句。

一种机器翻译装置，包括：

第一获取模块，被配置为获取待翻译语句。

第二获取模块，被配置为获取预先通过编码单元处理得到的背景知识向量集。

编码模块，被配置为将所述待翻译语句和所述背景知识向量集通过编码器进行处理，得到第一编码向量。

解码模块，被配置为将所述第一编码向量输入至解码器中进行融合处理，得到所述待翻译语句的翻译语句。

一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现所述机器翻译方法的步骤。

一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现所述机器翻译方法的步骤。

一种芯片，其存储有计算机指令，该指令被处理器执行时实现所述机器翻译方法的步骤。

本申请提供的机器翻译方法、装置、计算设备、计算机可读存储介质及芯片，通过将待翻译语句与背景知识相结合，以避免在翻译的过程中由于文化等差异带来的影响，提高翻译结果的准确性和贴合度。

附图说明

图1是本申请一实施例所述的计算设备的结构示意图；

图2是本申请一实施例所述的机器翻译方法的步骤流程示意图；

图3是本申请一实施例所述的得到第一编码向量的步骤流程示意图；

图4是本申请一实施例所述的机器翻译方法所对应的模型结构示意图；

图5是本申请一实施例所述的机器翻译方法的步骤流程示意图；

图6是本申请一实施例所述的机器翻译方法所对应的模型结构示意图；

图7是本申请一实施例所述的机器翻译方法的步骤流程示意图；

图8a是本申请一实施例所述的机器翻译方法所对应的模型结构示意图；

图8b是本申请一实施例所述的机器翻译方法所对应模型的编码器层级结构示意图；

图9是本申请一实施例所述的机器翻译装置的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本发明一个或多个实施例涉及的名词术语进行解释。

编码器：编码器是由n个完全相同的层堆叠而成(n≥1，且n为整数)，每一层有两个子层。第一个子层是多头自注意力机制(Multi-Head Attention)层，第二个子层是由一个简单的、按逐个位置进行全连接的前向神经网络。在两个子层之间通过残差网络结构进行连接，后接一个层正则化层。可以得出，每一个子层的输出通过公式可以表示为LayerNorm(x+Sublayer(x))，其中Sublayer(x)函数由各个子层独立实现。为了方便各层之间的残差连接，模型中所有的子层包括嵌入层，都固定输出的维度为512。

解码器：解码器也是由n个完全相同的层堆叠而成(n≥1，且n为整数)。除了编码器中介绍过的两个子层之外，解码器还有第三个子层，用于对编码器对的输出实现多头注意力机制。与编码器类似，我们也使用残差架构连接每一个子层，后接一个层正则化层。对于解码器对的自注意力子层(Masked Multi-Head Attention)，我们对结构做了改变来防止当前序列的位置信息和后续序列的位置信息混在一起。这样的一个位置掩码操作，再加上原有输出嵌入端对位置信息做偏置，就可以确保对位置i的预测仅依赖于已知的位置i之前的输出，而不会依赖于位置i之后的输出。

注意力机制：是一种将内部经验和外部感觉对齐从而增加部分区域的观察精细度的机制，模仿了生物观察行为的内部过程。注意力机制可以快速提取数据的重要特征。

在本申请中，提供了一种机器翻译方法、装置、计算设备、计算机可读存储介质及芯片，在下面的实施例中逐一进行详细说明。

图1是示出了根据本说明书一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接，数据库150用于保存数据。

计算设备100还包括接入设备140，接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图1所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备100可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。

其中，处理器120可以执行图2所示方法中的步骤。图2示出了根据本申请一实施例的机器翻译方法的示意性流程图，包括步骤S210至步骤S240。

步骤S210：获取待翻译语句。

具体地，待翻译语句是指需要进行翻译的语句，可以是一句话、一段话，或是一篇文章等，可以是中文、英文、法文等各种语言文字，可以通过用户手动输入获取或是语音输入并转换为文本获取或其他各种获取方法均可，本申请对此不做限制。

步骤S220：获取预先通过编码单元处理得到背景知识向量集。

在实际应用中，可以预先获取背景知识，并将所述背景知识输入至编码单元进行处理，得到背景知识向量集。

具体地，背景知识是指可以帮助理解待翻译语句的知识。背景知识可以在预设的背景知识库中获取得到，或以其他方式获取均可，本申请对此不做限制。背景知识可以包括诸如天文、地理、文学、医药等各个领域的基础知识，还可以每隔一段时间对背景知识库中的背景知识进行更新，以丰富其内容，本申请对此不做限制。

其中，与待翻译语句具有一定关联性的背景知识可以作为所述待翻译语句的背景知识。例如，假设待翻译语句包括“紫禁城内的建筑分为外朝和内廷两部分，外朝的中心为太和殿、中和殿、保和殿，统称三大殿，是国家举行大典礼的地方”，那么，有关于“紫禁城”、“明朝”、“清朝”以及“古建筑”等的知识均可以作为上述待翻译语句的背景知识。

由于背景知识数量庞大，可以在将背景知识进行处理之前，预先对背景知识做分类及区域划分，并基于背景知识所属的领域或其他属性的不同，对其进行分类，如文学类、影视类、生活类等等，其中，每一类也可以进一步地进行细化，如文学类又可以划分为中国文学类、外国文学类或古代文学类、现代文学类等等，可以以每一类的背景知识作为一个输入集进行输入并处理，每一个输入集经过处理后均得到一个相对应的背景知识向量，如此即得到由若干背景知识向量组成的背景知识向量集，既可以提高背景知识的处理速度，又可以保证每一类背景知识(每一个背景知识向量)的丰富度。或可以以背景知识中的一句话、一段话等分别作为一个输入集进行输入并处理，或以其他方式对背景知识进行划分或输入均可，本申请对此不做限制。

具体地，所述编码单元包括知识嵌入层和卷积神经网络层，其中，知识嵌入层可以将背景知识转换为具有固定大小的向量表示，卷积神经网络层可以对背景知识进行特征提取。

在实际应用中，可以将所述背景知识输入至所述知识嵌入层进行处理，得到知识嵌入层的输出向量集；将所述知识嵌入层的输出向量集输入至所述卷积神经网络层进行处理，得到所述背景知识向量集。

其中，背景知识到背景知识向量集之间的转换是在获取待翻译语句之前预先完成的，一次转换，可多次使用，无需每次获取待翻译语句均进行一次背景知识到背景知识向量集的转换，故背景知识向量集可以看做是一种离线数据，每次获取待翻译语句，均可以直接获取已完成转换的背景知识向量集。

背景知识向量集是包括了全部背景知识向量的集合，在将背景知识集与待翻译语句一起输入至编码器中后继续执行后续的步骤。

步骤S230：将所述待翻译语句和所述背景知识向量集通过编码器进行融合处理，得到第一编码向量。

在实际应用中，所述编码器可以包括n个顺次连接的翻译编码层，其中，n≥1，且n为整数。

所述步骤S230包括步骤S231至步骤S236，如图3所示。

步骤S231：将所述待翻译语句转换为语句向量，并将所述语句向量输入至第1个翻译编码层进行处理，得到第1个翻译编码层的输出向量。

其中，所述编码器还包括源嵌入层，所述翻译编码层包括自注意力层和前馈神经网络。

具体地，待翻译语句与语句向量的转换可以通过源嵌入层实现。源嵌入层可以将待翻译语句转换为具有固定长度的语句向量，以将其输入至翻译编码层中进行处理。自注意力层可以通过注意力机制快速提取待翻译语句中的重要特征。前馈神经网络层可以接收自注意力层的输出，并将其输入至下一翻译编码层中的自注意力层，再次进行特征提取。

在实际应用中，可以将所述待翻译语句输入至所述源嵌入层进行处理，得到所述语句向量；将所述语句向量输入至所述自注意力层进行处理，得到所述自注意力层的输出向量；将所述自注意力层的输出向量输入至所述前馈神经网络层进行处理，得到所述第1个翻译编码层的输出向量。

S232、判断第i个翻译编码层的输出向量是否与所述背景知识向量集进行融合处理以及i是否等于n，其中，1≤i≤n，且i为整数。

所述背景知识向量集包括至少一个背景知识向量，在实际应用中，可以计算所述第i个翻译编码层的输出向量和所述背景知识向量集中的每一个所述背景知识向量之间的相关度；基于所述相关度为每一个所述背景知识向量配置相关度权重；基于所述背景知识向量的相关度权重，将所述第i个翻译编码层的输出向量与所述背景知识向量融合，得到所述融合向量。

具体地，还可以预先设置相关度阈值，在所述第i个翻译编码层的输出向量和所述背景知识向量集中的每一个所述背景知识向量之间的相关度小于相关度阈值的情况下，确定该背景知识向量对应的背景知识与待翻译语句无关并舍弃，在所述第i个翻译编码层的输出向量和所述背景知识向量之间的相关度大于或等于相关度阈值的情况下，确定该背景知识向量对应的背景知识与待翻译语句有关，并基于相关度的大小为背景知识向量配置相关度权重，并基于所述背景知识向量的相关度权重，将所述第i个翻译编码层的输出向量与背景知识向量融合，即得到所述融合向量，其中融合的方式可以是如向量拼接等的各种方式，本申请对此不做限制。

例如，假设待翻译语句为“九寨归来不看水”，获取到的背景知识中包括背景知识A“九寨沟国家自然保护区是岷山山系大熊猫A种群的核心地和走廊带，具有典型的自然生态系统，为全国生物多样性保护的核心之一”，背景知识B“阿坝藏族羌族自治州地势高亢，境内垂直气候显著”，背景知识C“卢浮宫位居世界四大博物馆之首”，经过计算，待翻译语句向量与背景知识向量集中的背景知识A向量、背景知识B向量、背景知识C向量之间的相关度分别为0.90,0.80和0，则将背景知识C向量舍弃，分别为背景知识A向量和背景知识B向量配置相关度权重0.53和0.47，并与第i个翻译编码层的输出向量进行融合，即得到融合向量。

S233、在所述第i个翻译编码层的输出向量与所述背景知识向量集进行融合处理且i等于n的情况下，将所述第i个翻译编码层的输出向量与所述背景知识向量集进行融合处理得到的融合向量作为第一编码向量。

具体地，在i等于n的情况下，第i个翻译编码层即为编码器中的最后一个翻译编码层，第i个翻译编码层的输出向量即为最后一个翻译编码层的输出向量，且所述第i个翻译编码层的输出向量与所述背景知识向量进行融合处理，即所述编码器的输出向量(背景知识向量集)在所述编码器中的输入位置为最后一个翻译编码层之后，背景知识向量集输入至编码器中与编码器中最后一个翻译编码层的输出向量进行融合，得到融合向量，并将融合向量作为第一编码向量。

S234、在所述第i个翻译编码层的输出向量与所述背景知识向量集进行融合处理且i小于n的情况下，将所述第i个翻译编码层的输出向量与所述背景知识向量集进行融合处理得到的融合向量输入至第i+1层，并将i+1赋值给i，执行步骤S232。

具体地，在i小于n的情况下，第i个翻译编码层可以是编码器中除最后一个翻译编码层之外的任意翻译编码层，第i个翻译编码层的输出向量可以是编码器中除最后一个翻译编码层之外的任意翻译编码层的输出向量，将所述第i个翻译编码层的输出向量与所述背景知识向量集进行融合处理，即所述编码器的输出向量(背景知识向量集)在编码器中的输入位置为最后一个翻译编码层之前，背景知识向量集与第i个翻译编码层的输出向量进行融合处理后，将得到的融合向量依次输入至第i+1个翻译编码层、第i+2个翻译编码层……第n个翻译编码层(最后一个翻译编码层)中进行处理，并将第n个翻译编码层的输出向量作为第一编码向量。

S235、在所述第i个翻译编码层的输出向量与所述背景知识向量集不进行融合处理且i等于n的情况下，将所述第i个翻译编码层的输出向量作为第一编码向量。

具体地，在i等于n的情况下，第i个翻译编码层即为编码器中的最后一个翻译编码层，第i个翻译编码层的输出向量即为最后一个翻译编码层的输出向量，由于该输出向量不与背景知识向量集进行融合处理，故直接将所述第i个翻译编码层的输出向量作为第一编码向量。

S236、在所述第i个翻译编码层的输出向量与所述背景知识向量集不进行融合处理且i小于n的情况下，将所述第i个翻译编码层的输出向量输入至第i+1层，并将i+1赋值给i，执行上述判断步骤S232。

具体地，在i小于n的情况下，第i个翻译编码层可以是编码器中除最后一个翻译编码层之外的任意翻译编码层，第i个翻译编码层的输出向量可以是编码器中除最后一个翻译编码层之外的任意翻译编码层的输出向量，由于在此种情况下，第i个翻译编码层的输出向量不与背景知识向量集进行融合处理，故将该输出向量作为下一个翻译编码层的输入向量继续输入至下一个翻译编码层中进行处理，并再次进行如步骤S232所述的判断。

步骤S240：将所述第一编码向量输入至解码器中进行处理，得到所述待翻译语句的翻译语句。

在实际应用中，可以将所述第一编码向量分别输入至所述解码器中的每一个解码层中进行处理，并根据所述解码层的输出向量得到所述待翻译语句的翻译语句。

具体地，如图4所示，图4示出了本实施例所述机器翻译方法所对应的模型结构示意图。

其中，编码端包括编码器和独立于编码器之外的编码单元，背景知识输入至编码单元中进行处理得到背景知识向量集，并将背景知识向量集输入至编码器中，待翻译语句转换为待翻译语句向量后，输入至编码器中逐层进行处理，背景知识向量集可以与任意一层或多层翻译编码层的输出向量进行融合处理，最终得到第一编码向量。

解码端包括解码器，解码器包括若干个解码层，将参考解码向量输入至解码器的第一个解码层中，将第一编码向量分别输入到解码器中的每一个解码层中，逐层进行处理，最终得到待翻译语句对应的翻译语句。

需要说明的是，翻译语句包括多个翻译词语，对于解码器来说，每次解码得到一个翻译词语。对于所述翻译语句的第一个翻译词语，所述参考解码向量为预设的初始解码向量；对于所述翻译语句的除去第一个翻译词语之外的其他翻译词语，其参考解码向量为上一个翻译词语对应的解码向量。

下面结合具体的例子对上述实施例做出具体的说明。

例如，获取待翻译语句及背景知识向量集{E_N}，将待翻译语句与背景知识向量集输入至编码器中进行处理，得到第一编码向量。

假设获取到的待翻译语句为“欲寄彩笺兼尺素，山长水阔知何处”，并将上述待翻译语句翻译成英文，将上述待翻译语句通过源嵌入层转换为向量表示得到语句向量E₀，设定相关度阈值为a，并计算语句向量E₀与背景知识向量集{E_N}中的每一个背景知识之间的相关度，得到背景知识向量E_N1“宋朝晏殊《蝶恋花》”、背景知识向量E_N2“彩笺借指诗笺或书信”、背景知识向量E_N3“尺素是书信的一种别名”与语句向量E₀之间的相关度大于a，则基于所述相关度分别为上述背景知识配置相关度权重，并基于相关度权重将语句向量E₀与上述背景知识向量E_N1、E_N2、E_N3进行融合处理。

假设编码器中包括6个翻译编码层，在所述背景知识向量集{E_N}在编码器中的输入位置(编码单元的位置)位于最后一个翻译编码层之后的情况下，将编码器中最后一个翻译编码层的输出向量E₆与上述背景知识向量E_N1、E_N2、E_N3进行融合处理，得到第一编码向量E_{(6，N1，N2，N3)}，并将第一编码向量E_(6，N1，N2，N3)输入至解码器中进行解码处理，得到待翻译语句的翻译语句为“I'm ready to send of letters and elegant notes.But the riversare wide,the mountains so hight,I do not know where to locate you”。

在所述背景知识向量集{E_N}在编码器中的输入位置在最后一个翻译编码层之前的情况下，在此以背景知识向量集{E_N}的输入位置(编码单元的位置)位于第二翻译编码层与第三翻译编码层之间为例，语句向量依次通过第一、第二翻译编码层的处理后，得到第二翻译编码层的输出向量E₂，将第二翻译编码层的输出向量E₂与上述背景知识向量E_N1、E_N2、E_N3进行融合处理，得到融合向量E_{(2，N1，N2，N3)}，并将融合向量E_{(2，N1，N2，N3)}依次逐层输入至第三、第四、第五和第六翻译编码层中进行处理，并将第六翻译编码层的输出向量E_{(6，N1，N2，N3)}作为第一编码向量，输入至解码器中，经过解码处理得到待翻译语句的翻译语句为“I'm ready tosend of letters and elegant notes.But the rivers are wide,the mountains sohight,I do not know where to locate you”。

本申请一实施例所述的机器翻译方法，通过在编码器外设置独立的编码单元，分别对背景知识和待翻译语句进行处理，并将背景知识和待翻译语句进行融合处理，可以结合背景知识对待翻译语句进行翻译，有效提高翻译结果的准确性。

如上述例子所示，翻译，其实主要是两种文化间的内涵转换，但由于东西方文化的差异，造成两种语言文化间存在着巨大的差异，因而在翻译过程中，存在着很多文化空缺现象。如中国文化中独有的东西，如天干地支，阴阳八卦，农历节气，中医术语等，这些对于西方来说，是完全陌生的，当然就没有与其相对应的英文词汇，因此，在翻译过程中，充分结合背景知识就显得尤为重要，只有对中国文化具有一定深度的了解后，用适当的方式，选取适当的词汇和句子，才能尽量转述待翻译语句的含义。

如图5所示，一种机器翻译方法，包括步骤S510至步骤S540。

步骤S510：获取待翻译语句。

步骤S520：获取预先通过编码单元处理得到背景知识向量集。

步骤S530：将所述待翻译语句转换为语句向量；将所述语句向量与所述背景知识向量集输入至所述编码层中进行处理，得到所述第一编码向量。

在实际应用中，所述编码器包括编码单元以及一个编码层，在编码器中的编码层之前还设置有源嵌入层，可以将待翻译语句输入至编码器中的源嵌入层进行处理，得到语句向量。将经过源嵌入层处理得到的语句向量输入至编码层中进行处理，即得到第一编码向量。

具体地，编码层包括自注意力层、知识注意力层和前馈神经网络层，可以将所述语句向量输入至所述编码层的自注意力层中进行处理，得到自注意力层的输出向量；将所述背景知识向量集与所述自注意力层的输出向量输入至所述知识注意力层中进行融合处理，得到知识注意力层的输出向量；将所述知识注意力层的输出向量输入至所述前馈神经网络层中进行处理，得到所述第一编码向量。

由于上述编码器中仅包括一个编码层，所以将编码单元输出的背景知识向量集与源嵌入层输出的语句向量一起作为编码层的输入，并将上述编码层的输出直接作为第一编码向量，完成编码端的所有步骤。

步骤S540：将所述第一编码向量输入至解码器中进行处理，得到所述待翻译语句的翻译语句。

具体地，所述解码器包括至少一个解码层，在实际应用中，可以将所述第一编码向量分别输入至所述解码器中的每一个所述解码层中进行处理，并根据所述解码层的输出向量得到所述待翻译语句的翻译语句。

具体地，如图6所示，图6示出了本实施例所述机器翻译方法所对应的模型结构示意图。

其中，编码器包括编码单元和一个编码层，编码单元包括知识嵌入层和卷积神经网络层，编码层包括自注意力层、知识注意力层和前馈神经网络层，背景知识经过编码单元的处理得到背景知识向量集，并输入至编码层的知识注意力层中与经过自注意力层处理得到的待翻译语句向量进行融合处理，得到融合向量，融合向量经过前馈神经网络层的处理后即得到第一编码向量。

解码器包括若干个解码层，将参考解码向量输入至解码器的第一个解码层中，将第一编码向量分别输入到解码器中的每一个解码层中，逐层进行处理，最终得到待翻译语句对应的翻译语句。

本申请一实施例所述的机器翻译方法，在编码器中设置一个编码层与一个编码单元，将待翻译语句与经过编码单元得到的背景知识向量集一起输入至编码层中进行处理，得到编码向量，上述方法通过将待翻译语句与背景知识相结合进行翻译，可以在保证翻译效果的同时提高翻译速度。

如图7所示，一种机器翻译方法，包括步骤S710至步骤S760。

步骤S710：获取待翻译语句。

步骤S720：获取预先通过编码单元处理得到背景知识向量集。

步骤S730：将所述待翻译语句转换为语句向量，并输入至第1个编码层中进行处理，得到第1个编码层的输出向量。

具体地，所述编码器包括编码单元以及m个顺次连接的编码层，其中，m＞1，且m为整数，即编码器中包括编码单元以及两个或多个顺次连接的编码层。所述编码器中的第1个编码层之前还设置有源嵌入层，可以将待翻译语句输入至源嵌入层进行处理，得到语句向量，将语句向量输入第1个编码层中进行处理，得到第1个编码层的输出向量。

步骤S740：将第p个编码层的输出向量与所述背景知识向量集输入至第p+1个编码层中进行融合处理，得到第p+1个编码层的输出向量，其中，1≤p＜m，且p为整数。

其中，所述编码层包括自注意力层、知识注意力层和前馈神经网络层，在实际应用中，可以将所述第p个编码层的输出向量输入至第p+1个编码层的自注意力层中进行处理，得到自注意力层的输出向量；将所述背景知识向量集与所述自注意力层的输出向量输入至所述知识注意力层中进行融合处理，得到知识注意力层的输出向量；将所述知识注意力层的输出向量输入至所述前馈神经网络层中进行处理，得到所述第p+1个编码层的输出向量。

具体地，所述背景知识向量集包括至少一个背景知识向量，在实际应用中，可以计算所述第p+1个编码层中自注意力层的输出向量与所述背景知识向量集中的每一个所述背景知识向量之间的相关度；判断所述第一子层的输出向量与所述背景知识向量之间的相关度是否大于目标阈值；若是，基于所述相关度为所述背景知识向量配置权重，并基于所述背景知识向量的权重与所述第一子层的输出向量进行融合处理，得到融合向量；若否，将所述自注意力层的输出向量作为融合向量。

在有多个背景知识向量与自注意力层的输出向量之间的相关度大于目标阈值的情况下，分别将上述多个相关度大于目标阈值的背景知识向量与自注意力层的输出向量进行融合处理，得到融合向量；在所有背景知识向量与自注意力层的输出向量之间的相关度均小于目标阈值的情况下，则不将背景知识向量与自注意力层的输出向量进行融合处理，直接将自注意力层的输出向量作为融合向量继续执行后续步骤。

例如，假设待翻译语句为“胡杨可以忍受荒漠中干旱的环境，对盐碱有极强的忍耐力。”获取到的背景知识中包括背景知识A“胡杨是干旱大陆性气侯条件下的树种”，背景知识B“乔木是指树身高大的树木，由根部发生独立的主干，树干和树冠有明显区分”，背景知识C“沙漠是指沙质荒漠化的土地，地球陆地的三分之一是沙漠”，经过计算，待翻译语句向量与背景知识向量集中的背景知识A向量、背景知识B向量、背景知识C向量之间的相关度分别为0.95,0.77和0.21，假设预设的相关度阈值为0.5，则将背景知识C向量与待翻译语句之间的相关度低于相关度阈值，舍弃，且分别为背景知识A向量和背景知识B向量配置相关度权重0.55和0.45，并与自注意力的输出向量进行融合处理，得到融合向量，将所述融合向量输入至所述编码层的前馈神经网络层进行处理，即得到所述第一编码向量。

步骤S750：判断p+1是否等于m，若是，则执行步骤S751，若否，则执行步骤S752。

步骤S751：将所述第p+1个编码层的输出向量作为第一编码向量。

步骤S752：将p+1赋值给p，执行步骤S740。

具体地，判断p+1是否等于m，即判断第p+1个编码层是否是编码器中的最后一个编码层，若第p+1个编码层是编码器中的最后一个编码层，则第p+1个编码层的输出向量即为第一编码向量，若第p+1个编码层并不是编码器中的最后一个编码层，则将第p+1个编码层的输出向量与背景知识向量集作为下一个编码层的输入向量，并输入至下一个编码层继续进行处理。

步骤S760：将所述第一编码向量输入至解码器中进行处理，得到所述待翻译语句的翻译语句。

具体地，所述解码器包括至少一个解码层，在实际应用中，可以将所述第一编码向量分别输入至所述解码器中的每一个解码层中进行处理，并根据所述解码层的输出向量得到所述待翻译语句的翻译语句。

具体地，如图8a、图8b所示，图8a示出了本实施例所述机器翻译方法所对应的模型结构示意图，图8b示出了本申请一实施例所述的机器翻译方法所对应的模型的编码器层级结构示意图。

其中，编码器包括编码单元和多个编码层，编码单元包括知识嵌入层和卷积神经网络层，每一个编码层均包括自注意力层、知识注意力层和前馈神经网络层，背景知识经过编码单元的处理得到背景知识向量集，并输入至任意一个编码层的知识注意力层中与该编码层经过自注意力层处理得到的待翻译语句向量进行融合处理，得到融合向量，融合向量经过前馈神经网络层的处理后得到该层的输出向量，继续向下一编码层输入并逐层进行处理，最终得到第一编码向量。

下面结合具体的例子对上述实施例做出具体的说明。

例如，获取待翻译语句和背景知识。假设获取到的待翻译语句为“They havedecided to cut the Gordian knot to wipe out the enemy at a blow”，并将该待翻译语句翻译为中文。

假设编码器中包括编码单元以及6个顺次连接的编码层，将背景知识输入至编码器中的编码单元进行处理得到背景知识向量集{E_N}。将待翻译语句输入至编码器中的源嵌入层进行处理，得到语句向量E_a，将语句向量E_a与背景知识向量集{E_M}输入至第1个编码层中进行处理，得到第1个编码层的输出向量E_a1，将第1个编码层的输出向量E_a1与背景知识向量集{E_M}输入至第2个编码层中进行处理，得到第2个编码层的输出向量E_a2，依次类推，将第5个编码层的输出向量E_a5与背景知识向量集{E_M}输入至第6个编码层中进行处理，得到的第6个编码层的输出向量E_a6即为第一编码向量。

其中，以第1个编码层为例，将语句向量E₀与背景知识向量集{E_M}输入至第1个编码层中，分别计算语句向量E_a与背景知识向量集{E_M}中的每一个背景知识向量之间的相关度并与目标阈值进行比较，得到相关度大于目标阈值的背景知识向量E_M1“戈尔迪在木桩上系了一个众人无法解开的绳结，后来这个结被亚历山大王一刀斩开，因此Gordian knot意为‘棘手的问题’，而cut the Gordian knot意为‘快刀斩乱麻’”。将上述背景向量E_M1与语句向量E₀进行融合处理，得到融合向量E_(a,M1)。将所述交叉向量E_(a,M1)输入至上述第1个编码层的前馈神经网络层进行处理，即得到第1个编码层的输出向量E_a1。依次类推，其他编码层的处理过程不再赘述，最终得到第一编码向量E_a6，并将E_a6输入至解码器中，即得到上述待翻译语句的翻译语句为“他们决定采取快刀斩乱麻的措施，一举消灭敌人”。

基于一个国家或民族的文化背景，一些词语或词组均有其特定的含义，但是由于不同文化之间的差异，在翻译的过程中，如果对于背景知识了解不够，往往会导致对于其中某些词语或词组等的误翻和错翻，如上述例子所示的“cut the Gordian knot”，若对于背景知识完全无了解，仅仅按照字面意思进行翻译，得到的结果为“戈尔迪之结”，但该短语背后却是包含了一个小典故，只有在结合了背景知识的小典故之后，才会得出其真正含义——“快刀斩乱麻”。

本申请一实施例所述的机器翻译方法，可以在大量的背景知识中有效的选择与待翻译语句相关的背景知识，并进行融合处理，提高翻译结果的准确性和贴合度。

如图9所示，一种机器翻译装置，包括：

第一获取模块910，被配置为获取待翻译语句。

第二获取模块920，被配置为获取预先通过编码单元处理得到的背景知识向量集。

编码模块930，被配置为将所述待翻译语句和所述背景知识向量集通过编码器进行处理，得到第一编码向量。

解码模块940，被配置为将所述第一编码向量输入至解码器中进行融合处理，得到所述待翻译语句的翻译语句。

可选地，所述机器翻译装置，还包括：

预先获取模块，被配置为获取背景知识，并将所述背景知识输入至编码单元进行处理，得到背景知识向量集。

可选地，所述编码单元包括知识嵌入层和卷积神经网络层，所述第二获取模块920，进一步地被配置为：

将所述背景知识输入至所述知识嵌入层进行处理，得到知识嵌入层的输出向量集。

可选地，所述编码器包括n个顺次连接的翻译编码层，其中，n≥1，且n为整数。

所述编码模块930，进一步地被配置为：

S11、将所述待翻译语句转换为语句向量，并将所述语句向量输入至第1个翻译编码层进行处理，得到第1个翻译编码层的输出向量。

S12、判断第i个翻译编码层的输出向量是否与所述背景知识向量集进行融合处理以及i是否等于n，其中，1≤i≤n，且i为整数。

S13、在所述第i个翻译编码层的输出向量与所述背景知识向量集进行融合处理且i等于n的情况下，将所述第i个翻译编码层的输出向量与所述背景知识向量集进行融合处理得到的融合向量作为第一编码向量。

S14、在所述第i个翻译编码层的输出向量与所述背景知识向量集进行融合处理且i小于n的情况下，将所述第i个翻译编码层的输出向量与所述背景知识向量集进行融合处理得到的融合向量输入至第i+1层，并将i+1赋值给i，执行步骤S12。

S15、在所述第i个翻译编码层的输出向量与所述背景知识向量集不进行融合处理且i等于n的情况下，将所述第i个翻译编码层的输出向量作为第一编码向量。

可选地，所述编码器还包括源嵌入层，所述翻译编码层包括自注意力层和前馈神经网络层，所述编码模块930，进一步地被配置为：

将所述待翻译语句输入至所述源嵌入层进行处理，得到所述语句向量。

将所述语句向量输入至所述自注意力层进行处理，得到所述自注意力层的输出向量。

可选地，所述背景知识向量集包括至少一个背景知识向量，所述编码模块930，进一步地被配置为：

计算所述第i个翻译编码层的输出向量和所述背景知识向量集中的每一个所述背景知识向量之间的相关度。

基于所述相关度为每一个所述背景知识向量配置相关度权重。

可选地，所述编码器包括编码单元以及一个编码层，所述编码模块930，进一步地被配置为：

将所述待翻译语句转换为语句向量。

可选地，所述编码层包括自注意力层、知识注意力层和前馈神经网络层，所述编码模块930，进一步地被配置为：

将所述语句向量输入至所述编码层的自注意力层中进行处理，得到自注意力层的输出向量。

将所述背景知识向量集与所述自注意力层的输出向量输入至所述知识注意力层中进行融合处理，得到知识注意力层的输出向量。

可选地，所述编码器包括编码单元以及m个顺次连接的编码层，其中，m＞1，且m为整数，所述编码模块930，进一步地被配置为：

S21、将所述待翻译语句转换为语句向量，并输入至第1个编码层中进行处理，得到第1个编码层的输出向量。

S22、将第p个编码层的输出向量与所述背景知识向量集输入至第p+1个编码层中进行融合处理，得到第p+1个编码层的输出向量，其中，1≤p＜m，且p为整数。

S23、判断p+1是否等于m，若是，则执行步骤S24，若否，则执行步骤S25。

S24、将所述第p+1个编码层的输出向量作为第一编码向量。

S25、将p+1赋值给p，执行步骤S22。

将所述第p个编码层的输出向量输入至第p+1个编码层的自注意力层中进行处理，得到自注意力层的输出向量。

计算所述自注意力层的输出向量与所述背景知识向量集中的每一个所述背景知识向量之间的相关度。

判断所述自注意力层的输出向量与所述背景知识向量之间的相关度是否大于目标阈值。

若是，基于所述相关度为所述背景知识向量配置权重，并基于所述背景知识向量的权重与所述自注意力层的输出向量进行融合处理，得到融合向量。

若否，将所述自注意力层的输出向量作为融合向量。

可选地，所述解码器包括至少一个解码层，所述解码模块940，进一步地被配置为：

本申请一实施例所述的机器翻译装置，可以将待翻译语句与背景知识相结合，可以有效避免在句子中含有典故等情况时，仅根据字面直译产生不适合的翻译结果。

本申请一实施例还提供一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现以下步骤：

获取待翻译语句。

获取预先通过编码单元处理得到的背景知识向量集。

将所述待翻译语句和所述背景知识向量集通过编码器进行融合处理，得到第一编码向量。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如前所述机器翻译方法的步骤。

本申请一实施例还提供一种芯片，其存储有计算机指令，该指令被处理器执行时实现所述机器翻译方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的机器翻译方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述机器翻译方法的技术方案的描述。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种机器翻译方法，其特征在于，包括：

获取待翻译语句；

获取预先通过编码单元处理得到的背景知识向量集，其中，所述背景知识向量集的类型与所述待翻译语句包括的背景知识的类型具有关联关系；

将所述待翻译语句和所述背景知识向量集通过编码器进行融合处理，得到第一编码向量；包括：将所述待翻译语句转换为语句向量；将所述语句向量与所述背景知识向量集输入至编码层中进行融合处理，得到所述第一编码向量，其中，所述编码器包括至少一个顺次连接的编码层；

2.根据权利要求1所述的机器翻译方法，其特征在于，在获取待翻译语句之前，还包括：

3.根据权利要求2所述的机器翻译方法，其特征在于，所述编码单元包括知识嵌入层和卷积神经网络层，所述将所述背景知识输入至编码单元进行处理，得到背景知识向量集，包括：

4.根据权利要求1所述的机器翻译方法，其特征在于，所述编码器包括n个顺次连接的编码层，其中，n≥1，且n为整数；

S11、将所述待翻译语句转换为语句向量，并将所述语句向量输入至第1个编码层进行处理，得到第1个编码层的输出向量；

S12、判断第i个编码层的输出向量是否与所述背景知识向量集进行融合处理以及i是否等于n，其中，1≤i≤n，且i为整数；

S13、在所述第i个编码层的输出向量与所述背景知识向量集进行融合处理且i等于n的情况下，将所述第i个编码层的输出向量与所述背景知识向量集进行融合处理得到的融合向量作为第一编码向量；

S14、在所述第i个编码层的输出向量与所述背景知识向量集进行融合处理且i小于n的情况下，将所述第i个编码层的输出向量与所述背景知识向量集进行融合处理得到的融合向量输入至第i+1层，并将i+1赋值给i，执行步骤S12；

S15、在所述第i个编码层的输出向量与所述背景知识向量集不进行融合处理且i等于n的情况下，将所述第i个编码层的输出向量作为第一编码向量；

S16、在所述第i个编码层的输出向量与所述背景知识向量集不进行融合处理且i小于n的情况下，将所述第i个编码层的输出向量输入至第i+1层，并将i+1赋值给i，执行上述判断步骤S12。

5.根据权利要求4所述的机器翻译方法，其特征在于，所述编码器还包括源嵌入层，所述编码层包括自注意力层和前馈神经网络层，所述将所述待翻译语句转换为语句向量，并将所述语句向量输入至第1个编码层进行处理，得到第1个编码层的输出向量，包括：

将所述自注意力层的输出向量输入至所述前馈神经网络层进行处理，得到所述第1个编码层的输出向量。

6.根据权利要求4所述的机器翻译方法，其特征在于，所述背景知识向量集包括至少一个背景知识向量，将所述第i个编码层的输出向量与所述背景知识向量集进行融合处理，得到融合向量，包括：

计算所述第i个编码层的输出向量和所述背景知识向量集中的每一个所述背景知识向量之间的相关度；

基于所述背景知识向量的相关度权重，将所述第i个编码层的输出向量与所述背景知识向量融合，得到所述融合向量。

7.根据权利要求1所述的机器翻译方法，其特征在于，所述编码器包括所述编码单元以及一个编码层。

8.根据权利要求7所述的机器翻译方法，其特征在于，所述编码层包括自注意力层、知识注意力层和前馈神经网络层；

9.根据权利要求1所述的机器翻译方法，其特征在于，所述编码器包括所述编码单元以及m个顺次连接的编码层，其中，m＞1，且m为整数；

S24、将所述第p+1个编码层的输出向量作为第一编码向量；

S25、将p+1赋值给p，执行步骤S22。

10.根据权利要求9所述的机器翻译方法，其特征在于，所述编码层包括自注意力层、知识注意力层和前馈神经网络层，

所述将第p个编码层的输出向量与所述背景知识向量集输入至第p+1个编码层中进行融合处理，得到第p+1个编码层的输出向量，包括：

11.根据权利要求8或10所述的机器翻译方法，其特征在于，所述背景知识向量集包括至少一个背景知识向量，所述将所述背景知识向量集与所述自注意力层的输出向量输入至所述知识注意力层中进行融合处理，得到知识注意力层的输出向量，包括：

若否，将所述自注意力层的输出向量作为融合向量。

12.根据权利要求1所述的机器翻译方法，其特征在于，所述解码器包括至少一个解码层，所述将所述第一编码向量输入至解码器中进行处理，得到所述待翻译语句的翻译语句，包括：

13.一种机器翻译装置，其特征在于，包括：

第一获取模块，被配置为获取待翻译语句；

第二获取模块，被配置为获取预先通过编码单元处理得到的背景知识向量集，其中，所述背景知识向量集的类型与所述待翻译语句包括的背景知识的类型具有关联关系；

编码模块，被配置为将所述待翻译语句和所述背景知识向量集通过编码器进行融合处理，得到第一编码向量；包括：将所述待翻译语句转换为语句向量；将所述语句向量与所述背景知识向量集输入至编码层中进行融合处理，得到所述第一编码向量，其中，所述编码器包括至少一个顺次连接的编码层；

解码模块，被配置为将所述第一编码向量输入至解码器中进行处理，得到所述待翻译语句的翻译语句。

14.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现权利要求1-12任意一项所述方法的步骤。

15.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-12任意一项所述方法的步骤。

16.一种芯片，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-12任一项所述方法的步骤。