CN111414771A

CN111414771A - 基于短语的神经机器翻译的方法及系统

Info

Publication number: CN111414771A
Application number: CN202010145476.XA
Authority: CN
Inventors: 陈巍华
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-03-03
Filing date: 2020-03-03
Publication date: 2020-07-14
Anticipated expiration: 2040-03-03
Also published as: CN111414771B

Abstract

本发明提供的基于短语的神经机器翻译的方法及系统，通过：由单语的源语料生成包含子词、词以及短语的源词典；由单语的目标语料生成包含子词、词以及短语的目标词典；源语料通过源词典、目标语料通过目标词典分别转化成相应的词向量；对S2步骤得到的词向量进行神经网络训练，从而得到最终的翻译模型。本发明提供的基于短语的神经机器翻译方法及系统，通过在训练中引入了短语的信息，将句子中常见的短语作为一个整体来进行翻译，能保证在翻译的过程中不会被切分的很碎，导致错翻或者漏翻的情况出现。

Description

基于短语的神经机器翻译的方法及系统

技术领域

本发明涉及机器翻译技术领域，特别涉及一种基于短语的神经机器翻译的方法及系统。

背景技术

现有的主流机器翻译方法是基于端到端的神经机器翻译方法，利用大规模双语平行语料，通过Encoder-Decoder神经网络框架进行模型训练。在训练的时候使用BPE分词来生成双语词典，训练语料通过生成的双语词典转化成相应的词向量来进行网络训练。

但是BPE分词会将训练语料颗粒度切分的很小，一个句子基本上由词或者子词组成，虽然在一定程度上能解决UNK(未知词)的问题，但会将很多有意义的短语切分开来，导致最后翻译的时候会出现句子中短语翻译不正确的情况，比如像命名实体、通用俗语的翻译。

发明内容

为了克服上述问题，本发明提供了基于短语的神经机器翻译方法及系统，可以通过在训练双语语料中引入“短语”颗粒来切分训练双语，有效的解决句子中短语翻译错误的问题。

基于短语的神经机器翻译方法具体包括：

S1：由单语的源语料生成包含子词、词以及短语的源词典；

S2：由单语的目标语料生成包含子词、词以及短语的目标词典；

S3：源语料通过源词典、目标语料通过目标词典分别转化成相应的词向量；

S4：对S2步骤得到的词向量进行神经网络训练，从而得到最终的翻译模型。

进一步的，S1步骤中生成源词典、S2步骤中生成目标词典均包括以下步骤：

D1：由语料选出短语；

D2：由语料生成包括子词、词的BPE词典；

D3：将D1步骤得到的短语与D2步骤得到的BPE词典相结合生成词典；

所述语料包括源语料、目标语料；

所述词典包括源词典、目标词典；

由源语料经上述D1-D3步骤生成的词典为源词典；

由目标语料经上述D1-D3步骤生成的词典为目标词典。

进一步的，所述D1步骤具体包括：

D11：利用语料训练语言模型；

D12：利用句法分析树算法对语料进行句法分析，得到每个语料的句法分析树；

D13：通过句法分析树得到句子的嵌套结构，将嵌套的词组作为备选短语组，对备选短语组进行去重，保证每个短语只保留一份，从而得到备选短语组；

D14：利用D11步骤中训练好的语言模型对D13步骤得到的备选短语组进行打分，从而得到短语评分，将短语评分与预先设置的分数阈值比较，保留短语评分符合分数阈值的短语。

进一步的，所述D2步骤具体为：

使用BPE分词技术对单语的语料进行BPE分词，得到对应的BPE词典。

进一步的，所述语言模型为N-gram语言模型；所述句法分析树算法为PCFG算法。

基于短语的神经机器翻译系统，具体包括：

词典生成模块，其用于将单语的源语料生成包含子词、词以及短语的源词典，将单语的目标语料生成包含子词、词以及短语的目标词典；

词向量转化模块，其用于将源语料通过源词典、目标语料通过目标词典分别转化成相应的词向量；

神经网络训练模块，其用于对词向量进行神经网络训练,从而得到最终的翻译模型。

进一步的，所述词典生成模块包括：

短语模块，用于由语料选出短语；

BPE词典生成模块，用于由语料生成包括子词、词的BPE词典；

词典合成模块：将短语选出模块得到的短语与BPE词典生成模块得到的BPE词典相结合生成词典。

进一步的，所述短语模块包括：

训练语言模型模块，用于利用语料训练语言模型；

句法分析树模块，用于利用句法分析树算法对语料进行句法分析，得到每个语料的句法分析树；

备选短语组模块，用于通过句法分析树得到句子的嵌套结构，并将嵌套的词组作为备选短语组，对备选短语组进行去重，保证每个短语只保留一份，从而得到备选短语组；

短语选出模块，用于利用训练语言模型模块中训练好的语言模型对备选短语组模块得到的备选短语组进行打分，从而得到短语评分，将短语评分与预先设置的分数阈值比较，保留短语评分符合分数阈值的短语。

进一步的，所述BPE词典生成模块为使用BPE分词技术对单语的语料进行BPE分词，得到对应的BPE词典。

本发明提供的基于短语的神经机器翻译方法及系统，通过在训练中引入了短语的信息，将句子中常见的短语作为一个整体来进行翻译，能保证在翻译的过程中不会被切分的很碎，导致错翻或者漏翻的情况出现。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1:一种基于短语的神经机器翻译方法示意图；

图2：生成词典方法示意图；

图3：D1步骤示意图；

图4：一种基于短语的神经机器翻译系统示意图；

图5：词典生成模块示意图；

图6：短语模块示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本实施例提供了一种基于短语的神经机器翻译方法，如图1所示，包括：

S1：由单语的源语料生成包含子词、词以及短语的源词典；

本实施例技术方案的工作原理为：直接将源词典、目标词典中加入短语，则相应的词向量中也会包含短语，使得短语与子词、词一样，一起加入神经训练过程，从而使得最终的翻译模型可以让短语直接参与翻译过程。

需要指出的，本实施例中，S3、S4步骤均是成熟的现有技术相同，不同点仅仅是在源词典、目标词典不仅包含子词、词，同时包含短语。因此，关于S3、S4步骤的具体情况不再详述。

本实施例技术方案的有益效果为：本实施例提供的基于短语的神经机器翻译方法，通过在训练中引入了短语的信息，将句子中常见的短语作为一个整体来进行翻译，能保证在翻译的过程中不会被切分的很碎，导致错翻或者漏翻的情况出现。

在一个实施例中，如图2所示，S1步骤中生成源词典、S2步骤中生成目标词典均包括以下步骤：

D1：由语料选出短语；

D2：由语料生成包括子词、词的BPE词典；

所述语料包括源语料、目标语料；

所述词典包括源词典、目标词典；

由源语料经上述D1-D3步骤生成的词典为源词典；

由目标语料经上述D1-D3步骤生成的词典为目标词典。

本实施例技术方案的工作原理为：本实施例给出了具体的词典的生成方法，分别由语料选出短语、生成包括子词、词的BPE词典，再将二者组合。则生成的词典既包含了现有词典中包含的子词、词，同时又包含短语。源语料、目标语料均经过这个步骤，则分别生成了源词典、目标词典。

本实施例技术方案的有益效果为：BPE词典极其相关的翻译技术相对成熟，直接将选出的短语加入组合成新的词典，技术更可靠。

在一个实施例中，如图3所示，所述D1步骤具体包括：

D11：利用语料训练语言模型，本实施例中语言模型为N-gram语言模型；

D12：利用句法分析树算法对语料进行句法分析，得到每个语料的句法分析树；此处所述的句法分析树算法为根据句法分析编写的算法，已经为本领域的现有的技术，本专利中不再详述，本实施例中为根据PCFG(概率上下文无关文法)编写算法。

本实施例技术方案的工作原理为：

语言模型是根据语言客观事实而进行的语言抽象数学建模，是一种对应关系。N-gram语言模型可以很好得给出一段文本序列在某种语言下出现的概率。

句法分析(Parsing)就是指对句子中的词语语法功能进行分析，本实施例通过句法分析(Parsing)对应的算法，可以很好地得知句子结构。

通过对语料进行句法分析获取句法分析树，从而得到句子的嵌套结构，从而选出备选短语组；由语言模型对备选短语组进行选择，从而得到短语。源语料、目标语料分别经过以上方法，则可以分别得到相应的短语。

本实施例技术方案的有益效果为：本实施例给出了一种具体的挑选出短语的方法。通过句法分析与语言模型技术相结合，可以准确、高效选出短语。

在一个实施例中，所述D2步骤具体为：使用BPE分词技术对单语的语料进行BPE分词，得到对应的BPE词典。

本实施例技术方案的工作原理为：如背景技术中所说的，由BPE分词技术生成BPE词典已经为现有的技术，在此处不再详述。源语料、目标语料分别经过以上步骤，从而分别获得相应的BPE词典。

本实施例技术方案的有益效果为：本实施例给出了一种具体的生成BPE词典的方法，可以很好得到BPE词典，从而可以得到相应的词、子词。

本实施例提供了一种基于短语的神经机器翻译系统，如图4所示，包括：

本实施例技术方案的工作原理为：通过词典生成模块生成包含子词、词以及短语的源词典及目标词典，则相应的词向量中也会包含短语，使得短语与子词、词一样，一起加入神经训练过程，从而使得最终的翻译模型可以让短语直接参与翻译过程。

需要指出的，本实施例中，词向量转化模块、神经网络训练模块是成熟的现有技术相同，不同点仅仅是在源词典、目标词典不仅包含子词、词，同时包含短语。因此，关于词向量转化模块、神经网络训练模块的具体情况不再详述。

本实施例技术方案的有益效果为：本实施例提供一种基于短语的神经机器翻译系统，通过在训练中引入了短语的信息，将句子中常见的短语作为一个整体来进行翻译，能保证在翻译的过程中不会被切分的很碎，导致错翻或者漏翻的情况出现。

在一个实施例中，如图5所示，所述词典生成模块包括：

短语模块，用于由语料选出短语；

BPE词典生成模块，用于由语料生成包括子词、词的BPE词典；

本实施例技术方案的工作原理为：本实施例给出了具体的词典生成模块，分别由短语模块选出短语的短语模块、生成包括子词、词BPE词典的BPE词典生成模块，再通过词典合成模块将短语与子词、词组合。则生成的词典既包含了现有词典中包含的子词、词，同时又包含短语。源语料、目标语料均以上三个模块，则分别生成了源词典、目标词典。

在一个实施例中，如图6所示，所述短语模块包括：

训练语言模型模块，用于利用语料训练语言模型，本实施例中语言模型为N-gram语言模型；

句法分析树模块，用于利用句法分析树算法对语料进行句法分析，得到每个语料的句法分析树，此处所述的句法分析树算法为根据句法分析编写的算法，已经为本领域的现有的技术，本专利中不再详述，本实施例中为根据PCFG(概率上下文无关文法)编写算法。

本实施例技术方案的工作原理为：

语料通过句法分析树模块获取句法分析树，从而得到句子的嵌套结构，备选短语组模块选出备选短语组；由短语选出模块对备选短语组进行选择，从而得到短语。源语料、目标语料分别经过以上模块，则可以分别得到相应的短语。

本实施例技术方案的有益效果为：本实施例给出了一种具体的挑选出短语的系统。通过句法分析与语言模型技术相结合，可以准确、高效选出短语。

在一个实施例中，所述BPE词典生成模块为使用BPE分词技术对单语的语料进行BPE分词，得到对应的BPE词典。

本实施例技术方案的工作原理为：如背景技术中所说的，由BPE分词技术生成BPE词典已经为现有的技术，在此处不再详述。源语料、目标语料分别经过以上模块，从而分别获得相应的BPE词典。

本实施例技术方案的有益效果为：本实施例给出了一种具体的生成BPE词典的系统，可以很好得到BPE词典，从而可以得到相应的词、子词。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于短语的神经机器翻译方法，其特征在于，包括：

S1：由单语的源语料生成包含子词、词以及短语的源词典；

2.如权利要求1所述的一种基于短语的神经机器翻译方法，其特征在于，

S1步骤中生成源词典、S2步骤中生成目标词典均包括以下步骤：

D1：由语料选出短语；

D2：由语料生成包括子词、词的BPE词典；

所述语料包括源语料、目标语料；

所述词典包括源词典、目标词典；

由源语料经上述D1-D3步骤生成的词典为源词典；

由目标语料经上述D1-D3步骤生成的词典为目标词典。

3.如权利要求2所述的一种基于短语的神经机器翻译方法，其特征在于，

所述D1步骤具体包括：

D11：利用语料训练语言模型；

D14：利用D11步骤中训练好的语言模型对D13步骤得到的备选短语组进行打分，从而得到短语评分，将短语评分与预先设置的分数阈值比较保留短语评分符合分数阈值的短语。

4.如权利要求2所述的一种基于短语的神经机器翻译方法，其特征在于，

所述D2步骤具体为：

5.如权利要求3所述的一种基于短语的神经机器翻译方法，其特征在于，

所述语言模型为N-gram语言模型；

所述句法分析树算法为PCFG的算法。

6.一种基于短语的神经机器翻译系统，其特征在于，包括：

7.如权利要求6所述的一种基于短语的神经机器翻译系统，其特征在于，

所述词典生成模块包括：

短语模块，用于由语料选出短语；

BPE词典生成模块，用于由语料生成包括子词、词的BPE词典；

8.如权利要求7所述的一种基于短语的神经机器翻译系统，其特征在于，

所述短语模块包括：

训练语言模型模块，用于利用语料训练语言模型；

9.如权利要求7所述的一种基于短语的神经机器翻译系统，其特征在于，

所述BPE词典生成模块为使用BPE分词技术对单语的语料进行BPE分词，得到对应的BPE词典。

10.如权利要求8所述的一种基于短语的神经机器翻译系统，其特征在于，

所述语言模型为N-gram语言模型；

所述句法分析树算法为PCFG的算法。