CN110728154A

CN110728154A - 一种半监督式通用神经机器翻译模型的构建方法

Info

Publication number: CN110728154A
Application number: CN201910806592.9A
Authority: CN
Inventors: 陈巍华
Original assignee: Unisound Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2019-08-28
Filing date: 2019-08-28
Publication date: 2020-01-24
Anticipated expiration: 2039-08-28
Also published as: CN110728154B

Abstract

本发明提供了一种半监督式通用神经机器翻译模型的构建方法，该半监督式通用神经机器翻译模型的构建方法包括如下步骤：步骤(1)，确定若干单语源语料、若干单语目标语料和若干平行双语语料作为训练数据；步骤(2)，构建关于encoder模块与分类器模块的第一网络结构，同时采用该若干单语源语料训练该第一网络结构；步骤(3)，构建关于decoder模块与分类器模块的第二网络结构，同时采用该若干单语目标语料训练该第二网络结构；步骤(4)，根据经过训练的该第一网络结构和该第二网络结构，重新构建新encoder‑decoder框架，同时采用该若干平行双语语料训练该新encoder‑decoder框架，以此构建得到通用神经机器翻译模型。

Description

一种半监督式通用神经机器翻译模型的构建方法

技术领域

本发明涉及神经网络的技术领域，特别涉及一种半监督式通用神经机器翻译模型的构建方法。

背景技术

目前，神经网络广泛应用于机器翻译领域，而现有的通用神经机器翻译系统都是从端到段的encoder-decoder框架结构，在一般情况下基于监督方式来利用大量平行双语语料进行机器翻译模型的训练，而对于单语语料而言，则是通过数据增强的方式先伪造形成平行双语语料，再将其加入到训练数据中进行训练。在实际操作过程中，通用神经机器翻译系统需要大量平行双语语料进行训练，而平行双语语料则需要涉及大量的人工标注处理，该通用神经机器翻译系统在训练过程中并没有有效利用单语语料，并且单语语料在不需要人工标注处理的情况下就可容易获得，还有，通过数据增强的方式伪造得到的平行双语语料通常存在噪声，其会影响机器翻译的效果。可见，现有技术急需一种能够充分利用单语语料对神经机器翻译模型进行训练的模型构建方法。

发明内容

针对现有技术存在的缺陷，本发明提供一种半监督式通用神经机器翻译模型的构建方法，该半监督式通用神经机器翻译模型的构建方法包括如下步骤：步骤(1)，确定若干单语源语料、若干单语目标语料和若干平行双语语料作为训练数据；步骤(2)，构建关于encoder模块与分类器模块的第一网络结构，同时采用该若干单语源语料训练该第一网络结构；步骤(3)，构建关于decoder模块与分类器模块的第二网络结构，同时采用该若干单语目标语料训练该第二网络结构；步骤(4)，根据经过训练的所述第一网络结构和该第二网络结构，重新构建新encoder-decoder框架，同时采用该若干平行双语语料训练所述新encoder-decoder框架，以此构建得到通用神经机器翻译模型。可见，该半监督式通用神经机器翻译模型的构建方法有别于现有技术的只采用平行双语语料或者伪造的平行双语语料对神经机器翻译模型进行训练，其能够直接采用大量单语语料对神经机器翻译模型进行训练以及采用少量平行双语语料对神经机器翻译模型进行精调，这样能够在避免使用大量平行双语语料作为训练数据时涉及大量繁复的人工标注处理，以及在采用少量平行双语语料的情况下也能够达到与使用大量平行双语语料进行训练相当的水平，从而有效地降低神经机器翻译模型训练的前期工作量和提高神经机器翻译模型的翻译准确性；此外，由于小语种很难获得平行双语语料、反而较为容易地收集到单语语料，因此该构建方法还特别适用于小语种翻译。

本发明提供一种半监督式通用神经机器翻译模型的构建方法，其特征在于，所述半监督式通用神经机器翻译模型的构建方法包括如下步骤：

步骤(1)，确定若干单语源语料、若干单语目标语料和若干平行双语语料作为训练数据；

步骤(2)，构建关于encoder模块与分类器模块的第一网络结构，同时采用所述若干单语源语料训练所述第一网络结构；

步骤(3)，构建关于decoder模块与分类器模块的第二网络结构，同时采用所述若干单语目标语料训练所述第二网络结构；

步骤(4)，根据经过训练的所述第一网络结构和所述第二网络结构，重新构建新encoder-decoder框架，同时采用所述若干平行双语语料训练所述新encoder-decoder框架，以此构建得到通用神经机器翻译模型；

进一步，在所述步骤(2)中，构建关于encoder模块与分类器模块的第一网络结构，同时采用所述若干单语源语料训练所述第一网络结构具体包括，

步骤(201)，从原始encoder-decoder框架中提取得到所述encoder模块，并结合所述分类器模块构建得到所述第一网络结构；

步骤(202)，利用sub-word BPE技术对所述单语语料进行处理，将所述若干单语源语料变换为新的单语源语料；

步骤(203)，利用所述新的单语源语料对所述第一网络结构进行关于字词的训练；

进一步，在所述步骤(201)中，从原始encoder-decoder框架中提取得到所述encoder模块，并结合所述分类器模块构建得到所述第一网络结构具体包括，

步骤(2011)，确定所述encoder模块与所述原始encoder-decoder框架中的可分离属性；

步骤(2012)，若所述可分离属性指示所述encoder模块具有可分离特性，则直接从所述原始encoder-decoder框架中提取得到所述encoder模块，若所述可分离属性指示所述encoder模块不具有可分离特性，则对所述原始encoder-decoder框架进行功能模块分割处理后，再从所述原始encoder-decoder框架中提取得到所述encoder模块；

步骤(2013)，将提取得到的所述encoder模块的输出端与所述分类器模块的输入端连接，以此构建得到所述第一网络结构；

进一步，在所述步骤(202)中，将所述若干单语源语料变换为新的单语源语料具体包括，

步骤(2021)，对所述若干单语源语料利用随机mask语料10％-15％的token以及随机mask语料40％-50％的连续tokens的方式来进行第一随机掩模处理，以此获得若干具有掩模态的单语源语料；

步骤(2022)，对所述若干具有掩模态的单语源语料中的所有单词和/或词组进行第一记录定位处理，以此确定所述若干具有掩模态的单语源语料对应的语段位置信息；

步骤(2023)，判断所述语段位置信息的有效性，以此将具有有效语段位置信息对应的掩模态的单语源语料作为所述新的单语源语料；

进一步，在所述步骤(203)中，利用所述新的单语源语料对所述第一网络结构进行关于字词的训练具体包括，

步骤(2031)，利用所述新的单语源语料中的所有掩模态的单语源语料对所述第一网络结构进行第一循环训练，以此实现对具有掩模态的单词和/或词组的第一预测处理；

步骤(2032)，从所述第一预测处理中提取至少一个第一预测结果，并对所述至少一个第一预测结果进行第一词匹配性判断；

步骤(2033)，若所述第一词匹配性判断的结果指示所述至少一个第一预测结果与之前被随机掩模处理的单语源语料两者相匹配，则完成所述第一循环训练，否则，继续进行所述第一循环训练，直到两者相匹配为止；

进一步，在所述步骤(3)，构建关于decoder模块与分类器模块的第二网络结构，同时采用所述若干单语目标语料训练所述第二网络结构具体包括，

步骤(301)，从原始encoder-decoder框架中提取得到所述decoder模块，并结合所述分类器模块构建得到所述第二网络结构；

步骤(302)，将所述若干单语目标语料变换为新的单语目标语料；

步骤(303)，利用所述新的单语目标语料对所述第二网络结构进行关于字词的训练；

进一步，在所述步骤(301)中，从原始encoder-decoder框架中提取得到所述decoder模块，并结合所述分类器模块构建得到所述第二网络结构具体包括，

步骤(3011)，确定所述decoder模块与所述原始encoder-decoder框架中的可分离属性；

步骤(3012)，若所述可分离属性指示所述decoder模块具有可分离特性，则直接从所述原始encoder-decoder框架中提取得到所述decoder模块，若所述可分离属性指示所述decoder模块不具有可分离特性，则对所述原始encoder-decoder框架进行功能模块分割处理后，再从所述原始encoder-decoder框架中提取得到所述decoder模块；

步骤(3013)，将提取得到的所述decoder模块的输出端与所述分类器模块的输入端连接，以此构建得到所述第二网络结构；

进一步，在所述步骤(302)中，将所述若干单语目标语料变换为新的单语目标语料具体包括，

步骤(3021)，对所述若干单语目标语料利用随机mask语料10％-15％的token以及随机mask语料40％-50％的连续tokens的方式来进行第二随机掩模处理，以此获得若干具有掩模态的单语目标语料；

步骤(3022)，对所述若干具有掩模态的单语目标语料中的所有单词和/或词组进行第二记录定位处理，以此确定所述若干具有掩模态的单语目标语料对应的语段位置信息；

步骤(3023)，判断所述语段位置信息的有效性，以此将具有有效语段位置信息对应的掩模态的单语目标语料作为所述新的单语目标语料；

进一步，在所述步骤(303)中，利用所述新的单语目标语料对所述第二网络结构进行关于字词的训练具体包括，

步骤(3031)，利用所述新的单语目标语料中的所有掩模态的单语目标语料对所述第二网络结构进行第二循环训练，以此实现对具有掩模态的单词和/或词组的第二预测处理；

步骤(3032)，从所述第二预测处理中提取至少一个第二预测结果，并对所述至少一个第二预测结果进行第二词匹配性判断；

步骤(3033)，若所述第二词匹配性判断的结果指示所述至少一个第二预测结果与之前被随机掩模处理的单语目标语料两者相匹配，则完成所述第二循环训练，否则，继续进行所述第二循环训练，直到两者相匹配为止；

进一步，在所述步骤(4)中，根据经过训练的所述第一网络结构和所述第二网络结构，重新构建新encoder-decoder框架，同时采用所述若干平行双语语料训练所述新encoder-decoder框架，以此构建得到通用神经机器翻译模型具体包括，

步骤(401)，获取经过训练的所述第一网络结构中encoder模块的encoder参数和经过训练的所述第二网络结构中decoder模块的decoder参数；

步骤(402)，将所述encoder参数和所述decoder参数迁移至原始encoder-decoder框架中；

步骤(403)，利用所述若干平行双语语料以及通过精调模式对所述原始encoder-decoder框架进行训练处理，以此构建得到所述通用神经机器翻译模型。

相比于现有技术，该半监督式通用神经机器翻译模型的构建方法有别于现有技术的只采用平行双语语料或者伪造的平行双语语料对神经机器翻译模型进行训练，其能够直接采用大量单语语料对神经机器翻译模型进行训练以及采用少量平行双语语料对神经机器翻译模型进行精调，这样能够在避免使用大量平行双语语料作为训练数据时涉及大量繁复的人工标注处理，以及在采用少量平行双语语料的情况下也能够达到与使用大量平行双语语料进行训练相当的水平，从而有效地降低神经机器翻译模型训练的前期工作量和提高神经机器翻译模型的翻译准确性；此外，由于小语种很难获得平行双语语料、反而较为容易地收集到单语语料，因此该构建方法还特别适用于小语种翻译。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种半监督式通用神经机器翻译模型的构建方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参阅图1，为本发明实施例提供的一种半监督式通用神经机器翻译模型的构建方法的流程示意图。该半监督式通用神经机器翻译模型的构建方法包括如下步骤：

步骤(1)，确定若干单语源语料、若干单语目标语料和若干平行双语语料作为训练数据。

步骤(2)，构建关于encoder模块与分类器模块的第一网络结构，同时采用该若干单语源语料训练该第一网络结构。

优选地，在该步骤(2)中，构建关于encoder模块与分类器模块的第一网络结构，同时采用该若干单语源语料训练该第一网络结构具体包括，

步骤(201)，从原始encoder-decoder框架中提取得到该encoder模块，并结合该分类器模块构建得到该第一网络结构；

步骤(202)，利用sub-word BPE技术对所述单语语料进行处理，将该若干单语源语料变换为新的单语源语料；

步骤(203)，利用该新的单语源语料对该第一网络结构进行关于字词的训练。

优选地，在该步骤(201)中，从原始encoder-decoder框架中提取得到该encoder模块，并结合该分类器模块构建得到该第一网络结构具体包括，

步骤(2011)，确定该encoder模块与该原始encoder-decoder框架中的可分离属性；

步骤(2012)，若该可分离属性指示该encoder模块具有可分离特性，则直接从该原始encoder-decoder框架中提取得到该encoder模块，若该可分离属性指示该encoder模块不具有可分离特性，则对该原始encoder-decoder框架进行功能模块分割处理后，再从该原始encoder-decoder框架中提取得到该encoder模块；

步骤(2013)，将提取得到的该encoder模块的输出端与该分类器模块的输入端连接，以此构建得到该第一网络结构。

优选地，在该步骤(202)中，将该若干单语源语料变换为新的单语源语料具体包括，

步骤(2021)，对该若干单语源语料利用随机mask语料10％-15％的token以及随机mask语料40％-50％的连续tokens的方式来进行第一随机掩模处理，以此获得若干具有掩模态的单语源语料；

步骤(2022)，对该若干具有掩模态的单语源语料中的所有单词和/或词组进行第一记录定位处理，以此确定该若干具有掩模态的单语源语料对应的语段位置信息；

步骤(2023)，判断该语段位置信息的有效性，以此将具有有效语段位置信息对应的掩模态的单语源语料作为该新的单语源语料。

优选地，在该步骤(203)中，利用该新的单语源语料对该第一网络结构进行关于字词的训练具体包括，

步骤(2031)，利用该新的单语源语料中的所有掩模态的单语源语料对该第一网络结构进行第一循环训练，以此实现对具有掩模态的单词和/或词组的第一预测处理；

步骤(2032)，从该第一预测处理中提取至少一个第一预测结果，并对该至少一个第一预测结果进行第一词匹配性判断；

步骤(2033)，若该第一词匹配性判断的结果指示该至少一个第一预测结果与之前被随机掩模处理的单语源语料两者相匹配，则完成该第一循环训练，否则，继续进行该第一循环训练，直到两者相匹配为止。

步骤(3)，构建关于decoder模块与分类器模块的第二网络结构，同时采用该若干单语目标语料训练该第二网络结构。

优选地，在该步骤(3)，构建关于decoder模块与分类器模块的第二网络结构，同时采用该若干单语目标语料训练该第二网络结构具体包括，

步骤(301)，从原始encoder-decoder框架中提取得到该decoder模块，并结合该分类器模块构建得到该第二网络结构；

步骤(302)，将该若干单语目标语料变换为新的单语目标语料；

步骤(303)，利用该新的单语目标语料对该第二网络结构进行关于字词的训练。

优选地，在该步骤(301)中，从原始encoder-decoder框架中提取得到该decoder模块，并结合该分类器模块构建得到该第二网络结构具体包括，

步骤(3011)，确定该decoder模块与该原始encoder-decoder框架中的可分离属性；

步骤(3012)，若该可分离属性指示该decoder模块具有可分离特性，则直接从该原始encoder-decoder框架中提取得到该decoder模块，若该可分离属性指示该decoder模块不具有可分离特性，则对该原始encoder-decoder框架进行功能模块分割处理后，再从该原始encoder-decoder框架中提取得到该decoder模块；

步骤(3013)，将提取得到的该decoder模块的输出端与该分类器模块的输入端连接，以此构建得到该第二网络结构。

优选地，在该步骤(302)中，将该若干单语目标语料变换为新的单语目标语料具体包括，

步骤(3021)，对该若干单语目标语料利用随机mask语料10％-15％的token以及随机mask语料40％-50％的连续tokens的方式来进行第二随机掩模处理，以此获得若干具有掩模态的单语目标语料；

步骤(3022)，对该若干具有掩模态的单语目标语料中的所有单词和/或词组进行第二记录定位处理，以此确定该若干具有掩模态的单语目标语料对应的语段位置信息；

步骤(3023)，判断该语段位置信息的有效性，以此将具有有效语段位置信息对应的掩模态的单语目标语料作为该新的单语目标语料。

优选地，在该步骤(303)中，利用该新的单语目标语料对该第二网络结构进行关于字词的训练具体包括，

步骤(3031)，利用该新的单语目标语料中的所有掩模态的单语目标语料对该第二网络结构进行第二循环训练，以此实现对具有掩模态的单词和/或词组的第二预测处理；

步骤(3032)，从该第二预测处理中提取至少一个第二预测结果，并对该至少一个第二预测结果进行第二词匹配性判断；

步骤(3033)，若该第二词匹配性判断的结果指示该至少一个第二预测结果与之前被随机掩模处理的单语目标语料两者相匹配，则完成该第二循环训练，否则，继续进行该第二循环训练，直到两者相匹配为止。

步骤(4)，根据经过训练的该第一网络结构和该第二网络结构，重新构建新encoder-decoder框架，同时采用该若干平行双语语料训练该新encoder-decoder框架，以此构建得到通用神经机器翻译模型。

优选地，在该步骤(4)中，根据经过训练的该第一网络结构和该第二网络结构，重新构建新encoder-decoder框架，同时采用该若干平行双语语料训练该新encoder-decoder框架，以此构建得到通用神经机器翻译模型具体包括，

步骤(401)，获取经过训练的该第一网络结构中encoder模块的encoder参数和经过训练的该第二网络结构中decoder模块的decoder参数；

步骤(402)，将该encoder参数和该decoder参数迁移至原始encoder-decoder框架中；

步骤(403)，利用该若干平行双语语料以及通过精调模式对该原始encoder-decoder框架进行训练处理，以此构建得到该通用神经机器翻译模型。

从上述实施例可以看出，该半监督式通用神经机器翻译模型的构建方法有别于现有技术的只采用平行双语语料或者伪造的平行双语语料对神经机器翻译模型进行训练，其能够直接采用大量单语语料对神经机器翻译模型进行训练以及采用少量平行双语语料对神经机器翻译模型进行精调，这样能够在避免使用大量平行双语语料作为训练数据时涉及大量繁复的人工标注处理，以及在采用少量平行双语语料的情况下也能够达到与使用大量平行双语语料进行训练相当的水平，从而有效地降低神经机器翻译模型训练的前期工作量和提高神经机器翻译模型的翻译准确性；此外，由于小语种很难获得平行双语语料、反而较为容易地收集到单语语料，因此该构建方法还特别适用于小语种翻译。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种半监督式通用神经机器翻译模型的构建方法，其特征在于，所述半监督式通用神经机器翻译模型的构建方法包括如下步骤：

步骤(4)，根据经过训练的所述第一网络结构和所述第二网络结构，重新构建新encoder-decoder框架，同时采用所述若干平行双语语料训练所述新encoder-decoder框架，以此构建得到通用神经机器翻译模型。

2.如权利要求1所述的半监督式通用神经机器翻译模型的构建方法，其特征在于：

在所述步骤(2)中，构建关于encoder模块与分类器模块的第一网络结构，同时采用所述若干单语源语料训练所述第一网络结构具体包括，步骤(201)，从原始encoder-decoder框架中提取得到所述encoder模块，并结合所述分类器模块构建得到所述第一网络结构；

步骤(203)，利用所述新的单语源语料对所述第一网络结构进行关于字词的训练。

3.如权利要求2所述的半监督式通用神经机器翻译模型的构建方法，其特征在于：

在所述步骤(201)中，从原始encoder-decoder框架中提取得到所述encoder模块，并结合所述分类器模块构建得到所述第一网络结构具体包括，

步骤(2013)，将提取得到的所述encoder模块的输出端与所述分类器模块的输入端连接，以此构建得到所述第一网络结构。

4.如权利要求2所述的半监督式通用神经机器翻译模型的构建方法，其特征在于：

在所述步骤(202)中，将所述若干单语源语料变换为新的单语源语料具体包括，

步骤(2023)，判断所述语段位置信息的有效性，以此将具有有效语段位置信息对应的掩模态的单语源语料作为所述新的单语源语料。

5.如权利要求2所述的半监督式通用神经机器翻译模型的构建方法，其特征在于：

在所述步骤(203)中，利用所述新的单语源语料对所述第一网络结构进行关于字词的训练具体包括，

步骤(2033)，若所述第一词匹配性判断的结果指示所述至少一个第一预测结果与之前被随机掩模处理的单语源语料两者相匹配，则完成所述第一循环训练，否则，继续进行所述第一循环训练，直到两者相匹配为止。

6.如权利要求1所述的半监督式通用神经机器翻译模型的构建方法，其特征在于：

在所述步骤(3)，构建关于decoder模块与分类器模块的第二网络结构，同时采用所述若干单语目标语料训练所述第二网络结构具体包括，步骤(301)，从原始encoder-decoder框架中提取得到所述decoder模块，并结合所述分类器模块构建得到所述第二网络结构；

步骤(303)，利用所述新的单语目标语料对所述第二网络结构进行关于字词的训练。

7.如权利要求6所述的半监督式通用神经机器翻译模型的构建方法，其特征在于：

在所述步骤(301)中，从原始encoder-decoder框架中提取得到所述decoder模块，并结合所述分类器模块构建得到所述第二网络结构具体包括，

步骤(3013)，将提取得到的所述decoder模块的输出端与所述分类器模块的输入端连接，以此构建得到所述第二网络结构。

8.如权利要求6所述的半监督式通用神经机器翻译模型的构建方法，其特征在于：

在所述步骤(302)中，将所述若干单语目标语料变换为新的单语目标语料具体包括，

步骤(3023)，判断所述语段位置信息的有效性，以此将具有有效语段位置信息对应的掩模态的单语目标语料作为所述新的单语目标语料。

9.如权利要求6所述的半监督式通用神经机器翻译模型的构建方法，其特征在于：

在所述步骤(303)中，利用所述新的单语目标语料对所述第二网络结构进行关于字词的训练具体包括，

步骤(3033)，若所述第二词匹配性判断的结果指示所述至少一个第二预测结果与之前被随机掩模处理的单语目标语料两者相匹配，则完成所述第二循环训练，否则，继续进行所述第二循环训练，直到两者相匹配为止。

10.如权利要求1所述的半监督式通用神经机器翻译模型的构建方法，其特征在于：

在所述步骤(4)中，根据经过训练的所述第一网络结构和所述第二网络结构，重新构建新encoder-decoder框架，同时采用所述若干平行双语语料训练所述新encoder-decoder框架，以此构建得到通用神经机器翻译模型具体包括，