CN115270821A

CN115270821A - 一种机器翻译模型众包增量学习方法

Info

Publication number: CN115270821A
Application number: CN202210648206.XA
Authority: CN
Inventors: 李光华
Original assignee: Jiaguyi Beijing Language Technology Co ltd
Current assignee: Jiaguyi Beijing Language Technology Co ltd
Priority date: 2022-06-08
Filing date: 2022-06-08
Publication date: 2022-11-01

Abstract

本发明具体涉及一种机器翻译模型众包增量学习方法，该方法包括：提供一个有多个机器翻译模型组成的翻译模型阵列，每个翻译模型的介绍和详情；模型所有者可选是否开放众包训练，如开放众包训练，参与者上传参与共同训练的数据后，系统自动对数据进行预处理和清洗；进行数据质量打分，依据有效数据量和质量评分，计算出该批数据对模型训练的贡献值；通过前端交互模块，在参与者在确认同意该贡献值后，进入模型增量训练流程；增量训练完成后，将模型更新到机翻阵列中，同时更新模型相关信息，并继续开放，其他参与者可参与训练。本发明的方法通过多人共同训练和模型共享，可以较大幅度共享数据资源和增量训练后的模型。

Description

一种机器翻译模型众包增量学习方法

技术领域

本发明属于人工智能技术领域，具体涉及一种机器翻译模型众包增量学习方法。

背景技术

基于神经网络的机器翻译增量学习方法当前主流的技术方案有两种，一种是手工方式，即主要由负责模型训练的人员汇总专业数据，进行模型训练和质量调优。但是，由模型训练人员一对一处理，人力成本较高，流程未实现自动化。

另一种是自动提交数据，即机器自学习平台，用户可上传数据自行训练，模型和数据专人专用，无共同训练和模型共享方式，模型训练人员集中处理。由于专业领域模型训练数据较为稀缺，此种方式没有解决数据资源共享问题，而同类模型反复训练和部署，也造成一定的硬件和模型资源浪费。

神经网络机器翻译经过专业领域数据增量训练后，可在专业领域较大幅度提升翻译质量，鉴于目前业内专业领域机翻训练成本高的问题，提出一种众包模型增量学习方法。通过汇总相同领域数据，实现多人共享一个增量训练后的模型，并根据模型贡献值解决共享模型所属权问题。

发明内容

为了解决现有技术中存在的上述问题，本发明提供了一种机器翻译模型众包增量学习方法，通过多人共同训练和模型共享，可以较大幅度共享数据资源和增量训练后的模型，一方面，有效缓解专业领域数据稀缺问题，另一方面，提升硬件资源和增量学习模型的利用效率。

本发明要解决的技术问题通过以下技术方案实现：

一种机器翻译模型众包增量学习方法，包括如下步骤：

步骤一：提供一个有多个机器翻译模型组成的翻译模型阵列，并提供每个翻译模型的介绍和详情，包含语言方向、训练数据量大小、是否开放众包增量学习、翻译效果测试功能；

步骤二：模型所有者可选是否开放众包增量学习，如确定不开放，则模型训练权限只属于模型所有者，不开放众包增量学习，模型所有者可自行上传数据进行增量训练；

步骤三：如模型所有者选择开放众包增量学习，参与者在模型详情页，可看到初始模型训练数据量，参与者上传参与共同训练的数据后，系统自动对数据进行预处理和清洗；

步骤四：数据清洗后，和模型历史训练数据比对，二次去重，并统计剩余的有效数据量，并进行数据质量打分，依据有效数据量和质量评分，计算出该批数据对模型训练的贡献值；

步骤五：通过前端交互模块，在参与者在确认同意该贡献值后，进入模型增量训练流程；

步骤六：增量训练完成后，将模型更新到机翻阵列中，同时更新模型相关信息，并继续开放，其他参与者可参与训练。

进一步地，上述的机器翻译模型众包增量学习方法，增量训练完成后，还包括自动质量评估。

进一步地，上述的机器翻译模型众包增量学习方法，增量训练完成后，还包括手动质量评估。

进一步地，上述手动质量评估方法为：抽取数句原文作为测试集，计算测试集译文的Bleu值，对测试集做人工质量评分。

进一步地，抽取200句原文作为测试集。

进一步地，上述步骤三的预处理和清洗为：通过编辑距离计算原文相似度，去除重复数据，同时对上传数据中的原文译文计算语义相似度，去掉语义相似度较差的原文译文。

一种机器翻译模型众包增量学习系统，使用上述机器翻译模型众包增量学习方法。

与现有技术相比，本发明的有益效果：

本发明的机器翻译模型众包增量学习方法，通过多人共同训练和模型共享，可以较大幅度共享数据资源和增量训练后的模型，一方面，有效缓解专业领域数据稀缺问题，另一方面，提升硬件资源和增量学习模型的利用效率。本发明的方法可解决翻译模型众包训练和模型所属权问题，激励相同领域数据所有者参与训练，并贡献模型训练成果。

附图说明

图1是本发明机器翻译模型众包增量学习方法的流程图。

图2是本发明机器翻译模型众包增量学习方法的使用示意图。

具体实施方式

下面结合具体实施例对本发明做进一步详细的描述，但本发明的实施方式不限于此。

本实施例提供了一种机器翻译模型众包增量学习方法，参照附图1和附图2，该机器翻译模型众包增量学习方法包括如下步骤：

步骤三：如模型所有者选择开放众包增量学习，参与者在模型详情页，可看到初始模型训练数据量，参与者上传参与共同训练的数据后，系统自动对数据进行预处理和清洗，通过编辑距离计算原文相似度，去除重复数据，同时对上传数据中的原文译文计算语义相似度，去掉语义相似度较差的原文译文；

步骤六：增量训练完成后，进行自动质量评估；

步骤七：增量训练完成后，进行手动质量评估，抽取数句原文作为测试集，计算测试集译文的Bleu值，对测试集做人工质量评分，优选地，抽取200句原文作为测试集；

步骤八：增量训练完成后，将模型更新到机翻阵列中，同时更新模型相关信息，并继续开放，其他参与者可参与训练。

本实施例的自动质量评估、手动质量评估的顺序不做要求，即：先进行自动质量评估，再进行手动质量评估；或者，先进行手动质量评估，再进行自动质量评估。

本实施例的机器翻译模型众包增量学习方法可解决翻译模型众包训练和模型所属权问题，激励相同领域数据所有者参与训练，并贡献模型训练成果。

本实施例还提供了一种机器翻译模型众包增量学习系统，该机器翻译模型众包增量学习系统使用本实施例的机器翻译模型众包增量学习方法。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种机器翻译模型众包增量学习方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的机器翻译模型众包增量学习方法，其特征在于，增量训练完成后，还包括自动质量评估。

3.根据权利要求1或2所述的机器翻译模型众包增量学习方法，其特征在于，增量训练完成后，还包括手动质量评估。

4.根据权利要求3所述的机器翻译模型众包增量学习方法，其特征在于，所述手动质量评估方法为：抽取数句原文作为测试集，计算测试集译文的Bleu值，对测试集做人工质量评分。

5.根据权利要求4所述的机器翻译模型众包增量学习方法，其特征在于，抽取200句原文作为测试集。

6.根据权利要求1所述的机器翻译模型众包增量学习方法，其特征在于，所述步骤三的预处理和清洗为：通过编辑距离计算原文相似度，去除重复数据，同时对上传数据中的原文译文计算语义相似度，去掉语义相似度较差的原文译文。

7.一种机器翻译模型众包增量学习系统，其特征在于，使用权利要求1-6任一项所述机器翻译模型众包增量学习方法。