CN115455964A

CN115455964A - 一种针对垂直领域机器翻译的低资源优化方法

Info

Publication number: CN115455964A
Application number: CN202211408443.5A
Authority: CN
Inventors: 朱胜; 褚佳文; 吴宇鹏
Original assignee: Nanjing Wande Information Technology Co ltd
Current assignee: Wind Information Technology Co ltd
Priority date: 2022-11-10
Filing date: 2022-11-10
Publication date: 2022-12-09
Anticipated expiration: 2042-11-10
Also published as: CN115455964B

Abstract

本发明公开了一种针对垂直领域机器翻译的低资源优化方法，其特征在于，包括数据准备；目标识别；机器清洗；人工清洗；重新训练机器翻译模型。与现有技术相比，本发明具有如下有益效果：无需大量高质量标注平行语料，仅需通用领域语料即可完成机器翻译在专业领域中的冷启动问题；无需专业外语专业的人才；无需高算力显卡和预训练大模型；在系统设计过程中主要分为数据准备、目标识别、机器清洗、人工清洗、模型训练等几个模块，可以按照业务需求、算力资源、技术储备等多个因素自由调整其中的算法；字典为构建垂直领域知识图谱奠基；易于扩展到任意垂直领域。

Description

一种针对垂直领域机器翻译的低资源优化方法

技术领域

本发明涉及计算机技术领域，尤其涉及NLP（Natural Language Processing，自然语言处理）人工智能技术领域中的MT（Machine Translation，机器翻译）任务，具体为一种低资源、运行高效、易维护、泛用性强、基于大量金融翻译语料数据校对方法。

背景技术

广义上来说，“翻译”是指把一个事物转化为另一个事物的过程，而机器翻译则特指利用计算机自动将一种自然语言转换为另一种自然语言的技术。在转换的过程中，我们往往将被转换的语言称作是源语言（Source Language），转换成的语言称作是目标语言（Target Language）。随着近年来人工智能技术的不断发展，机器翻译的技术范式也从早期的人工规则翻译，转向统计模型翻译，最终来到了目前大火的基于深度学习的神经机器翻译。

基于人工规则的机器翻译的主要思想是以词典和人工书写的规则库作为翻译知识，用一系列的组合完成翻译。例如在翻译“猫吃鱼”的时候，查字典得到“cat”、“eat”、“fish”，再从规则库中找到规则1，句子结构顺序为主谓宾，即翻译为“cat eat fish”。可以看到，规则的使用和人类进行翻译的思维过程非常类似，这也是可解释性和可控性最高的翻译系统。

基于统计模型的机器翻译利用统计方法从单语和双语语料数据自动学习翻译知识，整个过程不需要人工编写规则。无论是词还是短语，甚至是句式结构，统计模型都可以自动学习。一般系统中需要两个模型：翻译模型和语言模型。其中，翻译模型在双语语料中学习了源语言翻译成目标语言的概率，语言模型从单语语料中学习了目标语言词序列生成的概率。在使用中先通过翻译模型生成若干候选翻译后，再使用语言模型进行评估，并输出概率最高的结果。

基于神经网络的机器翻译，目前主要采用的是谷歌于2017年提出的基于注意力机制的transformer架构。通常，机器翻译被看作是一个序列到另一个序列的转化。在神经机器翻译中，序列到序列的转化过程由编码器-解码器（encoder-decoder）框架实现。其中，编码器负责将源语言序列进行编码，并提取语言中的信息在高维空间中进行表示。解码器会将这些信息转换为另一种语言的表达。

对于特定垂直领域的机器翻译模型强化，人工规则的机器翻译的优化方法最为简单直接，只需增加规则即可。

从统计模型方法开始，机器翻译任务逐渐开始依赖数据的支持。在业务场景下，基于统计模型的机器翻译的优化办法本质上是让模型尽可能地拟合真实场景数据的分布情况。因此有两种方法：第一是改动翻译模型，即修改拟合函数；第二是修改数据集分布，使其在训练时更容易贴合现实分布。因此对数据集的质量要求较高。

对神经网络机器翻译来说，一种常用的解决方法就是再次采用大量人工对双语平行语料数据进行标注，因此需要专业领域的双语人才来进行高质量和大批量的数据处理，这个会导致极高的优化成本。为了减少标注成本，学术界引入零样本学习（Zero-shotlearning，ZSL）和少样本学习（Few-shot learning，FSL）概念作为模型鲁棒性和扩展性的评价标准。这两种概念都是希望人工智能实现真正的智能，在数据集中不出现对应的数据，通过某种描述让模型能够做出正确的判断，强化模型的推理能力。例如我们现有一个专门识别动物的模型，它能够做到识别老虎、狮子和马，现在我们希望它能够识别斑马。零样本学习中不会新增任何数据，而是告诉模型一些描述性信息：长得像马，且身上有黑白条纹的是斑马。少样本学习中会补充少量斑马的照片，并且希望模型能够在其他场景中认出斑马。对于自然语言处理的零样本和少样本学习任务，往往需要花费巨量算力去训练一个预训练语言大模型，基于同样巨量的训练语料数据，通过提升模型参数量来达到知识储存和知识迁移的效果。

最后针对不同的机器翻译技术方法不同的特点进行一次总结，表1中对比了这些方法，不难看出：

1）人工规则方法成本高，应用场景少，尽管有着翻译精度高和结果可控的优点，但是因为生产力低下的原因遭到了淘汰；

2）统计模型需要部分工程师进行特征提取，同时对数据质量有一些要求，并且由于是采用了概率生成的方式，翻译结果不完全可控；

3）神经网络虽然在统计模型的基础上对数据质量的要求进一步放低，但是带来新的问题：对输入序列高度抽象的编码导致翻译结果可解释性非常低，精度非常不可控。

表1：不同机器翻译方法的对比

从表1中能够观察到，机器翻译范式的更新迭代主要朝着生产力越来越高，对数据要求越来越低，适用范围越来越广的方向发展。但是在发展的过程中，由于采用了基于统计概率和神经网络的模型，对于数据集中缺失的数据，翻译结果也逐渐开始走向不可控。

以金融领域机器翻译为例，在金融领域中由于专业的特殊性质往往对于翻译生成内容中的各个金融术语、金融实体的准确率要求非常高，在业务中一个小小的错误可能导致实际指向的目标天差地别，进一步导致客户的错误理解，形成严重的误判。与此同时，我们又缺少标注完全的金融领域机器翻译平行语料（即由一条源语言和一条对应目标语言组成的数据），神经网络无法在受限的训练集中达到一个理想的水平。因此，如何提升深度学习神经网络在非训练集数据上的表现，以便将其迁移到新的领域中进行应用就成为了一个新的研究方向。

金融领域另一个重要的特点是专业性、时效性和精确性。在瞬息万变的金融市场中，我们需要一个翻译系统帮助我们完成针对新出现的词语的专业精准翻译，对于潜在可能翻译出错的词汇进行预防性检查，同时能够在分钟级别解决翻译中的错误。

综上所述，现有技术手段存在的问题是：

在垂直领域机器翻译业务场景中，往往只能获得业务相关的源语言数据，而缺少目标语言数据构成垂直领域翻译平行语料数据。由于缺少对应垂直领域的语料数据，尤其是高质量的翻译语料，对于特定垂直领域的专业用语、术语和短语的翻译，在使用通用领域机器翻译的时候，往往会生成不准确、不专业和不严谨的结果。传统的人工标注方法不但会花费大量金钱成本在专业领域翻译人才招募上，而且也会消耗大量的时间成本在任务分发和质量检查环节。考虑到企业在项目开发中的实际情况，这种方案往往因成本过大而不具备可行性。而最近新的零样本学习和少样本学习技术往往被应用于分类型任务中，在类似机器翻译这种生成型任务里很难最终落地应用。此外零样本学习和少样本学习技术往往需求一个预训练大模型，而训练和微调一个预训练大模型所需要的算力成本也是非常高的。所有这些问题都会导致机器翻译无法产品化、业务化。

发明内容

本发明的目的是：实现垂直领域机器翻译中对特定目标短语和实体的翻译优化。

为了达到上述目的，本发明的技术方案是提供了一种针对垂直领域机器翻译的低资源优化方法，其特征在于，包括以下步骤：

步骤1、数据准备：

准备用于训练机器翻译模型的双语平行语料数据，该双语平行语料数据为一个文本数据集，文本数据集中的每一行数据由一条源语言X={x ₁ ,x ₂ ,...,x _n}和一条对应的目标语言Y={y ₁ ,y ₂ ,...,y _m}构成；

步骤2、目标识别：

采用目标检测模型，在双语平行语料数据的源语言和目标语言中定位垂直领域特定目标短语和实体，对于双语平行语料数据中的任意一条双语平行语料数据Data={X,Y}，采用目标检测模型进行目标识别包括以下步骤：

利用目标检测模型对源语言X={x ₁ ,x ₂ ,...,x _n}进行业务需求所关注的源短语的检测，判断在基准字典Dict={S,T,A}中是否存在与源语言X对应的k个源短语，若存在且基准字典Dict={S,T,A}中同时存在所有与k个源短语对应的正确翻译的目标短语，则将双语平行语料数据Data={X,Y}判定为合格数据，进入步骤5，否则将双语平行语料数据Data={X,Y}中存在的能够与基准字典Dict={S,T,A}中的源短语对应的源语言进行标记后，将双语平行语料数据Data={X,Y}输出到待清洗数据集，进行步骤3的清洗，其中，基准字典Dict={S,T, A}是一个记录了不同业务需求所关注的源短语S={s ₁ ,s ₂ ,...,s _i}、和其对应正确翻译的目标短语T={t ₁ ,t ₂ ,...,t _i}以及其对应错误翻译的目标短语A={a ₁ ,a ₂ ,...,a _i}的字典，其中，目标语言的错误翻译存在多个，即a _i ={a _i1 ,a _i2 ,..,a _ij}；

步骤3、机器清洗：

基于步骤2中标记的源语言，通过基准字典Dict={S,T,A}进行正则替换清洗，若至少进行过一次正则替换清洗，则进入步骤5，否则进入步骤4；

步骤4、基于步骤2中标记的源语言进行人工清洗，进入步骤5；

步骤5、基于上一步获得的双语平行语料，重新训练机器翻译模型。

优选地，所述步骤1中，所述双语平行语料数据包括基于公开通用领域的双语平行语料数据以及与业务需求相关的垂直领域双语平行语料数据。

优选地，所述步骤1中，目标语言Y={y ₁ ,y ₂ ,...,y _m}由基于源语言X={x ₁ ,x ₂ ,...,x _n}利用机器翻译服务翻译得到。

优选地，所述步骤2中，目标检测模型采用实体识别模型实现，或者采用基准字典Dict={S,T,A}和正则表达式相结合的方式实现，或者采用基准字典Dict={S,T,A}和flashtext算法相结合的方式实现。

优选地，所述步骤3中，进行正则替换清洗具体包括以下步骤：

根据步骤2中标记的源语言，得到基准字典Dict={S,T,A}中与其对应的错误翻译的目标短语和正确翻译的目标短语，将错误翻译的目标短语记为错误翻译

，将正确翻译的目标短语记为正确翻译

；

遍历错误翻译

中的每个短语，根据错误翻译

中每个短语所对应字符串的长度，从长到短依次利用正则表达式对目标语言Y中的错误翻译用对应的正确翻译

进行替换；

若至少进行了一次替换操作，则认为机器清洗已完成，将替换后所获得的双语平行语料数据视为合格数据，进入步骤5；若遍历错误翻译

后没有发生至少一次的替换，则进入步骤5。

优选地，所述步骤4中，基于办公软件对步骤2中标记的源语言进行高亮显示后，利用该办公软件进行人工清洗。

优选地，若有新的业务需求时：

根据新的业务需求更新基准字典Dict={S,T,A}；

判断新的业务需求是否有需要补充新的双语平行语料数据，若有新的双语平行语料数据，则从所述步骤1开始执行，直至执行完步骤5；若没有补充的新的双语平行语料数据，则从所述步骤2开始执行，直至执行完步骤5。

优选地，对所述基准字典Dict={S,T,A}的更新包括：

在所述基准字典Dict={S,T,A}中添加新的业务需求关注的目标短语和实体，记录其源短语、目标短语和对应错误翻译的目标短语；

或者根据新的业务需求，删除基准字典Dict={S,T,A}中不需要的目标短语和实体；

或者根据新的业务需求，改动业务需求所关注的目标短语和实体，记录其新的源短语、目标短语和对应错误翻译的目标短语。

与现有技术相比，本发明具有如下有益效果：

1）无需大量高质量标注平行语料

目前机器翻译在专业垂直领域的提升主要依靠高质量的平行语料进行训练，本发明提供了一个可循环使用的工作流程，仅需通用领域语料即可完成机器翻译在专业领域中的冷启动问题。后续可以通过不断地补充语料，重复使用本发明，来不断提升语料整体质量，来达到在特定领域中高质量的机器翻译效果。

2）无需专业标注人员

需要特别指出的是，本发明对标注人员的双语水平无特别高的要求，对于英中双语翻译来说仅仅需要通过CET4等级考试即可，无需专业外语专业的人才。最重要的是往往传统方案中标注人员同时也是行业专家，在本发明中，字典充当了专业知识库的作用，因此对标注人员在特定领域的专业水平也没有要求。

3）无需高算力显卡和预训练大模型

目前自然语言处理任务往往会演变成预训练大模型的堆砌，这不但意味着高昂的训练和维护成本，同时也意味着需求海量的数据。基于本系统的神经网络模型相较于预训练大模型参数量更少，能够在2080等消费级显卡上训练和部署。这大大减少了业务成本，同时依旧保证了高质量的翻译效果。

4）模块化设计：

在系统设计过程中主要分为数据准备、目标识别、机器清洗、人工清洗、模型训练等几个模块。其中涉及到深度学习算法的可能有目标识别中的实体识别算法和模型训练中的机器翻译算法。本发明对特定算法没有任何依赖，可以按照业务需求、算力资源、技术储备等多个因素自由调整其中的算法。

5）字典为构建垂直领域知识图谱奠基

在本发明中，我们运营维护了一个全新的业务字典数据集Dict={S,T,A}，同时基于实体识别模块我们可以轻易地获得字典源语言的实体类别。因此我们可以轻易获取若干个类似<头实体，关系，尾实体>三元组。其中关系可以为“翻译为”、“类别为”等等。

6）易于扩展到其他垂直领域

出于本发明各个模块之间极强的可替代性，因此本发明可以轻松迁移应用至其他垂直领域，例如法律、医药、汽车等等。

附图说明

图1示意了垂直领域翻译语料数据校对流程；

图2示意了flashtext使用关键字建立一个trie字典；

图3示意了利用flashtext进行搜索。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明引入实体识别和数据词典，通过一整套数据清洗、数据运营和模型迭代流程，结合少量简单的人工标注工作，来较低成本地完成机器翻译模型在真实业务场景中的冷启动和对目标短语和实体翻译的校对优化，从而实现机器翻译产品的落地。

为了更好地解释本发明公开的方案，先定义如下的概念：

双语平行语料数据：一个文本数据集，每一行数据由一条源语言X={x ₁ ,x ₂ ,...,x _n}和一条对应目标语言Y={y ₁ ,y ₂ ,...,y _m}构成，并且采用空格“\t”的方式将源语言与目标语言隔开。

机器翻译模型：一个基于深度学习神经网络框架，在平行语料数据上训练后得到的翻译模型，可以用来进行源语言到目标语言的翻译工作。常见的开源翻译框架有OpenNMT、fairseq等。

实体识别模型：一个基于深度学习神经网络框架的实体识别模型，可以用来识别平行语料数据中业务关注的目标短语和实体。常见的开源实体识别框架有Bert加CRF。

基准字典：一个记录了不同业务需求所关注的源短语S={s ₁ ,s ₂ ,...,s _i}、和其对应正确翻译的目标短语T={t ₁ ,t ₂ ,...,t _i}以及其对应错误翻译的目标短语A={a ₁ ,a ₂ ,...,a _i}的字典Dict={S,T,A}。可以利用正则表达式自动完成清洗的工作。其中目标语言的错误翻译可能存在多个，即a _i ={a _i1 ,a _i2 ,..,a _ij}。常见的源语言和目标语言数据可以通过百度百科、维基百科、有道词典获取。错误翻译的数据同样可以通过百度翻译和日常业务中获得。

基于上述定义，本发明公开的一种针对垂直领域机器翻译的低资源优化方法包括以下步骤：

步骤1、数据准备：

准备用于训练机器翻译模型的双语平行语料数据，主要分为两部分：一个是基于公开通用领域的双语平行语料数据，另一个是基于现实业务相关的垂直领域双语平行语料数据。可以采用公开的机器翻译服务，例如百度翻译，进行翻译后获取低质量的双语平行语料数据。

步骤2、目标识别：

借用实体识别模型，在双语平行语料数据的源语言和目标语言中定位垂直领域特定目标短语和实体。

假设有一条双语平行语料数据Data={X,Y}，其中，源语言X={x ₁ ,x ₂ ,...,x _n}，目标语言Y={y ₁ ,y ₂ ,...,y _m}，则步骤2包括以下步骤：

对源语言X={x ₁ ,x ₂ ,...,x _n}进行业务关注的源短语检测，运行实体识别模型，判断是否存在至少一个字典Dict中的源短语

在源语言中，即是否存在满足下式的源短语

：

若存在至少一个源短语

，则进一步对目标语言Y={y ₁ ,y ₂ ,...,y _m}进行业务关注的正确翻译的目标短语检测，运行实体识别模型，判断其是否包含源短语

在字典Dict中所对应正确翻译的目标短语

，即是否存在满足下式的目标短语

：

假设检测到双语平行语料数据Data={X,Y}中源语言X存在k个业务关注的源短语

，并且目标语言Y中存在所有的对应正确翻译的目标短语

，则数据{X,Y}为合格数据，将数据{X,Y}输出，跳到步骤5；

假设源语言X中至少存在一个源短语

，且其对应正确翻译的目标短语

不在目标语言Y中，即满足下式：

则数据{X,Y}为不合格数据，将数据{X,Y}中的源短语

进行标记后输出到待清洗数据集，进行步骤3的清洗。

本步骤中，也可以采用字典Dict={S,T,A}和正则表达式或者字典Dict={S,T,A}和flashtext算法相结合的方式代替实体识别模型完成目标检测任务。其中，正则表达式和flashtext都是字符搜索和替换算法，相比较而言flashtext的时间复杂度不依赖于搜索或替换的字符的数量，因此本发明更推荐在大量语料数据上使用flashtext算法。

flashtext是一种基于 Trie 字典数据结构和AhoCorasick的算法。它的工作方式是，首先它将所有相关的关键字作为输入。使用这些关键字建立一个trie字典，如图2所示。

图2中，start和eot是两个特殊的字符，分别是字符序列的开始标签和结束标签，用来定义词的边界，这和本发明提到的正则表达式是一样的。这个trie字典就是用来搜索和替换的数据结构。

利用flashtext进行搜索：

对于输入字符串（文档），我们对字符进行逐个遍历。当我们在文档中的字符序列<\b>word<\b>匹配到字典中的word时，我们认为这是一个完整匹配了。我们将匹配到的字符序列所对应的标准关键字进行输出，具体如下：

输入文本为：This is a mag1c translationproject.

找到的关键字是：mag1c，他对应的正确结果term为machine

利用flashtext进行替换：

对于输入字符串（文档），我们对字符进行逐个遍历它。我们先创建一个空的字符串，当我们字符序列中的<\b>word<\b>无法在 Trie 字典中找到匹配时，那么我们就简单的原始字符复制到返回字符串中。但是，当我们可以从 Trie 字典中找到匹配时，那么我们将将匹配到的字符的标准字符复制到返回字符串中。因此，返回字符串是输入字符串的一个副本，唯一的不同是替换了匹配到的字符序列，具体如下：

输入文本为：This is a mag1c translationproject.

找到的关键字是：mag1c，他对应的正确结果term为machine

输出包含term的副本内容：This is a machinetranslationproject。

步骤3、机器清洗：基于步骤2中标记的源短语

，通过字典Dict={S,T,A}进行正则替换清洗，具体包括以下步骤：

根据标记的源短语

，得到其字典Dict={S,T,A}中对应的错误翻译的目标短语

（下文简称为“错误翻译”）和正确翻译的目标短语

（下文简称为“正确翻译”）。由于正则表达式对字符串数据进行操作的特性，我们在操作时需要根据错误翻译的字符串长度，从长到短依次检测替换，即保证：

式中，len表示计算长度。

遍历错误翻译

中的每个短语，依次利用正则表达式对目标语言Y 中的错误翻译用对应的正确翻译

进行替换。参考的python语言实现代码为：

式中，

表示对目标语言Y中的错误翻译用对应的正确翻译进行替换后生成的正确目标语言，replace表示替换操作。

一旦进行了一次替换操作，则认为机器清洗已完成，所获得的数据

为合格数据，将数据

输出，跳到步骤5。

假设遍历错误翻译

后没有发生至少一次的替换，则继续进行步骤4。

步骤4、人工清洗：基于Brat开源标注系统，提供一个可视化标注界面，有效提升标注人员的生产效率，包括以下步骤

步骤401、根据标记的源短语

，双语平行语料数据Data={X,Y}在显示过程中会自动高亮

；

步骤402、标注人员参考源短语

对应的正确翻译

，通过拖拽选择的方式在Brat 系统上进行高亮标注潜在的错误翻译

；

步骤403、质检人员抽样检查标注人员产出，对于不合格的数据会回滚至步骤402 再次标注，对于合格数据，将错误翻译

添加进错误翻译

中；

步骤404、遍历更新后的错误翻译

中的每个短语，依次利用正则表达式对目标语言Y中的错误翻译用对应的正确翻译

进行替换，进入步骤5。

Brat开源标注系统是linux下的一款应用于网页端的文本标注工具，它拥有可视化、标准化和轻量化的优点，可用于标注如下类型信息：实体：命名实体，可用于NER；关系：实体间关系，可用于关系抽取；事件：实体参与的事件；属性：事件或实体的属性，常用于知识图谱。

同样是记录文本信息，本步骤中也可以使用其他办公软件来完成与Brat开源标注系统相同的工作产出。以Notepad++和excel为例。

对于Notepad++，标注不合格数据有如下工作流程：

1）将平行语料数据转换为.txt文件进行储存，包括以下步骤：

a）根据源短语标记

，得到其对应的正确翻译

；

b）结合平行语料数据{X,Y}，生成四维数据

；

c）输出为.txt文本数据。

2）使用Notepad++打开数据文件，进入编辑界面；

3）标注人员批量查找短语，包括以下步骤：

a）通过“Ctrl+F”呼出查找界面；

b）在上方标签中选择“标记”；

c）左侧勾选栏选中“标记所在行”、“清除上次标记”与“循环查找”；

d）输入源短语标记

，点击“全部标记”。

4）标注人员根据标记批量标注数据。

对于excel，标注不合格数据有如下工作流程：

1）将平行语料数据转换为excel文件进行储存，包括以下步骤：

a）根据源短语标记

，得到其对应的正确翻译

；

b）结合平行语料数据{X,Y}，生成四维数据

；

c）输出为.xlsx表格数据。

2）进入excel，使用“Ctrl+F”呼出查找界面；

3）上侧选项卡选择“替换”，右侧点击“选项”；

4）填写“查找内容”

5）在“替换为”右侧选择“格式”进行颜色设置；

6）在“替换格式”上侧点击“填充”选项卡；

7）选择一个颜色，点击“确定”；

8）点击“全部替换”，完成批量数据标注。

步骤5、模型训练：

基于数据清洗数据处理后的双语平行语料，重新训练机器翻译模型。

若有关注不同目标短语和实体的新的翻译业务需求产生时，则进行如下处理：

（1）根据新的翻译业务需求更新字典Dict={S,T,A}，可进行的操作包含：

增加：在字典Dict中添加新的业务关注的目标短语和实体，记录其源短语

、目标短语

和对应错误翻译的目标短语

；

删除：删除字典Dict中不需要的目标短语和实体；

改变：改动业务关注的目标短语和实体，记录其新的源短语

、目标短语

和对应错误翻译的目标短语

。

（2）判断新的翻译业务需求是否需要补充新数据，若需要，则从上述的步骤1开始执行，直至执行完步骤5；若新翻译业务需求不需要补充新数据，则从上述的步骤2开始执行，直至执行完步骤5。

本发明采用了流水线式（pipeline）任务系统设计，因此可以根据业务现实情况，进一步减少模块的开发和运维开销。从图1中我们可以看出，该流程图实现了系统闭环。随着业务需求的更新，我们可以在现有模型和平行语料数据的基础上重新回到步骤1，通过控制字典Dict={S,T,A}，实现校对数据的敏捷迭代。因此本发明提供的方法可以被反复套用，以提升数据集鲁棒性。

Claims

1.一种针对垂直领域机器翻译的低资源优化方法，其特征在于，包括以下步骤：

步骤1、数据准备：

准备用于训练机器翻译模型的双语平行语料数据，该双语平行语料数据为一个文本数据集，文本数据集中的每一行数据由一条源语言X={x ₁ ,x ₂ ,...,x _n}和一条对应的目标语言Y ={y ₁ ,y ₂ ,...,y _m}构成；

步骤2、目标识别：

利用目标检测模型对源语言X={x ₁ ,x ₂ ,...,x _n}进行业务需求所关注的源短语的检测，判断在基准字典Dict={S,T,A}中是否存在与源语言X对应的k个源短语，若存在且基准字典Dict={S,T,A}中同时存在所有与k个源短语对应的正确翻译的目标短语，则将双语平行语料数据Data={X,Y}判定为合格数据，进入步骤5，否则将双语平行语料数据Data={X,Y}中存在的能够与基准字典Dict={S,T,A}中的源短语对应的源语言进行标记后，将双语平行语料数据Data={X,Y}输出到待清洗数据集，进行步骤3的清洗，其中，基准字典Dict={S,T,A}是一个记录了不同业务需求所关注的源短语S={s ₁ ,s ₂ ,...,s _i}、和其对应正确翻译的目标短语T={t ₁ ,t ₂ ,...,t _i}以及其对应错误翻译的目标短语A={a ₁ ,a ₂ ,...,a _i}的字典，其中，目标语言的错误翻译存在多个，即a _i ={a _i1 ,a _i2 ,..,a _ij}；

步骤3、机器清洗：

2.如权利要求1所述的一种针对垂直领域机器翻译的低资源优化方法，其特征在于，所述步骤1中，所述双语平行语料数据包括基于公开通用领域的双语平行语料数据以及与业务需求相关的垂直领域双语平行语料数据。

3.如权利要求1所述的一种针对垂直领域机器翻译的低资源优化方法，其特征在于，所述步骤1中，目标语言Y={y ₁ ,y ₂ ,...,y _m}由基于源语言X={x ₁ ,x ₂ ,...,x _n}利用机器翻译服务翻译得到。

4.如权利要求1所述的一种针对垂直领域机器翻译的低资源优化方法，其特征在于，所述步骤2中，目标检测模型采用实体识别模型实现，或者采用基准字典Dict={S,T,A}和正则表达式相结合的方式实现，或者采用基准字典Dict={S,T,A}和flashtext算法相结合的方式实现。

5.如权利要求1所述的一种针对垂直领域机器翻译的低资源优化方法，其特征在于，所述步骤3中，进行正则替换清洗具体包括以下步骤：

，将正确翻译的目标短语记为正确翻译

；

遍历错误翻译

中的每个短语，根据错误翻译

进行替换；

后没有发生至少一次的替换，则进入步骤5。

6.如权利要求1所述的一种针对垂直领域机器翻译的低资源优化方法，其特征在于，所述步骤4中，基于办公软件对步骤2中标记的源语言进行高亮显示后，利用该办公软件进行人工清洗。

7.如权利要求1所述的一种针对垂直领域机器翻译的低资源优化方法，其特征在于，若有新的业务需求时：

根据新的业务需求更新基准字典Dict={S,T,A}；

8.如权利要求7所述的一种针对垂直领域机器翻译的低资源优化方法，其特征在于，对所述基准字典Dict={S,T,A}的更新包括：