CN115455964A - 一种针对垂直领域机器翻译的低资源优化方法 - Google Patents

一种针对垂直领域机器翻译的低资源优化方法 Download PDF

Info

Publication number
CN115455964A
CN115455964A CN202211408443.5A CN202211408443A CN115455964A CN 115455964 A CN115455964 A CN 115455964A CN 202211408443 A CN202211408443 A CN 202211408443A CN 115455964 A CN115455964 A CN 115455964A
Authority
CN
China
Prior art keywords
target
data
translation
language
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211408443.5A
Other languages
English (en)
Other versions
CN115455964B (zh
Inventor
朱胜
褚佳文
吴宇鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wind Information Technology Co ltd
Original Assignee
Nanjing Wande Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Wande Information Technology Co ltd filed Critical Nanjing Wande Information Technology Co ltd
Priority to CN202211408443.5A priority Critical patent/CN115455964B/zh
Publication of CN115455964A publication Critical patent/CN115455964A/zh
Application granted granted Critical
Publication of CN115455964B publication Critical patent/CN115455964B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种针对垂直领域机器翻译的低资源优化方法,其特征在于,包括数据准备;目标识别;机器清洗;人工清洗;重新训练机器翻译模型。与现有技术相比,本发明具有如下有益效果:无需大量高质量标注平行语料,仅需通用领域语料即可完成机器翻译在专业领域中的冷启动问题;无需专业外语专业的人才;无需高算力显卡和预训练大模型;在系统设计过程中主要分为数据准备、目标识别、机器清洗、人工清洗、模型训练等几个模块,可以按照业务需求、算力资源、技术储备等多个因素自由调整其中的算法;字典为构建垂直领域知识图谱奠基;易于扩展到任意垂直领域。

Description

一种针对垂直领域机器翻译的低资源优化方法
技术领域
本发明涉及计算机技术领域,尤其涉及NLP(Natural Language Processing,自然语言处理)人工智能技术领域中的MT(Machine Translation,机器翻译)任务,具体为一种低资源、运行高效、易维护、泛用性强、基于大量金融翻译语料数据校对方法。
背景技术
广义上来说,“翻译”是指把一个事物转化为另一个事物的过程,而机器翻译则特指利用计算机自动将一种自然语言转换为另一种自然语言的技术。在转换的过程中,我们往往将被转换的语言称作是源语言(Source Language),转换成的语言称作是目标语言(Target Language)。随着近年来人工智能技术的不断发展,机器翻译的技术范式也从早期的人工规则翻译,转向统计模型翻译,最终来到了目前大火的基于深度学习的神经机器翻译。
基于人工规则的机器翻译的主要思想是以词典和人工书写的规则库作为翻译知识,用一系列的组合完成翻译。例如在翻译“猫吃鱼”的时候,查字典得到“cat”、“eat”、“fish”,再从规则库中找到规则1,句子结构顺序为主谓宾,即翻译为“cat eat fish”。可以看到,规则的使用和人类进行翻译的思维过程非常类似,这也是可解释性和可控性最高的翻译系统。
基于统计模型的机器翻译利用统计方法从单语和双语语料数据自动学习翻译知识,整个过程不需要人工编写规则。无论是词还是短语,甚至是句式结构,统计模型都可以自动学习。一般系统中需要两个模型:翻译模型和语言模型。其中,翻译模型在双语语料中学习了源语言翻译成目标语言的概率,语言模型从单语语料中学习了目标语言词序列生成的概率。在使用中先通过翻译模型生成若干候选翻译后,再使用语言模型进行评估,并输出概率最高的结果。
基于神经网络的机器翻译,目前主要采用的是谷歌于2017年提出的基于注意力机制的transformer架构。通常,机器翻译被看作是一个序列到另一个序列的转化。在神经机器翻译中,序列到序列的转化过程由编码器-解码器(encoder-decoder)框架实现。其中,编码器负责将源语言序列进行编码,并提取语言中的信息在高维空间中进行表示。解码器会将这些信息转换为另一种语言的表达。
对于特定垂直领域的机器翻译模型强化,人工规则的机器翻译的优化方法最为简单直接,只需增加规则即可。
从统计模型方法开始,机器翻译任务逐渐开始依赖数据的支持。在业务场景下,基于统计模型的机器翻译的优化办法本质上是让模型尽可能地拟合真实场景数据的分布情况。因此有两种方法:第一是改动翻译模型,即修改拟合函数;第二是修改数据集分布,使其在训练时更容易贴合现实分布。因此对数据集的质量要求较高。
对神经网络机器翻译来说,一种常用的解决方法就是再次采用大量人工对双语平行语料数据进行标注,因此需要专业领域的双语人才来进行高质量和大批量的数据处理,这个会导致极高的优化成本。为了减少标注成本,学术界引入零样本学习(Zero-shotlearning,ZSL)和少样本学习(Few-shot learning,FSL)概念作为模型鲁棒性和扩展性的评价标准。这两种概念都是希望人工智能实现真正的智能,在数据集中不出现对应的数据,通过某种描述让模型能够做出正确的判断,强化模型的推理能力。例如我们现有一个专门识别动物的模型,它能够做到识别老虎、狮子和马,现在我们希望它能够识别斑马。零样本学习中不会新增任何数据,而是告诉模型一些描述性信息:长得像马,且身上有黑白条纹的是斑马。少样本学习中会补充少量斑马的照片,并且希望模型能够在其他场景中认出斑马。对于自然语言处理的零样本和少样本学习任务,往往需要花费巨量算力去训练一个预训练语言大模型,基于同样巨量的训练语料数据,通过提升模型参数量来达到知识储存和知识迁移的效果。
最后针对不同的机器翻译技术方法不同的特点进行一次总结,表1中对比了这些方法,不难看出:
1)人工规则方法成本高,应用场景少,尽管有着翻译精度高和结果可控的优点,但是因为生产力低下的原因遭到了淘汰;
2)统计模型需要部分工程师进行特征提取,同时对数据质量有一些要求,并且由于是采用了概率生成的方式,翻译结果不完全可控;
3)神经网络虽然在统计模型的基础上对数据质量的要求进一步放低,但是带来新的问题:对输入序列高度抽象的编码导致翻译结果可解释性非常低,精度非常不可控。
Figure 946368DEST_PATH_IMAGE001
表1:不同机器翻译方法的对比
从表1中能够观察到,机器翻译范式的更新迭代主要朝着生产力越来越高,对数据要求越来越低,适用范围越来越广的方向发展。但是在发展的过程中,由于采用了基于统计概率和神经网络的模型,对于数据集中缺失的数据,翻译结果也逐渐开始走向不可控。
以金融领域机器翻译为例,在金融领域中由于专业的特殊性质往往对于翻译生成内容中的各个金融术语、金融实体的准确率要求非常高,在业务中一个小小的错误可能导致实际指向的目标天差地别,进一步导致客户的错误理解,形成严重的误判。与此同时,我们又缺少标注完全的金融领域机器翻译平行语料(即由一条源语言和一条对应目标语言组成的数据),神经网络无法在受限的训练集中达到一个理想的水平。因此,如何提升深度学习神经网络在非训练集数据上的表现,以便将其迁移到新的领域中进行应用就成为了一个新的研究方向。
金融领域另一个重要的特点是专业性、时效性和精确性。在瞬息万变的金融市场中,我们需要一个翻译系统帮助我们完成针对新出现的词语的专业精准翻译,对于潜在可能翻译出错的词汇进行预防性检查,同时能够在分钟级别解决翻译中的错误。
综上所述,现有技术手段存在的问题是:
在垂直领域机器翻译业务场景中,往往只能获得业务相关的源语言数据,而缺少目标语言数据构成垂直领域翻译平行语料数据。由于缺少对应垂直领域的语料数据,尤其是高质量的翻译语料,对于特定垂直领域的专业用语、术语和短语的翻译,在使用通用领域机器翻译的时候,往往会生成不准确、不专业和不严谨的结果。传统的人工标注方法不但会花费大量金钱成本在专业领域翻译人才招募上,而且也会消耗大量的时间成本在任务分发和质量检查环节。考虑到企业在项目开发中的实际情况,这种方案往往因成本过大而不具备可行性。而最近新的零样本学习和少样本学习技术往往被应用于分类型任务中,在类似机器翻译这种生成型任务里很难最终落地应用。此外零样本学习和少样本学习技术往往需求一个预训练大模型,而训练和微调一个预训练大模型所需要的算力成本也是非常高的。所有这些问题都会导致机器翻译无法产品化、业务化。
发明内容
本发明的目的是:实现垂直领域机器翻译中对特定目标短语和实体的翻译优化。
为了达到上述目的,本发明的技术方案是提供了一种针对垂直领域机器翻译的低资源优化方法,其特征在于,包括以下步骤:
步骤1、数据准备:
准备用于训练机器翻译模型的双语平行语料数据,该双语平行语料数据为一个文本数据集,文本数据集中的每一行数据由一条源语言X={x 1 ,x 2 ,...,x n }和一条对应的目标语言Y={y 1 ,y 2 ,...,y m }构成;
步骤2、目标识别:
采用目标检测模型,在双语平行语料数据的源语言和目标语言中定位垂直领域特定目标短语和实体,对于双语平行语料数据中的任意一条双语平行语料数据Data={X,Y},采用目标检测模型进行目标识别包括以下步骤:
利用目标检测模型对源语言X={x 1 ,x 2 ,...,x n }进行业务需求所关注的源短语的检测,判断在基准字典Dict={S,T,A}中是否存在与源语言X对应的k个源短语,若存在且基准字典Dict={S,T,A}中同时存在所有与k个源短语对应的正确翻译的目标短语,则将双语平行语料数据Data={X,Y}判定为合格数据,进入步骤5,否则将双语平行语料数据Data={X,Y}中存在的能够与基准字典Dict={S,T,A}中的源短语对应的源语言进行标记后,将双语平行语料数据Data={X,Y}输出到待清洗数据集,进行步骤3的清洗,其中,基准字典Dict={S,T, A}是一个记录了不同业务需求所关注的源短语S={s 1 ,s 2 ,...,s i }、和其对应正确翻译的目标短语T={t 1 ,t 2 ,...,t i }以及其对应错误翻译的目标短语A={a 1 ,a 2 ,...,a i }的字典,其中,目标语言的错误翻译存在多个,即a i ={a i1 ,a i2 ,..,a ij };
步骤3、机器清洗:
基于步骤2中标记的源语言,通过基准字典Dict={S,T,A}进行正则替换清洗,若至少进行过一次正则替换清洗,则进入步骤5,否则进入步骤4;
步骤4、基于步骤2中标记的源语言进行人工清洗,进入步骤5;
步骤5、基于上一步获得的双语平行语料,重新训练机器翻译模型。
优选地,所述步骤1中,所述双语平行语料数据包括基于公开通用领域的双语平行语料数据以及与业务需求相关的垂直领域双语平行语料数据。
优选地,所述步骤1中,目标语言Y={y 1 ,y 2 ,...,y m }由基于源语言X={x 1 ,x 2 ,...,x n }利用机器翻译服务翻译得到。
优选地,所述步骤2中,目标检测模型采用实体识别模型实现,或者采用基准字典Dict={S,T,A}和正则表达式相结合的方式实现,或者采用基准字典Dict={S,T,A}和flashtext算法相结合的方式实现。
优选地,所述步骤3中,进行正则替换清洗具体包括以下步骤:
根据步骤2中标记的源语言,得到基准字典Dict={S,T,A}中与其对应的错误翻译 的目标短语和正确翻译的目标短语,将错误翻译的目标短语记为错误翻译
Figure 899280DEST_PATH_IMAGE002
,将正确翻译的目标短语记为正确翻译
Figure 430756DEST_PATH_IMAGE003
遍历错误翻译
Figure 836330DEST_PATH_IMAGE004
中的每个短语,根据错误翻译
Figure 291713DEST_PATH_IMAGE005
中每 个短语所对应字符串的长度,从长到短依次利用正则表达式对目标语言Y中的错误翻译用 对应的正确翻译
Figure 36815DEST_PATH_IMAGE003
进行替换;
若至少进行了一次替换操作,则认为机器清洗已完成,将替换后所获得的双语平 行语料数据视为合格数据,进入步骤5;若遍历错误翻译
Figure 535929DEST_PATH_IMAGE006
后没有发生至少一 次的替换,则进入步骤5。
优选地,所述步骤4中,基于办公软件对步骤2中标记的源语言进行高亮显示后,利用该办公软件进行人工清洗。
优选地,若有新的业务需求时:
根据新的业务需求更新基准字典Dict={S,T,A};
判断新的业务需求是否有需要补充新的双语平行语料数据,若有新的双语平行语料数据,则从所述步骤1开始执行,直至执行完步骤5;若没有补充的新的双语平行语料数据,则从所述步骤2开始执行,直至执行完步骤5。
优选地,对所述基准字典Dict={S,T,A}的更新包括:
在所述基准字典Dict={S,T,A}中添加新的业务需求关注的目标短语和实体,记录其源短语、目标短语和对应错误翻译的目标短语;
或者根据新的业务需求,删除基准字典Dict={S,T,A}中不需要的目标短语和实体;
或者根据新的业务需求,改动业务需求所关注的目标短语和实体,记录其新的源短语、目标短语和对应错误翻译的目标短语。
与现有技术相比,本发明具有如下有益效果:
1)无需大量高质量标注平行语料
目前机器翻译在专业垂直领域的提升主要依靠高质量的平行语料进行训练,本发明提供了一个可循环使用的工作流程,仅需通用领域语料即可完成机器翻译在专业领域中的冷启动问题。后续可以通过不断地补充语料,重复使用本发明,来不断提升语料整体质量,来达到在特定领域中高质量的机器翻译效果。
2)无需专业标注人员
需要特别指出的是,本发明对标注人员的双语水平无特别高的要求,对于英中双语翻译来说仅仅需要通过CET4等级考试即可,无需专业外语专业的人才。最重要的是往往传统方案中标注人员同时也是行业专家,在本发明中,字典充当了专业知识库的作用,因此对标注人员在特定领域的专业水平也没有要求。
3)无需高算力显卡和预训练大模型
目前自然语言处理任务往往会演变成预训练大模型的堆砌,这不但意味着高昂的训练和维护成本,同时也意味着需求海量的数据。基于本系统的神经网络模型相较于预训练大模型参数量更少,能够在2080等消费级显卡上训练和部署。这大大减少了业务成本,同时依旧保证了高质量的翻译效果。
4)模块化设计:
在系统设计过程中主要分为数据准备、目标识别、机器清洗、人工清洗、模型训练等几个模块。其中涉及到深度学习算法的可能有目标识别中的实体识别算法和模型训练中的机器翻译算法。本发明对特定算法没有任何依赖,可以按照业务需求、算力资源、技术储备等多个因素自由调整其中的算法。
5)字典为构建垂直领域知识图谱奠基
在本发明中,我们运营维护了一个全新的业务字典数据集Dict={S,T,A},同时基于实体识别模块我们可以轻易地获得字典源语言的实体类别。因此我们可以轻易获取若干个类似<头实体,关系,尾实体>三元组。其中关系可以为“翻译为”、“类别为”等等。
6)易于扩展到其他垂直领域
出于本发明各个模块之间极强的可替代性,因此本发明可以轻松迁移应用至其他垂直领域,例如法律、医药、汽车等等。
附图说明
图1示意了垂直领域翻译语料数据校对流程;
图2示意了flashtext使用关键字建立一个trie字典;
图3示意了利用flashtext进行搜索。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
本发明引入实体识别和数据词典,通过一整套数据清洗、数据运营和模型迭代流程,结合少量简单的人工标注工作,来较低成本地完成机器翻译模型在真实业务场景中的冷启动和对目标短语和实体翻译的校对优化,从而实现机器翻译产品的落地。
为了更好地解释本发明公开的方案,先定义如下的概念:
双语平行语料数据:一个文本数据集,每一行数据由一条源语言X={x 1 ,x 2 ,...,x n }和一条对应目标语言Y={y 1 ,y 2 ,...,y m }构成,并且采用空格“\t”的方式将源语言与目标语言隔开。
机器翻译模型:一个基于深度学习神经网络框架,在平行语料数据上训练后得到的翻译模型,可以用来进行源语言到目标语言的翻译工作。常见的开源翻译框架有OpenNMT、fairseq等。
实体识别模型:一个基于深度学习神经网络框架的实体识别模型,可以用来识别平行语料数据中业务关注的目标短语和实体。常见的开源实体识别框架有Bert加CRF。
基准字典:一个记录了不同业务需求所关注的源短语S={s 1 ,s 2 ,...,s i }、和其对应正确翻译的目标短语T={t 1 ,t 2 ,...,t i }以及其对应错误翻译的目标短语A={a 1 ,a 2 ,...,a i }的字典Dict={S,T,A}。可以利用正则表达式自动完成清洗的工作。其中目标语言的错误翻译可能存在多个,即a i ={a i1 ,a i2 ,..,a ij }。常见的源语言和目标语言数据可以通过百度百科、维基百科、有道词典获取。错误翻译的数据同样可以通过百度翻译和日常业务中获得。
基于上述定义,本发明公开的一种针对垂直领域机器翻译的低资源优化方法包括以下步骤:
步骤1、数据准备:
准备用于训练机器翻译模型的双语平行语料数据,主要分为两部分:一个是基于公开通用领域的双语平行语料数据,另一个是基于现实业务相关的垂直领域双语平行语料数据。可以采用公开的机器翻译服务,例如百度翻译,进行翻译后获取低质量的双语平行语料数据。
步骤2、目标识别:
借用实体识别模型,在双语平行语料数据的源语言和目标语言中定位垂直领域特定目标短语和实体。
假设有一条双语平行语料数据Data={X,Y},其中,源语言X={x 1 ,x 2 ,...,x n },目标语言Y={y 1 ,y 2 ,...,y m },则步骤2包括以下步骤:
对源语言X={x 1 ,x 2 ,...,x n }进行业务关注的源短语检测,运行实体识别模型,判断 是否存在至少一个字典Dict中的源短语
Figure 428799DEST_PATH_IMAGE007
在源语言中,即是否存在满足下式的源短语
Figure 671561DEST_PATH_IMAGE007
Figure 271170DEST_PATH_IMAGE008
若存在至少一个源短语
Figure 691918DEST_PATH_IMAGE007
,则进一步对目标语言Y={y 1 ,y 2 ,...,y m }进行业务关注的 正确翻译的目标短语检测,运行实体识别模型,判断其是否包含源短语
Figure 72084DEST_PATH_IMAGE007
在字典Dict中所对 应正确翻译的目标短语
Figure 852958DEST_PATH_IMAGE009
,即是否存在满足下式的目标短语
Figure 572653DEST_PATH_IMAGE009
Figure 413570DEST_PATH_IMAGE010
假设检测到双语平行语料数据Data={X,Y}中源语言X存在k个业务关注的源短语
Figure 31764DEST_PATH_IMAGE011
,并且目标语言Y中存在所有的对应正确翻译的目标短语
Figure 616329DEST_PATH_IMAGE012
,则数据{X,Y}为合格数据,将数据{X,Y}输出,跳到步骤5;
假设源语言X中至少存在一个源短语
Figure 190530DEST_PATH_IMAGE013
,且其对应正确翻译的目标短语
Figure 467927DEST_PATH_IMAGE014
不在目标 语言Y中,即满足下式:
Figure 291527DEST_PATH_IMAGE015
则数据{X,Y}为不合格数据,将数据{X,Y}中的源短语
Figure 883045DEST_PATH_IMAGE016
进行标记后输出到待清洗 数据集,进行步骤3的清洗。
本步骤中,也可以采用字典Dict={S,T,A}和正则表达式或者字典Dict={S,T,A}和flashtext算法相结合的方式代替实体识别模型完成目标检测任务。其中,正则表达式和flashtext都是字符搜索和替换算法,相比较而言flashtext的时间复杂度不依赖于搜索或替换的字符的数量,因此本发明更推荐在大量语料数据上使用flashtext算法。
flashtext是一种基于 Trie 字典数据结构和AhoCorasick的算法。它的工作方式是,首先它将所有相关的关键字作为输入。使用这些关键字建立一个trie字典,如图2所示。
图2中,start和eot是两个特殊的字符,分别是字符序列的开始标签和结束标签,用来定义词的边界,这和本发明提到的正则表达式是一样的。这个trie字典就是用来搜索和替换的数据结构。
利用flashtext进行搜索:
对于输入字符串(文档),我们对字符进行逐个遍历。当我们在文档中的字符序列<\b>word<\b>匹配到字典中的word时,我们认为这是一个完整匹配了。我们将匹配到的字符序列所对应的标准关键字进行输出,具体如下:
输入文本为:This is a mag1c translationproject.
找到的关键字是:mag1c,他对应的正确结果term为machine
利用flashtext进行替换:
对于输入字符串(文档),我们对字符进行逐个遍历它。我们先创建一个空的字符串,当我们字符序列中的<\b>word<\b>无法在 Trie 字典中找到匹配时,那么我们就简单的原始字符复制到返回字符串中。但是,当我们可以从 Trie 字典中找到匹配时,那么我们将将匹配到的字符的标准字符复制到返回字符串中。因此,返回字符串是输入字符串的一个副本,唯一的不同是替换了匹配到的字符序列,具体如下:
输入文本为:This is a mag1c translationproject.
找到的关键字是:mag1c,他对应的正确结果term为machine
输出包含term的副本内容:This is a machinetranslationproject。
步骤3、机器清洗:基于步骤2中标记的源短语
Figure 856293DEST_PATH_IMAGE007
,通过字典Dict={S,T,A}进行正则 替换清洗,具体包括以下步骤:
根据标记的源短语
Figure 304592DEST_PATH_IMAGE007
,得到其字典Dict={S,T,A}中对应的错误翻译的目标短语
Figure 881067DEST_PATH_IMAGE017
(下文简称为“错误翻译”)和正确翻译的目标短语
Figure 10697DEST_PATH_IMAGE018
(下文简称为“正 确翻译”)。由于正则表达式对字符串数据进行操作的特性,我们在操作时需要根据错误翻 译的字符串长度,从长到短依次检测替换,即保证:
Figure 356227DEST_PATH_IMAGE019
式中,len表示计算长度。
遍历错误翻译
Figure 726160DEST_PATH_IMAGE006
中的每个短语,依次利用正则表达式对目标语言Y 中的错误翻译用对应的正确翻译
Figure 727614DEST_PATH_IMAGE009
进行替换。参考的python语言实现代码为:
Figure 457673DEST_PATH_IMAGE020
式中,
Figure 657710DEST_PATH_IMAGE021
表示对目标语言Y中的错误翻译用对应的正确翻译进行替换后生成的正 确目标语言,replace表示替换操作。
一旦进行了一次替换操作,则认为机器清洗已完成,所获得的数据
Figure 447811DEST_PATH_IMAGE022
为合格 数据,将数据
Figure 936561DEST_PATH_IMAGE023
输出,跳到步骤5。
假设遍历错误翻译
Figure 955464DEST_PATH_IMAGE006
后没有发生至少一次的替换,则继续进行步 骤4。
步骤4、人工清洗:基于Brat开源标注系统,提供一个可视化标注界面,有效提升标注人员的生产效率,包括以下步骤
步骤401、根据标记的源短语
Figure 275587DEST_PATH_IMAGE013
,双语平行语料数据Data={X,Y}在显示过程中会自 动高亮
Figure 236590DEST_PATH_IMAGE013
步骤402、标注人员参考源短语
Figure 743795DEST_PATH_IMAGE024
对应的正确翻译
Figure 18918DEST_PATH_IMAGE025
,通过拖拽选择的方式在Brat 系统上进行高亮标注潜在的错误翻译
Figure 944280DEST_PATH_IMAGE026
步骤403、质检人员抽样检查标注人员产出,对于不合格的数据会回滚至步骤402 再次标注,对于合格数据,将错误翻译
Figure 76184DEST_PATH_IMAGE027
添加进错误翻译
Figure 336264DEST_PATH_IMAGE028
中;
步骤404、遍历更新后的错误翻译
Figure 149499DEST_PATH_IMAGE029
中的每个短语,依次利用正则 表达式对目标语言Y中的错误翻译用对应的正确翻译
Figure 444214DEST_PATH_IMAGE030
进行替换,进入步骤5。
Brat开源标注系统是linux下的一款应用于网页端的文本标注工具,它拥有可视化、标准化和轻量化的优点,可用于标注如下类型信息:实体:命名实体,可用于NER;关系:实体间关系,可用于关系抽取;事件:实体参与的事件;属性:事件或实体的属性,常用于知识图谱。
同样是记录文本信息,本步骤中也可以使用其他办公软件来完成与Brat开源标注系统相同的工作产出。以Notepad++和excel为例。
对于Notepad++,标注不合格数据有如下工作流程:
1)将平行语料数据转换为.txt文件进行储存,包括以下步骤:
a)根据源短语标记
Figure 235103DEST_PATH_IMAGE007
,得到其对应的正确翻译
Figure 982479DEST_PATH_IMAGE018
b)结合平行语料数据{X,Y},生成四维数据
Figure 599405DEST_PATH_IMAGE031
c)输出为.txt文本数据。
2)使用Notepad++打开数据文件,进入编辑界面;
3)标注人员批量查找短语,包括以下步骤:
a)通过“Ctrl+F”呼出查找界面;
b)在上方标签中选择“标记”;
c)左侧勾选栏选中“标记所在行”、“清除上次标记”与“循环查找”;
d)输入源短语标记
Figure 748626DEST_PATH_IMAGE007
,点击“全部标记”。
4)标注人员根据标记批量标注数据。
对于excel,标注不合格数据有如下工作流程:
1)将平行语料数据转换为excel文件进行储存,包括以下步骤:
a)根据源短语标记
Figure 222333DEST_PATH_IMAGE032
,得到其对应的正确翻译
Figure 394688DEST_PATH_IMAGE018
b)结合平行语料数据{X,Y},生成四维数据
Figure 97196DEST_PATH_IMAGE033
c)输出为.xlsx表格数据。
2)进入excel,使用“Ctrl+F”呼出查找界面;
3)上侧选项卡选择“替换”,右侧点击“选项”;
4)填写“查找内容”
5)在“替换为”右侧选择“格式”进行颜色设置;
6)在“替换格式”上侧点击“填充”选项卡;
7)选择一个颜色,点击“确定”;
8)点击“全部替换”,完成批量数据标注。
步骤5、模型训练:
基于数据清洗数据处理后的双语平行语料,重新训练机器翻译模型。
若有关注不同目标短语和实体的新的翻译业务需求产生时,则进行如下处理:
(1)根据新的翻译业务需求更新字典Dict={S,T,A},可进行的操作包含:
增加:在字典Dict中添加新的业务关注的目标短语和实体,记录其源短语
Figure 366504DEST_PATH_IMAGE007
、目标 短语
Figure 745532DEST_PATH_IMAGE009
和对应错误翻译的目标短语
Figure 405184DEST_PATH_IMAGE034
删除:删除字典Dict中不需要的目标短语和实体;
改变:改动业务关注的目标短语和实体,记录其新的源短语
Figure 160650DEST_PATH_IMAGE007
、目标短语
Figure 35196DEST_PATH_IMAGE009
和对应 错误翻译的目标短语
Figure 53968DEST_PATH_IMAGE034
(2)判断新的翻译业务需求是否需要补充新数据,若需要,则从上述的步骤1开始执行,直至执行完步骤5;若新翻译业务需求不需要补充新数据,则从上述的步骤2开始执行,直至执行完步骤5。
本发明采用了流水线式(pipeline)任务系统设计,因此可以根据业务现实情况,进一步减少模块的开发和运维开销。从图1中我们可以看出,该流程图实现了系统闭环。随着业务需求的更新,我们可以在现有模型和平行语料数据的基础上重新回到步骤1,通过控制字典Dict={S,T,A},实现校对数据的敏捷迭代。因此本发明提供的方法可以被反复套用,以提升数据集鲁棒性。

Claims (8)

1.一种针对垂直领域机器翻译的低资源优化方法,其特征在于,包括以下步骤:
步骤1、数据准备:
准备用于训练机器翻译模型的双语平行语料数据,该双语平行语料数据为一个文本数据集,文本数据集中的每一行数据由一条源语言X={x 1 ,x 2 ,...,x n }和一条对应的目标语言Y ={y 1 ,y 2 ,...,y m }构成;
步骤2、目标识别:
采用目标检测模型,在双语平行语料数据的源语言和目标语言中定位垂直领域特定目标短语和实体,对于双语平行语料数据中的任意一条双语平行语料数据Data={X,Y},采用目标检测模型进行目标识别包括以下步骤:
利用目标检测模型对源语言X={x 1 ,x 2 ,...,x n }进行业务需求所关注的源短语的检测,判断在基准字典Dict={S,T,A}中是否存在与源语言X对应的k个源短语,若存在且基准字典Dict={S,T,A}中同时存在所有与k个源短语对应的正确翻译的目标短语,则将双语平行语料数据Data={X,Y}判定为合格数据,进入步骤5,否则将双语平行语料数据Data={X,Y}中存在的能够与基准字典Dict={S,T,A}中的源短语对应的源语言进行标记后,将双语平行语料数据Data={X,Y}输出到待清洗数据集,进行步骤3的清洗,其中,基准字典Dict={S,T,A}是一个记录了不同业务需求所关注的源短语S={s 1 ,s 2 ,...,s i }、和其对应正确翻译的目标短语T={t 1 ,t 2 ,...,t i }以及其对应错误翻译的目标短语A={a 1 ,a 2 ,...,a i }的字典,其中,目标语言的错误翻译存在多个,即a i ={a i1 ,a i2 ,..,a ij };
步骤3、机器清洗:
基于步骤2中标记的源语言,通过基准字典Dict={S,T,A}进行正则替换清洗,若至少进行过一次正则替换清洗,则进入步骤5,否则进入步骤4;
步骤4、基于步骤2中标记的源语言进行人工清洗,进入步骤5;
步骤5、基于上一步获得的双语平行语料,重新训练机器翻译模型。
2.如权利要求1所述的一种针对垂直领域机器翻译的低资源优化方法,其特征在于,所述步骤1中,所述双语平行语料数据包括基于公开通用领域的双语平行语料数据以及与业务需求相关的垂直领域双语平行语料数据。
3.如权利要求1所述的一种针对垂直领域机器翻译的低资源优化方法,其特征在于,所述步骤1中,目标语言Y={y 1 ,y 2 ,...,y m }由基于源语言X={x 1 ,x 2 ,...,x n }利用机器翻译服务翻译得到。
4.如权利要求1所述的一种针对垂直领域机器翻译的低资源优化方法,其特征在于,所述步骤2中,目标检测模型采用实体识别模型实现,或者采用基准字典Dict={S,T,A}和正则表达式相结合的方式实现,或者采用基准字典Dict={S,T,A}和flashtext算法相结合的方式实现。
5.如权利要求1所述的一种针对垂直领域机器翻译的低资源优化方法,其特征在于,所述步骤3中,进行正则替换清洗具体包括以下步骤:
根据步骤2中标记的源语言,得到基准字典Dict={S,T,A}中与其对应的错误翻译的目 标短语和正确翻译的目标短语,将错误翻译的目标短语记为错误翻译
Figure 401634DEST_PATH_IMAGE001
,将正确翻译的目标短语记为正确翻译
Figure 35878DEST_PATH_IMAGE002
遍历错误翻译
Figure 133147DEST_PATH_IMAGE003
中的每个短语,根据错误翻译
Figure 231553DEST_PATH_IMAGE004
中每个短语所对应字符串的长度,从长到短依次利用正则表达式对目标语言Y中的错误翻 译用对应的正确翻译
Figure 201166DEST_PATH_IMAGE002
进行替换;
若至少进行了一次替换操作,则认为机器清洗已完成,将替换后所获得的双语平行语 料数据视为合格数据,进入步骤5;若遍历错误翻译
Figure 322706DEST_PATH_IMAGE005
后没有发生至少一 次的替换,则进入步骤5。
6.如权利要求1所述的一种针对垂直领域机器翻译的低资源优化方法,其特征在于,所述步骤4中,基于办公软件对步骤2中标记的源语言进行高亮显示后,利用该办公软件进行人工清洗。
7.如权利要求1所述的一种针对垂直领域机器翻译的低资源优化方法,其特征在于,若有新的业务需求时:
根据新的业务需求更新基准字典Dict={S,T,A};
判断新的业务需求是否有需要补充新的双语平行语料数据,若有新的双语平行语料数据,则从所述步骤1开始执行,直至执行完步骤5;若没有补充的新的双语平行语料数据,则从所述步骤2开始执行,直至执行完步骤5。
8.如权利要求7所述的一种针对垂直领域机器翻译的低资源优化方法,其特征在于,对所述基准字典Dict={S,T,A}的更新包括:
在所述基准字典Dict={S,T,A}中添加新的业务需求关注的目标短语和实体,记录其源短语、目标短语和对应错误翻译的目标短语;
或者根据新的业务需求,删除基准字典Dict={S,T,A}中不需要的目标短语和实体;
或者根据新的业务需求,改动业务需求所关注的目标短语和实体,记录其新的源短语、目标短语和对应错误翻译的目标短语。
CN202211408443.5A 2022-11-10 2022-11-10 一种针对垂直领域机器翻译的低资源优化方法 Active CN115455964B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211408443.5A CN115455964B (zh) 2022-11-10 2022-11-10 一种针对垂直领域机器翻译的低资源优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211408443.5A CN115455964B (zh) 2022-11-10 2022-11-10 一种针对垂直领域机器翻译的低资源优化方法

Publications (2)

Publication Number Publication Date
CN115455964A true CN115455964A (zh) 2022-12-09
CN115455964B CN115455964B (zh) 2023-03-14

Family

ID=84295401

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211408443.5A Active CN115455964B (zh) 2022-11-10 2022-11-10 一种针对垂直领域机器翻译的低资源优化方法

Country Status (1)

Country Link
CN (1) CN115455964B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140303959A1 (en) * 2013-02-08 2014-10-09 Machine Zone, Inc. Systems and Methods for Multi-User Multi-Lingual Communications
WO2014197463A2 (en) * 2013-06-03 2014-12-11 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
CN108874790A (zh) * 2018-06-29 2018-11-23 中译语通科技股份有限公司 一种基于语言模型和翻译模型的清洗平行语料方法及系统
CN112199511A (zh) * 2020-09-28 2021-01-08 西南电子技术研究所(中国电子科技集团公司第十研究所) 跨语言多来源垂直领域知识图谱构建方法
CN112633018A (zh) * 2020-12-28 2021-04-09 内蒙古工业大学 一种基于数据增强的蒙汉神经机器翻译方法
CN112860896A (zh) * 2021-03-05 2021-05-28 三一重工股份有限公司 语料泛化方法及用于工业领域的人机对话情感分析方法
CN114065780A (zh) * 2021-10-19 2022-02-18 北京信息科技大学 机器翻译方法
CN114492470A (zh) * 2021-12-31 2022-05-13 广州华多网络科技有限公司 商品标题文本翻译方法及其装置、设备、介质、产品

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140303959A1 (en) * 2013-02-08 2014-10-09 Machine Zone, Inc. Systems and Methods for Multi-User Multi-Lingual Communications
WO2014197463A2 (en) * 2013-06-03 2014-12-11 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
CN108874790A (zh) * 2018-06-29 2018-11-23 中译语通科技股份有限公司 一种基于语言模型和翻译模型的清洗平行语料方法及系统
CN112199511A (zh) * 2020-09-28 2021-01-08 西南电子技术研究所(中国电子科技集团公司第十研究所) 跨语言多来源垂直领域知识图谱构建方法
CN112633018A (zh) * 2020-12-28 2021-04-09 内蒙古工业大学 一种基于数据增强的蒙汉神经机器翻译方法
CN112860896A (zh) * 2021-03-05 2021-05-28 三一重工股份有限公司 语料泛化方法及用于工业领域的人机对话情感分析方法
CN114065780A (zh) * 2021-10-19 2022-02-18 北京信息科技大学 机器翻译方法
CN114492470A (zh) * 2021-12-31 2022-05-13 广州华多网络科技有限公司 商品标题文本翻译方法及其装置、设备、介质、产品

Also Published As

Publication number Publication date
CN115455964B (zh) 2023-03-14

Similar Documents

Publication Publication Date Title
AU2019219746A1 (en) Artificial intelligence based corpus enrichment for knowledge population and query response
CN112001177A (zh) 融合深度学习与规则的电子病历命名实体识别方法及系统
CN112214995A (zh) 用于同义词预测的分层多任务术语嵌入学习
CN112528034B (zh) 一种基于知识蒸馏的实体关系抽取方法
US20220188517A1 (en) Hierarchical machine learning architecture including master engine supported by distributed light-weight real-time edge engines
CN113138920B (zh) 基于知识图谱与语义角色标注的软件缺陷报告分派方法及装置
CN116070602B (zh) 一种pdf文档智能标注与抽取方法
CN114298035A (zh) 一种文本识别脱敏方法及其系统
CN116383399A (zh) 一种事件舆情风险预测方法及系统
CN111651994B (zh) 一种信息抽取方法、装置、电子设备和存储介质
CN115063119A (zh) 基于招聘行为数据的自适应性的招聘决策系统及方法
Sommerschield et al. Machine learning for ancient languages: A survey
CN116150361A (zh) 一种财务报表附注的事件抽取方法、系统及存储介质
Li et al. A method for resume information extraction using bert-bilstm-crf
CN115952298A (zh) 供应商履约风险分析方法及相关设备
CN115329765A (zh) 识别上市企业风险的方法、装置、电子设备及存储介质
Quirós et al. From HMMs to RNNs: computer-assisted transcription of a handwritten notarial records collection
CN113901224A (zh) 基于知识蒸馏的涉密文本识别模型训练方法、系统及装置
WO2022072237A1 (en) Lifecycle management for customized natural language processing
US20220100967A1 (en) Lifecycle management for customized natural language processing
CN115757325B (zh) 一种xes日志智能转换方法及系统
CN110377690B (zh) 一种基于远程关系抽取的信息获取方法和系统
CN115455964B (zh) 一种针对垂直领域机器翻译的低资源优化方法
CN116362247A (zh) 一种基于mrc框架的实体抽取方法
CN115659989A (zh) 基于文本语义映射关系的Web表格异常数据发现方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TA01 Transfer of patent application right

Effective date of registration: 20230301

Address after: 200127 floor 3-7, no.1500, Puming Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai

Applicant after: WIND INFORMATION TECHNOLOGY CO.,LTD.

Address before: 210019 floor 22, No. 199, Taishan Road, Jianye District, Nanjing, Jiangsu Province

Applicant before: Nanjing Wande Information Technology Co.,Ltd.

TA01 Transfer of patent application right