CN114564933A - 一种个性化机器翻译训练方法和系统 - Google Patents

一种个性化机器翻译训练方法和系统 Download PDF

Info

Publication number
CN114564933A
CN114564933A CN202210046637.9A CN202210046637A CN114564933A CN 114564933 A CN114564933 A CN 114564933A CN 202210046637 A CN202210046637 A CN 202210046637A CN 114564933 A CN114564933 A CN 114564933A
Authority
CN
China
Prior art keywords
translation
training
corpus
machine translation
translator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210046637.9A
Other languages
English (en)
Inventor
李光华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiaguyi Beijing Language Technology Co ltd
Original Assignee
Jiaguyi Beijing Language Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiaguyi Beijing Language Technology Co ltd filed Critical Jiaguyi Beijing Language Technology Co ltd
Priority to CN202210046637.9A priority Critical patent/CN114564933A/zh
Publication of CN114564933A publication Critical patent/CN114564933A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Abstract

本发明具体涉及一种个性化机器翻译训练方法和系统,该个性化机器翻译训练方法,包括步骤:译者上传历史语料;自动对上传后的语料进行预处理;对预处理后的语料进行人工审核;对审核通过后的语料进行模型增量训练;对增量训练后的模型,抽取部分测试集进行译文自动质量评估;自动质量评估完成后,译者进行手动质量评估;手动质量评估通过后,通过机器翻译调度系统,译者可快速将增量训练后的机器翻译引擎置入预翻译流程中;预翻译;交互式翻译;持续增量训练。该个性化机器翻译训练方法通过个性化语料增量训练和交互式翻译技术融合,实现较低成本、较高个性化程度的机器翻译引擎增量训练。

Description

一种个性化机器翻译训练方法和系统
技术领域
本发明属于自然语言处理、机器翻译、计算机辅助翻译领域,具体涉及一种融合增量学习和交互式翻译的个性化机器翻译训练方法和系统。
背景技术
机器翻译技术是指使用计算机等计算设备将一种自然语言(一般称为源语言)的原文翻译为另一种自然语言(一般称为目标语言)的译文的技术。由于这一技术由机器完成,所以与人工翻译相比,可以以相对短的时间处理大量的翻译工作。近年来,机器翻译技术得到了长足的发展。
机器翻译技术大体上可以分为两类:
一种方案是,尝试训练垂直领域翻译引擎,即将翻译场景细分为医疗、文化、法律、专利等场景,汇总相关领域语料,训练的一个面向该领域或行业的翻译引擎。或针对特定用户,允许自己上传一批语料,进行增量训练。其本质是学习译者翻译历史中的知识。
另一种方案为交互式翻译的解决方案,即在译者翻译过程中收集语料,其本质是实时交互过程中的增量学习。即汇总译者翻译过程积累语料、采集收集术语和输入风格、习惯等特征,实时或定时进行机器翻译引擎训练,更新翻译引擎。
垂直领域机器翻译,相对通用引擎在细分领域有一定质量提升,但鉴于领域为较宽泛概念,实际情况是——语料和待翻译内容往往无法做到严格意义上的分类,比如专利文献中的内容,可能既属于专利领域,又属于其他某个特殊领域。而允许译者上传语料进行增量训练的方法,在领域细分上达到译者要求,但需要定期汇总语料,机器无法实时学习和译者翻译过程中交互的知识。
交互式机器翻译,机器可实时对译者输入内容和翻译结果进行增量学习,但译者交互的对象是通用机器翻译引擎,无法和自己增量训练的引擎进行实时交互,并在后续使用过程中持续学习。此外,由于通过交互式翻译进行模型更新的方式,需要时间积累才能产生可感知的效果,因此难以解决系统冷启动问题。
自深度神经网络用于机器翻译技术后,机器翻译质量有较大幅度提升,通用机器翻译进入了更广泛应用场景,但在专业、垂直或个性化领域,当前机器翻译技术存在大量译者翻译历史知识无法用于机器学习,个性化程度不高、增量训练代价大的问题。
发明内容
为了解决现有机器翻译技术中存在的个性化程度不高、增量训练代价大的问题,本发明提供了一种个性化机器翻译训练方法和系统。该个性化机器翻译训练方法通过个性化语料增量训练和交互式翻译技术融合,实现较低成本、较高个性化程度的机器翻译引擎增量训练。本发明要解决的技术问题通过以下技术方案实现:
一种个性化机器翻译训练方法,包括如下步骤:
步骤一:译者上传历史语料;
步骤二:自动对上传后的语料进行预处理;
步骤三:对预处理后的语料进行人工审核;
步骤四:对审核通过后的语料进行模型增量训练;
步骤五:对增量训练后的模型,抽取部分测试集进行译文自动质量评估;
步骤六:自动质量评估完成后,译者进行手动质量评估;
步骤七:手动质量评估通过后,通过机器翻译调度系统,译者可快速将增量训练后的机器翻译引擎置入预翻译流程中;
步骤八:预翻译;
步骤九:交互式翻译;
步骤十:持续增量训练。
进一步地,上述步骤三后还包括审核未通过的语料返回至步骤一,译者重新上传历史语料。
进一步地,上述步骤六后还包括手动质量评估未通过后返回至步骤一,译者重新上传历史语料。
进一步地,上述历史语料包括翻译记忆库和术语库。
进一步地,上述语料进行预处理是指通过编辑距离计算原文相似度,自动对语料去重,去掉重复语料,同时对上传语料中的原文译文计算语义相似度,去掉语义相似度较差的原文译文。
进一步地,上述模型增量训练是指对原始模型进行参数统计量初始化,再进行参数迭代训练,得到增量训练后的模型。
进一步地,上述手动质量评估是指对原始机器翻译引擎和增量训练后的翻译引擎的译文进行比较。
进一步地,上述预翻译项目中,使用增量训练引擎对待翻译内容进行预翻译处理,译者在编辑器翻译过程中,译者输入部分内容后,增量训练后的引擎根据此限制条件进行约束解码,实时提供重新解码生成的译文。
进一步地,上述交互式翻译,译者对改译文实时进行修改,翻译模型再次根据修改结果重新解码,生成新译文推荐,如此循环反复,直至当前句段翻译完成。
进一步地,上述持续增量训练,当前句段翻译完成后,实时将改句段存储到翻译记忆库中,通过实时在线更新算法更新机器翻译引擎。
一种上述的个性化机器翻译训练方法对应的个性化机器翻译训练系统,包括增量训练模块、引擎质量评估模块和翻译模块;
所述增量训练模块包括上传历史语料模块、语料预处理模块和语料审核模块;
所述引擎质量评估模块包括自动质量评估模块和手动质量评估模块;
所述翻译模块包括预翻译模块和交互式翻译模块。
与现有技术相比,本发明的有益效果:
本发明的个性化机器翻译训练方法,一方面,通过译者历史语料增量训练解决冷启动问题,另一方面,通过译者和增量训练后的引擎实时交互,解决过程中实时学习问题,并且二者形成闭环数据反馈和无缝融合,较大幅度降低译者个性化机器翻译成本、提升了数据流转和机器学习效率。
附图说明
图1是本实施例的个性化机器翻译训练方法的流程图。
具体实施方式
下面结合具体实施例对本发明做进一步详细的描述,但本发明的实施方式不限于此。
为了解决现有机器翻译技术中存在的个性化程度不高、增量训练代价大的问题,本实施例提供了一种融合增量学习和交互式翻译的个性化机器翻译训练方法,该个性化机器翻译训练方法的流程图参照附图1。
本实施例的个性化机器翻译训练方法总体过程是:译者上传历史语料,在机器翻译初始模型上增量训练,并将训练后的引擎无缝接入预翻译和交互式翻译流程。译者在后续交互式翻译过程中,系统持续进行增量训练。该个性化机器翻译训练方法通过个性化语料增量训练和交互式翻译技术融合,实现较低成本、较高个性化程度的机器翻译引擎增量训练。
一种个性化机器翻译训练方法,包括如下步骤:
步骤一:译者上传历史语料,允许译者上传一定数量历史语料,即翻译记忆库和术语库等数据。
步骤二:上传语料后,自动对上传后的语料进行预处理,通过编辑距离计算原文相似度,自动对语料去重,去掉重复语料。同时对上传语料中的原文译文计算语义相似度,去掉语义相似度较差的原文译文。
步骤三:为保证增量训练效果,语料预处理完成后,对语料进行人工审核,主要从忠实度和流利度综合考量。
步骤四:对审核后的语料进行模型增量训练,对原始模型进行参数统计量初始化,再进行参数迭代训练,得到增量训练后的模型。
步骤五:对增量训练后的模型,抽取部分测试集进行译文自动质量评估,得到当前特定领域的Bleu评分(Bilingual Evaluation Understudy)。
步骤六:自动质量评估完成后,允许译者进行手动质量评估,对原始机器翻译引擎和增量训练后的翻译引擎的译文进行比较。如此,基于译者历史语料的增量训练过程结束。
步骤七:手动质量评估通过后,通过机器翻译调度系统,译者可快速将增量训练后的机器翻译引擎置入预翻译流程中;
步骤八:预翻译,预翻译项目中,使用增量训练引擎对待翻译内容进行预翻译处理,译者在编辑器翻译过程中,译者输入部分内容后,增量训练后的引擎根据此限制条件进行约束解码,实时提供重新解码生成的译文。
步骤九:交互式翻译,译者对改译文实时进行修改,翻译模型再次根据修改结果重新解码,生成新译文推荐……如此循环反复,直至当前句段翻译完成。
步骤十:持续增量训练,当前句段翻译完成后,实时将改句段存储到翻译记忆库中,通过实时在线更新算法(Online learning)更新机器翻译引擎。
如此,增量训练方法和交互式翻译方法无缝融合,面向该译者的个性化机器引擎得以实现,并在使用过程中持续更新。
本实施例的个性化机器翻译训练方法,一方面,通过译者历史语料增量训练解决冷启动问题,另一方面,通过译者和增量训练后的引擎实时交互,解决过程中实时学习问题,并且二者形成闭环数据反馈和无缝融合,较大幅度降低译者个性化机器翻译成本、提升了数据流转和机器学习效率。
本实施例还提供了一种个性化机器翻译训练系统,该个性化机器翻译训练系统与本实施例中的个性化机器翻译训练方法相对应。该个性化机器翻译训练系统包括增量训练模块、引擎质量评估模块和翻译模块。其中,增量训练模块包括上传历史语料模块、语料预处理模块和语料审核模块;引擎质量评估模块包括自动质量评估模块和手动质量评估模块;翻译模块包括预翻译模块和交互式翻译模块。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (10)

1.一种个性化机器翻译训练方法,其特征在于,包括如下步骤:
步骤一:译者上传历史语料;
步骤二:自动对上传后的语料进行预处理;
步骤三:对预处理后的语料进行人工审核;
步骤四:对审核通过后的语料进行模型增量训练;
步骤五:对增量训练后的模型,自动抽取部分测试集进行译文自动质量评估;
步骤六:自动质量评估完成后,译者进行手动质量评估;
步骤七:手动质量评估通过后,通过机器翻译调度系统,译者可快速将增量训练后的机器翻译引擎置入预翻译流程中;
步骤八:预翻译;
步骤九:交互式翻译;
步骤十:持续增量训练。
2.根据权利要求1所述的个性化机器翻译训练方法,其特征在于,所述步骤三后还包括审核未通过的语料返回至步骤一,译者重新上传历史语料。
3.根据权利要求1所述的个性化机器翻译训练方法,其特征在于,所述步骤六后还包括手动质量评估未通过后返回至步骤一,译者重新上传历史语料。
4.根据权利要求1所述的个性化机器翻译训练方法,其特征在于,所述语料进行预处理是指通过编辑距离计算原文相似度,自动对语料去重,去掉重复语料,同时对上传语料中的原文译文计算语义相似度,去掉语义相似度较差的原文译文。
5.根据权利要求1所述的个性化机器翻译训练方法,其特征在于,所述模型增量训练是指对原始模型进行参数统计量初始化,再进行参数迭代训练,得到增量训练后的模型。
6.根据权利要求1所述的个性化机器翻译训练方法,其特征在于,所述手动质量评估是指对原始机器翻译引擎和增量训练后的翻译引擎的译文进行比较。
7.根据权利要求1所述的个性化机器翻译训练方法,其特征在于,预翻译项目中,使用增量训练引擎对待翻译内容进行预翻译处理,译者在编辑器翻译过程中,译者输入部分内容后,增量训练后的引擎根据此限制条件进行约束解码,实时提供重新解码生成的译文。
8.根据权利要求1所述的个性化机器翻译训练方法,其特征在于,所述交互式翻译,译者对改译文实时进行修改,翻译模型再次根据修改结果重新解码,生成新译文推荐,如此循环反复,直至当前句段翻译完成。
9.根据权利要求1所述的个性化机器翻译训练方法,其特征在于,所述持续增量训练,当前句段翻译完成后,实时将改句段存储到翻译记忆库中,通过实时在线更新算法更新机器翻译引擎。
10.一种权利要求1-9任一项所述的个性化机器翻译训练方法对应的个性化机器翻译训练系统,其特征在于,包括增量训练模块、引擎质量评估模块和翻译模块;
所述增量训练模块包括上传历史语料模块、语料预处理模块和语料审核模块;
所述引擎质量评估模块包括自动质量评估模块和手动质量评估模块;
所述翻译模块包括预翻译模块和交互式翻译模块。
CN202210046637.9A 2022-01-12 2022-01-12 一种个性化机器翻译训练方法和系统 Pending CN114564933A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210046637.9A CN114564933A (zh) 2022-01-12 2022-01-12 一种个性化机器翻译训练方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210046637.9A CN114564933A (zh) 2022-01-12 2022-01-12 一种个性化机器翻译训练方法和系统

Publications (1)

Publication Number Publication Date
CN114564933A true CN114564933A (zh) 2022-05-31

Family

ID=81712598

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210046637.9A Pending CN114564933A (zh) 2022-01-12 2022-01-12 一种个性化机器翻译训练方法和系统

Country Status (1)

Country Link
CN (1) CN114564933A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115270821A (zh) * 2022-06-08 2022-11-01 甲骨易(北京)语言科技股份有限公司 一种机器翻译模型众包增量学习方法
CN116842968A (zh) * 2023-07-17 2023-10-03 四川语言桥信息技术有限公司 一种模块化神经网络机器翻译模型及人在闭环交互式人工智能辅助翻译系统、方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662935A (zh) * 2012-04-08 2012-09-12 北京语智云帆科技有限公司 一种交互式的机器翻译方法和机器翻译系统
CN102789451A (zh) * 2011-05-16 2012-11-21 北京百度网讯科技有限公司 一种个性化的机器翻译系统、方法及训练翻译模型的方法
US20140149102A1 (en) * 2012-11-26 2014-05-29 Daniel Marcu Personalized machine translation via online adaptation
CN106951416A (zh) * 2017-03-21 2017-07-14 成都星阵地科技有限公司 基于大数据处理及人工干预的多语言即时翻译系统
US10185713B1 (en) * 2015-09-28 2019-01-22 Amazon Technologies, Inc. Optimized statistical machine translation system with rapid adaptation capability
CN111611814A (zh) * 2020-05-08 2020-09-01 北京理工大学 一种基于相似度感知的神经机器翻译方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102789451A (zh) * 2011-05-16 2012-11-21 北京百度网讯科技有限公司 一种个性化的机器翻译系统、方法及训练翻译模型的方法
CN102662935A (zh) * 2012-04-08 2012-09-12 北京语智云帆科技有限公司 一种交互式的机器翻译方法和机器翻译系统
US20140149102A1 (en) * 2012-11-26 2014-05-29 Daniel Marcu Personalized machine translation via online adaptation
US10185713B1 (en) * 2015-09-28 2019-01-22 Amazon Technologies, Inc. Optimized statistical machine translation system with rapid adaptation capability
CN106951416A (zh) * 2017-03-21 2017-07-14 成都星阵地科技有限公司 基于大数据处理及人工干预的多语言即时翻译系统
CN111611814A (zh) * 2020-05-08 2020-09-01 北京理工大学 一种基于相似度感知的神经机器翻译方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A´ LVARO PERIS等: "Online Learning for Neural Machine Translation Post-editing", HTTPS://ARXIV.ORG/PDF/1706.03196.PDF, 10 June 2017 (2017-06-10), pages 1 - 12 *
RONGXIANG WENG等: "Correct-and-Memorize: Learning to Translate from Interactive Revisions", HTTPS://ARXIV.ORG/PDF/1907.03468.PDF, 8 July 2019 (2019-07-08), pages 1 - 8 *
田红楠等: "基于LSTM 的交互式神经机器翻译方法研究", 机电产品开发与创新, vol. 33, no. 6, 28 November 2020 (2020-11-28), pages 51 - 54 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115270821A (zh) * 2022-06-08 2022-11-01 甲骨易(北京)语言科技股份有限公司 一种机器翻译模型众包增量学习方法
CN116842968A (zh) * 2023-07-17 2023-10-03 四川语言桥信息技术有限公司 一种模块化神经网络机器翻译模型及人在闭环交互式人工智能辅助翻译系统、方法

Similar Documents

Publication Publication Date Title
CN114564933A (zh) 一种个性化机器翻译训练方法和系统
WO2020124674A1 (zh) 向量化译员的翻译个性特征的方法及装置
CN109256216A (zh) 医学数据处理方法、装置、计算机设备和存储介质
WO2022088570A1 (zh) 译文后编译方法、装置、电子设备和存储介质
CN112766000B (zh) 基于预训练模型的机器翻译方法及系统
CN107305543B (zh) 对实体词的语义关系进行分类的方法和装置
CN111611814B (zh) 一种基于相似度感知的神经机器翻译方法
Agrawal et al. A non-autoregressive edit-based approach to controllable text simplification
CN111553159B (zh) 一种问句生成方法及系统
Lin et al. Towards user-driven neural machine translation
CN105573994B (zh) 基于句法骨架的统计机器翻译系统
CN112699218A (zh) 模型建立方法及系统及段落标签获得方法及介质
CN115329785A (zh) 融入音素特征的英-泰-老多语言神经机器翻译方法及装置
CN112926344B (zh) 基于词向量替换数据增强的机器翻译模型训练方法、装置、电子设备及存储介质
CN112836525B (zh) 一种基于人机交互机器翻译系统及其自动优化方法
Espla-Gomis et al. Using machine translation to provide target-language edit hints in computer aided translation based on translation memories
CN111144134A (zh) 基于OpenKiWi的翻译引擎自动化评测系统
CN116432611A (zh) 文稿写作辅助方法、系统、终端及存储介质
Chen et al. Reinforced zero-shot cross-lingual neural headline generation
CN114298031A (zh) 文本处理方法、计算机设备及存储介质
CN112766002A (zh) 基于动态规划的文本对齐方法及系统
Domingo et al. An interactive machine translation framework for modernizing the language of historical documents
Ayana et al. Reinforced Zero-Shot Cross-Lingual Neural Headline Generation
Dugonik et al. The usage of differential evolution in a statistical machine translation
CN116894427B (zh) 一种中英文信息融合的数据分级方法、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination