CN114564933A - 一种个性化机器翻译训练方法和系统 - Google Patents
一种个性化机器翻译训练方法和系统 Download PDFInfo
- Publication number
- CN114564933A CN114564933A CN202210046637.9A CN202210046637A CN114564933A CN 114564933 A CN114564933 A CN 114564933A CN 202210046637 A CN202210046637 A CN 202210046637A CN 114564933 A CN114564933 A CN 114564933A
- Authority
- CN
- China
- Prior art keywords
- translation
- training
- corpus
- machine translation
- translator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013519 translation Methods 0.000 title claims abstract description 156
- 238000012549 training Methods 0.000 title claims abstract description 91
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000013441 quality evaluation Methods 0.000 claims abstract description 28
- 230000002452 interceptive effect Effects 0.000 claims abstract description 21
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 238000012360 testing method Methods 0.000 claims abstract description 4
- 238000012550 audit Methods 0.000 claims abstract description 3
- 230000014616 translation Effects 0.000 claims description 144
- 238000001303 quality assessment method Methods 0.000 claims description 4
- 238000012986 modification Methods 0.000 claims description 3
- 230000004048 modification Effects 0.000 claims description 3
- 239000012634 fragment Substances 0.000 claims 2
- 230000004927 fusion Effects 0.000 abstract description 5
- 230000003993 interaction Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/51—Translation evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Abstract
本发明具体涉及一种个性化机器翻译训练方法和系统,该个性化机器翻译训练方法,包括步骤:译者上传历史语料;自动对上传后的语料进行预处理;对预处理后的语料进行人工审核;对审核通过后的语料进行模型增量训练;对增量训练后的模型,抽取部分测试集进行译文自动质量评估;自动质量评估完成后,译者进行手动质量评估;手动质量评估通过后,通过机器翻译调度系统,译者可快速将增量训练后的机器翻译引擎置入预翻译流程中;预翻译;交互式翻译;持续增量训练。该个性化机器翻译训练方法通过个性化语料增量训练和交互式翻译技术融合,实现较低成本、较高个性化程度的机器翻译引擎增量训练。
Description
技术领域
本发明属于自然语言处理、机器翻译、计算机辅助翻译领域,具体涉及一种融合增量学习和交互式翻译的个性化机器翻译训练方法和系统。
背景技术
机器翻译技术是指使用计算机等计算设备将一种自然语言(一般称为源语言)的原文翻译为另一种自然语言(一般称为目标语言)的译文的技术。由于这一技术由机器完成,所以与人工翻译相比,可以以相对短的时间处理大量的翻译工作。近年来,机器翻译技术得到了长足的发展。
机器翻译技术大体上可以分为两类:
一种方案是,尝试训练垂直领域翻译引擎,即将翻译场景细分为医疗、文化、法律、专利等场景,汇总相关领域语料,训练的一个面向该领域或行业的翻译引擎。或针对特定用户,允许自己上传一批语料,进行增量训练。其本质是学习译者翻译历史中的知识。
另一种方案为交互式翻译的解决方案,即在译者翻译过程中收集语料,其本质是实时交互过程中的增量学习。即汇总译者翻译过程积累语料、采集收集术语和输入风格、习惯等特征,实时或定时进行机器翻译引擎训练,更新翻译引擎。
垂直领域机器翻译,相对通用引擎在细分领域有一定质量提升,但鉴于领域为较宽泛概念,实际情况是——语料和待翻译内容往往无法做到严格意义上的分类,比如专利文献中的内容,可能既属于专利领域,又属于其他某个特殊领域。而允许译者上传语料进行增量训练的方法,在领域细分上达到译者要求,但需要定期汇总语料,机器无法实时学习和译者翻译过程中交互的知识。
交互式机器翻译,机器可实时对译者输入内容和翻译结果进行增量学习,但译者交互的对象是通用机器翻译引擎,无法和自己增量训练的引擎进行实时交互,并在后续使用过程中持续学习。此外,由于通过交互式翻译进行模型更新的方式,需要时间积累才能产生可感知的效果,因此难以解决系统冷启动问题。
自深度神经网络用于机器翻译技术后,机器翻译质量有较大幅度提升,通用机器翻译进入了更广泛应用场景,但在专业、垂直或个性化领域,当前机器翻译技术存在大量译者翻译历史知识无法用于机器学习,个性化程度不高、增量训练代价大的问题。
发明内容
为了解决现有机器翻译技术中存在的个性化程度不高、增量训练代价大的问题,本发明提供了一种个性化机器翻译训练方法和系统。该个性化机器翻译训练方法通过个性化语料增量训练和交互式翻译技术融合,实现较低成本、较高个性化程度的机器翻译引擎增量训练。本发明要解决的技术问题通过以下技术方案实现:
一种个性化机器翻译训练方法,包括如下步骤:
步骤一:译者上传历史语料;
步骤二:自动对上传后的语料进行预处理;
步骤三:对预处理后的语料进行人工审核;
步骤四:对审核通过后的语料进行模型增量训练;
步骤五:对增量训练后的模型,抽取部分测试集进行译文自动质量评估;
步骤六:自动质量评估完成后,译者进行手动质量评估;
步骤七:手动质量评估通过后,通过机器翻译调度系统,译者可快速将增量训练后的机器翻译引擎置入预翻译流程中;
步骤八:预翻译;
步骤九:交互式翻译;
步骤十:持续增量训练。
进一步地,上述步骤三后还包括审核未通过的语料返回至步骤一,译者重新上传历史语料。
进一步地,上述步骤六后还包括手动质量评估未通过后返回至步骤一,译者重新上传历史语料。
进一步地,上述历史语料包括翻译记忆库和术语库。
进一步地,上述语料进行预处理是指通过编辑距离计算原文相似度,自动对语料去重,去掉重复语料,同时对上传语料中的原文译文计算语义相似度,去掉语义相似度较差的原文译文。
进一步地,上述模型增量训练是指对原始模型进行参数统计量初始化,再进行参数迭代训练,得到增量训练后的模型。
进一步地,上述手动质量评估是指对原始机器翻译引擎和增量训练后的翻译引擎的译文进行比较。
进一步地,上述预翻译项目中,使用增量训练引擎对待翻译内容进行预翻译处理,译者在编辑器翻译过程中,译者输入部分内容后,增量训练后的引擎根据此限制条件进行约束解码,实时提供重新解码生成的译文。
进一步地,上述交互式翻译,译者对改译文实时进行修改,翻译模型再次根据修改结果重新解码,生成新译文推荐,如此循环反复,直至当前句段翻译完成。
进一步地,上述持续增量训练,当前句段翻译完成后,实时将改句段存储到翻译记忆库中,通过实时在线更新算法更新机器翻译引擎。
一种上述的个性化机器翻译训练方法对应的个性化机器翻译训练系统,包括增量训练模块、引擎质量评估模块和翻译模块;
所述增量训练模块包括上传历史语料模块、语料预处理模块和语料审核模块;
所述引擎质量评估模块包括自动质量评估模块和手动质量评估模块;
所述翻译模块包括预翻译模块和交互式翻译模块。
与现有技术相比,本发明的有益效果:
本发明的个性化机器翻译训练方法,一方面,通过译者历史语料增量训练解决冷启动问题,另一方面,通过译者和增量训练后的引擎实时交互,解决过程中实时学习问题,并且二者形成闭环数据反馈和无缝融合,较大幅度降低译者个性化机器翻译成本、提升了数据流转和机器学习效率。
附图说明
图1是本实施例的个性化机器翻译训练方法的流程图。
具体实施方式
下面结合具体实施例对本发明做进一步详细的描述,但本发明的实施方式不限于此。
为了解决现有机器翻译技术中存在的个性化程度不高、增量训练代价大的问题,本实施例提供了一种融合增量学习和交互式翻译的个性化机器翻译训练方法,该个性化机器翻译训练方法的流程图参照附图1。
本实施例的个性化机器翻译训练方法总体过程是:译者上传历史语料,在机器翻译初始模型上增量训练,并将训练后的引擎无缝接入预翻译和交互式翻译流程。译者在后续交互式翻译过程中,系统持续进行增量训练。该个性化机器翻译训练方法通过个性化语料增量训练和交互式翻译技术融合,实现较低成本、较高个性化程度的机器翻译引擎增量训练。
一种个性化机器翻译训练方法,包括如下步骤:
步骤一:译者上传历史语料,允许译者上传一定数量历史语料,即翻译记忆库和术语库等数据。
步骤二:上传语料后,自动对上传后的语料进行预处理,通过编辑距离计算原文相似度,自动对语料去重,去掉重复语料。同时对上传语料中的原文译文计算语义相似度,去掉语义相似度较差的原文译文。
步骤三:为保证增量训练效果,语料预处理完成后,对语料进行人工审核,主要从忠实度和流利度综合考量。
步骤四:对审核后的语料进行模型增量训练,对原始模型进行参数统计量初始化,再进行参数迭代训练,得到增量训练后的模型。
步骤五:对增量训练后的模型,抽取部分测试集进行译文自动质量评估,得到当前特定领域的Bleu评分(Bilingual Evaluation Understudy)。
步骤六:自动质量评估完成后,允许译者进行手动质量评估,对原始机器翻译引擎和增量训练后的翻译引擎的译文进行比较。如此,基于译者历史语料的增量训练过程结束。
步骤七:手动质量评估通过后,通过机器翻译调度系统,译者可快速将增量训练后的机器翻译引擎置入预翻译流程中;
步骤八:预翻译,预翻译项目中,使用增量训练引擎对待翻译内容进行预翻译处理,译者在编辑器翻译过程中,译者输入部分内容后,增量训练后的引擎根据此限制条件进行约束解码,实时提供重新解码生成的译文。
步骤九:交互式翻译,译者对改译文实时进行修改,翻译模型再次根据修改结果重新解码,生成新译文推荐……如此循环反复,直至当前句段翻译完成。
步骤十:持续增量训练,当前句段翻译完成后,实时将改句段存储到翻译记忆库中,通过实时在线更新算法(Online learning)更新机器翻译引擎。
如此,增量训练方法和交互式翻译方法无缝融合,面向该译者的个性化机器引擎得以实现,并在使用过程中持续更新。
本实施例的个性化机器翻译训练方法,一方面,通过译者历史语料增量训练解决冷启动问题,另一方面,通过译者和增量训练后的引擎实时交互,解决过程中实时学习问题,并且二者形成闭环数据反馈和无缝融合,较大幅度降低译者个性化机器翻译成本、提升了数据流转和机器学习效率。
本实施例还提供了一种个性化机器翻译训练系统,该个性化机器翻译训练系统与本实施例中的个性化机器翻译训练方法相对应。该个性化机器翻译训练系统包括增量训练模块、引擎质量评估模块和翻译模块。其中,增量训练模块包括上传历史语料模块、语料预处理模块和语料审核模块;引擎质量评估模块包括自动质量评估模块和手动质量评估模块;翻译模块包括预翻译模块和交互式翻译模块。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (10)
1.一种个性化机器翻译训练方法,其特征在于,包括如下步骤:
步骤一:译者上传历史语料;
步骤二:自动对上传后的语料进行预处理;
步骤三:对预处理后的语料进行人工审核;
步骤四:对审核通过后的语料进行模型增量训练;
步骤五:对增量训练后的模型,自动抽取部分测试集进行译文自动质量评估;
步骤六:自动质量评估完成后,译者进行手动质量评估;
步骤七:手动质量评估通过后,通过机器翻译调度系统,译者可快速将增量训练后的机器翻译引擎置入预翻译流程中;
步骤八:预翻译;
步骤九:交互式翻译;
步骤十:持续增量训练。
2.根据权利要求1所述的个性化机器翻译训练方法,其特征在于,所述步骤三后还包括审核未通过的语料返回至步骤一,译者重新上传历史语料。
3.根据权利要求1所述的个性化机器翻译训练方法,其特征在于,所述步骤六后还包括手动质量评估未通过后返回至步骤一,译者重新上传历史语料。
4.根据权利要求1所述的个性化机器翻译训练方法,其特征在于,所述语料进行预处理是指通过编辑距离计算原文相似度,自动对语料去重,去掉重复语料,同时对上传语料中的原文译文计算语义相似度,去掉语义相似度较差的原文译文。
5.根据权利要求1所述的个性化机器翻译训练方法,其特征在于,所述模型增量训练是指对原始模型进行参数统计量初始化,再进行参数迭代训练,得到增量训练后的模型。
6.根据权利要求1所述的个性化机器翻译训练方法,其特征在于,所述手动质量评估是指对原始机器翻译引擎和增量训练后的翻译引擎的译文进行比较。
7.根据权利要求1所述的个性化机器翻译训练方法,其特征在于,预翻译项目中,使用增量训练引擎对待翻译内容进行预翻译处理,译者在编辑器翻译过程中,译者输入部分内容后,增量训练后的引擎根据此限制条件进行约束解码,实时提供重新解码生成的译文。
8.根据权利要求1所述的个性化机器翻译训练方法,其特征在于,所述交互式翻译,译者对改译文实时进行修改,翻译模型再次根据修改结果重新解码,生成新译文推荐,如此循环反复,直至当前句段翻译完成。
9.根据权利要求1所述的个性化机器翻译训练方法,其特征在于,所述持续增量训练,当前句段翻译完成后,实时将改句段存储到翻译记忆库中,通过实时在线更新算法更新机器翻译引擎。
10.一种权利要求1-9任一项所述的个性化机器翻译训练方法对应的个性化机器翻译训练系统,其特征在于,包括增量训练模块、引擎质量评估模块和翻译模块;
所述增量训练模块包括上传历史语料模块、语料预处理模块和语料审核模块;
所述引擎质量评估模块包括自动质量评估模块和手动质量评估模块;
所述翻译模块包括预翻译模块和交互式翻译模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210046637.9A CN114564933A (zh) | 2022-01-12 | 2022-01-12 | 一种个性化机器翻译训练方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210046637.9A CN114564933A (zh) | 2022-01-12 | 2022-01-12 | 一种个性化机器翻译训练方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114564933A true CN114564933A (zh) | 2022-05-31 |
Family
ID=81712598
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210046637.9A Pending CN114564933A (zh) | 2022-01-12 | 2022-01-12 | 一种个性化机器翻译训练方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114564933A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115270821A (zh) * | 2022-06-08 | 2022-11-01 | 甲骨易(北京)语言科技股份有限公司 | 一种机器翻译模型众包增量学习方法 |
CN116842968A (zh) * | 2023-07-17 | 2023-10-03 | 四川语言桥信息技术有限公司 | 一种模块化神经网络机器翻译模型及人在闭环交互式人工智能辅助翻译系统、方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102662935A (zh) * | 2012-04-08 | 2012-09-12 | 北京语智云帆科技有限公司 | 一种交互式的机器翻译方法和机器翻译系统 |
CN102789451A (zh) * | 2011-05-16 | 2012-11-21 | 北京百度网讯科技有限公司 | 一种个性化的机器翻译系统、方法及训练翻译模型的方法 |
US20140149102A1 (en) * | 2012-11-26 | 2014-05-29 | Daniel Marcu | Personalized machine translation via online adaptation |
CN106951416A (zh) * | 2017-03-21 | 2017-07-14 | 成都星阵地科技有限公司 | 基于大数据处理及人工干预的多语言即时翻译系统 |
US10185713B1 (en) * | 2015-09-28 | 2019-01-22 | Amazon Technologies, Inc. | Optimized statistical machine translation system with rapid adaptation capability |
CN111611814A (zh) * | 2020-05-08 | 2020-09-01 | 北京理工大学 | 一种基于相似度感知的神经机器翻译方法 |
-
2022
- 2022-01-12 CN CN202210046637.9A patent/CN114564933A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102789451A (zh) * | 2011-05-16 | 2012-11-21 | 北京百度网讯科技有限公司 | 一种个性化的机器翻译系统、方法及训练翻译模型的方法 |
CN102662935A (zh) * | 2012-04-08 | 2012-09-12 | 北京语智云帆科技有限公司 | 一种交互式的机器翻译方法和机器翻译系统 |
US20140149102A1 (en) * | 2012-11-26 | 2014-05-29 | Daniel Marcu | Personalized machine translation via online adaptation |
US10185713B1 (en) * | 2015-09-28 | 2019-01-22 | Amazon Technologies, Inc. | Optimized statistical machine translation system with rapid adaptation capability |
CN106951416A (zh) * | 2017-03-21 | 2017-07-14 | 成都星阵地科技有限公司 | 基于大数据处理及人工干预的多语言即时翻译系统 |
CN111611814A (zh) * | 2020-05-08 | 2020-09-01 | 北京理工大学 | 一种基于相似度感知的神经机器翻译方法 |
Non-Patent Citations (3)
Title |
---|
A´ LVARO PERIS等: "Online Learning for Neural Machine Translation Post-editing", HTTPS://ARXIV.ORG/PDF/1706.03196.PDF, 10 June 2017 (2017-06-10), pages 1 - 12 * |
RONGXIANG WENG等: "Correct-and-Memorize: Learning to Translate from Interactive Revisions", HTTPS://ARXIV.ORG/PDF/1907.03468.PDF, 8 July 2019 (2019-07-08), pages 1 - 8 * |
田红楠等: "基于LSTM 的交互式神经机器翻译方法研究", 机电产品开发与创新, vol. 33, no. 6, 28 November 2020 (2020-11-28), pages 51 - 54 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115270821A (zh) * | 2022-06-08 | 2022-11-01 | 甲骨易(北京)语言科技股份有限公司 | 一种机器翻译模型众包增量学习方法 |
CN116842968A (zh) * | 2023-07-17 | 2023-10-03 | 四川语言桥信息技术有限公司 | 一种模块化神经网络机器翻译模型及人在闭环交互式人工智能辅助翻译系统、方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114564933A (zh) | 一种个性化机器翻译训练方法和系统 | |
WO2020124674A1 (zh) | 向量化译员的翻译个性特征的方法及装置 | |
CN109256216A (zh) | 医学数据处理方法、装置、计算机设备和存储介质 | |
WO2022088570A1 (zh) | 译文后编译方法、装置、电子设备和存储介质 | |
CN112766000B (zh) | 基于预训练模型的机器翻译方法及系统 | |
CN107305543B (zh) | 对实体词的语义关系进行分类的方法和装置 | |
CN111611814B (zh) | 一种基于相似度感知的神经机器翻译方法 | |
Agrawal et al. | A non-autoregressive edit-based approach to controllable text simplification | |
CN111553159B (zh) | 一种问句生成方法及系统 | |
Lin et al. | Towards user-driven neural machine translation | |
CN105573994B (zh) | 基于句法骨架的统计机器翻译系统 | |
CN112699218A (zh) | 模型建立方法及系统及段落标签获得方法及介质 | |
CN115329785A (zh) | 融入音素特征的英-泰-老多语言神经机器翻译方法及装置 | |
CN112926344B (zh) | 基于词向量替换数据增强的机器翻译模型训练方法、装置、电子设备及存储介质 | |
CN112836525B (zh) | 一种基于人机交互机器翻译系统及其自动优化方法 | |
Espla-Gomis et al. | Using machine translation to provide target-language edit hints in computer aided translation based on translation memories | |
CN111144134A (zh) | 基于OpenKiWi的翻译引擎自动化评测系统 | |
CN116432611A (zh) | 文稿写作辅助方法、系统、终端及存储介质 | |
Chen et al. | Reinforced zero-shot cross-lingual neural headline generation | |
CN114298031A (zh) | 文本处理方法、计算机设备及存储介质 | |
CN112766002A (zh) | 基于动态规划的文本对齐方法及系统 | |
Domingo et al. | An interactive machine translation framework for modernizing the language of historical documents | |
Ayana et al. | Reinforced Zero-Shot Cross-Lingual Neural Headline Generation | |
Dugonik et al. | The usage of differential evolution in a statistical machine translation | |
CN116894427B (zh) | 一种中英文信息融合的数据分级方法、服务器及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |