CN112836528B - 机器翻译后编辑方法及系统 - Google Patents

机器翻译后编辑方法及系统 Download PDF

Info

Publication number
CN112836528B
CN112836528B CN202110182819.4A CN202110182819A CN112836528B CN 112836528 B CN112836528 B CN 112836528B CN 202110182819 A CN202110182819 A CN 202110182819A CN 112836528 B CN112836528 B CN 112836528B
Authority
CN
China
Prior art keywords
translation
original
original text
parallel corpus
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110182819.4A
Other languages
English (en)
Other versions
CN112836528A (zh
Inventor
张睦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Iol Wuhan Information Technology Co ltd
Original Assignee
Iol Wuhan Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Iol Wuhan Information Technology Co ltd filed Critical Iol Wuhan Information Technology Co ltd
Priority to CN202110182819.4A priority Critical patent/CN112836528B/zh
Publication of CN112836528A publication Critical patent/CN112836528A/zh
Priority to PCT/CN2021/126670 priority patent/WO2022166267A1/zh
Application granted granted Critical
Publication of CN112836528B publication Critical patent/CN112836528B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种机器翻译后编辑方法及系统,包括:根据原双语平行语料库中的原文和原文的第一译文对机器翻译模型进行训练;根据单语语料库中的原文和基于机器翻译引擎预先获取的单语语料库中原文的译文对训练后的机器翻译模型进行再次训练;将原双语平行语料库中的原文输入再次训练后的机器翻译模型,输出原双语平行语料库中原文的第二译文,并根据第二译文、原双语平行语料库中的原文和原文的第一译文对后编辑模型进行训练;将待翻译原文和基于机器翻译引擎预先获取的待翻译原文的译文输入训练后的后编辑模型,输出编辑后的译文。本发明实现后编辑模型可以快速学习到第一译文与第二译文之间的关联关系,且收敛速度快和编辑精度高。

Description

机器翻译后编辑方法及系统
技术领域
本发明涉及机器翻译技术领域,尤其涉及一种机器翻译后编辑方法及系统。
背景技术
后编辑是一种非常经典的人工翻译的工作模式,主要是给定待翻译的原文,调取机器翻译的结果,译员在此基础上进行修改和润色,进而提升翻译的质量。目前大多数的翻译辅助工具都提供了这种翻译模式的支持。后编辑的优势在于,其提供了参考翻译,以免译员从头开始进行翻译,以此减少译员的工作负担。然而,在实际工作中,当机器翻译的输出与期望的翻译结果差距较大时,后编辑模式往往会导致译员去做很多枯燥无味的修改编辑。这反而进一步增加了译员的工作负担。
在此背景下,自动后编辑模型构建技术在辅助翻译中的应用越来越多。将待翻译的原文和机器翻译的译文输入自动后编辑模型,可以输出自动后编辑的译文。通过自动后编辑可以更进一步减少与译员所期望的译文的差距,减少译员的工作量。但是对自动后编辑模型进行训练时,需要高质量且数量众多的样本数据,该样本数据为三元平行语料(原文,机翻译文,后编辑译文)。
现有的获取样本数据的方法,在二元平行语料(原文,人工编辑的译文)的基础上,通过调用商用机器翻译引擎来翻译原文,以获取相应的机器翻译的译文,并与二元平行语料合成三元平行语料。这种方法直接基于商用机器翻译引擎来翻译原文,使得机器翻译的译文和后编辑的译文之间缺少联系,即人工编辑的译文并不是在机翻译文的基础上进行人工修改获得的。因此,采用这种方式获取的样本数据对后编辑模型进行训练时,无法准确建立机器翻译的译文与自动后编辑的译文之间的关系,不仅自动后编辑模型训练的效率低,且性能差,使用该自动后编辑模型对待编辑机器翻译译文进行自动后编辑时,难以获取准确的后编辑译文。
发明内容
本发明提供一种机器翻译后编辑方法及系统,用以解决现有技术中获取的样本数据无法准确建立机器翻译的译文与自动后编辑的译文之间的关系,导致训练后的性能差,难以对待编辑机器翻译的译文进行准确编辑的缺陷,实现对机器翻译的译文进行准确的自动后编辑。
本发明提供一种机器翻译后编辑方法,包括:
将原双语平行语料库中的原文作为第一样本,将所述原双语平行语料库中原文的第一译文作为所述第一样本的标签,对机器翻译模型进行训练;
将单语语料库中的原文作为第二样本,将基于机器翻译引擎预先获取的所述单语语料库中原文的译文作为所述第二样本的标签,对训练后的机器翻译模型进行再次训练;
将所述原双语平行语料库中的原文输入再次训练后的机器翻译模型,输出所述原双语平行语料库中原文的第二译文,并将所述第二译文和所述原双语平行语料库中的原文作为第三样本,将所述原双语平行语料库中原文的第一译文作为所述第三样本的标签,对后编辑模型进行训练;
将待翻译原文和基于所述机器翻译引擎预先获取的所述待翻译原文的译文输入训练后的后编辑模型,输出编辑后的译文。
根据本发明提供的一种机器翻译后编辑方法,所述将所述第二译文和所述原双语平行语料库中的原文作为第三样本,将所述原双语平行语料库中原文的第一译文作为所述第三样本的标签,对后编辑模型进行训练,包括:
对所述原双语平行语料库中部分原文的第一译文进行破坏,将破坏后的双语平行语料库中的原文和原文的第一译文作为第四样本,将所述原双语平行语料库中原文的第一译文作为所述第四样本的标签,对所述后编辑模型进行预训练;
将所述第二译文和所述原双语平行语料库中的原文作为所述第三样本,将所述原双语平行语料库中原文的第一译文作为所述第三样本的标签,对预训练后的后编辑模型进行训练。
根据本发明提供的一种机器翻译后编辑方法,所述将所述第二译文和所述原双语平行语料库中的原文作为第三样本,将所述原双语平行语料库中原文的第一译文作为所述第三样本的标签,对后编辑模型进行训练,包括:
将所述第一译文和第二译文进行比较,判断比较结果是否在预设范围内,若在预设范围内,则将所述第二译文和所述原双语平行语料库中的原文作为所述第三样本,将所述第一译文作为所述第三样本的标签,对所述后编辑模型进行训练。
根据本发明提供的一种机器翻译后编辑方法,所述将所述第一译文和第二译文进行比较,判断比较结果是否在预设范围内,包括:
计算所述第一译文和第二译文之间的编辑距离、BLEU值和TER值;
判断所述编辑距离、BLEU值和TER值是否均在预设范围内。
根据本发明提供的一种机器翻译后编辑方法,所述将原双语平行语料库中的原文作为第一样本,将所述原双语平行语料库中原文的第一译文作为所述第一样本的标签,对机器翻译模型进行训练,包括:
在所述原双语平行语料库中每条原文的起始位置添加第一语言标签;
在所述原双语平行语料库中每条原文的第一译文的起始位置添加第二语言标签;
将所述添加第一语言标签的原文作为第一样本,将所述添加第二语言标签的第一译文作为所述第一样本的标签,对所述机器翻译模型进行训练。
根据本发明提供的一种机器翻译后编辑方法,所述将原双语平行语料库中的原文作为第一样本,将所述原双语平行语料库中原文的第一译文作为所述第一样本的标签,对机器翻译模型进行训练,包括:
对所述原双语平行语料库中的原文进行分词处理;
基于词嵌入算法将所述原双语平行语料库中原文的词转换为词向量;
将所述原双语平行语料库中原文的词的词向量作为所述第一样本,将所述原双语平行语料库中原文的第一译文作为所述第一样本的标签,对所述机器翻译模型进行训练。
根据本发明提供的一种机器翻译后编辑方法,所述词嵌入算法为Skip-Gram算法。
本发明还提供一种机器翻译后编辑系统,包括:
第一训练模块,用于将原双语平行语料库中的原文作为第一样本,将所述原双语平行语料库中原文的第一译文作为所述第一样本的标签,对机器翻译模型进行训练;
第二训练模块,用于将单语语料库中的原文作为第二样本,将基于机器翻译引擎预先获取的所述单语语料库中原文的译文作为所述第二样本的标签,对训练后的机器翻译模型进行再次训练;
第三训练模块,用于将所述原双语平行语料库中的原文输入再次训练后的机器翻译模型,输出所述原双语平行语料库中原文的第二译文,并将所述第二译文和所述原双语平行语料库中的原文作为第三样本,将所述原双语平行语料库中原文的第一译文作为所述第三样本的标签,对后编辑模型进行训练;
编辑模块,用于将待翻译原文和基于所述机器翻译引擎预先获取的所述待翻译原文的译文输入训练后的后编辑模型,输出编辑后的译文。
本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述机器翻译后编辑方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述机器翻译后编辑方法的步骤。
本发明提供的机器翻译后编辑方法及系统,通过一方面采用原双语平行语料库中的原文和原文的第一译文对机器翻译模型进行训练,以使机器翻译模型学习到原文和第一译文之间的映射关系,然后采用少量的单语语料库中的原文和基于机器翻译引擎预先获取的单语语料库中原文的译文,对机器翻译模型进行精调,不仅可以获取具备机器翻译引擎翻译特征的机器翻译模型,还可以避免反复大量调用机器翻译引擎,节约成本;另一方面使用原双语平行语料库中的原文、原文的第一译文和基于精调后的机器翻译模型获取的原文的第二译文对后编辑模型进行训练,使得后编辑模型可以快速学习到第一译文与第二译文之间的关联关系,加快后编辑模型的收敛速度,提高后编辑模型的编辑精度。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的机器翻译后编辑方法的流程示意图;
图2是本发明提供的机器翻译后编辑方法中后编译模型的结构示意图;
图3是本发明提供的机器翻译后编辑系统的结构示意图;
图4是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1描述本发明的机器翻译后编辑方法,包括:步骤101,将原双语平行语料库中的原文作为第一样本,将所述原双语平行语料库中原文的第一译文作为所述第一样本的标签,对机器翻译模型进行训练;
其中,原文可以中文或英文等,本实施例不限于原文的语言类型。原双语平行语料库中包括原文和原文的译文,即原双语平行语料库中的每条平行语料数据为一个二元组(原文,译文)。原双语平行语料库中的平行语料数据可以是从网络下载获取,也可以是在翻译生产环境中产生获取。可以将在翻译生产环境中产生的平行语料数据组成的语料库称为双语平行语料库C。双语平行语料C的每条语料数据为(原文,人工翻译审校后所产生的高质量的译文)。可以将从网络上下载的平行语料数据组成的语料库称为双语平行语料库T。
可以将原双语平行语料库中的双语平行语料库C和双语平行语料库T中的平行语料数据进行混合,然后双语平行语料库中的原文作为第一样本,将双语平行语料库中原文的第一译文作为第一样本的标签,对机器翻译模型进行训练,直到满足预设终止条件。其中,第一译文为双语平行语料库中原文的译文。在训练的过程中,机器翻译模型可以学习到原文和第一译文之间的映射关系。
步骤102,将单语语料库中的原文作为第二样本,将基于机器翻译引擎预先获取的所述单语语料库中原文的译文作为所述第二样本的标签,对训练后的机器翻译模型进行再次训练;
其中,机器翻译引擎可以是谷歌机器翻译引擎或百度机器翻译引擎等,本实施例不对机器翻译引擎作具体的限定。在对后编译模型训练过程中,需要大量的样本数据。现有技术中通过反复调用机器翻译引擎以获取大量的样本数据,而大量调用机器翻译引擎的成本开销较高。
为减小成本,本实施使用机器翻译模型来模拟机器翻译引擎。首先,将单语语料库中的原文输入机器翻译引擎中,获取单语语料库中原文的译文。其中,单语语料库中原文的数量可以根据实际需求进行设置,例如,五万条原文。将单语语料库中的原文和机器翻译引擎输出的原文的译文合成平行语料数据,即该平行语料数据为(原文,机器翻译引擎翻译的译文)。然后,将单语语料库中的原文作为第二样本,将机器翻译引擎翻译的译文作为第二样本的标签,对训练后的机器翻译模型进行再次训练,以获取精调后的机器翻译模型,并将精调后的机器翻译模型作为机器翻译引擎的代理模型。
本实施例通过对机器翻译模型进行预训练,使得机器翻译模型具有通用性较强的底层参数,然后再根据机器翻译引擎输出的少量的译文对机器翻译模型精调,就可以获取对机器翻译引擎进行模拟的机器翻译模型,不仅可以使得所述机器翻译模型具备机器翻译引擎的翻译特征,还可以避免反复大量调用机器翻译引擎,节约成本。此外,通过这种方式可以对各种机器翻译引擎进行模拟。
步骤103,将所述原双语平行语料库中的原文输入再次训练后的机器翻译模型,输出所述原双语平行语料库中原文的第二译文,并将所述第二译文和所述原双语平行语料库中的原文作为第三样本,将所述原双语平行语料库中原文的第一译文作为所述第三样本的标签,对后编辑模型进行训练;
具体地,获取再次训练后的机器翻译模型后,可以将原双语平行语料库中所有的原文输入机器翻译模型中,获取原文的第二译文。其中,第二译文为机器翻译模型输出的原文的译文。也可以将部分原文输入机器翻译模型中,获取部分原文的第二译文。其中,部分原文可以是双语平行语料C中的原文。可以将原文、第一译文和第二译文合成平行语料数据(原文,第二译文,第一译文)。
由于机器翻译模型在训练过程中学习了原双语平行语料库中的原文和第一译文之间的映射关系。因此,将原双语平行语料库中的原文输入机器翻译模型,输出的第二译文与第一译文存在关联关系。
由于,第一译文与第二译文之间存在关联关系。所以,采用合成的平行语料数据(原文,第二译文,第一译文)对后编辑模型进行训练,可以使得后编辑模型具有良好的性能,还可以使得后编辑模型快速学习到第一译文与第二译文之间的关联关系,提高后编辑模型的训练效率。
如图2所示,后编辑模型可以是双编码器到单解码器的机器翻译模型。可以直接将平行语料数据(原文,第二译文,第一译文)作为训练样本,对后编辑模型进行训练,直到满足后编辑模型的预设终止条件。也可以对合成的平行语料数据进行筛选,将满足条件平行语料数据(原文,第二译文,第一译文)作为训练样本,对后编辑模型进行训练,本实施例不限于后编辑模型的训练样本的获取方式。
步骤104,将待翻译原文和基于所述机器翻译引擎预先获取的所述待翻译原文的译文输入训练后的后编辑模型,输出编辑后的译文。
其中,待翻译原文可以是各应用领域中需要进行翻译的文本,如,工程领域或医学领域等。本实施例不限于待翻译原文的类型和数量。获取训练后的后编辑模型后,可以将待翻译原文和机器翻译引擎输出的待翻译原文的译文作为后编辑模型的输入,输出编辑后的译文。
本实施例一方面采用原双语平行语料库中的原文和原文的第一译文对机器翻译模型进行训练,以使机器翻译模型学习到原文和第一译文之间的映射关系,然后采用少量的单语语料库中的原文和基于机器翻译引擎预先获取的单语语料库中原文的译文,对机器翻译模型进行精调,不仅可以获取具备机器翻译引擎翻译特征的机器翻译模型,还可以避免反复大量调用机器翻译引擎,节约成本;另一方面使用原双语平行语料库中的原文、原文的第一译文和基于精调后的机器翻译模型获取的原文的第二译文对后编辑模型进行训练,使得后编辑模型可以快速学习到第一译文与第二译文之间的关联关系,加快后编辑模型的收敛速度,提高后编辑模型的编辑精度。
在上述实施例的基础上,本实施例中所述将所述第二译文和所述原双语平行语料库中的原文作为第三样本,将所述原双语平行语料库中原文的第一译文作为所述第三样本的标签,对后编辑模型进行训练,包括:对所述原双语平行语料库中部分原文的第一译文进行破坏,将破坏后的双语平行语料库中的原文和原文的第一译文作为第四样本,将所述原双语平行语料库中原文的第一译文作为所述第四样本的标签,对所述后编辑模型进行预训练;将所述第二译文和所述原双语平行语料库中的原文作为所述第三样本,将所述原双语平行语料库中原文的第一译文作为所述第三样本的标签,对预训练后的后编辑模型进行训练。
其中,对任一原文的第一译文进行破坏时,可以将该原文的第一译文的任一位置的词进行随机删除、随机排列、随机替换、转移位置和保持不变中的一种或多种。其中,对该原文的第一译文中任一位置的词进行随机替换时,可以是利用该原文的第一译文中其他位置的词替换该位置的词。对该原文的第一译文中任一位置的词进行随机删除时,可以对该位置的词进行随机删除,并采用空格替代。如表1所示为破坏前后的第一译文的一种实例。
表1破坏前后的第一译文
原语料 It is fine today.
破坏1---随机删除 It is DEL today.
破坏2---随机排列 It is today fine.
破坏3---随机替换 It is fine hello.
破坏4---转移位置 It today is.fine
破坏5---保持不变 It is fine today.
可以从原双语平行语料库中随机选择部分平行语料数据进行破坏。其中,部分平行语料数据可以是从双语平行语料库T中随机选择获取。破坏后的平行语料数据形成的三元组平行语料数据为(原文,破坏的第一译文,原始第一译文)。可以将三元组平行语料数据中的原文和破坏的第一译文作为第四样本,将三元组平行语料数据中的原始第一译文作为第四样本的标签,对后编辑模型进行预训练。
然后,将第二译文和原双语平行语料数据中原文作为第三样本,将原双语平行语料数据中原文的第一译文作为第三样本的标签,对预训练后的后编辑模型进行精调训练。本实施例通过对后编辑模型进行预训练,可以得到通用性较强的底层参数,并对后编辑模型进行精调训练,使得后编辑模型具有良好的性能,还可以提高后编辑模型的鲁棒性。
此外,本实施例通过从网络上下载的平行语料数据对后编辑模型进行预训练后,采用较少的合成的双语平行语料(原文,机器翻译模型输出的第二译文,第一译文)对预训练后的后编辑模型进行训练,就可以获取具有良好性能的后编辑模型,可以减少合成双语平行语料的成本。
在上述实施例的基础上,本实施例中所述将所述第二译文和所述原双语平行语料库中的原文作为第三样本,将所述原双语平行语料库中原文的第一译文作为所述第三样本的标签,对后编辑模型进行训练,包括:将所述第一译文和第二译文进行比较,判断比较结果是否在预设范围内,若在预设范围内,则将所述第二译文和所述原双语平行语料库中的原文作为所述第三样本,将所述第一译文作为所述第三样本的标签,对所述后编辑模型进行训练。
具体地,获取合成的平行语料数据(原文,机器翻译模型输出的第二译文,第一译文)后,可能存在第二译文和第一译文之间的差距较大的平行语料数据,即训练样本质量较差。采用这种质量较差的训练样本很难训练出具有良好性能的后编辑模型。因此,在对后编辑模型进行训练前,需要对合成的平行语料数据进行筛选,以获取高质量的训练样本。
对于任一合成的平行语料数据,将第一译文与第二译文进行比较,并判断比较结果是否在预设范围内;若不在预设范围内,则表示第二译文和第一译文之间的差距较大,训练样本质量较差,则将该合成的平行语料数据删除;若在预设范围内,则将该合成的平行语料数据保留,并将该合成的平行语料数据中的第二译文和原文作为第三样本,将第一译文作为第三样本的标签,对后编辑模型进行训练。
在上述实施例的基础上,本实施例中将所述第一译文和第二译文进行比较,判断比较结果是否在预设范围内,包括:计算所述第一译文和第二译文之间的编辑距离、BLEU(Bilingual Evaluation Understudy,双语评估辅助工具)值和TER(Translation EditRate,译后编辑量)值;判断所述编辑距离、BLEU值和TER值是否均在预设范围内。
其中,编辑距离是指两个字符串中,由一个转成另一个所需的最少编辑操作次数,编辑距离越小,两个字符串的相似度越大。BLEU值用于评价第二译文与第一译文之间的重合程度,重合程度越高,第一译文与第二译文之间的差距越小。TER值是编辑距离和移位操作次数的累加。预设范围可以根据实际需求进行设置。
将第二译文与第一译文进行比较时,可以是计算第二译文与第一译文之间的编辑距离、BLEU值和TER值等。本实施例不限于这种比较方式。
在上述各实施例的基础上,本实施例中所述将原双语平行语料库中的原文作为第一样本,将所述原双语平行语料库中原文的第一译文作为所述第一样本的标签,对机器翻译模型进行训练,包括:在所述原双语平行语料库中每条原文的起始位置添加第一语言标签;在所述原双语平行语料库中每条原文的第一译文的起始位置添加第二语言标签;将所述添加第一语言标签的原文作为第一样本,将所述添加第二语言标签的第一译文作为所述第一样本的标签,对所述机器翻译模型进行训练。
其中,第一语言标签用于标识原文的语言类型,第二语言标签用于标识原文的译文的语言类型。例如,原文为“今天天气真好。”,该原文的语言类型为中文,则可以在该原文的起止位置加一个中文语言标签<2zh>,转换为“<2zh>今天天气真好。”。第一译文为“It’sa good day.”,则可以在该第一译文的起止位置加一个英文语言标签<2en>,转换为“<2en>It’s a good day.”。通过这种处理方式,在训练过程中,机器翻译模型可以识别到输入原文和第一译文的语言类型,从而进行特定的编码以及解码。这种在原文和第一译文的起始位置添加语言标签,并将添加标签的原文和第一译文作为训练样本的方式也可以适用于对其他样本的处理。如,第二样本、第三样本和第四样本。如表2所示为对语料数据添加语言标签的一种示例。
表2添加语言标签前后的语料数据
在上述各实施例的基础上,本实施例中所述将原双语平行语料库中的原文作为第一样本,将所述原双语平行语料库中原文的第一译文作为所述第一样本的标签,对机器翻译模型进行训练,包括:对所述原双语平行语料库中的原文进行分词处理;基于词嵌入算法将所述原双语平行语料库中原文的词转换为词向量;将所述原双语平行语料库中原文的词的词向量作为所述第一样本,将所述原双语平行语料库中原文的第一译文作为所述第一样本的标签,对所述机器翻译模型进行训练。
具体地,对于原双语平行语料库中的任一原文,可以采用分词工具对该原文进行分词处理。对不同语言类型的原文进行分词处理时,采用的分词处理工具可以相同也可以不同。例如,原文为英文时,可以采用spacy工具进行分词。其中,spacy工具是一个自然语言处理工具包。原文为中文时,可以采用规则法以字进行分词。分词处理后,可以将原文中的每个汉字、连续的数字或英文字母、标点符号单独作为词例进行分开。
然后,再采用词嵌入算法将原双语平行语料库中原文中的每个词转换为词向量。本实施例不限于词嵌入算法的类型,可以是人工神经网络等。通过将词转化为词向量,可以将词映射为实数域上的向量,可以有效提高机器翻译模型的性能。
在上述实施例的基础上,本实施例中所述词嵌入算法为Skip-Gram算法。
其中,Skip-Gram算法是利用当前词预测其上下文的词,可以将每个词表示为低维的实数域取值的向量,这种词向量可以将词的语义特征也编码进向量中。Skip-Gram算法中的参数可以根据实际情况设置,如,词向量的维度为300,上下文窗口为5。
对机器翻译模型进行训练之前,可以基于Skip-Gram算法将原文中的词转换为词向量。同理,在对其他模型进行训练时,也可以采用这种方法对样本进行处理。
下面对本发明提供的机器翻译后编辑系统进行描述,下文描述的机器翻译后编辑系统与上文描述的机器翻译后编辑方法可相互对应参照。
如图3所示,本实施例提供一种机器翻译后编辑系统,该系统包括第一训练模块301、第二训练模块302、第三训练模块303和编辑模块304,其中:
第一训练模块301用于将原双语平行语料库中的原文作为第一样本,将所述原双语平行语料库中原文的第一译文作为所述第一样本的标签,对机器翻译模型进行训练;
其中,原文可以中文或英文等,本实施例不限于原文的语言类型。原双语平行语料库中包括原文和原文的译文,即原双语平行语料库中的每条平行语料数据为一个二元组(原文,译文)。原双语平行语料库中的平行语料数据可以是从网络下载获取,也可以是在翻译生产环境中产生获取。可以将在翻译生产环境中产生的平行语料数据组成的语料库称为双语平行语料库C。双语平行语料C的每条语料数据为(原文,人工翻译审校后所产生的高质量的译文)。可以将从网络上下载的平行语料数据组成的语料库称为双语平行语料库T。
可以将原双语平行语料库中的双语平行语料库C和双语平行语料库T中的平行语料数据进行混合,然后双语平行语料库中的原文作为第一样本,将双语平行语料库中原文的第一译文作为第一样本的标签,对机器翻译模型进行训练,直到满足预设终止条件。其中,第一译文为双语平行语料库中原文的译文。在训练的过程中,机器翻译模型可以学习到原文和第一译文之间的映射关系。
第二训练模块302用于将单语语料库中的原文作为第二样本,将基于机器翻译引擎预先获取的所述单语语料库中原文的译文作为所述第二样本的标签,对训练后的机器翻译模型进行再次训练;
其中,机器翻译引擎可以是谷歌机器翻译引擎或百度机器翻译引擎等,本实施例不对机器翻译引擎作具体的限定。在对后编译模型训练过程中,需要大量的样本数据。现有技术中通过反复调用机器翻译引擎以获取大量的样本数据,而大量调用机器翻译引擎的成本开销较高。
为减小成本,本实施使用机器翻译模型来模拟机器翻译引擎。首先,将单语语料库中的原文输入机器翻译引擎中,获取单语语料库中原文的译文。其中,单语语料库中原文的数量可以根据实际需求进行设置。将单语语料库中的原文和机器翻译引擎输出的原文的译文合成平行语料数据,即该平行语料数据为(原文,机器翻译引擎翻译的译文)。然后,将单语语料库中的原文作为第二样本,将机器翻译引擎翻译的译文作为第二样本的标签,对训练后的机器翻译模型进行再次训练,以获取精调后的机器翻译模型,并将精调后的机器翻译模型作为机器翻译引擎的代理模型。
本实施例通过对机器翻译模型进行预训练,使得机器翻译模型具有通用性较强的底层参数,然后再根据机器翻译引擎输出的少量的译文对机器翻译模型精调,就可以获取对机器翻译引擎进行模拟的机器翻译模型,不仅可以使得所述机器翻译模型具备机器翻译引擎的翻译特征,还可以避免反复大量调用机器翻译引擎,节约成本。此外,通过这种方式可以对各种机器翻译引擎进行模拟。
第三训练模块303用于将所述原双语平行语料库中的原文输入再次训练后的机器翻译模型,输出所述原双语平行语料库中原文的第二译文,并将所述第二译文和所述原双语平行语料库中的原文作为第三样本,将所述原双语平行语料库中原文的第一译文作为所述第三样本的标签,对后编辑模型进行训练;
具体地,获取再次训练后的机器翻译模型后,可以将原双语平行语料库中所有的原文输入机器翻译模型中,获取原文的第二译文。其中,第二译文为机器翻译模型输出的原文的译文。也可以将部分原文输入机器翻译模型中,获取部分原文的第二译文。其中,部分原文可以是双语平行语料C中的原文。可以将原文、第一译文和第二译文合成平行语料数据(原文,第二译文,第一译文)。
由于机器翻译模型在训练过程中学习了原双语平行语料库中的原文和第一译文之间的映射关系。因此,将原双语平行语料库中的原文输入机器翻译模型,输出的第二译文与第一译文存在关联关系。
由于,第一译文与第二译文之间存在关联关系。所以,采用合成的平行语料数据(原文,第二译文,第一译文)对后编辑模型进行训练,可以使得后编辑模型具有良好的性能,还可以使得后编辑模型快速学习到第一译文与第二译文之间的关联关系,提高后编辑模型的训练效率。
其中,后编辑模型可以是双编码器到单解码器的机器翻译模型。可以直接将平行语料数据(原文,第二译文,第一译文)作为训练样本,对后编辑模型进行训练,直到满足后编辑模型的预设终止条件。也可以对合成的平行语料数据进行筛选,将满足条件平行语料数据(原文,第二译文,第一译文)作为训练样本,对后编辑模型进行训练,本实施例不限于后编辑模型的训练样本的获取方式。
编辑模块304用于将待翻译原文和基于所述机器翻译引擎预先获取的所述待翻译原文的译文输入训练后的后编辑模型,输出编辑后的译文。
其中,待翻译原文可以是各应用领域中需要进行翻译的文本,如,工程领域或医学领域等。本实施例不限于待翻译原文的类型和数量。获取训练后的后编辑模型后,可以将待翻译原文和机器翻译引擎输出的待翻译原文的译文作为后编辑模型的输入,输出编辑后的译文。
本实施例一方面采用原双语平行语料库中的原文和原文的第一译文对机器翻译模型进行训练,以使机器翻译模型学习到原文和第一译文之间的映射关系,然后采用少量的单语语料库中的原文和基于机器翻译引擎预先获取的单语语料库中原文的译文,对机器翻译模型进行精调,不仅可以获取具备机器翻译引擎翻译特征的机器翻译模型,还可以避免反复大量调用机器翻译引擎,节约成本;另一方面使用原双语平行语料库中的原文、原文的第一译文和基于精调后的机器翻译模型获取的原文的第二译文对后编辑模型进行训练,使得后编辑模型可以快速学习到第一译文与第二译文之间的关联关系,加快后编辑模型的收敛速度,提高后编辑模型的编辑精度。
在上述实施例的基础上,本实施例中第三训练模块具体用于:对所述原双语平行语料库中部分原文的第一译文进行破坏,将破坏后的双语平行语料库中的原文和原文的第一译文作为第四样本,将所述原双语平行语料库中原文的第一译文作为所述第四样本的标签,对所述后编辑模型进行预训练;将所述第二译文和所述原双语平行语料库中的原文作为所述第三样本,将所述原双语平行语料库中原文的第一译文作为所述第三样本的标签,对预训练后的后编辑模型进行训练。
在上述实施例的基础上,本实施例中第三训练模块,还用于将所述第一译文和第二译文进行比较,判断比较结果是否在预设范围内,若在预设范围内,则将所述第二译文和所述原双语平行语料库中的原文作为所述第三样本,将所述第一译文作为所述第三样本的标签,对所述后编辑模型进行训练。
在上述实施例的基础上,本实施例中还包括判断模块具体用于:计算所述第一译文和第二译文之间的编辑距离、BLEU值和TER值;判断所述编辑距离、BLEU值和TER值是否均在预设范围内。
在上述各实施例的基础上,本实施例中第一训练模块具体用于:在所述原双语平行语料库中每条原文的起始位置添加第一语言标签;在所述原双语平行语料库中每条原文的第一译文的起始位置添加第二语言标签;将所述添加第一语言标签的原文作为第一样本,将所述添加第二语言标签的第一译文作为所述第一样本的标签,对所述机器翻译模型进行训练。
在上述各实施例的基础上,本实施例中第一训练模块,还用于对所述原双语平行语料库中的原文进行分词处理;基于词嵌入算法将所述原双语平行语料库中原文的词转换为词向量;将所述原双语平行语料库中原文的词的词向量作为所述第一样本,将所述原双语平行语料库中原文的第一译文作为所述第一样本的标签,对所述机器翻译模型进行训练。
在上述实施例的基础上,本实施例中所述词嵌入算法为Skip-Gram算法。
图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)401、通信接口(Communications Interface)402、存储器(memory)403和通信总线404,其中,处理器401,通信接口402,存储器403通过通信总线404完成相互间的通信。处理器401可以调用存储器403中的逻辑指令,以执行机器翻译后编辑方法,该方法包括:将原双语平行语料库中的原文作为第一样本,将所述原双语平行语料库中原文的第一译文作为所述第一样本的标签,对机器翻译模型进行训练;将单语语料库中的原文作为第二样本,将基于机器翻译引擎预先获取的所述单语语料库中原文的译文作为所述第二样本的标签,对训练后的机器翻译模型进行再次训练;将所述原双语平行语料库中的原文输入再次训练后的机器翻译模型,输出所述原双语平行语料库中原文的第二译文,并将所述第二译文和所述原双语平行语料库中的原文作为第三样本,将所述原双语平行语料库中原文的第一译文作为所述第三样本的标签,对后编辑模型进行训练;将待翻译原文和基于所述机器翻译引擎预先获取的所述待翻译原文的译文输入训练后的后编辑模型,输出编辑后的译文。
此外,上述的存储器403中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的机器翻译后编辑方法,该方法包括:将原双语平行语料库中的原文作为第一样本,将所述原双语平行语料库中原文的第一译文作为所述第一样本的标签,对机器翻译模型进行训练;将单语语料库中的原文作为第二样本,将基于机器翻译引擎预先获取的所述单语语料库中原文的译文作为所述第二样本的标签,对训练后的机器翻译模型进行再次训练;将所述原双语平行语料库中的原文输入再次训练后的机器翻译模型,输出所述原双语平行语料库中原文的第二译文,并将所述第二译文和所述原双语平行语料库中的原文作为第三样本,将所述原双语平行语料库中原文的第一译文作为所述第三样本的标签,对后编辑模型进行训练;将待翻译原文和基于所述机器翻译引擎预先获取的所述待翻译原文的译文输入训练后的后编辑模型,输出编辑后的译文。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的机器翻译后编辑方法,该方法包括:将原双语平行语料库中的原文作为第一样本,将所述原双语平行语料库中原文的第一译文作为所述第一样本的标签,对机器翻译模型进行训练;将单语语料库中的原文作为第二样本,将基于机器翻译引擎预先获取的所述单语语料库中原文的译文作为所述第二样本的标签,对训练后的机器翻译模型进行再次训练;将所述原双语平行语料库中的原文输入再次训练后的机器翻译模型,输出所述原双语平行语料库中原文的第二译文,并将所述第二译文和所述原双语平行语料库中的原文作为第三样本,将所述原双语平行语料库中原文的第一译文作为所述第三样本的标签,对后编辑模型进行训练;将待翻译原文和基于所述机器翻译引擎预先获取的所述待翻译原文的译文输入训练后的后编辑模型,输出编辑后的译文。
以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种机器翻译后编辑方法,其特征在于,包括:
将原双语平行语料库中的原文作为第一样本,将所述原双语平行语料库中原文的第一译文作为所述第一样本的标签,对机器翻译模型进行训练;
将单语语料库中的原文作为第二样本,将基于机器翻译引擎预先获取的所述单语语料库中原文的译文作为所述第二样本的标签,对训练后的机器翻译模型进行再次训练;
将所述原双语平行语料库中的原文输入再次训练后的机器翻译模型,输出所述原双语平行语料库中原文的第二译文,并将所述第二译文和所述原双语平行语料库中的原文作为第三样本,将所述原双语平行语料库中原文的第一译文作为所述第三样本的标签,对后编辑模型进行训练;
将待翻译原文和基于所述机器翻译引擎预先获取的所述待翻译原文的译文输入训练后的后编辑模型,输出编辑后的译文。
2.根据权利要求1所述的机器翻译后编辑方法,其特征在于,所述将所述第二译文和所述原双语平行语料库中的原文作为第三样本,将所述原双语平行语料库中原文的第一译文作为所述第三样本的标签,对后编辑模型进行训练,包括:
对所述原双语平行语料库中部分原文的第一译文进行破坏,将破坏后的双语平行语料库中的原文和原文的第一译文作为第四样本,将所述原双语平行语料库中原文的第一译文作为所述第四样本的标签,对所述后编辑模型进行预训练;
将所述第二译文和所述原双语平行语料库中的原文作为所述第三样本,将所述原双语平行语料库中原文的第一译文作为所述第三样本的标签,对预训练后的后编辑模型进行训练。
3.根据权利要求1所述的机器翻译后编辑方法,其特征在于,所述将所述第二译文和所述原双语平行语料库中的原文作为第三样本,将所述原双语平行语料库中原文的第一译文作为所述第三样本的标签,对后编辑模型进行训练,包括:
将所述第一译文和第二译文进行比较,判断比较结果是否在预设范围内,若在预设范围内,则将所述第二译文和所述原双语平行语料库中的原文作为所述第三样本,将所述第一译文作为所述第三样本的标签,对所述后编辑模型进行训练。
4.根据权利要求3所述的机器翻译后编辑方法,其特征在于,所述将所述第一译文和第二译文进行比较,判断比较结果是否在预设范围内,包括:
计算所述第一译文和第二译文之间的编辑距离、BLEU值和TER值;
判断所述编辑距离、BLEU值和TER值是否均在预设范围内。
5.根据权利要求1-4任一所述的机器翻译后编辑方法,其特征在于,所述将原双语平行语料库中的原文作为第一样本,将所述原双语平行语料库中原文的第一译文作为所述第一样本的标签,对机器翻译模型进行训练,包括:
在所述原双语平行语料库中每条原文的起始位置添加第一语言标签;
在所述原双语平行语料库中每条原文的第一译文的起始位置添加第二语言标签;
将所述添加第一语言标签的原文作为第一样本,将所述添加第二语言标签的第一译文作为所述第一样本的标签,对所述机器翻译模型进行训练。
6.根据权利要求1-4任一所述的机器翻译后编辑方法,其特征在于,所述将原双语平行语料库中的原文作为第一样本,将所述原双语平行语料库中原文的第一译文作为所述第一样本的标签,对机器翻译模型进行训练,包括:
对所述原双语平行语料库中的原文进行分词处理;
基于词嵌入算法将所述原双语平行语料库中原文的词转换为词向量;
将所述原双语平行语料库中原文的词的词向量作为所述第一样本,将所述原双语平行语料库中原文的第一译文作为所述第一样本的标签,对所述机器翻译模型进行训练。
7.根据权利要求6所述的机器翻译后编辑方法,其特征在于,所述词嵌入算法为Skip-Gram算法。
8.一种机器翻译后编辑系统,其特征在于,包括:
第一训练模块,用于将原双语平行语料库中的原文作为第一样本,将所述原双语平行语料库中原文的第一译文作为所述第一样本的标签,对机器翻译模型进行训练;
第二训练模块,用于将单语语料库中的原文作为第二样本,将基于机器翻译引擎预先获取的所述单语语料库中原文的译文作为所述第二样本的标签,对训练后的机器翻译模型进行再次训练;
第三训练模块,用于将所述原双语平行语料库中的原文输入再次训练后的机器翻译模型,输出所述原双语平行语料库中原文的第二译文,并将所述第二译文和所述原双语平行语料库中的原文作为第三样本,将所述原双语平行语料库中原文的第一译文作为所述第三样本的标签,对后编辑模型进行训练;
编辑模块,用于将待翻译原文和基于所述机器翻译引擎预先获取的所述待翻译原文的译文输入训练后的后编辑模型,输出编辑后的译文。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述机器翻译后编辑方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述机器翻译后编辑方法的步骤。
CN202110182819.4A 2021-02-07 2021-02-07 机器翻译后编辑方法及系统 Active CN112836528B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110182819.4A CN112836528B (zh) 2021-02-07 2021-02-07 机器翻译后编辑方法及系统
PCT/CN2021/126670 WO2022166267A1 (zh) 2021-02-07 2021-10-27 机器翻译后编辑方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110182819.4A CN112836528B (zh) 2021-02-07 2021-02-07 机器翻译后编辑方法及系统

Publications (2)

Publication Number Publication Date
CN112836528A CN112836528A (zh) 2021-05-25
CN112836528B true CN112836528B (zh) 2023-10-03

Family

ID=75933444

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110182819.4A Active CN112836528B (zh) 2021-02-07 2021-02-07 机器翻译后编辑方法及系统

Country Status (2)

Country Link
CN (1) CN112836528B (zh)
WO (1) WO2022166267A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836528B (zh) * 2021-02-07 2023-10-03 语联网(武汉)信息技术有限公司 机器翻译后编辑方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009140499A (ja) * 2007-12-07 2009-06-25 Toshiba Corp 二言語コーパスに基づくターゲット言語の語形変化モデルトレーニング方法及び装置、tlwi方法及び装置、ソース言語のテキストをターゲット言語に翻訳する翻訳方法及びシステム
CN105701089A (zh) * 2015-12-31 2016-06-22 成都数联铭品科技有限公司 一种机器翻译错词修正的后编辑处理方法
CN107301174A (zh) * 2017-06-22 2017-10-27 北京理工大学 一种基于拼接的集成式自动译后编辑系统及方法
CN112287696A (zh) * 2020-10-29 2021-01-29 语联网(武汉)信息技术有限公司 译文后编辑方法、装置、电子设备和存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6671027B2 (ja) * 2016-02-01 2020-03-25 パナソニックIpマネジメント株式会社 換言文生成方法、該装置および該プログラム
CN109670191B (zh) * 2019-01-24 2023-03-07 语联网(武汉)信息技术有限公司 机器翻译的校准优化方法、装置与电子设备
CN110532575A (zh) * 2019-08-21 2019-12-03 语联网(武汉)信息技术有限公司 文本翻译方法及装置
CN111339789B (zh) * 2020-02-20 2023-08-01 北京字节跳动网络技术有限公司 一种翻译模型训练方法、装置、电子设备及存储介质
CN112836528B (zh) * 2021-02-07 2023-10-03 语联网(武汉)信息技术有限公司 机器翻译后编辑方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009140499A (ja) * 2007-12-07 2009-06-25 Toshiba Corp 二言語コーパスに基づくターゲット言語の語形変化モデルトレーニング方法及び装置、tlwi方法及び装置、ソース言語のテキストをターゲット言語に翻訳する翻訳方法及びシステム
CN105701089A (zh) * 2015-12-31 2016-06-22 成都数联铭品科技有限公司 一种机器翻译错词修正的后编辑处理方法
CN107301174A (zh) * 2017-06-22 2017-10-27 北京理工大学 一种基于拼接的集成式自动译后编辑系统及方法
CN112287696A (zh) * 2020-10-29 2021-01-29 语联网(武汉)信息技术有限公司 译文后编辑方法、装置、电子设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向多引擎融合技术的统计后编辑方法研究;李响;胡小鹏;袁琦;;工业技术创新(06);全文 *

Also Published As

Publication number Publication date
CN112836528A (zh) 2021-05-25
WO2022166267A1 (zh) 2022-08-11

Similar Documents

Publication Publication Date Title
CN109117483B (zh) 神经网络机器翻译模型的训练方法及装置
CN110134968B (zh) 基于深度学习的诗歌生成方法、装置、设备及存储介质
US20240054767A1 (en) Multi-modal Model Training Method, Apparatus and Device, and Storage Medium
CN112766000B (zh) 基于预训练模型的机器翻译方法及系统
CN112287696B (zh) 译文后编辑方法、装置、电子设备和存储介质
CN111368118B (zh) 一种图像描述生成方法、系统、装置和存储介质
WO2020124674A1 (zh) 向量化译员的翻译个性特征的方法及装置
CN111144140B (zh) 基于零次学习的中泰双语语料生成方法及装置
CN110704547B (zh) 基于神经网络的关系抽取数据生成方法、模型及训练方法
CN111125356A (zh) 一种文本分类方法及系统
CN111144137B (zh) 机器翻译后编辑模型语料的生成方法及装置
CN114596566A (zh) 文本识别方法及相关装置
CN113239710A (zh) 多语言机器翻译方法、装置、电子设备和存储介质
CN112836528B (zh) 机器翻译后编辑方法及系统
CN114201975B (zh) 翻译模型训练方法和翻译方法及其装置
CN109657244B (zh) 一种英文长句自动切分方法及系统
CN114579796B (zh) 机器阅读理解方法及装置
CN116306906A (zh) 一种翻译模型训练方法、语音翻译方法及相关设备
CN110610006A (zh) 基于笔画和字形的形态学双通道中文词嵌入方法
CN112766001A (zh) 企业名称翻译方法及装置
CN112541365B (zh) 基于术语替换的机器翻译方法及装置
CN115905500B (zh) 问答对数据的生成方法及装置
CN116468055A (zh) 语音翻译方法、模型、装置、设备及存储介质
CN113673259A (zh) 基于数据增强的低资源神经机器翻译方法及系统
CN116822501A (zh) 数据识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant