CN112766000A - 基于预训练模型的机器翻译方法及系统 - Google Patents

基于预训练模型的机器翻译方法及系统 Download PDF

Info

Publication number
CN112766000A
CN112766000A CN202110029918.9A CN202110029918A CN112766000A CN 112766000 A CN112766000 A CN 112766000A CN 202110029918 A CN202110029918 A CN 202110029918A CN 112766000 A CN112766000 A CN 112766000A
Authority
CN
China
Prior art keywords
language
corpus
model
training
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110029918.9A
Other languages
English (en)
Other versions
CN112766000B (zh
Inventor
张睦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Iol Wuhan Information Technology Co ltd
Original Assignee
Iol Wuhan Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Iol Wuhan Information Technology Co ltd filed Critical Iol Wuhan Information Technology Co ltd
Priority to CN202110029918.9A priority Critical patent/CN112766000B/zh
Publication of CN112766000A publication Critical patent/CN112766000A/zh
Priority to PCT/CN2021/126647 priority patent/WO2022148104A1/zh
Application granted granted Critical
Publication of CN112766000B publication Critical patent/CN112766000B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于预训练模型的机器翻译方法及系统,包括:使用破坏前后的第一语言语料库中的语料数据训练第一预训练模型,获取第二预训练模型;使用破坏前后的第二语言语料库中的语料数据训练第二预训练模型,获取第三预训练模型;使用破坏后的第一双语平行语料库中的语料数据和原第一双语平行语料库中第一语言的语料数据训练第三预训练模型,获取第四预训练模型;使用破坏后的第一双语平行语料库中的语料数据和原第一双语平行语料库中第二语言的语料数据训练第四预训练模型,获取第五预训练模型;基于第五预训练模型对辅助翻译模型训练,使用训练的辅助翻译模型对待翻译文本翻译,获取待翻译文本的译文。本发明实现提高预训练模型的适用性。

Description

基于预训练模型的机器翻译方法及系统
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于预训练模型的机器翻译方法及系统。
背景技术
现有的NLP(Natural Language Processing,自然语言处理)模型包含的参数可以达到上百万。因此,训练出具有良好性能的NLP模型需要大量的训练样本和标签数据。通常,采用人工对训练样本进行标注。因此,获取大量的标签数据,需要较高的人工成本。
在此背景下,预训练加精调的模式广泛应用于NLP模型训练。首先利用成本较低且容易获取的无标签数据基于自训练方法训练一个预训练模型。通过这种方式,预训练模型可以学习到语言学的通用知识。因此,针对不同的下游任务,可以利用其相关的标签数据对其相关的参数进行精调,使得训练的NLP模型具有良好性能。
现有技术中对NLP模型进行训练时,搜集大量的单语言语料,再利用这些语料对BERT(Bidirectional Encoder Representations from Transformers,双向编码器表示的翻译器)、GPT(Generative Pre-Training,生成式预训练)和XLNET(排列语言模型)等预训练模型进行训练,然后再根据下游任务对预训练模型进行微调。这种方法利用单语言语料对模型进行预训练,导致预训练模型只适用于对单一语言数据进行处理,适用性差。
发明内容
本发明提供一种基于预训练模型的机器翻译方法及系统,用以解决现有技术中预训练模型只适用于对单一语言数据进行处理的模型,适用性差的缺陷,实现提高预训练模型的适用性。
本发明提供一种基于预训练模型的机器翻译方法,包括:
对原第一语言语料库中的部分语料数据进行破坏,将破坏后的第一语言语料库中的语料数据作为第一样本,将所述第一样本对应的所述原第一语言语料库中的语料数据作为第一样本标签,对第一预训练模型进行预训练,获取第二预训练模型;
对原第二语言语料库中的部分语料数据进行破坏,将破坏后的第二语言语料库中的语料数据作为第二样本,将所述第二样本对应的所述原第二语言语料库中的语料数据作为第二样本标签,对所述第二预训练模型进行预训练,获取第三预训练模型;
对原第一双语平行语料库中第一语言的部分语料数据进行破坏,将破坏后的第一双语平行语料库中第一语言和第二语言的语料数据作为第三样本,将所述第三样本对应的所述原第一双语平行语料库中第一语言的语料数据作为第三样本标签,对所述第三预训练模型进行预训练,获取第四预训练模型;
对所述原第一双语平行语料库中第二语言的部分语料数据进行破坏,将破坏后的第一双语平行语料库中第一语言和第二语言的语料数据作为第四样本,将所述第四样本对应的所述原第一双语平行语料库中第二语言的语料数据作为第四样本标签,对所述第四预训练模型进行预训练,获取第五预训练模型;
基于所述第五预训练模型对辅助翻译模型进行训练,使用训练后的所述辅助翻译模型对所述第一语言或第二语言的待翻译文本进行翻译,获取所述待翻译文本的译文。
根据本发明提供的一种基于预训练模型的机器翻译方法,所述将破坏后的第一语言语料库中的语料数据作为第一样本,将所述第一样本对应的所述原第一语言语料库中的语料数据作为第一样本标签,对第一预训练模型进行预训练,获取第二预训练模型,包括:
在所述破坏后的第一语言语料库中每条语料数据的起始位置添加第一语言标签;
将所述破坏后的第一语言语料库中添加第一语言标签的语料数据作为所述第一样本,将所述第一样本对应的原第一语言语料库中的语料数据作为所述第一样本标签,对所述第一预训练模型进行预训练,获取所述第二预训练模型。
根据本发明提供的一种基于预训练模型的机器翻译方法,所述辅助翻译模型为APE模型、Auto Suggest模型和QE模型。
根据本发明提供的一种基于预训练模型的机器翻译方法,所述基于所述第五预训练模型对辅助翻译模型进行训练,包括:
当所述辅助翻译模型为所述APE模型时,使用所述第五预训练模型的参数对所述APE模型的参数进行初始化;
将原第二双语平行语料库中部分第一语言原文和基于机器翻译模型预先获取的所述部分第一语言原文的译文作为第五样本,将所述原第二双语平行语料库中人工翻译的所述部分第一语言原文的译文作为第五样本标签,对初始化后的APE模型进行训练;其中,所述第一语言原文的译文为所述第二语言;
将所述原第二双语平行语料库中部分第二语言原文和基于机器翻译模型预先获取的所述部分第二语言原文的译文作为第六样本,将所述原第二双语平行语料库中人工翻译的所述部分第二语言原文的译文作为第六样本标签,对训练后的APE模型进行训练;其中,所述第二语言原文的译文为所述第一语言。
根据本发明提供的一种基于预训练模型的机器翻译方法,所述基于所述第五预训练模型对辅助翻译模型进行训练,包括:
当所述辅助翻译模型为所述Auto Suggest模型时,使用所述第五预训练模型的参数对所述Auto Suggest模型的参数进行初始化;
将原第二双语平行语料库中人工翻译的部分第一语言原文的译文中任一位置之前的部分作为第一译文前缀;其中,所述第一语言原文的译文为所述第二语言;
将所述原第二双语平行语料库中所述部分第一语言原文和所述第一译文前缀作为第七样本,将所述人工翻译的所述部分第一语言原文的译文作为第七样本标签,对初始化后的Auto Suggest模型进行训练;
将所述原第二双语平行语料库中人工翻译的部分第二语言原文的译文中任一位置之前的部分作为第二译文前缀;其中,所述第二语言原文的译文为所述第一语言;
将所述原第二双语平行语料库中所述部分第二语言原文和所述第二译文前缀作为第八样本,将所述人工翻译的所述部分第二语言原文的译文作为第八样本标签,对训练后的Auto Suggest模型进行训练。
根据本发明提供的一种基于预训练模型的机器翻译方法,所述基于所述第五预训练模型对辅助翻译模型进行训练,包括:
当所述辅助翻译模型为所述QE模型,使用所述第五预训练模型的参数对所述QE模型的参数进行初始化;
将原第二双语平行语料库中部分第一语言原文和所述部分第一语言原文的译文作为第九样本,将所述部分第一语言原文的译文的质量评分作为第九样本标签,对初始化后的QE模型进行训练;其中,每个第一语言原文的译文为人工翻译的译文或基于机器翻译模型预先获取的译文;其中,所述第一语言原文的译文为所述第二语言;
将所述原第二双语平行语料库中部分第二语言原文和所述部分第二语言原文的译文作为第十样本,将所述部分第二语言原文的译文的质量评分作为第十样本标签,对训练后的QE模型进行训练;其中,每个第二语言原文的译文为人工翻译的译文或基于机器翻译模型预先获取的译文;其中,所述第二语言原文的译文为所述第一语言。
根据本发明提供的一种基于预训练模型的机器翻译方法,所述将破坏后的第一语言语料库中的语料数据作为第一样本,将所述第一样本对应的原第一语言语料库中的语料数据作为第一样本标签,对第一预训练模型进行预训练,获取第二预训练模型,包括:
对所述破坏后的第一语言语料库中的语料数据进行分词处理;
基于Skip-Gram算法将破坏后的第一语言语料库中语料数据的词转换为词向量;
将所述破坏后的第一语言语料库中语料数据的词的词向量作为所述第一样本,将所述第一样本对应的原第一语言语料库中的语料数据作为所述第一样本标签,对所述第一预训练模型进行预训练,获取所述第二预训练模型。
本发明还一种基于预训练模型的机器翻译系统,包括:
第一预训练模块,用于对原第一语言语料库中的部分语料数据进行破坏,将破坏后的第一语言语料库中的语料数据作为第一样本,将所述第一样本对应的所述原第一语言语料库中的语料数据作为第一样本标签,对第一预训练模型进行预训练,获取第二预训练模型;
第二预训练模块,用于对原第二语言语料库中的部分语料数据进行破坏,将破坏后的第二语言语料库中的语料数据作为第二样本,将所述第二样本对应的所述原第二语言语料库中的语料数据作为第二样本标签,对所述第二预训练模型进行预训练,获取第三预训练模型;
第三预训练模块,用于对原第一双语平行语料库中第一语言的部分语料数据进行破坏,将破坏后的第一双语平行语料库中第一语言和第二语言的语料数据作为第三样本,将所述第三样本对应的所述原第一双语平行语料库中第一语言的语料数据作为第三样本标签,对所述第三预训练模型进行预训练,获取第四预训练模型;
第四预训练模块,用于对所述原第一双语平行语料库中第二语言的部分语料数据进行破坏,将破坏后的第一双语平行语料库中第一语言和第二语言的语料数据作为第四样本,将所述第四样本对应的所述原第一双语平行语料库中第二语言的语料数据作为第四样本标签,对所述第四预训练模型进行预训练,获取第五预训练模型;
翻译模块,用于基于所述第五预训练模型对辅助翻译模型进行训练,使用训练后的所述辅助翻译模型对所述第一语言或第二语言的待翻译文本进行翻译,获取所述待翻译文本的译文。
本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述基于预训练模型的机器翻译方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述基于预训练模型的机器翻译方法的步骤。
本发明提供的基于预训练模型的机器翻译方法及系统,通过采用第一语言语料库的语料数据对第一预训练模型进行预训练,获取第二预训练模型,采用第二语言语料库中的语料数据对第二预训练模型进行预训练,获取第二预训练模型,采用原第一双语平行语料库中第一语言的语料数据和破坏后的第一双语平行语料库中第一语言和第二语言的语料数据对第三预训练模型进行预训练,获取第四预训练模型,采用原第一双语平行语料库中第二语言的语料数据和破坏后的第一双语平行语料库中第一语言和第二语言的语料数据对第四预训练模型进行预训练,获取第五预训练模型,使得第五预训练模型既可以对第一语言的翻译任务进行处理,也可以对第二语言的翻译任务进行处理,不仅可以提高预处理模型的适用性,还可以基于第五预训练模型对辅助翻译模型进行训练,加快辅助翻译模型的收敛速度,提高辅助翻译模型的鲁棒性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的基于预训练模型的机器翻译方法的流程示意图;
图2是本发明提供的基于预训练模型的机器翻译方法中预训练模型的结构示意图之一;
图3是本发明提供的基于预训练模型的机器翻译方法中预训练模型的结构示意图之二;
图4是本发明提供的基于预训练模型的机器翻译方法中预训练模型的结构示意图之三;
图5是本发明提供的基于预训练模型的机器翻译方法中预训练模型的结构示意图之四;
图6是本发明提供的基于预训练模型的机器翻译方法中APE模型的结构示意图之一;
图7是本发明提供的基于预训练模型的机器翻译方法中APE模型的结构示意图之二;
图8是本发明提供的基于预训练模型的机器翻译方法中Auto Suggest模型的结构示意图之一;
图9是本发明提供的基于预训练模型的机器翻译方法中Auto Suggest模型的结构示意图之二;
图10是本发明提供的基于预训练模型的机器翻译方法中QE模型的结构示意图之一;
图11是本发明提供的基于预训练模型的机器翻译方法中QE模型的结构示意图之二;
图12是本发明提供的基于预训练模型的机器翻译系统的结构示意图;
图13是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1描述本发明的基于预训练模型的机器翻译方法,包括:步骤101,对原第一语言语料库中的部分语料数据进行破坏,将破坏后的第一语言语料库中的语料数据作为第一样本,将所述第一样本对应的所述原第一语言语料库中的语料数据作为第一样本标签,对第一预训练模型进行预训练,获取第二预训练模型;
其中,第一语言可以是中文或英文等,本实施例不限于第一语言的类型。原第一语言语料库可以是根据维基百科或新闻中第一语言的语料数据构建获取。部分语料可以是原第一语言语料库中20%的语料数据,本实施例不限于这种比例。预训练模型可以是Transformer模型,本实施例不限于预训练模型的类型,该Transformer模型既可以将第一语言文本翻译成第二语言文本,也可以将第二语言文本翻译成第一语言文本。
对第一语言语料库中任一语料数据进行破坏时,可以将该语料数据的任一位置的词进行随机删除、随时排列、随机替换、转移位置和保持不变中的一种或多种。其中,对该语料数据中任一位置的词进行随机替换时,可以是利用该语料数据中其他位置的词替换该位置的词。对该语料数据中任一位置的词进行随机删除时,可以对该位置的词进行随机删除,采用空格替代。破坏后的第一语言语料库中包含部分破坏的语料数据和部分未破坏的语料数据。通过这种方式可以使得第一样本中包含丰富的语料数据。如表1所示为破坏前后的语料数据的一种实例。
表1破坏前后的语料数据
原语料 <2zh>今/天/天/气/真/好。
破坏1---随机删除 <2zh>今/天/天/DEL/DEL/好。
破坏2---随机排列 <2zh>今/天/天/真/气/好。
破坏3---随机替换 <2zh>今/天/天/今/天/好。
破坏4---转移位置 <2zh>今/气/真/天/天/好。
破坏5---保持不变 <2zh>今/天/天/气/真/好。
如图2所示,若第一语言为中文,则可以将破坏后的中文语料库中的语料数据作为第一样本对第一预训练模型进行预训练,直到满足预设终止条件。可以将预训练后的预训练模型作为第二预训练模型。第二预训练模型可以对该破坏后的中文语料数据进行编辑,使得编辑后的该破坏后的中文语料数据尽可能地接近原始的中文语料数据。
步骤102,对原第二语言语料库中的部分语料数据进行破坏,将破坏后的第二语言语料库中的语料数据作为第二样本,将所述第二样本对应的所述原第二语言语料库中的语料数据作为第二样本标签,对所述第二预训练模型进行预训练,获取第三预训练模型;
其中,第二语言可以是英文或中文等,第一语言与第二语言为不同的语言类型。部分语料数据可以是原第二语言语料库中20%的语料数据,则破坏后的第二语言语料库中包含20%的破坏的语料数据和80%的原始语料数据。
如图3所示,若第二语言为英文,则可以从英文维基百科和英文新闻中下载语料数据,形成英文语料数据库。可以对英文语料数据库中的部分语料数据进行破坏,以使破坏后的英文语料数据库中既含有部分破坏后的语料数据和未破坏的语料数据。可以根据破坏后的英文语料数据库和原始英文数据库中的语料数据对第二预训练模型进行预训练,并将训练后的第二预训练模型作为第三预训练模型。第二预训练模型可以对任一破坏后的英文语料数据进行编辑,使得编辑后的该破坏后的英文语料数据尽可能地接近原始英文语料数据。
步骤103,对原第一双语平行语料库中第一语言的部分语料数据进行破坏,将破坏后的第一双语平行语料库中第一语言和第二语言的语料数据作为第三样本,将所述第三样本对应的所述原第一双语平行语料库中第一语言的语料数据作为第三样本标签,对所述第三预训练模型进行预训练,获取第四预训练模型;
其中,双语平行语料库中包含第一语言的语料数据和第二语言的语料数据,第一语言的语料数据和第二语言的语料数据互为译文。例如,中英双语平行语料库中包含中文语料数据和英文语料数据,其中,中文语料数据是英文语料数据的译文,英文语料数据是中文语料数据的译文。第一双语平行语料库中的语料数据可以从网络上下载获取,本实施例不限于这种获取方式。
若第一语言为中文,第二语言为英文,可以从第一双语平行语料库中随机选择10%的语料数据,并对选择的语料数据中的中文语料数据进行破坏,可以形成三元组(破坏的中文语料数据,原始英文语料数据,原始中文语料数据)。其中,三元组中前两个元素为第三样本,即破坏的英文语料数据和原始中文语料数据,三元组中最后一个元素,即,原中文语料数据为第三样本标签。此外,也可以从第一双语平行语料库中再次随机选择10%的语料数据生成三元组(原始中文语料数据,原始英文语料数据,原始中文语料数据)。本实施例不限于双语语料数据的选择比例。如图4所示,可以将三元组中破坏的中文语料数据或原中文语料数据,以及原始英文语料数据输入第三预训练模型,对第三预训练模型进行预训练,将预训练后的第三预训练模型作为第四预训练模型。
步骤104,对所述原第一双语平行语料库中第二语言的部分语料数据进行破坏,将破坏后的第一双语平行语料库中第一语言和第二语言的语料数据作为第四样本,将所述第四样本对应的所述原第一双语平行语料库中第二语言的语料数据作为第四样本标签,对所述第四预训练模型进行预训练,获取第五预训练模型;
具体地,若第一语言为中文和第二语言为英文时,可以从第一双语平行语料库中随机选择20%的双语语料数据,并对选择的双语语料数据中的原始英文语料数据进行破坏,形成三元组(破坏的英文语料数据,原中文语料,原始英文语料)。其中,三元组中前两元语料数据为第四样本,即破坏的英文语料数据和原中文语料,三元组中最后一个元素,即,原始英文语料为第四样本标签。此外,也可以从第一双语平行语料库中再次选择10%的双语语料数据生成三元组(原始英文语料数据,原中文语料数据,原始英文语料数据)。本实施例不限于双语语料数据的选择比例。如图5所示,可以将三元组中破坏的英文语料数据或原始英文语料数据,以及原始中文语料数据输入第四预训练模型,对第四预训练模型进行预训练,将预训练后的第四预训练模型作为第五预训练模型。
步骤105,基于所述第五预训练模型对辅助翻译模型进行训练,使用训练后的所述辅助翻译模型对所述第一语言或第二语言的待翻译文本进行翻译,获取所述待翻译文本的译文。
其中,获取第五预训练模型后,可以使用第五预训练模型的参数对辅助翻译模型的参数进行初始化,并采用辅助翻译模型的训练样本和标签对辅助翻译模型进行训练。训练后的辅助翻译模型既可以将第一语言的待翻译文本翻译成第二语言的译文,也可以将第二语言的待翻译文本翻译成第一语言的译文。此外,辅助翻译模型可以为多种类型,第五预训练模型的参数可以迁移到多种类型的辅助翻译中,以使各类型的辅助翻译模型可以对机器翻译的结果进行各种类型的辅助翻译,使得翻译结果更加准确。本实施例通过对预训练模型进行预训练,可以得到通用性较强的底层参数,并基于预训练模型对辅助翻译模型进行训练,可以使得辅助翻译模型具有良好的性能。
本实施例采用第一语言语料库的语料数据对第一预训练模型进行预训练,获取第二预训练模型,采用第二语言语料库中的语料数据对第二预训练模型进行预训练,获取第二预训练模型,采用原第一双语平行语料库中第一语言的语料数据和破坏后的第一双语平行语料库中第一语言和第二语言的语料数据对第三预训练模型进行预训练,获取第四预训练模型,采用原第一双语平行语料库中第二语言的语料数据和破坏后的第一双语平行语料库中第一语言和第二语言的语料数据对第四预训练模型进行预训练,获取第五预训练模型,使得第五预训练模型既可以对第一语言的翻译任务进行处理,也可以对第二语言的翻译任务进行处理,不仅可以提高预处理模型的适用性,还可以基于第五预训练模型对辅助翻译模型进行训练,加快辅助翻译模型的收敛速度,提高辅助翻译模型的鲁棒性。
在上述实施例的基础上,本实施例中所述将破坏后的第一语言语料库中的语料数据作为第一样本,将所述第一样本对应的所述原第一语言语料库中的语料数据作为第一样本标签,对第一预训练模型进行预训练,获取第二预训练模型,包括:在所述破坏后的第一语言语料库中每条语料数据的起始位置添加第一语言标签;将所述破坏后的第一语言语料库中添加第一语言标签的语料数据作为所述第一样本,将所述第一样本对应的原第一语言语料库中的语料数据作为所述第一样本标签,对所述第一预训练模型进行预训练,获取所述第二预训练模型。
具体地,可以在每条语料数据的起始位置添加语言标签表示每条语料数据对应的语言类型。语言标签可以是tag(自定义)标签,例如,一条语料数据为‘今天天气真好。’,该语料数据为中文语料数据,则可以在该条语料数据的起止位置加一个中文语言标签,转换为‘<2zh>今天天气真好’。一条语料数据为‘It’s a good day.’,则可以在该条语料数据的起止位置加一个英文语言标签,转换为‘<2en>It’s a good day.’。通过这种处理方式,在训练过程中,第一预训练模型可以识别到输入的语料数据的语言类型,从而进行特定的编码以及解码。这种在语料数据的起始位置加语言标签,并将添加标签的语料数据作为样本的方式也可以适用于对其他样本的处理。如,第二样本、第三样本和第四样本等。
在上述实施例的基础上,本实施例中所述辅助翻译模型为APE模型、Auto Suggest模型和QE模型。
其中,辅助翻译模型可以为多种类型,不同类型的辅助翻译模型可以执行不同的下游任务。APE(Automatic Post-Edit,自动化后编辑)模型可以用于根据原文和机器翻译的译文,对机器翻译的译文进行编辑,自动修改机器翻译的译文中的错误,以减少人工编辑的工作量。Auto Suggest(互动翻译)模型可以用于补全原文的译文中未翻译的部分。QE(Quality Estimate,质量评估)模型可以用于判断机器翻译后的译文的质量。其中,QE模型可以是对译文中的每个句子进行质量评估,本实施例不限于这种方式。
在对待翻译原文进行翻译时,可以使用QE模型分别对APE模型、Auto Suggest模型输出的待翻译原文的译文进行质量评估,并对评估结果进行比较,将质量评估结果最好的待翻译原文的译文作为待翻译原文最终的译文。还可以将APE模型和Auto Suggest模型输出的待翻译原文的译文进行融合,以同时达到对译文进行编辑和补全的效果。
在上述实施例的基础上,本实施例中所述基于所述第五预训练模型对辅助翻译模型进行训练,包括:当所述辅助翻译模型为所述APE模型时,使用所述第五预训练模型的参数对所述APE模型的参数进行初始化;将原第二双语平行语料库中部分第一语言原文和基于机器翻译模型预先获取的所述部分第一语言原文的译文作为第五样本,将所述原第二双语平行语料库中人工翻译的所述部分第一语言原文的译文作为第五样本标签,对初始化后的APE模型进行训练;其中,所述第一语言原文的译文为所述第二语言;将原第二双语平行语料库中部分第二语言原文和基于机器翻译模型预先获取的所述部分第二语言原文的译文作为第六样本,将所述原第二双语平行语料库中人工翻译的所述部分第二语言原文的译文作为第六样本标签,对训练后的APE模型进行训练;其中,所述第二语言原文的译文为所述第一语言。
其中,第二双语平行语料库中包括每条语料数据为一个三元组,可以是(第一语言原文,基于机器翻译模型预先获取的第一语言原文的译文,人工翻译的第一语言原文的译文)或(第二语言原文,基于机器翻译模型预先获取的第二语言原文的译文,人工翻译的第二语言原文的译文)。可以将原文为第一语言的语料数据构成的数据库称为Cz2e库,将原文为第二语言的语料数据构成的数据库称为Ce2z库。
可以将第五预训练模型的参数作为APE模型的初始参数。从Cz2e库中选择部分语料数据,可以是50%的语料数据,本实施例不限于这种比例。将选择的语料数据中的第一语言原文和基于机器翻译模型预先获取的第一语言原文的译文作为第五样本,将人工翻译的译文作为第五样本标签,对初始化后的APE模型进行精调,直到满足预设终止条件,获取训练后的APE模型。如图6所示为第一语言原文为中文,译文为英文时,对APE模型训练的过程。
还可以从Ce2z库中选择部分语料数据,可以是50%的语料数据,本实施例不限于这种比例。将选择的语料数据中第二语言原文和基于机器翻译模型预先获取的第二语言原文的译文作为第六样本,将人工翻译的第二语言原文的译文作为第六样本标签,对训练后的APE模型进行精调,直到满足预设终止条件,获取最终的APE模型。如图7所示为第二语言原文为英文,译文为中文时,对APE模型训练的过程。通过这种方式不仅可以使得APE模型具有更好的性能,且可以提高APE模型训练的效率。
在上述实施例的基础上,本实施例中所述基于所述第五预训练模型对辅助翻译模型进行训练,包括:所述基于所述第五预训练模型对辅助翻译模型进行训练,包括:当所述辅助翻译模型为所述Auto Suggest模型时,使用所述第五预训练模型的参数对所述AutoSuggest模型的参数进行初始化;将原第二双语平行语料库中人工翻译的部分第一语言原文的译文中任一位置之前的部分作为第一译文前缀;其中,所述第一语言原文的译文为所述第二语言;将所述原第二双语平行语料库中所述部分第一语言原文和所述第一译文前缀作为第七样本,将所述人工翻译的所述部分第一语言原文的译文作为第七样本标签,对初始化后的Auto Suggest模型进行训练;将所述原第二双语平行语料库中人工翻译的部分第二语言原文的译文中任一位置之前的部分作为第二译文前缀;其中,所述第二语言原文的译文为所述第一语言;将所述原第二双语平行语料库中所述部分第二语言原文和所述第二译文前缀作为第八样本,将所述人工翻译的所述部分第二语言原文的译文作为第八样本标签,对训练后的Auto Suggest模型进行训练。
具体地,可以将第五预训练模型的参数作为Auto Suggest模型的初始参数。从Cz2e库中选择部分语料数据,可以是50%的语料数据,本实施例不限于这种比例。对于选择的每条语料数据,将该条语料数据中人工翻译的第一语言原文的译文中任一位置节点之后的部分删除,获取第一译文前缀。删除后的每条语料数据为三元组(第一语言原文,第一译文前缀,人工翻译的第一语言原文)。可以将第一语言原文和第一译文前缀作为第七样本,将人工翻译的第一语言原文作为第七样本标签,对初始化后的Auto Suggest模型进行精调,获取训练后的Auto Suggest模型。如图8所示为第一语言原文为中文,译文为英文时,对Auto Suggest模型训练的过程。
还可以从Ce2z库中选择部分语料数据,可以是50%的语料数据,本实施例不限于这种比例。同理也可以根据上述方式对每条语料中的人工翻译的第二语言原文的译文进行部分删除,删除后的每条语料数据为三元组(第二语言原文,第二译文前缀,人工翻译的第二语言原文)。可以使用删除后的语料数据,对训练后的Auto Suggest模型进行精调,获取最终的Auto Suggest模型。如图9所示为第二语言原文为英文,译文为中文时,对AutoSuggest模型训练的过程。通过这种方式对Auto Suggest模型进行训练,可以使得最终的Auto Suggest模型具有良好的性能。
在上述实施例的基础上,本实施例中所述基于所述第五预训练模型对辅助翻译模型进行训练,包括:当所述辅助翻译模型为所述QE模型,使用所述第五预训练模型的参数对所述QE模型的参数进行初始化;将原第二双语平行语料库中部分第一语言原文和所述部分第一语言原文的译文作为第九样本,将所述部分第一语言原文的译文的质量评分作为第九样本标签,对初始化后的QE模型进行训练;其中,每个第一语言原文的译文为人工翻译的译文或基于机器翻译模型预先获取的译文;其中,所述第一语言原文的译文为所述第二语言;将所述原第二双语平行语料库中部分第二语言原文和所述部分第二语言原文的译文作为第十样本,将所述部分第二语言原文的译文的质量评分作为第十样本标签,对训练后的QE模型进行训练;其中,每个第二语言原文的译文为人工翻译的译文或基于机器翻译模型预先获取的译文;其中,所述第二语言原文的译文为所述第一语言。
其中,译文的质量评分可以通过将多个原文的译文众包给不同的译员进行质量评分获取。其中,质量评分可以是五个等级,即1-5分。本实施例不限于质量评分的形式。可以使用第五预训练模型的参数对QE模型中除softmax层之外的其他部分的参数进行初始化。从Cz2e库中选择部分语料数据,可以是20%的语料数据,本实施例不限于这种比例。将选择的每条语料数据中基于机器翻译模型预先获取的原文的译文或人工翻译的原文的译文进行随机删除,只保留其中一种译文。并结合该质量评分形成新语料数据,该新语料数据为三元组,即(第一语言原文,第一语言原文的译文,第一语言原文的译文的质量评分)。可以使用新语料数据对初始化后的QE模型进行精调,获取训练后的QE模型。如图10所示为第一语言原文为中文,译文为英文时,对QE模型训练的过程。
还可以从Ce2z库中选择部分语料数据,可以是20%的语料数据,本实施例不限于这种比例。采用上述方法根据选择的语料数据生成新语料数据为(第二语言原文,第二语言原文的译文,第二语言原文的译文的质量评分)。使用新语料数据对训练后的QE模型进行精调,获取最终的QE模型。如图11所示为第二语言原文为英文,译文为中文时,对QE模型训练的过程。通过这种方式对QE模型进行训练,可以使得最终的QE模型具有良好的性能。
在上述各实施例的基础上,本实施例中所述将破坏后的第一语言语料库中的语料数据作为第一样本,将所述第一样本对应的原第一语言语料库中的语料数据作为第一样本标签,对第一预训练模型进行预训练,获取第二预训练模型,包括:对所述破坏后的第一语言语料库中的语料数据进行分词处理;基于Skip-Gram算法将破坏后的第一语言语料库中语料数据的词转换为词向量;将所述破坏后的第一语言语料库中语料数据的词的词向量作为所述第一样本,将所述第一样本对应的原第一语言语料库中的语料数据作为所述第一样本标签,对所述第一预训练模型进行预训练,获取所述第二预训练模型。
具体地,对于任一语料数据,可以采用分词工具对该语料数据进行分词处理。对不同语言的语料数据进行分词处理时,采用的分词处理工具可以相同也可以不同。例如,对于英文语料数据,可以采用spacy工具进行分词。其中,spacy工具是一个自然语言处理工具包。对于中文语料数据,可以采用规则法以字进行分词。分词处理后,可以将语料数据中每个汉字、连续的数字或英文字母、标点符号单独作为词例进行分开。
对第一预训练模型进行训练之前,可以对样本进行预处理。可以是基于Skip-Gram算法将语料数据中的词转换为词向量。其中,Skip-Gram算法是利用当前词语预测其上下文的词,可以将每个词语表示为低维的实数域取值的向量,这种词向量可以将词的语义特征也编码进向量中。Skip-Gram算法中的参数可以根据实际情况设置,如,词向量的维度为300,上下文窗口为5。同理,对其他模型进行训练之前,也可以采用这种方法对样本进行预处理。如,第二预训练、第三预训练、第四预训练、第五预训练、APE模型、Auto Suggest模型和QE模型。
下面对本发明提供的基于预训练模型的机器翻译系统进行描述,下文描述的基于预训练模型的机器翻译系统与上文描述的基于预训练模型的机器翻译方法可相互对应参照。
如图12所示,本实施例提供一种基于预训练模型的机器翻译系统,该系统包括第一预训练模块1201、第二预训练模块1202、第三预训练模块1203、第四预训练模块1204和翻译模块1205,其中:
第一预训练模块1201用于对原第一语言语料库中的部分语料数据进行破坏,将破坏后的第一语言语料库中的语料数据作为第一样本,将所述第一样本对应的所述原第一语言语料库中的语料数据作为第一样本标签,对第一预训练模型进行预训练,获取第二预训练模型;
对第一语言语料库中任一语料数据进行破坏时,可以将该语料数据的任一位置的词进行随机删除、随时排列、随机替换、转移位置和保持不变中的一种或多种。其中,对该语料数据中任一位置的词进行随机替换时,可以是利用该语料数据中其他位置的词替换该位置的词。对该语料数据中任一位置的词进行随机删除时,可以对该位置的词进行随机删除,采用空格替代。破坏后的第一语言语料库中包含部分破坏的语料数据和部分未破坏的语料数据。通过这种方式可以使得第一样本中包含丰富的语料数据。
如图2所示,若第一语言为中文,则可以将破坏后的中文语料库中的语料数据作为第一样本对第一预训练模型进行预训练,直到满足预设终止条件。可以将预训练后的预训练模型作为第二预训练模型。第二预训练模型可以对该破坏后的中文语料数据进行编辑,使得编辑后的该破坏后的中文语料数据尽可能地接近原始的中文语料数据。
第二预训练模块1202用于对原第二语言语料库中的部分语料数据进行破坏,将破坏后的第二语言语料库中的语料数据作为第二样本,将所述第二样本对应的所述原第二语言语料库中的语料数据作为第二样本标签,对所述第二预训练模型进行预训练,获取第三预训练模型;
如图3所示,若第二语言为英文,则可以从英文维基百科和英文新闻中下载语料数据,形成英文语料数据库。可以对英文语料数据库中的部分语料数据进行破坏,以使破坏后的英文语料数据库中既含有部分破坏后的语料数据和未破坏的语料数据。可以根据破坏后的英文语料数据库和原始英文数据库中的语料数据对第二预训练模型进行预训练,并将训练后的第二预训练模型作为第三预训练模型。第二预训练模型可以对任一破坏后的英文语料数据进行编辑,使得编辑后的该破坏后的英文语料数据尽可能地接近原始英文语料数据。
第三预训练模块1203用于对原第一双语平行语料库中第一语言的部分语料数据进行破坏,将破坏后的第一双语平行语料库中第一语言和第二语言的语料数据作为第三样本,将所述第三样本对应的所述原第一双语平行语料库中第一语言的语料数据作为第三样本标签,对所述第三预训练模型进行预训练,获取第四预训练模型;
若第一语言为中文,第二语言为英文,可以从第一双语平行语料库中随机选择10%的语料数据,并对选择的语料数据中的中文语料数据进行破坏,可以形成三元组(破坏的中文语料数据,原始英文语料数据,原始中文语料数据)。其中,三元组中前两个元素为第三样本,即破坏的英文语料数据和原始中文语料数据,三元组中最后一个元素,即,原中文语料数据为第三样本标签。此外,也可以从第一双语平行语料库中再次随机选择10%的语料数据生成三元组(原始中文语料数据,原始英文语料数据,原始中文语料数据)。本实施例不限于双语语料数据的选择比例。如图4所示,可以将三元组中破坏的中文语料数据或原中文语料数据,以及原始英文语料数据输入第三预训练模型,对第三预训练模型进行预训练,将预训练后的第三预训练模型作为第四预训练模型。
第四预训练模块1204用于对所述原第一双语平行语料库中第二语言的部分语料数据进行破坏,将破坏后的第一双语平行语料库中第一语言和第二语言的语料数据作为第四样本,将所述第四样本对应的所述原第一双语平行语料库中第二语言的语料数据作为第四样本标签,对所述第四预训练模型进行预训练,获取第五预训练模型;
具体地,若第一语言为中文和第二语言为英文时,可以从第一双语平行语料库中随机选择20%的双语语料数据,并对选择的双语语料数据中的原始英文语料数据进行破坏,形成三元组(破坏的英文语料数据,原中文语料,原始英文语料)。其中,三元组中前两元语料数据为第四样本,即破坏的英文语料数据和原中文语料,三元组中最后一个元素,即,原始英文语料为第四样本标签。此外,也可以从第一双语平行语料库中再次选择10%的双语语料数据生成三元组(原始英文语料数据,原中文语料数据,原始英文语料数据)。本实施例不限于双语语料数据的选择比例。如图5所示,可以将三元组中破坏的英文语料数据或原始英文语料数据,以及原始中文语料数据输入第四预训练模型,对第四预训练模型进行预训练,将预训练后的第四预训练模型作为第五预训练模型。
翻译模块1205用于基于所述第五预训练模型对辅助翻译模型进行训练,使用训练后的所述辅助翻译模型对所述第一语言或第二语言的待翻译文本进行翻译,获取所述待翻译文本的译文。
其中,获取第五预训练模型后,可以使用第五预训练模型的参数对辅助翻译模型的参数进行初始化,并采用辅助翻译模型的训练样本和标签对辅助翻译模型进行训练。训练后的辅助翻译模型既可以将第一语言的待翻译文本翻译成第二语言的译文,也可以将第二语言的待翻译文本翻译成第一语言的译文。此外,辅助翻译模型可以为多种类型,第五预训练模型的参数可以迁移到多种类型的辅助翻译中,以使各类型的辅助翻译模型可以对机器翻译的结果进行各种类型的辅助翻译,使得翻译结果更加准确。本实施例通过对预训练模型进行预训练,可以得到通用性较强的底层参数,并基于预训练模型对辅助翻译模型进行训练,可以使得辅助翻译模型具有良好的性能。
本实施例采用第一语言语料库的语料数据对第一预训练模型进行预训练,获取第二预训练模型,采用第二语言语料库中的语料数据对第二预训练模型进行预训练,获取第二预训练模型,采用原第一双语平行语料库中第一语言的语料数据和破坏后的第一双语平行语料库中第一语言和第二语言的语料数据对第三预训练模型进行预训练,获取第四预训练模型,采用原第一双语平行语料库中第二语言的语料数据和破坏后的第一双语平行语料库中第一语言和第二语言的语料数据对第四预训练模型进行预训练,获取第五预训练模型,使得第五预训练模型既可以对第一语言的翻译任务进行处理,也可以对第二语言的翻译任务进行处理,不仅可以提高预处理模型的适用性,还可以基于第五预训练模型对辅助翻译模型进行训练,加快辅助翻译模型的收敛速度,提高辅助翻译模型的鲁棒性。
图13示例了一种电子设备的实体结构示意图,如图13所示,该电子设备可以包括:处理器(processor)1301、通信接口(Communications Interface)1302、存储器(memory)1303和通信总线1304,其中,处理器1301,通信接口1302,存储器1303通过通信总线1304完成相互间的通信。处理器1301可以调用存储器1303中的逻辑指令,以执行基于预训练模型的机器翻译方法,该方法包括:对原第一语言语料库中的部分语料数据进行破坏,将破坏后的第一语言语料库中的语料数据作为第一样本,将所述第一样本对应的所述原第一语言语料库中的语料数据作为第一样本标签,对第一预训练模型进行预训练,获取第二预训练模型;对原第二语言语料库中的部分语料数据进行破坏,将破坏后的第二语言语料库中的语料数据作为第二样本,将所述第二样本对应的所述原第二语言语料库中的语料数据作为第二样本标签,对所述第二预训练模型进行预训练,获取第三预训练模型;对原第一双语平行语料库中第一语言的部分语料数据进行破坏,将破坏后的第一双语平行语料库中第一语言和第二语言的语料数据作为第三样本,将所述第三样本对应的所述原第一双语平行语料库中第一语言的语料数据作为第三样本标签,对所述第三预训练模型进行预训练,获取第四预训练模型;对所述原第一双语平行语料库中第二语言的部分语料数据进行破坏,将破坏后的第一双语平行语料库中第一语言和第二语言的语料数据作为第四样本,将所述第四样本对应的所述原第一双语平行语料库中第二语言的语料数据作为第四样本标签,对所述第四预训练模型进行预训练,获取第五预训练模型;基于所述第五预训练模型对辅助翻译模型进行训练,使用训练后的所述辅助翻译模型对所述第一语言或第二语言的待翻译文本进行翻译,获取所述待翻译文本的译文。
此外,上述的存储器1303中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的基于预训练模型的机器翻译方法,该方法包括:对原第一语言语料库中的部分语料数据进行破坏,将破坏后的第一语言语料库中的语料数据作为第一样本,将所述第一样本对应的所述原第一语言语料库中的语料数据作为第一样本标签,对第一预训练模型进行预训练,获取第二预训练模型;对原第二语言语料库中的部分语料数据进行破坏,将破坏后的第二语言语料库中的语料数据作为第二样本,将所述第二样本对应的所述原第二语言语料库中的语料数据作为第二样本标签,对所述第二预训练模型进行预训练,获取第三预训练模型;对原第一双语平行语料库中第一语言的部分语料数据进行破坏,将破坏后的第一双语平行语料库中第一语言和第二语言的语料数据作为第三样本,将所述第三样本对应的所述原第一双语平行语料库中第一语言的语料数据作为第三样本标签,对所述第三预训练模型进行预训练,获取第四预训练模型;对所述原第一双语平行语料库中第二语言的部分语料数据进行破坏,将破坏后的第一双语平行语料库中第一语言和第二语言的语料数据作为第四样本,将所述第四样本对应的所述原第一双语平行语料库中第二语言的语料数据作为第四样本标签,对所述第四预训练模型进行预训练,获取第五预训练模型;基于所述第五预训练模型对辅助翻译模型进行训练,使用训练后的所述辅助翻译模型对所述第一语言或第二语言的待翻译文本进行翻译,获取所述待翻译文本的译文。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的基于预训练模型的机器翻译方法,该方法包括:对原第一语言语料库中的部分语料数据进行破坏,将破坏后的第一语言语料库中的语料数据作为第一样本,将所述第一样本对应的所述原第一语言语料库中的语料数据作为第一样本标签,对第一预训练模型进行预训练,获取第二预训练模型;对原第二语言语料库中的部分语料数据进行破坏,将破坏后的第二语言语料库中的语料数据作为第二样本,将所述第二样本对应的所述原第二语言语料库中的语料数据作为第二样本标签,对所述第二预训练模型进行预训练,获取第三预训练模型;对原第一双语平行语料库中第一语言的部分语料数据进行破坏,将破坏后的第一双语平行语料库中第一语言和第二语言的语料数据作为第三样本,将所述第三样本对应的所述原第一双语平行语料库中第一语言的语料数据作为第三样本标签,对所述第三预训练模型进行预训练,获取第四预训练模型;对所述原第一双语平行语料库中第二语言的部分语料数据进行破坏,将破坏后的第一双语平行语料库中第一语言和第二语言的语料数据作为第四样本,将所述第四样本对应的所述原第一双语平行语料库中第二语言的语料数据作为第四样本标签,对所述第四预训练模型进行预训练,获取第五预训练模型;基于所述第五预训练模型对辅助翻译模型进行训练,使用训练后的所述辅助翻译模型对所述第一语言或第二语言的待翻译文本进行翻译,获取所述待翻译文本的译文。
以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于预训练模型的机器翻译方法,其特征在于,包括:
对原第一语言语料库中的部分语料数据进行破坏,将破坏后的第一语言语料库中的语料数据作为第一样本,将所述第一样本对应的所述原第一语言语料库中的语料数据作为第一样本标签,对第一预训练模型进行预训练,获取第二预训练模型;
对原第二语言语料库中的部分语料数据进行破坏,将破坏后的第二语言语料库中的语料数据作为第二样本,将所述第二样本对应的所述原第二语言语料库中的语料数据作为第二样本标签,对所述第二预训练模型进行预训练,获取第三预训练模型;
对原第一双语平行语料库中第一语言的部分语料数据进行破坏,将破坏后的第一双语平行语料库中第一语言和第二语言的语料数据作为第三样本,将所述第三样本对应的所述原第一双语平行语料库中第一语言的语料数据作为第三样本标签,对所述第三预训练模型进行预训练,获取第四预训练模型;
对所述原第一双语平行语料库中第二语言的部分语料数据进行破坏,将破坏后的第一双语平行语料库中第一语言和第二语言的语料数据作为第四样本,将所述第四样本对应的所述原第一双语平行语料库中第二语言的语料数据作为第四样本标签,对所述第四预训练模型进行预训练,获取第五预训练模型;
基于所述第五预训练模型对辅助翻译模型进行训练,使用训练后的所述辅助翻译模型对所述第一语言或第二语言的待翻译文本进行翻译,获取所述待翻译文本的译文。
2.根据权利要求1所述的基于预训练模型的机器翻译方法,其特征在于,所述将破坏后的第一语言语料库中的语料数据作为第一样本,将所述第一样本对应的所述原第一语言语料库中的语料数据作为第一样本标签,对第一预训练模型进行预训练,获取第二预训练模型,包括:
在所述破坏后的第一语言语料库中每条语料数据的起始位置添加第一语言标签;
将所述破坏后的第一语言语料库中添加第一语言标签的语料数据作为所述第一样本,将所述第一样本对应的原第一语言语料库中的语料数据作为所述第一样本标签,对所述第一预训练模型进行预训练,获取所述第二预训练模型。
3.根据权利要求1所述的基于预训练模型的机器翻译方法,其特征在于,所述辅助翻译模型为APE模型、Auto Suggest模型和QE模型。
4.根据权利要求3所述的基于预训练模型的机器翻译方法,其特征在于,所述基于所述第五预训练模型对辅助翻译模型进行训练,包括:
当所述辅助翻译模型为所述APE模型时,使用所述第五预训练模型的参数对所述APE模型的参数进行初始化;
将原第二双语平行语料库中部分第一语言原文和基于机器翻译模型预先获取的所述部分第一语言原文的译文作为第五样本,将所述原第二双语平行语料库中人工翻译的所述部分第一语言原文的译文作为第五样本标签,对初始化后的APE模型进行训练;其中,所述第一语言原文的译文为所述第二语言;
将所述原第二双语平行语料库中部分第二语言原文和基于机器翻译模型预先获取的所述部分第二语言原文的译文作为第六样本,将所述原第二双语平行语料库中人工翻译的所述部分第二语言原文的译文作为第六样本标签,对训练后的APE模型进行训练;其中,所述第二语言原文的译文为所述第一语言。
5.根据权利要求3所述的基于预训练模型的机器翻译方法,其特征在于,所述基于所述第五预训练模型对辅助翻译模型进行训练,包括:
当所述辅助翻译模型为所述Auto Suggest模型时,使用所述第五预训练模型的参数对所述Auto Suggest模型的参数进行初始化;
将原第二双语平行语料库中人工翻译的部分第一语言原文的译文中任一位置之前的部分作为第一译文前缀;其中,所述第一语言原文的译文为所述第二语言;
将所述原第二双语平行语料库中所述部分第一语言原文和所述第一译文前缀作为第七样本,将所述人工翻译的所述部分第一语言原文的译文作为第七样本标签,对初始化后的Auto Suggest模型进行训练;
将所述原第二双语平行语料库中人工翻译的部分第二语言原文的译文中任一位置之前的部分作为第二译文前缀;其中,所述第二语言原文的译文为所述第一语言;
将所述原第二双语平行语料库中所述部分第二语言原文和所述第二译文前缀作为第八样本,将所述人工翻译的所述部分第二语言原文的译文作为第八样本标签,对训练后的Auto Suggest模型进行训练。
6.根据权利要求3所述的基于预训练模型的机器翻译方法,其特征在于,所述基于所述第五预训练模型对辅助翻译模型进行训练,包括:
当所述辅助翻译模型为所述QE模型,使用所述第五预训练模型的参数对所述QE模型的参数进行初始化;
将原第二双语平行语料库中部分第一语言原文和所述部分第一语言原文的译文作为第九样本,将所述部分第一语言原文的译文的质量评分作为第九样本标签,对初始化后的QE模型进行训练;其中,每个第一语言原文的译文为人工翻译的译文或基于机器翻译模型预先获取的译文;其中,所述第一语言原文的译文为所述第二语言;
将所述原第二双语平行语料库中部分第二语言原文和所述部分第二语言原文的译文作为第十样本,将所述部分第二语言原文的译文的质量评分作为第十样本标签,对训练后的QE模型进行训练;其中,每个第二语言原文的译文为人工翻译的译文或基于机器翻译模型预先获取的译文;其中,所述第二语言原文的译文为所述第一语言。
7.根据权利要求1-6任一所述的基于预训练模型的机器翻译方法,其特征在于,所述将破坏后的第一语言语料库中的语料数据作为第一样本,将所述第一样本对应的原第一语言语料库中的语料数据作为第一样本标签,对第一预训练模型进行预训练,获取第二预训练模型,包括:
对所述破坏后的第一语言语料库中的语料数据进行分词处理;
基于Skip-Gram算法将破坏后的第一语言语料库中语料数据的词转换为词向量;
将所述破坏后的第一语言语料库中语料数据的词的词向量作为所述第一样本,将所述第一样本对应的原第一语言语料库中的语料数据作为所述第一样本标签,对所述第一预训练模型进行预训练,获取所述第二预训练模型。
8.一种基于预训练模型的机器翻译系统,其特征在于,包括:
第一预训练模块,用于对原第一语言语料库中的部分语料数据进行破坏,将破坏后的第一语言语料库中的语料数据作为第一样本,将所述第一样本对应的所述原第一语言语料库中的语料数据作为第一样本标签,对第一预训练模型进行预训练,获取第二预训练模型;
第二预训练模块,用于对原第二语言语料库中的部分语料数据进行破坏,将破坏后的第二语言语料库中的语料数据作为第二样本,将所述第二样本对应的所述原第二语言语料库中的语料数据作为第二样本标签,对所述第二预训练模型进行预训练,获取第三预训练模型;
第三预训练模块,用于对原第一双语平行语料库中第一语言的部分语料数据进行破坏,将破坏后的第一双语平行语料库中第一语言和第二语言的语料数据作为第三样本,将所述第三样本对应的所述原第一双语平行语料库中第一语言的语料数据作为第三样本标签,对所述第三预训练模型进行预训练,获取第四预训练模型;
第四预训练模块,用于对所述原第一双语平行语料库中第二语言的部分语料数据进行破坏,将破坏后的第一双语平行语料库中第一语言和第二语言的语料数据作为第四样本,将所述第四样本对应的所述原第一双语平行语料库中第二语言的语料数据作为第四样本标签,对所述第四预训练模型进行预训练,获取第五预训练模型;
翻译模块,用于基于所述第五预训练模型对辅助翻译模型进行训练,使用训练后的所述辅助翻译模型对所述第一语言或第二语言的待翻译文本进行翻译,获取所述待翻译文本的译文。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述基于预训练模型的机器翻译方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于预训练模型的机器翻译方法的步骤。
CN202110029918.9A 2021-01-11 2021-01-11 基于预训练模型的机器翻译方法及系统 Active CN112766000B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110029918.9A CN112766000B (zh) 2021-01-11 2021-01-11 基于预训练模型的机器翻译方法及系统
PCT/CN2021/126647 WO2022148104A1 (zh) 2021-01-11 2021-10-27 基于预训练模型的机器翻译方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110029918.9A CN112766000B (zh) 2021-01-11 2021-01-11 基于预训练模型的机器翻译方法及系统

Publications (2)

Publication Number Publication Date
CN112766000A true CN112766000A (zh) 2021-05-07
CN112766000B CN112766000B (zh) 2023-07-28

Family

ID=75701291

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110029918.9A Active CN112766000B (zh) 2021-01-11 2021-01-11 基于预训练模型的机器翻译方法及系统

Country Status (2)

Country Link
CN (1) CN112766000B (zh)
WO (1) WO2022148104A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114077843A (zh) * 2022-01-04 2022-02-22 阿里巴巴达摩院(杭州)科技有限公司 翻译模型训练方法、翻译方法、电子设备和存储介质
CN114417794A (zh) * 2022-03-29 2022-04-29 北京大学 量表问题生成模型的训练方法、装置和计算机设备
WO2022148104A1 (zh) * 2021-01-11 2022-07-14 语联网(武汉)信息技术有限公司 基于预训练模型的机器翻译方法及系统
CN115904338A (zh) * 2022-11-10 2023-04-04 北京百度网讯科技有限公司 预训练语言模型的训练方法、语言处理方法和装置
CN116579352A (zh) * 2023-04-25 2023-08-11 无锡捷通数智科技有限公司 翻译模型训练方法、装置、移动终端及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170212890A1 (en) * 2016-01-26 2017-07-27 International Business Machines Corporation Generation of a natural language resource using a parallel corpus
CN111401080A (zh) * 2018-12-14 2020-07-10 波音公司 神经机器翻译方法以及神经机器翻译装置
CN111597778A (zh) * 2020-04-15 2020-08-28 哈尔滨工业大学 一种基于自监督的机器翻译译文自动优化的方法和系统
CN111859994A (zh) * 2020-06-08 2020-10-30 北京百度网讯科技有限公司 机器翻译模型获取及文本翻译方法、装置及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112766000B (zh) * 2021-01-11 2023-07-28 语联网(武汉)信息技术有限公司 基于预训练模型的机器翻译方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170212890A1 (en) * 2016-01-26 2017-07-27 International Business Machines Corporation Generation of a natural language resource using a parallel corpus
CN111401080A (zh) * 2018-12-14 2020-07-10 波音公司 神经机器翻译方法以及神经机器翻译装置
CN111597778A (zh) * 2020-04-15 2020-08-28 哈尔滨工业大学 一种基于自监督的机器翻译译文自动优化的方法和系统
CN111859994A (zh) * 2020-06-08 2020-10-30 北京百度网讯科技有限公司 机器翻译模型获取及文本翻译方法、装置及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022148104A1 (zh) * 2021-01-11 2022-07-14 语联网(武汉)信息技术有限公司 基于预训练模型的机器翻译方法及系统
CN114077843A (zh) * 2022-01-04 2022-02-22 阿里巴巴达摩院(杭州)科技有限公司 翻译模型训练方法、翻译方法、电子设备和存储介质
CN114417794A (zh) * 2022-03-29 2022-04-29 北京大学 量表问题生成模型的训练方法、装置和计算机设备
CN114417794B (zh) * 2022-03-29 2022-09-09 北京大学 量表问题生成模型的训练方法、装置和计算机设备
CN115904338A (zh) * 2022-11-10 2023-04-04 北京百度网讯科技有限公司 预训练语言模型的训练方法、语言处理方法和装置
CN116579352A (zh) * 2023-04-25 2023-08-11 无锡捷通数智科技有限公司 翻译模型训练方法、装置、移动终端及存储介质

Also Published As

Publication number Publication date
CN112766000B (zh) 2023-07-28
WO2022148104A1 (zh) 2022-07-14

Similar Documents

Publication Publication Date Title
CN110543644B (zh) 包含术语翻译的机器翻译方法、装置与电子设备
CN112766000A (zh) 基于预训练模型的机器翻译方法及系统
CN109670180B (zh) 向量化译员的翻译个性特征的方法及装置
CN101458681A (zh) 语音翻译方法和语音翻译装置
CN111539229A (zh) 神经机器翻译模型训练方法、神经机器翻译方法及装置
CN112287696B (zh) 译文后编辑方法、装置、电子设备和存储介质
CN111178061B (zh) 一种基于编码转换的多国语分词方法
CN112541365B (zh) 基于术语替换的机器翻译方法及装置
CN111178088A (zh) 一种面向xml文档的可配置神经机器翻译方法
CN112329482A (zh) 机器翻译方法、装置、电子设备和可读存储介质
CN115759119B (zh) 一种金融文本情感分析方法、系统、介质和设备
CN112417823B (zh) 一种中文文本语序调整和量词补全方法及系统
CN111144137A (zh) 机器翻译后编辑模型语料的生成方法及装置
US20240062009A1 (en) Method and device for segmenting word based on cross-language data augmentation, and storage medium
CN109657244B (zh) 一种英文长句自动切分方法及系统
CN113343717A (zh) 一种基于翻译记忆库的神经机器翻译方法
CN111178060A (zh) 一种基于语言模型的韩语分词还原方法
CN112836528B (zh) 机器翻译后编辑方法及系统
CN114254657B (zh) 一种翻译方法及其相关设备
CN114861628A (zh) 训练机器翻译模型的系统、方法、电子设备及存储介质
JP6564709B2 (ja) 文書き換え装置、方法、及びプログラム
CN110888976B (zh) 一种文本摘要生成方法和装置
CN110866404B (zh) 基于lstm神经网络的词向量生成方法及装置
CN114185573A (zh) 一种人机交互机器翻译系统的实现和在线更新系统及方法
CN108153743B (zh) 基于相似度的智能离线翻译机

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant