CN115114940A - 一种基于课程化预训练的机器翻译风格的迁移方法和系统 - Google Patents

一种基于课程化预训练的机器翻译风格的迁移方法和系统 Download PDF

Info

Publication number
CN115114940A
CN115114940A CN202210761983.5A CN202210761983A CN115114940A CN 115114940 A CN115114940 A CN 115114940A CN 202210761983 A CN202210761983 A CN 202210761983A CN 115114940 A CN115114940 A CN 115114940A
Authority
CN
China
Prior art keywords
training
style
model
translation
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210761983.5A
Other languages
English (en)
Inventor
李欣杰
宗浩
施艳蕊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Glabal Tone Communication Technology Co ltd
Original Assignee
Glabal Tone Communication Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Glabal Tone Communication Technology Co ltd filed Critical Glabal Tone Communication Technology Co ltd
Priority to CN202210761983.5A priority Critical patent/CN115114940A/zh
Publication of CN115114940A publication Critical patent/CN115114940A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种基于课程化预训练的机器翻译风格的迁移方法和系统,其中,基于课程化预训练的机器翻译风格的迁移方法,包括:对平行语料和单语语料分别进行分词处理,得到训练语料;使用训练语料以及训练语料对应的模型任务,对机器翻译模型进行课程化预训练;使用风格词汇对齐算法构建伪平行数据,使用伪平行数据对课程化训练后的机器翻译模型进行预训练,得到最终预训练模型;对最终预训练模型进行翻译风格的微调,得到翻译风格迁移模型。本发明的技术方案能解决现有技术不关注句子的风格特征,难以实现文本风格转换的问题。

Description

一种基于课程化预训练的机器翻译风格的迁移方法和系统
技术领域
本发明涉及机器翻译技术领域,尤其涉及一种基于课程化预训练的机器翻译风格的迁移的方法和系统。
背景技术
机器翻译是指计算机将源语言的句子翻译到与之语义等价的目标语言句子的过程。机器翻译主要分为三种方法:基于规则的机器翻译、基于统计的机器翻译和基于神经网络的机器翻译。其中,基于规则的机器翻译过于依赖语言专家制定的语法和语句法规则,具有一定的局限性。基于统计的机器翻译是一种基于语料库的翻译方法,在数据较少的情况下翻译性能较差。随着机器学习技术的发展,基于神经网络的机器翻译,即神经机器翻译逐渐兴起。神经机器翻译能够在大部分翻译方向取得明显的性能优势,逐渐成为主流的翻译方法。
神经机器翻译通常采用编码器-解码器框架,具体地,编码器把源语言序列进行编码,并提取源语言中的信息进行分布式表示,然后解码器根据提取到的分布式表示生成目标语言序列。神经机器翻译模型的结构经历了多次迭代发展,在训练速度和译文质量上都有大幅度的提升。通用领域的神经机器翻译拥有大规模的翻译平行句对,具有较高的译文质量。然而,在实际使用中,特定场景需要特定风格的翻译结果,这就要实现神经机器翻译在翻译风格的迁移。目前翻译风格迁移的实现主要有以下两种方案:一种是基于枢轴的方法;翻译模型和文本风格迁移模型经过连续两步解码后得到目标风格的译文,但多步解码会导致误差传递和解码时间过长问题。另一种则是利用知识蒸馏或反向翻译等方法构建伪平行语料,但是该方法构造的伪平行语料中会带有噪音,这部分噪音信息会影响模型性能并降低风格迁移的准确度。当前,神经机器翻译在翻译风格迁移方向上取得的成果还比较有限,主要原因是缺少大规模对应风格的翻译平行句对,使得数据驱动的端到端翻译模型受到限制。
机器翻译的模型训练需要建立在大规模的平行数据上,在语料匮乏的情况下难以同时学到语言和风格的转换。虽然预训练模型可以提供一部分先验知识,但当前的预训练任务仅仅关注于理解句子的语义信息,并没有关注句子的风格特征,风格特征部分对于实现文本风格的转换是至关重要的。
发明内容
本发明提供一种基于课程化预训练的机器翻译风格的迁移方法和系统,能够根据翻译风格迁移任务设计新的预训练任务,使得模型能学习到更多的语义和风格特征,同时降低模型的训练难度,从而解决现有技术中不关注句子的风格特征,难以实现文本风格转换的问题。
为实现上述目的,根据本发明的第一方面,本发明提出了一种基于课程化预训练的机器翻译风格的迁移方法,包括:
对平行语料和单语语料分别进行分词处理,得到训练语料;
使用训练语料以及训练语料对应的模型任务,对机器翻译模型进行课程化预训练;
使用风格词汇对齐算法构建伪平行数据,使用伪平行数据对课程化训练后的机器翻译模型进行预训练,得到最终预训练模型;
对最终预训练模型进行翻译风格的微调,得到翻译风格迁移模型。
优选的,上述机器翻译风格的迁移方法中,对平行语料和单语语料分别进行分词处理的步骤包括:
使用分词工具分别对平行语料和单语语料进行分词处理;
使用字节对编码BPE工具对分词后的平行语料和单语语料进行子词切分处理,得到切分后的训练语料;
使用词频对训练语料进行解析,分别得到源端和目标端的词表。
优选的,上述机器翻译风格的迁移方法中,使用训练语料以及训练语料对应的模型任务,对机器翻译模型进行课程化预训练的步骤包括:
以重构噪音文本为训练目标,使用目标风格单语数据和掩码语言模型任务对机器翻译模型进行预训练,得到第一预训练模型;
使用文本风格迁移数据和风格迁移语言模型任务对第一预训练模型进行预训练,得到第二预训练模型;
以预测完整目标句为训练目标,使用翻译平行数据和句级别掩码语言模型任务对第二预训练模型进行预训练,得到第三预训练模型;
使用翻译平行数据和风格词汇掩码语言模型任务对第三预训练模型进行预训练,得到第四预训练模型。
优选的,上述机器翻译风格的迁移方法中,以重构噪音文本为训练目标,使用目标风格单语数据和掩码语言模型任务对机器翻译模型进行预训练的步骤包括:
在包含目标风格单语数据的目标风格文本中加入噪音,得到目标噪音文本;
将目标噪音文本输入机器翻译模型的编码器,得到语义表示向量;
按照重构损失函数,使用机器翻译模型的解码器对语义表示向量进行解码,得到原始的目标风格文本。
优选的,上述机器翻译风格的迁移方法中,使用翻译平行数据和句级别掩码语言模型任务对第二预训练模型进行预训练的步骤包括:
在翻译平行数据中加入噪音,得到翻译噪音文本;
将翻译噪音文本输入至第二预训练模型的编码器;
按照预设损失函数,使用第二预训练模型的解码器预测得到完整目标句。
优选的,上述机器翻译风格的迁移方法中,使用风格词汇对齐算法构建伪平行数据的步骤包括:
使用文本风格迁移数据训练风格分类模型,使用风格分类模型选取得到风格词汇;
使用源端-目标端对齐字典对风格词汇进行筛选,得到源风格词-目标风格词对齐字典;
使用源风格词-目标风格词对齐字典匹配和替换翻译平行数据的目标句中的词汇,得到伪平行数据。
优选的,上述机器翻译风格的迁移方法中,使用伪平行数据对课程化训练后的机器翻译模型进行预训练的步骤包括:
使用伪平行数据和风格词汇掩码语言模型任务训练第四预训练模型,得到最终预训练模型。
优选的,上述机器翻译风格的迁移方法中,对最终预训练模型进行翻译风格的微调的步骤包括:
获取翻译风格迁移平行数据;
使用翻译风格迁移平行数据输入至最终预训练模型,微调最终预训练模型的翻译风格,得到翻译风格迁移模型。
根据本发明的第二方面,本发明还提供了一种基于课程化预训练的机器翻译风格的迁移系统,包括:
分词处理模块,用于对平行语料和单语语料分别进行分词处理,得到训练语料;
课程预训练模块,用于使用训练语料以及训练语料对应的模型任务,对机器翻译模型进行课程化预训练;
伪平行数据训练模块,用于使用风格词汇对齐算法构建伪平行数据,使用伪平行数据对课程化训练后的机器翻译模型进行预训练,得到最终预训练模型;
风格微调模块,用于对最终预训练模型进行翻译风格的微调,得到翻译风格迁移模型。
优选的,上述机器翻译风格的迁移系统中,课程预训练模块包括:
目标风格预训练模块,用于以重构噪音文本为训练目标,使用目标风格单语数据和掩码语言模型任务对机器翻译模型进行预训练,得到第一预训练模型;
文本风格预训练模块,用于使用文本风格迁移数据和风格迁移语言模型任务对第一预训练模型进行预训练,得到第二预训练模型;
翻译数据预训练模块,用于以预测完整目标句为训练目标,使用翻译平行数据和句级别掩码语言模型任务对第二预训练模型进行预训练,得到第三预训练模型;
翻译风格预训练模块,用于使用翻译平行数据和风格词汇掩码语言模型任务对第三预训练模型进行预训练,得到第四预训练模型。
综上,本发明上述技术方案提供的基于课程化预训练的机器翻译风格的迁移方案,通过对平行语料和单语语料分别进行分词处理,得到训练神经网络用的训练语料;然后使用该训练语料和对应的模型任务对机器翻译模型进行课程化预训练,因为该课程化训练过程为训练机器翻译模型的目标风格、文本风格以及翻译风格,因此能够降低机器翻译模型的风格迁移难度,并且使用风格词汇对齐算法构建伪平行数据,使用该伪平行数据对课程化训练后的机器翻译模型进行预训练,从而得到最终预训练模型,达到调整机器翻译模型的翻译风格的目的,最后对该最终预训练模型进行翻译风格的微调,能够得到最终的翻译风格迁移模型。综上,利用上述训练语料,包括目标风格单语数据、文本风格迁移数据和通用翻译平行数据,能够训练模型的目标风格、文本风格和翻译风格,从而实现机器翻译模型的翻译风格迁移的目的,使得模型能够学习到更多的语义和风格特征。综上,通过上述方式能够解决现有技术中没有关注句子的风格特征,难以实现文本风格转换的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1是本发明实施例提供的一种机器翻译模型的课程化预训练模型的结构示意图;
图2是本发明实施例提供的一种基于课程化预训练的机器翻译风格的迁移方法的流程示意图;
图3是图2所示实施例提供的一种分词处理方法的流程示意图;
图4是图2所示实施例提供的一种课程化预训练方法的流程示意图;
图5是图4所示实施例提供的一种机器翻译模型预训练方法的流程示意图;
图6是图4所示实施例提供的一种第二预训练模型的预训练方法的流程示意图;
图7是图2所示实施例提供的一种伪平行数据的构建方法的流程示意图;
图8是图2所示实施例提供的一种翻译风格的微调方法的流程示意图;
图9是本发明实施例提供的一种基于课程化预训练的机器翻译风格的迁移系统的结构示意图;
图10是图9所示实施例提供的一种课程预训练模块的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要解决的技术问题是:
目前翻译风格迁移的实现主要有以下两种方案:一种是基于枢轴的方法;翻译模型和文本风格迁移模型经过连续两步解码后得到目标风格的译文,但多步解码会导致误差传递和解码时间过长问题。另一种则是利用知识蒸馏或反向翻译等方法构建伪平行语料,但是该方法构造的伪平行语料中会带有噪音,这部分噪音信息会影响模型性能并降低风格迁移的准确度。当前的预训练任务仅仅关注于理解句子的语义信息,并没有关注句子的风格特征,风格特征部分对于实现文本风格的转换是至关重要的。
为了解决上述问题,本发明下述实施例提供了基于课程化预训练的机器翻译风格的迁移方案,利用大规模的单语语料数据和平行语料数据,即通用翻译数据降低翻译模型的训练难度,使其能够提取到翻译风格迁移所需的语义特征和风格特征,同时加快模型的收敛速度,降低机器翻译的风格迁移难度,达到提高机器翻译的风格迁移性能的目的。另外,目标风格的单语数据获取难度不高,蕴含着丰富的风格信息。因此可以充分利用目标风格的单语数据进行预训练,得到较好的初始化参数,从而缓解训练数据不足的问题。
为实现上述目的,请参见图2,图2为本发明实施例提供的一种基于课程化预训练的机器翻译风格的迁移方法的流程示意图,如图2所示,该基于课程化预训练的机器翻译风格的迁移方法包括:
S110:对平行语料和单语语料分别进行分词处理,得到训练语料;目标风格的单语数据获取难度不高,蕴含着丰富的风格信息。因此可以充分利用目标风格的单语数据进行预训练,得到较好的初始化参数,从而缓解训练数据不足的问题。经过分词预处理得到的训练语料包括目标风格的单语数据、文本风格迁移数据和翻译平行数据。利用目标风格单语数据、文本风格迁移数据和通用的翻译平行数据提高翻译风格迁移的结果,可以降低人工标注翻译数据消耗的成本。
作为一种优选的实施例,如图3所示,该对平行语料和单语语料分别进行分词处理的步骤具体包括:
S111:使用分词工具分别对平行语料和单语语料进行分词处理。
S112:使用字节对编码BPE工具对分词后的平行语料和单语语料进行子词切分处理,得到切分后的训练语料。
例如:对于中文采用Jieba分词工具进行分词,对于英文采用Mose分词工具进行分词,然后将处理后的平行语料和单语语料使用BPE进行子词切分处理。
S113:使用词频对训练语料进行解析,分别得到源端和目标端的词表。
基于词频得到源端和目标端的词表,其中源端采用源语言和目标语言词表的方式,目标端则采用目标语言的词表,词表外的单词则用UNK代替,从而保证句子长度不变。
通过对平行语料和单语语料分别信息分词处理,从而得到训练语料,因为目标风格的单语数据获取难度不高,蕴含着丰富的风格信息。因此可以充分利用目标风格的单语数据进行预训练,得到较好的初始化参数,从而缓解训练数据不足的问题。
S120:使用训练语料以及训练语料对应的模型任务,对机器翻译模型进行课程化预训练。因为该课程化预训练的过程,为训练机器翻译模型的目标风格、文本风格和翻译风格,因此能够降低机器翻译模型的风格迁移难度,实现机器翻译模型的翻译风格迁移的目的,使得模型能够学习到更多的语义和风格特征。
作为一种优选的实施例,如图4所示,该使用训练语料以及训练语料对应的模型任务,对机器翻译模型进行课程化预训练的步骤包括:
S121:以重构噪音文本为训练目标,使用目标风格单语数据和掩码语言模型任务对机器翻译模型进行预训练,得到第一预训练模型。
基于目标风格单语数据和掩码语言模型任务训练模型,能够以重构噪音文本为训练目标,在目标风格中加入噪音,对机器翻译模型进行预训练,使得机器翻译模型训练得到的第一预训练模型能够对目标风格文本具有较强的建模能力。
作为一种优选的实施例,如图5所示,该以重构噪音文本为训练目标,使用目标风格单语数据和掩码语言模型任务对机器翻译模型进行预训练的步骤包括:
S1211:在包含目标风格单语数据的目标风格文本中加入噪音,得到目标噪音文本。
本申请实施例中,因为使用掩码语言模型任务进行训练,因此在目标风格文本中能够采用字掩码、词掩码、词删除和词插入四种方式加入噪音,从而得到具有噪音的目标风格文本,即上述目标噪音文本。
S1212:将目标噪音文本输入机器翻译模型的编码器,得到语义表示向量。
机器翻译模型即神经机器翻译模型,采用编码器-解码器框架,将目标噪音文本输入到编码器,之后编码器将在噪音文本编码为语义向量表示。
S1213:按照重构损失函数,使用机器翻译模型的解码器对语义表示向量进行解码,得到原始的目标风格文本。解码器能够基于语义向量生成完整的原始文本,以此增强模型对目标风格文本的建模能力。其中,重构损失函数如下:
Figure BDA0003721290380000081
其中,
Figure BDA0003721290380000082
表示加入噪音信息后的目标风格单语句子,x为原始的句子,θ为预训练模型的参数,L(θ;X)为重构的损失函数。
在上述步骤S121:得到目标噪音文本后,图4所示的方法还包括以下步骤:
S122:使用文本风格迁移数据和风格迁移语言模型任务对第一预训练模型进行预训练,得到第二预训练模型。
使用文本风格迁移数据,即文本风格迁移平行句对和风格迁移掩码任务进行预训练,首先在文本风格迁移句对的源风格句子中加入噪音信息,引入噪音的方式与上述步骤S121中相同,之后模型根据带噪音的源风格句子预测完整的目标风格句子,使得模型具备一定的文本风格转换能力。
S123:以预测完整目标句为训练目标,使用翻译平行数据和句级别掩码语言模型任务对第二预训练模型进行预训练,得到第三预训练模型。
作为一种优选的实施例,如图6所示,该使用翻译平行数据和句级别掩码语言模型任务对第二预训练模型进行预训练的步骤包括:
S1231:在翻译平行数据中加入噪音,得到翻译噪音文本。
S1232:将翻译噪音文本输入至第二预训练模型的编码器。
S1233:按照预设损失函数,使用第二预训练模型的解码器预测得到完整目标句。
本申请实施例提供的技术方案中,将翻译风格迁移平行句对进行拼接,然后在拼接后的句子中引入噪音,并将其作为编码器的输入数据,解码器则在具有部分源句和目标句信息的情况下预测完整的目标句子,从而降低模型的训练难度,上述预设损失函数的计算公式如下:
Figure BDA0003721290380000091
其中,
Figure BDA0003721290380000092
表示引入噪音后的源端句子,
Figure BDA0003721290380000093
表示引入噪音后的目标端句子,
Figure BDA0003721290380000094
表示将句子
Figure BDA0003721290380000095
和句子
Figure BDA0003721290380000096
拼接得到的句子,θ为预训练模型的模型参数,M为所有句子数量,L为损失函数。
S124:使用翻译平行数据和风格词汇掩码语言模型任务对第三预训练模型进行预训练,得到第四预训练模型。
进一步地,将翻译风格迁移平行句对中源句的风格词进行掩码,训练模型根据上下文信息预测完整的目标风格译文,针对性增强模型对于风格词汇的风格转换和翻译能力。
通过上述对机器翻译模型进行课程化预训练的步骤,包括使用目标风格单语数据、文本风格迁移数据和翻译平行数据分别训练模型,能够提高机器翻译模型对目标、风格文本风格和翻译风格的识别迁移能力,降低翻译难度。
S130:使用风格词汇对齐算法构建伪平行数据,使用伪平行数据对课程化训练后的机器翻译模型进行预训练,得到最终预训练模型。本申请实施例中需要选择影响程度较大的词汇作为风格词汇,然后使用风格词汇对齐算法构建对齐字典,在目标句子中使用该对齐字典进行匹配和替换,选取替换掉目标句子作为伪平行句对,从而将目标风格引入通用翻译语料中。
具体地,该使用伪平行数据对课程化训练后的机器翻译模型进行预训练的步骤包括:使用伪平行数据和风格词汇掩码语言模型任务训练第四预训练模型,得到最终预训练模型。
作为一种优选的实施例,如图7所示,该使用风格词汇对齐算法构建伪平行数据的步骤包括:
S131:使用文本风格迁移数据训练风格分类模型,使用风格分类模型选取得到风格词汇。本申请实施例中,基于文本风格迁移数据训练风格分类模型,使用预训练模型BERT作为模型框架,利用预训练模型BERT的最高层各注意力头的注意力分数衡量每个字对于风格的影响程度,选择影响程度大的作为风格词。相关的计算公式如下:
Figure BDA0003721290380000101
Figure BDA0003721290380000102
其中,αh(w)表示单词w对风格的影响程度,Q和k分别表示查询和键,k表示多头注意力头数,score为单词w的最终得分。
S132:使用源端-目标端对齐字典对风格词汇进行筛选,得到源风格词-目标风格词对齐字典。
S133:使用源风格词-目标风格词对齐字典匹配和替换翻译平行数据的目标句中的词汇,得到伪平行数据。
在得到上述风格词汇后,使用fast-align工具对齐文本风格迁移语料库的源端和目标端句子,得到对齐字典,再根据上一步的风格词汇筛选方法得到源风格词-目标风格词的对齐字典。最后,在通用语料的目标句子中结合对齐字典进行匹配,匹配成功则替换为目标风格的词汇,替换比例超过一定规模,则选取作为伪平行句对,从而将目标风格引入通用上述训练语料中的翻译语料中。
在使用伪平行数据对机器翻译模型信息预训练,得到最终预训练模型后,图2所示的机器翻译风格的迁移方法还包括以下步骤:
S140:对最终预训练模型进行翻译风格的微调,得到翻译风格迁移模型。本申请实施例提供的微调方法,具体使用翻译风格迁移平行数据对预训练模型进行微调,从而得到最终的翻译风格迁移模型。
作为一种优选的实施例,如图8所示,该对最终预训练模型进行翻译风格的微调的步骤包括:
S141:获取翻译风格迁移平行数据。
S142:使用翻译风格迁移平行数据输入至最终预训练模型,微调最终预训练模型的翻译风格,得到翻译风格迁移模型。
通过获取翻译风格迁移平行数据,然后将该翻译风格迁移平行数据输入至最终训练模型,能够提高模型的翻译风格迁移准确度,从而得到最终的翻译风格迁移模型。
结合图1所示的迁移模型可知,本发明上述实施例基于课程学习的思想,设计了四个难度逐渐提升的预训练任务,包括掩码语言模型、风格转换掩码模型、句级别掩码语言模型和风格词掩码语言模型的任务,让模型逐步学到翻译知识和风格转换知识,从而有效降低机器翻译风格迁移模型的训练难度。上述方法能够充分利用易于获取的目标风格单语数据和通用机器翻译数据,从而极大地减少人工标注成本,提高了翻译效率。另外,本发明上述实施例提出的风格词汇对齐数据增强方法,通过在大规模通用翻译平行句对中显式引入目标风格信息来构造伪平行句对,能够缓解翻译风格迁移任务中训练数据较少的问题。最后,本发明将课程学习与预训练相结合,使得模型能提取到翻译风格迁移需要的全部特征,同时,增强的伪平行数据可以用于预训练过程中,有效地提高翻译风格迁移模型的性能。
综上,本发明实施例提供的基于课程化预训练的机器翻译风格的迁移方法,通过对平行语料和单语语料分别进行分词处理,得到训练神经网络用的训练语料;然后使用该训练语料和对应的模型任务对机器翻译模型进行课程化预训练,因为该课程化训练过程为训练机器翻译模型的目标风格、文本风格以及翻译风格,因此能够降低机器翻译模型的风格迁移难度,并且使用风格词汇对齐算法构建伪平行数据,使用该伪平行数据对课程化训练后的机器翻译模型进行预训练,从而得到最终预训练模型,达到调整机器翻译模型的翻译风格的目的,最后对该最终预训练模型进行翻译风格的微调,能够得到最终的翻译风格迁移模型。综上,利益上述训练语料,包括目标风格单语数据、文本风格迁移数据和通用翻译平行数据,能够训练模型的目标风格、文本风格和翻译风格,从而实现机器翻译模型的翻译风格迁移的目的,使得模型能够学习到更多的语义和风格特征。综上,通过上述方式能够解决现有技术中没有关注句子的风格特征,难以实现文本风格转换的问题。
另外为了验证本方法的有效性,本发明将基于课程化预训练的机器翻译风格的迁移方法,如下表1所示,应用于翻译风格迁移任务中的Modern-Classical数据集,风格转换方向为现代文到文言文。本文首先基于文言文的单语数据和翻译平行语料进行课程化预训练,以此降低模型的训练难度,再使用翻译风格迁移数据微调预训练模型得到最终的翻译风格迁移模型。实验结果表明,本发明提出的方法可以让机器翻译风格迁移性能有较大得到提升,其中BLEU值上取得了3.9个点的提高,同时风格迁移准确率也取得了较好的效果。
表1不同神经机器翻译风格迁移实验结果对比
Figure BDA0003721290380000121
另外,基于上述方法实施例的同一构思,本发明实施例还提出了基于课程化预训练的机器翻译风格的迁移系统,用于实现本发明的上述方法,由于该系统实施例解决问题的原理与方法相似,因此至少具有上述实施例的技术方案所带来的所有有益效果,在此不再一一赘述。
参见图9,图9为本发明实施例提供的一种基于课程化预训练的机器翻译风格的迁移系统的结构示意图。如图9所示,该机器翻译风格的迁移系统包括:
分词处理模块110,用于对平行语料和单语语料分别进行分词处理,得到训练语料;
课程预训练模块120,用于使用训练语料以及训练语料对应的模型任务,对机器翻译模型进行课程化预训练;
伪平行数据训练模块130,用于使用风格词汇对齐算法构建伪平行数据,使用伪平行数据对课程化训练后的机器翻译模型进行预训练,得到最终预训练模型;
风格微调模块140,用于对最终预训练模型进行翻译风格的微调,得到翻译风格迁移模型。
综上,本发明实施例提供的基于课程化预训练的机器翻译风格的迁移系统,通过对平行语料和单语语料分别进行分词处理,得到训练神经网络用的训练语料;然后使用该训练语料和对应的模型任务对机器翻译模型进行课程化预训练,因为该课程化训练过程为训练机器翻译模型的目标风格、文本风格以及翻译风格,因此能够降低机器翻译模型的风格迁移难度,并且使用风格词汇对齐算法构建伪平行数据,使用该伪平行数据对课程化训练后的机器翻译模型进行预训练,从而得到最终预训练模型,达到调整机器翻译模型的翻译风格的目的,最后对该最终预训练模型进行翻译风格的微调,能够得到最终的翻译风格迁移模型。综上,利益上述训练语料,包括目标风格单语数据、文本风格迁移数据和通用翻译平行数据,能够训练模型的目标风格、文本风格和翻译风格,从而实现机器翻译模型的翻译风格迁移的目的,使得模型能够学习到更多的语义和风格特征。综上,通过上述方式能够解决现有技术中没有关注句子的风格特征,难以实现文本风格转换的问题。
作为一种优选的实施例,如图10所示,上述机器翻译风格的迁移系统中,课程预训练模块120包括:
目标风格预训练模块121,用于以重构噪音文本为训练目标,使用目标风格单语数据和掩码语言模型任务对机器翻译模型进行预训练,得到第一预训练模型。
文本风格预训练模块122,用于使用文本风格迁移数据和风格迁移语言模型任务对第一预训练模型进行预训练,得到第二预训练模型。
翻译数据预训练模块123,用于以预测完整目标句为训练目标,使用翻译平行数据和句级别掩码语言模型任务对第二预训练模型进行预训练,得到第三预训练模型。
翻译风格预训练模块124,用于使用翻译平行数据和风格词汇掩码语言模型任务对第三预训练模型进行预训练,得到第四预训练模型。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种基于课程化预训练的机器翻译风格的迁移方法,其特征在于,包括:
对平行语料和单语语料分别进行分词处理,得到训练语料;
使用所述训练语料以及所述训练语料对应的模型任务,对机器翻译模型进行课程化预训练;
使用风格词汇对齐算法构建伪平行数据,使用所述伪平行数据对课程化训练后的所述机器翻译模型进行预训练,得到最终预训练模型;
对所述最终预训练模型进行翻译风格的微调,得到翻译风格迁移模型。
2.根据权利要求1所述的机器翻译风格的迁移方法,其特征在于,所述对平行语料和单语语料分别进行分词处理的步骤,包括:
使用分词工具分别对所述平行语料和单语语料进行分词处理;
使用字节对编码BPE工具对分词后的所述平行语料和单语语料进行子词切分处理,得到切分后的所述训练语料;
使用词频对所述训练语料进行解析,分别得到源端和目标端的词表。
3.根据权利要求1所述的机器翻译风格的迁移方法,其特征在于,所述使用训练语料以及所述训练语料对应的模型任务,对机器翻译模型进行课程化预训练的步骤,包括:
以重构噪音文本为训练目标,使用目标风格单语数据和掩码语言模型任务对所述机器翻译模型进行预训练,得到第一预训练模型;
使用文本风格迁移数据和风格迁移语言模型任务对所述第一预训练模型进行预训练,得到第二预训练模型;
以预测完整目标句为训练目标,使用翻译平行数据和句级别掩码语言模型任务对所述第二预训练模型进行预训练,得到第三预训练模型;
使用翻译平行数据和风格词汇掩码语言模型任务对所述第三预训练模型进行预训练,得到第四预训练模型。
4.根据权利要求3所述的机器翻译风格的迁移方法,其特征在于,所述以重构噪音文本为训练目标,使用目标风格单语数据和掩码语言模型任务对所述机器翻译模型进行预训练的步骤,包括:
在包含目标风格单语数据的目标风格文本中加入噪音,得到目标噪音文本;
将所述目标噪音文本输入所述机器翻译模型的编码器,得到语义表示向量;
按照重构损失函数,使用所述机器翻译模型的解码器对所述语义表示向量进行解码,得到原始的目标风格文本。
5.根据权利要求3所述的机器翻译风格的迁移方法,其特征在于,所述使用翻译平行数据和句级别掩码语言模型任务对所述第二预训练模型进行预训练的步骤,包括:
在所述翻译平行数据中加入噪音,得到翻译噪音文本;
将所述翻译噪音文本输入至所述第二预训练模型的编码器;
按照预设损失函数,使用所述第二预训练模型的解码器预测得到完整目标句。
6.根据权利要求3所述的机器翻译风格的迁移方法,其特征在于,所述使用风格词汇对齐算法构建伪平行数据的步骤,包括:
使用所述文本风格迁移数据训练风格分类模型,使用所述风格分类模型选取得到风格词汇;
使用源端-目标端对齐字典对所述风格词汇进行筛选,得到源风格词-目标风格词对齐字典;
使用所述源风格词-目标风格词对齐字典匹配和替换所述翻译平行数据的目标句中的词汇,得到所述伪平行数据。
7.根据权利要求6所述的机器翻译风格的迁移方法,其特征在于,所述使用伪平行数据对课程化训练后的所述机器翻译模型进行预训练的步骤,包括:
使用所述伪平行数据和所述风格词汇掩码语言模型任务训练所述第四预训练模型,得到所述最终预训练模型。
8.根据权利要求1所述的机器翻译风格的迁移方法,其特征在于,所述对最终预训练模型进行翻译风格的微调的步骤,包括:
获取翻译风格迁移平行数据;
使用所述翻译风格迁移平行数据输入至所述最终预训练模型,微调所述最终预训练模型的翻译风格,得到所述翻译风格迁移模型。
9.一种基于课程化预训练的机器翻译风格的迁移系统,其特征在于,包括:
分词处理模块,用于对平行语料和单语语料分别进行分词处理,得到训练语料;
课程预训练模块,用于使用所述训练语料以及所述训练语料对应的模型任务,对机器翻译模型进行课程化预训练;
伪平行数据训练模块,用于使用风格词汇对齐算法构建伪平行数据,使用所述伪平行数据对课程化训练后的所述机器翻译模型进行预训练,得到最终预训练模型;
风格微调模块,用于对所述最终预训练模型进行翻译风格的微调,得到翻译风格迁移模型。
10.根据权利要求9所述的机器翻译风格的迁移系统,其特征在于,所述课程预训练模块包括:
目标风格预训练模块,用于以重构噪音文本为训练目标,使用目标风格单语数据和掩码语言模型任务对所述机器翻译模型进行预训练,得到第一预训练模型;
文本风格预训练模块,用于使用文本风格迁移数据和风格迁移语言模型任务对所述第一预训练模型进行预训练,得到第二预训练模型;
翻译数据预训练模块,用于以预测完整目标句为训练目标,使用翻译平行数据和句级别掩码语言模型任务对所述第二预训练模型进行预训练,得到第三预训练模型;
翻译风格预训练模块,用于使用翻译平行数据和风格词汇掩码语言模型任务对所述第三预训练模型进行预训练,得到第四预训练模型。
CN202210761983.5A 2022-06-29 2022-06-29 一种基于课程化预训练的机器翻译风格的迁移方法和系统 Pending CN115114940A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210761983.5A CN115114940A (zh) 2022-06-29 2022-06-29 一种基于课程化预训练的机器翻译风格的迁移方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210761983.5A CN115114940A (zh) 2022-06-29 2022-06-29 一种基于课程化预训练的机器翻译风格的迁移方法和系统

Publications (1)

Publication Number Publication Date
CN115114940A true CN115114940A (zh) 2022-09-27

Family

ID=83330218

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210761983.5A Pending CN115114940A (zh) 2022-06-29 2022-06-29 一种基于课程化预训练的机器翻译风格的迁移方法和系统

Country Status (1)

Country Link
CN (1) CN115114940A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116579352A (zh) * 2023-04-25 2023-08-11 无锡捷通数智科技有限公司 翻译模型训练方法、装置、移动终端及存储介质
CN116822517A (zh) * 2023-08-29 2023-09-29 百舜信息技术有限公司 一种多语言翻译的术语识别方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116579352A (zh) * 2023-04-25 2023-08-11 无锡捷通数智科技有限公司 翻译模型训练方法、装置、移动终端及存储介质
CN116822517A (zh) * 2023-08-29 2023-09-29 百舜信息技术有限公司 一种多语言翻译的术语识别方法
CN116822517B (zh) * 2023-08-29 2023-11-10 百舜信息技术有限公司 一种多语言翻译的术语识别方法

Similar Documents

Publication Publication Date Title
CN110334361B (zh) 一种面向小语种语言的神经机器翻译方法
CN110489555B (zh) 一种结合类词信息的语言模型预训练方法
CN109508462B (zh) 一种基于编码器-解码器的神经网络蒙汉机器翻译方法
CN107357789B (zh) 融合多语编码信息的神经机器翻译方法
CN111178094B (zh) 一种基于预训练的稀缺资源神经机器翻译训练方法
Liu et al. A recursive recurrent neural network for statistical machine translation
CN107967262A (zh) 一种神经网络蒙汉机器翻译方法
CN110472252B (zh) 基于迁移学习的汉越神经机器翻译的方法
CN110688862A (zh) 一种基于迁移学习的蒙汉互译方法
CN115114940A (zh) 一种基于课程化预训练的机器翻译风格的迁移方法和系统
CN112765345A (zh) 一种融合预训练模型的文本摘要自动生成方法及系统
CN112052692A (zh) 一种基于语法监督和深度强化学习的蒙汉神经机器翻译方法
CN113343683B (zh) 一种融合自编码器和对抗训练的中文新词发现方法及装置
CN112257465B (zh) 一种基于图像描述生成的多模态机器翻译数据增强方法
CN112580373A (zh) 一种高质量蒙汉无监督神经机器翻译方法
CN111666756A (zh) 一种基于主题融合的序列模型文本摘要生成方法
CN113822054A (zh) 基于数据增强的中文语法纠错方法及装置
CN114662476A (zh) 一种融合词典与字符特征的字符序列识别方法
CN111428518B (zh) 一种低频词翻译方法及装置
CN113204978B (zh) 一种机器翻译增强训练方法及系统
CN112257460B (zh) 基于枢轴的汉越联合训练神经机器翻译方法
CN113591460A (zh) 一种基于迭代知识迁移的机器翻译风格迁移性能提升方法
CN113392656A (zh) 一种融合推敲网络和字符编码的神经机器翻译方法
CN115017924B (zh) 跨语际语言翻译的神经机器翻译模型构建及其翻译方法
CN113761946A (zh) 模型训练及数据处理方法、装置、电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination