CN115688815B - 多语言翻译模型构建方法及存储介质 - Google Patents
多语言翻译模型构建方法及存储介质 Download PDFInfo
- Publication number
- CN115688815B CN115688815B CN202211720960.6A CN202211720960A CN115688815B CN 115688815 B CN115688815 B CN 115688815B CN 202211720960 A CN202211720960 A CN 202211720960A CN 115688815 B CN115688815 B CN 115688815B
- Authority
- CN
- China
- Prior art keywords
- training
- language
- translation
- encoder
- translation model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明涉及翻译技术领域,特别涉及一种多语言翻译模型构建方法及存储介质,多语言翻译模型构建方法是获取预训练编码器和预训练解码器并分别进行训练;构建多语言翻译模型,多语言翻译模型包括预训练编码器和多语言解码器,对其中预训练编码器添加编码融合转换器,多语言解码器包括语言模型流和翻译模型流;编码融合转换器使用随机初始化,语言模型流和翻译模型流均使用训练后的预训练解码器的参数进行初始化;获取第一双语数据,通过第一双语数据对编码融合转换器进行训练;获取第二双语数据,通过第二双语数据对翻译模型流进行微调。解决了翻译模型构建中微调导致的知识丢失和灾难性遗忘,以及降低了微调需要的双语语料的规模和语言对的数量。
Description
技术领域
本发明涉及翻译技术领域,特别涉及一种多语言翻译模型构建方法及存储介质。
背景技术
近年来,预训练语言模型(Pretrained Language Model)技术得到了高度的关注。通过在大规模单语语料上的无监督训练,预训练语言模型能够学习到丰富的语言学知识,并在下游NLP任务上得到体现。随着多语言预训练语言模型的广泛研究,人们发现使用多种语言的单语语料训练的模型除了能够学习每种语言各自的知识,还能够在各种语言之间实现隐式的知识迁移,提升下游任务的跨语言能力。因此,越来越多的研究者开始尝试将多语言预训练语言模型应用于多语言翻译模型,从而提升模型在低资源场景下的翻译质量。
现有机器翻译方法尝试在预训练语言模型基础上进行训练或微调,但由于语言模型训练目标与翻译目标的差异较大,以及训练语料差异大,其中,预训练语言模型采用单语语料进行训练,翻译模型采用双语平行语料进行训练。因此,直接利用翻译语料微调预训练模型通常会导致模型对已学知识的灾难性遗忘,这导致使用预训练语言模型进行翻译任务,特别是多语言翻译任务时,仍需要较大规模的训练语料,以及多个语言对的平行语料,其中每种语言对都需要数据进行微调,这严重制约了多语言翻译模型以及低资源语言翻译模型的构建。
发明内容
为解决现有技术中语言模型训练目标与翻译目标的差异较大,利用翻译语料的微调通常会导致预训练模型对已学得知识的灾难性遗忘,同时,在多语言翻译模型微调中,仍需要大规模多个语言对间平行语料的问题,本发明提供了一种多语言翻译模型构建方法及存储介质。
本发明解决技术问题的方案是提供一种多语言翻译模型构建方法,包括如下步骤:
获取预训练编码器和预训练解码器并分别进行训练;
构建多语言翻译模型,多语言翻译模型包括预训练编码器和多语言解码器,对其中所述预训练编码器添加编码融合转换器,所述多语言解码器包括语言模型流和翻译模型流;
所述编码融合转换器使用随机初始化,所述多语言解码器中的所述语言模型流和所述翻译模型流均使用训练后的预训练解码器的参数进行初始化;
获取第一双语数据,通过所述第一双语数据对所述编码融合转换器进行训练;
获取第二双语数据,通过所述第二双语数据对所述翻译模型流进行微调;其中,所述第二双语数据包括目标语言及对应的历史译文;
通过所述第二双语数据对所述翻译模型流进行微调的具体包括以下步骤:
将所述第二双语数据输入所述预训练编码器,获得所述预训练编码器的输出;
将所述历史译文输入所述语言模型流,获得所述语言模型流的输出;
所述翻译模型流的每层根据预训练编码器的输出和所述语言模型流的输出进行微调。
优选地,训练预训练编码器,具体包括以下步骤:
获取单语数据;
将所述单语数据输入所述预训练编码器,以掩码语言模型作为训练目标,对所述预训练编码器进行训练,获得训练后的所述预训练编码器。
优选地,训练预训练解码器,具体包括:
将所述单语数据输入所述预训练解码器,以因果语言模型作为训练目标,对所述预训练解码器进行训练,获得训练后的所述预训练解码器。
优选地,所述获得训练后的所述预训练编码器之后,所述方法还包括:
获取第三双语数据;
将所述第三双语数据输入所述预训练编码器,以翻译语言模型作为训练目标,对所述预训练编码器进行训练,获得最终的训练后的所述预训练编码器。
优选地,通过所述第一双语数据对所述编码融合转换器进行训练,具体为:
通过所述第一双语数据进行多语言翻译任务的训练,使编码融合转换器将所述预训练编码器的语义表示进行融合并转换到所述多语言解码器的语义表示空间。
优选地,所述预训练编码器和所述多语言解码器均采用多层Transformer模型。
优选地,通过所述第一双语数据进行多语言翻译任务的训练,使编码融合转换器将所述预训练编码器的语义表示进行融合并转换到所述多语言解码器的语义表示空间,具体包括以下步骤:
将所述第一双语数据输入所述预训练编码器,使所述预训练编码器的每层对所述第一双语数据中每个词的上下文信息进行编码,输出对应的向量表示;
所述编码融合转换器将所述预训练编码器的不同层输出的每个词对应的向量表示分别进行语义融合,并将融合后的语义表示转换到所述多语言解码器所在的语义表示空间。
优选地,所述翻译模型流的每层根据预训练编码器的输出和所述语言模型流的输出进行微调,具体包括以下步骤:
所述编码融合转换器将所述预训练编码器的输出进行语义融合,并将融合后的语义表示转换至所述翻译模型流所在的语义表示空间;
所述翻译模型流的每层根据语言模型流的输出和融合后的语义表示生成与所述目标语言对应的译文;
所述翻译模型流根据最后一层输出的译文对每一步生成的译文进行预测,获得所述翻译模型流在每一步的预测概率。
本发明为解决上述技术问题还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被执行时实现如上任一项所述的多语言翻译模型构建方法。
与现有技术相比,本发明提供的多语言翻译模型构建方法及存储介质具有以下优点:
1、本发明的一种多语言翻译模型构建方法,包括如下步骤:获取预训练编码器和预训练解码器并分别进行训练;构建多语言翻译模型,多语言翻译模型包括预训练编码器和多语言解码器,对其中预训练编码器添加编码融合转换器,多语言解码器包括语言模型流和翻译模型流;编码融合转换器使用随机初始化,多语言解码器中的语言模型流和翻译模型流均使用训练后的预训练解码器的参数进行初始化;获取第一双语数据,通过所述第一双语数据对所述编码融合转换器进行训练;获取第二双语数据,通过所述第二双语数据对所述翻译模型流进行微调。通过在构建多语言翻译模型之后,仅对编码融合转换器训练和翻译模型流微调,确保了预训练编码器和语言模型流的参数冻结,从而充分保留预训练编码器和语言模型流中的多语言知识不被破坏,有效避免多语言翻译模型微调或结构调整导致的知识丢失和灾难性遗忘,尽可能保持其中学到的知识,因此,在翻译任务微调时,采用少数几种语言对训练翻译模型,便可以实现多种语言对间的翻译能力。另外,由于需要训练的参数大幅减少,因此多语言翻译模型训练所需的双语平行语料将大幅度降低,并进一步提升低资源和零资源语言方向上的翻译质量。
2、本发明的训练预训练编码器,具体包括:获取单语数据;将所述单语数据输入所述预训练编码器,以掩码语言模型作为训练目标,对所述预训练编码器进行训练,获得训练后的所述预训练编码器。通过单语数据对预训练编码器进行训练,以提升预训练编码器的知识迁移能力和编码能力。
3、本发明的所述单语数据输入所述预训练解码器,以因果语言模型作为训练目标,对所述预训练解码器进行训练,获得训练后的所述预训练解码器。通过单语数据训练预训练解码器,从而提高预训练解码器的语言文本生成的能力。
4、本发明的所述获得训练后的所述预训练编码器之后,所述方法还包括:获取第三双语数据;将所述第三双语数据输入所述预训练编码器,以翻译语言模型作为训练目标,对所述预训练编码器进行训练,获得最终的训练后的所述预训练编码器。通过第三双语数据对预训练编码器进行训练,以进一步提升预训练编码器的知识迁移能力,改善低资源语言的编码能力。
5、本发明的所述预训练编码器和所述多语言解码器采用多层Transformer模型,能实现直接计算每个词之间的相关性,不需要通过隐藏层传递,还能实现并行计算,充分利用GPU资源。
6、本发明的所述翻译模型流的每层根据预训练编码器的输出和所述语言模型流的输出进行微调,具体包括以下步骤:所述编码融合转换器将所述预训练编码器的输出进行语义融合,并将融合后的语义表示转换至所述翻译模型流所在的语义表示空间;所述翻译模型流的每层根据语言模型流的输出和融合后的语义表示生成与所述目标语言对应的译文;所述翻译模型流根据最后一层输出的译文对每一步生成的译文进行预测,获得所述翻译模型流在每一步的预测概率。通过仅对翻译模型流进行微调,保持了预训练编多语言解码器的参数和结构不被破坏,尽可能保持其中学到的知识,并通过编码融合转换器,使翻译模型流能使翻译模型流利用预训练编码器所习得的知识,从而实现了利用语言模型流的输出和预训练编码器的输出对翻译模型进行微调,从而降低构建多语言翻译模型所需的双语平行语料的数据量和语言对数量,进一步提升低资源和零资源语言方向上的翻译质量。
7、本发明还提供一种计算机可读存储介质,具有与上述多语言翻译模型构建方法相同的有益效果,在此不做赘述。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明第一实施例提供的一种多语言翻译模型构建方法的步骤流程图。
图2是本发明第一实施例提供的一种多语言翻译模型构建方法之步骤S41的步骤流程图。
图3是本发明第一实施例提供的多语言翻译模型构建方法的框架示意图。
图4是本发明第一实施例提供的编码融合转换器的框架示意图。
图5是本发明第一实施例提供的一种多语言翻译模型构建方法之步骤S53的步骤流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施实例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本文所使用的术语“垂直的”、“水平的”、“左”、“右”、“上”、“下”、“左上”、“右上”、“左下”、“右下”以及类似的表述只是为了说明的目的。
请参阅图1,本发明第一实施例提供一种多语言翻译模型构建方法,其特征在于:包括如下步骤:
S1:获取预训练编码器和预训练解码器并分别进行训练;
S2:构建多语言翻译模型,多语言翻译模型包括预训练编码器和多语言解码器,对其中所述预训练编码器添加编码融合转换器,所述多语言解码器包括语言模型流和翻译模型流;
S3:所述编码融合转换器使用随机初始化,所述多语言解码器中的所述语言模型流和所述翻译模型流均使用训练后的预训练解码器的参数进行初始化;
S4:获取第一双语数据,通过所述第一双语数据对所述编码融合转换器进行训练;
S5:获取第二双语数据,通过所述第二双语数据对所述翻译模型流进行微调。
可以理解地,本实施例的多语言翻译模型可基于编码器-解码器架构构建的多语言翻译模型,因此,在步骤S1中,在获取预训练编码器和预训练解码器后,需要分别对预训练编码器和预训练解码器进行训练,从而获得训练后的预训练编码器和预训练解码器及对应的参数。由于预训练编码器和预训练解码器是分别训练的,预训练编码器和预训练解码器输出的语义表示空间几乎不可能在同一语义空间中,因此,预训练解码器无法关注预训练编码器输出的语义表示。因而本实施例中的多语言翻译模型中的多语言解码器可采用根据非残差注意力机制,包括语言模型流和翻译模型流的多语言解码器,使翻译模型流在编码融合转换器的作用下,能关注预训练编码器的语义表示,进而使多语言翻译模型中的多语言解码器能关注预训练编码器的语义表示。
可以理解地,在构建多语言翻译模型时,多语言翻译模型中的预训练编码器可直接使用训练后的预训练编码器。在构建多语言翻译模型之后,还需要对多语言翻译模型进行参数初始化,多语言翻译模型中的预训练编码器采用训练后的预训练编码器的参数进行初始化。多语言解码器中的语言模型流和翻译模型流均采用训练后的预训练解码器的参数进行初始化。编码器融合转换器可采用随机参数初始化。
需要说明的是,第一双语数据是以英文为中心的双语平行语料。第二双语数据是少量的随机采样的英语方向和非英语方向上的双语平行语料。
可以理解地,由于编码融合转换器中的参数是随机赋值的,因此,在步骤S4中,需要激活编码融合转换器,通过第一双语数据对激活编码融合转换器进行训练,以调整编码融合转换器的参数为最优参数。且为了提升多语言翻译模型的翻译质量,需对多语言解码器中的翻译模型流进行微调,因此在步骤S5中,需要激活翻译模型流,对翻译模型流进行微调,以获得微调后的最终的多语言翻译模型。
可以理解地,在步骤S4和步骤S5中,仅对编码融合转换器进行训练和翻译模型流进行微调时,均冻结了多语言翻译模型中的预训练编码器和语言模型流,即冻结了预训练编码器和语言模型流的参数,因此可以充分保留预训练编码器和语言模型流中的知识不被破坏,尽可能保持其中学到的知识,有效避免多语言翻译模型微调或结构调整导致的知识丢失和灾难性遗忘。同时由于需要训练的参数大幅减少,因此多语言翻译模型训练所需的双语数据将大幅度降低,进一步提升低资源和零资源语言方向上的翻译质量。
进一步地,训练预训练编码器,具体包括以下步骤:
S11:获取单语数据;
S12:将所述单语数据输入所述预训练编码器,以掩码语言模型作为训练目标,对所述预训练编码器进行训练,获得训练后的所述预训练编码器。
可以理解地,单语数据包括多种语言对应的单语句。即预训练编码器的每次的输入即为同一种语言对应的单语句,下次输入时可为另外一种语言对应的单语句。在步骤S11中,预训练编码器是以掩码语言模型,通过使用掩码“[MASK]”随机遮盖输入的单语句中的部分词汇,让预训练编码器根据上下文对遮盖部分进行预测,从而进行训练。获得训练后的预训练编码器及对应的参数。以该参数对多语言翻译模型中的预训练编码器进行参数初始化,从而使多语言翻译模型中的预训练编码器可以利用上下文全局信息的特点,能够有效地提取句子的词法、句法、语义等语言学信息。
进一步地,训练预训练解码器,具体包括:
S13:将所述单语数据输入所述预训练解码器,以因果语言模型作为训练目标,对所述预训练解码器进行训练,获得训练后的所述预训练解码器。
可以理解地,预训练解码器是以因果语言模型作为训练目标,通过对未来词的遮盖“Masked”操作,以自回归的方式利用大规模单语数据进行训练。该训练目标主要面向文本生成任务,能够有效利用上文的信息,生成流畅的文本内容。同时还需要将句首标记替换为单语数据中每种语言的语言标签,由此进行训练,从而获得训练后的预训练解码器及对应的参数。以该参数对多语言翻译模型中的多语言解码器进行参数初始化,从而使多语言翻译模型中的多语言解码器能有效利用上文的信息,生成流畅的文本内容,同时使多语言解码器具备根据语言标签进行多种语言文本生成的能力,进而使多语言翻译模型具备根据语言标签进行多种语言文本生成的能力。
需要说明的是,由于训练预训练解码器和预训练编码器是分别进行的,两者互不干扰,因此步骤S12与步骤S13的训练顺序,本实施例对此不做限制,满足能获得训练后的预训练编码器和预训练编码器对应的参数即可。
进一步地,所述获得训练后的所述预训练编码器之后,所述方法还包括:
S14:获取第三双语数据;
S15:将所述第三双语数据输入所述预训练编码器,以翻译语言模型作为训练目标,对所述预训练编码器进行训练,获得最终的训练后的所述预训练编码器。
可以理解地,第三双语数据可为以英文为中心的双语平行语料。在通过单语数据对预训练编码器进行训练后,以翻译语言模型作为训练目标,用第三双语数据对该预训练编码器再次进行训练,利用以英文为中心的双语平行语料学习不同语言之间的对齐信息,从而进行训练,获得最终的训练后的预训练编码器及对应的参数。以该参数对多语言翻译模型的预训练编码器进行参数初始化,从而提升预训练编码器的语义编码能力。
进一步地,通过所述第一双语数据对所述编码融合转换器进行训练,具体为:
S41:通过所述第一双语数据进行多语言翻译任务的训练,使编码融合转换器将所述预训练编码器的语义表示进行融合并转换到所述多语言解码器的语义表示空间。
可以理解地,在进行多语言翻译任务的训练时,多语言翻译模型中的多语言解码器无法直接使用预训练编码器所习得的知识,因而可使用编码融合转换器,将预训练编码器的语义表示进行融合并转换到所述多语言解码器的语义表示空间中,从而使多语言解码器能使用预训练编码器的习得的知识。且在激活编码融合转换器,对编码融合转换器进行训练,时,由于训练过程中多语言翻译模型中的预训练编码器的参数和多语言解码器的参数处于冻结状态,该训练不会改变多语言翻译模型中的预训练编码器的参数和多语言解码器的参数,只会改变编码融合转换器的参数,从而能避免预训练编码器和多语言解码器的知识丢失和灾难性遗忘。
进一步地,所述预训练编码器和所述多语言解码器采用多层Transformer模型。
可以理解地,Transformer模型为编码器-解码器架构。Transformer模型为多层结构。多语言翻译模型中的预训练编码器可基于多层Transformer模型进行构建。优选的,多语言翻译模型中的预训练编码器可为6层,每层对应的权重不同,且每层都能对输入句的每个词进行编码。多语翻译模型中多语言解码器也可基于Transformer模型中的解码器进行构建,多语言解码器中的层数不做限制。优选的,多语言解码器中的层数可为4层。
请结合图2-图4,进一步地,步骤S41,具体包括以下步骤:
S411:将所述第一双语数据输入所述预训练编码器,使所述预训练编码器的每层对所述第一双语数据中每个词的上下文信息进行编码,输出对应的向量表示;
S412:所述编码融合转换器将所述预训练编码器的不同层输出的每个词对应的向量表示分别进行语义融合,并将融合后的语义表示转换到所述多语言解码器所在的语义表示空间。
可以理解地,第一双语数据包括输入句。步骤S411中,多语言翻译模型中的预训练编码器可接收输入的第一双语数据,且预训练编码器中的每层都可通过多头自注意力机制对第一双语数据中每个词的上下文信息进行编码,并输出对应的第一向量表示enci,该第一向量表示enci即为预训练编码器对输入的双语数据中输入句中每个词的语义表示,该向量表示:
其中,x表示输入句,x=[x1,x2,…xn],i表示输入句x中的输入词的个数,l表示编码器层数,embedding(*)表示预训练编码器词嵌入的表示。
具体地,预训练编码器可接收第一双语数据中的完整的输入句x,并对输入句x中的每个词采用embedding词嵌入方法将输入句x转化成特征向量进行表示,从而输出每个词对应的向量表示。预训练编码器的第一层便可将每个词对应的向量表示/>作为本层的输入,以对每个词进行编码,从而获得第一层的输出每个词的向量表示/>;预训练编码器中的第二层将第一层的向量表示/>作为输入,将第一层的向量表示/>进行编码,从而输出第二层的向量表示/>,其余层以此类推,从而预训练编码器对一个输入句x句进行编码,获得预训练编码器的多个输出。
可以理解地,编码融合转换器包括融合层与转换层,在步骤S412中,融合层可以将预训练编码器的不同层输出的每个词对应的向量表示分别进行语义融合,获得每层的第一融合语义,转换层基于降采样的前馈网络输出融合后的第一融合语义至多语言解码器,即将每层的融合语义依次转换到多语言解码器所在的语义表示空间,从而使多语言解码器能利用预训练编码器所习得的所有知识。
其中,i表示输入句x中的输入词的个数,k表示多语言解码器的层数,FNN(*)=UP(Relu(Down(*)))表示基于降采样的前馈网络。
进一步地,所述第二双语数据包括目标语言及对应的历史译文;
通过所述第二双语数据对所述翻译模型流进行微调,具体包括以下步骤:
S51:将所述第二双语数据输入所述预训练编码器,获得所述预训练编码器的输出;
S52:将所述历史译文输入所述语言模型流,获得所述语言模型流的输出;
S53:所述翻译模型流的每层根据预训练编码器的输出和所述语言模型流的输出进行微调。
可以理解地,步骤S51获得预训练编码器的输出与步骤S411中获得预训练编码器的输出的方法相同,区别在于步骤S411是对第一双语数据进行编码,获得的是第一双语数据对应的向量表示,步骤S22是对第二双语数据进行编码,获得第二双语数据对应的向量表示。
可以理解地,第二双语数据包括目标语言及对应的历史译文,历史译文的生成是以自回归的方式进行的,即从左到右依次生成,因此后续译文的生成是在历史生成的译文基础上进行生成的。在步骤S32中,语言模型流可对历史译文进行处理,从而获得语言模型流的输出,语言模型流的输出为:
具体地,语言模型流第一步是通过embeding词嵌入的方式对历史译文进行处理,并将历史译文对应语言标签作为最后翻译后的目标语言的语言标签,以获得历史译文的向量表示。语言模型流第一层可将向量表示/>作为输入,并对向量表示/>进行处理,以获得第一层输出/>;语言模型流的第二层将第一层输出/>作为本层的输入,以通过同样的方式对第一层输出/>进行处理,获得第二层的输出/>,其余层以此类推,最终获得多层语言模型流层数的输出。
可以理解地,在步骤S53中,翻译模型流将语言模型流的输出和预训练编码器的输出进行整合,从而实现微调,以提高多语言翻译模型的翻译质量。
请参阅图5,进一步地,步骤S53具体包括以下步骤:
S531:所述编码融合转换器将所述预训练编码器的输出进行语义融合,并将融合后的语义表示转换至所述翻译模型流所在的语义表示空间;
S532:所述翻译模型流的每层根据语言模型流的输出和融合后的语义表示生成与所述目标语言对应的译文;
S533:所述翻译模型流根据最后一层输出的译文对每一步生成的译文进行预测,获得所述翻译模型流在每一步的预测概率。
可以理解地,对编码融合转换器进行微调时,由于微调过程中预训练编码器的参数和多语言解码器中的语言模型流的参数处于冻结状态,该训练不会改变预训练编码器的参数和语言模型流的参数,改变的是翻译模型流的参数,从而能避免预训练编码器和语言模型流的知识丢失和灾难性遗忘。
可以理解地,翻译模型流不仅关注预训练编码器的输出的语义表示,同时也关注语言模型流输出的语义表示。但翻译模型流无法直接利用预训练编码器所习得的知识,因此,可通过步骤S531,将预训练编码器的输出即第二双语数据对应的向量表示进行融合,获得第二融合语义,并将第二融合语义输出至翻译模型流的语义表示空间。从而实现了翻译模型流利用预训练编码器习得知识。步骤S531中,编码融合转换器的融合与转换的方法与步骤S412的方法一致,区别在于,步骤S412融合和转换的是第一双语数据对应的向量表示,步骤S531融合和转换的是第二双语数据对应的向量表示。
可以理解地,步骤S532中,翻译模型流先以语言模型流第一步输入的历史译文作为翻译模型流第一步的输入,即将历史译文作为翻译模型流第一步的输入,以embedding词嵌入的方式对历史译文进行处理,从而获得对应的向量表示。翻译模型流的第一层将编码融合转换器对预训练编码器每层的第二融合语义和语言模型流的每层的输出进行结合,从而获得对应的翻译模型流的输出,翻译模型流的其余层以此类推,从而获得翻译模型流多个输出,该输出的语义表示,即为目标语言对应的译文文本。翻译模型流的输出表示为:
且在步骤S533中,翻译模型流还可根据最后一层输出的语义表示,对每一步的译文进行预测,从而获得翻译模型流在每一步的预测概率,翻译模型流在每一步的预测概率表示为:
其中,gyj表示多语言翻译模型在第j步的预测概率。
由此完成了对翻译模型流的微调,获得了最终的多语言翻译模型,该多语言翻译模型的翻译质量可利用预训练编码器的知识,其翻译质量更高。
本发明第二实施例提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现本发明第一实施例提供的一种多语言翻译模型构建方法。在本发明所提供的实施例中,应理解,“与A对应的B”表示B与A相关联,根据A可以确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其他信息确定B。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定特征、结构或特性可以以任意适合的方式结合在一个或多个实施例中。本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在本发明的各种实施例中,应理解,上述各过程的序号的大小并不意味着执行顺序的必然先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在本发明的附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方案中,方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,在此基于涉及的功能而确定。需要特别注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
与现有技术相比,本发明提供的多语言翻译模型构建方法及存储介质具有以下优点:
1、本发明的一种多语言翻译模型构建方法,包括如下步骤:获取预训练编码器和预训练解码器并分别进行训练;构建多语言翻译模型,多语言翻译模型包括预训练编码器和多语言解码器,对其中预训练编码器添加编码融合转换器,多语言解码器包括语言模型流和翻译模型流;编码融合转换器使用随机初始化,多语言解码器中的语言模型流和翻译模型流均使用训练后的预训练解码器的参数进行初始化;获取第一双语数据,通过所述第一双语数据对所述编码融合转换器进行训练;获取第二双语数据,通过所述第二双语数据对所述翻译模型流进行微调。通过在构建多语言翻译模型之后,仅对编码融合转换器训练和翻译模型流微调,确保了预训练编码器和语言模型流的参数冻结,从而充分保留预训练编码器和语言模型流中的多语言知识不被破坏,有效避免多语言翻译模型微调或结构调整导致的知识丢失和灾难性遗忘,尽可能保持其中学到的知识,因此,在翻译任务微调时,采用少数几种语言对训练翻译模型,便可以实现多种语言对间的翻译能力。另外,由于需要训练的参数大幅减少,因此多语言翻译模型训练所需的双语平行语料将大幅度降低,并进一步提升低资源和零资源语言方向上的翻译质量。
2、本发明的训练预训练编码器,具体包括:获取单语数据;将所述单语数据输入所述预训练编码器,以掩码语言模型作为训练目标,对所述预训练编码器进行训练,获得训练后的所述预训练编码器。通过单语数据对预训练编码器进行训练,以提升预训练编码器的知识迁移能力和编码能力。
3、本发明的所述单语数据输入所述预训练解码器,以因果语言模型作为训练目标,对所述预训练解码器进行训练,获得训练后的所述预训练解码器。通过单语数据训练预训练解码器,从而提高预训练解码器的语言文本生成的能力。
4、本发明的所述获得训练后的所述预训练编码器之后,所述方法还包括:获取第三双语数据;将所述第三双语数据输入所述预训练编码器,以翻译语言模型作为训练目标,对所述预训练编码器进行训练,获得最终的训练后的所述预训练编码器。通过第三双语数据对预训练编码器进行训练,以进一步提升预训练编码器的知识迁移能力,改善低资源语言的编码能力。
5、本发明的所述预训练编码器和所述多语言解码器采用多层Transformer模型,能实现直接计算每个词之间的相关性,不需要通过隐藏层传递,还能实现并行计算,充分利用GPU资源。
6、本发明的所述翻译模型流的每层根据预训练编码器的输出和所述语言模型流的输出进行微调,具体包括以下步骤:所述编码融合转换器将所述预训练编码器的输出进行语义融合,并将融合后的语义表示转换至所述翻译模型流所在的语义表示空间;所述翻译模型流的每层根据语言模型流的输出和融合后的语义表示生成与所述目标语言对应的译文;所述翻译模型流根据最后一层输出的译文对每一步生成的译文进行预测,获得所述翻译模型流在每一步的预测概率。通过仅对翻译模型流进行微调,保持了预训练编多语言解码器的参数和结构不被破坏,尽可能保持其中学到的知识,并通过编码融合转换器,使翻译模型流能使翻译模型流利用预训练编码器所习得的知识,从而实现了利用语言模型流的输出和预训练编码器的输出对翻译模型进行微调,从而降低构建多语言翻译模型所需的双语平行语料的数据量和语言对数量,进一步提升低资源和零资源语言方向上的翻译质量。
7、本发明还提供一种计算机可读存储介质,具有与上述多语言翻译模型构建方法相同的有益效果,在此不做赘述。
以上对本发明实施例公开的一种多语言翻译模型构建方法及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制,凡在本发明的原则之内所作的任何修改,等同替换和改进等均应包含本发明的保护范围之内。
Claims (9)
1.一种多语言翻译模型构建方法,其特征在于:包括如下步骤:
获取预训练编码器和预训练解码器并分别进行训练;
构建多语言翻译模型,多语言翻译模型包括预训练编码器和多语言解码器,对其中预训练编码器添加编码融合转换器,所述多语言解码器包括语言模型流和翻译模型流;
所述编码融合转换器使用随机初始化,所述多语言解码器中的所述语言模型流和所述翻译模型流均使用训练后的预训练解码器的参数进行初始化;
获取第一双语数据,通过所述第一双语数据对所述编码融合转换器进行训练;
获取第二双语数据,通过所述第二双语数据对所述翻译模型流进行微调;其中,所述第二双语数据包括目标语言及对应的历史译文;
通过所述第二双语数据对所述翻译模型流进行微调的具体包括以下步骤:
将所述第二双语数据输入所述预训练编码器,获得所述预训练编码器的输出;
将所述历史译文输入所述语言模型流,获得所述语言模型流的输出;
所述翻译模型流的每层根据预训练编码器的输出和所述语言模型流的输出进行微调。
2.如权利要求1所述的多语言翻译模型构建方法,其特征在于:训练预训练编码器,具体包括以下步骤:
获取单语数据;
将所述单语数据输入所述预训练编码器,以掩码语言模型作为训练目标,对所述预训练编码器进行训练,获得训练后的所述预训练编码器。
3.如权利要求2所述的多语言翻译模型构建方法,其特征在于:训练预训练解码器,具体包括:
将所述单语数据输入所述预训练解码器,以因果语言模型作为训练目标,对所述预训练解码器进行训练,获得训练后的所述预训练解码器。
4.如权利要求2所述的多语言翻译模型构建方法,其特征在于:所述获得训练后的所述预训练编码器之后,所述方法还包括:
获取第三双语数据;
将所述第三双语数据输入所述预训练编码器,以翻译语言模型作为训练目标,对所述预训练编码器进行训练,获得最终的训练后的所述预训练编码器。
5.如权利要求1所述的多语言翻译模型构建方法,其特征在于:通过所述第一双语数据对所述编码融合转换器进行训练,具体为:
通过所述第一双语数据进行多语言翻译任务的训练,使编码融合转换器将所述预训练编码器的语义表示进行融合并转换到所述多语言解码器的语义表示空间。
6.如权利要求5所述的多语言翻译模型构建方法,其特征在于:所述预训练编码器和所述多语言解码器均采用多层Transformer模型。
7.如权利要求6所述的多语言翻译模型构建方法,其特征在于:通过所述第一双语数据进行多语言翻译任务的训练,使编码融合转换器将所述预训练编码器的语义表示进行融合并转换到所述多语言解码器的语义表示空间,具体包括以下步骤:
将所述第一双语数据输入所述预训练编码器,使所述预训练编码器的每层对所述第一双语数据中每个词的上下文信息进行编码,输出对应的向量表示;
所述编码融合转换器将所述预训练编码器的不同层输出的每个词对应的向量表示分别进行语义融合,并将融合后的语义表示转换到所述多语言解码器所在的语义表示空间。
8.如权利要求1所述的多语言翻译模型构建方法,其特征在于:
所述翻译模型流的每层根据预训练编码器的输出和所述语言模型流的输出进行微调,具体包括以下步骤:
所述编码融合转换器将所述预训练编码器的输出进行语义融合,并将融合后的语义表示转换至所述翻译模型流所在的语义表示空间;
所述翻译模型流的每层根据语言模型流的输出和融合后的语义表示生成与所述目标语言对应的译文;
所述翻译模型流根据最后一层输出的译文对每一步生成的译文进行预测,获得所述翻译模型流在每一步的预测概率。
9.一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,其特征在于:计算机程序被执行时实现如权利要求1-8任一项所述的多语言翻译模型构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211720960.6A CN115688815B (zh) | 2022-12-30 | 2022-12-30 | 多语言翻译模型构建方法及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211720960.6A CN115688815B (zh) | 2022-12-30 | 2022-12-30 | 多语言翻译模型构建方法及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115688815A CN115688815A (zh) | 2023-02-03 |
CN115688815B true CN115688815B (zh) | 2023-03-31 |
Family
ID=85057494
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211720960.6A Active CN115688815B (zh) | 2022-12-30 | 2022-12-30 | 多语言翻译模型构建方法及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115688815B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022020467A1 (en) * | 2020-07-22 | 2022-01-27 | Unbabel, Inc. | System and method for training multilingual machine translation evaluation models |
WO2022116821A1 (zh) * | 2020-12-04 | 2022-06-09 | 北京有竹居网络技术有限公司 | 基于多语言机器翻译模型的翻译方法、装置、设备和介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115270826B (zh) * | 2022-09-30 | 2023-01-24 | 北京澜舟科技有限公司 | 多语言翻译模型构建方法、翻译方法及计算机存储介质 |
-
2022
- 2022-12-30 CN CN202211720960.6A patent/CN115688815B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022020467A1 (en) * | 2020-07-22 | 2022-01-27 | Unbabel, Inc. | System and method for training multilingual machine translation evaluation models |
WO2022116821A1 (zh) * | 2020-12-04 | 2022-06-09 | 北京有竹居网络技术有限公司 | 基于多语言机器翻译模型的翻译方法、装置、设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115688815A (zh) | 2023-02-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112115687B (zh) | 一种结合知识库中的三元组和实体类型的生成问题方法 | |
Ziegler et al. | Encoder-agnostic adaptation for conditional language generation | |
US11798534B2 (en) | Systems and methods for a multilingual speech recognition framework | |
CN113158665A (zh) | 一种基于文本摘要生成与双向语料改善对话文本生成的方法 | |
CN110059324B (zh) | 基于依存信息监督的神经网络机器翻译方法及装置 | |
CN114118065B (zh) | 一种电力领域中文文本纠错方法、装置、存储介质及计算设备 | |
Tran et al. | A hierarchical neural model for learning sequences of dialogue acts | |
JP7112075B2 (ja) | 音声合成のためのフロントエンドの学習方法、コンピュータプログラム、音声合成システム、及び音声合成のためのフロントエンド処理方法 | |
CN112257465B (zh) | 一种基于图像描述生成的多模态机器翻译数据增强方法 | |
CN115270826B (zh) | 多语言翻译模型构建方法、翻译方法及计算机存储介质 | |
CN111767718A (zh) | 一种基于弱化语法错误特征表示的中文语法错误更正方法 | |
Inaguma et al. | Orthros: Non-autoregressive end-to-end speech translation with dual-decoder | |
CN112287641B (zh) | 一种同义句生成方法、系统、终端及存储介质 | |
US11586833B2 (en) | System and method for bi-directional translation using sum-product networks | |
CN115688815B (zh) | 多语言翻译模型构建方法及存储介质 | |
CN113392656A (zh) | 一种融合推敲网络和字符编码的神经机器翻译方法 | |
CN111178097B (zh) | 基于多级翻译模型生成中泰双语语料的方法及装置 | |
Liu et al. | Modular end-to-end automatic speech recognition framework for acoustic-to-word model | |
CN113593534B (zh) | 针对多口音语音识别的方法和装置 | |
Dong et al. | Demonsf: A multi-task demonstration-based generative framework for noisy slot filling task | |
CN112989845B (zh) | 一种基于路由算法的篇章级神经机器翻译方法及系统 | |
Nath et al. | A study on approaches to neural machine translation | |
Ali | Artificial intelligence-enabled English translation system using unsupervised learning for wireless network | |
CN115659973A (zh) | 一种融合引导注意力的中文长文本摘要生成方法 | |
Hao et al. | Mongolian-Chinese Machine Translation Based on Graph Neural Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |