CN112560510B - 翻译模型训练方法、装置、设备及存储介质 - Google Patents

翻译模型训练方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112560510B
CN112560510B CN202011454443.XA CN202011454443A CN112560510B CN 112560510 B CN112560510 B CN 112560510B CN 202011454443 A CN202011454443 A CN 202011454443A CN 112560510 B CN112560510 B CN 112560510B
Authority
CN
China
Prior art keywords
language
training
corpus
training corpus
parallel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011454443.XA
Other languages
English (en)
Other versions
CN112560510A (zh
Inventor
叶忠义
张为泰
刘俊华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN202011454443.XA priority Critical patent/CN112560510B/zh
Publication of CN112560510A publication Critical patent/CN112560510A/zh
Application granted granted Critical
Publication of CN112560510B publication Critical patent/CN112560510B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/49Data-driven translation using very large corpora, e.g. the web

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种翻译模型训练方法、装置、设备及存储介质,本申请针对源语言和/或目标语言,获取其各自的近似语言下的训练语料,以及训练语料的平行语料,其中,若训练语料的语言与源语言近似,该平行语料是目标语言,若训练语料的语言与目标语言近似,该平行语料是源语言,针对训练语料中至少一文本单元,利用该文本单元在与训练语料近似的源语言或目标语言下的平行文本单元进行替换,得到混合语言训练语料,由混合语言训练语料与平行语料组成平行语料对,以平行语料对加入训练样本集,训练源语言至目标语言的翻译模型。本申请利用了源语言和/或目标语言的近似语言资源,丰富了模型训练数据,提升了翻译模型的训练效果。

Description

翻译模型训练方法、装置、设备及存储介质
技术领域
本申请涉及机器学习技术领域,更具体的说,是涉及一种翻译模型训练方法、装置、设备及存储介质。
背景技术
现代机器翻译系统,利用平行语料学习翻译语言间的映射关系,使得机器翻译的质量与平行句对的数据成正相关。当翻译任务的平行句对数量比较丰富时,翻译模型质量较高,但是当翻译任务的句对数据受限时,也大幅限制了机器翻译模型的质量。
为了解决翻译训练语料较少的问题,可以使用数据增强的方式来伪造训练数据。其中,回译作为一种广泛使用的机器翻译数据增强方法,已经成为现代翻译系统的标配。回译是一种有效的利用目标端单语数据的数据增强方法,但是目标端单语数据在许多场景也是比较稀少的。因此,如何解决由于翻译训练语料较少导致的模型训练不足,是一个亟需解决的问题。
发明内容
鉴于上述问题,提出了本申请以便提供一种翻译模型训练方法、装置、设备及存储介质,以解决翻译训练语料较少的场景下,模型训练不足的问题。具体方案如下:
一种翻译模型训练方法,包括:
获取源语言和/或目标语言各自的近似语言下的训练语料,以及所述训练语料的平行语料,其中,若所述训练语料的语言与所述源语言近似,则所述平行语料为目标语言,若所述训练语料的语言为与所述目标语言近似,则所述平行语料为源语言;
针对所述训练语料中的至少一文本单元,利用所述文本单元在与所述训练语料语言近似的源语言或目标语言下的平行文本单元进行替换,得到混合语言训练语料,并由混合语言训练语料与所述训练语料的平行语料组成平行语料对;
以所述平行语料对加入训练样本集,训练源语言至目标语言的翻译模型。
优选地,所述针对所述训练语料中的至少一文本单元,利用所述文本单元在与所述训练语料语言近似的源语言或目标语言下的平行文本单元进行替换,得到混合语言训练语料,包括:
获取所述训练语料的语义单元;
针对所述训练语料中的至少一个语义单元,利用所述语义单元在与所述训练语料语言近似的源语言或目标语言下的平行语义单元进行替换,得到混合语言训练语料。
优选地,所述获取所述训练语料的语义单元,包括:
对所述训练语料进行句法结构分析,得到句法结构树;
从所述句法结构树中提取设定句法结构信息,作为训练语料的语义单元。
优选地,所述从所述句法结构树中提取设定句法结构信息,作为训练语料的语义单元,包括:
基于所述句法结构树,将训练语料中被修饰词语及其对应的修饰性词语进行合并;
基于词语合并后的训练语料,从中提取设定句法结构信息,作为训练语料的语义单元。
优选地,在所述从所述句法结构树中提取设定句法结构信息之前,该方法还包括:
对所述训练语料进行词性标注,并基于标注的词性过滤掉虚词。
优选地,所述针对所述训练语料中的至少一个语义单元,利用所述语义单元在与所述训练语料语言近似的源语言或目标语言下的平行语义单元进行替换,得到混合语言训练语料,包括:
对所述训练语料中每一语义单元,以设定替换比例p的概率标记为需要替换;
采用预训练的相似语言翻译模型,按照所述训练语料中各语义单元标记的替换概率进行翻译替换,得到模型输出的混合语言训练语料,所述相似语言翻译模型为,处理由所述训练语料的语言至与其语言近似的源语言或目标语言的翻译任务的模型。
优选地,当所述设定替换比例p大于设定阈值时,所述相似语言翻译模型为句子级翻译模型;当所述设定替换比例p不超过所述设定阈值时,所述相似语言翻译模型为短语级翻译模型。
优选地,还包括:
获取预训练的混合翻译模型,所述混合翻译模型为处理源语言、源语言近似语言至所述目标语言翻译任务的模型;
将所述混合语言训练语料输入所述混合翻译模型,得到输出的预测目标语言语料;
以所述混合语言训练语料及所述预测目标语言语料组成的平行语料对加入所述训练样本集。
优选地,所述源语言至目标语言的翻译模型的初始化参数为预训练的第三方翻译模型的模型参数;
其中,若所述训练语料的语言与所述源语言近似,则所述第三方翻译模型为处理由所述训练语料的语言至所述目标语言的翻译任务的模型;若所述训练语料的语言与所述目标语言近似,则所述第三方翻译模型为处理由所述源语言至所述训练语料的语言的翻译任务的模型。
优选地,所述源语言至目标语言的翻译模型的训练过程,随训练的进行,训练样本集中组成所述平行语料对的混合语言训练语料中,替换后的平行文本单元的占比逐渐递增。
一种翻译模型训练装置,包括:
数据获取单元,用于获取源语言和/或目标语言各自的近似语言下的训练语料,以及所述训练语料的平行语料,其中,若所述训练语料的语言与所述源语言近似,则所述平行语料为目标语言,若所述训练语料的语言为与所述目标语言近似,则所述平行语料为源语言;
文本替换单元,用于针对所述训练语料中的至少一文本单元,利用所述文本单元在与所述训练语料语言近似的源语言或目标语言下的平行文本单元进行替换,得到混合语言训练语料,并由混合语言训练语料与所述训练语料的平行语料组成平行语料对;
模型训练单元,用于以所述平行语料对加入训练样本集,训练源语言至目标语言的翻译模型。
一种翻译模型训练设备,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如上所述的翻译模型训练方法的各个步骤。
一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的翻译模型训练方法的各个步骤。
借由上述技术方案,本申请的翻译模型训练方法,针对源语言和/或目标语言,获取其各自的近似语言下的训练语料,以及训练语料的平行语料,其中,若训练语料的语言与源语言近似,则该平行语料是目标语言,反之,若训练语料的语言与目标语言近似,则该平行语料是源语言,在此基础上,针对训练语料中至少一文本单元,利用该文本单元在与训练语料近似的源语言或目标语言下的平行文本单元进行替换,得到混合语言训练语料,该混合语言训练语料融合有训练语料的语言文本以及与之近似语言的文本,并由混合语言训练语料与所述训练语料的平行语料组成平行语料对,进而以平行语料对加入训练样本集,训练源语言至目标语言的翻译模型。由此可见,本申请利用了源语言和/或目标语言的近似语言资源来伪造训练数据,解决了源语言和/或目标语言的资源受限的场景下,导致翻译模型训练不足的问题。
进一步的,本申请伪造的训练数据也即,混合语言训练语料是融合有训练语料的语言文本以及与之近似语言的文本,并非直接使用源语言和/或目标语言各自的近似语言下的训练语料,通过近似语言的融合作为训练数据,使得翻译模型更加容易迁移相似语言的语言学知识,使得翻译模型的跨语言迁移学习难度降低,提升了翻译质量。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请实施例提供的翻译模型训练方法的一流程示意图;
图2示例了一种混合语言训练语料的确定过程示意图;
图3示例了一种获取训练语料的语义单元的过程示意图;
图4示例了一种训练语料中需要替换的语义单元的比例p随训练过程的变化趋势示意图;
图5为本申请实施例提供的一种翻译模型训练装置结构示意图;
图6为本申请实施例提供的翻译模型训练设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请提供了一种翻译模型的训练方案,针对源语言至目标语言的翻译模型,可以通过迁移第三方语言的训练语料来伪造翻译模型的训练数据,以实现训练数据增强,解决源语言、目标语言训练资源受限的问题。
本申请方案可以基于具备数据处理能力的终端实现,该终端可以是手机、电脑、服务器、云端等。
接下来,结合图1所述,本申请的翻译模型训练方法可以包括如下步骤:
步骤S100、获取源语言和/或目标语言各自的近似语言下的训练语料,以及所述训练语料的平行语料。
其中,若所述训练语料的语言与所述源语言近似,则所述平行语料为目标语言。反之,若所述训练语料的语言为与所述目标语言近似,则所述平行语料为源语言。
本申请的翻译模型训练方法针对的即为由源语言至目标语言的翻译模型的训练过程。为了便于表述,定义源语言表示为S,目标语言表示为T。则本步骤中,可以仅获取源语言S的近似语言下的训练语料,也即,使用源语言S的近似语言下的语言资源进行数据增强。或者是,可以仅获取目标语言T的近似语言下的训练语料,也即,使用目标语言T的近似语言下的语言资源进行数据增强。亦或者是,同时获取源语言S的近似语言下的训练语料,以及,目标语言T的近似语言下的训练语料,也即,同时使用源语言S的近似语言下的语言资源和目标语言T的近似语言下的语言资源进行数据增强。
对于源语言S的近似语言定义为A,近似语言A下的训练语料定义为a1,则训练语料a1的平行语料为训练语料a1在目标语言T下的平行语料t1。
对于目标语言T的近似语言定义为B,近似语言B下的训练语料定义为b1,则训练语料b1的平行语料为训练语料b1在源语言S下的平行语料s1。
其中,关于近似语言可以是用户预先设定的各语言,以源语言S的近似语言A为例进行说明,S和A可以是具有相似的词汇表、语法结构等语言学特征。示例如,S为中文,则A可以是英文或其它语言。
步骤S110、针对所述训练语料中的至少一文本单元,利用所述文本单元在与所述训练语料语言近似的源语言或目标语言下的平行文本单元进行替换,得到混合语言训练语料,并由混合语言训练语料与所述训练语料的平行语料组成平行语料对。
具体的,训练语料是由若干文本单元组成的,以训练语料为中文为例,则文本单元可以是字、词、词组等多种形式。
本步骤中,为了降低翻译模型迁移相似语言的语言学知识的难度,并非直接将训练语料及其平行语料作为训练样本,而是将训练语料的语言及与之相似语言进行融合,得到混合语言训练语料,由混合语言训练语料及平行语料组成平行语料对,加入训练样本集。
其中,在进行相似语言融合时,针对训练语料中的至少一个文本单元,利用该文本单元在与所述训练语料语言近似的源语言或目标语言下的平行文本单元进行替换,得到混合语言训练语料。
当训练语料为a1时,则针对a1中的至少一文本单元,利用该文本单元在源语言S下的平行文本单元进行替换,得到替换后的混合语言训练语料a2,由混合语言训练语料a2与平行语料t1组成平行语料对。
当训练语料为b1时,则针对b1中的至少一文本单元,利用该文本单元在目标语言T下的平行文本单元进行替换,得到替换后的混合语言训练语料b2,由混合语言训练语料b2与平行语料s1组成平行语料对。
参考图2,其示例了一种混合语言训练语料的确定过程。
训练语料为中文的“我有一个苹果”,本实施例中定义英文为中文的近似语言。则可以选取训练语料中的至少一个文本单元,如“有”,并将其替换为英语下的平行文本单元“have”。则训练语料替换后得到的混合语言训练语料为“我have一个苹果”。
步骤S120、以所述平行语料对加入训练样本集,训练源语言至目标语言的翻译模型。
具体的,基于前述各步骤,得到了融合了近似语言的混合语言训练语料,由混合语言训练语料及平行语料组成平行语料对加入训练样本集,并对源语言至目标语言的翻译模型进行训练。
为例便于表述,可以将源语言至目标语言的翻译模型定义为翻译模型S-T。
可以理解的是,翻译模型S-T训练过程所使用的训练样本集中,可以不仅仅包含上述平行语料对,其还可以包括源语言S与目标语言T的平行语料。除此之外,还可以包括语言A与目标语言T的平行语料,和/或,源语言S与语言B的平行语料等。
本申请实施例提供的翻译模型训练方法,针对源语言和/或目标语言,获取其各自的近似语言下的训练语料,以及训练语料的平行语料,其中,若训练语料的语言与源语言近似,则该平行语料是目标语言,反之,若训练语料的语言与目标语言近似,则该平行语料是源语言,在此基础上,针对训练语料中至少一文本单元,利用该文本单元在与训练语料近似的源语言或目标语言下的平行文本单元进行替换,得到混合语言训练语料,该混合语言训练语料融合有训练语料的语言文本以及与之近似语言的文本,并由混合语言训练语料与所述训练语料的平行语料组成平行语料对,进而以平行语料对加入训练样本集,训练源语言至目标语言的翻译模型。由此可见,本申请利用了源语言和/或目标语言的近似语言资源来伪造训练数据,解决了源语言和/或目标语言的资源受限的场景下,导致翻译模型训练不足的问题。
进一步的,本申请伪造的训练数据也即,混合语言训练语料是融合有训练语料的语言文本以及与之近似语言的文本,并非直接使用源语言和/或目标语言各自的近似语言下的训练语料,通过近似语言的融合作为训练数据,使得翻译模型更加容易迁移相似语言的语言学知识,使得翻译模型的跨语言迁移学习难度降低,提升了翻译质量。
在本申请的一些实施例中,在使用源语言和/或目标语言的近似语言资源进行数据增强时,对于近似的语音之间,除了共享一些字符之外,其往往还具有相似的句法结构,这些句法结构能够提供额外的对齐信息,因此如果能够利用句法结构,可以使得翻译模型更加容易的迁移相似语言的语言学知识,加快翻译模型的收敛速度,提高模型翻译质量。
同时,人类在进行语言翻译任务时,通常会先对文本的句子结构进行语义分解,然后,先翻译各个语义单元,最后再把各个语义单元联系起来组成完整的翻译句子。仿造人类这种思想,本实施例中在确定混合语言训练语料的过程中,可以使用语义单元替换的方式进行不同语言间数据的融合,以实现语义间句法级对齐与关联。
具体的,上述步骤S110,针对所述训练语料中的至少一文本单元,利用所述文本单元在与所述训练语料语言近似的源语言或目标语言下的平行文本单元进行替换,得到混合语言训练语料的过程,可以包括:
S1、获取所述训练语料的语义单元。
S2、针对所述训练语料中的至少一个语义单元,利用所述语义单元在与所述训练语料语言近似的源语言或目标语言下的平行语义单元进行替换,得到混合语言训练语料。
接下来,对S1获取训练语料的语义单元的过程进行介绍,该过程可以包括:
S11、对所述训练语料进行句法结构分析,得到句法结构树。
具体的,句法结构分析(syntactic parsing)是自然语言处理中的关键技术之一,它是对输入的文本句子进行分析以得到句子的句法结构的处理过程。句法结构分析的结果通常是一颗句法结构树,表示文本中各个模块的依赖关系。通过句法结构分析,可以获取句子的主要结构信息,包括主语、谓语、宾语等。由于相似的语言往往具有相似的句法结构信息,本申请通过句法结构分析,获取训练语料的语义单元,进而供后续进行语义单元的跨语言替换融合,实现相似语言的文本进行短语级别替换,不会影响句子的语义完整性。
本步骤中,在对训练语料进行句法结构分析时,可以是以训练语料中的句子为单位进行逐句的分析,得到每一个句子的句法结构树。
S12、从所述句法结构树中提取设定句法结构信息,作为训练语料的语义单元。
具体的,本实施例中可以预先设定需要提取的句法结构信息,如主语、谓语、宾语、定语、状语、补语等,作为训练语料的语义单元。
一种可选的实现方式,可以先基于所述句法结构树,将训练语料中被修饰词语及其对应的修饰性词语进行合并。
进一步,基于词语合并后的训练语料,从中提取设定句法结构信息,作为训练语料的语义单元。
可选的,在上述S12之前,获取训练语料的语义单元的过程还可以包括:
S13、对所述训练语料进行词性标注,并基于标注的词性过滤掉虚词。
具体的,通过词性标注,可以确定训练语料中各词的词性,对于语气词、连词、辅助词等虚词,对句法结构不产生影响,因此可以先进行过滤。
接下来,参照图3,其示例了一种获取训练语料的语义单元的过程示意图。
训练语料为“妈妈把旧窗帘撕成了抹布。”。
对训练语料进行句法结构分析以及词性标注,结果如图3所示。进一步的,过滤掉虚词“了”。再进一步,将修饰词和被修饰词进行合并,最终得到的训练语料对应的语义单元包括:“妈妈”、“把”、“旧窗帘”、“斯”、“成”、“抹布”。
在本申请的一些实施例中,对上述S2,针对所述训练语料中的至少一个语义单元,利用所述语义单元在与所述训练语料语言近似的源语言或目标语言下的平行语义单元进行替换,得到混合语言训练语料的过程进行介绍。
本实施例中,对训练语料进行语义单元的跨语言替换,其中,可以预先设定所要替换的语义单元的比例p,该比例p表示训练语料中所要替换的语义单元与训练语料包含的语义单元总个数的比值。可以理解的是,p越大,表示训练语料所要替换的语义单元的个数越多。通过语义单元的替换,实现了跨语言的句法结构对齐及融合。
语义单元替换的过程,具体可以包括:
S21、对所述训练语料中每一语义单元,以设定替换比例p的概率标记为需要替换。
S22、采用预训练的相似语言翻译模型,按照所述训练语料中各语义单元标记的替换概率进行翻译替换,得到模型输出的混合语言训练语料。
其中,所述相似语言翻译模型为,处理由所述训练语料的语言至与其语言近似的源语言或目标语言的翻译任务的模型。
以训练语料为a1为例,则相似语言翻译模型可以表示为翻译模型A-T,其是处理由语言A至目标语言T的翻译任务的模型。
翻译模型A-T可以是利用语言A与语言T的丰富语言资源进行预先训练得到。
进一步,若训练语料为b1,则相似语言翻译模型可以表示为翻译模型S-B,其是处理由语言S至目标语言B的翻译任务的模型。
翻译模型S-B可以是利用语言S与语言B的丰富语言资源进行预先训练得到。
上述采用相似语言翻译模型按照所述训练语料中各语义单元标记的替换概率进行翻译替换时,在对每一语义单元进行翻译替换之前,可以生成一个随机数,并判断随机数是否超过标记的替换概率p,若超过,则代表需要对当前语义单元进行翻译替换,否则,不需要对当前语义单元进行翻译替换。
需要说明的是,当所述设定替换比例p较大时,说明训练语料中需要进行翻译的文本单元较多,为了提高翻译的准确度,本实施例中可以配置相似语言翻译模型为句子级翻译模型,反之,当所述设定替换比例p较小时,可以配置相似语言翻译模型为短语级翻译模型。
具体的,本申请可以预先设置一个阈值,当判断p大于设定阈值时,配置相似语言翻译模型为句子级翻译模型,当p不超过设定阈值时,配置相似语言翻译模型为短语级翻译模型。
其中,句子级翻译模型为,基于句子级别的神经网络翻译模型。短语级翻译模型为,基于短语级别的神经网络翻译模型。
在本申请的一些实施例中,进一步提供了一种基于知识蒸馏的数据桥接方案。具体的,对于前述各实施例生成的混合语言训练语料与平行语料组成的平行语料对,若直接送入翻译模型比较难学习。为此,本实施例中可以利用知识蒸馏的方法进行数据桥接,以进一步增强数据。
具体实现方式如下:
S1、获取预训练的混合翻译模型。
其中。所述混合翻译模型为处理源语言、源语言近似语言至所述目标语言翻译任务的模型。
本步骤中,可以预先训练一个由源语言S、源语言近似语言A到目标语言T的混合翻译模型。具体的,以源语言S与目标语言T的平行语料对,以及语言A与目标语言T的平行语料,训练混合翻译模型,作为教师模型,使得教师模型能够学习到源语言S与目标语言T间的语言知识,以及语言A与目标语言T间的语言知识。
S2、将所述混合语言训练语料输入所述混合翻译模型,得到输出的预测目标语言语料。
对于前述获取的混合语言训练语料,输入上述预训练的混合翻译模型,得到模型输出的预测目标语言语料,定义为t-student。可以理解的是,该预测目标语言语料t-student可以同时融入源语言S与目标语言T间的语言知识,以及语言A与目标语言T间的语言知识。
S3、以所述混合语言训练语料及所述预测目标语言语料组成的平行语料对加入所述训练样本集。
具体的,将混合语言训练语料与预测目标语言语料t-student组成平行语料对,加入训练样本集。则训练样本集中,同时包括混合语言训练语料与平行语料组成的平行语料对,以及由混合语言训练语料与预测目标语言语料t-student组成平行语料对。
本实施例中,对于混合语言训练语料,经过混合翻译模型输出预测目标语言语料,该预测目标语言语料可以同时融入源语言S与目标语言T间的语言知识,以及语言A与目标语言T间的语言知识,进而由混合语言训练语料与预测目标语言语料组成平行语料对,加入训练样本集。也即,本实施例中利用知识蒸馏的方法进行数据桥接,进一步增强数据,降低翻译模型的学习难度,提升了模型的翻译质量。
在本申请的一些实施例中,由于混合语言训练语料融合了不同语言的文本,进而在翻译任务S-T和翻译任务A-T之间建立起联系,以及在翻译任务S-T和翻译任务S-B之间建立起联系。在此基础上,本实施例中可以在跨语言迁移学习中进一步联合第三方语言的预训练模型和训练语料。
具体的,可以使用预训练的第三方翻译模型的模型参数,对源语言至目标语言的翻译模型S-T进行参数初始化。
其中,若所述训练语料的语言与所述源语言S近似,也即,训练语料的语言为A,则所述第三方翻译模型为处理由所述训练语料的语言A至所述目标语言T的翻译任务的模型,定义为翻译模型A-T。
若所述训练语料的语言与所述目标语言T近似,也即,训练语料的语言为B,则所述第三方翻译模型为处理由所述源语言S至所述训练语料的语言B的翻译任务的模型,定义为翻译模型S-B。
本实施例中,通过将第三方翻译模型迁移至源语言至目标语言的翻译模型中,结合由第三方语言训练语料生成的混合语言训练语料,实现了将第三方翻译模型和第三方语言训练语料的有机联合,可以有效提高第三方语言资源的利用效率,从而提升翻译模型的翻译质量。
进一步的,为了使翻译模型S-T知识迁移更加平顺,在翻译模型S-T的训练过程中,随着训练的进行,本实施例中可以通过改变训练样本集中组成平行语料对的混合语言训练语料中,替换后的平行文本单元的占比来适配翻译模型S-T的迁移。
具体的,随着训练的进行,训练样本集中组成所述平行语料对的混合语言训练语料中,替换后的平行文本单元的占比可以逐渐递增。
在训练的初始阶段,翻译模型S-T的参数全部为翻译模型A-T的参数,此时混合语言训练语料中替换后的平行文本单元的比例p可以为零,也即混合语言训练语料即为源语言和/或目标语言各自的近似语言下的训练语料,未进行平行文本单元的替换。
随着训练的进行,逐步提高p的比例,使得翻译模型S-T能够同时学会语言A和语言S的对齐关系,和/或,语言B和语言T的对齐关系。
在训练的最后阶段,p可以调整为1,此时翻译模型S-T的训练样本全部是S-T的平行语料对,翻译模型的参数学习的是S-T之间的知识,从而完成最终的迁移学习目的。p随着训练过程的变化趋势如图4所示。
本实施例中,通过控制混合语言训练语料中第三方语言的融合比例,来平滑的控制跨语言迁移学习流程。使用本实施例提供的方法,可以使得语言间迁移更加平滑,并且能够有效的利用第三方语言的预训练翻译模型和平行语料对。
下面对本申请实施例提供的翻译模型训练装置进行描述,下文描述的翻译模型训练装置与上文描述的翻译模型训练方法可相互对应参照。
参见图5,图5为本申请实施例公开的一种翻译模型训练装置结构示意图。
如图5所示,该装置可以包括:
数据获取单元11,用于获取源语言和/或目标语言各自的近似语言下的训练语料,以及所述训练语料的平行语料,其中,若所述训练语料的语言与所述源语言近似,则所述平行语料为目标语言,若所述训练语料的语言为与所述目标语言近似,则所述平行语料为源语言;
文本替换单元12,用于针对所述训练语料中的至少一文本单元,利用所述文本单元在与所述训练语料语言近似的源语言或目标语言下的平行文本单元进行替换,得到混合语言训练语料,并由混合语言训练语料与所述训练语料的平行语料组成平行语料对;
模型训练单元13,用于以所述平行语料对加入训练样本集,训练源语言至目标语言的翻译模型。
可选的,上述文本替换单元针对所述训练语料中的至少一文本单元,利用所述文本单元在与所述训练语料语言近似的源语言或目标语言下的平行文本单元进行替换,得到混合语言训练语料的过程,可以包括:
获取所述训练语料的语义单元;
针对所述训练语料中的至少一个语义单元,利用所述语义单元在与所述训练语料语言近似的源语言或目标语言下的平行语义单元进行替换,得到混合语言训练语料。
可选的,上述文本替换单元获取所述训练语料的语义单元的过程,可以包括:
对所述训练语料进行句法结构分析,得到句法结构树;
从所述句法结构树中提取设定句法结构信息,作为训练语料的语义单元。
可选的,上述文本替换单元从所述句法结构树中提取设定句法结构信息,作为训练语料的语义单元的过程,可以包括:
基于所述句法结构树,将训练语料中被修饰词语及其对应的修饰性词语进行合并;
基于词语合并后的训练语料,从中提取设定句法结构信息,作为训练语料的语义单元。
可选的,上述文本替换单元在所述从所述句法结构树中提取设定句法结构信息之前,还可以进一步包括:
对所述训练语料进行词性标注,并基于标注的词性过滤掉虚词。
可选的,上述文本替换单元针对所述训练语料中的至少一个语义单元,利用所述语义单元在与所述训练语料语言近似的源语言或目标语言下的平行语义单元进行替换,得到混合语言训练语料的过程,可以包括:
对所述训练语料中每一语义单元,以设定替换比例p的概率标记为需要替换;
采用预训练的相似语言翻译模型,按照所述训练语料中各语义单元标记的替换概率进行翻译替换,得到模型输出的混合语言训练语料,所述相似语言翻译模型为,处理由所述训练语料的语言至与其语言近似的源语言或目标语言的翻译任务的模型。
可选的,当所述设定替换比例p大于设定阈值时,所述相似语言翻译模型为句子级翻译模型;当所述设定替换比例p不超过所述设定阈值时,所述相似语言翻译模型为短语级翻译模型。
可选的,本申请的装置还可以包括:数据桥接单元,用于:
获取预训练的混合翻译模型,所述混合翻译模型为处理源语言、源语言近似语言至所述目标语言翻译任务的模型;
将所述混合语言训练语料输入所述混合翻译模型,得到输出的预测目标语言语料;
以所述混合语言训练语料及所述预测目标语言语料组成的平行语料对加入所述训练样本集。
可选的,所述源语言至目标语言的翻译模型的初始化参数可以是预训练的第三方翻译模型的模型参数;
其中,若所述训练语料的语言与所述源语言近似,则所述第三方翻译模型为处理由所述训练语料的语言至所述目标语言的翻译任务的模型;若所述训练语料的语言与所述目标语言近似,则所述第三方翻译模型为处理由所述源语言至所述训练语料的语言的翻译任务的模型。
可选的,所述源语言至目标语言的翻译模型的训练过程,随训练的进行,训练样本集中组成所述平行语料对的混合语言训练语料中,替换后的平行文本单元的占比可以逐渐递增。
本申请实施例提供的翻译模型训练装置可应用于翻译模型训练设备,如终端:手机、电脑等。可选的,图6示出了翻译模型训练装置设备的硬件结构框图,参照图6,翻译模型训练装置设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取源语言和/或目标语言各自的近似语言下的训练语料,以及所述训练语料的平行语料,其中,若所述训练语料的语言与所述源语言近似,则所述平行语料为目标语言,若所述训练语料的语言为与所述目标语言近似,则所述平行语料为源语言;
针对所述训练语料中的至少一文本单元,利用所述文本单元在与所述训练语料语言近似的源语言或目标语言下的平行文本单元进行替换,得到混合语言训练语料,并由混合语言训练语料与所述训练语料的平行语料组成平行语料对;
以所述平行语料对加入训练样本集,训练源语言至目标语言的翻译模型。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于:
获取源语言和/或目标语言各自的近似语言下的训练语料,以及所述训练语料的平行语料,其中,若所述训练语料的语言与所述源语言近似,则所述平行语料为目标语言,若所述训练语料的语言为与所述目标语言近似,则所述平行语料为源语言;
针对所述训练语料中的至少一文本单元,利用所述文本单元在与所述训练语料语言近似的源语言或目标语言下的平行文本单元进行替换,得到混合语言训练语料,并由混合语言训练语料与所述训练语料的平行语料组成平行语料对;
以所述平行语料对加入训练样本集,训练源语言至目标语言的翻译模型。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间可以根据需要进行组合,且相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (13)

1.一种翻译模型训练方法,其特征在于,包括:
获取源语言和/或目标语言各自的近似语言下的训练语料,以及所述训练语料的平行语料,其中,若所述训练语料的语言与所述源语言近似,则所述平行语料为目标语言,若所述训练语料的语言为与所述目标语言近似,则所述平行语料为源语言,所述近似语言是指具有相似语言学特征的语言;
针对所述训练语料中的至少一文本单元,利用所述文本单元与在所述训练语料语言近似的源语言或目标语言下的平行文本单元进行替换,得到混合语言训练语料,并由混合语言训练语料与所述训练语料的平行语料组成平行语料对;
以所述平行语料对加入训练样本集,训练翻译模型,训练后的翻译模型能够用于处理由所述源语言至所述目标语言的翻译任务。
2.根据权利要求1所述的方法,其特征在于,所述针对所述训练语料中的至少一文本单元,利用所述文本单元与在所述训练语料语言近似的源语言或目标语言下的平行文本单元进行替换,得到混合语言训练语料,包括:
获取所述训练语料的语义单元;
针对所述训练语料中的至少一个语义单元,利用所述语义单元与在所述训练语料语言近似的源语言或目标语言下的平行语义单元进行替换,得到混合语言训练语料。
3.根据权利要求2所述的方法,其特征在于,所述获取所述训练语料的语义单元,包括:
对所述训练语料进行句法结构分析,得到句法结构树;
从所述句法结构树中提取设定句法结构信息,作为训练语料的语义单元。
4.根据权利要求3所述的方法,其特征在于,所述从所述句法结构树中提取设定句法结构信息,作为训练语料的语义单元,包括:
基于所述句法结构树,将训练语料中被修饰词语及其对应的修饰性词语进行合并;
基于词语合并后的训练语料,从中提取设定句法结构信息,作为训练语料的语义单元。
5.根据权利要求3所述的方法,其特征在于,在所述从所述句法结构树中提取设定句法结构信息之前,该方法还包括:
对所述训练语料进行词性标注,并基于标注的词性过滤掉虚词。
6.根据权利要求2所述的方法,其特征在于,所述针对所述训练语料中的至少一个语义单元,利用所述语义单元与在所述训练语料语言近似的源语言或目标语言下的平行语义单元进行替换,得到混合语言训练语料,包括:
对所述训练语料中每一语义单元,以设定替换比例p标记为需要替换;
采用预训练的相似语言翻译模型,按照所述训练语料中各语义单元标记的替换比例进行翻译替换,得到模型输出的混合语言训练语料,所述相似语言翻译模型为,处理由所述训练语料的语言至与其语言近似的源语言或目标语言的翻译任务的模型。
7.根据权利要求6所述的方法,其特征在于,当所述设定替换比例p大于设定阈值时,所述相似语言翻译模型为句子级翻译模型;当所述设定替换比例p不超过所述设定阈值时,所述相似语言翻译模型为短语级翻译模型。
8.根据权利要求1所述的方法,其特征在于,还包括:
获取预训练的混合翻译模型,所述混合翻译模型为处理源语言、源语言近似语言至所述目标语言翻译任务的模型;
将所述混合语言训练语料输入所述混合翻译模型,得到输出的预测目标语言语料;
以所述混合语言训练语料及所述预测目标语言语料组成的平行语料对加入所述训练样本集。
9.根据权利要求1所述的方法,其特征在于,所述源语言至目标语言的翻译模型的初始化参数为预训练的第三方翻译模型的模型参数;
其中,若所述训练语料的语言与所述源语言近似,则所述第三方翻译模型为处理由所述训练语料的语言至所述目标语言的翻译任务的模型;若所述训练语料的语言与所述目标语言近似,则所述第三方翻译模型为处理由所述源语言至所述训练语料的语言的翻译任务的模型。
10.根据权利要求9所述的方法,其特征在于,所述源语言至目标语言的翻译模型的训练过程,随训练的进行,训练样本集中组成所述平行语料对的混合语言训练语料中,替换后的平行文本单元的占比逐渐递增。
11.一种翻译模型训练装置,其特征在于,包括:
数据获取单元,用于获取源语言和/或目标语言各自的近似语言下的训练语料,以及所述训练语料的平行语料,其中,若所述训练语料的语言与所述源语言近似,则所述平行语料为目标语言,若所述训练语料的语言为与所述目标语言近似,则所述平行语料为源语言,所述近似语言是指具有相似语言学特征的语言;
文本替换单元,用于针对所述训练语料中的至少一文本单元,利用所述文本单元与在所述训练语料语言近似的源语言或目标语言下的平行文本单元进行替换,得到混合语言训练语料,并由混合语言训练语料与所述训练语料的平行语料组成平行语料对;
模型训练单元,用于以所述平行语料对加入训练样本集,训练翻译模型,训练后的翻译模型能够用于处理由所述源语言至所述目标语言的翻译任务。
12.一种翻译模型训练设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1~10中任一项所述的翻译模型训练方法的各个步骤。
13.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~10中任一项所述的翻译模型训练方法的各个步骤。
CN202011454443.XA 2020-12-10 2020-12-10 翻译模型训练方法、装置、设备及存储介质 Active CN112560510B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011454443.XA CN112560510B (zh) 2020-12-10 2020-12-10 翻译模型训练方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011454443.XA CN112560510B (zh) 2020-12-10 2020-12-10 翻译模型训练方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112560510A CN112560510A (zh) 2021-03-26
CN112560510B true CN112560510B (zh) 2023-12-01

Family

ID=75062409

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011454443.XA Active CN112560510B (zh) 2020-12-10 2020-12-10 翻译模型训练方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112560510B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113705251A (zh) * 2021-04-01 2021-11-26 腾讯科技(深圳)有限公司 机器翻译模型的训练方法、语言翻译方法及设备
CN113239710A (zh) * 2021-06-23 2021-08-10 合肥讯飞数码科技有限公司 多语言机器翻译方法、装置、电子设备和存储介质
CN115238708B (zh) * 2022-08-17 2024-02-27 腾讯科技(深圳)有限公司 文本语义识别方法、装置、设备、存储介质及程序产品
CN116805004B (zh) * 2023-08-22 2023-11-14 中国科学院自动化研究所 零资源跨语言对话模型训练方法、装置、设备和介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008225963A (ja) * 2007-03-14 2008-09-25 National Institute Of Information & Communication Technology 機械翻訳装置、置換辞書生成装置、機械翻訳方法、置換辞書生成方法、及びプログラム
CN101673260A (zh) * 2003-05-27 2010-03-17 微软公司 用于训练机器翻译机的系统和方法
JP2013218524A (ja) * 2012-04-09 2013-10-24 National Institute Of Information & Communication Technology 翻訳装置、およびプログラム
CN104268132A (zh) * 2014-09-11 2015-01-07 北京交通大学 机器翻译方法及系统
CN105550174A (zh) * 2015-12-30 2016-05-04 哈尔滨工业大学 基于样本重要性的自动机器翻译领域自适应方法
CN109117483A (zh) * 2018-07-27 2019-01-01 清华大学 神经网络机器翻译模型的训练方法及装置
CN109359294A (zh) * 2018-09-18 2019-02-19 湖北文理学院 一种基于神经机器翻译的古汉语翻译方法
CN109408833A (zh) * 2018-10-30 2019-03-01 科大讯飞股份有限公司 一种翻译方法、装置、设备及可读存储介质
CN110210043A (zh) * 2019-06-14 2019-09-06 科大讯飞股份有限公司 文本翻译方法、装置、电子设备及可读存储介质
CN111191451A (zh) * 2019-12-30 2020-05-22 苏州思必驰信息科技有限公司 中文语句简化方法和装置
CN111428518A (zh) * 2019-01-09 2020-07-17 科大讯飞股份有限公司 一种低频词翻译方法及装置
CN111460838A (zh) * 2020-04-23 2020-07-28 腾讯科技(深圳)有限公司 智能翻译模型的预训练方法、装置和存储介质
CN111859994A (zh) * 2020-06-08 2020-10-30 北京百度网讯科技有限公司 机器翻译模型获取及文本翻译方法、装置及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8874433B2 (en) * 2011-05-20 2014-10-28 Microsoft Corporation Syntax-based augmentation of statistical machine translation phrase tables
CN106649288B (zh) * 2016-12-12 2020-06-23 北京百度网讯科技有限公司 基于人工智能的翻译方法和装置
US11037028B2 (en) * 2018-12-31 2021-06-15 Charles University Faculty of Mathematics and Physics Computer-implemented method of creating a translation model for low resource language pairs and a machine translation system using this translation model

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101673260A (zh) * 2003-05-27 2010-03-17 微软公司 用于训练机器翻译机的系统和方法
JP2008225963A (ja) * 2007-03-14 2008-09-25 National Institute Of Information & Communication Technology 機械翻訳装置、置換辞書生成装置、機械翻訳方法、置換辞書生成方法、及びプログラム
JP2013218524A (ja) * 2012-04-09 2013-10-24 National Institute Of Information & Communication Technology 翻訳装置、およびプログラム
CN104268132A (zh) * 2014-09-11 2015-01-07 北京交通大学 机器翻译方法及系统
CN105550174A (zh) * 2015-12-30 2016-05-04 哈尔滨工业大学 基于样本重要性的自动机器翻译领域自适应方法
CN109117483A (zh) * 2018-07-27 2019-01-01 清华大学 神经网络机器翻译模型的训练方法及装置
CN109359294A (zh) * 2018-09-18 2019-02-19 湖北文理学院 一种基于神经机器翻译的古汉语翻译方法
CN109408833A (zh) * 2018-10-30 2019-03-01 科大讯飞股份有限公司 一种翻译方法、装置、设备及可读存储介质
CN111428518A (zh) * 2019-01-09 2020-07-17 科大讯飞股份有限公司 一种低频词翻译方法及装置
CN110210043A (zh) * 2019-06-14 2019-09-06 科大讯飞股份有限公司 文本翻译方法、装置、电子设备及可读存储介质
CN111191451A (zh) * 2019-12-30 2020-05-22 苏州思必驰信息科技有限公司 中文语句简化方法和装置
CN111460838A (zh) * 2020-04-23 2020-07-28 腾讯科技(深圳)有限公司 智能翻译模型的预训练方法、装置和存储介质
CN111859994A (zh) * 2020-06-08 2020-10-30 北京百度网讯科技有限公司 机器翻译模型获取及文本翻译方法、装置及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Neural Machine Translation for Bilingually Scarce Scenarios: A Deep Multi-task Learning Approach;Poorya Zaremoodi等;Arxiv;第1-10页 *
会议场景下融合外部词典知识的领域个性化机器翻译方法;刘庆峰等;中文信息学报;第31-37页 *
基于远监督的语义知识资源扩展研究;卢达威;王星友;袁毓林;;中文信息学报(第06期);全文 *
改进的模板驱动的神经机器翻译;詹聪;李盛乐;;微电子学与计算机(第05期);全文 *

Also Published As

Publication number Publication date
CN112560510A (zh) 2021-03-26

Similar Documents

Publication Publication Date Title
CN112560510B (zh) 翻译模型训练方法、装置、设备及存储介质
CN110543643B (zh) 文本翻译模型的训练方法及装置
CN110555213B (zh) 文本翻译模型的训练方法、文本翻译方法及装置
US11636272B2 (en) Hybrid natural language understanding
CN114757176A (zh) 一种获取目标意图识别模型的方法以及意图识别方法
WO2024011813A1 (zh) 一种文本扩展方法、装置、设备及介质
CN110347802A (zh) 一种文本分析方法及装置
CN110020429B (zh) 语义识别方法及设备
CN110852063B (zh) 基于双向lstm神经网络的词向量生成方法及装置
Kadim et al. Parallel HMM-based approach for arabic part of speech tagging.
CN109992787B (zh) 一种基于cbow模型和依存句法关系的词向量表示方法
CN112633007A (zh) 一种语义理解模型构建方法及装置、语义理解方法及装置
CN109002498B (zh) 人机对话方法、装置、设备及存储介质
CN110866404B (zh) 基于lstm神经网络的词向量生成方法及装置
Talita et al. Challenges in building domain ontology for minority languages
Garay-Vitoria et al. Modelling text prediction systems in low-and high-inflected languages
CN114861628A (zh) 训练机器翻译模型的系统、方法、电子设备及存储介质
CN109446537B (zh) 一种针对机器翻译的译文评估方法及装置
CN112765973A (zh) 评分模型训练方法及装置、作文评分方法及装置
CN115269767A (zh) 模型训练方法、装置和存储介质
CN112686059A (zh) 文本翻译方法、装置、电子设备和存储介质
JP2007286925A (ja) 部分翻訳装置
CN116913278B (zh) 语音处理方法、装置、设备和存储介质
KR20130102926A (ko) 중국어 자동 번역을 위한 생략 성분 복원 방법 및 장치, 이를 포함하는 중국어 자동 번역 방법 및 장치
JP2018180935A (ja) 並列句解析装置、並列句解析モデル学習装置、方法、及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant