CN111144140B - 基于零次学习的中泰双语语料生成方法及装置 - Google Patents

基于零次学习的中泰双语语料生成方法及装置 Download PDF

Info

Publication number
CN111144140B
CN111144140B CN201911338831.9A CN201911338831A CN111144140B CN 111144140 B CN111144140 B CN 111144140B CN 201911338831 A CN201911338831 A CN 201911338831A CN 111144140 B CN111144140 B CN 111144140B
Authority
CN
China
Prior art keywords
chinese
translation
model
corpus
translation model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911338831.9A
Other languages
English (en)
Other versions
CN111144140A (zh
Inventor
张睦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Iol Wuhan Information Technology Co ltd
Original Assignee
Iol Wuhan Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Iol Wuhan Information Technology Co ltd filed Critical Iol Wuhan Information Technology Co ltd
Priority to CN201911338831.9A priority Critical patent/CN111144140B/zh
Publication of CN111144140A publication Critical patent/CN111144140A/zh
Application granted granted Critical
Publication of CN111144140B publication Critical patent/CN111144140B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明实施例提供一种基于零次学习的中泰双语语料生成方法及装置,其中方法包括:获取中文原文句子和泰文原文句子;将中文原文句子输入至预先训练完成的第一翻译模型,输出泰文译文句子,将泰文原文句子输入至预先完成的第二翻译模型,输出中文译文句子;其中,第一翻译模型和第二翻译模型基于零次学习,以高资源的中英双语语料、高资源的英泰双语语料和低资源的中泰双语语料从两个翻译方向联合训练而成。本发明实施例在只存在中英双语语料和英泰双语语料的情况下,获得能够实现生成中泰双语语料的翻译模型,并且通过低资源的中泰双语语料对获得的翻译模型从两个翻译方向进行联合训练,提升模型的表现来更好的进行语料的合成。

Description

基于零次学习的中泰双语语料生成方法及装置
技术领域
本发明涉及文本翻译技术领域,更具体地,涉及基于零次学习的中泰双语语料生成方法及装置。
背景技术
训练一个较高质量机器翻译模型往往需要上百万的双语平行语料。然而对于一些资源较为稀缺的双语语种对,例如中泰双语语料,机翻模型的构建往往是一个不小的挑战。
为了解决这个问题,NLP(Natural Language Processing)工程师往往会做数据合成的工作来产生更多的双语数据,再利用这些合成语料进行机翻模型的训练。由于高质量且数量众多的单语语料很容易获得,因此当前主要的合成方法是基于大量的单语语料和少量的双语语料。例如,对于中泰双语语料,利用当前已有的中泰双语构建一个基础的机翻模型,再利用此机翻模型翻译大量的中文单语成为相应的泰语,以产生合成的中泰双语;最后叠加所有的双语数据进行最终模型的训练。但目前的训练方式存在翻译准确度不够高的问题。
发明内容
本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的基于零次学习的中泰双语语料生成方法及装置。
第一个方面,本发明实施例提供一种基于零次学习的中泰双语语料生成方法,包括:
获取中文原文句子和泰文原文句子;
将所述中文原文句子输入至预先训练完成的第一翻译模型,输出泰文译文句子,将所述泰文原文句子输入至预先完成的第二翻译模型,输出中文译文句子;
其中,所述第一翻译模型和第二翻译模型基于零次学习,以高资源的中英双语语料、高资源的英泰双语语料和低资源的中泰双语语料从两个翻译方向联合训练而成。
进一步地,所述第一翻译模型和第二翻译模型的训练方法包括:
基于零次学习以中文到英文的语料和英文到泰文的语料训练所述第一翻译模型,基于零次学习以泰文到英文的语料和英文到中文的语料训练所述第二翻译模型;
将训练后的所述第一翻译模型的输出端和训练后的所述第二翻译模型的输入端连接,获得第一联合模型,根据中文到泰文的语料训练所述第一联合模型;
将训练后的所述第一联合模型中的第二翻译模型的输出端与训练后的所述第一联合模型中的第一翻译模型的输入锻炼连接,获得第二联合模型,根据泰文到中文的语料训练所述第二联合模型,获得训练完成的第一翻译模型和第二翻译模型。
进一步地,所述基于零次学习以中文到英文的语料和英文到泰文的语料训练所述第一翻译模型,包括:
将中文到英文的语料与英文到泰文的语料进行合并,获得第一数据集,在所述第一数据集中每个语料的原文中增加标识信息,所述标识信息用于表征所述原文指定的译文语种;
从所述第一数据集中选择语料,根据语料的原文对所述第一翻译模型进行训练,输出预测的译文,计算所述预测的译文与所述原文的真实译文之间的损失值,根据所述损失值更新所述第一翻译模型中的参数,直至所述损失值小于预设阈值或者训练次数达到预设次数。
进一步地,所述根据中文到泰文的语料训练所述第一联合模型,具体为:
在中文到泰文的语料中的中文原文中添加标识信息,以指定译文语种为泰文,将所述中文原文输入至所述第一联合模型;
获取所述第一联合模型中的第一翻译模型输出预测的泰文译文,计算所述预测的泰文译文与所述中文原文的真实泰文译文之间的损失值,作为第一损失值;
获取所述第一联合模型中的第二翻译模型输出预测的中文译文,计算所述预测的中文译文与所述中文原文之间的损失值,作为第二损失值;
根据所述第一损失值和第二损失值,分别更新所述第一翻译模型和第二翻译模型中的参数,直至所述第一损失值和第二损失值均小于预设阈值或者训练次数达到预设次数。
进一步地,所述根据泰文到中文的语料训练所述第二翻译模型,具体为:
在泰文到中文的语料中的泰文原文中添加标识信息,以指定译文语种为中文,将所述泰文原文输入至所述第二联合模型;
获取所述第二联合模型中的第二翻译模型输出预测的泰文译文,计算所述预测的中文译文与所述泰文原文的真实中文译文之间的损失值,作为第三损失值;
获取所述第二联合模型中的第一翻译模型输出预测的泰文译文,计算所述预测的泰文译文与所述泰文原文之间的损失值,作为第四损失值;
根据所述第三损失值和第四损失值,分别更新所述第二翻译模型和第一翻译模型中的参数,直至所述第三损失值和第四损失值均小于预设阈值或者训练次数达到预设次数。
进一步地,所述第一翻译模型包括第一编码器和第一解码器;
相应地,所述根据语料的原文对所述第一翻译模型进行训练,输出预测的译文,具体为:
对所述原文进行分词,根据预设的词向量模型获得所述原文的词向量序列;
将所述原文的词向量序列输入至所述第一编码器,输出原文的编码向量序列;
将所述原文的编码向量序列输入至所述第一解码器,输出预测的译文。
进一步地,所述第一编码器为双向LSTM神经网络结构;
所述将所述原文的词向量序列输入至所述第一编码器,输出原文的编码向量序列,具体为:
将所述原文的词向量序列根据从左到右的顺序输入至所述第一编码器,输出第一向量序列;
将所述原文的词向量序列根据从右到左的顺序输入至所述第一编码器,输出第二向量序列;
将所述第一向量序列和所述第二向量序列合并,获得所述原文的编码向量序列。
第二个方面,本发明实施例提供一种基于零次学习的中泰双语语料生成装置,包括:
原文句子获取模块,用于获取中文原文句子和泰文原文句子;
翻译模块,用于将所述中文原文句子输入至预先训练完成的第一翻译模型,输出泰文译文句子,将所述泰文原文句子输入至预先完成的第二翻译模型,输出中文译文句子;
其中,所述第一翻译模型和第二翻译模型基于零次学习,以高资源的中英双语语料、高资源的英泰双语语料和低资源的中泰双语语料从两个翻译方向联合训练而成。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。
本发明实施例提供的基于零次学习的中泰双语语料生成方法及装置,采集高资源的中英双语语料和高资源的英泰双语语料,通过零次学习技术,在只存在中英双语语料和英泰双语语料的情况下,获得能够实现生成中泰双语语料的翻译模型,由于零次学习技术训练的神经网络模型的精度较低,本发明实施例还采用低资源的中泰双语语料对获得的翻译模型从两个翻译方向(即中到泰和泰到中)进行联合训练,通过两个方向上的学习以提升模型的表现来更好的进行语料的合成。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的基于零次学习的中泰双语语料生成方法的流程示意图;
图2为本发明实施例以从左到右的顺序将原文的词向量序列输入至编码器的流程示意图;
图3为本发明实施例的以从右到左的顺序将原文的词向量序列输入至编码器的流程示意图;
图4为本发明实施例的第一解码器的工作流程图;
图5为本发明实施例提供的基于零次学习的中泰双语语料生成装置的结构示意图;
图6为本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例的基于零次学习的中泰双语语料生成方法的流程示意图,如图1所示,包括:
S101、获取中文原文句子和泰文原文句子。
本发明实施例获取中文原文句子和泰文原文句子的方式可以是从文本中直接获取的句子,也可以是对语音通过语音识别技术识别出的句子,本发明实施例对此不作进一步限定。
S102、将所述中文原文句子输入至预先训练完成的第一翻译模型,输出泰文译文句子,将所述泰文原文句子输入至预先完成的第二翻译模型,输出中文译文句子;
其中,所述第一翻译模型和第二翻译模型基于零次学习,以高资源的中英双语语料、高资源的英泰双语语料和低资源的中泰双语语料从两个翻译方向分别训练而成。
需要说明的是,零次学习,即zero-shot learning,其特点在于能够对神经网络中从没见过的类别进行分类,考虑到英语作为世界上使用最广的语言之一,无论是中英双语语料还是英泰双语语料的获取都是比较容易的,因此可以采集高资源的中英双语语料和高资源的英泰双语语料,通过零次学习技术,在只存在中英双语语料和英泰双语语料的情况下,获得能够实现生成中泰双语语料的翻译模型,由于零次学习技术训练的神经网络模型的精度较低,本发明实施例还采用低资源的中泰双语语料对获得的翻译模型从两个翻译方向(即中到泰和泰到中)进行联合训练,通过两个方向上的学习以提升模型的表现来更好的进行语料的合成。
在上述各实施例的基础上,作为一种可选实施例,所述第一翻译模型和第二翻译模型的训练方法包括:
S201、基于零次学习以中文到英文的语料和英文到泰文的语料训练所述第一翻译模型,基于零次学习以泰文到英文的语料和英文到中文的语料训练所述第二翻译模型。
需要说明的是,根据零次学习的特性可知,当以中文到英文的语料和英文到泰文的语料对第一翻译模型进行训练后,第一翻译模型将具备中文到泰文的翻译,同理可知,第二翻译模型将具备从泰文到中文的翻译。
S202、将训练后的所述第一翻译模型的输出端和训练后的所述第二翻译模型的输入端连接,获得第一联合模型,根据中文到泰文的语料训练所述第一联合模型。
需要说明的是,当把第一翻译模型的输出端和训练后的所述第二翻译模型的输入端连接后,如果向第一联合模型输入中文句子,那么首先将通过第一翻译模型的处理,会输出泰文句子,生成的泰文句子再通过第二翻译模型的处理,会输出中文句子,利用中文到泰文的语料训练第一联合模型,即可根据翻译出的泰文与真实泰文的差异以及翻译出的中文与输入至第一翻译模型的中文的差异,调整第一联合模型的参数,训练后的第一翻译模型和第二翻译模型能够很好地从中文到泰文再到中文的翻译方向对中文或泰文进行翻译。
S203、将训练后的所述第一联合模型中的第二翻译模型的输出端与训练后的所述第一联合模型中的第一翻译模型的输入锻炼连接,获得第二联合模型,根据泰文到中文的语料训练所述第二联合模型,获得训练完成的第一翻译模型和第二翻译模型。
需要说明的是,当把第二翻译模型的输出端和训练后的所述第一翻译模型的输入端连接后,如果向第二联合模型输入泰文句子,那么首先将通过第二翻译模型的处理,会输出中文句子,生成的中文句子再通过第一翻译模型的处理,会输出泰文句子,利用泰文到中文的语料训练第二联合模型,即可根据翻译出的中文与真实中文的差异以及翻译出的泰文与输入至第二翻译模型的泰文的差异,调整第二联合模型的参数,训练后的第一翻译模型和第二翻译模型能够很好地从泰文到中文再到泰文的翻译方向对中文或泰文进行翻译。
本发明实施例以对偶的方式,从两个翻译方向上对两个翻译模型进行联合训练,能够使得两个翻译模型能够更准确地翻译对应的单语语料。
在上述各实施例的基础上,作为一种可选实施例,基于零次学习以中文到英文的语料和英文到泰文的语料训练所述第一翻译模型,包括:
S301、将中文到英文的语料与英文到泰文的语料进行合并,获得第一数据集,在所述第一数据集中每个语料的原文中增加标识信息,所述标识信息用于表征所述原文指定的译文语种。
需要说明的是,零次学习的特性在于输入至翻译模型中的原文既可以是中文,也可以是英文,因此需要对输入的原文增加标识信息,指定原文对应的译文语种,这样通过训练后的翻译模型,无论输入中文还是英文,都可以输出泰文(前提是原文指定了译文语种为泰文)。
S302、从所述第一数据集中选择语料,根据语料的原文对所述第一翻译模型进行训练,输出预测的译文,计算所述预测的译文与所述原文的真实译文之间的损失值,根据所述损失值更新所述第一翻译模型中的参数,直至所述损失值小于预设阈值或者训练次数达到预设次数。
可以理解的是,步骤S302输入至第一数据集中的语料的原文已经添加了标识信息,所以第一翻译模型输出的译文是与标识信息一致的译文语种。通过计算预测的译文与原文的真实译文之间的损失值,再根据所述损失值更新所述第一翻译模型中的参数,即可实现第一翻译模型的训练。
由于第一翻译模型和第二翻译模型的翻译方向正好相反,因此根据上述实施例可以很清楚地获知基于零次学习以泰文到英文的语料和英文到中文的语料训练所述第二翻译模型,具体为;
将泰文到英文的语料与英文到中文的语料进行合并,获得第二数据集,在所述第二数据集泰每个语料的原文中增加标识信息,所述标识信息用于表征所述原文指定的译文语种;
从所述第二数据集中选择语料,根据语料的原文对所述第二翻译模型进行训练,输出预测的译文,计算所述预测的译文与所述原文的真实译文之间的损失值,根据所述损失值更新所述第二翻译模型中的参数,直至所述损失值小于预设阈值或者训练次数达到预设次数。
在上述各实施例的基础上,作为一种可选实施例,所述根据中文到泰文的语料训练所述第一联合模型,具体为:
S401、在中文到泰文的语料中的中文原文中添加标识信息,以指定译文语种为泰文,将所述中文原文输入至所述第一联合模型;
S402、获取所述第一联合模型中的第一翻译模型输出预测的泰文译文,计算所述预测的泰文译文与所述中文原文的真实泰文译文之间的损失值,作为第一损失值;
S403、获取所述第一联合模型中的第二翻译模型输出预测的中文译文,计算所述预测的中文译文与所述中文原文之间的损失值,作为第二损失值;
S404、根据所述第一损失值和第二损失值,分别更新所述第一翻译模型和第二翻译模型中的参数,直至所述第一损失值和第二损失值均小于预设阈值或者训练次数达到预设次数。
需要说明的是,本发明实施例利用的语料是低资源的中泰双语语料中的中文到泰文的语料,本发明实施例的步骤S404是在每次第一联合模型输出预测的中文译文后进行,即第一翻译模型和第二翻译模型的参数更新是同时进行的,只有当其中一个翻译模型的损失值小于预设阈值且另一个翻译模型的损失值没有小于预设阈值时,两个翻译模型的参数才不会同时更新,只有损失值尚未小于预设阈值的翻译模型进行更新参数。
在上述各实施例的基础上,作为一种可选实施例,所述根据泰文到中文的语料训练所述第二翻译模型,具体为:
S501、在泰文到中文的语料中的泰文原文中添加标识信息,以指定译文语种为中文,将所述泰文原文输入至所述第二联合模型;
S502、获取所述第二联合模型中的第二翻译模型输出预测的泰文译文,计算所述预测的中文译文与所述泰文原文的真实中文译文之间的损失值,作为第三损失值;
S503、获取所述第二联合模型中的第一翻译模型输出预测的泰文译文,计算所述预测的泰文译文与所述泰文原文之间的损失值,作为第四损失值;
S504、根据所述第三损失值和第四损失值,分别更新所述第二翻译模型和第一翻译模型中的参数,直至所述第三损失值和第四损失值均小于预设阈值或者训练次数达到预设次数
需要说明的是,本发明实施例利用的语料是低资源的中泰双语语料中的泰文到中文的语料,本发明实施例的步骤S504是在每次第二联合模型输出预测的泰文译文后进行,即第一翻译模型和第二翻译模型的参数更新是同时进行的,只有当其中一个翻译模型的损失值小于预设阈值且另一个翻译模型的损失值没有小于预设阈值时,两个翻译模型的参数才不会同时更新,只有损失值尚未小于预设阈值的翻译模型进行更新参数。
在上述各实施例的基础上,作为一种可选实施例,所述第一翻译模型包括第一编码器和第一解码器;
相应地,所述根据语料的原文对所述第一翻译模型进行训练,输出预测的译文,具体为:
S601、对所述原文进行分词,根据预设的词向量模型获得所述原文的词向量序列。
具体地,例如原文为中文,基于预设的分词方法对中文句子进行分词,然后再分别根据中文词向量模型获取中文分词结果的词向量序列。
在本发明实施例中,中文、英文、泰文的词向量模型的获取方法可以为:分别下载最新的维基百科的中文,英文和泰文的单语语料集并进行分词。然后利用Skip-Gram算法分别进行中文,英文和泰文的词向量的模型训练,其中一些重要的超参数设置为:词表的设置为100000,词向量的维度为300,上下文窗口为5。词向量模型将一个词转换为一个数值向量,例如“你好”可以表示为[1.23,0.76,-12.11,…,0.99];这个数值向量将作为机器学习或深度模型的输入。选择维基百科的数据作为训练词向量的语料数据主要有两个原因:数据数量众多并且非常标准;语料中包含了非常全面的概念和知识。
S602、将所述原文的词向量序列输入至所述第一编码器,输出原文的编码向量序列;
具体地,第一编码器为双向LSTM神经网络结构,步骤S602包括:
将所述原文的词向量序列根据从左到右的顺序输入至所述第一编码器,输出第一向量序列;将所述原文的词向量序列根据从右到左的顺序输入至所述第一编码器,输出第二向量序列;将所述第一向量序列和所述第二向量序列合并,获得所述原文的编码向量序列。
以原文句子“<2en>技能的培养非常重要”为例,其中<2en>表示要将中文句子“技能的培养非常重要”翻译为英文。图2为本发明实施例以从左到右的顺序将原文的词向量序列输入至编码器的流程示意图,如图2所示,“<2en>技能的培养非常重要”的分词结果包括“<s>”、“<2en>”、“技能”、“的”、“培养”、“非常”、“重要”、“</s>”,其中“<s>”和“</s>”分别表示一个语句的开始和结束,对所有语种的句子都是统一的,其中t0是一个零向量,以分词“<s>”为例,将分词“<s>”的词向量和t0向量输入到LSTM网络单元中,输出t1向量,t1向量经过FC函数处理,获得L1向量,L1向量即分词“<s>”的第一向量。
图3为本发明实施例的以从右到左的顺序将原文的词向量序列输入至编码器的流程示意图,该流程与图2所示实施例的流程主体思想一致,只不过是从分词“</s>”开始处理,其中v0是一个零向量,将分词“</s>”的词向量和v0向量输入到LSTM网络单元中,输出v1向量,v1向量经过FC函数处理,获得R1向量,R1向量即分词“<s>”的第二向量。
根据图2和图3可知,本发明实施例将所述第一向量序列和所述第二向量序列合并,获得所述原文的编码向量序列,具体是针对每个分词的从左到右获得的第一向量和从右到左获得的第二向量进行合并,从而获得分词的编码向量,以分词“技能”为例,该分词是以L3向量和R6向量进行合并,获得编码向量。
S603、将所述原文的编码向量序列输入至所述第一解码器,输出预测的译文。
图4为本发明实施例的第一解码器的工作流程图,如图4所示,编码器即为第一编码器,attention机制即表示第一解码器基于attention机制进行解码,序列{H1,H2,…,H7}表示“技能的培养非常重要”的编码向量序列,其中H1表示“<s>”的编码向量,H2表示“技能”的编码向量,以此类推,H7表示“</s>”的编码向量。从图4中可知,译文的每个单词的编码向量用K进行表示,由该单词的词向量和前一个LSTM网络单元输出的向量作为本单词对应的LSTM网络单元的输入而获得,可以理解的是,本发明实施例预先也获取了译文语种的词向量模型。以单词“The”为例,由该单词的词向量和第1个LSTM网络单元输出的向量s1作为第2个LSTM网络单元的输入,获得向量s2,s2经过函数FC计算,获得编码向量K2。预测的每个单词根据序列{H1,H2,…,H7}和预测的前一个单词的编码向量获得,即Gn=attention机制(Kn向量,编码器的向量序列{L1,L2,…L7}),n表示词向量的序号,也就是说,译文的每个分词结果的编码向量与原文的编码向量序列通过注意力机制计算得到下一个单词的G向量,通过对G向量进行预测,即可获得译文的每个结果。
图5为本发明实施例提供的基于零次学习的中泰双语语料生成装置的结构示意图,如图5所示,该零次学习的中泰双语语料生成装置包括:原文句子获取模块201和翻译模块202,其中:
原文句子获取模块201,用于获取中文原文句子和泰文原文句子;
翻译模块202,用于将所述中文原文句子输入至预先训练完成的第一翻译模型,输出泰文译文句子,将所述泰文原文句子输入至预先完成的第二翻译模型,输出中文译文句子;
其中,所述第一翻译模型和第二翻译模型基于零次学习,以高资源的中英双语语料、高资源的英泰双语语料和低资源的中泰双语语料从两个翻译方向联合训练而成。
本发明实施例提供的基于零次学习的中泰双语语料生成装置,具体执行上述各基于零次学习的中泰双语语料生成方法实施例流程,具体请详见上述各基于零次学习的中泰双语语料生成方法实施例的内容,在此不再赘述。本发明实施例提供的基于零次学习的中泰双语语料生成装置采集高资源的中英双语语料和高资源的英泰双语语料,通过零次学习技术,在只存在中英双语语料和英泰双语语料的情况下,获得能够实现生成中泰双语语料的翻译模型,由于零次学习技术训练的神经网络模型的精度较低,本发明实施例还采用低资源的中泰双语语料对获得的翻译模型从两个翻译方向(即中到泰和泰到中)进行联合训练,通过两个方向上的学习以提升模型的表现来更好的进行语料的合成。
图6为本发明实施例提供的电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储在存储器330上并可在处理器310上运行的计算机程序,以执行上述各实施例提供的基于零次学习的中泰双语语料生成方法,,例如包括:获取中文原文句子和泰文原文句子;将所述中文原文句子输入至预先训练完成的第一翻译模型,输出泰文译文句子,将所述泰文原文句子输入至预先完成的第二翻译模型,输出中文译文句子;其中,所述第一翻译模型和第二翻译模型基于零次学习,以高资源的中英双语语料、高资源的英泰双语语料和低资源的中泰双语语料从两个翻译方向联合训练而成。
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的基于零次学习的中泰双语语料生成方法,例如包括:获取中文原文句子和泰文原文句子;将所述中文原文句子输入至预先训练完成的第一翻译模型,输出泰文译文句子,将所述泰文原文句子输入至预先完成的第二翻译模型,输出中文译文句子;其中,所述第一翻译模型和第二翻译模型基于零次学习,以高资源的中英双语语料、高资源的英泰双语语料和低资源的中泰双语语料从两个翻译方向联合训练而成。
保持所有超参数一致,利用编码器+解码器+注意力机制的机翻模型分别训练基于传统方法所合成的数据和本发明实施例所合成的数据。并计算BLEU值进行比较。结果表明,在中文到泰文的翻译任务中,传统方法的BLEU值为19.21,而本发明实施例的BLEU值为20.11,在泰文到中文的翻译任务中,传统方法的BLEU值为18.71,而本发明实施例的BLEU值为19.88,本发明实施例的方法的机翻得分表现更优。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种基于零次学习的中泰双语语料生成方法,其特征在于,包括:
获取中文原文句子和泰文原文句子;
将所述中文原文句子输入至预先训练完成的第一翻译模型,输出泰文译文句子,将所述泰文原文句子输入至预先完成的第二翻译模型,输出中文译文句子;
其中,所述第一翻译模型和第二翻译模型基于零次学习,以高资源的中英双语语料、高资源的英泰双语语料和低资源的中泰双语语料从两个翻译方向联合训练而成;
所述第一翻译模型和第二翻译模型的训练方法包括:
基于零次学习以中文到英文的语料和英文到泰文的语料训练所述第一翻译模型,基于零次学习以泰文到英文的语料和英文到中文的语料训练所述第二翻译模型;
将训练后的所述第一翻译模型的输出端和训练后的所述第二翻译模型的输入端连接,获得第一联合模型,根据中文到泰文的语料训练所述第一联合模型;
将训练后的所述第一联合模型中的第二翻译模型的输出端与训练后的所述第一联合模型中的第一翻译模型的输入锻炼连接,获得第二联合模型,根据泰文到中文的语料训练所述第二联合模型,获得训练完成的第一翻译模型和第二翻译模型。
2.根据权利要求1所述的基于零次学习的中泰双语语料生成方法,其特征在于,所述基于零次学习以中文到英文的语料和英文到泰文的语料训练所述第一翻译模型,包括:
将中文到英文的语料与英文到泰文的语料进行合并,获得第一数据集,在所述第一数据集中每个语料的原文中增加标识信息,所述标识信息用于表征所述原文指定的译文语种;
从所述第一数据集中选择语料,根据语料的原文对所述第一翻译模型进行训练,输出预测的译文,计算所述预测的译文与所述原文的真实译文之间的损失值,根据所述损失值更新所述第一翻译模型中的参数,直至所述损失值小于预设阈值或者训练次数达到预设次数。
3.根据权利要求1或2所述的基于零次学习的中泰双语语料生成方法,其特征在于,所述根据中文到泰文的语料训练所述第一联合模型,具体为:
在中文到泰文的语料中的中文原文中添加标识信息,以指定译文语种为泰文,将所述中文原文输入至所述第一联合模型;
获取所述第一联合模型中的第一翻译模型输出预测的泰文译文,计算所述预测的泰文译文与所述中文原文的真实泰文译文之间的损失值,作为第一损失值;
获取所述第一联合模型中的第二翻译模型输出预测的中文译文,计算所述预测的中文译文与所述中文原文之间的损失值,作为第二损失值;
根据所述第一损失值和第二损失值,分别更新所述第一翻译模型和第二翻译模型中的参数,直至所述第一损失值和第二损失值均小于预设阈值或者训练次数达到预设次数。
4.根据权利要求1或2所述的基于零次学习的中泰双语语料生成方法,其特征在于,所述根据泰文到中文的语料训练所述第二翻译模型,具体为:
在泰文到中文的语料中的泰文原文中添加标识信息,以指定译文语种为中文,将所述泰文原文输入至所述第二联合模型;
获取所述第二联合模型中的第二翻译模型输出预测的泰文译文,计算所述预测的中文译文与所述泰文原文的真实中文译文之间的损失值,作为第三损失值;
获取所述第二联合模型中的第一翻译模型输出预测的泰文译文,计算所述预测的泰文译文与所述泰文原文之间的损失值,作为第四损失值;
根据所述第三损失值和第四损失值,分别更新所述第二翻译模型和第一翻译模型中的参数,直至所述第三损失值和第四损失值均小于预设阈值或者训练次数达到预设次数。
5.根据权利要求2所述的基于零次学习的中泰双语语料生成方法,其特征在于,所述第一翻译模型包括第一编码器和第一解码器;
相应地,所述根据语料的原文对所述第一翻译模型进行训练,输出预测的译文,具体为:
对所述原文进行分词,根据预设的词向量模型获得所述原文的词向量序列;
将所述原文的词向量序列输入至所述第一编码器,输出原文的编码向量序列;
将所述原文的编码向量序列输入至所述第一解码器,输出预测的译文。
6.根据权利要求5所述的基于零次学习的中泰双语语料生成方法,其特征在于,所述第一编码器为双向LSTM神经网络结构;
所述将所述原文的词向量序列输入至所述第一编码器,输出原文的编码向量序列,具体为:
将所述原文的词向量序列根据从左到右的顺序输入至所述第一编码器,输出第一向量序列;
将所述原文的词向量序列根据从右到左的顺序输入至所述第一编码器,输出第二向量序列;
将所述第一向量序列和所述第二向量序列合并,获得所述原文的编码向量序列。
7.一种基于零次学习的中泰双语语料生成装置,其特征在于,包括:
原文句子获取模块,用于获取中文原文句子和泰文原文句子;
翻译模块,用于将所述中文原文句子输入至预先训练完成的第一翻译模型,输出泰文译文句子,将所述泰文原文句子输入至预先完成的第二翻译模型,输出中文译文句子;
其中,所述第一翻译模型和第二翻译模型基于零次学习,以高资源的中英双语语料、高资源的英泰双语语料和低资源的中泰双语语料从两个翻译方向联合训练而成;
所述第一翻译模型和第二翻译模型的训练方法包括:
基于零次学习以中文到英文的语料和英文到泰文的语料训练所述第一翻译模型,基于零次学习以泰文到英文的语料和英文到中文的语料训练所述第二翻译模型;
将训练后的所述第一翻译模型的输出端和训练后的所述第二翻译模型的输入端连接,获得第一联合模型,根据中文到泰文的语料训练所述第一联合模型;
将训练后的所述第一联合模型中的第二翻译模型的输出端与训练后的所述第一联合模型中的第一翻译模型的输入锻炼连接,获得第二联合模型,根据泰文到中文的语料训练所述第二联合模型,获得训练完成的第一翻译模型和第二翻译模型。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述基于零次学习的中泰双语语料生成方法的步骤。
9.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至6中任意一项所述的基于零次学习的中泰双语语料生成方法。
CN201911338831.9A 2019-12-23 2019-12-23 基于零次学习的中泰双语语料生成方法及装置 Active CN111144140B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911338831.9A CN111144140B (zh) 2019-12-23 2019-12-23 基于零次学习的中泰双语语料生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911338831.9A CN111144140B (zh) 2019-12-23 2019-12-23 基于零次学习的中泰双语语料生成方法及装置

Publications (2)

Publication Number Publication Date
CN111144140A CN111144140A (zh) 2020-05-12
CN111144140B true CN111144140B (zh) 2023-07-04

Family

ID=70519377

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911338831.9A Active CN111144140B (zh) 2019-12-23 2019-12-23 基于零次学习的中泰双语语料生成方法及装置

Country Status (1)

Country Link
CN (1) CN111144140B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111859996B (zh) * 2020-06-16 2024-03-26 北京百度网讯科技有限公司 机器翻译模型的训练方法、装置、电子设备及存储介质
CN111914552A (zh) * 2020-07-31 2020-11-10 平安科技(深圳)有限公司 一种数据增强模型的训练方法及装置
CN112085985B (zh) * 2020-08-20 2022-05-10 安徽七天网络科技有限公司 一种面向英语考试翻译题目的学生答案自动评分方法
CN112614479B (zh) * 2020-11-26 2022-03-25 北京百度网讯科技有限公司 训练数据的处理方法、装置及电子设备
CN113160793A (zh) * 2021-04-23 2021-07-23 平安科技(深圳)有限公司 基于低资源语言的语音合成方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126507A (zh) * 2016-06-22 2016-11-16 哈尔滨工业大学深圳研究生院 一种基于字符编码的深度神经翻译方法及系统
CN108829684A (zh) * 2018-05-07 2018-11-16 内蒙古工业大学 一种基于迁移学习策略的蒙汉神经机器翻译方法
CN110069790A (zh) * 2019-05-10 2019-07-30 东北大学 一种通过译文回译对照原文的机器翻译系统及方法
CN110110337A (zh) * 2019-05-08 2019-08-09 网易有道信息技术(北京)有限公司 翻译模型训练方法、介质、装置和计算设备
CN110263350A (zh) * 2019-03-08 2019-09-20 腾讯科技(深圳)有限公司 模型训练方法、装置、计算机可读存储介质和计算机设备
CN110543643A (zh) * 2019-08-21 2019-12-06 语联网(武汉)信息技术有限公司 文本翻译模型的训练方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102342066B1 (ko) * 2017-06-21 2021-12-22 삼성전자주식회사 뉴럴 네트워크 모델을 이용한 기계 번역 방법, 장치 및 그 장치를 학습시키기 위한 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126507A (zh) * 2016-06-22 2016-11-16 哈尔滨工业大学深圳研究生院 一种基于字符编码的深度神经翻译方法及系统
CN108829684A (zh) * 2018-05-07 2018-11-16 内蒙古工业大学 一种基于迁移学习策略的蒙汉神经机器翻译方法
CN110263350A (zh) * 2019-03-08 2019-09-20 腾讯科技(深圳)有限公司 模型训练方法、装置、计算机可读存储介质和计算机设备
CN110110337A (zh) * 2019-05-08 2019-08-09 网易有道信息技术(北京)有限公司 翻译模型训练方法、介质、装置和计算设备
CN110069790A (zh) * 2019-05-10 2019-07-30 东北大学 一种通过译文回译对照原文的机器翻译系统及方法
CN110543643A (zh) * 2019-08-21 2019-12-06 语联网(武汉)信息技术有限公司 文本翻译模型的训练方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Barone A.等.towards cross-lingual distributed representations without parallel text trained with adversarial autoencoders.《CoRR》.2016,第121-126页. *
Raj Dabre等.Exploiting Multilingualism through Multistage Fine-Tuning for Low-Resource Neural Machine Translation.《Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing》.2019,第1410-1416页. *
Ren S.等.Triangular architecture for rare language translation.《Annual meeting of the association for computational linguistics》.2018,第56-65页. *

Also Published As

Publication number Publication date
CN111144140A (zh) 2020-05-12

Similar Documents

Publication Publication Date Title
CN111144140B (zh) 基于零次学习的中泰双语语料生成方法及装置
KR102382499B1 (ko) 번역 방법, 타깃 정보 결정 방법, 관련 장치 및 저장 매체
CN107967262A (zh) 一种神经网络蒙汉机器翻译方法
CN109670180B (zh) 向量化译员的翻译个性特征的方法及装置
CN112800785B (zh) 多模态机器翻译方法、装置、电子设备和存储介质
CN110555213B (zh) 文本翻译模型的训练方法、文本翻译方法及装置
CN110765791B (zh) 机器翻译自动后编辑方法及装置
CN111191468B (zh) 术语替换方法及装置
CN107766319B (zh) 序列转换方法及装置
CN110162766B (zh) 词向量更新方法和装置
CN111738020B (zh) 一种翻译模型的训练方法及装置
CN111144137B (zh) 机器翻译后编辑模型语料的生成方法及装置
CN111178097B (zh) 基于多级翻译模型生成中泰双语语料的方法及装置
CN109657244B (zh) 一种英文长句自动切分方法及系统
CN115438678B (zh) 机器翻译方法、装置、电子设备及存储介质
CN115017924B (zh) 跨语际语言翻译的神经机器翻译模型构建及其翻译方法
CN114970524B (zh) 可控文本生成方法及装置
CN110866404B (zh) 基于lstm神经网络的词向量生成方法及装置
CN110852063B (zh) 基于双向lstm神经网络的词向量生成方法及装置
CN110263352B (zh) 用于训练深层神经机器翻译模型的方法及装置
CN111666774B (zh) 基于文档上下文的机器翻译方法及装置
CN114519358A (zh) 翻译质量评估方法、装置、电子设备和存储介质
CN110147556B (zh) 一种多向神经网络翻译系统的构建方法
CN112836528A (zh) 机器翻译后编辑方法及系统
CN111985251A (zh) 翻译质量测评方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant