CN111178097A - 基于多级翻译模型生成中泰双语语料的方法及装置 - Google Patents

基于多级翻译模型生成中泰双语语料的方法及装置 Download PDF

Info

Publication number
CN111178097A
CN111178097A CN201911350770.8A CN201911350770A CN111178097A CN 111178097 A CN111178097 A CN 111178097A CN 201911350770 A CN201911350770 A CN 201911350770A CN 111178097 A CN111178097 A CN 111178097A
Authority
CN
China
Prior art keywords
translation model
chinese
english
translation
thai
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911350770.8A
Other languages
English (en)
Other versions
CN111178097B (zh
Inventor
张睦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Iol Wuhan Information Technology Co ltd
Original Assignee
Iol Wuhan Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Iol Wuhan Information Technology Co ltd filed Critical Iol Wuhan Information Technology Co ltd
Priority to CN201911350770.8A priority Critical patent/CN111178097B/zh
Publication of CN111178097A publication Critical patent/CN111178097A/zh
Application granted granted Critical
Publication of CN111178097B publication Critical patent/CN111178097B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明实施例提供一种基于多级翻译模型生成中泰双语语料的方法及装置,其中方法包括:获取中文原文句子和泰文原文句子;将中文原文句子输入至预先训练完成的第一两级翻译模型,输出泰文译文句子,将泰文原文句子输入至预先完成的第二两级翻译模型,输出中文译文句子;第一两级翻译模型和第二两级翻译模型以高资源的中英双语语料、高资源的英泰双语语料和低资源的中泰双语语料从两个翻译方向联合训练而成。本发明实施例在只存在中英双语语料和英泰双语语料的情况下,获得能够实现生成中泰双语语料的翻译模型,并且通过低资源的中泰双语语料对获得的翻译模型从两个翻译方向进行联合训练,提升模型的表现来更好的进行语料的合成。

Description

基于多级翻译模型生成中泰双语语料的方法及装置
技术领域
本发明涉及文本翻译技术领域,更具体地,涉及基于多级翻译模型生成中泰双语语料的方法及装置。
背景技术
训练一个较高质量机器翻译模型往往需要上百万的双语平行语料。然而对于一些资源较为稀缺的双语语种对,例如中泰双语语料,机翻模型的构建往往是一个不小的挑战。
为了解决这个问题,NLP(Natural Language Processing)工程师往往会做数据合成的工作来产生更多的双语数据,再利用这些合成语料进行机翻模型的训练。由于高质量且数量众多的单语语料很容易获得,因此当前主要的合成方法是基于大量的单语语料和少量的双语语料。例如,对于中泰双语语料,利用当前已有的中泰双语构建一个基础的机翻模型,再利用此机翻模型翻译大量的中文单语成为相应的泰语,以产生合成的中泰双语;最后叠加所有的双语数据进行最终模型的训练。但目前的训练方式存在翻译准确度不够高的问题。
发明内容
本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的基于多级翻译模型生成中泰双语语料的方法及装置。
第一个方面,本发明实施例提供一种基于多级翻译模型生成中泰双语语料的方法,包括:
获取中文原文句子和泰文原文句子;
将所述中文原文句子输入至预先训练完成的第一两级翻译模型,输出泰文译文句子,将所述泰文原文句子输入至预先完成的第二两级翻译模型,输出中文译文句子;
其中,所述第一两级翻译模型和第二两级翻译模型以高资源的中英双语语料、高资源的英泰双语语料和低资源的中泰双语语料从两个翻译方向联合训练而成。
所述第一两级翻译模型和所述第二两级翻译模型的训练方法包括:
根据所述高资源的中英双语语料训练用于将中文原文翻译为英文译文的中英翻译模型和用于将英文原文翻译为中文译文的英中翻译模型;根据所述高资源的泰英双语语料训练用于将泰文原文翻译为泰文译文的泰英翻译模型和用于将英文原文翻译为泰文译文的英泰翻译模型;
分别构建第一三级翻译模型和第二三级翻译模型,所述第一三级翻译模型沿数据传输方向包括所述中英翻译模型、所述英泰翻译模型和所述泰英翻译模型,所述第二三级翻译模型沿数据传输方向包括所述泰英翻译模型、所述英中翻译模型和所述中英翻译模型,根据低资源的中泰双语语料分别训练所述第一三级翻译模型和所述第二三级翻译模型;
将训练好的第二三级翻译模型中的中英翻译模型和训练好的第三翻译模型中的英泰翻译模型组成所述第一两级翻译模型,将训练好的第一三级翻译模型中的泰英翻译模型和训练好的第四翻译模型中的英中翻译模型组成所述第二两级翻译模型。
进一步地,所述根据低资源的中泰双语语料分别训练所述第一三级翻译模型和所述第二三级翻译模型,包括:
将所述低资源的中泰双语语料中的中文原文输入至所述第一三级翻译模型进行训练,获取所述第一三级翻译模型中的英泰翻译模型输出的泰文译文以及泰英翻译模型输出的英文译文;
根据所述英泰翻译模型输出的泰文译文与所述中文原文的真实泰文译文间的差异,对所述英泰翻译模型的参数进行调整;根据所述泰英翻译模型输出的英文译文与所述第一三级翻译模型中的中英翻译模型输出的英文译文间的差异,对所述泰英翻译模型的参数进行调整。
进一步地,所述根据低资源的中泰双语语料分别训练所述第一三级翻译模型和所述第二三级翻译模型,包括:
将所述低资源的中泰双语语料中的泰文原文输入至所述第二三级翻译模型,获取所述第二三级翻译模型中的英中翻译模型输出的中文译文以及中英翻译模型输出的英文译文;
根据所述英中翻译模型输出的中文译文与所述泰文原文的真实中文译文间的差异,对所述英中翻译模型的参数进行调试;根据所述中英翻译模型输出的英文翻译模型输出英文译文与所述第二三级翻译模型中的泰英翻译模型输出的英文译文间的差异,对所述中英翻译模型的参数进行调整。
进一步地,所述中英翻译模型、英中翻译模型、英泰翻译模型和泰英翻译模型均包括编码器和解码器;
其中,所述中英翻译模型、英中翻译模型、英泰翻译模型和泰英翻译模型中的任意一个翻译模型的训练方法包括:
对原文进行分词,根据预设的词向量模型获得所述原文的词向量序列;
将所述原文的词向量序列输入至所述编码器,输出原文的编码向量序列;
将所述原文的编码向量序列输入至所述解码器,输出预测的译文。
进一步地,所述编码器为双向LSTM神经网络结构;
相应地,所述将所述原文的词向量序列输入至所述编码器,输出原文的编码向量序列,具体为:
将所述原文的词向量序列根据从左到右的顺序输入至所述第一编码器,输出第一向量序列;
将所述原文的词向量序列根据从右到左的顺序输入至所述第一编码器,输出第二向量序列;
将所述第一向量序列和所述第二向量序列合并,获得所述原文的编码向量序列。
进一步地,所述将所述原文的编码向量序列输入至所述解码器,输出预测的译文,包括:
将所述原文的编码向量序列输入至所述解码器,所述解码器根据注意力机制,根据预测出的译文的前一个分词结果的编码向量和原文的编码向量序列预测译文的下一个分词结果,直至译文预测完成。
第二个方面,本发明实施例提供一种基于多级翻译模型生成中泰双语语料的装置,包括:
原文句子获取模块,用于获取中文原文句子和泰文原文句子;
翻译模块,用于将所述中文原文句子输入至预先训练完成的第一两级翻译模型,输出泰文译文句子,将所述泰文原文句子输入至预先完成的第二两级翻译模型,输出中文译文句子;
其中,所述第一两级翻译模型和第二两级翻译模型以高资源的中英双语语料、高资源的英泰双语语料和低资源的中泰双语语料从两个翻译方向联合训练而成。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。
本发明实施例提供的基于多级翻译模型生成中泰双语语料的方法及装置,采集高资源的中英双语语料和高资源的英泰双语语料,在只存在中英双语语料和英泰双语语料的情况下,通过多级模型获得能够实现生成中泰双语语料的翻译模型,此外,本发明实施例还采用低资源的中泰双语语料对获得的翻译模型从两个翻译方向(即中到泰和泰到中)进行联合训练,通过两个方向上的学习以提升模型的表现来更好的进行语料的合成。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的基于多级翻译模型生成中泰双语语料的方法的流程示意图;
图2为本发明实施例以从左到右的顺序将原文的词向量序列输入至编码器的流程示意图;
图3为本发明实施例的以从右到左的顺序将原文的词向量序列输入至编码器的流程示意图;
图4为本发明实施例的解码器的工作流程图;
图5为本发明实施例提供的基于多级翻译模型生成中泰双语语料的装置的结构示意图;
图6为本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例的基于多级翻译模型生成中泰双语语料的方法的流程示意图,如图1所示,包括:
S101、获取中文原文句子和泰文原文句子;
本发明实施例获取中文原文句子和泰文原文句子的方式可以是从文本中直接获取的句子,也可以是对语音通过语音识别技术识别出的句子,本发明实施例对此不作进一步限定。
S102、将所述中文原文句子输入至预先训练完成的第一两级翻译模型,输出泰文译文句子,将所述泰文原文句子输入至预先完成的第二两级翻译模型,输出中文译文句子;
其中,所述第一两级翻译模型和第二两级翻译模型以高资源的中英双语语料、高资源的英泰双语语料和低资源的中泰双语语料从两个翻译方向联合训练而成。
需要说明的是,考虑到英语作为世界上使用最广的语言之一,无论是中英双语语料还是英泰双语语料的获取都是比较容易的,因此可以采集高资源的中英双语语料和高资源的英泰双语语料,训练用于将中文原文翻译为英文译文的中英翻译模型、用于将英文原文翻译为中文译文的英中翻译模型、用于将泰文原文翻译为泰文译文的泰英翻译模型和用于将英文原文翻译为泰文译文的英泰翻译模型,进一步地,如果将中英翻译模型和英泰翻译模型进行连接,向连接后的模型输入中文,即可输出泰文,如果把泰英翻译模型和英中翻译模型进行连接,向连接后的模型输入泰文,即可输出中文,采用低资源的中泰双语语料对获得的翻译模型从两个翻译方向(即中到泰和泰到中)进行联合训练,即可获得中泰双语语料。
在上述各实施例的基础上,作为一种可选实施例,所述第一两级翻译模型和第二两级翻译模型的训练方法包括:
S201、根据所述高资源的中英双语语料训练用于将中文原文翻译为英文译文的中英翻译模型和用于将英文原文翻译为中文译文的英中翻译模型;根据所述高资源的泰英双语语料训练用于将泰文原文翻译为泰文译文的泰英翻译模型和用于将英文原文翻译为泰文译文的英泰翻译模型。
可以理解的是,对于中英双语语料,如果以中文作为原文,以英文作为译文,以中文原文作为训练样本,以英文译文作为样本标签进行训练即可获得用于将中文原文翻译为英文译文的中英翻译模型,采用相似的方法,即可获得用于将英文原文翻译为中文译文的英中翻译模型、将泰文原文翻译为泰文译文的泰英翻译模型和用于将英文原文翻译为泰文译文的英泰翻译模型。
S202、分别构建第一三级翻译模型和第二三级翻译模型,所述第一三级翻译模型沿数据传输方向包括所述中英翻译模型、所述英泰翻译模型和所述泰英翻译模型,所述第二三级翻译模型沿数据传输方向包括所述泰英翻译模型、所述英中翻译模型和所述中英翻译模型,根据低资源的中泰双语语料分别训练所述第一三级翻译模型和所述第二三级翻译模型。
需要说明的是,本发明实施例在获得基于高资源的中英双语语料和英泰双语语料训练而成的四个翻译模型后,并不是直接上述实施例的根据翻译方向直接组合相关的两个翻译模型的方式,而是采用了联合训练的方式,本发明实施例构建包含3个翻译模型的多级翻译模型,其中,第一三级翻译模型沿数据传输方向包括所述中英翻译模型、所述英泰翻译模型和所述泰英翻译模型,也就是说,当向第一三级翻译模型输入中文时,中英翻译模型将输出预测的英文,英泰翻译模型将输出预测的泰文,泰英翻译模型将输出预测的英文,因此,本发明采用低资源的中泰双语语料中的中文作为原文,泰文作为译文训练第一三级翻译模型,利用英泰翻译模型输出的泰文译文与所述中文原文的真实泰文译文间的差异,对所述英泰翻译模型的参数进行调整;根据所述泰英翻译模型输出的英文译文与所述第一三级翻译模型中的中英翻译模型输出的英文译文间的差异,对所述泰英翻译模型的参数进行调整,即可获得训练好的英泰翻译模型和泰英翻译模型。类似地,以低资源的中泰双语语料中的泰文作为原文,中文作为译文训练第二三级翻译模型,即可获得训练好的英中翻译模型和中英翻译模型。
S203、将训练好的第二三级翻译模型中的中英翻译模型和训练好的第三翻译模型中的英泰翻译模型组成所述第一两级翻译模型,将训练好的第一三级翻译模型中的泰英翻译模型和训练好的第四翻译模型中的英中翻译模型组成所述第二两级翻译模型。
需要说明的是,本发明实施例的第一两级翻译模型和第二两级翻译模型从第一三级翻译模型和第二三级翻译模型中选取一个翻译模型,组成具有两个层级的翻译模型,由于两级翻译模型中的每个翻译模型分别取自不同的三级翻译模型,并且是从两个翻译方向上训练而成的,因此本发明实施例的两个翻译模型在生成中泰双语语料时具有更准确的优势。
在上述各实施例的基础上,作为一种可选实施例,所述根据低资源的中泰双语语料分别训练所述第一三级翻译模型和所述第二三级翻译模型,包括:
S301、将所述低资源的中泰双语语料中的中文原文输入至所述第一三级翻译模型进行训练,获取所述第一三级翻译模型中的英泰翻译模型输出的泰文译文以及泰英翻译模型输出的英文译文。
S302、根据所述英泰翻译模型输出的泰文译文与所述中文原文的真实泰文译文间的差异,对所述英泰翻译模型的参数进行调整;根据所述泰英翻译模型输出的英文译文与所述第一三级翻译模型中的中英翻译模型输出的英文译文间的差异,对所述泰英翻译模型的参数进行调整。
可选地,本发明实施例可以根据所述英泰翻译模型输出的泰文译文与所述中文原文的真实泰文译文间的差异计算损失函数,通过SGD反向传播算法更新英泰翻译模型的参数以达到模型效果的优化。损失函数可以选择Log negative Loss函数。同理,本发明实施例可以根据所述泰英翻译模型输出的英文译文与所述第一三级翻译模型中的中英翻译模型输出的英文译文间的差异计算损失函数,通过SGD反向传播算法更新泰英翻译模型的参数以达到模型效果的优化。
可选地,本发明实施例对第一三级翻译模型中的英泰翻译模型和中英翻译模型的参数进行更新,是在第一三级翻译模型输出预测的英文后进行,即英泰翻译模型和中英翻译模型的参数更新是同时进行的,只有当其中一个翻译模型的损失值小于预设阈值且另一个翻译模型的损失值没有小于预设阈值时,两个翻译模型的参数才不会同时更新,只有损失值尚未小于预设阈值的翻译模型进行更新参数。
在上述各实施例的基础上,作为一种可选实施例,所述根据低资源的中泰双语语料分别训练所述第一三级翻译模型和所述第二三级翻译模型,包括:
S401、将所述低资源的中泰双语语料中的泰文原文输入至所述第二三级翻译模型,获取所述第二三级翻译模型中的英中翻译模型输出的中文译文以及中英翻译模型输出的英文译文。
S402、根据所述英中翻译模型输出的中文译文与所述泰文原文的真实中文译文间的差异,对所述英中翻译模型的参数进行调试;根据所述中英翻译模型输出的英文翻译模型输出英文译文与所述第二三级翻译模型中的泰英翻译模型输出的英文译文间的差异,对所述中英翻译模型的参数进行调整。
可选地,本发明实施例可以根据所述英中翻译模型输出的中文译文与所述泰文原文的真实中文译文间的差异计算损失函数,通过SGD反向传播算法更新英中翻译模型的参数以达到模型效果的优化。损失函数可以选择Log negative Loss函数。同理,本发明实施例可以根据所述中英翻译模型输出的英文译文与所述第一三级翻译模型中的泰英翻译模型输出的英文译文间的差异计算损失函数,通过SGD反向传播算法更新泰英翻译模型的参数以达到模型效果的优化。
可选地,本发明实施例对第二三级翻译模型中的英中翻译模型和泰英翻译模型的参数进行更新,是在第二三级翻译模型输出预测的英文后进行,即英中翻译模型和泰英翻译模型的参数更新是同时进行的,只有当其中一个翻译模型的损失值小于预设阈值且另一个翻译模型的损失值没有小于预设阈值时,两个翻译模型的参数才不会同时更新,只有损失值尚未小于预设阈值的翻译模型进行更新参数。
在上述各实施例的基础上,作为一种可选实施例,所述中英翻译模型、英中翻译模型、英泰翻译模型和泰英翻译模型均包括编码器和解码器;
其中,所述中英翻译模型、英中翻译模型、英泰翻译模型和泰英翻译模型中的任意一个翻译模型的训练方法包括。
可选地,以中英翻译模型为例,中英翻译模型的训练过程包括:
S501、对原文进行分词,根据预设的词向量模型获得所述原文的词向量序列。
可选地,中英翻译模型的原文为中文,基于预设的分词方法对中文句子进行分词,然后再分别根据中文词向量模型获取中文分词结果的词向量序列。
在本发明实施例中,中文、英文、泰文的词向量模型的获取方法可以为:分别下载最新的维基百科的中文,英文和泰文的单语语料集并进行分词。然后利用Skip-Gram算法分别进行中文,英文和泰文的词向量的模型训练,其中一些重要的超参数设置为:词表的设置为100000,词向量的维度为300,上下文窗口为5。词向量模型将一个词转换为一个数值向量,例如“你好”可以表示为[1.23,0.76,-12.11,…,0.99];这个数值向量将作为机器学习或深度模型的输入。选择维基百科的数据作为训练词向量的语料数据主要有两个原因:数据数量众多并且非常标准;语料中包含了非常全面的概念和知识。
S502、将所述原文的词向量序列输入至所述编码器,输出原文的编码向量序列;
具体地,本发明实施例的编码器为双向LSTM神经网络结构,步骤S502包括:
将所述原文的词向量序列根据从左到右的顺序输入至编码器,输出第一向量序列;将所述原文的词向量序列根据从右到左的顺序输入至编码器,输出第二向量序列;将第一向量序列和所述第二向量序列合并,获得所述原文的编码向量序列。
以原文句子“技能的培养非常重要”为例,图2为本发明实施例以从左到右的顺序将原文的词向量序列输入至编码器的流程示意图,如图2所示,“技能的培养非常重要”的分词结果包括“<s>”、“技能”、“的”、“培养”、“非常”、“重要”、“</s>”,其中“<s>”和“</s>”分别表示一个语句的开始和结束,对所有语种的句子都是统一的,其中t0是一个零向量,以分词“<s>”为例,将分词“<s>”的词向量和t0向量输入到LSTM网络单元中,输出t1向量,t1向量经过FC函数处理,获得L1向量,L1向量即分词“<s>”的第一向量。
图3为本发明实施例的以从右到左的顺序将原文的词向量序列输入至编码器的流程示意图,该流程与图2所示实施例的流程主体思想一致,只不过是从分词“</s>”开始处理,其中v0是一个零向量,将分词“</s>”的词向量和v0向量输入到LSTM网络单元中,输出v1向量,v1向量经过FC函数处理,获得R1向量,R1向量即分词“</s>”的第二向量。
根据图2和图3可知,本发明实施例将所述第一向量序列和所述第二向量序列合并,获得所述原文的编码向量序列,具体是针对每个分词的从左到右获得的第一向量和从右到左获得的第二向量进行合并,从而获得分词的编码向量,以分词“技能”为例,该分词是以L3向量和R6向量进行合并,获得编码向量。
S503、将所述原文的编码向量序列输入至所述解码器,输出预测的译文。
将所述原文的编码向量序列输入至所述解码器,所述解码器根据注意力机制,根据预测出的译文的前一个分词结果的编码向量和原文的编码向量序列预测译文的下一个分词结果,直至译文预测完成。
图4为本发明实施例的解码器的工作流程图,如图4所示,attention机制即表示解码器基于attention机制进行解码,序列{H1,H2,…,H7}表示“技能的培养非常重要”的编码向量序列,其中H1表示“<s>”的编码向量,H2表示“技能”的编码向量,以此类推,H7表示“</s>”的编码向量。从图4中可知,译文的每个单词的编码向量用K进行表示,由该单词的词向量和前一个LSTM网络单元输出的向量作为本单词对应的LSTM网络单元的输入而获得,可以理解的是,本发明实施例预先也获取了译文语种的词向量模型。以单词“The”为例,由该单词的词向量和第1个LSTM网络单元输出的向量s1作为第2个LSTM网络单元的输入,获得向量s2,s2经过函数FC计算,获得编码向量K2。预测的每个单词根据序列{H1,H2,…,H7}和预测的前一个单词的编码向量获得,即Gn=attention机制(Kn向量,编码器的向量序列{L1,L2,…L7}),n表示词向量的序号,也就是说,译文的每个分词结果的编码向量与原文的编码向量序列通过注意力机制计算得到下一个单词的G向量,通过对G向量进行预测,即可获得译文的每个结果。
图5为本发明实施例提供的基于多级翻译模型生成中泰双语语料的装置的结构示意图,如图5所示,该基于多级翻译模型生成中泰双语语料的装置包括:原文句子获取模块201和翻译模块202,其中:
原文句子获取模块201,用于获取中文原文句子和泰文原文句子;
翻译模块202,用于将所述中文原文句子输入至预先训练完成的第一两级翻译模型,输出泰文译文句子,将所述泰文原文句子输入至预先完成的第二两级翻译模型,输出中文译文句子;
其中,所述第一两级翻译模型和第二两级翻译模型以高资源的中英双语语料、高资源的英泰双语语料和低资源的中泰双语语料从两个翻译方向联合训练而成。
本发明实施例提供的基于多级翻译模型生成中泰双语语料的装置,具体执行上述各基于多级翻译模型生成中泰双语语料的方法实施例流程,具体请详见上述各基于多级翻译模型生成中泰双语语料的方法实施例的内容,在此不再赘述。本发明实施例提供的基于多级翻译模型生成中泰双语语料的装置采集高资源的中英双语语料和高资源的英泰双语语料,在只存在中英双语语料和英泰双语语料的情况下,通过多级模型获得能够实现生成中泰双语语料的翻译模型,此外,本发明实施例还采用低资源的中泰双语语料对获得的翻译模型从两个翻译方向(即中到泰和泰到中)进行联合训练,通过两个方向上的学习以提升模型的表现来更好的进行语料的合成。
图6为本发明实施例提供的电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储在存储器330上并可在处理器310上运行的计算机程序,以执行上述各实施例提供的基于多级翻译模型生成中泰双语语料的方法,例如包括:获取中文原文句子和泰文原文句子;将所述中文原文句子输入至预先训练完成的第一两级翻译模型,输出泰文译文句子,将所述泰文原文句子输入至预先完成的第二两级翻译模型,输出中文译文句子;其中,所述第一两级翻译模型和第二两级翻译模型以高资源的中英双语语料、高资源的英泰双语语料和低资源的中泰双语语料从两个翻译方向联合训练而成。
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的基于多级翻译模型生成中泰双语语料的方法,例如包括:获取中文原文句子和泰文原文句子;将所述中文原文句子输入至预先训练完成的第一两级翻译模型,输出泰文译文句子,将所述泰文原文句子输入至预先完成的第二两级翻译模型,输出中文译文句子;其中,所述第一两级翻译模型和第二两级翻译模型以高资源的中英双语语料、高资源的英泰双语语料和低资源的中泰双语语料从两个翻译方向联合训练而成。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于多级翻译模型生成中泰双语语料的方法,其特征在于,包括:
获取中文原文句子和泰文原文句子;
将所述中文原文句子输入至预先训练完成的第一两级翻译模型,输出泰文译文句子,将所述泰文原文句子输入至预先完成的第二两级翻译模型,输出中文译文句子;
其中,所述第一两级翻译模型和第二两级翻译模型以高资源的中英双语语料、高资源的英泰双语语料和低资源的中泰双语语料从两个翻译方向联合训练而成。
2.根据权利要求1所述的基于多级翻译模型生成中泰双语语料的方法,其特征在于,所述第一两级翻译模型和所述第二两级翻译模型的训练方法包括:
根据所述高资源的中英双语语料训练用于将中文原文翻译为英文译文的中英翻译模型和用于将英文原文翻译为中文译文的英中翻译模型;根据所述高资源的泰英双语语料训练用于将泰文原文翻译为泰文译文的泰英翻译模型和用于将英文原文翻译为泰文译文的英泰翻译模型;
分别构建第一三级翻译模型和第二三级翻译模型,所述第一三级翻译模型沿数据传输方向包括所述中英翻译模型、所述英泰翻译模型和所述泰英翻译模型,所述第二三级翻译模型沿数据传输方向包括所述泰英翻译模型、所述英中翻译模型和所述中英翻译模型,根据低资源的中泰双语语料分别训练所述第一三级翻译模型和所述第二三级翻译模型;
将训练好的第二三级翻译模型中的中英翻译模型和训练好的第三翻译模型中的英泰翻译模型组成所述第一两级翻译模型,将训练好的第一三级翻译模型中的泰英翻译模型和训练好的第四翻译模型中的英中翻译模型组成所述第二两级翻译模型。
3.根据权利要求2所述的基于多级翻译模型生成中泰双语语料的方法,其特征在于,所述根据低资源的中泰双语语料分别训练所述第一三级翻译模型和所述第二三级翻译模型,包括:
将所述低资源的中泰双语语料中的中文原文输入至所述第一三级翻译模型进行训练,获取所述第一三级翻译模型中的英泰翻译模型输出的泰文译文以及泰英翻译模型输出的英文译文;
根据所述英泰翻译模型输出的泰文译文与所述中文原文的真实泰文译文间的差异,对所述英泰翻译模型的参数进行调整;根据所述泰英翻译模型输出的英文译文与所述第一三级翻译模型中的中英翻译模型输出的英文译文间的差异,对所述泰英翻译模型的参数进行调整。
4.根据权利要求2或3所述的基于多级翻译模型生成中泰双语语料的方法,其特征在于,所述根据低资源的中泰双语语料分别训练所述第一三级翻译模型和所述第二三级翻译模型,包括:
将所述低资源的中泰双语语料中的泰文原文输入至所述第二三级翻译模型,获取所述第二三级翻译模型中的英中翻译模型输出的中文译文以及中英翻译模型输出的英文译文;
根据所述英中翻译模型输出的中文译文与所述泰文原文的真实中文译文间的差异,对所述英中翻译模型的参数进行调试;根据所述中英翻译模型输出的英文翻译模型输出英文译文与所述第二三级翻译模型中的泰英翻译模型输出的英文译文间的差异,对所述中英翻译模型的参数进行调整。
5.根据权利要求2所述的基于多级翻译模型生成中泰双语语料的方法,其特征在于,所述中英翻译模型、英中翻译模型、英泰翻译模型和泰英翻译模型均包括编码器和解码器;
其中,所述中英翻译模型、英中翻译模型、英泰翻译模型和泰英翻译模型中的任意一个翻译模型的训练方法包括:
对原文进行分词,根据预设的词向量模型获得所述原文的词向量序列;
将所述原文的词向量序列输入至所述编码器,输出原文的编码向量序列;
将所述原文的编码向量序列输入至所述解码器,输出预测的译文。
6.根据权利要求5所述的基于多级翻译模型生成中泰双语语料的方法,其特征在于,所述编码器为双向LSTM神经网络结构;
相应地,所述将所述原文的词向量序列输入至所述编码器,输出原文的编码向量序列,具体为:
将所述原文的词向量序列根据从左到右的顺序输入至所述编码器,输出第一向量序列;
将所述原文的词向量序列根据从右到左的顺序输入至所述编码器,输出第二向量序列;
将所述第一向量序列和所述第二向量序列合并,获得所述原文的编码向量序列。
7.根据权利要求5所述的基于多级翻译模型生成中泰双语语料的方法,其特征在于,所述将所述原文的编码向量序列输入至所述解码器,输出预测的译文,包括:
将所述原文的编码向量序列输入至所述解码器,所述解码器根据注意力机制,根据预测出的译文的前一个分词结果的编码向量和原文的编码向量序列预测译文的下一个分词结果,直至译文预测完成。
8.一种基于多级翻译模型生成中泰双语语料的装置,其特征在于,包括:
原文句子获取模块,用于获取中文原文句子和泰文原文句子;
翻译模块,用于将所述中文原文句子输入至预先训练完成的第一两级翻译模型,输出泰文译文句子,将所述泰文原文句子输入至预先完成的第二两级翻译模型,输出中文译文句子;
其中,所述第一两级翻译模型和第二两级翻译模型以高资源的中英双语语料、高资源的英泰双语语料和低资源的中泰双语语料从两个翻译方向联合训练而成。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述基于多级翻译模型生成中泰双语语料的方法的步骤。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至7中任意一项所述的基于多级翻译模型生成中泰双语语料的方法。
CN201911350770.8A 2019-12-24 2019-12-24 基于多级翻译模型生成中泰双语语料的方法及装置 Active CN111178097B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911350770.8A CN111178097B (zh) 2019-12-24 2019-12-24 基于多级翻译模型生成中泰双语语料的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911350770.8A CN111178097B (zh) 2019-12-24 2019-12-24 基于多级翻译模型生成中泰双语语料的方法及装置

Publications (2)

Publication Number Publication Date
CN111178097A true CN111178097A (zh) 2020-05-19
CN111178097B CN111178097B (zh) 2023-07-04

Family

ID=70652147

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911350770.8A Active CN111178097B (zh) 2019-12-24 2019-12-24 基于多级翻译模型生成中泰双语语料的方法及装置

Country Status (1)

Country Link
CN (1) CN111178097B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113160793A (zh) * 2021-04-23 2021-07-23 平安科技(深圳)有限公司 基于低资源语言的语音合成方法、装置、设备及存储介质
CN113239708A (zh) * 2021-04-28 2021-08-10 华为技术有限公司 一种模型训练的方法、翻译的方法以及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126507A (zh) * 2016-06-22 2016-11-16 哈尔滨工业大学深圳研究生院 一种基于字符编码的深度神经翻译方法及系统
CN107368475A (zh) * 2017-07-18 2017-11-21 中译语通科技(北京)有限公司 一种基于生成对抗神经网络的机器翻译方法和系统
WO2019137021A1 (zh) * 2018-01-11 2019-07-18 华为技术有限公司 一种机器学习模型训练方法和装置
CN110110337A (zh) * 2019-05-08 2019-08-09 网易有道信息技术(北京)有限公司 翻译模型训练方法、介质、装置和计算设备
CN110263349A (zh) * 2019-03-08 2019-09-20 腾讯科技(深圳)有限公司 语料评估模型训练方法、装置、存储介质和计算机设备
CN110543643A (zh) * 2019-08-21 2019-12-06 语联网(武汉)信息技术有限公司 文本翻译模型的训练方法及装置
CN110555213A (zh) * 2019-08-21 2019-12-10 语联网(武汉)信息技术有限公司 文本翻译模型的训练方法、文本翻译方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126507A (zh) * 2016-06-22 2016-11-16 哈尔滨工业大学深圳研究生院 一种基于字符编码的深度神经翻译方法及系统
CN107368475A (zh) * 2017-07-18 2017-11-21 中译语通科技(北京)有限公司 一种基于生成对抗神经网络的机器翻译方法和系统
WO2019137021A1 (zh) * 2018-01-11 2019-07-18 华为技术有限公司 一种机器学习模型训练方法和装置
CN110263349A (zh) * 2019-03-08 2019-09-20 腾讯科技(深圳)有限公司 语料评估模型训练方法、装置、存储介质和计算机设备
CN110110337A (zh) * 2019-05-08 2019-08-09 网易有道信息技术(北京)有限公司 翻译模型训练方法、介质、装置和计算设备
CN110543643A (zh) * 2019-08-21 2019-12-06 语联网(武汉)信息技术有限公司 文本翻译模型的训练方法及装置
CN110555213A (zh) * 2019-08-21 2019-12-10 语联网(武汉)信息技术有限公司 文本翻译模型的训练方法、文本翻译方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
RAJ DABRE等: "Exploiting Multilingualism through Multistage Fine-Tuning for Low-Resource Neural Machine Translation" *
YUNSU KIM等: "Pivot-based Transfer Learning for Neural Machine Translation between Non-English Languages" *
刘婉婉;苏依拉;乌尼尔;仁庆道尔吉;: "基于LSTM的蒙汉机器翻译的研究" *
武静: "多方法融合蒙汉机器翻译与译文重排序研究" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113160793A (zh) * 2021-04-23 2021-07-23 平安科技(深圳)有限公司 基于低资源语言的语音合成方法、装置、设备及存储介质
CN113239708A (zh) * 2021-04-28 2021-08-10 华为技术有限公司 一种模型训练的方法、翻译的方法以及装置

Also Published As

Publication number Publication date
CN111178097B (zh) 2023-07-04

Similar Documents

Publication Publication Date Title
KR102382499B1 (ko) 번역 방법, 타깃 정보 결정 방법, 관련 장치 및 저장 매체
CN111144140B (zh) 基于零次学习的中泰双语语料生成方法及装置
CN109446534B (zh) 机器翻译方法及装置
CN109670180B (zh) 向量化译员的翻译个性特征的方法及装置
CN106354716B (zh) 转换文本的方法和设备
CN110555213B (zh) 文本翻译模型的训练方法、文本翻译方法及装置
KR101627428B1 (ko) 딥 러닝을 이용하는 구문 분석 모델 구축 방법 및 이를 수행하는 장치
KR20160133349A (ko) 구 표 생성 방법 및 구 표를 이용한 기계 번역 방법
CN111178097B (zh) 基于多级翻译模型生成中泰双语语料的方法及装置
CN111191468B (zh) 术语替换方法及装置
CN111144137B (zh) 机器翻译后编辑模型语料的生成方法及装置
KR101929509B1 (ko) 형태소 합성 장치 및 방법
CN109657244B (zh) 一种英文长句自动切分方法及系统
CN115438678B (zh) 机器翻译方法、装置、电子设备及存储介质
KR20210035721A (ko) 다중-언어 코퍼스를 이용하여 기계번역 하는 방법 및 이를 구현한 시스템
CN111985251A (zh) 翻译质量测评方法及装置
Do et al. Transferring Emphasis in Speech Translation Using Hard-Attentional Neural Network Models.
Ahmadnia et al. Enhancing phrase-based statistical machine translation by learning phrase representations using long short-term memory network
CN111666774B (zh) 基于文档上下文的机器翻译方法及装置
CN114519358A (zh) 翻译质量评估方法、装置、电子设备和存储介质
CN110852063B (zh) 基于双向lstm神经网络的词向量生成方法及装置
CN114861628A (zh) 训练机器翻译模型的系统、方法、电子设备及存储介质
CN110866404B (zh) 基于lstm神经网络的词向量生成方法及装置
JP2007323476A (ja) 機械翻訳装置及びコンピュータプログラム
CN110263352B (zh) 用于训练深层神经机器翻译模型的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant