CN110543643A - 文本翻译模型的训练方法及装置 - Google Patents
文本翻译模型的训练方法及装置 Download PDFInfo
- Publication number
- CN110543643A CN110543643A CN201910772638.XA CN201910772638A CN110543643A CN 110543643 A CN110543643 A CN 110543643A CN 201910772638 A CN201910772638 A CN 201910772638A CN 110543643 A CN110543643 A CN 110543643A
- Authority
- CN
- China
- Prior art keywords
- training
- translation
- translation model
- text
- corpus data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明实施例提供一种文本翻译模型的训练方法及装置,其中方法包括:获取第一训练文本集,第一训练文本集包括第一类语料数据以及第二类语料数据,利用第一类语料数据训练第一翻译模型,在第一翻译模型符合停止训练的条件后,利用第二类语料数据训练第二翻译模型;其中,第一翻译模型与第二翻译模型共享部分模型参数,且训练第二翻译模型时输入的第二类语料数据的数量小于训练第一翻译模型时输入的第一类语料数据的数量;在第二翻译模型符合停止训练的条件后,判断是否继续训练第一翻译模型,若确定不再继续训练第一翻译模型,则将训练完成的第一翻译模型作为文本翻译模型。本发明实施例训练得到的翻译结果更加精准并且翻译风格更加明确。
Description
技术领域
本发明涉及文本翻译技术领域,更具体地,涉及文本翻译模型的训练方法及装置。
背景技术
在后编辑模式下,辅助翻译工具调用机器翻译引擎结果给出一个翻译初稿,再有专业的翻译人员在此基础上进行审校和编辑,产生高质量的译文结果。
当前,虽然基于深度学习的神经网络机器翻译算法的表现令人振奋,但其翻译结果缺乏个性化。其输出的结果往往千篇一律且存在着许多重复。因此,如果在机器翻译引擎中加入个性化的信息,则可以更好地为译员提供更加个性化的辅助翻译,并以此来提升译员的翻译工作效率。
对于如何训练表现优异的译员个性化机器翻译引擎的算法,一直都是一个非常有挑战的研究课题。当前的主要方法主要是首先训练一个通用的翻译模型,再利用译员所翻译数据对通用的翻译模型进一步微调。但现有方法的训练结果并不尽如人意。
发明内容
本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的文本翻译模型的训练方法及装置。
第一个方面,本发明实施例提供一种文本翻译模型的训练方法,包括:
获取第一训练文本集,所述第一训练文本集包括第一类语料数据以及第二类语料数据,所述第一类语料数据为第一语言的待翻译训练文本和对应的由特定译员后编辑的第二语言的译文;所述第二类语料数据为机器翻译的第一语言的译文和对应的由所述特定译员后编辑的第一语言的译文;
利用所述第一类语料数据训练第一翻译模型,在所述第一翻译模型符合停止训练的条件后,利用所述第二类语料数据训练第二翻译模型;其中,所述第一翻译模型与第二翻译模型共享部分模型参数,且训练第二翻译模型时输入的第二类语料数据的数量小于训练所述第一翻译模型时输入的第一类语料数据的数量;
在所述第二翻译模型符合停止训练的条件后,判断是否继续训练所述第一翻译模型,若确定不再继续训练所述第一翻译模型,则将训练完成的第一翻译模型作为文本翻译模型。
优选地,所述获取第一训练文本集,之前还包括:
获取第三类语料数据,所述第三类语料数据为第一语言的待翻译训练文本和对应的由非特定译员后编辑的第二语言的译文;
相应地,所述利用所述第一类语料数据训练第一翻译模型,之前还包括:
利用所述第三类语料数据对所述第一翻译模型进行训练。
优选地,所述利用所述第一类语料数据训练第一翻译模型,具体为:
将所述第一语言的待翻译训练文本作为样本,将所述对应的由特定译员后编辑的第二语言的译文作为样本标签,对所述第一翻译模型进行训练。
优选地,所述利用所述第二类语料数据训练第二翻译模型,具体为:
将所述第二类语料数据中的机器翻译的第一语言的译文作为样本,将所述对应的由所述特定译员后编辑的第一语言的译文作为样本标签,对所述第二翻译模型进行训练。
优选地,所述判断是否继续训练所述第一翻译模型,之后还包括:
若确定继续训练所述第一翻译模型,则继续根据所述第一类语料数据训练所述第一翻译模型,直至确定不再继续训练所述第一翻译模型,则将训练完成的第一翻译模型作为文本翻译模型。
优选地,所述第一翻译模型和所述第二翻译模型共享一个编码器,所述第一翻译模型和第二翻译模型还各自包括一个解码器。
第二个方面,本发明实施例提供一种文本翻译方法,包括:
获得第一语言的待翻译文本;
根据上述文本翻译模型的训练方法训练得到的文本翻译模型,对所述待翻译文本进行翻译。
第三个方面,本发明实施例提供一种文本翻译模型的训练装置,包括:
训练集获取模块,用于获取第一训练文本集,所述第一训练文本集包括第一类语料数据以及第二类语料数据,所述第一类语料数据为第一语言的待翻译训练文本和对应的由特定译员后编辑的第二语言的译文;所述第二类语料数据为机器翻译的第一语言的译文和对应的由所述特定译员后编辑的第一语言的译文;
训练模块,用于利用所述第一类语料数据训练第一翻译模型,在所述第一翻译模型符合停止训练的条件后,利用所述第二类语料数据训练第二翻译模型;其中,所述第一翻译模型与第二翻译模型共享部分模型参数,且训练第二翻译模型时输入的第二类语料数据的数量小于训练所述第一翻译模型时输入的第一类语料数据的数量;
判断模块,用于在所述第二翻译模型符合停止训练的条件后,判断是否继续训练所述第一翻译模型,若确定不再继续训练所述第一翻译模型,则将训练完成的第一翻译模型作为文本翻译模型。
第四个方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。
第五个方面,本发明实施例提供一种文本翻译设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第二方面所提供的方法的步骤。
第六个方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面或第二方面所提供的方法的步骤。
本发明实施例提供的文本翻译模型的训练方法及装置,通过收集第一语言的待翻译训练文本和对应的由特定译员后编辑的第二语言的译文,以及机器翻译的第一语言的译文和对应的由所述特定译员后编辑的第一语言的译文,即收集特定译员的第一语言至第二语言的翻译数据和从第二语言至第一语言的翻译数据,以特定译员的第一语言至第二语言的翻译数据训练第一翻译模型,以从第二语言至第一语言的翻译数据训练第二翻译模型,并且两个翻译模型共享一部分模型参数,使得共享的模型参数能够接受更多的数据训练,并且训练两个翻译模型时输入样本数量存在差异,第一翻译模型输入的样本数量要多余第二翻译模型输入的样本数量,这样能够取得更好的模型泛化效果,提高模型的泛化能力,最终使得训练得到的翻译结果更加精准并且翻译风格更加明确。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的文本翻译模型的训练方法的流程示意图;
图2为本发明实施例的第一翻译模型和第二翻译模型的结构示意图;
图3为本发明实施例提供的文本翻译方法的流程示意图;
图4为本发明实施例提供的文本翻译模型的训练装置的结构示意图;
图5为本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在翻译领域,待翻译训练文本通常会通过常用的机器翻译引擎(例如Google翻译)进行翻译,这一步的结果称之为机器翻译结果,之后会由译员进行人工编辑,这一步的结果称之为后编辑结果。由于不同人的翻译水平有高低、翻译的风格也有区别,对于翻译水平高或者翻译风格受到客户喜欢的意愿的译员,翻译公司通常会根据该译员的翻译结果训练机器翻译引擎,从而获得具有该译员翻译风格的机器翻译引擎。但是,由于译员的翻译数据的量级并不大,训练处的机器翻译引擎的结果并不好。
为了克服现有技术存在的上述问题,本发明提供的文本翻译模型的训练方法的发明构思为:通过收集第一语言的待翻译训练文本和对应的由特定译员后编辑的第二语言的译文,以及机器翻译的第一语言的译文和对应的由所述特定译员后编辑的第一语言的译文,即收集特定译员的第一语言至第二语言的翻译数据和从第二语言至第一语言的翻译数据,以特定译员的第一语言至第二语言的翻译数据训练第一翻译模型,以从第二语言至第一语言的翻译数据训练第二翻译模型,并且两个翻译模型共享一部分模型参数,使得共享的模型参数能够接受更多的数据训练,并且训练两个翻译模型时输入样本数量存在差异,第一翻译模型输入的样本数量要多余第二翻译模型输入的样本数量,这样能够取得更好的模型泛化效果,提高模型的泛化能力,最终使得训练得到的翻译结果更加精准并且翻译风格更加明确。
图1为本发明实施例的文本翻译模型的训练方法的流程示意图,如图1所示,包括S101、S102和S103,具体地:
S101、获取第一训练文本集,所述第一训练文本集包括第一类语料数据以及第二类语料数据,所述第一类语料数据为第一语言的待翻译训练文本和对应的由特定译员后编辑的第二语言的译文;所述第二类语料数据为机器翻译的第一语言的译文和对应的由所述特定译员后编辑的第一语言的译文。
本发明实施例对第一语言和第二语言的语种不做进一步的限制,并且对待翻译训练文本的字数也不做限制,待翻译训练文本可以是多句话,也可以是一句话。以第一语言为中文,第二语言为英文对本发明实施例的训练方法进行说明。选取某位译员中->英的翻译任务,并从中抽取第一类语料数据,其中包括待翻译的中文句子和后编辑所产生的高质量的译文英文句子。同样地,针对该特定的译员,选取该译员英->中的翻译任务,并从此抽取第二类语料数据,其中包括机器翻译的中文矩阵和后编辑所产生的高质量的译文中文句子。
基于第一类语料数据构建第一平行语料库T,T={t1,t2,…,tK},其中K代表总数据条数,ti代表第i条文本对,每个文本对t中包括一个中文句子和相应的后编辑译文句子。
基于第二类语料数据构建第二平行语料库M,M={m1,m2,…,mG},其中G代表总数据条数,mi代表第i条文本对,每个文本对m中包括一个机器翻译的中文句子和相应的后编辑中文句子。
S102、利用所述第一类语料数据训练第一翻译模型,在所述第一翻译模型符合停止训练的条件后,利用所述第二类语料数据训练第二翻译模型;其中,所述第一翻译模型与第二翻译模型共享部分模型参数,且训练第二翻译模型时输入的第二类语料数据的数量小于训练所述第一翻译模型时输入的第一类语料数据的数量。
在本发明实施例中,采用多任务训练的方式对翻译模型进行训练,以进一步提高文本翻译模型的翻译性能。多任务训练指的是将多个相关任务放在一起进行训练的机器学习方法,在训练过程中,这多个相关任务的任务模型之间共享模型参数,比如,可以共享模型底层的部分参数等等,用于共享各任务所学到的信息。具体地,本发明实施例采用先训练第一翻译模型,当第一翻译模型符合停止训练的条件后,再训练第二翻译模型,之后判断是否继续训练第一翻译模型,即类似钟摆的形式进行训练,需要注意的是,本发明实施例在训练第二翻译模型时输入的第二类语料数据的数量小于训练所述第一翻译模型时输入的第一类语料数据的数量,比如训练第一翻译模型时需要输入50个第一类语料数据,而训练第二翻译模型时仅需要10个第二类语料数据,从而,本发明实施例将第一翻译模型的训练称之为主任务,将第二翻译模型的训练称之为辅任务。
S103、在所述第二翻译模型符合停止训练的条件后,判断是否继续训练所述第一翻译模型,若确定不再继续训练所述第一翻译模型,则将训练完成的第一翻译模型作为文本翻译模型。
具体地,先使用一部分第一类语料数据训练主任务,再切换到辅任务,从一部分第二类语料数据进行训练;再切换回主任务,再到辅任务,直到主任务的训练次数达到预设阈值。
目前本领域技术人员多进行多个神经网络同步并行训练的方式,这种方式意味着两个任务是平等的,而本发明这种钟摆式且幅度(相当于输入至不同翻译模型的训练数据)不同的训练方式,则意味着两个任务是不平等的,钟摆往主任务那边可以摆的幅度更大一些,而辅任务更小一些,即每次训练时更着重主任务,这种训练方式相比现有技术能够取得更好的模型泛化效果,提高模型的泛化能力,最终使得训练得到的翻译结果更加精准。
在上述实施例的基础上,判断是否继续训练所述第一翻译模型,之后还包括:若确定继续训练所述第一翻译模型,则继续根据所述第一类语料数据训练所述第一翻译模型,直至确定不再继续训练所述第一翻译模型,则将训练完成的第一翻译模型作为文本翻译模型。
具体地,本发明实施例判断是否继续训练第一翻译模型的指标可以采用第一翻译模型的训练次数,即若第一翻译模型的训练次数未达到预设阈值,则需要继续训练第一翻译模型,可以理解的是,除了最后一次训练第一翻译模型,在每次训练第一翻译模型后,都要再次训练第二翻译模型。
在上述各实施例的基础上,作为一种可选实施例,在获取第一训练文本集之前还包括:
获取第三类语料数据,所述第三类语料数据为第一语言的待翻译训练文本和对应的由非特定译员后编辑的第二语言的译文;
相应地,所述利用所述第一类语料数据训练第一翻译模型,之前还包括:利用所述第三类语料数据对所述第一翻译模型进行训练。
在本发明实施例中,第一翻译模型在利用第一语料数据进行前,需要先利用第三类语料数据进行训练,这样操作的目的是获得一个第一语言至第二语言的通用翻译模型,以使得后续利用第一类语料数据对通用翻译模型进行调整,这样训练能够比直接利用特定译员的翻译结果进行训练具有更好的翻译精度。
在上述各实施例的基础上,利用所述第一类语料数据训练第一翻译模型,具体为:将第一语言的待翻译训练文本作为样本,将所述对应的由特定译员后编辑的第二语言的译文作为样本标签,对所述第一翻译模型进行训练。
具体地,本发明实施例对第一类语料进行分词,然后对第一类语料进行重新洗牌,打乱第一类语料中的原始的排序,将第一类语料中的80%的数据作为训练集,20%的数据作为验证集,利用训练集对第一翻译模型进行训练,得到训练后的第一翻译模型,再使用验证集对训练后的第一翻译模型进行测试,当测试结果符合预期,则训练结束,若测试结果不符合预期,则继续使用训练集对第一文本翻译模型进行训练。可以理解的是,利用训练集对第一翻译模型进行训练可以是从训练集中随机抽取预设数量的语料对第一翻译模型进行训练。
在本发明实施例中,第一翻译模型利用第一语言的待翻译训练文本,可以预测得到特定译员后编辑风格的第二语言的译文,从而获得个性化的译文。
在一个实施例中,将第一语言的待翻译训练文本作为样本,将所述对应的由特定译员后编辑的第二语言的译文作为样本标签,具体为:对第一语言的待翻译训练文本和第二语言的译文分别进行分词,然后从预先获得的词向量库中获得对应分词的词向量,将第一语言的待翻译训练文本的词向量作为样本,将第二语言的译文的词向量作为样本标签。
在上述各实施例的基础上,作为一种可选实施例,所述利用所述第二类语料数据训练第二翻译模型,具体为:
将所述第二类语料数据中的机器翻译的第一语言的译文作为样本,将所述对应的由所述特定译员后编辑的第一语言的译文作为样本标签,对所述第二翻译模型进行训练。
具体地,本发明实施例对第二类语料进行分词,然后对第二类语料进行重新洗牌,打乱第二类语料中的原始的排序,将第二类语料中的80%的数据作为训练集,20%的数据作为验证集,利用训练集对第二翻译模型进行训练,得到训练后的第二翻译模型,再使用验证集对训练后的第二翻译模型进行测试,当测试结果符合预期,则训练结束,若测试结果不符合预期,则继续使用训练集对第二文本翻译模型进行训练。可以理解的是,利用训练集对第二翻译模型进行训练可以是从训练集中随机抽取预设数量的语料对第二翻译模型进行训练。
在本发明实施例中,第二翻译模型利用机器翻译的第一语言的译文,可以预测得到特定译员后编辑风格的第一语言的译文,从而获得个性化的译文。
在上述各实施例的基础上,本发明实施例中词向量的获取方法包括:以学习语义知识的神经网络模型分别对预先获取的双语语料集进行训练,获得所述双语语料集中每个分词的词向量,构成双语词向量集。
具体地,本发明实施例可以通过爬取维基百科、Google新闻等网站中质量的双语语料,并进行分词,例如采用Skip-Gram算法分别进行词向量的训练,其中一些重要的超参数设置为:词向量的维度为300,上下文窗口为5。本发明实施例对学习语义知识的神经网络的类型以及训练过程中的超参数设置不做进一步的限定。
本发明各实施例中的待翻译训练文本及译文的词向量均采用同一套训练方式训练而成,从而保证翻译过程的统一。
在上述各实施例的基础上,本发明实施例的第一翻译模型为循环神经网络类型,循环神经网络(Recurrent Neural Network,RNN)是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network)。
通过建立输出节点,循环神经网络可以有多种输出模式,包括序列-分类器(单输出)、序列-序列(同步多输出)、编码器-解码器(异步多输出)等,在一个可选实施例中,本发明的第一翻译模型采用编码器-解码器(encoder-decoder)的输出模式。
在上述实施例的基础上,第二翻译模型为循环神经网络模型类型,并且其输出类型也为编码器-解码器的输出模式。
图2为本发明实施例的第一翻译模型和第二翻译模型的结构示意图,如图2所示,第一翻译模型和所述第二翻译模型共享一个编码器,所述第一翻译模型和第二翻译模型还各自包括一个解码器。
编码器使用循环神经网络LSTM将中文的句子变成向量。具体地,待翻译训练文本为“技能的培养非常重要”,通过预先对待翻译训练文本进行分词,分词结果为:技能/的/培养/非常/重要。<s>指的是开头符,用于表征一个序列的输入开始,</s>指的是结尾符,用于表征一个序列的输入结束。编码器的LSTM用于完成以下计算:
s1=f(s0,“<s>”词向量)
s2=f(s1,“技能”词向量)
s3=f(s2,“的”词向量)
…
c=f(s6,“</s>”词向量)
第一翻译模型中的解码器使用循环神经网络LSTM将编码器输出的向量变成第二语言的译文。解码器的LSTM用于完成:
t1,z1=f(t0,<s>词向量+c)
通过z1的值,计算词汇表中哪个词是第一个词的概率;p(第一个词是the)的值最大,则第一个词是the;
t2,z2=f(t1,skill词向量+c)
通过z2的值,计算词汇表中哪个词是第二个词的概率;p(第二个词是skill)的值,则第二个词是skill;
t3,z3=f(t2,building词向量+c)
通过z3的值,计算词汇表中每个词是第三个词的概率;p(第三个词是building)的值最大,则第三个词是building;
以此类推,最终预测出完整译文:the skill building is important。
第二翻译模型中的解码器使用循环神经网络LSTM将编码器输出的向量变成第一语言的译文。解码器的LSTM用于完成:
t1,z1=f(t0,<s>词向量+c)
通过z1的值,计算词汇表中哪个词是第一个词的概率;p(第一个词是the)的值最大,则第一个词是培养;
t2,z2=f(t1,技能词向量+c)
通过z2的值,计算词汇表中哪个词是第二个词的概率;p(第二个词是skill)的值,则第二个词技能;
t3,z3=f(t2,非常词向量+c)
通过z3的值,计算词汇表中每个词是第三个词的概率;p(第三个词是building)的值最大,则第三个词是非常;
以此类推,最终预测出完整译文:技能培养非常的重要。
以上为本申请实施例提供的一种文本翻译模型的训练方法的具体实施例,基于上述实施例中训练得到的文本翻译模型,本申请实施例还提供了一种文本翻译方法。
图3为本发明实施例提供的文本翻译方法的流程示意图,该方法包括S201和S202,具体地:
S201、获得第一语言的待翻译文本;
在本发明实施例中,将采用本实施例进行翻译的任意第一语言的文本定义为待翻译文本。
S202、利用训练得到的文本翻译模型对待翻译文本进行翻译。
在实际应用中,通过获取待翻译文本的词向量,将该词向量输入至上述实施例训练得到的文本翻译模型中,获得特定译员后编辑风格的第二语言的译文。
本发明实施例提供一种文本翻译方法,在获取待翻译文本后,利用上述各实施例训练得到的文本翻译模型,对待翻译文本进行翻译,从而获得特定译员后编辑风格的译文,相比现有技术,本发明能够获得风格更明确且翻译结果更准确的文本翻译结果。
图4为本发明实施例提供的文本翻译模型的训练装置的结构示意图,如图4所示,该文本翻译模型的训练装置包括:训练集获取模块301、训练模块302和判断模块303,其中:
训练集获取模块301,用于获取第一训练文本集,所述第一训练文本集包括第一类语料数据以及第二类语料数据,所述第一类语料数据为第一语言的待翻译训练文本和对应的由特定译员后编辑的第二语言的译文;所述第二类语料数据为机器翻译的第一语言的译文和对应的由所述特定译员后编辑的第一语言的译文;
训练模块302,用于利用所述第一类语料数据训练第一翻译模型,在所述第一翻译模型符合停止训练的条件后,利用所述第二类语料数据训练第二翻译模型;其中,所述第一翻译模型与第二翻译模型共享部分模型参数,且训练第二翻译模型时输入的第二类语料数据的数量小于训练所述第一翻译模型时输入的第一类语料数据的数量;
判断模块303,用于在所述第二翻译模型符合停止训练的条件后,判断是否继续训练所述第一翻译模型,若确定不再继续训练所述第一翻译模型,则将训练完成的第一翻译模型作为文本翻译模型。
本发明实施例提供的文本翻译模型的训练装置,具体执行上述各文本翻译模型的训练方法实施例流程,具体请详见上述各文本翻译模型的训练方法实施例的内容,在此不再赘述。本发明实施例提供的文本翻译模型的训练装置,通过收集第一语言的待翻译训练文本和对应的由特定译员后编辑的第二语言的译文,以及机器翻译的第一语言的译文和对应的由所述特定译员后编辑的第一语言的译文,即收集特定译员的第一语言至第二语言的翻译数据和从第二语言至第一语言的翻译数据,以特定译员的第一语言至第二语言的翻译数据训练第一翻译模型,以从第二语言至第一语言的翻译数据训练第二翻译模型,并且两个翻译模型共享一部分模型参数,使得共享的模型参数能够接受更多的数据训练,并且训练两个翻译模型时输入样本数量存在差异,第一翻译模型输入的样本数量要多余第二翻译模型输入的样本数量,这样能够取得更好的模型泛化效果,提高模型的泛化能力,最终使得训练得到的翻译结果更加精准并且翻译风格更加明确。
本发明实施例还提供一种文本翻译装置,包括:
文本获取模块,用于获得第一语言的待翻译文本;
翻译模块,用于根据上述文本翻译模型的训练方法训练得到的文本翻译模型,对所述待翻译文本进行翻译。
本发明实施例提供一种文本翻译装置,在获取待翻译文本后,利用上述各实施例训练得到的文本翻译模型,对待翻译文本进行翻译,从而获得特定译员后编辑风格的译文,相比现有技术,本发明能够获得风格更明确且翻译结果更准确的文本翻译结果。
图5为本发明实施例提供的电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储在存储器530上并可在处理器510上运行的计算机程序,以执行上述各实施例提供的文本翻译模型的训练方法,例如包括:获取第一训练文本集,所述第一训练文本集包括第一类语料数据以及第二类语料数据,所述第一类语料数据为第一语言的待翻译训练文本和对应的由特定译员后编辑的第二语言的译文;所述第二类语料数据为机器翻译的第一语言的译文和对应的由所述特定译员后编辑的第一语言的译文;利用所述第一类语料数据训练第一翻译模型,在所述第一翻译模型符合停止训练的条件后,利用所述第二类语料数据训练第二翻译模型;其中,所述第一翻译模型与第二翻译模型共享部分模型参数,且训练第二翻译模型时输入的第二类语料数据的数量小于训练所述第一翻译模型时输入的第一类语料数据的数量;在所述第二翻译模型符合停止训练的条件后,判断是否继续训练所述第一翻译模型,若确定不再继续训练所述第一翻译模型,则将训练完成的第一翻译模型作为文本翻译模型。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供一种文本翻译设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现文本翻译方法的步骤,例如包括:获得第一语言的待翻译文本,根据上述文本翻译模型的训练方法训练得到的文本翻译模型,对所述待翻译文本进行翻译。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的文本翻译模型的训练方法或者文本翻译方法,例如包括:获取第一训练文本集,所述第一训练文本集包括第一类语料数据以及第二类语料数据,所述第一类语料数据为第一语言的待翻译训练文本和对应的由特定译员后编辑的第二语言的译文;所述第二类语料数据为机器翻译的第一语言的译文和对应的由所述特定译员后编辑的第一语言的译文;利用所述第一类语料数据训练第一翻译模型,在所述第一翻译模型符合停止训练的条件后,利用所述第二类语料数据训练第二翻译模型;其中,所述第一翻译模型与第二翻译模型共享部分模型参数,且训练第二翻译模型时输入的第二类语料数据的数量小于训练所述第一翻译模型时输入的第一类语料数据的数量;在所述第二翻译模型符合停止训练的条件后,判断是否继续训练所述第一翻译模型,若确定不再继续训练所述第一翻译模型,则将训练完成的第一翻译模型作为文本翻译模型;或者,获得第一语言的待翻译文本,根据上述文本翻译模型的训练方法训练得到的文本翻译模型,对所述待翻译文本进行翻译。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种文本翻译模型的训练方法,其特征在于,包括:
获取第一训练文本集,所述第一训练文本集包括第一类语料数据以及第二类语料数据,所述第一类语料数据为第一语言的待翻译训练文本和对应的由特定译员后编辑的第二语言的译文;所述第二类语料数据为机器翻译的第一语言的译文和对应的由所述特定译员后编辑的第一语言的译文;
利用所述第一类语料数据训练第一翻译模型,在所述第一翻译模型符合停止训练的条件后,利用所述第二类语料数据训练第二翻译模型;其中,所述第一翻译模型与第二翻译模型共享部分模型参数,且训练第二翻译模型时输入的第二类语料数据的数量小于训练所述第一翻译模型时输入的第一类语料数据的数量;
在所述第二翻译模型符合停止训练的条件后,判断是否继续训练所述第一翻译模型,若确定不再继续训练所述第一翻译模型,则将训练完成的第一翻译模型作为文本翻译模型。
2.根据权利要求1所述的文本翻译模型的训练方法,所述获取第一训练文本集,之前还包括:
获取第三类语料数据,所述第三类语料数据为第一语言的待翻译训练文本和对应的由非特定译员后编辑的第二语言的译文;
相应地,所述利用所述第一类语料数据训练第一翻译模型,之前还包括:
利用所述第三类语料数据对所述第一翻译模型进行训练。
3.根据权利要求1所述的文本翻译模型的训练方法,其特征在于,所述利用所述第一类语料数据训练第一翻译模型,具体为:
将所述第一语言的待翻译训练文本作为样本,将所述对应的由特定译员后编辑的第二语言的译文作为样本标签,对所述第一翻译模型进行训练。
4.根据权利要求1所述的文本翻译模型的训练方法,其特征在于,所述利用所述第二类语料数据训练第二翻译模型,具体为:
将所述第二类语料数据中的机器翻译的第一语言的译文作为样本,将所述对应的由所述特定译员后编辑的第一语言的译文作为样本标签,对所述第二翻译模型进行训练。
5.根据权利要求1所述的文本翻译模型的训练方法,其特征在于,所述判断是否继续训练所述第一翻译模型,之后还包括:
若确定继续训练所述第一翻译模型,则继续根据所述第一类语料数据训练所述第一翻译模型,直至确定不再继续训练所述第一翻译模型,则将训练完成的第一翻译模型作为文本翻译模型。
6.根据权利要求1-5任意一项所述的文本翻译模型的训练方法,其特征在于,所述第一翻译模型和所述第二翻译模型共享一个编码器,所述第一翻译模型和第二翻译模型还各自包括一个解码器。
7.一种文本翻译方法,其特征在于,包括:
获得第一语言的待翻译文本;
根据权利要求1-6任意一项所述的方法训练得到的文本翻译模型,对所述待翻译文本进行翻译。
8.一种文本翻译模型的训练装置,其特征在于,包括:
训练集获取模块,用于获取第一训练文本集,所述第一训练文本集包括第一类语料数据以及第二类语料数据,所述第一类语料数据为第一语言的待翻译训练文本和对应的由特定译员后编辑的第二语言的译文;所述第二类语料数据为机器翻译的第一语言的译文和对应的由所述特定译员后编辑的第一语言的译文;
训练模块,用于利用所述第一类语料数据训练第一翻译模型,在所述第一翻译模型符合停止训练的条件后,利用所述第二类语料数据训练第二翻译模型;其中,所述第一翻译模型与第二翻译模型共享部分模型参数,且训练第二翻译模型时输入的第二类语料数据的数量小于训练所述第一翻译模型时输入的第一类语料数据的数量;
判断模块,用于在所述第二翻译模型符合停止训练的条件后,判断是否继续训练所述第一翻译模型,若确定不再继续训练所述第一翻译模型,则将训练完成的第一翻译模型作为文本翻译模型。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述方法的步骤。
10.一种文本翻译设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求7所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910772638.XA CN110543643B (zh) | 2019-08-21 | 2019-08-21 | 文本翻译模型的训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910772638.XA CN110543643B (zh) | 2019-08-21 | 2019-08-21 | 文本翻译模型的训练方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110543643A true CN110543643A (zh) | 2019-12-06 |
CN110543643B CN110543643B (zh) | 2022-11-11 |
Family
ID=68712063
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910772638.XA Active CN110543643B (zh) | 2019-08-21 | 2019-08-21 | 文本翻译模型的训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110543643B (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111144140A (zh) * | 2019-12-23 | 2020-05-12 | 语联网(武汉)信息技术有限公司 | 基于零次学习的中泰双语语料生成方法及装置 |
CN111144137A (zh) * | 2019-12-17 | 2020-05-12 | 语联网(武汉)信息技术有限公司 | 机器翻译后编辑模型语料的生成方法及装置 |
CN111178097A (zh) * | 2019-12-24 | 2020-05-19 | 语联网(武汉)信息技术有限公司 | 基于多级翻译模型生成中泰双语语料的方法及装置 |
CN111259676A (zh) * | 2020-01-10 | 2020-06-09 | 苏州交驰人工智能研究院有限公司 | 翻译模型的训练方法、装置、电子设备、及存储介质 |
CN111324696A (zh) * | 2020-02-19 | 2020-06-23 | 腾讯科技(深圳)有限公司 | 实体抽取方法、实体抽取模型的训练方法、装置及设备 |
CN111680526A (zh) * | 2020-06-09 | 2020-09-18 | 语联网(武汉)信息技术有限公司 | 基于逆向翻译结果比对的人机交互翻译系统与方法 |
CN112257471A (zh) * | 2020-11-12 | 2021-01-22 | 腾讯科技(深圳)有限公司 | 一种模型训练方法、装置、计算机设备及存储介质 |
CN112417896A (zh) * | 2020-11-03 | 2021-02-26 | 科大讯飞股份有限公司 | 一种领域数据获取方法、机器翻译方法及相关设备 |
CN113591493A (zh) * | 2021-01-29 | 2021-11-02 | 腾讯科技(深圳)有限公司 | 翻译模型的训练方法及翻译模型的装置 |
CN113642338A (zh) * | 2020-05-11 | 2021-11-12 | 阿里巴巴集团控股有限公司 | 翻译模型训练方法及装置 |
CN113705251A (zh) * | 2021-04-01 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 机器翻译模型的训练方法、语言翻译方法及设备 |
CN114077843A (zh) * | 2022-01-04 | 2022-02-22 | 阿里巴巴达摩院(杭州)科技有限公司 | 翻译模型训练方法、翻译方法、电子设备和存储介质 |
CN114333830A (zh) * | 2020-09-30 | 2022-04-12 | 中兴通讯股份有限公司 | 同声传译模型的训练方法、同声传译方法、设备和存储介质 |
CN114372480A (zh) * | 2021-12-06 | 2022-04-19 | 阿里巴巴达摩院(杭州)科技有限公司 | 机器翻译模型的训练方法和机器翻译方法 |
WO2022228221A1 (zh) * | 2021-04-29 | 2022-11-03 | 北京有竹居网络技术有限公司 | 信息翻译方法、装置、设备和存储介质 |
WO2023182940A3 (en) * | 2022-03-23 | 2023-11-02 | Agency For Science, Technology And Research | A system and method for incremental learning in machine translation |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670180A (zh) * | 2018-12-21 | 2019-04-23 | 语联网(武汉)信息技术有限公司 | 向量化译员的翻译个性特征的方法及装置 |
CN109670191A (zh) * | 2019-01-24 | 2019-04-23 | 语联网(武汉)信息技术有限公司 | 机器翻译的校准优化方法、装置与电子设备 |
CN109710948A (zh) * | 2018-11-27 | 2019-05-03 | 语联网(武汉)信息技术有限公司 | 机器翻译引擎推荐方法及装置 |
-
2019
- 2019-08-21 CN CN201910772638.XA patent/CN110543643B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109710948A (zh) * | 2018-11-27 | 2019-05-03 | 语联网(武汉)信息技术有限公司 | 机器翻译引擎推荐方法及装置 |
CN109670180A (zh) * | 2018-12-21 | 2019-04-23 | 语联网(武汉)信息技术有限公司 | 向量化译员的翻译个性特征的方法及装置 |
CN109670191A (zh) * | 2019-01-24 | 2019-04-23 | 语联网(武汉)信息技术有限公司 | 机器翻译的校准优化方法、装置与电子设备 |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111144137A (zh) * | 2019-12-17 | 2020-05-12 | 语联网(武汉)信息技术有限公司 | 机器翻译后编辑模型语料的生成方法及装置 |
CN111144137B (zh) * | 2019-12-17 | 2023-09-05 | 语联网(武汉)信息技术有限公司 | 机器翻译后编辑模型语料的生成方法及装置 |
CN111144140A (zh) * | 2019-12-23 | 2020-05-12 | 语联网(武汉)信息技术有限公司 | 基于零次学习的中泰双语语料生成方法及装置 |
CN111144140B (zh) * | 2019-12-23 | 2023-07-04 | 语联网(武汉)信息技术有限公司 | 基于零次学习的中泰双语语料生成方法及装置 |
CN111178097A (zh) * | 2019-12-24 | 2020-05-19 | 语联网(武汉)信息技术有限公司 | 基于多级翻译模型生成中泰双语语料的方法及装置 |
CN111178097B (zh) * | 2019-12-24 | 2023-07-04 | 语联网(武汉)信息技术有限公司 | 基于多级翻译模型生成中泰双语语料的方法及装置 |
CN111259676A (zh) * | 2020-01-10 | 2020-06-09 | 苏州交驰人工智能研究院有限公司 | 翻译模型的训练方法、装置、电子设备、及存储介质 |
CN111324696A (zh) * | 2020-02-19 | 2020-06-23 | 腾讯科技(深圳)有限公司 | 实体抽取方法、实体抽取模型的训练方法、装置及设备 |
CN113642338A (zh) * | 2020-05-11 | 2021-11-12 | 阿里巴巴集团控股有限公司 | 翻译模型训练方法及装置 |
CN111680526A (zh) * | 2020-06-09 | 2020-09-18 | 语联网(武汉)信息技术有限公司 | 基于逆向翻译结果比对的人机交互翻译系统与方法 |
CN111680526B (zh) * | 2020-06-09 | 2023-09-08 | 语联网(武汉)信息技术有限公司 | 基于逆向翻译结果比对的人机交互翻译系统与方法 |
CN114333830A (zh) * | 2020-09-30 | 2022-04-12 | 中兴通讯股份有限公司 | 同声传译模型的训练方法、同声传译方法、设备和存储介质 |
CN112417896A (zh) * | 2020-11-03 | 2021-02-26 | 科大讯飞股份有限公司 | 一种领域数据获取方法、机器翻译方法及相关设备 |
CN112417896B (zh) * | 2020-11-03 | 2024-02-02 | 中国科学技术大学 | 一种领域数据获取方法、机器翻译方法及相关设备 |
CN112257471A (zh) * | 2020-11-12 | 2021-01-22 | 腾讯科技(深圳)有限公司 | 一种模型训练方法、装置、计算机设备及存储介质 |
CN112257471B (zh) * | 2020-11-12 | 2024-08-06 | 腾讯科技(深圳)有限公司 | 一种模型训练方法、装置、计算机设备及存储介质 |
CN113591493A (zh) * | 2021-01-29 | 2021-11-02 | 腾讯科技(深圳)有限公司 | 翻译模型的训练方法及翻译模型的装置 |
CN113591493B (zh) * | 2021-01-29 | 2024-06-07 | 腾讯科技(深圳)有限公司 | 翻译模型的训练方法及翻译模型的装置 |
CN113705251A (zh) * | 2021-04-01 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 机器翻译模型的训练方法、语言翻译方法及设备 |
CN113705251B (zh) * | 2021-04-01 | 2024-08-06 | 腾讯科技(深圳)有限公司 | 机器翻译模型的训练方法、语言翻译方法及设备 |
WO2022228221A1 (zh) * | 2021-04-29 | 2022-11-03 | 北京有竹居网络技术有限公司 | 信息翻译方法、装置、设备和存储介质 |
CN114372480A (zh) * | 2021-12-06 | 2022-04-19 | 阿里巴巴达摩院(杭州)科技有限公司 | 机器翻译模型的训练方法和机器翻译方法 |
CN114077843A (zh) * | 2022-01-04 | 2022-02-22 | 阿里巴巴达摩院(杭州)科技有限公司 | 翻译模型训练方法、翻译方法、电子设备和存储介质 |
WO2023182940A3 (en) * | 2022-03-23 | 2023-11-02 | Agency For Science, Technology And Research | A system and method for incremental learning in machine translation |
Also Published As
Publication number | Publication date |
---|---|
CN110543643B (zh) | 2022-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110543643B (zh) | 文本翻译模型的训练方法及装置 | |
CN110555213B (zh) | 文本翻译模型的训练方法、文本翻译方法及装置 | |
US11775777B2 (en) | Artificial intelligence system using phrase tables to evaluate and improve neural network based machine translation | |
CN109670180B (zh) | 向量化译员的翻译个性特征的方法及装置 | |
CN112560510B (zh) | 翻译模型训练方法、装置、设备及存储介质 | |
CN112883193A (zh) | 一种文本分类模型的训练方法、装置、设备以及可读介质 | |
CN110209802B (zh) | 一种提取摘要文本的方法及装置 | |
US11636272B2 (en) | Hybrid natural language understanding | |
CN110532575A (zh) | 文本翻译方法及装置 | |
WO2021014249A1 (en) | Natural language response in machine assisted agents | |
JP2020135135A (ja) | 対話コンテンツ作成支援方法およびシステム | |
CN114638220A (zh) | 任务处理模型的训练方法、任务处理方法以及装置 | |
CN112836525A (zh) | 一种基于人机交互机器翻译系统及其自动优化方法 | |
CN110309513B (zh) | 一种文本依存分析的方法和装置 | |
CN117574924A (zh) | 翻译模型训练方法、翻译方法、装置、电子设备及介质 | |
CN109657244B (zh) | 一种英文长句自动切分方法及系统 | |
CN115438678B (zh) | 机器翻译方法、装置、电子设备及存储介质 | |
EP4254256A1 (en) | Spoken language processing method and apparatus, electronic device, and storage medium | |
CN110852063A (zh) | 基于双向lstm神经网络的词向量生成方法及装置 | |
CN114416941A (zh) | 融合知识图谱的对话知识点确定模型的生成方法及装置 | |
CN110147556B (zh) | 一种多向神经网络翻译系统的构建方法 | |
CN111797638B (zh) | 一种单词级质量标签的生成方法及装置 | |
US12106062B2 (en) | Method and apparatus for generating a text, and storage medium | |
KR102713582B1 (ko) | 교량점검보고서의 손상 메커니즘 추출 장치 및 방법 | |
CN114970499B (zh) | 一种对话文本增强方法、装置、设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |