CN112257471A - 一种模型训练方法、装置、计算机设备及存储介质 - Google Patents
一种模型训练方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN112257471A CN112257471A CN202011265626.7A CN202011265626A CN112257471A CN 112257471 A CN112257471 A CN 112257471A CN 202011265626 A CN202011265626 A CN 202011265626A CN 112257471 A CN112257471 A CN 112257471A
- Authority
- CN
- China
- Prior art keywords
- text
- sample
- model
- decoder
- translation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Abstract
本申请提出一种模型训练方法、装置、计算机设备及存储介质。该方法包括:获取用于模型训练的样本文本;调用样本多任务翻译模型,样本多任务翻译模型包括样本编码器、第一样本解码器以及第二样本解码器;基于样本编码器对样本文本进行编码处理,得到样本文本的文本特征;基于第一样本解码器对文本特征进行解码处理,得到样本文本的第一预测文本,以及基于第二样本解码器对文本特征进行解码处理,得到样本文本的第二预测文本;根据样本文本、第一预测文本以及第二预测文本训练样本多任务翻译模型,得到多任务翻译模型。通过训练多任务翻译模型,可以提高模型翻译的准确性。
Description
技术领域
本申请涉及互联网技术领域,尤其涉及一种模型训练方法、装置、计算机设备及存储介质。
背景技术
随着深度学习的不断发展与演化,神经网络模型已经被广泛应用于自然语言处理、语音识别,甚至计算机视觉等领域,诸如神经网络机器翻译,自然语言理解,自动语音识别、目标检测等实际应用中被广泛应用。
神经网络模型应用于神经网络机器翻译中,主要包括自回归翻译模型以及非自回归翻译模型,其中,自回归翻译模型具体可以包括Transformer模型,非自回归翻译模型具体可以包括Mask-Predict模型。自回归翻译模型在翻译时译文是按照一定顺序逐字生成的;非自回归翻译模型在翻译时译文是同时生成的。
现有技术中,自回归翻译模型(或者非自回归翻译模型)均包括一个编码器和一个解码器,训练回归翻译模型(或者非自回归翻译模型)时,均是基于一个编码器和一个解码器进行训练,模型结构单一,模型学习到的翻译能力有限,因此训练出来的模型翻译精准度不高。
发明内容
本申请实施例提出了一种模型训练方法、装置、计算机设备以及存储介质,通过训练多任务翻译模型,可以提高模型翻译的准确性。
本申请实施例一方面提供一种模型训练方法,该方法具体包括:
获取用于模型训练的样本文本;
调用样本多任务翻译模型,所述样本多任务翻译模型包括样本编码器、第一样本解码器以及第二样本解码器;
基于所述样本编码器对所述样本文本进行编码处理,得到所述样本文本的文本特征;
基于所述第一样本解码器对所述文本特征进行解码处理,得到所述样本文本的第一预测文本,以及基于所述第二样本解码器对所述文本特征进行解码处理,得到所述样本文本的第二预测文本;
根据所述样本文本、所述第一预测文本以及所述第二预测文本训练所述样本多任务翻译模型,得到多任务翻译模型。
本申请一方面提供一种模型训练装置,该装置具有实现上述的模型训练方法的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括:
获取单元,用于获取用于模型训练的样本文本;
调用单元,用于调用样本多任务翻译模型,所述样本多任务翻译模型包括样本编码器、第一样本解码器以及第二样本解码器;
编码单元,用于基于所述样本编码器对所述样本文本进行编码处理,得到所述样本文本的文本特征;
解码单元,用于基于所述第一样本解码器对所述文本特征进行解码处理,得到所述样本文本的第一预测文本,以及基于所述第二样本解码器对所述文本特征进行解码处理,得到所述样本文本的第二预测文本;
训练单元,用于根据所述样本文本、所述第一预测文本以及所述第二预测文本训练所述样本多任务翻译模型,得到多任务翻译模型。
本申请实施例一方面提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述各实施例中的方法。
本申请实施例一方面提供了一种计算机存储介质,计算机存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被处理器执行时,执行上述各实施例中的方法。
本申请实施例一方面提供了一种计算机程序产品或计算机程序,计算机程序产品或计算机程序包括计算机指令,计算机指令存储在计算机可读存储介质中,计算机指令被计算机设备的处理器执行时,执行上述各实施例中的方法。
通过本申请实施例的模型训练方法,调用样本多任务翻译模型对样本文本进行翻译处理,可以得到样本文本的第一预测文本以及第二预测文本,即通过样本编码器和第一样本解码器对样本文本进行处理,得到第一预测文本,通过样本编码器和第二样本解码器对样本文本进行处理,得到第二预测文本。通过样本文本、第一预测文本以及第二预测文本来训练样本多任务翻译模型,本方案中,通过将第一样本解码器以及第二样本解码器均作为样本多任务翻译模型的解码器,使得样本多任务翻译模型同时兼具第一样本解码器的解码能力和第一样本解码器的解码能力,使得训练的多任务翻译模型能够兼备多种解码能力,从而提高多任务翻译模型的翻译时的准确性。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种模型训练系统的架构示意图;
图2a-图2c是本申请实施例提供的一种模型训练的场景示意图;
图3是本申请实施例提供的一种模型训练方法的流程示意图;
图4是本申请实施例提供的另一种模型训练方法的流程示意图;
图5是本申请实施例提供的一种模型预测方法的流程示意图;
图6是本申请实施例提供的一种模型训练装置的结构示意图;
图7是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中所涉及到的“第一”、“第二”等描述仅用于描述目的,而不能理解为指示或者暗示其相对重要性或者隐含指明所指示的技术特征的数量。因此,限定有“第一”、“第二”的技术特征可以明示或者隐含的包括至少一个该特征。
为了能够更好地理解本申请实施例,下面对本申请实施例涉及的专业术语进行介绍:
DL:Deep Learning,深度学习,是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。
NN:Neural Network,神经网络,在机器学习和认知科学领域的一种模仿生物神经网络结构和功能的深度学习模型。
Attention Mechanism:注意力机制,一种建模神经网络中编码器与解码器隐藏状态依赖关系的方法。
NMT:Neural Machine Translation,神经网络机器翻译,最新一代基于神经网络的机器翻译技术。
Seq2Seq:Sequence to Sequence Model,序列到序列模型,一种输入和输出均为序列的深度神经网络模型。
Transformer:一种基于注意力机制的Seq2Seq模型,是目前业界的最先进且主流的模型。
AT:Autoregressive Translation,自回归翻译。代表译文的生成顺序是按照一定顺序逐一生成的。
NAT:Non-Autoregressive Translation,非自回归翻译。代表译文的生成不按照特定顺序,而是共同生成的。
云技术(Cloud technology)是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。目前,技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
从基础技术角度来说,本申请的模型训练方法涉及云技术下属的云计算;从应用角度来说,本申请的模型训练方法涉及云技术下属的人工智能云服务。
云计算(cloud computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。
在本申请中,计算机设备基于样本编码器对样本文本进行编码处理,得到样本文本的文本特征,基于第一样本解码器对文本特征进行解码处理,得到样本文本的第一预测文本,以及基于第二样本解码器对文本特征进行解码处理,得到样本文本的第二预测文本均涉及大规模计算,需要巨大的算力和存储空间,因此在本申请中,可以由计算机设备通过云计算技术获取足够算力和存储空间,进而执行本申请中所涉及的根据样本文本、第一预测文本以及第二预测文本训练样本多任务翻译模型,得到多任务翻译模型。
所谓人工智能云服务,一般也被称作是AIaaS(AIas a Service,中文为“AI即服务”)。这是目前主流的一种人工智能平台的服务方式,具体来说AIaaS平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城:所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务,部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。
可以将本申请涉及的模型训练方法封装为一个人工智能服务,且仅对外暴露一个接口。当在某一个业务场景下需要使用本申请所涉及的确定编码单元的运动估计信息功能时,通过调用该接口,即可完成确定待编码图像中的目标编码单元的运动估计信息。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供的方案属于人工智能领域下属的自然语言处理技术。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
在本申请中,主要涉及通过样本文本对样本多任务翻译模型进行模型训练得到多任务翻译模型,后续,利用多任务翻译模型可以用于语义理解、机器翻译、机器人问答等领域。
本申请可以应用到以下场景:当获取到用于模型训练的样本文本之后,通过样本文本训练样本多任务翻译模型,将训练好的样本多任务翻译模型作为多任务翻译模型。后续,当获取到针对待翻译文本进行翻译的翻译请求之后,可以直接调用多任务翻译模型对待翻译文本进行翻译处理。
请参考图1,图1是本申请实施例提供的一种模型训练的系统架构的示意图。该模型训练的系统架构图包括:服务器140以及计算机设备集群,其中,计算机设备集群可以包括:计算机设备110、计算机设备120、...、计算机设备130等。计算机设备集群与服务器140可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
图1所示的服务器140可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
图1所示的计算机设备110、计算机设备120、计算机设备130等可以是手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(MID,mobile internet device)、车辆、路边设备、飞行器、可穿戴设备,例如智能手表、智能手环、计步器等,等具有模型训练功能的智能设备。
在一种可能的实现方式中,以计算机设备110为例,计算机设备110接收服务器140发送的用于模型训练的样本文本。计算机设备110调用样本多任务翻译模型,所述样本多任务翻译模型包括样本编码器、第一样本解码器以及第二样本解码器。计算机设备110基于所述样本编码器对所述样本文本进行编码处理,得到所述样本文本的文本特征。计算机设备110基于所述第一样本解码器对所述文本特征进行解码处理,得到所述样本文本的第一预测文本,以及基于所述第二样本解码器对所述文本特征进行解码处理,得到所述样本文本的第二预测文本。最后,计算机设备110根据所述样本文本、所述第一预测文本以及所述第二预测文本训练所述样本多任务翻译模型,得到多任务翻译模型。
后续,计算机设备110当接收到用户发送的针对待翻译文本的翻译请求时,计算机设备110获取待翻译文本。计算机设备基于训练好的样本多任务翻译模型,即多任务翻译模型,对待翻译文本进行翻译处理,得到待翻译文本的目标文本。需要说明的是,此时,多任务翻译模型可以包含训练好的样本编码器以及训练好的第一样本解码器或者多任务翻译模型包含训练好的样本编码器以及训练好的第二样本解码器。
当然,调用样本多任务翻译模型,所述样本多任务翻译模型包括样本编码器、第一样本解码器以及第二样本解码器;基于所述样本编码器对所述样本文本进行编码处理,得到所述样本文本的文本特征;基于所述第一样本解码器对所述文本特征进行解码处理,得到所述样本文本的第一预测文本,以及基于所述第二样本解码器对所述文本特征进行解码处理,得到所述样本文本的第二预测文本;根据所述样本文本、所述第一预测文本以及所述第二预测文本训练所述样本多任务翻译模型,得到多任务翻译模型。也可以由服务器110来执行。服务器140可以将训练好的样本多任务翻译模型,即多任务翻译模型发送至计算机设备110,后续,计算机设备110可以直接调用多任务翻译模型对待翻译文本进行翻译处理,以输出待翻译文本的目标文本。
可以理解的是,本申请实施例描述的系统架构示意图是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着系统架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
请参见图2a-图2c,图2a-图2c是本申请实施例提供的一种模型训练的场景示意图。用户可以在计算机设备的操作界面中输入样本文本,样本文本包括源端文本以及目标端文本。目标端文本可以是用户人工对源端文本进行打标签操作之后得到的文本,目标端文本也可以是用户通过调用神经网络翻译模型对源端文本进行翻译处理后得到的。假设用户输入的样本文本包括:“我爱中国”以及“I Love China”,其中,用户可以指定样本文本中的“我爱中国”为源端文本,样本文本中的“I Love China”为目标端文本,或者样本文本中的“I Love China”为源端文本,样本文本中的“我爱中国”为目标端文本。
我们认为,AT编码器和NAT编码器再训练后会捕捉到源语言端(即源端文本)不同的语言学特征,因此我们可以让其互为补充。为了验证这个论点,我们进行了探测任务和表示相似性实验。
为了查明编码器到底捕捉了什么语言学特征,我们首先通过一系列实验探测了AT和NAT内嵌的语言学知识。我们接着借助广泛使用的CCA技术测量了AT模型和NAT模型的表示相似性。在本文的实验中,我们的AT模型采用Transformer模型,NAT模型采用了Mask-Predict模型。
探测任务可以量化模型输出的表示中所含有的语言学信息,如表1所示,表1是本申请实施例提供的一种AT模型和NAT模型不同探测任务上的表现。
表1.AT模型和NAT模型不同探测任务上的表现
其中,surface代表字符重叠指标,syntactic代表语句流畅度指标,semantic代表语义相似指标。SeLen以及WC为surface的子指标,TrDep、ToCo和BShif为syntactic的子指标,Tense、SubN、ObjN、SoMo和CoIn为semantic的子指标。从表1可以看出来AT编码器和NAT编码器捕获了不同的语言学特征。我们发现,平均来说,NAT模型可以捕获更多的surface(字面的)特征,但是semantic(语义的)特征相对要少,这与AT模型的表现是截然不同的。
进一步地,我们分析AT模型与NAT模型之间的表示相似性。我们使用同一个模型不同随机种子,以及不同模型同一随机种子来进行相似性的测量,结果如图2a所示,图2a是本申请实施例提供的一种测量AT模型之间、NAT模型之间、以及NAT-AT模型之间的表示相似性。可以看出,AT模型和NAT模型的相似性要显著的低于AT模型之间或者NAT模型之间的相似性。因此我们可以再次确认,AT模型和NAT模型的表示相似性具有一定程度的差异。
基于上述分析,我们可以确定,AT模型与NAT模型通过共享编码器的方式可以比单独使用某一个编码器(AT编码器或者NAT编码器)获得更多的语言特征。
在一种可能的实现方式中,计算机设备调用样本多任务翻译模型,其中,样本多任务翻译模型包括样本编码器、第一样本解码器以及第二样本解码器。其中,第一样本解码器可以为AT解码器,第二样本解码器可以为NAT解码器。具体的,AT解码器在解码文本特征的时候,是从左到右逐一生成翻译词,从而得到预测文本的;NAT解码器在解码文本特征的时候,是一次性直接生成预测文本的。
在一种可能的实现方式中,如图2b所示,计算机设备基于样本编码器对样本文本进行编码处理,得到样本文本的文本特征。样本编码器可以包括词嵌入层、注意力层以及循环神经网络层。其中,词嵌入层可以对样本文本中的源端文本进行分词处理,得到源端文本的多个词组,然后,词嵌入层对每个词组进行词嵌入处理,以得到多个词组中每个词分别对应的词向量特征。然后,计算机设备基于注意力层对每个词向量进行处理,得到新的词向量特征;最后,计算机设备基于循环神经网络层分别对每个新的新的词向量特征进行处理,可以得到源端文本的文本特征。
例如,样本文本中的源端文本为“我爱中国”,则样本编码器中的词嵌入层首先将“我爱中国”划分为多个字符,分别为“我”、“爱”、“中”以及“国”。然后对“我”、“爱”、“中”以及“国”分别进行词嵌入处理,得到每个词对应的词向量,最后基于注意力层将每个词进行相互联系,以得到每个词之间的关联关系,然后将注意力层输出的“我”、“爱”、“中”以及“国”分别对应的向量特征输入神经网络层进行处理后,可以输出“我爱中国”对应的的文本特征。
在一种可能的实现方式中,计算机设备基于第一样本解码器对文本特征进行解码处理,得到样本文本的第一预测文本,以及计算机设备基于第二样本解码器对文本特征进行解码处理,得到样本文本的第二预测文本。假设,源端文本为“我爱中国”,第一预测文本为“I love my China”,第二预测文本为“I like China”。最后,计算机设备获取样本文本中的目标端文本,并基于目标端文本,第一预测文本以及第二预测文本,训练样本多任务翻译模型,得到多任务翻译模型。举例来说,计算机设备基于目标端文本“I love China”、“Ilove my China”以及“I like China”对样本多任务翻译模型进行多次调整,最终可以得到多任务翻译模型。
后续,将训练好的样本多任务翻译模型作为多任务翻译模型。在一种可能的实现方式中,请参见图2c,图2c是本申请实施例提供的一种计算机设备的翻译界面示意图。如图2c,用户可以在文本编辑框内输入用户想要翻译的待翻译文本,例如用户可以在文本编辑框输入“我喜欢运动,运动可以保持身体健康”,然后,用户点击“发送”按钮,则计算机设备可以获取到用户输入的待翻译文本,“我喜欢运动,运动可以保持身体健康”。计算机设备直接调用多任务翻译模型,并基于多任务翻译模型中的编码器对待翻译文本“我喜欢运动,运动可以保持身体健康”进行编码处理,得到“我喜欢运动,运动可以保持身体健康”对应的文本特征,然后计算机设备基于解码器对文本特征进行解码处理,以得到目标文本“I likeexercise,and exercise can keep my body healthy”,其中,此处的解码器为前述训练好的第一样本编码器或者第二样本编码器。并且,计算机设备在显示界面中输出目标文本“Ilike exercise,and exercise can keep my body healthy”。
通过本申请实施例所提供的模型训练方法,由于AT解码器以及NAT解码器在解码过程中各自捕捉到的文本特征不同,因此可以将AT解码器以及NAT解码器均统一在同一个模型中,在训练阶段,可以基于两种不同类型的解码器分别对样本文本中的源端文本进行解码,以得到第一预测文本以及第二预测文本。根据样本文本中的目标端文本、第一预测文本以及第二预测文本,训练样本多任务翻译模型。后续,可以将训练好的样本多任务翻译模型作文多任务翻译模型直接投入使用,得到的多任务翻译模型既具有了第一样本解码器(即AT解码器)的解码能力,也具有第二样本解码器(即NAT解码器)的解码能力,从而可以提高对待翻译文本的准确性。
请参见图3,图3是本申请实施例提供的一种模型训练方法的流程示意图。该方法应用于计算机设备,如图3所示,该模型训练方法可包括步骤S310~S350。
其中:
步骤S310:获取用于模型训练的样本文本。
具体实现时,样本文本可以包括源端文本以及目标端文本。目标端文本可以是用户通过对源端文本进行人工打标签操作获取到的,例如,源端文本为“我爱中国”,则经过人工对“我爱中国”打标签操作之后,得到的目标端文本为“I Love China”。目标端文本还可以是将源端文本输入神经网络翻译模型,经过神经网络翻译模型对源端文本进行模型识别后输出的模型预测文本,将模型预测文本作为目标端文本。其中,通过将源端文本输入神经网络翻译模型得到目标端文本是指知识蒸馏技术,知识蒸馏的原理是迁移学习,本申请中通过神经网络翻译模型预测得到的目标端文本,通过目标端文本以及源端文本共同对样本多任务翻译模型进行训练,可以使得样本多任务翻译模型具有神经网络翻译模型的学习能力,可以提高样本多任务翻译模型的翻译能力。
通常情况下,这里所涉及到的神经网络翻译模型是指已经通过庞大的样本数据集训练后得到的大模型,该大模型的模型预测能力足够准确,并且此处涉及的神经网络翻译模型的模型尺寸远大于样本多任务翻译模型的模型尺寸。例如神经网络翻译模型可以为自回归翻译模型,具体可以为Transformer模型等,当然神经网络翻译模型也可以为非自回归翻译模型,具体可以为Mask-Predict模型等。例如还可以是具体是RNN(循环神经网络,Recurrent Neural Network,RNN)模型,LSTM(长短期记忆网络,LSTM,Long Short-TermMemory),GRU(门控循环神经网络,Gated Recurrent Neural network)模型,或者神经网络模型也可以为其它类型的网络模型,例如递归神经网路模型等,本发明对此不作限定。
在一种可能的实现方式中,计算机设备响应用户发送的模型训练请求,模型训练请求包括用于模型训练的样本文本,计算机设备获取用于模型训练的样本文本。其中,样本文本可以包括源端文本以及目标端文本。并且,源端文本和目标端文本可以是用户指定的,需要说明的是,源端文本和目标端文本是不同语言类型的文本,例如源端文本的语言类型可以是中文,目标端文本的语言类型可以是英文;或者源端文本的语言类型可以是英文,目标端文本的语言类型可以是德文等等。
步骤S320:调用样本多任务翻译模型,所述样本多任务翻译模型包括样本编码器、第一样本解码器以及第二样本解码器。
具体实现时,由于机器翻译模型主要包含自回归翻译模型以及非自回归翻译模型,并且,自回归翻译模型以及非自回归翻译模型各自对应的编码器结构以及输出相同,因此可以共享编码器,即样本编码器。则样本编码器既可以是自回归编码器,也可以是非自回归编码器。第一样本解码器可以是自回归翻译解码器,第二样本解码器可以是非自回归翻译解码器。其中,自回归翻译解码器是指可以将翻译文本从左至右进行逐字生成,非自回归解码器是指同时生成翻译文本。由于自回归翻译解码器和非自回归翻译解码器各自解码效果的不同,可能会导致在解码过程中,两种解码器各自捕捉到的文本特征不同。
在一种可能的实现方式中,样本编码器可以具体是RNN(循环神经网络,RecurrentNeural Network,RNN)模型,LSTM(长短期记忆网络,LSTM,Long Short-Term Memory),GRU(门控循环神经网络,Gated Recurrent Neural network)模型。第一样本解码器可以为自回归翻译解码器,自回归翻译解码器可以具体是循环神经网络模型,长短期记忆网络模型,门控循环神经网络模型以及CRF(条件随机场,Conditional Random Field)。第二样本解码器可以为非自回归翻译解码器,非自回归翻译解码器可以具体是Mask-Predict模型。需要说明的是,样本编码器对应的模型类型和第一样本解码器以及第二样本解码器对应的模型类型不相同。
步骤S330:基于所述样本编码器对所述样本文本进行编码处理,得到所述样本文本的文本特征。
具体实现时,计算机设备基于样本编码器对样本文本中的源端文本进行编码处理,得到源端文本对应的文本特征。源端文本可以包含多个文本字符,例如源端文本为“我爱中国”,则源端文本包含的文本字符可以为“我”、“爱”、“中”以及“国”。
在一种可能的实现方式中,计算机设备将源端文本中的每个文本字符进行预处理,预处理包括英文大小写转换、繁简字统一,若查询文本中包括数字,则将完整的数字作为一个文本字符。例如,查询文本为:“双11购物节”,该查询文本包括5个文本字符,分别为:“双”、“11”、“购”、“物”和“节”。
在一种可能的实现方式中,样本编码器可以包括词嵌入层、注意力层以及循环神经网络层,源端文本包含第一文本字符以及第二文本字符。具体的,计算机设备基于样本词嵌入层分别第一文本字符和第二文本字符进行处理,得到第一文本字符的向量特征和第二文本字符的向量特征。举例来说,词嵌入层具体可以是词向量模型,词向量模型具体可以是BERT模型或者word2vec模型,word2vec模型可以具体是fasttext模型,也可以是cbow模型。
在一种可能的实现方式中,计算机设备基于注意力层对第一文本字符的向量特征以及第二文本字符的向量特征进行处理,得到新的第一文本字符的向量特征以及新的第二文本字符的向量特征。举例来说,注意力层可以具体为self-attention模块,self-attention模块可以计算源端文本中的所包含的每个文本字符之间的联系,使得文本字符之间存在相互依赖关系。
在一种可能的实现方式中,计算机设备基于循环神经网络层对新的第一文本字符的向量特征以及新的第二文本字符的向量特征进行处理,得到待翻译文本的文本特征。举例来说,循环神经网络层可以包括LSTM模型,则计算机设备基于LSTM模型对新的第一文本字符的向量特征以及新的第二文本字符的向量特征进行处理,得到待翻译文本的文本特征。
步骤S340:基于所述第一样本解码器对所述文本特征进行解码处理,得到所述样本文本的第一预测文本,以及基于所述第二样本解码器对所述文本特征进行解码处理,得到所述样本文本的第二预测文本。
在一种可能的实现方式中,文本特征包括第一文本字符的第一文本特征和第二文本字符的第二文本特征。计算机设备基于第一样本解码器识别第一文本特征,得到第一文本特征的第一隐藏特征和第一输出特征;计算机设备基于第一样本解码器识别第二文本特征和第一隐藏特征,得到第二文本特征的第二隐藏特征和第二输出特征;计算机设备将第一输出特征和第二输出特征进行全连接处理,得到第一文本字符对应的第一概率集合,并将第一概率集合中概率值最大对应的字符作为第一预测字符。然后,计算机设备将第一预测字符对应的最大概率值作为新的输入,基于第一样本解码器识别第一预测字符对应的最大概率值以及第二文本特征,依次类推,计算机设备可以得到第二文本字符对应的第二预测字符,由此逐字生成第一预测文本。
举例来说,第一样本解码器为AT解码器。若源端文本为“我爱中国”,则计算机设备基于AT解码器可以生成“我”对应的预测字符为“I”,“爱”对应的预测字符为“love”,“中”对应的预测字符为“center”,“国”对应的预测字符为“country”。
在一种可能的实现方式中,文本特征包括第一文本特征和第二文本特征。第二样本解码器包括掩码语言模块。计算机设备基于掩码语言模块对第一文本特征进行掩码处理,得到文本掩码特征;计算机设备基于第二样本解码器对文本掩码特征以及第二文本特征进行解码处理,得到样本文本的第二预测文本。
具体来说,第二样本解码器为NAT解码器。首先,计算机设备从第一文本特征和第二文本特征中选择出进行待掩码处理的目标文本特征,其中,计算机设备可以从第一文本特征和第二文本特征中随机选择出目标文本特征,即目标文本特征可以为第一文本特征,或者目标文本特征可以为第二文本特征。并基于掩码语言模块对目标文本特征进行掩码处理,得到文本掩码特征,具体可以将掩码处理后的目标文本特征用特殊符号来代替,特殊符号对应的特征可以为文本掩码特征。然后,计算机设备基于第二样本解码器对文本掩码特征进行解码处理,得到文本掩码特征对应的第一预测字符;以及计算机设备基于第二样本解码器对待处理文本特征进行解码处理,得到待处理文本特征对应的第二预测字符,其中,待处理文本特征是指文本特征中除去所述目标文本特征的文本特征;最后,计算机设备将第一预测字符以及第二预测字符组合为样本文本的第二预测文本。需要说明的是,计算机设备生成第一预测字符以及第二预测字符的过程是并行执行的,通过这种方式生成的第二预测文本是一次性生成的,即第二预测文本中的每个文本字符是同时生成的。
步骤S350:根据所述样本文本、所述第一预测文本以及所述第二预测文本训练所述样本多任务翻译模型,得到多任务翻译模型。
具体实现时,样本文本包括目标端文本。计算机设备根据第一目标文本、第一预测文本以及第二预测文本训练样本多任务翻译模型,得到多任务翻译模型。其中,样本多任务翻译模型包括样本编码器、第一样本解码器以及第二样本解码器,将训练后的样本编码器作为编码器,将训练后的第一样本解码器作为第一解码器,以及将训练后的第二样本解码器作为第二解码器。进一步地,可以将训练后的样本多任务翻译模型中的第一编码器或者第二编码器从样本多任务翻译模型中删除,得到多任务翻译模型。即多任务翻译模型可以包括编码器和第一解码器,多任务翻译模型还可以包括编码器和第二解码器。
例如,编码器可以为LSTM编码器,第一解码器为Transformer解码器,第二解码器可以为Mask-Predict解码器。则多任务翻译模型可以是由LSTM编码器与Mask-Predict解码器组合得到的,多任务翻译模型也可以是由LSTM编码器与Transformer解码器的组合得到的。
通过本申请实施例所提供的模型训练方法,调用样本多任务翻译模型对样本文本进行翻译处理,可以得到样本文本的第一预测文本以及第二预测文本,即通过样本编码器和第一样本解码器对样本文本进行处理,得到第一预测文本,通过样本编码器和第二样本解码器对样本文本进行处理,得到第二预测文本。由于AT解码器以及NAT解码器在解码过程中各自捕捉到的文本特征不同,将AT解码器以及NAT解码器均统一在同一个模型中,可以提高模型翻译的准确性。
请参见图4,图4是本申请实施例提供的另一种模型训练方法的流程示意图。该方法应用于计算机设备,如图4所示,该模型训练方法可包括步骤S410~S420。其中,图4为图3实施例中步骤S350中的一个具体实施例:
步骤S410:根据所述第一预测文本和所述目标端文本之间的第一差异数据,以及根据所述第二预测文本和所述目标端文本之间的第二差异数据调整所述样本多任务翻译模型的模型参数,得到调整后的样本多任务翻译模型。
具体实现时,计算机设备根据第一预测文本以及目标端文本之间的第一差异数据调整样本编码器的模型参数和第一样本解码器的模型参数,得到调整后的样本编码器和第一样本解码器;计算机设备根据第二预测文本以及目标端文本之间的第二差异数据调整样本编码器的模型参数和第二样本解码器的模型参数,得到调整后的样本编码器和第二样本解码器。计算机设备将调整后的样本编码器、调整后的第一样本解码器以及调整后的第二样本解码器组合为调整后的样本多任务翻译模型。
举例来说,在样本多任务翻译模型中,样本多任务翻译模型的损失函数是由第一样本解码器和第二样本解码器的损失函数加权得到的,其中,第一样本解码器可以为AT解码器,第二样本解码器可以为NAT解码器。损失函数具体如公式(1):
其中,是AT解码器带来的损失,是NAT解码器带来的损失,λ是一个超参数,(X,Y)分别是样本文本中的源端文本和样本文本中的目标端文本。θenc,θAT.dec,θNAT.dec分别是共享编码器的模型参数、AT解码器的模型参数和NAT解码器的模型参数。
在一种可能的实现方式中,计算机设备将第一差异数据和第二差异数据叠加为目标差异数据;计算机设备根据目标差异调整样本编码器、第一样本解码器以及第二样本解码器,得到调整后的样本编码器、调整后的第一样本解码器以及调整后的第二样本解码器;最后,计算机设备将调整后的样本编码器、调整后的第一样本解码器以及调整后的第二样本解码器组合为调整后的样本多任务翻译模型。
步骤S420:当所述调整后的样本多任务翻译模型满足模型收敛条件时,将所述调整后的样本多任务翻译模型作为多任务翻译模型。
具体实现时,可以将调整后的样本编码器作为编码器,调整后的第一样本解码器作为第一解码器,调整后的第二样本解码器作为第二解码器。多任务翻译模型包括样本编码器,第一解码器以及第二解码器。后续,在使用的时候,多任务翻译模型可以只使用第一解码器和第二解码器当中的任意一个解码器即可。
需要说明的是,所谓模型收敛条件可以是指:当样本多任务翻译模型的训练次数达到预设训练阈值时,例如100次,则样本多任务翻译模型满足模型收敛条件,即将训练100次后的样本多任务翻译模型标题生成模型;当第一预测文本和目标端文本之间的差异数据以及第二预测文本和目标端文本之间的差异数据均小于误差阈值时,则样本多任务翻译模型满足模型收敛条件;当样本多任务翻译模型相邻两次训练得到的预测文本标题之间的变化小于变化阈值时,则样本多任务翻译模型满足模型收敛条件。
通过本申请实施例所涉及的模型训练方法,可以基于第一预测文本、第二预测文本以及目标端文本分别对样本编码器、第一样本解码器进行调整,以及对样本编码器、第二样本解码器进行调整,也可以基于第一预测文本、第二预测文本以及目标端文本同时对样本编码器、第一样本解码器以及第二样本解码器进行调整,当样本多任务翻译模型可以达到模型收敛条件时,得到的多任务翻译模型可以使用第一样本编码器或者第二样本编码器,从而在保证多任务翻译模型具有样本多任务翻译模型的预测能力的前提下,还能够精简模型尺寸,从而提高模型的处理效率。
请参见图5,图5是本申请实施例提供的一种模型预测方法的流程示意图。该方法应用于计算机设备,如图5所示,该模型训练方法可包括步骤S510~S540。
其中:
步骤S510:显示翻译界面,所述翻译界面包括翻译控件和文本导入控件。
具体实现时,计算机设备的翻译界面可以如图2c所示,文本导入控件可以是文本导入按钮,具体可以是“发送按钮”。翻译控件可以是控件按钮,具体可以是“翻译”按钮。
步骤S510:当所述文本导入控件被触发时,获取待翻译文本,并在所述翻译界面显示所述待翻译文本。
具体实现时,当用户点击“发送”按钮时,即代表文本导入控件被触发。然后,计算机设备获取待翻译文本,如图2c所示,用户输入的待翻译文本为“我喜欢运动,运动可以保持身体健康”,可以看到,在计算机设备的翻译界面显示有“我喜欢运动,运动可以保持身体健康”。
步骤S510:当所述翻译控件被触发时,调用训练后的样本编码器和训练后的解码器对所述待翻译文本进行翻译处理,得到所述待翻译文本的目标文本,所述训练后的解码器包括所述训练后的第一样本解码器或者所述训练后的第二样本解码器。
具体实现时,当用户点击“翻译”按钮时,即代表翻译控件被触发。计算机设备调用多任务翻译模型,所任务翻译模型包括训练后的样本编码器、训练后的第一样本解码器以及训练后的第二样本解码器。
在一种可能的实现方式中,计算机设备调用训练后的样本编码器和训练后的解码器对待翻译文本进行翻译处理,得到待翻译文本的目标文本的过程具体可以为:计算机设备基于训练后的样本编码器对待翻译文本进行编码处理,得到待翻译文本的文本特征;计算机设备基于训练后的第一样本解码器对待翻译文本的文本特征进行解码处理,得到待翻译文本的目标文本。或者,计算机设备基于训练后的样本编码器对待翻译文本进行编码处理,得到待翻译文本的文本特征;计算机设备基于训练后的第二样本解码器对待翻译文本的文本特征进行解码处理,得到待翻译文本的目标文本。
举例来说,假设训练后的样本编码器为LSTM编码器,训练后的第一样本编码器为Transformer解码器,训练后的第二样本解码器为Mask-Predict解码器。计算机设备可以基于LSTM编码器对待翻译文本进行编码处理,得到待翻译文本的文本特征,然后,计算机设备可以基于Mask-Predict解码器对待翻译文本的文本特征进行解码处理,得到待翻译文本的目标文本。
根据本申请训练得到的多任务翻译模型,可以根据多任务翻译模型进一步实验。训练数据采用广为人知两个公开数据集上的四个语言对:WMT14英语到德语、WMT14德语到英语,WMT16英语到罗马尼亚语、WMT16罗马尼亚语到英语。我们使用了标准的BPE方法来分割子词单元。双语互译质量辅助工具(Bilingual Evaluation Understudy,BLEU)分数采用大小写敏感的测量方法。
多任务翻译模型模型上,采用Transformer作为AT解码器的基线,Mask-Predict模型作为NAT模型的最高性能基线。在实现上,我们将Transformer的解码器作为Mask-Predict模型的辅助解码器。即,可以将上述公式(1)中的λ设置为0.5。
首先,我们进行了消融实验,实验结果如表2所示。表2展示了多任务翻译模型(Multi-Task NAT)与Mask-Predict模型在两个方向上的基准表现。
模型 | 英语到德语 | 德语到英语 |
Mask-Predict(原报告值) | 24.61 | - |
Mask-Predict | 24.70 | 29.52 |
Multi-Task NAT | 25.66 | 30.09 |
表2:WMT14英语到德语和WMT14德语到英语方向在没有知识蒸馏情况下的表现基准
在这个实验中,我们没有采用NAT模型经常使用的知识蒸馏处理。从表中可以看出,我们的模型(即多任务翻译模型模型)相比于Mask-Predict模型,BLEU分数在英德(英语到德语)方向提升了0.96,在德英(德语到英语)方向提升了0.57,这个基准是相对比较高的。这个实验也说明了我们多任务翻译模型模型所具有的效果。
进一步地,请参见表3。
表3:在WMT14英语与德语之间以及WMT16英语与罗马尼亚语之间的翻译性能的测试。其中Multi-Task NAT代表多任务翻译模型模型。代表多任务翻译模型模型相对于Mask-Predict模型的提升有着皮尔斯系数<0.05/0.01的显著性。其中多任务翻译模型与Mask-Predict模型均使用了知识蒸馏技术。
如表3所示,我们在使用知识蒸馏的基础上进一步验证了我们提出的多任务NAT模型(多任务翻译模型模型)。可以通过BLEU分数看出,我们的多任务NAT模型在英德(英语到德语)和德英(德语到英语)方向相对于Mask-Predict模型有着0.63和0.41的显著提升,而在数据相对更少的英语罗马尼亚语(英语到罗马尼亚语)的翻译中,我们的模型对BLEU分数分别有着0.63和0.82的提升。我们同时测量了一千对句子的翻译表现,通过测量其皮尔森系数,可以看出我们的模型在不同的数据集大小和语言对方向上,均有着显著的提升。综上所述,所有的实验均确认了我们提出的多任务NAT模型(多任务翻译模型模型)的有效性。
我们使用探测实验来从实验上验证我们提出的多任务NAT模型(多任务翻译模型)有着相对于普通NAT模型更好的语言学特性。如表4所示,多任务NAT模型相对于Transformer和Mask-Predict学到了更好的surface信息(字面的信息)以及syntactic信息(句法的信息),这意味着我们的多任务翻译模型的确结合了两种解码方式的优点,并捕捉到了更好的语言学特性。尤其在句长(SeLen)和树深(TrDep)上的表现显著高于两个基线模型。
表4:我们的模型在探测任务上的表现。ΔATΔNAT分别代表多任务翻译模型在相对于AT模型和NAT模型在探测任务上表现的变化。
步骤S510:在所述翻译界面显示所述目标文本。
举例来说,如图2c,待翻译文本为“我喜欢运动,运动可以保持身体健康”,通过多任务翻译模型得到的目标文本为“I like exercise,and exercise can keep my bodyhealthy”。
通过本申请实施例提供的模型预测方法,通过训练得到的多任务翻译模型进行实验,得到实验数据以及实验结果。根据实验数据和实验结果再一次证实了本申请实施例训练的多任务翻译模型模型在模型预测上的有效性,即可以兼具两种不同类型解码器的解码能力,从而提高对待翻译文本进程文本翻译的准确性。
请参见图6,图6为本申请实施例提供的一种模型训练装置的结构示意图。图6所示的模型训练装置可以用于执行上述图3~图5所描述的方法实施例中的部分或全部功能。该装置可以是计算机设备,也可以是计算机设备中的装置,或者是能够和计算机设备匹配使用的装置。并且,计算机设备可以是用户终端,也可以是服务器。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法、装置和系统,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的;例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式;例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。该模型训练装置可包括:
获取单元610,用于获取用于模型训练的样本文本;
调用单元620,用于调用样本多任务翻译模型,所述样本多任务翻译模型包括样本编码器、第一样本解码器以及第二样本解码器;
编码单元630,用于基于所述样本编码器对所述样本文本进行编码处理,得到所述样本文本的文本特征;
解码单元640,用于基于所述第一样本解码器对所述文本特征进行解码处理,得到所述样本文本的第一预测文本,以及基于所述第二样本解码器对所述文本特征进行解码处理,得到所述样本文本的第二预测文本;
训练单元650,用于根据所述样本文本、所述第一预测文本以及所述第二预测文本训练所述样本多任务翻译模型,得到多任务翻译模型。
在一种可能的实现方式中,样本文本包括目标端文本;
训练单元650根据所述样本文本、所述第一预测文本以及所述第二预测文本训练所述样本多任务翻译模型,得到多任务翻译模型,包括:
根据所述第一预测文本和所述目标端文本之间的第一差异数据,以及根据所述第二预测文本和所述目标端文本之间的第二差异数据,调整所述样本多任务翻译模型的模型参数,得到调整后的样本多任务翻译模型;
当所述调整后的样本多任务翻译模型满足模型收敛条件时,将所述调整后的样本多任务翻译模型作为多任务翻译模型。
在一种可能的实现方式中,训练单元650根据所述第一预测文本和所述目标端文本之间的第一差异数据,以及根据所述第二预测文本和所述目标端文本之间的第二差异数据调整所述样本多任务翻译模型的模型参数,得到调整后的样本多任务翻译模型,包括:
根据所述第一预测文本以及所述目标端文本之间的第一差异数据,调整所述样本编码器的模型参数和所述第一样本解码器的模型参数,得到调整后的样本编码器和第一样本解码器;
根据所述第二预测文本以及所述目标端文本之间的第二差异数据,调整所述样本编码器的模型参数和所述第二样本解码器的模型参数,得到调整后的样本编码器和第二样本解码器;
将所述调整后的样本编码器、所述调整后的第一样本解码器以及所述调整后的第二样本解码器组合为所述调整后的样本多任务翻译模型。
在一种可能的实现方式中,训练单元650根据所述第一预测文本和所述目标端文本之间的第一差异数据,以及根据所述第二预测文本和所述目标端文本之间的第二差异数据调整所述样本多任务翻译模型的模型参数,得到调整后的样本多任务翻译模型,包括:
将所述第一差异数据和所述第二差异数据叠加为目标差异数据;
根据所述目标差异调整所述样本编码器、所述第一样本解码器以及所述第二样本解码器,得到调整后的样本编码器、调整后的第一样本解码器以及调整后的第二样本解码器;
将所述调整后的样本编码器、所述调整后的第一样本解码器以及所述调整后的第二样本解码器组合为所述调整后的样本多任务翻译模型。
在一种可能的实现方式中,样本文本包括源端文本和目标端文本;
获取单元610获取用于模型训练的样本文本,包括:
调用自回归翻译模型识别所述源端文本,得到所述目标端文本,所述自回归翻译模型的模型尺寸大于所述样本多任务翻译模型的模型尺寸,所述自回归翻译模型和所述样本多任务翻译模型之间的模型结构相似度小于相似度阈值;
将所述源端文本以及所述目标端文本组合为所述样本文本。
在一种可能的实现方式中,文本特征包括第一文本特征和第二文本特征,所述第二样本解码器包括掩码语言模块;
解码单元640基于所述第二样本解码器对所述文本特征进行解码处理,得到所述样本文本的第二预测文本,包括:
从所述第一文本特征和所述第二文本特征中选择出待掩码处理的目标文本特征,所述目标文本特征包括所述第一文本特征或所述第二文本特征;
基于所述掩码语言模块对所述目标文本特征进行掩码处理,得到文本掩码特征;
基于所述第二样本解码器对所述文本掩码特征进行解码处理,得到所述文本掩码特征对应的第一预测字符;
基于所述第二样本解码器对待处理文本特征进行解码处理,得到所述待处理文本特征对应的第二预测字符,所述待处理文本特征是指所述第一文本特征和所述第二文本特征中除所述目标文本特征以外的特征;
将所述第一预测字符以及所述第二预测字符组合为所述样本文本的第二预测文本。
在一种可能的实现方式中,该模型训练装置还包括显示单元660。
多任务翻译模型包括训练后的样本编码器、训练后的第一样本解码器以及训练后的第二样本解码器;
显示单元660,用于显示翻译界面,所述翻译界面包括翻译控件和文本导入控件;
当所述文本导入控件被触发时,获取单元610获取待翻译文本,显示单元660在所述翻译界面显示所述待翻译文本;
当所述翻译控件被触发时,调用训练后的样本编码器和训练后的解码器对所述待翻译文本进行翻译处理,得到所述待翻译文本的目标文本,所述训练后的解码器包括所述训练后的第一样本解码器或者所述训练后的第二样本解码器;
显示单元660在所述翻译界面显示所述目标文本。
请参见图7,请参见图7,图7是本申请实施例提供的一种计算机设备的结构示意图,该计算机设备用于执行图3~图5对应的方法实施例中计算机设备所执行的步骤,该服务器包括:一个或多个处理器710;一个或多个输入设备720,一个或多个输出设备730和存储器740。上述处理器710、输入设备720、输出设备730和存储器740通过总线750连接。存储器740用于存储计算机程序,所述计算机程序包括程序指令,处理器710用于执行存储器740存储的程序指令,执行以下操作:
获取用于模型训练的样本文本;
调用样本多任务翻译模型,所述样本多任务翻译模型包括样本编码器、第一样本解码器以及第二样本解码器;
基于所述样本编码器对所述样本文本进行编码处理,得到所述样本文本的文本特征;
基于所述第一样本解码器对所述文本特征进行解码处理,得到所述样本文本的第一预测文本,以及基于所述第二样本解码器对所述文本特征进行解码处理,得到所述样本文本的第二预测文本;
根据所述样本文本、所述第一预测文本以及所述第二预测文本训练所述样本多任务翻译模型,得到多任务翻译模型。
在一种可能的实现方式中,样本文本包括目标端文本;
处理器710根据所述样本文本、所述第一预测文本以及所述第二预测文本训练所述样本多任务翻译模型,得到多任务翻译模型,包括:
根据所述第一预测文本和所述目标端文本之间的第一差异数据,以及根据所述第二预测文本和所述目标端文本之间的第二差异数据,调整所述样本多任务翻译模型的模型参数,得到调整后的样本多任务翻译模型;
当所述调整后的样本多任务翻译模型满足模型收敛条件时,将所述调整后的样本多任务翻译模型作为多任务翻译模型。
在一种可能的实现方式中,处理器710根据所述第一预测文本和所述目标端文本之间的第一差异数据,以及根据所述第二预测文本和所述目标端文本之间的第二差异数据调整所述样本多任务翻译模型的模型参数,得到调整后的样本多任务翻译模型,包括:
根据所述第一预测文本以及所述目标端文本之间的第一差异数据,调整所述样本编码器的模型参数和所述第一样本解码器的模型参数,得到调整后的样本编码器和第一样本解码器;
根据所述第二预测文本以及所述目标端文本之间的第二差异数据,调整所述样本编码器的模型参数和所述第二样本解码器的模型参数,得到调整后的样本编码器和第二样本解码器;
将所述调整后的样本编码器、所述调整后的第一样本解码器以及所述调整后的第二样本解码器组合为所述调整后的样本多任务翻译模型。
在一种可能的实现方式中,处理器710根据所述第一预测文本和所述目标端文本之间的第一差异数据,以及根据所述第二预测文本和所述目标端文本之间的第二差异数据调整所述样本多任务翻译模型的模型参数,得到调整后的样本多任务翻译模型,包括:
将所述第一差异数据和所述第二差异数据叠加为目标差异数据;
根据所述目标差异调整所述样本编码器、所述第一样本解码器以及所述第二样本解码器,得到调整后的样本编码器、调整后的第一样本解码器以及调整后的第二样本解码器;
将所述调整后的样本编码器、所述调整后的第一样本解码器以及所述调整后的第二样本解码器组合为所述调整后的样本多任务翻译模型。
在一种可能的实现方式中,样本文本包括源端文本和目标端文本;
处理器710获取用于模型训练的样本文本,包括:
调用自回归翻译模型识别所述源端文本,得到所述目标端文本,所述自回归翻译模型的模型尺寸大于所述样本多任务翻译模型的模型尺寸,所述自回归翻译模型和所述样本多任务翻译模型之间的模型结构相似度小于相似度阈值;
将所述源端文本以及所述目标端文本组合为所述样本文本。
在一种可能的实现方式中,文本特征包括第一文本特征和第二文本特征,所述第二样本解码器包括掩码语言模块;
处理器710基于所述第二样本解码器对所述文本特征进行解码处理,得到所述样本文本的第二预测文本,包括:
从所述第一文本特征和所述第二文本特征中选择出待掩码处理的目标文本特征,所述目标文本特征包括所述第一文本特征或所述第二文本特征;
基于所述掩码语言模块对所述目标文本特征进行掩码处理,得到文本掩码特征;
基于所述第二样本解码器对所述文本掩码特征进行解码处理,得到所述文本掩码特征对应的第一预测字符;
基于所述第二样本解码器对待处理文本特征进行解码处理,得到所述待处理文本特征对应的第二预测字符,所述待处理文本特征是指所述第一文本特征和所述第二文本特征中除所述目标文本特征以外的特征;
将所述第一预测字符以及所述第二预测字符组合为所述样本文本的第二预测文本。
在一种可能的实现方式中,多任务翻译模型包括训练后的样本编码器、训练后的第一样本解码器以及训练后的第二样本解码器;
处理器710还执行以下操作:
显示翻译界面,所述翻译界面包括翻译控件和文本导入控件;
当所述文本导入控件被触发时,获取待翻译文本,并在所述翻译界面显示所述待翻译文本;
当所述翻译控件被触发时,调用训练后的样本编码器和训练后的解码器对所述待翻译文本进行翻译处理,得到所述待翻译文本的目标文本,所述训练后的解码器包括所述训练后的第一样本解码器或者所述训练后的第二样本解码器;
在所述翻译界面显示所述目标文本。
应当理解,本发明实施例中所描述的计算机设备可执行前文图3~图5所对应实施例中对模型训练方法的描述,也可执行前文图6所对应实施例中对模型训练装置的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本发明实施例还提供了一种计算机存储介质,且计算机存储介质中存储有前文提及的数据处理装置所执行的计算机程序,且该计算机程序包括程序指令,当处理器执行上述程序指令时,能够执行前文图3~图5所对应实施例中的方法,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本发明所涉及的计算机存储介质实施例中未披露的技术细节,请参照本发明方法实施例的描述。作为示例,程序指令可以被部署在一个计算机设备上,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备可以执行前文图3~图5所对应实施例中的方法,因此,这里将不再进行赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (10)
1.一种模型训练方法,其特征在于,所述方法包括:
获取用于模型训练的样本文本;
调用样本多任务翻译模型,所述样本多任务翻译模型包括样本编码器、第一样本解码器以及第二样本解码器;
基于所述样本编码器对所述样本文本进行编码处理,得到所述样本文本的文本特征;
基于所述第一样本解码器对所述文本特征进行解码处理,得到所述样本文本的第一预测文本,以及基于所述第二样本解码器对所述文本特征进行解码处理,得到所述样本文本的第二预测文本;
根据所述样本文本、所述第一预测文本以及所述第二预测文本训练所述样本多任务翻译模型,得到多任务翻译模型。
2.根据权利要求1所述的方法,其特征在于,样本文本包括目标端文本;
所述根据所述样本文本、所述第一预测文本以及所述第二预测文本训练所述样本多任务翻译模型,得到多任务翻译模型,包括:
根据所述第一预测文本和所述目标端文本之间的第一差异数据,以及根据所述第二预测文本和所述目标端文本之间的第二差异数据,调整所述样本多任务翻译模型的模型参数,得到调整后的样本多任务翻译模型;
当所述调整后的样本多任务翻译模型满足模型收敛条件时,将所述调整后的样本多任务翻译模型作为多任务翻译模型。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一预测文本和所述目标端文本之间的第一差异数据,以及根据所述第二预测文本和所述目标端文本之间的第二差异数据调整所述样本多任务翻译模型的模型参数,得到调整后的样本多任务翻译模型,包括:
根据所述第一预测文本以及所述目标端文本之间的第一差异数据,调整所述样本编码器的模型参数和所述第一样本解码器的模型参数,得到调整后的样本编码器和第一样本解码器;
根据所述第二预测文本以及所述目标端文本之间的第二差异数据,调整所述样本编码器的模型参数和所述第二样本解码器的模型参数,得到调整后的样本编码器和第二样本解码器;
将所述调整后的样本编码器、所述调整后的第一样本解码器以及所述调整后的第二样本解码器组合为所述调整后的样本多任务翻译模型。
4.根据权利要求2所述的方法,其特征在于,所述根据所述第一预测文本和所述目标端文本之间的第一差异数据,以及根据所述第二预测文本和所述目标端文本之间的第二差异数据调整所述样本多任务翻译模型的模型参数,得到调整后的样本多任务翻译模型,包括:
将所述第一差异数据和所述第二差异数据叠加为目标差异数据;
根据所述目标差异调整所述样本编码器、所述第一样本解码器以及所述第二样本解码器,得到调整后的样本编码器、调整后的第一样本解码器以及调整后的第二样本解码器;
将所述调整后的样本编码器、所述调整后的第一样本解码器以及所述调整后的第二样本解码器组合为所述调整后的样本多任务翻译模型。
5.根据权利要求1所述的方法,其特征在于,所述样本文本包括源端文本和目标端文本;
所述获取用于模型训练的样本文本,包括:
调用自回归翻译模型识别所述源端文本,得到所述目标端文本,所述自回归翻译模型的模型尺寸大于所述样本多任务翻译模型的模型尺寸,所述自回归翻译模型和所述样本多任务翻译模型之间的模型结构相似度小于相似度阈值;
将所述源端文本以及所述目标端文本组合为所述样本文本。
6.根据权利要求1所述的方法,其特征在于,所述文本特征包括第一文本特征和第二文本特征,所述第二样本解码器包括掩码语言模块;
所述基于所述第二样本解码器对所述文本特征进行解码处理,得到所述样本文本的第二预测文本,包括:
从所述第一文本特征和所述第二文本特征中选择出待掩码处理的目标文本特征,所述目标文本特征包括所述第一文本特征或所述第二文本特征;
基于所述掩码语言模块对所述目标文本特征进行掩码处理,得到文本掩码特征;
基于所述第二样本解码器对所述文本掩码特征进行解码处理,得到所述文本掩码特征对应的第一预测字符;
基于所述第二样本解码器对待处理文本特征进行解码处理,得到所述待处理文本特征对应的第二预测字符,所述待处理文本特征是指所述第一文本特征和所述第二文本特征中除所述目标文本特征以外的特征;
将所述第一预测字符以及所述第二预测字符组合为所述样本文本的第二预测文本。
7.根据权利要求1所述的方法,其特征在于,所述多任务翻译模型包括训练后的样本编码器、训练后的第一样本解码器以及训练后的第二样本解码器;
所述方法还包括:
显示翻译界面,所述翻译界面包括翻译控件和文本导入控件;
当所述文本导入控件被触发时,获取待翻译文本,并在所述翻译界面显示所述待翻译文本;
当所述翻译控件被触发时,调用训练后的样本编码器和训练后的解码器对所述待翻译文本进行翻译处理,得到所述待翻译文本的目标文本,所述训练后的解码器包括所述训练后的第一样本解码器或者所述训练后的第二样本解码器;
在所述翻译界面显示所述目标文本。
8.一种模型训练装置,其特征在于,所述模型训练装置包括:
获取单元,用于获取用于模型训练的样本文本;
调用单元,用于调用样本多任务翻译模型,所述样本多任务翻译模型包括样本编码器、第一样本解码器以及第二样本解码器;
编码单元,用于基于所述样本编码器对所述样本文本进行编码处理,得到所述样本文本的文本特征;
解码单元,用于基于所述第一样本解码器对所述文本特征进行解码处理,得到所述样本文本的第一预测文本,以及基于所述第二样本解码器对所述文本特征进行解码处理,得到所述样本文本的第二预测文本;
训练单元,用于根据所述样本文本、所述第一预测文本以及所述第二预测文本训练所述样本多任务翻译模型,得到多任务翻译模型。
9.一种计算机设备,其特征在于,包括存储器以及处理器,所述存储器存储一组程序代码,所述处理器调用所述存储器中存储的程序代码,用于执行1~7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1~7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011265626.7A CN112257471A (zh) | 2020-11-12 | 2020-11-12 | 一种模型训练方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011265626.7A CN112257471A (zh) | 2020-11-12 | 2020-11-12 | 一种模型训练方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112257471A true CN112257471A (zh) | 2021-01-22 |
Family
ID=74266670
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011265626.7A Pending CN112257471A (zh) | 2020-11-12 | 2020-11-12 | 一种模型训练方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112257471A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113177415A (zh) * | 2021-04-30 | 2021-07-27 | 科大讯飞股份有限公司 | 语义理解方法、装置、电子设备和存储介质 |
CN113327627A (zh) * | 2021-05-24 | 2021-08-31 | 清华大学深圳国际研究生院 | 一种基于特征解耦的多因素可控的语音转换方法及系统 |
CN113554021A (zh) * | 2021-06-07 | 2021-10-26 | 傲雄在线(重庆)科技有限公司 | 一种智能化印章识别方法 |
CN114065784A (zh) * | 2021-11-16 | 2022-02-18 | 北京百度网讯科技有限公司 | 训练方法、译文方法、装置、电子设备以及存储介质 |
CN115938470A (zh) * | 2023-01-04 | 2023-04-07 | 抖音视界有限公司 | 蛋白质特征预处理方法、装置、介质及设备 |
CN116561540A (zh) * | 2023-06-26 | 2023-08-08 | 世优(北京)科技有限公司 | 业务数据校正方法、装置及ai数字人的训练方法、装置 |
-
2020
- 2020-11-12 CN CN202011265626.7A patent/CN112257471A/zh active Pending
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113177415A (zh) * | 2021-04-30 | 2021-07-27 | 科大讯飞股份有限公司 | 语义理解方法、装置、电子设备和存储介质 |
CN113327627A (zh) * | 2021-05-24 | 2021-08-31 | 清华大学深圳国际研究生院 | 一种基于特征解耦的多因素可控的语音转换方法及系统 |
CN113327627B (zh) * | 2021-05-24 | 2024-04-05 | 清华大学深圳国际研究生院 | 一种基于特征解耦的多因素可控的语音转换方法及系统 |
CN113554021A (zh) * | 2021-06-07 | 2021-10-26 | 傲雄在线(重庆)科技有限公司 | 一种智能化印章识别方法 |
CN113554021B (zh) * | 2021-06-07 | 2023-12-15 | 重庆傲雄在线信息技术有限公司 | 一种智能化印章识别方法 |
CN114065784A (zh) * | 2021-11-16 | 2022-02-18 | 北京百度网讯科技有限公司 | 训练方法、译文方法、装置、电子设备以及存储介质 |
CN114065784B (zh) * | 2021-11-16 | 2023-03-10 | 北京百度网讯科技有限公司 | 训练方法、译文方法、装置、电子设备以及存储介质 |
CN115938470A (zh) * | 2023-01-04 | 2023-04-07 | 抖音视界有限公司 | 蛋白质特征预处理方法、装置、介质及设备 |
CN115938470B (zh) * | 2023-01-04 | 2024-01-19 | 抖音视界有限公司 | 蛋白质特征预处理方法、装置、介质及设备 |
CN116561540A (zh) * | 2023-06-26 | 2023-08-08 | 世优(北京)科技有限公司 | 业务数据校正方法、装置及ai数字人的训练方法、装置 |
CN116561540B (zh) * | 2023-06-26 | 2023-09-08 | 世优(北京)科技有限公司 | 业务数据校正方法、装置及ai数字人的训练方法、装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112257471A (zh) | 一种模型训练方法、装置、计算机设备及存储介质 | |
US20200012953A1 (en) | Method and apparatus for generating model | |
CN111898696A (zh) | 伪标签及标签预测模型的生成方法、装置、介质及设备 | |
CN112084789B (zh) | 文本处理方法、装置、设备及存储介质 | |
CN114676234A (zh) | 一种模型训练方法及相关设备 | |
CN111680510B (zh) | 文本处理方法、装置、计算机设备以及存储介质 | |
CN114722826B (zh) | 模型的训练方法和装置、电子设备、存储介质 | |
CN113377971A (zh) | 多媒体资源生成方法、装置、电子设备以及存储介质 | |
CN113704460A (zh) | 一种文本分类方法、装置、电子设备和存储介质 | |
CN113761220A (zh) | 信息获取方法、装置、设备及存储介质 | |
CN113505193A (zh) | 一种数据处理方法及相关设备 | |
CN116541492A (zh) | 一种数据处理方法及相关设备 | |
CN113919360A (zh) | 语义理解方法、语音交互方法、装置、设备及存储介质 | |
CN116432019A (zh) | 一种数据处理方法及相关设备 | |
CN110019952B (zh) | 视频描述方法、系统及装置 | |
CN116661805B (zh) | 代码表示的生成方法和装置、存储介质及电子设备 | |
CN111445545B (zh) | 一种文本转贴图方法、装置、存储介质及电子设备 | |
CN112307738A (zh) | 用于处理文本的方法和装置 | |
CN114372454A (zh) | 文本信息抽取方法、模型训练方法、装置及存储介质 | |
CN114333069B (zh) | 对象的姿态处理方法、装置、设备及存储介质 | |
CN114398903B (zh) | 意图识别方法、装置、电子设备及存储介质 | |
CN112818688B (zh) | 文本处理方法、装置、设备及存储介质 | |
CN112748953B (zh) | 基于神经网络模型的数据处理方法、装置及电子设备 | |
CN115269781A (zh) | 模态关联度预测方法、装置、设备、存储介质及程序产品 | |
CN113591493A (zh) | 翻译模型的训练方法及翻译模型的装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40037356 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |