CN110795947A - 语句翻译方法和装置、存储介质及电子装置 - Google Patents
语句翻译方法和装置、存储介质及电子装置 Download PDFInfo
- Publication number
- CN110795947A CN110795947A CN201910819098.6A CN201910819098A CN110795947A CN 110795947 A CN110795947 A CN 110795947A CN 201910819098 A CN201910819098 A CN 201910819098A CN 110795947 A CN110795947 A CN 110795947A
- Authority
- CN
- China
- Prior art keywords
- translation
- model
- parameter vector
- incremental learning
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种语句翻译方法和装置、存储介质及电子装置。其中,该方法包括:获取使用目标帐号的客户端反馈的翻译校正请求,其中,该翻译校正请求用于请求对第一翻译结果进行校正,该第一翻译结果是通过第一翻译模型对待翻译的对象数据进行翻译后得到的结果;响应该翻译校正请求,使用翻译约束参数对该第一翻译模型进行调整,得到第二翻译模型,其中,该翻译约束参数用于约束该第一翻译模型中的第一参数向量与该第二翻译模型中的第二参数向量之间的差异;获取通过该第二翻译模型对该对象数据进行翻译后得到的第二翻译结果;向使用该目标帐号的客户端推送该第二翻译结果。本发明解决了增量学习后的模型容易出现灾难性遗忘的技术问题。
Description
技术领域
本发明涉及机器翻译领域,具体而言,涉及一种语句翻译方法和装置、存储介质及电子装置。
背景技术
相关技术中的神经机器翻译计算资源较大,时间消耗较多。随着语料的增多,基于原模型的增量学习往往导致神经网络灾难性遗忘,翻译性能下降,(双语互译质量评估辅助工具,Bilingual Evaluation Understudy,简称为BLEU)BLEU值降低。在这种情况下,如果能够避免从头开始训练模型的代价,同时能够基于新增的数据进行快速增量学习,并提高机器翻译模型的泛化能力与性能,将是一个具有重大意义的研究方向。
目前,当从旧有的任务切换到新的任务或从旧有数据分布切换到新的数据分布,深度神经网络训练往往会出现灾难性遗忘,使旧任务的模型性能降低。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种语句翻译方法和装置、存储介质及电子装置,以至少解决增量学习后的模型容易出现灾难性遗忘的技术问题。
根据本申请的另一个实施例,还提供了一种语句翻译方法,包括:获取使用目标帐号的客户端反馈的翻译校正请求,其中,所述翻译校正请求用于请求对第一翻译结果进行校正,所述第一翻译结果是通过第一翻译模型对待翻译的对象数据进行翻译后得到的结果;响应所述翻译校正请求,使用翻译约束参数对所述第一翻译模型进行调整,得到第二翻译模型,其中,所述翻译约束参数用于约束所述第一翻译模型中的第一参数向量与所述第二翻译模型中的第二参数向量之间的差异;获取通过所述第二翻译模型对所述对象数据进行翻译后得到的第二翻译结果;向使用所述目标帐号的客户端推送所述第二翻译结果。
根据本申请的另一个实施例,还提供了一种语句翻译装置,包括:第一获取模块,用于获取使用目标帐号的客户端反馈的翻译校正请求,其中,所述翻译校正请求用于请求对第一翻译结果进行校正,所述第一翻译结果是通过第一翻译模型对待翻译的对象数据进行翻译后得到的结果;调整模块,用于响应所述翻译校正请求,使用翻译约束参数对所述第一翻译模型进行调整,得到第二翻译模型,其中,所述翻译约束参数用于约束所述第一翻译模型中的第一参数向量与所述第二翻译模型中的第二参数向量之间的差异;第二获取模块,用于获取通过所述第二翻译模型对所述对象数据进行翻译后得到的第二翻译结果;推送模块,用于向使用所述目标帐号的客户端推送所述第二翻译结果。
可选地,所述调整模块还用于获取所述翻译约束参数;以及用于将所述翻译约束参数增量学习模型的超参数,利用所述增量学习模型对所述第一翻译模型中的第一参数向量进行调整,得到所述第二翻译模型中的所述第二参数向量,其中,所述翻译约束参数越大,允许所述增量学习模型输出的参数向量相对于所述第一参数向量的差异越大。
可选地,所述调整模块还用于将所述第一参数向量输入增量学习模型,其中,所述增量学习模型用于通过对所述第一参数向量进行增量学习得到所述第二参数向量;以及用于在所述增量学习模型的输出结果达到目标条件的情况下,确定所述增量学习模型当前输出的参数向量为所述第二参数向量。
可选地,所述调整模块还用于将所述第一参数向量作为所述增量学习模型的输入,得到所述增量学习模型的第一输出,完成第一次迭代;以及将第N-1输出和所述第一参数向量作为所述增量学习模型的输入,得到所述增量学习模型的第N输出,完成第N次迭代,其中,所述N为大于2的正整数;以及用于在所述第N输出的第三参数向量对应的第三翻译模型的交叉损失熵符合所述目标条件,停止所述迭代,并将所述第三参数向量作为所述第二参数向量,其中,所述第三翻译模型的交叉损失熵为模型预测结果与真实翻译结果之间的交叉损失熵,所述模型预测结果为所述第三翻译模型对待翻译语句的翻译结果,所述真实翻译结果为与所述待翻译语句对应的目标翻译结果。
可选地,所述增量学习模型包括:
其中,所述θ0为所述第一翻译模型的第一参数向量,所述C为所述翻译约束参数,所述λ为超参数,所述θt为t时刻所述增量学习模型输出的参数向量,所述θt-1为t-1时刻所述增量学习模型输出的参数向量,Δθt为参数θ在t时刻的变化向量,|Δθt|为所述变化向量的大小。
可选地,将所述第一翻译模型未能正确翻译的坏语料中的语句作为所述待翻译语句。
可选地,获取用于训练所述第一翻译模型的原始训练语料,以及所述第一翻译模型未能正确翻译的坏语料,将所述原始训练语料和所述坏语料中的语句作为所述待翻译语句。
根据本发明实施例的又一方面,还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述语句翻译方法。
根据本发明实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的语句翻译方法。
在本发明实施例中,获取使用目标帐号的客户端反馈的翻译校正请求,其中,所述翻译校正请求用于请求对第一翻译结果进行校正,所述第一翻译结果是通过第一翻译模型对待翻译的对象数据进行翻译后得到的结果;响应所述翻译校正请求,使用翻译约束参数对所述第一翻译模型进行调整,得到第二翻译模型,其中,所述翻译约束参数用于约束所述第一翻译模型中的第一参数向量与所述第二翻译模型中的第二参数向量之间的差异;获取通过所述第二翻译模型对所述对象数据进行翻译后得到的第二翻译结果;向使用所述目标帐号的客户端推送所述第二翻译结果。采用上述方案,获取到用户反馈的翻译校正请求,响应该响应校正请求,使用增量学习模型对初始的第一翻译模型进行增量学习,得到第二翻译模型,该增量学习模型中包括有翻译约束参数,以保证所述第二翻译模型中的参数与第一翻译模型的参数的差异在一定范围内,在优化翻译模型的同时,避免第二翻译模型出现灾难性遗忘,进而解决了增量学习后的模型容易出现灾难性遗忘的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的语句翻译方法的应用场景示意图;
图2是根据本申请实施例的请求翻译流程一的示意图;
图3是根据本申请实施例的请求翻译流程二的示意图;
图4是根据本申请实施例的语句翻译方法的流程示意图;
图5是根据本申请实施例的语句翻译装置的结构示意图;
图6是根据本申请实施例的语句翻译方法的电子装置示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
N-GRAM:是一种基于统计语言模型的算法,基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列,所述N为整数。
相关技术中,面对神经网络的灾难性遗忘,目前主要有三种主要的方式:一、通过组合旧有模型与基于旧有模型参数的新模型,形成新的模型;二、利用神经网络容量,隐式存储旧有模型与新模型的参数分布如dropout等,来适应新的任务。三、通过对损失函数或参数的约束,限制参数变化范围,达到模型的持续学习。针对方式一,相关技术中的一篇文献通过共享旧有模型的参数,输入到新的网络,结合输入的新的数据,学习新的网络参数。针对方式二,相关技术的一篇文献中每层网络采用多组神经元进行竞争,来选择合适的网络路径。另一篇文献采样类似的方式,每层采用多个模块如卷积模块等,基于强化学习,学习最优路径,将最优路径参数固定,学习新的任务。针对方式三,一篇文献提出使用旧有模型对新的数据进行预测,将结果作为旧有的伪训练数据,同时结合新数据同时训练,以达到约束训练的效果。另一篇文献提出通过fisher信息矩阵,作为参数的约束因子,限制参数变化范围,达到持续学习的效果。还有一篇文献同样采用fisher信息矩阵,将其作为旧有模型与新模型之间的参数平均的权值。这些算法在图像领域较为有效,对于机器翻译领域作用较小。还有文献提出了一种PAS优化算法,该算法通过定义新的机器翻译损失函数,同时将参数限制加入到损失函数中,对该目标进行约束求解。
上述方式一由于新的任务到来需要构建新的网络,随着任务的增多,尽管参数共享,但空间、时间代价会越来越大,对于机器翻译中巨大的神经网络并不适用。上述方式二,经过研究证明在学习新的任务过程中,不能保证旧有模型的性能,同时对新的任务也不能完全学会。上述方式3大部分提出的方法主要适用于图像领域,对机器翻译特有的网络结构不太适用。其中PAS算法在训练新任务时对参数进行限制,在机器翻译中,仅靠参数限制无法对模型进行恰当约束。本技术方案基于对旧有模型参数的约束,结合一些旧有模型不能准确翻译的坏语料,使模型在原来的基础上,能够进一步在参数空间中搜索最佳参数,最终达到提高旧有模型的性能的效果。
为了基于新增的语料,快速提高机器翻译模型的性能,本申请文件提出一种基于改进优化算法的机器翻译增量学习方法。该算法通过修改训练模型中的优化算法,以限制神经网络参数变化,同时结合新增的待学习语料,在原来已训练的模型的基础上,经过过短时间的训练,快速对旧有模型性能与效果进行改善。实验证明,该算法不仅可以减少计算代价,同时可以避免神经网络灾难性遗忘,最终达到快速提高机器翻译模型的性能的效果。
根据本发明实施例的一个方面,提供了一种语句翻译方法,可选地,作为一种可选的实施方式,上述语句翻译方法可以但不限于应用于如图1所示的环境中。
可选地,在本实施例中,上述语句翻译方法可以但不限于应用于服务器104中,用于协助应用客户端对所接收到的语句进行翻译。其中,上述应用客户端可以但不限于运行在用户设备102中,该用户设备102可以但不限于为手机、平板电脑、笔记本电脑、PC机等支持运行应用客户端的终端设备。上述服务器104和用户设备102可以但不限于通过网络实现数据交互,上述网络可以包括但不限于无线网络或有线网络。其中,该无线网络包括:蓝牙、WIFI及其他实现无线通信的网络。上述有线网络可以包括但不限于:广域网、城域网、局域网。上述仅是一种示例,本实施例中对此不作任何限定。
本申请实施例中的请求翻译流程一如图2所示,用户在翻译软件端请求翻译句子,翻译软件将句子传输给服务器,服务器判断不使用增量学习,将句子传输给翻译引擎,翻译引擎返回翻译结果给服务器,服务器返回结果给翻译软件端。
本申请实施例提供的请求翻译流程二如图3所示,为增量学习请求翻译流程图:用户在翻译软件端反馈对翻译结果不满意,翻译软件将句子传输给服务器,服务器判断使用增量学习,将句子传输给改进优化算法的机器翻译模型中,进行增量学习。增量机器翻译模型将改进的翻译结果返回给服务器,服务器返回结果给翻译软件端。
本申请实施例中的语句翻译方法的流程可以如图4所示,包括以下步骤:
步骤S402,获取使用目标帐号的客户端反馈的翻译校正请求,其中,所述翻译校正请求用于请求对第一翻译结果进行校正,所述第一翻译结果是通过第一翻译模型对待翻译的对象数据进行翻译后得到的结果;
目标帐号可以是用户的翻译软件的帐号。
步骤S404,响应所述翻译校正请求,使用翻译约束参数对所述第一翻译模型进行调整,得到第二翻译模型,其中,所述翻译约束参数用于约束所述第一翻译模型中的第一参数向量与所述第二翻译模型中的第二参数向量之间的差异;
使用翻译约束参数确定出增量学习模型,将第一翻译模型使用的第一参数向量作为增量学习模型的输入,得到所述增量学习模型的输出,在输出满足目标条件时,表示增量学习完成,将输出作为第二参数向量,供第二翻译模型进行使用。由于在增量学习模型中存在翻译约束参数,所以保证了第二参数向量与第二参数向量的差异不会特别大,即不会导致第二翻译模型出现灾难性遗忘情形。
步骤S406,获取通过所述第二翻译模型对所述对象数据进行翻译后得到的第二翻译结果;
步骤S408,向使用所述目标帐号的客户端推送所述第二翻译结果。
采用上述方案,获取到用户反馈的翻译校正请求,响应该响应校正请求,使用增量学习模型对初始的第一翻译模型进行增量学习,得到第二翻译模型,该增量学习模型中包括有翻译约束参数,以保证所述第二翻译模型中的参数与第一翻译模型的参数的差异在一定范围内,在优化翻译模型的同时,避免第二翻译模型出现灾难性遗忘,进而解决了增量学习后的模型容易出现灾难性遗忘的技术问题。
可选地,所述使用翻译约束参数对所述第一翻译模型进行调整,得到第二翻译模型包括:获取所述翻译约束参数;将所述翻译约束参数增量学习模型的超参数,利用所述增量学习模型对所述第一翻译模型中的第一参数向量进行调整,得到所述第二翻译模型中的所述第二参数向量,其中,所述翻译约束参数越大,允许所述增量学习模型输出的参数向量相对于所述第一参数向量的差异越大。超参数即为增量学习模型中预先设定的参数。翻译约束参数越小,允许增量学习模型的输出与输入之间的差异越小。
可选地,所述将所述翻译约束参数增量学习模型的超参数,利用所述增量学习模型对所述第一翻译模型中的第一参数向量进行调整,得到所述第二翻译模型中的所述第二参数向量包括:将所述第一参数向量输入增量学习模型,其中,所述增量学习模型用于通过对所述第一参数向量进行增量学习得到所述第二参数向量;在所述增量学习模型的输出结果达到目标条件的情况下,确定所述增量学习模型当前输出的参数向量为所述第二参数向量。增量学习模型的输出结果达到目标条件可以是,增量学习模型的输出结果作为一个翻译模型的参数,该翻译模型对语句的翻译结果的交叉损失熵小于目标阈值。
可选地,所述将所述第一参数向量输入增量学习模型,在所述增量学习模型的输出结果达到目标条件的情况下,确定所述增量学习模型当前输出的参数向量为所述第二参数向量,包括:将所述第一参数向量作为所述增量学习模型的输入,得到所述增量学习模型的第一输出,完成第一次迭代;将第N-1输出和所述第一参数向量作为所述增量学习模型的输入,得到所述增量学习模型的第N输出,完成第N次迭代,其中,所述N为大于2的正整数;在所述第N输出的第三参数向量对应的第三翻译模型的交叉损失熵符合所述目标条件,停止所述迭代,并将所述第三参数向量作为所述第二参数向量,其中,所述第三翻译模型的交叉损失熵为模型预测结果与真实翻译结果之间的交叉损失熵,所述模型预测结果为所述第三翻译模型对待翻译语句的翻译结果,所述真实翻译结果为与所述待翻译语句对应的目标翻译结果。目标翻译结果可以是人工校对的翻译结果,即正确的翻译结果。
可选地,在完成第一次迭代后,如果第一输出的参数向量对应的翻译模型的交叉损失熵符合目标条件,则终止迭代,增量学习完成,将第一输出的参数向量作为第二参数向量。
可选地,所述增量学习模型包括:
其中,所述θ0为所述第一翻译模型的第一参数向量,所述C为所述翻译约束参数,所述λ为超参数,所述θt为t时刻所述增量学习模型输出的参数向量,所述θt-1为t-1时刻所述增量学习模型输出的参数向量,Δθt为参数θ在t时刻的变化向量,|Δθt|为所述变化向量的大小。
采用上述增量学习模型,如果θt作为翻译模型的参数向量时,翻译模型的交叉损失熵符合目标条件,则增量学习完成,θt即为第二参数向量。反之,如果翻译模型的交叉损失熵不符合目标条件,则继续计算θt+1。
可选地,通过以下方式确定所述待翻译语句:将所述第一翻译模型未能正确翻译的坏语料中的语句作为所述待翻译语句。采用该方案,使用第一翻译模型未能正确翻译的坏语料作为待翻译语句,进行有针对性的训练,直到第三翻译模型对坏语料的翻译结果的交叉损失熵符合目标条件,保证了第三翻译模型的优化效果。
可选地,通过以下方式确定所述待翻译语句:获取用于训练所述第一翻译模型的原始训练语料,以及所述第一翻译模型未能正确翻译的坏语料,将所述原始训练语料和所述坏语料中的语句作为所述待翻译语句。新增的坏语料只能学习部分,不能完全学习,主要由于翻译约束参数与学习参数之间不能完全平衡。采用该可选实施例后,通过某种策略在原有的海量语料中抽取具有代表性的语料,结合新增的坏预料,来共同对学习参数进行约束,达到学习参数与约束参数变化的平衡。
可选地,接收所述目标帐号反馈的对于第一翻译模型的第一翻译结果的校正请求之前,接收所述目标帐号输入的第一语句;使用所述第一翻译模型对所述第一语句进行翻译,得到所述第一翻译结果;传输所述第一翻译结果至所述目标帐号。本申请实施例中的应用场景是机器翻译,首先用户请求翻译句子,然后反馈对翻译结果不满意,接收到用户的翻译优化按钮,显示优化界面,应用程序返回优化后的翻译结果给用户。
1)、机器翻译模型基本结构:
本申请实施例中的使用的原始翻译模型transformer(相当于上述实施例中的第一翻译模型)由编码器encoder与解码器decoder两部分组成。其中,encoder主要由多层网络组成,每层由multi-head self attention与前向网络构成,decoder与encoder相似,比encoder增加了encoder与decoder的multi-head attention的attention层。
2)、机器翻译模型的优化目标与评价指标:
上述实施例中记载的翻译模型的交叉损失熵见公式(1),优化翻译模型的目标是最小化模型预测结果与真实翻译结果的交叉损失熵,其中t(x)为真实翻译结果,p(x)为模型预测结果。
本发明采用的评价指标是BLEU值,BLEU值通过计算修正的N-GRAM精确度,如公式(2)所示。
其中,公式(2)中Candidate为模型翻译语料集合,c为其中一条翻译语料。Countclip为对计数进行修正,主要指参考翻译语句里面如果一个单词片段已经被匹配,那么这个片段就不能再次被匹配,并且一个单词片段只能取一个参考翻译语句中出现次数的最大值。
例如:
模型翻译文本:the the the the the the the.
参考文本1:The cat is on the mat.
参考文本2:There is a cat on the mat.
按单个词匹配,模型翻译文本中the出现在参考文本中,共有7个,但是如果按截断计数算,其中参考文本1中包含2个the,参考文本2包含1个the,则计数为2。
公式(2)中的分母为n-gram中不同n的求和,包括1-gram,2-gram,3-gram,4-gram。
然后对不同GRAM的精确度进行加权平均,对短句进行惩罚,BP是个公式,长度越长,BP越大,如公式(3)所示。
其中,
其中,BP公式中r为有效参考语料的长度,d为模型翻译的语料长度,当模型翻译语料长度小于等于参考语料长度,BP小于1,相当于减少BLEU值;当模型翻译语料长度大于参考语料长度,BP大等于1,相当于BLEU值不变。该公式鼓励模型翻译长度要尽可能大于有效参考语料长度。
公式(3)中,n表示不同n-gram,Wn表示不同n-gram的权重,一般如果n为4,则Wn=0.25。
3)、机器翻译模型的优化算法
相关技术中采用Adam优化算法,对损失函数进行优化。Adam算法计算过去梯度的衰减平均与梯度平方的衰减平均,对梯度进行更新,如公式(4)(5)所示。在此基础上进行偏差修正,见公式(6)(7)。最终更新如公式(8)(9)所示。
mt=μ*mt-1+(1-μ)*gt (4)
nt=v*nt-1+(1-v)gt 2 (5)
θt=θt-1+Δθt (9)
其中gt表示梯度,gt2表示梯度的平方,μ和ν为固定的参数,可初始化设置,m表示一阶动量,n表示二阶动量,t表示不同时刻,μ和ν用于计算一阶动量和二阶动量的衰减平均。表示修正后的一阶动量,表示修正后的二阶动量,修正即分别在原始的动量基础上除以1减去μ和ν的t次方。ηt表示t时刻的学习率,θ代表模型参数。公式(9)表示θ从t-1时刻更新到t时刻。∈是一个固定的数,以防分母为0。
本申请实施例提出的一种自适应平衡参数约束与参数学习的算法,在上述内容描述的相关技术中的Adam算法的基础上,对参数学习进行约束。相比于原始的Adam算法,不仅增加了参数的约束,同时不需要进行学习率的选择与改变,简化了算法中的超参选择。
参数变化公式(10)如下所示:
公式10中其中θ0为旧有模型(相当于上述实施例中的第一翻译模型)的参数向量,C为翻译约束参数,θt-1为t-1时刻参数值,θt为t时刻的参数值。本算法中,需要调节的超参为C参数,该参数控制参数学习的范围,当C越大时,其参数变化越大,C越小,参数变化越小。λ也为超参数,初始化时进行设置,用于加权平均θ的t-1时刻的值与基于旧有模型参数θ0更新后的值。Δθt为参数θ在t时刻的变化值。|Δθt|为向量的大小,计算过程为向量中各项值的平方求和并开根号。
4)、增量语料的选择
该算法通过限制参数变化,以避免神经网络的灾难性遗忘。由于机器翻译模型比较复杂,需要结合语料进行进一步限制。增量语料的选择为旧有模型不能准确翻译的语料,这些语料在旧有模型中翻译出错率较高,当结合改进的优化算法,可以让模型参数朝着更优点运动,最终达到改善旧有模型的效果。
采用上述方案,旧有模型经过长时间训练,损失会越来越平稳,BLEU值也会趋于稳定,提高模型效果代价进一步加大,将本技术方案应用于机器翻译增量学习中,在较短的时间内可以迅速提高BLEU值,减少模型运行代价,同时可以学习部分增量预料,提高模型的泛化能力。实验结果表如下表1所示,对两个数据集nist06和nist08进行翻译,增量学习后的机器翻译模型的BLEU值明显提高,同时训练时间也与相关技术中若干天相比,大幅缩短。
表1
数据集 | BLEU | 增量结果 | 训练时间 |
nist06 | 40.92 | 42.27 | 25min |
nist08 | 37.04 | 38.89 | 25min |
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
根据本发明实施例的另一个方面,还提供了一种用于实施上述语句翻译方法的语句翻译装置,如图5所示,该装置包括:
第一获取模块502,用于获取使用目标帐号的客户端反馈的翻译校正请求,其中,所述翻译校正请求用于请求对第一翻译结果进行校正,所述第一翻译结果是通过第一翻译模型对待翻译的对象数据进行翻译后得到的结果;
调整模块504,用于响应所述翻译校正请求,使用翻译约束参数对所述第一翻译模型进行调整,得到第二翻译模型,其中,所述翻译约束参数用于约束所述第一翻译模型中的第一参数向量与所述第二翻译模型中的第二参数向量之间的差异;
第二获取模块506,用于获取通过所述第二翻译模型对所述对象数据进行翻译后得到的第二翻译结果;
推送模块508,用于向使用所述目标帐号的客户端推送所述第二翻译结果。
可选地,所述调整模块504还用于获取所述翻译约束参数;以及用于将所述翻译约束参数增量学习模型的超参数,利用所述增量学习模型对所述第一翻译模型中的第一参数向量进行调整,得到所述第二翻译模型中的所述第二参数向量,其中,所述翻译约束参数越大,允许所述增量学习模型输出的参数向量相对于所述第一参数向量的差异越大。
可选地,所述调整模块504还用于将所述第一参数向量输入增量学习模型,其中,所述增量学习模型用于通过对所述第一参数向量进行增量学习得到所述第二参数向量;以及用于在所述增量学习模型的输出结果达到目标条件的情况下,确定所述增量学习模型当前输出的参数向量为所述第二参数向量。
可选地,所述调整模块504还用于将所述第一参数向量作为所述增量学习模型的输入,得到所述增量学习模型的第一输出,完成第一次迭代;以及将第N-1输出和所述第一参数向量作为所述增量学习模型的输入,得到所述增量学习模型的第N输出,完成第N次迭代,其中,所述N为大于2的正整数;以及用于在所述第N输出的第三参数向量对应的第三翻译模型的交叉损失熵符合所述目标条件,停止所述迭代,并将所述第三参数向量作为所述第二参数向量,其中,所述第三翻译模型的交叉损失熵为模型预测结果与真实翻译结果之间的交叉损失熵,所述模型预测结果为所述第三翻译模型对待翻译语句的翻译结果,所述真实翻译结果为与所述待翻译语句对应的目标翻译结果。
可选地,所述增量学习模型包括:
其中,所述θ0为所述第一翻译模型的第一参数向量,所述C为所述翻译约束参数,所述λ为超参数,所述θt为t时刻所述增量学习模型输出的参数向量,所述θt-1为t-1时刻所述增量学习模型输出的参数向量,Δθt为参数θ在t时刻的变化向量,|Δθt|为所述变化向量的大小。
可选地,将所述第一翻译模型未能正确翻译的坏语料中的语句作为所述待翻译语句。
可选地,获取用于训练所述第一翻译模型的原始训练语料,以及所述第一翻译模型未能正确翻译的坏语料,将所述原始训练语料和所述坏语料中的语句作为所述待翻译语句。
根据本发明实施例的又一个方面,还提供了一种用于实施上述语句翻译方法的电子装置,如图6所示,该电子装置包括存储器602和处理器604,该存储器602中存储有计算机程序,该处理器604被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取使用目标帐号的客户端反馈的翻译校正请求,其中,所述翻译校正请求用于请求对第一翻译结果进行校正,所述第一翻译结果是通过第一翻译模型对待翻译的对象数据进行翻译后得到的结果;
S2,响应所述翻译校正请求,使用翻译约束参数对所述第一翻译模型进行调整,得到第二翻译模型,其中,所述翻译约束参数用于约束所述第一翻译模型中的第一参数向量与所述第二翻译模型中的第二参数向量之间的差异;
S3,获取通过所述第二翻译模型对所述对象数据进行翻译后得到的第二翻译结果;
S4,向使用所述目标帐号的客户端推送所述第二翻译结果。
可选地,本领域普通技术人员可以理解,图6所示的结构仅为示意,电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图6其并不对上述电子装置的结构造成限定。例如,电子装置还可包括比图6中所示更多或者更少的组件(如网络接口等),或者具有与图6所示不同的配置。
其中,存储器602可用于存储软件程序以及模块,如本发明实施例中的语句翻译方法和装置对应的程序指令/模块,处理器604通过运行存储在存储器602内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的语句翻译方法。存储器602可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器602可进一步包括相对于处理器604远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器602具体可以但不限于用于存储翻译结果等信息。作为一种示例,如图6所示,上述存储器602中可以但不限于包括上述语句翻译装置中的第一获取模块502、调整模块504、第二获取模块506及推送模块508处理单元1108。此外,还可以包括但不限于上述语句翻译装置中的其他模块单元,本示例中不再赘述。
可选地,上述的传输装置606用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置606包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置606为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
此外,上述电子装置还包括:显示器608,用于显示上述翻译结果;和连接总线610,用于连接上述电子装置中的各个模块部件。
根据本发明的实施例的又一方面,还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取使用目标帐号的客户端反馈的翻译校正请求,其中,所述翻译校正请求用于请求对第一翻译结果进行校正,所述第一翻译结果是通过第一翻译模型对待翻译的对象数据进行翻译后得到的结果;
S2,响应所述翻译校正请求,使用翻译约束参数对所述第一翻译模型进行调整,得到第二翻译模型,其中,所述翻译约束参数用于约束所述第一翻译模型中的第一参数向量与所述第二翻译模型中的第二参数向量之间的差异;
S3,获取通过所述第二翻译模型对所述对象数据进行翻译后得到的第二翻译结果;
S4,向使用所述目标帐号的客户端推送所述第二翻译结果。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种语句翻译方法,其特征在于,包括:
获取使用目标帐号的客户端反馈的翻译校正请求,其中,所述翻译校正请求用于请求对第一翻译结果进行校正,所述第一翻译结果是通过第一翻译模型对待翻译的对象数据进行翻译后得到的结果;
响应所述翻译校正请求,使用翻译约束参数对所述第一翻译模型进行调整,得到第二翻译模型,其中,所述翻译约束参数用于约束所述第一翻译模型中的第一参数向量与所述第二翻译模型中的第二参数向量之间的差异;
获取通过所述第二翻译模型对所述对象数据进行翻译后得到的第二翻译结果;
向使用所述目标帐号的客户端推送所述第二翻译结果。
2.根据权利要求1所述的方法,其特征在于,所述使用翻译约束参数对所述第一翻译模型进行调整,得到第二翻译模型包括:
获取所述翻译约束参数;
将所述翻译约束参数增量学习模型的超参数,利用所述增量学习模型对所述第一翻译模型中的第一参数向量进行调整,得到所述第二翻译模型中的所述第二参数向量,其中,所述翻译约束参数越大,允许所述增量学习模型输出的参数向量相对于所述第一参数向量的差异越大。
3.根据权利要求2所述的方法,其特征在于,所述将所述翻译约束参数增量学习模型的超参数,利用所述增量学习模型对所述第一翻译模型中的第一参数向量进行调整,得到所述第二翻译模型中的所述第二参数向量包括:
将所述第一参数向量输入增量学习模型,其中,所述增量学习模型用于通过对所述第一参数向量进行增量学习得到所述第二参数向量;
在所述增量学习模型的输出结果达到目标条件的情况下,确定所述增量学习模型当前输出的参数向量为所述第二参数向量。
4.根据权利要求3所述的方法,其特征在于,所述将所述第一参数向量输入增量学习模型,在所述增量学习模型的输出结果达到目标条件的情况下,确定所述增量学习模型当前输出的参数向量为所述第二参数向量,包括:
将所述第一参数向量作为所述增量学习模型的输入,得到所述增量学习模型的第一输出,完成第一次迭代;
将第N-1输出和所述第一参数向量作为所述增量学习模型的输入,得到所述增量学习模型的第N输出,完成第N次迭代,其中,所述N为大于2的正整数;
在所述第N输出的第三参数向量对应的第三翻译模型的交叉损失熵符合所述目标条件,停止所述迭代,并将所述第三参数向量作为所述第二参数向量,其中,所述第三翻译模型的交叉损失熵为模型预测结果与真实翻译结果之间的交叉损失熵,所述模型预测结果为所述第三翻译模型对待翻译语句的翻译结果,所述真实翻译结果为与所述待翻译语句对应的目标翻译结果。
5.根据权利要求4所述的方法,其特征在于,所述增量学习模型包括:
其中,所述θ0为所述第一翻译模型的第一参数向量,所述C为所述翻译约束参数,所述λ为超参数,所述θt为t时刻所述增量学习模型输出的参数向量,所述θt-1为t-1时刻所述增量学习模型输出的参数向量,Δθt为参数θ在t时刻的变化向量,|Δθt|为所述变化向量的大小。
6.根据权利要求4所述的方法,其特征在于,通过以下方式确定所述待翻译语句:
将所述第一翻译模型未能正确翻译的坏语料中的语句作为所述待翻译语句。
7.根据权利要求4所述的方法,其特征在于,通过以下方式确定所述待翻译语句:
获取用于训练所述第一翻译模型的原始训练语料,以及所述第一翻译模型未能正确翻译的坏语料,将所述原始训练语料和所述坏语料中的语句作为所述待翻译语句。
8.一种语句翻译装置,其特征在于,包括:
第一获取模块,用于获取使用目标帐号的客户端反馈的翻译校正请求,其中,所述翻译校正请求用于请求对第一翻译结果进行校正,所述第一翻译结果是通过第一翻译模型对待翻译的对象数据进行翻译后得到的结果;
调整模块,用于响应所述翻译校正请求,使用翻译约束参数对所述第一翻译模型进行调整,得到第二翻译模型,其中,所述翻译约束参数用于约束所述第一翻译模型中的第一参数向量与所述第二翻译模型中的第二参数向量之间的差异;
第二获取模块,用于获取通过所述第二翻译模型对所述对象数据进行翻译后得到的第二翻译结果;
推送模块,用于向使用所述目标帐号的客户端推送所述第二翻译结果。
9.一种存储介质,所述存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至7任一项中所述的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至7任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910819098.6A CN110795947B (zh) | 2019-08-30 | 2019-08-30 | 语句翻译方法和装置、存储介质及电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910819098.6A CN110795947B (zh) | 2019-08-30 | 2019-08-30 | 语句翻译方法和装置、存储介质及电子装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110795947A true CN110795947A (zh) | 2020-02-14 |
CN110795947B CN110795947B (zh) | 2023-07-14 |
Family
ID=69427097
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910819098.6A Active CN110795947B (zh) | 2019-08-30 | 2019-08-30 | 语句翻译方法和装置、存储介质及电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110795947B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106126505A (zh) * | 2016-06-20 | 2016-11-16 | 清华大学 | 平行短语学习方法及装置 |
CN106202059A (zh) * | 2015-05-25 | 2016-12-07 | 松下电器(美国)知识产权公司 | 机器翻译方法以及机器翻译装置 |
CN109271643A (zh) * | 2018-08-08 | 2019-01-25 | 北京捷通华声科技股份有限公司 | 一种翻译模型的训练方法、翻译方法和装置 |
CN109359309A (zh) * | 2018-12-11 | 2019-02-19 | 成都金山互动娱乐科技有限公司 | 一种翻译方法及装置、翻译模型的训练方法及装置 |
CN109359304A (zh) * | 2018-08-22 | 2019-02-19 | 新译信息科技(深圳)有限公司 | 限定性神经网络机器翻译方法及存储介质 |
CN109657251A (zh) * | 2018-12-17 | 2019-04-19 | 北京百度网讯科技有限公司 | 用于翻译语句的方法和装置 |
CN109858042A (zh) * | 2018-11-20 | 2019-06-07 | 科大讯飞股份有限公司 | 一种翻译质量的确定方法及装置 |
CN109858044A (zh) * | 2019-02-01 | 2019-06-07 | 成都金山互动娱乐科技有限公司 | 语言处理方法和装置、语言处理系统的训练方法和装置 |
-
2019
- 2019-08-30 CN CN201910819098.6A patent/CN110795947B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202059A (zh) * | 2015-05-25 | 2016-12-07 | 松下电器(美国)知识产权公司 | 机器翻译方法以及机器翻译装置 |
CN106126505A (zh) * | 2016-06-20 | 2016-11-16 | 清华大学 | 平行短语学习方法及装置 |
CN109271643A (zh) * | 2018-08-08 | 2019-01-25 | 北京捷通华声科技股份有限公司 | 一种翻译模型的训练方法、翻译方法和装置 |
CN109359304A (zh) * | 2018-08-22 | 2019-02-19 | 新译信息科技(深圳)有限公司 | 限定性神经网络机器翻译方法及存储介质 |
CN109858042A (zh) * | 2018-11-20 | 2019-06-07 | 科大讯飞股份有限公司 | 一种翻译质量的确定方法及装置 |
CN109359309A (zh) * | 2018-12-11 | 2019-02-19 | 成都金山互动娱乐科技有限公司 | 一种翻译方法及装置、翻译模型的训练方法及装置 |
CN109657251A (zh) * | 2018-12-17 | 2019-04-19 | 北京百度网讯科技有限公司 | 用于翻译语句的方法和装置 |
CN109858044A (zh) * | 2019-02-01 | 2019-06-07 | 成都金山互动娱乐科技有限公司 | 语言处理方法和装置、语言处理系统的训练方法和装置 |
Non-Patent Citations (1)
Title |
---|
魏浩然: ""约束优化在神经机器翻译中的应用研究"", 《信息科技辑》, pages 1 - 5 * |
Also Published As
Publication number | Publication date |
---|---|
CN110795947B (zh) | 2023-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108304388B (zh) | 机器翻译方法及装置 | |
US11694109B2 (en) | Data processing apparatus for accessing shared memory in processing structured data for modifying a parameter vector data structure | |
US20180276542A1 (en) | Recommendation Result Generation Method and Apparatus | |
US20180005070A1 (en) | Generating image features based on robust feature-learning | |
Lan et al. | Two-stage extreme learning machine for regression | |
Luedtke et al. | Sequential double robustness in right-censored longitudinal models | |
WO2018031958A1 (en) | Aggregate features for machine learning | |
CN110674323B (zh) | 基于虚拟标签回归的无监督跨模态哈希检索方法及系统 | |
US20190122108A1 (en) | Systems and methods for trace norm regularization and faster inference for embedded models | |
US20210342696A1 (en) | Deep Learning Model Training Method and System | |
Lee | Toward continual learning for conversational agents | |
CN111353033B (zh) | 一种训练文本相似度模型的方法和系统 | |
Ying | Orthogonal incremental extreme learning machine for regression and multiclass classification | |
US11380301B2 (en) | Learning apparatus, speech recognition rank estimating apparatus, methods thereof, and program | |
WO2021057884A1 (zh) | 语句复述方法、训练语句复述模型的方法及其装置 | |
Wang et al. | Convergence of a modified gradient-based learning algorithm with penalty for single-hidden-layer feed-forward networks | |
CN110807529A (zh) | 一种机器学习模型的训练方法、装置、设备及存储介质 | |
CN112183750A (zh) | 神经网络模型训练方法、装置、计算机设备及存储介质 | |
CN115860100A (zh) | 一种神经网络模型训练方法、装置及计算设备 | |
CN110516889B (zh) | 一种基于Q-learning的负荷综合预测方法和相关设备 | |
WO2024109907A1 (zh) | 一种量化方法、推荐方法以及装置 | |
CN117077671B (zh) | 一种交互数据生成方法及系统 | |
CN108475346A (zh) | 神经随机访问机器 | |
CN111430035B (zh) | 传染病人数预测方法、装置、电子设备及介质 | |
US20190205398A1 (en) | Systems and methods for translation management |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40022033 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |