CN110245364B - 零平行语料多模态神经机器翻译方法 - Google Patents

零平行语料多模态神经机器翻译方法 Download PDF

Info

Publication number
CN110245364B
CN110245364B CN201910550612.0A CN201910550612A CN110245364B CN 110245364 B CN110245364 B CN 110245364B CN 201910550612 A CN201910550612 A CN 201910550612A CN 110245364 B CN110245364 B CN 110245364B
Authority
CN
China
Prior art keywords
sentence
machine translation
language
neural machine
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910550612.0A
Other languages
English (en)
Other versions
CN110245364A (zh
Inventor
陈恩红
刘淇
王怡君
魏天心
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN201910550612.0A priority Critical patent/CN110245364B/zh
Publication of CN110245364A publication Critical patent/CN110245364A/zh
Application granted granted Critical
Publication of CN110245364B publication Critical patent/CN110245364B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种零平行语料多模态神经机器翻译方法,包括:利用带有相应图片信息的源语言和目标语言单语语料,对预先构建的神经机器翻译模型进行预训练;使用预训练的神经机器翻译模型将源语言中的句子翻译为目标语言的句子,根据翻译得到的句子与对应图片之间的内在联系计算句子级别的奖励值,并以最大化期望的总的奖励值为优化目标,采用策略梯度的强化学习方法对预训练的神经机器翻译模型参数进行更新,从而得到训练好的神经机器翻译模型;使用训练好的神经机器翻译模型对给定的源语言句子进行翻译。该方法通过利用图片与文字的内在联系,可以建立零资源语言对的神经机器翻译模型。

Description

零平行语料多模态神经机器翻译方法
技术领域
本发明涉及机器翻译技术领域,尤其涉及一种零平行语料多模态神经机器翻译方法。
背景技术
端到端的神经机器翻译(以下简称神经机器翻译)近几年在国内外都取得了突飞猛进的发展。神经机器翻译摒弃了统计机器翻译中繁琐的结构和复杂的特征设计,直接把平行语料交给神经网络,从而完成一个完整的翻译系统的训练。
在神经机器翻译中,即使是一个最简单的单层模型也有着大量的参数(通常为数千万的参数)需要优化,而在机器学习中训练一个具有大量参数的复杂模型就需要大量的训练数据。随着神经机器翻译的模型设计越来越复杂,模型的深度不断增加,相应地就需要更多的训练数据。然而实际中高质量的平行语料的获取需要大量的人工翻译,是极为耗时又昂贵的。因此,如何解决在没有平行语料,即零平行语料资源下的神经机器翻译问题是神经机器翻译亟需解决的一个重要问题。
围绕这个研究问题,研究者们提出了多种解决方法。其中,以单语语料相对应的图片等视觉信息为中轴构建机器翻译模型的方法是为零平行语料资源语言对构建翻译模型的一种有效方式。相关研究主要将图片当作两种语言的中轴,通过将图片用图片描述模型进行文字描述而形成平行的语料来训练翻译模型,而忽略了图片与文字信息在语义上的内在联系。上述方法虽然能通过构造平行语料来实现神经机器翻译模型的训练,但是由于图片描述模型效果有限,其产生的错误描述将会导致形成低质量的平行语料训练数据,从而影响训练的神经机器翻译模型的质量,最终导致翻译结果的准确度较低。
发明内容
本发明的目的是提供一种零平行语料多模态神经机器翻译方法,通过利用图片与文字的内在联系,可以建立零平行语料多模态神经机器翻译模型。
本发明的目的是通过以下技术方案实现的:
一种零平行语料多模态神经机器翻译方法,包括:
利用带有相应图片信息的源语言和目标语言单语语料,对预先构建的神经机器翻译模型进行预训练;
使用预训练的神经机器翻译模型将源语言中的句子翻译为目标语言的句子,根据翻译得到的句子与对应图片之间的内在联系计算句子级别的奖励值,并以最大化期望的总的奖励值为优化目标,采用策略梯度的强化学习方法对预训练的神经机器翻译模型参数进行更新,从而得到训练好的神经机器翻译模型;
使用训练好的神经机器翻译模型对给定的源语言句子进行翻译。
由上述本发明提供的技术方案可以看出,针对多模态单语语料,采用强化学习的方法,通过图片和对应文字描述之间的语义联系定义奖励的计算方法,从而实现对神经机器翻译模型的建模和训练,最终实现零平行语料多模态的神经机器翻译,使这种情况下翻译结果更加准确。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种零平行语料多模态神经机器翻译方法的流程图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种零平行语料多模态神经机器翻译方法,如图1所示,其主要包括如下步骤:
步骤11、利用带有相应图片信息的源语言和目标语言单语语料,对预先构建的神经机器翻译模型进行预训练。
本发明实施例中,所述带有相应图片信息的源语言和目标语言单语语料分别记为DZ,X和DZ',Y
Figure BDA0002105323680000031
Figure BDA0002105323680000032
其中,X(m)为源语言单语语料中的句子,m为句子的序号,Z(m)为句子X(m)对应的图片,M为源语言单语语料中的句子数量;X(n)为目标语言单语语料中的句子,n为句子的序号,Z(n)为句子X(n)对应的图片,N为目标语言单语语料中的句子数量。
所述神经机器翻译模型表示为Pθ(Y|X);其中X表示源语言单语语料中的句子,Y表示目标语言单语语料中的句子,θ为神经机器翻译模型的参数。
本发明实施例,根据源语言和目标语言单语语料中的图片是否重合,即对于一张图片,是否同时具有源语言和目标语言两种描述,分别采取不同的策略对预先构建的神经机器翻译模型进行预训练;具体来说:
1)若图片不重合,即对于一张图片,只有源语言的描述或者目标语言的描述,则利用源语言或者目标语言单语语料生成伪平行语料对预先构建的神经机器翻译模型进行预训练;主要包括:
使用预训练的目标语言的图片描述模型
Figure BDA0002105323680000033
结合语料DZ,X中的图片生成相应的目标语言的描述句子,从而与语料DZ,X中的相应图片的源语言描述句子形成伪平行语料,从而对预先构建的神经机器翻译模型进行预训练。
或者,使用预训练的源语言的图片描述模型
Figure BDA0002105323680000034
结合语料DZ',Y中的图片生成相应的源语言的描述句子,从而与语料DZ',Y中的相应图片的目标语言描述句子形成伪平行语料,从而对预先构建的神经机器翻译模型进行预训练。
2)若图片重合,即对于一张图片,既有源语言的描述又有目标语言的描述,则利用源语言与目标语言单语语料生成平行语料对预先构建的神经机器翻译模型进行预训练;主要包括:
将一张图片对应的任意一对源语言-目标语言的句子看作是对应的翻译,从而得到平行语料。
示例性的,可以使用极大似然估计的方法进行预训练,预训练阶段的优化目标为:
Figure BDA0002105323680000035
其中,DX,Y为生成的伪平行语料或平行语料。
本发明实施例中,源语言的图片描述模型
Figure BDA0002105323680000041
以及目标语言的图片描述模型
Figure BDA0002105323680000042
均为带有注意力机制的图片描述模型,二者均采用极大似然估计的方法进行预训练:
Figure BDA0002105323680000043
Figure BDA0002105323680000044
其中,ΦZ→X和ΦZ'→Y分别表示源语言和目标语言的图片描述模型的参数。
步骤12、使用预训练的神经机器翻译模型将源语言中的句子翻译为目标语言的句子,根据翻译得到的句子与对应图片之间的内在联系计算句子级别的奖励值,并以最大化期望的总的奖励值为优化目标,采用策略梯度的强化学习方法对预训练的神经机器翻译模型参数进行更新,从而得到训练好的神经机器翻译模型。
采用策略梯度的强化学习方法对模型参数进行更新,在学习过程中,神经机器翻译模型Pθ(Y|X)为智能体,不断地与环境进行交互,智能体的参数θ定义了策略,策略的执行使得智能体采取一步动作;在以翻译模型为智能体的情况下,一步动作为模型在每个时间点所生成的单词;在采取了一步动作之后,智能体会更新它的状态;对源语言的单语语料DZ,X中的任意句子X,使用神经机器翻译模型Pθ(Y|X)将句子X翻译为目标语言的句子
Figure BDA0002105323680000045
即智能体生成一个完整的序列;针对生成的完整序列产生一个奖励
Figure BDA0002105323680000046
强化学习的训练目标即为最大化期望的总的奖励。
具体而言,本发明实施例,根据句子
Figure BDA0002105323680000047
与句子X对应的图片Z之间的内在联系,计算相应的奖励值
Figure BDA0002105323680000048
奖励值
Figure BDA0002105323680000049
采用如下任一种方式进行计算,下述两种方式计算得到的奖励值分别记为
Figure BDA00021053236800000410
Figure BDA00021053236800000411
第一种:利用带有注意力机制的目标语言的图片描述模型
Figure BDA00021053236800000412
来计算给定源语言句子X相应图片Z的情况下,生成目标语言的句子
Figure BDA00021053236800000413
的概率,计算结果作为奖励值:
Figure BDA00021053236800000414
其中,
Figure BDA00021053236800000415
中的Y表示目标语言单语语料中的句子,Z'表示句子Y对应的图片,ΦZ'→Y表示目标语言的图片描述模型的参数;
第二种:将源语言的单语语料中句子X与翻译得到的句子
Figure BDA00021053236800000416
分别表示为X=(x1,x2,...,xS)和
Figure BDA0002105323680000051
其中,S和T分别是句子X和句子
Figure BDA0002105323680000052
的长度;
使用预训练的卷积神经网络模型提取图片Z的特征,并将图片Z表示为特征矩阵Z=(z1,z2,...,zL),L表示特征数量,特征矩阵每一列都为一个特征向量,代表图片中一个栅格的特征;
利用带有注意力机制的图片描述模型
Figure BDA0002105323680000053
Figure BDA0002105323680000054
对于给句子X、句子
Figure BDA0002105323680000055
以及图片Z分别使用两个图片描述模型进行正向计算,并根据计算得到的模型权重中的注意力机制部分,分别得到句子X和句子
Figure BDA0002105323680000056
对于图片的注意力权重
Figure BDA0002105323680000057
Figure BDA0002105323680000058
其中,
Figure BDA0002105323680000059
表示带有注意力机制的源语言的图片描述模型,ΦZ→X表示源语言的图片描述模型的参数;
Figure BDA00021053236800000510
Figure BDA00021053236800000511
均为L维的向量,各自代表当前单词xs和yt关于图片每一列特征的注意力向量;
分别计算注意力权重
Figure BDA00021053236800000512
Figure BDA00021053236800000513
中每一列向量
Figure BDA00021053236800000514
Figure BDA00021053236800000515
的加和:
Figure BDA00021053236800000516
Figure BDA00021053236800000517
由于两个句子的长度S和T无法保证是相等的,为了使
Figure BDA00021053236800000518
Figure BDA00021053236800000519
可以比较,将
Figure BDA00021053236800000520
Figure BDA00021053236800000521
对应的正则化为
Figure BDA00021053236800000522
Figure BDA00021053236800000523
使两个句子的长度相等,从而计算奖励值:
Figure BDA00021053236800000524
其中,distance表示计算余弦距离。
给定单语语料
Figure BDA00021053236800000525
以最大化期望的总的奖励值为优化目标,则训练目标为:
Figure BDA00021053236800000526
其中,K代表生成的所有可能的候选目标语言句子的空间;X(m)为源语言单语语料中的句子,M为源语言单语语料中的句子数量;
由于所有可能的候选句子的空间是非常庞大的,目标函数ORL无法准确计算;于是,利用Pθ(Y|X)对K进行一次采样得到一个目标语言句子
Figure BDA00021053236800000527
并对目标函数ORL中的期望值进行估计,则神经机器翻译模型的参数θ的梯度如下:
Figure BDA0002105323680000061
由于仅使用一次采样得到的
Figure BDA0002105323680000062
对翻译模型参数θ的梯度进行估计,此估计值有着较大的方差,为了减小方差,在计算得到的奖励值中减去一个平均奖励值b,得到翻译模型参数θ的梯度如下:
Figure BDA0002105323680000063
为了使强化学习的训练过程更加稳定,将预训练阶段的优化目标L(θ)记为OMLE,并强化学习的目标进行线性的结合,最终的训练目标为:
Ocom=(1-α)×OMLE+α×ORL
其中,α为取值在0到1之间的参数;
采用梯度下降的更新算法,在开始第一轮迭代之前,初始化延迟的策略Pθ′,使θ′=θ;在每一轮迭代中,利用延迟的策略Pθ′进行采样,并根据训练目标对神经机器翻译模型的参数θ求偏导数,从而进行参数θ的更新;在一轮迭代末尾,更新延迟策略Pθ′的参数θ′,更新方式如下:
θ′=γθ+(1-γ)θ′;
其中,γ为控制延迟策略Pθ′的参数θ′更新速度的参数;
重复进行迭代直至神经机器翻译模型收敛,最终得到训练好的神经机器翻译模型。
步骤13、使用训练好的神经机器翻译模型对给定的源语言句子进行翻译。
通过上述步骤的处理,得到训练好的神经机器翻译模型,该神经机器翻译模型可以实现源语言至目标语言的翻译,因而,直接将源语言句子输入至训练好的神经机器翻译模型从而得到相应的目标语言句子。
本发明实施例上述方案,针对多模态单语语料,采用强化学习的方法,通过图片和对应文字描述之间的语义联系定义奖励的计算方法,从而实现对神经机器翻译模型的建模和训练,最终实现零平行语料多模态的神经机器翻译。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (8)

1.一种零平行语料多模态神经机器翻译方法,其特征在于,包括:
利用带有相应图片信息的源语言和目标语言单语语料,对预先构建的神经机器翻译模型进行预训练;
使用预训练的神经机器翻译模型将源语言中的句子翻译为目标语言的句子,根据翻译得到的句子与对应图片之间的内在联系计算句子级别的奖励值,并以最大化期望的总的奖励值为优化目标,采用策略梯度的强化学习方法对预训练的神经机器翻译模型参数进行更新,从而得到训练好的神经机器翻译模型;
使用训练好的神经机器翻译模型对给定的源语言句子进行翻译。
2.根据权利要求1所述的一种零平行语料多模态神经机器翻译方法,其特征在于,所述带有相应图片信息的源语言和目标语言单语语料分别记为DZ,X和D′Z,Y
Figure FDA0002105323670000011
Figure FDA0002105323670000012
其中,X(m)为源语言单语语料中的句子,m为句子的序号,Z(m)为句子X(m)对应的图片,M为源语言单语语料中的句子数量;X(n)为目标语言单语语料中的句子,n为句子的序号,Z(n)为句子X(n)对应的图片,N为目标语言单语语料中的句子数量;
根据源语言和目标语言单语语料中的图片是否重合,分别采取不同的策略对预先构建的神经机器翻译模型进行预训练;其中:若图片不重合,则利用源语言或者目标语言单语语料生成伪平行语料对预先构建的神经机器翻译模型进行预训练;若图片重合,则利用源语言与目标语言单语语料生成平行语料对预先构建的神经机器翻译模型进行预训练。
3.根据权利要求2所述的一种零平行语料多模态神经机器翻译方法,其特征在于,所述神经机器翻译模型表示为Pθ(Y|X);其中X表示源语言单语语料中的句子,Y表示目标语言单语语料中的句子,θ为神经机器翻译模型的参数;
使用极大似然估计的方法进行预训练,预训练阶段的优化目标为:
Figure FDA0002105323670000013
其中,DX,Y为生成的伪平行语料或平行语料。
4.根据权利要求2所述的一种零平行语料多模态神经机器翻译方法,其特征在于,
若DZ,X和DZ',Y中的图片不重合,即对于一张图片,只有源语言的描述或者目标语言的描述,则使用预训练的目标语言的图片描述模型
Figure FDA0002105323670000021
结合语料DZ,X中的图片生成相应的目标语言的描述句子,从而与语料DZ,X中的相应图片的源语言描述句子形成伪平行语料;或者,使用预训练的源语言的图片描述模型
Figure FDA0002105323670000022
集合语料DZ',Y中的图片生成相应的源语言的描述句子,从而与语料DZ',Y中的相应图片的目标语言描述句子形成伪平行语料;源语言的图片描述模型
Figure FDA0002105323670000023
以及目标语言的图片描述模型
Figure FDA0002105323670000024
均为带有注意力机制的图片描述模型,ΦZ→X和ΦZ'→Y分别表示源语言和目标语言的图片描述模型的参数;
若DZ,X和DZ',Y中的图片重合,即对于一张图片,既有源语言的描述又有目标语言的描述,则将一张图片对应的任意一对源语言-目标语言的句子看作是对应的翻译,从而得到平行语料。
5.根据权利要求4所述的一种零平行语料多模态神经机器翻译方法,其特征在于,所述源语言的图片描述模型
Figure FDA0002105323670000025
以及目标语言的图片描述模型
Figure FDA0002105323670000026
均采用极大似然估计的方法进行预训练:
Figure FDA0002105323670000027
Figure FDA0002105323670000028
6.根据权利要求1所述的一种零平行语料多模态神经机器翻译方法,其特征在于,所述使用预训练的神经机器翻译模型将源语言中的句子翻译为目标语言的句子,根据翻译得到的句子与对应图片之间的内在联系计算句子级别的奖励值包括:
对于源语言的单语语料DZ,X中的任意句子X,使用预训练的神经机器翻译模型Pθ(Y|X)将句子X翻译为目标语言的句子
Figure FDA0002105323670000029
再根据句子
Figure FDA00021053236700000210
与句子X对应的图片Z之间的内在联系,计算相应的奖励值
Figure FDA00021053236700000211
7.根据权利要求6所述的一种零平行语料多模态神经机器翻译方法,其特征在于,奖励值
Figure FDA00021053236700000212
采用如下任一种方式进行计算,下述两种方式计算得到的奖励值分别记为
Figure FDA00021053236700000213
Figure FDA00021053236700000214
第一种:利用带有注意力机制的目标语言的图片描述模型
Figure FDA00021053236700000215
来计算给定源语言句子X相应图片Z的情况下,生成目标语言的句子
Figure FDA00021053236700000216
的概率,计算结果作为奖励值:
Figure FDA0002105323670000031
其中,
Figure FDA0002105323670000032
中的Y表示目标语言单语语料中的句子,Z'表示句子Y对应的图片,ΦZ'→Y表示目标语言的图片描述模型的参数;
第二种:将源语言的单语语料中句子X与翻译得到的句子
Figure FDA0002105323670000033
分别表示为X=(x1,x2,...,xS)和
Figure FDA0002105323670000034
其中,S和T分别是句子X和句子
Figure FDA0002105323670000035
的长度;
使用预训练的卷积神经网络模型提取图片Z的特征,并将图片Z表示为特征矩阵Z=(z1,z2,...,zL),L表示特征数量,特征矩阵每一列都为一个特征向量,代表图片中一个栅格的特征;
利用带有注意力机制的图片描述模型
Figure FDA0002105323670000036
Figure FDA0002105323670000037
分别得到句子X和句子
Figure FDA0002105323670000038
对于图片的注意力权重
Figure FDA0002105323670000039
Figure FDA00021053236700000310
其中,
Figure FDA00021053236700000311
表示带有注意力机制的源语言的图片描述模型,ΦZ→X表示源语言的图片描述模型的参数;
Figure FDA00021053236700000312
Figure FDA00021053236700000313
均为L维的向量,各自代表当前单词xs和yt关于图片每一列特征的注意力向量;
分别计算注意力权重
Figure FDA00021053236700000314
Figure FDA00021053236700000315
中每一列向量
Figure FDA00021053236700000316
Figure FDA00021053236700000317
的加和:
Figure FDA00021053236700000318
Figure FDA00021053236700000319
Figure FDA00021053236700000320
Figure FDA00021053236700000321
对应的正则化为
Figure FDA00021053236700000322
Figure FDA00021053236700000323
使两个句子的长度相等,从而计算奖励值:
Figure FDA00021053236700000324
其中,distance表示计算余弦距离。
8.根据权利要求6所述的一种零平行语料多模态神经机器翻译方法,其特征在于,
以最大化期望的总的奖励值为优化目标,则训练目标为:
Figure FDA00021053236700000325
其中,K代表生成的所有可能的候选目标语言句子的空间;X(m)为源语言单语语料中的句子,M为源语言单语语料中的句子数量;
利用神经机器翻译模型Pθ(Y|X)对K进行一次采样得到一个目标语言句子
Figure FDA0002105323670000042
并对目标函数ORL中的期望值进行估计,则神经机器翻译模型的参数θ的梯度如下:
Figure FDA0002105323670000041
其中,b为平均奖励值;
将预训练阶段的优化目标L(θ)记为OMLE,并与强化学习的目标进行线性的结合,最终的训练目标为:
Ocom=(1-α)×OMLE+α×ORL
其中,α为取值在0到1之间的参数;
采用梯度下降的更新算法,在开始第一轮迭代之前,初始化延迟的策略Pθ′,使θ′=θ;在每一轮迭代中,利用延迟的策略Pθ′进行采样,并根据训练目标对神经机器翻译模型的参数θ求偏导数,从而进行参数θ的更新;在一轮迭代末尾,更新延迟策略Pθ′的参数θ′,更新方式如下:
θ′=γθ+(1-γ)θ′;
其中,γ为控制延迟策略Pθ′的参数θ′更新速度的参数;
重复进行迭代直至神经机器翻译模型收敛,最终得到训练好的神经机器翻译模型。
CN201910550612.0A 2019-06-24 2019-06-24 零平行语料多模态神经机器翻译方法 Active CN110245364B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910550612.0A CN110245364B (zh) 2019-06-24 2019-06-24 零平行语料多模态神经机器翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910550612.0A CN110245364B (zh) 2019-06-24 2019-06-24 零平行语料多模态神经机器翻译方法

Publications (2)

Publication Number Publication Date
CN110245364A CN110245364A (zh) 2019-09-17
CN110245364B true CN110245364B (zh) 2022-10-28

Family

ID=67889143

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910550612.0A Active CN110245364B (zh) 2019-06-24 2019-06-24 零平行语料多模态神经机器翻译方法

Country Status (1)

Country Link
CN (1) CN110245364B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929532B (zh) * 2019-11-21 2023-03-21 腾讯科技(深圳)有限公司 数据处理方法、装置、设备及存储介质
CN111178094B (zh) * 2019-12-20 2023-04-07 沈阳雅译网络技术有限公司 一种基于预训练的稀缺资源神经机器翻译训练方法
CN111597830A (zh) * 2020-05-20 2020-08-28 腾讯科技(深圳)有限公司 基于多模态机器学习的翻译方法、装置、设备及存储介质
CN112016604B (zh) * 2020-08-19 2021-03-26 华东师范大学 一种运用视觉信息的零资源机器翻译方法
CN112016332B (zh) * 2020-08-26 2021-05-07 华东师范大学 基于变分推理和多任务学习的多模态机器翻译方法
CN113343011B (zh) * 2021-06-19 2023-03-24 哈尔滨工业大学 一种基于两阶段注意力的多模态信息机器翻译方法
CN113657122B (zh) * 2021-09-07 2023-12-15 内蒙古工业大学 一种融合迁移学习的伪平行语料库的蒙汉机器翻译方法
CN114386437B (zh) * 2022-01-13 2022-09-27 延边大学 基于跨语言预训练模型的中朝翻译质量估计方法和系统
CN115640815A (zh) * 2022-11-10 2023-01-24 北京有竹居网络技术有限公司 翻译方法、装置、可读介质及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2661535A1 (en) * 2006-08-18 2008-02-21 National Research Council Of Canada Means and method for training a statistical machine translation system
CN108829684A (zh) * 2018-05-07 2018-11-16 内蒙古工业大学 一种基于迁移学习策略的蒙汉神经机器翻译方法
CN108920468A (zh) * 2018-05-07 2018-11-30 内蒙古工业大学 一种基于强化学习的蒙汉双语种互译方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2661535A1 (en) * 2006-08-18 2008-02-21 National Research Council Of Canada Means and method for training a statistical machine translation system
CN108829684A (zh) * 2018-05-07 2018-11-16 内蒙古工业大学 一种基于迁移学习策略的蒙汉神经机器翻译方法
CN108920468A (zh) * 2018-05-07 2018-11-30 内蒙古工业大学 一种基于强化学习的蒙汉双语种互译方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于句子级BLEU指标挑选数据的半监督神经机器翻译;叶绍林等;《模式识别与人工智能》;20171015(第10期);全文 *
基于数据增强技术的神经机器翻译;蔡子龙等;《中文信息学报》;20180715(第07期);全文 *

Also Published As

Publication number Publication date
CN110245364A (zh) 2019-09-17

Similar Documents

Publication Publication Date Title
CN110245364B (zh) 零平行语料多模态神经机器翻译方法
CN111832501B (zh) 一种面向卫星在轨应用的遥感影像文本智能描述方法
CN107480196B (zh) 一种基于动态融合机制的多模态词汇表示方法
US11803731B2 (en) Neural architecture search with weight sharing
CN110162766B (zh) 词向量更新方法和装置
CN109871542B (zh) 一种文本知识提取方法、装置、设备及存储介质
CN110837548A (zh) 答案匹配方法、装置、电子设备及存储介质
US20220300718A1 (en) Method, system, electronic device and storage medium for clarification question generation
CN112580369B (zh) 语句复述方法、训练语句复述模型的方法及其装置
CN113408430B (zh) 基于多级策略和深度强化学习框架的图像中文描述系统及方法
CN110084250B (zh) 一种图像描述的方法及系统
CN110807069B (zh) 一种基于强化学习算法的实体关系联合抽取模型构建方法
US20220383119A1 (en) Granular neural network architecture search over low-level primitives
CN112116685A (zh) 基于多粒度奖励机制的多注意力融合网络的图像字幕生成方法
US20220188636A1 (en) Meta pseudo-labels
CN111832699A (zh) 用于神经网络的计算高效富于表达的输出层
CN111161238A (zh) 图像质量评价方法及装置、电子设备、存储介质
CN112084301A (zh) 文本修正模型的训练方法及装置、文本修正方法及装置
CN111291558A (zh) 一种基于非成对学习的图像描述自动评价方法
CN113869005A (zh) 一种基于语句相似度的预训练模型方法和系统
CN116757195B (zh) 一种基于提示学习的隐性情感识别方法
JP6586026B2 (ja) 単語ベクトル学習装置、自然言語処理装置、方法、及びプログラム
CN110852066B (zh) 一种基于对抗训练机制的多语言实体关系抽取方法及系统
CN114757310B (zh) 情感识别模型及其训练方法、装置、设备及可读存储介质
CN116341515A (zh) 一种面向对比学习的动态课程的句子表示方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant