CN110245364B - 零平行语料多模态神经机器翻译方法 - Google Patents
零平行语料多模态神经机器翻译方法 Download PDFInfo
- Publication number
- CN110245364B CN110245364B CN201910550612.0A CN201910550612A CN110245364B CN 110245364 B CN110245364 B CN 110245364B CN 201910550612 A CN201910550612 A CN 201910550612A CN 110245364 B CN110245364 B CN 110245364B
- Authority
- CN
- China
- Prior art keywords
- sentence
- machine translation
- language
- neural machine
- picture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种零平行语料多模态神经机器翻译方法,包括:利用带有相应图片信息的源语言和目标语言单语语料,对预先构建的神经机器翻译模型进行预训练;使用预训练的神经机器翻译模型将源语言中的句子翻译为目标语言的句子,根据翻译得到的句子与对应图片之间的内在联系计算句子级别的奖励值,并以最大化期望的总的奖励值为优化目标,采用策略梯度的强化学习方法对预训练的神经机器翻译模型参数进行更新,从而得到训练好的神经机器翻译模型;使用训练好的神经机器翻译模型对给定的源语言句子进行翻译。该方法通过利用图片与文字的内在联系,可以建立零资源语言对的神经机器翻译模型。
Description
技术领域
本发明涉及机器翻译技术领域,尤其涉及一种零平行语料多模态神经机器翻译方法。
背景技术
端到端的神经机器翻译(以下简称神经机器翻译)近几年在国内外都取得了突飞猛进的发展。神经机器翻译摒弃了统计机器翻译中繁琐的结构和复杂的特征设计,直接把平行语料交给神经网络,从而完成一个完整的翻译系统的训练。
在神经机器翻译中,即使是一个最简单的单层模型也有着大量的参数(通常为数千万的参数)需要优化,而在机器学习中训练一个具有大量参数的复杂模型就需要大量的训练数据。随着神经机器翻译的模型设计越来越复杂,模型的深度不断增加,相应地就需要更多的训练数据。然而实际中高质量的平行语料的获取需要大量的人工翻译,是极为耗时又昂贵的。因此,如何解决在没有平行语料,即零平行语料资源下的神经机器翻译问题是神经机器翻译亟需解决的一个重要问题。
围绕这个研究问题,研究者们提出了多种解决方法。其中,以单语语料相对应的图片等视觉信息为中轴构建机器翻译模型的方法是为零平行语料资源语言对构建翻译模型的一种有效方式。相关研究主要将图片当作两种语言的中轴,通过将图片用图片描述模型进行文字描述而形成平行的语料来训练翻译模型,而忽略了图片与文字信息在语义上的内在联系。上述方法虽然能通过构造平行语料来实现神经机器翻译模型的训练,但是由于图片描述模型效果有限,其产生的错误描述将会导致形成低质量的平行语料训练数据,从而影响训练的神经机器翻译模型的质量,最终导致翻译结果的准确度较低。
发明内容
本发明的目的是提供一种零平行语料多模态神经机器翻译方法,通过利用图片与文字的内在联系,可以建立零平行语料多模态神经机器翻译模型。
本发明的目的是通过以下技术方案实现的:
一种零平行语料多模态神经机器翻译方法,包括:
利用带有相应图片信息的源语言和目标语言单语语料,对预先构建的神经机器翻译模型进行预训练;
使用预训练的神经机器翻译模型将源语言中的句子翻译为目标语言的句子,根据翻译得到的句子与对应图片之间的内在联系计算句子级别的奖励值,并以最大化期望的总的奖励值为优化目标,采用策略梯度的强化学习方法对预训练的神经机器翻译模型参数进行更新,从而得到训练好的神经机器翻译模型;
使用训练好的神经机器翻译模型对给定的源语言句子进行翻译。
由上述本发明提供的技术方案可以看出,针对多模态单语语料,采用强化学习的方法,通过图片和对应文字描述之间的语义联系定义奖励的计算方法,从而实现对神经机器翻译模型的建模和训练,最终实现零平行语料多模态的神经机器翻译,使这种情况下翻译结果更加准确。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种零平行语料多模态神经机器翻译方法的流程图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种零平行语料多模态神经机器翻译方法,如图1所示,其主要包括如下步骤:
步骤11、利用带有相应图片信息的源语言和目标语言单语语料,对预先构建的神经机器翻译模型进行预训练。
本发明实施例中,所述带有相应图片信息的源语言和目标语言单语语料分别记为DZ,X和DZ',Y:
其中,X(m)为源语言单语语料中的句子,m为句子的序号,Z(m)为句子X(m)对应的图片,M为源语言单语语料中的句子数量;X(n)为目标语言单语语料中的句子,n为句子的序号,Z(n)为句子X(n)对应的图片,N为目标语言单语语料中的句子数量。
所述神经机器翻译模型表示为Pθ(Y|X);其中X表示源语言单语语料中的句子,Y表示目标语言单语语料中的句子,θ为神经机器翻译模型的参数。
本发明实施例,根据源语言和目标语言单语语料中的图片是否重合,即对于一张图片,是否同时具有源语言和目标语言两种描述,分别采取不同的策略对预先构建的神经机器翻译模型进行预训练;具体来说:
1)若图片不重合,即对于一张图片,只有源语言的描述或者目标语言的描述,则利用源语言或者目标语言单语语料生成伪平行语料对预先构建的神经机器翻译模型进行预训练;主要包括:
或者,使用预训练的源语言的图片描述模型结合语料DZ',Y中的图片生成相应的源语言的描述句子,从而与语料DZ',Y中的相应图片的目标语言描述句子形成伪平行语料,从而对预先构建的神经机器翻译模型进行预训练。
2)若图片重合,即对于一张图片,既有源语言的描述又有目标语言的描述,则利用源语言与目标语言单语语料生成平行语料对预先构建的神经机器翻译模型进行预训练;主要包括:
将一张图片对应的任意一对源语言-目标语言的句子看作是对应的翻译,从而得到平行语料。
示例性的,可以使用极大似然估计的方法进行预训练,预训练阶段的优化目标为:
其中,DX,Y为生成的伪平行语料或平行语料。
其中,ΦZ→X和ΦZ'→Y分别表示源语言和目标语言的图片描述模型的参数。
步骤12、使用预训练的神经机器翻译模型将源语言中的句子翻译为目标语言的句子,根据翻译得到的句子与对应图片之间的内在联系计算句子级别的奖励值,并以最大化期望的总的奖励值为优化目标,采用策略梯度的强化学习方法对预训练的神经机器翻译模型参数进行更新,从而得到训练好的神经机器翻译模型。
采用策略梯度的强化学习方法对模型参数进行更新,在学习过程中,神经机器翻译模型Pθ(Y|X)为智能体,不断地与环境进行交互,智能体的参数θ定义了策略,策略的执行使得智能体采取一步动作;在以翻译模型为智能体的情况下,一步动作为模型在每个时间点所生成的单词;在采取了一步动作之后,智能体会更新它的状态;对源语言的单语语料DZ,X中的任意句子X,使用神经机器翻译模型Pθ(Y|X)将句子X翻译为目标语言的句子即智能体生成一个完整的序列;针对生成的完整序列产生一个奖励强化学习的训练目标即为最大化期望的总的奖励。
使用预训练的卷积神经网络模型提取图片Z的特征,并将图片Z表示为特征矩阵Z=(z1,z2,...,zL),L表示特征数量,特征矩阵每一列都为一个特征向量,代表图片中一个栅格的特征;
利用带有注意力机制的图片描述模型和对于给句子X、句子以及图片Z分别使用两个图片描述模型进行正向计算,并根据计算得到的模型权重中的注意力机制部分,分别得到句子X和句子对于图片的注意力权重和其中,表示带有注意力机制的源语言的图片描述模型,ΦZ→X表示源语言的图片描述模型的参数;和均为L维的向量,各自代表当前单词xs和yt关于图片每一列特征的注意力向量;
其中,distance表示计算余弦距离。
其中,K代表生成的所有可能的候选目标语言句子的空间;X(m)为源语言单语语料中的句子,M为源语言单语语料中的句子数量;
由于所有可能的候选句子的空间是非常庞大的,目标函数ORL无法准确计算;于是,利用Pθ(Y|X)对K进行一次采样得到一个目标语言句子并对目标函数ORL中的期望值进行估计,则神经机器翻译模型的参数θ的梯度如下:
为了使强化学习的训练过程更加稳定,将预训练阶段的优化目标L(θ)记为OMLE,并强化学习的目标进行线性的结合,最终的训练目标为:
Ocom=(1-α)×OMLE+α×ORL
其中,α为取值在0到1之间的参数;
采用梯度下降的更新算法,在开始第一轮迭代之前,初始化延迟的策略Pθ′,使θ′=θ;在每一轮迭代中,利用延迟的策略Pθ′进行采样,并根据训练目标对神经机器翻译模型的参数θ求偏导数,从而进行参数θ的更新;在一轮迭代末尾,更新延迟策略Pθ′的参数θ′,更新方式如下:
θ′=γθ+(1-γ)θ′;
其中,γ为控制延迟策略Pθ′的参数θ′更新速度的参数;
重复进行迭代直至神经机器翻译模型收敛,最终得到训练好的神经机器翻译模型。
步骤13、使用训练好的神经机器翻译模型对给定的源语言句子进行翻译。
通过上述步骤的处理,得到训练好的神经机器翻译模型,该神经机器翻译模型可以实现源语言至目标语言的翻译,因而,直接将源语言句子输入至训练好的神经机器翻译模型从而得到相应的目标语言句子。
本发明实施例上述方案,针对多模态单语语料,采用强化学习的方法,通过图片和对应文字描述之间的语义联系定义奖励的计算方法,从而实现对神经机器翻译模型的建模和训练,最终实现零平行语料多模态的神经机器翻译。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (8)
1.一种零平行语料多模态神经机器翻译方法,其特征在于,包括:
利用带有相应图片信息的源语言和目标语言单语语料,对预先构建的神经机器翻译模型进行预训练;
使用预训练的神经机器翻译模型将源语言中的句子翻译为目标语言的句子,根据翻译得到的句子与对应图片之间的内在联系计算句子级别的奖励值,并以最大化期望的总的奖励值为优化目标,采用策略梯度的强化学习方法对预训练的神经机器翻译模型参数进行更新,从而得到训练好的神经机器翻译模型;
使用训练好的神经机器翻译模型对给定的源语言句子进行翻译。
2.根据权利要求1所述的一种零平行语料多模态神经机器翻译方法,其特征在于,所述带有相应图片信息的源语言和目标语言单语语料分别记为DZ,X和D′Z,Y:
其中,X(m)为源语言单语语料中的句子,m为句子的序号,Z(m)为句子X(m)对应的图片,M为源语言单语语料中的句子数量;X(n)为目标语言单语语料中的句子,n为句子的序号,Z(n)为句子X(n)对应的图片,N为目标语言单语语料中的句子数量;
根据源语言和目标语言单语语料中的图片是否重合,分别采取不同的策略对预先构建的神经机器翻译模型进行预训练;其中:若图片不重合,则利用源语言或者目标语言单语语料生成伪平行语料对预先构建的神经机器翻译模型进行预训练;若图片重合,则利用源语言与目标语言单语语料生成平行语料对预先构建的神经机器翻译模型进行预训练。
4.根据权利要求2所述的一种零平行语料多模态神经机器翻译方法,其特征在于,
若DZ,X和DZ',Y中的图片不重合,即对于一张图片,只有源语言的描述或者目标语言的描述,则使用预训练的目标语言的图片描述模型结合语料DZ,X中的图片生成相应的目标语言的描述句子,从而与语料DZ,X中的相应图片的源语言描述句子形成伪平行语料;或者,使用预训练的源语言的图片描述模型集合语料DZ',Y中的图片生成相应的源语言的描述句子,从而与语料DZ',Y中的相应图片的目标语言描述句子形成伪平行语料;源语言的图片描述模型以及目标语言的图片描述模型均为带有注意力机制的图片描述模型,ΦZ→X和ΦZ'→Y分别表示源语言和目标语言的图片描述模型的参数;
若DZ,X和DZ',Y中的图片重合,即对于一张图片,既有源语言的描述又有目标语言的描述,则将一张图片对应的任意一对源语言-目标语言的句子看作是对应的翻译,从而得到平行语料。
使用预训练的卷积神经网络模型提取图片Z的特征,并将图片Z表示为特征矩阵Z=(z1,z2,...,zL),L表示特征数量,特征矩阵每一列都为一个特征向量,代表图片中一个栅格的特征;
利用带有注意力机制的图片描述模型和分别得到句子X和句子对于图片的注意力权重和其中,表示带有注意力机制的源语言的图片描述模型,ΦZ→X表示源语言的图片描述模型的参数;和均为L维的向量,各自代表当前单词xs和yt关于图片每一列特征的注意力向量;
其中,distance表示计算余弦距离。
8.根据权利要求6所述的一种零平行语料多模态神经机器翻译方法,其特征在于,
以最大化期望的总的奖励值为优化目标,则训练目标为:
其中,K代表生成的所有可能的候选目标语言句子的空间;X(m)为源语言单语语料中的句子,M为源语言单语语料中的句子数量;
其中,b为平均奖励值;
将预训练阶段的优化目标L(θ)记为OMLE,并与强化学习的目标进行线性的结合,最终的训练目标为:
Ocom=(1-α)×OMLE+α×ORL
其中,α为取值在0到1之间的参数;
采用梯度下降的更新算法,在开始第一轮迭代之前,初始化延迟的策略Pθ′,使θ′=θ;在每一轮迭代中,利用延迟的策略Pθ′进行采样,并根据训练目标对神经机器翻译模型的参数θ求偏导数,从而进行参数θ的更新;在一轮迭代末尾,更新延迟策略Pθ′的参数θ′,更新方式如下:
θ′=γθ+(1-γ)θ′;
其中,γ为控制延迟策略Pθ′的参数θ′更新速度的参数;
重复进行迭代直至神经机器翻译模型收敛,最终得到训练好的神经机器翻译模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910550612.0A CN110245364B (zh) | 2019-06-24 | 2019-06-24 | 零平行语料多模态神经机器翻译方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910550612.0A CN110245364B (zh) | 2019-06-24 | 2019-06-24 | 零平行语料多模态神经机器翻译方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110245364A CN110245364A (zh) | 2019-09-17 |
CN110245364B true CN110245364B (zh) | 2022-10-28 |
Family
ID=67889143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910550612.0A Active CN110245364B (zh) | 2019-06-24 | 2019-06-24 | 零平行语料多模态神经机器翻译方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110245364B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929532B (zh) * | 2019-11-21 | 2023-03-21 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备及存储介质 |
CN111178094B (zh) * | 2019-12-20 | 2023-04-07 | 沈阳雅译网络技术有限公司 | 一种基于预训练的稀缺资源神经机器翻译训练方法 |
CN111597830A (zh) * | 2020-05-20 | 2020-08-28 | 腾讯科技(深圳)有限公司 | 基于多模态机器学习的翻译方法、装置、设备及存储介质 |
CN112016604B (zh) * | 2020-08-19 | 2021-03-26 | 华东师范大学 | 一种运用视觉信息的零资源机器翻译方法 |
CN112016332B (zh) * | 2020-08-26 | 2021-05-07 | 华东师范大学 | 基于变分推理和多任务学习的多模态机器翻译方法 |
CN113343011B (zh) * | 2021-06-19 | 2023-03-24 | 哈尔滨工业大学 | 一种基于两阶段注意力的多模态信息机器翻译方法 |
CN113657122B (zh) * | 2021-09-07 | 2023-12-15 | 内蒙古工业大学 | 一种融合迁移学习的伪平行语料库的蒙汉机器翻译方法 |
CN114386437B (zh) * | 2022-01-13 | 2022-09-27 | 延边大学 | 基于跨语言预训练模型的中朝翻译质量估计方法和系统 |
CN115640815A (zh) * | 2022-11-10 | 2023-01-24 | 北京有竹居网络技术有限公司 | 翻译方法、装置、可读介质及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2661535A1 (en) * | 2006-08-18 | 2008-02-21 | National Research Council Of Canada | Means and method for training a statistical machine translation system |
CN108829684A (zh) * | 2018-05-07 | 2018-11-16 | 内蒙古工业大学 | 一种基于迁移学习策略的蒙汉神经机器翻译方法 |
CN108920468A (zh) * | 2018-05-07 | 2018-11-30 | 内蒙古工业大学 | 一种基于强化学习的蒙汉双语种互译方法 |
-
2019
- 2019-06-24 CN CN201910550612.0A patent/CN110245364B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2661535A1 (en) * | 2006-08-18 | 2008-02-21 | National Research Council Of Canada | Means and method for training a statistical machine translation system |
CN108829684A (zh) * | 2018-05-07 | 2018-11-16 | 内蒙古工业大学 | 一种基于迁移学习策略的蒙汉神经机器翻译方法 |
CN108920468A (zh) * | 2018-05-07 | 2018-11-30 | 内蒙古工业大学 | 一种基于强化学习的蒙汉双语种互译方法 |
Non-Patent Citations (2)
Title |
---|
基于句子级BLEU指标挑选数据的半监督神经机器翻译;叶绍林等;《模式识别与人工智能》;20171015(第10期);全文 * |
基于数据增强技术的神经机器翻译;蔡子龙等;《中文信息学报》;20180715(第07期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110245364A (zh) | 2019-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110245364B (zh) | 零平行语料多模态神经机器翻译方法 | |
CN111832501B (zh) | 一种面向卫星在轨应用的遥感影像文本智能描述方法 | |
CN107480196B (zh) | 一种基于动态融合机制的多模态词汇表示方法 | |
US11803731B2 (en) | Neural architecture search with weight sharing | |
CN110162766B (zh) | 词向量更新方法和装置 | |
CN109871542B (zh) | 一种文本知识提取方法、装置、设备及存储介质 | |
CN110837548A (zh) | 答案匹配方法、装置、电子设备及存储介质 | |
US20220300718A1 (en) | Method, system, electronic device and storage medium for clarification question generation | |
CN112580369B (zh) | 语句复述方法、训练语句复述模型的方法及其装置 | |
CN113408430B (zh) | 基于多级策略和深度强化学习框架的图像中文描述系统及方法 | |
CN110084250B (zh) | 一种图像描述的方法及系统 | |
CN110807069B (zh) | 一种基于强化学习算法的实体关系联合抽取模型构建方法 | |
US20220383119A1 (en) | Granular neural network architecture search over low-level primitives | |
CN112116685A (zh) | 基于多粒度奖励机制的多注意力融合网络的图像字幕生成方法 | |
US20220188636A1 (en) | Meta pseudo-labels | |
CN111832699A (zh) | 用于神经网络的计算高效富于表达的输出层 | |
CN111161238A (zh) | 图像质量评价方法及装置、电子设备、存储介质 | |
CN112084301A (zh) | 文本修正模型的训练方法及装置、文本修正方法及装置 | |
CN111291558A (zh) | 一种基于非成对学习的图像描述自动评价方法 | |
CN113869005A (zh) | 一种基于语句相似度的预训练模型方法和系统 | |
CN116757195B (zh) | 一种基于提示学习的隐性情感识别方法 | |
JP6586026B2 (ja) | 単語ベクトル学習装置、自然言語処理装置、方法、及びプログラム | |
CN110852066B (zh) | 一种基于对抗训练机制的多语言实体关系抽取方法及系统 | |
CN114757310B (zh) | 情感识别模型及其训练方法、装置、设备及可读存储介质 | |
CN116341515A (zh) | 一种面向对比学习的动态课程的句子表示方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |