CN115081464A - 一种由未来语境引导的神经机器翻译模型优化方法 - Google Patents

一种由未来语境引导的神经机器翻译模型优化方法 Download PDF

Info

Publication number
CN115081464A
CN115081464A CN202210774343.8A CN202210774343A CN115081464A CN 115081464 A CN115081464 A CN 115081464A CN 202210774343 A CN202210774343 A CN 202210774343A CN 115081464 A CN115081464 A CN 115081464A
Authority
CN
China
Prior art keywords
future
loss function
enc
hidden state
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210774343.8A
Other languages
English (en)
Inventor
黄艳
张添元
朱会东
陈明
范乃梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou University of Light Industry
Original Assignee
Zhengzhou University of Light Industry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou University of Light Industry filed Critical Zhengzhou University of Light Industry
Priority to CN202210774343.8A priority Critical patent/CN115081464A/zh
Publication of CN115081464A publication Critical patent/CN115081464A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明涉及机器学习技术领域,特别涉及一种由未来语境引导的神经机器翻译模型优化方法,包括以下步骤:部署深度学习环境,将预处理后的平行语料数据集输入到Transformer模型中进行训练;获取编码器最后输出的隐藏状态henc,将henc复制成两份,一份用于计算损失函数Lenc,另一份输入解码器;在解码器之后构建未来语境引导模块,得到未来语境引导模块输出的隐藏状态hfuture;结合hfuture和解码器输出的隐藏状态hdec进行第二次预测,并计算损失函数Lfuture;hfuture经过一层前馈神经层、残差连接和层归一化之后进行最后一次的预测,并计算损失函数Lfn;对Lenc、Lfuture和Lfn进行加权操作,之后进行反向传播,并使用Adam优化器更新模型参数。本发明通过未来语义信息引导编码器的字词预测,性能更高。

Description

一种由未来语境引导的神经机器翻译模型优化方法
技术领域
本发明涉及机器学习技术领域,特别涉及一种由未来语境引导的神经机器翻译模型优化方法。
背景技术
机器翻译是深度学习中的一个分支应用领域,拥有长足的发展历史。目前机器翻译的模型可以分为两类:基于循环神经网络(Recurrent Neural Network,RNN)的模型,以及基于Transformer的模型,二者都是序列到序列(编码器—解码器)的模型结构,编码器负责总结源语句的语义信息,解码器使用编码器的输出逐字生成目标语句。基于RNN的模型大多由GRU或者LSTM等神经网络单元结构组成,这类模型的特征是具有时序性,即每一层的输出是上一层的输入,这种特征保留了源语句的时序信息。但缺点是时序计算的约束,导致模型的训练和预测要消耗大量时间;另外待翻译的句子如果过长或者过于复杂,会导致语义信息丢失的问题。
谷歌提出了Transformer模型,该模型使用多头注意力机制(Multi-headAttention,MHA),使得在训练过程中模型能注意到每个词向量之间的相关性并有所侧重,避免语义丢失;使模型可以并行计算,提高训练的效率的同时减少了计算资源的消耗,使模型更加高效的得到效果更好的翻译质量。
自回归序列到序列的模型结构中,解码器获得源语句的语义信息,并逐字生成目标语句,但这一训练过程中无论是RNN模型还是Transformer模型,编码器不能通过未来的语义信息(未翻译的语句信息)来指导下一个时间步中字词的预测。
发明内容
基于此,有必要针对上述技术问题,提供一种由未来语境引导的神经机器翻译模型优化方法,以解决现有技术中训练过程中无论是RNN模型还是Transformer模型,编码器不能通过未来的语义信息(未翻译的语句信息)来指导下一个时间步中字词的预测的问题。
本发明提供了一种由未来语境引导的神经机器翻译模型优化方法方法,包括以下步骤:
步骤1:部署深度学习环境,对平行语料数据集进行预处理,将预处理后的平行语料数据集输入到Transformer模型中进行训练;
步骤2:获取Transformer模型的编码器最后输出的隐藏状态henc,将所述隐藏状态henc复制成两份,其中一份用于进行第一次预测,并计算损失函数Lenc,另一份输入至Transformer模型的解码器中;
步骤3:在Transformer的解码器之后构建未来语境引导模块,得到所述未来语境引导模块输出的隐藏状态hfuture;所述未来语境引导模块依次由MHA、残差连接、层归一化组成,MHA的输入为Q、K、V,其中Q为解码器输出的隐藏状态hdec,K和V均为编码器最后输出的隐藏状态henc;将MHA的输入Q记为
Figure BDA0003726065530000021
将MHA的输入K记为
Figure BDA0003726065530000022
将MHA的输入Q记为
Figure BDA0003726065530000023
步骤4:结合所述未来语境引导模块输出的隐藏状态hfuture以及Transformer的解码器输出的隐藏状态hdec进行第二次预测,并计算损失函数Lfuture
步骤5:所述未来语境引导模块输出的隐藏状态hfuture经过一层前馈神经层、残差连接和层归一化之后进行最后一次的预测,并计算损失函数Lfn
步骤6:对损失函数Lenc、损失函数Lfuture和损失函数Lfn进行加权操作,之后进行反向传播,并使用Adam优化器更新模型参数。
进一步的,所述步骤2中,将所述隐藏状态henc复制成两份,其中一份用于进行第一次预测,并计算损失函数Lenc包括:
所述隐藏状态henc经过全连接层linear和softmax之后进行预测得到:
Figure BDA0003726065530000024
其中,
Figure BDA0003726065530000025
为预测得到的结果;
通过损失函数计算Lenc
Figure BDA0003726065530000026
其中,y是目标语句,l为模型使用的损失函数,模型统一采用交叉熵损失函数。
进一步的,所述步骤3中,得到所述未来语境引导模块输出的隐藏状态hfuture的过程包括:
计算MHA的输出HK
将HK和原输入hdec进行残差连接,得到的输出进行层归一化,得到隐藏状态hfuture
进一步的,所述步骤3中,计算MHA的输出HK的公式如下:
Figure BDA0003726065530000027
Figure BDA0003726065530000031
Figure BDA0003726065530000032
其中,k是transformer相应模块的数量,αij是MHA的权重系数,表示生成第i个单词时,源语句中第j个单词的贡献值;n为源语句的长度;WQ、Wk和WV分别是MHA中Q、K和V对应的矩阵参数,d是词向量的维度,
Figure BDA0003726065530000033
是MHA在生成第i个单词时得到的结果。
进一步的,所述步骤4中,通过一层门控单元结合所述未来语境引导模块输出的隐藏状态hfuture以及Transformer的解码器输出的隐藏状态hdec
进一步的,所述步骤6中,对损失函数Lenc、损失函数Lfuture和损失函数Lfn进行加权操作包括:
利用如下公式进行加权操作:
L=Lfn+αLenc+βLfuture
其中,L为总损失函数,α为损失函数Lenc对应的权重,β为损失函数Lfuture对应的权重。
进一步的,所述步骤1中,预处理的过程包括:
使用WMT提供的平行语料数据集作为训练、验证以及测试语料;
使用mosesdecoder开源工具对数据集进行分词、标点符号规范化操作;
建立语料库字典,并按照词频大小进行排序,忽略词频较低的生僻词,并储存为二进制文件。
本发明的有益效果:本发明的由未来语境引导的神经机器翻译模型优化方法,设计了未来语境引导机制,并将其引入Transformer模型,通过未来语义信息引导编码器的字词预测,使翻译模型能够学习出精度更高的语句,提高了Transformer基础模型的性能。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的由未来语境引导的神经机器翻译模型结构示意图;
图2是本发明的由未来语境引导的神经机器翻译模型优化方法流程图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。为了说明本发明的技术方案,下面通过具体实施例来进行说明。
本实施例针对上述现有机器模型中存在的不足,基于Transformer模型,引入未来语境引导机制以优化模型性能。本实施例采用的技术方案主要有两点:
(1)在Transformer的解码器之后增加引导解码器进行预测的未来语境引导模块,并将解码器和编码器的输出当作该模块中MHA的输入。采用该方法的原因是:使用编码器输出中隐形存在的未来语义信息(未翻译的语句信息)能够有效地引导当前时间步解码器的预测;
(2)分别使用编码器输出的隐藏状态、未来语境引导模块的输出进行预测并计算损失函数,并和最后模型的损失函数进行加权相加。采用该方法的原因是:本方案中模型的学习需要参考不同阶段的预测结果共同引导,并且各损失函数的重要度并不相同,因此需要进行加权操作。
具体的,本实施例在Transformer模型的基础上,增加了未来语境引导模块,其模型结构如图1所示。
如图2所示,本实施例的由未来语境引导的神经机器翻译模型优化方法包括以下步骤:
步骤1:部署深度学习环境,对平行语料数据集进行预处理并输入到Transformer模型中进行训练;具体预处理的过程包括:
步骤1.1:使用WMT提供的平行语料数据集作为训练、验证以及测试语料;
步骤1.2:使用mosesdecoder开源工具对数据集进行分词、标点符号规范化操作;
步骤1.3:建立语料库字典,并按照词频大小进行排序,忽略词频较低的生僻词,并储存为二进制文件。
步骤2:将Transformer的编码器最后输出的隐藏状态henc复制成两份,其一用来进行第一次预测,并计算损失函数Lenc,其二传入Transformer的解码器中,具体包括:
步骤2.1:henc经过全连接层linear和foftmax之后进行预测得到:
Figure BDA0003726065530000041
其中,
Figure BDA0003726065530000042
为预测得到的结果;
步骤2.2:通过损失函数计算Lenc
Figure BDA0003726065530000043
其中,y是目标语句,l为模型使用的损失函数,模型统一采用交叉熵损失函数。
步骤3:在Transformer的解码器之后构建未来语境引导模块,该模块和Transformer的编码器相似,依次由MHA、残差连接(Residual Connection,RC)、层归一化(Layer Normalization,LN)组成,RC能够解决多层神经网络训练困难的问题,LN可以加速模型的训练过程,加速收敛。MHA的输入分别为Q、K、V,Q为解码器输出的隐藏状态hdec,K、V=henc,将MHA的输入Q记为
Figure BDA0003726065530000051
将MHA的输入K记为
Figure BDA0003726065530000052
将MHA的输入Q记为
Figure BDA0003726065530000053
步骤3具体包括:
步骤3.1:MHA的输入Q、K、V分别为hdec、henc、henc,henc代表源语句的整体语义信息,其中包含了能够引导hdec对未来信息进行语义匹配,这一过程可以表示为:
Figure BDA0003726065530000054
其中,HK为MHA的输出,
Figure BDA0003726065530000055
即hdec
Figure BDA0003726065530000056
Figure BDA0003726065530000057
即henc,MHA的具体计算如下:
Figure BDA0003726065530000058
其中,αij是MHA的权重系数,表示生成第i个单词时,源语句中第j个单词的贡献值;
Figure BDA0003726065530000059
是MHA在生成第i个单词时得到的结果,n为源语句的长度;k表示transformer相应模块的数量,αij由softmax函数计算得出:
Figure BDA00037260655300000510
其中WQ、Wk和WV分别是MHA中Q、K和V对应的矩阵参数,d是词向量的维度;
步骤3.2:将HK和原输入hdec进行残差连接,得到的输出进行层归一化,得到隐藏状态hfuture
步骤4:结合未来语境引导模块输出的隐藏状态hfuture以及hdec进行第二次预测,并计算损失函数Lfuture,具体包括:
步骤4.1:hfuture和hdec通过一层门控单元(Gate Recurrent Unit,GRU)结合,使用GRU可以有效解决计算过程中梯度增减所产生的问题,减少模型的复杂度;
步骤4.2:计算损失函数Lfuture
Figure BDA00037260655300000511
Figure BDA00037260655300000512
步骤5:hfuture经过一层前馈神经层(Fully-Connected Network,FFN)、RC、LN之后得到h′uture,进行最后一次的预测,并计算损失函数Lfn
Figure BDA0003726065530000061
Figure BDA0003726065530000062
步骤6:对所有的损失函数进行加权操作,其中权重α和β根据模型训练状态进行调整,之后进行反向传播,并使用Adam优化器更新模型参数。
L=Lfn+αLenc+βLfuture
其中,L为总损失函数,α为损失函数Lenc对应的权重,β为损失函数Lfuture对应的权重。
本实施例提供了一种基于Transformer模型,由未来语境引导的模型优化方法,由源语句中包含的未来语义信息指导编码器对下一时间步的预测,有效提高了模型的翻译质量。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (7)

1.一种由未来语境引导的神经机器翻译模型优化方法,其特征在于,包括以下步骤:
步骤1:部署深度学习环境,对平行语料数据集进行预处理,将预处理后的平行语料数据集输入到Transformer模型中进行训练;
步骤2:获取Transformer模型的编码器最后输出的隐藏状态henc,将所述隐藏状态henc复制成两份,其中一份用于进行第一次预测,并计算损失函数Lenc,另一份输入至Transformer模型的解码器中;
步骤3:在Transformer的解码器之后构建未来语境引导模块,得到所述未来语境引导模块输出的隐藏状态hfuture;所述未来语境引导模块依次由MHA、残差连接、层归一化组成,MHA的输入为Q、K、V,其中Q为解码器输出的隐藏状态hdec,K和V均为编码器最后输出的隐藏状态henc;将MHA的输入Q记为
Figure FDA0003726065520000011
将MHA的输入K记为
Figure FDA0003726065520000012
将MHA的输入Q记为
Figure FDA0003726065520000013
步骤4:结合所述未来语境引导模块输出的隐藏状态hfuture以及Transformer的解码器输出的隐藏状态hdec进行第二次预测,并计算损失函数Lfuture
步骤5:所述未来语境引导模块输出的隐藏状态hfuture经过一层前馈神经层、残差连接和层归一化之后进行最后一次的预测,并计算损失函数Lfn
步骤6:对损失函数Lenc、损失函数Lfuture和损失函数Lfn进行加权操作,之后进行反向传播,并使用Adam优化器更新模型参数。
2.根据权利要求1所述的由未来语境引导的神经机器翻译模型优化方法,其特征在于,所述步骤2中,将所述隐藏状态henc复制成两份,其中一份用于进行第一次预测,并计算损失函数Lenc包括:
所述隐藏状态henc经过全连接层linear和softmax之后进行预测得到:
Figure FDA0003726065520000014
其中,
Figure FDA0003726065520000015
为预测得到的结果;
通过损失函数计算Lenc
Figure FDA0003726065520000016
其中,y是目标语句,l为模型使用的损失函数,模型统一采用交叉熵损失函数。
3.根据权利要求1所述的由未来语境引导的神经机器翻译模型优化方法,其特征在于,所述步骤3中,得到所述未来语境引导模块输出的隐藏状态hfuture的过程包括:
计算MHA的输出HK
将HK和原输入hdec进行残差连接,得到的输出进行层归一化,得到隐藏状态hfuture
4.根据权利要求3所述的由未来语境引导的神经机器翻译模型优化方法,其特征在于,所述步骤3中,计算MHA的输出HK的公式如下:
Figure FDA0003726065520000021
Figure FDA0003726065520000022
Figure FDA0003726065520000023
其中,k是transformer相应模块的数量,αij是MHA的权重系数,表示生成第i个单词时,源语句中第j个单词的贡献值;n为源语句的长度;WQ、Wk和WV分别是MHA中Q、K和V对应的矩阵参数,d是词向量的维度,
Figure FDA0003726065520000024
是MHA在生成第i个单词时得到的结果。
5.根据权利要求1所述的由未来语境引导的神经机器翻译模型优化方法,其特征在于,所述步骤4中,通过一层门控单元结合所述未来语境引导模块输出的隐藏状态hfuture以及Transformer的解码器输出的隐藏状态hdec
6.根据权利要求1所述的由未来语境引导的神经机器翻译模型优化方法,其特征在于,所述步骤6中,对损失函数Lenc、损失函数Lfuture和损失函数Lfn进行加权操作包括:
利用如下公式进行加权操作:
L=Ln+αLenc+βLfuture
其中,L为总损失函数,α为损失函数Lenc对应的权重,β为损失函数Lfuture对应的权重。
7.根据权利要求1所述的由未来语境引导的神经机器翻译模型优化方法,其特征在于,所述步骤1中,预处理的过程包括:
使用WMT提供的平行语料数据集作为训练、验证以及测试语料;
使用mosesdecoder开源工具对数据集进行分词、标点符号规范化操作;
建立语料库字典,并按照词频大小进行排序,忽略词频较低的生僻词,并储存为二进制文件。
CN202210774343.8A 2022-07-01 2022-07-01 一种由未来语境引导的神经机器翻译模型优化方法 Pending CN115081464A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210774343.8A CN115081464A (zh) 2022-07-01 2022-07-01 一种由未来语境引导的神经机器翻译模型优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210774343.8A CN115081464A (zh) 2022-07-01 2022-07-01 一种由未来语境引导的神经机器翻译模型优化方法

Publications (1)

Publication Number Publication Date
CN115081464A true CN115081464A (zh) 2022-09-20

Family

ID=83258397

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210774343.8A Pending CN115081464A (zh) 2022-07-01 2022-07-01 一种由未来语境引导的神经机器翻译模型优化方法

Country Status (1)

Country Link
CN (1) CN115081464A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117474019A (zh) * 2023-12-27 2024-01-30 天津大学 一种视觉引导的目标端未来语境翻译方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117474019A (zh) * 2023-12-27 2024-01-30 天津大学 一种视觉引导的目标端未来语境翻译方法

Similar Documents

Publication Publication Date Title
CN110069790B (zh) 一种通过译文回译对照原文的机器翻译系统及方法
Tan et al. Neural machine translation: A review of methods, resources, and tools
CN106484682B (zh) 基于统计的机器翻译方法、装置及电子设备
CN106776534B (zh) 词向量模型的增量式学习方法
CN110929030A (zh) 一种文本摘要和情感分类联合训练方法
CN111382582A (zh) 一种基于非自回归的神经机器翻译解码加速方法
US20230325673A1 (en) Neural network training utilizing loss functions reflecting neighbor token dependencies
WO2022188584A1 (zh) 基于预训练语言模型的相似语句生成方法和装置
CN110837733A (zh) 自重建方式的语言模型训练方法、系统及计算机可读介质
WO2020124674A1 (zh) 向量化译员的翻译个性特征的方法及装置
CN112420024A (zh) 一种全端到端的中英文混合空管语音识别方法及装置
CN114218928A (zh) 一种基于图知识和主题感知的抽象文本摘要方法
CN115081464A (zh) 一种由未来语境引导的神经机器翻译模型优化方法
CN116186216A (zh) 基于知识增强和双图交互的问题生成方法及系统
Hou et al. Review of research on task-oriented spoken language understanding
CN111444328A (zh) 一种带有解释生成的自然语言自动预测推断方法
CN116663577A (zh) 基于跨模态表征对齐的英越端到端语音翻译方法
CN115809464A (zh) 基于知识蒸馏的轻量级源代码漏洞检测方法
Tian et al. An online word vector generation method based on incremental huffman tree merging
Ye Translation mechanism of neural machine algorithm for online English resources
Qiang et al. Back-translation-style data augmentation for mandarin chinese polyphone disambiguation
Lei et al. Word-Based POMDP Dialog Management via Hybrid Learning
Miao et al. Multi-turn dialogue model based on the improved hierarchical recurrent attention network
Zhang et al. Patcorrect: Non-autoregressive phoneme-augmented transformer for asr error correction
Khysru et al. Morphological verb-aware tibetan language model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination