CN115081464A - 一种由未来语境引导的神经机器翻译模型优化方法 - Google Patents
一种由未来语境引导的神经机器翻译模型优化方法 Download PDFInfo
- Publication number
- CN115081464A CN115081464A CN202210774343.8A CN202210774343A CN115081464A CN 115081464 A CN115081464 A CN 115081464A CN 202210774343 A CN202210774343 A CN 202210774343A CN 115081464 A CN115081464 A CN 115081464A
- Authority
- CN
- China
- Prior art keywords
- future
- loss function
- enc
- hidden state
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本发明涉及机器学习技术领域,特别涉及一种由未来语境引导的神经机器翻译模型优化方法,包括以下步骤:部署深度学习环境,将预处理后的平行语料数据集输入到Transformer模型中进行训练;获取编码器最后输出的隐藏状态henc,将henc复制成两份,一份用于计算损失函数Lenc,另一份输入解码器;在解码器之后构建未来语境引导模块,得到未来语境引导模块输出的隐藏状态hfuture;结合hfuture和解码器输出的隐藏状态hdec进行第二次预测,并计算损失函数Lfuture;hfuture经过一层前馈神经层、残差连接和层归一化之后进行最后一次的预测,并计算损失函数Lfn;对Lenc、Lfuture和Lfn进行加权操作,之后进行反向传播,并使用Adam优化器更新模型参数。本发明通过未来语义信息引导编码器的字词预测,性能更高。
Description
技术领域
本发明涉及机器学习技术领域,特别涉及一种由未来语境引导的神经机器翻译模型优化方法。
背景技术
机器翻译是深度学习中的一个分支应用领域,拥有长足的发展历史。目前机器翻译的模型可以分为两类:基于循环神经网络(Recurrent Neural Network,RNN)的模型,以及基于Transformer的模型,二者都是序列到序列(编码器—解码器)的模型结构,编码器负责总结源语句的语义信息,解码器使用编码器的输出逐字生成目标语句。基于RNN的模型大多由GRU或者LSTM等神经网络单元结构组成,这类模型的特征是具有时序性,即每一层的输出是上一层的输入,这种特征保留了源语句的时序信息。但缺点是时序计算的约束,导致模型的训练和预测要消耗大量时间;另外待翻译的句子如果过长或者过于复杂,会导致语义信息丢失的问题。
谷歌提出了Transformer模型,该模型使用多头注意力机制(Multi-headAttention,MHA),使得在训练过程中模型能注意到每个词向量之间的相关性并有所侧重,避免语义丢失;使模型可以并行计算,提高训练的效率的同时减少了计算资源的消耗,使模型更加高效的得到效果更好的翻译质量。
自回归序列到序列的模型结构中,解码器获得源语句的语义信息,并逐字生成目标语句,但这一训练过程中无论是RNN模型还是Transformer模型,编码器不能通过未来的语义信息(未翻译的语句信息)来指导下一个时间步中字词的预测。
发明内容
基于此,有必要针对上述技术问题,提供一种由未来语境引导的神经机器翻译模型优化方法,以解决现有技术中训练过程中无论是RNN模型还是Transformer模型,编码器不能通过未来的语义信息(未翻译的语句信息)来指导下一个时间步中字词的预测的问题。
本发明提供了一种由未来语境引导的神经机器翻译模型优化方法方法,包括以下步骤:
步骤1:部署深度学习环境,对平行语料数据集进行预处理,将预处理后的平行语料数据集输入到Transformer模型中进行训练;
步骤2:获取Transformer模型的编码器最后输出的隐藏状态henc,将所述隐藏状态henc复制成两份,其中一份用于进行第一次预测,并计算损失函数Lenc,另一份输入至Transformer模型的解码器中;
步骤3:在Transformer的解码器之后构建未来语境引导模块,得到所述未来语境引导模块输出的隐藏状态hfuture;所述未来语境引导模块依次由MHA、残差连接、层归一化组成,MHA的输入为Q、K、V,其中Q为解码器输出的隐藏状态hdec,K和V均为编码器最后输出的隐藏状态henc;将MHA的输入Q记为将MHA的输入K记为将MHA的输入Q记为
步骤4:结合所述未来语境引导模块输出的隐藏状态hfuture以及Transformer的解码器输出的隐藏状态hdec进行第二次预测,并计算损失函数Lfuture;
步骤5:所述未来语境引导模块输出的隐藏状态hfuture经过一层前馈神经层、残差连接和层归一化之后进行最后一次的预测,并计算损失函数Lfn;
步骤6:对损失函数Lenc、损失函数Lfuture和损失函数Lfn进行加权操作,之后进行反向传播,并使用Adam优化器更新模型参数。
进一步的,所述步骤2中,将所述隐藏状态henc复制成两份,其中一份用于进行第一次预测,并计算损失函数Lenc包括:
所述隐藏状态henc经过全连接层linear和softmax之后进行预测得到:
通过损失函数计算Lenc:
其中,y是目标语句,l为模型使用的损失函数,模型统一采用交叉熵损失函数。
进一步的,所述步骤3中,得到所述未来语境引导模块输出的隐藏状态hfuture的过程包括:
计算MHA的输出HK;
将HK和原输入hdec进行残差连接,得到的输出进行层归一化,得到隐藏状态hfuture。
进一步的,所述步骤3中,计算MHA的输出HK的公式如下:
其中,k是transformer相应模块的数量,αij是MHA的权重系数,表示生成第i个单词时,源语句中第j个单词的贡献值;n为源语句的长度;WQ、Wk和WV分别是MHA中Q、K和V对应的矩阵参数,d是词向量的维度,是MHA在生成第i个单词时得到的结果。
进一步的,所述步骤4中,通过一层门控单元结合所述未来语境引导模块输出的隐藏状态hfuture以及Transformer的解码器输出的隐藏状态hdec。
进一步的,所述步骤6中,对损失函数Lenc、损失函数Lfuture和损失函数Lfn进行加权操作包括:
利用如下公式进行加权操作:
L=Lfn+αLenc+βLfuture
其中,L为总损失函数,α为损失函数Lenc对应的权重,β为损失函数Lfuture对应的权重。
进一步的,所述步骤1中,预处理的过程包括:
使用WMT提供的平行语料数据集作为训练、验证以及测试语料;
使用mosesdecoder开源工具对数据集进行分词、标点符号规范化操作;
建立语料库字典,并按照词频大小进行排序,忽略词频较低的生僻词,并储存为二进制文件。
本发明的有益效果:本发明的由未来语境引导的神经机器翻译模型优化方法,设计了未来语境引导机制,并将其引入Transformer模型,通过未来语义信息引导编码器的字词预测,使翻译模型能够学习出精度更高的语句,提高了Transformer基础模型的性能。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的由未来语境引导的神经机器翻译模型结构示意图;
图2是本发明的由未来语境引导的神经机器翻译模型优化方法流程图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。为了说明本发明的技术方案,下面通过具体实施例来进行说明。
本实施例针对上述现有机器模型中存在的不足,基于Transformer模型,引入未来语境引导机制以优化模型性能。本实施例采用的技术方案主要有两点:
(1)在Transformer的解码器之后增加引导解码器进行预测的未来语境引导模块,并将解码器和编码器的输出当作该模块中MHA的输入。采用该方法的原因是:使用编码器输出中隐形存在的未来语义信息(未翻译的语句信息)能够有效地引导当前时间步解码器的预测;
(2)分别使用编码器输出的隐藏状态、未来语境引导模块的输出进行预测并计算损失函数,并和最后模型的损失函数进行加权相加。采用该方法的原因是:本方案中模型的学习需要参考不同阶段的预测结果共同引导,并且各损失函数的重要度并不相同,因此需要进行加权操作。
具体的,本实施例在Transformer模型的基础上,增加了未来语境引导模块,其模型结构如图1所示。
如图2所示,本实施例的由未来语境引导的神经机器翻译模型优化方法包括以下步骤:
步骤1:部署深度学习环境,对平行语料数据集进行预处理并输入到Transformer模型中进行训练;具体预处理的过程包括:
步骤1.1:使用WMT提供的平行语料数据集作为训练、验证以及测试语料;
步骤1.2:使用mosesdecoder开源工具对数据集进行分词、标点符号规范化操作;
步骤1.3:建立语料库字典,并按照词频大小进行排序,忽略词频较低的生僻词,并储存为二进制文件。
步骤2:将Transformer的编码器最后输出的隐藏状态henc复制成两份,其一用来进行第一次预测,并计算损失函数Lenc,其二传入Transformer的解码器中,具体包括:
步骤2.1:henc经过全连接层linear和foftmax之后进行预测得到:
步骤2.2:通过损失函数计算Lenc:
其中,y是目标语句,l为模型使用的损失函数,模型统一采用交叉熵损失函数。
步骤3:在Transformer的解码器之后构建未来语境引导模块,该模块和Transformer的编码器相似,依次由MHA、残差连接(Residual Connection,RC)、层归一化(Layer Normalization,LN)组成,RC能够解决多层神经网络训练困难的问题,LN可以加速模型的训练过程,加速收敛。MHA的输入分别为Q、K、V,Q为解码器输出的隐藏状态hdec,K、V=henc,将MHA的输入Q记为将MHA的输入K记为将MHA的输入Q记为步骤3具体包括:
步骤3.1:MHA的输入Q、K、V分别为hdec、henc、henc,henc代表源语句的整体语义信息,其中包含了能够引导hdec对未来信息进行语义匹配,这一过程可以表示为:
其中,αij是MHA的权重系数,表示生成第i个单词时,源语句中第j个单词的贡献值;是MHA在生成第i个单词时得到的结果,n为源语句的长度;k表示transformer相应模块的数量,αij由softmax函数计算得出:
其中WQ、Wk和WV分别是MHA中Q、K和V对应的矩阵参数,d是词向量的维度;
步骤3.2:将HK和原输入hdec进行残差连接,得到的输出进行层归一化,得到隐藏状态hfuture。
步骤4:结合未来语境引导模块输出的隐藏状态hfuture以及hdec进行第二次预测,并计算损失函数Lfuture,具体包括:
步骤4.1:hfuture和hdec通过一层门控单元(Gate Recurrent Unit,GRU)结合,使用GRU可以有效解决计算过程中梯度增减所产生的问题,减少模型的复杂度;
步骤4.2:计算损失函数Lfuture:
步骤5:hfuture经过一层前馈神经层(Fully-Connected Network,FFN)、RC、LN之后得到h′uture,进行最后一次的预测,并计算损失函数Lfn:
步骤6:对所有的损失函数进行加权操作,其中权重α和β根据模型训练状态进行调整,之后进行反向传播,并使用Adam优化器更新模型参数。
L=Lfn+αLenc+βLfuture
其中,L为总损失函数,α为损失函数Lenc对应的权重,β为损失函数Lfuture对应的权重。
本实施例提供了一种基于Transformer模型,由未来语境引导的模型优化方法,由源语句中包含的未来语义信息指导编码器对下一时间步的预测,有效提高了模型的翻译质量。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (7)
1.一种由未来语境引导的神经机器翻译模型优化方法,其特征在于,包括以下步骤:
步骤1:部署深度学习环境,对平行语料数据集进行预处理,将预处理后的平行语料数据集输入到Transformer模型中进行训练;
步骤2:获取Transformer模型的编码器最后输出的隐藏状态henc,将所述隐藏状态henc复制成两份,其中一份用于进行第一次预测,并计算损失函数Lenc,另一份输入至Transformer模型的解码器中;
步骤3:在Transformer的解码器之后构建未来语境引导模块,得到所述未来语境引导模块输出的隐藏状态hfuture;所述未来语境引导模块依次由MHA、残差连接、层归一化组成,MHA的输入为Q、K、V,其中Q为解码器输出的隐藏状态hdec,K和V均为编码器最后输出的隐藏状态henc;将MHA的输入Q记为将MHA的输入K记为将MHA的输入Q记为
步骤4:结合所述未来语境引导模块输出的隐藏状态hfuture以及Transformer的解码器输出的隐藏状态hdec进行第二次预测,并计算损失函数Lfuture;
步骤5:所述未来语境引导模块输出的隐藏状态hfuture经过一层前馈神经层、残差连接和层归一化之后进行最后一次的预测,并计算损失函数Lfn;
步骤6:对损失函数Lenc、损失函数Lfuture和损失函数Lfn进行加权操作,之后进行反向传播,并使用Adam优化器更新模型参数。
3.根据权利要求1所述的由未来语境引导的神经机器翻译模型优化方法,其特征在于,所述步骤3中,得到所述未来语境引导模块输出的隐藏状态hfuture的过程包括:
计算MHA的输出HK;
将HK和原输入hdec进行残差连接,得到的输出进行层归一化,得到隐藏状态hfuture。
5.根据权利要求1所述的由未来语境引导的神经机器翻译模型优化方法,其特征在于,所述步骤4中,通过一层门控单元结合所述未来语境引导模块输出的隐藏状态hfuture以及Transformer的解码器输出的隐藏状态hdec。
6.根据权利要求1所述的由未来语境引导的神经机器翻译模型优化方法,其特征在于,所述步骤6中,对损失函数Lenc、损失函数Lfuture和损失函数Lfn进行加权操作包括:
利用如下公式进行加权操作:
L=Ln+αLenc+βLfuture
其中,L为总损失函数,α为损失函数Lenc对应的权重,β为损失函数Lfuture对应的权重。
7.根据权利要求1所述的由未来语境引导的神经机器翻译模型优化方法,其特征在于,所述步骤1中,预处理的过程包括:
使用WMT提供的平行语料数据集作为训练、验证以及测试语料;
使用mosesdecoder开源工具对数据集进行分词、标点符号规范化操作;
建立语料库字典,并按照词频大小进行排序,忽略词频较低的生僻词,并储存为二进制文件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210774343.8A CN115081464A (zh) | 2022-07-01 | 2022-07-01 | 一种由未来语境引导的神经机器翻译模型优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210774343.8A CN115081464A (zh) | 2022-07-01 | 2022-07-01 | 一种由未来语境引导的神经机器翻译模型优化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115081464A true CN115081464A (zh) | 2022-09-20 |
Family
ID=83258397
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210774343.8A Pending CN115081464A (zh) | 2022-07-01 | 2022-07-01 | 一种由未来语境引导的神经机器翻译模型优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115081464A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117474019A (zh) * | 2023-12-27 | 2024-01-30 | 天津大学 | 一种视觉引导的目标端未来语境翻译方法 |
-
2022
- 2022-07-01 CN CN202210774343.8A patent/CN115081464A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117474019A (zh) * | 2023-12-27 | 2024-01-30 | 天津大学 | 一种视觉引导的目标端未来语境翻译方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110069790B (zh) | 一种通过译文回译对照原文的机器翻译系统及方法 | |
Tan et al. | Neural machine translation: A review of methods, resources, and tools | |
CN106484682B (zh) | 基于统计的机器翻译方法、装置及电子设备 | |
CN106776534B (zh) | 词向量模型的增量式学习方法 | |
CN110929030A (zh) | 一种文本摘要和情感分类联合训练方法 | |
CN111382582A (zh) | 一种基于非自回归的神经机器翻译解码加速方法 | |
US20230325673A1 (en) | Neural network training utilizing loss functions reflecting neighbor token dependencies | |
WO2022188584A1 (zh) | 基于预训练语言模型的相似语句生成方法和装置 | |
CN110837733A (zh) | 自重建方式的语言模型训练方法、系统及计算机可读介质 | |
WO2020124674A1 (zh) | 向量化译员的翻译个性特征的方法及装置 | |
CN112420024A (zh) | 一种全端到端的中英文混合空管语音识别方法及装置 | |
CN114218928A (zh) | 一种基于图知识和主题感知的抽象文本摘要方法 | |
CN115081464A (zh) | 一种由未来语境引导的神经机器翻译模型优化方法 | |
CN116186216A (zh) | 基于知识增强和双图交互的问题生成方法及系统 | |
Hou et al. | Review of research on task-oriented spoken language understanding | |
CN111444328A (zh) | 一种带有解释生成的自然语言自动预测推断方法 | |
CN116663577A (zh) | 基于跨模态表征对齐的英越端到端语音翻译方法 | |
CN115809464A (zh) | 基于知识蒸馏的轻量级源代码漏洞检测方法 | |
Tian et al. | An online word vector generation method based on incremental huffman tree merging | |
Ye | Translation mechanism of neural machine algorithm for online English resources | |
Qiang et al. | Back-translation-style data augmentation for mandarin chinese polyphone disambiguation | |
Lei et al. | Word-Based POMDP Dialog Management via Hybrid Learning | |
Miao et al. | Multi-turn dialogue model based on the improved hierarchical recurrent attention network | |
Zhang et al. | Patcorrect: Non-autoregressive phoneme-augmented transformer for asr error correction | |
Khysru et al. | Morphological verb-aware tibetan language model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |