CN115719072A - 一种基于掩码机制的篇章级神经机器翻译方法及系统 - Google Patents

一种基于掩码机制的篇章级神经机器翻译方法及系统 Download PDF

Info

Publication number
CN115719072A
CN115719072A CN202211331167.7A CN202211331167A CN115719072A CN 115719072 A CN115719072 A CN 115719072A CN 202211331167 A CN202211331167 A CN 202211331167A CN 115719072 A CN115719072 A CN 115719072A
Authority
CN
China
Prior art keywords
sequence
enc
module
coding
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211331167.7A
Other languages
English (en)
Inventor
费伟伦
鉴萍
朱晓光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202211331167.7A priority Critical patent/CN115719072A/zh
Publication of CN115719072A publication Critical patent/CN115719072A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种基于掩码机制的篇章级神经机器翻译方法及系统,属于自然语言处理和语言翻译技术领域。本方法利用掩码机制对待翻译句子中的部分信息进行掩码,使模型在翻译句子时,对上下文信息的依赖程度更高。本方法主要针对训练策略做出改进,采用了二阶段训练过程,更好地使编码器还原编码信息,有效提升了篇章级神经机器翻译的效果。系统部分包括数据处理模块、源语言编码器模块、源语言自编码解码器模块、目标语言解码器模块和生成器模块。对比现有技术,本方法在训练策略上采取掩码和自编码的策略,训练了一个在编码时更依赖于上下文的篇章级翻译模型,充分利用上下文信息,进一步提升了篇章级机器翻译效果和质量。

Description

一种基于掩码机制的篇章级神经机器翻译方法及系统
技术领域
本发明涉及一种神经机器翻译方法及系统,具体涉及一种基于掩码机制的篇章级神经机器翻译方法和系统,属于自然语言处理和语言翻译技术领域。
背景技术
神经机器翻译技术(Neural Machine Tranlation,简称NMT),是一种使用深度学习神经网络获取自然语言之间的映射关系的方法,是自然语言处理中的重要任务。NMT使用基于神经网络的技术来实现更多上下文精确翻译,而不是一次翻译一个单词的破碎句子。NMT能够学习和收集信息,分两个阶段进行分析:编码和解码。在编码阶段,来自然语言的文本信息被输入到机器中,随后被分类到语言向量中。在上下文中,相似的单词将被放置在可比较的单词向量中。在解码阶段,将有效且无缝地把矢量发送到目标语言。
篇章级机器翻译,旨在使用计算机将一个篇章从一种语言自动翻译成另一种语言,是机器翻译中一项十分富有挑战性的任务。近年来,随着神经机器翻译的快速发展,篇章神经机器翻译已经成为了机器翻译领域的热门方向,该技术使得译文在整篇文档或特定的语义环境中,能够保持翻译风格的一致性和翻译的准确性。随着深度学习的快速发展,端到端的模型架构能够帮助神经机器翻译直接将源语言句子转换到目标语言句子。相比于传统句子神经机器翻译,篇章神经机器翻译通过建模并利用篇章级别的上下文信息,由此产生质量更高的译文。
现有技术中,通常采用多编码器的方式来解决神经机器翻译中的篇章级翻译难题。利用额外的编码器对上下文进行编码,获取编码信息后,与当前待翻译的句子以注意力机制或门控机制做融合。单编码器相对简单,将上下文与待翻译句子进行拼接,共同送入编码器中,利用注意力机制,获得更好的编码表示,再送入解码器中生成对应的译文。但是,在单编码器的结构中,需要让待翻译的句子能更好的依赖于上下文的信息,例如,可以从待处理的上下文中获取时态信息、性别信息甚至字母缩写的具体含义等。由于神经网络本身往往会被视为是一个黑盒模型,因此在编码、翻译的过程中,往往很难界定对上下文的依赖程度有多少。此外,在编码过程中,源语言句子的编码可能会因为额外信息的引入而不能被完整地传达。
综上所述,迫切需要有一种技术,能够让篇章级神经机器翻译方法,在编码或翻译的过程中更好地依赖于上下文,同时能保证原有的语义信息不会丢失。
发明内容
本发明的目的是针对现有技术存在的问题和不足,为了解决篇章级神经机器翻译过程中,令待翻译句子更好地从上下文中获取信息,保证原有语义信息不丢失等技术问题,创造性地一种基于掩码机制的篇章级神经网络机器翻译方法及系统。
本发明的创新点在于:首先,将上下文及经过随机掩码的待翻译句子拼接作为编码器的输入。常见的单编码器结构中,往往是使用拼接后的句子直接作为编码器的输入,但是这种方式使得上下文本身会成为一种噪声,破坏待翻译句子的语义信息,而编码信息也因此会受到影响,反而会出现降低翻译效果的现象。而且需要将上下文和待翻译的句子区分开,要使得编码器更好的帮助待翻译句子从上下中获取信息。针对这种情况,本发明一方面引入掩码语言模型任务,使用掩码随机替换待翻译句子中的部分词;除此之外引入降噪自编码器,为编码器部分加上约束,使基于上下文的编码信息不仅能充分利用上下文信息,同时能更好地还原待翻译句子的语义信息,最后生成目标语言句子。
本发明采用以下技术方案实现。
一种基于掩码机制的篇章级神经机器翻译方法,包括以下步骤:
步骤1:输入源语言句子,通过随机掩码方式,编码生成具备上下文的编码信息Enc(X)。
具体地,步骤1包括以下步骤:
步骤1.1:待翻译句子Xcurr中的每个单词,以概率p被掩码符号所替换。
优选地,p=0.3,服从伯努利分布。
步骤1.2:选定待翻译句子的前文Xprev作为上下文,并将经掩码处理后的待翻译句子与上下文进行拼接,得到输入序列Xinput
步骤1.3:输入序列Xinput经过编码器的嵌入层,被逐词映射为词向量,嵌入层输出由词向量组成的序列Emb(X)。
步骤1.4:将序列Emb(X)送入编码器中进行编码,获得具备上下文的编码序列Enc(X)。
具体地,序列Emb(X)通过编码器的多头自注意力层和线性层进行编码,将该过程重复N次,最后得到Enc(X)。
步骤2:将经过编码器得到的编码序列Enc(X)送入结构与编码器一致的降噪自编码解码器中,得到降噪自编码输出序列DecEnc(Enc(X))。
具体地,该步骤与步骤1.4中的处理过程相同,目的是为了增加掩码语言模型任务,更好地还原可能被掩码破坏了语义信息的待翻译句子。
步骤3:利用编码器输出和解码器输入,输出解码序列Dec(Y)。
具体地,步骤3包括以下步骤:
步骤3.1:根据前文Xprev的长度和待翻译句子Xcurr的长度,对步骤1.4中具备上下文的编码表示Enc(X)做切割,获取上下文编码序列Enc(X)prev和待翻译句子的编码序列Enc(X)curr
步骤3.2:选取步骤1.1中待翻译句子Xcurr所对应的目标语言句子Ytok,送入编码器的嵌入层,逐词映射为词向量,嵌入层输出由词向量组成的目标语言序列Emb(Y)。
步骤3.3:利用解码器对目标语言序列Emb(Y)进行解码,得到解码序列Dec(Y)。
具体地,目标语言序列表示Emb(Y)通过解码器的自注意力层,利用多头注意力层和上下文编码序列Enc(X)prev以及待翻译句子Xcurr的编码序列Enc(X)curr进行融合,再经过解码器的线性层。该过程重复N次,最终得到解码序列Dec(Y)。
步骤4:将步骤2的降噪自编码输出序列DecEnc(Enc(X))与步骤1.3的拼接序列Emb(X)作比较,将解码序列Dec(Y)与目标语言参考编码序列Ref(Y)作比较,将差值加权相加,作为模型损失L1
步骤5:根据模型损失使用梯度下降方法,重复步骤1至步骤4,直至模型收敛,得到翻译模型M。
步骤6:在步骤5得到的翻译模型M上,继续使用现有数据,在不做掩码的基础上进行训练。
具体地,步骤6包括以下步骤:
步骤6.1:选定待翻译句子Xcurr的前文Xprev作为上下文,并将待翻译句子Xcurr与上下文进行拼接,得到输入序列Xinput′。
步骤6.2:输入序列Xinput′经过编码器的嵌入层,被逐词映射为词向量,嵌入层输出由词向量组成的序列Emb(X′)。
步骤6.3:将序列Emb(X′)送进编码器中,经过编码获得具备上下文的编码序列Enc(X′)。
具体地,序列Emb(X′)通过编码器的多头自注意力层和线性层进行编码,该过程重复N次,最后得到Enc(X′)。
步骤7:与步骤3过程相同,编码器输出来自步骤6.3的Enc(X′),输出解码序列Dec(Y′)。
步骤8:将步骤7的解码序列Dec(Y′)与目标语言参考编码序列Ref(Y)作比较,将差值作为模型损失L2
步骤9:根据模型损失L2使用梯度下降方法,重复步骤6至步骤8,直至模型收敛,得到翻译模型M′。
步骤10:将非训练集的源语言句子Xt、源语言句子的前文Xt-1,送入翻译模型M′,得到最终翻译的译文。
另一方面,本发明基于上述方法,进一步提出了一种基于掩码机制的篇章级神经机器翻译系统,包括数据处理模块、源语言编码器模块、源语言降噪自编码解码器模块、目标语言解码器模块和生成器模块。
其中,数据处理模块负责抽取需要翻译的信息数据,并转换为对应的词向量序列;
源语言编码器模块用于将篇章级信息和源语言句子的编码信息融合,并分别送入源语言降噪自编码解码器模块和目标语言解码器模块中;
源语言降噪自编码解码器模块在第一次训练时,对源语言编码器模块的输出做自编码;
目标语言解码器模块根据获得的编码信息进行解码,生成解码信息;
生成器模块负责将解码信息映射到目标端的词表当中生成翻译,并将结果呈现给用户。
进一步地,数据处理模块包括样本获取单元、预处理单元和嵌入层单元;
其中,样本获取单元用于获取语料库中的语言对样本;
预处理单元用于从语料中获取所需要的数据(包括源语言句子、目标语言句子及其对应的源语言上下文信息),并负责构建词表和句子的分词;
嵌入层单元用于将处理后的文本信息转换为对应的词向量序列。
源语言编码器模块、源语言降噪自编码解码器模块和目标语言解码器模块,各自均包括一个注意力单元和一个线性单元。每个注意力单元的作用相同,均为负责对输入的词向量或是语义向量做信息融合,生成对应的语义信息;每个线性单元作用也相同,均为负责对输入的编码信息做线性映射。
其中,源语言编码器模块包括第一注意力单元和第一线性单元,源语言降噪自编码解码器模块包括第二注意力单元和第二线性单元,解码器模块包括第三注意力单元和第三线性单元。
上述模块的连接关系为:
源语言编码器模块的输入端与数据处理模块的输出端相连;
源语言降噪自编码解码器模块的输入端与源语言编码器模块的输出端相连;
目标语言解码器模块的输入端与数据处理模块的输出端相连;
目标语言解码器模块的输入端与源语言编码器模块的输出端相连;
生成器模块的输入端与目标语言解码器模块的输出端相连。
上述模块中各单元的连接关系为:
在数据处理模块中,预处理单元的输入端与样本获取单元的输出端相连,嵌入层单元的输入端与预处理单元的输出端相连。
源语言编码器模块、源语言降噪自编码解码器模块和目标语言解码器模块中,每个线性单元的输入端与所在模块的注意力单元输出端相连。
有益效果
本发明,对比现有的技术,具有以下优点:
本发明,通过对当前待翻译句子进行随机掩码方式,引入掩码语言模型任务,同时在训练时引入降噪自编码器,使“被破坏”的输入能够从上下文中获取信息,最大程度的还原输入信息,使待翻译句子更大程度地依赖上下文信息,提升了篇章级神经机器翻译的效果和质量。
附图说明
图1为根据本发明方法的流程图;
图2为根据本发明系统的架构示意图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步说明。
如图1所示,一种基于掩码机制的篇章级神经机器翻译方法,包括以下步骤:
步骤1:输入源语言句子,通过随机掩码的方法,编码生成具备上下文的编码信息Enc(X),具体地:
步骤1.1:待翻译句子
Figure BDA0003913279750000061
中的每个单词会以概率p被掩码符号所替换,该过程服从p=0.15的伯努利分布。
步骤1.2:选定待翻译句子的前文
Figure BDA0003913279750000062
作为上下文,并将经掩码处理后的待翻译句子与上下文进行拼接,得到输入序列
Figure BDA0003913279750000063
步骤1.3:输入序列
Figure BDA0003913279750000064
经过嵌入层,会被逐词映射为词向量,嵌入层会输出由词向量组成的序列Emb(X)。
步骤1.4:序列Emb(X)会被送进源语言编码器中,经过编码,获得具备上下文的编码序列Enc(X)。
步骤2:经过源语言编码器得到的编码序列Enc(X)会被送入结构与源语言编码器一致的模块中,得到降噪自编码输出序列DecEnc(Enc(X))。
步骤3:利用源语言编码器输出和目标语言解码器输入,输出解码序列Dec(Y),具体地:
步骤3.1:根据前文的长度以及待翻译句子的长度,对步骤1.4中具备上下文的编码表示Enc(X)做切割,获取上下文编码序列Enc(X)prev和待翻译句子的编码序列Enc(X)curr
步骤3.2:选取步骤1.1中待翻译句子所对应的目标语言句子Ytok,送入嵌入层,逐词映射为词向量,嵌入层输出由词向量组成的目标语言序列Emb(Y)。
步骤3.3:利用解码器对目标语言序列Emb(Y)进行解码,得到解码序列Dec(Y)。
步骤4:将步骤2的降噪自编码输出序列DecEnc(Enc(X))与步骤2.3的拼接序列Emb(X)比较、将解码序列Dec(Y)与目标语言参考编码序列Ref(Y)作比较,差值加权相加作为模型损失L1
步骤5:根据模型损失使用梯度下降方法重复步骤1-4直至模型收敛,得到翻译模型M。
在步骤1.1、步骤1.2和步骤3.1中,获取带上下文的双语平行句对语料,对样本进行预处理。
本实施例中,选用IWSLT15数据,源语言是汉语,目标语言是英语。从IWSLT15中抽取20万对包含上下文的平行句对作为训练语料。每个样本E包括一个前文句子,一个待翻译的源语言句子和一个目标语言句子,例如:
前文句子:孔子的家里很穷,但他从小就认真读书,刻苦学习。
待翻译的源语言句子:二十多岁的时候,他做了个小官。
目标语言句子:He became a petty official in his early twenties.
根据掩码机制,会对待翻译的源语言句子中的词使用mask掩码进行随机替换,例如:
掩码处理后的待翻译的源语言句子:二十多岁的时候,[MASK]做了个小官。
在本实施例中,首先分别对源语言语料和目标语言语料进行分词,并构建词表。针对汉语,需要使用中文分词工具结巴分词(https://github.com/fxsjy/jieba)进行分词;再使用BPE对分词后的平行语料做亚词编码,得到亚词词表及亚词编码。根据亚词编码,对平行语料做亚词分词,并根据亚词词表进行令牌化。
在步骤1.3中,针对每个样本E,通过嵌入层映射,将令牌化的源语言句子
Figure BDA0003913279750000071
转换为由词向量组成的序列Emb(X)。
在步骤1.4中,由词向量组成的序列Emb(X)被送入源语言编码器编码,获取具备上下文的编码序列Enc(X)。
具体地,步骤1.4中的多头自注意力层的过程如下:
首先,将词向量组成的序列Emb(X)中的每一个词向量通过矩阵映射为查询值Q、键值K和值V:
Q=WQ·e (1)
K=WK·e (2)
V=WV·e (3)
其中,WQ、WK、WV分别表示用于映射查询值Q、键值K和值V的映射参数;e是每个单词的词向量表示。
在自注意力机制中,对每一个词,计算该词对其它所有词的注意力分值s:
Figure BDA0003913279750000081
其中,dk为K的维度,KT表示K的转置,T表示矩阵转置。
然后,用注意力分值s作为权重,用对应的注意力分值与V相乘并求和,得到对应的隐藏层状态表示向量
Figure BDA0003913279750000082
Figure BDA0003913279750000083
由于Transformer编码器端采用的是多头注意力机制,此处要再将每个注意力头产生的表示进行拼接:
Figure BDA0003913279750000084
其中,h′表示不同的注意力头产生的表示拼接后的结果,
Figure BDA0003913279750000085
表示第n个头产生的表示。
最后,利用由两层由ReLU做激活函数的全连接网络层,提高模型非线性的拟合能力:
Enclayer(X)=FFN(h′)=max(0,max(0,h′W1+b1)W2+b2) (7)
其中,Enclayer(X)表示每一层编码器的输出结果,最后一层编码器的输出结果表示为Enc(X)。FFN(·)表示线性单元;W1、W2表示可训练的权重,b1、b2分别表示W1、W2对应的偏置项。
在步骤1.4中,序列Emb(X)在经过自注意力层后,生成自注意力层的结果表示SelfAttn(X),而SelfAttn(X)会作为全连接网络的输入,输出Enclayer(X),最终得到编码器的输出,该输出包含上下文信息Enc(X)。
在步骤2中使用降噪自编码解码器对编码器输出进行降噪自编码解码时的计算过程与步骤1.4计算得到编码器结果Enc(X)的过程一致,得到DecEnc(Enc(X))。
在步骤3中,如图1所示,利用源语言编码器输出和目标语言解码器输入,输出解码序列Dec(Y)的步骤包括:
在步骤3.1中,需要根据前文的长度以及待翻译句子的长度,对步骤1.4中具备上下文的编码表示Enc(X)做切割,获取上下文编码序列Enc(X)prev和待翻译句子的编码序列Enc(X)curr
在步骤3.2中,该过程与步骤1.3一致,输入为目标语言句子Ytok,输出为目标语言序列Emb(Y)。
在步骤3.3中,首先通过自注意力层,使Emb(Y)获得更好的信息表示,该过程与步骤1.4中计算得到自注意力结果的过程一致。之后会分别经过两层多头注意力层,第一层使用Enc(X)curr作为键值K和值V,自注意力层的输出结果SelfAttn(Y)作为查询值Q,生成结果DecEncAttn(Y);利用上一层多头注意力层的输出结果作为查询值Q,Enc(X)prev作为键值K和值V,生成结果DecCtxAttn(Y)。解码器中每一层全连接层的计算过程与步骤1.4中的编码器的全连接层的计算过程一致,最后获得解码器的输出结果Dec(Y)。
在步骤4中,使用步骤2的降噪自编码输出序列DecEnc(Enc(X))与步骤2.3的拼接序列Emb(X)作交叉熵损失计算,解码序列Dec(Y)与目标语言参考编码序列Ref(Y)作交叉熵损失计算,二者进行加权相加,作为模型损失L1
L1=α·Loss(Emb(X),DecEnc(Enc(X)))+(1-α)Loss(Ref(Y),Dec(Y)) (8)
其中,α是一个超参数,用于控制两个部分的损失对模型整体的训练,Loss表示交叉熵损失函数。
根据模型损失使用梯度下降方法重复步骤1-4直至模型收敛,得到翻译模型M。由于在训练的过程中,对待翻译的源语言句子中的单词使用了随机替换,这与使用模型生成翻译的过程存在不同。因此提出第二阶段的训练,使用现有数据在不做掩码的基础上对得到的翻译模型M继续训练,模型的损失函数L2如下:
L2=Loss(Ref(Y),Dec(Y′)) (9)
其中,Dec(Y′)的生成过程与第一阶段中的生成过程一致,对于待翻译的源语言句子不再做掩码替换的过程。
将目标语言解码序列的最后一个向量输入到生成器,通过Softmax函数映射到词表,得到对于下一个词的预测。重复上述步骤,直至解码生成句子结束标识,或句子长度达到最大长度限制时,终止生成。
根据本发明的另一方面,提出一种基于掩码机制的篇章级神经机器翻译系统,如图2所示,包括数据处理模块、源语言编码器模块、源语言降噪自编码解码器模块、目标语言解码器模块和生成器模块。其中,数据处理模块负责抽取需要翻译的数据,并转换为对应的词向量序列;源语言编码器模块用于将源语言句子和对应的上下文信息的编码信息融合,送入源语言降噪自编码解码器模块和目标语言解码器中;源语言降噪自编码解码器模块对获得的编码信息进行解码,还原源语言信息;目标语言解码器根据获得的编码信息进行解码生成解码信息;生成器模块负责将解码信息映射到目标端的词表当中,生成翻译,并将结果呈现给用户。
进一步的,数据处理模块包括:样本获取单元、预处理单元、嵌入层单元,其中:
样本获取单元,用于获取语料库中的语言对样本;
预处理单元,用于从语料中获取所需要的数据,包括源语言句子、目标语言句子及其对应的源语言上下文信息,并负责构建词表和句子的分词;
嵌入层单元,用于将处理后的文本信息转换为对应的词向量序列。
源语言编码器模块、源语言降噪自编码解码器模块和目标语言解码器模块,各包括一个注意力单元和一个线性单元。每个注意力单元的作用相同,均为负责对输入的词向量或是语义向量做信息融合,生成对应的语义信息;每个线性单元作用也相同,均为负责对输入的编码信息做线性映射。其中,源语言编码器模块包括第一注意力单元和第一线性单元,源语言降噪自编码解码器模块包括第二注意力单元和第二先行单元,解码器模块包括第三注意力单元和第三线性单元。
在样本获取单元中,可以选择IWSLT 15的汉语和英语分别作为源语言和目标语言。
在预处理单元中,分别对源语言语料和语言语料进行分词,并构建词表。然后使用BPE进行编码得到词表,根据BPE编码得到的词表将句子拆分。具体方法如上文所述。
在嵌入层单元中,可通过映射,将句子转换为词向量表示序列。具体方法如上所述。
在每个注意力单元中,自注意力机制用于计算同句子中词之间的关联度,多头注意力机制用于融合上下文信息。具体方法如上所述。
在每个线性单元中,序列信息经此得到对应的编码和解码序列。
本领域普通技术人员可以理解,以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims (5)

1.一种基于掩码机制的篇章级神经机器翻译方法,其特征在于,包括以下步骤:
步骤1:输入源语言句子,通过随机掩码方式,编码生成具备上下文的编码信息Enc(X);
步骤1.1:待翻译句子Xcurr中的每个单词,以概率p被掩码符号所替换;
步骤1.2:选定待翻译句子的前文Xprev作为上下文,并将经掩码处理后的待翻译句子与上下文进行拼接,得到输入序列Xinput
步骤1.3:输入序列Xinput经过编码器的嵌入层,被逐词映射为词向量,嵌入层输出由词向量组成的序列Emb(X);
步骤1.4:将序列Emb(X)送入编码器中进行编码,获得具备上下文的编码序列Enc(X);
序列Emb(X)通过编码器的多头自注意力层和线性层进行编码,将该过程重复N次,最后得到Enc(X);
步骤2:将经过编码器得到的编码序列Enc(X)送入结构与编码器一致的降噪自编码解码器中,得到降噪自编码输出序列DecEnc(Enc(X));
步骤3:利用编码器输出和解码器输入,输出解码序列Dec(Y);
步骤3.1:根据前文Xprev的长度和待翻译句子Xcurr的长度,对步骤1.4中具备上下文的编码表示Enc(X)做切割,获取上下文编码序列Enc(X)prev和待翻译句子的编码序列Enc(X)curr
步骤3.2:选取步骤1.1中待翻译句子Xcurr所对应的目标语言句子Ytok,送入编码器的嵌入层,逐词映射为词向量,嵌入层输出由词向量组成的目标语言序列Emb(Y);
步骤3.3:利用解码器对目标语言序列Emb(Y)进行解码,得到解码序列Dec(Y);
目标语言序列表示Emb(Y)通过解码器的自注意力层,利用多头注意力层和上下文编码序列Enc(X)prev以及待翻译句子Xcurr的编码序列Enc(X)curr进行融合,再经过解码器的线性层;该过程重复N次,最终得到解码序列Dec(Y);
步骤4:将步骤2的降噪自编码输出序列DecEnc(Enc(X))与步骤1.3的拼接序列Emb(X)作比较,将解码序列Dec(Y)与目标语言参考编码序列Ref(Y)作比较,将差值加权相加,作为模型损失L1
步骤5:根据模型损失使用梯度下降方法,重复步骤1至步骤4,直至模型收敛,得到翻译模型M;
步骤6:在步骤5得到的翻译模型M上,继续使用现有数据,在不做掩码的基础上进行训练;
步骤6.1:选定待翻译句子Xcurr的前文Xprev作为上下文,并将待翻译句子Xcurr与上下文进行拼接,得到输入序列Xinput′;
步骤6.2:输入序列Xinput′经过编码器的嵌入层,被逐词映射为词向量,嵌入层输出由词向量组成的序列Emb(X′);
步骤6.3:将序列Emb(X′)送进编码器中,经过编码获得具备上下文的编码序列Enc(X′);
序列Emb(X′)通过编码器的多头自注意力层和线性层进行编码,该过程重复N次,最后得到Enc(X′);
步骤7:与步骤3过程相同,编码器输出来自步骤6.3的Enc(X′),输出解码序列Dec(Y′);
步骤8:将步骤7的解码序列Dec(Y′)与目标语言参考编码序列Ref(Y)作比较,将差值作为模型损失L2
步骤9:根据模型损失L2使用梯度下降方法,重复步骤6至步骤8,直至模型收敛,得到翻译模型M′;
步骤10:将非训练集的源语言句子Xt、源语言句子的前文Xt-1,送入翻译模型M′,得到最终翻译的译文。
2.如权利要求1所述的一种基于掩码机制的篇章级神经机器翻译方法,其特征在于,步骤1.4中,的多头自注意力层的过程如下:
首先,将词向量组成的序列Emb(X)中的每一个词向量通过矩阵映射为查询值Q、键值K和值V:
Q=WQ·e (1)
K=WK·e (2)
V=WV·e (3)
其中,WQ、WK、WV分别表示用于映射查询值Q、键值K和值V的映射参数;e是每个单词的词向量表示;
在自注意力机制中,对每一个词,计算该词对其它所有词的注意力分值s:
Figure FDA0003913279740000031
其中,dk为K的维度,KT表示K的转置,T表示矩阵转置;
然后,用注意力分值s作为权重,用对应的注意力分值与V相乘并求和,得到对应的隐藏层状态表示向量
Figure FDA0003913279740000032
Figure FDA0003913279740000033
将每个注意力头产生的表示进行拼接:
Figure FDA0003913279740000034
其中,h′表示不同的注意力头产生的表示拼接后的结果,
Figure FDA0003913279740000035
表示第n个头产生的表示;
最后,利用由两层由ReLU做激活函数的全连接网络层,提高模型非线性的拟合能力:
Enclayer(X)=FFN(h′)=max(0,max(0,h′W1+b1)W2+b2) (7)
其中,Enclayer(X)表示每一层编码器的输出结果,最后一层编码器的输出结果表示为Enc(X);FFN(·)表示线性单元;W1、W2表示可训练的权重,b1、b2分别表示W1、W2对应的偏置项;
在步骤1.4中,序列Emb(X)在经过自注意力层后,生成自注意力层的结果表示SelfAttn(X),而SelfAttn(X)会作为全连接网络的输入,输出Enclayer(X),最终得到编码器的输出,该输出包含上下文信息Enc(X)。
3.如权利要求1所述的一种基于掩码机制的篇章级神经机器翻译方法,其特征在于,模型损失L1如下:
L1=α·Loss(Emb(X),DecEnc(Enc(X)))+(1-α)Loss(Ref(Y),Dec(Y)) (8)
其中,α是一个超参数,用于控制两个部分的损失对模型整体的训练,Loss表示交叉熵损失函数;
模型损失L2如下:
L2=Loss(Ref(Y),Dec(Y′)) (9)。
4.一种基于掩码机制的篇章级神经机器翻译系统,其特征在于,包括数据处理模块、源语言编码器模块、源语言降噪自编码解码器模块、目标语言解码器模块和生成器模块;
其中,数据处理模块负责抽取需要翻译的信息数据,并转换为对应的词向量序列;
源语言编码器模块用于将篇章级信息和源语言句子的编码信息融合,并分别送入源语言降噪自编码解码器模块和目标语言解码器模块中;
源语言降噪自编码解码器模块在第一次训练时,对源语言编码器模块的输出做自编码;
目标语言解码器模块根据获得的编码信息进行解码,生成解码信息;
生成器模块负责将解码信息映射到目标端的词表当中生成翻译,并将结果呈现给用户;
上述模块的连接关系为:
源语言编码器模块的输入端与数据处理模块的输出端相连;
源语言降噪自编码解码器模块的输入端与源语言编码器模块的输出端相连;
目标语言解码器模块的输入端与数据处理模块的输出端相连;
目标语言解码器模块的输入端与源语言编码器模块的输出端相连;
生成器模块的输入端与目标语言解码器模块的输出端相连;
上述模块中各单元的连接关系为:
在数据处理模块中,预处理单元的输入端与样本获取单元的输出端相连,嵌入层单元的输入端与预处理单元的输出端相连;
源语言编码器模块、源语言降噪自编码解码器模块和目标语言解码器模块中,每个线性单元的输入端与所在模块的注意力单元输出端相连。
5.如权利要求4所述的一种基于掩码机制的篇章级神经机器翻译系统,其特征在于,数据处理模块包括样本获取单元、预处理单元和嵌入层单元;
其中,样本获取单元用于获取语料库中的语言对样本;
预处理单元用于从语料中获取所需要的数据,并负责构建词表和句子的分词;
嵌入层单元用于将处理后的文本信息转换为对应的词向量序列;
源语言编码器模块、源语言降噪自编码解码器模块和目标语言解码器模块,各自均包括一个注意力单元和一个线性单元;每个注意力单元的作用相同,均为负责对输入的词向量或是语义向量做信息融合,生成对应的语义信息;每个线性单元作用也相同,均为负责对输入的编码信息做线性映射;
其中,源语言编码器模块包括第一注意力单元和第一线性单元,源语言降噪自编码解码器模块包括第二注意力单元和第二线性单元,解码器模块包括第三注意力单元和第三线性单元。
CN202211331167.7A 2022-10-28 2022-10-28 一种基于掩码机制的篇章级神经机器翻译方法及系统 Pending CN115719072A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211331167.7A CN115719072A (zh) 2022-10-28 2022-10-28 一种基于掩码机制的篇章级神经机器翻译方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211331167.7A CN115719072A (zh) 2022-10-28 2022-10-28 一种基于掩码机制的篇章级神经机器翻译方法及系统

Publications (1)

Publication Number Publication Date
CN115719072A true CN115719072A (zh) 2023-02-28

Family

ID=85254428

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211331167.7A Pending CN115719072A (zh) 2022-10-28 2022-10-28 一种基于掩码机制的篇章级神经机器翻译方法及系统

Country Status (1)

Country Link
CN (1) CN115719072A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116992894A (zh) * 2023-09-26 2023-11-03 北京澜舟科技有限公司 一种机器翻译模型的训练方法和计算机可读存储介质
CN117422075A (zh) * 2023-11-01 2024-01-19 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于单词删除的同声传译方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116992894A (zh) * 2023-09-26 2023-11-03 北京澜舟科技有限公司 一种机器翻译模型的训练方法和计算机可读存储介质
CN116992894B (zh) * 2023-09-26 2024-01-16 北京澜舟科技有限公司 一种机器翻译模型的训练方法和计算机可读存储介质
CN117422075A (zh) * 2023-11-01 2024-01-19 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于单词删除的同声传译方法及系统

Similar Documents

Publication Publication Date Title
CN109684648B (zh) 一种多特征融合的古今汉语自动翻译方法
CN110598221B (zh) 利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法
CN110334361B (zh) 一种面向小语种语言的神经机器翻译方法
CN112115687B (zh) 一种结合知识库中的三元组和实体类型的生成问题方法
CN109933808B (zh) 一种基于动态配置解码的神经机器翻译方法
CN115719072A (zh) 一种基于掩码机制的篇章级神经机器翻译方法及系统
CN113158665A (zh) 一种基于文本摘要生成与双向语料改善对话文本生成的方法
CN112765345A (zh) 一种融合预训练模型的文本摘要自动生成方法及系统
GB2326320A (en) Text to speech synthesis using neural network
CN112347796B (zh) 一种基于蒸馏BERT与改进Transformer相结合的蒙汉神经机器翻译方法
CN110738062A (zh) 一种gru神经网络蒙汉机器翻译方法
CN114153973A (zh) 基于t-m bert预训练模型的蒙古语多模态情感分析方法
CN115658898A (zh) 一种中英文本实体关系抽取方法、系统及设备
CN116663578A (zh) 一种基于策略梯度方法改进的神经机器翻译方法
CN114118113A (zh) 一种基于语境识别的机器翻译方法
CN114595700A (zh) 融合零代词与篇章信息的汉越神经机器翻译方法
CN117877460A (zh) 语音合成方法、装置、语音合成模型训练方法、装置
CN112989845B (zh) 一种基于路由算法的篇章级神经机器翻译方法及系统
CN117251562A (zh) 一种基于事实一致性增强的文本摘要生成方法
CN116595407A (zh) 基于标签序列一致性建模的事件论元检测方法及系统
CN115223549A (zh) 一种越南语语音识别语料构建方法
CN115346158A (zh) 一种基于连贯性注意力机制及双流解码器的视频描述方法
CN114707522A (zh) 一种基于隐变量的篇章级神经机器翻译方法及系统
CN115374784A (zh) 一种多模态信息选择性融合的中文命名实体识别方法
Singh et al. An integrated model for text to text, image to text and audio to text linguistic conversion using machine learning approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination