CN113297841A - 基于预训练双语词向量的神经机器翻译方法 - Google Patents
基于预训练双语词向量的神经机器翻译方法 Download PDFInfo
- Publication number
- CN113297841A CN113297841A CN202110566113.8A CN202110566113A CN113297841A CN 113297841 A CN113297841 A CN 113297841A CN 202110566113 A CN202110566113 A CN 202110566113A CN 113297841 A CN113297841 A CN 113297841A
- Authority
- CN
- China
- Prior art keywords
- language
- word
- decoder
- source language
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013519 translation Methods 0.000 title claims abstract description 74
- 239000013598 vector Substances 0.000 title claims abstract description 70
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012549 training Methods 0.000 title claims abstract description 33
- 230000001537 neural effect Effects 0.000 title claims abstract description 31
- 239000011159 matrix material Substances 0.000 claims abstract description 24
- 238000010606 normalization Methods 0.000 claims description 19
- 238000013528 artificial neural network Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 9
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 7
- 230000000873 masking effect Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 4
- 230000014616 translation Effects 0.000 description 55
- 239000000463 material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于预训练双语词向量的神经机器翻译方法,将标注对齐的平行语料进行“源语言‑目标语言”拼接作为XLM模型的输入进行预训练;训练:取预训练得到的双语词向量矩阵初始化翻译模型;将源语言输入编码器,将源语言编码的向量表示及对应目标语言输入解码器输出预测序列,将其与相应的目标序列进行对比并计算损失值,输入优化器对翻译模型参数进行优化;预测:在某个时间步里,将源语言输入优化的编码器,编码器输出相应向量表示,将该向量表示以及上一时间步翻译的目标语言词输入解码器,解码器输出该时间步的目标词,将不同时间步翻译的目标词按时间顺序进行拼接,得到源语言翻译的结果。该方法提高了低资源语种的机器翻译效果。
Description
技术领域
本发明涉及神经机器翻译技术领域,特别涉及一种基于深度学习和双语词向量的神经机器翻译方法。
背景技术
神经机器翻译(Neural machine translation,NMT)是一种引入人工神经网络进行翻译的机器翻译技术。相较于传统的统计机器翻译(Statistical MachineTranslation,SMT),神经机器翻译使用一种端到端的“编码器-解码器”架构。具体来说,这种架构又可被分为以下三类:
(1)基于循环神经网络的神经机器翻译模型。该种模型使用长短期记忆(LongShort-Term Memory,LSTM)或门控循环单元(Gated Recurrent Units,GRU)作为搭建“编码器-解码器”架构的单元。同时,其引入注意力机制,使得生成每个目标端词语时,解码器可以将“注意力”集中到源端的几个相关词语上,并从中获取有用的信息,从而获得更好的翻译表现。
(2)基于卷积神经网络的神经机器翻译模型。该种模型使用卷积模块的叠加来搭建“编码器-解码器”架构。同时,其在词向量中加入位置编码使模型获得更丰富的信息,增强模型的表示能力;此外,其使用残差连接来缓解模型训练时的梯度消失问题。
(3)Transformer神经机器翻译模型。该种模型创新性地使用了自注意力机制来对序列进行编码,其编码和解码器均由自注意力模块和前向神经网络构成。
近年来的研究表明,在英语等单语中提出的自然语言理解生成性训练是十分有效的。仅仅针对单语进行语言模型预训练可以解决大量基于单语的自然语言处理任务,然而这对于机器翻译这种典型的基于双语处理的任务来说,针对单语的语言模型预训练收效甚微。于是,针对预训练语言模型在这方面也有着许多有意思的改进,一种有效的改进模型代表为XLM,其将预训练这种方法扩展到多种语言,并展示了跨语言预处理针对基于双语处理的自然语言处理任务的有效性。
常见的神经机器翻译模型使用大量的标注平行语料作为监督信息源,源语言被切分为词或子词然后输入编码器中,(子)词经过编码器(子)词表的词向量矩阵被表示成为词向量,经过编码器的编码过程,最终得到源语言的最终向量表示。目标语言亦被切分为词或子词,(子)词经过解码器(子)词表的词向量矩阵被表示成为词向量,解码器将源语言被编码的向量和上一时间步解码的目标词的词向量作为解码器输入,经过解码器的解码过程,最终得到目标语言相应的词。这种方法存在以下缺点:
(1)整个神经机器翻译模型的训练需要大量的标注平行语料作为监督信息源。对于不常见的语种,例如“罗马尼亚语—英语”、“拉脱维亚语—英语”翻译等,由于这些语言之间的标注平行语料特别稀缺,这些语言的神经机器翻译效果往往不如具有大量标注平行语料语种的神经机器翻译。
(2)神经机器翻译模型的词向量矩阵往往是随机初始化,且随着训练过程的进行,词向量矩阵中的参数得到学习更新,这对于仅仅具有较少的标注平行语料的语种翻译来说,词向量矩阵的初始质量较差且训练更新过程中更容易过拟合。
因此,亟待一种能够提高低资源语料的机器翻译效果的方法。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的目的在于提出一种基于预训练双语词向量的神经机器翻译方法。
为达到上述目的,本发明实施例提出了基于预训练双语词向量的神经机器翻译方法,包括以下步骤:步骤S1,将标注平行语料进行源语言-目标语言拼接,利用拼接后的标注平行语料对XLM模型进行预训练,并使用交叉熵损失函数计算损失值,将所述损失值输入优化器Adam进行所述XLM模型参数的更新优化;步骤S2,取出预训练后的XLM模型的词向量矩阵,以初始化transformer模型的编码器的词向量矩阵和解码器的词向量矩阵;步骤S3,将所述拼接后的标注平行语料的源语言相继输入至所述transformer模型的编码器中进行词向量化操作,将源语言的向量表示以及对应的目标语言输入所述解码器,得到预测序列,将所述预测序列与预设目标序列进行对比,并使用交叉熵损失函数计算损失值,将该损失值输入优化器Adam进行所述transformer模型参数的更新优化,迭代该过程,当所述损失值达到最小时,停止参数的优化更新并输出此刻的transformer模型;步骤S4,在某个时间步里,将源语言输入所述transformer模型的编码器,编码器输出相应的向量表示,将该向量表示以及上一时间步翻译的目标语言词输入所述transformer模型的解码器,解码器输出该时间步的目标词,并将不同时间步翻译的目标词按时间顺序进行拼接,得到源语言翻译的最终结果,其中,同一时间步依赖源语言只能翻译得到目标语言中的一个词。
本发明实施例的基于预训练双语词向量的神经机器翻译方法,通过预先用拼接后的标注平行语料对XLM模型进行预训练,初始化transformer模型的编/解码器词向量矩阵,缓解了低资源语种的翻译与大量标注的平行语料被用来训练的矛盾,给神经机器翻译模型的词向量矩阵找到合适的初始化,进而提高了低资源语种的机器翻译效果。
另外,根据本发明上述实施例的基于预训练双语词向量的神经机器翻译方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述预训练的任务包括随机语言建模、遮盖语言建模或翻译语言建模。
进一步地,在本发明的一个实施例中,在所述步骤S1中,当所述XLM模型仅仅设置所述随机语言建模任务或所述遮盖语言建模任务进行预训练时,只需要对非平行语料的源语言或目标语言采样任意数量的句子进行拼接,并取拼接单句前256个词作为输入语句输入到所述XLM模型中;当XLM设置所述翻译语言建模时,需要将标注平行语料中的源语言和目标语言使用句子分隔符拼接,再将拼接的整句作为单句输入到所述XLM模型中。
进一步地,在本发明的一个实施例中,所述步骤S1中所述XLM模型对所述输入语句或所述单句处理的具体过程为:当所述预训练的任务为所述随机语言建模任务时,给定句中词wt之前出现的词,建模wt出现在词w1,…,wt-1之后的概率P(wt|w1,…,wt-1,θ),即直接使用transformer encoder来预测下一个词出现的概率;当所述预训练的任务为所述遮盖语言建模任务时,按预设概率采样所述输入语句的词,同时将被采样的词按80%的概率被“[MASK]”替换,按10%的概率被随机替换成预设其他词,按10%的概率保持原词,在XLM在型的顶层预测被遮住的词;当所述预训练的任务为所述翻译语言建模任务时,随机遮盖所述单句的源语言部分和目标语言部分,所述XLM模型需要同时参考被遮盖词在源语言部分的周围词和目标语言部分的词,进而预测源语言部分被遮盖的词。
进一步地,在本发明的一个实施例中,所述编码器由六层编码层构成,每层编码层包括多头自注意力网络、残差连接、层归一化和前馈神经网络堆叠,且每层编码层将上一编码层输出的结果作为输入。
进一步地,在本发明的一个实施例中,所述步骤S3中将源语言输入所述编码器后的具体处理为:将所述源语言对所述transformer模型的编码器中进行词向量化操作,其中,需将所述词向量化操作的结果与位置编码相加,再将相加后的结果输入到所述编码器中,先由所述多头自注意力网络计算,再经过残差连接和层归一化计算,获得所述源语言的向量表示。
进一步地,在本发明的一个实施例中,所述解码器由六层解码层构成,每层解码器包括遮盖多头自注意力网络、残差连接、层归一化和前馈神经网络,且每层解码器将上一解码层输出的结果作为输入。
进一步地,在本发明的一个实施例中,所述步骤S3中将所述源语言的向量表示以及对应的目标语言输入所述解码器后的具体处理为:将所述源语言的向量表示以及对应的目标语言对所述transformer模型的解码器中,先经过所述遮盖多头自注意力网络计算,再经过残差连接和层归一化计算,再将其结果输入所述遮盖多头自注意力网络,然后经过所述前馈神经网络计算,最后数据再次经过残差连接和层归一化计算,获得所述预测序列。
进一步地,在本发明的一个实施例中,所述步骤S4具体包括:步骤S401,将所述预测源语言输入所述transformer模型的编码器中,得到所述预测源语言的向量表示;步骤S402,向所述transformer模型的解码器输入“<BOS>”标记,输出长度为1的句子,所述解码器将长度为1的句子的词作为本时间步的预测词;步骤S403,将长度为1的不完整预测句作为所述解码器的输入,输出长度为2的句子,将句子末尾的词作为所述解码器当前时间步的预测词;步骤S404,将前两次预测的词组成不完整译文作为所述解码器输入,迭代执行,直至解码器输出“<EOS>”或者译文句子达到最大预测长度,所述解码器翻译停止。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一个实施例的基于预训练双语词向量的神经机器翻译方法流程图;
图2是本发明一个实施例的基于预训练双语词向量的神经机器翻译模型示意图。
具体实施方式
下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的基于预训练双语词向量的神经机器翻译方法。
图1是本发明一个实施例的基于预训练双语词向量的神经机器翻译方法流程图。
如图1所示,该基于预训练双语词向量的神经机器翻译方法包括以下步骤:
在步骤S1中,将标注平行语料进行源语言-目标语言拼接,利用拼接后的标注平行语料对XLM模型进行预训练,并使用交叉熵损失函数计算损失值,将损失值输入优化器Adam进行XLM模型参数的更新优化。
进一步地,预训练的任务包括随机语言建模(Casual Language Model ing,CLM)、遮盖语言建模(Masked Language Modeling,MLM)或翻译语言建模(Translation LanguageModeling,TLM),其中,
当XLM模型仅仅设置随机语言建模任务或遮盖语言建模任务进行预训练时,只需要对非平行语料的源语言或目标语言采样任意数量的句子进行拼接,并取拼接单句前256个词作为输入语句输入到XLM模型中;
当XLM设置翻译语言建模时,需要将标注平行语料中的源语言和目标语言使用句子分隔符拼接,再将拼接的整句作为单句输入到XLM模型中。
进一步地,XLM模型对输入语句或单句处理的具体过程为:
当预训练的任务为随机语言建模任务时,给定句中词wt之前出现的词,建模wt出现在词w1,…,wt-1之后的概率P(wt|w1,…,wt-1,θ),即直接使用transformer encoder来预测下一个词出现的概率;
当预训练的任务为遮盖语言建模任务时,按预设概率采样输入语句的词,同时将被采样的词按80%的概率被“[MASK]”替换,按10%的概率被随机替换成预设其他词,按10%的概率保持原词,在XLM在型的顶层预测被遮住的词;
当预训练的任务为翻译语言建模任务时,随机遮盖单句的源语言部分和目标语言部分,所诉XLM模型需要同时参考被遮盖词在源语言部分的周围词和目标语言部分的词,进而预测源语言部分被遮盖的词。
也就是说,将标注的平行语料作为XLM模型的输入,设置XLM模型的预训练任务为随机语言建模、遮盖语言建模或翻译语言建模,使用交叉熵损失函数计算损失,将损失结果输入优化器Adam进行XLM模型参数的更新优化,完成在预训练阶段。
在步骤S2中,取出预训练后的XLM模型的词向量矩阵,以初始化transformer模型的编码器的词向量矩阵和解码器的词向量矩阵。
在步骤S3中,将拼接后的标注平行语料的源语言相继输入至transformer模型的编码器中进行词向量化操作,将源语言的向量表示以及对应的目标语言输入解码器,得到预测序列,将预测序列与预设目标序列进行对比,并使用交叉熵损失函数计算损失值,将该损失值输入优化器Adam进行transformer模型参数的更新优化,迭代该过程,当损失值达到最小时,停止参数的优化更新并输出此刻的transformer模型。
进一步地,在本发明的一个实施例中,编码器由六层编码层构成,每层编码层包括多头自注意力网络、残差连接、层归一化和前馈神经网络堆叠,且每层编码层将上一编码层输出的结果作为输入,解码器由六层解码层构成,每层解码器包括遮盖多头自注意力网络、残差连接、层归一化和前馈神经网络,且每层解码器将上一解码层输出的结果作为输入。
具体地,如图2所示,将标注平行语料输入到transformer模型之后的具体过程为:
transformer模型需要对输入的句子进行词向量化操作,词向量化操作的结果与位置编码相加,相加的结果输入到编码器中。位置编码如式(1)和(2)计算得到。
其中,pos是位置,i是维度,dmodel是输出维度。编码器由六层编码层构成,每层编码层由多头自注意力网络、残差连接、层归一化和前馈神经网络堆叠组成。每层编码层将上一编码层输出的结果作为输入,首先,数据经过多头自注意力网络计算,多头自注意力网络的结果如式(3)至(5)计算得到;
Multihead(Q,K,V)=Concat(head1,…,headh)WO 4)
headi=Attention(QWi Q,KWi K,VWi V) (5)
其中,Q为查询矩阵,K为键矩阵,V为值矩阵,dk为键矩阵的维度,headi表示为第i个注意力头,Wi是第i个注意力头的变换参数矩阵。接着数据经过残差连接和层归一化计算,残差连接和层归一化后的结果如式(6)至(10)计算得到;
yl=h(xl)+F(xl,Wl) (6)
xl+1=f(yl) (7)
其中,h(·)是直接映射,f(·)是激活函数。
其中,H表示一层隐藏层中隐藏单元的个数;g是增益参数,b是偏置。然后数据经过前馈神经网络计算,经过前馈神经网络得到的结果如式(11)计算得到;
FFN(x)=max(0,xW1+b1)W2+b2 (11)
最后数据再次经过残差连接和层归一化计算,得到源语言的向量表示。
经过整个编码器计算后的结果(即源语言的向量表示及对应的目标语言)输入到解码器中准备解码。解码器由六层解码层构成,每层解码层由遮盖多头自注意力网络、残差连接、层归一化、前馈神经网络组成。每层解码层将上一解码层输出的结果作为输入,首先,数据经过遮盖多头自注意力网络计算,遮盖多头自注意力网络基于多头自注意力网络,与多头自注意力网络的区别在于使得解码层不能看见未来的信息。即对于一个序列,在t时刻,解码层的输出应该只能依赖于t时刻之前的输出,而不能依赖t之后的输出。接着数据经过残差连接和层归一化计算,其结果输入多头自注意力网络,然后数据经过前馈神经网络计算,最后数据再次经过残差连接和层归一化计算,获得预测序列。
然后将预测序列和相应的目标序列进行比对,使用交叉熵损失函数计算损失,将损失结果输入优化器Adam进行transformer模型参数的更新优化。
在步骤S4中,在某个时间步里,将源语言输入transformer模型的编码器,编码器输出相应的向量表示,将该向量表示以及上一时间步翻译的目标语言词输入transformer模型的解码器,解码器输出该时间步的目标词,并将不同时间步翻译的目标词按时间顺序进行拼接,得到源语言翻译的最终结果,其中,同一时间步依赖源语言只能翻译得到目标语言中的一个词。
进一步地,步骤S4的具体执行过程为:
步骤S401,将预测源语言输入transformer模型的编码器中,得到预测源语言的向量表示;
步骤S402,向transformer模型的解码器输入“<BOS>”标记,输出长度为1的句子,解码器将长度为1的句子的词作为本时间步的预测词;
步骤S403,将长度为1的不完整预测句作为解码器的输入,输出长度为2的句子,将句子末尾的词作为解码器当前时间步的预测词;
步骤S404,将前两次预测的词组成不完整译文作为解码器输入,迭代执行,直至解码器输出“<EOS>”或者译文句子达到最大预测长度,解码器翻译停止。
因此,可以理解为:编码器输入源语言句子得到该句子的向量表示;解码器首先输入“<BOS>”标记,输出长度为1为的句子,解码器将这个词作为本时间步的预测词;然后解码器将此长度为1的不完整预测句作为输入,输出长度为2的句子,将句子末尾的词作为解码器该时间步的预测词;之后解码器再将前两次预测的词组成不完整译文作为输入;如此往复,直至解码器输出“<EOS>”或者译文句子达到最大预测长度,解码器翻译停止。
另外,本发明实施例使用iwslt2014 de-en公开数据集进行了训练和测试对本发明实施例提出的基于预训练双语词向量的神经机器翻译方法进行验证。该数据集中包含一个小规模的“德-英”口语翻译标注平行语料构成的训练、验证和测试集。“德-英”平行语料的规模统计如下表1所示。
表1 iwslt2014 de-en语料规模
本发明实施例在该数据集上测试了结果,如下表2所示。
表2 实验结果(%)
因此,本发明实施例提出的基于预训练双语词向量的神经机器翻译方法,通过预先用拼接后的标注平行语料对XLM模型进行预训练,初始化transformer模型的编/解码器词向量矩阵,缓解了低资源语种的翻译与大量标注的平行语料被用来训练的矛盾,给神经机器翻译模型的词向量矩阵找到合适的初始化,进而提高了低资源语种的机器翻译效果。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (9)
1.一种基于预训练双语词向量的神经机器翻译方法,其特征在于,包括以下步骤:
步骤S1,将标注平行语料进行源语言-目标语言拼接,利用拼接后的标注平行语料对XLM模型进行预训练,并使用交叉熵损失函数计算损失值,将所述损失值输入优化器Adam进行所述XLM模型参数的更新优化;
步骤S2,取出预训练后的XLM模型的词向量矩阵,以初始化transformer模型的编码器的词向量矩阵和解码器的词向量矩阵;
步骤S3,将所述拼接后的标注平行语料的源语言相继输入至所述transformer模型的编码器中进行词向量化操作,将源语言的向量表示以及对应的目标语言输入所述解码器,得到预测序列,将所述预测序列与预设目标序列进行对比,并使用交叉熵损失函数计算损失值,将该损失值输入优化器Adam进行所述transformer模型参数的更新优化,迭代该过程,当所述损失值达到最小时,停止参数的优化更新并输出此刻的transformer模型;
步骤S4,在某个时间步里,将源语言输入所述transformer模型的编码器,编码器输出相应的向量表示,将该向量表示以及上一时间步翻译的目标语言词输入所述transformer模型的解码器,解码器输出该时间步的目标词,并将不同时间步翻译的目标词按时间顺序进行拼接,得到源语言翻译的最终结果,其中,同一时间步依赖源语言只能翻译得到目标语言中的一个词。
2.根据权利要求1所述的基于预训练双语词向量的神经机器翻译方法,其特征在于,所述预训练的任务包括随机语言建模、遮盖语言建模或翻译语言建模。
3.根据权利要求2所述的基于预训练双语词向量的神经机器翻译方法,其特征在于,在所述步骤S1中,
当所述XLM模型仅仅设置所述随机语言建模任务或所述遮盖语言建模任务进行预训练时,只需要对非平行语料的源语言或目标语言采样任意数量的句子进行拼接,并取拼接单句前256个词作为输入语句输入到所述XLM模型中;
当XLM设置所述翻译语言建模时,需要将标注平行语料中的源语言和目标语言使用句子分隔符拼接,再将拼接的整句作为单句输入到所述XLM模型中。
4.根据权利要求3所述的基于预训练双语词向量的神经机器翻译方法,其特征在于,所述步骤S1中所述XLM模型对所述输入语句或所述单句处理的具体过程为:
当所述预训练的任务为所述随机语言建模任务时,给定句中词wt之前出现的词,建模wt出现在词w1,…,wt-1之后的概率P(wt|w1,…,wt-1,θ),即直接使用transformer encoder来预测下一个词出现的概率;
当所述预训练的任务为所述遮盖语言建模任务时,按预设概率采样所述输入语句的词,同时将被采样的词按80%的概率被“[MASK]”替换,按10%的概率被随机替换成预设其他词,按10%的概率保持原词,在XLM在型的顶层预测被遮住的词;
当所述预训练的任务为所述翻译语言建模任务时,随机遮盖所述单句的源语言部分和目标语言部分,所述XLM模型需要同时参考被遮盖词在源语言部分的周围词和目标语言部分的词,进而预测源语言部分被遮盖的词。
5.根据权利要求1所述的基于预训练双语词向量的神经机器翻译方法,其特征在于,所述编码器由六层编码层构成,每层编码层包括多头自注意力网络、残差连接、层归一化和前馈神经网络堆叠,且每层编码层将上一编码层输出的结果作为输入。
6.根据权利要求5所述的基于预训练双语词向量的神经机器翻译方法,其特征在于,所述步骤S3中将源语言输入所述编码器后的具体处理为:
将所述源语言对所述transformer模型的编码器中进行词向量化操作,其中,需将所述词向量化操作的结果与位置编码相加,再将相加后的结果输入到所述编码器中,先由所述多头自注意力网络计算,再经过残差连接和层归一化计算,获得所述源语言的向量表示。
7.根据权利要求1所述的基于预训练双语词向量的神经机器翻译方法,其特征在于,所述解码器由六层解码层构成,每层解码器包括遮盖多头自注意力网络、残差连接、层归一化和前馈神经网络,且每层解码器将上一解码层输出的结果作为输入。
8.根据权利要求6所述的基于预训练双语词向量的神经机器翻译方法,其特征在于,所述步骤S3中将所述源语言的向量表示以及对应的目标语言输入所述解码器后的具体处理为:
将所述源语言的向量表示以及对应的目标语言对所述transformer模型的解码器中,先经过所述遮盖多头自注意力网络计算,再经过残差连接和层归一化计算,再将其结果输入所述遮盖多头自注意力网络,然后经过所述前馈神经网络计算,最后数据再次经过残差连接和层归一化计算,获得所述预测序列。
9.根据权利要求1所述的基于预训练双语词向量的神经机器翻译方法,其特征在于,所述步骤S4具体包括:
步骤S401,将所述预测源语言输入所述transformer模型的编码器中,得到所述预测源语言的向量表示;
步骤S402,向所述transformer模型的解码器输入“<BOS>”标记,输出长度为1的句子,所述解码器将长度为1的句子的词作为本时间步的预测词;
步骤S403,将长度为1的不完整预测句作为所述解码器的输入,输出长度为2的句子,将句子末尾的词作为所述解码器当前时间步的预测词;
步骤S404,将前两次预测的词组成不完整译文作为所述解码器输入,迭代执行,直至解码器输出“<EOS>”或者译文句子达到最大预测长度,所述解码器翻译停止。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110566113.8A CN113297841A (zh) | 2021-05-24 | 2021-05-24 | 基于预训练双语词向量的神经机器翻译方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110566113.8A CN113297841A (zh) | 2021-05-24 | 2021-05-24 | 基于预训练双语词向量的神经机器翻译方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113297841A true CN113297841A (zh) | 2021-08-24 |
Family
ID=77324404
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110566113.8A Pending CN113297841A (zh) | 2021-05-24 | 2021-05-24 | 基于预训练双语词向量的神经机器翻译方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113297841A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114611532A (zh) * | 2022-05-06 | 2022-06-10 | 北京百度网讯科技有限公司 | 语言模型训练方法及装置、目标翻译错误检测方法及装置 |
CN114626363A (zh) * | 2022-05-16 | 2022-06-14 | 天津大学 | 一种基于翻译的跨语言短语结构分析方法及装置 |
CN114841176A (zh) * | 2022-05-16 | 2022-08-02 | 天津大学 | 一种神经机器翻译鲁棒性增强方法、设备及存储介质 |
CN114896993A (zh) * | 2022-05-06 | 2022-08-12 | 北京百度网讯科技有限公司 | 翻译模型的生成方法、装置、电子设备及存储介质 |
CN115017924A (zh) * | 2022-07-11 | 2022-09-06 | 西南财经大学 | 跨语际语言翻译的神经机器翻译模型构建及其翻译方法 |
CN115268868A (zh) * | 2022-07-26 | 2022-11-01 | 中国海洋大学 | 一种基于有监督学习的智能源码转换方法 |
WO2023082900A1 (zh) * | 2021-11-10 | 2023-05-19 | 北京有竹居网络技术有限公司 | 用于机器翻译的方法、设备和介质 |
CN116227506A (zh) * | 2023-05-08 | 2023-06-06 | 湘江实验室 | 一种具有高效非线性注意力结构的机器翻译方法 |
WO2023116709A1 (zh) * | 2021-12-20 | 2023-06-29 | 中兴通讯股份有限公司 | 机器翻译方法、装置、电子设备和存储介质 |
WO2023160472A1 (zh) * | 2022-02-22 | 2023-08-31 | 华为技术有限公司 | 一种模型训练方法及相关设备 |
WO2023169024A1 (zh) * | 2022-03-11 | 2023-09-14 | 华为云计算技术有限公司 | 一种翻译系统及其训练、应用方法以及相关设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492232A (zh) * | 2018-10-22 | 2019-03-19 | 内蒙古工业大学 | 一种基于Transformer的增强语义特征信息的蒙汉机器翻译方法 |
CN110334361A (zh) * | 2019-07-12 | 2019-10-15 | 电子科技大学 | 一种面向小语种语言的神经机器翻译方法 |
-
2021
- 2021-05-24 CN CN202110566113.8A patent/CN113297841A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492232A (zh) * | 2018-10-22 | 2019-03-19 | 内蒙古工业大学 | 一种基于Transformer的增强语义特征信息的蒙汉机器翻译方法 |
CN110334361A (zh) * | 2019-07-12 | 2019-10-15 | 电子科技大学 | 一种面向小语种语言的神经机器翻译方法 |
Non-Patent Citations (2)
Title |
---|
N. DONALD JEFFERSON 等: "Low Resource Neural Machine Translation from English to Khasi: A Transformer-Based Approach", 《PROCEEDINGS OF THE INTERNATIONAL CONFERENCE ON COMPUTING AND COMMUNICATION SYSTEMS》 * |
WENBO ZHANG 等: "Keeping Models Consistent between Pretraining and Translation for Low-Resource Neural Machine Translation", 《FUTURE INTERNET》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023082900A1 (zh) * | 2021-11-10 | 2023-05-19 | 北京有竹居网络技术有限公司 | 用于机器翻译的方法、设备和介质 |
WO2023116709A1 (zh) * | 2021-12-20 | 2023-06-29 | 中兴通讯股份有限公司 | 机器翻译方法、装置、电子设备和存储介质 |
WO2023160472A1 (zh) * | 2022-02-22 | 2023-08-31 | 华为技术有限公司 | 一种模型训练方法及相关设备 |
WO2023169024A1 (zh) * | 2022-03-11 | 2023-09-14 | 华为云计算技术有限公司 | 一种翻译系统及其训练、应用方法以及相关设备 |
CN114896993A (zh) * | 2022-05-06 | 2022-08-12 | 北京百度网讯科技有限公司 | 翻译模型的生成方法、装置、电子设备及存储介质 |
CN114611532A (zh) * | 2022-05-06 | 2022-06-10 | 北京百度网讯科技有限公司 | 语言模型训练方法及装置、目标翻译错误检测方法及装置 |
CN114841176A (zh) * | 2022-05-16 | 2022-08-02 | 天津大学 | 一种神经机器翻译鲁棒性增强方法、设备及存储介质 |
CN114626363A (zh) * | 2022-05-16 | 2022-06-14 | 天津大学 | 一种基于翻译的跨语言短语结构分析方法及装置 |
CN114841176B (zh) * | 2022-05-16 | 2023-09-01 | 天津大学 | 一种神经机器翻译鲁棒性增强方法、设备及存储介质 |
CN115017924A (zh) * | 2022-07-11 | 2022-09-06 | 西南财经大学 | 跨语际语言翻译的神经机器翻译模型构建及其翻译方法 |
CN115017924B (zh) * | 2022-07-11 | 2023-11-07 | 西南财经大学 | 跨语际语言翻译的神经机器翻译模型构建及其翻译方法 |
CN115268868A (zh) * | 2022-07-26 | 2022-11-01 | 中国海洋大学 | 一种基于有监督学习的智能源码转换方法 |
CN116227506A (zh) * | 2023-05-08 | 2023-06-06 | 湘江实验室 | 一种具有高效非线性注意力结构的机器翻译方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113297841A (zh) | 基于预训练双语词向量的神经机器翻译方法 | |
Liu et al. | A recursive recurrent neural network for statistical machine translation | |
CN107632981B (zh) | 一种引入源语组块信息编码的神经机器翻译方法 | |
CN111597778B (zh) | 一种基于自监督的机器翻译译文自动优化的方法和系统 | |
Klejch et al. | Sequence-to-sequence models for punctuated transcription combining lexical and acoustic features | |
CN109933808B (zh) | 一种基于动态配置解码的神经机器翻译方法 | |
CN109522403B (zh) | 一种基于融合编码的摘要文本生成方法 | |
CN111324744A (zh) | 一种基于目标情感分析数据集的数据增强方法 | |
CN112699690B (zh) | 翻译模型的训练方法、翻译方法、电子设备、存储介质 | |
CN110717345B (zh) | 一种译文重对齐的循环神经网络跨语言机器翻译方法 | |
CN111783477B (zh) | 一种语音翻译方法及系统 | |
Yoon et al. | TutorNet: Towards flexible knowledge distillation for end-to-end speech recognition | |
Nagaraj et al. | Kannada to English Machine Translation Using Deep Neural Network. | |
CN115831102A (zh) | 基于预训练特征表示的语音识别方法、装置及电子设备 | |
CN114781377B (zh) | 非对齐文本的纠错模型、训练及纠错方法 | |
CN115935957B (zh) | 一种基于句法分析的句子语法纠错方法及系统 | |
Chae et al. | Convolutional sequence to sequence model with non-sequential greedy decoding for grapheme to phoneme conversion | |
CN113449529A (zh) | 一种翻译模型的训练方法及装置、翻译方法及装置 | |
CN114429144B (zh) | 一种运用辅助记忆的多样性机器翻译方法 | |
CN114595700A (zh) | 融合零代词与篇章信息的汉越神经机器翻译方法 | |
JP7457328B2 (ja) | 翻訳学習装置、翻訳学習方法及びプログラム | |
Popattia et al. | Guiding attention using partial-order relationships for image captioning | |
CN114238549A (zh) | 文本生成模型的训练方法、装置、存储介质及计算机设备 | |
Ramaiah et al. | Study of Neural Machine Translation With Long Short-Term Memory Techniques | |
CN112131363A (zh) | 自动问答方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210824 |
|
RJ01 | Rejection of invention patent application after publication |