CN112347796A - 一种基于蒸馏BERT与改进Transformer相结合的蒙汉神经机器翻译方法 - Google Patents

一种基于蒸馏BERT与改进Transformer相结合的蒙汉神经机器翻译方法 Download PDF

Info

Publication number
CN112347796A
CN112347796A CN202011250555.3A CN202011250555A CN112347796A CN 112347796 A CN112347796 A CN 112347796A CN 202011250555 A CN202011250555 A CN 202011250555A CN 112347796 A CN112347796 A CN 112347796A
Authority
CN
China
Prior art keywords
bert
machine translation
word vector
model
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011250555.3A
Other languages
English (en)
Other versions
CN112347796B (zh
Inventor
苏依拉
吕苏艳
梁衍锋
任庆道尔吉
李雷孝
石宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inner Mongolia University of Technology
Original Assignee
Inner Mongolia University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inner Mongolia University of Technology filed Critical Inner Mongolia University of Technology
Priority to CN202011250555.3A priority Critical patent/CN112347796B/zh
Publication of CN112347796A publication Critical patent/CN112347796A/zh
Application granted granted Critical
Publication of CN112347796B publication Critical patent/CN112347796B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

一种基于蒸馏BERT与改进Transformer相结合的蒙汉神经机器翻译方法,从基于语境化的词向量预训练模型中提取静态的词向量表征,并将其输入到改进Transformer机器翻译模型的所有层进行蒙汉机器翻译。本发明从基于语境化的词向量预训练模型BERT中提取静态嵌入以达到蒸馏BERT的目的,同时尝试将蒸馏BERT的输出表征作为改进Transformer机器翻译模型的词嵌入。该方法主要针对BERT预训练词向量模型难训练、训练时间开销过大,以及Transformer机器翻译模型超参数化、需预热等问题,试图将动静态嵌入相融合的预训练模型与改进的Transformer机器翻译模型结合在一起,以达到提高蒙汉机器翻译效率、提升蒙汉机器翻译质量的目的。

Description

一种基于蒸馏BERT与改进Transformer相结合的蒙汉神经机 器翻译方法
技术领域
本发明属于自然语言处理(NLP)中的机器翻译技术领域,特别涉及一种基于蒸馏BERT(Bidirectional Encoder Representations from Transformers,伯特)与改进Transformer相结合的蒙汉神经机器翻译方法。
背景技术
机器翻译首先要将源语言转换成计算机能够理解的向量或者矩阵,即将词映射为实数域向量,这就是词嵌入(Word Embedding)技术。2013年,Mikolov提出了Word2vec词嵌入方法。2014年,Jeffrey Pennington等人提出了一种新的Glo Ve方法。这些方法都是静态的,与上下文无关的。2018年谷歌提出了BERT方法,这一方法是动态的,与上下文相关的。作为2018年自然语言处理领域的新秀,BERT做到了过去几年NLP重大进展的集大成,刷新了11项NLP测试的最高纪录,甚至超越了人类的表现。
针对翻译过程,2014年基于神经网络的机器翻译方法开始兴起。采用端到端的神经机器翻译(neural machine translation,NMT)获得了迅速发展。相较于传统的基于规则和统计的机器翻译方法而言,NMT能够借助编码器-解码器直接实现源语言文本到目标语言文本的映射,不需要再进行词对齐、短语切分等步骤,使句子翻译更为简单、高效。2017年,谷歌的机器翻译团队在《Attention is All You Need》一文中首次提出了Transformer框架,Transformer在机器翻译任务上的表现远超其他神经网络翻译模型,成为了机器翻译领域最先进的技术架构。
当下基于语境化的BERT已经成为纳入下游NLP任务的预训练表征的事实起点,基于静态嵌入的前辈(Word2Vec和Glo Ve)成为了过去式。但是BERT模型也有一定的缺点,预训练过程时间开销大,收敛得比left-to-right模型要慢。针对这一方面,静态嵌入确实有其优点,使它们易于理解和使用。此外,静态嵌入的嵌入分析方法也比动态嵌入的嵌入分析方法更加多样和成熟。
针对Transformer框架,虽然其在神经机器翻译领域的表现良好,但是由于其引入了多头注意力机制,所以在训练过程中会产生超参数化问题。不仅如此,训练一个Transformer模型通常需要一个精心设计的学习率预热阶段,实证研究均表明,由于输出层附近的参数期望梯度较大,在这些梯度上使用大的学习率会使训练变得不稳定。学习率预热阶段实际上有助于避免这个问题。在优化的初始化阶段,学习率必须设置为一个非常小的值,然后在给定的迭代次数中逐渐增加。这一阶段被证明是至关重要的一个步骤。然而此种模型的最终性能对最大学习速率和预热迭代次数非常敏感。在训练大型模型时,调整此类敏感超参数的成本很高,时间代价很大。
我国是多民族国家,为了更好地促进蒙古族与汉族经济文化交融,蒙汉翻译技术显得尤为重要。然而小语种由于语料库缺乏,平行语料稀缺,所以更需要从技术层面进一步提高翻译质量。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于蒸馏BERT与改进Transformer相结合的蒙汉神经机器翻译方法,从基于语境化的词向量预训练模型BERT中提取静态嵌入以达到蒸馏BERT的目的,同时尝试将蒸馏BERT的输出表征作为改进Transformer机器翻译模型的词嵌入。该方法主要针对BERT预训练词向量模型难训练、训练时间开销过大,以及Transformer机器翻译模型超参数化、需预热等问题,试图将动静态嵌入相融合的预训练模型与改进的Transformer机器翻译模型结合在一起,以达到提高蒙汉机器翻译效率、提升蒙汉机器翻译质量的目的。
为了实现上述目的,本发明采用的技术方案是:
一种基于蒸馏BERT与改进Transformer相结合的蒙汉神经机器翻译方法,从基于语境化的词向量预训练模型中提取静态的词向量表征,并将其输入到改进Transformer机器翻译模型的所有层进行蒙汉机器翻译。
优选地,所述从基于语境化的词向量预训练模型中提取静态的词向量表征,是通过蒸馏的方法,将得到的上下文相关的词向量表征转化为静态的词向量表征。
优选地,所述蒸馏的方法为如下之一:
方法一,子词组池法
首先把句子中出现的词组标注出来,然后再将一个词组分解为多个子词组进行标注,表示为:
Figure BDA0002771437850000031
表示词组ts的子词组,k为子词组的个数;
方法二,上下文结合法
从大的中文语料库C中随机抽取n个句子,每个句子都包含词组t,计算向量
Figure BDA0002771437850000034
然后产生聚合n个句子中词组t的唯一表示,即,将多个上下文进行组合来表示词组t,从而将基于语境的动态表征转化为静态表示。
优选地,所述方法一中,采用四种潜在的池策略机制表示ts,公式为
Figure BDA0002771437850000032
min(·)和max(·)是元素的最大词池和最小词池,mean(·)表示平均池,last(·)表示选择最后一个向量
Figure BDA0002771437850000035
所述方法二中,应用池策略机制产生聚合n个句子中词组t的唯一表示,公式为
Figure BDA0002771437850000033
优选地,所述Transformer机器翻译模型由编码器和解码器两部分组成,编码器包含一个自注意力机制和一个前馈神经网络,解码器包含一个自注意力机制、一个编码器-解码器注意力机制和一个前馈神经网络,编码器将输入序列映射为隐形表征,再由解码器将隐形表征翻译成句子,其中编码器和解码器的每个子层的周围均有一个残差连接。
优选地,所述改进Transformer机器翻译模型中,每个残差连接内设置有一个层归一化单元,提前进行归一化,并将其置于前馈神经网络所有非线性变换(ReLU)之前,以此获得更好的归一化梯度。
优选地,所述改进Transformer机器翻译模型中,最后一个前馈神经网络层的梯度函数为:
Figure BDA0002771437850000041
其中
Figure BDA0002771437850000042
表示损失函数,L表示层数,d表示隐层表征的维数,W表示WQ,WK,WV参数,O代表梯度范数,||·||F表示F-范数。
即,改进Transformer机器翻译模型不包含学习率预热阶段,输入到最后一层的层归一化的梯度下降范围随L线性增长,最终所有的参数梯度将会被
Figure BDA0002771437850000043
归一化。
优选地,所述词向量预训练模型的输出的表征输入到改进Transformer机器翻译模型编解码器的各个层,其中,在改进Transformer机器翻译模型编码器和解码器的每一层均加入一个Bert注意力机制,分别为Bert-编码器注意力机制和Bert-解码器注意力机制;
首先,源语言的词嵌入作为编码器的输入,输入到自注意力机制中,同时输入序列被转换成由词向量预训练模型处理得到的词向量表征,然后输入到Bert-编码器注意力机制,编码器的每一层与获得的表征进行交互:1/2(Bert-编码器注意力机制+自注意力机制),即:Bert-编码器注意力机制的输出与自注意力机制的输出求和取平均,再将其得到的结果输入到改进的层归一化架构中,最终输出融合表征。
其次,目标语言词向量作为输入,输入到解码器端的自注意力机制中、经由词向量预训练模型得到的词向量表征输入到Bert-解码器注意力机制,解码器的每一层均与获得的表征进行交互:1/2(Bert-编码器注意力机制+自注意力机制+编码器-解码器注意力机制),即:Bert-编码器注意力机制的输出、自注意力机制的输出和编码器-解码器注意力机制的输出求和再取平均。将其得到的结果输入到改进的层归一化架构中,再经线性变换、Softmax函数最终输出预测的目标语言直到预测到终止符停止。
与现有技术相比,本发明的有益效果是:
首先,静态词向量表征确有其优势,从动态的Bert预训练模型中提取静态的词向量表征蒸馏方法能更直接的理解和更快速的使用这些表征。此外,静态词向量表征的嵌入分析方法比那些可用于动态的同类方法更加多样化和成熟。效果也要比单纯的静态词向量表征方法要好,同时也比动态词向量表征方法更简单、直接。其次,将Transformer的层归一化架构放到残差连接中,Transformer机器翻译模型将可以不再需要进行耗时过长的预热阶段,提升了Transformer的机器翻译效率。最后,与传统的基于Transformer的翻译模型相比,结合蒸馏Bert的机器翻译模型将经由Bert得到的强大的词向量表征与经由Transformer多头注意力机制得到的向量表征相结合。通过这些表征的交互,进一步提升了机器翻译质量。
附图说明
图1是词向量预训练模型示意图。
图2是Transformer机器翻译模型“层归一化”架构示意图。
图3是改进Transformer机器翻译模型“层归一化”架构示意图。
图4是将蒸馏BERT与改进Transformer模型相结合的示意图。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
本发明为一种基于蒸馏BERT与改进Transformer相结合的蒙汉神经机器翻译方法,其采用BERT模型和改进的Transformer机器翻译模型,其中BERT模型包含了编码器结构,改进的Transformer端则由编码器和解码器组成。
本发明的步骤包括:
1、从基于语境化的词向量预训练模型中提取静态的词向量表征。
2、将提取的词向量表征输入到改进的Transformer机器翻译模型的所有层进行蒙汉机器翻译。
步骤1和步骤2分别在BERT模型和改进的Transformer机器翻译模型具体实现,下面分别详细说明。
一、BERT模型
图1所示为BERT模型的结构,它是一个多层双向Transformer编码器。BERT模型之前有三个向量用来将输入的文本转化成原始词向量:分别是字向量、文本向量、位置向量。首先本发明将大量未标注的蒙汉平行语料做分词处理。其次,BERT模型通过查询字向量表将切分后的蒙汉平行语料中的每个字转换为一维向量。接着在训练的过程中自学习获取刻画文本的全局语义信息,并与单字(词)语义相融合。由于很多词汇存在一词多义的现象,出现在不同文本的位置所表示的含义不同。例如:“我的手机是苹果”和“我今天吃了一个苹果”所以BERT模型会对不同位置出现的相同字(词)附加一个位置向量以作区分。最后,BERT模型将字向量、文本向量和位置向量的加和作为模型输入。输出的则是是输入各字(词)对应的融合全文语义信息后的向量表征。
BERT内部包含了多头注意力机制和前馈神经网络两部分。注意力机制的作用是将神经网络把注意力放在一部分重要的信息上,从而达到增强字(词)语义的目的。
注意力机制主要涉及到三个概念:Query、Key和Value。目标字(词)及其上下文的字词都有各自的原始value,注意力机制将目标字(词)作为Query、其上下文的各个字(词)作为Key,并将Query与各个Key的相似性作为权重,把上下文各个字(词)的Value融入目标字(词)的原始Value中。自注意力机制则是在此基础上将每个字(词)都作为Query,在与文本中所有的语义信息加权融合。多头自注意力机制则是进一步利用不同的自注意力机制获得蒙汉平行语料文本中每个字在不同语义空间下的增强语义向量,并将每个字的多个增强语义向量进行线性组合,从而获得一个最终的与原始字向量长度相同的增强语义向量。
多头注意力机制定义为:
Figure BDA0002771437850000071
Multi-head(Q,K,V)=Contact(head1,…,headH)WO
Figure BDA0002771437850000072
其中,Q(Quary)、K(Key)和V(Value)被指定为前一层的隐藏表示,h是多头注意力机制的头数,d是隐藏层的维度。
前馈神经网络的每一个结点都与上一层的所有结点相连,用来把前边提取到的特征综合起来,从而起到分类的目的。
基于上述架构,BERT模型用“掩藏语言模型”和“下一个句子预测”方法联合训练。使模型输出的每个字(词)的向量表征都能尽可能全面、准确地刻画输入的蒙汉平行语料文本。然后进行重要的蒸馏静态嵌入环节,通过蒸馏的方法,将动态的蒙汉平行语料词向量(即上下文相关的词向量表征)转化为静态的词向量表征。
本发明将词向量预训练模型(BERT)得到的上下文相关的词向量表征转化为静态的词向量表征的机制,打破了预训练模型一分为二的现状。这样即保留了原来高质量的向量表征,又可简单直接地使用。
本发明提出了两种蒸馏方法。
方法一,子词组池法
首先把句子中出现的词组标注出来,然后再将一个词组分解为多个子词组进行标注,表示为:
Figure BDA0002771437850000073
表示词组ts的子词组,k为子词组的个数。例如:用s表示上下文句子“我的学校是内蒙古工业大学”,t表示“内蒙古工业大学”这个词组,“内蒙古工业大学”又可以切分为“t1=内蒙古”、“t2=工业”、“t3=大学”三个子词组。在中文中跨语境将一个词组分解成多个子词组的切分方法相同,并且子词组可以明确的与源词组相关联。因此,词向量预训练模型的任何给定层都可以输出向量
Figure BDA0002771437850000074
本发明考虑了四种潜在的池策略机制来表示ts,公式为
Figure BDA0002771437850000081
min(·)和max(·)是元素的最大词池和最小词池,mean(·)表示平均池,例如:
Figure BDA0002771437850000082
last(·)表示选择最后一个向量
Figure BDA0002771437850000083
方法二,上下文结合法
为了将基于语境的动态表征转化为静态表示,本发明考虑将多个上下文进行组合来表示词组t。本发明从大的中文语料库C中随机抽取n个句子,每个句子都包含词组t,计算向量
Figure BDA0002771437850000084
然后应用池策略机制产生聚合n个句子中词组t的唯一表示,公式为
Figure BDA0002771437850000085
二、改进的Transformer机器翻译模型
Transformer机器翻译模型旨在将输入序列由源语言(汉语)翻译成目标语言(蒙语),它由编码器解码器两部分组成。解码器包含两层,一个自注意力机制和一个前馈神经网络,自注意力机制能帮助当前节点不仅只关注当前的词,还能获取到上下文的语义。解码器也包含编码器提到的两层网络,但是在这两层中间还有一个编码器-解码器注意力机制,帮助当前节点获取到当前需要关注的重点内容。即,解码器包含一个自注意力机制、一个编码器-解码器注意力机制和一个前馈神经网络。编码器将输入序列映射为隐形表征,再由解码器将隐形表征翻译成句子。
在每个编码器和解码器的每个子层的周围均有一个残差连接,并且都跟随着一个“层归一化”步骤。Transformer机器翻译模型的“层归一化”是在残差连接之间进行,必须需要学习率预热阶段。由于“层归一化”的位置上在控制梯度尺度中起着至关重要的作用,本发明重新定位了“层归一化”的位置。将“层归一化”放在残差连接内,每个残差连接内设置有一个层归一化单元,提前进行归一化,并将其置于所有其他非线性变换(ReLU)之前,以此获得更好的归一化梯度。
此外,本发明认为改进Transformer机器翻译模型并不依赖学习率预热阶段,可以将其去掉,理由如下:
由Xavier高斯分布可知:
Transformer机器翻译模型最后一个前馈神经网络层的梯度函数:
Figure BDA0002771437850000091
改进的Transformer机器翻译模型最后一个前馈神经网络层的梯度函数:
Figure BDA0002771437850000092
其中
Figure BDA0002771437850000093
表示损失函数,L表示层数,d表示隐层表征的维数,W表示WQ,WK,WV参数,O代表梯度范数,||·||F表示F-范数。
从上述公式可以看出层归一化的确会标准化梯度。在Transformer机器翻译模型中,输入到“层归一化”的比例与层数L无关,因此最后一层的参数梯度也是与L无关的;而在改进的Transformer机器翻译模型中,不包含学习率预热阶段,输入到最后一层的“层归一化”的梯度下降范围是随L线性增长的,因此所有的参数梯度将会被
Figure BDA0002771437850000094
归一化。
如果扩展到每一层,就可以得出结论Transformer的梯度范数在输出层附近很大,因此有可能随着梯度指数l的减小而衰退,相反改进Transformer模型在每一层l的梯度范数都可以保持不变。所以学习率预热阶段对于改进Transformer机器翻译模型作用不大,完全可以取消。
现有的Transformer机器翻译模型“层归一化”架构如图2所示,可以清楚地看出最常用的Transformer架构遵循着前馈神经网络(子层)→残差连接→层归一化的顺序。本发明改进Transformer机器翻译模型“层归一化”架构如图3所示,遵循着残差连接(包含层归一化)→前馈神经网络的顺序。
图4是将蒸馏BERT与改进的Transformer机器翻译模型相结合的示意图。从左到右依次为蒸馏BERT、编码器、解码器。
即,蒸馏BERT在此处为改进的Transformer机器翻译模型中的一部分,即编码器端。如果想将二者融合使用,使蒸馏BERT的输出表征作为改进的Transformer机器翻译模型的嵌入,势必要考虑模型的实际情况。由于改进的Transformer机器翻译模型的解码器端是单向的,BERT要求的模型是双向的,其输出表征不可以直接作为编码器嵌入序列。所以本发明提出利用BERT的输出表征将其输入到Transformer编解码器的各个层,而不是仅仅作为输入嵌入。为此编码器和解码器的每一层需要再加入一个注意力机制,即Bert-编码器注意力机制和Bert-解码器注意力机制。输入序列首先被转换成由蒸馏词向量预训练模型处理的词向量表征。然后通过Bert-编码器注意模块,每个Transformer编码器层与从蒸馏BERT获得的词向量表征进行交互,最终利用蒸馏BERT和改进的Transformer机器翻译模型的编码器输出融合表征。解码器的工作原理类似。利用注意机制可以自适应地控制每一层与词嵌入的交互作用,并处理蒸馏BERT模型和改进的Transformer模型可能使用的不同分词规则,从而导致不同的序列长度问题。
具体步骤可描述为:
首先,源语言的词嵌入作为编码器的输入,输入到自注意力机制中,同时输入序列被转换成由词向量预训练模型处理得到的词向量表征,然后输入到Bert-编码器注意力机制,编码器的每一层与获得的表征进行交互:即:Bert-编码器注意力机制的输出与自注意力机制的输出求和取平均,再将其得到的结果输入到改进的层归一化架构中,最终输出融合表征。
其次,目标语言词向量作为输入,输入到解码器端的自注意力机制中、经由词向量预训练模型得到的词向量表征输入到Bert-解码器注意力机制中,解码器的每一层均与获得的表征进行交互::1/2(Bert-编码器注意力机制+自注意力机制+编码器-解码器注意力机制),即:Bert-编码器注意力机制的输出、自注意力机制的输出和编码器-解码器注意力机制的输出求和再取平均。将其得到的结果输入到改进的层归一化架构中,再经线性变换、Softmax函数最终输出预测的目标语言直到预测到终止符停止。
再次参考图4,本发明的完全流程如下:
首先定义下必要的符号,分别用S表示源语言域(汉语),A表示目标语言域(蒙语),它们分别对应蒙汉平行语料库中的句子集。对于任何句子s∈S和t∈A,ls和lt表示源语言句子和目标语言句子的最小单元(汉语的字或蒙古语的词素)si/ai表示在s/a第i个单元。本发明假设编码器和解码器都有L层,其中的注意力机制参数与前述BERT模型架构相同。虚线表示残差连接,标注“1”和“2”的线分别表示静态嵌入和编码器的最后一层输出。
蒙汉神经机器翻译的步骤:
第一步:对于任何s∈S的输入,BERT模型首先将其编码为GB=Bert(x),再经过蒸馏GB→MB得到静态嵌入MB。其中,mB,i∈MB代表源句子s中第i字(词)元素。
第二步:
Figure BDA0002771437850000111
表示编码器第l层的隐藏表示,
Figure BDA0002771437850000112
表示句子序列的词嵌入。对于任意的i∈[ls],l∈[L],定义
Figure BDA0002771437850000119
Figure BDA0002771437850000118
中的第l层第i切字(词)元素,
Figure BDA0002771437850000113
其中,Wq,Wk,Wv均是本发明要学习的参数,attention代表多头注意力机制。
本发明定义非线性变换层为:
FFN(s)=W2max(W1s+b1,0)+b2
其中,W1,W2,b1,b2均是要学习的参数,max是元素运算符。
Figure BDA0002771437850000114
其中,attentionX和attentionB是有着不同参数的注意力模型,每一个
Figure BDA0002771437850000115
被FFN(·)进一步处理,本发明可以得到l层的输出为:
Figure BDA0002771437850000116
编码器最终将从最后一层输出
Figure BDA0002771437850000117
第三步:Xl<t表示在时间戳t之前的解码器中第l层的状态。例如:
Figure BDA0002771437850000121
Figure BDA0002771437850000122
是序列开始的特殊标记,
Figure BDA0002771437850000123
是在时间t-1时所预测的词嵌入。在第l层可见:
Figure BDA0002771437850000124
Figure BDA0002771437850000125
attentionX,attentionB,attentionE分别代表了自注意力机制、BERT-解码器注意力机制和编码器-解码器注意力机制。经过层层迭代,最终可以获得
Figure BDA0002771437850000126
最后
Figure BDA0002771437850000127
通过线性变换和softmax函数输出第t个预测词
Figure BDA0002771437850000128
遇句尾标记符解码过程停止,翻译结束。
在本发明框架中,BERT的输出经过蒸馏得到的静态嵌入作为一个外部序列表示,实现了静态词嵌入和动态词嵌入模型合二为一的想法,将二者的优点相融合来提高预训练水平。同时本发明在改进的Transformer的编码器-解码器端各加了一个注意力模型将其与原有的注意力机制并行,这是一种不考虑标记化的预训练模型的通用方法。同时对Transformer模型“层归一化”的位置进行改进,可以去掉学习率预热阶段,来提升翻译的质量和效率。

Claims (8)

1.一种基于蒸馏BERT与改进Transformer相结合的蒙汉神经机器翻译方法,其特征在于,从基于语境化的词向量预训练模型中提取静态的词向量表征,并将其输入到改进Transformer机器翻译模型的所有层进行蒙汉机器翻译。
2.根据权利要求1所述基于蒸馏BERT与改进Transformer相结合的蒙汉神经机器翻译方法,其特征在于,所述从基于语境化的词向量预训练模型中提取静态的词向量表征,是通过蒸馏的方法,将得到的上下文相关的词向量表征转化为静态的词向量表征。
3.根据权利要求2所述基于蒸馏BERT与改进Transformer相结合的蒙汉神经机器翻译方法,其特征在于,所述蒸馏的方法为如下之一:
方法一,子词组池法
首先把句子中出现的词组标注出来,然后再将一个词组分解为多个子词组进行标注,表示为:
Figure FDA0002771437840000011
Figure FDA0002771437840000012
表示词组ts的子词组,k为子词组的个数;
方法二,上下文结合法
从大的中文语料库C中随机抽取n个句子,每个句子都包含词组t,计算向量
Figure FDA0002771437840000013
然后产生聚合n个句子中词组t的唯一表示,即,将多个上下文进行组合来表示词组t,从而将基于语境的动态词向量表征转化为静态词向量表征。
4.根据权利要求3所述基于蒸馏BERT与改进Transformer相结合的蒙汉神经机器翻译方法,其特征在于,所述方法一中,采用四种潜在的池策略机制表示ts,公式为
Figure FDA0002771437840000014
min(·)和max(·)是元素的最大词池和最小词池,mean(·)表示平均池,last(·)表示选择最后一个向量
Figure FDA0002771437840000015
所述方法二中,应用池策略机制产生聚合n个句子中词组t的唯一表示,公式为
Figure FDA0002771437840000021
5.根据权利要求1至4任一权利要求所述基于蒸馏BERT与改进Transformer相结合的蒙汉神经机器翻译方法,其特征在于,所述Transformer机器翻译模型由编码器和解码器两部分组成,解码器包含一个自注意力机制和一个前馈神经网络,解码器包含一个自注意力机制、一个编码器-解码器注意力机制和一个前馈神经网络,编码器将输入序列映射为隐形表征,再由解码器将隐形表征翻译成句子,其中编码器和解码器的每个子层的周围均有一个残差连接。
6.根据权利要求5所述基于蒸馏BERT与改进Transformer相结合的蒙汉神经机器翻译方法,其特征在于,所述改进Transformer机器翻译模型中,每个残差连接内设置有一个层归一化单元,提前进行归一化,并将其置于前馈神经网络所有非线性变换(ReLU)之前,以此获得更好的归一化梯度。
7.根据权利要求6所述基于蒸馏BERT与改进Transformer相结合的蒙汉神经机器翻译方法,其特征在于,所述改进Transformer机器翻译模型中,最后一个前馈神经网络层的梯度函数为:
Figure FDA0002771437840000022
其中
Figure FDA0002771437840000023
表示损失函数,L表示层数,d表示隐层表征的维数,W表示WQ,WK,WV参数,O代表梯度范数,||·||F表示F-范数。
即,改进Transformer机器翻译模型不包含学习率预热阶段,输入到最后一层的层归一化的梯度下降范围随L线性增长,最终所有的参数梯度将会被
Figure FDA0002771437840000024
归一化。
8.根据权利要求6所述基于蒸馏BERT与改进Transformer相结合的蒙汉神经机器翻译方法,其特征在于,所述词向量预训练模型的输出的表征输入到改进Transformer机器翻译模型编解码器的各个层,其中,在改进Transformer机器翻译模型编码器和解码器的每一层均加入一个Bert注意力机制,分别为Bert-编码器注意力机制和Bert-解码器注意力机制;
首先,源语言的词嵌入作为编码器的输入,输入到自注意力机制中,同时输入序列被转换成由词向量预训练模型处理得到的词向量表征,然后输入到Bert-编码器注意力机制,编码器的每一层与获得的表征进行交互:1/2(Bert-编码器注意力机制+自注意力机制),再将其得到的结果输入到改进的层归一化架构中,最终输出融合表征。
其次,目标语言词向量作为输入,输入到解码器端的自注意力机制中、经由词向量预训练模型得到的词向量表征输入到Bert-解码器注意力机制,解码器的每一层均与获得的表征进行交互:1/2(Bert-编码器注意力机制+自注意力机制+编码器-解码器注意力机制),将其得到的结果输入到改进的层归一化架构中,再经线性变换、Softmax函数最终输出预测的目标语言直到预测到终止符停止。
CN202011250555.3A 2020-11-10 2020-11-10 一种基于蒸馏BERT与改进Transformer相结合的蒙汉神经机器翻译方法 Active CN112347796B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011250555.3A CN112347796B (zh) 2020-11-10 2020-11-10 一种基于蒸馏BERT与改进Transformer相结合的蒙汉神经机器翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011250555.3A CN112347796B (zh) 2020-11-10 2020-11-10 一种基于蒸馏BERT与改进Transformer相结合的蒙汉神经机器翻译方法

Publications (2)

Publication Number Publication Date
CN112347796A true CN112347796A (zh) 2021-02-09
CN112347796B CN112347796B (zh) 2022-02-11

Family

ID=74362527

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011250555.3A Active CN112347796B (zh) 2020-11-10 2020-11-10 一种基于蒸馏BERT与改进Transformer相结合的蒙汉神经机器翻译方法

Country Status (1)

Country Link
CN (1) CN112347796B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113051938A (zh) * 2021-04-02 2021-06-29 四川大学 一种基于Transformer模型的机器翻译模型优化方法
CN113591497A (zh) * 2021-07-29 2021-11-02 内蒙古工业大学 一种基于词素媒介的蒙汉机器翻译方法
CN113627171A (zh) * 2021-07-14 2021-11-09 内蒙古师范大学 一种面向多语言大数据分析的汉蒙跨语言主题表示及语义对齐模型
CN114742077A (zh) * 2022-04-15 2022-07-12 中国电子科技集团公司第十研究所 一种领域平行语料的生成方法与翻译模型的训练方法
CN116720530A (zh) * 2023-06-19 2023-09-08 内蒙古工业大学 一种基于预训练模型和对抗训练的蒙汉神经机器翻译方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532557A (zh) * 2019-08-29 2019-12-03 北京计算机技术及应用研究所 一种无监督的文本相似度计算方法
CN111414481A (zh) * 2020-03-19 2020-07-14 哈尔滨理工大学 基于拼音和bert嵌入的中文语义匹配方法
CN111597778A (zh) * 2020-04-15 2020-08-28 哈尔滨工业大学 一种基于自监督的机器翻译译文自动优化的方法和系统
US20200344194A1 (en) * 2019-04-29 2020-10-29 Microsoft Technology Licensing, Llc Purpose detection in communications using machine learning
CN111898384A (zh) * 2020-05-30 2020-11-06 中国兵器科学研究院 一种文本情感识别方法、装置、存储介质及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200344194A1 (en) * 2019-04-29 2020-10-29 Microsoft Technology Licensing, Llc Purpose detection in communications using machine learning
CN110532557A (zh) * 2019-08-29 2019-12-03 北京计算机技术及应用研究所 一种无监督的文本相似度计算方法
CN111414481A (zh) * 2020-03-19 2020-07-14 哈尔滨理工大学 基于拼音和bert嵌入的中文语义匹配方法
CN111597778A (zh) * 2020-04-15 2020-08-28 哈尔滨工业大学 一种基于自监督的机器翻译译文自动优化的方法和系统
CN111898384A (zh) * 2020-05-30 2020-11-06 中国兵器科学研究院 一种文本情感识别方法、装置、存储介质及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
RUIBIN XIONG ET AL.: "On Layer Normalization in the Transformer Architecture", 《ARXIV:2002.04745V2》 *
高芬 等: "基于Transformer的蒙汉神经机器翻译研究", 《计算机应用与软件》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113051938A (zh) * 2021-04-02 2021-06-29 四川大学 一种基于Transformer模型的机器翻译模型优化方法
CN113051938B (zh) * 2021-04-02 2022-03-01 四川大学 一种基于Transformer模型的机器翻译模型优化方法
CN113627171A (zh) * 2021-07-14 2021-11-09 内蒙古师范大学 一种面向多语言大数据分析的汉蒙跨语言主题表示及语义对齐模型
CN113591497A (zh) * 2021-07-29 2021-11-02 内蒙古工业大学 一种基于词素媒介的蒙汉机器翻译方法
CN114742077A (zh) * 2022-04-15 2022-07-12 中国电子科技集团公司第十研究所 一种领域平行语料的生成方法与翻译模型的训练方法
CN116720530A (zh) * 2023-06-19 2023-09-08 内蒙古工业大学 一种基于预训练模型和对抗训练的蒙汉神经机器翻译方法

Also Published As

Publication number Publication date
CN112347796B (zh) 2022-02-11

Similar Documents

Publication Publication Date Title
CN112347796B (zh) 一种基于蒸馏BERT与改进Transformer相结合的蒙汉神经机器翻译方法
CN109684648B (zh) 一种多特征融合的古今汉语自动翻译方法
WO2021155699A1 (zh) 面向中文长文本自动摘要的全局编码方法
CN111324744B (zh) 一种基于目标情感分析数据集的数据增强方法
CN109815476B (zh) 一种基于中文语素和拼音联合统计的词向量表示方法
CN111767718B (zh) 一种基于弱化语法错误特征表示的中文语法错误更正方法
CN112613326B (zh) 一种融合句法结构的藏汉语言神经机器翻译方法
CN113190656B (zh) 一种基于多标注框架与融合特征的中文命名实体抽取方法
CN110852089A (zh) 基于智能分词与深度学习的运维项目管理方法
CN116663578A (zh) 一种基于策略梯度方法改进的神经机器翻译方法
CN111553157A (zh) 一种基于实体替换的对话意图识别方法
CN115658898A (zh) 一种中英文本实体关系抽取方法、系统及设备
CN113657125B (zh) 一种基于知识图谱的蒙汉非自回归机器翻译方法
Mathur et al. A scaled‐down neural conversational model for chatbots
CN114154504A (zh) 一种基于多信息增强的中文命名实体识别算法
CN117610562A (zh) 一种结合组合范畴语法和多任务学习的关系抽取方法
CN117251562A (zh) 一种基于事实一致性增强的文本摘要生成方法
CN113297374A (zh) 一种基于bert和字词特征融合的文本分类方法
CN115860015B (zh) 一种基于翻译记忆的转写文本翻译方法和计算机设备
Sun [Retracted] Analysis of Chinese Machine Translation Training Based on Deep Learning Technology
CN117493548A (zh) 文本分类方法、模型的训练方法和装置
CN114970537B (zh) 基于多层标注策略的跨境民族文化实体关系抽取方法及装置
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
CN115719072A (zh) 一种基于掩码机制的篇章级神经机器翻译方法及系统
CN114548117A (zh) 一种基于bert语义增强的因果关系抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant