CN116720530A - 一种基于预训练模型和对抗训练的蒙汉神经机器翻译方法 - Google Patents
一种基于预训练模型和对抗训练的蒙汉神经机器翻译方法 Download PDFInfo
- Publication number
- CN116720530A CN116720530A CN202310727266.5A CN202310727266A CN116720530A CN 116720530 A CN116720530 A CN 116720530A CN 202310727266 A CN202310727266 A CN 202310727266A CN 116720530 A CN116720530 A CN 116720530A
- Authority
- CN
- China
- Prior art keywords
- training
- model
- mongolian
- nmt
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 75
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000013519 translation Methods 0.000 title claims abstract description 31
- 210000005036 nerve Anatomy 0.000 title claims description 7
- 239000013598 vector Substances 0.000 claims abstract description 41
- 239000011159 matrix material Substances 0.000 claims abstract description 36
- 238000004821 distillation Methods 0.000 claims abstract description 16
- 230000007246 mechanism Effects 0.000 claims abstract description 9
- 230000001537 neural effect Effects 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000000750 progressive effect Effects 0.000 abstract description 3
- 230000014616 translation Effects 0.000 description 20
- 230000002787 reinforcement Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 235000019580 granularity Nutrition 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000004660 morphological change Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
一种基于预训练模型和对抗训练的蒙汉神经机器翻译方法,利用BERT预训练模型从蒙汉平行语料库获得知识表示;利用渐近蒸馏和动态切换,将含有知识表示的BERT预训练模型与NMT模型相结合;将蒙汉平行语料库中的蒙语语料和汉语语料分别转换为词向量,并进行词嵌入,得到蒙语词嵌入矩阵和汉语词嵌入矩阵;利用相对位置编码,在蒙语词嵌入矩阵和汉语词嵌入矩阵中的每个词位置分别添加一个位置确定的编码向量,得到蒙语向量矩阵和汉语向量矩阵;将蒙语向量矩阵和汉语向量矩阵输入并训练NMT模型。本发明通过渐进蒸馏以及动态开关门,避免预训练知识的灾难性遗忘,并且在多头注意编码机制中加入对抗训练,加强词向量的训练,减少误译现象。
Description
技术领域
本发明属于电数据处理中的自然语言翻译技术领域,特别涉及一种基于预训练模型和对抗训练的蒙汉神经机器翻译方法。
背景技术
机器翻译在主流自然语言中已经得到了普遍、成熟的应用,但是在小语种上的应用因数据量不足等原因,翻译质量还不能令人满意。
一些小语种可以藉由与主流自然语言的平行语料克服上述问题,即通过与其它主流自然语言的间接交互,提高其机器翻译质量。
然而,对于另一些更加少见的语言,例如蒙古语,由于其组成结构复杂,t同时缺乏精通蒙古语和汉语的专业人才,蒙汉翻译发展缓慢,使得其难以获得有效的平行语料,导致生成译文的质量并不高。
常见蒙汉翻译方法,如Zhang等提出两种方法来利用源端单语数据提升模型质量,一种是利用自学习算法训练NMT模型生成大量的双语数据,另一种是利用两个NMT的多任务学习框架生成译文并对源端句子进行重排序;Ji等通过形态变化丰富的蒙古语序列的例子分析了采用不同粒度在解码过程中的优势,提出了一种自由粒度的预处理策略来构造多粒度混合输入;Yang等提出一种新颖的条件序列生成对抗训练,将句子级BLEU作为强化目标来加强生成器的能力等,采用数据增强、强化学习、对抗学习手段,但由于蒙汉双语语料稀缺,仍存在曝光偏差、模型的预测能力不足的问题。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于预训练模型和对抗训练的蒙汉神经机器翻译方法,以解决因神经机器翻译任务不能完全识别文本的顺序或单词之间的长期依赖引起的误译问题。
为了实现上述目的,本发明采用的技术方案是:
一种基于预训练模型和对抗训练的蒙汉神经机器翻译方法,包括如下步骤:
步骤1,利用BERT预训练模型从蒙汉平行语料库获得知识表示;
步骤2,利用渐近蒸馏和动态切换,将含有知识表示的BERT预训练模型与NMT模型相结合;所述NMT模型采用n层Transformer模型;
步骤3,将所述蒙汉平行语料库中的蒙语语料和汉语语料分别转换为词向量,并进行词嵌入,得到蒙语词嵌入矩阵和汉语词嵌入矩阵;
步骤4,利用相对位置编码,在所述蒙语词嵌入矩阵和所述汉语词嵌入矩阵中的每个词位置分别添加一个位置确定的编码向量,得到蒙语向量矩阵和汉语向量矩阵;
步骤5,将所述蒙语向量矩阵输入所述n层Transformer模型的编码器,将所述汉语向量矩阵输入n层Transformer模型的解码器,训练所述NMT模型;
步骤6,以蒙语为源语言,利用完成训练的NMT模型,翻译得到汉语目标语言。
与现有技术相比,本发明的有益效果是:
1、本发明通过引入渐近蒸馏,最小化BERT和NMT模型编码器之间的损失,以确保NMT模型能够保留之前预先训练的知识。并且引入动态切换,将BERT的编码嵌入与NMT的编码器相结合,以避免预训练知识的灾难性遗忘。
2、本发明通过相对位置嵌入将位置编码嵌入词向量中,帮助词向量更好地保存词的语言信息。并且将快速梯度法对抗性训练加入到多头注意力编码器机制中,强化词向量的训练,减少误译现象。
附图说明
图1是本发明结构示意图。
图2是上下文门的原理图。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
如图1所示,本发明为一种基于预训练模型和对抗训练的蒙汉神经机器翻译方法,包括如下步骤:
步骤1,利用BERT预训练模型从蒙汉平行语料库获得知识表示。
步骤2,利用渐近蒸馏和动态切换,将含有知识表示的BERT预训练模型与NMT模型相结合,所述NMT模型采用n层Transformer模型。
本发明渐近蒸馏,蒸馏的目标是惩罚NMT模型和BERT预训练模型的隐藏状态之间的均方误差(MSE)损失:
其中,指BERT预训练模型的隐藏状态,/>是固定的,并将其视为教师,hl是NMT模型的隐藏状态的第l层,/>表示二范式的平方。
在训练NMT模型时,将蒸馏目标与交叉熵损失结合使用,损失函数表示为:
其中,α是一个超参数,用于平衡预训练蒸馏和NMT目标之间偏好,α设置为0.9,表示交叉熵损失。预训练蒸馏,指通过BERT预训练模型结合渐进蒸馏,NMT目标,指神经机器翻译(NMT)的目标函数。
本发明动态切换,直观地说,利用上下文门从BERT预训练模型和NMT模型中查看输入信号,并为输入向量中的每个元素输出0到1之间的数字,其中1表示“完全传递该元素”,而0表示“完全忽略该元素”,在馈送到下一层(例如全连接层)之前,使用逐元素乘法处理相应的输入信号。其中,所述输入信号是0到1之间的数字,所述输入向量是文本的序列,输入向量中的每个元素指词向量。
形式上,上下文门由一个sigmoid神经网络层和一个按元素计算的乘法操作组成,其原理参考图2,计算如下:
g=σ(Whlm+Uhnmt+b)
其中σ(·)是sigmoid函数,hlm是BERT预训练模型的隐藏状态,hnmt是初始NMT模型的隐藏状态。
最终,将NMT模型和BERT预训练模型集成结合为:
h=g⊙hlm+(1-g)⊙hnmt
其中⊙是逐元素乘法,如果g设置为0,网络将退化为传统的NMT模型。如果g设置为1,网络将简单地充当微调方法。
本发明上下文门,使用门控思想动态控制来自预训练模型和NMT模型的信息量,从而平衡NMT模型的知识转移。上下文门决定了如何将过去的信息与当前的输入信息进行结合,用来控制旧信息的保留程度。
之前的渐近蒸馏为将训练前的信息整合到神经网络训练任务中提供了一种有效的方法。然而,从一个极大的预先训练的LM(如BERT)中提取的特征对于学生Transformer网络来说并不容易拟合,因为这些特征可能是高阶的。同时,直接向NMT模型提供特征忽略了来自原始文本的信息,这会损害性能。因此,本发明引入动态切换,将预训练模型与原始Transformer NMT模型合并。上下文门能够帮助模型决定到底要将多少过去的信息传递到未来,或到底前一时间步和当前时间步的信息有多少是需要继续传递的。
通过本步骤引入渐近蒸馏和动态开关门,能够将含有知识表示的BERT预训练模型与NMT模型相结合。
步骤3,将所述蒙汉平行语料库中的蒙语语料和汉语语料分别转换为词向量,并进行词嵌入,得到蒙语词嵌入矩阵和汉语词嵌入矩阵。
步骤4,利用相对位置编码,在所述蒙语词嵌入矩阵和所述汉语词嵌入矩阵中的每个词位置分别添加一个位置确定的编码向量,得到蒙语向量矩阵和汉语向量矩阵。
通过将绝对位置编码转换为相对位置编码可以让模型学习相对位置来帮助模型推广到训练中看不到的序列长度,有效地捕获文本之间的局部和全局相关性。相对位置编码公式如下所示:
clip(x,k)=max(-k,min(k,x))
其中,输入元素即词向量x的边用两个向量表示,k是截获的相对位置的最大值,/>和/>是学习到的相对位置,其中wK,wV∈Rda。
注意力机制中第i个单词与第j个单词相关联的键,即key,/>注意力机制中第i个单词与第j个单词相关联的z值,即value,/>中,/>是学习相对位置参数,用于计算key矩阵,clip(j-i,k)表示相对位置差异,(j-i)裁剪到区间[-k,k];中,/>是学习相对位置参数,用于计算value矩阵,clip(j-i,k)表示相对位置差异,(j-i)裁剪到区间[-k,k];clip(x,k)中,x表示限制取值范围的数值,k表示x所能取到的最大或最小值,如果x>k则返回k,如果x<-k,则返回-k,否则返回x。这也是为了保证相对位置编码的取值范围正确,max(-k,min(k,x)表示将x限制在区间[-k,k]内取值如果超过了上下界,则强制设置为上下界,否则不进行任何操作。总体来说函数用于限制相对距离在合理范围内,避免过大或过小的距离对注意力计算产生不良影响。
相对位置编码之后,在多头注意力机制中利用快速梯度法对编码器的训练数据进行调整。所述快速梯度法指扰动radv,根据梯度进行缩放以获得更好的对抗样本,具体公式如下:
其中t是输入元素x处函数的梯度,对抗样本的梯度被添加到原始样本中,这样模型可以更加关注未翻译的源词并减少翻译不足,L是损失函数。∈是超参数,将扰动大小限制在一定范围内,默认值为1.0,||||2为欧几里得范数,表示对x做偏导数。
步骤5,将所述蒙语向量矩阵输入所述n层Transformer模型的编码器,将所述汉语向量矩阵输入n层Transformer模型的解码器,训练所述NMT模型。
步骤6,以蒙语为源语言,利用完成训练的NMT模型,翻译得到汉语目标语言。
根据本发明基于预训练模型和对抗训练的内蒙汉神经机器翻译方法的一个具体应用例如下:
待翻译的蒙古语原文为:
中文翻译:环境保护、气候变化和生态平衡受到了高度关注。
使用了本发明方法进行蒙汉神经机器翻译任务,并且在此之前先用大规模数据集进行了预训练。将上述输入作为测试样本,并得到如下输出结果:
环境保护、气候变化以及生态平衡备受重视。
通过对比可以发现,在该方法的帮助下,源语言(即内蒙语)与目标语言(即中文)之间更加贴近,并且能够准确表达原始信息所包含的意义。这得益于预训练模型中包含的大量先验知识和对抗训练技术可以进一步提高模型在语言生成任务上的表现,使其更加符合人类自然语言习惯。
因此,基于预训练模型和对抗训练的内蒙汉神经机器翻译方法具有非常好的效果,并且在实际应用中也得到了广泛使用。
可见,本发明通过渐进蒸馏以及动态开关门的方式,避免预训练知识的灾难性遗忘,并且在多头注意编码机制中加入对抗训练,加强词向量的训练,减少误译现象。
Claims (7)
1.一种基于预训练模型和对抗训练的蒙汉神经机器翻译方法,其特征在于,包括如下步骤:
步骤1,利用BERT预训练模型从蒙汉平行语料库获得知识表示;
步骤2,利用渐近蒸馏和动态切换,将含有知识表示的BERT预训练模型与NMT模型相结合;所述NMT模型采用n层Transformer模型;
步骤3,将所述蒙汉平行语料库中的蒙语语料和汉语语料分别转换为词向量,并进行词嵌入,得到蒙语词嵌入矩阵和汉语词嵌入矩阵;
步骤4,利用相对位置编码,在所述蒙语词嵌入矩阵和所述汉语词嵌入矩阵中的每个词位置分别添加一个位置确定的编码向量,得到蒙语向量矩阵和汉语向量矩阵;
步骤5,将所述蒙语向量矩阵输入所述n层Transformer模型的编码器,将所述汉语向量矩阵输入n层Transformer模型的解码器,训练所述NMT模型;
步骤6,以蒙语为源语言,利用完成训练的NMT模型,翻译得到汉语目标语言。
2.根据权利要求1所述基于预训练模型和对抗训练的蒙汉神经机器翻译方法,其特征在于,所述渐近蒸馏,蒸馏的目标是惩罚NMT模型和BERT预训练模型的隐藏状态之间的均方误差(MSE)损失:
其中,指BERT预训练模型的隐藏状态,/>是固定的,并将其视为教师,hl是NMT模型的隐藏状态的第l层,/>表示二范式的平方;
在训练NMT模型时,将所述蒸馏目标与交叉熵损失结合使用,损失函数表示为:
其中,α是一个超参数,用于平衡预训练蒸馏和NMT目标之间偏好,表示交叉熵损失。
3.根据权利要求2所述基于预训练模型和对抗训练的蒙汉神经机器翻译方法,其特征在于,所述动态切换,利用上下文门从BERT预训练模型和NMT模型中查看输入信号,并为输入向量中的每个元素输出0到1之间的数字,其中1表示“完全传递该元素”,而0表示“完全忽略该元素”,在馈送到下一层之前,使用逐元素乘法处理相应的输入信号;其中,所述输入信号是0到1之间的数字,所述输入向量是文本的序列,输入向量中的每个元素指词向量。
4.根据权利要求3所述基于预训练模型和对抗训练的蒙汉神经机器翻译方法,其特征在于,所述上下文门由一个sigmoid神经网络层和一个按元素计算的乘法操作组成,计算如下:
g=σ(Whlm+Uhnmt+b)
其中σ(·)是sigmoid函数,hlm是BERT预训练模型的隐藏状态,hnmt是初始NMT模型的隐藏状态;
最终,将NMT模型和BERT预训练模型集成结合为:
h=g⊙hlm+(1-g)⊙hnmt
其中⊙是逐元素乘法,如果g设置为0,网络将退化为传统的NMT模型;如果g设置为1,网络将简单地充当微调方法。
5.根据权利要求3所述基于预训练模型和对抗训练的蒙汉神经机器翻译方法,其特征在于,所述步骤4,相对位置编码公式如下所示:
clip(x,k)=max(-k,min(k,x))
其中,输入元素即词向量x的边用两个向量表示,k是截获的相对位置的最大值,/>和/>是学习到的相对位置,其中wK,wV∈Rda,
注意力机制中第i个单词与第j个单词相关联的键,即key,/>注意力机制中第i个单词与第j个单词相关联的z值,即value,/>中,/>是学习相对位置参数,用于计算key矩阵,clip(j-i,k)表示相对位置差异,(j-i)裁剪到区间[-k,k];中,/>是学习相对位置参数,用于计算value矩阵,clip(j-i,k)表示相对位置差异,(j-i)裁剪到区间[-k,k];clip(x,k)中,x表示限制取值范围的数值,k表示x所能取到的最大或最小值,如果x>k则返回k,如果x<-k,则返回-k,否则返回x,max(-k,min(k,x)表示将x限制在区间[-k,k]内取值如果超过了上下界,则强制设置为上下界,否则不进行任何操作。
6.根据权利要求3所述基于预训练模型和对抗训练的蒙汉神经机器翻译方法,其特征在于,所述相对位置编码之后,在多头注意力机制中利用快速梯度法,对编码器的训练数据进行调整。
7.根据权利要求3所述基于预训练模型和对抗训练的蒙汉神经机器翻译方法,其特征在于,所述快速梯度法指扰动radv,根据梯度进行缩放以获得更好的对抗样本,具体公式如下:
其中t是输入元素x处函数的梯度,对抗样本的梯度被添加到原始样本中,这样模型可以更加关注未翻译的源词并减少翻译不足,L是损失函数;∈是超参数,将扰动大小限制在一定范围内,默认值为1.0,‖‖2为欧几里得范数,表示对x做偏导数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310727266.5A CN116720530A (zh) | 2023-06-19 | 2023-06-19 | 一种基于预训练模型和对抗训练的蒙汉神经机器翻译方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310727266.5A CN116720530A (zh) | 2023-06-19 | 2023-06-19 | 一种基于预训练模型和对抗训练的蒙汉神经机器翻译方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116720530A true CN116720530A (zh) | 2023-09-08 |
Family
ID=87873105
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310727266.5A Pending CN116720530A (zh) | 2023-06-19 | 2023-06-19 | 一种基于预训练模型和对抗训练的蒙汉神经机器翻译方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116720530A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117252154A (zh) * | 2023-11-20 | 2023-12-19 | 北京语言大学 | 一种基于预训练语言模型的中文简繁字符转换方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112347796A (zh) * | 2020-11-10 | 2021-02-09 | 内蒙古工业大学 | 一种基于蒸馏BERT与改进Transformer相结合的蒙汉神经机器翻译方法 |
CN112347763A (zh) * | 2020-12-03 | 2021-02-09 | 云知声智能科技股份有限公司 | 针对预训练语言模型bert的知识蒸馏方法、装置及系统 |
CN112686058A (zh) * | 2020-12-24 | 2021-04-20 | 中国人民解放军战略支援部队信息工程大学 | Bert嵌入语音翻译模型训练方法、系统及语音翻译方法和设备 |
CN112988975A (zh) * | 2021-04-09 | 2021-06-18 | 北京语言大学 | 一种基于albert和知识蒸馏的观点挖掘方法 |
WO2023024427A1 (zh) * | 2021-08-24 | 2023-03-02 | 平安科技(深圳)有限公司 | 适用于bert模型的蒸馏方法、装置、设备及存储介质 |
-
2023
- 2023-06-19 CN CN202310727266.5A patent/CN116720530A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112347796A (zh) * | 2020-11-10 | 2021-02-09 | 内蒙古工业大学 | 一种基于蒸馏BERT与改进Transformer相结合的蒙汉神经机器翻译方法 |
CN112347763A (zh) * | 2020-12-03 | 2021-02-09 | 云知声智能科技股份有限公司 | 针对预训练语言模型bert的知识蒸馏方法、装置及系统 |
CN112686058A (zh) * | 2020-12-24 | 2021-04-20 | 中国人民解放军战略支援部队信息工程大学 | Bert嵌入语音翻译模型训练方法、系统及语音翻译方法和设备 |
CN112988975A (zh) * | 2021-04-09 | 2021-06-18 | 北京语言大学 | 一种基于albert和知识蒸馏的观点挖掘方法 |
WO2023024427A1 (zh) * | 2021-08-24 | 2023-03-02 | 平安科技(深圳)有限公司 | 适用于bert模型的蒸馏方法、装置、设备及存储介质 |
Non-Patent Citations (4)
Title |
---|
QING-DAO-ER-JI, REN, KUN CHENG, AND RUI PANG.: ""Research on Traditional Mongolian-Chinese Neural Machine Translation Based on Dependency Syntactic Information and Transformer Model"", 《APPLIED SCIENCES 12.19 (2022)》, 7 October 2022 (2022-10-07) * |
SHAW, PETER, JAKOB USZKOREIT, AND ASHISH VASWANI.: ""Self-attention with relative position representations"", 《ARXIV PREPRINT ARXIV:1803.02155 (2018)》., 12 April 2018 (2018-04-12), pages 2 - 3 * |
YANG, JIACHENG, ET AL.: ""Towards making the most of bert in neural machine translation"", 《PROCEEDINGS OF THE AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE》, 3 April 2020 (2020-04-03), pages 9378 * |
ZHU, DANQING, ET AL.: ""At-bert: Adversarial training bert for acronym identification winning solution for sdu@ aaai-21"", 《ARXIV PREPRINT ARXIV:2101.03700 (2021)》, 12 January 2021 (2021-01-12), pages 2 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117252154A (zh) * | 2023-11-20 | 2023-12-19 | 北京语言大学 | 一种基于预训练语言模型的中文简繁字符转换方法及系统 |
CN117252154B (zh) * | 2023-11-20 | 2024-01-23 | 北京语言大学 | 一种基于预训练语言模型的中文简繁字符转换方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107967262A (zh) | 一种神经网络蒙汉机器翻译方法 | |
CN110069790B (zh) | 一种通过译文回译对照原文的机器翻译系统及方法 | |
CN111178087B (zh) | 一种基于离散型注意力机制的神经机器翻译解码加速方法 | |
CN112257465B (zh) | 一种基于图像描述生成的多模态机器翻译数据增强方法 | |
CN116720530A (zh) | 一种基于预训练模型和对抗训练的蒙汉神经机器翻译方法 | |
CN111666756A (zh) | 一种基于主题融合的序列模型文本摘要生成方法 | |
CN113657125B (zh) | 一种基于知识图谱的蒙汉非自回归机器翻译方法 | |
Yang et al. | Graph-Stega: Semantic controllable steganographic text generation guided by knowledge graph | |
CN112765996B (zh) | 基于强化学习和机器翻译质量评估的中朝机器翻译方法 | |
Chaudhary et al. | Bilingual machine translation using RNN based deep learning | |
CN111428518A (zh) | 一种低频词翻译方法及装置 | |
CN113392656A (zh) | 一种融合推敲网络和字符编码的神经机器翻译方法 | |
Shao et al. | Rephrasing the reference for non-autoregressive machine translation | |
Liu et al. | A survey of low resource neural machine translation | |
CN116757184A (zh) | 融合发音特征的越南语语音识别文本纠错方法及系统 | |
Geng et al. | Learning to refine source representations for neural machine translation | |
Liu et al. | A novel domain adaption approach for neural machine translation | |
Xu et al. | Cmjrt: Cross-modal joint representation transformer for multimodal sentiment analysis | |
CN112598065B (zh) | 一种基于记忆的门控卷积神经网络语义处理系统及方法 | |
Weng et al. | Deep fusing pre-trained models into neural machine translation | |
CN113901843A (zh) | 融合bert与词嵌入双重表征的汉越神经机器翻译方法 | |
Wu et al. | NLP Research Based on Transformer Model | |
Cheng et al. | Neural machine translation | |
Kulkarni et al. | Trends and advances in neural machine translation | |
Zhang et al. | A Multi-Feature Fusion method Based on BiLSTM-Attention-CRF for Chinese Named Entity Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |