CN113901843A - 融合bert与词嵌入双重表征的汉越神经机器翻译方法 - Google Patents
融合bert与词嵌入双重表征的汉越神经机器翻译方法 Download PDFInfo
- Publication number
- CN113901843A CN113901843A CN202111042653.2A CN202111042653A CN113901843A CN 113901843 A CN113901843 A CN 113901843A CN 202111042653 A CN202111042653 A CN 202111042653A CN 113901843 A CN113901843 A CN 113901843A
- Authority
- CN
- China
- Prior art keywords
- bert
- representation
- word embedding
- training
- language model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013519 translation Methods 0.000 title claims abstract description 79
- 238000000034 method Methods 0.000 title claims abstract description 66
- 230000001537 neural effect Effects 0.000 title claims abstract description 57
- 238000012549 training Methods 0.000 claims abstract description 113
- 230000007246 mechanism Effects 0.000 claims abstract description 27
- 230000009977 dual effect Effects 0.000 claims abstract description 21
- 230000004927 fusion Effects 0.000 claims description 39
- 238000012512 characterization method Methods 0.000 claims description 23
- 238000004364 calculation method Methods 0.000 claims description 17
- 238000012360 testing method Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 230000002452 interceptive effect Effects 0.000 claims description 7
- 238000013461 design Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000005728 strengthening Methods 0.000 claims description 3
- 239000013598 vector Substances 0.000 abstract description 12
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 230000009466 transformation Effects 0.000 abstract 1
- 238000002474 experimental method Methods 0.000 description 15
- 230000006872 improvement Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000002679 ablation Methods 0.000 description 4
- 230000000052 comparative effect Effects 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000000576 supplementary effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/49—Data-driven translation using very large corpora, e.g. the web
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及融合BERT与词嵌入双重表征的汉越神经机器翻译方法,属于自然语言处理技术领域。本发明使用预训练语言模型和词嵌入分别对源语言序列进行表示学习,通过注意力机制建立两种表征之间的联系后进行拼接操作得到双重表征向量,再经过线性变换和自注意力机制,使词嵌入表征和预训练语言模型表征完全自适应融合在一起,得到对输入文本的充分表征,以此提高神经机器翻译模型性能。本发明提出的融合BERT与词嵌入双重表征的汉越神经机器翻译方法,解决了因为越南语是低资源语言而导致汉语与越南语的神经机器翻译的性能并不理想的问题,显著提高汉越神经机器翻译模型的质量。
Description
技术领域
本发明涉及融合BERT与词嵌入双重表征的汉越神经机器翻译方法,属于自然语言处理技术领域。
背景技术
汉语-越南语的机器翻译需求不断增加,神经机器翻译是目前主流的机器翻译方法,但在汉-越这类低资源的机器翻译任务中,由于双语平行语料规模小,神经机器翻译的效果并不理想。考虑到单语语料丰富,海量的单语语料进行自监督学习能够得到包含丰富语言信息的预训练语言模型,将该预训练语言模型融入神经机器翻译系统对低资源的机器翻译具有重要意义,故提出了融合BERT与词嵌入双重表征的汉越神经机器翻译方法。
目前,BERT预训练语言模型在句法分析、文本分类等NLP任务中取得优异成绩,证明该语言模型内包含丰富的语言信息,这些语言信息包含在编码后得到的表征向量中,无法进行直接观察,因此Jinhua Zhu等人提出BERT-fused算法实现把BERT预训练语言模型编码输出的隐状态随机融入到Transformer模型的编码器和解码器结构中,将BERT预训练语言模型输出的隐状态向量和词嵌入层输出隐状态向量通过随机概率加权融合的方式,以此生成包含预训练语言模型内语言信息和词嵌入层语言信息的隐状态,实现将BERT预训练语言模型中包含的语言信息用于神经机器翻译,该方法在多项公开数据集的翻译任务上相较于Transformer模型取得了较大的提升,证明BERT预训练语言模型作为外部知识库融入神经机器翻译模型的可行性。但是Jinhua Zhu等人的方法依赖于对预训练的机器翻译模型做参数初始化,每一层都需要引入预训练语言模型的知识,而且他们的特征融合方式是简单的拼接,使用交叉注意力机制使预训练语言模型信息受到词嵌入信息,最终特征融合的时候用的是随机权重相加的方式。
因此,本发明针对如何在低资源神经机器翻译中有效融入BERT预训练语言模型内语言信息方向开展研究工作。
发明内容
本发明针对汉语-越南语神经机器翻译因双语平行句对数据不足限制翻译性能的问题,提出了融合BERT与词嵌入双重表征的汉越神经机器翻译方法。该方法对源语言序列分别进行BERT预训练语言模型表征和词嵌入表征,再利用注意力机制实现双重表征的自适应动态融合,增强源语言的表示学习能力,并在汉语-越南语、英语-越南语翻译任务上进行了多组实验,结果表明,使用BERT预训练模型表征与词嵌入表征的自适应动态融合,能够有效将BERT预训练语言模型内的语言信息融入神经机器翻译模型中,有效提升了汉语-越南语神经机器翻译模型性能。
本发明的技术方案是:基于融合BERT与词嵌入双重表征的汉越神经机器翻译方法,所述基于融合BERT与词嵌入双重表征的汉越神经机器翻译方法的具体步骤如下:
Step1、收集用于训练平行句对抽取模型的汉越平行语料;
Step2、收集已经预训练的中文BERT预训练语言模型参数以及词典;
Step3、对源语言序列分别进行BERT预训练语言模型预训练表征与词嵌入表征;
Step4、使用交叉注意力机制使经过BERT预训练语言模型预训练的源语言序列表征受到词嵌入表征的约束,将经过BERT预训练语言模型训练后的源语言序列表征和词嵌入表征进行拼接融合得到融合表征作为编码器的输入;
Step5、使用编码器使得融合表征中两种不同来源的表征达到深层动态交互融合;
Step6、利用BERT预训练语言模型与词嵌入双重表征进行神经机器翻译模型的训练。
作为本发明的进一步方案,所述Step1中,运用爬虫技术在互联网收集了汉越双语平行句对,将收集后得到的数据进行了清洗以及Tokenize处理,构建成了汉越双语平行句对的数据集,把该数据集作为实验训练、测试、验证数据。
作为本发明的进一步方案,所述Step2中,收集google发布的中文BERT预训练语言模型参数以及词典,在Pytorch框架下将模型参数和词典实例化为BERT预训练语言模型。
作为本发明的进一步方案,所述Step3的具体步骤为:
Step3.1、对汉越单语语料根据BERT预训练语言模型词典以及训练语料词典进行分词;得到输入序列的两种ID序列;
Step3.2、将两种分词后得到的本文ID分别输入词嵌入以及BERT预训练语言模型进行表征。
作为本发明的进一步方案,所述Step4的具体步骤为:
Step4.1、使用BERT预训练语言模型表征和词嵌入表征进行交叉注意力机制计算,使用词嵌入表征作为查询条件,通过BERT预训练语言模型表征计算得到注意力权重,之后用该权重和BERT预训练语言模型表征进行计算,使BERT预训练语言模型表征受到词嵌入表征约束;
Step4.2、将词嵌入表征进行自注意力机制计算,加强该表征内部联系;
Step4.3、将Step4.1和Step4.2得到的表征进行拼接得到融合表征;
作为本发明的进一步方案,所述Step5中,编码器设计自注意力机制使得融合表征中两种不同来源的表征进行深层动态交互融合。
作为本发明的进一步方案,所述Step6中,经过Step5自注意力机制后得到的表征参与Transformer模型的训练,实现将BERT预训练语言模型与经过Transformer语言模型训练的词嵌入部分的融合。
本发明提出融合BERT与词嵌入双重表征的汉越南语神经机器翻译方法。相较于Jinhua Zhu等人提出的方法,本发明提出的方法仅使用一次预训练语言模型,模型结构更为简单,解决了Jinhua Zhu等人的方法依赖于对预训练的机器翻译模型做参数初始化,本发明不需要预先训练机器翻译模型,在信息融合方面使用自适应融合的方式替代了随机加权融合的方式,在汉越神经机器翻译任务上实现获得了更大的性能提升。而且他们的特征融合方式是简单的拼接,本发明方法虽然使用了Jinhua Zhu等人提出的使用交叉注意力机制使预训练语言模型信息受到词嵌入信息的约束,但是Jinhua Zhu等人最终特征融合的时候用的是随机权重相加的方式,而本发明将两个特征向量拼接后,由自注意力机制对融合后的向量进行内部信息的交互融合。相比于之前的工作,本发明既降低了模型复杂程度,又提升了性能。
本发明的有益效果是:
1、本发明使用融合BERT与词嵌入双重表征的汉越神经机器翻译方法,其效果明显优于基于Transformer的模型,提高了整体机器翻译模型的性能。
2、本发明采用多组注意力机制实现两种不同来源表征的融合,实验证明该融合方式相较于BERT-fused算法提出的融合方式在BLEU指标上获得较大提升;
3、本发明既降低了模型复杂程度,又提升了性能;
4、本发明方法对源语言序列分别进行BERT预训练语言模型表征和词嵌入表征,再利用注意力机制实现双重表征的自适应动态融合,增强源语言的表示学习能力,并在汉语-越南语、英语-越南语翻译任务上进行了多组实验,结果表明,使用BERT预训练模型表征与词嵌入表征的自适应动态融合,能够有效将BERT预训练语言模型内的语言信息融入到神经机器翻译模型中,有效提升了汉语-越南语神经机器翻译模型性能,解决了因为越南语是低资源语言而导致汉语与越南语的神经机器翻译的性能并不理想的问题。
附图说明
图1为本发明提出的融合BERT与词嵌入双重表征的汉越神经机器翻译方法流程图。
具体实施方式
实施例1:如图1所示,融合BERT与词嵌入双重表征的汉越神经机器翻译方法,
所述基于融合BERT与词嵌入双重表征的汉越神经机器翻译方法的具体步骤如下:
Step1、收集用于训练平行句对抽取模型的汉越平行语料;
Step2、收集已经预训练的中文BERT预训练语言模型参数以及词典;
Step3、对源语言序列分别进行BERT预训练语言模型预训练表征与词嵌入表征;
Step4、使用交叉注意力机制使经过BERT预训练语言模型预训练的源语言序列表征受到词嵌入表征的约束,将经过BERT预训练语言模型训练后的源语言序列表征和词嵌入表征进行拼接融合得到融合表征作为编码器的输入;
Step5、使用编码器使得融合表征中两种不同来源的表征达到深层动态交互融合;
Step6、利用BERT预训练语言模型与词嵌入双重表征进行神经机器翻译模型的训练。
作为本发明的进一步方案,所述Step1中,运用爬虫技术在互联网收集了汉越双语平行句对,将收集后得到的数据进行了清洗以及Tokenize处理,构建成了汉越双语平行句对的数据集,把该数据集作为实验训练、测试、验证数据。
作为本发明的进一步方案,所述Step2中,收集google发布的中文BERT预训练语言模型参数以及词典,在Pytorch框架下将模型参数和词典实例化为BERT预训练语言模型。
作为本发明的进一步方案,所述Step3的具体步骤为:
Step3.1、对汉越单语语料根据BERT预训练语言模型词典以及训练语料词典进行分词;得到输入序列的两种ID序列;
Step3.2、将两种分词后得到的本文ID分别输入词嵌入以及BERT预训练语言模型进行表征。
作为本发明的进一步方案,所述Step4的具体步骤为:
Step4.1、使用BERT预训练语言模型表征和词嵌入表征进行交叉注意力机制计算,使用词嵌入表征作为查询条件,通过BERT预训练语言模型表征计算得到注意力权重,之后用该权重和BERT预训练语言模型表征进行计算,使BERT预训练语言模型表征受到词嵌入表征约束;
Step4.2、将词嵌入表征进行自注意力机制计算,加强该表征内部联系;
Step4.3、将Step4.1和Step4.2得到的表征进行拼接得到融合表征;
作为本发明的进一步方案,所述Step5中,编码器设计自注意力机制使得融合表征中两种不同来源的表征进行深层动态交互融合。
作为本发明的进一步方案,所述Step6中,经过Step5自注意力机制后得到的表征参与Transformer模型的训练,实现将BERT预训练语言模型与经过Transformer语言模型训练的词嵌入部分的融合。
为验证上述实施例中融合BERT与词嵌入双重表征的汉越神经机器翻译的有效性,进行如下5个汉越神经机器翻译方法在翻译性能上的比较实验:
⑴RNNSearch:基于循环神经网络结构的神经机器翻译方法。
⑵CNN:基于卷积神经网络结构的神经机器翻译方法。
⑶Transformer:基于Transformer网络结构的神经机器翻译方法。
⑷BERT-fused:在Transformer编码器以及解码器融入BERT预训练语言模型的神经机器翻译方法。
⑸Ours:融合BERT与词嵌入双重表征的神经机器翻译方法。
以上方法在实验中使用相同的训练集、测试集以及验证集,其中BERT-fused与ours方法使用相同预训练语言模型,实验结果见表1。
表1中越神经机器翻译对比实验结果
从表1实验结果中可见,本发明将源语言序列进行BERT预训练语言模型预训练与词嵌入双重表征融合后相较于Transformer模型在中越数据上获得了1.99个BLEU值的性能提升,说明使用BERT预训练语言模型能够补充低资源场景下神经机器翻译模型语言信息捕捉能力,达到提升中越神经机器翻译模型性能的目的。本发明相较于BERT-fused方法有在中越数据集上获得了1.26个BLEU值的提升,说明本发明在低资源的中越神经机器翻译任务中相较于BERT-fused方法能够更加有效的利用到BERT预训练语言模型中的语言信息。
为验证本文发明在不同数据量低资源神经机器翻译的效果,设计了3组不同数据量下Ours方法相对于Transformer方法的BLEU值提升幅度的对比实验:
⑴127.4k汉越数据作为训练数据,对比两种方法间的BLEU值变化幅度。
⑵随机抽取100k汉越数据作为训练数据,对比两种方法间的BLEU值变化幅度。
⑶随机抽取70k汉越数据作为训练数据,对比两种方法间的BLEU值变化幅度。
三组实验中使用相同验证集以及测试集、模型超参数以及同一个中文BERT预训练语言模型,实验结果见表2。
表2中越不同数据量对比实验结果
从表2实验结果中可见,在70k、100k、127.4k中越数据实验中,本发明相对于Transformer的BLEU值提升幅度分别为4.34、2.12、1.99,呈现逐步下降趋势。该变化趋势说明本发明相对于Transformer模型在BLEU值上的提升随着训练数据的增大提升幅度不断下降。证明本发明在训练数据越少时BERT预训练语言模型对神经机器翻译模型补充作用越大,在数据量仅为几万规模低资源神经机器翻译任务中能够取得较好表现。
为探究在使用本发明提出的表征融合方式在编码器中引入预训练语言模型对翻译模型的影响,设计了以下3组消融实验:
⑴仅融合BERT预训练语言模型与词嵌入双重表征做为编码器第一层的输入。
⑵在编码器前三层的输入中融入BERT预训练语言模型。
⑶在编码器全部层的输入中融入BERT预训练语言模型。
三组实验中使用相同的127.4k汉越数据做为训练集,使用的验证集、测试集、模型超参数以及中文BERT预训练语言模型相同,实验结果见表3。
表3多层融入预训练语言模型消融实验结果
从该实验结果中可见,本发明中融合BERT与词嵌入双重表征的结果做为编码器第一层的输入能够达到最佳性能,将编码器前三层和全部层的输入融入BERT预训练语言模型对神经机器翻译模型性能提升并不大,BERT预训练语言模型对神经机器翻译模型有着较好的补充能力,说明本发明提出的表征融合方法在浅层网络中即可充分利用到预训练语言模型的语言知识,达到提升神经机器翻译模型性能的目的。
为探究使用本发明在解码阶段融入预训练语言模型信息对翻译模型性能的影响,我们设计了以下消融实验:
⑴BERT预训练语言模型仅与编码器输出隐状态向量融合做为解码器输入。
⑵BERT预训练语言模型仅与词嵌入融合做为编码器输入。
⑶BERT预训练语言模型与词嵌入融合做为编码器输入,编码阶段结束后将BERT预训练语言模型与编码器输出的隐状态向量融合做为解码器输入。
三组实验中使用相同的127.4k汉越数据做为训练集,使用的验证集、测试集、模型超参数以及中文BERT预训练语言模型相同,实验结果见表4。
表4解码阶段融入预训练语言模型消融实验结果
从该实验结果中可见,使用本发明在解码阶段融入BERT预训练语言模型对神经机器翻译模型性能造成了负影响。仅在解码阶段融入BERT预训练语言模型,导致神经机器翻译性能低于基准模型Transformer,在编码阶段和解码阶段同时融入BERT预训练语言模型表现也低于仅在编码阶段融入BERT预训练语言模型。证明在解码阶段使用本发明提出的表征融合方法融入BERT预训练语言模型对神经机器翻译模型性能没有提升作用。
为验证本发明在其它语种翻译任务上有效性,还在IWSLT15英越翻译数据集上进行了实验,该数据集数据规模如表5所示。
表5英越数据集
在此数据集上进行RNNSearch、CNN、Transformer、BERT-fused方法和Ours方法的对比实验,实验结果见表6。
表6英越神经机器翻译对比实验结果
从表6实验结果中可见,本发明提出的融合BERT与词嵌入双重表征的汉越神经机器翻译方法相较于Transformer模型在英越数据上获得了1.56个BLEU值的性能提升,相较于BERT-fused方法获得了0.41个BLEU值的提升,说明该方法不仅适用于中越神经机器翻译,在其他低资源神经机器翻译任务中使用源语言的预训练语言模型和词嵌入层进行双重表征同样能够提升神经机器翻译模型性能。
实施例2:如图1所示,融合BERT与词嵌入双重表征的汉越神经机器翻译方法,具体步骤如下:
Step1、首先运用爬虫技术在互联网上收集了大量汉越平行句对,将收集后得到的数据进行清洗以及Tokenize处理,这样就构建成了汉越双语平行句对的数据集,把该数据集作为实验训练、测试、验证数据;
Step2、对处理后的数据集进行词嵌入,该部分不做额外设计,将输入文本根据词嵌入词典分词后输入词嵌入模块,得到输入文本的词嵌入表征Eembedding。
Step3、将输入文本根据BERT预训练语言模型词典分词后得到输入序列x=(x1,...,xn),将输入序列输入到BERT预训练语言模型后,在该模型的每一层都将输出一个隐状态向量,本方法使用最后一层输出的隐状态向量h6做为该部分的输出Ebert-out。
Step4、使用Ebert-out和词嵌入表征Eembedding进行交叉注意力机制计算,将词嵌入部分输出Eembedding做为Query、Ebert-out作为Key计算注意力权重,将Ebert-out做为Value和注意力权重相乘,使经过BERT预训练语言模型预训练的源语言序列表征受到词嵌入表征的约束,计算过程如式(1)(2)(3)(4)所示,运用交叉注意力机制后使Ebert-out受到Eembedding约束后,得到新的表征的E'bert-out。
Query=Eembedding (1)
Value=Key=Ebert-out (2)
E'bert-out=Attention(Query,Key,Value) (4)
Step5、对Eembedding进行自注意力机制计算进行表征加强,计算过程如式(5)(6)所示,得到E'embedding。
Query=Value=Key=Eembedding (5)
E'embedding=Attention(Query,Key,Value) (6)
Step6、将E'bert-out和E'embedding进行拼接后经过线性变换维度后得到新的文本序列隐状态向量Ebert-embedding,计算过程如式(7)(8)所示。
Econtact=contact(E'bert-out,E'embedding) (7)
Ebert-embedding=Linear(Econtact) (8)
Step7、BERT预训练语言模型表征与词嵌入表征融合模块得到包含E'bert-out和E'embedding信息的表征向量Ebert-embedding,两部分信息未建立联系,当Ebert-embedding进入编码器第一层后进行一次自注意力机制计算,使得两部分原本独立的部分建立起联系,得到E'bert-embedding,计算过程如式(9)(10)所示。
Query=Value=Key=Ebert-embedding (9)
E'bert-embedding=Attention(Query,Key,Value) (10)
Step8、经过自注意机制计算后的得到了E'bert-embedding,实现了Ebert-out与Eembedding的动态融合,E'bert-embedding经过前馈神经网络得到编码器第一层的输出H1,再经过多层编码层后最终得到编码器最终输出,计算过程如式(11)(12)(13)所示。
H1=FNN(E'bert-embedding) (11)
ht=Attention(Ht-1,Ht-1,Ht-1),t>1 (12)
Ht=FNN(ht),t>1 (13)
Step9、为验证审计机器翻译性能,使用BLEU值做为评价指标,BLEU计算方式如式(14)所示。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (7)
1.融合BERT与词嵌入双重表征的汉越神经机器翻译方法,其特征在于:所述方法包括:
Step1、收集用于训练平行句对抽取模型的汉越平行语料;
Step2、收集已经预训练的中文BERT预训练语言模型参数以及词典;
Step3、对源语言序列分别进行BERT预训练语言模型预训练表征与词嵌入表征;
Step4、使用交叉注意力机制使经过BERT预训练语言模型预训练的源语言序列表征受到词嵌入表征的约束,将经过BERT预训练语言模型训练后的源语言序列表征和词嵌入表征进行拼接融合得到融合表征作为编码器的输入;
Step5、使用编码器使得融合表征中两种不同来源的表征达到深层动态交互融合;
Step6、利用BERT预训练语言模型与词嵌入双重表征进行神经机器翻译模型的训练。
2.根据权利要求1所述的融合BERT与词嵌入双重表征的汉越神经机器翻译方法,其特征在于:所述Step1中,运用爬虫技术在互联网收集了汉越双语平行句对,将收集后得到的数据进行了清洗以及Tokenize处理,构建成了汉越双语平行句对的数据集,把该数据集作为实验训练、测试、验证数据。
3.根据权利要求1所述的融合BERT与词嵌入双重表征的汉越神经机器翻译方法,其特征在于:所述Step2中,收集google发布的中文BERT预训练语言模型参数以及词典,在Pytorch框架下将模型参数和词典实例化为BERT预训练语言模型。
4.根据权利要求1所述的融合BERT与词嵌入双重表征的汉越神经机器翻译方法,其特征在于:所述Step3的具体步骤为:
Step3.1、对汉越单语语料根据BERT预训练语言模型词典以及训练语料词典进行分词;
Step3.2、将两种分词后得到的本文ID分别输入词嵌入以及BERT预训练语言模型进行表征。
5.根据权利要求1所述的融合BERT与词嵌入双重表征的汉越神经机器翻译方法,其特征在于:所述Step4的具体步骤为:
Step4.1、使用BERT预训练语言模型表征和词嵌入表征进行交叉注意力机制计算,使用词嵌入表征作为查询条件,通过BERT预训练语言模型表征计算得到注意力权重,之后用该权重和BERT预训练语言模型表征进行计算,使BERT预训练语言模型表征受到词嵌入表征约束;
Step4.2、将词嵌入表征进行自注意力机制计算,加强该表征内部联系;
Step4.3、将Step4.1和Step4.2得到的表征进行拼接得到融合表征。
6.根据权利要求1所述的融合BERT与词嵌入双重表征的汉越神经机器翻译方法,其特征在于:所述Step5中,编码器设计自注意力机制使得融合表征中两种不同来源的表征进行深层动态交互融合。
7.根据权利要求1所述的融合BERT与词嵌入双重表征的汉越神经机器翻译方法,其特征在于:所述Step6中,经过Step5自注意力机制后得到的表征参与Transformer模型的训练,实现将BERT预训练语言模型与经过Transformer语言模型训练的词嵌入部分的融合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111042653.2A CN113901843A (zh) | 2021-09-07 | 2021-09-07 | 融合bert与词嵌入双重表征的汉越神经机器翻译方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111042653.2A CN113901843A (zh) | 2021-09-07 | 2021-09-07 | 融合bert与词嵌入双重表征的汉越神经机器翻译方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113901843A true CN113901843A (zh) | 2022-01-07 |
Family
ID=79188716
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111042653.2A Pending CN113901843A (zh) | 2021-09-07 | 2021-09-07 | 融合bert与词嵌入双重表征的汉越神经机器翻译方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113901843A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114970565A (zh) * | 2022-01-20 | 2022-08-30 | 昆明理工大学 | 基于一致性Mixup融合BERT知识到Seq2Seq模型的低资源神经机器翻译方法 |
-
2021
- 2021-09-07 CN CN202111042653.2A patent/CN113901843A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114970565A (zh) * | 2022-01-20 | 2022-08-30 | 昆明理工大学 | 基于一致性Mixup融合BERT知识到Seq2Seq模型的低资源神经机器翻译方法 |
CN114970565B (zh) * | 2022-01-20 | 2024-04-26 | 昆明理工大学 | 基于一致性Mixup融合BERT知识到Seq2Seq模型的低资源神经机器翻译方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110717334B (zh) | 基于bert模型和双通道注意力的文本情感分析方法 | |
CN110472238B (zh) | 基于层级交互注意力的文本摘要方法 | |
CN114757182A (zh) | 一种改进训练方式的bert短文本情感分析方法 | |
CN113901831B (zh) | 基于预训练语言模型及双向交互注意力的平行句对抽取方法 | |
CN108228576A (zh) | 文本翻译方法及装置 | |
Zhang et al. | Future-aware knowledge distillation for neural machine translation | |
Sun et al. | Learning to learn better unimodal representations via adaptive multimodal meta-learning | |
CN114238649A (zh) | 一种常识概念增强的语言模型预训练方法 | |
Ren et al. | Semface: Pre-training encoder and decoder with a semantic interface for neural machine translation | |
CN111428518B (zh) | 一种低频词翻译方法及装置 | |
CN113901843A (zh) | 融合bert与词嵌入双重表征的汉越神经机器翻译方法 | |
CN114595700A (zh) | 融合零代词与篇章信息的汉越神经机器翻译方法 | |
CN116561325B (zh) | 一种多语言融媒体文本情感分析方法 | |
CN117539999A (zh) | 一种基于跨模态联合编码的多模态情感分析方法 | |
Zhao et al. | Fusion with GCN and SE-ResNeXt network for aspect based multimodal sentiment analysis | |
Gupta et al. | Dsc iit-ism at semeval-2020 task 8: Bi-fusion techniques for deep meme emotion analysis | |
CN115374281A (zh) | 基于多粒度融合和图卷积网络的会话情感分析方法 | |
CN112765955B (zh) | 一种中文指代表达下的跨模态实例分割方法 | |
CN115455144A (zh) | 用于小样本意图识别的完型填空式的数据增强方法 | |
Qian et al. | Filtration network: A frame sampling strategy via deep reinforcement learning for video captioning | |
CN114880521A (zh) | 基于视觉和语言语义自主优化对齐的视频描述方法及介质 | |
CN111709245A (zh) | 基于语义自适应编码的汉-越伪平行句对抽取方法 | |
CN114357984A (zh) | 一种基于拼音的同音字变体处理方法 | |
Sattari et al. | Improving image captioning with local attention mechanism | |
Yu et al. | Tri-Attention: Explicit Context-Aware Attention Mechanism for Natural Language Processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |