CN114970565B - 基于一致性Mixup融合BERT知识到Seq2Seq模型的低资源神经机器翻译方法 - Google Patents

基于一致性Mixup融合BERT知识到Seq2Seq模型的低资源神经机器翻译方法 Download PDF

Info

Publication number
CN114970565B
CN114970565B CN202210083671.3A CN202210083671A CN114970565B CN 114970565 B CN114970565 B CN 114970565B CN 202210083671 A CN202210083671 A CN 202210083671A CN 114970565 B CN114970565 B CN 114970565B
Authority
CN
China
Prior art keywords
bert
model
sentence
source language
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210083671.3A
Other languages
English (en)
Other versions
CN114970565A (zh
Inventor
郭军军
朱志国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202210083671.3A priority Critical patent/CN114970565B/zh
Publication of CN114970565A publication Critical patent/CN114970565A/zh
Application granted granted Critical
Publication of CN114970565B publication Critical patent/CN114970565B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及基于一致性Mixup融合BERT知识到Seq2Seq模型的低资源神经机器翻译方法,属于自然语言处理领域。本发明无需增加额外的参数,简单有效;首先获取源语言包含丰富语义知识的源语言BERT表征,在Transformer编码端利用Mixup将源语言的BERT表征融入Seq2Seq模型;在此基础上每一句源语言输入编码器两次,在编码端的两次输出上进行一致性约束,以促进模型能更好的学习预训练模型中的知识;最后将编码器的第六层输出特征作为解码器的输入,解码器采用传统的Transformer解码器结构。本发明采用公共数据集IWSLT的数据集来训练模型。实验结果表明本发明提出的模型能超过了大多数以前的工作。

Description

基于一致性Mixup融合BERT知识到Seq2Seq模型的低资源神经 机器翻译方法
技术领域
本发明涉及基于一致性Mixup融合BERT知识到Seq2Seq模型的低资源神经机器翻译方法,属于自然语言处理技术领域。
背景技术
神经机器翻译(NMT)是自然语言处理(NLP)领域中的一种特殊的跨语言任务,它试图将源句翻译成目标句。NMT的关键是将句子语义信息从源端对齐到目标端,为此,通常需要大规模的平行句对。然而,高质量的平行句对的收集通常是昂贵的,许多翻译任务都存在资源不足的问题,例如:英语-西班牙语机器翻译、英语- 越南机器翻译等。由于句子对在数量和质量上都有限,低资源NMT在seq2seq神经网络中往往存在对语言知识学习不足、特征表示较差的问题。而相比较于难以获取的高质量平行句对,单语数据实际上是非常丰富的,并且预训练模型经过大规模的单语数据训练,含有丰富的语言知识,如何利用丰富的单语数据和预训练模型的语言知识来提升低资源场景下机器翻译是性能成为关键的问题。
发明内容
本发明提供了基于一致性Mixup融合BERT知识到Seq2Seq模型的低资源神经机器翻译方法,以用于有效的利用预训练模型中丰富的单语知识提升了低资源场景下机器翻译的性能。
本发明的技术方案是:基于一致性Mixup融合BERT知识到Seq2Seq模型的低资源神经机器翻译方法,所述方法的具体步骤如下:
Step1、对公共数据集IWSLT数据进行预处理;
Step2、将处理好的源语言数据输入模型,获得句子Embedding和BERT句子级表征,用Mixup将源语言的BERT句子级表征和句子Embedding进行融合作为模型编码器第一层的输入;在模型编码器端利用Mixup将源语言的BERT句子级表征与数据经过多头注意力机制的表征进行融合,在此基础上每一句源语言输入编码器两次,对得到的两次编码端的输出计算KL散度损失,进行一致性约束;在原有对数似然损失函数的基础上加入KL散度损失,作为总的损失函数来优化模型;
Step3、解码器的最后一层输出到传统的编码器进行解码,解出目标语言,解码器和编码器都分别堆叠了6层模型。
作为本发明的进一步方案,所述Step1的具体步骤为:
Step1.1、通过国际口语翻译会议IWSLT下载IWSLT’14 IWSLT’15英语→越南语(En→Vi)和英语→法语(En→Fr) 数据集,数据集的大小分别为160k,183k,113k,236k;
Step1.2对下载的数据进行过滤筛选,去除文本内容中的多余符号、超链接和特殊字符,然后对筛选好的数据进行字节对编码处理,包括BPE分词处理,BPE的子词表大小为10000。
作为本发明的进一步方案,所述Step2的具体步骤为:
Step2.1、通过预训练模型BERT和Transformer编码端词嵌入层,获得源语言的句子级BERT表征和词嵌入;
为数据集,其中Xj和Yj表示第j对源语言和目标语言,N表示数据集的总量,第j对源语言Xj输入到预训练模型BERT,将模型的最后一层输出作为源语言的BERT句子级表征,过程如下:
Bj=BERT(Xj) (1)
其中Bj表示源语言的BERT句子级表征,BERT表示预训练模型BERT, Bj∈Rlen×768,len表示源语言句子长度;
把源语言输入Transformer编码端,利用其词嵌入层对源语言进行词嵌入编码和位置编码,最后获得源语言的句子级词嵌入;
Ej=emb(Xj) (2)
其中emb表示Transformer的词嵌入层,Ej表示生成的句子级词嵌入,Ej∈Rlen×512
Step2.2、利用Mixup将源语言的句子级BERT表征Bj和句子级词嵌入Ej进行融合;
其中w是可训练参数,b是偏置,λ服从贝塔分布,是合成的新的句子级词嵌入,被馈送到Transformer编码器层进行训练;
Step2.3、模型编码器端利用Mixup将源语言的BERT句子级表征与数据经过多头注意力机制的表征进行融合;
其中是混合的新的句子表征,MultiHead(.)是传统的多头注意力机制, k∈{0,1,…,5}表示Transformer的不同层;
Step2.4、一致性约束
把同一句源语言输入编码器两次,得到两个不同的编码器输出分布,对这两个不同的输出分布计算KL散度损失进行一致性约束,使模型能更好的学习BERT 中丰富的语言知识;
设H1(Xj)和H2(Xj)分别为模型编码端对同一句源语言不同的输出分布,KL散度损失计算如下:
在原有对数似然损失函数的基础上加入KL模型,总的损失函数如下:
其中,δ是控制的权重,/>表示负对数似然损失函数,P(·)表示似然函数, DKL(·)表示传统的KL散度计算。
作为本发明的进一步方案,所述Step3包括:
解码器采用传统的Transformer解码器堆叠6层,每个解码器层由三个子层组成:1)目标语言自注意力层;2)跨语言注意力层;3)前馈网络层;最后将解码器最后一层的输出经过线性变换和softmax层解出目标语言。
本发明的有益效果是:
1、本发明针对许多翻译任务资源不足,而预训练模型含有丰富的单语知识,提出了一种基于一致性Mixup融合预训练模型BERT的知识到Seq2Seq模型的低资源神经机器翻译方法,这是首次利用Mixup融合预训练模型知识来提升低资源机器翻译的性能;
2、本发明通过利用Mixup在Transformer编码器的句子级词嵌入和编码器层融合预训练模型的知识并进行一致性约束,很好的利用了预训练模型中包含的丰富语言知识,提升了低资源机器翻译的性能;
3、本发明在IWSLT数据集上进行了实验,结果表明本发明的模型显着提高了低资源机器翻译性能。
附图说明
图1为本发明中的流程框图。
具体实施方式
实施例1:如图1所示,基于一致性Mixup融合BERT知识到Seq2Seq模型的低资源神经机器翻译方法,所述方法的具体步骤如下:
Step1、对公共数据集IWSLT数据进行预处理;
Step2、将处理好的源语言数据输入模型,获得句子Embedding和BERT句子级表征,用Mixup将源语言的BERT句子级表征和句子Embedding进行融合作为模型编码器第一层的输入;在模型编码器端利用Mixup将源语言的BERT句子级表征与数据经过多头注意力机制的表征进行融合,在此基础上每一句源语言输入编码器两次,对得到的两次编码端的输出计算KL散度损失,进行一致性约束;在原有对数似然损失函数的基础上加入KL散度损失,作为总的损失函数来优化模型;
Step3、解码器的最后一层输出到传统的编码器进行解码,解出目标语言,解码器和编码器都分别堆叠了6层模型。
作为本发明的进一步方案,所述Step1的具体步骤为:
Step1.1、通过国际口语翻译会议IWSLT下载IWSLT’14 IWSLT’15英语→越南语(En→Vi)和英语→法语(En→Fr) 数据集,数据集的大小分别为160k,183k,113k,236k;
Step1.2对下载的数据进行过滤筛选,去除文本内容中的多余符号、超链接和特殊字符,然后对筛选好的数据进行字节对编码处理,包括BPE分词处理,BPE的子词表大小为10000。
作为本发明的进一步方案,所述Step2的具体步骤为:
Step2.1、通过预训练模型BERT和Transformer编码端词嵌入层,获得源语言的句子级BERT表征和词嵌入;
为数据集,其中Xj和Yj表示第j对源语言和目标语言,N表示数据集的总量,第j对源语言Xj输入到预训练模型BERT,将模型的最后一层输出作为源语言的BERT句子级表征,过程如下:
Bj=BERT(Xj) (1)
其中Bj表示源语言的BERT句子级表征,BERT表示预训练模型BERT, Bj∈Rlen×768,len表示源语言句子长度;
把源语言输入Transformer编码端,利用其词嵌入层对源语言进行词嵌入编码和位置编码,最后获得源语言的句子级词嵌入;
Ej=emb(Xj) (2)
其中emb表示Transformer的词嵌入层,Ej表示生成的句子级词嵌入,Ej∈Rlen×512
Step2.2、利用Mixup将源语言的句子级BERT表征Bj和句子级词嵌入Ej进行融合;
其中w是可训练参数,b是偏置,λ服从贝塔分布,是合成的新的句子级词嵌入,被馈送到Transformer编码器层进行训练;
Step2.3、模型编码器端利用Mixup将源语言的BERT句子级表征与数据经过多头注意力机制的表征进行融合;
其中是混合的新的句子表征,MultiHead(.)是传统的多头注意力机制, k∈{0,1,…,5}表示Transformer的不同层;
Step2.4、一致性约束
把同一句源语言输入编码器两次,得到两个不同的编码器输出分布,对这两个不同的输出分布计算KL散度损失进行一致性约束,使模型能更好的学习BERT 中丰富的语言知识;
设H1(Xj)和H2(Xj)分别为模型编码端对同一句源语言不同的输出分布,KL散度损失计算如下:
在原有对数似然损失函数的基础上加入KL模型,总的损失函数如下:
其中,δ是控制的权重,/>表示负对数似然损失函数,P(·)表示似然函数,DKL(·)表示传统的KL散度计算。
作为本发明的进一步方案,所述Step3包括:
解码器采用传统的Transformer解码器堆叠6层,每个解码器层由三个子层组成:1)目标语言自注意力层;2)跨语言注意力层;3)前馈网络层;最后将解码器最后一层的输出经过线性变换和softmax层解出目标语言。
为了说明本发明的效果,设置了三组对比实验,第一组是主试验结果,在这个领域和以前的一些工作进行比较。第二组实验是消融实验,验证提出的方法的有效性。第三组实验验证方法模型在极低资源情况下的性能。
(1)主实验结果
为验证发明的有效性,本发明在六个低资源机器翻译任务书进行实验,与大数先前的研究一样划分训练集、验证集、测试集。在这里和之前一些性能比较好的工作进行比较,ReMixup-NMT是本次发明的模型,实验结果如表1所示.
如表1所示,本发明提出的模型在英语→法语、英语→越南语的翻译任务上的最佳实验结果。可以清楚地看到,与之前的工作相比,本发明的模型性能有了很大的提升。证明了本发明的模型方法很好的在seq2seq模型中融合了预训练模型的有用信息,有效提升了低资源机器翻译散度性能。
表1六个机器翻译任务的BLEU值
(2)消融实验
Mixup混合策略和一致性约束消融研究:为了探索多Mixup混合策略和一致性约束对模型性能的影响,进行了去除一致性约束只保留Mixup的实验。实验结果如表2所示:
表2消融实验BLEU值
从表2可以看到,与不加Mixup混合策略和一致性约束的Transformer相比,只利用Mixup进行混合BERT知识的模型性能更好,证明利用Mixup进行混合BERT 知识提升模型的性能是有效的,在此基础上增加一致性约束进一步提升了模型性能,证明一致性约束策略能促进模型更好的学习BERT中丰富的语言知识。
编码器不同层混合BERT知识消融研究:为了进一步探索在不同层利用Mixup 混合BERT知识对模型性的影响,对不同层的知识融合进行了实验,结果如表3所示:
从表3可以看出,在较低层利用Mixup策略混合BERT知识模型的性能比较好,随着层数的增加模型性能逐渐降低,这与前人研究得出的Transformer底层更注重单词本身的表示,忽略单词之间的语义联系的结论一致。
表3不同层融合知识的BLEU值
(3)极低资源下模型性能
对于大多数语言的数据量实际上是极小的,为了验证发明模型的在这方面的性能,在极低资源情况下对模型进行了实验。随机选择了100k英语-法语和50k英语- 越南语数据做为训练集训练模型,实验结果如表4所示。
表4:极低资源下实验结果
可以看到,本发明模型,即使在数据量极少的情况下,模板性能仍高于基线模型Transformer的性能,证明了发明模型有很好的鲁棒性与泛化能力。
通过以上实验证明,本发明利用Mixup策略将预训练模型BERT包含的丰富语义知识融合到Seq2Seq模型编码器并进行一致性约束,增强了编码器对源语言的学习与理解,并且没有增加额外的训练参数,有效提升了低资源场景下神经机器翻译的性能,是一种简单有效的方法。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (1)

1.基于一致性Mixup融合BERT知识到Seq2Seq模型的低资源神经机器翻译方法,其特征在于:所述方法的具体步骤如下:
Step1、对公共数据集IWSLT数据进行预处理;
Step2、将处理好的源语言数据输入模型,获得句子Embedding和BERT句子级表征,用Mixup将源语言的BERT句子级表征和句子Embedding进行融合作为模型编码器第一层的输入;在模型编码器端利用Mixup将源语言的BERT句子级表征与数据经过多头注意力机制的表征进行融合,在此基础上每一句源语言输入编码器两次,对得到的两次编码端的输出计算KL散度损失,进行一致性约束;在原有对数似然损失函数的基础上加入KL散度损失,作为总的损失函数来优化模型;
Step3、解码器的最后一层输出到传统的编码器进行解码,解出目标语言,解码器和编码器都分别堆叠了6层模型;
所述Step1的具体步骤为:
Step1.1、通过国际口语翻译会议IWSLT下载IWSLT’14英语德语、英语/>西巴亚语、IWSLT’15英语→越南语和英语→法语数据集,数据集的大小分别为160k,183k,113k,236k;
Step1.2对下载的数据进行过滤筛选,去除文本内容中的多余符号、超链接和特殊字符,然后对筛选好的数据进行字节对编码处理,包括BPE分词处理,BPE的子词表大小为10000;
所述Step2的具体步骤为:
Step2.1、通过预训练模型BERT和Transformer编码端词嵌入层,获得源语言的句子级BERT表征和词嵌入;
为数据集,其中Xj和Yj表示第j对源语言和目标语言,N表示数据集的总量,第j对源语言Xj输入到预训练模型BERT,将模型的最后一层输出作为源语言的BERT句子级表征,过程如下:
Bj=BERT(Xj) (1)
其中Bj表示源语言的BERT句子级表征,BERT表示预训练模型BERT,Bj∈Rlen×768,len表示源语言句子长度;
把源语言输入Transformer编码端,利用其词嵌入层对源语言进行词嵌入编码和位置编码,最后获得源语言的句子级词嵌入;
Ej=emb(Xj) (2)
其中emb表示Transformer的词嵌入层,Ej表示生成的句子级词嵌入,Ej∈Rlen×512
Step2.2、利用Mixup将源语言的句子级BERT表征Bj和句子级词嵌入Ej进行融合;
其中w是可训练参数,b是偏置,λ服从贝塔分布,是合成的新的句子级词嵌入,被馈送到Transformer编码器层进行训练;
Step2.3、模型编码器端利用Mixup将源语言的BERT句子级表征与数据经过多头注意力机制的表征进行融合;
其中是混合的新的句子表征,MultiHead(.)是传统的多头注意力机制,k∈{0,1,…,5}表示Transformer的不同层;
Step2.4、一致性约束
把同一句源语言输入编码器两次,得到两个不同的编码器输出分布,对这两个不同的输出分布计算KL散度损失进行一致性约束,使模型能更好的学习BERT中丰富的语言知识;
设H1(Xj)和H2(Xj)分别为模型编码端对同一句源语言不同的输出分布,KL散度损失计算如下:
在原有对数似然损失函数的基础上加入KL模型,总的损失函数如下:
其中,δ是控制的权重,/>表示负对数似然损失函数,P(·)表示似然函数,DKL(·)表示传统的KL散度计算;
所述Step3包括:
解码器采用传统的Transformer解码器堆叠6层,每个解码器层由三个子层组成:1)目标语言自注意力层;2)跨语言注意力层;3)前馈网络层;最后将解码器最后一层的输出经过线性变换和softmax层解出目标语言。
CN202210083671.3A 2022-01-20 2022-01-20 基于一致性Mixup融合BERT知识到Seq2Seq模型的低资源神经机器翻译方法 Active CN114970565B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210083671.3A CN114970565B (zh) 2022-01-20 2022-01-20 基于一致性Mixup融合BERT知识到Seq2Seq模型的低资源神经机器翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210083671.3A CN114970565B (zh) 2022-01-20 2022-01-20 基于一致性Mixup融合BERT知识到Seq2Seq模型的低资源神经机器翻译方法

Publications (2)

Publication Number Publication Date
CN114970565A CN114970565A (zh) 2022-08-30
CN114970565B true CN114970565B (zh) 2024-04-26

Family

ID=82974391

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210083671.3A Active CN114970565B (zh) 2022-01-20 2022-01-20 基于一致性Mixup融合BERT知识到Seq2Seq模型的低资源神经机器翻译方法

Country Status (1)

Country Link
CN (1) CN114970565B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111382580A (zh) * 2020-01-21 2020-07-07 沈阳雅译网络技术有限公司 一种面向神经机器翻译的编码器-解码器框架预训练方法
CN113822078A (zh) * 2021-08-20 2021-12-21 北京中科凡语科技有限公司 融合xlm-r模型的机器翻译模型的训练方法
CN113901843A (zh) * 2021-09-07 2022-01-07 昆明理工大学 融合bert与词嵌入双重表征的汉越神经机器翻译方法
CN113901847A (zh) * 2021-09-16 2022-01-07 昆明理工大学 基于源语言句法增强解码的神经机器翻译方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11694042B2 (en) * 2020-06-16 2023-07-04 Baidu Usa Llc Cross-lingual unsupervised classification with multi-view transfer learning

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111382580A (zh) * 2020-01-21 2020-07-07 沈阳雅译网络技术有限公司 一种面向神经机器翻译的编码器-解码器框架预训练方法
CN113822078A (zh) * 2021-08-20 2021-12-21 北京中科凡语科技有限公司 融合xlm-r模型的机器翻译模型的训练方法
CN113901843A (zh) * 2021-09-07 2022-01-07 昆明理工大学 融合bert与词嵌入双重表征的汉越神经机器翻译方法
CN113901847A (zh) * 2021-09-16 2022-01-07 昆明理工大学 基于源语言句法增强解码的神经机器翻译方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
element graph-augmented abstrctive summarization for legal public opinion news with graph transformer;Yuxin Huang等;neurocomputing;20211014;第460卷;166-180 *
基于源语言句法增强解码的神经机器翻译方法;龚龙超等;计算机应用;20211213;1-11 *

Also Published As

Publication number Publication date
CN114970565A (zh) 2022-08-30

Similar Documents

Publication Publication Date Title
CN110598221B (zh) 利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法
CN110472238B (zh) 基于层级交互注意力的文本摘要方法
CN108829722A (zh) 一种远程监督的Dual-Attention关系分类方法及系统
CN112559702B (zh) 基于Transformer的土木建筑信息领域自然语言问题生成方法
CN107967262A (zh) 一种神经网络蒙汉机器翻译方法
CN114118065B (zh) 一种电力领域中文文本纠错方法、装置、存储介质及计算设备
CN111597778A (zh) 一种基于自监督的机器翻译译文自动优化的方法和系统
CN109522403A (zh) 一种基于融合编码的摘要文本生成方法
CN113901847B (zh) 基于源语言句法增强解码的神经机器翻译方法
CN111178085B (zh) 文本翻译器训练方法、专业领域文本语义解析方法和装置
CN113901831B (zh) 基于预训练语言模型及双向交互注意力的平行句对抽取方法
CN111061861A (zh) 一种基于XLNet的文本摘要自动生成方法
CN115982350A (zh) 基于多模态Transformer的虚假新闻检测方法
CN114969304A (zh) 基于要素图注意力的案件舆情多文档生成式摘要方法
CN116401376A (zh) 一种面向工艺性检查的知识图谱构建方法及系统
CN115114940A (zh) 一种基于课程化预训练的机器翻译风格的迁移方法和系统
CN113657125B (zh) 一种基于知识图谱的蒙汉非自回归机器翻译方法
CN114970565B (zh) 基于一致性Mixup融合BERT知识到Seq2Seq模型的低资源神经机器翻译方法
CN114238649A (zh) 一种常识概念增强的语言模型预训练方法
CN114218936A (zh) 一种媒体领域的优质评论自动生成算法
CN114595700A (zh) 融合零代词与篇章信息的汉越神经机器翻译方法
CN116663577A (zh) 基于跨模态表征对齐的英越端到端语音翻译方法
CN115310429B (zh) 一种多轮倾听对话模型中的数据压缩与高性能计算方法
CN115309886A (zh) 基于多模态信息输入的人工智能文本创作方法
CN114139561A (zh) 一种多领域神经机器翻译性能提升方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant