CN114970565A - 基于一致性Mixup融合BERT知识到Seq2Seq模型的低资源神经机器翻译方法 - Google Patents
基于一致性Mixup融合BERT知识到Seq2Seq模型的低资源神经机器翻译方法 Download PDFInfo
- Publication number
- CN114970565A CN114970565A CN202210083671.3A CN202210083671A CN114970565A CN 114970565 A CN114970565 A CN 114970565A CN 202210083671 A CN202210083671 A CN 202210083671A CN 114970565 A CN114970565 A CN 114970565A
- Authority
- CN
- China
- Prior art keywords
- bert
- model
- sentence
- source language
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013519 translation Methods 0.000 title claims abstract description 30
- 238000000034 method Methods 0.000 title claims abstract description 26
- 230000004927 fusion Effects 0.000 title claims abstract description 18
- 230000001537 neural effect Effects 0.000 title claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 26
- 230000006870 function Effects 0.000 claims description 18
- 238000009826 distribution Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 abstract description 4
- 238000002474 experimental method Methods 0.000 description 13
- 238000002679 ablation Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/47—Machine-assisted translation, e.g. using translation memory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及基于一致性Mixup融合BERT知识到Seq2Seq模型的低资源神经机器翻译方法,属于自然语言处理领域。本发明无需增加额外的参数,简单有效;首先获取源语言包含丰富语义知识的源语言BERT表征,在Transformer编码端利用Mixup将源语言的BERT表征融入Seq2Seq模型;在此基础上每一句源语言输入编码器两次,在编码端的两次输出上进行一致性约束,以促进模型能更好的学习预训练模型中的知识;最后将编码器的第六层输出特征作为解码器的输入,解码器采用传统的Transformer解码器结构。本发明采用公共数据集IWSLT的数据集来训练模型。实验结果表明本发明提出的模型能超过了大多数以前的工作。
Description
技术领域
本发明涉及基于一致性Mixup融合BERT知识到Seq2Seq模型的低资源神经机器翻译方法,属于自然语言处理技术领域。
背景技术
神经机器翻译(NMT)是自然语言处理(NLP)领域中的一种特殊的跨语言任务,它试图将源句翻译成目标句。NMT的关键是将句子语义信息从源端对齐到目标端,为此,通常需要大规模的平行句对。然而,高质量的平行句对的收集通常是昂贵的,许多翻译任务都存在资源不足的问题,例如:英语-西班牙语机器翻译、英语- 越南机器翻译等。由于句子对在数量和质量上都有限,低资源NMT在seq2seq神经网络中往往存在对语言知识学习不足、特征表示较差的问题。而相比较于难以获取的高质量平行句对,单语数据实际上是非常丰富的,并且预训练模型经过大规模的单语数据训练,含有丰富的语言知识,如何利用丰富的单语数据和预训练模型的语言知识来提升低资源场景下机器翻译是性能成为关键的问题。
发明内容
本发明提供了基于一致性Mixup融合BERT知识到Seq2Seq模型的低资源神经机器翻译方法,以用于有效的利用预训练模型中丰富的单语知识提升了低资源场景下机器翻译的性能。
本发明的技术方案是:基于一致性Mixup融合BERT知识到Seq2Seq模型的低资源神经机器翻译方法,所述方法的具体步骤如下:
Step1、对公共数据集IWSLT数据进行预处理;
Step2、将处理好的源语言数据输入模型,获得句子Embedding和BERT句子级表征,用Mixup将源语言的BERT句子级表征和句子Embedding进行融合作为模型编码器第一层的输入;在模型编码器端利用Mixup将源语言的BERT句子级表征与数据经过多头注意力机制的表征进行融合,在此基础上每一句源语言输入编码器两次,对得到的两次编码端的输出计算KL散度损失,进行一致性约束;在原有对数似然损失函数的基础上加入KL散度损失,作为总的损失函数来优化模型;
Step3、解码器的最后一层输出到传统的编码器进行解码,解出目标语言,解码器和编码器都分别堆叠了6层模型。
作为本发明的进一步方案,所述Step1的具体步骤为:
Step1.1、通过国际口语翻译会议IWSLT下载IWSLT’14 IWSLT’15英语→越南语(En→Vi)和英语→法语(En→Fr) 数据集,数据集的大小分别为160k,183k,113k,236k;
Step1.2对下载的数据进行过滤筛选,去除文本内容中的多余符号、超链接和特殊字符,然后对筛选好的数据进行字节对编码处理,包括BPE分词处理,BPE的子词表大小为10000。
作为本发明的进一步方案,所述Step2的具体步骤为:
Step2.1、通过预训练模型BERT和Transformer编码端词嵌入层,获得源语言的句子级BERT表征和词嵌入;
Bj=BERT(Xj) (1)
其中Bj表示源语言的BERT句子级表征,BERT表示预训练模型BERT, Bj∈Rlen×768,len表示源语言句子长度;
把源语言输入Transformer编码端,利用其词嵌入层对源语言进行词嵌入编码和位置编码,最后获得源语言的句子级词嵌入;
Ej=emb(Xj) (2)
其中emb表示Transformer的词嵌入层,Ej表示生成的句子级词嵌入,Ej∈Rlen×512;
Step2.2、利用Mixup将源语言的句子级BERT表征Bj和句子级词嵌入Ej进行融合;
Step2.3、模型编码器端利用Mixup将源语言的BERT句子级表征与数据经过多头注意力机制的表征进行融合;
Step2.4、一致性约束
设H1(Xj)和H2(Xj)分别为模型编码端对同一句源语言不同的输出分布,KL散度损失计算如下:
在原有对数似然损失函数的基础上加入KL模型,总的损失函数如下:
作为本发明的进一步方案,所述Step3包括:
解码器采用传统的Transformer解码器堆叠6层,每个解码器层由三个子层组成:1)目标语言自注意力层;2)跨语言注意力层;3)前馈网络层;最后将解码器最后一层的输出经过线性变换和softmax层解出目标语言。
本发明的有益效果是:
1、本发明针对许多翻译任务资源不足,而预训练模型含有丰富的单语知识,提出了一种基于一致性Mixup融合预训练模型BERT的知识到Seq2Seq模型的低资源神经机器翻译方法,这是首次利用Mixup融合预训练模型知识来提升低资源机器翻译的性能;
2、本发明通过利用Mixup在Transformer编码器的句子级词嵌入和编码器层融合预训练模型的知识并进行一致性约束,很好的利用了预训练模型中包含的丰富语言知识,提升了低资源机器翻译的性能;
3、本发明在IWSLT数据集上进行了实验,结果表明本发明的模型显着提高了低资源机器翻译性能。
附图说明
图1为本发明中的流程框图。
具体实施方式
实施例1:如图1所示,基于一致性Mixup融合BERT知识到Seq2Seq模型的低资源神经机器翻译方法,所述方法的具体步骤如下:
Step1、对公共数据集IWSLT数据进行预处理;
Step2、将处理好的源语言数据输入模型,获得句子Embedding和BERT句子级表征,用Mixup将源语言的BERT句子级表征和句子Embedding进行融合作为模型编码器第一层的输入;在模型编码器端利用Mixup将源语言的BERT句子级表征与数据经过多头注意力机制的表征进行融合,在此基础上每一句源语言输入编码器两次,对得到的两次编码端的输出计算KL散度损失,进行一致性约束;在原有对数似然损失函数的基础上加入KL散度损失,作为总的损失函数来优化模型;
Step3、解码器的最后一层输出到传统的编码器进行解码,解出目标语言,解码器和编码器都分别堆叠了6层模型。
作为本发明的进一步方案,所述Step1的具体步骤为:
Step1.1、通过国际口语翻译会议IWSLT下载IWSLT’14 IWSLT’15英语→越南语(En→Vi)和英语→法语(En→Fr) 数据集,数据集的大小分别为160k,183k,113k,236k;
Step1.2对下载的数据进行过滤筛选,去除文本内容中的多余符号、超链接和特殊字符,然后对筛选好的数据进行字节对编码处理,包括BPE分词处理,BPE的子词表大小为10000。
作为本发明的进一步方案,所述Step2的具体步骤为:
Step2.1、通过预训练模型BERT和Transformer编码端词嵌入层,获得源语言的句子级BERT表征和词嵌入;
Bj=BERT(Xj) (1)
其中Bj表示源语言的BERT句子级表征,BERT表示预训练模型BERT, Bj∈Rlen×768,len表示源语言句子长度;
把源语言输入Transformer编码端,利用其词嵌入层对源语言进行词嵌入编码和位置编码,最后获得源语言的句子级词嵌入;
Ej=emb(Xj) (2)
其中emb表示Transformer的词嵌入层,Ej表示生成的句子级词嵌入,Ej∈Rlen×512;
Step2.2、利用Mixup将源语言的句子级BERT表征Bj和句子级词嵌入Ej进行融合;
Step2.3、模型编码器端利用Mixup将源语言的BERT句子级表征与数据经过多头注意力机制的表征进行融合;
Step2.4、一致性约束
设H1(Xj)和H2(Xj)分别为模型编码端对同一句源语言不同的输出分布,KL散度损失计算如下:
在原有对数似然损失函数的基础上加入KL模型,总的损失函数如下:
作为本发明的进一步方案,所述Step3包括:
解码器采用传统的Transformer解码器堆叠6层,每个解码器层由三个子层组成:1)目标语言自注意力层;2)跨语言注意力层;3)前馈网络层;最后将解码器最后一层的输出经过线性变换和softmax层解出目标语言。
为了说明本发明的效果,设置了三组对比实验,第一组是主试验结果,在这个领域和以前的一些工作进行比较。第二组实验是消融实验,验证提出的方法的有效性。第三组实验验证方法模型在极低资源情况下的性能。
(1)主实验结果
为验证发明的有效性,本发明在六个低资源机器翻译任务书进行实验,与大数先前的研究一样划分训练集、验证集、测试集。在这里和之前一些性能比较好的工作进行比较,ReMixup-NMT是本次发明的模型,实验结果如表1所示.
如表1所示,本发明提出的模型在英语→法语、英语→越南语的翻译任务上的最佳实验结果。可以清楚地看到,与之前的工作相比,本发明的模型性能有了很大的提升。证明了本发明的模型方法很好的在seq2seq模型中融合了预训练模型的有用信息,有效提升了低资源机器翻译散度性能。
表1六个机器翻译任务的BLEU值
(2)消融实验
Mixup混合策略和一致性约束消融研究:为了探索多Mixup混合策略和一致性约束对模型性能的影响,进行了去除一致性约束只保留Mixup的实验。实验结果如表2所示:
表2消融实验BLEU值
从表2可以看到,与不加Mixup混合策略和一致性约束的Transformer相比,只利用Mixup进行混合BERT知识的模型性能更好,证明利用Mixup进行混合BERT 知识提升模型的性能是有效的,在此基础上增加一致性约束进一步提升了模型性能,证明一致性约束策略能促进模型更好的学习BERT中丰富的语言知识。
编码器不同层混合BERT知识消融研究:为了进一步探索在不同层利用Mixup 混合BERT知识对模型性的影响,对不同层的知识融合进行了实验,结果如表3所示:
从表3可以看出,在较低层利用Mixup策略混合BERT知识模型的性能比较好,随着层数的增加模型性能逐渐降低,这与前人研究得出的Transformer底层更注重单词本身的表示,忽略单词之间的语义联系的结论一致。
表3不同层融合知识的BLEU值
(3)极低资源下模型性能
对于大多数语言的数据量实际上是极小的,为了验证发明模型的在这方面的性能,在极低资源情况下对模型进行了实验。随机选择了100k英语-法语和50k英语- 越南语数据做为训练集训练模型,实验结果如表4所示。
表4:极低资源下实验结果
可以看到,本发明模型,即使在数据量极少的情况下,模板性能仍高于基线模型Transformer的性能,证明了发明模型有很好的鲁棒性与泛化能力。
通过以上实验证明,本发明利用Mixup策略将预训练模型BERT包含的丰富语义知识融合到Seq2Seq模型编码器并进行一致性约束,增强了编码器对源语言的学习与理解,并且没有增加额外的训练参数,有效提升了低资源场景下神经机器翻译的性能,是一种简单有效的方法。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (4)
1.基于一致性Mixup融合BERT知识到Seq2Seq模型的低资源神经机器翻译方法,其特征在于:所述方法的具体步骤如下:
Step1、对公共数据集IWSLT数据进行预处理;
Step2、将处理好的源语言数据输入模型,获得句子Embedding和BERT句子级表征,用Mixup将源语言的BERT句子级表征和句子Embedding进行融合作为模型编码器第一层的输入;在模型编码器端利用Mixup将源语言的BERT句子级表征与数据经过多头注意力机制的表征进行融合,在此基础上每一句源语言输入编码器两次,对得到的两次编码端的输出计算KL散度损失,进行一致性约束;在原有对数似然损失函数的基础上加入KL散度损失,作为总的损失函数来优化模型;
Step3、解码器的最后一层输出到传统的编码器进行解码,解出目标语言,解码器和编码器都分别堆叠了6层模型。
3.根据权利要求1的基于一致性Mixup融合BERT知识到Seq2Seq模型的低资源神经机器翻译方法,其特征在于:所述Step2的具体步骤为:
Step2.1、通过预训练模型BERT和Transformer编码端词嵌入层,获得源语言的句子级BERT表征和词嵌入;
Bj=BERT(Xj) (1)
其中Bj表示源语言的BERT句子级表征,BERT表示预训练模型BERT,Bj∈Rlen×768,len表示源语言句子长度;
把源语言输入Transformer编码端,利用其词嵌入层对源语言进行词嵌入编码和位置编码,最后获得源语言的句子级词嵌入;
Ej=emb(Xj) (2)
其中emb表示Transformer的词嵌入层,Ej表示生成的句子级词嵌入,Ej∈Rlen×512;
Step2.2、利用Mixup将源语言的句子级BERT表征Bj和句子级词嵌入Ej进行融合;
Step2.3、模型编码器端利用Mixup将源语言的BERT句子级表征与数据经过多头注意力机制的表征进行融合;
Step2.4、一致性约束
设H1(Xj)和H2(Xj)分别为模型编码端对同一句源语言不同的输出分布,KL散度损失计算如下:
在原有对数似然损失函数的基础上加入KL模型,总的损失函数如下:
4.根据权利要求1的基于一致性Mixup融合BERT知识到Seq2Seq模型的低资源神经机器翻译方法,其特征在于:所述Step3包括:
解码器采用传统的Transformer解码器堆叠6层,每个解码器层由三个子层组成:1)目标语言自注意力层;2)跨语言注意力层;3)前馈网络层;最后将解码器最后一层的输出经过线性变换和softmax层解出目标语言。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210083671.3A CN114970565B (zh) | 2022-01-20 | 2022-01-20 | 基于一致性Mixup融合BERT知识到Seq2Seq模型的低资源神经机器翻译方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210083671.3A CN114970565B (zh) | 2022-01-20 | 2022-01-20 | 基于一致性Mixup融合BERT知识到Seq2Seq模型的低资源神经机器翻译方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114970565A true CN114970565A (zh) | 2022-08-30 |
CN114970565B CN114970565B (zh) | 2024-04-26 |
Family
ID=82974391
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210083671.3A Active CN114970565B (zh) | 2022-01-20 | 2022-01-20 | 基于一致性Mixup融合BERT知识到Seq2Seq模型的低资源神经机器翻译方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114970565B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111382580A (zh) * | 2020-01-21 | 2020-07-07 | 沈阳雅译网络技术有限公司 | 一种面向神经机器翻译的编码器-解码器框架预训练方法 |
US20210390270A1 (en) * | 2020-06-16 | 2021-12-16 | Baidu Usa Llc | Cross-lingual unsupervised classification with multi-view transfer learning |
CN113822078A (zh) * | 2021-08-20 | 2021-12-21 | 北京中科凡语科技有限公司 | 融合xlm-r模型的机器翻译模型的训练方法 |
CN113901843A (zh) * | 2021-09-07 | 2022-01-07 | 昆明理工大学 | 融合bert与词嵌入双重表征的汉越神经机器翻译方法 |
CN113901847A (zh) * | 2021-09-16 | 2022-01-07 | 昆明理工大学 | 基于源语言句法增强解码的神经机器翻译方法 |
-
2022
- 2022-01-20 CN CN202210083671.3A patent/CN114970565B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111382580A (zh) * | 2020-01-21 | 2020-07-07 | 沈阳雅译网络技术有限公司 | 一种面向神经机器翻译的编码器-解码器框架预训练方法 |
US20210390270A1 (en) * | 2020-06-16 | 2021-12-16 | Baidu Usa Llc | Cross-lingual unsupervised classification with multi-view transfer learning |
CN113822078A (zh) * | 2021-08-20 | 2021-12-21 | 北京中科凡语科技有限公司 | 融合xlm-r模型的机器翻译模型的训练方法 |
CN113901843A (zh) * | 2021-09-07 | 2022-01-07 | 昆明理工大学 | 融合bert与词嵌入双重表征的汉越神经机器翻译方法 |
CN113901847A (zh) * | 2021-09-16 | 2022-01-07 | 昆明理工大学 | 基于源语言句法增强解码的神经机器翻译方法 |
Non-Patent Citations (2)
Title |
---|
YUXIN HUANG等: "element graph-augmented abstrctive summarization for legal public opinion news with graph transformer", NEUROCOMPUTING, vol. 460, 14 October 2021 (2021-10-14), pages 166 - 180, XP086764083, DOI: 10.1016/j.neucom.2021.07.013 * |
龚龙超等: "基于源语言句法增强解码的神经机器翻译方法", 计算机应用, 13 December 2021 (2021-12-13), pages 1 - 11 * |
Also Published As
Publication number | Publication date |
---|---|
CN114970565B (zh) | 2024-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110472238B (zh) | 基于层级交互注意力的文本摘要方法 | |
CN110348016B (zh) | 基于句子关联注意力机制的文本摘要生成方法 | |
CN112559702B (zh) | 基于Transformer的土木建筑信息领域自然语言问题生成方法 | |
Li et al. | Shallow-to-deep training for neural machine translation | |
CN108829722A (zh) | 一种远程监督的Dual-Attention关系分类方法及系统 | |
CN107967262A (zh) | 一种神经网络蒙汉机器翻译方法 | |
CN110516244B (zh) | 一种基于bert的句子自动填充方法 | |
CN111597778A (zh) | 一种基于自监督的机器翻译译文自动优化的方法和系统 | |
CN113901847B (zh) | 基于源语言句法增强解码的神经机器翻译方法 | |
CN113901831B (zh) | 基于预训练语言模型及双向交互注意力的平行句对抽取方法 | |
CN111178085B (zh) | 文本翻译器训练方法、专业领域文本语义解析方法和装置 | |
CN113743133A (zh) | 融合词粒度概率映射信息的汉越跨语言摘要方法 | |
Meng et al. | WeChat neural machine translation systems for WMT20 | |
CN114118111A (zh) | 融合文本和图片特征的多模态机器翻译方法 | |
CN115114940A (zh) | 一种基于课程化预训练的机器翻译风格的迁移方法和系统 | |
CN115048511A (zh) | 一种基于Bert的护照版面分析方法 | |
CN113657125B (zh) | 一种基于知识图谱的蒙汉非自回归机器翻译方法 | |
CN114564933A (zh) | 一种个性化机器翻译训练方法和系统 | |
CN114238649A (zh) | 一种常识概念增强的语言模型预训练方法 | |
CN113591460A (zh) | 一种基于迭代知识迁移的机器翻译风格迁移性能提升方法 | |
CN114970565B (zh) | 基于一致性Mixup融合BERT知识到Seq2Seq模型的低资源神经机器翻译方法 | |
CN113468865B (zh) | 基于深度学习的地铁设计领域规范的实体间关系抽取方法 | |
CN112464673B (zh) | 融合义原信息的语言含义理解方法 | |
CN114139561A (zh) | 一种多领域神经机器翻译性能提升方法 | |
CN115309886A (zh) | 基于多模态信息输入的人工智能文本创作方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |