CN111382580B - 一种面向神经机器翻译的编码器-解码器框架预训练方法 - Google Patents
一种面向神经机器翻译的编码器-解码器框架预训练方法 Download PDFInfo
- Publication number
- CN111382580B CN111382580B CN202010068166.2A CN202010068166A CN111382580B CN 111382580 B CN111382580 B CN 111382580B CN 202010068166 A CN202010068166 A CN 202010068166A CN 111382580 B CN111382580 B CN 111382580B
- Authority
- CN
- China
- Prior art keywords
- model
- sentence
- training
- language
- machine translation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明一种面向神经机器翻译的编码器‑解码器框架预训练方法,步骤为:构建海量的多语言文档级单语语料,在每个句子前面加入一个特殊的标识符表示该句的语言种类;对句对进行处理,得到训练数据;对不同语言的单语数据进行训练,得到收敛后的预训练模型参数;构建平行语料,使用预训练模型参数初始化神经机器翻译模型的参数;初始化后的神经机器翻译模型通过平行语料对模型参数进行微调,完成训练过程;在解码阶段,使用训练完成的神经机器翻译模型的编码器对源语句子进行编码,解码器解码生成目标语言句子。本发明使模型具备语言建模能力和语言生成能力,将预训练模型应用于神经机器翻译模型中,并且可以加快模型的收敛速度,提高模型的鲁棒性。
Description
技术领域
本发明涉及一种编码器-解码器框架的预训练方法,具体为面向神经机器翻译的编码器-解码器框架预训练方法。
背景技术
在神经网络中,预训练方法是指通过海量的通用数据训练得到一个基础模型,这种通用且充分的数据能够鼓励模型在相同领域的下游任务上拥有很好的泛化能力。之后,针对下游任务,使用任务特定的数据对预训练好的模型进行微调,使模型更关注任务相关的特征,在该任务上具有更好的表现。在任务特定的数据量较小的情况下,预训练方法能够有效提升模型性能,而且由于预训练模型已经具备了通用的特征提取能力,微调模型能够达到更快的收敛速度和更强的鲁棒性。
在计算机视觉领域,预训练方法已经被广泛应用,然而在自然语言处理领域,人们对于预训练方法的研究才刚刚开始。最近,研究人员们提出了多种基于语言模型的预训练方法,比如ELMo、GPT和BERT等,这些预训练方法通过预训练语言模型任务,能够有效地应用于命名实体识别、文本蕴含、问答、情感分析和语义角色标注等多个任务上,而且都达到了当前最好的性能。因此,在机器翻译任务上使用预训练方法来提高性能是直觉的想法。
但存在的一个问题是,神经机器翻译模型基于编码器-解码器框架,而现有的预训练语言模型如GPT可以看作是神经机器翻译模型的解码器,BERT可以看作是神经机器翻译模型的编码器,两者的网络结构和神经机器翻译模型并不完全匹配,因此现如今比较流行的预训练语言模型无法直接应用到神经机器翻译模型上。
目前已经有一些预训练方法,可以集成现有预训练模型的知识到神经机器翻译模型中,这种方法可以为翻译模型提供额外信息,提高编码器的特征提取能力,从而有效地提高模型性能。但这种集成方法有一个重要的不足,即只能将预训练模型的部分信息应用到神经机器翻译模型中,或是只能应用到神经机器翻译模型的部分模块,无法初始化整个模型,模型仍有部分参数需要从零开始学习,限制了预训练模型的收益。
发明内容
针对现有技术中预训练方法无法完整有效地应用于神经机器翻译模型等不足,本发明要解决的技术问题是提供一种面向神经机器翻译的编码器-解码器框架预训练方法,利用海量的文档级单语语料,预训练下一句生成任务,然后使用预训练模型的参数初始化神经机器翻译模型,从而显著提高模型的翻译质量。
为解决上述技术问题,本发明采用的技术方案是:
本发明一种面向神经机器翻译的编码器-解码器框架预训练方法,包括以下步骤:
1)构建海量的多语言文档级单语语料,将其处理为<前句,后句>形式的句对,前句和后句为同一种语言,在每个句子前面加入一个特殊的标识符,表示该句的语言种类;
2)对句对进行清洗过滤、分词、子词切分预处理,得到训练数据;
3)使用训练数据通过下一句生成任务预训练编码器-解码器框架,编码器提取前句中的信息,将其编码为一个向量表示,解码器根据编码器提取到的信息,解码生成相同语言的后句内容,模型通过共享参数对不同语言的单语数据进行训练,得到收敛后的预训练模型参数;
4)构建平行语料,和预训练模型使用同样的分词和子词切分方式,并且使用相同的模型结构,使用预训练模型参数初始化神经机器翻译模型的参数;
5)初始化后的神经机器翻译模型通过平行语料对模型参数进行微调,完成训练过程;
6)在解码阶段,使用训练完成的神经机器翻译模型的编码器对源语句子进行编码,解码器解码生成目标语言句子。
步骤1)中,构建海量的多语言文档级单语语料,将其处理为<前句,后句>形式的句对,前句和后句为同一种语言,在每个句子前面加入一个特殊的标识符,表示该句的语种,具体为:
101)对于文档级单语语料,转化为<前句,后句>形式的句对;
102)在每个句子前面加入一个特殊的标识符来表示这个句子对应的语种,通过这种处理,在训练过程中,模型就可以识别到输入和输出对应的语言种类,从而进行特定的编码和生成。
步骤2)中,对文档级单语语料进行清洗过滤、分词、子词切分预处理,文档级单语语料的前句和后句包含部分相近的语义信息,在翻译任务中,源语句子和目标语句子的长度一般不会相差太多,而文档中前句和后句之间的长度却没有任何约束,相差很大,去除长度大于250个字符的句子,并且使用长度比过滤去除长度比大于1:1.5的句对。
步骤3)中,使用训练数据通过下一句生成任务预训练编码器-解码器框架,模型通过共享参数对不同语言的单语数据进行训练,具体为:
301)将前句送入模型的编码器中,编码器提取前句中的信息,将其编码为一个向量表示,解码器根据提取的信息生成后句的内容,增加编码器和解码器之间的相关性;
302)对多语言的训练语料使用共享的词表和权重,减小不同语言间表示的区别,共享子词单元,学习到不同语言之间的联系;使用同一个模型同时预训练多语言的下一句生成任务,具备提取不同语言序列特征的能力和生成不同语言序列的能力;
303)针对不同语言的输入,在编码阶段对语言的特性进行提取,在解码阶段针对语言的特性生成不同语言的输出;通过语言标识方法,模型在提取句子特征的过程中,针对不同的语言进行区分;
304)在编码器的词嵌入层加入语言嵌入,表示解码器要生成的目标语言类别。
步骤4)中,构建平行语料,和预训练模型使用同样的分词和子词切分方式,并且使用相同的模型结构,使用预训练模型参数初始化神经机器翻译模型的参数,具体为:
401)采用同样的预处理流程,包括分词和字词切分方式,使神经机器翻译模型和预训练模型的词表完全一致,减小预训练模型和神经机器翻译模型的差异,减少未登录词的出现次数;
402)神经机器翻译模型需要和预训练模型使用相同的模型结构,将预训练模型的参数完整迁移到神经机器翻译模型中,最大化预训练方法带来的收益。
步骤5)中,神经机器翻译模型通过平行语料对模型参数进行微调,完成训练过程,在微调过程中,模型使用0.0001~0.0005的学习率进行参数更新,从而达到更好的收敛状态。
步骤6)中解码阶段,使用训练完成的神经机器翻译模型的编码器对源语句子进行编码,解码器解码生成目标语言句子,具体为:
601)在源语句子前面加上语言标识,标识对应的语言种类,并根据要生成的语言种类得到对应的语言嵌入,在编码器的输入层和词嵌入、位置嵌入进行加和,使用编码器对该句子进行编码,提取源语言句子中的信息;
602)根据要生成的目标语言类别,设置解码过程的起始符,根据设置的起始符,解码器识别要生成的语言类别,然后通过贪婪搜索或者束搜索的方式,生成目标语言的翻译结果。
本发明具有以下有益效果及优点:
1.本发明提出了面向神经机器翻译的编码器-解码器框架的预训练方法,通过海量的文档级单语语料预训练模型,从而使模型具备语言建模能力和语言生成能力,将预训练模型应用于神经机器翻译模型中,并且可以加快模型的收敛速度,提高模型的鲁棒性。
2.相比现有的预训练模型,本发明可以通过预训练初始化神经机器翻译模型的全部参数,避免了训练过程中编码器、解码器不一致问题,提高了预训练方法带来的收益。
附图说明
图1为本发明中预训练模型训练下一句生成任务的图示;
图2为本发明中通过共享参数训练多语言下一句生成任务的图示;
图3为本发明中词嵌入层的组成图示。
具体实施方式
下面结合说明书附图对本发明作进一步阐述。
在自然语言处理领域,基于编码器-解码器框架的模型一般应用于机器翻译、文本生成、智能对话等条件生成任务中,而预训练模型需要海量的数据,这意味着只能依赖无标注的单语数据进行训练。受文档级机器翻译任务的启发,编码一个句子的上下文对该句的翻译有一定的帮助,因为相邻的句子一般会共享一部分语义信息。神经机器翻译模型通过编码器提取输入源语中的信息,解码器根据提取的信息生成相同语义的目标语,因此,本发明可以将一个句子的上文作为输入,编码器提取上文中的信息,解码器通过提取到的信息生成这个句子,从而仅仅通过文档级单语数据就可以完成预训练过程。因为该预训练方法主要是面向机器翻译任务,因此预训练模型在多语言的单语数据上进行学习,从而可以具备多语言建模的能力。针对以上条件和思想,本发明提出了面向神经机器翻译的编码器-解码器预训练方法,利用海量的文档级单语数据预训练下一句生成任务,然后应用于神经机器翻译任务中。
本发明将从使用文档级单语语料通过编码器-解码器框架预训练下一句生成任务进行优化。本方法一种面向神经机器翻译的编码器-解码器框架预训练方法在不使用双语语料的条件下,使用海量的文档级单语语料预训练编码器-解码器框架模型,使用预训练模型的参数初始化整个神经机器翻译模型,无需从零开始学习,能够显著提高模型的收敛速度和翻译质量。
本发明方法包括以下步骤:
1)构建海量的多语言文档级单语语料,将其处理为<前句,后句>形式的句对,前句和后句为同一种语言,在每个句子前面加入一个特殊的标识符,表示该句的语言种类;
2)对句对进行清洗过滤、分词、子词切分预处理,得到训练数据;
3)使用训练数据通过下一句生成任务预训练编码器-解码器框架,编码器提取前句中的信息,将其编码为一个向量表示,解码器根据编码器提取到的信息,解码生成相同语言的后句内容,模型通过共享参数对不同语言的单语数据进行训练,得到收敛后的预训练模型参数;
4)构建平行语料,和预训练模型使用同样的分词和子词切分方式,并且使用相同的模型结构,使用预训练模型参数初始化神经机器翻译模型的参数;
5)初始化后的神经机器翻译模型通过平行语料对模型参数进行微调,完成训练过程;
6)在解码阶段,使用训练完成的神经机器翻译模型的编码器对源语句子进行编码,解码器解码生成目标语言句子。
步骤1)中构构建海量的多语言文档级单语语料,将其处理为<前句,后句>形式的句对,前句和后句为同一种语言,在每个句子前面加入一个特殊的标识符,表示该句的语言种类,具体为:
101)对于文档级单语语料,比如一个英文文档为“It's a good day.I want togo shopping.Do you want to come with me?”,可以转换为两个句对[It's a goodday.,I want to go shopping.]和[I want to go shopping.,Do you want to comewith me?];
102)在每个句子前面加入一个特殊的标识符来表示这个句子对应的语种,比如对于句对[It's a good day.,I want to go shopping.],前句和后句均为英语文档中的句子,在两个句子前面均加上一个标识符<en>,转换为[<en>It's a good day.,<en>I wantto go shopping.]。通过这种处理,在训练过程中,模型就可以识别到输入和输出对应的语言种类,从而进行特定的编码和生成。
步骤2)中对句对进行清洗过滤、分词、子词切分预处理,得到训练数据。文档级单语语料的前句和后句包含部分相近的语义信息,但是与机器翻译任务相比,存在的一个问题是句对的长度相差过大。在翻译任务中,源语句子和目标语句子的长度一般不会相差太多,而文档中前句和后句之间的长度却没有任何约束,可能相差很大。针对这个问题,本步骤去除长度大于250个字符的句子,并且使用长度比过滤去除长度比大于1:1.5的句对。
步骤3)中基于下一句生成任务预训练编码器-解码器模型,模型通过共享参数对不同语言的单语数据进行训练,具体为:
301)和神经机器翻译模型相似,将前句送入模型的编码器中,编码器提取前句中的信息,将其编码为一个向量表示,解码器根据提取的信息生成后句的内容,如图1所示。通过这种方式,编码器可以学会提取输入句子中的信息,解码器能够学会如何生成一个流利通顺的句子,并且可以在编码器和解码器之间建立联系,增加编码器和解码器之间的相关性;
302)如果仅仅使用一种语言的文档级单语数据进行预训练,模型只能够学习到如何在同一个语言中进行生成,而无法学习到跨语言生成能力。针对这个问题,我们对多语言的训练语料使用共享的词表和权重,共享设置可以减小不同语言间表示的区别,并且可以共享一些子词单元,从而学习到不同语言之间的联系。然后,本步骤中使用同一个模型同时预训练多语言的下一句生成任务。通过这种方式,预训练模型不仅可以具备提取不同语言序列特征的能力,而且可以具备生成不同语言序列的能力;
303)但是这种方法也带来了另外一个问题,模型希望语言之间的差异性减小,从而具备从多语言的输入中提取信息的能力,但针对不同语言的输入,在编码阶段需要针对语言的特性进行提取,在解码阶段需要针对语言的特性生成特定语言的输出,而不是完全统一处理。语言标识就是为了解决这个问题而提出的,这样模型就可以充分区分不同语言,如图2所示。通过这种方法,模型在提取句子特征的过程中,也可以针对不同的语言进行适度的区分。
304)预训练阶段模型只能够学习到如何生成相同语言的内容,而翻译阶段则需要生成不同语言的内容。编码器在提取信息的过程中,无法得知解码器要生成何种语言的内容,在预训练阶段会引导模型朝着仅生成相同语言内容的方向学习,这和翻译阶段是不匹配的。针对这个问题,本发明在编码器的词嵌入层加入语言嵌入,表示解码器要生成的目标语言类别,如图3所示。
步骤4)中和预训练模型使用同样的分词和子词切分方式,并且使用相同的模型结构,使用预训练模型的参数初始化神经机器翻译模型的参数,具体为:
401)采用同样的预处理流程,包括分词和字词切分方式,使神经机器翻译模型和预训练模型的词表完全一致,减小预训练模型和神经机器翻译模型的差异,减少未登录词的出现次数;
402)神经机器翻译模型需要和预训练模型使用相同的模型结构,将预训练模型的参数完整迁移到神经机器翻译模型中,最大化预训练方法带来的收益。
步骤5)中神经机器翻译模型通过平行语料对模型参数进行微调,完成训练过程。在微调过程中,因为预训练模型已经具备了一定的能力,并不是从零学习,因此与普通的神经机器翻译模型相比,模型使用0.0001~0.0005的小学习率进行参数更新可以达到更好的收敛状态。
步骤6)中解码阶段,使用训练完成的神经机器翻译模型的编码器对源语句子进行编码,解码器解码生成目标语言句子,具体为:
601)在源语句子前面加上语言标识,标识对应的语言种类,并根据要生成的语言种类得到对应的语言嵌入,在编码器的输入层和词嵌入、位置嵌入进行加和,使用编码器对该句子进行编码,提取源语言句子中的信息;
602)根据要生成的目标语言类别,设置解码过程的起始符。比如模型需要进行英语-德语的翻译,解码过程的起始符也就是<de>。根据设置的起始符,解码器可以识别要生成的语言类别,然后通过贪婪搜索或者束搜索的方式,生成目标语言的翻译结果。
通过英语-德语翻译任务来验证本发明提出的预训练方法,使用开放的英语和德语News Crawl Docs数据集2007到2018年的全部数据,处理之后分别取出五千万条训练句对,在英语和德语句子前分别加上<en>和<de>的标识符,表示句子的语言种类。对英语和德语的单语数据,使用统一的子词切分方式和词表,最终的词表大小为34636,然后使用transformer big模型结构预训练英语和德语的下一句生成任务。
使用WMT2018新闻数据集作为双语数据集,和单语数据使用相同的子词切分方式和词表,保证预训练模型和神经机器翻译模型的一致性。使用预训练模型初始化神经机器翻译模型的网络参数,在不同大小的数据集上均可以带来显著的性能提升。尤其在双语数据仅有一万条的时候,模型的BLEU值可以提升10个点左右,在稀缺资源的机器翻译任务可以带来更大的收益。
现有的预训练方法一般针对自然语言理解任务,使用神经机器翻译模型的编码器进行学习,而神经机器翻译模型使用的是编码器-解码器框架,因此现有的预训练模型并不完全适用于神经机器翻译模型。本发明提出了面向神经机器翻译的编码器-解码器框架预训练方法,利用海量的文档级单语数据训练下一句生成任务,并通过共享参数来学习多语言建模,对不同语言通过起始符和语言嵌入来区分,这样在增加不同语言之间联系的同时,也保留了语言自身的特性。预训练阶段完成之后,预训练模型参数用于初始化神经机器翻译模型,使翻译模型在初始阶段就可以具备语言编码能力和语言生成能力,然后通过双语数据对模型参数进行微调,可以达到更好的翻译性能。
Claims (6)
1.一种面向神经机器翻译的编码器-解码器框架预训练方法,其特征在于包括以下步骤:
1)构建海量的多语言文档级单语语料,将其处理为<前句,后句>形式的句对,前句和后句为同一种语言,在每个句子前面加入一个特殊的标识符,表示该句的语言种类;
2)对句对进行清洗过滤、分词、子词切分预处理,得到训练数据;
3)使用训练数据通过下一句生成任务预训练编码器-解码器模型,编码器提取前句中的信息,将其编码为一个向量表示,解码器根据编码器提取到的信息,解码生成相同语言的后句内容,预训练编码器-解码器模型通过共享参数对不同语言的单语数据进行训练,得到收敛后的预训练模型参数;
4)构建平行语料,再和预训练编码器-解码器模型使用同样的分词和子词切分方式,并且使用相同的模型结构,使用预训练模型参数初始化神经机器翻译模型的参数;
5)初始化后的神经机器翻译模型通过平行语料对模型参数进行微调,完成训练过程;
6)在解码阶段,使用训练完成的神经机器翻译模型的编码器对源语句子进行编码,解码器解码生成目标语言句子;
步骤3)中,使用训练数据通过下一句生成任务预训练编码器-解码器模型,模型通过共享参数对不同语言的单语数据进行训练,具体为:
301)将前句送入模型的编码器中,编码器提取前句中的信息,将其编码为一个向量表示,解码器根据提取的信息生成后句的内容,增加编码器和解码器之间的相关性;
302)对多语言的训练语料使用共享的词表和权重,减小不同语言间表示的区别,共享子词单元,学习到不同语言之间的联系;使用同一个模型同时预训练多语言的下一句生成任务,具备提取不同语言序列特征的能力和生成不同语言序列的能力;
303)针对不同语言的输入,在编码阶段对语言的特性进行提取,在解码阶段针对语言的特性生成不同语言的输出;通过语言标识方法,模型在提取句子特征的过程中,针对不同的语言进行区分;
304)在编码器的词嵌入层加入语言嵌入,表示解码器要生成的目标语言类别。
2.按权利要求1所述的面向神经机器翻译的编码器-解码器框架预训练方法,其特征在于:步骤1)中,构建海量的多语言文档级单语语料,将其处理为<前句,后句>形式的句对,前句和后句为同一种语言,在每个句子前面加入一个特殊的标识符,表示该句的语种,具体为:
101)对于文档级单语语料,转化为<前句,后句>形式的句对;
102)在每个句子前面加入一个特殊的标识符来表示这个句子对应的语种,通过这种处理,在训练过程中,模型就可以识别到输入和输出对应的语言种类,从而进行特定的编码和生成。
3.按权利要求1所述的面向神经机器翻译的编码器-解码器框架预训练方法,其特征在于:步骤2)中,对文档级单语语料进行清洗过滤、分词、子词切分预处理,文档级单语语料的前句和后句包含部分相近的语义信息,去除长度大于250个字符的句子,并且使用长度比过滤去除长度比大于1:1.5的句对。
4.按权利要求1所述的面向神经机器翻译的编码器-解码器框架预训练方法,其特征在于:步骤4)中,构建平行语料,和预训练模型使用同样的分词和子词切分方式,并且使用相同的模型结构,使用预训练模型参数初始化神经机器翻译模型的参数,具体为:
401)采用同样的预处理流程,包括分词和字词切分方式,使神经机器翻译模型和预训练模型的词表完全一致,减小预训练模型和神经机器翻译模型的差异,减少未登录词的出现次数;
402)神经机器翻译模型需要和预训练模型使用相同的模型结构,将预训练模型的参数完整迁移到神经机器翻译模型中,最大化预训练方法带来的收益。
5.按权利要求1所述的面向神经机器翻译的编码器-解码器框架预训练方法,其特征在于:步骤5)中,神经机器翻译模型通过平行语料对模型参数进行微调,完成训练过程,在微调过程中,模型使用0.0001~0.0005的学习率进行参数更新,从而达到更好的收敛状态。
6.按权利要求1所述的面向神经机器翻译的编码器-解码器框架预训练方法,其特征在于:步骤6)中解码阶段,使用训练完成的神经机器翻译模型的编码器对源语句子进行编码,解码器解码生成目标语言句子,具体为:
601)在源语句子前面加上语言标识,标识对应的语言种类,并根据要生成的语言种类得到对应的语言嵌入,在编码器的输入层和词嵌入、位置嵌入进行加和,使用编码器对该句子进行编码,提取源语言句子中的信息;
602)根据要生成的目标语言类别,设置解码过程的起始符,根据设置的起始符,解码器识别要生成的语言类别,然后通过贪婪搜索或者束搜索的方式,生成目标语言的翻译结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010068166.2A CN111382580B (zh) | 2020-01-21 | 2020-01-21 | 一种面向神经机器翻译的编码器-解码器框架预训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010068166.2A CN111382580B (zh) | 2020-01-21 | 2020-01-21 | 一种面向神经机器翻译的编码器-解码器框架预训练方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111382580A CN111382580A (zh) | 2020-07-07 |
CN111382580B true CN111382580B (zh) | 2023-04-18 |
Family
ID=71218612
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010068166.2A Active CN111382580B (zh) | 2020-01-21 | 2020-01-21 | 一种面向神经机器翻译的编码器-解码器框架预训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111382580B (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111738020B (zh) * | 2020-08-24 | 2021-01-12 | 北京金山数字娱乐科技有限公司 | 一种翻译模型的训练方法及装置 |
CN112287688B (zh) * | 2020-09-17 | 2022-02-11 | 昆明理工大学 | 融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法及装置 |
CN112232084A (zh) * | 2020-10-15 | 2021-01-15 | 中国科学院自动化研究所 | 神经语义编解码分析方法及系统 |
CN112287696B (zh) * | 2020-10-29 | 2024-02-23 | 语联网(武汉)信息技术有限公司 | 译文后编辑方法、装置、电子设备和存储介质 |
CN112257468B (zh) * | 2020-11-03 | 2023-08-22 | 沈阳雅译网络技术有限公司 | 一种多语言神经机器翻译性能提升方法 |
CN112270190A (zh) * | 2020-11-13 | 2021-01-26 | 浩鲸云计算科技股份有限公司 | 一种基于注意力机制的数据库字段翻译方法及系统 |
CN112597780A (zh) * | 2020-12-28 | 2021-04-02 | 焦点科技股份有限公司 | 一种多语种混合的异构神经网络机器学习翻译方法 |
CN112836525B (zh) * | 2021-01-13 | 2023-08-18 | 江苏金陵科技集团有限公司 | 一种基于人机交互机器翻译系统及其自动优化方法 |
CN113569584A (zh) * | 2021-01-25 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 文本翻译方法、装置、电子设备及计算机可读存储介质 |
CN112800780A (zh) * | 2021-01-26 | 2021-05-14 | 浙江香侬慧语科技有限责任公司 | 一种多语种机器翻译方法、装置、存储介质及设备 |
CN113239710A (zh) * | 2021-06-23 | 2021-08-10 | 合肥讯飞数码科技有限公司 | 多语言机器翻译方法、装置、电子设备和存储介质 |
CN113657123A (zh) * | 2021-07-14 | 2021-11-16 | 内蒙古工业大学 | 基于目标模板指导和关系头编码的蒙语方面级情感分析方法 |
CN113505571A (zh) * | 2021-07-30 | 2021-10-15 | 沈阳雅译网络技术有限公司 | 一种面向神经机器翻译的数据选择及训练方法 |
CN113553822B (zh) * | 2021-07-30 | 2023-06-30 | 网易(杭州)网络有限公司 | 古诗词生成模型训练、古诗词生成方法、设备及存储介质 |
CN113591498B (zh) * | 2021-08-03 | 2023-10-03 | 北京有竹居网络技术有限公司 | 翻译处理方法、装置、设备及介质 |
CN113657119B (zh) * | 2021-08-19 | 2024-04-30 | 天津大学 | 基于预训练语言模型的古今汉语自然语言处理方法 |
CN114970565B (zh) * | 2022-01-20 | 2024-04-26 | 昆明理工大学 | 基于一致性Mixup融合BERT知识到Seq2Seq模型的低资源神经机器翻译方法 |
CN114862493A (zh) * | 2022-04-07 | 2022-08-05 | 北京中科深智科技有限公司 | 一种基于轻量微调的生成个性化商品描述的生成模型 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109614471A (zh) * | 2018-12-07 | 2019-04-12 | 北京大学 | 一种基于生成式对抗网络的开放式问题自动生成方法 |
CN110334361A (zh) * | 2019-07-12 | 2019-10-15 | 电子科技大学 | 一种面向小语种语言的神经机器翻译方法 |
WO2019226954A1 (en) * | 2018-05-23 | 2019-11-28 | Google Llc | Training sequence generation neural networks using quality scores |
CN110543640A (zh) * | 2019-08-09 | 2019-12-06 | 沈阳雅译网络技术有限公司 | 一种基于注意力机制神经机器翻译推断加速方法 |
CN110598223A (zh) * | 2019-09-20 | 2019-12-20 | 沈阳雅译网络技术有限公司 | 一种从粗粒度到细粒度的神经机器翻译推断加速方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11030997B2 (en) * | 2017-11-22 | 2021-06-08 | Baidu Usa Llc | Slim embedding layers for recurrent neural language models |
-
2020
- 2020-01-21 CN CN202010068166.2A patent/CN111382580B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019226954A1 (en) * | 2018-05-23 | 2019-11-28 | Google Llc | Training sequence generation neural networks using quality scores |
CN109614471A (zh) * | 2018-12-07 | 2019-04-12 | 北京大学 | 一种基于生成式对抗网络的开放式问题自动生成方法 |
CN110334361A (zh) * | 2019-07-12 | 2019-10-15 | 电子科技大学 | 一种面向小语种语言的神经机器翻译方法 |
CN110543640A (zh) * | 2019-08-09 | 2019-12-06 | 沈阳雅译网络技术有限公司 | 一种基于注意力机制神经机器翻译推断加速方法 |
CN110598223A (zh) * | 2019-09-20 | 2019-12-20 | 沈阳雅译网络技术有限公司 | 一种从粗粒度到细粒度的神经机器翻译推断加速方法 |
Non-Patent Citations (2)
Title |
---|
Norioki Goto等.English to Japanese spoken lecture translation system by using DNN-HMM and phrase-based SMT.《2015 2nd International Conference on Advanced Informatics: Concepts, Theory and Applications (ICAICTA)》.2015,全文. * |
王文华.一种多模型融合的问题生成算法设计与实现.《中国优秀硕士学位论文全文数据库》.2019,全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111382580A (zh) | 2020-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111382580B (zh) | 一种面向神经机器翻译的编码器-解码器框架预训练方法 | |
CN108920473B (zh) | 一种基于同类词与同义词替换的数据增强机器翻译方法 | |
CN111178094B (zh) | 一种基于预训练的稀缺资源神经机器翻译训练方法 | |
CN110334361B (zh) | 一种面向小语种语言的神经机器翻译方法 | |
CN107066455B (zh) | 一种多语言智能预处理实时统计机器翻译系统 | |
CN112765345A (zh) | 一种融合预训练模型的文本摘要自动生成方法及系统 | |
CN111738251A (zh) | 一种融合语言模型的光学字符识别方法、装置和电子设备 | |
CN112784604A (zh) | 一种基于实体边界网络的实体链接方法 | |
CN114676255A (zh) | 文本处理方法、装置、设备、存储介质及计算机程序产品 | |
Burlot et al. | Word representations in factored neural machine translation | |
CN113239710A (zh) | 多语言机器翻译方法、装置、电子设备和存储介质 | |
CN115587590A (zh) | 训练语料集构建方法、翻译模型训练方法、翻译方法 | |
CN112214989A (zh) | 一种基于bert的汉语句子简化方法 | |
CN111553157A (zh) | 一种基于实体替换的对话意图识别方法 | |
CN115064154A (zh) | 混合语言语音识别模型的生成方法及装置 | |
CN113360601A (zh) | 一种融合主题的pgn-gan文本摘要模型 | |
CN112765977A (zh) | 一种基于跨语言数据增强的分词方法及装置 | |
Sun | Analysis of Chinese machine translation training based on deep learning technology | |
CN112257460A (zh) | 基于枢轴的汉越联合训练神经机器翻译方法 | |
CN112989839A (zh) | 一种基于关键词特征嵌入语言模型的意图识别方法及系统 | |
CN109960782A (zh) | 一种基于深度神经网络的藏文分词方法及装置 | |
CN112380882B (zh) | 一种具有误差修正功能的蒙汉神经机器翻译方法 | |
CN115048940A (zh) | 基于实体词属性特征和回译的中文金融文本数据增强方法 | |
CN115223549A (zh) | 一种越南语语音识别语料构建方法 | |
CN114185573A (zh) | 一种人机交互机器翻译系统的实现和在线更新系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Du Quan Inventor before: Du Quan Inventor before: Zhu Jingbo Inventor before: Xiao Tong Inventor before: Zhang Chunliang |
|
GR01 | Patent grant | ||
GR01 | Patent grant |