CN111353315B - 一种基于随机残差算法的深层神经机器翻译系统 - Google Patents
一种基于随机残差算法的深层神经机器翻译系统 Download PDFInfo
- Publication number
- CN111353315B CN111353315B CN202010068168.1A CN202010068168A CN111353315B CN 111353315 B CN111353315 B CN 111353315B CN 202010068168 A CN202010068168 A CN 202010068168A CN 111353315 B CN111353315 B CN 111353315B
- Authority
- CN
- China
- Prior art keywords
- layer
- sub
- model
- coding
- random
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种基于随机残差算法的深层神经机器翻译系统,步骤为:采用基于自注意力机制的Transformer模型,构建深层神经机器翻译系统;对源语和目标语构成的双语平行句对进行分词,构建词表;在编码端,对源语言输入的信息逐层特征提取,每一子层按随机概率进行子层计算或者直接进入下一子层的计算;解码器端的每个解码层在接收到层输入后联合编码端的输出进行运算后传递给下一层进行信息的抽取;对解码端输出结果进行线性变换映射到目标端词表空间,计算损失实现模型训练;用训练好的模型进行翻译,对每个子层中的计算单元结果进行缩放。本发明方法随机跳过编码层中的子层操作,降低了模型产生过拟合现象的风险,增强了模型的性能。
Description
技术领域
本发明涉及一种神经机器翻译技术,具体为一种基于随机残差算法的深层神经机器翻译系统。
背景技术
机器翻译(英语:Machine Translation,经常简写为MT)属于计算语言学的范畴,是计算语言学的一个重要分支,具有十分重要的科学研究价值。它是利用计算机将一种语言转换成另一种语言的过程。同时,机器翻译又具有重要的实用价值。随着经济全球化及互联网的飞速发展,机器翻译技术在促进政治、经济、文化交流等方面起到越来越关键的作用。
机器翻译技术的发展一直与计算机技术、信息论、语言学等学科的发展紧密相随。从早期的词典匹配,到词典结合语言学专家知识的规则翻译,再到基于语料库的统计机器翻译,一直到现在的神经机器翻译。随着计算机计算能力的提升和多语言信息的爆发式增长,机器翻译技术逐渐走出象牙塔,开始为普通用户提供实时便捷的翻译服务。
目前最被广为应用的神经机器翻译系统通常采用基于神经网络的端到端的编码器-解码器框架,其中性能最强大的则是基于自注意力机制的Transformer模型结构,在多个语种的上取得了最佳的翻译性能。
Transformer由基于自注意力机制的编码器和解码器组成。标准的Transformer编码器由六层堆叠的编码层组成,解码器同样包括六层解码层。整个模型中抛弃了传统的循环神经网络(RNN)和卷积神经网络(CNN),完全由注意力机制组成。更准确的说Transformer由且仅由注意力机制和前馈神经网络组成。相比于RNN由于Transformer抛弃了只能顺序计算的限制,提高了系统的并行能力。同时由于并行计算的处理方式,也缓解了顺序计算中的长期依赖难以处理的现象。
Transformer的编码层包括自注意力层和前馈神经网络组成。自注意力对编码端输出的用稠密向量表示的句子进行特征提取后送入前馈神经网络。解码器相对于解码器来说在自注意力层和前馈神经网络层之间增加了一个编码-解码注意力层,来对源语和目标语之间的映射关系进行建模。
同时Transformer在不同子层之间还引入了层正则化和残差连接,将每个子层的输出和输入相加后经过层正则化操作进行放缩后传入下一子层。
科学研究人员发现,增强模型的容量能有效提升模型的性能。目前针对Transformer模型,增强模型容量的方法包括是模型变得更宽,即增加隐藏层维度的大小,Transformer-Big就是使用这种方式来提高模型的性能,或者通过不断堆叠编码器层增加模型的深度来增加模型容量。然而在传统的Transformer模型当中,简单的堆叠编码层会增加梯度消失或爆炸的风险。前人也针对这一现象提出了一些解决方案,最有效的就是将层正则化的位置提前,即在将输入送入子层前进行正则化处理,残差连接将正则化前的输入和子层的输出累加,被称为前作Transformer模型。
但是随着模型深度的增加也带来了一系列的挑战包括梯度消失,前向信息流入减少,以及训练时长增加等同时模型表现力的增强也带来了过拟合的风险。
发明内容
针对现有的深层神经机器翻译系统,容易出现梯度消失,模型过拟合问题严重,训练时间成本高的问题,本发明提出一种基于随机残差算法的深层神经机器翻译系统。
为解决上述技术问题,本发明采用的技术方案包括以下步骤:
本发明一种基于随机残差算法的深层神经机器翻译系统,包括以下步骤:
1)采用基于自注意力机制的Transformer模型,将层正则化的位置提前,在编码端的子层中引入随机残差连接,构建基于前作Transformer的深层神经机器翻译系统;
2)对源语和目标语构成的双语平行句对进行分词,构建词表,同时将其转换为词向量,用词向量与位置编码向量相加得到的向量表示分别作为编码器和解码器的输入;
3)在编码端,对源语言输入的信息进行逐层的特征提取,针对编码层中的每个子层,当信息传递至自身时,按照随机概率跳过该子层的计算,直接进行下一子层的计算;
4)解码器端的每个解码层在接收到层输入后联合编码端的输出进行运算后传递给下一层进行信息的抽取,直到得到顶层的输出;
5)对解码端的输出结果进行线性变换映射到目标端词表空间,使用softmax归一化操作得到目标语的词汇分布,通过计算词汇分布与真实标签数据间的差异来更新模型参数,实现模型的训练过程;
6)用训练好的模型进行翻译,在推理阶段,抛弃编码端子层随机残差机制,使用所有的编码层子层进行信息的抽取,同时对每个子层中的计算单元结果进行缩放。
步骤3)为模型的编码器计算过程,编码器包含多层结构,其中每一层由自注意力网络和前馈神经网络两个子层构成;跳过子层的概率具体为:
根据当前层在编码端中的顺序,第一层的概率为0,即不对编码端的第一层执行随机残差操作,第l层的随机残差概率p=l*α/L,其中L为编码端的编码层总数,α是模型自定义的超参数,α越大,对于当前模型执行随机残差操作跳过子层的概率越大,同时,编码端的顶层比底层具有更大的执行随机残差操作的概率。
步骤3)中,关于编码层是否跳过子层计算的具体判断步骤为:
301)在训练阶段,当向量传入编码层后,随机生成一个介于0,1之间的随机数;
302)若生成的随机数小于当前层的随机残差概率p,则跳过该子层的运算,继续向下传递;
303)若生成的随机数大于当前层的随机残差概率p,则正常进行子层计算。
所述步骤6)中推理阶段的操作具体方式如下:
y=x+(1-p)*F(LN(x))
其中,x和y分别为子层的输入和输出,LN为层正则化操作,F为子层计算单元;在进行推理解码时,不使用随机残差机制跳过子层,输入向量逐层向顶层传递,进行信息抽取,对训练时通过随机残差训练得到的各种子网络结构进行聚合,增强模型的性能;同时,对子层中的F函数结果进行缩放,缩放因子为(1-p),其中p为残差概率。
本发明具有以下有益效果及优点:
1.本发明方法基于前作Transformer模型引入随机残差机制,随机跳过编码层中的子层操作,通过减少冗余计算的方式降低了模型产生过拟合现象的风险,增强了模型的性能。
2.本发明采用随机残差连接跳过子层后,减少了训练时的计算代价,实现了模型训练的加速,能够在更短的时间内训练得到更强大的神经机器翻译模型。
附图说明
图1为训练过程中正常子层计算示意图;
图2为训练过程中跳过子层计算示意图;
图3为推理过程中子层计算示意图。
具体实施方式
下面结合说明书附图对本发明作进一步阐述。
本发明为一种基于随机残差算法的深层神经机器翻译系统,具体包括以下步骤:
1)采用基于自注意力机制的Transformer模型,将层正则化的位置提前,在编码端的子层中引入随机残差连接,构建基于前作Transformer的深层神经机器翻译系统;
2)对源语和目标语构成的双语平行句对进行分词,构建词表,同时将其转换为词向量,用词向量与位置编码向量相加得到的向量表示分别作为编码器和解码器的输入;
3)在编码端,对源语言输入的信息进行逐层的特征提取,针对编码层中的每个子层,当信息传递至自身时,按照随机概率跳过该子层的计算,直接进行下一子层的计算;
4)解码器端的每个解码层在接收到层输入后联合编码端的输出进行运算后传递给下一层进行信息的抽取,直到得到顶层的输出;
5)对解码端的输出结果进行线性变换映射到目标端词表空间,使用softmax归一化操作得到目标语的词汇分布,通过计算词汇分布与真实标签数据间的差异来更新模型参数,实现模型的训练过程;
6)用训练好的模型进行翻译,在推理阶段,抛弃编码端子层随机残差机制,使用所有的编码层子层进行信息的抽取,对每个子层中的计算单元结果进行缩放。
步骤1)用于构建模型结构。本发明采用了基于前作的深层Transformer模型。前作将每个子层中的层正则化放在运算之前,同时使用残差连接将子层输入和运算结果相加后作为子层输出,计算方式如下(如图1所示):
y=x+F(LN(x))
其中x和y分别为输入和输出,LN表示层正则化,F表示子层运算单元,对应于Transformer模型中的注意力机制或者前馈神经网络。通过前作的方式,可以使得模型的反向梯度传导更加高效,有效地缓解了深层Transformer的梯度消失和梯度爆炸问题,更易于模型训练和收敛。
在步骤2)中,构造用于模型训练的训练数据,具体步骤如下:
201)获取双语数据,进行数据清洗,得到高质量的双语数据用于翻译模型的训练;
202)分别对双语数据进行分词得到词序列,统计其中的词频,构建对应的词表;
203)按照词表索引将词序列转换成对应的词嵌入表示,同时加上用来引入位置信息的位置编码,得到最终的输入表示。
步骤3)为模型的编码器计算过程,编码器包含多层结构,其中每一层由自注意力网络和前馈神经网络两个子层构成。自注意力网络采用自注意力机制,对子层输入不同位置的表示进行交互,得到包括更多上下文信息的向量表示,其中子层输入在编码器第一层时为步骤203)得到的词向量表示,其余层时为上一子层的输出;前馈神经网络子层引入更多的非线性变换,对步骤301)的输出按位置计算,进行更充分的特征提取。
所述步骤3)中跳过子层的概率具体计算为:
根据当前层在编码端中的顺序,第一层的概率为0,即不对编码端的第一层执行随机残差操作,第l层的随机残差概率p=l*α/L,其中L为编码端的编码层总数,α是模型自定义的超参数,α越大,对于当前模型执行随机残差操作跳过子层的概率越大,同时,编码端的顶层比底层具有更大的执行随机残差操作的概率。
所述步骤3)中,关于编码层是否跳过子层计算的具体判断步骤为:
301)在训练阶段,当向量传入编码层后,随机生成一个介于0,1之间的随机数;
302)若生成的随机数小于当前层的随机残差概率p,则跳过该子层的运算,继续向下传递(如图2所示);
303)若生成的随机数大于当前层的随机残差概率p,则正常进行子层计算(如图1所示)。
步骤4)中结合源语的编码表示,对目标语进行特征提取,用来预测下一个词,其中解码器的每一层具体计算步骤如下:
401)首先使用自注意力机制,对子层的输入进行位置之间的特征提取,由于为了和自回归解码方式保持一致,解码器中的自注意力仅参考前向的位置表示,对未来表示进行掩码操作;
402)使用编码-解码注意力网络,引入步骤3)得到的源语编码表示,捕获源语和目标语之间的关系,得到相应的向量表示;
403)将步骤402)的结果按位置送入前馈神经网络,进行词维度的特征提取。
按照解码器的层数依次重复步骤401)到步骤403)的操作,获得最终用于预测的向量表示,其中编码器器第一层的输入为步骤203)得到的目标语词向量表示,其它层输入为之前子层的输出。
步骤5)用来计算模型的损失,计算梯度用于模型参数的更新,完成模型的训练过程,一次计算过程的具体步骤如下:
501)对步骤4)得到的向量表示,将其记性线性变换,得到一个和词表相同维度大小的向量,然后使用softmax函数进行归一化操作,得到词典大小的预测分布;
502)使用交叉熵作为模型的损失函数,计算真实的词分布和预测分布的交叉熵,同时使用标签平滑策略用来抑制过拟合现象;
503)通过步骤502)得到的损失,计算模型参数的梯度,进行反向更新。
使用adam优化器策略对模型进行训练,在校验集损失收敛后得到最终的模型。
所述步骤6)中推理阶段的操作具体如图3所示:
y=x+(1-p)*F(LN(x))
其中,x和y分别为子层的输入和输出,LN为层正则化操作,F为子层计算单元。
在进行推理解码时,不使用随机残差机制跳过子层,输入向量逐层向顶层传递,进行信息抽取,对训练时通过随机残差训练得到的各种子网络结构进行聚合,增强模型的性能。同时,需要对子层中的F函数结果进行缩放,缩放因子为(1-p),其中p为残差概率。
以训练一个具有48层编码层的深层神经机器翻译系统为例,采用前作的Transformer模型结构,在编码端的每个编码层子层中引入随机残差机制,设置随机残差概率控制系数α为0.3,在使用8块TITAN V GPU,使用半精度训练方式,本发明所采用的随机残差算法,实现了1.4倍的加速,以BLEU值作为评价指标,在相同的WMT-英德测试集上,48层模型基线的BLEU分数为30.03,本发明采用随机残差的算法,有效解决了深层网络的过拟合问题,实现了性能的提升,BLEU分数达到了30.20。
基于随机残差的深层神经机器翻译模型,在训练时随机对编码层中的子层增加残差连接,对子层进行跳过处理,减少了深层网络当中的冗余计算,有效缓解了深层神经机器翻译系统的过拟合问题,在推理阶段剔除随机残差操作,将训练阶段的得到的子网络结构进行融合,有效提升了模型的性能,同时减少了冗余的操作后也加快了模型的训练速度。
Claims (3)
1.一种基于随机残差算法的深层神经机器翻译系统,其特征在于包括以下步骤:
1)采用基于自注意力机制的Transformer模型,将层正则化的位置提前,在编码端的子层中引入随机残差连接,构建基于前作Transformer的深层神经机器翻译系统;
2)对源语和目标语构成的双语平行句对进行分词,构建词表,同时将其转换为词向量,用词向量与位置编码向量相加得到的向量表示分别作为编码器和解码器的输入;
3)在编码端,对源语言输入的信息进行逐层的特征提取,针对编码层中的每个子层,当信息传递至自身时,按照随机概率跳过该子层的计算,直接进行下一子层的计算;
4)解码器端的每个解码层在接收到层输入后联合编码端的输出进行运算后传递给下一层进行信息的抽取,直到得到顶层的输出;
5)对解码端的输出结果进行线性变换映射到目标端词表空间,使用softmax归一化操作得到目标语的词汇分布,通过计算词汇分布与真实标签数据间的差异来更新模型参数,实现模型的训练过程;
6)用训练好的模型进行翻译,在推理阶段,抛弃编码端子层随机残差机制,使用所有的编码层子层进行信息的抽取,同时对每个子层中的计算单元结果进行缩放;
前作Transformer是将每个子层中的层正则化放在运算之前,同时使用残差连接将子层输入和运算结果相加后作为子层输出,计算方式如下:
y=x+F(LN(x))
其中x和y分别为输入和输出,LN表示层正则化,F表示子层运算单元,对应于Transformer模型中的注意力机制或者前馈神经网络;
步骤3)为模型的编码器计算过程,编码器包含多层结构,其中每一层由自注意力网络和前馈神经网络两个子层构成;跳过子层的概率具体为:
根据当前层在编码端中的顺序,第一层的概率为0,即不对编码端的第一层执行随机残差操作,第l层的随机残差概率p=l*α/L,其中L为编码端的编码层总数,α是模型自定义的超参数,α越大,对于当前模型执行随机残差操作跳过子层的概率越大,同时,编码端的顶层比底层具有更大的执行随机残差操作的概率。
2.按权利要求1所述的基于随机残差算法的深层神经机器翻译系统,其特征在于:步骤3)中,关于编码层是否跳过子层计算的具体判断步骤为:
301)在训练阶段,当向量传入编码层后,随机生成一个介于0,1之间的随机数;
302)若生成的随机数小于当前层的随机残差概率p,则跳过该子层的运算,继续向下传递;
303)若生成的随机数大于当前层的随机残差概率p,则正常进行子层计算。
3.按权利要求1所述的基于随机残差算法的深层神经机器翻译系统,其特征在于:所述步骤6)中推理阶段的操作具体方式如下:
y=x+(1-p)*F(LN(x))
其中,x和y分别为子层的输入和输出,LN为层正则化操作,F为子层计算单元;在进行推理解码时,不使用随机残差机制跳过子层,输入向量逐层向顶层传递,进行信息抽取,对训练时通过随机残差训练得到的各种子网络结构进行聚合,增强模型的性能;同时,对子层中的F函数结果进行缩放,缩放因子为(1-p),其中p为残差概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010068168.1A CN111353315B (zh) | 2020-01-21 | 2020-01-21 | 一种基于随机残差算法的深层神经机器翻译系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010068168.1A CN111353315B (zh) | 2020-01-21 | 2020-01-21 | 一种基于随机残差算法的深层神经机器翻译系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111353315A CN111353315A (zh) | 2020-06-30 |
CN111353315B true CN111353315B (zh) | 2023-04-25 |
Family
ID=71194266
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010068168.1A Active CN111353315B (zh) | 2020-01-21 | 2020-01-21 | 一种基于随机残差算法的深层神经机器翻译系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111353315B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114580445B (zh) * | 2022-03-10 | 2023-03-10 | 昆明理工大学 | 基于领域感知的掩码子结构的多领域自适应神经机器翻译方法 |
CN116227506B (zh) * | 2023-05-08 | 2023-07-21 | 湘江实验室 | 一种具有高效非线性注意力结构的机器翻译方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107632981A (zh) * | 2017-09-06 | 2018-01-26 | 沈阳雅译网络技术有限公司 | 一种引入源语组块信息编码的神经机器翻译方法 |
CN109492232A (zh) * | 2018-10-22 | 2019-03-19 | 内蒙古工业大学 | 一种基于Transformer的增强语义特征信息的蒙汉机器翻译方法 |
CN109783827A (zh) * | 2019-01-31 | 2019-05-21 | 沈阳雅译网络技术有限公司 | 一种基于动态线性聚合的深层神经机器翻译方法 |
CN110059323A (zh) * | 2019-04-22 | 2019-07-26 | 苏州大学 | 基于自注意力机制的多领域神经机器翻译方法 |
WO2019157462A1 (en) * | 2018-02-09 | 2019-08-15 | Google Llc | Fast decoding in sequence models using discrete latent variables |
CN110222350A (zh) * | 2019-06-28 | 2019-09-10 | 苏州大学 | 将双语预定义翻译对融入神经机器翻译模型的方法 |
WO2019222751A1 (en) * | 2018-05-18 | 2019-11-21 | Google Llc | Universal transformers |
-
2020
- 2020-01-21 CN CN202010068168.1A patent/CN111353315B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107632981A (zh) * | 2017-09-06 | 2018-01-26 | 沈阳雅译网络技术有限公司 | 一种引入源语组块信息编码的神经机器翻译方法 |
WO2019157462A1 (en) * | 2018-02-09 | 2019-08-15 | Google Llc | Fast decoding in sequence models using discrete latent variables |
WO2019222751A1 (en) * | 2018-05-18 | 2019-11-21 | Google Llc | Universal transformers |
CN109492232A (zh) * | 2018-10-22 | 2019-03-19 | 内蒙古工业大学 | 一种基于Transformer的增强语义特征信息的蒙汉机器翻译方法 |
CN109783827A (zh) * | 2019-01-31 | 2019-05-21 | 沈阳雅译网络技术有限公司 | 一种基于动态线性聚合的深层神经机器翻译方法 |
CN110059323A (zh) * | 2019-04-22 | 2019-07-26 | 苏州大学 | 基于自注意力机制的多领域神经机器翻译方法 |
CN110222350A (zh) * | 2019-06-28 | 2019-09-10 | 苏州大学 | 将双语预定义翻译对融入神经机器翻译模型的方法 |
Non-Patent Citations (3)
Title |
---|
Zhikui Zhu ; Jun Ruan ; Kehao Wang ; Jingfan Zhou ; Guanglu Ye ; Chenchen Wu.A Densely Connected Transformer for Machine Translation. 2019 12th International Symposium on Computational Intelligence and Design (ISCID).2019,全文. * |
杨云 ; 王全 ; .层聚合的对抗机器翻译模型的方法研究.陕西科技大学学报.2020,(01),全文. * |
肖桐 ; 李垠桥 ; 陈麒 ; 朱靖波.深度学习时代下的机器翻译.人工智能.2018,全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111353315A (zh) | 2020-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111382582B (zh) | 一种基于非自回归的神经机器翻译解码加速方法 | |
CN110490946B (zh) | 基于跨模态相似度和生成对抗网络的文本生成图像方法 | |
CN110765966B (zh) | 一种面向手写文字的一阶段自动识别与翻译方法 | |
CN111160050A (zh) | 一种基于上下文记忆网络的篇章级神经机器翻译方法 | |
CN107967262A (zh) | 一种神经网络蒙汉机器翻译方法 | |
CN111178093B (zh) | 一种基于堆叠算法的神经机器翻译系统训练加速方法 | |
CN110619034A (zh) | 基于Transformer模型的文本关键词生成方法 | |
CN111858932A (zh) | 基于Transformer的多重特征中英文情感分类方法及系统 | |
CN110688861B (zh) | 一种多特征融合的句子级译文质量估计方法 | |
CN113468895B (zh) | 一种基于解码器输入增强的非自回归神经机器翻译方法 | |
CN110059324B (zh) | 基于依存信息监督的神经网络机器翻译方法及装置 | |
CN110543640A (zh) | 一种基于注意力机制神经机器翻译推断加速方法 | |
CN110688862A (zh) | 一种基于迁移学习的蒙汉互译方法 | |
CN113297364B (zh) | 一种面向对话系统中的自然语言理解方法及装置 | |
CN111353315B (zh) | 一种基于随机残差算法的深层神经机器翻译系统 | |
CN113204633B (zh) | 一种语义匹配蒸馏方法及装置 | |
CN114492759A (zh) | 稀疏注意力神经网络 | |
CN116663578A (zh) | 一种基于策略梯度方法改进的神经机器翻译方法 | |
CN109635269B (zh) | 一种机器翻译文本的译后编辑方法及装置 | |
CN117312500B (zh) | 一种基于ann和bert的语义检索模型建立方法 | |
Chen et al. | Research on neural machine translation model | |
CN112579739A (zh) | 基于ELMo嵌入与门控自注意力机制的阅读理解方法 | |
CN112287694A (zh) | 基于共享编码器的汉越无监督神经机器翻译方法 | |
CN113378584B (zh) | 一种基于辅助表示融合的非自回归神经机器翻译方法 | |
CN114781356A (zh) | 一种基于输入共享的文本摘要生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Liu Xingyu Inventor before: Liu Xingyu Inventor before: Zhu Jingbo Inventor before: Xiao Tong Inventor before: Zhang Chunliang |
|
GR01 | Patent grant | ||
GR01 | Patent grant |