CN110781690B - 一种多源神经机器翻译模型的融合和压缩方法 - Google Patents

一种多源神经机器翻译模型的融合和压缩方法 Download PDF

Info

Publication number
CN110781690B
CN110781690B CN201911049943.2A CN201911049943A CN110781690B CN 110781690 B CN110781690 B CN 110781690B CN 201911049943 A CN201911049943 A CN 201911049943A CN 110781690 B CN110781690 B CN 110781690B
Authority
CN
China
Prior art keywords
model
source
enc
machine translation
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911049943.2A
Other languages
English (en)
Other versions
CN110781690A (zh
Inventor
鉴萍
郭梦雪
黄河燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201911049943.2A priority Critical patent/CN110781690B/zh
Publication of CN110781690A publication Critical patent/CN110781690A/zh
Application granted granted Critical
Publication of CN110781690B publication Critical patent/CN110781690B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种多源神经机器翻译模型的融合和压缩方法,属于自然语言处理应用技术领域。首先,构建基于Transformer的多源机器翻译模型;其次,使用CNN融合多个源的编码信息;再次,使用门控机制使模型可以自主选择是否使用辅助源语言;最后,根据矩阵间的距离不同,对矩阵进行不同方式的量化压缩;其中,多源机器翻译模型又包括编码器和解码器,所述模型的压缩包括计算矩阵距离和量化压缩。本发明所述方法针对多源模型结构复杂、参数多带来的存储空间过大问题,又探究了对模型进行量化压缩的方法,获得了更大的压缩率和更高的精准度。

Description

一种多源神经机器翻译模型的融合和压缩方法
技术领域
本发明涉及一种神经机器翻译方法,尤其涉及一种多源神经机器翻译模型的融合和压缩方法,属于自然语言处理应用技术领域。
背景技术
近些年来,随着自然语言处理各项任务的日趋成熟,基于深度学习的神经机器翻译方法获得迅速发展,已在很多领域上取代传统的统计机器翻译,成为学术界和工业界新的主流方法。神经机器翻译模型的训练基于大规模的平行语料,在英汉和日汉等语料资源丰富的语种的翻译中已经取得了很好的效果。但是,在平行语料不足的情况下,神经机器翻译的表现较差,比如汉语和少数民族语言之间的翻译,因此,需要一种基于多源模型的方法,能够将资源丰富的语言信息应用到资源稀缺语言翻译任务中,即如何更有效地将不同语种的信息进行融合。进一步地,多源机器翻译模型存在着体积大、参数多的问题,给模型存储带来了很大的压力,需要一种基于量化压缩的方法,对模型中矩阵的权重分类存储,减小模型的存储空间。由此可见,本发明是一项既有学术意义又有实用价值的研究课题。
多源神经机器翻译,顾名思义,是多种源语言共同转换为一种目标语言的机器翻译过程。相比于单源的神经机器翻译,多源系统可以获得更多的编码信息,进而提升翻译效果。但是,如果辅助源语言的质量差,则会降低翻译效果,目前,关于如何提升多源模型的鲁棒性的研究并不充分,仍处于探索阶段。另一方面,关于多源模型体积大、参数多带来的模型存储问题,现阶段也鲜有针对多源模型压缩问题的研究。
发明内容
本发明的目的是为解决以往在神经机器翻译中存在的下述问题:1)针对神经机器翻译依赖大规模语料库,语料不足时存在的翻译质量低的问题;2)针对多源机器翻译系统没有考虑辅助语料质量差带来的翻译质量下降问题;3)针对多源模型体积大、参数多带来的模型存储问题,提出一种多源神经机器翻译模型的融合和压缩方法,使用CNN融合的多源神经机器翻译解决语料不足的问题,使用门控机制解决辅助语料质量差的问题,根据不同的矩阵距离选择不同的量化压缩方法解决模型存储问题。
为实现上述目的,本发明所采用的技术方案如下:
本发明技术方案的思想是:首先,构建基于Transformer的多源机器翻译模型;其次,使用CNN融合多个源的编码信息;再次,使用门控机制使模型可以自主选择是否使用辅助源语言;最后,根据矩阵间的距离不同,对矩阵进行不同方式的量化压缩;
其中,多源机器翻译模型又包括编码器和解码器,所述模型的压缩包括计算矩阵距离和量化压缩两个过程。
本发明的具体技术方案如下:
一种多源神经机器翻译模型的融合和压缩方法,具体包括以下步骤:
步骤一、语料预处理,输出模型的输入序列,具体包括过滤乱码句对、汉语分词、Tokenization和划分亚词;
其中,划分亚词是为了避免稀疏问题和缩小词表,得到的亚词为模型的最小输入单元,划分亚词的结果作为步骤二编码器的输入;
步骤二、构建模型的编码器,并基于构建的编码器对步骤一得到的输入单元进行编码,将K个编码器的编码结果进行融合,融合后的结果作为步骤三解码器的输入;
其中,编码器的数量为K个,K的取值范围为K≥1;当K=1时,模型退化为普通的单源神经机器翻译;每个编码器包括6个相同的层,每一层又由两个子层构成;
步骤二,具体包括如下子步骤:
步骤2.1位置编码,具体为:对步骤一输出的每一个输入序列进行绝对位置编码,即每个词的绝对位置编码为1,其他位置编码为0;
步骤2.2多头自注意力层编码,具体为:对每个输入序列,经过多头自注意力计算得到序列的编码结果,将多个头的输出拼接作为多头自注意力层的输出;
步骤2.3残差归一化,具体为:经过残差归一化层,即把前一层的信息无差的传递到下一层;
步骤2.4经过全连接层,即常规前馈神经网络;
其中,该常规前馈神经网络中激活函数为ReLU;
步骤2.5经过第二次残差归一化层,该层的输出为不同源编码器的最终输出,为多个三维矩阵;
步骤2.6融合过程:通过CNN对多个源的输出进行融合,具体为:将步骤2.5得到的多个三维矩阵在第四维度上拼接成为四维矩阵,使用(3*3*3*1)大小的滤波器进行卷积,卷积步长为(1,1,1,1),并使用padding进行填充,使得矩阵的前三个维度不会缩小,使用ReLU函数进行激活,如公式(1)所示:
enc=ReLU(Conv(enc1,enc2,enc3)) (1)
其中,enc1,enc2,enc3分别表示三种源语言,enc1为主任务源语言的编码信息,enc2和enc3为辅助源语言的编码信息,Conv表示卷积操作,ReLU表示激活操作;
步骤2.7选择过程:使用全连接网络实现门控,全连接网络的最后一层使用sigmoid激活函数,输出的值直接作为概率,使得模型可以自主选择是否接收来自辅助源语言的编码信息,该层的输出result即为解码器的输入,如公式(2)所示:
result=σ*enc+(1-σ)*enc1 (2)
其中,σ表示门控机制得到的权重;
步骤三、构建模型解码器,并进行解码,得到解码输出,输出的结果即为最终翻译的结果:模型的解码器与原Transformer解码器结构相同,即包括位置编码、多头自注意力机制、多头注意力层、全连接层,最后通过softmax做最后阶段的预测,使用该解码器对步骤二融合后的结果进行解码,将softmax计算后得到的分数最高的词作为当前时刻的输出;
步骤四、计算矩阵距离:对步骤二中构建的K个编码器中的矩阵进行纵向比较,由于多个编码器结构一致,因此矩阵形状相同,仅数值不同;
计算纵向比较的矩阵之间的L1范数作为矩阵间的距离;
步骤五、量化压缩:根据步骤四中求得矩阵距离的不同,选择不同的量化压缩方式对步骤二中构建的K个编码器中的矩阵进行压缩。
有益效果
本发明提出的一种多源神经机器翻译模型的融合和压缩方法,与现有融合和压缩方法相比,具有如下有益效果:
1.与现有的多源机器翻译模型对比,得出了使用融合隐藏状态的方法实现多源翻译模型会对多个源语言进行更深层次的融合这一结论,从这个结论出发,提出了本发明使用卷积神经网络对多源翻译模型中不同源语言进行融合的方法,使得模型的BLEU值有了一定程度的提升;
2.本发明所述方法对于实验中辅助源语言质量不佳的情况,提出了基于选择的多源机器翻译模型,使得BLEU值有了显著的提升;
3.本发明所述方法针对多源模型结构复杂、参数多带来的存储空间过大问题,又探究了对模型进行量化压缩的方法,获得了更大的压缩率和更高的精准度。
附图说明
图1为本发明多源神经机器翻译模型的融合和压缩方法的系统架构图;
图2为本发明多源神经机器翻译模型的融合和压缩方法共享压缩的举例示意;
图3为本发明多源神经机器翻译模型的融合和压缩方法矩阵差的量化的举例示意。
具体实施方式
下面结合附图和实施例,对本发明多源神经机器翻译模型的融合和压缩的具体实施方式作进一步详细说明。
实施例1
本发明适用于源语言资源丰富而目标语言资源稀缺情形下的神经机器翻译任务。例如,汉语、英语、德语等语言资源丰富,已有许多成熟的翻译系统,而在汉语到蒙语的翻译任务中,两者之间平行语料稀缺,难以直接训练有效的翻译系统。基于此,本发明利用汉语语料以及汉英、汉德翻译系统得到平行的英语和德语语料,利用三个编码器编码三种源语言(汉语、英语和德语),并将得到的结果进行融合以便于解码器解码。使用这种方法让翻译模型学习到更多语言信息,优化翻译效果。
这里先给出本发明具体实施的背景,比如现实生活中,需要对xx进行翻译,基于这个需求,应用本发明所述的方法。具体要对啥进行翻译,为啥要融合,要详细阐述。
每个图都需要解释,目前仅仅解释了图1。
说明书附图为本发明多源神经机器翻译模型的融合和压缩方法的系统架构图,其中,图1为多源神经机器翻译模型的融合过程,图2为共享压缩的举例示意,图3为矩阵差的量化举例示意。本实施例首先介绍基于Transformer的多源机器翻译模型的构建,接着具体介绍对多个源的融合方法,然后介绍矩阵间距离的计算方法,最后介绍如何根据不同矩阵距离选择不同的量化压缩方法。
根据步骤一进行语料预处理,实现步骤如下:
(1)获取训练语料:实验中K的取值为3,即包括3种源语言,分别为汉语、英语和德语。原始语料仅包括主任务源语言(汉语)和目标语言(蒙语)之间的双语平行语料,其中目标语言(蒙语)为稀缺语言,首先需要通过汉语爬虫获取辅助语种源语言(实验中选择英语、德语作为辅助语言),合成四语伪平行语料;
(2)过滤乱码句子:对多语平行语料中存在明显乱码的句子予以剔除;
(3)词级切分:对没有词边界标记语种的句子(汉语)进行词级切分;
(4)Tokenization:采用Moses tokenizer对所有语种进行Tokenization;
(5)划分亚词:对所有语种的句子进行亚词的划分,以避免稀疏问题和缩小词表。
根据步骤二进行模型编码器的构建,实现步骤如下:
(1)对每一个输入序列进行绝对位置编码(对应图1中的positional encoding),即每个词的绝对位置编码为1,其他位置编码为0;
(2)对每个输入序列,经过多头自注意力(对应图1中的multi-head attention)计算得到序列的编码结果,将多个头的输出拼接作为多头自注意力层的输出;
(3)经过残差归一化层,即把前一层的信息无差的传递到下一层;
(4)经过全连接层(对应图1中的feed forward),即常规的前馈神经网络,通过ReLU函数激活;
(5)经过第二次残差归一化层,该层的输出为不同源编码器的最终输出,为多个三维矩阵;
(6)通过CNN对多个源的输出进行融合,具体做法是将步骤(5)得到的三个三维矩阵在第四维度上拼接成为四维矩阵,使用(3*3*3*1)大小的滤波器进行卷积,卷积步长为(1,1,1,1),并使用padding进行填充,使得矩阵的前三个维度不会缩小,使用ReLU函数进行激活,其中enc1代码汉语编码器的输出,enc2代表英语编码器的输出,enc3代表德语编码器的输出:
enc=ReLU(Conv(enc1,enc2,enc3)) (3)
(7)使用全连接网络实现门控,全连接网络的最后一层使用sigmoid激活函数,输出的值可以直接作为概率,使得模型可以自主选择是否接收来自辅助源语言的编码信息,该层的输出即为解码器的输入:
result=σ*enc+(1-σ)*enc1 (4)
根据步骤三,构建模型解码器,实现步骤如下:
(1)位置编码(positional encoding):对每一个输入序列进行绝对位置编码,即每个词的绝对位置编码为1,其他位置编码为0;
(2)多头自注意力层(maskedmulti-head attention)编码和残差归一化:对目标语言进行多头自注意力层编码,接着,对来自多头自注意力层的结果进行残差连接和归一化操作;
(3)多头注意力层(multi-head attention)和残差归一化:使用多头注意力层对来自编码器的信息和来自解码器的信息进行整合,对多头注意力层输出的结果同样要进行残差归一化操作;
(4)全连接层(feed forward)和残差归一化:解码器的下一层是全连接层,和编码器的全连接层结构一致,即常规的前馈神经网络,通过ReLU函数激活;
(5)线性层(linear)和softmax:对解码器上一层的输入,经过一个简单的线性层,作用是把解码器输出的向量映射到一个大很多的logits向量上,接着进行softmax,即最后的预测阶段,将softmax计算后得到的分数最高的词作为当前时刻的输出。
根据步骤四计算矩阵距离,实现步骤如下:
(1)对三个编码器中的矩阵进行纵向比较,由于三个编码器结构一致,因此矩阵形状相同,仅数值不同;
(2)将三个编码器的纵向比较矩阵记为W1、W2和W3,计算W2和W1之间以及W3和W1之间的L1范数,作为矩阵间的距离;
(3)将距离划分为三个等级:距离很小、距离较小和距离较大。
步骤五、量化压缩:根据步骤四中求得矩阵距离的不同,选择不同的量化压缩方式。具体实施时,以K=3为例,将纵向比较的三个矩阵记为W1、W2和W3,以W1为基准,计算W2和W3与W1之间的L1范数作为其矩阵间的距离;
(1)若矩阵距离很小,则直接将W1矩阵参与量化,量化后得到W1索引矩阵,W2和W3不再进行量化操作,直接将其矩阵的地址指向W1的索引矩阵,获得更大的压缩率;
(2)若矩阵距离较小,则将W1、W2与W1的差矩阵和W3与W1的差矩阵分别量化,获得更精准的压缩效果:
在压缩阶段,将W2和W3分别与W1做差,得到的矩阵记为W2-1和W3-1
W2-1=W2-W1
W3-1=W3-W1 (5)
然后将W1、W2-1和W3-1入量化区间,进行量化压缩。
在还原阶段,W1、W2-1、W3-1每个对应一个量化矩阵,分别记为W1q、W2-1q和W3-1q,将量化还原对应的操作记为re,则W1的还原矩阵记为W1re,W2的还原矩阵记为W2re,W3对应的还原矩阵为W3re。W1re、W2re、W3re的计算方式如下:
W2re=W1re+W2-1re
W3re=W1re+W3-1re (6)
(3)若矩阵距离较大,则将W1、W2和W3分别量化,即退化为常规的量化压缩方法。
以上所述为本发明的较佳实施例而已,本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改,都落入本发明保护的范围。

Claims (4)

1.一种多源神经机器翻译模型的融合和压缩方法,其特征在于:首先,构建基于Transformer的多源机器翻译模型;其次,使用CNN融合多个源的编码信息;再次,使用门控机制使模型可以自主选择是否使用辅助源语言;最后,根据矩阵间的距离不同,对矩阵进行不同方式的量化压缩;
其中,多源机器翻译模型又包括编码器和解码器,所述模型的压缩包括计算矩阵距离和量化压缩两个过程;
所述融合和压缩方法,具体包括以下步骤:
步骤一、语料预处理,输出模型的输入序列,具体包括过滤乱码句对、汉语分词、Tokenization和划分亚词;
其中,划分亚词的结果作为步骤二编码器的输入;
步骤二、构建模型的编码器,并基于构建的编码器对步骤一得到的输入单元进行编码,将编码结果进行融合,融合后的结果作为步骤三解码器的输入;
步骤二,具体包括如下子步骤:
步骤2.1位置编码,具体为:对步骤一输出的每一个输入序列进行绝对位置编码,即每个词的绝对位置编码为1,其他位置编码为0;
步骤2.2多头自注意力层编码,具体为:对每个输入序列,经过多头自注意力计算得到序列的编码结果,将多个头的输出拼接作为多头自注意力层的输出;
步骤2.3残差归一化,具体为:经过残差归一化层,即把前一层的信息无差的传递到下一层;
步骤2.4经过全连接层,即常规前馈神经网络;
步骤2.5经过第二次残差归一化层,该层的输出为不同源编码器的最终输出,为多个三维矩阵;
步骤2.6融合过程:通过CNN对多个源的输出进行融合,具体为:将步骤2.5得到的多个三维矩阵在第四维度上拼接成为四维矩阵,使用(3*3*3*1)大小的滤波器进行卷积,卷积步长为(1,1,1,1),并使用padding进行填充,使得矩阵的前三个维度不会缩小,使用ReLU函数进行激活,如公式(1)所示:
enc=ReLU(Conv(enc1,enc2,enc3)) (1)
其中,enc1,enc2,enc3分别表示三种源语言,enc1为主任务源语言的编码信息,enc2和enc3为辅助源语言的编码信息,Conv表示卷积操作,ReLU表示激活操作;
步骤2.7选择过程:使用全连接网络实现门控,全连接网络的最后一层使用sigmoid激活函数,输出的值直接作为概率,使得模型可以自主选择是否接收来自辅助源语言的编码信息,该层的输出result即为解码器的输入,如公式(2)所示:
result=σ*enc+(1-σ)*enc1 (2)
其中,σ表示门控机制得到的权重;
步骤三、构建模型解码器,并进行解码,得到解码输出,输出的结果即为最终翻译的结果:模型的解码器与原Transformer解码器结构相同,即包括位置编码、多头自注意力机制、多头注意力层、全连接层,最后通过softmax做最后阶段的预测,使用该解码器对步骤二融合后的结果进行解码,将softmax计算后得到的分数最高的词作为当前时刻的输出;
步骤四、计算矩阵距离:对步骤二中构建的K个编码器中的矩阵进行纵向比较,由于多个编码器结构一致,因此矩阵形状相同,仅数值不同;
进行纵向比较的矩阵之间的L1范数作为矩阵间的距离;
步骤五、量化压缩:根据步骤四中求得矩阵距离的不同,选择不同的量化压缩方式对步骤二中构建的K个编码器中的矩阵进行压缩。
2.根据权利要求1所述的一种多源神经机器翻译模型的融合和压缩方法,其特征在于:步骤一中,划分亚词是为了避免稀疏问题和缩小词表,得到的亚词为模型的最小输入单元。
3.根据权利要求1所述的一种多源神经机器翻译模型的融合和压缩方法,其特征在于:步骤二中,编码器的数量为K个,K的取值范围为K≥1;当K=1时,模型退化为普通的单源神经机器翻译;每个编码器包括6个相同的层,每一层又由两个子层构成。
4.根据权利要求1所述的一种多源神经机器翻译模型的融合和压缩方法,其特征在于:步骤2.4中,该常规前馈神经网络中激活函数为ReLU。
CN201911049943.2A 2019-10-31 2019-10-31 一种多源神经机器翻译模型的融合和压缩方法 Active CN110781690B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911049943.2A CN110781690B (zh) 2019-10-31 2019-10-31 一种多源神经机器翻译模型的融合和压缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911049943.2A CN110781690B (zh) 2019-10-31 2019-10-31 一种多源神经机器翻译模型的融合和压缩方法

Publications (2)

Publication Number Publication Date
CN110781690A CN110781690A (zh) 2020-02-11
CN110781690B true CN110781690B (zh) 2021-07-13

Family

ID=69388154

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911049943.2A Active CN110781690B (zh) 2019-10-31 2019-10-31 一种多源神经机器翻译模型的融合和压缩方法

Country Status (1)

Country Link
CN (1) CN110781690B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310485B (zh) * 2020-03-12 2022-06-21 南京大学 机器翻译方法、装置及存储介质
CN112507733B (zh) * 2020-11-06 2023-04-18 昆明理工大学 基于依存图网络的汉越神经机器翻译方法
CN112507705B (zh) * 2020-12-21 2023-11-14 北京百度网讯科技有限公司 一种位置编码的生成方法、装置及电子设备
CN112836526B (zh) * 2021-01-31 2024-01-30 云知声智能科技股份有限公司 一种基于门控机制的多语言神经机器翻译方法及装置
CN113343716B (zh) * 2021-05-20 2022-09-30 北京三快在线科技有限公司 一种多语种翻译方法、装置、存储介质及设备
CN116128158B (zh) * 2023-04-04 2023-06-23 西南石油大学 混合采样注意力机制的油井效率预测方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107357789A (zh) * 2017-07-14 2017-11-17 哈尔滨工业大学 融合多语编码信息的神经机器翻译方法
CN107909147A (zh) * 2017-11-16 2018-04-13 深圳市华尊科技股份有限公司 一种数据处理方法及装置
CN107967262A (zh) * 2017-11-02 2018-04-27 内蒙古工业大学 一种神经网络蒙汉机器翻译方法
CN109299273A (zh) * 2018-11-02 2019-02-01 广州语义科技有限公司 基于改进seq2seq模型的多源多标签文本分类方法及其系统
CN109299479A (zh) * 2018-08-21 2019-02-01 苏州大学 通过门控机制将翻译记忆融入神经机器翻译的方法
CN110168542A (zh) * 2017-03-09 2019-08-23 三星电子株式会社 用于压缩语言模型的电子设备、用于提供推荐词的电子设备及其操作方法
US10409917B1 (en) * 2017-05-24 2019-09-10 Amazon Technologies, Inc. Machine intelligence system for machine translation quality evaluation by identifying matching propositions in source and translated text strings

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108733806A (zh) * 2018-05-18 2018-11-02 广东工业大学 一种多层次卷积神经网络的数据处理方法
CN109308483B (zh) * 2018-07-11 2021-09-17 南京航空航天大学 基于卷积神经网络的双源图像特征提取及融合识别方法
CN109360097A (zh) * 2018-09-28 2019-02-19 中山大学 基于深度学习的股票预测方法、装置、设备及存储介质
CN109885686A (zh) * 2019-02-20 2019-06-14 延边大学 一种融合主题信息和BiLSTM-CNN的多语种文本分类方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110168542A (zh) * 2017-03-09 2019-08-23 三星电子株式会社 用于压缩语言模型的电子设备、用于提供推荐词的电子设备及其操作方法
US10409917B1 (en) * 2017-05-24 2019-09-10 Amazon Technologies, Inc. Machine intelligence system for machine translation quality evaluation by identifying matching propositions in source and translated text strings
CN107357789A (zh) * 2017-07-14 2017-11-17 哈尔滨工业大学 融合多语编码信息的神经机器翻译方法
CN107967262A (zh) * 2017-11-02 2018-04-27 内蒙古工业大学 一种神经网络蒙汉机器翻译方法
CN107909147A (zh) * 2017-11-16 2018-04-13 深圳市华尊科技股份有限公司 一种数据处理方法及装置
CN109299479A (zh) * 2018-08-21 2019-02-01 苏州大学 通过门控机制将翻译记忆融入神经机器翻译的方法
CN109299273A (zh) * 2018-11-02 2019-02-01 广州语义科技有限公司 基于改进seq2seq模型的多源多标签文本分类方法及其系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
图解什么是 Transformer;不会停的蜗牛关注;《https://www.jianshu.com/p/e7d8caa13b21》;20190110;全文 *

Also Published As

Publication number Publication date
CN110781690A (zh) 2020-02-11

Similar Documents

Publication Publication Date Title
CN110781690B (zh) 一种多源神经机器翻译模型的融合和压缩方法
CN111597778B (zh) 一种基于自监督的机器翻译译文自动优化的方法和系统
CN110309287B (zh) 建模对话轮次信息的检索式闲聊对话打分方法
CN111160050A (zh) 一种基于上下文记忆网络的篇章级神经机器翻译方法
CN107967262A (zh) 一种神经网络蒙汉机器翻译方法
CN111241855A (zh) 文本翻译方法、装置、存储介质和计算机设备
Chitnis et al. Variable-length word encodings for neural translation models
CN112016604B (zh) 一种运用视觉信息的零资源机器翻译方法
CN109522403A (zh) 一种基于融合编码的摘要文本生成方法
CN111401079A (zh) 神经网络机器翻译模型的训练方法、装置及存储介质
CN111858932A (zh) 基于Transformer的多重特征中英文情感分类方法及系统
CN113468895B (zh) 一种基于解码器输入增强的非自回归神经机器翻译方法
CN115099244A (zh) 一种语音翻译的方法、训练语音翻译模型的方法及装置
CN117218503A (zh) 一种融合图像信息的越汉跨语言新闻文本摘要方法
CN113747168A (zh) 多媒体数据描述模型的训练方法和描述信息的生成方法
Shi et al. Adding Visual Information to Improve Multimodal Machine Translation for Low-Resource Language
CN116208772A (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
CN111353315A (zh) 一种基于随机残差算法的深层神经机器翻译系统
CN112989845B (zh) 一种基于路由算法的篇章级神经机器翻译方法及系统
CN115719072A (zh) 一种基于掩码机制的篇章级神经机器翻译方法及系统
CN115034236A (zh) 一种基于知识蒸馏的中英机器翻译方法
CN115422329A (zh) 一种基于知识驱动的多路筛选融合对话生成方法
CN113378584A (zh) 一种基于辅助表示融合的非自回归神经机器翻译方法
CN116227506B (zh) 一种具有高效非线性注意力结构的机器翻译方法
CN116310984B (zh) 基于Token采样的多模态视频字幕生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant