CN112287697A - 一种加快小型智能移动设备中翻译软件运行速度的方法 - Google Patents
一种加快小型智能移动设备中翻译软件运行速度的方法 Download PDFInfo
- Publication number
- CN112287697A CN112287697A CN202011212798.8A CN202011212798A CN112287697A CN 112287697 A CN112287697 A CN 112287697A CN 202011212798 A CN202011212798 A CN 202011212798A CN 112287697 A CN112287697 A CN 112287697A
- Authority
- CN
- China
- Prior art keywords
- model
- small
- decoding
- head
- machine translation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000013519 translation Methods 0.000 claims abstract description 51
- 230000007246 mechanism Effects 0.000 claims abstract description 31
- 230000001537 neural effect Effects 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 20
- 238000012546 transfer Methods 0.000 claims abstract description 17
- 230000008569 process Effects 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 16
- 230000009466 transformation Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000006835 compression Effects 0.000 abstract description 10
- 238000007906 compression Methods 0.000 abstract description 10
- 230000008901 benefit Effects 0.000 abstract description 5
- 238000013528 artificial neural network Methods 0.000 description 11
- 239000013598 vector Substances 0.000 description 8
- 238000003062 neural network model Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明公开一种加快小型智能移动设备中翻译软件运行速度的方法,包括以下步骤:1)训练两个基于自注意力机制的神经机器翻译模型,包括一个大模型和一个小模型;2)构建参数生成器,其输入为大模型的参数,输出为小模型的参数,通过训练参数生成器将大模型参数中的知识传递到小模型中完成知识的迁移过程;3)进行小模型的解码,得到机器翻译模型解码结果,证明小模型的实用价值;4)将小模型应用到小型智能移动设备中,实现快速解码的应用。本发明充分利用知识迁移将大模型知识转移到小模型的优势,能够在当前性能最好模型的基础上实现,且在模型性能几乎没有下降的前提下,实现模型的压缩并提升实时相应速度。
Description
技术领域
本发明涉及一种神经机器翻译模型压缩和加速技术,具体为加快小型智能移动设备中翻译软件运行速度的方法。
背景技术
小型智能移动设备成为人们不可缺少的知识获取来源,由于人们对各种类型应用的需求,各类APP软件频繁被小型智能移动设备用户下载并存储,导致小型智能移动设备出现卡顿的问题。单纯增大小型智能移动设备容量会导致硬件成本过高,增加用户经济负担,因此从另一个角度考虑,应尽量减少小型智能移动设备上APP软件的空间占用量。
机器翻译在现阶段有着广泛的应用需求,智能翻译软件也被广泛应用于移动设备中。在上世纪九十年代初IBM和AT&T等机构提出了统计机器翻译(statistical machinetranslation)的思想。与传统方法不同,统计机器翻译把翻译问题看作是搜索翻译概率最大的译文的问题。在翻译建模方面,研究者从最开始的产生式模型逐渐进化到判别式模型,从开始的基于词的模型逐渐演变为基于短语的模型,甚至基于句法的模型。特别是在2005年,谷歌公司正式把机器翻译作为互联网在线服务推出,普通用户可以免费享受技术发展所带来的红利,这些都大大促进了机器翻译技术研发及产品化的步伐。由于统计机器翻译具有系统健壮性高、对人工依赖少等特点,时至今日它仍然是许多实用系统所使用的主要框架之一。
注意力机制可以帮助神经网络在生成目标端单词时有选择性的关注不同的源语言位置,投入更多的注意力在更重要的位置,而对不太重要的位置只需投入较少的注意力,使神经网络更容易的捕获到和当前目标端单词更相关的源语信息,从而使得神经网络对目标语言的预测更为准确。在生成一个目标语单词时,基于注意力机制的神经机器翻译模型会基于得到的不同的注意力对不同源语位置向量进行加权求和,得到不同的上下文向量。注意力机制的引入使得不同源语言位置对目标语单词生成的贡献度不同,使得神经网络中信息流的传递变得更为高效,有助于神经网络模型的学习。
虽然当前这种模型已经取得了不错的性能,但仍存在着一个问题:当前的神经网络模型规模过于庞大,虽然这种大模型(参数量为千万级、上亿级别)性能不断增强,但在存储和计算资源受限的小型智能移动设备(如:手机、平板电脑等移动设备)部署此类模型却面临着巨大的挑战。由于此类设备的资源受限又要求实时的响应速度,因此需要将大模型转变为小模型(即参数量为百万级别),从而提升翻译模型在小设备上的解码速度,满足用户的翻译需求。
发明内容
针对现有技术中机器翻译的模型规模庞大而不能部署在存储资源和计算资源受限的小设备上的问题,本发明要解决的技术问题是提供一种加快小型智能移动设备中翻译软件运行速度的方法,充分利用知识迁移能够将大模型知识转移到小模型的优势,能够在当前最强模型的实现基础上,且在模型性能几乎没有下降的前提下,实现模型的压缩并提升实时相应速度。
为解决上述技术问题,本发明采用的技术方案是:
本发明提供一种加快小型智能移动设备中翻译软件运行速度的方法,包括以下步骤:
1)训练两个基于自注意力机制的神经机器翻译模型,包括一个大模型和一个小模型;
2)构建参数生成器,其输入为大模型的参数,输出为小模型的参数,通过训练参数生成器将大模型参数中的知识传递到小模型中完成知识的迁移过程;
3)进行小模型的解码,得到机器翻译模型解码结果,证明小模型的实用价值;
4)将小模型应用到小型智能移动设备中,实现快速解码的应用。
在步骤1)中,大模型和小模型均为基于注意力机制的神经机器翻译模型,包括编码端和解码端,使用注意力机制;当使用的注意力机制为多头时,注意力机制计算方式为:
MultiHead(Q,K,V)=Concat(head1,head2,……,headh)Wo
其中,MultiHead(Q,K,V)为多头注意力机制,head1,head2,……,headh代表模型中的h个头,Wo为线性变换矩阵和Concat级联操作;
每个头的注意力计算公式为:
其中SoftMax(·)为归一化函数,Q、K和V分别为参与计算的不同的线性变换矩阵,dk为K矩阵每个头的维度大小。
骤2)中构建参数生成器,具体为:
201)由三种线性变换矩阵组成参数生成器,该参数生成器进行输入、输出、层数这三个维度矩阵(Win,Wout,Wlayer)的由大到小的变换,实现将大模型参数知识转移到小模型中的目的;
202)固定大模型参数Wteacher,训练Win,Wout,Wlayer这三个参数矩阵;
203)将Wteacher和Win,Wout,Wlayer进行组合得到小模型的参数矩阵Wstudent;
204)对Wstudent在训练数据上进行微调,使小模型适应数据集。
步骤3)中,进行小模型的解码,得到机器翻译模型解码结果,是根据步骤2)中参数生成器训练和生成的小模型进行解码,得到小模型解码结果并进行性能和速度的评价。
本发明具有以下有益效果及优点:
1.本发明加快小型智能移动设备中翻译软件运行速度的方法充分利用知识迁移将大模型知识转移到小模型的优势,能够在当前性能最好模型的基础上实现,且在模型性能几乎没有下降的前提下,实现模型的压缩并提升实时相应速度。
2.本发明能够在保证模型性能不变的前提下,减小模型解码和存储的硬件成本代价,提高了翻译软件在小型智能移动设备中的运行速度,解决了小型智能移动设备容易卡顿的问题。
附图说明
图1为本发明加快小型智能移动设备中翻译软件运行速度的方法中神经机器翻译编码解码注意力机制示意图;
图2为多头注意力机制示意图;
图3为本发明中参数生成器结构示意图。
具体实施方式
下面结合说明书附图对本发明作进一步阐述。
本发明将从模型压缩角度对基于自注意力机制的神经机器翻译系统中知识进行大模型到小模型中的迁移,旨在以较小性能损失为代价,实现模型的压缩并提升实时相应速度。
本发明一种基于机器翻译任务的小模型生成方法,包括以下步骤:
1)训练两个基于自注意力机制的神经机器翻译模型,包括一个大模型和一个小模型;
2)构建参数生成器,其输入为大模型的参数,输出为小模型的参数,通过训练参数生成器将大模型参数中的知识传递到小模型中完成知识的迁移过程;
3)进行小模型的解码,得到机器翻译模型解码结果,证明小模型的实用价值;
4)将小存储翻译模型应用到小型智能移动设备中,实现快速解码的应用。
在步骤1)中,大模型和小模型均为基于注意力机制的神经机器翻译模型,包括编码端和解码端,使用注意力机制;当使用的注意力机制为多头时,注意力机制计算方式为:
MultiHead(Q,K,V)=Concat(head1,head2,……,headh)Wo
其中,MultiHead(Q,K,V)为多头注意力机制,head1,head2,……,headh代表模型中的h个头,Wo为线性变换矩阵和Concat级联操作。
每个头的注意力计算公式为:
其中SoftMax(·)为归一化函数,Q、K和V分别为参与计算的不同的线性变换矩阵,dk为K矩阵每个头的维度大小。
本步骤训练两个规模不同的模型,参数量多的为大模型,参数量少的为小模型,两个不同规模的模型都是基于注意力机制的神经机器翻译模型。
基于注意力机制的神经机器翻译模型包括编码端和解码端,结构如图1所示。注意力机制是神经机器翻译模型中重要的组成部分,如图2所示,矩阵Q包括了l个词向量,组成了一个查询(Query)矩阵,矩阵KT包括了l个词向量的转置,组成了一个关键值(Key)矩阵,其中词向量为模型中间层的数值表示。在最初的编码器-解码器框架中,由于上述原因导致神经网络难以学习到源端和目标端的对应信息,翻译系统对输入较长的句子的翻译效果较差。针对这一问题,研究人员提出了基于注意力机制的神经机器翻译,此模型可以动态的计算源语言的上下文,有利于神经网络学到更多的全局信息,还可以帮助神经网络在生成目标端单词时有选择性的关注不同的源语言位置,投入更多的注意力在更重要的位置,而对不太重要的位置只需投入较少的注意力,使神经网络更容易的捕获到和当前目标端单词更相关的源语信息,从而使得神经网络对目标语言的预测更为准确。
在生成一个目标语单词时,基于注意力机制的神经网络会基于得到的不同的注意力对不同源语位置向量进行加权求和,得到不同的上下文向量。注意力机制的引入使得不同源语言位置对目标语单词生成的贡献度不同,使得神经网络中信息流的传递变得更为高效,有助于神经网络模型的学习。
步骤2)中构建参数生成器,参数生成器结构如图3所示,具体为:
201)由三种线性变换矩阵组成参数生成器,该参数生成器进行输入、输出、层数这三个维度矩阵(Win,Wout,Wlayer)的由大到小的变换,实现将大模型参数知识转移到小模型中的目的;
202)固定大模型参数Wteacher,训练Win,Wout,Wlayer这三个参数矩阵;
203)将Wteacher和Win,Wout,Wlayer进行组合得到小模型的参数矩阵Wstudent。
204)对Wstudent在训练数据上进行微调,使小模型适应数据集。
本步骤主要解决机器翻译模型中大模型中参数如何迁移到小模型的问题。
步骤3)中,进行小模型的解码,得到机器翻译模型解码结果,具体为:根据步骤2)中参数生成器训练和生成的小模型进行解码,得到小模型解码结果并进行评价。
本发明以HUAWEI MatePad 10.8为例,处理器为八核心,系统内存为6GB,存储容量为64GB。使用本发明模型占存储为107M,仅占总配置的0.16%,原有模型为1.34GB,极大节省了手机存储空间,这种容量级别的软件可以安装612个,可以满足用户多方面需求,且缓解智能设备上的卡顿现象。
通过使用本发明方法,能够在当前最强模型的实现基础上,且在模型性能几乎没有下降的前提下,实现模型的压缩并提升实时相应速度。
在基于自注意力机制的神经机器翻译系统中,从某种程度上而言,模型结构的可解释性更强了。以编码端为例,在每一层内主要包含自注意力的子层和前馈网络的子层。其中前馈网络的结构主要目的在于增加模型的表达能力,将自注意力子层的信息进行整合后送入下一层。而自注意力机制的操作则可以看作是对源语词向量的富集抽象。但当前的神经网络模型模型规模过于庞大,虽然有着性能上的优势,但将此规模的模型部署在存储和计算资源受限的小设备上却面临着巨大的挑战。知识迁移是当前模型压缩常用的一种手段,它就是将已经训练好的模型包含的知识,通过迁移提取到另一个模型里面去,一般认为大模型的学习能力更强,本发明中的知识迁移就是将大模型中的知识提取到小模型中从而实现模型压缩的目的。
本发明延续知识精炼方法,提出了一种基于机器翻译任务的小模型生成方法,本实施例在WMT16英罗、WMT14英德和NIST12中英三个翻译任务上进行实验。利用本发明方法可以训练一个比大模型快1.75~2.98倍的学生网络,同时模型性能不受损失。在相同规模的小型网络中,本发明方法可以达到大模型的性能和小模型的解码速度。
当前基于注意力机制的神经网络模型已经被广泛应用于神经机器翻译任务中,深层模型更是进一步提升了神经机器翻译的性能,并且我们发现,不断的增加解码器的层数可以不断的增加模型的性能,但是考虑到训练的时间成本和硬件的限制,往往不能无限制的增加编码器的层数,而且层数越深,模型也难以收敛。同时,网络的发展使我们能够获得更多双语训练数据。然而更多模型参数和更多的训练数据在带来更强大的翻译性能的同时也增大了模型训练的代价,我们需要更多的训练时间,更强大的硬件。在此情景下本发明方法可以极大的减少模型推断的时间代价和模型存储的硬件成本代价,同时模型性能不会受到影响。
知识迁移是当前模型压缩常用的一种手段,它就是将已经训练好的模型包含的知识,通过迁移提取到另一个模型里面去,一般认为大模型的学习能力更强,知识迁移就是将大模型中的知识提取到小模型中从而实现模型压缩的目的。而目前能够实现这种目的的方法存在着一些不足,由于模型中维度不同的限制,不能够直接将知识在不同规模大小的模型中进行迁移。
Claims (4)
1.一种加快小型智能移动设备中翻译软件运行速度的方法,其特征在于包括以下步骤:
1)训练两个基于自注意力机制的神经机器翻译模型,包括一个大模型和一个小模型;
2)构建参数生成器,其输入为大模型的参数,输出为小模型的参数,通过训练参数生成器将大模型参数中的知识传递到小模型中完成知识的迁移过程;
3)进行小模型的解码,得到机器翻译模型解码结果,证明小模型的实用价值;
4)将小模型应用到小型智能移动设备中,实现快速解码的应用。
2.按权利要求1所述的加快小型智能移动设备中翻译软件运行速度的方法,其特征在于:在步骤1)中,大模型和小模型均为基于注意力机制的神经机器翻译模型,包括编码端和解码端,使用注意力机制;当使用的注意力机制为多头时,注意力机制计算方式为:
MultiHead(Q,K,V)=Concat(head1,head2,Λ,headh)WO
其中,MultiHead(Q,K,V)为多头注意力机制,head1,head2Λheadn代表模型中的h个头,Wo为线性变换矩阵和Concat级联操作。
每个头的注意力计算公式为:
其中SoftMax(·)为归一化函数,Q、K和V分别为参与计算的不同的线性变换矩阵,dk为K矩阵每个头的维度大小。
3.按权利要求1所述的加快小型智能移动设备中翻译软件运行速度的方法,其特征在于:步骤2)中构建参数生成器,具体为:
201)由三种线性变换矩阵组成参数生成器,该参数生成器进行输入、输出、层数这三个维度矩阵(Win,Wout,Wlayer)的由大到小的变换,实现将大模型参数知识转移到小模型中的目的;
202)固定大模型参数Wteacher,训练Win,Wout,Wlayer这三个参数矩阵;
203)将Wteacher和Win,Wout,Wlayer进行组合得到小模型的参数矩阵Wstudent;
204)对Wstudent在训练数据上进行微调,使小模型适应数据集。
4.按权利要求1所述的加快小型智能移动设备中翻译软件运行速度的方法,其特征在于:步骤3)中,进行小模型的解码,得到机器翻译模型解码结果,是根据步骤2)中参数生成器训练和生成的小模型进行解码,得到小模型解码结果并进行性能和速度的评价。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011212798.8A CN112287697A (zh) | 2020-11-03 | 2020-11-03 | 一种加快小型智能移动设备中翻译软件运行速度的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011212798.8A CN112287697A (zh) | 2020-11-03 | 2020-11-03 | 一种加快小型智能移动设备中翻译软件运行速度的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112287697A true CN112287697A (zh) | 2021-01-29 |
Family
ID=74351329
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011212798.8A Pending CN112287697A (zh) | 2020-11-03 | 2020-11-03 | 一种加快小型智能移动设备中翻译软件运行速度的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112287697A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113505614A (zh) * | 2021-07-29 | 2021-10-15 | 沈阳雅译网络技术有限公司 | 一种面向小型cpu设备的小模型训练方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109117483A (zh) * | 2018-07-27 | 2019-01-01 | 清华大学 | 神经网络机器翻译模型的训练方法及装置 |
CN109886422A (zh) * | 2019-02-01 | 2019-06-14 | 深圳绿米联创科技有限公司 | 模型配置方法、装置、电子设备及可读取存储介质 |
US20190325308A1 (en) * | 2016-12-30 | 2019-10-24 | Google Llc | Multi-task learning using knowledge distillation |
US20200034436A1 (en) * | 2018-07-26 | 2020-01-30 | Google Llc | Machine translation using neural network models |
CN111062489A (zh) * | 2019-12-11 | 2020-04-24 | 北京知道智慧信息技术有限公司 | 一种基于知识蒸馏的多语言模型压缩方法、装置 |
CN111126079A (zh) * | 2019-11-25 | 2020-05-08 | 北京小米智能科技有限公司 | 用于机器翻译的神经网络模型压缩方法、装置及存储介质 |
CN111178087A (zh) * | 2019-12-20 | 2020-05-19 | 沈阳雅译网络技术有限公司 | 一种基于离散型注意力机制的神经机器翻译解码加速方法 |
CN111382576A (zh) * | 2020-01-21 | 2020-07-07 | 沈阳雅译网络技术有限公司 | 一种基于离散型变量的神经机器翻译解码加速方法 |
US20200250384A1 (en) * | 2019-02-01 | 2020-08-06 | Electronics And Telecommunications Research Institute | Method and apparatus for constructing translation model |
CN111554268A (zh) * | 2020-07-13 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 基于语言模型的语言识别方法、文本分类方法和装置 |
-
2020
- 2020-11-03 CN CN202011212798.8A patent/CN112287697A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190325308A1 (en) * | 2016-12-30 | 2019-10-24 | Google Llc | Multi-task learning using knowledge distillation |
US20200034436A1 (en) * | 2018-07-26 | 2020-01-30 | Google Llc | Machine translation using neural network models |
CN109117483A (zh) * | 2018-07-27 | 2019-01-01 | 清华大学 | 神经网络机器翻译模型的训练方法及装置 |
CN109886422A (zh) * | 2019-02-01 | 2019-06-14 | 深圳绿米联创科技有限公司 | 模型配置方法、装置、电子设备及可读取存储介质 |
US20200250384A1 (en) * | 2019-02-01 | 2020-08-06 | Electronics And Telecommunications Research Institute | Method and apparatus for constructing translation model |
CN111126079A (zh) * | 2019-11-25 | 2020-05-08 | 北京小米智能科技有限公司 | 用于机器翻译的神经网络模型压缩方法、装置及存储介质 |
CN111062489A (zh) * | 2019-12-11 | 2020-04-24 | 北京知道智慧信息技术有限公司 | 一种基于知识蒸馏的多语言模型压缩方法、装置 |
CN111178087A (zh) * | 2019-12-20 | 2020-05-19 | 沈阳雅译网络技术有限公司 | 一种基于离散型注意力机制的神经机器翻译解码加速方法 |
CN111382576A (zh) * | 2020-01-21 | 2020-07-07 | 沈阳雅译网络技术有限公司 | 一种基于离散型变量的神经机器翻译解码加速方法 |
CN111554268A (zh) * | 2020-07-13 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 基于语言模型的语言识别方法、文本分类方法和装置 |
Non-Patent Citations (5)
Title |
---|
BEI LI;ZIYANG WANG;HUI LIU;YUFAN JIANG;QUAN DU, ET AL.: "Shallow-to-Deep Training for Neural Machine Translation", 《ARXIV ABS/2010.03737》, 8 October 2020 (2020-10-08), pages 1 - 11 * |
LIN Y, LI Y, WANG Z, ET AL.: "Weight distillation: Transferring the knowledge in neural network parameters", 《HTTPS://ARXIV.ORG/ABS/2009.09152V1》, 19 September 2020 (2020-09-19), pages 1 - 13 * |
张裕浩;许诺;李垠桥;肖桐;朱靖波;: "从粗粒度到细粒度的神经机器翻译系统推断加速方法", 厦门大学学报(自然科学版), no. 02, 23 March 2020 (2020-03-23), pages 175 - 184 * |
王宇飞;苏依拉;赵亚平;孙晓骞;仁庆道尔吉;: "基于参数迁移的蒙汉神经机器翻译模型", 计算机应用与软件, no. 09, 10 September 2020 (2020-09-10), pages 81 - 87 * |
邓文韬;: "Attention机制在神经机器翻译中的作用探究", 计算机产品与流通, no. 09, 11 August 2020 (2020-08-11), pages 108 - 109 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113505614A (zh) * | 2021-07-29 | 2021-10-15 | 沈阳雅译网络技术有限公司 | 一种面向小型cpu设备的小模型训练方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220180202A1 (en) | Text processing model training method, and text processing method and apparatus | |
WO2020228376A1 (zh) | 文本处理方法、模型训练方法和装置 | |
WO2022057776A1 (zh) | 一种模型压缩方法及装置 | |
WO2023160472A1 (zh) | 一种模型训练方法及相关设备 | |
CN110489567B (zh) | 一种基于跨网络特征映射的节点信息获取方法及其装置 | |
CN109964223A (zh) | 会话信息处理方法及其装置、存储介质 | |
CN111368993A (zh) | 一种数据处理方法及相关设备 | |
CN110543640A (zh) | 一种基于注意力机制神经机器翻译推断加速方法 | |
US20220300718A1 (en) | Method, system, electronic device and storage medium for clarification question generation | |
WO2022253074A1 (zh) | 一种数据处理方法及相关设备 | |
WO2023236977A1 (zh) | 一种数据处理方法及相关设备 | |
JP2022502758A (ja) | 符号化方法、装置、機器およびプログラム | |
WO2023020613A1 (zh) | 一种模型蒸馏方法及相关设备 | |
CN116541492A (zh) | 一种数据处理方法及相关设备 | |
US20230042221A1 (en) | Modifying digital images utilizing a language guided image editing model | |
CN112287697A (zh) | 一种加快小型智能移动设备中翻译软件运行速度的方法 | |
CN112257464B (zh) | 一种基于小型智能移动设备的机器翻译解码加速方法 | |
CN113420179A (zh) | 基于时序高斯混合空洞卷积的语义重构视频描述方法 | |
CN116740078A (zh) | 图像分割处理方法、装置、设备以及介质 | |
CN116958324A (zh) | 图像生成模型的训练方法、装置、设备及存储介质 | |
He et al. | Image captioning algorithm based on multi-branch cnn and bi-lstm | |
Pan et al. | Chinese image caption of Inceptionv4 and double-layer GRUs based on attention mechanism | |
CN113204679B (zh) | 一种代码查询模型的生成方法和计算机设备 | |
WO2021082518A1 (zh) | 机器翻译方法、机器翻译模型训练方法、装置及存储介质 | |
CN112257469A (zh) | 用于小型移动设备的深层神经机器翻译模型的压缩方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |