CN111382576B - 一种基于离散型变量的神经机器翻译解码加速方法 - Google Patents
一种基于离散型变量的神经机器翻译解码加速方法 Download PDFInfo
- Publication number
- CN111382576B CN111382576B CN202010068156.9A CN202010068156A CN111382576B CN 111382576 B CN111382576 B CN 111382576B CN 202010068156 A CN202010068156 A CN 202010068156A CN 111382576 B CN111382576 B CN 111382576B
- Authority
- CN
- China
- Prior art keywords
- scale
- model
- output
- machine translation
- scaling factor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开一种基于离散型变量的神经机器翻译解码加速方法,步骤为:构建训练平行语料及基于注意力机制的神经机器翻译模型,以训练收敛后的模型参数,作为基线系统;在基线系统中通过量化方法得到每个张量的缩放因子(scale),并为整个模型初始化一个统一的缩放因子(base_scale);对神经机器翻译模型;在进行加法运算之前,对来自不同操作的各自缩放因子,求得一个公共缩放因子,保证参数的量级一致;对神经机器翻译模型的输出进行反量化,将模型输出结果送到归一化函数中,并得到最终的翻译结果。本发明利用定点数的运算复杂度低这种天然的优势,在快速推理的最新实现基础上,模型性能没有下降的前提下,提升实时相应速度。
Description
技术领域
本发明涉及一种神经机器翻译解码加速技术,具体为基于离散型变量的神经机器翻译解码加速方法。
背景技术
机器翻译(Machine Translation)是利用计算机程序将一种自然语言翻译成另一种自然语言,属于计算语言学的范畴。1949年,沃伦·韦弗(Warren Weaver)发表了一份以《翻译》为题的备忘录标志着基于现代计算机的机器翻译正式登上历史舞台。机器翻译既涉及到人类对自身语言和思维方式的认知,又涉及到人工智能、信息论、知识工程和软件工程等很多领域,是一个多种技术深度交叉的学科。近十几年来,机器翻译研究及产业化在各国政府和产业界的大力推动下,取得了快速进展。我国政府把包括机器翻译技术在内的自然语言理解研究列入国家中长期科技发展规划纲要中,以此推进语言信息处理及机器翻译领域快速发展。谷歌、百度和微软等互联网巨头也将机器翻译作为在线服务的重要入口。据报道,谷歌翻译每天为全球两亿多个用户提供服务,每天翻译次数达10亿次,每天翻译处理的文字数量相当于100万册图书,超过了全世界的专业翻译人员一年能够翻译的文字规模。机器翻译对推动各国政治、经济、文化、商务、旅游等领域交流起到了重要的作用。
随着机器翻译研究的深入及机器学习等相关学科的进步,人们逐渐发现统计机器翻译存在着许多难以回避的问题,比如,翻译过程依赖隐藏结构的假设、翻译特征的定义需要人工设计、特征工程耗时耗力而且往往不具有普适意义。对于这些问题,人们又尝试了一种全新的思路——神经机器翻译。所谓神经机器翻译是使用神经元网络直接对翻译问题建模,这个过程并不假设翻译具有隐藏结构,同时也不依赖人工定义的特征,整个翻译模型都可以在一种端到端的模式下训练完成,而翻译解码也就变成对神经网络进行前向计算或推断的过程。
端到端的神经机器翻译通过神经网络模型直接实现从源语言到目标语言的翻译,所采用的主要框架是编码器-解码器(Encoder-Decoder)框架。编码器-解码器框架将翻译任务看作序列到序列的转换,即将翻译过程看作从源语言序列转换成目标语言序列的过程。该过程主要包括两个步骤:(1)源语言端,编码器将源语言序列编码成源语言上下文向量;(2)目标语言端,解码器根据编码器提供的源语言上下文向量生成目标语言序列。
注意力机制是神经机器翻译模型中重要的组成部分。在最初的编码器-解码器框架中,由于上述原因导致神经网络难以学习到源端和目标端的对应信息,翻译系统对输入较长的句子的翻译效果较差。针对这一问题,研究人员提出了基于注意力机制的神经机器翻译,此模型可以动态的计算源语言的上下文,有利于神经网络学到更多的全局信息,该方法的核心思想在于通过引入源语和目标语句中词汇之间的关联程度来补充网络中的全局信息,增加网络可获得的关于文本的语义信息。
注意力机制可以帮助神经网络在生成目标端单词时有选择性的关注不同的源语言位置,投入更多的注意力在更重要的位置,而对不太重要的位置只需投入较少的注意力,使神经网络更容易的捕获到和当前目标端单词更相关的源语信息,从而使得神经网络对目标语言的预测更为准确。在生成一个目标语单词时,基于注意力机制的神经网络会基于得到的不同的注意力对不同源语位置向量进行加权求和,得到不同的上下文向量。注意力机制的引入使不同源语言位置对目标语单词生成的贡献度不同,使得神经网络中信息流的传递变得更为高效,有助于神经网络模型的学习。
Google于2017年提出了完全基于注意力机制的模型结构,称为Transformer,该模型摒弃了传统的基于循环神经网络和基于卷积网络的方法,达到了更好的性能,并且有效提高了模型的并行程度,加快了训练速度。
虽然当前基于注意力机制的神经网络已经取得了不错的性能,但同时也引入了一个新的问题,即过度依赖于大量的单精度和双精度浮点运算,虽然浮点运算已经被证明了有诸多好处,比如运算稳定、表示空间比较大,但相对于整数运算等定点运算,浮点运算复杂度高、芯片制作复杂。
发明内容
针对现有技术中机器翻译的方法过度依赖于单精度和双精度浮点而无法发挥低精度数值运算优势,本发明要解决的技术问题是提供一种基于离散型变量的神经机器翻译解码加速方法,充分利用定点数的运算复杂度低这种天然的优势,能够在快速推理的最新实现基础上,且在模型性能几乎没有下降的前提下,提升实时相应速度。
为解决上述技术问题,本发明采用的技术方案是:
本发明一种基于离散型变量的神经机器翻译解码加速方法,包括以下步骤:
1)构建训练平行语料及基于注意力机制的神经机器翻译模型,利用平行语料生成机器翻译词表,解码器根据提取的信息解码生成目标语句子,不断更新模型参数,使得生成目标语句子和真实的翻译结果更加接近,完成神经机器翻译模型训练过程;以训练收敛后的模型参数,作为基线系统;
2)在基线系统中通过对模型中的单精度浮点参数进行缩放,将整个网络的参数通过缩放因子转换为整型数值,将连续浮点数值映射到整型数值的区间范围内,对整个模型中的张量参数矩阵,通过量化方法得到每个张量的缩放因子(scale),并为整个模型初始化一个统一的缩放因子(base_scale);
3)对神经机器翻译模型的操作使用整型化的参数进行运算,并将数值运算输入变量的缩放因子累计到统一缩放因子上。
4)在进行加法运算之前,对来自不同操作的各自缩放因子,求得一个公共缩放因子,根据该公共缩放因子进行缩放匹配,保证参数的量级一致;
5)对神经机器翻译模型的输出进行反量化,将模型输出结果送到归一化函数中,并得到最终的翻译结果。
步骤2)中,在基线系统上通过对模型中的单精度浮点参数进行缩放,将整个网络的参数通过缩放因子转换为整型数值,将连续浮点数值映射到整型数值的区间范围内,对整个模型中的张量参数矩阵,通过量化方法得到每个张量的缩放因子(scale),并为整个模型初始化一个统一的缩放因子(base_scale),包括以下步骤:
201)对模型中的每个参数张量进行量化,并根据选择的量化范围与量化策略进行参数缩放,计算每个张量参数的缩放因子scale:
其中x为待运算的模型参数,Max(abs(·))为对参数的量化策略,abs(·)为对输入的浮点参数取绝对值,Max(·)对输入参数取最大值;k为整数运算的位数;
202)根据计算出的缩放因子scale,对网络中的浮点参数进行量化,得到量化后的离散型参数xscale:
xscale=round(xfloat32·scale)
其中xscale为量化缩放后的值,xfloat32为进行操作的原始浮点数值,scale为缩放因子,round(·)为四舍五入操作。
步骤3)中,对神经机器翻译模型的操作使用整型化的参数进行运算,并将数值运算输入变量的缩放因子累计到统一缩放因子上,步骤为:
将原始的参数操作
替换为:
其中,o表示参数的运算法则,base_scale为多维向量,数值初始大小为1。
步骤4)中,在进行加法运算之前,对来自不同操作的各自缩放因子,求得一个公共缩放因子,根据该公共缩放因子进行缩放匹配,保证参数的量级一致,具体为:对于两个不同操作的输出output1、output2,分别对应缩放因子scale1、scale2,进行加法运算之前,匹配缩放因子,对于目标操作:
output=output1+output2
匹配缩放因子,
scalematch=Match(scale1,scale2)
其中scalematch为匹配后的缩放因子,Match(·,·)为缩放因子匹配公式,根据新的缩放因子计算output1、output2结果为output'1、output'2,此时目标操作为:
output=output1*(scale1/scalematch)+output2*(scale2/scalematch)
步骤5)中,对模型的输出进行反量化为:
将离散化数值与统一缩放因子运算,得到单精度浮点数。
本发明具有以下有益效果及优点:
1.本发明能够在快速推理的最新实现基础上,充分利用定点数的运算复杂度低这种天然的优势,能够在快速推理的最新实现基础上,且在模型性能几乎没有下降的前提下,提升实时相应速度。
2.本发明能够在具备更多模型参数和使用更多的训练数据的前提下,减小模型的存储的硬件成本代价。
3.本发明不需要过多的浮点数运算,可以更方便的不是在廉价、可移动设备上,比如手机、翻译机等。
4.本发明较少的计算量可以降低可移动设备电量等能源的使用。
附图说明
图1为神经机器翻译编码解码Transformer示意图;
图2为离散化解码权重离散化示意图;
图3为基本权重运算示意图;
图4为离散化权重运算示意图;
图5模型全连接模块示意图;
图6为本发明中改进后全连接层模块示意图。
具体实施方式
下面结合说明书附图对本发明作进一步阐述。
本发明一种基于离散型变量的神经机器翻译解码加速方法,包括以下步骤:
1)构建训练平行语料及基于注意力机制的神经机器翻译模型,利用平行语料生成机器翻译词表,解码器根据提取的信息解码生成目标语句子,不断更新模型参数,使得生成目标语句子和真实的翻译结果更加接近,完成神经机器翻译模型训练过程;以训练收敛后的模型参数,作为基线系统;
2)在基线系统中通过对模型中的单精度浮点参数进行缩放,将整个网络的参数通过缩放因子转换为整型数值,将连续浮点数值映射到整型数值的区间范围内,对整个模型中的张量参数矩阵,通过量化方法得到每个张量的缩放因子(scale),并为整个模型初始化一个统一的缩放因子(base_scale);
3)对神经机器翻译模型的操作使用整型化的参数进行运算,并将数值运算输入变量的缩放因子累计到统一缩放因子上。
4)在进行加法运算之前,对来自不同操作的各自缩放因子,求得一个公共缩放因子,根据该公共缩放因子进行缩放匹配,保证参数的量级一致;
5)对神经机器翻译模型的输出进行反量化,将模型输出结果送到归一化函数中,并得到最终的翻译结果。
在步骤1)中,基于离散型变量的神经机器翻译模型包括编码端和解码端,使用基于注意力机制的Transformer模型,模型结构如图1所示。Transformer模型主要包括注意力模块和前馈神经网络模块。
注意力模块表示为:
其中SoftMax(·)为归一化函数,Q,K,V分别为上层输出经过不同的线性变换矩阵Wq、Wk、Wv得到,Q为查询矩阵,K为键矩阵,V为值矩阵,dk为矩阵K的隐层维度大小。Q,K,V计算公式分别为:
Q=X1·Wq
K=X2·Wk
V=X2·Wv
其中Xi为模型输入的词嵌入表示或者是其它层的输出,当为自注意力机制时,X1与X2为同一个值,注意力机制为Encoder-Decoder注意力,X1为目标语输入,X2为Encoder端的输出。
全连接层前馈神经网络(Feed Forward Layer)可以表示为:
Y=W·2(ReLU(W1·X+b1))+b2
其中Wi,bi分别表示权重矩阵与偏置,i=1、2,ReLU表示激活函数。W1·X+b1通过将隐层状态X通过一个线性变换矩阵W1与偏置b1作用,将X有一个低维张量变为一个高维张量以此获得更加丰富的语义知识,在高维张量的基础上使用ReLU激活函数,对非零向量进行特征提取,之后通过线性变化矩阵W2与b2的作用还原到之前的维度。
在步骤2)中通过对模型中的单精度浮点参数进行缩放,将整个网络的参数通过缩放因子转换为整型数值,网络离散化过程如图2所示,将连续浮点数值映射到整型数值的区间范围内,对整个模型中的张量参数矩阵,通过量化方法得到每个张量的缩放因子(scale),并为整个模型初始化一个统一缩放因子(base_scale),具体为:
201)对模型中的每个参数张量进行量化(原始操作如图3所示),并根据选择的量化范围与量化策略进行参数缩放,计算每个张量参数的缩放因子其中x为待运算的模型参数,Max(abs(·))为对参数的量化策略,abs(·)为对输入的浮点参数取绝对值,Max(·)对输入参数取最大值,k为整数运算的位数,如图4所示;
202)根据计算出的缩放因子scale,来对网络中的浮点参数进行量化,得到量化后的离散型参数xscale:
xscale=round(xfloat32·scale)
其中xscale为量化缩放后的值,xfloat32为进行操作的原始浮点数值,scale为201)中计算出的缩放因子,round(·)为四舍五入操作。
在步骤3)中,对神经机器翻译模型的操作使用整型化的参数进行运算,并将数值运算输入变量的缩放因子累计到统一缩放因子上,步骤为:
将原始的参数操作
替换为:
在步骤4)中,相对于普遍存在的量化方法,如图5所示,在进行数值运算之前,先对参数进行量化,然后运算,再进行反量化。而本发明在量化进行加法运算之前,对来自不同地方的不同缩放的因子,根据因子大小求得一个统一的缩放因子,根据该统一缩放因子进行缩放匹配,不需要反量化操作,如图6所示,保证参数的量级一致,具体为:对于两个不同操作的输出output1、output2,分别对应缩放因子scale1、scale2,进行加法运算之前,匹配缩放因子,对于目标操作:
output=output1+output2
匹配缩放因子,
scalematch=Match(scale1,scale2)
其中scalematch为匹配后的缩放因子,Match(·,·)为缩放因子匹配公式,根据新的缩放因子scalematch计算output1、output2结果为output'1、output'2,此时目标操作为:
output=output1*(scale1/scalematch)+output2*(scale2/scalematch)
举例说明,对于操作:
redisual=x
x*=t
x=residual+x
进行离散化操作时,如下:
residualscale=xscale
xscale*=tscale
xscale=residualscale+xscale
base_scale*=scalet
此时residualscale与xscale两个scale不匹配,需要匹配scale再进行运算,如下:
residual'scale=residualscale*(base_scale/scaleresidual)
将参数residualscale与参数xscale的scale进行匹配,保证scale的一致性,匹配完后,进行加法运算。
在步骤5)中,整个模型的数值运算都是基于离散化数值的,模型计算完之后,对模型的输出进行反量化,即将离散化数值与统一缩放因子运算得到单精度浮点数,将反量化的单精度结果送到归一化函数中,并得到最终的翻译结果。
基于注意力机制的神经机器翻译系统使得翻译的性能得到了很大的提升,但是模型的运算时间也变得越来越长。模型运算速度受限主要是由过多的模型参和复杂的单位运算时间构成,本发明通过降低模型的单位操作时间来提高模型的解码速度。本发明通过将单精度32位浮点数转换为8位整数,极大的减少了一次操作的运算时间。本发明通过将在保证模型性能不变的前提下显著的提升模型的解码时间。
本发明提出的一种基于离散型的神经机器翻译解码加速方法,通过将Transormer模型中三个模块:注意力模块、前馈神经网络模块、残差与层正则化模块的矩阵运算由32位的单精度浮点数变为8位整数,由于参数的位数由32位变为8位,理论上可以使模型的解码速度提高4倍。而在实际的实现中需要额外的操作,在不同数据集上达到不同的加速效果,在IWSLT14德英口语数据集上进行实验,可以获得3.78倍的加速比,在WMT14英德数据集上进行测试,可以获得3.69倍的加速比,平均可在整体推断速度上获得3.74倍的加速比,同时模型性能几乎没有下降。本发明方法在以上两种通用数据集上的性能都表现良好,同时带来了可观的性能提升,证明了此方法的实用性和通用性。
Claims (4)
1.一种基于离散型变量的神经机器翻译解码加速方法,其特征在于包括以下步骤:
1)构建训练平行语料及基于注意力机制的神经机器翻译模型,利用平行语料生成机器翻译词表,解码器根据提取的信息解码生成目标语句子,不断更新模型参数,使得生成目标语句子和真实的翻译结果更加接近,完成神经机器翻译模型训练过程;以训练收敛后的模型参数,作为基线系统;
2)在基线系统中通过对模型中的单精度浮点参数进行缩放,将整个网络的参数通过缩放因子转换为整型数值,将连续浮点数值映射到整型数值的区间范围内,对整个模型中的张量参数矩阵,通过量化方法得到每个张量的缩放因子(scale),并为整个模型初始化一个统一的缩放因子(base_scale);
3)对神经机器翻译模型的操作使用整型化的参数进行运算,并将数值运算输入变量的缩放因子累计到统一缩放因子上;
4)在进行加法运算之前,对来自不同操作的各自缩放因子,求得一个公共缩放因子,根据该公共缩放因子进行缩放匹配,保证参数的量级一致;
5)对神经机器翻译模型的输出进行反量化,将模型输出结果送到归一化函数中,并得到最终的翻译结果;
对模型的输出进行反量化为:将离散化数值与统一缩放因子运算,得到单精度浮点数。
2.按权利要求1所述的基于离散型变量的神经机器翻译解码加速方法,其特征在于:步骤2)中,在基线系统上通过对模型中的单精度浮点参数进行缩放,将整个网络的参数通过缩放因子转换为整型数值,将连续浮点数值映射到整型数值的区间范围内,对整个模型中的张量参数矩阵,通过量化方法得到每个张量的缩放因子(scale),并为整个模型初始化一个统一的缩放因子(base_scale),包括以下步骤:
201)对模型中的每个参数张量进行量化,并根据选择的量化范围与量化策略进行参数缩放,计算每个张量参数的缩放因子scale:
其中x为待运算的模型参数,Max(abs(·))为对参数的量化策略,abs(·)为对输入的浮点参数取绝对值,Max(·)对输入参数取最大值,k为整数运算的位数;
202)根据计算出的缩放因子scale,对网络中的浮点参数进行量化,得到量化后的离散型参数xscale:
xscale=round(xfloat32·scale)
其中xscale为量化缩放后的值,xfloat32为进行操作的原始浮点数值,scale为缩放因子,round(·)为四舍五入操作。
4.按权利要求1所述的基于离散型变量的神经机器翻译解码加速方法,其特征在于:步骤4)中,在进行加法运算之前,对来自不同操作的各自缩放因子,求得一个公共缩放因子,根据该公共缩放因子进行缩放匹配,保证参数的量级一致,具体为:对于两个不同操作的输出output1、output2,分别对应缩放因子scale1、scale2,进行加法运算之前,匹配缩放因子,对于目标操作:
output=output1+output2
匹配缩放因子,
scalematch=Match(scale1,scale2)
其中scalematch为公共缩放因子,Match(·,·)为缩放因子匹配公式,根据新的缩放因子计算output1、output2结果为output'1、output'2,此时目标操作为:
output=output1*(scale1/scalematch)+output2*(scale2/scalematch)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010068156.9A CN111382576B (zh) | 2020-01-21 | 2020-01-21 | 一种基于离散型变量的神经机器翻译解码加速方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010068156.9A CN111382576B (zh) | 2020-01-21 | 2020-01-21 | 一种基于离散型变量的神经机器翻译解码加速方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111382576A CN111382576A (zh) | 2020-07-07 |
CN111382576B true CN111382576B (zh) | 2023-05-12 |
Family
ID=71222692
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010068156.9A Active CN111382576B (zh) | 2020-01-21 | 2020-01-21 | 一种基于离散型变量的神经机器翻译解码加速方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111382576B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112287697A (zh) * | 2020-11-03 | 2021-01-29 | 沈阳雅译网络技术有限公司 | 一种加快小型智能移动设备中翻译软件运行速度的方法 |
CN112257463B (zh) * | 2020-11-03 | 2023-08-15 | 沈阳雅译网络技术有限公司 | 一种中英互译的神经机器翻译模型的压缩方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108805796A (zh) * | 2017-05-05 | 2018-11-13 | 英特尔公司 | 用于整数深度学习原语的动态精度管理 |
WO2019033836A1 (en) * | 2017-08-14 | 2019-02-21 | Midea Group Co., Ltd. | ADAPTIVE REDUCTION OF BIT WIDTH FOR NEURAL NETWORKS |
CN109615068A (zh) * | 2018-11-08 | 2019-04-12 | 阿里巴巴集团控股有限公司 | 一种对模型中的特征向量进行量化的方法和装置 |
EP3474194A1 (en) * | 2017-10-19 | 2019-04-24 | Samsung Electronics Co., Ltd. | Method and apparatus with neural network parameter quantization |
CN110543640A (zh) * | 2019-08-09 | 2019-12-06 | 沈阳雅译网络技术有限公司 | 一种基于注意力机制神经机器翻译推断加速方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180285734A1 (en) * | 2017-04-01 | 2018-10-04 | Intel Corporation | Neural network calibration mechanism |
-
2020
- 2020-01-21 CN CN202010068156.9A patent/CN111382576B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108805796A (zh) * | 2017-05-05 | 2018-11-13 | 英特尔公司 | 用于整数深度学习原语的动态精度管理 |
WO2019033836A1 (en) * | 2017-08-14 | 2019-02-21 | Midea Group Co., Ltd. | ADAPTIVE REDUCTION OF BIT WIDTH FOR NEURAL NETWORKS |
EP3474194A1 (en) * | 2017-10-19 | 2019-04-24 | Samsung Electronics Co., Ltd. | Method and apparatus with neural network parameter quantization |
CN109615068A (zh) * | 2018-11-08 | 2019-04-12 | 阿里巴巴集团控股有限公司 | 一种对模型中的特征向量进行量化的方法和装置 |
CN110543640A (zh) * | 2019-08-09 | 2019-12-06 | 沈阳雅译网络技术有限公司 | 一种基于注意力机制神经机器翻译推断加速方法 |
Non-Patent Citations (3)
Title |
---|
Aishwarya Bhandare.Efficient 8-Bit Quantization of Transformer Neural Machine Language Translation Mode.《ResearchGate》.2019,全文. * |
Sanghyun Seo.Hybrid Approach for Efficient Quantization of Weights in Convolutional Neural Networks.《2018 IEEE International Conference on BIg Data and Smart Computing》.2018,全文. * |
张飚.机器神经翻译网络结构建模研究.《中国优秀硕士学位论文全文数据库信息科技辑》》.2019,全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111382576A (zh) | 2020-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111178087B (zh) | 一种基于离散型注意力机制的神经机器翻译解码加速方法 | |
CN109359293B (zh) | 基于神经网络的蒙古文命名实体识别方法及其识别系统 | |
CN110134946B (zh) | 一种针对复杂数据的机器阅读理解方法 | |
CN110135551B (zh) | 一种基于词向量和循环神经网络的机器人聊天方法 | |
CN107967262A (zh) | 一种神经网络蒙汉机器翻译方法 | |
CN107491444B (zh) | 基于双语词嵌入技术的并行化词对齐方法 | |
CN111382576B (zh) | 一种基于离散型变量的神经机器翻译解码加速方法 | |
CN111950302A (zh) | 基于知识蒸馏的机器翻译模型训练方法、装置、设备及介质 | |
CN109710953B (zh) | 一种翻译方法及装置、计算设备、存储介质和芯片 | |
CN111178093B (zh) | 一种基于堆叠算法的神经机器翻译系统训练加速方法 | |
CN111708877B (zh) | 基于关键信息选择和变分潜在变量建模的文本摘要生成法 | |
CN111125380B (zh) | 一种基于RoBERTa和启发式算法的实体链接方法 | |
CN110188348A (zh) | 一种基于深度神经网络的中文语言处理模型及方法 | |
CN116578699A (zh) | 基于Transformer的序列分类预测方法和系统 | |
CN115563314A (zh) | 多源信息融合增强的知识图谱表示学习方法 | |
CN116663578A (zh) | 一种基于策略梯度方法改进的神经机器翻译方法 | |
CN109325243A (zh) | 字符级基于序列模型的蒙古文切词方法及其切词系统 | |
CN112395891A (zh) | 一种结合Bert语言模型和细粒度压缩的汉蒙翻译方法 | |
CN115860015B (zh) | 一种基于翻译记忆的转写文本翻译方法和计算机设备 | |
CN116340455A (zh) | 一种高速列车转向架设计标准实体关系抽取方法 | |
CN112257463B (zh) | 一种中英互译的神经机器翻译模型的压缩方法 | |
CN112613316B (zh) | 一种生成古汉语标注模型的方法和系统 | |
CN114582363A (zh) | 用于非平行语料的高质量语音转换方法 | |
CN108762523A (zh) | 基于capsule网络的输入法输出字符预测方法 | |
CN114662659A (zh) | 一种基于多阶段迁移学习策略综合的众包文本集成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information |
Inventor after: Du Quan Inventor before: Du Quan Inventor before: Zhu Jingbo Inventor before: Xiao Tong Inventor before: Zhang Chunliang |
|
CB03 | Change of inventor or designer information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |