CN110175338A - 一种数据处理方法及装置 - Google Patents
一种数据处理方法及装置 Download PDFInfo
- Publication number
- CN110175338A CN110175338A CN201910469354.3A CN201910469354A CN110175338A CN 110175338 A CN110175338 A CN 110175338A CN 201910469354 A CN201910469354 A CN 201910469354A CN 110175338 A CN110175338 A CN 110175338A
- Authority
- CN
- China
- Prior art keywords
- vector
- sublayer
- decoded
- attention
- decoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
Abstract
本申请提供一种数据处理方法及装置,用于解码器,所述解码器包括至少一个解码层;对于每个解码层,所述方法包括:根据输入的参考待解码向量进行自注意力计算,得到第一子层向量;将第一子层向量以及输入的编码向量进行多头注意力计算,得到第二子层向量;将所述参考待解码向量和所述第二子层向量进行融合,得到融合向量;将融合向量进行线性变换,得到输出的解码向量,从而实现高阶子层和低阶子层的向量融合,有效利用高阶子层蕴含的语义信息和低阶子层蕴含的语法信息,从而保证了模型翻译效果的有效提升。
Description
技术领域
本申请涉及计算机技术领域,特别涉及一种数据处理方法及装置、计算设备、计算机可读存储介质和芯片。
背景技术
Transformer翻译模型是一种编码器-解码器的网络结构,其中编码器对输入信息进行编码处理获得编码向量,然后解码器接收输入的参考待解码向量和编码器的编码向量进行解码,并将解码向量依次输入线性层和归一化层,最终获取相应的翻译结果。
参见图1,Transformer翻译模型的编码器由至少一个同构的编码层堆叠而成,解码器由至少一个同构的解码层堆叠而成。图1中的编码层和解码层各为6层。对于解码器来说,每一个解码层包含注意力机制子层和前馈网络子层两部分,各子层之间串行连接。通过多个解码层的堆叠,可以对信息进一步的抽象和融合,输出翻译结果。
目前,由图1可见,Transformer翻译模型在各个解码层中的数据流动是串行流动,最后的输出结果依赖于最后一个解码层的高阶子层信息,失去了对低阶子层信息的有效利用,从而影响了最终的翻译效果。
发明内容
有鉴于此,本申请实施例提供了一种数据处理方法及装置、计算设备、计算机可读存储介质和芯片,以解决现有技术中存在的技术缺陷。
本申请实施例公开了一种数据处理方法,用于解码器,所述解码器包括至少一个解码层;
对于每个解码层,所述方法包括:
根据输入的参考待解码向量进行自注意力计算,得到第一子层向量;
将第一子层向量以及输入的编码向量进行多头注意力计算,得到第二子层向量;
将所述参考待解码向量和所述第二子层向量进行融合,得到融合向量;
将融合向量进行线性变换,得到输出的解码向量。
可选地,对于第一个解码层,根据输入的参考待解码向量进行自注意力计算,得到第一子层向量,包括:根据输入的初始待解码向量作为参考待解码向量进行自注意力计算,得到第一子层向量。
可选地,对于除去第一个解码层的其他解码层,根据输入的参考待解码向量进行自注意力计算,得到第一子层向量,包括:根据输入的上一个解码层的解码向量作为参考待解码向量进行自注意力计算,得到第一子层向量。
可选地,在得到第一子层向量后,所述方法还包括:
将第一子层向量进行线性门控处理,得到第一子层线性向量;
将第一子层线性向量以及所述编码向量进行多头注意力计算,得到第二子层向量。
可选地,将所述参考待解码向量和所述第二子层向量进行融合,得到融合向量,包括:
将第二子层向量进行预处理,得到第二子层预处理向量,将所述参考待解码向量进行预处理,得到参考解码预处理向量;
将第二子层预处理向量和参考解码预处理向量拼接,然后通过激活函数进行计算,得到激活向量;
根据所述激活向量、所述第二子层向量和所述参考待解码向量进行计算,得到所述融合向量。
可选地,所述数据处理方法还包括:
将最后一个解码层作为解码器的最终解码向量;或
根据所有解码层的解码向量进行融合计算,得到解码器的最终解码向量。
本申请实施例还公开了一种数据处理装置,用于解码器,所述解码器包括至少一个解码层;
对于每个解码层,所述装置包括:
第一计算模块,被配置为根据输入的参考待解码向量进行自注意力计算,得到第一子层向量;
第二计算模块,被配置为将第一子层向量以及输入的编码向量进行多头注意力计算,得到第二子层向量;
融合模块,被配置为将所述参考待解码向量和所述第二子层向量进行融合,得到融合向量;
线性变换模块,被配置为将融合向量进行线性变换,得到输出的解码向量。
本申请实施例还公开了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现如上所述数据处理方法的步骤。
本申请实施例还公开了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如上所述数据处理方法的步骤。
本申请实施例还公开了一种芯片,其存储有计算机指令,该指令被芯片执行时实现如上所述数据处理方法的步骤。
本申请提供的数据处理方法及装置,通过根据输入的参考待解码向量进行自注意力计算得到第一子层向量,将第一子层向量以及编码向量进行多头注意力计算得到第二子层向量,将参考待解码向量和第二子层向量进行融合得到融合向量,从而实现高阶子层和低阶子层的向量融合,有效利用高阶子层蕴含的语义信息和低阶子层蕴含的语法信息,从而保证了模型翻译效果的有效提升。
附图说明
图1是现有技术中的翻译模型的结构示意图;
图2是本申请一实施例的计算设备的结构示意图;
图3是本申请一实施例的数据处理方法的流程示意图;
图4是本申请一实施例的数据处理方法的流程示意图;
图5是本申请另一实施例的数据处理方法的流程示意图;
图6是本申请另一实施例的翻译模型的框架结构示意图;
图7是本申请又一实施例的数据处理装置的结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
自注意力(self attention):注意力机制在使用编码器-解码器的网络结构中经常被使用,本质来自于人类视觉注意力机制。人们视觉在感知东西的时候,一般不会是一个场景全部都看,而往往是根据需求观察注意特定的一部分。从一个高的层次看,注意力机制允许解码器从多个上下文向量中选取需要的部分,进而可以表示更多的信息。以解码层为例,对于输入向量仅来自于解码层自身的情形,为自注意力机制。
多头注意力(Masked Multi-head Attention):也被称为编码-解码注意力(Encoder-Decoder Attention),以解码层为例,对于输入向量分别来自于解码层和编码层的情形,为多头注意力机制。
在本申请中,提供了一种数据处理方法及装置、计算设备、计算机可读存储介质和芯片,在下面的实施例中逐一进行详细说明。
图2是示出了根据本说明书一实施例的计算设备200的结构框图。该计算设备200的部件包括但不限于存储器210和处理器220。处理器220与存储器210通过总线230相连接,数据库250用于保存数据。
计算设备200还包括接入设备240,接入设备240使得计算设备200能够经由一个或多个网络260通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备240可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备200的上述部件以及图2中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图2所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备200可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。
其中,处理器220可以执行图3所示方法中的步骤。图3是示出了根据本申请一实施例的数据处理方法的示意性流程图。本实施例的数据处理方法用于解码器,解码器包括至少一个解码层。对于每个解码层,所述方法包括下述步骤301~304:
301、根据输入的参考待解码向量进行自注意力计算,得到第一子层向量。
其中,对于不同的解码层,其输入的参考待解码向量是不同的。对于第一个解码层,输入的参考待解码向量为初始待解码向量或解码器的上一次解码过程中生成的解码向量;对于除去第一个解码层的其他解码层,输入的参考待解码向量为上一个解码层输出的解码向量。
需要说明的是,初始待解码向量为预设的解码向量。
以语句翻译为例,编码器生成的编码向量为该原始语句进行编码后生成的向量,但是对于解码器来说,在接收到编码向量的情况下,需要依次对每个词对应的编码向量进行解码生成对应的解码向量,并最终根据生成的多个解码向量生成原始语句对应的翻译语句。在这个过程中,解码器会将上一次输出的解码向量作为下一次解码过程中的参考待解码向量输入至第一个解码层。
例如对于翻译模型来说,初始语句为“我爱中国”,最终解码向量分别为“I”对应的解码向量1、“love”对应的解码向量2、“china”对应的解码向量3。在生成解码向量1的过程中,需要将初始待解码向量输入第一个解码层;在生成解码向量2的过程中,需要将“I”对应的解码向量作为参考待解码向量输入第一个解码层;在生成解码向量3的过程中,需要将“love”对应的解码向量作为参考待解码向量输入第一个解码层。
对于第一个解码层,步骤301包括:根据输入的初始待解码向量作为参考待解码向量进行自注意力计算,得到第一子层向量。
具体地,自注意力计算可以通过下述公式(1)进行计算:
其中,Q、K、V分别代表将解码向量映射得到的查询(query)向量、键(key)向量—值(value)向量;
dk代表调节因子。
对于除去第一个解码层的其他解码层,步骤301包括:根据输入的上一个解码层的解码向量作为参考待解码向量进行自注意力计算,得到第一子层向量。
可选地,在得到第一子层向量后,所述方法还包括:将第一子层向量进行线性门控处理,得到第一子层线性向量。
302、将第一子层向量以及输入的编码向量进行多头注意力计算,得到第二子层向量。
303、将所述参考待解码向量和所述第二子层向量进行融合,得到融合向量。
可选地,参见图4,步骤303包括下述步骤401~403:
401、将第二子层向量进行预处理,得到第二子层预处理向量,将所述参考待解码向量进行预处理,得到参考解码预处理向量。
具体地,第二子层预处理向量可以通过下述公式(2)计算:
g1=X1*W+b (2)
其中,g1代表第二子层预处理向量;
X1代表第二子层向量;
W、b代表可学习参数。
具体地,参考解码预处理向量可以通过下述公式(3)计算:
g2=X2*V+c (3)
其中,g2代表参考解码预处理向量;
X2代表参考待解码向量;
V、c代表可学习参数。
402、将第二子层预处理向量和参考解码预处理向量拼接,然后通过激活函数进行计算,得到激活向量。
其中,激活函数可以为多种,例如sigmoid函数、tanh函数、softmax函数等,sigmoid函数可以用于二分类任务、tanh函数、softmax函数可以用于多分类任务。本实施例优选使用sigmoid函数进行计算,可以得到第一激活向量和第二激活向量。
如果不用激活函数,每一层输出都是上层输入的线性函数,无论神经网络有多少层,输出都是输入的线性组合。如果使用的话,激活函数给神经元引入了非线性因素,使得神经网络可以任意逼近任何非线性函数,这样神经网络就可以应用到众多的非线性模型中。
具体地,激活向量可以通过下述公式(4)计算:
g3=σ(g1+g2) (4)
其中,g3代表激活向量;
g1代表第二子层预处理向量,g2代表参考解码预处理向量;
σ代表激活函数sigmoid。
403、根据所述激活向量、所述第二子层向量和所述参考待解码向量进行计算,得到所述融合向量。
具体地,融合向量可以通过下述公式(5)计算:
其中,g3代表激活向量;
X1代表第二子层向量,X2代表参考待解码向量;
H(X1,X2)代表融合向量。
304、将融合向量进行线性变换,得到输出的解码向量。
另外,在得到融合向量后,还需要对融合向量进行常规的NDA(norm、dropout、residual,规范化、遗漏、残差计算)处理。
具体地,将融合向量通过前馈网络子层进行前馈网络(feed forward network,FFN)进行linear线性变换,将融合向量映射为线性向量。在得到线性向量后,还需要对线性向量进行常规的NDA(norm、dropout、residual)处理。
其中,
Residual是指通过残差函数对模型输出进行约束,防止过拟合;
Norm是指规范化操作,将模型的输出向量规范至正态分布范围内;
dropout是指在解码过程中随机让某些隐含层节点的权重不加入工作,不工作的那些节点可以暂时认为不是网络结构的一部分,但是它的权重得保留下来(只是暂时不更新而已),因为下次解码过程中可能又需要加入工作。
可选地,在得到解码层的解码向量后,本实施例解码器的最终解码向量的生成方法有多种,例如将最后一个解码层作为解码器的最终解码向量。
对于包括多个解码层的解码器,解码器的最终解码向量可以根据所有解码层的解码向量进行融合处理而生成。融合的方式可以为每个解码层的解码向量配以权重,然后求和生成最终解码向量。
本申请提供的数据处理方法,通过根据输入的参考待解码向量进行自注意力计算得到第一子层向量,将第一子层向量以及编码向量进行多头注意力计算得到第二子层向量,将参考待解码向量和第二子层向量进行融合得到融合向量,从而实现高阶子层和低阶子层的向量融合,有效利用高阶子层蕴含的语义信息和低阶子层蕴含的语法信息,从而保证了模型翻译效果的有效提升。
本申请实施例还公开了一种数据处理方法,参见图5,包括:
501、根据输入的参考待解码向量进行自注意力计算,得到第一子层向量。
502、将第一子层向量进行线性门控处理,得到第一子层线性向量。
具体地,可以通过解码层中的线性门控单元处理,同线性门控处理后生成的第一子层线性向量,不仅有效降低了梯度弥散,而且还保留了非线性的能力。
具体地,可以通过以下公式(6)进行线性门控处理:
其中,h(X)代表第一子层线性向量;
X代表第一子层向量;
W、b、V、c代表可学习参数;
σ代表激活函数sigmoid。
503、将第一子层线性向量以及所述编码向量进行多头注意力计算,得到第二子层向量。
504、将所述参考待解码向量和所述第二子层向量进行融合,得到融合向量。
505、将融合向量进行线性变换,得到输出的解码向量。
具体地,步骤504~505与前述实施例的步骤303~304相同,关于步骤504~505的详细解释,参见前述步骤303~304,在此便不再详述。
参见图6,图6为本申请实施例的翻译模型的架构示意图。
对于编码器,包括编码嵌入层和堆叠的多个编码层。每个编码层包括自注意力层和前馈网络层(feed forward network,FFN)。本实施例中,编码器由6个编码层堆叠而成,最终的编码层输出的编码向量作为编码器最终的编码向量输出至解码器。
对于解码器,包括解码嵌入层和堆叠的多个解码层。每个解码层包括自注意力层、多头注意力层和前馈网络层。在自注意力层和多头注意力层之间还增加有线性门控单元。在多头注意力层和前馈网络层之间还增加有融合层,且融合层还与解码嵌入层连接,用于分别接收参考待解码向量和第二子层向量。
对于解码器的每个解码层,处理步骤如下:
1)通过自注意力层对输入的参考待解码向量进行自注意力计算,得到第一子层向量。
对于第一个解码层,将输入的参考结果通过解码嵌入层处理,得到参考待解码向量。其中,参考结果可以为预先设置的初始解码结果,也可以为解码器前一个最终解码结果。
例如对于翻译模型来说,初始语句为“我爱中国”,最终解码向量分别为“I”对应的解码向量1、“love”对应的解码向量2、“china”对应的解码向量3。在生成解码向量1的过程中,需要将初始解码结果经由解码嵌入层处理得到初始待解码向量后输入第一个解码层;在生成解码向量2的过程中,需要将“I”经由解码嵌入层处理得到参考待解码向量后输入第一个解码层;在生成解码向量3的过程中,需要将“love”经由解码嵌入层处理得到参考待解码向量后输入第一个解码层。
对于除去第一个解码层的其他解码层,输入的参考待解码向量为前一个解码层输出的解码向量。
2)通过线性门控单元将第一子层向量进行线性门控处理,得到第一子层线性向量。
3)通过多头注意力层将第一子层线性向量以及编码向量进行多头注意力计算,得到第二子层向量。
4)通过融合层将参考待解码向量和第二子层向量进行融合,得到融合向量。
5)通过前馈网络层将融合向量进行线性变换,得到输出的解码向量。
在得到最终的解码层输出的解码向量后,将解码向量经由解码器的线性层和归一化层的处理,得到最终的翻译结果。
仍以初始语句为“我爱中国”为例,分别将解码向量1~3经由解码器的线性层和归一化层的处理,得到最终的翻译结果分别为“I”、“love”、“china”。
本实施例提供的数据处理方法,将第一子层向量进行线性门控处理得到第一子层线性向量后,再将第一子层线性向量以及编码向量进行多头注意力计算,得到第二子层向量,从而可以有效降低梯度弥散,并且保留非线性的能力,有助于提高模型的翻译效果。并且将参考待解码向量和第二子层向量进行融合得到融合向量,从而实现高阶子层和低阶子层的向量融合,有效利用高阶子层蕴含的语义信息和低阶子层蕴含的语法信息,从而实现了模型翻译效果的有效提升。
本申请一实施例还提供一种数据处理装置,用于解码器,所述解码器包括至少一个解码层;对于每个解码层,参见图7,所述装置包括:
第一计算模块701,被配置为根据输入的参考待解码向量进行自注意力计算,得到第一子层向量;
第二计算模块702,被配置为将第一子层向量以及输入的编码向量进行多头注意力计算,得到第二子层向量;
融合模块703,被配置为将所述参考待解码向量和所述第二子层向量进行融合,得到融合向量;
线性变换模块704,被配置为将融合向量进行线性变换,得到输出的解码向量。
可选地,对于第一个解码层,第一计算模块701具体被配置为:根据输入的初始待解码向量作为参考待解码向量进行自注意力计算,得到第一子层向量。
可选地,对于除去第一个解码层的其他解码层,第一计算模块701具体被配置为:根据输入的上一个解码层的解码向量作为参考待解码向量进行自注意力计算,得到第一子层向量。
可选地,所述装置包括:
线性处理模块,被配置为将第一子层向量进行线性门控处理,得到第一子层线性向量;
所述第二计算模块702具体被配置为将第一子层线性向量以及所述编码向量进行多头注意力计算,得到第二子层向量。
可选地,所述融合模块703具体被配置为:
将第二子层向量进行预处理,得到第二子层预处理向量,将所述参考待解码向量进行预处理,得到参考解码预处理向量;
将第二子层预处理向量和参考解码预处理向量拼接,然后通过激活函数进行计算,得到激活向量;
根据所述激活向量、所述第二子层向量和所述参考待解码向量进行计算,得到所述融合向量。
可选地,所述装置还包括:解码向量生成模块,被配置为将最后一个解码层作为解码器的最终解码向量,或根据所有解码层的解码向量进行融合计算,得到解码器的最终解码向量。
本申请提供的数据处理装置,通过根据输入的参考待解码向量进行自注意力计算得到第一子层向量,将第一子层向量以及编码向量进行多头注意力计算得到第二子层向量,将参考待解码向量和第二子层向量进行融合得到融合向量,从而实现高阶子层和低阶子层的向量融合,有效利用高阶子层蕴含的语义信息和低阶子层蕴含的语法信息,从而保证了模型翻译效果的有效提升。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述数据处理方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的数据处理方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述数据处理方法的技术方案的描述。
本申请一实施例还提供一种芯片,其存储有计算机指令,该指令被芯片执行时实现如前所述数据处理方法的步骤。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。
Claims (10)
1.一种数据处理方法,其特征在于,用于解码器,所述解码器包括至少一个解码层;
对于每个解码层,所述方法包括:
根据输入的参考待解码向量进行自注意力计算,得到第一子层向量;
将第一子层向量以及输入的编码向量进行多头注意力计算,得到第二子层向量;
将所述参考待解码向量和所述第二子层向量进行融合,得到融合向量;
将融合向量进行线性变换,得到输出的解码向量。
2.如权利要求1所述的数据处理方法,其特征在于,对于第一个解码层,
根据输入的参考待解码向量进行自注意力计算,得到第一子层向量,包括:根据输入的初始待解码向量作为参考待解码向量进行自注意力计算,得到第一子层向量。
3.如权利要求1所述的数据处理方法,其特征在于,对于除去第一个解码层的其他解码层;
根据输入的参考待解码向量进行自注意力计算,得到第一子层向量,包括:根据输入的上一个解码层的解码向量作为参考待解码向量进行自注意力计算,得到第一子层向量。
4.如权利要求1所述的数据处理方法,其特征在于,在得到第一子层向量后,所述方法还包括:
将第一子层向量进行线性门控处理,得到第一子层线性向量;
将第一子层线性向量以及所述编码向量进行多头注意力计算,得到第二子层向量。
5.如权利要求1或4所述的数据处理方法,其特征在于,将所述参考待解码向量和所述第二子层向量进行融合,得到融合向量,包括:
将第二子层向量进行预处理,得到第二子层预处理向量,将所述参考待解码向量进行预处理,得到参考解码预处理向量;
将第二子层预处理向量和参考解码预处理向量拼接,然后通过激活函数进行计算,得到激活向量;
根据所述激活向量、所述第二子层向量和所述参考待解码向量进行计算,得到所述融合向量。
6.如权利要求1所述的数据处理方法,其特征在于,还包括:
将最后一个解码层作为解码器的最终解码向量;或
根据所有解码层的解码向量进行融合计算,得到解码器的最终解码向量。
7.一种数据处理装置,其特征在于,用于解码器,所述解码器包括至少一个解码层;
对于每个解码层,所述装置包括:
第一计算模块,被配置为根据输入的参考待解码向量进行自注意力计算,得到第一子层向量;
第二计算模块,被配置为将第一子层向量以及输入的编码向量进行多头注意力计算,得到第二子层向量;
融合模块,被配置为将所述参考待解码向量和所述第二子层向量进行融合,得到融合向量;
线性变换模块,被配置为将融合向量进行线性变换,得到输出的解码向量。
8.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述指令时实现权利要求1-6任意一项所述方法的步骤。
9.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-6任意一项所述方法的步骤。
10.一种芯片,其存储有计算机指令,其特征在于,该指令被芯片执行时实现权利要求1-6任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910469354.3A CN110175338B (zh) | 2019-05-31 | 2019-05-31 | 一种数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910469354.3A CN110175338B (zh) | 2019-05-31 | 2019-05-31 | 一种数据处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110175338A true CN110175338A (zh) | 2019-08-27 |
CN110175338B CN110175338B (zh) | 2023-09-26 |
Family
ID=67696151
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910469354.3A Active CN110175338B (zh) | 2019-05-31 | 2019-05-31 | 一种数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110175338B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112016245A (zh) * | 2020-08-13 | 2020-12-01 | 五邑大学 | 基于自注意力变形网络的磁暴预测方法、装置及存储介质 |
CN112560398A (zh) * | 2019-09-26 | 2021-03-26 | 百度在线网络技术(北京)有限公司 | 一种文本生成方法及装置 |
US11556723B2 (en) | 2019-10-24 | 2023-01-17 | Beijing Xiaomi Intelligent Technology Co., Ltd. | Neural network model compression method, corpus translation method and device |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130124492A1 (en) * | 2011-11-15 | 2013-05-16 | Microsoft Corporation | Statistical Machine Translation Based Search Query Spelling Correction |
CN103314369A (zh) * | 2010-12-17 | 2013-09-18 | 北京交通大学 | 机器翻译装置和方法 |
CN106407184A (zh) * | 2015-07-30 | 2017-02-15 | 阿里巴巴集团控股有限公司 | 用于统计机器翻译的解码方法、统计机器翻译方法及装置 |
EP3267328A1 (en) * | 2016-07-07 | 2018-01-10 | Samsung Electronics Co., Ltd | Automated interpretation method and apparatus |
US20180300400A1 (en) * | 2017-04-14 | 2018-10-18 | Salesforce.Com, Inc. | Deep Reinforced Model for Abstractive Summarization |
US20180336884A1 (en) * | 2017-05-19 | 2018-11-22 | Baidu Usa Llc | Cold fusing sequence-to-sequence models with language models |
US20180341860A1 (en) * | 2017-05-23 | 2018-11-29 | Google Llc | Attention-based sequence transduction neural networks |
CN108920472A (zh) * | 2018-07-04 | 2018-11-30 | 哈尔滨工业大学 | 一种基于深度学习的机器翻译系统的融合系统及方法 |
CN109145315A (zh) * | 2018-09-05 | 2019-01-04 | 腾讯科技(深圳)有限公司 | 文本翻译方法、装置、存储介质和计算机设备 |
CN109271646A (zh) * | 2018-09-04 | 2019-01-25 | 腾讯科技(深圳)有限公司 | 文本翻译方法、装置、可读存储介质和计算机设备 |
CN109359309A (zh) * | 2018-12-11 | 2019-02-19 | 成都金山互动娱乐科技有限公司 | 一种翻译方法及装置、翻译模型的训练方法及装置 |
CN109543824A (zh) * | 2018-11-30 | 2019-03-29 | 腾讯科技(深圳)有限公司 | 一种序列模型的处理方法和装置 |
CN109643387A (zh) * | 2016-09-01 | 2019-04-16 | 高盛有限责任公司 | 用于使用深度乘法网络来学习和预测时间序列数据的系统和方法 |
WO2019084551A1 (en) * | 2017-10-27 | 2019-05-02 | Google Llc | NEURAL NETWORKS OF SEQUENCE TRANSDUCTION ONLY OF DECODER BASED ON ATTENTION |
CN109710953A (zh) * | 2018-12-29 | 2019-05-03 | 成都金山互动娱乐科技有限公司 | 一种翻译方法及装置、计算设备、存储介质和芯片 |
CN109740168A (zh) * | 2019-01-09 | 2019-05-10 | 北京邮电大学 | 一种基于中医药知识图谱和注意力机制的中医典籍古文翻译方法 |
-
2019
- 2019-05-31 CN CN201910469354.3A patent/CN110175338B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103314369A (zh) * | 2010-12-17 | 2013-09-18 | 北京交通大学 | 机器翻译装置和方法 |
US20130124492A1 (en) * | 2011-11-15 | 2013-05-16 | Microsoft Corporation | Statistical Machine Translation Based Search Query Spelling Correction |
CN106407184A (zh) * | 2015-07-30 | 2017-02-15 | 阿里巴巴集团控股有限公司 | 用于统计机器翻译的解码方法、统计机器翻译方法及装置 |
EP3267328A1 (en) * | 2016-07-07 | 2018-01-10 | Samsung Electronics Co., Ltd | Automated interpretation method and apparatus |
CN109643387A (zh) * | 2016-09-01 | 2019-04-16 | 高盛有限责任公司 | 用于使用深度乘法网络来学习和预测时间序列数据的系统和方法 |
US20180300400A1 (en) * | 2017-04-14 | 2018-10-18 | Salesforce.Com, Inc. | Deep Reinforced Model for Abstractive Summarization |
US20180336884A1 (en) * | 2017-05-19 | 2018-11-22 | Baidu Usa Llc | Cold fusing sequence-to-sequence models with language models |
US20180341860A1 (en) * | 2017-05-23 | 2018-11-29 | Google Llc | Attention-based sequence transduction neural networks |
WO2019084551A1 (en) * | 2017-10-27 | 2019-05-02 | Google Llc | NEURAL NETWORKS OF SEQUENCE TRANSDUCTION ONLY OF DECODER BASED ON ATTENTION |
CN108920472A (zh) * | 2018-07-04 | 2018-11-30 | 哈尔滨工业大学 | 一种基于深度学习的机器翻译系统的融合系统及方法 |
CN109271646A (zh) * | 2018-09-04 | 2019-01-25 | 腾讯科技(深圳)有限公司 | 文本翻译方法、装置、可读存储介质和计算机设备 |
CN109145315A (zh) * | 2018-09-05 | 2019-01-04 | 腾讯科技(深圳)有限公司 | 文本翻译方法、装置、存储介质和计算机设备 |
CN109543824A (zh) * | 2018-11-30 | 2019-03-29 | 腾讯科技(深圳)有限公司 | 一种序列模型的处理方法和装置 |
CN109359309A (zh) * | 2018-12-11 | 2019-02-19 | 成都金山互动娱乐科技有限公司 | 一种翻译方法及装置、翻译模型的训练方法及装置 |
CN109710953A (zh) * | 2018-12-29 | 2019-05-03 | 成都金山互动娱乐科技有限公司 | 一种翻译方法及装置、计算设备、存储介质和芯片 |
CN109740168A (zh) * | 2019-01-09 | 2019-05-10 | 北京邮电大学 | 一种基于中医药知识图谱和注意力机制的中医典籍古文翻译方法 |
Non-Patent Citations (3)
Title |
---|
ORHAN FIRAT: "Multi-Way,Multilingual Neural Machine Translation with a Shared Attention Mechanism", 《HTTPS://ARXIV.ORG/ABS/1601.01073》, pages 1 - 10 * |
汪琪: "基于注意力卷积的神经机器翻译", 计算机科学, vol. 45, no. 11, pages 226 - 230 * |
石崇德: "树转录翻译模型解码优化", 现代图书情报技术, no. 09, pages 23 - 29 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112560398A (zh) * | 2019-09-26 | 2021-03-26 | 百度在线网络技术(北京)有限公司 | 一种文本生成方法及装置 |
US11556723B2 (en) | 2019-10-24 | 2023-01-17 | Beijing Xiaomi Intelligent Technology Co., Ltd. | Neural network model compression method, corpus translation method and device |
CN112016245A (zh) * | 2020-08-13 | 2020-12-01 | 五邑大学 | 基于自注意力变形网络的磁暴预测方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110175338B (zh) | 2023-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110263323B (zh) | 基于栅栏式长短时记忆神经网络的关键词抽取方法及系统 | |
CN109977428A (zh) | 一种答案获取的方法及装置 | |
CN112818646B (zh) | 基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法 | |
CN112633010B (zh) | 基于多头注意力和图卷积网络的方面级情感分析方法及系统 | |
CN107368476A (zh) | 一种翻译的方法、目标信息确定的方法及相关装置 | |
CN110188167A (zh) | 一种融入外部知识的端到端对话方法及系统 | |
CN110472688A (zh) | 图像描述的方法及装置、图像描述模型的训练方法及装置 | |
CN108615073A (zh) | 图像处理方法及装置、计算机可读存储介质、电子设备 | |
CN104598611B (zh) | 对搜索条目进行排序的方法及系统 | |
CN110175338A (zh) | 一种数据处理方法及装置 | |
CN109710953B (zh) | 一种翻译方法及装置、计算设备、存储介质和芯片 | |
CN109858044A (zh) | 语言处理方法和装置、语言处理系统的训练方法和装置 | |
CN116415654A (zh) | 一种数据处理方法及相关设备 | |
CN110598222B (zh) | 语言处理方法及装置、语言处理系统的训练方法及装置 | |
CN112183747A (zh) | 神经网络训练的方法、神经网络的压缩方法以及相关设备 | |
CN110321962A (zh) | 一种数据处理方法及装置 | |
CN109902312A (zh) | 一种翻译方法及装置、翻译模型的训练方法及装置 | |
CN114550223B (zh) | 人物交互检测方法、装置及电子设备 | |
CN108959388A (zh) | 信息生成方法及装置 | |
CN112463989A (zh) | 一种基于知识图谱的信息获取方法及系统 | |
CN115146068A (zh) | 关系三元组的抽取方法、装置、设备及存储介质 | |
CN113449529A (zh) | 一种翻译模型的训练方法及装置、翻译方法及装置 | |
CN110188367A (zh) | 一种数据处理方法及装置 | |
CN109871946A (zh) | 一种神经网络模型的使用方法及装置、训练方法及装置 | |
CN115455985A (zh) | 一种基于机器阅读理解的自然语言系统的处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |