CN110321962B - 一种数据处理方法及装置 - Google Patents

一种数据处理方法及装置 Download PDF

Info

Publication number
CN110321962B
CN110321962B CN201910616008.3A CN201910616008A CN110321962B CN 110321962 B CN110321962 B CN 110321962B CN 201910616008 A CN201910616008 A CN 201910616008A CN 110321962 B CN110321962 B CN 110321962B
Authority
CN
China
Prior art keywords
matrix
layer
picture
decoding
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910616008.3A
Other languages
English (en)
Other versions
CN110321962A (zh
Inventor
史红亮
李长亮
廖敏鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Digital Entertainment Co Ltd
Chengdu Kingsoft Digital Entertainment Co Ltd
Original Assignee
Beijing Kingsoft Digital Entertainment Co Ltd
Chengdu Kingsoft Digital Entertainment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Digital Entertainment Co Ltd, Chengdu Kingsoft Digital Entertainment Co Ltd filed Critical Beijing Kingsoft Digital Entertainment Co Ltd
Priority to CN202111087963.6A priority Critical patent/CN113762408A/zh
Priority to CN201910616008.3A priority patent/CN110321962B/zh
Publication of CN110321962A publication Critical patent/CN110321962A/zh
Application granted granted Critical
Publication of CN110321962B publication Critical patent/CN110321962B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本申请提供一种数据处理方法及装置,其中所述数据处理方法包括:用于解码器,所述解码器包括至少两个解码层;对于每个解码层,所述方法包括:接收参考图片待解码矩阵和图片编码矩阵;将所述参考图片待解码矩阵输入动态卷积层进行动态卷积计算,得到第一子层矩阵;将所述第一子层矩阵以及所述图片编码矩阵输入多头注意力层进行多头注意力计算,得到第二子层矩阵;将第二子层矩阵输入前馈网络层进行前馈计算,得到第三子层矩阵;将第三子层矩阵进行线性变换,得到图片解码矩阵;输出所述图片解码矩阵。

Description

一种数据处理方法及装置
技术领域
本申请涉及计算机技术领域,特别涉及一种数据处理方法及装置、计算设备、计算机可读存储介质和芯片。
背景技术
在实际应用中,很多时候需要对图片进行识别描述,例如需要对图片进行分类时,就需要识别图片中的内容,例如是景物还是动物或者人物等。
在图片较少的时候,可以人工手动地对图片进行识别描述。但是随着网络科技的发展,图片数量急剧增加,当需要对海量图片进行识别描述时,手动处理方式变得过于不切实际。
那么,如何快速准确地对图片进行识别描述就变得尤为重要。
发明内容
有鉴于此,本申请实施例提供了一种数据处理方法及装置、计算设备、计算机可读存储介质和芯片,以解决现有技术中存在的技术缺陷。
根据本申请实施例的第一方面,提供了一种数据处理方法,包括:
用于解码器,所述解码器包括至少两个解码层;
对于每个解码层,所述方法包括:
接收参考图片待解码矩阵和图片编码矩阵;
将所述参考图片待解码矩阵输入动态卷积层进行动态卷积计算,得到第一子层矩阵;
将所述第一子层矩阵以及所述图片编码矩阵输入多头注意力层进行多头注意力计算,得到第二子层矩阵;
将第二子层矩阵输入前馈网络层进行前馈计算,得到第三子层矩阵;
将第三子层矩阵进行线性变换,得到图片解码矩阵;
输出所述图片解码矩阵。
根据本申请实施例的第二方面,提供了一种数据处理装置,包括:
用于解码器,所述解码器包括至少两个解码层;
对于每个解码层,所述装置包括:
第一接收模块,被配置为接收参考图片待解码矩阵和图片编码矩阵;
动态卷积模块,被配置为将所述参考图片待解码矩阵输入动态卷积层进行动态卷积计算,得到第一子层矩阵;
多头注意力模块,被配置为将所述第一子层矩阵以及所述图片编码矩阵输入多头注意力层进行多头注意力计算,得到第二子层矩阵;
前馈模块,被配置为将第二子层矩阵输入前馈网络层进行前馈计算,得到第三子层矩阵;
线性模块,被配置为将第三子层矩阵进行线性变换,得到图片解码矩阵;
输出模块,被配置为输出所述图片解码矩阵。
根据本申请实施例的第三方面,提供了一种计算设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现如上所述数据处理方法的步骤。
根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如上所述数据处理方法的步骤。
根据本申请实施例的第五方面,提供了一种芯片,其存储有计算机指令,该指令被芯片执行时实现如上所述数据处理方法的步骤。
本申请提供的数据处理方法及装置,接收参考图片待解码矩阵和图片编码矩阵;将所述参考图片待解码矩阵输入动态卷积层进行动态卷积计算,得到第一子层矩阵;将所述第一子层矩阵以及所述图片编码矩阵输入多头注意力层进行多头注意力计算,得到第二子层矩阵;将第二子层矩阵输入前馈网络层进行前馈计算,得到第三子层矩阵;将第三子层矩阵进行线性变换,得到图片解码矩阵;输出所述图片解码矩阵,Transformer每一个解码层中的动态卷积层通过参数共享的方式,减少参数量,减少计算量,动态卷积层可以更好的关注图片的局部特征信息,在准确高效的进行文字处理的同时还可以有效的结合图片的局部特征信息,提高图片识别的准确度,使得Transformer模型在图片识别描述任务中更快地生成更准确的图片描述。
附图说明
图1是本申请一实施例的计算设备的结构示意图;
图2是本申请一实施例的数据处理方法的流程示意图;
图3a是本申请一实施例的动态卷积层的结构示意图;
图3b是本申请一实施例的数据处理方法的流程示意图;
图4a~图4b是本申请一实施例的翻译模型的架构图;
图5是本申请一实施例的数据处理装置的框架示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
Transformer:谷歌提出一种翻译模型,用自注意力模型的结构代替了长短期记忆模型,在翻译任务上取得了更好的成绩。
自注意力(self attention):注意力机制在使用编码器-解码器的网络结构中经常被使用,本质来自人类视觉注意力机制。人们视觉在感知东西的时候,一般不会是一个场景全部都看,而往往是根据需求观察注意特定的一部分。注意力机制允许解码器从多个上下文向量中选取需要的部分,进而表示更多的信息。以解码层为例,对于输入向量仅来自于解码层自身的情形,为自注意力机制。
多头注意力(Masked Multi-head Attention):也被称为编码-解码注意力(Encoder-Decoder Attention),以解码层为例,对于输入向量分别来自于解码层和编码层的情形,为多头注意力机制。
在本申请中,提供了一种数据处理方法及装置、计算设备、计算机可读存储介质和芯片,在下面的实施例中逐一进行详细说明。
图1示出了根据本申请一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存数据。
计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本申请的一个实施例中,计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。
其中,处理器120可以执行图2所示方法中的步骤。图2示出了根据本申请一实施例的数据处理方法的示意性流程图。本实施例的数据处理方法用于解码器,所述解码器包括至少两个解码层。对于每个解码层,所述方法包括下述步骤202至步骤212:
步骤202:接收参考图片待解码矩阵和图片编码矩阵。
其中,对于不同的解码层接收的参考图片待解码矩阵是不同的,对于第一个解码层,接收的参考图片待解码矩阵为接收初始图片待解码矩阵;对于除去第一个解码层的其他解码层,接收的参考图片待解码矩阵为上一个解码层的图片解码矩阵。
需要说明的是,初始图片待解码矩阵为预设的图片解码矩阵。
在所述解码器的第一个解码层前,还包括:
接收待识别图片;
将所述待识别图片经过预先训练的神经网络处理,得到图片特征矩阵;
将所述图片特征矩阵进行位置编码,得到初始图片待编码矩阵;
编码器接收所述初始图片待编码矩阵,并对所述初始图片待编码矩阵进行编码,获得图片编码矩阵。
以对一张图片的识别描述为例,接收一张待识别图片,待识别图片的描述信息为“一个潜水员在海底观察海龟”,将所述待识别图片输入到预先训练的卷积申请网络模型,获取到图片的特征矩阵;为每一个图片特征矩阵配置一个相应位置的编码,得到初始图片待编码矩阵;编码器接收初始图片待编码矩阵,并对所述初始图片待编码矩阵进行编码,获得图片编码矩阵,解码器接收所述图片编码矩阵。
步骤204:将所述参考图片待解码矩阵输入动态卷积层进行动态卷积计算,得到第一子层矩阵。
动态卷积层通过对权值采取参数共享机制对所述第一子层矩阵进行卷积运算,从而实现动态卷积层降低输入参数大小的目的。
所述参考图片待解码矩阵的动态卷积计算过程参见下述公式(1);
Figure 391339DEST_PATH_IMAGE001
(1)
其中,x代表所述参考图片待解码矩阵,Linear表示一个线性映射,Conv表示卷积操作。
DynamicConv代表所述参考图片待解码矩阵经过动态卷积计算后得到的第一子层矩阵。
图3a为动态卷积层的结构示意图,包括门控线性单元、动态卷积单元和轻量级卷积单元。将所述参考图片待解码矩阵输入动态卷积层进行动态卷积计算,得到第一子层矩阵,参见图3b,步骤204可以通过下述步骤302至步骤306实现:
步骤302:所述门控线性单元接收所述参考图片待解码矩阵,根据所述参考图片待解码矩阵获取门控线性矩阵。
所述门控线性单元接收所述参考图片待解码矩阵,经过处理得到门控线性矩阵,所述门控线性矩阵不仅有效降低了梯度弥散,而且还保留了非线性的能力。
步骤304:所述动态卷积单元接收所述门控线性矩阵,根据所述门控线性矩阵获取卷积权值。
所述动态卷积单元接收所述门控线性矩阵,所述门控线性矩阵经过动态卷积计算,动态生成特定的过滤参数;
根据所述线性解码矩阵和所述过滤参数做点积,其输出作为卷积权值。
步骤306:所述轻量级卷积单元接收所述门控线性矩阵和所述卷积权值,经过轻量级卷积运算获取第一子层矩阵。
将所述门控线性矩阵和所述矩阵权值输入轻量级卷积单元进行轻量级卷积计算,用所述矩阵权值对所述门控线性矩阵进行轻量卷积运算,得到第一子层矩阵。
在本申请的实施例中,对图片的特征矩阵进行轻量级卷积运算,权值大小为3×3,其输入通道为16、输出通道为16。
标准卷积运算的参数量为16×16×3×3=2304个参数。
轻量级卷积运算通过将通道分离为多个子通道并在子通道上实现参数共享的方法,实现空间卷积,将输入通道分为4个输入子通道、输出通道分为8个输出子通道,子通道中的参数共享,将4个3×3大小的权值遍历4个输入子通道,得到4个特征图谱,用8个1×1遍历这4个特征图谱进行融合,此过程中使用了4×3×3+8×1×1=44个参数,与标准卷积运算相比,极大的降低了参数数量。
步骤206:将所述第一子层矩阵以及所述图片编码矩阵输入多头注意力层进行多头注意力计算,得到第二子层矩阵。
通过多头注意力层将第一子层矩阵以及图片编码矩阵进行多次自注意力计算,得到第二子层矩阵。
步骤208:将第二子层矩阵输入前馈网络层进行前馈计算,得到第三子层矩阵。
前馈网络层可以并行执行输入的矩阵的前馈计算,不会根据输出结果对输入结果的影响来进一步调整输出结果。
步骤210:将第三子层矩阵进行线性变换,得到图片解码矩阵。
将得到的第三子层矩阵进行线性变换,在得到线性矩阵后,得到输出的图片解码矩阵。
在得到线性矩阵后,还需要对线性矩阵进行常规的Residual、Norm、dropout处理。
Residual是指通过残差函数对模型输出进行约束,防止过拟合;
Norm是指规范化操作,将模型的输出矩阵规范至正态分布范围内;
dropout是指在解码过程中随机让某些隐含层节点的权重不加入工作,不工作的那些节点可以暂时认为不是网络结构的一部分,但是它的权重得保留下来,因为下次解码过程中可能又需要加入工作。
步骤212:输出所述图片解码矩阵。
可选的,将所述解码器中的最后一个解码层输出的图片解码矩阵作为所述解码器的最终图片解码矩阵;或根据所有解码层输出的图片解码矩阵进行融合计算,得到所述解码器的最终图片解码矩阵。
对于包括多个解码层的解码器,解码器的最终图片解码矩阵可以根据所有解码层的图片解码矩阵进行融合处理而生成,融合的方式可以是为每个解码层的图片解码矩阵配以权重,然后求和生成最终的图片解码矩阵。
在输出所述图片解码矩阵后,还包括:将所述图片解码矩阵经过归一化处理,输出所述图片解码矩阵的描述信息。
具体的,将最终的图片解码矩阵经过线性归一化处理,输出所述图片解码矩阵的描述信息为“一个潜水员在海底观察海龟”,从而获得待识别图片的描述信息。
本申请提供的数据处理方法,用于解码器,所述解码器包括至少两个解码层;接收参考图片待解码矩阵和图片编码矩阵;将所述参考图片待解码矩阵输入动态卷积层进行动态卷积计算,得到第一子层矩阵;将所述第一子层矩阵以及所述图片编码矩阵输入多头注意力层进行多头注意力计算,得到第二子层矩阵;将第二子层矩阵输入前馈网络层进行前馈计算,得到第三子层矩阵;将第三子层矩阵进行线性变换,得到图片解码矩阵;输出所述图片解码矩阵。对于每个解码层,参考图片待解码矩阵经过动态卷积层中的门控线性单元得到门控线性矩阵,动态卷积单元根据门控线性矩阵动态生成轻量级卷积运算中的权值,轻量级卷积单元在多个子通道上实现参数共享,减少参数量,减少计算量,降低了算法复杂程度,更好的关注图片的局部特征信息,使模型能兼顾图片处理和文字处理,可以加快识别图片速度的同时更准确的输出图片的描述信息。
为了便于理解,图4a~图4b示出了基于Transformer模型应用本申请实施例提供的数据处理方法的翻译模型的架构图,在本申请的实施例中,在对图片进行识别描述时,将待识别图片经过预先训练的神经网络处理,得到对应的图片特征矩阵,将所述图片特征矩阵输入到Transformer模型的编码器中进行编码处理,将处理获得的图片编码矩阵输入到Transformer模型的解码器中,如图4a的Transformer模型所示,解码器包括六个解码层。
对于每个解码层,参见图4b,包括动态卷积层、多头注意力层和前馈网络层,采用动态卷积、多头注意力和前馈网络分别计算,得到图片解码矩阵。
对于第一解码层:接收初始图片待解码矩阵和图片编码矩阵;将所述初始图片待解码矩阵输入动态卷积层进行动态卷积计算,得到第一子层矩阵;将所述第一子层矩阵和图片编码矩阵输入多头注意力层进行多头注意力计算,得到第二子层矩阵;将第二子层矩阵输入前馈网络层进行前馈计算,得到第三子层矩阵;将第三子层矩阵进行线性变换,得到图片解码矩阵;输出所述图片解码矩阵。
对于第二解码层:接收第一解码层的图片解码矩阵和图片编码矩阵,将第一解码层的图片解码矩阵输入动态卷积层进行动态卷积计算,得到第一子层矩阵;将所述第一子层矩阵和图片编码矩阵输入多头注意力层进行多头注意力计算,得到第二子层矩阵;将第二子层矩阵输入前馈网络层进行前馈计算,得到第三子层矩阵;将第三子层矩阵进行线性变换,得到图片解码矩阵;输出所述图片解码矩阵。
对于第三解码层:接收第二解码层的图片解码矩阵和图片编码矩阵,将第二解码层的图片解码矩阵输入动态卷积层进行动态卷积计算,得到第一子层矩阵;将所述第一子层矩阵和图片编码矩阵输入多头注意力层进行多头注意力计算,得到第二子层矩阵;将第二子层矩阵输入前馈网络层进行前馈计算,得到第三子层矩阵;将第三子层矩阵进行线性变换,得到图片解码矩阵;输出所述图片解码矩阵。
对于第四解码层:接收第三解码层的图片解码矩阵和图片编码矩阵,将第三解码层的图片解码矩阵输入动态卷积层进行动态卷积计算,得到第一子层矩阵;将所述第一子层矩阵和图片编码矩阵输入多头注意力层进行多头注意力计算,得到第二子层矩阵;将第二子层矩阵输入前馈网络层进行前馈计算,得到第三子层矩阵;将第三子层矩阵进行线性变换,得到图片解码矩阵;输出所述图片解码矩阵。
对于第五解码层:接收第四解码层的图片解码矩阵和图片编码矩阵,将第四解码层的图片解码矩阵输入动态卷积层进行动态卷积计算,得到第一子层矩阵;将所述第一子层矩阵和图片编码矩阵输入多头注意力层进行多头注意力计算,得到第二子层矩阵;将第二子层矩阵输入前馈网络层进行前馈计算,得到第三子层矩阵;将第三子层矩阵进行线性变换,得到图片解码矩阵;输出所述图片解码矩阵。
对于第六解码层:接收第五解码层的图片解码矩阵和图片编码矩阵,将第五解码层的图片解码矩阵输入动态卷积层进行动态卷积计算,得到第一子层矩阵;将所述第一子层矩阵和图片编码矩阵输入多头注意力层进行多头注意力计算,得到第二子层矩阵;将第二子层矩阵输入前馈网络层进行前馈计算,得到第三子层矩阵;将第三子层矩阵进行线性变换,得到图片解码矩阵;输出所述图片解码矩阵。
将解码器中的第六解码层输出的图片解码矩阵作为所述解码器的最终图片解码矩阵,将最终图片解码矩阵经过线性归一处理后得到最终图片解码矩阵的描述信息,从而得到待识别图片的描述信息。
本申请提供的Transformer模型能准确高效的进行文字处理,通过解码器内每一个解码层中的动态卷积计算,加快模型的运算速度,降低参数的大小,卷积运算更加关注邻域信息,使模型更加准确的把握图片的局部特征信息,提高图片识别的准确度,Transformer模型在进行文字处理时的特点是有跳跃性和邻域信息,两者的融合使得可以准确高效的进行文字处理的同时还可以有效的融合图片的全局特征信息和局部特征信息,使得Transformer模型在图片识别描述任务中更快地生成更准确的图片描述。
本申请一实施例还提供一种数据处理装置,参见图5,包括:
第一接收模块502,被配置为接收参考图片待解码矩阵和图片编码矩阵。
动态卷积模块504,被配置为将所述参考图片待解码矩阵输入动态卷积层进行动态卷积计算,得到第一子层矩阵。
对于所述解码器中的第一个解码层,所述动态卷积模块504,被配置为将初始图片待解码矩阵作为参考图片待解码矩阵输入动态卷积层进行动态卷积计算,得到第一子层矩阵。
对于所述解码器中除去第一个解码层的其他解码层;所述动态卷积模块504,被配置为将上一个解码层的图片解码矩阵作为参考图片待解码矩阵输入动态卷积层进行动态卷积计算,得到第一子层矩阵。
所述动态卷积模块504,进一步被配置为所述动态卷积层包括门控线性单元、动态卷积单元和轻量级卷积单元;所述门控线性单元接收所述参考图片待解码矩阵,根据所述参考图片待解码矩阵获取门控线性矩阵;所述动态卷积单元接收所述门控线性矩阵,根据所述门控线性矩阵获取卷积权值;所述轻量级卷积单元接收所述门控线性矩阵和所述卷积权值,经过轻量级卷积运算获取第一子层矩阵。
多头注意力模块506,被配置为将所述第一子层矩阵以及所述图片编码矩阵输入多头注意力层进行多头注意力计算,得到第二子层矩阵。
前馈模块508,被配置为将第二子层矩阵输入前馈网络层进行前馈计算,得到第三子层矩阵。
线性模块510,被配置为将第三子层矩阵进行线性变换,得到图片解码矩阵。
输出模块512,被配置为输出所述图片解码矩阵。
所述输出模块512,进一步被配置为将所述解码器中的最后一个解码层输出的图片解码矩阵作为所述解码器的最终图片解码矩阵;或根据所有解码层输出的图片解码矩阵进行融合计算,得到所述解码器的最终图片解码矩阵。
归一化模块514,被配置为将所述图片解码矩阵经过归一化处理,输出所述图片解码矩阵的描述信息。
第二接收模块516,被配置为接收待识别图片。
图片处理模块518,被配置为将所述待识别图片经过预先训练的神经网络处理,得到图片特征矩阵。
位置编码模块520,被配置为将所述图片特征矩阵进行位置编码,得到初始图片待编码矩阵。
编码模块522,被配置为接收所述初始图片待编码矩阵,并对所述初始图片待编码矩阵进行编码,获得图片编码矩阵。
本申请提供的数据处理装置,对于每个解码层,通过每一个解码层中的动态卷积层对权值采取参数共享机制,可以降低参数大小,模型在加速识别图片的同时可以生成更准确的图片描述。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述数据处理方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的数据处理方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述数据处理方法的技术方案的描述。
本申请一实施例还提供一种芯片,其存储有计算机指令,该指令被芯片执行时实现如前所述数据处理方法的步骤。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims (17)

1.一种数据处理方法,其特征在于,用于解码器,所述解码器包括至少两个解码层;
对于每个解码层,所述方法包括:
接收参考图片待解码矩阵和图片编码矩阵;
将所述参考图片待解码矩阵输入动态卷积层进行动态卷积计算,得到第一子层矩阵,其中,所述动态卷积层包括门控线性单元、动态卷积单元和轻量级卷积单元;
将所述第一子层矩阵以及所述图片编码矩阵输入多头注意力层进行多头注意力计算,得到第二子层矩阵;
将第二子层矩阵输入前馈网络层进行前馈计算,得到第三子层矩阵;
将第三子层矩阵进行线性变换,得到图片解码矩阵;
输出所述图片解码矩阵。
2.如权利要求1所述的数据处理方法,其特征在于,对于所述解码器中的第一个解码层,
将所述参考图片待解码矩阵输入动态卷积层进行动态卷积计算,得到第一子层矩阵,包括:
将初始图片待解码矩阵作为参考图片待解码矩阵输入动态卷积层进行动态卷积计算,得到第一子层矩阵。
3.如权利要求1所述的数据处理方法,其特征在于,对于所述解码器中除去第一个解码层的其他解码层;
将所述参考图片待解码矩阵输入动态卷积层进行动态卷积计算,得到第一子层矩阵,包括:
将上一个解码层的图片解码矩阵作为参考图片待解码矩阵输入动态卷积层进行动态卷积计算,得到第一子层矩阵。
4.如权利要求1所述的数据处理方法,其特征在于,
将所述参考图片待解码矩阵输入动态卷积层进行动态卷积计算,得到第一子层矩阵包括:
所述门控线性单元接收所述参考图片待解码矩阵,根据所述参考图片待解码矩阵获取门控线性矩阵;
所述动态卷积单元接收所述门控线性矩阵,根据所述门控线性矩阵获取卷积权值;
所述轻量级卷积单元接收所述门控线性矩阵和所述卷积权值,经过轻量级卷积运算获取第一子层矩阵。
5.如权利要求1所述的数据处理方法,其特征在于,
输出所述图片解码矩阵包括:
将所述解码器中的最后一个解码层输出的图片解码矩阵作为所述解码器的最终图片解码矩阵;或
根据所有解码层输出的图片解码矩阵进行融合计算,得到所述解码器的最终图片解码矩阵。
6.如权利要求1所述的数据处理方法,其特征在于,在输出所述图片解码矩阵后,还包括:
将所述图片解码矩阵经过归一化处理,输出所述图片解码矩阵的描述信息。
7.如权利要求2所述的数据处理方法,其特征在于,在所述解码器的第一个解码层前,还包括:
接收待识别图片;
将所述待识别图片经过预先训练的神经网络处理,得到图片特征矩阵;
将所述图片特征矩阵进行位置编码,得到初始图片待编码矩阵;
编码器接收所述初始图片待编码矩阵,并对所述初始图片待编码矩阵进行编码,获得图片编码矩阵。
8.一种数据处理装置,其特征在于,用于解码器,所述解码器包括至少两个解码层;
对于每个解码层,所述装置包括:
第一接收模块,被配置为接收参考图片待解码矩阵和图片编码矩阵;
动态卷积模块,被配置为将所述参考图片待解码矩阵输入动态卷积层进行动态卷积计算,得到第一子层矩阵,其中,所述动态卷积层包括门控线性单元、动态卷积单元和轻量级卷积单元;
多头注意力模块,被配置为将所述第一子层矩阵以及所述图片编码矩阵输入多头注意力层进行多头注意力计算,得到第二子层矩阵;
前馈模块,被配置为将第二子层矩阵输入前馈网络层进行前馈计算,得到第三子层矩阵;
线性模块,被配置为将第三子层矩阵进行线性变换,得到图片解码矩阵;
输出模块,被配置为输出所述图片解码矩阵。
9.如权利要求8所述的数据处理装置,其特征在于,
所述动态卷积模块,被配置为对于所述解码器中的第一个解码层,将初始图片待解码矩阵作为参考图片待解码矩阵输入动态卷积层进行动态卷积计算,得到第一子层矩阵。
10.如权利要求8所述的数据处理装置,其特征在于,
所述动态卷积模块,被配置为在对于所述解码器中除去第一个解码层的其他解码层中将上一个解码层的图片解码矩阵作为参考图片待解码矩阵输入动态卷积层进行动态卷积计算,得到第一子层矩阵。
11.如权利要求8所述的数据处理装置,其特征在于,
所述动态卷积模块,进一步被配置为所述门控线性单元接收所述参考图片待解码矩阵,根据所述参考图片待解码矩阵获取门控线性矩阵;所述动态卷积单元接收所述门控线性矩阵,根据所述门控线性矩阵获取卷积权值;所述轻量级卷积单元接收所述门控线性矩阵和所述卷积权值,经过轻量级卷积运算获取第一子层矩阵。
12.如权利要求8所述的数据处理装置,其特征在于,
所述输出模块,进一步被配置为将所述解码器中的最后一个解码层输出的图片解码矩阵作为所述解码器的最终图片解码矩阵;或根据所有解码层输出的图片解码矩阵进行融合计算,得到所述解码器的最终图片解码矩阵。
13.如权利要求8所述的数据处理装置,其特征在于,还包括:
归一化模块,被配置为将所述图片解码矩阵经过归一化处理,输出所述图片解码矩阵的描述信息。
14.如权利要求9所述的数据处理装置,其特征在于,还包括:
第二接收模块,被配置为接收待识别图片;
图片处理模块,被配置为将所述待识别图片经过预先训练的神经网络处理,得到图片特征矩阵;
位置编码模块,被配置为将所述图片特征矩阵进行位置编码,得到初始图片待编码矩阵;
编码模块,被配置为接收所述初始图片待编码矩阵,并对所述初始图片待编码矩阵进行编码,获得图片编码矩阵。
15.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述指令时实现权利要求1-7任意一项所述方法的步骤。
16.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-7任意一项所述方法的步骤。
17.一种芯片,其存储有计算机指令,其特征在于,该指令被芯片执行时实现权利要求1-7任意一项所述方法的步骤。
CN201910616008.3A 2019-07-09 2019-07-09 一种数据处理方法及装置 Active CN110321962B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111087963.6A CN113762408A (zh) 2019-07-09 2019-07-09 一种翻译模型、一种数据处理方法
CN201910616008.3A CN110321962B (zh) 2019-07-09 2019-07-09 一种数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910616008.3A CN110321962B (zh) 2019-07-09 2019-07-09 一种数据处理方法及装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202111087963.6A Division CN113762408A (zh) 2019-07-09 2019-07-09 一种翻译模型、一种数据处理方法

Publications (2)

Publication Number Publication Date
CN110321962A CN110321962A (zh) 2019-10-11
CN110321962B true CN110321962B (zh) 2021-10-08

Family

ID=68121609

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201910616008.3A Active CN110321962B (zh) 2019-07-09 2019-07-09 一种数据处理方法及装置
CN202111087963.6A Pending CN113762408A (zh) 2019-07-09 2019-07-09 一种翻译模型、一种数据处理方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202111087963.6A Pending CN113762408A (zh) 2019-07-09 2019-07-09 一种翻译模型、一种数据处理方法

Country Status (1)

Country Link
CN (2) CN110321962B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488887B (zh) * 2020-04-09 2023-04-18 腾讯科技(深圳)有限公司 基于人工智能的图像处理方法、装置
CN112991090B (zh) * 2021-02-05 2023-10-20 江南大学 基于Transformer模型的光伏功率预测方法
CN113868413B (zh) * 2021-12-03 2022-03-18 北京大学 法律咨询报告生成方法及装置
CN116186574B (zh) * 2022-09-09 2023-12-12 武汉中数医疗科技有限公司 一种基于人工智能的甲状腺采样数据识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160034248A1 (en) * 2014-07-29 2016-02-04 The University Of North Carolina At Chapel Hill Methods, systems, and computer readable media for conducting interactive sound propagation and rendering for a plurality of sound sources in a virtual environment scene
CN107481295A (zh) * 2017-08-14 2017-12-15 哈尔滨工业大学 基于动态字节长度分配的卷积神经网络的图像压缩系统
CN108460809A (zh) * 2017-02-22 2018-08-28 西门子保健有限责任公司 用于前列腺癌检测和分类的深度卷积编码器-解码器
CN108875807A (zh) * 2018-05-31 2018-11-23 陕西师范大学 一种基于多注意力多尺度的图像描述方法
CN109492232A (zh) * 2018-10-22 2019-03-19 内蒙古工业大学 一种基于Transformer的增强语义特征信息的蒙汉机器翻译方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109634578B (zh) * 2018-10-19 2021-04-02 北京大学 一种基于文本说明的程序生成方法
CN109359309B (zh) * 2018-12-11 2023-02-03 成都金山互动娱乐科技有限公司 一种翻译方法及装置、翻译模型的训练方法及装置
CN109933808B (zh) * 2019-01-31 2022-11-22 沈阳雅译网络技术有限公司 一种基于动态配置解码的神经机器翻译方法
CN109902312B (zh) * 2019-03-01 2023-07-11 北京金山数字娱乐科技有限公司 一种翻译方法及装置、翻译模型的训练方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160034248A1 (en) * 2014-07-29 2016-02-04 The University Of North Carolina At Chapel Hill Methods, systems, and computer readable media for conducting interactive sound propagation and rendering for a plurality of sound sources in a virtual environment scene
CN108460809A (zh) * 2017-02-22 2018-08-28 西门子保健有限责任公司 用于前列腺癌检测和分类的深度卷积编码器-解码器
CN107481295A (zh) * 2017-08-14 2017-12-15 哈尔滨工业大学 基于动态字节长度分配的卷积神经网络的图像压缩系统
CN108875807A (zh) * 2018-05-31 2018-11-23 陕西师范大学 一种基于多注意力多尺度的图像描述方法
CN109492232A (zh) * 2018-10-22 2019-03-19 内蒙古工业大学 一种基于Transformer的增强语义特征信息的蒙汉机器翻译方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Dynamic Convolutional Layer for Short RangeWeather Prediction;Benjamin Klein et al;《2015 IEEE Conference on Computer Vision and Pattern Recognition》;20151015;4840-4848 *
Attention Is All You Need;Ashish Vaswani et al;《arXiv:1706.03762v5》;20171206;1-15 *

Also Published As

Publication number Publication date
CN113762408A (zh) 2021-12-07
CN110321962A (zh) 2019-10-11

Similar Documents

Publication Publication Date Title
CN110321962B (zh) 一种数据处理方法及装置
WO2020014590A1 (en) Generating a compressed representation of a neural network with proficient inference speed and power consumption
KR102578967B1 (ko) 단대단 신경망 기반 비디오 코딩
TW202247650A (zh) 使用機器學習系統進行隱式圖像和視訊壓縮
KR102299958B1 (ko) 다수의 상이한 비트레이트로 영상 압축을 하기 위한 시스템들 및 방법들
CN112529150A (zh) 一种模型结构、模型训练方法、图像增强方法及设备
CN109710953B (zh) 一种翻译方法及装置、计算设备、存储介质和芯片
KR20220137076A (ko) 이미지 프로세싱 방법 및 관련된 디바이스
CN116030792B (zh) 用于转换语音音色的方法、装置、电子设备和可读介质
CN113205449A (zh) 表情迁移模型的训练方法及装置、表情迁移方法及装置
WO2022028197A1 (zh) 一种图像处理方法及其设备
CN116309135A (zh) 扩散模型处理方法及装置、图片处理方法及装置
CN116208807A (zh) 视频帧处理方法及装置、视频帧去噪方法及装置
CN115641485A (zh) 生成模型训练方法以及装置
CN110175338B (zh) 一种数据处理方法及装置
CN114077844A (zh) 一种数据处理方法及装置
CN115546236B (zh) 基于小波变换的图像分割方法及装置
TWI826160B (zh) 圖像編解碼方法和裝置
CN116433491A (zh) 一种图像处理方法、装置、设备、存储介质及产品
WO2022022176A1 (zh) 一种图像处理方法以及相关设备
CN112233015A (zh) 一种图片风格转换方法及装置
CN110188367B (zh) 一种数据处理方法及装置
CN111079013B (zh) 一种基于推荐模型的信息推荐方法及装置
WO2023066473A1 (en) Attention based context modelling for image and video compression
CN111767744A (zh) 文本风格迁移系统的训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant