CN113065645A

CN113065645A - 孪生注意力网络、图像处理方法和装置

Info

Publication number: CN113065645A
Application number: CN202110488151.6A
Authority: CN
Inventors: 刘林; 袁善欣; 刘健庄; 郭鑫; 颜友亮; 田奇
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2021-07-02
Anticipated expiration: 2041-04-30
Also published as: CN113065645B

Abstract

本申请涉及人工智能领域中计算机视觉领域的图像处理技术，公开一种孪生注意力网络、图像处理方法和装置。该网络包括N个并行的多Header注意力网络；每个多Header注意力网络包括变换器Transformer和M个并行的Header，Transformer和M个并行的Header连接；每个多Header注意力网络中M个并行的Header用于分别对目标待处理图像和M‑1张参考待处理图像进行特征提取；每个多Header注意力网络中的Transformer用于根据特征提取得到的M‑1个参考特征矩阵对目标特征矩阵进行处理，得到第一特征矩阵。本申请中孪生注意力网络泛化能力强，可有效提升图像处理任务的效果。

Description

孪生注意力网络、图像处理方法和装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种孪生注意力网络、图像处理方法和装置。

背景技术

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人，自然语言处理，计算机视觉，决策与推理，人机交互，推荐与搜索，AI基础理论等。

图像复原作为一个长久以来备受关注的领域，它的目的是利用已经降质后的图片，得到未降质前的图片。图像复原除了可以获得高质量图片以外，还可以帮助降质后的图片在下游任务中提升性能，如图片分类、目标检测、动作识别和语义分割等下游任务。

图像复原的方法主要分为两种，一种是基于单张图片进行复原，另一种是基于连续多张图片进行复原。而单张图片的图像复原是一个不适定问题，在解决比较困难和复杂的降质时，效果不理想。而多张图片的图像复原需要大量连续的干净和降质后的图像对进行学习，获取相应的监督数据集十分困难。

现阶段用于进行图像复原或其它图像处理任务的网络模型泛化能力较差，且在应用到不同的图像处理任务中处理效果较差。

发明内容

本申请实施例提供了一种孪生注意力网络、图像处理方法和装置，该孪生注意力网络泛化能力强，并且可以有效提升图像处理任务的效果。

第一方面，本申请提供了一种孪生注意力网络，所述孪生注意力网络包括N个并行的多Header注意力网络，所述N为大于或等于2的整数；其中，每个所述多Header注意力网络包括变换器Transformer和M个并行的Header，所述Transformer和所述M个并行的Header连接；其中，所述M为大于或等于2的整数；所述每个多Header注意力网络中M个并行的Header用于分别对目标待处理图像和M-1张参考待处理图像进行特征提取，得到目标特征矩阵和M-1个参考特征矩阵；其中，所述目标特征矩阵与所述目标待处理图像对应，所述M-1个参考特征矩阵分别与所述M-1张参考待处理图像一一对应；所述每个多Header注意力网络中的Transformer用于根据所述M-1个参考特征矩阵对所述目标特征矩阵进行处理，得到第一特征矩阵。

应当理解，上述M和N的大小关系不限定，即M可以大于N、小于N或等于N。在图像恢复任务中，当M大于或等于N时，可以取得较好的图像恢复效果。本领域技术人员可以根据不同图像处理任务来调整M和N的取值来达到最好的图像处理效果，本申请对此不限定。上述每个Header(头端)可以是一个包含多个卷积层的卷积神经网络或其他可行的网络结构，本申请对此不限定。

可以看出，由于本申请实施例孪生注意力网络中的每个多Header注意力网络可以包含多个Header，因而可以提取多张图片的信息，即该多个Header可以分别用于对目标待处理图像和M-1张参考待处理图像进行特征提取，可以提取到多张参考待处理图像不同参考信息；进一步地，本申请中的孪生注意力网络还通过引入Transformer来利用M-1张参考待处理图像中的相关信息对目标待处理图像进行处理，从而得到更加准确地用于表征目标待处理图像特征的第一特征矩阵，即本申请网络可以有效利用参考待处理图像的信息进行图像处理，进而提升本申请实施例中网络在不同图像处理任务中的处理效果。

在一种可行的实施方式中，上述M-1张参考待处理图像和目标待处理图像位于同一视频中。每个多Header注意力网络中M个并行的Header用于获取M-1张参考待处理图像的相关信息；Transformer基于其在时域和空域上的注意力机制，利用M-1张参考待处理图像中的相关信息对目标待处理图像进行处理。

应当理解，在时域上，Transformer可以同时关联不同时间维度上两帧的相关信息；在空域上，Transformer可以同时关联同一帧中任意距离两个像素点的参考信息。上述M-1张参考待处理图像和目标待处理图像可以是连续或非连续的多帧，本申请对此不限定。

在一种可行的实施方式中，上述Transformer包括时域注意力网络和自注意力网络；所述每个多Header注意力网络中的Transformer用于根据所述M-1个参考特征矩阵对所述目标特征矩阵进行处理，得到第一特征矩阵，包括：所述时域注意力网络基于所述M-1个参考特征矩阵和所述目标特征矩阵生成对应的第一询问向量、第一键值向量和第一价值向量；并基于所述第一询问向量、所述第一键值向量和所述第一价值向量得到所述目标待处理图像对应的第二特征向量；所述自注意力网络基于所述第二特征向量生成对应的第二询问向量、第二键值向量和第二价值向量；并基于所述第二询问向量、所述第二键值向量和所述第二价值向量生成所述第一特征矩阵。

可以看出，本申请实施例中的Transformer包括时域注意力网络和自注意力网络，时域注意力网络主要基于不同时间维度的参考特征矩阵所表征的信息对目标特征矩阵中的目标特征进行强化或弱化；自注意力网络主要基于不同空间位置的图像信息对目标特征矩阵中表征的目标特征进行强化或弱化；综上，由于本申请实施例引入了Transformer构建的孪生注意力网络进行图像处理，因而可以充分利用Transformer在时域和空域上的注意力机制，得到更加准确的第一特征矩阵，进而提升该孪生注意力网络在不同图像处理任务中的效果。

在一种可行的实施方式中，上述每个多Header注意力网络还包括解码网络；解码网络与每个多Header注意力网络中的Transformer相连；解码网络用于对第一特征矩阵进行卷积处理，得到每个多Header注意力网络的输出结果；其中，输出结果包括目标待处理图像对应的特征图或特征向量。

应当理解，本申请实施例中的解码网络可以是包含多个卷积层的卷积神经网络，应当注意，在不同图像处理任务中，解码网络的具体结构可以不同，例如，在动作识别任务下，解码网络还可以包含池化层。

可以看出，本申请实施例中解码网络主要是对Transformer输出的特征矩阵进行卷积和/或池化处理，进而得到目标待处理图像对应的特征图或特征向量，从而使得孪生注意力网络输出需要的结果。

第二方面，本申请提供了一种图像处理方法，该方法包括：确定孪生注意力网络；其中，所述孪生注意力网络包括N个并行的多Header注意力网络，每个所述多Header注意力网络包括变换器Transformer和M个并行的Header，所述Transformer和所述M个并行的Header连接；所述N和所述M为大于或等于2的整数；获取M张待处理图像，并将所述M张待处理图像分别输入每个多Header注意力网络中进行图像处理，得到所述每个多Header注意力网络的处理结果；其中，所述每个多Header注意力网络中M个并行的Header用于分别对目标待处理图像和M-1张参考待处理图像进行特征提取，得到目标特征矩阵和M-1个参考特征矩阵；所述目标特征矩阵与所述目标待处理图像对应，所述M-1个参考特征矩阵分别与所述M-1张参考待处理图像一一对应；所述每个多Header注意力网络中的Transformer用于根据所述M-1个参考特征矩阵对所述目标特征矩阵进行处理，得到第一特征矩阵。

可以看出，在本申请实施例中，可以采用第一方面中的孪生注意力网络进行图像处理，由于该孪生注意力网络中的每个多Header注意力网络包含多个Header，因而可以提取多张参考待处理图像的相关信息；进一步地，由于上述孪生注意力网络还通过引入Transformer来利用多张参考待处理图像中的相关信息对目标待处理图像进行处理，从而得到更加准确地的第一特征矩阵，进而使得后续利用第一特征矩阵得到的网络输出结果效果更好，即提升图像处理效果。

在一种可行的实施方式中，上述第一特征矩阵表征的目标特征弱于或强于目标特征矩阵表征的目标特征。

在一种可行的实施方式中，上述目标特征包括目标待处理图像中的噪声、对象或对象的动作。

可以看出，本申请实施例中的孪生注意力网络由于每个多Header注意力网络包含多个Header，因而可以引入多帧信息；同时，Transformer注意力机制可以充分利用多帧信息进行图像处理，因而孪生注意力网络可以根据不同图像处理任务对不同目标特征进行对应强化或弱化，即上述网络的泛化能力强。

在一种可行的实施方式中，所述N个并行的多Header注意力网络中每个多Header注意力网络的参数相同或不同。

在一种可行的实施方式中，上述确定孪生注意力网络，包括：获取初始多Header注意力网络；利用第一图像数据集对所述初始多Header注意力网络进行训练，得到所述多Header注意力网络；基于所述N个多Header注意力网络确定所述孪生注意力网络；其中，所述孪生注意力网络包含的N个多Header注意力网络中每个多Header注意力网络的参数相同。

应当理解，上述第一图像数据集可以为带标签数据集或不带标签数据集。

可以看出，在本申请实施例中，可以对初始多Header注意力网络进行预训练，得到上述多Header注意力网络；然后基于N个相同的多Header注意力网络构建上述孪生注意力网络。可选地，由于孪生注意力网络经过了预训练，可以直接移植到嵌入式设备，省去了在嵌入式设备中预训练的过程，从而节约嵌入式设备的计算资源。

在一种可行的实施方式中，在上述将M张待处理图像分别输入每个多Header注意力网络中进行图像处理，得到每个多Header注意力网络的处理结果之前，方法还包括：利用第二图像数据集对孪生注意力网络进行训练，以更新孪生注意力网络中的参数；其中，更新后的孪生注意力网络包含的每个多Header注意力网络中的参数不同。

应当理解，在本申请实施例中，在图像恢复任务的每次训练过程中，优化目标为使得每个多Header注意力网络的输出结果尽可能相同；在目标检测和动作识别任务中，优化目标为使得每个多Header注意力网络的输出结果与该多Header注意力网络对应目标待处理图像的标签相同。

可以看出，在本申请实施例中，当将上述孪生注意力网络泛化到不同图像处理任务之前，可以利用相应任务对应的第二数据集对上述预训练后的孪生注意力网络进行训练，以网络中的参数进行微调，即无需大量训练过程就得到适应不同图像处理任务的孪生注意力网络，从而提升后续在对应图像处理任务中的处理效果。同时，在图像恢复任务的每次训练过程中，优化目标为使得每个多Header注意力网络的输出结果尽可能相同，由于M张待处理图像是乱序输入每个多Header注意力网络，因而可以有效调整N个并行的多Header注意力网络，使得网络参数达到最优，进而在后续图像恢复任务中得到高质量的复原图像。在目标检测和动作识别过程中，由于每个多Header注意力网络是独立进行训练的，因而在后续图像处理任务中，N个并行多Header注意力网络可以有效提升对应图像处理的速度。

在一种可行的实施方式中，上述将所述M张待处理图像分别输入每个多Header注意力网络中进行图像处理，得到所述每个多Header注意力网络的处理结果，包括：将所述M张待处理图像分别输入所述每个多Header注意力网络中进行图像恢复，得到所述每个多Header注意力网络输出的恢复图像；或将所述M张待处理图像分别输入所述每个多Header注意力网络中进行目标检测，得到所述每个多Header注意力网络输出的表征待检测目标的特征图；或将所述M张待处理图像分别输入所述每个多Header注意力网络中进行动作识别，得到所述每个多Header注意力网络输出的表征动作类别的特征向量。

应当理解，上述待检测目标的特征图可以包括待检测目标在目标待处理图像中的位置和/或待检测目标的类别信息。

可以看出，本申请实施例中的图像处理方法可以应用到不同的图像处理任务中，如图像恢复、目标检测和动作识别等，表明本申请实施例中的孪生注意力网络的泛化能力强。

第三方面，本申请提供了一种图像处理装置，包括：确定单元，用于确定孪生注意力网络；其中，所述孪生注意力网络包括N个并行的多Header注意力网络，每个所述多Header注意力网络包括变换器Transformer和M个并行的Header，所述Transformer和所述M个并行的Header连接；所述N和所述M为大于或等于2的整数；获取单元，用于获取M张待处理图像；处理单元，用于将所述M张待处理图像分别输入每个多Header注意力网络中进行图像处理，得到所述每个多Header注意力网络的处理结果；其中，所述每个多Header注意力网络中M个并行的Header用于分别对目标待处理图像和M-1张参考待处理图像进行特征提取，得到目标特征矩阵和M-1个参考特征矩阵；所述目标特征矩阵与所述目标待处理图像对应，所述M-1个参考特征矩阵分别与所述M-1张参考待处理图像一一对应；所述每个多Header注意力网络中的Transformer用于根据所述M-1个参考特征矩阵对所述目标特征矩阵进行处理，得到第一特征矩阵。

在一种可行的实施方式中，上述N个并行的多Header注意力网络中每个多Header注意力网络的参数相同或不同。

在一种可行的实施方式中，上述确定单元具体用于：获取初始多Header注意力网络；利用第一图像数据集对所述初始多Header注意力网络进行训练，得到所述多Header注意力网络；基于所述N个所述多Header注意力网络确定所述孪生注意力网络；其中，所述孪生注意力网络包含的N个多Header注意力网络中每个多Header注意力网络的参数相同。

在一种可行的实施方式中，在所述将所述M张待处理图像分别输入每个多Header注意力网络中进行图像处理，得到所述每个多Header注意力网络的处理结果之前，所述处理单元还用于：利用第二图像数据集对所述孪生注意力网络进行训练，以更新所述孪生注意力网络中的参数；其中，更新后的孪生注意力网络包含的所述每个多Header注意力网络中的参数不同。

在一种可行的实施方式中，在所述将所述M张待处理图像分别输入每个多Header注意力网络中进行图像处理，得到所述每个多Header注意力网络的处理结果的方面，所述处理单元具体用于：将所述M张待处理图像分别输入所述每个多Header注意力网络中进行图像恢复，得到所述每个多Header注意力网络输出的复原图像；或将所述M张待处理图像分别输入所述每个多Header注意力网络中进行目标检测，得到所述每个多Header注意力网络输出的表征待检测目标的特征图；或将所述M张待处理图像分别输入所述每个多Header注意力网络中进行动作识别，得到所述每个多Header注意力网络输出的表征动作类别的特征向量。

第四方面，本申请提供了一种孪生注意力网络的训练方法，所述方法包括：获取图像数据集，并利用所述图像数据集对所述孪生注意力网络进行训练，以更新所述孪生注意力网络中的参数；其中，所述孪生注意力网络上述第一方面中任一项所述的网络。

第五方面，本申请提供了一种模型训练装置，所述装置包括：获取单元，用于获取图像数据集；训练单元，用于利用所述图像数据集对所述孪生注意力网络进行训练，以更新所述孪生注意力网络中的参数；其中，所述孪生注意力网络为上述第一方面中任一项所述的网络。

第六方面，本申请提供了一种芯片系统，上述芯片系统包括至少一个处理器、存储器和接口电路，存储器、接口电路和至少一个处理器通过线路互联，该至少一个存储器中存储有指令；该指令被处理器执行时，上述第二方面中任意一项所述的方法得以实现。

第七方面，本申请提供了一种终端设备，该终端设备包括如第六方面中所述的芯片系统，以及耦合至该芯片系统的分立器件；其中，该终端设备包括汽车、摄像头、电脑、手机或可穿戴设备。

第八方面，本申请提供了一种计算机可读存储介质，该计算机可读介质存储用于设备执行的程序代码，该程序代码包括用于执行上述第二方面中任一项所述的方法。

第九方面，本申请提供了一种计算机程序产品，所述计算机程序产品包括程序指令，当所述程序指令在计算机上运行时，上述第二方面中任意一项所述的方法得以实现。

第十方面，本申请提供了一种服务器，所述服务器包括处理器、存储器和总线，其中：所述处理器和所述存储器通过所述总线连接；所述存储器，用于存储计算机程序；所述处理器，用于控制所述存储器，执行所述存储器上所存储的程序，以实现上述第二方面中任意一项所述的方法。

附图说明

以下对本申请实施例用到的附图进行介绍。

图1是本申请实施例中提供的一种系统架构的结构示意图；

图2本申请实施例提供的一种主干网络的结构示意图；

图3是本申请实施例提供的一种芯片硬件结构示意图；

图4是本申请实施例提供的另一种系统架构结构示意图；

图5是本申请实施例提供的一种多Header注意力网络的结构示意图；

图6是本申请实施例提供的一种孪生注意力网络的结构示意图；

图7是本申请实施例中一种图像处理的方法的流程示意图；

图8是本申请实施例中一种图像处理装置的结构示意图；

图9是本申请实施例提供的一种孪生注意力网络训练方法的流程示意图；

图10是本申请实施例中一种模型训练装置的结构示意图；

图11是本申请实施例中一种模型训练装置的硬件结构示意图；

图12是本申请实施例中一种图像处理装置的硬件结构示意图；

图13是本申请实施例中一种服务器的硬件结构示意图。

具体实施方式

下面结合本申请实施例中的附图对本申请实施例进行描述。

本申请实施例中的注意力网络可以应用在图像恢复、动作识别和目标检测等计算机视觉中的基本处理任务中，例如图片检测、相册管理、录像、智慧城市、人机交互以及其他需要进行图像处理的场景。

应理解，本申请实施例中的图像可以为静态图像(或称为静态画面)或动态图像(或称为动态画面)，例如，本申请中的图像可以为视频或动态图片，或者，本申请中的图像也可以为静态图片或照片。为了便于描述，本申请在下述实施例中将静态图像或动态图像统一称为图像。

本申请实施例的方法可以具体应用到图像恢复、目标检测和动作识别任务中，下面对这三种任务进行详细的介绍。

图像恢复：

(1)图像恢复场景一：在雨雪天气，用户拿起手机等终端设备进行连续拍照或者拍摄视频，希望得到不下雪，不下雨，没有摩尔纹的照片或视频，此时可以利用可以采用本申请实施例中的网络和方法对希望复原的图像进行恢复，得到无雨/无雪/无摩尔纹的干净图像，用户将图像进行保存。

(2)图像恢复场景二：自动驾驶需要采集真实的室外道路场景，而在进行仿真模拟时，需要干净没有其他车辆的街景。此时，可以首先在道路行驶时拍摄真实的街景视频，然后采用本申请实施例中的网络和方法对视频进行处理后，得到清晰，没有其他车辆的街景视频。

(3)图像恢复场景三：视频监控的摄像头拍摄的视频中，移动目标可能产生运动模糊，用户想要看清视频所呈现的内容存在困难。此时，可以采用本申请实施例中的网络和方法对视频进行处理，返回清晰、高质量的视频。

目标检测：

目标检测即是从图像中找出感兴趣的物体，并确定该物体的位置和大小。例如，用户想要在自己终端设备的相册中寻找一些包含猫的图像，此时，可以采用本申请实施例中的网络和方法，识别用户终端设备中所有包含有猫的图像，以供用户选择。

动作识别

根据人体骨架结构，以关节为运动节点，对高清网络摄像机抓拍的图片或视频进行处理，勾勒出人体骨架图形，从而判断出人的运动轨迹，然后进行相应预警。例如，在监控画面有人发出求救动作时，通过本申请实施例中得网络和方法对图像进行处理后，可以在预警屏幕弹出求救事件。

可以看出，本申请中的孪生注意力网络和图像处理方法可以应用到多种计算机视觉的相关任务，有效提升用户体验。

应理解，上文介绍的图像恢复、目标检测和动作识别只是本申请实施例的网络和方法所应用的几个具体任务，本申请实施例的方法在应用时并不限于上述任务，本申请实施例的方法能够应用到任何需要进行图像处理的任务中，例如，图像分割。或者，本申请实施例中的方法也可以类似地应用于其他领域，例如，语音识别及自然语言处理等，本申请实施例中对此并不限定。

下面从模型结构和模型应用对本申请提供的方法进行描述：

本申请实施例提供了孪生注意力网络的具体结构，该孪生注意力网络的训练过程涉及计算机视觉的处理，具体可以应用数据训练、机器学习、深度学习等数据处理方法，对训练数据(如本申请中的待处理图像)进行符号化和形式化的智能信息建模、抽取、预处理、训练等，最终得到训练好的孪生注意力网络；并且，本申请实施例提供的图像处理方法可以应用上述训练好的孪生注意力网络，将输入数据(如本申请中的待处理图像)输入到训练好的孪生注意力网络中，得到输出数据(如本申请中的待处理图像对应的复原图像、特征图或特征向量)。需要说明的是，本申请实施例提供的孪生注意力网络和图像处理方法是基于同一个构思产生的发明，也可以理解为一个系统中的两个部分，或一个整体流程的两个阶段：如模型构建阶段和模型应用阶段。

本申请实施例涉及了大量神经网络的相关应用，为了更好地理解本申请实施例的方案，下面先对本申请实施例可能涉及的神经网络和计算机视觉领域的相关术语和概念进行介绍。

(1)图像降质和复原

图像降质指成像系统受各种因素，导致了图像质量的降低；图像复原指利用降质过程的先验知识，去恢复已被降质图像的本来面目。

(2)目标检测

从给定的待处理图像中识别出所有感兴趣的目标(物体)，并确定它们的类别和位置。由于各类物体有不同的外观，形状，姿态，加上成像时光照，遮挡等因素的干扰，目标检测是计算机视觉领域的核心且最具挑战性的问题之一。

(3)动作识别

从给定的待处理图像中识别出待识别对象的动作或者行为。动作识别可以应用于监督，机器人，卫生保健和视频搜索。

(4)神经网络

神经网络可以是由神经单元组成的，神经单元可以是指以x_s和截距1为输入的运算单元，该运算单元的输出可以为：

其中，s＝1、2、……n，n为大于1的自然数，W_s为x_s的权重，b为神经单元的偏置。f为神经单元的激活函数(activation functions)，用于将非线性特性引入神经网络中，来将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入。激活函数可以是sigmoid函数。神经网络是将许多个上述单一的神经单元联结在一起形成的网络，即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连，来提取局部接受域的特征，局部接受域可以是由若干个神经单元组成的区域。

(5)深度神经网络

深度神经网络(deep neural network，DNN)，也称多层神经网络，可以理解为具有很多层隐含层的神经网络，这里的“很多”并没有特别的度量标准。从DNN按不同层的位置划分，DNN内部的神经网络可以分为三类：输入层，隐含层，输出层。一般来说第一层是输入层，最后一层是输出层，中间的层数都是隐含层。层与层之间是全连接的，也就是说，第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。虽然DNN看起来很复杂，但是就每一层的工作来说，其实并不复杂，简单来说就是如下线性关系表达式：

其中，

是输入向量，

是输出向量，

是偏移向量，W是权重矩阵(也称系数)，α()是激活函数。每一层仅仅是对输入向量

经过如此简单的操作得到输出向量

由于DNN层数多，则系数W和偏移向量

的数量也就很多了。这些参数在DNN中的定义如下所述：以系数W为例：假设在一个三层的DNN中，第二层的第4个神经元到第三层的第2个神经元的线性系数定义为

上标3代表系数W所在的层数，而下标对应的是输出的第三层索引2和输入的第二层索引4。总结就是：第L-1层的第k个神经元到第L层的第j个神经元的系数定义为

需要注意的是，输入层是没有W参数的。在深度神经网络中，更多的隐含层让网络更能够刻画现实世界中的复杂情形。理论上而言，参数越多的模型复杂度越高，“容量”也就越大，也就意味着它能完成更复杂的学习任务。训练深度神经网络的也就是学习权重矩阵的过程，其最终目的是得到训练好的深度神经网络的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。

(6)卷积神经网络

卷积神经网络(CNN，convolutional neuron network)是一种带有卷积结构的深度神经网络。卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。该特征抽取器可以看作是滤波器，卷积过程可以看作是使用一个可训练的滤波器与一个输入的图像或者卷积特征平面(feature map)做卷积。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层。在卷积神经网络的卷积层中，一个神经元可以只与部分邻层神经元连接。一个卷积层中，通常包含若干个特征平面，每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重，这里共享的权重就是卷积核。共享权重可以理解为提取图像信息的方式与位置无关。这其中隐含的原理是：图像的某一部分的统计信息与其他部分是一样的。即意味着在某一部分学习的图像信息也能用在另一部分上。所以对于图像上的所有位置，都能使用同样的学习得到的图像信息。在同一卷积层中，可以使用多个卷积核来提取不同的图像信息，一般地，卷积核数量越多，卷积操作反映的图像信息越丰富。

卷积核可以以随机大小的矩阵的形式初始化，在卷积神经网络的训练过程中卷积核可以通过学习得到合理的权重。另外，共享权重带来的直接好处是减少卷积神经网络各层之间的连接，同时又降低了过拟合的风险。

(7)损失函数

在训练深度神经网络的过程中，因为希望深度神经网络的输出尽可能的接近真正想要预测的值，所以可以通过比较当前网络的预测值和真正想要的目标值，再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然，在第一次更新之前通常会有初始化的过程，即为深度神经网络中的各层预先配置参数)，比如，如果网络的预测值高了，就调整权重向量让它预测低一些，不断的调整，直到深度神经网络能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数(loss function)或目标函数(objective function)，它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值(loss)越高表示差异越大，那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。

(8)反向传播算法

卷积神经网络可以采用误差反向传播(back propagation，BP)算法在训练过程中修正初始的超分辨率模型中参数的大小，使得超分辨率模型的重建误差损失越来越小。具体地，前向传递输入信号直至输出会产生误差损失，通过反向传播误差损失信息来更新初始的超分辨率模型中参数，从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动，旨在得到最优的超分辨率模型的参数，例如权重矩阵。

(9)像素值

图像的像素值可以是一个红绿蓝(RGB)颜色值，像素值可以是表示颜色的长整数。例如，像素值为256*Red+100*Green+76Blue，其中，Blue代表蓝色分量，Green代表绿色分量，Red代表红色分量。各个颜色分量中，数值越小，亮度越低，数值越大，亮度越高。对于灰度图像来说，像素值可以是灰度值。

(10)熵(英文：Entropy)

可以表示事物的确定性，确定性越高，熵越低，反之，熵越高。针对分类任务来说，如果一张图片的分类结果的置信度越接近0或者1，其熵越低，分类结果越接近0.5，熵越高，代表分类结果不确定。

(11)注意力机制和注意力网络

注意力机制指神经网络具备专注于输入或特征上的子集的能力，进而更好地利用重要的信息；注意力网络就是利用注意力机制构建的神经网络。

参见附图1，图1为本申请实施例提供的一种系统架构100的结构示意图。如系统架构100所示，数据采集设备160用于采集训练数据，本申请实施例中训练数据包括带有标签的图像数据和/或无标签图像数据，其中，图像的标签可以是该图像对应的类别，或该图像内的目标对应的类别，或该图像的每个像素点对应的类别，上述类别在数学上的表示形式为一个多维向量。

在采集到训练数据之后，数据采集设备160将这些训练数据存入数据库130，训练设备120基于数据库130中维护的训练数据训练得到目标模型101(即为本申请实施例中的孪生注意力网络或多Header注意力网络)。

下面将描述训练设备120如何基于训练数据得到目标模型101，该目标模型101能够用于实现本申请实施例提供的图像处理方法，即，将待处理图像通过相关预处理后输入该目标模型101，即可得到待处理图像的处理结果。本申请实施例中的目标模型101具体可以为孪生注意力网络或多头端Header注意力网络。需要说明的是，在实际的应用中，数据库130中维护的训练数据不一定都来自于数据采集设备160的采集，也有可能是从其他设备接收得到的。另外需要说明的是，训练设备120也不一定完全基于数据库130维护的训练数据进行目标模型101的训练，也有可能从云端或其他地方获取训练数据进行模型训练，上述描述不应该作为对本申请实施例的限定。

根据训练设备120训练得到的目标模型101可以应用于不同的系统或设备中，如应用于图1所示的执行设备110，执行设备110可以是终端，如手机终端，平板电脑，笔记本电脑，增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)，车载终端等，还可以是服务器或者云端等。在附图1中，执行设备110配置有输入/输出(input/output，I/O)接口112，用于与外部设备进行数据交互，用户可以通过客户设备140向I/O接口112输入数据，输入数据在本申请实施例中可以包括各种图像或视频数据。

在执行设备110对输入数据进行预处理，或者在执行设备110的计算模块111执行计算等相关的处理过程中，执行设备110可以调用数据存储系统150中的数据、代码等以用于相应的处理，也可以将相应处理得到的数据、指令等存入数据存储系统150中。

最后，I/O接口112将处理结果，如上述得到的待处理图像对应的处理结果(即该待处理图像对应的复原图像，或从该待处理图像中识别出的目标，或对该待处理图像进行动作识别的结果)返回给客户设备140，从而提供给用户。

值得说明的是，训练设备120可以针对不同的目标或称不同的任务，基于不同的训练数据生成相应的目标模型101，该相应的目标模型101即可以用于实现上述目标或完成上述任务，从而为用户提供所需的结果。

在附图1中所示情况下，用户可以手动给定输入数据，该手动给定可以通过I/O接口112提供的界面进行操作。另一种情况下，客户设备140可以自动地向I/O接口112发送输入数据，如果要求客户设备140自动发送输入数据需要获得用户的授权，则用户可以在客户设备140中设置相应权限。用户可以在客户设备140查看执行设备110输出的结果，具体的呈现形式可以是显示、声音、动作等具体方式。客户设备140也可以作为数据采集端，采集如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果作为新的样本数据，并存入数据库130。当然，也可以不经过客户设备140进行采集，而是由I/O接口112直接将如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果，作为新的样本数据存入数据库130。

值得注意的是，附图1仅是本发明实施例提供的一种系统架构的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制，例如，在附图1中，数据存储系统150相对执行设备110是外部存储器，在其它情况下，也可以将数据存储系统150置于执行设备110中。

如图1所示，根据训练设备120训练得到目标模型101，该目标模型101在本申请实施例中可以是本申请实施例中的孪生注意力网络或多头端Header注意力网络，具体的，本申请实施例提供的孪生注意力网络和多头端Header注意力网络是基于变换器Transformer构建的，Transformer可以由注意力机制和前馈神经网络组成，本方案对此不做具体限定。后文实施例将对本申请提供的孪生注意力网络和多头端Header注意力网络的具体架构和相关功能进行具体介绍。

如前文的基础概念介绍所述，卷积神经网络是一种带有卷积结构的深度神经网络，是一种深度学习(deep learning，DL)架构，深度学习架构是指通过机器学习的算法，在不同的抽象层级上进行多个层次的学习。作为一种深度学习架构，CNN是一种前馈(feed-forward)人工神经网络，该前馈人工神经网络中的各个神经元可以对输入其中的图像作出响应。本申请提供的孪生注意力网络和多头端Header注意力网络中的头端Header和解码网络中包含卷积神经网络。

如图2所示，卷积神经网络(CNN)200可以包括输入层210，卷积层/池化层220(其中池化层为可选的)，以及神经网络层230。

卷积层/池化层220：

卷积层：

如图2所示卷积层/池化层220可以包括如示例221-226层，举例来说：在一种实现中，221层为卷积层，222层为池化层，223层为卷积层，224层为池化层，225为卷积层，226为池化层；在另一种实现方式中，221、222为卷积层，223为池化层，224、225为卷积层，226为池化层。即卷积层的输出可以作为随后的池化层的输入，也可以作为另一个卷积层的输入以继续进行卷积操作。

下面将以卷积层221为例，介绍一层卷积层的内部工作原理。

卷积层221可以包括很多个卷积算子，卷积算子也称为核，其在图像处理中的作用相当于一个从输入图像矩阵中提取特定信息的过滤器，卷积算子本质上可以是一个权重矩阵，这个权重矩阵通常被预先定义，在对图像进行卷积操作的过程中，权重矩阵通常在输入图像上沿着水平方向一个像素接着一个像素(或两个像素接着两个像素……这取决于步长stride的取值)的进行处理，从而完成从图像中提取特定特征的工作。该权重矩阵的大小应该与图像的大小相关，需要注意的是，权重矩阵的纵深维度(depth dimension)和输入图像的纵深维度是相同的，在进行卷积运算的过程中，权重矩阵会延伸到输入图像的整个深度。因此，和一个单一的权重矩阵进行卷积会产生一个单一纵深维度的卷积化输出，但是大多数情况下不使用单一权重矩阵，而是应用多个尺寸(行×列)相同的权重矩阵，即多个同型矩阵。每个权重矩阵的输出被堆叠起来形成卷积图像的纵深维度，这里的维度可以理解为由上面所述的“多个”来决定。不同的权重矩阵可以用来提取图像中不同的特征，例如一个权重矩阵用来提取图像边缘信息，另一个权重矩阵用来提取图像的特定颜色，又一个权重矩阵用来对图像中不需要的噪点进行模糊化等。该多个权重矩阵尺寸(行×列)相同，经过该多个尺寸相同的权重矩阵提取后的特征图的尺寸也相同，再将提取到的多个尺寸相同的特征图合并形成卷积运算的输出。

这些权重矩阵中的权重值在实际应用中需要经过大量的训练得到，通过训练得到的权重值形成的各个权重矩阵可以用来从输入图像中提取信息，从而使得卷积神经网络200进行正确的预测。

当卷积神经网络200有多个卷积层的时候，初始的卷积层(例如221)往往提取较多的一般特征，该一般特征也可以称之为低级别的特征；随着卷积神经网络200深度的加深，越往后的卷积层(例如226)提取到的特征越来越复杂，比如高级别的语义之类的特征，语义越高的特征越适用于待解决的问题。

池化层：

由于常常需要减少训练参数的数量，因此卷积层之后常常需要周期性的引入池化层，在如图2中卷积层/池化层220所示例的221-226各层，可以是一层卷积层后面跟一层池化层，也可以是多层卷积层后面接一层或多层池化层。在图像处理过程中，池化层的唯一目的就是减少图像的空间大小。池化层可以包括平均池化算子和/或最大池化算子，以用于对输入图像进行采样得到较小尺寸的图像。平均池化算子可以在特定范围内对图像中的像素值进行计算产生平均值作为平均池化的结果。最大池化算子可以在特定范围内取该范围内值最大的像素作为最大池化的结果。另外，就像卷积层中用权重矩阵的大小应该与图像尺寸相关一样，池化层中的运算符也应该与图像的大小相关。通过池化层处理后输出的图像尺寸可以小于输入池化层的图像的尺寸，池化层输出的图像中每个像素点表示输入池化层的图像的对应子区域的平均值或最大值。

神经网络层230：

在经过卷积层/池化层220的处理后，卷积神经网络200还不足以输出所需要的输出信息。因为如前所述，卷积层/池化层220只会提取特征，并减少输入图像带来的参数。然而为了生成最终的输出信息(所需要的类信息或其他相关信息)，卷积神经网络200需要利用神经网络层230来生成一个或者一组所需要的类的数量的输出。因此，在神经网络层230中可以包括多层隐含层(如图2所示的231、232至23n)以及输出层240，该多层隐含层中所包含的参数可以根据具体的任务类型的相关训练数据进行预先训练得到，例如该任务类型可以包括图像识别，图像分类，图像超分辨率重建等等。

在神经网络层230中的多层隐含层之后，也就是整个卷积神经网络200的最后层为输出层240，该输出层240具有类似分类交叉熵的损失函数，具体用于计算预测误差，一旦整个卷积神经网络200的前向传播(如图2由210至240方向的传播为前向传播)完成，反向传播(如图2由240至210方向的传播为反向传播)就会开始更新前面提到的各层的权重值以及偏差，以减少卷积神经网络200的损失，及卷积神经网络200通过输出层输出的结果和理想结果之间的误差。

需要说明的是，如图2所示的卷积神经网络200仅作为一种卷积神经网络的示例，在具体的应用中，卷积神经网络还可以以其他网络模型的形式存在。

下面介绍本申请实施例提供的一种芯片硬件结构。

图3为本发明实施例提供的一种芯片硬件结构，该芯片包括神经网络处理器50。该芯片可以被设置在如图1所示的执行设备110中，用以完成计算模块111的计算工作。该芯片也可以被设置在如图1所示的训练设备120中，用以完成训练设备120的训练工作并输出目标模型101。如图2所示的卷积神经网络中各层的算法均可在如图3所示的芯片中得以实现。

神经网络处理器NPU 50作为协处理器挂载到主CPU(Host CPU)上，由Host CPU分配任务。NPU的核心部分为运算电路503，控制器504控制运算电路503提取存储器(权重存储器或输入存储器)中的数据并进行运算。

在一些实现中，运算电路503内部包括多个处理单元(process engine,PE)。在一些实现中，运算电路503是二维脉动阵列。运算电路503还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中，运算电路503是通用的矩阵处理器。

举例来说，假设有输入矩阵A，权重矩阵B，输出矩阵C。运算电路从权重存储器502中取矩阵B相应的数据，并缓存在运算电路中每一个PE上。运算电路从输入存储器501中取矩阵A数据与矩阵B进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器508(accumulator)中。

向量计算单元507可以对运算电路的输出做进一步处理，如向量乘，向量加，指数运算，对数运算，大小比较等等。例如，向量计算单元507可以用于神经网络中非卷积/非FC层的网络计算，如池化(Pooling)，批归一化(batch normalization)，局部响应归一化(local response normalization)等。

在一些实现种，向量计算单元507能将经处理的输出的向量存储到统一缓存器506。例如，向量计算单元507可以将非线性函数应用到运算电路503的输出，例如累加值的向量，用以生成激活值。在一些实现中，向量计算单元507生成归一化的值、合并值，或二者均有。在一些实现中，处理过的输出的向量能够用作到运算电路503的激活输入，例如用于在神经网络中的后续层中的使用。

统一存储器506用于存放输入数据以及输出数据。

权重数据直接通过存储单元访问控制器505(direct memory accesscontroller，DMAC)将外部存储器中的输入数据搬运到输入存储器501和/或统一存储器506、将外部存储器中的权重数据存入权重存储器502，以及将统一存储器506中的数据存入外部存储器。

总线接口单元(bus interface unit，BIU)510，用于通过总线实现主CPU、DMAC和取指存储器509之间进行交互。

与控制器504连接的取指存储器(instruction fetch buffer)509，用于存储控制器504使用的指令。

控制器504，用于调用指存储器509中缓存的指令，实现控制该运算加速器的工作过程。

一般地，统一存储器506，输入存储器501，权重存储器502以及取指存储器509均为片上(on-chip)存储器，外部存储器为该NPU外部的存储器，该外部存储器可以为双倍数据率同步动态随机存储器(double data rate synchronous dynamic random accessmemory，简称DDR SDRAM)、高带宽存储器(high bandwidth memory，HBM)或其他可读可写的存储器。

其中，图2所示的卷积神经网络中各层的运算可以由运算电路503或向量计算单元507执行。

上文中介绍的图1中的训练设备120能够执行本申请实施例中孪生注意力网络和多头端Header注意力网络的训练过程，图1中的执行设备110能够执行本申请实施例的图像处理方法(比如，图像复原、动作识别和目标检测)的各个步骤，图2所示的神经网络模型和图3所示的芯片也可以用于执行本申请实施例的图像处理方法的各个步骤，图3所示的芯片也可以用于执行本申请实施例中训练孪生注意力网络和多头端Header注意力网络的过程。

如图4所示，图4为本申请实施例提供一种系统架构300的结构示意图。该系统架构包括本地设备301、本地设备302以及执行设备210和数据存储系统250；其中，本地设备301和本地设备302通过通信网络与执行设备210连接。

执行设备210可以由一个或多个服务器实现。可选的，执行设备210可以与其它计算设备配合使用，例如：数据存储器、路由器、负载均衡器等设备。执行设备210可以布置在一个物理站点上，或者分布在多个物理站点上。执行设备210可以使用数据存储系统250中的数据，或者调用数据存储系统250中的程序代码来实现本申请实施例的训练孪生注意力网络和多头端Header注意力网络的过程或图像处理方法(比如，图像复原方法、动作识别和目标检测)。

具体地，执行设备210可以执行孪生注意力网络和多头端Header注意力网络的训练过程，以更新孪生注意力网络和多头端Header注意力网络中的参数，训练后的孪生注意力网络可以用于图像处理、语音处理及自然语言处理等，例如，该孪生注意力网络可以用于实现本申请实施例中的图像复原方法、动作识别和目标检测。

或者，通过上述过程执行设备210能够搭建成一个图像处理装置，该图像处理装置可以用于图像处理(例如，可以用于实现本申请实施例中的图像复原、动作识别和目标检测)。

用户可以操作各自的用户设备(例如本地设备301和本地设备302)与执行设备210进行交互。每个本地设备可以表示任何计算设备，例如个人计算机、计算机工作站、智能手机、平板电脑、智能摄像头、智能汽车或其他类型蜂窝电话、媒体消费设备、可穿戴设备、机顶盒、游戏机等。

每个用户的本地设备可以通过任何通信机制/通信标准的通信网络与执行设备210进行交互，通信网络可以是广域网、局域网、点对点连接等方式，或它们的任意组合。

在一种实现方式中，本地设备301、本地设备302从执行设备210获取到注意力网络的相关参数，将注意力网络部署在本地设备301、本地设备302上，利用该注意力网络对待处理图像进行图像处理，得到待处理图像的处理结果。

在另一种实现中，执行设备210上可以直接部署注意力网络，执行设备210通过从本地设备301和本地设备302获取待处理图像，并利用该注意力网络对待处理图像进行图像处理，得到待处理图像的处理结果。

在一种实现方式中，本地设备301、本地设备302从执行设备210获取到图像处理装置的相关参数，将图像处理装置部署在本地设备301、本地设备302上，利用该图像处理装置对待处理图像进行图像处理，得到待处理图像的处理结果。

在另一种实现中，执行设备210上可以直接部署图像处理装置，执行设备210通过从本地设备301和本地设备302获取待处理图像，并利用该图像处理装置对待处理图像进行图像处理，得到待处理图像的处理结果。

也就是说，上述执行设备210也可以为云端设备，此时，执行设备210可以部署在云端；或者，上述执行设备210也可以为终端设备，此时，执行设备210可以部署在用户终端侧，本申请实施例对此并不限定。

下面结合附图对本申请实施例的孪生注意力网络和多头端Header注意力网络的具体网络结构和功能，以及图像处理方法(例如，图像处理方法可以包括图像复原、目标检测和动作识别)进行详细的介绍。

请参见图5和图6，图5是本申请实施例提供的一种多Header注意力网络的结构示意图；

图6是本申请实施例提供的一种孪生注意力网络的结构示意图。应当理解，图5中的多Header注意力网络包含2个并行的Header，图5只是本申请实施例提供的多Header注意力网络的一个具体示例，本申请实施例提供的多Header注意力网络可以包括多个并行的Header，本申请对此不限定。同理，图6中的孪生注意力网络包含2个多Header注意力网络，图6也只是本申请实施例提供的孪生注意力网络的一个具体示例，孪生注意力网络可以包括多个多Header注意力网络，本申请对此不限定。

下面将结合图5和图6来描述本申请实施例中孪生注意力网络的具体结构和对应功能。

孪生注意力网络包括N个并行的多Header注意力网络，所述N为大于或等于2的整数；其中，每个所述多Header注意力网络包括变换器Transformer和M个并行的Header，所述Transformer和所述M个并行的Header连接；其中，所述M为大于或等于2的整数；所述每个多Header注意力网络中M个并行的Header用于分别对目标待处理图像和M-1张参考待处理图像进行特征提取，得到目标特征矩阵和M-1个参考特征矩阵；其中，所述目标特征矩阵与所述目标待处理图像对应，所述M-1个参考特征矩阵分别与所述M-1张参考待处理图像一一对应；所述每个多Header注意力网络中的Transformer用于根据所述M-1个参考特征矩阵对所述目标特征矩阵进行处理，得到第一特征矩阵。

其中，所述第一特征矩阵表征的目标特征弱于或强于所述目标特征矩阵表征的所述目标特征。

具体地，每个多Header注意力网络对应一个目标待处理图像和M-1张参考待处理图像。每个多Header注意力网络中N个并行的Header用于对该目标待处理图像和M-1张参考待处理图像分别进行特征提取，得到目标特征矩阵和M-1个参考特征矩阵；其中，目标特征矩阵和目标待处理图像对应，M-1个参考特征矩阵分别与M-1张参考待处理图对应。

可选地，上述M-1张参考待处理图像和目标待处理图像位于同一视频中。每个多Header注意力网络中的Header用于获取M-1张参考待处理图像的相关信息；Transformer基于其在时域和空域上的注意力机制，利用M-1张参考待处理图像中的相关信息对目标待处理图像进行处理。上述M-1张参考待处理图像和目标待处理图像可以是连续或非连续的多帧，本申请对此不限定。应当理解，基于不同的图像处理任务，每个多Header注意力网络可以对应相同或不同的目标待处理图像。

可选地，每个Header可以是一个包含多个卷积层的卷积神经网络(其具体结构可以如图2所示)或其他可行的网络结构，本申请对此不限定。

进一步，可选地，每个多Header注意力网络可以对上述M-1个参考特征矩阵按照不同的权重进行融合，得到第三特征矩阵；该第三特征矩阵和目标特征矩阵的宽和高分别相同。然后对目标特征矩阵进行切片得到多个第一特征向量，以及每个第一特征向量在目标特征矩阵中的位置编码；同理，对第三特征矩阵进行切片得到多个第二特征向量，以及每个第二特征向量在第一特征矩阵中的位置编码。然后对上述多个第一特征向量和多个第二特征向量进行归一化处理。

可以看出，本申请实施例孪生注意力网络中的每个多Header注意力网络包含多个Header，因而可以提取多张图片的信息，即该多个Header可以分别用于对目标待处理图像和M-1张参考待处理图像进行特征提取，可以提取到多张参考待处理图像不同参考信息；进一步地，本申请中的孪生注意力网络还通过引入Transformer来利用M-1张参考待处理图像中的相关信息对目标待处理图像进行处理，从而得到更加准确地用于表征目标待处理图像特征的第一特征矩阵，即本申请网络可以有效利用参考待处理图像的信息进行图像处理，进而提升本申请实施例中网络在不同图像处理任务中的处理效果。

在一种可行的实施方式中，目标特征包括目标待处理图像中的噪声、对象或对象的动作。

具体地，每个多Header注意力网络可以基于具体的图像处理任务，根据M-1个参考特征矩阵对目标特征矩阵进行处理，以对目标特征矩阵中的目标特征进行相应的强化或弱化；其中，弱化可以是对目标特征进行消除。

其中，目标待处理图像中的噪声可以包括拍照或录制视频时电子设备产生的高斯噪声、或雨和雾等人为判定的噪声、或摩尔纹等；目标待处理图像中的对象可以包括人或物；对象的动作可以包括人或动物的各种动作。本申请实施例对目标特征的不限定。

可以看出，本申请实施例中的孪生注意力网络由于每个多Header注意力网络包含多个Header，因而可以引入多帧信息；同时，Transformer注意力机制可以充分利用多帧信息，因而孪生注意力网络可以根据不同图像处理任务对不同目标特征进行对应强化或弱化，泛化能力强。

具体地，如图5所示，Transformer包含的时域注意力网络可以包括时域注意力temporal attention模块、归一化模块和全连接模块。Transformer包含的自注意力网络可以包括归一化模块、自注意力self-attention模块、归一化模块和全连接模块。应当理解，图5只是时域注意力网络和自注意力网络的一种示例，本申请对此不限定。此外，每个transformer可以包括一个或多个时域注意力网络和自注意力网络，本申请对此不限定。

下面将以带有相同位置编码的第一特征向量和第二特征向量为对象来描述时域注意力网络和自注意力网络的具体地处理过程：

可选地，上述时域注意力网络基于M-1个参考特征矩阵和目标特征矩阵生成对应的第一询问向量、第一键值向量和第一价值向量；并基于所述第一询问向量、所述第一键值向量和所述第一价值向量得到所述目标待处理图像对应的第二特征向量，包括：时域注意力网络基于每个位置编码对应的第一特征向量和第二特征向量生成初始询问向量(Queryvector，Q)、初始键值向量(Key vector，K)和初始价值向量(Value vector，V)；然后时域注意力模块利用第一特征向量和/或第二特征向量分别对初始询问向量、初始键值向量和初始价值向量进行学习(分别乘以对应权重)，得到第一询问向量、第一键值向量和第一价值向量，并对第一询问向量、第一键值向量和第一价值向量进行加权，最后经过图5中时域注意力网络中的归一化模块和全连接模块处理，得到每个位置编码对应的第二特征向量Z_i。

进一步，可选地，第一询问向量可以是基于第一特征向量学习到的，第一键值向量和第一价值向量可以是基于第二特征向量学习到的，本申请对第一询问向量、第一键值向量和第一价值向量学习过程中所依据的特征矩阵(可以是第一特征矩阵和/或第二特征矩阵)不限定。

可选地，上述自注意力网络基于所述第二特征向量生成对应的第二询问向量、第二键值向量和第二价值向量；并基于所述第二询问向量、所述第二键值向量和所述第二价值向量生成所述第一特征矩阵，包括：自注意力网络对每个位置编码对应的第二特征向量进行学习(即分别乘以对应的权重)，得到对应的第二询问向量、第二键值向量和第二价值向量；然后经过自注意力层对第二询问向量、第二键值向量和第二价值向量进行加权，并对加权结果经过归一化模块和全连接模块进行处理，得到每个位置编码对应的第三特征向量。最后，自注意力网络根据每个第三特征向量对应的位置编码对第三特征向量进行合并，得到目标待处理图像对应的第一特征矩阵。

在一种可行的实施方式中，上述每个多Header注意力网络还包括解码网络；该解码网络与所述每个多Header注意力网络中的Transformer相连；解码网络用于对第一特征矩阵进行卷积处理，得到每个多Header注意力网络的输出结果；其中，所述输出结果包括所述目标待处理图像对应的特征图或特征向量。

具体地，上述解码网络Decoder可以是包含多个卷积层的卷积神经网络，其具体结构可以如图2所示。应当注意，在不同图像处理任务中，解码网络的具体结构可以不同，例如，在动作识别任务下，解码网络还可以包含池化层。当上述孪生注意力网络用于进行图像恢复或目标检测时，上述解码网络的输出为目标待处理图像对应的特征图；当上述孪生注意力网络用于进行动作识别时，上述每个多Header注意力网络中解码网络的输出为目标待处理图像对应的特征向量，该特征向量中的任一元素用于表征该目标待处理图像中的动作为该任一元素对应的动作的概率值。

请参见图7，图7为本申请实施例提供的一种图像处理方法700的流程示意图。如图7所示，方法700包括步骤S710和步骤S720。

步骤S710，确定孪生注意力网络；其中，所述孪生注意力网络包括N个并行的多Header注意力网络，每个所述多Header注意力网络包括变换器Transformer和M个并行的Header，所述Transformer和所述M个并行的Header连接；所述N和所述M为大于或等于2的整数。

步骤S720，获取M张待处理图像，并将所述M张待处理图像分别输入每个多Header注意力网络中进行图像处理，得到所述每个多Header注意力网络的处理结果；其中，所述每个多Header注意力网络中M个并行的Header用于分别对目标待处理图像和M-1张参考待处理图像进行特征提取，得到目标特征矩阵和M-1个参考特征矩阵；所述目标特征矩阵与所述目标待处理图像对应，所述M-1个参考特征矩阵分别与所述M-1张参考待处理图像一一对应；所述每个多Header注意力网络中的Transformer用于根据所述M-1个参考特征矩阵对所述目标特征矩阵进行处理，得到第一特征矩阵。

其中，上述M张待处理图像可以是连续多帧或非连续多帧，且每张待处理图像的尺寸相同；例如，当M张待处理图像为非连续多帧时，该N张待处理图像可以是视频中的第1帧、第3帧…第i帧、第i+2帧…第2M-1帧，本申请对此不限定。

具体地，上述步骤S710和S720中孪生注意力网络的具体结构和在进行图像处理时各结构对应的功能可以参照上述图5和图6所示实施例，此处不再赘述。

可以看出，在本申请实施例中，可以采用第一方面中的孪生注意力网络进行图像处理，由于该孪生注意力网络中的每个多Header注意力网络包含多个Header，该多个Header可以分别用于对目标待处理图像和M-1张参考待处理图像进行特征提取，从而使得后续Transformer可以利用参考待处理图像的相关信息对目标待处理图像进行处理，进而提高孪生注意力网络的图像处理能力。此外，Transformer可以基于其在时域和空域上的注意力机制，利用参考待处理图像中的参考信息对目标待处理图像中的目标特征进行最大程度的加强或者减弱，进而得到更加准确的第一特征矩阵，提升图像处理效果。

在一种可行的实施方式中，上述目标特征包括所述目标待处理图像中的噪声、对象或对象的动作。

具体地，目标特征的含义可以参见图5和图6所述实施例中的描述，本申请实施例对目标特征不限定。

可以看出，本申请实施例中的孪生注意力网络由于每个多Header注意力网络包含多个Header，因而可以引入多帧信息；同时，Transformer注意力机制可以充分利用多帧信息，因而孪生注意力网络可以根据不同图像处理任务对不同目标特征进行对应强化或弱化，即上述网络的泛化能力强。

具体地，上述第一图像数据集可以是带标签的图像数据集，第一图像数据集中每张图像所带的标签可以是该图像中的噪声、图像中的目标对象或对象的动作类别。上述初始多Header注意力网络的结构和各结构的功能可参见图6和图7实施例中的描述，此处不再赘述。

上述利用第一图像数据集对初始多Header注意力网络进行训练的具体可以如下：在每次训练过程中，根据输出结果和输入图像的标签计算损失函数的数值，并根据该数值更新网络参数。在达到预设条件后，停止训练过程，得到上述多Header注意力网络。其中，训练终止的预设条件可以根据实际场景进行确定，例如，可以是训练次数达到第一预设次数，或损失函数的数值低于第一预设值等，本申请对此不限定。

上述基于N个所述多Header注意力网络确定所述孪生注意力网络，包括：在预训练过程结束后，利用N个多Header注意力网络构建上述孪生注意力网络；该N个多Header注意力网络中每个多Header注意力网络在结构上是并行的，且每个多Header注意力网络中的参数相同。

在一种可行的实施方式中，所述将所述M张待处理图像分别输入每个多Header注意力网络中进行图像处理，得到所述每个多Header注意力网络的处理结果之前，所述方法还包括：利用第二图像数据集对所述孪生注意力网络进行训练，以更新所述孪生注意力网络中的参数；其中，更新后的孪生注意力网络包含的所述每个多Header注意力网络中的参数不同。

具体地，在将上述孪生注意力网络泛化到不同任务进行图像处理之前，可以利用待处理任务对应的图像数据集对孪生注意力网络进行训练，以对孪生注意力网络中的参数进行微调，使得孪生注意力网络中每个多Header注意力网络中的参数不同，从而提升孪生注意力网络在后续对应的图像处理任务中处理效果。其中，上述第二图像数据集可以是带标签数据集或不带标签数据集。在利用第二图像数据集对孪生注意力网络进行训练时，每个多Header注意力网络输入的N张训练图像相同。

进一步，可选地，针对不同图像处理任务，上述的训练过程可以不同，下面将分别描述本申请实施例中三种任务下的利用第二图像数据集进行训练的过程：

(1)图像恢复

此任务使用的第二数据集可以是待恢复的图像，即无标签图像数据。可选地，在每次训练过程中，每个多Header注意力网络对应的目标训练图像相同，即孪生注意力网络针对一张目标训练图像进行图像恢复，得到每个多Header注意力网络输出的复原图像，共M张。进一步，可选地，比较M张复原图像之间的差异，根据预定目标来调整每个多Header注意力网络中的参数，该预定目标可以是N张复原图像之间的第一差异最小。训练结束条件可以是训练次数达到第二预设次数或第一差异低于第二预设值或其它条件，本申请对此不限定。其中，第一差异的计算方式可以是N张复原图像中每两张复原图像间差值后的平均值，本申请对第一差异的计算方式不限定。

(2)动作识别

此任务使用的第二数据集可以是带标签的图像，图像标签可以是每张图像对应的动作类别。可选地，在每次训练过程中，每个多Header注意力网络对应的目标训练图像不同，即每个多Header注意力网络针对不同目标训练图像进行图像中动作的识别，得到每个多Header注意力网络输出的特征向量，该特征向量中的任一元素用于表征该目标训练图像中的动作为该任一元素对应的动作的概率值。每个多Header注意力网络输出的特征向量表征每个多Header注意力网络对与其对应的目标训练图像中动作识别的结果。基于每个多Header注意力网络输出的特征向量与对应目标训练图像的标签之间的第二差异，分别调整每个多Header注意力网络中的参数。训练结束条件可以是训练次数达到第三预设次数或第二差异低于第三预设值或其它条件，本申请对此不限定。

(3)目标检测

此任务使用的第二数据集可以是带标签的图像，图像标签可以是每张图像对应的待识别对象。可选地，在每次训练过程中，每个多Header注意力网络对应的目标训练图像不同，即每个多Header注意力网络针对不同目标训练图像进行该图像中动作的识别，得到每个多Header注意力网络输出的特征图。对每个特征图中的待识别对象的位置进行提取，基于提取后的位置与每个特征图对应目标训练图像的标签之间的第三差异，分别调整每个多Header注意力网络中的参数。训练结束条件可以是训练次数达到第四预设次数或第三差异低于第四预设值或其它条件，本申请对此不限定。

可以看出，在本申请实施例中，当将上述孪生注意力网络泛化到不同图像处理任务之前，可以利用相应任务对应的第二数据集对上述预训练后的孪生注意力网络进行训练，以对网络中的参数进行微调，即无需大量训练过程就得到适应不同图像处理任务的孪生注意力网络，从而提升后续在对应图像处理任务中的处理效果。同时，在图像恢复任务的每次训练过程中，优化目标为使每个多Header注意力网络的输出结果尽可能相同，由于M张待处理图像是乱序输入每个多Header注意力网络，因而可以有效调整N个并行的多Header注意力网络中的参数，使得网络参数达到最优，进而在后续图像恢复任务中得到高质量的复原图像。在目标检测和动作识别过程中，由于每个多Header注意力网络是独立进行训练的，因而在后续图像处理任务中，N个并行多Header注意力网络可以有效提升对应图像处理的速度。

具体地，图像恢复任务下孪生注意力网络中的各网络结构的功能可以参见前述实施例，在得到每个多Header注意力网络输出的恢复图像后，可以对每个多Header注意力网络输出的恢复图像进行加权平均，得到目标待处理图像对应的复原图像，或以任一多Header注意力网络的输出复原图像作为目标待处理图像对应的复原图像，本申请对此不限定。目标检测任务下孪生注意力网络中的各网络结构的功能可以参见前述实施例，此任务下，在得到每个多Header注意力网络输出的特征图后，根据预设像素阈值从每个多Header注意力网络输出的特征图中提取出待检测目标(对象)的位置；该位置为每个多Header注意力网络对应目标待处理图像中待检测目标的位置。动作识别任务下孪生注意力网络中的各网络结构的功能可以参见前述实施例，此任务下，可选地，在得到每个多Header注意力网络输出的特征向量后，将特征向量中最大元素对应的动作类别作为每个多Header注意力网络对应目标待处理图像中待识别动作的类别。

在一种可行的实施方式中，当目标待处理图像对应目标复原图像的复原效果较差时，可以基于参考待处理图像对应的参考复原图像对目标待处理图像的目标复原图像进行优化，以得到高质量目标复原图像。

具体地，上述用于对目标复原图像进行优化的参考复原图像可以是一张或多张。当采用多张参考复原图像进行优化时，可选地，可以利用目标复原图像相邻的一张参考复原图像与目标复原图像对应像素点进行相减，得到每个像素点的残差；将残差值大于预设残差阈值的像素点作为待优化像素点。对于待优化像素点中的目标待优化像素点，在参考复原图像中分别获取与目标待优化像素点位置相同的参考像素点的像素值；其中，该目标待优化像素点为待优化像素点中的一个。根据每个参考像素点的像素值、目标待优化像素点的像素值，以及每个参考像素点和目标待优化像素点对应的预设权重，对每个参考像素点的像素值和目标待优化像素点的像素值进行加权，得到目标待优化像素点的目标复原像素值。对每个待优化像素点按照上述目标待优化像素点的复原过程进行相应处理，得到每个待优化像素点的复原像素值；然后利用每个待优化像素点的复原像素值更新目标复原图像，得到优化后的目标复原图像。

可以看出，在本申请实施例中，对于复原效果较差的复原图像，还可以采用相邻的多张高质量复原图片对该复原效果较差的复原图像进行优化，从而提升图像恢复的效果。

请参见图8，图8为本申请实施例中一种图像处理装置800的结构示意图。如图8所示，该装置800包括确定单元810、获取单元820和处理单元830。

确定单元810，用于确定孪生注意力网络；其中，所述孪生注意力网络包括N个并行的多Header注意力网络，每个所述多Header注意力网络包括变换器Transformer和M个并行的Header，所述Transformer和所述M个并行的Header连接；所述N和所述M为大于或等于2的整数；获取单元820，用于获取M张待处理图像；处理单元830，用于将所述M张待处理图像分别输入每个多Header注意力网络中进行图像处理，得到所述每个多Header注意力网络的处理结果；其中，所述每个多Header注意力网络中M个并行的Header用于分别对目标待处理图像和M-1张参考待处理图像进行特征提取，得到目标特征矩阵和M-1个参考特征矩阵；所述目标特征矩阵与所述目标待处理图像对应，所述M-1个参考特征矩阵分别与所述M-1张参考待处理图像一一对应；所述每个多Header注意力网络中的Transformer用于根据所述M-1个参考特征矩阵对所述目标特征矩阵进行处理，得到第一特征矩阵。

请参见图9，图9是本申请实施例提供的一种孪生注意力网络训练方法900的流程示意图。如图9所示，方法900包括步骤S910和步骤S920。

步骤S910，获取图像数据集。

可选地，该图像数据集可以是带标签和/或不带标签的图像数据集，本申请对此不限定。

步骤S920，利用所述图像数据集对所述孪生注意力网络进行训练，以更新所述孪生注意力网络中的参数；其中，所述孪生注意力网络的可以是上述图5和图6实施例中描述的任一种网络。

具体地，上述注意力网络训练方法900的具体过程可以参见图7方法实施例中相关训练过程的描述，此处不再赘述。

请参见图10，图10是本申请实施例中一种模型训练装置1000的结构示意图。如图10所示，装置1000包括获取单元1010和处理单元1020。

获取单元1010，用于获取图像数据集。

处理单元1020，用于利用所述图像数据集对所述孪生注意力网络进行训练，以更新所述孪生注意力网络中的参数；其中，所述孪生注意力网络的可以是上述图5和图6实施例中描述的任一种网络。

具体地，上述处理单元中的具体训练过程可以参见图7方法实施例中相关训练过程的描述，此处不再赘述。

请参见图11，图11是本申请实施例提供的一种模型训练装置1100的硬件结构示意图。图11所示的模型训练装置1100(该装置1100具体可以是一种计算机设备)包括存储器1101、处理器1102、通信接口1103以及总线1104。其中，存储器1101、处理器1102、通信接口1103通过总线1104实现彼此之间的通信连接。

存储器1101可以是只读存储器(read only memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(random access memory，RAM)。存储器1101可以存储程序，当存储器1101中存储的程序被处理器1102执行时，处理器1102和通信接口1103用于执行本申请实施例的孪生注意力网络的训练方法的各个步骤。

处理器1102可以采用通用的中央处理器(central processing unit，CPU)，微处理器，应用专用集成电路(application specific integrated circuit，ASIC)，图形处理器(graphics processing unit，GPU)或者一个或多个集成电路，用于执行相关程序，以实现本申请实施例中模型训练装置中的单元所需执行的功能，或者执行本申请方法实施例的模型训练方法。

处理器1102还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请的孪生注意力网络的训练方法的各个步骤可以通过处理器1102中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1102还可以是通用处理器、数字信号处理器(digital signal processing，DSP)、专用集成电路(ASIC)、现成可编程门阵列(fieldprogrammable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1101，处理器1102读取存储器1101中的信息，结合其硬件完成本申请实施例的模型训练装置中包括的单元所需执行的功能，或者执行本申请方法实施例的孪生注意力网络的训练方法。

通信接口1103使用例如但不限于收发器一类的收发装置，来实现装置1100与其他设备或通信网络之间的通信。例如，可以通过通信接口1103获取训练数据。

总线1104可包括在装置1100各个部件(例如，存储器1101、处理器1102、通信接口1103)之间传送信息的通路。

请参见图12，图12是本申请实施例提供的图像处理装置1200的硬件结构示意图。其中，图像处理装置1200可以是汽车、摄像头、电脑、手机、可穿戴设备或其它可能的终端设备，本申请对此不限定。图12所示的图像处理装置1200(该装置1200具体可以是一种计算机设备)包括存储器1201、处理器1202、通信接口1203以及总线1204。其中，存储器1201、处理器1202、通信接口1203通过总线1204实现彼此之间的通信连接。

存储器1201可以是只读存储器(read only memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(random access memory，RAM)。存储器1201可以存储程序，当存储器1201中存储的程序被处理器1202执行时，处理器1202和通信接口1203用于执行本申请实施例的图像处理方法的各个步骤。

处理器1202可以采用通用的中央处理器(central processing unit，CPU)，微处理器，应用专用集成电路(application specific integrated circuit，ASIC)，图形处理器(graphics processing unit，GPU)或者一个或多个集成电路，用于执行相关程序，以实现本申请实施例的图像处理装置中的单元所需执行的功能，或者执行本申请方法实施例的图像处理方法。

处理器1202还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请的图像处理方法的各个步骤可以通过处理器1202中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1202还可以是通用处理器、数字信号处理器(digitalsignal processing，DSP)、专用集成电路(ASIC)、现成可编程门阵列(field programmablegate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1201，处理器1202读取存储器1201中的信息，结合其硬件完成本申请实施例的图像处理装置中包括的单元所需执行的功能，或者执行本申请方法实施例的图像处理方法。

通信接口1203使用例如但不限于收发器一类的收发装置，来实现装置1200与其他设备或通信网络之间的通信。例如，可以通过通信接口1203获取训练数据。

总线1204可包括在装置1200各个部件(例如，存储器1201、处理器1202、通信接口1203)之间传送信息的通路。

应注意，尽管图11和图12所示的装置1100和装置1200仅仅示出了存储器、处理器、通信接口，但是在具体实现过程中，本领域的技术人员应当理解，装置1100和装置1200还包括实现正常运行所必须的其他器件。同时，根据具体需要，本领域的技术人员应当理解，装置1100和装置1200还可包括实现其他附加功能的硬件器件。此外，本领域的技术人员应当理解，装置1100和装置1200也可仅仅包括实现本申请实施例所必须的器件，而不必包括图11或图12中所示的全部器件。

可以理解，上述装置1100相当于图1中的训练设备120，装置1200相当于图1中的执行设备110。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

请参见图13，图13是本申请实施例中一种服务器的硬件结构示意图，所述服务器包括存储器1301、处理器1302、通信接口1303以及总线1304。其中，存储器1301、处理器1302、通信接口1303通过总线1304实现彼此之间的通信连接。

存储器1301可以是只读存储器(read only memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(random access memory，RAM)。存储器1301可以存储程序，当存储器1301中存储的程序被处理器1302执行时，处理器1302和通信接口1303用于执行本申请实施例的孪生注意力网络的训练方法的各个步骤。

处理器1302可以采用通用的中央处理器(central processing unit，CPU)，微处理器，应用专用集成电路(application specific integrated circuit，ASIC)，图形处理器(graphics processing unit，GPU)或者一个或多个集成电路，用于执行相关程序，以实现本申请实施例中孪生注意力网络的训练装置中的单元所需执行的功能，或者执行本申请方法实施例的图像处理方法和/或模型训练方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种孪生注意力网络，其特征在于，所述孪生注意力网络包括N个并行的多Header注意力网络，所述N为大于或等于2的整数；其中，

每个所述多Header注意力网络包括变换器Transformer和M个并行的Header，所述Transformer和所述M个并行的Header连接；其中，所述M为大于或等于2的整数；

所述每个多Header注意力网络中M个并行的Header用于分别对目标待处理图像和M-1张参考待处理图像进行特征提取，得到目标特征矩阵和M-1个参考特征矩阵；其中，所述目标特征矩阵与所述目标待处理图像对应，所述M-1个参考特征矩阵分别与所述M-1张参考待处理图像一一对应；

所述每个多Header注意力网络中的Transformer用于根据所述M-1个参考特征矩阵对所述目标特征矩阵进行处理，得到第一特征矩阵。

2.根据权利要求1所述的注意力网络，其特征在于，所述Transformer包括时域注意力网络和自注意力网络；所述每个多Header注意力网络中的Transformer用于根据所述M-1个参考特征矩阵对所述目标特征矩阵进行处理，得到第一特征矩阵，包括：

所述时域注意力网络基于所述M-1个参考特征矩阵和所述目标特征矩阵生成对应的第一询问向量、第一键值向量和第一价值向量；并基于所述第一询问向量、所述第一键值向量和所述第一价值向量得到所述目标待处理图像对应的第二特征向量；

所述自注意力网络基于所述第二特征向量生成对应的第二询问向量、第二键值向量和第二价值向量；并基于所述第二询问向量、所述第二键值向量和所述第二价值向量生成所述第一特征矩阵。

3.根据权利要求1或2所述的注意力网络，其特征在于，所述每个多Header注意力网络还包括解码网络；所述解码网络与所述每个多Header注意力网络中的Transformer相连；

所述解码网络用于对所述第一特征矩阵进行处理，得到所述每个多Header注意力网络的输出结果；其中，所述输出结果包括所述目标待处理图像对应的特征图或特征向量。

4.一种图像处理方法，其特征在于，所述方法包括：

确定孪生注意力网络；其中，所述孪生注意力网络包括N个并行的多Header注意力网络，每个所述多Header注意力网络包括变换器Transformer和M个并行的Header，所述Transformer和所述M个并行的Header连接；所述N和所述M为大于或等于2的整数；

获取M张待处理图像，并将所述M张待处理图像分别输入每个多Header注意力网络中进行图像处理，得到所述每个多Header注意力网络的处理结果；

其中，所述每个多Header注意力网络中M个并行的Header用于分别对目标待处理图像和M-1张参考待处理图像进行特征提取，得到目标特征矩阵和M-1个参考特征矩阵；所述目标特征矩阵与所述目标待处理图像对应，所述M-1个参考特征矩阵分别与所述M-1张参考待处理图像一一对应；所述每个多Header注意力网络中的Transformer用于根据所述M-1个参考特征矩阵对所述目标特征矩阵进行处理，得到第一特征矩阵。

5.根据权利要求4所述的方法，其特征在于，所述N个并行的多Header注意力网络中每个多Header注意力网络的参数相同或不同。

6.根据权利要求4或5中所述的方法，其特征在于，所述确定孪生注意力网络，包括：

获取初始多Header注意力网络；

利用第一图像数据集对所述初始多Header注意力网络进行训练，得到所述多Header注意力网络；

基于所述N个多Header注意力网络确定所述孪生注意力网络；其中，所述孪生注意力网络包含的N个多Header注意力网络中每个多Header注意力网络的参数相同。

7.根据权利要求4-6中任一项所述的方法，其特征在于，在所述将所述M张待处理图像分别输入每个多Header注意力网络中进行图像处理，得到所述每个多Header注意力网络的处理结果之前，所述方法还包括：

利用第二图像数据集对所述孪生注意力网络进行训练，以更新所述孪生注意力网络中的参数；其中，更新后的孪生注意力网络包含的所述每个多Header注意力网络中的参数不同。

8.根据权利要求4-7中任一项所述的方法，其特征在于，所述将所述M张待处理图像分别输入每个多Header注意力网络中进行图像处理，得到所述每个多Header注意力网络的处理结果，包括：

将所述M张待处理图像分别输入所述每个多Header注意力网络中进行图像恢复，得到所述每个多Header注意力网络输出的恢复图像；

或

将所述M张待处理图像分别输入所述每个多Header注意力网络中进行目标检测，得到所述每个多Header注意力网络输出的表征待检测目标的特征图；

或

将所述M张待处理图像分别输入所述每个多Header注意力网络中进行动作识别，得到所述每个多Header注意力网络输出的表征动作类别的特征向量。

9.一种图像处理装置，其特征在于，所述装置包括：

确定单元，用于确定孪生注意力网络；其中，所述孪生注意力网络包括N个并行的多Header注意力网络，每个所述多Header注意力网络包括变换器Transformer和M个并行的Header，所述Transformer和所述M个并行的Header连接；所述N和所述M为大于或等于2的整数；

获取单元，用于获取M张待处理图像；

处理单元，用于将所述M张待处理图像分别输入每个多Header注意力网络中进行图像处理，得到所述每个多Header注意力网络的处理结果；

10.根据权利要求9所述的方法，其特征在于，所述N个并行的多Header注意力网络中每个多Header注意力网络的参数相同或不同。

11.根据权利要求9或10所述的装置，其特征在于，所述确定单元具体用于：

获取初始多Header注意力网络；

基于所述N个所述多Header注意力网络确定所述孪生注意力网络；其中，所述孪生注意力网络包含的N个多Header注意力网络中每个多Header注意力网络的参数相同。

12.根据权利要求9-11中任一项所述的装置，其特征在于，在所述将所述M张待处理图像分别输入每个多Header注意力网络中进行图像处理，得到所述每个多Header注意力网络的处理结果之前，所述处理单元还用于：

13.根据权利要求9-12中任一项所述的装置，其特征在于，在所述将所述M张待处理图像分别输入每个多Header注意力网络中进行图像处理，得到所述每个多Header注意力网络的处理结果的方面，所述处理单元具体用于：

将所述M张待处理图像分别输入所述每个多Header注意力网络中进行图像恢复，得到所述每个多Header注意力网络输出的复原图像；

或

14.一种孪生注意力网络的训练方法，其特征在于，所述方法包括：

获取图像数据集，并利用所述图像数据集对所述孪生注意力网络进行训练，以更新所述孪生注意力网络中的参数；其中，所述孪生注意力网络为权利要求1-3中任一项所述的网络。

15.一种模型训练装置，其特征在于，所述装置包括：

获取单元，用于获取图像数据集；

训练单元，用于利用所述图像数据集对所述孪生注意力网络进行训练，以更新所述孪生注意力网络中的参数；其中，所述孪生注意力网络为权利要求1-3中任一项所述的网络。

16.一种芯片系统，其特征在于，所述芯片系统包括至少一个处理器、存储器和接口电路，所述存储器、所述接口电路和所述至少一个处理器通过线路互联，所述至少一个存储器中存储有指令；所述指令被所述处理器执行时，权利要求4-8中任意一项所述的方法得以实现。

17.一种终端设备，其特征在于，其特征在于，所述终端设备包括如权利要求16中所述芯片系统，以及耦合至所述芯片系统的分立器件；其中，所述终端设备包括汽车、摄像头、电脑、手机或可穿戴设备。

18.一种计算机可读存储介质，其特征在于，所述计算机可读介质存储用于设备执行的程序代码，该程序代码包括用于执行如权利要求4至8中任一项所述的方法。

19.一种计算机程序产品，其特征在于，所述计算机程序产品包括程序指令，当所述程序指令在计算机上运行时，权利要求4-8中任意一项所述的方法得以实现。

20.一种服务器，其特征在于，所述服务器包括处理器、存储器和总线，其中：

所述处理器和所述存储器通过所述总线连接；

所述存储器，用于存储计算机程序；

所述处理器，用于控制所述存储器，执行所述存储器上所存储的程序，以实现权利要求4至8中任意一项所述的方法。