CN106934397B

CN106934397B - 图像处理方法、装置及电子设备

Info

Publication number: CN106934397B
Application number: CN201710145253.1A
Authority: CN
Inventors: 王飞; 钱晨
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2017-03-13
Filing date: 2017-03-13
Publication date: 2020-09-01
Anticipated expiration: 2037-03-13
Also published as: WO2018166438A1; US10943145B2; CN106934397A; US20190311223A1

Abstract

本申请公开了图像处理方法和装置。上述方法的一具体实施方式包括：提取待处理的图像的特征，获得上述图像的第一特征图；基于上述第一特征图，生成上述图像的注意力图；融合上述注意力图和上述第一特征图，获得融合图；基于上述融合图，再次提取上述图像的特征。该实施方式实现了将注意力机制引入到图像处理中，有效地提高了从图像中获取信息的效率。

Description

图像处理方法、装置及电子设备

技术领域

本申请涉及计算机视觉技术领域，具体涉及一种图像处理方法、装置及电子设备。

背景技术

计算机视觉是使用计算机及相关设备对生物视觉的一种模拟，在此领域，视觉注意力机制一直为人们所关注。人类可以通过视觉注意力机制快速扫描视野范围内的整体区域，并将与目标物体无关的区域滤除，而仅仅关注目标物体所在的区域。因此，注意力机制极大的提高了人类对于目标物体的信息获取效率。

发明内容

本申请提出了一种图像处理的技术方案。

第一方面，本申请提供了一种图像处理方法，包括：提取待处理的图像的特征，获得上述图像的第一特征图；基于上述第一特征图，生成上述图像的注意力图；融合上述注意力图和上述第一特征图，获得融合图；基于上述融合图，再次提取上述图像的特征。

在一些实施例中，上述基于上述第一特征图，生成上述图像的注意力图，包括：对上述第一特征图依次进行N次下采样处理，其中，N为大于或等于1的整数；对第N次下采样处理后的特征图依次进行N次上采样处理，获得上述图像的注意力图，其中，上述注意力图的分辨率与上述第一特征图相同。

在一些实施例中，上述对第N次下采样处理后的特征图依次进行N次上采样处理，包括：对第N-n次下采样处理后的特征图和第n次上采样处理后的特征图进行卷积操作；对卷积操作后的特征图进行第n+1次上采样处理，n为大于1且小于N的整数。

在一些实施例中，上述对第N-n次下采样处理后的特征图和第n次上采样处理后的特征图进行卷积操作，包括：对上述第N-n次下采样处理后的特征图进行卷积处理，得到卷积图；将上述卷积图中各像素的特征值与第n次上采样处理后的特征图中相应像素的特征值相加；对相加后的特征图进行卷积操作。

在一些实施例中，上述对第N次下采样处理后的特征图依次进行N次上采样处理，还包括：对第N次下采样处理后的特征图进行至少一次卷积操作；对最后一次卷积操作后的特征图进行第1次上采样处理。

在一些实施例中，上述融合上述注意力图和上述第一特征图，获得融合图，包括：对上述第一特征图进行至少一次卷积操作；融合上述注意力图和最后一次卷积操作后的第一特征图，获得上述融合图。

在一些实施例中，上述融合上述注意力图和上述第一特征图，获得融合图，包括：至少对上述注意力图进行归一化处理；融合归一化处理后的注意力图和上述第一特征图，获得上述融合图。

在一些实施例中，上述至少对上述注意力图进行归一化处理，包括：对上述注意力图依次进行至少一次卷积处理；对最后一次卷积处理后的注意力图进行归一化处理。

在一些实施例中，上述融合上述注意力图和上述第一特征图，获得融合图，包括：将归一化处理后的注意力图中各像素的权重值与上述第一特征图中相应像素的特征值相乘，获得上述融合图。

在一些实施例中，上述融合上述注意力图和上述第一特征图，获得融合图，包括：将归一化处理后的注意力图中各像素的权重值与上述第一特征图中相应像素的特征值相乘，获得相乘图；将上述相乘图中各像素的特征值与上述第一特征图中相应像素的特征值相加，获得上述融合图。

在一些实施例中，在上述基于上述融合图，再次提取上述图像的特征之后，上述方法还包括以下至少之一：根据再次提取的上述图像的特征，检测或识别上述图像中包括的物体；根据再次提取的上述图像的特征，确定上述图像中包括的物体的类别；根据再次提取的上述图像的特征，对上述图像进行分割。

第二方面，本申请提供了一种图像处理装置，上述装置包括：第一特征提取单元，用于提取待处理的图像的特征，获得上述图像的第一特征图；注意力提取单元，用于基于上述第一特征图，生成上述图像的注意力图；融合单元，用于融合上述注意力图和上述第一特征图，获得融合图；第二特征提取单元，用于基于上述融合图，再次提取上述图像的特征。

在一些实施例中，上述注意力提取单元包括：下采样模块，用于对上述第一特征图依次进行N次下采样处理，其中，N为大于或等于1的整数；上采样模块，用于对第N次下采样处理后的特征图依次进行N次上采样处理，获得上述图像的注意力图，其中，上述注意力图的分辨率与上述第一特征图相同。

在一些实施例中，上述下采样模块进一步用于：对第N-n次下采样处理后的特征图和第n次上采样处理后的特征图进行卷积操作；对卷积操作后的特征图进行第n+1次上采样处理，n为大于1且小于N的整数。

在一些实施例中，上述下采样模块进一步用于：对上述第N-n次下采样处理后的特征图进行卷积处理，得到卷积图；将上述卷积图中各像素的特征值与第n次上采样处理后的特征图中相应像素的特征值相加；对相加后的特征图进行卷积操作。

在一些实施例中，上述上采样模块进一步用于：对第N次下采样处理后的特征图进行至少一次卷积操作；对最后一次卷积操作后的特征图进行第1次上采样处理。

在一些实施例中，上述装置还包括：第二卷积单元，用于对上述第一特征图进行至少一次卷积操作；以及上述融合单元，用于融合上述注意力图和最后一次卷积操作后的第一特征图，获得上述融合图。

在一些实施例中，上述装置还包括：归一化单元，用于至少对上述注意力图进行归一化处理；以及上述融合单元，用于融合归一化处理后的注意力图和上述第一特征图，获得上述融合图。

在一些实施例中，上述装置还包括：第二卷积单元，用于对上述注意力图依次进行至少一次卷积处理；以及上述归一化单元，用于对最后一次卷积处理后的注意力图进行归一化处理。

在一些实施例中，上述融合单元进一步用于：将归一化处理后的注意力图中各像素的权重值与上述第一特征图中相应像素的特征值相乘，获得上述融合图。

在一些实施例中，上述融合单元进一步用于：将归一化处理后的注意力图中各像素的权重值与上述第一特征图中相应像素的特征值相乘，获得相乘图；将上述相乘图中各像素的特征值与上述第一特征图中相应像素的特征值相加，获得上述融合图。

在一些实施例中，上述装置还包括以下至少之一：检测单元，用于根据再次提取的上述图像的特征，检测或识别上述图像中包括的物体；分类单元，用于根据再次提取的上述图像的特征，确定上述图像中包括的物体的类别；分割单元，用于根据再次提取的上述图像的特征，对上述图像进行分割。

第三方面，本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时完成以下操作：提取待处理的图像的特征，获得上述图像的第一特征图；基于上述第一特征图，生成上述图像的注意力图；融合上述注意力图和上述第一特征图，获得融合图；基于上述融合图，再次提取上述图像的特征。

第四方面，本申请还提供了一种电子设备，其特征在于，包括：存储器，存储可执行指令；一个或多个处理器，与存储器通信以执行可执行指令从而完成以下操作：提取待处理的图像的特征，获得上述图像的第一特征图；基于上述第一特征图，生成上述图像的注意力图；融合上述注意力图和上述第一特征图，获得融合图；基于上述融合图，再次提取上述图像的特征。

本申请提供的图像处理方法、装置和电子设备，首先提取待处理的图像的特征，得到上述图像的第一特征图，基于上述第一特征图，生成上述图像的注意力图，再将注意力图和第一特征图融合，最后再基于得到的融合图再次提取上述图像的特征，从而实现了将注意力机制引入到图像处理中，有效地提高了从图像中获取信息的效率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是根据本申请的用于检测目标物体的方法的一个实施例的流程图；

图2是根据本申请的用于检测目标物体的方法的生成注意力图的流程示意图；

图3a是图2所示的流程对应的一种网络结构的示意图；

图3b是图2所示的流程对应的另一种网络结构的示意图；

图4是根据本申请的用于检测目标物体的方法的融合注意力图和第一特征图的流程示意图；

图5a是图4所示的流程对应的神经网络的结构示意图；

图5b是图5a所示的神经网络的处理过程示意图；

图6是图5a所示的神经网络构成的深度卷积神经网络的结构示意图；

图7是根据本申请的图像处理装置的一个实施例的结构示意图；

图8是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

参考图1，示出了根据本申请的图像处理方法的一个实施例的流程100。本实施例的图像处理方法，包括以下步骤：

步骤101，提取待处理的图像的特征，获得上述图像的第一特征图。

在本实施例中，待处理的图像可以是包含各种物体、建筑、人物、景色的图像，其可以是静态图像，也可以是视频中的一帧图像。在提取上述待处理的图像的特征时，可以利用神经网络中的一个或多个卷积层来实现。在提取了上述图像的特征后，得到上述图像的第一特征图。

步骤102，基于第一特征图，生成上述图像的注意力图。

在获得上述待处理的图像的第一特征图后，可以对上述特征图进行一系列的处理，得到上述图像的注意力图。上述一系列的处理例如可以是：对第一特征图进行多次下采样处理、对第一特征图交替进行下采样和上采样处理、对第一特征图进行多次下采样处理后再进行多次上采样处理、对第一特征图进行卷积或平均池化等等。基于特征图生成注意力图的方式可采用本申请实施例下文提供的任一种方法，也可采用基于注意力机制生成注意力图的其他现有方法，本申请实施例并不限制。基于计算机视觉技术的注意力机制生成的注意力图可以包含上述待处理的图像的全局信息，并且对上述全局信息中还包括注意力关注的特征的权重信息，可以模拟人的视觉系统，重点关注图像当中权重大的特征信息，而不丧失图像的全局信息。

步骤103，融合注意力图和第一特征图，获得融合图。

在得到注意力图和第一特征图后，可以将二者进行融合，以获得上述待处理的图像中包含的所有物体、人物、景色的有效信息，也就是说，利用上述融合图，能够更有效地表达待处理的图像中的物体、人物、景色等信息。

步骤104，基于上述融合图，再次提取上述图像的特征。

本实施例中，在得到上述融合图后，可以再次提取上述图像的特征，得到的特征可以进行进一步的应用。在再次提取上述图像的特征时，可以利用多个级联的卷积层或残差单元来实现。

在具体实践中，本实施例的图像处理方法，可以由神经网络来实现。可以理解的是，为了实现更好的提取上述待处理的图像的特征，可以多次重复上述神经网络，以形成更深的神经网络。这样，能够得到待处理的图像的更全面的全局信息，从而能够提高对待处理的图像的特征表达能力。

可以理解的是，上述神经网络在使用前可以利用带有标注信息的图片来训练上述神经网络，并根据训练结果反向传播以修改神经网络的参数，完成上述神经网络的训练。

本申请的上述实施例提供的图像处理方法，首先提取待处理的图像的特征，得到上述图像的第一特征图，基于上述第一特征图，生成上述图像的注意力图，再将注意力图和第一特征图融合，最后再基于得到的融合图再次提取上述图像的特征，从而实现了将注意力机制引入到图像处理中，有效地提高了从图像中获取信息的效率。

参考图2，其示出了根据本申请的图像处理方法的生成注意力图的流程200。如图2所示，本实施例中通过以下步骤生成待处理的图像的注意力图。

步骤201，对第一特征图依次进行N次下采样处理。

本实施例中，N为整数，且N≥1。在对步骤101中得到的第一特征图进行下采样处理，可以获得第一特征图的全局信息。但下采样的次数越多，得到的全局信息图的维度与第一特征图的维度相差就越大。本实施例中，上述下采样操作可以通过以下但不限于以下方式来实现：不同步长的池化层、不同步长的卷积层、平均池化层。

例如，利用步长为2的池化层对第一特征图进行下采样时，假设第一特征图的分辨率为224×224，经过3次下采样后，得到的特征图的分辨率为28×28。由于经过N次下采样后得到的特征图与第一特征图的分辨率不同，虽然经过N次下采样后得到的特征图中包含了第一特征图的全局信息，但其无法指导分辨率为224×224的特征进行学习。

步骤202，对第N次下采样处理后的特征图依次进行N次上采样处理。

本实施例中，在得到N次下采样处理后的特征图后，可以对上述特征图进行N次上采样处理。这样经N次上采样处理后的特征图的分辨率与第一特征图的分辨率相同。本实施例中，上述上采样操作可以通过以下但不限于以下方式来实现：解卷积层、最邻近插值层、线性插值层。

例如，经过3次下采样后，得到的特征图的分辨率为28×28，此特征图再经过3次上采样处理后，得到的注意力图的分辨率与第一特征图的分辨率相同。

在本实施例的一些可选的实现方式中，在每次下采样及每次上采样处理后，还可以对经下采样处理得到的特征图以及对经上采样处理得到的特征图进行卷积操作。在对经上采样处理得到的特征图进行卷积操作后，再进行下一次的上采样处理。即对第N-n次下采样处理后的特征图和第n次上采样处理后的特征图进行卷积操作；对卷积操作后的特征图进行第n+1次上采样处理。其中，n为正整数，且1＜n＜N。

可以理解的是，本实现方式中，在对经第N-1次上采样处理得到的特征图进行卷积操作后，进行第N次上采样处理，并且，不需要对经第N次上采样处理得到的注意力图进行卷积操作。本实现方式中的卷积操作，可以利用卷积层来实现，也可以利用残差单元来实现，本实现方式对此不做限定。上述残差单元可以是包括两个以上卷积层的网络结构。

本实现方式的图像处理方法，不仅注意力图的分辨率与第一特征图的分辨率相同，得到的注意力图可以用于指导后续对第一特征图中的特征进行学习；同时，通过在每次下采样处理和上采样处理后，对得到的特征图进行卷积操作，能够更好的学习得到的不同维度下特征图中的特征。

在本实施例的一些可选的实现方式中，在对第N-n次下采样处理后的特征图和第n次上采样处理后的特征图进行卷积操作时，还可以通过以下步骤来实现：

对第N-n次下采样处理后的特征图进行卷积处理，得到卷积图；将卷积图中各像素的特征值与第n次上采样处理后的特征图中相应像素的特征值相加；对相加后的特征图进行卷积操作。

本实现方式中，n为正整数，且1＜n＜N。N可以为一个预设值，也可以是根据第一特征图的分辨率计算得到的值，并且可通过如下计算方法来确定N的值：设置下采样处理后得到的特征图的最小分辨率，根据第一特征图的分辨率以及上述最小分辨率来确定能够进行的下采样的次数，即确定N的值。例如第一特征图的分辨率为56×56，设置的最小分辨率为7×7，每次下采样操作后，得到的特征图的分辨率降为下采样之前的特征图的四分之一，则N最大为3。

由于本实现方式可以对第一特征图进行N次下采样处理，然后再进行N次上采样处理，则在下采样处理的过程中以及上采用处理的过程中会得到分辨率相同的特征图。为了获得待处理的图像的更深层次的信息，可以对第N-n次下采样处理后的特征图进行卷积处理，得到卷积图。然后将卷积图中各像素的特征值与第n次上采样处理后的特征图中相应像素的特征值相加，然后对相加后的特征图进行卷积操作。

本实现方式的图像处理方法，将在下采样处理的过程中以及上采用处理的过程中得到的分辨率相同的特征图相加，能够获得待处理的图像的更深层次的信息。

在本实施例的一些可选的实现方式中，在对第N次下采样处理后的特征图依次进行N次上采样处理时，还可以通过以下步骤来实现：

对第N次下采样处理后的特征图进行至少一次卷积操作，并对最后一次卷积操作后的特征图进行第1次上采样处理。

本实现方式中，在最后一次下采样处理后，对得到的特征图进行卷积操作，得到全局信息图。然后对上述全局信息图再次进行卷积操作，然后对再次进行卷积操作后的特征图进行第一次上采样处理。这样，下采样处理过程与上采样处理过程为对称的两个处理过程，最后得到的注意力图更能够反映待处理的图像中包含的特征信息。

在实践中，本实现方式的图像处理方法可以采用图3a所示的网络结构来实现。如图3a所示，本实现方式的网络结构包括输入层301、级联的多个卷积层302、多个下采样单元303、多个上采样单元304、多个残差单元305以及输出层306。可以理解的是，本实现方式中的卷积操作由残差单元来实现。

其中，输入层301用于输入待处理的图像。级联的多个卷积层302用于提取待处理的图像的特征，得到第一特征图。可以理解的是，上述级联的多个卷积层302也可以由残差单元来实现。

每个下采样单元303包括一个下采样层3031和一个残差单元3032，下采样层3031用于对级联的多个卷积层302得到的第一特征图进行下采样处理，每经过一次下采样处理得到的特征图的分辨率就相当于第一特征图分辨率的四分之一。每个残差单元3032用于在每次下采样处理后对下采样处理后的特征图进行卷积操作，以提取下采样处理后的特征图的特征。举例来说，第一特征图的分辨率为56×56，经过上述下采样层3031的一次下采样处理后，得到的图像的分辨率为28×28，残差单元3032提取上述28×28的图像的特征。假如上述网络结构中包括3个下采样单元303，则经过第3个下采样单元处理后的得到的特征图的分辨率为7×7，且第3个下采样单元的残差单元提取了上述7×7的图像的特征，得到了第一特征图的全局信息图。可以理解的是，上述网络结构中的下采样单元303的数目可以是任意的，本实现方式并不对此进行限定。同时，可以理解的是，且每个下采样单元中的残差单元的结构可以相同，即包括相同数量的卷积层，但各个卷积层的参数不同。

在得到第一特征图的全局信息图后，利用上采样单元304对上述全局信息图继续处理。上述上采样单元304可以包括一个残差单元3041和上采样层3042，残差单元3041与残差单元3032的结构可以相同，但参数不同。

残差单元3041用于提取上述残差单元3032得到的全局信息图的特征，在提取了上述特征后，经上采样层3042的上采样处理，得到的特征图的分辨率为全局信息图分辨率的四倍。经过与下采样次数相同的上采样处理后，最后得到的注意力图的分辨率与第一特征图的分辨率相同。

可以理解的是，图3a中，下采样单元303中的下采样层可以通过最大池化层来实现，上采样单元304中的上采样层可以通过双线性插值层来实现。同时，每个下采样单元303和上采样单元304中还可以包括多个残差单元。具体可参考图3b，如图3b所示，下采样单元303’包括一个最大池化层和r个级联的残差单元，上采样单元304’包括r个级联的残差单元和一个内插层，且最后一个最大池化层和第一个双线性插值层之间包括2r个级联的残差单元。并且上采样过程中与下采样过程中得到的相同分辨率的特征图之间通过一个残差单元卷积后可以相加，因此，在最后一个最大池化层之前和第一个双线性插值层之后连接有一个残差单元305’。

由于在下采样和上采样的过程中，会得到分辨率相同的特征图，例如下采样过程中会得到分辨率为28×28、14×14和7×7的特征图，同样的，在上采样的过程中会得到分辨率为14×14、28×28和56×56的特征图。在下采样过程中得到的分辨率为14×14特征图，可以经一个残差单元305处理后与上采样过程中得到的分辨率为14×14特征图中对应像素的特征值相加，用于后续的上采样；在下采样过程得到的分辨率为28×28特征图，可以经一个残差单元304处理后与上采样过程中得到的分辨率为28×28特征图中对应像素的特征值相加，用于后续的上采样。这样的处理，可以捕捉待处理的图像中包含的物体的多尺度特征，同时可以增强注意力所关注的各物体的特征的强度，抑制注意力不关注的其它物体的特征的强度。

参考图4，其示出了根据本申请的图像处理方法中融合注意力图和第一特征图所采用的流程400。如图4所示，本实施例的融合操作具体可以通过以下步骤来实现：

步骤401，至少对注意力图进行归一化处理。

本实施例中，对注意力图进行归一化处理，可以将注意力图中各像素的权重值限定在[0,1]之间。上述归一化操作，具体可以通过sigmoid函数来实现，sigmoid函数是神经网络的阈值函数，其可以将变量映射到[0,1]之间。

步骤402，融合归一化处理后的注意力图和第一特征图，获得融合图。

在对注意力图进行归一化处理后，然后将归一化处理后的注意力图和第一特征图融合，得到融合图。

本实施例中，对注意力进行归一化操作一方面可以方便后续的数据处理，一方面可以促进后续的数据处理得到更准确的结果。

在本实施例的一些可选的实现方式中，在步骤401中对注意力图进行归一化处理前，可以先对注意力图进行至少一次卷积处理，然后对最后一次卷积处理后的注意力图再进行归一化处理。

在实践中，上述卷积操作可以通过卷积层来实现，具体的，可以设置该卷积层的卷积核为1×1，这样可以增强对注意力图中所包含的特征的表达能力。

在本实施例的一些可选的实现方式中，在步骤402中融合注意力图和第一特征图时，可以将归一化处理后的注意力图中各像素的权重值与第一特征图中相应像素的特征值相乘，得到融合图。

本实现方式中，由于注意力图与第一特征图的分辨率相同，因此注意力图中的各像素可以与第一特征图中的各像素一一对应。并且，步骤401中已对注意力图中各像素的权重值进行归一化处理，可以将归一化处理后的权重值与第一特征图中对应像素的特征值利用相乘的方法进行融合，将得到的相乘图作为融合图。

在本实施例的一些可选的实现方式中，在步骤402中得到上述相乘图后，还可以将得到的相乘图中各像素的特征值与第一特征图中相应像素的特征值相加，将相加后得到的特征图作为融合图。

由于得到的相乘图中包含了待处理的图像中的特征信息，这些特征信息可称为有用信息。并且，不论是对注意力图的处理，还是对特征图的处理，都会降低待处理的图像中的特征信息的信号强度，即降低了第一特征图中各像素的特征值。信号强度的衰减不利于神经网络对特征的学习，而对于上述有用信息的衰减则会直接影响神经网络的特征学习能力。

本实现方式中，将相乘图中各像素的特征值与第一特征图中相应像素的特征值相加，一方面可以增加上述有用信息在整个融合图各像素的特征值的比例，相当于抑制了有用信息之外的其他信息，另一方面还可以防止信号强度的衰减。

在图3所示的网络结构的基础上，结合图1所示实施例所描述的方案，可以得到本实施例的神经网络结构如图5a所示。图5a中，神经网络500包括第一特征提取单元501、第一卷积单元502、注意力提取单元503、第二卷积单元504、归一化单元505、融合单元506以及第二特征提取单元507。其中，第一特征提取单元501、第一卷积单元502以及第二特征提取单元507都由多个残差单元形成，第一特征提取单元501包括p个级联的残差单元，第一卷积单元502包括t个级联的残差单元，第二特征提取单元507包括p个级联的残差单元。

第一特征提取单元501的作用相当于图3中级联的多个卷积层302，用于提取待处理的图像的特征，得到第一特征图。第一卷积单元502可以进一步提取第一特征图的特征。注意力提取单元503的作用相当于图3中多个下采样单元303、多个上采样单元304以及多个残差单元305，得到注意力图。第二卷积单元504用于在对注意力图进行归一化处理前对注意力图进行至少一次卷积操作。归一化单元505用于对注意力图进行归一化处理。融合单元506用于融合归一化处理后的注意力图和第一特征图，得到融合图。第二特征提取单元507用于再次提取融合图的特征。

图5a所示的神经网络的处理过程具体可参考图5b，如图5b所示，以x表示输入的特征，即第一特征图。利用图5a所示的注意力提取单元503的感受野以及第一卷积单元502的感受野分别模拟人类视觉的注意力。图5b中的左侧分支相当于注意力提取单元503，右侧分支相当于第一卷积单元502。

图5b中的左侧分支包括两次下采样与两次上采样，经第一次下采样后，得到的特征图的分辨率为第一特征图x分辨率的四分之一；经第二次下采样后，得到的特征图的分辨率为第一特征图x分辨率的十六分之一；然后经第一次上采样处理，得到的特征图与第一次下采样处理后得到的特征图的分辨率相同；经第二次上采样处理，得到的特征图与第一特征图的分辨率相同。同时，经过上述两次下采样处理和两次上采样处理，即在遍历整个特征图后，确定了图像中注意力关注的特征的权重M(x)。

图5b中的右侧分支包括对第一特征图x的卷积操作，得到特征T(x)。

最后，将得到的权重M(x)与特征T(x)进行融合，得到融合图，上述融合图中包括融合后的特征(1+M(x))·T(x)。

可以理解的是，为了构造更深层次的神经网络，本实施例中，还可以将上述神经网络500作为子神经网络，多次重复执行，并可以将不同参数的子神经网络堆叠，得到如图6所示的深度卷积神经网络600。深度卷积神经网络600可以包括多个子神经网络，图6中示意性的示出了三个子神经网络，分别为子神经网络601、子神经网络602以及子神经网络603。每个子神经网络的参数可以相同，也可以不同。此处所指的子神经网络的参数可以包括：注意力提取单元中的下采样和上采样的次数、第一卷积单元中残差单元的个数等等。并且，每个子神经网络可以重复多次，例如当子神经网络601、子神经网络602以及子神经网络603各不相同时，深度卷积神经网络600可以包括m个子神经网络601、k个子神经网络602以及j个子神经网络603，其中，m、k、j均为正整数。

基于本实施例提出的图像处理方法构建的神经网络，在神经网络训练过程可有效减小神经网络训练过所需调整的参数量，提高了对特征的学习效率；同时基于训练完成后的神经网络进行图像处理的过程中，无需进行调整参数的操作；通过相同次数的下采样和上采样操作，实现了全局信息的反向传递，从而促进了注意力关注的有用信息的传递。

在本实施例的一些可选的实现方式中，待处理的图像中可以包含多个物体，且上述多个物体可以为同一种类的物体，也可以为不同种类的物体。上述物体可以是各种类别的物体，例如可以包括飞机、自行车、汽车等各种交通工具，还可以包括鸟类、狗、狮子等各种动物。

在基于融合图，再次提取了上述待处理的图像的特征后，可以利用再次提取的特征，检测或识别上述图像中包括的物体。

进一步的，还可以利用再次提取的特征，确定上述图像中包括的物体的类别。

进一步的，还可以利用再次提取的特征，对上述图像进行分割，将包含物体的部分分割出来。

本实现方式的图像处理方法，在再次提取了待处理的图像的特征之后，可以利用再次提取的特征实现不同的应用，可满足不同任务的图像处理需求。例如，可以对图像中包含的物体进行检测或识别，可应用到无人驾驶或导盲装置中；可以对图像中包含的物体进行分类，可以应用到军事领域的侦测装置中；可以对图像进行分割，可以应用到进一步的对物体的分析中。

作为对上述各图所示方法的实现，本申请提供了一种图像处理装置的一个实施例，该装置实施例与图1所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图7所示，本实施例的图像处理装置700包括：第一特征提取单元701、注意力提取单元702、融合单元703以及第二特征提取单元704。

其中，第一特征提取单元701，用于提取待处理的图像的特征，获得上述图像的第一特征图。

注意力提取单元702，用于基于上述第一特征图，生成上述图像的注意力图。

融合单元703，用于融合上述注意力图和上述第一特征图，获得融合图。

第二特征提取单元704，用于基于上述融合图，再次提取上述图像的特征。

在本实施例的一些可选的实现方式中，上述注意力提取单元702可以进一步包括图7中未示出的下采样模块和上采样模块。

下采样模块，用于对上述第一特征图依次进行N次下采样处理，其中，N为大于或等于1的整数；

上采样模块，用于对第N次下采样处理后的特征图依次进行N次上采样处理，获得上述图像的注意力图，其中，上述注意力图的分辨率与上述第一特征图相同。

在本实施例的一些可选的实现方式中，上述下采样模块可以进一步用于：对第N-n次下采样处理后的特征图和第n次上采样处理后的特征图进行卷积操作；对卷积操作后的特征图进行第n+1次上采样处理，n为大于1且小于N的整数。

在本实施例的一些可选的实现方式中，上述下采样模块还可以进一步用于：对上述第N-n次下采样处理后的特征图进行卷积处理，得到卷积图；将上述卷积图中各像素的特征值与第n次上采样处理后的特征图中相应像素的特征值相加；对相加后的特征图进行卷积操作。

在本实施例的一些可选的实现方式中，上述上采样模块可以进一步用于：对第N次下采样处理后的特征图进行至少一次卷积操作；对最后一次卷积操作后的特征图进行第1次上采样处理。在本实施例的一些可选的实现方式中，上述图像处理装置700还可以包括图7中未示出的第二卷积单元，用于对上述第一特征图进行至少一次卷积操作。相应的，融合单元703，用于融合上述注意力图和最后一次卷积操作后的第一特征图，获得上述融合图。

在本实施例的一些可选的实现方式中，上述图像处理装置700还可以包括图7中未示出的归一化单元，用于至少对上述注意力图进行归一化处理。相应的，融合单元703，用于融合归一化处理后的注意力图和上述第一特征图，获得上述融合图。

在本实施例的一些可选的实现方式中，上述图像处理装置700还可以包括图7中未示出的第二卷积单元，用于对上述注意力图依次进行至少一次卷积处理。相应的，上述归一化单元，用于对最后一次卷积处理后的注意力图进行归一化处理。

在本实施例的一些可选的实现方式中，上述融合单元703还可以进一步用于：将归一化处理后的注意力图中各像素的权重值与上述第一特征图中相应像素的特征值相乘，获得上述融合图。

在本实施例的一些可选的实现方式中，上述融合单元703还可以进一步用于：将归一化处理后的注意力图中各像素的权重值与上述第一特征图中相应像素的特征值相乘，获得相乘图；将上述相乘图中各像素的特征值与上述第一特征图中相应像素的特征值相加，获得上述融合图。

在本实施例的一些可选的实现方式中，上述图像处理装置700还可以包括图7中未示出的以下至少一项：检测单元、分类单元、分割单元。

其中，检测单元，用于根据再次提取的上述图像的特征，检测或识别上述图像中包括的物体。

分类单元，用于根据再次提取的上述图像的特征，确定上述图像中包括的物体的类别。

分割单元，用于根据再次提取的上述图像的特征，对上述图像进行分割。

本申请的上述实施例提供的图像处理装置，首先提取待处理的图像的特征，得到上述图像的第一特征图，基于上述第一特征图，生成上述图像的注意力图，再将注意力图和第一特征图融合，最后再基于得到的融合图再次提取上述图像的特征，从而实现了将注意力机制引入到图像处理中，有效地提高了从图像中获取信息的效率。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括第一特征提取单元、注意力提取单元、融合单元及第二特征提取单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，第一特征提取单元还可以被描述为“提取待处理的图像的特征，获得上述图像的第一特征图的单元”。

本发明实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图8，其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备800的结构示意图：如图8所示，计算机系统800包括一个或多个处理器、通信部等，上述一个或多个处理器例如：一个或多个中央处理单元(CPU)801，和/或一个或多个图像处理器(GPU)813等，处理器可以根据存储在只读存储器(ROM)802中的可执行指令或者从存储部分808加载到随机访问存储器(RAM)803中的可执行指令而执行各种适当的动作和处理。通信部812可包括但不限于网卡，上述网卡可包括但不限于IB(Infiniband)网卡。

处理器可与ROM 802和/或RAM 803通信以执行可执行指令，通过总线804与通信部812相连、并经通信部812与其他目标设备通信，从而完成本申请实施例提供的任一项方法对应的操作，例如，提取待处理的图像的特征，获得上述图像的第一特征图；基于上述第一特征图，生成上述图像的注意力图；融合上述注意力图和上述第一特征图，获得融合图；基于上述融合图，再次提取上述图像的特征。

此外，在RAM 803中，还可存储有装置操作所需的各种程序和数据。CPU 801、ROM802以及RAM 803通过总线804彼此相连。在有RAM 803的情况下，ROM 802为可选模块。RAM803存储可执行指令，或在运行时向ROM 802中写入可执行指令，可执行指令使CPU 801执行上述通信方法对应的操作。输入/输出(I/O)接口805也连接至总线804。通信部812可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线804链接上。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

需要说明的，如图8所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图8的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU 813和CPU 801可分离设置或者可将GPU 813集成在CPU 801上，通信部可分离设置，也可集成设置在CPU 801或GPU 813上，等等。这些可替换的实施方式均落入本发明公开的保护范围。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令，例如，提取待处理的图像的特征，获得上述图像的第一特征图；基于上述第一特征图，生成上述图像的注意力图；融合上述注意力图和上述第一特征图，获得融合图；基于上述融合图，再次提取上述图像的特征。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被CPU 801执行时，执行本申请的方法中限定的上述功能。

可能以许多方式来实现本发明的方法和装置、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种图像处理方法，其特征在于，包括：

提取待处理的图像的特征，获得所述图像的第一特征图；

基于所述第一特征图，生成所述图像的注意力图；

融合所述注意力图和所述第一特征图，获得融合图；

基于所述融合图，再次提取所述图像的特征；

基于所述第一特征图，生成所述图像的注意力图，包括：

对所述第一特征图依次进行N次下采样处理，其中，N为大于或等于1的整数；

对第N次下采样处理后的特征图依次进行N次上采样处理，获得所述图像的注意力图，其中，所述注意力图的分辨率与所述第一特征图相同。

2.根据权利要求1所述的方法，其特征在于，所述对第N次下采样处理后的特征图依次进行N次上采样处理，包括：

对第N-n次下采样处理后的特征图和第n次上采样处理后的特征图进行卷积操作；

对卷积操作后的特征图进行第n+1次上采样处理，n为大于1且小于N的整数。

3.根据权利要求2所述的方法，其特征在于，所述对第N-n次下采样处理后的特征图和第n次上采样处理后的特征图进行卷积操作，包括：

对所述第N-n次下采样处理后的特征图进行卷积处理，得到卷积图；

将所述卷积图中各像素的特征值与第n次上采样处理后的特征图中相应像素的特征值相加；

对相加后的特征图进行卷积操作。

4.根据权利要求2或3所述的方法，其特征在于，所述对第N次下采样处理后的特征图依次进行N次上采样处理，还包括：

对第N次下采样处理后的特征图进行至少一次卷积操作；

对最后一次卷积操作后的特征图进行第1次上采样处理。

5.根据权利要求1所述的方法，其特征在于，所述融合所述注意力图和所述第一特征图，获得融合图，包括：

对所述第一特征图进行至少一次卷积操作；

融合所述注意力图和最后一次卷积操作后的第一特征图，获得所述融合图。

6.根据权利要求1所述的方法，其特征在于，所述融合所述注意力图和所述第一特征图，获得融合图，包括：

至少对所述注意力图进行归一化处理；

融合归一化处理后的注意力图和所述第一特征图，获得所述融合图。

7.根据权利要求6所述的方法，其特征在于，所述至少对所述注意力图进行归一化处理，包括：

对所述注意力图依次进行至少一次卷积处理；

对最后一次卷积处理后的注意力图进行归一化处理。

8.根据权利要求6或7所述的方法，其特征在于，所述融合所述注意力图和所述第一特征图，获得融合图，包括：

将归一化处理后的注意力图中各像素的权重值与所述第一特征图中相应像素的特征值相乘，获得所述融合图。

9.根据权利要求6或7所述的方法，其特征在于，所述融合所述注意力图和所述第一特征图，获得融合图，包括：

将归一化处理后的注意力图中各像素的权重值与所述第一特征图中相应像素的特征值相乘，获得相乘图；

将所述相乘图中各像素的特征值与所述第一特征图中相应像素的特征值相加，获得所述融合图。

10.根据权利要求1所述的方法，其特征在于，在所述基于所述融合图，再次提取所述图像的特征之后，所述方法还包括以下至少之一：

根据再次提取的所述图像的特征，检测或识别所述图像中包括的物体；

根据再次提取的所述图像的特征，确定所述图像中包括的物体的类别；

根据再次提取的所述图像的特征，对所述图像进行分割。

11.一种图像处理装置，其特征在于，包括：

第一特征提取单元，用于提取待处理的图像的特征，获得所述图像的第一特征图；

注意力提取单元，用于基于所述第一特征图，生成所述图像的注意力图；

融合单元，用于融合所述注意力图和所述第一特征图，获得融合图；

第二特征提取单元，用于基于所述融合图，再次提取所述图像的特征；

所述注意力提取单元包括：

下采样模块，用于对所述第一特征图依次进行N次下采样处理，其中，N为大于或等于1的整数；

上采样模块，用于对第N次下采样处理后的特征图依次进行N次上采样处理，获得所述图像的注意力图，其中，所述注意力图的分辨率与所述第一特征图相同。

12.根据权利要求11所述的装置，其特征在于，所述下采样模块进一步用于：

13.根据权利要求12所述的装置，其特征在于，所述下采样模块进一步用于：

对相加后的特征图进行卷积操作。

14.根据权利要求12或13所述的装置，其特征在于，所述上采样模块进一步用于：

对第N次下采样处理后的特征图进行至少一次卷积操作；

对最后一次卷积操作后的特征图进行第1次上采样处理。

15.根据权利要求11所述的装置，其特征在于，所述装置还包括：

第二卷积单元，用于对所述第一特征图进行至少一次卷积操作；以及

所述融合单元，用于融合所述注意力图和最后一次卷积操作后的第一特征图，获得所述融合图。

16.根据权利要求11所述的装置，其特征在于，所述装置还包括：

归一化单元，用于至少对所述注意力图进行归一化处理；以及

所述融合单元，用于融合归一化处理后的注意力图和所述第一特征图，获得所述融合图。

17.根据权利要求16所述的装置，其特征在于，所述装置还包括：

第二卷积单元，用于对所述注意力图依次进行至少一次卷积处理；以及

所述归一化单元，用于对最后一次卷积处理后的注意力图进行归一化处理。

18.根据权利要求16或17所述的装置，其特征在于，所述融合单元进一步用于：

19.根据权利要求16或17所述的装置，其特征在于，所述融合单元进一步用于：

20.根据权利要求12所述的装置，其特征在于，所述装置还包括以下至少之一：

检测单元，用于根据再次提取的所述图像的特征，检测或识别所述图像中包括的物体；

分类单元，用于根据再次提取的所述图像的特征，确定所述图像中包括的物体的类别；

分割单元，用于根据再次提取的所述图像的特征，对所述图像进行分割。

21.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时完成以下操作：

提取待处理的图像的特征，获得所述图像的第一特征图；

基于所述第一特征图，生成所述图像的注意力图；

融合所述注意力图和所述第一特征图，获得融合图；

基于所述融合图，再次提取所述图像的特征；

基于所述第一特征图，生成所述图像的注意力图，包括：

22.一种电子设备，其特征在于，包括：

存储器，存储可执行指令；

一个或多个处理器，与存储器通信以执行可执行指令从而完成以下操作：

提取待处理的图像的特征，获得所述图像的第一特征图；

基于所述第一特征图，生成所述图像的注意力图；

融合所述注意力图和所述第一特征图，获得融合图；

基于所述融合图，再次提取所述图像的特征；

基于所述第一特征图，生成所述图像的注意力图，包括：