CN113537254B

CN113537254B - 图像特征提取方法、装置、电子设备及可读存储介质

Info

Publication number: CN113537254B
Application number: CN202110995363.3A
Authority: CN
Inventors: 樊强
Original assignee: Chongqing Unisinsight Technology Co Ltd
Current assignee: Chongqing Unisinsight Technology Co Ltd
Priority date: 2021-08-27
Filing date: 2021-08-27
Publication date: 2022-08-26
Anticipated expiration: 2041-08-27
Also published as: CN113537254A

Abstract

本申请提供的图像特征提取方法、装置、电子设备及可读存储介质，方法包括：根据待处理图像的特征图，确定特征图中多个特征块；特征块包含特征图的部分像素；根据多个特征块，确定特征图中每个像素对应的注意力权重；或者，根据特征块，确定特征图中每个采样区域对应的注意力权重；其中，注意力权重表征每个像素或者每个采样区域之间的依赖程度；根据计算的注意力权重，提取待处理图像的特征。本申请采用了特征块与像素，或者特征块与采样区域(也可以理解为块)的注意力机制，这种注意力机制与卷积计算构成互补，能极大降低计算量，同时可以避免因错误累计造成的准确度低的问题。

Description

图像特征提取方法、装置、电子设备及可读存储介质

技术领域

本申请涉及图像处理技术领域，具体而言，涉及一种图像特征提取方法、装置、电子设备及可读存储介质。

背景技术

目前，基于卷积神经网络(Convolutional Neural Networks,简称CNN)构建的特征提取模型，可以广泛的应用在图片识别、行人重识别、语义分割等各种场景中，但是卷积神经网络因卷积核导致其感受野不大，无法获取图像的全局特征信息。使得其提取的信息能力变弱,因此，目前提出了一种融合注意力机制网络的解决方式，可以很好的处理图像的全局信息。

然而，由于注意力机制网络需要对图像的每个通道均进行注意力机制计算，且在注意力机制计算的过程中，需要对图像特征图上的每个像素两两比较，从而确定每个像素的注意力权重，这就导致融合得到的特征提取模型存在计算量大、准确率低的缺点。

发明内容

本申请的目的之一在于提供一种图像特征提取方法、装置、电子设备及可读存储介质，用以降低特征提取的计算量和复杂度，提升特征提取的准确率。

本申请的实施例可以这样实现：

第一方面，本申请提供一种图像特征提取方法，所述方法包括：根据待处理图像的特征图，确定所述特征图中多个特征块；所述特征块包含所述特征图的部分像素；根据所述多个特征块，确定所述特征图中每个像素对应的注意力权重；或者，根据所述特征块，确定所述特征图中每个采样区域对应的注意力权重；其中，所述注意力权重表征所述每个像素或者所述每个采样区域之间的依赖程度；根据计算的所述注意力权重，提取所述待处理图像的特征。

第二方面，本申请提供一种图像特征提取装置，包括：确定模块，用于根据待处理图像的特征图，确定所述特征图中多个特征块；所述特征块包含所述特征图的部分像素；注意力权重计算模块，用于根据所述多个特征块，确定所述特征图中每个像素对应的注意力权重；或者，根据所述特征块，确定所述特征图中每个采样区域对应的注意力权重；其中，所述注意力权重表征所述每个像素或者所述每个采样区域之间的依赖程度；特征提取模块，用于根据确定的所述注意力权重，提取所述待处理图像的特征。

第三方面，本申请提供一种电子设备，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机程序，所述处理器可执行所述计算机程序以实现第一方面所述的图像特征提取方法。

第四方面，本申请提供一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述的图像特征提取方法。

本申请提供的图像特征提取方法、装置、电子设备及可读存储介质，方法包括：根据待处理图像的特征图，确定所述特征图中多个特征块；所述特征块包含所述特征图的部分像素；根据所述多个特征块，确定所述特征图中每个像素对应的注意力权重；或者，根据所述特征块，确定所述特征图中每个采样区域对应的注意力权重；其中，所述注意力权重表征所述每个像素或者所述每个采样区域之间的依赖程度；根据计算的所述注意力权重，提取所述待处理图像的特征。与现有技术的区别在于，现有技术采用的是像素与像素之间的注意力机制，这种方式计算量较大，而且容易造成错误累计，使得提取到的特征准确度低，因此，本申请采用了特征块与像素，或者特征块与采样区域(也可以理解为块)的注意力机制，这种注意力机制与卷积计算构成互补，能极大降低计算量，同时可以避免因错误累计造成的准确度低的问题。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供了一种图像特征提取方法的应用环境；

图2为一种常规的注意力机制计算过程；

图3为本申请实施例提供的一种图像特征提取方法的示意性流程图；

图4为本申请实施例提供的步骤S304的一种实现方式的示意性流程图；

图5为本申请实施例提供的特征块的一种示例图；

图6为本申请实施例提供的步骤S304的另一种实现方式的示意性流程图；

图7为本申请实施例提供的另一种图像特征提取方法的示意性流程图；

图8给出了一种现有的行人重识别模型的结构框图；

图9A和图9B为本申请实施例提供的改进后的行人重识别模型的结构框图；

图10为本申请实施例提供的步骤S305的实现方式的示意性流程图；

图11为本申请实施例提供的另一种图像特征提取方法的示意性流程图；

图12为本申请实施例提供的图像特征提取装置的功能模块图；

图13为本申请实施例提供的一种电子设备的方框示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本申请的描述中，需要说明的是，若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。

此外，若出现术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

需要说明的是，在不冲突的情况下，本申请的实施例中的特征可以相互结合。

为了方便理解，下面对本申请实施例中涉及的名词进行解释：

行人重识别：也称行人再识别，是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。给定一个监控行人图像，检索跨设备下的该行人图像。旨在弥补目前固定的摄像头的视觉局限，并可与行人识别/行人跟踪技术相结合，可广泛应用于智能视频监控、智能安保等领域。

卷积(Convolution)：是图像处理领域、深度卷积神经网络中常见的基本算子，用来融合数据中局部区域与其相邻区域的信息，常见的有1D(一维)卷积、2D(二维)卷积、3D(三维)卷积。

Reshape，是一种可以重新调整矩阵的行数、列数、维数的函数。

Bmm：是一种对矩阵进行乘法运算的函数。

特征图(feature map)：在每个卷积层，数据都是以三维形式存在的。可以把它看成许多个二维图片叠在一起，其中每一个称为一个feature map。在输入层，如果是灰度图片，那就只有一个feature map；如果是彩色图片，一般就是3个feature map(红绿蓝)。层与层之间会有若干个卷积核(kernel)，上一层和每个feature map跟每个卷积核做卷积，都会产生下一层的一个feature map。

请参考图1，图1为本申请实施例提供了一种图像特征提取方法的应用环境，该应用环境中可以包括网络10、服务器20、至少一种监控设备30，例如，监控设备30-1、监控设备30-2……监控设备30-N，以及数据库40。

其中：网络10可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

服务器20可以但不限于是一台服务器或若干台服务器组成的服务器集群或云计算中心。本申请实施例提供的图像特征提取方法可以应用在服务器20上。

在一些可能的实施例中，服务器20可以将来自监控设备30采集的图像存储至数据库40中，还可以将数据库40中存储的各种类型的图像或者视频读取出来进行图像特征提取。

在另一些可能的实施例中，服务器20还可以具有机器学习能力，可以作为本申请实施例中图像特征提取模型的模型训练设备，或者，服务器20还可以作为本申请实施例中图像特征提取模型的部署设备，用于图像特征提取。

监控设备30可以用于采集监控范围内的图像，并通过网络10将采集的图像发送给服务器20，由服务器20将图像存储至数据库40中。

示例性地，监控设备30可以但不限于部署在汽车站、火车站、飞机场、道路等公共场景中，可以但不限于是:摄像头、摄像机、录像机等。

数据库40，用于维护各种类型的图像或者视频，这些图像视频可以来自监控设备30，还可以来自其他具有采集功能的电子设备，或者是随机合成的图像。本申请不做限定。

本申请中示出的监控设备30、服务器20和数据库40旨在表示本申请的技术方案涉及的监控设备、服务器以及存储系统的操作。对单个服务器和存储系统加以详述至少为了说明方便，而非暗示对服务器的数量、类型或是位置等具有限制。应当注意，如果向图示环境中添加附加模块或从其中去除个别模块，不会改变本申请的示例实施例的底层概念。另外，虽然为了方便说明而在图1中示出了从数据库40到服务器20的双向箭头，但本领域技术人员可以理解的是，上述数据的收发也是需要通过网络10实现的。

还需要说明的是，本申请实施例不仅适用于监控场景，任何图像采集装置采集的视频均可以执行本申请实施例提供的方法提取图像特征。

继续以图1所示的应用环境为例，现有技术中，均可以基于卷积神经网络(Convolutional Neural Networks,简称CNN)构建的特征提取模型，来提取图像中不同对象的特征，进而应用于图片识别、行人重识别、语义分割等各种场景中。但是CNN因卷积核导致其感受野不大，无法获取图像的全局特征信息。使得其提取的信息能力变弱,因此，目前提出了一种融合注意力机制网络(例如DAnet网络)的解决方式，可以很好的处理图像的全局信息。

请参见图2，图2为一种常规的注意力机制计算过程，以输入数据X∈R^{1×32×192×64}为例，输出数据为X'∈R^{1×32×192×64}，其中，1代表处理的特征图(feature map)个数，32代表通道数，192和64代表宽和高。

需要说明的是，图2所示的计算过程可以以任意方式嵌入现有的CNN网络框架中，例如resnet(残差网络)，mgn(多重粒度网络，Multiple Granularity Network,简称MGN))等结构。

上述注意力机制计算过程的第一个缺陷在于：第二次Bmm操作需要大量的计算量，计算量如下：

C_attention＝32*12288*12288*12288＝5.9*10¹³

而一个普通的卷积(3*3)计算的计算量为：

C_conv＝32*192*64*32*3*3＝1.1*10⁸

上述注意力机制计算过程的第二个缺陷在于：第一次Bmm操作生成的结果存储需要占据的显存较大，大约为：

N_attention＝12288*12288＝1.5*10⁸

而一个普通的卷积(3*3)的计算结果需要占据的显存为：

N_conv＝32*192*64＝3.9*10⁵

由此可见，尽管融合注意力机制网络与CNN，能很好的处理全局信息以及局部信息的兼容问题，但是其致命的缺点在于：现有的注意力机制计算方式存在计算量大、占用内存大的问题，同时，现有的注意力机制需要在所有通道上均进行注意力机制计算，进一步加大的计算量，而且，申请人创造性的发现，造成这种问题的本质在于，现有的注意力机制是针对feature map上的每个像素，都要计算其与其他所有像素之间的相似度，构建featuremap上的每个像素之间的关联相似度矩阵，在整个图像特征提取过程中，由于每层计算量较大，一旦出错就可能出现错误累加，最终导致提取的图像特征准确度低。

因此，为了避免上述问题，本申请实施例提供的图像特征提取方法，采用了改进的注意力机制计算过程，即构建的是feature map上的局部区域与像素(亦可以为一个局部块)的关联相似度矩阵，同时卷积网络在天然属性就是在所在的卷积核内做局部区内部关联计算。因此这种改进的注意力机制与卷积计算构成互补，能极大降低计算量，同时最后生成的为单通道的空间位置的注意力加权系数，可以进一步降低计算量。

请参见图3，图3为本申请实施例提供的一种图像特征提取方法的示意性流程图，该方法包括：

S303，根据待处理图像的特征图，确定特征图中多个特征块。

其中，特征块包含特征图的部分像素。也就是说，在获得特征图(feature map)之后，可以根据特征图的尺寸，对特征图进行划分，得到多个特征块。

本实施例中，特征块的作用在于，计算每个特征块相对于feature map中每个像素的相似度，该相似度可以表征feature map不同位置上的像素之间的依赖关系，基于这种依赖关系，可以获得待处理图像中的全局信息，保证特征提取的准确度。

在一种可选的实施方式中，待处理图像可以来自于图1所示的监控设备30或者数据库40，还可以来自具有图像采集功能的终端，或者是设备随机合成的图像，本申请不做限定。

S304，根据多个特征块，确定特征图中每个像素对应的注意力权重；或者，根据特征块，确定特征图中每个采样区域对应的注意力权重。

其中，注意力权重表征每个像素或者每个采样区域之间的依赖程度，通过每个额像素之间的上下文依赖关系，可以获得待处理图像中的全局信息，保证特征提取的准确度。

其中，采样区域指得是按照预设的下采样倍率，缩小feature map，使得获得的图像符合显示区域的大小，对于一幅图像的尺寸为M*N，对其进行s倍下采样，即得到(M/s)*(N/s)尺寸的得分辨率图像。

在一种实现方式中，本实施例中的注意力机制为：根据多个特征块，确定特征图中每个像素对应的注意力权重，在另一种实现方式中，根据特征块，确定特征图中每个采样区域对应的注意力权重。相较于现有技术中计算每个像素之间的注意力权重，本申请实施例提供的注意力机制是块与像素，或者块与块之间计算过程，很明显降低了计算量。

示例性的，若在图像特征提取过程中，不需要对feature map进行下采样，则可以采用根据多个特征块，确定特征图中每个像素对应的注意力权重的注意力机制，若需要对feature map进行下采样，则可以采用根据特征块，确定特征图中每个采样区域对应的注意力权重的注意力机制。

S305，根据计算的注意力权重，提取待处理图像的特征。

通过步骤S304获得的注意力权重准确度较高，进而结合该注意力权重，可以提取待处理图像的特征。

由上述内容可以看出，本申请实施例提供的一种图像特征提取方法，通过将特征图分块，获得多个特征块后，根据多个特征块，确定特征图中每个像素对应的注意力权重；或者，根据特征块，确定特征图中每个采样区域对应的注意力权重，进而根据获得的注意力权重，提取待处理图像的特征，与现有技术的区别在于，现有技术采用的是像素与像素之间的注意力机制，这种方式计算量较大，而且容易造成错误累计，使得提取到的特征准确度低，因此，本申请采用了特征块与像素，或者特征块与采样区域(也可以理解为块)的注意力机制，这种注意力机制与卷积计算构成互补，可以进一步降低计算量，同时可以避免因错误累计造成的准确度低的问题。

需要说明的是，现有技术中存在的融合注意力机制网络的方式由于注意力机制网络包括位置注意力模块和通道注意力模块，因此，它在进行注意力权重计算的过程中，不仅需要计算特征图每个像素位置或者采样区域的注意力权重，还需要计算所有通道上的所有特征图的像素位置或者采样区域的注意力权重，这无疑增加了更大的计算量，而本申请实施例中的注意力机制，仅仅计算单个通道的特征图的每个像素位置或者采样区域的注意力权重，而省去了在所有通道上均进行注意力权重计算的流程，可以进一步降低计算量。

可选地，下面将结合相关附图，给出本申请实施例提供的两种注意力机制的实现方式。

首先，请参见图4，图4为本申请实施例提供的步骤S304的一种的实现方式的示意性流程图，其中步骤S304可以包括：

S304a-1，将每个特征块和每个像素，分别编码为预设长度的特征向量。

S304a-2，根据特征块对应的特征向量、和像素对应的特征向量，构建依赖程度矩阵；其中，依赖程度矩阵用于表征每个特征块与每个像素的关联程度。

S304a-3，计算每个特征块对应的权重系数。

S304a-4，根据关联程度矩阵和权重系数，确定每个像素对应的注意力权重。

针对S304a-1，例如，假设feature map为多通道特征图X，X∈R^1×C×H×W，其中1为单次处理的特征图的个数，C、H和W分别为特征图的通道数，宽和高；X对应的特征向量可以表示为：

X₁＝conv(X),

H₁＝H/N,W₁＝W/N

其中，C₁表达含义为：每一个特征块编码为预设长度为C₁的长度，H₁、W₁、N表达含义为每个特征块的大小为N×N，特征块分布可以如图5所示。

进而，通过卷积计算，将每个像素编码为预设长度为C₁的特征向量X₂：

X₂＝conv(X),

针对S304a-2，根据获得的特征块对应的特征向量X₁、和像素对应的特征向量X₂，构建相似度矩阵X₃，构建方式如下：

X′₁＝reshape(X₁),

X′₂＝reshape(X₂),

X₃＝bmm(X′₁,X′₂),

进而，根据构建的相似度矩阵X₃，经过softmax操作，获得上述依赖程度矩阵X₄为：

X₄＝softmax(X₃),

针对S304a-3,通过卷积计算获得每个特征块的权重系数，计算方式如下：

X₅＝conv(X₁),

可以理解的是，本申请实施例中，输入多个通道特征图X₁，进行卷积计算后，可以获得每个特征块的权重系数，即输出的是一个单通道的X₅，可以理解为一个单通道编码过程，这能极大程度上减少后续获得注意权重计算量，例如，若特征图X₁的通道数为128，则本申请实施例可以将计算量减少128倍。

针对S304a-4，可以根据获得的依赖程度矩阵X₄和每个特征块的权重系数，计算每个像素的注意力权重，计算方式为：

X₆＝bmm(X₅,X₄),

X′₆＝reshape(X₆),

通过上述注意力权重计算过程可以看出，整个注意力机制最耗时的过程在于注意力权重X₆的计算，以输入尺寸为1*128*96*32为例，采用原始的注意力机制，获得X₆的计算量大约为：C_attention＝128*(96*32)*(96*32)*(96*32)＝3.7*10¹²，而在本发明实施例中，若假设每个特征块的大小为4，则本发明实施例获得X₆的计算量大约为：C′_attention＝1*(96/4*32/4)*(96/4*32/4)*(96*32)＝1.2*10⁸，相比之下，本发明实施例提供的注意力机制能够节约3.2万倍的计算量。

需要说明的是，上述S304a-2和S304a-3并无执行的先后顺序，可以先执行S304a-2再执行S304a-3，或者可以先执行S304a-3再执行S304a-4，或者可以同时执行S304a-2和S304a-3，本申请不做限定。

在另一种可能的实施方式中，本申请实施例提供的注意力机制还可以参见图6，图6为本申请实施例提供的步骤S304的另一种实现方式的示意性流程图，步骤S304还可以包括：

S304b-1，根据预设的采样倍率，在特征图内确定多个采样区域。

S304b-2，将每个特征块和每个采样区域，分别编码为预设长度的特征向量。

S304b-3，根据特征块对应的特征向量、和采样区域对应的特征向量，构建依赖程度矩阵；其中，依赖程度矩阵用于表征每个特征块与每个采样区域的关联程度。

S304b-4，计算每个特征块对应的权重系数。

S304b-5，根据关联程度矩阵和权重系数，确定每个采样区域对应的注意力权重。

针对S304b-1和S304b-2，继续以上述feature map为X，N_d为下采样倍率，每个采样区域的大小为N_d×N_d，特征块的特征向量X₁上述实现方式相同，此处不再赘述。

通过卷积计算将采样区域编码为预设长度C₁的特征向量X₂，X₂可以表示为：

X₂＝conv(X),

针对S304b-3，，根据获得的特征块对应的特征向量X₁、和采样区域对应的特征向量X₂，构建相似度矩阵X₃，构建方式如下：

X′₁＝reshape(X₁),

X′₂＝reshape(X₂),

X₃＝bmm(X′₁,X′₂),

进而，根据构建的相似度矩阵X₃，经过softmax操作，获得依赖程度矩阵X₄为：

X₄＝soft max(X₃),

步骤S304b-4,计算每个特征块对应的权重系数与上述步骤S304a-3中计算X5的实现方式相同，此处不再赘述。

步骤S304b-5，可以根据获得的依赖程度矩阵X₄和每个特征块的权重系数，计算每个像素的注意力权重X′₆，计算方式为：

X₆＝bmm(X₅,X₄),

X′₆＝reshape(X₆),

通过上述注意力权重计算过程可以看出,若存在下采样过程，下采样倍率为2，假设以特征图的尺寸为1*128*96*32为例，若采样原始的注意力机制，则获得注意力权重X6耗费的计算量为：C_attention＝128*(96*32)*(96*32)*(96/2*32/2)＝9.3*10¹¹；若采用本发明实施例提供的注意力机制，假设特征块的大小为4，则获得注意力权重X₆的计算量为：C′_attention＝1*(96/4*32/4)*(96/4*32/4)*(96/2*32/2)＝2.8*10⁷，相比之下，本申请实施例提供的注意力机制能够节约3.2万倍的计算量。

需要说明的是，上述S304a-3和S304a-4并无执行的先后顺序，可以先执行S304a-3再执行S304a-4，或者可以先执行S304a-4再执行S304a-3，或者可以同时执行S304a-3和S304a-4，本申请不做限定。

可选地，在根据待处理图像的特征图，确定特征图中多个特征块的步骤之前，本申请实施例还提供了一种获得特征图的实现方式，请参见图7，图7为本申请实施例提供的另一种图像特征提取方法的示意性流程图，该方法还可以包括：

S301，获取待处理图像。

在一种可选的实施方式中，可以从数据库，或者监控设备，或者其他终端设备中获得待处理图像，该待处理图像可以是预先存储的图像，或者是实时采集的图像，或者是随机合成的图像，本申请不做限定。

S302，将待处理图像输入训练后的图像特征提取模型中，获得特征图。

本申请实施例中的图像特征提取模型可以是本申请改进后的行人重识别模型(Person re-identification，简称REID)，或者是残差网络(resnet)，或者是多重粒度网络(Multiple Granularity Network,简称MGN)，或者是语义分割模型(SemanticSegmentation)，本申请不做限定。

以REID模型为例，图8给出了一种现有的行人重识别模型的结构框图，该REID模型未融合注意力机制模块，因此在使用过程中无法获得图像的全局信息，本申请改进后的REID模型可以如图9A和图9B所示，其中，图9A表示REID模型中的残差结构resudial unit没有无下采样过程的模型示意图，图9B表示REID模型中的残差结构resudial unit有无下采样过程的模型示意图。

以图9A为例，将待处理图像输入改进后的REID模型中，通过灰色模块(灰色模块代表卷积层)获得待处理图像的特征图，获得的特征图后，在节点1，注意力机制模块可以用于执行上述子步骤S304a-1至子步骤S304a-4，同时，resudial unit根据特征图做进一步处理，在节点2，将注意力机制模块的结果和resudial unit的处理结果进行融合，并基于融合的结果，进一步执行REID模型后续的计算流程，最终获得待处理图像的特征。

继续以图9B为例，将待处理图像输入改进后的REID模型中，通过灰色模块(灰色模块代表卷积层)获得待处理图像的特征图，获得的特征图后，在节点1，注意力机制模可以用于执行上述子步骤S304b-1至子步骤S304b-6，同时，resudial unit对特征图进行下采样，在节点2处，将下采样的结果与注意力机制模块输出的结果相乘，在节点3,将相乘得到的结果与下采样的结果进行融合，并基于融合的结果，进一步执行REID模型后续的计算流程，最终获得待处理图像的特征。

由上述内容可以看出，若使用图8所示的REID模型，则无法获得图像的全局信息，若在图8所示的REID模型中融合一个注意力机制网络，但该融合的注意力机制网络采用的注意力机制存在计算大的问题，会导致图像特征提取过程复杂、准确度低，而本申请图9A或者图9B提供的改进的REID模型，融合的是本申请实施提供的注意力机制计算方式所集成的注意力机制模块，可以降低计算量，简化特征提取流程，提高特征准确度。

在一种可能的实施方式中，上述图像特征提取模型可以通过以下方式训练而成：

模型训练设备可以获得多张通过人工标注的训练图像(可以行人图像和对应的用户标识信息)，然后根据本申请实施例上述两种注意力机制中的任意一种，构建初始的图像特征提取模型，然后将多张训练图像输入至初始的图像特征提取模型，进行训练，直至损失函数收敛，以获得训练后的图像特征提取模型。

其中，上述模型训练设备可以是具有机器学习能力的计算机设备，比如，该计算机设备可以是个人电脑、服务器等固定式计算机设备，或者，该计算机设备也可以是平板电脑、电子书阅读器或者便携式医疗设备等移动式计算机设备。

可选的，上述模型训练设备与执行上述图像特征提取方法的设备可以是同一个设备，或者，模型训练设备和执行上述图像特征提取方法的设备也可以是不同的设备。并且，当模型训练设备和服务器是不同的设备时，模型训练设备和执行上述图像特征提取方法的设备可以是同一类型的设备，比如可以都是服务器；或者，也可以是不同类型的设备，比如模型训练设备可以是服务器，而执行上述图像特征提取方法的设备可以是终端等。本申请实施例对于模型训练设备和执行上述图像特征提取方法的设备的具体类型不做限定。

可选地，在图像特征提取模型的基础上，为了最终提取到图像的特征，下面还给出一种可能的实施方式,请参见图10，图10为本申请实施例提供的步骤S305的实现方式的示意性流程图，步骤S305可以包括：

S305-1，根据注意力权重，更新特征图。

在一种实现方式中，上述更新特征图的方式即将注意力权重与原来的featuremap相乘：

X_out＝X×X′₆,X_out∈R^1×C×H×W

其中，C、H和W分别为特征图的通道数，宽和高；X_out为更新后的特征图，X为原特征图，X′₆为注意力权重。

S305-2，将更新后的特征图和图像特征提取模型的卷积模块输出结果进行融合，并根据融合后的结果提取特征。

在一种可能的实施方式中，若图像特征提取模型不存在下采样过程，结合图9A，上述步骤S305-2可以理解为：

假设feature map表述为input，input∈R^1×C×H×W，更新后的特征图表示为attention(input)，resudial unit输出结果表示为resudial_unit(input)，则将更新后的特征图和resudial unit的输出结果相加，相加的过程可以表示为：

output＝resudial_unit(input)+attention(input)，output∈R^1×C×H×W

其中，1为单次处理的特征图的个数，C、H和W分别为特征图的通道数，宽和高；output即为相加后的结果，进而可以根据相加融合后的output，进行图像特征提取。

在另一种可能的实施方式中，若图像特征提取模型存在采样过程，结合图9B，则上述步骤S305-2即为：

继续假设feature map表述为input input∈R^1×C×H×W，resudial unit的输出结果output_res和更新后的特征图output_{atten_d}分别可以表示为：

output_res＝resudial_unit(input)，

output_{atten_d}＝attention_downsample(input)，

其中，1为单次处理的特征图的个数，C_d为下采样后的通道数；H和W分别为特征图的通道数，宽和高；N_d为下采样的倍率，一般下采样倍率为2的指数次倍，例如2,4,8倍等等。

进而，将更新后的特征图和图像特征提取模型的卷积模块输出结果进行融合，融合方式如下：

output＝(1+output_{atten_d})output_res，

最后，根据融合后的结果进行图像特征提取。

可选地，在获得待处理图像的特征后，还可以结合比对图像的特征提取结果进行图像识别与匹配，下面给出一种可能的实现方式，请参见图11，图11为本申请实施例提供的另一种图像特征提取方法的示意性流程图，即本申请实施例还可以包括：

S306，根据图像特征提取模型，获得每张比对图像对应的特征。

其中，比对图像和待处理图像具有相同的比对对象。比对图像可以来自图像库，其中可以维护有来自同一个对象的多张图像，以及不同对象的多张图像。

S307，将待处理图像的特征，与比对图像对应的特征进行匹配，确定与待处理图像匹配的比对图像。

在一种可能的实施方式中，可以先确定待处理图像的特征、与每张所比对图像待确认图像的特征之间余弦相似度，然后将最大余弦相似度对应的比对图像，确定为与待处理图像匹配的比对图像。

例如，给定一张待搜索图A1(或多张)，在图片库G中搜索与其相同的图片A2、A3。(其中A1、A2、A3为不同相机或不同视角所拍摄同一个人的图片，B1、B2为另外一个人的图片)，同时图片库中包含其他人的图片(B1、B2、C1等)。首先将这些图片导入本申请实施例提供的图像提取模型中，每张图片会生成一个特征向量，首先将其单位化，而后计算搜索图与图片库之间的余弦相似度，根据余弦相似度排序，相似度最高的比对图像中的人最有可能与搜索图A1中的人为同一个人。

上述将待处理图像与比对图像进行匹配的实施方式可以应用在图片识别、行人重识别、语义分割等各种场景中，本申请不做限定。

为了实现上述实施例中的各个步骤以实现相应的技术效果，本申请实施例提供的图像特征提取方法可以在硬件设备或者以软件模块的形式实现中执行，当图像特征提取方法以软件模块的形式实现时，本申请实施例还提供一种图像特征提取装置，请参见图12，图12为本申请实施例提供的图像特征提取装置的功能模块图，该图像特征提取装置400可以包括：

确定模块410，用于根据待处理图像的特征图，确定所述特征图中多个特征块；所述特征块包含所述特征图的部分像素；

注意力权重计算模块420，用于根据所述多个特征块，确定所述特征图中每个像素对应的注意力权重；或者，根据所述特征块，确定所述特征图中每个采样区域对应的注意力权重；

其中，所述注意力权重表征所述每个像素或者所述每个采样区域之间的依赖程度；

特征提取模块430，用于根据确定的所述注意力权重，提取所述待处理图像的特征。

可以理解的是，上述确定模块410、注意力权重计算模块420和特征提取模块430可以协同的来执行图3中的步骤S303至步骤S305以实现相应的技术效果。

在一些可能的上述方式中，上述注意力权重计算模块420可以用来执行图4或者图6中的各个步骤以实现相应的技术效果。

在一些可能的实施方式中，上述特征提取模块430可以用来执行图10中的各个步骤以实现相应的技术效果。

在一些可能的实施方式中，上述特征提取模块430还可以用来执行图7中的各个步骤以实现相应的技术效果。

在一些可能的实施方式中，该图像特征提取装置400还可以包括训练模块，该训练模块可以用于获取多张训练图像；根据所述注意力机制模块，构建初始的图像特征提取模型；将将所述多张训练图像输入至所述初始的图像特征提取模型，进行训练，直至损失函数收敛，以获得训练后的所述图像特征提取模型。

在一些可能的实施方式中，该图像特征提取装置400还可以包括匹配模块，该匹配模块，用于将所述待处理图像的特征，与所述比对图像对应的特征进行匹配，确定与所述待处理图像匹配的所述比对图像，比对图像对应的特征是根据所述图像特征提取模型获得的；其中，所述比对图像和所述待处理图像具有相同的比对对象。

在一些可能的实施方式中，匹配模块，具体用于确定所述待处理图像的所述特征、与每张所述比对图像待确认图像的特征之间余弦相似度；将最大余弦相似度对应的所述比对图像，确定为所述与所述待处理图像匹配的所述比对图像。

可以理解的是，匹配模块可以用来执行图11中各个步骤以实现相应的技术效果。

本申请实施例还提供了一种电子设备，该电子设备可以如图1所示的服务器20，或者是其他具有数据处理功能的终端，本申请不做限定。

如图13，图13为本申请实施例提供的一种电子设备的方框示意图。该电子设备50包括通信接口501、处理器502和存储器503。该处理器502、存储器503和通信接口501相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器503可用于存储软件程序及模块，如本申请实施例所提供的图像特征提取方法对应的程序指令/模块，处理器502通过执行存储在存储器503内的软件程序及模块，从而执行各种功能应用以及数据处理。该通信接口501可用于与其他节点设备进行信令或数据的通信。在本申请中该电子设备50可以具有多个通信接口501。

其中，存储器503可以是但不限于，随机存取存储器(RandomAccess Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。

处理器502可以是一种集成电路芯片，具有信号处理能力。该处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

可选地，当图像特征提取方法以软件模块的形式实现时，本申请实施例还的图像特征提取装置400中的各个功能模块可以软件或固件(Firmware)的形式存储于存储器中或固化于该电子设备50的操作系统(Operating System，OS)中，并可由电子设备50中的处理器502执行。同时，执行上述模块所需的数据、程序的代码等可以存储在存储器503中。

本申请实施例还提供一种可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如前述实施方式中任一项的图像特征提取方法方法。该计算机可读存储介质可以是，但不限于，U盘、移动硬盘、ROM、RAM、PROM、EPROM、EEPROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种图像特征提取方法，其特征在于，所述方法包括：

根据待处理图像的特征图，确定所述特征图中多个特征块；所述特征块包含所述特征图的部分像素；

根据所述多个特征块，确定所述特征图中每个像素对应的注意力权重；或者，根据所述特征块，确定所述特征图中每个采样区域对应的注意力权重；

根据计算的所述注意力权重，提取所述待处理图像的特征；

根据所述多个特征块，确定所述特征图中每个像素对应的注意力权重的步骤，包括：将每个所述特征块和每个所述像素，分别编码为预设长度的特征向量；根据所述特征块对应的所述特征向量、和所述像素对应的所述特征向量，构建依赖程度矩阵；其中，所述依赖程度矩阵用于表征每个所述特征块与每个所述像素的关联程度；计算每个所述特征块对应的权重系数；根据所述依赖程度矩阵和所述权重系数，确定每个所述像素对应的所述注意力权重；

根据所述特征块，确定所述特征图中每个采样区域对应的注意力权重，包括：根据预设的采样倍率，在所述特征图内确定多个所述采样区域；将每个所述特征块和每个所述采样区域，分别编码为预设长度的特征向量；根据所述特征块对应的所述特征向量、和所述采样区域对应的所述特征向量，构建依赖程度矩阵；其中，所述依赖程度矩阵用于表征每个所述特征块与每个所述采样区域的关联程度；计算每个所述特征块对应的权重系数；根据所述依赖程度矩阵和所述权重系数，确定每个所述采样区域对应的所述注意力权重。

2.根据权利要求1所述的图像特征提取方法，其特征在于，在所述根据待处理图像的特征图，确定所述特征图中多个特征块的步骤之前，所述方法还包括：

获取所述待处理图像；

将所述待处理图像输入训练后的图像特征提取模型中，获得所述特征图；

其中，所述图像特征提取模型包括注意力机制模块，所述注意力机制模块用于根据所述多个特征块，确定所述特征图中每个像素对应的注意力权重；或者，所述注意力机制模块用于根据所述特征块，确定所述特征图中每个采样区域对应的注意力权重。

3.根据权利要求2所述的图像特征提取方法，其特征在于，所述图像特征提取模型是通过以下方式训练而成的：

获取多张训练图像；

根据所述注意力机制模块，构建初始的图像特征提取模型；

将所述多张训练图像输入至所述初始的图像特征提取模型，进行训练，直至损失函数收敛，以获得训练后的所述图像特征提取模型。

4.根据权利要求2所述的图像特征提取方法，其特征在于，根据确定的所述注意力权重，提取所述待处理图像的特征，包括：

根据所述注意力权重，更新所述特征图；

将所述更新后的所述特征图和所述图像特征提取模型的卷积模块输出结果进行融合，并根据融合后的结果提取所述特征。

5.根据权利要求2所述的图像特征提取方法，其特征在于，所述方法还包括：

根据所述图像特征提取模型，获得每张比对图像对应的特征；其中，所述比对图像和所述待处理图像具有相同的比对对象；

将所述待处理图像的特征，与所述比对图像对应的特征进行匹配，确定与所述待处理图像匹配的所述比对图像。

6.根据权利要求5所述的图像特征提取方法，其特征在于，将所述待处理图像的特征，与所述比对图像对应的特征进行匹配，确定与所述待处理图像匹配的所述比对图像，包括：

确定所述待处理图像的所述特征、与每张所述比对图像待确认图像的特征之间余弦相似度；

将最大余弦相似度对应的所述比对图像，确定为所述与所述待处理图像匹配的所述比对图像。

7.一种图像特征提取装置，其特征在于，包括：

确定模块，用于根据待处理图像的特征图，确定所述特征图中多个特征块；所述特征块包含所述特征图的部分像素；

注意力权重计算模块，用于根据所述多个特征块，确定所述特征图中每个像素对应的注意力权重；或者，根据所述特征块，确定所述特征图中每个采样区域对应的注意力权重；

特征提取模块，用于根据确定的所述注意力权重，提取所述待处理图像的特征；

所述注意力权重计算模块，具体用于将每个所述特征块和每个所述像素，分别编码为预设长度的特征向量；根据所述特征块对应的所述特征向量、和所述像素对应的所述特征向量，构建依赖程度矩阵；其中，所述依赖程度矩阵用于表征每个所述特征块与每个所述像素的关联程度；计算每个所述特征块对应的权重系数；根据所述依赖程度矩阵和所述权重系数，确定每个所述像素对应的所述注意力权重；或者，具体用于：根据预设的采样倍率，在所述特征图内确定多个所述采样区域；将每个所述特征块和每个所述采样区域，分别编码为预设长度的特征向量；根据所述特征块对应的所述特征向量、和所述采样区域对应的所述特征向量，构建依赖程度矩阵；其中，所述依赖程度矩阵用于表征每个所述特征块与每个所述采样区域的关联程度；计算每个所述特征块对应的权重系数；根据所述依赖程度矩阵和所述权重系数，确定每个所述采样区域对应的所述注意力权重。

8.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机程序，所述处理器可执行所述计算机程序以实现权利要求1-6任一项所述的图像特征提取方法。

9.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6任一项所述的图像特征提取方法。