CN110414338B

CN110414338B - 基于稀疏注意力网络的行人再辨识方法

Info

Publication number: CN110414338B
Application number: CN201910543465.4A
Authority: CN
Inventors: 张灿龙; 解盛; 李志欣
Original assignee: Guangxi Normal University
Current assignee: Shenzhen Wanzhida Technology Co ltd
Priority date: 2019-06-21
Filing date: 2019-06-21
Publication date: 2022-03-15
Anticipated expiration: 2039-06-21
Also published as: CN110414338A

Abstract

本发明公开一种基于稀疏注意力网络的行人再辨识方法，首先通过短连接将浅层特征无损传输到深层特征；然后通过不断叠加的残差模块组成的主干残差网络来提取到图像主要卷及特征；接着通过主干残差网络中嵌入的归一化的压缩‑激励模块提取图像易被损失的细节特征；最后将上述得到的特征相乘，最后再加上第一部分所得的特征，输送进全连接层和分类回归层从而得到分类和回归结果。本发明的稀疏注意力网络可有效提取到数个行人再辨识数据集的行人照片细节特征。

Description

基于稀疏注意力网络的行人再辨识方法

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种基于稀疏注意力网络的行人再辨识方法。

背景技术

行人再辨识是指对不同监控场景中的同一行人进行身份再确认，以弥补单个摄像头的视觉局限。行人再辨识可广泛应用于智能图像理解、智能视频分析、智能视频侦查等领域。目前，应用于行人再辨识的方法主要分为：基于人工设计特征的行人再辨识和基于深度卷积神经网络的行人再辨识。基于人工设计特征的行人再辨识主要包含人工设计特征提取和特征的相似性度量两部分；基于深度卷积神经网络的行人再辨识模型可以将特征表达和相似性度量两个环节整合在一起，通过二者的联合优化获取远超传统方法的性能。随着深度学习技术飞速发展和近期大型行人再辨识数据集的出现，深度行人再辨识技术得到了快速发展，已成为目前行人再辨识领域主流的方法。

论文“Deep Residual Learning for Image Recognition(用于图像识别的深度残差学习)”(发表于《Conference on Computer Vision and Pattern Recognition(计算机视觉和模式识别会议)》)在经典卷积神经网络的基础上提出了残差学习，使得卷积神经网络在变得更深的同时识别效果也更好，开启了各领域广泛使用深度学习的新纪元。论文“Show，Attend and Tell:Neural Image Caption Generation with Visual Attention(观看，专注和描述：通过视觉注意力机制生成神经图像描述)”(发表于《InternationalConference on Machine Learning(国际机器学习大会)》)将自然语言处理领域的注意力机制应用于智能图像处理，并在图像描述等方向取得了跨越性的提高，开启了注意力机制应用于智能图像处理的新纪元。论文“Squeeze-and-Excitation Networks(压缩-激励卷积神经网络)”(发表于《Conference on Computer Vision and Pattern Recognition(计算机视觉和模式识别会议)》)在上述残差网络的基础上，加入注意力模块(压缩-激励模块)，使得模型可以提取到图片更多的细节特征并提高准确率。论文“Beyond Part Models:Person Retrieval with Refined Part Pooling(专注区域的模型：使用精化的区域池化进行行人搜索)”(发表于《European Conference on Computer Vision(计算机视觉欧洲会议)》)在残差网络的基础上提出了将行人图片水平均匀分割为六部分，这样可以使得模型更专注于细节，从而提高分类准确率。

不难看出，目前大部分行人再辨识方法都以残差网络为基础架构，通过改进残差网络的结构来提高行人分类准确率，但是这些改进方法没有利用注意力机制善于专注细节的优点去改进模型，使得模型在提取图像特征时容易损失大量有效特征。因此，有必要发明一种能够使得模型在深度学习时可以提取到图像更多细节特征的方法。

发明内容

本发明所要解决的是现有的行人再辨识方法在进行深度学习时损失大量有效特征的问题，提供一种基于稀疏注意力网络的行人再辨识方法，其在模型复杂度不变的情况下，能显著提升对行人图像细节特征的提取性能以及缓解有效特征损失，并提高行人分类准确率。

为解决上述问题，本发明是通过以下技术方案实现的：

基于稀疏注意力网络的行人再辨识方法，包括如下步骤：

步骤1、将已知的行人再辨识数据集中的图像分为训练集和测试集，并分别对训练集和测试集中的图像进行预处理；

步骤2、对步骤1所得的训练集中的所有训练图像进行复制，分别得到原训练图像和复制训练图像；

步骤3、对于步骤2所得的原训练图像，先将原训练图像送入卷积层提取图像的卷积特征，再将提取的卷积特征送入最大池化层提取图像的最大池化特征，后将提取的最大池化特征送入3个重复叠加的第一残差模块提取图像的第一残差卷积特征；

步骤4、将步骤3所得的第一残差卷积特征送入第一归一化的压缩-激励模块提取图像的第一注意力特征；

步骤5、将步骤3所得的第一残差卷积特征和步骤4所得的第一注意力特征相乘，得到第一稀疏注意力特征；

步骤6、利用步骤2所的复制训练图像与步骤5所得的第一稀疏注意力特征相加，得到第一阶段图像特征；

步骤7、对步骤6所得的所有第一阶段图像特征进行复制，分别得到原第一阶段图像特征和复制第一阶段图像特征；

步骤8、对于步骤7所得的原第一阶段图像特征特征送入4个重复叠加的第二残差模块提取图像的第二残差卷积特征；

步骤9、将步骤8所得到第二残差卷积特征送入第二归一化的压缩-激励模块提取图像的第二注意力特征；

步骤10、将步骤8所得的第二残差卷积特征与步骤9所得的第二注意力特征相乘，得到第二稀疏注意力特征；

步骤11、将步骤7所得的复制第一阶段图像特征与步骤10所得的第二稀疏注意力特征相加，得到第二阶段图像特征；

步骤12、对步骤11所得的所有第二阶段图像特征进行复制，分别得到原第二阶段图像特征和复制第二阶段图像特征；

步骤13、对于步骤12所得的原第二阶段图像特征特征送入6个重复叠加的第三残差模块提取图像的第三残差卷积特征；

步骤14、将步骤13所得到第三残差卷积特征送入第三归一化的压缩-激励模块提取图像的第三注意力特征；

步骤15、将步骤13所得的第三残差卷积特征与步骤14所得的第三注意力特征相乘，得到第三稀疏注意力特征；

步骤16、将步骤12所得的复制第二阶段图像特征与步骤15所得的第三稀疏注意力特征相加，得到第三阶段图像特征；

步骤17、对步骤16所得的所有第三阶段图像特征进行复制，分别得到原第三阶段图像特征和复制第三阶段图像特征；

步骤18、对于步骤17所得的原第三阶段图像特征特征送入3个重复叠加的第四残差模块提取图像的第四残差卷积特征；

步骤19、将步骤18所得到第四残差卷积特征送入第四归一化的压缩-激励模块提取图像的第四注意力特征；

步骤20、将步骤18所得的第四残差卷积特征与步骤19所得的第四注意力特征相乘，得到第四稀疏注意力特征；

步骤21、将步骤17所得的复制第三阶段图像特征与步骤20所得的第四稀疏注意力特征相加，得到第四阶段图像特征；

步骤22、将步骤21所得的所有第四阶段图像特征送入平均池化层提取图像的平均池化特征；

步骤23、将步骤22所得到的所有平均池化特征送入分类层，由此得到行人类别的预测模型；

步骤24、利用步骤2所得的测试集中的所有测试图像对步骤23所得的行人类别的预测模型进行测试，由此得到最终行人类别的预测模型；

步骤25、从实时采集的视频中筛选出所有的行人图像，并将这些行人图像全部送入到最终行人类别的预测模型中对其进行辨识分类，从中找出指定对象的所有行人图像。

上述步骤1中，所述行人再辨识数据集为Market-1501和DukeMTMC-reID。

上述步骤1中，对训练集中的训练图像和测试集中的测试图像的预处理过程分别如下：对训练集中的训练图像的预处理过程为：先对训练图像进行裁剪，再将裁剪后的图像水平翻转，后将翻转后的训练图像进行归一化；对测试集中的测试图像的预处理过程为：对测试图像进行裁剪。

上述方案中，第一残差模块、第二残差模块、第三残差模块和第四残差模块的结构相同，均包括3层卷积层和1条短连接；其中第一层卷积层具有C/4个步长为1且内核大小为1×1的过滤器，第二层卷积层具有C/4个步长为1且内核大小为3×3的过滤器，第三层卷积层具有C个步长为1且内核大小为1×1的过滤器；短连接连接第一层卷积层的头部与第三层卷积层的尾部，并将第一层卷积层的输入与第三层卷积层的输出相加后，得到整个残差模块的输出；其中第一残差模块的通道值C的取值为256，第二残差模块的通道值C的取值为512，第三残差模块的通道值C的取值为1024，第四残差模块的通道值C的取值为2048。

上述方案中，第一归一化的压缩-激励模块、第二归一化的压缩-激励模块、第三归一化的压缩-激励模块和第四归一化的压缩-激励模块的结构相同，均包括7层：其中第一层为平均池化层；第二层为降维层，其具有C/16个步长为1且内核大小为1×1的过滤器；第三层为批量归一化层，其执行C/16个归一化运算；第四层为线性整流层；第五层为升维层，其具有C个步长为1且内核大小为1×1的过滤器；第六层为批量归一化层，其执行C个归一化运算；第七层为Sigmoid激活层；

其中第一归一化的压缩-激励模块的通道值C的取值为256，第二归一化的压缩-激励模块的通道值C的取值为512，第三归一化的压缩-激励模块的通道值C的取值为1024，第四归一化的压缩-激励模块的通道值C的取值为2048。

上述方案中，第四层即线性整流层执行的线性整流函数为：

其中，x即第四层的输入特征。

上述方案中，第七层即Sigmoid激活层执行的Sigmoid激活函数为：

其中，z即第七层的输入特征。

与现有技术相比，本发明结合了多种先进的网络结构，并在其基础上设计了稀疏的注意力机制，因而具有以下几个特点：

(1)使用稀疏的归一化压缩-激励网络，即在残差网络结构中加入少量的注意力模块，这种稀疏的注意力机制可以有效避免卷积过程中特征图必要信息的损失。

(2)提出了稀疏注意力机制，即在深度网络模型加入少量的注意力模块或者其它可用于提取特征的模块，这样可以在模型复杂度不变的情况下，使得模型保持之前特征提取能力的同时，拥有专注于提取特征图缩小时将会被丢弃的有效信息的能力。

(3)对压缩-激励模块进行了归一化得到归一化的压缩-激励模块，相对于以往的注意力特征提取模块，归一化的注意力模块可以使得更多的特征被激活函数激活。

附图说明

图1为本发明所提出的行人再辨识模型(稀疏的归一化压缩-激励网络)的结构示意图。

图2为残差模块的结构示意图。

图3为归一化的压缩-激励模块的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实例，对本发明进一步详细说明。

本发明所构建的行人再辨识模型即稀疏的归一化压缩-激励网络，如图1所示，其主要由位于中部的主干层，位于主干层其中一侧的4条短连接，以及位于主干层另一侧的4个归一化的压缩-激励模块组成。

(1)主干层：

第一层卷积层，该卷积层由内核大小是7×7的过滤器组成，作用降维，图片经过降维之后变为原图片尺寸的1/4，所以此层主要是为了减小计算量。

第二层为最大池化层，即在2×2像素的区域内取最大值，同样是为了减小模型计算量。

第三至十六层分别由3个第一残差模块(ResNet module 1)、4个第二残差模块(ResNet module 2)、6个第三残差模块(ResNet module 3)以及3个第四残差模块(ResNetmodule 4)依次叠加而成的主干网络，第一至第四残差模块的主要结构相同，唯一的不同在于输入与输出它们的特征图片数量不同，即上述C(通道)值不同。一张行人图片输入进深度卷积神经网络，输出的特征便主要由此主干网络提取。

参见图2，残差模块(ResNet module)用于提取图像主要特征，每个残差模块主要由短连接和3个卷积层组成。第一卷积层具有C/4个步长为1且内核大小为1×1的过滤器(filter)进行卷积运算提取图像的卷积特征；第二卷积层具有C/4个步长为1且内核大小为3×3的过滤器(filter)进行卷积运算提取图像的卷积特征；第三卷积层具有C个步长为1且内核大小为1×1的过滤器(filter)进行卷积运算提取图像的卷积特征。在残差模块内，还有一条连接第一卷积层头部与第三卷积层尾部的短连接，即在残差模块内，输入残差模块的图像特征同时通过短连接和三层卷积运算两条运算通路到达第三卷积层尾部，再将两条通路的值相加，即可得到残差模块的输出。

第一残差模块、第二残差模块、第三残差模块和第四残差模块的结构相同，其区别是：第一残差模块的通道值C的取值为256，第二残差模块的通道值C的取值为512，第三残差模块的通道值C的取值为1024，第四残差模块的通道值C的取值为2048。

每个残差模块包含三层卷积层：第一卷积层具有C/4个步长为1且内核大小为1×1的过滤器(filter)进行卷积运算提取图像的卷积特征；第二卷积层具有C/4个步长为1且内核大小为3×3的过滤器(filter)进行卷积运算提取图像的卷积特征；第三卷积层具有C个步长为1且内核大小为1×1的过滤器(filter)进行卷积运算提取图像的卷积特征。此外，每个残差模块，还有一条连接第一卷积层头部与第三卷积层尾部的短连接，即：残差模块的输入通过短连接和三层卷积运算两条运算通路到达第三卷积层尾部，再将两条通路的值相加，即可得到残差模块的输出。

第十七层为平均池化层，其作用是将分散的所有分类的值统一到一个数组内，方便下一层的分类函数进行分类。第十八层为全连接层，其使用Softmax函数对751个值进行概率预测并分类。

(2)短连接：

短连接可以将网络浅层的图片无损地传入深层，这样可以减少卷积过程中的信息损失。

(3)归一化的压缩-激励模块：

归一化的压缩-激励模块(NSE module)为用于提取图像细节特征的注意力模块。不同于压缩-激励网络中的压缩-激励模块，本发明归一化的压缩-激励模块在其基础上，增加了归一化运算，可以使得更多的有效特征通过激活函数，从而使得模型提取到更多有效特征。具体操作是，在压缩-激励模块中的降维全连接层和升维全连接层后分别加入一层批量归一化层，将训练中的所有照片归一化为每张照片所有像素值的均值为0，方差为1。

参见图3，第一归一化的压缩-激励模块、第二归一化的压缩-激励模块、第三归一化的压缩-激励模块和第四归一化的压缩-激励模块的结构相同，其区别是：第一归一化的压缩-激励模块的通道值C的取值为256，第二归一化的压缩-激励模块的通道值C的取值为512，第三归一化的压缩-激励模块的通道值C的取值为1024，第四归一化的压缩-激励模块的通道值C的取值为2048。

每个归一化的压缩-激励模块包含七层运算：第一层为平均池化层，即对C张图像中每张的像素值取平均值；第二层是降维层，由C/16个步长为1且内核大小为1×1的过滤器(filter)将上一层所得的C张图像降维成C/16张图像；第三层为批量归一化层，其执行C/16个归一化运算；第四层为线性整流函数(Rectified Linear Unit，ReLU)，计算公式为

其中x即第四层的输入特征；第五层是升维层，由C个步长为1且内核大小为1×1的过滤器(filter)将上一层所得的C/16张图像升维成C张图像；第六层为批量归一化层，其执行C个归一化运算；第七层为Sigmoid激活函数，计算公式为

其中z即第七层的输入特征。

相比于以往使用了数十个注意力模块的模型，本发明的行人再辨识模型不再需要将数十个注意力模块分别叠加在每一个残差模块之后，而是只当残差模块中C值改变时，在其之后稀疏地使用四个改进的注意力模块(归一化的压缩-激励模块)，便可以更有效地提取到图像细节特征，最后再将注意力模块提取的特征与残差模块提取的特征相乘，并加上短连接所传输的浅层无损特征图，再输入下一层C值改变的残差模块。

一种基于稀疏注意力网络的行人再辨识方法，其具体步骤如下：

(一)处理给定的行人再辨识数据集：

(1)对大型行人再辨识数据集Market-1501和DukeMTMC-reID进行图像预处理：

(1.1)将它们的图像大小全部放大为288×144像素。

(1.2)将整个数据集图片按照7:3分为训练集和测试集。把训练集的照片裁剪为256×128像素，并水平翻转，最后再将行人照片归一化为每张照片所有像素值的均值为0，方差为1；将测试集的照片尺寸放大为256×128像素，不进行其余处理。

(二)利用训练集对所构建的行人再辨识模型即稀疏的归一化压缩-激励网络进行训练，得到行人类别的预测模型：

大致分为四部分：第一部分是通过短连接将浅层特征无损传输到深层特征；第二部分是通过不断叠加的残差模块组成的主干残差网络来提取到图像主要卷及特征；第三部分是通过主干残差网络中嵌入的稀疏注意力模块(归一化的压缩-激励模块)提取图像易被损失的细节特征；第四部分是将上述第二、三部分得到的特征相乘，最后再加上第一部分所得的特征，输送进全连接层和分类回归层从而得到分类和回归结果。本发明的稀疏注意力网络可有效提取到数个行人再辨识数据集的行人照片细节特征。

(2)对训练集中的训练图像进行残差特征提取的过程，即：

第一阶段：

(2.1)将输入的图像复制为两张相同的照片，其中第一张经过一层具有C＝64个内核大小为7×7的过滤器(filter)进行卷积运算提取图像的卷积特征，并且卷积的步长为2，即每间隔一个像素点进行一次卷积运算。

(2.2)利用步骤(2.1)得到的卷积层特征，送入一层具有C＝64个内核大小为2×2的过滤器(filter)进行最大池化运算(4个像素点中取最大值的像素点)提取图像特征，并且池化运算的步长为1，即对每个像素点都进行池化运算。

(2.3)利用步骤(2.2)得到的图像特征，送入三个重复叠加的第一残差模块进行特征提取，其中第一残差模块的通道值C为256。

(3)利用步骤(2.3)得到的残差卷积特征，送入归一化的压缩-激励模块进行注意力特征提取，其中第一归一化的压缩-激励模块的通道值C为256。

(4)利用步骤(2)得到的残差卷积特征与步骤(3)得到的注意力卷积特征相乘，得到稀疏的注意力特征。

(5)利用步骤(2.1)复制所得的第二张图像与步骤(4)得到的稀疏注意力特征相加，得到第一阶段图像特征。

第二阶段：

(6)利用步骤(5)所得第一阶段图像特征，输送进第二阶段稀疏的注意力特征提取模块，即重复上述步骤(2)～(5)，得到第二阶段图像特征。在第二阶段中，第二残差模块和第二归一化的压缩-激励模块的通道值C为512。

第三阶段：

(7)利用步骤(6)所得第二阶段图像特征，输送进第三阶段稀疏的注意力特征提取模块，即重复上述步骤(2)～(5)，得到第三阶段图像特征。在第三阶段中，第三残差模块和第三归一化的压缩-激励模块的通道值C为1024。

第四阶段：

(8)利用步骤(7)所得第三阶段图像特征，输送进第四阶段稀疏的注意力特征提取模块，即重复上述步骤(2)～(5)，得到第四阶段图像特征。

在第四阶段中，第三残差模块和第三归一化的压缩-激励模块的通道值C为2048。

第五阶段：

(9)利用步骤(8)所得第四阶段图像特征，输送进平均池化层，对2048张图像中每张的像素值取平均值。

(10)利用步骤(9)所得平均池化后的特征，输送分类层，利用分类器Softmax函数将2048个特征转化为取值范围介于0～1之间且总和为100％的751个概率值，最高的概率值对应的索引，即行人类别的预测模型。

Softmax函数计算公式为：

其中，Vi是分类器前级输出单元的输出，i表示C个类别的索引，Si表示的是当前元素的指数与所有元素指数和的比值，Softmax将C类行人的输出数值转化为相对概率，更容易理解和比较，此处C的值为751。

(三)利用测试集对行人类别的预测模型进行测试，得到最终行人类别的预测模型：

测试集对测试所得的行人类别的预测模型进行测试，以验证模型的训练效果和性能。

(四)利用最终行人类别的预测模型进行行人再辨识：

从实时采集的视频中筛选出所有的行人图像，并将这些行人图像全部送入到最终行人类别的预测模型中对其进行辨识分类，从中找出指定对象的所有行人图像，从而完成行人再辨识。

需要说明的是，尽管以上本发明所述的实施例是说明性的，但这并非是对本发明的限制，因此本发明并不局限于上述具体实施方式中。如本发明的稀疏概念，包括稀疏注意力模块和稀疏短连接。对于稀疏注意力模块，本发明不仅仅局限于在模型中添加四个或一个注意力模块，还包括以各种顺序稀疏地添加在模型中的一个注意力模块、两个注意力模块、三个注意力模块以及四个注意力模块。对于稀疏短连接，不仅仅局限于在模型中添加四条或一条短连接，还包括以各种顺序稀疏地添加在模型中的一条短连接、两条短连接、三条短连接以及四条短连接。在不脱离本发明原理的情况下，凡是本领域技术人员在本发明的启示下获得的其它实施方式，均视为在本发明的保护之内。

Claims

1.基于稀疏注意力网络的行人再辨识方法，其特征是，包括如下步骤：

步骤6、利用步骤2所得的复制训练图像与步骤5所得的第一稀疏注意力特征相加，得到第一阶段图像特征；

2.根据权利要求1所述的基于稀疏注意力网络的行人再辨识方法，其特征是，步骤1中，所述行人再辨识数据集为Market-1501和DukeMTMC-reID。

3.根据权利要求1所述的基于稀疏注意力网络的行人再辨识方法，其特征是，步骤1中，对训练集中的训练图像和测试集中的测试图像的预处理过程分别如下：

对训练集中的训练图像的预处理过程为：先对训练图像进行裁剪，再将裁剪后的图像水平翻转，后将翻转后的训练图像进行归一化；

对测试集中的测试图像的预处理过程为：对测试图像进行裁剪。

4.根据权利要求1所述的基于稀疏注意力网络的行人再辨识方法，其特征是，第一残差模块、第二残差模块、第三残差模块和第四残差模块的结构相同，均包括3层卷积层和1条短连接；其中第一层卷积层具有C/4个步长为1且内核大小为1×1的过滤器，第二层卷积层具有C/4个步长为1且内核大小为3×3的过滤器，第三层卷积层具有C个步长为1且内核大小为1×1的过滤器；短连接连接第一层卷积层的头部与第三层卷积层的尾部，并将第一层卷积层的输入与第三层卷积层的输出相加后，得到整个残差模块的输出；

其中第一残差模块的通道值C的取值为256，第二残差模块的通道值C的取值为512，第三残差模块的通道值C的取值为1024，第四残差模块的通道值C的取值为2048。

5.根据权利要求1所述的基于稀疏注意力网络的行人再辨识方法，其特征是，第一归一化的压缩-激励模块、第二归一化的压缩-激励模块、第三归一化的压缩-激励模块和第四归一化的压缩-激励模块的结构相同，均包括7层：其中第一层为平均池化层；第二层为降维层，其具有C/16个步长为1且内核大小为1×1的过滤器；第三层为批量归一化层，其执行C/16个归一化运算；第四层为线性整流层；第五层为升维层，其具有C个步长为1且内核大小为1×1的过滤器；第六层为批量归一化层，其执行C个归一化运算；第七层为Sigmoid激活层；

6.根据权利要求5所述的基于稀疏注意力网络的行人再辨识方法，其特征是，第四层即线性整流层执行的线性整流函数为：

其中，x即第四层的输入特征。

7.根据权利要求5所述的基于稀疏注意力网络的行人再辨识方法，其特征是，第七层即Sigmoid激活层执行的Sigmoid激活函数为：

其中，z即第七层的输入特征。