CN110414338B - 基于稀疏注意力网络的行人再辨识方法 - Google Patents
基于稀疏注意力网络的行人再辨识方法 Download PDFInfo
- Publication number
- CN110414338B CN110414338B CN201910543465.4A CN201910543465A CN110414338B CN 110414338 B CN110414338 B CN 110414338B CN 201910543465 A CN201910543465 A CN 201910543465A CN 110414338 B CN110414338 B CN 110414338B
- Authority
- CN
- China
- Prior art keywords
- layer
- image
- pedestrian
- convolution
- residual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000012549 training Methods 0.000 claims description 38
- 238000012360 testing method Methods 0.000 claims description 26
- 238000011176 pooling Methods 0.000 claims description 23
- 238000010606 normalization Methods 0.000 claims description 18
- 230000004913 activation Effects 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 8
- 230000009467 reduction Effects 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 abstract description 8
- 230000006870 function Effects 0.000 description 11
- 238000000605 extraction Methods 0.000 description 10
- 230000007246 mechanism Effects 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010304 firing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2136—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on sparsity criteria, e.g. with an overcomplete basis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于稀疏注意力网络的行人再辨识方法,首先通过短连接将浅层特征无损传输到深层特征;然后通过不断叠加的残差模块组成的主干残差网络来提取到图像主要卷及特征;接着通过主干残差网络中嵌入的归一化的压缩‑激励模块提取图像易被损失的细节特征;最后将上述得到的特征相乘,最后再加上第一部分所得的特征,输送进全连接层和分类回归层从而得到分类和回归结果。本发明的稀疏注意力网络可有效提取到数个行人再辨识数据集的行人照片细节特征。
Description
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种基于稀疏注意力网络的行人再辨识方法。
背景技术
行人再辨识是指对不同监控场景中的同一行人进行身份再确认,以弥补单个摄像头的视觉局限。行人再辨识可广泛应用于智能图像理解、智能视频分析、智能视频侦查等领域。目前,应用于行人再辨识的方法主要分为:基于人工设计特征的行人再辨识和基于深度卷积神经网络的行人再辨识。基于人工设计特征的行人再辨识主要包含人工设计特征提取和特征的相似性度量两部分;基于深度卷积神经网络的行人再辨识模型可以将特征表达和相似性度量两个环节整合在一起,通过二者的联合优化获取远超传统方法的性能。随着深度学习技术飞速发展和近期大型行人再辨识数据集的出现,深度行人再辨识技术得到了快速发展,已成为目前行人再辨识领域主流的方法。
论文“Deep Residual Learning for Image Recognition(用于图像识别的深度残差学习)”(发表于《Conference on Computer Vision and Pattern Recognition(计算机视觉和模式识别会议)》)在经典卷积神经网络的基础上提出了残差学习,使得卷积神经网络在变得更深的同时识别效果也更好,开启了各领域广泛使用深度学习的新纪元。论文“Show,Attend and Tell:Neural Image Caption Generation with Visual Attention(观看,专注和描述:通过视觉注意力机制生成神经图像描述)”(发表于《InternationalConference on Machine Learning(国际机器学习大会)》)将自然语言处理领域的注意力机制应用于智能图像处理,并在图像描述等方向取得了跨越性的提高,开启了注意力机制应用于智能图像处理的新纪元。论文“Squeeze-and-Excitation Networks(压缩-激励卷积神经网络)”(发表于《Conference on Computer Vision and Pattern Recognition(计算机视觉和模式识别会议)》)在上述残差网络的基础上,加入注意力模块(压缩-激励模块),使得模型可以提取到图片更多的细节特征并提高准确率。论文“Beyond Part Models:Person Retrieval with Refined Part Pooling(专注区域的模型:使用精化的区域池化进行行人搜索)”(发表于《European Conference on Computer Vision(计算机视觉欧洲会议)》)在残差网络的基础上提出了将行人图片水平均匀分割为六部分,这样可以使得模型更专注于细节,从而提高分类准确率。
不难看出,目前大部分行人再辨识方法都以残差网络为基础架构,通过改进残差网络的结构来提高行人分类准确率,但是这些改进方法没有利用注意力机制善于专注细节的优点去改进模型,使得模型在提取图像特征时容易损失大量有效特征。因此,有必要发明一种能够使得模型在深度学习时可以提取到图像更多细节特征的方法。
发明内容
本发明所要解决的是现有的行人再辨识方法在进行深度学习时损失大量有效特征的问题,提供一种基于稀疏注意力网络的行人再辨识方法,其在模型复杂度不变的情况下,能显著提升对行人图像细节特征的提取性能以及缓解有效特征损失,并提高行人分类准确率。
为解决上述问题,本发明是通过以下技术方案实现的:
基于稀疏注意力网络的行人再辨识方法,包括如下步骤:
步骤1、将已知的行人再辨识数据集中的图像分为训练集和测试集,并分别对训练集和测试集中的图像进行预处理;
步骤2、对步骤1所得的训练集中的所有训练图像进行复制,分别得到原训练图像和复制训练图像;
步骤3、对于步骤2所得的原训练图像,先将原训练图像送入卷积层提取图像的卷积特征,再将提取的卷积特征送入最大池化层提取图像的最大池化特征,后将提取的最大池化特征送入3个重复叠加的第一残差模块提取图像的第一残差卷积特征;
步骤4、将步骤3所得的第一残差卷积特征送入第一归一化的压缩-激励模块提取图像的第一注意力特征;
步骤5、将步骤3所得的第一残差卷积特征和步骤4所得的第一注意力特征相乘,得到第一稀疏注意力特征;
步骤6、利用步骤2所的复制训练图像与步骤5所得的第一稀疏注意力特征相加,得到第一阶段图像特征;
步骤7、对步骤6所得的所有第一阶段图像特征进行复制,分别得到原第一阶段图像特征和复制第一阶段图像特征;
步骤8、对于步骤7所得的原第一阶段图像特征特征送入4个重复叠加的第二残差模块提取图像的第二残差卷积特征;
步骤9、将步骤8所得到第二残差卷积特征送入第二归一化的压缩-激励模块提取图像的第二注意力特征;
步骤10、将步骤8所得的第二残差卷积特征与步骤9所得的第二注意力特征相乘,得到第二稀疏注意力特征;
步骤11、将步骤7所得的复制第一阶段图像特征与步骤10所得的第二稀疏注意力特征相加,得到第二阶段图像特征;
步骤12、对步骤11所得的所有第二阶段图像特征进行复制,分别得到原第二阶段图像特征和复制第二阶段图像特征;
步骤13、对于步骤12所得的原第二阶段图像特征特征送入6个重复叠加的第三残差模块提取图像的第三残差卷积特征;
步骤14、将步骤13所得到第三残差卷积特征送入第三归一化的压缩-激励模块提取图像的第三注意力特征;
步骤15、将步骤13所得的第三残差卷积特征与步骤14所得的第三注意力特征相乘,得到第三稀疏注意力特征;
步骤16、将步骤12所得的复制第二阶段图像特征与步骤15所得的第三稀疏注意力特征相加,得到第三阶段图像特征;
步骤17、对步骤16所得的所有第三阶段图像特征进行复制,分别得到原第三阶段图像特征和复制第三阶段图像特征;
步骤18、对于步骤17所得的原第三阶段图像特征特征送入3个重复叠加的第四残差模块提取图像的第四残差卷积特征;
步骤19、将步骤18所得到第四残差卷积特征送入第四归一化的压缩-激励模块提取图像的第四注意力特征;
步骤20、将步骤18所得的第四残差卷积特征与步骤19所得的第四注意力特征相乘,得到第四稀疏注意力特征;
步骤21、将步骤17所得的复制第三阶段图像特征与步骤20所得的第四稀疏注意力特征相加,得到第四阶段图像特征;
步骤22、将步骤21所得的所有第四阶段图像特征送入平均池化层提取图像的平均池化特征;
步骤23、将步骤22所得到的所有平均池化特征送入分类层,由此得到行人类别的预测模型;
步骤24、利用步骤2所得的测试集中的所有测试图像对步骤23所得的行人类别的预测模型进行测试,由此得到最终行人类别的预测模型;
步骤25、从实时采集的视频中筛选出所有的行人图像,并将这些行人图像全部送入到最终行人类别的预测模型中对其进行辨识分类,从中找出指定对象的所有行人图像。
上述步骤1中,所述行人再辨识数据集为Market-1501和DukeMTMC-reID。
上述步骤1中,对训练集中的训练图像和测试集中的测试图像的预处理过程分别如下:对训练集中的训练图像的预处理过程为:先对训练图像进行裁剪,再将裁剪后的图像水平翻转,后将翻转后的训练图像进行归一化;对测试集中的测试图像的预处理过程为:对测试图像进行裁剪。
上述方案中,第一残差模块、第二残差模块、第三残差模块和第四残差模块的结构相同,均包括3层卷积层和1条短连接;其中第一层卷积层具有C/4个步长为1且内核大小为1×1的过滤器,第二层卷积层具有C/4个步长为1且内核大小为3×3的过滤器,第三层卷积层具有C个步长为1且内核大小为1×1的过滤器;短连接连接第一层卷积层的头部与第三层卷积层的尾部,并将第一层卷积层的输入与第三层卷积层的输出相加后,得到整个残差模块的输出;其中第一残差模块的通道值C的取值为256,第二残差模块的通道值C的取值为512,第三残差模块的通道值C的取值为1024,第四残差模块的通道值C的取值为2048。
上述方案中,第一归一化的压缩-激励模块、第二归一化的压缩-激励模块、第三归一化的压缩-激励模块和第四归一化的压缩-激励模块的结构相同,均包括7层:其中第一层为平均池化层;第二层为降维层,其具有C/16个步长为1且内核大小为1×1的过滤器;第三层为批量归一化层,其执行C/16个归一化运算;第四层为线性整流层;第五层为升维层,其具有C个步长为1且内核大小为1×1的过滤器;第六层为批量归一化层,其执行C个归一化运算;第七层为Sigmoid激活层;
其中第一归一化的压缩-激励模块的通道值C的取值为256,第二归一化的压缩-激励模块的通道值C的取值为512,第三归一化的压缩-激励模块的通道值C的取值为1024,第四归一化的压缩-激励模块的通道值C的取值为2048。
上述方案中,第四层即线性整流层执行的线性整流函数为:
其中,x即第四层的输入特征。
上述方案中,第七层即Sigmoid激活层执行的Sigmoid激活函数为:
其中,z即第七层的输入特征。
与现有技术相比,本发明结合了多种先进的网络结构,并在其基础上设计了稀疏的注意力机制,因而具有以下几个特点:
(1)使用稀疏的归一化压缩-激励网络,即在残差网络结构中加入少量的注意力模块,这种稀疏的注意力机制可以有效避免卷积过程中特征图必要信息的损失。
(2)提出了稀疏注意力机制,即在深度网络模型加入少量的注意力模块或者其它可用于提取特征的模块,这样可以在模型复杂度不变的情况下,使得模型保持之前特征提取能力的同时,拥有专注于提取特征图缩小时将会被丢弃的有效信息的能力。
(3)对压缩-激励模块进行了归一化得到归一化的压缩-激励模块,相对于以往的注意力特征提取模块,归一化的注意力模块可以使得更多的特征被激活函数激活。
附图说明
图1为本发明所提出的行人再辨识模型(稀疏的归一化压缩-激励网络)的结构示意图。
图2为残差模块的结构示意图。
图3为归一化的压缩-激励模块的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实例,对本发明进一步详细说明。
本发明所构建的行人再辨识模型即稀疏的归一化压缩-激励网络,如图1所示,其主要由位于中部的主干层,位于主干层其中一侧的4条短连接,以及位于主干层另一侧的4个归一化的压缩-激励模块组成。
(1)主干层:
第一层卷积层,该卷积层由内核大小是7×7的过滤器组成,作用降维,图片经过降维之后变为原图片尺寸的1/4,所以此层主要是为了减小计算量。
第二层为最大池化层,即在2×2像素的区域内取最大值,同样是为了减小模型计算量。
第三至十六层分别由3个第一残差模块(ResNet module 1)、4个第二残差模块(ResNet module 2)、6个第三残差模块(ResNet module 3)以及3个第四残差模块(ResNetmodule 4)依次叠加而成的主干网络,第一至第四残差模块的主要结构相同,唯一的不同在于输入与输出它们的特征图片数量不同,即上述C(通道)值不同。一张行人图片输入进深度卷积神经网络,输出的特征便主要由此主干网络提取。
参见图2,残差模块(ResNet module)用于提取图像主要特征,每个残差模块主要由短连接和3个卷积层组成。第一卷积层具有C/4个步长为1且内核大小为1×1的过滤器(filter)进行卷积运算提取图像的卷积特征;第二卷积层具有C/4个步长为1且内核大小为3×3的过滤器(filter)进行卷积运算提取图像的卷积特征;第三卷积层具有C个步长为1且内核大小为1×1的过滤器(filter)进行卷积运算提取图像的卷积特征。在残差模块内,还有一条连接第一卷积层头部与第三卷积层尾部的短连接,即在残差模块内,输入残差模块的图像特征同时通过短连接和三层卷积运算两条运算通路到达第三卷积层尾部,再将两条通路的值相加,即可得到残差模块的输出。
第一残差模块、第二残差模块、第三残差模块和第四残差模块的结构相同,其区别是:第一残差模块的通道值C的取值为256,第二残差模块的通道值C的取值为512,第三残差模块的通道值C的取值为1024,第四残差模块的通道值C的取值为2048。
每个残差模块包含三层卷积层:第一卷积层具有C/4个步长为1且内核大小为1×1的过滤器(filter)进行卷积运算提取图像的卷积特征;第二卷积层具有C/4个步长为1且内核大小为3×3的过滤器(filter)进行卷积运算提取图像的卷积特征;第三卷积层具有C个步长为1且内核大小为1×1的过滤器(filter)进行卷积运算提取图像的卷积特征。此外,每个残差模块,还有一条连接第一卷积层头部与第三卷积层尾部的短连接,即:残差模块的输入通过短连接和三层卷积运算两条运算通路到达第三卷积层尾部,再将两条通路的值相加,即可得到残差模块的输出。
第十七层为平均池化层,其作用是将分散的所有分类的值统一到一个数组内,方便下一层的分类函数进行分类。第十八层为全连接层,其使用Softmax函数对751个值进行概率预测并分类。
(2)短连接:
短连接可以将网络浅层的图片无损地传入深层,这样可以减少卷积过程中的信息损失。
(3)归一化的压缩-激励模块:
归一化的压缩-激励模块(NSE module)为用于提取图像细节特征的注意力模块。不同于压缩-激励网络中的压缩-激励模块,本发明归一化的压缩-激励模块在其基础上,增加了归一化运算,可以使得更多的有效特征通过激活函数,从而使得模型提取到更多有效特征。具体操作是,在压缩-激励模块中的降维全连接层和升维全连接层后分别加入一层批量归一化层,将训练中的所有照片归一化为每张照片所有像素值的均值为0,方差为1。
参见图3,第一归一化的压缩-激励模块、第二归一化的压缩-激励模块、第三归一化的压缩-激励模块和第四归一化的压缩-激励模块的结构相同,其区别是:第一归一化的压缩-激励模块的通道值C的取值为256,第二归一化的压缩-激励模块的通道值C的取值为512,第三归一化的压缩-激励模块的通道值C的取值为1024,第四归一化的压缩-激励模块的通道值C的取值为2048。
每个归一化的压缩-激励模块包含七层运算:第一层为平均池化层,即对C张图像中每张的像素值取平均值;第二层是降维层,由C/16个步长为1且内核大小为1×1的过滤器(filter)将上一层所得的C张图像降维成C/16张图像;第三层为批量归一化层,其执行C/16个归一化运算;第四层为线性整流函数(Rectified Linear Unit,ReLU),计算公式为其中x即第四层的输入特征;第五层是升维层,由C个步长为1且内核大小为1×1的过滤器(filter)将上一层所得的C/16张图像升维成C张图像;第六层为批量归一化层,其执行C个归一化运算;第七层为Sigmoid激活函数,计算公式为其中z即第七层的输入特征。
相比于以往使用了数十个注意力模块的模型,本发明的行人再辨识模型不再需要将数十个注意力模块分别叠加在每一个残差模块之后,而是只当残差模块中C值改变时,在其之后稀疏地使用四个改进的注意力模块(归一化的压缩-激励模块),便可以更有效地提取到图像细节特征,最后再将注意力模块提取的特征与残差模块提取的特征相乘,并加上短连接所传输的浅层无损特征图,再输入下一层C值改变的残差模块。
一种基于稀疏注意力网络的行人再辨识方法,其具体步骤如下:
(一)处理给定的行人再辨识数据集:
(1)对大型行人再辨识数据集Market-1501和DukeMTMC-reID进行图像预处理:
(1.1)将它们的图像大小全部放大为288×144像素。
(1.2)将整个数据集图片按照7:3分为训练集和测试集。把训练集的照片裁剪为256×128像素,并水平翻转,最后再将行人照片归一化为每张照片所有像素值的均值为0,方差为1;将测试集的照片尺寸放大为256×128像素,不进行其余处理。
(二)利用训练集对所构建的行人再辨识模型即稀疏的归一化压缩-激励网络进行训练,得到行人类别的预测模型:
大致分为四部分:第一部分是通过短连接将浅层特征无损传输到深层特征;第二部分是通过不断叠加的残差模块组成的主干残差网络来提取到图像主要卷及特征;第三部分是通过主干残差网络中嵌入的稀疏注意力模块(归一化的压缩-激励模块)提取图像易被损失的细节特征;第四部分是将上述第二、三部分得到的特征相乘,最后再加上第一部分所得的特征,输送进全连接层和分类回归层从而得到分类和回归结果。本发明的稀疏注意力网络可有效提取到数个行人再辨识数据集的行人照片细节特征。
(2)对训练集中的训练图像进行残差特征提取的过程,即:
第一阶段:
(2.1)将输入的图像复制为两张相同的照片,其中第一张经过一层具有C=64个内核大小为7×7的过滤器(filter)进行卷积运算提取图像的卷积特征,并且卷积的步长为2,即每间隔一个像素点进行一次卷积运算。
(2.2)利用步骤(2.1)得到的卷积层特征,送入一层具有C=64个内核大小为2×2的过滤器(filter)进行最大池化运算(4个像素点中取最大值的像素点)提取图像特征,并且池化运算的步长为1,即对每个像素点都进行池化运算。
(2.3)利用步骤(2.2)得到的图像特征,送入三个重复叠加的第一残差模块进行特征提取,其中第一残差模块的通道值C为256。
(3)利用步骤(2.3)得到的残差卷积特征,送入归一化的压缩-激励模块进行注意力特征提取,其中第一归一化的压缩-激励模块的通道值C为256。
(4)利用步骤(2)得到的残差卷积特征与步骤(3)得到的注意力卷积特征相乘,得到稀疏的注意力特征。
(5)利用步骤(2.1)复制所得的第二张图像与步骤(4)得到的稀疏注意力特征相加,得到第一阶段图像特征。
第二阶段:
(6)利用步骤(5)所得第一阶段图像特征,输送进第二阶段稀疏的注意力特征提取模块,即重复上述步骤(2)~(5),得到第二阶段图像特征。在第二阶段中,第二残差模块和第二归一化的压缩-激励模块的通道值C为512。
第三阶段:
(7)利用步骤(6)所得第二阶段图像特征,输送进第三阶段稀疏的注意力特征提取模块,即重复上述步骤(2)~(5),得到第三阶段图像特征。在第三阶段中,第三残差模块和第三归一化的压缩-激励模块的通道值C为1024。
第四阶段:
(8)利用步骤(7)所得第三阶段图像特征,输送进第四阶段稀疏的注意力特征提取模块,即重复上述步骤(2)~(5),得到第四阶段图像特征。
在第四阶段中,第三残差模块和第三归一化的压缩-激励模块的通道值C为2048。
第五阶段:
(9)利用步骤(8)所得第四阶段图像特征,输送进平均池化层,对2048张图像中每张的像素值取平均值。
(10)利用步骤(9)所得平均池化后的特征,输送分类层,利用分类器Softmax函数将2048个特征转化为取值范围介于0~1之间且总和为100%的751个概率值,最高的概率值对应的索引,即行人类别的预测模型。
Softmax函数计算公式为:
其中,Vi是分类器前级输出单元的输出,i表示C个类别的索引,Si表示的是当前元素的指数与所有元素指数和的比值,Softmax将C类行人的输出数值转化为相对概率,更容易理解和比较,此处C的值为751。
(三)利用测试集对行人类别的预测模型进行测试,得到最终行人类别的预测模型:
测试集对测试所得的行人类别的预测模型进行测试,以验证模型的训练效果和性能。
(四)利用最终行人类别的预测模型进行行人再辨识:
从实时采集的视频中筛选出所有的行人图像,并将这些行人图像全部送入到最终行人类别的预测模型中对其进行辨识分类,从中找出指定对象的所有行人图像,从而完成行人再辨识。
需要说明的是,尽管以上本发明所述的实施例是说明性的,但这并非是对本发明的限制,因此本发明并不局限于上述具体实施方式中。如本发明的稀疏概念,包括稀疏注意力模块和稀疏短连接。对于稀疏注意力模块,本发明不仅仅局限于在模型中添加四个或一个注意力模块,还包括以各种顺序稀疏地添加在模型中的一个注意力模块、两个注意力模块、三个注意力模块以及四个注意力模块。对于稀疏短连接,不仅仅局限于在模型中添加四条或一条短连接,还包括以各种顺序稀疏地添加在模型中的一条短连接、两条短连接、三条短连接以及四条短连接。在不脱离本发明原理的情况下,凡是本领域技术人员在本发明的启示下获得的其它实施方式,均视为在本发明的保护之内。
Claims (7)
1.基于稀疏注意力网络的行人再辨识方法,其特征是,包括如下步骤:
步骤1、将已知的行人再辨识数据集中的图像分为训练集和测试集,并分别对训练集和测试集中的图像进行预处理;
步骤2、对步骤1所得的训练集中的所有训练图像进行复制,分别得到原训练图像和复制训练图像;
步骤3、对于步骤2所得的原训练图像,先将原训练图像送入卷积层提取图像的卷积特征,再将提取的卷积特征送入最大池化层提取图像的最大池化特征,后将提取的最大池化特征送入3个重复叠加的第一残差模块提取图像的第一残差卷积特征;
步骤4、将步骤3所得的第一残差卷积特征送入第一归一化的压缩-激励模块提取图像的第一注意力特征;
步骤5、将步骤3所得的第一残差卷积特征和步骤4所得的第一注意力特征相乘,得到第一稀疏注意力特征;
步骤6、利用步骤2所得 的复制训练图像与步骤5所得的第一稀疏注意力特征相加,得到第一阶段图像特征;
步骤7、对步骤6所得的所有第一阶段图像特征进行复制,分别得到原第一阶段图像特征和复制第一阶段图像特征;
步骤8、对于步骤7所得的原第一阶段图像特征特征送入4个重复叠加的第二残差模块提取图像的第二残差卷积特征;
步骤9、将步骤8所得到第二残差卷积特征送入第二归一化的压缩-激励模块提取图像的第二注意力特征;
步骤10、将步骤8所得的第二残差卷积特征与步骤9所得的第二注意力特征相乘,得到第二稀疏注意力特征;
步骤11、将步骤7所得的复制第一阶段图像特征与步骤10所得的第二稀疏注意力特征相加,得到第二阶段图像特征;
步骤12、对步骤11所得的所有第二阶段图像特征进行复制,分别得到原第二阶段图像特征和复制第二阶段图像特征;
步骤13、对于步骤12所得的原第二阶段图像特征特征送入6个重复叠加的第三残差模块提取图像的第三残差卷积特征;
步骤14、将步骤13所得到第三残差卷积特征送入第三归一化的压缩-激励模块提取图像的第三注意力特征;
步骤15、将步骤13所得的第三残差卷积特征与步骤14所得的第三注意力特征相乘,得到第三稀疏注意力特征;
步骤16、将步骤12所得的复制第二阶段图像特征与步骤15所得的第三稀疏注意力特征相加,得到第三阶段图像特征;
步骤17、对步骤16所得的所有第三阶段图像特征进行复制,分别得到原第三阶段图像特征和复制第三阶段图像特征;
步骤18、对于步骤17所得的原第三阶段图像特征特征送入3个重复叠加的第四残差模块提取图像的第四残差卷积特征;
步骤19、将步骤18所得到第四残差卷积特征送入第四归一化的压缩-激励模块提取图像的第四注意力特征;
步骤20、将步骤18所得的第四残差卷积特征与步骤19所得的第四注意力特征相乘,得到第四稀疏注意力特征;
步骤21、将步骤17所得的复制第三阶段图像特征与步骤20所得的第四稀疏注意力特征相加,得到第四阶段图像特征;
步骤22、将步骤21所得的所有第四阶段图像特征送入平均池化层提取图像的平均池化特征;
步骤23、将步骤22所得到的所有平均池化特征送入分类层,由此得到行人类别的预测模型;
步骤24、利用步骤2所得的测试集中的所有测试图像对步骤23所得的行人类别的预测模型进行测试,由此得到最终行人类别的预测模型;
步骤25、从实时采集的视频中筛选出所有的行人图像,并将这些行人图像全部送入到最终行人类别的预测模型中对其进行辨识分类,从中找出指定对象的所有行人图像。
2.根据权利要求1所述的基于稀疏注意力网络的行人再辨识方法,其特征是,步骤1中,所述行人再辨识数据集为Market-1501和DukeMTMC-reID。
3.根据权利要求1所述的基于稀疏注意力网络的行人再辨识方法,其特征是,步骤1中,对训练集中的训练图像和测试集中的测试图像的预处理过程分别如下:
对训练集中的训练图像的预处理过程为:先对训练图像进行裁剪,再将裁剪后的图像水平翻转,后将翻转后的训练图像进行归一化;
对测试集中的测试图像的预处理过程为:对测试图像进行裁剪。
4.根据权利要求1所述的基于稀疏注意力网络的行人再辨识方法,其特征是,第一残差模块、第二残差模块、第三残差模块和第四残差模块的结构相同,均包括3层卷积层和1条短连接;其中第一层卷积层具有C/4个步长为1且内核大小为1×1的过滤器,第二层卷积层具有C/4个步长为1且内核大小为3×3的过滤器,第三层卷积层具有C个步长为1且内核大小为1×1的过滤器;短连接连接第一层卷积层的头部与第三层卷积层的尾部,并将第一层卷积层的输入与第三层卷积层的输出相加后,得到整个残差模块的输出;
其中第一残差模块的通道值C的取值为256,第二残差模块的通道值C的取值为512,第三残差模块的通道值C的取值为1024,第四残差模块的通道值C的取值为2048。
5.根据权利要求1所述的基于稀疏注意力网络的行人再辨识方法,其特征是,第一归一化的压缩-激励模块、第二归一化的压缩-激励模块、第三归一化的压缩-激励模块和第四归一化的压缩-激励模块的结构相同,均包括7层:其中第一层为平均池化层;第二层为降维层,其具有C/16个步长为1且内核大小为1×1的过滤器;第三层为批量归一化层,其执行C/16个归一化运算;第四层为线性整流层;第五层为升维层,其具有C个步长为1且内核大小为1×1的过滤器;第六层为批量归一化层,其执行C个归一化运算;第七层为Sigmoid激活层;
其中第一归一化的压缩-激励模块的通道值C的取值为256,第二归一化的压缩-激励模块的通道值C的取值为512,第三归一化的压缩-激励模块的通道值C的取值为1024,第四归一化的压缩-激励模块的通道值C的取值为2048。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910543465.4A CN110414338B (zh) | 2019-06-21 | 2019-06-21 | 基于稀疏注意力网络的行人再辨识方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910543465.4A CN110414338B (zh) | 2019-06-21 | 2019-06-21 | 基于稀疏注意力网络的行人再辨识方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110414338A CN110414338A (zh) | 2019-11-05 |
CN110414338B true CN110414338B (zh) | 2022-03-15 |
Family
ID=68359592
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910543465.4A Active CN110414338B (zh) | 2019-06-21 | 2019-06-21 | 基于稀疏注意力网络的行人再辨识方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110414338B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111161224A (zh) * | 2019-12-17 | 2020-05-15 | 沈阳铸造研究所有限公司 | 基于深度学习的铸件内部缺陷分级评估系统及方法 |
CN111325161B (zh) * | 2020-02-25 | 2023-04-18 | 四川翼飞视科技有限公司 | 一种基于注意力机制的人脸检测神经网络的构建方法 |
CN112016434A (zh) * | 2020-08-25 | 2020-12-01 | 安徽索贝数码科技有限公司 | 一种基于注意力机制3d残差网络的镜头运动识别方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9336436B1 (en) * | 2013-09-30 | 2016-05-10 | Google Inc. | Methods and systems for pedestrian avoidance |
CN105938544A (zh) * | 2016-04-05 | 2016-09-14 | 大连理工大学 | 基于综合型线性分类器和解析型字典的行为识别方法 |
WO2017201638A1 (en) * | 2016-05-23 | 2017-11-30 | Intel Corporation | Human detection in high density crowds |
CN107610154A (zh) * | 2017-10-12 | 2018-01-19 | 广西师范大学 | 多源目标的空间直方图表示与跟踪方法 |
CN108010051A (zh) * | 2017-11-29 | 2018-05-08 | 广西师范大学 | 基于AdaBoost算法的多源视频目标融合跟踪方法 |
CN109583502A (zh) * | 2018-11-30 | 2019-04-05 | 天津师范大学 | 一种基于对抗擦除注意力机制的行人再识别方法 |
CN109800710A (zh) * | 2019-01-18 | 2019-05-24 | 北京交通大学 | 行人重识别系统及方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9773163B2 (en) * | 2013-11-14 | 2017-09-26 | Click-It, Inc. | Entertainment device safety system and related methods of use |
JP6688990B2 (ja) * | 2016-04-28 | 2020-04-28 | パナソニックIpマネジメント株式会社 | 識別装置、識別方法、識別プログラムおよび記録媒体 |
-
2019
- 2019-06-21 CN CN201910543465.4A patent/CN110414338B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9336436B1 (en) * | 2013-09-30 | 2016-05-10 | Google Inc. | Methods and systems for pedestrian avoidance |
CN105938544A (zh) * | 2016-04-05 | 2016-09-14 | 大连理工大学 | 基于综合型线性分类器和解析型字典的行为识别方法 |
WO2017201638A1 (en) * | 2016-05-23 | 2017-11-30 | Intel Corporation | Human detection in high density crowds |
CN107610154A (zh) * | 2017-10-12 | 2018-01-19 | 广西师范大学 | 多源目标的空间直方图表示与跟踪方法 |
CN108010051A (zh) * | 2017-11-29 | 2018-05-08 | 广西师范大学 | 基于AdaBoost算法的多源视频目标融合跟踪方法 |
CN109583502A (zh) * | 2018-11-30 | 2019-04-05 | 天津师范大学 | 一种基于对抗擦除注意力机制的行人再识别方法 |
CN109800710A (zh) * | 2019-01-18 | 2019-05-24 | 北京交通大学 | 行人重识别系统及方法 |
Non-Patent Citations (5)
Title |
---|
Attention-Aware Compositional Network for Person Re-identification;Jing Xu 等;《Computer Vision and Pattern Recognition》;20180516;2119-2128 * |
CA3Net: Contextual-Attentional Attribute-Appearance Network for Person Re-Identification;Jiawei Liu 等;《Computer Vision and Pattern Recognition》;20181119;1-9 * |
Person Re-identification with Cascaded Pairwise Convolutions;Yicheng Wang 等;《2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition》;20181217;1470-1478 * |
Where-and-When to Look: Deep Siamese Attention Networks for Video-Based Person Re-Identification;Lin Wu 等;《Computer Vision and Pattern Recognition》;20181014;1412-1424 * |
基于注意力卷积模块的深度神经网络图像识别;袁嘉杰;《计算机工程与应用》;20190130;1-13 * |
Also Published As
Publication number | Publication date |
---|---|
CN110414338A (zh) | 2019-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112308158B (zh) | 一种基于部分特征对齐的多源领域自适应模型及方法 | |
CN110263705B (zh) | 面向遥感技术领域两期高分辨率遥感影像变化检测系统 | |
CN111783831B (zh) | 基于多源多标签共享子空间学习的复杂图像精确分类方法 | |
CN108960141B (zh) | 基于增强型深度卷积神经网络的行人再识别方法 | |
CN108256482B (zh) | 一种基于卷积神经网络进行分布学习的人脸年龄估计方法 | |
CN109447977B (zh) | 一种基于多光谱深度卷积神经网络的视觉缺陷检测方法 | |
CN110414338B (zh) | 基于稀疏注意力网络的行人再辨识方法 | |
CN113052210A (zh) | 一种基于卷积神经网络的快速低光照目标检测方法 | |
CN109410184B (zh) | 基于稠密对抗网络半监督学习的直播色情图像检测方法 | |
CN111368754B (zh) | 一种基于全局上下文信息的机场跑道异物检测方法 | |
CN111325165A (zh) | 考虑空间关系信息的城市遥感影像场景分类方法 | |
CN112750129B (zh) | 一种基于特征增强位置注意力机制的图像语义分割模型 | |
CN108090472A (zh) | 基于多通道一致性特征的行人重识别方法及其系统 | |
CN112990282B (zh) | 一种细粒度小样本图像的分类方法及装置 | |
CN113628201A (zh) | 基于深度学习的病理切片分析方法、电子设备及可读存储介质 | |
CN113902622B (zh) | 基于深度先验联合注意力的光谱超分辨率方法 | |
CN114187308A (zh) | 基于多尺度池化金字塔的HRNet自蒸馏目标分割方法 | |
CN115965864A (zh) | 一种用于农作物病害识别的轻量级注意力机制网络 | |
CN114882497A (zh) | 一种基于深度学习算法实现水果分类识别的方法 | |
CN112364747A (zh) | 一种有限样本下的目标检测方法 | |
CN114359578A (zh) | 病虫害识别智能终端应用方法及系统 | |
CN114463651A (zh) | 基于超轻量级高效卷积神经网络的农作物病虫害识别方法 | |
CN113657472A (zh) | 一种基于子空间学习的多源遥感数据融合方法 | |
CN109165675A (zh) | 基于周期性局部连接卷积神经网络的图像分类方法 | |
CN110490876B (zh) | 一种基于轻量级神经网络的图像分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231026 Address after: 518000 1002, Building A, Zhiyun Industrial Park, No. 13, Huaxing Road, Henglang Community, Longhua District, Shenzhen, Guangdong Province Patentee after: Shenzhen Wanzhida Technology Co.,Ltd. Address before: 541004 No. 15 Yucai Road, Qixing District, Guilin, the Guangxi Zhuang Autonomous Region Patentee before: Guangxi Normal University |
|
TR01 | Transfer of patent right |