CN111488797B - 一种行人再识别方法 - Google Patents
一种行人再识别方法 Download PDFInfo
- Publication number
- CN111488797B CN111488797B CN202010165628.2A CN202010165628A CN111488797B CN 111488797 B CN111488797 B CN 111488797B CN 202010165628 A CN202010165628 A CN 202010165628A CN 111488797 B CN111488797 B CN 111488797B
- Authority
- CN
- China
- Prior art keywords
- multiplied
- image
- feature
- size
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000012549 training Methods 0.000 claims abstract description 51
- 239000013598 vector Substances 0.000 claims abstract description 41
- 239000013604 expression vector Substances 0.000 claims abstract description 34
- 238000010606 normalization Methods 0.000 claims abstract description 5
- 238000012163 sequencing technique Methods 0.000 claims abstract 2
- 238000011176 pooling Methods 0.000 claims description 39
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000012935 Averaging Methods 0.000 claims description 6
- 238000013459 approach Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 claims 1
- 238000007781 pre-processing Methods 0.000 abstract 1
- 238000012544 monitoring process Methods 0.000 description 10
- 230000004927 fusion Effects 0.000 description 7
- 230000014509 gene expression Effects 0.000 description 7
- 238000012360 testing method Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011840 criminal investigation Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本发明涉及一种行人再识别方法,包括步骤1、调整原始行人图像尺寸,进行预处理;2、将预处理后的图像输入MEMF模型进行前向传播,输出四个特征向量;3、计算一次训练的总损失;4、根据总损失进行反向传播,更新并保存网络权重;5、将网络权重作为下一次模型训练的初始网络权重,重复步骤2‑4,保存最后一次训练后的模型;6、调整检索图像和图像库中图像的大小并归一化;7、归一化后输入训练好的模型,每幅图像得到四个等维的特征表达向量;8、将每幅图像的四个特征表达向量级联作为最终特征表达向量;9、计算检索图像和图像库图像的最终特征表达向量间的欧氏距离,从小到大排序;10、根据排序,输出对应序列图像作为识别结果。
Description
技术领域
本发明属于模式识别与计算机视觉中的图像检索领域,具体涉及利用深度学习进行有监督的行人再识别方法,特别是一种基于多级注意力嵌入和多层特征融合模型的行人再识别方法。
背景技术
视频监控作为一种可以保留一定时间段场景信息的手段,由于具有全天候、多方位、直观等优点,目前已广泛应用于街道、商场、车站等各种场所,并逐渐成为维护公共安全和社会稳定的重要手段。据统计,我国已经建成世界上最大的视频监控网,城镇视频监控摄像头超过2500万个。视频监控联网带来了海量的监控数据,对海量监控数据进行分析尤为重要。完全依靠人工浏览的视频图像数据分析方式不仅耗费大量的人力物力,而且分析结果受人为因素影响大,效率低。智能视频分析技术可完成海量监控数据的自动分析,在计算机视觉领域获得了越来越多的关注。行人再识别(person re-identification,Re-ID)作为智能视频分析技术的重要组成部分,其在智能安防与刑事侦查中具有广阔的应用前景。
行人再识别用于判断非重叠视域中拍摄到的行人是否属于同一个人,即在非重叠视域图像组成的查找数据库中,判断待识别行人是否出现,并将属于该行人的数据返回。近年来,行人再识别技术引起了学术界和工业界的广泛关注,已经成为计算机视觉领域的一个研究热点。由于行人兼具刚性和柔性物体的特性,外观易受穿着、姿态和视角变化以及光照、遮挡、环境等各种复杂因素的影响,使得行人再识别面临着巨大的技术挑战。
早期的行人再识别主要依靠传统方法,主要包括人工设计特征和距离度量。随着深度学习的快速发展和大规模行人再识别数据集的发布,越来越多的研究人员将卷积神经网络(CNN)应用于行人再识别。基于深度学习的行人再识别方法通常先通过网络提取行人特征,然后根据欧氏距离度量特征间的距离,根据距离值从小到大排序,获得最佳识别结果。目前的基于深度学习的方法更多地集中在学习更好的特征表示上,大致可以分为三类:(1)全局特征表达。一些方法仅使用行人身份作为标签,并提取全局特征作为特征表达,但这容易忽略行人的细节并且性能较差。还有一些方法将学习到的行人属性(发型,服装颜色等)作为全局特征,但需要大量人工标注的标签信息,十分耗时。(2)局部特征表达。基于局部的特征表示可以更好地描述行人的细节,并且已在许多方法中得到应用。提取局部特征的典型方法是图像分割,通常将图像水平分成若干份。它可以使学习到的特征集中在某些人的细节上,但是由于行人间遮挡和背景杂波的影响,这种简单的划分通常无法将行人部位完全对应,从而在距离度量时不能获得较好的结果。尽管有些方法尝试通过关键点检测来对齐行人部位。但是这通常需要额外的技术支持(例如标记关键点),并且对齐不当会导致性能下降。(3)全局-局部特征表达。这些方法将全局和局部特征连接为最终特征表示。这种组合的特征通常在训练和测试阶段需要更多的计算,因为与单分支模型相比,这种组合存在更多的分支,从而导致运行时间变慢。
发明内容
本发明的目的在于克服以上问题,提供一种基于多级注意力嵌入和多层特征融合模型的行人再识别方法。本发明关注行人更具代表性的特征并通过该特征来辅助全局特征的表达,相比于其他同领域的方法具有更高的识别准确率。
为达到以上目的,本发明采取的技术方案是:
一种基于多级注意力嵌入和多层特征融合(Multi-level-attention Embeddingand Multi-layer-feature Fusion,MEMF)模型的行人再识别方法,包括MEMF模型的训练过程和使用MEMF模型进行行人再识别的测试过程:
一、MEMF模型的训练过程,具体包括以下步骤:
步骤1:调整训练用的原始行人图像的尺寸,通过随机水平翻转、随机裁剪、归一化和随机擦除对图像进行预处理。
步骤2:将预处理后的图像输入MEMF模型中进行前向传播,将ResNet-50网络作为基础网络,将在ImageNet图像数据集上预训练好的网络权重作为初始网络权重,输出四个与训练数据集中行人类别数等维的特征向量。
步骤3:分别计算步骤2输出的四个与训练数据集中行人类别数等维的特征向量与行人类别间的交叉熵损失值,将得到的交叉熵损失值加和取平均值,得到交叉熵损失平均值。并对模型中的每一层权重计算特征值差正交损失,将得到的特征值差正交损失与交叉熵损失平均值加权求和作为一次训练的总损失。
步骤4:根据步骤3得到的总损失进行反向传播,更新并保存网络权重。
步骤5:将步骤4保存的网络权重作为下一次模型训练的初始网络权重,重复步骤2-4,使损失趋近于零,直至网络收敛。保存最后一次训练后的MEMF模型。
二、将最后一次训练后的MEMF模型用于行人再识别的测试过程,具体包括以下步骤:
步骤6:调整检索图像和图像库中的图像的大小,并进行归一化。
步骤7:将归一化后的检索图像和图像库中的图像分别输入最后一次训练后的MEMF模型中,每幅图像将得到四个等维的特征表达向量。
步骤8:将步骤7得到的每幅图像的四个特征表达向量级联作为该幅图像的最终特征表达向量。
步骤9:给定一幅检索图像,计算检索图像和图像库图像的最终特征表达向量间的欧氏距离,从小到大排序。
步骤10:根据欧氏距离的排序顺序,输出对应序列图像作为识别结果。
步骤2的具体方法为:1)将大小为3×288×144的图像输入ResNet-50网络第一层,输出大小为64×144×72的特征图。
2)将大小为64×144×72的特征图输入ResNet-50网络第二层,输出大小为256×72×36的特征图,后将大小为256×72×36的特征图输入多级注意力模块,改变每幅特征图的像素值,输出改变像素值的大小为256×72×36的特征图。
3)将改变像素值的大小为256×72×36的特征图输入ResNet-50网络第三层,输出大小为512×36×18的特征图,后将大小为512×36×18的特征图输入多级注意力模块,改变每幅特征图的像素值,输出改变像素值的大小为512×36×18的特征图。
4)将改变像素值的大小为512×36×18的特征图输入ResNet-50网络第四层,输出大小为1024×18×9的特征图,后将大小为1024×18×9的特征图输入多级注意力模块,改变每幅特征图的像素值,输出改变像素值的大小为1024×18×9的特征图。
5)将改变像素值的大小为1024×18×9的特征图输入由全局平均池化层和全局最大池化层组成的池化块中,输出一个大小为1024×1×1的特征向量。
将步骤4)中输出的改变像素值的大小为1024×18×9的特征图分别输入三个不共享权重的ResNet-50网络第五层,分别输出三个大小为2048×18×9的特征图,将三个大小为2048×18×9的特征图对应输入三个多级注意力模块,将三个多级注意力模块的输出对应输入三个1×1的卷积层,再将三个1×1的卷积层的输出对应输入三个池化块,三个池化块分别输出三个大小为2048×1×1的特征向量,其与之前得到的大小为1024×1×1的特征向量共同组成四个输出特征向量。
6)将步骤5)中得到的四个输出特征向量分别输入四个分类器中,每个分类器由两个全连接层组成,输出四个与训练数据集中行人类别数等维的特征向量。
步骤5)中,全局平均池化层的输出为m,n分别为改变像素值的大小为1024×18×9的特征图的长和宽,xi为改变像素值的大小为1024×18×9的特征图中对应点的像素值,共有m×n个像素值。全局最大池化层的输出为Fi max=max(xi);则由全局平均池化层和全局最大池化层组成的池化块的输出为Fi=Fi avg+Fi max。
步骤3中,交叉熵损失值定义为其中yj为步骤2输出的四个与训练数据集中行人类别数等维的特征向量,/>为行人类别数,N为行人数量。特征值差正交损失定义为/>其中β为正交系数,λmax和λmin分别为网络每层的权重矩阵的转置与权重矩阵的乘积WTW的最大、最小特征值。总损失为L=LCEL+γLEDO,γ是超参数。
γ的值随着训练次数的增加而变化,具体变化为:
步骤9中,检索图像和图像库图像的最终特征表达向量间的欧氏距离为A、B分别为检索图像和图像库图像的最终特征表达向量,ap,bp分别为检索图像和图像库图像的最终特征表达向量中对应点的值,q为最终特征表达向量的维度。
本发明的有益效果是:
本发明创新性地将多级注意力模块嵌入多层特征融合网络中,突出行人细节特征,通过关注更具代表性的特征辅助全局特征表达,有助于识别相似度较高的不同行人。使用多层特征融合网络,在每次训练时得到多个不同的特征向量,将全局平均池化层和全局最大池化层结合,丰富全局特征表达。提出特征值差正交损失,用于降低特征向量间的相关性,相比于其他同领域的方法具有更高的识别率。本发明无需对行人属性等进行额外标注,只需要行人类别即可进行训练。应用于监控安防和刑事侦查领域,可以快速处理大量视频监控数据,找到目标位置,减少相关人员的工作量,提高智能视频分析处理的准确率和效率。
附图说明
本发明有如下附图:
图1是本发明行人再识别方法的流程图;
图2是本发明行人再识别方法中多级注意力模块的流程图。
具体实施方式
以下结合附图对本发明作进一步详细说明。
如图1所示,本发明提供了一种基于多级注意力嵌入和多层特征融合(Multi-level-attention Embedding and Multi-layer-feature Fusion,MEMF)模型的行人再识别方法,具体流程图如图1和图2所示,包括MEMF模型的训练过程和使用MEMF模型进行行人再识别的测试过程:
一、MEMF模型的训练过程,具体包括以下步骤:
步骤1:将训练用的原始行人图像的尺寸调整为288×144,通过水平翻转、随机裁剪、归一化和随机擦除对图像进行预处理。
步骤2:将预处理后的图像输入MEMF模型中进行前向传播,将ResNet-50网络作为基础网络,将在ImageNet图像数据集上预训练好的网络权重作为初始网络权重,输出四个与训练数据集中行人类别数等维的特征向量。其具体方法为:
1)将大小为3×288×144的图像输入ResNet-50网络第一层,输出大小64×144×72的特征图。
2)将大小为64×144×72的特征图输入ResNet-50网络第二层,输出大小为256×72×36的特征图,后将大小为256×72×36的特征图输入多级注意力模块,改变每幅特征图的像素值,输出改变像素值的大小为256×72×36的特征图。
3)将改变像素值的大小为256×72×36的特征图输入ResNet-50网络第三层,输出大小为512×36×18的特征图,后将大小为512×36×18的特征图输入多级注意力模块,改变每幅特征图的像素值,输出改变像素值的大小为512×36×18的特征图。
4)将改变像素值的大小为512×36×18的特征图输入ResNet-50网络第四层,输出大小为1024×18×9的特征图,后将大小为1024×18×9的特征图输入多级注意力模块,改变每幅特征图的像素值,输出改变像素值的大小为1024×18×9的特征图。
5)将改变像素值的大小为1024×18×9的特征图输入由全局平均池化层和全局最大池化层组成的池化块中,输出一个大小为1024×1×1的特征向量。其中,全局平均池化层的输出为m,n分别为改变像素值的大小为1024×18×9的特征图的长和宽,xi为改变像素值的大小为1024×18×9的特征图中对应点的像素值,共有m×n个像素值。全局最大池化层的输出为Fi max=max(xi)。则由全局平均池化层和全局最大池化层组成的池化块的输出为Fi=Fi avg+Fi max。
将步骤4)中输出的改变像素值的大小为1024×18×9的特征图分别输入三个不共享权重的ResNet-50网络第五层,分别输出三个大小为2048×18×9的特征图,将三个大小为2048×18×9的特征图对应输入三个多级注意力模块,将三个多级注意力模块的输出对应输入三个1×1的卷积层,再将三个1×1的卷积层的输出对应输入三个池化块,三个池化块分别输出三个大小为2048×1×1的特征向量,其与之前得到的大小为1024×1×1的特征向量共同组成四个输出特征向量。其目的是进行多层特征提取,充分利用输入图像的信息,使输出的特征向量更加丰富。
6)将步骤5)中得到的四个输出特征向量分别输入四个分类器中,每个分类器由两个全连接层组成,输出四个与训练数据集中行人类别数等维的特征向量。
步骤3:分别计算步骤2输出的四个与训练数据集中行人类别数等维的特征向量与行人类别间的交叉熵损失值,将得到的交叉熵损失值加和取平均值,得到交叉熵损失平均值。并对模型中的每一层权重计算特征值差正交损失,将得到的特征值差正交损失与交叉熵损失平均值加权求和作为一次训练的总损失。
其中交叉熵损失值定义为其中yj为步骤2输出的四个与训练数据集中行人类别数等维的特征向量,/>为行人类别数,N为行人数量。特征值差正交损失定义为/>其中β为正交系数,λmax和λmin分别为网络每层的权重矩阵的转置与权重矩阵的乘积WTW的最大、最小特征值。总损失为L=LCEL+γLEDO,γ是超参数。
步骤4:根据步骤3得到的总损失进行反向传播,更新并保存网络权重。
步骤5:将步骤4保存的网络权重作为下一次模型训练的初始网络权重,重复步骤2-4,使总损失趋近于零,直至网络收敛。保存最后一次训练后的MEMF模型。
二、将最后一次训练后的MEMF模型用于行人再识别的测试过程,具体包括以下步骤:
步骤6:将检索图像和图像库中的图像的大小调整为288×144,并进行归一化。
步骤7:将归一化后的检索图像和图像库中的图像分别输入最后一次训练后的MEMF模型中,每幅图像得到四个等维的特征表达向量。
步骤8:将步骤7得到的每幅图像的四个特征表达向量级联作为该幅图像的最终特征表达向量。
步骤9:给定一幅检索图像,计算检索图像和图像库图像的最终特征表达向量间的欧氏距离A、B分别为检索图像和图像库图像的最终特征表达向量,ap,bp分别为检索图像和图像库图像的最终特征表达向量中对应点的值,q为最终特征表达向量的维度。将欧氏距离从小到大排序。
步骤10:根据欧氏距离的排序顺序,输出对应序列图像作为识别结果。
实施例1
一种基于多级注意力嵌入和多层特征融合(MEMF)模型的行人再识别方法,通过以下步骤进行具体的实施:
步骤1:将训练用的原始行人图像的大小调整为288×144,通过水平翻转、随机裁剪、归一化和随机擦除来对图像进行预处理。将图像像素值归一化为[-1.0,1.0]
步骤2:将预处理后的图像输入MEMF模型中进行前向传播,将ResNet-50网络作为基础网络,将在ImageNet图像数据集上预训练好的网络权重作为初始网络权重,输出四个与训练数据集中行人类别数等维的特征向量。其具体方法为:
1)将大小为3×288×144的图像输入ResNet-50网络第一层,输出为64×144×72大小的特征图。
2)将64×144×72大小的特征图输入ResNet-50网络第二层,输出为256×72×36大小的特征图,后将其输入多级注意力模块,改变每幅特征图的像素值,输出改变像素值的256×72×36大小的特征图。
3)将改变像素值的256×72×36大小的特征图输入ResNet-50网络第三层,输出为512×36×18大小的特征图,后将其输入多级注意力模块,改变每幅特征图的像素值,输出改变像素值的512×36×18大小的特征图。
4)将改变像素值的512×36×18大小的特征图输入ResNet-50网络第四层,输出为1024×18×9大小的特征图,后将其输入多级注意力模块,改变每幅特征图的像素值,输出改变像素值的1024×18×9大小的特征图。
5)将改变像素值的大小为1024×18×9的特征图输入由全局平均池化和全局最大池化层组成的池化块中,输出一个大小为1024×1×1的特征向量。其中,全局平均池化层的输出为m,n分别为改变像素值的大小为1024×18×9的特征图的长和宽,xi为改变像素值的大小为1024×18×9的特征图中对应点的像素值,共有m×n个像素值。全局最大池化层的输出为Fi max=max(xi)。则组合后的池化块输出为Fi=Fi avg+Fi max。
将步骤4)中得到的大小为1024×18×9的特征图分别输入三个不共享权重的ResNet-50网络第五层,分别输出三个大小为2048×18×9的特征图,将三个大小为2048×18×9的特征图对应输入三个多级注意力模块,将三个多级注意力模块的输出对应输入三个1×1的卷积层,再将三个1×1的卷积层的输出对应输入三个池化块,三个池化块分别输出三个2048×1×1大小的特征向量,其与之前得到的大小为1024×1×1的特征向量共同组成四个输出特征向量。
6)将步骤5)中得到的四个输出特征向量分别输入四个分类器中,每个分类器由两个全连接层组成,输出四个与训练数据集中行人类别数等维的特征向量。
步骤3:分别计算步骤2输出的四个与训练数据集中行人类别数等维的特征向量与行人标签间的交叉熵损失值,将得到的交叉熵损失值加和取平均值,得到交叉熵损失平均值。并对模型中的每一层权重计算特征值差正交损失,将得到的特征值差正交损失与交叉熵损失平均值加权求和作为一次训练的总损失。
其中交叉熵损失定义为其中yj为步骤2输出的四个与训练数据集中行人类别数等维的特征向量,/>为行人类别数,N为行人数量。特征值差正交损失定义为/>其中β为正交系数,λmax和λmin分别为网络每层的权重矩阵的转置与权重矩阵的乘积WTW的最大、最小特征值。总损失为L=LCEL+γLEDO,γ是超参数。这里β取0.1,γ的值随着训练次数的增加而变化,具体变化为:
步骤4:根据步骤3得到的总损失进行反向传播,更新并保存网络权重。
步骤5:将步骤4保存的网络权重作为下一次模型训练的初始网络权重,重复步骤2-4,共进行220次训练,使损失趋近于零,直至网络收敛。保存最后一次训练后的MEMF模型。
二、将最后一次训练后的MEMF模型用于行人再识别的测试过程,具体包括以下步骤:
步骤6:读入检索图像,将其大小调整为288×144,并将像素值归一化为[-1.0,1.0],读入图像库中的图像进行相同处理。
步骤7:将归一化后的后的检索图像和图像库中的图像分别输入最后一次训练后的MEMF模型中,每幅图像得到四个等维的特征表达向量。
步骤8:将得到的四个特征表达向量级联作为一幅图像的最终特征表达向量。
步骤9:给定一幅检索图像,计算检索图像和图像库图像的最终特征表达向量间的欧氏距离A、B分别为检索图像和图像库图像的最终特征表达向量,ap,bp分别为检索图像和图像库图像的最终特征表达向量中对应点的值,q为最终特征表达向量的维度。将欧氏距离从小到大排序。
步骤10:根据欧氏距离的排序顺序,输出对应序列图像作为识别结果。
本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
Claims (5)
1.一种行人再识别方法,其特征在于,包括如下步骤:
步骤1:调整训练用的原始行人图像的尺寸,通过随机水平翻转、随机裁剪、归一化和随机擦除对图像进行预处理;
步骤2:将预处理后的图像输入MEMF模型中进行前向传播,将ResNet-50网络作为基础网络,将在ImageNet图像数据集上预训练好的网络权重作为初始网络权重,输出四个与训练数据集中行人类别数等维的特征向量;
步骤3:分别计算步骤2输出的四个与训练数据集中行人类别数等维的特征向量与行人类别间的交叉熵损失值,将得到的交叉熵损失值加和取平均值,得到交叉熵损失平均值;并对模型中的每一层权重计算特征值差正交损失,将得到的特征值差正交损失与交叉熵损失平均值加权求和作为一次训练的总损失;
步骤4:根据步骤3得到的总损失进行反向传播,更新并保存网络权重;
步骤5:将步骤4保存的网络权重作为下一次模型训练的初始网络权重,重复步骤2-4,使损失趋近于零,直至网络收敛;保存最后一次训练后的MEMF模型;
步骤6:调整检索图像和图像库中的图像的大小,并进行归一化;
步骤7:将归一化后的检索图像和图像库中的图像分别输入最后一次训练后的MEMF模型中,每幅图像将得到四个等维的特征表达向量;
步骤8:将步骤7得到的每幅图像的四个特征表达向量级联作为该幅图像的最终特征表达向量;
步骤9:给定一幅检索图像,计算检索图像和图像库图像的最终特征表达向量间的欧氏距离,从小到大排序;
步骤10:根据欧氏距离的排序顺序,输出对应序列图像作为识别结果;
所述步骤2的具体方法为:
1)将大小为3×288×144的图像输入ResNet-50网络第一层,输出为64×144×72大小的特征图;
2)将64×144×72大小的特征图输入ResNet-50网络第二层,输出为256×72×36大小的特征图,后将其输入多级注意力模块,改变每幅特征图的像素值,输出改变像素值的256×72×36大小的特征图;
3)将改变像素值的256×72×36大小的特征图输入ResNet-50网络第三层,输出为512×36×18大小的特征图,后将其输入多级注意力模块,改变每幅特征图的像素值,输出改变像素值的512×36×18大小的特征图;
4)将改变像素值的512×36×18大小的特征图输入ResNet-50网络第四层,输出为1024×18×9大小的特征图,后将其输入多级注意力模块,改变每幅特征图的像素值,输出改变像素值的1024×18×9大小的特征图;
5)将改变像素值的大小为1024×18×9的特征图输入由全局平均池化和全局最大池化层组成的池化块中,输出一个大小为1024×1×1的特征向量,其中,全局平均池化层的输出为m,n分别为改变像素值的大小为1024×18×9的特征图的长和宽,xi为改变像素值的大小为1024×18×9的特征图中对应点的像素值,共有m×n个像素值,全局最大池化层的输出为Fi max=max(xi),则组合后的池化块输出为Fi=Fi avg+Fi max;
将步骤4)中得到的大小为1024×18×9的特征图分别输入三个不共享权重的ResNet-50网络第五层,分别输出三个大小为2048×18×9的特征图,将三个大小为2048×18×9的特征图对应输入三个多级注意力模块,将三个多级注意力模块的输出对应输入三个1×1的卷积层,再将三个1×1的卷积层的输出对应输入三个池化块,三个池化块分别输出三个2048×1×1大小的特征向量,其与之前得到的大小为1024×1×1的特征向量共同组成四个输出特征向量。
2.如权利要求1所述的行人再识别方法,其特征在于,步骤2的具体方法还包括:
6)将步骤5)中得到的四个输出特征向量分别输入四个分类器中,每个分类器由两个全连接层组成,输出四个与训练数据集中行人类别数等维的特征向量。
3.如权利要求1所述的行人再识别方法,其特征在于,步骤3中,交叉熵损失值定义为其中yj为步骤2输出的四个与训练数据集中行人类别数等维的特征向量,/>为行人类别,N为行人数量;特征值差正交损失定义为其中β为正交系数,λmax和λmin分别为网络每层的权重矩阵的转置与权重矩阵的乘积WTW的最大、最小特征值;总损失为/>γ是超参数。
4.如权利要求3所述的行人再识别方法,其特征在于,所述γ的值随着训练次数的增加而变化,具体变化为:
5.如权利要求1所述的行人再识别方法,其特征在于,步骤9中,检索图像和图像库图像的最终特征表达向量间的欧氏距离为A、B分别为检索图像和图像库图像的最终特征表达向量,ap,bp分别为检索图像和图像库图像的最终特征表达向量中对应点的值,q为最终特征表达向量的维度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010165628.2A CN111488797B (zh) | 2020-03-11 | 2020-03-11 | 一种行人再识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010165628.2A CN111488797B (zh) | 2020-03-11 | 2020-03-11 | 一种行人再识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111488797A CN111488797A (zh) | 2020-08-04 |
CN111488797B true CN111488797B (zh) | 2023-12-05 |
Family
ID=71794311
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010165628.2A Active CN111488797B (zh) | 2020-03-11 | 2020-03-11 | 一种行人再识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111488797B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022056013A1 (en) * | 2020-09-08 | 2022-03-17 | Kang Zhang | Artificial intelligence for detecting a medical condition using facial images |
CN117173476A (zh) * | 2023-09-05 | 2023-12-05 | 北京交通大学 | 一种单源域泛化行人再识别方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10482603B1 (en) * | 2019-06-25 | 2019-11-19 | Artificial Intelligence, Ltd. | Medical image segmentation using an integrated edge guidance module and object segmentation network |
CN110659589A (zh) * | 2019-09-06 | 2020-01-07 | 中国科学院自动化研究所 | 基于姿态和注意力机制的行人再识别方法、系统、装置 |
CN110717411A (zh) * | 2019-09-23 | 2020-01-21 | 湖北工业大学 | 一种基于深层特征融合的行人重识别方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10776671B2 (en) * | 2018-05-25 | 2020-09-15 | Adobe Inc. | Joint blur map estimation and blur desirability classification from an image |
EP3591572B1 (en) * | 2018-07-06 | 2021-09-01 | Tata Consultancy Services Limited | Method and system for automatic chromosome classification |
-
2020
- 2020-03-11 CN CN202010165628.2A patent/CN111488797B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10482603B1 (en) * | 2019-06-25 | 2019-11-19 | Artificial Intelligence, Ltd. | Medical image segmentation using an integrated edge guidance module and object segmentation network |
CN110659589A (zh) * | 2019-09-06 | 2020-01-07 | 中国科学院自动化研究所 | 基于姿态和注意力机制的行人再识别方法、系统、装置 |
CN110717411A (zh) * | 2019-09-23 | 2020-01-21 | 湖北工业大学 | 一种基于深层特征融合的行人重识别方法 |
Non-Patent Citations (3)
Title |
---|
Multi-level attention model for person re-identification;Yichao Yan等;《Pattern Recognition Letters》;第127卷;全文 * |
基于注意力机制和特征融合的SSD目标检测算法;高建瓴;孙健;王子牛;韩毓璐;冯娇娇;;软件(第02期);全文 * |
基于通道注意力机制的视频人体行为识别;解怀奇;乐红兵;;电子技术与软件工程(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111488797A (zh) | 2020-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109977918B (zh) | 一种基于无监督域适应的目标检测定位优化方法 | |
CN111259786B (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
CN110532900B (zh) | 基于U-Net和LS-CNN的人脸表情识别方法 | |
CN108520226B (zh) | 一种基于躯体分解和显著性检测的行人重识别方法 | |
CN111881714A (zh) | 一种无监督跨域行人再识别方法 | |
CN111709311B (zh) | 一种基于多尺度卷积特征融合的行人重识别方法 | |
CN111639544B (zh) | 基于多分支跨连接卷积神经网络的表情识别方法 | |
CN111898736B (zh) | 基于属性感知的高效行人重识别方法 | |
CN109034035A (zh) | 基于显著性检测和特征融合的行人重识别方法 | |
CN114220124A (zh) | 一种近红外-可见光跨模态双流行人重识别方法及系统 | |
Li et al. | A generative/discriminative learning algorithm for image classification | |
CN112784728B (zh) | 基于衣物脱敏网络的多粒度换衣行人重识别方法 | |
CN111027377B (zh) | 一种双流神经网络时序动作定位方法 | |
CN112052772A (zh) | 一种人脸遮挡检测算法 | |
CN105975932A (zh) | 基于时间序列shapelet的步态识别分类方法 | |
CN111488797B (zh) | 一种行人再识别方法 | |
CN113920472A (zh) | 一种基于注意力机制的无监督目标重识别方法及系统 | |
CN116704611A (zh) | 一种基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别方法 | |
Vora et al. | Iterative spectral clustering for unsupervised object localization | |
CN114329031A (zh) | 一种基于图神经网络和深度哈希的细粒度鸟类图像检索方法 | |
CN110135435A (zh) | 一种基于广度学习系统的显著性检测方法及装置 | |
CN109583406B (zh) | 基于特征关注机制的人脸表情识别方法 | |
CN111401434A (zh) | 一种基于无监督特征学习的图像分类方法 | |
CN113947780A (zh) | 一种基于改进卷积神经网络的梅花鹿面部识别方法 | |
Li et al. | Criminal investigation image classification based on spatial cnn features and elm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |