CN111274922B - 基于多层次深度学习网络的行人重识别方法及系统 - Google Patents
基于多层次深度学习网络的行人重识别方法及系统 Download PDFInfo
- Publication number
- CN111274922B CN111274922B CN202010053676.2A CN202010053676A CN111274922B CN 111274922 B CN111274922 B CN 111274922B CN 202010053676 A CN202010053676 A CN 202010053676A CN 111274922 B CN111274922 B CN 111274922B
- Authority
- CN
- China
- Prior art keywords
- extraction module
- module
- local
- feature extraction
- pedestrian
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于多层次深度学习网络的行人重识别方法及系统,获取待进行行人重识别的图像;对待进行行人重识别的图像中的一幅,标记待重识别行人的标签;将已标记的图像和未标记的图像,输入到预训练的多层次深度学习网络中;预训练的多层次深度学习网络通过提取已标记图像的融合特征,提取未标记图像的融合特征;所述融合特征包括行人的局部特征和行人的全局特征;计算已标记图像的融合特征与未标记图像的融合特征之间的距离;按照距离从小到大对未标记图像中的行人进行排序,将排序前M个的未标记图像中的行人进行标记,输出未标记图像中对待重识别行人的标记结果。
Description
技术领域
本公开涉及行人重识别技术领域,特别是涉及基于多层次深度学习网络的行人重识别方法及系统。
背景技术
本部分的陈述仅仅是提到了与本公开相关的背景技术,并不必然构成现有技术。
行人重新识别(re-ID)是指在不同摄像机拍摄的视频或图像中查询目标人物的方法。行人重识别的过程,是指对于在监控视频中出现的目标人物,当该目标人物在其他监控区域中再次出现时能够将该目标重新识别出来的过程。最近深度学习在提取行人特征或提高距离学习算法的鲁棒性方面取得了很高的成就。
在实现本公开的过程中,发明人发现现有技术中存在以下技术问题:
通过深度学习提取的行人特征可以分为两种类型:全局特征和局部特征。从整张图片中提取的行人特征称为全局特征。全局特征具有不变性,直观性,易于计算。全局特征通常包含了行人图片中最直观的信息(如行人衣服的颜色),这些全局信息有助于判别不同身份的行人。但是,大多数现有的行人重识别方法在提取全局特征的同时,也会导致图片局部的一些细节部分(如帽子,腰带等)被忽略。例如,如果两个人穿着相同颜色的衣服,而其中一个人戴着帽子,那么仅通过提取全局特征,对于局部特征的忽略使得两个人很难整体的外观上区分开来。现有技术中也存在利用深度学习提取局部特征方法来解决行人重识别问题。基本过程是通过深度学习网络去提取行人的局部特征,并根据显著的局部细节特征去匹配行人的身份(ID)。通过神经网络提取行人各个身体部位的局部特征信息。局部特征间的特征相似度低,更有利于识别行人。但是,提取局部特征的方法在一定程度上忽略的整体信息,且在多个网络层学习局部特征的同时也会产生部分特征的丢失,使得准确率有所降低。
发明内容
为了解决现有技术的不足,本公开提供了基于多层次深度学习网络的行人重识别方法及系统;
第一方面,本公开提供了基于多层次深度学习网络的行人重识别方法;
基于多层次深度学习网络的行人重识别方法,包括:
获取待进行行人重识别的图像;
对待进行行人重识别的图像中的一幅,标记待重识别行人的标签;
将已标记的图像和未标记的图像,输入到预训练的多层次深度学习网络中;预训练的多层次深度学习网络通过提取已标记图像的融合特征,提取未标记图像的融合特征;所述融合特征包括行人的局部特征和行人的全局特征;
计算已标记图像的融合特征与未标记图像的融合特征之间的距离;
按照距离从小到大对未标记图像中的行人进行排序,将排序前M个的未标记图像中的行人进行标记,输出未标记图像中对待重识别行人的标记结果,M为正整数,M为设定值。
第二方面,本公开还提供了基于多层次深度学习网络的行人重识别系统;
基于多层次深度学习网络的行人重识别系统,包括:
获取模块,其被配置为:获取待进行行人重识别的图像;
标记模块,其被配置为:对待进行行人重识别的图像中的一幅,标记待重识别行人的标签;
特征提取模块,其被配置为:将已标记的图像和未标记的图像,输入到预训练的多层次深度学习网络中;预训练的多层次深度学习网络通过提取已标记图像的融合特征,提取未标记图像的融合特征;所述融合特征包括行人的局部特征和行人的全局特征;
距离计算模块,其被配置为:计算已标记图像的融合特征与未标记图像的融合特征之间的距离;
输出模块,其被配置为:按照距离从小到大对未标记图像中的行人进行排序,将排序前M个的未标记图像中的行人进行标记,输出未标记图像中对待重识别行人的标记结果,M为正整数,M为设定值。
第三方面,本公开还提供了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成第一方面所述的方法。
第四方面,本公开还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述的方法。
与现有技术相比,本公开的有益效果是:
本公开提出了一种多层次深度学习网络(Multi-level Feature Fusion,MFF)模型,该模型利用深度学习网络将提取的行人图像的全局特征和局部特征相结合,以生成更具辨识度的描述符。
在多层次深度学习网络中,通过提取不同网络深度的局部特征,从而将网络底层到高层中提取的局部特征组合起来。
在多层次深度学习网络中,通过从网络的最深层提取局部特征和全局特征,用于识别行人。本公开将全局特征和局部特征结合在一起,以便进行行人重识别。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为第一个实施例的网络结构示意图;
图2为第一个实施例的在不同的相机下检索同一行人示意图;
图3为第一个实施例的行人特征图的水平均分方式;
图4(a)-图4(d)为第一个实施例的GLB与MFF在三个数据集上的Rank-1accuracy至Rank-10accuracy的比较。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本公开使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一,本实施例提供了基于多层次深度学习网络的行人重识别方法;
基于多层次深度学习网络的行人重识别方法,包括:
S1:获取待进行行人重识别的图像;
S2:对待进行行人重识别的图像中的一幅,标记待重识别行人的标签;
S3:将已标记的图像和未标记的图像,输入到预训练的多层次深度学习网络中;预训练的多层次深度学习网络通过提取已标记图像的融合特征,提取未标记图像的融合特征;所述融合特征包括行人的局部特征和行人的全局特征;
计算已标记图像的融合特征与未标记图像的融合特征之间的距离;
按照距离从小到大对未标记图像中的行人进行排序,将排序前M个的未标记图像中的行人进行标记,输出未标记图像中对待重识别行人的标记结果,M为正整数,M为设定值。
进一步地,所述预训练的多层次深度学习网络,训练步骤包括:
S31:构建多层次深度学习网络;
S32:构建训练集;所述训练集为Market-1501数据集或CUHK03数据集;
S33:将训练集输入到多层次深度学习网络进行学习,当损失函数达到最小值时,训练结束,输出训练好的多层次深度学习网络。
进一步地,所述S33中,将训练集输入到多层次深度学习网络进行学习步骤之前,还包括:利用ImageNet数据集对多层次深度学习网络进行预训练。
进一步地,所述S31中,构建的多层次深度学习网络,包括:依次连接的输入层、ResNet50神经网络的Stage1模块、ResNet50神经网络的Stage2模块、ResNet50神经网络的Stage3模块和ResNet50神经网络的Stage4模块;
ResNet50神经网络的Stage1模块的输出端与第一局部特征提取模块连接;
ResNet50神经网络的Stage2模块的输出端与第二局部特征提取模块连接;
ResNet50神经网络的Stage3模块的输出端与第三局部特征提取模块连接;
ResNet50神经网络的Stage4模块的输出端与第四局部特征提取模块连接;
ResNet50神经网络的Stage4模块的输出端还与全局特征提取模块连接;
第一局部特征提取模块的输出端、第二局部特征提取模块的输出端、第三局部特征提取模块的输出端、第四局部特征提取模块的输出端和全局特征提取模块的输出端均与特征融合模块连接,特征融合模块与输出层连接。
进一步地,所述S31中,构建的多层次深度学习网络工作原理,包括:
输入层,用于输入待进行行人重识别的图像;
ResNet50神经网络的Stage1模块,用于对待进行行人重识别的图像进行处理获取第一特征图;第一局部特征提取模块,从第一特征图中提取第一局部特征;
ResNet50神经网络的Stage2模块,用于对第一特征图进行处理获取第二特征图;第二局部特征提取模块,从第二特征图中提取第二局部特征;
ResNet50神经网络的Stage3模块,用于对第二特征图进行处理获取第三特征图;第三局部特征提取模块,从第三特征图中提取第三局部特征;
ResNet50神经网络的Stage4模块,用于对第三特征图进行处理获取第四特征图;第四局部特征提取模块,从第四特征图中提取第四局部特征;全局特征提取模块,从第四特征图中提取全局特征;
特征融合模块,对第一局部特征、第二局部特征、第三局部特征、第四局部特征和全局特征进行特征求和融合;对第一局部特征、第二局部特征、第三局部特征、第四局部特征和全局特征对应的损失函数进行求和,求和结果作为多层次深度学习网络的损失函数值。
进一步地,ResNet50神经网络的Stage1模块、ResNet50神经网络的Stage2模块、ResNet50神经网络的Stage3模块和ResNet50神经网络的Stage4模块的内部结构为业内公知技术,此处不再展开描述。
进一步地,第一局部特征提取模块、第二局部特征提取模块和第三局部特征提取模块的内部结构是一样的。
进一步地,所述第一局部特征提取模块,包括:依次连接的第一平均池化层Average pooling、第一分割层、第一卷积层、第一批处理层batch mormalization layer、第一Relu函数层、第一全局池化层Global pooling、第一全连接层和第一softmax函数层。
进一步地,所述第一平均池化层Average pooling,对第一特征图进行平均池化操作;
第一分割层,将平均池化后的图像,水平平均划分为N层,N为正整数,例如可以等于6;
第一卷积层,用于提取行人图像特征,降低网络参数,保证网络的稀疏性,防止过拟合;
第一批处理层batch mormalization layer,用于防止网络梯度爆炸或梯度消失状况;
第一Relu函数层,用于添加非线性激活函数来使网络能够有非线性的表达,增加网络的拟合能力;
第一全局池化层Global pooling,用于在保留相应的局部特征的同时对局部特征进行降维;
第一全连接层,用于降低学习过程中的参数敏感度,便于接下来将特征向量输入到第一softmax函数层;
第一softmax函数层,用于计算特征向量的损失函数,并将结果通过该函数层进行输出。
进一步地,所述第二局部特征提取模块,包括:依次连接的第二平均池化层Average pooling、第二分割层、第二卷积层、第二批处理层batch mormalization layer、第二Relu函数层、第二全局池化层Global pooling、第二全连接层和第二softmax函数层。
进一步地,所述第三局部特征提取模块,包括:依次连接的第三平均池化层Average pooling、第三分割层、第三卷积层、第三批处理层batch mormalization layer、第三Relu函数层、第三全局池化层Global pooling、第三全连接层和第三softmax函数层。
进一步地,所述第四局部特征提取模块,包括:依次连接的第四分割层、第四平均池化层Average pooling、第四全连接层和第四softmax函数层。
进一步地,所述全局特征提取模块,包括:依次连接的第五平均池化层Averagepooling、第五全连接层和第五softmax函数层。
进一步地,所述特征融合模块,用于对第一局部特征提取模块的损失函数值、第二局部特征提取模块的损失函数值、第三局部特征提取模块的损失函数值、第四局部特征提取模块的损失函数值和全局特征提取模块的损失函数值进行求和处理。
进一步地,所述特征融合模块的总损失函数为:
进一步地,所述第一分割层、第二分割层、第三分割层和第四分割层的内部结构是一样的。
进一步地,所述第一分割层用于对输入图像从上到下水平分割成若干个层,层与层之间的高度一致。
本公开提出深度学习网络模型,网络层同时学习全局特征和局部特征。全局特征可以在整体上来对整张行人图像进行判断。而在全局特征相似的情况下,局部特征间相似度低的特性也为全局特征做了重要的细节补充,同时该模型从不同的网络深度提取局部特征,使得每个网络层学习到的局部特征都能够得到充分的利用。
本公开提出的基于深度学习的行人重识别模型结合了全局特征和局部特征的多级特征结合模型。由于随着网络层数的加深,部分行人图像特征会丢失,因此,本公开在网络层中添加分支使模型能够从不同的网络深度提取局部特征。多级特征结合模型主要由两部分网络组成:基于局部特征的多级网络和特征结合网络。
多级网络用来从不同的网络层提取局部特征来进行行人的重识别。
特征结合网络用于从最深层网络提取局部特征以及全局特征。
多级特征结合网络中提取全局特征和局部特征通过多分类算法来进行行人身份重识别。
本公开在三个经典的数据集上训练和测试多级特征结合模型并与其他行人重识别方法进行比较并且取得了很好的结果。
多层次深度学习网络(Multi-Level Feature Fusion,MFF)。MFF网络主要包含两个结构:基于部分的多层次网络(Part-based Multi-level Net,PMN)和全局-局部特征分支网络(Global-Local Branch,GLB),如图1所示。PMN网络,包括第一局部特征提取模块、第二局部特征提取模块和第三局部特征提取模块;PMN网络,主要用于提取来自网络不同层的局部特征。
GLB网络,包括:第四局部特征提取模块和全局特征提取模块;GLB网络在深度学习网络的最深层提取行人图像的局部特征和全局特征。
在行人重识别方法中,基于ResNet50网络简洁的体系结构及有效的性能,本公开使用ResNet50网络作为MFF网络的骨干网络。如图1所示,ResNet50结构被分为Stage1,Stage2,Stage3和Stage4四个网络模块一遍后续可以更方便地提取出每个网络块得到的行人图像特征图,并利用分类器来预测行人身份。其中每个网络块包括卷积块(conv block)和身份块(identity blocks),其中卷积块中包含多层卷积网络。在Stage1块之前是最大池化层(max pooling layer)。在MFF网络中,本公开一直到Stage4网络块都保持ResNet50的主干结构不变,同时删除ResNet50的Stage4之后的整个网络层,包括全局平均池化层(global average pooling layer)。删除全局平均池化层可以使图像特征图能够保留下更多的特征要素信息。
在本公开提出了将局部特征和全局特征融合在一起的多层次深度学习网络(MFF)。将行人图像的全局特征和局部特征组合在一起可以学习到更多的特征信息,从而得到更为准确的结果。在MFF模型中,局部特征和全局特征被用于进行行人身份预测(idprediction)。如图1所示,MFF模型由基于部分的多层次网络(PMN)和全局-局部特征分支网络(GLB)组成。
全局-局部特征分支网络(GLB)可以分别从网络的最深层提取局部特征和全局特征。GLB网络由两部分结构组成,如图2所示。给定一个输入的行人图像,可以通过骨干网络进行学习获取行人图像特征图(feature map)。然后在全部分支中,本公开在ResNet50骨干网络之后添加了平均池化层(average pooling layer)以便获取256-dim的全局特征。分类器(classifier)由全连接层(fully connected layer,FC)和softmax函数层组成。添加的分类器将提取的全局特征进行分类,预测行人身份。GLB网络的局部分支则用于提取网络的最深层的行人图像局部特征图。为了提取局部特征,本公开将在Stage4模块中得到的特征图(feature map)水平均分为六个部分,如图3所示。在划分的特征图后添加了平均池化层和分类器,以便将得到的局部特征进行分类从而预测行人身份。
基于部分的多层次网络(PMN)用于从网络的底层到高层提取行人图像的局部特征,如图1所示。PMN网络结构分为三个部分:第一局部特征提取模块Branch-1,第二局部特征提取模块Branch-2and第三局部特征提取模块Branch-3。如图1所示,ResNet50由四个网络模块(Stage1,Stage2,Stage3和Stage4)组成,本公开在网络模块之间添加了Branch-1,Branch-2和Branch-3。首先,在每个分支(branch)中,本公开将从网络模块中得到的特征图进行平均池化(average pooling)。然后,将特征图水平均分为六个部分。在分割的特征图之后添加一个1×1卷积核(kernel-sized)的卷积层(convolutional layer),一个批处理层(batch normalization layer),一个relu函数层和一个全局池化层(fully-connectedlayer,FC),从而获得6×256-dim的局部特征。最后将行人图像的局部特征输入到分类器中。每个分类器都通过全连接层(FC)和softmax层构成并用于身份预测。其中,Branch-1,Branch-2和Branch-3在网络中是并行运行的。
本公开提出的多层次深度学习网络,输入的行人图像经过ResNet50骨干网络进行简单的特征提取,得到特征图(feature map),而后,通过多条分支网络:PMN,GLB来进一步细致提取特征图的局部特征以及全局特征,PMN中提取局部特征是通过将特征图进行水平切块的方式,提取每个切块的特征,GLB中通过网络层来讲特征图的全局特征进行细致提取,提取到的特征则通过softmax loss来预测提取的特征属于特定行人的概率。多层次深度学习网络主要是应用于识别行人图像,对于视频这类多维度特征提取仍需进一步的研究。
本公开行人重识别问题视为多类分类问题,在多分类问题中,本公开将softmax函数作为损失函数来完成分类任务。
在MFF网络结构中,本公开将行人重识别的任务视为多分类问题,对于第i个学习到的特征,softmax损失函数如下:
其中,Kc是类c的权重,D是在训练集中的行人身份类的数量,M是在训练进程中的mini-batch的大小。在MFF网络模型中,GLB结构和PMN结构提取的特征皆被用于softmax损失函数。
MFF的总损失函数为:
本公开在三个数据集:Market-1501,DukeMTMC-reID和CUHK03上分别进行实验来评估MFF模型的性能。
Market-1501数据集中有六个摄像机拍摄到的1,501个行人身份(id),在不同摄像机视角下检测到的32,668个行人。在这个数据集中,每个行人至少被两个不同的相机拍摄到。在Market-1501中,训练集由751个行人身份组成,平均每个行人身份包含17.2个行人图像;测试集由750个行人身份组成,测试集由19,732张图像组成。数据集使用mAP(meanAverage Precision)来评估行人重识别算法的性能。
DukeMTMC-reID数据集包含1,411个行人身份。在八个不同的摄像头下拍摄到36,411张图像。数据集中的每幅图像是从视频中采样得到的,在每120帧得到一张行人图像。数据集由16,552个训练图像,2,228个查询图像和17,661个图库图像组成。其中一半的行人图像被随机采样为训练集,其他的则作为测试集。
CUHK03数据集由13,614张行人图像和1,467个行人身份组成。每个行人由两个摄像头自动捕获。在此数据集中,行人边界框(bounding boxes)通过两种不同方式提供:自动检测的边界框(bounding boxes)和人工手动标记的边界框(bounding boxes)。
本公开在ImageNet上对ResNet50网络进行了预训练,并将ResNet50网络结构中的权重用于MFF模型。本公开在Pytorch深度学习环境中训练网络,并且在python上进行代码编辑。实验中计算机配置系统是64位的ubuntu 16.04LTS。本公开训练MFF网络时,使用单个GPU进行训练,GPU的类型为NVIDA GEFORCE GTX1080。同时本公开根据显卡的配置将批处理数量(batch size)设置为32,下降率(drop rate)设置为0.5。
根据三个数据集之间的不同为每个数据集设置了不同的学习率learning rate。其中,Market-1501数据集中使用的学习率是0.05。在DukeMTMC-reID数据集上进行训练时,本公开将学习率设置为0.045。CUHK03数据集的学习率为0.08。整个训练过程将在60轮后终止。
在实验过程中,本公开随机选择一张图像作为查询图像。输入的行人图像的尺寸大小调整为384×192。
Market-1501数据集的结果比较:
表1中列举了在Market-1501数据集上本公开提出的方法与现有方法的比较情况。本公开将MFF模型与近年来在Market-1501数据集上实验的几种最新的行人重识别方法进行了比较,例如词袋(bag of words)模型BoW+KISSME采用了手工绘制(hand-crafted)的方法,SVDNet使用深度学习模型提取全局特征,PAR(part-aligned representation)使用深度学习模型提取的图像的部分特征。
表1显示本公开所提出的MFF模型在Ran-1精度,Rank-5精度和Rank-10精度方面获得了最佳结果。在实验中,本公开使用mAP(mean average precision)作为行人重识别的评估指标。MFF模型的mAP值在Market-1501数据集上达到了71.7%,比最佳建议方法高出2.6%。另外,MFF模型的Ran-1精度达到89.5%,比最佳方法高1.8%;Ran-5精度达到95.8%,比最佳比较方法高1.6%。本公开提出的MFF模型通过融合全局特征和局部特征来提升模型的性能,同时在提取局部特征时添加PMN结构也有助于获得更好的实验效果。
表1.Market-1501结果
CUHK03数据集的结果比较:
本公开分别在CUHK03_detected数据集和CUHK03_labeled数据集上进行实验。本公开在CUHK03_detected和CUHK03_labeled数据集上使用单一行人图像查询的方式进行行人重识别。本公开比较了许多先进的算法和网络模型,例如使用horizontal occurrence模型的LOMO+KISSME,使用harmonious attention网络的行人对齐网络(Pedestrianalignment network)和HA-CNN。在实验中,本公开使用Rank-1精度和mAP(mean averageprecision)作为性能评价的指标。根据表2所示,MFF模型的Rank-1精度达到43.9%,比在CUHK03_detected上的最佳方法高2.2%。mAP值达到40.0%,比最佳实验结果高1.4%。在CUHK03_labeled上的比较结果如下:对于单一行人图像查询的方法,本公开的Rank-1精度比HA-CNN高出3.7%。MFF模型的mAP达到42.9%,分别比HA-CNN,SVDNet和MSR高出1.9%,5.1%,2.4%。其他深度学习网络的方法相比,表2中的结果显示本公开的模型性能更好。
表2.CUHK03结果
DukeMTMC-reID数据集的结果比较:
表3中显示了MFF模型与在DukeMTMC-reID数据集上的最新技术结果的比较。表3中提及的方法,其提取特征的方式各有不同,例如,LOMO+KISSME使用horizontal occurrence模型提取局部特征,PAN和SVDNet使用深度学习模型提取全局特征。本公开在DukeMTMC-reID数据集上进行实验来评估MFF模型的性能,同时表3表明MFF模型在行人重识别方法中展现了很好的性能。MFF模型的Rank-1精度达到80.0%,mAP值达到61.8%,分别比ARCN,SVDNet和MSR高9.8%,5%,1.2%。
表3 DukeMTMC-reID结果
PMN结构的作用评估:
本公开分别在三个经典数据集上评估了MFF网络的效果:Market1501,CUHK03和DukeMTMC-reID。在本公开提出了PMN这一网络结构来分别提取从底层到高层的图像局部特征。为了进一步探讨PMN结构的影响,本公开对每个数据集进行了两个实验:首先,本公开在MFF网络中去掉了PMN模型的结构,直接从整个骨干网络中提取局部特征和全局特征,如图3所示,GLB是没有PMN模型的网络。在GLB网络上运行得到的实验结果清楚地展示了去掉PMN结构时的网络性能。然后,本公开在分别三个数据集上训练MFF模型,并在图3中分别展示了实验结果。
本公开分别在三个数据集上训练MFF网络和GLB网络,并使用Rank-1accuracy至Rank-10accuracy作为实验的评估标准。图4(a)-图4(d)中两个模型的实验结果的比较,不仅显示了在添加PMN结构之后本公开的模型效果提升的程度,还显示出PMN结构对每个数据集的提升效果是不同的。其中PMN结构在CUHK03_labeled数据集上的效果最显著,如图4(a)-图4(d)所示。
本公开主要验证了MFF模型在解决行人重识别问题中的重要作用。本公开提出了一种称为多级特征融合(MFF)的深度学习网络模型,并将这个模型用以提取局部特征和全局特征。本公开提出的基于部分的多层级网络(PMN)结构不仅可以从网络的最低层到最高层分别提取更为全面的局部特征,还可以被灵活地应用于不同的深度学习模型当中。PMN结构可以提取不同网络深度的局部特征,这一结构极大地提高了多级特征融合模型(MFF)的性能。本公开提出的这个多级特征融合网络有效地提高了行人重识别中搜索目标人员的准确度,在多个数据集上表现效果都为最佳,充分说明了模型的有效性。
实施例二,本实施例还提供了基于多层次深度学习网络的行人重识别系统;
基于多层次深度学习网络的行人重识别系统,包括:
获取模块,其被配置为:获取待进行行人重识别的图像;
标记模块,其被配置为:对待进行行人重识别的图像中的一幅,标记待重识别行人的标签;
特征提取模块,其被配置为:将已标记的图像和未标记的图像,输入到预训练的多层次深度学习网络中;预训练的多层次深度学习网络通过提取已标记图像的融合特征,提取未标记图像的融合特征;所述融合特征包括行人的局部特征和行人的全局特征;
距离计算模块,其被配置为:计算已标记图像的融合特征与未标记图像的融合特征之间的距离;
输出模块,其被配置为:按照距离从小到大对未标记图像中的行人进行排序,将排序前M个的未标记图像中的行人进行标记,输出未标记图像中对待重识别行人的标记结果,M为正整数,M为设定值。
实施例三,本实施例还提供了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例一所述的方法。
实施例四,本实施例还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一所述的方法。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (8)
1.基于多层次深度学习网络的行人重识别方法,其特征是,包括:
获取待进行行人重识别的图像;对待进行行人重识别的图像中的一幅,标记待重识别行人的标签;
将已标记的图像和未标记的图像,输入到预训练的多层次深度学习网络中;预训练的多层次深度学习网络通过提取已标记图像的融合特征,提取未标记图像的融合特征;所述融合特征包括行人的局部特征和行人的全局特征;
多层次深度学习网络主要包含两个结构:基于部分的多层次网络PMN和全局-局部特征分支网络GLB;PMN网络包括第一局部特征提取模块、第二局部特征提取模块和第三局部特征提取模块,GLB网络包括第四局部特征提取模块和全局特征提取模块;
其中,第一局部特征提取模块,包括:依次连接的第一平均池化层Average pooling、第一分割层、第一卷积层、第一批处理层batch mormalization layer、第一Relu函数层、第一全局池化层Global pooling、第一全连接层和第一softmax函数层;第一局部特征提取模块、第二局部特征提取模块和第三局部特征提取模块的内部结构是一样的;第四局部特征提取模块,包括:依次连接的第四分割层、第四平均池化层Average pooling、第四全连接层和第四softmax函数层;所述全局特征提取模块,包括:依次连接的第五平均池化层Averagepooling、第五全连接层和第五softmax函数层;
构建的多层次深度学习网络,包括:依次连接的输入层、ResNet50神经网络的Stage1模块、ResNet50神经网络的Stage2模块、ResNet50神经网络的Stage3模块和ResNet50神经网络的Stage4模块;其中,ResNet50神经网络的Stage1模块的输出端与第一局部特征提取模块连接;ResNet50神经网络的Stage2模块的输出端与第二局部特征提取模块连接;ResNet50神经网络的Stage3模块的输出端与第三局部特征提取模块连接;ResNet50神经网络的Stage4模块的输出端与第四局部特征提取模块连接;ResNet50神经网络的Stage4模块的输出端还与全局特征提取模块连接;第一局部特征提取模块的输出端、第二局部特征提取模块的输出端、第三局部特征提取模块的输出端、第四局部特征提取模块的输出端和全局特征提取模块的输出端均与特征融合模块连接,特征融合模块与输出层连接;
构建的多层次深度学习网络工作原理,包括:输入层,用于输入待进行行人重识别的图像;ResNet50神经网络的Stage1模块,用于对待进行行人重识别的图像进行处理获取第一特征图;第一局部特征提取模块,从第一特征图中提取第一局部特征;ResNet50神经网络的Stage2模块,用于对第一特征图进行处理获取第二特征图;第二局部特征提取模块,从第二特征图中提取第二局部特征;ResNet50神经网络的Stage3模块,用于对第二特征图进行处理获取第三特征图;第三局部特征提取模块,从第三特征图中提取第三局部特征;ResNet50神经网络的Stage4模块,用于对第三特征图进行处理获取第四特征图;第四局部特征提取模块,从第四特征图中提取第四局部特征;全局特征提取模块,从第四特征图中提取全局特征;
计算已标记图像的融合特征与未标记图像的融合特征之间的距离;按照距离从小到大对未标记图像中的行人进行排序,将排序前M个的未标记图像中的行人进行标记,输出未标记图像中对待重识别行人的标记结果,M为正整数,M为设定值。
2.如权利要求1所述的方法,其特征是,所述预训练的多层次深度学习网络,训练步骤包括:
S31:构建多层次深度学习网络;
S32:构建训练集;所述训练集为Market-1501数据集或CUHK03数据集;
S33:将训练集输入到多层次深度学习网络进行学习,当损失函数达到最小值时,训练结束,输出训练好的多层次深度学习网络。
3.如权利要求2所述的方法,其特征是,所述S33中,将训练集输入到多层次深度学习网络进行学习步骤之前,还包括:利用ImageNet数据集对多层次深度学习网络进行预训练。
4.如权利要求1所述的方法,其特征是,构建的多层次深度学习网络工作原理,还包括:
特征融合模块,对第一局部特征、第二局部特征、第三局部特征、第四局部特征和全局特征进行特征求和融合;对第一局部特征、第二局部特征、第三局部特征、第四局部特征和全局特征对应的损失函数进行求和,求和结果作为多层次深度学习网络的损失函数值。
6.基于多层次深度学习网络的行人重识别系统,实现权利要求1~5任一项权利要求所述的方法,其特征是,包括:
获取和标记模块,其被配置为:获取待进行行人重识别的图像;对待进行行人重识别的图像中的一幅,标记待重识别行人的标签;
特征提取模块,其被配置为:将已标记的图像和未标记的图像,输入到预训练的多层次深度学习网络中;预训练的多层次深度学习网络通过提取已标记图像的融合特征,提取未标记图像的融合特征;所述融合特征包括行人的局部特征和行人的全局特征;
距离计算模块,其被配置为:计算已标记图像的融合特征与未标记图像的融合特征之间的距离;
输出模块,其被配置为:按照距离从小到大对未标记图像中的行人进行排序,将排序前M个的未标记图像中的行人进行标记,输出未标记图像中对待重识别行人的标记结果,M为正整数,M为设定值。
7.一种电子设备,其特征是,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-5任一项所述的方法。
8.一种计算机可读存储介质,其特征是,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010053676.2A CN111274922B (zh) | 2020-01-17 | 2020-01-17 | 基于多层次深度学习网络的行人重识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010053676.2A CN111274922B (zh) | 2020-01-17 | 2020-01-17 | 基于多层次深度学习网络的行人重识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111274922A CN111274922A (zh) | 2020-06-12 |
CN111274922B true CN111274922B (zh) | 2022-11-29 |
Family
ID=71002660
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010053676.2A Active CN111274922B (zh) | 2020-01-17 | 2020-01-17 | 基于多层次深度学习网络的行人重识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111274922B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111814857B (zh) * | 2020-06-29 | 2021-07-06 | 浙江大华技术股份有限公司 | 目标重识别方法及其网络训练方法、相关装置 |
CN111931655B (zh) * | 2020-08-11 | 2022-10-25 | 山东建筑大学 | 基于局部-全局协作的无监督视频行人再识别方法及系统 |
CN112084998A (zh) * | 2020-09-22 | 2020-12-15 | 杭州云栖智慧视通科技有限公司 | 一种基于属性信息辅助的行人再识别方法 |
CN112434796B (zh) * | 2020-12-09 | 2022-10-25 | 同济大学 | 一种基于局部信息学习的跨模态行人再识别方法 |
CN112669343A (zh) * | 2021-01-04 | 2021-04-16 | 桂林电子科技大学 | 一种基于深度学习的壮族少数民族服饰分割方法 |
CN114821629A (zh) * | 2021-01-27 | 2022-07-29 | 天津大学 | 一种基于神经网络并行训练架构进行交叉图像特征融合的行人重识别方法 |
CN113221770A (zh) * | 2021-05-18 | 2021-08-06 | 青岛根尖智能科技有限公司 | 基于多特征混合学习的跨域行人重识别方法及系统 |
CN113435325A (zh) * | 2021-06-25 | 2021-09-24 | 平安科技(深圳)有限公司 | 图像重识别方法、装置、电子设备及存储介质 |
CN113657167A (zh) * | 2021-07-19 | 2021-11-16 | 浙江大华技术股份有限公司 | 图像重识别方法、设备、电子装置和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108764065A (zh) * | 2018-05-04 | 2018-11-06 | 华中科技大学 | 一种行人重识别特征融合辅助学习的方法 |
CN109102025A (zh) * | 2018-08-15 | 2018-12-28 | 电子科技大学 | 基于深度学习联合优化的行人重识别方法 |
CN109784186A (zh) * | 2018-12-18 | 2019-05-21 | 深圳云天励飞技术有限公司 | 一种行人重识别方法、装置、电子设备及计算机可读存储介质 |
CN110163110A (zh) * | 2019-04-23 | 2019-08-23 | 中电科大数据研究院有限公司 | 一种基于迁移学习和深度特征融合的行人重识别方法 |
CN110348282A (zh) * | 2019-04-30 | 2019-10-18 | 贵州大学 | 用于行人重识别的方法和设备 |
-
2020
- 2020-01-17 CN CN202010053676.2A patent/CN111274922B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108764065A (zh) * | 2018-05-04 | 2018-11-06 | 华中科技大学 | 一种行人重识别特征融合辅助学习的方法 |
CN109102025A (zh) * | 2018-08-15 | 2018-12-28 | 电子科技大学 | 基于深度学习联合优化的行人重识别方法 |
CN109784186A (zh) * | 2018-12-18 | 2019-05-21 | 深圳云天励飞技术有限公司 | 一种行人重识别方法、装置、电子设备及计算机可读存储介质 |
CN110163110A (zh) * | 2019-04-23 | 2019-08-23 | 中电科大数据研究院有限公司 | 一种基于迁移学习和深度特征融合的行人重识别方法 |
CN110348282A (zh) * | 2019-04-30 | 2019-10-18 | 贵州大学 | 用于行人重识别的方法和设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111274922A (zh) | 2020-06-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111274922B (zh) | 基于多层次深度学习网络的行人重识别方法及系统 | |
CN108520226B (zh) | 一种基于躯体分解和显著性检测的行人重识别方法 | |
CN109472209B (zh) | 一种图像识别方法、装置和存储介质 | |
CN105528575B (zh) | 基于上下文推理的天空检测方法 | |
CA2953394A1 (en) | System and method for visual event description and event analysis | |
MX2014012866A (es) | Metodo para la clasificacion binaria de una imagen de consulta. | |
Kortli et al. | A novel face detection approach using local binary pattern histogram and support vector machine | |
Shrein | Fingerprint classification using convolutional neural networks and ridge orientation images | |
Xia et al. | Face occlusion detection using deep convolutional neural networks | |
Ding et al. | Let features decide for themselves: Feature mask network for person re-identification | |
Thepade et al. | Face gender recognition using multi layer perceptron with OTSU segmentation | |
CN109543546B (zh) | 基于深度序分布回归的步态年龄估计方法 | |
Lee et al. | Fast object localization using a CNN feature map based multi-scale search | |
Najibi et al. | Towards the success rate of one: Real-time unconstrained salient object detection | |
Bunel et al. | Detection of pedestrians at far distance | |
Kalakech et al. | A new LBP histogram selection score for color texture classification | |
Li et al. | Incremental learning of infrared vehicle detection method based on SSD | |
Thepade et al. | Identification of aerial image land use using fused thepade sbtc and adaptive thresholding with machinelearning ensemble | |
Cho et al. | N-rpn: Hard example learning for region proposal networks | |
Li et al. | A combined feature representation of deep feature and hand-crafted features for person re-identification | |
Niazi et al. | Hybrid face detection in color images | |
Dutra et al. | Re-identifying people based on indexing structure and manifold appearance modeling | |
Farfan-Escobedo et al. | Towards accurate building recognition using convolutional neural networks | |
Pazhoumand-Dar et al. | DTBSVMs: A new approach for road sign recognition | |
Chevtchenko et al. | Deep learning for people detection on beach images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |