CN111881780A - 一种基于多层融合与对齐划分的行人重识别方法 - Google Patents

一种基于多层融合与对齐划分的行人重识别方法 Download PDF

Info

Publication number
CN111881780A
CN111881780A CN202010653250.0A CN202010653250A CN111881780A CN 111881780 A CN111881780 A CN 111881780A CN 202010653250 A CN202010653250 A CN 202010653250A CN 111881780 A CN111881780 A CN 111881780A
Authority
CN
China
Prior art keywords
features
pedestrian
feature
local
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010653250.0A
Other languages
English (en)
Inventor
宋晓宁
王鹏
冯振华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Litu Information Technology Co ltd
Original Assignee
Shanghai Litu Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Litu Information Technology Co ltd filed Critical Shanghai Litu Information Technology Co ltd
Priority to CN202010653250.0A priority Critical patent/CN111881780A/zh
Publication of CN111881780A publication Critical patent/CN111881780A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多层融合与对齐划分的行人重识别方法,包括以下步骤,构建行人重识别网络模型并训练;利用所述网络模型中多层融合模块将不同层次的特征图与最后一层的特征图进行融合,得到最终包含浅层特征信息的多层融合特征;利用所述网络模型中对齐划分模块提取行人的中心位置,然后将所述中心位置向两边扩展,得到行人精确分割局部区域的局部特征;将所述多层融合特征、所述局部特征和全局特征按照通道维度连接,得到最终的行人判别特征完成行人重识别。本发明的有益效果:提出的融合模块可以融合不同层次的特征图所携带的信息,在此基础上提取出多层融合特征加入到最终的判别特征中进行辅助识别,从而有效地提升了重识别的性能。

Description

一种基于多层融合与对齐划分的行人重识别方法
技术领域
本发明涉及行人重识别的技术领域,尤其涉及一种基于多层融合与对齐划分的行人重识别方法。
背景技术
近年来,深度学习方法广泛应用于行人重识别任务,主流的方法就是通过深度网络提取含有高级语义信息的特征,以此来进行识别。然而单纯的利用深度特征所含有的高级语义信息(对象或部件)往往会忽略浅层网络特征所携带的信息(颜色、纹理等),这对于识别是不利的,比如对于一些衣着较为鲜艳,穿着突出的行人,即使在图像分辨率很低的情况下也可以辨认,浅层信息对于识别这种图像是很有效果的。而对于那些特征不太明显的图像,使用深度网络提取高级语义(身体的某些突出形象)是很有必要的。目前的基于深度学习的方法大多都只是采用深层的特征,而忽略了浅层特征的实用价值。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于上述现有存在的问题,提出了本发明。
因此,本发明解决的技术问题是:提出一种基于多层融合与对齐划分的行人重识别方法,使深层特征可以携带浅层信息以及使划分的局部特征很好的对齐。
为解决上述技术问题,本发明提供如下技术方案:一种基于多层融合与对齐划分的行人重识别方法,包括以下步骤,构建行人重识别网络模型并训练;利用所述网络模型中多层融合模块将不同层次的特征图与最后一层的特征图进行融合,得到最终包含浅层特征信息的多层融合特征;利用所述网络模型中对齐划分模块提取行人的中心位置,然后将所述中心位置向两边扩展,得到行人精确分割局部区域的局部特征;将所述多层融合特征、所述局部特征和全局特征按照通道维度连接,得到最终的行人判别特征完成行人重识别。
作为本发明所述的基于多层融合与对齐划分的行人重识别方法的一种优选方案,其中:所述多层融合模块包括,采用改进的Non-local模块;所述 Non-local模块给定特征图F∈RC×H×W,其中C是特征图的通道数、H×W表示特征图的大小;将F分为双路通过卷积后计算得到空间特征相关矩阵X∈RN×N,其中N=H×W,使用EmbeddedGaussian函数来计算X:
Figure RE-GDA0002669523190000021
其中xi与xj分别表示空间位置i与j处的特征值、xij表示空间位置i与j 之间的相关性;将所得的相关矩阵X与F相乘,得到的特征图F′为
Figure RE-GDA0002669523190000022
作为本发明所述的基于多层融合与对齐划分的行人重识别方法的一种优选方案,其中:所述多层融合模块包括融合步骤,给定两个不同层次的特征图
Figure RE-GDA0002669523190000023
Figure RE-GDA0002669523190000024
其中C1,C2分别是两个特征图的通道数、H1×W1与H2×W2表示特征图的大小;将较浅层的特征图经过1×1的卷积层得到
Figure RE-GDA0002669523190000025
使其通道数C′1=C2;然后通过使用Non-local模块的模型,计算两个不同的特征图的空间特征相关矩阵
Figure RE-GDA0002669523190000026
其中N1=H1×W1、 N2=H2×W2;得到如下:
Figure RE-GDA0002669523190000027
其中yi表示特征图F2的空间位置i处的特征值,yj表示特征图F′1的空间位置j处的特征值,yij表示两个特征图中相应的i,j位置的相关性;将Y 与F′1进行矩阵相乘:
Figure RE-GDA0002669523190000028
得到的特征图F′2中的每一个像素位置都相当于通过其与特征图F1的相关性,携带其中每一个位置的信息,实现了两个层次特征的融合。
作为本发明所述的基于多层融合与对齐划分的行人重识别方法的一种优选方案,其中:所述对齐划分模块包括,采用STN作为基础网络架构,并生成三维张量;将所述三维张量送入STN学习行人在图像中的中心位置,生成仿射变换的转换矩阵:
Figure RE-GDA0002669523190000029
固定tx,并根据需要划分的区域大小直接固定尺度参数(sx,sy);利用学习得到ty值并向Y轴方向两边扩展,即对ty加上或减去划分区域在Y轴方向的边长sy,得到其他的切分区域的Y轴中心;设置限定条件:
Figure RE-GDA0002669523190000031
所述限定条件表示当采样区域超出了特征图的边界时,就以上边界或下边界作为一条边开始向内采样一个区域大小。
作为本发明所述的基于多层融合与对齐划分的行人重识别方法的一种优选方案,其中:行人重识别的网络模型包括,所述网络模型基础架构采用 Resnet-50;将网络在res_layer4处划分为3个分支,分为一个全局特征分支与两个分别划分为2、3块的局部特征分支;在所述全局特征分支上使用多层融合,分别将res_layer1、res_layer2、res_layer3处的特征图经过多层融合模块与网络最深层res_layer4的特征图进行融合;将三个特征图进行逐元素相加得到多层融合特征图。
作为本发明所述的基于多层融合与对齐划分的行人重识别方法的一种优选方案,其中:所述局部特征分支包括,当两个局部特征分支分别经过各自的 res_layer4得到特征图后;将特征图送入到STN子网络进行学习,并利用所述对齐划分模块分别将两个分支的特征图划分为2、3块局部特征图;对每个得到的局部特征图使用GMP,将所得通过相应的降维层得到各个256维的局部特征;将多层融合特征、全局特征以及局部特征按照通道维度连接得到最终的行人判别特征。
作为本发明所述的基于多层融合与对齐划分的行人重识别方法的一种优选方案,其中:所述网络模型的训练包括,采用交叉熵损失与难样本采样三元组损失训练模型;对所有的特征使用交叉熵损失来优化分类任务,将来自同一特征图的局部特征进行连接得到局部连接特征;对多层融合特征、全局特征和局部连接特征使用三元组损失来进行度量学习,使用的最终损失函数为:
Figure RE-GDA0002669523190000032
其中
Figure RE-GDA0002669523190000033
表示所有特征的交叉熵损失的和、
Figure RE-GDA0002669523190000034
表示三元组损失的和、β1和β2为平衡参数,实验中分别设置为β1=2和β2=1。
作为本发明所述的基于多层融合与对齐划分的行人重识别方法的一种优选方案,其中:所述STN包括两个卷积层与池化层;通过一个全连接层得到 ty,所述STN通过学习到的ty与其他固定的参数相结合得到相应的仿射变换矩阵,能够在原特征图中采样得到行人的中心区域,即划分的第一块局部区域。
作为本发明所述的基于多层融合与对齐划分的行人重识别方法的一种优选方案,其中:所述多层融合特征图包括,使用GAP分别处理多层融合特征图与res_layer4层的特征图;将处理所得再分别经过包含1×1conv、 batchnormalisation与ReLU激活的降维层,得到256维的多层融合特征以及全局特征。
本发明的有益效果:提出的多层融合模块可以融合不同层次的特征图所携带的信息,在此基础上提取出多层融合特征加入到最终的判别特征中进行辅助识别,从而有效地提升了重识别的性能;对齐划分模块在不引入额外监督的情况下,对现存的暴力划分方法进行较好的优化,将一些因为相机视角问题产生的难以对齐的局部区域进行准确的对齐。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明第一种实施例所述暴力划分所得局部特征的示意图;
图2为本发明第一种实施例所述对齐划分所得局部特征的示意图;
图3为本发明第一种实施例所述Non-local模型结构的示意图;
图4为本发明第一种实施例所述多层融合模块的融合模型结构示意图;
图5为本发明第一种实施例所述行人重识别网络模型整体结构示意图;
图6为本发明第二种实施例所述对齐划分可视化的原始图片示意图;
图7为本发明第二种实施例所述局部区域对齐划分可视化一组结果示意图;
图8为本发明第二种实施例所述局部区域对齐划分可视化另一组结果示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例1
行人重识别在智能安防领域有着较大的需求,它旨在将不同时间不同地点的相同的行人关联起来。一般的做法是给定一张行人的待检索图片,通过已经训练好的模型提取查询图片和图库中的图片的特征,按照特征嵌入的相似性将图库中的图片排序,以此进行行人图像检索。近年来行人重识别任务取得了巨大的进展,但是由于在开放的户外环境下,行人图像会由于姿势、遮挡、衣服、背景杂波、相机视角等干扰的存在产生较大的差异,因此行人重识别仍然是一项非常具有挑战的任务。解决行人重识别问题一般有两大方向,叫做表征学习和度量学习。表征学习包含传统的手工描述特征和目前所流行的深度学习特征。并且随着深度学习的蓬勃发展,通过深度神经网络提取的深度特征已经在一定程度上取代了手工特征进行人的检索。
针对基于深度学习的行人重识别任务存在的问题:一是仅仅使用包含高级语义信息(对象或部件)的深度特征进行识别,忽略了浅层信息(颜色或纹理);二是现有基于划分的提取多粒度特征的方法造成所得局部特征难以对齐的问题。
为了提取丰富的行人图像表征,许多现有的行人重识别方法将全局和局部特征进行聚合,以提高性能。其一,利用强结构信息,如先验知识或人体姿态,提取相关的局部特征;其二,通过对全局特征进行暴力划分,得到大小相同的水平局部特征条带,然而这些方法都具有一定的局限性,第一类方法,尽管可以得到相应的局部特征部件,但是对局部特征提取引入了额外监督,使网络训练变得较为复杂。第二类方法直接对全局特征进行暴力分割,会导致局部特征出现对齐问题,产生身体与背景的对齐误差,如图1的示意,从而使训练出的网络性能下降。
基于上述的问题,本实施例提出了多层融合与对齐划分的方法来进行行人重识别。提出的多层融合方法使用了non-local模型,不同于以往使用non-local 模型的方法通过对同一个特征图进行操作,以获取相应像素的远距离依赖,本发明中的方法通过将不同层次的特征图与最后一层的特征图进行融合,使最终的深度特征包含了浅层特征的信息。同时使用SpatialTransformerNetwork(STN) 提取行人的中心位置,然后将中心位置沿Y轴向两边扩展,得到行人的精确分割局部区域,如图2的示意,需要注意的是,STN是以端到端的学习方式执行的,没有引入额外的监督,并且本实施例提出的分割方法有效解决了对齐问题。
提出了多层融合与对齐划分的方法来进行解决,提出的融合模块对深层与浅层特征图进行融合,使深层特征可以携带浅层信息;对齐划分通过使用构建的SpatialTransformerNetwork(STN)子网改进现有的划分方法,使划分的局部特征很好的对齐。
具体的,该一种基于多层融合与对齐划分的行人重识别方法,包括以下步骤,
S1:构建行人重识别网络模型并训练。
本步骤中行人重识别的网络模型包括,网络模型基础架构采用Resnet-50;将网络在res_layer4处划分为3个分支,分为一个全局特征分支与两个分别划分为2、3块的局部特征分支;在全局特征分支上使用多层融合,为了提取多粒度特征,分别将res_layer1、res_layer2、res_layer3处的特征图经过多层融合模块与网络最深层res_layer4的特征图进行融合;将三个特征图进行逐元素相加得到多层融合特征图。
进一步的,其中局部特征分支包括,
当两个局部特征分支分别经过各自的res_layer4得到特征图后;将特征图送入到STN子网络进行学习,并利用对齐划分模块分别将两个分支的特征图划分为2、3块局部特征图;对每个得到的局部特征图使用GMP(与全局特征图使用GAP不同,在局部特征图使用GMP更有利于挖掘出最具有鉴别性的局部特征),将所得通过相应的降维层得到各个256维的局部特征;将多层融合特征、全局特征以及局部特征按照通道维度连接得到最终的行人判别特征。
需要说明的是,本实施例中网络模型的训练包括,
采用交叉熵损失与难样本采样三元组损失训练模型;对所有的特征使用交叉熵损失来优化分类任务,将来自同一特征图的局部特征进行连接得到局部连接特征;
对多层融合特征、全局特征和局部连接特征使用三元组损失来进行度量学习(有助于在测试阶段汇聚相同身份的行人的最终特征),使用的最终损失函数为:
Figure RE-GDA0002669523190000071
其中
Figure RE-GDA0002669523190000072
表示所有特征的交叉熵损失的和、
Figure RE-GDA0002669523190000073
表示三元组损失的和、β1和β2为平衡参数,实验中分别设置为β1=2和β2=1。
STN包括两个卷积层与池化层,通过一个全连接层得到ty,STN通过学习到的ty与其他固定的参数相结合得到相应的仿射变换矩阵,能够在原特征图中采样得到行人的中心区域,即划分的第一块局部区域。多层融合特征图包括,使用GAP分别处理多层融合特征图与res_layer4层的特征图;将处理所得再分别经过包含1×1conv、batchnormalisation与ReLU激活的降维层,得到256 维的多层融合特征以及全局特征。
S2:利用网络模型中多层融合模块将不同层次的特征图与最后一层的特征图进行融合,得到最终包含浅层特征信息的多层融合特征。
具体而言,应用于二维图像的non-local模块,对于特征图上的某一位置的特征值,将它与其他所有位置的值进行加权求和,相应的权值由特征值之间的相关性所决定,这样无论在空间位置上的两个位置相差有多远,只要拥有一定的相关性,就可以进行相互促进,参照如图3的示意。
本步骤中多层融合模块包括,
采用改进的Non-local模块;Non-local模块给定特征图F∈RC×H×W,其中C是特征图的通道数、H×W表示特征图的大小;将F分为双路通过卷积后计算得到空间特征相关矩阵X∈RN×N,其中N=H×W,使用EmbeddedGaussian函数来计算X:
Figure RE-GDA0002669523190000081
其中xi与xj分别表示空间位置i与j处的特征值、xij表示空间位置i与j 之间的相关性;将所得的相关矩阵X与F相乘,得到的特征图F′为
Figure RE-GDA0002669523190000082
通过对应用于二维图像的non-local模块的讨论可以发现,该模块仅仅只是用于建立某一层特征图中像素位置的相关性,有效的建立起一个特征图中的像素与其本身其它像素的远距离依赖。考虑到这一点,本步骤中通过改进 non-local模块,建立起一个特征图与另一个特征图中的像素的联系,而非与其本身,可参照如图4的示意。进一步的,多层融合模块包括融合步骤,
给定两个不同层次的特征图
Figure RE-GDA0002669523190000083
Figure RE-GDA0002669523190000084
其中C1,C2分别是两个特征图的通道数、H1×W1与H2×W2表示特征图的大小;将较浅层的特征图经过1×1的卷积层得到
Figure RE-GDA0002669523190000085
使其通道数C′1=C2
然后通过使用Non-local模块的模型,计算两个不同的特征图的空间特征相关矩阵
Figure RE-GDA0002669523190000086
其中N1=H1×W1、N2=H2×W2
得到如下:
Figure RE-GDA0002669523190000087
其中yi表示特征图F2的空间位置i处的特征值,yj表示特征图F′1的空间位置j处的特征值,yij表示两个特征图中相应的i,j位置的相关性。
将Y与F′1进行矩阵相乘:
Figure RE-GDA0002669523190000091
得到的特征图F′2中的每一个像素位置都相当于通过其与特征图F1的相关性,携带其中每一个位置的信息,实现了两个层次特征的融合。
还需要说明的是,在现有的基于深度学习的行人重识别方法中,大多都是直接采用深度网络所提取的含有高级语义信息的最终层的特征进行行人检索,从而忽略了浅层特征中所包含的图像信息。为了解决这种问题,本步骤通过改进non-local模块来有效的融合各个网络层次所包含的特征信息,以此来提取一种可携带多层次信息的辅助特征来协助识别。
通过使用提出的方法,使多个不同的浅层特征图与最终的深层特征进行融合,再进行逐元素相加操作,以此得到融合多层特征信息的最终特征,具体结构参照图5的示意。
S3:利用网络模型中对齐划分模块提取行人的中心位置,然后将中心位置向两边扩展,得到行人精确分割局部区域的局部特征。
PCB的提出使划分的方法在行人重识别中有了相当重要的地位,基于其的一些改进也使行人重识别的精度有了较高的提升。但是这些方法都是自上而下直接采用暴力划分,没有使划分得到的局部特征进行很好的对齐,本步骤提出的对齐划分实际上是对齐划分模块是基于SpatialTransformerNetwork(STN)提出的,由于STN是轻量级子网,并且可以插入到网络的任何位置,所以并不会为引入额外的监督为网络训练带来多余的负担。
具体的,本步骤中对齐划分模块包括,
采用STN作为基础网络架构,并生成三维张量;将三维张量送入STN学习行人在图像中的中心位置,生成仿射变换的转换矩阵:
Figure RE-GDA0002669523190000092
由于划分的方法都是在Y轴方向进行划分,划分后局部区域的不对齐的问题也产生于Y轴,并且方法中使用STN的目的是学习行人的中心位置。固定tx,并根据需要划分的区域大小直接固定尺度参数(sx,sy);实际上STN在提出的结构中只学习了,用以在Y轴上找到行人的中心区域,用以进行对齐划分。STN 的结构如下表1。
表1:STN子网配置(s:stride,p:padding,输入大小:2048×24×8)。
Figure RE-GDA0002669523190000101
利用学习得到ty值并向Y轴方向两边扩展,即对ty加上或减去划分区域在Y轴方向的边长sy,得到其他的切分区域的Y轴中心;
注意在对ty进行扩展时,采样可能会超出特征图的上下边界根据STN位置参数范围为[-1,1],设置限定条件:
Figure RE-GDA0002669523190000102
限定条件表示当采样区域超出了特征图的边界时,就以上边界或下边界作为一条边开始向内采样一个区域大小。虽然这样可能会产生区域重叠,但是这对于算法几乎没有什么消极的影响,因为即使重叠区域在不同的采样区域中最后被优化两次,也是建立在对齐的基础上,得到的优化是相近的,所以重叠是被允许的。
S4:将多层融合特征、局部特征和全局特征按照通道维度连接,得到最终的行人判别特征完成行人重识别。
故本实施例针对行人重识别任务现存方法的一些问题进行改进,提出的融合模块可以融合不同层次的特征图所携带的信息,在此基础上提取出多层融合特征加入到最终的判别特征中进行辅助识别,从而有效地提升了重识别的性能。对齐划分模块在不引入额外监督的情况下,可以对现存的暴力划分方法进行较好的优化,将一些因为相机视角问题产生的难以对齐的局部区域进行准确的对齐。
实施例2
为验证本发明的实际效果,在行人重识别任务最常使用的三个数据集: Marker-1501、DukeMTMC-reID、CUHK03上进行实验。采用首次成功匹配概率(rank-1)以及平均查准率(meanaverageprecision,mAP)对实验结果进行评估。由于在匹配达到一定程度的情况下,rank-1的标准会达到饱和,区分度不高,所以更侧重于mAP的评估。
需要说明的是,Marker-1501包括由6个摄像头拍摄到的1501个不同身份的行人,该数据集通过DPM检测器生成包含单独行人的32668张图片。它们被划分为不重叠的训练/测试集,训练集中包含751个身份不同的行人的12936 张图片,测试集包含来自750个不同身份行人的3368张查询图片与19732张图库图片,查询图片的检测框通过手工绘制,确保了测试结果的准确。
DukeMTMC-reID是DukeMTMC数据集的行人重识别子集,它使用8个摄像头采集得到,其中包括1812个行人身份的36411张图片。图片中有1404个行人出现在大于2个摄像头下,通过随机采样将这1404个行人的图片划分为训练集与测试集,它们分别包括702个行人的图片,其余的408个行人只出现在1个摄像头下,将他们的图片也加入到测试集的图库中作为干扰。训练集中包括16522张图片,图库中包含17661张图片,查询集合中包含2228张图片。
CUHK03数据集包括1467个行人的14097张图片,每个身份由2个不同的摄像头进行采集。其中有767个身份的图片用以训练,另外700个身份的图片用来测试。该数据集提供了手工标注与检测器自动标注两种标注方式,本发明在两种标注的数据集下都进行了实验。
实验参数设置:本实施例使用了划分的方法,所以实验遵循PCB的设置,在训练阶段将输入图片大小调整为384×128,之后采用随机水平翻转、标准化以及随机擦除进行数据增强。测试时将图片调整为384×128,并且仅仅只进行标准化处理。网络的基础架构采用在ImageNet数据集上预训练的ResNet-50,实验批次大小设置为32,随机从训练集中采样出8个身份,并从每个身份中采样4张图片,网络使用Adam优化器进行训练,初始学习率设置为3×10-4,一共训练200个周期,当训练进行到140和180个周期时,学习率分别下降到3×10-5与3×10-6。三元组损失的margin设置为1.2。测试评估时,遵照MGN,取原始图像特征与水平翻转图像的特征的平均得到最终特征。
将本实施例中所提方法的结果在三个数据集上与近期的方法进行对比。具体而言,根据是否使用划分的方式将相关比较方法分为两类:使用划分的方法 (第一类)与其他深度方法(第二类)。为了保证对比的公平,比较结果没有使用重排序等后处理方法。
得到的Market-1501与DukeMTMC-reID数据集的性能对比分别如下表2 与表3。
表2:Market-1501数据集实验结果性能对比(*表示有额外监督)%。
Figure RE-GDA0002669523190000121
表3:DukeMTMC-reID数据集实验结果性能对比(*表示有额外监督)%。
Figure RE-GDA0002669523190000122
可以看到在两个数据集上基于划分的方法中MGN仍然处于优势地位,本发明提出的方法仅仅在Market-1501上的rank-1略低于MGN,而在mAP 与DukeMTMC-reID的mAP与rank-1指标上都要优于MGN,特别是对于mAP指标,在两个数据集上相较于MGN都有较大的提升。对于其他深度学习方法,从表中可以看到本方法有显著的优势,在DekMTMC-reID数据集的评估指标上,相较于Auto-ReID,mAP与rank-1分别提升了4.56%与0.77%。在Market-1501上相较于性能优异的DSA-reID,结果仅仅在rank-1上略低,但是考虑到DSA-reID引入了额外的监督,本方法仍然有一定的竞争力。
CUHK03的结果性能对比如下表4。
表4:CUHK03数据集实验结果性能对比(*表示有额外监督)%。
Figure RE-GDA0002669523190000131
可知,现有的方法如CASN(PCB)、Auto-ReID在CUHK03的两种标注集上都取得了优秀的结果。EANet在检测标注集上也有很好的性能,在这两种标注集下,本方法结果都要优于这些方法,相较于Auto-ReID在手工标注集上mAP/rank-1分别提升了3.65%/0.96%,在检测标注集上mAP/rank-1分别提升了4.03%/2.06%。值得注意的是MGN在Market-1501与DukeMTMC-reID 上的表现都很出色,但在CUHK03上却表现不佳。相比之下,本发明方法在三个数据集上都有良好的表现。
为了验证本发明提出方法的效果。
本实施例还在Market-1501与DukeMTMC-reID数据集上进行消融实验,结果见表5与表6。所有的实验除了增减相应的模块,其他设置全都相同。
表5:对齐划分消融实验(BL1:Baseline1;BL2:Baseline2;LCF:局部连接特征;AP:对齐划分)%。
Figure RE-GDA0002669523190000132
Figure RE-GDA0002669523190000141
表6:多层融合消融实验(GF:全局特征;MF:多层融合特征)%。
Figure RE-GDA0002669523190000142
网络架构分析:本发明提出对齐划分方法对暴力划分方法进行优化,由于 PCB与MGN都是基于划分的典型方法,实验网络架构的局部特征分支分别选取了这两种架构的形式进行比较。实验对比了两种基于ResNet-50的网络架构: Baseline1包含一个全局分支与一个局部分支,局部分支按照PCB的形式划分为 6块;Baseline2包含一个全局分支与两个局部分支,局部分支按照MGN的形式分别划分为2、3块,从表5中基于这两个架构的两大组实验中相应的实验分别进行对比可以看出选用MGN划分为2、3分支的模型架构可以得到更好的结果。由此可以看出单纯的提取全局与局部特征,而没有感受野的连续跨度对于识别相对而言是不利的,这也验证了连续的多粒度划分结构提取的局部特征用以鉴别行人更具有优势。
局部连接特征对性能的改进:对于行人重识别,需要根据查询图片与图库图片的特征相似度来确定对应的行人。网络中将所有的特征连接起来,得到最终的判别特征。但是每个局部特征的相似性并不一致,连接后会导致特征的识别产生一定的偏差。由于每一个局部特征是由相应的全局特征划分而来,如果对每一个局部特征使用三元组损失来进行优化,不仅会使优化复杂度大大提升,而且会因为局部的对齐问题使优化得不到理想的效果。为了解决这一问题,将从同一全局特征获得的局部特征进行连接以获得局部连接特征,同时对局部连接特征采用三元组损失,来减小由局部特征连接形成的判别特征的度量距离。根据表5中两个网络结构之中的第一组实验分别与其本身的第二组实验进行比较可以看,局部连接特征进行度量学习优化可以使最终的判别特征具有更好的性能。
对齐划分对性能的改进:局部连接特征的使用是对最终识别特征所包含的局部特征进行相应的度量学习优化,使用局部连接特征并不会对使用对齐划分产生相关的影响。表5中,在使用局部连接特征的基础上,对对齐划分进行实验。由Baseline1的第二组与第三组进行对比,以及Baseline2的第二组与第三组进行对比,可以看出对齐划分对实验结果带来了巨大的提升,两个数据集在 Baseline1的mAP分别提升了2.88%/1.25%,在Baseline2的mAP分别提升了 0.86%/0.75%。如图6~8所示,在Market-1501数据集,对Baseline2的两个局部分支的对齐划分结果进行可视化,相比于暴力划分会产生身体部位与背景对齐的问题,从图中可以看到每个局部区域都有行人对应的部位进行相应的对齐,由此也可以看出对齐划分对划分方法带来了优秀的改进。
多层融合对性能的改进:为了保证多层融合实验对比的公平性与准确性,实验中将表5中Baseline2架构的第三组实验作为基础进行对多层融合模块的实验。即如表6所示,由于加入多层融合模块得到了多层融合特征作为辅助识别,使最终连接的行人判别特征的长度增加,为了保证特征对比时的一致,在第一组基础实验组中多加入了一个全局特征作为第二组实验,与加入多层融合模块的实验组(第三组)进行比较。通过表6的第二组实验可以看到,多加入一个全局特征相较于基础实验组只有细微的提升,可见一个全局特征的存在已经满足了特征多粒度特性的要求。但是由第三组可以看到结果相较于第一组仍然有明显的提升,由此证明了多层融合模块的有效性。
基于上述验证,本发明针对行人重识别任务现存方法的一些问题进行改进。提出的融合模块可以融合不同层次的特征图所携带的信息,在此基础上提取出多层融合特征加入到最终的判别特征中进行辅助识别,从而有效地提升了重识别的性能。对齐划分模块在不引入额外监督的情况下,可以对现存的暴力划分方法进行较好的优化,将一些因为相机视角问题产生的难以对齐的局部区域进行准确的对齐。从本发明的实验结果可以看到提出的方法在现存的通用数据集上都取得了优秀的结果,这也证明了方法的效果。当然模型也因为划分出的多条路径变得相对复杂,下一步的改进方案着眼于精简模型,尝试以不同的方式引入特征的多粒度性,在尽量使模型轻量的情况下,使精度得到更好提升。
应当认识到,本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。
此外,可按任何合适的顺序来执行本发明描述的过程的操作,除非本发明另外指示或以其他方式明显地与上下文矛盾。本发明描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。
进一步,所述方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、RAM、ROM等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本发明所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时,本发明还包括计算机本身。计算机程序能够应用于输入数据以执行本发明所述的功能,从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中,转换的数据表示物理和有形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘。
如在本申请所使用的,术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体,该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如,组件可以是,但不限于是:在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例,在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中,并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外,这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如,来自一个组件的数据,该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互)的信号,以本地和/或远程过程的方式进行通信。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (9)

1.一种基于多层融合与对齐划分的行人重识别方法,其特征在于:包括以下步骤,
构建行人重识别网络模型并训练;
利用所述网络模型中多层融合模块将不同层次的特征图与最后一层的特征图进行融合,得到最终包含浅层特征信息的多层融合特征;
利用所述网络模型中对齐划分模块提取行人的中心位置,然后将所述中心位置向两边扩展,得到行人精确分割局部区域的局部特征;
将所述多层融合特征、所述局部特征和全局特征按照通道维度连接,得到最终的行人判别特征完成行人重识别。
2.如权利要求1所述的基于多层融合与对齐划分的行人重识别方法,其特征在于:所述多层融合模块包括,
采用改进的Non-local模块;
所述Non-local模块给定特征图F∈RC×H×W,其中C是特征图的通道数、H×W表示特征图的大小;
将F分为双路通过卷积后计算得到空间特征相关矩阵X∈RN×N,其中N=H×W,使用EmbeddedGaussian函数来计算X:
Figure RE-RE-FDA0002670518920000011
其中xi与xj分别表示空间位置i与j处的特征值、xij表示空间位置i与j之间的相关性;
将所得的相关矩阵X与F相乘,得到的特征图F′为
Figure RE-RE-FDA0002670518920000012
3.如权利要求1或2所述的基于多层融合与对齐划分的行人重识别方法,其特征在于:所述多层融合模块包括融合步骤,
给定两个不同层次的特征图
Figure RE-RE-FDA0002670518920000013
Figure RE-RE-FDA0002670518920000014
其中C1,C2分别是两个特征图的通道数、H1×W1与H2×W2表示特征图的大小;
将较浅层的特征图经过1×1的卷积层得到
Figure RE-RE-FDA0002670518920000015
使其通道数C′1=C2
然后通过使用Non-local模块的模型,计算两个不同的特征图的空间特征相关矩阵
Figure RE-RE-FDA0002670518920000016
其中N1=H1×W1、N2=H2×W2
得到如下:
Figure RE-RE-FDA0002670518920000021
其中yi表示特征图F2的空间位置i处的特征值,yj表示特征图F1′的空间位置j处的特征值,yij表示两个特征图中相应的i,j位置的相关性;
将Y与F1′进行矩阵相乘:
Figure RE-RE-FDA0002670518920000022
得到的特征图F′2中的每一个像素位置都相当于通过其与特征图F1的相关性,携带其中每一个位置的信息,实现了两个层次特征的融合。
4.如权利要求3所述的基于多层融合与对齐划分的行人重识别方法,其特征在于:所述对齐划分模块包括,
采用STN作为基础网络架构,并生成三维张量;
将所述三维张量送入STN学习行人在图像中的中心位置,生成仿射变换的转换矩阵:
Figure RE-RE-FDA0002670518920000023
固定tx,并根据需要划分的区域大小直接固定尺度参数(sx,sy);
利用学习得到ty值并向Y轴方向两边扩展,即对ty加上或减去划分区域在Y轴方向的边长sy,得到其他的切分区域的Y轴中心;
根据STN位置参数范围为[-1,1],设置限定条件:
Figure RE-RE-FDA0002670518920000024
所述限定条件表示当采样区域超出了特征图的边界时,就以上边界或下边界作为一条边开始向内采样一个区域大小。
5.如权利要求4所述的基于多层融合与对齐划分的行人重识别方法,其特征在于:行人重识别的网络模型包括,
所述网络模型基础架构采用Resnet-50;
将网络在res_layer4处划分为3个分支,分为一个全局特征分支与两个分别划分为2、3块的局部特征分支;
在所述全局特征分支上使用多层融合,分别将res_layer1、res_layer2、res_layer3处的特征图经过多层融合模块与网络最深层res_layer4的特征图进行融合;
将三个特征图进行逐元素相加得到多层融合特征图。
6.如权利要求5所述的基于多层融合与对齐划分的行人重识别方法,其特征在于:所述局部特征分支包括,
当两个局部特征分支分别经过各自的res_layer4得到特征图后;
将特征图送入到STN子网络进行学习,并利用所述对齐划分模块分别将两个分支的特征图划分为2、3块局部特征图;
对每个得到的局部特征图使用GMP,将所得通过相应的降维层得到各个256维的局部特征;
将多层融合特征、全局特征以及局部特征按照通道维度连接得到最终的行人判别特征。
7.如权利要求5或6所述的基于多层融合与对齐划分的行人重识别方法,其特征在于:所述网络模型的训练包括,
采用交叉熵损失与难样本采样三元组损失训练模型;
对所有的特征使用交叉熵损失来优化分类任务,将来自同一特征图的局部特征进行连接得到局部连接特征;
对多层融合特征、全局特征和局部连接特征使用三元组损失来进行度量学习,使用的最终损失函数为:
Figure RE-RE-FDA0002670518920000031
其中
Figure RE-RE-FDA0002670518920000032
表示所有特征的交叉熵损失的和、
Figure RE-RE-FDA0002670518920000033
表示三元组损失的和、β1和β2为平衡参数,实验中分别设置为β1=2和β2=1。
8.如权利要求7所述的基于多层融合与对齐划分的行人重识别方法,其特征在于:所述STN包括两个卷积层与池化层;
通过一个全连接层得到ty,所述STN通过学习到的ty与其他固定的参数相结合得到相应的仿射变换矩阵,能够在原特征图中采样得到行人的中心区域,即划分的第一块局部区域。
9.如权利要求8所述的基于多层融合与对齐划分的行人重识别方法,其特征在于:所述多层融合特征图包括,
使用GAP分别处理多层融合特征图与res_layer4层的特征图;
将处理所得再分别经过包含1×1conv、batchnormalisation与ReLU激活的降维层,得到256维的多层融合特征以及全局特征。
CN202010653250.0A 2020-07-08 2020-07-08 一种基于多层融合与对齐划分的行人重识别方法 Pending CN111881780A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010653250.0A CN111881780A (zh) 2020-07-08 2020-07-08 一种基于多层融合与对齐划分的行人重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010653250.0A CN111881780A (zh) 2020-07-08 2020-07-08 一种基于多层融合与对齐划分的行人重识别方法

Publications (1)

Publication Number Publication Date
CN111881780A true CN111881780A (zh) 2020-11-03

Family

ID=73151662

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010653250.0A Pending CN111881780A (zh) 2020-07-08 2020-07-08 一种基于多层融合与对齐划分的行人重识别方法

Country Status (1)

Country Link
CN (1) CN111881780A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434796A (zh) * 2020-12-09 2021-03-02 同济大学 一种基于局部信息学习的跨模态行人再识别方法
CN112560604A (zh) * 2020-12-04 2021-03-26 中南大学 一种基于局部特征关系融合的行人重识别方法
CN112613376A (zh) * 2020-12-17 2021-04-06 深圳集智数字科技有限公司 重识别方法及装置,电子设备
CN112836637A (zh) * 2021-02-03 2021-05-25 江南大学 一种基于空间逆向注意网络的行人重识别方法
CN115393953A (zh) * 2022-07-28 2022-11-25 深圳职业技术学院 基于异构网络特征交互的行人重识别方法、装置及设备
CN116503914A (zh) * 2023-06-27 2023-07-28 华东交通大学 行人重识别方法、系统、可读存储介质及计算机设备

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560604A (zh) * 2020-12-04 2021-03-26 中南大学 一种基于局部特征关系融合的行人重识别方法
CN112434796A (zh) * 2020-12-09 2021-03-02 同济大学 一种基于局部信息学习的跨模态行人再识别方法
CN112613376A (zh) * 2020-12-17 2021-04-06 深圳集智数字科技有限公司 重识别方法及装置,电子设备
CN112613376B (zh) * 2020-12-17 2024-04-02 深圳集智数字科技有限公司 重识别方法及装置,电子设备
CN112836637A (zh) * 2021-02-03 2021-05-25 江南大学 一种基于空间逆向注意网络的行人重识别方法
CN115393953A (zh) * 2022-07-28 2022-11-25 深圳职业技术学院 基于异构网络特征交互的行人重识别方法、装置及设备
CN115393953B (zh) * 2022-07-28 2023-08-08 深圳职业技术学院 基于异构网络特征交互的行人重识别方法、装置及设备
CN116503914A (zh) * 2023-06-27 2023-07-28 华东交通大学 行人重识别方法、系统、可读存储介质及计算机设备
CN116503914B (zh) * 2023-06-27 2023-09-01 华东交通大学 行人重识别方法、系统、可读存储介质及计算机设备

Similar Documents

Publication Publication Date Title
CN111881780A (zh) 一种基于多层融合与对齐划分的行人重识别方法
Cheng et al. Learning depth with convolutional spatial propagation network
Chen et al. Retracted: Multiscale fast correlation filtering tracking algorithm based on a feature fusion model
Sun et al. Deep convolutional network cascade for facial point detection
Li et al. Unsupervised learning of edges
CN110148104B (zh) 基于显著性分析与低秩表示的红外与可见光图像融合方法
Martinović et al. A three-layered approach to facade parsing
Choy et al. High-dimensional convolutional networks for geometric pattern recognition
CN110796026A (zh) 一种基于全局特征拼接的行人重识别方法
CN106815323B (zh) 一种基于显著性检测的跨域视觉检索方法
CN111460914A (zh) 一种基于全局和局部细粒度特征的行人重识别方法
CN103514443A (zh) 一种基于lpp特征提取的单样本人脸识别迁移学习方法
CN109409201A (zh) 一种基于共享及特有字典对联合学习的行人再识别方法
CN105184260A (zh) 一种图像特征提取方法及行人检测方法及装置
JP7136500B2 (ja) ノイズチャネルに基づくランダム遮蔽回復の歩行者再識別方法
Kovač et al. Frame–based classification for cross-speed gait recognition
Szeliski et al. Feature detection and matching
Tian et al. Multi-scale hierarchical residual network for dense captioning
CN117095300B (zh) 建筑图像处理方法、装置、计算机设备和存储介质
CN112150359B (zh) 基于机器学习和特征点识别的无人机图像快速拼接方法
CN113450297A (zh) 红外图像和可见光图像的融合模型构建方法及系统
Li et al. Self-selection salient region-based scene recognition using slight-weight convolutional neural network
CN117011655A (zh) 基于自适应区域选择特征融合方法、目标跟踪方法及系统
CN108492256B (zh) 无人机视频快速拼接方法
CN116030495A (zh) 基于倍率学习的低分辨率行人重识别算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination