CN110598543A - 基于属性挖掘和推理的模型训练方法及行人再识别方法 - Google Patents
基于属性挖掘和推理的模型训练方法及行人再识别方法 Download PDFInfo
- Publication number
- CN110598543A CN110598543A CN201910719182.0A CN201910719182A CN110598543A CN 110598543 A CN110598543 A CN 110598543A CN 201910719182 A CN201910719182 A CN 201910719182A CN 110598543 A CN110598543 A CN 110598543A
- Authority
- CN
- China
- Prior art keywords
- attribute
- pedestrian
- network
- training
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/259—Fusion by voting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于属性挖掘和推理的模型训练方法及行人再识别方法,属于计算机视觉领域,包括:建立第一训练网络并进行训练,以完成对基础网络的训练;在第一训练网络中加入属性特征提取器,得到第二训练网络并进行训练,以完成对属性特征提取器的训练;在第二训练网络中加入注意力网络,得到第三训练网络并进行训练,以完成对通道注意力模块和空间注意力模块的训练;在第三训练网络中加入用于属性推理的图卷积模块,得到第四训练网络并进行训练,以完成对图卷积模块的训练;去掉第四训练网络中的分类器,得到行人再识别模型;利用行人再识别模型提取行人的全局特征,以得到查询结果。本发明能够提高行人再识别的准确性和鲁棒性。
Description
技术领域
本发明属于计算机视觉领域,更具体地,涉及一种基于属性挖掘和推理的模型训练方法及行人再识别方法。
背景技术
目前,全国所有城市几乎都已完成“平安城市”的平台搭建工作。“平安城市”是指通过技防、物防、人防的三防系统建设城市的平安和谐。为此,在建设过程中搭建大量的城市监控摄像头,用于对不法分子进行监督和监控。大量的摄像头每天都会产生数量庞大的视频图像数据。这些数据如果仅仅依靠工作人员进行分析不仅非常费时费力,还会因为工作人员的精力有限而产生疏漏。得益于计算机视觉技术的快速发展,利用计算机视觉技术和人工智能技术对视频数据进行分析是“平安城市”建设的大势所趋。
行人再识别(Person Re-identification,Re-ID)技术是在给定一个行人的情况下,在跨摄像头、跨场景的情况下从大规模的数据中搜索到该行人的一种技术。该技术需要预先将检测到大量的行人图片进行特征提取和信息入库,在检索时,提取指定目标行人的视觉特征与库中特征进行比对,从而定位目标行人出现的时间节点和场景。行人重识别技术在追踪嫌疑人、搜寻失踪人口、人员行为分析等方面能够发挥重要作用,在安防、刑侦、维护公众安全等方面具有非常重要的社会意义和经济意义,因此,该技术获近年来得了广泛的关注和研究。行人再识别技术本质上是一种图像搜索技术,而相较于传统的图像搜索技术,图片在结构、属性上具有更多的规则,在场景、光照、姿态、清晰度方面具有更大的挑战。具体表现为视觉效果上,相同摄像头下的图像较不同摄像头下的图像更为相似、不同图片之间图像区域难以匹配、遮挡物体导致提取错误特征等问题。因此,行人再识别逐渐发展成为一个独立的研究分支,具有重要且独特的研究意义。
针对上述问题,随着深度学习逐渐在图像分类、目标检测、语义分割、目标分割等各个领域取得了突破性的进展,深度学些也开始被应用到了行人再识别中。研究发现,利用属性的行人再识别方法在对抗视角、姿态、光照变化方面表现优异,具体地,通过多任务学习的方式获得行人的属性特征,如性别、年龄、胖瘦、服装等,然后将行人的属性特征和行人身份标签共同作用于模型。相比于身份标签,属性能够为模型提供更多的细节信息和抗干扰能力,因此,能提高行人再识别的识别精度。然而,属性具有多样性,不同的属性关注的区域和通道不同,而且,属性与行人身份之间、属性与属性之间存在语义推理关系,人类可以通过某几个属性推理得到其他难以判别的属性。现有的行人再识别方法并没有考虑到这些因素,仅仅是通过多任务学习的方式让属性和行人再识别产生联系,因此,其准确性和鲁棒性仍有待提高。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了一种基于属性挖掘和推理的模型训练方法及行人再识别方法,其目的在于,提高行人再识别的准确性和鲁棒性。
为实现上述目的,按照本发明的第一方面,提供了一种基于属性挖掘和推理的行人再识别模型训练方法,包括:
(1)建立并训练第一训练网络;
第一训练网络包括依次连接的深度残差网络、全局特征提取器以及身份分类器;深度残差网络用于对行人图片进行特征提取,以得到共享特征图;全局特征提取器用于对共享特征图进行降维后从中提取用于表征行人身份信息的全局特征;身份分类器用于根据全局特征识别行人的身份类别;
(2)在第一训练网络中加入N个属性特征提取器以及一个属性分类器,以得到第二训练网络,并对第二训练网络进行训练;
属性提取器用于对由深度残差网络提取得到的共享特征图进行降维后,从中提取行人的一种属性特征;属性分类器用于根据属性特征识别对应的属性类别;
(3)在第二训练网络中,深度残差网络与每个属性特征提取器之间分别加入一个注意力网络,以得到第三训练网络,并对第三训练网络进行训练;
注意力网络用于分别获取由深度残差网络提取得到的共享特征图中感兴趣的通道和在空间中感兴趣的像素,并融合为与一种属性相对应的空间通道注意力图,从而由共享特征图与空间通道注意力图点乘得到属性特征图;由注意力网络之后的属性特征提取器从属性特征图中提取出属性特征;
(4)在第三训练网络中,属性分类器及身份分类器之前加入一个图卷积模块,以得到第四训练网络,并训练第四训练网络;
图卷积模块用于对由所有特征提取器提取的特征进行属性推理,从而得到推理之后的属性特征和全局特征;由属性分类器根据推理之后的属性特征识别对应的属性类别,并由身份分类器根据推理之后的全局特征识别行人的身份类别;特征提取器为属性特征提取器或全局特征提取器;
(5)将第四训练网络中的属性分类器和身份分类器去掉,从而得到训练好的行人再识别模型,用于提取行人的全局特征和属性特征,模型训练结束;
在模型训练过程中,属性分类器和身份分类器起到监督学习的作用;
其中,N为正整数,表示行人的属性数量。
本发明所提供的基于属性挖掘和推理的行人再识别模型训练方法,训练得到的行人再识别模型通过挖掘行人不同的属性特征,并通过属性推理的方式将行人的属性特征与行人再识别相结合,能够充分利用属性的多样性,以及属性与行人身份之间、属性与属性之间存在的语义推理关系,从而提高行人再识别的准确性和鲁棒性。
本发明所提供的基于属性挖掘和推理的行人再识别模型训练方法,训练得到的行人再识别模型中,注意力模块基于空间、通道两个维度,从共享的特征图中定位、导出每个属性的专有特征,提升了属性特征的表达能力。
进一步地,全局特征提取器和属性特征提取器均由一个全局平均池化层和一个卷积核大小1×1为的卷积层构成。
进一步地,注意力网络包括通道注意力模块,通道注意力模块用于获取由深度残差网络提取得到的共享特征图中感兴趣的通道;
通道注意力模块包括m个通道注意力模型以及一个通道注意力集成结构;
m个通道注意力模型构成m个不同的分支,分别用于获取共享特征图中感兴趣的通道,从而得到m个通道注意力结果;
通道注意力集成结构用于集成各通道注意力模型所获得的通道注意力结果,最终的集成结果用于表征共享特征图中感兴趣的通道;
其中,m为正整数。
通过多分支集成的方式获取共享特征图中感兴趣的通道,能够进一步提高属性特征的表达能力。
进一步地,每个通道注意力模型包括:第一全局平均池化层、第一卷积层、第一BatchNorm层、第一ReLU层、第二卷积层以及第一归一化层。
进一步地,注意力网络包括空间注意力模块,空间注意力模块用于获取由深度残差网络提取得到的共享特征图在空间中感兴趣的像素;
空间注意力模块包括m个空间注意力模型以及一个空间注意力集成结构;
m个空间注意力模型构成m个不同的分支,分别用于获取共享特征图在空间中感兴趣的像素,从而得到m个空间注意力结果;
空间注意力集成结构用于集成各空间注意力模型所获得的空间注意力结果,最终的集成结果用于表征共享特征图在空间中感兴趣的像素;
其中,m为正整数。
通过多分支集成的方式获取共享特征图在空间中感兴趣的像素,能够进一步提高属性特征的表达能力。
进一步地,空间注意力模型包括:第三卷积层、第二BatchNorm层、第二ReLU层、第四卷积层以及第二归一化层。
进一步地,图卷积模块包括:第一映射层、图卷积网络层以及第二映射层;
第一映射层用于将属性特征或全局特征映射为图卷积网络中的节点,并根据预定义的节点连接方式建立图卷积网络中的边;
图卷积网络层用于对所建立的图卷积网络执行图卷积操作,从而实现属性推理;
第二映射层用于将图卷积网络中的节点映射为属性特征向量或全局特征向量,从而得到属性推理之后的属性特征向量和全局特征向量。
本发明根据属性与整体特征之间、属性相互之间的语义推理关系,利用的图结构和图卷积网络对属性特征及全局特征进行属性推理,使得属性挖掘后的属性特征通过语义推理为全局特征传递必要的信息,从而得到语义关系明确、鲁棒性好和表达能力强的全局特征,最终提升行人再识别的性能。
按照本发明的第二方面,提供了一种基于属性挖掘和推理的行人再识别方法,包括:
以包括待识别的行人目标的目标图片为输入,利用行人再识别模型提取出行人目标的全局特征;
对行人目标的全局特征归一化之后,与搜索库中各图片的特征计算特征相似度,从而得到目标图片与搜索库中各图片的相似度,将其中相似度最高的TopK张图片作为行人再识别的结果;
其中,行人再识别模型由本发明第一方面提供的基于属性挖掘和推理的行人再识别模型训练方法训练而得,搜索库中预先存储有行人图片及对应的特征,TopK为正整数。
按照本发明的第三方面,提供了一种系统,包括处理器和计算机可读存储介质,计算机可读存储介质用于存储可执行程序;
处理器用于读取计算机可读存储介质中存储的可执行程序,执行本发明第一方面提供的基于属性挖掘和推理的行人再识别模型训练方法。
按照本发明的第四方面,提供了一种系统,包括处理器和计算机可读存储介质,计算机可读存储介质用于存储可执行程序;
处理器用于读取计算机可读存储介质中存储的可执行程序,执行本发明第二方面提供的基于属性挖掘和推理的行人再识别方法。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
(1)本发明所提供的基于属性挖掘和推理的模型训练方法及行人再识别方法,通过挖掘行人不同的属性特征,并通过属性推理的方式将行人的属性特征与行人再识别相结合,能够充分利用属性的多样性,以及属性与行人身份之间、属性与属性之间存在的语义推理关系,从而提高行人再识别的准确性和鲁棒性。
(2)本发明所提供的基于属性挖掘和推理的模型训练方法及行人再识别方法,训练得到的行人再识别模型中,注意力模块基于空间、通道两个维度,从共享的特征图中定位、导出每个属性的专有特征,提升了属性特征的表达能力。
(3)本发明所提供的基于属性挖掘和推理的模型训练方法及行人再识别方法,通过多分支集成的方式获取共享特征图中感兴趣的通道以及共享特征图在空间中感兴趣的像素,能够进一步提高属性特征的表达能力。
(4)本发明所提供的基于属性挖掘和推理的模型训练方法及行人再识别方法,根据属性与整体特征之间、属性相互之间的语义推理关系,利用的图结构和图卷积网络对属性特征及全局特征进行属性推理,使得属性挖掘后的属性特征通过语义推理为全局特征传递必要的信息,从而得到语义关系明确、鲁棒性好和表达能力强的全局特征,最终提升行人再识别的性能。
附图说明
图1为本发明实施例提供的第二训练网络示意图;
图2为本发明实施例提供的第三训练网络示意图;
图3为本发明实施例提供的通道注意力模型示意图;
图4为本发明实施例提供的空间注意力模型示意图;
图5为本发明实施例提供的注意力模块示意图;
图6为本发明实施例提供的第四训练网络示意图;
图7为本发明实施例提供的图卷积网络中节点的连接方式;其中,(a)为简单连接方式,(b)为全连接方式,(c)为自适应连接方式。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
为提高行人再识别的准确性和鲁棒性,本发明提供的基于属性挖掘和推理的行人再识别模型训练方法,包括:
(1)建立并训练第一训练网络;
第一训练网络包括依次连接的深度残差网络、全局特征提取器以及身份分类器;深度残差网络用于对行人图片进行特征提取,以得到共享特征图;全局特征提取器用于对共享特征图进行降维后从中提取用于表征行人身份信息的全局特征;身份分类器用于根据全局特征识别行人的身份类别;
在本发明中,用于获得共享特征图的深度残差网络为行人再识别模型中的基础网络,如图1所示,在本发明实施例中,所使用的深度残差网络具体为ResNet50;通过对第一训练网络的训练,可以完成对基础网络的训练;
在一个可选的实施方式中,如图1所示,全局特征提取器由一个全局平均池化层和一个卷积核大小1×1为的卷积层构成;
(2)在第一训练网络中加入N个属性特征提取器以及一个属性分类器,以得到第二训练网络,并对第二训练网络进行训练;第二训练网络的结构如图1所示;
属性提取器用于对由深度残差网络提取得到的共享特征图进行降维后,从中提取行人的一种属性特征;属性分类器用于根据属性特征识别对应的属性类别;
通过对第二训练网络的训练,可以完成对属性特征提取器的训练;
在一个可选的实施方式中,如图1所示,属性特征提取器由一个全局平均池化层和一个卷积核大小1×1为的卷积层构成;
(3)在第二训练网络中,深度残差网络与每个属性特征提取器之间分别加入一个注意力网络,以得到第三训练网络,并对第三训练网络进行训练;第三训练网络的结构如图2所示;
注意力网络用于分别获取由深度残差网络提取得到的共享特征图中感兴趣的通道和在空间中感兴趣的像素,并融合为与一种属性相对应的空间通道注意力图,从而由共享特征图与空间通道注意力图点乘得到属性特征图;由注意力网络之后的属性特征提取器从属性特征图中提取出属性特征;
通过对第三训练网络的训练,可以完成对通道注意力模块和空间注意力模块的训练;
在一个可选的实施方式中,注意力网络包括通道注意力模块,通道注意力模块用于获取由深度残差网络提取得到的共享特征图中感兴趣的通道;
通道注意力模块包括m个通道注意力模型以及一个通道注意力集成结构;
m个通道注意力模型构成m个不同的分支,分别用于获取共享特征图中感兴趣的通道,从而得到m个通道注意力结果;通道注意力集成结构用于集成各通道注意力模型所获得的通道注意力结果,最终的集成结果用于表征共享特征图中感兴趣的通道;
其中,m为正整数;
在本实施例中,通道注意力模型的结构如图3所示,具体包括:第一全局平均池化层、第一卷积层、第一BatchNorm层、第一ReLU层、第二卷积层以及第一归一化层;其中,第一卷积层的卷积核大小为1×1,输出通道数为c′,填零操作(padding)的参数为0,卷积步长为1;第二卷积层的卷积和大小为1×1,输出通道数为c(与共享特征图的通道数相等),填零操作(padding)的参数为0,卷积步长为1;第一归一化层为Sigmoid归一化层;共享特征图输入到单个分支的通道注意力模型后,先通过第一全局平均池化层将特征图维度从h×w×c变换到1×1×c,变换后经过第一卷积层进行降维,降维后的特征图经过第一BatchNorm层进行归一化,并经过第一ReLU层进行激活,之后,特征图通过第二卷积层得到各通道的注意力值,最终由第一归一化层对各通道的注意力值进行Sigmoid归一化;
在得到多分支的通道注意力结果后,可采用求均值、取最大值、投票等信息集成方式,实现多分支通道注意力的集成;各信息集成方式的计算分别如下:
求均值:
取最大值:AE=max(A1,A2,…,Am);
投票:AE=Vote(A1,A2,…,Am);
其中,AE表示多分支通道注意力的集成结果,Ai(i∈{1,2,…,m})表示第i个分支的通道注意力结果,max()表示取最大值,Vote()表示投票算法;
在一个可选的实施方式中,注意力网络包括空间注意力模块,空间注意力模块用于获取由深度残差网络提取得到的共享特征图在空间中感兴趣的像素;
空间注意力模块包括m个空间注意力模型以及一个空间注意力集成结构;
m个空间注意力模型构成m个不同的分支,分别用于获取共享特征图在空间中感兴趣的像素,从而得到m个空间注意力结果;
空间注意力集成结构用于集成各空间注意力模型所获得的空间注意力结果,最终的集成结果用于表征共享特征图在空间中感兴趣的像素;
在本实施例中,空间注意力模型的结构如图4所示,具体包括:第三卷积层、第二BatchNorm层、第二ReLU层、第四卷积层以及第二归一化层;第三卷积层的卷积核大小为3×3,输出通道数为c′,填零操作(padding)的参数为1,卷积步长为1;第四卷积层的卷积核大小为1×1,输出通道数为1,填零操作(padding)的参数为0,卷积步长为1;第二归一化层为Softmax归一化层;共享特征图输入到单个分支的空间注意力模型后,首先经过第三卷积层进行降维,降维之后的特征图经过第二BatchNorm层进行归一化,并经过第二ReLU层进行激活,之后,特征图通过第四卷积层得到空间中感兴趣像素的注意力值,最后由第二归一化层对像素的注意力值进行Softmax归一化;
同样地,在得到多分支的空间注意力结果后,可采用求均值、取最大值、投票等信息集成方式,实现多分支空间注意力的集成;
通过多分支集成的方式获取共享特征图中感兴趣的通道以及共享特征图在空间中感兴趣的像素,能够进一步提高属性特征的表达能力;
基于上述通道注意力模型和空间注意力模型,在第三训练网络中,多分支集成的注意力网络如图5所示;
(4)在第三训练网络中,属性分类器及身份分类器之前加入一个图卷积模块,以得到第四训练网络,并训练第四训练网络;第四训练网络的结构如图6所示;
图卷积模块用于对由所有特征提取器提取的特征进行属性推理,从而得到推理之后的属性特征和全局特征;由属性分类器根据推理之后的属性特征识别对应的属性类别,并由身份分类器根据推理之后的全局特征识别行人的身份类别;特征提取器为属性特征提取器或全局特征提取器;
通过对第四训练网络的训练,可以完成对图卷积网络的训练;
在一个可选的实施方式中,图卷积模块包括:第一映射层、图卷积网络层以及第二映射层;
第一映射层用于将属性特征或全局特征映射为图卷积网络中的节点,并根据预定义的节点连接方式建立图卷积网络中的边;具体地,属性特征映射为图卷积网络中的属性节点,同时属性特征作为对应属性节点的节点特征向量vattn(n∈{1,2,…,N}表示属性编号),全局特征映射为图卷积网络中的身份节点,同时全局特征作为身份节点的节点特征向量vglobal,由此可以得到图卷积网络中的节点矩阵为:V=[vglobal,vatt1,vatt2,…,vattN]T;节点的连接方式可以为简单连接方式、全连接方式、自适应连接方式等,各连接方式如图7所示,其中,Global表示身份节点,Att表示属性节点,简单连接方式下,属性节点相互之间通过身份节点产生联系,如图7(a)所示;完全连接方式下,任意两个节点之间都存在联系,如图7(b)所示;自适应连接方式下,通过学习邻接矩阵的方式,确定节点与节点之间的关系,如图7(c)所示;不同连接方式下,对应的连接矩阵Ag如下:
简单连接:
完全连接:
自适应连接:
其中,1表示对应对应位置的两个节点之间存在连接,0表示对应位置的两个节点之间没有连接,r表示随机初始化并通过网络学习得到的值,下标表示两个节点的编号,r取值越接近1表示对应的两个节点关系越紧密,反之则越疏远;
图卷积网络层用于对所建立的图卷积网络执行图卷积操作,从而实现属性推理;
第二映射层用于将图卷积网络中的节点映射为属性特征向量或全局特征向量,从而得到属性推理之后的属性特征向量和全局特征向量。
本发明根据属性与整体特征之间、属性相互之间的语义推理关系,利用的图结构和图卷积网络对属性特征及全局特征进行属性推理,使得属性挖掘后的属性特征通过语义推理为全局特征传递必要的信息,从而得到语义关系明确、鲁棒性好和表达能力强的全局特征,最终提升行人再识别的性能;
(5)将第四训练网络中的属性分类器和身份分类器去掉,从而得到训练好的行人再识别模型,用于提取行人的全局特征和属性特征,模型训练结束;
其中,N为正整数,表示行人的属性数量。
本发明所提供的基于属性挖掘和推理的行人再识别模型训练方法,训练得到的行人再识别模型通过挖掘行人不同的属性特征,并通过属性推理的方式将行人的属性特征与行人再识别相结合,能够充分利用属性的多样性,以及属性与行人身份之间、属性与属性之间存在的语义推理关系,从而提高行人再识别的准确性和鲁棒性。
本发明所提供的基于属性挖掘和推理的行人再识别模型训练方法,训练得到的行人再识别模型中,注意力模块基于空间、通道两个维度,从共享的特征图中定位、导出每个属性的专有特征,提升了属性特征的表达能力。
在网络模型建立完成后,采用经过属性标注和身份标注的训练集对模型进行训练即可。
本发明还提供了一种基于属性挖掘和推理的行人再识别方法,包括:
以包括待识别的行人目标的目标图片为输入,利用行人再识别模型提取出行人目标的全局特征;
对行人目标的全局特征归一化之后,与搜索库中各图片的特征计算特征相似度,从而得到目标图片与搜索库中各图片的相似度,将其中相似度最高的TopK张图片作为行人再识别的结果;
其中,行人再识别模型由上述基于属性挖掘和推理的行人再识别模型训练方法训练而得,搜索库中预先存储有行人图片及对应的特征,TopK为正整数。
在上述基于属性挖掘和推理的行人再识别方法中,具体可通过计算特征之间的余弦相似度来完成特征间相似度的计算;余弦相似度的计算公式如下:
其中,vq和vp分别表示目标图片的全局特征与搜索库中图片的特征,Similarity表示两个特征之间的余弦相似度,θ表示两个特征之间的夹角。
本发明还提供了一种系统,包括处理器和计算机可读存储介质,计算机可读存储介质用于存储可执行程序;
处理器用于读取计算机可读存储介质中存储的可执行程序,执行上述基于属性挖掘和推理的行人再识别模型训练方法。
本发明还提供了一种系统,包括处理器和计算机可读存储介质,计算机可读存储介质用于存储可执行程序;
处理器用于读取计算机可读存储介质中存储的可执行程序,执行上述基于属性挖掘和推理的行人再识别方法。
为了证明本发明所提供的基于属性挖掘和推理的行人再识别方法在抗干扰和鲁棒性上都具有优势,以下通过实验进行验证与分析:
A、实验数据集
数据集1:Market-1501。该数据集是2015年构建并公开的数据集。研究人员在清华校园内,使用6个不同的摄像头采集到该数据集。该数据集利用DPM检测器自动检测获得的32668个行人图片,标注了1501个行人且每个行人都出现在两个以上摄像头中。数据集被分为训练集和测试集两部分。训练集包含共12936张图片,共751个行人,平均每人17.2张图片作为训练数据。测试集由另外750个人和干扰数据组成,总共19732张图片,平均每人26.3张图片。此外,该数据集还包含3368张由人工选取的行人图片作为查询图片集,平均每人4.5张查询图片。在此基础上,研究人员为751个训练行人和750个测试行人分别标注了27个二值属性,可分为12个属性类别。
数据集2:DukeMTMC-ReID。该数据集是DukeMTMC数据集中分出的,用于行人再识别的子集。通过在DukeMTMC数据集的视频中每120帧采集一张图像的方式共得到36411张行人图片。其中,出现在两个以上摄像头中的一共有1404个人,只出现在一个的有408人。数据集同样被分为训练集和测试集两部分。训练集包含702个出现在两个以上摄像头中的行人,共16522张图片,平均每人23.5张训练数据。测试集由另外702个出现在两个以上摄像头中的行人和408个只出现在一个摄像头下的干扰数据组成,总共17661张图片组成。查询图片为测试集中的702个出现在两个以上摄像头中的行人,在每个摄像头中随机选择一张图片组成,共计2228张查询图片。此外,研究人员为该数据集标注了24个二值属性,总共10个属性类别,用于属性和行人再识别相结合的研究。
B、评价标准
本发明采用国内外行人再识别研究的主流评估标准,即累计来累计匹配特性曲线(CMC)与平均准曲率(mAP):CMC方法首先通过计算特征与候选集中所有图像特征间的距离或相似度,依次按照距离从低到高(或相似度从高到低)进行排序,统计检测图像正确的百分比;mAP则是计算所有检索图像准确率AP的均值。特别声明,本发明评价实验结果为单样本(single query)跨摄像头查询结果。为了证明本发明方法本身的有效性及性能优越性,测试结果没有添加任何重排序(Re-rank)操作。
C、实验平台
硬件:Intel(R)Core(TM)i5-7500CPU@3.40GHz,DDR4 2133MHz16G×2内存,GeForce GTX 1080ti 11G×2显存。
软件:操作系统Ubuntu 17.04(Zesty Zapus)64位,实验平台PyTorch Stable(1.0)
D、实验结果
本发明将现有主流方案按照手工特征法、深度特征法、局部或细节特征法分组在两个数据集上进行实验比较。实验结果如表1、表2所示。将本发明所提供的基于属性挖掘和推理(Attribute Mining and Reasoning)的行人再识别方法,简记为AMR。
表1和表2所示的实验结果表明,本发明在Market-1501数据集上可达到CMC-1=94.95%,mAP=85.32%;在DukeMTMC-ReID数据集上可达到CMC-1=85.91%,mAP=75.63%。
表1 Market1501数据集对比实验
表2 DukeMTMC-ReID数据集对比实验
同时,在表1和表2中,结果表明,AMR的性能明显优于所有基于传统手工特征的方法(BoW+Kissme、WARCA和KLFDA)。在基于深度学习的方法(SOMANet、SVDNet、TripletLoss、DML、MultiLoss和PDC)中,AMR的性能也具有一定的优势。在关注局部和细节特征的方法(HA、AlignedReID、SPReID和PCB(+RPP))中,AMR仍然取得了微弱的优势。充分说明了本发明方法的先进性和有效性。
此外,本发明的对比实验中,在网络设置相同的情况下,在Market1501数据集和DukeMTMC-ReID数据集上进行对比消融实验,实验结果如表3所示。表3中,MBSCAE是上述行人再识别模型中的多分支空间通道注意力模型(注意力网络),MBSAE指的是多分支空间注意力集成模型(空间注意力模块),MBCAE指的是多分支通道注意力集成模型(通道注意力模块)。具体的表示Baseline+MBSCAE+GCN。
表3 AMR在Market1501和DukeMTMC-ReID上的消融实验
根据表3中的数据可以得到如下结论:(1)空间注意力和通道注意力两种机制都能在一定程度上提升行人再识别的性能;(2)将空间注意力和通道注意力相结合可以进一步提升实验的结果;(3)当引入图卷积网络(GCN)进行属性推理时,能够显著提升行人再识别的性能。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于属性挖掘和推理的行人再识别模型训练方法,其特征在于,包括:
(1)建立并训练第一训练网络;
所述第一训练网络包括依次连接的深度残差网络、全局特征提取器以及身份分类器;所述深度残差网络用于对行人图片进行特征提取,以得到共享特征图;所述全局特征提取器用于对所述共享特征图进行降维后从中提取用于表征行人身份信息的全局特征;所述身份分类器用于根据所述全局特征识别行人的身份类别;
(2)在所述第一训练网络中加入N个属性特征提取器以及一个属性分类器,以得到第二训练网络,并对所述第二训练网络进行训练;
属性提取器用于对由所述深度残差网络提取得到的共享特征图进行降维后,从中提取行人的一种属性特征;所述属性分类器用于根据所述属性特征识别对应的属性类别;
(3)在所述第二训练网络中,所述深度残差网络与每个属性特征提取器之间分别加入一个注意力网络,以得到第三训练网络,并对所述第三训练网络进行训练;
所述注意力网络用于分别获取由所述深度残差网络提取得到的共享特征图中感兴趣的通道和在空间中感兴趣的像素,并融合为与一种属性相对应的空间通道注意力图,从而由共享特征图与所述空间通道注意力图点乘得到属性特征图;由注意力网络之后的属性特征提取器从属性特征图中提取出属性特征;
(4)在所述第三训练网络中,所述属性分类器及所述身份分类器之前加入一个图卷积模块,以得到第四训练网络,并训练所述第四训练网络;
所述图卷积模块用于对由所有特征提取器提取的特征进行属性推理,从而得到推理之后的属性特征和全局特征;由所述属性分类器根据推理之后的属性特征识别对应的属性类别,并由所述身份分类器根据推理之后的全局特征识别行人的身份类别;所述特征提取器为所述属性特征提取器或所述全局特征提取器;
(5)将所述第四训练网络中的属性分类器和身份分类器去掉,从而得到训练好的行人再识别模型,用于提取行人的全局特征和属性特征,模型训练结束;
其中,N为正整数,表示行人的属性数量。
2.如权利要求1所述的基于属性挖掘和推理的行人再识别模型训练方法,其特征在于,所述全局特征提取器和所述属性特征提取器均由一个全局平均池化层和一个卷积核大小1×1为的卷积层构成。
3.如权利要求1所述的基于属性挖掘和推理的行人再识别模型训练方法,其特征在于,所述注意力网络包括通道注意力模块,所述通道注意力模块用于获取由所述深度残差网络提取得到的共享特征图中感兴趣的通道;
所述通道注意力模块包括m个通道注意力模型以及一个通道注意力集成结构;
m个通道注意力模型构成m个不同的分支,分别用于获取共享特征图中感兴趣的通道,从而得到m个通道注意力结果;
所述通道注意力集成结构用于集成各通道注意力模型所获得的通道注意力结果,最终的集成结果用于表征共享特征图中感兴趣的通道;
其中,m为正整数。
4.如权利要求3所述的基于属性挖掘和推理的行人再识别模型训练方法,其特征在于,每个通道注意力模型包括:第一全局平均池化层、第一卷积层、第一BatchNorm层、第一ReLU层、第二卷积层以及第一归一化层。
5.如权利要求1所述的基于属性挖掘和推理的行人再识别模型训练方法,其特征在于,所述注意力网络包括空间注意力模块,所述空间注意力模块用于获取由所述深度残差网络提取得到的共享特征图在空间中感兴趣的像素;
所述空间注意力模块包括m个空间注意力模型以及一个空间注意力集成结构;
m个空间注意力模型构成m个不同的分支,分别用于获取共享特征图在空间中感兴趣的像素,从而得到m个空间注意力结果;
所述空间注意力集成结构用于集成各空间注意力模型所获得的空间注意力结果,最终的集成结果用于表征共享特征图在空间中感兴趣的像素;
其中,m为正整数。
6.如权利要求5所述的基于属性挖掘和推理的行人再识别模型训练方法,其特征在于,所述空间注意力模型包括:第三卷积层、第二BatchNorm层、第二ReLU层、第四卷积层以及第二归一化层。
7.如权利要求1所述的基于属性挖掘和推理的行人再识别模型训练方法,其特征在于,所述图卷积模块包括:第一映射层、图卷积网络层以及第二映射层;
所述第一映射层用于将属性特征或全局特征映射为图卷积网络中的节点,并根据预定义的节点连接方式建立所述图卷积网络中的边;
所述图卷积网络层用于对所建立的图卷积网络执行图卷积操作,从而实现属性推理;
所述第二映射层用于将所述图卷积网络中的节点映射为属性特征向量或全局特征向量,从而得到属性推理之后的属性特征向量和全局特征向量。
8.一种基于属性挖掘和推理的行人再识别方法,其特征在于,包括:
以包括待识别的行人目标的目标图片为输入,利用行人再识别模型提取出所述行人目标的全局特征;
对所述行人目标的全局特征归一化之后,与搜索库中各图片的特征计算特征相似度,从而得到所述目标图片与所述搜索库中各图片的相似度,将其中相似度最高的TopK张图片作为行人再识别的结果;
其中,所述行人再识别模型由权利要求1-7任一项所述的基于属性挖掘和推理的行人再识别模型训练方法训练而得,所述搜索库中预先存储有行人图片及对应的特征,TopK为正整数。
9.一种系统,包括处理器和计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储可执行程序;
所述处理器用于读取所述计算机可读存储介质中存储的可执行程序,执行权利要求1-7任一项所述的基于属性挖掘和推理的行人再识别模型训练方法。
10.一种系统,包括处理器和计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储可执行程序;
所述处理器用于读取所述计算机可读存储介质中存储的可执行程序,执行权利要求8所述的基于属性挖掘和推理的行人再识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910719182.0A CN110598543B (zh) | 2019-08-05 | 2019-08-05 | 基于属性挖掘和推理的模型训练方法及行人再识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910719182.0A CN110598543B (zh) | 2019-08-05 | 2019-08-05 | 基于属性挖掘和推理的模型训练方法及行人再识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110598543A true CN110598543A (zh) | 2019-12-20 |
CN110598543B CN110598543B (zh) | 2021-01-05 |
Family
ID=68853538
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910719182.0A Active CN110598543B (zh) | 2019-08-05 | 2019-08-05 | 基于属性挖掘和推理的模型训练方法及行人再识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110598543B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111191737A (zh) * | 2020-01-05 | 2020-05-22 | 天津大学 | 基于多尺度反复注意力机制的细粒度图像分类方法 |
CN111199212A (zh) * | 2020-01-02 | 2020-05-26 | 西安工程大学 | 基于注意力模型的行人属性识别方法 |
CN111325319A (zh) * | 2020-02-02 | 2020-06-23 | 腾讯云计算(北京)有限责任公司 | 一种神经网络模型的检测方法、装置、设备及存储介质 |
CN111428562A (zh) * | 2020-02-24 | 2020-07-17 | 天津师范大学 | 一种基于部件引导图卷积网络的行人再识别方法 |
CN111738090A (zh) * | 2020-05-27 | 2020-10-02 | 北京三快在线科技有限公司 | 行人重识别模型训练方法、装置及行人重识别方法、装置 |
CN112163498A (zh) * | 2020-09-23 | 2021-01-01 | 华中科技大学 | 前景引导和纹理聚焦的行人重识别模型建立方法及其应用 |
CN112183299A (zh) * | 2020-09-23 | 2021-01-05 | 成都佳华物链云科技有限公司 | 行人属性预测方法、装置、电子设备及存储介质 |
CN113033321A (zh) * | 2021-03-02 | 2021-06-25 | 深圳市安软科技股份有限公司 | 目标行人属性识别模型的训练方法及行人属性识别方法 |
CN113705439A (zh) * | 2021-08-27 | 2021-11-26 | 中山大学 | 基于弱监督和度量学习的行人属性识别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5787425A (en) * | 1996-10-01 | 1998-07-28 | International Business Machines Corporation | Object-oriented data mining framework mechanism |
CN106548139A (zh) * | 2016-10-21 | 2017-03-29 | 华中科技大学 | 一种行人重识别方法 |
WO2018088794A2 (ko) * | 2016-11-08 | 2018-05-17 | 삼성전자 주식회사 | 디바이스가 이미지를 보정하는 방법 및 그 디바이스 |
CN108304795A (zh) * | 2018-01-29 | 2018-07-20 | 清华大学 | 基于深度强化学习的人体骨架行为识别方法及装置 |
CN108960140A (zh) * | 2018-07-04 | 2018-12-07 | 国家新闻出版广电总局广播科学研究院 | 基于多区域特征提取和融合的行人再识别方法 |
-
2019
- 2019-08-05 CN CN201910719182.0A patent/CN110598543B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5787425A (en) * | 1996-10-01 | 1998-07-28 | International Business Machines Corporation | Object-oriented data mining framework mechanism |
CN106548139A (zh) * | 2016-10-21 | 2017-03-29 | 华中科技大学 | 一种行人重识别方法 |
WO2018088794A2 (ko) * | 2016-11-08 | 2018-05-17 | 삼성전자 주식회사 | 디바이스가 이미지를 보정하는 방법 및 그 디바이스 |
CN108304795A (zh) * | 2018-01-29 | 2018-07-20 | 清华大学 | 基于深度强化学习的人体骨架行为识别方法及装置 |
CN108960140A (zh) * | 2018-07-04 | 2018-12-07 | 国家新闻出版广电总局广播科学研究院 | 基于多区域特征提取和融合的行人再识别方法 |
Non-Patent Citations (2)
Title |
---|
HEFEI LING ET AL.: "Improving person re-identification by multi-task learning", 《NEUROCOMPUTING》 * |
许方洁: "基于深度学习与属性学习相结合的行人再识别方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111199212A (zh) * | 2020-01-02 | 2020-05-26 | 西安工程大学 | 基于注意力模型的行人属性识别方法 |
CN111199212B (zh) * | 2020-01-02 | 2023-04-07 | 西安工程大学 | 基于注意力模型的行人属性识别方法 |
CN111191737A (zh) * | 2020-01-05 | 2020-05-22 | 天津大学 | 基于多尺度反复注意力机制的细粒度图像分类方法 |
CN111325319A (zh) * | 2020-02-02 | 2020-06-23 | 腾讯云计算(北京)有限责任公司 | 一种神经网络模型的检测方法、装置、设备及存储介质 |
CN111325319B (zh) * | 2020-02-02 | 2023-11-28 | 腾讯云计算(北京)有限责任公司 | 一种神经网络模型的检测方法、装置、设备及存储介质 |
CN111428562B (zh) * | 2020-02-24 | 2022-09-23 | 天津师范大学 | 一种基于部件引导图卷积网络的行人再识别方法 |
CN111428562A (zh) * | 2020-02-24 | 2020-07-17 | 天津师范大学 | 一种基于部件引导图卷积网络的行人再识别方法 |
CN111738090A (zh) * | 2020-05-27 | 2020-10-02 | 北京三快在线科技有限公司 | 行人重识别模型训练方法、装置及行人重识别方法、装置 |
CN112183299A (zh) * | 2020-09-23 | 2021-01-05 | 成都佳华物链云科技有限公司 | 行人属性预测方法、装置、电子设备及存储介质 |
CN112163498B (zh) * | 2020-09-23 | 2022-05-27 | 华中科技大学 | 前景引导和纹理聚焦的行人重识别模型建立方法及其应用 |
CN112163498A (zh) * | 2020-09-23 | 2021-01-01 | 华中科技大学 | 前景引导和纹理聚焦的行人重识别模型建立方法及其应用 |
CN112183299B (zh) * | 2020-09-23 | 2024-02-09 | 成都佳华物链云科技有限公司 | 行人属性预测方法、装置、电子设备及存储介质 |
CN113033321A (zh) * | 2021-03-02 | 2021-06-25 | 深圳市安软科技股份有限公司 | 目标行人属性识别模型的训练方法及行人属性识别方法 |
CN113705439A (zh) * | 2021-08-27 | 2021-11-26 | 中山大学 | 基于弱监督和度量学习的行人属性识别方法 |
CN113705439B (zh) * | 2021-08-27 | 2023-09-08 | 中山大学 | 基于弱监督和度量学习的行人属性识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110598543B (zh) | 2021-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110598543B (zh) | 基于属性挖掘和推理的模型训练方法及行人再识别方法 | |
CN111126360B (zh) | 基于无监督联合多损失模型的跨域行人重识别方法 | |
Zheng et al. | Gait recognition in the wild with dense 3d representations and a benchmark | |
CN111709311B (zh) | 一种基于多尺度卷积特征融合的行人重识别方法 | |
Wang et al. | Discriminative feature and dictionary learning with part-aware model for vehicle re-identification | |
CN109508663B (zh) | 一种基于多层次监督网络的行人重识别方法 | |
CN110163117B (zh) | 一种基于自激励判别性特征学习的行人重识别方法 | |
CN111582178B (zh) | 基于多方位信息和多分支神经网络车辆重识别方法及系统 | |
Kobyshev et al. | Matching features correctly through semantic understanding | |
Arth et al. | Object reacquisition and tracking in large-scale smart camera networks | |
CN114299542A (zh) | 一种基于多尺度特征融合的视频行人重识别方法 | |
CN114547249A (zh) | 一种基于自然语言和视觉特征的车辆检索方法 | |
CN116704611A (zh) | 一种基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别方法 | |
Du et al. | Discriminative hash tracking with group sparsity | |
Pang et al. | F-DR Net: Face detection and recognition in One Net | |
Wang et al. | Topology and channel affinity reinforced global attention for person re‐identification | |
CN108121970A (zh) | 一种基于差异矩阵和矩阵度量的行人重识别方法 | |
Wang et al. | Listen, look, and find the one: Robust person search with multimodality index | |
Shf et al. | Review on deep based object detection | |
Zhang et al. | Revisiting instance search: A new benchmark using Cycle Self-Training | |
Su et al. | The precise vehicle retrieval in traffic surveillance with deep convolutional neural networks | |
Peng et al. | Deepcamera: A unified framework for recognizing places-of-interest based on deep convnets | |
CN112699846B (zh) | 一种具有身份一致性校验的特定人物与特定行为联合检索方法及装置 | |
CN112784674B (zh) | 一种基于类中心自适应的重点人员搜索系统跨域识别方法 | |
Yu et al. | Multiple-local feature and attention fused person re-identification method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |