CN112163498B - 前景引导和纹理聚焦的行人重识别模型建立方法及其应用 - Google Patents

前景引导和纹理聚焦的行人重识别模型建立方法及其应用 Download PDF

Info

Publication number
CN112163498B
CN112163498B CN202011004996.5A CN202011004996A CN112163498B CN 112163498 B CN112163498 B CN 112163498B CN 202011004996 A CN202011004996 A CN 202011004996A CN 112163498 B CN112163498 B CN 112163498B
Authority
CN
China
Prior art keywords
attention
pedestrian
texture
branch
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011004996.5A
Other languages
English (en)
Other versions
CN112163498A (zh
Inventor
韩守东
刘东海生
夏晨斐
陈阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202011004996.5A priority Critical patent/CN112163498B/zh
Publication of CN112163498A publication Critical patent/CN112163498A/zh
Application granted granted Critical
Publication of CN112163498B publication Critical patent/CN112163498B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/40Analysis of texture
    • G06T7/41Analysis of texture based on statistical description of texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了前景引导和纹理聚焦的行人重识别模型建立方法及其应用,属于行人重识别领域,包括:以预训练的图像分类网络为基础网络,将基础网络的输出分支作为全局分支,在基础网络的最后一个特征层后引入包含BottleNeck模块的局部分支,在倒数第二个特征层后引入包含前景注意力模块的注意力分支和纹理聚焦解码器,得到待训练网络;以纹理聚焦解码器作为待训练网络的解码器部分,以全局分支、局部分支和注意力分支作为待训练网络的非解码器部分,对非解码器部分和解码器部分进行交替训练;训练完成后,移除待训练网络中的纹理聚焦解码器,并加入特征输出层,得到基于前景引导和纹理聚焦的行人重识别模型。本发明能够提高行人重识别的鲁棒性和准确性。

Description

前景引导和纹理聚焦的行人重识别模型建立方法及其应用
技术领域
本发明属于行人重识别领域,更具体地,涉及一种前景引导和纹理聚焦的行人重识别模型建立方法及其应用。
背景技术
行人重识别的目的是在没有重叠区域的摄像头场景下检索属于同一身份的行人,是视频图像处理和计算机视觉的一项基本任务。近年来,随着深度学习的发展,行人重识别受到了越来越多社区和研究者的关注,且取得了可观的进展,其在智能视频监控领域中(如多目标跟踪,行人搜索等)有着显著的应用价值。
行人重识别是一项具有难度的任务,面领着许多挑战,包括行人分辨率差异大,姿态变化,光照不同,背景干扰,存在遮挡等,特别是背景干扰。同一身份的行人往往处于不同的背景之下,而不同身份的行人往往处于相似背景之下,这种情况非常容易误导网络的学习方向,对网络提取行人具有判别性的特征造成了困难。
现有一些基于注意力的方法运用注意力机制获取行人潜在的语义或结构相关性,用于突出有价值的行人表观信息,但大部分注意力方法都面临着计算开销大的问题,且它平等地对待前景和背景容易造成特征虚警问题;还有一些方法直接借助图像分割算法或姿态估计算法确定身体部位区域或关键点位置,去指导特征提取器有针对性地生成行人身体部位相关的特征向量,这在遮挡、行人姿态变化大的场景中是有效的。然而,图像分割/姿态估计作为独立的模块引入到行人重识别任务中会使整体模型的构建变得复杂,不能端到端训练,并严重影响实际的推理速度,更重要的是,受背景干扰的影响,图像分割或关键点的定位可能不准确,此时行人重识别精度将打折扣。总体而言,现有的行人重识别方法由于存在特征虚警的问题,行人重识别的鲁棒性和准确性仍有待提高。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了一种前景引导和纹理聚焦的行人重识别模型建立方法及其应用,其目的在于,提高行人重识别的鲁棒性和准确性。
为实现上述目的,按照本发明的一个方面,提供了一种基于前景引导和纹理聚焦的行人重识别模型建立方法,包括:
以预训练的图像分类网络为基础网络,将基础网络的输出分支作为全局分支,在基础网络的最后一个特征层后引入包含BottleNeck模块的局部分支,在基础网络的倒数第二个特征层后引入包含前景注意力模块的注意力分支和纹理聚焦解码器,得到待训练网络;前景注意力模块用于提取图像的注意力图,注意力分支用于输出侧重于表达行人判别性的注意力特征;局部分支用于输出侧重于表达行人属性的局部特征;纹理聚焦解码器用于对输入图像进行重建,得到带掩膜加权的图像;
以纹理聚焦解码器作为待训练网络的解码器部分,以全局分支、局部分支和注意力分支作为待训练网络的非解码器部分,对待训练网络中的非解码器部分和解码器部分进行交替训练,直至达到预设的训练终止条件;
在训练完成后,移除待训练网络中的纹理聚焦解码器,并加入特征输出层,得到基于前景引导和纹理聚焦的行人重识别模型;
其中,特征输出层用于将注意力分支、全局分支、局部分支输出的特征拼接为输入图像中行人的重识别特征。
本发明在图像分类网络的基础上,引入了注意力分支和局部分支,其中的注意力分支用于输出侧重于表达行人判别性的注意力特征,局部分支用于输出侧重于表达行人属性的局部特征,且这两部分特征作为整体模型输出向量的一部分,增加了行人特征表达的多样性和可区分性,因此,本发明所建立的行人重识别模型是一种高效的网络,且特征提取和表达能力都得到了提升,能够有效提高行人重识别的鲁棒性和准确性。
本发明在模型训练阶段,在基础网络中引入了纹理聚焦解码器,用于重建前景聚焦的输入图像,从而在训练过程中,使得非解码器部分能够更加关注行人相关属性的纹理和结构信息,克服背景干扰带来的虚警影响,有利于更进一步凸显行人的判别性特征,进一步提高行人重识别的鲁棒性和准确性。
进一步地,前景注意力模块包括:通道缩减层、分支提取层、权重生成层、注意力图生成层以及通道恢复层;
通道缩减层,用于将输入特征图的通道缩减至预设值,得到第一特征图;
分支提取层,用于提取第一特征图的序列分支、键值分支和值分支,并转换为对应的中间特征图,依次记为第二特征图、第三特征图和第四特征图;
权重生成层,用于对第二特征图和第三特征图执行矩阵乘法和Softmax操作,分别得到通道权重矩阵和位置权重矩阵;通道权重矩阵中记录了各通道的权重系数,位置权重矩阵中记录了各位置的权重系数;
注意力图生成层,用于将第四特征图分别与通道权重矩阵和位置权重矩阵进行矩阵乘法和尺寸变换,得到通道注意力图和位置注意力图,并将通道注意力图、位置注意力图和第一特征图进行逐像素相加,得到待恢复的注意力图;
通道恢复层,用于将待恢复的注意力图的通道数恢复至与输入特征图相同,得到注意力图。
本发明中,前景注意力模块能够同时提取输入特征图的通道注意力图和位置注意力图,相比于传统的方法中,利用两个注意力模块分别提取通道注意力图和位置注意力图,由于本发明提取两个注意力图的过程,共用了通道缩减层、分支提取层等结构,其计算量和所占用内存均大为减小,因此,本发明中,前景注意力模块结构更为紧凑,能够进一步提训练速度以及行人重识别的效率。
进一步地,通道缩减层将输入特征图的通道缩减至预设值,通过通道最大池化操作完成。
本发明的前景注意力模块通过通道最大池化操作缩减输入特征图的通道数,相比于传统的卷积操作,能够进一步减小计算量,提高训练速度和行人重识别的效率。
进一步地,纹理聚焦解码器包括依次连接的一个Head结构、M个Body结构以及一个Tail结构;
Head结构为1×1的卷积层;
Body结构包括依次连接的2倍率上采样模块、3×3卷积层和多尺度残差模块;
Tail结构为3×3的卷积层;
其中,M为正整数,所述纹理聚焦解码器的输出图像尺寸与所述待训练网络的输入图像尺寸相同。
进一步地,对待训练网络中的解码器部分进行训练时,标签图像为待训练网络的输入图像依次与高斯掩膜和注意力掩膜进行逐像素相乘后得到的图像;
损失函数包括L1损失和梯度损失,梯度损失同时包括了纹理聚焦解码器的输出图像与对应的标签图像在水平方向的纹理差异和在竖直方向的纹理差异;
其中,高斯掩膜由高斯核生成,注意力掩膜由前景注意力模块生成。
本发明中,纹理聚焦解码器的训练过程是处于半监督状态的;本发明对解码器部分进行训练时,所使用的损失函数在包含L1损失函数的基础上包含梯度损失,由此能够加速网络的收敛过程,并且由于梯度损失中同时包含输出图像与标签图像之间在水平方向和竖直方向上的纹理差异,在模型训练的过程中,随着网络参数的更新,梯度损失中的纹理差异会逐渐减小,从而能够确保输入图像与重建的输出图像之间的纹理一致性。
进一步地,梯度损失为:
Figure GDA0003580802750000051
其中,Lgradient表示梯度损失,Gh和Gv分别表示水平方向梯度矩阵与竖直方向梯度矩阵,r指代标签图像,l指代纹理聚焦解码器的输出图像,
Figure GDA0003580802750000052
表示标签图像的水平方向梯度矩阵,
Figure GDA0003580802750000053
表示输出图像的水平方向梯度矩阵,
Figure GDA0003580802750000054
表示标签图像的竖直方向梯度矩阵,
Figure GDA0003580802750000055
表示输出图像的竖直方向梯度矩阵,|| ||1表示计算L1范数。
进一步地,对待训练网络中的非解码器部分进行训练时,损失函数包括交叉熵损失和三元组损失;
交叉熵损失由注意力分支输出的注意力特征所对应的交叉熵损失、全局分支输出的全局特征对应的交叉熵损失以及局部分支输出的局部特征对应的交叉熵损失加权求和得到;三元组损失由全局分支输出的全局特征对应的三元组损失和局部分支输出的局部特征对应的三元组损失加权求和得到。
进一步地,对待训练网络中的非解码器部分和解码器部分进行交替训练,包括:
以三个训练批次为一组,每一组的三个训练批次中,前两个训练批次用于对非解码器部分进行训练,后一个训练批次用于对解码器部分进行训练。
本发明采用上述方式按组对非解码器部分和解码器部分进行交替训练,能够获得最优的训练结果。
按照本发明的另一个方面,提供了一种行人重识别方法,包括:
将待识别视频图像输入由本发明提供的基于前景引导和纹理聚焦的行人重识别模型建立方法所建立的行人重识别模型,得到待识别视频图像中行人的重识别特征,作为目标特征;
将目标特征与已识别的行人重识别特征进行匹配,以确定目标特征对应的行人身份,完成行人重识别。
由于本发明所提供的基于前景引导和纹理聚焦的行人重识别模型建立方法所建立的行人重识别模型高效,且特征提取和表达能力都得到了提升,因此,基于该模型,本发明所提供的行人重识别方法具有更高的准确度和鲁棒性。
按照本发明的又一个方面,提供了一种计算机可读存储介质,包括存储的计算机程序;计算机程序被处理器执行时,控制计算机可读存储介质所属设备执行本发明提供的基于前景引导和纹理聚焦的行人重识别模型建立方法,和/或本发明提供的行人重识别方法。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
(1)本发明在图像分类网络的基础上,引入了注意力分支和局部分支,其中的注意力分支用于输出侧重于表达行人判别性的注意力特征,局部分支用于输出侧重于表达行人属性的局部特征,且这两部分特征作为整体模型输出向量的一部分,增加了行人特征表达的多样性和可区分性,因此,本发明所建立的行人重识别模型是一种高效的网络,且特征提取和表达能力都得到了提升,能够有效提高行人重识别的鲁棒性和准确性。
(2)本发明在模型训练阶段,在基础网络中引入了纹理聚焦解码器,用于重建前景聚焦的输入图像,从而在训练过程中,使得非解码器部分能够更加关注行人相关属性的纹理和结构信息,克服背景干扰带来的虚警影响,有利于更进一步凸显行人的判别性特征,进一步提高行人重识别的鲁棒性和准确性。
(3)本发明中,前景注意力模块能够同时提取输入特征图的通道注意力图和位置注意力图,通过共用部分结果和中间特征图,计算量和所占用内存均大为减小,因此,本发明中,前景注意力模块结构更为紧凑,能够进一步提高训练速度以及行人重识别的效率。
(4)本发明对解码器部分进行训练时,所使用的损失函数在包含L1损失函数的基础上包含梯度损失,且该梯度损失中同时包含输出图像与标签图像之间在水平方向和竖直方向上的纹理差异,由此能够加速模型收敛,并保证输入图像与重建的输出图像之间的纹理一致性。
附图说明
图1为本发明实施例提供的基于前景引导和纹理聚焦的行人重识别模型建立方式示意图;
图2为本发明实施例提供的前景注意力模块结构示意图;
图3为本发明实施例提供的纹理聚焦解码器结构示意图;其中,(a)为Head结构示意图,(b)为Body结构示意图,(c)为Tail结构示意图;
图4为本发明实施例提供的BottleNeck结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
在本发明中,本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
为了解决现有的行人重识别方法由于存在特征虚警的问题,其行人重识别的准确度和鲁棒性不高的技术问题,本发明提供了一种前景引导和纹理聚焦的行人重识别模型建立方法及其应用,其整体思路在于:以预训练的图像分类网络为基础网络,在其中引入注意力分支和局部分支,分别提取侧重于表达行人判别性的注意力特征和侧重于表达行人属性的局部特征,连同原来的全局分支输出的全局特征一起构成行人重识别特征,以增加行人特征表达的多样性和可区分性;同时在模型训练过程中,引入纹理聚焦解码器,用于重建前景聚焦的输入图像,从而在训练过程中,使得非解码器部分能够更加关注行人相关属性的纹理和结构信息,克服背景干扰带来的虚警影响。
本发明可使用任意一种预训练的图像分类网络作为基础网络,例如VGG、InceptionNet、ResNet50、ResNet101,等等;为便于描述,不失一般性地,以下实施例中,均以ResNet50-fc512为基础网络,并且使用该网络在ImageNet上的预训练权重来初始化网络参数,然后使用行人重识别数据集(如Market1501、CUHK03和MSMT7等)训练整体网络,建模行人有判别性的特征,实现精准的行人重识别。以下为实施例。
实施例1:
一种基于前景引导和纹理聚焦的行人重识别模型建立方法,如图1所示,包括:
以预训练的图像分类网络为基础网络,将基础网络的输出分支作为全局分支,在基础网络的最后一个特征层后引入包含BottleNeck模块的局部分支,在基础网络的倒数第二个特征层后引入包含前景注意力模块的注意力分支和纹理聚焦解码器,得到待训练网络;前景注意力模块用于提取图像的注意力图,注意力分支用于输出侧重于表达行人判别性的注意力特征;局部分支用于输出侧重于表达行人属性的局部特征;纹理聚焦解码器用于对输入图像进行重建,得到带掩膜加权的图像;
以纹理聚焦解码器作为待训练网络的解码器部分,以全局分支、局部分支和注意力分支作为待训练网络的非解码器部分,对待训练网络中的非解码器部分和解码器部分进行交替训练,直至达到预设的训练终止条件;
在训练完成后,移除待训练网络中的纹理聚焦解码器,并加入特征输出层,得到基于前景引导和纹理聚焦的行人重识别模型;
其中,特征输出层用于将注意力分支、全局分支、局部分支输出的特征拼接为输入图像中行人的重识别特征。
作为一种可选的实施方式,本实施例中,基础网络为在ImageNet上的预训练ResNet50-fc512网络;ResNet50-fc512网络共有五个特征层,依次表示为stage_1~state_5,相应地,本实施例中,在stage_5之后引入包含BottleNeck结构的局部分支,在stage_4之后引入包含前景注意力模块的注意力分支和纹理聚焦解码器;
如图1所示,注意力分支中,前景注意力模块提取的注意力图经过全局平均池化后生成1024维的特征向量,即注意力特征;全局分支中,经过全局平均池化和全连接层后生成512维的特征向量,即全局特征;局部分支中,BottleNeck结构输出的特征图经过全局最大池化和全连接层后生成1024维的特征向量,即局部特征;在非解码器部分的训练过程中,三个特征向量单独用于计算行人身份的训练损失;应当说明的是,此处相关的特征向量维度,仅为一种示例性的描述,不应理解为对本发明的唯一限定,在本发明其他的一些实施例中,特征向量的具体维数,也可能是其他取值。
为了使模型结构更为紧凑,进一步提高训练速度以及行人重识别的效率,作为一种优选的实施方式,本实施例中,前景注意力模块是一种紧凑的结构,其结构如图2所示,包括:通道缩减层、分支提取层、权重生成层、注意力图生成层以及通道恢复层;
通道缩减层,用于将输入特征图的通道缩减至预设值,得到第一特征图;以A和B分别表示输入特征图和第一特征图,如图2所示,A和B的尺寸分别是C×H×W和D×H×W,C、D分别表示通道数,H表示高度,W表示宽度;
分支提取层,用于提取第一特征图的序列分支、键值分支和值分支,并转换为对应的中间特征图,依次记为第二特征图、第三特征图和第四特征图;序列分支、键值分支和值分支分别如图2中的Q、K、V所示,对应的中间特征图的尺寸分别为N×D、D×N和D×N,提取第一特征图的序列分支、键值分支和值分支,具体可通过1×1卷积操作完成;
权重生成层,用于对第二特征图和第三特征图执行矩阵乘法和Softmax操作,分别得到通道权重矩阵和位置权重矩阵,即图2中的矩阵X和S,维度分别为D×D和N×N;通道权重矩阵中记录了各通道的权重系数,位置权重矩阵中记录了各位置的权重系数;
注意力图生成层,用于将第四特征图分别与通道权重矩阵和位置权重矩阵进行矩阵乘法和尺寸变换,得到通道注意力图和位置注意力图,即图2中的CA和PA,并将通道注意力图、位置注意力图和第一特征图进行逐像素相加,得到待恢复的注意力图;
通道恢复层,用于将待恢复的注意力图的通道数恢复至与输入特征图相同,得到注意力图;
图2所示的前景注意力模块能够同时提取输入特征图的通道注意力图和位置注意力图,相比于传统的方法中,利用两个注意力模块分别提取通道注意力图和位置注意力图,由于本实施例提取两个注意力图的过程,共用了通道缩减层、分支提取层等结构,其计算量和所占用内存均大为减小,能够进一步提高训练速度以及行人重识别的效率;
为了进一步减小计算量,本实施例中,通道缩减层将输入特征图的通道缩减至预设值,通过通道最大池化操作完成;
作为一种可选的实施方式,如图1所示,本实施例中,纹理聚焦解码器包括依次连接的一个Head结构、M个Body结构以及一个Tail结构;
Head结构为1×1的卷积层,如图3中的(a)所示;
Body结构包括依次连接的2倍率上采样模块、3×3卷积层和多尺度残差模块,如图3中的(b)所示;
Tail结构为3×3的卷积层,如图3中的(c)所示;
其中,M为正整数,所述纹理聚焦解码器的输出图像尺寸与所述待训练网络的输入图像尺寸相同;由于每个Body结构都会对输入其中的图像进行2倍率上采样,M的取值需要根据纹理聚焦解码器的输入特征图和整体模型的输入图像的尺寸确定,以确保纹理聚焦解码器的输出图像尺寸与所述待训练网络的输入图像尺寸相同;
如图1所示,本实施例中,对待训练网络中的解码器部分进行训练时,标签图像为待训练网络的输入图像依次与高斯掩膜和注意力掩膜进行逐像素相乘后得到的图像;其中,高斯掩膜由高斯核生成,注意力掩膜由前景注意力模块生成;
本实施例中,解码器部分训练的损失函数包括L1损失和梯度损失,梯度损失同时包括了纹理聚焦解码器的输出图像与对应的标签图像在水平方向的纹理差异和在竖直方向的纹理差异;
L1损失表示为:
Figure GDA0003580802750000111
其中,LL1表示L1损失,(m,n)表示像素位置;
梯度损失表示为:
Figure GDA0003580802750000112
其中,Lgradient表示梯度损失,Gh和Gv分别表示水平方向梯度矩阵与竖直方向梯度矩阵,r指代标签图像,l指代纹理聚焦解码器的输出图像,
Figure GDA0003580802750000121
表示标签图像的水平方向梯度矩阵,
Figure GDA0003580802750000122
表示输出图像的水平方向梯度矩阵,
Figure GDA0003580802750000123
表示标签图像的竖直方向梯度矩阵,
Figure GDA0003580802750000124
表示输出图像的竖直方向梯度矩阵,|| ||1表示计算L1范数;Gh和Gv分别表示为:
Figure GDA0003580802750000125
Figure GDA0003580802750000126
其中,Ii(x,y)、Ii(x+1,y)和Ii(x,y+1)分别表示某一图像的位置坐标为(x,y)时的像素值、位置坐标为(x+1,y)时的像素值和位置坐标为(x,y+1)时的像素值;
本实施例中,纹理聚焦解码器的训练过程是处于半监督状态的;本实施例对解码器部分进行训练时,所使用的损失函数在包含L1损失函数的基础上包含梯度损失,由此能够加速网络的收敛过程,并且由于梯度损失中同时包含输出图像与标签图像之间在水平方向和竖直方向上的纹理差异,在模型训练的过程中,随着网络参数的更新,梯度损失中的纹理差异会逐渐减小,从而能够确保输入图像与重建的输出图像之间的纹理一致性;
本实施例,对待训练网络中的非解码器部分进行训练时,损失函数包括交叉熵损失和三元组损失;
交叉熵损失由注意力分支输出的注意力特征所对应的交叉熵损失、全局分支输出的全局特征对应的交叉熵损失以及局部分支输出的局部特征对应的交叉熵损失加权求和得到;三元组损失由全局分支输出的全局特征对应的三元组损失和局部分支输出的局部特征对应的三元组损失加权求和得到;
交叉熵损失表示为:
Figure GDA0003580802750000131
其中,LCE表示交叉熵损失,N和c分别表示样本数和类别数,Θ是分类层权重参数,b是偏置,y表示类别向量;
三元组损失表示为:
Figure GDA0003580802750000132
其中,Ltriplet表示三元组损失,“hardest positive”和“hardest negative”分别表示相同身份特征之间的最大距离和不同身份特征之间的最小距离,P和K分别表示一个小批次中的行人身份数和实例数,fa,fp,fn分别表示锚、正例和反例特征,e是类内距离和类间距离之间的边缘下限,|| ||2表示计算L2范数;[]+表示[]内的值大于零的时候,取该值,小于等于零的时候,取零。
本实施例中,对待训练网络中的非解码器部分和解码器部分进行交替训练,包括:
以三个训练批次为一组,每一组的三个训练批次中,前两个训练批次用于对非解码器部分进行训练,后一个训练批次用于对解码器部分进行训练;
为便于计算,可将整个训练过程的损失函数表示为:
L=λ1LCE2Ltriplet3Lgradient4LL1
其中,L表示整体损失函数,λ1、λ2、λ3和λ4是权重参数;在非解码器部分训练过程中,λ3和λ4为0;在解码器部分训练过程中,λ1和λ2为0;可选地,在本实施例中,在非解码器部分训练过程中,λ1、λ2、λ3和λ4分别设置为1、0.1、0和0,在解码器部分训练过程中,λ1、λ2、λ3和λ4分别设置为0,0,1和1,以保证行人重识别任务和重建任务不会发生冲突,并且每项损失在一个数量级内;
实验表示,采用上述方式按组对非解码器部分和解码器部分进行交替训练,能够获得最优的训练结果;应当说明的是,此处的交替训练方式仅为本发明优选的实施方式,不应理解为对本发明的唯一限定,在本发明其他的实施例中,也可以使用其他的交替训练方式对解码器部分和非解码器部分进行交替训练。
本实施例中,所使用的BottleNeck结构如图4所示,具体包括依次连接的三个模块,第一个模块包括依次连接的1×1卷积层、批量归一化层和ReLU层,第二个模块包括依次连接的3×3卷积层、批量归一化层和ReLU层,第三个模块包括依次连接的1×1卷积层、批量归一化层和ReLU层。
根据实际应用需求,在模型训练过程中,预设的训练终止条件可以是预设的迭代次数或者预设的精度要求等。
总体而言,本实施例在图像分类网络的基础上,引入了注意力分支和局部分支,其中的注意力分支用于输出侧重于表达行人判别性的注意力特征,局部分支用于输出侧重于表达行人属性的局部特征,且这两部分特征作为整体模型输出向量的一部分,增加了行人特征表达的多样性和可区分性,因此,本实施例所建立的行人重识别模型是一种高效的网络,且特征提取和表达能力都得到了提升,能够有效提高行人重识别的鲁棒性和准确性;本实施例在模型训练阶段,在基础网络中引入了纹理聚焦解码器,用于重建前景聚焦的输入图像,从而在训练过程中,使得非解码器部分能够更加关注行人相关属性的纹理和结构信息,克服背景干扰带来的虚警影响,有利于更进一步凸显行人的判别性特征,进一步提高行人重识别的鲁棒性和准确性。
实施例2:
一种行人重识别方法,包括:
将待识别视频图像输入由上述实施例1提供的基于前景引导和纹理聚焦的行人重识别模型建立方法所建立的行人重识别模型,得到待识别视频图像中行人的重识别特征,作为目标特征;
将目标特征与已识别的行人重识别特征进行匹配,以确定目标特征对应的行人身份,完成行人重识别。
由于上述实施例1所提供的基于前景引导和纹理聚焦的行人重识别模型建立方法所建立的行人重识别模型高效,且特征提取和表达能力都得到了提升,因此,基于该模型,本实施例所提供的行人重识别方法具有更高的准确度和鲁棒性。
实施例3:
一种计算机可读存储介质,包括存储的计算机程序;计算机程序被处理器执行时,控制计算机可读存储介质所属设备执行上述实施例1提供的基于前景引导和纹理聚焦的行人重识别模型建立方法,和/或上述实施例2提供的行人重识别方法。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于前景引导和纹理聚焦的行人重识别模型建立方法,其特征在于,包括:
以预训练的图像分类网络为基础网络,将所述基础网络的输出分支作为全局分支,在所述基础网络的最后一个特征层后引入包含BottleNeck模块的局部分支,在所述基础网络的倒数第二个特征层后引入包含前景注意力模块的注意力分支和纹理聚焦解码器,得到待训练网络;所述前景注意力模块用于提取图像的注意力图,所述注意力分支用于输出侧重于表达行人判别性的注意力特征;所述局部分支用于输出侧重于表达行人属性的局部特征;所述纹理聚焦解码器用于对输入图像进行重建,得到带掩膜加权的图像;
以所述纹理聚焦解码器作为所述待训练网络的解码器部分,以所述全局分支、所述局部分支和所述注意力分支作为所述待训练网络的非解码器部分,对所述待训练网络中的非解码器部分和解码器部分进行交替训练,直至达到预设的训练终止条件;
在训练完成后,移除所述待训练网络中的纹理聚焦解码器,并加入特征输出层,得到基于前景引导和纹理聚焦的行人重识别模型;
其中,所述特征输出层用于将所述注意力分支、所述全局分支、所述局部分支输出的特征拼接为输入图像中行人的重识别特征;
所述前景注意力模块包括:通道缩减层、分支提取层、权重生成层、注意力图生成层以及通道恢复层;
所述通道缩减层,用于将输入特征图的通道缩减至预设值,得到第一特征图;
所述分支提取层,用于提取所述第一特征图的序列分支、键值分支和值分支,并转换为对应的中间特征图,依次记为第二特征图、第三特征图和第四特征图;
所述权重生成层,用于对所述第二特征图和第三特征图执行矩阵乘法和Softmax操作,分别得到通道权重矩阵和位置权重矩阵;所述通道权重矩阵中记录了各通道的权重系数,所述位置权重矩阵中记录了各位置的权重系数;
所述注意力图生成层,用于将所述第四特征图分别与所述通道权重矩阵和所述位置权重矩阵进行矩阵乘法和尺寸变换,得到通道注意力图和位置注意力图,并将所述通道注意力图、所述位置注意力图和所述第一特征图进行逐像素相加,得到待恢复的注意力图;
所述通道恢复层,用于将所述待恢复的注意力图的通道数恢复至与所述输入特征图相同,得到注意力图;
所述纹理聚焦解码器包括依次连接的一个Head结构、M个Body结构以及一个Tail结构;
所述Head结构为1×1的卷积层;
所述Body结构包括依次连接的2倍率上采样模块、3×3卷积层和多尺度残差模块;
所述Tail结构为3×3的卷积层;
其中,M为正整数,所述纹理聚焦解码器的输出图像尺寸与所述待训练网络的输入图像尺寸相同。
2.如权利要求1所述的基于前景引导和纹理聚焦的行人重识别模型建立方法,其特征在于,所述通道缩减层将输入特征图的通道缩减至预设值,通过通道最大池化操作完成。
3.如权利要求1或2所述的基于前景引导和纹理聚焦的行人重识别模型建立方法,其特征在于,对所述待训练网络中的解码器部分进行训练时,标签图像为所述待训练网络的输入图像依次与高斯掩膜和注意力掩膜进行逐像素相乘后得到的图像;
损失函数包括L1损失和梯度损失,所述梯度损失同时包括了所述纹理聚焦解码器的输出图像与对应的标签图像在水平方向的纹理差异和在竖直方向的纹理差异;
其中,所述高斯掩膜由高斯核生成,所述注意力掩膜由所述前景注意力模块生成。
4.如权利要求3所述的基于前景引导和纹理聚焦的行人重识别模型建立方法,其特征在于,所述梯度损失为:
Figure FDA0003580802740000031
其中,Lgradient表示梯度损失,Gh和Gv分别表示水平方向梯度矩阵与竖直方向梯度矩阵,r指代所述标签图像,l指代所述纹理聚焦解码器的输出图像,
Figure FDA0003580802740000032
表示所述标签图像的水平方向梯度矩阵,
Figure FDA0003580802740000033
表示所述输出图像的水平方向梯度矩阵,
Figure FDA0003580802740000034
表示所述标签图像的竖直方向梯度矩阵,
Figure FDA0003580802740000035
表示所述输出图像的竖直方向梯度矩阵,|| ||1表示计算L1范数。
5.如权利要求3所述的基于前景引导和纹理聚焦的行人重识别模型建立方法,其特征在于,对所述待训练网络中的非解码器部分进行训练时,损失函数包括交叉熵损失和三元组损失;
所述交叉熵损失由所述注意力分支输出的注意力特征所对应的交叉熵损失、所述全局分支输出的全局特征对应的交叉熵损失以及所述局部分支输出的局部特征对应的交叉熵损失加权求和得到;所述三元组损失由所述全局分支输出的全局特征对应的三元组损失和所述局部分支输出的局部特征对应的三元组损失加权求和得到。
6.如权利要求5所述的基于前景引导和纹理聚焦的行人重识别模型建立方法,其特征在于,对所述待训练网络中的非解码器部分和解码器部分进行交替训练,包括:
以三个训练批次为一组,每一组的三个训练批次中,前两个训练批次用于对所述非解码器部分进行训练,后一个训练批次用于对所述解码器部分进行训练。
7.一种行人重识别方法,其特征在于,包括:
将待识别视频图像输入由权利要求1-6任一项所述的基于前景引导和纹理聚焦的行人重识别模型建立方法所建立的行人重识别模型,得到所述待识别视频图像中行人的重识别特征,作为目标特征;
将所述目标特征与已识别的行人重识别特征进行匹配,以确定所述目标特征对应的行人身份,完成行人重识别。
8.一种计算机可读存储介质,其特征在于,包括存储的计算机程序;所述计算机程序被处理器执行时,控制所述计算机可读存储介质所属设备执行权利要求1-6任一项所述的基于前景引导和纹理聚焦的行人重识别模型建立方法,和/或权利要求7所述的行人重识别方法。
CN202011004996.5A 2020-09-23 2020-09-23 前景引导和纹理聚焦的行人重识别模型建立方法及其应用 Active CN112163498B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011004996.5A CN112163498B (zh) 2020-09-23 2020-09-23 前景引导和纹理聚焦的行人重识别模型建立方法及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011004996.5A CN112163498B (zh) 2020-09-23 2020-09-23 前景引导和纹理聚焦的行人重识别模型建立方法及其应用

Publications (2)

Publication Number Publication Date
CN112163498A CN112163498A (zh) 2021-01-01
CN112163498B true CN112163498B (zh) 2022-05-27

Family

ID=73864333

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011004996.5A Active CN112163498B (zh) 2020-09-23 2020-09-23 前景引导和纹理聚焦的行人重识别模型建立方法及其应用

Country Status (1)

Country Link
CN (1) CN112163498B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112766353B (zh) * 2021-01-13 2023-07-21 南京信息工程大学 一种加强局部注意的双分支车辆再识别方法
CN112836673B (zh) * 2021-02-27 2024-06-04 西北工业大学 一种基于实例感知和匹配感知的重识别方法
CN113239784B (zh) * 2021-05-11 2022-09-30 广西科学院 一种基于空间序列特征学习的行人重识别系统及方法
CN113627241B (zh) * 2021-06-29 2023-03-24 厦门市美亚柏科信息股份有限公司 一种用于行人重识别的背景抑制方法与系统
CN113705346B (zh) * 2021-07-22 2023-09-19 中国人民解放军陆军工程大学 一种遥感影像地物分类泛化性提升方法及装置
CN113850842A (zh) * 2021-09-26 2021-12-28 北京理工大学 一种基于注意力掩膜的抗遮挡目标跟踪方法
CN114880505A (zh) * 2022-04-27 2022-08-09 北京百度网讯科技有限公司 图像检索方法、装置及计算机程序产品
CN115147871B (zh) * 2022-07-19 2024-06-11 北京龙智数科科技服务有限公司 遮挡环境下行人再识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598543A (zh) * 2019-08-05 2019-12-20 华中科技大学 基于属性挖掘和推理的模型训练方法及行人再识别方法
CN111325710A (zh) * 2020-01-13 2020-06-23 镇江优瞳智能科技有限公司 一种基于双边注意力机制的rgb-d显著性物体检测方法
CN111368815A (zh) * 2020-05-28 2020-07-03 之江实验室 一种基于多部件自注意力机制的行人重识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11443165B2 (en) * 2018-10-18 2022-09-13 Deepnorth Inc. Foreground attentive feature learning for person re-identification

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598543A (zh) * 2019-08-05 2019-12-20 华中科技大学 基于属性挖掘和推理的模型训练方法及行人再识别方法
CN111325710A (zh) * 2020-01-13 2020-06-23 镇江优瞳智能科技有限公司 一种基于双边注意力机制的rgb-d显著性物体检测方法
CN111368815A (zh) * 2020-05-28 2020-07-03 之江实验室 一种基于多部件自注意力机制的行人重识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Discriminative Feature Learning with Foreground Attention for Person Re-identification;Sanping Zhou等;《IEEE TRANSACTIONS ON IMAGE PROCESSING》;20190330;第1-14页 *
多分支协作OSNet的微结构优化研究;张磊等;《信号处理》;20200831;第36卷(第8期);第1335-1343页 *

Also Published As

Publication number Publication date
CN112163498A (zh) 2021-01-01

Similar Documents

Publication Publication Date Title
CN112163498B (zh) 前景引导和纹理聚焦的行人重识别模型建立方法及其应用
CN111563508B (zh) 一种基于空间信息融合的语义分割方法
CN110135366B (zh) 基于多尺度生成对抗网络的遮挡行人重识别方法
CN109543606B (zh) 一种加入注意力机制的人脸识别方法
WO2020108362A1 (zh) 人体姿态检测方法、装置、设备及存储介质
CN112288627B (zh) 一种面向识别的低分辨率人脸图像超分辨率方法
CN111612008A (zh) 基于卷积网络的图像分割方法
CN108830170B (zh) 一种基于分层特征表示的端到端目标跟踪方法
CN112766186B (zh) 一种基于多任务学习的实时人脸检测及头部姿态估计方法
CN112036260A (zh) 一种自然环境下多尺度子块聚合的表情识别方法及系统
CN112434599A (zh) 一种基于噪声通道的随机遮挡恢复的行人重识别方法
Liu et al. CAFFNet: channel attention and feature fusion network for multi-target traffic sign detection
CN111108508A (zh) 脸部情感识别方法、智能装置和计算机可读存储介质
CN112329662B (zh) 基于无监督学习的多视角显著性估计方法
Chen et al. Occlusion and multi-scale pedestrian detection A review
CN117576149A (zh) 一种基于注意力机制的单目标跟踪方法
CN112668662A (zh) 基于改进YOLOv3网络的野外山林环境目标检测方法
Liu et al. Weighted sequence loss based spatial-temporal deep learning framework for human body orientation estimation
CN117115911A (zh) 一种基于注意力机制的超图学习动作识别系统
CN112232221A (zh) 用于人物图像处理的方法、系统和程序载体
Wang et al. Summary of object detection based on convolutional neural network
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
CN114241278B (zh) 一种多分支的行人重识别方法和系统
CN115223017B (zh) 一种基于深度可分离卷积的多尺度特征融合桥梁检测方法
CN114360058B (zh) 一种基于行走视角预测的跨视角步态识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant