CN109977798B - 用于行人重识别的掩膜池化模型训练和行人重识别方法 - Google Patents
用于行人重识别的掩膜池化模型训练和行人重识别方法 Download PDFInfo
- Publication number
- CN109977798B CN109977798B CN201910167964.8A CN201910167964A CN109977798B CN 109977798 B CN109977798 B CN 109977798B CN 201910167964 A CN201910167964 A CN 201910167964A CN 109977798 B CN109977798 B CN 109977798B
- Authority
- CN
- China
- Prior art keywords
- sample image
- pooling
- mask
- negative sample
- positive sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种用于行人重识别的掩膜池化模型训练和行人重识别方法,包括S1.获取锚图像a、正样本图像p、负样本图像n;S2.将a、p、n以及a、p、n对应的掩膜分别输入掩膜池化模型中,得到对应的三维张量Ta、Tp、Tn;S3.对Ta、Tp、Tn分别进行池化操作、卷积操作,得到对应的Ha、Hp、Hn;S4.将Ha、Hp、Hn分别输入分类器,得到对应的预测结果Ra、Rp、Rn;S5.根据预测结果Ra、Rp、Rn计算损失值;S6.根据损失值训练掩膜池化模型。本发明可以增强图像中的非背景信息,学习到图像最关键的特征。
Description
技术领域
本发明涉及计算机视觉技术领域,更具体地,涉及一种用于行人重识别的掩膜池化模型训练和行人重识别方法。
背景技术
行人重识别(Person re-identification,Person ReID)也称行人再识别,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术,广泛被认为是一个图像检索的子问题。Person ReID是指给定一个监控行人图像,检索跨设备下的该行人图像,旨在弥补目前固定的摄像头的视觉局限,并可与行人检测/行人跟踪技术相结合,可广泛应用于智能视频监控、智能安保等领域。
由于不同摄像设备之间的差异,同时行人兼具刚性和柔性的特性,外观易受穿着、尺度、遮挡、姿态和视角等影响,使得Person ReID成为计算机视觉领域中一个既具有研究价值同时又极具挑战性的热门课题,背景杂乱是要克服的最大挑战之一。
自2014年以来,深度学习方法已在Person ReID中广泛使用。这些方法已经证明是有效的并且已经实现了比传统图像处理方法更好的性能。除了最常用的CNN,RNN及其变体(LSTM,GRU等)也用于提取时间特征,尤其是在基于视频的Person ReID中。
在学习特征时,大多数这些方法利用各种深度神经网络的优势,并获得比传统图像处理方法更好的结果。但是,他们倾向于关注整个图像,不仅包括人的整个身体,还包括杂乱的背景。而局部特征则引起了越来越多的关注,并且已被证明更具辨别力。例如,有些采用姿势信息来帮助局部特征学习,有些将行人分成几个部分(水平条纹,矩形块等)提取局部特征。上述姿势驱动方法和分区方法中最具挑战性的问题在于身体部位错位。提取身体关节,姿势框和不同身体区域的语义特征是解决这个问题的有效手段。此外,注意机制,善于专注于最重要的线索,用于自动学习最相关和有区别的部分,并确保部分对齐。Y.Sun提出了一个模型,将行人划分为六个水平条纹,并引入精细部分合并(RPP)方法,将每个边缘特征重新分配给最近的部分。
然而,这些局部特征要么简单地从整个图像中水平分割,要么通过根据人的身体部位粗略地划分整个图像而获得,这仍然包含大量的背景信息。随着基于深度学习的图像分割方法的快速发展,包括FCN和Mask R-CNN,图像中对象的分割掩膜可以很好地提取并用于特征学习。DyeNet提供了一种基于掩膜的方法,该方法对于不属于目标片段的干扰物具有鲁棒性,可以在视频中执行人物跟踪。CNN+MGTS生成分割掩膜以强调前景信息,前景信息对于重新识别人物更为重要。C.Song设计了一个掩膜引导的对比注意力模型(MGCAM)来分开学习身体和背景区域的特征。
有很多损失方法用于指导模型训练。由于大多数工作只关注整个图像的全局特征,因此它们采用的损失方法仅限于全局损失,无论它们是否使用对比度损失,三元损失,TriHard损失或四元损失,即使在学习部分特征的研究中,大多数仍然将部分特征聚合成一个整体,并用全局识别损失进行训练。其中,三元损失是一种广泛使用的损失方法,三元损失需要三个输入图像,包括一对阳性样本和一对阴性样本,这三个图像分别命名为Anchor(a),Positive(p)和Negative(n),其中图像a和图像p是正样本对,图像a和图像n是负样本对。
发明内容
本发明旨在克服上述现有技术的至少一种缺陷(不足),提供一种用于行人重识别的掩膜池化模型训练和行人重识别方法,可以增强图像中的非背景信息,学习到图像最关键的特征。
本发明采取的技术方案是:
一种掩膜池化模型训练方法,包括训练步骤:
S1.获取锚图像a、正样本图像p、负样本图像n;
S2.将a、p、n以及a、p、n对应的掩膜分别输入掩膜池化模型中,得到对应的张量Ta、Tp、Tn;
S3.对Ta、Tp、Tn分别进行池化操作、卷积操作,得到对应的张量Ha、Hp、Hn;
S4.将Ha、Hp、Hn分别输入分类器,得到对应的预测结果Ra、Rp、Rn;
S5.根据预测结果Ra、Rp、Rn计算损失值;
S6.根据损失值训练掩膜池化模型。
在传统的三元损失方法的基础上,再增加一个输入通道图像,将a、p、n以及a、p、n对应的掩膜作为输入,形成4个输入通道图像。通过增加掩膜作为模型的输入,并相应地修改训练模型以充分利用掩膜,可以强调非背景信息,使得训练出来的掩膜池化模型可以学习到图像最关键的特征。在用于行人重识别问题中,可以学习最关键的人物特征,更有利于行人ID的识别。
进一步地,步骤S3具体包括:
S31.将Ta、Tp、Tn分别划分为k个部分并对每个部分进行池化操作,得到Ga、Gp、Gn,Ga={ga1,ga2,……,gak},Gp={gp1,gp2,……,gpk},Gn={gn1,gn2,……,gnk};
S32.对Ga、Gp、Gn分别进行相互独立的卷积核为1×1的卷积操作,得到Ha、Hp、Hn,Ha={ha1,ha2,……,hak},Hp={hp1,hp2,……,hpk},Hn={hn1,hn2,……,hnk}。
将Ta、Tp、Tn分别划分为k个部分后,将每一个独立的1×1卷积操作应用到相对应的部分,并分别针对不同的部分进行1×1卷积核的训练,这样可以使得整个模型学习到不同特定部位的特征图,提高学习效率。
进一步地,所述池化操作具体为平均池化操作。
进一步地,步骤S5具体包括:
S51.根据预测结果Ra、Rp、Rn分别计算三元损失loss_a、loss_p、loss_n;
S52.计算loss_a、loss_p、loss_n的平均值作为损失值。
在计算损失的时候不直接计算整个特征图的三元损失,而是计算每个部分的三元损失,并取平均值来表示整个三元损失,可以训练a、p、n这三个输入图像的特征图中每个部分的相似性,也即可以使得每个三元组hai、hpi、hni(1≤i≤k)都受到了局部损失的训练。由此,可以拉近正样本对之间的距离并推开负样本对之间的距离,对于判别性特征的训练效果会更好。
进一步地,所述掩膜池化模型采用ResNet网络模型,所述掩膜池化模型具体包括:conv1卷积层、conv2_x卷积层、conv3_x卷积层、conv4_x卷积层、conv5_x卷积层;
步骤S2具体包括:将锚图像a、正样本图像p、负样本图像n以及a、p、n对应的掩膜分别依次输入conv1卷积层、conv2_x卷积层、conv3_x卷积层、conv4_x卷积层、conv5_x卷积层,得到对应的张量Ta、Tp、Tn。
进一步地,a、p、n分别输入conv1卷积层时,进行7×7卷积操作,所述7×7卷积操作采用7×7卷积核、63个通道数、步幅为2,得到前63个conv1结果;
a、p、n对应的掩膜输入conv1卷积层时,根据池化区域中的非背景像素比例进行7×7池化操作,所述池化操作采用7×7池化核、步幅为2,得到第64个conv1结果。
进一步地,前63个conv1结果输入conv2_x卷积层时,进行3×3卷积操作,所述3×3卷积操作采用3×3卷积核、步幅为2;
第64个conv1结果输入conv2_x卷积层时,根据池化区域中的非背景像素比例进行3×3池化操作,所述3×3池化操作采用3×3池化核、步幅为2。
进一步地,根据池化区域中的非背景像素比例进行池化操作具体包括:
判断池化区域中的非背景像素比例是否大于阈值;
若是则判断所述池化区域为非背景信息并对其保留;
若否则判断所述池化区域为背景信息并对其删除。
掩膜池化是对掩膜输入通道执行的下采样。与其他传统池化方法相比,掩膜池化不是简单地根据平均值或最大值进行采样,而是根据背景或非背景信息选择性地采样,这可以在很大程度上保留有意义的信息以进行特征提取。
进一步地,步骤S1具体包括:
S11.建立候选正样本图像集和候选负样本图像集,所述第一候选正样本图像集内的正样本图像与锚图像a是由不同位置的摄像机拍摄得到的并且所拍摄的对象相同;所述第一候选负样本图像集内的负样本图像与锚图像a是由相同或近似位置的摄像机拍摄得到的并且所拍摄的对象不同;
S12.计算候选正样本图像集内的正样本图像、候选负样本图像集内的负样本图像分别与锚图像a之间的欧几里得距离和掩膜交叉,根据欧几里得距离和掩膜交叉对候选正样本图像集和负样本图像集分别进行筛选,形成正样本图像集和负样本图像集;
S13.正样本图像集内的正样本图像与锚图像a形成正样本对,负样本图像集内的负样本图像与锚图像a形成负样本对,计算正样本对与负样本对之间的距离,选取距离最近的正样本图像作为正样本图像p,选取距离最近的负样本图像作为负样本图像n。
进一步地,步骤S12具体包括:
S121.计算候选正样本图像集内的正样本图像、候选负样本图像集内的负样本图像分别与锚图像a之间的欧几里得距离,筛选出欧几里得距离最大的若干个正样本图像形成更新后的候选正样本图像集,筛选出欧几里得距离最小的若干个负样本图像形成更新后的候选负样本图像集;
S122.计算更新后的候选正样本图像集内的正样本图像、更新后的候选负样本图像集内的负样本图像分别与锚图像a之间的掩膜交叉,筛选出掩膜交叉最大的若干个正样本图像形成正样本图像集,选取掩膜交叉最小的若干个负样本图像形成负样本图像集。
简单的三元组样本对训练几乎没有贡献,选择更有启发性的难样本至关重要。在选择难样本时,借助获取的掩膜,通过计算图像之间的掩膜交叉可以滤除一些训练重要性较弱的样本,从而提高训练的准确率,加快收敛过程。
一种行人重识别方法,包括:将待识别的行人图像输入掩膜池化模型中,所述掩膜池化模型采用如上所述的掩膜池化模型训练方法训练得到。
通过如上所述的掩膜池化模型,可以逐渐去除背景特征并获得最关键的行人特征,提高了行人重识别的准确率和效率。
与现有技术相比,本发明的有益效果为:
(1)本发明采用锚图像a、正样本图像p、负样本图像n以及a、p、n对应的掩膜形成4个输入通道图像作为模型的输入,并相应地修改训练模型以充分利用掩膜,可以强调非背景信息,使得训练出来的掩膜池化模型可以学习到图像最关键的特征;
(2)本发明采用局部三元损失训练每个部分的提取特征,与通常应用于图像的整个特征的三元损失相比,可以拉近正样本对之间的距离并推开负样本对之间的距离,对于判别性特征训练效果会更好;
(3)本发明提供了一种掩膜池化方法,对掩膜输入通道根据背景或非背景信息选择性地执行下采样,可以在很大程度上保留有意义的信息以进行特征提取;
(4)本发明提供一种用于局部三元损失的难三元组选择方法,借助获取的掩膜,通过计算图像之间的掩膜交叉滤除一些训练重要性较弱的样本,从而提高训练的准确率,加快收敛过程;
(5)将掩膜池化模型应用在行人重识别方法中,可以逐渐去除背景特征并获得最关键的行人特征,提高了行人重识别的准确率和效率。
附图说明
图1为本发明实施例1的训练方法示意图。
图2为本发明实施例1的ResNet网络模型架构示意图。
图3为本发明实施例1的掩膜池化方法示意图。
图4为本发明实施例2的行人图像通过掩膜池化模型去除背景特征后的结果示意图。
具体实施方式
本发明附图仅用于示例性说明,不能理解为对本发明的限制。为了更好说明以下实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
实施例1
如图1所示,本实施例提供一种用于行人重识别的掩膜池化模型训练方法,包括训练步骤:
S1.获取锚图像a、正样本图像p、负样本图像n;
S2.将a、p、n以及a、p、n对应的掩膜分别输入掩膜池化模型中,得到对应的张量Ta、Tp、Tn;
S3.对Ta、Tp、Tn分别进行池化操作、卷积操作,得到对应的张量Ha、Hp、Hn;
S4.将Ha、Hp、Hn分别输入分类器,得到对应的预测结果Ra、Rp、Rn;
S5.根据预测结果Ra、Rp、Rn计算损失值;
S6.根据损失值训练掩膜池化模型。
传统的三元损失方法是需要有3个输入通道的图像:锚图像a、正样本图像p、负样本图像n,其中a和p是正样本对,a和n是负样本对。在传统的三元损失方法的基础上,本实施例再增加一个输入通道图像,a、p、n以及a、p、n对应的掩膜作为输入,形成4个输入通道图像。
在行人重识别中,通常具有不同行人ID的图像非常相似,而具有相同行人ID的图像由于变体人物姿势、照明以及相机的视角不同而十分不同。三元损失考虑了正样本对和负样本对之间的距离,因此它可以更好地解决这个问题。此外,构造三元组是一种数据增强的方式,可以有效地减轻过度拟合。
提取a、p、n对应的掩膜,是将非背景的目标轮廓(在行人重识别中是人物轮廓)提取出来,除了目标部分的像素值不变,其他像素值都置为0,得到的掩码是二进制信息,它可以很好地反映图像中的每个像素是属于背景还是非背景(0表示背景,1表示非背景)。通过增加相应掩膜作为模型的输入,并相应地修改训练模型以充分利用掩膜,可以强调非背景信息,使得训练出来的掩膜池化模型可以学习到图像最关键的特征。将本实施例所训练出的掩膜池化模型应用在行人重识别问题中,可以学习最关键的人物特征,更有利于行人ID的识别。
在本实施例中,步骤S3具体包括:
S31.将Ta、Tp、Tn分别划分为相同大小的k个部分并对每个部分进行池化操作,得到Ga、Gp、Gn,Ga={ga1,ga2,……,gak},Gp={gp1,gp2,……,gpk},Gn={gn1,gn2,……,gnk};
S32.对Ga、Gp、Gn分别进行相互独立的卷积核为1×1的卷积操作,得到Ha、Hp、Hn,Ha={ha1,ha2,……,hak},Hp={hp1,hp2,……,hpk},Hn={hn1,hn2,……,hnk}。
将Ta、Tp、Tn分别划分为k个部分后,在传统的模型训练中,每个部分在进行卷积核为1×1的卷积操作时会共享权重,但本实施例将每一个独立的1×1卷积操作应用到相对应的部分,并分别针对不同的部分进行1×1卷积核的训练,这样可以使得整个模型学习到不同特定部位的特征图,提高学习效率。
在具体实施过程中,可以将Ta、Tp、Tn分别划分为相同大小的k个部分。
在本实施例中,所述池化操作具体为平均池化操作。
在本实施例中,步骤S5具体包括:
S51.根据预测结果Ra、Rp、Rn分别计算三元损失loss_a、loss_p、loss_n;
S52.计算loss_a、loss_p、loss_n的平均值作为损失值。
为了充分利用局部特征,采用局部三元损失方法,在计算损失的时候不直接计算整个特征图的三元损失,而是计算每个部分的三元损失,并取平均值来表示整个三元损失,可以训练a、p、n这三个输入图像的特征图中每个部分的相似性,也即可以使得每个三元组hai、hpi、hni(1≤i≤k)都受到了局部损失的训练。与通常应用于图像整体特征的三元损失相比,局部级的三元损失可以拉近正样本对之间的距离并推开负样本对之间的距离,对于判别性特征的训练效果会更好。
步骤S51中,可以采用二元交叉熵损失计算三元损失loss_a、loss_p、loss_n,
具体可以采用以下公式计算:
k是把特征图分成的数量,x是锚图像a的数量,y是正样本图像p的数量,z是负样本图像n的数量,l(ε)代表ε的真实结果,p(ε)代表ε的预测结果。
步骤S52中,具体采用以下公式计算loss_a、loss_p、loss_n的平均值:
在具体实施过程中,掩膜池化模型可以将任何深度卷积神经网络作为骨干网络。
在本实施例中,所述掩膜池化模型采用ResNet网络模型作为骨干网络。如图2所示为不同ResNet网络模型的架构示意图。ResNet网络模型具体包括:conv1卷积层、conv2_x卷积层、conv3_x卷积层、conv4_x卷积层、conv5_x卷积层、池化层(average pool)、全连接层(1000-d fc)、分类器(softmax)。而本实施例中的掩膜池化模型具体包括其中的conv1卷积层、conv2_x卷积层、conv3_x卷积层、conv4_x卷积层、conv5_x卷积层。
在具体实施过程中,可以采用ResNet50网络模型,因为ResNet50网络模型具有竞争性和相对简洁的架构,ResNet50网络模型的每秒浮点运算次数(FLOPs)是3.8×109。
步骤S2具体包括:将锚图像a、正样本图像p、负样本图像n以及a、p、n对应的掩膜分别依次输入conv1卷积层、conv2_x卷积层、conv3_x卷积层、conv4_x卷积层、conv5_x卷积层,得到对应的张量Ta、Tp、Tn。
如图3所示,为了更加突出掩膜在网络模型训练中的作用,提出一种掩膜池化方法,对conv1卷积层进行以下修改:
a、p、n分别输入conv1卷积层时,执行正常的7×7卷积操作(conv)(7×7卷积,步幅2,63个通道数),得到前63个conv1结果,在conv1卷积层中还可以进行BatchNorm标准化和ReLU激活。
而a、p、n对应的掩膜(Mask)输入conv1卷积层时,执行的是池化操作(MP),它不是普通的平均池化或最大池化,而是根据当前池化区域(7×7)中的非背景像素比例进行池化操作(7×7池化,步幅2,1个通道数),输出第64个conv1结果。
进一步地,还可以对conv2_x卷积层进行以下修改:
经过conv1卷积层后,前63个conv1结果输入conv2_x卷积层时,执行正常的最大池化操作(max pool)(3×3池化核,步幅2),得到前63个conv2_x结果。
第64个conv1结果输入conv2_x卷积层时,同样执行的是池化操作(MP),根据池化区域中的非背景像素比例进行3×3池化操作(3×3池化核,步幅2),得到第64个conv_2x结果。
其中,根据池化区域中的非背景像素比例进行7×7或者3×3池化操作具体包括:
判断池化区域(7×7或者3×3)中的非背景像素比例是否大于阈值;
若是则判断所述池化区域为非背景信息并对其保留;
若否则判断所述池化区域为背景信息并对其删除。
池化区域中的非背景像素比例也即池化区域中1的比例。可以认为,如果该比例超过某个阈值,则该区域可能代表非背景信息,应该作为非背景汇集。而如果阈值选取过大则会导致非背景信息的丢失,如果阈值选取过小则可能会带来太多的背景信息,造成训练被过多地干扰。多次实验表明,阈值取0.6(60%)是最佳阈值。
上述所提出的掩膜池化方法,是对掩膜输入通道执行的下采样。与其他传统池化方法相比,掩膜池化不是简单地根据平均值或最大值进行采样,而是根据背景或非背景信息选择性地采样,这可以在很大程度上保留有意义的信息以进行特征提取。
为了更加突出掩膜在网络模型训练中的作用而对ResNet网络结构所作的修改只修改到conv2_x卷积层,ResNet网络结构中的其余网络层保留原始操作,将得到的64个conv2_x结果继续输入conv3_x卷积层、conv4_x卷积层、conv5_x卷积层中。
一些三元组,例如具有相似正样本对或类似负样本对的三元组,对训练几乎没有贡献,并且会导致收敛速度变慢。因此,选择有助于训练的难三元组至关重要。
为了构建有助于训练的难三元组,对于步骤S1中锚图像a、正样本图像p、负样本图像n的获取,我们提出了一种称为Mask-guided TriHard的算法,具体包括:
S11.建立候选正样本图像集和候选负样本图像集,所述候选正样本图像集内的正样本图像与锚图像a是由不同位置的摄像机拍摄得到的并且所拍摄的对象相同;所述候选负样本图像集内的负样本图像与锚图像a是由相同或近似位置的摄像机拍摄得到的并且所拍摄的对象不同;
S12.计算候选正样本图像集内的正样本图像、候选负样本图像集内的负样本图像分别与锚图像a之间的欧几里得距离和掩膜交叉,根据欧几里得距离和掩膜交叉对候选正样本图像集和负样本图像集分别进行筛选,形成正样本图像集和负样本图像集;
S13.正样本图像集内的正样本图像与锚图像a形成正样本对,负样本图像集内的负样本图像与锚图像a形成负样本对,计算正样本对与负样本对之间的距离,选取距离最近的正样本图像作为正样本图像p,选取距离最近的负样本图像作为负样本图像n。
其中,步骤S12具体包括:
S121.计算候选正样本图像集内的正样本图像、候选负样本图像集内的负样本图像分别与锚图像a之间的欧几里得距离,筛选出欧几里得距离最大的若干个正样本图像形成更新后的候选正样本图像集,筛选出欧几里得距离最小的若干个负样本图像形成更新后的候选负样本图像集;
S122.计算更新后的候选正样本图像集内的正样本图像、更新后的候选负样本图像集内的负样本图像分别与锚图像a之间的掩膜交叉,筛选出掩膜交叉最大的若干个正样本图像形成正样本图像集,选取掩膜交叉最小的若干个负样本图像形成负样本图像集。
当一对样本中的两个图像的掩膜彼此接近时,正样本对或负样本对的训练才有意义。因此,简单的三元组样本对训练几乎没有贡献,选择更有启发性的难样本至关重要。在选择难样本时,借助获取的掩膜,通过计算图像之间的掩膜交叉可以滤除一些训练重要性较弱的样本,从而提高训练的准确率,加快收敛过程。
欧几里得距离的计算方式是:假设两个图像x、y是M×N维的两幅图像,那么其在图像空间中可表示为:
x=(x1,x2,…,xkN+l,…,xMN),k=1,2,…,M
y=(y1,y2,…,ykN+l,…,yMN),k=1,2,…,M
式中,xkN+l、ykN+l分别表示图像x、y的第(k,l)个像素点,则欧几里得距离的计算公式如下:
掩膜交叉的计算方式是:计算两个图像的掩膜取交集后的非0像素个数。掩膜交叉最大是非0像素个数最多,也即两个图像的掩膜交集最多。
具体的实施过程可以是:筛选出欧几里得距离最大的10个正样本图像形成更新后的候选正样本图像集;筛选出欧几里得距离最大的20个负样本图像形成更新后的候选负样本图像集;筛选出掩膜交叉最大的5个正样本图像形成正样本图像集;选取掩膜交叉最小的5个负样本图像形成负样本图像集。
将上述难样本的选择方法应用在行人重识别问题中,可以考虑了掩膜中的人体姿势和轮廓信息。
在行人重识别中,构建第一候选正样本图像集和第一候选负样本图像集可以取决于图像是否具有相同的行人ID或者是否与锚图像a在同一个相机内。
实施例2
一种行人重识别方法,包括:将待识别的行人图像输入掩膜池化模型中,所述掩膜池化模型采用如实施例1所述的掩膜池化模型训练方法训练得到。
通过如实施例1所述的掩膜池化模型,可以逐渐去除背景特征并获得最关键的行人特征。如图4所示为行人图像去除背景特征后的结果,可以看到行人的轮廓特征已经被最大限度地保留,并且有效地去除了杂乱的背景,提高了行人重识别的准确率和效率。
显然,本发明的上述实施例仅仅是为清楚地说明本发明技术方案所作的举例,而并非是对本发明的具体实施方式的限定。凡在本发明权利要求书的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (7)
1.一种用于行人重识别的掩膜池化模型训练方法,其特征在于,包括:
S1.获取锚图像a、正样本图像p、负样本图像n;
S2.将a、p、n以及a、p、n对应的掩膜分别输入掩膜池化模型中,得到对应的张量Ta、Tp、Tn;
S3.对Ta、Tp、Tn分别进行池化操作、卷积操作,得到对应的张量Ha、Hp、Hn;
S4.将Ha、Hp、Hn分别输入分类器,得到对应的预测结果Ra、Rp、Rn;
S5.根据预测结果Ra、Rp、Rn计算损失值;
S6.根据损失值训练掩膜池化模型;
所述掩膜池化模型采用ResNet网络模型,所述掩膜池化模型具体包括:conv1卷积层、conv2_x卷积层、conv3_x卷积层、conv4_x卷积层、conv5_x卷积层;
步骤S2具体包括:将锚图像a、正样本图像p、负样本图像n以及a、p、n对应的掩膜分别依次输入conv1卷积层、conv2_x卷积层、conv3_x卷积层、conv4_x卷积层、conv5_x卷积层,得到对应的张量Ta、Tp、Tn;
a、p、n分别输入conv1卷积层时,进行7×7卷积操作,所述7×7卷积操作采用7×7卷积核、63个通道数、步幅为2,得到前63个conv1结果;
a、p、n对应的掩膜输入conv1卷积层时,根据池化区域中的非背景像素比例进行7×7池化操作,所述池化操作采用7×7池化核、步幅为2,得到第64个conv1结果;
前63个conv1结果输入conv2_x卷积层时,进行3×3卷积操作,所述3×3卷积操作采用3×3卷积核、步幅为2;
第64个conv1结果输入conv2_x卷积层时,根据池化区域中的非背景像素比例进行3×3池化操作,所述3×3池化操作采用3×3池化核、步幅为2。
2.根据权利要求1所述的用于行人重识别的掩膜池化模型训练方法,其特征在于,步骤S3具体包括:
S31.将Ta、Tp、Tn分别划分为k个部分并对每个部分进行池化操作,得到Ga、Gp、Gn,Ga={ga1,ga2,……,gak},Gp={gp1,gp2,……,gpk},Gn={gn1,gn2,……,gnk};
S32.对Ga、Gp、Gn分别进行相互独立的卷积核为1×1的卷积操作,得到Ha、Hp、Hn,Ha={ha1,ha2,……,hak},Hp={hp1,hp2,……,hpk},Hn={hn1,hn2,……,hnk}。
3.根据权利要求1所述的用于行人重识别的掩膜池化模型训练方法,其特征在于,步骤S5具体包括:
S51.根据预测结果Ra、Rp、Rn分别计算三元损失loss_a、loss_p、loss_n;
S52.计算loss_a、loss_p、loss_n的平均值作为损失值。
4.根据权利要求1所述的用于行人重识别的掩膜池化模型训练方法,其特征在于,根据池化区域中的非背景像素比例进行池化操作具体包括:
判断池化区域中的非背景像素比例是否大于阈值;
若是则判断所述池化区域为非背景信息并对其保留;
若否则判断所述池化区域为背景信息并对其删除。
5.根据权利要求1所述的用于行人重识别的掩膜池化模型训练方法,其特征在于,步骤S1具体包括:
S11.建立候选正样本图像集和候选负样本图像集,所述候选正样本图像集内的正样本图像与锚图像a是由不同位置的摄像机拍摄得到的并且所拍摄的对象相同;所述候选负样本图像集内的负样本图像与锚图像a是由相同或近似位置的摄像机拍摄得到的并且所拍摄的对象不同;
S12.计算候选正样本图像集内的正样本图像、候选负样本图像集内的负样本图像分别与锚图像a之间的欧几里得距离和掩膜交叉,根据欧几里得距离和掩膜交叉对候选正样本图像集和负样本图像集分别进行筛选,形成正样本图像集和负样本图像集;
S13.正样本图像集内的正样本图像与锚图像a形成正样本对,负样本图像集内的负样本图像与锚图像a形成负样本对,计算正样本对与负样本对之间的距离,选取距离最近的正样本图像作为正样本图像p,选取距离最近的负样本图像作为负样本图像n。
6.根据权利要求5所述的用于行人重识别的掩膜池化模型训练方法,其特征在于,步骤S12具体包括:
S121.计算候选正样本图像集内的正样本图像、候选负样本图像集内的负样本图像分别与锚图像a之间的欧几里得距离,筛选出欧几里得距离最大的若干个正样本图像形成更新后的候选正样本图像集,筛选出欧几里得距离最小的若干个负样本图像形成更新后的候选负样本图像集;
S122.计算更新后的候选正样本图像集内的正样本图像、更新后的候选负样本图像集内的负样本图像分别与锚图像a之间的掩膜交叉,筛选出掩膜交叉最大的若干个正样本图像形成正样本图像集,选取掩膜交叉最小的若干个负样本图像形成负样本图像集。
7.一种行人重识别方法,其特征在于,包括:将待识别的行人图像输入掩膜池化模型中,所述掩膜池化模型采用如权利要求1至6任一项所述的掩膜池化模型训练方法训练得到。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910167964.8A CN109977798B (zh) | 2019-03-06 | 2019-03-06 | 用于行人重识别的掩膜池化模型训练和行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910167964.8A CN109977798B (zh) | 2019-03-06 | 2019-03-06 | 用于行人重识别的掩膜池化模型训练和行人重识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109977798A CN109977798A (zh) | 2019-07-05 |
CN109977798B true CN109977798B (zh) | 2021-06-04 |
Family
ID=67078021
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910167964.8A Active CN109977798B (zh) | 2019-03-06 | 2019-03-06 | 用于行人重识别的掩膜池化模型训练和行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109977798B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110688888B (zh) * | 2019-08-02 | 2022-08-05 | 杭州未名信科科技有限公司 | 一种基于深度学习的行人属性识别方法和系统 |
CN112446270B (zh) * | 2019-09-05 | 2024-05-14 | 华为云计算技术有限公司 | 行人再识别网络的训练方法、行人再识别方法和装置 |
CN110647993A (zh) * | 2019-09-23 | 2020-01-03 | 南方科技大学 | 一种红外传感器掩膜制造方法、装置、系统及存储介质 |
CN110675385B (zh) * | 2019-09-25 | 2024-05-14 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、装置、计算机设备以及存储介质 |
CN111582107B (zh) * | 2020-04-28 | 2023-09-29 | 浙江大华技术股份有限公司 | 目标重识别模型的训练方法、识别方法、电子设备及装置 |
CN111783568B (zh) * | 2020-06-16 | 2022-07-15 | 厦门市美亚柏科信息股份有限公司 | 一种基于置信学习的行人重识别方法、装置及存储介质 |
CN112183468A (zh) * | 2020-10-27 | 2021-01-05 | 南京信息工程大学 | 一种基于多注意力联合多级特征的行人再识别方法 |
CN112613341B (zh) * | 2020-11-25 | 2024-09-24 | 天津极豪科技有限公司 | 训练方法及装置、指纹识别方法及装置、电子设备 |
CN112487934B (zh) * | 2020-11-26 | 2022-02-01 | 电子科技大学 | 基于ReID特征的强数据关联一体化实时多目标跟踪方法 |
CN112989952B (zh) * | 2021-02-20 | 2022-10-18 | 复旦大学 | 一种基于遮罩引导的人群密度估计方法及装置 |
CN113239784B (zh) * | 2021-05-11 | 2022-09-30 | 广西科学院 | 一种基于空间序列特征学习的行人重识别系统及方法 |
CN114140826B (zh) * | 2021-12-03 | 2024-05-31 | 北京交通大学 | 一种基于相机特征分离的目标重识别方法 |
CN114372538B (zh) * | 2022-03-22 | 2023-04-18 | 中国海洋大学 | 拖曳式传感器阵列中尺度涡时间序列卷积分类方法 |
CN114881992B (zh) * | 2022-05-24 | 2023-04-07 | 北京安德医智科技有限公司 | 颅骨骨折的检测方法、装置及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107153817A (zh) * | 2017-04-29 | 2017-09-12 | 深圳市深网视界科技有限公司 | 行人重识别数据标注方法和装置 |
AU2018100321A4 (en) * | 2018-03-15 | 2018-04-26 | Chen, Jinghan Mr | Person ReID method based on metric learning with hard mining |
CN108197584A (zh) * | 2018-01-12 | 2018-06-22 | 武汉大学 | 一种基于三元组深度神经网络的行人重识别方法 |
CN108805203A (zh) * | 2018-06-11 | 2018-11-13 | 腾讯科技(深圳)有限公司 | 图像处理及对象再识别方法、装置、设备和存储介质 |
CN109344842A (zh) * | 2018-08-15 | 2019-02-15 | 天津大学 | 一种基于语义区域表达的行人重识别方法 |
CN109344787A (zh) * | 2018-10-15 | 2019-02-15 | 浙江工业大学 | 一种基于人脸识别与行人重识别的特定目标跟踪方法 |
-
2019
- 2019-03-06 CN CN201910167964.8A patent/CN109977798B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107153817A (zh) * | 2017-04-29 | 2017-09-12 | 深圳市深网视界科技有限公司 | 行人重识别数据标注方法和装置 |
CN108197584A (zh) * | 2018-01-12 | 2018-06-22 | 武汉大学 | 一种基于三元组深度神经网络的行人重识别方法 |
AU2018100321A4 (en) * | 2018-03-15 | 2018-04-26 | Chen, Jinghan Mr | Person ReID method based on metric learning with hard mining |
CN108805203A (zh) * | 2018-06-11 | 2018-11-13 | 腾讯科技(深圳)有限公司 | 图像处理及对象再识别方法、装置、设备和存储介质 |
CN109344842A (zh) * | 2018-08-15 | 2019-02-15 | 天津大学 | 一种基于语义区域表达的行人重识别方法 |
CN109344787A (zh) * | 2018-10-15 | 2019-02-15 | 浙江工业大学 | 一种基于人脸识别与行人重识别的特定目标跟踪方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109977798A (zh) | 2019-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109977798B (zh) | 用于行人重识别的掩膜池化模型训练和行人重识别方法 | |
CN105069434B (zh) | 一种视频中人体动作行为识别方法 | |
CN108596211B (zh) | 一种基于集中学习与深度网络学习的遮挡行人再识别方法 | |
CN108268859A (zh) | 一种基于深度学习的人脸表情识别方法 | |
CN104050471A (zh) | 一种自然场景文字检测方法及系统 | |
CN109325471A (zh) | 一种结合表观特征和时空分布的双流网络行人重识别方法 | |
Wang et al. | Describe and attend to track: Learning natural language guided structural representation and visual attention for object tracking | |
CN104036523A (zh) | 一种基于SURF特征的改进Mean Shift的目标跟踪方法 | |
Zhou et al. | Detecting humans in RGB-D data with CNNs | |
CN110909741A (zh) | 一种基于背景分割的车辆再识别方法 | |
CN109410249B (zh) | 一种结合深度特征与手绘特征自适应的目标追踪方法 | |
CN103106409A (zh) | 一种针对头肩检测的混合特征提取方法 | |
CN106874825A (zh) | 人脸检测的训练方法、检测方法和装置 | |
Xiao et al. | Traffic sign detection based on histograms of oriented gradients and boolean convolutional neural networks | |
CN115527269B (zh) | 一种人体姿态图像智能识别方法及系统 | |
Han et al. | A method based on multi-convolution layers joint and generative adversarial networks for vehicle detection | |
Li et al. | Object tracking with only background cues | |
CN112613565A (zh) | 基于多特征融合与自适应学习率更新的抗遮挡跟踪方法 | |
Pang et al. | Analysis of computer vision applied in martial arts | |
CN104331700B (zh) | 基于轨迹能量扩散图的组行为识别方法 | |
Phung et al. | A new image feature for fast detection of people in images | |
Xu et al. | Car detection using deformable part models with composite features | |
CN107273873A (zh) | 基于不规则视频序列的行人重识别方法及系统 | |
Ma et al. | Self-attention Guidance Based Crowd Localization and Counting | |
Papadimitriou et al. | Fingerspelled alphabet sign recognition in upper-body videos |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |