CN110163117B - 一种基于自激励判别性特征学习的行人重识别方法 - Google Patents
一种基于自激励判别性特征学习的行人重识别方法 Download PDFInfo
- Publication number
- CN110163117B CN110163117B CN201910348620.7A CN201910348620A CN110163117B CN 110163117 B CN110163117 B CN 110163117B CN 201910348620 A CN201910348620 A CN 201910348620A CN 110163117 B CN110163117 B CN 110163117B
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- network
- picture
- original network
- negative branch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于自激励判别性特征学习的行人重识别方法,包括:(1)选取一个行人重识别网络,在该原始网络上添加一个负分支;(2)在训练阶段,原始网络产生分类损失函数,原始网络和负分支之间产生对抗损失函数和互斥响应项,一起构成目标函数,并利用随机梯度下降方法对整个网络进行优化;(3)在测试阶段,移除负分支,只保留原始网络在分类器之前的部分,作为训练好的网络模型,并输入行人图片进行抽取特征向量测试;(4)在行人检索阶段,利用训练好的网络模型抽取图片库中每张图片的特征向量,选择与待查询行人图片的特征向量相似度最高的图片的身份作为最终识别结果。利用本发明,可以提升现有行人重识别网络的效果。
Description
技术领域
本发明涉及计算机视觉和模式分类领域,具体涉及一种基于自激励判别性特征学习的行人重识别方法。
背景技术
近年来,随着公众场合大量监控摄像头的出现,行人重识别技术受到越来越多的关注。行人重识别技术的目标是进行跨摄像头行人查找,即给定某个摄像头拍摄到的一张行人图片,从其他摄像头中查找和这张图片属于同一身份的图片。行人重识别在遗失人员查找、嫌犯追踪等方面有着广泛应用。近年来,行人重识别技术发展迅速,但是距离应用到实际场景仍有不小的距离,难度由诸多方面引起:不同摄像头下光照变化、人的姿态变化、相互遮挡以及杂乱背景干扰等。
行人重识别技术分为两个阶段:第一个阶段是抽取判别性行人特征,第二个阶段是利用抽取到的特征向量在图片库里进行最近邻检索,其中行人特征的抽取质量对行人重识别的准确度有着决定性影响。近年来,深度学习技术的快速发展为行人重识别技术带来了巨大的机遇。目前主流的图片分类网络已经可以在行人重识别任务上取得不错的结果,例如Kaiming He等人在2016年CVPR会议上发表的论文《Deep Residual Learning forImage Recognition》中提出的ResNet,以及Gao Huang等人在2017年CVPR会议上发表的论文《Densely Connected Convolutional Networks》中提出的DenseNet等。借助于这些基础网络,很多行人特征抽取网络涌现出来。
在本发明之前,绝大多数行人重识别技术需要重新设计新的网络结构,不同的网络侧重于抽取不同方面或者部位的行人特征。总体而言,这些技术可以归为两大类:第一类是强化对判别性信息提取有正面作用的区域或者特征,第二类是弱化对判别性特征提取产生干扰作用的信息影响。第一类方法包括基于人体部位特征提取的网络、基于多尺度特征融合的网络等。在这类方法当中,Wang Guanshu等人在2018年ACM Multimedia会议上发表的《Learning discriminative features with multiple granularities for personre-identification》论文中提出了MGN网络,它既是基于人体部位,又是多尺度特征融合的网络,目前是行人重识别领域的领先技术。第二类方法侧重于消除行人图片中负面信息对特征抽取的影响,例如消除背景区域的噪声、降低行人姿态变化的影响等。这两类方法都需要对已有网络在结构上进行改进,以达到相应的特征学习效果。
除了设计新的网络结构,另外一个提升行人重识别技术的途径是提升已有网络结构的识别准确度,即在保持现有的行人特征提取网络结构不变的条件下,通过更好的训练和优化技术,将它们的性能提升到一个更好的水平。在本发明之前,已有的网络结构通常采用SGD或者Adam等通用的梯度下降方式进行优化,几乎不存在针对行人重识别网络的专门优化技术。这使得现有行人特征学习网络的潜力没有得到充分挖掘,它们可能达到的最佳性能也是未知的。因此,本发明的技术从这一角度考虑,来提升现有行人重识别网络的效果。
发明内容
本发明提供了一种基于自激励判别性特征学习的行人重识别方法,很好地解决了现有行人特征学习网络优化不充分的问题,在已有的模型结构基础上取得了比传统网络优化方法更好的效果。
一种基于自激励判别性特征学习的行人重识别方法,包括以下步骤:
(1)选取一个已有的行人重识别网络,在该原始网络上添加一个用于负面特征提取的负分支;
(2)在训练阶段,原始网络产生分类损失函数,原始网络和负分支之间产生对抗损失函数和互斥响应项,将分类损失函数、对抗损失函数和互斥响应项一起构成目标函数,并利用随机梯度下降方法对整个网络进行优化,直到目标函数收敛;
(3)在测试阶段,移除负分支,只保留原始网络在分类器之前的部分,作为训练好的网络模型,并输入行人图片进行抽取特征向量测试;
(4)在行人检索阶段,利用训练好的网络模型抽取行人图片库中每张图片的特征向量,对于将待查询行人图片,对待查询行人图片的特征向量和图片库中每张图片特征向量进行相似度排序,选择排序最靠前的图片的身份作为最终识别结果。
本发明的总体设计思路为利用负分支抓取原始网络的预测和真实结果之间的残差。本发明认为,这个预测的残差是由输入图片中的误导性信息导致的,原始网络本来不具备将误导性信息剔除的能力。我们引入的负分支可以抓取到这部分误导信息,将其传递给原始网络,让原始网络降低在误导信息上的关注度,更聚焦于判别性信息,从而避免做出和负分支一样的错误预测。这样一来,原始网络可以学习到更具判别性的特征。
接下来对以上4个步骤的具体内容展开介绍,下文所述图片的“标签”即为图片中行人的身份。
步骤(1)中,所述的负分支从原始网络的其中一个底层卷积模块之后引出,结尾连接和原始网络一样的全连降维层和分类层。
步骤(1)的具体步骤如下:
步骤(1-1),首先选取一个称之为原始网络的提升对象,例如ResNet50或者DenseNet161。这个原始网络通常包含若干个依次顺接的卷积模块,这些卷积模块越靠后,对应的通道数越多,而宽和高的分辨率越低。之后通过池化(pooling)和全连接(FC)层,得到一个低维向量,这个低维向量就作为输入图片的特征向量。最后通过一个全连接分类层和softmax函数,输出一个长度和训练集中类的个数相同的分类概率向量,每个分量表示输入图片属于对应类的概率。
给定一个输入图片x,记其对应的行人身份(标签)为y,这是一个独热(1-hot)向量,即只在标签所对应的位置分量为1,其他分量都取零。将图片x输入到原始网络中,通过前向传播,网络会输出一个预测的概率分布po。
步骤(1-2),引入一个新的分支,称为负分支,来对误导性信息进行建模。负分支从原始网络的少量底层卷积模块之后引出。为了方便起见,负分支直接拷贝原始网络从负分支接入位置之后的全部卷积模块。负分支结尾连接和原始网络一样的全连降维层和分类层。对于同样的输入图片x,记负分支预测的概率分布为pn。通过下文中的训练方式,负分支将会学习输入图片中的误导性信息。
负分支只在训练阶段存在。在测试阶段,它将被移除,只保留原始网络用于行人检索。
步骤(2)为模型的训练阶段。这个步骤当中,本发明设计了一个端到端的对抗学习模式,来引导负分支专注于误导性信息,在此基础上引导原始网络避免做出这样的错误预测,从而辅助原始网络学习到更强的判别性特征。该步骤分为以下几个子步骤:
步骤(2-1):原始网络产生分类损失函数。
如步骤(1-1)中所述,原始网络的预测分布po和标签y之间的分类损失函数即为二者之间的交叉熵损失:
Lid=LCE(y,po)
其中LCE表示交叉熵,两个长度相同的概率分布向量p和q之间的交叉熵记为LCE(p,q)=-∑pilogqi。这个分类损失函数代表原始网络在训练样本上的拟合程度。
步骤(2-2):原始网络和负分支之间的互斥特征图响应。
本发明认为,原始网络关注于提取判别性特征,即一个人区分于其他人的信息;而负分支专注于提取误导性特征,即不同人之间的相似信息。因此,从特征图来看,两个分支在网络结构中对应位置的特征图存在响应值上的互斥效应。具体来说,对于网络结构中同一个位置的特征图Fo和Fn而言,例如ResNet50中第4个卷积模块(ResNet总共包含4个卷积模块)的输出,其响应值在对应位置上的数值大小是相互对抗的。这里Fo(Fn)表示原始网络(负分支)在最后一个卷积模块输出的特征图。
记Fo和Fn之间的互斥关联项为
其中,<·,·>表示张量之间的内积,||·||2表示Frobenius范数。这里假设Fo和Fn的每个分量都是非负的。这一点在ResNet中是自带的性质。对于其他不能保证卷积模块输出非负的网络结构,可以在计算R之前先在特征图上应用ReLU激活函数,ReLU(·)=max(·,0)可以保证输出的特征值的非负性。这里的R将作为惩罚项加入到最终的目标函数中。直观上来看,通过最小化R可以使得Fo和Fn产生大小互斥的响应。
步骤(2-3):原始网络和负分支之间产生对抗损失函数
本发明中设计的负分支的目标是学习原始网络和目标身份之间的残差。负分支学习到的残差通过反向传播来辅助原始网络的训练。
步骤(2-3-1):利用原始网络的预测分布po和真实标签y来构造pn的伪标签,这个伪标签可以理解为po和y之间的残差。具体做法为构造原始网络预测po和y之间的残差概率分布,该概率可以表示为其中1-y表示将向量y中每个位置的分量yi改为1-yi,而。表示两个向量之间对应位置相乘得到的向量,表示线性变换,将向量的分量之和归一化为1。
这个损失函数称为对抗损失。它利用pn来引导负分支学习导致原始网络没有预测正确的那部分特征。通过对抗学习,使得po在真实标签位置的概率尽可能高,从而让学习到的特征更具有判别性。
步骤(2-4):构造总的目标函数
通过步骤(2-1)、步骤(2-2)、步骤(2-3),我们得到了三个部分的损失函数,我们总的目标函数是对以上三部分损失以及正则项进行加权求和,其形式如下
L(x,y)=Lid+α1Ladv+α2R
其中,Lid为原始网络产生分类损失函数,Ladv为原始网络和负分支之间产生对抗损失函数,R为互斥响应项,这里引入的α1和α2分别为两个超参数,用来平衡不同损失之间的权重。
步骤(2-5):训练模型
本发明采用和原始网络完全一致的训练方式来训练整体模型。具体来说,我们使用在ImageNet数据集上已经预训练过的原始网络参数作为初始化参数,然后使用随机梯度下降(SGD)进行训练。通过多遍迭代得到最终的模型。训练过程的细节将在下文中展示。
步骤(3):测试阶段
在测试阶段,我们将负分支从原始网络中移除,只保留原始网络在分类器以前的部分。对于一张行人图片,我们将其输入网络,前向传播至最终的低维向量。这个低维向量将作为输入图片的特征向量。
步骤(4):行人检索阶段
步骤(4-1)首先对于行人图片库中的所有图片,将每张图片输入训练好的模型,按照步骤(3)所述,得到其特征向量。
步骤(4-2)对于一个新来的查询图片,用步骤(3)的方式得到其特征向量。然后计算查询图片的特征向量和图片库中每张图片的特征向量之间的欧式距离。根据欧式距离的大小,对图片库中每张图片与输入图片的相似度进行排序。欧式距离越小,代表相似度越高。选取相似度最高的前K张图片作为检索的返回结果。最后,由这K个返回图片的标签根据一定规则得到输入图片的标签。通常做法是将返回的排序最靠前的图片的身份作为输入图片的身份。
与现有技术相比,本发明具有以下有益效果:
1、与以往设计网络结构的方式不同,本发明从优化已有网络结构的角度发展了行人重识别技术。本发明能够保证,就测试阶段而言,原始的网络结构没有发生变化,却可以达到更高的行人重识别准确度。本发明容易实现,是一个端到端的模型,训练时具有稳定的收敛性。
2、本发明的前置条件是一般的行人识别场景,我们没有对行人的身体部位的位置分布作任何假设,因此过拟合的风险更低。此外,本发明是一个灵活的网络优化工具,能够和最常用的基础网络ResNet、DenseNet相结合。因为目前大部分行人重识别网络是基于这两种主干网络,本发明可以被应用于更复杂的行人特征学习网络,例如前文所述MGN。
3、本发明的有效性在三个主流的行人重识别数据集Market1501、DukeMTMC-reID和CUHK03上得到了验证。通过充分的实验,证明了它可以提高目前常用的主干网络的准确度,平均准确度提升超过3.0%。另外,将其应用于MGN网络,在这三个数据集上准确度超过了MGN,达到了目前领先的行人重识别准确度。
附图说明
图1为本发明实施例一种基于自激励判别性特征学习的行人重识别方法的整体结构示意图;
图2为本发明实施例在训练阶段原始网络和负分支之间的对抗损失函数的示意图。
具体实施方式
下面结合附图和实施例对本发明做进一步详细描述,需要指出的是,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。
如图1所示,一种基于自激励判别性特征学习的行人重识别方法,本实施例以DenseNet161网络为例来说明各个模块。
输入:一张行人图片,输入尺寸为256(高)*128(宽)。
原始网络:提升对象,这里为DenseNet161。这里的DenseNet161已经在ImageNet数据集上预训练过。原始网络由若干个卷积模块组成。这里DenseNet161包含4个卷积模块,每个卷积模块包含一个Dense Block和一个Transition Layer。每个Dense Block包含若干个由BatchNormalization-ReLU-Conv层组成的卷积单元。在DenseNet161中,4个Dense Block包含的卷积单元个数依次为6、12、36、24。在Dense Block(4)之后,通过池化(pooling)操作,输出一个高维的向量。然后通过一个全连接(FC)层,将这个向量降到一个比较低的维度,例如512维。这个低维向量fo即为输入图片的特征向量。然后通过分类器输出预测分布po。最后通过SoftMax函数产生分类损失函数Lid。
负分支:添加在原始网络上的辅助分支,用于建模误导性信息。负分支从DenseNet161的Transition Layer(2)的输出引出来,之后完全复制原始网络的结构。负分支中参数的初始化和原始网络中对应位置完全保持一致。负分支产生的预测分布为pn。原始网络和负分支之间产生对抗损失函数Ladv和互斥响应项R。在训练过程中,负分支中的分类器和原始网络共享参数,除了分类器以外的所有参数则和原始网络中的参数单独训练。
输出:在训练阶段,模型的输出为目标函数L。在测试阶段,只保留原始网络,模型的输出为输入图片的特征向量fo。
以ResNet为原始网络,在此基础上应用本发明的优化方法,做法和上述DenseNet161的做法几乎完全一致。ResNet也包含4个卷积模块,负分支引出的位置也是在第2个卷积模块结束之后。
除了以上两种基础网络,我们另外展示在一种复杂的基于人体部位的多分支网络MGN上应用本发明的做法。MGN是目前在公开数据集上行人重识别效果最好的网络。这里请参照MGN原始论文中的网络结构。
MGN是一个以ResNet50为主干网络的多分支网络。在MGN上应用本发明的时候,负分支从Res_conv3_1(ResnNet50的第3个卷积模块的第一个卷积层)之后的位置引出,这里同时也是MGN原始网络中多尺度分支分离的位置。MGN中包含三个全局分支,其中有一个全局分支不作任何图片分割。本发明的负分支正是和这个不作任何图片分割的全局分支保持完全一样的结构。三个全局分支预测得到的分布概率向量的平均向量替代本发明中的po。三个全局分支中Res_conv4(ResnNet50的第4个卷积模块)输出的特征图的平均特征图替代本发明中的Fo。这里在做三个特征图平均的时候,需要利用最大池化(max pooling)来对齐特征图之间的宽度和高度尺寸。
因为对于像MGN这样的复杂行人重识别网络,原始网络的目标函数不仅包含分类损失函数,还可能包含Triplet损失函数等。因此我们将本发明中总的目标函数重写为如下的形式:
L(x,y)=α0Loriginal+α1Ladv+α2R
其中,Loriginal表示原始网络的目标函数。这里为了方便起见,我们引入了新的超参数α0。对于像MGN这样的网络,Loriginal在数值尺度上比单独的分类损失函数要大,α0通常要选取小于1的值。
为了清晰展示对抗学习原理,我们进一步阐释对抗损失函数Ladv。
如图2所示,左右两个柱形图分别表示原始网络和负分支的预测概率分布,每条柱形的高度代表预测的概率。在该示例中,通过本发明的方法,变换得到的概率分布在真实标签位置取零,而在原始网络预测中概率值为第二高的位置对应的标签取到了最高值。本发明中以此分布作为负分支应该拟合的分布,负分支关注于和输入图片在外形上相近的人。如图中负分支预测到的标签是一个衣服形状和颜色与输入图片非常相近的人。
在负分支做出这样的错误预测之后,模型在训练过程中,通过反向传播,能够使得负分支关注于误导性区域。这样的反向传播能够传递到原始网络和负分支共享的初始卷积模块,从而对底层特征做出调整,使得其在底层体现出判别性区域和误导性区域的分离特性,进而通过前向传播使得原始网络学习到更具有判别性的特征。
本发明的具体实现形式:
在以DenseNet或者ResNet为原始网络来使用本发明方法的情况下,实验设置如下:对于输入图片,模型输出的特征向量为512维。优化器为带有动量(momentum)的SGD,动量为0.9。权重衰减率(weight decay)设置为5e-4。初始的学习率(learning rate)为0.1,之后每经过10遍(epoches)训练,学习率衰减为之前的1/10。每个批次(batch)包含48张图片,模型总共训练50遍。我们使用欧式距离作为特征向量之间的相似性度量。目标函数中的超参数α1和α2分别取值为0.3和1.0。
在以MGN为原始网络来使用本发明方法的情况下,实验设置如下:因为原始的MGN网络中使用了triplet损失函数,所以在训练过程的每个批次(batch)数据中,需要对行人的身份进行采样。每个批次从训练数据集中采样4个行人,每人4张图片。为了和MGN的原始设置保持一致,输入图片的尺寸置为384*128。因为triplet损失函数对于较大的学习率敏感,因此初始的学习率置为2e-4。模型总共训练500遍,在第320遍和第380遍的时候,学习率分别衰减为之前的1/10。因为MGN同时使用了分类损失函数和triplet损失函数,原始网络的目标函数Loriginal数值尺寸偏大,因此本发明设置目标函数中的超参数α0=0.4,参数α1和α2仍然分别取值为0.3和1.0。和原始网络设置一样,我们在MGN上应用本发明的优化方法时,在数据预处理部分会使用随机擦除(random erasing)操作。
本发明在三个主流的行人重识别数据集上进行了实验,这三个数据集介绍分别如下:
Market1501:该数据集由大学校园里的6个摄像头采集。包含1,501个行人的32,668张图片,其中751个行人的12,936张图片用于训练,另外750个人的19,732张图片用于测试。
DukeMTMC-reID:该数据采自8个室外摄像头,包含36,411张图片,其中702个人的图片用于训练,另外702个人的图片用于测试。
CUHK03:该数据采自6个摄像头,包含1,467个行人的14,097张图片。CUHK03包含两种标注形式,人为标注(labeled)和自动检测标注(detected)。CUHK03存在两种测试协议,我们采用新版的测试协议。该测试协议类似于Market1501的测试方式,选取767个行人的图片作为训练集,另外700个行人的图片作为测试集。这三个数据集简介如表1所示。
表1
评价指标:平均准确率(mAP)和累积匹配指标(CMC)。两个指标都是0到1之间的数字,数值越大代表行人重识别准确度越高。这里CMC指标我们只展示top-1准确率。表2、表3和表4中展示了以ResNet50、ResNet161为基础网络,将本发明方法应用于这两个基础网络,在Market1501、DukeMTMC-reID和CUHK03(labeled)数据集上取得的实验结果。
表2
模型 | 平均准确度(%) | Top-1准确度(%) |
ResNet50 | 68.8 | 86.5 |
ResNet50+本发明方法 | 71.8(+3.0) | 87.9(+1.4) |
DenseNet161 | 74.3 | 89.5 |
DenseNet161+本发明方法 | 78.0(+3.7) | 91.8(+2.3) |
表3
模型 | 平均准确度(%) | Top-1准确度(%) |
ResNet50 | 60.0 | 78.8 |
ResNet50+本发明方法 | 61.6(+1.6) | 79.3(+0.5) |
DenseNet161 | 64.2 | 82.0 |
DenseNet161+本发明方法 | 68.0(+3.8) | 84.6(+2.6) |
表4
可以看到,本发明方法能够在不改变模型结构的条件下,将平均准确度和Top-1准确度平均分别提升3.0%和2.5%以上,从而验证了本发明技术的有效性。小括号中以“+”开头的数值代表应用了本发明方法之后带来的准确度提升程度。
表5
表5展示了将本发明的方法(SIF)应用于MGN网络取得的行人重识别结果。MGN(published)表示MGN原始论文中的结果,因为该论文没有公开代码,我们从github上找到了其他研究人员重现的代码,该代码的结果用MGN(reproduced)表示。通过在数据集Market1501、DukeMTMC-reID和CUHK03上和已有方法的结果比较,可以看到,通过在MGN(reproduced)上叠加本发明的方法,在三个数据集上取得了领先的行人重识别准确度。
以上所述的实施例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于自激励判别性特征学习的行人重识别方法,其特征在于,包括以下步骤:
(1)选取一个已有的行人重识别网络作为原始网络,在该原始网络上添加一个用于负面特征提取的负分支;
(2)在训练阶段,原始网络产生分类损失函数,原始网络和负分支之间产生对抗损失函数Ladv和互斥响应项,将分类损失函数、对抗损失函数和互斥响应项一起构成目标函数,并利用随机梯度下降方法对整个网络进行优化,直到目标函数收敛;原始网络和负分支之间产生对抗损失函数的过程为:
(2-1)利用原始网络的预测分布po和真实标签y来构造负分支的预测分布pn的残差其中,1-y表示将向量y中每个位置的分量yi改为1-yi,而表示两个向量之间对应位置相乘得到的向量,表示线性变换,将向量的分量之和归一化为1;
其中,Ladv为对抗损失函数,LCE表示交叉熵;
所述互斥响应项公式为:
其中,Fo和Fn分别表示原始网络和负分支对应位置的卷积模块输出的特征图,<·,·>表示张量之间的内积,‖·‖2表示Frobenius范数;
(3)在测试阶段,移除负分支,只保留原始网络在分类器之前的部分,作为训练好的网络模型,并输入行人图片进行抽取特征向量测试;
(4)在行人检索阶段,利用训练好的网络模型抽取行人图片库中每张图片的特征向量,对于待查询行人图片,将待查询行人图片的特征向量和图片库中每张图片特征向量进行相似度排序,选择排序最靠前的图片的身份作为最终识别结果。
2.根据权利要求1所述的基于自激励判别性特征学习的行人重识别方法,其特征在于,步骤(1)中,所述的负分支从原始网络的其中一个底层卷积模块之后引出,结尾连接和原始网络一样的全连降维层和分类层。
3.根据权利要求1所述的基于自激励判别性特征学习的行人重识别方法,其特征在于,步骤(2)中,原始网络产生的分类损失函数为预测分布po和真实标签y之间的交叉熵损失,计算公式为:
Lid=LCE(y,po)
其中,LCE表示交叉熵。
4.根据权利要求1所述的基于自激励判别性特征学习的行人重识别方法,其特征在于,对于不能保证卷积模块输出非负的网络结构,在计算R之前先在特征图上应用ReLU激活函数,ReLU(·)=max(·,0),保证输出的特征值的非负性。
5.根据权利要求1所述的基于自激励判别性特征学习的行人重识别方法,其特征在于,步骤(2)中,所述目标函数的公式为:
L(x,y)=Lid+α1Ladv+α2R
其中,Lid为原始网络产生分类损失函数,Ladv为原始网络和负分支之间产生对抗损失函数,R为互斥响应项,α1和α2分别为两个超参数,用来平衡不同损失之间的权重。
6.根据权利要求1所述的基于自激励判别性特征学习的行人重识别方法,其特征在于,步骤(4)中,所述的相似度排序具体为:计算待查询行人图片的特征向量和图片库中每张图片的特征向量之间的欧氏距离,依据欧式距离进行排序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910348620.7A CN110163117B (zh) | 2019-04-28 | 2019-04-28 | 一种基于自激励判别性特征学习的行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910348620.7A CN110163117B (zh) | 2019-04-28 | 2019-04-28 | 一种基于自激励判别性特征学习的行人重识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110163117A CN110163117A (zh) | 2019-08-23 |
CN110163117B true CN110163117B (zh) | 2021-03-05 |
Family
ID=67640231
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910348620.7A Active CN110163117B (zh) | 2019-04-28 | 2019-04-28 | 一种基于自激励判别性特征学习的行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110163117B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110751027B (zh) * | 2019-09-09 | 2022-09-20 | 华中科技大学 | 一种基于深度多示例学习的行人重识别方法 |
CN111160217B (zh) * | 2019-12-25 | 2023-06-23 | 中山大学 | 一种行人重识别系统对抗样本生成方法及系统 |
CN112465017A (zh) * | 2020-11-26 | 2021-03-09 | 平安科技(深圳)有限公司 | 分类模型训练方法、装置、终端及存储介质 |
CN113077451B (zh) * | 2021-04-13 | 2023-04-18 | 中山大学 | 基于无监督学习的单张图片本征图像分解方法、系统及介质 |
CN113326731B (zh) * | 2021-04-22 | 2024-04-19 | 南京大学 | 一种基于动量网络指导的跨域行人重识别方法 |
CN113191461B (zh) * | 2021-06-29 | 2021-09-17 | 苏州浪潮智能科技有限公司 | 一种图片识别方法、装置、设备及可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109063649A (zh) * | 2018-08-03 | 2018-12-21 | 中国矿业大学 | 基于孪生行人对齐残差网络的行人重识别方法 |
CN109359559A (zh) * | 2018-09-27 | 2019-02-19 | 天津师范大学 | 一种基于动态遮挡样本的行人再识别方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10566962B2 (en) * | 2017-10-02 | 2020-02-18 | Cirrus Logic, Inc. | Pulse-width modulation |
CN108256439A (zh) * | 2017-12-26 | 2018-07-06 | 北京大学 | 一种基于循环生成式对抗网络的行人图像生成方法及系统 |
CN108959522B (zh) * | 2018-04-26 | 2022-06-17 | 浙江工业大学 | 基于半监督对抗生成网络的迁移检索方法 |
-
2019
- 2019-04-28 CN CN201910348620.7A patent/CN110163117B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109063649A (zh) * | 2018-08-03 | 2018-12-21 | 中国矿业大学 | 基于孪生行人对齐残差网络的行人重识别方法 |
CN109359559A (zh) * | 2018-09-27 | 2019-02-19 | 天津师范大学 | 一种基于动态遮挡样本的行人再识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110163117A (zh) | 2019-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110163117B (zh) | 一种基于自激励判别性特征学习的行人重识别方法 | |
Ye et al. | PurifyNet: A robust person re-identification model with noisy labels | |
Zhao et al. | Saliency detection by multi-context deep learning | |
CN110414432B (zh) | 对象识别模型的训练方法、对象识别方法及相应的装置 | |
CN111709311B (zh) | 一种基于多尺度卷积特征融合的行人重识别方法 | |
Qiao et al. | Mango: A mask attention guided one-stage scene text spotter | |
CN110532920B (zh) | 基于FaceNet方法的小数量数据集人脸识别方法 | |
Vu et al. | Context-aware CNNs for person head detection | |
Esmaeili et al. | Fast-at: Fast automatic thumbnail generation using deep neural networks | |
CN110598543B (zh) | 基于属性挖掘和推理的模型训练方法及行人再识别方法 | |
Khan et al. | Deep-ReID: Deep features and autoencoder assisted image patching strategy for person re-identification in smart cities surveillance | |
CN104463250A (zh) | 一种基于达芬奇技术的手语识别翻译方法 | |
Huang et al. | Joint cross-modal and unimodal features for RGB-D salient object detection | |
CN110443174B (zh) | 一种基于解耦自适应判别性特征学习的行人重识别方法 | |
CN111898736A (zh) | 基于属性感知的高效行人重识别方法 | |
Kobyshev et al. | Matching features correctly through semantic understanding | |
CN116110089A (zh) | 一种基于深度自适应度量学习的面部表情识别方法 | |
Sajid et al. | Facial asymmetry-based feature extraction for different applications: a review complemented by new advances | |
CN117333908A (zh) | 基于姿态特征对齐的跨模态行人重识别方法 | |
Zhao et al. | Learning saliency features for face detection and recognition using multi-task network | |
Afkham et al. | Joint visual vocabulary for animal classification | |
CN108960005A (zh) | 一种智能视觉物联网中对象视觉标签的建立及显示方法、系统 | |
Liu et al. | Decontaminate feature for tracking: adaptive tracking via evolutionary feature subset | |
Yang et al. | Facial expression recognition based on multi-dataset neural network | |
CN113158870A (zh) | 2d多人姿态估计网络的对抗式训练方法、系统及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |