CN115965997A - 一种迭代非对称互学习哈希行人再识别方法和系统 - Google Patents
一种迭代非对称互学习哈希行人再识别方法和系统 Download PDFInfo
- Publication number
- CN115965997A CN115965997A CN202310070455.XA CN202310070455A CN115965997A CN 115965997 A CN115965997 A CN 115965997A CN 202310070455 A CN202310070455 A CN 202310070455A CN 115965997 A CN115965997 A CN 115965997A
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- hash
- model
- iterative
- student model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Image Analysis (AREA)
Abstract
本申请提供一种迭代非对称互学习哈希行人再识别方法和系统,方法包括以下步骤:对于行人再识别数据集,将训练集中的行人图像进行数据预处理;将预处理后的行人图像同时输入到教师模型与学生模型中,同时根据教师模型的特征图计算激活图并转化为显著区域分数;将得到的显著区域分数输入学生模型中,并将自蒸馏量化损失最小化,优化目标函数;计算学生模型与教师模型的预测差异,进行显著性引导的迭代非对称互学习训练;将测试集中的行人图像送入学生模型得到测试集样本的哈希编码,结合候选集的哈希编码,计算汉明距离,输出排序结果。本申请对于真实场景中的行人匹配效率可以起到显著的提升效果,适合于行人再识别实时匹配的应用场景。
Description
技术领域
本申请涉及计算机视觉领域,尤其是涉及一种显著性引导的迭代非对称互学习哈希行人再识别方法和系统。
背景技术
目前的行人再识别技术大多基于实值特征进行特征匹配,旨在提升公开数据集上的匹配精度,而实值特征基于欧氏距离进行度量相当耗时,同时现有的行人再识别方法大多依靠高维的特征取得理想的匹配精度,然而这也进一步使得匹配阶段的耗时更为严重,尤其是当数据集规模逐步变大时,耗时将会出现指数级别的增长,因此现有的实值方法忽略了实际场景中所面临的实时检索效率问题。同时高维实值特征带来的另一个问题是存储消耗,海量的高维度特征将会造成严重的内存消耗,这在现实场景中也是难以接受的。
相比之下,哈希特征由于其为二值化的编码结果,在匹配效率以及存储空间上展现出巨大优势,近年来被逐步应用于行人再识别领域以实现快速图像检索。然而虽然哈希编码在匹配效率以及存储方面存在优势,由于哈希编码本身的二值化特点,其表征能力较弱,而行人图像相比于常规的图像分类任务,其特征所需要包含的信息需要更加丰富且细粒度,因此粗暴地对高维浮点数实值特征进行二值化无法满足该任务的性能需求。因此现有的深度哈希方法与实值方法仍然存在较大的性能鸿沟,使得这些方法仍然与实际场景中的落地应用存在较大差距。
基于此,本申请提出了一种显著性引导的迭代非对称互学习哈希行人再识别方法,可以有效缩小实值特征和哈希特征之间的性能差距。
发明内容
为了提升现有行人再识别方法的匹配效率与性能,使得现有方法可以满足真实场景中所需的实时性匹配要求,本申请提供一种基于相机风格域适应的迭代非对称互学习哈希行人再识别方法和系统。
本申请的目的可以通过以下技术方案来实现:
一种基于相机风格域适应的迭代非对称互学习哈希行人再识别方法,包括以下步骤:
对于行人再识别数据集,将训练集中的行人图像进行数据预处理;
将预处理后的行人图像同时输入到教师模型与学生模型中,同时根据教师模型的特征图计算激活图并转化为显著区域分数;
将得到的显著区域分数输入学生模型中,并将自蒸馏量化损失最小化,优化目标函数;
计算学生模型与教师模型的预测差异,进行显著性引导的迭代非对称互学习训练;
将测试集中的行人图像送入学生模型得到测试集样本的哈希编码,结合候选集的哈希编码,计算汉明距离,输出排序结果。
进一步地,所述预处理包括:将训练集中的行人图像读取到内存中,首先进行归一化处理,即将其像素值转化为均值为0,方差为1;再使用随机擦除、边界扩充操作进行数据增强;最后将增强后的数据转化为Pytorch深度学习框架支持的数据格式。
进一步地,所述显著性引导的迭代非对称互学习训练,包括:
学生模型使用教师模型的多个视角产生的输出进行训练,包含特征图、实值特征和哈希编码;
最小化学生模型和教师模型的成对激活相似度差异,其形式如下所示:
其中Fs,Ft分别为教师模型和学生模型的特征图,F为弗罗贝尼乌斯范数;
所述教师模型和学生模型的实值特征从三个角度进行优化:分类分数、成对相似度、余弦相似度。
进一步地,所述将得到的显著区域分数输入学生模型中,包括:
根据所述显著区域分数进行显著性引导的自蒸馏过程,使得学生模型依据图像中存在的判别区域生成紧实值特征编码。
进一步地,所述教师模型包括显著性生成模块、GAP层和分类模块,所述显著性引导的自蒸馏过程,包括:
来自教师模型两个分支的特征图首先相加并平均,随后输入显著性生成模块用于生成激活图,所述激活图通过softmax函数转换成概率图,其中值低于阈值的位置被设置为0,随后带权图进行大小调整并与学生模型的特征图进行矩阵相乘;
所述GAP层将所述矩阵相乘的结果转换为向量,所述分类模块的分类结果被用于生成伪标签对另一GAP分支的训练进行显式指导。
进一步地,所述教师模型包括多样化划分模块和划分编码模块;
所述多样化划分模块包含全局分支和局部分支;所述全局分支包括两个分支,即一个批次归一化层和分类层;所述局部分支包括两个分支,分别对初始的特征图从水平和竖直方向进行三等分和两等分划分,5个子特征链接起来作为最终局部分支的输出;所述全局分支和局部分支的特征进行链接输入划分编码模块,将实值特征划分为多份并将划分后的特征分别映射为一维向量,将所述一维向量链接为最后的输出。
进一步地,所述自蒸馏量化损失为相对熵损失和贪心损失之和;
所述相对熵损失Lkl(m1,m2)计算方式如下:
其中m1,m2分别代表实值特征和哈希特征的预测结果,Nd为批次大小,ci代表第i个类别;
所述贪心损失Lgr计算方式如下:
其中p表示p范式,H/B分别为实值特征与哈希特征。
基于上述目的,本申请还提出了一种迭代非对称互学习哈希行人再识别系统,包括:
预处理模块,对于行人再识别数据集,将训练集中的行人图像进行数据预处理;
显著分数计算模块,将预处理后的行人图像同时输入到教师模型与学生模型中,同时根据教师模型的特征图计算激活图并转化为显著区域分数;
自蒸馏模块,将得到的显著区域分数输入学生模型中,并将自蒸馏量化损失最小化,优化目标函数;
非对称学习模块,计算学生模型与教师模型的预测差异,进行显著性引导的迭代非对称互学习训练;
行人识别模块,将测试集中的行人图像送入学生模型得到测试集样本的哈希编码,结合候选集的哈希编码,计算汉明距离,输出排序结果。
与现有技术相比,本申请具有以下优点:
一、本申请无需使用额外的特征量化过程,可以直接生成最终的哈希编码,且该方法可以在提升效率的同时达到和实值方法相同的性能。
二、本申请具有较强的结构灵活性,可与现有的流行方法进行结合,具有较强的模型适用性。
三、本申请提出了显著性引导的迭代非对称互学习训练与自蒸馏量化损失最小化,可分别从模型内与模型间两个角度对哈希编码进行优化,使得方法可以产生紧致的哈希编码,降低编码间存在的信息冗余。
四、本申请提供一种哈希快速行人再识别系统,可以大幅提升现有方法的匹配效率,在现实场景下更具有应用价值。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本申请公开的一些实施方式,而不应将其视为是对本申请范围的限制。
图1为本申请的迭代非对称互学习哈希行人再识别方法的流程图。
图2为本申请迭代非对称互学习特征图对应激活图示意图。
图3为本申请生成的多样化划分模块示意图。
图4为本申请生成的划分编码模块示意图。
图5示出根据本申请实施例的迭代非对称互学习哈希行人再识别系统的构成图。
图6示出了本申请一实施例所提供的一种电子设备的结构示意图。
图7示出了本申请一实施例所提供的一种存储介质的示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合实施例,具体如图1所示方法流程图,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,但并不限定本申请。
本申请的迭代非对称互学习哈希行人再识别方法,如图1所示,包括以下步骤:
步骤一:数据预处理。将行人再识别数据集中的训练集读取到内存中,进行预处理。具体实施如下:
利用Python编程语言将训练集中的行人图像读取到内存中,首先进行归一化处理,即将其像素值转化为均值为0,方差为1。再使用随机擦除,边界扩充等操作进行数据增强。最后将转化为Pytorch深度学习框架支持的数据格式。
步骤二:将行人图像分别输入教师模型(或教师网络)与学生模型(或学生网络)中,并根据教师模型的显著区域为学生模型提供辅助信息,进行迭代非对称互学习训练,以缩小模型间存在的信息冗余。
具体实施如下:
一方面,由于快速特征提取的约束,学生模型的结果需要轻量化,但这也显著了单个模型的性能进一步提升。另一方面,由于两个模型学习能力的差异,直接结合互学习训练无法充分利用两个模型的互补效应,甚至可能会损害最终的性能。因此为了解决这一问题,设计了一种迭代非对称互学习训练策略。首先,为了充分利用教师模型强大的学习能力,学生模型使用教师模型的多个视角产生的输出进行训练,包含特征图,实值特征和哈希编码。第一个视角主要专注于缩小教师模型和学生模型的激活模式上的差异。特别地,直接对二者的特征图通过欧氏距离的方式进行粗暴约束可能会带来严重的模型偏差,导致学生模型对于教师模型过拟合。因此本申请选择最小化二者的成对激活相似度差异,其形式如下所示:
其中Fs,Ft分别为教师模型和学生模型的特征图,F为弗罗贝尼乌斯范数。除了特征图的优化外,实值特征的优化也至关重要,因为它可以直接影响到模型最后分类层的预测输出。为了充分缩小两个模型实值特征层面的差异,实值特征主要考虑从三个角度进行充分优化:分类分数,成对相似度,余弦相似度。而对于两个模型实值特征之间的余弦相似度计算,其形式如下所示:
其中η为权重参数。最后成对相似度计算如下所示:
Lmin=Lkl+Lcos+Lsim
Lkl为kl散度损失,与实值特征类似的操作被用于哈希编码,因此IAMT训练过程中学生模型的目标函数如下所示:
Lmult=Lmin(Hs,Ht)+Lmin(Bs,Bt)+Lmap(Fs,Ft)
另外为了充分利用轻量化学生模型泛化能力较强特点,Bs,Bt分别为学生和教师模型的哈希编码,学生模型的分类分数被作为暗知识对教师模型施加正则化,因此在提出的IAMT训练过程中教师模型的目标函数可总结为如下形式:
步骤三:根据步骤二中的显著区域图,进行显著性引导的自蒸馏过程,使得学生模型可依据图像中存在的判别区域生成紧致的实值特征编码。
具体实施如下:
大多数现有的哈希方法忽略了编码间存在的信息冗余并基于全图进行均等的特征提取,因此大量与最终检索无关的视觉信息会被编码到哈希特征中,造成严重的冗余。由于哈希编码较弱的信息容纳能力,这样的特征提取过程将会降低最终模型的性能。为解决这一问题,本申请设计了显著性引导的自蒸馏分支,其中来自教师模型(教师模型即为ResNet-50与多样化划分模块的链接)两个分支的特征图首先相加并平均,随后输入显著性生成模块用于生成激活图,而后该结果通过softmax函数转换成概率图,其中值低于阈值的位置被设置为0以过滤掉背景等判别无关区域的影响,随后带权图(以权重作为组成内容的特征图矩阵)进行大小调整并与学生模型的特征图进行矩阵相乘。该过程可表示为如下形式:
Fsal=Re(In(LCAM))⊙F
其中F∈RC×H×W为通道数C、高H、宽W的原始特征图,⊙代表矩阵点乘操作, 代表激活图,HI,WI为输入图像的高和宽。In(·)和Re(·)为插值和调整形状操作,Fsal为转换后的结果。随后紧接GAP层将该结果转换为向量,最后分类模块的分类结果被用于生成伪标签对另一GAP分支的训练进行显式指导,该分支的结果也被用于生成最终的哈希编码,该损失如下所示:
Lsal=Lkl(Igap,Isal)
其中Igap,Isal分别为GAP和显著性分支的预测结果。通过这种方式,GAP分支可以缓解无关因素带来的负面影响,使得网络可以根据显著区域产生哈希编码,而在预测阶段,学生模型无需教师模型的激活结果,因此该操作也不会增加额外的时间消耗。
步骤四:为进一步缩小量化过程中存在的信息损失,将前者得到的实值特征进行自蒸馏量化损失最小化,以一种柔化的约束策略以最大化保留实值特征的判别力,同时缩小实值特征与哈希编码的差异。
具体实施如下:
(1)首先在教师模型中设计了一种多样化划分模块以增加特征的多样性,并缓解不对齐与遮挡带来的影响,如图3所示。多样化划分模块包含全局分支和局部分支。全局分支中两种池化策略被用来获取多样化全局表征。具体而言,骨干网络得到的2048×24×8的张量被转换为2048维的向量,随后BNNeck被用于两个分支,包含一个批次归一化层和分类层。两个分支的结果分别表示为fgap/fgmp∈R2048,fgap和fgmp分别为全局均值池化与全局最大池化分支的特征向量。对于局部分支,同样包含两个分支,分别对初始的特征图从水平和竖直方向进行三等分和两等分划分,以学习行人不同区域的子特征。最后5个子特征链接起来作为最终局部分支的输出,记为fp。随后全局分支和局部分支的特征进行链接输入划分编码模块,如图4所示,将实值特征划分为q份并将这些划分后的特征分别映射为一维的向量,最后将这些一维向量链接为最后的输出,使得哈希编码保持相互独立。
(2)现有的方法大多采用L2正则化以缩小实值特征与哈希编码间的差异。然而,由于信息容纳能力的差异,如此显式的强硬约束将会严重损害实值特征的表现。因此本申请选择最小化二者预测分布上的差异,具体而言采用相对熵损失进行计算:
其中m1,m2分别代表实值特征和哈希特征的预测结果,Nd为批次大小,ci代表第i个类别。进一步,贪心哈希层被用于直接生成最终的哈希编码。可以预见测试阶段存在的错误,并将哈希编码的梯度直接进行回传,使得哈希编码和实值特征可以以相似的步进进行优化,从而缩小二者的差距。
其中p表示p范式,Lgr为贪心损失,H/B分别为实值特征与哈希特征,因此自蒸馏量化损失可以表示为:
Lqua=Lgl+Lkl
(3)使用Rank-1和平均均值精度(mAP)指标来评估本申请的性能。在行人再识别数据集上,与目前最先进的方法对比结果如下表所示:
方法 | Rank-1 | mAP |
ABC | 81.4 | 64.7 |
CPDH | 89.5 | 77.1 |
CtF | 93.7 | 85.4 |
DLBC | 94.6 | 87.4 |
本申请 | 95.4 | 88.8 |
本申请具体实现步骤为:
图1是本申请的实现流程图,具体实施方式如下:
1.对于行人再识别数据集,将训练集中行人图像实施数据预处理。
2.将预处理后的行人图像同时输入到教师模型与学生模型中,同时根据教师模型的特征图计算激活图并转化为显著区域分数(显著区域分数为激活图经过Softmax函数得到)。
3.将得到的显著区域分数输入学生模型中分别进行自蒸馏量化损失最小化,优化目标函数,降低模型内的信息冗余。
4.将学生模型得到的预测结果计算与教师模型的预测差异,进行显著性引导的迭代非对称互学习训练,降低模型间的信息冗余。
5.将测试集中的行人图像送入学生模型得到测试集样本的哈希编码,根据候选集的哈希编码,计算汉明距离,输出排序结果。
图2为本申请提出的显著性引导的迭代非对称互学习特征图对应激活图可视化,其中(i)为原图,(ii)为常规互学习训练激活图,(iii)为本申请得到的训练激活图。可见,本申请方法可以产生紧致的哈希编码,降低编码间存在的信息冗余。
申请实施例提供了一种迭代非对称互学习哈希行人再识别系统,该系统用于执行上述实施例所述的迭代非对称互学习哈希行人再识别方法,如图5所示,该系统包括:
预处理模块501,对于行人再识别数据集,将训练集中的行人图像进行数据预处理;
显著分数计算模块502,将预处理后的行人图像同时输入到教师模型与学生模型中,同时根据教师模型的特征图计算激活图并转化为显著区域分数;
自蒸馏模块503,将得到的显著区域分数输入学生模型中,并将自蒸馏量化损失最小化,优化目标函数;
非对称学习模块504,计算学生模型与教师模型的预测差异,进行显著性引导的迭代非对称互学习训练;
行人识别模块505,将测试集中的行人图像送入学生模型得到测试集样本的哈希编码,结合候选集的哈希编码,计算汉明距离,输出排序结果。
本申请的上述实施例提供的迭代非对称互学习哈希行人再识别系统与本申请实施例提供的迭代非对称互学习哈希行人再识别方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
本申请实施方式还提供一种与前述实施方式所提供的迭代非对称互学习哈希行人再识别方法对应的电子设备,以执行上迭代非对称互学习哈希行人再识别方法。本申请实施例不做限定。
请参考图6,其示出了本申请的一些实施方式所提供的一种电子设备的示意图。如图6所示,所述电子设备20包括:处理器200,存储器201,总线202和通信接口203,所述处理器200、通信接口203和存储器201通过总线202连接;所述存储器201中存储有可在所述处理器200上运行的计算机程序,所述处理器200运行所述计算机程序时执行本申请前述任一实施方式所提供的迭代非对称互学习哈希行人再识别方法。
其中,存储器201可能包含高速随机存取存储器(RAM:Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口203(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。
总线202可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中,存储器201用于存储程序,所述处理器200在接收到执行指令后,执行所述程序,前述本申请实施例任一实施方式揭示的所述迭代非对称互学习哈希行人再识别方法可以应用于处理器200中,或者由处理器200实现。
处理器200可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器200中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器200可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器201,处理器200读取存储器201中的信息,结合其硬件完成上述方法的步骤。
本申请实施例提供的电子设备与本申请实施例提供的迭代非对称互学习哈希行人再识别方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。
本申请实施方式还提供一种与前述实施方式所提供的迭代非对称互学习哈希行人再识别方法对应的计算机可读存储介质,请参考图7,其示出的计算机可读存储介质为光盘30,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会执行前述任意实施方式所提供的迭代非对称互学习哈希行人再识别方法。
需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的迭代非对称互学习哈希行人再识别方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
需要说明的是:
在此提供的方法和显示不与任何特定计算机、虚拟系统或者其它设备有固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本申请并帮助理解各个发明方面中的一个或多个,在上面对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本申请的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的虚拟机的创建系统中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者系统程序(例如,计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干系统的单元权利要求中,这些系统中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种迭代非对称互学习哈希行人再识别方法,其特征在于,包括以下步骤:
对于行人再识别数据集,将训练集中的行人图像进行数据预处理;
将预处理后的行人图像同时输入到教师模型与学生模型中,同时根据教师模型的特征图计算激活图并转化为显著区域分数;
将得到的显著区域分数输入学生模型中,并将自蒸馏量化损失最小化,优化目标函数;
计算学生模型与教师模型的预测差异,进行显著性引导的迭代非对称互学习训练;
将测试集中的行人图像送入学生模型得到测试集样本的哈希编码,结合候选集的哈希编码,计算汉明距离,输出排序结果。
2.根据权利要求1所述的一种协作多特征聚类无监督行人再识别方法,其特征在于,
所述预处理包括:将训练集中的行人图像读取到内存中,首先进行归一化处理,即将其像素值转化为均值为0,方差为1;再使用随机擦除、边界扩充操作进行数据增强;最后将增强后的数据转化为Pytorch深度学习框架支持的数据格式。
4.根据权利要求1所述的一种迭代非对称互学习哈希行人再识别方法,其特征在于,
所述将得到的显著区域分数输入学生模型中,包括:
根据所述显著区域分数进行显著性引导的自蒸馏过程,使得学生模型依据图像中存在的判别区域生成紧实值特征编码。
5.根据权利要求4所述的一种迭代非对称互学习哈希行人再识别方法,其特征在于,
所述教师模型包括显著性生成模块、GAP层和分类模块,所述显著性引导的自蒸馏过程,包括:
来自教师模型两个分支的特征图首先相加并平均,随后输入显著性生成模块用于生成激活图,所述激活图通过softmax函数转换成概率图,其中值低于阈值的位置被设置为0,随后带权图进行大小调整并与学生模型的特征图进行矩阵相乘;
所述GAP层将所述矩阵相乘的结果转换为向量,所述分类模块的分类结果被用于生成伪标签对另一GAP分支的训练进行显式指导。
6.根据权利要求1所述的一种迭代非对称互学习哈希行人再识别方法,其特征在于,
所述教师模型包括多样化划分模块和划分编码模块;
所述多样化划分模块包含全局分支和局部分支;所述全局分支包括两个分支,即一个批次归一化层和分类层;所述局部分支包括两个分支,分别对初始的特征图从水平和竖直方向进行三等分和两等分划分,5个子特征链接起来作为最终局部分支的输出;所述全局分支和局部分支的特征进行链接输入划分编码模块,将实值特征划分为多份并将划分后的特征分别映射为一维向量,将所述一维向量链接为最后的输出。
8.一种迭代非对称互学习哈希行人再识别系统,其特征在于,包括:
预处理模块,对于行人再识别数据集,将训练集中的行人图像进行数据预处理;
显著分数计算模块,将预处理后的行人图像同时输入到教师模型与学生模型中,同时根据教师模型的特征图计算激活图并转化为显著区域分数;
自蒸馏模块,将得到的显著区域分数输入学生模型中,并将自蒸馏量化损失最小化,优化目标函数;
非对称学习模块,计算学生模型与教师模型的预测差异,进行显著性引导的迭代非对称互学习训练;
行人识别模块,将测试集中的行人图像送入学生模型得到测试集样本的哈希编码,结合候选集的哈希编码,计算汉明距离,输出排序结果。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序以实现如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行实现如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310070455.XA CN115965997A (zh) | 2023-01-20 | 2023-01-20 | 一种迭代非对称互学习哈希行人再识别方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310070455.XA CN115965997A (zh) | 2023-01-20 | 2023-01-20 | 一种迭代非对称互学习哈希行人再识别方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115965997A true CN115965997A (zh) | 2023-04-14 |
Family
ID=87361927
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310070455.XA Pending CN115965997A (zh) | 2023-01-20 | 2023-01-20 | 一种迭代非对称互学习哈希行人再识别方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115965997A (zh) |
-
2023
- 2023-01-20 CN CN202310070455.XA patent/CN115965997A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113222041B (zh) | 图结构表征的高阶关联发现细粒度图像识别方法及装置 | |
CN110363049B (zh) | 图形元素检测识别和类别确定的方法及装置 | |
US11551027B2 (en) | Object detection based on a feature map of a convolutional neural network | |
CN115937655B (zh) | 多阶特征交互的目标检测模型及其构建方法、装置及应用 | |
CN115512169B (zh) | 基于梯度和区域亲和力优化的弱监督语义分割方法及装置 | |
CN116311310A (zh) | 一种结合语义分割和序列预测的通用表格识别方法和装置 | |
CN114596566A (zh) | 文本识别方法及相关装置 | |
CN114581710A (zh) | 图像识别方法、装置、设备、可读存储介质及程序产品 | |
CN112052819A (zh) | 一种行人重识别方法、装置、设备及存储介质 | |
CN116092122A (zh) | 一种协作多特征聚类无监督行人再识别方法和系统 | |
Bacea et al. | Single stage architecture for improved accuracy real-time object detection on mobile devices | |
CN115527229A (zh) | 一种文档图像关键信息提取方法和系统 | |
Huang et al. | Attention‐Enhanced One‐Stage Algorithm for Traffic Sign Detection and Recognition | |
CN116740364B (zh) | 一种基于参考机制的图像语义分割方法 | |
CN113723352A (zh) | 一种文本检测方法、系统、存储介质及电子设备 | |
CN112597997A (zh) | 感兴趣区域确定方法、图像内容识别方法及装置 | |
CN112395407A (zh) | 企业实体关系的抽取方法、装置及存储介质 | |
CN116612416A (zh) | 一种指代视频目标分割方法、装置、设备及可读存储介质 | |
CN115965997A (zh) | 一种迭代非对称互学习哈希行人再识别方法和系统 | |
CN110852102B (zh) | 一种中文的词性标注方法、装置、存储介质及电子设备 | |
CN114155524A (zh) | 单阶段3d点云目标检测方法及装置、计算机设备、介质 | |
CN111967426A (zh) | 车辆重识别方法、装置、电子设备及介质 | |
CN116821699B (zh) | 一种感知模型训练方法、装置及电子设备和存储介质 | |
CN110851634B (zh) | 图片检索的方法、装置及电子设备 | |
CN114528977B (zh) | 一种等变网络训练方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |