CN114333062B - 基于异构双网络和特征一致性的行人重识别模型训练方法 - Google Patents

基于异构双网络和特征一致性的行人重识别模型训练方法 Download PDF

Info

Publication number
CN114333062B
CN114333062B CN202111674399.8A CN202111674399A CN114333062B CN 114333062 B CN114333062 B CN 114333062B CN 202111674399 A CN202111674399 A CN 202111674399A CN 114333062 B CN114333062 B CN 114333062B
Authority
CN
China
Prior art keywords
network
pedestrian
model
loss function
branch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111674399.8A
Other languages
English (en)
Other versions
CN114333062A (zh
Inventor
孔军
周花
蒋敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN202111674399.8A priority Critical patent/CN114333062B/zh
Publication of CN114333062A publication Critical patent/CN114333062A/zh
Application granted granted Critical
Publication of CN114333062B publication Critical patent/CN114333062B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种基于异构双网络和特征一致性的域自适应行人重识别模型训练方法、设备、装置及计算机存储介质和行人重识别方法,本发明设计了一个异构双网络框架,它包含两个非对称分支,其中一个使用感受野有限的卷积来获取局部信息,另一个使用Transformer模块来捕获长程依赖,利用异构双网络的互学习来提高网络间的异质性和互补性,从而提高对噪声伪标签的鲁棒性;为了减少网络在优化过程中受噪声伪标签的干扰,提出了特征一致性损失,其不需要依赖任何标签信息,更关注样本在特征空间的一致性;为了增强网络的语义信息,本发明设计了一个自适应通道互感知模块,对行人的显著性区域进行特征提取,从而提高了行人重识别的精度与效率。

Description

基于异构双网络和特征一致性的行人重识别模型训练方法
技术领域
本发明涉及机器视觉技术领域,尤其是指一种基于异构双网络和特征一致性的域自适应行人重识别模型训练方法、设备、装置及计算机存储介质和行人重识别方法。
背景技术
行人重识别在机器视觉领域是一个非常重要的研究课题,传统的行人重识别主要是利用大量有标签的图像数据在特定场景下进行训练。虽然有监督学习方法已经取得很好的效果,但是获取有标记数据需要耗费大量的人力和物力。此外,在实际应用中,行人在不同场景下外观、背景和光照条件都是不同的,从而导致在一个数据集上训练的模型不能够很好的直接应用到另一个数据集上,因此如何将行人重识别模型泛化到其他域是一个研究难点。
无监督域自适应旨在将从有标记的源域数据集学习到的知识应用于未标记的目标域数据集上。其中基于聚类生成的伪标签方法被证明是有效的,它利用源域预训练得到的模型,在目标域中进行特征提取和聚类,聚类得到的伪标签作为真实标签进行常规的行人重识别模型的训练。但该方法仍然存在以下问题:(1)由于未知的目标域身份数量和不精确的聚类结果,伪标签中含有大量噪声,模型的训练会严重受到伪标签噪声的干扰,并且在初始伪标签噪声较大的情况下,模型的训练有较大的崩溃风险。(2)由于数据集中测试集与训练集中的身份是不同的,并且在推理过程中,行人重识别任务是通过提取行人的特征进行行人间的匹配,因此如何在特征空间对模型进行优化是至关重要的。然而,传统的无监督域自适应行人重识别任务忽略了样本在特征空间中的一致性。(3)由于图像中含有大量嘈杂的背景,如何提高网络关注行人显著性的语义特征的能力是一个重要问题。
因此,如何提供一种不受噪声干扰,关注特征空间一致性并提升语义特征能力的行人重识别模型训练方法是目前待解决的问题。
发明内容
为此,本发明所要解决的技术问题在于克服现有技术中训练过程严重遭受伪标签噪声干扰的问题。
为解决上述技术问题,本发明提供了一基于异构双网络和特征一致性的域自适应行人重识别模型训练方法、设备、装置及计算机存储介质和行人重识别方法,包括:
预先构建行人重识别异构双网络,所述行人重识别异构双网络包括第一分支网络、第二分支网络和双分支自适应通道互感知模块,所述第二分支网络包括Transformer模块;所述双分支自适应通道互感知模块用于同时捕获所述第一分支网络提取的局部特征和所述第二分支网络中Transformer模块提取的全局特征进行增强并将其拼接;
将无标签目标域图像输入利用有标签的源域数据集预训练后的所述行人重识别异构双网络中;
获取所述第一分支网络的第一时间平均模型和所述第二分支网络的第二时间平均模型;
将所述第一时间平均模型提取的特征与所述第二时间平均模型提取的特征的平均值进行聚类,生成硬伪标签;
利用所述第一时间平均模型与所述第二时间平均模型预测所述无标签目标域图像,生成软伪标签;
构建特征一致性损失函数,以便利用所述第一时间平均模型提取的特征监督所述第二分支网络提取的特征,利用所述第二时间平均模型提取的特征监督所述第一分支网络提取的特征;
利用所述硬伪标签分别训练所述第一分支网络和所述第二分支网络直至分类损失函数和三元组损失函数收敛;
利用所述软伪标签分别作为对方网络真值标签进行相互监督训练直至软分类损失函数、软三元组损失函数和所述特征一致性损失函数收敛;
计算所述三元组损失函数、所述分类损失函数、所述软三元组损失函数、所述软分类损失函数及所述特征一致性损失函数的总损失作为训练目标,更新优化所述行人重识别异构双网络。
优选地,所述Transformer模块采用ResT的第三阶段网络结构。
优选地,所述将无标签目标域图像输入利用有标签的源域数据集预训练后的所述行人重识别异构双网络前包括:
将所述有标签的源域数据集同时输入所述第一分支网络和第二分支网络,所述有标签的源域数据集包括源域图像和真值标签;
将所述第一分支网络提取的局部图像特征和所述第二分支网络提取的全局增强特征分别输入所述双分支自适应通道互感知模块;
所述局部图像特征经过全局最大池化得到最大特征,所述全局增强特征经过全局平均池化得到平均特征;
将所述平均特征和所述最大特征经过全连接操作得到对应概率分布;
利用三元组损失函数和分类损失函数作为训练目标对所述预先构建的行人重识别异构双网络进行优化得到预训练完成的所述行人重识别异构双网络。
优选地,所述获取所述第一分支网络的第一时间平均模型和所述第二分支网络的第二时间平均模型包括:
计算第一分支网络参数的移动平均值得到第一时间平均模型参数;
计算第二分支网络参数的移动平均值得到第二时间平均模型参数。
优选地,所述将所述第一时间平均模型提取的特征与所述第二时间平均模型提取的特征的平均值进行聚类,生成硬伪标签包括:
将所述第一时间平均模型提取的特征与所述第二时间平均模型提取的特征的平均值作为聚类特征;
利用DBSCAN聚类算法将每个所述无标签目标域图像聚成不同的类别,并为其分配硬伪标签。
优选地,所述构建特征一致性损失函数,以便利用所述第一时间平均模型提取的特征监督所述第二分支网络提取的特征,利用所述第二时间平均模型提取的特征监督所述第一分支网络提取的特征包括:
所述特征一致性损失函数为:
Figure 737695DEST_PATH_IMAGE001
Figure 237946DEST_PATH_IMAGE002
其中
Figure 658563DEST_PATH_IMAGE003
表示时间平均模型提取的特征,
Figure 193450DEST_PATH_IMAGE004
表示原网络提取的特征,
Figure 369216DEST_PATH_IMAGE005
为原分支网络参数,
Figure 294447DEST_PATH_IMAGE006
为时间平均模型参数。
本发明还提供了一种行人重识别方法,包括:
利用所述行人重识别模型训练方法训练行人重识别异构双网络;
将待检图像输入训练完成的所述行人重识别异构网络中;
利用所述第一分支网络提取局部特征,得到局部特征图;
利用所述第二分支网络的所述Transformer模块提取全局特征,得到全局特征图;
利用所述双分支自适应通道互感知模块对所述局部特征图和所述全局特征图进行显著性特征增强后拼接并进行通道打乱操作,得到目标行人特征图。
本发明还提供了一种行人重识别模型训练的装置,包括:
输入模块,用于将无标签目标域图像输入利用有标签的源域数据集预训练后的所述行人重识别异构双网络中;
时间平均模型获取模块,用于获取所述第一分支网络的第一时间平均模型和所述第二分支网络的第二时间平均模型;
硬伪标签获取模块,用于将所述第一时间平均模型提取的特征与所述第二时间平均模型提取的特征的平均值进行聚类,生成硬伪标签;
软伪标签获取模块,用于利用所述第一时间平均模型与所述第二时间平均模型预测所述无标签目标域图像,生成软伪标签;
特征空间约束模块,用于构建特征一致性损失函数,以便利用所述第一时间平均模型提取的特征监督所述第二分支网络提取的特征,利用所述第二时间平均模型提取的特征监督所述第一分支网络提取的特征;
硬伪标签训练模块,用于利用所述硬伪标签分别训练所述第一分支网络和所述第二分支网络直至分类损失函数和三元组损失函数收敛;
软伪标签训练模块,用于利用所述软伪标签分别作为对方网络真值标签进行相互监督训练直至软分类损失函数、软三元组损失函数和所述特征一致性损失函数收敛;
总损失计算优化模块,用于计算所述三元组损失函数、所述分类损失函数、所述软三元组损失函数、所述软分类损失函数及所述特征一致性损失函数的总损失作为训练目标,更新优化所述行人重识别异构双网络。
本发明还提供了一种行人重识别模型训练的设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述一种行人重识别模型训练的步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述一种行人重识别模型训练方法的步骤。
本发明的上述技术方案相比现有技术具有以下优点:
本发明所述的行人重识别模型训练方法,包括:预先构建行人重识别异构双网络,所述行人重识别异构双网络包括第一分支网络、第二分支网络和双分支自适应通道互感知模块,所述第二分支网络包括Transformer模块;通过构建非对称的网络结构,增强了双网络间的异质性和互补性,进一步提高模型对噪声伪标签的鲁棒性。所述双分支自适应通道互感知模块用于同时捕获所述第一分支网络提取的局部特征和所述第二分支网络中Transformer模块提取的全局特征进行特征增强并将其拼接,为网络提供了丰富的语义信息。将无标签目标域图像输入利用有标签的源域数据集预训练后的所述行人重识别异构双网络中;获取所述第一分支网络的第一时间平均模型和所述第二分支网络的第二时间平均模型;将所述第一时间平均模型提取的特征与所述第二时间平均模型提取的特征的平均值进行聚类,生成硬伪标签;利用所述第一时间平均模型与所述第二时间平均模型预测所述无标签目标域图像,生成软伪标签;构建特征一致性损失函数,以便利用所述第一时间平均模型提取的特征监督所述第二分支网络提取的特征,利用所述第二时间平均模型提取的特征监督所述第一分支网络提取的特征;特征一致性损失摆脱了对伪标签的依赖,克服了三元组损失受噪声伪标签影响的局限性。利用所述硬伪标签分别训练所述第一分支网络和所述第二分支网络直至分类损失函数和三元组损失函数收敛;利用所述软伪标签分别作为对方网络真值标签进行相互监督训练直至软分类损失函数、软三元组损失函数和特征一致性损失函数收敛;计算三元组损失函数、分类损失函数、软三元组损失函数、软分类损失函数及特征一致性损失函数的总损失作为训练目标,更新优化所述行人重识别异构双网络。本发明通过构建非对称的异构双网络增强网络间的异质性,提高了噪声伪标签的鲁棒性,利用自适应通道互感知模块,对通道关系进行建模,增强了深度网络提取有效通道特征的能力,使网络高度关注显著性的语义信息,而特征一致性模块使网络更加关注样本在特征空间的一致性;其不依赖任何伪标签,在一定程度上减少了网络在优化过程中受噪声伪标签的严重干扰,本发明所提供的训练方法使模型训练有效减少了噪声干扰,使网络更加关注样本在特征空间的一致性并增强了对行人显著性特征的关注,从而使训练得到的模型在进行无监督域自适应行人重识别任务时,精度和效率的进一步提高。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明,其中:
图1是本发明行人重识别模型训练的实现流程图;
图2是本发明的算法模型图;
图3是本发明的异构双网络模块结构图;
图4是本发明的异构双网络可视化效果图;
图5是本发明的自适应通道互感知模块结构图;
图6是本发明实施例提供的一种行人重识别模型训练的装置的结构框图;
图7是本发明行人重识别方法的实现流程图。
具体实施方式
本发明的核心是提供一种基于异构双网络和特征一致性的域自适应行人重识别模型训练方法、设备、装置及计算机存储介质和行人重识别方法,以解决现有技术训练方法中严重遭受伪标签噪声影响的问题。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图 1和图2,图1为本发明所提供的行人重识别模型训练的实现流程图,图2为本发明的算法模型图;具体操作步骤如下:
S101:将无标签目标域图像输入利用有标签源域数据集预训练后的所述行人重识别异构双网络中;
所述行人重识别异构双网络包括第一分支网络、第二分支网络和双分支自适应通道互感知模块,所述第二分支网络包括Transformer模块;所述双分支自适应通道互感知模块用于同时对所述第一分支网络提取的局部特征和所述第二分支网络中Transformer模块提取的全局特征进行特征性增强并将其拼接,所述Transformer模块采用ResT的第三阶段网络结构。
通过构建异构双网络,利用两个非对称的网络分支分别捕获不同的特征信息,增强网络间的异质性,解决了相同结构网络间的耦合问题。与其他非对称网络不同的是,本发明其中一个分支采用传统的卷积神经网络来获取局部感知,另外一个分支通过引入Transformer模块来捕获长程依赖,将两者相结合,在一定程度上缓解了对称双网络间的同质性问题,同时提高了网络对噪声伪标签的鲁棒性,进一步提升了无监督域自适应行人重识别的精度。
所述双分支自适应通道互感知模块,对通道关系进行建模,增强了深度网络提取有效通道特征的能力,使 网络高度关注显著性的语义信息。采用双分支结构,使其同时关注通道间的全局和局部信息,最后引入通道打乱操作,进一步提高跨通道信息间的交互。该模块使得本发明提取的语义信息更加丰富,有效提升了无监督域自适应行人重识别的效率。
所述预训练所述行人重识别异构双网络包括:
将所述有标签的源域数据集同时输入所述第一分支网络和第二分支网络,所述有标签的源域数据集包括源域图像
Figure 315493DEST_PATH_IMAGE007
和真值标签
Figure 439306DEST_PATH_IMAGE008
将所述第一分支网络提取的图像特征
Figure 723657DEST_PATH_IMAGE009
和所述第二分支网络提取的增强特征
Figure 198501DEST_PATH_IMAGE010
分别输入所述双分支自适应通道互感知模块;
所述局部图像特征经过全局最大池化得到最大特征
Figure 291746DEST_PATH_IMAGE011
,所述全局增强特征经过全局平均池化得到最大特征
Figure 473329DEST_PATH_IMAGE012
将所述平均特征和所述最大特征经过全连接操作得到对应概率分布
Figure 725319DEST_PATH_IMAGE013
Figure 687459DEST_PATH_IMAGE014
利用三元组损失函数和分类损失函数作为训练目标对所述预先构建的行人重识别异构双网络进行优化得到预训练完成的所述行人重识别异构双网络。
S102:获取所述第一分支网络的第一时间平均模型和所述第二分支网络的第二时间平均模型;
计算第一分支网络参数的移动平均值得到第一时间平均模型参数;
计算第二分支网络参数的移动平均值得到第二时间平均模型参数。
S103:将所述第一时间平均模型提取的特征与所述第二时间平均模型提取的特征的平均值进行聚类,生成硬伪标签
Figure 253569DEST_PATH_IMAGE015
将所述第一时间平均模型提取的特征与所述第二时间平均模型提取的特征的平均值作为聚类特征;
利用DBSCAN聚类算法将每个所述无标签目标域图像聚成不同的类别,并为其分配硬伪标签。
S104:利用所述第一时间平均模型与所述第二时间平均模型预测所述无标签目标域图像,生成软伪标签
Figure 617554DEST_PATH_IMAGE016
S105:构建特征一致性损失函数,以便利用所述第一时间平均模型提取的特征
Figure 40445DEST_PATH_IMAGE017
监督所述第二分支网络提取的特征
Figure 489881DEST_PATH_IMAGE018
,利用所述第二时间平均模型提取的特征
Figure 859683DEST_PATH_IMAGE019
监督所述第一分支网络提取的特征
Figure 812595DEST_PATH_IMAGE020
所述特征一致性损失函数
Figure 522232DEST_PATH_IMAGE021
为:
Figure 131068DEST_PATH_IMAGE001
Figure 366878DEST_PATH_IMAGE002
其中
Figure 439876DEST_PATH_IMAGE003
表示时间平均模型提取的特征,
Figure 407832DEST_PATH_IMAGE004
表示原网络提取的特征,
Figure 566281DEST_PATH_IMAGE005
为原分支网络参数,
Figure 277885DEST_PATH_IMAGE006
为时间平均模型参数;
特征一致性损失增强了样本在特征空间的约束,使网络更加关注样本在特征空间的一致性;其不依赖任何伪标签,在一定程度上减少了网络在优化过程中受噪声伪标签的严重干扰。通过摆脱噪声伪标签的束缚,模型进行无监督域自适应行人重识别的能力被极大地提高。
S106:利用所述硬伪标签分别训练所述第一分支网络和所述第二分支网络直至分类损失函数
Figure 205389DEST_PATH_IMAGE022
和三元组损失函数
Figure 406564DEST_PATH_IMAGE023
收敛;
S107:利用所述软伪标签分别作为对方网络真值标签进行相互监督训练直至软分类损失函数
Figure 989992DEST_PATH_IMAGE024
、软三元组损失函数
Figure 302024DEST_PATH_IMAGE025
和特征一致性损失函数
Figure 349615DEST_PATH_IMAGE021
收敛;
利用所述第一时间平均模型生成的软伪标签作为所述第二分支网络的真值标签监督训练所述第二分支网络,利用所述第二时间平均模型生成的软伪标签作为所述第一分支网络的真值标签监督训练所述第一分支网络。
S108:计算三元组损失函数
Figure 659373DEST_PATH_IMAGE023
、分类损失函数
Figure 795344DEST_PATH_IMAGE022
、软三元组损失函数
Figure 911068DEST_PATH_IMAGE025
、软分类损失函数
Figure 750848DEST_PATH_IMAGE024
及特征一致性损失函数
Figure 293825DEST_PATH_IMAGE021
的总损失作为训练目标,更新优化所述行人重识别异构双网络。
本发明所述的行人重识别模型训练方法,包括:预先构建行人重识别异构双网络,所述行人重识别异构双网络包括第一分支网络、第二分支网络和双分支自适应通道互感知模块,所述第二分支网络包括Transformer模块;通过构建非对称的网络结构,增强了双网络间的异质性和互补性,进一步提高模型对噪声伪标签的鲁棒性,对于Transformer模块,采用ResT的第三阶段网络结构,且得益于可学习的位置嵌入,将卷积神经网络和Transformer直接相结合,无需增加任何计算量。所述双分支自适应通道互感知模块用于同时捕获所述第一分支网络提取的局部特征和所述第二分支网络中Transformer模块提取的全局特征并将其拼接,为网络提供了丰富的语义信息。将无标签目标域图像输入利用有标签源域数据集预训练后的所述行人重识别异构双网络中;获取所述第一分支网络的第一时间平均模型和所述第二分支网络的第二时间平均模型;将所述第一时间平均模型提取的特征与所述第二时间平均模型提取的特征的平均值进行聚类,生成硬伪标签;利用所述第一时间平均模型与所述第二时间平均模型预测所述无标签目标域图像,生成软伪标签;构建特征一致性损失函数,以便利用所述第一时间平均模型提取的特征监督所述第二分支网络提取的特征,利用所述第二时间平均模型提取的特征监督所述第一分支网络提取的特征;特征一致性损失摆脱了对伪标签的依赖,克服了三元组损失受噪声伪标签影响的局限性。利用所述硬伪标签分别训练所述第一分支网络和所述第二分支网络直至分类损失函数和三元组损失函数收敛;利用所述软伪标签分别作为对方网络真值标签进行相互监督训练直至软分类损失函数、软三元组损失函数和特征一致性损失函数收敛;计算三元组损失函数、分类损失函数、软三元组损失函数、软分类损失函数及特征一致性损失函数的总损失作为训练目标,更新优化所述行人重识别异构双网络。本发明通过构建非对称的异构双网络增强网络间的异质性,提高了对噪声伪标签的鲁棒性,利用自适应通道互感知模块,对通道关系进行建模,增强了深度网络提取有效通道特征的能力,使网络高度关注显著性的语义信息,而特征一致性模块使网络更加关注样本在特征空间的一致性;其不依赖任何伪标签,在一定程度上减少了网络在优化过程中受噪声伪标签的严重干扰,本发明所提供的训练方法使模型训练有效减少了噪声干扰,使网络更加关注样本在特征空间的一致性,并增强了对行人显著性特征的关注,从而使训练得到的行人重识别模型进行无监督域自适应行人重识别的精度和效率大大提高。
基于以上实施例,本实施例以其中一个域自适应任务Duke-to-Market为例进行阐述;
目前解决对称双网络耦合问题的方法大都是在卷积层面,而受限于有限的感受野,卷积不能够很好的捕获全局信息,因此,本发明引入Transformer模块来获取长程依赖,如图3所示,第一分支网络通过骨干网络提取具有局部感知的图像特征
Figure 648583DEST_PATH_IMAGE009
,然后送入全局最大池化得到特征向量
Figure 505680DEST_PATH_IMAGE026
;第二分支网络首先利用骨干网络提取图像的基础特征,然后将提取的特征送入Transformer模块,进一步得到具有长程依赖的增强特征
Figure 262284DEST_PATH_IMAGE010
,最后送入全局平均池化得到特征向量
Figure 976162DEST_PATH_IMAGE027
;其中间都经过ACMA模块对特征的语义信息进行增强。该异构双网络包含两个分支,其中一个分支只采用卷积神经网络获取局部信息,另一个分支将卷积神经网络与Transformer相结合获取全局信息。将两个非对称分支相结合形成一个简单、高效的异构双网络。对于Transformer模块,采用ResT的第三阶段,并且得益于可学习的位置嵌入,将卷积神经网络和Transformer直接相结合,无需增加任何计算量。
该模块通过引入Transformer模块获取长程依赖,弥补了卷积神经网络只能捕捉局部信息的缺陷;通过构建非对称的网络结构,增强了双网络间的异质性和互补性,进一步提高模型对噪声伪标签的鲁棒性。
行人重识别异构双网络的可视化效果图如图4所示;
其中图(a)表示原始图片,图(b)表示仅采用卷积神经网络,图(c)表示将卷积神经网络与Transformer相结合。从上图可以看出,仅采用卷积神经网络的分支更关注人体的局部信息,而引入了Transformer的分支更关注人体的全局信息。
对于行人重识别任务,行人的语义信息是非常重要的。目前,通道注意力已经取得了很好的效果,但是现有的方法都很少同时关注通道的全局和局部信息。因此,本发明引入了双分支的通道互感知模块,用于同时捕获通道间的全局和局部信息,如图5所示。
首先为了降低计算复杂度,我们将网络提取的特征图
Figure 21478DEST_PATH_IMAGE028
按通道维度分成两组
Figure 479004DEST_PATH_IMAGE029
Figure 90114DEST_PATH_IMAGE030
,然后分别送入两个分支,其中一个分支执行组内全局通道关系建模,另一个分支执行组内局部通道关系建模。
对于全局分支,首先通过全局平均池化GAP进行全局上下文建模,然后送入1×1的卷积获得通道间的全局关系权重
Figure 178156DEST_PATH_IMAGE031
。随后,将获得的权重矩阵
Figure 510436DEST_PATH_IMAGE031
与原始特征图
Figure 771653DEST_PATH_IMAGE032
相乘,以获得加权后的全局特征
Figure 237269DEST_PATH_IMAGE033
,记为
Figure 496212DEST_PATH_IMAGE034
对于局部分支,首先将通过全局最大池化GMP获得的聚合特征送到卷积核大小为
Figure 312858DEST_PATH_IMAGE035
的一维卷积中去获得通道间的局部关系,其中
Figure 112187DEST_PATH_IMAGE035
的大小控制着局部感知的范围。同样将获得的权重矩阵
Figure 635572DEST_PATH_IMAGE036
与原特征图
Figure 127734DEST_PATH_IMAGE037
相乘得到加权后的局部特征
Figure 166097DEST_PATH_IMAGE038
,记为
Figure 706800DEST_PATH_IMAGE039
最后,将两个分支得到的特征
Figure 412587DEST_PATH_IMAGE040
,
Figure 813000DEST_PATH_IMAGE041
拼接到一起。为了进一步加强跨通道信息间的交互,引入了通道打乱操作。因此,最终的输出特征
Figure 604239DEST_PATH_IMAGE042
,其中
Figure 683053DEST_PATH_IMAGE043
表示通道打乱操作,
Figure 243348DEST_PATH_IMAGE044
表示拼接操作。
该模块同时关注通道间的全局和局部信息,为网络提供丰富的语义信息,提高行人重识别检索效率;该模块的输入和输出尺寸保持不变,是一个即插即用的模块,可以应用于不同的结构当中。
传统的无监督域自适应行人重识别任务忽略了样本在特征空间中的一致性,具体来说,分类损失只在类预测空间进行优化,其更关注样本和伪标签之间的关系,另外,三元组损失需要依赖伪标签选择正负样本,而伪标签中的噪声会误导样本的选择和优化。
因此,本发明引入了特征一致性损失
Figure 811732DEST_PATH_IMAGE021
,该损失在特征空间中进行,重点关注样本间的相似性关系。特别地,特征一致性损失不依赖任何标签信息,有效地避免了噪声伪标签的影响。利用特征一致性损失拉近原模型和时间平均模型之间的特征分布,其计算公式如下:
Figure DEST_PATH_IMAGE045
Figure 90267DEST_PATH_IMAGE046
其中
Figure 35089DEST_PATH_IMAGE003
表示时间平均模型提取的特征,
Figure 449890DEST_PATH_IMAGE004
表示原模型提取的特征。
该模块是对分类损失的进一步补充,特征一致性损失更多地关注样本在特征空间的一致性而不是类预测空间,驱动无监督域自适应行人重识别的特征学习从任务级转向特征级;是对三元组损失的进一步优化,特征一致性损失摆脱了对伪标签的依赖,克服了三元组损失受噪声伪标签影响的局限性。
基于以上实施例,为验证本发明的准确性和鲁棒性,本发明在四个域自适应任务上进行了实验,具体如下:
Market-to-Duke, Duke-to-Market, Market-to-MSMT 和Duke-to-MSMT。DukeMTMC-reID数据集包含由8个摄像机拍摄的1812个身份的36411张图像,其中训练集有702个身份,包含16522张图像,测试集有702个身份。Market-1501数据集包含由6个摄像机拍摄的1501个行人,其中训练集有751个身份,包含12936张图像,测试集有750个身份,包含19732张图像。MSMT17数据集包含4101个行人和126441个边界框,由15个摄像机拍摄。训练集包含1041个行人,共32621个边界框,测试集包含3060个行人,共93820个边界框。由于这些数据集是在多个摄像设备下获取,因此数据集中存在多种姿态、视角以及光照变化的影响,同时,在不同场景下存在大量杂乱的背景以及行人间的遮挡,因此这些数据集都具有很大的挑战性。
表1 三个数据集在实验中的各个参数设置
Figure DEST_PATH_IMAGE048A
表1是三个数据集在实验中的各个参数设置,其中分别包括总类别数、训练类别数和测试类别数,以及处理后的图片大小和初始学习率。
表2 四个域自适应任务上的识别率
数据集 mAP
Duke-to-Market 82.4%
Market-to-Duke 70.7%
Market-to-MSMT 33.7%
Duke-to-MSMT 32.6%
表2为本发明提出的异构双网络HDNet方法在Market-to-Duke, Duke-to-Market,Market-to-MSMT 和Duke-to-MSMT四个域自适应任务上的测试结果,我们利用平均精度均值 (mAP)作为评估指标。本发明在这四个任务上都取得了较高的识别率,尽管这三个数据集存在着遮挡,变形,背景混乱,低分辨率等困难,但本发明提出的方法对这些困难具有很好的鲁棒性,因此表现相对较好。
表3 Duke-to-Market域自适应任务上不同模块的影响
网络 mAP
基线网络 76.5%
基线网络+异构双网络 82.0%
基线网络+特征一致性损失 81.2%
基线网络+自适应通道互感知模块 80.8%
表3为在Duke-to-Market域自适应任务上不同模块的影响,本发明提出的方法包含三个部分,异构双网络、特征一致性损失以及自适应通道互感知模块,我们以具有相同结构的双网络MMT作为基线网络,从表3中可以看出,针对Duke-to-Market的域自适应任务,单纯使用基线网络的精度可达到76.5%,在基线网络中添加异构双网络,精度达到82.0%,这表明非对称的网络结构可以提高模型之间的互补性,从而避免它们偏向于同类噪声,减少噪声伪标签对模型的影响,从而达到提高模型性能的效果,在基线网络中添加特征一致性损失,精度能达到81.2%,这体现了对模型进行特征空间的约束的重要性,在基线网络中添加自适应通道互感知模块,精度能达到80.8%。这表明该模块进一步使模型提取到更丰富的语义信息,从而提高识别精度。
本发明针对聚类生成的伪标签中含有大量的噪声和对称双网络互学习间存在的耦合问题,本发明设计了一个异构双网络框架,它包含两个非对称分支,其中一个使用感受野有限的卷积来获取局部信息,另一个使用 Transformer 模块来捕获长程依赖,利用异构双网络的互学习来提高网络间的异质性和互补性,从而提高对噪声伪标签的鲁棒性,此外,为了减少网络在优化过程中受噪声伪标签的干扰,本发明提出了特征一致性损失,其更关注样本在特征空间的一致性,其次,为了增强网络的语义信息,本发明设计了一个自适应通道互感知模块,对行人的显著性区域进行特征提取,从而提高了行人重识别的精度与效率。
请参考图6,图6为本发明实施例提供的一种行人重识别模型训练的装置的结构框图;具体装置可以包括:
输入模块100,用于将无标签目标域图像输入利用有标签的源域数据集预训练后的所述行人重识别异构双网络中;
时间平均模型获取模块200,用于获取所述第一分支网络的第一时间平均模型和所述第二分支网络的第二时间平均模型;
硬伪标签获取模块300,用于将所述第一时间平均模型提取的特征与所述第二时间平均模型提取的特征的平均值进行聚类,生成硬伪标签;
软伪标签获取模块400,用于利用所述第一时间平均模型与所述第二时间平均模型预测所述无标签目标域图像,生成软伪标签;
特征空间约束模块500,用于构建特征一致性损失函数,以便利用所述第一时间平均模型提取的特征监督所述第二分支网络提取的特征,利用所述第二时间平均模型提取的特征监督所述第一分支网络提取的特征;
硬伪标签训练模块600,用于利用所述硬伪标签分别训练所述第一分支网络和所述第二分支网络直至分类损失函数和三元组损失函数收敛;
软伪标签训练模块700,用于利用所述软伪标签分别作为对方网络真值标签进行相互监督训练直至软分类损失函数、软三元组损失函数和特征一致性损失函数收敛;
总损失计算优化模块800,用于计算三元组损失函数、分类损失函数、软三元组损失函数、软分类损失函数及特征一致性损失函数的总损失作为训练目标,更新优化所述行人重识别异构双网络。
本实施例的行人重识别模型训练装置用于实现前述的行人重识别模型训练方法,因此行人重识别模型训练装置中的具体实施方式可见前文行人重识别模型训练方法的实施例部分,例如,输入模块100,时间平均模型获取模块200,硬伪标签获取模块300,软伪标签获取模块400,特征空间约束模块500,硬伪标签训练模块600,软伪标签训练模块700,总损失计算优化模块800,分别用于实现上述行人重识别模型训练方法中步骤S101,S102,S103,S104,S105,S106,S107和S108,所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再赘述。
请参考图7,本发明还提供了一种行人重识别方法,包括:
S201:将待检图像输入训练完成的所述行人重识别异构双网络中;
利用所述行人重识别模型训练方法训练所述行人重识别异构双网络得到训练完成的所述行人重识别异构双网络。
S202:利用所述第一分支网络提取局部特征,得到局部特征图;
S203:利用所述第二分支网络的所述Transformer模块提取全局特征,得到全局特征图;
S204:利用所述双分支自适应通道互感知模块对所述局部特征图和所述全局特征图进行特征增强后拼接并进行通道打乱操作,得到目标行人特征图。
本发明通过引入Transformer模块获取长程依赖,弥补了卷积神经网络只能捕捉局部信息的缺陷,本发明同时关注通道间的全局和局部信息,为网络提供丰富的语义信息,提高了行人重识别检索的精度和效率。
本发明具体实施例还提供了一种行人重识别模型训练的设备,包括:存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述一种行人重识别模型训练方法的步骤。
本发明具体实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述一种行人重识别模型训练方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (10)

1.一种行人重识别模型训练方法,其特征在于,包括:
预先构建行人重识别异构双网络,所述行人重识别异构双网络包括第一分支网络、第二分支网络和双分支自适应通道互感知模块,所述第二分支网络包括Transformer模块;所述双分支自适应通道互感知模块用于同时对所述第一分支网络提取的局部特征和所述第二分支网络中Transformer模块提取的全局特征进行增强并将其拼接;
将无标签目标域图像输入利用有标签的源域数据集预训练后的所述行人重识别异构双网络中;
获取所述第一分支网络的第一时间平均模型和所述第二分支网络的第二时间平均模型;
将所述第一时间平均模型提取的特征与所述第二时间平均模型提取的特征的平均值进行聚类,生成硬伪标签;
利用所述第一时间平均模型与所述第二时间平均模型预测所述无标签目标域图像,生成软伪标签;
构建特征一致性损失函数,以便利用所述第一时间平均模型提取的特征监督所述第二分支网络提取的特征,利用所述第二时间平均模型提取的特征监督所述第一分支网络提取的特征;
利用所述硬伪标签分别训练所述第一分支网络和所述第二分支网络直至分类损失函数和三元组损失函数收敛;
利用所述软伪标签分别作为对方网络真值标签进行相互监督训练直至软分类损失函数、软三元组损失函数和所述特征一致性损失函数收敛;
计算所述三元组损失函数、所述分类损失函数、所述软三元组损失函数、所述软分类损失函数及所述特征一致性损失函数的总损失作为训练目标,更新优化所述行人重识别异构双网络。
2.根据权利要求1所述的行人重识别模型训练方法,其特征在于,所述Transformer模块采用ResT的第三阶段的网络结构。
3.根据权利要求1所述的行人重识别模型训练方法,其特征在于,所述将无标签目标域图像输入利用有标签的源域数据集预训练后的所述行人重识别异构双网络前包括:
将所述有标签的源域数据集同时输入所述第一分支网络和第二分支网络,所述有标签的源域数据集包括源域图像和真值标签;
将所述第一分支网络提取的局部图像特征和所述第二分支网络提取的全局增强特征分别输入所述双分支自适应通道互感知模块;
所述局部图像特征经过全局最大池化得到最大特征,所述全局增强特征经过全局平均池化得到平均特征;
将所述平均特征和所述最大特征经过全连接操作得到对应概率分布;
利用三元组损失函数和分类损失函数作为训练目标对所述预先构建的行人重识别异构双网络进行优化得到预训练完成的所述行人重识别异构双网络。
4.根据权利要求1所述的行人重识别模型训练方法,其特征在于,所述获取所述第一分支网络的第一时间平均模型和所述第二分支网络的第二时间平均模型包括:
计算第一分支网络参数的移动平均值得到第一时间平均模型参数;
计算第二分支网络参数的移动平均值得到第二时间平均模型参数。
5.根据权利要求1所述的行人重识别模型训练方法,其特征在于,所述将所述第一时间平均模型提取的特征与所述第二时间平均模型提取的特征的平均值进行聚类,生成硬伪标签包括:
将所述第一时间平均模型提取的特征与所述第二时间平均模型提取的特征的平均值作为聚类特征;
利用DBSCAN聚类算法将每个所述无标签目标域图像聚成不同的类别,并为其分配硬伪标签。
6.根据权利要求1所述的行人重识别模型训练方法,其特征在于,所述构建特征一致性损失函数,以便利用所述第一时间平均模型提取的特征监督所述第二分支网络提取的特征,利用所述第二时间平均模型提取的特征监督所述第一分支网络提取的特征包括:
所述特征一致性损失函数为:
Figure 807766DEST_PATH_IMAGE001
Figure 787223DEST_PATH_IMAGE002
其中
Figure 566961DEST_PATH_IMAGE003
表示时间平均模型提取的特征,
Figure 24487DEST_PATH_IMAGE004
表示原网络提取的特征,
Figure 901176DEST_PATH_IMAGE005
为原分支网络参数,
Figure 723638DEST_PATH_IMAGE006
为时间平均模型参数。
7.一种行人重识别方法,其特征在于,包括:
利用权利要求1-6任一项所述的行人重识别模型训练方法训练行人重识别异构双网络;
将待检图像输入训练完成的所述行人重识别异构双网络中;
利用所述第一分支网络提取局部特征,得到局部特征图;
利用所述第二分支网络的所述Transformer模块提取全局特征,得到全局特征图;
利用所述双分支自适应通道互感知模块对所述局部特征图和所述全局特征图进行显著性特征增强后拼接并进行通道打乱操作,得到目标行人特征图。
8.一种行人重识别模型训练的装置,其特征在于,包括:
构建网络模块,用于预先构建行人重识别异构双网络,所述行人重识别异构双网络包括第一分支网络、第二分支网络和双分支自适应通道互感知模块,所述第二分支网络包括Transformer模块;所述双分支自适应通道互感知模块用于同时捕获所述第一分支网络提取的局部特征和所述第二分支网络中Transformer模块提取的全局特征并将其拼接;
输入模块,用于将无标签目标域图像输入利用有标签的源域数据集预训练后的所述行人重识别异构双网络中;
时间平均模型获取模块,用于获取所述第一分支网络的第一时间平均模型和所述第二分支网络的第二时间平均模型;
硬伪标签获取模块,用于将所述第一时间平均模型提取的特征与所述第二时间平均模型提取的特征的平均值进行聚类,生成硬伪标签;
软伪标签获取模块,用于利用所述第一时间平均模型与所述第二时间平均模型预测所述无标签目标域图像,生成软伪标签;
特征空间约束模块,用于构建特征一致性损失函数,以便利用所述第一时间平均模型提取的特征监督所述第二分支网络提取的特征,利用所述第二时间平均模型提取的特征监督所述第一分支网络提取的特征;
硬伪标签训练模块,用于利用所述硬伪标签分别训练所述第一分支网络和所述第二分支网络直至分类损失函数和三元组损失函数收敛;
软伪标签训练模块,用于利用所述软伪标签分别作为对方网络真值标签进行相互监督训练直至软分类损失函数、软三元组损失函数和所述特征一致性损失函数收敛;
总损失计算优化模块,用于计算所述三元组损失函数、所述分类损失函数、所述软三元组损失函数、所述软分类损失函数及所述特征一致性损失函数的总损失作为训练目标,更新优化所述行人重识别异构双网络。
9.一种行人重识别模型训练的设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至6任一项所述一种行人重识别模型训练方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述一种行人重识别模型训练方法的步骤。
CN202111674399.8A 2021-12-31 2021-12-31 基于异构双网络和特征一致性的行人重识别模型训练方法 Active CN114333062B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111674399.8A CN114333062B (zh) 2021-12-31 2021-12-31 基于异构双网络和特征一致性的行人重识别模型训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111674399.8A CN114333062B (zh) 2021-12-31 2021-12-31 基于异构双网络和特征一致性的行人重识别模型训练方法

Publications (2)

Publication Number Publication Date
CN114333062A CN114333062A (zh) 2022-04-12
CN114333062B true CN114333062B (zh) 2022-07-15

Family

ID=81020049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111674399.8A Active CN114333062B (zh) 2021-12-31 2021-12-31 基于异构双网络和特征一致性的行人重识别模型训练方法

Country Status (1)

Country Link
CN (1) CN114333062B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111476168A (zh) * 2020-04-08 2020-07-31 山东师范大学 一种基于三阶段的跨域行人重识别方法和系统
CN111709331A (zh) * 2020-06-03 2020-09-25 江南大学 一种基于多粒度信息交互模型的行人重识别方法
CN111860678A (zh) * 2020-07-29 2020-10-30 中国矿业大学 一种基于聚类的无监督跨域行人重识别方法
CN112069920A (zh) * 2020-08-18 2020-12-11 武汉大学 基于属性特征驱动聚类的跨域行人重识别方法
CN112115781A (zh) * 2020-08-11 2020-12-22 西安交通大学 基于对抗攻击样本和多视图聚类的无监督行人重识别方法
CN112200111A (zh) * 2020-10-19 2021-01-08 厦门大学 一种全局与局部特征融合的遮挡鲁棒行人重识别方法
CN113326731A (zh) * 2021-04-22 2021-08-31 南京大学 一种基于动量网络指导的跨域行人重识别算法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111476168A (zh) * 2020-04-08 2020-07-31 山东师范大学 一种基于三阶段的跨域行人重识别方法和系统
CN111709331A (zh) * 2020-06-03 2020-09-25 江南大学 一种基于多粒度信息交互模型的行人重识别方法
CN111860678A (zh) * 2020-07-29 2020-10-30 中国矿业大学 一种基于聚类的无监督跨域行人重识别方法
CN112115781A (zh) * 2020-08-11 2020-12-22 西安交通大学 基于对抗攻击样本和多视图聚类的无监督行人重识别方法
CN112069920A (zh) * 2020-08-18 2020-12-11 武汉大学 基于属性特征驱动聚类的跨域行人重识别方法
CN112200111A (zh) * 2020-10-19 2021-01-08 厦门大学 一种全局与局部特征融合的遮挡鲁棒行人重识别方法
CN113326731A (zh) * 2021-04-22 2021-08-31 南京大学 一种基于动量网络指导的跨域行人重识别算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于多尺度注意力机制的多分支行人重识别算法;蒋敏等;《中国知网》;20201030;全文 *
基于注意力模型的行人重识别算法研究;罗善益;《中国知网》;20200531;全文 *

Also Published As

Publication number Publication date
CN114333062A (zh) 2022-04-12

Similar Documents

Publication Publication Date Title
Luo et al. Fire smoke detection algorithm based on motion characteristic and convolutional neural networks
Zhou et al. Contextual ensemble network for semantic segmentation
WO2016138838A1 (zh) 基于投影极速学习机的唇语识别方法和装置
CN111639564B (zh) 一种基于多注意力异构网络的视频行人重识别方法
Karianakis et al. Reinforced temporal attention and split-rate transfer for depth-based person re-identification
CN110222718B (zh) 图像处理的方法及装置
CN112528845B (zh) 一种基于深度学习的物理电路图识别方法及其应用
CN113704531A (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
CN112861575A (zh) 一种行人结构化方法、装置、设备和存储介质
CN110827312A (zh) 一种基于协同视觉注意力神经网络的学习方法
CN111126155B (zh) 一种基于语义约束生成对抗网络的行人再识别方法
CN110135435B (zh) 一种基于广度学习系统的显著性检测方法及装置
CN116824330A (zh) 一种基于深度学习的小样本跨域目标检测方法
Özyurt et al. A new method for classification of images using convolutional neural network based on Dwt-Svd perceptual hash function
CN114333062B (zh) 基于异构双网络和特征一致性的行人重识别模型训练方法
CN113223037B (zh) 一种面向大规模数据的无监督语义分割方法及系统
CN110826726B (zh) 目标处理方法、目标处理装置、目标处理设备及介质
CN112396126A (zh) 一种基于检测主干与局部特征优化的目标检测方法及系统
CN112487927A (zh) 一种基于物体关联注意力的室内场景识别实现方法及系统
Meng et al. Facial expression recognition based on landmark-guided graph convolutional neural network
Chen et al. FPAN: fine-grained and progressive attention localization network for data retrieval
CN114429648B (zh) 一种基于对比特征的行人重识别方法及系统
Ren A Video Expression Recognition Method Based on Multi-mode Convolution Neural Network and Multiplicative Feature Fusion.
CN116502706B (zh) 一种面向车道线检测的知识蒸馏方法
Song et al. A salient object detection algorithm based on RGB-D images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant