CN114663685A - 一种行人重识别模型训练的方法、装置和设备 - Google Patents

一种行人重识别模型训练的方法、装置和设备 Download PDF

Info

Publication number
CN114663685A
CN114663685A CN202210181439.3A CN202210181439A CN114663685A CN 114663685 A CN114663685 A CN 114663685A CN 202210181439 A CN202210181439 A CN 202210181439A CN 114663685 A CN114663685 A CN 114663685A
Authority
CN
China
Prior art keywords
pedestrian
model
network model
identification network
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210181439.3A
Other languages
English (en)
Other versions
CN114663685B (zh
Inventor
蒋敏
马磊
孔军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN202210181439.3A priority Critical patent/CN114663685B/zh
Publication of CN114663685A publication Critical patent/CN114663685A/zh
Application granted granted Critical
Publication of CN114663685B publication Critical patent/CN114663685B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种行人重识别模型训练的方法、装置、设备以及计算机可读存储介质,包括:基于两个卷积神经网络构建两个行人重识别网络模型;将目标域图像集输入每个行人重识别网络模型中,利用卷积神经网络和Transformer提取中间特征;利用全局子值池化模块对中间特征进行处理,输出最终特征值,并进行聚类分析,得到硬伪标签;构建每个行人重识别网络模型的时序平均模型,将目标域图像集输入每个时序平均模型中,得到软伪标签;利用软硬伪标签代优化行人重识别网络模型,选取目标行人重识别网络模型。本发明通过Transformer和全局子值池化模块获得高质量的特征信息,通过聚类得到更高质量的伪标签,大幅提高模型性能,提高行人重识别的准确度。

Description

一种行人重识别模型训练的方法、装置和设备
技术领域
本发明涉及计算机视觉领域,特别是涉及一种行人重识别模型训 练的方法、装置、设备以及计算机可读存储介质。
背景技术
行人重识别是计算机视觉领域的热门研究方向之一,旨在定位多 个非重叠摄像头下的某一行人。传统行人重识别的研究往往依赖于大 量标注好的图像,实际应用中,标注图像会浪费大量的人力与财力, 域自适应的行人重识别方法解决了这个问题,该技术可以将有标注源 域数据集上学习到的模型应用到无标注目标域数据集上。
现有的基于伪标签的与自适应行人重识别方法往往只关注聚类 的方法,忽视了模型自身提取特征的能力,还要依赖大量数据进行训 练,使提取的伪标签鲁棒性不强,质量不高,现在急于要提升模型的 性能。
综上所述可以看出,如何提高伪标签的质量来实现高精度的行人 重识别是目前有待解决的问题。
发明内容
为解决上述技术问题,本发明提供一种行人重识别模型训练的方 法、装置、设备以及计算机可读存储介质,包括:
基于预训练的两个神经网络构建第一行人重识别网络模型和第 二行人重识别网络模型,每个行人重识别网络模型包括卷积神经网络、 Transformer模块和全局子值池化模块;
将目标域图像集分别输入所述第一行人重识别网络模型和第二 行人重识别网络模型中,利用所述每个行人重识别网络模型中的所述 卷积神经网络进行处理,利用所述Transformer模块提取全局信息,得 到中间特征;
将所述中间特征输入所述全局子值池化模块中,利用所述全局子 值池化模块进行池化处理,输出最终特征值,并进行聚类分析,得到 所述每个行人重识别网络模型的硬伪标签;
构建所述每个行人重识别网络模型的时序平均模型,将所述目标 域图像集分别输入每个时序平均模型中,得到所述每个时序平均模型 软伪标签;
利用所述硬伪标签和所述软伪标签对所述第一行人重识别网络 模型和第二行人重识别网络模型进行协同训练;
选取两个时序平均模型中mAP精度值大的模型作为目标行人重 识别网络模型。
优选地,所述利用所述每个行人重识别网络模型中的所述卷积神 经网络进行处理,利用所述Transformer模块提取全局信息,得到中间 特征包括:
将所述目标域图像集输入所述每个行人重识别网络模型中,利用 所述卷积神经网络进行处理,并进行空间维度展平得到特征f,将所述 特征f附上cls标记得到特征fcls,并对所述特征fcls进行位置编码得到 特征fcp
将所述特征fcp输入所述Transformer模块中,利用所述 Transformer模块进行处理并进行转置和维度扩展,得到所述中间特征 F。
优选地,所述将所述中间特征输入所述全局子值池化模块中,利 用所述全局子值池化模块进行池化处理,输出最终特征值,并进行聚 类分析,得到所述每个行人重识别网络模型的硬伪标签包括:
将所述中间特征F输入所述全局子值池化模块中,提取所述全局 子值池化模块任一通道的特征Fc,将所述特征Fc中的n个值进行降序 排序,选取其中最大的k个值,进行加权求和得到中间特征
Figure BDA0003521202480000021
重复上述步骤得到所述全局子值池化模块中所有通道的中间特 征
Figure BDA0003521202480000022
将所述所有通道的中间特征
Figure BDA0003521202480000023
进行拼接得到所述最终特征
Figure BDA0003521202480000024
利 用所述最终特征
Figure BDA0003521202480000025
进行聚类,生成所述硬伪标签;
其中
Figure BDA0003521202480000026
∑pi≡1,1≤k≤n。
优选地,所述Transformer模块衍生于vision transformer模型中 的模块结构。
优选地,所述构建所述每个行人重识别网络模型的时序平均模型, 将所述目标域图像集分别输入每个时序平均模型中,得到所述每个时 序平均模型软伪标签包括:
根据E(T)[Θ]=αE(T-1)[Θ]+(1-α)Θ分别构建第一时序平均模型 和第二时序平均模型;
将所述目标域图像集分别输入所述第一时序平均模型和所述第 二时序平均模型中进行分类,得到第一软伪标签和第二软伪标签;
其中,Θ为行人重识别网络模型的参数,E[Θ]为时序平均模型的参 数,T为整个目标域阶段的迭代次数且E(0)[Θ]=Θ,α为范围在[0,1)之间 的超参数。
优选地,所述利用所述硬伪标签和所述软伪标签对所述第一行人 重识别网络模型和第二行人重识别网络模型进行协同训练包括:
S61:利用所述第一行人重识别网络模型的软硬伪标签与所述第 二行人重识别网络模型的预测结果计算损失,优化所述第一行人重识 别网络模型;
S62:利用所述第二行人重识别网络模型的软硬伪标签与所述第 一行人重识别网络模型的预测结果计算损失,优化所述第二行人重识 别网络模型;
S63:重复步骤S61和步骤S62,直至达到预设训练阈值;
S64:判断所述第一时序平均模型和所述第二时序平均模型的 mAP精度值,选取时序平均模型mAP精度高的行人重识别网络模型 的作为所述目标行人重识别网络模型。
本发明还提供了一种行人重识别训练的装置,包括:
构建模型模块,用于基于预训练的两个神经网络构建第一行人重 识别网络模型和第二行人重识别网络模型,每个行人重识别网络模型 包括卷积神经网络、Transformer模块和全局子值池化模块;
提取特征模块,用于将目标域图像集分别输入所述第一行人重识 别网络模型和第二行人重识别网络模型中,利用所述每个行人重识别 网络模型中的所述卷积神经网络进行处理,利用所述Transformer模 块提取全局信息,得到中间特征;
计算模块,用于将所述中间特征输入所述全局子值池化模块中, 利用所述全局子值池化模块进行池化处理,输出最终特征值,并进行 聚类分析,得到所述每个行人重识别网络模型的硬伪标签;
生成软标签模块,用于构建所述每个行人重识别网络模型的时序 平均模型,将所述目标域图像集分别输入每个时序平均模型中,得到 所述每个时序平均模型软伪标签;
训练优化模块,用于利用所述硬伪标签和所述软伪标签对所述第 一行人重识别网络模型和第二行人重识别网络模型进行协同训练;
筛选模块,用于选取两个时序平均模型中mAP精度值大的模型 作为目标行人重识别网络模型。
优选地,所述提取特征模块包括:
处理单元,用于将所述目标域图像集输入所述每个行人重识别 网络模型中,利用所述卷积神经网络进行处理,并进行空间维度展平 得到特征f,将所述特征f附上cls标记得到特征fcls,并对所述特征 fcls进行位置编码得到特征fcp
转换单元,用于将所述特征fcp输入所述Transformer模块中,利 用所述Transformer模块进行处理并进行转置和维度扩展,得到所述 中间特征F。
本发明还提供了一种行人重识别模型训练的设备,包括:
存储器,用于存储计算机程序;处理器,用于执行所述计算机程 序时实现上述一种行人重识别模型训练方法的步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储 介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述 一种行人重识别模型训练方法的步骤。
本发明所提供的一种行人重识别模型训练方法,基于预训练的两 个神经网络构建第一行人重识别网络模型和第二行人重识别网络模型; 将目标域图像集分别输入所述第一行人重识别网络模型和所述第二行 人重识别网络模型中,利用每个行人重识别网络模型中卷积神经网络 和Transformer模块提取中间特征;将所述中间特征输入所述每个行人重识别网络模型中的全局子值池化模块中进行处理,输出最终特征 值,并进行聚类分析,得到所述每个行人重识别网络模型的硬伪标签; 构建所述每个行人重识别网络模型的时序平均模型,将所述目标域图 像集分别输入每个时序平均模型中,得到所述每个时序平均模型的软 伪标签;利用每个行人重识别网络模型的所述硬伪标签和所述软伪标 签与另一个行人重识别网络模型的行人重识别结果计算损失,进行协 同训练优化模型,对比两个时序平均模型的性能,选取最优时序平均 模型作为最终行人重识别网络模型,得到最终行人重识别结果。本发 明首先构建两个模型均采用Transformer模块提取全局信息,提取的信息更加全面,使模型的特征表示能力大大提升,采用全局子值池化 模块捕捉上述全局信息中具有辨别性的信息,从而生成了更具有鲁棒 性的伪标签,提升模型的性能,通过采用Transformer模块和利用全局 子值池化模块来获得质量更高的伪标签,构建两个模型的时序平均模 型生成更加精细的软伪标签,利用两个模型进行协同训练,不断优化 模型,大大提高了模型的性能,选取性能最好的模型,提高行人重识 别的精度。
附图说明
为了更清楚的说明本发明实施例或现有技术的技术方案,下面将 对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易 见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普 通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附 图获得其他的附图。
图1为本发明所提供的行人重识别模型训练方法的第一种具体实 施例的流程图;
图2为本发明所提供的行人重识别模型训练方法的第二种具体实 施例的流程图;
图3为本发明中全局子值池化模块示意图;
图4为本发明的协同训练示意图;
图5为本发明的算法模型示意图;
图6为本发明设计的全局子值池化中不同k值的示意图;
图7为本发明中行人重识别网络模型的可视化结果;
图8为本发明实施例提供的一种行人重识别模型训练装置的结构 框图。
具体实施方式
本发明的核心是提供一种行人重识别模型训练方法,通过 Transformer模块和利用全局子值池化模块来获得质量更高的伪标签, 大幅提高了模型性能,提高行人重识别的精度。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图 和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施 例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中 的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得 的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1为本发明所提供的行人重识别模型训练方法的 第一种具体实施例的流程图;具体操作步骤如下:
步骤S101:基于预训练的两个神经网络构建第一行人重识别网络 模型和第二行人重识别网络模型,每个行人重识别网络模型包括卷积 神经网络、Transformer模块和全局子值池化模块;
步骤S102:将目标域图像集分别输入所述第一行人重识别网络模 型和第二行人重识别网络模型中,利用所述每个行人重识别网络模型 中的所述卷积神经网络进行处理,利用所述Transformer模块提取全 局信息,得到中间特征;
步骤S103:将所述中间特征输入所述全局子值池化模块中,利用 所述全局子值池化模块进行池化处理,输出最终特征值,并进行聚类 分析,得到所述每个行人重识别网络模型的硬伪标签;
步骤S104:构建所述每个行人重识别网络模型的时序平均模型, 将所述目标域图像集分别输入每个时序平均模型中,得到所述每个时 序平均模型软伪标签;
步骤S105:利用所述硬伪标签和所述软伪标签对所述第一行人重 识别网络模型和第二行人重识别网络模型进行协同训练;
步骤S106:选取两个时序平均模型中mAP精度值大的模型作为 目标行人重识别网络模型。
在本实施例中,首先基于训练好的两个卷积神经网络模型上分别 构建第一行人重识别网络模型和第二行人重识别网络模型,将目标域 图像集分别输入两个行人重识别网络模型中得到每个行人重识别网络 模型的硬伪标签,构建每个行人重识别网络模型的时序平均模型,并 利用时序平均模型得到软伪便签,利用一个行人重识别网络模型的所述硬伪标签和所述软伪标签与另一个行人重识别网络模型的行人重识 别结果计算损失,进行协同训练,对比两个时序平均模型的性能,选 取性能最优时序平均模型的行人重识别网络模型作为最终行人重识别 网络模型,得到最终行人重识别结果。本发明采用Transformer模块能 够提取全局信息,提高了模型的特征表示能力,利用全局子池化模块从所提取的全局信息捕捉到更具有辨别性的信息,从而使生成了更具 有鲁棒性的伪标签,提升模型的性能,通过采用Transformer模块和利 用全局子值池化模块来获得质量更高的伪标签,大大提高了模型的性 能,最后采用两个模型协同训练不断优化模型,选取性能最好的模型, 进一步提高了模型的性能,提高了行人重识别的准确度。
基于上述实施例,本实施例对行人重识别训练方法进行了更加详 细的说明,请参考图2,图2为本发明所提供的行人重识别模型训练 方法的第二种具体实施例的流程图;具体操作步骤如下:
步骤S201:构建两个ResNet的卷积神经网络模型,利用带标注 的源域图像集对所述两个卷积神经网络进行预训练,得到预训练的参 数;
源域模型可采用ResNet50或者IBN-ResNet50等卷积神经网络, 但不限于卷积神经网络。
步骤S202:构建第一行人重识别网络模型和第二行人重识别网络 模型,将所述预训练的参数分别输入所述第一行人重识别网络模型和 第二行人重识别网络模型中;
行人重识别网络模型(CTTPNet)包含三个核心结构:卷积神经 网络、Tiny-Transformer模块和全局子值池化模块,其中卷积神经网络 与源域模型一致,但不包含池化层。
针对行人重识别网络模型CTTPNet中的卷积神经网络,直接加载 步骤一中预训练后的源域模型的参数;针对CTTPNet中Tiny- Transformer模块的参数,则直接采用随机初始化方式,这种操作一方 面保证了与其他方法对比的公平性,另一方面符合真实场景的情况, 同时也规避了在超大数据集上预训练模型时难以收敛的风险。
步骤S203:将所述目标域图像集输入所述每个行人重识别模型中, 利用所述卷积神经网络进行处理,并进行空间维度展平得到特征f,将 所述特征f附上cls token得到特征fcls,并对所述特征fcls进行位置编码 得到特征fcp
步骤S204:将所述特征fcp输入所述Tiny-Transformer模块中,利 用所述Tiny-Transformer模块进行处理并进行转置和维度扩展,得到 所述中间特征F;
输入CTTPNet的图像尺寸为B×C×H×W,经过卷积神经网络并 将空间维度展平得到尺寸为B×H′W′×C′的特征f。为f连接一个用于 表示全局特征的cls token(标记)得到特征fcls,cls token(标记)是 初始值为0尺寸为B×1×C′的可学习参数,fcls的尺寸为B×(H′W′+ 1)×C′。随后为fcls编码位置信息得到特征fcp,位置编码本质上也是初 值为0的可学习参数,其尺寸为1×(H′W′+1)×C′。随后,将fcp传入 本发明引入的Tiny-Transformer模块,在本发明实例中多头自注意力 的头数设置为64,得到尺寸为B×(H′W′+1)×C′的特征表示,对其进 行转置和维度拓展,得到尺寸为B×C′×(H′W′+1)×1的中间特征F。
其中,Tiny-Transformer模块衍生于vision transformer模型中的模 块结构,Tiny-Transformer模块的特征表示能力大大提高了,从而生成 了更具鲁棒性的伪标签。
步骤S205:将所述中间特征F输入所述全局子值池化模块中,提 取所述中间特征F中任一通道的特征Fc,将所述中间特征Fc中的n值进 行降序排序,选取其中最大的k个值,进行求和计算得到中间特征
Figure BDA0003521202480000091
如图3所示,对于
Figure BDA0003521202480000092
中的n个值降序排序得到{s1,s2,...,sn},选择 其中最大的k个值{s1,s2,...,sk},k是手动设定的超参数且1≤k≤n,最 终计算方式为
Figure BDA0003521202480000093
其中∑pi≡1。
全局子值池化模块具备两种模式:(1)固定值模式,pi的值在整 个训练过程中保持不变,此时
Figure BDA0003521202480000094
(2)可学习模式, pi是可学习的参数,初始化为1,且满足
Figure BDA0003521202480000095
固定值模式下,是无参模块,不会增加计算复杂度;可学习模式 下,引入的参数很少,k值可以灵活选用从而适应不同的视觉任务;全 局最大池化的性能优于GeM pooling、全局最大池化等同类方法。
步骤S206:重复步骤S205得到全局子值池化模块中所有通道的 所述中间特征
Figure BDA0003521202480000096
将所有通道的中间特征
Figure BDA0003521202480000097
进行拼接得到所述最终特 征
Figure BDA0003521202480000098
利用所述最终特征
Figure BDA0003521202480000099
进行聚类,生成所述硬伪标签;
步骤S207:根据E(T)[Θ]=αE(T-1)[Θ]+(1-α)Θ分别构建所述第一 时序平均模型和第二时序平均模型;
步骤S208:将所述目标域图像集分别输入所述第一时序平均模型 和所述第二时序平均模型中进行分类,得到第一软伪标签和第二软伪 标签;
步骤S209:利用每个行人重识别网络模型的所述硬伪标签和所述 软伪标签与另一个行人重识别网络模型的行人重识别结果计算损失, 进行协同训练优化模型,选取两个时序平均模型中mAP精度值大的 模型作为目标行人重识别网络模型。
聚类方法可采用DBSCAN和K-means算法但不限于二者。其中, 当采用DBSCAN算法时不需要指定聚类数目,该算法可以自主学习 类别数;当采用K-means算法时,需要手动设置类别数,具体地,针 对目标域数据集Market1501、DukeMTMC-reID和MSMT17本发明实 例初始类别数为分别设置为500、700和1000。通过聚类生成的伪标 签进一步微调模型,从而使得模型提取更好的最终特征
Figure BDA0003521202480000101
以取得更好 的聚类结果,反复进行此操作直至模型收敛。
将目标域数据集的训练数据传入时序平均模型进行分类得到类 预测结果,类预测结果即作为精细的软伪标签。
如图4所示,CTTPNet1和CTTPNet2的时序平均模型[1]分别为 EMA_CTTP1和EMA_CTTP2,协同训练时,EMA_CTTP1得到的精细 软伪标签和步骤五中聚类生成的硬伪标签传给CTTPNet2, EMA_CTTP2得到的精细软伪标签和步骤五中聚类生成的硬伪标签传 给CTTPNet1,CTTPNet1和CTTPNet2的预测结果与精细的软伪标签 及硬伪标签计算损失,用以优化模型。
图5表示本发明的算法模型图。输入的图像经过卷积神经网络, 经过维度变换后附上cls token并进行位置编码,之后传入Tiny- Transformer模块,得到的特征表示经过全局子值池化模块得到最终特 征表示,用于聚类。
为验证本发明的准确性和鲁棒性,本发明在四个主流域自适应行 人重识别任务DukeMTMC-reID→Market1501、Market1501→ DukeMTMC-reID、DukeMTMC-reID→MSMT17和Market1501→ MSMT17上进行了实验。
Market1501数据集包含了6个摄像头下1501个行人的32668张 图像。DukeMTMC-reID包含了8个摄像头下的36411张图像,其主 要挑战在于复杂的背景、光照条件和行人遮挡。MSMT17是一个相当 具有挑战性的大型数据集,包含了15个摄像头下4101个行人的126441张图像,图像在不同时段不同的天气条件下拍摄。
表1是实验中的各个参数设置。
表1数据库实验参数设置
Figure BDA0003521202480000111
本发明设计的全局子值池化模块中k值的选择至关重要,特别地, 当k=1时,等价于全局最大池化,当k=n且使用固定值模式时,等价 于全局平均池化。图6为不同选择不同k值时模型的性能对比。
为验证本发明中设计的Tiny-Transformer模块和全局子值池化模 块的提升效果,表3在DukeMTMC-reID→Market1501任务上进行了 消融实验,实验包括:(1)Res/GAP即原始的带全局平均池化的 ResNet50;(2)-F即固定值模式的全局子值池化模块;(3)-L即可学 习模式的全局子值池化模块;(4)TTF即Tiny-Transformer模块的消 融实验对比如表3和表4所示:
表3 Tiny-Transformer模块和全局子值池化模块的消融实验
Figure BDA0003521202480000112
Figure BDA0003521202480000121
从表3可以看出,全局平均池化GAP会给本发明设计的Tiny- Transformer模块带来负面影响,在全局子值池化模块的辅助下,模型 的性能有较大提升,而可学习模式相较固定值模式效果更好。
表4为本发明提出基于Tiny-Transformer模块和全局子值池化模 块的域自适应行人重识别模型CTTPNet的性能评估结果,本发明在两 个最流行的域自适应行人重识别任务DukeMTMC-reID→Market1501 和Market1501→DukeMTMC-reID上均取得了较高的准确率,两个任 务分别简称DTM和MTD。Market1501数据集要比DukeMTMC-reID 简单,后者包含了更复杂的背景和行人遮挡情况,因此MTD任务是 更具挑战性,但本发明依然能取得较好的识别效果,这得益于Tiny- Transformer模块强大的特征表示能力和全局子值池化模块的辨别性 特征保留能力。
表4 Market1501和DukeMTMC-reID数据集互相适应的结果
Figure BDA0003521202480000122
Figure BDA0003521202480000131
表5为本发明提出的基于Tiny-Transformer模块和全局子值池化 模块的域自适应行人重识别模型CTTPNet在DTMS即DukeMTMC- reID→MSMT17任务和MTMS即Market1501→MSMT17任务上的测 试结果,本发明在这两个最具挑战性的域自适应行人重识别任务上均取得了当下最高的准确率。MSMT17数据集是一个大型数据集,其包 含了多个时段多个场景的行人图像,复杂度较高。对于最难的任务 MTMS,本发明取得了目前最佳结果。
表5 Market1501和DukeMTMC-reID数据集迁移到MSMT17数 据集上的结果
Figure BDA0003521202480000132
Figure BDA0003521202480000141
为了更好地展示本发明中设计的Tiny-Transformer模块和全局子 值池化模块的效果,图7给出了CTTPNet的可视化结果。可以看出, 相对于全局平均池化,全局子值池化模块保留了更多辨别性的特征, 而结合了Tiny-Transformer模块和全局子值池化模块的CTTPNet则可 以保留更多的全局信息,捕获到长程依赖。对于视觉Transformer结构 ViT,虽然其捕获到了更多特征,但背景杂波也被关注,这是对聚类不 利的,且与人类视觉不符。本发明设计的CTTPNet能够恰当地捕捉到 尽可能多的辨别性特征,且与人类视觉相符。
上面结合附图对本发明的具体实施方式做了详细说明,但是本发 明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围 内,还可以在不脱离本发明宗旨的前提下做出各种变化。
在本实施例中,利用ResNet50的两个卷积神经网络进行预训练, 得到两个卷积神经网络进行预训练的参数,构建两个行人重识别网络 模型(CTTPNet),将预训练的参数分别输入每个所述行人重识别网络 模型(CTTPNet)中,利用目标域图像集输入所述每个行人重识别网 络模型中进行训练;利用行人重识别网络模型中的Tiny-Transformer 模块在全局信息内进行特征提取,使提取的特征更具有鲁棒性,再经 过全局子值池化模块进行处理得到更加具有辨别性的特征信息,全局 子值池化模块可以在不增加计算复杂度的情况下大幅度的提升模型的 性能,Tiny-Transformer模块和全局子值池化模块结合,可以获得更加 高质量的伪标签,再利用更加高质量的伪标签对模型进行协同训练, 不断的优化模型,从而大幅提高整体模型的性能,提高了行人重识别 的准确性。
请参考图8,图8为本发明实施例提供的一种行人重识别模型训 练装置的结构框图;具体装置可以包括:
构建模型模块100,用于基于预训练的两个神经网络构建第一行 人重识别网络模型和第二行人重识别网络模型,每个行人重识别网络 模型包括卷积神经网络、Transformer模块和全局子值池化模块;
提取特征模块200,用于将目标域图像集分别输入所述第一行人 重识别网络模型和第二行人重识别网络模型中,利用所述每个行人重 识别网络模型中的所述卷积神经网络进行处理,利用所述 Transformer模块提取全局信息,得到中间特征;
计算模块300,用于将所述中间特征输入所述全局子值池化模块 中,利用所述全局子值池化模块进行池化处理,输出最终特征值,并 进行聚类分析,得到所述每个行人重识别网络模型的硬伪标签;
生成软标签模块400,用于构建所述每个行人重识别网络模型的 时序平均模型,将所述目标域图像集分别输入每个时序平均模型中, 得到所述每个时序平均模型软伪标签;
训练优化模块500,用于利用所述硬伪标签和所述软伪标签对所 述第一行人重识别网络模型和第二行人重识别网络模型进行协同训练;
筛选模块600:用于选取两个时序平均模型中mAP精度值大的模 型作为目标行人重识别网络模型。
本实施例的一种行人重识别模型训练的装置用于实现前述的一 种行人重识别模型训练方法,因此一种行人重识别模型训练的装置中 的具体实施方式可见前文中的一种行人重识别模型训练方法的实施例 部分,例如,构建模型模块100,提取特征模块200,计算模块300, 生成软标签模块400、训练优化模块500和筛选模块600分别用于实 现上述一种行人重识别模型训练方法中步骤S101,S102,S103,S104、 S105和S106,所以其具体实施方式可以参照相应的各个部分实施例 的描述,在此不再赘述。
本发明具体实施例还提供了一种行人重识别模型训练的设备,包 括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程 序时实现上述一种行人重识别模型训练方法的步骤。
本发明具体实施例还提供了一种计算机可读存储介质,所述计算 机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行 时实现上述一种行人重识别模型训练方法的步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说 明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分 互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的 方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述 的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者 的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明 中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟 以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束 条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所 描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接 用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块 可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程 ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明所提供的一种行人重识别模型训练方法以及装置 进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式 进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其 核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱 离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些 改进和修饰也落入本发明权利要求的保护范围内。

Claims (10)

1.一种行人重识别模型训练方法,其特征在于,包括:
基于预训练的两个神经网络构建第一行人重识别网络模型和第二行人重识别网络模型,每个行人重识别网络模型包括卷积神经网络、Transformer模块和全局子值池化模块;
将目标域图像集分别输入所述第一行人重识别网络模型和第二行人重识别网络模型中,利用所述每个行人重识别网络模型中的所述卷积神经网络进行处理,利用所述Transformer模块提取全局信息,得到中间特征;
将所述中间特征输入所述全局子值池化模块中,利用所述全局子值池化模块进行池化处理,输出最终特征值,并进行聚类分析,得到所述每个行人重识别网络模型的硬伪标签;
构建所述每个行人重识别网络模型的时序平均模型,将所述目标域图像集分别输入每个时序平均模型中,得到所述每个时序平均模型软伪标签;
利用所述硬伪标签和所述软伪标签对所述第一行人重识别网络模型和第二行人重识别网络模型进行协同训练;
选取两个时序平均模型中mAP精度值大的模型作为目标行人重识别网络模型。
2.如权利要求1所述的方法,其特征在于,所述利用所述每个行人重识别网络模型中的所述卷积神经网络进行处理,利用所述Transformer模块提取全局信息,得到中间特征包括:
将所述目标域图像集输入所述每个行人重识别网络模型中,利用所述卷积神经网络进行处理,并进行空间维度展平得到特征f,将所述特征f附上cls标记得到特征fcls,并对所述特征fcls进行位置编码得到特征fcp
将所述特征fcp输入所述Transformer模块中,利用所述Transformer模块进行处理并进行转置和维度扩展,得到所述中间特征F。
3.如权利要求2所述的方法,其特征在于,所述将所述中间特征输入所述全局子值池化模块中,利用所述全局子值池化模块进行池化处理,输出最终特征值,并进行聚类分析,得到所述每个行人重识别网络模型的硬伪标签包括:
将所述中间特征F输入所述全局子值池化模块中,提取所述全局子值池化模块任一通道的特征Fc,将所述特征Fc中的n个值进行降序排序,选取其中最大的k个值,进行加权求和得到中间特征
Figure FDA0003521202470000021
重复上述步骤得到所述全局子值池化模块中所有通道的中间特征
Figure FDA0003521202470000022
将所述所有通道的中间特征
Figure FDA0003521202470000023
进行拼接得到所述最终特征
Figure FDA0003521202470000024
利用所述最终特征
Figure FDA0003521202470000025
进行聚类,生成所述硬伪标签;
其中
Figure FDA0003521202470000026
∑pi≡1,1≤k≤n。
4.如权利要求1所述的方法,其特征在于,所述Transformer模块衍生于visiontransformer模型中的模块结构。
5.如权利要求1所述的方法,其特征在于,所述构建所述每个行人重识别网络模型的时序平均模型,将所述目标域图像集分别输入每个时序平均模型中,得到所述每个时序平均模型软伪标签包括:
根据E(T)[Θ]=αE(T-1)[Θ]+(1-α)Θ分别构建第一时序平均模型和第二时序平均模型;
将所述目标域图像集分别输入所述第一时序平均模型和所述第二时序平均模型中进行分类,得到第一软伪标签和第二软伪标签;
其中,Θ为行人重识别网络模型的参数,E[Θ]为时序平均模型的参数,T为整个目标域阶段的迭代次数且E(0)[Θ]=Θ,α为范围在[0,1)之间的超参数。
6.如权利要求1所述的方法,其特征在于,所述利用所述硬伪标签和所述软伪标签对所述第一行人重识别网络模型和第二行人重识别网络模型进行协同训练包括:
S61:利用所述第一行人重识别网络模型的软硬伪标签与所述第二行人重识别网络模型的预测结果计算损失,优化所述第一行人重识别网络模型;
S62:利用所述第二行人重识别网络模型的软硬伪标签与所述第一行人重识别网络模型的预测结果计算损失,优化所述第二行人重识别网络模型;
S63:重复步骤S61和步骤S62,直至达到预设训练阈值;
S64:判断所述第一时序平均模型和所述第二时序平均模型的mAP精度值,选取时序平均模型mAP精度高的模型作为所述目标行人重识别网络模型。
7.一种行人重识别模型训练装置,其特征在于,包括:
构建模型模块,用于基于预训练的两个神经网络构建第一行人重识别网络模型和第二行人重识别网络模型,每个行人重识别网络模型包括卷积神经网络、Transformer模块和全局子值池化模块;
提取特征模块,用于将目标域图像集分别输入所述第一行人重识别网络模型和第二行人重识别网络模型中,利用所述每个行人重识别网络模型中的所述卷积神经网络进行处理,利用所述Transformer模块提取全局信息,得到中间特征;
计算模块,用于将所述中间特征输入所述全局子值池化模块中,利用所述全局子值池化模块进行池化处理,输出最终特征值,并进行聚类分析,得到所述每个行人重识别网络模型的硬伪标签;
生成软标签模块,用于构建所述每个行人重识别网络模型的时序平均模型,将所述目标域图像集分别输入每个时序平均模型中,得到所述每个时序平均模型软伪标签;
训练优化模块,用于利用所述硬伪标签和所述软伪标签对所述第一行人重识别网络模型和第二行人重识别网络模型进行协同训练;
筛选模块,用于选取两个时序平均模型中mAP精度值大的模型作为目标行人重识别网络模型。
8.如权利要求7所述的装置,其特征在于,所述提取特征模块包括:
处理单元,用于将所述目标域图像集输入所述每个行人重识别网络模型中,利用所述卷积神经网络进行处理,并进行空间维度展平得到特征f,将所述特征f附上cls标记得到特征fcls,并对所述特征fcls进行位置编码得到特征fcp
转换单元,用于将所述特征fcp输入所述Transformer模块中,利用所述Transformer模块进行处理并进行转置和维度扩展,得到所述中间特征F。
9.一种行人重识别模型训练的设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至6任一项所述一种行人重识别模型训练方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述一种行人重识别模型训练方法的步骤。
CN202210181439.3A 2022-02-25 2022-02-25 一种行人重识别模型训练的方法、装置和设备 Active CN114663685B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210181439.3A CN114663685B (zh) 2022-02-25 2022-02-25 一种行人重识别模型训练的方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210181439.3A CN114663685B (zh) 2022-02-25 2022-02-25 一种行人重识别模型训练的方法、装置和设备

Publications (2)

Publication Number Publication Date
CN114663685A true CN114663685A (zh) 2022-06-24
CN114663685B CN114663685B (zh) 2023-07-04

Family

ID=82027158

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210181439.3A Active CN114663685B (zh) 2022-02-25 2022-02-25 一种行人重识别模型训练的方法、装置和设备

Country Status (1)

Country Link
CN (1) CN114663685B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115497120A (zh) * 2022-09-23 2022-12-20 清华大学 基于Transformer的两步式领域自适应行人再识别方法
CN115601791A (zh) * 2022-11-10 2023-01-13 江南大学(Cn) 基于Multiformer及离群样本重分配的无监督行人重识别方法
WO2024021283A1 (zh) * 2022-07-28 2024-02-01 深圳职业技术学院 基于异构网络特征交互的行人重识别方法、装置及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860678A (zh) * 2020-07-29 2020-10-30 中国矿业大学 一种基于聚类的无监督跨域行人重识别方法
CN113033580A (zh) * 2021-03-31 2021-06-25 北京有竹居网络技术有限公司 图像处理方法、装置、存储介质及电子设备
CN113591545A (zh) * 2021-06-11 2021-11-02 北京师范大学珠海校区 一种基于深度学习的多级特征提取网络行人再识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860678A (zh) * 2020-07-29 2020-10-30 中国矿业大学 一种基于聚类的无监督跨域行人重识别方法
CN113033580A (zh) * 2021-03-31 2021-06-25 北京有竹居网络技术有限公司 图像处理方法、装置、存储介质及电子设备
CN113591545A (zh) * 2021-06-11 2021-11-02 北京师范大学珠海校区 一种基于深度学习的多级特征提取网络行人再识别方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024021283A1 (zh) * 2022-07-28 2024-02-01 深圳职业技术学院 基于异构网络特征交互的行人重识别方法、装置及设备
CN115497120A (zh) * 2022-09-23 2022-12-20 清华大学 基于Transformer的两步式领域自适应行人再识别方法
CN115497120B (zh) * 2022-09-23 2023-12-15 清华大学 基于Transformer的两步式领域自适应行人再识别方法
CN115601791A (zh) * 2022-11-10 2023-01-13 江南大学(Cn) 基于Multiformer及离群样本重分配的无监督行人重识别方法

Also Published As

Publication number Publication date
CN114663685B (zh) 2023-07-04

Similar Documents

Publication Publication Date Title
CN114663685A (zh) 一种行人重识别模型训练的方法、装置和设备
CN110322416B (zh) 图像数据处理方法、装置以及计算机可读存储介质
US6917703B1 (en) Method and apparatus for image analysis of a gabor-wavelet transformed image using a neural network
CN113221663B (zh) 一种实时手语智能识别方法、装置及系统
CN112465801B (zh) 一种分尺度提取掩码特征的实例分割方法
CN112541422A (zh) 光照和头部姿态鲁棒的表情识别方法、设备及存储介质
CN107871103B (zh) 一种人脸认证方法和装置
CN111241924A (zh) 基于尺度估计的人脸检测及对齐方法、装置、存储介质
CN110738153A (zh) 异质人脸图像转换方法、装置、电子设备及存储介质
Kishore et al. Selfie sign language recognition with convolutional neural networks
Ravi et al. Sign language recognition with multi feature fusion and ANN classifier
CN110738201A (zh) 基于融合形态特征的自适应多卷积神经网络文字识别方法
CN113160032A (zh) 一种基于生成对抗网络的无监督多模态图像转换方法
CN110570375B (zh) 一种图像处理方法、装置、电子设置以及存储介质
Lu et al. Image-specific prior adaptation for denoising
CN110874843B (zh) 一种器官图像分割方法和装置
JP2019191973A (ja) 学習画像生成装置及び学習画像生成方法、並びに画像認識装置及び画像認識方法
CN112259086A (zh) 一种基于语谱图合成的语音转换方法
JP4801998B2 (ja) 多値文字辞書生成装置
CN114821174B (zh) 一种基于内容感知的输电线路航拍图像数据清洗方法
CN111242176A (zh) 计算机视觉任务的处理方法、装置及电子系统
Cheng et al. Fractal dimension pattern-based multiresolution analysis for rough estimator of speaker-dependent audio emotion recognition
CN114283431B (zh) 一种基于可微分二值化的文本检测方法
CN115424337A (zh) 基于先验引导的虹膜图像修复系统
CN109409381A (zh) 基于人工智能的家具顶视图的分类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant