CN117351518B

CN117351518B - 一种基于层级差异的无监督跨模态行人重识别方法及系统

Info

Publication number: CN117351518B
Application number: CN202311257780.3A
Authority: CN
Inventors: 叶茫; 杨斌; 陈军
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2023-09-26
Filing date: 2023-09-26
Publication date: 2024-04-19
Anticipated expiration: 2043-09-26
Also published as: CN117351518A

Abstract

本发明公开了一种基于层级差异的无监督跨模态行人重识别方法及系统，采用基于大统一表示学习框架的无监督红外‑可见光跨模态行人重识别网络进行行人重识别。训练策略分三阶段，阶段一提取图像特征并初始化记忆存储向量，后两阶段拼接特征向量对多数据域记忆模块类质心相似度向量进行聚类并进行与同第一阶段的初始化，统一并平滑两模态标签后获得对多层次差异更鲁棒的聚类嵌入编码和伪标签进行对比学习。多轮优化后根据提取特征与待检测特征间的相似度进行行人图片检索。本发明提出的新型网络架构通过分阶段细粒度训练策略以及对标签统一平滑处理，在无人工标注情况下实现了红外与可见光跨模态行人重识别，有效提升了重识别的准确率与召回率。

Description

一种基于层级差异的无监督跨模态行人重识别方法及系统

技术领域

本发明属于图像视频处理技术领域，涉及一种行人重识别方法及系统，具体涉及一种基于层级差异的无监督红外-可见光跨模态行人重识别方法及系统。

背景技术

行人重识别是指对同一个行人在不同摄像头或不同视角下的图像进行识别检索和比对，进而实现跨摄像头的行人跟踪、行为分析等功能。无监督红外-可见光跨模态行人重识别不同于普通的行人重识别，主要区别在于：

(1)传统的行人重识别方法只能检索可见光下拍摄的RGB图像，而实际上摄像头为了在白天和夜晚都能进行监视设置有可见光模式和RGB模式，两种模式下的图像数据分布由于光的波长和背景噪声等一系列因素具有相当大的差异，导致传统行人重识别方法无法有效地进行跨模态检索。而跨模态行人重识别方法考虑了图像数据的模态内和模态间差异并进行了有效的弥合，从而能够跨模态进行人图像的检索。

(2)传统的行人重识别方法和传统的跨模态行人重识别方法都是有监督学习方法，需要进行人工图像标注。而无监督红外重识别方法不需要进行人工图像数据标注而能够直接使用未标注数据进行训练。

该技术在24小时监控系统、安全管理等多种场景下都有着重要的作用，特别是在24小时监控场景下，如进行短时间嫌疑人追踪时，用户在训练时只需要直接输入未进行人工标注的不同摄像头拍摄的行人图片数据库，就可以得到能够跨模态匹配行人图片的检索模型，使用时将给出的嫌疑人图片输入模型得到可以跨模态匹配的特征，在待查询向量数据库中进行相似度比对即可快速得到最接近该嫌疑人的图片和人物身份数据。无监督红外-可见光跨模态行人重识别方法实现了跨模态图片数据检索，可以适应24小时视频监控的双模态图像场景，同时，无需标注的无监督训练方法大量地节省了传统方法人力标注耗费的大量时间和经济成本，有效提高了模型适应真实应用场景的能力，对于检索模型实际落地，节省部署成本等具有重大意义。

当前无监督红外-可见光跨模态行人重识别主要面临以下挑战：在无监督红外-可见光跨模态行人重识别中，摄像机间和模态间的无监督设置和多层次差异使其更具挑战性。与无监督的单模态行人重识别不同。相机间差异和跨模态差异共同构成多层次的差异，这使得无监督红外-可见光跨模态行人重识别模型的学习更加复杂，例如，导致聚类不一致性和模棱两可的跨模态标签关联，如图1所示。分别在这两种模态内，不同编号的相机拍摄图片之间的差异是不同的。大的差异可能会造成聚类分裂而导致身份分裂，小的变异可能会造成聚类合并而导致身份合并，使得两种模态的集群数量不一致，并大大增加跨模态标签关联的难度。更重要的是，层级差异不仅仅是相机变化加上模态差异，而是特征和跨模态标签的复杂错位，阻碍了不同模式中同一人的检索。

中国专利文献号CN116229510A申请公开(公告)日2023.06.06，提供了一种无监督跨模态行人重识别方法，包括以下步骤：将三个单通道的行人可见光数据集分别与红外数据集中对应行人图像组合；利用动量编码器M对组合后的进行特征提取及聚类，确定各个簇的训练样本集合，并确定伪标签和每个簇的质心；计算各个簇中图像的交并比，得到的交并比作为聚类一致性矩阵中的元素，对矩阵中达到阈值的元素所对应簇的交集作为精炼结果，利用softmax损失函数、困难三元组损失函数以及模态对比损失函数对E进行优化，基于优化后的E对M进行更新；利用更新后的M对待测数据集中三通道可见光及红外的行人图像进行识别。和基于多层次框架的家具检索相比，该方法仅关注弥合模态间差异以及通过细粒度通道级数据来获得更稳定的伪标签。没有涉及到多层次差异导致的处跨数据域聚类不一致的问题，且每一轮训练只有一个训练阶段。

发明内容

本发明的目的在于解决多层次数据域之间的差异导致的聚类问题，提供了一种基于层级差异的无监督红外-可见光跨模态行人重识别方法及系统，采用自下而上的面向多个不同层次数据域的训练策略和统一并平滑两模态标签的处理模块，有效提高了采用无监督方式训练的跨模态行人重识别模型的准确率和召回率。

本发明的方法采用的技术方案是：一种基于层级差异的无监督跨模态行人重识别方法，采用基于大统一表示学习框架的无监督红外-可见光跨模态行人重识别网络，进行行人重识别；

所述大统一表示学习框架的无监督红外-可见光跨模态行人重识别网络，包括随机通道增强模块，双流残差连接网络浅层模态专用模块，双流残差连接网络深层共享模块，和双流残差连接网络自监督信息恢复模块；

所述网络的随机通道增强模块，包括通道交换增强层，通道擦除层，随机灰度转换层以及随机水平翻转层；

所述双流残差连接网络浅层模态专用模块，由两个参数不共享的卷积块构成，一个卷积块分为四层，第一层是一个卷积层，第二层为BN归一化层，第三层为Relu激活函数层，第四层是一个卷积层；

所述双流残差连接网络深层模态共享模块，由四层共享参数的所述双流残差链接网络浅层模态中的残差块构成，每一个残差块分为三层，第一层是一个卷积层，第二层为BN归一化层，第三层为Relu激活函数层，最后整个残差块输出为第三层输出与残差块原始输入的加和；

所述双流残差连接网络自监督信息恢复模块，由两个参数独立的残差块集合构成，由所述双流残差连接网络深层模态共享模块的输出作为输入，分别通过两个参数独立的，由四个残差块堆叠而成的模态专用监督信息恢复模块，最终得到与所述双流残差连接网络深层模态共享模块输入相同尺寸的数据，并用该数据与所述双流残差连接网络深层模态共享模块的输入数据做L2loss。

作为优选，所述网络的随机通道增强模块，首先以相等概率对可见光行人图片的三个通道的数据全部随机替换成任意一个通道的数据，然后对上述增强过的图片进行通道级擦除操作，即在每一个通道都随机擦除30*30大小的数据替换成0，然后以0.5的概率对上述增强过的图片进行随机灰度转换，即把RGB值进行灰度值计算以后替换到三个通道，最后进行FP水平翻转，对目前为止得到的增强图片以0.5的概率进行左右翻转，从而得到最终增强过的可见光行人图片。

作为优选，所述大统一表示学习框架的无监督红外-可见光跨模态行人重识别网络，是训练好的大统一表示学习框架的无监督红外-可见光跨模态行人重识别网络；

训练过程包括以下步骤：

步骤1：分别采集可见光模态和红外模态内的若干个行人图像，构建可见光数据集和红外数据集；并将数据集分为训练集和测试集；

步骤2：利用大统一表示学习框架的无监督红外-可见光跨模态行人重识别网络中的骨干网络，即双流残差连接网络对可见光模态和红外模态的图像数据进行特征提取，分别得到两个模态图像数据的特征集，再进行每一轮三阶段的不同层次训练，获得训练好的网络。

作为优选，步骤2中所述三阶段的不同层次训练，具体实现包括以下子步骤：

步骤2.1：相机内数据域训练；

在多个相同相机标号的特征集中进行聚类，直接对每个训练样本特征使用DBSCAN聚类算法分配伪标签，根据伪标签计算每个簇的质心，初始化两个模态各个摄像头下的记忆存储单元；然后分别利用带蒸馏参数的对比损失函数来更新特征提取器和动量更新策略来分别更新两个模态各个摄像头下的记忆存储单元；

步骤2.2：同模态相机间数据域训练；

在两个模态的特征集中进行聚类，通过跨记忆关联编码得到每个特征相对于相同模态下不同摄像头记忆存储单元中质心的相似度，将所有摄像头记忆存储单元对应的相似度向量进行拼接作为DBSCAN聚类算法的嵌入编码，生成伪标签，据此计算每个簇的质心，初始化两种模态对应的记忆存储单元，然后分别利用带蒸馏参数的对比损失函数来更新特征提取器和动量更新策略来分别更新两个模态对应的记忆存储单元；

步骤2.3：跨模态数据域训练；

直接对所有数据进行聚类，通过跨记忆关联编码得到每个特征相对于两个模态记忆存储单元中质心的相似度，拼接后作为DBSCAN聚类算法的嵌入编码，生成伪标签，据此计算每个簇的质心，初始化模态共享的记忆存储单元，对比损失训练特征提取器，动量更新策略更新记忆存储模块。

作为优选，步骤2.1中，所述对比损失函数的为：

其中q_ic代表红外模态第c个摄像头的特征，τ是控制蒸馏温度的参数，代表红外模态第c个摄像头的特征集中与q_ic相同id的质心，/>代表红外模态第c个摄像头第k个行人id的质心；q_vc代表可见光模态第c个摄像头的特征，/>代表可见光模态第c个摄像头的特征集中与q_vc相同id的质心，/>代表可见光模态第c个摄像头第k个行人id的质心。

作为优选，步骤2.2中，在跨记忆关联编码模块中给定一个记忆存储单元Mn作为概率映射矩阵，计算跨记忆关联编码e(q|Mn)为：

e(q|M_n)＝[p(1|q，M_n)，p(2|q，M_n)，...，p(C|q，M_n)]；

其中m_y表示id标签为y的memory质心特征，p(c|q，Mn)是特征q与id为c的关联概率，σ是代表蒸馏温度的超参数，C表示一个数据域(同模态内或同摄像头内)中不同行人id的总数；对于概率映射矩阵Mn，在跨摄像头训练中，是由第n个摄像头数据域内训练产生的行人id聚类记忆质心的集合。同样，在跨模态训练阶段，概率映射矩阵Mn是由单个模态内(跨不同摄像机)训练产生的行人id聚类记忆质心的集合。

作为优选，在训练的后N轮中，需要对生成的伪标签矩阵迸行跨模态标签统一和同模态标签平滑处理，用处理后的标签作为最终的伪标签；

所述跨模态标签统一，是通过对同批次内所有不同模态的图像对计算相似度后每行取最高相似度的k个值，从而计算出跨模态标签统一矩阵，再对红外矩阵进行左乘，最后对得到的标签矩阵每行最大值位置取1其他取0得到统一为RGB模态的标签矩阵；

所述同模态标签平滑，是通过对同批次内可见光模态的图像对计算相似度后取最高相似度的l个值，从而计算出同模态标签平滑矩阵，再对前一步得到的标签矩阵进行左乘，最后得到的标签矩阵进行每行最大值位置取1其他取0得到最终平滑后的RGB标签；

其中，N、k、l为预设值。

作为优选，利用训练好的特征提取器对测试集中的可见光图像以及红外图像分别进行特征提取，基于特征向量之间的cosine距离检索得到特定身份的行人图像。为了测试本方法效果，根据待查询图像和检索到的图像的相似度从高到低进行排序，采用累积匹配特征(CMC)、平均精度(mAP)和平均负惩罚(mINP)作为测试评估指标。每一次测试都对测试集中华的图库集选择进行十次试验，并对十次实验得到的三个指标分别取均值作为最终稳定而可靠的性能指标。

本发明的系统采用的技术方案是：一种基于层级差异的无监督跨模态行人重识别系统，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现所述的基于层级差异的无监督跨模态行人重识别方法。

传统的无监督跨模态红外可见光行人重识别方法聚焦于解决弥合模态差异的问题而忽略了多数据域之间存在的多层次差异，如不同摄像头之间数据域差异和红外模态与可见光模态之间的差异，而在模态间差异中又含有多个摄像头之间的差异，上述多层次差异使得这些传统的方法性能受到了一定限制。而本发明创新性地使用跨记忆储存关联嵌入模块来探索多层次数据域的信息，自底向上，从细粒度的数据域(如不同摄像头)到较粗粒度的数据域(如不同模态)层层训练，弥合不同数据域之间的差异，使得模型最终学习到能够对抗多层次差异的鲁棒性强的统一形式的数据特征。同时，在跨模态训练阶段时分别使用异质亲和矩阵和同质结构矩阵来统一不同模态特征表示和平滑模态内特征表示，这大大增强了所学特征的跨模态通用性，并确保了两种模态标签的语义一致性。

综上，本发明既考虑了传统跨模态行人重识别中的跨模态数据差异问题又考虑了无监督情况下出现的由于多层次差异导致的聚类不一致问题，提出了一种新的自下而上的数据域学习策略和一个跨模态标签统一模块，使得模型在保留传统方法弥合跨模态差异的基础上最终学习到能够对抗多层次差异的鲁棒性强的统一形式的数据特征，大大增强了所学特征的跨模态通用性，并确保了两种模态标签的语义一致性。显著提高了检索模型的准确率和召回率，在SYSU-MM01和RegDB数据集上进行的大量实验表明，本发明效果显著优于现有的无监督红外可见光跨模态行人重识别方法，达到目前为止该类方法的最优效果，甚至超过了某些有监督方法，进一步缩小了有监督和无监督跨模态行人重识别效果之间的差距。

附图说明

下面使用实施例，以及具体实施方式作进一步说明本文的技术方案。另外，在说明技术方案的过程中，也使用了一些附图。对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图以及本发明的意图。

图1为本发明背景技术中存在问题展示图；

图2为本发明实施例的大统一表示学习框架的无监督红外-可见光跨模态行人重识别骨干网络结构图；

图3为本发明实施例的网络训练流程图；

图4为本发明实施例中网络第一阶段训练原理图；

图5为本发明实施例中网络第二阶段训练原理图；

图6为本发明实施例中网络第三阶段训练原理图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

本实施例针对现有无监督红外-可见光跨模态行人重识别技术的空白与不足，提供一种有效提高无人工标注情况下跨模态行人图片检索准确率和召回率的方法，有效减少多层次数据域的差异所带来的聚类不一致和模糊等错误。

本实施例提供的一种基于层级差异的无监督跨模态行人重识别方法，采用基于大统一表示学习框架的无监督红外-可见光跨模态行人重识别网络，进行行人重识别；

请见图2，所述大统一表示学习框架的无监督红外-可见光跨模态行人重识别网络，包括随机通道增强模块，双流残差连接网络浅层模态专用模块，双流残差连接网络深层共享模块，和双流残差连接网络自监督信息恢复模块；

所述网络的随机通道增强模块，包括通道交换增强层，通道擦除层，随机灰度转换层以及随机水平翻转层；首先以相等概率对可见光行人图片的三个通道的数据全部随机替换成任意一个通道的数据，然后对上述增强过的图片进行通道级擦除操作，即在每一个通道都随机擦除30*30大小的数据替换成0，然后以0.5的概率对上述增强过的图片进行随机灰度转换，即把RGB值进行灰度值计算以后替换到三个通道，最后进行FP水平翻转，对目前为止得到的增强图片以0.5的概率进行左右翻转，从而得到最终增强过的可见光行人图片。

所述双流残差连接网络浅层模态专用模块，由两个参数不共享的卷积块构成，一个卷积块分为四层，第一层是一个卷积核大小为7，步长为2，填充为3的卷积层，第二层为BN归一化层，第三层为Relu激活函数层，第四层是一个卷积核大小为1，步长为1，填充为0的卷积层，第一层输出为第二层输入，第二层输出为第三层输入，最后整个卷积块输出为第三层输出；由上述的两个并行的参数独立更新的卷积块组成双流残差连接网络浅层模态专用模块；

所述双流残差连接网络深层模态共享模块由四层共享参数的所述双流残差链接网络浅层模态中的残差块构成，每一个残差块分为三层，第一层是一个卷积核大小为3，步长为1，填充为1的卷积层，第二层为BN归一化层，第三层为Relu激活函数层，第一层输出为第二层输入，第二层输出为第三层输入，最后整个残差块输出为第三层输出与残差块原始输入的加和。上一层残差块的输出是下一层残差块的输入。该模块输入为双流残差连接网络浅层模态专用模块的输出，最终输出为连续通过四层残差块的输入进行GEM池化得到最终的特征。

所述自监督信息恢复模块由两个参数独立的残差块集合构成，由所述双流残差连接网络深层模态共享模块的输出作为输入，分别通过两个参数独立的，由四个残差块堆叠而成的模态专用监督信息恢复模块，最终得到与所述双流残差连接网络深层模态共享模块输入相同尺寸的数据，并用该数据与所述双流残差连接网络深层模态共享模块的输入数据做L2loss，训练时利用此loss更新模型参数，保证共享层输出能够被尽可能的还原成专用层输入，即，使提取到的特征尽可能少地丢失原有数据的信息。

所述所有模型中，除双流残差网络自监督信息恢复模块使用凯明参数初始化策略以外，其余的模块均使用imagenet1000分类任务预训练得到初始化参数，预训练时使用单流网络，而正式训练初始化时其中所述双流残差连接网络浅层模态专用模块中两个卷积块使用相同的，单流网络的参数进行初始化，但是训练时由两个模态的数据独立更新参数；所述双流残差连接网络深层模态共享模块由两个模态的数据共通更新参数。

在一种实施方式中，所述大统一表示学习框架的无监督红外-可见光跨模态行人重识别网络，是训练好的大统一表示学习框架的无监督红外-可见光跨模态行人重识别网络；

在一种实施方式中，采用三阶段训练策略，首先在第一个阶段对图像数据进行特征提取，并用提取的特征直接进行聚类，用类均值作为初始记忆存储向量，然后在后两个阶段使用特征向量对多个数据域的记忆存储模块的所有身份质心的相似度的拼接向量进行聚类并进行与第一阶段类似的初始化，通过统一并平滑两模态标签的处理模块，获得对多层次差异更鲁棒的聚类嵌入编码和伪标签进行对比学习，多轮优化后，得到训练好的特征提取器。最后根据特征向量与待检测特征数据之间的cosine距离进行跨模态相似行人图片检索。

具体实施时，参见图3，流程包括以下步骤：

在一种实施方式中，步骤2中所述三阶段的不同层次训练，具体实现包括以下子步骤：

步骤2.1：第一训练阶段；

参照图4中Intra-camera Training。利用双流残差连接网络对两个模态的图像数据进行特征提取，分别得到两个模态图像数据的特征集。双流残差网络由浅层模态特定层和共享层组成，其预训练可利用现有的图片分类预训练模型，如利用当前普遍应用的ResNet50图片分类模型，该模型在包含高度可变性的大规模图片数据集ImageNet上预训练，对于图片分类具有较高的准确度。

具体实施时，上述双流残差网络模型可参考文献：

Bin Yang，Mang Ye，Jun Chen，and Zesen Wu，“Augmented dual-contrastiveaggregation learning for Unsupervised visible-infrared person re-identification”，2022ACM Multimedia，pp2843–2851，2022.

ImageNet数据集可参考文献：

Jia Deng，Wei Dong，R.Socher，Li-Jia Li，Kai Li，and Li Fei-Fei，“ImageNet:A large-scale hierarchicalimage database，”2009IEEE Conf.Comput.Vis.PatternRecognit.，pp.248–255，2009.

然后进行相同相机内数据域训练，在多个相同相机标号的特征集中进行聚类，直接对每个训练样本特征使用DBSCAN聚类算法分配伪标签，根据伪标签计算每个标签对应所有特征向量的平均值得到每个簇的质心，用这些质心初始化两个模态中各个摄像头数据域下的记忆存储单元。然后分别利用带蒸馏参数的对比损失函数来更新特征提取器和利用动量更新策略来分别更新两个模态各个摄像头下的记忆存储单元。其中对比损失函数的表达式为：

其中q_ic代表红外模态第c个摄像头的特征，τ是控制蒸馏温度的参数，经过实验验证取值为0.05时效果最佳，代表红外模态第c个摄像头的特征集中与q_ic相同id的质心，代表红外模态第c个摄像头第k个行人id的质心；q_vc代表可见光模态第c个摄像头的特征，/>代表可见光模态第c个摄像头的特征集中与q_vc相同id的质心，/>代表可见光模态第c个摄像头第k个行人id的质心。

步骤2.2：第二训练阶段；

参照图5中Inter-camera Training。同步骤2.1，先提取图像数据特征，然后进行同模态相机间数据域训练，通过跨记忆关联编码模块得到每个特征相对于相同模态下不同摄像头记忆存储单元中质心的相似度。在跨记忆关联编码模块中给定一个记忆存储单元M_n作为概率映射矩阵，计算跨记忆关联编码e(q|Mn)的过程可以表示为：

e(q|M_n)＝[p(1|q，M_n)，p(2|q，M_n)，...，p(C|q，M_n)]；

本实施例将所有摄像头记忆存储单元与单个特征对应的相似度向量进行拼接，假设一共有N个摄像头存储单元，则得到嵌入编码E(q)：

E(q)＝[e(q|M₁)，q(q|M₂)，…，e(q|M_N)]；

以此作为DBSCAN聚类算法的嵌入编码，在两个模态的特征集中进行聚类，生成伪标签，据此计算每个簇的质心，初始化两个模态对应的两个记忆存储单元，然后分别利用同步骤2.1的带蒸馏参数的对比损失函数来更新特征提取器和利用动量更新策略来分别更新两个模态对应的记忆存储单元。

步骤2.3：第三训练阶段

参照图6中Inter-modality Training，同步骤2.1先提取图像数据特征进行跨模态数据域训练，通过跨记忆关联编码得到每个特征相对于两个模态记忆存储单元中质心的相似度，将两个模态记忆存储单元对应的相似度向量进行拼接作为DBSCAN聚类算法的嵌入编码，直接对所有数据进行聚类，生成伪标签，据此计算每个簇的质心，初始化模态共享的唯一记忆存储单元，然后利用带蒸馏参数的对比损失函数来更新特征提取器和动量更新策略来更新该记忆存储单元。在训练的后20轮中还需要通过标签统一模块对生成的伪标签矩阵进行跨模态标签统一和平滑处理，用处理后的标签作为最终的伪标签。标签统一模块处理过程如下：

表示n张红外图像；

表示m张可见光图像；

给定一个实例对<x_m，x_n＞，本实施例计算此实例对的相似度：

其中f_θ是一个特征提取器。

然后计算异质相似度矩阵：

本实施例只保留P每行最大k个值，然后就可以通过矩阵乘法把红外伪标签转换成可见光伪标签，可以写作：

得到左式矩阵后取每行最大数值对应的位置为1其他为0。其中Y_i是红外伪标签矩阵，如果第m个特征被标为n则Y_i矩阵的m行n列元素为0。

然后计算同质相似度矩阵：

本实施例只保留P每行最大k个值，然后就可以通过矩阵乘法对已得到的伪标签矩阵进行平滑，可以写作：其中右式矩阵是可见光伪标签矩阵，如果第m个特征被标为n则该矩阵的m行n列元素为0。

在一种实施方式中，利用训练好的特征提取器对测试集中的可见光图像以及红外图像分别进行特征提取，基于特征向量之间的cosine距离检索得到特定身份的行人图像。为了测试本方法效果，根据待查询图像和检索到的图像的相似度从高到低进行排序，采用累积匹配特征(CMC)、平均精度(mAP)和平均负惩罚(mINP)作为测试评估指标。每一次测试都对测试集中华的图库集选择进行十次试验，并对十次实验得到的三个指标分别取均值作为最终稳定而可靠的性能指标。

接下来通过实验对本发明做进一步的阐述。

本实验用将要检索的图片(称为query或者probe)，在底库gallery中，根据计算出的特征距离进行排序，选出相似度最高的几张图片，从而达到目标检索的目的。

本实验使用SYSU-MM01、RegDB数据集。

SYSU-MM01数据集是一个大规模VI-ReID数据集。由2台红外热像仪和4台可见光相机组成。其中，SYSU-MM01包含395个身份，包括22258张可见光图像和11909张近红外图像用于训练。在测试中，查询集包含96个人和3803张红外图像，待查询集包含301张随机选取的可见光图像。同时，本实验采用全搜索和室内搜索模式进行评估。

RegDB数据集由双摄像头系统中的一台可见光和一台红外摄像机采集。RegDB有412人，每个人包含10张红外图像和10张可见光图像。本实验随机选择206人进行训练，另外206人进行测试，测试有两种模式，即热成像到可见光成像模式和可见光成像到热成像模式。和可见光到红外两种模式。

本实验在每个阶段开始时，执行DBSCAN以生成伪标签。在训练过程中，人物图像尺寸被调整为288×144。每个批次采样16个身份(每个身份包含16个实例)。本实验采用水平翻转、随机裁剪和随机擦除来进行数据增强。此外，本实验在增强的可见流中同时使用了信道增强(CA)。采用Adam优化器训练模型，初始学习率为3.5e-4。每20个epochs将学习率降至之前值的1/10。模型总共训练50个epochs。CLU模块在最后20个epochs加入。式6中的σ设置为0.05。

为了公平比较，数据集的处理和评估指标遵循组合图像检索中的通用做法。本实验采用累积匹配特性(CMC)、平均精度(mAP)和平均负惩罚(mINP)作为评价指标。按照现有方法，本实验对图库集选择进行10次试验，计算平均性能以获得稳定的性能。

训练阶段：按批分别输入8个身份(每个身份包含16个实例)的可见光模态图像数据和8个身份的红外模态图像数据，在每轮三个训练阶段中，每阶段根据详细步骤中所述策略初始化设定的记忆存储，前向传播计算各项损失，反向传播更新网络参数，经过多次迭代得到最终的网络模型。

测试阶段：在测试集的查询集中随机挑选，输入固定批次大小的图片，对待查询集中的不同模态图片进行特征提取和相似度计算，挑选出相似度最高的图片进行降序排序，然后计算相应的评价指标得到测试结果，能够反应模型的综合性能。

为了验证本发明的有效性，将本发明与现有的无监督红外-可见光跨模态行人重识别方法(以下简称USL-VI-REID)进行对比，现有的USL-VI-REID方法主要有：

(1)ADCA：Bin Yang，Mang Ye，Jun Chen，and Zesen Wu，“Augmented dual-contrastive aggregation learning for unsupervised visible-infrared person re-identification，”in Proceedings of theACM MM Multimedia，2022，page 2843–2851.

(2)H2H：Wenqi Liang，Guangcong Wang，Jianhuang Lai，and Xiaohua Xie，“Homogeneous-to-heterogeneous:Unsupervised learning for rgb-infrared personre-identification，”in Proceedings of theIEEE TIP Transactions on ImageProcessing，2021，pp6392–6407.

(3)OTLA：Jiangming Wang，Zhizhong Zhang，Mingang Chen，Yi Zhang，CongWang，Bin Sheng，Yanyun Qu，and Yuan Xie，“Optimal transport for label-efficientvisible-infrared person re-identification，”in Proceedings of the EuropeanConference on Computer Vision，2022，pp 93-109.

(4)PPLR：Yoonki Cho，Woo Jae Kim，Seunghoon Hong，and Sung-Eui Yoon，“Part-based pseudo label refinement for unsupervised person re-identification，”in Proceedings of the IEEE/CVF Conference on Computer Visionand Pattern Recognition，2022，pp 7308–7318.

在SYSU-MM01数据集上进行测试，结果见表1：

表1

在RegDB数据集上进行测试，结果见表2：

表2

本实验报告了4种无监督跨模态行人重识别方法与本发明进行比较。一些先进的无监督方法，如IICS[40]、CAP[32]和ICE[2]，也使用相机标签进行训练。由于RegDB数据集只有一个可见光摄像机和一个红外摄像机，因此在RegDB任务中只有模式内和模式间的训练。本实验还报告了GUR在SYSU-MM01上不使用相机信息的结果，以进行比较。

与无监督方法的比较。如表1和表2所示，本发明的方法的性能超过了目前领先的无监督方法。更确切地说，本发明的GUR在SYSUMM01(全搜索)和RegDB(可见光到红外)上分别达到了63.51％和73.91％的rank-1准确率。在SYSUMM01和RegDB数据集上，GUR的秩-1准确率分别比ADCA[42]和H2H高出约20％和30％。需要注意的是，与之前的无监督方法相比，本发明的GUR在没有相机标签的情况下也达到了最好的准确率。ADCA、H2H和OTLA侧重于解决模态差异问题。然而，对层次差异的忽视限制了进一步的改进。本发明的方法采用了更合理的自下而上的领域学习框架和CLU模块，确保了对层次差异的鲁棒性，并增强了对模态不变特征的学习。通过本发明独到的解决方案，GUR与现有的无监督方法相比取得了更优越的性能。此外，在SYSU-MM01数据集中，每个摄像头内的标签分布是不平衡的，即有些摄像头只包含部分身份，这增加了学习统一表示的难度。出色的表现证明了我们的方法在学习不平衡标签分布数据时同样有效。

本发明方法的优异性能得益于对分层差异的深入设计。本发明的方法有三大优势1)本发明的学习框架具有高度的可扩展性，可用于任何具有记忆模块的对比学习，以处理领域差距。2)学习到的特征对不同层次的领域差异具有鲁棒性。3)本发明的方法也可用于其他跨模态检索任务，例如可见光-红外人脸识别。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于层级差异的无监督跨模态行人重识别方法，其特征在于：采用基于大统一表示学习框架的无监督红外-可见光跨模态行人重识别网络，进行行人重识别；

所述双流残差连接网络自监督信息恢复模块，由两个参数独立的残差块集合构成，由所述双流残差连接网络深层模态共享模块的输出作为输入，分别通过两个参数独立的，由四个残差块堆叠而成的模态专用监督信息恢复模块，最终得到与所述双流残差连接网络深层模态共享模块输入相同尺寸的数据，并用该数据与所述双流残差连接网络深层模态共享模块的输入数据做L2loss；

所述大统一表示学习框架的无监督红外-可见光跨模态行人重识别网络，是训练好的大统一表示学习框架的无监督红外-可见光跨模态行人重识别网络；

训练过程包括以下步骤：

步骤2：利用大统一表示学习框架的无监督红外-可见光跨模态行人重识别网络中的骨干网络，即双流残差连接网络对可见光模态和红外模态的图像数据进行特征提取，分别得到两个模态图像数据的特征集，再进行每一轮三阶段的不同层次训练，获得训练好的网络；

所述三阶段的不同层次训练，具体实现包括以下子步骤：

步骤2.1：相机内数据域训练；

步骤2.2：同模态相机间数据域训练；

步骤2.3：跨模态数据域训练；

2.根据权利要求1所述的基于层级差异的无监督跨模态行人重识别方法，其特征在于：所述网络的随机通道增强模块，首先以相等概率对可见光行人图片的三个通道的数据全部随机替换成任意一个通道的数据，然后对上述增强过的图片进行通道级擦除操作，即在每一个通道都随机擦除30*30大小的数据替换成0，然后以0.5的概率对上述增强过的图片进行随机灰度转换，即把RGB值进行灰度值计算以后替换到三个通道，最后进行FP水平翻转，对目前为止得到的增强图片以0.5的概率进行左右翻转，从而得到最终增强过的可见光行人图片。

3.根据权利要求1所述的基于层级差异的无监督跨模态行人重识别方法，其特征在于：步骤2.1中，所述对比损失函数的为：

4.根据权利要求1所述的基于层级差异的无监督跨模态行人重识别方法，其特征在于：步骤2.2中，在跨记忆关联编码模块中给定一个记忆存储单元Mn作为概率映射矩阵，计算跨记忆关联编码e(q|Mn)为：

e(q|M_n)＝[p(1|q，M_n)，p(2|q，M_n)，...，p(C|q，M_n)]；

其中m_y表示id标签为y的memory质心特征，p(c|q，Mn)是特征q与id为c的关联概率，σ是代表蒸馏温度的超参数，C表示一个数据域中不同行人id的总数；对于概率映射矩阵Mn，在跨摄像头训练中，是由第n个摄像头数据域内训练产生的行人id聚类记忆质心的集合；同样，在跨模态训练阶段，概率映射矩阵Mn是由单个模态内训练产生的行人id聚类记忆质心的集合。

5.根据权利要求1所述的基于层级差异的无监督跨模态行人重识别方法，其特征在于：在训练的后N轮中，需要对生成的伪标签矩阵迸行跨模态标签统一和同模态标签平滑处理，用处理后的标签作为最终的伪标签；

其中，N、k、l为预设值。

6.根据权利要求2-5任一项所述的基于层级差异的无监督跨模态行人重识别方法，其特征在于：利用训练好的特征提取器对测试集中的可见光图像以及红外图像分别进行特征提取，基于特征向量之间的cosine距离检索得到特定身份的行人图像；根据待查询图像和检索到的图像的相似度从高到低进行排序，采用累积匹配特征、平均精度和平均负惩罚作为测试评估指标；每一次测试都对测试集中华的图库集选择进行十次试验，并对十次实验得到的三个指标分别取均值作为最终稳定而可靠的性能指标。

7.一种基于层级差异的无监督跨模态行人重识别系统，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至6中任一项所述的基于层级差异的无监督跨模态行人重识别方法。