CN116612439B

CN116612439B - 模态域适应性和特征鉴别性平衡方法及行人再辨识方法

Info

Publication number: CN116612439B
Application number: CN202310891061.0A
Authority: CN
Inventors: 许恒; 詹思敏; 赵倩倩; 黄麟涵; 陈宇涛; 潘文杰; 吴含笑; 朱建清; 曾焕强
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2023-07-20
Filing date: 2023-07-20
Publication date: 2023-10-31
Anticipated expiration: 2043-07-20
Also published as: CN116612439A

Abstract

本发明公开了一种模态域适应性和特征鉴别性平衡方法及行人再辨识方法，其中的模态域适应性和特征鉴别性平衡方法用于红外光与可见光跨模态行人再辨识。本发明在模态域适应性优化和特征鉴别性优化之间设置一个注意力模块，用模态域适应性优化函数监督注意力模块的掩码学习，并用特征鉴别性优化函数监督注意力模块的反掩码学习，从而借助注意力机制自动平衡模态域适应性和特征鉴别性之间的矛盾，改善特征学习效果，提升红外光与可见光跨模态行人再辨识准确性。本发明可以应用于智能视频监控系统中的行人身份识别、行人轨迹分析等，具有广泛的应用价值。

Description

模态域适应性和特征鉴别性平衡方法及行人再辨识方法

技术领域

本发明涉及机器视觉、深度学习、智能视频监控领域，特别涉及一种模态域适应性和特征鉴别性平衡方法及行人再辨识方法。

背景技术

当前，在红外光与可见光跨模态行人再辨识问题中，模态域适应性和特征鉴别性是相互制约的矛盾体。模态差异的问题使得相同模态的不同身份比不同模态的相同身份更相似。虽然现有跨模态再辨识任务中，有研究设计并改进了最大平均差异来测量可见光与红外光的分布差异，但是无论它们是直接使用最大平均差异还是改进最大平均差异，这些方法都忽略了鉴别性的问题。若过分强调模态域适应性，则鉴别性会受到损害；若过分强调鉴别性，则模态域适应性就会受到伤害，导致在视频监控系统中，行人身份识别、行人轨迹分析等实战能力受到限制。

发明内容

针对现有技术的问题，本发明的目的在于提供一种模态域适应性和特征鉴别性平衡方法及行人再辨识方法，在模态域适应性优化和特征鉴别性优化之间设计一个注意力模块，用模态域适应性优化函数监督注意力模块的掩码学习，并用特征鉴别性优化函数监督注意力模块的反掩码学习，从而借助注意力机制自动平衡模态域适应性和特征鉴别性之间的矛盾，改善特征学习效果，提升红外光与可见光跨模态行人再辨识准确性。

本发明采用如下技术方案：

一方面，一种模态域适应性和特征鉴别性平衡方法，用于红外光和可见光跨模态行人再辨识，方法包括：

步骤1，获取可见光和红外光训练集图像作为训练样本，其中每个图像配有身份标识作为标签；

步骤2，构建双分支深度学习网络模型，所述双分支深度学习网络包括残差网络50和注意力模块；其中，所述残差网络50为包括一个茎层、四个残差组、一个池化层和一个批处理正则化层的序列，茎层、两残差组不共享参数，另外两残差组、池化层和批处理正则化层共享参数；所述注意力模块设置在模态域适应性优化和特征鉴别性优化之间；

步骤3，通过自动平衡模态域适应性优化和特征鉴别性优化来训练模型，获得训练好的模型，如下：

其中，表示总体训练函数，/>分别表示训练样本和标签；/>表示/>经由神经网络Net提取的特征，分为可见光样本特征/>和红外光样本特征/>；/>表示神经网络Net的网络参数；/>表示模态域适应性优化函数；/>表示特征鉴别性优化函数；表示用于模态域适应性优化的掩码，/>表示用于特征鉴别性优化的掩码，表示超参数，用于控制的/>的贡献；G(F)表示模态域适应性优化掩码/>和神经网络Net提取的特征F点乘运算的结果；/>表示点乘运算；/>表示可见光图像对应的模态域适应性优化掩码/>和神经网络Net提取的特征F ^RGB点乘运算的结果，/>表示红外光图像对应的模态域适应性优化掩码/>和神经网络Net提取的特征F ^IR点乘运算的结果。

优选的，模态域适应性优化的掩码采用注意力机制学习获得，如下：

其中，Att表示注意力模块，表示其模型参数。

优选的，特征鉴别性优化的掩码和模态域适应性优化的掩码/>和互为反码，如下：

。

优选的，用于生成特征鉴别性优化的掩码和模态域适应性优化的掩码的注意力模块采用多层感知机MLP实现，并赋予Sigmoid函数结尾以确保生成的掩码取值介于0到1之间，如下：

其中，Att表示用于生成特征鉴别性优化的掩码和模态域适应性优化的掩码/>的注意力模块，/>表示其模型参数，/>表示神经网络Net提取的特征F经过多层感知机生成的注意力特征。

优选的，模态域适应性优化函数利用最大差异平均损失函数/>计算获得，如下：

利用注意力增强后的两种模态特征计算最大差异平均损失函数，如下：

其中，表示可见光行人的第/>张图像注意力增强后的特征，/>表示红外光图像行人的第/>张图像注意力增强后的特征，/>表示特征映射函数，表示一个可再生的希尔伯特空间，/>表示范式计算；

其中，表示可见光行人的第/>张图像经由神经网络Net提取的特征，/>表示红外光行人的第/>张图像经由神经网络Net提取的特征，/>表示可见光对应的模态域适应性优化的掩码，/>表示红外光对应的模态域适应性优化的掩码。

优选的，其特征在于，特征鉴别性优化函数利用标签平滑交叉熵损失函数计算获得，如下：

其中，表示可见光或红外光图像行人的第/>张图像，/>表示类别数量，/>表示第/>个样本/>属于第/>类/>的后验概率，由全连接层输出得到，/>是指示器，如下：

其中，表示一个手动设置的标签平滑参数，通常设置为0.1。

另一方面，一种跨模态行人再辨识方法，基于所述的模态域适应性和特征鉴别性平衡方法，还包括：

使用训练好的模型对输入的查询图像和注册图像集进行特征提取，得到查询图像的特征和注册图像的特征，基于所提取的特征，分别计算查询图像与注册图像之间的距离，并根据距离进行升序排序，选取排名靠前的注册图像作为与查询图像相似的注册图像，输出为跨模态行人再辨识模型识别的结果。

与现有技术相比，本发明的有益效果如下：

本发明在模态域适应性优化和特征鉴别性优化之间设置一个注意力模块，用模态域适应性优化函数监督注意力模块的掩码学习，并用特征鉴别性优化函数监督注意力模块的反掩码学习，从而借助注意力机制自动平衡模态域适应性和特征鉴别性之间的矛盾，改善特征学习效果，提升红外光与可见光跨模态行人再辨识准确性；

本发明可广泛应用于智能视频监控系统中的行人身份识别、行人轨迹分析等，具有广泛的应用价值。

附图说明

图1为本发明实施例的模态域适应性和特征鉴别性平衡方法的流程图；

图2为本发明实施例的模型示意图；

图3为本发明实施例的跨模态行人再辨识方法的流程图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施例对本发明进行详细描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

参见图1所示，本实施例一种模态域适应性和特征鉴别性平衡方法，包括如下步骤：

步骤2，构建双分支深度学习网络模型，所述双分支深度学习网络包括残差网络50和注意力模块；其中，所述残差网络50（即神经网络Resnet50）为包括一个茎层、四个残差组、一个池化层和一个批处理正则化层的序列，茎层、两残差组不共享参数，另外两残差组、池化层和批处理正则化层共享参数；所述注意力模块设置在模态域适应性优化和特征鉴别性优化之间；

步骤3，通过自动平衡模态域适应性优化和特征鉴别性优化来训练模型，获得训练好的模型。

具体的，构建的双分支深度学习网络模型参见图2所示，总体训练函数如下公式（1）所示。

其中，表示总体训练函数，/>分别表示训练样本和标签；/>表示/>经由神经网络Net提取的特征，分为可见光样本特征/>和红外光样本特征/>；/>表示神经网络Net的网络参数；/>表示模态域适应性优化函数；/>表示特征鉴别性优化函数；表示用于模态域适应性优化的掩码，/>表示用于特征鉴别性优化的掩码，表示超参数，用于控制的/>的贡献；/>表示模态域适应性优化掩码/>和神经网络Net提取的特征/>点乘运算的结果；/>表示点乘运算；/>表示可见光图像对应的模态域适应性优化掩码/>和神经网络Net提取的特征F ^RGB点乘运算的结果，/>表示红外光图像对应的模态域适应性优化掩码/>和神经网络Net提取的特征F ^IR点乘运算的结果。

具体的，利用注意力机制获得模态域适应性优化的掩码，如公式(2)所示：

(2)

其中，Att表示注意力模块，表示其模型参数。

具体的，特征鉴别性优化的掩码和模态域适应性优化的掩码/>和互为反码，如公式(3)：

(3)

具体的，采用基于多层感知机的注意力模块用于生成特征鉴别性优化的掩码

和模态域适应性优化的掩码

，并赋予Sigmoid函数结尾以确保生成的掩码取值介于0到1之间，如公式(4)所示：

(4)

其中，Att表示用于生成特征鉴别性优化的掩码和模态域适应性优化的掩码/>的注意力模块，/>表示其模型参数，/>表示神经网络Net提取的特征经过多层感知机生成的注意力特征。

具体的，利用最大差异平均损失函数计算模态域适应性优化函数/>，具体如公式(5)所示。

(5)

利用注意力增强后的两种模态特征计算最大差异平均损失函数，如公式(6)所示：

(6)

具体的，利用标签平滑交叉熵损失函数计算特征鉴别性优化函数/>，具体如公式(8)所示。

(8)

其中，表示可见光或红外光图像行人的第/>张图像，/>表示类别数量，/>表示第/>个样本/>属于第/>类/>的后验概率，由全连接层输出得到，/>是指示器，如公式(9)所示。

(9)

其中，表示一个手动设置的标签平滑参数，通常设置为0.1。

参见图3所示，本实施例还公开了一种跨模态行人再辨识方法，基于所述的模态域适应性和特征鉴别性平衡方法，包括：

步骤3，通过自动平衡模态域适应性优化和特征鉴别性优化来训练模型，获得训练好的模型；

步骤4，使用训练好的模型对输入的查询图像和注册图像集进行特征提取，得到查询图像的特征和注册图像的特征，基于所提取的特征，分别计算查询图像与注册图像之间的距离，并根据距离进行升序排序，选取排名靠前的注册图像作为与查询图像相似的注册图像，输出为跨模态行人再辨识模型识别的结果。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或，单数不排除复数。系统权利要求中陈述的多个单元或系统也可以由一个单元或系统通过软件或者硬件来实现。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神范围。

Claims

1.一种模态域适应性和特征鉴别性平衡方法，其特征在于，自动平衡模态域适应性优化和特征鉴别性优化，总体训练函数如下：

其中，L表示模型总体训练函数，X和Y分别表示训练样本和标签；F表示X经由神经网络Net提取的特征，分为可见光样本特征F^RGB和红外光样本特征F^IR；φ表示神经网络Net的网络参数；L_DA表示模态域适应性优化函数；L_FD表示特征鉴别性优化函数；M_DA(F)表示用于模态域适应性优化的掩码，M_FD(F)表示用于特征鉴别性优化的掩码，λ＞0表示超参数，用于控制的L_DA的贡献；G(F)表示模态域适应性优化掩码M_DA(F)和神经网络Net提取的特征F点乘运算的结果；⊙表示点乘运算；G(F^RGB)表示可见光图像对应的模态域适应性优化掩码M_DA(F^RGB)和神经网络Net提取的特征F^RGB点乘运算的结果，G(F^IR)表示红外光图像对应的模态域适应性优化掩码M_DA(F^IR)和神经网络Net提取的特征F^IR点乘运算的结果；

模态域适应性优化函数L_DA利用最大差异平均损失函数L_MMD计算获得，如下：

L_DA(G(F^RGB)，G(F^IR))＝L_MMD(G(F^RGB)，G(F^IR))；

利用注意力增强后的两种模态特征计算最大差异平均损失函数L_MMD，如下：

其中，G(F_i ^RGB)，i＝1，2，...，K表示可见光行人的第i张图像注意力增强后的特征，G(F_i ^IR)表示红外光图像行人的第i张图像注意力增强后的特征，表示特征映射函数，/>表示一个可再生的希尔伯特空间，||·||表示范式计算；

其中，F_i ^RGB表示可见光行人的第i张图像经由神经网络Net提取的特征，F_i ^IR表示红外光行人的第i张图像经由神经网络Net提取的特征，M_DA(F_i ^RGB)表示可见光对应的模态域适应性优化的掩码，M_DA(F_i ^IR)表示红外光对应的模态域适应性优化的掩码；

特征鉴别性优化函数L_FD利用标签平滑交叉熵损失函数L_LSCE计算获得，如下：

其中，j＝1，2，...，K表示可见光或红外光图像行人的第i张图像，c＝1，2，...，C表示类别数量，g_i，c表示第i个样本X_i属于第j类c_j的后验概率，由全连接层输出得到，τ_i，c是指示器，如下：

其中，σ表示一个手动设置的标签平滑参数，通常设置为0.1。

2.根据权利要求1所述的模态域适应性和特征鉴别性平衡方法，其特征在于，模态域适应性优化的掩码M_DA(F)采用注意力机制学习获得，如下：

M_DA(F)＝Att(F，ω)；

其中，Att表示注意力模块，ω表示其模型参数。

3.根据权利要求1所述的模态域适应性和特征鉴别性平衡方法，其特征在于，特征鉴别性优化的掩码M_FD(F)和模态域适应性优化的掩码M_DA(F)和互为反码，如下：

M_FD（F）＝1-M_DA（F）。

4.根据权利要求1所述的模态域适应性和特征鉴别性平衡方法，其特征在于，用于生成特征鉴别性优化的掩码M_FD（F）和模态域适应性优化的掩码M_DA（F）的注意力模块采用多层感知机MLP实现，并赋予Sigmoid函数结尾以确保生成的掩码取值介于0到1之间，如下：

Att(F，ω)＝Sigmoid(MLP(F)，ω)；

其中，Att表示用于生成特征鉴别性优化的掩码M_FD(F)和模态域适应性优化的掩码M_DA（F）的注意力模块，ω表示其模型参数，MLP(F)表示神经网络Net提取的特征F经过多层感知机生成的注意力特征。

5.一种跨模态行人再辨识方法，其特征在于，基于如权利要求1～4中任意一项所述的模态域适应性和特征鉴别性平衡方法，还包括：

使用通过总体训练函数训练好的模型对输入的查询图像和注册图像进行特征提取，得到查询图像的特征和注册图像的特征，基于所提取的特征，分别计算查询图像与注册图像之间的距离，并根据距离进行升序排序，选取排名靠前的注册图像作为与查询图像相似的注册图像，输出为跨模态行人再辨识模型识别的结果。