CN112766217A

CN112766217A - 基于解纠缠和特征级差异学习的跨模态行人重识别方法

Info

Publication number: CN112766217A
Application number: CN202110131884.4A
Authority: CN
Inventors: 梁轶磊; 韩华; 孔勇; 黄丽
Original assignee: Shanghai University of Engineering Science
Current assignee: Shanghai University of Engineering Science
Priority date: 2021-01-30
Filing date: 2021-01-30
Publication date: 2021-05-07
Anticipated expiration: 2041-01-30
Also published as: CN112766217B

Abstract

本发明涉及一种基于解纠缠和特征级差异学习的跨模态行人重识别方法，包括：采用可见光摄像机和红外摄像机采集多张行人图片形成数据集；选取可见光模态的两张图像记为x₁和x₂、选取红外模态的两张图像记为y₁和y₃，图像x₁和y₁共享身份信息，图像x₂和y₃不共享身份信息；获取自编码模型，分别对图像x₁、x₂、y₁和y₃解纠缠出风格特征和内容特征；获取生成与判别网络，对风格特征和内容特征进行重构得到多个新图像；获取特征级差异学习网络，对多个新图像和原图像进行特征学习，获取行人识别结果。与现有技术相比，本发明解决了可能存在的跨模态图像间内容信息(如姿态、体态)相近的问题、提升了模型判别的泛化能力、减少了模态间和模态内的差异。

Description

基于解纠缠和特征级差异学习的跨模态行人重识别方法

技术领域

本发明涉及行人重识别方法领域，尤其是涉及一种基于解纠缠和特征级差异学习的跨模态行人重识别方法。

背景技术

近年来，随着计算机与人工智能技术的大力发展，视频监控系统大量普及。视频监控系统的广泛应用，有效地降低了公安机关的办案周期，在打击犯罪、维护社会治安中发挥着重要的作用。在实际应用中，在海量的视频数据中，针对特定目标的识别与检索是日常安保与破案地重要需求。随着摄像机监控网络的普遍布局，仅仅依靠人工的方法进行重识别也变得越来越不现实。因此，迫切需要一种技术来减轻有限人力资源的负担、增强识别的能力。

行人重识别旨在摄像机视图之间匹配行人图像，能够根据行人的穿着、体态、发型等信息认知行人，其在视频监控和跟踪等计算机视觉任务中具有潜在的广泛应用价值。然而，传统的行人重识别只能处理彩色图像间的单模态问题，对于黑暗的环境，例如在夜间，传统的行人重识别会受到光线昏暗因素的影响导致识别效果不佳，好在现在的摄像头大多具有可见光和红外两种识别模式，因此，红外成像变得很有必要，需要将彩色可见光图像与红外图像进行匹配。跨模态行人重识别是研究从红外模态的图像中检索给定的可见光模态行人图像的问题，该任务可以解决在黑暗环境中传统行人重识别的局限性。

虽然现有的跨模态行人重识别方法已经在许多实验中显示出不错的效果，但是加强对跨模态行人重识别的方法探索仍然是一项非常重要的任务。其中一个主要的问题就是可见光图像和红外图像之间存在巨大差异，两个模态间图像通道数不同、红外图像中没有颜色信息等，因此现如今的跨模态行人重识别系统性能普遍低于传统行人重识别；而另一个问题是除了由不同的相机光谱引起的跨模态差异外，跨模态行人重识别还会因不同的相机视角和人体姿态而产生较大的跨模态和模态内的变化，现有的方法主要通过缩小两个模态间的距离或进行特征级约束同时减少外观和模态差异，但这些方法可能很难消除混合差异和某些实例级的对齐错误。

综上所述，跨模态行人重识别方法是行人重识别领域当下具有挑战且关键的研究方向，尽管目前国内外的研究已经取得了很多优秀的研究成果，但是随着摄像头监控网络的快速发展，拍摄条件的复杂化，以及安防条件与需求的提高，目前已有跨模态行人重识别方法在重识别匹配精度上的表现并不能满足实际应用的需求，因此，本发明对跨模态行人重识别领域的研究将具有非常重要的理论意义和应用价值。

发明内容

本发明的目的就是为了克服上述现有技术存在可能很难消除混合差异和某些实例级的对齐错误的缺陷而提供一种同时减少模态内和模态间差异，并注重图像级和特征级相结合的基于解纠缠和特征级差异学习的跨模态行人重识别方法。

本发明的目的可以通过以下技术方案来实现：

一种基于解纠缠和特征级差异学习的跨模态行人重识别方法，包括以下步骤：

采用可见光摄像机和红外摄像机在不同的位置采集多张行人图片形成数据集，并对数据集中的图片进行预处理；

从所述数据集中选取可见光模态的两张输入图像记为x₁和x₂、选取红外模态的两张输入图像记为y₁和y₃，所述图像x₁和y₁共享身份信息，所述图像x₂和y₃不共享身份信息；

获取预先建立的解纠缠图像特征的自编码模型，采用该自编码模型分别对所述图像x₁、x₂、y₁和y₃进行解编码操作，解纠缠出每幅图像的风格特征和内容特征；

获取预先建立并训练好的生成与判别网络，将解纠缠获取每幅图像的风格特征和内容特征以及对应的原图像载入该生成与判别网络中；所述生成与判别网络包括解码器和判别器，所述解码器对所述风格特征和内容特征进行重构得到多个新图像，所述判别器对所述多个新图像和原图像进行判别，从而得到总体对抗损失；

获取预先建立并训练好的特征级差异学习网络，对所述多个新图像和原图像进行特征学习，获取行人识别结果；

所述生成与判别网络和特征级差异学习网络通过级联连接，所述生成与判别网络和特征级差异学习网络共同进行训练，所述生成与判别网络和特征级差异学习网络的总体损失函数包括解码器的损失函数、所述总体对抗损失和特征级差异学习网络的损失函数。

进一步地，所述自编码模型包括提取不同模态行人图像风格的风格编码器和保持行人图像本身语义的内容编码器。

进一步地，所述可见光模态的两张输入图像x₁和x₂在输入所述内容编码器前还包括将图像转化为灰度图。

进一步地，所述跨模态行人重识别方法还包括采用KL散度损失函数计算所述图像x₁和y₁的内容编码器的损失，得到总体KL散度损失，所述总体损失函数还包括总体KL散度损失，所述总体KL散度损失的计算表达式为：

式中，L_kl为总体KL散度损失，E为数学期望，

为图像x₁解纠缠后的内容特征，

为图像y₁解纠缠后的内容特征，

为图像σ的内容编码器，θ∈{x₁，y₁}。

进一步地，所述风格编码器的编码过程为

和

内容编码器的编码过程为

和

其中，

表示图像θ的风格编码器，θ∈{x₁，x₂，y₁，y₃}，

表示图像θ的内容编码器，θ∈{x₁，x₂，y₁，y₃}，

为风格编码器

对可见光模态的图像x₁进行编码后的风格特征，

为内容编码器

对可见光模态的图像x₁进行编码后的内容特征，

为风格编码器

对可见光模态的图像x₂进行编码后的风格特征，

为内容编码器

对可见光模态的图像x₂进行编码后的内容特征，

为风格编码器

对红外模态的图像y₁进行编码后的风格特征，

为内容编码器

对红外模态的图像y₁进行编码后的内容特征，

风格编码器

对红外模态的图像y₃进行编码后的风格特征，

为内容编码器

对红外模态的图像y₃进行编码后的内容特征；

所述解码器对所述风格特征和内容特征进行重构得到多个新图像具体为：

一方面，可见光模态风格特征

和红外模态内容特征

作为解码器G的输入，重构生成新的可见光模态行人图像x′₁，可见光模态风格特征

和红外模态内容特征

作为解码器G的输入，重构生成新的可见光模态行人图像x″₁，可见光模态风格特征

和红外模态内容特征

作为解码器G的输入，重构生成新的可见光模态行人图像x′₂，

另一方面，红外模态风格特征

和可见光模态内容特征

作为解码器G的输入，重构生成新的红外模态行人图像y′₁，红外模态风格特征

和可见光模态内容特征

作为解码器G的输入，重构生成新的红外模态行人图像y″₁，红外模态风格特征

和可见光模态内容特征

作为解码器G的输入，重构生成新的红外模态行人图像y′₃；

所述判别器对所述多个新图像和原图像进行判别具体为：

将重构生成的可见光模态行人图像x′₁、x″₁、x′₂和真实的可见光模态行人图像x₁输入到判别器中，判别输入的图像是真实的可见光模态行人图像还是解码器重构生成的，将重构生成的红外模态行人图像y′₁、y″₁、y′₃和真实的红外模态行人图像y₁输入到判别器中，判别输入的图像是真实的红外模态行人图像还是解码器重构生成的。

进一步地，所述解码器和判别器满足：

式中，E表示数学期望，D₁(·)和D₂(·)为判别器，

表示

服从可见光模态风格特征分布

表示

服从可见光模态内容特征分布

表示

服从可见光模态风格特征分布

表示

服从可见光模态内容特征分布

表示

服从红外模态风格特征分布

表示

服从红外模态内容特征分布

表示

服从红外模态风格特征分布

表示

服从红外模态内容特征分布

x₁～p(x₁)表示x₁服从真实的可见光模态行人图像数据分布p(x₁)，y₁～p(y₁)表示y₁服从真实的红外模态行人图像数据分布p(y₁)，

为图像x₁解纠缠后的风格特征，

为图像x₂解纠缠后的风格特征，

为图像y₁解纠缠后的风格特征，

为图像y₃解纠缠后的风格特征，

为图像x₁解纠缠后的内容特征，

为图像x₂解纠缠后的内容特征，

为图像y₁解纠缠后的内容特征，

为图像y₃解纠缠后的内容特征，

表示解码器G将风格特征

和内容特征

重构得到新的可见光模态行人图像x′₁，

表示解码器G将风格特征

和内容特征

重构得到新的红外模态行人图像y′₁，

表示解码器G将风格特征

和内容特征

重构得到新的可见光模态行人图像x″₁，

表示解码器G将风格特征

和内容特征

重构得到新的红外模态行人图像y′₃，

表示解码器G将风格特征

和内容特征

重构得到新的可见光模态行人图像x′₂，

表示解码器G将风格特征

和内容特征

重构得到新的红外模态行人图像y″₁，

所述总体对抗损失的计算表达式为：

式中，L_adv为总体对抗损失。

进一步地，通过构造多光谱图像vi＝{[x₁,y′₁],[x′₁,y₁],[x₂,y″₁],[x″₁,y₃]}作为统一表示来形成集合S，构建基于ResNet-50骨干网络的特征级差异学习网络，并进行特征学习，给定一个混合多光谱图像通过深度特征提取网络提取出行人描述符f，行人描述符f使用全连接层的输出特征向量，将其馈送到另两个独立的全连接层，以生成两个特征向量f_q和f_c，最后利用跨模态四元组损失和交叉熵损失来监督特征级差异学习网络的训练。

进一步地，所述跨模态四元组损失为：

其中，R为可见光模态，I为红外模态，R_p和I_p表示锚点样本，同时I_p为R_p的正样本，R_p也为I_p的正样本，R_n和I_n为负样本，f(x)为映射函数，d(·,·)是欧几里得距离，α₁和α₂是阈值，且α₁＞α₂，[z]₊＝max(z,0)。

进一步地，采用交叉风格损失、同模态重构损失、跨模态重构损失、循环一致性损失和编码损失来训练所述解码器，所述交叉风格损失的计算表达式为：

其中，E表示数学期望，x₁～p(x₁)表示x₁服从真实的可见光模态行人图像数据分布p(x₁)，x₂～p(x₂)表示x₂服从真实的可见光模态行人图像数据分布p(x₂)，y₁～p(y₁)表示y₁服从真实的红外模态行人图像数据分布p(y₁)，y₃～p(y₃)表示y₃服从真实的红外模态行人图像数据分布p(y₃)，‖·‖₁表示1范数，

为图像x₁解纠缠后的风格特征，

为图像x₂解纠缠后的风格特征，

为图像y₁解纠缠后的风格特征，

为图像y₃解纠缠后的风格特征；

所述解码器的损失函数包括总体交叉风格损失，该总体交叉风格损失的计算表达式为：

式中，

为总体交叉风格损失。

进一步地，所述总体损失函数表示如下：

其中，λ_j，j∈{1,2,……,9}为控制损失项的超参数，L_kl为总体KL散度损失，

为总体交叉风格损失，

为总体同模态重构损失，

为总体跨模态重构损失，

为总体循环一致性损失，

为总体编码损失，L_adv为总体对抗损失，L_Q为跨模态四元组损失，L_C为交叉熵损失。

与现有技术相比，本发明具有以下优点：

本发明跨模态行人重识别方法，提出了一种新颖的解纠缠图像特征的自编码模型，该模型在输入图像中不仅包含两个模态间一对共享身份信息的图像，还有两张彼此不共享身份信息，且也不与模态内图像共享身份的图像，以此解决可能存在的跨模态图像间内容信息(如姿态、体态)相近的问题，提升模型判别的泛化能力；

同时共享身份信息的一对图像除了彼此需要进行跨模态的转换之外，还需要分别与另一张跨模态但不共享身份信息的图像进行转换，并且在过程中引入了交叉风格损失，使得解码器能生成更多姿态变化、更逼真的图像来训练判别器；

针对解码器更关注风格特征包含的更多空间几何位置信息，采用在可见光图像输入内容编码器前，先将其转化为灰度图，再送入内容编码器中生成内容特征，此步骤还能减少内容特征所附带的颜色信息；

为更好的减少模态间和模态内得差异，特征级差异学习网络中应用了新颖的跨模态四元组损失替代传统的三元组损失。

附图说明

图1为本发明实施例中基于解纠缠和特征级差异学习的跨模态行人重识别方法的实施流程图；

图2为本发明实施例中自编码模型及生成和判别网络的结构示意图；

图3为本发明实施例中交叉风格损失的说明图；

图4为本发明实施例中同模态重构损失的说明图；

图5为本发明实施例中跨模态重构损失、循环一致性损失及编码损失的说明图；

图6为本发明实施例中特征级差异学习网络的结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例1

本实施例提供一种基于解纠缠和特征级差异学习的跨模态行人重识别方法，如图1所示，包括：

步骤S1：采用不同的可见光摄像机和红外摄像机在不同的位置采集多张行人图片形成数据集，对数据集内的图片进行预处理，并将该数据集划分为训练集和测试集；

具体为：使用不同的可见光摄像机分别在不同位置收集若干张行人图像作为可见光模态的训练图像和测试图像，使用不同的红外摄像机在不同位置收集若干张行人图像作为红外模态的训练图像和测试图像，将所有图片的大小调整为256×128，且随意左右翻转图片；

步骤S2：建立解纠缠图像特征的自编码模型，该模型分别对输入的两个模态各两张图像进行解编码操作，解纠缠出两个模态图像的风格特征和内容特征，其中，两个模态间有一对共享身份信息的图像，另外两张图像彼此不共享身份信息，且也不与模态内的图像共享；

即：对预处理后输入的两个模态的行人图像进行编码处理，可见光模态的两张输入图像记为x₁和x₂，红外模态的两张输入图像记为y₁和y₃，其中，可见光模态中的图像x₁与红外模态中的图像y₁共享身份信息，分别解纠缠出两个模态总共四张行人图像的风格特征和内容特征；

所述步骤S2的自编码模型结构示意图如图2所示，该模型具体由风格编码器和内容编码器组成，风格编码器将目标域内的行人图像编码为风格特征，内容编码器将目标域内的行人图像编码为内容特征，以可见光模态的图像x₁为例，其风格编码器

将图像x₁编码为风格特征

编码过程记为

其内容编码器

将图像x₁编码为内容特征

编码过程记为

同理，可见光模态的图像x₂的风格编码器

将图像x₂编码为风格特征

编码过程记为

其内容编码器

将图像x₂编码为内容特征

编码过程记为

以红外模态的图像y₁为例，其风格编码器

将图像y₁编码为风格特征

编码过程记为

其内容编码器

将图像y₁编码为内容特征

编码过程记为

同理，红外模态的图像y₃的风格编码器

将图像y₃编码为风格特征

编码过程记为

其内容编码器

将图像y₃编码为内容特征

编码过程记为

其中，风格编码器均由三层下采样的卷积神经网络、一个全局平均池化层和一个全连接层组成，第一层的卷积核大小为7×7，滤波器个数为64，步长为1，第二与第三层的卷积核大小都为4×4，滤波器个数分别为128和256，步长为2，内容编码器均由三层下采样的卷积神经网络和四个残差块构成，第一层的卷积核大小为7×7，滤波器个数为64，步长为1，第二与第三层的卷积核大小都为4×4，滤波器个数分别为128和256，步长为2；

本实施例通过KL散度损失函数帮助共享身份信息的一对跨模态图像x₁与y₁的内容编码器

和

学习更多的信息表示，使其更接近高斯分布：

其中，E表示数学期望，

为图像x₁解纠缠后的内容特征，

为图像y₁解纠缠后的内容特征，

为图像σ的内容编码器，σ∈{x₁，y₁}，总体KL散度损失为：

本实施例在得到可见光模态的内容特征时，先将输入图像转化为灰度图像，再送入到内容编码器生成内容特征；

步骤S3：建立生成与判别网络，通过解纠缠后得到的风格和内容特征重构得到新的行人图像，实现跨模态的转换，得到的新图像与原图像共同输入判别网络进行判别，其中，共享身份信息的一对图像除了彼此需要进行跨模态的转换之外，还需要分别与另一张跨模态但不共享身份信息的图像进行转换；

具体为：该网络具体包括解码器和判别器，图像解码器将解纠缠得到的其中一个模态的风格特征和另一个模态的内容特征重构出新的行人图像，生成和判别网络的结构示意图如图2所示：

一方面，可见光模态风格特征

和红外模态内容特征

作为解码器G的输入，重构生成新的可见光模态行人图像x′₁，该图像保留了真实的可见光模态的风格信息，并加入了真实的红外模态的内容信息，同理，可见光模态风格特征

和红外模态内容特征

和红外模态内容特征

作为解码器G的输入，重构生成新的可见光模态行人图像x′₂；

另一方面，红外模态风格特征

和可见光模态内容特征

作为解码器G的输入，重构生成新的红外模态行人图像y′₁，该图像保留了真实的红外模态的风格信息，并加入了真实的可见光模态的内容信息，同理，红外模态风格特征

和可见光模态内容特征

和可见光模态内容特征

其中，解码器由三层上采样的卷积神经网络和四个残差块组成，第一与第二层的卷积核大小为5×5，滤波器个数为128和64，步长为1，第三层的卷积核大小都为7×7，滤波器个数分别为3，步长为1；

将重构生成的可见光模态行人图像x′₁、x″₁、x′₂和真实的可见光模态行人图像x₁输入到判别器中，判别输入的图像是真实的可见光模态行人图像还是解码器重构生成的，同理，将重构生成的红外模态行人图像y′₁、y″₁、y′₃和真实的红外模态行人图像y₁输入到判别器中，判别输入的图像是真实的红外模态行人图像还是解码器重构生成的；

本实例通过交叉风格损失、同模态重构损失、跨模态重构损失、循环一致性损失及编码损失来训练解码器：

交叉风格损失(图3所示)：

为图像x₁解纠缠后的风格特征，

为图像x₂解纠缠后的风格特征，

为图像y₁解纠缠后的风格特征，

为图像y₃解纠缠后的风格特征，总体交叉风格损失为：

同模态重构损失(图4所示)：

为图像x₁解纠缠后的风格特征，

为图像x₁解纠缠后的内容特征，

为图像x₂解纠缠后的风格特征，

为图像x₂解纠缠后的内容特征，

为图像y₁解纠缠后的风格特征，

为图像y₁解纠缠后的内容特征，

为图像y₃解纠缠后的风格特征，

为图像y₃解纠缠后的内容特征，

表示解码器G将风格特征

和内容特征

重构得到新的可见光模态行人图像

表示解码器G将风格特征

和内容特征

重构得到新的可见光模态行人图像

表示解码器G将风格特征

和内容特征

重构得到新的红外模态行人图像

表示解码器G将风格特征

和内容特征

重构得到新的红外模态行人图像

总体同模态重构损失为：

跨模态重构损失(图5所示)：

为图像x₁解纠缠后的风格特征，

为图像y₁解纠缠后的内容特征，

为图像x₂解纠缠后的风格特征，

为图像x₂解纠缠后的内容特征，

为图像y₁解纠缠后的风格特征，

为图像y₁解纠缠后的内容特征，

为图像y₃解纠缠后的风格特征，

为图像y₃解纠缠后的内容特征，

表示解码器G将风格特征

和内容特征

重构得到新的可见光模态行人图像x′₁，

表示解码器G将风格特征

和内容特征

重构得到新的红外模态行人图像y₁ ^′，

表示解码器G将风格特征

和内容特征

重构得到新的可见光模态行人图像x″₁，

表示解码器G将风格特征

和内容特征

重构得到新的红外模态行人图像y′₃，

表示解码器G将风格特征

和内容特征

重构得到新的可见光模态行人图像x′₂，

表示解码器G将风格特征

和内容特征

重构得到新的红外模态行人图像y″₁，

总体跨模态重构损失为：

循环一致性损失(图5所示)：

为解码器将风格特征

和内容特征

重构得到的新的可见光模态行人图像x′₁解纠缠后的风格特征，

为解码器将风格特征

和内容特征

重构得到的新的红外模态行人图像y′₁解纠缠后的内容特征，

为解码器将风格特征

和内容特征

重构得到的新的红外模态行人图像y′₁解纠缠后的风格特征，

为解码器将风格特征

和内容特征

重构得到的新的可见光模态行人图像x′₁解纠缠后的内容特征，

为解码器将风格特征

和内容特征

重构得到的新的可见光模态行人图像x〞₁解纠缠后的风格特征，

为解码器将风格特征

和内容特征

重构得到的新的红外模态行人图像y′₃解纠缠后的内容特征，

为解码器将风格特征

和内容特征

重构得到的新的红外模态行人图像y′₃解纠缠后的风格特征，

为解码器将风格特征

和内容特征

重构得到的新的可见光模态行人图像x″₁解纠缠后的内容特征，

为解码器将风格特征

和内容特征

重构得到的新的可见光模态行人图像x′₂解纠缠后的风格特征，

为解码器将风格特征

和内容特征

重构得到的新的红外模态行人图像y″₁解纠缠后的内容特征，

为解码器将风格特征

和内容特征

重构得到的新的红外模态行人图像y″₁解纠缠后的风格特征，

为解码器将风格特征

和内容特征

重构得到的新的可见光模态行人图像x′₂解纠缠后的内容特征，

表示解码器G将风格特征

和内容特征

重构得到新的可见光模态行人图像

表示解码器G将风格特征

和内容特征

重构得到新的红外模态行人图像

表示解码器G将风格特征

和内容特征

重构得到新的可见光模态行人图像

表示解码器G将风格特征

和内容特征

重构得到新的红外模态行人图像

表示解码器G将风格特征

和内容特征

重构得到新的可见光模态行人图像

表示解码器G将风格特征

和内容特征

重构得到新的红外模态行人图像

总体循环一致性损失为：

编码损失(图5所示)：

其中，E表示数学期望，

表示

服从可见光模态风格特征分布

表示

服从可见光模态内容特征分布

表示

服从可见光模态风格特征分布

表示

服从可见光模态内容特征分布

表示

服从红外模态风格特征分布

表示

服从红外模态风格特征分布

表示

服从红外模态内容特征分布

表示

服从红外模态内容特征分布

表示

服从可见光模态风格特征分布

表示

服从可见光模态内容特征分布

表示

服从红外模态风格特征分布

表示

服从红外模态风格特征分布

表示

服从红外模态内容特征分布

表示

服从红外模态内容特征分布

表示

服从可见光模态风格特征分布

表示

服从可见光模态风格特征分布

表示

服从可见光模态内容特征分布

表示

服从可见光模态内容特征分布

表示

服从红外模态风格特征分布

表示

服从红外模态内容特征分布

‖·‖₁表示1范数，

为图像x₁解纠缠后的风格特征，

为解码器将风格特征

和内容特征

重构得到新的可见光模态行人图像x′₁解纠缠后的风格特征，

为图像x₁解纠缠后的内容特征，

为解码器将风格特征

和内容特征

重构得到新的可见光模态行人图像x′₁解纠缠后的内容特征，

为图像y₁解纠缠后的风格特征，

为解码器将风格特征

和内容特征

重构得到新的红外模态行人图像y′₁解纠缠后的风格特征，

为图像y₁解纠缠后的内容特征，

为解码器将风格特征

和内容特征

重构得到新的红外模态行人图像y′₁解纠缠后的内容特征，

为解码器将风格特征

和内容特征

重构得到新的可见光模态行人图像x″₁解纠缠后的风格特征，

为解码器将风格特征

和内容特征

重构得到新的可见光模态行人图像x″₁解纠缠后的内容特征，

为图像y₃解纠缠后的风格特征，

为解码器将风格特征

和内容特征

重构得到新的红外模态行人图像y′₃解纠缠后的风格特征，

为图像y₃解纠缠后的内容特征，

为解码器将风格特征

和内容特征

重构得到新的红外模态行人图像y′₃解纠缠后的内容特征，

为图像x₂解纠缠后的风格特征，

为解码器将风格特征

和内容特征

重构得到新的可见光模态行人图像x′₂解纠缠后的风格特征，

为图像x₂解纠缠后的内容特征，

为解码器将风格特征

和内容特征

重构得到新的可见光模态行人图像x′₂解纠缠后的内容特征，

为解码器将风格特征

和内容特征

重构得到新的红外模态行人图像y″₁解纠缠后的风格特征，

为解码器将风格特征

和内容特征

重构得到新的红外模态行人图像y″₁解纠缠后的内容特征，总体编码损失为：

本实例的对抗性训练采用对应于可见光模态和红外模态的两个判别器D₁和D₂，对应的损失函数为：

其中，D₁(·)和D₂(·)为判别器，

表示

服从可见光模态风格特征分布

表示

服从可见光模态内容特征分布

表示

服从可见光模态风格特征分布

表示

服从可见光模态内容特征分布

表示

服从红外模态风格特征分布

表示

服从红外模态内容特征分布

表示

服从红外模态风格特征分布

表示

服从红外模态内容特征分布

x₁～p(x₁)表示x₁服从真实的可见光模态行人图像数据分布p(x₁)，y₁～p(y₁)表示y₁服从真实的红外模态行人图像数据分布

为图像x₁解纠缠后的风格特征，

为图像x₂解纠缠后的风格特征，

为图像y₁解纠缠后的风格特征，

为图像y₃解纠缠后的风格特征，

为图像x₁解纠缠后的内容特征，

为图像x₂解纠缠后的内容特征，

为图像y₁解纠缠后的内容特征，

为图像y₃解纠缠后的内容特征，

表示解码器G将风格特征

和内容特征

重构得到新的可见光模态行人图像x′₁，

表示解码器G将风格特征

和内容特征

重构得到新的红外模态行人图像y′₁，

表示解码器G将风格特征

和内容特征

重构得到新的可见光模态行人图像x″₁，

表示解码器G将风格特征

和内容特征

重构得到新的红外模态行人图像y′₃，

表示解码器G将风格特征

和内容特征

重构得到新的可见光模态行人图像x′₂，

表示解码器G将风格特征

和内容特征

重构得到新的红外模态行人图像y″₁，

总体对抗损失为：

步骤S4：统一具有不同模态图像的表示形式，建立多光谱模态和特征级差异学习网络，并进行特征学习，利用跨模态四元组损失和交叉熵损失来监督网络的训练；

具体为：如图6所示，首先进行模态统一，即：将图像统一为多光谱模态，通过构造多光谱图像vi＝{[x₁,y′₁],[x′₁,y₁],[x₂,y″₁],[x″₁,y₃]}作为统一表示来形成集合S；其次，特征级差异学习网络在生成的多光谱统一图像上进行特征学习，给定一个混合多光谱图像通过深度特征提取网络提取出行人描述符f，使用ResNet-50作为深度特征提取网络的骨干网络，第一层卷积的输入通道数为4，最后的全连接层为1024，行人描述符f使用全连接层的输出特征向量，其后接批标准化、ReLU和Dropout；然后，将全连接层的输出f馈送到另两个独立的全连接层，以生成两个特征向量f_q和f_c；最后利用两种损失函数来监督特征级差异学习网络的训练，一个是用于相似性学习的跨模态四元组损失，另一个是用于身份信息学习的交叉熵损失，

跨模态四元组损失：

其中，R为可见光模态，I为红外模态，R_p和I_p表示锚点样本，同时I_p为R_p的正样本，R_p也为I_p的正样本，R_n和I_n为负样本，f(x)是映射函数，d(·,·)是欧几里得距离，α₁和α₂是阈值，且α₁＞α₂，[z]₊＝max(z,0)。

交叉熵损失：

其中，N＝|S|是训练的图像数量，

通过级联解纠缠模型(图2)和特征级差异学习网络(图6)，并最大限度地减少综合损失，以端到端的方式优化网络，总体损失表示如下：

为总体交叉风格损失，

为总体同模态重构损失，

为总体跨模态重构损失，

为总体循环一致性损失，

为总体编码损失，L_adv为总体对抗损失，L_Q为跨模态四元组损失，L_C为交叉熵损失；

步骤S5：利用测试集进行跨模态行人重识别，得出识别结果。

本实施例基于解纠缠和特征级差异学习的跨模态行人重识别方法提出了一种新颖的跨模态行人重识别解纠缠图像特征的自编码模型，该模型在输入图像中不仅包含共享身份信息的一对跨模态图像，同时在各自模态中各有一张不共享身份信息的图像，以此解决可能存在的跨模态图像间内容信息(如姿态、体态)相近的问题，提升模型判别的泛化能力；引入交叉风格损失，缩小同模态间的风格信息，使得解码器能够在相同内容信息，不同风格信息重构时生成更逼真的同模态图像来训练判别器；在特征级差异学习网络中应用跨模态四元组损失，更好的减少模态间和模态内的差异。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于解纠缠和特征级差异学习的跨模态行人重识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于解纠缠和特征级差异学习的跨模态行人重识别方法，其特征在于，所述自编码模型包括提取不同模态行人图像风格的风格编码器和保持行人图像本身语义的内容编码器。

3.根据权利要求2所述的一种基于解纠缠和特征级差异学习的跨模态行人重识别方法，其特征在于，所述可见光模态的两张输入图像x₁和x₂在输入所述内容编码器前还包括将图像转化为灰度图。

4.根据权利要求2所述的一种基于解纠缠和特征级差异学习的跨模态行人重识别方法，其特征在于，所述跨模态行人重识别方法还包括采用KL散度损失函数计算所述图像x₁和y₁的内容编码器的损失，得到总体KL散度损失，所述总体损失函数还包括总体KL散度损失，所述总体KL散度损失的计算表达式为：

式中，L_kl为总体KL散度损失，E为数学期望，

为图像x₁解纠缠后的内容特征，

为图像y₁解纠缠后的内容特征，

为图像σ的内容编码器，σ∈{x₁，y₁}。

5.根据权利要求2所述的一种基于解纠缠和特征级差异学习的跨模态行人重识别方法，其特征在于，所述风格编码器的编码过程为

和

内容编码器的编码过程为

和

其中，

表示图像θ的风格编码器，θ∈{x₁，x₂，y₁，y₃}，

表示图像θ的内容编码器，θ∈{x₁，x₂，y₁，y₃}，

为风格编码器

对可见光模态的图像x₁进行编码后的风格特征，

为内容编码器

对可见光模态的图像x₁进行编码后的内容特征，

为风格编码器

对可见光模态的图像x₂进行编码后的风格特征，

为内容编码器

对可见光模态的图像x₂进行编码后的内容特征，

为风格编码器

对红外模态的图像y₁进行编码后的风格特征，

为内容编码器

对红外模态的图像y₁进行编码后的内容特征，

风格编码器

对红外模态的图像y₃进行编码后的风格特征，

为内容编码器

对红外模态的图像y₃进行编码后的内容特征；

一方面，可见光模态风格特征

和红外模态内容特征

和红外模态内容特征

和红外模态内容特征

另一方面，红外模态风格特征

和可见光模态内容特征

和可见光模态内容特征

和可见光模态内容特征

所述判别器对所述多个新图像和原图像进行判别具体为：

将重构生成的可见光模态行人图像x′₁、x〞₁、x′₂和真实的可见光模态行人图像x₁输入到判别器中，判别输入的图像是真实的可见光模态行人图像还是解码器重构生成的，将重构生成的红外模态行人图像y′₁、y″₁、y′₃和真实的红外模态行人图像y₁输入到判别器中，判别输入的图像是真实的红外模态行人图像还是解码器重构生成的。

6.根据权利要求5所述的一种基于解纠缠和特征级差异学习的跨模态行人重识别方法，其特征在于，所述解码器和判别器满足：

式中，E表示数学期望，D₁(·)和D₂(·)为判别器，

表示

服从可见光模态风格特征分布

表示

服从可见光模态内容特征分布

表示

服从可见光模态风格特征分布

表示

服从可见光模态内容特征分布

表示

服从红外模态风格特征分布

表示

服从红外模态内容特征分布

表示

服从红外模态风格特征分布

表示

服从红外模态内容特征分布

表示x₁服从真实的可见光模态行人图像数据分布p(x₁)，y₁～p(y₁)表示y₁服从真实的红外模态行人图像数据分布p(y₁)，

为图像x₁解纠缠后的风格特征，

为图像x₂解纠缠后的风格特征，

为图像y₁解纠缠后的风格特征，

为图像y₃解纠缠后的风格特征，

为图像x₁解纠缠后的内容特征，

为图像x₂解纠缠后的内容特征，

为图像y₁解纠缠后的内容特征，

为图像y₃解纠缠后的内容特征，

表示解码器G将风格特征

和内容特征

重构得到新的可见光模态行人图像x′₁，

表示解码器G将风格特征

和内容特征

重构得到新的红外模态行人图像y′₁，

表示解码器G将风格特征

和内容特征

重构得到新的可见光模态行人图像x″₁，

表示解码器G将风格特征

和内容特征

重构得到新的红外模态行人图像y′₃，

表示解码器G将风格特征

和内容特征

重构得到新的可见光模态行人图像x′₂，

表示解码器G将风格特征

和内容特征

重构得到新的红外模态行人图像y″₁，

所述总体对抗损失的计算表达式为：

式中，L_adv为总体对抗损失。

7.根据权利要求5所述的一种基于解纠缠和特征级差异学习的跨模态行人重识别方法，其特征在于，通过构造多光谱图像vi＝{[x₁，y′₁]，[x′₁，y₁]，[x₂，y″₁]，[x″₁，y₃]}作为统一表示来形成集合S，构建基于ResNet-50骨干网络的特征级差异学习网络，并进行特征学习，给定一个混合多光谱图像通过深度特征提取网络提取出行人描述符f，行人描述符f使用全连接层的输出特征向量，将其馈送到另两个独立的全连接层，以生成两个特征向量f_q和f_c，最后利用跨模态四元组损失和交叉熵损失来监督特征级差异学习网络的训练。

8.根据权利要求7所述的一种基于解纠缠和特征级差异学习的跨模态行人重识别方法，其特征在于，所述跨模态四元组损失为：

其中，R为可见光模态，I为红外模态，R_p和I_p表示锚点样本，同时I_p为R_p的正样本，R_p也为I_p的正样本，R_n和I_n为负样本，f(x)为映射函数，d(·，·)是欧几里得距离，α₁和α₂是阈值，且α₁＞α₂，[z]₊＝max(z，0)。

9.根据权利要求8所述的一种基于解纠缠和特征级差异学习的跨模态行人重识别方法，其特征在于，采用交叉风格损失、同模态重构损失、跨模态重构损失、循环一致性损失和编码损失来训练所述解码器，所述交叉风格损失的计算表达式为：

其中，E表示数学期望，x₁～p(x₁)表示x₁服从真实的可见光模态行人图像数据分布p(x₁)，x₂～p(x₂)表示x₂服从真实的可见光模态行人图像数据分布p(x₂)，y₁～p(y₁)表示y₁服从真实的红外模态行人图像数据分布p(y₁)，y₃～p(y₃)表示y₃服从真实的红外模态行人图像数据分布p(y₃)，||·||₁表示1范数，