CN111539255A

CN111539255A - 基于多模态图像风格转换的跨模态行人重识别方法

Info

Publication number: CN111539255A
Application number: CN202010227374.2A
Authority: CN
Inventors: 赵佳琦; 陈莹; 夏士雄; 周勇; 牛强; 姚睿; 陈朋朋; 杜文亮; 朱东郡
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2020-03-27
Filing date: 2020-03-27
Publication date: 2020-08-14
Anticipated expiration: 2040-03-27
Also published as: CN111539255B

Abstract

本发明公开了一种基于多模态图像风格转换的跨模态行人重识别方法，根据行人图像数据集，对训练图像进行收集和预处理获取训练样本；构建解耦图像特征的自动编码网络模型，该模型对处理后输入的行人图像进行特征解耦，分为域无关的内容特征和域相关的风格特征；构建基于模态转换的生成网络和判别网络模型，该模型实现不同域行人图像的风格属性信息互换，实现变换风格的样本生成；本发明方法针对行人重识别算法易受不同光照影响的问题，通过神经网络提取行人图像的特征来学习不同图像的相似性矩阵，该方法学习到的度量矩阵比人为选定的矩阵具有灵活性，更能获得图像特征之间的相似性。

Description

基于多模态图像风格转换的跨模态行人重识别方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于多模态图像风格转换的跨模态行人重识别方法。

背景技术

随着人工智能技术的快速发展以及人们对社会安全要求的提高，摄像头越来越多地被投入使用，出现在生活的各个角落，有关摄像头视频的分析研究也越来越受到人们的重视。多摄像头监控具有广阔的视野，克服了单摄像头监控范围有限的问题，但也带来大量的视频、图像信息。合理利用摄像头监控信息并结合性能良好的视频跟踪技术，能够从海量的数据中筛选出对人们有用的信息。视频跟踪技术涉及到很多研究方向，包括图像处理、计算机视觉、模式识别和人工智能等，应用前景十分广阔。

行人重识别技术利用计算机视觉技术判断图像或者视频序列中是否存在需要搜索的行人，可以实现跨摄像头寻找同一个行人的目的。实际场景中，由于两个摄像头角度不一致以及位置的原因，会导致不同摄像头拍摄到的行人图像在光照、颜色、明暗以及外观上有很大区别，这些区别将会拉大相同行人之间的差异性。因为一个行人被拍摄到图像因为视角不同、姿态不同和明暗不同导致图像特征相差太大而无法精准的检测。因而行人重识别技术旨在学习与行人身份特征相关和与其他特征无关的行人信息，来提高行人再识别的精度。

在之前的研究工作中，行人重识别的研究重点是用描述子和距离学习来获取行人特征表示和行人相似性度量。基于视觉描述子的行人重识别方法通过学习具有判别性和鲁棒性的描述子来表示行人图像，度量学习的行人重识别方法通过学习一个适合的距离度量或者特征变换函数来最大化正确匹配率。随着深度学习算法的普及，研究者更多关注的是采用深度学习算法进行处理，通过训练神经网络提取图像特征。由于深度学习模型需要大量样本进行参数训练，因此基于数据生成的行人识别方法开始获得大量关注。行人重识别方法大致可以分为三类：基于人工特征的行人重识别，基于距离度量的行人重识别，基于深度学习的行人重识别。

基于人工特征的行人重识别方法研究主要集中在行人表观信息的特征提取和表示上，提取更加鲁棒和稳定的行人特征，其目的是缩小同一行人两张图像的特征距离，拉大异类行人图像特征间的空间距离。因此特征表示的优劣是行人能否被准确重识别的关键因素之一。基于人工特征的行人重识别方法在某些应用场景下可以达到比较鲁棒的识别精度，但是由于夜晚和白天摄像头拍摄到的行人图像差距较大，导致该类行人重识别方法的识别效果不理想。

基于距离度量的行人重识别方法能够通过行人样本学习到最佳相似度测量计算方法以匹配同一行人并区分不同行人。基于距离度量的行人重识别方法提取行人图像成为特征向量后，再使用标准距离对两个特征向量进行相似性度量。比较常用的标准距离有曼哈顿距离，欧氏距离和马氏距离。然而，同一行人跨越多个不重叠的摄像头时，其姿态、外观会发生很大变换，此时使用基于距离度量的行人重识别方法效果不理想，因为该类方法会平等地处理每一种特征。对于跨模态问题，距离度量方法一般先分别提取行人图像不同模态的特征，再通过一个特征空间度量矩阵让不同域特征能够在该空间上得到近似同域特征。通过该距离度量方法能够大大改善跨模态行人重识别中类间差异性和类内不变性的不可控制，进而提高识别精度。

基于深度学习的行人重识别方法大多数研究工作集中在可见光图像的行人重识别方法上，但在一些应用中，可见光图像不适合在黑暗环境或夜间使用。红外成像在许多视觉系统中是必要的。研究基于多模态图像风格转换的跨模态行人重识别方法，可以解决行人重识别问题主要的难点问题，即数据库中红外图像数量太少的问题，该问题不利于模型学习高效、鲁棒的特征表示和度量准则。

发明内容

发明目的：本发明目的在于克服上述现有技术的不足，提出了一种基于多模态图像风格转换的跨模态行人重识别方法。

本发明研究基于深度学习的方法，利用生成式对抗网络实现红外域-可见光域行人图像的风格属性信息互换，解决了实际中行人重识别方法受不同光照影响导致识别行人困难的难题，并且设计基于神经网络的相似度量学习方法提升基于多模态图像风格转换的跨模态行人重识别方法的鲁棒性。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种基于多模态图像风格转换的跨模态行人重识别方法，利用生成式对抗网络将两种域下的行人图像进行风格互换，生成新域的行人图像，并且利用行人重识别方法对这些转换风格的行人图像进行验证；

提出多模态图像风格转换的生成式对抗网络模型实现红外域行人图像和可见光域行人图像的风格互换，采用基于神经网络的相似度量学习方法提升跨模态行人重识别性能；

具体包括如下步骤：

(1)对训练行人图像进行收集和预处理，得到训练样本，具体是：

在可见光行人图像数据集中收集若干张行人图像作为可见光域训练图像；

在红外行人图像数据集中收集若干张行人图像作为红外域训练图像；

(2)构建解耦图像特征的自动编码网络模型，该模型对输入的两个域的行人图像进行编码处理，解耦两种域中的行人图像特征为风格特征和内容特征；

(3)构建基于模态转换的生成网络和判别网络模型，该模型利用解耦后的内容特征和另一个域的风格特征进行融合得到新的特征，生成新的行人图像，实现图像跨模态的风格转换；

(4)构建基于神经网络的相似度量学习方法，通过使用神经网络来学习行人重识别的度量方式提升多模态图像风格转换的生成式对抗网络的行人重识别性能；

(5)验证提出的跨模态行人重识别方法的有效性，对生成行人图像构成的数据集进行行人重识别方法验证。

所述步骤(1)中，对两个域中的行人图像进行归一化，获取训练样本像素为 128×128。

所述步骤(2)中，构建解耦图像特征的自动编码网络由保持行人图像本身语义的内容编码器和提取行人图像风格的风格编码器组成；

内容编码器分别通过以下公式将可见光域行人图像x_rgb和红外域行人图像x_ir编码为内容特征c_rgb＝E_c(x_rgb)、c_ir＝E_c(x_ir)；其中，

c_rgb为可见光域行人图像x_rgb的内容特征；

c_ir为红外域行人图像x_ir的内容特征；

风格编码器通过以下公式将目标域行人图像编码为风格特征s_rgb＝E_c(x_rgb)、 s_ir＝E_s(x_ir)，其中，

s_rgb为可见光域行人图像x_rgb的风格特征；

s_ir为红外域行人图像x_ir的风格特征。

所述步骤(3)中，构建基于模态转换的生成网络和判别网络包括一个生成器和一个判别器，满足：

L_GAN＝L_rgb2ir+L_ir2rgb

其中：x_ir为红外域行人图像，x_rgb为可见光域行人图像，c_ir为红外域行人图像x_ir的内容特征，c_rgb为可见光域行人图像x_rgb的内容特征，s_ir为红外域行人图像x_ir的风格特征，s_rgb为可见光域行人图像x_rgb的风格特征；

L_rgb2ir表示红外域行人图像x_ir与根据可见光域行人图像x_rgb的内容特征c_rgb、红外域行人图像x_ir的风格特征s_ir生成器G生成新的具有红外域行人图像风格的行人图像x_rgb→ir之间的对抗损失函数；

L_ir2rgb表示可见光域行人图像x_rgb与根据红外域行人图像x_ir的内容特征c_ir、可见光域行人图像x_rgb的风格特征s_rgb生成器G生成新的具有可见光域行人图像风格的行人图像x_ir→rgb之间的对抗损失函数；

D(·)表示判别器D对真实行人图像x的判别结果；

G(c_rgb,s_ir)表示生成器G将可见光域行人图像x_rgb的内容特征与红外域行人图像x_ir的风格特征s_ir作为输入进而获得新的行人图像x_rgb→ir，其具有可见光域行人图像的内容信息以及红外域行人图像的风格特征；

G(c_ir,s_rgb)表示生成器G将红外域行人图像x_ir的内容特征与可见光域行人图像x_rgb的风格特征作为输入进而获得新的行人图像x_ir→rgb，其具有红外域行人图像的内容信息以及可见光域行人图像的风格特征；

D(G(c_rgb,s_ir))表示判别器D对生成行人图像x_rgb→ir的判别结果；

D(G(c_ir,s_rgb))表示判别器D对生成行人图像x_ir→rgb的判别结果；

表示数学期望；

x_ir～p(x_ir)表示变量x_ir服从真实的红外域行人图像数据分布p(x_ir)；

x_rgb～p(x_rgb)表示变量x_rgb服从真实的可见光域行人图像数据分布p(x_rgb)；

c_ir～p(c_ir)表示变量c_ir服从红外域的内容特征分布p(c_ir)；

c_rgb～p(c_rgb)表示变量c_rgb服从可见光域的内容特征分布p(c_rgb)；

s_ir～q(s_ir)表示变量s_ir服从红外域的风格特征分布q(s_ir)；

s_rgb～q(s_rgb)表示变量s_rgb服从可见光域的风格特征分布q(s_rgb)。

所述步骤(3)中，构建基于模态转换的生成网络和判别网络模型包括如下步骤：

(51)图像生成器G将可见光域行人图像x_rgb的内容特征c_rgb和红外域行人图像x_ir的风格特征s_ir作为输入，生成新的行人图像x_rgb→ir，行人图像x_rgb→ir具有真实的可见光域行人图像x_rgb的内容特征和真实的红外域行人图像x_ir的风格特征；

(52)图像生成器G将红外域行人图像x_ir的内容特征c_ir和可见光域行人图像x_rgb的风格特征s_rgb作为输入，生成新的行人图像x_ir→rgb，行人图像x_ir→rgb具有真实的红外域行人图像x_ir的内容特征和真实的可见光域行人图像x_rgb的风格特征；

(53)将步骤(51)中生成的红外域行人图像x_rgb→ir和真实的红外域行人图像x_ir输入到判别器D中，判别器D将判别输入行人图像是真实行人图像还是生成器生成的行人图像；

(54)将步骤(52)中生成的可见光域行人图像x_ir→rgb和真实的可见光域行人图像x_rgb输入到判别器D中，判别器D将判别输入行人图像是真实行人图像还是生成器生成的行人图像。

步骤(51)～步骤(52)中，按照下面的损失函数训练生成器：

其中，

是定义红外行人图像x_ir与生成的红外行人图像G(E_c(x_ir),E_s(x_ir))之间的像素级重构损失函数；

是定义可见光行人图像x_rgb与生成的可见光行人图像G(E_c(x_rgb),E_s(x_rgb))之间的像素级重构损失函数；

表示的是红外域行人图像的内容特征c_ir和内容编码器E_c编码生成的行人图像 G(c_ir,s_rgb)后的内容特征之间的重构损失；

表示的是可见光域行人图像的内容特征c_rgb和内容编码器E_c编码生成的行人图像G(c_rgb,s_ir)后的内容特征之间的重构损失；

表示的是红外域行人图像的风格特征s_ir和风格编码器E_s编码生成的行人图像 G(c_rgb,s_ir)后的风格特征之间的重构损失；

表示的是可见光域行人图像的风格特征s_rgb和风格编码器E_s编码生成的行人图像G(c_ir,s_rgb)后的风格特征之间的重构损失；

||·||₁表示一范数；

多模态图像风格转换的跨模态生成式对抗网络的目标函数为：

其中，L_loss表示基于多模态图像风格转换的跨模态行人重识别方法的目标函数；

L_GAN表示生成器与判别器之间的对抗损失；

α、

和

为加权系数。

所述步骤(4)中，构建基于神经网络的相似度量学习方法是设计一个度量网络，该网络包括图像特征提取模块E_φ用来提取图像的特征，相似性度量模块R_θ用来计算两个图像的相似度，满足：

r(x_i,x_j)＝R_θ(C(E_φ(x_i),E_φ(x_j))) (i,j＝1,2,...,N)

其中，x_i和x_j表示两张行人图像；

r(x_i,x_j)表示两张行人图像的相似度；

C(E_φ(x_i),E_φ(x_j))表示将图像特征提取模块E_φ提取的图像特征连接一起；

N代表行人的类别，身份验证分类器用二进制交叉熵损失进行训练，所述二进制交叉熵损失如下：

L_v＝-y[logr(x_i,x_j)]-(1-y)log(1-r(x_i,x_j))

其中，y是真实标签，如果x_i,x_j是同一个人，则y＝1；如果x_i,x_j是不同一个人，则 y＝0。

所述步骤(5)中，采用传统和公开数据集对生成行人图像构成的数据集进行行人重识别验证。

有益效果：

本发明提供的一种基于多模态图像风格转换的跨模态行人重识别方法，采用多模态图像风格转换的生成式对抗网络模型实现红外域行人图像和可见光域行人图像的风格互换，解决了实际中行人重识别方法受不同光照影响导致识别行人困难的难题；已有的基于传统相似性度量的行人重识别方法把行人特征学习和行人相似性度量分开，不利于获取行人图像特征之间的相似性，本发明针对上述问题，设计基于神经网络的相似度量学习方法来提升相似度量方法的鲁棒性。

附图说明

图1为本发明方法的实施流程图；

图2为构建基于模态转换的生成网络和判别网络的实施流程图；

图3为构建基于模态转换的生成网络的框架示意图；

其中，x_rgb是可见光域行人图像，x_ir是红外域行人图像，c_rgb是可见光域行人图像的内容特征，c_ir是红外域行人图像的内容特征，s_rgb是可见光域行人图像的风格特征，s_ir是红外域行人图像的风格特征，x_rgb→ir是由可见光域行人图像转换为具有红外域行人图像风格的行人图像，x_ir→rgb是由红外域行人图像转换具有可见光域行人图像风格的行人图像。

图4为基于多模态图像风格转换的跨模态行人重识别方法整体框架示意图。

具体实施方式

下面结合附图对本发明的技术方案作进一步详细的说明。

图1所示为一种基于多模态图像风格转换的跨模态行人重识别方法，包括如下流程步骤：

步骤S01：对训练行人图像进行收集和预处理，在可见光行人图像数据集中收集若干张行人图像作为可见光域训练图像；在红外行人图像数据集中收集若干张行人图像作为红外域训练图像，对两种域的训练图像进行大小归一化处理，得到训练样本；

步骤S02：构建解耦图像特征的自动编码网络模型，该模型对归一化处理后输入的两个域的行人图像进行编码处理，解耦两种域中的行人图像特征为风格特征和内容特征。自动编码网络模型由内容编码器和风格编码器组成，内容编码器分别通过以下公式将可见光域行人图像x_rgb和红外域行人图像x_ir编码为内容特征c_rgb＝E_c(x_rgb)、 c_ir＝E_c(x_ir)，其中，c_rgb为可见光域行人图像x_rgb的内容特征，c_ir为红外域行人图像x_ir的内容特征；风格编码器将目标域行人图像编码为风格特征s_rgb＝E_c(x_rgb)、s_ir＝E_s(x_ir)，其中，s_rgb为可见光域行人图像x_rgb的风格特征，s_ir为红外域行人图像x_ir的风格特征。

步骤S03：构建基于模态转换的生成网络和判别网络模型，该模型利用解耦后的内容特征和另一个域的风格特征进行融合得到新的特征，生成新的行人图像，实现图像跨模态的风格转换；该模型包括一个生成器G和一个判别器D，满足：

L_GAN＝L_rgb2ir+L_ir2rgb

L_rgb2ir表示红外域行人图像x_ir与根据可见光域行人图像x_rgb的内容特征c_rgb、红外域行人图像x_ir的风格特征s_ir生成器G生成新的具有红外域行人图像风格的行人图像x_rgb→ir之间的对抗损失函数，L_ir2rgb表示可见光域行人图像x_rgb与根据红外域行人图像x_ir的内容特征c_ir、可见光域行人图像x_rgb的风格特征s_rgb生成器G生成新的具有可见光域行人图像风格的行人图像x_ir→rgb之间的对抗损失函数；

D(·)判别器D对真实行人图像x的判别结果；

G(c_rgb,s_ir)表示生成器G将内容特征c_rgb与风格特征s_ir作为输入进而获得新的行人图像x_rgb→ir，其具有可见光域行人图像的内容信息以及红外域行人图像的风格特征， G(c_ir,s_rgb)表示生成器G将内容特征c_ir与风格特征s_rgb作为输入进而获得新的行人图像x_ir→rgb，其具有红外域行人图像的内容信息以及可见光域行人图像的风格特征；

D(G(c_rgb,s_ir))表示判别器D对生成行人图像x_rgb→ir的判别结果，D(G(c_ir,s_rgb))表示判别器D对生成行人图像x_ir→rgb的判别结果；

表示数学期望；

x_ir～p(x_ir)表示变量x_ir服从真实的红外域行人图像数据分布p(x_ir)，x_rgb～p(x_rgb)表示变量x_rgb服从真实的可见光域行人图像数据分布p(x_rgb)，c_ir～p(c_ir)表示变量c_ir服从红外域的内容特征分布p(c_ir)，c_rgb～p(c_rgb)表示变量c_rgb服从可见光域的内容特征分布p(c_rgb)，s_ir～q(s_ir)表示变量s_ir服从红外域的风格特征分布q(s_ir)，s_rgb～q(s_rgb)表示变量s_rgb服从可见光域的风格特征分布q(s_rgb)。

对于本实施例而言，上述步骤S03还可以进一步细化，其细化后的具体流程图如图2所示。图2中，该步骤S03进一步包括：

步骤S31：图像生成器G将可见光内容特征c_rgb和红外风格特征s_ir作为输入，生成新的行人图像x_rgb→ir，行人图像x_rgb→ir具有真实的可见光域行人图像x_rgb的内容特征和真实的红外域行人图像x_ir的风格特征。

内容编码器E_c由一个包含三层下采样的卷积神经网络和多个残差块组成，三层卷积中从第一层卷积到第三层卷积所对应的滤波器个数分别为64、128和256，卷积核的大小除了第一层卷积为7×7、步长为1，其他两个卷积核大小都是4×4、步长为2。

风格编码器E_s为一个包含五层下采样的卷积神经网络组成，接着是一个全局平均池化层和全连接层。

从第一层卷积到第五层卷积所对应的滤波器个数分别为64、128、256、256和256，卷积核的大小除了第一层卷积为7×7、步长为1，其他四个卷积核大小都是4×4、步长为2。

解码器D_e根据输入行人图像的内容特征和风格特征生成新的行人图像，它由四个残差块和上采样卷积神经网络组成，上采样卷积神经网络包括三层卷积，从第一层卷积到第三层卷积所对应的滤波器个数分别为128、64和3，第一层和第二次卷积为5×5、步长为1，第三层卷积核大小是7×7、步长为1。

步骤S32：图像生成器G将红外内容特征c_ir和可见光风格特征s_rgb作为输入，生成新的行人图像x_ir→rgb，行人图像x_ir→rgb具有真实的红外域行人图像x_ir的内容特征和真实的可见光域行人图像x_rgb的风格特征。

所述步骤S31到步骤S32，内容编码器E_c、风格编码器E_s和解码器D_e构成图像生成器G，其结构示意图如图3所示。

本实施例按照以下损失函数训练生成器G：

其中，

||·||₁表示一范数。

L_GAN表示生成器与判别器之间的对抗损失；

α、

和

为加权系数。

步骤S33：将步骤S31中生成的红外域行人图像x_rgb→ir和真实的红外域行人图像x_ir输入到判别器D中，判别器D将判别输入行人图像是真实行人图像还是生成器生成的行人图像。

步骤S34：将步骤S32中生成的可见光域行人图像x_ir→rgb和真实的可见光域行人图像x_rgb输入到判别器D中，判别器D将判别输入行人图像是真实行人图像还是生成器生成的行人图像。

步骤S04：构建基于神经网络的相似度量学习方法主要是设计一个度量网络，该网络包括图像特征提取模块E_φ用来提取图像的特征，相似性度量模块R_θ用来计算两个图像的相似度，满足：

r(x_i,x_j)＝R_θ(C(E_φ(x_i),E_φ(x_j))) (i,j＝1,2,...,N)

其中，x_i和x_j表示两张行人图像；

r(x_i,x_j)表示两张行人图像的相似度；

C(E_φ(x_i),Eφ(x_j))表示将图像特征提取模块E_φ提取的图像特征连接一起；

N代表行人的类别。

身份验证分类器用二进制交叉熵损失进行训练，所述二进制交叉熵损失如下：

L_v＝-y[logr(x_i,x_j)]-(1-y)log(1-r(x_i,x_j))

其中，y是真实标签，如果x_i,x_j是同一个人，则y＝1；如果x_i,x_j是不同一个人，则y＝0。

步骤S05：为了验证提出的行人重识别方法的有效性，可以采用传统和公开数据集对生成行人图像构成的数据集进行行人重识别验证。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于多模态图像风格转换的跨模态行人重识别方法，其特征在于：利用生成式对抗网络将两种域下的行人图像进行风格互换，生成新域的行人图像，并且利用行人重识别方法对这些转换风格的行人图像进行验证；

具体包括如下步骤：

2.根据权利要求1所述的基于多模态图像风格转换的跨模态行人重识别方法，其特征在于：所述步骤(1)中，对两个域中的行人图像进行归一化，获取训练样本像素为128×128。

3.根据权利要求1所述的基于多模态图像风格转换的跨模态行人重识别方法，其特征在于：所述步骤(2)中，构建解耦图像特征的自动编码网络由保持行人图像本身语义的内容编码器和提取行人图像风格的风格编码器组成；

c_rgb为可见光域行人图像x_rgb的内容特征；

c_ir为红外域行人图像x_ir的内容特征；

风格编码器通过以下公式将目标域行人图像编码为风格特征s_rgb＝E_c(x_rgb)、s_ir＝E_s(x_ir)，其中，

s_rgb为可见光域行人图像x_rgb的风格特征；

s_ir为红外域行人图像x_ir的风格特征。

4.根据权利要求1所述的基于多模态图像风格转换的跨模态行人重识别方法，其特征在于：所述步骤(3)中，构建基于模态转换的生成网络和判别网络包括一个生成器和一个判别器，满足：

L_GAN＝L_rgb2ir+L_ir2rgb

D(·)表示判别器D对真实行人图像x的判别结果；

G(c_rgb，s_ir)表示生成器G将可见光域行人图像x_rgb的内容特征与红外域行人图像x_ir的风格特征s_ir作为输入进而获得新的行人图像x_rgb→ir，其具有可见光域行人图像的内容信息以及红外域行人图像的风格特征；

G(c_ir，s_rgb)表示生成器G将红外域行人图像x_ir的内容特征与可见光域行人图像x_rgb的风格特征作为输入进而获得新的行人图像x_ir→rgb，其具有红外域行人图像的内容信息以及可见光域行人图像的风格特征；

D(G(c_rgb，s_ir))表示判别器D对生成行人图像x_rgb→ir的判别结果；

D(G(c_ir，s_rgb))表示判别器D对生成行人图像x_ir→rgb的判别结果；

表示数学期望；

c_ir～p(c_ir)表示变量c_ir服从红外域的内容特征分布p(c_ir)；

s_ir～q(s_ir)表示变量s_ir服从红外域的风格特征分布q(s_ir)；

5.根据权利要求1所述的基于多模态图像风格转换的跨模态行人重识别方法，其特征在于：所述步骤(3)中，构建基于模态转换的生成网络和判别网络模型包括如下步骤：

6.根据权利要求5所述的基于多模态图像风格转换的跨模态行人重识别方法，其特征在于：步骤(51)～步骤(52)中，按照下面的损失函数训练生成器：

其中，

是定义红外行人图像x_ir与生成的红外行人图像G(E_c(x_ir)，E_s(x_ir))之间的像素级重构损失函数；

是定义可见光行人图像x_rgb与生成的可见光行人图像G(E_c(x_rgb)，E_s(x_rgb))之间的像素级重构损失函数；

表示的是红外域行人图像的内容特征c_ir和内容编码器E_c编码生成的行人图像G(c_ir，s_rgb)后的内容特征之间的重构损失；

表示的是可见光域行人图像的内容特征c_rgb和内容编码器E_c编码生成的行人图像G(c_rgb，s_ir)后的内容特征之间的重构损失；

表示的是红外域行人图像的风格特征s_ir和风格编码器E_s编码生成的行人图像G(c_rgb，s_ir)后的风格特征之间的重构损失；

表示的是可见光域行人图像的风格特征s_rgb和风格编码器E_s编码生成的行人图像G(c_ir，s_rgb)后的风格特征之间的重构损失；

||·||₁表示一范数；

L_GAN表示生成器与判别器之间的对抗损失；

α、

和

为加权系数。

7.根据权利要求1所述的基于多模态图像风格转换的跨模态行人重识别方法，其特征在于：所述步骤(4)中，构建基于神经网络的相似度量学习方法是设计一个度量网络，该网络包括图像特征提取模块E_φ用来提取图像的特征，相似性度量模块R_θ用来计算两个图像的相似度，满足：

r(x_i，x_j)＝R_θ(C(E_φ(x_i)，E_φ(x_j))) (i，j＝1，2，...，N)

其中，x_i和x_j表示两张行人图像；

r(x_i，x_j)表示两张行人图像的相似度；

C(E_φ(x_i)，E_φ(x_j))表示将图像特征提取模块E_φ提取的图像特征连接一起；

L_v＝-y[logr(x_i，x_j)]-(1-y)log(1-r(x_i，x_j))

其中，y是真实标签，如果x_i，x_j是同一个人，则y＝1；如果x_i，x_j是不同一个人，则v＝0。

8.根据权利要求1所述的基于多模态图像风格转换的跨模态行人重识别方法，其特征在于：所述步骤(5)中，采用传统和公开数据集对生成行人图像构成的数据集进行行人重识别验证。