CN115050044A

CN115050044A - 一种基于MLP-Mixer的跨模态行人重识别方法

Info

Publication number: CN115050044A
Application number: CN202210349736.4A
Authority: CN
Inventors: 黄德双; 万思哲; 元昌安; 伍永
Original assignee: Guangxi Academy of Sciences
Current assignee: Guangxi Academy of Sciences
Priority date: 2022-04-02
Filing date: 2022-04-02
Publication date: 2022-09-13
Anticipated expiration: 2042-04-02
Also published as: CN115050044B

Abstract

本发明公开一种基于MLP‑Mixer的跨模态行人重识别方法，其特征在于，包括以下步骤：采集行人可见光图像和行人红外图像；基于所述行人可见光图像和所述行人红外图像，利用MLP‑Mixer网络分别提取可见光模态人物特征和红外模态人物特征；基于所述可见光模态人物特征和所述红外模态人物特征，利用基于位置的自注意力引导学习模型提取模态共享特征；利用损失函数优化所述模态共享特征，获得异质模态的区分性局部特征表示，进行行人重识别。本发明提升了深度学习在行人再识别领域的表现，使行人再识别技术可以更好地解决现实问题。

Description

一种基于MLP-Mixer的跨模态行人重识别方法

技术领域

本发明涉及图像处理与模式识别在行人再识别场景中的应用领域，特别是涉及一种基于MLP-Mixer的跨模态行人重识别方法。

背景技术

分布式多摄像机监视系统的基本任务是在不同位置和不同时间将人与摄像机视图相关联。这被称为行人重识别问题，更具体而言，行人重识别主要为了解决＂目标行人之前在哪里出现过＂或者＂目标行人在监控网络中被捕捉后去了哪里＂的问题。它支持许多关键应用，例如长时间多相机跟踪和取证搜索等。实际上，每一个摄像头可以从不同的角度和距离，在不同的光照条件、遮挡度和不同的静态和动态的背景下进行拍摄。这就给行人重识别任务带来了一些巨大的挑战。同时由于在未知距离的摄像机观察到的行人可能存在拥挤的背景、低的分辨率等条件限制，因此依赖于诸如面部识别的传统生物测量学的行人重识别技术既不可行也不可靠。传统的行人重识别技术主要分为两个方面：特征表达和相似性度量。常用的特征主要包括颜色特征、纹理特征、形状特征以及更高层次的属性特征、行为语意特征等。而对于相似性度量，欧式距离最先被使用的，随后一些有监督的相似性判别方法也被提出。

红外图像与可见光图像跨模态识别是一项具有挑战性的基本任务，即通过可见光图像和红外图像将同一个人关联起来。已有的大多数研究集中在改进全局特征以解决跨模态问题，因此，一些有区别的局部和显著特征被深度模型忽略。

然而，目前的大多数方法侧重于改进全局特性。一些有区别的局部特征表示被大多数深层模型忽略，例如衣服的类型或鞋子的样式。局部特征表示具有显著的可分辨性，且不受跨模态模式的影响。此外，注意机制广泛应用于许多计算机视觉任务中。另一方面，大多数特征提取方法都使用了卷积神经网络或者Vision Transformer模型，计算复杂度较高，计算效率较低。

发明内容

本发明的目的是提供一种基于MLP-Mixer的跨模态行人重识别方法，以解决上述现有技术存在的问题，提升了深度学习在行人再识别领域的表现，使行人再识别技术可以更好地解决现实问题。

为实现上述目的，本发明提供了如下方案：本发明提供一种基于 MLP-Mixer的跨模态行人重识别方法，包括以下步骤：

采集行人可见光图像和行人红外图像；

基于所述行人可见光图像和所述行人红外图像，利用MLP-Mixer 网络分别提取可见光模态人物特征和红外模态人物特征；

基于所述可见光模态人物特征和所述红外模态人物特征，利用基于位置的自注意力引导学习模型提取模态共享特征；

利用损失函数优化所述模态共享特征，获得异质模态的区分性局部特征表示，进行行人重识别。

可选地，所述MLP-Mixer网络包括若干Mixer-Layer，所述Mixer- Layer相互堆叠。

可选地，利用MLP-Mixer网络分别提取可见光模态人物特征和红外模态人物特征包括：

MLP-Mixer分别将所述行人可见光图像和所述行人红外图像切分为若干个可见光图像块和红外图像块；

将每个所述可见光图像块和所述红外图像块进行映射，获得对应的向量；

将多个同类所述向量组成矩阵；

将所述矩阵输入所述Mixer-Layer，获得所述Mixer-Layer的最终输出特征矩阵，即为可见光模态人物特征和红外模态人物特征。

可选地，所述Mixer-Layer为：

U_*，i＝X_*，i+W₂·σ(W₁·LN(X)_*，i)

Y_j，*＝U_j，*+W₄·σ(W₃·LN(U)_j，*)

其中，σ为Sigmoid函数，LN为层标准化函数，X为输入特征矩阵，W为网络参数矩阵，i、j分别表示特征矩阵两个维度的序号，U 为一层Mixer-Layer结构计算的中间结果，Y为一层Mixer-Layer的输出结果。

可选地，所述MLP-Mixer网络包括Channel-mixing MLPs和 Token-mixing MLPs，其中，所述Channel-mixing MLPs用于学习不同的通道之间的交叉信息，所述Token-mixing MLPs用于学习不同图像块之间的交叉信息，所述Channel-mixing MLPs和所述Token- mixing MLPs交错叠加，并且利用层标准化机制和残差连接机制进行不同维度的信息交叉处理。

可选地，所述利用基于位置的自注意力引导学习模型提取模态共享特征包括：将所述基于位置的自注意力引导学习模型设置在所述MLP-Mixer网络中，利用所述基于位置的自注意力引导学习模型，分别对所述可见光模态人物特征和所述红外模态人物特征进行局部特征提取，获得所述模态共享特征。

可选地，所述损失函数包括交叉熵损失函数和异中心损失函数，其中，所述交叉熵损失函数用于对特定模态的特征进行分类，所述异中心损失函数用于进行跨模态约束。

可选地，所述交叉熵损失函数为：

其中，N表示批次大小，W_i表示第i列重量，b表示偏差项，I表示身份的数量，x_n表示属于第y类别的第n个可见光和红外特征。

可选地，所述异中心损失函数为：

其中，C_m,1和C_m,2分别为第i个类别中可见光图像和红外图像的特征表示向量的中心，V为属于第i类的可见光图像的数量，I为属于第i类的红外图像的数量，M是类的数量。

本发明公开了以下技术效果：

本发明提供的一种基于MLP-Mixer的跨模态行人重识别方法，采用MLP-Mixer结构提取各模态图像特征，设计基于自注意力机制的学习模块，用于学习共享特定的特征表示，并增强跨模态行人再识别任务中异质模态的区分性局部特征表示。双路径局部信息结构有两个单独的分支，其中包含一个可见流和一个红外流，用于提取模态共享特征。该方法能够提取出具有鉴别能力的局部特征，并获得更好的性能，形成最终的特征描述符。为了监督网络提取鉴别特征以缩小不同模式的边缘，对交叉熵损失和异中心损失进行联合监督。所提出的方法在两个标准数据集上得到了更高的表现，并且由于MLP-Mixer结构简单，可迁移性强，训练成本(时间成本、算力成本)相较于卷积神经网络都更低。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本事实例中跨模态行人重识别方法流程示意图；

图2为本实施例中双路径局部信息结构的示意图；

图3为本实施例中MLP-Mixer的总体结构示意图；

图4为本实施例中MLP-Mixer中的基本单元Mixer-Layer的结构图；

图5为本实施例中基于位置的注意力引导学习模块示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明提供一种基于MLP-Mixer的跨模态行人重识别方法，包括以下步骤，如图1所示：

S1、采集行人可见光图像和行人红外图像。

在本实施例中，使用到了两种数据集。SYSU-MM01是红外图像-可见光图像双模态行人再识别任务领域中第一个由四个可见光摄像机和两个红外摄像机组成的大规模数据集。图像采集自室内和室外环境。另一个数据集RegDB由双摄像头系统捕获。

S2、利用MLP-Mixer网络对基于行人可见光图像和行人红外图像进行处理，分别提取可见光模态人物特征和红外模态人物特征。MLP- Mixer是一种基于MLP模型的预训练模型，其优点是模型结构简单，计算效率高，训练速度快，并且模型效果不输卷积神经网络，预训练完成后可迁移能力强。

本实施例中，采用双路径局部信息模型来提取跨模态的图像特征，具体为两个不同的模态分别经过一条独立的特征提取路径，即可见光路径和红外路径，如图2所示，双路径结构最终得到两个模态下各自的图像特征矩阵。虽然卷积神经网络在许多视觉任务中都能获得有竞争力的性能，但是由于卷积计算效率不够高，因此，在本实施例中，在每条路径中分别采用MLP-Mixer网络作为主干网络，分别提取特定模态(可见光模态和红外模态)的人物特征。MLP-Mixer模型如图3 所示，其中包含12个如图4所示的Mixer-Layer结构。MLP-Mixer将图像切分为若干个图像块，并将每个图像块映射为一个向量，多个图像块所映射得到的向量组成一个矩阵，该特征矩阵通过连续堆叠12 层的Mixer-Layer结构，最终第12层的输出的特征矩阵用于后续的特征距离度量或者损失函数的计算。如图4所示的Mixer-Layer结构可以用如下公式表示，其中，σ为Sigmoid函数，LN为层标准化函数。

U_*，i＝X_*，i+W₂·σ(W₁·LN(X)_*，i)

Y_j，*＝U_j，*+W₄·σ(W₃·LN(U)_j，*)

其中，X为输入特征矩阵，W为网络参数矩阵，i、j分别表示特征矩阵两个维度的序号，U为一层Mixer-Layer结构计算的中间结果， Y为一层Mixer-Layer的输出结果。

MLP-Mixer结构中包含两种类型的MLP，其一是Channel-mixing MLPs，它在每一个图像块上进行MLP操作，学习不同的通道之间的交叉信息；其二是Token-mixing MLPs，token也就是图像块，在每一个通道上进行MLP操作，学习不同图像块之间的交叉信息。两种类型的MLP交错叠加，中间穿插层标准化机制和残差连接机制，实现两个维度的信息交叉，两个维度包括通道维度和图像块维度。

由于每个模态对应一条特征提取路径，因此可以认为两个模态的特征提取过程是相互独立的，互不影响的，这样提取特定于模态的人物特征，可以解决跨模态变化问题。

全局特征表示学习是为每个人提取全局信息的主要选择。然而，这些方法可能会导致显著和信息性特征丢失问题。本实施例中，采用将特征矩阵横向切分为多个向量的方法，每一个向量代表行人的一部分局部特征。

S3、基于可见光模态人物特征和红外模态人物特征，利用基于位置的自注意力引导学习模型提取模态共享特征。该基于位置的自注意力引导学习模型利用自注意力机制，进行模态间的局部特征学习，该结构在两个模态下共享参数，可以有效防止在单一模态下的过拟合问题，并且注意力机制可以有效学习局部特征之间的关系。

在本实施例中，设计一个新的注意学习模块，该模块可以接收高维矩阵，也可以接收二维矩阵，名为位置注意引导学习模块(PALM)。 PALM可以捕获远程依赖项，并增强红外图像与可见光图像跨模态行人再识别任务的本地表示能力。

PALM的详细信息如图5所示。PALM能够接收高维特征矩阵，如果输入为高维矩阵C*H*W的高维特征矩阵可以经过Flatten操作转化为C*(H*W)的二维矩阵。对于这个二维矩阵或者原本就输入的二维矩阵，基于自注意力机制的学习过程可以用下面的公式表示，其中 Conv代表1*1卷积层，BN代表批标准化操作，Q、K、V三个函数都是矩阵乘法操作，只是所用矩阵不同。PALM模块会穿插在MLP-Mixer结构中最后一层Mixer-Layer和倒数第二层之间，以及倒数第二层和倒数第三层之间，可见光模态和红外模态的MLP-Mixer均是如此。这种基于注意力机制的学习模块，能够学习全局特征中各局部特征之间的关系，另外，两个模态下的所用到的PALM模块均是同一个模块，它们共享参数，该模块的学习过程受到了两个模态特征的共同影响，除了能有效防止在单模态下的过拟合，也能学习到不同模态下局部特征的共性。即本实施例中的注意力机制模型可以学习局部特征向量序列之间的关系，共享参数体现了跨模态间的局部特征学习，区别于双路径特征提取过程的模态独立性。

Y＝X+BN(Conv(Attn(X)))

Attn(X)＝BN(Softmax(Q(X)·K(X)))·V(X)

其中，Attn表示注意力机制的计算模块，Conv表示卷积层，BN 表示批标准化层，Softmax表示多分类函数，X表示输入矩阵，Q、K、 V分别表示由输入X分别计算查询矩阵、键矩阵和值矩阵的计算函数，本质为一个矩阵乘法操作，Y为位置注意引导学习模块的输出结果。

最终输出的是一个二维矩阵，和输入该模块的二维矩阵维度相同。原始输入如果是一个高维矩阵，那么按照Flatten的逆向操作，转化为和原始输入矩阵维度完全相同的高维矩阵，如果原始输入为二维矩阵，则不需要这一操作。即，假设高维特征矩阵是维度为C、H、W的特征图，首先使用1×1卷积算子将特征映射送入卷积层，分别生成新的特征映射θ、φ、g，其中

然后将新的三个特征图展平，便得到了二维矩阵。然后我们乘以张量θ和张量φ通过矩阵乘法运算获得特征F。类似地，特征Y通过张量F和g之间的矩阵乘法获得，最后对输入特征执行元素加法以获得输出特征。

在本实施例中，将基于位置注意力机制引导学习模块插入到MLP- Mixer中后面若干层Mixer-Layer之间，例如插入两个该模块，放置于最后一层Mixer-Layer和倒数第二层Mixer-Layer之间，以及倒数第二层Mixer-Layer和倒数第三层Mixer-Layer之间，将该模块的输出和Mixer-Layer的输出，对应位置相加，再送入下一层Mixer-Layer 中。与特征提取模块不同是，基于自注意力机制引导学习的模块是跨模态参数共享的，即两种模态共用同一个基于自注意力机制的学习模块。最终的输出在水平方向上进行切割，M*N的特征矩阵被切分为M 个1*N的向量，将其视作一组特征向量，将两种模态下得到的两组特征向量进行拼接，得到一组M个1*2N的向量组。

S4、利用损失函数优化模态共享特征，获得异质模态的区分性局部特征表示，进行行人重识别。为了从多个角度优化，损失函数使用两种函数的组合，其中交叉熵损失函数从分类问题的角度优化，让任务识别的更准切，异中心损失函数从距离度量的角度优化，拉近同一行人的在不同模态下的特征距离。

由于跨模态行人再识别任务可以看作是一个图像检索问题，因此我们关注通过双路径结构学习的特征的相似性来提取模态共享特征。因此，该模型在训练阶段的目的是弥合跨模态和模态内的差异，以捕获模态共享特征并提高跨模态相似性。然而，大多数损失函数无法执行模型以了解模态共享特征。对每条路径采用交叉熵损失(CE损失) 来学习特定于模态的特征进行分类。CE损失函数可以表示为

其中，N表示批次大小，W_i表示第i列重量，b表示偏差项。I表示身份的数量。x_n表示属于第y类别的第n个可见光和红外特征，T 为矩阵转置运算符，y_n、y_i均代表某一个类别。

然而，为了进一步缩小每个类别中不同模态的边缘，使用异中心 (HC)损失来监督模型提取鉴别特征表示，以提高跨模态相似性。异中心(HC)损失可以惩罚中心距离并限制两个模态特征分布之间的间隙。异中心(HC)损失公式如下：

其中，

和

分别代表第i个类别中可见光图像和红外图像的特征表示向量的中心。V和I分别代表属于第i类的可见光图像和红外图像的数量。M是类的数量。

对本发明所提出的冲识别方法进行效果验证。所有实验都是基于 PyTorh和两个TITAN XP GPU进行的。我们采用ResNet50预训练网络作为主干网。所有图像的大小都调整为288×144。随机擦除和水平随机翻转方法用于数据扩充。初始学习速率设置为0.01，动量设置为 0.9。在第30和第60个阶段，学习率降低了0.1。批次大小设置为 64，特征图平均分为六条条纹。一批中标识数量设置为四个，每个标识包括八个可见光图像和八个红外图像。测试所用数据集包括SYSU- MM01和RegDB。其中，SYSU-MM01数据集包含287628幅可见光图像和15792幅红外图像。训练集中有395个身份，包括22258个RGB图像和11909个红外图像。该测试集包含96个不同行人，其中3803个红外图像作为查询集，301个可见光图像作为候选集。另一个数据集 RegDB总共包含8240个图像和412个行人，其中206个行人用于训练，206个行人用于测试。每个行人包含10个不同的可见光图像和 10个不同的红外图像。所有测试均采用了包括累积匹配特征(CMC) 和平均精度(mAP)的评估指标。

在SYSU-MM01数据集上对本发明提出的方法进行了评估。表1显示了本方法与SYSU-MM01上其他方法的Rank-n(n＝1,10,20)精度和映射图的比较结果。可以看出，所提出的方法可以达到Rank-1精度 59.03％、Rank-10精度93.03％、Rank-20精度97.7％和mAP指标57.21％的性能。此外，XIV网络也采用双通道深度模型来提取鉴别特征，与之相比，本方法在Rank-1精度方面有所提升，从49.92％提高到59.03％。

Methods	Publication	Rank-1	Rank-10	Rank-20	mAP
						HOG	CVPR 2005	2.76	18.25	31.91	4.24
LOMO	CVPR 2015	3.64	23.18	37.28	4.53
						Two-stream	ICCV 2017	11.65	47.99	65.50	12.85
Zero-Padding	ICCV 2017	14.80	54.12	71.33	15.95
						TONE[23]	AAAI 2018	12.52	50.72	68.60	14.42
TONE+HCML	AAAI 2018	14.32	53.16	69.17	16.16
						BCTR	IJCAI 2018	16.12	54.90	71.47	19.15
BDTR	IJCAI 2018	17.01	55.43	71.96	19.66
						cmGAN	IJCAI 2018	26.97	67.51	80.56	27.80
D<sup>2</sup>RL	CVPR 2019	28.90	70.60	82.40	29.20
						AlignGAN	ICCV 2019	42.40	85.00	93.70	40.70
CMGN	Neurocom2020	27.21	68.19	81.76	27.91
						HC Loss	Neurocom2019	56.96	91.50	96.82	54.95
JSIA-ReID	AAAI 2020	38.10	80.70	89.90	36.90
						XIV	AAAI 2020	49.92	89.79	95.96	50.73
Ours		59.03	93.03	97.77	57.21

在RegDB数据集上做进一步评估了。如表2所示，本方法实现了 Rank-1准确率86.36％，Rank-10的准确率96.12％，以及mAP指标 76.10％的性能。

Methods	Publication	Rank-1	Rank-10	mAP
					HOG	CVPR 2005	13.49	33.22	10.31
LOMO	CVPR 2015	0.85	2.47	2.28
					Two-stream	ICCV 2017	12.43	30.36	13.42
Zero-Padding	ICCV 2017	17.75	34.21	18.90
					TONE	AAAI 2018	16.87	34.03	14.92
TONE+HCML	AAAI 2018	24.44	47.53	20.80
					BCTR	IJCAI 2018	32.67	57.64	30.99
BDTR	IJCAI 2018	33.47	58.42	31.83
					D<sup>2</sup>RL	CVPR 2019	43.40	66.10	44.10
AlignGAN	ICCV 2019	57.90	--	53.60
					CMGN	Neurocom2020	35.13	61.07	32.14
HC Loss	Neurocom2019	83.00	--	72.00
					JSIA-ReID	AAAI 2020	48.50	--	49.30
XIV	AAAI 2020	62.21	83.13	60.18
					Ours		86.36	96.12	76.10

本发明提出了一种基于MLP-Mixer的跨模态行人重识别方法，采用MLP-Mixer结构提取各模态图像特征，设计基于自注意力机制的学习模块，用于学习共享特定的特征表示，并增强跨模态行人再识别任务中异质模态的区分性局部特征表示。双路径局部信息结构有两个单独的分支，其中包含一个可见流和一个红外流，用于提取模态共享特征。该方法能够提取出具有鉴别能力的局部特征，并获得更好的性能，形成最终的特征描述符。为了监督网络提取鉴别特征以缩小不同模式的边缘，我们对交叉熵损失和异中心损失进行联合监督。所提出的方法在两个标准数据集上得到了更高的表现。本发明提升了深度学习在行人再识别领域的表现，使行人再识别技术可以更好地解决现实问题。例如行人重识别技术可以帮助手机用户实现相册聚类、帮助零售或商超经营者获取有效的顾客轨迹、挖掘商业价值。在现有数据集上提出的有效方法，可以很好的移植到实际的数据集中，为行人的识别提供了高效的方法，具有很强的实际应用价值。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于MLP-Mixer的跨模态行人重识别方法，其特征在于，包括以下步骤：

采集行人可见光图像和行人红外图像；

基于所述行人可见光图像和所述行人红外图像，利用MLP-Mixer网络分别提取可见光模态人物特征和红外模态人物特征；

2.根据权利要求1所述的基于MLP-Mixer的跨模态行人重识别方法，其特征在于，所述MLP-Mixer网络包括若干Mixer-Layer，所述Mixer-Layer相互堆叠。

3.根据权利要求2所述的基于MLP-Mixer的跨模态行人重识别方法，其特征在于，利用MLP-Mixer网络分别提取可见光模态人物特征和红外模态人物特征包括：

将多个同类所述向量组成矩阵；

4.根据权利要求2或3所述的基于MLP-Mixer的跨模态行人重识别方法，其特征在于，所述Mixer-Layer为：

U_*,i＝X_*,i+W₂·σ(W₁·LN(X)_*,i)

Y_j,*＝U_j,*+W₄·σ(W₃·LN(U)_j,*)

其中，σ为Sigmoid函数，LN为层标准化函数，X为输入特征矩阵，W为网络参数矩阵，i、j分别表示特征矩阵两个维度的序号，U为一层Mixer-Layer结构计算的中间结果，Y为一层Mixer-Layer的输出结果。

5.根据权利要求1所述的基于MLP-Mixer的跨模态行人重识别方法，其特征在于，所述MLP-Mixer网络包括Channel-mixing MLPs和Token-mixing MLPs，其中，所述Channel-mixing MLPs用于学习不同的通道之间的交叉信息，所述Token-mixing MLPs用于学习不同图像块之间的交叉信息，所述Channel-mixing MLPs和所述Token-mixing MLPs交错叠加，并且利用层标准化机制和残差连接机制进行不同维度的信息交叉处理。

6.根据权利要求1所述的基于MLP-Mixer的跨模态行人重识别方法，其特征在于，所述利用基于位置的自注意力引导学习模型提取模态共享特征包括：将所述基于位置的自注意力引导学习模型设置在所述MLP-Mixer网络中，利用所述基于位置的自注意力引导学习模型，分别对所述可见光模态人物特征和所述红外模态人物特征进行局部特征提取，获得所述模态共享特征。

7.根据权利要求1所述的基于MLP-Mixer的跨模态行人重识别方法，其特征在于，所述损失函数包括交叉熵损失函数和异中心损失函数，其中，所述交叉熵损失函数用于对特定模态的特征进行分类，所述异中心损失函数用于进行跨模态约束。

8.根据权利要求7所述的基于MLP-Mixer的跨模态行人重识别方法，其特征在于，所述交叉熵损失函数为：

9.根据权利要求7所述的基于MLP-Mixer的跨模态行人重识别方法，其特征在于，所述异中心损失函数为：