CN114495010A

CN114495010A - 一种基于多特征学习的跨模态行人重识别方法及系统

Info

Publication number: CN114495010A
Application number: CN202210135424.3A
Authority: CN
Inventors: 郭思琦; 谭台哲
Original assignee: Heyuan Bay District Digital Economy And Technology Innovation Center; Guangdong University of Technology
Current assignee: Heyuan Bay District Digital Economy And Technology Innovation Center; Guangdong University of Technology
Priority date: 2022-02-14
Filing date: 2022-02-14
Publication date: 2022-05-13
Anticipated expiration: 2042-02-14
Also published as: CN114495010B

Abstract

本发明提出一种基于多特征学习的跨模态行人重识别方法及系统，包括：获取若干批次的可见光图像和红外图像，并输入包括双流网络的跨模态行人重识别模型中，模型输出可见光图像和红外图像的全局特征和局部特征。根据全局特征和局部特征，计算困难五元组损失、全局身份损失和特定身份损失以构建模型的整体损失函数。根据整体损失函数对模型进行参数优化；将待测试的行人的可见光图像、红外图像以及待识别的目标图像输入优化后的模型中，模型输出行人重识别结果。本发明考虑了两种模态图像的全局特征以及局部特征，弥补了仅使用一种特征来进行行人重识别造成的不足，增强了模型特征的辨别性和鲁棒性，提高了跨模态行人重识别的识别精度。

Description

一种基于多特征学习的跨模态行人重识别方法及系统

技术领域

本发明涉及图像识别领域，更具体地，涉及一种基于多特征学习的跨模态行人重识别方法及系统。

背景技术

行人重识别是指给定一幅待识别行人的图片，在不同摄像头采集的不同图像中通过人员匹配找出具有相同身份的人员。可见光-红外图像跨模态行人重识别方法，可以使得两种模态的行人图像能够相互匹配，充分利用可见光和红外摄像头拍摄到的监控数据，达到24小时监控的目的。

现有一种基于双流卷积神经网络的跨模态行人重识别方法和系统，其通过使用两个卷积神经网络中的特征提取部分，并采用交叉熵损失函数、跨模态三元组损失函数、相对熵损失函数和随机调换策略对两个卷积神经网络在跨模态数据集上进行训练，分别提取两个模态图像的特征，再将两个模态的特征进行欧氏距离度量得到特征匹配结果，实现跨模态行人重识别。

然而，可见光图像和红外图像不仅模态间有区别，而且即使在同一模态内，由于行人姿态、监控视角和光照强度的变化，也会使得同一模态中同一身份的图像之间产生诸多差异。上述方法仅使用两个模态图像的全局特征来进行行人重识别，仅使用单一特征信息的方法使得模型对图像的信息提取不够充分，可能导致模型对一些信息过分依赖，影响模型从图像库中检测目标行人的准确性。

发明内容

本发明为克服现有技术中存在的仅使用图像的全局特征或局部特征来进行跨模态行人重识别，导致识别准确性低的缺陷，提供一种基于多特征学习的跨模态行人重识别方法及系统。

为解决上述技术问题，本发明的技术方案如下：

第一个方面，本发明提出一种基于多特征学习的跨模态行人重识别方法，包括以下步骤：

S1：构建包括双流网络的跨模态行人重识别模型；

S2：随机获取若干批次行人的可见光图像和红外图像，构建训练集和测试集；

S3：按批次将所述可见光图像和所述红外图像分别输入跨模态行人重识别模型中，跨模态行人重识别模型输出可见光图像和红外图像的全局特征，以及可见光图像和红外图像局部特征；

S4：根据所述全局特征计算困难五元组损失和全局身份损失，根据所述局部特征计算特定身份损失；

S5：根据困难五元组损失、全局身份损失和特定身份损失构建跨模态行人重识别模型的整体损失函数，根据所述整体损失函数对跨模态行人重识别模型进行参数优化；

S6：将测试集中的图像和待识别的目标图像输入优化后的跨模态行人重识别模型，计算待识别的目标图像与测试集中的图像之间的特征相似度，输出测试集中前M张与待识别的目标图像特征相似度最高的图像，作为行人重识别结果。

优选地，S3中，随机获取若干批次行人的可见光图像和红外图像，每一批次包括N类行人的P张可见光图像和P张红外图像，共2NP张图像。

对可见光图像和红外图像的三维张量进行全局平均池化，得到可见光图像和红外图像的全局特征。

将可见光图像和红外图像的三维张量水平分割为K个水平部分张量，对所述K个水平部分张量进行全局平均池化，得到K个列向量；采用卷积层对所述K个列向量进行降维，得到可见光图像和红外图像的局部特征。

优选地，S4中，根据可见光图像和红外图像的全局特征计算困难五元组损失L_HP，其计算公式如下所示：

其中，N表示行人的类别数，P表示可见光图像或红外图像的数量，L_hgt表示困难全局三元组损失，L_hct表示困难跨模态三元组损失；

所述困难全局三元组损失L_hgt的计算公式如下所示：

其中，p＝1…2P,a＝1…2P,p≠a,n＝1…2P,i＝1…N,j＝1…N,j≠i，α表示图像之间最大欧式距离和最小欧式距离之差；f_i ^a表示行人类别为i的第a张图像的全局特征，f_i ^p表示行人类别为i的第p张图像的全局特征，

表示行人类别为j的第n张图像的全局特征；表示行人类别为i的第a张图像与行人类别为i的第n张图像的最大欧式距离，

表示行人类别为i的第a张图像与行人类别为j的第n张图像的最小欧式距离；函数[*]₊中，若*大于0，[*]₊输出*，若*小于或等于0，[*]₊输出为0；

所述困难跨模态三元组损失L_hct的计算公式如下所示：

其中，f_i ^cp表示行人类别为i且与f_i ^a不属于同一模态图像的全局特征，

表示行人类别为j且与f_i ^a不属于同一模态图像的全局特征；

表示行人类别为i的第a张图像与另一个模态中行人类别为j的图像中的最小欧式距离，maxd(f_i ^a,f_i ^cp)表示行人类别为i的第a张图像与另一个模态中行人类别为i的图像的最大欧式距离。

优选地，S4中，使用全局分类器，对所述全局特征进行身份分类，计算交叉熵损失作为全局身份损失L_id，其计算公式如下所示：

其中，

表示第i张可见光图像的标签，V表示可见光图像，

表示全局分类器对第i张可见光图像进行分类的概率结果；

为第i张红外图像的标签，I表示红外图像，

表示全局分类器对第i张红外图像进行分类的概率结果。

优选地，S4中，使用可见光分类器对可见光图像的局部特征进行身份分类，使用红外分类器对红外图像对应的局部特征进行身份分类，计算交叉熵损失作为特定身份损失L_sid，其计算公式如下所示：

其中，

表示可见光分类器对第i张可见光图像的第j个局部特征进行分类的概率结果，

表示红外分类器对第i张红外图像的第j个局部特征进行分类的概率结果。

则根据困难五元组损失L_HP、全局身份损失L_id和特定身份损失L_sid构建跨模态行人重识别模型的整体损失函数L，其表达式如下所示：

L＝L_id+L_HP+λL_sid

其中，λ为损失函数的权重参数。

优选地，S1中，所述双流网络包括可见光模态网络和红外模态网络；

所述可见光模态网络包括第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第五卷积模块、第六卷积模块、第一水平分割模块、第一池化层、可见光分类器和第一全局分类器；所述第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块和第五卷积模块依次连接，所述第五卷积模块的输出端分别与第一水平分割模块和第一池化层的输入端连接；所述第一水平分割模块的输出端与所述第六卷积模块的输入端连接，所述第六卷积模块的输出端与所述可见光分类器的输入端连接；所述第一池化层的输出端与所述第一全局分类器的输入端连接；

所述红外模态网络包括第七卷积模块、第八卷积模块、第九卷积模块、第十卷积模块、第十一卷积模块、第十二卷积模块、第二水平分割模块、第二池化层、红外分类器和第二全局分类器；所述第七卷积模块、第八卷积模块、第九卷积模块、第十卷积模块和第十一卷积模块依次连接，所述第十一卷积模块的输出端分别与第二水平分割模块和第二池化层的输入端连接；所述第二水平分割模块的输出端与所述第十二卷积模块的输入端连接，所述第十二卷积模块的输出端与所述红外分类器的输入端连接；所述第二池化层的输出端与所述第二全局分类器的输入端连接；

所述第三卷积模块与所述第九卷积模块的参数共享；所述第四卷积模块与所述第十卷积模块的参数共享；所述第五卷积模块与所述第十一卷积模块的参数共享；所述第二卷积模块与所述第八卷积模块的参数共享；

所述第一全局分类器和所述第二全局分类器的参数共享。

优选地，所述可见光模态网络和红外模态网络采用BotNet作为骨干网络。

优选地，所述可见光分类器、第一全局分类器、红外分类器和第二全局分类器均包括一个全连接层和一个归一化层。

第二个方面，本发明还提出一种基于多特征学习的跨模态行人重识别系统，应用于上述任一方案所述的基于多特征学习的跨模态行人重识别方法中，包括：

数据获取模块，用于随机获取若干批次行人的可见光图像和红外图像，构建训练集和测试集；

跨模态行人重识别模型，包括双流网络，用于根据获取的可见光图像和红外图像，输出可见光图像和红外图像的全局特征，以及可见光图像和红外图像局部特征；并计算待识别的目标图像与测试集中的图像之间的相似度输出测试集中前M张与待识别的目标图像特征相似度最高的图像，作为行人重识别结果；

优化模块，用于根据所述可见光图像和红外图像的全局特征，以及可见光图像和红外图像局部特征，计算包括困难五元组损失、全局身份损失和局部特征计算特定身份损失的跨模态行人重识别模型的损失函数，并根据所述损失函数对跨模态行人重识别模型进行参数优化。

与现有技术相比，本发明技术方案的有益效果是：本发明利用双流网络提取每个批次的可见光图像和红外图像的全局特征和局部特征，并根据全局特征计算出困难五元组损失，针对全局特征以及每一个局部特征进行身份分类，得到全局身份损失和特定身份损失；根据困难五元组损失、全局身份损失和特定身份损失构建跨模态行人重识别模型的整体损失函数，并根据整体损失函数对跨模态行人重识别模型进行参数优化。其中，特定身份损失使得跨模态行人重识别模型能够注意到不同行人类别图像之间的细微差别，有利于提取出特定身份的辨别性特征。本发明考虑了可见光图像和红外图像的全局特征以及局部特征，以全局特征和局部特征结合的方式增强特征提取的信息容量，弥补了仅使用一种特征来进行行人重识别造成的不足，增强了模型特征的辨别性，提高了跨模态行人重识别的识别精度。

附图说明

图1为基于多特征学习的跨模态行人重识别方法的流程图。

图2为实施例2中双流网络的原理图。

图3为基于多特征学习的跨模态行人重识别系统的架构图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

请参阅图1，本实施例提出一种基于多特征学习的跨模态行人重识别方法，包括以下步骤：

S1：构建包括双流网络的跨模态行人重识别模型；

在具体实施过程中，按批次将可见光图像和红外图像输入跨模态行人重识别模型中，跨模态行人重识别模型中双流网络输出可见光图像和红外图像的三维张量。一方面，对可见光图像和红外图像的三维张量进行全局平均池化，可以得到可见光图像和红外图像的全局特征；另一方面，对可见光图像和红外图像的三维张量进行水平分割，得到相应的水平部分张量，并对所述水平部分张量进行全局平均池化，得到相应的列向量，然后再利用卷积层对所述列向量进行降维，可以得到可见光图像和红外图像的局部特征。

根据可见光图像和红外图像的全局特征计算出困难五元组损失，并针对可见光图像和红外图像的全局特征以及每一个局部特征进行身份分类，得到全局身份损失和特定身份损失，以构建跨模态行人重识别模型的整体损失函数，并根据整体损失函数对跨模态行人重识别模型进行参数优化。最后将测试集中的图像和待识别的目标图像输入优化后的跨模态行人重识别模型，计算待识别的目标图像与测试集中的图像之间的特征相似度，输出测试集中前20张与待识别的目标图像特征相似度最高的图像，作为行人重识别结果。

可见光图像和红外图像不仅模态间有区别，而且即使在同一模态内，由于行人姿态、监控视角和光照强度的变化，也会使得同一模态中同一身份的图像之间产生诸多差异。

本发明考虑了可见光图像和红外图像的全局特征以及局部特征，以全局特征和局部特征结合的方式增强特征提取的信息容量，弥补了仅使用一种特征来进行行人重识别造成的不足，增强了模型特征的辨别性和鲁棒性，提高了跨模态行人重识别的识别精度。

实施例2

本实施例提出一种基于多特征学习的跨模态行人重识别方法，包括以下步骤：

S1：构建包括双流网络的跨模态行人重识别模型。

S2：随机获取若干批次行人的可见光图像和红外图像，每一批次包括N类行人的P张可见光图像和P张红外图像，共2NP张图像以构建训练集和测试集。

本实施例中，从SYSU-MM01数据集中随机获取若干批次行人的可见光图像和红外图像，构建训练集和测试集，其中测试集中选用红外图像作为待检索图像集，可见光图像作为检索图库；将测试集中的图像重置为288*144尺寸，在训练集中的图像边缘填充10个像素，之后随机裁剪得到尺寸为288*144图像，并以0.5概率对图像进行水平翻转操作。

S3：按批次将所述可见光图像和所述红外图像分别输入跨模态行人重识别模型中，跨模态行人重识别模型输出可见光图像和红外图像的全局特征，以及可见光图像和红外图像局部特征。

本实施例中，每一批次行人的可见光图像和红外图像中选取8个行人类别，每个行人类别选取4个可见光图像和红外图像，即N＝8，P＝4。分别将训练集中每个批次的可见光图像和红外图像输入跨模态行人重识别模型中。

本实施例中，所述双流网络包括可见光模态网络和红外模态网络。如图2所示，图2为本实施提出的双流网络的原理图。

所述可见光模态网络包括第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第五卷积模块、第六卷积模块、第一水平分割模块、第一池化层、可见光分类器和第一全局分类器；所述第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块和第五卷积模块依次连接，所述第五卷积模块的输出端分别与第一水平分割模块和第一池化层的输入端连接；所述第一水平分割模块的输出端与所述第六卷积模块的输入端连接，所述第六卷积模块的输出端与所述可见光分类器的输入端连接；所述第一池化层的输出端与所述第一全局分类器的输入端连接。

所述红外模态网络包括第七卷积模块、第八卷积模块、第九卷积模块、第十卷积模块、第十一卷积模块、第十二卷积模块、第二水平分割模块、第二池化层、红外分类器和第二全局分类器；所述第七卷积模块、第八卷积模块、第九卷积模块、第十卷积模块和第十一卷积模块依次连接，所述第十一卷积模块的输出端分别与第二水平分割模块和第二池化层的输入端连接；所述第二水平分割模块的输出端与所述第十二卷积模块的输入端连接，所述第十二卷积模块的输出端与所述红外分类器的输入端连接；所述第二池化层的输出端与所述第二全局分类器的输入端连接。

所述第一卷积模块与所述第五卷积模块参数不共享，以及所述第一卷积层和所述第三卷积层参数不共享，用于分别提取可见光和红外模态的特定特征。

所述第三卷积模块与所述第九卷积模块的参数共享；所述第四卷积模块与所述第十卷积模块的参数共享；所述第五卷积模块与所述第十一卷积模块的参数共享；所述第二卷积模块与所述第八卷积模块的参数共享，所述第一全局分类器和所述第二全局分类器的参数共享，用于提取可见光和红外两种模态之间的共同特征。

所述第一卷积模块与所述第七卷积模块参数不共享，以及所述第六卷积层和所述第十二卷积层参数不共享，用于分别提取可见光和红外模态的特定特征。

所述可见光分类器和所述红外分类器参数不共享，用于针对不同模态的特定局部特征进行分类。

本实施例中，可见光模态网络和红外模态网络采用在ImageNet预训练的BotNet作为骨干网络。本实施例将基于注意力思想的BoTNet作为骨干网络的双流网络提取全局特征，第五卷积模块和第十一卷积模块将卷积核为3×3的卷积层更换为多头自注意力层(MHSA)，减少了网络参数并增强了网络架构的全局信息聚合能力。

本实施例中，所述可见光分类器、第一全局分类器红外分类器和第二全局分类器均包括一个全连接层和一个归一化层。

本实施例中，将所述可见光图像输入跨模态行人重识别模型中，可见光图像先经过第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第五卷积模块，第五卷积模块输出可见光图像的三维张量T₁。一方面，可见光图像的三维张量T₁经过第一池化层进行全局平均池化，得到可见光图像的全局特征；另一方面，可见光图像的三维张量T₁经过第一水平分割模块，水平分割为6个水平部分张量，对所述6个水平部分张量进行全局平均池化，得到6个列向量；采用第六卷积模块对所述6个列向量进行降维，得到可见光图像的局部特征。

将所述红外图像输入跨模态行人重识别模型中，红外图像先经过第七卷积层、第八卷积模块、第九卷积模块、第十卷积模块和第十一卷积模块，第十一卷积模块输出红外图像的三维张量T₂。一方面，红外图像的三维张量T₂经过第二池化层进行全局平均池化，得到红外图像的全局特征；另一方面，红外图像的三维张量T₂经过第一水平分割模块，水平分割为6个水平部分张量，对所述6个水平部分张量进行全局平均池化，得到6个列向量；采用第十二卷积模块对所述6个列向量进行降维，得到红外图像的局部特征。

S4：根据所述全局特征计算困难五元组损失和全局身份损失，根据所述局部特征计算特定身份损失。

本实施例中，联合每个批次中可见光图像和红外图像的全局特征，计算困难五元组损失L_HP，困难五元组损失L_HP由困难全局三元组损失L_hgt和困难跨模态三元组损失L_hct组成。

困难全局三元组损失L_hgt的计算公式如下所示：

其中，p＝1…2P,a＝1…2P,p≠a,n＝1…2P,i＝1…N,j＝1…N,j≠i，α表示图像之间最大欧式距离和最小欧式距离之差，α的取值为0.9；f_i ^a表示行人类别为i的第a张图像的全局特征，f_i ^p表示行人类别为i的第p张图像的全局特征，

困难跨模态三元组损失L_hct的计算公式如下所示：

表示行人类别为j且与f_i ^a不属于同一模态图像的全局特征；

因此，困难五元组损失L_HP的计算公式如下所示：

根据可见光图像和红外图像的全局特征计算困难五元组损失L_HP，其计算公式如下所示：

其中，N表示行人的类别数，P表示可见光图像或红外图像的数量，L_hgt表示困难全局三元组损失，L_hct表示困难跨模态三元组损失。

本实施例中，使用第一全局分类器和第二全局分类器分别对可见光图像和红外图像的全局特征进行身份分类，计算交叉熵损失作为全局身份损失L_id，其计算公式如下所示：

其中，

表示第i张可见光图像的标签，V表示可见光图像，

表示全局分类器对第i张可见光图像进行分类的概率结果；

为第i张红外图像的标签，I表示红外图像，

表示全局分类器对第i张红外图像进行分类的概率结果。

本实施例中，使用可见光分类器对可见光图像的局部特征进行身份分类，使用红外分类器对红外图像对应的局部特征进行身份分类，计算交叉熵损失作为特定身份损失L_sid，其计算公式如下所示：

其中，

S5：根据困难五元组损失L_HP、全局身份损失L_id和特定身份损失L_sid构建跨模态行人重识别模型的整体损失函数L，其表达式如下所示：

L＝L_id+L_HP+λL_sid

其中，λ为损失函数的权重参数，λ的取值为0.9。

根据所述整体损失函数，使用动量优化器对跨模态行人重识别模型的参数进行优化，将动量设置为0.9，初始学习率为0.01。设置模型训练次数为50，每10次衰减一次学习速率，衰减速率为0.1。，最小化整体损失函数。

S6：将测试集中的图像和待识别的目标图像输入优化后的跨模态行人重识别模型，计算待识别的目标图像与测试集中的图像之间的特征相似度，输出测试集中前20张与待识别的目标图像特征相似度最高的图像，作为行人重识别结果。

本实施例中，将测试集的待检索图像和检索图库中的图像输入优化后的跨模态行人重识别模型，采用经过第一池化层和第二池化层后的可见光图像和红外图像的全局特征计算特征相似度，输出测试集中前20张与待识别的目标图像特征相似度最高的图像，作为行人重识别结果。

实施例3

请参阅图3，本实施例提出一种基于多特征学习的跨模态行人重识别系统，包括数据获取模块、跨模态行人重识别模型和优化模块。

在具体实施过程中，数据获取模块随机获取若干批次行人的可见光图像和红外图像，构建训练集和测试集，其中测试集中选用红外图像作为待检索图像集，可见光图像作为检索图库；并分别将训练集中每个批次的可见光图像和红外图像输入跨模态行人重识别模型中。

跨模态行人重识别模型包括双流网络，所述双流网络包括可见光模态网络和红外模态网络。可见光图像输入到可见光模态网络中，首先得到可见光图像的三维张量。一方面，可见光图像的三维张量在可见光模态网络中进行全局平均池化，得到可见光图像的全局特征；另一方面，可见光图像的三维张量在可见光模态网络中进行水平分割，得到若干个水平部分张量，所述水平部分张量经过全局平均池化，得到相应的列向量；采用卷积层对所述列向量进行降维，得到可见光图像的局部特征。

红外图像输入到红外模态网络中，首先得到红外图像的三维张量。一方面，红外图像的三维张量在红外模态网络中进行全局平均池化，得到红外图像的全局特征；另一方面，红外图像的三维张量在红外模态网络中进行水平分割，得到若干个水平部分张量，所述水平部分张量经过全局平均池化，得到相应的列向量；采用卷积层对所述列向量进行降维，得到红外图像的局部特征。根据获取的可见光图像和红外图像，输出可见光图像和红外图像的全局特征，以及可见光图像和红外图像局部特征。

优化模块根据所述可见光图像和红外图像的全局特征，以及可见光图像和红外图像局部特征，计算包括困难五元组损失、全局身份损失和局部特征计算特定身份损失的跨模态行人重识别模型的损失函数，并根据所述损失函数对跨模态行人重识别模型进行参数优化。

最后将测试集的待检索图像和检索图库中的图像输入优化后的跨模态行人重识别模型，采用经过第一池化层和第二池化层后的可见光图像和红外图像的全局特征计算特征相似度，输出测试集中前M张与待识别的目标图像特征相似度最高的图像，作为行人重识别结果。

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于多特征学习的跨模态行人重识别方法，其特征在于，包括以下步骤：

S1：构建包括双流网络的跨模态行人重识别模型；

2.根据权利要求1所述的基于多特征学习的跨模态行人重识别方法，其特征在于，S3中，将所述可见光图像和红外图像分别输入跨模态行人重识别模型中，分别得到可见光图像和红外图像的三维张量；

对可见光图像和红外图像的三维张量进行全局平均池化，得到可见光图像和红外图像的全局特征；

3.根据权利要求1所述的基于多特征学习的跨模态行人重识别方法，其特征在于，S2中，随机获取若干批次行人的可见光图像和红外图像，每一批次包括N类行人的P张可见光图像和P张红外图像，共2NP张图像。

4.根据权利要求3所述的基于多特征学习的跨模态行人重识别方法，其特征在于，S4中，根据可见光图像和红外图像的全局特征计算困难五元组损失L_HP，其计算公式如下所示：

所述困难全局三元组损失L_hgt的计算公式如下所示：

其中，p＝1...2P，a＝1...2P，p≠a，n＝1...2P，i＝1...N，j＝1...N，j≠i，α表示图像之间最大欧式距离和最小欧式距离之差；f_i ^a表示行人类别为i的第a张图像的全局特征，f_i ^p表示行人类别为i的第p张图像的全局特征，f_j ⁿ表示行人类别为j的第n张图像的全局特征；max d(f_i ^a，f_i ^p)表示行人类别为i的第a张图像与行人类别为i的第n张图像的最大欧式距离，min d(f_i ^a，f_j ⁿ)表示行人类别为i的第a张图像与行人类别为j的第n张图像的最小欧式距离；函数[*]₊中，若*大于0，[*]₊输出*，若*小于或等于0，[*]₊输出为0；

所述困难跨模态三元组损失L_hct的计算公式如下所示：