CN114998925B

CN114998925B - 一种面向孪生噪声标签的鲁棒跨模态行人重识别方法

Info

Publication number: CN114998925B
Application number: CN202210431917.1A
Authority: CN
Inventors: 彭玺; 杨谋星
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2022-04-22
Filing date: 2022-04-22
Publication date: 2024-04-02
Anticipated expiration: 2042-04-22
Also published as: CN114998925A

Abstract

本发明公开了一种面向孪生噪声标签的鲁棒跨模态行人重识别方法，包括以下步骤：S1、采集行人的图像数据，将其输入第一神经网络进行预热，得到每个图像数据的损失值；S2、基于每个图像数据的损失值，通过高斯混合模型建模得到每个图像数据的置信度；S3、依据每个图像数据的置信度，将所有图像数据划分成若干三元组，并修改三元组的关联得到修正后三元组的关联；S4、基于每个图像数据的置信度和修正后三元组的关联，通过双重鲁棒网络训练方法进行第一神经网络的训练；S5、重复S2～S4直至第一神经网络收敛，得到鲁棒的跨模态行人重识别模型，根据训练好的第一神经网络完成行人识别。

Description

一种面向孪生噪声标签的鲁棒跨模态行人重识别方法

技术领域

本发明属于行人识别技术领域，具体涉及一种面向孪生噪声标签的鲁棒跨模态行人重识别方法。

背景技术

大多数跨模态行人重识别方法都是基于深度学习的，旨在利用神经网络学习到一个公共空间，在这个空间内，同一行人的不同模态照片(即正样本)彼此靠近，不同行人的照片(即负样本)彼此远离。比如，专利基于对比相关的跨模态行人重识别方法中设计了一种基于对比相关的跨模态行人重识别方法。该方法主要包括两部分，即保持空间信息的双路网络和对比相关网络。前者用来提取两个模态独特的信息，并且保持空间特征。基于此，后者进一步考虑两个输入的行人图片的语义差异，进而判断跨模态的行人图片是否属于同一个行人；在文献YE M，WANG Z，LAN X，et al.Visible thermal person re-identificationvia dual-constrained top-ranking[C]中，提出了一种双向排序损失，将不同模态下属于同一个体的样本图像距离拉近，同时融合传统的交叉熵损失，从而达到将不同模态特征进行融合的目的；在文献ZHAO Y B，LIN J W，XUAN Q，etal.HPILN：a feature learningframework for cross-modality person re-identification[J].IET ImageProcessing，2020，13(14)：2897-2904.中，设计了一种难五联损失函数，有效地缩小了模态间的语义鸿沟和模态内不同行人的变化。在文献Ye M,Ruan W,Du B,et al.ChannelAugmented Joint Learning for Visible-Infrared Recognition[C]//ICCV.2021:13567-13576中，设计了一种特殊的数据增广方式和增强的平方损失函数，最终大幅提高了跨模态重识别模型的准确性。在得到该神经网络模型后，输入任一模态的任一行人照片，即可根据相似性的排序检索得到同一行人的另一模态照片。

发明内容

针对现有技术中的上述不足，本发明提供的一种面向孪生噪声标签的鲁棒跨模态行人重识别方法解决了不能消除跨模态行人重识别训练数据中存在的噪声带来的消极影响的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种面向孪生噪声标签的鲁棒跨模态行人重识别方法，包括以下步骤：

S1、采集行人的图像数据，将其输入第一神经网络进行预热，得到每个图像数据的损失值；

S2、基于每个图像数据的损失值，通过高斯混合模型建模得到每个图像数据的置信度；

S3、依据每个图像数据的置信度，将所有图像数据划分成若干三元组，并修正三元组的关联得到修正后三元组的关联；

S4、基于每个图像数据的置信度和修正后三元组的关联，通过双重鲁棒网络训练方法进行第一神经网络的训练；

S5、重复S2～S4直至第一神经网络收敛，得到鲁棒的跨模态行人重识别模型，根据训练好的第一神经网络完成行人识别。

进一步地：所述步骤S1中，图像数据包括可见光图像数据和红外光图像数据；

可见光图像数据具体为标签含噪的可见光输入数据红外光图像数据具体为标签含噪的红外光输入数据/>其中，x为行人图像样本，y为其对应的标签，i为图像数据对应的索引，v为可见光模态，r为红外模态，N_v和N_r分别为相应图像数据的数据量；/>为红外模态行人图像样本的图像数据，/>为红外模态行人图像样本的标签，/>为可见光模态行人图像样本的图像数据，/>为可见光模态行人图像样本的标签；

所述步骤S1包括以下分步骤：

S11、采集行人的可见光图像数据和红外光图像数据，将其输入第一神经网络进行初始训练，得到每个图像数据的交叉熵损失值；

S12、通过每个图像数据交叉熵损失值进行训练得到每个图像数据的损失值。

进一步地：所述步骤S11中，第一神经网络采用交叉熵损失函数进行初始训练，所述交叉熵损失函数的表达式具体为：

式中，为图像数据的交叉熵损失值，P(·)为第一概率函数，模态t∈{v，r}，F^t为模态t对应的特征提取网络，C^t为模态t对应的分类器，/>为模态t的行人图像样本的图像数据，/>为模态t的行人图像样本的标签；

所述步骤S12中，训练得到图像数据的损失值的表达式具体为：

式中，模态t∈{v，r}，N_t为t模态对应图像数据的数据量。

进一步地：所述步骤S2包括以下分步骤：

S21、通过高斯混合模型将每个图像数据的损失值进行拟合，得到每个图像数据的属于高斯混合模型中成分的后验概率；

S22、将每个图像数据的属于最小成分的后验概率作为其对应的置信度。

进一步地：所述步骤S21中，计算每个图像数据的属于高斯混合模型中成分的后验概率的表达式具体为：

式中，γ_δ为混合系数，K为高斯混合模型中成分的总数，p(·)为第二概率函数，为高斯混合模型中第δ个成分的概率密度函数；

所述步骤S22中，图像数据的置信度w_i的表达式具体为：

式中，i为图像数据对应的索引，h为高斯混合模型中均值最小的成分。

进一步地：所述步骤S3包括以下分步骤：

S31、根据每个图像数据的置信度将样本对划分为若干三元组，并确定三元组的组合类型；

S32、根据三元组的组合类型修正三元组的关联，得到修正后三元组的关联。

进一步地：所述步骤S31中，三元组具体为其中，下标l、j和k均为图像数据对应的索引序号，模态t∈{v，r}，/>为跨模态的正样本对，/>为跨模态的负样本对；

所述三元组的组合类型包括真阳性-真阴性组合、真阳性-假阴性组合、假阳性-真阴性组合和假阳性-假阴性组合；确定所述三元组的组合类型的方法具体为：

设置阈值η，根据三元组中图像样本对应的置信度w_l、w_j和w_k与阈值η的大小确定三元组的组合类型；

当w_l＞η，w_j＞η，w_k＞η时，三元组的组合类型为真阳性-真阴性组合；

当w_l＞η，w_j＞η，w_k≤η时，三元组的组合类型为真阳性-假阴性组合；

当w_l＞η，w_j≤η，w_k＞η时，三元组的组合类型为假阳性-真阴性组合；

当w_l＞η，w_j≤η，w_k≤η时，三元组的组合类型为假阳性-假阴性组合。进一步地：所述步骤S32中，三元组的关联具体为跨模态的正样本对关联和负样本对的关联/>修正后三元组的关联具体为正样本对的修正后关联/>和负样本对的修正后关联/>

所述步骤S32具体为：

根据修正的三元组的组合类型修正所述三元组的关联；

当所述三元组的组合类型为真阳性-真阴性组合时，将所述三元组的关联修正为阳性-阴性组合，则修正后三元组的关联

当所述三元组的组合类型为真阳性-假阴性组合时，通过可见光模态和红外模态的分类器的判断跨模态的负样本对是否属于负样本；

若是，则将所述三元组的关联修正为阳性-阴性，则修正后三元组的关联若否，则将所述三元组的关联修正为阳性-阳性组合，则修正后三元组的关联/>

当所述三元组的组合类型为假阳性-真阴性组合时，将所述三元组的关联修正为阴性-阴性组合，则修正后三元组的关联

当所述三元组的组合类型为假阳性-假阴性组合时，通过可见光模态和红外模态的分类器的判断跨模态的负样本对是否属于负样本；

若是，则将所述三元组的关联修正为阴性-阴性，则修正后三元组的关联若否，则将所述三元组的关联修正为阴性-阳性组合，则修正后三元组的关联/>

其中，所述可见光模态和红外模态的分类器的表达式具体为：

式中，上标t₁为图像样本x_l对应的模态，上标t₃为图像样本x_k对应的模态，F(·)为模态对应的特征提取网络，C(·)为模态对应的分类器；

当时，则/>和/>属于负样本；当/>时，则/>和/>不属于负样本。

上述进一步方案的有益效果为：通过处理图像样本的含噪标签及其所导致的错误关联，能很好地消除噪声样本的影响，提高建立模型的鲁棒性。

进一步地：所述步骤S4中，双重鲁棒网络训练方法具体为：

通过噪声标签的损失函数和和对噪声关联鲁棒的损失函数优化第一神经网络；

其中，所述噪声标签的损失函数的表达式具体为：

所述对噪声关联鲁棒的损失函数的表达式具体为：

式中，m为损失函数的边界值，为异或运算，⊙为同或运算，d_lj和d_lk分别为正样本对/>和负样本对/>在第一神经网络学到的联合子空间中的距离，d_lj和d_lk的表达式具体为：

式中，为模态t₁的索引序号l行人图像样本的图像数据，/>为模态t₂的索引序号j行人图像样本的图像数据，/>为模态t₁的索引序号k行人图像样本的图像数据。

进一步地：所述步骤S5具体为：

重复S2～S4直至第一神经网络收敛，得到鲁棒的跨模态行人重识别模型，将需要识别的图像输入鲁棒的跨模态行人重识别模型，生成所述图像对应的数据表示，根据所述数据表查询设置的数据库中相似性最高的数据，得到行人识别结果，完成行人识别。

本发明的有益效果为：本发明通过模型预热、计算图像数据置信度、样本对划分、关联修正和双重鲁棒网络训练方法得到鲁棒的跨模态行人重识别模型，提高了模型的鲁棒性，同时兼顾行人重识别的有效性，根据鲁棒的跨模态行人重识别模型跨模态行人重识别可以消除跨模态行人重识别训练数据中存在的噪声标注以及其进一步导致的孪生噪声带来的消极影响。

附图说明

图1为本发明的流程图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，

在本发明的一个实施例中，一种面向孪生噪声标签的鲁棒跨模态行人重识别方法，包括以下步骤：

S4、基于每个图像数据的置信度和修正后三元组的关联，通过双重鲁棒网络进行第一神经网络的训练；

所述步骤S1中，图像数据包括可见光图像数据和红外光图像数据；

在本实施例中，将不同模态下同一行人(即相同标签)的图像数据作为正样本对，不同行人(即不同标签)的图像数据作为负样本对。

所述步骤S1包括以下分步骤：

所述步骤S11中，第一神经网络采用交叉熵损失函数进行初始训练，所述交叉熵损失函数的表达式具体为：

在本实施例中，第一神经网络进行初始训练是基于神经网络的记忆效应，即神经网络在拟合复杂的噪声样本之前倾向于优先拟合简单的干净数据样本，根据神经网络的记忆效应，在第一神经网络训练的初始第一个epoch利用进行模型训练，得到每个图像数据的损失值。

第一神经网络包含特征提取网络和分类器，特征提取器具体为ResNet50网络，可以将行人的可见光和红外光图片数据投影到一个2048维的公共空间中，得到数据的表示。分类器由一层全连接网络构成，用于将数据表示投影到和设置的数据库中类别数一致的空间中。

式中，模态t∈{v，r}，N_t为t模态对应图像数据的数据量。

所述步骤S2包括以下分步骤：

所述步骤S21中，计算每个图像数据的属于高斯混合模型中成分的后验概率的表达式具体为：

所述步骤S22中，图像数据的置信度w_i的表达式具体为：

所述步骤S3包括以下分步骤：

所述步骤S31中，三元组具体为其中，下标l、j和k均为图像数据对应的索引序号，模态t∈{v，r}，/>为跨模态的正样本对，/>为跨模态的负样本对；

当w_l＞η，w_j≤η，w_k≤η时，三元组的组合类型为假阳性-假阴性组合。

所述步骤S32中，三元组的关联具体为跨模态的正样本对关联和负样本对的关联/>修正后三元组的关联具体为正样本对的修正后关联/>和负样本对的修正后关联

在本实施例中，三元组的关联用于表示正样本对或负样本对，当关联值为0时，则所述样本对为负样本对；当关联值为1时，则所述样本对为正样本对。

所述步骤S32具体为：

根据修正的三元组的组合类型修正所述三元组的关联；

当时，则/>和/>属于负样本；当/>时，则/>和/>不属于负样本。

所述步骤S4中，双重鲁棒网络训练方法具体为：

其中，所述噪声标签的损失函数的表达式具体为：

所述对噪声关联鲁棒的损失函数的表达式具体为：

m为损失函数的边界值，旨在使正样本对距离d_lj和负样本对/>距离d_lk之间的差距逼近m。

所述步骤S5具体为：

重复S2～S4直至第一神经网络收敛，得到鲁棒的跨模态行人重识别模型，将需要识别的图像输入鲁棒的跨模态行人重识别模型，生成所述图像对应的数据表示，根据第一神经网络所学得数据表示查询数据库中相似性最高的数据的表示，得到行人识别结果，完成行人识别。

本发明的方法实施过程具体为：将标签含噪的可见光输入数据和标签含噪的红外光输入数据输入第一神经网络进行预热，得到每个输入数据的损失值；通过高斯混合模型对第一神经网络预热后得到的所有输入数据的损失值进行拟合，得到每个输入数据的置信度；将所有输入数据根据置信度划分成若干三元组，并修改三元组的关联得到修正后三元组的关联，以此改正三元组中的错误关联，基于每个图像数据的置信度和修正后三元组的关联，通过双重鲁棒网络进行第一神经网络的训练，训练第一神经网络至收敛，最终训练得到鲁棒的跨模态行人重识别模型，将需要识别的图像输入鲁棒的跨模态行人重识别模型，得到行人识别结果，完成行人识别。

实施例2：

本实施例针对验证行人识别的有效性和鲁棒性的第一实验。

在本实施例中，使用SYSU-MM01数据集作为行人的图像数据进行第一神经网络的训练。该数据集是一个流行的跨模态行人重识别数据集，其中包括来自4个可见光摄像机和2个红外摄像机的491个行人。训练集包含19,659幅可见图像和395人的12,792幅红外图像，测试集包含96人。有两种测试模式，即全搜索模式和室内搜索模式。对于全搜索模式，将使用所有图像。对于室内搜索模式，仅使用来自第一、第二、第三和第六个摄像机的室内图像。对于这两种模式，均采用单张和多张设置，其中随机选择1或10个人的图像以形成数据库。两种模式都将红外图像用作查询，将可见图像用作数据库。为了测试本方法对噪声的鲁棒性，随机打乱一部分训练数据的标签，比例为0％(无噪声)，20％(20％噪声)，50％(50％噪声)，并采用采用R@1，R@10，R@20作为衡量指标。R@K定义为检索数据中前K个样本中返回正确样本的百分比，值越大说明检索准确度越高，效果越好。试验结果如下：

从表格中的试验结果可以看到，针对不同比例的噪声，本发明的方法在两种测试模式下相比其他方法在三个指标上均有比较大的提升，尽管在完全没噪声时，本发明的方法也能取得很不错的效果，意味着在实际应用中，即使不确定噪声比例情况下，本发明的方法也能很好地消除噪声样本的影响，提高了模型的鲁棒性，同时兼顾行人重识别的有效性。

实施例3：

本实施例针对验证行人识别的有效性和鲁棒性的第二实验。

在本实施例中，使用RegDB数据集作为行人的图像数据进行第一神经网络的训练。该数据集是一个流行的跨模态行人重识别数据集,共有412个行人，每个人均有10个可见光图像和相应的10个热力图像，因为这些图像是在人们移动时拍摄的，所以每个人的10张图像在身体姿势、捕捉距离和光照条件上都存在差异。然而，在同一人的10幅图像中，相机的天气状况、视角和拍摄视角(前后视角)都是相同的。因此，数据库包含4120个可见光图像和4120个对应的热力图像。为了测试本发明的方法对噪声的鲁棒性，随机打乱一部分训练数据的标签，比例为0％(无噪声)，20％(20％噪声)，50％(50％噪声)。试验结果如下：

从表格中的试验结果可以看到，针对不同比例的噪声，本发明的方法在两种测试模式下相比其他方法在三个指标上均有比较大的提升；在完全没噪声时，本方法的效果也能取得接近目前专门为理想无噪声环境设计的方法，意味着在实际应用中，即使不确定噪声比例情况下，本发明的方法也能很好地消除噪声样本的影响，提高了模型的鲁棒性，同时兼顾行人重识别的有效性。

在本发明的描述中，需要理解的是，术语“中心”、“厚度”、“上”、“下”、“水平”、“顶”、“底”、“内”、“外”、“径向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或隐含指明的技术特征的数量。因此，限定由“第一”、“第二”、“第三”的特征可以明示或隐含地包括一个或者更多个该特征。

Claims

1.一种面向孪生噪声标签的鲁棒跨模态行人重识别方法，其特征在于，包括以下步骤：

S5、重复S2～S4直至第一神经网络收敛，得到鲁棒的跨模态行人重识别模型，根据训练好的第一神经网络完成行人识别；

所述步骤S4中，双重鲁棒网络训练方法具体为：

其中，所述噪声标签的损失函数的表达式具体为：

式中，w_i为图像数据的置信度，P(·)为第一概率函数，为模态t的行人图像样本的标签，C^t(·)为模态t对应的分类器，F^t(·)为模态t对应的特征提取网络，/>为模态t的行人图像样本的图像数据；

所述对噪声关联鲁棒的损失函数的表达式具体为：

式中，为正样本对的修正后关联，/>为负样本对的修正后关联，m为损失函数的边界值，/>为异或运算，⊙为同或运算，d_lj和d_lk分别为正样本对/>和负样本对在第一神经网络学到的联合子空间中的距离，d_lj和d_lk的表达式具体为：

式中，上标t₁为图像样本x_l对应的模态，上标t₃为图像样本x_k对应的模态，F(·)为模态对应的特征提取网络，为模态t₁的索引序号l行人图像样本的图像数据，/>为模态t₂的索引序号j行人图像样本的图像数据，/>为模态t₁的索引序号k行人图像样本的图像数据。

2.根据权利要求1所述的面向孪生噪声标签的鲁棒跨模态行人重识别方法，其特征在于，所述步骤S1中，图像数据包括可见光图像数据和红外光图像数据；

所述步骤S1包括以下分步骤：

3.根据权利要求2所述的面向孪生噪声标签的鲁棒跨模态行人重识别方法，其特征在于，所述步骤S11中，第一神经网络采用交叉熵损失函数进行初始训练，所述交叉熵损失函数的表达式具体为：

式中，为图像数据的交叉熵损失值，P(·)为第一概率函数，模态t∈{v,r}，F^t(·)为模态t对应的特征提取网络，C^t(·)为模态t对应的分类器，/>为模态t的行人图像样本的图像数据，/>为模态t的行人图像样本的标签；

式中，模态t∈{v,r}，N_t为t模态对应图像数据的数据量。

4.根据权利要求3所述的面向孪生噪声标签的鲁棒跨模态行人重识别方法，其特征在于，所述步骤S2包括以下分步骤：

5.根据权利要求4所述的面向孪生噪声标签的鲁棒跨模态行人重识别方法，其特征在于，所述步骤S21中，计算每个图像数据的属于高斯混合模型中成分的后验概率的表达式具体为：

所述步骤S22中，图像数据的置信度w_i的表达式具体为：

6.根据权利要求5所述的面向孪生噪声标签的鲁棒跨模态行人重识别方法，其特征在于，所述步骤S3包括以下分步骤：

7.根据权利要求6所述的面向孪生噪声标签的鲁棒跨模态行人重识别方法，其特征在于，所述步骤S31中，三元组具体为其中，下标l、j和k均为图像数据对应的索引序号，模态t∈{v,r}，/>为跨模态的正样本对，/>为跨模态的负样本对；

当w_l>η，w_j>η，w_k>η时，三元组的组合类型为真阳性-真阴性组合；

当w_l>η，w_k>η，w_k≤η时，三元组的组合类型为真阳性-假阴性组合；

当w_l>η，w_j≤η，w_k>η时，三元组的组合类型为假阳性-真阴性组合；

当w_l>η，w_j≤η，w_k≤η时，三元组的组合类型为假阳性-假阴性组合。

8.根据权利要求7所述的面向孪生噪声标签的鲁棒跨模态行人重识别方法，其特征在于，所述步骤S32中，三元组的关联具体为跨模态的正样本对关联和负样本对的关联/>修正后三元组的关联具体为正样本对的修正后关联/>和负样本对的修正后关联/>

所述步骤S32具体为：

根据修正的三元组的组合类型修正所述三元组的关联；

当时，则/>和/>属于负样本；当/>时，则/>和/>不属于负样本。

9.根据权利要求1所述的面向孪生噪声标签的鲁棒跨模态行人重识别方法，其特征在于，所述步骤S5具体为：