CN109919073B

CN109919073B - 一种具有光照鲁棒性的行人再识别方法

Info

Publication number: CN109919073B
Application number: CN201910156784.XA
Authority: CN
Inventors: 赖剑煌; 张培熙; 谢晓华
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2019-03-01
Filing date: 2019-03-01
Publication date: 2021-04-06
Anticipated expiration: 2039-03-01
Also published as: CN109919073A

Abstract

本发明公开了一种具有光照鲁棒性的行人再识别方法，其包括以下步骤：获取具有光照差异的行人再识别数据集，从中选取训练样本，将训练样本划分为正常光照图片和昏暗光照图片；初始化一个深度卷积神经网络netA，用正常光照图片对其进行训练；初始化一个与netA结构完全相同的深度卷积神经网络netB，用昏暗光照图片对其进行训练；合并两种光照的数据集，同时对netA和netB进行协同训练，使两个网络均收敛；测试netA和netB各自的性能，选择性能较高的网络作为最终模型。本发明在不增加最终模型参数的情况，通过双网络的协同学习，增强行人再识别网络对昏暗图片的识别能力，提高模型对于光照的鲁棒性。

Description

一种具有光照鲁棒性的行人再识别方法

技术领域

本发明涉及图像处理、检索领域，具体涉及一种具有光照鲁棒性的行人再识别方法，解决行人再识别中昏暗条件下性能不佳的问题。

背景技术

目前，随着计算机技术的快速发展，视频监控系统被广泛地应用到我们日常的生活和生产环境中，在维护社会治安方面具有非常重要的作用。如今社会公共场所中的监控摄像头数量巨大，尤其是在机场、火车站、超市、公路等等，构成了一张覆盖绝大多数区域的监控网络，为安防人员准确定位事件场所和人员位置提供了非常大的帮助。目前对于监控摄像头中的行人检索大多数还是依靠人力，需要操作人员对图像进行回放、记录、搜寻，因此，视频监控系统仍需要继续往智能化方向进行发展。

由于智能化监控系统的需要，行人再识别技术受到了越来越多的关注。它能辅助我们在多摄像机网络下快速地检索指定行人，大大减少人的工作量。而在实际的应用场景中，由于每个摄像机的光照环境不同，同一个行人在不同的摄像头中可能存在亮度差异，这种差异会影响检索的准确率。

发明内容

本发明正是为了解决实际场景中的光照变化对行人再识别的影响，提出一种具有光照鲁棒性的行人再识别方法，该方法采用双模型协同学习的策略，能够使得同一个行人在不同光照下提取到的特征尽量相似，缓解光照对行人再识别准确率的影响。

本发明的目的通过以下的技术方案实现：一种具有光照鲁棒性的行人再识别方法，包括步骤：

步骤S1：获取具有光照差异的行人再识别数据集，从中选取训练样本，将训练样本划分为正常光照图片和昏暗光照图片；

步骤S2：初始化一个深度卷积神经网络netA，用正常光照图片对其进行训练；初始化一个与netA结构完全相同的深度卷积神经网络netB，用昏暗光照图片对其进行训练；

步骤S3：合并两种光照的数据集，同时对netA和netB进行协同训练，使两个网络均收敛；

步骤S4：测试netA和netB各自的性能，选择性能较高的网络作为最终模型。

优选的，步骤S1中根据对数平均亮度将训练样本划分为正常光照图片和昏暗光照图片，步骤是：

步骤S11：计算数据集每张图片的对数平均亮度，计算公式为：

式中，δ是一个常数，用于防止求对数的计算结果趋于负无穷的情况，比如0.001。N表示图像的像素总数，L(x,y)为每个元素的亮度。

步骤S12：设定两个阈值margin和threshold，对数据集中每个ID的图片分成两类：

若L_w＜margin，则标注为昏暗光照图片；

若L_w＞margin，则将图片分离成前景与背景，计算前景的对数平均亮度L_fg；若L_fg＞threshold，则标注为正常光照图片，否则标注为昏暗光照图片。

为了使后续训练两个网络netA和netB时样本数量相同，在分类后，若昏暗光照图片数量少于正常光照图片数量，则随机生成相应数量的昏暗光照图片补充到数据集中，具体的，记每个ID中的正常光照图片数量为p，昏暗光照图片数量为n，若p>n，则随机抽取p-n张该ID的正常光照图片，生成p-n张昏暗光照图片补充到数据集中。

更进一步的，昏暗光照图片生成步骤是：

步骤S131：使用自适应伽马变换根据图像原始亮度将图像整体调暗，自适应伽马变换的转换方法为：

L_dark表示调整后的亮度，c为一个随机常数，以生成不同程度的昏暗光照图片。若图像原始亮度L_w较高，则会大幅度降低亮度，若图像原始亮度L_w本来就较小，则会小幅度调低亮度。

步骤S132：对步骤S131生成的昏暗光照图片进行高斯模糊处理。从而使图片更为真实。

优选的，所述步骤S2中，对netA和netB分别进行训练，步骤是：

步骤S21：获取两个结构相同的深度卷积网络模型，分别记为netA和netB，并对其进行初始化，其中网络中的最后一层为softmax M分类层，M为训练集中ID的数目；

步骤S22：整理训练集里面正常亮度的图片，输入到netA中，采用交叉熵损失和SGD(Stochastic gradient descent，随机梯度下降)优化方法进行训练，直至收敛；

步骤S23：整理数据集里面昏暗亮度的图片，输入到netB中，同样采用交叉熵损失和SGD优化方法进行训练，直至收敛。

优选的，所述步骤S3中，对netA和netB进行协同训练，步骤是：

步骤S31：获取训练后得到的两个深度网络netA和netB；

步骤S32：合并训练集里面所有图片，包括昏暗光照图片以及正常光照图片，将其作为netA和netB的训练数据，采用交叉熵损失(Cross Entropy Loss)和加权KL散度损失对两个网络进行训练，直至netA和netB的损失均收敛，完成训练。

更进一步的，采用交叉熵损失和加权KL散度损失对两个网络进行训练，步骤是：

步骤S321：抽取一个批量的训练图片，分别输入到netA和netB进行正向传播，获取netA输出的softmax分类概率

获取netB输出的softmax分类概率

其中i表示第i个样本，m表示第m类，a、b代表netA和netB；

步骤S322：对于netA，计算其损失Loss_a＝Loss_{CE_a}+Loss_{KL_a}，并进行反向传播，其中Loss_{CE_a}表示netA的交叉熵损失，Loss_{KL_a}表示netA的加权KL散度损失；

其中权重w_ia是一个[0,1]间的值，由输入的图片亮度标注决定，对于netA，若输入图片属于正常光照图片，则w_ia取为[0,0.5]间的数，若输入图片为昏暗光照图片，则w_ia取为[0.5,1]间的数。

步骤S323：对于netB，计算其损失Loss_b＝LosS_{CE_b}+Loss_{KL_b}，并进行反向传播。Loss_{CE_b}表示netB的交叉熵损失。Loss_{KL_b}表示netB的加权KL散度损失。

其中w_ib是一个[0,1]间的值，与步骤S322相反，若输入图片为昏暗光照图片，则w_ib取为[0.5,1]间的数，若输入图片为正常光照图片，则w_ib取为[0,0.5]间的数。

步骤S324，重复上述步骤，采用Adam优化方法训练，直至netA和netB的损失均收敛，完成训练。

优选的，所述步骤S4包含以下步骤：

步骤S41：获取步骤S3训练完成的netA和netB，删除模型最后的分类层,以分类层前面的特征向量作为网络的输出；

步骤S41：根据步骤S1的光照分类结果，将测试集分成正常光照query，正常光照gallery，昏暗光照query和昏暗光照gallery四个子测试集；

步骤S42：使用上述的四个子测试集对netA和netB分别进行测试，挑选出性能最优的模型。

更进一步的，判断哪个模型最优的方法是：

步骤S421：用正常光照的图片作为查询，检索昏暗光照中的图片，计算mAP(MeanAverage Precision，均值平均精度)和Rank1(预测置信度最高的一张图的准确率)；再用昏暗光照的图片作为查询，检索正常光照中的图片，计算mAP和Rank1；计算两次测试结果的均值；

步骤S422：比较netA和netB在步骤S421中的结果，选择mAP或Rank1较高的模型作为最终模型。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明在不增加最终模型参数的情况，通过双网络的协同学习，增强行人再识别网络对昏暗光照图片的识别能力，提高模型对于光照的鲁棒性。

2、本发明在昏暗光照图片数量少于正常光照图片数量时，提出生成相应数量的昏暗光照图片，使后续训练两个网络时样本数量相同，能够提高模型训练的精度，便于后续的协同学习。

3、本发明采用交叉熵损失和加权KL散度损失对两个网络进行协同学习训练，直至netA和netB的损失均完成收敛，提高模型的精度。

附图说明

图1是根据本发明一实施例的一种具有光照鲁棒性的行人再识别方法的流程图。

图2是根据本发明一实施例的一种具有光照鲁棒性的行人再识别方法的模型示意图。

图3是根据本发明一实施例的一种具有光照鲁棒性的行人再识别方法的训练优化过程。

具体实施方式

下面结合附图以及具体实施方式，对发明做进一步描述，需要说明的是，这些描述只是示例性的，而非要限制本发明的范围。

图1是根据本发明一实施例的一种具有光照鲁棒性的行人再识别方法的流程图，下面以图1为例来说明本发明的一些具体实现流程。具体步骤如下：

步骤S1：获取行人再识别数据集，从中选取训练样本，对其中的图像进行亮度分类，这里以具有明显光照差异的MSMT17数据集为例。

该步骤中是根据对数平均亮度对图像进行亮度分类，方法是：

步骤S11：根据对数平均亮度计算方法，计算数据集每张图片的平均亮度。其中平均亮度计算公式为：

式子中δ是一个较小的常数，用于防止求对数的计算结果趋于负无穷的情况，这里取值为0.001。L(x,y)为每个元素的亮度，其计算方法为：L(x,y)＝0.299*R+0.587*G+0.114*B。

步骤S12：设定阈值margin和threshold，本实施例设置margin＝0.15，threshold＝0.21，对数据集中每个ID的图片分成两类：

若L_w＜margin，则标注为昏暗光照图片；

若L_w＞margin，本实施例采用Mask-RCNN分割算法，将图片分离成前景与背景，计算前景的对数平均亮度L_fg；若L_fg＞threshold，则标注为正常光照图片，否则标注为昏暗光照图片。

步骤S13：记每个ID中的正常光照图片数量为p，昏暗光照图片数量为n，若p>n，则随机抽取p-n张该ID的正常光照图片，生成的(p-n)张昏暗光照图片补充到数据集中。

这里，昏暗光照图片生成的方法是：

步骤S131：使用自适应伽马根据图像原始亮度将图像整体调暗，若图像原始亮度L_w较高，则会大幅度降低亮度，若图像原始亮度L_w本来就较小，则会小幅度调低亮度。自适应伽马变化的转换方法为：

对于每一张处理图片，c为在[1,2.5]之间的随机数，以生成不同昏暗程度的图片。

步骤S132：对步骤S131生成的昏暗光照图片进行高斯模糊处理，其中，本实施例取模糊核的大小为3*3,方差为1。

步骤S2：构建两个结构相同的深度卷积网络，分别用正常光照的图片和昏暗光照的图片进行训练直至收敛。

具体步骤是：

步骤S21：获取两个结构相同的深度卷积网络模型，分别记为netA和netB，并对其进行初始化，该实施例中采用ResNet50,将ResNet50最后的2048*1000的全连接层修改两个全连接层，其权值尺寸分别为2048*512以及512*1041,1041是MSMT17中训练集的总ID数目。

步骤S22：整理训练集里面正常亮度的图片，调整尺寸为384*128，并做随机水平翻转，输入到netA中，采用交叉熵损失和SGD优化方法进行训练，直至收敛。

步骤S23：整理数据集里面昏暗亮度的图片，调整尺寸为384*128，并做随机水平翻转，输入到netB中，同样采用交叉熵损失和SGD优化方法进行训练，直至收敛。

步骤S3：合并两种光照的数据集，采用交叉熵损失和加权KL散度损失对两个网络进行协同学习。

具体地，包含以下步骤：

步骤S31：获取步骤S2训练得到的两个深度网络netA和netB。

步骤S32：合并训练集里面所有图片，包括昏暗光照的图片以及正常光照的图片，作为netA和netB的训练数据进行协同学习，协同学习的方法是：

获取netB输出的softmax分类概率

其中i表示第i个样本，k表示第k类，a、b代表netA和netB。

步骤S322：对于netA，计算其损失Loss_a＝Loss_{CE_a}+Loss_{KL_a}，并进行反向传播。所述的Loss_{CE_a}表示netA的交叉熵损失。所述的Loss_{KL_a}表示netA的加权KL散度损失。

其中，权重w_ia是一个[0,1]间的值，由输入的图片亮度标注决定，在本实施例中，对于netA，若输入图片属于正常光照图片，则w_ia取值为0.2，若输入图片为昏暗光照图片，则w_ia取值为0.8。

其中权重w_ib是一个[0,1]间的值，在本实施例中，对于netB，若输入图片属于正常光照图片，则w_ib取值为0.8，若输入图片为昏暗光照图片，则w_ib取值为0.2。

步骤S33，重复步骤S32，采用Adam优化方法训练，直至netA和netB的损失均收敛。这里所述的Adam优化方法是一种可以替代传统随机梯度下降过程的一阶优化算法，它能基于训练数据迭代地更新神经网络权重。Adam最开始是由OpenAI的Diederik Kingma和多伦多大学的Jimmy Ba在提交到2015年ICLR论文(Adam:A Method for StochasticOptimization)中提出的。

步骤S4：对两个网络的性能进行测试，采用性能较高的网络作为最终模型。在该步骤中，具体执行下述方法：

步骤S41：获取步骤S3训练完成的netA和netB，删除模型最后的分类层,以分类层前面的特征向量作为网络的输出。

步骤S41：根据步骤S1的光照分类结果，将测试集分成正常光照query，正常光照gallery，昏暗光照query和昏暗光照gallery四个子测试集。

步骤S42：使用上述的四个子测试集对netA和netB分别进行测试，挑选出更好的模型。判断模型是否更好的方法是：

步骤S421：用正常光照的图片作为查询，检索昏暗光照的图片，计算mAP和Rank1。再用昏暗光照的图片作为查询，检索正常光照的图片，计算mAP和Rank1。计算两次测试结果的均值。

该实施例在MSMT17数据集性能如下：

表1各模型性能参数

根据上述计算结果，本实施例选取mAP较高的模型netB作为最终模型。其中表中模型baseline是采用与netA和netB结构相同的模型，将原始MSMT17混入步骤S1中生成昏暗光照图片一起训练得到的，采用SGD优化方法，属于现有技术。与之对比可以发现本发明的性能有不少提升。

可通过各种手段实施本发明描述的技术。举例来说，这些技术可实施在硬件、固件、软件或其组合中。对于硬件实施方案，处理模块可实施在一个或一个以上专用集成电路(ASIC)、数字信号处理器(DSP)、可编程逻辑装置(PLD)、现场可编辑逻辑门阵列(FPGA)、处理器、控制器、微控制器、电子装置、其他经设计以执行本发明所描述的功能的电子单元或其组合内。

对于固件和/或软件实施方案，可用执行本文描述的功能的模块(例如，过程、步骤、流程等)来实施所述技术。固件和/或软件代码可存储在存储器中并由处理器执行。存储器可实施在处理器内或处理器外部。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储在一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种具有光照鲁棒性的行人再识别方法，其特征在于，包括步骤：

步骤S4：测试netA和netB各自的性能，选择性能较高的网络作为最终模型；

所述步骤S3中，对netA和netB进行协同训练，步骤是：

步骤S31：获取训练后得到的两个深度网络netA和netB；

步骤S32：合并训练集里面所有图片，包括昏暗光照图片以及正常光照图片，将其作为netA和netB的训练数据，采用交叉熵损失和加权KL散度损失对两个网络进行训练，直至netA和netB的损失均收敛，完成训练。

2.根据权利要求1所述的具有光照鲁棒性的行人再识别方法，其特征在于，步骤S1中将训练样本划分为正常光照图片和昏暗光照图片包括：根据对数平均亮度将训练样本划分为正常光照图片和昏暗光照图片，具体为：

式中，δ是一个常数，N表示图像的像素总数，L(x,y)为每个元素的亮度；

若L_w<margin，则标注为昏暗光照图片；

若L_w>margin，则将图片分离成前景与背景，计算前景的对数平均亮度L_fg；若L_fg>threshold，则标注为正常光照图片，否则标注为昏暗光照图片。

3.根据权利要求2所述的具有光照鲁棒性的行人再识别方法，其特征在于，记每个ID中的正常光照图片数量为p，昏暗光照图片数量为n，若p>n，则随机抽取p-n张该ID的正常光照图片，生成p-n张昏暗光照图片补充到数据集中。

4.根据权利要求3所述的具有光照鲁棒性的行人再识别方法，其特征在于，昏暗光照图片生成步骤是：

L_dark表示调整后的亮度，c为一个随机常数；

步骤S132：对步骤S131生成的昏暗光照图片进行高斯模糊处理。

5.根据权利要求1所述的具有光照鲁棒性的行人再识别方法，其特征在于，所述步骤S2中，对netA和netB分别进行训练，步骤是：

步骤S22：整理训练集里面正常亮度的图片，输入到netA中，采用交叉熵损失和SGD优化方法进行训练，直至收敛；

6.根据权利要求1所述的具有光照鲁棒性的行人再识别方法，其特征在于，采用交叉熵损失和加权KL散度损失对两个网络进行训练，步骤是：

获取netB输出的softmax分类概率

其中i表示第i个样本，m表示第m类，a、b代表netA和netB；

其中权重w_ia是一个[0,1]间的值；

步骤S323：对于netB，计算其损失Loss_b＝Loss_{CE_b}+Loss_{KL_b}，并进行反向传播，Loss_{CE_b}表示netB的交叉熵损失，Loss_{KL_b}表示netB的加权KL散度损失：

其中w_ib是一个[0,1]间的值；

7.根据权利要求1所述的具有光照鲁棒性的行人再识别方法，其特征在于，所述步骤S4包含以下步骤：

8.根据权利要求7所述的具有光照鲁棒性的行人再识别方法，其特征在于，判断哪个模型最优的方法是：

步骤S421：用正常光照的图片作为查询，检索昏暗光照中的图片，计算mAP和Rank1；再用昏暗光照的图片作为查询，检索正常光照中的图片，计算mAP和Rank1；计算两次测试结果的均值；

步骤S422：比较netA和netB在步骤S421中的结果，选择mAP或Rank1较高的模型作为最终模型；

mAP为平均精确度的均值，平均精确度指的是某一个类别在不同召回率上的正确率的均值，mAP是对每一个类别的平均精确度求取均值；Rank1为在检索任务中，排名首位的预测结果是正确的概率。