CN110991321B

CN110991321B - 一种基于标签更正与加权特征融合的视频行人再识别方法

Info

Publication number: CN110991321B
Application number: CN201911200336.1A
Authority: CN
Inventors: 冷彪; 姜铭
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2023-05-02
Anticipated expiration: 2039-11-29
Also published as: CN110991321A

Abstract

本发明涉及一种基于标签更正与加权特征融合的视频行人再识别方法，属于计算机视觉及生物特征识别领域。其方法为：在训练过程中根据神经网络对训练样本所属类别的预测值对样本标签进行更正，同时利用特征与同一视频序列其它特征的相似度计算特征权重，加权融合后的视频特征可以减小视频序列中噪声的干扰，具有更强的鲁棒性。

Description

一种基于标签更正与加权特征融合的视频行人再识别方法

技术领域

本发明涉及一种基于标签更正与加权特征融合的视频行人再识别方法，属于计算机视觉及生物特征识别领域。

背景技术

视频行人再识别是指根据事先获取的某个待查询的行人视频片段，在多个其他的摄像头拍摄到的监控视频中，查找出同一个目标行人出现的时间和地点。该技术在安防和智能监控等领域都有重要应用价值和前景。

近几年，深度学习技术在计算机视觉领域取得了巨大进步，卷积神经网络在图像分类等领域已经取得超过人类表现的性能。目前视频行人再识别普遍采用基于深度学习的方法，基本思路是先提取视频段中每帧图像的特征，然后使用循环神经网络、直接平均或注意力机制等方式把图像特征融合，得到视频特征，计算不同视频特征之间的距离判断是否是同一个行人。

视频行人再识别问题目前的主要难点在于背景变化、无关物体的遮挡、视频帧的质量参差不齐、行人检测和跟踪算法不完善导致的噪声等。由图像特征融合得到的视频特征容易受到上述因素的干扰，使得最终的视频特征不具有良好的判别性，从而匹配到错误的行人。

目前无相关文献报导。

发明内容

针对现有技术的缺点，本申请要解决的技术问题为：由于行人检测和跟踪算法不完善导致提取的行人视频片段中存在错误标签的问题，以及现有用于视频行人再识别的卷积神经网络方法无法区分判别性视频帧且容易受到噪声干扰的问题。

本发明技术要解决的问题是：克服现有基于卷积神经网络的视频行人再识别技术的不足，提供一种基于标签更正与加权特征融合的视频行人再识别方法。在训练卷积神经网络过程中，利用网络对每张图像的预测，逐步更正训练数据中存在的错误标签。利用同一个视频片段中的每个图像特征之间的相似度，计算每帧图像的权重，通过加权融合的方式得到视频特征，减小视频中各种噪声对融合后的视频特征的影响，提高视频特征的判别性和视频行人再识别的准确率。

本发明采用的技术方案为一种基于标签更正与加权特征融合的视频行人再识别方法，在训练过程中对训练数据中可能存在的错误标签进行更正，在推理阶段，计算每帧图像的权重，通过加权的方式融合得到视频特征。可以有效提高视频行人再识别模型的鲁棒性和判别性。

本发明是一种基于标签更正与加权特征融合的行人再识别方法，该方法包括有下列步骤：

步骤一：数据预处理

数据预处理是对摄像头拍摄的原始视频进行预处理，便于后续步骤的进行。监控视频中可能同时出现多个行人，因此首先需要使用已有的行人检测和跟踪算法把不同的行人分开，同一个行人连续的视频帧放入一个文件夹中，此处得到的行人视频帧是指只包含一个行人的视频帧，通过对原始视频帧裁剪得到，同一个行人连续的视频帧组合起来形成一个行人视频序列。后续的数据预处理操作还包括把行人图像缩放到统一的大小，目前常用的大小有384*192和256*128，减均值，除以标准差等。通过对原始视频的预处理，最后得到了多个文件夹，每个文件夹包含一个行人视频序列。对所有的文件夹进行进一步划分，选择其中一部分作为训练集，另一部分作为候选行人库。

步骤二：卷积神经网络提取视频帧特征

本发明使用的主干网络是目前计算机视觉领域常用的残差网络ResNet50，原始的ResNet50在最后一个block中使用的步长是2，为了提高提取的图像特征的分辨率，本发明中把ResNet50最后一个block的步长设置为1，可以减少信息的丢失。输入图像的大小为256*128*3，经过ResNet50的处理后，得到每个行人视频帧的图像特征，输出的行人视频帧特征的大小为2048*1*1。

步骤三：加权特征融合

步骤二中得到的特征是每个视频帧的图像特征，本步骤把属于同一个视频序列的所有视频帧的图像特征通过加权的方式融合得到视频特征，作为最终的特征表示。由于行人检测和跟踪算法的不完美，在数据预处理阶段得到的一个行人的视频序列可能存在噪声，如裁剪处理的图像中不包含任何行人或跟踪算法错误跟踪到目标行人周围的另一个行人等，得到的视频序列中的某些视频帧可能包含另外的行人或者全是背景。因此在加权融合过程中，具有判别性的正确视频帧对应的权重应该接近1，而存在噪声的视频帧对应的权重应该接近0，降低这些噪声对最终视频特征的影响。一般第一帧对应的行人是正确的，在后续跟踪过程中可能出现错误，并且一个行人视频序列中正确的视频帧占多数，噪声视频帧占的比例较小。对于一个视频序列的所有视频帧S＝{I₁,I₂,I₃,…,I_n}，定义F＝{f₁,f₂,f₃,…,f_n}是步骤二中提取的对应视频帧特征。则f_i对应的权重α_i计算公式如下：

α_i＝λs_i1+(1-λ)s_avg

其中，s_i1是f_i与f₁的相似度，s_avg是f_i与f_j(j＝1,2,3,…,n；j≠i)的相似度的平均值，λ是权重系数。

若当前阶段是训练阶段，则转到步骤四，否则转到步骤五。

步骤四：计算损失函数与标签更正

据步骤三得到的视频特征直接计算Triplet Loss，把视频特征输入到全连接层中分类，用分类概率计算SoftMax Loss。步骤二中的卷积神经网络使用Triplet Loss和SoftMax Loss联合监督训练。当步骤二中的卷积神经网络训练到一定程度后，用当期的网络预测训练集中所有视频帧的分类概率。若训练集中一共有n个类别的行人，输入视频帧I的预测概率为p_i(i＝1,2,3,…,n)，视频帧I的原始标签为l(l∈{1,2,3,…,n})，则经过标签更正操作赋予视频帧I一个新的标签l_new，具体规则如公式所示：

其中，t₁和t₂是两个阈值，可以根据实际应用数据分布进行设置。当步骤二中使用的卷积神经网络预测某个视频帧与对应的类别不符，且预测属于其他类的概率p_j大于阈值t₂时，认为该视频帧的原始标签存在错误，本步骤中予以更正。

步骤五：在候选行人库中匹配目标行人

使用步骤三得到的视频特征与候选行人库中预先提取的视频特征计算相似度，选择相似度最大的k个行人视频片段作为最终匹配的结果，k是设定的参数，可根据实际使用情况中候选行人库的规模进行调整。若候选行人库规模大，如超过一百万候选行人视频序列，则选择较大的k(如k＝1000)。候选行人库中所有视频的处理与上述步骤相同。

其中，步骤三和步骤五中所述的“相似度”，是指两个特征向量的余弦相似度(Cosine Similarity)，即在d维空间中两个向量之间的夹角的余弦值。对于给定d维空间中的两个向量p＝(p₁,p₂…,p_d),q＝(q₁,q₂…,q_d),p和q的相似度计算如下：

式中符号说明：p,q为给定的两个向量；p_i,q_i(i＝1,2,…,d)分别表示p,q在d维空间中的坐标；S(p,q)表示p到q的相似度；S(q,p)表示q到p的相似度；||p||和||q||分别是向量p和向量q的模长。

本发明与现有技术相比的优点及功效在于：

(1)本发明考虑了数据预处理阶段行人检测和跟踪算法的不完善引入的噪声问题，在训练阶段利用神经网络对训练数据类别的预测，对错误标签进行更正，减少噪声对模型训练的影响。同时加权特征融合阶段根据特征与同一视频序列其它特征的相似度计算特征权重，可以进一步减小噪声对最终视频特征的影响，提高了视频行人重识别的鲁棒性。

(2)本发明克服了现有使用注意力机制生成特征权重中存在的权重定义模糊，可解释性较差的缺点。利用特征与同一视频序列其它特征的相似度计算特征权重，方法简单直观，计算量小，且具有较强的可解释性。加权融合后的视频特征可以减小视频序列中噪声的干扰，具有更强的鲁棒性。

附图说明

图1为本发明所述方法流程图；

图2为本发明中所使用的网络结构图。

具体实施方式

为了更好地理解本发明，先对一些概念进行一下解释说明。

1.卷积神经网络：一类包含卷积操作的前馈神经网络，是深度学习的代表算法之一。

2.ResNet：深度残差网络，采用残差连接的方式，解决了增加网络深度带来的梯度退化问题，使网络更容易优化，可以有效提高网络的泛化性能。

3.视频帧：指视频中的一张静止图像，提取到的特征成为视频帧特征或图像特征。多个连续的视频帧组成一段视频或视频序列，对应的特征成为视频特征。

整个实现过程如下：

步骤一：数据预处理

数据预处理是对摄像头拍摄的视频进行预处理，便于后续步骤的进行。监控视频中可能同时出现多个行人，因此首先需要使用已有的行人检测和跟踪算法把不同行人的视频分开，同一个行人连续的视频帧放入一个文件夹中。后续的数据预处理操作还包括把行人图像缩放到统一的大小，目前常用的大小有384*192和256*128，减均值，除以标准差等。

步骤二：卷积神经网络提取视频帧特征

本发明使用的主干网络是目前计算机视觉领域常用的残差网络ResNet50，原始的ResNet50在最后一个block中使用的步长是2，为了提高提取的图像特征的分辨率，本发明中把ResNet50最后一个block的步长设置为1，可以减少信息的丢失。输入图像的大小为256*128*3，经过ResNet50的处理后，输出的视频帧特征的大小为2048*1*1。

步骤三：加权特征融合

步骤二中得到的特征是每个视频帧的图像特征，本步骤把属于同一个视频序列的所有视频帧的图像特征通过加权的方式融合得到视频特征，作为最终的特征表示。在加权融合过程中，具有判别性的正确视频帧对应的权重应该较大，而存在噪声的视频帧对应的权重应该较小，降低这些噪声对最终视频特征的影响。本发明中假设视频帧中第一帧对应的行人是正确的，在后续跟踪过程中可能出现错误，并且假设一个视频序列中正确的视频帧占多数，噪声视频帧占的比例较小。对于一个视频序列的所有视频帧S＝{I₁,I₂,I₃,…,I_n}，定义F＝{f₁,f₂,f₃,…,f_n}是步骤二中提取的对应视频帧特征。则f_i对应的权重α_i计算公式如下：

α_i＝λs_i1+(1-λ)s_avg

若当前阶段是训练阶段，则转到步骤四，否则转到步骤五。

步骤四：计算损失函数与标签更正

根据步骤三得到的视频特征直接计算Triplet Loss，把视频特征输入到全连接层中分类，用分类概率计算SoftMax Loss。整个网络使用Triplet Loss和SoftMax Loss联合监督训练。当网络训练到一定程度后，用当期的网络预测训练集中所有视频帧的分类概率。若训练集中一共有n个类别的行人，输入视频帧I的预测概率为p_i(i＝1,2,3,…,n)，视频帧I的原始标签为l(l∈{1,2,3,…,n})，则经过标签更正操作赋予视频帧I一个新的标签l_new，具体规则如公式所示：

其中，t₁和t₂是两个阈值，可以根据实际应用数据分布进行设置。当网络预测某个视频帧与对应的类别不符，且预测属于其他类的概率p_j大于阈值t₂时，认为该视频帧的原始标签存在错误，本步骤中予以更正。

步骤五：在候选行人库中匹配目标行人

使用步骤三得到的视频特征与候选行人库中预先提取的视频特征计算相似度，选择相似度最大的k个行人视频片段作为最终匹配的结果，k是预先设定的参数，可根据实际使用情况进行调整。候选行人库中所有视频的处理与上述步骤相同。

本发明未详细描述的部分属于本领域公知技术。

Claims

1.一种基于标签更正与加权特征融合的视频行人再识别方法，其特征在于，包括以下步骤：

步骤一：对摄像头拍摄的原始视频进行预处理，首先利用行人检测和跟踪算法把不同的行人分开，同一个行人连续的视频帧放入一个文件夹中，此处得到的行人视频帧是指只包含一个行人的视频帧，通过对原始视频帧裁剪得到，同一个行人连续的视频帧组合起来形成一个行人视频序列，再把每个行人视频帧缩放到统一大小；通过对原始视频的预处理，最后得到多个文件夹，每个文件夹包含一个行人视频序列；对所有的文件夹进行划分，选择其中一部分作为训练集，另一部分作为候选行人库；

步骤二：使用卷积神经网络提取视频帧特征，卷积神经网络采用ResNet50，把ResNet50最后一个block的步长设置为1，减少信息的丢失；

步骤三：通过加权的方式得到最终的视频特征，步骤二中得到的视频帧特征是每个视频帧的图像特征，把属于同一个视频序列的所有视频帧的图像特征通过加权的方式融合得到视频特征，作为最终的特征表示；在加权融合过程中，具有判别性的正确视频帧对应的权重应该接近1，而存在噪声的视频帧对应的权重应该接近0，降低这些噪声对最终视频特征的影响，对于一个视频序列的所有视频帧S＝{I₁,I₂,I₃,…,I_n}，定义F＝{f₁,f₂,f₃,…,f_n}是步骤二中提取的对应视频帧特征。则f_i对应的权重α_i计算公式如下：

α_i＝λs_i1+(1-λ)s_avg

其中，s_i1是f_i与f₁的相似度，s_avg是f_i与f_j的相似度的平均值，j＝1,2,3,…,n；j≠i，λ是权重系数，用于衡量两个相似度之间的重要程度；

若当前阶段是训练阶段，则转到步骤四，否则转到步骤五；

步骤四：计算损失函数并且对训练集中的数据进行标签更正，根据步骤三得到的视频特征直接计算Triplet Loss，把视频特征输入到全连接层中分类，用分类概率计算SoftMaxLoss，卷积神经网络使用Triplet Loss和SoftMax Loss联合监督训练，当卷积神经网络训练到一定程度后，用当前的卷积神经网络预测训练集中所有视频帧的分类概率，若训练集中一共有n个类别的行人，输入视频帧I的预测概率为p_i，i＝1,2,3,…,n，视频帧I的原始标签为l，l∈{1,2,3,…,n}，则经过标签更正操作赋予视频帧I一个新的标签l_new，具体规则如公式所示：

其中，t₁和t₂是两个阈值，根据实际应用数据分布进行设置，当使用的卷积神经网络预测某个视频帧与对应的类别不符，且预测属于其他类的概率p_j大于阈值t₂时，认为该视频帧的原始标签存在错误，予以更正；

步骤五：在候选行人库中匹配目标行人，使用得到的视频特征与候选行人库中预先提取的视频特征计算相似度，选择相似度最大的k个行人视频片段作为最终匹配的结果。

2.根据权利要求1所述的基于标签更正与加权特征融合的视频行人再识别方法，其特征在于：所述步骤三和步骤五中的相似度，是指两个特征向量的余弦相似度，即在d维空间中两个向量之间的夹角的余弦值，对于给定d维空间中的两个向量p＝(p₁,p₂…,p_d),q＝(q₁,q₂…,q_d),p和q的相似度计算如下：

其中，p,q为给定的两个向量；p_i,q_i(i＝1,2,…,d)分别表示p,q在d维空间中的坐标；S(p,q)表示p到q的相似度；S(q,p)表示q到p的相似度；||p||和||q||分别是向量p和向量q的模长。