CN109635634B

CN109635634B - 一种基于随机线性插值的行人再识别数据增强方法

Info

Publication number: CN109635634B
Application number: CN201811268388.8A
Authority: CN
Inventors: 郭军; 李智; 陈�峰; 许鹏飞; 刘宝英; 孟宪佳; 常晓军
Original assignee: Northwest University
Current assignee: Northwest University
Priority date: 2018-10-29
Filing date: 2018-10-29
Publication date: 2023-03-31
Anticipated expiration: 2038-10-29
Also published as: CN109635634A

Abstract

本发明公开了一种基于随机线性插值的行人再识别数据增强方法，采用随机线性插值方法用以增加原始行人再识别数据集中的样本数量，并且利用了大量的具有不同遮挡等级的行人图像样本，以获得数据集中更加丰富的行人数据分布信息。然后，通过使用基准的深度学习网络模型对增强后的数据集进行学习，提升了模型的泛化能力，降低行人再识别的Rank‑1匹配的误差。

Description

一种基于随机线性插值的行人再识别数据增强方法

技术领域

本发明涉及视频监控和数据处理领域，具体涉及一种基于随机线性插值的行人再识别数据增强方法。

背景技术

随着深度学习的快速发展，越来越多的卷积神经网络模型有效地处理图像分类，目标检测等问题计算机视觉任务，但是为了保证大型卷积网络模型对于小规模数据的泛化能力，尤其是当识别不同摄像机视角中的行人，正在面临着数据集较小的挑战，数据增强方法显得十分重要。传统的数据增强方法都是对单一的数据进行增强，包括了随机裁剪，随机翻转和随机擦除等算法，而在行人再识别数据集上，考虑到卷积网络模型需要对具有遮挡和不同灯光背景的数据样本有很好的识别能力，只针对单个样本的数据增强方法略有不足。因此，为了使得卷积神经网络模型对复杂背景样本识别的泛化性提高，基于样本间的数据增强方法应运而生。

数据增强是一种数据预处理方法，它是从原始数据集中生成新的训练样本，被广泛用于增加图像中数据集的大小。而且，数据增加由于具有降低过拟合风险的能力，因此在深度学习中起着关键作用。图像的数据增强分成两种常用的方法：第一种方法侧重于改变图像中像素点的位置分布，如随机旋转，这种方法优点在于能够增加样本在不同方向上的数据，使得神经网络模型能够对于不同角度的样本识别具有鲁棒性；第二种方法侧重于改变图像中像素点的值，如随机擦除，这种方法优点在于对于网络模型来说，像素值的改变意味着能够让神经网络学习到新特征，并且能够更加鲁棒的对一个具有噪声的样本进行学习，能够提高对有噪声样本的识别的泛化性。

在对行人再识别数据集进行训练时，第二种方法效果会更好一些，但是目前比较先进的方法随机擦除仅仅考虑了样本本身的像素值改变，这会使得模型对于数据集中的数据分布的学习具有局限性，进一步提高卷积神经网络模型对于行人再识别数据集中数据分布的学习能力，成为了行人再识别中亟待解决的一个问题。

发明内容

本发明的目的是提供一种基于随机线性插值的行人再识别数据增强方法，以进一步提高行人再识别的准确率。

为了实现上述任务，本发明采用以下技术方案：

一种基于随机线性插值的行人再识别数据增强方法，包括以下步骤：

步骤1，通过监控系统捉视角不交叉的不同相机下同一个行人的照片，再将不同行人照片中行人图像分别截取出来，构成该行人的图像数据集；利用不同行人的图像数据集构建行人再识别数据集，并将其划分为训练集和测试集；

步骤2，初始化随机线性插值的插值强度参数，设置训练集中需要被增强的样本比例，将待增强的样本与训练集中的随机一个样本进行插值操作，生成新的样本，然后对待增强的样本进行重新标记；

步骤3，将生成的新的样本和训练集中的样本混合作为输入层，使用卷积神经网络模型进行训练，设定训练代数，当模型的损失函数收敛或者达到训练代数，则进行步骤4，否则更新步骤3；

步骤4，步骤3中训练好的模型获得了不同相机拍摄的照片中行人图像的映射关系，利用训练好的模型对测试集中的行人图像进行匹配预测，得到识别的结果。

进一步地，所述的步骤2具体包括：

步骤2.1，首先通过贝塔分布Beta(α,β)生成随机线性插值的强度μ，这里α＝β是贝塔分布的参数；

步骤2.2，将训练集平均划分成k个样本的批训练数据，设定需要被数据增强的样本比例γ，然后利用下式进行插值操作，得到新的样本的特征，从而得到新的样本；

其中，

表示批训练数据生成新的样本的特征,x_a表示批训练数据中的待增强样本的特征，x_t表示批训练数据中任意一个样本的特征，μ表示的是随机线性插值的插值强度，{R,G,B}表示样本的像素特征，共有三个颜色通道：红，绿，蓝。

步骤2.3，利用步骤2.1中的插值强度μ，对批训练数据中的待增强的样本进行重新标记，得到增强样本的双标记，如式2所示:

其中，

表示混合了待增强的样本a和批训练数据中任意样本t的标签，同时具备了两个样本的标签信息；y_a表示待增强的样本a的标签，y_t表示所述任意样本t的标签。

进一步地，所述的基于随机线性插值的行人再识别数据增强方法，还包括：

将测试集的样本放入到步骤3中得到的模型中训练，得到相应的预测向量，设定评估参数p的值，将预测向量中最大的p个值对应的类别和测试集中待测样本的真实类别进行比较，如果待测样本的真实类别存在于预测的p个类别中，则统计预测对的样本数增加1；

统计测试集中总共的预测正确的样本数T，以及总的测试集样本数N，计算 Rank-p准确率：

根据计算出来的Rank-p准确率，使用格点搜索的方法对对所述的卷积神经网络模型的参数μ、γ进行调节，使得最终得到的模型性能达到最好。

进一步地，步骤3所述的用卷积神经网络模型进行训练时，记录每一次训练时的损失函数值，如式3所示：

loss＝μ·(y_pred-y_a)+(1-μ)·(y_pred-y_t) 式3

其中loss表示损失函数值，y_pred表示样本a的预测标签，y_a表示样本a的真实标签，y_t表示样本t的真实标签。

进一步地，所述的卷积神经网络模型，是指：

所述的卷积神经网络采用改进的ResNet50网络，具体是在ResNet50网络的基础上，移除原有的全连接层，将全连接层替换为线性层，在线性层之后增加一个BatchNormalization层；除此之外，使用Leaky ReLU作为线性层和Batch Normalization层的激活函数，设定Leaky ReLU的负斜率参数为0.01，设定卷积神经网络的dropout的参数为0.5；在训练时，定训练代数参数为60，初始的学习率为0.001，并且网络的初始权重使用了在ImageNet上的训练参数。

进一步地，所述的样本比例γ的取值范围为[0.3,0.5]。

本发明具有以下技术特点：

1.本发明提出了一种基于随机线性插值的数据增强方法来增加行人再识别数据集中的不同遮挡程度的行人图像样本，能得到更加丰富的行人图像数据分布。

2.使用神经网络对于这些具有难度的行人图像样本进行训练，可以使得模型增强对于一些遮挡和背景斑驳的行人图像的泛化能力，同时提高行人再识别的 Rank-1准确率。

附图说明

图1为本发明方法的流程图；

图2为本发明采用改进的ResNet50网络中改进部分的结构示意图；

图3为本发明方法对在不同插值强度参数下生成的新样本；

图4为Market1501数据集上使用本发明方法的Rank-1识别准确率；

图5为DukeMTMC-reID数据集使用本发明方法的Rank-1识别准确率；

图6为Market1501数据集的参数α敏感性分析结果；

图7为DukeMTMC-reID数据集的参数γ敏感性分析结果。

具体实施方式

本发明公开了一种基于随机线性插值的行人再识别数据增强方法，包括以下步骤：

步骤1，通过监控系统捉视角不交叉的不同相机下同一个行人的照片，再将不同行人照片中行人图像分别截取出来，构成该行人的图像数据集；利用不同行人的图像数据集构建行人再识别数据集，并将其划分为训练集和测试集。

该步骤中，通过监控系统捉视角不交叉的不同相机下同一个行人的照片，则获取到一系列关于同一个行人的照片；再将每一张照片中所述的“同一个行人”采用手工标记边界框的形式截取出来，得到行人图像，则不同的照片截取出的行人图像共同构成该行人的图像数据集。所述的边界框指包含该行人在内的矩形框。

将不同行人的图像数据集构成行人再识别数据集，并将行人再识别数据集划分为训练集和测试集，训练集和测试集中每一个样本(行人图像)的大小为128 ×64像素；将每一张行人图像中的像素特征作为其数据特征空间。

本方法首先要确保视频监控中的相机是不交叉的，这也是保证行人再识别问题的基本要求；其次，我们使用边界框将行人的图像截取出来，这样可以减少背景的像素信息，同时突出行人在整个图像中的占比，保证行人的有效特征信息；将数据集中的所有图像都固定像素大小，方便在之后的网络模型中作为输入进行训练。

步骤2，初始化随机线性插值的插值强度参数，设置训练集中需要被增强的样本比例，将待增强的样本与训练集中的随机一个样本进行插值操作，生成新的样本，然后对待增强的样本进行重新标记。

步骤2.2，将训练集平均划分成k个样本的批训练数据，设定需要被数据增强的样本比例γ，一般情况下，样本比例γ的取值范围为[0,1]；优选地，经发明人大量的实验验证，当样本比例γ的取值范围为[0.3,0.5]时，增强后的样本构成的数据集会对模型有较好的提升；然后利用下式进行插值操作，得到新的样本的特征，从而得到新的样本；

其中，

表示批训练数据生成新的样本的特征,x_a表示批训练数据中的待增强(即需要被数据增强)样本的特征，x_t表示批训练数据中任意一个样本的特征，μ表示的是随机线性插值的插值强度，{R,G,B}表示样本的像素特征，共有三个颜色通道：红，绿，蓝。

其中，

该步骤中，使用贝塔分布得到的随机插值强度μ和设定的需要被数据增强的样本比例γ是我们方法需要的两个参数，而依靠这两个参数，就可以实现在训练数据集中不断地增加具有不同遮挡程度的新样本，因此本方法在参数层面上是轻量级的；而与此同时，增加的新样本具有行人再识别数据集中本身特别缺少的几部分要素：遮挡、背景斑驳、模糊，这样能够使得训练得到的模型具有更加好的泛化能力。

步骤3，将生成的新的样本和训练集中的样本混合作为输入层，使用卷积神经网络模型进行训练，设定训练代数，当模型的损失函数收敛或者达到训练代数，则进行步骤4。

本实施例中，将步骤2生成的新的样本以及训练集中的原样本放到卷积神经网络中进行训练。如图2所示，所述的卷积神经网络采用改进的ResNet50网络，具体是在ResNet50网络的基础上，移除原有的全连接层，将全连接层替换为线性层；本实施例中，线性层为1×1的卷积层，在网络中起到降维的作用；在线性层之后增加一个BatchNormalization层，除此之外，使用Leaky ReLU作为所述线性层和Batch Normalization层的激活函数，设定Leaky ReLU的负斜率参数 negative_slope为0.01，设定卷积神经网络的dropout的参数为0.5；在训练时，定训练代数参数为60，初始的学习率为0.001，并且网络的初始权重使用了在 ImageNet上的训练参数，即将网络利用ImageNet数据集进行预训练获得的权重参数。每一次训练时，我们记录下训练的损失函数值，如式3所示。直到训练误差收敛或者到达训练的最大次数时，停止训练，得到训练好的模型。

loss＝μ·(y_pred-y_a)+(1-μ)·(y_pred-y_t) 式3

该步骤通过Batch Normalization层可以减少模型在训练过程中出现过拟合的风险，另外Leaky ReLU也是一个弱化负神经元的比较好的激活函数，相比于 ReLU会激活一些可能会对识别有帮助的负神经元。Dropout的设置可以在一定程度上缓解网络模型参数过大而产生的过拟合情况，设置0.5的比例可以在神经网络训练的过程中，控制50％的神经元关闭。

步骤4，步骤3中训练好的模型获得了不同相机拍摄的照片中行人图像的映射关系，利用训练好的模型对测试集中的行人图像进行匹配预测，得到识别的结果。实际应用时，将行人图像输入模型中即可得到识别结果。

模型准确率的计算：

利用上述方法能够验证步骤3中训练出来的模型的好坏，并且可以比较识别的准确率再对步骤3中的模型参数μ、γ进行更改，使用格点搜索(Grid Search) 的方法对这两个参数进行调节，使得最终得到的模型性能达到最好。

下面将本方法应用在具体的数据集上来证明其更好的数据增强效果。

首先介绍两个标准的行人再识别数据集Market1501和DukeMTMC-reID：

Market1501数据集：Market1501数据集是由清华大学超市前的六台摄像机收集到的数据制作而成。这个数据集包含32668个行人图像，包含1501个行人。每个行人的图像大约为20张照片，然后使用手工制作和可变形零件模型(DPM) 的方法标记了1501个行人的边界框图像数据。将数据集中12936个图像作为训练集，另外使用19732张图像作为测试集。

DukeMTMC-reID数据集：DukeMTMC-reID取自于杜克大学的多目标多相机的追踪数据集DukeMTMC，共包含了1404个行人的36411张图像。702个行人的图像数据作为训练集，其余的图像数据作为测试集。这个数据集的所有图像都由8个摄像机进行行人捕获，然后通过手工制作而成。

(1)表1中所示是两个数据集的具体信息。

表1

(2)评价标准：按照我们的数据增强算法具体实施步骤，完成行人再识别任务。我们用Rank-p准确率(Rank-p Accuracy)作为行人再识别的评估标准，下面简单介绍一下该评估标准。

Rank-p准确率:将所有行人的图片集(gallery)中的图片，按照与待测行人图片的相似度排序，如果在第p个前就匹配正确，则统计识别正确的行人数目增加1,否则不变。当所有的待测行人都完成匹配识别之后，统计所有识别正确的行人数目，记作T；统计所有的待测行人数目，记作N。那么计算Rank-p准确率的式如下：

(3)结果分析：

表2

表2展示了三个神经网络模型使用我们的方法和不使用我们的方法再两个数据集Market1501和DukeMTMC-reID中的Rank-1精确度(Rank-1 Accuracy)，从表中看到本发明方法优于其他算法，平均有2％的Rank-1精度提高。使用本发明方法可以有效地提高基准卷积神经网络模型的性能，这也证明了本发明方法是一个通用的数据增强方法。

表3

表3展示了基准模型和两种数据增强方法在两个数据集Market1501和 DukeMTMC-reID中的Rank-p精确度(Rank-p Accuracy)，其中基准的模型是使用的ResNet50，从表中我们可以看到我们的方法优于其他算法，相比于随机裁剪的数据增强方法，我们的方法改变了图像数据的像素值，在根本上改变了数据集中的数据分布；相比于随机擦除的数据增强方法，本发明方法增加了一些模糊以及背景融合的样本，也在识别的准确率上有些提升。

图3描述了在两个数据集Market1501和DukeMTMC-reID上不同的插值强度生成的新样本。

图4、图5描述了两个数据集Market1501和DukeMTMC-reID在三个神经网络模型上是否使用本发明方法的Rank-1识别准确率的对比结果。

图6描述了在Market1501数据集上控制参数γ不变，对生成的随机差值强度μ的超参数α敏感性分析的结果；由于我们对每一个需要被增强的样本的插值强度随机，因此无法直接设置插值强度的值，因而我们依靠控制贝塔分布的参数α来随机生成插值强度参数μ。

图7描述了在DukeMTMC-reID数据集上控制参数α不变，对参数γ敏感性分析的结果。