CN110866487B

CN110866487B - 大规模行人检测与重识别样本集构建方法及装置

Info

Publication number: CN110866487B
Application number: CN201911102007.3A
Authority: CN
Inventors: 杨曼艺; 杜姗姗; 冯瑞
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2019-11-12
Filing date: 2019-11-12
Publication date: 2023-01-17
Anticipated expiration: 2039-11-12
Also published as: CN110866487A

Abstract

本发明提供一种大规模行人检测与重识别样本集构建方法，用于对需要标注的原始视频进行预识别，并在识别后让用户根据预识别目标对原始视频完成人工标注从而形成符合标注规范的样本集，其特征在于，包括如下步骤：步骤S1，对原始视频进行预处理从而得到预处理视频帧；步骤S2，搭建一个基于特征融合的特征提取网络以及一个目标检测网络；步骤S3，使用行人检测数据集训练特征提取网络，并使用训练时特征提取网络提取出的特征图训练目标检测网络；步骤S4，将预处理视频帧输入特征提取网络以及目标检测网络从而得到预识别目标；步骤S5，将预处理视频帧以及相应的预识别目标传输给预设的标注工具中让用户进行人为标注。

Description

大规模行人检测与重识别样本集构建方法及装置

技术领域

本发明属于目标检测以及计算机视觉领域，具体涉及一种大规模行人检测与重识别样本集构建方法及装置。

背景技术

目前，在计算机视觉研究领域中，基于深度学习的算法在各个方向都有着良好的表现，其中大部分算法是根据卷积神经网络进行设计。基于深度学习的算法的优化及改进离不开大量的数据支持及验证。

然而，现存的大部分数据集都具有数据质量高低不等、数据标注内容不够丰富、数据场景过于单一、数据格式不统一等问题。此外，在制作数据集的过程中，大部分制作方法皆采用人工进行，对人力的消耗巨大的同时，也限制了可完成的数据量，从而更使得数据集在训练时产生的效果不能达到最优。

发明内容

为解决上述问题，提供一种能够实现半自动化行人检测及行人重识别大型数据集的规范制作的方法及装置，本发明采用了如下技术方案：

本发明提供了一种大规模行人检测与重识别样本集构建方法，用于对需要标注的原始视频进行预识别，并在识别后让用户根据预识别目标对原始视频完成人工标注从而形成符合标注规范样本集，其特征在于，包括如下步骤：步骤S1，对原始视频进行预处理从而得到预处理视频帧；步骤S2，搭建一个基于特征融合的特征提取网络以及一个目标检测网络；步骤S3，使用行人检测数据集训练特征提取网络，并使用训练时特征提取网络提取出的特征图训练目标检测网络；步骤S4，将预处理视频帧输入特征提取网络以及目标检测网络从而得到预识别目标；步骤S5，将预处理视频帧以及相应的预识别目标传输给预设的标注工具中让用户进行人为标注，其中，标注工具中包括目标标注选项以及场景标注选项，用于让用户根据预处理视频帧中的预识别目标完成标注工作。

本发明提供的大规模行人检测与重识别样本集构建方法，还可以具有这样的技术特征，其中，步骤S1中进行的预处理包括：使用帧间差分法去除原始视频中模糊且无目标的帧；从处理后的原始视频中每五帧抽取一帧作为预处理视频帧。

本发明提供的大规模行人检测与重识别样本集构建方法，还可以具有这样的技术特征，其中，特征提取网络包括五层卷积层，第五层、第四层、第三层的卷积层所得到的特征都通过pooling和反卷积操作进行尺寸归一，并在融合高层语义信息与低层位置信息后作为该特征提取网络输出的特征图。

本发明还提供了一种大规模行人检测与重识别样本集构建装置，用于对需要标注的原始视频进行预识别，并在识别后让用户根据预识别目标对原始视频完成人工标注从而形成符合标注规范的样本集，其特征在于，包括：视频处理部，用于对原始视频进行预处理从而得到预处理视频帧；目标检测部，用于对预处理视频帧进行目标检测从而初步检测出需要标注的预识别目标，存储有事先训练好的基于特征融合的特征提取网络以及目标检测网络；以及数据标注部，用于通过预设的标注工具显示预处理视频帧以及相应的预识别目标传输从而让用户进行人为标注，其中，数据标注部具有画面存储单元以及输入显示单元，画面存储单元存储有对应标注工具的标注工具画面，输入显示单元用于显示标注工具画面，该标注工具画面中显示有目标标注选项以及场景标注选项，同时还显示有预处理视频帧以及相应的预识别目标从而让用户完成标注工作。

发明作用与效果

根据本发明的大规模行人检测与重识别样本集构建方法及装置，由于利用基于特征融合的卷积神经网络和目标检测网络，对待标注的原始视频进行预处理以及预识别，因此在人工标注前利用了机器进行预判，从而初步识别出待检测目标。进一步，将预处理得到的预处理视频帧以及预识别得到的预识别目标通过标注工具显示，从而使得用户能够通过该标注工具在具有更高质量的数据源上半自动化地对视频数据进行更规范的标注，从而使得样本集的构建工作在相同人力下得到更多的标注数据。

附图说明

图1是本发明实施例中大规模行人检测与重识别样本集构建方法的流程图；

图2是本发明实施例中特征提取网络的结构示意图；

图3是本发明实施例中特征提取网络与目标检测网络的结构示意图；以及

图4是本发明实施例中标注工具画面的示意图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，以下结合实施例及附图对本发明的大规模行人检测与重识别样本集构建方法作具体阐述。

<实施例>

本实施例中，使用的数据集为caltech行人检测数据集以及citypersons行人检测数据集。caltech行人检测数据集是加州理工大学于2012年推出的大型公开行人数据集，使用车载相机进行拍摄，有超过350000个行人目标。Citypersons数据集是基于cityscape数据集对行人部分进行额外标注的数据集。具有更加细分的标注类别。

图1是本发明实施例中大规模行人检测与重识别样本集构建方法的流程图。

如图1所示，大规模行人检测与重识别样本集构建方法包括如下步骤：

步骤S1，对待标注的原始视频进行预处理从而得到相应的预处理视频帧。

本实施例中，原始视频为未进行任何处理、直接获取的行人监控、路面监控等视频，通过接下来的样本集构建方法进行标注，从而作为样本集供其他用于行人检测、重识别的模型或方法使用。

本实施例中，在对原始视频进行预处理时，使用了帧间差分算法对原始视频中模糊且无目标物体的帧进行剔除，具体方法为：首先，对原始视频帧进行3×3中值滤波处理，去掉图像随机噪声，从而减少以后运算的复杂度，克服噪声对图像处理结果的干扰。其次，在视频图像序列中选取连续的两帧图像(前一帧图像为pk-1(x,y)，当前帧图像为pk(x,y))，计算当前帧与背景帧的差得FD(x,y)，再从图像中提取出完整的目标，计掉当前1帧的差得FG(x,y)，得到目标的变化量，求帧差FD(x,y)与FG(x,y)的交集从而得到运动目标粗糙的运动区域。最后对该运动区域进行形态学处理，去除噪声。采用图像增强的办法，对模糊图像进行处理，对图像清晰度、对比度、亮度等参数做归一化处理。

在完成上述处理后，即得到仅含有清晰图像帧的原始视频，为减少重复图像处理时间，将视频每五帧抽取一帧作为预处理视频帧进行检测。

步骤S2，搭建特征提取网络以及目标检测网络。

本实施例中，特征提取网络为经过特征融合的卷积神经网络，基于通用的卷积神经网络vgg16构建，具体采用了在Imagenet上经过预训练的vgg16网络模型，该vgg16模型具有以下结构：

1)五层具有3*3卷积核的卷积层，用于进行特征提取；

2)连接在每层卷积层后的max_pooling层，用于进行降维操作；

3)fc层，用于进行图像分类。

如图2所示，本实施例的特征提取网络不使用原vgg16的fc层结构，同时还将第三、四和五个卷积层得到的特征图进行融合。在融合过程中，以第四层卷积层输出特征图尺寸为标准，对第三层卷积层输出特征图做max_pooling操作，第五层卷积层得到特征图做反卷积操作，然后进行特征融合后的特征图，通过pooling操作，最终得到用于输入目标检测网络的特征图。

本实施例中，目标检测网络沿用faster-rcnn的检测部分算法，并使用RPN网络提取区域候选框。如图3所示，该目标检测网络中的RPN网络连接在特征提取网络所输出的特征图(feature)之后。在对输入的特征图进行处理时，目标检测网络采用滑窗方式遍历特征图，每个特征像素点对应9个Anchor(即不同的Scale和Size:1:1、1:3、3:1、128*128、256*256、512*512)。进一步对得到的anchor得分进行排序，选出前300个作为输入送入roi_pooling层得到最后的输出。

步骤S3，使用训练集训练特征提取网络，并使用特征提取网络提取出的特征图训练目标检测网络。

本实施例的步骤S3中，在对步骤S2中搭建好的特征提取网络进行训练时，采用的训练集为caltech行人检测数据集以及citypersons行人检测数据集，即、将该特征提取网络在caltech行人检测数据集以及citypersons行人检测数据集上作联合训练。

同时，在特征提取网络被联合训练时，所有输出的特征图都会在dehumidifier的同时输入目标检测网络并进行目标检测网络的训练。

本实施例中，特征提取网络以及目标检测网络的训练过程采用常规的神经网络模型训练方法，并采用常规的训练完成条件(例如将当模型收敛则完成训练)。

步骤S4，将步骤S1中预处理得到的预处理视频帧输入经过步骤S3训练完成的特征提取网络以及目标检测网络从而得到预识别目标。

本实施例中，每个预处理视频帧都依次通过特征提取网络以及目标检测网络，最终得到表示该预处理视频中的检测目标的预识别目标。

步骤S5，将预处理视频帧以及相应的预识别目标传输给预设的标注工具中让用户进行人为标注。

本实施例中，上述大规模行人检测与重识别样本集构建方法通过一个样本集构建装置实现，该样本集构建装置为一台常规的计算机，计算机中存储有与大规模行人检测与重识别样本集构建方法对应设定的计算机程序。具体地，该样本集构建装置包括视频处理部、目标检测部以及数据标注部。

视频处理部对应样本集构建方法的步骤S1，用于对原始视频进行预处理从而得到预处理视频帧。

目标检测部存储有预先训练好的特征提取网络以及目标检测网络，用于对预处理视频帧进行目标检测从而初步检测出需要标注的预识别目标(对应样本集构建方法的步骤S4)。

数据标注部对应样本集构建方法的步骤S5，用于通过预设的标注工具显示预处理视频帧以及相应的预识别目标传输从而让用户进行人为标注。

本实施例中，数据标注部具有画面存储单元以及输入显示单元，该输入显示单元为计算机的输入显示设备。

画面存储单元中存储有对应标注工具的标注工具画面。本实施例中，标注工具是结合发明系统特殊设计的、专为行人检测及行人重识别数据规范制作的标注工具，以可执行代码的形式存储在计算机中，该标注工具能够配合预处理视频帧和预识别目标用户交互界面便于人工进行修正和添加信息，相应被显示的人机交互画面即标注工具画面。

标注工具画面用于显示标注工具、预处理视频帧以及相应的预识别目标从而让用户进行标注工作。

本实施例中，如图4所示，标注工具画面的中央显示有预处理视频帧，预识别目标在显示预处理视频帧通过方框框选突出。同时标注工具画面的右侧显示有标注工具中预设的标注选项，具体为：目标标注选项、场景标注选项以及相应的标注信息选项。

目标标注选项为常规的标注选项，用于标记目标的类型以及属性。

场景标注选项为本发明增加的标注选项，用于帮助用户标记场景类型以及场景属性。同时，标注工具还对目标标注选项以及场景标注选项添加了更多标注信息选项，因此使得用户能够对行人图片进行更细致的划分，进一步有助于使得标注出的样本集更好地应用与其他行人检测模型或是方法中。

在本实施例中，标注工具还规定了数据标注框比例为0.41、规定了标注信息格式，因此有助于规范用户生成的样本集。另外，该标注工具还具有相关接口，从而便于用户添加其他可能需要的标注规范。

实施例作用与效果

根据本实施例提供的大规模行人检测与重识别样本集构建方法及装置，由于利用基于特征融合的卷积神经网络和目标检测网络，对待标注的原始视频进行预处理以及预识别，因此在人工标注前利用了机器进行预判，从而初步识别出待检测目标。进一步，将预处理得到的预处理视频帧以及预识别得到的预识别目标通过标注工具显示，从而使得用户能够通过该标注工具在具有更高质量的数据源上半自动化地对视频数据进行更规范的标注，从而使得样本集的构建工作在相同人力下得到更多的标注数据。

另外，实施例中，由于在特征提取网络中，对第五层、第四层、第三层的卷积层所得到的特征都通过pooling和反卷积操作进行尺寸归一，并通过特征融合操作结合了高层语义信息以及低层位置信息，因此本实施例的特征提取网络以及目标检测网络能够以更高的精度进行目标识别和定位，从而进一步节省用户在标注时所耗费的人力成本。

上述实施例仅用于举例说明本发明的具体实施方式，而本发明不限于上述实施例的描述范围。

例如，实施例中，特征提取网络中对vgg16卷积神经网络进行了特征融合，在本发明的其他实施例中，特征提取网络也可对其他类型的网络(如vgg19等)进行特征融合。

在例如，实施例中所用到方法及装置用于行人检测及重识别方向，在本发明的其他实施例中，该方法及装置对于其他目标检测方向数据集的制作具有同样的效果和相同的操作方式。

Claims

1.一种大规模行人检测与重识别样本集构建方法，用于对需要标注的原始视频进行预识别，并在识别后让用户根据预识别目标对所述原始视频完成人工标注从而形成符合标注规范的样本集，其特征在于，包括如下步骤：

步骤S1，对所述原始视频进行预处理从而得到预处理视频帧；

步骤S2，搭建一个基于特征融合的特征提取网络以及一个目标检测网络；

步骤S3，使用训练集训练所述特征提取网络，并使用训练时所述特征提取网络提取出的特征图训练所述目标检测网络；

步骤S4，将所述预处理视频帧输入所述特征提取网络以及所述目标检测网络从而得到预识别目标；

步骤S5，将所述预处理视频帧以及相应的所述预识别目标传输给预设的标注工具中让所述用户进行人为标注，

其中，所述标注工具中包括目标标注选项以及场景标注选项，用于让所述用户根据所述预处理视频帧中的所述预识别目标完成标注工作；

所述特征提取网络包括五层卷积层，

第五层、第四层、第三层的所述卷积层所得到的特征都通过pooling和反卷积操作进行尺寸归一，并在融合高层语义信息与低层位置信息后作为该特征提取网络输出的特征图，

在融合过程中，以第四层卷积层输出特征图尺寸为标准，对第三层卷积层输出特征图做max_pooling操作，第五层卷积层得到特征图做反卷积操作，然后进行特征融合后的特征图，通过pooling操作，最终得到特征图。

2.根据权利要求1所述的大规模行人检测与重识别样本集构建方法，其特征在于：

其中，所述步骤S1中进行的所述预处理包括：

使用帧间差分法去除所述原始视频中模糊且无目标的帧；

从处理后的所述原始视频中每五帧抽取一帧作为预处理视频帧。

3.一种大规模行人检测与重识别样本集构建装置，用于对需要标注的原始视频进行预识别，并在识别后让用户根据预识别目标对所述原始视频完成人工标注从而形成符合标注规范的样本集，其特征在于，包括：

视频处理部，用于对所述原始视频进行预处理从而得到预处理视频帧；

目标检测部，用于对所述预处理视频帧进行目标检测从而初步检测出需要标注的预识别目标，存储有事先训练好的基于特征融合的特征提取网络以及目标检测网络；以及

数据标注部，用于通过预设的标注工具显示所述预处理视频帧以及相应的所述预识别目标传输从而让所述用户进行人为标注，

其中，所述数据标注部具有画面存储单元以及输入显示单元，

所述画面存储单元存储有对应所述标注工具的标注工具画面，

所述输入显示单元用于显示所述标注工具画面，该标注工具画面中显示有目标标注选项以及场景标注选项，同时还显示有所述预处理视频帧以及相应的所述预识别目标从而让所述用户完成标注工作；

所述特征提取网络包括五层卷积层，