CN112784756B

CN112784756B - 人体识别跟踪方法

Info

Publication number: CN112784756B
Application number: CN202110095729.1A
Authority: CN
Inventors: 王堃; 刘耀辉; 戴旺
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-01-25
Filing date: 2021-01-25
Publication date: 2022-08-26
Anticipated expiration: 2041-01-25
Also published as: CN112784756A

Abstract

本发明公开了一种人体识别跟踪方法，包括如下步骤：步骤100：采集原始视频流数据，并将原始视频流数据转化为图片建立初始数据集；步骤200：对初始数据集进行增强处理及筛选，获得训练集、验证集及测试集；步骤300：搭建由主干网络、上采路径和顶端卷积组成的Centernet网络结构，其中顶端卷积使采用深度可分离卷积；步骤400：设计BOX匹配机制和损失函数构建完整的Centernet网络结构；步骤500：使用训练集、验证集及测试集对完整的Centernet网络结构进行训练、验证及测试获得Centernet网络模型；步骤600：利用Centernet网络模型识别跟踪实时视频流数据中的人体。上述人体识别跟踪方法，优化了Centernet网络结构，在不降低检测精确度的情况下提升检测速度，优化了精确度和速度之间的平衡。

Description

人体识别跟踪方法

技术领域

本发明涉及机器视觉领域，特别涉及一种人体识别跟踪方法。

背景技术

多目标跟踪(Multi-Object tracking，MOT)是当前计算机视觉领域的一个研究热点，其内容指在特定或实时的视频序列中确定符合要求或具有某种视觉特征的独立目标的位置、大小和每个目标完整的运动轨迹等信息。近年来，随着数据处理能力的快速增长及图像分析技术的发展，目标监测和实时跟踪技术脱颖而出，并在视频监控、定位导航、智能人机交互、虚拟现实等领域有着非常重要的实用价值，基于视频流的多目标跟踪技术已成为各路专家学者研究的热门方向。

Centernet网络作为一种目标跟踪算法，不需要区域建立感兴趣区域，在速度上有很大的提升，但在检测准确度和检测速度的平衡上还有优化空间。

发明内容

发明目的：本发明的目的是提出一种人体识别跟踪方法，在保证检测准确率的同时，进一步提升检测速度，并扩大感受野。

技术方案：本发明所述的人体识别跟踪方法，具体包括如下步骤：

步骤100：采集原始视频流数据，并将原始视频流数据转化为图片建立初始数据集；

步骤200：对初始数据集进行增强处理及筛选，获得训练集、验证集及测试集；

步骤300：搭建由主干网络、上采路径和顶端卷积组成的Centernet网络结构，其中顶端卷积使采用深度可分离卷积；

步骤400：设计BOX匹配机制和损失函数构建完整的Centernet网络结构；

步骤500：使用训练集、验证集及测试集对完整的Centernet网络结构进行训练、验证及测试获得Centernet网络模型；

步骤600：利用Centernet网络模型识别跟踪实时视频流数据中的人体。

进一步的，所述步骤400中的BOX匹配机制为：若包含特征点预测的对象的中心点的Bbox被占用，则选择离该对象的中心点最近的Bbox为Anchor。

进一步的，所述步骤400中的损失函数表示为：

L_del＝L_k+L_size+L_off

其中，L_del为总损失，L_k为置信度损失，L_size为目标框大小损失，L_off为中心偏移损失，设定预测的Bbox参数为(b_x，b_y，b_w，b_h)，其中b_x和b_y分别为Box中心点的位置，b_w和b_h代表Box的宽和高，在置信度损失中加入ξ、δ、ζ三个影响因子，即：

L_k＝ξ₁L_nt+ξ₂L_pt

L_nt＝-(1-b_y^)^δ ₁*log(b_y^+ζ)

L_pt＝-(1-b_y^)^δ ₂*log(b_y^)

其中L_nt为负样本损失，L_pt为正样本损失，ξ₁、ξ₂、δ₁、δ₂、ζ由网格搜索得到最佳值。

进一步的，所述步骤100中的原始视频流数据通过摄像头实时录像辅以互联网爬虫的方式获得。

进一步的，所述步骤200中的增强处理包括几何变换及颜色变换。

进一步的，所述步骤300中的主干网络为ResNet-18、MobileNet、Xception、ShuffleNet、ResNet101和DenseNet中的一种。

进一步的，所述步骤300中的上采路径包括CBAM模块和特征融合模块，所述CBAM模块用于优化提取的图像特征，所述特征融合模块用于融合浅层特征即深层特征。

进一步的，所述步骤300中的Centernet网络的激活函数为h-swish和h-sigmoid。

所述步骤500包括：

步骤510：给定模型训练方式及参数，将训练集送入到完整的Centernet网络结构训练获得第一特征数据集；

步骤520：在载体设备上进行训练，获得Centernet网络模型。

有益效果：与现有技术相比，本发明具有如下优点：

1、将Centernet网络的主干网络替换为轻量级的网络，适用于嵌入式设备，提升了检测速度。

2、在上采过程中引入特征融合模块，融合低层空间信息和高层语义信息，克服行人相互遮挡、由于光照和视角变化所带来的漏检和误检。

3、引入了注意力模块，并替换了计算量较小的激活函数，在快速计算的同时保证算法的实用性。

4、将Centernet网络中的卷积操作替换为深度可分离卷积，在不降分辨率且不增加计算量的基础上扩大感受野，更好地检测定位分割大目标。

附图说明

图1为本发明的人体识别跟踪方法的流程图；

图2为本发明的Centernet网络结构与传统Centernet网络结构的比较图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

参照图1，根据本发明实施例的人体识别跟踪方法，包括如下步骤：

根据上述技术方案的人体识别跟踪方法，采用深度可分离卷积作为Centernet网络结构的，能够显著压缩参数和计算量，提升模型的运算性能，同时可以在不降低图像分辨率且不增加额外计算量的基础上，扩大感受野，进而实现检测分割大目标，实现精确定位目标。同时采用不同卷积率的卷积，可以获得不同感受野的特征，即可获得多尺度的行人特征。设计的Box匹配机制和损失函数可以分别解决行人检测中经常出现的中心点重合问题和正负样本不平衡的问题。

在Centernet网络中，特征图中一系列固定的BBox通过计算交并比来判断是否为正样本，若交并比大于0.7则标记为正样本，小于0.3则标记为负样本。正样本的BBox包含对象的中心点，且中心点在低分辨率上，每一个中心点仅能检测一个对象，网络仅需要预测在某一单元格内的偏移即可预测BBox。在这种设计下，一个特征点仅能预测一个对象，若一张图像中有超过一个对象中心点重合，则会导致漏检，而在行人检测中这种问题比较常见。所以在一些实施例中，步骤400的Box匹配机制为：在Anchor选择时，如果包含特征点对应的中心点BBox被占用，则选择离该中心点最近的BBox为Anchor来预测对象，这样就避免了中心点重复的问题。

在一些实施例中，损失函数由三部分组成，总体可以表示为下式：

L_del＝L_k+L_size+L_off

其中，L_del为总损失，L_k为置信度损失，L_size为目标框大小损失，L_off为中心偏移损失。设定预测的Bbox参数为(b_x，b_y，b_w，b_h)，其中b_x和b_y分别为Box中心点的位置，b_w和b_h代表Box的宽和高，在输入模型的尺寸为512×512，输出为28×28的特征图时，由于一个特征点仅预测一个对象，极端情况下会出现正负样本的极度不平衡。为了解决这个问题，在置信度损失中加入ξ、δ、ζ三个影响因子提高正样本的损失和减小负样本的损失以解决正负样本不平衡的问题，即：

L_k＝ξ₁L_nt+ξ₂L_pt

L_nt＝-(1-b_y^)^δ ₁*log(b_y^+ζ)

L_pt＝-(1-b_y^)^δ ₂*log(b_y^)

在负样本损失L_nt中通过设置ζ和δ₁两个因子来减小负样本的损失，在正样本损失L_pt中通过δ₂进行调节，最后通过ξ因子来控制正样本和负样本损失所占的比例。通过对损失函数中的ξ₁、ξ₂、δ₁、δ₂、ζ使用网格搜索得到最佳的一组参数。在本实施例中，取ξ₁为0.25、ξ₂为1、δ₁为3、δ₂为1.5、ζ为0.2。

在一些实施例中，步骤100中的原始视频流数据，可以通过实时录像的方式对地面行人的场景进行数据采集，同时辅以互联网爬虫来扩充数据库。目前许多例如MIT和ImageNet等行人检测公开数据集，大部分都是平视视角，不适用于俯视视角设置的监控摄像头，所以需要自行实地拍摄获得俯视角的行人数据，再配合互联网爬虫去补充数据量。

在一些实施例中，原始视频流数据通过脚本转化为图片，可以通过调用CV2中的imencode函数循环读取视频，每隔若干帧进行存储操作，将视频流转化成一组图片。

在一些实施例中，步骤200中的数据增强主要包括集合变换和颜色变换两种手段，其中几何变换包括随机翻转、旋转、裁剪、变形、缩放等各类操作，颜色变换包括包括噪声、高斯模糊、颜色变换、擦除、填充等。在本实施例中，主要采用几何变换中的随机旋转和缩放以及颜色变换中的高斯模糊。

在一些实施例中，需要对增强后的图片进行人工筛选，通过人工筛选控制场景类型和行人数量，使不同类型的数据尽量做到平均分布，这样才能够提高模型的泛化性能，防止其过拟合。在本实施例中，通过手工标注的方式按照PASCAL VOC格式对样本进行标记。采用PASCAL VOC格式是因为目前大多数数据库都是按照这个格式，方便训练其它类型的数据特征。标注工具为LabelImg，它是一款采用Python语言编写的多平台图像标注工具，通过可视化界面交互方式标记样本信息，得到与样本一一对应的xml脚本文件，标注所需对象信息为行人类别属性(Person)和目标行人边界框坐标信息，最终得到一套完整的包含训练集、验证集及测试集的训练集。

图2中的左图为传统的Centernet网络结构，采用hourglass网络结构，图2中的右图为本发明的实施例的Centernet网络结构。在一些实施例中，步骤300中的Centernet网络结构采用更适合于嵌入式设备的轻量化网络，如ResNet-18、MobileNet、Xception、ShuffleNet等，可以理解的是，主干网络也可以切换为ResNet101、DenseNet等较大的网络来获取更高的准确度。

在本实施例中，Centernet网络的主干网络采用轻量化的残差网络ResNet-18，以提升检测速度，其网络结构列表如表1所示。

表1 ResNet-18网络结构表

在本实施例汇总，先通过转置卷积进行上下采样操作，先使用可变形卷积更改卷积核数目，再使用转置卷积对特征图进行上采样。选取ResNet网络中“layer2”、“layer3”和“layer4”的输出分别作为“8x”、“16x”和“32x”的特征图，然后通过特征融合模块来对这三个特征图进行融合，接着在融合后“8x”倍的特征图上通过反卷积上采到“4x”，最后通过网络顶端的两个卷积来进行类别置信度和BBox预测。

由于经过多次卷积和池化操作会丢失大量的特征信息，降低检测的精度。同时又因为浅层特征图的尺寸普遍较大，大量地引入浅层特征会降低网络的实时性，而在特征表示的层面上，低层的和高层的特征表示不同，仅仅以通道来连接低层和高层特征，则就会带来很多噪音。所以为解决上述问题，在一些实施例中，在上采路径中加入特征融合模块，特征融合模块将浅层特征与深层特征进行融合，融合了低层丰富的空间信息和高层的语义信息，从而可以增加小目标及被遮挡目标检测的精度，这一点在对较大人流的检测跟踪上有着很大的优势。

在一些实施例中，为了优化提取的图像特征，避免大量冗余特征，进一步加快检测速度的同时获得更好的特征表达，在上采路径中加入注意力模块(CBAM)。

在一些实施例中，Centernet网络结构在增加了注意力模块的基础上还采用h-swish和h-sigmoid激活函数，替换传统的ReLU和Sigmoid激活函数，进一步减少计算量的同时，还能有效避免模型计算时的精度损失。

在一些实施例中，步骤500包括：

步骤520：在载体设备上进行训练，获得Centernet网络模型。

在本实施例中，训练过程依次为全部网络结构-部分结构-头部结构-全部网络结构。步骤510中具体的训练方式及参数如下：训练前期损失较大，采用步长型的学习率策略，通过较大的学习率来加快模型的收敛；训练后期使用余弦函数型的学习率衰减来提供较小的学习率，保证模型的收敛稳定。整个训练过程中，稀疏率为0.01，学习率中γ为0.1，学习率为0.0001，步长大小为100，每迭代100步，学习率下降为之前的学习率的十分之一，迭代周期为140次，批量训练的批次大小为16。

在步骤520中，每一个迭代周期，保存一次模型的权重文件，通过选择继续训练模式，继承选定迭代周期的权重文件继续训练。

Claims

1.一种人体识别跟踪方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的人体识别跟踪方法，其特征在于，所述步骤400中的BOX匹配机制为：若包含特征点预测的对象的中心点的Bbox被占用，则选择离该对象的中心点最近的Bbox为Anchor。

3.根据权利要求1所述的人体识别跟踪方法，其特征在于，所述步骤400中的损失函数表示为：

L_del＝L_k+L_size+L_off

L_k＝ξ₁L_nt+ξ₂L_pt

L_nt＝--(1-b_y^)δ₁*log(b_y^+ζ)

L_pt＝-(1-b_y^)δ₂*log(b_y^)

4.根据权利要求1所述的人体识别跟踪方法，其特征在于，所述步骤100中的原始视频流数据通过摄像头实时录像辅以互联网爬虫的方式获得。

5.根据权利要求1所述的人体识别跟踪方法，其特征在于，所述步骤200中的增强处理包括几何变换及颜色变换。

6.根据权利要求1所述的人体识别跟踪方法，其特征在于，所述步骤300中的主干网络为ResNet-18、MobileNet、Xception、ShuffleNet、ResNet101和DenseNet中的一种。

7.根据权利要求1所述的人体识别跟踪方法，其特征在于，所述步骤300中的上采路径包括CBAM模块和特征融合模块，所述CBAM模块用于优化提取的图像特征，所述特征融合模块用于融合浅层特征即深层特征。

8.根据权利要求7所述的人体识别跟踪方法，其特征在于，所述步骤300中的Centernet网络的激活函数为h-swish和h-sigmoid。

9.根据权利要求1所述的人体识别跟踪方法，其特征在于，所述步骤500包括：

步骤520：在载体设备上进行训练，获得Centernet网络模型。