CN112507904A

CN112507904A - 一种基于多尺度特征的教室人体姿态实时检测方法

Info

Publication number: CN112507904A
Application number: CN202011473933.4A
Authority: CN
Inventors: 高陈强; 叶盛; 钱志华; 陈欣悦
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2021-03-16
Anticipated expiration: 2040-12-15
Also published as: CN112507904B

Abstract

本发明涉及基于多尺度特征的教室人体姿态实时检测方法，属于图像处理与计算机视觉技术领域；所述方法包括基于单阶段目标检测的SSD网络，将教室图像通过分块处理进行数据增强，通过VGG‑16网络提取图像的基础特征，并采用RFB模块提取级联的多尺度特征图；通过多尺度特征增强分支，将原图下采样且送入到多尺度特征增强模块学习多尺度信息，并通过点乘的方式与级联的多尺度特征图进行融合；通过特征自适应融合模块将浅层的细粒度特征与高层语义特征进行互补融合，以提升网络对相似姿态类别的鉴别能力，最后将自适应融合后的特征图进行分类和回归；在保证实时的前提下，解决了在人体密度较大，遮挡较为严重的教室场景的人体姿态检测问题。

Description

一种基于多尺度特征的教室人体姿态实时检测方法

技术领域

本发明属于图像处理与计算机视觉技术领域，涉及一种基于多尺度特征的教室人体姿态实时检测方法。

背景技术

学生的姿态信息对教学管理以及教学评估有着重要的意义。如果一名老师的课堂很成功，那么课堂上学生几乎都会端坐着认真听讲，或者站起来回答问题与教师互动。如果一名课堂不足以引起学生的兴趣，通常学生会趴着玩手机或者趴在桌上睡觉。此外，在考场中，我们可通过学生是否站起身来或者趴在桌上等姿态状态判断学生是否有作弊嫌疑。但通常对于课堂以及考场的管理和评估工作都是由督导人工走访抽查完成，十分耗时低效，因此运用现有的计算机技术解放人工具有重要的意义。

姿态检测是指通过运用深度学习算法解码图像中人体姿态信息。随着深度学习算法的快速演变推进，基于深度学习的人体姿态检测算法在计算机视觉中有着广泛的应用。而随着教室监控摄像头的普及，人工智能技术在教学实践中的广泛应用，基于教室监控场景下的姿态检测算法逐渐受到关注，通过采用计算机视觉技术获取某一个时刻点学生在课堂上的姿态状态信息，为评估课堂教学质量提供了一项便捷且低成本的途径。

现有的2D多人姿态估计方法大多基于人体关键点信息，采用自顶向下的方法或者自底向上的方法估计人体姿态，近年来取得了较大进展。然而对于教室场景的目标，人群十分密集，前后排遮挡以及下半身遮挡普遍较为严重，且由于监控摄像头成像距离的不同，教室前后目标分辨率差异较大。在教室场景中，现有的基于关键点的姿态估计方法的可靠性较低，因此目标检测的方法更适合解决教室场景的人体姿态状态分析任务。而如何使用目标检测技术以提高人体姿态检测的准确率和时间效率具有重要研究意义。

发明内容

基于现有技术存在的问题，本发明提出一种基于多尺度特征的教室人体姿态实时检测方法，包括以下步骤：

S1、采集教室监控图像，并对其进行标记；

S2、对标记后的原始图像进行数据增强；

S3、以单阶段目标网络SSD网络作为基础结构，将原始图像与增强后的图像调整到相同大小，输入到骨干网络VGG-16中，并使用RFB模块替换SSD网络的特征输出层，并通过特征输出层提取出不同尺度的特征图；

S4、对增强后的原始图像通过下采样，并对下采样的图像提取出多尺度的上下文特征；

S5、将得到的多尺度的上下文特征注入到不同尺度的特征图中，并通过尺度匹配获得多尺度特征；

S6、将获得的多尺度特征基于自适应权重的特征融合方式进行融合；

S7、对融合后的多尺度特征进行检测，输出教室监控图像中的人体姿态的检测框。

本发明的有益效果在于：本发明采用单阶段的目标检测框架，在速度和精度上具有较好地权衡。通过多尺度特征增强分支和特征自适应融合模块有效解决了多尺度目标的检测效果差的问题，同时通过特征自适应融合模块增加了细粒度特征和高层语义特征的鉴别能力，对特征相似的类别具有较好的鉴别效果。本发明基于目标检测框架解决教室场景下的姿态检测任务，使得在背景复杂，人群密集度高的教室场景能够快速准确的检测出目标的姿态。

附图说明

图1是本发明中教室人体姿态实时检测方法的逻辑框架图；

图2本实施例中一种基于多尺度特征的教室人体姿态实时检测方法的流程图；

图3是本发明实施例中的卷积神经网络框架结构；

图4是本发明实施例中的多尺度特征增强分支结构图；

图5是本发明本实施例的一种多尺度特征增强模块的结构图；

图6是本发明的完整的特征融合示意图；

图7是本发明实施例所采用的尺度缩放的规则图；

图8是本发明测试结果示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方法进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出一种基于多尺度特征的教室人体姿态实时检测方法，本发明以单阶段目标检测网络SSD(Liu W，Anguelov D，Erhan D，et al.Ssd：Single shot multiboxdetector[C]//European conference on computer vision.Springer，Cham，2016：21-37.)为基础框架，首先，先说明本发明的逻辑，图1是本发明中教室人体姿态实时检测方法的逻辑框架图，如图1所示，本发明主要包括数据采集与标注，对数据的增强，将增强后的数据采用多尺度特征增强分支提取出特征，通过卷积神经网络提取出特征；将两者的特征进行融合，并对浅层和深层特征采用特征自适应融合策略，最后对这些数据分类输出该数据所属的类别，以及对这些数据进行回归操作输出该数据所对应的值。

图2本实施例中一种基于多尺度特征的教室人体姿态实时检测方法的流程图，如图2所示，所述检测方法包括以下步骤：

S1、采集教室监控图像，并对其进行标记；

在教室布置有监控摄像头，用于采集教室内的监控摄像，将采集到的教室监控图像作为人工标准，标注的信息可以包括但不限于目标框Bounding Box、姿态类别标签。

进一步的，可以所述标注的信息的数据标注格式可以采用VOC数据集的格式，标注文件存储为xml文件。

S2、对原始图像进行数据增强。数据增强方式主要是对原始图像进行分块处理；

对标记后的原始图像进行数据增强包括对标记后的原始图像进行分块处理，设置出分块比，按照分块比对标记后的原始图像进行裁剪，并裁剪出若干分块，设置出舍去比例，如果分块中的目标框在边界上的比例大于所述舍去比例，则保留目标框且更新目标框的边界，如果分块中的目标框在边界上的比例小于所述舍去比例，则舍去在边界上的目标框。

举个例子，假设原图大小为[W，H]，设定分块比例为[rw，rh](比例可根据实际应用调整，其中0.5＜rw＜0.8且0.5＜rh＜0.8)。将原图裁剪为[(0，rw·W)，(0，rh·H)]，[((1-rw)·W，W)，(0，rh·H)]，[(0，rw·W)，((1-rh)·H，H)]，[((1-rw)·W，W)，((1-rh)·H，H)]四个部分。其中，对于边界上的目标，设定舍去比例为0.6，如目标框在边界上的比例大于0.6，则保留目标且更新目标框的边界，如目标框在边界上的比例小于0.6，则舍弃在边界上的目标框。同等，对标注文件xml文件进行相应处理。

为了方便说明，本实施例中以尺寸为512×512进行说明，将原始图像与增强后的图像输入尺度为512×512的SSD网络作为基础结构，采用VGG-16(Simonyan K，ZissermanA.Very deep convolutional networks for large-scale image recognition[J].arXivpreprint arXiv：1409.1556，2014.)网络作为骨干网络。本发明同原始的SSD网络一样，将fc6层和fc7层替换成卷积层，将pooling5层的大小从2×2改为3×3，并采用空洞卷积，去除掉了所有的dropout层，并移除掉了fc8层。图3给出了本实施例的卷积神经网络框架结构，如图3所示，在传统的VGG-16网络作为骨干网络的基础上，本发明对整个SSD网络进行了改进，将其中的特征输出层使用RFB网络代替，也即是替换为对小尺度目标感受野敏感的RFB-s模块(Liu S，Huang D.Receptive field block net for accurate and fast objectdetection[C]//Proceedings of the European Conference on Computer Vision(ECCV).2018：385-400.)中以获取多尺度的上下文特征，并通过RFB-s模块中的空洞卷积提取丰富的上下文信息。且采用对其他尺度目标感受野敏感的RFB模块替换掉后面3层特征输出层。

将RFB-s模块所输出的特征图f₁依次送入到RFB-1、RFB-2、RFB-3模块中以获取不同尺度的特征图f₂，f₃，f₄。其中RFB-s模块采用膨胀因子分别为1，3，3，5的空洞卷积，RFB-1、RFB-2和RFB-3采用膨胀因子为1，3，5的空洞卷积。

本实施例采用4个特征输出层作为预测，其特征图大小分别为64×64，32×32，16×16，8×8，也就是说，RFB-s模块对应第一个特征图大小为64×64，其余三个RFB模块分别对应第二个特征图大小为32×32、第三个特征图大小为16×16和第四个特征图大小为8×8。

本实施例将对步骤S2数据增强后的图像通过多尺度特征增强分支。如图4所示，首先对512×512的原始图像进行1/8下采样，再将下采样的图像输入到多尺度特征增强模块中以获取多尺度的上下文特征；

进一步的，如图5所示，本实施例中可以首先通过3个最大池化层进行下采样1/8倍，使其与第一个特征预测层的特征图保持一样的长宽尺度(64×64)，接着将输入的下采样图像通过多尺度特征增强模块。

图5给出了本实施例的一种多尺度特征增强模块的结构图，其中多尺度特征增强模块如图5所示，首先通过1个3×3卷积和1个1×1的卷积得到初始特征的投影，然后再将初始特征的投影通过4个1×1的卷积分裂为4个分支，并在分支1和分支4分别采用多个1×1的卷积改变通道数，在分支2和3分别采用核为1×3的卷积和核为3×1的卷积以减小计算量，并在这4个分支中采用不同的感受野的空洞卷积捕获多尺度特征，其中设置空洞卷积的膨胀因子为1，3，3和5，最后将不同分支的特征逐渐拼接起来。通过不断的分裂聚合操作，可增强特征的多尺度信息。

其中，图6给出了完整的特征融合示意图，如图6所示，本发明需要对输出的不同尺度的特征图与不同尺度的上下文特征进行融合；将所得到的多尺度的上下文特征缓缓注入到所提取到的多尺度的特征图f₁，f₂，f₃，f₄中，其中通过核为3×3步长为2的卷积层进行下采样操作以保证特征图的尺度匹配。在注入的过程中，通过向量点乘操作对同一级的特征进行匹配操作，这里的同一级指的是尺寸相同的特征，例如第一特征图的尺寸为64×64，那么对应与第一个分支的上下文特征即尺寸为64×64进行点乘匹配，此时所获得特征即为增强后的多尺度特征x₁，x₂，x₃，x₄。

本发明通过点乘的方式与级联的多尺度特征图进行融合以获取上更丰富的尺度特征和上下文信息，以解决小目标密集所导致的检测效果差的问题。

本实施例需要将步骤S5所获得的多尺度特征x₁，x₂，x₃，x₄通过自适应特征融合模块以充分利用高层特征的语义信息和底层的细粒度特征；

其中，所述自适应特征融合模块的实现过程具体包括：

S61、将不同尺度的特征图进行尺度缩放操作，其中尺度缩放的规则如图7所示：对于特征x_s(s为特征所在层位置)将其他位置的特征x_n分别通过1个1×1的卷积改变其通道数与x_s保持一致，再通过上采样或下采样的操作将其分辨率转换到与x_s保持一致。其中上采样操作通过简单的线性插值操作实现，对于1/2下采样直接采用步长为2，核为3×3卷积实现，对于1/4下采样则先通过步长为2的最大池化操作再通过步长为2，核为3×3卷积操作实现，对于1/8上采样则通过两次步长为2的最大池化操作，再通过步长为2，核为3×3卷积操作实现；

S62、将尺度缩放后的特征进行带权重因子的自适应融合，其中融合的权重因子可通过网络后向传播梯度下降进行自动更新；

设尺度缩放后的特征为X＝{x₁，x₂，x₃，x₄}，其分辨率分别为64×64，32×32，16×16，8×8，其通道数分别为512，1024，512，256。将x_n→s(i，j)表示为从特征层n的特征转换特征层s后位置为(i，j)的特征通道向量，其自适应融合后对于特征层位置为s的可表示为：

其中，y_s(i，j)是融合后位置为(i，j)的特征通道向量。β_n，s(i，j)(n∈{1，2，3，4})代表不同层特征图的空间权重因子，且这三个权重因子满足

因此本发明将权重因子β_n，s(i，j)(n∈{1，2，3})用一个softmax函数定义：

其中，

为softmax函数的控制参数。本实施例可以采用1×1的卷积层从x_1→s，x_2→s，x_3→s，x_4→s计算标量β_n，s(i，j)(n∈{1，2，3，4})的权重。可得到{x₁，x₂，x₃，x₄}通过自适应融合后的特征{y₁，y₂，y₃，y₄}，也就是说当特征从n层融合到s层x_1→s(i，j)，x_2→s(i，j)，x_3→s(i，j)，x_4→s(i，j)时，需要乘以权重因子β_n，s(i，j)，而所述权重因子采用了softmax函数进行表示，每一个β_n，s(i，j)对应一个控制参数，所述

是根据softmax分类器的特征向量而得。本发明实施例所采用的特征融合的权重参数会随着网络的后向传播更新。相比于直接进行相加或者拼接操作，或者手动设置融合权重参数，自适应特征融合的方式可根据梯度下降的趋势学习其它层对于当前层特征的权重因子，从而使得融合后的特征既能在浅层特征保持丰富的细节信息，还能在深层特征学习丰富的语义信息，从而提升所提取特征的对不同姿态类别的鉴别能力。

本实施例需要将步骤S6所获得的融合特征进行预测，设预测姿态类别为classes，生成的先验框个数为anchors，在4个分类预测特征图上生成不同尺度大小的anchor，并通过分类卷积层输出classes×anchors维度的分类得分向量，通过回归卷积层输出4×anchors维度的回归向量。

对于先验框的设定，针对4个特征预测层，对于特征图的每一个格子，anchor的个数均为6。设定网络训练的batch size为32，总的迭代次数为300个epoche，对于前5个epoche，采用warmup策略逐渐将学习率从10-6增大到4×10^-3，之后将学习率调整为原有的SSD网络采用的学习率10^-3，在第150个epoche和第200个epoche，学习率分别减小为原来的1/10，设定权重衰减因子为0.0005，动量因子设置为0.9。

网络在训练过程中，自动计算anchor和ground truth的交并比(IOU)，其anchor匹配原则为：对于图片中每个ground truth，找到与其IOU最大的anchor，该anchor与其匹配并判定其为正样本，反之，若一个anchor没有与任何ground truth进行匹配，则该anchor与背景匹配，则判定为负样本。对于剩余的未匹配anchor，若某个ground truth的IOU大于阈值0.5，那么该anchor也与这个ground truth进行匹配。

网络的损失函数包括回归损失和分类损失，如式(3)所示：

其中N为anchor的正样本数量，c为类别置信度预测值。l为先验框的所对应边界框的位置预测值，而g是ground truth的位置参数。α为权重系数，设置为1。

测试过程则自动根据网络参数进行前向传播，从而预测出人体所在位置坐标信息和类别信息，由于同一个目标预测的anchor可能有多个，因此采用NMS算法滤掉重复的anchor，NMS的阈值可根据实际场景调整，参考设置为0.45。经过NMS滤除后的结果则为本发明方法最终的姿态检测结果，其示例检测结果如图8所示。根据现有标注的数据集类别(坐着、趴着、站着)，本发明可准确地检测人体密集且遮挡严重场景的人体姿态信息，其中第一框体代表趴着的姿态，第二框体代表坐着的姿态，第三框体代表站着的姿态，由于图片限制，本实施例中的不同框体可采用为不同线性的框进行表示，本领域技术人员可以做出相应的理解。本发明所涉及的人体姿态检测并不局限于示例3种姿态，在图像的标注可获取的前提下，可检测更多类别的姿态信息。

总而言之，本发明基于单阶段目标检测的SSD网络，将教室图像通过分块处理进行数据增强，与传统技术的不同之处在于，不同于依赖关键点的姿态估计方法，本发明是采用目标检测方法进行姿态检测。通过VGG-16网络提取图像的基础特征，并采用RFB模块提取级联的多尺度特征图；通过多尺度特征增强分支，将原图下采样且送入到多尺度特征增强模块学习多尺度信息，并通过点乘的方式与级联的多尺度特征图进行融合以获取上更丰富的尺度特征和上下文信息，以解决小目标密集所导致的检测效果差的问题；通过特征自适应融合模块将浅层的细粒度特征与高层语义特征进行互补融合，以提升网络对相似姿态类别的鉴别能力，最后将自适应融合后的特征图进行分类和回归；在保证实时的前提下，解决了在人体密度较大，遮挡较为严重的教室场景的人体姿态检测问题。

在本发明的描述中，需要理解的是，术语“同轴”、“底部”、“一端”、“顶部”、“中部”、“另一端”、“上”、“一侧”、“顶部”、“内”、“外”、“前部”、“中央”、“两端”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明中，除非另有明确的规定和限定，术语“安装”、“设置”、“连接”、“固定”、“旋转”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于多尺度特征的教室人体姿态实时检测方法，其特征在于，所述方法包括：

S1、采集教室监控图像，并对其进行标记；

S2、对标记后的原始图像进行数据增强；

S3、以单阶段目标网络SSD网络作为基础结构，将原始图像与增强后的图像调整到相同大小，输入到骨干网络VGG-16中，使用RFB模块替换SSD网络的特征输出层，并通过特征输出层提取出不同尺度的特征图；

2.根据权利要求1所述的一种基于多尺度特征的教室人体姿态实时检测方法，其特征在于，所述对标记后的原始图像进行数据增强包括对标记后的原始图像进行分块处理，设置分块比，按照分块比对标记后的原始图像进行裁剪，并裁剪出若干分块，设置舍去比例，如果分块中的目标框在边界上的比例大于所述舍去比例，则保留目标框且更新目标框的边界，如果分块中的目标框在边界上的比例小于所述舍去比例，则舍去在边界上的目标框。

3.根据权利要求1所述的一种基于多尺度特征的教室人体姿态实时检测方法，其特征在于，步骤S3中的骨干网络中VGG-16的全连接层fc6层和fc7层替换成卷积层，将pooling5层的大小从2×2改为3×3，去除掉了所有的dropout层，并移除掉了fc8层，从而提取出图像的基础特征。

4.根据权利要求1所述的一种基于多尺度特征的教室人体姿态实时检测方法，其特征在于，所述提取出不同尺度的特征图包括骨干网络输出的基础特征输入到RFB-s模块中得到第一个特征图，将所述第一个特征图依次输入到其他RFB模块中，获取到不同尺度的特征图。

5.根据权利要求1所述的一种基于多尺度特征的教室人体姿态实时检测方法，其特征在于，所述对下采样的图像提取出多尺度的上下文特征包括得到初始特征的投影，将所述初始特征的投影分裂为多个分支，并将第一个分支和最后一个分支采用多个1×1的卷积改变通道数；在中间几个分支采用非对称卷积核；并在这几个分支中采用不同的感受野的空洞卷积捕获多尺度的上下文特征，将不同分支的特征逐渐拼接起来。

6.根据权利要求1所述的一种基于多尺度特征的教室人体姿态实时检测方法，其特征在于，所述将得到的多尺度的上下文特征注入到不同尺度的特征图中，并通过尺度匹配获得多尺度特征包括将提取出的上下文特征注入到特征图中，通过向量点乘操作对同一级的上下文特征和特征图进行融合操作；并通过下采样操作完成尺度匹配。

7.根据权利要求1所述的一种基于多尺度特征的教室人体姿态实时检测方法，其特征在于，所述将获得的多尺度特征基于自适应权重的特征融合方式进行融合包括将不同尺度的特征进行尺度缩放，将尺度缩放后的特征进行自适应权重融合，表示为：

其中，y_s(i，j)表示特征层s融合后位置为(i，j)的特征通道向量；β_n，s(i，j)表示特征层n转换特征层s后的空间权重因子，且

N表示特征层层数，即特征图个数；x_n→s(i，j)表示为从特征层n的特征转换特征层S后位置为(i，j)的特征通道向量。

8.根据权利要求1或7所述的一种基于多尺度特征的教室人体姿态实时检测方法，其特征在于，所述自适应权重的权重因子的计算公式表示为：

其中，β_n，s(i，j)表示特征层n转换特征层s后的空间权重因子；

表示softmax函数的控制参数。

9.根据权利要求8所述的一种基于多尺度特征的教室人体姿态实时检测方法，其特征在于，采用1×1的卷积层计算softmax函数的控制参数

10.根据权利要求1所述的一种基于多尺度特征的教室人体姿态实时检测方法，其特征在于，所述对融合后的多尺度特征进行检测，输出教室监控图像中的人体姿态的检测框包括输入融合后的多尺度特征，设置出预测的姿态类别个数以及生成的先验框个数，在每个分类预测特征图上生成不同尺度大小的锚，并通过分类卷积层输出多个维度的分类得分向量，通过回归卷积层输出若干维度的回归向量。