CN110490252A

CN110490252A - 一种基于深度学习的室内人数检测方法及系统

Info

Publication number: CN110490252A
Application number: CN201910764522.1A
Authority: CN
Inventors: 陈超波; 王召; 高嵩; 曹凯
Original assignee: Xian Technological University
Current assignee: Xian Technological University
Priority date: 2019-08-19
Filing date: 2019-08-19
Publication date: 2019-11-22
Anticipated expiration: 2039-08-19
Also published as: CN110490252B

Abstract

本发明涉及一种基于深度学习的室内人数检测方法及系统，该检测系统包括图像采集单元、模型计算单元和控制单元；所述图像采集单元实时采集室内图像；模型计算单元进行深度学习目标检测模型的加速计算；控制单元将图像采集单元的图像做预处理后交付模型计算单元进行计算并获取计算结果；检测方法包括步骤(1)、数据集制作；步骤(2)、深度学习目标检测模型的建立与训练；步骤(3)、座位使用情况分析。本发明实现了在边缘计算设备上使用深度学习目标检测统计出人数以及座位使用情况。

Description

一种基于深度学习的室内人数检测方法及系统

技术领域

本发明涉及属于视频监控的技术领域，具体涉及一种基于深度学习的室内人数检测方法及系统。

背景技术

场景理解作为智能视频监控领域的难点问题和核心内容，其目标是利用计算机视觉相关算法从自然场景中直接获取语义信息，近年来已经逐渐成为计算机视觉领域研究的核心问题。人数计数是场景理解的一个重要内容，随着办学规模越来越大，学生随之越来越多，作为高校硬件资源之一的自习室、图书馆存在着求过于供的情况，多数学校的自习室、图书馆经常一座难求，这些场所座位资源的合理分配问题是高校需要解决的难题。

目前，人数统计的方法大体可以分为两类：一类是基于视频序列的运动目标检测算法，将整个人体作为对象进行数量统计，此类方法首先对场景中的背景进行建模，后续帧与背景模型进行比较而提取出运动的前景区域，然后计算运动区域的面积、边缘轮廓等特征信息，再与人体的先验知识进行特征匹配，来估计人数。这种方法的精确度主要取决于先验知识，不稳定且准确率低。另一类是基于图像特征和深度学习的目标检测算法，该方法通过采集并学习图像中能够反映人体的特征来训练样本集，之后输出识别结果。这种方法的优点是精确度高，缺点是训练需要大量样本数据且比较耗时。深度学习目标检测算法有YOLO(You Only Look Once)、SSD(Single Shot MultiBox Detector)、Faster R-CNN，其中YOLO的目标检测速度较快，YOLOv3在Titan X GPU下每帧22ms，但在计算成本有限条件下可能数秒检测一帧，无法在实际中广泛使用。

发明内容

本发明提供一种基于深度学习的室内人数检测方法及系统，解决现有技术检测耗时长、不稳定且准确率低的问题。

为实现上述目的，本发明提出的技术方案是：

一种基于深度学习的室内人数检测方法，包括以下步骤：

步骤(1)、数据集制作：

采集深度学习目标检测样本集，样本集主要包括人头图像以及人全身的图像，并进行人工标注制作深度学习目标检测训练集，将这些数据经过目标检测模型进行训练；

步骤(2)、深度学习目标检测模型的建立与训练：

所述目标检测模型包括：①、基础特征提取部分：基础特征提取部分采用去掉最后全局平均池化层和1×1卷积输出层的MobileNetV2，并对第二层起的每个瓶颈层加入SENet结构；②、附加特征提取层部分：包括1×1和3×3卷积层，共计10层，对基础特征提取部分输出的特征图进行进一步卷积运算；③、原始包围框生成部分：在特征图上生成原始包围框，使用回归方法修正目标包围框特征图包括基础特征提取部分的输出层和附加特征提取层的各层；④、卷积预测部分：在上步选择的特征图上进行3×3卷积，完成卷积预测，输出目标类别以及位置包围框；上述卷积层均为深度可分离卷积，包括深度卷积和逐点卷积，深度卷积使用n×n卷积核对每个输入通道分别进行卷积，逐点卷积使用1×1卷积对深度卷积输出的特征图进行线性组合来构建新的特征图。

步骤(3)、座位使用情况分析：

预先设定相机视野内座位表，确定每个座位在图像中的位置；根据所述位置包围框比例，若某包围框长宽比小于2:1，则此位置的人为坐下姿态，计算其包围框中心点，判定此位置的座位被占用，当前室内人数即为包围框的数量。

进一步的，步骤(3)中，由于相机采集的图像存在近大远小的透视变形，通过透视变换消除座位的距离感。

上述基于深度学习的室内人数检测方法依托的检测系统，包括图像采集单元、模型计算单元和控制单元；所述图像采集单元实时采集室内图像；模型计算单元进行深度学习目标检测模型的加速计算；控制单元将图像采集单元的图像做预处理后交付模型计算单元进行计算并获取计算结果。

与现有技术相比，本发明的有益效果是：

本发明设计了一种轻量级的基于深度学习的室内人数检测方法及系统，该方法考虑实际室内存在遮挡以及人分布、姿态复杂的情况，设计了基于深度学习目标检测的人数检测模型，相比传统人数检测方法本方法检测准确率更高；本发明人数检测方法结合了轻量级卷积神经网络，在计算成本有限的边缘计算设备上仍有较高实时性。本发明在深度学习人数检测的基础上，对图像进一步处理计算出人的实际位置，并将位置信息映射到选座座位表中。

附图说明

图1为一种基于深度学习的室内人数检测方法的流程图；

图2为SSD结构图；

图3为MobileNetV2结构图；

图4为bottleneck-senet结构图；

图5为深度可分离卷积结构图；

图6为实例效果图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他元件、材料、方法所替代。

附图1为本发明一种基于深度学习的室内人数检测方法的流程图，主要包括以下部分：

步骤(1)、数据集制作

①在相机高度为4m处，采集不同光照亮度情况下的彩色室内图片，对图片中的人进行人工标注，矩形包围框标注出人所在的位置，最后生成包含类别以及包围框位置的真实数据。

②对上述数据进行预处理，进行零均值归一化：分别统计图片RGB三个通道每个通道的均值和方差，将每张图像数据经过公式(1)归一化像素值到[0,1]：

其中，i为图像的通道，对应RGB三个通道。μ_i为第i通道的像素均值，σ_i为第i通道的像素方差，X为原图像像素矩阵，Z为归一化的像素值矩阵。

③对上步归一化的图像再经过随机的旋转、缩放、裁剪、平移、对比度、色彩抖动等操作进行数据增广，将这些样本数据经过目标检测模型进行训练。

步骤(2)、深度学习目标检测模型建立与训练

在本发明改进的目标检测模型上使用上述数据集进行训练，模型基于SSD目标检测模型改进，如图2，主要包括四个部分：

①基础特征提取部分：基础特征提取部分采用去掉最后全局平均池化层和1×1卷积输出层的MobileNetV2替换原模型的VGG-16，MobileNetV2结构如图3，由于非线性激活函数ReLU在高维度下会较好地保留信息，而在低维度下会丢失特征信息，故在输入层应该增加特征维度之后再对其进行非线性变换，而在输出层应该对特征进行降维后使用线性激活函数以减少信息的丢失，故MobileNetV2中使用倒置残差的瓶颈层。本模型MobileNetV2在第二层起的每个瓶颈层加入SENet结构，如图4。SENet结构主要有Squeeze、Excitation和Reweight，其主要操作流程为：Squeeze操作：使用全局平均池化压缩每个通道的特征，将每个通道的特征压缩为一个数值；Excitation操作：通过控制两层全连接层的权值，来建模各个特征通道之间的相互依赖关系；Reweight操作：通过Sigmoid得到范围为0～1的归一化权重，最后对每个通道分别进行乘法操作将权值加权到原特征上，这样在轻量级网络的情况下增强了模型的特征选择能力。

②附加特征提取层部分依次包含3×3×1024卷积层、1×1×1024卷积层、1×1×256与3×3×512卷积层、三个1×1×128与3×3×256卷积层，共计10层，对基础特征提取部分输出的特征图进行进一步卷积运算；

③原始包围框使用卷积层来实现目标分类与目标包围框修正，需要在被选特征层的每个特征值位置上生成若干原始包围框，在原始包围框基础上使用回归方法来修正目标包围框结果。网络中不同层输出的特征图具有不同的感受野(Receptive Field)，即对原始图像不同的检测区域。通过设计各层的缩放因子来调整不同层内原始包围框的尺寸以适应不同大小的目标。假设共选m个特征层，则SSD模型对于第k层的缩放因子如公式(2)：

其中，s_min＝0.2，s_max＝0.9。设输入图像的高和宽分别为H_input和W_input，则该层对应与宽高比为r的原始包围框宽和高如式(3)所示：

④卷积预测部分在上步选择的特征图上进行3×3卷积，完成卷积预测，输出目标类别以及位置包围框。

上述卷积层均为深度可分离卷积，基本思想将卷积分成两个单独的层：深度卷积和逐点卷积，如图5。深度卷积使用n×n卷积核对每个输入通道分别进行卷积。逐点卷积使用1×1卷积对深度卷积输出的特征图进行线性组合来构建新的特征图。这种结构将空间相关性和通道相关性分离，相比传统的卷积，它可以减少约k²计算复杂度，当卷积核k＝3时，计算成本少8～9倍，而保留了准确率。

步骤(3)、座位使用情况分析

对上面输出的目标类别和位置包围框进行分析，统计类别为人的包围框得到当前室内人数。对类别的人的包围框进行判断，如果包围框长宽比小于2:1，则说明当前位置的人处于坐下姿态，计算该包围框的中心点。由于相机拍摄的图像存在近大远小的透视变形，所以通过OpenCV的getPerspectiveTransform函数获取透视变换的变换矩阵，使用OpenCV的warpPerspective函数实现透视变换，得到无距离感的包围框中心点，将其映射到已设定的座位表，得到设定的座位表中实时的座位使用情况，设定的座位表以及示例效果如图6。

对于本技术领域的普通技术人员来说，在不脱离本发明所属原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于深度学习的室内人数检测方法，其特征在于，包括以下步骤：

步骤(1)、数据集制作：

步骤(2)、深度学习目标检测模型的建立与训练：

所述目标检测模型包括：①、基础特征提取部分：基础特征提取部分采用去掉最后全局平均池化层和1×1卷积输出层的MobileNetV2，并对第二层起的每个瓶颈层加入SENet结构；②、附加特征提取层部分：包括1×1和3×3卷积层，共计10层，对基础特征提取部分输出的特征图进行进一步卷积运算；③、原始包围框生成部分：在特征图上生成原始包围框，使用回归方法修正目标包围框特征图包括基础特征提取部分的输出层和附加特征提取层的各层；④、卷积预测部分：在上步选择的特征图上进行3×3卷积，完成卷积预测，输出目标类别以及位置包围框；

步骤(3)、座位使用情况分析：

2.根据权利要求1所述基于深度学习的室内人数检测方法，其特征在于，步骤(3)中，由于相机采集的图像存在近大远小的透视变形，通过透视变换消除座位的距离感。

3.根据权利要求1所述基于深度学习的室内人数检测方法，其特征在于，该方法依托的检测系统，包括图像采集单元、模型计算单元和控制单元；所述图像采集单元实时采集室内图像；模型计算单元进行深度学习目标检测模型的加速计算；控制单元将图像采集单元的图像做预处理后交付模型计算单元进行计算并获取计算结果。