CN107679502B

CN107679502B - 一种基于深度学习图像语义分割的人数估计方法

Info

Publication number: CN107679502B
Application number: CN201710947732.5A
Authority: CN
Inventors: 林坚
Original assignee: Nanjing Walker Intelligent Traffic Technology Co Ltd
Current assignee: Nanjing Walker Intelligent Traffic Technology Co Ltd
Priority date: 2017-10-12
Filing date: 2017-10-12
Publication date: 2019-10-08
Anticipated expiration: 2037-10-12
Also published as: CN107679502A

Abstract

本发明公开了一种基于深度学习图像语义分割的人数估计方法，包括步骤1，构建训练样本集：包括原图及对应的掩码标签图；步骤2，选择或构建基于图像语义分割的深度网络模型；步骤3，训练样本集，得到人头位置预测网络模型；步骤4，输入待检测图片人头位置预测网络模型，得到掩码图片，根据掩码图片中点的位置和点的个数可得到待检测图片中的估计人数以及每个人的位置信息。本发明所述的方法相比于现有技术中大多采用的基于图像分块的估计方法，能够克服图像分块带来的统计误差；能够同时提供图像区域中的估计人数和每个行人在图像区域中的位置。

Description

一种基于深度学习图像语义分割的人数估计方法

技术领域

本发明涉及图像处理与计算机视觉领域,特别涉及一种基于深度学习图像语义分割的人数估计方法。

背景技术

人数估计在很多场景下均有应用价值，例如在公共安全方面，人群聚集过多易发生踩踏等事故，当人群密度达到一定规模则控制人数，例如在城市或商业规划方面，分析出感兴趣区域的人流量，高效规划商业布置；当然，如果能够确定区域内每个人所在的位置，就可以将更加细化的人群密度信息加以利用。

现有技术中有较多人群密度或人数估计方法，例如专利号为CN201610536882的中国发明专利申请，名称为一种基于卷积神经网络的人群密度估计方法，该方法基于mixed-Pooling的卷积神经网络模型，最终得到的结果是某个区域的密度等级（中、高、低），而不能给出区域内的估计行人个数；又例如专利号为CN201210434490的中国发明专利申请，名称为一种可跨摄像机的自适应人群密度估计方法，该方法也不能给出区域内人数估计。上述方法不能给出区域内估计人数，但也有些专利方法可以给出估计人数，但大多都需要先进行图像分块，再进行例如特征提取等处理，例如专利号为：CN201510336483（一种基于深度学习的密集人数估计方法）、CN201610065279（一种基于整数规划的人群密度估计方法）、CN201610374700（一种基于多特征回归式继承学习的人群密度估计方法）的中国发明专利申请，这些方法由于对图像进行了分块处理，从而分块后像素块与像素块间边缘的人头被切分，带来不小的误差，造成估计结果不够准确。并且，上述现有技术均不能解决如何给出区域内每个行人的分布位置这一技术问题。

发明内容

针对上述方法的不足，本发明的目的是提供一种基于深度学习图像语义分割的人数估计方法，该方法能克服图像分块带来的误差，相比于基于图像分块的估计方法更准确，且能同时给出每个行人在图像区域内的位置。

为解决上述技术问题，本发明采取以下技术方案：一种基于深度学习图像语义分割的人数估计方法，所述方法包括以下步骤:

步骤1，构建训练样本集：采集待检测区域的视频图像，对每一张样本图片，标注出图像中的人头部位置，生成对应的掩码图片作为其标签，掩码图片中每个光圈点对应一个人头，原图及对应的标签掩码图作为训练样本集；

步骤2，选择或构建基于图像语义分割的深度网络模型；

步骤3，将样本集送入步骤2中确定的深度学习网络模型进行训练，得到适用于该数据集场景的模型，称为人头位置预测网络模型；

步骤4，输入与训练样本图片长宽相同的待检测图片至步骤3中训练得到的人头位置预测网络模型，得到预测的掩码图片，根据掩码图片中光圈点的位置和光圈点的个数可得到待检测图片中的人数以及每个人的位置信息。

本发明有如下技术效果和优点：

1、相比于现有技术中大多采用的基于图像分块的估计方法，能够克服图像分块带来的统计误差。

2、能够同时提供图像区域中的估计人数和每个行人在图像区域中的位置。

3、可获取场景下特定区域内人数和划分密集等级等更加细化的行人密度信息。

4、遮挡严重情况也能得到很好的预测效果。

附图说明

图1是本发明方法流程示意图。

图2是原始图片和标注图片后得出的图片标签示例。

图3是原始segNet网络结构。

图4是改进segNet网络结构过程示意图。

图5是卷积操作转化为瓶颈结构的替换示意图。

图6是本发明改进后原始segNet网络结构。

图7是使用本发明所述的方法对图片进行预测的结果示意图。

具体实施例

为方便理解本发明，首先介绍图像分割的相关背景知识。在计算机视觉领域，图像分割（Image Segmentation）指的是将数字图像细分为多个图像子区域（即像素的集合，也被称作超像素）的过程。图像分割的目的是简化或改变图像的表示形式，使得图像更容易理解和分析。图像语义分割(Image Semantic Segmentation) 融合了传统的图像分割和目标识别两个任务，将图像分割成一组具有一定语义含义的块，并识别出每个分割块的类别，最终得到一幅具有逐像素语义标注的图像。目前, 图像语义分割是计算机视觉和模式识别领域非常活跃的研究方向，并在很多领域具有广泛的应用价值。

下面结合附图对本发明的技术方案进行详细说明。

附图1是本发明所述基于深度学习图像语义分割的人数估计方法的流程示意图，结合该图，该方法包括如下步骤：

步骤1，构建训练样本集：采集待检测区域的视频图像，对每一张样本图片标注出图像中的人头部位置，生成对应的掩码图片作为其标签，具体步骤为：

步骤11，对采集样本初步处理：对采集到的场景图片调整尺寸至合适大小，例如本实施例采集到的场景图片大小为960*540*3（3为图像深度，本实施例中图片为RGB格式），在此样本大小上训练会造成时间过长且训练完成的模型预测的实时性会比较差，因此需要调整图片尺寸至合适大小，可将其尺寸调整为480*256*3大小，图像的长宽优选为16的倍数更适宜计算需要，根据实际需要在调整后的图片上截取有效区域(即滤除图片中的无关区域),这样可减少无关区域的影响，如某些区域是不动景从而不可能存在行人，则滤除，也可消除如镜面带来的影响等，本实施例场景下没有无关区域，因此不进行该截取操作，当然其他场景下是否进行该截取操作依照实际场景。

步骤12，标注样本：对于每一张训练样本图片，对于图片中完整出现的人头部，标注其头部中心位置，对于遮挡的人头部，标注其在图片中可观察到的部分的中心位置，并将每个人头部的坐标信息写入到一个文本文件中。

步骤13：生成图片对应的标签：首先生成一张与样本图片长宽相同即480*256*1大小的像素值全为0的二值掩码图片，从步骤12中生成的文本文件中读取上述标注的人头部位置并映射到该掩码图片上，而后采用高斯模糊方法让每个位置形成一个小光圈点，且小光圈点的像素值为1，处理后的掩码图片即为原图片的标签，即本领域技术人员通常理解的groundtruth，可参见附图2。

步骤2 ：选择或构建基于图像语义分割的深度网络模型：根据实际情况选择适用来进行模型训练的基础网络模型，该类可用于图像语义分割的深度网络模型有SegNet、MSCNN、FCN等多种及基于它们的变形(即能够用于图像语义分割的深度网络模型都可在此步骤中被选择,由于该类深度网络模型的种类多且本领域技术人员可以在原有深度网络模型基础上做进一步变形或改进,因此在此无法穷尽列举模型种类)，由于在本实施例的场景下，SegNet的预测结果更佳，于是，在此确定基础深度网络模型为SegNet。需要注意的是,采用SegNet模型是由于SegNet的实验结果佳,因此在不同场景下,需要根据实际情况选择适宜的模型。

下面简单介绍原始的SegNet网络结构，可参见附图3，Input为输入的原图片，Output为输出的分割后的图像，其中不同颜色表示不同的类别，可以看出SegNet是一个对称网络，由中间白色池化（pooling）层与白色上采样（upsampling）层作为分界，左边是卷积提取高维特征，并通过pooling下采样使图片变小，称为编码（Encoder）过程；右边是反卷积与upsampling（此处反卷积与卷积没有区别），通过反卷积使得图像分类后特征得以重现，upsampling上采样使图像变大，称为解码（Decoder）过程；最后通过Softmax层，输出不同类别的最大值，从而达到目标识别的效果。

完整网络结构描述如下：

输入图像，本实施例中输入图像尺寸为480*256*3；

第一组卷积：使用两个连续的3*3*64的卷积对输入图像做卷积处理，提取特征；然后进行第一次pooling下采样操作。

第二组卷积：对第一次下采样后的特征映射图进行两个连续的3*3*128的卷积操作；然后进行第二次pooling下采样操作。

第三组卷积：对第二次下采样后的特征映射图进行三个连续3*3*256的卷积操作；然后进行第三次pooling下采样操作。

第四组卷积：对第三次下采样后的特征映射图进行三个连续3*3*512的卷积操作；然后进行第四次pooling下采样操作。

第五组卷积：对第四次下采样后的特征映射图进行三个连续3*3*512的卷积操作；然后进行第五次pooling下采样操作。

第一组反卷积：对第五次下采样后的特征映射图进行第一次上采样（upsampling）操作，使用三个3*3*512的卷积对上采样后的特征映射图进行卷积操作。

第二组反卷积：对第一组反卷积后的特征映射图进行第二次上采样操作，使用两个3*3*512的卷积对上采样后的特征映射图进行卷积操作，然后再跟随一个3*3*256的卷积操作。

第三组反卷积：对第二组反卷积后的特征映射图进行第三次上采样操作，使用两个3*3*256的卷积对上采样后的特征映射图进行卷积操作，然后再跟随一个3*3*128的卷积操作。

第四组反卷积：对第三组反卷积后的特征映射图进行第四次上采样操作，使用一个3*3*128的卷积对上采样后的特征映射图进行卷积操作，然后再跟随一个3*3*64的卷积操作。

第五组反卷积：对第四组反卷积后的特征映射图进行第五次上采样操作，使用一个3*3*64的卷积对上采样后的特征映射图进行卷积操作，然后再跟随一个3*3*1的卷积操作。最后衔接Softmax层，可以获得当前目标的类别的最大值。

输出为与输入图片长宽相同即480*256*1的掩码图片和类别的最大值。

其中上述最后一层的3*3*1卷积不需要进行RELU激活操作，其他卷积层的默认带有RELU激活操作。

作为一种优选方式，步骤2中的所述SegNet网络模型可在其原始基础上进行一些改进，在增加网络深度的同时减小了模型的参数量，而且模型预测的速度和精度均得到了提升。

参见附图4-6，对原始SegNet网络模型的改进步骤包括：

（1）去除第五组卷积和下采样操作以及对应的上采样和反卷积操作；

（2）减少每层卷积的通道数；

（3）修改第三组和第四组的卷积操作，将这两组的每个卷积都修改为瓶颈结构（Bottleneck Architectures），其中的Bottleneck Architectures来源于Resnet网络结构，最原始的来源可追溯到Network in Network结构，由于卷积后特征映射层通道数的变化，去除Bottleneck Architectures的残差操作，最后的替换形式为（参见附图5）：以3*3*256的卷积为例，将替换为1*1*64+3*3*64+1*1*256的卷积组合，这样模型的参数量得到了大大的降低，同时增加了网络深度；

（4）去除最后的Softmax层，这是由于本实施用例中由于只存在人这一类别，所以不需要对其进行目标的识别过程，网络直接输出480*256*1的特征映射图层，将该结果与作为标签的掩码图片保持格式的一致。

完整网络结构描述如下，并结合附图6：

输入图像，本实施例中输入图像尺寸为480*256*3；

第一组卷积：使用两个连续的3*3*32的卷积对输入图像做卷积处理，提取特征；然后进行第一次pooling下采样操作。

第二组卷积：对第一次下采样后的特征映射图进行两个连续的3*3*64的卷积操作；然后进行第二次pooling下采样操作。

第三组卷积：对第二次下采样后的特征映射图进行三个连续的输出通道为128的Bottleneck Architectures结构卷积操作；然后进行第三次下采样操作。

第四组卷积：对第三次下采样后的特征映射图进行三个连续的输出通道为256的Bottleneck Architectures结构卷积操作；然后进行第四次下采样操作。

第一组反卷积：对第四次下采样后的特征映射图进行；第一次上采样操作，使用两个3*3*256的卷积对上采样后的特征映射图进行卷积操作，然后再跟随一个3*3*128的卷积操作。

第二组反卷积：对第一组反卷积后的特征映射图进行第二次上采样操作，使用两个3*3*128的卷积对上采样后的特征映射图进行卷积操作，然后再跟随一个3*3*64的卷积操作。

第三组反卷积：对第二组反卷积后的特征映射图进行第三次上采样操作，使用一个3*3*64的卷积对上采样后的特征映射图进行卷积操作，然后再跟随一个3*3*32的卷积操作。

第四组反卷积：对第三组反卷积后的特征映射图进行第四次上采样操作，使用一个3*3*32的卷积对上采样后的特征映射图进行卷积操作，然后再跟随一个3*3*1的卷积操作。

输出图片长宽与输入图像相同即480*256*1的掩码图片。

步骤3：输入样本集，训练得出人头位置预测网络模型：将样本集（包括原图片集及对应的标签图片）作为步骤2中确定的深度学习网络结构的输入，训练适用于该数据集场景的预测模型，得到的模型称之为人头位置预测网络模型。

步骤4 ：输入待检测图片至步骤3中训练得到的人头位置预测网络模型进行预测，从模型输出的掩码图片中得到测试图片中的人头部位置以及行人的总数：使用步骤3中训练得到的人头位置预测网络模型对待检测图片进行预测，待检测图片需调整到与训练原图的长宽相同，模型输出的掩码图片可以看作为该图片的标签，掩码中的每个光圈点即为预测到的每个头部，根据掩码图片中光圈点的位置和光圈点的个数可知该预测图片中的人数和每个人在图片中的位置。

参见附图7，将预测位置全部映射至原图上，可在原图上看出人的头部位置。

另外，本发明还可以给出场景内行人的密度，也给出人群密度级别，即给出高、中、低等级别。

首先，划定得到检测场景的兴趣区域，滤除无关区域（例如不动景区域），然后测量兴趣区域的面积，将预测人数除以兴趣区域的面积即可得到该场景下区域的人群密度。

根据实际情况，将上述得出的人群密度按层级划分可得到人群密度级别，即高、中、低等级别，当然层级划分可以更细，不限于三级。

另外，本发明还可以给出场景下某个特定区域的人数和位置信息。具体为：读取预测得到的掩码图片中的该特定区域（即忽略其他不感兴趣区域）的人数和位置信息。

当然，本发明还可以给出场景内某个特定区域下行人的密度，也给出人群密度级别，即给出高、中、低等级别。即读取预测得到的掩码图片中的该特定区域的人数除以该特定区域的面积可得到人群密度，将该密度按层级划分可得到人群密度级别，即高、中、低等级别，当然层级划分可以更细，不限于三级。

本发明所述的一种基于深度学习图像语义分割的人数估计方法，具有如下优点：

4、遮挡严重情况也能得到很好的预测效果。

Claims

1.一种基于深度学习图像语义分割的人数估计方法，其特征在于包括以下步骤：

步骤1，构建训练样本集：采集待检测区域的视频图像，对每一张样本图片，标注出图像中的人头部位置，生成对应的掩码图片作为其标签，掩码图片中每个光圈点对应一个人头，原图及对应的标签掩码图作为训练样本集，所述原图为待检测区域的视频图像；

步骤2，选择或构建基于图像语义分割的深度网络模型；

步骤3，将样本集送入步骤2中确定的深度网络模型进行训练，得到适用于该训练样本集场景的模型，称为人头位置预测网络模型；

2.如权利要求1所述的一种基于深度学习图像语义分割的人数估计方法，其特征在于，所述步骤1包括如下步骤：

将所述原图缩放至合适长宽；

在该处理后原图上标注出人头部位置，并将每个人头部的坐标信息写入到一个文本文件中；

生成一张与处理后原图长宽相同的像素值全为0的二值掩码图片，从上述步骤中生成的文本文件中读取人头部位置并映射到该掩码图片上，而后采用高斯模糊方法让每个位置形成像素值为1的小光圈点，处理后的掩码图片即为原图片的标签。

3.如权利要求2所述的一种基于深度学习图像语义分割的人数估计方法，其特征在于，所述步骤1中还包括一个步骤：

在所述采集场景图片，缩放图片至合适长宽步骤后,滤除图片中的无关区域。

4.如权利要求1所述的一种基于深度学习图像语义分割的人数估计方法，其特征在于，所述步骤2中采用的图像语义分割的深度网络模型为SegNet模型。

5.如权利要求1所述的一种基于深度学习图像语义分割的人数估计方法，其特征在于，所述步骤2中采用的图像语义分割的深度网络模型为基于原始SegNet模型的改进模型。

6.如权利要求5所述的一种基于深度学习图像语义分割的人数估计方法，其特征在于，所述原始SegNet模型结构为：

第一组卷积：使用两个连续的3*3*64的卷积对输入图像做卷积处理，提取特征；然后进行第一次pooling下采样操作；

第二组卷积：对第一次下采样后的特征映射图进行两个连续的3*3*128的卷积操作；然后进行第二次pooling下采样操作；

第三组卷积：对第二次下采样后的特征映射图进行三个连续3*3*256的卷积操作；然后进行第三次pooling下采样操作；

第四组卷积：对第三次下采样后的特征映射图进行三个连续3*3*512的卷积操作；然后进行第四次pooling下采样操作；

第五组卷积：对第四次下采样后的特征映射图进行三个连续3*3*512的卷积操作；然后进行第五次pooling下采样操作；

第一组反卷积：对第五次下采样后的特征映射图进行第一次上采样（upsampling）操作，使用三个3*3*512的卷积对上采样后的特征映射图进行卷积操作；

第二组反卷积：对第一组反卷积后的特征映射图进行第二次上采样操作，使用两个3*3*512的卷积对上采样后的特征映射图进行卷积操作，然后再跟随一个3*3*256的卷积操作；

第三组反卷积：对第二组反卷积后的特征映射图进行第三次上采样操作，使用两个3*3*256的卷积对上采样后的特征映射图进行卷积操作，然后再跟随一个3*3*128的卷积操作；

第四组反卷积：对第三组反卷积后的特征映射图进行第四次上采样操作，使用一个3*3*128的卷积对上采样后的特征映射图进行卷积操作，然后再跟随一个3*3*64的卷积操作；

第五组反卷积：对第四组反卷积后的特征映射图进行第五次上采样操作，使用一个3*3*64的卷积对上采样后的特征映射图进行卷积操作，然后再跟随一个3*3*1的卷积操作；

最后衔接Softmax层，可以获得当前目标的类别的最大值；

所述基于原始SegNet模型的改进方法包括：

（2）减少每层卷积的通道数；

（3）修改第三组和第四组的卷积操作，将这两组的每个卷积都替换为瓶颈结构；

（4）去除Softmax层。

7.如权利要求6所述的一种基于深度学习图像语义分割的人数估计方法，其特征在于，改进后的SegNet模型具体结构为：

输入图像；

第一组卷积：使用两个连续的3*3*32的卷积对输入图像做卷积处理，提取特征；然后进行第一次下采样操作；

第二组卷积：对第一次下采样后的特征映射图进行两个连续的3*3*64的卷积操作；然后进行第二次下采样操作；

第三组卷积：对第二次下采样后的特征映射图进行三个连续的输出通道为128的瓶颈结构卷积操作；然后进行第三次下采样操作；

第四组卷积：对第三次下采样后的特征映射图进行三个连续的输出通道为256的瓶颈结构卷积操作；然后进行第四次下采样操作；

第一组反卷积：对第四次下采样后的特征映射图进行第一次上采样操作，使用两个3*3*256的卷积对上采样后的特征映射图进行卷积操作，然后再跟随一个3*3*128的卷积操作；

第二组反卷积：对第一组反卷积后的特征映射图进行第二次上采样操作，使用两个3*3*128的卷积对上采样后的特征映射图进行卷积操作，然后再跟随一个3*3*64的卷积操作；

第三组反卷积：对第二组反卷积后的特征映射图进行第三次上采样操作，使用一个3*3*64的卷积对上采样后的特征映射图进行卷积操作，然后再跟随一个3*3*32的卷积操作；

第四组反卷积：对第三组反卷积后的特征映射图进行第四次上采样操作，使用一个3*3*32的卷积对上采样后的特征映射图进行卷积操作，然后再跟随一个3*3*1的卷积操作；

输出与输入图片长宽相同的二值掩码图片。

8.如权利要求1-7任一项所述的一种基于深度学习图像语义分割的人数估计方法，其特征在于，利用本方法步骤4中得到的掩码图片，可得到检测场景下人群密度，和/或给出人群密度级别，具体包括如下步骤：

划定得到检测场景的兴趣区域，滤除无关区域；

测量兴趣区域的面积，将从掩码图片中得到的人数除以兴趣区域的面积，即可得到该场景下区域的人群密度；

将上述步骤得出的人群密度进行层级划分，最后给出人群密度级别。

9.如权利要求1-7任一项所述的一种基于深度学习图像语义分割的人数估计方法，其特征在于，利用本方法步骤4中得到的掩码图片，可得到检测场景下某一特定区域下人数和位置信息，和/或人群密度，和/或给出人群密度级别，具体包括如下步骤：

划定得到检测场景的特定区域，读取掩码图片中的该特定区域中人数和个人对应的位置信息，即可得到该特定区域下人数和位置信息；

测量所述特定区域的面积，将预测人数除以兴趣区域的面积，即可得到该特定区域的人群密度；