CN107679502B - 一种基于深度学习图像语义分割的人数估计方法 - Google Patents

一种基于深度学习图像语义分割的人数估计方法 Download PDF

Info

Publication number
CN107679502B
CN107679502B CN201710947732.5A CN201710947732A CN107679502B CN 107679502 B CN107679502 B CN 107679502B CN 201710947732 A CN201710947732 A CN 201710947732A CN 107679502 B CN107679502 B CN 107679502B
Authority
CN
China
Prior art keywords
convolution
sampling
group
feature mapping
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710947732.5A
Other languages
English (en)
Other versions
CN107679502A (zh
Inventor
林坚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Walker Intelligent Traffic Technology Co Ltd
Original Assignee
Nanjing Walker Intelligent Traffic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Walker Intelligent Traffic Technology Co Ltd filed Critical Nanjing Walker Intelligent Traffic Technology Co Ltd
Priority to CN201710947732.5A priority Critical patent/CN107679502B/zh
Publication of CN107679502A publication Critical patent/CN107679502A/zh
Application granted granted Critical
Publication of CN107679502B publication Critical patent/CN107679502B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种基于深度学习图像语义分割的人数估计方法,包括步骤1,构建训练样本集:包括原图及对应的掩码标签图;步骤2,选择或构建基于图像语义分割的深度网络模型;步骤3,训练样本集,得到人头位置预测网络模型;步骤4,输入待检测图片人头位置预测网络模型,得到掩码图片,根据掩码图片中点的位置和点的个数可得到待检测图片中的估计人数以及每个人的位置信息。本发明所述的方法相比于现有技术中大多采用的基于图像分块的估计方法,能够克服图像分块带来的统计误差;能够同时提供图像区域中的估计人数和每个行人在图像区域中的位置。

Description

一种基于深度学习图像语义分割的人数估计方法
技术领域
本发明涉及图像处理与计算机视觉领域,特别涉及一种基于深度学习图像语义分割的人数估计方法。
背景技术
人数估计在很多场景下均有应用价值,例如在公共安全方面,人群聚集过多易发生踩踏等事故,当人群密度达到一定规模则控制人数,例如在城市或商业规划方面,分析出感兴趣区域的人流量,高效规划商业布置;当然,如果能够确定区域内每个人所在的位置,就可以将更加细化的人群密度信息加以利用。
现有技术中有较多人群密度或人数估计方法,例如专利号为CN201610536882的中国发明专利申请,名称为一种基于卷积神经网络的人群密度估计方法,该方法基于mixed-Pooling的卷积神经网络模型,最终得到的结果是某个区域的密度等级(中、高、低),而不能给出区域内的估计行人个数;又例如专利号为CN201210434490的中国发明专利申请,名称为一种可跨摄像机的自适应人群密度估计方法,该方法也不能给出区域内人数估计。上述方法不能给出区域内估计人数,但也有些专利方法可以给出估计人数,但大多都需要先进行图像分块,再进行例如特征提取等处理,例如专利号为:CN201510336483(一种基于深度学习的密集人数估计方法)、CN201610065279(一种基于整数规划的人群密度估计方法)、CN201610374700(一种基于多特征回归式继承学习的人群密度估计方法)的中国发明专利申请,这些方法由于对图像进行了分块处理,从而分块后像素块与像素块间边缘的人头被切分,带来不小的误差,造成估计结果不够准确。并且,上述现有技术均不能解决如何给出区域内每个行人的分布位置这一技术问题。
发明内容
针对上述方法的不足,本发明的目的是提供一种基于深度学习图像语义分割的人数估计方法,该方法能克服图像分块带来的误差,相比于基于图像分块的估计方法更准确,且能同时给出每个行人在图像区域内的位置。
为解决上述技术问题,本发明采取以下技术方案:一种基于深度学习图像语义分割的人数估计方法,所述方法包括以下步骤:
步骤1,构建训练样本集:采集待检测区域的视频图像,对每一张样本图片,标注出图像中的人头部位置,生成对应的掩码图片作为其标签,掩码图片中每个光圈点对应一个人头,原图及对应的标签掩码图作为训练样本集;
步骤2,选择或构建基于图像语义分割的深度网络模型;
步骤3,将样本集送入步骤2中确定的深度学习网络模型进行训练,得到适用于该数据集场景的模型,称为人头位置预测网络模型;
步骤4,输入与训练样本图片长宽相同的待检测图片至步骤3中训练得到的人头位置预测网络模型,得到预测的掩码图片,根据掩码图片中光圈点的位置和光圈点的个数可得到待检测图片中的人数以及每个人的位置信息。
本发明有如下技术效果和优点:
1、相比于现有技术中大多采用的基于图像分块的估计方法,能够克服图像分块带来的统计误差。
2、能够同时提供图像区域中的估计人数和每个行人在图像区域中的位置。
3、可获取场景下特定区域内人数和划分密集等级等更加细化的行人密度信息。
4、遮挡严重情况也能得到很好的预测效果。
附图说明
图1是本发明方法流程示意图。
图2是原始图片和标注图片后得出的图片标签示例。
图3是原始segNet网络结构。
图4是改进segNet网络结构过程示意图。
图5是卷积操作转化为瓶颈结构的替换示意图。
图6是本发明改进后原始segNet网络结构。
图7是使用本发明所述的方法对图片进行预测的结果示意图。
具体实施例
为方便理解本发明,首先介绍图像分割的相关背景知识。在计算机视觉领域,图像分割(Image Segmentation)指的是将数字图像细分为多个图像子区域(即像素的集合,也被称作超像素)的过程。图像分割的目的是简化或改变图像的表示形式,使得图像更容易理解和分析。图像语义分割(Image Semantic Segmentation) 融合了传统的图像分割和目标识别两个任务,将图像分割成一组具有一定语义含义的块,并识别出每个分割块的类别,最终得到一幅具有逐像素语义标注的图像。目前, 图像语义分割是计算机视觉和模式识别领域非常活跃的研究方向,并在很多领域具有广泛的应用价值。
下面结合附图对本发明的技术方案进行详细说明。
附图1是本发明所述基于深度学习图像语义分割的人数估计方法的流程示意图,结合该图,该方法包括如下步骤:
步骤1,构建训练样本集:采集待检测区域的视频图像,对每一张样本图片标注出图像中的人头部位置,生成对应的掩码图片作为其标签,具体步骤为:
步骤11,对采集样本初步处理:对采集到的场景图片调整尺寸至合适大小,例如本实施例采集到的场景图片大小为960*540*3(3为图像深度,本实施例中图片为RGB格式),在此样本大小上训练会造成时间过长且训练完成的模型预测的实时性会比较差,因此需要调整图片尺寸至合适大小,可将其尺寸调整为480*256*3大小,图像的长宽优选为16的倍数更适宜计算需要,根据实际需要在调整后的图片上截取有效区域(即滤除图片中的无关区域),这样可减少无关区域的影响,如某些区域是不动景从而不可能存在行人,则滤除,也可消除如镜面带来的影响等,本实施例场景下没有无关区域,因此不进行该截取操作,当然其他场景下是否进行该截取操作依照实际场景。
步骤12,标注样本:对于每一张训练样本图片,对于图片中完整出现的人头部,标注其头部中心位置,对于遮挡的人头部,标注其在图片中可观察到的部分的中心位置,并将每个人头部的坐标信息写入到一个文本文件中。
步骤13:生成图片对应的标签:首先生成一张与样本图片长宽相同即480*256*1大小的像素值全为0的二值掩码图片,从步骤12中生成的文本文件中读取上述标注的人头部位置并映射到该掩码图片上,而后采用高斯模糊方法让每个位置形成一个小光圈点,且小光圈点的像素值为1,处理后的掩码图片即为原图片的标签,即本领域技术人员通常理解的groundtruth,可参见附图2。
步骤2 :选择或构建基于图像语义分割的深度网络模型:根据实际情况选择适用来进行模型训练的基础网络模型,该类可用于图像语义分割的深度网络模型有SegNet、MSCNN、FCN等多种及基于它们的变形(即能够用于图像语义分割的深度网络模型都可在此步骤中被选择,由于该类深度网络模型的种类多且本领域技术人员可以在原有深度网络模型基础上做进一步变形或改进,因此在此无法穷尽列举模型种类),由于在本实施例的场景下,SegNet的预测结果更佳,于是,在此确定基础深度网络模型为SegNet。需要注意的是,采用SegNet模型是由于SegNet的实验结果佳,因此在不同场景下,需要根据实际情况选择适宜的模型。
下面简单介绍原始的SegNet网络结构,可参见附图3,Input为输入的原图片,Output为输出的分割后的图像,其中不同颜色表示不同的类别,可以看出SegNet是一个对称网络,由中间白色池化(pooling)层与白色上采样(upsampling)层作为分界,左边是卷积提取高维特征,并通过pooling下采样使图片变小,称为编码(Encoder)过程;右边是反卷积与upsampling(此处反卷积与卷积没有区别),通过反卷积使得图像分类后特征得以重现,upsampling上采样使图像变大,称为解码(Decoder)过程;最后通过Softmax层,输出不同类别的最大值,从而达到目标识别的效果。
完整网络结构描述如下:
输入图像,本实施例中输入图像尺寸为480*256*3;
第一组卷积:使用两个连续的3*3*64的卷积对输入图像做卷积处理,提取特征;然后进行第一次pooling下采样操作。
第二组卷积:对第一次下采样后的特征映射图进行两个连续的3*3*128的卷积操作;然后进行第二次pooling下采样操作。
第三组卷积:对第二次下采样后的特征映射图进行三个连续3*3*256的卷积操作;然后进行第三次pooling下采样操作。
第四组卷积:对第三次下采样后的特征映射图进行三个连续3*3*512的卷积操作;然后进行第四次pooling下采样操作。
第五组卷积:对第四次下采样后的特征映射图进行三个连续3*3*512的卷积操作;然后进行第五次pooling下采样操作。
第一组反卷积:对第五次下采样后的特征映射图进行第一次上采样(upsampling)操作,使用三个3*3*512的卷积对上采样后的特征映射图进行卷积操作。
第二组反卷积:对第一组反卷积后的特征映射图进行第二次上采样操作,使用两个3*3*512的卷积对上采样后的特征映射图进行卷积操作,然后再跟随一个3*3*256的卷积操作。
第三组反卷积:对第二组反卷积后的特征映射图进行第三次上采样操作,使用两个3*3*256的卷积对上采样后的特征映射图进行卷积操作,然后再跟随一个3*3*128的卷积操作。
第四组反卷积:对第三组反卷积后的特征映射图进行第四次上采样操作,使用一个3*3*128的卷积对上采样后的特征映射图进行卷积操作,然后再跟随一个3*3*64的卷积操作。
第五组反卷积:对第四组反卷积后的特征映射图进行第五次上采样操作,使用一个3*3*64的卷积对上采样后的特征映射图进行卷积操作,然后再跟随一个3*3*1的卷积操作。最后衔接Softmax层,可以获得当前目标的类别的最大值。
输出为与输入图片长宽相同即480*256*1的掩码图片和类别的最大值。
其中上述最后一层的3*3*1卷积不需要进行RELU激活操作,其他卷积层的默认带有RELU激活操作。
作为一种优选方式,步骤2中的所述SegNet网络模型可在其原始基础上进行一些改进,在增加网络深度的同时减小了模型的参数量,而且模型预测的速度和精度均得到了提升。
参见附图4-6,对原始SegNet网络模型的改进步骤包括:
(1)去除第五组卷积和下采样操作以及对应的上采样和反卷积操作;
(2)减少每层卷积的通道数;
(3)修改第三组和第四组的卷积操作,将这两组的每个卷积都修改为瓶颈结构(Bottleneck Architectures),其中的Bottleneck Architectures来源于Resnet网络结构,最原始的来源可追溯到Network in Network结构,由于卷积后特征映射层通道数的变化,去除Bottleneck Architectures的残差操作,最后的替换形式为(参见附图5):以3*3*256的卷积为例,将替换为1*1*64+3*3*64+1*1*256的卷积组合,这样模型的参数量得到了大大的降低,同时增加了网络深度;
(4)去除最后的Softmax层,这是由于本实施用例中由于只存在人这一类别,所以不需要对其进行目标的识别过程,网络直接输出480*256*1的特征映射图层,将该结果与作为标签的掩码图片保持格式的一致。
完整网络结构描述如下,并结合附图6:
输入图像,本实施例中输入图像尺寸为480*256*3;
第一组卷积:使用两个连续的3*3*32的卷积对输入图像做卷积处理,提取特征;然后进行第一次pooling下采样操作。
第二组卷积:对第一次下采样后的特征映射图进行两个连续的3*3*64的卷积操作;然后进行第二次pooling下采样操作。
第三组卷积:对第二次下采样后的特征映射图进行三个连续的输出通道为128的Bottleneck Architectures结构卷积操作;然后进行第三次下采样操作。
第四组卷积:对第三次下采样后的特征映射图进行三个连续的输出通道为256的Bottleneck Architectures结构卷积操作;然后进行第四次下采样操作。
第一组反卷积:对第四次下采样后的特征映射图进行;第一次上采样操作,使用两个3*3*256的卷积对上采样后的特征映射图进行卷积操作,然后再跟随一个3*3*128的卷积操作。
第二组反卷积:对第一组反卷积后的特征映射图进行第二次上采样操作,使用两个3*3*128的卷积对上采样后的特征映射图进行卷积操作,然后再跟随一个3*3*64的卷积操作。
第三组反卷积:对第二组反卷积后的特征映射图进行第三次上采样操作,使用一个3*3*64的卷积对上采样后的特征映射图进行卷积操作,然后再跟随一个3*3*32的卷积操作。
第四组反卷积:对第三组反卷积后的特征映射图进行第四次上采样操作,使用一个3*3*32的卷积对上采样后的特征映射图进行卷积操作,然后再跟随一个3*3*1的卷积操作。
输出图片长宽与输入图像相同即480*256*1的掩码图片。
其中上述最后一层的3*3*1卷积不需要进行RELU激活操作,其他卷积层的默认带有RELU激活操作。
步骤3:输入样本集,训练得出人头位置预测网络模型:将样本集(包括原图片集及对应的标签图片)作为步骤2中确定的深度学习网络结构的输入,训练适用于该数据集场景的预测模型,得到的模型称之为人头位置预测网络模型。
步骤4 :输入待检测图片至步骤3中训练得到的人头位置预测网络模型进行预测,从模型输出的掩码图片中得到测试图片中的人头部位置以及行人的总数:使用步骤3中训练得到的人头位置预测网络模型对待检测图片进行预测,待检测图片需调整到与训练原图的长宽相同,模型输出的掩码图片可以看作为该图片的标签,掩码中的每个光圈点即为预测到的每个头部,根据掩码图片中光圈点的位置和光圈点的个数可知该预测图片中的人数和每个人在图片中的位置。
参见附图7,将预测位置全部映射至原图上,可在原图上看出人的头部位置。
另外,本发明还可以给出场景内行人的密度,也给出人群密度级别,即给出高、中、低等级别。
首先,划定得到检测场景的兴趣区域,滤除无关区域(例如不动景区域),然后测量兴趣区域的面积,将预测人数除以兴趣区域的面积即可得到该场景下区域的人群密度。
根据实际情况,将上述得出的人群密度按层级划分可得到人群密度级别,即高、中、低等级别,当然层级划分可以更细,不限于三级。
另外,本发明还可以给出场景下某个特定区域的人数和位置信息。具体为:读取预测得到的掩码图片中的该特定区域(即忽略其他不感兴趣区域)的人数和位置信息。
当然,本发明还可以给出场景内某个特定区域下行人的密度,也给出人群密度级别,即给出高、中、低等级别。即读取预测得到的掩码图片中的该特定区域的人数除以该特定区域的面积可得到人群密度,将该密度按层级划分可得到人群密度级别,即高、中、低等级别,当然层级划分可以更细,不限于三级。
本发明所述的一种基于深度学习图像语义分割的人数估计方法,具有如下优点:
1、相比于现有技术中大多采用的基于图像分块的估计方法,能够克服图像分块带来的统计误差。
2、能够同时提供图像区域中的估计人数和每个行人在图像区域中的位置。
3、可获取场景下特定区域内人数和划分密集等级等更加细化的行人密度信息。
4、遮挡严重情况也能得到很好的预测效果。

Claims (9)

1.一种基于深度学习图像语义分割的人数估计方法,其特征在于包括以下步骤:
步骤1,构建训练样本集:采集待检测区域的视频图像,对每一张样本图片,标注出图像中的人头部位置,生成对应的掩码图片作为其标签,掩码图片中每个光圈点对应一个人头,原图及对应的标签掩码图作为训练样本集,所述原图为待检测区域的视频图像;
步骤2,选择或构建基于图像语义分割的深度网络模型;
步骤3,将样本集送入步骤2中确定的深度网络模型进行训练,得到适用于该训练样本集场景的模型,称为人头位置预测网络模型;
步骤4,输入与训练样本图片长宽相同的待检测图片至步骤3中训练得到的人头位置预测网络模型,得到预测的掩码图片,根据掩码图片中光圈点的位置和光圈点的个数可得到待检测图片中的人数以及每个人的位置信息。
2.如权利要求1所述的一种基于深度学习图像语义分割的人数估计方法,其特征在于,所述步骤1包括如下步骤:
将所述原图缩放至合适长宽;
在该处理后原图上标注出人头部位置,并将每个人头部的坐标信息写入到一个文本文件中;
生成一张与处理后原图长宽相同的像素值全为0的二值掩码图片,从上述步骤中生成的文本文件中读取人头部位置并映射到该掩码图片上,而后采用高斯模糊方法让每个位置形成像素值为1的小光圈点,处理后的掩码图片即为原图片的标签。
3.如权利要求2所述的一种基于深度学习图像语义分割的人数估计方法,其特征在于,所述步骤1中还包括一个步骤:
在所述采集场景图片,缩放图片至合适长宽步骤后,滤除图片中的无关区域。
4.如权利要求1所述的一种基于深度学习图像语义分割的人数估计方法,其特征在于,所述步骤2中采用的图像语义分割的深度网络模型为SegNet模型。
5.如权利要求1所述的一种基于深度学习图像语义分割的人数估计方法,其特征在于,所述步骤2中采用的图像语义分割的深度网络模型为基于原始SegNet模型的改进模型。
6.如权利要求5所述的一种基于深度学习图像语义分割的人数估计方法,其特征在于,所述原始SegNet模型结构为:
第一组卷积:使用两个连续的3*3*64的卷积对输入图像做卷积处理,提取特征;然后进行第一次pooling下采样操作;
第二组卷积:对第一次下采样后的特征映射图进行两个连续的3*3*128的卷积操作;然后进行第二次pooling下采样操作;
第三组卷积:对第二次下采样后的特征映射图进行三个连续3*3*256的卷积操作;然后进行第三次pooling下采样操作;
第四组卷积:对第三次下采样后的特征映射图进行三个连续3*3*512的卷积操作;然后进行第四次pooling下采样操作;
第五组卷积:对第四次下采样后的特征映射图进行三个连续3*3*512的卷积操作;然后进行第五次pooling下采样操作;
第一组反卷积:对第五次下采样后的特征映射图进行第一次上采样(upsampling)操作,使用三个3*3*512的卷积对上采样后的特征映射图进行卷积操作;
第二组反卷积:对第一组反卷积后的特征映射图进行第二次上采样操作,使用两个3*3*512的卷积对上采样后的特征映射图进行卷积操作,然后再跟随一个3*3*256的卷积操作;
第三组反卷积:对第二组反卷积后的特征映射图进行第三次上采样操作,使用两个3*3*256的卷积对上采样后的特征映射图进行卷积操作,然后再跟随一个3*3*128的卷积操作;
第四组反卷积:对第三组反卷积后的特征映射图进行第四次上采样操作,使用一个3*3*128的卷积对上采样后的特征映射图进行卷积操作,然后再跟随一个3*3*64的卷积操作;
第五组反卷积:对第四组反卷积后的特征映射图进行第五次上采样操作,使用一个3*3*64的卷积对上采样后的特征映射图进行卷积操作,然后再跟随一个3*3*1的卷积操作;
最后衔接Softmax层,可以获得当前目标的类别的最大值;
所述基于原始SegNet模型的改进方法包括:
(1)去除第五组卷积和下采样操作以及对应的上采样和反卷积操作;
(2)减少每层卷积的通道数;
(3)修改第三组和第四组的卷积操作,将这两组的每个卷积都替换为瓶颈结构;
(4)去除Softmax层。
7.如权利要求6所述的一种基于深度学习图像语义分割的人数估计方法,其特征在于,改进后的SegNet模型具体结构为:
输入图像;
第一组卷积:使用两个连续的3*3*32的卷积对输入图像做卷积处理,提取特征;然后进行第一次下采样操作;
第二组卷积:对第一次下采样后的特征映射图进行两个连续的3*3*64的卷积操作;然后进行第二次下采样操作;
第三组卷积:对第二次下采样后的特征映射图进行三个连续的输出通道为128的瓶颈结构卷积操作;然后进行第三次下采样操作;
第四组卷积:对第三次下采样后的特征映射图进行三个连续的输出通道为256的瓶颈结构卷积操作;然后进行第四次下采样操作;
第一组反卷积:对第四次下采样后的特征映射图进行第一次上采样操作,使用两个3*3*256的卷积对上采样后的特征映射图进行卷积操作,然后再跟随一个3*3*128的卷积操作;
第二组反卷积:对第一组反卷积后的特征映射图进行第二次上采样操作,使用两个3*3*128的卷积对上采样后的特征映射图进行卷积操作,然后再跟随一个3*3*64的卷积操作;
第三组反卷积:对第二组反卷积后的特征映射图进行第三次上采样操作,使用一个3*3*64的卷积对上采样后的特征映射图进行卷积操作,然后再跟随一个3*3*32的卷积操作;
第四组反卷积:对第三组反卷积后的特征映射图进行第四次上采样操作,使用一个3*3*32的卷积对上采样后的特征映射图进行卷积操作,然后再跟随一个3*3*1的卷积操作;
输出与输入图片长宽相同的二值掩码图片。
8.如权利要求1-7任一项所述的一种基于深度学习图像语义分割的人数估计方法,其特征在于,利用本方法步骤4中得到的掩码图片,可得到检测场景下人群密度,和/或给出人群密度级别,具体包括如下步骤:
划定得到检测场景的兴趣区域,滤除无关区域;
测量兴趣区域的面积,将从掩码图片中得到的人数除以兴趣区域的面积,即可得到该场景下区域的人群密度;
将上述步骤得出的人群密度进行层级划分,最后给出人群密度级别。
9.如权利要求1-7任一项所述的一种基于深度学习图像语义分割的人数估计方法,其特征在于,利用本方法步骤4中得到的掩码图片,可得到检测场景下某一特定区域下人数和位置信息,和/或人群密度,和/或给出人群密度级别,具体包括如下步骤:
划定得到检测场景的特定区域,读取掩码图片中的该特定区域中人数和个人对应的位置信息,即可得到该特定区域下人数和位置信息;
测量所述特定区域的面积,将预测人数除以兴趣区域的面积,即可得到该特定区域的人群密度;
将上述步骤得出的人群密度进行层级划分,最后给出人群密度级别。
CN201710947732.5A 2017-10-12 2017-10-12 一种基于深度学习图像语义分割的人数估计方法 Active CN107679502B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710947732.5A CN107679502B (zh) 2017-10-12 2017-10-12 一种基于深度学习图像语义分割的人数估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710947732.5A CN107679502B (zh) 2017-10-12 2017-10-12 一种基于深度学习图像语义分割的人数估计方法

Publications (2)

Publication Number Publication Date
CN107679502A CN107679502A (zh) 2018-02-09
CN107679502B true CN107679502B (zh) 2019-10-08

Family

ID=61140000

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710947732.5A Active CN107679502B (zh) 2017-10-12 2017-10-12 一种基于深度学习图像语义分割的人数估计方法

Country Status (1)

Country Link
CN (1) CN107679502B (zh)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664974A (zh) * 2018-04-03 2018-10-16 华南理工大学 一种基于rgbd图像与全残差网络的语义分割方法
CN108648197B (zh) * 2018-04-12 2021-09-07 天津大学 一种基于图像背景掩膜的目标候选区域提取方法
CN108596065A (zh) * 2018-04-13 2018-09-28 深圳职业技术学院 一种基于深度语义分割海洋溢油检测系统与方法
CN108664967B (zh) * 2018-04-17 2020-08-25 上海媒智科技有限公司 一种多媒体页面视觉显著性预测方法及系统
CN110263604A (zh) * 2018-05-14 2019-09-20 桂林远望智能通信科技有限公司 一种基于像素级别分离行人图片背景的方法及装置
CN108921854B (zh) * 2018-05-22 2022-06-21 复旦大学 一种消化道内镜图像不规则病变区域标注方法及系统
CN108764146A (zh) * 2018-05-29 2018-11-06 杭州视氪科技有限公司 一种地形和目标检测方法
CN109034355B (zh) * 2018-07-02 2022-08-02 百度在线网络技术(北京)有限公司 致密人群的人数预测方法、装置、设备以及存储介质
CN109101888B (zh) * 2018-07-11 2022-06-14 南京农业大学 一种游客人流量监控预警方法
CN109035370B (zh) * 2018-07-23 2022-02-22 郑州云海信息技术有限公司 一种图片标注方法与系统
CN109064462A (zh) * 2018-08-06 2018-12-21 长沙理工大学 一种基于深度学习的钢轨表面缺陷检测方法
CN109242011A (zh) * 2018-08-27 2019-01-18 深圳开立生物医疗科技股份有限公司 一种识别图像差异的方法及装置
CN109410123B (zh) * 2018-10-15 2023-08-18 深圳市能信安科技股份有限公司 基于深度学习的去除马赛克的方法、装置及电子设备
CN109447962A (zh) * 2018-10-22 2019-03-08 天津工业大学 一种基于卷积神经网络的眼底图像硬性渗出物病变检测方法
CN109635629A (zh) * 2018-10-23 2019-04-16 南京行者易智能交通科技有限公司 一种基于深度学习的公交站台人群密度检测方法及装置
CN111221924B (zh) * 2018-11-23 2023-04-11 腾讯科技(深圳)有限公司 一种数据处理方法、装置、存储介质和网络设备
CN109740656A (zh) * 2018-12-26 2019-05-10 华侨大学 一种基于卷积神经网络的矿石分选方法
CN110060265A (zh) * 2019-05-15 2019-07-26 北京艺泉科技有限公司 一种从书画文物图像中分割并提取印章的方法
US11199602B2 (en) * 2019-08-29 2021-12-14 Shanghai United Imaging Intelligence Co., Ltd. Methods and devices for generating sampling masks related to imaging
CN110728330A (zh) * 2019-10-23 2020-01-24 腾讯科技(深圳)有限公司 基于人工智能的对象识别方法、装置、设备及存储介质
CN110837811B (zh) * 2019-11-12 2021-01-05 腾讯科技(深圳)有限公司 语义分割网络结构的生成方法、装置、设备及存储介质
TWI721673B (zh) * 2019-11-27 2021-03-11 財團法人車輛研究測試中心 人數分析方法及其系統
CN111027455B (zh) * 2019-12-06 2021-01-26 重庆紫光华山智安科技有限公司 行人特征提取方法、装置、电子设备及存储介质
CN111222440A (zh) * 2019-12-31 2020-06-02 江西开心玉米网络科技有限公司 一种人像背景分离方法、装置、服务器及存储介质
CN111353069A (zh) * 2020-02-04 2020-06-30 清华珠三角研究院 一种人物场景视频生成方法、系统、装置及存储介质
CN111666838B (zh) * 2020-05-22 2023-04-18 吉林大学 一种改进的残差网络猪脸识别方法
CN112001274B (zh) * 2020-08-06 2023-11-17 腾讯科技(深圳)有限公司 人群密度确定方法、装置、存储介质和处理器
CN112163541A (zh) * 2020-10-09 2021-01-01 上海云绅智能科技有限公司 一种3d目标检测方法、装置、电子设备和存储介质
CN112365510B (zh) * 2020-11-12 2022-12-30 Oppo(重庆)智能科技有限公司 图像处理方法、装置、设备及存储介质
CN115393733B (zh) * 2022-08-22 2023-08-18 河海大学 一种基于深度学习的水体自动识别方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104504394A (zh) * 2014-12-10 2015-04-08 哈尔滨工业大学深圳研究生院 一种基于多特征融合的密集人数估计方法和系统
CN104751491A (zh) * 2015-04-10 2015-07-01 中国科学院宁波材料技术与工程研究所 一种人群跟踪及人流量统计方法及装置
CN104992223A (zh) * 2015-06-12 2015-10-21 安徽大学 基于深度学习的密集人数估计方法
CN106203331A (zh) * 2016-07-08 2016-12-07 苏州平江历史街区保护整治有限责任公司 一种基于卷积神经网络的人群密度估算方法
CN106326839A (zh) * 2016-08-11 2017-01-11 中防通用河北电信技术有限公司 一种基于出操视频流的人数统计方法
CN107239762A (zh) * 2017-06-06 2017-10-10 电子科技大学 一种基于视觉的公交车内乘客人数统计方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104504394A (zh) * 2014-12-10 2015-04-08 哈尔滨工业大学深圳研究生院 一种基于多特征融合的密集人数估计方法和系统
CN104751491A (zh) * 2015-04-10 2015-07-01 中国科学院宁波材料技术与工程研究所 一种人群跟踪及人流量统计方法及装置
CN104751491B (zh) * 2015-04-10 2018-01-23 中国科学院宁波材料技术与工程研究所 一种人群跟踪及人流量统计方法及装置
CN104992223A (zh) * 2015-06-12 2015-10-21 安徽大学 基于深度学习的密集人数估计方法
CN106203331A (zh) * 2016-07-08 2016-12-07 苏州平江历史街区保护整治有限责任公司 一种基于卷积神经网络的人群密度估算方法
CN106326839A (zh) * 2016-08-11 2017-01-11 中防通用河北电信技术有限公司 一种基于出操视频流的人数统计方法
CN107239762A (zh) * 2017-06-06 2017-10-10 电子科技大学 一种基于视觉的公交车内乘客人数统计方法

Also Published As

Publication number Publication date
CN107679502A (zh) 2018-02-09

Similar Documents

Publication Publication Date Title
CN107679502B (zh) 一种基于深度学习图像语义分割的人数估计方法
CN109670429B (zh) 一种基于实例分割的监控视频多目标人脸检测方法及系统
CN108764085B (zh) 基于生成对抗网络的人群计数方法
CN105354548B (zh) 一种基于ImageNet检索的监控视频行人重识别方法
CN104915972B (zh) 图像处理装置、图像处理方法以及程序
CN109712145A (zh) 一种图像抠图方法及系统
CN104766076B (zh) 一种视频图像文字的检测方法和装置
CN111462183A (zh) 一种基于注意力机制双流网络的行为识别方法及系统
CN112036335A (zh) 一种反卷积引导的半监督植物叶部病害识别与分割方法
CN108305253B (zh) 一种基于多倍率深度学习的病理图像分类方法
CN107590427B (zh) 基于时空兴趣点降噪的监控视频异常事件检测方法
CN105590099A (zh) 一种基于改进卷积神经网络的多人行为识别方法
CN109360191B (zh) 一种基于变分自编码器的图像显著性检测方法
Shahrian et al. Temporally coherent and spatially accurate video matting
CN110827312A (zh) 一种基于协同视觉注意力神经网络的学习方法
Kong et al. Adversarial edge-aware image colorization with semantic segmentation
KR101394363B1 (ko) 영상의 색상 변환 장치 및 방법
Liu et al. Asflow: Unsupervised optical flow learning with adaptive pyramid sampling
CN110688512A (zh) 基于ptgan区域差距与深度神经网络的行人图像搜索算法
Kezia et al. A color-texture based segmentation method to extract object from background
CN113191320A (zh) 一种基于深度学习的食品安全指标监测方法
CN108647605A (zh) 一种结合全局颜色与局部结构特征的人眼凝视点提取方法
KR102492843B1 (ko) 지리적 공간에 대한 시공간 데이터 분석 방법 및 장치
Zhang et al. Visual saliency: from pixel-level to object-level analysis
DE112019004112T5 (de) System und verfahren zur analyse mikroskopischer bilddaten und zur erzeugung eines annotierten datensatzes zum training der klassifikatoren

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant