CN113836974A - 一种基于超分辨率重构的监控视频行人检测方法 - Google Patents
一种基于超分辨率重构的监控视频行人检测方法 Download PDFInfo
- Publication number
- CN113836974A CN113836974A CN202010583209.0A CN202010583209A CN113836974A CN 113836974 A CN113836974 A CN 113836974A CN 202010583209 A CN202010583209 A CN 202010583209A CN 113836974 A CN113836974 A CN 113836974A
- Authority
- CN
- China
- Prior art keywords
- network
- image
- super
- resolution
- srgan
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 47
- 238000012544 monitoring process Methods 0.000 title claims abstract description 15
- 238000000034 method Methods 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 13
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 3
- 230000000750 progressive effect Effects 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 2
- 238000005286 illumination Methods 0.000 abstract description 4
- 238000013527 convolutional neural network Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
公开了基于超分辨率重构的监控视频行人检测方法,该方法通过收集两个监控视频不同时间段的行人图像,结合了超分辨率图像方法和行人检测方法对收集到视频图像进行端到端的行人检测。首先收集不同视角下的监控行人图像并进行标注;将图像缩小为原来的四分之一,并输入到SRGAN(超分辨率网络)中,对SRGAN网络进行预训练;然后结合SRGAN网络和FasterR‑CNN检测网络。本发明可以对分辨率较低的图像进行准确的行人检测,在光照变化、行人形变差异大、运动模糊等场景下能保持稳定的检测结果;运行效率高;且硬件成本低,易于在监控场景下推广,具有良好的应用前景。
Description
技术领域
本发明涉及图像处理和计算机视觉技术,具体为超分辨率重构的监控视频行人检测方法。
背景技术
行人检测一直是计算机视觉研究中的热点问题。给定任意图像,其目的是确定图像中是否有行人,如果存在,则返回每个行人的图像位置和范围。行人检测技术可以与行人跟踪,行人识别等技术相结合,应用于汽车无人驾驶系统 (ADAS),智能机器人,智能视频监控,人类行为分析,客流统计系统,智能交通等领域。随着深度学习的发展,更多可用的行人公共数据集以及行人检测的准确性取得了卓越的性能。但是对于低分辨率监控视频图像,在现有模型上检测结果会严重降低性能。
这是因为低分辨率图像很难将行人与其他背景区分开。在许多监控视频场景中,行人小而密集,并且存在严重的遮挡。一些背景物体的外观,形状,颜色和纹理与人体非常相似。现有的行人检测算法主要包括背景建模方法(例如帧差法) 和统计学习方法(例如神经网络,SVM和深度学习方法)。背景建模方法易受光照,抖动影响。统计学习方法中的深度学习由于其对光照,尺度差异的鲁棒性,目前广泛应用于行人检测中,但是已经存在的模型都是对于清晰的,高分辨率的图像行人检测准确率高,对于低分辨率的监控图像有待提升。
发明内容
发明目的:针对现有技术存在的不足,本发明的目的是提供一种基于超分辨率重构的监控视频行人检测方法,对所获取的低分辨率监控视频图像,采用超分辨率GAN网络先对监控视频图像进行预处理,然后输入到基于深度学习的检测网络中进行行人检测。
技术方案:为了实现上述发明目的,本发明采用的技术方案如下:
步骤1:收集低分辨率监控视频图像;
步骤2:对收集到图像,缩小为原图的四分之一,和原图一起输入到SRGAN 网络(超分辨率生成对抗网络),对SRGAN网络进行预训练;
步骤3:将原图输入到预训练过的SRGAN网络,得到超分辨率图像;
步骤4:对超分辨率图像进行一次双线性插值,得到更清晰图像;
步骤5:将步骤4中得到的更清晰的图像输入到FasterR-CNN检测网络,进行行人检测。
进一步的技术方案是,步骤2中对SRGAN网络(超分辨率生成对抗网络) 进行预训练的具体步骤如下:
步骤2-1:将低分辨率图像缩小为原图的四分之一大小;
步骤2-2:将步骤2-1得到的图像作为网络输入图像,输入到SRGAN网络,生成为输入图像的4倍超分辨率图像即为生成图,并将原图作为标签图,生成图与标签图计算差异值,实现SRGAN网络的预训练。
进一步的技术方案是,所述步骤2中所述的SRGAN网络(超分辨率生成对抗网络)是由一个生成网络和一个判别网络组成,所述生成网络部分包含多个残差块和两个损失函数;所述步骤2-2为,将步骤2-1得到的图像输入到生成网络,并结合BN,生成超分辨率图像即生成图,将生成图与标签图一起输入到判别网络,判断是生成的高分辨率图像还是真正的高分辨率图像。
进一步地技术方案是,所述残差块按顺序由1个的Conv-PReLU子网络结构, 5个Conv-Bn-PReLU-Conv-BN子网络结构,1个Conv-BN子网络结构,一个 Conv-PixelShuffler*2-PReLU子网络和一个Conv层组成。
进一步地技术方案是,所述判别网络是由1个Conv-Leaky ReLU子网络块, 7个Conv-BN-Leaky ReLU子网络块,一个Dense-Leaky ReLU-Dense子网络组成,其后接一个Sigmoid函数,进行二分类;所述判别网络还包含一个判别损失函数,用来判定生成图是不是真正的高分辨率图像。
进一步的技术方案是,步骤5包括:
步骤5-1:将清晰图resize大小到224*224*3;
步骤5-2:输入224*224*3大小的图像到FasterR-CNN检测网络,进行行人检测,得到行人框坐标,将画有行人框的图像输出。
进一步的技术方案是,所述的FasterR-CNN检测网络是一个由ResNet50作为基本网络结构,后接RPN(Region Proposal Network,提取候选框网络)层,再经RoI pooling层得到感兴趣区域,对感兴趣区域进行分类,最后在原图画出行人的外接框。
进一步的技术方案是,FasterR-CNN检测网络的网络输入层是大小为 224*224*3的RGB图像;FasterR-CNN首先使用ResNet50网络提取图像的特征图;该特征图被共享用于后续RPN层和全连接层;
所述RPN网络用于生成region proposals(区域候选框),该层通过softmax 函数判断anchors属于正样本还是负样本,再利用bounding box regression(候选框回归)来修正anchors获得精确的候选框;
所述Roi Pooling,该层收集输入的特征图和候选框,综合这些信息后提取proposal feature maps(候选框特征),送入后续全连接层判定目标类别;分类层,利用proposal feature maps计算候选框的类别,同时再次bounding box regression 获得检测最终的精确位置。
有益效果:与现有技术相比,本发明具有以下优点:本发明与现有技术相比,其显著有点是:(1)对光照变化,场景变化和行人大小变化有较强的鲁棒性;(2) 能得到低分辨率图像的清晰图像;(3)准确率高,能满足一般的行人定位要求; (4)普适性,能应用到一般的监控视频;(5)硬件要求简单,易于大规模推广。
附图说明
图1是本发明的算法流程图;
图2是超分辨率GAN网络框架图;
图3是FasterR-CNN行人检测网络框架图;
图4是本发明使用传统方法和GAN方法进行超分辨率处理对比图;
图5是本发明不同方法的行人检测结果图。
具体实施方式
下面结合附图进一步阐明本发明。
第一步:收集低分辨率监控视频图像。
收集不同视角的监控视频,每隔24帧保留一帧,通过已有检测算法进行行人检测,得到行人坐标框,然后进行人工校准,得到图像中行人的位置和类别信息。
将低分辨率图像缩小为原图的四分之一大小;输入到SRGAN网络。
第二步:图像超分辨率处理。
本发明采用SRGAN网络(超分辨率生成对抗网络)对视频图像进行预训练。具体为SRGAN网络由一个生成网络和一个判别网络组成,将缩小为原来四分之一的低分辨率图像作为输入图输入生成网络,并结合BN,生成输入图的4倍超分辨率图像即为生成图,并将原图作为标签图,生成图与标签图计算差异值(即将生成图与标签图一起输入到判别网络,判断是生成的高分辨率图像还是真正的高分辨率图像。如图2。)
具体描述如下:
生成网络部分包含多个残差块和两个损失函数。这些残差块按顺序由1个的Conv-PReLU子网络结构,5个Conv-Bn-PReLU-Conv-BN子网络结构,1个 Conv-BN子网络结构,一个Conv-PixelShuffler*2-PReLU子网络和一个Conv层组成。其中卷积层大小为3x3的卷积层。PixelShuffler*2是指2倍子像素卷积层,用于增加特征大小。损失函数包括感知内容损失和对抗损失。图像经过生成网络可以生成超分辨率图像即生成图。
将标签图和生成图一起输入到判别网络。判别网络是由1个Conv-Leaky ReLU子网络块,7个Conv-BN-Leaky ReLU子网络块,一个Dense-Leaky ReLU-Dense子网络组成,其后接一个Sigmoid函数,进行二分类。判别网络包含一个判别损失函数,用来判定生成图是不是真正的高分辨率图像。
将原图输入到预训练过的SRGAN网络,得到超分辨率图像;
第三步:对超分辨率重建图像进行双线性插值。
第四步:行人检测。
对超分辨率图像进行双线性插值,得到能突出重要边界的清晰图像。并将清晰图输入到FasterR-CNN检测网络进行检测。
本发明的FasterR-CNN检测网络是一个由ResNet50作为基本网络结构,如图3,后接RPN(Region Proposal Network,提取候选框网络)层,再经RoI pooling 层得到感兴趣区域,对感兴趣区域进行分类,最后在原图画出行人的外接框。具体地,网络输入层是大小为224*224*3的RGB图像;FasterR-CNN首先使用 ResNet50骨干网络提取图像的特征图。该特征图被共享用于后续RPN层和全连接层。RPN网络用于生成region proposals(区域候选框)。该层通过softmax函数判断anchors属于正样本还是负样本,再利用bounding boxregression(候选框回归)来修正anchors获得精确的候选框。Roi Pooling,该层收集输入的特征图和候选框,综合这些信息后提取proposal feature maps(候选框特征),送入后续全连接层判定目标类别。分类层,利用proposal feature maps计算候选框的类别,同时再次bounding box regression获得检测最终的精确位置。
图4是本发明不同方法的超分辨率重建图,其中(a)为输入图,(b)、(c) 分别为双线性插值法(BI)和SRGAN方法的重构图,(d)为4倍分辨率原图。图5是本发明不同方法的行人检测结果图,第一行是原图行人检测,第二行是传统方法超分辨率处理后的行人检测,第三行是利用GAN网络进行超分辨率处理后的结果图。可以看出第三行(即超分辨率重构图像的行人检测方法)检测的行人更准确,漏检少且得到的检测框不多余。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (8)
1.一种基于超分辨率重构的监控视频行人检测方法,其特征在于:包括以下步骤:
步骤1:收集低分辨率监控视频图像;
步骤2:对收集到图像,缩小为原图的四分之一,和原图一起输入到SRGAN网络(超分辨率生成对抗网络),对SRGAN网络进行预训练;
步骤3:将原图输入到预训练过的SRGAN网络,得到超分辨率图像;
步骤4:对超分辨率图像进行一次双线性插值(BilinearInterpolation,BI),得到更清晰图像;
步骤5:将步骤4中得到的更清晰的图像输入到FasterR-CNN检测网络,进行行人检测。
2.根据权利要求1所述的基于超分辨率重构的监控视频行人检测方法,其特征在于:所述步骤2中对SRGAN网络(超分辨率生成对抗网络)进行预训练的具体步骤如下:
步骤2-1:将低分辨率图像缩小为原图的四分之一大小;
步骤2-2:将步骤2-1得到的图像输入到SRGAN网络,生成为输入图像的4倍超分辨率图像即为生成图,并将原图作为标签图,生成图与标签图计算差异值,实现SRGAN网络的预训练。
3.根据权利要求2所述的基于超分辨率重构的监控视频行人检测方法,其特征在于:所述步骤2中所述的SRGAN网络(超分辨率生成对抗网络)是由一个生成网络和一个判别网络组成;生成网络部分包含多个残差块和两个损失函数;所述步骤2-2为,将步骤2-1得到的图像输入到生成网络,并结合BN,生成超分辨率图像即生成图,将生成图与标签图一起输入到判别网络,判断是生成的高分辨率图像还是真正的高分辨率图像。
4.根据权利要求2所述的基于超分辨率重构的监控视频行人检测方法,其特征在于:所述残差块按顺序由1个的Conv-PReLU子网络结构,5个Conv-Bn-PReLU-Conv-BN子网络结构,1个Conv-BN子网络结构,一个Conv-PixelShuffler*2-PReLU子网络和一个Conv层组成。
5.根据权利要求3所述的基于超分辨率重构的监控视频行人检测方法,其特征在于:所述判别网络是由1个Conv-Leaky ReLU子网络块,7个Conv-BN-Leaky ReLU子网络块,一个Dense-Leaky ReLU-Dense子网络组成,其后接一个Sigmoid函数,进行二分类;所述判别网络还包含一个判别损失函数,用来判定生成图是不是真正的高分辨率图像。
6.根据权利要求1所述的基于超分辨率重构的监控视频行人检测方法,其特征在于:步骤5包括:
步骤5-1:将清晰图resize大小到224*224*3;
步骤5-2:输入224*224*3大小的图像到FasterR-CNN检测网络训练,得到模型,进行行人检测,返回行人框坐标,将画有行人框的图像输出。
7.根据权利要求6所述的基于超分辨率重构的监控视频行人检测方法,其特征在于:所述的FasterR-CNN检测网络是一个由ResNet50作为基本网络结构,后接RPN(RegionProposal Network,提取候选框网络)层,再经RoI pooling层得到感兴趣区域,对感兴趣区域进行分类,最后在原图画出行人的外接框。
8.根据权利要求7所述的基于超分辨率重构的监控视频行人检测方法,其特征在于:FasterR-CNN检测网络的网络输入层是大小为224*224*3的RGB图像;FasterR-CNN首先使用ResNet50网络提取图像的特征图;该特征图被共享用于后续RPN层和全连接层;
所述RPN网络用于生成region proposals(区域候选框),该层通过softmax函数判断anchors属于正样本还是负样本,再利用bounding box regression(候选框回归)来修正anchors获得精确的候选框;
所述Roi Pooling,该层收集输入的特征图和候选框,综合这些信息后提取proposalfeature maps(候选框特征),送入后续全连接层判定目标类别;分类层,利用proposalfeature maps计算候选框的类别,同时再次bounding box regression获得检测最终的精确位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010583209.0A CN113836974A (zh) | 2020-06-23 | 2020-06-23 | 一种基于超分辨率重构的监控视频行人检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010583209.0A CN113836974A (zh) | 2020-06-23 | 2020-06-23 | 一种基于超分辨率重构的监控视频行人检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113836974A true CN113836974A (zh) | 2021-12-24 |
Family
ID=78964297
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010583209.0A Pending CN113836974A (zh) | 2020-06-23 | 2020-06-23 | 一种基于超分辨率重构的监控视频行人检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113836974A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107154023A (zh) * | 2017-05-17 | 2017-09-12 | 电子科技大学 | 基于生成对抗网络和亚像素卷积的人脸超分辨率重建方法 |
CN107451619A (zh) * | 2017-08-11 | 2017-12-08 | 深圳市唯特视科技有限公司 | 一种基于感知生成对抗网络的小目标检测方法 |
CN108765279A (zh) * | 2018-03-19 | 2018-11-06 | 北京工业大学 | 一种面向监控场景的行人人脸超分辨率重建方法 |
CN109509152A (zh) * | 2018-12-29 | 2019-03-22 | 大连海事大学 | 一种基于特征融合的生成对抗网络的图像超分辨率重建方法 |
CN109753946A (zh) * | 2019-01-23 | 2019-05-14 | 哈尔滨工业大学 | 一种基于身体关键点监督的真实场景行人小目标检测网络及检测方法 |
US20190259136A1 (en) * | 2019-04-29 | 2019-08-22 | Intel Corporation | Method and apparatus for person super resolution from low resolution image |
CN110189255A (zh) * | 2019-05-29 | 2019-08-30 | 电子科技大学 | 基于两级检测的人脸检测方法 |
CN110188807A (zh) * | 2019-05-21 | 2019-08-30 | 重庆大学 | 基于级联超分辨率网络与改进Faster R-CNN的隧道行人目标检测方法 |
CN110533004A (zh) * | 2019-09-07 | 2019-12-03 | 哈尔滨理工大学 | 一种基于深度学习的复杂场景人脸识别系统 |
-
2020
- 2020-06-23 CN CN202010583209.0A patent/CN113836974A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107154023A (zh) * | 2017-05-17 | 2017-09-12 | 电子科技大学 | 基于生成对抗网络和亚像素卷积的人脸超分辨率重建方法 |
CN107451619A (zh) * | 2017-08-11 | 2017-12-08 | 深圳市唯特视科技有限公司 | 一种基于感知生成对抗网络的小目标检测方法 |
CN108765279A (zh) * | 2018-03-19 | 2018-11-06 | 北京工业大学 | 一种面向监控场景的行人人脸超分辨率重建方法 |
CN109509152A (zh) * | 2018-12-29 | 2019-03-22 | 大连海事大学 | 一种基于特征融合的生成对抗网络的图像超分辨率重建方法 |
CN109753946A (zh) * | 2019-01-23 | 2019-05-14 | 哈尔滨工业大学 | 一种基于身体关键点监督的真实场景行人小目标检测网络及检测方法 |
US20190259136A1 (en) * | 2019-04-29 | 2019-08-22 | Intel Corporation | Method and apparatus for person super resolution from low resolution image |
CN110188807A (zh) * | 2019-05-21 | 2019-08-30 | 重庆大学 | 基于级联超分辨率网络与改进Faster R-CNN的隧道行人目标检测方法 |
CN110189255A (zh) * | 2019-05-29 | 2019-08-30 | 电子科技大学 | 基于两级检测的人脸检测方法 |
CN110533004A (zh) * | 2019-09-07 | 2019-12-03 | 哈尔滨理工大学 | 一种基于深度学习的复杂场景人脸识别系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108062525B (zh) | 一种基于手部区域预测的深度学习手部检测方法 | |
Uittenbogaard et al. | Privacy protection in street-view panoramas using depth and multi-view imagery | |
JP4429298B2 (ja) | 対象個数検出装置および対象個数検出方法 | |
CN110188835B (zh) | 基于生成式对抗网络模型的数据增强行人再识别方法 | |
CN112800860B (zh) | 一种事件相机和视觉相机协同的高速抛撒物检测方法和系统 | |
CN111860274B (zh) | 基于头部朝向与上半身骨架特征的交警指挥手势识别方法 | |
CN113052210A (zh) | 一种基于卷积神经网络的快速低光照目标检测方法 | |
CN107330390B (zh) | 一种基于图像分析和深度学习的人数统计方法 | |
CN111914838B (zh) | 一种基于文本行识别的车牌识别方法 | |
CN104077577A (zh) | 一种基于卷积神经网络的商标检测方法 | |
CN111768388A (zh) | 一种基于正样本参考的产品表面缺陷检测方法及系统 | |
CN111160291B (zh) | 基于深度信息与cnn的人眼检测方法 | |
CN112633220B (zh) | 一种基于双向序列化建模的人体姿态估计方法 | |
CN110942071A (zh) | 一种基于车牌分类和lstm的车牌识别方法 | |
CN107403451B (zh) | 自适应二值特征单目视觉里程计方法及计算机、机器人 | |
Cho et al. | Semantic segmentation with low light images by modified CycleGAN-based image enhancement | |
CN114117614A (zh) | 一种建筑物立面纹理自动生成方法和系统 | |
CN111914756A (zh) | 一种视频数据处理方法和装置 | |
CN114332942A (zh) | 基于改进YOLOv3的夜间红外行人检测方法及系统 | |
CN115238758A (zh) | 一种基于点云特征增强的多任务三维目标检测方法 | |
CN106529441A (zh) | 基于模糊边界分片的深度动作图人体行为识别方法 | |
CN112924037A (zh) | 基于图像配准的红外体温检测系统及检测方法 | |
CN113011359A (zh) | 一种基于图像的同时检测平面结构和生成平面描述的方法及应用 | |
JP4918615B2 (ja) | 対象個数検出装置および対象個数検出方法 | |
CN110929632A (zh) | 面向复杂场景的车辆目标检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |