CN113836974A

CN113836974A - 一种基于超分辨率重构的监控视频行人检测方法

Info

Publication number: CN113836974A
Application number: CN202010583209.0A
Authority: CN
Inventors: 岑翼刚; 张悦; 安高云; 童忆; 阚世超
Original assignee: Jiangsu Yishi Intelligent Technology Co ltd
Current assignee: Jiangsu Yishi Intelligent Technology Co ltd
Priority date: 2020-06-23
Filing date: 2020-06-23
Publication date: 2021-12-24

Abstract

公开了基于超分辨率重构的监控视频行人检测方法，该方法通过收集两个监控视频不同时间段的行人图像，结合了超分辨率图像方法和行人检测方法对收集到视频图像进行端到端的行人检测。首先收集不同视角下的监控行人图像并进行标注；将图像缩小为原来的四分之一，并输入到SRGAN(超分辨率网络)中，对SRGAN网络进行预训练；然后结合SRGAN网络和FasterR‑CNN检测网络。本发明可以对分辨率较低的图像进行准确的行人检测，在光照变化、行人形变差异大、运动模糊等场景下能保持稳定的检测结果；运行效率高；且硬件成本低，易于在监控场景下推广，具有良好的应用前景。

Description

一种基于超分辨率重构的监控视频行人检测方法

技术领域

本发明涉及图像处理和计算机视觉技术，具体为超分辨率重构的监控视频行人检测方法。

背景技术

行人检测一直是计算机视觉研究中的热点问题。给定任意图像，其目的是确定图像中是否有行人，如果存在，则返回每个行人的图像位置和范围。行人检测技术可以与行人跟踪，行人识别等技术相结合，应用于汽车无人驾驶系统 (ADAS)，智能机器人，智能视频监控，人类行为分析，客流统计系统，智能交通等领域。随着深度学习的发展，更多可用的行人公共数据集以及行人检测的准确性取得了卓越的性能。但是对于低分辨率监控视频图像，在现有模型上检测结果会严重降低性能。

这是因为低分辨率图像很难将行人与其他背景区分开。在许多监控视频场景中，行人小而密集，并且存在严重的遮挡。一些背景物体的外观，形状，颜色和纹理与人体非常相似。现有的行人检测算法主要包括背景建模方法(例如帧差法) 和统计学习方法(例如神经网络，SVM和深度学习方法)。背景建模方法易受光照，抖动影响。统计学习方法中的深度学习由于其对光照，尺度差异的鲁棒性，目前广泛应用于行人检测中，但是已经存在的模型都是对于清晰的，高分辨率的图像行人检测准确率高，对于低分辨率的监控图像有待提升。

发明内容

发明目的：针对现有技术存在的不足，本发明的目的是提供一种基于超分辨率重构的监控视频行人检测方法，对所获取的低分辨率监控视频图像，采用超分辨率GAN网络先对监控视频图像进行预处理，然后输入到基于深度学习的检测网络中进行行人检测。

技术方案：为了实现上述发明目的，本发明采用的技术方案如下：

步骤1：收集低分辨率监控视频图像；

步骤2：对收集到图像，缩小为原图的四分之一，和原图一起输入到SRGAN 网络(超分辨率生成对抗网络)，对SRGAN网络进行预训练；

步骤3：将原图输入到预训练过的SRGAN网络，得到超分辨率图像；

步骤4：对超分辨率图像进行一次双线性插值，得到更清晰图像；

步骤5：将步骤4中得到的更清晰的图像输入到FasterR-CNN检测网络，进行行人检测。

进一步的技术方案是，步骤2中对SRGAN网络(超分辨率生成对抗网络) 进行预训练的具体步骤如下：

步骤2-1：将低分辨率图像缩小为原图的四分之一大小；

步骤2-2：将步骤2-1得到的图像作为网络输入图像，输入到SRGAN网络，生成为输入图像的4倍超分辨率图像即为生成图，并将原图作为标签图，生成图与标签图计算差异值，实现SRGAN网络的预训练。

进一步的技术方案是，所述步骤2中所述的SRGAN网络(超分辨率生成对抗网络)是由一个生成网络和一个判别网络组成，所述生成网络部分包含多个残差块和两个损失函数；所述步骤2-2为，将步骤2-1得到的图像输入到生成网络，并结合BN，生成超分辨率图像即生成图，将生成图与标签图一起输入到判别网络，判断是生成的高分辨率图像还是真正的高分辨率图像。

进一步地技术方案是，所述残差块按顺序由1个的Conv-PReLU子网络结构， 5个Conv-Bn-PReLU-Conv-BN子网络结构，1个Conv-BN子网络结构，一个 Conv-PixelShuffler*2-PReLU子网络和一个Conv层组成。

进一步地技术方案是，所述判别网络是由1个Conv-Leaky ReLU子网络块， 7个Conv-BN-Leaky ReLU子网络块，一个Dense-Leaky ReLU-Dense子网络组成，其后接一个Sigmoid函数，进行二分类；所述判别网络还包含一个判别损失函数，用来判定生成图是不是真正的高分辨率图像。

进一步的技术方案是，步骤5包括：

步骤5-1：将清晰图resize大小到224*224*3；

步骤5-2：输入224*224*3大小的图像到FasterR-CNN检测网络，进行行人检测，得到行人框坐标，将画有行人框的图像输出。

进一步的技术方案是，所述的FasterR-CNN检测网络是一个由ResNet50作为基本网络结构，后接RPN(Region Proposal Network，提取候选框网络)层，再经RoI pooling层得到感兴趣区域，对感兴趣区域进行分类，最后在原图画出行人的外接框。

进一步的技术方案是，FasterR-CNN检测网络的网络输入层是大小为 224*224*3的RGB图像；FasterR-CNN首先使用ResNet50网络提取图像的特征图；该特征图被共享用于后续RPN层和全连接层；

所述RPN网络用于生成region proposals(区域候选框)，该层通过softmax 函数判断anchors属于正样本还是负样本，再利用bounding box regression(候选框回归)来修正anchors获得精确的候选框；

所述Roi Pooling，该层收集输入的特征图和候选框，综合这些信息后提取proposal feature maps(候选框特征)，送入后续全连接层判定目标类别；分类层，利用proposal feature maps计算候选框的类别，同时再次bounding box regression 获得检测最终的精确位置。

有益效果：与现有技术相比，本发明具有以下优点：本发明与现有技术相比，其显著有点是：(1)对光照变化，场景变化和行人大小变化有较强的鲁棒性；(2) 能得到低分辨率图像的清晰图像；(3)准确率高，能满足一般的行人定位要求； (4)普适性，能应用到一般的监控视频；(5)硬件要求简单，易于大规模推广。

附图说明

图1是本发明的算法流程图；

图2是超分辨率GAN网络框架图；

图3是FasterR-CNN行人检测网络框架图；

图4是本发明使用传统方法和GAN方法进行超分辨率处理对比图；

图5是本发明不同方法的行人检测结果图。

具体实施方式

下面结合附图进一步阐明本发明。

第一步：收集低分辨率监控视频图像。

收集不同视角的监控视频，每隔24帧保留一帧，通过已有检测算法进行行人检测，得到行人坐标框，然后进行人工校准，得到图像中行人的位置和类别信息。

将低分辨率图像缩小为原图的四分之一大小；输入到SRGAN网络。

第二步：图像超分辨率处理。

本发明采用SRGAN网络(超分辨率生成对抗网络)对视频图像进行预训练。具体为SRGAN网络由一个生成网络和一个判别网络组成，将缩小为原来四分之一的低分辨率图像作为输入图输入生成网络，并结合BN，生成输入图的4倍超分辨率图像即为生成图，并将原图作为标签图，生成图与标签图计算差异值(即将生成图与标签图一起输入到判别网络，判断是生成的高分辨率图像还是真正的高分辨率图像。如图2。)

具体描述如下：

生成网络部分包含多个残差块和两个损失函数。这些残差块按顺序由1个的Conv-PReLU子网络结构，5个Conv-Bn-PReLU-Conv-BN子网络结构，1个 Conv-BN子网络结构，一个Conv-PixelShuffler*2-PReLU子网络和一个Conv层组成。其中卷积层大小为3x3的卷积层。PixelShuffler*2是指2倍子像素卷积层，用于增加特征大小。损失函数包括感知内容损失和对抗损失。图像经过生成网络可以生成超分辨率图像即生成图。

将标签图和生成图一起输入到判别网络。判别网络是由1个Conv-Leaky ReLU子网络块，7个Conv-BN-Leaky ReLU子网络块，一个Dense-Leaky ReLU-Dense子网络组成，其后接一个Sigmoid函数，进行二分类。判别网络包含一个判别损失函数，用来判定生成图是不是真正的高分辨率图像。

将原图输入到预训练过的SRGAN网络，得到超分辨率图像；

第三步：对超分辨率重建图像进行双线性插值。

第四步：行人检测。

对超分辨率图像进行双线性插值，得到能突出重要边界的清晰图像。并将清晰图输入到FasterR-CNN检测网络进行检测。

本发明的FasterR-CNN检测网络是一个由ResNet50作为基本网络结构，如图3，后接RPN(Region Proposal Network，提取候选框网络)层，再经RoI pooling 层得到感兴趣区域，对感兴趣区域进行分类，最后在原图画出行人的外接框。具体地，网络输入层是大小为224*224*3的RGB图像；FasterR-CNN首先使用 ResNet50骨干网络提取图像的特征图。该特征图被共享用于后续RPN层和全连接层。RPN网络用于生成region proposals(区域候选框)。该层通过softmax函数判断anchors属于正样本还是负样本，再利用bounding boxregression(候选框回归)来修正anchors获得精确的候选框。Roi Pooling，该层收集输入的特征图和候选框，综合这些信息后提取proposal feature maps(候选框特征)，送入后续全连接层判定目标类别。分类层，利用proposal feature maps计算候选框的类别，同时再次bounding box regression获得检测最终的精确位置。

图4是本发明不同方法的超分辨率重建图，其中(a)为输入图，(b)、(c) 分别为双线性插值法(BI)和SRGAN方法的重构图，(d)为4倍分辨率原图。图5是本发明不同方法的行人检测结果图，第一行是原图行人检测，第二行是传统方法超分辨率处理后的行人检测，第三行是利用GAN网络进行超分辨率处理后的结果图。可以看出第三行(即超分辨率重构图像的行人检测方法)检测的行人更准确，漏检少且得到的检测框不多余。以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于超分辨率重构的监控视频行人检测方法，其特征在于：包括以下步骤：

步骤1：收集低分辨率监控视频图像；

步骤2：对收集到图像，缩小为原图的四分之一，和原图一起输入到SRGAN网络(超分辨率生成对抗网络)，对SRGAN网络进行预训练；

步骤4：对超分辨率图像进行一次双线性插值(BilinearInterpolation,BI)，得到更清晰图像；

2.根据权利要求1所述的基于超分辨率重构的监控视频行人检测方法，其特征在于：所述步骤2中对SRGAN网络(超分辨率生成对抗网络)进行预训练的具体步骤如下：

步骤2-1：将低分辨率图像缩小为原图的四分之一大小；

步骤2-2：将步骤2-1得到的图像输入到SRGAN网络，生成为输入图像的4倍超分辨率图像即为生成图，并将原图作为标签图，生成图与标签图计算差异值，实现SRGAN网络的预训练。

3.根据权利要求2所述的基于超分辨率重构的监控视频行人检测方法，其特征在于：所述步骤2中所述的SRGAN网络(超分辨率生成对抗网络)是由一个生成网络和一个判别网络组成；生成网络部分包含多个残差块和两个损失函数；所述步骤2-2为，将步骤2-1得到的图像输入到生成网络，并结合BN，生成超分辨率图像即生成图，将生成图与标签图一起输入到判别网络，判断是生成的高分辨率图像还是真正的高分辨率图像。

4.根据权利要求2所述的基于超分辨率重构的监控视频行人检测方法，其特征在于：所述残差块按顺序由1个的Conv-PReLU子网络结构，5个Conv-Bn-PReLU-Conv-BN子网络结构，1个Conv-BN子网络结构，一个Conv-PixelShuffler*2-PReLU子网络和一个Conv层组成。

5.根据权利要求3所述的基于超分辨率重构的监控视频行人检测方法，其特征在于：所述判别网络是由1个Conv-Leaky ReLU子网络块，7个Conv-BN-Leaky ReLU子网络块，一个Dense-Leaky ReLU-Dense子网络组成，其后接一个Sigmoid函数，进行二分类；所述判别网络还包含一个判别损失函数，用来判定生成图是不是真正的高分辨率图像。

6.根据权利要求1所述的基于超分辨率重构的监控视频行人检测方法，其特征在于：步骤5包括：

步骤5-1：将清晰图resize大小到224*224*3；

步骤5-2：输入224*224*3大小的图像到FasterR-CNN检测网络训练，得到模型，进行行人检测，返回行人框坐标，将画有行人框的图像输出。

7.根据权利要求6所述的基于超分辨率重构的监控视频行人检测方法，其特征在于：所述的FasterR-CNN检测网络是一个由ResNet50作为基本网络结构，后接RPN(RegionProposal Network，提取候选框网络)层，再经RoI pooling层得到感兴趣区域，对感兴趣区域进行分类，最后在原图画出行人的外接框。

8.根据权利要求7所述的基于超分辨率重构的监控视频行人检测方法，其特征在于：FasterR-CNN检测网络的网络输入层是大小为224*224*3的RGB图像；FasterR-CNN首先使用ResNet50网络提取图像的特征图；该特征图被共享用于后续RPN层和全连接层；

所述RPN网络用于生成region proposals(区域候选框)，该层通过softmax函数判断anchors属于正样本还是负样本，再利用bounding box regression(候选框回归)来修正anchors获得精确的候选框；

所述Roi Pooling，该层收集输入的特征图和候选框，综合这些信息后提取proposalfeature maps(候选框特征)，送入后续全连接层判定目标类别；分类层，利用proposalfeature maps计算候选框的类别，同时再次bounding box regression获得检测最终的精确位置。