CN107563299B

CN107563299B - 一种利用ReCNN融合上下文信息的行人检测方法

Info

Publication number: CN107563299B
Application number: CN201710670156.4A
Authority: CN
Inventors: 李涛; 李冬梅; 赵雪专; 裴利沈; 朱晓珺; 赵俊彬; 汪伟; 邹香玲; 郭航宇
Original assignee: Zhengzhou Vocational University of Information and Technology
Current assignee: Zhengzhou Vocational University of Information and Technology
Priority date: 2017-08-07
Filing date: 2017-08-07
Publication date: 2021-06-15
Anticipated expiration: 2037-08-07
Also published as: CN107563299A

Abstract

本发明提供了一种利用ReCNN融合上下文信息的行人检测方法，包括以下步骤：步骤A：提取输入图像中包含上下文信息的特征；步骤B：利用ReCNN对输入图像中的行人位置进行预测，获取预测行人位置的掩码图；步骤C：确定输入图像中行人的位置；步骤D：训练融合上下文信息的ReCNN网络的参数；本发明所述的一种利用ReCNN融合上下文信息的行人检测方法利用ReCNN融合了视频中连续多张帧的图像信息，与利用单张图像信息相比可以获得更加准确的掩码图，进而提高行人位置检测的准确度。

Description

一种利用ReCNN融合上下文信息的行人检测方法

技术领域

本发明涉及污水处理站格栅机监测领域，尤其涉及一种利用ReCNN融合上下文信息的行人检测方法。

背景技术

视频监控场景下的行人检测是智慧城市的重要组成部分，也是计算机视觉的重要组成部分。但是，由于光照、视角、遮挡等因素的影响，监控场景下的行人检测仍亟需进一步提高。

当前，在视频监控下的行人检测主要有两大类方法，一种是传统的行人检测方法，一种是基于深度学习的行人检测方法。

传统的行人检测，主要是利用手工特征和分类模型进行行人检测。例如，DOT特征+SVM、HOG特征+Boosting、HOG+LBP联合特征+SVM等等。该类方法主要利用人为设计的低层特征，进行行人表征的刻画，缺乏抗干扰性和准确性。

基于深度学习的行人检测主要指利用卷积神经网络(Convolutional NeuralNetwork，简称CNN)直接从大量图像中提取更高层的数据抽象，自动学习表达能力强和判别能力好的行人特征。但该类方法主要利用单张检测图像的信息进行行人检测，而忽略了视频中多帧图像的上下文信息。

为此，本方案提出了一种利用递归卷积神经网络(Recurrent ConvolutionalNeural Network，简称ReCNN)融合上下文信息的行人检测方法，该方法利用ReCNN学习视频中连续帧的上下文信息，提高掩码图中行人位置预测的准确度，相较于当前方法，利用了视频多帧形成的上下文信息，从而进一步提高了行人检测的准确性。

发明内容

本发明的目的在于提供一种利用ReCNN融合上下文信息的行人检测方法，能够实时监控格栅机是否正常工作，防止出现由于操作工没有及时发现格栅机损坏而导致污水处理失败的情况。

为了实现上述目的，本发明采用以下技术方案：

一种利用ReCNN融合上下文信息的行人检测方法，包括以下步骤：

步骤A：提取输入图像中包含上下文信息(行人的位置信息和背景信息)的特征；

步骤B：利用ReCNN对输入图像中的行人位置进行预测，获取预测行人位置的掩码图；

步骤C：确定输入图像中行人的位置；

步骤D：训练融合上下文信息的ReCNN网络的参数。

所述的步骤A包括以下步骤：

步骤A1：定义监控视频图像总共包含N帧图像，第t帧图像表示为I(t)，其中，t＝1，2...，N；

步骤A2：利用一个截断的卷积神经网络提取I(t-2)、I(t-1)和I(t)连续三帧输入图像的三个特征图组，分别表示为X(t-2)、X(t-1)和X(t)，其中，

X(t)＝{x₁(t)，X₂(t)，...，x_M(t)}，

其中，M表示特征图的数量。

所述的步骤C包括以下步骤：

步骤C1：按比例将掩码图y放大，直至掩码图y的尺寸与输入图像的尺寸相同；

步骤C2：根据视频(输入图像)中不同行人的尺寸，设置多个大小与行人尺寸对应的行人位置检测框；

步骤C3：在掩码图y上以遍历的方式滑动行人位置检测框，若检测框中所有元素值之和小于检测框面积的60％，那么判断此区域的行人位置检测框中不包含行人，行人位置检测框滑动到下一位置继续检测；反之，则判断此位置的行人位置检测框中包含行人；

步骤C4：所有尺寸的行人位置检测框在掩码图y上滑动后，使用非最大抑制算法合并相交的检测框，其中，当大检测框覆盖小检测框时，保留大检测框。

所述的步骤D包括以下步骤：

步骤D1：确定训练集；

步骤D2：确定目标函数；

步骤D3：训练融合上下文信息的递归卷积神经网络的参数。

所述的步骤D3包括以下步骤：

步骤D31：按照以下方式计算掩码图对于目标函数的梯度；

步骤D32：按照以下方式计算递归卷积核

关于目标函数的梯度；

步骤D33：按照以下方式计算前向卷积核

关于目标函数的梯度。

本发明的有益效果：

本发明所述的一种利用ReCNN融合上下文信息的行人检测方法利用ReCNN融合了视频中连续多张帧的图像信息，与利用单张图像信息相比可以获得更加准确的掩码图，进而提高行人位置检测的准确度。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的方法流程图；

图2为本发明的结构示意图；

图3位本发明在三种不同数据集上的效果示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1和图2所示，本发明所述的一种利用ReCNN融合上下文信息的行人检测方法包括以下步骤：

步骤A：提取输入图像中包含上下文信息(行人的位置信息和背景信息)的特征，具体采用以下方法：

X(t)＝{x₁(t)，x₂(t)，...，x_M(t)}，

其中，M表示特征图的数量；

所述的一个截断的卷积神经网络采用深度神经网络VGG采用VGG的前16层结构，众所周知，深度神经网络VGG的前16层结构可由每帧输入图像提取512张特征图输出，既X(t)＝{x₁(t)，x₂(t)，...，x_M(t)}，其中，M表示特征图的数量，取值512，既每个特征图组中包含相同尺寸和数量的512特征图，由于深度神经网络VGG中含有几个池化层，因此上述特征图的尺寸按照输入图像的尺寸等比例缩小，但是特征图中上下文信息之间的位置关系不变。

步骤B：利用ReCNN对输入图像中的行人位置进行预测，获取预测行人位置的掩码图，具体采用以下方法：

在包含上下文信息的特征提取之后，本发明利用递归卷积神经网络ReCNN融合步骤A2中所述的连续三帧图像I(t-2)、I(t-1)和I(t)的三个特征图组X(t-2)、X(t-1)和X(t)，输出一张预测行人位置的掩码图y：

其中，

表示递归卷积核，

表示前向卷积核，本发明中，两类卷积核的大小均为3×3，

表示卷积操作，b表示偏移量，函数f(x)采用sigmoid激活函数；通过sigmoid激活函数，掩码图y中所有元素的取值范围可归一化到0到1之间，表示行人在输入图像中相应位置的概率值。如图1所示，如果区域趋近于红色，表示该区域是有较大可能性是行人位置。

在掩码图y中，输入图像I(t-2)和I(t-1)的特征图组X(t-2)和特征组X(t-1)通过卷积递归卷积核作用于掩码图y，而输入图像I(t)的特征图组X(t通过卷积前向卷积核作用于掩码图y；在此过程中，借助输入图像I(t-2)和I(t-1)中行人的位置信息和背景信息，也就是相关的上下文信息可预判输入图像I(t)中行人的位置以及排除输入图像I(t)中不可能出现行人的位置，这样不仅有助于检测遮挡的行人，还可以有效地减少行人位置的误报数量。

步骤C：确定输入图像中行人的位置，具体采用以下方法：

步骤D：训练利用ReCNN融合上下文信息形成的行人检测模型的参数，具体采用以下方法：

步骤D1：确定训练集，为了训练利用ReCNN融合上下文信息形成的行人检测模型的参数，需要从视频中截取多帧输入图像，并手工标注输入图像中行人的位置；假设连续三帧输入图像集表示为s＝{I(t-2)，I(t-1)，I(t)}，第t帧输入图像I(t)对应的真实掩码图为m，则当＝3，4，...，N时，所有图像集s和真实掩码图m组成训练集T；

步骤D2：确定目标函数，本发明采用目标函数L为：

其中，(y-m)计算了预测掩码图与真实掩码图之间的误差，参数δ为漏报惩罚系数，其大小为0.1，避免掩码图y中元素全部为零，

表示两个矩阵之间的点乘操作；

步骤D3：训练递归卷积神经网络的参数，具体方法为：

步骤D31：按照以下方式计算掩码图对于目标函数的梯度：

步骤D32：按照以下方式计算递归卷积核

关于目标函数的梯度：

步骤D33：按照以下方式计算前向卷积核

关于目标函数的梯度：

在训练过程中，递归卷积神经网络中的参数随机初始化，而卷积神经网络中的参数采用常用VGG网络进行初始化，且使用相同的大小为10^-2的学习率α调整卷积神经网络和递归卷积神经网络。

如图3所示：本方案利用ReCNN(递归卷积神经网络)融合了视频中连续多张帧的图像信息，与利用单张图像信息相比可以获得更加准确的掩码图，进而提高行人位置检测的准确度。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。