CN107563299B - 一种利用ReCNN融合上下文信息的行人检测方法 - Google Patents

一种利用ReCNN融合上下文信息的行人检测方法 Download PDF

Info

Publication number
CN107563299B
CN107563299B CN201710670156.4A CN201710670156A CN107563299B CN 107563299 B CN107563299 B CN 107563299B CN 201710670156 A CN201710670156 A CN 201710670156A CN 107563299 B CN107563299 B CN 107563299B
Authority
CN
China
Prior art keywords
pedestrian
recnn
image
context information
detection frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710670156.4A
Other languages
English (en)
Other versions
CN107563299A (zh
Inventor
李涛
李冬梅
赵雪专
裴利沈
朱晓珺
赵俊彬
汪伟
邹香玲
郭航宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Vocational University of Information and Technology
Original Assignee
Zhengzhou Vocational University of Information and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Vocational University of Information and Technology filed Critical Zhengzhou Vocational University of Information and Technology
Priority to CN201710670156.4A priority Critical patent/CN107563299B/zh
Publication of CN107563299A publication Critical patent/CN107563299A/zh
Application granted granted Critical
Publication of CN107563299B publication Critical patent/CN107563299B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明提供了一种利用ReCNN融合上下文信息的行人检测方法,包括以下步骤:步骤A:提取输入图像中包含上下文信息的特征;步骤B:利用ReCNN对输入图像中的行人位置进行预测,获取预测行人位置的掩码图;步骤C:确定输入图像中行人的位置;步骤D:训练融合上下文信息的ReCNN网络的参数;本发明所述的一种利用ReCNN融合上下文信息的行人检测方法利用ReCNN融合了视频中连续多张帧的图像信息,与利用单张图像信息相比可以获得更加准确的掩码图,进而提高行人位置检测的准确度。

Description

一种利用ReCNN融合上下文信息的行人检测方法
技术领域
本发明涉及污水处理站格栅机监测领域,尤其涉及一种利用ReCNN融合上下文信息的行人检测方法。
背景技术
视频监控场景下的行人检测是智慧城市的重要组成部分,也是计算机视觉的重要组成部分。但是,由于光照、视角、遮挡等因素的影响,监控场景下的行人检测仍亟需进一步提高。
当前,在视频监控下的行人检测主要有两大类方法,一种是传统的行人检测方法,一种是基于深度学习的行人检测方法。
传统的行人检测,主要是利用手工特征和分类模型进行行人检测。例如,DOT特征+SVM、HOG特征+Boosting、HOG+LBP联合特征+SVM等等。该类方法主要利用人为设计的低层特征,进行行人表征的刻画,缺乏抗干扰性和准确性。
基于深度学习的行人检测主要指利用卷积神经网络(Convolutional NeuralNetwork,简称CNN)直接从大量图像中提取更高层的数据抽象,自动学习表达能力强和判别能力好的行人特征。但该类方法主要利用单张检测图像的信息进行行人检测,而忽略了视频中多帧图像的上下文信息。
为此,本方案提出了一种利用递归卷积神经网络(Recurrent ConvolutionalNeural Network,简称ReCNN)融合上下文信息的行人检测方法,该方法利用ReCNN学习视频中连续帧的上下文信息,提高掩码图中行人位置预测的准确度,相较于当前方法,利用了视频多帧形成的上下文信息,从而进一步提高了行人检测的准确性。
发明内容
本发明的目的在于提供一种利用ReCNN融合上下文信息的行人检测方法,能够实时监控格栅机是否正常工作,防止出现由于操作工没有及时发现格栅机损坏而导致污水处理失败的情况。
为了实现上述目的,本发明采用以下技术方案:
一种利用ReCNN融合上下文信息的行人检测方法,包括以下步骤:
步骤A:提取输入图像中包含上下文信息(行人的位置信息和背景信息)的特征;
步骤B:利用ReCNN对输入图像中的行人位置进行预测,获取预测行人位置的掩码图;
步骤C:确定输入图像中行人的位置;
步骤D:训练融合上下文信息的ReCNN网络的参数。
所述的步骤A包括以下步骤:
步骤A1:定义监控视频图像总共包含N帧图像,第t帧图像表示为I(t),其中,t=1,2...,N;
步骤A2:利用一个截断的卷积神经网络提取I(t-2)、I(t-1)和I(t)连续三帧输入图像的三个特征图组,分别表示为X(t-2)、X(t-1)和X(t),其中,
X(t)={x1(t),X2(t),...,xM(t)},
其中,M表示特征图的数量。
所述的步骤C包括以下步骤:
步骤C1:按比例将掩码图y放大,直至掩码图y的尺寸与输入图像的尺寸相同;
步骤C2:根据视频(输入图像)中不同行人的尺寸,设置多个大小与行人尺寸对应的行人位置检测框;
步骤C3:在掩码图y上以遍历的方式滑动行人位置检测框,若检测框中所有元素值之和小于检测框面积的60%,那么判断此区域的行人位置检测框中不包含行人,行人位置检测框滑动到下一位置继续检测;反之,则判断此位置的行人位置检测框中包含行人;
步骤C4:所有尺寸的行人位置检测框在掩码图y上滑动后,使用非最大抑制算法合并相交的检测框,其中,当大检测框覆盖小检测框时,保留大检测框。
所述的步骤D包括以下步骤:
步骤D1:确定训练集;
步骤D2:确定目标函数;
步骤D3:训练融合上下文信息的递归卷积神经网络的参数。
所述的步骤D3包括以下步骤:
步骤D31:按照以下方式计算掩码图对于目标函数的梯度;
步骤D32:按照以下方式计算递归卷积核
Figure BDA0001372247910000031
关于目标函数的梯度;
步骤D33:按照以下方式计算前向卷积核
Figure BDA0001372247910000032
关于目标函数的梯度。
本发明的有益效果:
本发明所述的一种利用ReCNN融合上下文信息的行人检测方法利用ReCNN融合了视频中连续多张帧的图像信息,与利用单张图像信息相比可以获得更加准确的掩码图,进而提高行人位置检测的准确度。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的方法流程图;
图2为本发明的结构示意图;
图3位本发明在三种不同数据集上的效果示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1和图2所示,本发明所述的一种利用ReCNN融合上下文信息的行人检测方法包括以下步骤:
步骤A:提取输入图像中包含上下文信息(行人的位置信息和背景信息)的特征,具体采用以下方法:
步骤A1:定义监控视频图像总共包含N帧图像,第t帧图像表示为I(t),其中,t=1,2...,N;
步骤A2:利用一个截断的卷积神经网络提取I(t-2)、I(t-1)和I(t)连续三帧输入图像的三个特征图组,分别表示为X(t-2)、X(t-1)和X(t),其中,
X(t)={x1(t),x2(t),...,xM(t)},
其中,M表示特征图的数量;
所述的一个截断的卷积神经网络采用深度神经网络VGG采用VGG的前16层结构,众所周知,深度神经网络VGG的前16层结构可由每帧输入图像提取512张特征图输出,既X(t)={x1(t),x2(t),...,xM(t)},其中,M表示特征图的数量,取值512,既每个特征图组中包含相同尺寸和数量的512特征图,由于深度神经网络VGG中含有几个池化层,因此上述特征图的尺寸按照输入图像的尺寸等比例缩小,但是特征图中上下文信息之间的位置关系不变。
步骤B:利用ReCNN对输入图像中的行人位置进行预测,获取预测行人位置的掩码图,具体采用以下方法:
在包含上下文信息的特征提取之后,本发明利用递归卷积神经网络ReCNN融合步骤A2中所述的连续三帧图像I(t-2)、I(t-1)和I(t)的三个特征图组X(t-2)、X(t-1)和X(t),输出一张预测行人位置的掩码图y:
Figure BDA0001372247910000041
其中,
Figure BDA0001372247910000042
表示递归卷积核,
Figure BDA0001372247910000043
表示前向卷积核,本发明中,两类卷积核的大小均为3×3,
Figure BDA0001372247910000044
表示卷积操作,b表示偏移量,函数f(x)采用sigmoid激活函数;通过sigmoid激活函数,掩码图y中所有元素的取值范围可归一化到0到1之间,表示行人在输入图像中相应位置的概率值。如图1所示,如果区域趋近于红色,表示该区域是有较大可能性是行人位置。
在掩码图y中,输入图像I(t-2)和I(t-1)的特征图组X(t-2)和特征组X(t-1)通过卷积递归卷积核作用于掩码图y,而输入图像I(t)的特征图组X(t通过卷积前向卷积核作用于掩码图y;在此过程中,借助输入图像I(t-2)和I(t-1)中行人的位置信息和背景信息,也就是相关的上下文信息可预判输入图像I(t)中行人的位置以及排除输入图像I(t)中不可能出现行人的位置,这样不仅有助于检测遮挡的行人,还可以有效地减少行人位置的误报数量。
步骤C:确定输入图像中行人的位置,具体采用以下方法:
步骤C1:按比例将掩码图y放大,直至掩码图y的尺寸与输入图像的尺寸相同;
步骤C2:根据视频(输入图像)中不同行人的尺寸,设置多个大小与行人尺寸对应的行人位置检测框;
步骤C3:在掩码图y上以遍历的方式滑动行人位置检测框,若检测框中所有元素值之和小于检测框面积的60%,那么判断此区域的行人位置检测框中不包含行人,行人位置检测框滑动到下一位置继续检测;反之,则判断此位置的行人位置检测框中包含行人;
步骤C4:所有尺寸的行人位置检测框在掩码图y上滑动后,使用非最大抑制算法合并相交的检测框,其中,当大检测框覆盖小检测框时,保留大检测框。
步骤D:训练利用ReCNN融合上下文信息形成的行人检测模型的参数,具体采用以下方法:
步骤D1:确定训练集,为了训练利用ReCNN融合上下文信息形成的行人检测模型的参数,需要从视频中截取多帧输入图像,并手工标注输入图像中行人的位置;假设连续三帧输入图像集表示为s={I(t-2),I(t-1),I(t)},第t帧输入图像I(t)对应的真实掩码图为m,则当=3,4,...,N时,所有图像集s和真实掩码图m组成训练集T;
步骤D2:确定目标函数,本发明采用目标函数L为:
Figure BDA0001372247910000051
其中,(y-m)计算了预测掩码图与真实掩码图之间的误差,参数δ为漏报惩罚系数,其大小为0.1,避免掩码图y中元素全部为零,
Figure BDA0001372247910000052
表示两个矩阵之间的点乘操作;
步骤D3:训练递归卷积神经网络的参数,具体方法为:
步骤D31:按照以下方式计算掩码图对于目标函数的梯度:
Figure BDA0001372247910000053
步骤D32:按照以下方式计算递归卷积核
Figure BDA0001372247910000054
关于目标函数的梯度:
Figure BDA0001372247910000055
步骤D33:按照以下方式计算前向卷积核
Figure BDA0001372247910000056
关于目标函数的梯度:
Figure BDA0001372247910000061
在训练过程中,递归卷积神经网络中的参数随机初始化,而卷积神经网络中的参数采用常用VGG网络进行初始化,且使用相同的大小为10-2的学习率α调整卷积神经网络和递归卷积神经网络。
如图3所示:本方案利用ReCNN(递归卷积神经网络)融合了视频中连续多张帧的图像信息,与利用单张图像信息相比可以获得更加准确的掩码图,进而提高行人位置检测的准确度。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (4)

1.一种利用ReCNN融合上下文信息的行人检测方法,其特征在于,包括以下步骤:
步骤A:提取输入图像中包含上下文信息的特征;
所述的步骤A包括以下步骤:
步骤A1:定义监控视频图像总共包含N帧图像,第t帧图像表示为I(t),其中, t=1,2…,N;
步骤A2:利用一个截断的卷积神经网络提取I(t-2)、I(t-1)和I(t)连续三帧输入图像的三个特征图组,分别表示为X(t-2)、X(t-1)和X(t),其中,
X(t)={x1(t),x2(t),…,xM(t)},
其中,M表示特征图的数量;
步骤B:利用ReCNN对输入图像中的行人位置进行预测,获取预测行人位置的掩码图,具体的:
利用ReCNN融合步骤A2中所述的连续三帧输入图像I(t-2)、I(t-1)和I(t)的三个特征图组X(t-2)、X(t-1)和X(t),输出一张预测行人位置的掩码图y:
Figure FDA0002959482730000011
其中,
Figure FDA0002959482730000012
表示递归卷积核,Wi f表示前向卷积核,
Figure FDA0002959482730000014
和Wi f的大小均为3×3,
Figure FDA0002959482730000013
表示卷积操作,b表示偏移量,函数f(x)采用sigmoid激活函数;
步骤C:确定输入图像中行人的位置;
步骤D:训练融合上下文信息的ReCNN网络的参数。
2.根据权利要求1所述的一种利用ReCNN融合上下文信息的行人检测方法,其特征在于,所述的步骤C包括以下步骤:
步骤C1:按比例将掩码图y放大,直至掩码图y的尺寸与输入图像的尺寸相同;
步骤C2:根据视频输入图像中不同行人的尺寸,设置多个大小与行人尺寸对应的行人位置检测框;
步骤C3:在掩码图y上以遍历的方式滑动行人位置检测框,若检测框中所有元素值之和小于检测框面积的60%,那么判断此区域的行人位置检测框中不包含行人,行人位置检测框滑动到下一位置继续检测;反之,则判断此位置的行人位置检测框中包含行人;
步骤C4:所有尺寸的行人位置检测框在掩码图y上滑动后,使用非最大抑制算法合并相交的检测框,其中,当大检测框覆盖小检测框时,保留大检测框。
3.根据权利要求1所述的一种利用ReCNN融合上下文信息的行人检测方法,其特征在于,所述的步骤D包括以下步骤:
步骤D1:确定训练集;
步骤D2:确定目标函数;
步骤D3:训练融合上下文信息的递归卷积神经网络的参数。
4.根据权利要求3所述的一种利用ReCNN融合上下文信息的行人检测方法,其特征在于,所述的步骤D3包括以下步骤:
步骤D31:计算掩码图对于目标函数的梯度;
步骤D32:计算递归卷积核
Figure FDA0002959482730000021
关于目标函数的梯度;
步骤D33:计算前向卷积核Wi f关于目标函数的梯度。
CN201710670156.4A 2017-08-07 2017-08-07 一种利用ReCNN融合上下文信息的行人检测方法 Active CN107563299B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710670156.4A CN107563299B (zh) 2017-08-07 2017-08-07 一种利用ReCNN融合上下文信息的行人检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710670156.4A CN107563299B (zh) 2017-08-07 2017-08-07 一种利用ReCNN融合上下文信息的行人检测方法

Publications (2)

Publication Number Publication Date
CN107563299A CN107563299A (zh) 2018-01-09
CN107563299B true CN107563299B (zh) 2021-06-15

Family

ID=60975021

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710670156.4A Active CN107563299B (zh) 2017-08-07 2017-08-07 一种利用ReCNN融合上下文信息的行人检测方法

Country Status (1)

Country Link
CN (1) CN107563299B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492755B (zh) * 2018-11-07 2022-03-01 北京旷视科技有限公司 图像处理方法、图像处理装置和计算机可读存储介质
CN110110599B (zh) * 2019-04-03 2023-05-09 天津大学 一种基于多尺度特征融合的遥感图像目标检测方法
CN110298238B (zh) * 2019-05-20 2023-06-30 平安科技(深圳)有限公司 行人视觉跟踪方法、模型训练方法、装置、设备及存储介质
CN110929695B (zh) * 2019-12-12 2024-02-27 易诚高科(大连)科技有限公司 一种人脸识别和行人重识别关联方法
CN112258552A (zh) * 2020-09-15 2021-01-22 青岛邃智信息科技有限公司 一种社区监控场景下行人多目标跟踪方法
CN112163499A (zh) * 2020-09-23 2021-01-01 电子科技大学 一种基于融合特征的小目标行人检测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8345984B2 (en) * 2010-01-28 2013-01-01 Nec Laboratories America, Inc. 3D convolutional neural networks for automatic human action recognition
CN106372597A (zh) * 2016-08-31 2017-02-01 李涛 基于自适应上下文信息的cnn交通检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8345984B2 (en) * 2010-01-28 2013-01-01 Nec Laboratories America, Inc. 3D convolutional neural networks for automatic human action recognition
CN106372597A (zh) * 2016-08-31 2017-02-01 李涛 基于自适应上下文信息的cnn交通检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于上下文的目标检测研究;李涛;《中国博士学位论文全文数据库 信息科技辑》;20170215(第02期);第88-104页 *
基于深度学习的目标跟踪方法研究现状与展望;罗海波、许凌云、惠斌、常铮;《红外与激光工程》;20170531;第46卷(第5期);第6页 *

Also Published As

Publication number Publication date
CN107563299A (zh) 2018-01-09

Similar Documents

Publication Publication Date Title
CN107563299B (zh) 一种利用ReCNN融合上下文信息的行人检测方法
CN112232349B (zh) 模型训练方法、图像分割方法及装置
CN110276767B (zh) 图像处理方法和装置、电子设备、计算机可读存储介质
CN111160379B (zh) 图像检测模型的训练方法及装置、目标检测方法及装置
CN111723654B (zh) 基于背景建模、YOLOv3与自优化的高空抛物检测方法及装置
CN108062525B (zh) 一种基于手部区域预测的深度学习手部检测方法
CN112001339A (zh) 一种基于YOLO v4的行人社交距离实时监测方法
KR20190019822A (ko) 이미지의 시맨틱 분리를 위한 시스템 및 방법
CN111709285A (zh) 一种基于无人机的疫情防护监控方法、装置和存储介质
CN112132156A (zh) 多深度特征融合的图像显著性目标检测方法及系统
WO2020258077A1 (zh) 一种行人检测方法及装置
CN111582092B (zh) 一种基于人体骨架的行人异常行为检测方法
CN110569782A (zh) 一种基于深度学习目标检测方法
CN109766828A (zh) 一种车辆目标分割方法、装置及通信设备
CN112149476B (zh) 目标检测方法、装置、设备和存储介质
CN110781980B (zh) 目标检测模型的训练方法、目标检测方法及装置
CN110942456B (zh) 篡改图像检测方法、装置、设备及存储介质
CN111079539A (zh) 一种基于异常追踪的视频异常行为检测方法
Ramirez-Alonso et al. Temporal weighted learning model for background estimation with an automatic re-initialization stage and adaptive parameters update
CN111553337A (zh) 一种基于改进锚框的高光谱多目标检测方法
CN108229281B (zh) 神经网络的生成方法和人脸检测方法、装置及电子设备
Hedayati et al. Real-time background subtraction for video surveillance: From research to reality
Cao et al. YOLO-SF: YOLO for fire segmentation detection
CN112597995B (zh) 车牌检测模型训练方法、装置、设备及介质
CN105740819A (zh) 一种基于整数规划的人群密度估计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210521

Address after: 450000 Longzihu University Park, Wenyuan North Road, Zhengdong New District, Zhengzhou City, Henan Province

Applicant after: ZHENGZHOU VOCATIONAL University OF INFORMATION AND TECHNOLOGY

Address before: 224000 North 22nd floor, Kechuang building, landscape Avenue, Xindu street, Chengnan New District, Yancheng City, Jiangsu Province (CND)

Applicant before: YANCHENG CHANTU INTELLIGENT TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant