CN107563299B - 一种利用ReCNN融合上下文信息的行人检测方法 - Google Patents
一种利用ReCNN融合上下文信息的行人检测方法 Download PDFInfo
- Publication number
- CN107563299B CN107563299B CN201710670156.4A CN201710670156A CN107563299B CN 107563299 B CN107563299 B CN 107563299B CN 201710670156 A CN201710670156 A CN 201710670156A CN 107563299 B CN107563299 B CN 107563299B
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- recnn
- image
- context information
- detection frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明提供了一种利用ReCNN融合上下文信息的行人检测方法,包括以下步骤:步骤A:提取输入图像中包含上下文信息的特征;步骤B:利用ReCNN对输入图像中的行人位置进行预测,获取预测行人位置的掩码图;步骤C:确定输入图像中行人的位置;步骤D:训练融合上下文信息的ReCNN网络的参数;本发明所述的一种利用ReCNN融合上下文信息的行人检测方法利用ReCNN融合了视频中连续多张帧的图像信息,与利用单张图像信息相比可以获得更加准确的掩码图,进而提高行人位置检测的准确度。
Description
技术领域
本发明涉及污水处理站格栅机监测领域,尤其涉及一种利用ReCNN融合上下文信息的行人检测方法。
背景技术
视频监控场景下的行人检测是智慧城市的重要组成部分,也是计算机视觉的重要组成部分。但是,由于光照、视角、遮挡等因素的影响,监控场景下的行人检测仍亟需进一步提高。
当前,在视频监控下的行人检测主要有两大类方法,一种是传统的行人检测方法,一种是基于深度学习的行人检测方法。
传统的行人检测,主要是利用手工特征和分类模型进行行人检测。例如,DOT特征+SVM、HOG特征+Boosting、HOG+LBP联合特征+SVM等等。该类方法主要利用人为设计的低层特征,进行行人表征的刻画,缺乏抗干扰性和准确性。
基于深度学习的行人检测主要指利用卷积神经网络(Convolutional NeuralNetwork,简称CNN)直接从大量图像中提取更高层的数据抽象,自动学习表达能力强和判别能力好的行人特征。但该类方法主要利用单张检测图像的信息进行行人检测,而忽略了视频中多帧图像的上下文信息。
为此,本方案提出了一种利用递归卷积神经网络(Recurrent ConvolutionalNeural Network,简称ReCNN)融合上下文信息的行人检测方法,该方法利用ReCNN学习视频中连续帧的上下文信息,提高掩码图中行人位置预测的准确度,相较于当前方法,利用了视频多帧形成的上下文信息,从而进一步提高了行人检测的准确性。
发明内容
本发明的目的在于提供一种利用ReCNN融合上下文信息的行人检测方法,能够实时监控格栅机是否正常工作,防止出现由于操作工没有及时发现格栅机损坏而导致污水处理失败的情况。
为了实现上述目的,本发明采用以下技术方案:
一种利用ReCNN融合上下文信息的行人检测方法,包括以下步骤:
步骤A:提取输入图像中包含上下文信息(行人的位置信息和背景信息)的特征;
步骤B:利用ReCNN对输入图像中的行人位置进行预测,获取预测行人位置的掩码图;
步骤C:确定输入图像中行人的位置;
步骤D:训练融合上下文信息的ReCNN网络的参数。
所述的步骤A包括以下步骤:
步骤A1:定义监控视频图像总共包含N帧图像,第t帧图像表示为I(t),其中,t=1,2...,N;
步骤A2:利用一个截断的卷积神经网络提取I(t-2)、I(t-1)和I(t)连续三帧输入图像的三个特征图组,分别表示为X(t-2)、X(t-1)和X(t),其中,
X(t)={x1(t),X2(t),...,xM(t)},
其中,M表示特征图的数量。
所述的步骤C包括以下步骤:
步骤C1:按比例将掩码图y放大,直至掩码图y的尺寸与输入图像的尺寸相同;
步骤C2:根据视频(输入图像)中不同行人的尺寸,设置多个大小与行人尺寸对应的行人位置检测框;
步骤C3:在掩码图y上以遍历的方式滑动行人位置检测框,若检测框中所有元素值之和小于检测框面积的60%,那么判断此区域的行人位置检测框中不包含行人,行人位置检测框滑动到下一位置继续检测;反之,则判断此位置的行人位置检测框中包含行人;
步骤C4:所有尺寸的行人位置检测框在掩码图y上滑动后,使用非最大抑制算法合并相交的检测框,其中,当大检测框覆盖小检测框时,保留大检测框。
所述的步骤D包括以下步骤:
步骤D1:确定训练集;
步骤D2:确定目标函数;
步骤D3:训练融合上下文信息的递归卷积神经网络的参数。
所述的步骤D3包括以下步骤:
步骤D31:按照以下方式计算掩码图对于目标函数的梯度;
本发明的有益效果:
本发明所述的一种利用ReCNN融合上下文信息的行人检测方法利用ReCNN融合了视频中连续多张帧的图像信息,与利用单张图像信息相比可以获得更加准确的掩码图,进而提高行人位置检测的准确度。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的方法流程图;
图2为本发明的结构示意图;
图3位本发明在三种不同数据集上的效果示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1和图2所示,本发明所述的一种利用ReCNN融合上下文信息的行人检测方法包括以下步骤:
步骤A:提取输入图像中包含上下文信息(行人的位置信息和背景信息)的特征,具体采用以下方法:
步骤A1:定义监控视频图像总共包含N帧图像,第t帧图像表示为I(t),其中,t=1,2...,N;
步骤A2:利用一个截断的卷积神经网络提取I(t-2)、I(t-1)和I(t)连续三帧输入图像的三个特征图组,分别表示为X(t-2)、X(t-1)和X(t),其中,
X(t)={x1(t),x2(t),...,xM(t)},
其中,M表示特征图的数量;
所述的一个截断的卷积神经网络采用深度神经网络VGG采用VGG的前16层结构,众所周知,深度神经网络VGG的前16层结构可由每帧输入图像提取512张特征图输出,既X(t)={x1(t),x2(t),...,xM(t)},其中,M表示特征图的数量,取值512,既每个特征图组中包含相同尺寸和数量的512特征图,由于深度神经网络VGG中含有几个池化层,因此上述特征图的尺寸按照输入图像的尺寸等比例缩小,但是特征图中上下文信息之间的位置关系不变。
步骤B:利用ReCNN对输入图像中的行人位置进行预测,获取预测行人位置的掩码图,具体采用以下方法:
在包含上下文信息的特征提取之后,本发明利用递归卷积神经网络ReCNN融合步骤A2中所述的连续三帧图像I(t-2)、I(t-1)和I(t)的三个特征图组X(t-2)、X(t-1)和X(t),输出一张预测行人位置的掩码图y:
其中,表示递归卷积核,表示前向卷积核,本发明中,两类卷积核的大小均为3×3,表示卷积操作,b表示偏移量,函数f(x)采用sigmoid激活函数;通过sigmoid激活函数,掩码图y中所有元素的取值范围可归一化到0到1之间,表示行人在输入图像中相应位置的概率值。如图1所示,如果区域趋近于红色,表示该区域是有较大可能性是行人位置。
在掩码图y中,输入图像I(t-2)和I(t-1)的特征图组X(t-2)和特征组X(t-1)通过卷积递归卷积核作用于掩码图y,而输入图像I(t)的特征图组X(t通过卷积前向卷积核作用于掩码图y;在此过程中,借助输入图像I(t-2)和I(t-1)中行人的位置信息和背景信息,也就是相关的上下文信息可预判输入图像I(t)中行人的位置以及排除输入图像I(t)中不可能出现行人的位置,这样不仅有助于检测遮挡的行人,还可以有效地减少行人位置的误报数量。
步骤C:确定输入图像中行人的位置,具体采用以下方法:
步骤C1:按比例将掩码图y放大,直至掩码图y的尺寸与输入图像的尺寸相同;
步骤C2:根据视频(输入图像)中不同行人的尺寸,设置多个大小与行人尺寸对应的行人位置检测框;
步骤C3:在掩码图y上以遍历的方式滑动行人位置检测框,若检测框中所有元素值之和小于检测框面积的60%,那么判断此区域的行人位置检测框中不包含行人,行人位置检测框滑动到下一位置继续检测;反之,则判断此位置的行人位置检测框中包含行人;
步骤C4:所有尺寸的行人位置检测框在掩码图y上滑动后,使用非最大抑制算法合并相交的检测框,其中,当大检测框覆盖小检测框时,保留大检测框。
步骤D:训练利用ReCNN融合上下文信息形成的行人检测模型的参数,具体采用以下方法:
步骤D1:确定训练集,为了训练利用ReCNN融合上下文信息形成的行人检测模型的参数,需要从视频中截取多帧输入图像,并手工标注输入图像中行人的位置;假设连续三帧输入图像集表示为s={I(t-2),I(t-1),I(t)},第t帧输入图像I(t)对应的真实掩码图为m,则当=3,4,...,N时,所有图像集s和真实掩码图m组成训练集T;
步骤D2:确定目标函数,本发明采用目标函数L为:
步骤D3:训练递归卷积神经网络的参数,具体方法为:
步骤D31:按照以下方式计算掩码图对于目标函数的梯度:
在训练过程中,递归卷积神经网络中的参数随机初始化,而卷积神经网络中的参数采用常用VGG网络进行初始化,且使用相同的大小为10-2的学习率α调整卷积神经网络和递归卷积神经网络。
如图3所示:本方案利用ReCNN(递归卷积神经网络)融合了视频中连续多张帧的图像信息,与利用单张图像信息相比可以获得更加准确的掩码图,进而提高行人位置检测的准确度。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (4)
1.一种利用ReCNN融合上下文信息的行人检测方法,其特征在于,包括以下步骤:
步骤A:提取输入图像中包含上下文信息的特征;
所述的步骤A包括以下步骤:
步骤A1:定义监控视频图像总共包含N帧图像,第t帧图像表示为I(t),其中, t=1,2…,N;
步骤A2:利用一个截断的卷积神经网络提取I(t-2)、I(t-1)和I(t)连续三帧输入图像的三个特征图组,分别表示为X(t-2)、X(t-1)和X(t),其中,
X(t)={x1(t),x2(t),…,xM(t)},
其中,M表示特征图的数量;
步骤B:利用ReCNN对输入图像中的行人位置进行预测,获取预测行人位置的掩码图,具体的:
利用ReCNN融合步骤A2中所述的连续三帧输入图像I(t-2)、I(t-1)和I(t)的三个特征图组X(t-2)、X(t-1)和X(t),输出一张预测行人位置的掩码图y:
步骤C:确定输入图像中行人的位置;
步骤D:训练融合上下文信息的ReCNN网络的参数。
2.根据权利要求1所述的一种利用ReCNN融合上下文信息的行人检测方法,其特征在于,所述的步骤C包括以下步骤:
步骤C1:按比例将掩码图y放大,直至掩码图y的尺寸与输入图像的尺寸相同;
步骤C2:根据视频输入图像中不同行人的尺寸,设置多个大小与行人尺寸对应的行人位置检测框;
步骤C3:在掩码图y上以遍历的方式滑动行人位置检测框,若检测框中所有元素值之和小于检测框面积的60%,那么判断此区域的行人位置检测框中不包含行人,行人位置检测框滑动到下一位置继续检测;反之,则判断此位置的行人位置检测框中包含行人;
步骤C4:所有尺寸的行人位置检测框在掩码图y上滑动后,使用非最大抑制算法合并相交的检测框,其中,当大检测框覆盖小检测框时,保留大检测框。
3.根据权利要求1所述的一种利用ReCNN融合上下文信息的行人检测方法,其特征在于,所述的步骤D包括以下步骤:
步骤D1:确定训练集;
步骤D2:确定目标函数;
步骤D3:训练融合上下文信息的递归卷积神经网络的参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710670156.4A CN107563299B (zh) | 2017-08-07 | 2017-08-07 | 一种利用ReCNN融合上下文信息的行人检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710670156.4A CN107563299B (zh) | 2017-08-07 | 2017-08-07 | 一种利用ReCNN融合上下文信息的行人检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107563299A CN107563299A (zh) | 2018-01-09 |
CN107563299B true CN107563299B (zh) | 2021-06-15 |
Family
ID=60975021
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710670156.4A Active CN107563299B (zh) | 2017-08-07 | 2017-08-07 | 一种利用ReCNN融合上下文信息的行人检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107563299B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492755B (zh) * | 2018-11-07 | 2022-03-01 | 北京旷视科技有限公司 | 图像处理方法、图像处理装置和计算机可读存储介质 |
CN110110599B (zh) * | 2019-04-03 | 2023-05-09 | 天津大学 | 一种基于多尺度特征融合的遥感图像目标检测方法 |
CN110298238B (zh) * | 2019-05-20 | 2023-06-30 | 平安科技(深圳)有限公司 | 行人视觉跟踪方法、模型训练方法、装置、设备及存储介质 |
CN110929695B (zh) * | 2019-12-12 | 2024-02-27 | 易诚高科(大连)科技有限公司 | 一种人脸识别和行人重识别关联方法 |
CN112258552A (zh) * | 2020-09-15 | 2021-01-22 | 青岛邃智信息科技有限公司 | 一种社区监控场景下行人多目标跟踪方法 |
CN112163499A (zh) * | 2020-09-23 | 2021-01-01 | 电子科技大学 | 一种基于融合特征的小目标行人检测方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8345984B2 (en) * | 2010-01-28 | 2013-01-01 | Nec Laboratories America, Inc. | 3D convolutional neural networks for automatic human action recognition |
CN106372597A (zh) * | 2016-08-31 | 2017-02-01 | 李涛 | 基于自适应上下文信息的cnn交通检测方法 |
-
2017
- 2017-08-07 CN CN201710670156.4A patent/CN107563299B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8345984B2 (en) * | 2010-01-28 | 2013-01-01 | Nec Laboratories America, Inc. | 3D convolutional neural networks for automatic human action recognition |
CN106372597A (zh) * | 2016-08-31 | 2017-02-01 | 李涛 | 基于自适应上下文信息的cnn交通检测方法 |
Non-Patent Citations (2)
Title |
---|
基于上下文的目标检测研究;李涛;《中国博士学位论文全文数据库 信息科技辑》;20170215(第02期);第88-104页 * |
基于深度学习的目标跟踪方法研究现状与展望;罗海波、许凌云、惠斌、常铮;《红外与激光工程》;20170531;第46卷(第5期);第6页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107563299A (zh) | 2018-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107563299B (zh) | 一种利用ReCNN融合上下文信息的行人检测方法 | |
CN112232349B (zh) | 模型训练方法、图像分割方法及装置 | |
CN110276767B (zh) | 图像处理方法和装置、电子设备、计算机可读存储介质 | |
CN111160379B (zh) | 图像检测模型的训练方法及装置、目标检测方法及装置 | |
CN111723654B (zh) | 基于背景建模、YOLOv3与自优化的高空抛物检测方法及装置 | |
CN108062525B (zh) | 一种基于手部区域预测的深度学习手部检测方法 | |
CN112001339A (zh) | 一种基于YOLO v4的行人社交距离实时监测方法 | |
KR20190019822A (ko) | 이미지의 시맨틱 분리를 위한 시스템 및 방법 | |
CN111709285A (zh) | 一种基于无人机的疫情防护监控方法、装置和存储介质 | |
CN112132156A (zh) | 多深度特征融合的图像显著性目标检测方法及系统 | |
WO2020258077A1 (zh) | 一种行人检测方法及装置 | |
CN111582092B (zh) | 一种基于人体骨架的行人异常行为检测方法 | |
CN110569782A (zh) | 一种基于深度学习目标检测方法 | |
CN109766828A (zh) | 一种车辆目标分割方法、装置及通信设备 | |
CN112149476B (zh) | 目标检测方法、装置、设备和存储介质 | |
CN110781980B (zh) | 目标检测模型的训练方法、目标检测方法及装置 | |
CN110942456B (zh) | 篡改图像检测方法、装置、设备及存储介质 | |
CN111079539A (zh) | 一种基于异常追踪的视频异常行为检测方法 | |
Ramirez-Alonso et al. | Temporal weighted learning model for background estimation with an automatic re-initialization stage and adaptive parameters update | |
CN111553337A (zh) | 一种基于改进锚框的高光谱多目标检测方法 | |
CN108229281B (zh) | 神经网络的生成方法和人脸检测方法、装置及电子设备 | |
Hedayati et al. | Real-time background subtraction for video surveillance: From research to reality | |
Cao et al. | YOLO-SF: YOLO for fire segmentation detection | |
CN112597995B (zh) | 车牌检测模型训练方法、装置、设备及介质 | |
CN105740819A (zh) | 一种基于整数规划的人群密度估计方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210521 Address after: 450000 Longzihu University Park, Wenyuan North Road, Zhengdong New District, Zhengzhou City, Henan Province Applicant after: ZHENGZHOU VOCATIONAL University OF INFORMATION AND TECHNOLOGY Address before: 224000 North 22nd floor, Kechuang building, landscape Avenue, Xindu street, Chengnan New District, Yancheng City, Jiangsu Province (CND) Applicant before: YANCHENG CHANTU INTELLIGENT TECHNOLOGY Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |