CN112926417A - 基于深度神经网络的行人检测方法、系统、设备及介质 - Google Patents
基于深度神经网络的行人检测方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN112926417A CN112926417A CN202110170281.5A CN202110170281A CN112926417A CN 112926417 A CN112926417 A CN 112926417A CN 202110170281 A CN202110170281 A CN 202110170281A CN 112926417 A CN112926417 A CN 112926417A
- Authority
- CN
- China
- Prior art keywords
- pedestrian detection
- network
- original image
- subgraph
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度神经网络的行人检测方法、系统、设备及介质,属于计算机视觉领域,方法包括:S1获取原图并根据透视投影关系从原图的远处成像中分割出多个子图以构成子图训练集;S2从原图及其对应的子图缩放到统一的大小;S3将子图和原图分别输入到Faster R‑CNN模型进行训练并获得子图行人检测模型和原图行人检测模型;S4获取输入图片并根据透视投影关系从输入图片的远处成像中分割出多个小目标图片;S5用两个检测模型分别对小目标图片和输入图片进行检测,获得两类检测结果;S6用非极大值抑制法对两类检测结果进行合并,得到最终检测结果。本发明能够针对不同的图片用不同的深度网络来学习目标特征并得到训练模型,使检测更有针对性,效果更好。
Description
技术领域
本发明涉及计算机视觉领域,特别涉及一种基于深度神经网络的行人检测方法、系统、设备及介质。
背景技术
传统的行人检测方法,都是用传统的手工特征来进行行人检测,比如:
局部变形模型(Deformable part-based models)(Pedro F Felzenszwalb, RossB Girshick, David McAllester, and Deva Ramanan. Object detection withdiscriminatively trained part-based models. TPAMI, 32(9), pp. 1627-1645,2010.),这是检测目标的各个局部,从而达到检测目标的目的;以及
积分通道特征(Integral Channel Features,ICF)(Piotr Dollar, Zhuowen Tu,Pietro Perona, and Serge Belongie.Integral channel features. In BMVC, volume2, pp. 5, 2009.)是一种用途很很广泛的行人检测方法,这里用到了通道特征金字塔和增强训练分类器;
增强通道特征(Aggregated Channel Features,ACF)(Piotr Dollar, RonAppel, Serge Belongie, and Pietro Perona. Fast feature pyramids for objectdetection. TPAMI, 36(8), pp. 1532-1545, 2014.),是将提取的直方图以及哈尔特征等特征都用到了。
另外,还有文献(Xiaoyu Wang, Tony X Han, and Shuicheng Yan. An hog-lbphuman detector with partial occlusion handling. In ICCV, pp. 32-39, 2009.),其用梯度直方图(Histograms of Oriented Gradients,HOG)和局部二进制模式(LocalBinary Pattern,LBP)结合起来解决部分遮挡的问题;
文献(Guang Chen, Yuanyuan Ding,Jing Xiao, and Tony X Han. Detectionevolution with multi-order contextual co-occurrence. In CVPR, pp. 1798-1805,2013.),其用周围环境信息来提高检测效果;
文献(Dennis Park, Deva Ramanan,and Charless Fowlkes. Multiresolutionmodels for object detection. In ECCV, pp. 241-254. 2010.)用多分辨率来结合局部模型,提高检测结果。
而在深度学习出现之后,基于深度神经网络的方法逐渐成为主流方法,例如:
文献(Pierre Sermanet, Koray Kavukcuoglu, Sandhya Chintala, and YannLeCun. Pedestrian detection with unsupervised multi-stage feature learning.In CVPR, pp. 3626-3633, 2013.)将稀疏编码(sparse coding)用到卷积神经网络里面来提高行人检测效果;
文献(Yonglong Tian, Ping Luo, Xiaogang Wang, and Xiaoou Tang.Pedestrian detection aided by deep learning semantic tasks. In CVPR, 2015.)将增强通道特征(Aggregated Channel Features,ACF)和深度神经网络结合,来提高行人检测效果;
文献(Mohammad Saberian Zhaowei Cai and Nuno Vasconcelos. Learningcomplexity-aware cascades for deep pedestrian detection. In ICCV, 2015.)用到了不同的传统特征来跟深度特征结合,用来对行人检测;
文献(Sakrapee Paisitkriangkrai, Chunhua Shen, and Anton van denHengel. Strengthening the effectiveness of pedestrian detection withspatially pooled features. In ECCV, pp. 546-561. 2014.)里面给出了几种基于空间关系的新特征;
文献(A. Angelova, A. Krizhevsky, V. Vanhoucke, A. Ogale, and D.Ferguson, Real-Time Pedestrian Detection With Deep Network Cascades, BMVC2015, Swansea, UK.)里面将级联特征用到了深度特征里面来。
但是,不论是传统的特征,还是基于深度学习的方法,都有两个主要的问题,从而导致了检测效果不好。这两个问题是:(1)没有足够大分辨率的特征来处理小目标,因为目标较小,如果特征的分辨率不够大,则会包含很多周围环境信息,从而导致了目标里面含有太多的背景噪声,导致效果不好;(2)对不同大小的目标,采用的是相同的特征,而实际上,大的目标和小的目标,特征是不一样的,这样就导致特征没有针对性,从而检测效果不好。
发明内容
针对现有技术存在的针对大目标和小目标都采用相同的特征进行检查处理的问题,本发明的目的在于提供一种基于深度神经网络的行人检测方法、系统、设备及介质。
为实现上述目的,本发明的技术方案为:
本发明第一方面提供一种基于深度神经网络的行人检测方法,包括
步骤S1、获取原图训练集,所述原图训练集包含有多张原图,再根据透视投影关系从每个所述原图的远处成像中分割出多个子图以构成子图训练集;
步骤S2、从所述原图训练集中提取原图,以及从所述子图训练集中提取出从所述原图中分割出的多个子图,再将多个所述子图与所述原图缩放到统一的大小;
步骤S3、将所述子图以及所述原图作为训练图片分别输入到Faster R-CNN模型进行训练,并获得子图行人检测模型和原图行人检测模型;
步骤S4、获取输入图片,并根据透视投影关系从所述输入图片的远处成像中分割出多个小目标图片;
步骤S5、通过所述子图行人检测模型以及所述原图行人检测模型分别对多个所述小目标图片以及所述输入图片进行行人检测,并分别获得两类检测结果;
步骤S6、用非极大值抑制法对所述两类检测结果进行合并,得到最终检测结果。
优选的,在步骤S1中,所述子图与原图的长宽比一致,且多个所述子图相互之间具有一定的重叠度。
优选的,在步骤S2中,选取多个所述子图中含有小目标数量最多的一个子图作为训练图片。
优选的,在步骤S5中,选取多个所述小目标图片中含有小目标数量最多的一个小目标图片以输入到所述子图行人检测模型中进行检测。
优选的,所述原图训练集取自ImageNet数据库。
优选的,在步骤S3中,所述Faster R-CNN模型包括具有公共卷积层的RPN网络和Fast R-CNN网络,训练时,所述公共卷积层共享所述子图和所述原图的训练参数,而其余网络层则分别针对所述子图和所述原图进行训练,从而获得子图行人检测模型和原图行人检测模型。
优选的,在步骤S3中,获得子图行人检测模型或者原图行人检测模型的步骤为:
步骤S31、用ImageNet数据库初始化,独立训练一个RPN网络;
步骤S32、用ImageNet数据库初始化,使用步骤S31中RPN网络产生的proposal作为输入,训练一个Fast R-CNN网络,其中,Fast R-CNN网络与RPN网络中每一层的参数完全不共享;
步骤S33、使用步骤S32中的Fast R-CNN网络的参数初始化一个新的RPN网络,在用子图训练集或者原图训练集重新训练时,固定RPN网络与Fast R-CNN网络中的公共卷积层以使RPN网络与Fast R-CNN网络共享所有公共的卷积层,而仅更新RPN独有的卷积层;
步骤S34、继续保持RPN网络与Fast R-CNN网络中的公共卷积层固定,加入Fast R-CNN网络特有的网络层以形成统一网络,在用子图训练集或者原图训练集重新训练时,仅微调Fast R-CNN特有的网络层,从而获得所述子图行人检测模型或者所述原图行人检测模型。
本发明第二方面提供一种基于深度神经网络的行人检测系统,包括
获取模块,用于获取原图以及输入图片;
分割模块,用于根据透视投影关系从每个所述原图的远处成像中分割出多个子图,以及用于根据透视投影关系从输入图片的远处成像中分割出多个小目标图片;
缩放模块,用于将子图与原图缩放到统一的大小,以及用于将小目标图片与输入图片缩放到统一的大小;
训练模块,用于将子图以及原图作为训练图片输入到Faster R-CNN模型进行训练,并获得获得子图行人检测模型和原图行人检测模型;
检测模块,用于通过子图行人检测模型以及原图行人检测模型分别对多个小目标图片以及输入图片进行行人检测,并获得两类检测结果;以及
合并模块,用于通过非极大值抑制法对两类检测结果进行合并,并得到最终检测结果。
本发明第三方面提供一种电子设备,包括
存储有可执行程序代码的存储器;以及
与所述存储器耦合的处理器;
其中,所述处理器调用所述存储器中存储的所述可执行程序代码,执行上述的基于深度神经网络的行人检测方法。
本发明第四方面提供一种计算机存储介质,所述计算机存储介质中存储有计算机程序,所述计算机程序被处理器运行时执行上述的基于深度神经网络的行人检测方法。
采用上述技术方案,由于从图片中分割出了尺寸较小的小图片,并分别用两者进行模型训练,从而使得在进行检测时,能够通过训练获得的两个模型分别对输入的图片以及从中分割出的小图片进行检测,从而避免了现有检测方式中,将图片中的大目标以及小目标做相同的特征处理,从而导致检测结果不够准确的问题。
附图说明
图1为本发明中基于深度神经网络的行人检测方法的流程图;
图2为本发明中原图以及从中分割出的多个子图的示意图;
图3为本发明中RPN网络的结构示意图;
图4为本发明中Faster R-CNN模型的结构示意图;
图5为本发明的技术方案在加州理工数据库上进行实验的检测结果示意图;
图6为本发明中基于深度神经网络的行人检测系统的示意图;
图7为一种电子设备的结构示意图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是,对于这些实施方式的说明用于帮助理解本发明,但并不构成对本发明的限定。此外,下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。
需要说明的是,在本发明的描述中,术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示对本发明结构的说明,仅是为了便于描述本发明的简便,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
对于本技术方案中的“第一”和“第二”,仅为对相同或相似结构,或者起相似功能的对应结构的称谓区分,不是对这些结构重要性的排列,也没有排序、或比较大小、或其他含义。
另外,除非另有明确的规定和限定,术语“安装”、“连接”应做广义理解,例如,连接可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个结构内部的连通。对于本领域的普通技术人员而言,可以根据本发明的总体思路,联系本方案上下文具体情况理解上述术语在本发明中的具体含义。
实施例一
一种基于深度神经网络的行人检测方法,如图1所示,包括步骤S1、步骤S2、步骤S3、步骤S4、步骤S5和步骤S6。
步骤S1、获取原图训练集,原图训练集包含有多张原图,再根据透视投影关系从每个原图的远处成像中分割出多个子图以构成子图训练集;
其中,原图训练集中的原图均取自ImageNet数据库。如图2所示,子图取自原图高度的上半部分(即图片的远景位置),并且取子图时,使子图与原图的长宽比一致,且多个子图相互之间具有一定的重叠度,以避免出现在子图的边缘的目标被切割。
步骤S2、从原图训练集中提取原图,以及从子图训练集中提取出从该原图中分割出的多个子图,再将多个子图与原图缩放到统一的大小;
即,将原图以及从该原图中分割出的所有的子图,统一缩放到同样的大小,例如,放大子图使其与原图的大小一致,由于子图与原图的长宽比一致,因此缩放过程中只需要进行等比例缩放各个图片的长和宽即可。
例如原图的尺寸为600×1000,则子图大约在原图高度80-260的位置,为了保持3:4的长宽比,设置子图的宽度设为240。
步骤S3、将子图以及原图作为训练图片分别输入到Faster R-CNN(快速卷积神经网络)模型进行训练,并获得子图行人检测模型和原图行人检测模型;
本实施例中,通过将尺寸较大的原图,以及尺寸较小的子图分别作为输入进行模型训练,从而获得两个行人检测模型,并且由于原图和子图中目标尺寸的差异,使得原图行人检测模型能够很好的对原图中出现的大目标进行检测,而子图行人检测模型能够很好的对小目标进行检测,两者配合使用,从而能够很好的解决图片中不同大小的行人的检测问题。
并且,为了降低模型训练过程的数据处理量,在进行子图行人检测模型的训练时,从同一个原图中分割出的多个子图,只选取其中含有小目标数量最多的一个子图作为训练图片。
获得检测模型后,需要进行准确度测试,依然按照等比例和有一定重叠度的原则从测试图片中分割出小图,将测试图片和分割出的三张小图分别用训练得到的网络参数进行一个向前传播,得到的四个结果通过非最大抑制(NMS)的方法去掉重复检测的目标得到最终的检测结果,再对最终得到的检测结果进行验证即可获得检测的准确度。
步骤S4、获取输入图片,并根据透视投影关系从输入图片的远处成像中分割出多个小目标图片;
该步骤与步骤S1类似,以同样的方式从输入图片中分割出多个小目标图片,不再赘述,其中,输入图片为待进行行人检测的图片。
步骤S5、通过子图行人检测模型以及原图行人检测模型分别对多个小目标图片以及输入图片进行行人检测,并分别获得两类检测结果;
可以理解的是,对于待测的输入图片,从其中分割出的小目标图片输入到上述的子图行人检测模型中,而该输入图片则送到上述的原图行人检测模型中进行处理,从而分别获得关于同一内容(输入图片中显示的内容)的两类检测结果。
同样的,为了降低数据处理量,从多个小目标图片中选取其中含有小目标数量最多的一个作为待测的小目标图片。
步骤S6、用非极大值抑制法对两类检测结果进行合并,得到最终检测结果。
可以理解的是,两类检测结果中会存在一部分重叠的区域,因此区域合并去除,非极大值抑制法(NMS,non-maximum suppression)能够将IoU大于某一数值(例如0.7)的区域全部合并,最后剩下的部分作为最终检测结果;或者,还可以设置将概率大于某阈值P且IoU大于某阈值T的预测框采用NMS方法进行合并,注意的是,这里的预测框指的不是anchorboxes,并且NMS不会影响最终的检测准确率,但是大幅地减少了建议框的数量,NMS之后,使用建议区域中的top-N个来检测(即排过序后取N个),从而获得最终检查结果。
本发明实施例中的Faster R-CNN(快速卷积神经网络)包括区域提案网络(RPN)候选框提取模块(以下称为RPN网络)以及快速卷积神经网络模型(Fast R-CNN)检测模块(以下称为Fast R-CNN网络)。
其中,如图3所示,RPN网络的核心思想是使用CNN卷积神经网络直接产生区域提案(Region Proposal),使用的方法本质上就是滑动窗口(只需在最后的卷积层上滑动一遍),因为锚(anchor)机制和边框回归可以得到多尺度多长宽比的区域提案(RegionProposal)。
RPN网络也是全卷积网络(FCN,fully-convolutional network),可以针对生成检测建议框的任务端到端地训练,能够同时预测出物体的边界和分数,只是在CNN上额外增加了2个卷积层(全卷积分类层和回归层),则两个卷积层的分别用于:(1)将每个特征图的位置编码成一个特征向量;(2)对每一个位置输出一个物体分数(objectness score)和回归位置(regressed bounds),即在每个卷积映射位置输出这个位置上多种尺度(3种)和长宽比(3种)的k个(k=3×3=9)区域建议的物体得分和回归边界。
RPN网络的具体流程如下:使用一个小网络在最后卷积得到的特征图上进行滑动扫描,这个滑动网络每次与特征图上n×n(n=3)的窗口全连接,然后映射到一个低维向量(比如512维),最后将这个低维向量送入到两个全连接层,即前面说的回归层和分类层。其中,回归层用于预测提案(proposal)的锚(anchor)对应的位置(左上角x位置, 左上角y位置,长,宽);分类层用于判断该提案(proposal)是前景(object)还是背景(non-object)。
对于一个大小为H×W的特征层,它上面每一个像素点对应9个anchor,其中有一个重要的参数记为特征脚步(feat_stride = 16),它表示特征层上移动一个点,对应原图移动16个像素点。把这9个anchor的坐标进行平移操作,获得在原图上的坐标。之后根据标注的正确数据(ground truth label)和这些anchor之间的关系生成区域提案的标注。其中,正样本的位置被置为1,负样本的位置被置为0,其他的为-1。
RPN网络的平移不变性:
在计算机视觉中的一个挑战就是平移不变性:比如人脸识别任务中,小的人脸(24×24的分辨率)和大的人脸(1080×720)如何在同一个训练好权值的网络中都能正确识别。若是平移了图像中的目标,则建议框也应该平移,也应该能用同样的函数预测建议框。
传统有两种主流的解决方式:
第一、对图像或特征图(feature map)进行尺度/宽高的采样;
第二、对滤波器进行尺度/宽高的采样(或可以认为是滑动窗口).
但Faster R-CNN解决该问题的具体实现是:通过卷积核中心(用来生成推荐窗口的Anchor)进行尺度、宽高比的采样,使用3种尺度和3种比例来产生9种anchor。
窗口分类和位置精修。分类层输出每一个位置上,9个anchor属于前景和背景的概率;回归层输出每一个位置上,9个anchor对应窗口应该平移缩放的参数(左上角x位置, 左上角y位置, 长, 宽);对于每一个位置来说,分类层从256维特征中输出属于前景和背景的概率;窗口回归层从256维特征中输出4个平移缩放参数。
在步骤S3中,上述Faster R-CNN模型其包括具有公共卷积层的RPN网络和Fast R-CNN网络,训练时,使该公共卷积层共享子图和原图的训练参数,而RPN网络和Fast R-CNN网络中不共享的其余的网络层则分别针对上述的子图和原图进行训练,从而分别获得子图行人检测模型和原图行人检测模型。如此设置,使得用于对小目标图片(从大图中分割出的,且含有小目标的小尺寸图片)进行检测的子图行人检测模型,以及用于对输入图片(含有大目标的图片)进行检测的原图行人检测模型,两者具有一部分相同的网络参数,该部分相同的网络参数即为RPN网络和Fast R-CNN网络的公共卷积层,从而在进行实际检测时,小目标图片和输入图片在各自输入到对应的检测模型后,首先会经过相同的处理方式(即RPN网络和Fast R-CNN网络的公共卷积层),如此做的原因在于浅层的网络含有较多的纹理、形状位置信息,由于都是针对人的检测,尽管小目标图片和输入图片尺度不同,但两者之间本身即有关联且具有相似的特征。
在一个可行的实施方案中,可以通过以下方式获得上述的子图行人检测模型或者原图行人检测模型的步骤为:
步骤S31、用ImageNet数据库初始化,独立训练一个RPN网络;
步骤S32、用ImageNet数据库初始化,使用步骤S31中RPN网络产生的proposal作为输入,训练一个Fast R-CNN网络,其中,Fast R-CNN网络与RPN网络中每一层的参数完全不共享;
步骤S33、使用步骤S32中的Fast R-CNN网络的参数初始化一个新的RPN网络,固定RPN网络与Fast R-CNN网络中的公共卷积层以使RPN网络与Fast R-CNN网络共享所有公共的卷积层,在用子图训练集重新训练时,仅更新RPN独有的卷积层;
步骤S34、继续保持RPN网络与Fast R-CNN网络中的公共卷积层固定,加入Fast R-CNN网络特有的网络层以形成统一网络,在用子图训练集重新训练时,仅微调Fast R-CNN特有的网络层,从而获得所述子图行人检测模型或者所述原图行人检测模型。
经过上述的四个步骤,即可获得一个针对子图训练得到的Faster R-CNN模型(即子图行人检测模型);而将步骤S33以及步骤S34中“在用子图训练集重新训练时”替换为“在用原图训练集重新训练时”即可获得一个针对原图训练得到的Faster R-CNN模型(即原图行人检测模型)。可见,该子图行人检测模型和原图行人检测模型,在步骤S31、步骤S32以及步骤S33的前半部分都相同,从而可保证子图行人检测模型和原图行人检测模型中,RPN网络与Fast R-CNN网络中的公共卷积层的参数相同。
使用时,如图4所示,首先将一张原图按步骤S1中的描述分割出三个子图,原图用于检测大目标,子图用于检测小目标,由于显存和效率的考虑,没有将三个子图同时传入Faster R-CNN网络,而是选择了其中含有小目标最多的一个子图。在进入Faster R-CNN网络时,两张图片(原图和选取的一个子图)被缩放到统一的大小。在Faster R-CNN网络的前2个阶段(卷积层1和卷积层2,即RPN网络与Fast R-CNN网络中的公共卷积层)的卷积操作中,两张图片使用了共享的卷积核。这是因为,浅层的网络含有较多的纹理、形状位置信息,由于都是针对人的检测,尽管尺度不同,仍具有相似的特征。在第3、4、5阶段(conv3、conv4、conv5)分别针对大、小目标提取深层的特征。在卷积层5输出的最后一层特征层上,用一个3×3的卷积核进行卷积操作提取3×3窗口大小内的特征,在每个特征位置考虑9个不同尺度的锚(anchor),利用2个全卷积的网络输出每个特征位置上9个锚(anchor)的属于前景或背景的概率,与平移缩放尺度。选择得分降序排序前300个锚(anchor)作为提案。对大图片的行人进行学习,计算局部目标和预测位置的局部目标之间的矩阵余弦相似性。获得分别可用于对大目标和小目标进行检测的两个检测模型。再对待测的输入图片以及从其中分割出的三张小目标图片进行检测,最后用非极大值抑制法来对这两类结果进行合并,得到最终结果。
本申请技术方案在加州理工(caltech)数据库上来做了实验,实验的类别如表1所示,按照行人在图片里面出现的高度范围,可以把实验分为合理、全部、中等、远处和近处。其中,合理指的是行人在图片中的高度至少是50个像素值;全部指的是行人在图片中的高度至少是20个像素值。相交阈值指的是,当检测结果和真实值的相交区域大于阈值0.5,则认为检测正确。
表1
用度量每张图片里面的假阳性(false positive per image)来比较结果,结果越小越好,实验结果如表2所示,本申请技术方案相对于对比方案取得了更好的效果。
表2
如图5所示,其显示了本申请技术方案在加州理工(caltech)数据库上面检测结果的示意图。
实施例二
一种基于深度神经网络的行人检测系统,如图6所示,包括
获取模块,用于获取原图以及输入图片;
分割模块,用于根据透视投影关系从每个原图的远处成像中分割出多个子图,以及用于根据透视投影关系从输入图片的远处成像中分割出多个小目标图片;
缩放模块,用于将子图与原图缩放到统一的大小,以及用于将小目标图片与输入图片缩放到统一的大小;
训练模块,用于将子图以及原图作为训练图片输入到Faster R-CNN模型进行训练,并获得获得子图行人检测模型和原图行人检测模型;
检测模块,用于通过子图行人检测模型以及原图行人检测模型分别对多个小目标图片以及输入图片进行行人检测,并获得两类检测结果;以及
合并模块,用于通过非极大值抑制法对两类检测结果进行合并,并得到最终检测结果。
实施例三
一种电子设备,如图7所示,包括
存储有可执行程序代码的存储器;以及
与存储器耦合的处理器;
其中,处理器调用存储器中存储的可执行程序代码,执行实施例一中的基于深度神经网络的行人检测方法的步骤。
实施例四
一种计算机存储介质,计算机存储介质中存储有计算机程序,计算机程序被处理器运行时执行实施例一中的基于深度神经网络的行人检测方法的步骤。
以上结合附图对本发明的实施方式作了详细说明,但本发明不限于所描述的实施方式。对于本领域的技术人员而言,在不脱离本发明原理和精神的情况下,对这些实施方式进行多种变化、修改、替换和变型,仍落入本发明的保护范围内。
Claims (10)
1.一种基于深度神经网络的行人检测方法,其特征在于:包括
步骤S1、获取原图训练集,所述原图训练集包含有多张原图,再根据透视投影关系从每个所述原图的远处成像中分割出多个子图以构成子图训练集;
步骤S2、从所述原图训练集中提取原图,以及从所述子图训练集中提取出从所述原图中分割出的多个子图,再将多个所述子图与所述原图缩放到统一的大小;
步骤S3、将所述子图以及所述原图作为训练图片分别输入到Faster R-CNN模型进行训练,并获得子图行人检测模型和原图行人检测模型;
步骤S4、获取输入图片,并根据透视投影关系从所述输入图片的远处成像中分割出多个小目标图片;
步骤S5、通过所述子图行人检测模型以及所述原图行人检测模型分别对多个所述小目标图片以及所述输入图片进行行人检测,并分别获得两类检测结果;
步骤S6、用非极大值抑制法对所述两类检测结果进行合并,得到最终检测结果。
2.根据权利要求1所述的基于深度神经网络的行人检测方法,其特征在于:在步骤S1中,所述子图与原图的长宽比一致,且多个所述子图相互之间具有一定的重叠度。
3.根据权利要求1所述的基于深度神经网络的行人检测方法,其特征在于:在步骤S2中,选取多个所述子图中含有小目标数量最多的一个子图作为训练图片。
4.根据权利要求1所述的基于深度神经网络的行人检测方法,其特征在于:在步骤S5中,选取多个所述小目标图片中含有小目标数量最多的一个小目标图片以输入到所述子图行人检测模型中进行检测。
5.根据权利要求1所述的基于深度神经网络的行人检测方法,其特征在于:所述原图训练集取自ImageNet数据库。
6.根据权利要求1所述的基于深度神经网络的行人检测方法,其特征在于:在步骤S3中,所述Faster R-CNN模型包括具有公共卷积层的RPN网络和Fast R-CNN网络,训练时,所述公共卷积层共享所述子图和所述原图的训练参数,而其余网络层则分别针对所述子图和所述原图进行训练,从而获得子图行人检测模型和原图行人检测模型。
7.根据权利要求6所述的基于深度神经网络的行人检测方法,其特征在于:在步骤S3中,获得子图行人检测模型或者原图行人检测模型的步骤为:
步骤S31、用ImageNet数据库初始化,独立训练一个RPN网络;
步骤S32、用ImageNet数据库初始化,使用步骤S31中RPN网络产生的proposal作为输入,训练一个Fast R-CNN网络,其中,Fast R-CNN网络与RPN网络中每一层的参数完全不共享;
步骤S33、使用步骤S32中的Fast R-CNN网络的参数初始化一个新的RPN网络,在用子图训练集或者原图训练集重新训练时,固定RPN网络与Fast R-CNN网络中的公共卷积层以使RPN网络与Fast R-CNN网络共享所有公共的卷积层,而仅更新RPN独有的卷积层;
步骤S34、继续保持RPN网络与Fast R-CNN网络中的公共卷积层固定,加入Fast R-CNN网络特有的网络层以形成统一网络,在用子图训练集或者原图训练集重新训练时,仅微调Fast R-CNN特有的网络层,从而获得所述子图行人检测模型或者所述原图行人检测模型。
8.一种基于深度神经网络的行人检测系统,其特征在于:包括
获取模块,用于获取原图以及输入图片;
分割模块,用于根据透视投影关系从每个所述原图的远处成像中分割出多个子图,以及用于根据透视投影关系从输入图片的远处成像中分割出多个小目标图片;
缩放模块,用于将子图与原图缩放到统一的大小,以及用于将小目标图片与输入图片缩放到统一的大小;
训练模块,用于将子图以及原图作为训练图片输入到Faster R-CNN模型进行训练,并获得获得子图行人检测模型和原图行人检测模型;
检测模块,用于通过子图行人检测模型以及原图行人检测模型分别对多个小目标图片以及输入图片进行行人检测,并获得两类检测结果;以及
合并模块,用于通过非极大值抑制法对两类检测结果进行合并,并得到最终检测结果。
9.一种电子设备,其特征在于:包括
存储有可执行程序代码的存储器;以及
与所述存储器耦合的处理器;
其中,所述处理器调用所述存储器中存储的所述可执行程序代码,执行如权利要求1-7任一项所述的基于深度神经网络的行人检测方法。
10.一种计算机存储介质,其特征在于:所述计算机存储介质中存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1-7任一项所述的基于深度神经网络的行人检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110170281.5A CN112926417A (zh) | 2021-02-08 | 2021-02-08 | 基于深度神经网络的行人检测方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110170281.5A CN112926417A (zh) | 2021-02-08 | 2021-02-08 | 基于深度神经网络的行人检测方法、系统、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112926417A true CN112926417A (zh) | 2021-06-08 |
Family
ID=76171110
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110170281.5A Pending CN112926417A (zh) | 2021-02-08 | 2021-02-08 | 基于深度神经网络的行人检测方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112926417A (zh) |
-
2021
- 2021-02-08 CN CN202110170281.5A patent/CN112926417A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Silva et al. | A flexible approach for automatic license plate recognition in unconstrained scenarios | |
EP3499414B1 (en) | Lightweight 3d vision camera with intelligent segmentation engine for machine vision and auto identification | |
CN112150493B (zh) | 一种基于语义指导的自然场景下屏幕区域检测方法 | |
EP3101594A1 (en) | Saliency information acquisition device and saliency information acquisition method | |
CN110263712B (zh) | 一种基于区域候选的粗精行人检测方法 | |
CN108986152B (zh) | 一种基于差分图像的异物检测方法及装置 | |
JP6351240B2 (ja) | 画像処理装置、画像処理方法及びプログラム | |
CN109685045B (zh) | 一种运动目标视频跟踪方法及系统 | |
CN110097050B (zh) | 行人检测方法、装置、计算机设备及存储介质 | |
Yang et al. | Real-time pedestrian and vehicle detection for autonomous driving | |
US20130342559A1 (en) | Temporally consistent superpixels | |
CN106407978B (zh) | 一种结合似物度的无约束视频中显著物体检测方法 | |
CN113052170A (zh) | 一种无约束场景下的小目标车牌识别方法 | |
Baumgartner et al. | A new image segmentation framework based on two-dimensional hidden Markov models | |
CN107704864B (zh) | 基于图像对象性语义检测的显著目标检测方法 | |
CN116523959A (zh) | 一种基于人工智能的运动目标检测方法及系统 | |
Wu et al. | Vehicle detection in high-resolution images using superpixel segmentation and CNN iteration strategy | |
Chen et al. | Illumination-invariant video cut-out using octagon sensitive optimization | |
Hassan et al. | Salient object detection based on CNN fusion of two types of saliency models | |
CN115409938A (zh) | 三维模型构建方法、装置、设备及存储介质 | |
CN108765384A (zh) | 一种联合流形排序和改进凸包的显著性检测方法 | |
CN112926417A (zh) | 基于深度神经网络的行人检测方法、系统、设备及介质 | |
CN114445916A (zh) | 一种活体检测方法、终端设备及存储介质 | |
CN112183422A (zh) | 一种基于时空特征的人脸活体检测方法、装置、电子设备及存储介质 | |
JP2008152611A (ja) | 画像認識装置、電子機器、画像認識方法及び画像認識プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |