CN110728200A - 一种基于深度学习的实时行人检测方法及系统 - Google Patents

一种基于深度学习的实时行人检测方法及系统 Download PDF

Info

Publication number
CN110728200A
CN110728200A CN201910897781.1A CN201910897781A CN110728200A CN 110728200 A CN110728200 A CN 110728200A CN 201910897781 A CN201910897781 A CN 201910897781A CN 110728200 A CN110728200 A CN 110728200A
Authority
CN
China
Prior art keywords
pedestrian
training
network
submodule
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910897781.1A
Other languages
English (en)
Other versions
CN110728200B (zh
Inventor
梁超
焦黎
王晓
胡必成
鲁铮
叶力果
王泽铠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201910897781.1A priority Critical patent/CN110728200B/zh
Publication of CN110728200A publication Critical patent/CN110728200A/zh
Application granted granted Critical
Publication of CN110728200B publication Critical patent/CN110728200B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的实时行人检测方法及系统,首先获取视频数据,并且将输入的视频图像进行尺寸调整,利用深度可分离卷积对输入图像进行特征提取。其中网络中的passthough layer结构通过对深层特征进行上采样操作,与浅层特征进行特征融合,随后输出分辨率较小的深层特征图和分辨率较高的融合了粗粒度特征与细粒度特征的特征图。最终在这两个不同尺度的特征图上进行回归与预测,输出每个行人检测结果的边界框和置信度。该方法在实际的监控场景中,实现了满足真实场景需要的基于高清视频的实时行人检测方法,在保证了准确率的情况下,提高了检测效率。

Description

一种基于深度学习的实时行人检测方法及系统
技术领域
本发明属于计算机图像识别技术领域,涉及一种实时行人检测方法及系统,尤其涉及一种基于深度学习的实时行人检测方法及系统。
背景技术
行人检测是目标检测中重要的组成部分,也是计算机视觉中的研究热点,广泛的应用于刑侦视频监控、智能驾驶和特定目标检索。近年来,得益于深度学习方面的不断发展,行人检测已经取得了很大的进展。但是由于深度网络模型结构复杂,参数计算量较大,很大程度上降低了检测速度。并且基于视频序列的检测速度,有实时性的要求。
现有的基于深度学习的目标检测方法可以大致分为基于候选区域方法和回归方法。基于候选区域的方法是以“候选区域特征提取+分类”的方式来实现检测,例如RCNN(Girshick R,Donahue J,Darrell T,et al.Rich feature hierarchies for accurateobject detection and semantic segmentation[C]//Proceedings of the IEEEconference on computer vision and pattern recognition.2014:580-587.)系列。而回归的方法是根据先验知识对输入图片进行预测,利用整张图片作为网络输入,直接输出行人的位置信息和置信度。例如YOLO(Redmon J,Divvala S,Girshick R,et al.You onlylook once:Unified,real-time object detection[C]//Proceedings of the IEEEconference on computer vision and pattern recognition.2016:779-788.)系列。RCNN系列的整体流程分为区域提取和目标分类两部分,这样做的特点虽然确保了精度,但速度非常慢。而YOLO系列是一步完成检测与分类,在速度上提升不少。两类方法在实际的监控场景中都能准确地定位出行人目标,但是都无法达到实时检测。
发明内容
为了解决现有的行人检测方法检测速度较慢的问题,本发明提出了一种基于深度学习的实时行人检测方法及系统,通过改进网络结构达到实时检测的效果。
本发明的方法所采用的技术方案是:一种基于深度学习的实时行人检测方法,其特征在于,包括以下步骤:
步骤1:对实际的监控视频数据进行统一地行人标注,作为训练图片;将训练图片送入深度网络中提取特征,经过若干次迭代更新网络权重参数,获得精度高于预设阈值的行人检测器;
步骤2:利用行人检测器对行人进行检测;
具体实现包括以下步骤:
步骤2.1:对输入的视频序列图像利用神经网络进行尺度大小处理;
步骤2.2:利用深度可分离卷积网络对处理后图像进行特征提取,获得的特征图feature map用P(X,Y,M)表示,其中X和Y表示特征图的横、纵坐标,M表示特征图的通道维度;
步骤2.3:在深度可分离卷积网络中加入一个passthrough layer的结构,是由深度可分离卷积层、池化或上采样层以及路由层组成;
步骤2.4:利用passthough layers的结构,通过池化或上采样操作融合高分辨率与低分辨率的卷积特征;
步骤2.5:将步骤2.4中融合后的特征图feature map通过先验知识预测图像中可能出现行人的位置,获得行人位置边界框的最终尺寸;
步骤2.6:针对步骤2.4中未经过池化的分辨率较高的特征图feature map通过先验知识预测图像中可能出现行人的位置,获得行人位置边界框的最终尺寸;
步骤2.7:最后一层包含两个分支,分别是对步骤2.5与步骤2.6中预测的边界框进行分类和边框回归,对步骤2.5与步骤2.6中预测的边界框进行分类和边框回归,最终输出行人的位置信息(x,y,w,h)、类别以及置信度,其中,(x,y)是行人矩形框中心在图像中对应的坐标信息,(w,h)为行人就行框的宽度和高度。
本发明的系统所采用的技术方案是:一种基于深度学习的实时行人检测系统,其特征在于:包括训练模块和检测模块;
所述训练模块,用于对实际的监控视频数据进行统一地行人标注,作为训练图片;将训练图片送入深度网络中提取特征,经过若干次迭代更新网络权重参数,获得精度高于预设阈值的行人检测器;
所述训练模块,包括训练集采集子模块、参数设置子模块、行人边界框预测子模块、高于预设阈值的行人检测器构建子模块;
所述训练集采集子模块,用于从不同点位的摄像头下获取视频数据,并从中选择视角不同,行人多于预设阈值的高清图片作为训练图片,利用LabelImg标注工具标注行人框,作为训练集;
所述参数设置子模块,用于在训练前对学习率、训练类别、batch size和迭代次数进行设置;
所述行人边界框预测子模块,用于输入训练图片,利用深度网络对图像进行两种尺度上的预测,让网络同时学习到深层和浅层的特征,通过叠加浅层特征图得到不同通道;最终对网络输出的两种不同分辨率下的特征图对应了3种不同大小的先验框anchor box,即预测出的行人边界框;
所述高于预设阈值的行人检测器构建子模块,用于网络训练损失,训练过程的损失函数主要由四部分组成:分别是行人中心坐标损失、anchor长宽回归值损失、置信度损失与分类损失;在平均损失在若干次迭代且不再减少时停止训练,最终获得不同迭代次数下的权重文件;经过若干次迭代更新网络权重参数,获得精度高于预设阈值的行人检测器;
所述检测模块,用于对输入的视频序列图像利用神经网络进行尺度大小处理;
所述检测模块,包括图像预处理子模块、特征提取子模块、深度卷积网络优化子模块、卷积特征融合子模块、第一预测子模块、第二预测子模块、行人检测子模块;
所述图像预处理子模块,用于对输入的视频序列图像利用神经网络进行尺度大小处理;
所述特征提取子模块,用于利用深度可分离卷积网络对处理后图像进行特征提取,获得的特征图feature map用P(X,Y,M)表示,其中X和Y表示特征图的横、纵坐标,M表示特征图的通道维度;
所述深度卷积网络优化子模块,用于在深度可分离卷积网络中加入一个passthrough layer的结构,是由深度可分离卷积层、池化或上采样层以及路由层组成;
所述卷积特征融合子模块,用于利用passthough layers的结构,通过池化或上采样操作融合高分辨率与低分辨率的卷积特征;
所述第一预测子模块,用于将融合后的特征图feature map通过先验知识预测图像中可能出现行人的位置,获得行人位置边界框的最终尺寸;
所述第二预测子模块,用于针对未经过池化的分辨率较高的特征图feature map通过先验知识预测图像中可能出现行人的位置,获得行人位置边界框的最终尺寸;
所述行人检测子模块,最后一层包含两个分支,分别是对步骤2.5与步骤2.6中预测的边界框进行分类和边框回归,对预测的边界框进行分类和边框回归,最终输出行人的位置信息(x,y,w,h)、类别以及置信度,其中,(x,y)是行人矩形框中心在图像中对应的坐标信息,(w,h)为行人就行框的宽度和高度。
本发明针对现有方法网络模型较大处理高清图片的检测速度较慢的问题,提出了一种简化复杂网络结构的方法,结合轻量级网络中的深度可分离卷积网络进行修改,通过减少模型参数以及减少卷积层来降低网络模型的复杂性,达到提升检测速度的目的。
附图说明
图1为本发明实施例的流程图;
图2为本发明实施例的网络框架。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
请见图1,本发明提供的一种基于深度学习的实时行人检测方法,包括以下步骤:
步骤1:对实际的监控视频数据进行统一地行人标注,作为训练图片;将训练图片送入深度网络中提取特征,经过若干次迭代更新网络权重参数,获得精度高于预设阈值的行人检测器;
本实施例中,对实际的监控视频数据(分辨率1920×1080)进行统一地行人标注,并以xml文件格式保存标注的行人位置信息和类别。
步骤1的具体实现包括以下步骤:
步骤1.1:从不同点位的摄像头下获取视频数据,并从中选择视角不同,行人多于预设阈值的高清图片作为训练图片,利用LabelImg标注工具标注行人框,作为训练集;
本实施例中,采用的训练集格式是VOC数据格式,从不同点位的摄像头下获取视频数据,并从中选择视角不同,行人较多的高清图片作为训练图片,利用LabelImg标注工具标注行人框,作为训练中的Ground Truth,图片数量为1000张;
步骤1.2:在训练前对学习率、训练类别、batch size和迭代次数进行设置;
步骤1.3:输入训练图片,利用深度网络对图像进行两种尺度上的预测,让网络同时学习到深层和浅层的特征,通过叠加浅层特征图得到不同通道;最终对网络输出的两种不同分辨率下的特征图对应了3种不同大小的先验框anchor box,即预测出的行人边界框;
本实施例中,输入训练图片,利用深度网络(主要是深度可分离卷积结构)对图像进行两种尺度上的预测,让网络同时学习到深层和浅层的特征,通过叠加浅层特征图得到不同通道,此方式将26×26×512的特征图叠加在13×13×1024的特征图上,与原生的深层特征相连接,使网络有了细粒度特征。最终对网络输出的两种不同分辨率下的特征图对应了3种不同大小的先验框(anchor box),即预测出的行人边界框;
步骤1.4:网络训练损失,训练过程的损失函数主要由四部分组成:分别是行人中心坐标损失、anchor长宽回归值损失、置信度损失与分类损失;在平均损失在若干次迭代且不再减少时停止训练,最终获得不同迭代次数下的权重文件;经过若干次迭代更新网络权重参数,获得精度高于预设阈值的行人检测器。
其中,行人中心坐标的损失Lxy为:
Figure BDA0002210836660000051
该函数计算了每一个网格单元i的每一个预测值j的总和,i=0,...,S2,j=0,...B;Ci表示当前行人预测框的置信度,areaPred表示预测框尺度w*h,Lcross是中心坐标的交叉熵损失,具体表示为:
Figure BDA0002210836660000061
式中,表示GroundTruth的坐标信息,t表示预测的中心坐标;
anchor长宽回归值损失Lwh为:
Figure BDA0002210836660000062
其中,w和h表示预测框的长和宽,
Figure BDA0002210836660000063
表示GroundTruth的长和宽;
置信度损失与分类损失与中心坐标损失一致,都是使用二值交叉熵作为损失函数。对特征输出的四个部分进行回归优化,使检测结果更加接近于实际位置,很大程度上提高了检测精度。
步骤2:利用行人检测器对行人进行检测;
具体实现包括以下步骤:
步骤2.1:对输入的视频序列图像利用神经网络进行尺度大小处理;
本实施例中,输入的视频序列图像分辨率为1920×1080,通过下采样的方式进行尺度大小处理,使图片尺度大小为416×416或320×320。
步骤2.2:利用深度可分离卷积网络对处理后图像进行特征提取,获得的特征图feature map用P(X,Y,M)表示,其中X和Y表示特征图的横、纵坐标,M表示特征图的通道维度;
本实施例中,给定的视频序列送入神经网络,每一帧图片用I(X,Y)表示,在网络中每帧图片按比例缩放到416×416或320×320大小,并利用深度可分离卷积层提取特征,得到特征图用P(X,Y,M)表示,其中X和Y表示特征图的横纵坐标,M表示特征图的通道维度;
请见图2,深度可分离卷积将标准卷积(卷积核假设为(3,3,N))分解成两个部分,分别是深度卷积和逐点卷积。实现方式主要是3×3和1×1的卷积层,深度卷积是对输入的图片或前一个卷积层输出的特征图进行卷积操作,提取特征,针对M个通道,卷积核形式以(3,3,M)表示;逐点卷积主要是对深度卷积后的特征图进行特征通道维度转化,卷积核形式为(1,1,N)两者共同完成标准卷积特征提取的过程,但是网络参数更少,最终经过深度可分离卷积层的输出特征为G(X,Y,N)。
步骤2.3:在深度可分离卷积网络中加入一个passthrough layer的结构,是由深度可分离卷积层、池化或上采样层以及路由层组成;
本实施例中,具体实现步骤是:
1、该结构中主要由路由层指定网络中需要融合的特征,例如26×26×512维度的特征图与13×13×1024维特征图;
2、可以通过对13×13×1024维特征图进行2倍上采样,或是将高分辨率的浅层特征进行池化。
3、从之前浅层网络的高分辨率特征图与上采样特征利用点积的方式进行合并。这种方式较早期特征映射中的上采样特征和更细粒度的信息中获得更有意义的语义信息。
步骤2.4:利用passthough layers的结构,通过池化或上采样操作融合高分辨率与低分辨率的卷积特征;
passthough layers(迁移层),将两层分辨率不同的特征连接的技术,例如将前面一层的26*26的特征图和本层13*13的特征图进行连接。对于26*26*512的特征图,经passthrough层处理之后就变成了13*13*2048的新特征图(特征图大小变为1/4,而通道数变为以前的4倍),然后与后面的13*13*1024特征图连接在一起形成13*13*3072的特征图。
步骤2.5:将步骤2.4中融合后的特征图feature map通过先验知识预测图像中可能出现行人的位置,获得行人位置边界框的最终尺寸;
步骤2.6:针对步骤2.4中未经过池化的分辨率较高的特征图feature map通过先验知识预测图像中可能出现行人的位置,获得行人位置边界框的最终尺寸;
步骤2.7:最后一层包含两个分支,分别是对步骤2.5与步骤2.6中预测的边界框进行分类和边框回归,对步骤2.5与步骤2.6中预测的边界框进行分类和边框回归,最终输出行人的位置信息(x,y,w,h)、类别以及置信度,其中,(x,y)是行人矩形框中心在图像中对应的坐标信息,(w,h)为行人就行框的宽度和高度。
本实施例中,在yolo层针对大小不同的feature map,每个cell都对应着3种anchor box所以最终网络输出了2535个预测框,并经过边框回归与分类,即选择得分最高的边界框,输出行人位置信息、person类别与置信度。
本实施例中,使用K-means聚类方法对步骤2.4与步骤2.5中预测的边界框进行分类,分别获得六种聚类结果,然后特征图的边框上均匀分割聚类维度;
在K-means聚类方法中选择欧式距离计算两个边框之间的距离,
d(box,centroid)=1-IOU(box,centroid)
式中,centroid是聚类时被选作中心的边框,box就是其他的边框,d是两者之间的距离,IOU()为计算边框之间距离的函数;
本实施例中,两种尺度特征图对应六种聚类结果,其中anchor分配方式是在较小的13×13特征图上应用3个较大的先验框,因为在较小的特征图上有最大的感受野。在较大的26×26特征图上具有较小的感受野,所以对应较小的3个先验框。
本实施例中,边框回归是对上一步骤预测的边界框的中心坐标和长宽进行约束;对tx和ty分别经过sigmoid函数输出偏移量,与Cx和Cy(相对于左上角的位置)相加得到预测框中心点的位置;pw,ph是设置的anchor(锚点,负责预测行人框的特征层中的每个值都是一个锚点)宽和高,与tw,th作用组成预测框的宽和高;
具体为:
bx=σ(tx)+Cx
by=σ(ty)+Cy
Figure BDA0002210836660000082
其中,bx和by是边框回归在预测框的中心坐标tx和ty上的约束,bw和bh是边框回归在预测框的宽度tw和高度th上的约束,pw,ph是设置的框和高,Cx和Cy为横纵坐标的偏执项。
对于每帧输入图像,网络对其进行特征提取最终到2个尺度的输出张量,代表图像各个位置存在行人目标的概率。
本发明还提供了一种基于深度学习的实时行人检测系统,其特征在于:包括训练模块和检测模块;
训练模块,用于对实际的监控视频数据进行统一地行人标注,作为训练图片;将训练图片送入深度网络中提取特征,经过若干次迭代更新网络权重参数,获得精度高于预设阈值的行人检测器;
训练模块,包括训练集采集子模块、参数设置子模块、行人边界框预测子模块、高于预设阈值的行人检测器构建子模块;
训练集采集子模块,用于从不同点位的摄像头下获取视频数据,并从中选择视角不同,行人多于预设阈值的高清图片作为训练图片,利用LabelImg标注工具标注行人框,作为训练集;
参数设置子模块,用于在训练前对学习率、训练类别、batch size和迭代次数进行设置;
行人边界框预测子模块,用于输入训练图片,利用深度网络对图像进行两种尺度上的预测,让网络同时学习到深层和浅层的特征,通过叠加浅层特征图得到不同通道;最终对网络输出的两种不同分辨率下的特征图对应了3种不同大小的先验框anchor box,即预测出的行人边界框;
高于预设阈值的行人检测器构建子模块,用于网络训练损失,训练过程的损失函数主要由四部分组成:分别是行人中心坐标损失、anchor长宽回归值损失、置信度损失与分类损失;在平均损失在若干次迭代且不再减少时停止训练,最终获得不同迭代次数下的权重文件;经过若干次迭代更新网络权重参数,获得精度高于预设阈值的行人检测器;
检测模块,用于对输入的视频序列图像利用神经网络进行尺度大小处理;
检测模块,包括图像预处理子模块、特征提取子模块、深度卷积网络优化子模块、卷积特征融合子模块、第一预测子模块、第二预测子模块、行人检测子模块;
图像预处理子模块,用于对输入的视频序列图像利用神经网络进行尺度大小处理;
特征提取子模块,用于利用深度可分离卷积网络对处理后图像进行特征提取,获得的特征图feature map用P(X,Y,M)表示,其中X和Y表示特征图的横、纵坐标,M表示特征图的通道维度;
深度卷积网络优化子模块,用于在深度可分离卷积网络中加入一个passthroughlayer的结构,是由深度可分离卷积层、池化或上采样层以及路由层组成;
卷积特征融合子模块,用于利用passthough layers的结构,通过池化或上采样操作融合高分辨率与低分辨率的卷积特征;
第一预测子模块,用于将融合后的特征图feature map通过先验知识预测图像中可能出现行人的位置,获得行人位置边界框的最终尺寸;
第二预测子模块,用于针对未经过下采样(池化层的操作类似于下采样)的分辨率较高的特征图feature map通过先验知识预测图像中可能出现行人的位置,获得行人位置边界框的最终尺寸;
行人检测子模块,最后一层包含两个分支,分别是对步骤2.5与步骤2.6中预测的边界框进行分类和边框回归,对预测的边界框进行分类和边框回归,最终输出行人的位置信息(x,y,w,h)、类别以及置信度,其中,(x,y)是行人矩形框中心在图像中对应的坐标信息,(w,h)为行人就行框的宽度和高度。
应当理解的是,本说明书未详细阐述的部分均属于现有技术;上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (7)

1.一种基于深度学习的实时行人检测方法,其特征在于,包括以下步骤:
步骤1:对实际的监控视频数据进行统一地行人标注,作为训练图片;将训练图片送入深度网络中提取特征,经过若干次迭代更新网络权重参数,获得精度高于预设阈值的行人检测器;
步骤2:利用行人检测器对行人进行检测;
具体实现包括以下步骤:
步骤2.1:对输入的视频序列图像利用神经网络进行尺度大小处理;
步骤2.2:利用深度可分离卷积网络对处理后图像进行特征提取,获得的特征图feature map用P(X,Y,M)表示,其中X和Y表示特征图的横、纵坐标,M表示特征图的通道维度;
步骤2.3:在深度可分离卷积网络中加入一个passthrough layer的结构,是由深度可分离卷积层、池化或上采样层以及路由层组成;
步骤2.4:利用passthough layers的结构,通过池化或上采样操作融合高分辨率与低分辨率的卷积特征;
步骤2.5:将步骤2.4中融合后的特征图feature map通过先验知识预测图像中可能出现行人的位置,获得行人位置边界框的最终尺寸;
步骤2.6:针对步骤2.4中未经过池化的分辨率较高的特征图feature map通过先验知识预测图像中可能出现行人的位置,获得行人位置边界框的最终尺寸;
步骤2.7:最后一层包含两个分支,分别是对步骤2.5与步骤2.6中预测的边界框进行分类和边框回归,最终输出行人的位置信息(x,y,w,h)、类别以及置信度,其中,(x,y)是行人矩形框中心在图像中对应的坐标信息,(w,h)为行人就行框的宽度和高度。
2.根据权利要求1所述的基于深度学习的实时行人检测方法,其特征在于,步骤1的具体实现包括以下步骤:
步骤1.1:从不同点位的摄像头下获取视频数据,并从中选择视角不同,行人多于预设阈值的高清图片作为训练图片,利用LabelImg标注工具标注行人框,作为训练集;
步骤1.2:在训练前对学习率、训练类别、batch size和迭代次数进行设置;
步骤1.3:输入训练图片,利用深度网络对图像进行两种尺度上的预测,让网络同时学习到深层和浅层的特征,通过叠加浅层特征图得到不同通道;最终对网络输出的两种不同分辨率下的特征图对应了3种不同大小的先验框anchor box,即预测出的行人边界框;
步骤1.4:网络训练损失,训练过程的损失函数主要由四部分组成:分别是行人中心坐标损失、anchor长宽回归值损失、置信度损失与分类损失;平均损失在若干次迭代且不再减少时停止训练,最终获得不同迭代次数下的权重文件;经过若干次迭代,直至更新的网络权重参数不再变动,获得参数稳定的行人检测器。
3.根据权利要求2所述的基于深度学习的实时行人检测方法,其特征在于:步骤1.4中,行人中心坐标的损失Lxy为:
Figure FDA0002210836650000021
该函数计算了每一个网格单元i的每一个预测值j的总和,i=0,...,S2,j=0,...B;Ci表示当前行人预测框的置信度,areaPred表示预测框尺度w*h,Lcross
是中心坐标的交叉熵损失,具体表示为:
式中,
Figure FDA0002210836650000023
表示Ground Truth的坐标信息,t表示预测的中心坐标;
anchor长宽回归值损失Lwh为:
Figure FDA0002210836650000024
其中,w和h表示预测框的长和宽,
Figure FDA0002210836650000025
Figure FDA0002210836650000026
表示Ground Truth的长和宽;
置信度损失与分类损失与中心坐标损失一致,都是使用二值交叉熵作为损失函数。
4.根据权利要求1所述的基于深度学习的实时行人检测方法,其特征在于:步骤2.1中,输入的视频序列图像分辨率为1920×1080,通过下采样的方式进行尺度大小处理,使图片尺度大小为416×416或320×320。
5.根据权利要求1所述的基于深度学习的实时行人检测方法,其特征在于:步骤2.2中,所述深度可分离卷积,是将标准化卷积分解为深度卷积与逐点卷积两个部分,利用3×3和1×1的卷积层实现,目的是降低参数数量;深度卷积是对输入图像或上一层输入的特征图feature map进行卷积,输出的特征通道维度为1;逐点卷积是将深度卷积后的特征图转换通道维度,卷积核大小为1×1。
6.根据权利要求1-5任意一项所述的基于深度学习的实时行人检测方法,其特征在于:步骤2.7中,使用K-means聚类方法对步骤2.4与步骤2.5中预测的边界框进行分类,分别获得六种聚类结果,然后特征图的边框上均匀分割聚类维度;
在K-means聚类方法中选择欧式距离计算两个边框之间的距离,
d(box,centroid)=1-IOU(box,centroid)
式中,centroid是聚类时被选作中心的边框,box就是其他的边框,d是两者之间的距离,IOU()为计算边框之间距离的函数;
两种尺度特征图对应六种聚类结果,其中anchor分配方式是在较小的特征图上应用3个较大的先验框,在较大的特征图上应用较小的3个先验框;
步骤2.7中,边框回归是对上一步骤预测的边界框的中心坐标和长宽进行约束;对tx和ty分别经过sigmoid函数输出偏移量,与Cx和Cy相加得到预测框中心点的位置;pw,ph是设置的锚点anchor宽和高,与tw,th作用组成预测框的宽和高;
具体为:
bx=σ(tx)+Cx
by=σ(ty)+Cy
Figure FDA0002210836650000031
其中,bx和by是边框回归在预测框的中心坐标tx和ty上的约束,bw和bh是边框回归在预测框的宽度tw和高度th上的约束,pw,ph是设置的框和高,Cx和Cy为横纵坐标的偏执项。
7.一种基于深度学习的实时行人检测系统,其特征在于:包括训练模块和检测模块;
所述训练模块,用于对实际的监控视频数据进行统一地行人标注,作为训练图片;将训练图片送入深度网络中提取特征,经过若干次迭代更新网络权重参数,获得精度高于预设阈值的行人检测器;
所述训练模块,包括训练集采集子模块、参数设置子模块、行人边界框预测子模块、高于预设阈值的行人检测器构建子模块;
所述训练集采集子模块,用于从不同点位的摄像头下获取视频数据,并从中选择视角不同,行人多于预设阈值的高清图片作为训练图片,利用LabelImg标注工具标注行人框,作为训练集;
所述参数设置子模块,用于在训练前对学习率、训练类别、batch size和迭代次数进行设置;
所述行人边界框预测子模块,用于输入训练图片,利用深度网络对图像进行两种尺度上的预测,让网络同时学习到深层和浅层的特征,通过叠加浅层特征图得到不同通道;最终对网络输出的两种不同分辨率下的特征图对应了3种不同大小的先验框anchor box,即预测出的行人边界框;
所述高于预设阈值的行人检测器构建子模块,用于网络训练损失,训练过程的损失函数主要由四部分组成:分别是行人中心坐标损失、anchor长宽回归值损失、置信度损失与分类损失;在平均损失在若干次迭代且不再减少时停止训练,最终获得不同迭代次数下的权重文件;经过若干次迭代更新网络权重参数,获得精度高于预设阈值的行人检测器;
所述检测模块,用于对输入的视频序列图像利用神经网络进行尺度大小处理;
所述检测模块,包括图像预处理子模块、特征提取子模块、深度卷积网络优化子模块、卷积特征融合子模块、第一预测子模块、第二预测子模块、行人检测子模块;
所述图像预处理子模块,用于对输入的视频序列图像利用神经网络进行尺度大小处理;
所述特征提取子模块,用于利用深度可分离卷积网络对处理后图像进行特征提取,获得的特征图feature map用P(X,Y,M)表示,其中X和Y表示特征图的横、纵坐标,M表示特征图的通道维度;
所述深度卷积网络优化子模块,用于在深度可分离卷积网络中加入一个passthroughlayer的结构,是由深度可分离卷积层、池化或上采样层以及路由层组成;
所述卷积特征融合子模块,用于利用passthough layers的结构,通过池化或上采样操作融合高分辨率与低分辨率的卷积特征;
所述第一预测子模块,用于将融合后的特征图feature map通过先验知识预测图像中可能出现行人的位置,获得行人位置边界框的最终尺寸;
所述第二预测子模块,用于针对未经过池化的分辨率较高的特征图feature map通过先验知识预测图像中可能出现行人的位置,获得行人位置边界框的最终尺寸;
所述行人检测子模块,最后一层包含两个分支,分别是对步骤2.5与步骤2.6中预测的边界框进行分类和边框回归,对预测的边界框进行分类和边框回归,最终输出行人的位置信息(x,y,w,h)、类别以及置信度,其中,(x,y)是行人矩形框中心在图像中对应的坐标信息,(w,h)为行人就行框的宽度和高度。
CN201910897781.1A 2019-09-23 2019-09-23 一种基于深度学习的实时行人检测方法及系统 Active CN110728200B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910897781.1A CN110728200B (zh) 2019-09-23 2019-09-23 一种基于深度学习的实时行人检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910897781.1A CN110728200B (zh) 2019-09-23 2019-09-23 一种基于深度学习的实时行人检测方法及系统

Publications (2)

Publication Number Publication Date
CN110728200A true CN110728200A (zh) 2020-01-24
CN110728200B CN110728200B (zh) 2023-06-06

Family

ID=69218246

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910897781.1A Active CN110728200B (zh) 2019-09-23 2019-09-23 一种基于深度学习的实时行人检测方法及系统

Country Status (1)

Country Link
CN (1) CN110728200B (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274985A (zh) * 2020-02-06 2020-06-12 咪咕文化科技有限公司 视频文本识别网络模型、视频文本识别装置与电子设备
CN111401290A (zh) * 2020-03-24 2020-07-10 杭州博雅鸿图视频技术有限公司 一种人脸检测方法及系统、计算机可读存储介质
CN111461145A (zh) * 2020-03-31 2020-07-28 中国科学院计算技术研究所 一种基于卷积神经网络进行目标检测的方法
CN111814754A (zh) * 2020-08-18 2020-10-23 深延科技(北京)有限公司 面向夜间场景的单帧图像行人检测方法和装置
CN112131933A (zh) * 2020-08-11 2020-12-25 安徽大学 一种基于改进yolo网络的快速行人检测方法与系统
CN112016639B (zh) * 2020-11-02 2021-01-26 四川大学 灵活可分离卷积框架和特征提取方法及其在VGG和ResNet中应用
CN112364804A (zh) * 2020-11-20 2021-02-12 大连大学 一种基于深度可分离卷积和标准卷积的行人检测方法
CN112633352A (zh) * 2020-12-18 2021-04-09 浙江大华技术股份有限公司 一种目标检测方法、装置、电子设备及存储介质
CN112800942A (zh) * 2021-01-26 2021-05-14 泉州装备制造研究所 一种基于自校准卷积网络的行人检测方法
CN112949500A (zh) * 2021-03-04 2021-06-11 北京联合大学 一种基于空间特征编码改进的YOLOv3车道线检测方法
CN113313162A (zh) * 2021-05-25 2021-08-27 国网河南省电力公司电力科学研究院 一种多尺度特征融合目标检测的方法及系统
CN113591735A (zh) * 2021-08-04 2021-11-02 上海新纪元机器人有限公司 一种基于深度学习的行人检测方法及系统
CN114998783A (zh) * 2022-05-19 2022-09-02 安徽合为智能科技有限公司 一种用于烟火及人员行为视频分析的前端设备
WO2022193866A1 (en) * 2021-03-16 2022-09-22 Huawei Technologies Co., Ltd. Methods, systems and computer medium for scene-adaptive future depth prediction in monocular videos
CN115147642A (zh) * 2022-06-02 2022-10-04 盛视科技股份有限公司 基于视觉的渣土车检测方法、装置、计算机及存储介质
WO2023221284A1 (zh) * 2022-05-19 2023-11-23 深圳大学 一种图关系网络人数统计方法及相关设备
CN117351420A (zh) * 2023-10-18 2024-01-05 江苏思行达信息技术有限公司 一种智能开关门检测方法
CN117456561A (zh) * 2023-12-22 2024-01-26 华侨大学 一种基于部件量子学习的行人再辨识方法
CN117351420B (zh) * 2023-10-18 2024-06-04 江苏思行达信息技术股份有限公司 一种智能开关门检测方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170351941A1 (en) * 2016-06-03 2017-12-07 Miovision Technologies Incorporated System and Method for Performing Saliency Detection Using Deep Active Contours
US20180089505A1 (en) * 2016-09-23 2018-03-29 Samsung Electronics Co., Ltd. System and method for deep network fusion for fast and robust object detection
CN108805070A (zh) * 2018-06-05 2018-11-13 合肥湛达智能科技有限公司 一种基于嵌入式终端的深度学习行人检测方法
CN108830205A (zh) * 2018-06-04 2018-11-16 江南大学 基于改进全卷积网络的多尺度感知行人检测方法
WO2018215861A1 (en) * 2017-05-24 2018-11-29 Kpit Technologies Limited System and method for pedestrian detection
CN109344821A (zh) * 2018-08-30 2019-02-15 西安电子科技大学 基于特征融合和深度学习的小目标检测方法
CN109815886A (zh) * 2019-01-21 2019-05-28 南京邮电大学 一种基于改进YOLOv3的行人和车辆检测方法及系统
CN109829428A (zh) * 2019-01-31 2019-05-31 兰州交通大学 基于改进YOLOv2的视频图像行人检测方法及系统
CN109840498A (zh) * 2019-01-31 2019-06-04 华南理工大学 一种实时行人检测方法及神经网络、目标检测层
CN109934121A (zh) * 2019-02-21 2019-06-25 江苏大学 一种基于YOLOv3算法的果园行人检测方法
CN110059554A (zh) * 2019-03-13 2019-07-26 重庆邮电大学 一种基于交通场景的多支路目标检测方法
CN110059558A (zh) * 2019-03-15 2019-07-26 江苏大学 一种基于改进ssd网络的果园障碍物实时检测方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170351941A1 (en) * 2016-06-03 2017-12-07 Miovision Technologies Incorporated System and Method for Performing Saliency Detection Using Deep Active Contours
US20180089505A1 (en) * 2016-09-23 2018-03-29 Samsung Electronics Co., Ltd. System and method for deep network fusion for fast and robust object detection
WO2018215861A1 (en) * 2017-05-24 2018-11-29 Kpit Technologies Limited System and method for pedestrian detection
CN108830205A (zh) * 2018-06-04 2018-11-16 江南大学 基于改进全卷积网络的多尺度感知行人检测方法
CN108805070A (zh) * 2018-06-05 2018-11-13 合肥湛达智能科技有限公司 一种基于嵌入式终端的深度学习行人检测方法
CN109344821A (zh) * 2018-08-30 2019-02-15 西安电子科技大学 基于特征融合和深度学习的小目标检测方法
CN109815886A (zh) * 2019-01-21 2019-05-28 南京邮电大学 一种基于改进YOLOv3的行人和车辆检测方法及系统
CN109829428A (zh) * 2019-01-31 2019-05-31 兰州交通大学 基于改进YOLOv2的视频图像行人检测方法及系统
CN109840498A (zh) * 2019-01-31 2019-06-04 华南理工大学 一种实时行人检测方法及神经网络、目标检测层
CN109934121A (zh) * 2019-02-21 2019-06-25 江苏大学 一种基于YOLOv3算法的果园行人检测方法
CN110059554A (zh) * 2019-03-13 2019-07-26 重庆邮电大学 一种基于交通场景的多支路目标检测方法
CN110059558A (zh) * 2019-03-15 2019-07-26 江苏大学 一种基于改进ssd网络的果园障碍物实时检测方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
RUI LI ET AL.: "Improved YOLOv2 Object Detection Model", pages 1 - 6 *
WENBO LAN ET AL.: "Pedestrian Detection Based on YOLO Network Model", 《2018 IEEE INTERNATIONAL CONFERENCE ON MECHATRONICS AND AUTOMATION》, pages 1547 - 1551 *
罗小丰同学: "YOLOv3庖丁解牛(三):YOLOv3损失函数", pages 1 - 6 *
陈聪;杨忠;宋佳蓉;韩家明;: "一种改进的卷积神经网络行人识别方法", 应用科技, no. 03, pages 55 - 61 *
高宗等: "基于yolo网络的行人检测方法", pages 215 - 219 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274985A (zh) * 2020-02-06 2020-06-12 咪咕文化科技有限公司 视频文本识别网络模型、视频文本识别装置与电子设备
CN111274985B (zh) * 2020-02-06 2024-03-26 咪咕文化科技有限公司 视频文本识别系统、视频文本识别装置与电子设备
CN111401290A (zh) * 2020-03-24 2020-07-10 杭州博雅鸿图视频技术有限公司 一种人脸检测方法及系统、计算机可读存储介质
CN111461145A (zh) * 2020-03-31 2020-07-28 中国科学院计算技术研究所 一种基于卷积神经网络进行目标检测的方法
CN112131933A (zh) * 2020-08-11 2020-12-25 安徽大学 一种基于改进yolo网络的快速行人检测方法与系统
CN111814754A (zh) * 2020-08-18 2020-10-23 深延科技(北京)有限公司 面向夜间场景的单帧图像行人检测方法和装置
CN112016639B (zh) * 2020-11-02 2021-01-26 四川大学 灵活可分离卷积框架和特征提取方法及其在VGG和ResNet中应用
CN112364804A (zh) * 2020-11-20 2021-02-12 大连大学 一种基于深度可分离卷积和标准卷积的行人检测方法
CN112364804B (zh) * 2020-11-20 2023-08-25 大连大学 一种基于深度可分离卷积和标准卷积的行人检测方法
CN112633352A (zh) * 2020-12-18 2021-04-09 浙江大华技术股份有限公司 一种目标检测方法、装置、电子设备及存储介质
CN112633352B (zh) * 2020-12-18 2023-08-29 浙江大华技术股份有限公司 一种目标检测方法、装置、电子设备及存储介质
CN112800942A (zh) * 2021-01-26 2021-05-14 泉州装备制造研究所 一种基于自校准卷积网络的行人检测方法
CN112800942B (zh) * 2021-01-26 2024-02-13 泉州装备制造研究所 一种基于自校准卷积网络的行人检测方法
CN112949500A (zh) * 2021-03-04 2021-06-11 北京联合大学 一种基于空间特征编码改进的YOLOv3车道线检测方法
WO2022193866A1 (en) * 2021-03-16 2022-09-22 Huawei Technologies Co., Ltd. Methods, systems and computer medium for scene-adaptive future depth prediction in monocular videos
CN113313162A (zh) * 2021-05-25 2021-08-27 国网河南省电力公司电力科学研究院 一种多尺度特征融合目标检测的方法及系统
CN113591735A (zh) * 2021-08-04 2021-11-02 上海新纪元机器人有限公司 一种基于深度学习的行人检测方法及系统
CN114998783A (zh) * 2022-05-19 2022-09-02 安徽合为智能科技有限公司 一种用于烟火及人员行为视频分析的前端设备
WO2023221284A1 (zh) * 2022-05-19 2023-11-23 深圳大学 一种图关系网络人数统计方法及相关设备
CN115147642A (zh) * 2022-06-02 2022-10-04 盛视科技股份有限公司 基于视觉的渣土车检测方法、装置、计算机及存储介质
CN117351420A (zh) * 2023-10-18 2024-01-05 江苏思行达信息技术有限公司 一种智能开关门检测方法
CN117351420B (zh) * 2023-10-18 2024-06-04 江苏思行达信息技术股份有限公司 一种智能开关门检测方法
CN117456561A (zh) * 2023-12-22 2024-01-26 华侨大学 一种基于部件量子学习的行人再辨识方法
CN117456561B (zh) * 2023-12-22 2024-03-12 华侨大学 一种基于部件量子学习的行人再辨识方法

Also Published As

Publication number Publication date
CN110728200B (zh) 2023-06-06

Similar Documents

Publication Publication Date Title
CN110728200B (zh) 一种基于深度学习的实时行人检测方法及系统
Zhou et al. Split depth-wise separable graph-convolution network for road extraction in complex environments from high-resolution remote-sensing images
CN111914795B (zh) 一种航拍图像中旋转目标检测方法
CN113673425B (zh) 一种基于Transformer的多视角目标检测方法及系统
Gosala et al. Bird’s-eye-view panoptic segmentation using monocular frontal view images
CN113723377B (zh) 一种基于ld-ssd网络的交通标志检测方法
CN111507275B (zh) 一种基于深度学习的视频数据时序信息提取方法及装置
CN109886159B (zh) 一种非限定条件下的人脸检测方法
WO2023030182A1 (zh) 图像生成方法及装置
CN110287798B (zh) 基于特征模块化和上下文融合的矢量网络行人检测方法
CN111915583A (zh) 复杂场景中基于车载红外热像仪的车辆和行人检测方法
CN112861700A (zh) 基于DeepLabv3+的车道线网络识别模型建立及车辆速度检测方法
CN114724155A (zh) 基于深度卷积神经网络的场景文本检测方法、系统及设备
CN113408584A (zh) Rgb-d多模态特征融合3d目标检测方法
CN115424017B (zh) 一种建筑物内外轮廓分割方法、装置及存储介质
CN115861619A (zh) 一种递归残差双注意力核点卷积网络的机载LiDAR城市点云语义分割方法与系统
CN112861970A (zh) 一种基于特征融合的细粒度图像分类方法
Nguyen Fast traffic sign detection approach based on lightweight network and multilayer proposal network
CN114445620A (zh) 一种改进Mask R-CNN的目标分割方法
CN111899278B (zh) 基于移动端的无人机图像快速目标跟踪方法
CN112053407A (zh) 一种交通执法影像中基于ai技术的车道线自动检测方法
Chen et al. Generalized Zero-Shot Vehicle Detection in Remote Sensing Imagery via Coarse-to-Fine Framework.
CN110555406A (zh) 一种基于Haar-like特征及CNN匹配的视频运动目标识别方法
CN114111647A (zh) 一种基于人工智能的绝缘子伞裙破损面积测量方法及测量系统
CN111401203A (zh) 基于多维图像融合的目标识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant