CN109871792B - 行人检测方法和装置 - Google Patents
行人检测方法和装置 Download PDFInfo
- Publication number
- CN109871792B CN109871792B CN201910099888.1A CN201910099888A CN109871792B CN 109871792 B CN109871792 B CN 109871792B CN 201910099888 A CN201910099888 A CN 201910099888A CN 109871792 B CN109871792 B CN 109871792B
- Authority
- CN
- China
- Prior art keywords
- candidate frame
- feature map
- pedestrian detection
- level
- pedestrian
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 141
- 238000000605 extraction Methods 0.000 claims abstract description 71
- 238000010586 diagram Methods 0.000 claims abstract description 32
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 18
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 230000009467 reduction Effects 0.000 claims description 59
- 238000013527 convolutional neural network Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000003066 decision tree Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000001965 increasing effect Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012916 structural analysis Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明实施例提供一种行人检测方法和装置。其中,方法包括:将待检测图片输入至行人检测模型中的区域提取层,输出若干个候选框;将若干个候选框输入至行人检测模型中的特征提取层,输出每一候选框的特征;将各候选框的特征输入至行人检测模型中的判别预测层,输出行人检测结果;其中,行人检测模型是根据样本图片进行训练后获得的;若干个候选框是根据待检测图片多层次的增强特征图获得的;多层次的增强特征图是对待检测图片多层次的原始特征图进行特征增强后获得的;多层次的原始特征图是根据层次化特征提取方法对待检测图片进行预处理后获得的。本发明实施例提供的行人检测方法和装置,能在保证高检测速度的前提下,提高检测准确性。
Description
技术领域
本发明实施例涉及计算机视觉技术领域,尤其涉及一种行人检测方法和装置。
背景技术
行人检测是计算机视觉中的一项重要组成部分,也是许多人工智能应用的基础,例如机动车自动驾驶和辅助驾驶、机器人自主导航和人机交互、无人机追踪、智能监控、视频结构化分析等。在实际应用中,不同运动状态的行人目标需要给予不同的关注程度和后续处理方法。
行人检测和一般物体检测有相似之处,其检测步骤均由区域建议、特征提取、模式分类组成;但是行人检测面临着尺度变化范围大、外观和姿态复杂、光照遮挡等外部因素影响等困难。在许多实际应用场景中,对行人检测的速度、精度和模型大小还有较高要求,而在自动驾驶和辅助驾驶任务中,往往还需要对行人的运动趋势进行判断。现有的基于深度学习的一般物体检测方法存在以下问题:单一的区域提取单元难以应对行人大范围的尺度变化;由于深度学习的卷积和池化层步长限制,无法对小尺度行人提取足够的特征;深度学习常用的多层感知器(MLP)参数过多,可能弱化分类结果,也限制了检测速度;不能在行人检测的同时给出行人运动趋势。因而现有行人检测技术难以兼顾检测准确率和检测速度。
发明内容
针对现有技术存在的问题,本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的行人检测方法和装置。
第一方面,本发明实施例提供一种行人检测方法,包括:
将待检测图片输入至行人检测模型中的区域提取层,输出若干个候选框;
将所述若干个候选框输入至所述行人检测模型中的特征提取层,输出每一所述候选框的特征;
将各所述候选框的特征输入至所述行人检测模型中的判别预测层,输出行人检测结果;
其中,所述行人检测模型是根据样本图片进行训练后获得的;所述若干个候选框是根据所述待检测图片多层次的增强特征图获得的;所述多层次的增强特征图是对所述待检测图片多层次的原始特征图进行特征增强后获得的;所述多层次的原始特征图是根据层次化特征提取方法对所述待检测图片进行预处理后获得的。
第二方面,本发明实施例提供一种行人检测装置,包括:
区域提取模块,用于将待检测图片输入至行人检测模型中的区域提取层,输出若干个候选框;
特征提取模块,用于将所述若干个候选框输入至所述行人检测模型中的特征提取层,输出每一所述候选框的特征;
判别预测模块,用于将各所述候选框的特征输入至所述行人检测模型中的判别预测层,输出行人检测结果;
其中,所述行人检测模型是根据样本图片进行训练后获得的;所述若干个候选框是根据所述待检测图片多层次的增强特征图获得的;所述多层次的增强特征图是对所述待检测图片多层次的原始特征图进行特征增强后获得的;所述多层次的原始特征图是根据层次化特征提取方法对所述待检测图片进行预处理后获得的。
第三方面,本发明实施例提供一种电子设备,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的行人检测方法。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的行人检测方法。
本发明实施例提供的行人检测方法和装置,通过特征增强获得各层次的增强特征图,根据各层次的增强特征图获得候选框和候选框的特征,根据候选框的特征获取行人检测结果,能使用较小的行人检测模型,在保证高检测速度的前提下,提高检测准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为根据本发明实施例提供的行人检测方法的流程示意图;
图2为根据本发明实施例提供的行人检测装置的功能框图;
图3为根据本发明实施例提供的电子设备的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了克服现有技术的上述问题,本发明实施例提供一种行人检测方法和装置,其发明构思是,利用一个较小的模型,以较快的速度在输入图像中对行人目标进行检测,提高检测准确率。
图1为根据本发明实施例提供的行人检测方法的流程示意图。如图1所示,一种行人检测方法包括:步骤S101、将待检测图片输入至行人检测模型中的区域提取层,输出若干个候选框;其中,行人检测模型是根据样本图片进行训练后获得的;若干个候选框是根据待检测图片多层次的增强特征图获得的;多层次的增强特征图是对待检测图片多层次的原始特征图进行特征增强后获得的;多层次的原始特征图是根据层次化特征提取方法对待检测图片进行预处理后获得的。
可以理解的是,通过样本图片对模型进行训练,可以获得行人检测模型。
需要说明的是,针对行人尺度变化幅度大的困难,可以通过层次化特征提取方法对待检测图片进行预处理,获得层次深浅不同的多个层次的特征图,作为多层次的原始特征图。对于每个层次,均可以包括多幅特征图。
层次化特征提取方法,可以采用卷积神经网络,或者先提取浅层特征、再根据浅层特征提取中间层特征(中间层特征可以为至少一层)、最后根据中间层特征提取深层特征。
若采用卷积神经网络进行层次化特征提取,该卷积神经网络包括多组卷积层,每组至少包括一个卷积层,相邻两组卷积层之间还可以包括池化层、归一化层和残差连接等辅助结构,将最后一组卷积层的输出作为最深层次的特征,可以将最后一组卷积层之前的若干组卷积层的输出分别作为其他层次的特征,也可以分别将至少两组卷积层的输出进行组合获得其他层次的特征。任意两组卷积层所包括的卷积层的数量可以相同或不同。
例如,卷积神经网络包括5组卷积层;需要输出2层级的原始特征图时,可以由第5组卷积层(从输入至输出方向)输出深层次的原始特征图,由第4组卷积层输出浅层次的原始特征图;需要输出5层次的原始特征图时,可以由第1至5组卷积层分别输出层级由浅至深的5层次的原始特征图;需要输出3层级的原始特征图时,可以由第5组卷积层输出最深层次的原始特征图,将第1组卷积层的输出和第2组卷积层的输出组合为最浅层级的原始特征图,将第3组卷积层的输出和第4组卷积层的输出组合为中间层级的原始特征图。
需要说明的是,现有技术为了提高检测准确率,对于卷积神经网络,通常采用加深、加宽卷积层实现,常见深度可以达到52、101、152层,但这样会牺牲检测速度,导致获得检测结果的耗时非常长。而本发明实施例不加深、加宽卷积层,总卷积层可以低于30个(如16~28个),不会导致检测速度的明显下降,采用对原始特征图进行特征增强的方法,使得增强特征图能更好地反映待检测图片的全局特征和/或局部特征,从而提高检测准确率。
进行特征增强,可以采用任一种特征增强方法。例如,结合上下文模型、特征包(Bag-of-feature,简称BoF)时态原语强化或基于时态原语。本发明实施例对采用的特征增强方法不作具体限制。
可以对每一层次的原始特征图都进行特征增强,将特征增强结果作为该层次的原始特征图对应的增强特征图;也可以对部分层次的原始特征图进行特征增强,将特征增强结果作为上述部分层次的原始特征图对应的增强特征图,而对于其他未进行特征增强的部分层次的原始特征图,则直接将原始特征图作为自身对应的增强特征图。由于每个层次的原始特征图都有对应的增强特征图,因而增强特征图也具有层次深浅不同的多个层次。
获得多层次的增强特征图之后,对于其中的每个层次的增强特征图,可以对该层次的增强特征图进行感兴趣区域提取,获得待检测图片中的感兴趣区域(region ofinterest,简称ROI),作为候选框。候选框是从哪个层次的增强特征图提取的,则该层次的增强特征图为该候选框对应的增强特征图;该增强特征图对应的原始特征图,为该候选框对应的原始特征图进行感兴趣区域提取,可以采用任一种ROI提取方法。例如,可以采用不同的算子或函数进行提取,或者可以采用设置的掩膜进行提取,获得候选框。本发明实施例对采用的特征增强方法不作具体限制。
从各层次的增强特征图提取获得的候选框,即上述区域提取层输出的若干个候选框。
从越深层次增强特征图提取的候选框的尺度越大,从越浅层次增强特征图提取的候选框的尺度越小,由于本发明实施例中提取的是多层次的增强特征图,从而能获得多尺度的候选框,能有效应对行人大范围的尺度变化。
步骤S102、将若干个候选框输入至行人检测模型中的特征提取层,输出每一候选框的特征。
具体地,对于输入的若干个候选框,特征提取层分别提取每一候选框的特征。
候选框的特征,可以根据其对应的增强特征图或原始特征图获得。
步骤S103、将各候选框的特征输入至行人检测模型中的判别预测层,输出行人检测结果。
具体地,获得各候选框的特征之后,将各候选框的特征输入行人检测模型中的判别预测层。
判别预测层可以包括分类器,由分类器根据每一候选框的特征,对该候选框中的目标是否为行人进行判断,获得该候选框的判断结果。对于采用的具体分类器,本发明实施例不作限制。
获得每一候选框的判断结果之后,根据各候选框的判断结果,输出行人检测结果。若至少一个候选框中的目标是行人,则将框中的目标是行人的候选框进行输出,作为待检测图片中检测到行人的输出结果;若各候选框中的目标都不是行人,则不输出任何候选框,表示待检测图片中未检测到行人。
本发明实施例通过特征增强获得各层次的增强特征图,根据各层次的增强特征图获得候选框和候选框的特征,根据候选框的特征获取行人检测结果,能使用较小的行人检测模型,在保证高检测速度的前提下,提高检测准确性。
基于上述各实施例的内容,获取多层次的增强特征图的具体步骤包括:对多层次的原始特征图进行特征降维,获取多层次的降维特征图。
具体地,对于多层次的增强特征图中每个层次的原始特征图,均进行特征降维,以去冗余,获得该层次的原始特征图对应的降维特征图。特征降维,可以采用任一种特征降维方法。例如,可以采用大卷积核进行可分离卷积、1×1卷积核进行卷积或主成分分析法进行特征降维、去冗余。本发明实施例对采用的特征降维方法不作具体限制。
由于每个层次的原始特征图都有对应的降维特征图,因而降维特征图也具有层次深浅不同的多个层次。
对于多层次的降维特征图中的每一非最深层次降维特征图,根据层次深于非最深层次降维特征图的降维特征图生成掩膜;根据掩膜和非最深层次降维特征图,生成非最深层次降维特征图对应的增强特征图。
具体地,可以采用注意力机制(Attention Mechanism)进行特征增强,按照人类视觉的指数响应特性,将特征掩膜中的数值作为自然常数e的幂指数,并和非最深层次降维特征图进行位运算(例如相乘),获得每一降维特征图对应的增强特征图。
本发明实施例中,注意力机制的基本思想是将浅层次特征和深层次特征进行融合,从而增强浅层次特征。
可以理解的是,对于最深层次降维特征图,由于没有比该层次更深层次的降维特征图,直接将最深层次降维特征图作为最深层次增强特征图。
而对于每一层次的非最深层次降维特征图,则可以根据比该层次更深的任一层次的降维特征图,生成指数掩膜;将指数掩膜经过幂函数以后和该非最深层次降维特征图进行位运算(例如相乘),获得该非最深层次降维特征图对应的增强特征图。增强特征图中,与行人目标相关的特征将得到增强,其余特征保持不变,从而可以改善后续分类判别和趋势预测的准确性。
优选地,对于每一层次的非最深层次降维特征图,可以根据比该层次深一个层次的降维特征图生成掩膜,对该层次的非最深层次降维特征图进行特征增强。例如,由浅到深依次为第1至5层次,第1层次的降维特征图根据第2层次的降维特征图进行特征增强,第2层次的降维特征图根据第3层次的降维特征图进行特征增强,第3层次的降维特征图根据第4层次的降维特征图进行特征增强,第4层次的降维特征图根据第5层次的降维特征图进行特征增强。
本发明实施例根据注意力机制获取增强特征图,能增强与行人目标相关的特征,从而能提高行人检测的准确率。
基于上述各实施例的内容,输出若干个候选框的具体步骤包括:对于每一增强特征图,根据区域提取网络获取候选框。
具体地,对于每一层次的增强特征图,分别采用一个区域提取网络(RegionProposal Network,简称RPN)获取候选框。
区域提取网络,又称区域生成网络或区域推荐网络。RPN将增强特征图划分为若干个不同大小、不同长宽比、不同尺度的可重叠的参考框(anchor),并根据特征判定每个参考框内是否包含待检测行人,同时回归计算待检测行人的ROI与参考框的相对位置,从而给出一系列可能存在行人的ROI,包括存在行人的初步概率估计以及所在位置的坐标(即候选框)。
在区域提取网络中,参考框的宽长比可以设为一个接近行人目标的宽长比(例如0.41)。为了更准确的对行人目标进行定位,选取多个参考框尺度。区域提取网络可以对所提取区域为行人目标的概率进行评分,实际上可作为后续级联分类器的第一级。
候选框是从哪个层次的增强特征图提取的,则该层次的增强特征图为该候选框对应的增强特征图;增强特征图对应的原始特征图、降维特征图,分别为该候选框对应的原始特征图、降维特征图。可以理解的是,增强特征图与其对应的原始特征图、降维特征图的层次相同。
本发明实施例通过区域提取网络和增强特征图获取候选框,能够在不明显增加时间复杂度的前提下大幅提升ROI生成的准确度。
基于上述各实施例的内容,将若干个候选框输入至行人检测模型中的特征提取层,输出每一候选框的特征的具体步骤包括:对于每一候选框,根据候选框的坐标,裁剪相应的原始特征图、降维特征图或增强特征图,获取候选框的特征。
具体地,候选框的特征可以通过裁剪原始特征图、降维特征图或增强特征图获得。获取各候选框的特征时,均裁剪相应的原始特征图,或均裁剪对应的降维特征图,或均裁剪对应的增强特征图。
以原始特征图为例,相应的原始特征图至少包括该候选框对应的原始特征图,还可以包括其他层次的原始特征图。
裁剪的具体步骤如下:
对于每一候选框,根据层次化特征提取方法的参数设置(例如卷积层的步长设置),将该候选框在待检测图片中的坐标映射为在每一相应的原始特征图(根据需要还可以是降维特征图或增强特征图)中的坐标;根据在原始特征图中的坐标,选取原始特征图中对应区域内的数值,作为该候选框的特征。裁剪的边界位于特征图的像素之间时,可以通过双线性插值等方法获得特征图的亚像素数值。
需要说明的是,候选框的特征,还可以由从多个相应的原始特征图上裁剪获得的数值进行组合获得。例如,如果较深的卷积层步长过大,候选框对应的区域面积过小,特征分辨率不足,可以减小该卷积层前一步的池化窗口大小,同时对卷积核进行膨胀(将卷积核放大,空位补0),即可获得较高分辨率的特征。
本发明实施例通过裁剪特征图获得候选框的特征,能更快速、准确地获得候选框的特征,从而能提高行人检测速度。
基于上述各实施例的内容,将各候选框的特征输入至行人检测模型中的判别预测层,输出行人检测结果的具体步骤包括:对于每一候选框,将候选框的特征输入至判别预测层中的级联分类器。
具体地,判别预测层包括级联分类器。该级联分类器由多个弱分类器进行软级联构成。弱分类器包括但不限于决策树分类器。级联分类器中弱分类器的数量可以根据实际需要选择,例如2048个。
对于本级分类器,根据候选框的特征输出候选框包含行人的评分。
对于每一候选框,若该候选框的特征被输入至本级分类器,则本级分类器根据候选框的特征输出该候选框包含行人的评分(反映该候选框为行人目标的概率)。为了更好的区分行人和行人,可以将行人的标签设置为正数,将非行人的标签设置为负数。
若判断获知已评分的各级分类器的评分之和大于预设的判别阈值,则将候选框的特征输入至下一级分类器;若判断获知已评分的各级分类器的评分之和小于判别阈值,则将候选框的分类判别结果确定为非行人。
采用软级联结构,即在分类判决过程中,当一部分弱分类器认为当前样本评分非常低(例如小于-1)时,进行剪枝优化,不再使用剩下的弱分类器进行分类,直接判定当前样本(即待检测图片)为负样本(非行人)。
由于对于正样本(行人),级联分类器最终获得的评分之和远大于0,而对于负样本,级联分类器最终获得的评分之和小于0,因此,可以只用一个很小的数(例如-1)作为判别阈值,就能够拒绝掉大部分负样本。这一设计可以明显提升检测速度。
具体地,获得本级分类器输出的评分之后,将本级分类器和本级之前的各级分类器输出的评分进行累加,获得已评分的各级分类器的评分之和;判断此时的评分之和是否小于预设的判别阈值;若小于,直接将该检测框的分类判别结果确定为非行人,不再将该候选框的特征输入至下一级分类器;若大于,则将候选框的特征输入至下一级分类器,由下一级分类器输出评分并判断是否提前剪枝。
最后一级分类器输出评分之后,根据各级分类器的评分,获取候选框的分类判别结果;若候选框的分类判别结果为行人,则将候选框作为行人检测结果输出。
若未发生提前剪枝,则最后一级分类器会根据该候选框的特征输出评分,此时,可以采用投票法,根据各级分类器输出的评分,确定该候选框的分类判别结果。
根据实际情况,投票法的表决规则,可以采用简单多数法、加权法等,本发明实施例对此不作具体限制。
若候选框的分类判别结果为行人,则输出该候选框,作为行人检测结果,表示检测到行人;若候选框的分类判别结果为非行人,则不输出该候选框。
需要说明的是,多个弱分类器可以通过Bootstrapping方式进行训练,每一阶段训练前,先使用前一阶段的分类器进行测试,收集得分较高的假阳性样本(困难样本),加入到本阶段的训练集中。在训练过程中,不进行提前剪枝,以保证每一级分类器都能得到充分训练。
本发明实施例采用软级联的多级分类器进行分类判决,能提前剪枝,减少计算量,从而能提高行人检测速度。
基于上述各实施例的内容,输出行人检测结果的具体步骤包括:若判断获知行人检测结果为存在行人,则输出每一行人的运动趋势预测结果。
具体地,判别预测层在输出行人检测结果的同时,还输出每一行人目标的运动趋势预测结果。
对于每一行人,其运动趋势预测结果是根据包含该行人的候选框的特征获得的。由于之前已经获得了包含该行人的候选框的特征,因此,能够在进行分类判决的同时,进行运动趋势预测,获得运动趋势预测结果。
本发明实施例能在进行行人检测的同时对行人目标的运动趋势做出预测,能对自动驾驶、辅助驾驶、机器人无人机跟踪等应用提供更准确和更丰富的基础信息。
基于上述各实施例的内容,输出行人的运动趋势预测结果的具体步骤包括:对于每一候选框,将候选框的特征输入至判别预测层中的趋势预测子层,输出候选框对应的运动趋势预测结果。
具体地,判别预测层包括趋势预测子层。趋势预测子层与级联分类器为并列关系。候选框的特征输入至判别预测层,具体为候选框的特征分别输入至趋势预测子层和级联分类器。
趋势预测子层可以采用多层感知器或全卷积网络,但不限于此。趋势预测子层,用于对行人的运动方向、运动速度等运动趋势特征进行预测。其中,运动方向为量化以后的方向,取离散值,可以使用多分类损失函数进行训练;运动速度为画面中的像素运动速度,取值连续,可以使用回归损失函数进行训练。
趋势预测子层可以对每一候选框进行运动趋势预测,获得该候选框包含的目标的运动趋势预测结果。
若判断获知候选框的分类判别结果为行人,则将候选框作为行人检测结果输出时,将候选框对应的运动趋势预测结果作为行人的运动趋势预测结果输出。
对于任一候选框,若该候选框的分类判别结果为行人,则级联分类器输出该候选框的行人检测结果的同时,趋势预测子层输出该候选框包含的目标(即行人)的运动趋势预测结果;若该候选框的分类判别结果为非行人,则趋势预测子层不输出该候选框包含的目标的运动趋势预测结果。
本发明实施例根据候选框的特征获得运动趋势预测结果,能获得更准确的运动趋势预测结果。
为了更好地理解本发明各实施例,下面通过一个实例进行说明。
行人检测模型采用VGG16作为层次化特征提取网络,分别在Conv4_3和Conv5_3层进行区域提取,生成原始特征图;两个区域提取网络前使用大卷积核可分离卷积进行特征降维,卷积核大小分别为1×7和1×5。区域提取网络由三个卷积层构成,参考框宽高比0.41,最小高度为40像素,并按1.3x递增;弱分类器由决策树构成,每一阶段的训练分别包括64~2048棵不等的决策树。
在公开的Caltech-USA行人检测评价标准中,本实例的对数平均未命中率(Log-Average Miss Rate)仅有6.02%,检测速度可达100ms/frame。而F-DNN方法的检测准确率略低于本实例,但模型大小是本实例的7倍,检测速度低于本实例,难以在实际系统中部署应用。行人运动趋势预测尚未有公开公认的评价标准,本实例在自建的数据集中平均准确率可达74.8%。
可见相对于传统的行人检测方法,本发明各实施例提供的检测方法的检测速度更快、准确率更高,还可以对行人的运动趋势进行预测,方便实际系统对不同运动状态的行人进行针对性处理。
图2为根据本发明实施例提供的行人检测装置的功能框图。基于上述各实施例的内容,如图2所示,该装置包括区域提取模块201、特征提取模块202和判别预测模块203,其中:
区域提取模块201,用于将待检测图片输入至行人检测模型中的区域提取层,输出若干个候选框;
特征提取模块202,用于将若干个候选框输入至行人检测模型中的特征提取层,输出每一候选框的特征;
判别预测模块203,用于将各候选框的特征输入至行人检测模型中的判别预测层,输出行人检测结果;
其中,行人检测模型是根据样本图片进行训练后获得的;若干个候选框是根据待检测图片多层次的增强特征图获得的;多层次的增强特征图是对待检测图片多层次的原始特征图进行特征增强后获得的;多层次的原始特征图是根据层次化特征提取方法对待检测图片进行预处理后获得的。
具体地,区域提取模块201通过层次化特征提取方法对输入至区域提取层的待检测图片进行预处理,获取多层次的原始特征图;对多层次的原始特征图进行特征增强,获得多层次的增强特征图;对多层次的增强特征图进行区域提取,获得若干个候选框。
特征提取模块202,分别根据相应的特征图,提取每一候选框的特征。
判别预测模块203,分别根据每一候选框的特征,对该候选框中的目标是否为行人进行判断,获得该候选框的判断结果。
本发明实施例提供的行人检测装置,用于执行本发明上述各实施例提供的行人检测方法,该行人检测装置包括的各模块实现相应功能的具体方法和流程详见上述行人检测方法的实施例,此处不再赘述。
该行人检测装置用于前述各实施例的行人检测方法。因此,在前述各实施例中的行人检测方法中的描述和定义,可以用于本发明实施例中各执行模块的理解。
本发明实施例通过特征增强获得各层次的增强特征图,根据各层次的增强特征图获得候选框和候选框的特征,根据候选框的特征获取行人检测结果,能使用较小的行人检测模型,在保证高检测速度的前提下,提高检测准确性。
图3为根据本发明实施例提供的电子设备的结构框图。基于上述实施例的内容,如图3所示,该电子设备可以包括:处理器(processor)301、存储器(memory)302和总线303;其中,处理器301和存储器302通过总线303完成相互间的通信;处理器301用于调用存储在存储器302中并可在处理器301上运行的计算机程序指令,以执行上述各方法实施例所提供的方法,例如包括:将待检测图片输入至行人检测模型中的区域提取层,输出若干个候选框;将若干个候选框输入至行人检测模型中的特征提取层,输出每一候选框的特征;将各候选框的特征输入至行人检测模型中的判别预测层,输出行人检测结果;其中,行人检测模型是根据样本图片进行训练后获得的;若干个候选框是根据待检测图片多层次的增强特征图获得的;多层次的增强特征图是对待检测图片多层次的原始特征图进行特征增强后获得的;多层次的原始特征图是根据层次化特征提取方法对待检测图片进行预处理后获得的。
本发明另一实施例公开一种计算机程序产品,计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:将待检测图片输入至行人检测模型中的区域提取层,输出若干个候选框;将若干个候选框输入至行人检测模型中的特征提取层,输出每一候选框的特征;将各候选框的特征输入至行人检测模型中的判别预测层,输出行人检测结果;其中,行人检测模型是根据样本图片进行训练后获得的;若干个候选框是根据待检测图片多层次的增强特征图获得的;多层次的增强特征图是对待检测图片多层次的原始特征图进行特征增强后获得的;多层次的原始特征图是根据层次化特征提取方法对待检测图片进行预处理后获得的。
此外,上述的存储器302中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明另一实施例提供一种非暂态计算机可读存储介质,非暂态计算机可读存储介质存储计算机指令,计算机指令使计算机执行上述各方法实施例所提供的方法,例如包括:将待检测图片输入至行人检测模型中的区域提取层,输出若干个候选框;将若干个候选框输入至行人检测模型中的特征提取层,输出每一候选框的特征;将各候选框的特征输入至行人检测模型中的判别预测层,输出行人检测结果;其中,行人检测模型是根据样本图片进行训练后获得的;若干个候选框是根据待检测图片多层次的增强特征图获得的;多层次的增强特征图是对待检测图片多层次的原始特征图进行特征增强后获得的;多层次的原始特征图是根据层次化特征提取方法对待检测图片进行预处理后获得的。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行上述各个实施例或者实施例的某些部分的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (6)
1.一种行人检测方法,其特征在于,包括:
将待检测图片输入至行人检测模型中的区域提取层,输出若干个候选框;
将所述若干个候选框输入至所述行人检测模型中的特征提取层,输出每一所述候选框的特征;
将各所述候选框的特征输入至所述行人检测模型中的判别预测层,输出行人检测结果;
其中,所述行人检测模型是根据样本图片进行训练后获得的;所述若干个候选框是根据所述待检测图片多层次的增强特征图获得的;所述多层次的增强特征图是对所述待检测图片多层次的原始特征图进行特征增强后获得的;所述多层次的原始特征图是根据层次化特征提取方法对所述待检测图片进行预处理后获得的;
获取所述多层次的增强特征图的具体步骤包括:
对所述多层次的原始特征图进行特征降维,获取多层次的降维特征图;
对于所述多层次的降维特征图中的每一非最深层次降维特征图,根据层次深于所述非最深层次降维特征图的降维特征图生成掩膜;
根据掩膜和所述非最深层次降维特征图,生成所述非最深层次降维特征图对应的增强特征图;
所述输出若干个候选框的具体步骤包括:
对于每一所述增强特征图,根据区域提取网络获取候选框;
将所述若干个候选框输入至所述行人检测模型中的特征提取层,输出每一所述候选框的特征的具体步骤包括:
对于每一所述候选框,根据所述候选框的坐标,裁剪相应的原始特征图、降维特征图或增强特征图,获取所述候选框的特征;
将各所述候选框的特征输入至所述行人检测模型中的判别预测层,输出行人检测结果的具体步骤包括:
对于每一所述候选框,将所述候选框的特征输入至所述判别预测层中的级联分类器;
对于本级分类器,根据所述候选框的特征输出所述候选框包含行人的评分;
若判断获知已评分的各级分类器的评分之和大于预设的判别阈值,则将所述候选框的特征输入至下一级分类器;
若判断获知已评分的各级分类器的评分之和小于所述判别阈值,则将所述候选框的分类判别结果确定为非行人;
最后一级分类器输出评分之后,根据各级分类器的评分,获取所述候选框的分类判别结果;若所述候选框的分类判别结果为行人,则将所述候选框作为行人检测结果输出。
2.根据权利要求1所述的行人检测方法,其特征在于,所述输出行人检测结果的具体步骤包括:
若判断获知行人检测结果为存在行人,则输出每一行人的运动趋势预测结果。
3.根据权利要求2所述的行人检测方法,其特征在于,输出行人的运动趋势预测结果的具体步骤包括:
对于每一所述候选框,将所述候选框的特征输入至所述判别预测层中的趋势预测子层,输出所述候选框对应的运动趋势预测结果;
若判断获知所述候选框的分类判别结果为行人,则将所述候选框作为行人检测结果输出时,将所述候选框对应的运动趋势预测结果作为行人的运动趋势预测结果输出。
4.一种行人检测装置,其特征在于,包括:
区域提取模块,用于将待检测图片输入至行人检测模型中的区域提取层,输出若干个候选框;
特征提取模块,用于将所述若干个候选框输入至所述行人检测模型中的特征提取层,输出每一所述候选框的特征;
判别预测模块,用于将各所述候选框的特征输入至所述行人检测模型中的判别预测层,输出行人检测结果;
其中,所述行人检测模型是根据样本图片进行训练后获得的;所述若干个候选框是根据所述待检测图片多层次的增强特征图获得的;所述多层次的增强特征图是对所述待检测图片多层次的原始特征图进行特征增强后获得的;所述多层次的原始特征图是根据层次化特征提取方法对所述待检测图片进行预处理后获得的;
获取所述多层次的增强特征图的具体步骤包括:
对所述多层次的原始特征图进行特征降维,获取多层次的降维特征图;
对于所述多层次的降维特征图中的每一非最深层次降维特征图,根据层次深于所述非最深层次降维特征图的降维特征图生成掩膜;
根据掩膜和所述非最深层次降维特征图,生成所述非最深层次降维特征图对应的增强特征图;
所述区域提取模块输出若干个候选框的具体步骤包括:
对于每一所述增强特征图,根据区域提取网络获取候选框;
所述特征提取模块,具体用于对于每一所述候选框,根据所述候选框的坐标,裁剪相应的原始特征图、降维特征图或增强特征图,获取所述候选框的特征;
所述判别预测模块具体用于:
对于每一所述候选框,将所述候选框的特征输入至所述判别预测层中的级联分类器;
对于本级分类器,根据所述候选框的特征输出所述候选框包含行人的评分;
若判断获知已评分的各级分类器的评分之和大于预设的判别阈值,则将所述候选框的特征输入至下一级分类器;
若判断获知已评分的各级分类器的评分之和小于所述判别阈值,则将所述候选框的分类判别结果确定为非行人;
最后一级分类器输出评分之后,根据各级分类器的评分,获取所述候选框的分类判别结果;若所述候选框的分类判别结果为行人,则将所述候选框作为行人检测结果输出。
5.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至3任一所述的方法。
6.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至3任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910099888.1A CN109871792B (zh) | 2019-01-31 | 2019-01-31 | 行人检测方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910099888.1A CN109871792B (zh) | 2019-01-31 | 2019-01-31 | 行人检测方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109871792A CN109871792A (zh) | 2019-06-11 |
CN109871792B true CN109871792B (zh) | 2020-12-29 |
Family
ID=66918455
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910099888.1A Active CN109871792B (zh) | 2019-01-31 | 2019-01-31 | 行人检测方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109871792B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046928B (zh) * | 2019-11-27 | 2023-05-23 | 上海交通大学 | 定位精准的单阶段实时通用目标检测器及方法 |
CN111695491B (zh) * | 2020-06-10 | 2023-12-19 | 阿波罗智联(北京)科技有限公司 | 用于检测行人的方法和装置 |
CN111488876B (zh) * | 2020-06-28 | 2020-10-23 | 平安国际智慧城市科技股份有限公司 | 基于人工智能的车牌识别方法、装置、设备及介质 |
CN114363671B (zh) * | 2021-12-31 | 2024-03-19 | 北京达佳互联信息技术有限公司 | 多媒体资源推送方法、模型训练方法、装置、存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108664838A (zh) * | 2017-03-27 | 2018-10-16 | 北京中科视维文化科技有限公司 | 基于改进rpn深度网络的端到端的监控场景行人检测方法 |
CN109165540B (zh) * | 2018-06-13 | 2022-02-25 | 深圳市感动智能科技有限公司 | 一种基于先验候选框选择策略的行人搜索方法和装置 |
-
2019
- 2019-01-31 CN CN201910099888.1A patent/CN109871792B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109871792A (zh) | 2019-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112132156B (zh) | 多深度特征融合的图像显著性目标检测方法及系统 | |
CN109871792B (zh) | 行人检测方法和装置 | |
CN110020592B (zh) | 物体检测模型训练方法、装置、计算机设备及存储介质 | |
CN107563372B (zh) | 一种基于深度学习ssd框架的车牌定位方法 | |
CN113688652B (zh) | 一种异常驾驶行为的处理方法和装置 | |
CN112966691B (zh) | 基于语义分割的多尺度文本检测方法、装置及电子设备 | |
CN112446378B (zh) | 目标检测方法及装置、存储介质、终端 | |
CN111914843B (zh) | 文字检测方法、系统、设备及存储介质 | |
CN112016569B (zh) | 基于注意力机制的目标检测方法、网络、设备和存储介质 | |
CN110569782A (zh) | 一种基于深度学习目标检测方法 | |
CN111723822B (zh) | 一种基于多层次融合的rgbd图像显著性检测方法及系统 | |
CN114266794B (zh) | 基于全卷积神经网络的病理切片图像癌症区域分割系统 | |
CN109886086B (zh) | 基于hog特征和线性svm级联分类器的行人检测方法 | |
CN110334703B (zh) | 一种昼夜图像中的船舶检测和识别方法 | |
CN107103608B (zh) | 一种基于区域候选样本选择的显著性检测方法 | |
CN111368634B (zh) | 基于神经网络的人头检测方法、系统及存储介质 | |
CN111553414A (zh) | 一种基于改进Faster R-CNN的车内遗失物体检测方法 | |
CN112861917A (zh) | 基于图像属性学习的弱监督目标检测方法 | |
CN117152414A (zh) | 一种基于尺度注意力辅助学习方法的目标检测方法及系统 | |
CN118115932A (zh) | 图像回归器训练方法与相关方法、装置、设备及介质 | |
KR102026280B1 (ko) | 딥 러닝을 이용한 씬 텍스트 검출 방법 및 시스템 | |
CN116363700A (zh) | 一种基于遮挡感知和特征复原的遮挡行人重识别方法 | |
CN114092818B (zh) | 语义分割方法、装置、电子设备及存储介质 | |
Wang et al. | Vagan: Vehicle-aware generative adversarial networks for vehicle detection in rain | |
Rajavarshini et al. | Comparative analysis of image processing techniques for obstacle avoidance and path deduction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |