CN112131996A - 基于通道分离卷积的路侧图像多尺度行人快速检测方法 - Google Patents

基于通道分离卷积的路侧图像多尺度行人快速检测方法 Download PDF

Info

Publication number
CN112131996A
CN112131996A CN202010980622.0A CN202010980622A CN112131996A CN 112131996 A CN112131996 A CN 112131996A CN 202010980622 A CN202010980622 A CN 202010980622A CN 112131996 A CN112131996 A CN 112131996A
Authority
CN
China
Prior art keywords
scale
pedestrian
convolution
substep
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010980622.0A
Other languages
English (en)
Other versions
CN112131996B (zh
Inventor
李旭
朱建潇
赵琬婷
徐启敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202010980622.0A priority Critical patent/CN112131996B/zh
Publication of CN112131996A publication Critical patent/CN112131996A/zh
Application granted granted Critical
Publication of CN112131996B publication Critical patent/CN112131996B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Traffic Control Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于通道分离卷积的路侧图像多尺度行人快速检测方法,该方法克服了现在大多数行人检测模型难以对多尺度行人目标进行快速精准检测的难题,创新性的提出了基于通道分离卷积的检测网络,该网络首先通过样本相关的通道分离卷积操作,针对多尺度目标设定不同类别的卷积操作,缓解了样本不均衡条件下的精度差距,其次设计了尺度不敏感的感兴趣区域对齐结构,利用不同层级的特征图来对不同尺度的目标进行推理,避免了单一层级推理时的梯度竞争,最后,设计了尺度不敏感的损失函数用于提升多尺度行人目标位置的精确度,本发明设计的检测方法获得了准确度与实时性的双重提升,可以在路侧视角下实现快速、准确、可靠的行人检测。

Description

基于通道分离卷积的路侧图像多尺度行人快速检测方法
技术领域
本发明属于计算机视觉与智能交通系统领域,涉及智能路侧设备的图像行人快速检测方法,尤其是基于通道分离卷积的路侧图像多尺度行人快速检测方法。
背景技术
伴随着我国道路通车里程和道路交通规模快速增长,行人与车辆之间的交通运输事故频发。为减少驾驶员、智能汽车及行人本身等因素照成的交通安全事故,采用电子信息化技术辅助周边行人对驾驶员或者智能汽车进行安全预警的智能路侧系统已成为国内外研究的重点。在智能路侧系统的关键技术中,对感知区域中不同尺度大小行人的全面、准确、实时检测识别是体现智能路侧系统存在价值的重要一环。
虽然行人检测技术早在90年代已有研究,但早期的行人检测算法仅仅基于人工设计的有限特征的来辅助机器进行判别,算法精度不高。人工设计的行人目标特征通常仅从某一个或某几个方面来描述行人的外观特征,如灰度、边缘、纹理、梯度直方图等,其所设计特征的维度较低、丰富度不足,因此在背景简单的场景下使用时能够表现出尚可的性能,但对于日常环境中大量存在的尺度变化和局部遮挡等复杂场景则难以保持较高的检测质量。
随着深度学习技术的兴起,行人检测算法开始逐步引入深度神经网络的多层卷积结构来自主提取行人特征,这种利用大量非线性映射的网络结构可以使特征具有很强的层次表达能力,但是其单一的尺度处理结构,难以同时满足不同尺度目标的高精度检测需求,并且由于深度结构的引入,算法在兼顾精确度的前提下很难满足智能路侧系统要求的实时性。在此背景下,既能兼顾多尺度检测精度与时效性的检测网络结构性改进方法成为了大规模推广智能路侧系统的关键所在。
发明内容
为解决以上描述的问题,本发明公开了一种基于通道分离卷积的路侧图像多尺度行人快速检测方法,该方法针对当前路侧视角下行人检测深度学习算法对尺度变化的行人目标检测能力不足、算法推理时间过长的严重缺陷,设计了能够对不同尺度行人目标进行快速准确识别的深度学习网络结构,该算法结构具备多尺度检测准确率高、检测时间短的核心优势。
为了到达上述目的,本发明提供如下技术方案:
基于通道分离卷积的路侧图像多尺度行人快速检测方法,包括以下步骤:
(1)构建包含不同尺度行人的路侧图像数据集。首先,设定用于尺度分类的两种行人像素高度阈值H1、H2。其次,采集并标注天桥、龙门架等典型智能路侧场景下含多尺度行人的图片样本Q张,样本分辨率为1920×1080,由此构成路侧行人检测的原始数据集O1。再次,根据行人像素高度h及高度阈值H1、H2,计算出行人所属尺度类别Class。具体计算公式如下:
Figure BDA0002687386900000011
在上述公式中,S指代小尺度目标,M指代中尺度目标,L指代大尺度目标。
紧接着,利用轴向对称、随机切片、随机放缩、亮度调整等数据增强方式扩充O1,由此形成增强数据集O2。最后,划分O2为训练数据集W、验证数据集V、测试数据集Z用于后续的算法训练、模型选取和精度测试。
(2)进行多尺度行人训练数据的尺寸下调、锚点计算等预处理操作。
(3)搭建基于通道分离卷积的改进型Faster-RCNN多尺度行人快速检测网络架构。首先,利用通道分离卷积搭建多尺度行人目标特征提取模块。其次,引入Faster-RCNN模型中的候选区域生成模块,得到粗粒度的行人目标位置。再次,设计尺寸不敏感的感兴趣区域对齐模块,获取多尺度下行人目标的精准位置。最终,集成上述的特征提取、候选区域生成、感兴趣区域对齐三种模块,形成基于通道分离卷积的改进型Faster-RCNN多尺度行人快速检测网络架构。该部分包含如下子步骤:
子步骤1:设计一种基于通道分离卷积的多尺度行人特征提取模块,具体包含:
子步骤1.1:设定特征提取层深度为13,每一层f的卷积核总体数量Kf
子步骤1.2:设定特征提取层的每层相应卷积操作方式。首先,设定下采样操作触发条件为Kf=2Kf-1(13≥f≥2),非下采样操作触发条件为Kf=Kf-1(13≥f≥2)。其次,设定下采样和非下采样操作的通道分离卷积卷积核个数。根据训练数据集W中的大中小三级尺度目标个数TL、TM、TS,划分卷积通道卷积核个数,即大尺度、中尺度和小尺度通道卷积核个数分别为
Figure BDA0002687386900000021
不同尺度通道卷积核个数计算公式如下:
Figure BDA0002687386900000022
Figure BDA0002687386900000023
Figure BDA0002687386900000024
其中,floor(·)操作是向下取整,TL为大尺度目标个数,TM为中尺度目标个数,TS为大尺度目标个数。
子步骤1.3:设定通道分离卷积的下采样和非下采样操作流程。
子步骤1.4:设定通道聚合卷积操作,将子步骤1.3中生成的差异化特征图以通道维度进行特征图的叠加,经过3×3的特征变化之后,聚合形成不同尺度融合后的跨尺度特征图。
子步骤2:引入Faster-RCNN模型中的候选区域生成模块。
子步骤3:设计尺寸不敏感的感兴趣区域对齐模块。首先根据子步骤2中候选区域生成模块生成的粗粒度目标边界位置,根据生成目标的锚点尺寸类别G选取特定特征提取模块层级f,如11、12或13层,进行目标的感兴趣区域对齐ROIAlignf,计算公式如下:
Figure BDA0002687386900000025
子步骤4:集合子步骤1中设定的特征提取模块、子步骤2中设定的候选区域生成模块、子步骤3中设定的感兴趣区域对齐模块,形成多尺度行人快速检测网络。
(4)定义多尺度行人快速检测网络损失函数。损失函数losstotal由面向行人存在性的二分类交叉熵损失函数lossBCE和面向不同尺度行人的位置回归损失函数lossML构成。其中,lossBCE是目标存在性与真实目标存在性的二分类交叉熵损失,lossML是目标位置与真实位置的交并比和边界框中心位置之和,整个网络损失函数的计算公式如下:
losstotal=α×lossBCE+(1-α)×lossML#(6)
其中,α为两个部分之间的平衡因子,通过在验证数据集V中选取最高识别准确率下的参数值作为该平衡因子最终值。
(5)训练获得最佳多尺度行人快速检测网络模型。
(6)用步骤5中输出的最佳网络模型进行路侧图像的多尺度行人检测。
与现有技术相比,本发明具有如下优点和有益效果:
1.本发明通过设计并优化了目标尺度不敏感的感兴趣区域对齐结构,克服固定分辨率下因样本不平衡导致的中小目标检测精度低的难题,弱化了传统检测网络对于目标尺度带来的影响,使得网络对于多尺度目标的位置精度有较大的提升。
2.本发明所设计的网络结构与原有的Faster-RCNN相比,通过通道分离卷积大大降低了网络的复杂程度,在整体模型存储体积略微增大的前提下,既减少了模型的训练时间,又减少了模型的推理时间,有效地满足了智能交通场景下的实时性需求。
附图说明
图1是本发明所设计的多尺度行人快速检测方法行人检测网络结构示意图。
图2是本发明所设计的分离通道卷积示意图。
图3是本发明所设计算法模型的训练流程图。
图4是本发明所设计算法的一些路侧视角下多尺度行人目标检测示例。
具体实施方式
以下将结合具体实施例对本发明提供的技术方案进行详细说明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
本发明提供的基于通道分离卷积的路侧图像多尺度行人快速检测方法,通过构建不同尺度行人的路侧图像数据集并进行预处理操作形成本发明设计网络架构的训练数据,紧接着在设计网络架构部分创新型地提出了基于通道分离卷积的多尺度行人特征提取模块及尺度不敏感的感兴趣区域对齐模块进行多尺度行人的快速检测,其次通过设计尺度不敏感的训练损失函数进行网络的训练,最后在验证数据集中选取最佳网络模型进行多尺度行人目标的检测识别。本发明的核心创新之处在于利用通道分离卷积实现了多尺度行人目标快速检测能力,所设计的结构相较于基于深度可分离卷积、普通卷积及多分辨率卷积的行人检测网络结构而言,具有精度高、实时性显著增强的优势,更加适用于智能交通领域的低延时场合。本发明具体包括如下步骤:
(1)构建包含不同尺度行人的路侧图像数据集。典型的深度学习数据集中缺乏智能路侧场景下的多尺度行人数据,因此,构建多尺度的行人路侧图像数据集成为了设计相应检测模型的基础条件。多尺度数据集相较于传统目标检测的数据集而言,需要标注目标所属的尺度类别,采集成本更高,其具体过程是,首先,设定用于尺度分类的两种行人像素高度阈值H1、H2,在天桥、龙门架等典型智能路侧设备应用场景下,依据经验知识,选取H1、H2为50与100。其次,采集并标注上述应用场景下含多尺度行人的图片样本Q张,样本分辨率为1920×1080,由此构成路侧行人检测的原始数据集O1,在综合考虑标记成本与算法性能的基础上,设定Q为2000。再次,根据行人像素高度h及高度阈值H1、H2,计算出行人所属尺度类别Class。具体计算公式如下:
Figure BDA0002687386900000031
在以上公式和下文中,S指代小尺度目标类别,M指代中尺度目标类别,L指代大尺度目标类别。
紧接着,利用轴向对称、随机切片、随机放缩、亮度调整等数据增强方式扩充O1,由此形成大小为4Q的增强数据集O2。最后,以3:1:1的常用比例划分O2为训练数据集W、验证数据集V、测试数据集Z用于后续的算法训练、模型选取和精度测试。
(2)进行多尺度行人训练数据的尺寸下调、锚点计算等预处理操作。直接利用训练数据集进行算法模型的训练未尝不可,但考虑到训练时间成本、训练设备成本等条件下,适当的预处理操作可以有效降低获取最佳网络模型的成本代价,其具体过程是,首先,下调训练数据集W中的样本尺寸,并等比例地缩小相应样本标注,这种尺寸预处理可以降低卷积神经网络(CNN)在大尺寸特征图上卷积所耗费的巨额时间,减少训练周期,但过低的样本尺寸不利于小尺度行人的检测识别,因此,综合考虑训练时间与识别精度后,选取训练尺寸为1200×900,其次,利用kmeans++聚类算法对缩小后的样本标注进行聚类,设定聚类类别数为3,聚类迭代终止条件为聚类点无类别改变,由此得到多尺度行人锚点的最佳尺寸AS、AM、AL
(3)搭建基于通道分离卷积的改进型Faster-RCNN多尺度行人快速检测网络架构。传统Faster-RCNN架构基于普通卷积的方式对于多尺度目标检测而言,缺乏尺度上的针对性,对中小尺度目标检测能力不足,检测速度难以满足实时性要求,为了解决多尺度目标检测能力、检测速度这两大核心问题,本发明设计了基于通道分离卷积的改进型网络架构,首先,基于样本尺寸相关的通道分离原则,利用通道分离卷积搭建多尺度行人目标特征提取模块,该模块针对不同通道特征进行差异化分辨率的卷积操作,利用通道方向的特征堆叠将不同尺度特征进行跨尺度整合和上下文语义提取,这种操作可以在复用一部分卷积核的基础上对不同尺度目标进行有效的特征区分,从而缓解样本不均衡条件下的平均精度损失;其次,引入Faster-RCNN模型中的候选区域生成模块,综合上述跨尺度特征信息及上下文语义信息进行目标区域的初步划分,得到粗粒度的行人目标位置;再次,通过设计尺寸不敏感的感兴趣区域对齐模块,对上述粗粒度目标框内的特征进行精细化修正,获取多尺度下行人目标的精准位置;最终,集成上述的特征提取、候选区域生成、感兴趣区域对齐三种模块,形成基于通道分离卷积的改进型Faster-RCNN多尺度行人快速网络架构。该部分包含如下子步骤:
子步骤1:设计一种基于通道分离卷积的多尺度行人特征提取模块,具体包含:
子步骤1.1:设定特征提取层深度为13,其中每一层f的卷积核总体数量Kf分别为32、64、64、64、128、128、128、128、256、256、256、256、256;
子步骤1.2:设定特征提取层的每层相应卷积操作方式。首先,设定下采样操作触发条件为Kf=2Kf-1(13≥f≥2),非下采样操作触发条件为Kf=2Kf-1(13≥f≥2)。其次,对于特征提取层的初始第1层至第4层,设定下采样和非下采样操作方式为与Faster-RCNN一致的普通卷积,对于特征提取层的第5至第13层,设定下采样和非下采样操作方式为通道分离卷积,根据训练数据集W中的大中小三级尺度目标个数TL、TM、TS,划分每一层f的卷积通道卷积核个数,即大尺度、中尺度和小尺度通道卷积核个数分别为
Figure BDA0002687386900000041
这种划分方式一方面避免了随机划分带来的不确定性精度问题,另一方面考虑到了不同尺度样本量对模型精度的影响,适用于不同尺度比例的数据集。不同尺度通道卷积核个数计算公式如下:
Figure BDA0002687386900000042
Figure BDA0002687386900000043
Figure BDA0002687386900000044
其中,floor(·)操作是向下取整,TL为大尺度目标个数,TM为中尺度目标个数,TS为大尺度目标个数。
子步骤1.3:设定通道分离卷积的下采样和非下采样操作流程。首先,分别针对大、中、小尺度通道设定下采样操作流程,对小尺度通道的特征图进行1×1的卷积操作之后,利用步长为2的最大池化层进行下采样操作,形成小尺寸通道的局部特征图;对中尺寸通道的特征图进行1×1的卷积之后,利用一个步长为2的3×3卷积进行下采样操作,形成中尺寸通道的局部特征图;对大尺寸通道的特征图进行膨胀率为2的3×3的膨胀卷积之后,利用1×的卷积进行通道压缩,再利用步长为2的3×3卷积核进行卷积之后,形成大尺寸通道的局部特征图。其次,分别针对大、中、小尺度通道设定非下采样操作流程,对小尺度通道的特征图进行1×1的卷积操作,形成小尺寸通道的局部特征图;对中尺寸通道的特征图进行1×的卷积之后,利用一个步长为1的3×3卷积进行升维操作,形成中尺寸通道的局部特征图;对大尺寸通道的特征图进行膨胀率为2的3×3的膨胀卷积之后,利用1×1的卷积进行通道压缩,再利用步长为1的3×3卷积核进行卷积之后,形成大尺寸通道的局部特征图。利用以上设定的下采样与非下采样操作流程,可以得到大中小三种尺寸通道的差异化特征图。
子步骤1.4:设定通道聚合卷积操作,将子步骤1.3中生成的差异化特征图以通道维度进行特征图的叠加,经过3×3的特征变化之后,聚合形成不同尺度融合后的跨尺度特征图。
子步骤2:引入Faster-RCNN模型中的候选区域生成模块。利用子步骤1.4中输出的跨尺度特征图,引入候选区域生成模块,在特征图的每一个网格内,利用sigmoid激活函数对目标的存在性进行判别,利用3×3卷积对目标真实位置与锚点的相对距离进行估计,输出不同尺度行人目标的粗粒度边界框。
子步骤3:设计尺寸不敏感的感兴趣区域对齐模块,对子步骤2中输出的不同尺度行人目标的粗粒度边界框内特征进行精细化修正,获取不同尺度目标的精准位置。首先根据候选区域生成模块生成的粗粒度目标边界位置,根据生成目标的锚点尺寸类别G选取特定特征提取模块层级f,如11、12或13层,进行目标的感兴趣区域对齐ROIAlignf,计算公式如下:
Figure BDA0002687386900000051
这种尺度不敏感性的设计有效地减弱了不同尺度目标推理的梯度竞争,从而提升行人检测网络在不同尺度下的检测能力。
子步骤4:集合子步骤1中设定的特征提取模块、子步骤2中设定的候选区域生成模块、子步骤3中设定的感兴趣区域对齐模块,形成多尺度行人快速检测网络。
(4)定义尺度不敏感的网络损失函数,并进行多尺度行人快速检测网络的训练。基于Faster-RCNN架构的方法对于多尺度行人目标的位置损失函数计算时,仅仅通过对数回归的方式来缓解巨大尺度差距的问题,对智能路侧场合适应性不佳,本发明所定义的尺度不敏感网络损失函数利用交并比和中心位置则可以有效解决该问题,其具体是,首先定义网络的损失函数losstotal的构成内容为面向行人存在性的二分类交叉熵损失函数lossBCE和面向不同尺度行人的位置回归损失函数lossML。其中,lossBCE是目标存在性与真实目标存在性的二分类交叉熵损失,lossML是目标位置与真实位置的交并比和边界框中心位置之和,整个网络损失函数的计算公式如下:
losstotal=α×lossBCE+(1-α)×lossML# (6)
其中,α为两个部分之间的平衡因子,其值初始设定为0.2、0.4、0.5、0.6、0.8,最终通过在验证数据集V中选取最高识别准确率下的值作为该平衡因子。网络的训练过程具体包含如下子步骤:
子步骤1:计算区域推荐结构或者感兴趣区域对齐结构中每一网格的行人存在性二分类交叉熵损失函数lossBCE,计算公式如下:
Figure BDA0002687386900000052
其中,N为训练数据集的样本个数,B为区域推荐结构或者感兴趣区域对齐结构中的网格数,C为网格类别数,对于行人而言,其类别数为2,
Figure BDA0002687386900000061
表示行人存在性判断,当某一网格的真实类别
Figure BDA0002687386900000062
为行人时,
Figure BDA0002687386900000063
输出结果为1,否则为0,
Figure BDA0002687386900000064
为给定网格输入
Figure BDA0002687386900000065
归一化之后的输出值,λ为正则化系数,一般在验证集中取最佳值,θ表示当前网络的权重。
子步骤2:计算区域推荐结构或者感兴趣区域对齐结构中每一网格的行人位置回归损失函数lossML,计算公式如下:
Figure BDA0002687386900000066
其中,预测类别与目标真实类别相同的网格为正例,选取预测网络与目标网格交并比大于0.50的网格为正例网格,P为正例网格的总数,β为平衡因子,其值的选定方法与α一致,
Figure BDA0002687386900000067
为每一个正例U与行人目标X之间的交并比,
Figure BDA0002687386900000068
为每一个正例的中心位置与行人目标中心位置的欧几里得距离,两者的计算公式如下:
Figure BDA0002687386900000069
Figure BDA00026873869000000610
Figure BDA00026873869000000611
其中,
Figure BDA00026873869000000612
分别代表预测的正例U的左边界x1、右边界x2、上边界y1、下边界y2的预估位置,右上标X则表示与该正例U对应的真实目标。
(5)在验证数据集V中选取最佳多尺度行人快速检测网络模型。具有领域适应性的算法模型需要在多种模型参数的对比中得到,利用模型参数在验证数据集中的表现,可以有效地选取平均精度最高的最佳网络模型,其具体过程是,首先,选取平衡因子α及β的不同组合,形成25组实验参照组,其次,将25组实验参照组在Imagenet数据集上进行预训练,获取得到对应的预训练模型,再次,将预训练模型在训练数据集W上以0.001的学习率进行迁移学习,当模型的训练数据集损失变化值低于0.1%时,停止模型的训练,并保存当前模型的参数。选取该25组实验模型在验证数据集V上平均精度(AP)最高的网络模型作为最佳网络模型,设定最佳网络模型的平衡因子
Figure BDA00026873869000000614
Figure BDA00026873869000000613
作为上述α及β的最佳值,最佳网络模型的参数作为所提出的基于通道分离卷积的路侧图像多尺度行人快速检测方法的最佳参数。
(6)用步骤5中输出的最佳网络模型进行路侧图像的多尺度行人检测。
(7)为了充分证明本发明所提出的基于通道分离卷积的路侧图像多尺度行人快速检测方法相比于原有的Faster-RCNN(Ren S,He K,Girshick R,et al.Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks[J].arxivpreprint arXiv:1506.01497,2015.)及目标检测领域常用的单阶段检测算法YOLOV3(Redmon J,Farhadi A.YOLOV3:An Incremental Improvement[J].arxiv preprintarXiv:1804.02767,2018.)的有效性在于其多尺度检测精度与检测速度的均衡,本发明在同样的训练样本和训练条件下进行了Faster-RCNN和YOLOV3网络的训练。通过与Faster-RCNN的比较,本发明所采用的分离卷积结构和尺度不敏感设计可以有效地提升多尺度行人检测的精度,并且大大改善了网络的实时性。与实时性很高的YOLOV3相比较而言,本发明采用的网络具有更高的精度和合适的输出频率,对于精度要求略高的场合,更加具有适用性。表一以对比的方式展示了所设计的结构与Faster-RCNN、YOLOV3之间在检测精度、实时性上的差别,特别是针对检测难度大的中尺度和小尺度行人目标的差别。从表1可以看出,本发明所设计的网络结构有效地提升了原有Faster-RCNN网络对不同尺度的行人目标的检测准确率、召回率和实时性,可以快速精准地检测出路侧视角下多尺度行人目标。
表1本发明与常用的行人检测网络在中小尺度下的准确率、召回率及平均检测时间的差别
Figure BDA0002687386900000071

Claims (1)

1.基于通道分离卷积的路侧图像多尺度行人快速检测方法,其特征在于,包含以下步骤:
(1)构建包含不同尺度行人的路侧图像数据集;首先,设定用于尺度分类的两种行人像素高度阈值H1、H2;其次,采集并标注天桥、龙门架的典型智能路侧场景下含多尺度行人的图片样本Q张,样本分辨率为1920×1080,由此构成路侧行人检测的原始数据集O1;再次,根据行人像素高度h及高度阈值H1、H2,计算出行人所属尺度类别Class;具体计算公式如下:
Figure FDA0002687386890000011
在上述公式中,S指代小尺度目标,M指代中尺度目标,L指代大尺度目标;
紧接着,利用轴向对称、随机切片、随机放缩、亮度调整的数据增强方式扩充O1,由此形成增强数据集O2;最后,划分O2为训练数据集W、验证数据集V、测试数据集Z用于后续的算法训练、模型选取和精度测试;
(2)进行多尺度行人训练数据的尺寸下调、锚点计算的预处理操作;
(3)搭建基于通道分离卷积的改进型Faster-RCNN多尺度行人快速检测网络架构;首先,利用通道分离卷积搭建多尺度行人目标特征提取模块;其次,引入Faster-RCNN模型中的候选区域生成模块,得到粗粒度的行人目标位置;再次,设计尺寸不敏感的感兴趣区域对齐模块,获取多尺度下行人目标的精准位置;最终,集成上述的特征提取、候选区域生成、感兴趣区域对齐三种模块,形成基于通道分离卷积的改进型Faster-RCNN多尺度行人快速检测网络架构;该部分包含如下子步骤:
子步骤1:设计一种基于通道分离卷积的多尺度行人特征提取模块,具体包含:
子步骤1.1:设定特征提取层深度为13,每一层f的卷积核总体数量Kf
子步骤1.2:设定特征提取层的每层相应卷积操作方式;首先,设定下采样操作触发条件为Kf=2Kf-1,其中,13≥f≥2,非下采样操作触发条件为Kf=Kf-1,其中13≥f≥2,其次,设定下采样和非下采样操作的通道分离卷积卷积核个数;根据训练数据集W中的大中小三级尺度目标个数TL、TM、TS,划分卷积通道卷积核个数,即大尺度、中尺度和小尺度通道卷积核个数分别为
Figure FDA0002687386890000012
不同尺度通道卷积核个数计算公式如下:
Figure FDA0002687386890000013
Figure FDA0002687386890000014
Figure FDA0002687386890000015
其中,floor(·)操作是向下取整,TL为大尺度目标个数,TM为中尺度目标个数,TS为大尺度目标个数;
子步骤1.3:设定通道分离卷积的下采样和非下采样操作流程;
子步骤1.4:设定通道聚合卷积操作,将子步骤1.3中生成的差异化特征图以通道维度进行特征图的叠加,经过3×3的特征变化之后,聚合形成不同尺度融合后的跨尺度特征图;
子步骤2:引入Faster-RCNN模型中的候选区域生成模块;
子步骤3:设计尺寸不敏感的感兴趣区域对齐模块;首先根据子步骤2中候选区域生成模块生成的粗粒度目标边界位置,根据生成目标的锚点尺寸类别G选取特定特征提取模块层级f,如11、12或13层,进行目标的感兴趣区域对齐ROIAlignf,计算公式如下:
Figure FDA0002687386890000021
子步骤4:集合子步骤1中设定的特征提取模块、子步骤2中设定的候选区域生成模块、子步骤3中设定的感兴趣区域对齐模块,形成多尺度行人快速检测网络;
(4)定义多尺度行人快速检测网络损失函数;损失函数losstotal由面向行人存在性的二分类交叉熵损失函数losSBCE和面向不同尺度行人的位置回归损失函数lossML构成;其中,lossBCE是目标存在性与真实目标存在性的二分类交叉熵损失,lossML是目标位置与真实位置的交并比和边界框中心位置之和,整个网络损失函数的计算公式如下:
losstotal=α×lossBCE+(1-α)×lossML#(6)
其中,α为两个部分之间的平衡因子,通过在验证数据集V中选取最高识别准确率下的参数值作为该平衡因子最终值;
(5)训练获得最佳多尺度行人快速检测网络模型;
(6)用步骤5中输出的最佳网络模型进行路侧图像的多尺度行人检测。
CN202010980622.0A 2020-09-17 2020-09-17 基于通道分离卷积的路侧图像多尺度行人快速检测方法 Active CN112131996B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010980622.0A CN112131996B (zh) 2020-09-17 2020-09-17 基于通道分离卷积的路侧图像多尺度行人快速检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010980622.0A CN112131996B (zh) 2020-09-17 2020-09-17 基于通道分离卷积的路侧图像多尺度行人快速检测方法

Publications (2)

Publication Number Publication Date
CN112131996A true CN112131996A (zh) 2020-12-25
CN112131996B CN112131996B (zh) 2022-04-29

Family

ID=73845918

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010980622.0A Active CN112131996B (zh) 2020-09-17 2020-09-17 基于通道分离卷积的路侧图像多尺度行人快速检测方法

Country Status (1)

Country Link
CN (1) CN112131996B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113052017A (zh) * 2021-03-09 2021-06-29 北京工业大学 一种基于多粒度特征表示和域自适应学习的无监督行人重识别方法
CN113052017B (zh) * 2021-03-09 2024-05-28 北京工业大学 一种基于多粒度特征表示和域自适应学习的无监督行人重识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344821A (zh) * 2018-08-30 2019-02-15 西安电子科技大学 基于特征融合和深度学习的小目标检测方法
CN109446922A (zh) * 2018-10-10 2019-03-08 中山大学 一种实时鲁棒的人脸检测方法
CN109886082A (zh) * 2019-01-03 2019-06-14 南京理工大学 一种基于ssd的小目标增强预测模块检测方法
CN110659653A (zh) * 2019-09-12 2020-01-07 复旦大学 一种可充分保留图像特征的特征提取模型及特征提取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344821A (zh) * 2018-08-30 2019-02-15 西安电子科技大学 基于特征融合和深度学习的小目标检测方法
CN109446922A (zh) * 2018-10-10 2019-03-08 中山大学 一种实时鲁棒的人脸检测方法
CN109886082A (zh) * 2019-01-03 2019-06-14 南京理工大学 一种基于ssd的小目标增强预测模块检测方法
CN110659653A (zh) * 2019-09-12 2020-01-07 复旦大学 一种可充分保留图像特征的特征提取模型及特征提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李启运等: "FastFace:实时鲁棒的人脸检测算法", 《中国图象图形学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113052017A (zh) * 2021-03-09 2021-06-29 北京工业大学 一种基于多粒度特征表示和域自适应学习的无监督行人重识别方法
CN113052017B (zh) * 2021-03-09 2024-05-28 北京工业大学 一种基于多粒度特征表示和域自适应学习的无监督行人重识别方法

Also Published As

Publication number Publication date
CN112131996B (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
CN110188705B (zh) 一种适用于车载系统的远距离交通标志检测识别方法
CN111695448B (zh) 一种基于视觉传感器的路侧车辆识别方法
CN111814623A (zh) 一种基于深度神经网络的车辆车道偏离视觉检测方法
CN109284669A (zh) 基于Mask RCNN的行人检测方法
CN111553201B (zh) 一种基于YOLOv3优化算法的交通灯检测方法
CN111695514B (zh) 一种基于深度学习的雾天下车辆检测方法
CN111461083A (zh) 基于深度学习的快速车辆检测方法
CN112529090B (zh) 一种基于改进YOLOv3的小目标检测方法
CN113313082B (zh) 一种基于多任务损失函数的目标检测方法及系统
CN113313706B (zh) 基于检测参考点偏移分析的电力设备缺陷图像检测方法
CN111882620A (zh) 一种基于多尺度信息道路可行驶区域分割方法
CN112381030B (zh) 一种基于特征融合的卫星光学遥感图像目标检测方法
CN108985145A (zh) 小尺寸交通标志检测识别的反向连接深度神经网络模型方法
CN114120272A (zh) 一种融合边缘检测的多监督智能车道线语义分割方法
CN114821665A (zh) 一种基于卷积神经网络的城市人流小目标检测方法
CN106778540A (zh) 停车检测准确的基于双层背景的停车事件检测方法
CN113205107A (zh) 一种基于改进高效率网络的车型识别方法
CN115223017B (zh) 一种基于深度可分离卷积的多尺度特征融合桥梁检测方法
CN101216886B (zh) 一种基于谱分割理论的镜头聚类方法
CN116844126A (zh) 一种基于YOLOv7改进的复杂道路场景目标检测方法
CN117372898A (zh) 一种基于改进yolov8的无人机航拍图像目标检测方法
CN114639067A (zh) 一种基于注意力机制的多尺度全场景监控目标检测方法
CN112131996B (zh) 基于通道分离卷积的路侧图像多尺度行人快速检测方法
CN116630702A (zh) 一种基于语义分割网络的路面附着系数预测方法
CN114332754A (zh) 基于多度量检测器的Cascade R-CNN行人检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant