CN114202743A - 自动驾驶场景下基于改进faster-RCNN的小目标检测方法 - Google Patents

自动驾驶场景下基于改进faster-RCNN的小目标检测方法 Download PDF

Info

Publication number
CN114202743A
CN114202743A CN202111061549.8A CN202111061549A CN114202743A CN 114202743 A CN114202743 A CN 114202743A CN 202111061549 A CN202111061549 A CN 202111061549A CN 114202743 A CN114202743 A CN 114202743A
Authority
CN
China
Prior art keywords
feature
rcnn
improved
automatic driving
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111061549.8A
Other languages
English (en)
Inventor
周彦
文思捷
李云燕
王冬丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiangtan University
Original Assignee
Xiangtan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiangtan University filed Critical Xiangtan University
Priority to CN202111061549.8A priority Critical patent/CN114202743A/zh
Publication of CN114202743A publication Critical patent/CN114202743A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于深度学习及计算机视觉领域,具体涉及一种自动驾驶场景下基于改进faster‑RCNN的小目标检测方法。本发明选取ResNet‑50作为主干特征提取网络,首先引入可变形卷积思路对主干网进行改进,提高了卷积神经网络的变换建模能力;然后在主干网络最后两层添加空间注意力机制,能准确定位小目标,提高小目标检测的准确率并增强小目标的特征提取;同时引入特征金字塔结构,结合了自上而下和自下而上以及高低维之间的特征融合策略,从而实现了特征增强;最后利用Soft‑NMS去除冗余边框,得到最好的检测结果;并利用多尺寸训练和大尺度检测的增强方法,提高模型鲁棒性。

Description

自动驾驶场景下基于改进faster-RCNN的小目标检测方法
技术领域
本发明属于深度学习及计算机视觉领域,具体涉及一种自动驾驶场景下基于改进faster-RCNN的小目标检测方法。
背景技术
近年来,随着市场需求变化和汽车行业的高速发展,自动驾驶成为汽车领域的研究热点之一。目前,国内外很多互联网公司以及汽车公司都纷纷涉足自动驾驶领域。目标检测是自动驾驶系统中的关键算法之一,因此针对这种复杂场景设计出高效的目标检测算法是具有挑战性的。
在自动驾驶领域中,主要检测的目标分为两类:静止目标以及运动目标。静止目标如交通标识、交通信号灯、障碍物等;运动目标如车辆、行人、非机动车等。其中对于运动目标的检测尤为重要,其存在很多难点,其中一个就是对于小目标的检测效果不好。因此,能否解决上述问题直接影响了自动驾驶的安全性能高低。
现有技术的缺陷在于,传统的目标检测算法大多利用滑窗,提取不同尺寸不同区域的特征,接着针对具体目标训练相应的分类器,利用训练好的分类器对提取的特征进行分类,比如利用HOG+SVM进行行人检测,利用Haar+AdaBoost进行人脸检测。由于传统的特征都是人类手工设计的特征,许多都是针对特定目标检测而设计的,使用具有局限性。人工设计特征在许多时候并不能刻画出图像的本质,因此在检测时易受各种干扰因素的影响,模型鲁棒性不高,无法在自动驾驶场景中应用。
在当前的研究成果中,基于深度学习的目标检测算法可以分为两类:一类是基于候选区域分类的二阶段目标检测算法,流程一般可以分为两步。首先提取候选区域,再对候选区域进行分类并且对位置坐标进行修正。这类算法精度高,但速度偏慢,代表有R-CNN、Fast-RCNN、Faster-RCNN、Mask-RCNN、Cascade-RCNN以及各种改进版本。另一类是基于候选区域的一阶段算法,将目标检测问题转化为分类问题。此类算法的代表有SSD、 YOLO、YOLOv3、YOLOv4以及各种改进版本。这类算法速度快、模型较小,但对小目标检测的效果很差,容易出现漏检和误检。在自动驾驶系统中,需要检测很远处的目标来提前做出决策。然而,远处的目标在图像中只占据很少的像素点,这给一阶段目标检测算法带来了很大的困难。
发明内容
针对现有现有技术对于小目标检测存在的速度慢,容易出现漏检、误检的技术问题。本发明的目的在于提供一种解决在自动驾驶场景下对小目标的漏检和误检问题的目标检测算法。
为了实现上述技术目的,本发明的技术方案是,
一种自动驾驶场景下基于改进faster-RCNN的小目标检测方法,包括以下步骤:
步骤1:在自动驾驶场景下所拍摄的照片中搜集与驾驶相关的目标数据,制作数据集;
步骤2:搭建神经网络模型框架;
所述的神经网络模型的框架基于Faster-RCNN构成,包括主干特征提取网络、特征融合网络、区域建议网络和分类与回归网络;
所述的主干特征提取网络采用ResNet-50,并用可变形卷积V2代替ResNet-50最后两层中的传统卷积,同时在最后两层中添加空间注意力机制;
所述的特征融合网络将主干特征提取网络提取的特征图进行改进的特征金字塔融合后传入区域建议网络生成一系列建议框,对目标进行初步定位,然后将建议框统一至相同大小,经过分类与回归网络处理得到最终结果;
步骤3:训练神经网络模型;
采用多尺度训练的方法训练神经网络模型,通过预热学习率的方式,以二分类交叉熵和Smooth L1 Loss作为分类损失函数和回归损失函数,并采用随机梯度下降法来优化损失函数;
步骤4:将待识别的图片输入训练好的神经网络模型中,得到检测结果。
所述的一种自动驾驶场景下基于改进faster-RCNN的小目标检测方法,所述的步骤1 中,与驾驶相关的目标数据包括车辆、行人、交通信号灯和交通标志。
所述的一种自动驾驶场景下基于改进faster-RCNN的小目标检测方法,所述的步骤2 中,所述的可变形卷积V2计算公式为:
Figure RE-GDA0003464613710000021
其中y表示输出的特征图,w表示的是每个采样值的权重,pn是卷积输出位置p0对应所在的一个整数偏移,用来提供附近语义信息,x表示输入的特征图,Δpn为偏移量,R 表示在输入的特征图上采样所使用的规则网格,R={(-1,-1),(-1,0),...,(0,1),(1,1)},Δmn表示每个偏移的采样点的权重,Δmn∈[0,1]。
所述的一种自动驾驶场景下基于改进faster-RCNN的小目标检测方法,所述的步骤2 中,空间注意力机制是使用全局平均池化和全局最大值池化对输入的特征图F进行压缩操作,对输入的特征图F分别在通道维度上做mean和max操作,然后将得到的两个特征图按通道维度拼接,再经过一个卷积操作,降维为1个通道,使得到的特征图在空间维度上与输入的特征图一致,最后经过sigmoid函数生成空间注意力特征Ms;其中空间注意力机制Ms(F)计算公式为:
Figure RE-GDA0003464613710000031
式中,σ表示Sigmoid函数,AvgPool(F)表示对输入的特征图进行平均池化,MaxPool(F)表示对输入的特征图进行最大池化,
Figure RE-GDA0003464613710000032
Figure RE-GDA0003464613710000033
分别代表全局平均池化和全局最大池化池化输出的特征,f7*7表示空间注意力机制中使用的7×7卷积核;
所述的步骤2中添加空间注意力机制,是将上一层产生的特征图做一次卷积计算产生输入特征图F,F经过空间注意力模块后得到空间注意力特征Ms,将F与Ms进行逐元素乘法操作得到新的特征图F1,然后将F1与F进行相加操作,保留ResNet的残差模块,最后生成的特征图F2作为下一个模块的输入。
所述的一种自动驾驶场景下基于改进faster-RCNN的小目标检测方法,所述步骤2中所述的改进的特征金字塔融合,是在FPN的基础上加入自底向上的金字塔融合,即将主干特征提取网络生成的特征图C2-C5,经过一个自顶向下的特征金字塔融合得到特征图 P2-P5,再将P5经过两倍降采样得到特征图P6以增强鲁棒性;然后在FPN后面添加一个自底向上的金字塔融合,将底层的强定位特征传递上去,得到特征图N2-N6;再将这五个层次的特征统一缩放到N4大小,接着进行相加取平均操作,即:
Figure RE-GDA0003464613710000034
其中C表示将输入进来的特征图相加取平均后的输出,L为相加取平均操作的特征图个数,Cl为第l层的特征,即特征提取网络后四层中的某一层的特征;
然后将C经过Non-local模块提炼后,缩放到原始尺寸大小,再和特征图N2-N6相加以增强原特征。
所述的一种自动驾驶场景下基于改进faster-RCNN的小目标检测方法,将建议框统一至相同大小是通过ROI Align模块进行池化来实现的。
所述的自动驾驶场景下基于改进faster-RCNN的小目标检测方法,所述的步骤3中训练神经网络模型包括以下步骤:首先加载Resnet-50在ImageNet上的预训练权重,然后采用随机梯度下降法SGD来优化损失函数,将初始学习率设置为0.005,并采用预热学习率的方式,即训练初期使用较0.005更小的学习率,当模型趋于稳定后,再选择预先设置的学习率进行训练;动量设为0.9,权值的衰减系数设为0.0001,批量大小设为2,一共训练 12个Epoch,在第9个Epoch和第12个Epoch分别将学习率设置为0.0005和0.00005,每迭代一个Epoch保存一次模型,最终选取精度最高的模型;并使用多尺度训练的增强方法,将输入图片大小设置为1333×640和1333×800,每张图片随机选取一种尺度训练,以提升模型鲁棒性。
所述的自动驾驶场景下基于改进faster-RCNN的小目标检测方法,所述的步骤3中所述的损失函数表达式L({pi},{ui})为:
Figure RE-GDA0003464613710000041
式中,Ncls和Nreg分别表示分类的个数和候选框的个数,i代表锚点的编号,pi表示候选框是正样本即作为前景的所要检测目标的概率,如果候选框为正样本,真实标签
Figure RE-GDA0003464613710000042
如果候选框为负样本即背景,则
Figure RE-GDA0003464613710000043
ti表示预测框的边界参数,
Figure RE-GDA0003464613710000044
代表前景目标的真实框边界参数,λ用来平衡两个损失函数在训练的总损失函数中的占比。
一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现前述的方法。
一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现前述的方法。
本发明的有益效果在于:
(1)本发明针对在自动驾驶场景下,目标尺度不一且形状多变,使用传统的卷积神经网络对物体的检测不够高效,采用的可变形卷积对普通卷积进行修改,提升CNN的形变建模能力,从而提升对小目标的检测效果。
(2)在目标检测数据集中,小目标像素的占比很小,本发明添加空间域注意力能准确定位小目标,提高小目标检测的准确率。
(3)针对FPN网络只增强了语义信息,对定位信息没有传递,并且忽略了关注非相邻层之间的特征图关系,本发明充分融合各个尺度的特征,减少特征融合中信息的丢失,从而提升检测精度。
(4)用软性非极大抑制代替传统极大抑制,避免同类物体重叠度角度较高时产生漏检的情况。
本发明应用了多尺度训练和大尺度测试的增强方法,提升了模型的鲁棒性和准确性。
附图说明
图1为本发明的神经网络模型结构图。
图2为本发明的总体流程示意图。
图3为可变形卷积的实现。
图4(a)为空间注意力机制模块实现。
图4(b)为添加了空间注意力的ResNet模块。
图5为本发明改进的特征金字塔模块
图6(a)为图片A的原图。
图6(b)为图片A基于Faster-RCNN的检测图。
图6(c)为图片A基于本发明神经网络框架下的检测图。
图7(a)为图片B的原图。
图7(b)为图片B基于Faster-RCNN的检测图。
图7(c)为图片B基于本发明神经网络框架下的检测图。
图8为本发明中可变形卷积V2与传统卷积区别。
具体实施方式
下面结合附图对本发明做进一步的描述。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示为本发明的神经网络结构模型图,在图1所示的神经网络模型结构图中,依次包括主干特征提取网络,特征融合模块,区域建议网络和分类与回归网络。
如图2所示为本发明的流程示意图,主要包括以下几个步骤:1)自动驾驶场景下的数据收集;2)神经网络模型的搭建;3)网络模型参数的设置与修改;4)根据损失函数曲线图和MAP曲线图,针对检测结果进行分析。
本实施例的具体步骤如下:
S1、搜集街道场景下的数据集,包括车辆、行人、停车标志、交通信号灯等。
S2、搭建本发明所需要的神经网络模型框架。本发明的网络框架是基于Faster-RCNN 改进的,选择ResNet-50作为主干特征提取网络。并引入可变形卷积思路对主干网进行改进,即用可变形卷积V2代替ResNet-50最后两层中的传统卷积。从而提高了卷积神经网络的变换建模能力,赋予图像关键特征更大的权重,使边界框更好地匹配在目标上,从而提高模型对复杂场景下的适应能力。同时在主干网络最后两层添加空间注意力机制,能准确定位小目标,提高小目标检测的准确率。还引入特征金字塔(FPN)结构并针对其不足进行了改进,结合了自上而下和自下而上以及高低维之间的特征融合策略,从而实现了特征增强。本实施例使用一种软性非极大值抑制(Soft-NMS)的方法代替传统的非极大值抑制(NMS),减少在密集和遮挡目标下的漏检情况。使用多尺度训练和大尺度测试的增强方法,提升模型的鲁棒性和实用性。
其中,步骤S2具体包括以下内容:
采用具有变换建模能力可变形卷积。其基本思想是对采样点学习一个偏移,使卷积核专注于感兴趣区域或者目标而不是固定位置的采样。本实施例中的可变形卷积V2计算公式为:
Figure RE-GDA0003464613710000061
其中y表示输出的特征图,w表示的是每个采样值的权重,pn是卷积输出位置p0对应所在的一个整数偏移,用来提供附近语义信息,x表示输入的特征图,Δpn为偏移量,R 表示在输入的特征图上采样所使用的规则网格,R={(-1,-1),(-1,0),...,(0,1),(1,1)},Δmn表示每个偏移的采样点的权重,Δmn∈[0,1]。
而传统的卷积结构的计算方式如下:
Figure RE-GDA0003464613710000062
上式计算了对于在输出的特征图上的每个位置p0,其中pn是对R中所列位置的枚举。参见图8,本实施例中的可变形卷积V2的Δpn基于一个平行网络学习offset即偏移,使得卷积核在输入特征图上的采样点发生偏移,且Δmn为每个采样点的权重,集中于感兴趣的区域或者目标。由于标准卷积中的规则格点采样是导致网络难以适应几何形变的主要原因,为了削弱这个限制,故本实施例中对卷积核中每个采样点的位置都增加了一个偏移变量,可以实现在当前位置附近随意采样而不局限于之前的规则格点。其中Δpn和Δmn是由一个平行的卷积神经网络计算得到,通过卷积计算得到每个采样点的偏移以及偏移后采样点的权重。参见图3,其给出了可变形卷积实现方法,通过平行的卷积神经网络可将采样点偏移值和权重值纳入网络学习的过程中,由最终检测的损失函数监督学习最佳的偏移值和权重值。假设平行网络的输入特征图为N通道,采样点偏移部分对应于两个维度的偏移值,因此输出通道数对应于2N;而权重网络是每个采样点的权重值,通道数对应于输入通道数N。
本实施例中所引入空间注意力机制,是用于准确定位空间中的目标特征,在目标检测数据集中,小目标像素的占比很小,添加空间域注意力能准确定位小目标,提高检测的准确率。图4(a)给出了空间注意力机制实现方法,首先,使用全局平均池化和全局最大值池化对输入的特征图F进行压缩操作,对输入特征分别在通道维度上做mean和max操作。然后将得到的两个特征图按通道维度拼接,再经过一个卷积操作,降维为1个通道,保证得到的特征图在空间维度上与输入的特征图一致,最后经过sigmoid函数生成空间注意力特征Ms。
空间注意力模块的计算公式如下:
Figure RE-GDA0003464613710000071
公式中,σ表示Sigmoid函数,
Figure RE-GDA0003464613710000072
Figure RE-GDA0003464613710000073
分别代表全局平均池化和全局最大池化池化输出的特征,卷积层使用7×7的卷积核。
图4(b)给出了在ResNet-50网络的结构块中添加空间注意力的方法。将上一层产生的特征图做一次卷积计算产生输入特征图F,F经过空间注意力模块后得到空间注意力特征Ms,将F与Ms进行逐元素乘法操作得到新的特征图F1,然后将F1与F进行相加操作,保留ResNet的残差模块,最后生成的特征图F2作为下一个模块的输入。
关于本实施例中引入改进的特征金字塔结构,在图5给出了具体融合操作,首先将ResNet50生成的特征图C2-C5,经过一个自顶向下的特征金字塔融合得到特征图P2-P5, P6由P5经过两倍降采样得到,以增强鲁棒性。然后在FPN后面添加一个自底向上的金字塔融合,将底层的强定位特征传递上去,得到特征图N2-N6。再将这五个层次的特征统一缩放到N4大小,进行简单的相加取平均操作,具体操作公式如下:
Figure RE-GDA0003464613710000081
将得到的特征图C通过Non-local模块提炼后,缩放到原始尺寸大小,和原特征相加,增强原特征,得到Z2-Z6。在此过程中,每种尺度的特征图都可以从其他特征图中获得相等的信息,使得特征融合的过程更加平衡。
本实施例中利用Soft-NMS去除冗余边框。非极大值抑制(NMS)是一种去除非极大值的算法,可以去掉目标检测任务的重复检测框,找到最佳目标检测位置。在模型训练过程中,利用NMS算法对生成的大量候选框进行后处理,去除冗余候选框,得到最具代表性的结果,以加快目标检测的效率和提高检测精度。
Soft-NMS的特点是可按照目前分数递归对其进行重评,而不是粗暴得进行置零,这样就可以避免同类物体重叠度角度较高时产生漏检的情况,同时利用该算法无须对模型进行重新训练,不会增加训练开销。
S3、网络模型参数设置和修改。
本发明使用的GPU为2张NVIDIA 1080Ti。
采用预热学习率的方式,训练初期使用较小的学习率,当模型趋于稳定后,再选择预先设置的学习率进行训练。动量设为0.9,权值的衰减系数设为0.0001,批量大小设为2,一共训练12个Epoch,在第9个Epoch和第12个Epoch分别将学习率设置为0.0005和0.00005。并使用多尺度训练的增强方法,将输入图片大小设置为1333×640和1333×800,每张图片随机选取一种尺度训练,以提升模型鲁棒性。
采用二分类交叉熵和Smooth L1 Loss作为分类损失函数和回归损失函数,并采用随机梯度下降法来优化损失函数。
所述的损失函数表达式为:
Figure RE-GDA0003464613710000082
式中,Ncls和Nreg分别表示分类的个数和候选框的个数,i代表锚点的编号,pi表示候选框是正样本的概率,如果候选框为正样本,真实标签
Figure RE-GDA0003464613710000083
如果候选框为负样本即背景,则
Figure RE-GDA0003464613710000084
ti表示预测框的边界参数,
Figure RE-GDA0003464613710000085
代表前景目标的真实框边界参数,λ用来平衡两个损失函数在训练的总损失函数中的占比。
S4、根据损失函数曲线图和MAP曲线图,针对检测结果进行分析。
图6(a)为图片A的原图,图6(b)为图片A基于Faster-RCNN的检测图,图6(c) 为图片A基于本发明神经网络框架下的检测图;图7(a)为图片B的原图,图7(b)为图片B基于Faster-RCNN的检测图,图7(c)为图片B基于本发明神经网络框架下的检测图。
通过检测效果图可以看出,本发明使用的神经网络模型框架检测出来的效果图精确度要更高一些,对小尺度行人及车辆检测效果更加优秀,且得分普遍较高,表明本发明采用的网络结构可以进一步提高检测效果。
根据本发明的实施例,本发明还提供了一种电子设备和一种计算机可读介质。
其中电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现前述的方法。
具体使用中,用户能够通过作为终端设备的电子设备并基于网络来与同样作为电子设备的服务器进行交互,实现接收或发送消息等功能。终端设备一般是设有显示装置、基于人机界面来使用的各种电子设备,包括但不限于智能手机、平板电脑、笔记本电脑和台式电脑等。其中终端设备上根据需要可安装各种具体的应用软件,包括但不限于网页浏览器软件、即时通信软件、社交平台软件、购物软件等。
服务器是用于提供各种服务的网络服务端,如对收到的从终端设备传输过来的自动驾驶场景下的图片提供相应小目标检测服务的后台服务器。以实现对接收到的图片进行小目标检测,并将最终的小目标检测结果返回至终端设备。
本实施例所提供的小目标检测方法一般由服务器执行,在实际运用中,在满足必要条件下,终端设备亦可直接执行小目标检测。
类似的,本发明的计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例的一种小目标检测方法。
本发明选择ResNet-50作为主干特征提取网络,并引入可变形卷积思路对主干网进行改进,提高了卷积神经网络的变换建模能力,赋予图像关键特征更大的权重,使边界框更好地匹配在目标上,从而提高模型对复杂场景下的适应能力;并在主干网络最后两层添加空间注意力机制,能准确定位小目标,提高小目标检测的准确率;同时引入特征金字塔结构,针对其不足进行了改进,结合了自上而下和自下而上以及高低维之间的特征融合策略,从而实现了特征增强;使用一种软性非极大值抑制的方法代替传统的非极大值抑制,减少在密集和遮挡目标下的漏检情况;使用多尺度训练和大尺度测试的增强方法,提升模型的鲁棒性和实用性。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种自动驾驶场景下基于改进faster-RCNN的小目标检测方法,其特征在于,包括以下步骤:
步骤1:在自动驾驶场景下所拍摄的照片中搜集与驾驶相关的目标数据,制作数据集;
步骤2:搭建神经网络模型框架;
所述的神经网络模型的框架基于Faster-RCNN构成,包括主干特征提取网络、特征融合网络、区域建议网络和分类与回归网络;
所述的主干特征提取网络采用ResNet-50,并用可变形卷积V2代替ResNet-50最后两层中的传统卷积,同时在最后两层中添加空间注意力机制;
所述的特征融合网络将主干特征提取网络提取的特征图进行改进的特征金字塔融合后传入区域建议网络生成一系列建议框,对目标进行初步定位,然后将建议框统一至相同大小,经过分类与回归网络处理得到最终结果;
步骤3:训练神经网络模型;
采用多尺度训练的方法训练神经网络模型,通过预热学习率的方式,以二分类交叉熵和Smooth L1 Loss作为分类损失函数和回归损失函数,并采用随机梯度下降法来优化损失函数;
步骤4:将待识别的图片输入训练好的神经网络模型中,得到检测结果。
2.根据权利要求1所述的一种自动驾驶场景下基于改进faster-RCNN的小目标检测方法,其特征在于,所述的步骤1中,与驾驶相关的目标数据包括车辆、行人、交通信号灯和交通标志。
3.根据权利要求1所述的一种自动驾驶场景下基于改进faster-RCNN的小目标检测方法,其特征在于,所述的步骤2中,所述的可变形卷积V2计算公式为:
Figure FDA0003256577530000011
其中y表示输出的特征图,w表示的是每个采样值的权重,pn是卷积输出位置p0对应所在的一个整数偏移,用来提供附近语义信息,x表示输入的特征图,Δpn为偏移量,R表示在输入的特征图上采样所使用的规则网格,R={(-1,-1),(-1,0),...,(0,1),(1,1)},Δmn表示每个偏移的采样点的权重,Δmn∈[0,1]。
4.根据权利要求1所述的一种自动驾驶场景下基于改进faster-RCNN的小目标检测方法,其特征在于,所述的步骤2中,空间注意力机制是使用全局平均池化和全局最大值池化对输入的特征图F进行压缩操作,对输入的特征图F分别在通道维度上做mean和max操作,然后将得到的两个特征图按通道维度拼接,再经过一个卷积操作,降维为1个通道,使得到的特征图在空间维度上与输入的特征图一致,最后经过sigmoid函数生成空间注意力特征Ms;其中空间注意力机制Ms(F)计算公式为:
Figure FDA0003256577530000021
式中,σ表示Sigmoid函数,AvgPool(F)表示对输入的特征图进行平均池化,MaxPool(F)表示对输入的特征图进行最大池化,
Figure FDA0003256577530000022
Figure FDA0003256577530000023
分别代表全局平均池化和全局最大池化池化输出的特征,f7*7表示空间注意力机制中使用的7×7卷积核;
所述的步骤2中添加空间注意力机制,是将上一层产生的特征图做一次卷积计算产生输入特征图F,F经过空间注意力模块后得到空间注意力特征Ms,将F与Ms进行逐元素乘法操作得到新的特征图F1,然后将F1与F进行相加操作,保留ResNet的残差模块,最后生成的特征图F2作为下一个模块的输入。
5.根据权利要求1所述的一种自动驾驶场景下基于改进faster-RCNN的小目标检测方法,其特征在于,所述步骤2中所述的改进的特征金字塔融合,是在FPN的基础上加入自底向上的金字塔融合,即将主干特征提取网络生成的特征图C2-C5,经过一个自顶向下的特征金字塔融合得到特征图P2-P5,再将P5经过两倍降采样得到特征图P6以增强鲁棒性;然后在FPN后面添加一个自底向上的金字塔融合,将底层的强定位特征传递上去,得到特征图N2-N6;再将这五个层次的特征统一缩放到N4大小,接着进行相加取平均操作,即:
Figure FDA0003256577530000024
其中C表示将输入进来的特征图相加取平均后的输出,L为相加取平均操作的特征图个数,Cl为第l层的特征,即特征提取网络后四层中的某一层的特征;
然后将C经过Non-local模块提炼后,缩放到原始尺寸大小,再和特征图N2-N6相加以增强原特征。
6.根据权利要求1所述的一种自动驾驶场景下基于改进faster-RCNN的小目标检测方法,其特征在于,将建议框统一至相同大小是通过ROIAlign模块进行池化来实现的。
7.根据权利要求1所述的自动驾驶场景下基于改进faster-RCNN的小目标检测方法,其特征在于:所述的步骤3中训练神经网络模型包括以下步骤:首先加载Resnet-50在ImageNet上的预训练权重,然后采用随机梯度下降法SGD来优化损失函数,将初始学习率设置为0.005,并采用预热学习率的方式,即训练初期使用较0.005更小的学习率,当模型趋于稳定后,再选择预先设置的学习率进行训练;动量设为0.9,权值的衰减系数设为0.0001,批量大小设为2,一共训练12个Epoch,在第9个Epoch和第12个Epoch分别将学习率设置为0.0005和0.00005,每迭代一个Epoch保存一次模型,最终选取精度最高的模型;并使用多尺度训练的增强方法,将输入图片大小设置为1333×640和1333×800,每张图片随机选取一种尺度训练,以提升模型鲁棒性。
8.根据权利要求1所述的自动驾驶场景下基于改进faster-RCNN的小目标检测方法,其特征在于:所述的步骤3中所述的损失函数表达式L({pi},{ui})为:
Figure FDA0003256577530000031
式中,Ncls和Nreg分别表示分类的个数和候选框的个数,i代表锚点的编号,pi表示候选框是正样本即作为前景的所要检测目标的概率,如果候选框为正样本,真实标签
Figure FDA0003256577530000032
如果候选框为负样本即背景,则
Figure FDA0003256577530000033
ti表示预测框的边界参数,
Figure FDA0003256577530000034
代表前景目标的真实框边界参数,λ用来平衡两个损失函数在训练的总损失函数中的占比。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。
CN202111061549.8A 2021-09-10 2021-09-10 自动驾驶场景下基于改进faster-RCNN的小目标检测方法 Pending CN114202743A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111061549.8A CN114202743A (zh) 2021-09-10 2021-09-10 自动驾驶场景下基于改进faster-RCNN的小目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111061549.8A CN114202743A (zh) 2021-09-10 2021-09-10 自动驾驶场景下基于改进faster-RCNN的小目标检测方法

Publications (1)

Publication Number Publication Date
CN114202743A true CN114202743A (zh) 2022-03-18

Family

ID=80645987

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111061549.8A Pending CN114202743A (zh) 2021-09-10 2021-09-10 自动驾驶场景下基于改进faster-RCNN的小目标检测方法

Country Status (1)

Country Link
CN (1) CN114202743A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114604199A (zh) * 2022-04-08 2022-06-10 中国第一汽车股份有限公司 一种车辆保护系统及方法
CN114743108A (zh) * 2022-04-24 2022-07-12 中国农业科学院农业信息研究所 一种基于深度学习模型的草原鼠情识别与量化方法和鼠情记录仪
CN114925813A (zh) * 2022-05-25 2022-08-19 支付宝(杭州)信息技术有限公司 目标检测系统的训练方法及装置
CN115205902A (zh) * 2022-07-15 2022-10-18 宜宾学院 基于Fast-RCNN和联合概率数据关联滤波器的行人检测方法
CN115331310A (zh) * 2022-08-23 2022-11-11 广州紫为云科技有限公司 一种多人手势识别方法、装置及介质
CN116797053A (zh) * 2023-08-25 2023-09-22 深圳普菲特信息科技股份有限公司 基于神经网络的化工生产数据分析方法、系统和介质
CN117218454A (zh) * 2023-11-06 2023-12-12 成都合能创越软件有限公司 基于特征图信息和负样本训练的小目标检测方法及装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114604199A (zh) * 2022-04-08 2022-06-10 中国第一汽车股份有限公司 一种车辆保护系统及方法
CN114743108A (zh) * 2022-04-24 2022-07-12 中国农业科学院农业信息研究所 一种基于深度学习模型的草原鼠情识别与量化方法和鼠情记录仪
CN114925813A (zh) * 2022-05-25 2022-08-19 支付宝(杭州)信息技术有限公司 目标检测系统的训练方法及装置
CN114925813B (zh) * 2022-05-25 2024-10-18 支付宝(杭州)信息技术有限公司 目标检测系统的训练方法及装置
CN115205902A (zh) * 2022-07-15 2022-10-18 宜宾学院 基于Fast-RCNN和联合概率数据关联滤波器的行人检测方法
CN115331310A (zh) * 2022-08-23 2022-11-11 广州紫为云科技有限公司 一种多人手势识别方法、装置及介质
CN115331310B (zh) * 2022-08-23 2024-07-12 广州紫为云科技有限公司 一种多人手势识别方法、装置及介质
CN116797053A (zh) * 2023-08-25 2023-09-22 深圳普菲特信息科技股份有限公司 基于神经网络的化工生产数据分析方法、系统和介质
CN116797053B (zh) * 2023-08-25 2023-11-10 深圳普菲特信息科技股份有限公司 基于神经网络的化工生产数据分析方法、系统和介质
CN117218454A (zh) * 2023-11-06 2023-12-12 成都合能创越软件有限公司 基于特征图信息和负样本训练的小目标检测方法及装置

Similar Documents

Publication Publication Date Title
CN114202743A (zh) 自动驾驶场景下基于改进faster-RCNN的小目标检测方法
EP4053735A1 (en) Method for structuring pedestrian information, device, apparatus and storage medium
Geng et al. Combining CNN and MRF for road detection
CN114445430B (zh) 轻量级多尺度特征融合的实时图像语义分割方法及系统
CN111898432A (zh) 一种基于改进YOLOv3算法的行人检测系统及方法
CN110781744A (zh) 一种基于多层次特征融合的小尺度行人检测方法
Cho et al. Semantic segmentation with low light images by modified CycleGAN-based image enhancement
CN115631344B (zh) 一种基于特征自适应聚合的目标检测方法
CN108491828B (zh) 一种基于层次的成对相似性PVAnet的停车位检测系统及方法
US20230154157A1 (en) Saliency-based input resampling for efficient object detection
Liang et al. Car detection and classification using cascade model
Dhawan et al. Identification of traffic signs for advanced driving assistance systems in smart cities using deep learning
CN113963333B (zh) 一种基于改进yolof模型的交通标志牌检测方法
Cho et al. Modified perceptual cycle generative adversarial network-based image enhancement for improving accuracy of low light image segmentation
CN114495050A (zh) 一种面向自动驾驶前向视觉检测的多任务集成检测方法
Hu et al. Real-time infrared small target detection network and accelerator design
Yasmin et al. Small obstacles detection on roads scenes using semantic segmentation for the safe navigation of autonomous vehicles
CN118230354A (zh) 一种基于改进YOLOv5的复杂场景下手语识别方法
Qin et al. Dense sampling and detail enhancement network: Improved small object detection based on dense sampling and detail enhancement
Chen et al. Small object detection model for UAV aerial image based on YOLOv7
CN111612803B (zh) 一种基于图像清晰度的车辆图像语义分割方法
CN113361475A (zh) 一种基于多阶段特征融合信息复用的多光谱行人检测方法
Meng et al. Fast-armored target detection based on multi-scale representation and guided anchor
CN110555406B (zh) 一种基于Haar-like特征及CNN匹配的视频运动目标识别方法
Wu et al. Research on asphalt pavement disease detection based on improved YOLOv5s

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination