CN112215128A - 融合fcos的r-cnn城市道路环境识别方法及装置 - Google Patents
融合fcos的r-cnn城市道路环境识别方法及装置 Download PDFInfo
- Publication number
- CN112215128A CN112215128A CN202011075466.XA CN202011075466A CN112215128A CN 112215128 A CN112215128 A CN 112215128A CN 202011075466 A CN202011075466 A CN 202011075466A CN 112215128 A CN112215128 A CN 112215128A
- Authority
- CN
- China
- Prior art keywords
- network
- cnn
- fcos
- fused
- road environment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000011218 segmentation Effects 0.000 claims abstract description 64
- 238000001514 detection method Methods 0.000 claims abstract description 41
- 230000006870 function Effects 0.000 claims abstract description 21
- 238000000605 extraction Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 8
- 238000005192 partition Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 239000000126 substance Substances 0.000 claims 1
- 238000004422 calculation algorithm Methods 0.000 abstract description 32
- 230000006872 improvement Effects 0.000 abstract description 11
- 238000011156 evaluation Methods 0.000 abstract description 10
- 230000009286 beneficial effect Effects 0.000 abstract description 7
- 239000000835 fiber Substances 0.000 abstract 1
- 238000013527 convolutional neural network Methods 0.000 description 50
- 238000010586 diagram Methods 0.000 description 10
- 238000002474 experimental method Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000005070 sampling Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000002679 ablation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000013526 transfer learning Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004873 anchoring Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/588—Recognition of the road, e.g. of lane markings; Recognition of the vehicle driving pattern in relation to the road
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了融合FCOS的R‑CNN城市道路环境识别方法及装置,所述方法提出一种融合FCOS的R‑CNN城市道路环境实例分割网络模型,包括搭建基于FCOS的目标检测网络和实例分割。本发明采用改进了FPN特征金字塔分层方式,提高城市道路环境的目标识别精度和实例分割精度;在FCOS检测网络作为RPN网络的基础上,融合Mask R‑CNN实例分割子网络,构建了新型图像识别和实例分割网络,解决了传统R‑CNN算法问题实时性低的问题;最后针对当前基于Mask R‑CNN实例分割采用的BCE损失函数收敛慢且不利于分割精度提高的问题,采用了新的基于IOU的损失函数Dice loss,使网络学习更贴近于评价指标,进一步提高分割精度。
Description
技术领域
本发明涉及城市道路环境识别和行人检测视觉分析技术领域,具体地指一种融合FCOS的R-CNN城市道路环境识别方法及装置。
背景技术
道路环境和行人的识别分割是无人驾驶及智能交通的重要研究内容。由于实际道路环境的复杂性和多样性,实现道路的准确检测仍面临诸多问题,比如数据集分辨率不断增大带来的小目标漏检问题。传统的R-CNN神经网络道路环境识别分割网络应用广泛,但由于需要逐像素生成锚定框作为先验知识输入RPN网络,普遍算法实时性差、超参数多。因此可以从更换RPN网络的角度出发,选择不需要生成锚点的算法来减少超参数的引入,通过摄像机拍摄得到的图像对道路环境进行分割,分析道路环境和行人的分布情况。
与传统的R-CNN神经网络道路环境识别分割网络相比,无锚定框(anchor-free)检测网络FCOS可以摆脱识别和分割效果依赖于RPN网络的锚定框先验知识这一弊端。基于RPN网络,通过遍历的方式,从神经网络的某一层特征图的左上角逐像素遍历到右下角,以生成大量的先验锚定框,限制了检测速度提高。改进FPN的特征分层检测算法,适应当前公共数据集越发庞大、分辨率越来越高的发展趋势。
发明内容
本发明针对现有技术的不足之处,提出了一种融合FCOS的R-CNN城市道路环境识别方法及装置,对城市道路环境下行人目标漏检率高、识别精度低的问题提出了解决方案。
为实现上述目的,本发明所设计的一种融合FCOS的R-CNN城市道路环境识别方法,其特殊之处在于,所述方法为构建一种融合FCOS的R-CNN城市道路环境实例分割网络模型,使用图像数据集进行模型训练,将待识别图片输入至经过训练的网络模型,得到识别结果;
所述一种融合FCOS的R-CNN城市道路环境实例分割网络模型的构建包括如下步骤:
1)搭建基于FCOS的目标检测网络:用获取的图像进行特征提取,形成若干个特征层,使用FPN进行分层检测,再经过分类与回归子网络对FPN的每个特征层进行类别预测、寻找中心点和边框回归操作;
2)实例分割:用边框回归的输出与输入的图像做特征池化对齐,融合Mask R-CNN的语义分割子网络,将单阶段FCOS目标检测网络,改为双阶段的网络结构;计算改进的MaskR-CNN网络的损失函数,将池化后的特征图通过基于Mask R-CNN的语义分割子网络进行逐像素预测语义类别,得到最终的实例分割结果。
优选地,所述步骤1)中使用ResNet网络作为特征提取网络,从输入图像开始,通过若干次卷积和下采样逐级减小特征图分辨率,每层特征图大小为上层的1/2,每个输入图像通过ResNet特征提取网络生成三层的特征图。
优选地,所述步骤1)中使用改进的FPN特征分层识别方法,FPN网络结构由自下而上部分、自上而下部分和横向连接三部分构成;特征层作为自下而上部分把原始图片进行缩小,自下而上部分把最小分辨率特征图进行适当地放大,然后使用横向连接将相同分辨率的特征图进行融合。
优选地,所述改进的FPN特征分层识别方法中,当图像数据集的图像分辨率低于800×1024时,特征分层识别公式为
式中,w和h分别表示RoI区域的宽度和高度,k表示用于检测目标的Pk层;等式中k最大值限制为5。
优选地,所述改进的FPN特征分层识别方法中,当图像数据集的图像分辨率高于或等于800×1024时,特征分层识别公式为
式中,w和h分别表示RoI区域的宽度和高度,k表示用于检测目标的Pk层;等式中k下限值为3,上限值为7。
优选地,所述步骤2)所述基于FCOS的目标检测网络通过包围框的中心点坐标及中心点到包围框的上下左右四条边的距离表示包围框:
式中,(x,y)为中心点像素的坐标,l*表示当前中心点像素与包围框的左边框距离,r*表示右边框距离,t*表示顶部边框距离,b*表示底部边框距离。
优选地,所述寻找中心点操作的计算公式为:
其中,centerness*为中心点距离值。
优选地,所述步骤2)中改进的Mask-RCNN网络的损失函数的计算方法为:
式中,X和Y分别表示预测分割图和GT分割图,dice表示损失值,取值范围为(0,1)。
本发明还提出一种装置,其特殊之处在于,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的方法。
本发明还提出一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述方法。
相对于现有技术,本发明提出了一种用于道路环境和行人检测系统,并采用计算机视觉技术进行分布检测,以较好满足智能交通领域的需求。基于深度学习的实例分割算法按照是否使用区域建议网络(Region Proposal Network,RPN)的分类标准,可以被划分为单阶段(one-stage)和双阶段(two-stage)两类方法。其中单阶段的实例分割算法将整幅图像作为输入,通过卷积直接得到目标的类别、位置和掩码信息,整个过程只需一步。而双阶段实例分割算法首先通过RPN初步提取候选框,然后对每一个候选框内的区域分别进行目标检测和实例分割,整个过程分为两步。因此采用双阶段的方法,参考R-CNN二阶段精修和分割思想为FCOS添加了实例分割子网络,融合Mask R-CNN网络的二阶段设计,在FCOS上增加语义分割子网络。
首先通过ResNet残差网络提取特征,使用FPN处理多尺度目标获得不同分辨率的特征图,并且充分利用特征金字塔多尺度特征,改进了FPN的分层公式,更适用于当前高分辨率、识别目标尺度变化大的数据集,降低行人的漏检率;用FCOS目标检测算法绘制包围框,提取FPN每一层特征做密集预测,通过寻找中心点操作Center-ness和类别预测分支输出预测框得分,以去除低质量的预测框,并通过边框回归调整预测框位置,以FCOS目标检测算法替代传统的RPN算法,可以减小超参数的数量,也有利于提高检测的速度;接着将边框回归输出获得的RoI区域,将得到的预测RoI经过RoI Align获得固定分辨率的RoI区域特征图,输入基于Mask R-CNN的语义分割子网络,得到最终的实例分割结果,即语义蒙版预测。融合Mask R-CNN的语义分割子网络能够在有效检测目标的同时输出高质量的实例分割蒙版,并且具有很高的泛化性能,可以和多种R-CNN框架结合。选取Dice loss作为损失函数,以评价指标IOU作为监督条件训练网络,相比于大部分R-CNN网络使用BCE loss进行训练,更能提高道路环境的分割精度。
本发明的有益效果在于:
1、本发明针对数据集分辨率不断增大带来的小目标漏检问题,改进了FPN特征金字塔分层方式,可以提高城市道路环境的目标识别精度,同时提高了实例分割的精度。
2、本发明提出了在以anchor-free的FCOS检测网络作为RPN网络的基础上,融合Mask R-CNN实例分割子网络,构建了新型图像识别和实例分割网络,解决了传统R-CNN算法问题实时性低的问题。
3、本发明针对当前基于Mask R-CNN实例分割采用的BCE损失函数收敛慢且不利于分割精度提高的问题,采用了新的基于IOU的损失函数Dice loss,使网络学习更贴近于评价指标,进一步提高分割精度。
4、本发明能够应用于无人驾驶及智能交通领域对道路环境和行人识别分割。
附图说明
图1为本发明融合FCOS的R-CNN城市道路环境识别方法的流程图;
图2为基于FCOS的分割网络结构图;
图3为FPN网络结构图;
图4为FCOS目标包围框形式图;
图5为ROIAlign操作示意图;
图6为分割子网络结构图;
图7为融合FCOS的R-CNN网络改进算法精度对比图;
图8为基于Mask R-CNN的改进策略通用性精度对比图;
图9为本发明实施例的算法性能比对图;
图10为本发明实施例中检测分割可视化效果图。
具体实施方式
以下结合附图和具体实施例对本发明作进一步的详细描述,但本发明的实施方式不限于此。
如图1所示,本发明提出的融合FCOS的R-CNN城市道路环境识别方法是构建一种融合FCOS的R-CNN城市道路环境实例分割网络模型,使用图像数据集进行模型训练,将待识别图片输入至经过训练的网络模型,得到识别结果的过程。
一种融合FCOS的R-CNN城市道路环境实例分割网络模型的构建包括如下步骤:
1)搭建基于FCOS的目标检测网络:用获取的图像进行特征提取,形成若干个特征层,使用FPN进行分层检测,再经过分类与回归子网络对FPN的每个特征层进行类别预测、寻找中心点和边框回归操作;
2)实例分割:用边框回归的输出与输入的图像做特征池化对齐,融合Mask R-CNN的语义分割子网络,将单阶段FCOS目标检测网络,改为双阶段的网络结构;计算改进的MaskR-CNN网络的损失函数,将池化后的特征图通过基于Mask R-CNN的语义分割子网络进行逐像素预测语义类别,得到最终的实例分割结果。
本发明提出的一种融合FCOS的R-CNN城市道路环境实例分割网络模型的网络结构图如图2所示。首先,用ResNet架构对获图像进行特征提取生成C3,C4,C5层,用改进的FPN特征分层检测方法生成P3,P4,P5,P6,P7层;其次,用FCOS目标检测算法,在每个特征图上设置包围框,对其进行类别预测和寻找中心点操作Center-ness将得分较低、质量较差的包围框删除,再使用边框回归调整包围框的大小,使其更接近于真实框;再根据改进的FPN分层公式,将输出的包围框映射到FPN的全部特征层级上,在各层级进行边框回归后,结合原始输入图像进行ROI Align特征池化对齐操作;最后,在FCOS目标检测的基础上,融合Mask R-CNN网络的二阶段设计,仅使用基于FCN的语义分割子网络而无包围框精修子网络,并对Mask R-CNN损失函数进行优化,选取Dice loss作为损失函数,可以提高道路环境的分割精度。
步骤S1基于FCOS的目标检测网络:首先使用ResNet网络进行特征提取,并使用FPN进行分层检测,为充分利用特征金字塔的多尺度特征,对FPN特征分层识别公式进行改进,更好的适应当前高分辨率、识别目标尺度变化大的城市道路环境数据集;再经过分类与回归子网络对FPN每层进行类别预测、寻找中心点操作Center-ness和边框回归。具体的实施可以分为以下几个步骤:
步骤S11搭建ResNet特征提取网络
使用ResNet网络作为特征提取网络,由于该网络引入残差结构,可以很好地抑制了网络梯度消失或者爆炸现象,残差结构使用了ReLU激活函数,使得特征学习更加容易。从输入图像开始,通过多次卷积和下采样逐级减小特征图分辨率,每层特征图大小为上层的1/2,每个输入图像通过ResNet特征提取网络生成三层的特征图,分别为C3,C4,C5层。
步骤S12改进的FPN特征分层识别方法
如图3所示,FPN网络结构主要由自下而上(bottom-up)、自上而下(top-down)和横向连接三部分构成。ResNet网络作为自下而上bottom-up部分把原始图片每层缩小为上层的1/2,自上而下top-down把最小分辨率特征图每层放大为上层的2倍,然后使用横向连接采用逐元素相加的方式,将相同分辨率的特征图进行融合,最后用3*3的卷积进一步消除融合后的混叠效应。一方面,FPN的低层特征提供了丰富的位置信息,有助于分割小目标;另一方面,FPN的高层特征又提供了丰富的语义信息,有助于分割大目标。这样允许每一级的特征都可以和高级、低级特征互相结合,最终生成如图2所示的P3,P4,P5,P6,P7层,来实现分层检测的功能。
针对当前大部分数据集的高分辨率图像,对FPN的特征分层识别公式改进,将原公式在FPN的P4和P5层同时检测车辆与行人的方法,改进后在蕴含细节信息更丰富的P3层特征图检测这部分行人目标,仍在P5层检测车辆大目标,有效提高城市道路环境中目标识别精度。
最开始常用数据集ImageNet的图像分辨率仅为224×224,且图像背景简单识别难度低。FPN针对ImageNet数据集提出了特征分层识别公式
式中,w和h分别表示RoI(region of interest,感兴趣区域)区域的宽度和高度,k表示用于检测目标的Pk层。等式中k最大值限制为5,即kmax=5。
公式(1)中超参数“224”与数据集ImageNet图像分辨率密切相关,然而并不适用于如今广泛应用的高分辨率数据集。考虑到COCO 2017和Cityscapes数据集的图像分辨率多在800×1024以上,本文改进公式(1),改进的FPN特征分层识别公式为
式中,k下限为3上限为7,即kmin=3,kmax=7。
因此公式(2)比公式(1)更适用于目前高分辨率的数据集,改进的FPN特征分层识别公式,增大了FPN各层检测目标间的尺寸差距,充分利用FPN的每一层特征信息,直接增强了本文设计网络的学习和分类能力。
步骤S13分类与回归
传统的RPN网络设置锚定框比例设计为1:1和1:2,然而大部分城市道路环境中的行人目标比例约在1:3至1:4,因此小尺度的包围框无法完全框住行人目标,导致行人的识别率较低,而大尺度的包围框则会框住多个行人目标,导致多个行人的密集型目标无法区分而识别为一个行人。如图4所示,FCOS目标检测算法的目标识别包围框描述方案,通过包围框的中心点坐标,及中心点到包围框的上下左右四条边的距离表示包围框,避免了锚定框比例设计不当导致城市道路环境下行人漏检的问题。
其中,以l*表示当前中心点像素与包围框的左边框距离,r*表示右边框距离,t*表示顶部边框距离,b*表示底部边框距离。
初步类别预测与RetinaNet一样采用C个二分类,共输出C个预测值。由于FCOS算法使用逐像素回归策略,在提升召回率的同时,会产生许多低质量的中心点偏移较多的预测边界框,使用寻找中心点center-ness来抑制这些低质量检测到的边界框,且不引入任何超参数。
Center-ness层的主要目标就是找到目标的中心点,即离目标中心越近,输出值越大,反之越小,而中心的目标定义如(3)式,可见最中心的点的centerness*为1,距离越远的点,centerness*的值越小。后将该centerness*值与类别预测的输出值相乘,这样可以有效的过滤掉一批误检框,提高识别准确度。
步骤S2实例分割:
改进FCOS单阶段目标检测的网络架构,融合Mask R-CNN的语义分割子网络,构建了新型图像识别和实例分割网络。将边框回归结果与输入图像做ROI Align特征池化对齐操作操作,获得固定分辨率的RoI区域特征图后,输入基于Mask R-CNN语义分割子网络。并引入新的基于IOU的损失函数Dice loss,对Mask损失函数进行优化,使网络学习更贴近于评价指标,提高对城市道路环境图像的分割精度。
步骤S21特征池化对齐(ROI Align)
利用ROI Align模块调整建议框的特征维度,使所有建议框的维度都等于全连接层的输入维度。如图5所示,首先将先依据输出的尺寸作为网格将RoI划分为2×2的单元格,再将每个单元格均分成四个小单元格;将每个小单元格的中心点视为采样点,对采样点进行双线性插值,得到其像素值;最后对每个单元格内的4个采样点进行最大池化,即得到ROIAlign的结果。
步骤S22融合Mask R-CNN的语义分割子网络
将单阶段FCOS目标检测网络,改为双阶段的网络结构,融合Mask R-CNN网络的二阶段设计。以FCOS检测框架作为RPN网络生成RoI区域,结合传统两阶段R-CNN网络的池化和精细分类、分割子网络,设计出基于FCOS的分割网络结构。直接把FCOS预测的包围框作为网络第一阶段获得的RoI区域,然后通过RoI Align将RoI区域的尺寸大小池化为固定尺寸14×14后输入分割子网络,如图6分割子网络结构图所示。
步骤S23计算改进的Mask-RCNN网络的损失函数
随着卷积神经网络的飞速发展,数据集对神经网络识别结果的评价指标也在不断增大难度,大部分评价指标都以神经网络输出的预测包围框(B-box)与真值B-box的交并比(IOU)作为衡量是否正确识别目标的标准。然而,大部分R-CNN网络仍然使用原始的二进制交叉熵损失函数(BCE,Binary Cross Entropy)训练网络。显然,以评价指标IOU作为监督条件训练网络更有利于提高网络学习能力和精度提高。IOU计算公式为
式中,Bprecsion为预测包围框,BTruth为真实包围框;IOU公式直接地体现了目标预测与检测目标真值的差距和优化目标为提高IOU,利于提高目标召回率,然而简单地以IOU作为损失函数仍面临IOU=0时难以优化、梯度为零的问题。本发明选用全新的损失函数公式Dice loss:
式中,X和Y分别表示预测分割图和GT分割图。dice的取值范围为(0,1),当IOU=0时Dice loss=1,反向传播往降低Dice loss传播,也即代表优化方向向提高预测蒙版和真实值的IOU值优化;当IOU=1时dice=0,此时达到最优,无需优化。
显然对于IOU值较低的情况,Dice loss能更好地反向传播梯度、优化提高IOU值。使用GIOU loss能很好地契合数据集的评价指标,并且比起BCE loss更利于神经网络模型训练和精度提高。
本发明的实施例实验在i58300H处理器、NVIDIA GTX-1060显卡及8G内存的PC机上进行,并使用Pytorch1.1.0深度学习框架实现。选取典型的城市道路景观数据集Cityscapes作为评估对象,设置网络训练参数,然后通过实验分析改进算法的性能。为了验证模型的鲁棒性和泛化能力,一并选取COCO 2017数据集作为评估对象,然后将在COCO2017数据集上训练好的模型通过迁移学习到Cityscapes数据集上继续训练,以进一步分析本文算法性能。经消融实验测试,网络结构改进算法精度如表1所示。
表1网络结构改进算法精度对比表
本设计的融合FCOS的R-CNN网络,在不加上本文改进FPN特征分层识别方法和Diceloss的情况下,Bbox mAP高达33.33%,Mask mAP达30.54%。而直接将FCOS替代Mask R-CNN的RPN网络,保留第二阶段Bbox精修时,网络性能却极大地下降,Bbox mAP降到21.75%,Mask mAP降到11.59%。
通过消融实验,在Cityscapes数据集上比对本文融合FCOS的R-CNN网络算法改进策略有效性,,第五项为Mask R-CNN的算法精度。显然,本文设计的融合FCOS的R-CNN网络在所有情况下均比当前先进的Mask R-CNN表现更优,Bbox mAP高0.6%以上,Mask mAP高1.5%以上,表明本文设计网络更合理、具有更高的精度。
如图8所示,FPN分层识别方法和损失函数改进策略的通用性验证实验表明,本发明改进算法具有较好的通用性,在Mask R-CNN网络仍能明显提高算法性能,并且每部分改进均对对检测城市道路环境中的多类别目标有较好的性能提升。
选择当前先进的FCOS和Mask R-CNN网络与本发明设计的网络作对比实验,在Cityscapes和COCO 2017数据集上分别训练并比较算法精度和推理耗时,结果如表2所示。本文算法与现在先进的基于深度学习的识别和分割算法进行进一步对比,得到如表3所示在COCO 2017数据集上多种算法的实例分割精度比对表。显然,本文算法在几乎所有指标下,均有更高的精度。
表2多数据集算法性能比对表
表3实例分割精度比对表
如图9所示,实验证明了本文算法不仅继承了FCOS优秀的Bbox检测性能,且具有不逊色于Mask R-CNN网络的特征学习能力和特征泛化能力,在迁移学习中两种指标表现仍优于Mask R-CNN网络。图10为对比实验结果图,上方Mask R-CNN效果图和下方本文算法效果图。
基于上述方法,本发明还提出一种装置,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述方法。
基于上述方法,本发明还提出一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述方法。
本说明书未作详细描述的内容属于本领域专业技术人员公知的现有技术。
最后需要说明的是,以上具体实施方式仅用以说明本专利技术方案而非限制,尽管参照较佳实施例对本专利进行了详细说明,本领域的普通技术人员应当理解,可以对本专利的技术方案进行修改或者等同替换,而不脱离本专利技术方案的精神和范围,其均应涵盖在本专利的权利要求范围当中。
Claims (10)
1.一种融合FCOS的R-CNN城市道路环境识别方法,其特征在于:所述方法为构建一种融合FCOS的R-CNN城市道路环境实例分割网络模型,使用图像数据集进行模型训练,将待识别图片输入至经过训练的网络模型,得到识别结果;
所述一种融合FCOS的R-CNN城市道路环境实例分割网络模型的构建包括如下步骤:
1)搭建基于FCOS的目标检测网络:用获取的图像进行特征提取,形成若干个特征层,使用FPN进行分层检测,再经过分类与回归子网络对FPN的每个特征层进行类别预测、寻找中心点和边框回归操作;
2)实例分割:用边框回归的输出与输入的图像做特征池化对齐,融合Mask R-CNN的语义分割子网络,将单阶段FCOS目标检测网络,改为双阶段的网络结构;计算改进的Mask R-CNN网络的损失函数,将池化后的特征图通过基于Mask R-CNN的语义分割子网络进行逐像素预测语义类别,得到最终的实例分割结果。
2.根据权利要求1所述的融合FCOS的R-CNN城市道路环境识别方法,其特征在于:所述步骤1)中使用ResNet网络作为特征提取网络,从输入图像开始,通过若干次卷积和下采样逐级减小特征图分辨率,每层特征图大小为上层的1/2,每个输入图像通过ResNet特征提取网络生成三层的特征图。
3.根据权利要求1所述的融合FCOS的R-CNN城市道路环境识别方法,其特征在于:所述步骤1)中使用改进的FPN特征分层识别方法,FPN网络结构由自下而上部分、自上而下部分和横向连接三部分构成;特征层作为自下而上部分把原始图片进行缩小,自下而上部分把最小分辨率特征图进行适当地放大,然后使用横向连接将相同分辨率的特征图进行融合。
9.一种装置,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至8中任一所述的方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011075466.XA CN112215128B (zh) | 2020-10-09 | 2020-10-09 | 融合fcos的r-cnn城市道路环境识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011075466.XA CN112215128B (zh) | 2020-10-09 | 2020-10-09 | 融合fcos的r-cnn城市道路环境识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112215128A true CN112215128A (zh) | 2021-01-12 |
CN112215128B CN112215128B (zh) | 2024-04-05 |
Family
ID=74052890
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011075466.XA Active CN112215128B (zh) | 2020-10-09 | 2020-10-09 | 融合fcos的r-cnn城市道路环境识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112215128B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109614938A (zh) * | 2018-12-13 | 2019-04-12 | 深源恒际科技有限公司 | 一种基于深度网络的文本目标检测方法及系统 |
CN113033354A (zh) * | 2021-03-11 | 2021-06-25 | 武汉理工大学 | 一种城市道路环境目标快速识别方法、存储介质及系统 |
CN113065650A (zh) * | 2021-04-02 | 2021-07-02 | 中山大学 | 一种长期记忆学习的多通道神经网方法 |
CN113111703A (zh) * | 2021-03-02 | 2021-07-13 | 郑州大学 | 基于多种卷积神经网络融合的机场道面病害异物检测方法 |
CN113221749A (zh) * | 2021-05-13 | 2021-08-06 | 扬州大学 | 基于图像处理与深度学习的作物病害遥感监测方法 |
CN113743340A (zh) * | 2021-09-09 | 2021-12-03 | 智道网联科技(北京)有限公司 | 用于自动驾驶的计算机视觉网络模型优化方法及相关装置 |
CN114037702A (zh) * | 2022-01-10 | 2022-02-11 | 湖南品信生物工程有限公司 | 一种切片级宫颈癌筛查与分类的方法及装置 |
CN115471803A (zh) * | 2022-08-31 | 2022-12-13 | 北京四维远见信息技术有限公司 | 交通标识线的提取方法、装置、设备和可读存储介质 |
CN115527059A (zh) * | 2022-08-16 | 2022-12-27 | 贵州博睿科讯科技发展有限公司 | 一种基于ai识别技术的涉路施工元素检测系统及方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108133188A (zh) * | 2017-12-22 | 2018-06-08 | 武汉理工大学 | 一种基于运动历史图像与卷积神经网络的行为识别方法 |
CN108985186A (zh) * | 2018-06-27 | 2018-12-11 | 武汉理工大学 | 一种基于改进YOLOv2的无人驾驶中行人检测方法 |
CN109145769A (zh) * | 2018-08-01 | 2019-01-04 | 辽宁工业大学 | 融合图像分割特征的目标检测网络设计方法 |
CN109284669A (zh) * | 2018-08-01 | 2019-01-29 | 辽宁工业大学 | 基于Mask RCNN的行人检测方法 |
US20190057507A1 (en) * | 2017-08-18 | 2019-02-21 | Samsung Electronics Co., Ltd. | System and method for semantic segmentation of images |
CN110348445A (zh) * | 2019-06-06 | 2019-10-18 | 华中科技大学 | 一种融合空洞卷积和边缘信息的实例分割方法 |
CN110414585A (zh) * | 2019-07-22 | 2019-11-05 | 武汉理工大学 | 基于改进的嵌入式平台的实时颗粒物检测方法 |
CN110414387A (zh) * | 2019-07-12 | 2019-11-05 | 武汉理工大学 | 一种基于道路分割的车道线多任务学习检测方法 |
CN111178197A (zh) * | 2019-12-19 | 2020-05-19 | 华南农业大学 | 基于Mask R-CNN和Soft-NMS融合的群养粘连猪实例分割方法 |
US20200167943A1 (en) * | 2018-11-28 | 2020-05-28 | Nvidia Corporation | 3d plane detection and reconstruction using a monocular image |
CN111444821A (zh) * | 2020-03-24 | 2020-07-24 | 西北工业大学 | 一种城市道路标志自动识别方法 |
WO2020181685A1 (zh) * | 2019-03-12 | 2020-09-17 | 南京邮电大学 | 一种基于深度学习的车载视频目标检测方法 |
-
2020
- 2020-10-09 CN CN202011075466.XA patent/CN112215128B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190057507A1 (en) * | 2017-08-18 | 2019-02-21 | Samsung Electronics Co., Ltd. | System and method for semantic segmentation of images |
CN108133188A (zh) * | 2017-12-22 | 2018-06-08 | 武汉理工大学 | 一种基于运动历史图像与卷积神经网络的行为识别方法 |
CN108985186A (zh) * | 2018-06-27 | 2018-12-11 | 武汉理工大学 | 一种基于改进YOLOv2的无人驾驶中行人检测方法 |
CN109145769A (zh) * | 2018-08-01 | 2019-01-04 | 辽宁工业大学 | 融合图像分割特征的目标检测网络设计方法 |
CN109284669A (zh) * | 2018-08-01 | 2019-01-29 | 辽宁工业大学 | 基于Mask RCNN的行人检测方法 |
US20200167943A1 (en) * | 2018-11-28 | 2020-05-28 | Nvidia Corporation | 3d plane detection and reconstruction using a monocular image |
WO2020181685A1 (zh) * | 2019-03-12 | 2020-09-17 | 南京邮电大学 | 一种基于深度学习的车载视频目标检测方法 |
CN110348445A (zh) * | 2019-06-06 | 2019-10-18 | 华中科技大学 | 一种融合空洞卷积和边缘信息的实例分割方法 |
CN110414387A (zh) * | 2019-07-12 | 2019-11-05 | 武汉理工大学 | 一种基于道路分割的车道线多任务学习检测方法 |
CN110414585A (zh) * | 2019-07-22 | 2019-11-05 | 武汉理工大学 | 基于改进的嵌入式平台的实时颗粒物检测方法 |
CN111178197A (zh) * | 2019-12-19 | 2020-05-19 | 华南农业大学 | 基于Mask R-CNN和Soft-NMS融合的群养粘连猪实例分割方法 |
CN111444821A (zh) * | 2020-03-24 | 2020-07-24 | 西北工业大学 | 一种城市道路标志自动识别方法 |
Non-Patent Citations (4)
Title |
---|
杨明东;石英;华逸伦;朱剑怀;: "基于匹配策略融合的低误差快速图像拼接算法", 计算机应用研究, no. 04 * |
石英;孙明军;李之达;罗佳齐;杨明东;: "基于运动历史图像与卷积神经网络的行为识别", 湘潭大学学报(自然科学版), no. 02 * |
邓琉元;杨明;王春香;王冰;: "基于环视相机的无人驾驶汽车实例分割方法", 华中科技大学学报(自然科学版), no. 12 * |
黄海松;魏中雨;姚立国;: "基于深度学习的零件实例分割识别研究", 组合机床与自动化加工技术, no. 05 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109614938A (zh) * | 2018-12-13 | 2019-04-12 | 深源恒际科技有限公司 | 一种基于深度网络的文本目标检测方法及系统 |
CN109614938B (zh) * | 2018-12-13 | 2022-03-15 | 深源恒际科技有限公司 | 一种基于深度网络的文本目标检测方法及系统 |
CN113111703A (zh) * | 2021-03-02 | 2021-07-13 | 郑州大学 | 基于多种卷积神经网络融合的机场道面病害异物检测方法 |
CN113033354A (zh) * | 2021-03-11 | 2021-06-25 | 武汉理工大学 | 一种城市道路环境目标快速识别方法、存储介质及系统 |
CN113065650A (zh) * | 2021-04-02 | 2021-07-02 | 中山大学 | 一种长期记忆学习的多通道神经网方法 |
CN113065650B (zh) * | 2021-04-02 | 2023-11-17 | 中山大学 | 一种基于长期记忆学习的多通道神经网络实例分隔方法 |
CN113221749A (zh) * | 2021-05-13 | 2021-08-06 | 扬州大学 | 基于图像处理与深度学习的作物病害遥感监测方法 |
CN113743340B (zh) * | 2021-09-09 | 2023-09-26 | 智道网联科技(北京)有限公司 | 用于自动驾驶的计算机视觉网络模型优化方法及相关装置 |
CN113743340A (zh) * | 2021-09-09 | 2021-12-03 | 智道网联科技(北京)有限公司 | 用于自动驾驶的计算机视觉网络模型优化方法及相关装置 |
CN114037702A (zh) * | 2022-01-10 | 2022-02-11 | 湖南品信生物工程有限公司 | 一种切片级宫颈癌筛查与分类的方法及装置 |
CN115527059A (zh) * | 2022-08-16 | 2022-12-27 | 贵州博睿科讯科技发展有限公司 | 一种基于ai识别技术的涉路施工元素检测系统及方法 |
CN115527059B (zh) * | 2022-08-16 | 2024-04-09 | 贵州博睿科讯科技发展有限公司 | 一种基于ai识别技术的涉路施工元素检测系统及方法 |
CN115471803A (zh) * | 2022-08-31 | 2022-12-13 | 北京四维远见信息技术有限公司 | 交通标识线的提取方法、装置、设备和可读存储介质 |
CN115471803B (zh) * | 2022-08-31 | 2024-01-26 | 北京四维远见信息技术有限公司 | 交通标识线的提取方法、装置、设备和可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112215128B (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112215128B (zh) | 融合fcos的r-cnn城市道路环境识别方法及装置 | |
CN108961235B (zh) | 一种基于YOLOv3网络和粒子滤波算法的缺陷绝缘子识别方法 | |
CN111126202B (zh) | 基于空洞特征金字塔网络的光学遥感图像目标检测方法 | |
CN108304798B (zh) | 基于深度学习及运动一致性的街面秩序事件视频检测方法 | |
CN111695448B (zh) | 一种基于视觉传感器的路侧车辆识别方法 | |
Xu et al. | Scale-aware feature pyramid architecture for marine object detection | |
CN112613378B (zh) | 3d目标检测方法、系统、介质及终端 | |
CN113076871A (zh) | 一种基于目标遮挡补偿的鱼群自动检测方法 | |
CN113706581B (zh) | 基于残差通道注意与多层次分类回归的目标跟踪方法 | |
CN114841244B (zh) | 一种基于鲁棒采样和混合注意力金字塔的目标检测方法 | |
CN115761736A (zh) | 基于多维探地雷达图像的地下空洞智能检测方法与系统 | |
CN112418165B (zh) | 基于改进型级联神经网络的小尺寸目标检测方法与装置 | |
CN110008900A (zh) | 一种由区域到目标的可见光遥感图像候选目标提取方法 | |
CN112883934A (zh) | 一种基于注意力机制的sar图像道路分割方法 | |
CN113505670A (zh) | 基于多尺度cam和超像素的遥感图像弱监督建筑提取方法 | |
CN113313706A (zh) | 基于检测参考点偏移分析的电力设备缺陷图像检测方法 | |
CN116824543A (zh) | 一种基于od-yolo的自动驾驶目标检测方法 | |
CN115937736A (zh) | 基于注意力和上下文感知的小目标检测方法 | |
CN115223017B (zh) | 一种基于深度可分离卷积的多尺度特征融合桥梁检测方法 | |
CN117095368A (zh) | 一种基于yolov5融合多目标特征增强网络和注意力机制的交通小目标检测方法 | |
CN109993772B (zh) | 基于时空采样的实例级别特征聚合方法 | |
CN112560799B (zh) | 基于自适应目标区域搜索和博弈的无人机智能车辆目标检测方法和应用 | |
CN115984537A (zh) | 图像处理方法、装置及相关设备 | |
CN110889418A (zh) | 一种气体轮廓识别方法 | |
CN113313008B (zh) | 基于YOLOv3网络和均值漂移的目标与识别跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |