CN112232240A - 一种基于优化交并比函数的道路抛洒物检测与识别方法 - Google Patents

一种基于优化交并比函数的道路抛洒物检测与识别方法 Download PDF

Info

Publication number
CN112232240A
CN112232240A CN202011129588.2A CN202011129588A CN112232240A CN 112232240 A CN112232240 A CN 112232240A CN 202011129588 A CN202011129588 A CN 202011129588A CN 112232240 A CN112232240 A CN 112232240A
Authority
CN
China
Prior art keywords
road
detection
convolution
identification
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011129588.2A
Other languages
English (en)
Other versions
CN112232240B (zh
Inventor
谢非
章悦
陆飞
汪璠
周钟文
陈瑾杰
叶欣雨
汪铁铮
吴俊�
汪壬甲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Normal University
Original Assignee
Nanjing Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Normal University filed Critical Nanjing Normal University
Priority to CN202011129588.2A priority Critical patent/CN112232240B/zh
Publication of CN112232240A publication Critical patent/CN112232240A/zh
Application granted granted Critical
Publication of CN112232240B publication Critical patent/CN112232240B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/44Event detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于优化交并比函数的道路抛洒物检测与识别方法,包括如下步骤:搭建基于优化交并比函数的道路抛洒物检测与识别模型;采集道路交通监控视频并进行分帧处理生成道路抛洒物数据集,对训练集图像进行标注,生成标签文件;将训练集全部图像和标签文件输入道路抛洒物检测与识别模型中进行训练,得到训练好的模型;将测试集图像输入训练好的道路抛洒物检测与识别模型进行检测识别,输出对于道路抛洒物的检测识别结果。本发明能够在复杂道路交通背景下对道路抛洒物进行检测和识别,能够输出道路抛洒物位置信息、类别信息以及大致形状特征,对于小目标有较好的检测识别效果,检测速度快、识别精度高。

Description

一种基于优化交并比函数的道路抛洒物检测与识别方法
技术领域
本发明涉及深度学习及计算机视觉的技术领域,具体涉及一种基于优化交并比函数的道路抛洒物检测与识别方法。
背景技术
随着人工智能技术的飞速发展,深度学习与计算机视觉领域的技术越来越多的应用到了现代化城市管理当中。道路抛洒物事件作为道路交通常见的事件具有一定的风险,严重时会导致交通事故的发生。常见的道路抛洒物如石块、掉落的废旧纸箱、渣土沙砾、废旧抛洒布等物品不易被车辆驾驶者发现,其中多数尺寸较小,不易被及时检测和排除,同时道路交通环境相对复杂,这也增加了抛洒物检测的难度。目前,计算机视觉中的实例分割技术已经被广泛用于自动驾驶、医疗图像处理、卫星图像等领域。由此,设想实例分割也可被应用于城市道路交通事件检测中。
我国对于道路交通事件检测这一领域的研究开始较晚,现有的道路抛洒物检测与识别方法多是基于传统图像处理算法,主要包括帧间差分法、光流法、特征提取法等方法。这些方法都存在着不可避免的缺陷,例如识别准确率低,实时性较差,对于小尺寸目标的识别情况不好,可扩展性差。
所以,需要一个新的技术方案来解决这些问题。
发明内容
发明目的:为了克服现有技术中存在的不足,提供一种基于优化交并比函数的道路抛洒物检测与识别方法,其以监控摄像头采集包含道路交通抛洒事件的视频,通过神经网络模型训练的方式得到基于优化交并比函数的道路抛洒物检测与识别模型,成本较低,实现方式简便,同时本发明方法在小尺寸目标的检测和识别上效果较好,可以达到实时运行的效果,能够在对道路抛洒物检测和识别基础上进行道路抛洒物的掩膜分割,可以输出道路抛洒物类别信息、位置信息与大致形状特征,具有识别精度高、可扩展性强、抗复杂道路交通环境干扰性强的特点。
技术方案:为实现上述目的,本发明提供一种基于优化交并比函数的道路抛洒物检测与识别方法,包括如下步骤:
S1:搭建基于优化交并比函数的道路抛洒物检测与识别模型;
S2:采集道路交通监控视频并进行分帧处理生成道路抛洒物数据集,对道路抛洒物数据集中的图像按比例划分存储为测试集图像和训练集图像,对训练集图像进行标注,生成json格式的标签文件;
S3:将训练集全部图像和标签文件输入步骤S1的道路抛洒物检测与识别模型中进行训练,得到训练好的模型;
S4:将道路交通监控视频分帧处理得到的测试集图像输入训练好的道路抛洒物检测与识别模型进行检测识别,输出对于道路抛洒物的检测识别结果。
进一步的,所述步骤S1中基于优化交并比函数的道路抛洒物检测与识别模型的搭建方法包括如下步骤:
A1:构建基于空洞卷积优化的主干神经网络,主干神经网络通过对输入的训练集中的图像进行卷积得到输入图像中的特征图,提取出的特征图作为后续处理的输入;
A2:构建多尺度处理模块,使用特征金字塔网络FPN进行多尺度处理;在进行道路抛洒物检测识别的场景中,使用FPN能发挥其多尺度识别的优势,在很大程度上缓解模糊性。
A3:构建基于优化交并比函数的目标检测与识别算法,目标检测与识别算法通过对经过多尺度处理的特征图进行目标检测与识别,得到边界框bounding box信息与目标的类别信息;
A4:构建掩膜分割分支:使用空间注意力引导掩膜生成空间注意力特征描述子,通过空间注意力引导特征去加强原始输入特征并对每一目标生成掩膜。
进一步的,所述步骤A3中基于优化交并比函数的目标检测与识别算法,由分类、边界框预测和中心度centerness三个分支构成。
进一步的,所述步骤A1具体为:主干神经网络使用残差网络ResNet50,残差卷积网络通过引入残差块,有效避免了普通神经网络卷积过程中随着层数越深,初始化参数越趋向于0的梯度消失问题,实现了模型精度的提升。
残差块的输入数据通过跳跃连接shortcut connection进行直接映射,同时将输入数据进行卷积操作并通过线性修正单元ReLU进行激活运算,输出残差部分,ResNet50包括1个7x7x64的输入卷积和16个残差块,最后有一层用于分类输出的全卷积层,其中每一残差块包含3层卷积层,卷积时采用空洞卷积的方法进行优化,设定卷积核扩张率为3,最终输出5个不同阶段的特征图C1、C2、C3、C4、C5
进一步的,所述步骤A2具体为:采用特征金字塔网络FPN进行多尺度处理,将经过主干神经网络卷积后得到的特征图C3、C4、C5进行1×1卷积得到F3、F4、F5,并将F5、F6再次进行步长为2的卷积得到F6、F7,输出5个阶段的特征图F3、F4、F5、F6、F7
进一步的,所述步骤A3具体包括如下步骤:
B1:令
Figure BDA0002734715290000031
为经过主干神经网络和多尺度处理后第i层的特征图,其中H、W分别表示特征图的高度和宽度,Q表示所有待检测目标的类别数;通过4组卷积操作,其中每组包括步长为1的3×3卷积、群组归一化Group Normalization和线性修正单元ReLU,对特征图进行边界框回归并使用优化交并比函数DIoU进行优化,生成边界框回归损失函数;
B2:通过4组步长为1的3×3卷积对特征图进行分类,生成分类损失函数;同时通过中心度centerness分支来抑制低质量的检测边界框;
B3:目标识别算法输出目标损失函数并通过自适应的感兴趣区域RoI分配机制来保证目标检测器对于小尺度目标的检测精度。
进一步的,所述步骤B1中DIoU函数用于计算边界框回归损失函数。DIoU函数将重叠率以及尺度都考虑在内,使得目标框回归变得更加稳定,不易出现发散等问题,检测精度更高。边界框回归损失函数的计算过程为:
Figure BDA0002734715290000032
Figure BDA0002734715290000033
式中,B表示预测框,Bgt表示真实检测框,b、bgt分别表示预测框和真实框的中心点位置,ρ表示计算这两个中心点之间的欧式距离,l表示同时包含了预测检测框和真实检测框的最小闭包区域的对角线距离;
对于特征图Fi上的每一个位置(x,y)都可以对应到原图上的一个坐标。如果位置(x,y)落在任意真实检测框内,那么它就被认定是正样本,否则为负样本。除了对正负样本进行分类,同时也可以得到一个4维向量s*=(l*,t*,r*,b*),这个向量表示了位置(x,y)用于回归的偏移向量。其中l*,t*,r*,b*分别代表了这一位置的点到边界框左、上、右、下四边的水平距离。
所述步骤B2中中心度centerness的定义如下:
Figure BDA0002734715290000034
其中,min(l*,r*)表示取l*,r*中的最小值,max(l*,r*)表示取l*,r*中的最大值,min(t*,b*)表示取t*,b*中的最小值,max(t*,b*)表示取t*,b*中的最大值,中心度使用二值交叉熵进行训练,中心度的值在0到1范围内。中心度可以降低远离目标中心边界框的权重,从而显著提升检测性能。
进一步的,所述步骤B3中输出的目标损失函数L({qx,y},{sx,y})所示如下:
Figure BDA0002734715290000041
式中,qx,y表示位置(x,y)预测得出的分类标签,
Figure BDA0002734715290000042
表示位置(x,y)的真实类别,sx,y表示位置(x,y)所在的边界框坐标,
Figure BDA0002734715290000043
表示位置(x,y)于回归的偏移向量,Npos表示正样本数量,Lcls表示分类损失函数,使用了焦点损失,Lreg表示边界框回归损失函数,λ设置为1用于平衡两类损失,I表示指示函数;
Figure BDA0002734715290000044
式(5)表示一种自适应的RoI分配机制,式中K表示感兴趣区域的映射关系,kmax表示对应的FPN层级,本研究中FPN分为五个层级,所以kmax=5,Ainput表示输入图像数据的面积,ARoI表示感兴趣区域的面积。
进一步的,所述步骤A4中掩膜分割分支的构建过程为:
C1:将经过自适应的RoI区域分配机制预测得到的特征图馈送到四个3×3卷积转换层和空间注意模块中依次处理,得到空间注意力特征描述子,计算过程如下所示:
Figure BDA0002734715290000049
将经过目标检测输入掩膜分支的特征图定义为Xi,对输入特征图
Figure BDA0002734715290000045
进行最大池化和平均池化之后得到的特征fmax,
Figure BDA0002734715290000046
进行连接聚合,聚合后输入一个3×3的卷积层,并使用sigmoid函数进行归一化,式中,Asag(Xi)表示输出的空间注意力特征描述子,C3×3表示进行3×3的卷积,符号
Figure BDA00027347152900000410
表示进行连接聚合,σ表示sigmoid函数;
C2:利用C1得到的空间注意力特征描述子生成空间注意力引导特征图,并使用2×2的卷积进行上采样,通过一个1×1卷积层预测特定类的掩膜;
Figure BDA0002734715290000047
空间注意力引导特征图Xsag的公式如上所示,其中,
Figure BDA0002734715290000048
表示对元素进行对应乘积计算;主要目的是通过空间注意力引导特征去加强原始输入特征。
C3:计算道路抛洒物检测与识别模型的损失函数:
L=Lcls+Lcenter+Lreg+Lmask (16)
其中,L表示道路抛洒物检测与识别模型整体的损失函数,Lcls表示分类损失,Lcenter表示中心度损失,Lreg表示边界框回归损失,Lmask表示掩膜损失,采用二值交叉熵进行计算。
进一步的,所述步骤S2具体包括如下步骤:
D1:采集包含道路抛洒事件的道路交通监控视频,并保存;
D2:对于存储的道路交通监控视频进行分帧操作,设置每5秒提取一帧待处理图像,并将图像输出进行存储;
D3:对于存储的全部图像利用图像标注软件进行标注处理,按照80%和20%的比例进行划分,分别存储为训练集和测试集,后续利用训练集全部图像输入模型进行训练。
所述步骤S4具体包括如下步骤:
E1:将道路交通监控视频分帧处理得到的测试集图像输入训练好的道路交通抛洒物识别模型中进行目标识别;
E2:基于优化交并比函数的道路抛洒物检测与识别模型中优化的识别算法对目标物体框中的所有点都进行边界框预测;
E3:使用非极大值快速抑制算法过滤质量低的边界框,最终生成目标边界框与分类信息,进一步输入到掩膜分割分支生成掩膜。
进一步的,所述步骤S4中道路抛洒物的检测识别结果包括目标框位置、类别信息和分割掩膜。
有益效果:本发明与现有技术相比,具备如下优点:
1、本发明以监控摄像头采集包含道路交通抛洒事件的视频,通过神经网络模型训练的方式得到基于优化交并比函数的道路抛洒物检测与识别模型,通过各路段已有监控视频就能完成识别过程,成本较低,实现方式简便。
2、本发明在小尺寸目标的检测和识别上效果较好,不但可以达到实时运行的效果,而且识别精度高,误差小。
3、本发明能够在对道路抛洒物检测和识别基础上进行道路抛洒物的掩膜分割,可以输出道路抛洒物类别信息与位置信息,具有识别精度高、检测速度快、可扩展性强、抗复杂道路交通环境干扰性强的优势。
附图说明
图1是本发明方法的流程框图;
图2是本发明中基于优化交并比函数的道路抛洒物检测与识别模型结构图;
图3是本发明使用的主干神经网络ResNet50的结构图;
图4是常规卷积与空洞卷积的对比图;
图5是距离交并比DIoU函数的原理图;
图6是道路抛洒物识别单张图像中全部目标的用时图;
图7是本发明方法的识别效果图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,本发明提供一种基于优化交并比函数的道路抛洒物检测与识别方法,如图1和图2所示,包括以下步骤:
S1:搭建基于优化交并比函数的道路抛洒物检测与识别模型;
S2:采集道路交通监控视频并进行分帧处理生成道路抛洒物数据集,对道路抛洒物数据集中的图像按比例划分存储为测试集图像和训练集图像,对训练集图像进行标注,生成json格式的标签文件;
S3:将训练集全部图像和标签文件输入步骤S1的道路抛洒物检测与识别模型中进行训练,得到训练好的模型;
S4:将道路交通监控视频分帧处理得到的测试集图像输入训练好的道路抛洒物检测与识别模型进行检测识别,输出道路抛洒物的目标框位置、类别信息和分割掩膜。
本实施例中步骤S1的具体过程如下:
A1:构建基于空洞卷积优化的主干神经网络,主干神经网络通过对输入的训练集中的图像进行卷积得到输入图像中的特征图,提取出的特征图作为后续处理的输入;
A2:构建多尺度处理模块,使用特征金字塔网络FPN进行多尺度处理;在进行道路抛洒物检测识别的场景中,使用FPN能发挥其多尺度识别的优势,在很大程度上缓解模糊性;
A3:构建基于优化交并比函数的目标检测与识别算法,该算法由分类、边界框预测和中心度centerness三个分支构成,目标检测与识别算法通过对经过多尺度处理的特征图进行目标检测与识别,得到边界框bounding box信息与目标的类别信息;
A4:构建掩膜分割分支:使用空间注意力引导掩膜生成空间注意力特征描述子,通过空间注意力引导特征去加强原始输入特征并对每一目标生成掩膜。
本实施例中步骤A1的具体过程如下:
主干神经网络使用残差网络ResNet50,本实施例中的残差卷积网络通过引入残差块,有效避免了普通神经网络卷积过程中随着层数越深,初始化参数越趋向于0的梯度消失问题,实现了模型精度的提升。
残差块的输入数据通过跳跃连接shortcut connection进行直接映射,同时将输入数据进行卷积操作并通过线性修正单元ReLU进行激活运算,输出残差部分。
如图3所示,本实施例中残差网络ResNet50包括1个7x7x64的输入卷积和16个残差块(包括卷积残差块Conv Block和不改变维度的残差块ID Block,图中Batch Norm表示批正则化操作,Max Pool表示最大池化操作,Avg Pool表示平均池化操作),其中每一残差块包含3层卷积层,最后有一层用于分类输出的全卷积层FC。本实施例中卷积时采用空洞卷积的方法进行优化,一般卷积与空洞卷积原理图具体如图4所示。设定卷积核扩张率为3,最终输出5个不同阶段的特征图C1、C2、C3、C4、C5
本实施例中步骤A2的具体过程如下:
采用特征金字塔网络FPN进行多尺度处理,将经过主干神经网络卷积后得到的特征图C3、C4、C5进行1×1卷积得到F3、F4、F5,并将F5、F6再次进行步长为2的卷积得到F6、F7,输出5个阶段的特征图F3、F4、F5、F6、F7
本实施例中步骤A3的具体过程如下:
B1:令
Figure BDA0002734715290000073
为经过主干神经网络和多尺度处理后第i层的特征图,其中H、W分别表示特征图的高度和宽度,Q表示所有待检测目标的类别数;通过4组卷积操作,其中每组包括步长为1的3×3卷积、群组归一化Group Normalization和线性修正单元ReLU,对特征图进行边界框回归并使用优化交并比函数DIoU进行优化,生成边界框回归损失函数;
这里需要说明的是,DIoU函数的原理图如图5所示,具体可见:
DIoU函数用于计算边界框回归损失函数。DIoU函数将重叠率以及尺度都考虑在内,使得目标框回归变得更加稳定,不易出现发散等问题,检测精度更高。计算过程如下所示:
Figure BDA0002734715290000071
Figure BDA0002734715290000072
式中,B表示预测框,Bgt表示真实检测框,b、bgt分别表示预测框和真实框的中心点位置,ρ表示计算这两个中心点之间的欧式距离,l表示同时包含了预测检测框和真实检测框的最小闭包区域的对角线距离。如图3所示d表示这两个中心点之间的欧式距离,d=ρ2(b,bgt)。
对于特征图Fi上的每一个位置(x,y)都可以对应到原图上的一个坐标。如果位置(x,y)落在任意真实检测框内,那么它就被认定是正样本,否则为负样本。除了对正负样本进行分类,同时也可以得到一个4维向量s*=(l*,t*,r*,b*),这个向量表示了位置(x,y)用于回归的偏移向量。其中l*,t*,r*,b*分别代表了这一位置的点到边界框左、上、右、下四边的水平距离。
B2:通过4组步长为1的3×3卷积对特征图进行分类,生成分类损失函数;同时通过中心度centerness分支来抑制低质量的检测边界框;
中心度centerness的定义如下:
Figure BDA0002734715290000081
其中,min(l*,r*)表示取l*,r*中的最小值,max(l*,r*)表示取l*,r*中的最大值,min(t*,b*)表示取t*,b*中的最小值,max(t*,b*)表示取t*,b*中的最大值,中心度使用二值交叉熵进行训练,中心度的值在0到1范围内。中心度可以降低远离目标中心边界框的权重,从而显著提升检测性能。
B3:目标识别算法输出目标损失函数并通过自适应的感兴趣区域RoI分配机制来保证目标检测器对于小尺度目标的检测精度。
输出的目标损失函数L({qx,y},{sx,y})所示如下:
Figure BDA0002734715290000082
式中,qx,y表示位置(x,y)预测得出的分类标签,
Figure BDA0002734715290000087
表示位置(x,y)的真实类别,sx,y表示位置(x,y)所在的边界框坐标,
Figure BDA0002734715290000088
表示位置(x,y)于回归的偏移向量,Npos表示正样本数量,Lcls表示分类损失函数,使用了焦点损失,Lreg表示边界框回归损失函数,λ设置为1用于平衡两类损失,I表示指示函数;
Figure BDA0002734715290000083
式(5)表示一种自适应的RoI分配机制,式中K表示感兴趣区域的映射关系,kmax表示对应的FPN层级,本研究中FPN分为五个层级,所以kmax=5,Ainput表示输入图像数据的面积,ARoI表示感兴趣区域的面积。
本实施例中步骤A4的具体过程如下:
C1:将经过自适应的RoI区域分配机制预测得到的特征图馈送到四个3×3卷积转换层和空间注意模块中依次处理,得到空间注意力特征描述子,计算过程如下所示:
Figure BDA0002734715290000086
将经过目标检测输入掩膜分支的特征图定义为Xi,对输入特征图
Figure BDA0002734715290000084
进行最大池化和平均池化之后得到的特征fmax,
Figure BDA0002734715290000085
进行连接聚合,聚合后输入一个3×3的卷积层,并使用sigmoid函数进行归一化,式中,Asag(Xi)表示输出的空间注意力特征描述子,C3×3表示进行3×3的卷积,符号
Figure BDA0002734715290000093
表示进行连接聚合,σ表示sigmoid函数;
C2:利用C1得到的空间注意力特征描述子生成空间注意力引导特征图,并使用2×2的卷积进行上采样,通过一个1×1卷积层预测特定类的掩膜;
Figure BDA0002734715290000091
空间注意力引导特征图Xsag的公式如上所示,其中,
Figure BDA0002734715290000092
表示对元素进行对应乘积计算,主要目的是通过空间注意力引导特征去加强原始输入特征。
C3:计算道路抛洒物检测与识别模型的损失函数:
L=Lcls+Lcenter+Lreg+Lmask (24)
其中,L表示道路抛洒物检测与识别模型整体的损失函数,Lcls表示分类损失,Lcenter表示中心度损失,Lreg表示边界框回归损失,Lmask表示掩膜损失,采用二值交叉熵进行计算。
本实施例中步骤S2的具体过程如下:
D1:采集某时段内包含道路抛洒事件的道路交通监控视频,并保存;
D2:对于存储的道路交通监控视频进行分帧操作,设置每5秒提取一帧待处理图像,并将图像输出进行存储;
D3:对于存储的全部图像利用图像标注软件进行标注处理,按照80%和20%的比例进行划分,分别存储为训练集和测试集,后续利用训练集全部图像输入模型进行训练。
本实施例中步骤S4的具体过程如下:
E1:将道路交通监控视频分帧处理得到的测试集图像输入训练好的道路交通抛洒物识别模型中进行目标识别;
E2:基于优化交并比函数的道路抛洒物检测与识别模型中优化的识别算法对目标物体框中的所有点都进行边界框预测;
E3:使用非极大值快速抑制算法过滤质量低的边界框,最终生成目标边界框与分类信息,进一步输入到掩膜分割分支生成掩膜。
本实施例中利用上述方法对单张图像中全部抛洒物目标进行识别和分割,如图6所示,具体的用时为0.26s,可见本发明方法具备极好的检测和识别速度。
本实施例中为了验证本发明方法的实际效果,对本发明方法进行了实际场景的应用,对道路抛洒物识别和分割效果具体如图7所示,图7分为a、b、c和d四张效果图,对应的抛洒物分别为渣土、废旧纸箱、废旧抛洒布和石块,可见,图a、b、c和d能够清楚、高效的识别和分割出道路上的渣土、废旧纸箱、废旧抛洒布和石块,验证了本发明方法的实际效果。

Claims (10)

1.一种基于优化交并比函数的道路抛洒物检测与识别方法,其特征在于:包括如下步骤:
S1:搭建基于优化交并比函数的道路抛洒物检测与识别模型;
S2:采集道路交通监控视频并进行分帧处理生成道路抛洒物数据集,对道路抛洒物数据集中的图像按比例划分存储为测试集图像和训练集图像,对训练集图像进行标注,生成标签文件;
S3:将训练集全部图像和标签文件输入步骤S1的道路抛洒物检测与识别模型中进行训练,得到训练好的模型;
S4:将道路交通监控视频分帧处理得到的测试集图像输入训练好的道路抛洒物检测与识别模型进行检测识别,输出对于道路抛洒物的检测识别结果。
2.根据权利要求1所述的一种基于优化交并比函数的道路抛洒物检测与识别方法,其特征在于:所述步骤S1中基于优化交并比函数的道路抛洒物检测与识别模型的搭建方法包括如下步骤:
A1:构建基于空洞卷积优化的主干神经网络,主干神经网络通过对输入的训练集中的图像进行卷积得到输入图像中的特征图,提取出的特征图作为后续处理的输入;
A2:构建多尺度处理模块,使用特征金字塔网络FPN进行多尺度处理;
A3:构建基于优化交并比函数的目标检测与识别算法,目标检测与识别算法通过对经过多尺度处理的特征图进行目标检测与识别,得到边界框bounding box信息与目标的类别信息;
A4:构建掩膜分割分支:使用空间注意力引导掩膜生成空间注意力特征描述子,通过空间注意力引导特征去加强原始输入特征并对每一目标生成掩膜。
3.根据权利要求2所述的一种基于优化交并比函数的道路抛洒物检测与识别方法,其特征在于:所述步骤A3中基于优化交并比函数的目标检测与识别算法,由分类、边界框预测和中心度centerness三个分支构成。
4.根据权利要求1所述的一种基于优化交并比函数的道路抛洒物检测与识别方法,其特征在于:所述步骤A1具体为:主干神经网络使用残差网络ResNet50,残差卷积网络通过引入残差块,残差块的输入数据通过跳跃连接shortcut connection进行直接映射,同时将输入数据进行卷积操作并通过线性修正单元ReLU进行激活运算,输出残差部分,ResNet50包括1个7x7x64的输入卷积和16个残差块,最后有一层用于分类输出的全卷积层,其中每一残差块包含3层卷积层,卷积时采用空洞卷积的方法进行优化,设定卷积核扩张率为3,最终输出5个不同阶段的特征图C1、C2、C3、C4、C5
5.根据权利要求4所述的一种基于优化交并比函数的道路抛洒物检测与识别方法,其特征在于:所述步骤A2具体为:采用特征金字塔网络FPN进行多尺度处理,将经过主干神经网络卷积后得到的特征图C3、C4、C5进行1×1卷积得到F3、F4、F5,并将F5、F6再次进行步长为2的卷积得到F6、F7,输出5个阶段的特征图F3、F4、F5、F6、F7
6.根据权利要求3所述的一种基于优化交并比函数的道路抛洒物检测与识别方法,其特征在于:所述步骤A3具体包括如下步骤:
B1:令
Figure FDA0002734715280000021
为经过主干神经网络和多尺度处理后第i层的特征图,其中H、W分别表示特征图的高度和宽度,Q表示所有待检测目标的类别数;通过4组卷积操作,其中每组包括步长为1的3×3卷积、群组归一化Group Normalization和线性修正单元ReLU,对特征图进行边界框回归并使用优化交并比函数DIoU进行优化,生成边界框回归损失函数;
B2:通过4组步长为1的3×3卷积对特征图进行分类,生成分类损失函数;同时通过中心度centerness分支来抑制低质量的检测边界框;
B3:目标识别算法输出目标损失函数并通过自适应的感兴趣区域RoI分配机制来保证目标检测器对于小尺度目标的检测精度。
7.根据权利要求6所述的一种基于优化交并比函数的道路抛洒物检测与识别方法,其特征在于:所述步骤B1中边界框回归损失函数的计算过程为:
Figure FDA0002734715280000022
Figure FDA0002734715280000023
式中,B表示预测框,Bgt表示真实检测框,b、bgt分别表示预测框和真实框的中心点位置,ρ表示计算这两个中心点之间的欧式距离,l表示同时包含了预测检测框和真实检测框的最小闭包区域的对角线距离;
所述步骤B2中中心度centerness的定义如下:
Figure FDA0002734715280000024
其中,min(l*,r*)表示取l*,r*中的最小值,max(l*,r*)表示取l*,r*中的最大值,min(t*,b*)表示取t*,b*中的最小值,max(t*,b*)表示取t*,b*中的最大值,中心度使用二值交叉熵进行训练,中心度的值在0到1范围内。
8.根据权利要求6所述的一种基于优化交并比函数的道路抛洒物检测与识别方法,其特征在于:所述步骤B3中输出的目标损失函数L({qx,y},{sx,y})所示如下:
Figure FDA0002734715280000031
式中,qx,y表示位置(x,y)预测得出的分类标签,
Figure FDA0002734715280000032
表示位置(x,y)的真实类别,sx,y表示位置(x,y)所在的边界框坐标,
Figure FDA0002734715280000033
表示位置(x,y)于回归的偏移向量,Npos表示正样本数量,Lcls表示分类损失函数,使用了焦点损失,Lreg表示边界框回归损失函数,λ设置为1用于平衡两类损失,I表示指示函数;
Figure FDA0002734715280000034
式(5)表示一种自适应的RoI分配机制,式中K表示感兴趣区域的映射关系,kmax表示对应的FPN层级,Ainput表示输入图像数据的面积,ARoI表示感兴趣区域的面积。
9.根据权利要求2所述的一种基于优化交并比函数的道路抛洒物检测与识别方法,其特征在于:所述步骤A4中掩膜分割分支的构建过程为:
C1:将经过自适应的RoI区域分配机制预测得到的特征图馈送到四个3×3卷积转换层和空间注意模块中依次处理,得到空间注意力特征描述子,计算过程如下所示:
Figure FDA0002734715280000035
将经过目标检测输入掩膜分支的特征图定义为Xi,对输入特征图
Figure FDA0002734715280000036
进行最大池化和平均池化之后得到的特征fmax,
Figure FDA0002734715280000037
进行连接聚合,聚合后输入一个3×3的卷积层,并使用sigmoid函数进行归一化,式中,Asag(Xi)表示输出的空间注意力特征描述子,C3×3表示进行3×3的卷积,符号
Figure FDA00027347152800000310
表示进行连接聚合,σ表示sigmoid函数;
C2:利用C1得到的空间注意力特征描述子生成空间注意力引导特征图,并使用2×2的卷积进行上采样,通过一个1×1卷积层预测特定类的掩膜;
Figure FDA0002734715280000038
空间注意力引导特征图Xsag的公式如上所示,其中,
Figure FDA0002734715280000039
表示对元素进行对应乘积计算;
C3:计算道路抛洒物检测与识别模型的损失函数:
L=Lcls+Lcenter+Lreg+Lmask (8)
其中,L表示道路抛洒物检测与识别模型整体的损失函数,Lcls表示分类损失,Lcenter表示中心度损失,Lreg表示边界框回归损失,Lmask表示掩膜损失,采用二值交叉熵进行计算。
10.根据权利要求1所述的一种基于优化交并比函数的道路抛洒物检测与识别方法,其特征在于:所述步骤S2具体包括如下步骤:
D1:采集包含道路抛洒事件的道路交通监控视频,并保存;
D2:对于存储的道路交通监控视频进行分帧操作,并将图像输出进行存储;
D3:对于存储的全部图像利用图像标注软件进行标注处理,按照比例进行划分,分别存储为训练集和测试集,后续利用训练集全部图像输入模型进行训练;
所述步骤S4具体包括如下步骤:
E1:将道路交通监控视频分帧处理得到的测试集图像输入训练好的道路交通抛洒物识别模型中进行目标识别;
E2:基于优化交并比函数的道路抛洒物检测与识别模型中优化的识别算法对目标物体框中的所有点都进行边界框预测;
E3:使用非极大值快速抑制算法过滤质量低的边界框,最终生成目标边界框与分类信息,进一步输入到掩膜分割分支生成掩膜。
CN202011129588.2A 2020-10-21 2020-10-21 一种基于优化交并比函数的道路抛洒物检测与识别方法 Active CN112232240B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011129588.2A CN112232240B (zh) 2020-10-21 2020-10-21 一种基于优化交并比函数的道路抛洒物检测与识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011129588.2A CN112232240B (zh) 2020-10-21 2020-10-21 一种基于优化交并比函数的道路抛洒物检测与识别方法

Publications (2)

Publication Number Publication Date
CN112232240A true CN112232240A (zh) 2021-01-15
CN112232240B CN112232240B (zh) 2024-08-27

Family

ID=74117638

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011129588.2A Active CN112232240B (zh) 2020-10-21 2020-10-21 一种基于优化交并比函数的道路抛洒物检测与识别方法

Country Status (1)

Country Link
CN (1) CN112232240B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113052170A (zh) * 2021-03-22 2021-06-29 江苏东大金智信息系统有限公司 一种无约束场景下的小目标车牌识别方法
CN113392702A (zh) * 2021-05-10 2021-09-14 南京师范大学 一种基于自适应图像增强的弱光照环境下目标识别方法
CN113673540A (zh) * 2021-08-20 2021-11-19 北京理工大学 一种基于定位信息引导的目标检测方法
CN113920126A (zh) * 2021-10-11 2022-01-11 深圳硅基智能科技有限公司 基于紧框标的深度学习的测量方法及测量装置
CN114429445A (zh) * 2021-11-09 2022-05-03 南京师范大学 一种基于MAIRNet的PCB缺陷检测与识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111091105A (zh) * 2019-12-23 2020-05-01 郑州轻工业大学 基于新的边框回归损失函数的遥感图像目标检测方法
WO2020102988A1 (zh) * 2018-11-20 2020-05-28 西安电子科技大学 基于特征融合和稠密连接的红外面目标检测方法
CN111753612A (zh) * 2019-09-11 2020-10-09 上海高德威智能交通系统有限公司 一种抛洒物检测方法、装置及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020102988A1 (zh) * 2018-11-20 2020-05-28 西安电子科技大学 基于特征融合和稠密连接的红外面目标检测方法
CN111753612A (zh) * 2019-09-11 2020-10-09 上海高德威智能交通系统有限公司 一种抛洒物检测方法、装置及存储介质
CN111091105A (zh) * 2019-12-23 2020-05-01 郑州轻工业大学 基于新的边框回归损失函数的遥感图像目标检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
夏莹杰 等: "面向高速公路抛洒物检测的动态背景建模方法", 浙江大学学报(工学版), vol. 54, no. 07, 3 July 2020 (2020-07-03), pages 1249 - 1255 *
汪贵平 等: "高速公路抛洒物事件图像检测算法", 长安大学学报(自然科学版), vol. 37, no. 05, 15 September 2017 (2017-09-15), pages 81 - 88 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113052170A (zh) * 2021-03-22 2021-06-29 江苏东大金智信息系统有限公司 一种无约束场景下的小目标车牌识别方法
CN113052170B (zh) * 2021-03-22 2023-12-26 江苏东大金智信息系统有限公司 一种无约束场景下的小目标车牌识别方法
CN113392702A (zh) * 2021-05-10 2021-09-14 南京师范大学 一种基于自适应图像增强的弱光照环境下目标识别方法
CN113392702B (zh) * 2021-05-10 2024-06-11 南京师范大学 一种基于自适应图像增强的弱光照环境下目标识别方法
CN113673540A (zh) * 2021-08-20 2021-11-19 北京理工大学 一种基于定位信息引导的目标检测方法
CN113920126A (zh) * 2021-10-11 2022-01-11 深圳硅基智能科技有限公司 基于紧框标的深度学习的测量方法及测量装置
CN113920126B (zh) * 2021-10-11 2022-07-22 深圳硅基智能科技有限公司 基于紧框标的深度学习的测量方法及测量装置
CN114429445A (zh) * 2021-11-09 2022-05-03 南京师范大学 一种基于MAIRNet的PCB缺陷检测与识别方法

Also Published As

Publication number Publication date
CN112232240B (zh) 2024-08-27

Similar Documents

Publication Publication Date Title
CN107563372B (zh) 一种基于深度学习ssd框架的车牌定位方法
CN110059558B (zh) 一种基于改进ssd网络的果园障碍物实时检测方法
CN112232240A (zh) 一种基于优化交并比函数的道路抛洒物检测与识别方法
CN108304798B (zh) 基于深度学习及运动一致性的街面秩序事件视频检测方法
CN108171112A (zh) 基于卷积神经网络的车辆识别与跟踪方法
CN109919974A (zh) 基于r-fcn框架多候选关联的在线多目标跟踪方法
CN107273832B (zh) 基于积分通道特征与卷积神经网络的车牌识别方法及系统
CN111340855A (zh) 一种基于轨迹预测的道路移动目标检测方法
Zhang et al. Vision-based vehicle detecting and counting for traffic flow analysis
Xi et al. Multi-task cost-sensitive-convolutional neural network for car detection
Tang et al. Integrated feature pyramid network with feature aggregation for traffic sign detection
CN114821014A (zh) 基于多模态与对抗学习的多任务目标检测识别方法及装置
Zhao et al. Real-time pedestrian detection based on improved YOLO model
CN114049572A (zh) 识别小目标的检测方法
CN116109950A (zh) 一种低空域反无人机视觉检测、识别与跟踪方法
Sun et al. IRDCLNet: Instance segmentation of ship images based on interference reduction and dynamic contour learning in foggy scenes
CN115620090A (zh) 模型训练方法、低照度目标重识别方法和装置、终端设备
Yin Object Detection Based on Deep Learning: A Brief Review
Najibi et al. Towards the success rate of one: Real-time unconstrained salient object detection
Shustanov et al. A Method for Traffic Sign Recognition with CNN using GPU.
Piroli et al. Towards robust 3D object detection in rainy conditions
Li et al. Fast monocular visual place recognition for non-uniform vehicle speed and varying lighting environment
CN112418358A (zh) 一种强化深度融合网络的车辆多属性分类方法
Peng et al. Real-time traffic sign text detection based on deep learning
Feng et al. A benchmark dataset and multi-scale attention network for semantic traffic light detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant