CN115272665A - 一种基于改进ssd算法的交通障碍检测方法和系统 - Google Patents

一种基于改进ssd算法的交通障碍检测方法和系统 Download PDF

Info

Publication number
CN115272665A
CN115272665A CN202211180574.2A CN202211180574A CN115272665A CN 115272665 A CN115272665 A CN 115272665A CN 202211180574 A CN202211180574 A CN 202211180574A CN 115272665 A CN115272665 A CN 115272665A
Authority
CN
China
Prior art keywords
feature
fusion
module
traffic obstacle
obstacle detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211180574.2A
Other languages
English (en)
Other versions
CN115272665B (zh
Inventor
夏景明
戴如晨
谈玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202211180574.2A priority Critical patent/CN115272665B/zh
Publication of CN115272665A publication Critical patent/CN115272665A/zh
Application granted granted Critical
Publication of CN115272665B publication Critical patent/CN115272665B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/54Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于改进SSD算法的交通障碍检测方法,包括:基于VGG‑16基础网络构建交通障碍检测网络模型;所述交通障碍检测网络模型包括改进后的VGG‑16基础网络、多尺度提取模块、特征融合模块、候选框预设模块、动态检测模块和分类回归模块。本发明将原SSD网络中不同尺度的特征图上根据每个单元格设置的密集先验框改为一组固定数量的可迭代的候选框,并为每个候选框引入一个高维特征,来提高预测精度,减少了检测网络的初始候选框数量,省去了人工预设的密集先验框与复杂的后处理,减轻了检测网络的负担,实现模型候选框的轻量化,提高了模型检测的速度以及对各类不同大小的交通障碍检测的平均精度。

Description

一种基于改进SSD算法的交通障碍检测方法和系统
技术领域
本发明属于人工智能目标检测技术领域,具体涉及一种基于改进SSD算法的交通障碍检测方法和系统。
背景技术
目前我国汽车保有量已达3.07亿辆,超越美国居全球首位,汽车销售额占社会零售总额比重达到10%,随之而来的驾驶安全和驾驶体验成为如今需要解决提升的重点问题。随着深度学习技术、人工智能的崛起和5G网络的普及,高速度、低延时、高并发支持为汽车智能化提供了更好的基础设施。辅助障碍检测功能可以降低驾驶的风险,有效提升驾驶体验,因此,交通障碍检测的研究对于我们而言十分有意义。
随着深度学习的迅猛发展,采用滑动窗口的传统目标检测已经发展为基于深度学习的目标检测。早期的目标检测任务提取特征时,主要采取的方式是人工提取,具有一定的局限性,同时手工特征的性能也趋于饱和。卷积神经网络的广泛应用使得目标检测开启了新的征程,目标检测开始以前所未有的速度快速发展。深度学习时代,目标检测算法根据检测思想的不同通常可以分为两大类别:两阶段(two-stage)检测和一阶段(one-stage)检测。
两阶段检测算法基于提议的候选框,是一个“由粗到细”的过程。首先产生区域候选框,其次提取每个候选框的特征,最后产生位置框并预测对应的类别,特点是精度高但速度慢。一阶段检测算法基于边界框的回归,是一个“一步到位”的过程。一阶段检测网络在产生候选框的同时进行分类和边界框回归,特点是速度快但精度稍低。YOLO将目标检测看作回归问题,将整个图像分割为固定数量的网格单元(如使用 7 × 7 网格),每个单元被看作一个候选框,然后网络检测候选框中是否存在一或多个对象。基于轻量级架构,YOLO的检测速度有很大提升,但是只有一个特征图可用于预测,这不适合预测多种尺寸和宽高比的对象,检测精度远低于两阶段的算法,尤其是对小目标的检测精度不佳。Liu等人提出Single-Shot Mulibox Detector (SSD)检测器,一定程度上解决了YOLO的缺陷。SSD将图像分割为网格单元,但是在每一个网格单元中,可以生成一组不同尺寸和宽高比的锚点框,从而离散化边界框的输出空间。SSD在多个特征图上预测对象,且每一个特征图基于其感受野来检测特定尺寸的对象。但是SSD算法依赖提前预设密集的先验框,在训练阶段根据预测框与真值框的比较(可能是IoU或其他标准)进行正样本的确定,这会产生大量冗余的结果,需要非极大值抑制后处理(NMS)来过滤掉多余的框。
发明内容
解决的技术问题:本发明提出了一种基于改进SSD算法的交通障碍检测方法和系统,有效提高了模型检测的速度以及对各类不同大小的交通障碍检测的平均精度。
技术方案:
一种基于改进SSD算法的交通障碍检测方法,所述交通障碍检测方法包括以下步骤:
S1,获取若干张包含交通障碍的原始图像,对原始图像进行预处理,得到相应的交通障碍样本图像,生成图像数据集,将图像数据集按照预设比例划分成训练集和验证集;
S2,基于VGG-16基础网络构建交通障碍检测网络模型;所述交通障碍检测网络模型包括改进后的VGG-16基础网络、多尺度提取模块、特征融合模块、候选框预设模块、动态检测模块和分类回归模块;
所述改进后的VGG-16基础网络将VGG-16基础网络的全连接层FC6和全连接层FC7转换成3*3的卷积层Conv6和1*1的卷积层Conv7;所述多尺度提取模块包括依次连接在卷积层Conv7之后的卷积层Conv8_2、卷积层Conv9_2、卷积层Conv10_2和卷积层Conv11_2;
所述特征融合模块对改进后的VGG-16基础网络的卷积层Conv1_2、卷积层Conv2_2和卷积层Conv3_3的特征图进行融合,再将融合结果分别与卷积层Conv4_3、卷积层Conv7、卷积层Conv8_2进行融合,得到第一融合特征、第二融合特征和第三融合特征;
所述候选框预设模块用于在第一融合特征、第二融合特征、第三融合特征,以及卷积层Conv9_2、卷积层Conv10_2和卷积层Conv11_2输出的特征图上预设一组初始可迭代的候选框用以表示目标位置;
所述动态检测模块包括高维特征引入单元和若干个动态检测头,高维特征引入单元用于针对每个候选框引入一个与候选框一对一匹配的高维特征,用以表示候选框内所包含对象的深层次的抽象特征信息;所述动态检测头用于将提取出的特征图与候选框进行融合,并通过ROI-Align得到感兴趣区域,再将感兴趣区域与相应的高维特征进行特征交互,输出对象特征至分类回归模块进行分类回归;
所述分类回归模块综合所有动态检测头输出特征的分类回归结果,得到最终的预测结果;
S3,采用图像数据集训练交通障碍检测网络模型;其中,将训练集作为输入,分类和回归结果作为输出,结合损失函数对交通障碍检测网络模型进行训练;
S4,将测试集输入训练完成的交通障碍检测网络模型,得到测试集的目标检测结果。
进一步地,步骤S1中,对原始图像进行预处理的过程包括以下步骤:
S11,获取开源数据集,从中找出包含行人、障碍物的原始图像,对原始图像进行包括随机旋转、随机裁剪在内的数据增强处理;
S12,针对各个数据增强处理后的原始图像,按照预先设置的尺寸,对各个原始图像的像素和大小进行统一设置,得到包含目标物体的有效图像;
S13,针对包含目标物体的有效图像,使用图片标注工具标注出行人和障碍物的目标检测边界框的大小和位置,再对目标检测边界框的障碍物类别进行标注,得到交通障碍样本图像。
进一步地,所述特征融合模块包括依次连接的第一融合单元、第二融合单元和降维单元;
所述第一融合单元对卷积层Conv1_2、卷积层Conv2_2和卷积层Conv3_3输出的特征图降维至相同深度后进行融合;降维后的深度与卷积层Conv4_3的深度相同;
所述第二融合单元将第一融合单元的融合结果分别与卷积层Conv4_3、卷积层Conv7、卷积层Conv8_2进行融合或者降维融合;
所述降维单元包括三个并联的3*3卷积层,与第二融合单元输出的三个特征图一一对应,对第二融合单元输出的三个特征图进行降维处理,得到保有原有卷积层Conv4_3、卷积层Conv7、卷积层Conv8_2相应深度的第一融合特征、第二融合特征和第三融合特征。
进一步地,在交通障碍检测网络模型中,单次降采样结构先进行1次step为1,filter为3×3的卷积处理,对细节特征进行总结,再使用step为2的跨步卷积来降低特征融合的冗余,最后进行一次批正则化操作。
进一步地,所述候选框采用四维向量(x,y,h,w)表示,x,y分别表示归一化后的候选框的中心点横坐标和纵坐标,h表示候选框的高度,w表示候选框的宽度。
进一步地,所述动态检测头包括感兴趣区域池化组件、自注意力机制组件和特征交互组件;
所述感兴趣区域池化组件将提取出的特征图与候选框进行融合,并通过ROI-Align得到感兴趣区域;
所述自注意力机制组件在与候选框一一对应的高维特征的特征集中引入自注意力模块,对检测目标的关系进行梳理,加强特征信息之间的联系;
所述特征交互组件用于感兴趣区域和梳理后的高维特征进行特征交互,输出对象特征。
进一步地,所述分类回归模块得到最终的预测结果的过程包括以下步骤:
基于对象特征,通过全连接层对物体进行回归和分类;
将对象特征和回归结果作为下一阶段动态检测头的高维特征和感兴趣区域继续检测,不断迭代修正结果,直至网络收敛,预测和分类识别结果;
使用匈牙利算法对最后一轮迭代的回归和分类结果进行处理,将预测框与真实框之间建立二分图匹配,得到最终的预测结果。
进一步地,步骤S3中,所述损失函数为:
Figure 744020DEST_PATH_IMAGE001
其中
Figure 548028DEST_PATH_IMAGE002
Figure 119692DEST_PATH_IMAGE003
Figure 995244DEST_PATH_IMAGE004
分别代表各个损失所占的权重;
Figure 227642DEST_PATH_IMAGE005
代表分类损 失:
Figure 343497DEST_PATH_IMAGE006
式中,
Figure 497398DEST_PATH_IMAGE007
取值范围是(0,1),用来控制正负样本失衡问题,
Figure 442220DEST_PATH_IMAGE008
取值范围是(0,1), 反映了预测值与真实值得接近程度;
Figure 637447DEST_PATH_IMAGE009
为可调节因子,使focal loss小于标准交叉熵 损失,控制简单/难分辨样本失衡,使得损失函数更加专注于难分辨样本;
Figure 48837DEST_PATH_IMAGE010
代表平均绝对误差MAE,是真实值与预测值之差绝对值的均值,表示预 测值的平均误差幅度,不需要考虑误差的方向:
Figure 345826DEST_PATH_IMAGE011
Figure 313913DEST_PATH_IMAGE012
代表广义的IoU损失:
Figure 114379DEST_PATH_IMAGE013
Figure 696670DEST_PATH_IMAGE014
Figure 464644DEST_PATH_IMAGE015
式中,C为包含A和B的闭包,
Figure 892214DEST_PATH_IMAGE016
即等价于C-(A∪B)。
本发明还公开了一种基于改进SSD算法的交通障碍检测系统,所述交通障碍检测系统包括数据集生成模块、交通障碍检测网络模型和交通障碍检测网络模型构建模块;
所述数据集生成模块用于获取若干张包含交通障碍的原始图像,对原始图像进行预处理,得到相应的交通障碍样本图像,生成图像数据集,将图像数据集按照预设比例划分成训练集和验证集;
所述交通障碍检测网络模型构建模块用于基于VGG-16基础网络构建交通障碍检测网络模型;
所述交通障碍检测网络模型包括改进后的VGG-16基础网络、多尺度提取模块、特征融合模块、候选框预设模块、动态交互检测模块和分类回归模块;
所述改进后的VGG-16网络将VGG-16基础网络的全连接层FC6和全连接层FC7转换成3*3的卷积层Conv6和1*1的卷积层Conv7;所述多尺度提取模块包括依次连接在卷积层Conv7之后的卷积层Conv8_2、卷积层Conv9_2、卷积层Conv10_2和卷积层Conv11_2;
所述特征融合模块对改进后的VGG-16基础网络的卷积层Conv1_2、卷积层Conv2_2和卷积层Conv3_3的特征图进行融合,再将融合结果分别与卷积层Conv4_3、卷积层Conv7、卷积层Conv8_2进行融合,得到第一融合特征、第二融合特征和第三融合特征;
所述候选框预设模块用于在第一融合特征、第二融合特征、第三融合特征,以及卷积层Conv9_2、卷积层Conv10_2和卷积层Conv11_2输出的特征图上预设一组初始的可迭代的候选框用以表示目标位置,并分析得到每个候选框的ROI特征;
所述动态检测模块包括高维特征引入单元和若干个动态检测头,高维特征引入单元用于针对每个候选框引入一个与候选框一对一匹配的高维特征,用以表示候选框内所包含对象的深层次的抽象特征信息;所述动态检测头与候选框相对应,用于将候选框的ROI特征与相应的高维特征进行融合后输出至分类回归模块进行分类回归;
所述分类回归模块综合所有动态检测头输出特征的分类回归结果,得到最终的预测结果;
所述交通障碍检测网络模型构建模块还用于采用图像数据集训练和验证交通障碍检测网络模型;其中,将训练集作为输入,分类和回归结果作为输出,结合损失函数对交通障碍检测网络模型进行训练;再将测试集输入训练完成的交通障碍检测网络模型,得到测试集的目标检测结果。
有益效果:
第一,本发明的基于改进SSD算法的交通障碍检测方法和系统,在SSD目标检测算法的基础上,将原模型中不同尺度的特征图 上根据每个单元格设置的密集先验框改为一组固定数量的可迭代的候选框,并为每个候选框分配一个高维向量,以此来提高预测精度,很大程度上减少了检测网络的初始候选框数量,省去了人工预设的先验框与复杂的后处理,减轻了检测网络的负担,实现模型候选框的轻量化。
第二,本发明的基于改进SSD算法的交通障碍检测方法和系统,在辅助卷积层之间加入了多尺度特征融合机制,在不同尺度的特征层之间融合各自的优点。
第三,本发明的基于改进SSD算法的交通障碍检测方法和系统,提高了模型检测的速度以及对各类不同大小的交通障碍检测的平均精度。
附图说明
图1为本发明实施例的基于改进SSD算法的交通障碍检测方法流程图。
图2为本发明实施例的对数据集图像的标注方式示意图。
图3为交通障碍检测网络模型结构示意图。
图4为特征融合方式示意图。
图5是动态检测头的结构示意图。
具体实施方式
下面的实施例可使本专业技术人员更全面地理解本发明,但不以任何方式限制本发明。
参见图1,本实施例公开了一种基于改进SSD算法的交通障碍检测方法,所述交通障碍检测方法包括以下步骤:
S1,获取若干张包含交通障碍的原始图像,对原始图像进行预处理,得到相应的交通障碍样本图像,生成图像数据集,将图像数据集按照预设比例划分成训练集和验证集。
S2,基于VGG-16基础网络构建交通障碍检测网络模型;所述交通障碍检测网络模型包括改进后的VGG-16基础网络、多尺度提取模块、特征融合模块、候选框预设模块、动态检测模块和分类回归模块。
所述改进后的VGG-16基础网络将VGG-16基础网络的全连接层FC6和全连接层FC7转换成3*3的卷积层Conv6和1*1的卷积层Conv7;所述多尺度提取模块包括依次连接在卷积层Conv7之后的卷积层Conv8_2、卷积层Conv9_2、卷积层Conv10_2和卷积层Conv11_2。
所述特征融合模块对改进后的VGG-16基础网络的卷积层Conv1_2、卷积层Conv2_2和卷积层Conv3_3的特征图进行融合,再将融合结果分别与卷积层Conv4_3、卷积层Conv7、卷积层Conv8_2进行融合,得到第一融合特征、第二融合特征和第三融合特征。
所述候选框预设模块用于在第一融合特征、第二融合特征、第三融合特征,以及卷积层Conv9_2、卷积层Conv10_2和卷积层Conv11_2输出的特征图上预设一组初始的可迭代的候选框用以表示目标位置。
所述动态检测模块包括高维特征引入单元和若干个动态交互检测头,高维特征引入单元用于针对每个候选框引入一个与候选框一对一匹配的高维特征(deep feature),用以表示候选框内所包含对象的深层次的抽象特征信息;所述动态检测头用于将提取出的特征图与候选框进行融合,并通过ROI-Align得到感兴趣区域,再将感兴趣区域与相应的高维特征进行特征交互,输出对象特征至分类回归模块进行分类回归。
所述分类回归模块综合所有动态检测头输出特征的分类回归结果,得到最终的预测结果。
S3,采用图像数据集训练交通障碍检测网络模型;其中,将训练集作为输入,分类和回归结果作为输出,结合损失函数对交通障碍检测网络模型进行训练。
S4,将测试集输入训练完成的交通障碍检测网络模型,得到测试集的目标检测结果。
步骤S1中,对交通障碍的数据集进行预处理,得到训练集和测试集的具体实施步骤如下:
步骤A1、在网上获取开源的数据集,并且从中找出包含行人、障碍物的数据集,对数据集里的图像进行随机旋转、随机裁剪等数据增强处理,得到数据增强后的数据集,随后进入步骤A2。
步骤A2、分别针对各个样本图像,按照预先设置的尺寸,对各个样本图像的像素和大小进行统一,设置为300×300,得到预处理后的样本图像,随后进入步骤A3。
步骤A3、如图2所示,针对包含目标物体的有效图像,使用图片标注工具labelimg对数据集图像进行标注,标注出行人和障碍物的目标检测边界框的大小和位置,随后进入步骤A4。图2仅用作示意包含目标物体的有效图像,图中所包含的文字为标注工具labelimg的编辑工具的内容,与本实施例技术内容的阐述无关。
步骤A4、对于包含不同物体的图像集,通过步骤A1和A2处理得到的样本数据集,将它们分为训练集和验证集。
图3为交通障碍检测网络模型结构示意图。如图3所示,在本发明实施例中,步骤S2通过对传统SSD网络的分析,得到改进的SSD网络模型,具体地:
将VGG-16基础网络的全连接层FC6和FC7转换成 3x3 的卷积层 Conv6和 1x1 的卷积层Conv7。对于改进后的VGG-16基础网络提取的特征图,原来的SSD网络是将其分成n×n个网格然后在每个网格上同时获取4或6个先验框,而改进后的VGG-16基础网络是在每层特征图上预设一组初始的可迭代的候选框(candidate boxes),用来表示目标位置,用一个四维向量表示,分别为归一化的中心坐标、高度和宽度(即在原图的比例),候选框的参数将在训练期间使用反向传播算法进行更新。引入一个与候选框一对一匹配的高维特征(deepfeatures),用来表示候选框里所包含对象的深层次的抽象特征信息,比如语义信息、形状、姿势等,防止对象的细节丢失。为每个候选框、高维特征和ROI单独设置一个动态检测头,三者绑定在一起,每个候选框得到的ROI只需要和它对应的高维特征做进一步的融合,无需与图片中其它特征进行全局交互。SSD模型浅层网络输出较大尺寸的特征图,深层网络输出较小的特征图,在SSD网络中加入一个特征融合模块,对VGG16网络结构中的con4_3、fc7、conv8_2层与conv1_2、conv2_2、conv3_3层进行特征融合,对大尺寸的特征图进行降采样,降低模型参数从而最大程度减少网络计算速度的损耗。如图4所示,特征融合模块的工作原理如下:
将大小为300×300的图像输入到改进的SSD主干网络中,通过改进后的VGG-16基础网络提取出各卷积层的特征图。首先将conv1_2、conv2_2、conv3_3层特征图降维至尺寸为38×38的特征图并相互融合。然后将获得的特征分别与con4_3层融合、降维至19×19与fc7等融合、降维至10×10与conv8_2层融合,进行特征复用。对大尺寸的特征图进行降采样,降低模型参数从而最大程度减少网络计算速度的损耗。最后该三层在融合后通过3×3的卷积层将输出特征图的通道降维,保持原有深度。单次降采样结构首先进行1次step为1,filter为3×3的常规卷积,对细节特征进行总结。随后使用step为2的跨步卷积来降低特征融合的冗余。最后进行一次BN操作,稳定网络训练,提高网络学习的收敛速度。在提取出的特征图上预设N(N为100)个可迭代的候选框,用四维向量表示候选框(x,y,h,w),分别表示归一化的中心点坐标和候选框宽度和高度,由此来确定一个候选框,例如将候选框的初始值设置为(0.5, 0.5, 1, 1),就表示最初始的候选框在图片中心,宽高与图片相同。
如图5所示,将提取出的特征图与N个初始候选框进行融合,并通过ROI-Align得到感兴趣区域。在与初始候选框一一对应的高维特征的特征集引入自注意力模块,对检测目标的关系进行梳理,加强特征信息之间的联系,更加有效地利用对象的抽象特征。将高维特征与感兴趣区域一起输入到各自专属的动态检测头中进行特征交互,输出objectfeatures,然后基于object features通过全连接层对物体进行回归和分类。将得到的object features和回归的结果作为下一阶段检测头的高维特征和ROI输入继续检测,不断迭代修正结果,迭代完成后直至网络收敛,得到最后的预测和分类识别结果。使用匈牙利算法将预测框与真实框之间建立二分图匹配,省去冗余的预测框,得到最终的预测结果,计算损失,获得交通障碍检测网络模型。使用测试集对交通障碍检测网络模型进行测试,将测试图片输入到网络中进行识别,得到测试结果,测试完成后对结果进行分析并得出各项评价指标。
训练时采用的损失函数为:
Figure 547186DEST_PATH_IMAGE017
其中
Figure 565958DEST_PATH_IMAGE018
Figure 322692DEST_PATH_IMAGE019
Figure 553953DEST_PATH_IMAGE020
分别代表各个损失所占的权重,可分别设置为0.3、 0.4、0.3;
Figure 329011DEST_PATH_IMAGE005
代表分类损失:
Figure 987526DEST_PATH_IMAGE021
式中,
Figure 730092DEST_PATH_IMAGE022
取值范围是(0,1),用来控制正负样本失衡问题,
Figure 765044DEST_PATH_IMAGE023
取值范围是(0,1),反 映了预测值与真实值得接近程度,即为正样本的概率;
Figure 660187DEST_PATH_IMAGE024
为可调节因子,使focal loss 小于标准交叉熵损失,控制简单/难分辨样本失衡,使得损失函数更加专注于难分辨样本。
Figure 489603DEST_PATH_IMAGE025
代表平均绝对误差MAE,是真实值与预测值之差绝对值的均值,表示预测 值的平均误差幅度,不需要考虑误差的方向:
Figure 142301DEST_PATH_IMAGE026
Figure 856311DEST_PATH_IMAGE027
代表广义的IoU损失:
Figure 215748DEST_PATH_IMAGE028
Figure 340699DEST_PATH_IMAGE029
Figure 418376DEST_PATH_IMAGE030
式中,C为包含A和B的闭包,
Figure 857448DEST_PATH_IMAGE031
即等价于C-(A∪B)。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (9)

1.一种基于改进SSD算法的交通障碍检测方法,其特征在于,所述交通障碍检测方法包括以下步骤:
S1,获取若干张包含交通障碍的原始图像,对原始图像进行预处理,得到相应的交通障碍样本图像,生成图像数据集,将图像数据集按照预设比例划分成训练集和验证集;
S2,基于VGG-16基础网络构建交通障碍检测网络模型;所述交通障碍检测网络模型包括改进后的VGG-16基础网络、多尺度提取模块、特征融合模块、候选框预设模块、动态检测模块和分类回归模块;
所述改进后的VGG-16基础网络将VGG-16基础网络的全连接层FC6和全连接层FC7转换成3*3的卷积层Conv6和1*1的卷积层Conv7;所述多尺度提取模块包括依次连接在卷积层Conv7之后的卷积层Conv8_2、卷积层Conv9_2、卷积层Conv10_2和卷积层Conv11_2;
所述特征融合模块对改进后的VGG-16基础网络的卷积层Conv1_2、卷积层Conv2_2和卷积层Conv3_3的特征图进行融合,再将融合结果分别与卷积层Conv4_3、卷积层Conv7、卷积层Conv8_2进行融合,得到第一融合特征、第二融合特征和第三融合特征;
所述候选框预设模块用于在第一融合特征、第二融合特征、第三融合特征,以及卷积层Conv9_2、卷积层Conv10_2和卷积层Conv11_2输出的特征图上预设一组初始可迭代的候选框用以表示目标位置;
所述动态检测模块包括高维特征引入单元和若干个动态检测头,高维特征引入单元用于针对每个候选框引入一个与候选框一对一匹配的高维特征,用以表示候选框内所包含对象的深层次的抽象特征信息;所述动态检测头用于将提取出的特征图与候选框进行融合,并通过ROI-Align得到感兴趣区域,再将感兴趣区域与相应的高维特征进行特征交互,输出对象特征至分类回归模块进行分类回归;
所述分类回归模块综合所有动态检测头输出特征的分类回归结果,得到最终的预测结果;
S3,采用图像数据集训练交通障碍检测网络模型;其中,将训练集作为输入,分类和回归结果作为输出,结合损失函数对交通障碍检测网络模型进行训练;
S4,将测试集输入训练完成的交通障碍检测网络模型,得到测试集的目标检测结果。
2.根据权利要求1所述的基于改进SSD算法的交通障碍检测方法,其特征在于,步骤S1中,对原始图像进行预处理的过程包括以下步骤:
S11,获取开源数据集,从中找出包含行人、障碍物的原始图像,对原始图像进行包括随机旋转、随机裁剪在内的数据增强处理;
S12,针对各个数据增强处理后的原始图像,按照预先设置的尺寸,对各个原始图像的像素和大小进行统一设置,得到包含目标物体的有效图像;
S13,针对包含目标物体的有效图像,使用图片标注工具标注出行人和障碍物的目标检测边界框的大小和位置,再对目标检测边界框的障碍物类别进行标注,得到交通障碍样本图像。
3.根据权利要求1所述的基于改进SSD算法的交通障碍检测方法,其特征在于,所述特征融合模块包括依次连接的第一融合单元、第二融合单元和降维单元;
所述第一融合单元对卷积层Conv1_2、卷积层Conv2_2和卷积层Conv3_3输出的特征图降维至相同深度后进行融合;降维后的深度与卷积层Conv4_3的深度相同;
所述第二融合单元将第一融合单元的融合结果分别与卷积层Conv4_3、卷积层Conv7、卷积层Conv8_2进行融合或者降维融合;
所述降维单元包括三个并联的3*3卷积层,与第二融合单元输出的三个特征图一一对应,对第二融合单元输出的三个特征图进行降维处理,得到保有原有卷积层Conv4_3、卷积层Conv7、卷积层Conv8_2相应深度的第一融合特征、第二融合特征和第三融合特征。
4.根据权利要求1所述的基于改进SSD算法的交通障碍检测方法,其特征在于,在交通障碍检测网络模型中,单次降采样结构先进行1次step为1,filter为3×3的卷积处理,对细节特征进行总结,再使用step为2的跨步卷积来降低特征融合的冗余,最后进行一次批正则化操作。
5.根据权利要求1所述的基于改进SSD算法的交通障碍检测方法,其特征在于,所述候选框采用四维向量(x,y,h,w)表示,x,y分别表示归一化后的候选框的中心点横坐标和纵坐标,h表示候选框的高度,w表示候选框的宽度。
6.根据权利要求1所述的基于改进SSD算法的交通障碍检测方法,其特征在于,所述动态检测头包括感兴趣区域池化组件、自注意力机制组件和特征交互组件;
所述感兴趣区域池化组件将提取出的特征图与候选框进行融合,并通过ROI-Align得到感兴趣区域;
所述自注意力机制组件在与候选框一一对应的高维特征的特征集中引入自注意力模块,对检测目标的关系进行梳理,加强特征信息之间的联系;
所述特征交互组件用于感兴趣区域和梳理后的高维特征进行特征交互,输出对象特征。
7.根据权利要求1所述的基于改进SSD算法的交通障碍检测方法,其特征在于,所述分类回归模块得到最终的预测结果的过程包括以下步骤:
基于对象特征,通过全连接层对物体进行回归和分类;
将对象特征和回归结果作为下一阶段动态检测头的高维特征和感兴趣区域继续检测,不断迭代修正结果,直至网络收敛,预测和分类识别结果;
使用匈牙利算法对最后一轮迭代的回归和分类结果进行处理,将预测框与真实框之间建立二分图匹配,得到最终的预测结果。
8.根据权利要求1所述的基于改进SSD算法的交通障碍检测方法,其特征在于,步骤S3中,所述损失函数为:
Figure 678829DEST_PATH_IMAGE001
其中
Figure 143440DEST_PATH_IMAGE002
Figure 782232DEST_PATH_IMAGE003
Figure 223446DEST_PATH_IMAGE004
分别代表各个损失所占的权重;
Figure 772239DEST_PATH_IMAGE005
代表分类损失:
Figure 657019DEST_PATH_IMAGE006
式中,
Figure 471522DEST_PATH_IMAGE007
取值范围是(0,1),用来控制正负样本失衡问题,
Figure 529477DEST_PATH_IMAGE008
取值范围是(0,1),反映 了预测值与真实值得接近程度;
Figure 667197DEST_PATH_IMAGE009
为可调节因子,使focal loss小于标准交叉熵损失, 控制简单/难分辨样本失衡,使得损失函数更加专注于难分辨样本;
Figure 503304DEST_PATH_IMAGE010
代表平均绝对误差MAE,是真实值与预测值之差绝对值的均值,表示预测值的 平均误差幅度,不需要考虑误差的方向:
Figure 54371DEST_PATH_IMAGE011
Figure 260224DEST_PATH_IMAGE012
代表广义的IoU损失:
Figure 127817DEST_PATH_IMAGE013
Figure 26503DEST_PATH_IMAGE014
Figure 533708DEST_PATH_IMAGE015
式中,C为包含A和B的闭包,
Figure 402307DEST_PATH_IMAGE016
即等价于C-(A∪B)。
9.一种基于改进SSD算法的交通障碍检测系统,其特征在于,所述交通障碍检测系统包括数据集生成模块、交通障碍检测网络模型和交通障碍检测网络模型构建模块;
所述数据集生成模块用于获取若干张包含交通障碍的原始图像,对原始图像进行预处理,得到相应的交通障碍样本图像,生成图像数据集,将图像数据集按照预设比例划分成训练集和验证集;
所述交通障碍检测网络模型构建模块用于基于VGG-16基础网络构建交通障碍检测网络模型;
所述交通障碍检测网络模型包括改进后的VGG-16基础网络、多尺度提取模块、特征融合模块、候选框预设模块、动态交互检测模块和分类回归模块;
所述改进后的VGG-16网络将VGG-16基础网络的全连接层FC6和全连接层FC7转换成3*3的卷积层Conv6和1*1的卷积层Conv7;所述多尺度提取模块包括依次连接在卷积层Conv7之后的卷积层Conv8_2、卷积层Conv9_2、卷积层Conv10_2和卷积层Conv11_2;
所述特征融合模块对改进后的VGG-16基础网络的卷积层Conv1_2、卷积层Conv2_2和卷积层Conv3_3的特征图进行融合,再将融合结果分别与卷积层Conv4_3、卷积层Conv7、卷积层Conv8_2进行融合,得到第一融合特征、第二融合特征和第三融合特征;
所述候选框预设模块用于在第一融合特征、第二融合特征、第三融合特征,以及卷积层Conv9_2、卷积层Conv10_2和卷积层Conv11_2输出的特征图上预设一组初始的可迭代的候选框用以表示目标位置,并分析得到每个候选框的ROI特征;
所述动态检测模块包括高维特征引入单元和若干个动态检测头,高维特征引入单元用于针对每个候选框引入一个与候选框一对一匹配的高维特征,用以表示候选框内所包含对象的深层次的抽象特征信息;所述动态检测头与候选框相对应,用于将候选框的ROI特征与相应的高维特征进行融合后输出至分类回归模块进行分类回归;
所述分类回归模块综合所有动态检测头输出特征的分类回归结果,得到最终的预测结果;
所述交通障碍检测网络模型构建模块还用于采用图像数据集训练和验证交通障碍检测网络模型;其中,将训练集作为输入,分类和回归结果作为输出,结合损失函数对交通障碍检测网络模型进行训练;再将测试集输入训练完成的交通障碍检测网络模型,得到测试集的目标检测结果。
CN202211180574.2A 2022-09-27 2022-09-27 一种基于改进ssd算法的交通障碍检测方法和系统 Active CN115272665B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211180574.2A CN115272665B (zh) 2022-09-27 2022-09-27 一种基于改进ssd算法的交通障碍检测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211180574.2A CN115272665B (zh) 2022-09-27 2022-09-27 一种基于改进ssd算法的交通障碍检测方法和系统

Publications (2)

Publication Number Publication Date
CN115272665A true CN115272665A (zh) 2022-11-01
CN115272665B CN115272665B (zh) 2023-03-24

Family

ID=83756137

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211180574.2A Active CN115272665B (zh) 2022-09-27 2022-09-27 一种基于改进ssd算法的交通障碍检测方法和系统

Country Status (1)

Country Link
CN (1) CN115272665B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059558A (zh) * 2019-03-15 2019-07-26 江苏大学 一种基于改进ssd网络的果园障碍物实时检测方法
CN111626200A (zh) * 2020-05-26 2020-09-04 北京联合大学 一种基于Libra R-CNN的多尺度目标检测网络和交通标识检测方法
US20210056351A1 (en) * 2018-06-04 2021-02-25 Jiangnan University Multi-scale aware pedestrian detection method based on improved full convolutional network

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210056351A1 (en) * 2018-06-04 2021-02-25 Jiangnan University Multi-scale aware pedestrian detection method based on improved full convolutional network
CN110059558A (zh) * 2019-03-15 2019-07-26 江苏大学 一种基于改进ssd网络的果园障碍物实时检测方法
CN111626200A (zh) * 2020-05-26 2020-09-04 北京联合大学 一种基于Libra R-CNN的多尺度目标检测网络和交通标识检测方法

Also Published As

Publication number Publication date
CN115272665B (zh) 2023-03-24

Similar Documents

Publication Publication Date Title
CN111079674B (zh) 一种基于全局和局部信息融合的目标检测方法
CN114202672A (zh) 一种基于注意力机制的小目标检测方法
EP4099220A1 (en) Processing apparatus, method and storage medium
WO2023030182A1 (zh) 图像生成方法及装置
CN115731533A (zh) 一种基于改进YOLOv5的车载目标检测方法
KR102319468B1 (ko) 딥 러닝 기반 객체 검출 방법 및 장치
CN111353544A (zh) 一种基于改进的Mixed Pooling-YOLOV3目标检测方法
CN115861619A (zh) 一种递归残差双注意力核点卷积网络的机载LiDAR城市点云语义分割方法与系统
CN113052184A (zh) 一种基于两阶段局部特征对齐的目标检测方法
CN112861970A (zh) 一种基于特征融合的细粒度图像分类方法
CN110909656B (zh) 一种雷达与摄像机融合的行人检测方法和系统
CN114170230B (zh) 基于可变形卷积与特征融合的玻璃缺陷检测方法与装置
CN114842478A (zh) 文本区域的识别方法、装置、设备及存储介质
CN112785610B (zh) 一种融合低层特征的车道线语义分割方法
CN113487610A (zh) 疱疹图像识别方法、装置、计算机设备和存储介质
CN115272665B (zh) 一种基于改进ssd算法的交通障碍检测方法和系统
CN116597411A (zh) 极端天气下无人驾驶车辆识别交通标志的方法及系统
CN115761667A (zh) 一种基于改进fcos算法的无人车辆搭载摄像头目标检测方法
Guo et al. ANMS: attention-based non-maximum suppression
CN114419313A (zh) 影像辨识方法及影像辨识系统
CN112418358A (zh) 一种强化深度融合网络的车辆多属性分类方法
CN111008997A (zh) 一种车辆检测与跟踪一体化方法
Guan et al. Design of license plate recognition system based on capsule network
Wang et al. Attentional single-shot network with multi-scale feature fusion for object detection in aerial images
CN113657214B (zh) 一种基于Mask RCNN的建筑损伤评估方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant