CN115272665A

CN115272665A - 一种基于改进ssd算法的交通障碍检测方法和系统

Info

Publication number: CN115272665A
Application number: CN202211180574.2A
Authority: CN
Inventors: 夏景明; 戴如晨; 谈玲
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2022-09-27
Filing date: 2022-09-27
Publication date: 2022-11-01
Anticipated expiration: 2042-09-27
Also published as: CN115272665B

Abstract

本发明公开了一种基于改进SSD算法的交通障碍检测方法，包括：基于VGG‑16基础网络构建交通障碍检测网络模型；所述交通障碍检测网络模型包括改进后的VGG‑16基础网络、多尺度提取模块、特征融合模块、候选框预设模块、动态检测模块和分类回归模块。本发明将原SSD网络中不同尺度的特征图上根据每个单元格设置的密集先验框改为一组固定数量的可迭代的候选框，并为每个候选框引入一个高维特征，来提高预测精度，减少了检测网络的初始候选框数量，省去了人工预设的密集先验框与复杂的后处理，减轻了检测网络的负担，实现模型候选框的轻量化，提高了模型检测的速度以及对各类不同大小的交通障碍检测的平均精度。

Description

一种基于改进SSD算法的交通障碍检测方法和系统

技术领域

本发明属于人工智能目标检测技术领域，具体涉及一种基于改进SSD算法的交通障碍检测方法和系统。

背景技术

目前我国汽车保有量已达3.07亿辆，超越美国居全球首位，汽车销售额占社会零售总额比重达到10%，随之而来的驾驶安全和驾驶体验成为如今需要解决提升的重点问题。随着深度学习技术、人工智能的崛起和5G网络的普及，高速度、低延时、高并发支持为汽车智能化提供了更好的基础设施。辅助障碍检测功能可以降低驾驶的风险，有效提升驾驶体验，因此，交通障碍检测的研究对于我们而言十分有意义。

随着深度学习的迅猛发展，采用滑动窗口的传统目标检测已经发展为基于深度学习的目标检测。早期的目标检测任务提取特征时，主要采取的方式是人工提取，具有一定的局限性，同时手工特征的性能也趋于饱和。卷积神经网络的广泛应用使得目标检测开启了新的征程，目标检测开始以前所未有的速度快速发展。深度学习时代，目标检测算法根据检测思想的不同通常可以分为两大类别：两阶段（two-stage）检测和一阶段（one-stage）检测。

两阶段检测算法基于提议的候选框，是一个“由粗到细”的过程。首先产生区域候选框，其次提取每个候选框的特征，最后产生位置框并预测对应的类别，特点是精度高但速度慢。一阶段检测算法基于边界框的回归，是一个“一步到位”的过程。一阶段检测网络在产生候选框的同时进行分类和边界框回归，特点是速度快但精度稍低。YOLO将目标检测看作回归问题，将整个图像分割为固定数量的网格单元（如使用 7 × 7 网格），每个单元被看作一个候选框，然后网络检测候选框中是否存在一或多个对象。基于轻量级架构，YOLO的检测速度有很大提升，但是只有一个特征图可用于预测，这不适合预测多种尺寸和宽高比的对象，检测精度远低于两阶段的算法，尤其是对小目标的检测精度不佳。Liu等人提出Single-Shot Mulibox Detector (SSD)检测器，一定程度上解决了YOLO的缺陷。SSD将图像分割为网格单元，但是在每一个网格单元中，可以生成一组不同尺寸和宽高比的锚点框，从而离散化边界框的输出空间。SSD在多个特征图上预测对象，且每一个特征图基于其感受野来检测特定尺寸的对象。但是SSD算法依赖提前预设密集的先验框，在训练阶段根据预测框与真值框的比较（可能是IoU或其他标准）进行正样本的确定，这会产生大量冗余的结果，需要非极大值抑制后处理(NMS)来过滤掉多余的框。

发明内容

解决的技术问题：本发明提出了一种基于改进SSD算法的交通障碍检测方法和系统，有效提高了模型检测的速度以及对各类不同大小的交通障碍检测的平均精度。

技术方案：

一种基于改进SSD算法的交通障碍检测方法，所述交通障碍检测方法包括以下步骤：

S1，获取若干张包含交通障碍的原始图像，对原始图像进行预处理，得到相应的交通障碍样本图像，生成图像数据集，将图像数据集按照预设比例划分成训练集和验证集；

S2，基于VGG-16基础网络构建交通障碍检测网络模型；所述交通障碍检测网络模型包括改进后的VGG-16基础网络、多尺度提取模块、特征融合模块、候选框预设模块、动态检测模块和分类回归模块；

所述改进后的VGG-16基础网络将VGG-16基础网络的全连接层FC6和全连接层FC7转换成3*3的卷积层Conv6和1*1的卷积层Conv7；所述多尺度提取模块包括依次连接在卷积层Conv7之后的卷积层Conv8_2、卷积层Conv9_2、卷积层Conv10_2和卷积层Conv11_2；

所述特征融合模块对改进后的VGG-16基础网络的卷积层Conv1_2、卷积层Conv2_2和卷积层Conv3_3的特征图进行融合，再将融合结果分别与卷积层Conv4_3、卷积层Conv7、卷积层Conv8_2进行融合，得到第一融合特征、第二融合特征和第三融合特征；

所述候选框预设模块用于在第一融合特征、第二融合特征、第三融合特征，以及卷积层Conv9_2、卷积层Conv10_2和卷积层Conv11_2输出的特征图上预设一组初始可迭代的候选框用以表示目标位置；

所述动态检测模块包括高维特征引入单元和若干个动态检测头，高维特征引入单元用于针对每个候选框引入一个与候选框一对一匹配的高维特征，用以表示候选框内所包含对象的深层次的抽象特征信息；所述动态检测头用于将提取出的特征图与候选框进行融合，并通过ROI-Align得到感兴趣区域，再将感兴趣区域与相应的高维特征进行特征交互，输出对象特征至分类回归模块进行分类回归；

所述分类回归模块综合所有动态检测头输出特征的分类回归结果，得到最终的预测结果；

S3，采用图像数据集训练交通障碍检测网络模型；其中，将训练集作为输入，分类和回归结果作为输出，结合损失函数对交通障碍检测网络模型进行训练；

S4，将测试集输入训练完成的交通障碍检测网络模型，得到测试集的目标检测结果。

进一步地，步骤S1中，对原始图像进行预处理的过程包括以下步骤：

S11，获取开源数据集，从中找出包含行人、障碍物的原始图像，对原始图像进行包括随机旋转、随机裁剪在内的数据增强处理；

S12，针对各个数据增强处理后的原始图像，按照预先设置的尺寸，对各个原始图像的像素和大小进行统一设置，得到包含目标物体的有效图像；

S13，针对包含目标物体的有效图像，使用图片标注工具标注出行人和障碍物的目标检测边界框的大小和位置，再对目标检测边界框的障碍物类别进行标注，得到交通障碍样本图像。

进一步地，所述特征融合模块包括依次连接的第一融合单元、第二融合单元和降维单元；

所述第一融合单元对卷积层Conv1_2、卷积层Conv2_2和卷积层Conv3_3输出的特征图降维至相同深度后进行融合；降维后的深度与卷积层Conv4_3的深度相同；

所述第二融合单元将第一融合单元的融合结果分别与卷积层Conv4_3、卷积层Conv7、卷积层Conv8_2进行融合或者降维融合；

所述降维单元包括三个并联的3*3卷积层，与第二融合单元输出的三个特征图一一对应，对第二融合单元输出的三个特征图进行降维处理，得到保有原有卷积层Conv4_3、卷积层Conv7、卷积层Conv8_2相应深度的第一融合特征、第二融合特征和第三融合特征。

进一步地，在交通障碍检测网络模型中，单次降采样结构先进行1次step为1，filter为3×3的卷积处理，对细节特征进行总结，再使用step为2的跨步卷积来降低特征融合的冗余，最后进行一次批正则化操作。

进一步地，所述候选框采用四维向量(x,y,h,w)表示，x,y分别表示归一化后的候选框的中心点横坐标和纵坐标，h表示候选框的高度，w表示候选框的宽度。

进一步地，所述动态检测头包括感兴趣区域池化组件、自注意力机制组件和特征交互组件；

所述感兴趣区域池化组件将提取出的特征图与候选框进行融合，并通过ROI-Align得到感兴趣区域；

所述自注意力机制组件在与候选框一一对应的高维特征的特征集中引入自注意力模块，对检测目标的关系进行梳理，加强特征信息之间的联系；

所述特征交互组件用于感兴趣区域和梳理后的高维特征进行特征交互，输出对象特征。

进一步地，所述分类回归模块得到最终的预测结果的过程包括以下步骤：

基于对象特征，通过全连接层对物体进行回归和分类；

将对象特征和回归结果作为下一阶段动态检测头的高维特征和感兴趣区域继续检测，不断迭代修正结果，直至网络收敛，预测和分类识别结果；

使用匈牙利算法对最后一轮迭代的回归和分类结果进行处理，将预测框与真实框之间建立二分图匹配，得到最终的预测结果。

进一步地，步骤S3中，所述损失函数为：

其中

、

、

分别代表各个损失所占的权重；

代表分类损失：

式中，

取值范围是(0,1)，用来控制正负样本失衡问题，

取值范围是(0,1)，反映了预测值与真实值得接近程度；

为可调节因子，使focal loss小于标准交叉熵损失，控制简单/难分辨样本失衡，使得损失函数更加专注于难分辨样本；

代表平均绝对误差MAE，是真实值与预测值之差绝对值的均值，表示预测值的平均误差幅度，不需要考虑误差的方向：

；

代表广义的IoU损失：

式中，C为包含A和B的闭包，

即等价于C-(A∪B)。

本发明还公开了一种基于改进SSD算法的交通障碍检测系统，所述交通障碍检测系统包括数据集生成模块、交通障碍检测网络模型和交通障碍检测网络模型构建模块；

所述数据集生成模块用于获取若干张包含交通障碍的原始图像，对原始图像进行预处理，得到相应的交通障碍样本图像，生成图像数据集，将图像数据集按照预设比例划分成训练集和验证集；

所述交通障碍检测网络模型构建模块用于基于VGG-16基础网络构建交通障碍检测网络模型；

所述交通障碍检测网络模型包括改进后的VGG-16基础网络、多尺度提取模块、特征融合模块、候选框预设模块、动态交互检测模块和分类回归模块；

所述改进后的VGG-16网络将VGG-16基础网络的全连接层FC6和全连接层FC7转换成3*3的卷积层Conv6和1*1的卷积层Conv7；所述多尺度提取模块包括依次连接在卷积层Conv7之后的卷积层Conv8_2、卷积层Conv9_2、卷积层Conv10_2和卷积层Conv11_2；

所述候选框预设模块用于在第一融合特征、第二融合特征、第三融合特征，以及卷积层Conv9_2、卷积层Conv10_2和卷积层Conv11_2输出的特征图上预设一组初始的可迭代的候选框用以表示目标位置，并分析得到每个候选框的ROI特征；

所述动态检测模块包括高维特征引入单元和若干个动态检测头，高维特征引入单元用于针对每个候选框引入一个与候选框一对一匹配的高维特征，用以表示候选框内所包含对象的深层次的抽象特征信息；所述动态检测头与候选框相对应，用于将候选框的ROI特征与相应的高维特征进行融合后输出至分类回归模块进行分类回归；

所述交通障碍检测网络模型构建模块还用于采用图像数据集训练和验证交通障碍检测网络模型；其中，将训练集作为输入，分类和回归结果作为输出，结合损失函数对交通障碍检测网络模型进行训练；再将测试集输入训练完成的交通障碍检测网络模型，得到测试集的目标检测结果。

有益效果：

第一，本发明的基于改进SSD算法的交通障碍检测方法和系统，在SSD目标检测算法的基础上，将原模型中不同尺度的特征图上根据每个单元格设置的密集先验框改为一组固定数量的可迭代的候选框，并为每个候选框分配一个高维向量，以此来提高预测精度，很大程度上减少了检测网络的初始候选框数量，省去了人工预设的先验框与复杂的后处理，减轻了检测网络的负担，实现模型候选框的轻量化。

第二，本发明的基于改进SSD算法的交通障碍检测方法和系统，在辅助卷积层之间加入了多尺度特征融合机制，在不同尺度的特征层之间融合各自的优点。

第三，本发明的基于改进SSD算法的交通障碍检测方法和系统，提高了模型检测的速度以及对各类不同大小的交通障碍检测的平均精度。

附图说明

图1为本发明实施例的基于改进SSD算法的交通障碍检测方法流程图。

图2为本发明实施例的对数据集图像的标注方式示意图。

图3为交通障碍检测网络模型结构示意图。

图4为特征融合方式示意图。

图5是动态检测头的结构示意图。

具体实施方式

下面的实施例可使本专业技术人员更全面地理解本发明，但不以任何方式限制本发明。

参见图1，本实施例公开了一种基于改进SSD算法的交通障碍检测方法，所述交通障碍检测方法包括以下步骤：

S1，获取若干张包含交通障碍的原始图像，对原始图像进行预处理，得到相应的交通障碍样本图像，生成图像数据集，将图像数据集按照预设比例划分成训练集和验证集。

S2，基于VGG-16基础网络构建交通障碍检测网络模型；所述交通障碍检测网络模型包括改进后的VGG-16基础网络、多尺度提取模块、特征融合模块、候选框预设模块、动态检测模块和分类回归模块。

所述改进后的VGG-16基础网络将VGG-16基础网络的全连接层FC6和全连接层FC7转换成3*3的卷积层Conv6和1*1的卷积层Conv7；所述多尺度提取模块包括依次连接在卷积层Conv7之后的卷积层Conv8_2、卷积层Conv9_2、卷积层Conv10_2和卷积层Conv11_2。

所述特征融合模块对改进后的VGG-16基础网络的卷积层Conv1_2、卷积层Conv2_2和卷积层Conv3_3的特征图进行融合，再将融合结果分别与卷积层Conv4_3、卷积层Conv7、卷积层Conv8_2进行融合，得到第一融合特征、第二融合特征和第三融合特征。

所述候选框预设模块用于在第一融合特征、第二融合特征、第三融合特征，以及卷积层Conv9_2、卷积层Conv10_2和卷积层Conv11_2输出的特征图上预设一组初始的可迭代的候选框用以表示目标位置。

所述动态检测模块包括高维特征引入单元和若干个动态交互检测头，高维特征引入单元用于针对每个候选框引入一个与候选框一对一匹配的高维特征（deep feature），用以表示候选框内所包含对象的深层次的抽象特征信息；所述动态检测头用于将提取出的特征图与候选框进行融合，并通过ROI-Align得到感兴趣区域，再将感兴趣区域与相应的高维特征进行特征交互，输出对象特征至分类回归模块进行分类回归。

所述分类回归模块综合所有动态检测头输出特征的分类回归结果，得到最终的预测结果。

S3，采用图像数据集训练交通障碍检测网络模型；其中，将训练集作为输入，分类和回归结果作为输出，结合损失函数对交通障碍检测网络模型进行训练。

步骤S1中，对交通障碍的数据集进行预处理，得到训练集和测试集的具体实施步骤如下：

步骤A1、在网上获取开源的数据集，并且从中找出包含行人、障碍物的数据集，对数据集里的图像进行随机旋转、随机裁剪等数据增强处理，得到数据增强后的数据集，随后进入步骤A2。

步骤A2、分别针对各个样本图像，按照预先设置的尺寸，对各个样本图像的像素和大小进行统一，设置为300×300，得到预处理后的样本图像，随后进入步骤A3。

步骤A3、如图2所示，针对包含目标物体的有效图像，使用图片标注工具labelimg对数据集图像进行标注，标注出行人和障碍物的目标检测边界框的大小和位置，随后进入步骤A4。图2仅用作示意包含目标物体的有效图像，图中所包含的文字为标注工具labelimg的编辑工具的内容，与本实施例技术内容的阐述无关。

步骤A4、对于包含不同物体的图像集，通过步骤A1和A2处理得到的样本数据集，将它们分为训练集和验证集。

图3为交通障碍检测网络模型结构示意图。如图3所示，在本发明实施例中，步骤S2通过对传统SSD网络的分析，得到改进的SSD网络模型，具体地：

将VGG-16基础网络的全连接层FC6和FC7转换成 3x3 的卷积层 Conv6和 1x1 的卷积层Conv7。对于改进后的VGG-16基础网络提取的特征图，原来的SSD网络是将其分成n×n个网格然后在每个网格上同时获取4或6个先验框，而改进后的VGG-16基础网络是在每层特征图上预设一组初始的可迭代的候选框（candidate boxes），用来表示目标位置，用一个四维向量表示，分别为归一化的中心坐标、高度和宽度（即在原图的比例），候选框的参数将在训练期间使用反向传播算法进行更新。引入一个与候选框一对一匹配的高维特征（deepfeatures），用来表示候选框里所包含对象的深层次的抽象特征信息，比如语义信息、形状、姿势等，防止对象的细节丢失。为每个候选框、高维特征和ROI单独设置一个动态检测头，三者绑定在一起，每个候选框得到的ROI只需要和它对应的高维特征做进一步的融合，无需与图片中其它特征进行全局交互。SSD模型浅层网络输出较大尺寸的特征图，深层网络输出较小的特征图，在SSD网络中加入一个特征融合模块，对VGG16网络结构中的con4_3、fc7、conv8_2层与conv1_2、conv2_2、conv3_3层进行特征融合，对大尺寸的特征图进行降采样，降低模型参数从而最大程度减少网络计算速度的损耗。如图4所示，特征融合模块的工作原理如下：

将大小为300×300的图像输入到改进的SSD主干网络中，通过改进后的VGG-16基础网络提取出各卷积层的特征图。首先将conv1_2、conv2_2、conv3_3层特征图降维至尺寸为38×38的特征图并相互融合。然后将获得的特征分别与con4_3层融合、降维至19×19与fc7等融合、降维至10×10与conv8_2层融合，进行特征复用。对大尺寸的特征图进行降采样，降低模型参数从而最大程度减少网络计算速度的损耗。最后该三层在融合后通过3×3的卷积层将输出特征图的通道降维，保持原有深度。单次降采样结构首先进行1次step为1，filter为3×3的常规卷积，对细节特征进行总结。随后使用step为2的跨步卷积来降低特征融合的冗余。最后进行一次BN操作，稳定网络训练，提高网络学习的收敛速度。在提取出的特征图上预设N(N为100)个可迭代的候选框，用四维向量表示候选框(x,y,h,w)，分别表示归一化的中心点坐标和候选框宽度和高度，由此来确定一个候选框，例如将候选框的初始值设置为(0.5, 0.5, 1, 1)，就表示最初始的候选框在图片中心，宽高与图片相同。

如图5所示，将提取出的特征图与N个初始候选框进行融合，并通过ROI-Align得到感兴趣区域。在与初始候选框一一对应的高维特征的特征集引入自注意力模块，对检测目标的关系进行梳理，加强特征信息之间的联系，更加有效地利用对象的抽象特征。将高维特征与感兴趣区域一起输入到各自专属的动态检测头中进行特征交互，输出objectfeatures，然后基于object features通过全连接层对物体进行回归和分类。将得到的object features和回归的结果作为下一阶段检测头的高维特征和ROI输入继续检测，不断迭代修正结果，迭代完成后直至网络收敛，得到最后的预测和分类识别结果。使用匈牙利算法将预测框与真实框之间建立二分图匹配，省去冗余的预测框，得到最终的预测结果，计算损失，获得交通障碍检测网络模型。使用测试集对交通障碍检测网络模型进行测试，将测试图片输入到网络中进行识别，得到测试结果，测试完成后对结果进行分析并得出各项评价指标。

训练时采用的损失函数为：

其中

、

、

分别代表各个损失所占的权重，可分别设置为0.3、 0.4、0.3；

代表分类损失：

式中，

取值范围是(0,1)，用来控制正负样本失衡问题，

取值范围是(0,1)，反映了预测值与真实值得接近程度，即为正样本的概率；

为可调节因子，使focal loss 小于标准交叉熵损失，控制简单/难分辨样本失衡，使得损失函数更加专注于难分辨样本。

。

代表广义的IoU损失：

式中，C为包含A和B的闭包，

即等价于C-(A∪B)。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。