CN115457274A

CN115457274A - 一种基于深度学习的车载视角遮挡目标检测方法及装置

Info

Publication number: CN115457274A
Application number: CN202211126875.7A
Authority: CN
Inventors: 金立生; 李欣蔚; 贺阳; 石业玮; 张哲�; 谢宪毅; 郭柏苍
Original assignee: Yanshan University
Current assignee: Yanshan University
Priority date: 2022-09-16
Filing date: 2022-09-16
Publication date: 2022-12-09

Abstract

本申请提供一种基于深度学习的车载视角遮挡目标检测方法及装置，该方法包括：获取待检测图像；将待检测图像输入遮挡检测模型，得到目标检测框、类别和遮挡置信度；其中，遮挡检测模型采用改进的SSD网络，改进的SSD网络包括残差块。该方案在遮挡工况下能够达到较好的检测效果。

Description

一种基于深度学习的车载视角遮挡目标检测方法及装置

技术领域

本发明属于智能交通技术领域，特别涉及一种基于深度学习的车载视角遮挡目标检测方法及装置。

背景技术

智能汽车由于能在驾驶过程中辅助或代替驾驶员驾驶，减少或避免驾驶员操作不当，从而降低事故的发生率，已成为当前汽车行业发展的重要方向。智能汽车研究主要分为环境感知、规划决策、控制执行三大模块，其中环境感知是智能驾驶安全行驶的前提，也是整个系统中至关重要的一环，可为智能汽车驾驶提供本车及其周围障碍物的位置信息、本车与周围其他车辆等障碍物的相对距离和相对速度等信息，进而为各种控制决策模块提供依据以实现车辆的自动驾驶。环境感知是智能驾驶实现避障、定位和路径规划等高级智能行为的前提条件和基础。环境感知包括目标检测、场景语义分割、实例分割、多传感器融合、多目标跟踪以及轨迹预测等研究方向，其中目标检测作为解决更复杂和更高级别的视觉任务(例如事件检测、活动识别、物体分割、场景理解、目标跟踪等)的基础，对于提高交通场景事件检测的正确率具有重要的研究意义。另一方面，由于车载摄像头的普及，越来越多的道路图像信息在不断地产生，图像处理算法特别是目标检测算法成为智能驾驶的重要组成部分。近年来，目标检测算法发展迅速，已从传统基于滑动窗口的区域选择策略、利用手工设计的特征的目标检测算法发展为基于深度学习的目标检测算法。随着不同算法的提出，使得分类和回归预测精度不断提升，实时性也在不断提高。但是，在复杂的交通环境(遮挡工况、多目标工况、小目标、目标多尺度、恶劣天气、暗光条件)特别是遮挡工况下，存在的大量未知遮挡及遮挡程度不同等问题，使检测的效果大幅下降，难以对目标进行有效的检测。

现有对遮挡工况下目标检测的算法的研究除了进行数据增强，还包括两种类别：一个是改进基于整体特征的检测算法，另一个是改进基于部分语义的检测算法。虽然现有的方法基于不同技术在遮挡目标检测方面取得了进步，但仍存在一些问题亟待解决和优化，例如，遮挡目标由于遮挡影响了目标的特征提取导致检测器无法正确判断；检测器难以学习到无穷尽的遮挡情况等。

发明内容

本说明书实施例的目的是提供一种基于深度学习的车载视角遮挡目标检测方法及装置。

为解决上述技术问题，本申请实施例通过以下方式实现的：

第一方面，本申请提供一种基于深度学习的车载视角遮挡目标检测方法，该方法包括：

获取待检测图像；

将待检测图像输入遮挡检测模型，得到目标检测框、类别和遮挡置信度；其中，遮挡检测模型采用改进的SSD网络，改进的SSD网络包括残差块。

在其中一个实施例中，改进的SSD网络包括骨干网络，骨干网络包括若干预测层，每个预测层连接有残差块。

在其中一个实施例中，改进的SSD网络还包括检测头和组合神经网络；

组合神经网络连接于骨干网络和检测头之间。

在其中一个实施例中，该方法还包括：

骨干网络输出的特征图输入至组合神经网络，得到特征图中目标的分类分数。在其中一个实施例中，改进的SSD网络的损失函数采用EIoU回归损失函数；

EIoU回归损失函数包括重叠损失、中心距离损失和宽高损失。

在其中一个实施例中，改进的SSD网络的非极大值抑制算法采用自适应非极大值抑制算法。

在其中一个实施例中，训练遮挡检测模型采用的目标遮挡数据集包括实时道路车辆及行人遮挡的数据集和/或历史车载视角遮挡目标检测数据集。

第二方面，本申请提供一种基于深度学习的车载视角遮挡目标检测装置，该装置包括：

获取模块，用于获取待检测图像；

处理模块，用于将待检测图像输入遮挡检测模型，得到目标检测框、类别和遮挡置信度；其中，遮挡检测模型采用改进的SSD网络，改进的SSD网络包括残差块。

第三方面，本申请提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现如第一方面的基于深度学习的车载视角遮挡目标检测方法。

第四方面，本申请提供一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面的基于深度学习的车载视角遮挡目标检测方法。

由以上本说明书实施例提供的技术方案可见，该方案基于SSD目标检测进行改进，加入残差块和组合神经网络，并对损失函数和后处理进行优化。改进后的算法不仅提高了精度和计算速度，更在遮挡工况下能够达到更好的检测效果。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的基于深度学习的车载视角遮挡目标检测方法的流程示意图；

图2为本申请提供的改进的SSD网络中骨干网络的结构示意图；

图3为本申请提供的改进的SSD网络的结构示意图；

图4为本申请提供的基于深度学习的车载视角遮挡目标检测装置的结构示意图；

图5为本申请提供的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

在不背离本申请的范围或精神的情况下，可对本申请说明书的具体实施方式做多种改进和变化，这对本领域技术人员而言是显而易见的。由本申请的说明书得到的其他实施方式对技术人员而言是显而易见得的。本申请说明书和实施例仅是示例性的。

关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等，均为开放性的用语，即意指包含但不限于。

本申请中的“份”如无特别说明，均按质量份计。

下面结合附图和实施例对本发明进一步详细说明。

参照图1，其示出了适用于本申请实施例提供的基于深度学习的车载视角遮挡目标检测方法的流程示意图。

如图1所示，基于深度学习的车载视角遮挡目标检测方法，可以包括：

S110、获取待检测图像；待检测图像中包括车辆和/或行人遮挡。

具体的，待检测图像可以为车载相机实时拍摄的真实道路车辆及行人遮挡的交通场景的图像，也可以为存储于存储介质或存储设备、存储服务器中的图像，可以理解的，该存储介质或存储设备、存储服务器可以是独立的存储介质，也可以为电子设备等中的集成部分，在此不做限制。

S120、将待检测图像输入遮挡检测模型，得到目标检测框、类别和遮挡置信度；其中，遮挡检测模型采用改进的SSD(Single Shot Multibox Detector)网络，改进的SSD网络包括残差块。

可以理解的，在待检测图像输入遮挡检测模型前，可以将待检测图像缩放到300×300的大小。

SSD网络包括骨干网络(Backbone)、检测头(Detection head)和NMS(Non-maximumsuppression，非极大值抑制算法)。

其中，Backbone用于从图像中提取特征信息，示例性的，Backbone可以采用VGG16骨干网络。Detection head负责类别预测和位置回归，两个任务常常是并行进行的，构成多任务的损失进行联合训练。NMS用于去除冗余框。

本申请中采用改进的SSD网络，其中改进的SSD网络包括残差块(ResBlock)。

一个实施例中，改进的SSD网络包括骨干网络，骨干网络包括若干预测层，每个预测层连接有残差块。

具体的，如图2所示，在VGG16骨干网络的Conv4_3、Conv5_3、Conv6_2、Conv7_2、Conv8_2、Conv9_2添加ResBlock，使损失函数的梯度不会直接流入骨干网络，从而改进了SSD的卷积预测因子。ResBlock应用1×1卷积核，用于预测类别分数和框偏移量，加入后降低了计算成本，同时提高了检测精度。

ResBlock将上一层输出的特征图作为输入，并分为两通道：第一通道卷积依次为Conv1×1×256、Conv3×3×256、Conv1×1×1024；第二通道卷积为Conv1×1×1024；将两通道卷积结果加和作为该ResBlock输出，得到提取特征图feature map。

示例性的，以Conv4_3为例，ResBlock将上一层输出的特征图作为输入为：将Conv4_2输出的特征图作为输入，第一通道(即为Conv4_3)卷积依次为Conv1×1×256、Conv3×3×256、Conv1×1×1024；第二通道(即为Conv4_3对应的ResBlock)卷积为Conv1×1×1024。

本实施例中，通过添加ResBlock改进了SSD的卷积预测因子，提高了检测精度。

一个实施例中，如图3所示，改进的SSD网络还包括检测头和组合神经网络；

组合神经网络连接于骨干网络和检测头之间。骨干网络输出的特征图输入至组合神经网络，得到特征图中目标的分类分数。

具体为，在SSD网络结构的backbone和detection head之间加入CompositionalNets(组合神经网络)来替换SSD的最后一个全连接分类头。CompositionalNets对部分遮挡对象分类具有较高的鲁棒性，同时能够定位遮挡物并显示遮挡置信度。可以理解的，CompositionalNets是一个可微的复合网络，是将组合模型和深度学习网络相结合。还可以理解的，可以使用反向传播训练组合模型参数；正则化组合模型，使其根据最后一个卷积层的神经特征激活生成CompositionalNets。

骨干网络输出的特征图输入至组合神经网络，得到特征图中目标的分类分数，具体为：

将骨干网络输出的特征图输入到组合神经网络的vMF内核的卷积核{μ_k}，vMF群集中心化{μ_k}将训练数据中经常出现的功能激活，{μ_k}的特征向量通常由外观相似的图像补丁诱导，并通过非线性激活函数N将图像中零件的预期空间激活；对特征图F中每个特征点(也可以简称点)q计算混合概率之和p(F|θ_y)＝∏_qp(f_q|A_q,y,∧)。该和假设物体的三维姿态在图像中近似恒定，其中f_q代表特征图的二维向量、θ_y为模型参数、A_q,y表示在特征图上每个点q的组合模型的参数；∧＝{λ_k＝{σ_k,μ_k}|k＝1,...,K}，σ_k表示归一化参数，k表示组合部件的个数，μ_k表示聚类中心，λ_k表示∧的第k个参数。vMF分布Λ的参数可以通过对所有训练图像的特征向量进行vMF聚类与最大似然参数估计L之间迭代直至收敛来学习；其中，L＝{N(F×μ_k)|k＝1,...,K}∈R^H×W×D，N＝exp(σ_ki_q,k)/Z(σ_k)，

Z(σ_k)表示归一化常数。

将得到的最大似然参数估计L用于遮挡器内核{β_n}计算遮挡似然函数O，

其中l_q表示与遮挡器内核{β_n}相对应的L的转置。

再利用最大似然参数估计L计算混合可能性

其中，m代表锚框数。应用混合概率之和学习到的混合系数

与对应的向量l_q的转置进行内积计算，

遮挡似然函数O和混合可能性

结合起来计算遮挡鲁棒分数

最终的分类分数S_y计算为

并相应地得到遮挡图Z_y。

本实施例中，在SSD网络结构的backbone和detection head之间加入CompositionalNets(组合神经网络)来替换SSD的最后一个全连接分类头，实现针对遮挡工况的优化。

一个实施例中，改进的SSD网络的损失函数采用EIoU回归损失函数；

EIoU回归损失函数包括重叠损失、中心距离损失和宽高损失。

具体的，针对无法反映锚框如何相交的问题，在IoU基础上引入最小化两个边界框bbox中心点的标准化距离，加速收敛过程。

将bbox的纵横比因子加入到重叠损失中考虑，进一步提升回归精度。

宽高损失使预测框和真实框的宽度、高度之差最小，结合Focal Loss，把高质量锚框和低质量锚框分开，惩罚公式如下：

其中，c_w,c_h表示覆盖两个bbox的最小外接框的宽度和高度；γ表示控制异常值抑制程度的参数；b、w、h代表预测框中心点，b^gt、w^gt、h^gt代表真实框的中心点；ρ表示两个中心点间的欧式距离；c表示能够同时包含预测框和真实框的最小闭包区域的对角线距离。

本实施例中，采用EIoU回归损失函数替换Smooth L1 loss，可以加快收敛速度。

一个实施例中，改进的SSD网络的非极大值抑制算法(NMS)采用自适应非极大值抑制算法(Adaptive NMS)。

具体的，N_M＝max(N_t,d_M)；

其中，N_M代表M的抑制阈值，d_M是M的目标密度，N_t代表初始阈值。

当邻框远离M时(即IoU<N_t)，保持s_i不变；当M处于密集区域时(即N_M>N_t)，目标密度d_M作为NMS的抑制阈值；当M处于稀疏区域时(即N_M≤N_t)，初始阈值N_t作为NMS的抑制阈值。

本实施例中，采用Adaptive NMS替换SSD中传统的NMS，通过自适应调整NMS阈值，使待检测目标不密集时，选用较小的NMS阈值；当处于密集遮挡情况时，提高NMS阈值，尽可能多的保留锚框，大大减少了遮挡目标的漏检率。

一个实施例中，训练遮挡检测模型采用的目标遮挡数据集包括实时道路车辆及行人遮挡的数据集和/或历史车载视角遮挡目标检测数据集。

具体的，为了扩充样本数据量，本申请所采用的目标遮挡数据集可以将实时道路车辆及行人遮挡的数据集与历史车载视角遮挡目标检测数据集联合增强。

其中，实时道路车辆及行人遮挡的数据集可以通过车载工业相机拍摄晴天真实道路交通视频，采用LabelImage标注软件对每一帧视频图像进行手工标注得到。可以理解的，可以将目标遮挡数据集按照8：1：1分割数据集为训练集、验证集、测试集。

本申请实施例提供的基于深度学习的车载视角遮挡目标检测方法，基于SSD目标检测进行改进，加入残差块和组合神经网络，并对损失函数和后处理进行优化。改进后的算法不仅提高了精度和计算速度，更在遮挡工况下能够达到更好的检测效果。

参照图4，其示出了根据本申请一个实施例描述的基于深度学习的车载视角遮挡目标检测装置的结构示意图。

如图4所示，基于深度学习的车载视角遮挡目标检测装置400，可以包括：

获取模块410，用于获取待检测图像；

处理模块420，用于将待检测图像输入遮挡检测模型，得到目标检测框、类别和遮挡置信度；其中，遮挡检测模型采用改进的SSD网络，改进的SSD网络包括残差块。

可选的，改进的SSD网络包括骨干网络，骨干网络包括若干预测层，每个预测层连接有残差块。

可选的，改进的SSD网络还包括检测头和组合神经网络；

组合神经网络连接于骨干网络和检测头之间。

可选的，该装置还用于：

骨干网络输出的特征图输入至组合神经网络，得到特征图中目标的分类分数。

可选的，改进的SSD网络的损失函数采用EIoU回归损失函数；

EIoU回归损失函数包括重叠损失、中心距离损失和宽高损失。

可选的，改进的SSD网络的非极大值抑制算法采用自适应非极大值抑制算法。

可选的，训练遮挡检测模型采用的目标遮挡数据集包括实时道路车辆及行人遮挡的数据集和/或历史车载视角遮挡目标检测数据集。

本实施例提供的一种基于深度学习的车载视角遮挡目标检测装置，可以执行上述方法的实施例，其实现原理和技术效果类似，在此不再赘述。

图5为本发明实施例提供的一种电子设备的结构示意图。如图5所示，示出了适于用来实现本申请实施例的电子设备500的结构示意图。

如图5所示，电子设备500包括中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有设备500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口506。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本公开的实施例，上文参考图1描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行上述基于深度学习的车载视角遮挡目标检测方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中。这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、笔记本电脑、行动电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

作为另一方面，本申请还提供了一种存储介质，该存储介质可以是上述实施例中前述装置中所包含的存储介质；也可以是单独存在，未装配入设备中的存储介质。存储介质存储有一个或者一个以上程序，前述程序被一个或者一个以上的处理器用来执行描述于本申请的基于深度学习的车载视角遮挡目标检测方法。

存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

Claims

1.一种基于深度学习的车载视角遮挡目标检测方法，其特征在于，所述方法包括：

获取待检测图像；

将所述待检测图像输入遮挡检测模型，得到目标检测框、类别和遮挡置信度；其中，所述遮挡检测模型采用改进的SSD网络，所述改进的SSD网络包括残差块。

2.根据权利要求1所述的方法，其特征在于，所述改进的SSD网络包括骨干网络，所述骨干网络包括若干预测层，每个所述预测层连接有残差块。

3.根据权利要求2所述的方法，其特征在于，所述改进的SSD网络还包括检测头和组合神经网络；

所述组合神经网络连接于所述骨干网络和所述检测头之间。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

所述骨干网络输出的特征图输入至所述组合神经网络，得到所述特征图中目标的分类分数。

5.根据权利要求1所述的方法，其特征在于，所述改进的SSD网络的损失函数采用EIoU回归损失函数；

所述EIoU回归损失函数包括重叠损失、中心距离损失和宽高损失。

6.根据权利要求1所述的方法，其特征在于，所述改进的SSD网络的非极大值抑制算法采用自适应非极大值抑制算法。

7.根据权利要求1所述的方法，其特征在于，训练所述遮挡检测模型采用的目标遮挡数据集包括实时道路车辆及行人遮挡的数据集和/或历史车载视角遮挡目标检测数据集。

8.一种基于深度学习的车载视角遮挡目标检测装置，其特征在于，所述装置包括：

获取模块，用于获取待检测图像；

处理模块，用于将所述待检测图像输入遮挡检测模型，得到目标检测框、类别和遮挡置信度；其中，所述遮挡检测模型采用改进的SSD网络，所述改进的SSD网络包括残差块。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一所述的基于深度学习的车载视角遮挡目标检测方法。

10.一种可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的基于深度学习的车载视角遮挡目标检测方法。