CN111626349A

CN111626349A - 一种基于深度学习的目标检测方法和系统

Info

Publication number: CN111626349A
Application number: CN202010442301.5A
Authority: CN
Inventors: 付琨; 闫志远; 张晓安; 陈凯强; 赵良瑾; 朱子聪; 李霁豪; 卢宛萱
Original assignee: Aerospace Information Research Institute of CAS
Current assignee: Aerospace Information Research Institute of CAS
Priority date: 2020-05-22
Filing date: 2020-05-22
Publication date: 2020-09-04

Abstract

本发明提供了一种基于深度学习的目标检测方法和系统，包括获：取包括待检测目标的待检图像；将待检图像输入训练完成的骨干网络生成热力图，并确定热力图的边缘信息；基于边缘信息得到预测框；其中，骨干网络的训练基于选择的骨干网络按批次对已识别目标类型和位置信息的图像进行训练并调整后处理过程中所需超参数，超参数包括：输出预测的最大数量和置信度阈值。本发明摒弃原有检测方法中基于预设锚框的检测机制，降低了存储中存在的大量冗余，提高了检测模型的运算效率。

Description

一种基于深度学习的目标检测方法和系统

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于深度学习的目标检测方法和系统。

背景技术

现有目标检测模型大多依赖预设锚框机制，通过在图像上生成大量密集且尺寸不等的预设锚框与目标真实位置匹配，再进一步分类目标并回归其精确位置。该机制既存在大量冗余，也浪费计算资源。另外，其精度严重依赖于预设锚框的长宽比和尺寸，这些超参数的选择视具体数据集中目标大小而定。因此，基于锚框机制的方法大多可移植性差。

发明内容

为克服上述现有技术的不足，本发明提出一种基于深度学习的目标检测方法，其改进之处在于，包括：

获取包括待检测目标的待检图像；

将所述待检图像输入训练完成的骨干网络生成热力图，并确定所述热力图的边缘信息；

基于所述边缘信息得到预测框；

其中，所述骨干网络的训练基于选择的骨干网络按批次对已识别目标类型和位置信息的图像进行训练并调整后处理过程中所需超参数，所述超参数包括：输出预测的最大数量和置信度阈值。

优选的，所述骨干网络的训练包括：

获取已经识别目标类型和位置信息的多个图像，将各图像与图像中目标对应的类型和位置信息构成训练数据集；

按需求选择合适的骨干网络，初始化骨干网络参数，调整后处理过程中模型所需超参数；

将训练数据集按批次输入骨干网络进行训练，基于骨干网络输出热力图的边缘信息，利用损失函数对骨干网络进行训练直到所述骨干网络收敛。

优选的，所述将训练数据集按批次输入骨干网络进行训练，基于骨干网络输出热力图的边缘信息，利用损失函数对骨干网络进行训练直到所述骨干网络收敛，包括：

步骤a1：将训练数据集按批次输入所述骨干网络，得到包含目标上关键点的热力图；

步骤a2：对热力图进行筛选，得到代表热力图中目标的边缘信息的关键候选点；

步骤a3：基于所述关键候选点计算所述目标的位置，并将计算得到位置和训练集中的位置信息输入损失函数，判断所述骨干网络是否收敛：

若收敛，则结束，否则根据梯度下降法动态更新所述骨干网络中各层神经元的权重并转入步骤a1，直到所述骨干网络收敛。

优选的，所述将计算得到位置和训练集中的位置信息输入损失函数，判断所述骨干网络是否收敛，包括：

将计算得到位置和训练集中的位置信息输入像素级焦点损失函数；

判断像素级焦点损失函数的值是否小于预设阈值，或者骨干网络在训练集上达到预期迭代次数，若任一项为是，则所述骨干网络收敛，否则不收敛。

优选的，所述像素级焦点损失函数的计算式如下：

式中，L_fl表示像素级焦点损失函数的值，y表示训练数据集中目标位置信息的标签，y′表示骨干网络根据目标的图像计算的位置的标签，α表示平衡因子，γ表示样本加权因子。

优选的，所述按照训练需求选择骨干网络形式，包括：

当训练需求侧重于检测速度时，选择基于可变形卷积上采样的残差模块系列骨干网络；

当训练要求侧重于精度和速度之间的平衡时，选择基于编解码结构的深度融合骨干网络；

当训练要求侧重于精度时，选择基于残差模块的关键点检测时间沙漏104骨干网络。

优选的，所述将所述待检图像输入训练完成的骨干网络生成热力图，并确定所述热力图的边缘信息，包括：

将所述待检图像输入训练完成的骨干网络，得到包含待测目标上关键点热力图；

对所述热力图进行筛选得到代表待测目标边缘信息关键点关键候选点；

根据代表待测目标边缘信息关键点关键候选点，得到热力图的边缘信息。

优选的，所述对所述热力图进行筛选得到代表待测目标边缘信息关键点关键候选点，包括：

在所述热力图上对每个像素点基于像素点的非极大值抑制算法进行遍历，筛选出初筛候选点；

对所述初筛候选点采用边缘融合算法筛选出能够代表待测目标边缘信息的关键候选点。

优选的，所述基于所述边缘信息得到预测框，包括：

基于所述边缘信息，通过暴力枚举的方法得到待测目标分类结果和多个检测框；

采用幽灵框抑制算法对检测框进行筛选，得到包含待测目标的预测框。

基于同一发明构思，本申请还提供了一种基于深度学习的目标检测系统，其改进之处在于，包括：图像获取模块、热力图模块和预测框模块；

所述图像获取模块，用于获取包括待检测目标的待检图像；

所述热力图模块，用于将所述待检图像输入训练完成的骨干网络生成热力图，并确定所述热力图的边缘信息；

所述预测框模块，用于基于所述边缘信息得到预测框；

与最接近的现有技术相比，本发明具有的有益效果如下：

附图说明

图1为本发明提供的一种基于深度学习的目标检测方法流程示意图；

图2为本发明提供的一个基于深度学习的目标检测方法实施例的流程示意图；

图3为本发明涉及的时间沙漏104网络结构示意图；

图4为本发明涉及的一种基于深度学习的目标检测系统基本结构示意图；

图5为本发明涉及的一种基于深度学习的目标检测系统详细结构示意图。

具体实施方式

下面结合附图对本发明的具体实施方式做进一步的详细说明。

实施例1：

本发明提供的一种基于深度学习的目标检测方法流程示意图如图1所示，包括：

步骤1：获取包括待检测目标的待检图像；

步骤2：将待检图像输入训练完成的骨干网络生成热力图，并确定热力图的边缘信息；

步骤3：基于边缘信息得到预测框；

其中，骨干网络的训练基于选择的骨干网络按批次对已识别目标类型和位置信息的图像进行训练并调整后处理过程中所需超参数，超参数包括：输出预测的最大数量和置信度阈值。

具体的，基于深度学习的目标检测方法包括：

S1：准备训练数据集，按需求选择合适的骨干网络，初始化骨干网络参数，调整后处理过程中模型所需超参数；

S1中，获取已经识别目标类型和位置信息的多个图像，将各图像与图像中目标对应的类型和位置信息构成训练数据集。

S1中，如需求侧重于检测速度可选择基于可变形卷积上采样的残差模块系列骨干网络。可变形卷积引入两个新的模块来增强CNN的变换建模能力，即可变形卷积和可变形RoI池。两者都是基于模块中的增加空间采样位置的想法，其中带有额外的偏移量并学习目标任务的偏移量，不需要额外的监督。新的模块很容易地取代现有CNN中的普通对等体，并且很容易地通过标准的反向传播来进行端到端的训练，从而产生可变形卷积网络；

如需求侧重于精度和速度之间的平衡可选择基于编解码结构的深度融合骨干网络。深度融合骨干网络主要有两个创新点：

1)融合不同的分辨率/尺度上的特征；

2)合并所有的模块和通道的特征。

如需求侧重于模型的精度可选择基于残差模块的关键点检测时间沙漏104骨干网络。时间沙漏104利用多尺度特征来识别关键点，每个子网络称为时间沙漏模块，是一个沙漏型的结构，多个这种结构堆叠起来，称作堆叠沙漏。堆叠的方式，方便每个模块在整个图像上重新估计姿态和特征。输入图像通过全卷积网络后，得到特征，而后通过多个堆叠的时间沙漏模块，得到最终的热图。

S2：将训练数据集按批次输入骨干网络进行训练，按照损失函数指导模型收敛，包括：

S21：将训练数据集按批次输入骨干网络得到热图后，采用基于像素点的非极大值抑制算法能够在热图中根据相邻像素点之间的大小差异，选取最大值的像素点，滤去非极大值；

S22：利用像素级焦点损失函数指导模型收敛。

像素级焦点损失函数的计算式如下：

式中，L_fl表示像素级焦点损失函数的值，y表示训练数据集中目标位置信息的标签，y′表示骨干网络根据目标的图像计算的位置的标签，α表示平衡因子，γ表示样本加权因子。像素级焦点损失函数在基本的交叉熵损失上进行改进。首先在原有的基础上加了因子，其中样本加权因子γ>0使得减少易分类样本的损失，使得模型更关注于困难的、错分的样本。在此基础上，再引入一个平衡因子α，用来平衡正负样本本身的数量比例不均。只添加α虽然平衡了正负样本的重要性，但是无法解决简单与困难样本的问题，因此针对难分样本的γ也必不可少。γ调节简单样本权重降低的速率，当γ为0时即为交叉熵损失函数，当γ增加时，调整因子的影响也在增加；

S3：将待检图像输入训练好的骨干网络生成热力图；根据预先定义好的后处理过程确定所述热力图的边缘信息；基于所述边缘信息得到预测框。

S3中根据预先定义好的后处理过程将热力图结果转换成包含分类信息的最终预测框的具体步骤为：

S31：采用边缘融合算法。热力图中极值点的定义并不唯一，这就导致如果物体沿着水平或垂直方向边缘形成极值点的话，沿着该边缘的点可能都会被当做极值点。边缘融合算法对每一个极值点向它的两个方向进行聚集来解决上述问题。

S32：采用幽灵框抑制算法。若存在多个并排排列且大小相近的物体，则对目标来说，在指定中心点时，会有两个选择，一个是真实的目标，另一个是大一圈的幽灵框。幽灵框抑制算法用于滤去幽灵框，得到真实目标框；

S33：基于上述算法得到的关键点集可通过暴力枚举的方法得到最终检测框和分类结果。

实施例2：

下面给出另一个基于深度学习的目标检测方法的实施例，如图2所示的流程图，本实施例的步骤包括：

步骤C1：准备用于输入关键点提取网络的数据集，标注中明确关键点位置；

步骤C2：基于任务具体要求、硬件资源、模型效果合理选择关键点提取网络即骨干网络。如选择基于可变形卷积上采样的残差模块系列骨干网络，则表示注重模型的推理速度。残差模块系列骨干网络通过引入可变形卷积引入两个新的模块来增强卷积神经网络的变换建模能力，提高训练及推理效率。

步骤C3：将数据集送入关键点提取网络中，对网络进行训练，得到能输出目标关键点的网络模型；

其中步骤C3进一步包括：

步骤C31：使用像素级焦点损失函数，指导模型收敛，目的是更多的关注正样本、难分样本的学习。收敛后的模型在输入图像后，生成相关热力图；

步骤C32：在热力图上对每个像素点遍历基于像素点的非极大值抑制算法，筛选出图像关键点候选点；

步骤C4：基于步骤C32得到的极值点可能并不唯一，这是因为如果物体沿着水平或垂直方向边缘形成极值点的话，沿着该边缘的点可能都会被当做极值点。对候选点进行边缘融合算法进一步筛选出能够代表边缘信息的关键点候选点；

步骤C5：在候选点基础上直接生成候选框会生成包括除准确候选框在内的其他范围大于真实框的幽灵框。原因在于若存在多个大小相近、并排排列的物体时，框的边界会在相邻物体间取舍。这里就需要幽灵框抑制算法，抑制掉幽灵框。最后得到包括目标类型和位置信息的最终预测框。

实施例3：

基于同一发明构思，本发明还提供了一种基于深度学习的目标检测系统，由于这些设备解决技术问题的原理与基于深度学习的目标检测系统方法相似，重复之处不再赘述。

该系统基本结构如图4所示，包括：图像获取模块、热力图模块和预测框模块；

图像获取模块，用于获取包括待检测目标的待检图像；

热力图模块，用于将待检图像输入训练完成的骨干网络生成热力图，并确定热力图的边缘信息；

预测框模块，用于基于边缘信息得到预测框；

基于深度学习的目标检测系统详细结构如图5所示。

其中，该系统还包括用于训练骨干网络的网络训练模块；网络训练模块包括：训练数据集单元、初始化单元和训练单元；

训练数据集单元，用于获取已经识别目标类型和位置信息的多个图像，将各图像与图像中目标对应的类型和位置信息构成训练数据集；

初始化单元，用于按需求选择合适的骨干网络，初始化骨干网络参数，调整后处理过程中模型所需超参数；

训练单元，用于将训练数据集按批次输入骨干网络进行训练，基于骨干网络输出热力图的边缘信息，利用损失函数对骨干网络进行训练直到骨干网络收敛。

其中，训练单元包括：第一热力图子单元、第一关键候选点子单元和收敛判断子单元；

第一热力图子单元，用于将训练数据集按批次输入骨干网络，得到包含目标上关键点的热力图；

第一关键候选点子单元，用于对热力图进行筛选，得到代表热力图中目标的边缘信息的关键候选点；

收敛判断子单元，用于基于关键候选点计算目标的位置，并将计算得到位置和训练集中的位置信息输入损失函数，判断骨干网络是否收敛：

若收敛，则结束，否则根据梯度下降法动态更新骨干网络中各层神经元的权重并调用第一热力图子单元，直到骨干网络收敛。

其中，热力图模块包括：第二热力图单元、第二关键候选点单元和边缘信息单元；

第二热力图单元，用于将待检图像输入训练完成的骨干网络，得到包含待测目标上关键点热力图；

第二关键候选点单元，用于对热力图进行筛选得到代表待测目标边缘信息关键点关键候选点；

边缘信息单元，用于根据代表待测目标边缘信息关键点关键候选点，得到热力图的边缘信息。

其中，第二关键候选点单元包括：初筛子单元和融合筛选子单元；

初筛子单元，用于在热力图上对每个像素点基于像素点的非极大值抑制算法进行遍历，筛选出初筛候选点；

融合筛选子单元，用于对初筛候选点采用边缘融合算法筛选出能够代表待测目标边缘信息的关键候选点。

其中，预测框模块包括：枚举单元和预测框单元；

枚举单元，用于基于边缘信息，通过暴力枚举的方法得到待测目标分类结果和多个检测框；

预测框单元，用于采用幽灵框抑制算法对检测框进行筛选，得到包含待测目标的预测框。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是:以上实施例仅用于说明本申请的技术方案而非对其保护范围的限制,尽管参照上述实施例对本申请进行了详细的说明,所属领域的普通技术人员应当理解:本领域技术人员阅读本申请后依然可对申请的具体实施方式进行种种变更、修改或者等同替换，但这些变更、修改或者等同替换，均在申请待批的权利要求保护范围之内。

Claims

1.一种基于深度学习的目标检测方法，其特征在于，包括：

获取包括待检测目标的待检图像；

基于所述边缘信息得到预测框；

2.如权利要求1所述的方法，其特征在于，所述骨干网络的训练包括：

3.如权利要求2所述的方法，其特征在于，所述将训练数据集按批次输入骨干网络进行训练，基于骨干网络输出热力图的边缘信息，利用损失函数对骨干网络进行训练直到所述骨干网络收敛，包括：

4.如权利要求3所述的方法，其特征在于，所述将计算得到位置和训练集中的位置信息输入损失函数，判断所述骨干网络是否收敛，包括：

5.如权利要求4所述的方法，其特征在于，所述像素级焦点损失函数的计算式如下：

6.如权利要求2所述的方法，其特征在于，所述按照训练需求选择骨干网络形式，包括：

7.如权利要求1所述的方法，其特征在于，所述将所述待检图像输入训练完成的骨干网络生成热力图，并确定所述热力图的边缘信息，包括：

8.如权利要求7所述的方法，其特征在于，所述对所述热力图进行筛选得到代表待测目标边缘信息关键点关键候选点，包括：

9.如权利要求1所述的方法，其特征在于，所述基于所述边缘信息得到预测框，包括：

10.一种基于深度学习的目标检测系统，其特征在于，包括：图像获取模块、热力图模块和预测框模块；

所述图像获取模块，用于获取包括待检测目标的待检图像；

所述预测框模块，用于基于所述边缘信息得到预测框；