CN111401253B

CN111401253B - 一种基于深度学习的目标检测方法

Info

Publication number: CN111401253B
Application number: CN202010187584.3A
Authority: CN
Inventors: 刘毅力; 王光耀; 智波
Original assignee: Jilin Jianzhu University
Current assignee: Jilin Jianzhu University
Priority date: 2020-03-17
Filing date: 2020-03-17
Publication date: 2022-09-13
Anticipated expiration: 2040-03-17
Also published as: CN111401253A

Abstract

本发明实施例公开了一种基于深度学习的目标检测方法，涉及深度学习领域，所述方法包括：创建目标检测网络模型；利用所述目标检测网络模型对输入图像进行背景筛除；基于所述背景去除的图像进行目标识别。本发明能够解决现有深度学习技术中需要消耗大量的计算资源和时间来进行参数训练，导致目标检测效率低的问题。

Description

一种基于深度学习的目标检测方法

技术领域

本发明实施例涉及深度学习领域，具体涉及一种基于深度学习的目标检测方法。

背景技术

近年来，我们见证了深度学习的巨大进步和成功，它在图像分类和目标检测等计算机视觉领域带来了巨大的飞跃。工业界已经开始使用深度学习来开发诸如自动驾驶、监控系统、虚拟助手和医疗保健等人工智能软件和服务，但是训练和运行深度学习模型需要大量的计算能力，它限制了深度学习的可扩展性和适用性，特别是在资源受限的环境中。

为了克服这个问题，已经投入了大量的精力来提高深度学习模型在硬件和软件方面的效率。为了提高深部神经网络的性能，提出了处理零值的硬件设计、处理稀疏性和高精度异常值的硬件设计、片上卷积神经网络(CNN)模型和专用加速器。从软件加速的角度看，它包括轻量化网络设计、网络剪枝和网络量化，目标检测(OD)是计算机视觉领域最流行的应用之一。虽然在开发高效的OD网络方面已经投入了大量的努力，但是最先进的模型仍然需要巨大的计算量，当目标环境中消耗的资源量很大时，实际工作者往往不得不选择一个精度更高或速度更快的特征抽取器，但同时也增加了计算成本。

发明内容

本发明实施例的目的在于提供一种基于深度学习的目标检测方法，用以解决现有深度学习技术中需要消耗大量的计算资源和时间来进行参数训练，导致目标检测效率低的问题。

为实现上述目的，本发明实施例主要提供如下技术方案：

本发明实施例提供了一种基于深度学习的目标检测方法，

所述方法包括：创建目标检测网络模型；利用所述目标检测网络模型对输入图像进行背景筛除；基于所述背景去除的图像进行目标识别。

优选地，所述目标检测网络模型包括背景筛除模块和目标检测模块，所述背景筛除模块用去除图像背景中的像素；所述目标检测模块包括特征提取网络和锚头网络，用于提取目标特征。

优选地，所述背景筛除模块采用目标掩码生成网络，所述目标检测模块采用单点多盒探测器作为基础架构。

优选地，对所述输入图像进行背景筛除的方法，具体包括：利用背景筛除模块获取输入图像并生成对象掩码；利用所述对象掩码对所有图像的输入特征进行遮罩，生成像素为零的背景和像素为1的前景。

优选地，所述包括：对输入特征进行遮罩时，当特征映射的形状由于合并和跨步卷积操作而发生变化时，在遮罩时应用最大池化层，使其形状始终与相应的特征映射形状相匹配。

优选地，对所有图像的输入特征进行遮罩，具体包括：将对象掩码与目标检测模块中的各层进行元素相乘来筛除背景区域。

优选地，所述方法包括：通过端到端的方式集成所述目标检测网络模型。

优选地，所述集成方式包括利用代理梯度的方法训练端到端网络模型。

本发明实施例提供的技术方案至少具有如下优点：

本发明通过将通过绕行提高检测速度的方法，将目标所在的背景区域像素做清除处理，创建一种新的目标检测模型，该模型通过对稀疏卷积背景区域的跳过运算来提高检测性能，并以端到端的方式集成它们。该方法在保持与原模型相当的检测精度的同时，大大降低了计算量。

附图说明

图1为本发明实施例提供的一种基于深度学习的目标检测方法流程图。

图2为本发明实施例提供的目标检测网络模型框架图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本发明。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

在SSD、YOLO等一级检测器中，将卷积骨干网的特征输入到子网中进行目标分类和边界盒回归，这些一级检测器旨在通过直接对预定义锚进行分类并使用CNNs对其进行细化，而无需生成建议步骤，从而提高效率，然而，它仍然需要计算所有的锚。

基于深度卷积神经网络模型拥有大量的参数，对于数据有强大的拟合能力。但因此也需要消耗大量的计算资源和时间来进行参数训练，而且这种消耗跟输入图像的尺寸成正相关，即图像输入像素信息越多，消耗越大。由此可知减少像素的处理量可以实现特征识别的加速。

基于此，本发明实施例提供一种基于深度学习的目标检测方法，参考图1，该方法包括：

S1、创建目标检测网络模型；

目标检测网络模型包括背景筛除模块和目标检测模块，背景筛除模块用去除图像背景中的像素，背景筛除模块采用目标掩码生成网络Objectness Mask GenerationNetwork，即OMGN。

目标检测模块采用单点多盒探测器SSD作为基础架构，包括特征提取网络和锚头网络两个子模块，用于提取目标特征。特征提取网络即Feature Extraction Network，下文称为FEN。锚头网络即Anchor Head Network，下文称为AHN。每个锚定位置的特征映射被输入AHN以确定对象类并定位其边界框。

S2、利用目标检测网络模型对输入图像进行背景筛除；

目标检测是图像处理里最基本也最重要的任务，在检测任务中模型需要将目标从图像中提取出来，目标区域被称为前景，而剩余的非目标区域被称为背景。本实施例主动对背景区域进行筛除，缩小目标检测的观察区域，进而降低计算量并提升效率。

具体地，参考图2，在本实施例一个可行的方法中，利用背景筛除模块获取输入图像并生成对象掩码，其中背景像素的值为零，前景像素的值为1。这项任务将图像中的每个像素分为两类，可以看作是语义分割的简化版本。对象遮罩的形状可以是任意形状，如分段遮罩，也可以是框，具体取决于批注数据的可用性。快速SCNN是一种快速、轻量级的语义分割模型，且是一个完全卷积的网络可以通过改变输入图像的大小来轻松控制其计算成本。因此采用SCNN作为OMG网络。

利用对象掩码对所有图像的输入特征进行遮罩，生成像素为零的背景和像素为1的前景。具体地，输入图像和OD网络卷积层的所有输入特征现在都用一个二值对象遮罩，该遮罩将背景区域中的像素值归零。如图2所示，该遮罩操作为上图中表示为

符号的按元素的乘法层。需要说明的是，当特征映射的形状由于合并和跨步卷积等操作而发生变化时，会对遮罩应用最大池化层max pooling，为使其形状始终与相应的特征映射的形状匹配，图2中具有阴影的方块表示最大池化。

S3、基于背景去除的图像进行目标识别。

通过端到端的方式集成目标检测网络模型，进行目标识别。其中，由于OMG网络通过argmax函数为每个输入像素生成零和一两个离散值中的一个，又由于argmax函数是不可微的，梯度几乎总是零，用标准的反向传播方法训练端到端模型是不可能的。

因此，本实施例采用代理梯度的方法训练端到端网络模型。

该方法使用了一种近似于原始激活函数梯度方向的后向传递的代理求导函数，表示为：

具有适于反向传播的可微和非平凡梯度值的作用，当选择合适的代理导数时，训练过程收敛于原始的局部极小值附近。

由此可见，本实施例通过将通过绕行提高检测速度的方法，将目标所在的背景区域像素做清除处理，创建一种新的目标检测模型，该模型通过对稀疏卷积背景区域的跳过运算来提高检测性能，并以端到端的方式集成它们。该方法在保持与原模型相当的检测精度的同时，大大降低了计算量。

本发明所公开的实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序指令，当所述计算机程序指令在计算机上运行时，使得计算机执行上述的方法。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种基于深度学习的目标检测方法，其特征在于，所述方法包括：

创建目标检测网络模型；通过端到端的方式集成所述目标检测网络模型，并利用代理梯度的方法训练网络模型；

利用所述目标检测网络模型对输入图像进行背景筛除；

基于所述背景去除的图像进行目标识别；

所述目标检测网络模型包括背景筛除模块和目标检测模块，其中，背景筛除模块用去除图像背景中的像素；目标检测模块包括特征提取网络和锚头网络，用于提取目标特征；

所述背景筛除模块采用目标掩码生成网络，具体利用快速SCNN模型；所述目标检测模块采用单点多盒探测器作为基础架构。

2.如权利要求1所述的一种基于深度学习的目标检测方法，其特征在于，对所述输入图像进行背景筛除的方法，具体包括：

利用背景筛除模块获取输入图像并生成对象掩码；

利用所述对象掩码对所有图像的输入特征进行遮罩，生成像素为零的背景和像素为1的前景。

3.如权利要求2所述的一种基于深度学习的目标检测方法，其特征在于，所述包括：对输入特征进行遮罩时，当特征映射的形状由于合并和跨步卷积操作而发生变化时，在遮罩时应用最大池化层，使其形状始终与相应的特征映射形状相匹配。

4.如权利要求2所述的一种基于深度学习的目标检测方法，其特征在于，对所有图像的输入特征进行遮罩，具体包括：

将对象掩码与目标检测模块中的各层进行元素相乘来筛除背景区域。