CN112465057B

CN112465057B - 一种基于深度卷积神经网络的目标检测识别方法

Info

Publication number: CN112465057B
Application number: CN202011426562.4A
Authority: CN
Inventors: 张鹏; 赵晓林; 邹金霖; 田港; 郭庆
Original assignee: Air Force Engineering University of PLA
Current assignee: Air Force Engineering University of PLA
Priority date: 2020-12-08
Filing date: 2020-12-08
Publication date: 2023-05-12
Anticipated expiration: 2040-12-08
Also published as: CN112465057A

Abstract

本发明公开了一种基于深度卷积神经网络的目标检测识别方法，涉及电子信息技术领域，包括基于深度学习的目标检测识别算法设计、模型训练、参数优化等关键技术，设计基于大数据和深度学习技术的具有高精度、强鲁棒性的目标检测识别方法，建设智能识别数据建设‑数据标注‑图像预处理‑网络训练‑识别‑验证一体化平台，形成一种基于深度卷积神经网络的目标检测识别系统，提升目标的检测识别速度，满足实际应用对计算实时性的需求。

Description

一种基于深度卷积神经网络的目标检测识别方法

技术领域

本发明涉及电子信息技术领域，特别是涉及一种基于深度卷积神经网络的目标检测识别方法。

背景技术

ATR技术是利用人工智能技术实现对传感器获取的目标特征进行分类和识别的智能化技术，全程不需要人工的干预，是现代战场上武器智能化的重要核心技术。由于真实战场条件下目标容易受到各种背景信息和杂波的干扰，对其进行探测和识别的技术一直是研究的热点。传统的目标识别——特别是复杂地面背景下的目标识别，需要人工参与决策，限制了武器系统的应用范围。机器人技术在战场上的广泛应用也迫切需要人们开发出无人值守的智能识别技术，以减轻控制人员的工作压力。结合计算机技术和智能技术的自动目标识别技术成为解决这些难题的一种有效途径，成为当前各军事强国优先发展的对象。因此，研究复杂战场环境下的高效目标识别方法，对提高武器装备快速、准确和智能化的战场环境感知与理解能力，有效提升作战能力具有重要意义。

近期，基于深度神经网络的目标检测识别方法已经变得非常活跃并高速发展，这主要取决于深度卷积神经网络和大规模的数据。基于深度学习的目标检测识别方法的关键在于算法+数据+计算，涉及深度卷积神经网络核心问题，国内在具有顶级影响力工作以及真正运用于实际等方面相对于国外仍有一定差距。另一方面，深度学习框架众多、版本迭代频繁、编程语言多种多样，对深度学习平台功能的全面性提出了很高的要求，同时，深度学习算法需要大规模计算资源的支撑，对平台的硬件资源管理能力、负载均衡能力均有较高要求。因此，需要在深度学习算法数据要求高、计算复杂度高、系统计算资源有限、系统实时性要求高等问题方面寻找突破和提升。

发明内容

本发明实施例提供了一种基于深度卷积神经网络的目标检测识别方法，以无人机系统攻击海上、空中、地面目标及综合ISR等典型任务需求为背景，研究基于深度学习的目标检测识别算法设计、模型训练、参数优化等关键技术，构建训练数据集，建设智能识别数据建设-数据标注-图像预处理-网络训练-识别-验证一体化平台。本发明利用海量图像样本数据，设计基于大数据和深度学习技术的具有高精度、强鲁棒性的目标检测识别方法。在此基础上，进一步通过深度神经网络来加速究深度学习算法，提升目标的检测识别速度。

本发明提供了一种基于深度卷积神经网络的目标检测识别方法，该方法包括以下步骤：

步骤1，收集图像并建立图像数据集；

步骤2，对所述图像数据集中的图像进行标注；

步骤3，采用侧抑制网络的二维图像数学模型对含有标注的图像进行预处理，得到对应的特征图；

步骤4，将不同尺度的特征图采用通道连接的方式进行融合，形成自适应金字塔结构的融合特征图，利用注意力机制计算融合特征图中各个尺度的特征图的权重，对每个权重图通过加权的方式筛选出适用于不同类型目标的特征图，利用筛选出的特征图对yolov3目标检测识别模型进行训练；

步骤5，对训练好的yolov3目标检测识别模型进行压缩；

步骤6，使用压缩后的模型进行目标检测识别。

优选地，步骤1采用仿真数据与真实数据并举的方法收集图像，数据来源包括：仿真数据、VISDRONE数据集、VEDAI数据集、Dota数据集。

优选地，对于步骤1收集的图像，采用图像增强技术对收集到的图像进行数量扩充，形成图像数据集。

优选地，采用的图像增强技术包括：

(1)图像裁剪：截取图像中的一部分内容；

(2)图像缩放：将原始图像的分辨率进行放大或缩小；

(3)颜色空间转换：对图像进行颜色空间转换；

(4)噪声叠加：在图像中心叠加噪声；

(5)图像翻转：分为左右翻转和上下翻转；

(6)图像旋转：对图像进行一定角度的旋转；

(7)样本不平衡：运用Label shuffle类别不平衡数据处理技术，使最后得到的图像所有类别一样多。

优选地，建立所述图像数据集后，还对图像数据集进行初步的处理，包括：

(1)对图像建立标注，并对图像和标注进行排序以及命名；

(2)将数据集中图像的标注转换为VOC格式，然后将VOC格式的标注再转换为YOLOv3模型的标注格式；

(3)生成用于训练集train、测试集val的txt格式图像名称列表。

优选地，步骤2中对图像进行标注的方法为：打开所述图像数据集中需要标注的图像，通过框、多边形、折线和点手段人工对目标区域进行框选标注。

优选地，步骤3中的侧抑制网络二维图像数学模型为：

其中，G(x,y)为侧抑制输出结果，即预处理后得到的特征图，F(x,y)为输入图像的灰度，h_mn(r,s)为像素点(m,n)周围的像素点(r,s)对其的抑制系数。

优选地，步骤5中，对训练好的目标检测识别模型进行压缩的方法包括：

(1)定点量化：运用QuantizationAware Training定点量化技术使用更少的比特数表示yolov3目标检测识别模型的权重和激活函数；

(2)卷积核剪裁：减少卷积层中卷积核的数量；

(3)模型蒸馏：将复杂网络中的有用信息提取出来，迁移到一个更小的网络中；

(4)轻量级模型结构搜索：以模拟退火算法来寻找最优的参数配置，将yolov3目标检测识别模型的网络结构映射成一段编码，第一次随机初始化，然后每次随机修改编码中的一部分生成一个新的编码，将这个编码再映射回网络结构，通过在训练数据上训练一定的epochs后的精度以及网络延时融合获得reward，来指导退火算法的收敛。

优选地，在进行目标检测识别之前，所述方法还包括：

利用公开数据集Dota对压缩后的yolov3目标检测识别模型进行测试。

本发明提供的一种基于深度卷积神经网络的目标检测识别方法，具有以下优点：

(1)通过对大量图像样本数据深度学习训练和标注，可有效提高目标检测识别的准确性。

(2)通过对数据增强处理，包括翻转、旋转、缩放、随机裁剪或补零、色彩抖动、加噪声等，可增加训练样本多样性，提高模型鲁棒性，避免过拟合。

(3)构建从数据管理、标注、模型训练及测试全生命周期管理的深度学习平台。

(4)通过深度神经网络对数据进行加速处理，可有效满足实际应用对计算高实时性的需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明中方法的工作流程示意图；

图2为自适应金字塔结构的融合特征图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1，本发明提供了一种基于深度卷积神经网络的目标检测识别方法，该方法包括以下步骤：

步骤1，建立图像数据集。

为了训练目标检测识别模型，需要建立海量图像组成的图像数据集，该图像数据集中的图像采用仿真数据与真实数据并举的方法收集得到，数据来源主要包括：仿真数据、VISDRONE数据集、VEDAI数据集、Dota数据集。所述图像数据集中的数据分为训练数据和测试数据，训练数据用于对目标检测识别模型进行训练，而所述测试数据则用于对训练好的目标检测识别模型进行性能测试。

由于直接收集得到的图像数量比较小，无法对目标检测识别模型进行有效训练。因此本发明采用图像增强技术对收集到的图像进行数量扩充，形成图像数据集，采用的具体图像增强技术包括以下几种：

(1)图像裁剪：截取图像中的一部分内容。

(2)图像缩放：将原始图像的分辨率进行放大或缩小。

(3)颜色空间转换：为适应不同相机调节的不同色温、白天的彩色图像、夜晚的灰度图像、伪彩色图像等进行颜色空间转换。

(4)噪声叠加：为适应图像有可能存在的噪声，在图像中心叠加噪声。

(5)图像翻转：分为左右翻转和上下翻转。

(6)图像旋转：对图像进行一定角度的旋转，使目标检测识别模型对图像旋转具有鲁棒性。

建立具有海量图像的图像数据集后，还需要对图像数据集进行初步的处理，包括：

(1)对图像建立标注，并对图像和标注进行排序以及命名；

(3)生成用于训练集train、测试集val的txt格式图像名称列表。

步骤2，深度学习的图像标注。

为了减轻数据注释器和数据科学家的负担，利用计算机视觉注释工具(CVAT)以加速用来训练计算机视觉算法的视频和图像样本注释。其支持与对象检测、图像分类和图像分割相关的监督机器学习任务，以及具有四种类型之一的注释：框、多边形、折线和点。打开步骤1图像数据集中需要标注的图片，通过框、多边形、折线和点手段可以人工对目标区域进行框选标注。注释器可以使用大量工具来复制和传播对象、应用过滤器、调整视觉设置，以及通过谷歌的TensorFlow框架中的对象检测API执行自动注释等。CVAT会自动执行一些检查(但不是所有检查，有些检查需要手动进行)，且可与英特尔的OpenVino、英伟达的CUDA和ELK(Elasticsearch、Logstash和Kibana)分析系统等工具包很好地配合使用。

步骤3，图像预处理。

由于无人机获取的图像易受到光照、云雾等条件干扰，目标特征信息弱化严重，这时就需要对图像进行图像增强，来突出有用信息，提高图像质量。本发明首先采用智能化图像预处理方法，对输入图像进行去除云雾、光照条件干扰，增强目标特征信息。本发明采用侧抑制网络的二维图像数学模型对步骤2中含有标注的图像进行预处理：

上式中G(x,y)为侧抑制输出结果，即预处理后得到的特征图，F(x,y)为输入图像的灰度，h_mn(r,s)为像素点(m,n)周围的像素点(r,s)对其的抑制系数。由上式可以看出，基于侧抑制理论的方法实际上是衰减低频响应的高通滤波器，因此常用侧抑制网络来增强图像反差，检测图像边框。由于侧抑制滤波本质上相当于一个高通滤波器，而多级滤波可使滤波器的带宽变窄，从而更好地抑制背景，因此可采用多级侧抑制滤波的方法，直到带宽满足要求。

步骤4，目标检测识别模型训练。

经过深度神经网络提取得到的特征图具有不同的尺度，为了解决多尺度问题，本发明设计了不同尺度的目标检测窗口，在该目标检测窗口中进行目标检测。对于不同尺度的特征图采用通道连接的方式进行融合，形成自适应金字塔结构的融合特征图。然后利用注意力机制计算融合特征图中各个尺度的特征图的权重，该权重能够动态反应各个尺度的特征图对于不同目标检测识别的重要程度，最后对每个权重图通过加权的方式筛选出适用于不同类型目标的特征图，具体来说每个尺度的特征图对应一个权重，因此融合特征图具有一个权重组合，每个权重组合下的特征融合图即对应一种检测目标。使用该特征图即可进行目标检测识别模型的训练，提高模型对多尺度目标检测的适应能力。

步骤5，目标检测识别模型压缩。

为满足低内存带宽、低功耗、低计算资源占用以及低模型存储需求，对训练好的目标检测识别模型进行压缩，主要包括：

(1)定点量化：运用QuantizationAware Training定点量化技术使用更少的比特数(如8-bit、3-bit、2-bit等)表示目标检测识别模型的权重和激活函数，对精度并不会造成损失。

(2)卷积核剪裁：通过减少卷积层中卷积核的数量，来减小模型大小和降低模型计算复杂度。

(3)模型蒸馏：将复杂网络中的有用信息提取出来，迁移到一个更小的网络中，包括：传统蒸馏法使用复杂的网络作为teacher模型去监督训练一个参数量和运算量更少的student模型、基于FSP蒸馏法直接用小模型去拟合大模型不同层特征之间的转换关系，其中传统的蒸馏是直接告诉小模型问题的答案，让小模型学习，而学习FSP矩阵是让小模型学习解决问题的中间过程和方法，因此其学到的信息更多。

(4)轻量级模型结构搜索：区别于传统自动模型搜索技术(NAS)，Light-NAS是搜索精度高并且速度快的模型结构，本发明以模拟退火算法为主来快速、准确找到最优的网络结构参数配置。区别于RL每次重新生成一个完整的网络，本发明将模型的网络结构映射成一段编码，第一次随机初始化，然后每次随机修改编码中的一部分(对应于网络结构的一部分)生成一个新的编码，然后将这个编码再映射回网络结构，通过在训练数据上训练一定的epochs后的精度以及网络延时融合获得reward，来指导退火算法的收敛。变量规模决定了搜索算法的难度和搜索时间，为了加快搜索速度，在Light-NAS中定义了一个合理的搜索空间，将一个网络划分为多个block，先手动按链状层级结构堆叠c，再使用搜索算法自动搜索每个block内部的结构。搜索过程支持FLOPS约束和模型延时约束。采用模型延时评估器来评估搜索得到模型的延时，通过延时评估器评估得到的延时与模型实际测试的延时波动偏差小于10％。

通过步骤5中的模型瘦身方法对训练好的目标检测识别模型，即YOLOv3模型进行了修剪，具有更少的可训练参数和浮点运算，可以得到实时性更好、网络更窄，速度更快、性能更好无人机应用的SlimYOLOv3，在参数数量、内存使用和推理时间更少的情况下，实现了与原始算法相同的检测精度。

步骤6，目标检测识别模型测试。

利用公开数据集Dota对步骤5中的模型进行训练测试，并与现有YOLOv3算法进行对比，根据实验结果可以得到本发明方法能够适应多尺度目标，并在保证精度的同时具有较快算法速度。

步骤7，目标检测识别。

使用步骤5的目标检测识别模型进行目标检测识别。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于深度卷积神经网络的目标检测识别方法，其特征在于，该方法包括以下步骤：

步骤1，收集图像并建立图像数据集；

步骤2，对所述图像数据集中的图像进行标注；

步骤5，对训练好的yolov3目标检测识别模型进行压缩；

步骤6，使用压缩后的模型进行目标检测识别。

2.如权利要求1所述的一种基于深度卷积神经网络的目标检测识别方法，其特征在于，步骤1采用仿真数据与真实数据并举的方法收集图像，数据来源包括：仿真数据、VISDRONE数据集、VEDAI数据集、Dota数据集。

3.如权利要求1所述的一种基于深度卷积神经网络的目标检测识别方法，其特征在于，对于步骤1收集的图像，采用图像增强技术对收集到的图像进行数量扩充，形成图像数据集。

4.如权利要求3所述的一种基于深度卷积神经网络的目标检测识别方法，其特征在于，采用的图像增强技术包括：

(1)图像裁剪：截取图像中的一部分内容；

(2)图像缩放：将原始图像的分辨率进行放大或缩小；

(3)颜色空间转换：对图像进行颜色空间转换；

(4)噪声叠加：在图像中心叠加噪声；

(5)图像翻转：分为左右翻转和上下翻转；

(6)图像旋转：对图像进行一定角度的旋转；

5.如权利要求1所述的一种基于深度卷积神经网络的目标检测识别方法，其特征在于，建立所述图像数据集后，还对图像数据集进行初步的处理，包括：

(1)对图像建立标注，并对图像和标注进行排序以及命名；

(3)生成用于训练集train、测试集val的txt格式图像名称列表。

6.如权利要求1所述的一种基于深度卷积神经网络的目标检测识别方法，其特征在于，步骤2中对图像进行标注的方法为：打开所述图像数据集中需要标注的图像，通过框、多边形、折线和点手段人工对目标区域进行框选标注。

7.如权利要求1所述的一种基于深度卷积神经网络的目标检测识别方法，其特征在于，步骤3中的侧抑制网络二维图像数学模型为：

8.如权利要求1所述的一种基于深度卷积神经网络的目标检测识别方法，其特征在于，步骤5中，对训练好的目标检测识别模型进行压缩的方法包括：

(2)卷积核剪裁：减少卷积层中卷积核的数量；

9.如权利要求1所述的一种基于深度卷积神经网络的目标检测识别方法，其特征在于，在进行目标检测识别之前，所述方法还包括：