CN113971732A

CN113971732A - 小目标检测方法、装置、可读存储介质及电子设备

Info

Publication number: CN113971732A
Application number: CN202111211707.3A
Authority: CN
Inventors: 秦小林; 蓝鑫; 顾勇翔; 伏博毅; 彭云聪; 黄东
Original assignee: Chengdu Information Technology Co Ltd of CAS
Current assignee: Chengdu Information Technology Co Ltd of CAS
Priority date: 2021-10-18
Filing date: 2021-10-18
Publication date: 2022-01-25
Also published as: US20230122927A1

Abstract

本公开涉及一种小目标检测方法、装置、可读存储介质及电子设备，所述方法包括：将待检测图像输入到预先训练好的小目标检测模型；其中，在所述小目标检测模型中，利用成对的逆亚像素卷积操作和亚像素卷积操作分别对待检测图像信息进行编码和解码；通过所述小目标检测模型对所述待检测图像进行特征提取，输出所述待检测图像中的目标类别及位置。上述方案用于解决现有技术中存在的，传统的FPN类网络的特征融合方式未考虑骨干网络下采样与颈部网络上采样之间的相关性，从而导致冗余操作和信息丢失的技术问题。此外，FPN类方法中采用插值算法，不仅没有带来额外的信息，反而会增加计算量。

Description

小目标检测方法、装置、可读存储介质及电子设备

技术领域

本公开涉及目标检测领域，具体地，涉及一种小目标检测方法、装置、可读存储介质及电子设备。

背景技术

随着深度卷积网络和GPU计算能力的迅速发展，目标检测作为许多计算机视觉任务的基础，在医疗、交通、安防等领域得到广泛应用和研究。目前一些优秀的目标检测算法在通用数据集上已经取得不错的成绩，但当前的目标检测算法大多是针对自然场景下的中大型目标，而小目标像素占比少，具有覆盖面积小、包含信息少等基本特点，因此，对于小目标的检测仍然是一个巨大的挑战。

为增强对小目标的检测性能，常用的解决方法之一就是多尺度特征融合，其最典型的模型就是FPN类(特征图金字塔网络，Feature Pyramid Networks)网络。传统的FPN类网络先在通道上对特征图进行压缩，其次使用插值算法在特征融合时进行空间分辨率的匹配。然而，传统的FPN类网络的特征融合方式未考虑骨干网络下采样与颈部网络上采样之间的相关性，从而导致冗余操作和信息丢失。此外，FPN类方法中采用插值算法，不仅没有带来额外的信息，反而会增加计算量。

发明内容

本公开的目的是提供一种小目标检测方法、装置、可读存储介质及电子设备，用于解决现有技术中存在的，传统的FPN类网络的特征融合方式未考虑骨干网络下采样与颈部网络上采样之间的相关性，从而导致冗余操作和信息丢失的技术问题。此外，FPN类方法中采用插值算法，不仅没有带来额外的信息，反而会增加计算量。

为了实现上述目的，本公开第一方面提供一种小目标检测方法，所述方法包括：

将待检测图像输入到预先训练好的小目标检测模型；其中，在所述小目标检测模型中，利用成对的逆亚像素卷积操作和亚像素卷积操作分别对待检测图像信息进行编码和解码；

通过所述小目标检测模型对所述待检测图像进行特征提取，输出所述待检测图像中的目标类别及位置。

可选的，构建所述小目标检测模型的方法包括：

基于YOLOv5s模型构建所述小目标检测模型，将所述YOLOv5s模型的主干网络中的目标检测层及以后的检测层中的所有下采样卷积层替换为所述逆亚像素卷积操作，将所述YOLOv5s模型中的颈部网络中的所有上采样层替换为所述亚像素卷积操作，使得所述逆亚像素卷积操作和所述亚像素卷积操作成对存在，得到改进后的YOLOv5s模型；

利用训练图像集训练所述改进后的YOLOv5s模型，得到所述小目标检测模型。

可选的，所述目标检测层为所述主干网络中的C4检测层。

可选的，所述利用训练图像集训练改进后的YOLOv5s模型，得到所述小目标检测模型，包括：

将所述训练图像集中预处理好的图像样本及标签划分为训练集和验证集；

使用所述训练集对所述改进后的YOLOv5s模型进行参数优化；

使用所述验证集进行参数选择，选取平均准确率最高的一组参数作为优化结果，得到所述小目标检测模型。

可选的，在利用训练图像集训练改进后的YOLOv5s模型的过程中，所述方法还包括：

随机使用图像裁剪、图像翻转、图像缩放和直方图均衡化中的一种或多种数据增强方式，增加所述图像样本的数量。

可选的，通过所述小目标检测模型对所述待检测图像进行特征提取，输出所述待检测图像中的目标类别及位置，包括：

通过所述小目标检测模型输出所述待检测图像中的特征检测框；

计算相邻的特征检测框之间的重叠部分的GIoU值；

若所述相邻的特征检测框为同一类且所述GIoU值大于或等于阈值，则合并所述相邻的特征检测框，得到所述待检测图像的目标类别和位置。

本公开第二方面提供一种小目标检测装置，包括：

输入模块，用于将待检测图像输入到预先训练好的小目标检测模型；其中，在所述小目标检测模型中，利用成对的逆亚像素卷积操作和亚像素卷积操作分别对待检测图像信息进行编码和解码；

特征提取模块，用于通过所述小目标检测模型对所述待检测图像进行特征提取，输出所述待检测图像中的目标类别及位置。

本公开第三方面提供一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面所述方法的步骤。

本公开第四方面提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现第一方面所述方法的步骤。

本公开实施例的方案中，基于预先训练好的小目标检测模型，利用成对的逆亚像素卷积和亚像素卷积操作，避免了传统模型中下采样卷积、上采样操作对小目标的负面影响，从而缓解在传统的FPN类网络的特征融合方式未考虑骨干网络下采样与颈部网络上采样之间的相关性，从而导致冗余操作和信息丢失的技术问题，通过利用成对的逆亚像素卷积和亚像素卷积操作，能够有效保留提取到的特征信息，提高小目标的检测性能。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据一示例性实施例示出的小目标检测方法的流程图；

图2是现有的YOLOv5s网络结构示意图；

图3是根据一示例性实施例示出的改进的YOLOv5s网络的结构示意图；

图4是根据一示例性实施例示出的一种小目标检测装置的框图；

图5是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

本公开实施例公开了一种小目标检测方法，该小目标检测方法包括以下步骤。

步骤101，将待检测图像输入到预先训练好的小目标检测模型；其中，在所述小目标检测模型中，利用成对的逆亚像素卷积操作和亚像素卷积操作分别对待检测图像信息进行编码和解码。

步骤102，通过所述小目标检测模型对所述待检测图像进行特征提取，输出所述待检测图像中的目标类别及位置。

本公开实施例中，对于待检测图像而言，将空间信息转换为通道信息的过程称之为编码，其特点为空间分辨率降低，通道维度增加；将通道信息转换为空间信息的过程称之为解码，其特点为通道维度降低，空间分辨率升高。解码、编码操作成对结合使用，能够降低网络解码难度，更有利于挖掘空间定位特征。本公开实施例中，是在目标检测任务中将逆亚像素卷积操作和亚像素卷积操作结合对应使用，能够避免下采样卷积、上采样操作对小目标的负面影响，有效保留提取到的特征信息，从而提高小目标的检测性能。

接下来，对本公开实施例中构建小目标检测模型的方法进行说明。需要说明的是，本公开实施例中的构建方法适用于各种神经网络模型，本公开实施例中，以yolov5s网络为例进行说明。

如图2和图3所示，图2为现有的YOLOv5s网络结构示意图；图3是根据一示例性实施例示出的改进的YOLOv5s网络的结构示意图；在YOLOv5s网络(第5版本)编码过程中，将目标检测层及以后检测层的所有下采样卷积层替换为逆亚像素卷积操作，将Neck部分解码过程中的所有上采样层替换为亚像素卷积操作，构建针对小目标的改进YOLOv5s检测模型。在本公开实施例中，逆亚像素卷积操作与亚像素卷积操作在整体结构中是成对使用的，从图3中可以看出，目标检测层为C4，C4是backbone中的C4检测层，以及成对使用的逆亚像素卷积操作和亚像素卷积操作，分别为Desubpixel-1和SubpixelConv-1，Desubpixel-2和SubpixelConv-2。

在一种可能的实施方式中，在编码过程中，可以将C4及以后检测层中的核大小为3*3，步长为2的卷积操作替换为逆亚像素卷积操作，使得图像长宽缩小为原来的1/2，通道数调整为原来的2倍，由于下采样的卷积操作会模糊信息，而逆亚像素卷积不会造成信息的丢失，因此，使用逆亚像素卷积操作能够缓解因下采样导致的小目标信息丢失问题。其中，通道数是指图像中的通道，例如：原始图像(如手机拍摄的照片)为RGB三个通道，但是经过多次的卷积操作，通道数会发生变化。

在解码过程中，将上采样层替换为亚像素卷积，使得图像长宽扩大到原来的2倍，通道数缩小为原来的1/2，从而获得较高分辨率的图像。

在构建了针对小目标的改进YOLOv5s检测模型后，将原始图像样本预处理后划分为训练集、测试集，使用训练集进行参数优化，这里的参数包括神经网络中所有参数，其训练过程随机使用数据增强，然后使用验证集进行参数选择，选取平均准确率最高的一组参数作为优化结果，从而得到优化后的小目标检测模型。

在一种可能的实施方式中，进行模型训练时，可以根据实际需要选择合适的原始图像样本进行训练。本公开实施例中，以COCO数据集2017版本为例进行说明，COCO数据集2017版本包含118287张训练图片，5000张验证图片，共有80个类别。

然后，将YOLOv5s的主干网络(即骨干网络，图2和图3中的BackBone)在数据集COCO上进预训练，使用交叉熵损失作为损失函数，通过反向传播更新网络的权重。

接下来，将训练好的网络的部分权重作为改进YOLOv5s的主干网络的权重，用上述数据集进行参数优化及参数选择。

本公开实施例中，在训练过程中可以随机使用图像裁剪、图像翻转、图像缩放、直方图均衡化中的任一种或多种数据增强技术。该过程不仅能够扩增训练数据量，还能够增强数据随机性，有利于获得泛化性能更强的小目标检测模型。

本公开实施例中，可以采用交叉熵计算分类损失，采用均方误差计算位置损失，采用交叉熵计算置信度损失，以此指导参数优化。在训练过程中，还采用随机梯度下降法优化损失函数，学习率初始为0.001，batch_size为64，最大迭代次数为300。需要说明的是，上述数据只是举例说明，并不对本方案进行限制。

本公开实施例中，在构建好小目标检测模型后，在进行目标检测任务时，将待检测图像输入训练后的小目标检测模型进行特征提取。

本公开实施例中，在目标检测过程中，通过小目标检测模型输出待检测图像中的特征检测框[x,y,w,h,probability]，其中(x,y)为检测框左上角的坐标，w为检测框沿着X轴的宽度，h为检测框沿着Y轴的高度，probability为分类概率。

然后，对预测目标进行非极大值抑制操作，通过计算相邻的特征检测框之间重叠部分的GIoU(Generalized Intersection over Union，泛化交并比)值，若相邻的特征检测框为同一类且GIoU值大于阈值，则合并相邻的检测框，得到待检测图像中的目标类别及位置。其中，相邻的检测框是否为同一类可以通过分类子网络进行判断；阈值的设置可以为[0，2]，例如，阈值可以0.7或1.1等，本领域技术人员可以根据实际需要进行设置。

需要说明的是，本公开实施例中的预测目标可以是待检测的小目标，也会有中大型的目标，本发明对此不做限制。

以下通过一组实验结果对本公开实施例中的小目标检测模型和YOLOv5s进行比较说明。本公开使用COCO数据集在yolov5s框架进行实验验证，实验结果如下表所示。

model	size	mAP	AP<sub>0.5</sub>	AP<sub>0.75</sub>	AP<sub>S</sub>	AP<sub>M</sub>	AP<sub>L</sub>	params	FLOPs
										YOLOv5s	640	0.368	0.555	0.402	0.209	0.423	0.470	7.3	17.0
本方案	640	0.376	0.558	0.410	0.216	0.424	0.492	7.0	17.2

其中，size表示图像分辨率，params表示参数量(Million，百万)，FLOPs表示浮点数计算量(Billion，十亿)，精确率P表示预测为正例中真正例(True Positive,TP)的比例。

AP_C表示属于某一类别C的各个实例的精确率P_j之和与类别C的实例总数Nc的比值。平均精准度均值(mean Average Precision，mean AP)即为AP的平均值，用于衡量模型在所有类别上训练效果的好坏。

mean AP@0.5表示交并比(Intersection over Union，IOU)为0.5时AP的均值；mean AP@0.5:0.95表示IOU从0.5取到0.95，间隔为0.05时AP的均值，该评估指标比AP@0.5更能体现出模型的精度。P、R均在IOU阈值为0.5进行统计，mAP@0.5记为AP_0.5，mAP@0.75记为AP_0.75，mAP@0.5:0.95记为mAP。AP_S、AP_M、AP_L分别表示小目标、中目标和大目标在0.5交并比下的平均精准度均值。

基于同一发明构思，如图4所示，本公开实施例还提供一种小目标检测装置400，包括输入模块401，用于将待检测图像输入到预先训练好的小目标检测模型；其中，在所述小目标检测模型中，利用成对的逆亚像素卷积操作和亚像素卷积操作分别对待检测图像信息进行编码和解码；特征提取模块402，用于通过所述小目标检测模型对所述待检测图像进行特征提取，输出所述待检测图像中的目标类别及位置。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图5是根据一示例性实施例示出的一种电子设备500的框图。如图5所示，该电子设备500可以包括：处理器501，存储器502。该电子设备500还可以包括多媒体组件503，输入/输出(I/O)接口504，以及通信组件505中的一者或多者。

其中，处理器501用于控制该电子设备500的整体操作，以完成上述的小目标检测方法中的全部或部分步骤。存储器502用于存储各种类型的数据以支持在该电子设备500的操作，这些数据例如可以包括用于在该电子设备500上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器502可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件503可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器502或通过通信组件505发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口504为处理器501和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件505用于该电子设备500与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G、4G、NB-IOT、eMTC、或其他5G等等，或它们中的一种或几种的组合，在此不做限定。因此相应的该通信组件505可以包括：Wi-Fi模块，蓝牙模块，NFC模块等等。

在一示例性实施例中，电子设备500可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的小目标检测方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的小目标检测方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器502，上述程序指令可由电子设备500的处理器501执行以完成上述的小目标检测方法。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的小目标检测方法的代码部分。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种小目标检测方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，构建所述小目标检测模型的方法包括：

3.如权利要求2所述的方法，其特征在于，所述目标检测层为所述主干网络中的C4检测层。

4.如权利要求2所述的方法，其特征在于，所述利用训练图像集训练改进后的YOLOv5s模型，得到所述小目标检测模型，包括：

使用所述训练集对所述改进后的YOLOv5s模型进行参数优化；

5.如权利要求4所述的方法，其特征在于，在利用训练图像集训练改进后的YOLOv5s模型的过程中，所述方法还包括：

6.如权利要求1所述的方法，其特征在于，通过所述小目标检测模型对所述待检测图像进行特征提取，输出所述待检测图像中的目标类别及位置，包括：

计算相邻的特征检测框之间的重叠部分的GIoU值；

7.一种小目标检测装置，其特征在于，包括：

8.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-6中任一项所述方法的步骤。

9.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-6中任一项所述方法的步骤。