CN116129239A - 一种小目标检测方法、装置、设备及存储介质 - Google Patents

一种小目标检测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116129239A
CN116129239A CN202211711659.9A CN202211711659A CN116129239A CN 116129239 A CN116129239 A CN 116129239A CN 202211711659 A CN202211711659 A CN 202211711659A CN 116129239 A CN116129239 A CN 116129239A
Authority
CN
China
Prior art keywords
feature map
weight
weighted
target
inputting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211711659.9A
Other languages
English (en)
Inventor
李永
卢隆
梁丞瑜
陈岩
李文成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianyi Cloud Technology Co Ltd
Original Assignee
Tianyi Cloud Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianyi Cloud Technology Co Ltd filed Critical Tianyi Cloud Technology Co Ltd
Priority to CN202211711659.9A priority Critical patent/CN116129239A/zh
Publication of CN116129239A publication Critical patent/CN116129239A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本申请实施例设计检测技术领域,提供了一种小目标检测方法、装置、设备及存储介质,包括:获取输入图像的第一特征图和第二特征图,第一特征图和所述第二特征图的尺度不同;按照第一特征图和第二特征图的自适应权重,对第一特征图和第二特征图进行加权,得到加权的第一特征图和加权的第二特征图,自适应权重用于根据特征图中目标大小程度,赋予与特征图中目标大小程度对应的融合权重;根据加权的第一特征图与加权的第二特征图,对输入图像中的小目标进行检测。本申请通过引入表征目标大小的不同尺度的特征图的自适应权重,提升了小目标检测的召回率,通过加权避免了大小目标的训练冲突,降低了训练优化过程的训练时间,提升预测值的性能。

Description

一种小目标检测方法、装置、设备及存储介质
技术领域
本申请实施例涉及检测技术领域,具体而言,涉及一种小目标检测方法、装置、设备及存储介质。
背景技术
目标检测是计算机视觉领域的一个重要分支,随着深度学习的发展,通用目标检测器如SSD、YOLO系列等得到了极大的发展。其中YOLOV5以其出色的推理速度及效果得到了极大的应用。由于摄像头(尤其在监控场景中)的远近的影响,摄像头中较远的小目标对YOLOV5检测器的效果带来了挑战。
YOLOV5作为一种一阶检测器,其在检测对象时采用启发式引导的特征选择,即:大目标通常与较高特征图相关联(此时特征图空间分辨率较小),而小目标通常与较低特征图相关联。因此,一旦图像中既含有大目标又含有小目标时,不同层级之间的特征存在冲突,这种冲突会干扰训练期间的梯度计算,并降低特征金字塔的有效性,从而使小目标检测的召回率降低,模型训练的收敛速度变慢,影响检测性能。因此,如何提升小目标检测的性能,成为当前亟待解决的问题。
发明内容
本申请实施例在于提供一种小目标检测方法、装置、设备及存储介质,旨在解决如何提升小目标检测的性能的问题。
本申请实施例第一方面提供一种小目标检测方法,包括:
获取输入图像的第一特征图和第二特征图,所述第一特征图和所述第二特征图的尺度不同;
按照所述第一特征图和所述第二特征图的自适应权重,对所述第一特征图和所述第二特征图进行加权,得到加权的第一特征图和加权的第二特征图,所述自适应权重用于根据特征图中目标大小程度,赋予与所述特征图中目标大小程度对应的融合权重;
根据所述加权的第一特征图与所述加权的第二特征图,对所述输入图像中的小目标进行检测。
在一种可选的实施方式中,所述自适应权重包括第一权重和第二权重,5按照针对于所述第一特征图的所述第一权重,对所述第一特征图进行加权,
得到加权的第一特征图,包括:
根据所述第一特征图得到第一权重;
将所述第一权重与所述第一特征图中的所有元素进行逐元素相乘,得到所述加权的第一特征图;
0所述自适应权重包括第一权重和第二权重,按照针对于所述第二特征图
的所述第二权重,对所述第二特征图进行加权,得到加权的第二特征图,包括:
根据所述第二特征图得到第二权重;
将所述第二权重与所述第二特征图中的所有元素进行逐元素相乘,得到5所述加权的第二特征图。
在一种可选的实施方式中,所述第一权重,按照如下方式获取:
对所述第一特征图进行池化,并基于目标卷积核进行卷积运算,得到所述第一特征图对应的第一权重,其中,所述目标卷积核的通道数与所述第一特征图的通道数相同。
0在一种可选的实施方式中,所述第二权重,按照如下方式获取:
对所述第二特征图进行通道信息减半,并进行上采样,得到初处理的第二特征图,所述初处理的第二特征图与所述第一特征图的尺度相同;
对所述初处理的第二特征图进行池化,并基于目标卷积核进行卷积运算,
得到所述第二特征图对应的第二权重,其中,所述目标卷积核的通道数与所5述第一特征图的通道数相同。
在一种可选的实施方式中,在得到所述第一权重和所述第二权重之后,包括:
基于Sigmoid函数对所述第一特征图对应的第一权重进行非线性化处理,得到非线性第一权重;
基于Sigmoid函数对所述第二特征图对应的第二权重进行非线性化处理,得到非线性第二权重。
在一种可选的实施方式中,根据所述加权的第一特征图与所述加权的第二特征图,对所述输入图像中的小目标进行检测,包括:
将所述加权的第一特征图中每个位置的元素,与所述加权的第二特征图中对应位置的元素进行相加,并将通道数进行翻倍,得到融合特征图;
基于所述融合特征图进行目标检测卷积运算,得到预测值。
在一种可选的实施方式中,所述方法应用于YOLOv5网络,所述YOLOv5网络包括主干网络、颈部聚合网络和头部检测网络;所述方法,还包括:
将所述输入图像输入所述主干网络进行下采样,得到所述第一特征图和所述第二特征图;
将所述第一特征图和所述第二特征图输入所述颈部聚合网络进行加权并融合,得到融合特征图;
将所述融合特征图输入所述头部检测网络,输出预测值。
在一种可选的实施方式中,所述颈部聚合网络包括FAWS模组、加权模组和融合模组,所述自适应权重包括第一权重和第二权重,将所述第一特征图和所述第二特征图输入所述颈部聚合网络进行加权并融合,得到融合特征图,包括:
将所述第一特征图和所述第二特征图输入所述FAWS模组,获取针对于所述第一特征图的所述第一权重,以及针对于所述第二特征图的所述第二权重;
将所述第一特征图与所述第一权重输入所述加权模组,并将所述第一权重与所述第一特征图中的所有元素进行逐元素相乘,得到所述加权的第一特征图;将所述第二特征图与所述第二权重输入所述加权模组,并将所述第二权重与所述第二特征图中的所有元素进行逐元素相乘,得到所述加权的第二特征图;
将所述加权的第一特征图的每个位置的元素,与所述加权的第二特征图中对应位置的元素进行相加,得到所述融合特征图。
在一种可选的实施方式中,所述FAWS模组包括池化单元、卷积单元和Sigmoid单元,将所述第一特征图输入所述FAWS模组,获取针对于所述第一特征图的所述第一权重,包括:
将所述第一特征图输入所述池化单元进行平均池化,得到池化的第一特征图;
将所述池化的第一特征图输入所述卷积单元,基于目标卷积核进行卷积运算,得到所述第一特征图对应的所述第一权重,其中,所述目标卷积核的通道数与所述第一特征图的通道数相同;
将所述第一权重输入所述Sigmoid单元,得到非线性第一权重,将所述非线性第一权重作为所述第一权重。
在一种可选的实施方式中,所述FAWS模组包括池化单元、卷积单元和Sigmoid单元,将所述第二特征图输入所述FAWS模组,获取针对于所述第二特征图的所述第二权重,包括:
对所述第二特征图进行通道信息减半,并进行上采样,得到初处理的第二特征图,所述初处理的第二特征图与所述第一特征图的尺度相同;
将所述初处理的第二特征图输入所述池化单元进行平均池化,得到池化的第二特征图;
将所述池化的第二特征图输入所述卷积单元,基于目标卷积核进行卷积运算,得到所述第二特征图对应的第二权重,其中,所述目标卷积核的通道数与所述第一特征图的通道数相同;
将所述第二权重输入所述Sigmoid单元,得到非线性第二权重,将所述非线性第二权重作为所述第二权重。
在一种可选的实施方式中,所述YOLOv5网络的训练过程,包括:
获取训练数据集;
在每一次训练时,将所述训练数据集中的所述输入图像输入初始YOLOv5网络,获取所述输入图像对应的所述预测值;
计算所述预测值对所述输入图像真值的损失,作为目标损失;
基于所述目标损失对所述初始YOLOv5网络的模型参数进行反向传播更新;
基于所述训练数据集对所述初始YOLOv5网络进行训练,得到所述YOLOv5网络。
在一种可选的实施方式中,在进行N个目标训练轮次之后,所述方法,还包括:
将验证数据集中的验证图像输入当前训练轮次的YOLOv5网络中,得到所述验证图像对应的召回率;
在所述验证图像对应的召回率提升值小于验证阈值的情况下,将所述当前训练轮次的YOLOv5网络作为最优YOLOv5网络。
本申请实施例第二方面提供了一种小目标检测装置,包括:
获取模块,用于获取输入图像的第一特征图和第二特征图,所述第一特征图和所述第二特征图的尺度不同;
加权模块,用于按照所述第一特征图和所述第二特征图的自适应权重,对所述第一特征图和所述第二特征图进行加权,得到加权的第一特征图和加权的第二特征图,所述自适应权重用于根据特征图中目标大小程度,赋予与所述特征图中目标大小程度对应的融合权重;
检测模块,用于根据所述加权的第一特征图与所述加权的第二特征图,对所述输入图像中的小目标进行检测。
其中,所述加权模块,包括:
第一权重获取子模块,用于根据所述第一特征图得到第一权重;
第一加权子模块,用于将所述第一权重与所述第一特征图中的所有元素进行逐元素相乘,得到所述加权的第一特征图。
其中,所述加权模块,包括:
第二权重获取子模块,用于根据所述第二特征图得到第二权重;
第二加权子模块,用于将所述第二权重与所述第二特征图中的所有元素进行逐元素相乘,得到所述加权的第二特征图。
其中,所述第一权重获取子模块,包括:
第一权重获取子单元,用于对所述第一特征图进行池化,并基于目标卷积核进行卷积运算,得到所述第一特征图对应的第一权重,其中,所述目标卷积核的通道数与所述第一特征图的通道数相同。
其中,所述第二权重获取子模块,包括:
初处理子单元,用于对所述第二特征图进行通道信息减半,并进行上采样,得到初处理的第二特征图,所述初处理的第二特征图与所述第一特征图的尺度相同;
第二权重获取子单元,用于对所述初处理的第二特征图进行池化,并基于目标卷积核进行卷积运算,得到所述第二特征图对应的第二权重,其中,所述目标卷积核的通道数与所述第一特征图的通道数相同。
其中,所述加权模块,还包括:
第一非线性子模块,用于基于Sigmoid函数对所述第一特征图对应的第一权重进行非线性化处理,得到非线性第一权重;
第二非线性子模块,用于基于Sigmoid函数对所述第二特征图对应的第二权重进行非线性化处理,得到非线性第二权重。
其中,所述检测模块,包括:
融合子模块,用于将所述加权的第一特征图中每个位置的元素,与所述加权的第二特征图中对应位置的元素进行相加,并将通道数进行翻倍,得到融合特征图;
检测子模块,用于基于所述融合特征图进行目标检测卷积运算,得到预测值。
所述装置,还包括:
主干网络模块,用于将所述输入图像输入所述主干网络进行下采样,得到所述第一特征图和所述第二特征图;
颈部聚合网络模块,用于将所述第一特征图和所述第二特征图输入所述颈部聚合网络进行加权并融合,得到融合特征图;
头部检测网络模块,用于将所述融合特征图输入所述头部检测网络,输出预测值。
其中,所述颈部聚合网络模块,还包括:
FAWS子模块,用于将所述第一特征图和所述第二特征图输入所述FAWS模组,获取针对于所述第一特征图的所述第一权重,以及针对于所述第二特征图的所述第二权重;
加权子模块,用于将所述第一特征图与所述第一权重输入所述加权模组,并将所述第一权重与所述第一特征图中的所有元素进行逐元素相乘,得到所述加权的第一特征图;将所述第二特征图与所述第二权重输入所述加权模组,并将所述第二权重与所述第二特征图中的所有元素进行逐元素相乘,得到所述加权的第二特征图;
融合子模块,用于将所述加权的第一特征图的每个位置的元素,与所述加权的第二特征图中对应位置的元素进行相加,得到所述融合特征图。
其中,所述FAWS子模块,包括:
第一池化子单元,用于将所述第一特征图输入所述池化单元进行平均池化,得到池化的第一特征图;
第一卷积子单元,用于将所述池化的第一特征图输入所述卷积单元,基于目标卷积核进行卷积运算,得到所述第一特征图对应的所述第一权重,其中,所述目标卷积核的通道数与所述第一特征图的通道数相同;
第一Sigmoid子单元,用于将所述第一权重输入所述Sigmoid单元,得到非线性第一权重,将所述非线性第一权重作为所述第一权重
其中,所述FAWS子模块,还包括:
初处理子单元,用于对所述第二特征图进行通道信息减半,并进行上采样,得到初处理的第二特征图,所述初处理的第二特征图与所述第一特征图的尺度相同;
第二池化子单元,用于将所述初处理的第二特征图输入所述池化单元进行平均池化,得到池化的第二特征图;
第二卷积子单元,用于将所述池化的第二特征图输入所述卷积单元,基于目标卷积核进行卷积运算,得到所述第二特征图对应的第二权重,其中,所述目标卷积核的通道数与所述第一特征图的通道数相同;
第二Sigmoid子单元,用于将所述第二权重输入所述Sigmoid单元,得到非线性第二权重,将所述非线性第二权重作为所述第二权重。
其中,所述装置,还包括:
训练集获取模块,用于获取训练数据集;
预测值获取模块,用于在每一次训练时,将所述训练数据集中的所述输入图像输入初始YOLOv5网络,获取所述输入图像对应的所述预测值;
损失计算模块,用于计算所述预测值对所述输入图像真值的损失,作为目标损失;
优化模块,用于基于所述目标损失对所述初始YOLOv5网络的模型参数进行反向传播更新;
重复训练模块,用于基于所述训练数据集对所述初始YOLOv5网络进行训练,得到所述YOLOv5网络。
其中,所述装置,还包括:
验证模块,用于将验证数据集中的验证图像输入当前训练轮次的YOLOv5网络中,得到所述验证图像对应的召回率;
最优网络确定模块,用于在所述验证图像对应的召回率提升值小于验证阈值的情况下,将所述当前训练轮次的YOLOv5网络作为最优YOLOv5网络。
本申请实施例第三方面提供了一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,所述处理器执行所述计算机程序以实现第一方面中任一所述的小目标检测方法中的步骤。
本申请实施例第四方面提供了一种计算机可读存储介质,其上存储有计算机程序/指令,该计算机程序/指令被处理器执行时实现第一方面中任一所述的小目标检测方法中的步骤。
有益效果:
本申请提供了一种小目标检测方法、装置、设备及存储介质,包括:获取输入图像的第一特征图和第二特征图,所述第一特征图和所述第二特征图的尺度不同;按照所述第一特征图和所述第二特征图的自适应权重,对所述第一特征图和所述第二特征图进行加权,得到加权的第一特征图和加权的第二特征图,所述自适应权重用于根据特征图中目标大小程度,赋予与所述特征图中目标大小程度对应的融合权重;根据所述加权的第一特征图与所述加权的第二特征图,对所述输入图像中的小目标进行检测。本申请通过引入表征目标大小的不同尺度的特征图的自适应权重,一方面提升了小目标检测的召回率,从而提升预测值的性能;另一方面通过加权避免了大小目标的训练冲突,降低了训练优化过程的训练时间。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提出的一种小目标检测方法流程图;
图2是本申请一实施例提出的现有技术中的YOLOv5网络结构示意图;
图3是本申请一实施例提出的现有技术中的YOLOv5网络结构框架模组图;
图4是本申请一实施例提出的一种颈部聚合框架构成结构示意图;
图5是本申请一实施例提出的一种FAWS模组框架构成结构示意图;
图6是本申请一实施例提出的一种小目标检测装置示意图;
图7是本申请一实施例提出的一种电子设备示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
相关技术中,目标检测是计算机视觉领域的一个重要分支,随着深度学习的发展通用目标检测器如SSD、YOLO系列等得到了极大的发展。其中YOLOv5以其出色的推理速度及效果得到了极大的应用。由于摄像头(尤其在监控场景中)的远近的影响,小目标的检测对YOLOv5检测器的效果带来了挑战。
具体而言,在卷积神经网络过程中,网络层数越深,目标的特征信息就越强,模型对目标的预测就更好,但同时也会使得目标的位置信息越来越弱。并且在不断的卷积过程中,小物体目标本身具有的像素信息就较少,随着网络层数不断地加深,在下采样的过程中极易对小目标的信息造成损失,因此,需要进行对特征进行多尺度融合来进行不同尺度的预测。
YOLOv5作为一种一阶检测器,其在检测对象时采用启发式引导的特征选择,即:大目标通常与较高特征图相关联(此时特征图空间分辨率较小),而小目标通常与较低特征图相关联。因此,一旦图像中既含有大目标又含有小目标时,不同层级之间的特征存在冲突(正负样本有自己的界定方式,例如iou、距离等。某一目标在不同层级特征图上,可能被划定为正样本,也可能被划定为负样本。他们都想在特征金字塔中占据主要地位)。这种冲突会干扰训练期间的梯度计算,并降低特征金字塔的有效性,从而使小目标检测的召回率降低,模型训练的收敛速度变慢,影响检测性能。
有鉴于此,本申请实施例提出一种小目标检测方法,图1示出了一种小目标检测方法流程图,如图1所示,包括如下步骤:
S101、获取输入图像的第一特征图和第二特征图。
获取输入图像的第一特征图和第二特征图,所述第一特征图和所述第二特征图的尺度不同。
S102、按照所述第一特征图和所述第二特征图的自适应权重,对所述第一特征图和所述第二特征图进行加权,得到加权的第一特征图和加权的第二特征图。
按照所述第一特征图和所述第二特征图的自适应权重,对所述第一特征图和所述第二特征图进行加权,得到加权的第一特征图和加权的第二特征图,所述自适应权重用于根据特征图中目标大小程度,赋予与所述特征图中目标大小程度对应的融合权重。
S103、根据所述加权的第一特征图与所述加权的第二特征图,对所述输入图像中的小目标进行检测。
本申请实施例中,所述第一特征图和所述第二特征图为根据输入图像获取的不同尺度的特征图,例如输入图像为分辨率大小为640×640的图像,第一特征图为大小为20×20×1024的图像,第二特征图为40×40×512的图像。其中,不同尺度的特征图可以反映不同目标大小的特征信息,具体而言,小目标本身具有的像素信息较少,因此小目标通常与较低层级的特征图相关联,而大目标通常与较高层级的特征图相关联;在基于输入图像获取不同尺度的特征图过程中,特征图层级越来越高,空间分辨率逐渐变小,特征图中的大目标的信息成为正样本,小目标的信息成为负样本。因此,同一目标在不同层级的特征图中,所体现的特征信息会出现冲突,影响目标的预测性能。
本申请实施例中,所述自适应权重用于根据特征图中目标大小程度,赋予与所述特征图中目标大小程度对应的融合权重。在对于不同层级的特征图进行特征融合时,通过获取不同层级的特征图对应的自适应权重对特征图进行加权,使得加权的特征图中不同大小程度的目标,能够在不同层级的特征图中界定为相同的目标信息,避免因目标大小导致不同层级特征图内的特征信息冲突,提升检测性能。
为了使本领域技术人员更好的理解本申请的方案,接下来对本申请的方法进行详细介绍:
具体实施步骤S101时,首先获取目标检测数据集,按照预设比例对目标检测数据集进行划分,得到训练数据集、验证数据集以及测试数据集。需要说明的是,划分目标检测数据集的预设比例可根据实际情况进行确定,本申请对此不作限制。例如,按照5:3:2的预设比例对目标检测数据集中的图像数据进行划分,得到训练数据集、验证数据集以及测试数据集。其中,训练数据集用于模型训练,验证数据集用于对模型进行验证确定最优架构,测试数据集用于执行下游任务进行相关目标检测任务。随后,将测试数据集中的图像作为输入图像,对所述输入图像进行多次下采样处理,得到多个不同尺度的特征图,选择其中两个不同尺度的特征图,分别作为第一特征图和第二特征图。例如,对输入图像进行下采样得到三个特征图A、特征图B和特征图C,其中特征图A、特征图B和特征图C的尺度各不相同,可以将特征图A作为第一特征图,特征图B作为第二特征图;也可以将特征图A作为第一特征图,特征图C作为第二特征图;还可以将特征图B作为第一特征图,特征图C作为第二特征图。
在一种可选的实施方式中,在对输入图像进行多次下采样之前,对测试数据集中的输入图像进行预处理。具体而言,通过开源标注工具对测试数据集中的输入图像进行标注清洗。需要说明的是,开源标注工具可以选用现有技术中的标注清洗工具,例如labelme、标注精灵等开源标注工具,具体的开源标注工具可根据实际情况确定,本申请在此不作限制。
具体实施步骤S102时,首先获取第一特征图以及第二特征图对应的自适应权重。其中,第一特征图对应的自适应权重为第一权重,第二特征图对应的自适应权重为第二权重。具体而言,对尺度为H×W×Cin的第一特征图在通道上进行池化处理,降低所述第一特征图的特征维度,得到池化的第一特征图,该池化的第一特征图为1×1×Cin的第一特征图,通道数Cin与第一特征图相同。通过对第一特征图进行池化,可以有效降低后续对特征图卷积运算的计算成本。可选地,对第一特征图进行的池化处理可以为平均池化处理(globalaverage pooling,gap)。
随后,基于目标卷积核对池化的第一特征图进行卷积运算,得到所述第一特征图对应的第一权重W1,其中,所述目标卷积核的通道数与所述第一特征图的通道数相同,卷积核大小为1×1×Cin;该经过卷积运算得到的第一权重W1的数据类型为标量(scalar),大小为1×1×1。
在一种可选的实施方式中,在得到针对于第一特征图的第一权重W1之后,基于Sigmoid函数对所述第一特征图对应的第一权重进行非线性化处理,得到非线性第一权重,将该非线性第一权重作为最终的针对于第一特征图的第一权重W1
然后获取针对于第二特征图的第二权重。具体而言,对尺度为H’×W’×Cin’的第二特征图先进行初步处理,使第二特征图与第一特征图的尺度相同。具体而言,先将第二特征图的通道数进行通道信息处理,使第二特征图的通道数Cin’与第一特征图相同;随后对第二特征图进行上采样,使第二特征图的尺度与所述第一特征图保持一致。例如,若第一特征图为40×40×512的大小,第二特征图为20×20×1024的大小,则先对第二特征图的通道数进行减半,随后经过上采样,得到大小为40×40×512的初处理的第二特征图。
随后,对于初处理的第二特征图,在通道上进行池化处理,降低所述第二特征图的特征维度,得到池化的第二特征图,该池化的第二特征图为1×1×Cin的第二特征图。通过对初处理的第二特征图进行池化,可以有效降低后续对特征图卷积运算的计算成本。可选地,对第二特征图进行的池化处理可以为平均池化处理(global average pooling,gap)。
随后,基于目标卷积核对池化的第二特征图进行卷积运算,得到所述第二特征图对应的第二权重W2,其中,所述目标卷积核的通道数与所述初处理的第二特征图的通道数相同,卷积核大小为1×1×Cin;该经过卷积运算得到的第二权重W2的数据类型为标量(scalar),大小为1×1×1。
在一种可选的实施方式中,在得到针对于第二特征图的第二权重W2之后,基于Sigmoid函数对所述第二特征图对应的第二权重进行非线性化处理,得到非线性第二权重,将该非线性第二权重作为最终的针对于第二特征图的第二权重W2
至此得到的针对于第一特征图的第一权重和针对于第二特征图的第二权重,接下来基于第一权重对第二特征图进行加权,基于第二权重对第二特征图进行加权,通过加权的方式在第一特征图和第二特征图中引入目标大小的影响。具体而言,将所述第一权重W1与所述第一特征图中的所有元素进行逐元素相乘,得到所述加权的第一特征图;将所述第二权重W2与所述初处理的第二特征图中的所有元素进行逐元素相乘,得到所述加权的第二特征图。
具体实施步骤S103时,由于初处理的第二特征图与第一特征图的尺度相同,因此所得到的加权的第二特征图与加权的第一特征图的尺度相同,每个元素的位置一一对应。因此,通过将所述加权的第一特征图中每个位置的元素,与所述加权的第二特征图中对应位置的元素进行相加,得到融合特征图,该融合特征图的尺度与第一特征图相同。
在一种可选的实施方式中,在得到融合特征图之后,对所述融合特征图进行通道翻倍,使融合特征图的通道数与现有技术中融合特征图的形状保持一致,便于后续进行常规的预测。
至此,得到了融合特征图,与常规的融合特征图相比,本申请的融合过程引入了表征目标大小的权重,使得基于该自适应权重的第一特征图和第二特征图在进行融合时能够体现目标大小在不同尺度上特征图的重要程度,基于该融合特征图进行预测的结果可以有效提升小目标检测的性能。最后,将该融合特征图输入目标检测的卷积模块中进行目标检测,输出对应于输入图像的预测值。
在一种可选的实施方式中,本申请提供的小目标检测方法应用于YOLOv5网络,图2示出了现有技术中的YOLOv5网络结构示意图,如图2所示,所述YOLOv5网络包括主干网络(backbone)、颈部聚合网络(neck)和头部检测网络(head),其中,主干网络用于对输入图像进行特征提取,获取不同尺度的多个特征图;颈部集合网络用于收集模型不同阶段的特征图进行特征融合;头部检测网络用于基于融合特征预测目标类别及位置。图3示出了现有技术中的YOLOv5网络结构框架模组图,如图2-图3所示,现有技术中的YOLOv5网络采用Concat模组对主干网络提取的不同尺度的特征图进行融合,而在进行融合的过程中每个尺度的特征图未引入权重来表征特征图中目标大小程度,因此现有的YOLOv5网络在处理具有小目标的图像时,网络架构的性能较差,召回率较低,且由于现有技术中的YOLOv5网络中会存在大小目标的训练冲突,导致基于目标损失的训练优化过程中,收敛慢,训练时间过长。
本申请实施例中,首先将所述输入图像输入所述主干网络进行下采样,主干网络中包括多个CBS模组,用于增加特征图的通道信息融合,对通道数进行改变。通过主干网络中的CBS模组处理所述输入图像,得到多个不同尺度的特征图,将其中不同尺度的两个特征图作为所述第一特征图f1和所述第二特征图f2
随后将所述第一特征图和第二特征图输入所述颈部聚合网络进行加权并融合,图4示出了一种颈部聚合框架构成结构示意图,如图4所示,其中,所述颈部聚合网络包括FAWS模组、加权模组和融合模组,先将所述第一特征图和所述第二特征图输入所述FAWS模组,获取针对于所述第一特征图的所述第一权重,以及针对于所述第二特征图的所述第二权重。
其中,图5示出了一种FAWS模组框架构成结构示意图,如图5所示,FAWS模组包括池化单元、卷积单元和Sigmoid单元,通过FAWS模组获取特征图对应的自适应权重,自适应权重包括第一权重和第二权重。首先,将所述第一特征图输入所述池化单元GAP,进行平均池化(global average pooling,gap),得到池化的第一特征图;将所述池化的第一特征图输入所述卷积单元Conv,基于目标卷积核进行卷积运算,得到所述第一特征图对应的所述第一权重,其中,所述目标卷积核的通道数与所述第一特征图的通道数相同;最后,将所述第一权重输入所述Sigmoid单元,得到非线性第一权重,将所述非线性第一权重作为所述第一权重W1
随后,对所述第二特征图进行通道信息减半,并进行上采样,得到初处理的第二特征图,所述初处理的第二特征图与所述第一特征图的尺度相同;将所述初处理的第二特征图输入所述池化单元进行平均池化(global average pooling,gap),得到池化的第二特征图;将所述池化的第二特征图输入所述卷积单元Conv,基于目标卷积核进行卷积运算,得到所述第二特征图对应的第二权重,其中,所述目标卷积核的通道数与所述第一特征图的通道数相同;最后,将所述第二权重输入所述Sigmoid单元,得到非线性第二权重,将所述非线性第二权重作为所述第二权重W2
在得到第一权重和第二权重之后,将所述第一特征图与所述第一权重输入所述加权模组,并将所述第一权重W1与所述第一特征图f1中的所有元素进行逐元素相乘(Multiply),得到所述加权的第一特征图f1,w;将所述第二特征图与所述第二权重输入所述加权模组,并将所述第二权重与所述第二特征图中的所有元素进行逐元素相乘(Multiply),得到所述加权的第二特征图f2,w;随后,将所述加权的第一特征图的每个位置的元素,与所述加权的第二特征图中对应位置的元素进行相加(add),得到所述融合特征图f1,2,fuse
在一种可选的实施方式中,在得到所述融合特征图之后,将所述融合特征图输入CBS模组进行通道数翻倍,使融合特征图形状与现有技术中Concat得到的融合特征图形状一样,得到最终的融合特征图。
在一种可选的实施方式中,所述YOLOv5网络采用反向传播的方式进行训练优化,具体而言,首先获取训练数据集,其中训练数据集为按照预设比例对目标检测数据集进行划分得到的。随后,将训练数据集中的图像作为输入图像,输入初始YOLOv5网络,按照初始YOLOv5网络的模组进行数据处理,得到对应于输入图像的预测值。具体的初始YOLOv5网络的架构可参见上述内容,此处不再赘述。
在一种可选的实施方式中,获取训练数据集之后,对训练数据集中的图像进行预处理,预处理具体包括统一分辨率和归一化像素值,具体预处理的方式可参见现有技术,本申请在此不作限制。
在得到输入图像对应的预测值之后,基于该预测值与所述输入图像的真值标签,计算所述预测值对所述输入图像真值的损失,作为目标损失;计算所述目标损失对所述初始YOLOv5网络中的模型参数的梯度,对所述初始YOLOv5网络的模型参数进行反向传播更新。基于所述训练数据集中的所有图像,重复训练优化所述初始YOLOv5网络的模型参数,得到所述YOLOv5网络。
在训练过程中,设置目标训练轮次,在每次完成目标训练轮次的训练之后,对当前训练轮次进行验证集的验证。具体而言,将验证数据集中的验证图像输入当前训练轮次的YOLOv5网络中,得到所述验证图像对应的召回率;在所述验证图像对应的召回率提升值小于验证阈值的情况下,将所述当前训练轮次的YOLOv5网络作为最优YOLOv5网络。需要说明的是,目标训练轮次可根据实际情况确定,本申请在此不作限制。例如,目标训练轮次为30,在进行完成60个训练轮次之后,将验证数据集中的验证图像输入当前第60个训练轮次更新优化的YOLOv5网络中,得到所述验证图像对应的召回率,计算本次验证图像对应的召回率与上一次验证图像对应的召回率(第30个训练轮次更新优化的YOLOv5网络输出的召回率)的提升值,若所述提升值小于验证阈值,将所述当前训练轮次的YOLOv5网络作为最优YOLOv5网络;若所述提升值大于或等于验证阈值,继续后续的训练轮次,直至输出最优YOLOv5网络。
为使本领域技术人员更加清楚地理解本申请,现通过以下实施例对本申请所述的小目标检测方法进行详细说明。
实施例一
采用本申请方法改进的YOLOv5网络处理绿化损坏检测的任务,由于摄像头(尤其在监控场景中)的远近的影响,在绿化损坏场景中,输入图像数据中存在较远的绿化损坏小目标。首先获取标注绿化损坏的目标检测数据集,先对标注绿化损坏的目标检测数据集中的数据进行标注清洗,并调整目标检测数据集中数据的导出标注结果到PascalVOC xml格式,然后转换到YOLO txt格式。随后按照6:2:2的预设比例对目标检测数据集进行划分,得到训练数据集、验证数据集以及测试数据集。
将测试数据集中的图像(分辨率大小640×640)作为输入图像,对所述输入图像进行多次下采样处理,得到三个不同尺度的特征图:80×80×256的特征图f1,40×40×512的特征图f2以及20×20×1024的特征图f3。选择其中两个不同尺度的特征图f2和f3,分别作为第一特征图f2和第二特征图f3
首先获取第一特征图f2以及第二特征图f3对应的自适应权重。具体而言,对尺度为40×40×512的第一特征图f2在通道上进行平均池化处理(global average pooling,gap),降低所述第一特征图f2的特征维度,得到池化的第一特征图w2=1×1×512。随后,基于目标卷积核对池化的第一特征图w2进行卷积运算,并基于Sigmoid函数进行非线性化处理,得到所述第一特征图对应的第一权重W1=1×1×1。
然后获取针对于第二特征图的第二权重。具体而言,对尺度为20×20×1024的第二特征图f3先进行初步处理,使第二特征图f3与第一特征图f2的尺度相同。具体而言,先将第二特征图f3的通道数进行通道减半,使第二特征图通道减半为20×20×512;随后进行上采样,得到大小为40×40×512的初处理的第二特征图。
随后,对于初处理的第二特征图,在通道上进行平均池化处理(global averagepooling,gap),降低所述第二特征图的特征维度,得到池化的第二特征图w3=1×1×512。随后,基于目标卷积核对池化的第二特征图进行卷积运算,并基于Sigmoid函数进行非线性化处理,得到所述第二特征图对应的第二权重W2=1×1×1。
随后,将所述第一权重W1与所述第一特征图f2中的所有元素进行逐元素相乘,得到所述加权的第一特征图f2,w=40×40×512;将所述第二权重W2与所述初处理的第二特征图f3中的所有元素进行逐元素相乘,得到所述加权的第二特征图f3,w=40×40×512。将所述加权的第一特征图f2,w中每个位置的元素,与所述加权的第二特征图f3,w中对应位置的元素进行相加,得到融合特征图f2,3,fuse,在对该融合特征图进行通道翻倍,得到最终的融合特征图f2,3,fuse=40×40×1024。最后,将该融合特征图f2,3,fuse输入目标检测的卷积模块中进行目标检测,输出对应于输入图像的预测值。
在一种可选的实施方式中,所述采用本申请方法改进的YOLOv5网络按照如下方式进行训练:首先获取训练数据集,其中训练数据集为按照上述预设比例对目标检测数据集进行划分得到的,得到训练数据集之后,对训练数据集中的图像进行预处理,预处理具体包括统一分辨率和归一化像素值;随后,将训练数据集中的图像作为输入图像,输入初始YOLOv5网络的主干网络,对于640×640的输入图像,经过主干网络的下采样得到80×80、40×40、20×20的特征图。
随后将不同尺度的特征图输入颈部聚合网络,获取不同尺度的特征图对应的自适应权重,基于自适应权重对特征图进行加权得到加权的特征图;将所述加权的特征图输入头部预测网络中的卷积模块进行预测,得到预测值。
在得到输入图像对应的预测值之后,基于该预测值与所述输入图像的真值标签,计算所述预测值对所述输入图像真值的损失,作为目标损失;计算所述目标损失对所述初始YOLOv5网络中的模型参数的梯度,对所述初始YOLOv5网络的模型参数进行反向传播更新。基于所述训练数据集中的所有图像,重复训练优化所述初始YOLOv5网络的模型参数,得到所述YOLOv5网络。
在训练过程中的经过N个目标训练轮次后,基于验证数据集中的数据进行效果验证,将验证数据集中的验证图像输入当前训练轮次的YOLOv5网络中,得到所述验证图像对应的召回率;在所述验证图像对应的召回率提升值小于验证阈值的情况下,将所述当前训练轮次的YOLOv5网络作为最优YOLOv5网络。
本申请提供了一种小目标检测方法,包括:获取输入图像的第一特征图和第二特征图,所述第一特征图和所述第二特征图的尺度不同;按照所述第一特征图和所述第二特征图的自适应权重,对所述第一特征图和所述第二特征图进行加权,得到加权的第一特征图和加权的第二特征图,所述自适应权重用于根据特征图中目标大小程度,赋予与所述特征图中目标大小程度对应的融合权重;根据所述加权的第一特征图与所述加权的第二特征图,对所述输入图像中的小目标进行检测。本申请的方法通过引入表征目标大小的不同尺度的特征图的自适应权重,一方面提升了小目标检测的召回率,从而提升预测值的性能;另一方面通过加权避免了大小目标的训练冲突,降低了训练优化过程的训练时间。
基于同一发明构思,本申请实施例公开一种小目标检测装置,图6示出了一种小目标检测装置示意图,如图6所示,包括:
获取模块,用于获取输入图像的第一特征图和第二特征图,所述第一特征图和所述第二特征图的尺度不同;
加权模块,用于按照所述第一特征图和所述第二特征图的自适应权重,对所述第一特征图和所述第二特征图进行加权,得到加权的第一特征图和加权的第二特征图,所述自适应权重用于根据特征图中目标大小程度,赋予与所述特征图中目标大小程度对应的融合权重;
检测模块,用于根据所述加权的第一特征图与所述加权的第二特征图,对所述输入图像中的小目标进行检测。
其中,所述加权模块,包括:
第一权重获取子模块,用于根据所述第一特征图得到第一权重;
第一加权子模块,用于将所述第一权重与所述第一特征图中的所有元素进行逐元素相乘,得到所述加权的第一特征图。
其中,所述加权模块,包括:
第二权重获取子模块,用于根据所述第二特征图得到第二权重;
第二加权子模块,用于将所述第二权重与所述第二特征图中的所有元素进行逐元素相乘,得到所述加权的第二特征图。
其中,所述第一权重获取子模块,包括:
第一权重获取子单元,用于对所述第一特征图进行池化,并基于目标卷积核进行卷积运算,得到所述第一特征图对应的第一权重,其中,所述目标卷积核的通道数与所述第一特征图的通道数相同。
其中,所述第二权重获取子模块,包括:
初处理子单元,用于对所述第二特征图进行通道信息减半,并进行上采样,得到初处理的第二特征图,所述初处理的第二特征图与所述第一特征图的尺度相同;
第二权重获取子单元,用于对所述初处理的第二特征图进行池化,并基于目标卷积核进行卷积运算,得到所述第二特征图对应的第二权重,其中,所述目标卷积核的通道数与所述第一特征图的通道数相同。
其中,所述加权模块,还包括:
第一非线性子模块,用于基于Sigmoid函数对所述第一特征图对应的第一权重进行非线性化处理,得到非线性第一权重;
第二非线性子模块,用于基于Sigmoid函数对所述第二特征图对应的第二权重进行非线性化处理,得到非线性第二权重。
其中,所述检测模块,包括:
融合子模块,用于将所述加权的第一特征图中每个位置的元素,与所述加权的第二特征图中对应位置的元素进行相加,并将通道数进行翻倍,得到融合特征图;
检测子模块,用于基于所述融合特征图进行目标检测卷积运算,得到预测值。
所述装置,还包括:
主干网络模块,用于将所述输入图像输入所述主干网络进行下采样,得到所述第一特征图和所述第二特征图;
颈部聚合网络模块,用于将所述第一特征图和所述第二特征图输入所述颈部聚合网络进行加权并融合,得到融合特征图;
头部检测网络模块,用于将所述融合特征图输入所述头部检测网络,输出预测值。
其中,所述颈部聚合网络模块,还包括:
FAWS子模块,用于将所述第一特征图和所述第二特征图输入所述FAWS模组,获取针对于所述第一特征图的所述第一权重,以及针对于所述第二特征图的所述第二权重;
加权子模块,用于将所述第一特征图与所述第一权重输入所述加权模组,并将所述第一权重与所述第一特征图中的所有元素进行逐元素相乘,得到所述加权的第一特征图;将所述第二特征图与所述第二权重输入所述加权模组,并将所述第二权重与所述第二特征图中的所有元素进行逐元素相乘,得到所述加权的第二特征图;
融合子模块,用于将所述加权的第一特征图的每个位置的元素,与所述加权的第二特征图中对应位置的元素进行相加,得到所述融合特征图。
其中,所述FAWS子模块,包括:
第一池化子单元,用于将所述第一特征图输入所述池化单元进行平均池化,得到池化的第一特征图;
第一卷积子单元,用于将所述池化的第一特征图输入所述卷积单元,基于目标卷积核进行卷积运算,得到所述第一特征图对应的所述第一权重,其中,所述目标卷积核的通道数与所述第一特征图的通道数相同;
第一Sigmoid子单元,用于将所述第一权重输入所述Sigmoid单元,得到非线性第一权重,将所述非线性第一权重作为所述第一权重
其中,所述FAWS子模块,还包括:
初处理子单元,用于对所述第二特征图进行通道信息减半,并进行上采样,得到初处理的第二特征图,所述初处理的第二特征图与所述第一特征图的尺度相同;
第二池化子单元,用于将所述初处理的第二特征图输入所述池化单元进行平均池化,得到池化的第二特征图;
第二卷积子单元,用于将所述池化的第二特征图输入所述卷积单元,基于目标卷积核进行卷积运算,得到所述第二特征图对应的第二权重,其中,所述目标卷积核的通道数与所述第一特征图的通道数相同;
第二Sigmoid子单元,用于将所述第二权重输入所述Sigmoid单元,得到非线性第二权重,将所述非线性第二权重作为所述第二权重。
其中,所述装置,还包括:
训练集获取模块,用于获取训练数据集;
预测值获取模块,用于在每一次训练时,将所述训练数据集中的所述输入图像输入初始YOLOv5网络,获取所述输入图像对应的所述预测值;
损失计算模块,用于计算所述预测值对所述输入图像真值的损失,作为目标损失;
优化模块,用于基于所述目标损失对所述初始YOLOv5网络的模型参数进行反向传播更新;
重复训练模块,用于基于所述训练数据集对所述初始YOLOv5网络进行训练,得到所述YOLOv5网络。
其中,所述装置,还包括:
验证模块,用于将验证数据集中的验证图像输入当前训练轮次的YOLOv5网络中,得到所述验证图像对应的召回率;
最优网络确定模块,用于在所述验证图像对应的召回率提升值小于验证阈值的情况下,将所述当前训练轮次的YOLOv5网络作为最优YOLOv5网络。
基于同一发明构思,本申请实施例公开了一种电子设备,图7示出了本申请实施例公开的电子设备示意图,如图7所示,电子设备100包括:存储器110和处理器120,存储器110与处理器120之间通过总线通信连接,存储器110中存储有计算机程序,该计算机程序可在处理器120上运行,以实现本申请实施例公开的小目标检测方法中的步骤。
基于同一发明构思,本申请实施例公开了一种计算机可读存储介质,其上存储有计算机程序/指令,该计算机程序/指令被处理器执行时实现本申请实施例公开的小目标检测方法中的步骤。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本发明实施例是参照根据本发明实施例的方法、装置、电子设备和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的小目标检测方法、装置、设备及存储介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (15)

1.一种小目标检测方法,其特征在于,包括:
获取输入图像的第一特征图和第二特征图,所述第一特征图和所述第二特征图的尺度不同;
按照所述第一特征图和所述第二特征图的自适应权重,对所述第一特征图和所述第二特征图进行加权,得到加权的第一特征图和加权的第二特征图,所述自适应权重用于根据特征图中目标大小程度,赋予与所述特征图中目标大小程度对应的融合权重;
根据所述加权的第一特征图与所述加权的第二特征图,对所述输入图像中的小目标进行检测。
2.根据权利要求1所述的小目标检测方法,其特征在于,所述自适应权重包括第一权重和第二权重,按照针对于所述第一特征图的所述第一权重,对所述第一特征图进行加权,得到加权的第一特征图,包括:
根据所述第一特征图得到第一权重;
将所述第一权重与所述第一特征图中的所有元素进行逐元素相乘,得到所述加权的第一特征图;
所述自适应权重包括第一权重和第二权重,按照针对于所述第二特征图的所述第二权重,对所述第二特征图进行加权,得到加权的第二特征图,包括:
根据所述第二特征图得到第二权重;
将所述第二权重与所述第二特征图中的所有元素进行逐元素相乘,得到所述加权的第二特征图。
3.根据权利要求2所述的小目标检测方法,其特征在于,所述第一权重,按照如下方式获取:
对所述第一特征图进行池化,并基于目标卷积核进行卷积运算,得到所述第一特征图对应的第一权重,其中,所述目标卷积核的通道数与所述第一特征图的通道数相同。
4.根据权利要求2所述的小目标检测方法,其特征在于,所述第二权重,按照如下方式获取:
对所述第二特征图进行通道信息减半,并进行上采样,得到初处理的第二特征图,所述初处理的第二特征图与所述第一特征图的尺度相同;
对所述初处理的第二特征图进行池化,并基于目标卷积核进行卷积运算,得到所述第二特征图对应的第二权重,其中,所述目标卷积核的通道数与所述第一特征图的通道数相同。
5.根据权利要求2所述的小目标检测方法,其特征在于,在得到所述第一权重和所述第二权重之后,包括:
基于Sigmoid函数对所述第一特征图对应的第一权重进行非线性化处理,得到非线性第一权重;
基于Sigmoid函数对所述第二特征图对应的第二权重进行非线性化处理,得到非线性第二权重。
6.根据权利要求1所述的小目标检测方法,其特征在于,根据所述加权的第一特征图与所述加权的第二特征图,对所述输入图像中的小目标进行检测,包括:
将所述加权的第一特征图中每个位置的元素,与所述加权的第二特征图中对应位置的元素进行相加,并将通道数进行翻倍,得到融合特征图;
基于所述融合特征图进行目标检测卷积运算,得到预测值。
7.根据权利要求1所述的小目标检测方法,其特征在于,所述方法应用于YOLOv5网络,所述YOLOv5网络包括主干网络、颈部聚合网络和头部检测网络;所述方法,还包括:
将所述输入图像输入所述主干网络进行下采样,得到所述第一特征图和所述第二特征图;
将所述第一特征图和所述第二特征图输入所述颈部聚合网络进行加权并融合,得到融合特征图;
将所述融合特征图输入所述头部检测网络,输出预测值。
8.根据权利要求7所述的小目标检测方法,其特征在于,所述颈部聚合网络包括FAWS模组、加权模组和融合模组,所述自适应权重包括第一权重和第二权重,将所述第一特征图和所述第二特征图输入所述颈部聚合网络进行加权并融合,得到融合特征图,包括:
将所述第一特征图和所述第二特征图输入所述FAWS模组,获取针对于所述第一特征图的所述第一权重,以及针对于所述第二特征图的所述第二权重;
将所述第一特征图与所述第一权重输入所述加权模组,并将所述第一权重与所述第一特征图中的所有元素进行逐元素相乘,得到所述加权的第一特征图;将所述第二特征图与所述第二权重输入所述加权模组,并将所述第二权重与所述第二特征图中的所有元素进行逐元素相乘,得到所述加权的第二特征图;
将所述加权的第一特征图的每个位置的元素,与所述加权的第二特征图中对应位置的元素进行相加,得到所述融合特征图。
9.根据权利要求8所述的小目标检测方法,其特征在于,所述FAWS模组包括池化单元、卷积单元和Sigmoid单元,将所述第一特征图输入所述FAWS模组,获取针对于所述第一特征图的所述第一权重,包括:
将所述第一特征图输入所述池化单元进行平均池化,得到池化的第一特征图;
将所述池化的第一特征图输入所述卷积单元,基于目标卷积核进行卷积运算,得到所述第一特征图对应的所述第一权重,其中,所述目标卷积核的通道数与所述第一特征图的通道数相同;
将所述第一权重输入所述Sigmoid单元,得到非线性第一权重,将所述非线性第一权重作为所述第一权重。
10.根据权利要求8所述的小目标检测方法,其特征在于,所述FAWS模组包括池化单元、卷积单元和Sigmoid单元,将所述第二特征图输入所述FAWS模组,获取针对于所述第二特征图的所述第二权重,包括:
对所述第二特征图进行通道信息减半,并进行上采样,得到初处理的第二特征图,所述初处理的第二特征图与所述第一特征图的尺度相同;
将所述初处理的第二特征图输入所述池化单元进行平均池化,得到池化的第二特征图;
将所述池化的第二特征图输入所述卷积单元,基于目标卷积核进行卷积运算,得到所述第二特征图对应的第二权重,其中,所述目标卷积核的通道数与所述第一特征图的通道数相同;
将所述第二权重输入所述Sigmoid单元,得到非线性第二权重,将所述非线性第二权重作为所述第二权重。
11.根据权利要求7所述的小目标检测方法,其特征在于,所述YOLOv5网络的训练过程,包括:
获取训练数据集;
在每一次训练时,将所述训练数据集中的所述输入图像输入初始YOLOv5网络,获取所述输入图像对应的所述预测值;
计算所述预测值对所述输入图像真值的损失,作为目标损失;
基于所述目标损失对所述初始YOLOv5网络的模型参数进行反向传播更新;
基于所述训练数据集对所述初始YOLOv5网络进行训练,得到所述YOLOv5网络。
12.根据权利要求11所述的小目标检测方法,其特征在于,在进行N个目标训练轮次之后,所述方法,还包括:
将验证数据集中的验证图像输入当前训练轮次的YOLOv5网络中,得到所述验证图像对应的召回率;
在所述验证图像对应的召回率提升值小于验证阈值的情况下,将所述当前训练轮次的YOLOv5网络作为最优YOLOv5网络。
13.一种小目标检测装置,其特征在于,包括:
获取模块,用于获取输入图像的第一特征图和第二特征图,所述第一特征图和所述第二特征图的尺度不同;
加权模块,用于按照所述第一特征图和所述第二特征图的自适应权重,对所述第一特征图和所述第二特征图进行加权,得到加权的第一特征图和加权的第二特征图,所述自适应权重用于根据特征图中目标大小程度,赋予与所述特征图中目标大小程度对应的融合权重;
检测模块,用于根据所述加权的第一特征图与所述加权的第二特征图,对所述输入图像中的小目标进行检测。
14.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上的计算机程序,所述处理器执行所述计算机程序以实现权利要求1-12中任一所述的小目标检测方法中的步骤。
15.一种计算机可读存储介质,其上存储有计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1-12中任一所述的小目标检测方法中的步骤。
CN202211711659.9A 2022-12-29 2022-12-29 一种小目标检测方法、装置、设备及存储介质 Pending CN116129239A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211711659.9A CN116129239A (zh) 2022-12-29 2022-12-29 一种小目标检测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211711659.9A CN116129239A (zh) 2022-12-29 2022-12-29 一种小目标检测方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN116129239A true CN116129239A (zh) 2023-05-16

Family

ID=86309488

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211711659.9A Pending CN116129239A (zh) 2022-12-29 2022-12-29 一种小目标检测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116129239A (zh)

Similar Documents

Publication Publication Date Title
KR102641116B1 (ko) 데이터 증강에 기초한 인식 모델 트레이닝 방법 및 장치, 이미지 인식 방법 및 장치
KR101967089B1 (ko) 컨볼루션 신경망 기반의 완전 기준 이미지 품질 평가
CN108805016B (zh) 一种头肩区域检测方法及装置
CN111582141B (zh) 人脸识别模型训练方法、人脸识别方法及装置
CN107507153B (zh) 图像去噪方法和装置
TW201947463A (zh) 模型測試的方法及裝置
CN110866872B (zh) 一种路面裂缝图片预处理智能选择方法、装置及电子设备
CN110826581A (zh) 一种动物数量识别方法、装置、介质及电子设备
CN111179196A (zh) 一种基于分而治之的多分辨率深度网络图像去高光方法
CN112365428B (zh) 一种基于dqn的高速公路监测视频去雾方法和系统
CN116129239A (zh) 一种小目标检测方法、装置、设备及存储介质
US10776923B2 (en) Segmenting irregular shapes in images using deep region growing
CN111611835A (zh) 一种船只检测方法及装置
CN116106909A (zh) 一种雷达回波外推方法、系统及存储介质
CN112016599B (zh) 用于图像检索的神经网络训练方法、装置及电子设备
CN115393252A (zh) 显示面板的缺陷检测方法、装置、电子设备及存储介质
KR102421289B1 (ko) 패러렐 디시전 보팅 알고리즘에 따른 영상기반 시정 탐지 학습 방법 및 학습 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치
CN112861601A (zh) 生成对抗样本的方法及相关设备
CN111627056B (zh) 基于深度估计的行车能见度确定方法及装置
CN116630367B (zh) 目标跟踪方法、装置、电子设备及存储介质
KR102516199B1 (ko) 특징검출을 위한 필터가 포함된 인공신경망을 이용한 비전 검사를 위한 장치 및 이를 위한 방법
CN117197592B (zh) 一种目标检测模型训练方法、装置、电子设备及介质
EP4328857A1 (en) Disparity estimation method and apparatus, and image processing device and storage medium
EP3796220A1 (en) Training a generator based on a confidence score provided by a discriminator
CN112396648B (zh) 一种可定位目标物质心的目标识别方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100007 room 205-32, floor 2, building 2, No. 1 and No. 3, qinglonghutong a, Dongcheng District, Beijing

Applicant after: Tianyiyun Technology Co.,Ltd.

Address before: 100093 Floor 4, Block E, Xishan Yingfu Business Center, Haidian District, Beijing

Applicant before: Tianyiyun Technology Co.,Ltd.

CB02 Change of applicant information