CN117036985A - 一种面向视频卫星图像的小目标检测方法及装置 - Google Patents
一种面向视频卫星图像的小目标检测方法及装置 Download PDFInfo
- Publication number
- CN117036985A CN117036985A CN202311299444.5A CN202311299444A CN117036985A CN 117036985 A CN117036985 A CN 117036985A CN 202311299444 A CN202311299444 A CN 202311299444A CN 117036985 A CN117036985 A CN 117036985A
- Authority
- CN
- China
- Prior art keywords
- frame
- corner
- representing
- module
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 80
- 230000006870 function Effects 0.000 claims abstract description 75
- 230000008447 perception Effects 0.000 claims abstract description 37
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 12
- 238000003064 k means clustering Methods 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 230000004927 fusion Effects 0.000 claims description 36
- 238000000034 method Methods 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 16
- 238000010586 diagram Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 10
- 238000002372 labelling Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 4
- 238000007621 cluster analysis Methods 0.000 claims description 4
- 239000007787 solid Substances 0.000 claims 1
- 238000013527 convolutional neural network Methods 0.000 description 7
- 238000011176 pooling Methods 0.000 description 7
- 230000009286 beneficial effect Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000010276 construction Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
- G06V10/763—Non-hierarchical techniques, e.g. based on statistics of modelling distributions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Probability & Statistics with Applications (AREA)
- Astronomy & Astrophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Remote Sensing (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种面向视频卫星图像的小目标检测方法及装置,包括:获取待检测图像,对所述待检测图像进行预处理,得到目标图像;获取预设的标注框,基于K‑means聚类算法,利用所述标注框自适应计算目标图像的锚框;基于YOLOv5模型,构建边缘感知模块;其中边缘感知模块由通道注意力模块和空间注意力模块组成;为所述边缘感知模块构建边角对齐交并比损失函数;对所述锚框进行调整得到目标图像的预测框,基于所述交并比损失函数,通过具有预测框的目标图像对所述边缘感知模块进行训练,得到小目标检测模型;将所述待检测图像输入所述小目标检测模型,得到待检测图像的小目标检测结果。
Description
技术领域
本发明属于计算机视觉技术领域,特别涉及一种面向视频卫星图像的小目标检测方法及装置。
背景技术
根据MS COCO数据集的定义,通常将尺寸小于32×32像素的目标定义为微小目标。微小目标检测具有广泛的应用前景,在自动驾驶、智慧医疗、缺陷检测和航拍图像分析等诸多领域发挥着重要作用。然而,相对于常规尺寸的目标,微小目标通常缺乏充足的外观信息,因此难以将它们与背景或相似的目标区分开来。在目标检测公共数据集,微小目标的检测性能通常只有大目标的一半。由此可见,微小目标检测仍然是充满挑战的。此外,真实场景是错综复杂的,通常会存在光照剧烈变化、目标遮挡、目标稠密相连和目标尺度变化等问题,而这些因素对微小目标特征的影响是更加剧烈的,进一步加大了微小目标检测的难度。事实上,微小目标检测具有重要的研究意义和应用价值。对于视频卫星,图像中的目标,例如车、船、飞机可能只有几十甚至几个像素,精确地检测出卫星图像中的微小目标具有广泛的应用价值和重要的研究意义。
现有技术中,研究人员基于卷积神经网络 (convolutional neural networks,CNN)来进行小面向视频卫星图像的目标检测任务的各种难题。然而,在实际卫星场景中,小物体的边界往往不清晰。因此,卷积神经网络难以提取准确的边缘特征,导致预测框的定位不准确或相邻和相似特征之间的混淆。这个问题严重影响了小物体检测器的精度。
发明内容
本发明提供了一种面向视频卫星图像的小目标检测方法及装置,旨在解决上述现有技术中存在的在实际卫星场景中,小物体的边界往往不清晰。因此,卷积神经网络难以提取准确的边缘特征,导致预测框的定位不准确或相邻和相似特征之间的混淆的技术问题。
本发明解决上述技术问题的技术方案如下:一种面向视频卫星图像的小目标检测方法,包括:
S1:获取待检测图像,对所述待检测图像进行预处理,得到目标图像;
S2:获取预设的标注框,基于K-means聚类算法,利用所述标注框自适应计算目标图像的锚框;
S3:基于YOLOv5模型,构建边缘感知模块;其中边缘感知模块由通道注意力模块和空间注意力模块组成;
S4:为所述边缘感知模块构建边角对齐交并比损失函数;
S5:对所述锚框进行调整得到目标图像的预测框,基于所述交并比损失函数,通过具有预测框的目标图像对所述边缘感知模块进行训练,得到小目标检测模型;
S6:将所述待检测图像输入所述小目标检测模型,得到待检测图像的小目标检测结果。
本发明的有益效果是:本发明有效缓解了卷积神经网络对于面向视频卫星图像的检测任务中小目标边缘丢失的问题,能够增强对于小目标边缘信息的提取,实现了更加精准的预测框定位。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,上述S1具体为:
S1.1:将待检测图像缩放或拉伸到预设像素值,得到像素调整图像;
S1.2:对所述像素调整图像进行数据增强,得到数据增强图像;
S1.3:对所述数据增强图中的待识别目标的特征参数进行处理,得到目标图像。
采用上述进一步方案的有益效果是:本发明通过对待检测图像进行像素调整,数据增强以及特征处理,得到能够统一化处理的目标图像。数据增强包括:调整饱和度、调整曝光度、平移、左右翻转、Mosaic和混合。
进一步,上述S2具体为:
S2.1:获取预设的标注框数据集;
S2.2:基于K-means聚类算法,利用标注框数据集对所述目标图像进行初始化处理,以在所述目标图像中生成多个标注框;获取目标图像中所有标注框的边框值,从所有边框值中随机选取n个边框值并对应作为各个锚框的初始值,基于各个锚框的初始值与所有标注框的边框值,计算各个锚框与所有标注框的交并比值;其中,n为锚框的总数量;
S2.3:选择各个锚框与所有标注框的交并比值中最高的交并比值作为各个锚框的临时值,计算所有锚框的临时值的平均值,根据所述平均值调整目标图像中每个锚框的尺寸,得到具有限定尺寸的锚框。
进一步,上述通过S3中的所述边缘感知模块对输入的目标图像进行处理的具体步骤为:
将所述通道注意力模块和所述空间注意力模块进行加权融合,得到融合模块;将所述目标图像输入所述融合模块,得到融合特征图;其中,得到融合特征图的公式为:
;
其中,表示融合特征图,X表示输入的目标图像,/>是SiLU激活函数,/>和/>是权重因子,/>表示通道注意力模块,/>表示空间注意力模块;
将所述融合特征图依次输入通道注意力模块和空间注意力模块,得到融合增强特征图;其中,得到融合增强特征图的公式为:
;
其中,表示融合增强特征图。
采用上述进一步方案的有益效果是:本发明的通道注意力模块由全局平均池化和自适应核卷积的一维卷积组成,空间注意力模块由最大池化、平均池化和7×7的卷积组成,基于通道注意力模块和空间注意力模块,实现边缘感知模块的构建。
进一步,上述S4中,所述边角对齐交并比损失函数包括边对齐损失函数、角对齐损失函数和交并比损失函数,其中,所述边对齐损失函数如下式所示:
;
其中,表示边对齐损失函数,SA表示边对齐,SA为:
;
其中,表示预测框的角点与真实框的角点在坐标x方向上的最短的相对距离;/>表示预测框的角点与真实框的角点在坐标x方向上的最长的相对距离;/>表示预测框的角点与真实框的角点在坐标y方向上的最短的相对距离;/>表示预测框的角点与真实框的角点在坐标y方向上的最长的相对距离;
所述角对齐损失函数如下式所示:
;
其中,表示角对齐损失函数,/>为欧氏距离函数,/>表示预测框的左上角点,/>表示真实框的左上角点,/>表示预测框的右下角点,/>为真实框的右下角点,/>和分别表示覆盖预测框和真实框的最小包围框的左上角点和右下角点;
所述边角对齐交并比损失函数如下式所示:
;
其中,表示边角对齐交并比损失函数,/>为权重因子,/>表示交并比。
采用上述进一步方案的有益效果是:本发明通过计算交并比损失函数,使最后得到的预测框能够更加精确。
进一步,上述S3中,所述边缘感知模块设置有三个不同尺度的检测输出模块,用于输出三个不同尺度的小目标检测结果。
采用上述进一步方案的有益效果是:本发明利用多尺度预测提升小目标检测性能,最终通过三个尺度的检测头预测得到最终结果。
第二方面,本发明为了解决上述技术问题还提供了一种面向视频卫星图像的小目标检测装置,包括:
预处理模块,用于获取待检测图像,对所述待检测图像进行预处理,得到目标图像;
聚类分析模块,用于获取预设的标注框,基于K-means聚类算法,利用所述标注框自适应计算目标图像的锚框;
构建边缘感知模块,用于基于YOLOv5模型,构建边缘感知模块;其中边缘感知模块由通道注意力模块和空间注意力模块组成;
边角对齐交并比损失函数模块,用于为所述边缘感知模块构建边角对齐交并比损失函数;
训练模块,用于对所述锚框进行调整得到目标图像的预测框,基于所述交并比损失函数,通过具有预测框的目标图像对所述边缘感知模块进行训练,得到小目标检测模型;
检测模块,用于将所述待检测图像输入所述小目标检测模型,得到待检测图像的小目标检测结果。
第三方面,本发明为了解决上述技术问题还提供了一种电子设备,该电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行该计算机程序时实现本申请的面向视频卫星图像的小目标检测方法。
第四方面,本发明为了解决上述技术问题还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现本申请的面向视频卫星图像的小目标检测方法。
本申请附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
图1为本发明一个实施例提供的一种面向视频卫星图像的小目标检测方法的流程示意图;
图2为本发明一个实施例提供的一种面向视频卫星图像的小目标检测装置的结构示意图;
图3为本发明一个实施例提供的一种电子设备的结构示意图;
图4为本发明一个实施例提供的一种面向视频卫星图像的小目标检测装置的步骤示意图;
图5为本发明一个实施例提供的一种面向视频卫星图像的小目标检测装置的边缘感知模块示意图;
图6为本发明一个实施例计算边角对齐交并比损失函数时预测框和真实框的示意图。
具体实施方式
以下对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
下面以具体实施例对本发明的技术方案以及本发明的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明的实施例进行描述。
本发明实施例提供了一种可能的实现方式,如图1所示,提供了一种面向视频卫星图像的小目标检测方法的流程示意图,该方法可以包括以下步骤:
S1:获取待检测图像,对所述待检测图像进行预处理,得到目标图像;
S2:获取预设的标注框,基于K-means聚类算法,利用所述标注框自适应计算目标图像的锚框;
S3:基于YOLOv5模型,构建边缘感知模块;其中边缘感知模块由通道注意力模块和空间注意力模块组成;
S4:为所述边缘感知模块构建边角对齐交并比损失函数;
S5:对所述锚框进行调整得到目标图像的预测框,基于所述交并比损失函数,通过具有预测框的目标图像对所述边缘感知模块进行训练,得到小目标检测模型;
S6:将所述待检测图像输入所述小目标检测模型,得到待检测图像的小目标检测结果。
其中,本发明有效缓解了卷积神经网络对于面向视频卫星图像的检测任务中小目标边缘丢失的问题,能够增强对于小目标边缘信息的提取,实现了更加精准的预测框定位。
可选的,S1具体为:
S1.1:将待检测图像缩放或拉伸到预设像素值,得到像素调整图像;本实施例中预设像素值为640×640像素;
S1.2:对所述像素调整图像进行数据增强,得到数据增强图像;
S1.3:对所述数据增强图中的待识别目标的特征参数进行处理,得到目标图像。
其中,本发明通过对待检测图像进行像素调整,数据增强以及特征处理,得到能够统一化处理的目标图像。数据增强包括:调整饱和度、调整曝光度、平移、左右翻转、Mosaic和混合。
可选的,S2具体为:
S2.1:获取预设的标注框数据集;
S2.2:基于K-means聚类算法,利用标注框数据集对所述目标图像进行初始化处理,以在所述目标图像中生成多个标注框;获取目标图像中所有标注框的边框值,从所有边框值中随机选取n个边框值并对应作为各个锚框的初始值,基于各个锚框的初始值与所有标注框的边框值,计算各个锚框与所有标注框的交并比值;其中,n为锚框的总数量;
S2.3:选择各个锚框与所有标注框的交并比值中最高的交并比值作为各个锚框的临时值,计算所有锚框的临时值的平均值,根据所述平均值调整目标图像中每个锚框的尺寸,得到具有限定尺寸的锚框。
本实施例中,通过K-means聚类算法,对步骤1.2中得到的样本数据训练所标注的待识别目标的真实目标边界框进行聚类分析;初始化9个anchor box,通过在所有的bounding boxes边界框中随机选取9个值作为anchor boxes的初始值;计算每个boundingbox与每个anchor box的交并比值,之后对对于每个bounding box选取其最高的那个交并比值,然后求所有bounding box的平均值,即最后的精确度值;最终得到9个精确的anchorbox作为网络的预测值。
可选的,S3中,通过所述边缘感知模块对输入的目标图像进行处理的具体步骤为:
将所述通道注意力模块和所述空间注意力模块进行加权融合,得到融合模块;将所述目标图像输入所述融合模块,得到融合特征图;其中,得到融合特征图的公式为:
其中,表示融合特征图,X表示输入的目标图像,/>是SiLU激活函数,/>和/>是权重因子,/>表示通道注意力模块,/>表示空间注意力模块;
将所述融合特征图依次输入通道注意力模块和空间注意力模块,得到融合增强特征图;其中,得到融合增强特征图的公式为:
其中,表示融合增强特征图。
其中,本发明的通道注意力模块由全局平均池化和自适应核卷积的一维卷积组成,空间注意力模块由最大池化、平均池化和7×7的卷积组成,基于通道注意力模块和空间注意力模块,实现边缘感知模块的构建。
本实施例中,如图4所示,本设计步骤在YOLOv5网络模型上进行,YOLOv5网络模型的Backbone包括一个或多个CBS模块和C3模块,一个空间金字塔池化(Spatial PyramidPool,SPP)模块。在网络颈部和3个不同尺度的YOLO检测头之间加入如图5所示的通道注意力和空间注意力的边缘感知模块。分别对应小、中、大目标对象。
可选的, S4中,所述边角对齐交并比损失函数包括边对齐损失函数、角对齐损失函数和交并比损失函数,其中,所述边对齐损失函数如下式所示:
其中,表示边对齐损失函数,SA表示边对齐(Side align),SA为:
其中,表示预测框的角点与真实框的角点在坐标x方向上的最短的相对距离;/>表示预测框的角点与真实框的角点在坐标x方向上的最长的相对距离;/>表示预测框的角点与真实框的角点在坐标y方向上的最短的相对距离;/>表示预测框的角点与真实框的角点在坐标y方向上的最长的相对距离;
如图6所示,其中,,,/>,,预测框为/>,真实框为;
所述角对齐损失函数如下式所示:
其中,表示角对齐损失函数,/>为欧氏距离函数,/>表示预测框的左上角点,/>表示真实框的左上角点,/>表示预测框的右下角点,/>为真实框的右下角点,/>和分别表示覆盖预测框和真实框的最小包围框的左上角点和右下角点;
所述交并比损失函数如下式所示:
其中,表示交并比损失函数,/>为权重因子,/>表示交并比。
权重因子在本实施例中设置为0.5。本实施例中,在网络计算损失部分使用边角对齐交并比损失函数。
其中,本发明通过计算交并比损失函数,使最后得到的预测框能够更加精确。
可选的,S3中,所述边缘感知模块设置有三个不同尺度的检测输出模块,用于输出三个不同尺度的小目标检测结果。
其中,本发明利用多尺度预测提升小目标检测性能,最终通过三个尺度的检测头预测得到最终结果。
基于与图1中所示的方法相同的原理,本发明实施例还提供了一种面向视频卫星图像的小目标检测装置,如图2中所示,该面向视频卫星图像的小目标检测装置可以包括:
预处理模块,用于获取待检测图像,对所述待检测图像进行预处理,得到目标图像;
聚类分析模块,用于获取预设的标注框,基于K-means聚类算法,利用所述标注框自适应计算目标图像的锚框;
构建边缘感知模块,用于基于YOLOv5模型,构建边缘感知模块;其中边缘感知模块由通道注意力模块和空间注意力模块组成;
边角对齐交并比损失函数模块,用于为所述边缘感知模块构建边角对齐交并比损失函数;
训练模块,用于对所述锚框进行调整得到目标图像的预测框,基于所述交并比损失函数,通过具有预测框的目标图像对所述边缘感知模块进行训练,得到小目标检测模型;
检测模块,用于将所述待检测图像输入所述小目标检测模型,得到待检测图像的小目标检测结果。
本发明实施例的面向视频卫星图像的小目标检测装置可执行本发明实施例所提供的面向视频卫星图像的小目标检测方法,其实现原理相类似,本发明各实施例中的面向视频卫星图像的小目标检测装置中的各模块、单元所执行的动作是与本发明各实施例中的面向视频卫星图像的小目标检测方法中的步骤相对应的,对于面向视频卫星图像的小目标检测装置的各模块的详细功能描述具体可以参见前文中所示的对应的面向视频卫星图像的小目标检测方法中的描述,此处不再赘述。
其中,上述面向视频卫星图像的小目标检测装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该面向视频卫星图像的小目标检测装置为一个应用软件;该装置可以用于执行本发明实施例提供的方法中的相应步骤。
在一些实施例中,本发明实施例提供的面向视频卫星图像的小目标检测装置可以采用软硬件结合的方式实现,作为示例,本发明实施例提供的面向视频卫星图像的小目标检测装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的面向视频卫星图像的小目标检测方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable GateArray)或其他电子元件。
在另一些实施例中,本发明实施例提供的面向视频卫星图像的小目标检测装置可以采用软件方式实现,图2示出了存储在存储器中的面向视频卫星图像的小目标检测装置,其可以是程序和插件等形式的软件,并包括一系列的模块,包括预处理模块,聚类分析模块,构建边缘感知模块,边角对齐交并比损失函数模块,训练模块,检测模块,用于实现本发明实施例提供的方法。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块的名称在某种情况下并不构成对该模块本身的限定。
基于与本发明的实施例中所示的方法相同的原理,本发明的实施例中还提供了一种电子设备,该电子设备可以包括但不限于:处理器和存储器;存储器,用于存储计算机程序;处理器,用于通过调用计算机程序执行本发明任一实施例所示的方法。
在一个可选实施例中提供了一种电子设备,如图3所示,图3所示的电子设备包括:处理器和存储器。其中,处理器和存储器相连,如通过总线相连。可选地,电子设备还可以包括收发器,收发器可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器不限于一个,该电子设备的结构并不构成对本发明实施例的限定。
处理器可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegratedCircuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线可包括一通路,在上述组件之间传送信息。总线可以是PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry StandardArchitecture,扩展工业标准结构)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(ElectricallyErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(CompactDiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器用于存储执行本发明方案的应用程序代码(计算机程序),并由处理器来控制执行。处理器用于执行存储器中存储的应用程序代码,以实现前述方法实施例所示的内容。
其中,电子设备也可以是终端设备,图3示出的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
本发明实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。
根据本发明的另一个方面,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种实施例实现方式中提供的方法。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
应该理解的是,附图中的流程图和框图,图示了按照本发明各种实施例的方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本发明实施例提供的计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备执行上述实施例所示的方法。
以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本发明中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (6)
1.一种面向视频卫星图像的小目标检测方法,其特征在于,包括:
S1:获取待检测图像,对所述待检测图像进行预处理,得到目标图像;
S2:获取预设的标注框,基于K-means聚类算法,利用所述标注框自适应计算目标图像的锚框;S2具体为:
S2.1:获取预设的标注框数据集;
S2.2:基于K-means聚类算法,利用标注框数据集对所述目标图像进行初始化处理,以在所述目标图像中生成多个标注框;获取目标图像中所有标注框的边框值,从所有边框值中随机选取n个边框值并对应作为各个锚框的初始值,基于各个锚框的初始值与所有标注框的边框值,计算各个锚框与所有标注框的交并比值;其中,n为锚框的总数量;
S2.3:选择各个锚框与所有标注框的交并比值中最高的交并比值作为各个锚框的临时值,计算所有锚框的临时值的平均值,根据所述平均值调整目标图像中每个锚框的尺寸,得到具有限定尺寸的锚框;
S3:基于YOLOv5模型,构建边缘感知模块;其中边缘感知模块由通道注意力模块和空间注意力模块组成;
通过S3中的所述边缘感知模块对输入的目标图像进行处理的具体步骤为:
将所述通道注意力模块和所述空间注意力模块进行加权融合,得到融合模块;将所述目标图像输入所述融合模块,得到融合特征图;其中,得到融合特征图的公式为:
;
其中,表示融合特征图,X表示输入的目标图像,/>是SiLU激活函数,/>和/>是权重因子,/>表示通道注意力模块,/>表示空间注意力模块;
将所述融合特征图依次输入通道注意力模块和空间注意力模块,得到融合增强特征图;其中,得到融合增强特征图的公式为:
;
其中,表示融合增强特征图;
S4:为所述边缘感知模块构建边角对齐交并比损失函数;
S4中,所述边角对齐交并比损失函数包括边对齐损失函数、角对齐损失函数和交并比损失函数,其中,所述边对齐损失函数如下式所示:
;
其中,表示边对齐损失函数,SA表示边对齐,SA为:
;
其中,表示预测框的角点与真实框的角点在坐标x方向上的最短的相对距离;表示预测框的角点与真实框的角点在坐标x方向上的最长的相对距离;/>表示预测框的角点与真实框的角点在坐标y方向上的最短的相对距离;/>表示预测框的角点与真实框的角点在坐标y方向上的最长的相对距离;
所述角对齐损失函数如下式所示:
;
其中,表示角对齐损失函数,/>为欧氏距离函数,/>表示预测框的左上角点,表示真实框的左上角点,/>表示预测框的右下角点,/>为真实框的右下角点,/>和/>分别表示覆盖预测框和真实框的最小包围框的左上角点和右下角点;
所述边角对齐交并比损失函数如下式所示:
;
其中,表示边角对齐交并比损失函数,/>为权重因子,/>表示交并比;
S5:对所述锚框进行调整得到目标图像的预测框,基于所述交并比损失函数,通过具有预测框的目标图像对所述边缘感知模块进行训练,得到小目标检测模型;
S6:将所述待检测图像输入所述小目标检测模型,得到待检测图像的小目标检测结果。
2.根据权利要求1所述的一种面向视频卫星图像的小目标检测方法,其特征在于,S1具体为:
S1.1:将待检测图像缩放或拉伸到预设像素值,得到像素调整图像;
S1.2:对所述像素调整图像进行数据增强,得到数据增强图像;
S1.3:对所述数据增强图中的待识别目标的特征参数进行处理,得到目标图像。
3.根据权利要求1所述的一种面向视频卫星图像的小目标检测方法,其特征在于,S3中,所述边缘感知模块设置有三个不同尺度的检测输出模块,用于输出三个不同尺度的小目标检测结果。
4.一种面向视频卫星图像的小目标检测装置,其特征在于,包括:
预处理模块,用于获取待检测图像,对所述待检测图像进行预处理,得到目标图像;
聚类分析模块,用于获取预设的标注框,基于K-means聚类算法,利用所述标注框自适应计算目标图像的锚框;具体为:
获取预设的标注框数据集;
基于K-means聚类算法,利用标注框数据集对所述目标图像进行初始化处理,以在所述目标图像中生成多个标注框;获取目标图像中所有标注框的边框值,从所有边框值中随机选取n个边框值并对应作为各个锚框的初始值,基于各个锚框的初始值与所有标注框的边框值,计算各个锚框与所有标注框的交并比值;其中,n为锚框的总数量;
选择各个锚框与所有标注框的交并比值中最高的交并比值作为各个锚框的临时值,计算所有锚框的临时值的平均值,根据所述平均值调整目标图像中每个锚框的尺寸,得到具有限定尺寸的锚框;构建边缘感知模块,用于基于YOLOv5模型,构建边缘感知模块;其中边缘感知模块由通道注意力模块和空间注意力模块组成;
通过所述边缘感知模块对输入的目标图像进行处理的具体步骤为:
将所述通道注意力模块和所述空间注意力模块进行加权融合,得到融合模块;将所述目标图像输入所述融合模块,得到融合特征图;其中,得到融合特征图的公式为:
;
其中,表示融合特征图,X表示输入的目标图像,/>是SiLU激活函数,/>和/>是权重因子,/>表示通道注意力模块,/>表示空间注意力模块;
将所述融合特征图依次输入通道注意力模块和空间注意力模块,得到融合增强特征图;其中,得到融合增强特征图的公式为:
;
其中,表示融合增强特征图;
边角对齐交并比损失函数模块,用于为所述边缘感知模块构建边角对齐交并比损失函数;
所述边角对齐交并比损失函数包括边对齐损失函数、角对齐损失函数和交并比损失函数,其中,所述边对齐损失函数如下式所示:
;
其中,表示边对齐损失函数,SA表示边对齐,SA为:
;
其中,表示预测框的角点与真实框的角点在坐标x方向上的最短的相对距离;表示预测框的角点与真实框的角点在坐标x方向上的最长的相对距离;/>表示预测框的角点与真实框的角点在坐标y方向上的最短的相对距离;/>表示预测框的角点与真实框的角点在坐标y方向上的最长的相对距离;
所述角对齐损失函数如下式所示:
;
其中,表示角对齐损失函数,/>为欧氏距离函数,/>表示预测框的左上角点,表示真实框的左上角点,/>表示预测框的右下角点,/>为真实框的右下角点,/>和/>分别表示覆盖预测框和真实框的最小包围框的左上角点和右下角点;
所述边角对齐交并比损失函数如下式所示:
;
其中,表示边角对齐交并比损失函数,/>为权重因子,/>表示交并比;
训练模块,用于对所述锚框进行调整得到目标图像的预测框,基于所述交并比损失函数,通过具有预测框的目标图像对所述边缘感知模块进行训练,得到小目标检测模型;
检测模块,用于将所述待检测图像输入所述小目标检测模型,得到待检测图像的小目标检测结果。
5.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1-3中任一项所述的方法。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-3中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311299444.5A CN117036985B (zh) | 2023-10-09 | 2023-10-09 | 一种面向视频卫星图像的小目标检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311299444.5A CN117036985B (zh) | 2023-10-09 | 2023-10-09 | 一种面向视频卫星图像的小目标检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117036985A true CN117036985A (zh) | 2023-11-10 |
CN117036985B CN117036985B (zh) | 2024-02-06 |
Family
ID=88626758
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311299444.5A Active CN117036985B (zh) | 2023-10-09 | 2023-10-09 | 一种面向视频卫星图像的小目标检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117036985B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112016605A (zh) * | 2020-08-19 | 2020-12-01 | 浙江大学 | 一种基于边界框角点对齐和边界匹配的目标检测方法 |
CN113298024A (zh) * | 2021-06-11 | 2021-08-24 | 长江大学 | 一种基于轻量化神经网络的无人机对地小目标识别方法 |
US20220067335A1 (en) * | 2020-08-26 | 2022-03-03 | Beijing University Of Civil Engineering And Architecture | Method for dim and small object detection based on discriminant feature of video satellite data |
CN114882410A (zh) * | 2022-05-11 | 2022-08-09 | 华东交通大学 | 基于改进定位损失函数的隧道顶灯故障检测方法及系统 |
CN115661628A (zh) * | 2022-10-28 | 2023-01-31 | 桂林理工大学 | 一种基于改进YOLOv5S模型的鱼类检测方法 |
CN115731164A (zh) * | 2022-09-14 | 2023-03-03 | 常州大学 | 基于改进YOLOv7的绝缘子缺陷检测方法 |
CN116188999A (zh) * | 2023-04-26 | 2023-05-30 | 南京师范大学 | 一种基于可见光和红外图像数据融合的小目标检测方法 |
WO2023138190A1 (zh) * | 2022-01-24 | 2023-07-27 | 上海商汤智能科技有限公司 | 目标检测模型的训练方法及对应的检测方法 |
CN116645577A (zh) * | 2023-04-24 | 2023-08-25 | 山西大学 | 一种面向复杂场景基于浅层特征增强的小目标检测方法 |
CN116645586A (zh) * | 2023-05-30 | 2023-08-25 | 无锡学院 | 一种基于改进YOLOv5的港口集装箱损伤检测方法及系统 |
CN116758437A (zh) * | 2023-07-03 | 2023-09-15 | 清华大学 | 交并比-焦点损失函数的sar图像目标检测方法及装置 |
-
2023
- 2023-10-09 CN CN202311299444.5A patent/CN117036985B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112016605A (zh) * | 2020-08-19 | 2020-12-01 | 浙江大学 | 一种基于边界框角点对齐和边界匹配的目标检测方法 |
US20220067335A1 (en) * | 2020-08-26 | 2022-03-03 | Beijing University Of Civil Engineering And Architecture | Method for dim and small object detection based on discriminant feature of video satellite data |
CN113298024A (zh) * | 2021-06-11 | 2021-08-24 | 长江大学 | 一种基于轻量化神经网络的无人机对地小目标识别方法 |
WO2023138190A1 (zh) * | 2022-01-24 | 2023-07-27 | 上海商汤智能科技有限公司 | 目标检测模型的训练方法及对应的检测方法 |
CN114882410A (zh) * | 2022-05-11 | 2022-08-09 | 华东交通大学 | 基于改进定位损失函数的隧道顶灯故障检测方法及系统 |
CN115731164A (zh) * | 2022-09-14 | 2023-03-03 | 常州大学 | 基于改进YOLOv7的绝缘子缺陷检测方法 |
CN115661628A (zh) * | 2022-10-28 | 2023-01-31 | 桂林理工大学 | 一种基于改进YOLOv5S模型的鱼类检测方法 |
CN116645577A (zh) * | 2023-04-24 | 2023-08-25 | 山西大学 | 一种面向复杂场景基于浅层特征增强的小目标检测方法 |
CN116188999A (zh) * | 2023-04-26 | 2023-05-30 | 南京师范大学 | 一种基于可见光和红外图像数据融合的小目标检测方法 |
CN116645586A (zh) * | 2023-05-30 | 2023-08-25 | 无锡学院 | 一种基于改进YOLOv5的港口集装箱损伤检测方法及系统 |
CN116758437A (zh) * | 2023-07-03 | 2023-09-15 | 清华大学 | 交并比-焦点损失函数的sar图像目标检测方法及装置 |
Non-Patent Citations (3)
Title |
---|
MENGFAN XUE.ET AL: ""One Spatio-Temporal Sharpening Attention Mechanism for Light-Weight YOLO Models Based on Sharpening Spatial Attention"", 《MDPI》 * |
TAO SUN. ET AL: ""Small object detection method based on YOLOv5 improved model"", 《IEEE》 * |
刘家豪等: ""面向小目标检测的改进的YOLOV5算法"", 《实验室研究与探索》, vol. 42, no. 8 * |
Also Published As
Publication number | Publication date |
---|---|
CN117036985B (zh) | 2024-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108121986B (zh) | 目标检测方法及装置、计算机装置和计算机可读存储介质 | |
CN110378297B (zh) | 基于深度学习的遥感图像目标检测方法、装置、及存储介质 | |
CN108875750B (zh) | 物体检测方法、装置和系统及存储介质 | |
CN112016569B (zh) | 基于注意力机制的目标检测方法、网络、设备和存储介质 | |
CN112800964A (zh) | 基于多模块融合的遥感影像目标检测方法及系统 | |
CN113807361B (zh) | 神经网络、目标检测方法、神经网络训练方法及相关产品 | |
CN113591872A (zh) | 一种数据处理系统、物体检测方法及其装置 | |
US20230401691A1 (en) | Image defect detection method, electronic device and readable storage medium | |
CN110570442A (zh) | 一种复杂背景下轮廓检测方法、终端设备及存储介质 | |
US20240161304A1 (en) | Systems and methods for processing images | |
CN109558790B (zh) | 一种行人目标检测方法、装置及系统 | |
CN115147328A (zh) | 三维目标检测方法及装置 | |
CN105046278A (zh) | 基于Haar特征的Adaboost检测算法的优化方法 | |
CN114387346A (zh) | 一种图像识别、预测模型处理方法、三维建模方法和装置 | |
CN109523570B (zh) | 运动参数计算方法及装置 | |
CN108229281B (zh) | 神经网络的生成方法和人脸检测方法、装置及电子设备 | |
CN112633066A (zh) | 一种航拍小目标检测方法、装置、设备及存储介质 | |
CN115546681A (zh) | 一种基于事件和帧的异步特征跟踪方法和系统 | |
CN112561961A (zh) | 一种实例追踪的方法及装置 | |
CN117036985B (zh) | 一种面向视频卫星图像的小目标检测方法及装置 | |
CN117253022A (zh) | 一种对象识别方法、装置及查验设备 | |
CN116778262A (zh) | 一种基于虚拟点云的三维目标检测方法和系统 | |
CN113591543B (zh) | 交通标志识别方法、装置、电子设备及计算机存储介质 | |
CN115861922A (zh) | 一种稀疏烟火检测方法、装置、计算机设备及存储介质 | |
CN112651351B (zh) | 一种数据处理的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |