CN115170978A - 车辆目标检测方法、装置、电子设备及存储介质 - Google Patents
车辆目标检测方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115170978A CN115170978A CN202210761573.0A CN202210761573A CN115170978A CN 115170978 A CN115170978 A CN 115170978A CN 202210761573 A CN202210761573 A CN 202210761573A CN 115170978 A CN115170978 A CN 115170978A
- Authority
- CN
- China
- Prior art keywords
- feature
- vehicle
- fusion
- feature map
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Astronomy & Astrophysics (AREA)
- Remote Sensing (AREA)
- Image Analysis (AREA)
Abstract
本发明提供车辆目标检测方法、装置、电子设备及存储介质,车辆目标检测方法包括:利用多通道注意力机制对待检测图像进行图像特征提取,获得多维度的特征图;对多维度的特征图进行全局平均池化处理和非线性激活函数处理,得到增强特征图;其中,增强特征图包括多个尺度的特征层;通过添加上采样处理或者下采样处理,对多个尺度的特征层进行信息融合,得到融合特征;基于融合特征,在待检测图像上利用图形框标注出目标车辆的位置,其中,图形框参数包括角度维度。通过上述方式,本发明可以抑制图像中的无用信息,实现对不同分辨率的遥感图像中尺度差异较大的车辆目标的有效检测,有效解决密集停放问题,且更符合遥感图像车辆目标检测的实际需求。
Description
技术领域
本发明涉及目标检测技术领域,尤其涉及车辆目标检测方法、装置、电子设备及存储介质。
背景技术
近年来,随着目标检测技术的发展,涌现了不同的遥感图像目标检测方法。传统的方法常使用浅层特征表征来检测目标。传统目标检测算法的步骤是:首先进行区域选取,在遥感图像中,目标的位置具有随机性,而且不能准确的判断目标的长宽比例和尺寸,因此通常使用滑动窗口算法对图像进行遍历。这种方法虽然遍历了整幅图像,但是显然这种方法费时费力,并且产生了很多冗余窗口,严重降低了后续工作的效率。
在以前的方法中,研究人员通常直接手工进行车辆特征提取,然后对特征进行分类,以达到在遥感图像中检测车辆的目的,其中车辆特征提取和使用经典的机器学习技术进行分类是主要步骤。常用的特征有HOG和SIFT,除了目标形态多变的特点,遥感图像还具有背景复杂性,因此特征的好坏会直接影响到后续的分类工作的准确性。当特征点有限时,SIFT算法不仅可以在视角变化、噪声等方面保持稳定,还可以对目标位置、亮度变化等保持不变,但是SIFT带来的巨大的计算量会影响检测的效率。
灰度化是HOG特征不可或缺的步骤,这个操作虽然避免了光照颜色对图像的影响,但是却减少了图像数据的维度,从而使HOG特征难以处理遮挡问题。再利用Ababoost等方法对图像进行分类,从而获得图像的检测结果。Ababoost能够将多种分类方法划分为弱分类器,并对其并行级联,能够有效地兼顾各分类器的权值,但是迭代次数不易确定,且训练周期长,当数据不均衡时,其准确率会降低。许多算法采用了人工选择的特征来进行图像的分类,在一般的特定情况下都能获得较好的分类结果。但是,这些算法很难在其他场景中泛化,难以应用到易受到环境变化影响的遥感图像中,同时,这些算法的结构并不是端对端的,因此整个检测进程相对缓慢。
发明内容
本发明提供车辆目标检测方法、装置、电子设备及存储介质,用以解决现有技术中目标检测效率慢、准确度低、依赖人工的缺陷,实现符合遥感图像车辆目标检测的实际需求。
本发明提供一种车辆目标检测方法,包括:利用多通道注意力机制对待检测图像进行图像特征提取,获得多维度的特征图;对多维度的特征图进行全局平均池化处理和非线性激活函数处理,得到增强特征图;其中,增强特征图包括多个尺度的特征层;通过添加上采样处理或者下采样处理,对多个尺度的特征层进行信息融合,得到融合特征;基于融合特征,在待检测图像上利用图形框标注出目标车辆的位置,其中,图形框参数包括角度维度。
根据本发明提供的一种车辆目标检测方法,对特征图进行全局平均池化处理和非线性激活函数处理,得到增强特征图,包括:对多维度的特征图进行全局平均池化处理,得到池化数据;对池化数据进行降维处理,在ReLU函数的激活下,再进行FC层升维,最后利用Sigmoid激活函数,得到各通道的权重;基于多维度的特征图和各通道的权重,得到增强特征图。
根据本发明提供的一种车辆目标检测方法,通过添加上采样处理或者下采样处理,对多个尺度的特征层进行信息融合,得到融合特征,包括:对多个尺度的特征层进行卷积以及进行下采样处理后获得第一参数和第二参数;将第一参数和第二参数输入加权双向特征金字塔网络,得到融合特征;其中,加权双向特征金字塔网络是自上而下、自下而上的双向特征融合通道,且同一尺度的特征层之间具有横向连接通路。
根据本发明提供的一种车辆目标检测方法,图形框包括矩形框,基于融合特征,在待检测图像上利用图形框标注出目标车辆的位置,包括:在矩形框的参数中添加角度维度,利用包括横轴参数、纵轴参数、长度参数,宽度参数和角度参数的矩形框标注目标车辆的位置。
根据本发明提供的一种车辆目标检测方法,在矩形框的参数中添加角度维度之前,还包括:根据预测值yi、真实值σ(xi)、样本总量n确定loss和σ(a);其中,loss和σ(a)是角度维度的角度分类损失。
根据本发明提供的一种车辆目标检测方法,loss和σ(a)的计算公式为:
根据本发明提供的一种车辆目标检测方法,基于融合特征,在待检测图像上利用图形框标注出目标车辆的位置,包括:当图形框标注出的目标车辆的位置存在重复时,计算重叠区域的面积、合并区域的面积和置信度损失的权重系数;基于重叠区域的面积、合并区域的面积和置信度损失的权重系数,在待检测图像上利用矩形框标注出目标车辆的位置。
本发明还提供一种车辆目标检测装置,包括:特征提取模块,用于利用多通道注意力机制对待检测图像进行图像特征提取,获得多维度的特征图;增强特征模块,用于对多维度的特征图进行全局平均池化处理和非线性激活函数处理,得到增强特征图;其中,增强特征图包括多个尺度的特征层;融合特征模块,用于通过添加上采样处理或者下采样处理,对多个尺度的特征层进行信息融合,得到融合特征;目标车辆模块,用于基于融合特征,在待检测图像上利用图形框标注出目标车辆的位置,其中,图形框参数包括角度维度。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现如上述任一种车辆目标检测方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种车辆目标检测方法。
本发明提供的车辆目标检测方法、装置、电子设备及存储介质,通过引入多通道注意力机制、全局平均池化处理和非线性激活函数处理,可以自动判断不同特征通道的重要性,有效地增加了有用特征的重要程度,并抑制那些相对无效的特征,帮助网络学习和提取车辆目标更有意义的特征;在特征融合阶段,通过添加上采样处理或者下采样处理,对来自不同分辨率遥感图像中的车辆目标特征进行融合,可以提升模型的检测精度;通过引入角度维度,可有效解决遥感图像中车辆目标密集停放时造成的检测效果不佳的问题,综上,本发明提出的基于深度卷积网络的车辆目标检测方法,可以快速准确地在大视场遥感图像下对目标进行定位。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明车辆目标检测方法一实施例的流程示意图;
图2是本发明SE模块一实施例的结构流程图;
图3是本发明加权双向特征金字塔网络一实施例的结构示意图;
图4是本发明改进后的特征融合一实施例的结构示意图;
图5是本发明SkewIoU计算方法一实施例的示意图;
图6是本发明改进后的YOLOv5一实施例的结构示意图;
图7是本发明车辆目标检测装置一实施例的结构示意图;
图8是本发明电子设备一实施例的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
随着卫星遥感技术的发展,遥感影像的分辨率也得到了改善,能够在遥感图像中清晰地显示出许多场景和目标。但是,由于卫星遥感影像数据量大、目标环境复杂,如何快速准确地在大视场遥感图像下对目标进行定位是目前的一个热点问题。而车辆是民用乃至军事领域中的重要交通工具,也是遥感目标检测的重要目标。然而,相比于自然图像,遥感图像的尺寸更大,而且背景复杂,以及存在车辆目标的外形、位置和尺寸等影响因素。目前已有的针对自然场景的目标检测方法的检测精度难以保证。因此,本发明提供一种车辆目标检测方法。
请参阅图1,图1是本发明车辆目标检测方法一实施例的流程示意图,在本实施例中,车辆目标检测方法可以包括步骤S110~S140,各步骤具体如下:
S110:利用多通道注意力机制对待检测图像进行图像特征提取,获得多维度的特征图。
在本实施例基于YOLOv5网络,并且对YOLOv5网络进行一定的改进。本实施例中会在YOLOv5网络中添加SE(Squeeze-and-Excitation)模块。SE模块思想简单且易于实现,也有很好的可移植性。请参阅图2,图2是本发明SE模块一实施例的结构流程图。
多通道注意力机制其间经历了多个卷积操作,可以得到更深层的特征信息。此时虽然多个通道提取的特征是不一样的,但是YOLOv5网络认为这些特征的地位是平等的,提取的所有特征对最终检测任务所起到的作用是相同的,但是实际上,每个层所提取到的特征的重要性是不一样的,因此,需要后续操作来对各通道的权重进行分配。
S120:对多维度的特征图进行全局平均池化处理和非线性激活函数处理,得到增强特征图。
其中,增强特征图包括多个尺度的特征层。经过全局平均池化,能够得到全局的感知范围,降低了首次全连接时的特征图尺寸,从而降低了参数和计算工作量,然后经过非线性激活函数后再进行一次全连接,使通道数恢复到原来的值,完成了通道间特征的依赖关系的建模。
在一些实施例中,对多维度的特征图进行全局平均池化处理和非线性激活函数处理,得到增强特征图的步骤,具体包括:
对多维度的特征图进行全局平均池化处理,得到池化数据;对池化数据进行降维处理,在ReLU函数的激活下,再进行FC层升维,最后利用Sigmoid激活函数,得到各通道的权重;基于多维度的特征图和各通道的权重,得到增强特征图。
其中,FC层是指Fully connected layer,也叫全连接层;ReLU函数全称线性修正单元激活函数(Rectified Linear Unit),ReLU函数函数简单地将阈值设置在零点,计算开销大大降低,有助于提升效果。
举个例子,对维度为(b,c,h,w)的特征图进行全局平均池化操作公式(1)所示的计算,特征图的大小转为(b,c,h,w),即每一层的h*w会被平均化成一个值。
Zc为特征图的全局信息。b:batch size,即一次输入的图片的张数;c:channel,即是R、G、B(红、绿、蓝)三个通道;h:height即高度;w:weight即宽度;Fsq(Uc)是指squeeze(压缩操作),Uc是指多个特征图;i∈h,j∈w。
然后是对每张特征图的重要程度的学习。对全局平均池化后的向量(b,c,1,1)进行降维操作,然后,在ReLU的激活下,进行FC层升维,最后利用Sigmoid激活函数,得到各通道的权重。FC层的升降维操作具有更多的非线性,能够很好地模拟通道间复杂的相关性。
最后,将提取图像获得的特征乘以对应通道的权重以得到最终的输出,随着通道权重值的增加,特征图的数值也随之增加,从而对最终输出的影响也会变大;相反,当权重较小时,特征图的数值就会相应的变小,对最终输出的影响也会变小。
S130:通过添加上采样处理或者下采样处理,对多个尺度的特征层进行信息融合,得到融合特征。
在一些实施例中,通过添加上采样处理或者下采样处理,对多个尺度的特征层进行信息融合,得到融合特征的步骤,具体包括:
对多个尺度的特征层进行卷积以及进行下采样处理后获得第一参数和第二参数;将第一参数和第二参数输入加权双向特征金字塔网络,得到融合特征;其中,加权双向特征金字塔网络是自上而下、自下而上的双向特征融合通道,且同一尺度的特征层之间具有横向连接通路。
其中,通过添加上采样或者下采样处理来统一尺度,可以实现对不同尺度的特征信息融合。且同一尺度的特征层之间添加横向连接通路,可以避免因为网络层级较多影响特征信息的传递。请参阅图3,图3是本发明加权双向特征金字塔网络一实施例的结构示意图。
在图3中,P3、P4、P5属于第一参数,P6、P7属于第二参数。P3、P4、P5是Darknet53特征提取网络后获得的三个特征图C3、C4、C5卷积后得到的;P6、P7是进行两次下采样操作获得的。
其中,C3-C5是特征图,特征图是网络经过卷积和池化后得到的;特征图上的信息是默认为平等的,进行多通道注意力机制之后可以强化有用的特征信息。
图3中第一列为主干网络提取的特征层和两次下采样获得的特征层。第二列的过程呈现的就是自上而下的特征融合通路,经过卷积运算后得到
P7_in、P6_in、P5_in_1、P5_in_2、P4_in_1、P4_in_2、P3_in,如图3中所示,首先对P7_in执行上采样,并与P6_in进行加权融合,得到的结果记为P6_td;再对P6_td进行上采样,并与P5_in_1进行加权融合,所得记为P5_td;然后对P5_td进行上采样,然后再与P4_in_1进行加权融合,所得记为P4_td;然后对P4_td进行上采样,然后再与P3_in进行加权融合,所得记为P3_out。第三列展现的自下而上的通路,此时得到的数据有:
P3_out、P4_td、P4_in_2、P5_td、P5_in_2、P6_td、P6_in、P7_in,然后对P3_out进行下采样,所得与P4_td、P4_in_2加权融合后记为P4_out;对P4_out进行下采样,所得与P5_td、P5_in_2加权融合后记为P5_out;然后对P5_out进行下采样,所得与P6_td、P6_in加权融合后记为P6_out;然后对P6_out进行下采样,所得与P7_in加权融合后记为P7_out,至此,第一个加权特征融合完成,通常一个只有一条输入或输出通道的节点,其所包含的信息较少且对最后的特征融合的贡献不大,因此忽略了此类节点,如第二列中最高层和最低层。
本实施例选择Darknet53特征提取网络后获得的三个特征图记为C3、C4、C5,作为BiFPN的输入端,通过双向特征融合通路以及同尺度的横向连接达到丰富三种不同尺度特征图语义信息的目的。请参阅图4,图4是本发明改进后的特征融合一实施例的结构示意图。
其中,根据公式(2)计算各级权重:
其中,O、Ii分别表示融合后的特征、需要融合的特征,O用于网络后续预测目标;ε=0.0001是一个极小数值,用于避免数值不稳定造成分母等于0的情况,wi为网络学习到的参数,且每得到一次wi后都要进行一次ReLU,以保证wi≥0,并且归一化之后权重的值都处于0和1之间。
S140:基于融合特征,在待检测图像上利用图形框标注出目标车辆的位置,其中,图形框参数包括角度维度。
多尺度特征融合获得的数据后续的数据处理,其中数据处理包括得分计算映射回原图和非极大值抑制;得分处理进一步包括位置回归得分、类别分类得分和角度分类得分。
在一些实施例中,图形框包括矩形框,基于融合特征,在待检测图像上利用图形框标注出目标车辆的位置,包括:在矩形框的参数中添加角度维度,利用包括横轴参数、纵轴参数、长度参数,宽度参数和角度参数的矩形框标注目标车辆的位置。
可选地,在矩形框的参数中添加角度维度之前,还包括:根据预测值yi、真实值σ(xi)、样本总量n确定loss和σ(a);其中,loss和σ(a)是角度维度的角度分类损失。
在一些实施例中,基于融合特征,在待检测图像上利用图形框标注出目标车辆的位置,包括:当图形框标注出的目标车辆的位置存在重复时,计算重叠区域的面积、合并区域的面积和置信度损失的权重系数;基于重叠区域的面积、合并区域的面积和置信度损失的权重系数,在待检测图像上利用矩形框标注出目标车辆的位置。
由于车辆目标在遥感图像中常出现密集停放情况,用水平矩形框描述车辆目标位置会导致预测框重叠,进而影响检测效果。因此,本发明在矩形框的基础上添加θ维度,即用旋转框标注形式(x,y,w,h,θ)来描述目标位置。下面介绍添加θ维度后的角度分类损失。
其中,x、y表示矩形框的中心点坐标;w、h表示矩形框的宽度和高度,θ表示角度。
类别损失的计算本发明延用YOLOv5的BCE Loss二分类交叉熵损失,计算如公式(3)所示,其中,yi为预测值,σ(xi)为真实值:
其中,n是样本总量,a只是一个举例,表示σ的计算方式。
分类是根据已有的定义范围进行分类,本发明将θ角度的损失转换成分类问题(即角度分类得分),可有效避免超出定义范围外的情况发生。因此,θ角度的分类损失计算方式同样使用BCE Loss二分类交叉熵损失。置信度损失的权重系数与矩形框损失函数有关,本发明中矩形框增加了θ维度,且坐标和θ的损失函数计算方法不同,因此置信度损失应包含两方面:水平边框+角度。因此,置信度损失的权重系数计算方式为SkewIoU,计算方式如图5所示,由于重叠区域为多边形,因此计算各个三角形的面积,从而计算重叠区域的面积So,合并区域的面积Su,以及IoU。其计算公式包括(4)~(6),具体如下:
Su=w0*h0+w1*h1-S0……(5)
SkewIoU=So/Su……(6)
本实施例提供一种车辆目标检测方法通过引入多通道注意力机制、全局平均池化处理和非线性激活函数处理,可以自动判断不同特征通道的重要性,有效地增加了有用特征的重要程度,并抑制那些相对无效的特征,帮助网络学习和提取车辆目标更有意义的特征;在特征融合阶段,通过添加上采样处理或者下采样处理,对来自不同分辨率遥感图像中的车辆目标特征进行融合,可以提升模型的检测精度;通过引入角度维度,可有效解决遥感图像中车辆目标密集停放时造成的检测效果不佳的问题,综上,本实施例提出的基于深度卷积网络的车辆目标检测方法,可以快速准确地在大视场遥感图像下对目标进行定位。
上述可选方案在不冲突的情况下,本领域技术人员可根据实际需要自由组合方案。请参阅图6,图6是本发明改进后的YOLOv5一实施例的结构示意图。
光学遥感图像具有场景复杂多样、车辆目标像素占比小、不同分辨率的遥感图像中车辆尺度差异大,且由于车辆目标经常密集停放,周围的环境干扰因素较多,因此,传统的机器学习方法在遥感图像处理中存在着较差的鲁棒性和性能限制。由于遥感图像和自然场景图像的不同,采用自然场景的深度学习方法很难取得最佳的检测效果。为解决上述问题及难点,本发明针对性的提出一种基于深度卷积网络的车辆检测技术,其内容总结如下:
(1)提出一种视觉特征构建方法。针对遥感图像场景复杂多样、车辆目标像素占比小的难点,本发明在特征提取阶段嵌入通道注意力机制,通过学习获取各特征通道重要性,让网络关注较为重要的特征,从而达到抑制无用信息的效果。
(2)提出多尺度特征融合的方法。建立由上至下、由下自上、横向连接的多尺度、双向、加权的特征融合金字塔,将特征提取网络中不同卷积层的输出结果进行融合,以此来充分利用不同尺度特征层的信息,实现对不同分辨率的遥感图像中尺度差异较大的车辆目标的有效检测。
(3)提出将角度的回归损失问题转换成分类问题处理。针对遥感图像车辆目标检测中存在的难点,用带角度的旋转矩形框来描述密集停放的车辆目标,通过将车辆目标角度信息的回归转为分类问题,实现更符合车辆形状的旋转框检测效果,有效解决密集停放问题且更符合遥感图像车辆目标检测的实际需求。
下面对本发明提供的车辆目标检测装置进行描述,下文描述的车辆目标检测装置与上文描述的车辆目标检测方法可相互对应参照。
请参阅图7,图7是本发明车辆目标检测装置一实施例的结构示意图,在本实施例中,车辆目标检测装置700可以包括:特征提取模块710、增强特征模块720、融合特征模块730和目标车辆模块740。具体地:
特征提取模块710,用于利用多通道注意力机制对待检测图像进行图像特征提取,获得多维度的特征图。
增强特征模块720,用于对多维度的特征图进行全局平均池化处理和非线性激活函数处理,得到增强特征图;其中,增强特征图包括多个尺度的特征层。
融合特征模块730,用于通过添加上采样处理或者下采样处理,对多个尺度的特征层进行信息融合,得到融合特征。
目标车辆模块740,用于基于融合特征,在待检测图像上利用图形框标注出目标车辆的位置,其中,图形框参数包括角度维度。
在一些实施例中,增强特征模块720用于:
对多维度的特征图进行全局平均池化处理,得到池化数据;对池化数据进行降维处理,在ReLU函数的激活下,再进行FC层升维,最后利用Sigmoid激活函数,得到各通道的权重;基于多维度的特征图和各通道的权重,得到增强特征图。
在一些实施例中,融合特征模块730用于:
对多个尺度的特征层进行卷积以及进行下采样处理后获得第一参数和第二参数;将第一参数和第二参数输入加权双向特征金字塔网络,得到融合特征;其中,加权双向特征金字塔网络是自上而下、自下而上的双向特征融合通道,且同一尺度的特征层之间具有横向连接通路。
在一些实施例中,图形框包括矩形框,目标车辆模块740用于:
在矩形框的参数中添加角度维度,利用包括横轴参数、纵轴参数、长度参数,宽度参数和角度参数的矩形框标注目标车辆的位置。
可选地,目标车辆模块740还用于:根据预测值yi、真实值σ(xi)、n、a确定loss和σ(a);其中,loss和σ(a)是角度维度的角度分类损失。
其中,loss和σ(a)的计算公式为:
在一些实施例中,目标车辆模块740用于:
当图形框标注出的目标车辆的位置存在重复时,计算重叠区域的面积、合并区域的面积和置信度损失的权重系数;基于重叠区域的面积、合并区域的面积和置信度损失的权重系数,在待检测图像上利用矩形框标注出目标车辆的位置。
本实施例提供一直车辆目标检测装置,通过引入多通道注意力机制、全局平均池化处理和非线性激活函数处理,可以自动判断不同特征通道的重要性,有效地增加了有用特征的重要程度,并抑制那些相对无效的特征,帮助网络学习和提取车辆目标更有意义的特征;在特征融合阶段,通过添加上采样处理或者下采样处理,对来自不同分辨率遥感图像中的车辆目标特征进行融合,可以提升模型的检测精度;通过引入角度维度,可有效解决遥感图像中车辆目标密集停放时造成的检测效果不佳的问题,综上,本实施例可以快速准确地在大视场遥感图像下对目标进行定位。
本发明还提供一种电子设备,请参阅图8,图8是本发明电子设备一实施例的结构示意图。在本实施例中,电子设备800可以包括存储器(memory)810、处理器(processor)820及存储在存储器820上并可在处理器810上运行的计算机程序。处理器810执行程序时实现上述各方法所提供的车辆目标检测方法。
可选地,电子设备800还可以包括通信总线830和通信接口(CommunicationsInterface)840,其中,处理器810,通信接口840,存储器820通过通信总线830完成相互间的通信。处理器810可以调用存储器820中的逻辑指令,以执行车辆目标检测方法,该方法包括:利用多通道注意力机制对待检测图像进行图像特征提取,获得多维度的特征图;对多维度的特征图进行全局平均池化处理和非线性激活函数处理,得到增强特征图;其中,增强特征图包括多个尺度的特征层;通过添加上采样处理或者下采样处理,对多个尺度的特征层进行信息融合,得到融合特征;基于融合特征,在待检测图像上利用图形框标注出目标车辆的位置,其中,图形框参数包括角度维度。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的车辆目标检测方法,其步骤和原理在上述方法已详细介绍,在此不再赘述。
本发明提供的车辆目标检测方法、装置、电子设备及存储介质,通过引入多通道注意力机制、全局平均池化处理和非线性激活函数处理,可以自动判断不同特征通道的重要性,有效地增加了有用特征的重要程度,并抑制那些相对无效的特征,帮助网络学习和提取车辆目标更有意义的特征;在特征融合阶段,通过添加上采样处理或者下采样处理,对来自不同分辨率遥感图像中的车辆目标特征进行融合,可以提升模型的检测精度;通过引入角度维度,可有效解决遥感图像中车辆目标密集停放时造成的检测效果不佳的问题,综上,本发明提出的基于深度卷积网络的车辆目标检测方法,可以快速准确地在大视场遥感图像下对目标进行定位。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种车辆目标检测方法,其特征在于,包括:
利用多通道注意力机制对待检测图像进行图像特征提取,获得多维度的特征图;
对所述多维度的特征图进行全局平均池化处理和非线性激活函数处理,得到增强特征图;其中,所述增强特征图包括多个尺度的特征层;
通过添加上采样处理或者下采样处理,对所述多个尺度的特征层进行信息融合,得到融合特征;
基于所述融合特征,在所述待检测图像上利用图形框标注出目标车辆的位置,其中,所述图形框参数包括角度维度。
2.根据权利要求1所述的车辆目标检测方法,其特征在于,所述对所述特征图进行全局平均池化处理和非线性激活函数处理,得到增强特征图,包括:
对所述多维度的特征图进行全局平均池化处理,得到池化数据;
对所述池化数据进行降维处理,在ReLU函数的激活下,再进行FC层升维,最后利用Sigmoid激活函数,得到各通道的权重;
基于所述多维度的特征图和所述各通道的权重,得到所述增强特征图。
3.根据权利要求1所述的车辆目标检测方法,其特征在于,所述通过添加上采样处理或者下采样处理,对所述多个尺度的特征层进行信息融合,得到融合特征,包括:
对多个尺度的特征层进行卷积以及进行下采样处理后获得第一参数和第二参数;
将所述第一参数和所述第二参数输入加权双向特征金字塔网络,得到所述融合特征;
其中,所述加权双向特征金字塔网络是自上而下、自下而上的双向特征融合通道,且同一尺度的特征层之间具有横向连接通路。
4.根据权利要求1所述的车辆目标检测方法,其特征在于,所述图形框包括矩形框,所述基于所述融合特征,在所述待检测图像上利用图形框标注出目标车辆的位置,包括:
在矩形框的参数中添加角度维度,利用包括横轴参数、纵轴参数、长度参数,宽度参数和角度参数的矩形框标注所述目标车辆的位置。
5.根据权利要求4所述的车辆目标检测方法,其特征在于,在矩形框的参数中添加角度维度之前,还包括:
根据预测值yi、真实值σ(xi)、样本总量n确定loss和σ(a);
其中,loss和σ(a)是角度维度的角度分类损失。
7.根据权利要求5所述的车辆目标检测方法,其特征在于,所述基于所述融合特征,在所述待检测图像上利用图形框标注出目标车辆的位置,包括:
当所述图形框标注出的目标车辆的位置存在重复时,计算重叠区域的面积、合并区域的面积和置信度损失的权重系数;
基于所述重叠区域的面积、所述合并区域的面积和所述置信度损失的权重系数,在所述待检测图像上利用矩形框标注出所述目标车辆的位置。
8.一种车辆目标检测装置,其特征在于,包括:
特征提取模块,用于利用多通道注意力机制对待检测图像进行图像特征提取,获得多维度的特征图;
增强特征模块,用于对所述多维度的特征图进行全局平均池化处理和非线性激活函数处理,得到增强特征图;其中,所述增强特征图包括多个尺度的特征层;
融合特征模块,用于通过添加上采样处理或者下采样处理,对所述多个尺度的特征层进行信息融合,得到融合特征;
目标车辆模块,用于基于所述融合特征,在所述待检测图像上利用图形框标注出目标车辆的位置,其中,所述图形框参数包括角度维度。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述车辆目标检测方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述车辆目标检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210761573.0A CN115170978A (zh) | 2022-06-29 | 2022-06-29 | 车辆目标检测方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210761573.0A CN115170978A (zh) | 2022-06-29 | 2022-06-29 | 车辆目标检测方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115170978A true CN115170978A (zh) | 2022-10-11 |
Family
ID=83489386
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210761573.0A Pending CN115170978A (zh) | 2022-06-29 | 2022-06-29 | 车辆目标检测方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115170978A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117689880A (zh) * | 2024-02-01 | 2024-03-12 | 东北大学 | 基于机器学习用于生物医学图像中目标识别的方法及系统 |
CN117876831A (zh) * | 2024-01-15 | 2024-04-12 | 国家粮食和物资储备局科学研究院 | 目标检测识别方法、装置、电子设备和存储介质 |
-
2022
- 2022-06-29 CN CN202210761573.0A patent/CN115170978A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117876831A (zh) * | 2024-01-15 | 2024-04-12 | 国家粮食和物资储备局科学研究院 | 目标检测识别方法、装置、电子设备和存储介质 |
CN117689880A (zh) * | 2024-02-01 | 2024-03-12 | 东北大学 | 基于机器学习用于生物医学图像中目标识别的方法及系统 |
CN117689880B (zh) * | 2024-02-01 | 2024-04-16 | 东北大学 | 基于机器学习用于生物医学图像中目标识别的方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113362329B (zh) | 病灶检测模型的训练方法及识别图像中的病灶的方法 | |
CN109447994B (zh) | 结合完全残差与特征融合的遥感图像分割方法 | |
CN107871119B (zh) | 一种基于目标空间知识和两阶段预测学习的目标检测方法 | |
CN110599537A (zh) | 基于Mask R-CNN的无人机图像建筑物面积计算方法及系统 | |
CN112016569B (zh) | 基于注意力机制的目标检测方法、网络、设备和存储介质 | |
CN115170978A (zh) | 车辆目标检测方法、装置、电子设备及存储介质 | |
CN110246148B (zh) | 多模态的深度信息融合和注意力学习的显著性检测方法 | |
WO2022141145A1 (zh) | 面向对象的高分辨率遥感影像多尺度分割方法及系统 | |
CN108305260B (zh) | 一种图像中角点的检测方法、装置及设备 | |
CN103871039B (zh) | 一种sar图像变化检测差异图生成方法 | |
CN111625608A (zh) | 一种基于gan模型根据遥感影像生成电子地图的方法、系统 | |
CN113177456B (zh) | 基于单阶段全卷积网络和多特征融合的遥感目标检测方法 | |
CN106780727B (zh) | 一种车头检测模型重建方法及装置 | |
CN111461213A (zh) | 一种目标检测模型的训练方法、目标快速检测方法 | |
CN116645592B (zh) | 一种基于图像处理的裂缝检测方法和存储介质 | |
CN111611861A (zh) | 一种基于多尺度特征关联的图像变化检测方法 | |
CN112800955A (zh) | 基于加权双向特征金字塔的遥感影像旋转目标检测方法及系统 | |
CN113989287A (zh) | 城市道路遥感图像分割方法、装置、电子设备和存储介质 | |
CN107292268A (zh) | 快速脊波反卷积结构学习模型的sar图像语义分割方法 | |
CN111160372B (zh) | 一种基于高速卷积神经网络的大目标识别方法 | |
CN112907750A (zh) | 一种基于卷积神经网络的室内场景布局估计方法及系统 | |
CN117078938A (zh) | 基于马尔可夫随机场的遥感图像语义分割方法 | |
CN116433596A (zh) | 一种边坡坡面植被覆盖率测量方法、装置及相关组件 | |
CN116071625A (zh) | 深度学习模型的训练方法、目标检测方法及装置 | |
CN113657214B (zh) | 一种基于Mask RCNN的建筑损伤评估方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |