CN115601538A - 目标检测方法及目标检测器、系统和介质 - Google Patents
目标检测方法及目标检测器、系统和介质 Download PDFInfo
- Publication number
- CN115601538A CN115601538A CN202211314607.8A CN202211314607A CN115601538A CN 115601538 A CN115601538 A CN 115601538A CN 202211314607 A CN202211314607 A CN 202211314607A CN 115601538 A CN115601538 A CN 115601538A
- Authority
- CN
- China
- Prior art keywords
- target
- image
- scale
- detection
- target detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/17—Terrestrial scenes taken from planes or by drones
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Remote Sensing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种目标检测方法及目标检测器、系统和介质,通过目标检测网络模型对待测图像以不同感受野大小进行多尺度特征提取和融合,以获得所述待测图像全局范围内不同尺度的目标对象的检测结果,不同尺度的目标对象至少包括尺度小于阈值尺度的小目标对象以及部分被遮挡的重叠目标对象,所述检测结果包括所述目标对象的类别信息、类别置信度信息以及位置信息。因此,本申请提供的目标检测方法可以较好的应用于无人机航拍视角下的目标检测,实现多尺度、小尺度以及被遮挡目标对象的检测。
Description
技术领域
本申请涉及智能驾驶技术领域,尤其是涉及一种目标检测方法及目标检测器、系统和介质。
背景技术
目标检测是计算机视觉领域的最重要的应用之一,已被广泛应用到了行人检测、疾病诊断、交通追踪及遥感图像目标检测等领域。近年来,由于无人机获取图像的便捷性和多角度特性,利用无人机拍摄的图像,对感兴趣目标进行检测,用于城市及交通管理,已经成为智慧城市建设的重要内容。
随着无人机的飞行,拍摄到的物体的尺度在不断变化,图像中会存在许多密集目标以及小尺度、大尺度目标,会对物体的识别带来影响。此外,在无人机拍摄过程中,还会存在物体间的遮挡的情况。航拍图像的这些特点,为目标检测带来了一定的困难,目前目标检测技术并不能很好的从航拍图像中识别出各个感兴趣的目标。
发明内容
为解决现有存在的技术问题,本申请提供一种可以检测出多尺度目标检测对象、小尺度目标检测对象以及被遮挡目标检测对象的目标检测方法及目标检测器、系统和介质。
一种目标检测方法,包括:
获取含目标对象的待测图像;
通过目标检测网络模型对所述待测图像以不同感受野大小进行多尺度特征提取和融合,获得所述待测图像全局范围内不同尺度的所述目标对象的检测结果,不同尺度的所述目标对象至少包括尺度小于阈值尺度的小目标对象以及部分被遮挡的重叠目标对象,所述检测结果包括所述目标对象的类别信息、类别置信度信息以及位置信息。
一种目标检测器,包括存储器及处理器,所述存储器内存储有可被所述处理器执行的计算机程序,所述计算机程序被所述处理器执行时实现目标检测方法。
一种目标检测系统,包括图像采集设备、目标检测器以及显示器;
所述图像采集设备用于采集含目标检测对象的待测图像;
所述显示器用于显示所述目标检测器获得的检测结果。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现目标检测方法。
由上可见,本申请提供的目标检测方法及目标检测器、系统和介质,通过目标检测网络模型对所述待测图像以不同感受野大小进行多尺度特征提取和融合,以获得所述待测图像全局范围内不同尺度的所述目标对象的检测结果,不同尺度的所述目标对象至少包括尺度小于阈值尺度的小目标对象以及部分被遮挡的重叠目标对象,所述检测结果包括各个所述目标对象的类别信息、类别置信度信息以及位置信息。因此,本申请提供的目标检测方法可以较好的应用于无人机航拍视角下的目标检测,实现多尺度,小尺度以及被遮挡目标对象的检测。
附图说明
图1为依据本申请实施例提供的目标检测方法流程示意图;
图2为依据本申请实施例提供的目标检测方法中获取的第一待测图像;
图3为依据本申请实施例提供的目标检测方法对第二待测图像进行目标检测获得的结果展示图像;
图4为依据本申请实施例提供的目标检测方法流程示意图;
图5为依据本申请实施例提供的目标检测方法流程中,对航拍红外图像进行背景除杂处理后的效果展示图像;
图6为依据本申请实施例提供的目标检测方法流程中,对航拍红外图像进行对比增强处理后的效果展示图像;
图7为依据本申请实施例提供的目标检测方法流程示意图;
图8为依据本申请实施例提供的目标检测方法流程示意图;
图9为未设置通道注意力模块层的目标检测网络对第三待测图像进行目标检测,获得的结果展示图像;
图10为设置有通道注意力模块层的目标检测网络模型对第三待测图像进行目标检测,获得的结果展示图像;
图11为依据本申请实施例提供的目标检测方法中基于注意力机制获得各个尺度的特征图的方法流程示意图;
图12为本申请实施例提供的目标检测方法中采用的通道注意力机制的原理示意图;
图13为依据本申请实施例提供的目标检测方法中利用特征融合获得目标检测结果的方法流程示意图;
图14为依据本申请实施例提供的目标检测方法中所采用的空间金字塔层的结构示意图;
图15为未设置空间金字塔层的目标检测网络对第二待测图像进行目标检测,获得的结果展示图像;
图16为依据本申请实施例提供的目标检测方法流程示意图;
图17为依据本申请实施例提供的目标检测方法中进行数据增强处理后获得的训练样本图像;
图18为未采用数据增强的训练集进行训练的目标检测网络对第四待测图像进行目标检测,获得的结果展示图像;
图19为采用数据增强处理后的训练集训练的目标检测网络模型对第四待测图像进行目标检测,获得的结果展示图像;
图20为依据本申请实施例提供的目标检测方法中进行随机遮挡后的训练样本图像;
图21为依据本申请实施例提供的目标检测方法的流程示意图;
图22为依据本申请实施例提供的目标检测器的结构示意图;
图23为无人机基于本申请实施例提供的目标检测器进行目标检测的流程示意图;
图24为依据本申请实施例提供的目标检测系统结构示意图。
具体实施方式
以下结合说明书附图及具体实施例对本申请技术方案做进一步的详细阐述。
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”的表述,其描述了所有可能实施例的子集,需要说明的是,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一、第二、第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一、第二、第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
请参阅图1所示,其为依据本申请实施例提供的目标检测方法流程示意图。本申请实施例提供的目标检测方法应用于如图22所示的目标检测器,该目标检测器中的存储器存储有目标检测计算机程序指令,该目标检测器中的处理器在执行该存储器存储的目标检测计算机程序指令时,执行依据本申请实施例提供的目标检测方法的各个步骤。在本实施例中,目标检测方法包括S02和S04,具体描述如下。
S02:获取含目标对象的待测图像。
含目标对象的待测图像是指待测图像的全局范围内具有需要被检测的目标对象。待测图像由图像采集设备在如图22所示的目标检测器的应用场景下,对目标对象进行拍照或拍摄视频获得。若图像采集设备采集的为含目标对象的视频流,则待测图像为视频流中的一帧图像。在一些实施例中,本申请提供的目标检测方法应用于如图22所示的目标检测器,则由处理器211从图像采集设备中获取待测图像,以在后续对待测图像进行相应的处理。
图2为依据本申请一些实施例提供的目标检测方法中所采用的第一待测图像。这里需要说明的是,依据本申请实施例提供的目标检测方法对不同的待测图像中的目标对象进行检测,在不同的实施例中,对S02的待测图像的命名不同,例如在一些实施例中,S02中的待测图像为第一待测图像,在另一些实施例中,S02中的待测图像为第二待测图像,而在其它实施例中,S02中的待测图像也可以为其它的命名形式。因此,在本申请中,对S02中待测图像的命名不做具体限定。如图2所示,第一待测图像为含目标对象的待测红外图像。相比于可见光图像,红外图像受光照条件的约束性较小、成像质量稳定且在远距离采集获取。因此获取含目标对象的待测红外图像,使得应用本申请实施例提供的目标检测方法的目标检测器的应用场景更为广泛,如可适用于夜间或光线较暗的场景中实现目标对象的检测。
进一步的,应用本申请实施例提供的目标检测方法的目标检测器可设置在无人机上,以基于无人机的航拍红外图像实现目标对象的检测。即在依据本申请一些实施例提供的目标检测方法中,S02中获取的第一待测图像为搭载目标检测器的无人机在飞行时拍的航拍红外图像。
S04:通过目标检测网络模型对所述待测图像以不同感受野大小进行多尺度特征提取和融合,获得所述待测图像全局范围内不同尺度的所述目标对象的检测结果,不同尺度的所述目标对象至少包括尺度小于阈值尺度的小目标对象以及部分被遮挡的重叠目标对象,所述检测结果包括各个所述目标对象的类别信息、类别置信度信息以及位置信息。
在一些实施例中,目标检测网络模型由卷积神经网络构成。在卷积神经网络中,感受野(Receptive Field)的定义是卷积神经网络每一层输出的特征图(feature map)上的像素点在输入图片上映射的区域大小。多尺度特征提取与融合是指对待测图像进行不同尺度的特征提取,并将提取的特征进行融合。
小目标对象在机器视觉领域有明确的定义,其定义分为相对尺度的定义和绝对尺度的定义。相对尺度定义的小目标对象是指:对于同一类别的目标对象而言,当目标对象对应的检测框(目标对象的边界框)的面积与待测图像的面积之比的中位数在0.08%至0.58%之间时,该类别的目标对象为小目标对象。如在640×480像素分辨率图像中,检测框尺度为16×16到42×42对应的目标对象为小目标对象。绝对尺度的小目标对象是指:在目标对象的边界框的宽高与待测图像的宽高比例小于通用0.1时,或该目标对象的边界框与待测图像面积的比值开方小于0.03时,或该目标对象的分辨率小于32×32像素时,该目标对象为小目标对象。在一些实施例中,本申请实施例提供的目标检测方法中的小目标对象的阈值尺度不超过20×20像素,进一步可以为小于或等于20×20像素,如可以具体为5×5像素。
不同尺度是指在待测图像中,用于限定目标检测对象大小的检测框的大小不同。重叠目标对象包括被相同类别的其它目标对象进行部分遮挡的目标对象、被不同类型的其它目标对象进行部分遮挡的目标对象和/或被背景进行部分遮挡的目标检测对象。目标对象的类别信息是指目标对象的属性信息,如目标对象可以为车、人以及动物等检测视野范围内出现的任何被关注或感兴趣的目标对象。
置信度也称为可靠度,或置信水平、置信系数,即在抽样对总体参数作出估计时,由于样本的随机性其结论总是不确定的。因此,采用一种概率的陈述方法,也就是数理统计中的区间估计法,即估计值与总体参数在一定允许的误差范围以内,其相应的概率有多大,这个相应的概率称作置信度。类别置信度信息是指检测出属于该对应类别的概率信息,例如目标对象对应的检测的类别信息为汽车,则其对应的类别置信度为该目标对象为汽车的概率值。类别置信度越高,说明目标对象的类别信息更准确。位置信息是指检测出的目标对象在待测图像的位置信息。基于目标对象在待测图像中的位置信息,可以进一步基于待测图像与世界坐标系的转换关系,确定目标对象在世界坐标系中的位置信息。
请参阅图3,其为依据本申请一些实施例中,含目标对象的第二待测图像(附图中未展示第二待测图像的原始图)进行目标检测获得的检测结果展示图像。如图3所示,基于本申请实施例提供的目标检测方法,可以获得多个不同尺度的目标对象的检测结果。各个不同尺度的目标对象包括小汽车Car、公共汽车bus、骑着自行车的人cyclist以及人Person等。每一个类别的目标对象包括多个不同尺度的目标。目标对象中还进一步包括尺度小于阈值尺度的人Person或骑着自行车的人cyclist。依据本申请实施例提供的目标检测方法,可以识别出在灰度值小于预设灰度值,且相距距离小于预设距离的两个不同类别或相同类别之间的目标对象,如骑着自行车的人cyclist等。此外,请继续参阅图3所示,依据本申请实施例提供的目标检测方法获得目标检测结果中,还包括不同目标对象对应的目标检测框之间是部分重叠的,即本申请实施例提供的目标检测方法可以识别出被遮挡的目标对象。
由上可见,本申请实施例提供的目标检测方法,通过目标检测网络模型对所述待测图像以不同感受野大小进行多尺度特征提取和融合,以获得所述待测图像全局范围内不同尺度的所述目标对象的检测结果,不同尺度的所述目标对象至少包括尺度小于阈值尺度的小目标对象以及部分被遮挡的重叠目标对象,所述检测结果包括各个所述目标对象的类别信息、类别置信度信息以及位置信息。因此,本申请实施例提供的目标检测方法可以较好的应用于无人机航拍视角下的目标检测,实现多尺度,小尺度以及被遮挡目标对象的检测。
请参阅图4所示,其为依据本申请实施例提供的目标检测方法流程示意图。在本实施例中,S02中获取的第一待测图像为搭载目标检测器的无人机在飞行时拍的航拍红外图像,即在本实施例中S02具体为:获取含目标对象的航拍红外图像,而S04具体为:通过目标检测网络模型对航拍红外图像以不同感受野大小进行多尺度特征提取和融合,获得航拍红外图像全局范围内不同尺度的所述目标对象的检测结果,不同尺度的所述目标对象至少包括尺度小于阈值尺度的小目标对象以及部分被遮挡的重叠目标对象,所述检测结果包括所述目标对象的类别信息、类别置信度信息以及位置信息。请继续参阅图4所示,在本实施例中,在S04之前,目标检测方法还包括S031,其描述如下。
S031:对所述航拍红外图像进行背景除杂处理。
航拍红外图像的背景一般较为复杂,通过对航拍红外图像进行背景除杂处理,有利于抑制航拍红外图像背景中杂波的能量,达到滤除航拍红外图像背景杂波的效果。经过背景除杂处理后的航拍红外图像的信噪比得到提高,且航拍红外图像中的目标对象的细节和轮廓更加清晰。此外,经过背景除杂处理后的航拍红外图像中的目标对象和背景之间的灰度差异值,大于进行背景除杂处理前的航拍红外图像中的目标对象和背景之间的灰度差异值。显然,对航拍红外图像进行背景除杂处理后,再对其进行目标检测,更有利于目标检测器从中识别出各个目标对象,可提高目标检测的准确性。这里需要说明的是,在其它实施例中,航拍红外图像也可以为其它任何拍摄场景下获得的其它红外图像,对其它红外图像进行背景除杂处理的过程与获得的效果与对航拍红外图像进行背景除杂处理的相同,在此不再累述。
图5为依据本申请实施例提供的目标检测方法流程中,对第一待测图像进行背景除杂处理后的效果展示图像,其与图2所示的进行背景除杂处理前的第一待测图像相比,目标对象与背景之间的灰度值明显增加,且目标对象的细节和轮廓明显更加清晰。
请参继续阅图4所示,在本实施例中,在S031之后,S04之前,目标检测方法还包括S032,其描述如下。
S032:对所述航拍红外图像进行对比度增强处理。
相较于可见光而言,红外光谱信息远不如可见光。因此,红外图像中目标对象的对比度低,目标对象的轮廓特征不明显,在基于红外图像进行目标检测时难以从红外图像中提取目标对象的细节特征,容易形成误判。因此在本申请实施例提供的目标检测方法中,在对航拍图像进行目标检测之前,先对获取的航拍图像进行对比度增强处理,以增强航拍红外图像目标对象之间的对比度。图6为依据本申请实施例提供的目标检测方法流程中,对第一待测图像进行对比增强处理后的效果展示图像,其与图2所示的进行对比度增强处理前的第一待测图像相比,目标对象之间的对比度更加明显,目标对象的轮廓度更加明显。显然,对第一待测图像进行对比度增强处理后,再对其进行目标检测,更有利于目标检测器从中识别出各个目标对象,可提高目标检测的准确性。
这里需要说明的是,在一些实施例中,S032也可以在S031之前执行,在另一些实施例中,也可以在S032之前也可以不用执行S031,且S032后,直接执行S04。
请参阅图7所示,其为依据本申请实施例提供的目标检测方法流程示意图。在本实施例中,S031进一步包括S0311,具体描述如下。
S0311:采用高斯模糊算法对所述航拍红外图像进行背景除杂处理。
高斯模糊算法是一种传统的模糊算法,其利用正态分布(高斯分布)用于图像处理。高斯模糊(英语:Gaussian Blur),也叫高斯平滑。通常用它来减少图像噪声以及降低细节层次。这种模糊技术生成的图像,其视觉效果就像是经过一个毛玻璃在观察图像,这与镜头焦外成像效果散景以及普通照明阴影中的效果都明显不同。高斯平滑也用于计算机视觉算法中的预先处理阶段,以增强图像在不同比例大小下的图像效果(参见尺度空间表示以及尺度空间实现)。从数学的角度来看,图像的高斯模糊过程就是图像与正态分布做卷积。由于正态分布又叫作高斯分布,所以这项技术就叫作高斯模糊。图像与圆形方框模糊做卷积将会生成更加精确的焦外成像效果。由于高斯函数的傅里叶变换是另外一个高斯函数,所以高斯模糊对于图像来说就是一个低通滤波器。
请继续参阅图7所示,在本实施例中,S032进一步包括S0321,具体描述如下。
S0321:采用自适应直方图均衡化算法对所述航拍红外图像进行对比度增强处理。
在本申请实施例提供的目标增强方法中,采用自适应直方图均衡化来增强目标之间的对比度,提高图像整体亮度,从而获得更显著的目标轮廓信息。其具体的算法思想是移动模板W在航拍红外图像A上逐行移动,若令模板W的中心为c(x0,y0),该中心点对应图像上的点为f(x0,y0),以及令计算模板W区域的直方图均衡化变化关系:g(x,y)=T(f(x,y)),计算模板中心点c(x0,y0)的均衡化对应像素值:g(x0,y0)=T(f(x0,y0))。用g(x0,y0)替代f(x0,y0);逐行计算得到整幅航拍红外图像的自适应直方图均衡化后的图像。
需要说明的是,在本实施例中,当采用高斯模糊算法对所述航拍红外图像进行背景除杂处理时,可以采用其它任何方式对所述航拍红外图像进行对比度增强处理,反之,当采用自适应直方图均衡化算法对所述航拍红外图像进行对比度增强处理时,也可以采用其它任何方式对所述航拍红外图像进行背景除杂处理。
在依据本申请实施例提供的目标检测方法中,采用神经网络模型对待测图像进行特征提取与识别,获得目标检测结果。因此,请参阅图8所示,其为依据本申请实施例提供的目标检测方法流程示意图,在一些实施例中,S04具体包括S041和S043,具体描述如下。
S041:将待测图像输入至目标检测网络模型中,通过多采样通道分别对待测图像进行不同采样倍率的下采样处理,得到不同尺度的第一特征图。
对于待测图像为红外图像而言,尤其是为航拍红外图像而言,在将待测图像输入至目标检测网络模型中之前,需要对待测图像根据上述方式进行预处理(预处理包括背景除杂处理和/或对比度增强处理)。目标检测网络模型对进行预处理后的待测图像进行特征提取和识别,以从待测图像中识别出目标对象的信息,获得目标对象对应的检测结果。其中目标检测网络模型可以为单阶段网络模型也可以为双阶段网络模型。例如,目标检测网络模型可以为YOLO、Faster RCNN等。以YOLO目标检测网络模型为例,其包括主干网络层、特征融合层和预测层。主干网络层用于接收待测图像的输入表示向量,并从输入表示向量进行特征提取,获得对应的特征图,并将获得的特征图输入至特征融合层进行融合,然后再将融合后的特征输入至预测层进行目标对象的类别信息、类别置信度信息以及位置信息的预测。
多采样通道设置在目标检测网络模型的主干网络层中,多采样通道由多个卷积模块层串联而成,每一个卷积模块层对输入至主干网络层的待测图像的输入表示向量进行一次下采样获得一个尺度的第一特征图,上个卷积模块层的输出的对应尺度的第一特征图作为下一个卷积模块层的输入,下一卷积模块层对该对应尺度的第一特征图再一次进行下采样获得另一个尺度的第一特征图。显然通过多采样通道可以将待测图像分别由经不同层数的卷积模块层进行不同采样倍率的下采样处理,获得各个不同尺度的第一特征图,各个不同尺度的第一特征图由多采样通道中对应的卷积模块层输出。这里需要说明的是,各个不同尺度是指各个第一特征图对应的像素尺度。
S042:基于通道注意力机制分别对不同尺度的所述第一特征图进行特征提取,获得与各个不同尺度的第一特征图对应的第二特征图。
在S041中基于各个卷积模块层获得各个第一特征图后,在每一个卷积模块层后设置一个通道注意力模块层,每一个通道注意力模块层基于通道注意力机制对对应的第一特征图进行特征提取,获得各个对应的第二特征图。通道注意力模块层由多个不同感受野的通道卷积模块和通道特征融合模块构成,每一个通道卷积模块对对应的第一特征图进行对应感受野的特征提取,获得对应的通道特征提取图,通道特征融合模块用于确定各个不同通道特征提取图对应的权重,并对各个通道特征提取进行加权处理,获得对应的第二特征图。
S043:根据各个所述第二特征图进行特征融合,获得与各个不同尺度的所述目标检测对象对应的融合特征图,并分别根据各个所述融合特征图进行对应尺度的目标对象的检测,获得所述检测结果。
基于各个第二特征图进行特征融合,获得与各个尺度的目标对象对应的融合特征图,再基于各个融合特征图进行识别预测,获得各个不同尺度的目标对象的检测结果。
基于通道注意力机制进一步提取各个不同尺度的第一特征图的特征,获得对应的各个第二特征图,并基于各个第二特征图的融合特征图进行目标对象的检查,可以更准确的从待测图像中提取到目标对象更细节的特征信息,可以提供目标检测网络模型的检测准确度。
图9为未设置通道注意力模块层的目标检测网络对第三待测图像进行目标检测,获得的结果展示图像,而图10为设置有通道注意力模块层的目标检测网络模型对第三待测图像进行目标检测,获得的结果展示图像。显然,本申请实施例提供的基于通道注意力机制的目标检测网络模型对待测图像进行目标对象的检测,获得的检测结果更准确,如对比图10和图9,图10中不同尺度的目标检测对象的类别置信度相比图9明显提高。
请参阅图11所示,其为依据本申请实施例提供的目标检测方法中基于注意力机制获得各个尺度的特征图的方法流程示意图,即上述S042进一步包括S0421、S0423、S0425以及S0427,具体描述如下。
S0421:针对每一所述第一特征图,采用不同大小的卷积核对所述第一特征图进行不同感受野的特征提取,获得不同的感受野特征图。
S0423:对各个所述感受野特征图进行融合,获得融合感受野特征图。
S0425:对所述融合感受野特征图进行平均池化和降维操作后,通过激活函数计算各个感受野特征图对应的权值。
S0427:将各个不同的感受野特征图按照对应的权值进行加权处理,获得该所述第一特征图对应的所述第二特征图。
在本实施例中,每一个第一特征图的输出端均设置有一个通道注意力模块,每一个通道注意力模块包括通道特征提取层、通道特征融合层、通道权值获取层和特征加权层。通道特征提取层由多个不同大小的卷积核并行而成,不同大小的卷积核具有不同的感受野。通道特征融合层对各个不同大小的感受野特征图进行叠加融合,获得融合感受野特征图。所谓激活函数(Activation Function),就是在人工神经网络的神经元上运行的函数,负责将神经元的输入映射到输出端。融合感受野特征图在被池化层进行平均池化和降维操作后,被输入至激活层,以由激活函数来确定各个感受野特征图对应的权值,即获得通道注意力模块的各个通道的通道权值。在一些实施例中,目标检测方法中所采用的通道注意力机制可以是但不限于SE-Net、SK-Net、GSoP-Net等等。其中,以SK-Net的通道注意力机制为例,其通过不同大小的感受野的自适应加权组合来提取目标特征,主要包含三个操作:Spilt层,Fuse层和Select层三个部分。Spilt层部分设计了不同大小的卷积核,对于输入的第一特征图,使用分组卷积进行不同尺度的感受野特征提取,不仅限于两个不同尺度的卷积核,Spilt层分可以包含多个不同尺度的卷积核。Fuse层部分负责将Spilt层部分提取到的不同感受野的感受野特征图进行融合操作获得包含各个不同尺度的感受野特征图的融合感受野特征图,融合操作的方式是将各个感受野特征图做加法运算,然后是对融合感受野特征图进行平均池化和降维操作,以方便之后计算各个感受野特征图的权重。最后的Select层部分采用的激活函数为softmax函数,基于该softmax函数来计算各个感受野特征图的权值,之后再经过softmax函数将各个感受野特征图基于对应的权值进行加权处理,获得对应的第二特征图。softmax函数是一个以e为底,权值为自变量的指数函数:ex。当x较大时,e的x次方会将x放大很多,而当x很小时,e的x次方和x差不多大小,这就起到了一个放大对应感受野特征图权重的作用,通过训练,就可以获得多尺度目标对象的最佳感受野。以三通道的通道注意力模块为例,其通道特征提取层包括第一感受野的卷积核模块、第二感受野卷积核模块和第三感受野卷积核模块。其中,第一感受野卷积核模块对对应的第一特征图进行第一感受野的特征提取,获得第一感受野特征图T1,第二感受野卷积核模块对对应的第一特征图进行第二感受野的特征提取,获得第二感受野特征图T2,第三感受野卷积核模块对对应的第一特征图进行第三感受野的特征提取,获得第三感受野特征图T3。通过激活函数获得的第一感受野特征图T1的权值为x1,第二感受野特征图T2的权值为x2,第三感受野特征图T3的权值为x3,则对各个感受野进行加权处理获得的第二特征图为:T1*ex1+T2*ex2+T3*ex3。因此,在一些实施例中,S0425中的激活函数为指数函数,S0425中计算出的权值为该指数函数的自变量。显然,在依据本申请一些实施例提供的目标检测方法中,基于通道注意力机制获得各个通道的权值后,对各个通道的权值进行指数放大,再基于进行指数放大后的新权值对各个感受特征图进行加权处理。
如图12所示,其为本申请实施例提供的目标检测方法中采用的通道注意力机制的原理示意图,图中想A为尺寸为H*W*C的第一特征图,其由三个不同感受野的卷积核分别进行特征提取。三个不同感受野的卷积核分别为3×3的第一卷积核U1、5×5的第二卷积核U2以及7×7的第三卷积核U3。三个卷积核U1、U2以及U3获得感受野特征图由通道特征融合模块U进行特征融合后,获得H*W*C的融合感受野特征图,该融合感受野特征图经过池化层降维后再被输入至各个通道的激活层获得各个通道的权值,在由各个通道的加权模块B1、B2以及B3,将进行加权后的感受野特征图进行融合,获得第二特征图B。
请参阅图13所示,其为依据本申请实施例提供的目标检测方法中利用特征融合获得目标检测结果的方法流程示意图,即上述S043进一步包括S0431、S0433、S0435以及S0437,具体描述如下。
S0431:通过第一卷积层提取第一尺度的所述第二特征图中的信息,获得对应的第三特征图,并将所述第三特征图输入至空间金字塔池化层,获得第四特征图,通过第二卷积层提取所述第四特征图中的信息,获得第五特征图。
S0433:将所述第五特征图与第二尺度的第二特征图进行融合,获得第一融合特征图。
S0435:将所述第一融合特征图与第三尺度的所述第二特征图进行融合,获得第二融合特征图。
S0437:将所述第五特征图输入至第一检测头,获得第四尺度的小目标对象的所述检测结果,将所述第一融合特征图输入至第二检测头,获得第五尺度的目标对象的所述检测结果,以及将所述第二融合特征图输入至第三检测头,获得第六尺度的小目标对象的所述检测结果。其中,所述第一尺度大于预设尺度且小于所述第二尺度,所述第三尺度大于所述第二尺度,所述第四尺度小于所述阈值尺度,所述第五尺度大于所述第四尺度且小于所述第六尺度。预设尺度可以为S04中的阈值尺度,即对尺度小于阈值尺度的第二特征图通过空间金字塔池化层进行局部特征提取和融合,获得第二特征图的局部特征融合特征图,即第五特征图。然后将第五特征图与上一尺度的第二特征图进行融合,获得对应的融合特征图,所获得的融合特征图再与对应的更上一尺度的第二特征图进行融合获得更大尺度的融合特征图。上一尺度是指尺度更大的一个尺度。
上述第一检测头用于对上述第五特征图中的第四尺度的目标对象进行分类和定位,以获得第四尺度的目标对象的类别信息和位置信息;上述第二检测头用于对上述第一融合特征图中的第五尺度的目标对象进行分类和定位,以获得第五尺度的目标对象的类别信息和位置信息;上述第三检测头用于对上述第二特征特征图中的第六尺度的目标对象进行分类和定位,以获得第六尺度的目标对象的类别信息和位置信息。在其它实施例中,可以基于更多尺度的第二特征图获得更多尺度的融合特征图,将不同的融合特征图分别输入至不同的检测头中,获得不同尺度的目标对象的检测结果。
在本实施例中,S02中的待测图像包括三个尺度的目标对象,三个尺度的目标对象分别为上述第四尺度的目标对象、第五尺度的目标对象以及第六尺度的目标对象。其中,第四尺度、第五尺度以及第六尺度依次增大,而第四尺度小于上述阈值尺度,其为上述小目标对象的尺度。这里需要说明的是第四尺度、第五尺度以及第六尺度均可以为某一个尺度值,也可以均为某一个尺度范围。例如,第四尺度可以为尺度值为A的尺度,也可以为尺度值介于A与B之间的尺度。其中尺度值可以由目标对象在不同维度方向上的尺寸确定。由上可见,在本实施例中,为了检测出待测图像中三种不同尺度(第四尺度、第五尺度以及第六尺度)的目标对象,将待测图像输入至目标检测网络模型中,通过多采样通道分别对待测图像进行不同采样倍率的下采样处理,分别得到第一尺度、第二尺度以及第三尺度的第一特征图,再基于通道注意力机制对各个采样通道对应的第一特征图进行特征提取,获得与各个第一特征图对应的第二特征图,其中,与第一尺度的第一特征图对应的为第一尺度的第二特征图,与第二尺度的第一特征图对应的为第二尺度的第二特征图,与第三尺度的第一特征图对应的为第三尺度的第二特征图。接着,再通过第一卷积层提取第一尺度的第二特征图中的信息,获得第一尺度的第三特征图,并将第一尺度的第三特征图输入至空间金字塔池化层,获得第一尺度的第四特征图,通过第二卷积层提取第四特征图中的信息,获得第一尺度的第五特征图,并将第五特征图与第二尺度的第二特征图进行融合,获得第二尺度的第一融合特征图,以及将第二尺度的第一融合特征图与第三尺度的第二特征图进行融合,获得第三尺度的第二融合特征图。最后,将第一尺度的第五特征图、第二尺度的第一融合特征图以及第三尺度的第二融合特征图分别输入至输入至第一检测头至第三检测头,以分别获得第四尺度的小目标对象、第五尺度的目标对象和第六尺度的目标对象的所述检测结果。
在一些实施例中,所述空间金字塔层包括四个不同大小的最大池化模块。如图14所示,其为依据本申请实施例提供的目标检测方法中所采用的空间金字塔层的结构示意图。本申请实施例提供的空间金字塔层包设置在两个卷积层之前,其主要由大小分别为3×3、5×5、7×7以及9×9的四个最大池化模块Maxpool构成,四个最大池化模块对第三特征图进行相应尺寸的最大池化操作后获得卷积结果由contact模块进行聚类,获得第四特征图。
在目标检测网络模型中基于空间金字塔层提取待测图像的局部特征信息进行融合,在结合全局特征的融合,可以从中获得更丰富的局部特征和尺度小于阈值尺度的小目标对象的语义信息,达到提高密集小目标对象检测的精确度的目的。在目标检测网络模型的网络的两个卷积层之间加入不同大小的最大池化模块,可以让目标检测网络模型能够提取到多尺度的局部特征,增强目标检测网络模型对密集小目标对象的检测精度。
图15为未设置空间金字塔层的目标检测网络对第二待测图像进行目标检测,获得的结果展示图像,而图3为设置有空间金字塔层的目标检测网络模型对第二待测图像进行目标检测,获得的结果展示图像。显然,本申请实施例提供的设置有空间金字塔层的目标检测网络模型对待测图像进行目标对象的检测,获得的检测结果更准确,如对比图15和图3,图3中小目标对象的类别置信度相比图15明显提高。
请参阅图16所示,其为依据本申请实施例提供的目标检测方法流程示意图。在本实施例中,在进行S04之前,目标检测方法还包括S033,其描述如下。
S033:对所述目标检测网络模型的训练集进行数据增强处理,所述数据增强处理包括随机缩放、随机裁剪和随机排布,并利用进行所述数据增强处理后的训练集训练目标检测网络模型。
在本申请实施例提供的目标检测方法应用于无人机航拍目标检测时,为了能更好的检测出尺度小于阈值尺度的小目标对象,本实施例在采用目标检测网络模型对待测图像进行目标检测之前,具体为在对目标检测网络模型进行训练前,先对目标检测网络模型的训练集进行数据增强处理,以为目标检测网络模型的训练提供具有多样性的数据,提高目标检测网络模型的鲁棒性。在无人机航拍视角下,场景中的目标对象大多数是与航拍视角同向或逆向,而存在小部分目标对象与航拍视角相垂直,这就导致了这部分物体存在姿态差异,使得训练的网络出现错检甚至漏检。为了解决这种问题,本申请实施例提供的目标检测方法中提供了一种针对无人机航拍的特定的数据增强方式,其数据增强的效果如图17所示,图17示意的为进行上述数据增强处理后获得的训练样本图像。进行上述数据增强的具体实现过程为:首先,在获取航拍红外图像后,手动的找到与航拍视角相垂直的区域,并将其剪裁;然后确定这些区域需要粘贴的指定区域;最后将剪裁出来的这些区域随机选择一部分粘贴到指定区域内进行拼接获得增强后的数据。
通过对训练集进行数据增强处理,可以提高训练后的目标检测网络模型对被遮挡的目标对象检测的准确性。图18为未采用上述数据增强的训练集进行训练的目标检测网络对第四待测图像进行目标检测,获得的结果展示图像,而图19为采用上述数据增强处理后的训练集训练的目标检测网络模型对第四待测图像进行目标检测,获得的结果展示图像。显然,采用数据增强后的训练集进行训练的目标检测网络模型对待测图像进行被遮挡目标对象及小目标对象的检测时,获得的检测结果更准确,如对比图19和图18,图19中小目标对象和被遮挡对象的类别置信度相比图18明显提高。
在一些实施例中,在利用训练集中的训练样本对目标检测网络模型进行训练之前,目标检测方法还包括:将所述目标检测网络模型的训练样本图像中的部分目标对象进行遮挡。其中遮挡的方式包括被同类别目标对象遮挡、被不同类别目标对象遮挡以及被背景遮挡。对训练样本图像中设置被部分遮挡的目标对象,并对被部分遮挡的目标对象的类别进行标注,可以使得目标检测网络模型在训练的过程中学习到被遮挡目标对象的特征分布,以实现被遮挡目标对象的检测。
具体的,在训练集中增加存在遮挡目标对象的训练样本图像,可以采用Mosaic数据增强或者Random Occlusion对训练样本图像中的目标对象进行随机遮挡,进行随机遮挡后的训练样本图像如图20所示。以随机遮挡为例,随机选中图片中的某块区域,将此区域重新填充成一个像素值,从而使得该区域被覆盖,模拟出目标存在被遮挡的情况,迫使目标检测网络学习被遮挡目标对象的特征,提高了目标检测网络模型对遮挡目标对象检测的泛化能力。结合上述数据增强的方法以及对训练样本图像中的目标对象进行遮挡设置,有利于提高目标检测网络模型对遮挡目标对象检测的准确性。
请参阅图21所示,其为依据本申请实施例提供的目标检测方法的流程示意图。在本实施例中,S04之前,目标检测方法还包括S0341以及S0343,具体描述如下。
S0341:确定所述目标检测网络模型的训练样本图像中不同尺度的目标对象对应尺度的二维标注框标注信息,所述二维标注框信息包括用于框住目标对象的二维框的中心点坐标信息、边长信息以及所述边长与对应坐标轴之间的夹角信息。
S0343:利用携带所述二维框标注信息的训练样本图像训练所述目标检测网络模型,使得所述目标检测网络模型在训练过程中学习所述二维标注框标注信息。
在本申请实施例提供的目标检测方法中,训练样本图像中用于框住目标对象的二维标注框由二维标注框的中心点、边长和边长与对应坐标轴之间的夹角确定,而非仅由中心点和边长确定。因此,目标检测网络模型在训练的过程中不仅能学习到二维标注框的中心点和边长信息,还能学习到上述夹角信息。训练后的目标检测网络模型在对待测图像进行检测时,若待测图像中的目标对象的对称轴与待测图像的像素坐标系的第一坐标轴成非直角夹角时,检测结果中用于框住该目标对象的目标检测框的对称轴与第一坐标轴也成非直角夹角。即目标对象对应目标检测框的对应边长(与对称轴平行的边长)与第一坐标轴成也成非直角夹角。这里需要说明的是目标对象的对称轴与目标检测框的对称轴是指同一个方向的对称轴。第一坐标轴可以为像素坐标轴的X轴也可以为Y轴。目标检测框的边长包括与像素坐标系X轴方向对应的第一边长以及与像素坐标系Y轴方向对应的第二边长。上述边长与对应坐标轴之间的夹角可以指第一边长与像素坐标系第一坐标轴或第二坐标轴之间的夹角,也可以指第二边长与像素坐标系第一坐标轴或第二坐标轴之间的夹角。
在本申请实施例提供的目标检测方法应用于无人机航拍目标检测时,将训练样本图像中的二维标注框定义为f(x,y,l,s,θ)。其中x,y表示二维标注框的中心点坐标,l,s分别表示长边和短边,θ表示二维框的边长与像素坐标系的坐标轴之间的旋转角度(夹角),例如θ可以表示二维框的长边与像素坐标系的X坐标轴之间的旋转角度。利用携带二维标注框信息的训练样本图像对目标检测网络模型进行训练时,目标检测网络模型的学习到旋转角度θ信息,即旋转角度θ为目标检测网络模型训练过程中被进行调节的训练参数。因此,本申请实施例提供的目标检测方法在用于无人机航拍目标检测场景时,可以解决俯视视角下存在的旋转目标对象检测问题。
在一些实施例中,本申请提供的目标检测方法具体包括:利用搭载在无人机上的红外图像采集设备采集含目标检测对象的航拍红外图像,并发送至目标检测器;目标检测器中的目标检测网络模型对航拍红外图像全局范围内不同尺度的所述目标对象的检测结果,不同尺度的所述目标对象至少包括尺度小于阈值尺度的小目标对象以及部分被遮挡的重叠目标对象,所述检测结果包括所述目标对象的类别信息、类别置信度信息以及位置信息。其中,目标检测器在将航拍红外图像发送至目标检测网络模型进行目标检测之前,先对航拍红外图像进行背景除杂处理以及对比度增强处理。此外,在本实施例中,目标检测网络模型为基于通道注意力机制的目标检测网络模型,其通过通道注意力机制以不同的感受野大小进行多个大小不同尺度的目标检测对象的特征提取,并对提取的不同尺度的特征进行融合,以基于融合特征获得多尺度目标检测对象的目标检测结果。进一步的,在本实施例中,目标检测网络模型为采用基于数据增强方法获得数据集进行训练的模型,且在目标检测网络模型的训练过程中,增加了数据集中的目标检测对象被遮挡样本图像的数量。更进一步的,目标检测网络模型在对航拍红外图像进行目标检测时,确定用于框住目标检测对象的二维检测框,并基于二维检测框信息确定目标检测对象的目标检测结果。其中,二维检测框信息包括中心点坐标信息、边长信息以及所述边长与对应坐标轴之间的夹角信息。在目标检测对象的运动方向发生变化时,其对应的二维检测框的夹角信息也发生相应的变化。
由上可见,依据本申请一些实施例提供的目标检测方法至少带来如下之一的有益效果:
1、本申请实施例提供的目标检测方法采用红外采集设备采集含目标检测对象的航拍红外图像进行目标检测,相比可见光图像采集设备而言,对采集环境的光照强度的要求较低,可以应用于光线较弱场景下的目标检测。
2、本申请实施例提供的目标检测方法将航拍红外图像进行背景除杂处理和对比度增强处理后再进行目标检测,在目标检测的过程中,航拍红外图像中的目标检测对象的对比度得到提升,且目标检测对象的轮廓特征更加明显,有利于目标检测网络模型提取目标检测对象的细节特征,提高目标检测的准确率。
3、本申请实施例提供的目标检测方法,新定义的了二维检测框,新定义的二维检测框由中心点坐标信息、边长信息以及所述边长与对应坐标轴之间的夹角信息确定,在目标检测网络模型训练的过程中,二维检测框的夹角信息也作为训练过程中可调节的参数,使得训练后的目标检测网络模型在对航拍红外图像进行目标检测时,能更准确的提取到航拍红外图像中的旋转目标的特征,以更好的识别出旋转目标的类别,有利于提高对航拍红外图像中的目标检测对象进行检测的精准度。
4、本申请实施例提供的目标检测方法,基于通道注意力机制以不同大小的感受野进行不同尺度特征提取,并对不同尺度特征进行融合,以获得目标检测对象的目标检测结果,有利于提高对红外图中多尺度密集目标检测对象以及小尺度目标检测对象的检测精准度。
5、本申请实施例提供的目标检测方法,采用数据增强方法获得目标检测网络模型的训练数据集,并增加了训练数据集中目标检测对象被遮挡样本图像的数量,有利于提高目标检测网络模型对遮挡目标检测对象的检测准确度。
6、本申请实施例提供的目标检测方法,对航拍红外图像进行目标检测的目标检测器对算力的要求较低,其可以部署在服务端,也可以部署在诸如无人机等移动设备上。因此,本申请实施例提供的目标检测方法应用的灵活性较大。
请参阅图22所示,其为依据本申请实施例提供的目标检测器的结构示意图。在本实施例中,目标检测器包括存储器及处理器,所述存储器内存储有可被所述处理器执行的计算机程序,所述计算机程序被所述处理器执行时实现如本申请任意一实施例中的目标检测方法。本申请实施例提供的目标检测器与前述实施例提供的目标检测方法能够达到相同的技术效果,为避免重复,这里不再赘述。
请参阅图23所示,其为无人机基于本申请实施例提供的目标检测器进行目标检测的流程示意图。在本申请实施例提供的目标检测方法应用无人机航拍目标检测时,首先在无人机上搭载采集目标对象的红外探测器,然后利用红外探测器采集含目标对象的图像数据,再依次对采集的红外图像进行背景除杂滤波和进行低对比度图像处理,接着将进行预处理后的红外图像输入至训练好的目标检测网络模型中提取目标特征,得到目标对象的类别和类别置信度,以及进一步获得目标对象的位置信息,最终输出携带目标对象的类别信息和类别置信度信息的红外图像,作为结果展示图像,该结果展示图像如图3所示。
请参阅图24所示,其为依据本申请实施例提供的目标检测系统结构示意图。在本实施例中,目标检测系统包括图像采集设备11、依据本申请任意一实施例中提供的目标检测器21以及显示器31。其中,所述图像采集设备11用于采集含目标检测对象的待测图像,所述显示器31用于显示所述目标检测器21获得的检测结果。
在一些实施例中,目标检测系统还包括无人机(图24中未示意出),图像采集设备11为搭载在该无人机上的红外图像采集设备,其用于采集含目标检测对象的航拍红外图像,并将航拍红外图像发送至目标检测器21中,由目标检测器21对其进行目标检测。
在一些实施例中,目标检测器21也部署在无人机中。应用本申请实施例提供的目标检测方法的目标检测器21在实现目标检测的过程中,对算力的要求较低,因而可以部署在无人机等移动设备上,为实现目标检测带来较高的便利度。
本申请实施例提供的目标检测系统与前述实施例提供的目标检测方法能够达到相同的技术效果,为避免重复,这里不再赘述。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述目标检测断方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。所述计算机可读存储介质,如只读存储器(Read-OnlyMemory,简称ROM)、随机存取存储器(RandomAccessMemory,简称RAM)、磁碟或者光盘等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围之内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (15)
1.一种目标检测方法,其特征在于,包括:
获取含目标对象的待测图像;
通过目标检测网络模型对所述待测图像以不同感受野大小进行多尺度特征提取和融合,获得所述待测图像全局范围内不同尺度的所述目标对象的检测结果,不同尺度的所述目标对象至少包括尺度小于阈值尺度的小目标对象以及部分被遮挡的重叠目标对象,所述检测结果包括所述目标对象的类别信息、类别置信度信息以及位置信息。
2.根据权利要求1所述的目标检测方法,其特征在于,所述获取含目标对象的待测图包括:
获取含目标对象的航拍红外图像。
3.根据权利要求2所述的目标检测方法,其特征在于,在所述对所述待测图像进行目标检测之前,所述目标检测方法还包括:
对所述航拍红外图像进行对比度增强处理;和/或,
对所述航拍红外图像进行背景除杂处理。
4.根据权利要求3所述的目标检测方法,其特征在于,所述对所述航拍红外图像进行对比度增强处理包括:
采用自适应直方图均衡化算法对所述航拍红外图像进行对比度增强处理;和/或,
所述对所述航拍红外图像进行背景除杂处理,包括:
采用高斯模糊算法对所述航拍红外图像进行背景除杂处理。
5.根据权利要求1所述的目标检测方法,其特征在于,所述通过目标检测网络模型对所述待测图像以不同感受野大小进行多尺度特征提取和融合,获得所述待测图像全局范围内不同尺度的所述目标对象的检测结果,包括:
将所述待测图像输入至目标检测网络模型中,通过多采样通道分别对所述待测图像进行不同采样倍率的下采样处理,得到不同尺度的第一特征图;
基于通道注意力机制分别对不同尺度的所述第一特征图进行特征提取,获得与各个不同尺度的第一特征图对应的第二特征图;
根据各个所述第二特征图进行特征融合,获得与各个不同尺度的所述目标检测对象对应的融合特征图,并分别根据各个所述融合特征图进行对应尺度的目标对象的检测,获得所述检测结果。
6.根据权利要求5所述的目标检测方法,其特征在于,所述基于通道注意力机制对各个所述采样通道的所述第一特征图进行特征提取,获得各个不同尺度的第一特征图对应的第二特征图,包括:
针对每一所述第一特征图,采用不同大小的卷积核对所述第一特征图进行不同感受野的特征提取,获得不同的感受野特征图;
对各个所述感受野特征图进行融合,获得融合感受野特征图;
对所述融合感受野特征图进行平均池化和降维操作后,通过激活函数计算各个感受野特征图对应的权值;
将各个不同的感受野特征图按照对应的权值进行加权处理,获得该所述第一特征图对应的所述第二特征图。
7.根据权利要求6所述的目标检测方法,其特征在于,所述激活函数为指数函数,所述权值为所述指数函数的自变量。
8.根据权利要求5所述的目标检测方法,其特征在于,所述根据各个所述第二特征图进行特征融合,获得与各个不同尺度的所述目标检测对象对应的融合特征图,并分别根据各个所述融合特征图进行对应尺度的目标对象的检测,获得所述检测结果,包括:
通过第一卷积层提取第一尺度的所述第二特征图中的信息,获得对应的第三特征图,并将所述第三特征图输入至空间金字塔池化层,获得第四特征图,通过第二卷积层提取所述第四特征图中的信息,获得第五特征图;
将所述第五特征图与第二尺度的第二特征图进行融合,获得第一融合特征图;
将所述第一融合特征图与第三尺度的所述第二特征图进行融合,获得第二融合特征图;
将所述第五特征图输入至第一检测头,获得第四尺度的小目标对象的所述检测结果,将所述第一融合特征图输入至第二检测头,获得第五尺度的目标对象的所述检测结果,以及将所述第二融合特征图输入至第三检测头,获得第六尺度的目标对象的所述检测结果;
其中,所述第一尺度大于预设尺度且小于所述第二尺度,所述第三尺度大于所述第二尺度,所述第四尺度小于所述阈值尺度,所述第五尺度大于所述第四尺度且小于所述第六尺度。
9.根据权利要求8所述的目标检测方法,其特征在于,所述空间金字塔层包括四个不同大小的最大池化模块。
10.根据权利要求5所述的目标检测方法,其特征在于,在所述将所述待测图像输入至目标检测网络模型中之前,所述目标检测方法还包括:
对所述目标检测网络模型的训练集进行数据增强处理,所述数据增强处理包括随机缩放、随机裁剪和随机排布,并利用进行所述数据增强处理后的训练集训练目标检测网络模型。
11.根据权利要求5所述的目标检测方法,其特征在于,在所述将所述待测图像输入至目标检测网络模型中之前,所述目标检测方法还包括:
将所述目标检测网络模型的训练样本图像中的部分目标对象进行遮挡。
12.根据权利要求5所述的目标检测方法,其特征在于,所述检测结果还包括用于框住各个所述目标对象的二维检测框,在所述将所述待测图像输入至目标检测网络模型中之前,所述目标检测方法还包括:
确定所述目标检测网络模型的训练样本图像中不同尺度的目标对象对应尺度的二维标注框标注信息,所述二维标注框信息包括用于框住目标对象的二维框的中心点坐标信息、边长信息以及所述边长与对应坐标轴之间的夹角信息;
利用携带所述二维框标注信息的训练样本图像训练所述目标检测网络模型,使得所述目标检测网络模型在训练过程中学习所述二维标注框标注信息。
13.一种目标检测器,其特征在于,包括存储器及处理器,所述存储器内存储有可被所述处理器执行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至12中任一项所述的目标检测方法。
14.一种目标检测系统,其特征在于,包括图像采集设备、如权利要求12所述的目标检测器以及显示器;
所述图像采集设备用于采集含目标检测对象的待测图像;
所述显示器用于显示所述目标检测器获得的检测结果。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至11中任一项所述的目标检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211314607.8A CN115601538A (zh) | 2022-10-25 | 2022-10-25 | 目标检测方法及目标检测器、系统和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211314607.8A CN115601538A (zh) | 2022-10-25 | 2022-10-25 | 目标检测方法及目标检测器、系统和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115601538A true CN115601538A (zh) | 2023-01-13 |
Family
ID=84848643
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211314607.8A Pending CN115601538A (zh) | 2022-10-25 | 2022-10-25 | 目标检测方法及目标检测器、系统和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115601538A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116681660A (zh) * | 2023-05-18 | 2023-09-01 | 中国长江三峡集团有限公司 | 一种目标对象缺陷检测方法、装置、电子设备及存储介质 |
-
2022
- 2022-10-25 CN CN202211314607.8A patent/CN115601538A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116681660A (zh) * | 2023-05-18 | 2023-09-01 | 中国长江三峡集团有限公司 | 一种目标对象缺陷检测方法、装置、电子设备及存储介质 |
CN116681660B (zh) * | 2023-05-18 | 2024-04-19 | 中国长江三峡集团有限公司 | 一种目标对象缺陷检测方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112287860B (zh) | 物体识别模型的训练方法及装置、物体识别方法及系统 | |
CN108062525B (zh) | 一种基于手部区域预测的深度学习手部检测方法 | |
CN103390164B (zh) | 基于深度图像的对象检测方法及其实现装置 | |
CN111462128A (zh) | 一种基于多模态光谱图像的像素级图像分割系统及方法 | |
CN112464933B (zh) | 一种地基凝视红外成像弱小目标智能识别方法 | |
CN113723377A (zh) | 一种基于ld-ssd网络的交通标志检测方法 | |
CN109977834B (zh) | 从深度图像中分割人手与交互物体的方法和装置 | |
Naufal et al. | Preprocessed mask RCNN for parking space detection in smart parking systems | |
CN114639115B (zh) | 一种人体关键点与激光雷达融合的3d行人检测方法 | |
CN113673562B (zh) | 一种特征增强的方法、目标分割方法、装置和存储介质 | |
CN112287859A (zh) | 物体识别方法、装置和系统,计算机可读存储介质 | |
CN111695373A (zh) | 斑马线的定位方法、系统、介质及设备 | |
CN112613568A (zh) | 基于可见光及红外多光谱图像序列的目标识别方法和装置 | |
CN112395962A (zh) | 数据增广方法及装置、物体识别方法及系统 | |
CN116978009A (zh) | 基于4d毫米波雷达的动态物体滤除方法 | |
CN110458019B (zh) | 稀缺认知样本条件下的排除倒影干扰的水面目标检测方法 | |
CN111881984A (zh) | 一种基于深度学习的目标检测方法和装置 | |
CN115375991A (zh) | 一种强/弱光照和雾环境自适应目标检测方法 | |
CN116402852A (zh) | 基于事件相机的动态高速目标追踪方法及装置 | |
CN115601538A (zh) | 目标检测方法及目标检测器、系统和介质 | |
CN109523570A (zh) | 运动参数计算方法及装置 | |
CN117911827A (zh) | 多模态目标检测方法、装置、设备及存储介质 | |
CN111089586B (zh) | 一种基于多帧累加算法的全天时星敏感器星点提取方法 | |
CN116862832A (zh) | 一种基于三维实景模型的作业人员定位方法 | |
CN114373144B (zh) | 一种用于高速视频中圆形标识点的自动识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |