CN116434015A - 一种基于集成学习的在线目标检测方法、设备及存储介质 - Google Patents
一种基于集成学习的在线目标检测方法、设备及存储介质 Download PDFInfo
- Publication number
- CN116434015A CN116434015A CN202211730369.9A CN202211730369A CN116434015A CN 116434015 A CN116434015 A CN 116434015A CN 202211730369 A CN202211730369 A CN 202211730369A CN 116434015 A CN116434015 A CN 116434015A
- Authority
- CN
- China
- Prior art keywords
- images
- target
- image
- feature
- regression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 56
- 238000012549 training Methods 0.000 claims abstract description 44
- 238000000034 method Methods 0.000 claims abstract description 34
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 30
- 230000004913 activation Effects 0.000 claims description 47
- 238000013528 artificial neural network Methods 0.000 claims description 42
- 230000006870 function Effects 0.000 claims description 34
- 238000010586 diagram Methods 0.000 claims description 32
- 238000004590 computer program Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 11
- 238000011478 gradient descent method Methods 0.000 claims description 7
- 230000001629 suppression Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 5
- 238000013178 mathematical model Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 abstract description 7
- 238000012544 monitoring process Methods 0.000 abstract description 5
- 238000013135 deep learning Methods 0.000 description 10
- 239000011159 matrix material Substances 0.000 description 4
- 230000003213 activating effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012567 pattern recognition method Methods 0.000 description 2
- 101150064138 MAP1 gene Proteins 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 101150077939 mapA gene Proteins 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/778—Active pattern-learning, e.g. online learning of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及计算机视觉技术领域,具体提供了一种基于集成学习的在线目标检测方法、设备及存储介质,通过对的深度神经网络在现有类别目标数据上进行基础训练,在需要对未参与该算法训练新的类别目标进行检测时,仅需要一张新目标的图片就能在图像中对目标进行检测。在实际应用中,避免了对新目标的繁杂的数据采集、数据标注与算法模型的离线训练,只要有一张新目标的样本图片就能对目标进行检测,尤其适用于视频监控、无人机对地探测以及遥感图像的高价值目标发现。
Description
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种基于集成学习的在线目标检测方法、设备及存储介质。
背景技术
目标检测是计算机视觉领域的基础问题之一,深度神经网络的应用是的目标检测的精度得到空前提高。但是基于深度神经网络的目标检测算法严重依赖大量标注数据进行模型训练,不仅需要耗费大量人力、财力进行数据的采集并进行数据标注,而且大量数据基础上的模型训练需要耗费巨大的计算资源,模型训练的耗时问题也进一步限制了深度神经网络目标检测算法的推广应用。目前,对比较常见目标物在常见的拍摄角度下的数据采集、利用这些数据对模型进行预先训练已经比较成熟,已有人脸、行人、车辆等类别在较近距离下的大型数据集,但对于一些新类别、新样本或者常见目标在不常见角度或者距离的数据采集难以实现,难以构建大型数据,因此对这类目标的目标检测模型的训练仅有很少的训练样本。而基于深度学习的目标检测和大多数的深度学习算法一样,需要大量的标注好的数据进行有监督的学习训练,当标注数据数量有限时,很难保证算法的正确率与泛化能力。当能够获得数量足够多的样本时,我们可以通过人工或者自动、半自动的方式对数据进行标注,从而获得大量标注数据。如果样本数据都很难获取,例如从监控视频中寻找某个可疑人员,这个可疑人员仅仅有几张图片,不可能进行大规模的深度学习训练,难以获得有效的深度学习模型。军事领域当利用无人机或者卫星光电传感器对高价值目标进行巡逻侦察时,由于高价值目标位于敌方境内,很难获得大量高价值目标的光电数据,可能只有有限数量的目标图片,这时基于深度学习的目标检测算法的应用就受到极大的限制。
当前对于只有很少样本的目标进行检测,通常采用模板匹配的方法。模板匹配是一种最基本的模式识别方法,研究某一特定对象物的图案位于图像的什么地方,进而识别对象物,它是图像处理中最基本、最常用的匹配方法。模板匹配具有自身的局限性,主要表现在它只能进行平行移动,若原图像中的匹配目标发生旋转或大小变化,算法性能骤降,也就是说模板匹配方法一般不具有旋转不变性。当前深度学习方法获得广泛运用,利用深度神经网络提取的特征图具有平移不变性和旋转不变性,在目标检测领域取得非常好的效果。
为了利用深度神经网络提取特征的能力,又要实现单个样本条件下的在线实时目标检测,提出了基于深度特征匹配的目标检测算法,但是这种方法只能利用1张样本图像信息,检测的正确率较低,如果有多张样本图片也不能充分利用样本信息;如果待检视频或者图像中的目标的角度或者尺度变化较大,利用一张样本图像的深度特征匹配算法就会失效,因此亟需提出一种基于集成学习的在线目标检测算法。
发明内容
为了克服上述缺陷,本发明提出了一种基于集成学习的在线目标检测方法及装置。
第一方面,提供一种基于集成学习的在线目标检测方法,所述基于集成学习的在线目标检测方法包括:
将多个目标样本图像输入深度神经网络的骨干网络,得到多个目标样本图像对应的深度特征图;
将所述多个目标样本图像对应的深度特征图输入深度神经网络的区域生成网络,得到多个目标样本图像对应的分类特征图和回归特征图;
将待测图像输入深度神经网络的骨干网络,得到待测图像对应的深度特征图;
分别将所述多个目标样本图像对应的分类特征图和多个目标样本图像对应的回归特征图作为卷积核与所述待测图像对应的深度特征图进行卷积操作,得到多个分类激活特征图和多个回归激活特征图;
定义所述多个分类激活特征图中的锚框,并采用非极大值抑制算法对所述锚框进行临近合并,得到多组锚框;
采用集成学习的结合策略在所述多组锚框中选取最优锚框;
结合所述最优锚框对应的回归激活特征图得到所述最优锚框对应的偏移量;
结合所述最优锚框对应的偏移量以及所述最优锚框的位置、宽和高,得到预测框;
将所述预测框映射回所述待测图像,并利用激活函数计算所述最优锚框对应区域的分类置信度,得到检测结果。
优选的,所述骨干网络包括下述中的一种:AlexNet,VGGNet,GoogleNet,ResNet,ResNeXt,ResNeSt,DenseNet,SqueezeNet,ShuffleNet,MobileNet,EfficientNet,Transformer。
优选的,所述待测图像的分辨率不小于目标样本图像的分辨率的2倍。
优选的,所述分别将所述多个目标样本图像对应的分类特征图和多个目标样本图像对应的回归特征图作为卷积核与所述待测图像对应的深度特征图进行卷积操作,得到多个分类激活特征图和多个回归激活特征图之后,包括:
分别将所述多个分类激活特征图和多个回归激活特征图经过卷积操作单元处理,得到通道数为2k的多个分类激活特征图和通道数为4k的多个回归激活特征图;
其中,k为锚框数目。
优选的,所述激活函数为softmax激活函数。
优选的,所述集成学习的结合策略包括下述中的至少一种:肯定策略、共识策略、一致策略。
优选的,所述将多个目标样本图像输入深度神经网络的骨干网络,得到多个目标样本图像对应的深度特征图之前,包括:
截取既定图像中的目标图像,并利用所述目标图像和既定图像构建训练样本;
基于所述训练样本,采用随机梯度下降法对初始深度神经网络的骨干网络进行训练,得到所述深度神经网络的骨干网络的权重。
进一步的,所述基于所述训练样本,采用随机梯度下降法对初始深度神经网络的骨干网络进行训练,得到所述深度神经网络的骨干网络的权重的过程中,采用的损失函数的数学模型如下:
上式中,floss为损失函数值,Lcls为交叉熵损失函数,λ为超参数,为均方误差损失函数,σ为控制均方误差损失函数形状的参数,当i=0、1、2、3时, Ax,Ay,Aw,Ah分别为预测位置锚框的横坐标、纵坐标、宽和高,Tx,Ty,Tw,Th分别为实际位置锚框的横坐标、纵坐标、宽和高。
第二方面,提供一种计算机设备,包括:一个或多个处理器;
所述处理器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,实现所述的基于集成学习的在线目标检测方法。
第三方面,提供一种计算机可读存储介质,其上存有计算机程序,所述计算机程序被执行时,实现所述的基于集成学习的在线目标检测方法。
本发明上述一个或多个技术方案,至少具有如下一种或多种有益效果:
本发明提供了一种基于集成学习的在线目标检测方法、设备及存储介质,所述方法包括:将多个目标样本图像输入深度神经网络的骨干网络,得到多个目标样本图像对应的深度特征图;将所述多个目标样本图像对应的深度特征图输入深度神经网络的区域生成网络,得到多个目标样本图像对应的分类特征图和回归特征图;将待测图像输入深度神经网络的骨干网络,得到待测图像对应的深度特征图;分别将所述多个目标样本图像对应的分类特征图和多个目标样本图像对应的回归特征图作为卷积核与所述待测图像对应的深度特征图进行卷积操作,得到多个分类激活特征图和多个回归激活特征图;定义所述多个分类激活特征图中的锚框,并采用非极大值抑制算法对所述锚框进行临近合并,得到多组锚框;采用集成学习的结合策略在所述多组锚框中选取最优锚框;结合所述最优锚框对应的回归激活特征图得到所述最优锚框对应的偏移量;结合所述最优锚框对应的偏移量以及所述最优锚框的位置、宽和高,得到预测框;将所述预测框映射回所述待测图像,并利用激活函数计算所述最优锚框对应区域的分类置信度,得到检测结果。本发明提供的技术方案,通过对的深度神经网络在现有类别目标数据上进行基础训练,在需要对未参与该算法训练新的类别目标进行检测时,仅需要一张新目标的图片就能在图像中对目标进行检测。在实际应用中,避免了对新目标的繁杂的数据采集、数据标注与算法模型的离线训练,只要有一张新目标的样本图片就能对目标进行检测,尤其适用于视频监控、无人机对地探测以及遥感图像的高价值目标发现。
附图说明
图1是本发明实施例的基于集成学习的在线目标检测方法的训练流程图;
图2是本发明实施例的基于集成学习的在线目标检测方法的推理流程图;
图3是本发明实施例的分类特征图结构示意图;
图4是本发明实施例的回归特征图结构示意图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步的详细说明。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如背景技术中所公开的,目标检测是计算机视觉领域的基础问题之一,深度神经网络的应用是的目标检测的精度得到空前提高。但是基于深度神经网络的目标检测算法严重依赖大量标注数据进行模型训练,不仅需要耗费大量人力、财力进行数据的采集并进行数据标注,而且大量数据基础上的模型训练需要耗费巨大的计算资源,模型训练的耗时问题也进一步限制了深度神经网络目标检测算法的推广应用。目前,对比较常见目标物在常见的拍摄角度下的数据采集、利用这些数据对模型进行预先训练已经比较成熟,已有人脸、行人、车辆等类别在较近距离下的大型数据集,但对于一些新类别、新样本或者常见目标在不常见角度或者距离的数据采集难以实现,难以构建大型数据,因此对这类目标的目标检测模型的训练仅有很少的训练样本。而基于深度学习的目标检测和大多数的深度学习算法一样,需要大量的标注好的数据进行有监督的学习训练,当标注数据数量有限时,很难保证算法的正确率与泛化能力。当能够获得数量足够多的样本时,我们可以通过人工或者自动、半自动的方式对数据进行标注,从而获得大量标注数据。如果样本数据都很难获取,例如从监控视频中寻找某个可疑人员,这个可疑人员仅仅有几张图片,不可能进行大规模的深度学习训练,难以获得有效的深度学习模型。军事领域当利用无人机或者卫星光电传感器对高价值目标进行巡逻侦察时,由于高价值目标位于敌方境内,很难获得大量高价值目标的光电数据,可能只有有限数量的目标图片,这时基于深度学习的目标检测算法的应用就受到极大的限制。
当前对于只有很少样本的目标进行检测,通常采用模板匹配的方法。模板匹配是一种最基本的模式识别方法,研究某一特定对象物的图案位于图像的什么地方,进而识别对象物,它是图像处理中最基本、最常用的匹配方法。模板匹配具有自身的局限性,主要表现在它只能进行平行移动,若原图像中的匹配目标发生旋转或大小变化,算法性能骤降,也就是说模板匹配方法一般不具有旋转不变性。当前深度学习方法获得广泛运用,利用深度神经网络提取的特征图具有平移不变性和旋转不变性,在目标检测领域取得非常好的效果。
为了利用深度神经网络提取特征的能力,又要实现单个样本条件下的在线实时目标检测,提出了基于深度特征匹配的目标检测算法,但是这种方法只能利用1张样本图像信息,检测的正确率较低,如果有多张样本图片也不能充分利用样本信息;如果待检视频或者图像中的目标的角度或者尺度变化较大,利用一张样本图像的深度特征匹配算法就会失效,因此亟需提出一种基于集成学习的在线目标检测算法。
为了改善上述问题,本发明提供了一种基于集成学习的在线目标检测方法、设备及存储介质,所述方法包括:将多个目标样本图像输入深度神经网络的骨干网络,得到多个目标样本图像对应的深度特征图;将所述多个目标样本图像对应的深度特征图输入深度神经网络的区域生成网络,得到多个目标样本图像对应的分类特征图和回归特征图;将待测图像输入深度神经网络的骨干网络,得到待测图像对应的深度特征图;分别将所述多个目标样本图像对应的分类特征图和多个目标样本图像对应的回归特征图作为卷积核与所述待测图像对应的深度特征图进行卷积操作,得到多个分类激活特征图和多个回归激活特征图;定义所述多个分类激活特征图中的锚框,并采用非极大值抑制算法对所述锚框进行临近合并,得到多组锚框;采用集成学习的结合策略在所述多组锚框中选取最优锚框;结合所述最优锚框对应的回归激活特征图得到所述最优锚框对应的偏移量;结合所述最优锚框对应的偏移量以及所述最优锚框的位置、宽和高,得到预测框;将所述预测框映射回所述待测图像,并利用激活函数计算所述最优锚框对应区域的分类置信度,得到检测结果。本发明提供的技术方案,通过对的深度神经网络在现有类别目标数据上进行基础训练,在需要对未参与该算法训练新的类别目标进行检测时,仅需要一张新目标的图片就能在图像中对目标进行检测。在实际应用中,避免了对新目标的繁杂的数据采集、数据标注与算法模型的离线训练,只要有一张新目标的样本图片就能对目标进行检测,尤其适用于视频监控、无人机对地探测以及遥感图像的高价值目标发现。下面对上述方案进行详细阐述。
实施例1
本发明实施例中的基于集成学习的在线目标检测方法主要包括以下步骤:
将多个目标样本图像输入深度神经网络的骨干网络,得到多个目标样本图像对应的深度特征图;
将所述多个目标样本图像对应的深度特征图输入深度神经网络的区域生成网络,得到多个目标样本图像对应的分类特征图和回归特征图;
将待测图像输入深度神经网络的骨干网络,得到待测图像对应的深度特征图;
分别将所述多个目标样本图像对应的分类特征图和多个目标样本图像对应的回归特征图作为卷积核与所述待测图像对应的深度特征图进行卷积操作,得到多个分类激活特征图和多个回归激活特征图;
定义所述多个分类激活特征图中的锚框,并采用非极大值抑制算法对所述锚框进行临近合并,得到多组锚框;
采用集成学习的结合策略在所述多组锚框中选取最优锚框;
结合所述最优锚框对应的回归激活特征图得到所述最优锚框对应的偏移量;
结合所述最优锚框对应的偏移量以及所述最优锚框的位置、宽和高,得到预测框;
将所述预测框映射回所述待测图像,并利用激活函数计算所述最优锚框对应区域的分类置信度,得到检测结果。
其中,所述骨干网络包括下述中的一种:AlexNet,VGGNet,GoogleNet,ResNet,ResNeXt,ResNeSt,DenseNet,SqueezeNet,ShuffleNet,MobileNet,EfficientNet,Transformer。
其中,所述待测图像的分辨率不小于目标样本图像的分辨率的2倍。
其中,所述分别将所述多个目标样本图像对应的分类特征图和多个目标样本图像对应的回归特征图作为卷积核与所述待测图像对应的深度特征图进行卷积操作,得到多个分类激活特征图和多个回归激活特征图之后,包括:
分别将所述多个分类激活特征图和多个回归激活特征图经过卷积操作单元处理,得到通道数为2k的多个分类激活特征图和通道数为4k的多个回归激活特征图;
其中,k为锚框数目。
其中,所述激活函数为softmax激活函数。
其中,所述集成学习的结合策略通常基于三种不同的投票策略:肯定策略,即只要产生初始预测的一种方法在一个区域包含一个物体,这种检测就被认为是有效的。共识策略,即大多数初始方法预测一个区域包含一个对象,则检测被认为是有效的。一致策略,即所有初始方法都必须一致认为一个区域包含一个对象,才认为检测时有效的。
本实施例中,所述将多个目标样本图像输入深度神经网络的骨干网络,得到多个目标样本图像对应的深度特征图之前,包括:
截取既定图像中的目标图像,并利用所述目标图像和既定图像构建训练样本;
基于所述训练样本,采用随机梯度下降法对初始深度神经网络的骨干网络进行训练,得到所述深度神经网络的骨干网络的权重。
在一个最优的实施方式中,本发明实施例中的基于集成学习的在线目标检测方法包含训练与推理两个阶段,训练阶段如图1所示,具体包括如下步骤:
S11、将现有目标样本图像分辨率调整为1×3×127×127,然后输入深度神经网络的骨干网络,该实施例骨干网络为AlexNet,具体结构如图1所示,获得该图像的深度特征图,分辨率为1×256×6×6;
S12、将获得深度特征图输入区域生成网络,区域生成网络包括分类与回归分支,具体结构如图1中所示,分别获得分类与回归特征图,分类特征图分辨率为1×2560×4×4,回归特征图分辨率为1×5120×4×4;
S13、将现有目标样本的分类特征图经过上一步的操作后经过适当的矩阵变形操作后作为与待检图像分类特征图进行卷积的分类卷积核,分辨率为10×256×4×4;
S14、将现有目标样本的回归特征图经过上一步的卷积操作后经过适当的矩阵变形操作后作为与待检图像回归特征图进行卷积的回归卷积核,分辨率为20×256×4×4;
S15、将待检图像分辨率调整为1×3×271×271,然后将其输入上S11所述的AlexNet,获得该图像的深度特征图,分辨率为1×256×24×24;
S16、将待检图像的特征图输入区域生成网络,获得待检图像的目标分类和回归特征图,分类特征图分辨率为1×256×22×22,回归特征图分辨率为1×256×22×22;
S17、现有目标样本图像提取的分类卷积核(10×256×4×4)和回归卷积核(20×256×4×4)分别在S16获得的待检图像的分类特征图(1×256×22×22)和回归特征图(1×256×22×22)上进行深度卷积操作,即在每个通道上分别进行卷积操作,从而获得待检图像的分类激活特征图和回归激活特征图,分类激活特征图分辨率为(1×10×19×19),回归激活特征图分辨率为(1×20×19×19);
S18、定义锚框的数量为5,长宽比分别为[0.33,0.5,1,2,3]。在分类特征图上每个像素点(19×19)的五个锚框上计算交叉熵损失函数,交叉熵定义为:
其中N为样本数量,本实施例中N=10×19×19=3610;ci为类别标签,有目标为1,没有目标为0;pi表示样本i预测为1的概率;
Ax,Ay,Aw,Ah分别代表锚框的中心点坐标和锚框的宽和高,Tx,Ty,Tw,Th分别代表目标真实位置矩形框的中心点坐标与宽和高
该目标检测算法采用的损失函数的数学模型如下:
上式中,floss为损失函数值,Lcls为交叉熵损失函数,λ为超参数,为均方误差损失函数,σ为控制均方误差损失函数形状的参数,这里设置为1,当i=0、1、2、3时,Ax,Ay,Aw,Ah分别为预测位置锚框的横坐标、纵坐标、宽和高,Tx,Ty,Tw,Th分别为实际位置锚框的横坐标、纵坐标、宽和高。
对floss求导,利用随机梯度下降法(GSD)可以得到整个网络的权重,这些训练好的权重在下面的推理过程中需要用到。
推理阶段如图2所示,具体包括如下步骤:
S21、将新类别目标样本图像分辨率调整为1×3×127×127,输入深度神经网络的骨干网络,获得该图像的深度特征图,推理阶段骨干网络与训练阶段保持一致,并且加载训练阶段得到的权重。
S22、推理阶段区域生成网络(Region Proposal Network)与训练阶段保持一致,同样加载训练得到的权重,将获得深度特征图输入区域生成网络,区域生成网络包括分类与回归分支,具体结构如图1中所示,分别获得分类与回归特征图,分类特征图分辨率为1×2560×4×4,回归特征图分辨率为1×5120×4×4;
S23、将新类别目标样本的分类特征图经过上一步的卷积操作以及适当的矩阵变形操作后作为与待检图像分类特征图进行卷积的分类卷积核,分辨率为10×256×4×4;
S24、将新类别目标样本的回归特征图经过上一步的卷积操作以及适当的矩阵变形操作后作为与待检图像回归特征图进行卷积的回归卷积核,分辨率为20×256×4×4;
S25、将待检图像分辨率调整为1×3×271×271,然后将其输入上S11所述的AlexNet,获得该图像的深度特征图,分辨率为1×256×24×24;
S26、将待检图像的特征图输入区域生成网络,获得待检图像的目标分类和回归特征图,分类特征图分辨率为1×256×22×22,回归特征图分辨率为1×256×22×22;
S27、现有目标样本图像提取的分类卷积核(10×256×4×4)和回归卷积核(20×256×4×4)分别在S26获得的待检图像的分类特征图(1×256×22×22)和回归特征图(1×256×22×22)上进行深度卷积操作,即在每个通道上分别进行卷积操作,从而获得待检图像的分类激活特征图和回归激活特征图,分类激活特征图分辨率为(1×10×19×19),回归激活特征图分辨率为(1×20×19×19);
S28、锚框的数量和形状与训练阶段保持一致,数量为5,长宽比分别为[0.33,0.5,1,2,3],w=19,h=19,k=5,对于分类分支输出的特征图如图3所示,表示为:
上式中,为特征位置及该位置有无目标集,w为特征图宽度,h为特征图高度,i∈[0,w),j∈[0,h),l∈[0,2k),k为一个位置的锚框数量(优选5),/>为分类激活特征图中第i个宽度坐标值,/>为分类激活特征图中第j个高度坐标值,/>为第l个锚框的分类值,当/>时,分类激活特征图中位置/>有目标,当/>时,分类激活特征图中位置/>无目标。
其中i∈[0,19),j∈[0,19),l∈[0,10),奇数通道代表了有该位置的锚框内有目标,利用softmax激活函数选取奇数通道内c值最大的若干个值;
softmax激活函数定义如下:
上式中,softmax(xi)为所述最优分类激活特征图中的第i个特征值所属类别置信度,xi为所述最优分类激活特征图中的第i个特征值,xj为所述最优分类激活特征图中属于第j类的特征值,C为类别数,max(x)为所述最优分类激活特征图中的特征值最大值。
令c值最大的若干个值对应的位置为
其中I,J,L是对应的位置和分类值索引,通过上面位置集合我们可以得到对应的锚框(anchor)集合;
S29、对于回归分支输出的特征图,如图4所示,根据分类分支获得的锚框集合可以在回归特征图中获得对应的目标框位置相对于锚框的位置偏移量以及宽和高的偏移量集合,进一步,可以得到预测的目标框的位置和大小/>预测得到的目标位置和大小经过非极大值抑制(NMS)算法获得最终的目标位置和大小。
实施例2
基于同一种发明构思,本发明还提供了一种计算机设备,该计算机设备包括处理器以及存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(CentralProcessing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor、DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其是终端的计算核心以及控制核心,其适于实现一条或一条以上指令,具体适于加载并执行计算机存储介质内一条或一条以上指令从而实现相应方法流程或相应功能,以实现上述实施例中一种基于集成学习的在线目标检测方法的步骤。
实施例3
基于同一种发明构思,本发明还提供了一种存储介质,具体为计算机可读存储介质(Memory),所述计算机可读存储介质是计算机设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质,当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令,以实现上述实施例中一种基于集成学习的在线目标检测方法的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (10)
1.一种基于集成学习的在线目标检测方法,其特征在于,所述方法包括:
将多个目标样本图像输入深度神经网络的骨干网络,得到多个目标样本图像对应的深度特征图;
将所述多个目标样本图像对应的深度特征图输入深度神经网络的区域生成网络,得到多个目标样本图像对应的分类特征图和回归特征图;
将待测图像输入深度神经网络的骨干网络,得到待测图像对应的深度特征图;
分别将所述多个目标样本图像对应的分类特征图和多个目标样本图像对应的回归特征图作为卷积核与所述待测图像对应的深度特征图进行卷积操作,得到多个分类激活特征图和多个回归激活特征图;
定义所述多个分类激活特征图中的锚框,并采用非极大值抑制算法对所述锚框进行临近合并,得到多组锚框;
采用集成学习的结合策略在所述多组锚框中选取最优锚框;
结合所述最优锚框对应的回归激活特征图得到所述最优锚框对应的偏移量;
结合所述最优锚框对应的偏移量以及所述最优锚框的位置、宽和高,得到预测框;
将所述预测框映射回所述待测图像,并利用激活函数计算所述最优锚框对应区域的分类置信度,得到检测结果。
2.如权利要求1所述的方法,其特征在于,所述骨干网络包括下述中的一种:AlexNet,VGGNet,GoogleNet,ResNet,ResNeXt,ResNeSt,DenseNet,SqueezeNet,ShuffleNet,MobileNet,EfficientNet,Transformer。
3.如权利要求1所述的方法,其特征在于,所述待测图像的分辨率不小于目标样本图像的分辨率的2倍。
4.如权利要求1所述的方法,其特征在于,所述分别将所述多个目标样本图像对应的分类特征图和多个目标样本图像对应的回归特征图作为卷积核与所述待测图像对应的深度特征图进行卷积操作,得到多个分类激活特征图和多个回归激活特征图之后,包括:
分别将所述多个分类激活特征图和多个回归激活特征图经过卷积操作单元处理,得到通道数为2k的多个分类激活特征图和通道数为4k的多个回归激活特征图;
其中,k为锚框数目。
5.如权利要求1所述的方法,其特征在于,所述激活函数为softmax激活函数。
6.如权利要求1所述的方法,其特征在于,所述集成学习的结合策略包括下述中的至少一种:肯定策略、共识策略、一致策略。
7.如权利要求1所述的方法,其特征在于,所述将多个目标样本图像输入深度神经网络的骨干网络,得到多个目标样本图像对应的深度特征图之前,包括:
截取既定图像中的目标图像,并利用所述目标图像和既定图像构建训练样本;
基于所述训练样本,采用随机梯度下降法对初始深度神经网络的骨干网络进行训练,得到所述深度神经网络的骨干网络的权重。
9.一种计算机设备,其特征在于,包括:一个或多个处理器;
所述处理器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,实现如权利要求1至5中任意一项所述的基于集成学习的在线目标检测方法。
10.一种计算机可读存储介质,其特征在于,其上存有计算机程序,所述计算机程序被执行时,实现如权利要求1至5中任意一项所述的基于集成学习的在线目标检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211730369.9A CN116434015A (zh) | 2022-12-30 | 2022-12-30 | 一种基于集成学习的在线目标检测方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211730369.9A CN116434015A (zh) | 2022-12-30 | 2022-12-30 | 一种基于集成学习的在线目标检测方法、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116434015A true CN116434015A (zh) | 2023-07-14 |
Family
ID=87083752
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211730369.9A Pending CN116434015A (zh) | 2022-12-30 | 2022-12-30 | 一种基于集成学习的在线目标检测方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116434015A (zh) |
-
2022
- 2022-12-30 CN CN202211730369.9A patent/CN116434015A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109949255B (zh) | 图像重建方法及设备 | |
CN111476219A (zh) | 智能家居环境中图像目标检测方法 | |
CN113326930B (zh) | 数据处理方法、神经网络的训练方法及相关装置、设备 | |
CN114897779B (zh) | 基于融合注意力的宫颈细胞学图像异常区域定位方法及装置 | |
CN113705769A (zh) | 一种神经网络训练方法以及装置 | |
CN113065645B (zh) | 孪生注意力网络、图像处理方法和装置 | |
CN112529146B (zh) | 神经网络模型训练的方法和装置 | |
CN111563414A (zh) | 一种基于非局部特征增强的sar图像舰船目标检测方法 | |
CN113052006B (zh) | 一种基于卷积神经网络的图像目标检测方法,系统及可读存储介质 | |
CN113592060A (zh) | 一种神经网络优化方法以及装置 | |
Dai | Real-time and accurate object detection on edge device with TensorFlow Lite | |
Wan et al. | Mixed local channel attention for object detection | |
CN112257727A (zh) | 一种基于深度学习自适应可变形卷积的特征图像提取方法 | |
CN112084897A (zh) | 一种gs-ssd的交通大场景车辆目标快速检测方法 | |
CN115995042A (zh) | 一种视频sar运动目标检测方法及装置 | |
Xiao et al. | FDLR-Net: A feature decoupling and localization refinement network for object detection in remote sensing images | |
CN117217280A (zh) | 神经网络模型优化方法、装置及计算设备 | |
CN116432736A (zh) | 神经网络模型优化方法、装置及计算设备 | |
CN117372877A (zh) | 一种基于神经网络的星图识别方法、装置及相关介质 | |
CN115861595B (zh) | 一种基于深度学习的多尺度域自适应异源图像匹配方法 | |
CN116953702A (zh) | 基于演绎范式的旋转目标检测方法及装置 | |
CN117079095A (zh) | 基于深度学习的高空抛物检测方法、系统、介质和设备 | |
CN116363610A (zh) | 一种基于改进YOLOv5的航拍车辆旋转目标检测方法 | |
CN116434015A (zh) | 一种基于集成学习的在线目标检测方法、设备及存储介质 | |
CN115100136A (zh) | 基于YOLOv4-tiny模型的工件类别与位姿估计方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |