CN117392369A - 一种多尺度目标检测方法、装置、电子设备及存储介质 - Google Patents
一种多尺度目标检测方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117392369A CN117392369A CN202311285586.6A CN202311285586A CN117392369A CN 117392369 A CN117392369 A CN 117392369A CN 202311285586 A CN202311285586 A CN 202311285586A CN 117392369 A CN117392369 A CN 117392369A
- Authority
- CN
- China
- Prior art keywords
- learning model
- deep learning
- feature pyramid
- module
- initial deep
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 98
- 238000013136 deep learning model Methods 0.000 claims abstract description 147
- 238000012549 training Methods 0.000 claims abstract description 79
- 230000007547 defect Effects 0.000 claims abstract description 38
- 238000000034 method Methods 0.000 claims abstract description 11
- 238000011176 pooling Methods 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 6
- 210000000988 bone and bone Anatomy 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000014616 translation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种多尺度目标检测方法、装置、电子设备及存储介质,该方法包括步骤:获取待检测图像;将待检测图像输入至预先训练好的深度学习模型中,输出图像缺陷检测结果,其中,预先训练好的深度学习模型是根据图像样本以及初始深度学习模型训练得到的,初始深度学习模型包括第一特征金字塔模块和第二特征金字塔模块,根据图像样本对应预测框的大小,确定利用图像样本、第一特征金字塔模块和第二特征金字塔模块,对初始深度学习模型进行训练,或者利用图像样本和第一特征金字塔模块对初始深度学习模型进行训练。本发明提供的方法,可以实现对多尺度目标的检测,可以提高缺陷检测效率和检测准确性。
Description
技术领域
本发明涉及目标检测技术领域,特别是涉及一种多尺度目标检测方法、装置、电子设备及存储介质。
背景技术
目标检测技术是计算机视觉领域的一种核心研究方向,其旨在获取图像中感兴趣目标的所属分类和所在位置。该技术是目标跟踪、语义分割等诸多计算机视觉任务的研究基础,已经广泛地应用于日常生活安全、机器人导航、智能视频监控等领域。对于工业设备缺陷检测,传统缺陷检测技术,例如自动光学检测,其检测覆盖范围较小,并且只能检测具有明显缺陷的目标,余下具有缺陷的目标就需要人工检测,而人工检测容易受人为因素的影响,导致传统缺陷检测技术的检测效率和准确性较低。
发明内容
基于此,本发明提供一种多尺度目标检测方法、装置、电子设备及存储介质,以解决现有缺陷检测技术的检测效率和准确性较低的技术问题。
本发明提供一种多尺度目标检测方法,包括步骤:
获取待检测图像;
将所述待检测图像输入至预先训练好的深度学习模型中,输出图像缺陷检测结果,其中,所述预先训练好的深度学习模型是根据图像样本以及初始深度学习模型训练得到的,所述初始深度学习模型包括第一特征金字塔模块和第二特征金字塔模块,所述第一特征金字塔模块和第二特征金字塔模块分别包括至少一个特征金字塔结构,根据所述图像样本对应预测框的大小,确定利用所述图像样本、所述第一特征金字塔模块和所述第二特征金字塔模块,对所述初始深度学习模型进行训练,或者利用所述图像样本和所述第一特征金字塔模块对所述初始深度学习模型进行训练。
可选地,根据所述图像样本对应预测框的大小,确定利用所述图像样本、所述第一特征金字塔模块和所述第二特征金字塔模块,对所述初始深度学习模型进行训练,或者利用所述图像样本和所述第一特征金字塔模块对所述初始深度学习模型进行训练,包括:
若所述初始深度学习模型针对单个IoU阈值的平均精度大于预设精度值,并且所述图像样本对应预测框的大小小于预设尺度门限,则利用所述图像样本、所述第一特征金字塔模块和所述第二特征金字塔模块,对所述初始深度学习模型进行训练,否则,利用所述图像样本和所述第一特征金字塔模块对所述初始深度学习模型进行训练。
可选地,所述初始深度学习模型还包括Backbone层和Head层,所述Backbone层包括空间金字塔池化模块以及多个残差结构。
可选地,利用所述图像样本、所述第一特征金字塔模块和所述第二特征金字塔模块,对所述初始深度学习模型进行训练,包括:
将所述图像样本输入至所述Backbone层后,使所述Backbone层的第一个残差结构的输出作为所述第二特征金字塔模块的输入,并且还使所述Backbone层中除第一残差结构以外的其他残差结构的输出,以及所述空间金字塔池化模块的输出作为所述第一特征金字塔模块的输入,使所述第一特征金字塔模块和所述第二特征金字塔模块的输出作为所述Head层的输入。
可选地,利用所述图像样本和所述第一特征金字塔模块对所述初始深度学习模型进行训练,包括:
将所述图像样本输入至所述Backbone层后,使所述Backbone层中除第一残差结构以外的其他残差结构的输出,以及所述空间金字塔池化模块的输出作为所述第一特征金字塔模块的输入,使所述第一特征金字塔模块和所述第二特征金字塔模块的输出作为所述Head层的输入。
可选地,根据图像样本以及初始深度学习模型训练得到所述预先训练好的深度学习模型的步骤,包括:
将所述图像样本输入至所述初始深度学习模型后,得到预测结果,计算所述预测结果与预设标注结果之间的分类损失、边界框损失和置信度损失,通过反向传播算法以及所述分类损失、所述边界框损失、所述置信度损失各自的梯度更新所述初始深度学习模型的权重,在所述分类损失、所述边界框损失和所述置信度损失保持不变时,完成对所述初始深度学习模型的训练,得到训练完成后的所述初始深度学习模型,以得到所述预先训练好的深度学习模型。
可选地,在得到训练完成后的所述初始深度学习模型之后,还包括:
将待测试图像输入至训练完成后的所述初始深度学习模型中,得到测试结果,若所述测试结果与尺寸大于或等于预设尺度门限的待测试图像对应,则滤除所述测试结果,否则根据所述测试结果确定训练完成后的所述初始深度学习模型是否有效,若有效,则以训练完成后的所述初始深度学习模型作为所述预先训练好的深度学习模型,若无效,则对训练完成后的所述初始深度学习模型的权重进行优化。
本发明还提供了一种多尺度目标检测装置,包括待检测图像获取模块和检测模块;
所述待检测图像获取模块,用于获取待检测图像;
所述检测模块,用于将所述待检测图像输入至预先训练好的深度学习模型中,输出图像缺陷检测结果,其中,所述预先训练好的深度学习模型是根据图像样本以及初始深度学习模型训练得到的,所述初始深度学习模型包括第一特征金字塔模块和第二特征金字塔模块,所述第一特征金字塔模块和第二特征金字塔模块分别包括至少一个特征金字塔结构,根据所述图像样本对应预测框的大小,确定利用所述图像样本、所述第一特征金字塔模块和所述第二特征金字塔模块,对所述初始深度学习模型进行训练,或者利用所述图像样本和所述第一特征金字塔模块对所述初始深度学习模型进行训练。
本发明还提供了一种电子设备,包括存储器、处理器,所述存储器存储有可被所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一项技术方案所述的多尺度目标检测方法。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项技术方案所述的多尺度目标检测方法。
本发明提供的一种多尺度目标检测方法、装置、电子设备及存储介质,通过获取待检测图像;将所述待检测图像输入至预先训练好的深度学习模型中,输出图像缺陷检测结果,其中,所述预先训练好的深度学习模型是根据图像样本以及初始深度学习模型训练得到的,所述初始深度学习模型包括第一特征金字塔模块和第二特征金字塔模块,所述第一特征金字塔模块和第二特征金字塔模块分别包括至少一个特征金字塔结构,根据所述图像样本对应预测框的大小,确定利用所述图像样本、所述第一特征金字塔模块和所述第二特征金字塔模块,对所述初始深度学习模型进行训练,或者利用所述图像样本和所述第一特征金字塔模块对所述初始深度学习模型进行训练;可以实现对多尺度目标的检测,可以提高缺陷检测效率和检测准确性。
附图说明
图1为本发明实施例提供的一种多尺度目标检测方法的流程示意图;
图2为本发明实施例提供的一种初始深度学习模型的结构示意图;
图3为本发明实施例提供的一种大目标缺陷检测结果示意图;
图4为本发明实施例提供的一种小目标缺陷检测结果示意图;
图5为本发明实施例提供的一种多尺度目标检测装置的结构示意图;
图6为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。
在本发明的描述中,“第一”、“第二”等词汇,仅用于区分描述的目的,而不能理解为指示或暗示相对重要性,也不能理解为指示或暗示顺序。在本说明书中术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
图1是本发明实施例的多尺度目标检测方法的流程示意图。需注意的是,若有实质上相同的结果,本发明的多尺度目标检测方法并不以图1所示的流程顺序为限。该多尺度目标检测方法,主要包括以下步骤:
S1、获取待检测图像;
S2,将所述待检测图像输入至预先训练好的深度学习模型中,输出图像缺陷检测结果,其中,所述预先训练好的深度学习模型是根据图像样本以及初始深度学习模型训练得到的,所述初始深度学习模型包括第一特征金字塔模块和第二特征金字塔模块,所述第一特征金字塔模块和第二特征金字塔模块分别包括至少一个特征金字塔结构,根据所述图像样本对应预测框的大小,确定利用所述图像样本、所述第一特征金字塔模块和所述第二特征金字塔模块,对所述初始深度学习模型进行训练,或者利用所述图像样本和所述第一特征金字塔模块对所述初始深度学习模型进行训练。
本发明实施例,通过获取待检测图像;将所述待检测图像输入至预先训练好的深度学习模型中,输出图像缺陷检测结果,其中,所述预先训练好的深度学习模型是根据图像样本以及初始深度学习模型训练得到的,所述初始深度学习模型包括第一特征金字塔模块和第二特征金字塔模块,所述第一特征金字塔模块和第二特征金字塔模块分别包括至少一个特征金字塔结构,根据所述图像样本对应预测框的大小,确定利用所述图像样本、所述第一特征金字塔模块和所述第二特征金字塔模块,对所述初始深度学习模型进行训练,或者利用所述图像样本和所述第一特征金字塔模块对所述初始深度学习模型进行训练;可以实现对多尺度目标的检测,可以提高缺陷检测效率和检测准确性。
在一些实施例中,根据所述图像样本对应预测框的大小,确定利用所述图像样本、所述第一特征金字塔模块和所述第二特征金字塔模块,对所述初始深度学习模型进行训练,或者利用所述图像样本和所述第一特征金字塔模块对所述初始深度学习模型进行训练,包括:
若所述初始深度学习模型针对单个IoU阈值的平均精度大于预设精度值,并且所述图像样本对应预测框的大小小于预设尺度门限,则利用所述图像样本、所述第一特征金字塔模块和所述第二特征金字塔模块,对所述初始深度学习模型进行训练,否则,利用所述图像样本和所述第一特征金字塔模块对所述初始深度学习模型进行训练。
作为一个示例,针对单个IoU阈值的平均精度可以为mAP@0.5,预设精度值可以为0.35,预设尺度门限可以设定为绝对尺寸32×32像素,或者根据图像样本的预设百分比,例如预设百分比可以为0.12%,其中,可以以预测框的尺寸小于预设尺度门限的对应图像样本作为小目标,并以预测框的尺寸大于或者等于预设尺度门限的图像样本作为大目标。
在一些实施例中,所述初始深度学习模型还包括Backbone层和Head层,所述Backbone层包括空间金字塔池化模块以及多个残差结构。
一个具体实施例中,初始深度学习模型的结构示意图,如图2所示,该初始深度学习模型包括Backbone模块、Neck模块和Head模块。其中,Backbone模块包括Conv模块、C3模块和SPPF模块(SPP模块,也即空间金字塔池化模块),其中,C3模块是Conv等结构形成的残差结构,加深神经网络的深度,Upsample为上采样,Detect层为输出通道。Neck模块包括第一特征金字塔模块和所述第二特征金字塔模块,图2中,Neck模块在虚线框内的部分为第二特征金字塔模块,Neck模块在虚线框外的部分为第一特征金字塔。
图2中,第一特征金字塔模块和第二特征金字塔模块均包含FPN模块和PAN模块,FPN是自顶向下的,用于将高层特征通过上采样和低层特征做融合得到进行预测的特征图,传达强语义特征,将深层的语义特征传到浅层,从而增强多个尺度上的语义表达。PAN则自底向上传达强定位特征,将浅层的定位信息传导到深层,增强多个尺度上的定位能力。上述初始深度学习模型的Head模块可以用于计算类别、置信度、目标框回归等损失函数,输出最终检测结果。
在一些实施例中,利用所述图像样本、所述第一特征金字塔模块和所述第二特征金字塔模块,对所述初始深度学习模型进行训练,包括:
将所述图像样本输入至所述Backbone层后,使所述Backbone层的第一个残差结构的输出作为所述第二特征金字塔模块的输入,并且还使所述Backbone层中除第一残差结构以外的其他残差结构的输出,以及所述空间金字塔池化模块的输出作为所述第一特征金字塔模块的输入,使所述第一特征金字塔模块和所述第二特征金字塔模块的输出作为所述Head层的输入。
本发明实施例中,将所述图像样本输入至所述Backbone层后,使所述Backbone层的第一个残差结构(输入端卷积操作后的第一残差模块)的输出作为所述第二特征金字塔模块的输入,最大化保留了小目标信息,提高了对小目标缺陷检测的准确性。
一个具体实施例中,在所述初始深度学习模型针对单个IoU阈值的平均精度大于预设精度值,并且所述图像样本对应预测框的大小小于预设尺度门限,则利用所述图像样本、所述第一特征金字塔模块和所述第二特征金字塔模块,对所述初始深度学习模型进行训练。如图2所示,以图2中的虚线框外的实线部分作为第一训练路线(优化路线),以虚线框内的部分以及与虚线连接的实线部分作为第二训练路线,则有
If mAP@0.5<=0.35;
F(①,②)=①
else;
F(①,②)=[sgn(w*h-TH)*①+sgn(TH-w*h)*②]
其中,0.35为预设精度值,w*h为图像样本对应预测框的大小,即Head模块输出的归一化长宽信息处理后得到的绝对面积,F(①,②)为Head模块的输出,①为第一训练路线,②为第二训练路线,仅更新在虚线框内的模块;两条训练路线互不干扰,TH为预设尺度门限,其可以设置为绝对尺寸32×32像素或图像样本大小的0.12%。
作为一个实施例方式,图像样本可以来自工业数据集,预设尺度门限TH可以为工业数据集中小缺陷集的面积最大值。上述对第一训练路线和第二训练路线的选取的目的是优先保证多尺度场景下大目标的检测精度,当大目标训练到达一定拟合程度后,将小目标对象分配到结合大目标(特征图)训练的第二训练路线,大目标仍依照第一训练路线继续优化。
在一些实施例中,利用所述图像样本和所述第一特征金字塔模块对所述初始深度学习模型进行训练,包括:
将所述图像样本输入至所述Backbone层后,使所述Backbone层中除第一残差结构以外的其他残差结构的输出,以及所述空间金字塔池化模块的输出作为所述第一特征金字塔模块的输入,使所述第一特征金字塔模块和所述第二特征金字塔模块的输出作为所述Head层的输入。
本发明实施例,将所述图像样本输入至所述Backbone层后,使所述Backbone层中除第一残差结构以外的其他残差结构的输出,以及所述空间金字塔池化模块的输出作为所述第一特征金字塔模块的输入,使所述第一特征金字塔模块和所述第二特征金字塔模块的输出作为所述Head层的输入,提高了大目标的缺陷检测的精度和速度。
一个具体实施例中,若所述初始深度学习模型针对单个IoU阈值的平均精度小于或等于预设精度值,或者所述图像样本对应预测框的大小大于或者等于预设尺度门限,则将所述图像样本输入至所述Backbone层后,使所述Backbone层中除第一残差结构以外的其他残差结构的输出,以及所述空间金字塔池化模块的输出作为所述第一特征金字塔模块的输入,使所述第一特征金字塔模块和所述第二特征金字塔模块的输出作为所述Head层的输入。
在一些实施例中,根据图像样本以及初始深度学习模型训练得到所述预先训练好的深度学习模型的步骤,包括:
将所述图像样本输入至所述初始深度学习模型后,得到预测结果,计算所述预测结果与预设标注结果之间的分类损失、边界框损失和置信度损失,通过反向传播算法以及所述分类损失、所述边界框损失、所述置信度损失各自的梯度更新所述初始深度学习模型的权重,在所述分类损失、所述边界框损失和所述置信度损失保持不变时,完成对所述初始深度学习模型的训练,得到训练完成后的所述初始深度学习模型,以得到所述预先训练好的深度学习模型。
一个具体实施例中,可以使用Mosaic、平移、旋转等数据增强方式使原始图像训练样本多样化,图像样本输入到初始深度学习模之前,可以使用直方图均衡化算法来增强图像对比度。可以使用单阶段深度学习模型对初始深度学习模型进行训练,通过特征提取器将输入图像样本逐渐降采样,生成多尺度的特征图,这些特征图具有不同的分辨率,能够捕捉不同尺度的上下文信息和目标特征,对于每个特征图,可以使用一组不同大小和宽高比的锚框,可以使用k-means++算法更新锚框,提升检测速度、减少漏检。这些锚框可以用于在特征图上进行采样,用于预测目标的位置和类别。
一个具体实施例中,通过第一训练路线,计算预测框与标注框之间的分类损失、边界框损失和置信度损失,通过反向传播算法,根据损失函数的梯度来更新模型的权重,若上一轮综合得分(即针对单个IoU阈值的平均精度mAP@0.5)大于预设精度值,则激活第二训练路线,通过预测框小于预设尺度门限TH的小目标反向更新第二训练路线的权重,通过大目标反向更新第二训练路线的权重,更新迭代过程中,当上述损失函数的损失不再下降,表示模型权重趋于稳定,则停止更新。
在一些实施例中,在得到训练完成后的所述初始深度学习模型之后,还包括:
将待测试图像输入至训练完成后的所述初始深度学习模型中,得到测试结果,若所述测试结果与尺寸大于或等于预设尺度门限的待测试图像对应,则滤除所述测试结果,否则根据所述测试结果确定训练完成后的所述初始深度学习模型是否有效,若有效,则以训练完成后的所述初始深度学习模型作为所述预先训练好的深度学习模型,若无效,则对训练完成后的所述初始深度学习模型的权重进行优化。
一个具体实施例中,可以将训练完成后的所述初始深度学习模型部署到设备中,使第一训练路线与第二训练路线同时激活,且第二训练路线的检测结果需滤除大目标,使用包含缺陷的待测试图像输入到设备中不断进行检测,测试训练完成后的所述初始深度学习模型的训练权重是否有效,若有效,则以训练完成后的所述初始深度学习模型作为所述预先训练好的深度学习模型,其可以用于缺陷检测,若无效,则继续优化模型权重。使用缺陷检测模型(预先训练好的深度学习模型)进行缺陷检测,对检测的所有缺陷进行后处理,对相应不良品的缺陷进行人工复判。
一个具体实施例中,在车间通过工业摄像机拍摄工业目标检测各角度、各工位缺陷图片,并通过数据集标注工具labelimg标注,使用Mosaic等数据增强方式使图像样本多样化,检测图像样本输入到初始深度学习模型前使用直方图均衡化算法来增强图像对比度。对初始深度学习模型进行训练时,初始学习率设置为0.01,epochs是1000。利用预先训练好的深度学习模型检测大目标缺陷,大目标缺陷检测结果示意图,如图3所示,小目标缺陷检测结果示意图,如图4所示。大目标检出率分别为94.00%,小目标检出率为87.14%,产品误检率为1.59%。预先训练好的深度学习模型在检测大目标和小目标时,检测准确性均较高。
本发明实施例提供的多尺度目标检测方法,通过获取待检测图像;将所述待检测图像输入至预先训练好的深度学习模型中,输出图像缺陷检测结果,其中,所述预先训练好的深度学习模型是根据图像样本以及初始深度学习模型训练得到的,所述初始深度学习模型包括第一特征金字塔模块和第二特征金字塔模块,所述第一特征金字塔模块和第二特征金字塔模块分别包括至少一个特征金字塔结构,根据所述图像样本对应预测框的大小,确定利用所述图像样本、所述第一特征金字塔模块和所述第二特征金字塔模块,对所述初始深度学习模型进行训练,或者利用所述图像样本和所述第一特征金字塔模块对所述初始深度学习模型进行训练;可以实现对多尺度目标的检测,可以提高缺陷检测效率和检测准确性。
由于小目标对象分辨率低,难以提取特征信息与语义信息,在大目标和小目标混合识别场景中,逐层卷积提取的过程中小目标更容易丢失信息。小目标因可用特征少,定位精度高,正负样本不均衡等问题相较大目标对象更难以训练。同时,传统深度学习中目标尺度与对应的特征金字塔没有强关联,整体反向更新时没有针对性,因此,在模型面对无法处理的小目标时可能会出现早停现象或者过拟合现象,甚至影响大目标的训练效果。
本发明实施例提供的多尺度目标检测方法,在训练时增加小目标训练路径(第二训练路线),相应的在检测时增加小目标检测路线,在训练接近拟合后激活该路线单独优化小目标的检测,为整体提供新的梯度更新空间避免出现早停现象。大目标训练路线(第一训练路线)优先拟合之后,不受小目标更新的影响,小目标训练路线的优化更具针对性且不影响大目标拟合结果,该方法更适合工业场景中普遍的多尺度目标检测任务,提高了缺陷检测的准确性、适应性和鲁棒性,使其能够更好地应对复杂的工业环境和小目标缺陷的检测,从而提高了工业缺陷检测的效率和可靠性。
图5是本发明实施例的多尺度目标检测装置的结构示意图,如图5所示,该多尺度目标检测装置50包括待检测图像获取模块51和检测模块52;
所述待检测图像获取模块51,用于获取待检测图像;
所述检测模块52,用于将所述待检测图像输入至预先训练好的深度学习模型中,输出图像缺陷检测结果,其中,所述预先训练好的深度学习模型是根据图像样本以及初始深度学习模型训练得到的,所述初始深度学习模型包括第一特征金字塔模块和第二特征金字塔模块,所述第一特征金字塔模块和第二特征金字塔模块分别包括至少一个特征金字塔结构,根据所述图像样本对应预测框的大小,确定利用所述图像样本、所述第一特征金字塔模块和所述第二特征金字塔模块,对所述初始深度学习模型进行训练,或者利用所述图像样本和所述第一特征金字塔模块对所述初始深度学习模型进行训练。
图6是本发明实施例的电子设备的结构示意图。如图6所示,该电子设备60包括处理器61及和处理器61通信连接的存储器62。
存储器62存储有用于实现上述任一实施例的所述多尺度目标检测方法的程序指令。
处理器61用于执行存储器62存储的程序指令以进行多尺度目标检测。
其中,处理器61还可以称为CPU(Central Processing Unit,中央处理单元)。处理器61可能是一种集成电路芯片,具有信号的处理能力。处理器61还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本发明实施例提供一种计算机可读存储介质,本发明实施例的计算机可读存储介质存储有能够实现上述所有方法的程序指令,所述计算机可读存储介质可以是非易失性,也可以是易失性。其中,该程序指令可以以软件产品的形式存储在上述计算机可读存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式所述方法的全部或部分步骤。而前述的计算机可读存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本发明的优选的实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种多尺度目标检测方法,其特征在于,包括步骤:
获取待检测图像;
将所述待检测图像输入至预先训练好的深度学习模型中,输出图像缺陷检测结果,其中,所述预先训练好的深度学习模型是根据图像样本以及初始深度学习模型训练得到的,所述初始深度学习模型包括第一特征金字塔模块和第二特征金字塔模块,所述第一特征金字塔模块和第二特征金字塔模块分别包括至少一个特征金字塔结构,根据所述图像样本对应预测框的大小,确定利用所述图像样本、所述第一特征金字塔模块和所述第二特征金字塔模块,对所述初始深度学习模型进行训练,或者利用所述图像样本和所述第一特征金字塔模块对所述初始深度学习模型进行训练。
2.根据权利要求1所述的多尺度目标检测方法,其特征在于,根据所述图像样本对应预测框的大小,确定利用所述图像样本、所述第一特征金字塔模块和所述第二特征金字塔模块,对所述初始深度学习模型进行训练,或者利用所述图像样本和所述第一特征金字塔模块对所述初始深度学习模型进行训练,包括:
若所述初始深度学习模型针对单个IoU阈值的平均精度大于预设精度值,并且所述图像样本对应预测框的大小小于预设尺度门限,则利用所述图像样本、所述第一特征金字塔模块和所述第二特征金字塔模块,对所述初始深度学习模型进行训练,否则,利用所述图像样本和所述第一特征金字塔模块对所述初始深度学习模型进行训练。
3.根据权利要求1或2所述的多尺度目标检测方法,其特征在于,所述初始深度学习模型还包括Backbone层和Head层,所述Backbone层包括空间金字塔池化模块以及多个残差结构。
4.根据权利要求3所述的多尺度目标检测方法,其特征在于,利用所述图像样本、所述第一特征金字塔模块和所述第二特征金字塔模块,对所述初始深度学习模型进行训练,包括:
将所述图像样本输入至所述Backbone层后,使所述Backbone层的第一个残差结构的输出作为所述第二特征金字塔模块的输入,并且还使所述Backbone层中除第一残差结构以外的其他残差结构的输出,以及所述空间金字塔池化模块的输出作为所述第一特征金字塔模块的输入,使所述第一特征金字塔模块和所述第二特征金字塔模块的输出作为所述Head层的输入。
5.根据权利要求3所述的多尺度目标检测方法,其特征在于,利用所述图像样本和所述第一特征金字塔模块对所述初始深度学习模型进行训练,包括:
将所述图像样本输入至所述Backbone层后,使所述Backbone层中除第一残差结构以外的其他残差结构的输出,以及所述空间金字塔池化模块的输出作为所述第一特征金字塔模块的输入,使所述第一特征金字塔模块和所述第二特征金字塔模块的输出作为所述Head层的输入。
6.根据权利要求1所述的多尺度目标检测方法,其特征在于,根据图像样本以及初始深度学习模型训练得到所述预先训练好的深度学习模型的步骤,包括:
将所述图像样本输入至所述初始深度学习模型后,得到预测结果,计算所述预测结果与预设标注结果之间的分类损失、边界框损失和置信度损失,通过反向传播算法以及所述分类损失、所述边界框损失、所述置信度损失各自的梯度更新所述初始深度学习模型的权重,在所述分类损失、所述边界框损失和所述置信度损失保持不变时,完成对所述初始深度学习模型的训练,得到训练完成后的所述初始深度学习模型,以得到所述预先训练好的深度学习模型。
7.根据权利要求6所述的多尺度目标检测方法,其特征在于,在得到训练完成后的所述初始深度学习模型之后,还包括:
将待测试图像输入至训练完成后的所述初始深度学习模型中,得到测试结果,若所述测试结果与尺寸大于或等于预设尺度门限的待测试图像对应,则滤除所述测试结果,否则根据所述测试结果确定训练完成后的所述初始深度学习模型是否有效,若有效,则以训练完成后的所述初始深度学习模型作为所述预先训练好的深度学习模型,若无效,则对训练完成后的所述初始深度学习模型的权重进行优化。
8.一种多尺度目标检测装置,其特征在于,包括待检测图像获取模块和检测模块;
所述待检测图像获取模块,用于获取待检测图像;
所述检测模块,用于将所述待检测图像输入至预先训练好的深度学习模型中,输出图像缺陷检测结果,其中,所述预先训练好的深度学习模型是根据图像样本以及初始深度学习模型训练得到的,所述初始深度学习模型包括第一特征金字塔模块和第二特征金字塔模块,所述第一特征金字塔模块和第二特征金字塔模块分别包括至少一个特征金字塔结构,根据所述图像样本对应预测框的大小,确定利用所述图像样本、所述第一特征金字塔模块和所述第二特征金字塔模块,对所述初始深度学习模型进行训练,或者利用所述图像样本和所述第一特征金字塔模块对所述初始深度学习模型进行训练。
9.一种电子设备,包括存储器、处理器,所述存储器存储有可被所述处理器执行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的多尺度目标检测方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的多尺度目标检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311285586.6A CN117392369A (zh) | 2023-10-07 | 2023-10-07 | 一种多尺度目标检测方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311285586.6A CN117392369A (zh) | 2023-10-07 | 2023-10-07 | 一种多尺度目标检测方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117392369A true CN117392369A (zh) | 2024-01-12 |
Family
ID=89440142
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311285586.6A Pending CN117392369A (zh) | 2023-10-07 | 2023-10-07 | 一种多尺度目标检测方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117392369A (zh) |
-
2023
- 2023-10-07 CN CN202311285586.6A patent/CN117392369A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113095124B (zh) | 一种人脸活体检测方法、装置以及电子设备 | |
CN109035304B (zh) | 目标跟踪方法、介质、计算设备和装置 | |
US9235902B2 (en) | Image-based crack quantification | |
CN112446378B (zh) | 目标检测方法及装置、存储介质、终端 | |
CN110781836A (zh) | 人体识别方法、装置、计算机设备及存储介质 | |
KR20170056474A (ko) | 건축물 높이 산출 방법, 장치 및 저장 매체 | |
CN110766039B (zh) | 渣土车运输状态识别方法、介质、设备及渣土车 | |
CN109284673B (zh) | 对象跟踪方法及装置、电子设备及存储介质 | |
CN111127508B (zh) | 一种基于视频的目标跟踪方法及装置 | |
US11488311B2 (en) | Diagnostic imaging support system and diagnostic imaging apparatus | |
CN112348787A (zh) | 物体缺陷检测模型的训练方法、物体缺陷检测方法及装置 | |
CN112329881B (zh) | 车牌识别模型训练方法、车牌识别方法及装置 | |
CN112633255A (zh) | 目标检测方法、装置及设备 | |
CN112258038A (zh) | 站台使用状态及车辆装卸货状态的识别方法、装置和设备 | |
CN115457415A (zh) | 基于yolo-x模型的目标检测方法、装置、电子设备和存储介质 | |
CN116452966A (zh) | 一种水下图像的目标检测方法、装置、设备及存储介质 | |
CN111881984A (zh) | 一种基于深度学习的目标检测方法和装置 | |
CN111553183A (zh) | 一种船只检测模型训练方法、船只检测方法及装置 | |
CN111753775B (zh) | 鱼的生长评估方法、装置、设备及存储介质 | |
CN114220087A (zh) | 一种车牌检测方法、车牌检测器及相关设备 | |
CN112001258B (zh) | 物流货车准时到站识别方法、装置、设备和存储介质 | |
CN113076860A (zh) | 一种野外场景下的鸟类检测系统 | |
CN116977895A (zh) | 用于通用相机镜头的污渍检测方法、装置及计算机设备 | |
CN117392369A (zh) | 一种多尺度目标检测方法、装置、电子设备及存储介质 | |
CN116152191A (zh) | 基于深度学习的显示屏裂纹缺陷检测方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |