CN118229619A - 一种基于改进Faster R-CNN模型的麦克风缺陷检测方法 - Google Patents
一种基于改进Faster R-CNN模型的麦克风缺陷检测方法 Download PDFInfo
- Publication number
- CN118229619A CN118229619A CN202410070973.6A CN202410070973A CN118229619A CN 118229619 A CN118229619 A CN 118229619A CN 202410070973 A CN202410070973 A CN 202410070973A CN 118229619 A CN118229619 A CN 118229619A
- Authority
- CN
- China
- Prior art keywords
- model
- microphone
- network
- defect
- cnn
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007547 defect Effects 0.000 title claims abstract description 64
- 238000001514 detection method Methods 0.000 title claims abstract description 59
- 238000000605 extraction Methods 0.000 claims abstract description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 49
- 230000004927 fusion Effects 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 20
- 238000000034 method Methods 0.000 claims description 19
- 238000012360 testing method Methods 0.000 claims description 18
- 238000011176 pooling Methods 0.000 claims description 9
- 238000013461 design Methods 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 3
- 238000002679 ablation Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000005520 cutting process Methods 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 claims description 3
- 230000008014 freezing Effects 0.000 claims description 3
- 238000007710 freezing Methods 0.000 claims description 3
- 238000007499 fusion processing Methods 0.000 claims description 3
- 239000003292 glue Substances 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000006467 substitution reaction Methods 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 abstract description 4
- 238000013434 data augmentation Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 22
- 238000002372 labelling Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Image Analysis (AREA)
Abstract
本发明属于麦克风缺陷检测技术领域,公开了一种基于改进Faster R‑CNN模型的麦克风缺陷检测方法,包括通过对标注后的麦克风数据集进行数据增广处理以增加缺陷样本的数量和多样性,对目标检测模型进行改进,包括:在特征提取网络中嵌入AFPN渐近特征金字塔网络以提高检测模型提取多尺度特征的能力,并将区域建议网络中的边界框损失函数替换成MPDIOU损失函数以提高检测模型的精度。本方案通过改进模型的方式,在提高了检测麦克风缺陷精度的同时实现了多尺度缺陷目标检测,能够同时检测麦克风中污点、划痕等尺寸差异较大的缺陷,极大地保障了麦克风的质量和生产效率。
Description
技术领域
本发明属于麦克风缺陷检测技术领域,尤其涉及一种基于改进Faster R-CNN模型的麦克风缺陷检测方法。
背景技术
相对于人工检测,利用计算机视觉技术和图像处理的目标检测算法,可以对产品进行高速、高精度的检测。这种方法具有快速、准确、可靠的特点,大大提高了生产效率和产品质量。传统的目标检测算法在一定程度上能够实现目标的检测,但也存在一些问题,如对目标尺度、姿态和遮挡等情况的适应性较差,对复杂背景和光照变化的鲁棒性较低。随着深度学习的发展和硬件设备算力的提升,基于深度学习的卷积神经网络崭露头角,人们开始利用卷积神经网络自动提取图像中的特征并将其应用在目标检测中,极大地提升了目标检测效果。
目前主流的深度学习目标检测算法分为两阶段和单阶段算法。其中,两阶段检测算法在准确性、多尺度处理能力、目标定位精度和适应复杂场景等方面通常具有优势,因此在许多目标检测任务中得到了广泛的应用。
虽然已有的两阶段目标检测算法被应用在通用的视觉目标检测任务中,但是对于手机麦克风等类似的缺陷检测以传统的机器视觉方法为主。然而,手机麦克风产品的缺陷存在尺度不一、分布位置不均匀等问题,传统机器视觉检测可能无法有效处理这些复杂情况。因此,手机麦克风的缺陷检测不仅存在检测速度慢、检测精度较低的问题,而且漏检率和误检率较高,严重影响手机麦克风的生产。
传统的基于机器视觉的缺陷检测存在一些不足之处。首先,传统方法通常需要大量的手工特征提取和设计,这在处理复杂的缺陷时可能会导致特征提取的困难和不足。其次,传统方法对光照、角度、尺度变化等因素敏感,容易受到环境因素的影响而导致检测精度下降。此外,传统方法在处理复杂的缺陷场景时往往需要大量的训练样本和人工标注,成本较高且耗时。最后,手机麦克风的缺陷类型复杂、缺陷形状尺寸差异较大,传统方法通常表现不佳,难以适应手机麦克风多样化的缺陷检测需求。
发明内容
本发明目的在于提供一种基于改进Faster R-CNN模型的麦克风缺陷检测方法,以解决上述的技术问题。
为解决上述技术问题,本发明的一种基于改进Faster R-CNN模型的麦克风缺陷检测方法的具体技术方案如下:
一种基于改进Faster R-CNN模型的麦克风缺陷检测方法,包括如下步骤:
S1、根据已知的麦克风缺陷类别对已有的麦克风图像进行标注,并进行预处理;
S2、基于Faster R-CNN目标检测模型,选取性能较优的卷积神经网络作为模型的特征提取网络;
S3、对Faster R-CNN目标检测模型结构进行改进,基于已有的特征提取网络,嵌入AFPN特征融合模块,采用MPDIoU损失函数替换原有的边界框损失函数,获取更快的收敛速度和更准确的回归结果。
S4、在手机麦克风数据集上进行模型训练,根据精确率、召回率、平均精度和平均精度均值等指标评估模型是否达标;
S5、用训练好的模型在测试集上进行预测,得到缺陷目标的类别、定位及对应的精度。
进一步的,所述S1对已有的麦克风图像进行标注,具体包括:
S101、根据缺陷认定规则对预先获取的每张手机麦克风图像中的各个部件的缺陷类型进行人工标注,缺陷类型的标签包括异物、胶露、划痕、毛刺和污点;
S102、使用模糊、裁剪、旋转、平移、镜像方法对标注后的麦克风数据集进行扩充,增加缺陷样本的数量和多样性;
S103、将扩充后的麦克风图片和xml文件存放在对应的文件夹下,并将其按照8:1:1的比例划分成训练集、测试集、验证集,生成对应的train.txt、test.txt和val.txt。
进一步的,所述S2选取性能较优的卷积神经网络作为模型的主干网络,具体包括:
S201、选取性能优秀、鲁棒性强的ResNet-101作为Faster R-CNN的主干网络,ResNet 101网络结构包括卷积操作层、残差块、平均值池化层和全连接网络层;
S202、采用VOC2012数据集对ResNet-101神经网络进行预训练,得到网络权重,将预训练好的权重加载到Faster R-CNN的特征提取网络中;
S203、之后的训练过程中冻结ResNet-101网络部分,即ResNet-101网络的参数不进行反向传播,不进行梯度更新。
进一步的,所述S3对Faster R-CNN目标检测模型结构进行改进,具体包括:
S301、基于已有的ResNet-101网络,嵌入AFPN特征融合模块,将深层语义低分辨率特征与浅层的浅语义高分辨率的特征进行融合;
S302、遵循Faster R-CNN框架的设计,从主干的每个特征层中提取最后一层特征,从而产生一组不同尺度的特征,表示为{C2,C3,C4,C5};S303、将{C2,C3,C4,C5}传入AFPN特征融合模块进行特征融合,首先将低级特征C2和C3输入到特征金字塔网络中,然后添加C4,最后添加C5,从而避免了非相邻层之间的语义差距;
S304、在特征融合步骤之后,产生一组多尺度特征{P2,P3,P4,P5},基于在FasterR-CNN框架上进行的实验,对P5应用了一个步长为2的卷积,然后再使用另一个步长为1的卷积来生成P6;
S305、在多层次特征融合过程中为不同层次的特征分配不同的空间权重,融合三个层次的特征,设表示从n级到L级的(i,j)位置的特征向量,记为/>由多级特征自适应空间融合得到,由特征向量/>和/>的线性组合定义如下:
其中,和/>表示第l层三个层次的特征的空间权重,约束条件为/>
S306、输出多尺度特征图至区域建议网络。
进一步的,所述S4候选框精准定位,具体包括:
S401、在得到多尺度特征图后,将特征图输入至区域建议网络RPN;
S402、在各尺度的特征图上套用相同设计的RPN Head:3×3Conv和两个同级的1×1Conv,在每一个尺度的特征图上分配一套固定尺度的anchors;
S403、RPN网络实际分为两部分,一部分通过softmax分类获取anchors正负样本,比例为1:1,另一部分用于计算对于anchors相对真实框的偏移量,从而将proposals的位置调整为更准确的目标边界框位置,最后则综合anchor正样本和对应的边界框偏移量获取proposals,同时剔除太小和超出边界的proposals;
S404、RPN损失函数如下:
Lds为类别损失函数,使用交叉熵损失函数,Lreg为边界框回归损失,使用MPDIoU损失函数替代IoU损失函数,表示第i个候选框对应的类别,/>为真实框相对候选框的偏移量;
S405、替代后的MPDIoU损失函数如下:
LMPDIOU=1-MPDIOU
分别是A、B两个框的左上角和右下点坐标,
现有的边界框回归损失函数的所有因素都可以由这四个点坐标确定,
其中|C|表示覆盖真实框和预测框的最小外接矩形面积,和/>分别表示真实边界框和预测边界框中心点的坐标,wgt和hgt表示真实边界框的宽度和高度,wprd和hprd表示预测边界框的宽度和高度;S406、将RPN网络输出的proposals发送到ROIHead网络,ROI Head网络包括感兴趣区域ROI池化层,全连接层,边框回归器和Softmax分类器;感兴趣区域ROI池化层用于将不同大小的候选框转换为固定大小的候选框,以传进全连接层;边框回归器用于确定候选框的定位;Softmax分类器用于确定候选框中目标的具体类别。
进一步的,所述S5模型训练,具体包括:
S501、基于手机麦克风训练数据集对模型进行多轮迭代训练;
S502、基于验证数据集和预设的评估指标评估各模型的性能,判断是否存在满足评估指标的模型。指标包括:精确率、召回率、平均精度和平均精度均值精确率是指预测出的正样本除以所有预测出正样本的总数;召回率是指预测出的正样本除以原始数据集中正样本的总数;平均精度是指P-R曲线面积;平均精度均值是指所有缺陷类别的平均AP值;计算公式如下:
其中,N表示总类别数,即所有缺陷类别种类;TP表示模型正确地将正样本判定为正样本的数量,即正确预测到的目标框数;FP表示模型错误地将负样本判定为正样本的数量,即错误预测的目标框数;TN表示模型正确地将负样本判定为负样本的数量,即正确排除的背景框数;FN表示模型错误地将正样本判定为负样本的数量,即未检测到的目标框数。
进一步的,所述S6用训练好的模型在测试集上进行预测,具体包括:
S601、通过在测试数据集的基础上分别在不同条件下进行消融试验,得到的各项性能的结果。
本发明的一种基于改进Faster R-CNN模型的麦克风缺陷检测方法具有以下优点:
1、本方法采用数据增广的方式扩充了手机麦克风数据集,重点增加了污点、刮痕等尺寸差异较大的缺陷样本数量,并且合理引入一些随机噪声,有效增加了缺陷样本的数量和多样性,提高了Faster R-CNN模型训练速度和对数据集中不同尺度样本的区分能力。
2、本方法改进了Faster R-CNN模型结构,在提高了检测麦克风缺陷精度的同时实现了多尺度缺陷目标检测,能够有效地处理不同尺寸、比例和形状的目标,同时检测麦克风中污点、划痕等尺寸差异较大、分布不均匀的缺陷,极大地保障了麦克风的质量和生产效率。
3、本方法改进了Faster R-CNN模型的边界框回归损失函数,综合考虑了现有IoU损失函数考虑的所有相关因素,如重叠或不重叠区域、中心点距离、宽度和高度偏差等问题,同时简化了计算过程,可以有效的提高边界框回归收敛的速度和精度。
附图说明
图1为本发明实施例提供的基于改进Faster R-CNN模型的麦克风缺陷检测方法的流程示意图;
图2为本发明实施例提供的改进后的Faster R-CNN模型结构示意图;
图3为本发明实施例提供的AFPN特征融合模块示意图;
图4为本发明实施例提供的自适应空间融合示意图。
具体实施方式
为了更好地了解本发明的目的、结构及功能,下面结合附图,对本发明一种基于改进Faster R-CNN模型的麦克风缺陷检测方法做进一步详细的描述。
如图1所示,本发明某一实施例提供了一种基于改进Faster R-CNN模型的麦克风缺陷检测方法,进行以下的逐步操作:
S1:根据已知的麦克风缺陷类别对已有的麦克风图像进行标注,并进行预处理;
对已有的麦克风图像进行标注,具体包括:
S101、根据缺陷认定规则对预先获取的每张手机麦克风图像中的各个部件的缺陷类型进行人工标注,缺陷类型的标签包括异物、胶露、划痕、毛刺和污点。
S102、使用模糊、裁剪、旋转、平移、镜像等方法对标注后的麦克风数据集进行扩充,增加缺陷样本的数量和多样性。
S103、将扩充后的麦克风图片和xml文件存放在对应的文件夹下,并将其按照8:1:1的比例划分成训练集、测试集、验证集,生成对应的train.txt、test.txt和val.txt。
S2:基于Faster R-CNN目标检测模型,选取性能较优的卷积神经网络作为模型的特征提取网络;
选取性能较优的卷积神经网络作为模型的主干网络,具体包括:
S201、选取性能优秀、鲁棒性强的ResNet-101作为Faster R-CNN的主干网络,ResNet 101网络结构包括卷积操作层、残差块、平均值池化层和全连接网络层。
S202、采用VOC2012数据集对ResNet-101神经网络进行预训练,得到网络权重,将预训练好的权重加载到Faster R-CNN的特征提取网络中。
S203、之后的训练过程中冻结ResNet-101网络部分,即ResNet-101网络的参数不进行反向传播,不进行梯度更新。
S3:对Faster R-CNN目标检测模型结构进行改进,基于已有的特征提取网络,嵌入AFPN特征融合模块。
对Faster R-CNN目标检测模型结构进行改进,具体包括:
S301、基于已有的ResNet-101网络,嵌入AFPN特征融合模块,将深层语义低分辨率特征与浅层的浅语义高分辨率的特征进行融合,从而弥补低层特征语义抽象不足的问题。
S302、如图2所示,遵循Faster R-CNN框架的设计,从主干的每个特征层中提取最后一层特征,从而产生一组不同尺度的特征,表示为{C2,C3,C4,C5}。
S303、如图3所示,将{C2,C3,C4,C5}传入AFPN特征融合模块进行特征融合,首先将低级特征C2和C3输入到特征金字塔网络中,然后添加C4,最后添加C5,从而避免了非相邻层之间的语义差距。
S304、在特征融合步骤之后,产生一组多尺度特征{P2,P3,P4,P5}。基于在FasterR-CNN框架上进行的实验,对P5应用了一个步长为2的卷积,然后再使用另一个步长为1的卷积来生成P6,这确保了统一的输出。
S305、在多层次特征融合过程中为不同层次的特征分配不同的空间权重,增强关键层次的重要性,并缓解来自不同对象的相互矛盾的信息的影响,如图4所示,融合了三个层次的特征。设表示从n级到L级的(i,j)位置的特征向量,记为/>由多级特征自适应空间融合得到,由特征向量/>和/>的线性组合定义如下:
其中,和/>表示第l层三个层次的特征的空间权重,约束条件为/> 从而在AFPN每个阶段的融合特征数量中,实现了阶段特定数量的自适应空间融合模块。
S306、输出多尺度特征图至区域建议网络。
S4:候选框精准定位。采用MPDIoU损失函数替换原有的边界框损失函数,获取更快的收敛速度和更准确的回归结果;
候选框精准定位,具体在于:
S401、如图2所示,在得到多尺度特征图后,将特征图输入至区域建议网络(RPN)。
S402、在各尺度的特征图上套用相同设计的RPN Head(3×3Conv和两个同级的1×1Conv),且因为RPN Head将在所有尺度特征图的所有位置上进行滑动,所以Anchor生成器就无需再生成多尺度的锚框,取而代之的是在每一个尺度的特征图上分配一套固定尺度的anchors。
S403、RPN网络实际分为两部分,一部分通过softmax分类获取anchors正负样本,比例为1:1,另一部分用于计算对于anchors相对真实框的偏移量,从而将proposals的位置调整为更准确的目标边界框位置。最后则综合anchor正样本和对应的边界框偏移量获取proposals(建议框),同时剔除太小和超出边界的proposals。
S404、RPN损失函数如下:
Lds为类别损失函数,使用交叉熵损失函数,Lreg为边界框回归损失,使用MPDIoU损失函数替代IoU损失函数。表示第i个候选框对应的类别,/>为真实框相对候选框的偏移量。
S405、替代后的MPDIoU损失函数如下:
LMPDIOU=1-MPDIOU
分别是A、B两个框的左上角和右下点坐标,因此现有的边界框回归损失函数的所有因素都可以由这四个点坐标确定。
其中|C|表示覆盖真实框和预测框的最小外接矩形面积,和/>分别表示真实边界框和预测边界框中心点的坐标。wgt和hgt表示真实边界框的宽度和高度,wprd和hprd表示预测边界框的宽度和高度。
S406、将RPN网络输出的proposals发送到ROI Head网络,ROI Head网络包括感兴趣区域ROI池化层,全连接层,边框回归器和Softmax分类器;感兴趣区域ROI池化层用于将不同大小的候选框转换为固定大小的候选框,以传进全连接层;边框回归器用于确定候选框的定位;Softmax分类器用于确定候选框中目标的具体类别。
S5:在手机麦克风数据集上进行模型训练;
模型训练,具体在于:
S501、基于手机麦克风训练数据集对模型进行多轮迭代训练。
S502、基于验证数据集和预设的评估指标评估各模型的性能,判断是否存在满足评估指标的模型。指标包括:精确率、召回率、平均精度和平均精度均值精确率是指预测出的正样本除以所有预测出正样本的总数;召回率是指预测出的正样本除以原始数据集中正样本的总数;平均精度是指P-R曲线面积;平均精度均值是指所有缺陷类别的平均AP值;计算公式如下:
其中,N表示总类别数,即所有缺陷类别种类;TP(True Positive)表示模型正确地将正样本判定为正样本的数量,即正确预测到的目标框数;FP(False Positive)表示模型错误地将负样本判定为正样本的数量,即错误预测的目标框数;TN(True Negative)表示模型正确地将负样本判定为负样本的数量,即正确排除的背景框数;FN(False Negative)表示模型错误地将正样本判定为负样本的数量,即未检测到的目标框数。
S6:用训练好的模型在测试集上进行预测,得到缺陷目标的类别、定位及对应的精度。
用训练好的模型在测试集上进行预测,具体在于:
S601、为验证对模型改进的有效性,通过在测试数据集的基础上分别在不同条件下进行消融试验,得到的各项性能的结果如表1所示:
各项改进性能比较表-表1
改进方法 | P | R | mAP0.5 | mAP0.75 | mAP0.5:0.95 |
原始模型 | 0.904 | 0.853 | 0.89 | 0.63 | 0.57 |
嵌入AFPN | 0.933 | 0.867 | 0.921 | 0.65 | 0.62 |
改进损失函数 | 0.91 | 0.85 | 0.897 | 0.64 | 0.6 |
本方案算法 | 0.948 | 0.911 | 0.938 | 0.74 | 0.67 |
相较于原始模型,改进后的检测方法效果得到了显著提升。由此可见,本方案的算法检测手机麦克风外观缺陷效果更好,不仅提升了多尺度目标的检测能力,而且可以大幅度减少了缺陷漏检、误检情况。
可以理解,本发明是通过一些实施例进行描述的,本领域技术人员知悉的,在不脱离本发明的精神和范围的情况下,可以对这些特征和实施例进行各种改变或等效替换。另外,在本发明的教导下,可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此,本发明不受此处所公开的具体实施例的限制,所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。
Claims (7)
1.一种基于改进Faster R-CNN模型的麦克风缺陷检测方法,其特征在于,包括如下步骤:
S1、根据已知的麦克风缺陷类别对已有的麦克风图像进行标注,并进行预处理;
S2、基于Faster R-CNN目标检测模型,选取性能较优的卷积神经网络作为模型的特征提取网络;
S3、对Faster R-CNN目标检测模型结构进行改进,基于已有的特征提取网络,嵌入AFPN特征融合模块,采用MPDIoU损失函数替换原有的边界框损失函数,获取更快的收敛速度和更准确的回归结果。
S4、在手机麦克风数据集上进行模型训练,根据精确率、召回率、平均精度和平均精度均值等指标评估模型是否达标;
S5、用训练好的模型在测试集上进行预测,得到缺陷目标的类别、定位及对应的精度。
2.根据权利要求1所述的基于改进Faster R-CNN模型的麦克风缺陷检测方法,其特征在于,所述S1对已有的麦克风图像进行标注,具体包括:
S101、根据缺陷认定规则对预先获取的每张手机麦克风图像中的各个部件的缺陷类型进行人工标注,缺陷类型的标签包括异物、胶露、划痕、毛刺和污点;
S102、使用模糊、裁剪、旋转、平移、镜像方法对标注后的麦克风数据集进行扩充,增加缺陷样本的数量和多样性;
S103、将扩充后的麦克风图片和xml文件存放在对应的文件夹下,并将其按照8:1:1的比例划分成训练集、测试集、验证集,生成对应的train.txt、test.txt和val.txt。
3.根据权利要求1所述的基于改进Faster R-CNN模型的麦克风缺陷检测方法,其特征在于,所述S2选取性能较优的卷积神经网络作为模型的主干网络,具体包括:
S201、选取性能优秀、鲁棒性强的ResNet-101作为Faster R-CNN的主干网络,ResNet101网络结构包括卷积操作层、残差块、平均值池化层和全连接网络层;
S202、采用VOC2012数据集对ResNet-101神经网络进行预训练,得到网络权重,将预训练好的权重加载到Faster R-CNN的特征提取网络中;
S203、之后的训练过程中冻结ResNet-101网络部分,即ResNet-101网络的参数不进行反向传播,不进行梯度更新。
4.根据权利要求1所述的基于改进Faster R-CNN模型的麦克风缺陷检测方法,其特征在于,所述S3对Faster R-CNN目标检测模型结构进行改进,具体包括:
S301、基于已有的ResNet-101网络,嵌入AFPN特征融合模块,将深层语义低分辨率特征与浅层的浅语义高分辨率的特征进行融合;
S302、遵循Faster R-CNN框架的设计,从主干的每个特征层中提取最后一层特征,从而产生一组不同尺度的特征,表示为{C2,C3,C4,C5};
S303、将{C2,C3,C4,C5}传入AFPN特征融合模块进行特征融合,首先将低级特征C2和C3输入到特征金字塔网络中,然后添加C4,最后添加C5,从而避免了非相邻层之间的语义差距;
S304、在特征融合步骤之后,产生一组多尺度特征{P2,P3,P4,P5},基于在Faster R-CNN框架上进行的实验,对P5应用了一个步长为2的卷积,然后再使用另一个步长为1的卷积来生成P6;
S305、在多层次特征融合过程中为不同层次的特征分配不同的空间权重,融合三个层次的特征,设表示从n级到L级的(i,j)位置的特征向量,记为/>由多级特征自适应空间融合得到,由特征向量/>和/>的线性组合定义如下:
其中,和/>表示第l层三个层次的特征的空间权重,约束条件为/>
S306、输出多尺度特征图至区域建议网络。
5.根据权利要求1所述的基于改进Faster R-CNN模型的麦克风缺陷检测方法,其特征在于,所述S4候选框精准定位,具体包括:
S401、在得到多尺度特征图后,将特征图输入至区域建议网络RPN;
S402、在各尺度的特征图上套用相同设计的RPN Head:3×3Conv和两个同级的1×1Conv,在每一个尺度的特征图上分配一套固定尺度的anchors;
S403、RPN网络实际分为两部分,一部分通过softmax分类获取anchors正负样本,比例为1:1,另一部分用于计算对于anchors相对真实框的偏移量,从而将proposals的位置调整为更准确的目标边界框位置,最后则综合anchor正样本和对应的边界框偏移量获取proposals,同时剔除太小和超出边界的proposals;
S404、RPN损失函数如下:
Lds为类别损失函数,使用交叉熵损失函数,Lref为边界框回归损失,使用MPDIoU损失函数替代IoU损失函数,表示第i个候选框对应的类别,/>为真实框相对候选框的偏移量;
S405、替代后的MPDIoU损失函数如下:
LMPDIOU=1-MPDIOU
分别是A、B两个框的左上角和右下点坐标,现有的边界框回归损失函数的所有因素都可以由这四个点坐标确定,
其中|C|表示覆盖真实框和预测框的最小外接矩形面积,和/>分别表示真实边界框和预测边界框中心点的坐标,wgt和hgt表示真实边界框的宽度和高度,wprd和hprd表示预测边界框的宽度和高度;
S406、将RPN网络输出的proposals发送到ROI Head网络,ROI Head网络包括感兴趣区域ROI池化层,全连接层,边框回归器和Softmax分类器;感兴趣区域ROI池化层用于将不同大小的候选框转换为固定大小的候选框,以传进全连接层;边框回归器用于确定候选框的定位;Softmax分类器用于确定候选框中目标的具体类别。
6.根据权利要求1所述的基于改进Faster R-CNN模型的麦克风缺陷检测方法,其特征在于,所述S5模型训练,具体包括:
S501、基于手机麦克风训练数据集对模型进行多轮迭代训练;
S502、基于验证数据集和预设的评估指标评估各模型的性能,判断是否存在满足评估指标的模型。指标包括:精确率、召回率、平均精度和平均精度均值精确率是指预测出的正样本除以所有预测出正样本的总数;召回率是指预测出的正样本除以原始数据集中正样本的总数;平均精度是指P-R曲线面积;平均精度均值是指所有缺陷类别的平均AP值;计算公式如下:
其中,N表示总类别数,即所有缺陷类别种类;TP表示模型正确地将正样本判定为正样本的数量,即正确预测到的目标框数;FP表示模型错误地将负样本判定为正样本的数量,即错误预测的目标框数;TN表示模型正确地将负样本判定为负样本的数量,即正确排除的背景框数;FN表示模型错误地将正样本判定为负样本的数量,即未检测到的目标框数。
7.根据权利要求1所述的基于改进Faster R-CNN模型的麦克风缺陷检测方法,其特征在于,所述S6用训练好的模型在测试集上进行预测,具体包括:
S601、通过在测试数据集的基础上分别在不同条件下进行消融试验,得到的各项性能的结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410070973.6A CN118229619A (zh) | 2024-01-18 | 2024-01-18 | 一种基于改进Faster R-CNN模型的麦克风缺陷检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410070973.6A CN118229619A (zh) | 2024-01-18 | 2024-01-18 | 一种基于改进Faster R-CNN模型的麦克风缺陷检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118229619A true CN118229619A (zh) | 2024-06-21 |
Family
ID=91510178
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410070973.6A Pending CN118229619A (zh) | 2024-01-18 | 2024-01-18 | 一种基于改进Faster R-CNN模型的麦克风缺陷检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118229619A (zh) |
-
2024
- 2024-01-18 CN CN202410070973.6A patent/CN118229619A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109118479B (zh) | 基于胶囊网络的绝缘子缺陷识别定位装置及方法 | |
CN113160192B (zh) | 复杂背景下基于视觉的压雪车外观缺陷检测方法及装置 | |
CN110148130B (zh) | 用于检测零件缺陷的方法和装置 | |
WO2019051941A1 (zh) | 车型识别方法、装置、设备及计算机可读存储介质 | |
CN111612784A (zh) | 一种基于分类优先yolo网络的钢板表面缺陷检测方法 | |
CN106846316A (zh) | 一种gis内部典型缺陷图像自动识别方法 | |
CN107808138B (zh) | 一种基于FasterR-CNN的通信信号识别方法 | |
CN111461212A (zh) | 一种用于点云目标检测模型的压缩方法 | |
CN113920107A (zh) | 一种基于改进yolov5算法的绝缘子破损检测方法 | |
CN110992349A (zh) | 一种基于深度学习的地下管道异常自动化定位与识别方法 | |
CN116258707A (zh) | 一种基于改进的YOLOv5算法的PCB表面缺陷检测方法 | |
CN109284779A (zh) | 基于深度全卷积网络的物体检测方法 | |
CN106056101A (zh) | 用于人脸检测的非极大值抑制方法 | |
CN107784288A (zh) | 一种基于深度神经网络的迭代定位式人脸检测方法 | |
CN113221956B (zh) | 基于改进的多尺度深度模型的目标识别方法及装置 | |
CN115457044B (zh) | 基于类激活映射的路面裂缝分割方法 | |
CN112906823A (zh) | 目标对象识别模型训练方法、识别方法及识别装置 | |
CN114782410A (zh) | 一种基于轻量化模型的绝缘子缺陷检测方法及其系统 | |
CN114419313A (zh) | 影像辨识方法及影像辨识系统 | |
CN113609895A (zh) | 基于改进Yolov3的获取道路交通信息方法 | |
CN110135428B (zh) | 图像分割处理方法和装置 | |
CN115063664A (zh) | 用于工业视觉检测的模型学习方法、训练方法及系统 | |
CN111027551B (zh) | 图像处理方法、设备和介质 | |
CN110889418A (zh) | 一种气体轮廓识别方法 | |
CN118229619A (zh) | 一种基于改进Faster R-CNN模型的麦克风缺陷检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination |