CN118229619A

CN118229619A - 一种基于改进Faster R-CNN模型的麦克风缺陷检测方法

Info

Publication number: CN118229619A
Application number: CN202410070973.6A
Authority: CN
Inventors: 樊国栋; 王佳勇; 尹阳; 郭磊
Original assignee: Yangtze River Delta Research Institute of UESTC Huzhou
Current assignee: Yangtze River Delta Research Institute of UESTC Huzhou
Priority date: 2024-01-18
Filing date: 2024-01-18
Publication date: 2024-06-21

Abstract

本发明属于麦克风缺陷检测技术领域，公开了一种基于改进Faster R‑CNN模型的麦克风缺陷检测方法，包括通过对标注后的麦克风数据集进行数据增广处理以增加缺陷样本的数量和多样性，对目标检测模型进行改进，包括：在特征提取网络中嵌入AFPN渐近特征金字塔网络以提高检测模型提取多尺度特征的能力，并将区域建议网络中的边界框损失函数替换成MPDIOU损失函数以提高检测模型的精度。本方案通过改进模型的方式，在提高了检测麦克风缺陷精度的同时实现了多尺度缺陷目标检测，能够同时检测麦克风中污点、划痕等尺寸差异较大的缺陷，极大地保障了麦克风的质量和生产效率。

Description

一种基于改进Faster R-CNN模型的麦克风缺陷检测方法

技术领域

本发明属于麦克风缺陷检测技术领域，尤其涉及一种基于改进Faster R-CNN模型的麦克风缺陷检测方法。

背景技术

相对于人工检测，利用计算机视觉技术和图像处理的目标检测算法，可以对产品进行高速、高精度的检测。这种方法具有快速、准确、可靠的特点，大大提高了生产效率和产品质量。传统的目标检测算法在一定程度上能够实现目标的检测，但也存在一些问题，如对目标尺度、姿态和遮挡等情况的适应性较差，对复杂背景和光照变化的鲁棒性较低。随着深度学习的发展和硬件设备算力的提升，基于深度学习的卷积神经网络崭露头角，人们开始利用卷积神经网络自动提取图像中的特征并将其应用在目标检测中，极大地提升了目标检测效果。

目前主流的深度学习目标检测算法分为两阶段和单阶段算法。其中，两阶段检测算法在准确性、多尺度处理能力、目标定位精度和适应复杂场景等方面通常具有优势，因此在许多目标检测任务中得到了广泛的应用。

虽然已有的两阶段目标检测算法被应用在通用的视觉目标检测任务中，但是对于手机麦克风等类似的缺陷检测以传统的机器视觉方法为主。然而，手机麦克风产品的缺陷存在尺度不一、分布位置不均匀等问题，传统机器视觉检测可能无法有效处理这些复杂情况。因此，手机麦克风的缺陷检测不仅存在检测速度慢、检测精度较低的问题，而且漏检率和误检率较高，严重影响手机麦克风的生产。

传统的基于机器视觉的缺陷检测存在一些不足之处。首先，传统方法通常需要大量的手工特征提取和设计，这在处理复杂的缺陷时可能会导致特征提取的困难和不足。其次，传统方法对光照、角度、尺度变化等因素敏感，容易受到环境因素的影响而导致检测精度下降。此外，传统方法在处理复杂的缺陷场景时往往需要大量的训练样本和人工标注，成本较高且耗时。最后，手机麦克风的缺陷类型复杂、缺陷形状尺寸差异较大，传统方法通常表现不佳，难以适应手机麦克风多样化的缺陷检测需求。

发明内容

本发明目的在于提供一种基于改进Faster R-CNN模型的麦克风缺陷检测方法，以解决上述的技术问题。

为解决上述技术问题，本发明的一种基于改进Faster R-CNN模型的麦克风缺陷检测方法的具体技术方案如下：

一种基于改进Faster R-CNN模型的麦克风缺陷检测方法，包括如下步骤：

S1、根据已知的麦克风缺陷类别对已有的麦克风图像进行标注，并进行预处理；

S2、基于Faster R-CNN目标检测模型，选取性能较优的卷积神经网络作为模型的特征提取网络；

S3、对Faster R-CNN目标检测模型结构进行改进，基于已有的特征提取网络，嵌入AFPN特征融合模块，采用MPDIoU损失函数替换原有的边界框损失函数，获取更快的收敛速度和更准确的回归结果。

S4、在手机麦克风数据集上进行模型训练，根据精确率、召回率、平均精度和平均精度均值等指标评估模型是否达标；

S5、用训练好的模型在测试集上进行预测，得到缺陷目标的类别、定位及对应的精度。

进一步的，所述S1对已有的麦克风图像进行标注，具体包括：

S101、根据缺陷认定规则对预先获取的每张手机麦克风图像中的各个部件的缺陷类型进行人工标注，缺陷类型的标签包括异物、胶露、划痕、毛刺和污点；

S102、使用模糊、裁剪、旋转、平移、镜像方法对标注后的麦克风数据集进行扩充，增加缺陷样本的数量和多样性；

S103、将扩充后的麦克风图片和xml文件存放在对应的文件夹下，并将其按照8:1:1的比例划分成训练集、测试集、验证集，生成对应的train.txt、test.txt和val.txt。

进一步的，所述S2选取性能较优的卷积神经网络作为模型的主干网络，具体包括：

S201、选取性能优秀、鲁棒性强的ResNet-101作为Faster R-CNN的主干网络，ResNet 101网络结构包括卷积操作层、残差块、平均值池化层和全连接网络层；

S202、采用VOC2012数据集对ResNet-101神经网络进行预训练，得到网络权重，将预训练好的权重加载到Faster R-CNN的特征提取网络中；

S203、之后的训练过程中冻结ResNet-101网络部分，即ResNet-101网络的参数不进行反向传播，不进行梯度更新。

进一步的，所述S3对Faster R-CNN目标检测模型结构进行改进，具体包括：

S301、基于已有的ResNet-101网络，嵌入AFPN特征融合模块，将深层语义低分辨率特征与浅层的浅语义高分辨率的特征进行融合；

S302、遵循Faster R-CNN框架的设计，从主干的每个特征层中提取最后一层特征，从而产生一组不同尺度的特征，表示为{C2,C3,C4,C5}；S303、将{C2,C3,C4,C5}传入AFPN特征融合模块进行特征融合，首先将低级特征C2和C3输入到特征金字塔网络中，然后添加C4，最后添加C5，从而避免了非相邻层之间的语义差距；

S304、在特征融合步骤之后，产生一组多尺度特征{P2，P3，P4，P5}，基于在FasterR-CNN框架上进行的实验，对P5应用了一个步长为2的卷积，然后再使用另一个步长为1的卷积来生成P6；

S305、在多层次特征融合过程中为不同层次的特征分配不同的空间权重，融合三个层次的特征，设表示从n级到L级的(i，j)位置的特征向量，记为/>由多级特征自适应空间融合得到，由特征向量/>和/>的线性组合定义如下：

其中，和/>表示第l层三个层次的特征的空间权重，约束条件为/>

S306、输出多尺度特征图至区域建议网络。

进一步的，所述S4候选框精准定位，具体包括：

S401、在得到多尺度特征图后，将特征图输入至区域建议网络RPN；

S402、在各尺度的特征图上套用相同设计的RPN Head：3×3Conv和两个同级的1×1Conv，在每一个尺度的特征图上分配一套固定尺度的anchors；

S403、RPN网络实际分为两部分，一部分通过softmax分类获取anchors正负样本，比例为1：1，另一部分用于计算对于anchors相对真实框的偏移量，从而将proposals的位置调整为更准确的目标边界框位置，最后则综合anchor正样本和对应的边界框偏移量获取proposals，同时剔除太小和超出边界的proposals；

S404、RPN损失函数如下：

L_ds为类别损失函数，使用交叉熵损失函数，L_reg为边界框回归损失，使用MPDIoU损失函数替代IoU损失函数，表示第i个候选框对应的类别，/>为真实框相对候选框的偏移量；

S405、替代后的MPDIoU损失函数如下：

L_MPDIOU＝1-MPDIOU

分别是A、B两个框的左上角和右下点坐标，

现有的边界框回归损失函数的所有因素都可以由这四个点坐标确定，

其中|C|表示覆盖真实框和预测框的最小外接矩形面积，和/>分别表示真实边界框和预测边界框中心点的坐标，w_gt和h_gt表示真实边界框的宽度和高度，w_prd和h_prd表示预测边界框的宽度和高度；S406、将RPN网络输出的proposals发送到ROIHead网络，ROI Head网络包括感兴趣区域ROI池化层，全连接层，边框回归器和Softmax分类器；感兴趣区域ROI池化层用于将不同大小的候选框转换为固定大小的候选框，以传进全连接层；边框回归器用于确定候选框的定位；Softmax分类器用于确定候选框中目标的具体类别。

进一步的，所述S5模型训练，具体包括：

S501、基于手机麦克风训练数据集对模型进行多轮迭代训练；

S502、基于验证数据集和预设的评估指标评估各模型的性能，判断是否存在满足评估指标的模型。指标包括：精确率、召回率、平均精度和平均精度均值精确率是指预测出的正样本除以所有预测出正样本的总数；召回率是指预测出的正样本除以原始数据集中正样本的总数；平均精度是指P-R曲线面积；平均精度均值是指所有缺陷类别的平均AP值；计算公式如下：

其中，N表示总类别数，即所有缺陷类别种类；TP表示模型正确地将正样本判定为正样本的数量，即正确预测到的目标框数；FP表示模型错误地将负样本判定为正样本的数量，即错误预测的目标框数；TN表示模型正确地将负样本判定为负样本的数量，即正确排除的背景框数；FN表示模型错误地将正样本判定为负样本的数量，即未检测到的目标框数。

进一步的，所述S6用训练好的模型在测试集上进行预测，具体包括：

S601、通过在测试数据集的基础上分别在不同条件下进行消融试验，得到的各项性能的结果。

本发明的一种基于改进Faster R-CNN模型的麦克风缺陷检测方法具有以下优点：

1、本方法采用数据增广的方式扩充了手机麦克风数据集，重点增加了污点、刮痕等尺寸差异较大的缺陷样本数量，并且合理引入一些随机噪声，有效增加了缺陷样本的数量和多样性，提高了Faster R-CNN模型训练速度和对数据集中不同尺度样本的区分能力。

2、本方法改进了Faster R-CNN模型结构，在提高了检测麦克风缺陷精度的同时实现了多尺度缺陷目标检测，能够有效地处理不同尺寸、比例和形状的目标，同时检测麦克风中污点、划痕等尺寸差异较大、分布不均匀的缺陷，极大地保障了麦克风的质量和生产效率。

3、本方法改进了Faster R-CNN模型的边界框回归损失函数，综合考虑了现有IoU损失函数考虑的所有相关因素，如重叠或不重叠区域、中心点距离、宽度和高度偏差等问题，同时简化了计算过程，可以有效的提高边界框回归收敛的速度和精度。

附图说明

图1为本发明实施例提供的基于改进Faster R-CNN模型的麦克风缺陷检测方法的流程示意图；

图2为本发明实施例提供的改进后的Faster R-CNN模型结构示意图；

图3为本发明实施例提供的AFPN特征融合模块示意图；

图4为本发明实施例提供的自适应空间融合示意图。

具体实施方式

为了更好地了解本发明的目的、结构及功能，下面结合附图，对本发明一种基于改进Faster R-CNN模型的麦克风缺陷检测方法做进一步详细的描述。

如图1所示，本发明某一实施例提供了一种基于改进Faster R-CNN模型的麦克风缺陷检测方法，进行以下的逐步操作：

S1：根据已知的麦克风缺陷类别对已有的麦克风图像进行标注，并进行预处理；

对已有的麦克风图像进行标注，具体包括：

S101、根据缺陷认定规则对预先获取的每张手机麦克风图像中的各个部件的缺陷类型进行人工标注，缺陷类型的标签包括异物、胶露、划痕、毛刺和污点。

S102、使用模糊、裁剪、旋转、平移、镜像等方法对标注后的麦克风数据集进行扩充，增加缺陷样本的数量和多样性。

S2：基于Faster R-CNN目标检测模型，选取性能较优的卷积神经网络作为模型的特征提取网络；

选取性能较优的卷积神经网络作为模型的主干网络，具体包括：

S201、选取性能优秀、鲁棒性强的ResNet-101作为Faster R-CNN的主干网络，ResNet 101网络结构包括卷积操作层、残差块、平均值池化层和全连接网络层。

S202、采用VOC2012数据集对ResNet-101神经网络进行预训练，得到网络权重，将预训练好的权重加载到Faster R-CNN的特征提取网络中。

S3：对Faster R-CNN目标检测模型结构进行改进，基于已有的特征提取网络，嵌入AFPN特征融合模块。

对Faster R-CNN目标检测模型结构进行改进，具体包括：

S301、基于已有的ResNet-101网络，嵌入AFPN特征融合模块，将深层语义低分辨率特征与浅层的浅语义高分辨率的特征进行融合，从而弥补低层特征语义抽象不足的问题。

S302、如图2所示，遵循Faster R-CNN框架的设计，从主干的每个特征层中提取最后一层特征，从而产生一组不同尺度的特征，表示为{C2,C3,C4,C5}。

S303、如图3所示，将{C2,C3,C4,C5}传入AFPN特征融合模块进行特征融合，首先将低级特征C2和C3输入到特征金字塔网络中，然后添加C4，最后添加C5，从而避免了非相邻层之间的语义差距。

S304、在特征融合步骤之后，产生一组多尺度特征{P2，P3，P4，P5}。基于在FasterR-CNN框架上进行的实验，对P5应用了一个步长为2的卷积，然后再使用另一个步长为1的卷积来生成P6，这确保了统一的输出。

S305、在多层次特征融合过程中为不同层次的特征分配不同的空间权重，增强关键层次的重要性，并缓解来自不同对象的相互矛盾的信息的影响，如图4所示，融合了三个层次的特征。设表示从n级到L级的(i，j)位置的特征向量，记为/>由多级特征自适应空间融合得到，由特征向量/>和/>的线性组合定义如下：

其中，和/>表示第l层三个层次的特征的空间权重，约束条件为/> 从而在AFPN每个阶段的融合特征数量中，实现了阶段特定数量的自适应空间融合模块。

S306、输出多尺度特征图至区域建议网络。

S4：候选框精准定位。采用MPDIoU损失函数替换原有的边界框损失函数，获取更快的收敛速度和更准确的回归结果；

候选框精准定位，具体在于：

S401、如图2所示，在得到多尺度特征图后，将特征图输入至区域建议网络(RPN)。

S402、在各尺度的特征图上套用相同设计的RPN Head(3×3Conv和两个同级的1×1Conv)，且因为RPN Head将在所有尺度特征图的所有位置上进行滑动，所以Anchor生成器就无需再生成多尺度的锚框，取而代之的是在每一个尺度的特征图上分配一套固定尺度的anchors。

S403、RPN网络实际分为两部分，一部分通过softmax分类获取anchors正负样本，比例为1：1，另一部分用于计算对于anchors相对真实框的偏移量，从而将proposals的位置调整为更准确的目标边界框位置。最后则综合anchor正样本和对应的边界框偏移量获取proposals(建议框)，同时剔除太小和超出边界的proposals。

S404、RPN损失函数如下：

L_ds为类别损失函数，使用交叉熵损失函数，L_reg为边界框回归损失，使用MPDIoU损失函数替代IoU损失函数。表示第i个候选框对应的类别，/>为真实框相对候选框的偏移量。

S405、替代后的MPDIoU损失函数如下：

L_MPDIOU＝1-MPDIOU

分别是A、B两个框的左上角和右下点坐标，因此现有的边界框回归损失函数的所有因素都可以由这四个点坐标确定。

其中|C|表示覆盖真实框和预测框的最小外接矩形面积，和/>分别表示真实边界框和预测边界框中心点的坐标。w_gt和h_gt表示真实边界框的宽度和高度，w_prd和h_prd表示预测边界框的宽度和高度。

S406、将RPN网络输出的proposals发送到ROI Head网络，ROI Head网络包括感兴趣区域ROI池化层，全连接层，边框回归器和Softmax分类器；感兴趣区域ROI池化层用于将不同大小的候选框转换为固定大小的候选框，以传进全连接层；边框回归器用于确定候选框的定位；Softmax分类器用于确定候选框中目标的具体类别。

S5：在手机麦克风数据集上进行模型训练；

模型训练，具体在于：

S501、基于手机麦克风训练数据集对模型进行多轮迭代训练。

其中，N表示总类别数，即所有缺陷类别种类；TP(True Positive)表示模型正确地将正样本判定为正样本的数量，即正确预测到的目标框数；FP(False Positive)表示模型错误地将负样本判定为正样本的数量，即错误预测的目标框数；TN(True Negative)表示模型正确地将负样本判定为负样本的数量，即正确排除的背景框数；FN(False Negative)表示模型错误地将正样本判定为负样本的数量，即未检测到的目标框数。

S6：用训练好的模型在测试集上进行预测，得到缺陷目标的类别、定位及对应的精度。

用训练好的模型在测试集上进行预测，具体在于：

S601、为验证对模型改进的有效性，通过在测试数据集的基础上分别在不同条件下进行消融试验，得到的各项性能的结果如表1所示：

各项改进性能比较表-表1

改进方法	P	R	mAP0.5	mAP0.75	mAP0.5:0.95
						原始模型	0.904	0.853	0.89	0.63	0.57
嵌入AFPN	0.933	0.867	0.921	0.65	0.62
						改进损失函数	0.91	0.85	0.897	0.64	0.6
本方案算法	0.948	0.911	0.938	0.74	0.67

相较于原始模型，改进后的检测方法效果得到了显著提升。由此可见，本方案的算法检测手机麦克风外观缺陷效果更好，不仅提升了多尺度目标的检测能力，而且可以大幅度减少了缺陷漏检、误检情况。

可以理解，本发明是通过一些实施例进行描述的，本领域技术人员知悉的，在不脱离本发明的精神和范围的情况下，可以对这些特征和实施例进行各种改变或等效替换。另外，在本发明的教导下，可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此，本发明不受此处所公开的具体实施例的限制，所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。

Claims

1.一种基于改进Faster R-CNN模型的麦克风缺陷检测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于改进Faster R-CNN模型的麦克风缺陷检测方法，其特征在于，所述S1对已有的麦克风图像进行标注，具体包括：

3.根据权利要求1所述的基于改进Faster R-CNN模型的麦克风缺陷检测方法，其特征在于，所述S2选取性能较优的卷积神经网络作为模型的主干网络，具体包括：

S201、选取性能优秀、鲁棒性强的ResNet-101作为Faster R-CNN的主干网络，ResNet101网络结构包括卷积操作层、残差块、平均值池化层和全连接网络层；

4.根据权利要求1所述的基于改进Faster R-CNN模型的麦克风缺陷检测方法，其特征在于，所述S3对Faster R-CNN目标检测模型结构进行改进，具体包括：

S302、遵循Faster R-CNN框架的设计，从主干的每个特征层中提取最后一层特征，从而产生一组不同尺度的特征，表示为{C2,C3,C4,C5}；

S303、将{C2,C3,C4,C5}传入AFPN特征融合模块进行特征融合，首先将低级特征C2和C3输入到特征金字塔网络中，然后添加C4，最后添加C5，从而避免了非相邻层之间的语义差距；

S304、在特征融合步骤之后，产生一组多尺度特征{P2，P3，P4，P5}，基于在Faster R-CNN框架上进行的实验，对P5应用了一个步长为2的卷积，然后再使用另一个步长为1的卷积来生成P6；

S306、输出多尺度特征图至区域建议网络。

5.根据权利要求1所述的基于改进Faster R-CNN模型的麦克风缺陷检测方法，其特征在于，所述S4候选框精准定位，具体包括：

S404、RPN损失函数如下：

L_ds为类别损失函数，使用交叉熵损失函数，L_ref为边界框回归损失，使用MPDIoU损失函数替代IoU损失函数，表示第i个候选框对应的类别，/>为真实框相对候选框的偏移量；

S405、替代后的MPDIoU损失函数如下：

L_MPDIOU＝1-MPDIOU

分别是A、B两个框的左上角和右下点坐标，现有的边界框回归损失函数的所有因素都可以由这四个点坐标确定，

其中|C|表示覆盖真实框和预测框的最小外接矩形面积，和/>分别表示真实边界框和预测边界框中心点的坐标，w_gt和h_gt表示真实边界框的宽度和高度，w_prd和h_prd表示预测边界框的宽度和高度；

6.根据权利要求1所述的基于改进Faster R-CNN模型的麦克风缺陷检测方法，其特征在于，所述S5模型训练，具体包括：

S501、基于手机麦克风训练数据集对模型进行多轮迭代训练；

7.根据权利要求1所述的基于改进Faster R-CNN模型的麦克风缺陷检测方法，其特征在于，所述S6用训练好的模型在测试集上进行预测，具体包括：