CN116228730A

CN116228730A - 基于改进YOLOv7的药片表面缺陷检测方法及系统

Info

Publication number: CN116228730A
Application number: CN202310252153.4A
Authority: CN
Inventors: 任玉琢; 朱敏玲
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2023-03-16
Filing date: 2023-03-16
Publication date: 2023-06-06

Abstract

本申请公开了基于改进YOLOv7的药片表面缺陷检测方法及系统，其中方法步骤包括：构建YOLOv7模型；YOLOv7模型的输入为药品表面图像；改进构建的YOLOv7模型，得到检测模型；利用检测模型进行待检测药片表面的缺陷检测。本申请采用融合SimAM注意力机制的MP‑S结构，提高对于小目标缺陷的检测精度和目标定位能力，减少目标的候选框数量，置信度更高，提高网络模型的收敛速度；采用SIoU的损失函数，减小网络模型预测框与真实框之间差距，提高目标检测精度；采用Soft‑NMS方法优化候选框选择方法，减少了由于误删候选框导致的目标误检的情况。

Description

基于改进YOLOv7的药片表面缺陷检测方法及系统

技术领域

本申请涉及图像处理领域，具体涉及基于改进YOLOv7的药片表面缺陷检测方法及系统。

背景技术

随着人们对于医药的品质要求在不断提高且需求的数量在不断加大的情况，导致药片在生产的过程中，药片质量检测的工作越来越繁重。由于药片的生产技术和药片本身的物理特性等因素，药片表面容易产生划痕、裂痕、起皮、破损和油污等缺陷，导致药片的治疗效果大打折扣，对企业的品牌形象造成负面影响。传统的人工检测方式存在效率低、成本高、容易造成二次污染，并且容易出现错检和漏检的问题，不符合工业自动化的发展方向。因此研究人员提出了很多研究方法，传统的检测技术包括基于光学反射原理的表面缺陷检测方法，该方法在不同环境条件下拍摄多幅药片图像，基于药片表面反射情况计算冯氏光照模型，然后用最小二乘法估算半球反射率和光照模型参数，从而确定药片反射阈值，则检测到药片的反射在阈值外则判定为有缺陷的药片，该方法对镜头和光照的要求高，环境的变化会对结果产生较大影响。此外，还有一种基于图像处理的圆形缺陷检测方法，该方法首先通过预处理增强图像的亮度和对比度，然后通过圆形霍夫变换进一步分析图像中存在的圆，该方法仅能针对圆形药片进行检测，无法对其他形状药片进行检测，适用性较低。随着深度学习技术的不断发展，应用深度学习技术的药品包装缺陷检测技术取得了一定的进展。

发明内容

本申请在YOLOv7模型的基础上，从框架、损失函数以及候选目标框三个方面出发对原始模型进行改进，得到的检测模型在对于药片表面检测有非常好的效果。

为实现上述目的，本申请提供了基于改进YOLOv7的药片表面缺陷检测方法，步骤包括：

构建YOLOv7模型；所述YOLOv7模型的输入为药品表面图像；所述YOLOv7模型的输入端用于图片的预处理和数据增强，首先将文件读取成RGB彩色图像，再进行归一化操作，将图片缩放成指定的尺寸；

改进构建的所述YOLOv7模型，得到检测模型；

利用所述检测模型进行待检测药片表面的缺陷检测。

优选的，得到所述检测模型的方法包括：优化所述YOLOv7模型中的原始架构；替换所述YOLOv7模型中的损失函数；优化所述YOLOv7模型在进行目标框选择时的方法。

优选的，优化所述原始架构的方法包括：在所述YOLOv7模型中引入SimAM注意力机制；利用基于所述SimAM注意力机制的MP-S结构替换所述YOLOv7模型中的MP1结构。

优选的，替换所述损失函数的方法包括：利用SIoU损失函数替换所述YOLOv7模型中的CIoU损失函数；所述SIoU损失函数的表达式包括：

其中，Ω表示形状损失；Δ表示距离损失；IoU表示目标框和候选框的交并比。

优选的，优化所述目标框选择时的方法包括：利用Soft-NMS模块替代所述YOLOv7模型中的NMS模块来进行目标框的选择。

本申请还提供了基于改进YOLOv7的药片表面缺陷检测系统，包括：构建模块、改进模块和检测模块；

所述构建模块用于构建YOLOv7模型；所述YOLOv7模型的输入为药品表面图像；所述YOLOv7模型的输入端用于图片的预处理和数据增强，首先将文件读取成RGB彩色图像，再进行归一化操作，将图片缩放成指定的尺寸；

所述改进模块用于改进构建的所述YOLOv7模型，得到检测模型；

所述检测模块用于利用所述检测模型进行待检测药片表面的缺陷检测。

优选的，所述改进模块包括：原始框架改进单元、损失函数改进单元和目标框选择改进单元；

所述原始框架改进单元用于优化所述YOLOv7模型中的原始架构；

所述损失函数改进单元用于替换所述YOLOv7模型中的损失函数；

目标框选择改进单元用于优化所述YOLOv7模型在进行目标框选择时的方法。

优选的，所述原始框架改进单元的工作流程包括：在所述YOLOv7模型中引入SimAM注意力机制；利用基于所述SimAM注意力机制的MP-S结构替换所述YOLOv7模型中的MP1结构。

优选的，所述损失函数改进单元的工作流程包括：利用SIoU损失函数替换所述YOLOv7模型中的CIoU损失函数；所述SIoU损失函数的表达式包括：

优选的，所述目标框选择改进单元的工作流程包括：利用Soft-NMS模块替代所述YOLOv7模型中的NMS模块来进行目标框的选择。

与现有技术相比，本申请的有益效果如下：

本申请采用融合SimAM注意力机制的MP-S结构，提高对于小目标缺陷的检测精度和目标定位能力，减少目标的候选框数量，置信度更高，提高网络模型的收敛速度；采用SIoU的损失函数，减小网络模型预测框与真实框之间差距，提高目标检测精度；采用Soft-NMS方法优化候选框选择方法，减少了由于误删候选框导致的目标误检的情况。

附图说明

为了更清楚地说明本申请的技术方案，下面对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的YOLOv7网络模型结构示意图；

图2为本申请实施例的检测模型示意图；

图3为本申请实施例的SimAM改进网络模型中的MP1结构示意图；

图4为本申请实施例的SimAM原理示意图；

图5为本申请实施例的系统结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

实施例一

首先，构建一个YOLOv7网络模型。如图1所示，YOLOv7网络由三个部分组成，分别是输入端(Input)，骨干网络(Backbone)和检测头(Head)。其中Conv(Convolution)为卷积层，CBS(Conv+Batchnormalization+Silu)由卷积层、批标准化和Silu损失函数组成，Conv网络层和CBS用于特征提取；MP1和MP2由最大池化层(Max Pooling)和CBS组成，UP采用最近邻插值算法用于上采样，MP和UP共同用于特征融合和降维，加快网络训练速度；Cat(Concat)为连接层，用于多分支特征融合；ELAN(Efficient LayerAggregation Network，ELAN)和ELAN2由多个CBS构成，通过控制最短和最长的梯度路径，使网络能够学习到更多的特征，输入和输出特征大小保持不变；SPPCSPC为空间金字塔结构，通过不同的最大池化参数来获得不同感受野，用于检测图片中不同大小的目标；REP结构由RepConv组成，其借鉴了RepVGG的结构思想，RepConv是将3x3卷积、1x1卷积和恒等映射合成了一个卷积，网络中包含了三个REP分支，分别用于特征提取、平滑特征和特征传递。

上述YOLOv7模型的输入端用于图片的预处理和数据增强，首先将文件读取成RGB彩色图像，再进行归一化操作，将图片缩放成指定的尺寸。在网络训练阶段，YOLOv7会判断是否使用Mosaic进行拼接处理并完成数据增强。Mosaic方法是通过将待训练的几张图片拼接组成一张图片，该方法不但可以极大提升网络的训练速度，而且可以降低了模型的内存需求，对类似于药片缺陷检测等小目标检测任务有着不错的效果。骨干网络使用卷积神经网络在不同的图像粒度上进行特征提取，采用自顶向下、自底向上联合的特征融合方式，将不同层级的图像特征进行重新组合，传递给检测头。检测头根据传递过来的图像特征进行边界框和类别的预测，通过非极大值抑制(Non-Maximum Suppression，NMS)消除冗余预测框，最终输出置信度最高的预测类别和边框坐标。

基于上述构建的YOLOv7网络模型，对其进行优化改进，步骤包括：优化YOLOv7模型中的原始架构；替换YOLOv7模型中的损失函数；优化YOLOv7模型在进行目标框选择时的方法。本实施例改进后得到的检测模型骨干部分如图2所示，利用图中的MP-S结构，替换上述YOLOv7模型原始架构中的MP1结构，MP-S融合SimAM注意力机制，可以提高药片小目标缺陷的检测精度。同时，本检测模型采用SIoU损失函数，计算预测框与真实框之间的差距时，考虑两者的角度关系，减小网络模型训练损失，提高模型训练精度。此外，本实施例还采用Soft-NMS优化预测框选择，在预测框重叠情况下，减少预测框被错误移除情况。

本实施例提出基于SimAM注意力机制的MP-S(Maxpooling+SimAM+Conv为主要结构的网络层)结构，如图3所示，相比MP1，MP-S在保留其降维和特征融合能力的同时，加强了对显著性小目标的定位能力，增强检测过程中缺陷特征的目标定位能力，尤其对小目标缺陷的定位更加准确。SimAM注意力机制(Simple，Parameter-Free Attention Module，SimAM)不同于现有的1-D通道注意力机制和2-D空域注意力机制，SimAM注意力机制同时考虑空间和通道维度相关性，通过对特征层中的特征映射来推断3-D注意力权重，其本身只需通过一个能量函数来计算，无需额外参数去推导，是一个即插即用的注意力机制，因此无需对网络模型的结构进行调整，在改善卷积网络的表征能力上具有良好的灵活性和有效性。

SimAM注意力机制的原理如图4所示。图中X表示输入的特征，C表示当前特征通道数，W和H分别表示当前特征宽度和高度，其中

通过SimAM注意力机制3-D权重计算得到的输出特征更具全局性，对数据的处理同时包括空间维度和通道维度，参考信息更全面，可以更好地定位图片中的小目标，SimAM计算过程如公式(1)所示。

式中，X表示输入的特征；

表示通过能量函数计算后输出的特征，E为每个通道上的能量函数；⊙表示点积计算。函数sigmoid用于避免E值偏离中心位置过大导致的模型不收敛的问题，其中E的计算方法如公式(2)所示。

式中，t表示输入的特征值，t∈X；λ表示常数，不同数据集λ值不同，μ和σ²分别表示X通道上的均值和方差，μ和σ²的计算方法如公式(3)所示，其中M＝H×W，表示每个通道上特征的数量。

式中，x_i表示第i个输入的特征值。

改进后的网络在进行候选框定位时，包含目标的候选框数量更少，且更接近标注的目标框，置信度更高，MP-S结构可以提高网络模型的收敛速度。

之后，在上述基础上进行损失函数的改进。

本实施例采用SIoU(Scylla-IoU，SIoU)替换CIoU(Complete-IoU，CIoU)作为训练的损失函数。

本实施例采用的SIoU损失函数综合考虑真实框和候选框之间的不同角度，会影响候选框的置信度这一问题，定义角度损失如公式(4)所示，其中定义σ为真实框和候选框之间中心点的距离。

式中，Λ表示角度损失；α表示真实框与候选框之间的水平夹角；C_h表示真实框和候选框之间的垂直距离；x表示真实框与候选框之间的水平夹角正弦值。

针对现有的损失函数没有考虑框之间角度关系的问题，本实施例采用SIoU的损失函数，如公式(5)所示，其中SIoU由角度损失、距离损失、形状损失和IoU损失组成。

式中，Ω表示形状损失；Δ表示距离损失；IoU表示目标框和候选框的交并比。在计算距离损失Δ时需要先计算γ，γ需要先通过先计算角度损失Λ得到，如公式(6)所示：

式中，W^GT和W分别表示真实框和预测框的宽度；H^GT和H分别为真实框和预测框的高度；

和/>

分别表示真实框和预测框中心点的横坐标；/>

和/>

分别表示真实框和预测框中心点的纵坐标；C_w和C_h分别表示真实框和候选框的最小外接矩形的水平长度和垂直长度；γ、ρ(包括所有不同下标)和ω(包括所有不同下标)分别表示不同的计算角度损失的中间变量，通过候选框和真实框之间的中心点距离和最小外接矩形宽高比值得到；max表示取最大值函数；Σ用于累加；m和n表示计算距离损失时的取值范围；p和q表示计算形状损失时的取值范围范围；t表示中间变量；θ表示通过遗传算法计算出不同数据集的特殊参数，用于计算形状损失。

最后，采用Soft-NMS替代NMS来对YOLOv7模型进行改进。对比移除候选框的步骤，传统的NMS和Soft-NMS做法对比如公式(7)和(8)所示。

/>

公式中的iou(M，b_i)计算的是最大置信度的候选框M和候选框b_i之间的重叠率，通过与阈值N_t对比进行给候选框b_i的置信度S_i进行赋值。Soft-NMS在算法执行的流程上与NMS相同，在计算检测置信度得分方式上，NMS直接将候选框置信度S_i设置为0，Soft-NMS通过计算降低置信度得分。Soft-NMS计算置信度得分的方法是线性计算，在没有明显增加计算量的情况下，可以优化由于目标重叠带来的目标检测失败和平均检测率降低的问题。Soft-NMS较为适合无法确定候选框重叠阈值的情况，NMS是Soft-NMS的一种特殊形式，即当得分重置函数采用二值化函数时，Soft-NMS和NMS是等价的。

经过上述步骤之后，得到检测模型。最后，利用检测模型来对药片表面缺陷进行检测。

实施例二

如图5所示，为本实施例的系统结构示意图，包括：构建模块、改进模块和检测模块；构建模块用于构建YOLOv7模型；YOLOv7模型的输入为药品表面图像；改进模块用于改进构建的YOLOv7模型，得到检测模型；检测模块用于利用检测模型进行待检测药片表面的缺陷检测。其中，改进模块包括：原始框架改进单元、损失函数改进单元和目标框选择改进单元；原始框架改进单元用于优化YOLOv7模型中的原始架构；损失函数改进单元用于替换YOLOv7模型中的损失函数；目标框选择改进单元用于优化YOLOv7模型在进行目标框选择时的方法。

下面将结合本实施例中详细说明本申请如何解决实际生活中的技术问题。

首先利用构建模块构建一个YOLOv7网络模型。如图1所示，YOLOv7网络由三个部分组成，分别是输入端(Input)，骨干网络(Backbone)和检测头(Head)。其中Conv为卷积层，CBS由卷积层、批标准化和Silu损失函数组成，Conv网络层和CBS用于特征提取；MP1和MP2由最大池化层和CBS组成，UP采用最近邻插值算法用于上采样，MP和UP共同用于特征融合和降维，加快网络训练速度；Cat为连接层，用于多分支特征融合；ELAN和ELAN2由多个CBS构成，通过控制最短和最长的梯度路径，使网络能够学习到更多的特征，输入和输出特征大小保持不变；SPPCSPC为空间金字塔结构，通过不同的最大池化参数来获得不同感受野，用于检测图片中不同大小的目标；REP结构由RepConv组成，其借鉴了RepVGG的结构思想，RepConv是将3x3卷积、1x1卷积和恒等映射合成了一个卷积，网络中包含了三个REP分支，分别用于特征提取、平滑特征和特征传递。

上述YOLOv7的输入端用于图片的预处理和数据增强，首先将文件读取成RGB彩色图像，再进行归一化操作，将图片缩放成指定的尺寸。在网络训练阶段，YOLOv7会判断是否使用Mosaic进行拼接处理并完成数据增强。Mosaic方法是通过将待训练的几张图片拼接组成一张图片，该方法不但可以极大提升网络的训练速度，而且可以降低了模型的内存需求，对类似于药片缺陷检测等小目标检测任务有着不错的效果。骨干网络使用卷积神经网络在不同的图像粒度上进行特征提取，采用自顶向下、自底向上联合的特征融合方式，将不同层级的图像特征进行重新组合，传递给检测头。检测头根据传递过来的图像特征进行边界框和类别的预测，通过非极大值抑制(Non-Maximum Suppression，NMS)消除冗余预测框，最终输出置信度最高的预测类别和边框坐标。

基于上述构建的YOLOv7网络模型，利用改进模块对其进行优化改进，流程包括：优化YOLOv7模型中的原始架构；替换YOLOv7模型中的损失函数；优化YOLOv7模型在进行目标框选择时的方法。本实施例改进后得到的检测模型骨干部分如图2所示，利用图中的MP-S结构，替换上述YOLOv7模型原始架构中的MP1结构，MP-S融合SimAM注意力机制，可以提高药片小目标缺陷的检测精度。同时，本检测模型采用SIoU损失函数，计算预测框与真实框之间的差距时，考虑两者的角度关系，减小网络模型训练损失，提高模型训练精度。此外，本实施例还采用Soft-NMS优化预测框选择，在预测框重叠情况下，减少预测框被错误移除情况。

首先利用原始框架改进单元优化YOLOv7模型中的原始架构。本实施例提出基于SimAM注意力机制的MP-S(Max pooling+SimAM+Conv为主要结构的网络层)结构，如图3所示，相比MP1，MP-S在保留其降维和特征融合能力的同时，加强了对显著性小目标的定位能力，增强检测过程中缺陷特征的目标定位能力，尤其对小目标缺陷的定位更加准确。SimAM注意力机制(Simple，Parameter-Free Attention Module，SimAM)不同于现有的1-D通道注意力机制和2-D空域注意力机制，SimAM注意力机制同时考虑空间和通道维度相关性，通过对特征层中的特征映射来推断3-D注意力权重，其本身只需通过一个能量函数来计算，无需额外参数去推导，是一个即插即用的注意力机制，因此无需对网络模型的结构进行调整，在改善卷积网络的表征能力上具有良好的灵活性和有效性。

通过SimAM注意力机制3-D权重计算得到的输出特征更具全局性，对数据的处理同时包括空间维度和通道维度，参考信息更全面，可以更好地定位图片中的小目标，SimAM计算过程如公式(9)所示。

式中，X输入的特征；

表示通过能量函数计算后输出的特征，E为每个通道上的能量函数；⊙表示点积计算。函数sigmoid用于避免E值偏离中心位置过大导致的模型不收敛的问题，其中E的计算方法如公式(10)所示。

式中，t表示输入的特征值，t∈X，λ表示常数，不同数据集λ值不同，μ和σ²分别表示X通道上的均值和方差，μ和σ²的计算方法如公式(11)所示，其中M＝H×W，表示每个通道上特征的数量。

式中，x_i表示第i个输入的特征值。

之后，利用损失函数改进单元在上述基础上进行损失函数的改进。

本实施例采用的SIoU损失函数综合考虑真实框和候选框之间的不同角度，会影响候选框的置信度这一问题，定义角度损失如公式(12)所示，其中定义σ为真实框和候选框之间中心点的距离。

式中，Λ表示角度损失；α表示真实框与候选框之间的夹角；C_h表示真实框和候选框之间的垂直距离；x表示真实框与候选框之间的水平夹角正弦值。

针对现有的损失函数没有考虑框之间角度关系的问题，本实施例采用SIoU的损失函数，如公式(13)所示，其中SIoU由角度损失、距离损失、形状损失和IoU损失组成。

式中，Ω表示形状损失；Δ表示距离损失；IoU表示目标框和候选框的交并比。在计算距离损失Δ时需要先计算γ，γ需要先通过先计算角度损失Λ得到，如公式(14)所示：

和/>

分别表示真实框和预测框中心点的横坐标；/>

和/>

分别表示真实框和预测框中心点的纵坐标；C_w和C_h分别表示真实框和候选框的最小外接矩形的水平长度和垂直长度；γ、ρ(包括所有不同下标)和ω(包括所有不同下标)分别表示不同的计算角度损失的中间变量，通过候选框和真实框之间的中心点距离和最小外接矩形宽高比值得到；max表示取最大值函数，Σ用于累加；m和n表示计算距离损失时的取值范围；p和q表示计算形状损失时的取值范围范围；t表示中间变量；θ表示通过遗传算法计算出不同数据集的特殊参数，用于计算形状损失。

最后，利用目标框选择改进单元优化YOLOv7模型在进行目标框选择时的方法，工作流程包括：采用Soft-NMS替代NMS来对YOLOv7模型进行改进。对比移除候选框的步骤，传统的NMS和Soft-NMS做法对比如公式(15)和(16)所示。

经过上述步骤之后，得到检测模型。最后，检测模块利用检测模型来对药片表面缺陷进行检测。

以上所述的实施例仅是对本申请优选方式进行的描述，并非对本申请的范围进行限定，在不脱离本申请设计精神的前提下，本领域普通技术人员对本申请的技术方案做出的各种变形和改进，均应落入本申请权利要求书确定的保护范围内。

Claims

1.基于改进YOLOv7的药片表面缺陷检测方法，其特征在于，步骤包括：

改进构建的所述YOLOv7模型，得到检测模型；

利用所述检测模型进行待检测药片表面的缺陷检测。

2.根据权利要求1所述的基于改进YOLOv7的药片表面缺陷检测方法，其特征在于，得到所述检测模型的方法包括：优化所述YOLOv7模型中的原始架构；替换所述YOLOv7模型中的损失函数；优化所述YOLOv7模型在进行目标框选择时的方法。

3.根据权利要求2所述的基于改进YOLOv7的药片表面缺陷检测方法，其特征在于，优化所述原始架构的方法包括：在所述YOLOv7模型中引入SimAM注意力机制；利用基于所述SimAM注意力机制的MP-S结构替换所述YOLOv7模型中的MP1结构。

4.根据权利要求2所述的基于改进YOLOv7的药片表面缺陷检测方法，其特征在于，替换所述损失函数的方法包括：利用SIoU损失函数替换所述YOLOv7模型中的CIoU损失函数；所述SIoU损失函数的表达式包括：

5.根据权利要求2所述的基于改进YOLOv7的药片表面缺陷检测方法，其特征在于，优化所述目标框选择时的方法包括：利用Soft-NMS模块替代所述YOLOv7模型中的NMS模块来进行目标框的选择。

6.基于改进YOLOv7的药片表面缺陷检测系统，其特征在于，包括：构建模块、改进模块和检测模块；

7.根据权利要求6所述的基于改进YOLOv7的药片表面缺陷检测系统，其特征在于，所述改进模块包括：原始框架改进单元、损失函数改进单元和目标框选择改进单元；

8.根据权利要求7所述的基于改进YOLOv7的药片表面缺陷检测系统，其特征在于，所述原始框架改进单元的工作流程包括：在所述YOLOv7模型中引入SimAM注意力机制；利用基于所述SimAM注意力机制的MP-S结构替换所述YOLOv7模型中的MP1结构。

9.根据权利要求7所述的基于改进YOLOv7的药片表面缺陷检测系统，其特征在于，所述损失函数改进单元的工作流程包括：利用SIoU损失函数替换所述YOLOv7模型中的CIoU损失函数；所述SIoU损失函数的表达式包括：

10.根据权利要求7所述的基于改进YOLOv7的药片表面缺陷检测系统，其特征在于，所述目标框选择改进单元的工作流程包括：利用Soft-NMS模块替代所述YOLOv7模型中的NMS模块来进行目标框的选择。