CN115546788A

CN115546788A - 一种基于改进YOLOv5的混凝土气泡检测方法

Info

Publication number: CN115546788A
Application number: CN202211128217.1A
Authority: CN
Inventors: 龙佑康; 杜龙叶; 王安志; 高子寒; 吕犷
Original assignee: Guizhou Shangpin Cloud Information Service Co ltd
Current assignee: Guizhou Shangpin Cloud Information Service Co ltd
Priority date: 2022-09-16
Filing date: 2022-09-16
Publication date: 2022-12-30

Abstract

本发明提供一种所述基于改进YOLOv5的混凝土气泡检测方法，包括以下步骤：S1：构建数据集；S2：对图像数据集做数据增强操作；S3：获取不同尺度的混凝土气泡图像特征图；S4：得到不同尺度的张量数据；S5：计算得到混凝土气泡目标的检测框；S6：利用查准率、平均精度均值、模型计算力以及每秒传输帧数4个指标进行评价。本发明提供基于改进YOLOv5的混凝土气泡检测方法，基于改进YOLOv5的混凝土气泡检测结果由查准率、平均检测精度、浮点数运算和每秒传输帧数进行评价，查准率的值越大，检测的精度越高，在提高查准率的基础上，使改进的YOLOv5模型更加轻量化，便于移植部署，且进一步提高了气泡检测的速度，同时能够实现对混凝土气泡进行实时、准确的检测。

Description

一种基于改进YOLOv5的混凝土气泡检测方法

技术领域

本发明涉及混凝土气泡检测领域，尤其涉及一种基于改进YOLOv5的混凝土气泡检测方法。

背景技术

混凝土中的气泡对混凝土耐久性、强度等性能起直接影响作用。目前混凝土气泡检测方法主要有人工显微镜法和半自动检测法。二者在获得培养好的混凝土试块切片后，需涂抹墨汁、钛白粉等物质辅助检测，随后放入搭配工业摄像头的显微镜下进行显微图像拍摄。在获得显微图像后，人工显微镜法需要人为手动计数气泡个数，并手动计算气泡参数。半自动检测法则会对图像进行二值化处理，将气泡和骨料用不同颜色显示，以此区分出气泡。

随着深度学习的发展，目标检测的效果和速度得到了长足进步。目前，目标检测技术主要分为两种方法，一种是基于回归运算的单阶段目标检测，如YOLO系列；另一种是基于候选区域的两阶段目标检测，如RCNN系列算法。尽管两阶段目标检测算法的检测精度通常比单阶段方法高，但是检测速度慢于单阶段方法，所需参数量和计算量也通常多于单阶段方法，因此对于工业应用来说，单阶段目标检测方法更加合适。

单阶段目标检测算法中较为成熟的有于2020年提出的YOLOv5算法。但作为通用目标检测算法，YOLOv5对于混凝土气泡检测任务并不完全适用，主要有以下两个难点：

第一，混凝土气泡检测属于密集小目标检测，单个检测目标占像素比例小，检测目标数目多，检测难度大；

第二，工业设备所能提供的算力有限，难以满足YOLOv5的需要。

因此，提升网络检测精度，降低模型所需算力，对将目标检测技术应用于混凝土气泡检测领域具有重大意义。

因此，有必要提供一种基于改进YOLOv5的混凝土气泡检测方法解决上述技术问题。

发明内容

本发明提供一种基于改进YOLOv5的混凝土气泡检测方法，解决了目前基于YOLOv5网络的混凝土气泡检测模型所需算力大的问题。

为解决上述技术问题，本发明提供的基于改进YOLOv5的混凝土气泡检测方法，包括以下步骤：

S1：采用偏光显微镜采集混凝土样本图像构建气泡数据集，且对采集的图像进行分类和精标注，得到带有类别标签的气泡图像数据集，将带有类别标签的图像数据集划分为训练集、验证集和测试集，其中60％作为训练集，20％作为验证集，20％作为测试集；

S2：将S1中得到的带有类别标签的气泡图像数据集，进行模糊、随机擦除、RGB偏移、随机雾化和饱和度变换的数据增强操作；

S3：将S2中得到的数据增强后的气泡数据集，进行预处理操作得到特征图，并将预处理后的特征图输入到改进的YOLOv5的网络中以获取不同尺度的混凝土气泡图像特征图；

其中改进的YOLOv5主干网络主要由改进激活函数的卷积层、Ghost Bottleneck模块、空间金字塔池化模块和特征增强模块组成；

S4：将S3中得到的不同尺度的混凝土气泡图像特征图，输入到改进的YOLOv5网络中的Neck部分中，对不同尺度的混凝土气泡图像特征图进行上、下采样和特征融合后得到不同尺度的张量数据；

S5：将S4中得到的不同尺度的张量数据，输入到改进的YOLOv5网络中的预测层部分，在计算上得到混凝土气泡目标的检测框；

S6：将S5中得到的混凝土气泡目标的检测框，利用查准率、平均精度均值、模型计算力以及每秒传输帧数4个指标进行评价。

优选的，所述S2的具体方法为：将原始数据集得到的若干张高质量真值图所对应的原采集图像复制六份，然后每一份都使用Pytorch框架下的Albumentations模块进行不同类型的数据增强操作；其中主要采用模糊、随机擦除、RGB偏移、随机雾化和饱和度变换五种增强方式。

优选的，所述S3中改进的YOLOv5网络包括18层网络结构，其中第1层使用一个普通卷积；2-14层全部使用未添加SEnet注意力机制的Ghost Bottleneck模块进行层层堆叠；第16层再次使用一个普通卷积，随后的第17层使用了一个SPP层进行空间金字塔池化；第18层为加入SEnet注意力机制引导的特征增强模块络。

优选的，所述S4中Neck结构主要采用了FPN+PAN的特征金字塔结构，且所述Neck结构由改进激活函数的卷积层模块、跨阶段局部网络、系列特征融合、上采样模块组成。

优选的，所述改进的YOLOv5网络中卷积层使用了批量归一化和Hardswish激活函数；

其中批量归一化的公式定义如下：

其中，y是归一化损失函数，x为经过该层线性变换后的损失函数的值，E[x]表示损失函数值的均值，Var是均方差操作符号，其中的ζ是为了避免除以0而设置的较小数；

Hardswish激活函数公式如下：

其中ReLU6为限制了最大输出值为6的普通ReLU激活函数，x为输入特征值。

优选的，所述S5中预测层部分采用DIou边界框回归损失函数；

其中，DIou边框损失函数定义如下：

式中，b和b^gt分别代表检测框和真实框的中心点，ρ代表计算两个中心点的欧式距离，c代表检测框和真实框的最小外接矩形的对角线距离。

优选的，所述S6中查准率的计算公式定义如下：

式中，TP表示模型正确预测气泡的个数，(TP+FP)表示检测出的气泡总个数；

平均精度均值的计算公式定义如下：

式中，AP代表平均精度，k代表的是类别的总数；

其中，平均精度通过绘制PR曲线计算得到，即以precision和recall作为纵、横轴坐标的二维曲线，precision为准确率，recall为召回率。

与相关技术相比较，本发明提供的基于改进YOLOv5的混凝土气泡检测方法具有如下有益效果：

本发明提供一种基于改进YOLOv5的混凝土气泡检测方法，基于改进YOLOv5的混凝土气泡检测结果由查准率、平均检测精度、浮点数运算和每秒传输帧数进行评价，查准率的值越大，检测的精度越高；

在提高查准率的基础上，使改进的YOLOv5模型更加轻量化，便于移植部署，且进一步提高了气泡检测的速度，同时能够实现对混凝土气泡进行实时、准确的检测。

附图说明

图1图1本发明原理示意图；

图2改进YOLOv5的主干网络结构图；

图3SENet注意力机制引导的特征增强模块结构图；

图4DIoU边界损失函数示意图；

图5改进YOLOv5的平均精度参数曲线；

图6步骤(1)所建立数据集的目标尺寸统计。

具体实施方式

下面结合附图和实施方式对本发明作进一步说明。

请结合参阅图1、图2、图3、图4和图5，其中，图1为基于改进YOLOv5的混凝土气泡检测方法；图2为基于改进YOLOv5的混凝土气泡检测方法；图3为基于改进YOLOv5的混凝土气泡检测方法；图4为基于改进YOLOv5的混凝土气泡检测方法；图5为基于改进YOLOv5的混凝土气泡检测方法。

基于改进YOLOv5的混凝土气泡检测方法，包括以下步骤：

S2：将S1中得到的带有类别标签的气泡图像数据集，进行模糊、随机擦除、RGB偏移、随机雾化和饱和度变换的数据增强操作，以此扩充原始数据集，进而有效避免训练模型过拟合的问题并提高模型泛化能力，防止因数据样本不足而导致训练不充分等情况的出现；

其中偏光显微镜优选采用奥斯微T2-W100型偏光显微镜。

所述S2的具体方法为：

将原始数据集得到的若干张高质量真值图所对应的原采集图像复制六份，然后每一份都使用Pytorch框架下的Albumentations模块进行不同类型的数据增强操作；其中主要采用模糊、随机擦除、RGB偏移、随机雾化和饱和度变换五种增强方式。

优选获得281张原始混凝土显微气泡图像，并对其进行了气泡的精标注操作。随后采用五种像素级的数据增广方法，将数据集扩充至1686张图像。由于像素级的数据增广并不会破坏像素之间的位置关系，因此之前的精标注标签依旧可用。最后按照6：2：2的比例划分为训练集、验证集和测试集，其中1011张图像用于训练，337张图像用于验证，338张图像用于测试。

所述S3中改进的YOLOv5网络包括18层网络结构，其中第1层使用一个普通卷积；2-14层全部使用未添加SEnet注意力机制的Ghost Bottleneck模块进行层层堆叠；第16层再次使用一个普通卷积，随后的第17层使用了一个SPP层进行空间金字塔池化；第18层为加入SEnet注意力机制引导的特征增强模块络。

使用Ghost Bottleneck模块替换大部分普通卷积，大幅减少了计算量，由于每个通道的特征重要程度不同，故需要进一步加强重要通道特征的影响；而该模块由SENet注意力机制引导，可以赋予每个通道特征不同的权重。

所述S4中Neck结构主要采用了FPN+PAN的特征金字塔结构，且所述Neck结构由改进激活函数的卷积层模块、跨阶段局部网络、系列特征融合、上采样模块组成。

Neck部分在构建高级语义特征图的同时还包含了底层带来的丰富位置信息，同时输出了不同尺度的张量数据。

其中的跨阶段局部网络，可以增强特征融合能力。Neck部分首先会通过跨阶段局部网络和卷积层进行进一步特征提取，接着会将特征图分为三个尺度进行处理最终得到张量数据，以此充分利用主干网络的输出特征图。最后将三个张量数据传输到预测端进行处理。

所述改进的YOLOv5网络中卷积层使用了批量归一化和Hardswish激活函数；

其中批量归一化的公式定义如下：

Hardswish激活函数公式如下：

预测层中，有三个不同大小的检测头，对应从Neck部分输入的三个尺度张量数据。预测层基于DIoU边框损失函数输出目标检测框有三个不同大小的检测头，对应从Neck部分输入的三个尺度张量数据。

预测层基于DIoU边框损失函数输出目标检测框。

所述S5中预测层部分采用DIou边界框回归损失函数；

其中，DIou边框损失函数定义如下：

其中，查准率是衡量算法精度的一个重要指标，其衡量的是被正确预测的正样本占所有检出样本的百分比。

所述S6中查准率的计算公式定义如下：

平均精度均值的计算公式定义如下：

式中，AP代表平均精度，k代表的是类别的总数；

浮点数运算，在深度学习任务中将其理解为模型计算量，也可以用来衡量算法或模型的复杂度。每秒传输帧数(FPS)意为每秒内可以处理的图片数量。浮点数运算量决定算法是否容易部署在边缘端设备上，每秒传输帧数决定算法是否能满足工业界对实时性的要求。

仿真实验：

实施方式的训练和测试实验均在以下环境条件下完成(不局限于以下环境条件)：

CoreTM i9-10900K CPU@3.70GHz处理器，64GB运行内存，NVIDIAGEFORCE RTX2080Ti显卡，Windows10，64位操作系统，pytorch 1.8深度学习框架，python3.8，CUDA10.2和CUDNN7.6显卡加速软件。

其中具体的一实验步骤如下：

(1)数据集的选择：本次训练采用的是步骤(1)中自行构建的气泡数据集，其经过了相关材料与建筑行业专家的审核。如图6中横坐标为宽度，纵坐标为长度。可见混凝土气泡目标多为小尺寸目标。

(2)改进的YOLOv5训练参数设置：训练轮次(epoch)为300轮，批量大小(batchsize)为4，即一次投放4张图片，初始学习率为0.001。

(3)训练结果分析：基于改进YOLOv5的混凝土气泡检测结果由查准率、平均检测精度、浮点数运算和每秒传输帧数进行评价。查准率的值越大，检测的精度越高。

如图5，横坐标为训练轮次，纵坐标为查准率。从图中可以看到在训练轮次接近300次时，改进的YOLOv5网络的查准率(P)达到了91.7％，而未改进的YOLOv5查准率仅为90.5％。

浮点数运算(FLOPs)的值越小，模型越轻量化。YOLOv5原始算法的浮点数高达107.8G，而改进的YOLOv5算法的浮点数运算量仅为42.3G。

每秒传输帧数(FPS)越多，模型的检测速度越快。改进的YOLOv5算法每秒传输帧数最少可达到98帧，而原始YOLOv5仅有76帧。

在平均检测精度(mAP)上，改进的YOLOv5可达到88.8％，比原始YOLOv5算法略低1.2％，但是与上述三个指标的大幅提升相比，1.2％的降低可作忽略。

由此可看出，本发明在提高查准率的基础上，使改进的YOLOv5模型更加轻量化，便于移植部署，且进一步提高了气泡检测的速度，同时能够实现对混凝土气泡进行实时、准确的检测。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于改进YOLOv5的混凝土气泡检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于改进YOLOv5的混凝土气泡检测方法，其特征在于，所述S2的具体方法为：

3.根据权利要求1所述的基于改进YOLOv5的混凝土气泡检测方法，其特征在于，所述S3中改进的YOLOv5网络包括18层网络结构，其中第1层使用一个普通卷积；2-14层全部使用未添加SEnet注意力机制的Ghost Bottleneck模块进行层层堆叠；第16层再次使用一个普通卷积，随后的第17层使用了一个SPP层进行空间金字塔池化；第18层为加入SEnet注意力机制引导的特征增强模块。

4.根据权利要求3所述的基于改进YOLOv5的混凝土气泡检测方法，其特征在于，所述S4中Neck结构主要采用了FPN+PAN的特征金字塔结构，且所述Neck结构由改进激活函数的卷积层模块、跨阶段局部网络、系列特征融合、上采样模块组成。

5.根据权利要求1所述的基于改进YOLOv5的混凝土气泡检测方法，其特征在于，所述改进的YOLOv5网络中卷积层使用了批量归一化和Hardswish激活函数；

其中批量归一化的公式定义如下：

Hardswish激活函数公式如下：

6.根据权利要求1所述的基于改进YOLOv5的混凝土气泡检测方法，其特征在于，所述S5中预测层部分采用DIou边界框回归损失函数；

其中，DIou边框损失函数定义如下：

7.根据权利要求1所述的基于改进YOLOv5的混凝土气泡检测方法，其特征在于，所述S6中查准率的计算公式定义如下：

平均精度均值的计算公式定义如下：

式中，AP代表平均精度，k代表的是类别的总数；