CN116402761A

CN116402761A - 一种基于双通道多尺度注意力机制的光伏板裂缝检测方法

Info

Publication number: CN116402761A
Application number: CN202310234191.7A
Authority: CN
Inventors: 强浩; 叶波
Original assignee: Changzhou University
Current assignee: Changzhou University
Priority date: 2023-03-09
Filing date: 2023-03-09
Publication date: 2023-07-07

Abstract

本发明涉及图像处理技术领域，尤其涉及一种基于双通道多尺度注意力机制的光伏板裂缝检测方法，包括采集EL图像数据；构建双通道神经网络模型；利用多尺度注意力机制模块和多通道空洞卷积融合模块对语义分支通道进行融合；利用多尺度注意力机制模块对空间细节分支通道进行融合；并将融合后的语义分支通道和融合后的空间细节分支通道再次融合；通过二分类交叉熵与Dice loss联合构建损失函数，预测光伏板是否存在缺陷。本发明解决随着卷积特征越来越粗糙，中间层许多有用的信息就会在卷积的过程中丢失，图像中的细节特征提取不够，致使输出的图像边缘线条模糊、断点、过厚等现象。

Description

一种基于双通道多尺度注意力机制的光伏板裂缝检测方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于双通道多尺度注意力机制的光伏板裂缝检测方法。

背景技术

1989年Blakers等人首次引入了PERC的概念。PERC太阳能电池经过多年的发展，采用了原子层沉积等技术对电池进行背钝化，提高了钝化质量，实现了高开路电压。众所周知，当长波的阳光通过较薄的硅片时，它在传统电池中不能很好地利用。而PERC太阳能电池的背面反射率较高，可以有效更好地利用长波的光，提高长波吸收，从而产生较高的短路电流密度。EL图像可以通过观察各个区域的亮度差异，快速地确定出缺陷所在的位置。

经典的边缘检测方法是利用图像的一阶或二阶梯度信息来提取图像中的边缘。这一类方法的实时性好，但容易受噪声、光照等因素的影响，且精度较差。

基于HED(Holistically-Nested Edge Detection)模型的RCF边缘检测(Richerconvolutional features for edge detection)方法，利用更加丰富的卷积特征进行处理，从而输出更加准确的边缘，并提出了一个鲁棒性能更好的损失函数。然而网络中卷积层能获得有用信息，中间层是具有高层特征的层，中间层具有比底层丰富的语义。随着卷积特征越来越粗糙，中间层许多有用的信息就会在卷积的过程中丢失，图像中的细节特征提取不够，致使输出的图像边缘线条模糊、断点、过厚等现象。

发明内容

针对现有方法的不足，本发首先构建了双通道主干网络，为语义分支通道和空间细节分支通道；其次将多尺度注意力机制融合到主干网络，通过对通道、高、宽的维度变换实现特征权重重新分配和互补融合，进行多级利用；最后将空洞融合模块融合到语义分支通道中，将语义分支的最后两个卷积块的侧输出采用空洞融合方法。实现检测出的图像裂缝细节更加平滑、连续、丰富。

本发明所采用的技术方案是：一种基于双通道多尺度注意力机制的光伏板裂缝检测方法包括以下步骤：

步骤一、采集太阳电池EL图像数据，并构建缺陷、正常图像数据集；

步骤二、构建语义分支通道和空间细节分支通道的双通道神经网络模型；利用多尺度注意力机制模块和多通道空洞卷积融合模块对语义分支通道进行融合；利用多尺度注意力机制模块对空间细节分支通道进行融合；并将融合后的语义分支通道和融合后的空间细节分支通道再次融合；

步骤三、通过二分类交叉熵与Dice loss联合构建损失函数，预测光伏板是否存在缺陷。

进一步的，语义分支通道由五个深度卷积块组成，输入图像的第一分支依次经过第一、第二和第三深度卷积块；将第二、第三卷积块输入多尺度注意力机制模块作为第二分支，将第一分支和第二分支融合后输入第四、第五深度卷积块，第四深度卷积块和第五卷积块分别输入卷积层后再输入多通道空洞卷积融合模块，卷积层的卷积核设置为3×3；

五个深度卷积块的结构为：

其中，k为卷积核，c为通道数，s为步长，r为重复次数，每个深度卷积块运算两次。

进一步的，空间细节分支通道由三个残差卷积块组成，输入图像的第一分支依次经过第一、第二和第三残差卷积块；将第二、第三卷积块输入多尺度注意力机制模块作为第二分支，将第一分支和第二分支进行融合，

三个残差卷积块的结构为：

其中，k为卷积核，c为通道数，s为步长，r为重复次数。

进一步的，残差卷积块由三个卷积层与一条残差路径组成，卷积核分别为1×1、3×3、1×1，卷积层后的每一层均进行批量归一化，融合后通过ReLu激活。

进一步的，深度卷积块的主路径由四个卷积层组成，卷积核分别为3×3、3×3、3×3、1×1；残差路径上由两个卷积层，卷积核分别为3×3、1×1；卷积层后的每一层均进行批量归一化，融合后通过ReLu激活。

进一步的，多尺度注意力机制模块是将图像输入3×3卷积块得到特征图F₁＝C×H×W；对输入的特征F₁＝C×H×W经过最大池化、平均池化得到F_1max＝1×H×W与F_1avg＝1×H×W；然后将F_1max与F_1avg基于通道拼接起来，得到F_1max+avg＝2×H×W的特征图；对特征图进行卷积压缩为通道数为1的特征图，再通过BN归一化、Sigmoid函数激活运算后获得空间权重值，将空间权值加权到通道的特征F₁上，获得空间权重特征图M_s1＝1×H×W；

并将F₁通过转置变换为特征图F₂＝H×C×W和F₃＝W×H×C，分别经过最大池化、平均池化、卷积、再通过BN归一化、Sigmoid函数激活运算并与特征图F₂、F₃加权后进行转置，获得空间权重特征图M_s2＝1×H×W和M_s3＝1×H×W；

将M_s2、M_s3与M_s1进行concat连接和卷积操作后获得多尺度空间权重特征图M_s；M_s计算公式如式(1)所示：

其中，σ表示激活函数Sigmoid，

表示拼接操作，conv表示卷积操作。

进一步的，多通道空洞卷积融合模块有两层，分别采用空洞率为1、2的空洞卷积以及全局池化操作来提取多尺度特征；通过连接不同通道不同尺度的四个特征信息，实现多尺度特征输出，并对得到的特征进行通道融合。

进一步的，二分类交叉熵与Dice loss联合构建损失函数的公式为：

L＝L_BCE+L_DL (2)

其中，N为样本总量，r_i表示第i个像素点的标签值，p_i表示为第i个像素点的预测值。

本发明的有益效果：

1、充分利用图像的多层信息，全面地进行图像到图像的预测，实现对低级边缘、边界和目标轮廓。

2、设计多尺度注意力机制模块，并添入网络中，通过对通道、高、宽维度变换实现特征权重的重新分配和互补融合，实现多级利用；

3、利用多通道空洞融合模块，使各网络层之间最大程度的传递和使用特征信息特征提取能力大大提高，在增强网络性能的同时，减少网络噪声的干扰；

4、本发明与RCF、HED、FCN网络进行实验对比，精确率P达到69.1％，召回率R达到84.9％，F1最高达到76.18％，表明提取裂缝特征的能力高，抑制噪声干扰能力好，网络性能好。

附图说明

图1是本发明的基于双通道多尺度注意力机制的光伏板裂缝检测方法逻辑图；

图2(a)和图2(b)是残差卷积块和深度卷积块结构图；

图3是本发明的多尺度学习结构图；

图4是本发明的多尺度注意力机制模块；

图5是多通道空洞卷积融合模块；

图6是本发明、HED、FCN、RCF方法对比P-R曲线；

图7(a)、(b)、(c)分别是原图、实验2和实验3对比效果图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明，此图为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成。

使用基于Python，基于Tensorflow2.0深度学习框架，运行于硬件环境为InterCore i9-6700HQ CPU和NVIDIAGeForce GTX 2080Ti显卡的Ubuntu 16.4操作系统上。编译工具为Pycharm应用程序，Python版本为3.8。实验结果的曲线采用matplotlib模块进行可视化。

本实验使用的数据集来自于BUERHOP-LUTZC等人在网络上发布的太阳电池EL图像数据集，包含2624张300×300像素的电致发光图片。该数据集包含不同程度的缺陷图片，图像都进行了标准化，从中选取600张电致发光图片，将600张图片随机分训练集、测试集与验证集。

如图1为双通道多尺度注意力机制的网络模型，一种基于双通道多尺度注意力机制的光伏板裂缝检测方法包括以下步骤：

网络主干主要分为双通道，为语义分支通道和空间细节分支通道，不同的分支通道对应不同的功能，空间细节分支通道由三个卷积块组成，获取网络的的低级特征，浅层次的空间细节，语义分支由五个深度卷积块组成，通过快速下采样策略，扩大感受野，通道获取高级语义，提高特征表示水平。同时在空间细节分支与语义分支中嵌入多尺度注意力机制模块，将语义分支的最后两个卷积块的侧输出采用空洞融合方法。在增强网络性能的同时，减少网络噪声的干扰。

空间细节分支主干由三个卷积块组成，语义分支主干由五个深度卷积块组成，深度卷积块使用两种的下采样方式缩小特征；然后将两个分支的输出特征连接起来作为输出。这种结构具有高效的计算成本和特征表达能力。

表1空间细节分支与语义分支结构组成表

其中，ConV为卷积块，Deep ConV为深度卷积块，k为卷积核，c为通道数，s为步长，r为重复次数。

理论上，在特征提取过程中，增加神经网络的深度或宽度可以提高所提取的特征的细节和抽象能力。然而，如果只进行简单的增层操作，就会出现梯度爆炸或梯度弥散的问题。传统的方法，如归一化初始化和批处理归一化，可以解决梯度问题，但会导致网络性能下降。研究人员提出了一种残差网络，以克服神经网络由于深度增加而性能下降的缺点。其主要思想与Highway网络相同:通过在前层和后层之间建立短路连接“skip connection”，有助于梯度在训练过程中有效地反向传播，进而训练出更深层次的卷积神经网络。因此主干网络选用残差卷积块^[19]，并在此基础上更新为深度卷积块。深度卷积块延用残差卷积块的想法，在残差路径上增加增加卷积层，充分利用残差路径，提升网络的卷积深度。

如图2(a)残差卷积块由三个卷积层与一条残差路径组合而成，其中卷积核分别为1×1、3×3、1×1，卷积层后的每一层均进行批量归一化，融合后通过ReLu激活。

如图2(b)深度卷积块由两条路径组合而成，其中主路径由四个卷积层组成，其中卷积核分别为3×3、3×3、3×3、1×1，残差路径上由两个卷积层，其中卷积核分别为3×3、1×1，卷积层后的每一层均进行批量归一化，融合后通过ReLu激活。

为了进一步提取网络的深层特征，提高网络的深度与模型的识别精度，对注意力机制模块(Coordinate Attention)进行改进，提出了多尺度注意力机制模块(Multi-Coordinate Attention)，如图3、4所示，注意力机制模块有助于捕获跨通道、方向感知和位置感知的信息，从而提高模型定位和识别感兴趣目标的精确性。此外，CA模块灵活轻便，容易插入到经典模块中，通过强化特征信息表示的方式增强特征。作为预训练模型，CA模块可以在轻量级网络的基础上大幅提升下游任务的性能，特别是对于那些需要密集预测的任务(如语义分割)。图3为多尺度学习算法，表示在平行的网络下，每条网络通过不同参数和感受野大小获得多尺度的结果。输入图像同时被送到多个网络中进行处理，这些网络产生的特征结果直接反映了不同尺度的信息。从注意力机制通道和空间的角度考虑，构建通道之间的关联程度与空间像素直接的依赖关系使得网络中的细节特征得到更多的关注。

MCA通过对图像的C×H×W三个维度的两两维度变换，在维持维度不变的情况下，对注意力机制的深度大大提高。

多尺度注意力机制是将输入的特征维度进行变换，首先将输入图像输入3×3卷积块得到特征图F₁＝C×H×W，并将F₁通过转置变换为特征图F₂＝H×C×W和F₃＝W×H×C；其次对输入的特征F₁＝C×H×W经过最大池化、平均池化得到F_1max＝1×H×W与F_1avg＝1×H×W；然后将F_1max与F_1avg基于通道拼接起来，得到F_1max+avg＝2×H×W的特征图；对特征图进行卷积压缩为通道数为1的特征图，再通过BN归一化、Sigmoid函数激活运算后获得空间权重值，将空间权值加权到通道的特征F₁上，获得空间权重特征图M_s1＝1×H×W。

同时经过相同的变换获得空间权重特征图M_s2与M_s3，将两张空间权重特征图M_s2与M_s3转置与M_s1拼接融合和卷积操作获得多尺度空间权重特征图M_s；M_s计算公式如式(1)所示：

其中，σ表示激活函数Sigmoid，

表示拼接操作，conv表示卷积操作。

神经网络中通常离不开下采样操作，连续的下采样会导致特征图的空间分辨率严重下降，而且如果压缩程度较高，还会给后续的上采样或反卷积还原至原图大小增加难度。空洞卷积很好的优化了这个问题，在不池化和相同的计算条件下，增大了感受野，提高网络的表达能力。由于空洞卷积在输入特征层中的采样点分布相对稀疏，因此网络很容易丢失大量局部细节特征，导致其在小尺度目标和局部边界分割方面表现不佳。针对空洞卷积的优缺点，本发明利用多通道空洞卷积融合模块(HAC)，不同卷积层的特征图包含的大量不同的语义特征，将高底层的特征图同时采用不同空洞率的卷积核，通过使用具有不同扩张率的空洞卷积，可以获得不同大小的感受野。这些特征图被融合起来以有效地提取分布在不同范围内的细节信息。通过这种方法，可以增加输出特征图的维度，从而提高网络的深度和精度，并有效地捕捉局部细节，进一步提升模型性能。

如图5所示，多通道空洞卷积融合模块有两层，分别采用空洞率为1、2的空洞卷积以及全局池化操作来提取多尺度特征。得到了不同范围内的细节信息；通过连接不同通道不同尺度的四个特征信息，实现多尺度特征输出，并对得到的特征进行通道融合。

由于光伏板裂缝检测只有裂缝和背景两个类别，裂缝区域相较于整个背景占据一小部分面积，背景所占比例大、物体所占比例较小的不平衡样本问题，是一个二分类问题，因此采用二分类交叉熵(Binary Cross Entropy)与Dice loss联合作为损失函数。Diceloss可以缓解样本中前景背景(面积)不平衡带来的消极影响，但更关注对前景区域的挖掘，会带来损失饱和问题，因此联合二分类交叉熵作为本发明的损失函数能很好的缓解这一问题。

L＝L_BCE+L_DL (2)

评价指标

为了对实验结果进行客观的定量分析，选取精确率P(Precision)、召回率R(Recall)、均衡平均数(F1)是综合考虑精确率和召回率的评价指标；精确率表示正确检测的裂缝像素数量与总检测的像素数量的比例；召回率表示正确检测的裂缝像素数量与所有实际裂缝像素数量的比例；精确率和召回率是评价模型好坏的重要指标，根据精确率与召回率计算出的F值作为性能评估的总体指标，均衡平均数越高说明模型质量越好。P、R、F1的公式如式(5)-(7)所示：

其中TP(true positive)表示真正值，即模型将真正的裂缝检测为裂缝；FP(falsepositive)表示假正值，即模型将背景错误检测为裂缝；FN(false negative)表示假负值，即模型错误的将裂缝检测为背景。

对比实验

为了充分比较本发明方法和其他模型在裂缝检测中的性能，将本发明多尺度注意力机制网络模型实验结果与HED、FCN、RCF这些经典的分割算法实验结果进行对比，验证算法的有效性。

在电致发光数据集上，不同模型的P-R曲线展示在图6中，P-R曲线的横轴为精确率P，纵轴为召回率R，通过该曲线的整体表现，可以更全面地评估模型的性能。曲线所占面积越大，表明性能越好。由各模型在电致发光数据集上的检测结果可知，HED与RCF网络的精确率P分别为66.51％、67.80％，召回率R分别为76.96％、87.73％，F1值分别为72.35％、75.81％。HED网络是在VGG16网络的基础上进行改进，添加了侧输出层用于多尺度多层次的学习，同时去掉了最后一个池化层和全连接层，以节约内存和时间成本。借助于VGG网络的特征提取能力，直接对整幅图像进行操作，并通过深度监督将不同尺度的侧输出结果融合以得到较优的边缘检测结果。但是随着网络深度的加深，深层特征分辨率降低导致信息丢失，从而影响边缘的精细度。RCF网络是在HED网络的基础上进行了进一步改进的深度学习模型。为了提高模型的精度，RCF网络去掉了HED网络的最后一个池化层和全连接层，形成了一个全卷积网络。同时，RCF网络采用了上采样技术，将所有上采样层进行连接，对每个阶段的特征进行融合，从而更好地提取图像的边缘信息。此外，RCF网络还创造性地提出了一个适合训练样本的损失函数，从而进一步提高了模型的性能。因此RCF网络性能优于HED网络。FCN网络的精确率P为62.22％，召回率R为81.68％，F1值为74.64％。FCN网络可以处理任意尺寸的输入图像，通过反卷积层对最后一个卷积层的特征图进行上采样，使其恢复到与输入图像相同的尺寸，以便对每个像素进行预测，并保留了原始输入图像中的空间信息。然而，由于缺乏空间一致性，FCN网络在像素分类过程中忽略了像素之间的关系，没有考虑通常用于基于像素分类的分割方法中的空间规则步骤。而本发明提出的多尺度注意力机制网络模型考虑了坐标空间的特性，多尺度注意力机制网络模型的的P-R曲线总体在图像的最上方，精确率P达到69.1％，召回率R达到84.9％，F1最高达到76.18％，表明双通道多尺度注意力机制网络模型的提取裂缝特征的能力高，抑制噪声干扰能力好，网络性能好。

消融实验：

为了验证本发明设计的多尺度注意力机制模块对于实验结果性能的提升效果，设计模块间的消融实验。在电致发光数据集上设计了对比实验，所有参数设置、学习率和损失函数保持一致，消融实验分为二组：第一组实验为双通道网络，包含多通道空洞融合模块，不包含多尺度注意力机制模块；第二组实验在第一组的基础上包含多尺度注意力机制模块。

从图7(a)、图7(b)、图7(c)中可以看出，实验1检测的裂纹有断点不连续，有部分裂缝检测不出，并且将部分背景误检测为裂纹；实验2中检测的裂纹连续，较为完整，将背景与裂纹更好的分割。

综上可知，本发明提出的多尺度注意力机制模块与多通道空洞融合模块对网络的性能有提升，同时将两个模块组合实验能够达到最优的检测性能。

以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

Claims

1.一种基于双通道多尺度注意力机制的光伏板裂缝检测方法，其特征在于，包括以下步骤：

步骤三、通过二分类交叉熵与Diceloss联合构建损失函数，预测光伏板是否存在缺陷。

2.根据权利要求1所述的基于双通道多尺度注意力机制的光伏板裂缝检测方法，其特征在于：语义分支通道由五个深度卷积块组成，输入图像的第一分支依次经过第一、第二和第三深度卷积块；将第二、第三卷积块输入多尺度注意力机制模块作为第二分支，将第一分支和第二分支融合后输入第四、第五深度卷积块，第四深度卷积块和第五卷积块分别输入卷积层后再输入多通道空洞卷积融合模块；

五个深度卷积块的结构为：

其中，k为卷积核，c为通道数，s为步长，r为重复次数。

3.根据权利要求1所述的基于双通道多尺度注意力机制的光伏板裂缝检测方法，其特征在于：空间细节分支通道由三个残差卷积块组成，输入图像的第一分支依次经过第一、第二和第三残差卷积块；将第二、第三卷积块输入多尺度注意力机制模块作为第二分支，将第一分支和第二分支进行融合；

三个残差卷积块的结构为：

其中，k为卷积核，c为通道数，s为步长，r为重复次数。

4.根据权利要求1所述的基于双通道多尺度注意力机制的光伏板裂缝检测方法，其特征在于：残差卷积块由三个卷积层与一条残差路径组成，卷积核分别为1×1、3×3、1×1，卷积层后的每一层均进行批量归一化，融合后通过ReLu激活。

5.根据权利要求1所述的基于双通道多尺度注意力机制的光伏板裂缝检测方法，其特征在于：深度卷积块的主路径由四个卷积层组成，卷积核分别为3×3、3×3、3×3、1×1；残差路径上由两个卷积层，卷积核分别为3×3、1×1；每个卷积层后均进行批量归一化，融合后进行ReLu激活层操作。

6.根据权利要求1所述的基于双通道多尺度注意力机制的光伏板裂缝检测方法，其特征在于，多尺度注意力机制模块是将图像输入3×3卷积块得到特征图F₁＝C×H×W；将F₁＝C×H×W经过最大池化、平均池化得到F_1max＝1×H×W与F_1avg＝1×H×W；然后将F_1max与F_1avg基于通道拼接起来，得到F_1max+avg＝2×H×W的特征图；对特征图进行卷积压缩为通道数为1的特征图，再通过BN归一化、Sigmoid函数激活运算后获得空间权重值，将空间权值加权到通道的特征F₁上，获得空间权重特征图M_s1＝1×H×W；

并将F₁通过转置变换为特征图F₂＝H×C×W和F₃＝W×H×C，分别经过最大池化、平均池化、卷积、再通过BN归一化、Sigmoid函数激活运算，并与特征图F₂、F₃加权后进行转置，获得空间权重特征图M_s2＝1×H×W和M_s3＝1×H×W；

其中，σ表示激活函数Sigmoid，

表示拼接操作，conv表示卷积操作。

7.根据权利要求1所述的基于双通道多尺度注意力机制的光伏板裂缝检测方法，其特征在于，多通道空洞卷积融合模块有两层，分别采用空洞率为1、2的空洞卷积以及全局池化操作来提取多尺度特征；通过连接不同通道不同尺度的四个特征信息，实现多尺度特征输出，并对得到的特征进行通道融合。

8.根据权利要求1所述的基于双通道多尺度注意力机制的光伏板裂缝检测方法，其特征在于，二分类交叉熵与Dice loss联合构建损失函数的公式为：

L＝L_BCE+L_DL (2)