CN115797808A

CN115797808A - 一种无人机巡检缺陷图像的识别方法、系统、装置及介质

Info

Publication number: CN115797808A
Application number: CN202211540316.0A
Authority: CN
Inventors: 吴媚; 王红星; 王海楠; 孟悦; 陈玉权; 张欣
Original assignee: Jiangsu Fangtian Power Technology Co Ltd
Current assignee: Jiangsu Fangtian Power Technology Co Ltd
Priority date: 2022-12-01
Filing date: 2022-12-01
Publication date: 2023-03-14

Abstract

本发明公开了一种无人机巡检缺陷图像的识别方法、系统、装置及介质，方法：获取无人机巡检的待识别图像并进行预处理；将预处理后的待识别图像输入训练好的神经网络模型进行缺陷识别并获取识别结果；其中，训练好的神经网络模型获取包括：获取无人机巡检的样本图像集，对样本图像集中各样本图像进行缺陷标注，构成带标注图像集；对带标注图像集中各带标注图像进行预处理，并划分为训练集和测试集；构建以多尺度的注意力机制网络结构Swin‑Transformer、特征金字塔网络结构SA‑FPN为骨架的神经网络模型；通过训练集对神经对构建好的神经网络模型进行训练，再利用测试集对神经网络模型进行测试，得到训练好的神经网络模型；本发明相比传统的CNN结构，其识别性能更好。

Description

一种无人机巡检缺陷图像的识别方法、系统、装置及介质

技术领域

本发明涉及一种无人机巡检缺陷图像的识别方法、系统、装置及介质，属于图像识别技术领域。

背景技术

当前，应用深度学习智能识别技术对无人机巡检过程中拍摄的电力杆塔照片进行缺陷识别是一种很常见的技术手段。然而，在实际巡检过程中，无人机巡检图片背景复杂，电力设备缺陷类型多样，缺陷尺寸不一致，在巡检图片上所处的位置也各有不同。目前流行的智能识别方法主要采用的是纯卷积神经网络(CNN)，它对感知多尺度物体的适应能力有限，且感受野会受到预先定义的卷积核大小的限制。因此，使用传统CNN结构检测输电线路巡检缺陷难以具有较好的表现。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种无人机巡检缺陷图像的识别方法、系统、装置及介质，解决使用传统CNN结构检测输电线路巡检缺陷难以具有较好的表现的技术问题。

为达到上述目的，本发明是采用下述技术方案实现的：

第一方面，本发明提供了一种无人机巡检缺陷图像的识别方法，包括：

获取无人机巡检的待识别图像并进行预处理；

将预处理后的待识别图像输入训练好的神经网络模型进行缺陷识别并获取识别结果；

其中，所述训练好的神经网络模型获取包括：

获取无人机巡检的样本图像集，对样本图像集中各样本图像进行缺陷标注，构成带标注图像集；其中，所述缺陷标注包括标注缺陷类型和缺陷边界框；

对带标注图像集中各带标注图像进行预处理，并将预处理后的带标注图像划分为训练集和测试集；

构建以多尺度的注意力机制网络结构Swin-Transformer、特征金字塔网络结构SA-FPN和区域特征网络结构RPN为骨架的神经网络模型；

通过训练集对构建好的神经网络模型进行训练，再利用测试集对神经网络模型进行测试，完成神经网络模型的训练，得到训练好的神经网络模型。

可选的，所述预处理包括将输入图像的像素矩阵按预设比例切割成多个不重叠的像素块，并将像素块合成为像素向量。

可选的，所述注意力机制网络结构Swin-Transformer包括级联的四个Stage，分别记为Stage1、Stage2、Stage3、Stage4；其中，所述Stage1包括级联的两个Swin-TransformerBlock，所述Stage2和Stage4均包括级联的Patch Merging模块和两个Swin-TransformerBlock，所述Stage 3包括级联的Patch Merging模块和六个Swin-Transformer Block；所述Patch Merging模块用于对输入图像进行下采样，降低输入图像的分辨率。

可选的，所述Swin-Transformer Block包括级联的第一模块和第二模块；

所述第一模块包括级联的第一LN层、窗口多头自注意层W-MSA、第二LN层以及第一MLP层，且所述第一LN层的输入与窗口多头自注意层W-MSA的输出通过残差方式连接，所述第二LN层的输入与第一MLP层的输出通过残差方式连接；

所述第二模块包括级联的第三LN层、移位窗口多头自注意层SW-MSA、第四LN层以及第二MLP层，且所述第三LN层的输入与移位窗口多头自注意层SW-MSA的输出通过残差方式连接，所述第四LN层的输入与第二MLP层的输出通过残差方式连接。

可选的，所述Patch Merging模块对输入图像进行下采样包括：

将输入图片分别在行列方向上按位置间隔2抽取像素特征图生成patch；

将各patch按特征图通道进行联接，将通道维度变换为原来的四倍；

通过一个全连接层对联接后的patch进行拉伸和归一化，将通道维度变换为原来的两倍。

可选的，所述特征金字塔网络结构SA-FPN包括三个Scale-Attention Block，其中，第一个Scale-Attention Block的输入为Stage1和Stage2输出的特征，第二个Scale-Attention Block的输入为第一个Scale-Attention Block和Stage3输出的特征，所述第三个Scale-Attention Block的输入为第二个Scale-Attention Block和Stage4输出的特征。

可选的，所述Scale-Attention Block的计算包括：

设定Q、K、V三个变量矩阵：

Q＝F_n×W

K＝V＝[F_n,F_n+1]

式中，F_n、F_n+1分别为Scale-Attention Block的第一输入特征和第二输入特征，W为线性回归矩阵权重；

基于Q、K、V计算Scale-Attention Block的输出F_attn：

F_attn＝softmax(QK^T)V+F_n。

第二方面，本发明提供了一种无人机巡检缺陷图像的识别系统，所述系统包括：

预处理模块，用于获取无人机巡检的待识别图像并进行预处理；

缺陷识别模块，用于将预处理后的待识别图像输入训练好的神经网络模型进行缺陷识别并获取识别结果；

其中，所述训练好的神经网络模型获取包括：

缺陷标注模块，用于获取无人机巡检的样本图像集，对样本图像集中各样本图像进行缺陷标注，构成带标注图像集；其中，所述缺陷标注包括标注缺陷类型和缺陷边界框；

训练准备模块，用于对带标注图像集中各带标注图像进行预处理，并将预处理后的带标注图像划分为训练集和测试集；

模型构建模块，用于构建以多尺度的注意力机制网络结构Swin-Transformer、特征金字塔网络结构SA-FPN和区域特征网络结构RPN为骨架的神经网络模型；

模型训练模块，用于通过训练集对构建好的神经网络模型进行训练，再利用测试集对神经网络模型进行测试，完成神经网络模型的训练，得到训练好的神经网络模型。

第三方面，本发明提供了一种无人机巡检缺陷图像的识别装置，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据上述方法的步骤。

第四方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

与现有技术相比，本发明所达到的有益效果：

本发明提供提供的一种无人机巡检缺陷图像的识别方法、系统、装置及介质，通过构建Swin-Transformer作为骨干网络，结合SA-FPN结构的神经网络模型，能够对多尺度特征进行提取融合，相比传统的CNN结构，其性能更好。

附图说明

图1是本发明实施例一提供的一种无人机巡检缺陷图像的识别方法的流程图；

图2是本发明实施例一提供的训练好的神经网络模型获取的流程图；

图3是本发明实施例一提供的神经网络模型的工作原理图；

图4是本发明实施例一提供的Swin-Transformer Block的结构图；

图5是本发明实施例一提供的特征金字塔网络结构SA-FPN的结构图；

图6是本发明实施例一提供的Scale-Attention Block的工作原理图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例一：

如图1所示，本发明提供了一种无人机巡检缺陷图像的识别方法，包括：

1、获取无人机巡检的待识别图像并进行预处理；

预处理包括将输入图像的像素矩阵按预设比例切割成多个不重叠的像素块，并将像素块合成为像素向量。

2、将预处理后的待识别图像输入训练好的神经网络模型进行缺陷识别并获取识别结果。

如图2所示，训练好的神经网络模型获取包括：

S1、获取无人机巡检的样本图像集，对样本图像集中各样本图像进行缺陷标注，构成带标注图像集；其中，缺陷标注包括标注缺陷类型和缺陷边界框；

S2、对带标注图像集中各带标注图像进行预处理，并将预处理后的带标注图像划分为训练集和测试集；此处预处理与步骤1方式相同。

S3、构建以多尺度的注意力机制网络结构Swin-Transformer、特征金字塔网络结构SA-FPN和区域特征网络结构RPN为骨架的神经网络模型；

如图3所示，注意力机制网络结构Swin-Transformer用于多尺度特征提取，特征金字塔网络结构SA-FPN用于对提取的多尺度特征进行融合得到各尺度的特征图谱，区域特征网络结构RPN用于根据各尺度的特征图谱生成候选框图，用于预测缺陷类型和缺陷边界框。

(1)注意力机制网络结构Swin-Transformer包括级联的四个Stage，分别记为Stage1、Stage2、Stage3、Stage4；其中，Stage1包括级联的两个Swin-Transformer Block，Stage2和Stage4均包括级联的Patch Merging模块和两个Swin-Transformer Block，Stage3包括级联的Patch Merging模块和六个Swin-Transformer Block。

(1.1)如图4所示，Swin-Transformer Block包括级联的第一模块和第二模块；第一模块包括级联的第一LN层、窗口多头自注意层W-MSA、第二LN层以及第一MLP层，且第一LN层的输入与窗口多头自注意层W-MSA的输出通过残差方式连接，第二LN层的输入与第一MLP层的输出通过残差方式连接；第二模块包括级联的第三LN层、移位窗口多头自注意层SW-MSA、第四LN层以及第二MLP层，且第三LN层的输入与移位窗口多头自注意层SW-MSA的输出通过残差方式连接，第四LN层的输入与第二MLP层的输出通过残差方式连接。

在第一模块中，将输入特征z^l-1先经过第一LN层进行归一化处理再通过W-MSA进行特征学习，将输出值与原特征一起进行残差操作得到

特征值

再经过第二LN层、第一MLP层(多层感知机)后得到的值，再与

进行残差操作，得到输出特征z^l，并作为第二个模块的输入；第二个模块使用SW-MSA结构替代W-MSA，其余层和操作保持不变，最终得到输出特征z^l+1。

(1.2)Patch Merging模块用于对输入图像进行下采样，降低输入图像的分辨率；具体过程如下：

(2)如图5所示，特征金字塔网络结构SA-FPN包括三个Scale-Attention Block，其中，第一个Scale-Attention Block的输入为Stage1和Stage2输出的特征F₃、F₄，第二个Scale-Attention Block的输入为第一个Scale-Attention Block和Stage3输出的特征F₂，第三个Scale-Attention Block的输入为第二个Scale-Attention Block和Stage4输出的特征F₁。

如图6所示，Scale-Attention Block的计算包括：

设定Q、K、V三个变量矩阵：

Q＝F_n×W

K＝V＝[F_n,F_n+1]

基于Q、K、V计算Scale-Attention Block的输出F_attn：

F_attn＝softmax(QK^T)V+F_n。

S4、通过训练集对构建好的神经网络模型进行训练，再利用测试集对神经网络模型进行测试，完成神经网络模型的训练，得到训练好的神经网络模型；

训练过程包括：每轮迭代取4张样本图片形成一个batch，对模型权重进行一次反向传播的参数更新。设置初始学习率为0.0001，权值衰减为0.05，并使用AdamW优化器进行优化，每1000轮迭代使用一次线性学习率预热策略。整个训练集总计训练12个次，并在第8次和第11次重复时分别令当前学习率衰减为原来的1/10。

实验验证：

使用包含687张样本的训练集对三种模型进行训练，并使用包含229张样本的测试集对三种模型进行测试；三种模型分别为：ResNet-50作为骨干网络，结合传统FPN结构；Swin-Transformer作为骨干网络，结合传统FPN结构；本发明提出的Swin-Transformer作为骨干网络，结合SA-FPN结构。测试结果如表1所示：

表1：

网络结构	FLOPs	#Params	mAP	AP<sub>75</sub>
					ResNet-50+FPN	206.67G	41.13M	32.5	31.4
Swin-T+FPN	213.42G	41.13M	34.2	34.1
					Swin-T+SA-FPN	218.93G	44.95M	35.9	38.1

实验结果可以看出，相比另外两种传统网络结构，本发明提出的Swin-Transformer+SA-FPN结构在检测无人机巡检缺陷图像方面，平均检测精度能够提升4％，同时网络参数复杂度仅增加0.42％，计算量仅增加2.58％，具有良好的检测性能。

实施例二：

本发明实施例提供了一种无人机巡检缺陷图像的识别系统，系统包括：

其中，训练好的神经网络模型获取包括：

缺陷标注模块，用于获取无人机巡检的样本图像集，对样本图像集中各样本图像进行缺陷标注，构成带标注图像集；其中，缺陷标注包括标注缺陷类型和缺陷边界框；

实施例三：

基于实施例一，本发明实施例提供了一种无人机巡检缺陷图像的识别装置，包括处理器及存储介质；

存储介质用于存储指令；

处理器用于根据指令进行操作以执行根据上述方法的步骤。

实施例四：

基于实施例一，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种无人机巡检缺陷图像的识别方法，其特征在于，包括：

获取无人机巡检的待识别图像并进行预处理；

其中，所述训练好的神经网络模型获取包括：

2.根据根据权利要求1所述的一种无人机巡检缺陷图像的识别方法，其特征在于，所述预处理包括将输入图像的像素矩阵按预设比例切割成多个不重叠的像素块，并将像素块合成为像素向量。

3.根据权利要求1所述的一种无人机巡检缺陷图像的识别方法，其特征在于，所述注意力机制网络结构Swin-Transformer包括级联的四个Stage，分别记为Stage1、Stage2、Stage3、Stage4；其中，所述Stage1包括级联的两个Swin-Transformer Block，所述Stage2和Stage4均包括级联的Patch Merging模块和两个Swin-Transformer Block，所述Stage 3包括级联的Patch Merging模块和六个Swin-Transformer Block；所述Patch Merging模块用于对输入图像进行下采样，降低输入图像的分辨率。

4.根据权利要求3所述的一种无人机巡检缺陷图像的识别方法，其特征在于，所述Swin-Transformer Block包括级联的第一模块和第二模块；

5.根据权利要求3所述的一种无人机巡检缺陷图像的识别方法，其特征在于，所述Patch Merging模块对输入图像进行下采样包括：

6.根据权利要求3所述的一种无人机巡检缺陷图像的识别方法，其特征在于，所述特征金字塔网络结构SA-FPN包括三个Scale-Attention Block，其中，第一个Scale-AttentionBlock的输入为Stage1和Stage2输出的特征，第二个Scale-Attention Block的输入为第一个Scale-Attention Block和Stage3输出的特征，所述第三个Scale-Attention Block的输入为第二个Scale-Attention Block和Stage4输出的特征。

7.根据权利要求6所述的一种无人机巡检缺陷图像的识别方法，其特征在于，所述Scale-Attention Block的计算包括：

设定Q、K、V三个变量矩阵：

Q＝F_n×W

K＝V＝[F_n,F_n+1]

基于Q、K、V计算Scale-Attention Block的输出F_attn：

F_attn＝softmax(QK^T)V+F_n。

8.一种无人机巡检缺陷图像的识别系统，其特征在于，所述系统包括：

其中，所述训练好的神经网络模型获取包括：

9.一种无人机巡检缺陷图像的识别装置，其特征在于，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据权利要求1-7任一项所述方法的步骤。

10.计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7任一项所述方法的步骤。