CN114596487A

CN114596487A - 一种基于自注意力机制的开关分合状态识别方法

Info

Publication number: CN114596487A
Application number: CN202210176075.XA
Authority: CN
Inventors: 曾凯; 李响; 陈宏君; 文继锋; 洪礼鑫; 张磊; 熊蕙; 张纲; 杨丰毓
Original assignee: NR Electric Co Ltd; NR Engineering Co Ltd
Current assignee: NR Electric Co Ltd; NR Engineering Co Ltd
Priority date: 2022-02-25
Filing date: 2022-02-25
Publication date: 2022-06-07

Abstract

本发明公开一种基于自注意力机制的开关分合状态识别方法，在YOLOv5基础上，结合Swin Transformer网络和FPT网络构建SwF‑YOLOv5目标检测网络结构；利用训练样本库对SwF‑YOLOv5目标检测网络结构进行训练，得到开关分合状态的检测模型文件；将待检测图片输入检测模型中，输出图像中可用于判断分合状态的分合关键标识矩形区域；采用基于重叠度的判别算法，得到待检测图像所表示的开关分合状态。本发明方法在基准YOLOv5网络的基础上，考虑自注意力机制在建模能力、关联信息提取等方面相较于卷积神经网络的优势，构建了SwF‑YOLOv5目标检测网络，该网络最大特点是融合了自注意力机制，相较于基准YOLOv5网络拥有更强大的建模能力和更高的检测精度，更适合于处理复杂场景下的检测任务，具有一定的应用价值。

Description

一种基于自注意力机制的开关分合状态识别方法

技术领域

本发明涉及变电站运行与维护技术领域，特别是一种基于自注意力机制的开关分合状态识别方法。

背景技术

一次设备运行状态的监视对变电站的安全、稳定、高效运行具有重要的意义。当前，开关分合状态检查是变电站日常巡检的重要内容，目前主要还是借助人工巡检或者在后台监控上由硬接点信号上送的方式进行记录。在人工智能技术蓬勃发展的机遇下，开展开关分合状态的智能化识别研究，将基于深度学习的目标检测技术应用在开关状态的判别上，有助于减少人工巡检带来的弊端，提升变电站智能运维水平及整体运行的安全性和可靠性，具有重要的现实意义。

目前主流的深度学习目标检测算法(比如YOLOv5)都是基于卷积神经网络构建的。然而，最新的研究发现基于自注意力机制的Transformer结构在计算机视觉领域中展现了革命性的性能提升，卷积可以看作是一种模板匹配，图像中不同位置采用相同的模板进行滤波。而Transformer中的注意力单元则是一种自适应滤波，模板权重由两个像素的可组合性来决定，这种自适应计算模块具有更强的建模能力。因此，在优秀的基于卷积网络的目标检测算法基础上融入Transformer结构的自注意力机制模块，可以增强算法的特征提取及性能表达，提升整体的检测精度。

发明内容

本发明的目的是提供一种基于自注意力机制的开关分合状态识别方法，通过将自注意力机制的网络结构融入到基准的YOLOv5目标检测模型框架中，可以提升图像中关键特征的提取能力和整体建模能力，取得了有益的检测效果。

本发明采用的技术方案如下。

一种基于自注意力机制的开关分合状态识别方法，包括：

S1：基于变电站开关分合指示器的图像样本以及对应的人工标注信息，构建训练样本库，所述人工标注信息包括分合关键标识矩形区域的坐标信息和分类信息，所述分类信息包括分合关键标识矩形区域所属类别是分开、闭合或指针，所述坐标信息包括分合关键标识矩形区域的左上角坐标及宽、高信息；

S2：选定YOLOv5网络作为基准网络，将该基准网络的骨干特征提取子网络替换为Swin Transformer自注意力机制网络，将该基准网络的颈部特征融合子网络替换为FPT特征金字塔网络，将Swin Transformer网络中最后三层多尺度特征图输出分别连接至FPT网络的三个输入节点，构成SwF-YOLOv5目标检测网络结构；

S3：利用训练样本库对S2中的SwF-YOLOv5目标检测网络进行训练，得到检测模型文件；

S4：将待检测图像输入至检测模型文件中，得到待检测图像的分合关键标识矩形区域的坐标信息和分类信息；进而采用基于重叠度的判别算法，判别待检测图像所标识出的开关分合状态。

进一步，所述步骤S1中基于专家经验标注各图像样本的人工标注信息。

进一步，利用开源图像标注工具、基于专家经验对各图像样本中分合关键标识矩形区域进行人工标注，得到json格式的标注文件；

用python脚本将json格式的标注文件转换为YOLOv5算法支持的归一化的txt格式文件，并采用4：1的比例随机在训练样本库中划分出训练集和测试集。

进一步，利用python脚本统计各类别的分合关键标识矩形区域数量，针对数量少于设定阈值的类别采取重新采集图像样本或者在原有图像样本上利用数据增强技术进行变换的方式对训练样本库进行扩充。

进一步，所述步骤S3中包括：

步骤S31：在GPU服务器上搭建模型训练环境，利用训练集对SwF-YOLOv5网络中进行训练，得到用于识别图像中分合关键标识矩形区域的中间检测模型文件；

步骤S32：利用测试集对所述中间模型文件进行验证，包括：若验证结果不符合设定要求，则对训练样本库中各样本图像进行优化标注，重新建立训练集和测试集，返回步骤S31，直至验证结果符合设定要求，则将中间检测模型文件作为最终的检测模型文件。

进一步，所述步骤S4中采用基于重叠度的判别算法，判别待检测图像所标识的开关分合状态的结果包括：分开、闭合、未知三类。

进一步，所述步骤S4中采用基于重叠度的判别算法，判别待检测图像所标识的开关分合状态，包括以下两种情况：

(1)待检测图像中存在所属类别是“指针”的分合关键标识矩形区域的情况

a)如果待检测图像中所属类别是“分开”、“闭合”的分合关键标识矩形区域都不存在，则判别待检测图像所标识的开关分合状态为未知；

b)如果待检测图像中不存在所属类别是“分开”的分合关键标识矩形区域、只存在所属类别是“闭合”的分合关键标识矩形区域，则计算分别所属类别是“指针”的分合关键标识矩形区域与所属类别是“闭合”的分合关键标识矩形区域的面积重叠率，若计算所得结果中任意一个大于零则判别待检测图像所标识的开关分合状态为闭合，若计算所得结果均小于等于零则判别待检测图像所标识的开关分合状态为未知；

c)如果待检测图像中不存在所属类别是“闭合”的分合关键标识矩形区域、只存在所属类别是“分开”的分合关键标识矩形区域，则分别计算所属类别是“指针”的分合关键标识矩形区域与所属类别是“分开”的分合关键标识矩形区域的面积重叠率，若计算所得结果中任意一个大于零则判别待检测图像所标识的开关分合状态为分开，若计算所得结果均小于等于零则判别待检测图像所标识的开关分合状态为未知；

d)如果待检测图像中所属类别是“分开”、“闭合”的分合关键标识矩形区域都存在，则分别计算所属类别是“指针”的分合关键标识矩形区域与所属类别是“分开”的分合关键标识矩形区域的面积重叠率，并取计算所得结果中的最大值记为radio_分；分别计算所属类别是“指针”的分合关键标识矩形区域与所属类别是“闭合”的分合关键标识矩形区域的面积重叠率，并取计算所得结果中的最大值记为radio_合：

d1)如果radio_分＝0且radio_合≠0，则判别待检测图像所标识的开关分合状态为闭合；

d2)如果radio_合＝0且radio_分≠0，则判别待检测图像所标识的开关分合状态为分开；

d3)如果radio_合＝0且radio_分＝0，则判别待检测图像所标识的开关分合状态为未知；

d4)如果radio_分≠0开radio_合≠0，则对所属类别是“指针”的分合关键标识矩形区域进行以下处理：先进行灰度化、腐蚀处理，然后提取“指针”对象的轮廓，并计算出最小外接矩形，再后根据最小外接矩形的角度判断指针的位置、结合所属类别是“分开”、“闭合”的分合关键标识矩形区域的坐标信息，判断待检测图像所标识的开关分合状态；

(2)待检测图像中不存在所属类别是“指针”的分合关键标识区域的情况

分别统计待检测图像中所属类别是“分开”的分合关键标识矩形区域个数、所属类别是“闭合”的分合关键标识矩形区域个数：

a)所属类别是“分开”的分合关键标识矩形区域个数超过所属类别是“闭合”的分合关键标识矩形区域个数，则判别待检测图像所标识的开关分合状态为分开；

b)所属类别是“闭合”的分合关键标识矩形区域个数超过所属类别是“分开”的分合关键标识矩形区域个数，则判别待检测图像所标识的开关分合状态为闭合；

c)所属类别是“分开”的分合关键标识矩形区域个数等于所属分类是“闭合”的分合关键标识矩形区域个数，则判别待检测图像所标识的开关分合状态为未知。

进一步，两个分合关键标识矩形区域S1和S2的面积重叠率的计算方法公式为：ratio＝(S1∩S2)/(S1∪S2)，其中，S1∩S2表示S1和S2重叠部分的面积，S1∪S2表示S1和S2重叠后形成的面积。

通过以上方案，本发明能够实现一种基于自注意力机制的改进型YOLOv5网络模型，在利用其进行变电站开关分合指示状态识别时，一方面能够保障识别结果的可靠性，满足智能化校对需求，另一方面，引入的自注意力机制模块能增强网络的特征表达，提升检测效果。

有益效果

与现有技术相比，本发明的优点是：(1)在基准YOLOv5算法的骨干特征提取网络中引入基于自注意力机制的Swin Transformer网络，该网络采用了层次化的Transformer自注意力结构和局部注意力增强结构，相较于基准YOLOv5算法中的bottleneck卷积网络具有更加强大的建模和表示能力；(2)在基准YOLOv5算法的颈部特征融合网络中引入基于自注意力机制的FPT金字塔特征网络，该网络可以实现跨空间和尺度的特征交互，相较于基准YOLOv5算法中的FPN+PANet结构的特征融合网络能融合生成更丰富的上下文特征信息；(3)由于采用了自注意力机制结构，优化了图像中特征的提取及融合，具有更高的检测精度。

同时，本发明训练得到的检测模型文件具有较高的识别准确度，能够满足对图像中开关分合状态进行智能化识别的应用需求，免除人工校对带来的风险缺陷，提升了变电站运维的智能化水平。

附图说明

图1为本发明一种基于自注意力机制的开关分合状态识别方法的流程示意图；

图2为YOLOv5网络的结构示意图；

图3为本发明SwF-YOLOv5网络的结构示意图。

具体实施方式

以下结合附图和具体实施例进一步描述。

本实施例介绍一种基于自注意力机制的开关分合状态识别方法，如图1所示，包括：

1、图像样本获取及标注

采集变电站中开关设备旁的分合状态指示器的图像样本，得到数量足够多且分合特征覆盖全面的样本库；图像样本中包含了可判断开关处于分或者合状态的分合关键标识矩形区域，比如用文字标识的分合区域、或者用红绿标识的分合区域、或者用指针标识的当前状态区域等。采用光学变换、几何变换、增加噪声、数据源扩充等数据增强方法来随机处理图像样本数据，得到训练样本库。

进一步，利用python脚本统计各类别的分合关键标识矩形区域(以下简称关键区域)数量，针对数量较少的分类采取重新拍摄或者在原有图像上利用像素内容变换、空间几何变换等数据增强技术得到扩充后的训练样本库。本实施例中训练样本共5085张样本，包含分、合、指针三种关键区域的分类。

进一步，利用开源图像标注工具对训练样本库中图像样本关键区域进行人工标注，标注的信息中包括了关键区域的坐标信息及分类信息，标注完成后得到json格式的标注文件。其中所述分类信息包括关键区域所属类别是分开、闭合或指针，所述坐标信息包括关键区域的左上角坐标及宽、高信息。

进一步，利用python脚本将json格式的标注文件转换为YOLOv5算法支持的归一化的txt格式文件，并采用4：1的比例随机在样本库中划分出训练集和测试集，作为后续训练网络模型的数据来源。

2、SwF-YOLOv5网络的构建

选定YOLOv5网络作为基准网络，如图2所示，该基准网络在实际使用中表现出极其优秀的检测性能和推广价值，它整合了大量的计算机视觉前沿技术，显著改善了对象检测的性能，提升了模型训练的速度及模型应用的便利度。该基准网络主要由骨干特征提取网络(Backbone网络)、颈部特征融合网络(Neck网络)和检测头部预测网络(Prediction网络)组成，分别使用基于bottleneck结构的CSPDarknet53为Backbone，基于多特征图融合的FPN+PANet结构为Neck，以及基于检测目标的位置和类别进行回归、分类任务的YOLO检测头Head。

Transformer网络是Google于2017年提出的基于自注意力机制(self-attention)结构的经典网络，它彻底改变了自然语言处理(NLP)领域，具有绝对的技术优势，成为该领域的标配网络。Transformer网络具备很多卷积神经网络和循环神经网络所不具备的优势，比如通用且强大的建模能力、大吞吐量大规模的并行处理能力等，在NLP领域得到了广泛的应用。

Swin Transformer网络是2021年提出的一种采用了局部自注意力增强机制的Transformer网络，它在计算机视觉领域中使用了Transformer自注意力机制用于提取图像的特性表示，该网络相较于卷积神经网络具有更强的动态计算能力，建模能力更强，且可自适应计算局部与全局像素关系，非常具有推广使用的价值；另外，其网络中的分层结构可以得到不同尺度的特征图表示，非常适合于替代基准YOLOv5的骨干网络中的CSPDarknet53结构。因此，本发明将该网络与YOLOv5网络结构结合，以取得更佳的特征提取能力。

FPT网络是2020年提出的一种多方向融合特征金字塔网络，其核心也是使用了自注意力机制的Transformer网络，它能深度捕获在不同尺度中对象的非局部上下文信息。它通过使用三个专门设计的Transformer结构，以自上而下和自下而上的交互方式，将任何一个特征金字塔变换成另一个同样大小但具有更丰富上下文的特征金字塔，由于FPT的输出维度与输入一致，能够自由嵌入到各种包含特征金字塔的检测算法中。因此，本发明将该网络与YOLOv5网络结构结合，以取得更佳的特征融合能力。

本发明的做法是，将YOLOv5基准网络中基于bottleneck卷积神经网络的骨干网络替换为Swin Transformer网络用于图像特征的提取，将基于FPN及PANet的颈部特征融合网络替换为FPT特征金字塔融合网络，从Swin Transformer网络的最后三层多尺度特征图节点中引出输出，连接至FPT特征金字塔融合网络的三个输入特征图节点上，得到如图3所示的SwF-YOLOv5网络模型结构。

3、检测模型的训练

本实施例中，在GPU服务器上搭建容器化的模型训练环境，基于改进型YOLOv5网络训练300轮次得到中间模型文件。然后利用测试集样本对中间模型文件进行模型评估，评估指标可综合考虑深度学习模型评估中主流的mAP(多类别平均精度)、Precision(准确率)、Recall(召回率)、Flops(模型所需计算力)等指标。判断评估指标是否达到技术规范或推广应用的要求，如果未达到，则通过优化样本标注、图像数据增强处理、调整SwinTransformer网络的参数等方式来重新建立构建训练环境。然后通过反复迭代训练、评估，得到最终的检测模型文件及对应的训练样本库。

4、模型推理及图像分合状态的识别

将待检测图像作为输入，经过最终的检测模型的推理运算，得到待检测图像中关键区域的分类信息及坐标信息。

根据待检测图像中关键区域的分类信息及坐标信息，采用基于重叠度的判别算法，判别当前图像所标识的开关分合状态，识别结果包括：分开、闭合、未知三类。

该算法具体实施过程如下：

d4)如果radio_分≠0开radio_合≠0，则对所属类别是“指针”的分合关键标识矩形区域进行以下处理：先进行灰度化、腐蚀等处理，然后提取“指针”对象的轮廓，并计算出最小外接矩形，再后根据最小外接矩形的角度判断指针的位置、结合所属类别是“分开”、“闭合”的分合关键标识矩形区域的坐标信息，判断待检测图像所标识的开关分合状态；

所属类别是“分开”的分合关键标识矩形区域个数等于所属分类是“闭合”的分合关键标识矩形区域个数，则判别待检测图像所标识的开关分合状态为未知。

进一步，两个关键区域S1和S2的面积重叠率radio的计算方法为：

如果S1和S2本身存在交集、或者当将S1区域的长边延长到与S2区域存在最大化重叠区域时会存在交集，则认为这两个关键区域存在重叠面积，面积重叠率计算公式为：ratio＝(S1∩S2)/(S1∪S2)，即两个关键区域的交集面积与并集面积的比值。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种基于自注意力机制的开关分合状态识别方法，其特征在于，包括：

S2：选定YOLOv5网络作为基准网络，将该基准网络的骨干特征提取子网络替换为SwinTransformer自注意力机制网络，将该基准网络的颈部特征融合子网络替换为FPT特征金字塔网络，将Swin Transformer网络中最后三层多尺度特征图输出分别连接至FPT网络的三个输入节点，构成SwF-YOLOv5目标检测网络结构；

2.根据权利要求1所述的一种基于自注意力机制的开关分合状态识别方法，其特征在于，所述步骤S1中基于专家经验标注各图像样本的人工标注信息。

3.根据权利要求2所述的一种基于自注意力机制的开关分合状态识别方法，其特征在于，利用开源图像标注工具、基于专家经验对各图像样本中分合关键标识矩形区域进行人工标注，得到json格式的标注文件；

4.根据权利要求3所述的一种基于自注意力机制的开关分合状态识别方法，其特征在于，利用python脚本统计各类别的分合关键标识矩形区域数量，针对数量少于设定阈值的类别采取重新采集图像样本或者在原有图像样本上利用数据增强技术进行变换的方式对训练样本库进行扩充。

5.根据权利要求3所述的一种基于自注意力机制的开关分合状态识别方法，其特征在于，所述步骤S3中包括：

6.根据权利要求1所述的一种基于自注意力机制的开关分合状态识别方法，其特征在于，所述步骤S4中采用基于重叠度的判别算法，判别待检测图像所标识的开关分合状态的结果包括：分开、闭合、未知三类。

7.根据权利要求6所述的一种基于自注意力机制的开关分合状态识别方法，其特征在于，所述步骤S4中采用基于重叠度的判别算法，判别待检测图像所标识的开关分合状态，包括以下两种情况：

8.根据权利要求6所述的一种基于自注意力机制的开关分合状态识别方法，其特征在于，两个分合关键标识矩形区域S1和S2的面积重叠率的计算方法公式为：ratio＝(S1∩S2)/(S1∪S2)，其中，S1∩S2表示S1和S2重叠部分的面积，S1∪S2表示S1和S2重叠后形成的面积。