CN117152646B - 无人电力巡检ai轻量大模型方法及系统 - Google Patents
无人电力巡检ai轻量大模型方法及系统 Download PDFInfo
- Publication number
- CN117152646B CN117152646B CN202311403368.8A CN202311403368A CN117152646B CN 117152646 B CN117152646 B CN 117152646B CN 202311403368 A CN202311403368 A CN 202311403368A CN 117152646 B CN117152646 B CN 117152646B
- Authority
- CN
- China
- Prior art keywords
- image
- large model
- power inspection
- inspection
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007689 inspection Methods 0.000 title claims abstract description 88
- 238000000034 method Methods 0.000 title claims abstract description 59
- 230000011218 segmentation Effects 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims description 24
- 230000005540 biological transmission Effects 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 15
- 238000013434 data augmentation Methods 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 9
- 230000000007 visual effect Effects 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 6
- 238000013140 knowledge distillation Methods 0.000 claims description 6
- 238000013135 deep learning Methods 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 5
- 238000004821 distillation Methods 0.000 claims description 5
- 230000008014 freezing Effects 0.000 claims description 5
- 238000007710 freezing Methods 0.000 claims description 5
- 238000012937 correction Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 238000011160 research Methods 0.000 abstract description 2
- 230000007246 mechanism Effects 0.000 description 6
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011982 device technology Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 239000012212 insulator Substances 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/17—Terrestrial scenes taken from planes or by drones
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Remote Sensing (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种无人电力巡检AI轻量大模型方法及系统,以无人机巡检系统采集的可见光影像数据为研究对象,针对其数据特点,制定了AI轻量大模型,具体化大模型的轻量图像编码器、解码器和关键词解码器,以及大模型中点、框等提示的自动化获取,完成可见光影像数据的快速分割。该方法可以较好解决传统电力巡检可见光影像数据语义分割步骤复杂、难以实时化的问题,能在电力巡检可见光影像数据中快速分割各电力部件,可用于时效性要求较高的场景,如灾害应急巡检等。
Description
技术领域
本发明属于计算机视觉技术领域中无人机电力巡检可见光影像数据的应用,提出一种全新的输电走廊无人电力巡检影像实时分割的AI轻量大模型方法及系统。
背景技术
输电线路是电力系统的重要组成部分,输电线路的可靠运行对电力系统的安全、稳定至关重要。我国电网具有规模大、输电线路覆盖广、自然条件复杂等特点。由于输电走廊所处自然环境通常恶劣复杂,输电线路组件容易受到外力和环境侵蚀,发生缺陷等故障。因此,有必要对输电线路进行及时、高效的巡检。
输电线路最初采用人工进行巡检,工作强度大,劳动效率低。现在多用直升机或无人机进行巡检。在智能电力巡检中,首先由无人机等智能体设备进行输电线路数据采集工作。然后,将采集得到的图像等数据传输到服务器,利用计算机视觉技术进行自动处理和智能检测,大大节省了人力,提高了工作效率。但这种模式也存在一定的不足。首先,集中处理巡检获得的大量图像数据会增加云计算中心的负载。此外,巡检图像数据需要经过云计算中心处理才能得到诊断结果,不满足实时诊断的要求。最后,数据传输会消耗大量的移动数据,不利于巡检的经济性。
随着边缘计算设备技术的发展,现在已经有了Xavier等高性能轻重量的边缘设备。在无人机等智能终端上部署边缘计算设备,对智能终端采集到的图像数据进行实时分析和处理,快速识别检测视觉图像中的设备缺陷是智能电力巡检的新范式。然而,由于边缘设备的算力有限,传统的目标检测模型推理速度较慢,不利于实时高效的电力巡检。
发明内容
针对传统电力巡检影像数据目标识别方法的欠缺和不足,本专利提出一种无人电力巡检AI轻量大模型方法及系统,可根据点、框、文本、掩码等类型的关键词实时自动提取电力巡检影像数据中的输电走廊电力部件。
为了解决上述技术问题,本发明设计的一种无人电力巡检AI轻量大模型方法采用如下的技术方案:
步骤1,采集获取电力巡检影像,并对其进行预处理和数据增广处理,构建输电线路数据集;
步骤2,获取大模型所需的提示;
步骤3,构建无人电力巡检AI轻量大模型,并采用解耦蒸馏的方式,训练该轻量大模型:
所述AI轻量大模型包括基于ViT的轻量图像编码器、解码器和关键词解码器;
对步骤1中获取的数据通过图像编码器获得图像深度学习特征,不同类型的提示通过关键词解码器进行解码获得关键词特征,关键词特征与图像特征共同作为解码器的输入,得到分割结果;
所述AI轻量大模型的训练过程如下:
首先,电力数据集对应的影像特征编码由预训练过的ViT图像编码器给出;
然后,以此图像编码作为监督,训练基于ViT的轻量图像编码器,进行知识蒸馏,而编码器及解码器采用SAM中的冻结参数,训练过程中采用MSE损失;
步骤4,利用训练好的AI轻量大模型获得电力巡检目标的实时分割结果。
进一步地,步骤1中对电力巡检影像进行预处理和数据增广处理具体如下:
将摄影生成的原始影像数据转为jpg或png常见的图像格式,录像数据按帧输出为jpg或png常见的图像格式;
对转换完成的jpg或png格式的图像进行色偏、曝光纠正处理,获得可视效果好的影像数据;
对预处理完成的影像数据使用Labelimg工具进行电力巡检场景目标的标注,并进行数据增广处理。
进一步地,步骤2中大模型所需的提示包括目标关键点提示、目标边界框提示以及文本提示。
优选地,为了自动获取提示,本发明的目标边界框提示的具体获取过程如下:
将步骤1处理后的影像经过尺度变化和填充,缩放到640×640尺度,将处理后的倾斜影像输入到单阶段目标检测器YOLO-NASS;
单阶段目标检测器YOLO-NASS对输入的图像中给定类别的目标进行检测;
通过骨干网和多尺度特征金字塔进行影像特征提取和融合,并通过检测头输出图像中包含的目标类别和粗略边界框,所为大模型的边界框提示;
优选地,为了自动获取提示,本发明的目标关键点提示的具体获取过程如下:
步骤1处理后的影像经过尺度变化和填充,缩放到512×512尺度,将处理后的倾斜影像输入到单阶段目标检测器CenterNet;
单阶段目标检测器Centernet对输入的图像中给定类别的目标进行检测;
通过单阶段目标检测器Centernet的Resnet50骨干网进行影像特征提取,最后使用三个卷积网络,输出待提取目标的宽高和目标的中心点坐标,其中目标的中心点坐标作为大模型的关键点提示。
优选地,本发明大模型所需文本提示的获取具体如下:
整理巡检影像对应的文本数据,根据无人机电力巡检业务规范和流程,巡线巡塔过程中采集获取的影像会有相关的文字记录,包含被巡检的关键元器件的名称。将文本数据的敏感信息去除后,作为大模型的文本提示。
进一步地,所述基于ViT的轻量图像编码器的第三部分由一个MBConv层和四个Transformer层组成;MBConv层输入通道数为128,输出通道数为256,步长为2;Transformer层输入通道数为256,注意力头个数为5,窗口大小为14×14,MLP膨胀比为4。
基于同一发明构思,本发明还设计了一种实现无人电力巡检AI轻量大模型方法的系统,其特殊之处在于:
包括数据集获取模块、大模型提示自动获取模块、AI轻量大模型模块;
所述数据集获取模块采集获取电力巡检影像,并对其进行预处理和数据增广处理,构建输电线路数据集;
大模型提示自动获取模块,用于获取大模型所需的提示,
所述AI轻量大模型模块将数据集获取模块处理后的图像通过图像编码器获得图像深度学习特征,不同类型的提示通过关键词解码器进行解码获得关键词特征,关键词特征与图像特征共同作为解码器的输入,得到分割结果;该AI轻量大模型的训练过程如下:
首先,电力数据集对应的影像特征编码由预训练过的ViT图像编码器给出;
然后,以此图像编码作为监督,训练基于ViT的轻量图像编码器,进行知识蒸馏,而编码器及解码器采用SAM中的冻结参数,训练过程中采用MSE损失;
利用训练好的AI轻量大模型获得电力巡检目标的实时分割结果。
基于同一发明构思,本方案还设计了一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现无人电力巡检AI轻量大模型方法。
基于同一发明构思,本方案还设计一种计算机可读介质,其上存储有计算机程序,其特征在于:所述程序被处理器执行时实现无人电力巡检AI轻量大模型方法。
与现有技术相比,本发明具有以下优点和有益效果:
本发明以无人机巡检系统采集的可见光影像数据为研究对象,针对其数据特点,制定了AI轻量大模型,具体化大模型的轻量神经网络编码器、神经网络解码器以及神经网络解耦蒸馏的网络训练方法,以及大模型中点、框等提示的自动化获取,完成可见光影像数据的快速分割。该方法可以较好解决传统电力巡检可见光影像数据语义分割步骤复杂、难以实时化的问题,能在电力巡检可见光影像数据中快速分割各电力部件,可用于时效性要求较高的场景,灾害应急巡检等。
附图说明
图1本发明实施例中流程图。
图2本发明实施例中编码器结构图。
图3本发明实施例中解码器结构图。
图4本发明实施例中解耦蒸馏训练示意图。
具体实施方式
以下结合附图和实施例对本发明技术方案进行说明。
选择无人机巡检系统采集的可见光影像数据集对本发明提出的方法进行具体说明。
实施例一
参见图1,本发明实施例无人电力巡检AI轻量大模型方法包含以下步骤:
步骤1,采集获取电力巡检影像和文本数据,并对其进行预处理和数据增广处理,构建输电线路数据集;
步骤2,大模型所需的提示包括关键点提示、目标边界框提示以及文本提示。训练目标检测器CenterNet,将检测到的目标关键点作为显式提示。训练目标检测器YOLO-NASS,将检测到的目标边界框作为显式提示。
步骤3,构建无人电力巡检AI轻量大模型,并进行网络训练;
步骤4,获取待分割的电力巡检影像数据并进行预处理,将预处理影像数据和提示作为AI轻量大模型的输入,获得电力巡检目标的实时分割结果。
进一步的,步骤1采集获取电力巡检影像和文本数据,并对其进行预处理和数据增广处理的具体实现包括如下子步骤:
步骤1.1,通过无人机载摄像头对输电走廊场景内的输电部件进行摄影、录像,获取可视化数据。并对采集的数据进行数据预处理,将摄影生成的原始影像数据转为jpg或png等常见的图像格式,录像数据按帧输出为jpg或png等常见的图像格式。
步骤1.2,对转换完成的jpg或png格式的图像进行色偏、曝光等纠正处理,获得可视效果好的影像数据。对预处理完成的影像数据使用Labelimg工具进行电力巡检场景目标的标注,并进行数据增广处理。
步骤2中大模型所需文本提示通过整理巡检影像对应的文本数据。根据无人机电力巡检业务规范和流程,巡线巡塔过程中采集获取的影像会有相关的文字记录,包含被巡检的关键元器件的名称,如:绝缘子、均压环、输电杆塔等。将对应的文本数据进行敏感信息去除后,将关键文本作为AI轻量大模型的提示。
步骤2中边界框显示提示的获取具体如下:
训练单阶段目标检测器YOLO-NASS,将检测到的目标边界框作为显式提示,其具体实现包括如下子步骤:
步骤2.11,原始影像经过尺度变化和填充,缩放到640×640尺度,将处理后的倾斜影像输入到单阶段目标检测器YOLO-NASS。
步骤2.12,首先,原始影像经过3个卷积核大小为3×3,步长为2的QCI卷积模块,再通过1个卷积核大小为3×3,步长为2的QSP卷积卷积模块和SPP组成的联合模块。QSP模块由两个分支组成,一个分支由CBR模块与三个QSRepVGG模块串联,一个分支仅包含一个CBR模块,两分支输出合并后作为模块输出。QCI模块由两个分支组成,一个分支由CBR模块与三个QSRepVGG模块串联,一个分支仅包含一个CBR模块,两分支每一个子模块输出合并后作为模块输出。
步骤2.13,通过骨干网提取到的特征经过多尺度特征金字塔进行多尺度特征融合,输出特征图尺度为80×80、40×40和20×20的三个特征图。融合后的特征输入到YOLO检测头,输出图像中包含的目标类别和粗略边界框,将检测到的边界框作为大模型的提示.
步骤2中,目标关键点提示的自动获取过程如下:
步骤2.21,步骤1中处理后的影像经过尺度变化和填充,缩放到512×512尺度,将处理后的倾斜影像输入到单阶段目标检测器CenterNet。
步骤2.22,CenterNet以Resnet50作为网络的主干网。Resnet50网络结构可以分成五个部分。首先,第一部分原始影像先后经过卷积层、BN层、ReLU激活函数、最大池化层得到了通道数为64,尺寸为128×128的输出。第二、三、四、五个部分都包含了残差块,每一部分残差块的输入通道数分别为64,256,512和1024,输出通道数分别为256,512,1024和2048。其中每一部分包含的残差块数量也不相同,分别为3个,4个,6个和3个。原始影像输入通过Resnet50网络获得影像深度特征。
步骤2.23,通过反卷积模块对特征图进行上采样,最后使用三个卷积网络分支分别预测目标热图,目标的宽高和目标的中心点坐标。反卷积模块包括三个反卷积组,每个组都包括一个3×3的卷积和一个反卷积,每次反卷积都会将特征图的尺寸放大一倍。反卷积模块的输出尺寸为64×128×128。采用预测的目标的中心点坐标分支,将检测到的关键点作为大模型的提示;
步骤3中的无人电力巡检AI轻量大模型网络结构主要包含三个部分,分别是基于ViT的轻量图像编码器、解码器和关键词解码器,解码器和关键词解码器可参考SAM大模型中的结构。
基于ViT的轻量图像编码器由四部分组成。第一部分由两个卷积层和两个轻量高效的移动翻转瓶颈卷积层(MBConv)堆叠组成。其中,堆叠的两个卷积内核大小为3,步幅为2,填充为1;MBConv的输入通道数为64,倍率因子为4。后面三个部分都是由移动翻转瓶颈卷积层和带有窗口注意Transformer层组成。其中,第二部分由一个MBConv层和两个Transformer层组成;MBConv层输入通道数为64,输出通道数为128,步长为2;Transformer层输入通道数为128,注意力头个数为4,窗口大小为7×7,MLP膨胀比为4。第三部分由一个MBConv层和四个Transformer层组成;MBConv层输入通道数为128,输出通道数为256,步长为2;Transformer层输入通道数为256,注意力头个数为5,窗口大小为14×14,MLP膨胀比为4。第四部分由一个MBConv层和两个Transformer层组成;MBConv层输入通道数为256,输出通道数为448,步长为1;Transformer层输入通道数为448,注意力头个数为10,窗口大小为7×7,MLP膨胀比为4。所有网络层中的激活函数均为GELU。卷积和线性的归一化层分别为BatchNorm和LayerNorm。原始影像经过基于ViT的轻量图像编码器运算得到影像特征编码。
步骤3中关键词解码器针对点、框、文本、掩码有不同的编码方式。对于获得的“点”类关键词,首先获得它的位置编码,然后根据它是前景还是背景生成已学习的一维向量特征。将位置编码和特征进行融合得到点的关键词特征。对于获得的“框”类关键词,首先获得框左上角位置编码,然后根据是“左上”还是“右下”生成已学习的一维向量特征,将位置编码和特征进行融合,右下角点同理。将“左上”和“右下”点特征进行融合得到框的关键词特征。步骤2中获得的对于“文本”类关键词,使用CLIP文本编码器对文本进行特征生成,得到关键词特征。对于“掩码”类关键词,先将掩码下采样到输入图像的四分之一分辨率,然后分别使用输出通道为4和16的两个核大小为2×2,步长的卷积,将输入再缩小4倍。最后使用核大小为1×1的卷积将通道维度映射到256。如果没有掩码类关键词,则在每个图像嵌入位置添加一个表示“没有掩码”的已学习的特征。以上得到的特征,在和一组固定的已学习过的特征组合后得到关键词特征。
步骤3中解码器执行8个步骤:a、将关键词特征送入自注意力模块进行更新;b、将更新的关键词特征作为注意力机制中的查询值,对图像编码器生成的影像特征编码进行注意力机制模块运算,实现交叉注意力机制,更新关键词特征;c、将更新的关键词特征送入两层的MLP结构进行特征变换;d、将更新的影像特征编码作为注意力机制中的查询值,对更新的关键词特征进行注意力机制模块运算,实现交叉注意力机制,更新影像特征编码。e、重复一次a-d步骤。f、重复b步骤,再次更新关键词特征,并分为IoU特征和每像素特征。g、更新后的影像特征编码经过两层转置卷积,其中核大小为2,步长为2,升采样到4倍大小,产生最终的影像特征编码。h、第f步骤生成的IoU特征通过一个MLP结构生成分割的IoU得分,每像素特征通过一个三层MLP结构,和最新的影像特征编码相乘融合,获得对影像特征编码的预测。每个自/交叉注意和MLP在训练时具有残差连接、层归一化和0.1的Dropout。
步骤3中网络训练过程中,采用解耦蒸馏的方式。首先,电力数据集对应的影像特征编码由预训练过的ViT图像编码器给出。然后,以此图像编码作为监督,训练步骤3中提出的基于ViT的轻量图像编码器,进行知识蒸馏。而关键词编码器及解码器采用SAM中的冻结参数。训练过程中采用简单的MSE损失。
步骤4利用训练好的AI轻量大模型获得电力巡检目标的实时分割结果的具体实现包括如下子步骤:
步骤4.1,通过无人机载摄像头对输电走廊场景内的输电部件进行摄影、录像,获取可视化数据。对采集的数据进行数据预处理,将摄影生成的原始影像数据转为jpg或png等常见的图像格式,录像数据按帧输出为jpg或png等常见的图像格式。
步骤4.2,对转换完成的jpg或png格式的图像进行色偏、曝光等纠正处理,获得可视效果好的影像数据。将处理的影像数据和步骤2中生成的点、边界框、文本和可能存在的掩码等作为输入,输入到AI轻量大模型中,获得分割好的结果影像和标签。
本发明所设计的无人电力巡检AI轻量大模型方法,利用无人机采集的多个可见光影像数据集,经过本发明方法处理之后,无人电力巡检AI轻量大模型对于输电走廊场景内各电力部件分割的平均mIoU得分为0.70,运行速度达到20ms每张。说明本发明可在实时的时间效率内提供较高精度的电力巡检可见光数据语义分割结果。相较于传统的手动巡检方法,该发明方法能够提供更高的效率,因为它是自动化的且速度更快。与其他电力巡检AI模型,如语义分割网络、原始SAM分割大模型相比,如原始SAM分割大模型处理影像需要约0.5秒,且过程需要手动给予提示,本发明的轻量大模型在精度、速度和自动化程度上均表现出色。
实施例二
基于同一发明构思,本方案还设计一种实现无人电力巡检AI轻量大模型方法的系统,包括数据集获取模块、大模型提示自动获取模块、AI轻量大模型模块;
所述数据集获取模块采集获取电力巡检影像,并对其进行预处理和数据增广处理,构建输电线路数据集;
大模型提示自动获取模块,用于获取大模型所需的提示,
所述AI轻量大模型模块将数据集获取模块处理后的图像通过图像编码器获得图像深度学习特征,不同类型的提示通过关键词解码器进行解码获得关键词特征,关键词特征与图像特征共同作为解码器的输入,得到分割结果;该AI轻量大模型的训练过程如下:
首先,电力数据集对应的影像特征编码由预训练过的ViT图像编码器给出;
然后,以此图像编码作为监督,训练基于ViT的轻量图像编码器,进行知识蒸馏,而编码器及解码器采用SAM中的冻结参数,训练过程中采用MSE损失;
利用训练好的AI轻量大模型获得电力巡检目标的实时分割结果。
由于本发明实施例二所介绍的设备为实施本发明实施例一种无人电力巡检AI轻量大模型方法所采用的系统,故而基于本发明实施例一介绍的方法,本领域所属技术人员能够了解该电子设备的具体结构及变形,故而在此不再赘述。
实施例三
基于同一发明构思,本发明还提供了一种电子设备,包括一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现实施例一中所述的方法。
由于本发明实施例三所介绍的设备为实施本发明实施例一种无人电力巡检AI轻量大模型方法所采用的电子设备,故而基于本发明实施例一介绍的方法,本领域所属技术人员能够了解该电子设备的具体结构及变形,故而在此不再赘述。凡是本发明实施例一种方法所采用的电子设备都属于本发明所欲保护的范围。
实施例四
基于同一发明构思,本发明还提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现实施例一中所述的方法。
由于本发明实施例四所介绍的设备为实施本发明实施例一种无人电力巡检AI轻量大模型方法采用的计算机可读介质,故而基于本发明实施例一介绍的方法,本领域所属技术人员能够了解该电子设备的具体结构及变形,故而在此不再赘述。凡是本发明实施例一种方法所采用的电子设备都属于本发明所欲保护的范围。
以上内容是结合具体的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (9)
1.一种无人电力巡检AI轻量大模型方法,其特征在于,包括以下步骤:
步骤1,采集获取电力巡检影像,并对其进行预处理和数据增广处理,构建输电线路数据集;
步骤2,获取大模型所需的提示,所述提示包括目标关键点提示、目标边界框提示以及文本提示;
步骤3,构建无人电力巡检AI轻量大模型,并采用解耦蒸馏的方式,训练该轻量大模型:
所述AI轻量大模型包括基于ViT的轻量图像编码器、解码器和关键词解码器;对步骤1中获取的数据通过图像编码器获得图像深度学习特征,不同类型的提示通过关键词解码器进行解码获得关键词特征,关键词特征与图像特征共同作为解码器的输入,得到分割结果;
所述AI轻量大模型的训练,首先,电力数据集对应的影像特征编码由预训练过的ViT图像编码器给出;然后,以此图像编码作为监督,训练基于ViT的轻量图像编码器,进行知识蒸馏,而编码器及解码器采用SAM中的冻结参数,训练过程中采用MSE损失;
步骤4,利用训练好的AI轻量大模型获得电力巡检目标的实时分割结果。
2.根据权利要求1所述的无人电力巡检AI轻量大模型方法,其特征在于:
步骤1中对电力巡检影像进行预处理和数据增广处理具体如下:
将摄影生成的原始影像数据转为jpg或png常见的图像格式,录像数据按帧输出为jpg或png常见的图像格式;
对转换完成的jpg或png格式的图像进行色偏、曝光纠正处理,获得可视效果好的影像数据;
对预处理完成的影像数据使用Labelimg工具进行电力巡检场景目标的标注,并进行数据增广处理。
3.根据权利要求2所述的无人电力巡检AI轻量大模型方法,其特征在于:
所述目标边界框提示的具体获取过程如下:
将步骤1处理后的影像经过尺度变化和填充,缩放到640×640尺度,将处理后的倾斜影像输入到单阶段目标检测器YOLO-NASS;
单阶段目标检测器YOLO-NASS对输入的图像中给定类别的目标进行检测;
通过骨干网和多尺度特征金字塔进行影像特征提取和融合,并通过检测头输出图像中包含的目标类别和粗略边界框,所为大模型的边界框提示。
4.根据权利要求1所述的无人电力巡检AI轻量大模型方法,其特征在于:
所述目标关键点提示的具体获取过程如下:
步骤1处理后的影像经过尺度变化和填充,缩放到512×512尺度,将处理后的倾斜影像输入到单阶段目标检测器CenterNet;
单阶段目标检测器Centernet对输入的图像中给定类别的目标进行检测;
通过单阶段目标检测器Centernet的Resnet50骨干网进行影像特征提取,最后使用三个卷积网络,输出待提取目标的宽高和目标的中心点坐标,其中目标的中心点坐标作为大模型的关键点提示。
5.根据权利要求1所述的无人电力巡检AI轻量大模型方法,其特征在于:
大模型所需文本提示的获取具体如下:
整理巡检影像对应的文本数据,根据无人机电力巡检业务规范和流程,巡线巡塔过程中采集获取的影像会有相关的文字记录,包含被巡检的关键元器件的名称,将文本数据的敏感信息去除后,作为大模型的文本提示。
6.根据权利要求1所述的无人电力巡检AI轻量大模型方法,其特征在于:
所述基于ViT的轻量图像编码器的第三部分由一个MBConv层和四个Transformer层组成;MBConv层输入通道数为128,输出通道数为256,步长为2;Transformer层输入通道数为256,注意力头个数为5,窗口大小为14×14,MLP膨胀比为4。
7.一种实现无人电力巡检AI轻量大模型方法的系统,其特征在于:
包括数据集获取模块、大模型提示自动获取模块、AI轻量大模型模块;
所述数据集获取模块采集获取电力巡检影像,并对其进行预处理和数据增广处理,构建输电线路数据集;
大模型提示自动获取模块,用于获取大模型所需的提示,所述提示包括目标关键点提示、目标边界框提示以及文本提示;
所述AI轻量大模型模块将数据集获取模块处理后的图像通过图像编码器获得图像深度学习特征,不同类型的提示通过关键词解码器进行解码获得关键词特征,关键词特征与图像特征共同作为解码器的输入,得到分割结果;该AI轻量大模型的训练过程如下:
首先,电力数据集对应的影像特征编码由预训练过的ViT图像编码器给出;
然后,以此图像编码作为监督,训练基于ViT的轻量图像编码器,进行知识蒸馏,而编码器及解码器采用SAM中的冻结参数,训练过程中采用MSE损失;
利用训练好的AI轻量大模型获得电力巡检目标的实时分割结果。
8.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现权利要求1-6中任一项所述的方法。
9.一种计算机可读介质,其上存储有计算机程序,其特征在于:所述程序被处理器执行时实现权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311403368.8A CN117152646B (zh) | 2023-10-27 | 2023-10-27 | 无人电力巡检ai轻量大模型方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311403368.8A CN117152646B (zh) | 2023-10-27 | 2023-10-27 | 无人电力巡检ai轻量大模型方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117152646A CN117152646A (zh) | 2023-12-01 |
CN117152646B true CN117152646B (zh) | 2024-02-06 |
Family
ID=88884611
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311403368.8A Active CN117152646B (zh) | 2023-10-27 | 2023-10-27 | 无人电力巡检ai轻量大模型方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117152646B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114445664A (zh) * | 2022-01-25 | 2022-05-06 | 重庆邮电大学 | 基于自适应动态卷积网络的图像分类识别方法、装置和计算机设备 |
CN114882007A (zh) * | 2022-06-07 | 2022-08-09 | 浙江工业大学 | 一种基于记忆网络的图像异常检测方法 |
CN115294476A (zh) * | 2022-07-22 | 2022-11-04 | 武汉大学 | 面向无人机电力巡检的边缘计算智能检测方法及设备 |
CN116543325A (zh) * | 2023-06-01 | 2023-08-04 | 北京艾尔思时代科技有限公司 | 基于无人机影像的农作物人工智能自动识别方法和系统 |
CN116824307A (zh) * | 2023-08-29 | 2023-09-29 | 深圳市万物云科技有限公司 | 基于sam模型的图像标注方法、装置及相关介质 |
CN116862847A (zh) * | 2023-06-21 | 2023-10-10 | 国网山东省电力公司电力科学研究院 | 一种红外图像电力设备交互式分割方法和系统 |
CN116935418A (zh) * | 2023-09-15 | 2023-10-24 | 成都索贝数码科技股份有限公司 | 一种三维图文模板自动重组方法、设备及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112215223B (zh) * | 2020-10-16 | 2024-03-19 | 清华大学 | 基于多元注意力机制的多方向场景文字识别方法及系统 |
-
2023
- 2023-10-27 CN CN202311403368.8A patent/CN117152646B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114445664A (zh) * | 2022-01-25 | 2022-05-06 | 重庆邮电大学 | 基于自适应动态卷积网络的图像分类识别方法、装置和计算机设备 |
CN114882007A (zh) * | 2022-06-07 | 2022-08-09 | 浙江工业大学 | 一种基于记忆网络的图像异常检测方法 |
CN115294476A (zh) * | 2022-07-22 | 2022-11-04 | 武汉大学 | 面向无人机电力巡检的边缘计算智能检测方法及设备 |
CN116543325A (zh) * | 2023-06-01 | 2023-08-04 | 北京艾尔思时代科技有限公司 | 基于无人机影像的农作物人工智能自动识别方法和系统 |
CN116862847A (zh) * | 2023-06-21 | 2023-10-10 | 国网山东省电力公司电力科学研究院 | 一种红外图像电力设备交互式分割方法和系统 |
CN116824307A (zh) * | 2023-08-29 | 2023-09-29 | 深圳市万物云科技有限公司 | 基于sam模型的图像标注方法、装置及相关介质 |
CN116935418A (zh) * | 2023-09-15 | 2023-10-24 | 成都索贝数码科技股份有限公司 | 一种三维图文模板自动重组方法、设备及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117152646A (zh) | 2023-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114743119B (zh) | 基于无人机的高铁接触网吊弦螺母缺陷检测方法 | |
CN112070135A (zh) | 电力设备图像检测方法、装置、电力设备及存储介质 | |
CN114049356B (zh) | 一种结构表观裂缝检测方法、装置及系统 | |
CN113177560A (zh) | 一种普适性轻量级深度学习车辆检测方法 | |
CN116385958A (zh) | 一种用于电网巡检和监控的边缘智能检测方法 | |
CN113569672A (zh) | 轻量级目标检测与故障识别方法、装置及系统 | |
CN115861619A (zh) | 一种递归残差双注意力核点卷积网络的机载LiDAR城市点云语义分割方法与系统 | |
CN113052106A (zh) | 一种基于PSPNet网络的飞机起降跑道识别方法 | |
CN113903022A (zh) | 基于特征金字塔与注意力融合的文本检测方法及系统 | |
Wang et al. | Global perception-based robust parking space detection using a low-cost camera | |
CN115527096A (zh) | 一种基于改进YOLOv5的小目标检测方法 | |
CN114529821A (zh) | 一种基于机器视觉的海上风电安全监测与预警方法 | |
CN112668662B (zh) | 基于改进YOLOv3网络的野外山林环境目标检测方法 | |
CN114332473A (zh) | 目标检测方法、装置、计算机设备、存储介质及程序产品 | |
CN116805387B (zh) | 基于知识蒸馏的模型训练方法、质检方法和相关设备 | |
CN117152646B (zh) | 无人电力巡检ai轻量大模型方法及系统 | |
CN116051561A (zh) | 一种基于车载边缘设备的轻量化路面病害巡检方法 | |
CN114998866A (zh) | 一种基于改进YOLOv4的交通标志识别方法 | |
CN115861948A (zh) | 车道线检测方法、设备及预警方法、系统、介质 | |
CN114821224A (zh) | 铁路图像风格转换数据扩增方法及系统 | |
CN114638973A (zh) | 目标图像检测方法及图像检测模型训练方法 | |
CN115063348A (zh) | 一种零件表面缺陷检测方法、装置、设备及介质 | |
CN115272814B (zh) | 一种远距离空间自适应多尺度的小目标检测方法 | |
CN114005043B (zh) | 基于域转换和伪标签的小样本城市遥感影像信息提取方法 | |
CN117132914B (zh) | 通用电力设备识别大模型方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |