CN115546670A - 一种基于改进的betr模型的光伏板红外图像热斑检测方法 - Google Patents

一种基于改进的betr模型的光伏板红外图像热斑检测方法 Download PDF

Info

Publication number
CN115546670A
CN115546670A CN202211290886.9A CN202211290886A CN115546670A CN 115546670 A CN115546670 A CN 115546670A CN 202211290886 A CN202211290886 A CN 202211290886A CN 115546670 A CN115546670 A CN 115546670A
Authority
CN
China
Prior art keywords
photovoltaic panel
image
model
betr
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211290886.9A
Other languages
English (en)
Inventor
乔学明
陈豪
郭聃
许明
尹明立
乔琳霏
夏迎雪
李童心
李玉文
勇群
孙海峰
宫宝凝
刘振华
李双超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Weihai Power Supply Co of State Grid Shandong Electric Power Co Ltd
Original Assignee
Weihai Power Supply Co of State Grid Shandong Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Weihai Power Supply Co of State Grid Shandong Electric Power Co Ltd filed Critical Weihai Power Supply Co of State Grid Shandong Electric Power Co Ltd
Priority to CN202211290886.9A priority Critical patent/CN115546670A/zh
Publication of CN115546670A publication Critical patent/CN115546670A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/17Terrestrial scenes taken from planes or by drones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10048Infrared image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30108Industrial image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30181Earth observation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Quality & Reliability (AREA)
  • Remote Sensing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种基于改进的BETR模型的光伏板红外图像热斑检测方法,包括步骤1、采集光伏板图像及光伏板红外热斑图像;步骤2、处理上述图像,利用处理后的图像分别构建第一、二光伏板数据集和光伏板红外热斑数据集;步骤3、构建改进的BETR模型;步骤4、利用第一光伏板数据集对改进的BETR模型进行预训练,利用迁移学习的思想用光伏板红外热斑数据集和第二光伏板数据集对预训练后的BETR模型进行正式训练得到优化的BETR模型;步骤5、利用优化的BETR模型对新图像进行识别,对识别得到的光伏板红外热斑的大小进行分类,统计每一类热斑的数量和位置信息,统计光伏板数量,将结果整合输出。上述方法对小目标的物体识别精度高,且能够统计光伏板的数量。

Description

一种基于改进的BETR模型的光伏板红外图像热斑检测方法
技术领域
本发明涉及光伏板红外图像热斑检测技术领域,尤其涉及一种基于改进的BETR模型的光伏板红外图像热斑检测方法。
背景技术
光伏发电是符合政策需求和市场需求的新能源供电方式,近几年光伏发电发展迅速。然而存在一些用户私自进行光伏增容的行为,这种行为从用户个人的角度来说会使家中电压超过居民用电最高电压,导致电器烧毁、甚至引发火灾等问题。如果用户私自增容,还会给所在区域的电网变压器带来安全隐患,影响整个地区的电网质量。如果光伏板存在异物遮挡,则会导致其短路电流小于组件工作的电流,使得部分光伏板处于反偏状态,消耗能量,因此表现为局部高温状态,产生热斑,极易引发安全事故。因此,定期检查光伏板的数量和状态对光伏板产业的发展具有重要作用。
针对光伏板的状态检测,目前已经存在一些检测方法,例如:公开号为CN114973032A的发明专利申请提出了一种基于深度卷积神经网络的光伏板热斑检测方法及装置,其利用改进的目标检测算法Yolov4构建光伏板识别模型,通过光伏板识别模型识别并截取光伏板红外图像中的光伏板;利用优化的语义分割算法DeepLabV3+构建热斑分割模型,通过热斑分割模型对截取到的光伏板上的热斑进行检测分割;但是该方法对于面积较小的热斑检测效果较差,且无法对光伏板的数量进行统计。公开号为CN114299033A的发明专利申请提出了一种基于YOLOv5的光伏板红外图像热斑检测方法及系统,该方法构建改进YOLOv5模型,使用训练好的改进YOLOv5模型对待检测的光伏组件图像进行检测,在对输出的检测框处理后,输出光伏组件类别信息;但是该方法没有针对面积较小的热斑的识别进行改进,仍存在对于面积较小的热斑检测效果较差的问题。
发明内容
为了解决现有技术中存在的问题,本申请提出了一种基于改进的BETR模型的光伏板红外图像热斑检测方法,改进的BETR模型的训练速度和识别速度更快,对于小目标的物体(例如面积较小的热斑)识别精度高,可以实现对光伏板红外热斑的大小进行分类和数量统计、记录光伏板红外热斑的位置信息,并且能够统计光伏板的数量。
为了实现上述目的,本申请提出了一种基于改进的BETR模型的光伏板红外图像热斑检测方法,包括以下步骤:
步骤1、通过无人机采集光伏板图像以及光伏板红外热斑图像;
步骤2、对光伏板图像以及光伏板红外热斑图像均进行数据增强处理,利用处理后的光伏板图像构建用于预训练的第一光伏板数据集,利用处理后的光伏板红外热斑图像和光伏板图像分别构建用于正式训练的光伏板红外热斑数据集和第二光伏板数据集;
步骤3、构建改进的BETR模型:利用特征金字塔代替原BETR模型中特征提取的主干网络;对位置编码器进行改进以增强对二维图像特征位置的记录能力;对FFN前馈网络进行改进以提高改进的BETR模型在训练时的收敛速度;
步骤4、利用步骤2得到的第一光伏板数据集对改进的BETR模型进行预训练,之后利用迁移学习的思想,利用步骤2得到的光伏板红外热斑数据集和第二光伏板数据集对预训练后的BETR模型进行正式训练,以对参数进行微调,得到优化的BETR模型;
步骤5、利用步骤4得到的BETR模型对新采集的光伏板红外热斑图像和光伏板图像进行识别,对识别得到的光伏板红外热斑的大小进行分类,统计每一类的热斑的数量和位置信息,并且统计光伏板的数量,将结果整合输出。
在一些实施例中,在所述步骤2中,数据增强处理过程如下:利用图像卷积算子
Figure BDA0003901322200000031
对图像进行锐化处理,将图像卷积算子和图像进行卷积操作,计算过程描述如下:
Figure BDA0003901322200000032
其中a′为0到2的整数,b′为0到2的整数,Kernel(a,b)是输入的图像卷积算子,csr(a,b)是输入的图像,指光伏板图像或光伏板红外热斑图像,对卷积操作后得到的图像进行翻转或大小尺度变换处理,其中对卷积操作后得到的图像进行大小尺度变换处理是将图像的像素值大小变换到240~678之间,之后对翻转或大小尺度变换处理后得到的图像进行多尺度滑动窗口采样操作。
在一些实施例中,在所述步骤3中,利用特征金字塔替换原BETR模型中用于特征提取的ResNet-50网络,特征金字塔负责将图像的特征进行提取,首先通过5个卷积层Conv1~Conv5提取图像特征,之后通过上采样和concat拼接将{Cobv2Conv3,Conv4}分别与FFB块得到的特征进行融合,之后再将{FFB,FFB}与{FFB2,FFB2}块得到的特征进行融合,之后在进行特征融合之前对金字塔层提取到的特征进行适应性特征池化操作,将不同维度的特征统一到同一个维度,之后对上述同一维度的各个特征进行特征融合,最终得到一个D1*H*W1的特征,其中D1表示特征的维度,H和W1分别表示特征的高和宽。
在一些实施例中,在所述步骤3中,对位置编码器进行如下改进,对d1*HW1的特征中每个维度进行不同的标记,用segment embedding∈{1,2,3...N1}标记特征的维度,其中d1*HW1的特征是利用一个1*1的卷积层将高维的特征降低到一个更小的维度d1而得到的,所述高维的特征指的是D1*H*W1的特征;使用position embedding标记同一维度上的各个图像特征的位置编码信息,position embedding公式表示如下:
Figure BDA0003901322200000041
其中,P表示位置编码信息,p表示当前特征在输入中的位置,2i用来表示偶数位置,2i+1表示奇数位置,d表示位置编码信息的特征向量的长度;之后将每个特征的segmentembedding和position embedding进行相加得到该特征的位置标记信息,最终将特征的位置标记信息和该特征的特征值进行相加得到编码器的输入特征。
在一些实施例中,在所述步骤3中,对FFN前馈网络进行的改进如下:使用ReLU6作为激活函数,隐藏维度数设计为d4维,最后通过一个线性投影将特征还原,在映射层使用softmax函数预测目标函数的类别,最后输出分类结果;其中线性投影公式如下:y=xW2+B,其中W2表示参数矩阵,B表示偏置矩阵,x表示输入,y表示输出。
在一些实施例中,在所述步骤4中,利用第一光伏板数据集对改进的BETR模型进行预训练,设置初始学习率为1e-2,设置学习率随着迭代次数的不断增加而减小;当改进的BETR模型收敛后,利用光伏板红外热斑数据集和第二光伏板数据集对预训练后的BETR模型进行正式训练,训练策略是先冻结主干网络,当改进的BETR模型收敛后再解冻主干网络,再次对BETR模型进行训练,对BETR模型的主干网络参数进行微调,得到优化的BETR模型;
其中,在所述步骤4中,训练过程中,BETR模型使用的整体损失函数L如下:
Figure BDA0003901322200000042
其中β,α,K表示三个超参数,Liou表示iou的计算函数,||.||表示范数计算,ai表示第i个预测类框和实际框的交集,aγ(i)表示第i个预测类框和实际框的并集,
Figure BDA0003901322200000051
表示辅助损失函数;
Liou的计算函数表达式为:
Figure BDA0003901322200000052
其中
Figure BDA0003901322200000053
表示面积计算,B(.)表示max/min的计算函数;
利用辅助损失函数
Figure BDA0003901322200000054
帮助transiormer的解码器校正输出结果,其表达式如下:
Figure BDA0003901322200000055
其中n表示二进制目标掩码,
Figure BDA0003901322200000056
表示BETR模型的原始掩码逻辑预测,relu表示激活函数。
在一些实施例中,在所述步骤5中,对光伏板红外热斑的大小进行分类和计数过程如下:用FFN前馈网络预测一组固定大小的E个边界框和E个输入图像框的中心坐标,用集合D表示,D可表示如下:
D={bi=(hi,wi);Oi=(Ox,Oy),i=1,2,3...N3};
其中bi表示第i个边界框,Oi表示第i个输入图像框的中心坐标,(hi,wi)表示第i个边界框的高度和宽度,(Ox,Oy)表示输入图像框在x轴和y轴上的坐标,N3比需要预测的目标对象数量要大得多,此外用一个标签θ表示检测区域内没有检测到任何对象;将检测到的热斑分为大小两类,设定划分热斑大小的阈值,在预测循环内部设置计数器,统计出每个类别光伏板热斑数量。
本申请的该方案的有益效果在于上述基于改进的BETR模型的光伏板红外图像热斑检测方法,其对获得的图像数据进行了数据增强,提高了数据的质量,构建的数据集有利于提高改进的BETR模型的鲁棒性和泛化能力;该方法提出了利用特征金字塔取代原来BETR模型中的ResNet-50对图像的特征进行提取,并对深层和浅层的特征进行了多次信息的融合,改进的BETR模型提高了对于小目标物体的特征的提取能力;该方法提出了对BETR模型原有的位置编码器进行重新设计,对于每一个维度的图像特征都进行了标注,提高BETR模型对于二维图像特征位置的记录能力;该方法还对FFN前馈网络进行了重新设计,增加了隐藏层的数量,提高识别精度,使用了ReLU6激活函数,保障了改进的BETR模型在训练时的收敛速度。改进的BETR模型的训练速度和识别速度更快,对于小目标的物体(例如面积较小的热斑)识别精度高,可以实现对光伏板红外热斑的大小进行分类和数量统计、记录光伏板红外热斑的位置信息,并且能够统计光伏板的数量。
附图说明
图1示出了实施例中基于改进的BETR模型的光伏板红外图像热斑检测方法的流程图。
图2示出了实施例中改进的BETR模型的整体结构图。
图3示出了实施例中使用的特征金字塔结构图。
图4示出了实施例中特征金字塔的部分内部块结构图。
图5示出了实施例中位置编码器的设计示意图。
具体实施方式
下面结合附图对本申请的具体实施方式作进一步的说明。
如图1所示,本申请所涉及的基于改进的BETR模型的光伏板红外图像热斑检测方法包括以下步骤:
步骤1、通过无人机采集光伏板图像以及光伏板红外热斑图像。
步骤2、对光伏板图像以及光伏板红外热斑图像均进行数据增强处理,利用处理后的光伏板图像构建用于预训练的第一光伏板数据集,利用处理后的光伏板红外热斑图像和光伏板图像分别构建用于正式训练的光伏板红外热斑数据集和第二光伏板数据集。
在无人机航拍过程中,难免会出现有些图像拍得不够清晰的情况,因此为了使目标物体数据更清晰,在本步骤中对光伏板图像以及光伏板红外热斑图像均进行了数据增强处理,具体的数据增强处理过程如下:利用图像卷积算子
Figure BDA0003901322200000071
对图像进行锐化处理,将图像卷积算子和图像进行卷积操作,计算过程描述如下:
Figure BDA0003901322200000072
其中a′为0到2的整数,b为0到2的整数,Kernel(a,b)是输入的图像卷积算子,cxsr(a,b)是输入的图像,这里指光伏板图像或光伏板红外热斑图像,为了增加训练样本的数量,提高BETR模型的鲁棒性和泛化能力,对卷积操作后得到的图像进行翻转或大小尺度变换处理,其中对卷积操作后得到的图像进行大小尺度变换处理是将图像的像素值大小变换到240~678之间,之后对翻转或大小尺度变换处理后得到的图像进行多尺度滑动窗口采样操作。
利用处理后的光伏板图像以及光伏板红外热斑图像构建相应数据集的过程如下:使用labeIimg对数据增强处理后的光伏板图像和光伏板红外热斑图像进行标注,生成相应的xml文件,并将其转换成COCO数据集的格式。
步骤3、构建改进的BETR模型:利用特征金字塔代替原BETR模型中特征提取的主干网络;对位置编码器进行改进以增强对二维图像特征位置的记录能力;对FFN前馈网络进行改进以提高改进的BETR模型在训练时的收敛速度。改进的BETR模型能够提高针对小目标物体(例如面积较小的热斑)识别的准确性,如图2所示。
在本步骤中,利用特征金字塔替换原BETR模型中用于特征提取的ResNet-50网络。特征金字塔负责将图像的特征进行提取,如图3~4所示,首先通过5个卷积层Conv1~Conv5提取图像特征,然后通过上采样和concat拼接将{Conv2,Conv3,Conv4}分别与FFB块得到的特征进行融合,之后再将{FFB,FFB}与{FFB2,FFB2}块得到的特征进行融合,减少特征丢失的情况,最后在进行特征融合之前对金字塔层提取到的特征进行适应性特征池化(adaptive feature pooling)操作,将不同维度的特征统一到同一个维度,以方便后续的处理,之后对上述同一维度的各个特征进行特征融合,最终得到一个D1*H*W1的特征,其中D1表示特征的维度,H和W1分别表示特征的高和宽。
在输入transformer的编码器前,利用一个1*1的卷积层将高维的特征降低到一个更小的维度d1,得到d1*HW1的特征,然后将特征展成1维的特征作为编码器输入。将特征展成一维后,特征相对位置丢失,为了提高BETR模型对二维图像特征位置的记录能力,因此对位置编码器进行改进。
具体的,对位置编码器进行如下改进,如图5所示:对d1*HW1的特征中每个维度进行不同的标记,用segment embedding ∈{1,2,3...N1}标记特征的维度,相同维度标记相同的数字;使用position embedding标记同一维度上的各个图像特征的位置编码信息,position embedding公式表示如下:
Figure BDA0003901322200000081
其中,P表示位置编码信息,p表示当前特征在输入中的位置,2i用来表示偶数位置,2i+1表示奇数位置,d表示位置编码信息的特征向量的长度。之后将每个特征的segmentembedding和position embedding进行相加得到该特征的位置标记信息,最终将特征的位置标记信息和该特征的特征值进行相加得到编码器的输入特征。
编码器使用的是transformer的标准架构,由一个多头自注意力模块和FFN前馈网络组成,自注意力的输入可表示为:attn={Xq,Xk,N,M};其中Xq表示长度q的查询序列,Xk是长度为k的键值查询向量,k和通道数d2的大小相同,N表示查询和键的权重张量,M表示投影矩阵。因此多头注意力机制可表示为:M={attn(Xq,Xk,N);attn(Xq,Xk,N)...;attn(Xq,Xk,N)}。
解码器使用多头注意力机制,解码维度为d3,为了加速BETR模型的识别速度,并行解码N2个对象,解码器还输入了对象查询的位置编码信息。
对FFN前馈网络进行改进以提高改进的BETR模型在训练时的收敛速度,具体的改进如下:使用ReLU6作为激活函数,隐藏维度数设计为d4维,最后通过一个线性投影将特征还原,在映射层使用softmax函数预测目标函数的类别,最后输出分类结果;其中线性投影公式如下:y=xW2+B,其中W2表示参数矩阵,B表示偏置矩阵,x表示输入,y表示输出。
步骤4、利用步骤2得到的第一光伏板数据集对改进的BETR模型进行预训练,之后利用迁移学习的思想,利用步骤2得到的光伏板红外热斑数据集和第二光伏板数据集对预训练后的BETR模型进行正式训练,以对参数进行微调,得到优化的BETR模型。
在本步骤中,利用第一光伏板数据集对改进的BETR模型进行预训练,设置初始学习率为1e-2,为了提高收敛速度,设置学习率随着迭代次数的不断增加而减小。当改进的BETR模型收敛后,利用光伏板红外热斑数据集和第二光伏板数据集对预训练后的BETR模型进行正式训练,训练策略是先冻结主干网络,当改进的BETR模型收敛后再解冻主干网络,再次对BETR模型进行训练,对BETR模型的主干网络参数进行微调,得到优化的BETR模型。
在所述步骤4中,训练过程中,BETR模型使用的整体损失函数L如下:
Figure BDA0003901322200000101
其中β,α,K表示三个超参数,Liou表示iou的计算函数,||.||表示范数计算,ai表示第i个预测类框和实际框的交集,aγ(i)表示第i个预测类框和实际框的并集,
Figure BDA0003901322200000102
表示辅助损失函数。
Liou的计算函数表达式为:
Figure BDA0003901322200000103
其中
Figure BDA0003901322200000104
表示面积计算,B(.)表示max/min的计算函数。
利用辅助损失函数
Figure BDA0003901322200000105
帮助transiormer的解码器校正输出结果,其表达式如下:
Figure BDA0003901322200000106
其中n表示二进制目标掩码,
Figure BDA0003901322200000107
表示BETR模型的原始掩码逻辑预测,relu表示激活函数。
步骤5、利用步骤4得到的BETR模型对新采集的光伏板红外热斑图像和光伏板图像进行识别,对识别得到的光伏板红外热斑的大小进行分类,统计每一类的热斑的数量和位置信息,并且统计光伏板的数量,将结果整合输出。
在本步骤中,为了针对大型的热斑进行优先处理,需要对热斑大小进行分类并统计。具体的对光伏板红外热斑的大小进行分类和计数过程如下:用FFN前馈网络预测一组固定大小的E个边界框和E个输入图像框的中心坐标,用集合D表示,D可表示如下:
D={bi=(hi,wi);Oi=(Ox,Oy),i=1,2,3...N3};
其中bi表示第i个边界框,Oi表示第i个输入图像框的中心坐标,(hi,wi)表示第i个边界框的高度和宽度,(Ox,Oy)表示输入图像框在x轴和y轴上的坐标,N3比需要预测的目标对象数量要大得多,此外用一个标签θ表示检测区域内没有检测到任何对象。
将检测到的热斑分为大小两类,设定划分热斑大小的阈值,在预测循环内部设置计数器,统计出每个类别光伏板热斑数量。
本申请所涉及的基于改进的BETR模型的光伏板红外图像热斑检测方法,其对获得的图像数据进行了数据增强,提高了数据的质量,构建的数据集有利于提高改进的BETR模型的鲁棒性和泛化能力;该方法提出了利用特征金字塔取代原来BETR模型中的ResNet-50对图像的特征进行提取,并对深层和浅层的特征进行了多次信息的融合,改进的BETR模型提高了对于小目标物体的特征的提取能力;该方法提出了对BETR模型原有的位置编码器进行重新设计,对于每一个维度的图像特征都进行了标注,提高BETR模型对于二维图像特征位置的记录能力;该方法还对FFN前馈网络进行了重新设计,增加了隐藏层的数量,提高识别精度,使用了ReLU6激活函数,保障了改进的BETR模型在训练时的收敛速度。改进的BETR模型的训练速度和识别速度更快,对于小目标的物体(例如面积较小的热斑)识别精度高,可以实现对光伏板红外热斑的大小进行分类和数量统计、记录光伏板红外热斑的位置信息,并且能够统计光伏板的数量。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,根据本申请的技术方案及其构思加以等同替换或改变,都应涵盖在本申请的保护范围之内。

Claims (7)

1.一种基于改进的BETR模型的光伏板红外图像热斑检测方法,其特征在于:包括以下步骤:
步骤1、通过无人机采集光伏板图像以及光伏板红外热斑图像;
步骤2、对光伏板图像以及光伏板红外热斑图像均进行数据增强处理,利用处理后的光伏板图像构建用于预训练的第一光伏板数据集,利用处理后的光伏板红外热斑图像和光伏板图像分别构建用于正式训练的光伏板红外热斑数据集和第二光伏板数据集;
步骤3、构建改进的BETR模型:利用特征金字塔代替原BETR模型中特征提取的主干网络;对位置编码器进行改进以增强对二维图像特征位置的记录能力;对FFN前馈网络进行改进以提高改进的BETR模型在训练时的收敛速度;
步骤4、利用步骤2得到的第一光伏板数据集对改进的BETR模型进行预训练,之后利用迁移学习的思想,利用步骤2得到的光伏板红外热斑数据集和第二光伏板数据集对预训练后的BETR模型进行正式训练,以对参数进行微调,得到优化的BETR模型;
步骤5、利用步骤4得到的BETR模型对新采集的光伏板红外热斑图像和光伏板图像进行识别,对识别得到的光伏板红外热斑的大小进行分类,统计每一类的热斑的数量和位置信息,并且统计光伏板的数量,将结果整合输出。
2.根据权利要求1所述的基于改进的BETR模型的光伏板红外图像热斑检测方法,其特征在于:在所述步骤2中,数据增强处理过程如下:利用图像卷积算子
Figure FDA0003901322190000011
对图像进行锐化处理,将图像卷积算子和图像进行卷积操作,计算过程描述如下:
Figure FDA0003901322190000021
其中a′为0到2的整数,b′为0到2的整数,Kernel(a,b)是输入的图像卷积算子,csr(a,b)是输入的图像,指光伏板图像或光伏板红外热斑图像,对卷积操作后得到的图像进行翻转或大小尺度变换处理,其中对卷积操作后得到的图像进行大小尺度变换处理是将图像的像素值大小变换到240~678之间,之后对翻转或大小尺度变换处理后得到的图像进行多尺度滑动窗口采样操作。
3.根据权利要求2所述的基于改进的BETR模型的光伏板红外图像热斑检测方法,其特征在于:在所述步骤3中,利用特征金字塔替换原BETR模型中用于特征提取的ResNet-50网络,特征金字塔负责将图像的特征进行提取,首先通过5个卷积层Conv1~Conv5提取图像特征,之后通过上采样和concat拼接将{Conv2,Conv3,Conv4}分别与FFB块得到的特征进行融合,之后再将{FFB,FFB}与{FFB2,FFB2}块得到的特征进行融合,之后在进行特征融合之前对金字塔层提取到的特征进行适应性特征池化操作,将不同维度的特征统一到同一个维度,之后对上述同一维度的各个特征进行特征融合,最终得到一个D1*H*W1的特征,其中D1表示特征的维度,H和W1分别表示特征的高和宽。
4.根据权利要求3所述的基于改进的BETR模型的光伏板红外图像热斑检测方法,其特征在于:在所述步骤3中,对位置编码器进行如下改进,对d1*HW1的特征中每个维度进行不同的标记,用segment embedding∈{1,2,3...N1}标记特征的维度,其中d1*HW1的特征是利用一个1*1的卷积层将高维的特征降低到一个更小的维度d1而得到的,所述高维的特征指的是D1*H*W1的特征;使用position embedding标记同一维度上的各个图像特征的位置编码信息,position embedding公式表示如下:
Figure FDA0003901322190000031
其中,P表示位置编码信息,p表示当前特征在输入中的位置,2i用来表示偶数位置,2i+1表示奇数位置,d表示位置编码信息的特征向量的长度;之后将每个特征的segmentembedding和position embedding进行相加得到该特征的位置标记信息,最终将特征的位置标记信息和该特征的特征值进行相加得到编码器的输入特征。
5.根据权利要求4所述的基于改进的BETR模型的光伏板红外图像热斑检测方法,其特征在于:在所述步骤3中,对FFN前馈网络进行的改进如下:使用ReLU6作为激活函数,隐藏维度数设计为d4维,最后通过一个线性投影将特征还原,在映射层使用softmax函数预测目标函数的类别,最后输出分类结果;其中线性投影公式如下:y=xW2+B,其中W2表示参数矩阵,B表示偏置矩阵,x表示输入,y表示输出。
6.根据权利要求5所述的基于改进的BETR模型的光伏板红外图像热斑检测方法,其特征在于:在所述步骤4中,利用第一光伏板数据集对改进的BETR模型进行预训练,设置初始学习率为1e-2,设置学习率随着迭代次数的不断增加而减小;当改进的BETR模型收敛后,利用光伏板红外热斑数据集和第二光伏板数据集对预训练后的BETR模型进行正式训练,训练策略是先冻结主干网络,当改进的BETR模型收敛后再解冻主干网络,再次对BETR模型进行训练,对BETR模型的主干网络参数进行微调,得到优化的BETR模型;
其中,在所述步骤4中,训练过程中,BETR模型使用的整体损失函数L如下:
Figure FDA0003901322190000032
其中β,α,K表示三个超参数,Liou表示iou的计算函数,||·||表示范数计算,ai表示第i个预测类框和实际框的交集,aγ(i)表示第i个预测类框和实际框的并集,
Figure FDA0003901322190000041
表示辅助损失函数;
Liou的计算函数表达式为:
Figure FDA0003901322190000042
其中
Figure FDA0003901322190000043
表示面积计算,B(.)表示max/min的计算函数;
利用辅助损失函数
Figure FDA0003901322190000044
帮助transformer的解码器校正输出结果,其表达式如下:
Figure FDA0003901322190000045
其中n表示二进制目标掩码,
Figure FDA0003901322190000046
表示BETR模型的原始掩码逻辑预测,relu表示激活函数。
7.根据权利要求6所述的基于改进的BETR模型的光伏板红外图像热斑检测方法,其特征在于:在所述步骤5中,对光伏板红外热斑的大小进行分类和计数过程如下:用FFN前馈网络预测一组固定大小的E个边界框和E个输入图像框的中心坐标,用集合D表示,D可表示如下:
a={bi=(hi,wi);Oi=(Ox,Oy),i=1,2,3...N3};
其中bi表示第i个边界框,Oi表示第i个输入图像框的中心坐标,(hi,wi)表示第i个边界框的高度和宽度,(Ox,Oy)表示输入图像框在x轴和y轴上的坐标,N3比需要预测的目标对象数量要大得多,此外用一个标签θ表示检测区域内没有检测到任何对象;将检测到的热斑分为大小两类,设定划分热斑大小的阈值,在预测循环内部设置计数器,统计出每个类别光伏板热斑数量。
CN202211290886.9A 2022-10-21 2022-10-21 一种基于改进的betr模型的光伏板红外图像热斑检测方法 Pending CN115546670A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211290886.9A CN115546670A (zh) 2022-10-21 2022-10-21 一种基于改进的betr模型的光伏板红外图像热斑检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211290886.9A CN115546670A (zh) 2022-10-21 2022-10-21 一种基于改进的betr模型的光伏板红外图像热斑检测方法

Publications (1)

Publication Number Publication Date
CN115546670A true CN115546670A (zh) 2022-12-30

Family

ID=84735140

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211290886.9A Pending CN115546670A (zh) 2022-10-21 2022-10-21 一种基于改进的betr模型的光伏板红外图像热斑检测方法

Country Status (1)

Country Link
CN (1) CN115546670A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117237590A (zh) * 2023-11-10 2023-12-15 华能新能源股份有限公司山西分公司 基于图像识别的光伏组件热斑识别方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117237590A (zh) * 2023-11-10 2023-12-15 华能新能源股份有限公司山西分公司 基于图像识别的光伏组件热斑识别方法及系统
CN117237590B (zh) * 2023-11-10 2024-04-02 华能新能源股份有限公司山西分公司 基于图像识别的光伏组件热斑识别方法及系统

Similar Documents

Publication Publication Date Title
Sanghi et al. Clip-forge: Towards zero-shot text-to-shape generation
Zhang et al. CrackGAN: Pavement crack detection using partially accurate ground truths based on generative adversarial learning
Engel et al. Point transformer
Zhang et al. Context encoding for semantic segmentation
Shan et al. PTT: Point-track-transformer module for 3D single object tracking in point clouds
Robinson Sketch2code: Generating a website from a paper mockup
Zheng et al. HLU 2-Net: a residual U-structure embedded U-Net with hybrid loss for tire defect inspection
Bany Muhammad et al. Eigen-CAM: Visual explanations for deep convolutional neural networks
Shen et al. Vehicle detection in aerial images based on lightweight deep convolutional network and generative adversarial network
CN110795585A (zh) 基于生成对抗网络的零样本图像分类模型及其方法
An et al. LPViT: a transformer based model for PCB image classification and defect detection
Wei et al. Multimodal (audio, facial and gesture) based emotion recognition challenge
CN115546670A (zh) 一种基于改进的betr模型的光伏板红外图像热斑检测方法
Fan et al. Cadtransformer: Panoptic symbol spotting transformer for cad drawings
Wang et al. Learning fine-grained segmentation of 3d shapes without part labels
Chu et al. Hybrid-learning-based operational visual quality inspection for edge-computing-enabled IoT system
Wu et al. MPCT: Multiscale point cloud transformer with a residual network
CN112733861B (zh) 基于u型残差网络的文本擦除和抠字方法
Qu et al. Learning to segment every referring object point by point
Gu et al. 3-d facial expression recognition via attention-based multichannel data fusion network
Yang et al. Modeling entities as semantic points for visual information extraction in the wild
Liu et al. Robust saliency-aware distillation for few-shot fine-grained visual recognition
Qian et al. Context-aware transformer for 3d point cloud automatic annotation
Zhou et al. DATran: Dual Attention Transformer for Multi-Label Image Classification
Guo et al. Multi-level spatial attention network for image data segmentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination