CN115546670A - 一种基于改进的betr模型的光伏板红外图像热斑检测方法 - Google Patents
一种基于改进的betr模型的光伏板红外图像热斑检测方法 Download PDFInfo
- Publication number
- CN115546670A CN115546670A CN202211290886.9A CN202211290886A CN115546670A CN 115546670 A CN115546670 A CN 115546670A CN 202211290886 A CN202211290886 A CN 202211290886A CN 115546670 A CN115546670 A CN 115546670A
- Authority
- CN
- China
- Prior art keywords
- photovoltaic panel
- image
- model
- betr
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/17—Terrestrial scenes taken from planes or by drones
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0004—Industrial image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10048—Infrared image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30108—Industrial image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30181—Earth observation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Quality & Reliability (AREA)
- Remote Sensing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明提出一种基于改进的BETR模型的光伏板红外图像热斑检测方法,包括步骤1、采集光伏板图像及光伏板红外热斑图像;步骤2、处理上述图像,利用处理后的图像分别构建第一、二光伏板数据集和光伏板红外热斑数据集;步骤3、构建改进的BETR模型;步骤4、利用第一光伏板数据集对改进的BETR模型进行预训练,利用迁移学习的思想用光伏板红外热斑数据集和第二光伏板数据集对预训练后的BETR模型进行正式训练得到优化的BETR模型;步骤5、利用优化的BETR模型对新图像进行识别,对识别得到的光伏板红外热斑的大小进行分类,统计每一类热斑的数量和位置信息,统计光伏板数量,将结果整合输出。上述方法对小目标的物体识别精度高,且能够统计光伏板的数量。
Description
技术领域
本发明涉及光伏板红外图像热斑检测技术领域,尤其涉及一种基于改进的BETR模型的光伏板红外图像热斑检测方法。
背景技术
光伏发电是符合政策需求和市场需求的新能源供电方式,近几年光伏发电发展迅速。然而存在一些用户私自进行光伏增容的行为,这种行为从用户个人的角度来说会使家中电压超过居民用电最高电压,导致电器烧毁、甚至引发火灾等问题。如果用户私自增容,还会给所在区域的电网变压器带来安全隐患,影响整个地区的电网质量。如果光伏板存在异物遮挡,则会导致其短路电流小于组件工作的电流,使得部分光伏板处于反偏状态,消耗能量,因此表现为局部高温状态,产生热斑,极易引发安全事故。因此,定期检查光伏板的数量和状态对光伏板产业的发展具有重要作用。
针对光伏板的状态检测,目前已经存在一些检测方法,例如:公开号为CN114973032A的发明专利申请提出了一种基于深度卷积神经网络的光伏板热斑检测方法及装置,其利用改进的目标检测算法Yolov4构建光伏板识别模型,通过光伏板识别模型识别并截取光伏板红外图像中的光伏板;利用优化的语义分割算法DeepLabV3+构建热斑分割模型,通过热斑分割模型对截取到的光伏板上的热斑进行检测分割;但是该方法对于面积较小的热斑检测效果较差,且无法对光伏板的数量进行统计。公开号为CN114299033A的发明专利申请提出了一种基于YOLOv5的光伏板红外图像热斑检测方法及系统,该方法构建改进YOLOv5模型,使用训练好的改进YOLOv5模型对待检测的光伏组件图像进行检测,在对输出的检测框处理后,输出光伏组件类别信息;但是该方法没有针对面积较小的热斑的识别进行改进,仍存在对于面积较小的热斑检测效果较差的问题。
发明内容
为了解决现有技术中存在的问题,本申请提出了一种基于改进的BETR模型的光伏板红外图像热斑检测方法,改进的BETR模型的训练速度和识别速度更快,对于小目标的物体(例如面积较小的热斑)识别精度高,可以实现对光伏板红外热斑的大小进行分类和数量统计、记录光伏板红外热斑的位置信息,并且能够统计光伏板的数量。
为了实现上述目的,本申请提出了一种基于改进的BETR模型的光伏板红外图像热斑检测方法,包括以下步骤:
步骤1、通过无人机采集光伏板图像以及光伏板红外热斑图像;
步骤2、对光伏板图像以及光伏板红外热斑图像均进行数据增强处理,利用处理后的光伏板图像构建用于预训练的第一光伏板数据集,利用处理后的光伏板红外热斑图像和光伏板图像分别构建用于正式训练的光伏板红外热斑数据集和第二光伏板数据集;
步骤3、构建改进的BETR模型:利用特征金字塔代替原BETR模型中特征提取的主干网络;对位置编码器进行改进以增强对二维图像特征位置的记录能力;对FFN前馈网络进行改进以提高改进的BETR模型在训练时的收敛速度;
步骤4、利用步骤2得到的第一光伏板数据集对改进的BETR模型进行预训练,之后利用迁移学习的思想,利用步骤2得到的光伏板红外热斑数据集和第二光伏板数据集对预训练后的BETR模型进行正式训练,以对参数进行微调,得到优化的BETR模型;
步骤5、利用步骤4得到的BETR模型对新采集的光伏板红外热斑图像和光伏板图像进行识别,对识别得到的光伏板红外热斑的大小进行分类,统计每一类的热斑的数量和位置信息,并且统计光伏板的数量,将结果整合输出。
其中a′为0到2的整数,b′为0到2的整数,Kernel(a,b)是输入的图像卷积算子,csr(a,b)是输入的图像,指光伏板图像或光伏板红外热斑图像,对卷积操作后得到的图像进行翻转或大小尺度变换处理,其中对卷积操作后得到的图像进行大小尺度变换处理是将图像的像素值大小变换到240~678之间,之后对翻转或大小尺度变换处理后得到的图像进行多尺度滑动窗口采样操作。
在一些实施例中,在所述步骤3中,利用特征金字塔替换原BETR模型中用于特征提取的ResNet-50网络,特征金字塔负责将图像的特征进行提取,首先通过5个卷积层Conv1~Conv5提取图像特征,之后通过上采样和concat拼接将{Cobv2Conv3,Conv4}分别与FFB块得到的特征进行融合,之后再将{FFB,FFB}与{FFB2,FFB2}块得到的特征进行融合,之后在进行特征融合之前对金字塔层提取到的特征进行适应性特征池化操作,将不同维度的特征统一到同一个维度,之后对上述同一维度的各个特征进行特征融合,最终得到一个D1*H*W1的特征,其中D1表示特征的维度,H和W1分别表示特征的高和宽。
在一些实施例中,在所述步骤3中,对位置编码器进行如下改进,对d1*HW1的特征中每个维度进行不同的标记,用segment embedding∈{1,2,3...N1}标记特征的维度,其中d1*HW1的特征是利用一个1*1的卷积层将高维的特征降低到一个更小的维度d1而得到的,所述高维的特征指的是D1*H*W1的特征;使用position embedding标记同一维度上的各个图像特征的位置编码信息,position embedding公式表示如下:
其中,P表示位置编码信息,p表示当前特征在输入中的位置,2i用来表示偶数位置,2i+1表示奇数位置,d表示位置编码信息的特征向量的长度;之后将每个特征的segmentembedding和position embedding进行相加得到该特征的位置标记信息,最终将特征的位置标记信息和该特征的特征值进行相加得到编码器的输入特征。
在一些实施例中,在所述步骤3中,对FFN前馈网络进行的改进如下:使用ReLU6作为激活函数,隐藏维度数设计为d4维,最后通过一个线性投影将特征还原,在映射层使用softmax函数预测目标函数的类别,最后输出分类结果;其中线性投影公式如下:y=xW2+B,其中W2表示参数矩阵,B表示偏置矩阵,x表示输入,y表示输出。
在一些实施例中,在所述步骤4中,利用第一光伏板数据集对改进的BETR模型进行预训练,设置初始学习率为1e-2,设置学习率随着迭代次数的不断增加而减小;当改进的BETR模型收敛后,利用光伏板红外热斑数据集和第二光伏板数据集对预训练后的BETR模型进行正式训练,训练策略是先冻结主干网络,当改进的BETR模型收敛后再解冻主干网络,再次对BETR模型进行训练,对BETR模型的主干网络参数进行微调,得到优化的BETR模型;
其中,在所述步骤4中,训练过程中,BETR模型使用的整体损失函数L如下:
Liou的计算函数表达式为:
在一些实施例中,在所述步骤5中,对光伏板红外热斑的大小进行分类和计数过程如下:用FFN前馈网络预测一组固定大小的E个边界框和E个输入图像框的中心坐标,用集合D表示,D可表示如下:
D={bi=(hi,wi);Oi=(Ox,Oy),i=1,2,3...N3};
其中bi表示第i个边界框,Oi表示第i个输入图像框的中心坐标,(hi,wi)表示第i个边界框的高度和宽度,(Ox,Oy)表示输入图像框在x轴和y轴上的坐标,N3比需要预测的目标对象数量要大得多,此外用一个标签θ表示检测区域内没有检测到任何对象;将检测到的热斑分为大小两类,设定划分热斑大小的阈值,在预测循环内部设置计数器,统计出每个类别光伏板热斑数量。
本申请的该方案的有益效果在于上述基于改进的BETR模型的光伏板红外图像热斑检测方法,其对获得的图像数据进行了数据增强,提高了数据的质量,构建的数据集有利于提高改进的BETR模型的鲁棒性和泛化能力;该方法提出了利用特征金字塔取代原来BETR模型中的ResNet-50对图像的特征进行提取,并对深层和浅层的特征进行了多次信息的融合,改进的BETR模型提高了对于小目标物体的特征的提取能力;该方法提出了对BETR模型原有的位置编码器进行重新设计,对于每一个维度的图像特征都进行了标注,提高BETR模型对于二维图像特征位置的记录能力;该方法还对FFN前馈网络进行了重新设计,增加了隐藏层的数量,提高识别精度,使用了ReLU6激活函数,保障了改进的BETR模型在训练时的收敛速度。改进的BETR模型的训练速度和识别速度更快,对于小目标的物体(例如面积较小的热斑)识别精度高,可以实现对光伏板红外热斑的大小进行分类和数量统计、记录光伏板红外热斑的位置信息,并且能够统计光伏板的数量。
附图说明
图1示出了实施例中基于改进的BETR模型的光伏板红外图像热斑检测方法的流程图。
图2示出了实施例中改进的BETR模型的整体结构图。
图3示出了实施例中使用的特征金字塔结构图。
图4示出了实施例中特征金字塔的部分内部块结构图。
图5示出了实施例中位置编码器的设计示意图。
具体实施方式
下面结合附图对本申请的具体实施方式作进一步的说明。
如图1所示,本申请所涉及的基于改进的BETR模型的光伏板红外图像热斑检测方法包括以下步骤:
步骤1、通过无人机采集光伏板图像以及光伏板红外热斑图像。
步骤2、对光伏板图像以及光伏板红外热斑图像均进行数据增强处理,利用处理后的光伏板图像构建用于预训练的第一光伏板数据集,利用处理后的光伏板红外热斑图像和光伏板图像分别构建用于正式训练的光伏板红外热斑数据集和第二光伏板数据集。
在无人机航拍过程中,难免会出现有些图像拍得不够清晰的情况,因此为了使目标物体数据更清晰,在本步骤中对光伏板图像以及光伏板红外热斑图像均进行了数据增强处理,具体的数据增强处理过程如下:利用图像卷积算子对图像进行锐化处理,将图像卷积算子和图像进行卷积操作,计算过程描述如下:
其中a′为0到2的整数,b为0到2的整数,Kernel(a,b)是输入的图像卷积算子,cxsr(a,b)是输入的图像,这里指光伏板图像或光伏板红外热斑图像,为了增加训练样本的数量,提高BETR模型的鲁棒性和泛化能力,对卷积操作后得到的图像进行翻转或大小尺度变换处理,其中对卷积操作后得到的图像进行大小尺度变换处理是将图像的像素值大小变换到240~678之间,之后对翻转或大小尺度变换处理后得到的图像进行多尺度滑动窗口采样操作。
利用处理后的光伏板图像以及光伏板红外热斑图像构建相应数据集的过程如下:使用labeIimg对数据增强处理后的光伏板图像和光伏板红外热斑图像进行标注,生成相应的xml文件,并将其转换成COCO数据集的格式。
步骤3、构建改进的BETR模型:利用特征金字塔代替原BETR模型中特征提取的主干网络;对位置编码器进行改进以增强对二维图像特征位置的记录能力;对FFN前馈网络进行改进以提高改进的BETR模型在训练时的收敛速度。改进的BETR模型能够提高针对小目标物体(例如面积较小的热斑)识别的准确性,如图2所示。
在本步骤中,利用特征金字塔替换原BETR模型中用于特征提取的ResNet-50网络。特征金字塔负责将图像的特征进行提取,如图3~4所示,首先通过5个卷积层Conv1~Conv5提取图像特征,然后通过上采样和concat拼接将{Conv2,Conv3,Conv4}分别与FFB块得到的特征进行融合,之后再将{FFB,FFB}与{FFB2,FFB2}块得到的特征进行融合,减少特征丢失的情况,最后在进行特征融合之前对金字塔层提取到的特征进行适应性特征池化(adaptive feature pooling)操作,将不同维度的特征统一到同一个维度,以方便后续的处理,之后对上述同一维度的各个特征进行特征融合,最终得到一个D1*H*W1的特征,其中D1表示特征的维度,H和W1分别表示特征的高和宽。
在输入transformer的编码器前,利用一个1*1的卷积层将高维的特征降低到一个更小的维度d1,得到d1*HW1的特征,然后将特征展成1维的特征作为编码器输入。将特征展成一维后,特征相对位置丢失,为了提高BETR模型对二维图像特征位置的记录能力,因此对位置编码器进行改进。
具体的,对位置编码器进行如下改进,如图5所示:对d1*HW1的特征中每个维度进行不同的标记,用segment embedding ∈{1,2,3...N1}标记特征的维度,相同维度标记相同的数字;使用position embedding标记同一维度上的各个图像特征的位置编码信息,position embedding公式表示如下:
其中,P表示位置编码信息,p表示当前特征在输入中的位置,2i用来表示偶数位置,2i+1表示奇数位置,d表示位置编码信息的特征向量的长度。之后将每个特征的segmentembedding和position embedding进行相加得到该特征的位置标记信息,最终将特征的位置标记信息和该特征的特征值进行相加得到编码器的输入特征。
编码器使用的是transformer的标准架构,由一个多头自注意力模块和FFN前馈网络组成,自注意力的输入可表示为:attn={Xq,Xk,N,M};其中Xq表示长度q的查询序列,Xk是长度为k的键值查询向量,k和通道数d2的大小相同,N表示查询和键的权重张量,M表示投影矩阵。因此多头注意力机制可表示为:M={attn(Xq,Xk,N);attn(Xq,Xk,N)...;attn(Xq,Xk,N)}。
解码器使用多头注意力机制,解码维度为d3,为了加速BETR模型的识别速度,并行解码N2个对象,解码器还输入了对象查询的位置编码信息。
对FFN前馈网络进行改进以提高改进的BETR模型在训练时的收敛速度,具体的改进如下:使用ReLU6作为激活函数,隐藏维度数设计为d4维,最后通过一个线性投影将特征还原,在映射层使用softmax函数预测目标函数的类别,最后输出分类结果;其中线性投影公式如下:y=xW2+B,其中W2表示参数矩阵,B表示偏置矩阵,x表示输入,y表示输出。
步骤4、利用步骤2得到的第一光伏板数据集对改进的BETR模型进行预训练,之后利用迁移学习的思想,利用步骤2得到的光伏板红外热斑数据集和第二光伏板数据集对预训练后的BETR模型进行正式训练,以对参数进行微调,得到优化的BETR模型。
在本步骤中,利用第一光伏板数据集对改进的BETR模型进行预训练,设置初始学习率为1e-2,为了提高收敛速度,设置学习率随着迭代次数的不断增加而减小。当改进的BETR模型收敛后,利用光伏板红外热斑数据集和第二光伏板数据集对预训练后的BETR模型进行正式训练,训练策略是先冻结主干网络,当改进的BETR模型收敛后再解冻主干网络,再次对BETR模型进行训练,对BETR模型的主干网络参数进行微调,得到优化的BETR模型。
在所述步骤4中,训练过程中,BETR模型使用的整体损失函数L如下:
Liou的计算函数表达式为:
步骤5、利用步骤4得到的BETR模型对新采集的光伏板红外热斑图像和光伏板图像进行识别,对识别得到的光伏板红外热斑的大小进行分类,统计每一类的热斑的数量和位置信息,并且统计光伏板的数量,将结果整合输出。
在本步骤中,为了针对大型的热斑进行优先处理,需要对热斑大小进行分类并统计。具体的对光伏板红外热斑的大小进行分类和计数过程如下:用FFN前馈网络预测一组固定大小的E个边界框和E个输入图像框的中心坐标,用集合D表示,D可表示如下:
D={bi=(hi,wi);Oi=(Ox,Oy),i=1,2,3...N3};
其中bi表示第i个边界框,Oi表示第i个输入图像框的中心坐标,(hi,wi)表示第i个边界框的高度和宽度,(Ox,Oy)表示输入图像框在x轴和y轴上的坐标,N3比需要预测的目标对象数量要大得多,此外用一个标签θ表示检测区域内没有检测到任何对象。
将检测到的热斑分为大小两类,设定划分热斑大小的阈值,在预测循环内部设置计数器,统计出每个类别光伏板热斑数量。
本申请所涉及的基于改进的BETR模型的光伏板红外图像热斑检测方法,其对获得的图像数据进行了数据增强,提高了数据的质量,构建的数据集有利于提高改进的BETR模型的鲁棒性和泛化能力;该方法提出了利用特征金字塔取代原来BETR模型中的ResNet-50对图像的特征进行提取,并对深层和浅层的特征进行了多次信息的融合,改进的BETR模型提高了对于小目标物体的特征的提取能力;该方法提出了对BETR模型原有的位置编码器进行重新设计,对于每一个维度的图像特征都进行了标注,提高BETR模型对于二维图像特征位置的记录能力;该方法还对FFN前馈网络进行了重新设计,增加了隐藏层的数量,提高识别精度,使用了ReLU6激活函数,保障了改进的BETR模型在训练时的收敛速度。改进的BETR模型的训练速度和识别速度更快,对于小目标的物体(例如面积较小的热斑)识别精度高,可以实现对光伏板红外热斑的大小进行分类和数量统计、记录光伏板红外热斑的位置信息,并且能够统计光伏板的数量。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,根据本申请的技术方案及其构思加以等同替换或改变,都应涵盖在本申请的保护范围之内。
Claims (7)
1.一种基于改进的BETR模型的光伏板红外图像热斑检测方法,其特征在于:包括以下步骤:
步骤1、通过无人机采集光伏板图像以及光伏板红外热斑图像;
步骤2、对光伏板图像以及光伏板红外热斑图像均进行数据增强处理,利用处理后的光伏板图像构建用于预训练的第一光伏板数据集,利用处理后的光伏板红外热斑图像和光伏板图像分别构建用于正式训练的光伏板红外热斑数据集和第二光伏板数据集;
步骤3、构建改进的BETR模型:利用特征金字塔代替原BETR模型中特征提取的主干网络;对位置编码器进行改进以增强对二维图像特征位置的记录能力;对FFN前馈网络进行改进以提高改进的BETR模型在训练时的收敛速度;
步骤4、利用步骤2得到的第一光伏板数据集对改进的BETR模型进行预训练,之后利用迁移学习的思想,利用步骤2得到的光伏板红外热斑数据集和第二光伏板数据集对预训练后的BETR模型进行正式训练,以对参数进行微调,得到优化的BETR模型;
步骤5、利用步骤4得到的BETR模型对新采集的光伏板红外热斑图像和光伏板图像进行识别,对识别得到的光伏板红外热斑的大小进行分类,统计每一类的热斑的数量和位置信息,并且统计光伏板的数量,将结果整合输出。
3.根据权利要求2所述的基于改进的BETR模型的光伏板红外图像热斑检测方法,其特征在于:在所述步骤3中,利用特征金字塔替换原BETR模型中用于特征提取的ResNet-50网络,特征金字塔负责将图像的特征进行提取,首先通过5个卷积层Conv1~Conv5提取图像特征,之后通过上采样和concat拼接将{Conv2,Conv3,Conv4}分别与FFB块得到的特征进行融合,之后再将{FFB,FFB}与{FFB2,FFB2}块得到的特征进行融合,之后在进行特征融合之前对金字塔层提取到的特征进行适应性特征池化操作,将不同维度的特征统一到同一个维度,之后对上述同一维度的各个特征进行特征融合,最终得到一个D1*H*W1的特征,其中D1表示特征的维度,H和W1分别表示特征的高和宽。
4.根据权利要求3所述的基于改进的BETR模型的光伏板红外图像热斑检测方法,其特征在于:在所述步骤3中,对位置编码器进行如下改进,对d1*HW1的特征中每个维度进行不同的标记,用segment embedding∈{1,2,3...N1}标记特征的维度,其中d1*HW1的特征是利用一个1*1的卷积层将高维的特征降低到一个更小的维度d1而得到的,所述高维的特征指的是D1*H*W1的特征;使用position embedding标记同一维度上的各个图像特征的位置编码信息,position embedding公式表示如下:
其中,P表示位置编码信息,p表示当前特征在输入中的位置,2i用来表示偶数位置,2i+1表示奇数位置,d表示位置编码信息的特征向量的长度;之后将每个特征的segmentembedding和position embedding进行相加得到该特征的位置标记信息,最终将特征的位置标记信息和该特征的特征值进行相加得到编码器的输入特征。
5.根据权利要求4所述的基于改进的BETR模型的光伏板红外图像热斑检测方法,其特征在于:在所述步骤3中,对FFN前馈网络进行的改进如下:使用ReLU6作为激活函数,隐藏维度数设计为d4维,最后通过一个线性投影将特征还原,在映射层使用softmax函数预测目标函数的类别,最后输出分类结果;其中线性投影公式如下:y=xW2+B,其中W2表示参数矩阵,B表示偏置矩阵,x表示输入,y表示输出。
6.根据权利要求5所述的基于改进的BETR模型的光伏板红外图像热斑检测方法,其特征在于:在所述步骤4中,利用第一光伏板数据集对改进的BETR模型进行预训练,设置初始学习率为1e-2,设置学习率随着迭代次数的不断增加而减小;当改进的BETR模型收敛后,利用光伏板红外热斑数据集和第二光伏板数据集对预训练后的BETR模型进行正式训练,训练策略是先冻结主干网络,当改进的BETR模型收敛后再解冻主干网络,再次对BETR模型进行训练,对BETR模型的主干网络参数进行微调,得到优化的BETR模型;
其中,在所述步骤4中,训练过程中,BETR模型使用的整体损失函数L如下:
Liou的计算函数表达式为:
7.根据权利要求6所述的基于改进的BETR模型的光伏板红外图像热斑检测方法,其特征在于:在所述步骤5中,对光伏板红外热斑的大小进行分类和计数过程如下:用FFN前馈网络预测一组固定大小的E个边界框和E个输入图像框的中心坐标,用集合D表示,D可表示如下:
a={bi=(hi,wi);Oi=(Ox,Oy),i=1,2,3...N3};
其中bi表示第i个边界框,Oi表示第i个输入图像框的中心坐标,(hi,wi)表示第i个边界框的高度和宽度,(Ox,Oy)表示输入图像框在x轴和y轴上的坐标,N3比需要预测的目标对象数量要大得多,此外用一个标签θ表示检测区域内没有检测到任何对象;将检测到的热斑分为大小两类,设定划分热斑大小的阈值,在预测循环内部设置计数器,统计出每个类别光伏板热斑数量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211290886.9A CN115546670A (zh) | 2022-10-21 | 2022-10-21 | 一种基于改进的betr模型的光伏板红外图像热斑检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211290886.9A CN115546670A (zh) | 2022-10-21 | 2022-10-21 | 一种基于改进的betr模型的光伏板红外图像热斑检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115546670A true CN115546670A (zh) | 2022-12-30 |
Family
ID=84735140
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211290886.9A Pending CN115546670A (zh) | 2022-10-21 | 2022-10-21 | 一种基于改进的betr模型的光伏板红外图像热斑检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115546670A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117237590A (zh) * | 2023-11-10 | 2023-12-15 | 华能新能源股份有限公司山西分公司 | 基于图像识别的光伏组件热斑识别方法及系统 |
-
2022
- 2022-10-21 CN CN202211290886.9A patent/CN115546670A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117237590A (zh) * | 2023-11-10 | 2023-12-15 | 华能新能源股份有限公司山西分公司 | 基于图像识别的光伏组件热斑识别方法及系统 |
CN117237590B (zh) * | 2023-11-10 | 2024-04-02 | 华能新能源股份有限公司山西分公司 | 基于图像识别的光伏组件热斑识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sanghi et al. | Clip-forge: Towards zero-shot text-to-shape generation | |
Zhang et al. | CrackGAN: Pavement crack detection using partially accurate ground truths based on generative adversarial learning | |
Engel et al. | Point transformer | |
Zhang et al. | Context encoding for semantic segmentation | |
Shan et al. | PTT: Point-track-transformer module for 3D single object tracking in point clouds | |
Robinson | Sketch2code: Generating a website from a paper mockup | |
Zheng et al. | HLU 2-Net: a residual U-structure embedded U-Net with hybrid loss for tire defect inspection | |
Bany Muhammad et al. | Eigen-CAM: Visual explanations for deep convolutional neural networks | |
Shen et al. | Vehicle detection in aerial images based on lightweight deep convolutional network and generative adversarial network | |
CN110795585A (zh) | 基于生成对抗网络的零样本图像分类模型及其方法 | |
An et al. | LPViT: a transformer based model for PCB image classification and defect detection | |
Wei et al. | Multimodal (audio, facial and gesture) based emotion recognition challenge | |
CN115546670A (zh) | 一种基于改进的betr模型的光伏板红外图像热斑检测方法 | |
Fan et al. | Cadtransformer: Panoptic symbol spotting transformer for cad drawings | |
Wang et al. | Learning fine-grained segmentation of 3d shapes without part labels | |
Chu et al. | Hybrid-learning-based operational visual quality inspection for edge-computing-enabled IoT system | |
Wu et al. | MPCT: Multiscale point cloud transformer with a residual network | |
CN112733861B (zh) | 基于u型残差网络的文本擦除和抠字方法 | |
Qu et al. | Learning to segment every referring object point by point | |
Gu et al. | 3-d facial expression recognition via attention-based multichannel data fusion network | |
Yang et al. | Modeling entities as semantic points for visual information extraction in the wild | |
Liu et al. | Robust saliency-aware distillation for few-shot fine-grained visual recognition | |
Qian et al. | Context-aware transformer for 3d point cloud automatic annotation | |
Zhou et al. | DATran: Dual Attention Transformer for Multi-Label Image Classification | |
Guo et al. | Multi-level spatial attention network for image data segmentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |