CN117576461A - 一种用于变电站场景的语义理解方法、介质及系统 - Google Patents
一种用于变电站场景的语义理解方法、介质及系统 Download PDFInfo
- Publication number
- CN117576461A CN117576461A CN202311540483.XA CN202311540483A CN117576461A CN 117576461 A CN117576461 A CN 117576461A CN 202311540483 A CN202311540483 A CN 202311540483A CN 117576461 A CN117576461 A CN 117576461A
- Authority
- CN
- China
- Prior art keywords
- visible light
- block
- feature
- light image
- substation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 230000004927 fusion Effects 0.000 claims abstract description 33
- 238000001228 spectrum Methods 0.000 claims abstract description 25
- 230000006870 function Effects 0.000 claims abstract description 15
- 230000003044 adaptive effect Effects 0.000 claims abstract description 6
- 230000013016 learning Effects 0.000 claims abstract description 4
- 238000011176 pooling Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 47
- 239000011159 matrix material Substances 0.000 claims description 16
- 230000003595 spectral effect Effects 0.000 claims description 16
- 238000013519 translation Methods 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 230000014509 gene expression Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 claims description 2
- 238000012549 training Methods 0.000 claims description 2
- 230000031836 visual learning Effects 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 abstract description 9
- 239000010410 layer Substances 0.000 description 33
- 238000010586 diagram Methods 0.000 description 5
- 238000007689 inspection Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 229910000838 Al alloy Inorganic materials 0.000 description 1
- 239000000956 alloy Substances 0.000 description 1
- 230000003064 anti-oxidating effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000002355 dual-layer Substances 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/80—Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
- G06T7/85—Stereo camera calibration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/58—Extraction of image or video features relating to hyperspectral data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Image Processing (AREA)
Abstract
本发明公开一种用于变电站场景的语义理解方法、介质及系统,包括:将同步采集的变电站的可见光图像的像素点和激光雷达点云数据对齐;将所述变电站的激光雷达点云数据的深度值作为颜色值赋予对齐的所述变电站的可见光图像的像素点,得到稀疏深度图像;基于增强局部自注意力方法获得所述变电站的可见光图像的光谱特征块;基于自适应空间学习方法获得所述可见光图像和所述稀疏深度图像的融合空间特征块;对所述光谱特征块和所述融合空间特征块进行融合,获得融合特征;将所述融合特征依次通过全局池化层和全连接层后,采用Softmax函数判断所述融合特征的类别。本发明提高了对变电站设备语义分割的精度。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种用于变电站场景的语义理解方法、介质及系统。
背景技术
变电站的安全和可靠运行对供电系统的稳定性至关重要。定期的巡检和维护是确保变电站设备在良好状态下运行的关键环节。传统的变电站巡检方法主要依赖于人工视觉和手动测量,这种方法不仅费时费力,还存在潜在的危险。因此,寻求一种更高效、安全且可靠的巡检方法变得尤为迫切。
目前,可见光相机和激光雷达被广泛应用于图像和深度信息的获取。可见光相机能够捕捉高分辨率的可见光图像,但在低光、雨雾等恶劣条件下表现不佳。激光雷达则可以获得高精度的深度信息,但对物体的外观和纹理了解有限。此外,传统的深度信息和可见光图像融合方法通常仅在感知层面进行融合,缺乏对融合后数据的语义理解和分析。因此,需要一种更为综合的方法来结合可见光图像和激光雷达数据,增加对变电站设备的语义理解,实现更高效的变电站设备语义分割。
发明内容
本发明实施例提供一种用于变电站场景的语义理解方法、介质及系统,以解决现有技术的深度信息和可见光图像融合方法通常仅在感知层面进行融合,缺乏对融合后数据的语义理解和分析的问题。
第一方面,提供一种用于变电站场景的语义理解方法,包括:
将同步采集的变电站的可见光图像的像素点和激光雷达点云数据对齐;
将所述变电站的激光雷达点云数据的深度值作为颜色值赋予对齐的所述变电站的可见光图像的像素点,得到稀疏深度图像;
基于增强局部自注意力方法获得所述变电站的可见光图像的光谱特征块;
基于自适应空间学习方法获得所述可见光图像和所述稀疏深度图像的融合空间特征块;
对所述光谱特征块和所述融合空间特征块进行融合,获得融合特征;
将所述融合特征依次通过全局池化层和全连接层后,采用Softmax函数判断所述融合特征的类别。
第二方面,提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序指令;所述计算机程序指令被处理器执行时实现如第一方面实施例所述的用于变电站场景的语义理解方法。
第三方面,提供一种用于变电站场景的语义理解系统,包括:如第二方面实施例所述的计算机可读存储介质。
这样,本发明实施例,增强了设备分割边缘的特征,能够有效的抑制边缘信息的干扰,充分实现光谱信息与空间信息的利用,增强光谱与空间之间的信息交互,提高了对变电站设备语义分割的精度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的用于变电站场景的语义理解方法的流程图;
图2是本发明实施例的用于变电站场景的语义理解方法的网络结构的示意图;
图3是本发明实施例的基于增强局部自注意力方法获得变电站的可见光图像的光谱特征块的示意图;
图4是本发明实施例的基于自适应空间学习方法获得可见光图像和稀疏深度图像的融合空间特征块的示意图;
图5是本发明实施例的双层的多层感知机的Transformer模块的示意图;
图6是本发明实施例的对光谱特征和融合空间特征进行融合的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获取的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种用于变电站场景的语义理解方法。如图1所示,本发明实施例的方法具体包括如下的步骤:
步骤S101:将同步采集的变电站的可见光图像的像素点和激光雷达点云数据对齐。
一般的,可将激光雷达置于可见光相机上方,激光雷达向下倾斜一定角度,二者在竖直方向上保持中线一致,以扩大两者的采集视野的重叠面积。
具体的,该步骤包括如下的过程:
步骤一、采集黑白棋盘格标定板的多张可见光图像和多个激光雷达点云数据。
具体的,为提高可见光相机和激光雷达的标定精度,该黑白棋盘格标定板采用了抗氧化铝合金材质定制,在黑白棋盘格标定板的基础上增加了圆形通孔,以便能够被可见光相机和激光雷达所检测到。
通过设计本发明实施例的标定板,用于联合标定激光雷达和可见光相机,能够提高两个传感器之间外参的标定精度。
步骤二、采用多张黑白棋盘格标定板的可见光图像校准可见光相机,获得可见光相机的内参、外参和畸变参数。
具体的,该步骤包括如下的过程:
1、采用opencv的棋盘格角点检测方法检测黑白棋盘格标定板的可见光图像,得到黑白棋盘格标定板的角点信息。
棋盘格角点检测方法为现有技术,在此不再赘述。
2、采用角点信息校准可见光相机,获得可见光相机的内参、外参和畸变参数。
采用角点信息校准可见光相机为现有技术,在此不再赘述。畸变参数包括三个径向畸变参数和两个切向畸变参数,用于后续的相机畸变模型。
步骤三、将黑白棋盘格标定板的每一激光雷达点云数据在雷达坐标系中分割出四个标定目标,并计算每一标定目标的中心点的三维坐标。
具体的,该步骤包括如下的过程:
1、将去噪后的黑白棋盘格标定板的激光雷达点云数据,通过带有方向约束的RANSAC方法进行平面拟合,得到标定目标。
本发明实施例的标定目标为圆形通孔。
去噪处理为惯用技术手段,可设置阈值,将大于阈值的激光雷达点云数据删除。
带有方向约束的RANSAC方法进行平面拟合为现有技术,在此不再赘述。
本发明实施例中,标定板的一张可见光图像可得到四个标定目标。
2、采用网络搜索方法在雷达坐标系中搜索标定目标和预先生成的点云掩膜的最佳匹配。
网络搜索方法为现有技术,在此不再赘述。
3、当标定目标中落入的激光雷达点云数目最少时,完成最佳匹配,得到旋转角度为yaw的旋转矩阵和相对黑白棋盘格标定板的平移量为(x,y)的平移矩阵。
具体的,最佳匹配的表达式为:
Ryaw,Tx,y=argminyaw,x,y∑(Ryaw(Smask+Tx,y)∩S1)。
其中,Ryaw为旋转角度为yaw的旋转矩阵,Tx,y为相对黑白棋盘格标定板的平移量为(x,y)的平移矩阵,Smask为点云掩膜,S1为标定目标。
4、根据旋转角度为yaw的旋转矩阵和相对标定板的平移量为(x,y)的平移矩阵,计算黑白棋盘格标定板的激光雷达点云数据在雷达坐标系中分割出的标定目标的中心点的三维坐标。
该计算为现有技术,在此不再赘述。
步骤四、基于相机的内参和外参,将多个标定目标的中心点的三维坐标投影到相机平面上,得到多个标定目标的中心点的二维坐标,形成包含多个三维坐标-二维坐标对的集合。
具体的,三维坐标投影到相机平面上的表达式为:
其中,为一标定目标的中心点的二维坐标,/>为一标定目标中心点的三维坐标,K为可见光相机的内参,R为可见光相机的外参的旋转矩阵,T为可见光相机的外参的平移矩阵,j=1,2,3,4。
步骤五、根据多个三维坐标-二维坐标对,最小化目标函数,求解得到激光雷达到可见光相机的外参。
具体的,目标函数E如下:
其中,RLC、TLC为激光雷达到可见光相机的外参,D(·)为由畸变参数构建的相机畸变模型(其包括径向畸变和切向畸变),为三维坐标,/>为二维坐标,POINTS为包含多个三维坐标-二维坐标对的集合。相机畸变模型是公知的,在此不再赘述。
步骤六、根据激光雷达到可见光相机的外参和变电站的激光雷达点云数据的三维坐标,计算得到变电站的激光雷达点云数据对应的变电站的可见光图像的像素点的二维坐标。
具体的,对应的变电站的可见光图像的像素点的二维坐标的计算式如下:
其中,XL、YL为变电站的激光雷达点云数据的三维坐标,xc、yc为变电站的可见光图像的二维坐标。
步骤S102:将变电站的激光雷达点云数据的深度值作为颜色值赋予对齐的变电站的可见光图像的像素点,得到稀疏深度图像。
步骤S103:基于增强局部自注意力方法获得变电站的可见光图像的光谱特征块。
具体的,该步骤包括如下的过程:
步骤一、对于变电站的可见光图像,以一像素点为中心向四周扩展像素,将可见光图像划分为多个正方形的可见光图像块。
可见光图像记为可见光图像的尺寸为M×N为,3代表RGB三通道。划分得到正方形的可见光图像块记为/>即每一可见光图像块为RGB三通道,尺寸为p×p。
步骤二、将变电站的可见光图像块输入第一浅层特征提取器,提取可见光图像块的浅层特征,输出可见光图像块的第一浅层特征块。
具体的,第一浅层特征提取器包括依次连接的三个卷积层,三个卷积层依次包括16、32和64个滤波器。
第一浅层特征块记为Frgb,大小为p×p×64。
步骤三、将变电站的可见光图像块输入具有64个滤波器的卷积层处理后,输出特征图像块。
特征图像块记为Xrgb-c,通过卷积运算,将Xrgb-p变为Xrgb-c,大小为p×p×64。
步骤四、将特征图像块依次进行层正则化处理与增强局部光谱自注意力方法处理,得到局部光谱特征块。
层正则化处理和增强局部光谱自注意力方法处理均为现有技术,在此不再赘述。
步骤五、通过残差结构将局部光谱特征块与特征图像块相加,再经过多层感知机后,通过层正则化处理,得到光谱级特征权重。
残差结构,以及,多层感知机,均为现有技术,在此不再赘述。
综上,步骤四到步骤五可用如下的表达式表示:
其中,Norm(·)为正则化方法,MLP(·)为多层感知机,ELSA(·)为增强局部光谱自注意力方法,为可见光图像的光谱特征。
步骤六、将光谱级特征权重乘以可见光图像块的第一浅层特征块,得到光谱特征块。
光谱特征块记为Fspe,具体的,步骤六可用如下的表达式表示:
步骤S104:基于自适应空间学习方法获得可见光图像和稀疏深度图像的融合空间特征块。
具体的,该步骤包括如下的过程:
步骤一、对于稀疏深度图像,以一像素点为中心向四周扩展像素,将稀疏深度图像划分为多个正方形的稀疏深度图像块。
稀疏深度图像记为1代表深度通道。稀疏深度图像块记为
步骤二、将可见光图像块和稀疏深度图像块分别输入第二浅层特征提取器,分别提取可见光图像块的第二浅层特征块和稀疏深度图像块的第一浅层特征块。
其中,第二浅层特征提取器包括依次连接的两个卷积层,两个卷积层依次包括32和64个滤波器。
通过该步骤处理,联合从可见光图像和深度图像中提取空间信息,获得两种浅层空间特征,可见光图像块的第二浅层特征块记为稀疏深度图像块的第一浅层特征块记为/>d×d是块尺寸。
步骤三、将稀疏深度图像块的第一浅层特征块输入双层的多层感知机的Transformer模块后,输出稀疏深度图像块的第二浅层特征块。
具体的,双层的多层感知机的Transformer模块包括依次设置的残差结构模块、层正则化模块和多层感知机。
步骤四、将可见光图像块的第二浅层特征块和稀疏深度图像块的第二浅层特征块输入自适应的空间权重融合层,对可见光图像块的第二浅层特征块和稀疏深度图像块的第二浅层特征块赋予不同的权重后加和,输出空间级特征权重。
通过本步骤,采用自适应的空间权重融合层来学习融合的特征权重,以确保深度图的空间信息,具体采用如下的表达式表示:
其中,为空间级特征权重,α1为可见光图像块的权重,α2为稀疏深度图像块的权重,α1和α2允许自适应调整,Transformer(·)为步骤三所述的一种双层的多层感知机的Transformer方法。
步骤五、将空间级特征权重乘以可见光图像的第一浅层特征块,得到融合空间特征块。
融合空间特征块记为具体的,该步骤可用下式表达:
步骤S105:对光谱特征块和融合空间特征块进行融合,获得融合特征。
具体的,该步骤包括如下的过程:
步骤一、对于光谱特征块和融合空间特征块,分别将每类特征块进行展平操作,得到每类特征块的序列。
展平操作为现有技术,在此不再赘述。展平后的序列的尺寸从变为/>其中,N=p×p。
步骤二、采用通道嵌入方法将每类特征块的序列生成每类特征块的第一特征向量。
通道嵌入方法为现有技术,在此不再赘述。光谱特征块的第一特征向量记为融合空间特征块的第一特征向量记为/>大小均为/>
步骤三、使用交叉注意机制,将每类特征块的第一特征向量嵌入对应的每个头部的键K和值V中。
该操作为现有技术,在此不再赘述。
步骤四、计算嵌入每类特征块的第一特征向量后的键K和值V的乘积,得到每类特征块的全局上下文向量。
具体的,该步骤可用下式表示:
光谱特征块:
融合空间特征块:
其中,Gspe、Gspa分别为光谱特征块、融合空间特征块的全局上下文向量,Kspe、Kspa分别为嵌入光谱特征块、融合空间特征块的第一特征向量后的键K,Vspe、Vspa分别为嵌入光谱特征块、融合空间特征块的第一特征向量后的值V。
步骤五、将每类特征块的全局上下文向量通过Softmax函数处理后,与另一类特征块的第一特征向量相乘,得到每类特征块的结果向量。
具体的,该步骤可用下式表示:
光谱特征块:
融合空间特征块:
其中,Uspe、Uspa分别为光谱特征块、融合空间特征块的结果向量。
步骤六、将每类特征块的结果向量与第一特征向量进行级联,再采用通道嵌入方法处理后,调整大小为每类特征块的大小,得到每类特征块的第二特征向量。
级联为现有技术,在此不再赘述。光谱特征块、融合空间特征块的第二特征向量记为Fin_spe、Fin_spa,大小均为
步骤七、采用concat方法合并两类特征块的第二特征向量,得到合并特征向量。
concat方法为现有技术,在此不再赘述。合并特征向量记为Fsum。
步骤八、将合并特征向量输入第一特征提取网络,输出第三特征向量。
具体的,第一特征提取网络包括依次设置的卷积层(1×1)、激活函数(RELU)、深度卷积层DWConv(3×3)、卷积层(1×1)。
步骤九、将合并特征向量输入第二特征提取网络,输出第四特征向量。
具体的,第二特征提取网络为一层卷积层(1×1)。
步骤十、将第三特征向量和第四特征向量相加后,再进行正则化处理,得到融合特征。
第三特征向量和第四特征向量相加后的大小为正则化处理后的融合特征Oi的大小为/>
步骤S106:将融合特征依次通过全局池化层和全连接层后,采用Softmax函数判断融合特征的类别。
经过全局平均池(GAP)和全连接层(FC)层之后,转换Oi为(1,C)的向量,其中C是类别的数量。使用Softmax函数将获得的结果转换为概率分布。该步骤可用下式表示:
应当理解的是,预先训练时,采用MarginLoss作为损失函数评估输出的融合特征的类别和对应的类别真值的差异,以便不断地修改网络的权重,使得输出的结果更加准确。
通过上述的方法,对变电站图像的所有对应图像块都进行相同的处理,可以得到语义分割结果。
通过仿真实验,本发明实施例的分割准确率为82.3%,现有技术如RDFNet-152,RedNet-34,FuseNet网络,在相同的数据集上分割准确率分别为81.5%,80.8%和76.3%,可以看出本发明实施例的准确率高于现有技术。
此外,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序指令;所述计算机程序指令被处理器执行时实现如上述实施例所述的用于变电站场景的语义理解方法。
此外,本发明实施例还提供一种用于变电站场景的语义理解系统,包括:如上述实施例所述的计算机可读存储介质。
综上,本发明实施例,通过设计用于联合标定激光雷达和可见光相机的标定板,能够提高两个传感器之间外参的标定精度;增强了设备分割边缘的特征,能够有效的抑制边缘信息的干扰,充分实现光谱信息与空间信息的利用,增强光谱与空间之间的信息交互,提高了对变电站设备语义分割的精度。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种用于变电站场景的语义理解方法,其特征在于,包括:
将同步采集的变电站的可见光图像的像素点和激光雷达点云数据对齐;
将所述变电站的激光雷达点云数据的深度值作为颜色值赋予对齐的所述变电站的可见光图像的像素点,得到稀疏深度图像;
基于增强局部自注意力方法获得所述变电站的可见光图像的光谱特征块;
基于自适应空间学习方法获得所述可见光图像和所述稀疏深度图像的融合空间特征块;
对所述光谱特征块和所述融合空间特征块进行融合,获得融合特征;
将所述融合特征依次通过全局池化层和全连接层后,采用Softmax函数判断所述融合特征的类别。
2.根据权利要求1所述的用于变电站场景的语义理解方法,其特征在于,所述将同步采集的变电站的可见光图像的像素点和激光雷达点云数据对齐的步骤,包括:
采集黑白棋盘格标定板的多张可见光图像和多个激光雷达点云数据;
采用多张所述黑白棋盘格标定板的可见光图像校准可见光相机,获得所述可见光相机的内参、外参和畸变参数;
将所述黑白棋盘格标定板的每一所述激光雷达点云数据在雷达坐标系中分割出四个标定目标,并计算每一所述标定目标的中心点的三维坐标;
基于所述可见光相机的内参和外参,将多个所述标定目标的中心点的三维坐标投影到相机平面上,得到多个所述标定目标的中心点的二维坐标,形成包含多个三维坐标-二维坐标对的集合,其中,三维坐标投影到相机平面上的表达式为: 为一标定目标的中心点的二维坐标,/>为一标定目标中心点的三维坐标,K为可见光相机的内参,R为可见光相机的外参的旋转矩阵,T为可见光相机的外参的平移矩阵,j=1,2,3,4;
根据多个三维坐标-二维坐标对,最小化目标函数,求解得到激光雷达到可见光相机的外参,其中,所述目标函数E为:RLC、TLC为激光雷达到可见光相机的外参,D(·)为由畸变参数构建的相机畸变模型,/>为三维坐标,为二维坐标,POINTS为包含多个三维坐标-二维坐标对的集合;
根据所述激光雷达到可见光相机的外参和所述变电站的激光雷达点云数据的三维坐标,计算得到所述变电站的激光雷达点云数据对应的所述变电站的可见光图像的像素点的二维坐标,其中,对应的所述变电站的可见光图像的像素点的二维坐标的计算式为:XL、YL为变电站的激光雷达点云数据的三维坐标,xc、yc为变电站的可见光图像的二维坐标。
3.根据权利要求2所述的用于变电站场景的语义理解方法,其特征在于,所述采用多张黑白棋盘格标定板的可见光图像校准可见光相机的步骤,包括:
采用opencv的棋盘格角点检测方法检测所述黑白棋盘格标定板的可见光图像,得到所述黑白棋盘格标定板的角点信息;
采用所述角点信息校准所述可见光相机,获得所述可见光相机的内参、外参和畸变参数。
4.根据权利要求2所述的用于变电站场景的语义理解方法,其特征在于,所述计算每一所述标定目标的中心点的三维坐标的步骤,包括:
将去噪后的所述黑白棋盘格标定板的激光雷达点云数据,通过带有方向约束的RANSAC方法进行平面拟合,得到标定目标,其中,所述标定目标为圆形通孔;
采用网络搜索方法在雷达坐标系中搜索所述标定目标和预先生成的点云掩膜的最佳匹配;
当所述标定目标中落入的激光雷达点云数目最少时,完成最佳匹配,得到旋转角度为yaw的旋转矩阵和相对所述黑白棋盘格标定板的平移量为(x,y)的平移矩阵,其中,所述最佳匹配的表达式为:Ryaw,Tx,y=argminyaw,x,y∑(Ryaw(Smask+Tx,y)∩S1),Ryaw为旋转角度为yaw的旋转矩阵,Tx,y为相对所述黑白棋盘格标定板的平移量为(x,y)的平移矩阵,Smask为点云掩膜,S1为标定目标;
根据旋转角度为yaw的旋转矩阵和相对标定板的平移量为(x,y)的平移矩阵,计算黑白棋盘格标定板的激光雷达点云数据在雷达坐标系中分割出的标定目标的中心点的三维坐标。
5.根据权利要求1所述的用于变电站场景的语义理解方法,其特征在于,所述基于增强局部自注意力方法获得所述变电站的可见光图像的光谱特征块的步骤,包括:
对于所述变电站的可见光图像,以一像素点为中心向四周扩展像素,将所述可见光图像划分为多个正方形的可见光图像块;
将所述变电站的可见光图像块输入第一浅层特征提取器,提取所述可见光图像块的浅层特征,输出所述可见光图像块的第一浅层特征块,其中,所述第一浅层特征提取器包括依次连接的三个卷积层,三个卷积层依次包括16、32和64个滤波器;
将所述变电站的可见光图像块输入具有64个滤波器的卷积层处理后,输出特征图像块;
将所述特征图像块依次进行层正则化处理与增强局部光谱自注意力方法处理,得到局部光谱特征块;
通过残差结构将所述局部光谱特征块与所述特征图像块相加,再经过多层感知机后,通过层正则化处理,得到光谱级特征权重;
将所述光谱级特征权重乘以所述可见光图像块的第一浅层特征块,得到所述光谱特征块。
6.根据权利要求5述的用于变电站场景的语义理解方法,其特征在于,所述基于自适应空间学习方法获得所述可见光图像和所述稀疏深度图像的融合空间特征块的步骤,包括:
对于所述稀疏深度图像,以一像素点为中心向四周扩展像素,将所述稀疏深度图像划分为多个正方形的稀疏深度图像块;
将所述可见光图像块和所述稀疏深度图像块分别输入第二浅层特征提取器,分别提取所述可见光图像块的第二浅层特征块和所述稀疏深度图像块的第一浅层特征块,其中,所述第二浅层特征提取器包括依次连接的两个卷积层,两个卷积层依次包括32和64个滤波器;
将所述稀疏深度图像块的第一浅层特征块输入双层的多层感知机的Transformer模块后,输出所述稀疏深度图像块的第二浅层特征块,其中,所述双层的多层感知机的Transformer模块包括依次设置的残差结构模块、层正则化模块和多层感知机;
将所述可见光图像块的第二浅层特征块和所述稀疏深度图像块的第二浅层特征块输入自适应的空间权重融合层,对所述可见光图像块的第二浅层特征块和所述稀疏深度图像块的第二浅层特征块赋予不同的权重后加和,输出空间级特征权重;
将所述空间级特征权重乘以所述可见光图像的第一浅层特征块,得到所述融合空间特征块。
7.根据权利要求1所述的用于变电站场景的语义理解方法,其特征在于,所述获得融合特征的步骤,包括:
对于所述光谱特征块和所述融合空间特征块,分别将每类特征块进行展平操作,得到每类特征块的序列;
采用通道嵌入方法将每类特征块的序列生成每类特征块的第一特征向量;
使用交叉注意机制,将每类特征块的第一特征向量嵌入对应的每个头部的键K和值V中;
计算嵌入每类特征块的第一特征向量后的键K和值V的乘积,得到每类特征块的全局上下文向量;
将每类特征块的全局上下文向量通过Softmax函数处理后,与另一类特征块的第一特征向量相乘,得到每类特征块的结果向量;
将每类特征块的结果向量与第一特征向量进行级联,再采用通道嵌入方法处理后,调整大小为每类特征块的大小,得到每类特征块的第二特征向量;
采用concat方法合并两类特征块的第二特征向量,得到合并特征向量;
将所述合并特征向量输入第一特征提取网络,输出第三特征向量,其中,所述第一特征提取网络包括依次设置的卷积层、激活函数、深度卷积层、卷积层;
将所述合并特征向量输入第二特征提取网络,输出第四特征向量,其中,所述第二特征提取网络为一层卷积层;
将所述第三特征向量和所述第四特征向量相加后,再进行正则化处理,得到融合特征。
8.根据权利要求1所述的用于变电站场景的语义理解方法,其特征在于:训练时,采用MarginLoss作为损失函数评估输出的所述融合特征的类别和对应的类别真值的差异。
9.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质上存储有计算机程序指令;所述计算机程序指令被处理器执行时实现如权利要求1~8中任一项所述的用于变电站场景的语义理解方法。
10.一种用于变电站场景的语义理解系统,其特征在于,包括:如权利要求9所述的计算机可读存储介质。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311540483.XA CN117576461A (zh) | 2023-11-17 | 2023-11-17 | 一种用于变电站场景的语义理解方法、介质及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311540483.XA CN117576461A (zh) | 2023-11-17 | 2023-11-17 | 一种用于变电站场景的语义理解方法、介质及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117576461A true CN117576461A (zh) | 2024-02-20 |
Family
ID=89892981
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311540483.XA Pending CN117576461A (zh) | 2023-11-17 | 2023-11-17 | 一种用于变电站场景的语义理解方法、介质及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117576461A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117787143A (zh) * | 2024-02-23 | 2024-03-29 | 国网天津市电力公司城东供电分公司 | 变电站毒害气体的气流分布场重构方法及系统、电子设备 |
-
2023
- 2023-11-17 CN CN202311540483.XA patent/CN117576461A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117787143A (zh) * | 2024-02-23 | 2024-03-29 | 国网天津市电力公司城东供电分公司 | 变电站毒害气体的气流分布场重构方法及系统、电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108961235B (zh) | 一种基于YOLOv3网络和粒子滤波算法的缺陷绝缘子识别方法 | |
CN109903331B (zh) | 一种基于rgb-d相机的卷积神经网络目标检测方法 | |
CN104778721B (zh) | 一种双目图像中显著性目标的距离测量方法 | |
WO2023015743A1 (zh) | 病灶检测模型的训练方法及识别图像中的病灶的方法 | |
CN112288008B (zh) | 一种基于深度学习的马赛克多光谱图像伪装目标检测方法 | |
CN111783748B (zh) | 人脸识别方法、装置、电子设备及存储介质 | |
CN108876723B (zh) | 一种灰度目标图像的彩色背景的构建方法 | |
CN108960404B (zh) | 一种基于图像的人群计数方法及设备 | |
CN111640157A (zh) | 一种基于神经网络的棋盘格角点检测方法及其应用 | |
CN109034184B (zh) | 一种基于深度学习的均压环检测识别方法 | |
WO2022067668A1 (zh) | 基于视频图像目标检测的火灾检测方法、系统、终端以及存储介质 | |
CN111986240A (zh) | 基于可见光和热成像数据融合的落水人员检测方法及系统 | |
CN111160291B (zh) | 基于深度信息与cnn的人眼检测方法 | |
Fang et al. | Effective Single Underwater Image Enhancement by Fusion. | |
CN117576461A (zh) | 一种用于变电站场景的语义理解方法、介质及系统 | |
CN113628261B (zh) | 一种电力巡检场景下的红外与可见光图像配准方法 | |
CN113724379B (zh) | 融合图像与激光点云的三维重建方法及装置 | |
CN107154017A (zh) | 一种基于sift特征点匹配的图像拼接方法 | |
CN112560619A (zh) | 一种基于多聚焦图像融合的多距离鸟类精准识别方法 | |
Fang et al. | Laser stripe image denoising using convolutional autoencoder | |
CN115937552A (zh) | 一种基于融合手工特征与深度特征的图像匹配方法 | |
CN116612468A (zh) | 基于多模态融合与深度注意力机制的三维目标检测方法 | |
CN116524189A (zh) | 一种基于编解码索引化边缘表征的高分辨率遥感图像语义分割方法 | |
CN116883588A (zh) | 一种大场景下的三维点云快速稠密重建方法及系统 | |
CN114445615A (zh) | 基于尺度不变特征金字塔结构的旋转绝缘子目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |