CN117635953B - 一种基于多模态无人机航拍的电力系统实时语义分割方法 - Google Patents
一种基于多模态无人机航拍的电力系统实时语义分割方法 Download PDFInfo
- Publication number
- CN117635953B CN117635953B CN202410107385.5A CN202410107385A CN117635953B CN 117635953 B CN117635953 B CN 117635953B CN 202410107385 A CN202410107385 A CN 202410107385A CN 117635953 B CN117635953 B CN 117635953B
- Authority
- CN
- China
- Prior art keywords
- mode
- depth
- feature
- information
- rgb
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000003993 interaction Effects 0.000 claims abstract description 27
- 230000009466 transformation Effects 0.000 claims abstract description 14
- 230000001133 acceleration Effects 0.000 claims abstract description 12
- 238000012545 processing Methods 0.000 claims abstract description 9
- 230000004927 fusion Effects 0.000 claims description 38
- 238000004422 calculation algorithm Methods 0.000 claims description 15
- 238000011156 evaluation Methods 0.000 claims description 14
- 239000013598 vector Substances 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 claims description 6
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 4
- 238000001514 detection method Methods 0.000 abstract description 4
- 230000000295 complement effect Effects 0.000 abstract description 3
- 238000004458 analytical method Methods 0.000 abstract description 2
- 230000008901 benefit Effects 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- KLDZYURQCUYZBL-UHFFFAOYSA-N 2-[3-[(2-hydroxyphenyl)methylideneamino]propyliminomethyl]phenol Chemical compound OC1=CC=CC=C1C=NCCCN=CC1=CC=CC=C1O KLDZYURQCUYZBL-UHFFFAOYSA-N 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 201000001098 delayed sleep phase syndrome Diseases 0.000 description 1
- 208000033921 delayed sleep phase type circadian rhythm sleep disease Diseases 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30181—Earth observation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开一种基于多模态无人机航拍的电力系统实时语义分割方法,涉及图像数据处理领技术领域;本发明方法通过利用多传感器采集多模态信息,采用多级小波变换分析、特征级别多模态信息交互、全局多模态信息交叉引导,充分发挥多模态信息的互补能力,有效提升无人机航拍电力系统的分割检测性能;利用非对称加速理论,设计轻量级多模态特征编码器,使之更加契合无人端侧部署需求;建立了一个定量度量mIoU和FPS之间平衡关系的计算法。
Description
技术领域
本发明公开一种基于多模态无人机航拍的电力系统实时语义分割方法,涉及图像数据处理领技术领域。
背景技术
现有技术中,对于航拍电力系统的检测,尤其是无人机高空俯拍的电线、电线杆等,有复杂的背景、变化的光线的干扰,电线常常被背景所淹没,使得现有的通用单模态语义分割算法对其检测分割效果并不优秀。此外,现在各种传感器已经层出不穷,通用的单模态语义分割算法没有将其他模态的信息进行充分利用;
目前多模态RGBD语义分割算法通常有着两个庞大的多模态的特征提取器,对于边缘设备,计算资源有限的设备并不友好;同时,对于mIoU和FPS之间的平衡关系,一直以来是定性比较,没有一种方法能够定量的计算出一个数值来评估精度和速度之间的平衡关系。
发明内容
本发明针对现有技术的问题,提供一种基于多模态无人机航拍的电力系统实时语义分割方法及系统,所采用的技术方案为:
第一方面,一种基于多模态无人机航拍的电力系统实时语义分割方法,包括:
S1,在RGBD多模态非对称编码阶段通过多级小波变换进行多尺度特征交互,并利用特征级多模态特征交互,通过卷积建立多种模态信息的局部相关性;
S2,根据RGBD多模态非对称编码器在每个阶段的使用结果,通过多模态全局上下文模块进行全局信息融洽,得到融合特征图;
S3,根据所述融合特征图的分辨率,通过对应的分割头利用深度监督进行多模态语义分割,并通过所述RGBD多模态非对称编码器进行加速处理;
S4,根据F-score算法,建立mIoU和FPS之间定量比较的评价指标。
在一些实现方式中,所述S1,具体包括:
S11,在浅层网络将所述多模态特征映射到高维空间,通过所述多级小波变换产生不同分辨率的低频特征和高频特征;
S12,根据所述低频特征和高频特征,根据不同分辨率分发至对应阶段。
在一些实现方式中,所述S2,具体包括:
S21,通过RGB信息和Depth信息分别将通道维度信息压缩到对应的低维空间内,所述低维空间包括全局信息;
S22,根据所述低维空间,通过softmax函数得到全局空间嵌入向量RGB和Depth的注意力系数;
S23,根据所述Depth的注意力系数,通过引导RGB分支全局注意力,进行引导所述RGB分支的原始特征图;
S24,根据多模态交叉引导的特征进行关联,通过常规卷积完成特征融合。
在一些实现方式中,S3中,所述RGBD多模态非对称编码器包括深度非对称编码器和结构非对称编码器:
通过所述深度非对称编码器对所述RGB分支进行特征提取;
通过所述结构非对称编码器对所述Depth分支进行特征提取。
在一些实现方式中,S4中,所述F-score算法如公式(1)所示,所述评价指标如公式(2)所示:
(1)
(2)
公式(1)中,Precision表示精确率,Recall表示召回率,表示调节因子。
公式(2)中,的取值0.5。
第二方面,本发明实施例提供一种基于多模态无人机航拍的电力系统实时语义分割系统,包括:
特征交互单元,用于在RGBD多模态非对称编码阶段通过多级小波变换进行多尺度特征交互,并利用特征级多模态特征交互,通过卷积建立多种模态信息的局部相关性;
特征融合单元,用于根据RGBD多模态非对称编码器在每个阶段的使用结果,通过多模态全局上下文模块进行全局信息融洽,得到融合特征图;
编码加速单元,用于根据所述融合特征图的分辨率,通过对应的分割头利用深度监督进行多模态语义分割,并通过所述RGBD多模态非对称编码器进行加速处理;
评价指标单元,用于根据F-score算法,建立mIoU和FPS之间定量比较的评价指标。
在一些实现方式中,所述特征交互单元,具体包括:
特征映射子单元,用于在浅层网络将所述多模态特征映射到高维空间,通过所述多级小波变换产生不同分辨率的低频特征和高频特征;
频率发送子单元,用于根据所述低频特征和高频特征,根据不同分辨率分发至对应阶段。
在一些实现方式中,所述特征融合单元,具体包括:
信息压缩子单元,用于通过RGB信息和Depth信息分别将通道维度信息压缩到对应的低维空间内,所述低维空间包括全局信息;
向量系数子单元,用于根据所述低维空间,通过softmax函数得到全局空间嵌入向量RGB和Depth的注意力系数;
分支引导子单元,用于根据所述Depth的注意力系数,通过引导RGB分支全局注意力,进行引导所述RGB分支的原始特征图;
特征关联子单元,用于根据多模态交叉引导的特征进行关联,通过常规卷积完成特征融合。
第三方面,本发明实施例提供一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时,实现如上述第一方面所述的方法。
第四方面,本发明实施例提供一种计算机存储介质,所述计算机可读取存储介质中存储有计算机程序,所述计算机程序被处理器执行时,用实现如第一方面所述的方法。
本发明的一个或多个实施例至少能够带来如下有益效果:
传统的无人机航拍电力系统的分割检测,通常是只使用RGB单模态信息,检测精度出现瓶颈。本发明利用多传感器采集多模态信息,采用多级小波变换分析、特征级别多模态信息交互、全局多模态信息交叉引导,充分发挥多模态信息的互补能力,有效提升无人机航拍电力系统的分割检测性能;
在编码阶段使用多级小波变换进行多尺度特征交互,每个阶段都进行特征级别多模态信息交互,旨在使用卷积建立多种模态信息的局部相关性;其次,多模态非对称编码器在每个阶段的结果使用MMGCB进行全局多模态信息的交叉引导;
利用非对称加速理论,设计轻量级多模态特征编码器,使之更加契合无人端侧部署需求;建立了一个定量度量mIoU和FPS之间平衡关系的计算法。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于多模态无人机航拍的电力系统实时语义分割方法的流程图;
图2是本发明实施例提供的一种基于多模态无人机航拍的电力系统实时语义分割系统的框图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
图1示出了一种基于多模态无人机航拍的电力系统实时语义分割方法流程图,如图1所示,本实施例提供的基于多模态无人机航拍的电力系统实时语义分割方法,包括:
S1,在RGBD多模态非对称编码阶段通过多级小波变换进行多尺度特征交互,并利用特征级多模态特征交互,通过卷积建立多种模态信息的局部相关性;
S2,根据RGBD多模态非对称编码器在每个阶段的使用结果,通过多模态全局上下文模块进行全局信息融洽,得到融合特征图;
S3,根据所述融合特征图的分辨率,通过对应的分割头利用深度监督进行多模态语义分割,并通过所述RGBD多模态非对称编码器进行加速处理;
S4,根据F-score算法,建立mIoU和FPS之间定量比较的评价指标。
首先按照S1,在多模态RGBD语义分割任务中,RGB信息和Depth信息的交互是至关重要的。所提多模态全局上下文模块(MMGCB)是在每个阶段进行的全局多模态特征交互。其既保证了有效的全局特征交互,也具有轻量级计算的优势。在不显著增加计算量的前提下完成全局多模态特征交互。
具体的,所述S1,具体包括:
S11,在浅层网络将所述多模态特征映射到高维空间,通过所述多级小波变换产生不同分辨率的低频特征和高频特征;
S12,根据所述低频特征和高频特征,根据不同分辨率分发至对应阶段。
其中,首先按照S11在网络浅层将特征映射到高维空间后,利用多级小波变换产生不同分辨率的低频特征和高频特征,然后按照S12,将不同分辨率的特征分发至每个阶段,能够保证高层语义和低层细节能够有效映射。
下一步,按照S2,多级小波变换有着优秀的多分辨率解析能力,我们借助这个优势为每个阶段提供对应的细节特征。具体的,所述S2,具体包括:
S21,通过RGB信息和Depth信息分别将通道维度信息压缩到对应的低维空间内,所述低维空间包括全局信息;
S22,根据所述低维空间,通过softmax函数得到全局空间嵌入向量RGB和Depth的注意力系数;
S23,根据所述Depth的注意力系数,通过引导RGB分支全局注意力,进行引导所述RGB分支的原始特征图;
S24,根据多模态交叉引导的特征进行关联,通过常规卷积完成特征融合。
其中,首先按照S21,分别两种模态先将通道维度信息压缩到一个低维空间内,这个低维空间包含了全局信息;然后按照S22,将其展成,其中。其中,表示通道信息,R表示低维空间向量,N、H和W分别表示所述低维向量的坐
标。经过softmax函数得到全局空间嵌入向量的注意力系数;下一步按照S23,之后Depth的
注意力系数用于引导RGB分支生成RGB分支全局注意力。同时RGB的注意力系数也用于引导
Depth分支生成Depth全局注意力。两个分支的全局注意力系数经过一个线性编码层,进一
步增强注意力。增强后的注意力用于引导该分支的原始特征图;最后按照S24,经过多模态
交叉引导的特征进行级联,经过一个常规卷积完成特征融合。整个特征融合过程可用以下
公式表述:
;
;
;
;
;
其中,表示RGB分支的全局空间嵌入量的注意力系数;表示RGB分支的
卷积操作;表示输入RGB图像特征;表示深度分支的全局空间嵌入量的注意力系
数;表示深度分支的卷积操作;表示输入深度分支图像特征;表示RGB
分支的多模态交叉引导的注意力特征;表示第二RGB分支的线性编码;表示
RGB分支的归一化操作;表示第一RGB分支的线性编码;表示深度分支的
多模态交叉引导的注意力特征;表示第二深度分支的线性编码;表示深
度分支的归一化操作;表示第一深度分支的线性编码;表示多模态交叉
融合后的输出结果;Softmax函数中dim=1表示在通道维度进行softmax操作;Concat操作中
的dim=1表示在通道维度进行拼接级联;表示常规卷积进特征融合。
在所设计的骨干网络中不仅有多模态信息的交互,通过卷积建立多模态信息的局部相关性,还存在多分辨率融合,不同模态不同分辨率特征图的表征能力不同,通过多模态多分辨率特征融合可以更好的发挥多模态信息的互补作用。在网络深层,多级小波变换提供的更原始的细节信息,与深层的语义信息进行融合,也一定程度上缓解了梯度消失的问题。
下面展示多级小波多模态特征融合骨干前向推理伪代码:
输入(RGB, Depth):RGB图像和Depth信息图像;
输出(RGB_results, Depth_results):经过多级小波多模态特征融合骨干网络分别得到RGB的特征金字塔结果和Depth信息图像的特征金字塔结果;
1:def(RGB, Depth):
2: RGB = RGB_Stem(RGB) #RGB_Stem用于将输入图像映射到高维空间
3: RGB_waveout = MultiLevelWave(RGB, stage_num=4) #将图像进行多级小波分解,此处分解4次
4: Depth = Depth_Stem(Depth)
5: Depth_waveout = MultiLevelWave(Depth, stage_num=4)
6: RGB_results = []
7: Depth_results = []
8: for i in range(0, stage_num):
9: temp = RGB
10: Depth = ResizeLike(Depth,RGB_waveout[i])
11: RGB = RGBStage[i](torch.concat([RGB_waveout[i],Depth],dim=1)) #RGB小波分解特征引导Depth分支
12: RGB_results.append(RGB)
13: Depth = DepthStage[i](torch.concat([Depth_waveout[i], temp],dim=1)) #Depth小波分解特征引导RGB分支
14: Depth_results.append(Depth)
15: return RGB_results, Depth_results
下一步,S3中,深度监督理论是在深度神经网络的某些中间隐藏层加了一个辅助的分类器作为一种网络分支来对主干网络进行监督的技巧,用来解决深度神经网络训练梯度消失和收敛速度过慢等问题,同时也会提升一些准确度。并且这些辅助分类器只在训练时启用,在推理时不需要进行前向推理。所以,深度监督不会影响推理速度。在本发明中,深度监督应用于轻量级分割头,其中一共有三个额外的辅助分割头,分别处理不同分辨率的融合特征图。对于小型训练数据和相对轻量级的网络,对于分类准确性和学习特征问题,深度监督可以提供强大的“正规化”。
所述RGBD多模态非对称编码器包括深度非对称编码器和结构非对称编码器:
通过所述深度非对称编码器对所述RGB分支进行特征提取;
通过所述结构非对称编码器对所述Depth分支进行特征提取。
按照S4,RGB分支具有更多的冗余信息,而Depth分支只有空间距离信息。根据此特点,我们从两个层面去设计非对称结构,分别是深度非对称编码器和结构非对称编码。具体来说,信息相对冗余的RGB分支,我们使用较深的常规卷积进行充分的特征提取;而信息比较单一的Depth分支,使用较浅的廉价卷积(Ghost卷积)来进行特征提取。如下表为多模态各分支每个阶段卷积具体情况:
表1 非对称编码器加速
S4中,通常情况下,由于算力资源和算法复杂度的限制,mIoU和FPS通常是此消彼长的关系。但现在对于两种在计算过程上毫无关系的指标,没有一个更加客观的度量方式。于是我们尝试借鉴F-score的思想来衡量两个此消彼长指标的综合重要性,以下是F-score的计算公式:所述F-score算法如公式(1)所示:
(1)
其中Precision是指精确率,Recall是指召回率。是调节因子,当有些情况下,认
为精确率更重要些,那就调整的值小于1,如果认为召回率更重要些,那就调整的值大于
1。
在衡量mIoU和FPS时,与Precision和Recall的关系有相似的地方。略有不同的地方时,我们通常是在保证mIoU的前提下尽量提高FPS。在评估中我们认为mIoU更重要一些。所以得到以下计算公式来权衡mIoU和FPS,所述评价指标如公式(2)所示:
(2)
将设置为0.5来调整mIoU对于算法的重要性。
实施例二:
图2示出了一种基于多模态无人机航拍的电力系统实时语义分割系统的框图,如图2所示,本实施例提供的基于多模态无人机航拍的电力系统实时语义分割系统,包括:
特征交互单元,用于在RGBD多模态非对称编码阶段通过多级小波变换进行多尺度特征交互,并利用特征级多模态特征交互,通过卷积建立多种模态信息的局部相关性;
特征融合单元,用于根据RGBD多模态非对称编码器在每个阶段的使用结果,通过多模态全局上下文模块进行全局信息融洽,得到融合特征图;
编码加速单元,用于根据所述融合特征图的分辨率,通过对应的分割头利用深度监督进行多模态语义分割,并通过所述RGBD多模态非对称编码器进行加速处理;
评价指标单元,用于根据F-score算法,建立mIoU和FPS之间定量比较的评价指标。
在一些实现方式中,所述特征交互单元,具体包括:
特征映射子单元,用于在浅层网络将所述多模态特征映射到高维空间,通过所述多级小波变换产生不同分辨率的低频特征和高频特征;
频率发送子单元,用于根据所述低频特征和高频特征,根据不同分辨率分发至对应阶段。
在一些实现方式中,所述特征融合单元,具体包括:
信息压缩子单元,用于通过RGB信息和Depth信息分别将通道维度信息压缩到对应的低维空间内,所述低维空间包括全局信息;
向量系数子单元,用于根据所述低维空间,通过softmax函数得到全局空间嵌入向量RGB和Depth的注意力系数;
分支引导子单元,用于根据所述Depth的注意力系数,通过引导RGB分支全局注意力,进行引导所述RGB分支的原始特征图;
特征关联子单元,用于根据多模态交叉引导的特征进行关联,通过常规卷积完成特征融合。
实施例三:
本实施例还提供一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现实施例一的方法;
在实际应用中,处理器可以是专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、数字信号处理器(Digital Signal Processor,简称DSP)、数字信号处理设备(Digital SignalProcessing Device,简称DSPD)、可编程逻辑器件(ProgrammableLogic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器 (Microcontroller Unit, MCU)、微处理器或其他电子元件实现,用于执行上述实施例中的方法。
本实施例所实现的方法,如实施例一所示。
实施例四:
本实施例还提供一种计算机存储介质,所述计算机可读取存储介质中存储有计算机程序,计算机程序被一个或多个处理器执行时,实现实施例一的方法;
其中,计算机可读存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
本实施例所实现的方法,如实施例一所示。
在本发明实施例所提供的几个实施例中,应该理解到,所揭露的系统和方法,也可以通过其它的方式实现。以上所描述的系统和方法实施例仅仅是示意性的。
需要说明的是,在本文中,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (5)
1.一种基于多模态无人机航拍的电力系统实时语义分割方法,其特征在于,包括:
S1,在RGBD多模态非对称编码阶段通过多级小波变换进行多尺度特征交互,并利用特征级多模态特征交互,通过卷积建立多种模态信息的局部相关性;
S2,根据RGBD多模态非对称编码器在每个阶段的使用结果,通过多模态全局上下文模块进行全局信息融洽,得到融合特征图;
S3,根据所述融合特征图的分辨率,通过对应的分割头利用深度监督进行多模态语义分割,并通过所述RGBD多模态非对称编码器进行加速处理;其中,所述RGBD多模态非对称编码器包括深度非对称编码器和结构非对称编码器;
S4,根据F-score算法,建立mIoU和FPS之间定量比较的评价指标;其中,所述F-score算法如公式(1)所示,所述评价指标如公式(2)所示:
;
公式(1)中,Precision表示精确率,Recall表示召回率,表示调节因子,
公式(2)中,的取值0.5;
其中,所述S1,具体包括:
S11,在浅层网络将所述多模态特征映射到高维空间,通过所述多级小波变换产生不同分辨率的低频特征和高频特征;
S12,根据所述低频特征和高频特征,根据不同分辨率分发至对应阶段;
其中,所述S2,具体包括:
S21,通过RGB信息和Depth信息分别将通道维度信息压缩到对应的低维空间内,所述低维空间包括全局信息;
S22,根据所述低维空间,通过softmax函数得到全局空间嵌入向量RGB和Depth的注意力系数;
S23,根据所述Depth的注意力系数,通过引导RGB分支全局注意力,进行引导所述RGB分支的原始特征图;
S24,根据多模态交叉引导的特征进行关联,通过常规卷积完成特征融合。
2.根据权利要求1所述的方法,其特征在于,S3中,具体包括:
通过所述深度非对称编码器对所述RGB分支进行特征提取;
通过所述结构非对称编码器对所述Depth分支进行特征提取。
3.一种基于多模态无人机航拍的电力系统实时语义分割系统,其特征在于,包括:
特征交互单元,用于在RGBD多模态非对称编码阶段通过多级小波变换进行多尺度特征交互,并利用特征级多模态特征交互,通过卷积建立多种模态信息的局部相关性;
特征融合单元,用于根据RGBD多模态非对称编码器在每个阶段的使用结果,通过多模态全局上下文模块进行全局信息融洽,得到融合特征图;
编码加速单元,用于根据所述融合特征图的分辨率,通过对应的分割头利用深度监督进行多模态语义分割,并通过所述RGBD多模态非对称编码器进行加速处理;其中,所述RGBD多模态非对称编码器包括深度非对称编码器和结构非对称编码器;
评价指标单元,用于根据F-score算法,建立mIoU和FPS之间定量比较的评价指标;其中,所述F-score算法如公式(1)所示,所述评价指标如公式(2)所示:
;
公式(1)中,Precision表示精确率,Recall表示召回率,表示调节因子,
公式(2)中,的取值0.5;
其中,所述特征交互单元,具体包括:
特征映射子单元,用于在浅层网络将所述多模态特征映射到高维空间,通过所述多级小波变换产生不同分辨率的低频特征和高频特征;
频率发送子单元,用于根据所述低频特征和高频特征,根据不同分辨率分发至对应阶段;
其中,所述特征融合单元,具体包括:
信息压缩子单元,用于通过RGB信息和Depth信息分别将通道维度信息压缩到对应的低维空间内,所述低维空间包括全局信息;
向量系数子单元,用于根据所述低维空间,通过softmax函数得到全局空间嵌入向量RGB和Depth的注意力系数;
分支引导子单元,用于根据所述Depth的注意力系数,通过引导RGB分支全局注意力,进行引导所述RGB分支的原始特征图;
特征关联子单元,用于根据多模态交叉引导的特征进行关联,通过常规卷积完成特征融合。
4.一种电子设备,其特征在于,包括存储器和处理器,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现如上述权利要求1-2中任意一项所述方法。
5.一种计算机可读存储介质,其特征在于,所述计算机可读取存储介质中存储有计算机程序,所述计算机程序被处理器执行时用以实现如上述权利要求1-2中任意一项所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410107385.5A CN117635953B (zh) | 2024-01-26 | 2024-01-26 | 一种基于多模态无人机航拍的电力系统实时语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410107385.5A CN117635953B (zh) | 2024-01-26 | 2024-01-26 | 一种基于多模态无人机航拍的电力系统实时语义分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117635953A CN117635953A (zh) | 2024-03-01 |
CN117635953B true CN117635953B (zh) | 2024-04-26 |
Family
ID=90016695
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410107385.5A Active CN117635953B (zh) | 2024-01-26 | 2024-01-26 | 一种基于多模态无人机航拍的电力系统实时语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117635953B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021088300A1 (zh) * | 2019-11-09 | 2021-05-14 | 北京工业大学 | 一种基于非对称双流网络的rgb-d多模态融合人员检测方法 |
CN113283435A (zh) * | 2021-05-14 | 2021-08-20 | 陕西科技大学 | 一种基于多尺度注意力融合的遥感图像语义分割方法 |
CN114549439A (zh) * | 2022-02-11 | 2022-05-27 | 中北大学 | 一种基于多模态特征融合的rgb-d图像语义分割方法 |
CN115641445A (zh) * | 2022-12-23 | 2023-01-24 | 西南石油大学 | 一种非对称内卷积与Transformer相融合的遥感图像阴影检测方法 |
CN116109826A (zh) * | 2023-02-17 | 2023-05-12 | 中国人民解放军战略支援部队信息工程大学 | 一种道路裂缝检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12051229B2 (en) * | 2021-01-14 | 2024-07-30 | Tata Consultancy Services Limited | System and method for attention-based surface crack segmentation |
-
2024
- 2024-01-26 CN CN202410107385.5A patent/CN117635953B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021088300A1 (zh) * | 2019-11-09 | 2021-05-14 | 北京工业大学 | 一种基于非对称双流网络的rgb-d多模态融合人员检测方法 |
CN113283435A (zh) * | 2021-05-14 | 2021-08-20 | 陕西科技大学 | 一种基于多尺度注意力融合的遥感图像语义分割方法 |
CN114549439A (zh) * | 2022-02-11 | 2022-05-27 | 中北大学 | 一种基于多模态特征融合的rgb-d图像语义分割方法 |
CN115641445A (zh) * | 2022-12-23 | 2023-01-24 | 西南石油大学 | 一种非对称内卷积与Transformer相融合的遥感图像阴影检测方法 |
CN116109826A (zh) * | 2023-02-17 | 2023-05-12 | 中国人民解放军战略支援部队信息工程大学 | 一种道路裂缝检测方法 |
Non-Patent Citations (1)
Title |
---|
融合自监督和自注意力的输电线语义分割网络;赵伟杰,巢建树等;《微电子学与计算机》;20240105;第40卷(第12期);第61-69页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117635953A (zh) | 2024-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Eldesokey et al. | Propagating confidences through cnns for sparse data regression | |
CN106997380A (zh) | 基于dcgan深度网络的成像光谱图像安全检索方法 | |
CN108875487B (zh) | 行人重识别网络的训练及基于其的行人重识别 | |
CN112633459A (zh) | 训练神经网络的方法、数据处理方法和相关装置 | |
CN113239907A (zh) | 一种人脸识别的检测方法、装置、电子设备及存储介质 | |
CN112926552B (zh) | 基于深度神经网络的遥感影像车辆目标识别模型及方法 | |
CN111985209A (zh) | 结合rpa和ai的文本语句识别方法、装置、设备及存储介质 | |
CN112149526B (zh) | 一种基于长距离信息融合的车道线检测方法及系统 | |
CN116229112A (zh) | 一种基于多重注意力的孪生网络目标跟踪方法 | |
CN115493612A (zh) | 一种基于视觉slam的车辆定位方法及装置 | |
Zeng et al. | Deep stereo matching with hysteresis attention and supervised cost volume construction | |
CN113920023B (zh) | 图像处理方法及装置、计算机可读介质和电子设备 | |
CN111612075A (zh) | 基于联合特征重组和特征混合的兴趣点、描述符提取方法 | |
CN116912924B (zh) | 一种目标图像识别方法和装置 | |
CN114004775A (zh) | 结合潜在低秩表示和卷积神经网络的红外和可见光图像融合方法 | |
CN117635953B (zh) | 一种基于多模态无人机航拍的电力系统实时语义分割方法 | |
CN113919479B (zh) | 一种提取数据特征的方法和相关装置 | |
CN113345001A (zh) | 视差图确定方法和装置、计算机可读存储介质、电子设备 | |
CN117392488A (zh) | 一种数据处理方法、神经网络及相关设备 | |
CN117132850A (zh) | 模型预训练及训练方法、点云检测及分割方法和装置 | |
CN116704187A (zh) | 一种语义对齐的实时语义分割方法、系统及存储介质 | |
CN116597146A (zh) | 一种针对激光雷达稀疏点云数据的语义分割方法 | |
CN114529983B (zh) | 事件及视频融合的动作识别方法及装置 | |
CN112926382B (zh) | 一种改善目标聚类特性的深度学习激光水下目标识别仪 | |
CN115661923A (zh) | 自适应建模域特征的域泛化行人重识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |