CN114445442B - 基于非对称交叉融合的多光谱图像语义分割方法 - Google Patents
基于非对称交叉融合的多光谱图像语义分割方法 Download PDFInfo
- Publication number
- CN114445442B CN114445442B CN202210111951.0A CN202210111951A CN114445442B CN 114445442 B CN114445442 B CN 114445442B CN 202210111951 A CN202210111951 A CN 202210111951A CN 114445442 B CN114445442 B CN 114445442B
- Authority
- CN
- China
- Prior art keywords
- thermal
- rgb
- multispectral
- image
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/136—Segmentation; Edge detection involving thresholding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10032—Satellite or aerial image; Remote sensing
- G06T2207/10036—Multispectral image; Hyperspectral image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于非对称交叉融合的多光谱图像语义分割方法。本发明方法首先对多光谱图像进行预处理,输入非对称编码器,获得RGB图像和Thermal图像的特征图及其显著置信度,将输入门控交叉融合模块得到融合特征图;将RGB和Thermal图像输入构建的多光谱显著性感知模块,得到对应显著伪标记;将融合特征图输入由转置卷积组成的解码器;使用随机梯度下降算法优化分割网络模型,对新的多光谱图像依次通过上述步骤获得语义分割结果。本发明方法通过非对称编码器提取多光谱图像特征,可有效减少模型计算开销,还利用门控交叉融合机制自适应地对图像的显著区域融合,有利于对像素点的空间分布关系进行建模,获得更优的语义分割性能。
Description
技术领域
本发明属于计算机视觉技术领域,尤其是多光谱数据中的语义分割领域,涉及一种基于非对称交叉融合的多光谱图像语义分割方法。
背景技术
随着我国车辆数量不断增加,驾驶员数量也随之增加。面对复杂的道路状况,驾驶员的不规范或夜间疲劳驾驶都将可能导致严重的车祸事故,因此,驾驶安全日益受到社会的高度关注,从而推动智能自动驾驶技术的发展。全天候条件下的高效稳健视觉感知系统是自动驾驶的关键部件,而多光谱图像语义分割作为其重要技术主要处理由RGB图像(可见光)和Thermal图像(不可见光)组成的多光谱图像。RGB图像是由红、绿、蓝三个颜色通道叠加而成的可见光光谱;Thermal图像是由温度在绝对零度以上的物体产生热辐射形成的不可见光谱。多光谱图像语义分割旨在对多光谱图像进行像素级别的类别标记,通常给定N个语义类别,其中包括N-1个前景类别和1个背景类别,获得与原始图像同等尺寸的逐像素类别标记矩阵。该技术可广泛应用在自动驾驶,无人机侦察、机器视觉等实际领域。例如,在自动驾驶夜间环境中,由于光照不足,仅利用RGB可见光摄像头无法有效采集路面状况,而利用多光谱摄像头可获得RGB图像与Thermal图像并组成多光谱图像,获得精确鲁棒的路况信息,有利于在光照不足或恶劣天气的情况中辅助驾驶并确保司乘安全。
近年来,深度卷积神经网络由于其卓越的特征提取能力被应用于多光谱图像语义分割。典型的方法利用现有深度卷积神经网络作为编码器,从多光谱图像组成的四通道张量中提取语义特征,然后通过解码器的逐层上采样操作获得逐像素类别标记矩阵。然而,此种方法在进行特征提取的过程中忽视RGB图像与Thermal图像两者的内在差异,对两种图像进行统一的特征提取,难以有效融合两种光谱的特征。为此,部分方法采用双流模型以获得准确的分割结果,其显著特点是:利用两个结构相同的卷积神经网络,即对称编码器分别作为RGB图像和Thermal图像的特征提取器,在特征提取的过程中,将两种光谱的中间特征图进行逐元素相加或者逐通道拼接得到融合特征图,以捕获两种光谱在多个分辨率下的语义特征,最后经过多次卷积与上采样得到逐像素类别标记矩阵。
上述方法存在的不足点主要表现在两个方面:1)为了提高精度,通常采用两个大型相同的卷积神经网络作为两种光谱的特征提取器,并没有充分考虑两种光谱数据的容量,如RGB图像能够刻画丰富的颜色、纹理等信息,而Thermal图像仅能表示粗略的位置与模糊的外观信息,使得提取Thermal图像的特征时存在冗余,并且时空复杂度高;2)采用逐元素相加或逐通道拼接的融合策略忽略了RGB图像与Thermal图像所刻画的物体信息差异,如难以有效地以互补的形式融合两种光谱物体信息。因此,针对双流分割模型的时空复杂度高、多光谱特征融合困难等问题,迫切需要一种既能达到较高分割精度又能保障多光谱分割模型轻量化的方法。
发明内容
本发明的目的就是针对现有技术的不足,提供一种基于非对称交叉融合的多光谱图像语义分割方法。本发明方法通过构建非对称结构编码器分别对RGB图像与Thermal图像进行特征提取,充分考虑RGB图像的颜色和纹理信息和Thermal图像的轮廓信息;同时设计门控交叉融合机制对两种光谱特征图中的显著性区域进行自适应融合,学习视觉显著性的先验知识,有利于提升模型在不同光照强度下对不同语义类别的判别能力,从而提高分割精度和鲁棒性。
本发明方法首先获取多光谱图像数据集合,然后进行如下操作:
步骤(1)对多光谱数据集进行预处理,将多光谱图像输入至非对称编码器,获得RGB图像的特征图和显著置信度,以及Thermal图像的特征图和显著置信度;
步骤(2)构建多光谱显著性感知模块,输入为RGB图像和Thermal图像,输出为RGB显著伪标记和Thermal显著伪标记;
步骤(3)构建门控交叉融合模块,输入为RGB图像和Thermal图像的特征图及其显著置信度,输出为融合特征图;
步骤(4)将融合特征图输入由转置卷积组成的解码器,获得预测分割标记;
步骤(5)对由非对称编码器、多光谱显著性感知模块、门控交叉融合模块、解码器构成的分割网络,使用交叉熵损失函数和L1损失函数进行优化,获得已训练的多光谱图像语义分割网络;
步骤(6)将新多光谱图像输入至已训练的分割网络,输出对应的语义分割结果。
步骤(1)具体是:
(1-1)对多光谱数据集进行预处理操作,得到训练数据集其中Ii表示第i个增强多光谱图像训练样本,共N个训练样本,4表示多光谱通道数量,H表示多光谱图像的高度,W表示多光谱图像的宽度,其中表示多光谱由配对的RGB图像与Thermal图像拼接而成,表示第i个三通道的RGB图像样本,表示第i个单通道的Thermal图像样本,上标r表示RGB,上标t表示Thermal;
(1-2)进行像素级标记,记为标记集合其中Yi是高为H、宽为W的矩阵,像素级标记Yi的元素取值为{0,1,…,K},其中K为待分割的类别总数,在训练阶段每张多光谱都有对应的像素级标记,处理新多光谱时不会给出像素级标记;
(1-3)构建非对称编码器中的RGB编码器,即大型图像库ImageNet上预训练并去除全局池化层与全连接层的卷积神经网络ResNet,对训练数据集的第i个RGB图像样本依次提取RGB四个编码阶段特征图其中H1=H/4,W1=W/4,Hj+1=Hj/2,Wj+1=Wj/2,Hj×Wj表示特征图分辨率,C1<C2<C3<C4表示特征图的通道维度,根据神经网络中间特征图的Hj维度和Wj维度的不同将ResNet分为4个编码阶段,第j个编码阶段为在ResNet中由多个卷积层组成的模块;
(1-4)构建RGB置信度预测分类器,由全局平均池化操作、全连接层、线性整流函数、全连接层、Sigmoid函数组成,将RGB第四编码阶段特征图经过RGB置信度预测分类器得到RGB显著置信度Pi r,0≤Pi r≤1;
(1-5)构建非对称编码器中的轻量级Thermal编码器,对训练数据集的第i个Thermal图像样本依次提取Thermal各个编码阶段特征图其中Thermal编码器分为四个阶段,每个阶段均由7×7卷积层(7×7表示卷积核大小)、2×2最大池化层(2×2表示下采样比例)和两个结构相同的上下文卷积模块组成;将Thermal图像样本输入Thermal编码器第一阶段的7×7卷积层、2×2最大池化层,获得浅层视觉特征图构建上下文卷积模块,具体包含了两条并行的特征提取支路:其中一条支路由1×1卷积层、空洞率为1和分组数为C1的3×3卷积层(3×3表示卷积核大小)与1×1卷积层(1×1表示卷积核大小)组成;另一条支路由空洞率为2和分组数为C1的3×3卷积层与1×1卷积层组成;每个卷积层之后,经过批归一化操作和线性整流函数,将浅层视觉特征图x输入上下文卷积模块得到第一支路特征图和第二支路特征图再经过通道维度上的拼接得到初级上下文特征图将初级上下文特征图输入到第二个上下文卷积模块,获得高级上下文特征图再经过一次2×2最大池化层得到第一编码阶段Thermal特征图将第一编码阶段特征图输入到Thermal编码器的后续三个编码阶段获得后续特征图,最终输出四个编码阶段的Thermal特征图
(1-6)构建Thermal置信度预测分类器,由全局平均池化操作、全连接层、线性整流函数、全连接层、Sigmoid函数组成,将Thermal第四编码阶段特征图经过Thermal置信度预测分类器得到Thermal显著置信度Pi t,0≤Pi t≤1。
步骤(2)具体是:
(2-1)构建多光谱显著性感知模块,将RGB图像进行静态细粒度显著性计算,得到RGB显著图将Thermal图像进行静态细粒度显著性计算,得到Thermal显著图静态细粒度显著性算法是一种基于中心像素点与周围像素点之间的差异计算显著值的传统图像处理方法;
进一步,步骤(3)具体是:
(3-1)构建门控交叉融合模块,由光谱引导模块和Sigmoid函数组成,将Thermal第四编码阶段特征图输入到光谱引导模块得到Thermal第四编码阶段光谱特征图光谱引导模块由1×1卷积层、7×7卷积层、1×1卷积层组成,目的是利用大感受野捕获重要的细节区域,进而感知该编码阶段特征图的显著性区域;
(3-2)将RGB第四编码阶段特征图输入到新构建的光谱引导模块得到RGB第四编码阶段光谱特征图将Thermal第四编码阶段光谱特征图经过Sigmoid函数再与RGB第四编码阶段光谱特征图进行逐元素乘法操作,得到RGB第四编码阶段多光谱融合特征图
(3-3)将RGB第四编码阶段光谱特征图经过Sigmoid函数,再与Thermal第四编码阶段光谱特征图进行逐元素乘法操作,得到Thermal第四编码阶段多光谱融合特征图将Thermal第四编码阶段特征图与Thermal第四编码阶段多光谱融合特征图进行逐元素相加再乘以Thermal显著置信度Pi t,得到Thermal第四编码阶段增强特征图将RGB第四编码阶段特征图与RGB第四编码阶段多光谱融合特征图进行逐元素相加再乘以RGB显著置信度Pi r,得到RGB第四编码阶段增强特征图将Thermal第四编码阶段增强特征图和RGB第四编码阶段增强特征图进行逐元素相加得到第四编码阶段融合特征图
(3-4)将Thermal第三编码阶段特征图和RGB第三编码阶段特征图输入到新构建的门控交叉融合模块,经过与(3-1)~(3-3)同类操作,获得第三编码阶段融合特征图将Thermal第二编码阶段特征图和RGB第二编码阶段特征图输入到新构建的门控交叉融合模块,经过与(3-1)~(3-3)同类操作,获得第二编码阶段融合特征图将Thermal第一编码阶段特征图和RGB第一编码阶段特征图输入到新构建的门控交叉融合模块,经过与(3-1)~(3-3)同类操作,获得第一编码阶段融合特征图
更进一步,步骤(4)具体是:
(4-2)将第二编码阶段融合特征图fi,2输入到解码器第二个转置卷积层,得到第二编码阶段修正特征图将第三编码阶段融合特征图fi,3输入到解码器第三个转置卷积层,得到第三编码阶段修正特征图将第四编码阶段融合特征图fi,4输入到解码器第四个转置卷积层,得到第四编码阶段修正特征图
再进一步,步骤(5)的具体是:
(5-2)将RGB显著伪标记和RGB显著置信度Pi r作为输入,利用L1损失函数计算损失值:其中||·||1表示L1范数;将Thermal显著伪标记和Thermal显著置信度Pi t作为输入,利用L1损失函数计算损失值:
(5-4)通过随机梯度下降算法对由非对称编码器、多光谱显著性感知模块、门控交叉融合模块、解码器构成的分割网络模型进行优化,获得训练好的多光谱图像语义分割网络。
还进一步,步骤(6)具体是:
(6-1)获取新多光谱图像,并将其按照步骤(1)方法获得两种光谱的各个编码阶段特征图、RGB显著置信度和Thermal显著置信度;
本发明方法利用非对称编码器和门控交叉融合模块对多光谱图像进行语义分割,具有以下几个特点:1)不同于已有方法利用两个大型对称编码器对RGB图像和Thermal图像进行特征提取,所设计的非对称编码器对多光谱进行特征提取,通过构建轻量级Thermal编码器从低层特征表示中捕获边缘、轮廓等信息以及从高层特征表示中捕获语义信息,进而减少冗余的Thermal图像编码特征和整体模型的参数量;2)通过构建门控交叉融合模块,根据计算多光谱显著置信度对两种光谱的特征图分配不同权重,能够自适应地选择两种光谱特征图中显著性区域进行融合,有效地选取两种光谱的互补特征进行融合,获得更加精确的分割结果。
本发明方法适用于对实时性要求严格的多光谱图像语义分割,有益效果包括:1)通过构建非对称编码器对多光谱图像进行特征提取,能有效地减少冗余特征和整体网络的参数量,能够提高分割速度;2)通过构建门控交叉融合模块能够在不显著增加网络复杂度的情况下,能够自适应选择多光谱特征图中显著性区域进行有效融合,获得更加精确的分割结果。本发明具有高效的多光谱特征提取能力和有效的特征交叉融合能力,可应用于自动驾驶,无人机侦察、机器视觉等实际领域。
附图说明
图1是本发明方法的流程图。
具体实施方式
以下结合附图对本发明作进一步说明。
如图1,一种基于非对称交叉融合的多光谱图像语义分割方法,首先获取多光谱图像在非对称编码器中各个编码阶段的特征图和显著置信度;在训练阶段中构建多光谱显著性感知模块生成显著伪标记,并对显著置信度进行训练优化;然后通过门控交叉融合机制将多光谱各个编码阶段和显著置信度进行多光谱融合得到各个编码阶段融合特征图,最后,将各个编码融合特征图输入解码器进行上采样得到语义分割结果。该方法利用非对称编码器,即构建两个由不同层数的卷积神经网络组成的编码器对两种光谱图像进行特征提取,减少提取Thermal图像时产生的冗余特征,降低整体网络的计算量,提高分割速度;同时利用门控交叉融合机制根据两种光谱图像的显著性,实现自适应融合互补的多光谱特征,提高在不同光照强度场景下的稳定性和健壮性。
具体是获取多光谱图像数据集合后,进行如下操作:
步骤(1)对多光谱数据集进行预处理,将多光谱图像输入至非对称编码器,获得RGB图像的特征图和显著置信度,以及Thermal图像的特征图和显著置信度。具体是:
(1-1)对多光谱数据集进行预处理操作,得到训练数据集其中Ii表示第i个增强多光谱图像训练样本,共N个训练样本,4表示多光谱通道数量,H表示多光谱图像的高度,W表示多光谱图像的宽度,其中表示多光谱由配对的RGB图像与Thermal图像拼接而成,表示第i个三通道的RGB图像样本,表示第i个单通道的Thermal图像样本,上标r表示RGB,上标t表示Thermal;
(1-2)进行像素级标记,记为标记集合其中Yi是高为H、宽为W的矩阵,像素级标记Yi的元素取值为{0,1,…,K},其中K为待分割的类别总数,在训练阶段每张多光谱都有对应的像素级标记,处理新多光谱时不会给出像素级标记;
(1-3)构建非对称编码器中的RGB编码器,即大型图像库ImageNet上预训练并去除全局池化层与全连接层的卷积神经网络ResNet,对训练数据集的第i个RGB图像样本依次提取RGB四个编码阶段特征图其中H1=H/4,W1=W/4,Hj+1=Hj/2,Wj+1=Wj/2,Hj×Wj表示特征图分辨率,C1<C2<C3<C4表示特征图的通道维度,根据神经网络中间特征图的Hj维度和Wj维度的不同将ResNet分为4个编码阶段,第j个编码阶段为在ResNet中由多个卷积层组成的模块;
(1-4)构建RGB置信度预测分类器,由全局平均池化操作、全连接层、线性整流函数、全连接层、Sigmoid函数组成,将RGB第四编码阶段特征图经过RGB置信度预测分类器得到RGB显著置信度Pi r,0≤Pi r≤1;
(1-5)构建非对称编码器中的轻量级Thermal编码器,对训练数据集的第i个Thermal图像样本依次提取Thermal各个编码阶段特征图其中Thermal编码器分为四个阶段,每个阶段均由7×7卷积层(7×7表示卷积核大小)、2×2最大池化层(2×2表示下采样比例)和两个结构相同的上下文卷积模块组成;将Thermal图像样本输入Thermal编码器第一阶段的7×7卷积层、2×2最大池化层,获得浅层视觉特征图构建上下文卷积模块,具体包含了两条并行的特征提取支路:其中一条支路由1×1卷积层、空洞率为1和分组数为C1的3×3卷积层(3×3表示卷积核大小)与1×1卷积层(1×1表示卷积核大小)组成;另一条支路由空洞率为2和分组数为C1的3×3卷积层与1×1卷积层组成;每个卷积层之后,经过批归一化操作和线性整流函数,将浅层视觉特征图x输入上下文卷积模块得到第一支路特征图和第二支路特征图再经过通道维度上的拼接得到初级上下文特征图将初级上下文特征图输入到第二个上下文卷积模块,获得高级上下文特征图再经过一次2×2最大池化层得到第一编码阶段Thermal特征图将第一编码阶段特征图输入到Thermal编码器的后续三个编码阶段获得后续特征图,最终输出四个编码阶段的Thermal特征图
(1-6)构建Thermal置信度预测分类器,由全局平均池化操作、全连接层、线性整流函数、全连接层、Sigmoid函数组成,将Thermal第四编码阶段特征图经过Thermal置信度预测分类器得到Thermal显著置信度Pi t,0≤Pi t≤1。
步骤(2)构建多光谱显著性感知模块,输入为RGB图像和Thermal图像,输出为RGB显著伪标记和Thermal显著伪标记。具体是:
步骤(3)构建门控交叉融合模块,输入为RGB图像和Thermal图像的特征图及其显著置信度,输出为融合特征图。具体是:
(3-1)构建门控交叉融合模块,由光谱引导模块和Sigmoid函数组成,将Thermal第四编码阶段特征图输入到光谱引导模块得到Thermal第四编码阶段光谱特征图光谱引导模块由1×1卷积层、7×7卷积层、1×1卷积层组成,目的是利用大感受野捕获重要的细节区域,进而感知该编码阶段特征图的显著性区域;
(3-2)将RGB第四编码阶段特征图输入到新构建的光谱引导模块得到RGB第四编码阶段光谱特征图将Thermal第四编码阶段光谱特征图经过Sigmoid函数再与RGB第四编码阶段光谱特征图进行逐元素乘法操作,得到RGB第四编码阶段多光谱融合特征图
(3-3)将RGB第四编码阶段光谱特征图经过Sigmoid函数,再与Thermal第四编码阶段光谱特征图进行逐元素乘法操作,得到Thermal第四编码阶段多光谱融合特征图将Thermal第四编码阶段特征图与Thermal第四编码阶段多光谱融合特征图进行逐元素相加再乘以Thermal显著置信度Pi t,得到Thermal第四编码阶段增强特征图将RGB第四编码阶段特征图与RGB第四编码阶段多光谱融合特征图进行逐元素相加再乘以RGB显著置信度Pi r,得到RGB第四编码阶段增强特征图将Thermal第四编码阶段增强特征图和RGB第四编码阶段增强特征图进行逐元素相加得到第四编码阶段融合特征图
(3-4)将Thermal第三编码阶段特征图和RGB第三编码阶段特征图输入到新构建的门控交叉融合模块,经过与(3-1)~(3-3)同类操作,获得第三编码阶段融合特征图将Thermal第二编码阶段特征图和RGB第二编码阶段特征图输入到新构建的门控交叉融合模块,经过与(3-1)~(3-3)同类操作,获得第二编码阶段融合特征图将Thermal第一编码阶段特征图和RGB第一编码阶段特征图输入到新构建的门控交叉融合模块,经过与(3-1)~(3-3)同类操作,获得第一编码阶段融合特征图
步骤(4)将融合特征图输入由转置卷积组成的解码器,获得预测分割标记。具体是:
(4-2)将第二编码阶段融合特征图fi,2输入到解码器第二个转置卷积层,得到第二编码阶段修正特征图将第三编码阶段融合特征图fi,3输入到解码器第三个转置卷积层,得到第三编码阶段修正特征图将第四编码阶段融合特征图fi,4输入到解码器第四个转置卷积层,得到第四编码阶段修正特征图
步骤(5)对由非对称编码器、多光谱显著性感知模块、门控交叉融合模块、解码器构成的分割网络,使用交叉熵损失函数和L1损失函数进行优化,获得已训练的多光谱图像语义分割网络。具体是:
(5-2)将RGB显著伪标记和RGB显著置信度Pi r作为输入,利用L1损失函数计算损失值:其中||·||1表示L1范数;将Thermal显著伪标记和Thermal显著置信度Pi t作为输入,利用L1损失函数计算损失值:
(5-4)通过随机梯度下降算法对由非对称编码器、多光谱显著性感知模块、门控交叉融合模块、解码器构成的分割网络模型进行优化,获得训练好的多光谱图像语义分割网络。
步骤(6)将新多光谱图像输入至已训练的分割网络,输出对应的语义分割结果。具体是:
(6-1)获取新多光谱图像,并将其按照步骤(1)方法获得两种光谱的各个编码阶段特征图、RGB显著置信度和Thermal显著置信度;
本实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
Claims (5)
1.基于非对称交叉融合的多光谱图像语义分割方法,其特征在于,该方法首先获取多光谱图像数据集合,然后进行如下操作:
步骤(1)对多光谱数据集进行预处理,将多光谱图像输入至非对称编码器,获得RGB图像的特征图和显著置信度,以及Thermal图像的特征图和显著置信度;具体是:
(1-1)对多光谱数据集进行预处理操作,得到训练数据集其中Ii表示第i个增强多光谱图像训练样本,共N个训练样本,4表示多光谱通道数量,H表示多光谱图像的高度,W表示多光谱图像的宽度,其中表示多光谱由配对的RGB图像与Thermal图像拼接而成,表示第i个三通道的RGB图像样本,表示第i个单通道的Thermal图像样本,上标r表示RGB,上标t表示Thermal;
(1-2)进行像素级标记,记为标记集合其中Yi是高为H、宽为W的矩阵,像素级标记Yi的元素取值为{0,1,…,K},其中K为待分割的类别总数,在训练阶段每张多光谱都有对应的像素级标记,处理新多光谱时不会给出像素级标记;
(1-3)构建非对称编码器中的RGB编码器,即大型图像库ImageNet上预训练并去除全局池化层与全连接层的卷积神经网络ResNet,对训练数据集的第i个RGB图像样本Iir依次提取RGB四个编码阶段特征图其中H1=H/4,W1=W/4,Hj+1=Hj/2,Wj+1=Wj/2,Hj×Wj表示特征图分辨率,C1<C2<C3<C4表示特征图的通道维度,根据神经网络中间特征图的Hj维度和Wj维度的不同将ResNet分为4个编码阶段,第j个编码阶段为在ResNet中由多个卷积层组成的模块;
(1-4)构建RGB置信度预测分类器,由全局平均池化操作、全连接层、线性整流函数、全连接层、Sigmoid函数组成,将RGB第四编码阶段特征图经过RGB置信度预测分类器得到RGB显著置信度Pi r,0≤Pi r≤1;
(1-5)构建非对称编码器中的轻量级Thermal编码器,对训练数据集的第i个Thermal图像样本依次提取Thermal各个编码阶段特征图其中Thermal编码器分为四个阶段,每个阶段均由7×7卷积层、2×2最大池化层和两个结构相同的上下文卷积模块组成;将Thermal图像样本输入Thermal编码器第一阶段的7×7卷积层、2×2最大池化层,获得浅层视觉特征图构建上下文卷积模块,具体包含了两条并行的特征提取支路:其中一条支路由1×1卷积层、空洞率为1和分组数为C1的3×3卷积层与1×1卷积层组成;另一条支路由空洞率为2和分组数为C1的3×3卷积层与1×1卷积层组成;每个卷积层之后,经过批归一化操作和线性整流函数,将浅层视觉特征图x输入上下文卷积模块得到第一支路特征图和第二支路特征图再经过通道维度上的拼接得到初级上下文特征图将初级上下文特征图输入到第二个上下文卷积模块,获得高级上下文特征图再经过一次2×2最大池化层得到第一编码阶段Thermal特征图将第一编码阶段特征图输入到Thermal编码器的后续三个编码阶段获得后续特征图,最终输出四个编码阶段的Thermal特征图
(1-6)构建Thermal置信度预测分类器,由全局平均池化操作、全连接层、线性整流函数、全连接层、Sigmoid函数组成,将Thermal第四编码阶段特征图经过Thermal置信度预测分类器得到Thermal显著置信度Pi t,0≤Pi t≤1;
步骤(2)构建多光谱显著性感知模块,输入为RGB图像和Thermal图像,输出为RGB显著伪标记和Thermal显著伪标记;具体是:
步骤(3)构建门控交叉融合模块,输入为RGB图像和Thermal图像的特征图及其显著置信度,输出为融合特征图;
步骤(4)将融合特征图输入由转置卷积组成的解码器,获得预测分割标记;
步骤(5)对由非对称编码器、多光谱显著性感知模块、门控交叉融合模块、解码器构成的分割网络,使用交叉熵损失函数和L1损失函数进行优化,获得已训练的多光谱图像语义分割网络;
步骤(6)将新多光谱图像输入至已训练的分割网络,输出对应的语义分割结果。
2.如权利要求1所述的基于非对称交叉融合的多光谱图像语义分割方法,其特征在于,步骤(3)具体是:
(3-1)构建门控交叉融合模块,由光谱引导模块和Sigmoid函数组成,所述的光谱引导模块由1×1卷积层、7×7卷积层、1×1卷积层组成;将Thermal第四编码阶段特征图输入到光谱引导模块得到Thermal第四编码阶段光谱特征图
(3-2)将RGB第四编码阶段特征图输入到新构建的光谱引导模块得到RGB第四编码阶段光谱特征图将Thermal第四编码阶段光谱特征图经过Sigmoid函数再与RGB第四编码阶段光谱特征图进行逐元素乘法操作,得到RGB第四编码阶段多光谱融合特征图
(3-3)将RGB第四编码阶段光谱特征图经过Sigmoid函数,再与Thermal第四编码阶段光谱特征图进行逐元素乘法操作,得到Thermal第四编码阶段多光谱融合特征图将Thermal第四编码阶段特征图与Thermal第四编码阶段多光谱融合特征图进行逐元素相加再乘以Thermal显著置信度Pi t,得到Thermal第四编码阶段增强特征图将RGB第四编码阶段特征图与RGB第四编码阶段多光谱融合特征图进行逐元素相加再乘以RGB显著置信度Pi r,得到RGB第四编码阶段增强特征图将Thermal第四编码阶段增强特征图和RGB第四编码阶段增强特征图进行逐元素相加得到第四编码阶段融合特征图
3.如权利要求2所述的基于非对称交叉融合的多光谱图像语义分割方法,其特征在于,步骤(4)具体是:
(4-2)将第二编码阶段融合特征图fi,2输入到解码器第二个转置卷积层,得到第二编码阶段修正特征图将第三编码阶段融合特征图fi,3输入到解码器第三个转置卷积层,得到第三编码阶段修正特征图将第四编码阶段融合特征图fi,4输入到解码器第四个转置卷积层,得到第四编码阶段修正特征图
4.如权利要求3所述的基于非对称交叉融合的多光谱图像语义分割方法,其特征在于,步骤(5)具体是:
(5-2)将RGB显著伪标记和RGB显著置信度Pi r作为输入,利用L1损失函数计算损失值:其中||·||1表示L1范数;将Thermal显著伪标记和Thermal显著置信度Pi t作为输入,利用L1损失函数计算损失值:
(5-4)通过随机梯度下降算法对由非对称编码器、多光谱显著性感知模块、门控交叉融合模块、解码器构成的分割网络模型进行优化,获得训练好的多光谱图像语义分割网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210111951.0A CN114445442B (zh) | 2022-01-28 | 2022-01-28 | 基于非对称交叉融合的多光谱图像语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210111951.0A CN114445442B (zh) | 2022-01-28 | 2022-01-28 | 基于非对称交叉融合的多光谱图像语义分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114445442A CN114445442A (zh) | 2022-05-06 |
CN114445442B true CN114445442B (zh) | 2022-12-02 |
Family
ID=81371151
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210111951.0A Active CN114445442B (zh) | 2022-01-28 | 2022-01-28 | 基于非对称交叉融合的多光谱图像语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114445442B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116310566B (zh) * | 2023-03-23 | 2023-09-15 | 华谱科仪(北京)科技有限公司 | 色谱数据图处理方法、计算机设备和计算机可读存储介质 |
CN116805360B (zh) * | 2023-08-21 | 2023-12-05 | 江西师范大学 | 一种基于双流门控渐进优化网络的显著目标检测方法 |
CN118279593A (zh) * | 2024-06-03 | 2024-07-02 | 之江实验室 | 基于遥感语义分割的城市碳排放精细化分析方法及装置 |
CN118485835A (zh) * | 2024-07-16 | 2024-08-13 | 杭州电子科技大学 | 基于模态分歧差异融合的多光谱图像语义分割方法 |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107146219A (zh) * | 2017-04-13 | 2017-09-08 | 大连理工大学 | 一种基于流形正则化支持向量机的图像显著性检测方法 |
CN110619638A (zh) * | 2019-08-22 | 2019-12-27 | 浙江科技学院 | 一种基于卷积块注意模块的多模态融合显著性检测方法 |
CN110751655A (zh) * | 2019-09-16 | 2020-02-04 | 南京工程学院 | 一种基于语义分割和显著性分析的自动抠图方法 |
CN111160040A (zh) * | 2019-12-26 | 2020-05-15 | 西安交通大学 | 一种基于多尺度门控均衡交互融合网络的信息可信度评估系统及方法 |
CN111563418A (zh) * | 2020-04-14 | 2020-08-21 | 浙江科技学院 | 一种基于注意力机制的非对称多模态融合显著性检测方法 |
CN111768375A (zh) * | 2020-06-24 | 2020-10-13 | 海南大学 | 一种基于cwam的非对称gm多模态融合显著性检测方法及系统 |
CN111983691A (zh) * | 2020-08-18 | 2020-11-24 | 北京北斗天巡科技有限公司 | 一种多模型融合的储层预测方法及软件系统 |
CN112784745A (zh) * | 2021-01-22 | 2021-05-11 | 中山大学 | 基于置信度自适应和差分增强的视频显著物体检测方法 |
WO2021088300A1 (zh) * | 2019-11-09 | 2021-05-14 | 北京工业大学 | 一种基于非对称双流网络的rgb-d多模态融合人员检测方法 |
CN113158875A (zh) * | 2021-04-16 | 2021-07-23 | 重庆邮电大学 | 基于多模态交互融合网络的图文情感分析方法及系统 |
CN113192089A (zh) * | 2021-04-12 | 2021-07-30 | 温州医科大学附属眼视光医院 | 一种用于图像分割的双向交叉连接的卷积神经网络 |
CN113192073A (zh) * | 2021-04-06 | 2021-07-30 | 浙江科技学院 | 基于交叉融合网络的服装语义分割方法 |
CN113269787A (zh) * | 2021-05-20 | 2021-08-17 | 浙江科技学院 | 一种基于门控融合的遥感图像语义分割方法 |
CN113486899A (zh) * | 2021-05-26 | 2021-10-08 | 南开大学 | 一种基于互补分支网络的显著性目标检测方法 |
US11189034B1 (en) * | 2020-07-22 | 2021-11-30 | Zhejiang University | Semantic segmentation method and system for high-resolution remote sensing image based on random blocks |
CN113762264A (zh) * | 2021-08-26 | 2021-12-07 | 南京航空航天大学 | 一种多编码器融合的多光谱图像语义分割方法 |
CN113807355A (zh) * | 2021-07-29 | 2021-12-17 | 北京工商大学 | 一种基于编解码结构的图像语义分割方法 |
CN113902783A (zh) * | 2021-11-19 | 2022-01-07 | 东北大学 | 一种融合三模态图像的显著性目标检测系统及方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11875479B2 (en) * | 2020-01-02 | 2024-01-16 | Nabin K Mishra | Fusion of deep learning and handcrafted techniques in dermoscopy image analysis |
CN112330681B (zh) * | 2020-11-06 | 2024-05-28 | 北京工业大学 | 一种基于注意力机制的轻量级网络实时语义分割方法 |
CN113313077A (zh) * | 2021-06-30 | 2021-08-27 | 浙江科技学院 | 基于多策略和交叉特征融合的显著物体检测方法 |
CN113963170A (zh) * | 2021-09-06 | 2022-01-21 | 上海工程技术大学 | 一种基于交互式特征融合的rgbd图像显著性检测方法 |
-
2022
- 2022-01-28 CN CN202210111951.0A patent/CN114445442B/zh active Active
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107146219A (zh) * | 2017-04-13 | 2017-09-08 | 大连理工大学 | 一种基于流形正则化支持向量机的图像显著性检测方法 |
CN110619638A (zh) * | 2019-08-22 | 2019-12-27 | 浙江科技学院 | 一种基于卷积块注意模块的多模态融合显著性检测方法 |
CN110751655A (zh) * | 2019-09-16 | 2020-02-04 | 南京工程学院 | 一种基于语义分割和显著性分析的自动抠图方法 |
WO2021088300A1 (zh) * | 2019-11-09 | 2021-05-14 | 北京工业大学 | 一种基于非对称双流网络的rgb-d多模态融合人员检测方法 |
CN111160040A (zh) * | 2019-12-26 | 2020-05-15 | 西安交通大学 | 一种基于多尺度门控均衡交互融合网络的信息可信度评估系统及方法 |
CN111563418A (zh) * | 2020-04-14 | 2020-08-21 | 浙江科技学院 | 一种基于注意力机制的非对称多模态融合显著性检测方法 |
CN111768375A (zh) * | 2020-06-24 | 2020-10-13 | 海南大学 | 一种基于cwam的非对称gm多模态融合显著性检测方法及系统 |
US11189034B1 (en) * | 2020-07-22 | 2021-11-30 | Zhejiang University | Semantic segmentation method and system for high-resolution remote sensing image based on random blocks |
CN111983691A (zh) * | 2020-08-18 | 2020-11-24 | 北京北斗天巡科技有限公司 | 一种多模型融合的储层预测方法及软件系统 |
CN112784745A (zh) * | 2021-01-22 | 2021-05-11 | 中山大学 | 基于置信度自适应和差分增强的视频显著物体检测方法 |
CN113192073A (zh) * | 2021-04-06 | 2021-07-30 | 浙江科技学院 | 基于交叉融合网络的服装语义分割方法 |
CN113192089A (zh) * | 2021-04-12 | 2021-07-30 | 温州医科大学附属眼视光医院 | 一种用于图像分割的双向交叉连接的卷积神经网络 |
CN113158875A (zh) * | 2021-04-16 | 2021-07-23 | 重庆邮电大学 | 基于多模态交互融合网络的图文情感分析方法及系统 |
CN113269787A (zh) * | 2021-05-20 | 2021-08-17 | 浙江科技学院 | 一种基于门控融合的遥感图像语义分割方法 |
CN113486899A (zh) * | 2021-05-26 | 2021-10-08 | 南开大学 | 一种基于互补分支网络的显著性目标检测方法 |
CN113807355A (zh) * | 2021-07-29 | 2021-12-17 | 北京工商大学 | 一种基于编解码结构的图像语义分割方法 |
CN113762264A (zh) * | 2021-08-26 | 2021-12-07 | 南京航空航天大学 | 一种多编码器融合的多光谱图像语义分割方法 |
CN113902783A (zh) * | 2021-11-19 | 2022-01-07 | 东北大学 | 一种融合三模态图像的显著性目标检测系统及方法 |
Non-Patent Citations (4)
Title |
---|
Deeplab网络在高分卫星遥感图像语义分割中的应用研究;胡航滔;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》;20210715;第2021年卷(第7期);C028-89 * |
Semantic Segmentation for High Spatial Resolution Remote Sensing Images Based on Convolution Neural Network and Pyramid Pooling Module;Bo Yu等;《IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing》;20180930;第11卷(第9期);3252-3261 * |
Semantic-Sensitive Satellite Image Retrieval;Yikun Li等;《IEEE Transactions on Geoscience and Remote Sensing》;20070430;第45卷(第4期);853-860 * |
基于轻量级网络的遥感图像实时语义分割算法研究;梁佳雯;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》;20220115;第2022年卷(第1期);C028-206 * |
Also Published As
Publication number | Publication date |
---|---|
CN114445442A (zh) | 2022-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114445442B (zh) | 基于非对称交叉融合的多光谱图像语义分割方法 | |
Mehra et al. | ReViewNet: A fast and resource optimized network for enabling safe autonomous driving in hazy weather conditions | |
CN109871798B (zh) | 一种基于卷积神经网络的遥感影像建筑物提取方法 | |
CN115049936B (zh) | 一种面向高分遥感影像的边界增强型语义分割方法 | |
CN112163449B (zh) | 一种轻量化的多分支特征跨层融合图像语义分割方法 | |
CN111563909B (zh) | 一种复杂街景图像语义分割方法 | |
CN106599773B (zh) | 用于智能驾驶的深度学习图像识别方法、系统及终端设备 | |
CN111915592B (zh) | 基于深度学习的遥感图像云检测方法 | |
CN111259828B (zh) | 基于高分辨率遥感图像多特征的识别方法 | |
CN113158768B (zh) | 基于ResNeSt和自注意力蒸馏的智能车辆车道线检测方法 | |
CN113902915A (zh) | 一种基于低光照复杂道路场景下的语义分割方法及系统 | |
CN111738113A (zh) | 基于双注意力机制与语义约束的高分辨遥感图像的道路提取方法 | |
CN113887472B (zh) | 基于级联颜色及纹理特征注意力的遥感图像云检测方法 | |
CN113723377A (zh) | 一种基于ld-ssd网络的交通标志检测方法 | |
CN110807485B (zh) | 基于高分遥感影像二分类语义分割图融合成多分类语义图的方法 | |
CN114022408A (zh) | 基于多尺度卷积神经网络的遥感图像云检测方法 | |
CN113326846B (zh) | 一种基于机器视觉的桥梁表观病害快速检测方法 | |
CN113554032A (zh) | 基于高度感知的多路并行网络的遥感图像分割方法 | |
CN114972748A (zh) | 一种可解释边缘注意力和灰度量化网络的红外语义分割方法 | |
CN112766056A (zh) | 一种基于深度神经网络的弱光环境车道线检测方法、装置 | |
CN114913498A (zh) | 一种基于关键点估计的并行多尺度特征聚合车道线检测方法 | |
CN116740121A (zh) | 一种基于专用神经网络和图像预处理的秸秆图像分割方法 | |
CN115527096A (zh) | 一种基于改进YOLOv5的小目标检测方法 | |
Wu et al. | Vehicle detection based on adaptive multi-modal feature fusion and cross-modal vehicle index using RGB-T images | |
CN113610032A (zh) | 基于遥感影像的建筑物识别方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |