CN114445442B - 基于非对称交叉融合的多光谱图像语义分割方法 - Google Patents

基于非对称交叉融合的多光谱图像语义分割方法 Download PDF

Info

Publication number
CN114445442B
CN114445442B CN202210111951.0A CN202210111951A CN114445442B CN 114445442 B CN114445442 B CN 114445442B CN 202210111951 A CN202210111951 A CN 202210111951A CN 114445442 B CN114445442 B CN 114445442B
Authority
CN
China
Prior art keywords
thermal
rgb
multispectral
image
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210111951.0A
Other languages
English (en)
Other versions
CN114445442A (zh
Inventor
李平
陈俊杰
徐向华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202210111951.0A priority Critical patent/CN114445442B/zh
Publication of CN114445442A publication Critical patent/CN114445442A/zh
Application granted granted Critical
Publication of CN114445442B publication Critical patent/CN114445442B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10032Satellite or aerial image; Remote sensing
    • G06T2207/10036Multispectral image; Hyperspectral image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于非对称交叉融合的多光谱图像语义分割方法。本发明方法首先对多光谱图像进行预处理,输入非对称编码器,获得RGB图像和Thermal图像的特征图及其显著置信度,将输入门控交叉融合模块得到融合特征图;将RGB和Thermal图像输入构建的多光谱显著性感知模块,得到对应显著伪标记;将融合特征图输入由转置卷积组成的解码器;使用随机梯度下降算法优化分割网络模型,对新的多光谱图像依次通过上述步骤获得语义分割结果。本发明方法通过非对称编码器提取多光谱图像特征,可有效减少模型计算开销,还利用门控交叉融合机制自适应地对图像的显著区域融合,有利于对像素点的空间分布关系进行建模,获得更优的语义分割性能。

Description

基于非对称交叉融合的多光谱图像语义分割方法
技术领域
本发明属于计算机视觉技术领域,尤其是多光谱数据中的语义分割领域,涉及一种基于非对称交叉融合的多光谱图像语义分割方法。
背景技术
随着我国车辆数量不断增加,驾驶员数量也随之增加。面对复杂的道路状况,驾驶员的不规范或夜间疲劳驾驶都将可能导致严重的车祸事故,因此,驾驶安全日益受到社会的高度关注,从而推动智能自动驾驶技术的发展。全天候条件下的高效稳健视觉感知系统是自动驾驶的关键部件,而多光谱图像语义分割作为其重要技术主要处理由RGB图像(可见光)和Thermal图像(不可见光)组成的多光谱图像。RGB图像是由红、绿、蓝三个颜色通道叠加而成的可见光光谱;Thermal图像是由温度在绝对零度以上的物体产生热辐射形成的不可见光谱。多光谱图像语义分割旨在对多光谱图像进行像素级别的类别标记,通常给定N个语义类别,其中包括N-1个前景类别和1个背景类别,获得与原始图像同等尺寸的逐像素类别标记矩阵。该技术可广泛应用在自动驾驶,无人机侦察、机器视觉等实际领域。例如,在自动驾驶夜间环境中,由于光照不足,仅利用RGB可见光摄像头无法有效采集路面状况,而利用多光谱摄像头可获得RGB图像与Thermal图像并组成多光谱图像,获得精确鲁棒的路况信息,有利于在光照不足或恶劣天气的情况中辅助驾驶并确保司乘安全。
近年来,深度卷积神经网络由于其卓越的特征提取能力被应用于多光谱图像语义分割。典型的方法利用现有深度卷积神经网络作为编码器,从多光谱图像组成的四通道张量中提取语义特征,然后通过解码器的逐层上采样操作获得逐像素类别标记矩阵。然而,此种方法在进行特征提取的过程中忽视RGB图像与Thermal图像两者的内在差异,对两种图像进行统一的特征提取,难以有效融合两种光谱的特征。为此,部分方法采用双流模型以获得准确的分割结果,其显著特点是:利用两个结构相同的卷积神经网络,即对称编码器分别作为RGB图像和Thermal图像的特征提取器,在特征提取的过程中,将两种光谱的中间特征图进行逐元素相加或者逐通道拼接得到融合特征图,以捕获两种光谱在多个分辨率下的语义特征,最后经过多次卷积与上采样得到逐像素类别标记矩阵。
上述方法存在的不足点主要表现在两个方面:1)为了提高精度,通常采用两个大型相同的卷积神经网络作为两种光谱的特征提取器,并没有充分考虑两种光谱数据的容量,如RGB图像能够刻画丰富的颜色、纹理等信息,而Thermal图像仅能表示粗略的位置与模糊的外观信息,使得提取Thermal图像的特征时存在冗余,并且时空复杂度高;2)采用逐元素相加或逐通道拼接的融合策略忽略了RGB图像与Thermal图像所刻画的物体信息差异,如难以有效地以互补的形式融合两种光谱物体信息。因此,针对双流分割模型的时空复杂度高、多光谱特征融合困难等问题,迫切需要一种既能达到较高分割精度又能保障多光谱分割模型轻量化的方法。
发明内容
本发明的目的就是针对现有技术的不足,提供一种基于非对称交叉融合的多光谱图像语义分割方法。本发明方法通过构建非对称结构编码器分别对RGB图像与Thermal图像进行特征提取,充分考虑RGB图像的颜色和纹理信息和Thermal图像的轮廓信息;同时设计门控交叉融合机制对两种光谱特征图中的显著性区域进行自适应融合,学习视觉显著性的先验知识,有利于提升模型在不同光照强度下对不同语义类别的判别能力,从而提高分割精度和鲁棒性。
本发明方法首先获取多光谱图像数据集合,然后进行如下操作:
步骤(1)对多光谱数据集进行预处理,将多光谱图像输入至非对称编码器,获得RGB图像的特征图和显著置信度,以及Thermal图像的特征图和显著置信度;
步骤(2)构建多光谱显著性感知模块,输入为RGB图像和Thermal图像,输出为RGB显著伪标记和Thermal显著伪标记;
步骤(3)构建门控交叉融合模块,输入为RGB图像和Thermal图像的特征图及其显著置信度,输出为融合特征图;
步骤(4)将融合特征图输入由转置卷积组成的解码器,获得预测分割标记;
步骤(5)对由非对称编码器、多光谱显著性感知模块、门控交叉融合模块、解码器构成的分割网络,使用交叉熵损失函数和L1损失函数进行优化,获得已训练的多光谱图像语义分割网络;
步骤(6)将新多光谱图像输入至已训练的分割网络,输出对应的语义分割结果。
步骤(1)具体是:
(1-1)对多光谱数据集进行预处理操作,得到训练数据集
Figure GDA0003904703560000021
其中Ii表示第i个增强多光谱图像训练样本,共N个训练样本,4表示多光谱通道数量,H表示多光谱图像的高度,W表示多光谱图像的宽度,其中
Figure GDA0003904703560000022
表示多光谱由配对的RGB图像与Thermal图像拼接而成,
Figure GDA0003904703560000031
表示第i个三通道的RGB图像样本,
Figure GDA0003904703560000032
表示第i个单通道的Thermal图像样本,上标r表示RGB,上标t表示Thermal;
(1-2)进行像素级标记,记为标记集合
Figure GDA0003904703560000033
其中Yi是高为H、宽为W的矩阵,像素级标记Yi的元素取值为{0,1,…,K},其中K为待分割的类别总数,在训练阶段每张多光谱都有对应的像素级标记,处理新多光谱时不会给出像素级标记;
(1-3)构建非对称编码器中的RGB编码器,即大型图像库ImageNet上预训练并去除全局池化层与全连接层的卷积神经网络ResNet,对训练数据集
Figure GDA0003904703560000034
的第i个RGB图像样本
Figure GDA0003904703560000035
依次提取RGB四个编码阶段特征图
Figure GDA0003904703560000036
其中H1=H/4,W1=W/4,Hj+1=Hj/2,Wj+1=Wj/2,Hj×Wj表示特征图分辨率,C1<C2<C3<C4表示特征图的通道维度,根据神经网络中间特征图的Hj维度和Wj维度的不同将ResNet分为4个编码阶段,第j个编码阶段为在ResNet中由多个卷积层组成的模块;
(1-4)构建RGB置信度预测分类器,由全局平均池化操作、全连接层、线性整流函数、全连接层、Sigmoid函数组成,将RGB第四编码阶段特征图
Figure GDA0003904703560000037
经过RGB置信度预测分类器得到RGB显著置信度Pi r,0≤Pi r≤1;
(1-5)构建非对称编码器中的轻量级Thermal编码器,对训练数据集
Figure GDA0003904703560000038
的第i个Thermal图像样本
Figure GDA0003904703560000039
依次提取Thermal各个编码阶段特征图
Figure GDA00039047035600000310
其中Thermal编码器分为四个阶段,每个阶段均由7×7卷积层(7×7表示卷积核大小)、2×2最大池化层(2×2表示下采样比例)和两个结构相同的上下文卷积模块组成;将Thermal图像样本
Figure GDA00039047035600000311
输入Thermal编码器第一阶段的7×7卷积层、2×2最大池化层,获得浅层视觉特征图
Figure GDA00039047035600000312
构建上下文卷积模块,具体包含了两条并行的特征提取支路:其中一条支路由1×1卷积层、空洞率为1和分组数为C1的3×3卷积层(3×3表示卷积核大小)与1×1卷积层(1×1表示卷积核大小)组成;另一条支路由空洞率为2和分组数为C1的3×3卷积层与1×1卷积层组成;每个卷积层之后,经过批归一化操作和线性整流函数,将浅层视觉特征图x输入上下文卷积模块得到第一支路特征图
Figure GDA00039047035600000313
和第二支路特征图
Figure GDA00039047035600000314
再经过通道维度上的拼接得到初级上下文特征图
Figure GDA00039047035600000315
将初级上下文特征图
Figure GDA00039047035600000316
输入到第二个上下文卷积模块,获得高级上下文特征图
Figure GDA0003904703560000041
再经过一次2×2最大池化层得到第一编码阶段Thermal特征图
Figure GDA0003904703560000042
将第一编码阶段特征图
Figure GDA0003904703560000043
输入到Thermal编码器的后续三个编码阶段获得后续特征图,最终输出四个编码阶段的Thermal特征图
Figure GDA0003904703560000044
(1-6)构建Thermal置信度预测分类器,由全局平均池化操作、全连接层、线性整流函数、全连接层、Sigmoid函数组成,将Thermal第四编码阶段特征图
Figure GDA0003904703560000045
经过Thermal置信度预测分类器得到Thermal显著置信度Pi t,0≤Pi t≤1。
步骤(2)具体是:
(2-1)构建多光谱显著性感知模块,将RGB图像
Figure GDA00039047035600000421
进行静态细粒度显著性计算,得到RGB显著图
Figure GDA0003904703560000046
将Thermal图像
Figure GDA00039047035600000422
进行静态细粒度显著性计算,得到Thermal显著图
Figure GDA0003904703560000047
静态细粒度显著性算法是一种基于中心像素点与周围像素点之间的差异计算显著值的传统图像处理方法;
(2-2)对RGB显著图
Figure GDA0003904703560000048
通过OSTU(大津法)进行阈值分割得到RGB二值图像
Figure GDA0003904703560000049
对Thermal显著图
Figure GDA00039047035600000410
通过OSTU(大津法)进行阈值分割得到Thermal二值图像
Figure GDA00039047035600000411
(2-3)计算RGB二值图像
Figure GDA00039047035600000412
与像素级标记Yi的交并比
Figure GDA00039047035600000413
计算Thermal二值图像
Figure GDA00039047035600000414
与像素级标记Yi的交并比
Figure GDA00039047035600000415
(2-4)通过交并比得到两种光谱图像的显著伪标记:RGB显著伪标记
Figure GDA00039047035600000416
Figure GDA00039047035600000417
Thermal显著伪标记
Figure GDA00039047035600000418
1e-7的作用是为了防止除数为零。
进一步,步骤(3)具体是:
(3-1)构建门控交叉融合模块,由光谱引导模块和Sigmoid函数组成,将Thermal第四编码阶段特征图
Figure GDA00039047035600000419
输入到光谱引导模块得到Thermal第四编码阶段光谱特征图
Figure GDA00039047035600000420
光谱引导模块由1×1卷积层、7×7卷积层、1×1卷积层组成,目的是利用大感受野捕获重要的细节区域,进而感知该编码阶段特征图的显著性区域;
(3-2)将RGB第四编码阶段特征图
Figure GDA0003904703560000051
输入到新构建的光谱引导模块得到RGB第四编码阶段光谱特征图
Figure GDA0003904703560000052
将Thermal第四编码阶段光谱特征图
Figure GDA0003904703560000053
经过Sigmoid函数再与RGB第四编码阶段光谱特征图
Figure GDA0003904703560000054
进行逐元素乘法操作,得到RGB第四编码阶段多光谱融合特征图
Figure GDA0003904703560000055
(3-3)将RGB第四编码阶段光谱特征图
Figure GDA0003904703560000056
经过Sigmoid函数,再与Thermal第四编码阶段光谱特征图
Figure GDA0003904703560000057
进行逐元素乘法操作,得到Thermal第四编码阶段多光谱融合特征图
Figure GDA0003904703560000058
将Thermal第四编码阶段特征图
Figure GDA0003904703560000059
与Thermal第四编码阶段多光谱融合特征图
Figure GDA00039047035600000510
进行逐元素相加再乘以Thermal显著置信度Pi t,得到Thermal第四编码阶段增强特征图
Figure GDA00039047035600000511
将RGB第四编码阶段特征图
Figure GDA00039047035600000512
与RGB第四编码阶段多光谱融合特征图
Figure GDA00039047035600000513
进行逐元素相加再乘以RGB显著置信度Pi r,得到RGB第四编码阶段增强特征图
Figure GDA00039047035600000514
将Thermal第四编码阶段增强特征图
Figure GDA00039047035600000515
和RGB第四编码阶段增强特征图
Figure GDA00039047035600000516
进行逐元素相加得到第四编码阶段融合特征图
Figure GDA00039047035600000517
(3-4)将Thermal第三编码阶段特征图
Figure GDA00039047035600000518
和RGB第三编码阶段特征图
Figure GDA00039047035600000519
输入到新构建的门控交叉融合模块,经过与(3-1)~(3-3)同类操作,获得第三编码阶段融合特征图
Figure GDA00039047035600000520
将Thermal第二编码阶段特征图
Figure GDA00039047035600000521
和RGB第二编码阶段特征图
Figure GDA00039047035600000522
输入到新构建的门控交叉融合模块,经过与(3-1)~(3-3)同类操作,获得第二编码阶段融合特征图
Figure GDA00039047035600000523
将Thermal第一编码阶段特征图
Figure GDA00039047035600000524
和RGB第一编码阶段特征图
Figure GDA00039047035600000525
输入到新构建的门控交叉融合模块,经过与(3-1)~(3-3)同类操作,获得第一编码阶段融合特征图
Figure GDA00039047035600000526
更进一步,步骤(4)具体是:
(4-1)构建由五个转置卷积层组成的解码器,转置卷积即卷积的逆向过程,将第一编码阶段融合特征图fi,1输入到解码器第一个转置卷积层得到第一编码阶段修正特征图
Figure GDA00039047035600000527
(4-2)将第二编码阶段融合特征图fi,2输入到解码器第二个转置卷积层,得到第二编码阶段修正特征图
Figure GDA0003904703560000061
将第三编码阶段融合特征图fi,3输入到解码器第三个转置卷积层,得到第三编码阶段修正特征图
Figure GDA0003904703560000062
将第四编码阶段融合特征图fi,4输入到解码器第四个转置卷积层,得到第四编码阶段修正特征图
Figure GDA0003904703560000063
(4-3)将各个编码阶段修正特征图进行通道维度上的拼接,得到集成修正特征图
Figure GDA0003904703560000064
(4-4)将集成修正特征图ti输入到解码器的第五个转置卷积,得到预测分割标记
Figure GDA0003904703560000065
多光谱图像中每个像素对应的类别为这K个类别中概率最大的类别。
再进一步,步骤(5)的具体是:
(5-1)将预测分割标记
Figure GDA0003904703560000066
与像素级标记Yi作为输入,利用交叉熵损失函数计算损失值
Figure GDA0003904703560000067
h表示像素点纵轴坐标值,w表示像素点横轴坐标值,k表示K个语义类别中的第k个类别;
(5-2)将RGB显著伪标记
Figure GDA0003904703560000068
和RGB显著置信度Pi r作为输入,利用L1损失函数计算损失值:
Figure GDA0003904703560000069
其中||·||1表示L1范数;将Thermal显著伪标记
Figure GDA00039047035600000610
和Thermal显著置信度Pi t作为输入,利用L1损失函数计算损失值:
Figure GDA00039047035600000611
(5-3)将损失值
Figure GDA00039047035600000612
作为输入,得到最终的损失函数为
Figure GDA00039047035600000613
λ>0为置信度损失函数权重;
(5-4)通过随机梯度下降算法对由非对称编码器、多光谱显著性感知模块、门控交叉融合模块、解码器构成的分割网络模型进行优化,获得训练好的多光谱图像语义分割网络。
还进一步,步骤(6)具体是:
(6-1)获取新多光谱图像,并将其按照步骤(1)方法获得两种光谱的各个编码阶段特征图、RGB显著置信度和Thermal显著置信度;
(6-2)将两种光谱的各个编码阶段特征图、RGB显著置信度和Thermal显著置信度按照步骤(3)和(4)进行操作,最终输出相应的分割结果
Figure GDA00039047035600000614
其中第一个维度表示语义类别。
本发明方法利用非对称编码器和门控交叉融合模块对多光谱图像进行语义分割,具有以下几个特点:1)不同于已有方法利用两个大型对称编码器对RGB图像和Thermal图像进行特征提取,所设计的非对称编码器对多光谱进行特征提取,通过构建轻量级Thermal编码器从低层特征表示中捕获边缘、轮廓等信息以及从高层特征表示中捕获语义信息,进而减少冗余的Thermal图像编码特征和整体模型的参数量;2)通过构建门控交叉融合模块,根据计算多光谱显著置信度对两种光谱的特征图分配不同权重,能够自适应地选择两种光谱特征图中显著性区域进行融合,有效地选取两种光谱的互补特征进行融合,获得更加精确的分割结果。
本发明方法适用于对实时性要求严格的多光谱图像语义分割,有益效果包括:1)通过构建非对称编码器对多光谱图像进行特征提取,能有效地减少冗余特征和整体网络的参数量,能够提高分割速度;2)通过构建门控交叉融合模块能够在不显著增加网络复杂度的情况下,能够自适应选择多光谱特征图中显著性区域进行有效融合,获得更加精确的分割结果。本发明具有高效的多光谱特征提取能力和有效的特征交叉融合能力,可应用于自动驾驶,无人机侦察、机器视觉等实际领域。
附图说明
图1是本发明方法的流程图。
具体实施方式
以下结合附图对本发明作进一步说明。
如图1,一种基于非对称交叉融合的多光谱图像语义分割方法,首先获取多光谱图像在非对称编码器中各个编码阶段的特征图和显著置信度;在训练阶段中构建多光谱显著性感知模块生成显著伪标记,并对显著置信度进行训练优化;然后通过门控交叉融合机制将多光谱各个编码阶段和显著置信度进行多光谱融合得到各个编码阶段融合特征图,最后,将各个编码融合特征图输入解码器进行上采样得到语义分割结果。该方法利用非对称编码器,即构建两个由不同层数的卷积神经网络组成的编码器对两种光谱图像进行特征提取,减少提取Thermal图像时产生的冗余特征,降低整体网络的计算量,提高分割速度;同时利用门控交叉融合机制根据两种光谱图像的显著性,实现自适应融合互补的多光谱特征,提高在不同光照强度场景下的稳定性和健壮性。
具体是获取多光谱图像数据集合后,进行如下操作:
步骤(1)对多光谱数据集进行预处理,将多光谱图像输入至非对称编码器,获得RGB图像的特征图和显著置信度,以及Thermal图像的特征图和显著置信度。具体是:
(1-1)对多光谱数据集进行预处理操作,得到训练数据集
Figure GDA0003904703560000081
其中Ii表示第i个增强多光谱图像训练样本,共N个训练样本,4表示多光谱通道数量,H表示多光谱图像的高度,W表示多光谱图像的宽度,其中
Figure GDA0003904703560000082
表示多光谱由配对的RGB图像与Thermal图像拼接而成,
Figure GDA0003904703560000083
表示第i个三通道的RGB图像样本,
Figure GDA0003904703560000084
表示第i个单通道的Thermal图像样本,上标r表示RGB,上标t表示Thermal;
(1-2)进行像素级标记,记为标记集合
Figure GDA0003904703560000085
其中Yi是高为H、宽为W的矩阵,像素级标记Yi的元素取值为{0,1,…,K},其中K为待分割的类别总数,在训练阶段每张多光谱都有对应的像素级标记,处理新多光谱时不会给出像素级标记;
(1-3)构建非对称编码器中的RGB编码器,即大型图像库ImageNet上预训练并去除全局池化层与全连接层的卷积神经网络ResNet,对训练数据集
Figure GDA0003904703560000086
的第i个RGB图像样本
Figure GDA0003904703560000087
依次提取RGB四个编码阶段特征图
Figure GDA0003904703560000088
其中H1=H/4,W1=W/4,Hj+1=Hj/2,Wj+1=Wj/2,Hj×Wj表示特征图分辨率,C1<C2<C3<C4表示特征图的通道维度,根据神经网络中间特征图的Hj维度和Wj维度的不同将ResNet分为4个编码阶段,第j个编码阶段为在ResNet中由多个卷积层组成的模块;
(1-4)构建RGB置信度预测分类器,由全局平均池化操作、全连接层、线性整流函数、全连接层、Sigmoid函数组成,将RGB第四编码阶段特征图
Figure GDA0003904703560000089
经过RGB置信度预测分类器得到RGB显著置信度Pi r,0≤Pi r≤1;
(1-5)构建非对称编码器中的轻量级Thermal编码器,对训练数据集
Figure GDA00039047035600000810
的第i个Thermal图像样本
Figure GDA00039047035600000811
依次提取Thermal各个编码阶段特征图
Figure GDA00039047035600000812
其中Thermal编码器分为四个阶段,每个阶段均由7×7卷积层(7×7表示卷积核大小)、2×2最大池化层(2×2表示下采样比例)和两个结构相同的上下文卷积模块组成;将Thermal图像样本
Figure GDA00039047035600000813
输入Thermal编码器第一阶段的7×7卷积层、2×2最大池化层,获得浅层视觉特征图
Figure GDA00039047035600000814
构建上下文卷积模块,具体包含了两条并行的特征提取支路:其中一条支路由1×1卷积层、空洞率为1和分组数为C1的3×3卷积层(3×3表示卷积核大小)与1×1卷积层(1×1表示卷积核大小)组成;另一条支路由空洞率为2和分组数为C1的3×3卷积层与1×1卷积层组成;每个卷积层之后,经过批归一化操作和线性整流函数,将浅层视觉特征图x输入上下文卷积模块得到第一支路特征图
Figure GDA0003904703560000091
和第二支路特征图
Figure GDA0003904703560000092
再经过通道维度上的拼接得到初级上下文特征图
Figure GDA0003904703560000093
将初级上下文特征图
Figure GDA0003904703560000094
输入到第二个上下文卷积模块,获得高级上下文特征图
Figure GDA0003904703560000095
再经过一次2×2最大池化层得到第一编码阶段Thermal特征图
Figure GDA0003904703560000096
将第一编码阶段特征图
Figure GDA0003904703560000097
输入到Thermal编码器的后续三个编码阶段获得后续特征图,最终输出四个编码阶段的Thermal特征图
Figure GDA0003904703560000098
(1-6)构建Thermal置信度预测分类器,由全局平均池化操作、全连接层、线性整流函数、全连接层、Sigmoid函数组成,将Thermal第四编码阶段特征图
Figure GDA0003904703560000099
经过Thermal置信度预测分类器得到Thermal显著置信度Pi t,0≤Pi t≤1。
步骤(2)构建多光谱显著性感知模块,输入为RGB图像和Thermal图像,输出为RGB显著伪标记和Thermal显著伪标记。具体是:
(2-1)构建多光谱显著性感知模块,将RGB图像
Figure GDA00039047035600000924
进行静态细粒度显著性计算,得到RGB显著图
Figure GDA00039047035600000910
将Thermal图像
Figure GDA00039047035600000911
进行静态细粒度显著性计算,得到Thermal显著图
Figure GDA00039047035600000912
(2-2)对RGB显著图
Figure GDA00039047035600000913
通过OSTU(大津法)进行阈值分割得到RGB二值图像
Figure GDA00039047035600000914
对Thermal显著图
Figure GDA00039047035600000915
通过OSTU(大津法)进行阈值分割得到Thermal二值图像
Figure GDA00039047035600000916
(2-3)计算RGB二值图像
Figure GDA00039047035600000917
与像素级标记Yi的交并比
Figure GDA00039047035600000918
计算Thermal二值图像
Figure GDA00039047035600000919
与像素级标记Yi的交并比
Figure GDA00039047035600000920
(2-4)通过交并比得到两种光谱图像的显著伪标记:RGB显著伪标记
Figure GDA00039047035600000921
Figure GDA00039047035600000922
Thermal显著伪标记
Figure GDA00039047035600000923
1e-7的作用是为了防止除数为零。
步骤(3)构建门控交叉融合模块,输入为RGB图像和Thermal图像的特征图及其显著置信度,输出为融合特征图。具体是:
(3-1)构建门控交叉融合模块,由光谱引导模块和Sigmoid函数组成,将Thermal第四编码阶段特征图
Figure GDA0003904703560000101
输入到光谱引导模块得到Thermal第四编码阶段光谱特征图
Figure GDA0003904703560000102
光谱引导模块由1×1卷积层、7×7卷积层、1×1卷积层组成,目的是利用大感受野捕获重要的细节区域,进而感知该编码阶段特征图的显著性区域;
(3-2)将RGB第四编码阶段特征图
Figure GDA0003904703560000103
输入到新构建的光谱引导模块得到RGB第四编码阶段光谱特征图
Figure GDA0003904703560000104
将Thermal第四编码阶段光谱特征图
Figure GDA0003904703560000105
经过Sigmoid函数再与RGB第四编码阶段光谱特征图
Figure GDA0003904703560000106
进行逐元素乘法操作,得到RGB第四编码阶段多光谱融合特征图
Figure GDA0003904703560000107
(3-3)将RGB第四编码阶段光谱特征图
Figure GDA0003904703560000108
经过Sigmoid函数,再与Thermal第四编码阶段光谱特征图
Figure GDA0003904703560000109
进行逐元素乘法操作,得到Thermal第四编码阶段多光谱融合特征图
Figure GDA00039047035600001010
将Thermal第四编码阶段特征图
Figure GDA00039047035600001011
与Thermal第四编码阶段多光谱融合特征图
Figure GDA00039047035600001012
进行逐元素相加再乘以Thermal显著置信度Pi t,得到Thermal第四编码阶段增强特征图
Figure GDA00039047035600001013
将RGB第四编码阶段特征图
Figure GDA00039047035600001014
与RGB第四编码阶段多光谱融合特征图
Figure GDA00039047035600001015
进行逐元素相加再乘以RGB显著置信度Pi r,得到RGB第四编码阶段增强特征图
Figure GDA00039047035600001016
将Thermal第四编码阶段增强特征图
Figure GDA00039047035600001017
和RGB第四编码阶段增强特征图
Figure GDA00039047035600001018
进行逐元素相加得到第四编码阶段融合特征图
Figure GDA00039047035600001019
(3-4)将Thermal第三编码阶段特征图
Figure GDA00039047035600001020
和RGB第三编码阶段特征图
Figure GDA00039047035600001021
输入到新构建的门控交叉融合模块,经过与(3-1)~(3-3)同类操作,获得第三编码阶段融合特征图
Figure GDA00039047035600001022
将Thermal第二编码阶段特征图
Figure GDA00039047035600001023
和RGB第二编码阶段特征图
Figure GDA00039047035600001024
输入到新构建的门控交叉融合模块,经过与(3-1)~(3-3)同类操作,获得第二编码阶段融合特征图
Figure GDA00039047035600001025
将Thermal第一编码阶段特征图
Figure GDA00039047035600001026
和RGB第一编码阶段特征图
Figure GDA0003904703560000111
输入到新构建的门控交叉融合模块,经过与(3-1)~(3-3)同类操作,获得第一编码阶段融合特征图
Figure GDA0003904703560000112
步骤(4)将融合特征图输入由转置卷积组成的解码器,获得预测分割标记。具体是:
(4-1)构建由五个转置卷积层组成的解码器,转置卷积即卷积的逆向过程,将第一编码阶段融合特征图fi,1输入到解码器第一个转置卷积层得到第一编码阶段修正特征图
Figure GDA0003904703560000113
(4-2)将第二编码阶段融合特征图fi,2输入到解码器第二个转置卷积层,得到第二编码阶段修正特征图
Figure GDA0003904703560000114
将第三编码阶段融合特征图fi,3输入到解码器第三个转置卷积层,得到第三编码阶段修正特征图
Figure GDA0003904703560000115
将第四编码阶段融合特征图fi,4输入到解码器第四个转置卷积层,得到第四编码阶段修正特征图
Figure GDA0003904703560000116
(4-3)将各个编码阶段修正特征图进行通道维度上的拼接,得到集成修正特征图
Figure GDA0003904703560000117
(4-4)将集成修正特征图ti输入到解码器的第五个转置卷积,得到预测分割标记
Figure GDA0003904703560000118
多光谱图像中每个像素对应的类别为这K个类别中概率最大的类别。
步骤(5)对由非对称编码器、多光谱显著性感知模块、门控交叉融合模块、解码器构成的分割网络,使用交叉熵损失函数和L1损失函数进行优化,获得已训练的多光谱图像语义分割网络。具体是:
(5-1)将预测分割标记
Figure GDA0003904703560000119
与像素级标记Yi作为输入,利用交叉熵损失函数计算损失值
Figure GDA00039047035600001110
h表示像素点纵轴坐标值,w表示像素点横轴坐标值,k表示K个语义类别中的第k个类别;
(5-2)将RGB显著伪标记
Figure GDA00039047035600001111
和RGB显著置信度Pi r作为输入,利用L1损失函数计算损失值:
Figure GDA00039047035600001112
其中||·||1表示L1范数;将Thermal显著伪标记
Figure GDA00039047035600001113
和Thermal显著置信度Pi t作为输入,利用L1损失函数计算损失值:
Figure GDA00039047035600001114
(5-3)将损失值
Figure GDA00039047035600001115
作为输入,得到最终的损失函数为
Figure GDA00039047035600001116
λ>0为置信度损失函数权重;
(5-4)通过随机梯度下降算法对由非对称编码器、多光谱显著性感知模块、门控交叉融合模块、解码器构成的分割网络模型进行优化,获得训练好的多光谱图像语义分割网络。
步骤(6)将新多光谱图像输入至已训练的分割网络,输出对应的语义分割结果。具体是:
(6-1)获取新多光谱图像,并将其按照步骤(1)方法获得两种光谱的各个编码阶段特征图、RGB显著置信度和Thermal显著置信度;
(6-2)将两种光谱的各个编码阶段特征图、RGB显著置信度和Thermal显著置信度按照步骤(3)和(4)进行操作,最终输出相应的分割结果
Figure GDA0003904703560000121
其中第一个维度表示语义类别。
本实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (5)

1.基于非对称交叉融合的多光谱图像语义分割方法,其特征在于,该方法首先获取多光谱图像数据集合,然后进行如下操作:
步骤(1)对多光谱数据集进行预处理,将多光谱图像输入至非对称编码器,获得RGB图像的特征图和显著置信度,以及Thermal图像的特征图和显著置信度;具体是:
(1-1)对多光谱数据集进行预处理操作,得到训练数据集
Figure FDA0003904703550000011
其中Ii表示第i个增强多光谱图像训练样本,共N个训练样本,4表示多光谱通道数量,H表示多光谱图像的高度,W表示多光谱图像的宽度,其中
Figure FDA0003904703550000012
表示多光谱由配对的RGB图像与Thermal图像拼接而成,
Figure FDA0003904703550000013
表示第i个三通道的RGB图像样本,
Figure FDA0003904703550000014
表示第i个单通道的Thermal图像样本,上标r表示RGB,上标t表示Thermal;
(1-2)进行像素级标记,记为标记集合
Figure FDA0003904703550000015
其中Yi是高为H、宽为W的矩阵,像素级标记Yi的元素取值为{0,1,…,K},其中K为待分割的类别总数,在训练阶段每张多光谱都有对应的像素级标记,处理新多光谱时不会给出像素级标记;
(1-3)构建非对称编码器中的RGB编码器,即大型图像库ImageNet上预训练并去除全局池化层与全连接层的卷积神经网络ResNet,对训练数据集
Figure FDA0003904703550000016
的第i个RGB图像样本Iir依次提取RGB四个编码阶段特征图
Figure FDA0003904703550000017
其中H1=H/4,W1=W/4,Hj+1=Hj/2,Wj+1=Wj/2,Hj×Wj表示特征图分辨率,C1<C2<C3<C4表示特征图的通道维度,根据神经网络中间特征图的Hj维度和Wj维度的不同将ResNet分为4个编码阶段,第j个编码阶段为在ResNet中由多个卷积层组成的模块;
(1-4)构建RGB置信度预测分类器,由全局平均池化操作、全连接层、线性整流函数、全连接层、Sigmoid函数组成,将RGB第四编码阶段特征图
Figure FDA0003904703550000018
经过RGB置信度预测分类器得到RGB显著置信度Pi r,0≤Pi r≤1;
(1-5)构建非对称编码器中的轻量级Thermal编码器,对训练数据集
Figure FDA0003904703550000019
的第i个Thermal图像样本
Figure FDA00039047035500000110
依次提取Thermal各个编码阶段特征图
Figure FDA00039047035500000111
其中Thermal编码器分为四个阶段,每个阶段均由7×7卷积层、2×2最大池化层和两个结构相同的上下文卷积模块组成;将Thermal图像样本
Figure FDA0003904703550000021
输入Thermal编码器第一阶段的7×7卷积层、2×2最大池化层,获得浅层视觉特征图
Figure FDA0003904703550000022
构建上下文卷积模块,具体包含了两条并行的特征提取支路:其中一条支路由1×1卷积层、空洞率为1和分组数为C1的3×3卷积层与1×1卷积层组成;另一条支路由空洞率为2和分组数为C1的3×3卷积层与1×1卷积层组成;每个卷积层之后,经过批归一化操作和线性整流函数,将浅层视觉特征图x输入上下文卷积模块得到第一支路特征图
Figure FDA0003904703550000023
和第二支路特征图
Figure FDA0003904703550000024
再经过通道维度上的拼接得到初级上下文特征图
Figure FDA0003904703550000025
将初级上下文特征图
Figure FDA0003904703550000026
输入到第二个上下文卷积模块,获得高级上下文特征图
Figure FDA0003904703550000027
再经过一次2×2最大池化层得到第一编码阶段Thermal特征图
Figure FDA0003904703550000028
将第一编码阶段特征图
Figure FDA0003904703550000029
输入到Thermal编码器的后续三个编码阶段获得后续特征图,最终输出四个编码阶段的Thermal特征图
Figure FDA00039047035500000210
(1-6)构建Thermal置信度预测分类器,由全局平均池化操作、全连接层、线性整流函数、全连接层、Sigmoid函数组成,将Thermal第四编码阶段特征图
Figure FDA00039047035500000211
经过Thermal置信度预测分类器得到Thermal显著置信度Pi t,0≤Pi t≤1;
步骤(2)构建多光谱显著性感知模块,输入为RGB图像和Thermal图像,输出为RGB显著伪标记和Thermal显著伪标记;具体是:
(2-1)构建多光谱显著性感知模块,将RGB图像
Figure FDA00039047035500000212
进行静态细粒度显著性计算,得到RGB显著图
Figure FDA00039047035500000213
将Thermal图像
Figure FDA00039047035500000214
进行静态细粒度显著性计算,得到Thermal显著图
Figure FDA00039047035500000215
(2-2)对RGB显著图
Figure FDA00039047035500000216
通过大津法进行阈值分割得到RGB二值图像
Figure FDA00039047035500000217
对Thermal显著图
Figure FDA00039047035500000218
通过大津法进行阈值分割得到Thermal二值图像
Figure FDA00039047035500000219
(2-3)计算RGB二值图像
Figure FDA0003904703550000031
与像素级标记Yi的交并比
Figure FDA0003904703550000032
计算Thermal二值图像
Figure FDA0003904703550000033
与像素级标记Yi的交并比
Figure FDA0003904703550000034
(2-4)通过交并比得到两种光谱图像的显著伪标记:RGB显著伪标记
Figure FDA0003904703550000035
Figure FDA0003904703550000036
Thermal显著伪标记
Figure FDA0003904703550000037
1e-7的作用是为了防止除数为零;
步骤(3)构建门控交叉融合模块,输入为RGB图像和Thermal图像的特征图及其显著置信度,输出为融合特征图;
步骤(4)将融合特征图输入由转置卷积组成的解码器,获得预测分割标记;
步骤(5)对由非对称编码器、多光谱显著性感知模块、门控交叉融合模块、解码器构成的分割网络,使用交叉熵损失函数和L1损失函数进行优化,获得已训练的多光谱图像语义分割网络;
步骤(6)将新多光谱图像输入至已训练的分割网络,输出对应的语义分割结果。
2.如权利要求1所述的基于非对称交叉融合的多光谱图像语义分割方法,其特征在于,步骤(3)具体是:
(3-1)构建门控交叉融合模块,由光谱引导模块和Sigmoid函数组成,所述的光谱引导模块由1×1卷积层、7×7卷积层、1×1卷积层组成;将Thermal第四编码阶段特征图
Figure FDA0003904703550000038
输入到光谱引导模块得到Thermal第四编码阶段光谱特征图
Figure FDA0003904703550000039
(3-2)将RGB第四编码阶段特征图
Figure FDA00039047035500000310
输入到新构建的光谱引导模块得到RGB第四编码阶段光谱特征图
Figure FDA00039047035500000311
将Thermal第四编码阶段光谱特征图
Figure FDA00039047035500000312
经过Sigmoid函数再与RGB第四编码阶段光谱特征图
Figure FDA00039047035500000313
进行逐元素乘法操作,得到RGB第四编码阶段多光谱融合特征图
Figure FDA00039047035500000314
(3-3)将RGB第四编码阶段光谱特征图
Figure FDA00039047035500000315
经过Sigmoid函数,再与Thermal第四编码阶段光谱特征图
Figure FDA00039047035500000316
进行逐元素乘法操作,得到Thermal第四编码阶段多光谱融合特征图
Figure FDA00039047035500000317
将Thermal第四编码阶段特征图
Figure FDA00039047035500000318
与Thermal第四编码阶段多光谱融合特征图
Figure FDA0003904703550000041
进行逐元素相加再乘以Thermal显著置信度Pi t,得到Thermal第四编码阶段增强特征图
Figure FDA0003904703550000042
将RGB第四编码阶段特征图
Figure FDA0003904703550000043
与RGB第四编码阶段多光谱融合特征图
Figure FDA0003904703550000044
进行逐元素相加再乘以RGB显著置信度Pi r,得到RGB第四编码阶段增强特征图
Figure FDA0003904703550000045
将Thermal第四编码阶段增强特征图
Figure FDA0003904703550000046
和RGB第四编码阶段增强特征图
Figure FDA0003904703550000047
进行逐元素相加得到第四编码阶段融合特征图
Figure FDA0003904703550000048
(3-4)将Thermal第三编码阶段特征图
Figure FDA0003904703550000049
和RGB第三编码阶段特征图
Figure FDA00039047035500000410
输入到新构建的门控交叉融合模块,经过与(3-1)~(3-3)同类操作,获得第三编码阶段融合特征图
Figure FDA00039047035500000411
将Thermal第二编码阶段特征图
Figure FDA00039047035500000412
和RGB第二编码阶段特征图
Figure FDA00039047035500000413
输入到新构建的门控交叉融合模块,经过与(3-1)~(3-3)同类操作,获得第二编码阶段融合特征图
Figure FDA00039047035500000414
将Thermal第一编码阶段特征图
Figure FDA00039047035500000415
和RGB第一编码阶段特征图
Figure FDA00039047035500000416
输入到新构建的门控交叉融合模块,经过与(3-1)~(3-3)同类操作,获得第一编码阶段融合特征图
Figure FDA00039047035500000417
3.如权利要求2所述的基于非对称交叉融合的多光谱图像语义分割方法,其特征在于,步骤(4)具体是:
(4-1)构建由五个转置卷积层组成的解码器,转置卷积即卷积的逆向过程,将第一编码阶段融合特征图fi,1输入到解码器第一个转置卷积层得到第一编码阶段修正特征图
Figure FDA00039047035500000418
(4-2)将第二编码阶段融合特征图fi,2输入到解码器第二个转置卷积层,得到第二编码阶段修正特征图
Figure FDA00039047035500000419
将第三编码阶段融合特征图fi,3输入到解码器第三个转置卷积层,得到第三编码阶段修正特征图
Figure FDA00039047035500000420
将第四编码阶段融合特征图fi,4输入到解码器第四个转置卷积层,得到第四编码阶段修正特征图
Figure FDA00039047035500000421
(4-3)将各个编码阶段修正特征图进行通道维度上的拼接,得到集成修正特征图
Figure FDA00039047035500000422
(4-4)将集成修正特征图ti输入到解码器的第五个转置卷积,得到预测分割标记
Figure FDA0003904703550000051
多光谱图像中每个像素对应的类别为这K个类别中概率最大的类别。
4.如权利要求3所述的基于非对称交叉融合的多光谱图像语义分割方法,其特征在于,步骤(5)具体是:
(5-1)将预测分割标记
Figure FDA0003904703550000052
与像素级标记Yi作为输入,利用交叉熵损失函数计算损失值
Figure FDA0003904703550000053
h表示像素点纵轴坐标值,w表示像素点横轴坐标值,k表示K个语义类别中的第k个类别;
(5-2)将RGB显著伪标记
Figure FDA0003904703550000054
和RGB显著置信度Pi r作为输入,利用L1损失函数计算损失值:
Figure FDA0003904703550000055
其中||·||1表示L1范数;将Thermal显著伪标记
Figure FDA0003904703550000056
和Thermal显著置信度Pi t作为输入,利用L1损失函数计算损失值:
Figure FDA0003904703550000057
(5-3)将损失值
Figure FDA0003904703550000058
作为输入,得到最终的损失函数为
Figure FDA0003904703550000059
λ>0为置信度损失函数权重;
(5-4)通过随机梯度下降算法对由非对称编码器、多光谱显著性感知模块、门控交叉融合模块、解码器构成的分割网络模型进行优化,获得训练好的多光谱图像语义分割网络。
5.如权利要求4所述的基于非对称交叉融合的多光谱图像语义分割方法,其特征在于,步骤(6)具体是:
(6-1)获取新多光谱图像,并将其按照步骤(1)方法获得两种光谱的各个编码阶段特征图、RGB显著置信度和Thermal显著置信度;
(6-2)将两种光谱的各个编码阶段特征图、RGB显著置信度和Thermal显著置信度按照步骤(3)和(4)进行操作,最终输出相应的分割结果
Figure FDA00039047035500000510
其中第一个维度表示语义类别。
CN202210111951.0A 2022-01-28 2022-01-28 基于非对称交叉融合的多光谱图像语义分割方法 Active CN114445442B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210111951.0A CN114445442B (zh) 2022-01-28 2022-01-28 基于非对称交叉融合的多光谱图像语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210111951.0A CN114445442B (zh) 2022-01-28 2022-01-28 基于非对称交叉融合的多光谱图像语义分割方法

Publications (2)

Publication Number Publication Date
CN114445442A CN114445442A (zh) 2022-05-06
CN114445442B true CN114445442B (zh) 2022-12-02

Family

ID=81371151

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210111951.0A Active CN114445442B (zh) 2022-01-28 2022-01-28 基于非对称交叉融合的多光谱图像语义分割方法

Country Status (1)

Country Link
CN (1) CN114445442B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116310566B (zh) * 2023-03-23 2023-09-15 华谱科仪(北京)科技有限公司 色谱数据图处理方法、计算机设备和计算机可读存储介质
CN116805360B (zh) * 2023-08-21 2023-12-05 江西师范大学 一种基于双流门控渐进优化网络的显著目标检测方法
CN118279593A (zh) * 2024-06-03 2024-07-02 之江实验室 基于遥感语义分割的城市碳排放精细化分析方法及装置
CN118485835A (zh) * 2024-07-16 2024-08-13 杭州电子科技大学 基于模态分歧差异融合的多光谱图像语义分割方法

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107146219A (zh) * 2017-04-13 2017-09-08 大连理工大学 一种基于流形正则化支持向量机的图像显著性检测方法
CN110619638A (zh) * 2019-08-22 2019-12-27 浙江科技学院 一种基于卷积块注意模块的多模态融合显著性检测方法
CN110751655A (zh) * 2019-09-16 2020-02-04 南京工程学院 一种基于语义分割和显著性分析的自动抠图方法
CN111160040A (zh) * 2019-12-26 2020-05-15 西安交通大学 一种基于多尺度门控均衡交互融合网络的信息可信度评估系统及方法
CN111563418A (zh) * 2020-04-14 2020-08-21 浙江科技学院 一种基于注意力机制的非对称多模态融合显著性检测方法
CN111768375A (zh) * 2020-06-24 2020-10-13 海南大学 一种基于cwam的非对称gm多模态融合显著性检测方法及系统
CN111983691A (zh) * 2020-08-18 2020-11-24 北京北斗天巡科技有限公司 一种多模型融合的储层预测方法及软件系统
CN112784745A (zh) * 2021-01-22 2021-05-11 中山大学 基于置信度自适应和差分增强的视频显著物体检测方法
WO2021088300A1 (zh) * 2019-11-09 2021-05-14 北京工业大学 一种基于非对称双流网络的rgb-d多模态融合人员检测方法
CN113158875A (zh) * 2021-04-16 2021-07-23 重庆邮电大学 基于多模态交互融合网络的图文情感分析方法及系统
CN113192089A (zh) * 2021-04-12 2021-07-30 温州医科大学附属眼视光医院 一种用于图像分割的双向交叉连接的卷积神经网络
CN113192073A (zh) * 2021-04-06 2021-07-30 浙江科技学院 基于交叉融合网络的服装语义分割方法
CN113269787A (zh) * 2021-05-20 2021-08-17 浙江科技学院 一种基于门控融合的遥感图像语义分割方法
CN113486899A (zh) * 2021-05-26 2021-10-08 南开大学 一种基于互补分支网络的显著性目标检测方法
US11189034B1 (en) * 2020-07-22 2021-11-30 Zhejiang University Semantic segmentation method and system for high-resolution remote sensing image based on random blocks
CN113762264A (zh) * 2021-08-26 2021-12-07 南京航空航天大学 一种多编码器融合的多光谱图像语义分割方法
CN113807355A (zh) * 2021-07-29 2021-12-17 北京工商大学 一种基于编解码结构的图像语义分割方法
CN113902783A (zh) * 2021-11-19 2022-01-07 东北大学 一种融合三模态图像的显著性目标检测系统及方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11875479B2 (en) * 2020-01-02 2024-01-16 Nabin K Mishra Fusion of deep learning and handcrafted techniques in dermoscopy image analysis
CN112330681B (zh) * 2020-11-06 2024-05-28 北京工业大学 一种基于注意力机制的轻量级网络实时语义分割方法
CN113313077A (zh) * 2021-06-30 2021-08-27 浙江科技学院 基于多策略和交叉特征融合的显著物体检测方法
CN113963170A (zh) * 2021-09-06 2022-01-21 上海工程技术大学 一种基于交互式特征融合的rgbd图像显著性检测方法

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107146219A (zh) * 2017-04-13 2017-09-08 大连理工大学 一种基于流形正则化支持向量机的图像显著性检测方法
CN110619638A (zh) * 2019-08-22 2019-12-27 浙江科技学院 一种基于卷积块注意模块的多模态融合显著性检测方法
CN110751655A (zh) * 2019-09-16 2020-02-04 南京工程学院 一种基于语义分割和显著性分析的自动抠图方法
WO2021088300A1 (zh) * 2019-11-09 2021-05-14 北京工业大学 一种基于非对称双流网络的rgb-d多模态融合人员检测方法
CN111160040A (zh) * 2019-12-26 2020-05-15 西安交通大学 一种基于多尺度门控均衡交互融合网络的信息可信度评估系统及方法
CN111563418A (zh) * 2020-04-14 2020-08-21 浙江科技学院 一种基于注意力机制的非对称多模态融合显著性检测方法
CN111768375A (zh) * 2020-06-24 2020-10-13 海南大学 一种基于cwam的非对称gm多模态融合显著性检测方法及系统
US11189034B1 (en) * 2020-07-22 2021-11-30 Zhejiang University Semantic segmentation method and system for high-resolution remote sensing image based on random blocks
CN111983691A (zh) * 2020-08-18 2020-11-24 北京北斗天巡科技有限公司 一种多模型融合的储层预测方法及软件系统
CN112784745A (zh) * 2021-01-22 2021-05-11 中山大学 基于置信度自适应和差分增强的视频显著物体检测方法
CN113192073A (zh) * 2021-04-06 2021-07-30 浙江科技学院 基于交叉融合网络的服装语义分割方法
CN113192089A (zh) * 2021-04-12 2021-07-30 温州医科大学附属眼视光医院 一种用于图像分割的双向交叉连接的卷积神经网络
CN113158875A (zh) * 2021-04-16 2021-07-23 重庆邮电大学 基于多模态交互融合网络的图文情感分析方法及系统
CN113269787A (zh) * 2021-05-20 2021-08-17 浙江科技学院 一种基于门控融合的遥感图像语义分割方法
CN113486899A (zh) * 2021-05-26 2021-10-08 南开大学 一种基于互补分支网络的显著性目标检测方法
CN113807355A (zh) * 2021-07-29 2021-12-17 北京工商大学 一种基于编解码结构的图像语义分割方法
CN113762264A (zh) * 2021-08-26 2021-12-07 南京航空航天大学 一种多编码器融合的多光谱图像语义分割方法
CN113902783A (zh) * 2021-11-19 2022-01-07 东北大学 一种融合三模态图像的显著性目标检测系统及方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Deeplab网络在高分卫星遥感图像语义分割中的应用研究;胡航滔;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》;20210715;第2021年卷(第7期);C028-89 *
Semantic Segmentation for High Spatial Resolution Remote Sensing Images Based on Convolution Neural Network and Pyramid Pooling Module;Bo Yu等;《IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing》;20180930;第11卷(第9期);3252-3261 *
Semantic-Sensitive Satellite Image Retrieval;Yikun Li等;《IEEE Transactions on Geoscience and Remote Sensing》;20070430;第45卷(第4期);853-860 *
基于轻量级网络的遥感图像实时语义分割算法研究;梁佳雯;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》;20220115;第2022年卷(第1期);C028-206 *

Also Published As

Publication number Publication date
CN114445442A (zh) 2022-05-06

Similar Documents

Publication Publication Date Title
CN114445442B (zh) 基于非对称交叉融合的多光谱图像语义分割方法
Mehra et al. ReViewNet: A fast and resource optimized network for enabling safe autonomous driving in hazy weather conditions
CN109871798B (zh) 一种基于卷积神经网络的遥感影像建筑物提取方法
CN115049936B (zh) 一种面向高分遥感影像的边界增强型语义分割方法
CN112163449B (zh) 一种轻量化的多分支特征跨层融合图像语义分割方法
CN111563909B (zh) 一种复杂街景图像语义分割方法
CN106599773B (zh) 用于智能驾驶的深度学习图像识别方法、系统及终端设备
CN111915592B (zh) 基于深度学习的遥感图像云检测方法
CN111259828B (zh) 基于高分辨率遥感图像多特征的识别方法
CN113158768B (zh) 基于ResNeSt和自注意力蒸馏的智能车辆车道线检测方法
CN113902915A (zh) 一种基于低光照复杂道路场景下的语义分割方法及系统
CN111738113A (zh) 基于双注意力机制与语义约束的高分辨遥感图像的道路提取方法
CN113887472B (zh) 基于级联颜色及纹理特征注意力的遥感图像云检测方法
CN113723377A (zh) 一种基于ld-ssd网络的交通标志检测方法
CN110807485B (zh) 基于高分遥感影像二分类语义分割图融合成多分类语义图的方法
CN114022408A (zh) 基于多尺度卷积神经网络的遥感图像云检测方法
CN113326846B (zh) 一种基于机器视觉的桥梁表观病害快速检测方法
CN113554032A (zh) 基于高度感知的多路并行网络的遥感图像分割方法
CN114972748A (zh) 一种可解释边缘注意力和灰度量化网络的红外语义分割方法
CN112766056A (zh) 一种基于深度神经网络的弱光环境车道线检测方法、装置
CN114913498A (zh) 一种基于关键点估计的并行多尺度特征聚合车道线检测方法
CN116740121A (zh) 一种基于专用神经网络和图像预处理的秸秆图像分割方法
CN115527096A (zh) 一种基于改进YOLOv5的小目标检测方法
Wu et al. Vehicle detection based on adaptive multi-modal feature fusion and cross-modal vehicle index using RGB-T images
CN113610032A (zh) 基于遥感影像的建筑物识别方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant