CN113762264A - 一种多编码器融合的多光谱图像语义分割方法 - Google Patents
一种多编码器融合的多光谱图像语义分割方法 Download PDFInfo
- Publication number
- CN113762264A CN113762264A CN202110989965.8A CN202110989965A CN113762264A CN 113762264 A CN113762264 A CN 113762264A CN 202110989965 A CN202110989965 A CN 202110989965A CN 113762264 A CN113762264 A CN 113762264A
- Authority
- CN
- China
- Prior art keywords
- encoder
- multispectral
- semantic segmentation
- image
- fused
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 48
- 238000000034 method Methods 0.000 title claims abstract description 18
- 230000004913 activation Effects 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 230000003287 optical effect Effects 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims 1
- 230000006870 function Effects 0.000 description 15
- 238000013135 deep learning Methods 0.000 description 5
- 238000010606 normalization Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种多编码器融合的多光谱图像语义分割方法,本发明基于对不同通道数的多光谱图像提出了一种自适应的语义分割方法,先将多光谱图像的红、绿、蓝三个通道组合成类普通光学图像通过RGB编码器进行编码,然后将其余的多光谱通道通过各编码器进行编码,将各编码器特征图像融合输入解码器中,解码过程中使用跨层连接,将RGB编码器和解码器的特征图像进行拼接融合,最后输出语义分割的结果。本发明基于多光谱图像提出了一种自适应的语义分割方法,语义分割的结果在精确率、准确率等方面有明显提升。
Description
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种多编码器融合的多光谱图像语义分割方法。
背景技术
图像的语义分割一直是计算机视觉领域的研究重点,语义分割是对图像中的每一个像素进行分类,目前广泛应用于医学图像、无人驾驶与地理图像等。最早语义分割使用一些非深度学习的传统方法,但是分类器需要人工设计,而且如果分割类别很多会造成复杂的计算。随着深度学习的发展让语义分割领域有了重大突破,使用卷积神经网络对图像进行语义分割在准确率和效率上都超过了传统方法。
目前,UNet模型是深度学习领域用于语义分割的经典模型。UNet模型基于FCN(全卷积神经网络)改进与延伸,保留了FCN利用卷积层、池化层对图像进行特征提取的操作,UNet提出了跨层的跳跃连接的拼接融合操作。使用“U”型网络结构可以同时获取上下文信息和位置信息。
普通彩色光学图像是一个三通道的图像,只包含红、绿、蓝三波段的信息。多光谱图像则是由多通道组成的图像,一般由几个到十几个通道图像组成。多光谱图像的通道更多也更窄,每个通道采集其中心波张及其附近一个小范围的波段对应的信息。通常多光谱图像的空间分辨率较低,光谱分辨率较高。通俗得解释为多光谱图像包含更多得信息但会比较“模糊”。
尽管多光谱图像具有相当的优势,但目前对于多光谱图像的语义分割,还没有一种普适性的方法。将多光谱图像的所有通道直接融合为一张图像输入普通光学图像的语义分割模型中,这种方法效率不高且分割精度较低。可见,上述问题制约了深度学习的语义分割模型在多光谱图像分类方面的应用。
发明内容
本发明要解决的技术问题是针对多光谱图像语义分割算法普适性不高且精度低等问题,提出了一种多编码器融合的多光谱图像语义分割方法,既能运用于不同通道数的多光谱图像,又能提高分割精度。
本发明针对多光谱图像的多通道特点并为取得更好的语义分割效果,设计了一种可变的多编码器-单解码器结构,并在解码器的最高层将不同通道的特征图像进行拼接融合,且为了弥补多光谱图像低空间分辨率的问题,将红绿蓝三通道合并编码提高空间分辨率,同时将不同层的编码器产生的结果与解码器进行拼接融合,提高分割的精确度。
针对多光谱图像的多通道特点并为取得更好的语义分割效果,设计了一种可变的多编码器-单解码器结构,并在解码器的最高层将不同通道的特征图像进行拼接融合,且为了弥补多光谱图像低空间分辨率的问题,将红绿蓝三通道合并编码提高空间分辨率,同时将不同层的编码器产生的结果与解码器进行拼接融合,提高分割的精确度。
一种多编码器融合的多光谱图像语义分割方法包括以下步骤:
步骤1、建立多光谱语义分割训练数据集:
多光谱图像采集:使用多光谱相机对目标的环境数据信息进行采集,将采集到的多光谱图像的红绿蓝三通道进行组合并保存;
人工标注数据集:为了进行深度学习模型的训练,人工对(1)产生的三通道融合图像进行人工标注;
步骤2、构建多光谱多编码器语义分割模型:
针对多光谱图像的特点,针对N通道的多光谱图像,构建(N-2)个编码器和一个解码器结构。将多光谱图像的红绿蓝三个可见光波段进行融合输入RGB编码器,将剩余多光谱图像输入各多光谱编码器。多编码器输出的特征图像进行拼接融合后输入解码器,最后经过1×1卷积和Softmax激活函数输出语义分割结果。
每个编码器都包含5层。每层编码器包括卷积层、批标准化和激活函数,所述卷积层是卷积核大小3×3的卷积核,所述激活函数采用ReLU函数,重复n次。每层编码器之间使用最大池化进行连接。RGB编码器除了卷积核数量是多光谱编码器的三倍其余参数和结构一致。
每个解码器都包含5层。每层解码器包括卷积层、批标准化和激活函数,所述卷积层是卷积核大小3×3的卷积核,所述激活函数采用ReLU函数,重复n次。最后一层解码器后使用卷积核大小1×1的卷积核,激活函数采用Softmax函数输出语义分割结果。每层解码器之间使用上采样进行连接。并且解码器会与RGB编码器输出的大小相同的特征图拼接融合。
步骤3、训练多光谱语义分割模型:
将步骤1生成的多光谱语义分割训练数据集输入步骤2构建的深度学习模型中,进行端到端的训练,得到训练好的网络模型和权重。
本发明采用以上技术方案与现有技术相比,具有以下有益效果:
1.将多光谱图像的可见光三通道进行融合,提高了空间分辨率,而且有益于有人标注;
2.提出了一种多编码器-单解码器的深度学习模型,融合各通道的特征,能够对不同通道数的多光谱图像进行端到端的语义分割;
3.在RGB编码器和解码器之间使用了跳跃连接,提高了多光谱图像语义分割的精度。
附图说明
图1是本发明多编码器融合的多光谱图像语义分割模型示意图。
图2为多光谱测试集语义分割效果对比图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
本发明可以以许多不同的形式实现,而不应当认为限于这里所述的实施例。相反,提供这些实施例以便使本公开透彻且完整,并且将向本领域技术人员充分表达本发明的范围。
本发明的实验是在windows10环境下进行,基于tensorflow开源深度框架并使用NVDIA GTX 1050ti显卡加速。模型训练使用Adam优化器,初始学习率为0.0003。
在这一部分,我们进行了对比实验,以探究我们提出的方法的优势,具体包括以下步骤:
步骤1,获取数据集,本次采用的数据集来自Gaofen Image Dataset(GID)。将数据集中的红、绿、蓝三通道图像融合为RGB图像。并将图像剪裁为5000张像素256×256大小的图像,并按6:2:2的比例分配为训练集、验证集和测试集。
步骤2,基于tensorflow开源深度框架构建深度学习网络模型。
步骤2.1,构建UNet网络模型;
步骤2.2,构建本发明提出的网络模型,并保持网络参数一致。其网络模型结果如图1所示。
针对GID数据集四通道的多光谱图像,构建两个编码器和一个解码器结构。将多光谱图像的红绿蓝三个可见光波段进行融合输入RGB编码器,将剩余多光谱图像输入多光谱编码器。多编码器输出的特征图像进行拼接融合后输入解码器,最后经过1×1卷积和Softmax激活函数输出语义分割结果。
每个编码器都包含5层。每层编码器包括卷积层、批标准化和激活函数,所述卷积层是卷积核大小3×3的卷积核,所述激活函数采用ReLU函数,重复2次。每层编码器之间使用最大池化进行连接。RGB编码器的卷积核数量是UNet编码器卷积核数量的3/4,多光谱编码器的剪辑和数量是RGB编码器卷积核数量的1/3,其余参数和结构一致。
每个解码器都包含5层。每层解码器包括卷积层、批标准化和激活函数,所述卷积层是卷积核大小3×3的卷积核,所述激活函数采用ReLU函数,重复2次。最后一层解码器后使用卷积核大小1×1的卷积核,激活函数采用Softmax函数输出语义分割结果。每层解码器之间使用上采样进行连接。解码器的卷积核数量与UNet解码器的卷积核数量一致。并且解码器会与RGB编码器输出的大小相同的特征图拼接融合。
步骤3,使用步骤1的数据集对步骤2中的两个模型进行训练,保存损失函数最小的模型权重。
步骤4,使用步骤1的测试集对训练好的网络模型进行测试,本发明提出的网络模型的语义分割精度达到了71.98%,相比UNet的56.56%平均交并比提升了15.42%,能够得到更好的语义分割结果。其语义分割结果如图2所示。
以上实例仅为本发明的示例性实施例,不用于限制本发明,本发明的保护范围由权力要求书限定。本领域技术人员可以在本发明的实质和保护范围内,对本发明做出各种修改或等同替代,这种修改或等同替代也应视为落在本发明保护范围内。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种多编码器融合的多光谱图像语义分割方法,其特征在于,包括以下步骤:
S1:采集多光谱图像数据,对多光谱图像进行预处理,制作相应的数据训练集;
S2:建立卷积神经网络模型,所述的卷积神经网络包括一个RGB编码器、多个多光谱编码器和一个解码器;
S3:使用所述数据训练集对所述卷积神经网络模型进行训练,生成已训练完成的卷积神经网络模型;
S4:将多光谱图像输入步骤S3中训练完成的模型,得到语义分割结果。
2.根据权利要求1所述的一种多编码器融合的多光谱图像语义分割方法,其特征在于:所述S1具体包括,采集多光谱图像数据利用多光谱相机采集多光谱图像数据,将采集到的多光谱图像的红色、绿色和蓝色通道图像在深度维度上进行融合得到类普通光学图像的RGB图像,其余多光谱通道图像不变,人工对RGB图像进行标注。
3.根据权利要求1所述的一种多编码器融合的多光谱图像语义分割方法,其特征在于,所述S2具体包括:
建立卷积神经网络模型,其中包括一个RGB编码器、多个多光谱编码器和一个解码器;所述编码器和解码器都为5层;
每层编码器包括卷积层、批标准化和激活函数,所述卷积层是卷积核大小3×3的卷积核,所述激活函数采用ReLU函数,重复n次,每层编码器之间使用最大池化进行连接;
其中RGB编码器对输入的RGB图像进行编码,多个多光谱编码器对剩余的多个多光谱图像进行编码,编码器的最高层输出的特征图像进行拼接融合后转入解码器;
每层解码器包括卷积层、批标准化和激活函数,所述卷积层是卷积核大小3×3的卷积核,所述激活函数采用ReLU函数,重复n次,最后一层解码器后使用卷积核大小1×1的卷积核,激活函数采用Softmax函数,每层解码器之间使用上采样进行连接,并且解码器会与RGB编码器输出的大小相同的特征图拼接融合。
4.根据权利要求1所述的一种多编码器融合的多光谱图像语义分割方法,其特征在于,所述S3具体包括:将融合后的RGB图像输入RGB编码器,将剩余的多个多光谱图像分别输入各多光谱编码器,编码器最高层的特征图像融合后输入解码器,解码器对融合后的特征图像进行解码时会融合空间维度大小相同的RGB图像的特征图像,最后输出语义分割结果,使用损失函数衡量该输出与人工标签之间的距离,更新网络模型权重以降低损失函数的值;最终保存最小损失的网络模型权重,训练完成。
5.根据权利要求1所述的一种多编码器融合的多光谱图像语义分割方法,其特征在于,所述S4包括:将待语义分割的多光谱图像的红色、绿色、蓝色通道图像融合为类普通光学图像的RGB图像,将融合后的RGB图像和剩余多光谱通道图像输入S3保存的网络模型权重中,网络输出语义分割结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110989965.8A CN113762264A (zh) | 2021-08-26 | 2021-08-26 | 一种多编码器融合的多光谱图像语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110989965.8A CN113762264A (zh) | 2021-08-26 | 2021-08-26 | 一种多编码器融合的多光谱图像语义分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113762264A true CN113762264A (zh) | 2021-12-07 |
Family
ID=78791410
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110989965.8A Withdrawn CN113762264A (zh) | 2021-08-26 | 2021-08-26 | 一种多编码器融合的多光谱图像语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113762264A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114170249A (zh) * | 2022-02-08 | 2022-03-11 | 湖南大学 | 一种基于CNUNet3+网络的图像语义分割方法 |
CN114445442A (zh) * | 2022-01-28 | 2022-05-06 | 杭州电子科技大学 | 基于非对称交叉融合的多光谱图像语义分割方法 |
CN115018750A (zh) * | 2022-08-08 | 2022-09-06 | 湖南大学 | 中波红外高光谱及多光谱图像融合方法、系统及介质 |
WO2023221328A1 (zh) * | 2022-05-17 | 2023-11-23 | 华南理工大学 | 一种基于多光谱图像的语义分割方法、装置及存储介质 |
-
2021
- 2021-08-26 CN CN202110989965.8A patent/CN113762264A/zh not_active Withdrawn
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114445442A (zh) * | 2022-01-28 | 2022-05-06 | 杭州电子科技大学 | 基于非对称交叉融合的多光谱图像语义分割方法 |
CN114445442B (zh) * | 2022-01-28 | 2022-12-02 | 杭州电子科技大学 | 基于非对称交叉融合的多光谱图像语义分割方法 |
CN114170249A (zh) * | 2022-02-08 | 2022-03-11 | 湖南大学 | 一种基于CNUNet3+网络的图像语义分割方法 |
CN114170249B (zh) * | 2022-02-08 | 2022-04-19 | 湖南大学 | 一种基于CNUNet3+网络的图像语义分割方法 |
WO2023221328A1 (zh) * | 2022-05-17 | 2023-11-23 | 华南理工大学 | 一种基于多光谱图像的语义分割方法、装置及存储介质 |
CN115018750A (zh) * | 2022-08-08 | 2022-09-06 | 湖南大学 | 中波红外高光谱及多光谱图像融合方法、系统及介质 |
CN115018750B (zh) * | 2022-08-08 | 2022-11-08 | 湖南大学 | 中波红外高光谱及多光谱图像融合方法、系统及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113762264A (zh) | 一种多编码器融合的多光谱图像语义分割方法 | |
CN112651978B (zh) | 舌下微循环图像分割方法和装置、电子设备、存储介质 | |
CN109472270A (zh) | 图像风格转换方法、装置及设备 | |
CN110175986B (zh) | 一种基于卷积神经网络的立体图像视觉显著性检测方法 | |
CN111914907A (zh) | 一种基于深度学习空谱联合网络的高光谱图像分类方法 | |
CN115457531A (zh) | 用于识别文本的方法和装置 | |
CN110032928B (zh) | 一种适用于颜色敏感的卫星遥感影像水体识别方法 | |
Liu et al. | End-to-end computational optics with a singlet lens for large depth-of-field imaging | |
CN113850324B (zh) | 一种基于Yolov4的多光谱目标检测方法 | |
CN115359370B (zh) | 一种遥感图像云检测方法、装置、计算机装置及存储介质 | |
CN113378744B (zh) | 一种输电线路巡检目标识别方法及装置 | |
CN109685713A (zh) | 化妆模拟控制方法、装置、计算机设备及存储介质 | |
CN117670820A (zh) | 一种塑料薄膜生产缺陷检测方法及系统 | |
CN113034506A (zh) | 遥感图像语义分割方法、装置、计算机设备和存储介质 | |
CN113744146A (zh) | 一种基于对比学习和知识蒸馏的图像去雾方法 | |
WO2019218140A1 (zh) | 物体识别方法及计算机可读存储介质 | |
CN114241344B (zh) | 一种基于深度学习的植物叶片病虫害严重程度评估方法 | |
CN115482529A (zh) | 近景色水果图像识别方法、设备、存储介质及装置 | |
CN118334322A (zh) | 伪装目标检测方法、装置、计算机设备和存储介质 | |
CN114187515A (zh) | 图像分割方法和图像分割装置 | |
CN112733777B (zh) | 一种遥感图像的道路提取方法、装置、设备和存储介质 | |
WO2020093210A1 (zh) | 基于上下文信息指导的场景分割方法和系统 | |
CN111582275B (zh) | 一种序列号识别方法及装置 | |
CN109239914B (zh) | 一种实现高空间带宽积的成像方法 | |
CN114972965A (zh) | 一种基于深度学习的场景识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20211207 |
|
WW01 | Invention patent application withdrawn after publication |