CN115205624A - 一种跨维度注意力聚合的云雪辩识方法、设备及存储介质 - Google Patents

一种跨维度注意力聚合的云雪辩识方法、设备及存储介质 Download PDF

Info

Publication number
CN115205624A
CN115205624A CN202210722624.9A CN202210722624A CN115205624A CN 115205624 A CN115205624 A CN 115205624A CN 202210722624 A CN202210722624 A CN 202210722624A CN 115205624 A CN115205624 A CN 115205624A
Authority
CN
China
Prior art keywords
attention
cloud
snow
convolution
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210722624.9A
Other languages
English (en)
Inventor
夏旻
张恩伟
王慧琴
翁理国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202210722624.9A priority Critical patent/CN115205624A/zh
Publication of CN115205624A publication Critical patent/CN115205624A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes

Abstract

本发明公开了一种跨维度注意力聚合的云雪辩识方法、设备及存储介质,涉及图像处理技术领域,获取训练数据,然后构建跨维度特征注意力聚合网络;再训练跨维度特征注意力聚合网络,对训练数据中的图像进行数据增强处理,然后将图像与对应的标签转化为张量,然后输入到跨维度特征注意力聚合网络中训练;最后使用训练好的跨维度特征注意力聚合网络进行预测,输入一张彩色图片,经过训练好的权重提取特征进行编码解码操作后输出得到云和雪的掩膜图像;能够有效减少复杂背景的干扰,增强对云层边缘以及薄云的检测能力,精确区分出云雪区域,避免云雪相似的光谱特性对检测结果的影响,并且在分割其他物体方面也具有不错的效果,泛化能力优秀。

Description

一种跨维度注意力聚合的云雪辩识方法、设备及存储介质
技术领域
本发明属于图像处理技术领域,具体涉及一种跨维度注意力聚合的云雪辩识方法、设备及存储介质。
背景技术
云和雪普遍存在于地球表面,不仅影响着气候变化的趋势,而且在水文,气候,生态等多个领域都是重要的影响因素,同时,云和雪是光学遥感图像中普遍存在且不可避免的因素,有效地利用大量的遥感数据地前提是去除云和雪对下垫面地遮挡影响,因此高效准确的云雪检测算法是十分必要的;传统的方法对于云雪的检测普遍存在操作复杂,需要花费大量的人力物力去进行特征提取,检测精度低等问题,而最近几年刚刚新起的深度学习的方法大多存在一些问题,例如分割结果不准确,容易出现误检、漏检现象,对于云层边界的分割效果不理想,云雪容易被混淆的问题;为此,现在提出一种跨维度注意力聚合的云雪辩识方法、设备及存储介质。
发明内容
针对现有技术的不足,本发明的目的在于提供一种跨维度注意力聚合的云雪辩识方法、设备及存储介质,解决了现有技术中对于云和雪的分类做的不够好的技术问题。
本发明的目的可以通过以下技术方案实现:一种跨维度注意力聚合的云雪辩识方法,方法包括以下步骤:
获取训练数据,所述训练数据中包括的背景、云层和雪;
构建跨维度特征注意力聚合网络,所述跨维度特征注意力聚合网络包括:上下文注意力聚合模块,多尺度条状卷积模块,深度特征语义信息提取模块和甲壳虫模块;
训练跨维度特征注意力聚合网络,对训练数据中的图像进行数据增强处理,然后将图像与对应的标签转化为张量,然后输入到跨维度特征注意力聚合网络中训练;
使用训练好的跨维度特征注意力聚合网络进行预测,输入一张彩色图片,经过训练好的权重提取特征进行编码解码操作后输出得到云和雪的掩膜图像。
进一步地,所述上下文注意力聚合模块用于聚合不同维度的特征图,将浅层信息与深层信息进行融合,并加入注意力机制对其中的特征信息进行筛选,将浅层特征图与深层特征图进行拼接后经过一个通道注意力模块,提取其中的通道信息权重,接着与浅层特征进行乘积,关注其中有意义的通道信息,然后再使用一个空间注意力模块对其中的空间信息进行划分,最后将输出得到的空间信息与深层特征进行相加得到最后的输出;整个模块的计算过程如下:
Fout=Ms(Mc(Cat(Fl,Fh))*Fl)+Up(Fh)
其中Fout∈RC×H×W表示最终输出,Ms(·)表示空间注意力操作,Mc(·)表示通道注意力操作,Cat(·)表示通道维度上的拼接操作,Up(·)表示上采样操作,Fh∈RC×H×W、Fl∈Rc ×h×w分别表示高层特征和低层特征;
通道注意力模块用于提取其中的通道注意力权重,首先输入特征图fi∈RC×H×W经过一个自适应全局平均池化层得到C×1×1的特征图,与一维全局平均池化的作用类似,它的计算公式如下:
Figure BDA0003703983820000021
之后采用多支路的形式,分别对特征图在通道上进行放缩变换,最后将两条支路分别经过Sigmoid激活函数后进行相加融合再用一层1x1卷积进行通道变换后都得到权重系数,计算过程如下:
f′i=GAP(fi)
fo=Conv1×1(Sigmoid(M1(f′i))+Sigmoid(M2(f′i)))
其中GAP(·)表示自适应全局平均池化操作,Conv1×1(·)表示1x1卷积操作,M1,M2分别表示两条支路操作;
空间注意力模块用于准确筛选在遥感图像的特征提取过程中产生的大量特征信息,其中C,H,W分别表示输入特征图的通道数以及高宽,输入Fi∈RC×H×W首先经过一个1×1卷积进行通道数调整得到F′i∈RC×H×W,接着分别经过平均池化层和最大池化层对信息进行筛选后在通道维度上的拼接得到Fm∈RC×H×W,然后将其重塑成C×HW大小后经过Sigmoid操作得到空间注意力权重M,最后将注意力权重与F′i进行乘积操作;计算过程如下:
F′i=Conv1×1(Fi)
Fm=Cat(Max(F′i),Avg(F′i))
M=Sigmoid(Reshape(Conv1×1(Fm)))
Fo=F′i*M+Fin
其中Conv1×1(·)表示1x1的卷积操作,Cat(·)表示在通道维度上的拼接,Max(·),Avg(·)分别表示最大池化和平均池化操作,Fo∈RC×H×W表示最终的输出特征图。
进一步地,所述多尺度条状卷积模块用于提取目标的边缘信息与不同尺度的特征,并通过空洞卷积的方式增大感受野,让一些浅感受野信息;多尺度条状卷积模块中使用1×N和N×1的条状卷积来替代传统层特征也能获取到大的的NxN卷积核,为增大和感受野信息,还加入了空洞卷积,空洞卷积在保持原有参数两不变的同时扩大感受野,为了减少模型的参数量及计算量,将输入特征图进行通道平分后在进行多尺度卷积操作,定义输入Fin∈RC×H×W,那么经过通道平分操作后输出特征分别为F1∈RC/2×H×W和F2∈RC/2×H×W,整个模块计算过程如下:
F′1=M1(M1(F1))
F′2=M2(M2(F2))
Fo=Cat(F′1,F′2)+Fi
其中M1(·)表示经过1×5和5×1条状卷积操作,M2(·)表示经过1×3和3×1条状卷积操作,Cat(·)表示通道维度上的拼接,Fo∈RC×H×W表示最终的输出特征。
进一步地,所述深度特征语义信息提取模块:本发明设计了深度特征语义信息提取模块用于提取深层特征中的语义信息和类别信息用于指导低层特征的分类,设输入特征图Fin∈RC×H×W大小为H×W,通道数为C,该模块后会经过一个自适应全局平均池化层得到C×1×1大小的特征图F′in∈RC×1×1,之后通过split将其分为两部分F1和F2,分别经过1x1卷积层后得到F′1和F′2,再进行相加融合后经过1×1卷积层后得到F″2,之后分为两路,一路与F′1相加融合后经过一层1×1卷积进行通道的调整后得到F1out,另一路则再次经过一层1×1卷积进行通道的调整后得到F2out,最后将两者进行拼接即得到最终的权重系数。整体计算过程如下:
F′in=GAP(Fin)
F1,F2=Split(F′in)
F′1=Conv1×1(F1)
F′2=Conv1×1(F2)
F″2=Conv1×1((F′2+F′1))
F2out=Conv1×1(F″2)
F1out=Conv1×1(F″2+F′1)
Fout=Cat(F1out,F2out)
其中GAP(·)表示自适应全局平均池化操作,Split(·)表示通道维度上的拆分,Conv1×1(·)表示1x1卷积操作。
进一步地,所述甲壳虫模块加入了特征增强与注意力机制,设给定两个不同的特征图F1∈Rc×h×w和F2∈RC×H×W,其中F1是低层特征图,F2是高层语义特征图,整体过程表示为:
Fo=Sigmoid(M(F1+F2))*F2+(1-Sigmoid(M(F1+F2)))*F1
其中Fo∈RC×H×W表示最后的上采样输出结果,M(·)表示中间特征增强与注意力机制过程,延续了将卷积与注意力相结合的思想,分为两条支路,其中一条支路借鉴了“瓶颈“模块的思想,并且将传统的3×3卷积替换成连续的1×3和3×1卷积层,在不改变感受野的同时大大减少了参数量,另一条支路引入空间注意力,受到轻量化注意力模块的启发,首先将输入fin∈RC×H×W进行一个基于通道上的平均池化和最大池化操作,接着将得到的两张特征图fmax∈R1×H×W和favg∈R1×H×W进行拼接,之后再经过一个1×1的卷积进行通道数的调整得到最后的输出权重fout∈R1×H×W,计算过程如下:
fmax=Max(fin)
favg=Avg(fin)
fout=Conv1×1(Cat(fmax,favg))。
进一步地,所述背景包括森林,湖泊,裸地,草原。
进一步地,所述云层包括卷积云,高积云,卷云,积云以及层云。
进一步地,所述雪由永久雪,稳定雪和不稳定雪组成。
进一步地,一种设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的一种跨维度注意力聚合的云雪辩识方法。
进一步地,一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如上所述的一种跨维度注意力聚合的云雪辩识方法。
本发明的有益效果:本发明在使用的过程中,通过获取训练数据,所述训练数据中包括的背景、云层和雪;然后构建跨维度特征注意力聚合网络,所述跨维度特征注意力聚合网络包括:上下文注意力聚合模块,多尺度条状卷积模块,深度特征语义信息提取模块和甲壳虫模块;再训练跨维度特征注意力聚合网络,对训练数据中的图像进行数据增强处理,然后将图像与对应的标签转化为张量,然后输入到跨维度特征注意力聚合网络中训练;最后使用训练好的跨维度特征注意力聚合网络进行预测,输入一张彩色图片,经过训练好的权重提取特征进行编码解码操作后输出得到云和雪的掩膜图像;能够有效减少复杂背景的干扰,增强对云层边缘以及薄云的检测能力,精确区分出云雪区域,避免云雪相似的光谱特性对检测结果的影响,并且在分割其他物体方面也具有不错的效果,泛化能力优秀。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明用于云雪识别的跨维度特征注意力聚合网络结构图;
图2为本发明的上下文注意力聚合模块示意图;
图3为本发明的多尺度条状卷积模块示意图;
图4为本发明的深度特征语义信息提取模块示意图;
图5为本发明的甲壳虫模块示意图;
图6为本发明实施例的训练集样本图,其中上半部分为遥感图像原图,下半部分为对应的标签图;
图7为本发明实施例进行预测的遥感图像原图;
图8为本发明实施例进行预测的遥感图像原图的预测图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,一种跨维度注意力聚合的云雪辩识方法,包括:
训练数据集的获取:
由于高分辨率的云雪数据集较少,所以我们使用的是一个空间分辨率为0.5-10米的公开云雪数据集,称为cloud and snow dataset based on WorldView2(CSWV),需要进一步进行说明的是,在具体实施过程中,里面包括27幅包含云和雪的高分辨率图像,地点位于北美科迪勒拉山脉,时间分布为2014年6月到2016年7月,数据集中涵盖的背景复杂多样,包括森林,湖泊,裸地,草原等,云层种类也多种多样,包括卷积云,高积云,卷云,积云以及层云。同时其中的雪由永久雪,稳定雪和不稳定雪组成,多样性的云雪和背景使得此数据集更具有代表性和概化性,获取到原始图像后,由于受到显卡内存的限制,将原始图片统一裁剪为256×256大小,裁剪方式为滑动无盖切割,最终得到3×256×256大小的图像,表示所裁剪获取的图像为3通道,宽高为256的大小。如图6所示,展示了CSWV数据集中的部分训练图像,图中第一行是原始彩色图像,第二行是对应的标签,其中粉色区域代表云层,白色区域代表积雪,黑色区域代表背景。
构建多级特征上下文语义融合网络
一种基于跨维度特征注意力聚合网络的云雪检测方法的结构如图1所示。整个网络是一个编码器-解码器的结构,采用端到端的训练方式,主要由上下文注意力聚合模块,多尺度条状卷积模块,深度特征语义信息提取模块和“甲壳虫”模块构成。由于在对遥感图像中识别云雪的过程中,是对图中特征信息的提取十分重要,选择合适的主干网络可以大大提高网络的检测效率,本发明选取的是残差网络作为主干网络来进行特征提取操作。
所述上下文注意力聚合模块用于聚合不同维度的特征图,将浅层信息与深层信息进行融合,并加入注意力机制对其中的特征信息进行筛选,将浅层特征图与深层特征图进行拼接后经过一个通道注意力模块,提取其中的通道信息权重,接着与浅层特征进行乘积,关注其中有意义的通道信息,然后再使用一个空间注意力模块对其中的空间信息进行划分,最后将输出得到的空间信息与深层特征进行相加得到最后的输出;整个模块的计算过程如下:
Fout=Ms(Mc(Cat(Fl,Fh))*Fl)+Up(Fh)
其中Fout∈RC×H×W表示最终输出,Ms(·)表示空间注意力操作,Mc(·)表示通道注意力操作,Cat(·)表示通道维度上的拼接操作,Up(·)表示上采样操作,Fh∈RC×H×W、Fl∈Rc ×h×w分别表示高层特征和低层特征;
通道注意力模块用于提取其中的通道注意力权重,首先输入特征图fi∈RC×H×W经过一个自适应全局平均池化层得到C×1×1的特征图,与一维全局平均池化的作用类似,它的计算公式如下:
Figure BDA0003703983820000081
之后采用多支路的形式,分别对特征图在通道上进行放缩变换,最后将两条支路分别经过Sigmoid激活函数后进行相加融合再用一层1x1卷积进行通道变换后都得到权重系数,计算过程如下:
f′i=GAP(fi)
fo=Conv1×1(Sigmoid(M1(f′i))+Sigmoid(M2(f′i)))
其中GAP(·)表示自适应全局平均池化操作,Conv1×1(·)表示1x1卷积操作,M1,M2分别表示两条支路操作;
空间注意力模块用于准确筛选在遥感图像的特征提取过程中产生的大量特征信息,其中C,H,W分别表示输入特征图的通道数以及高宽,输入Fi∈RC×H×W首先经过一个1×1卷积进行通道数调整得到F′i∈RC×H×W,接着分别经过平均池化层和最大池化层对信息进行筛选后在通道维度上的拼接得到Fm∈RC×H×W,然后将其重塑成C×HW大小后经过Sigmoid操作得到空间注意力权重M,最后将注意力权重与F′i进行乘积操作;计算过程如下:
F′i=Conv1×1(Fi)
Fm=Cat(Max(F′i),Avg(F′i))
M=Sigmoid(Reshape(Conv1×1(Fm)))
Fo=F′i*M+Fin
其中Conv1×1(·)表示1x1的卷积操作,Cat(·)表示在通道维度上的拼接,Max(·),Avg(·)分别表示最大池化和平均池化操作,Fo∈RC×H×W表示最终的输出特征图。
需要进一步进行说明的是,在具体实施过程中,所述多尺度条状卷积模块用于提取目标的边缘信息与不同尺度的特征,并通过空洞卷积的方式增大感受野,让一些浅层特征也能获取到大的感受野信息;多尺度条状卷积模块中使用1×N和N×1的条状卷积来替代传统的NxN卷积核,为增大和感受野信息,还加入了空洞卷积,空洞卷积在保持原有参数两不变的同时扩大感受野,为了减少模型的参数量及计算量,将输入特征图进行通道平分后在进行多尺度卷积操作,定义输入Fin∈RC×H×W,那么经过通道平分操作后输出特征分别为F1∈RC/2×H×W和F2∈RC/2×H×W,整个模块计算过程如下:
F′1=M1(M1(F1))
F′2=M2(M2(F2))
Fo=Cat(F′1,F′2)+Fi
其中M1(·)表示经过1×5和5×1条状卷积操作,M2(·)表示经过1×3和3×1条状卷积操作,Cat(·)表示通道维度上的拼接,Fo∈RC×H×W表示最终的输出特征。
需要进一步进行说明的是,在具体实施过程中,所述深度特征语义信息提取模块:本发明设计了深度特征语义信息提取模块用于提取深层特征中的语义信息和类别信息用于指导低层特征的分类,设输入特征图Fin∈RC×H×W大小为H×W,通道数为C,该模块后会经过一个自适应全局平均池化层得到C×1×1大小的特征图F′in∈RC×1×1,之后通过split将其分为两部分F1和F2,分别经过1x1卷积层后得到F′1和F′2,再进行相加融合后经过1×1卷积层后得到F″2,之后分为两路,一路与F′1相加融合后经过一层1×1卷积进行通道的调整后得到F1out,另一路则再次经过一层1×1卷积进行通道的调整后得到F2out,最后将两者进行拼接即得到最终的权重系数。整体计算过程如下:
F′in=GAP(Fin)
F1,F2=Split(F′in)
F′1=Conv1×1(F1)
F′2=Conv1×1(F2)
F″2=Conv1×1((F′2+F′1))
F2out=Conv1×1(F″2)
F1out=Conv1×1(F″2+F′1)
Fout=Cat(F1out,F2out)
其中GAP(·)表示自适应全局平均池化操作,Split(·)表示通道维度上的拆分,Conv1×1(·)表示1x1卷积操作。
需要进一步进行说明的是,在具体实施过程中,所述甲壳虫模块加入了特征增强与注意力机制,设给定两个不同的特征图F1∈Rc×h×w和F2∈RC×H×W,其中F1是低层特征图,F2是高层语义特征图,整体过程表示为:
Fo=Sigmoid(M(F1+F2))*F2+(1-Sigmoid(M(F1+F2)))*F1
其中Fo∈RC×H×W表示最后的上采样输出结果,M(·)表示中间特征增强与注意力机制过程,延续了将卷积与注意力相结合的思想,分为两条支路,其中一条支路借鉴了“瓶颈“模块的思想,并且将传统的3×3卷积替换成连续的1×3和3×1卷积层,在不改变感受野的同时大大减少了参数量,另一条支路引入空间注意力,受到轻量化注意力模块的启发,首先将输入fin∈RC×H×W进行一个基于通道上的平均池化和最大池化操作,接着将得到的两张特征图fmax∈R1×H×W和favg∈R1×H×W进行拼接,之后再经过一个1×1的卷积进行通道数的调整得到最后的输出权重fout∈R1×H×W,计算过程如下:
fmax=Max(fin)
favg=Avg(fin)
fout=Conv1×1(Cat(fmax,favg))。
由于云和雪具有相似的光谱特征,并且在浅层特征中表现出的性质相似,这对精确区分云雪产生了较大的干扰,现有方法很容易会产生误判或者漏判的操作,在特征提取过程中不同维度的特征图所包含的信息各不相同,将不同维度的特征图中的信息进行融合有助于筛选里面有用的内容,过滤掉亢余信息,所以本发明在构建了上下文注意力聚合模块(CAAM)来融合不同维度的特征图,将浅层信息与深层信息进行融合,并加入注意力机制对其中的特征信息进行筛选。
主干网络进行特征提取时,在网络的深层会产生大量的语义特征信息以及类别信息,但是却不是所有的信息都是有用的,如何提取深层语义信息并利用类别信息指导模型的分类对最终的分割结果会产生很大的影响。在云雪分割任务中,薄云与下垫面很容易混淆,快融化的雪与周围的裸地的相似性也会增大模型的检测难度,基于以上问题,这里提出了一种深度特征语义信息提取模块(DFSIEM)用于提取深层特征中的语义信息和类别信息用于指导低层特征的分类。
在分割云层的过程中对于边缘细节的恢复通常是一项很大的挑战,现有的模型大都使用单一的卷积核,对于云层的边缘信息提取不够精细,很不利于云层边界的恢复;而且,在图片中积雪区域通常是以零散的状态分布,而不是以成片的区域存在,分布面积也各不相同,所以不同尺度的感受野可以提取到图像中不同尺度的信息,有利于不同面积的积雪区域的识别。针对以上的问题,我们提出了多尺度条状卷积模块,在MSSCM中我们使用多尺度条状卷积模块来提取目标的边缘信息与不同尺度的特征,并通过空洞卷积的方式增大感受野,让一些浅层特征也能获取到较大的感受野信息。
随着编码器部分输出特征图逐步上采样到原图大小,越靠近输出头特征图的大小也更大,包含的多尺度信息也更多,所以这里改进了原本的多尺度条状卷积模块,我们称之为MSSCMs,采用了更大的卷积核,更多的尺度来提取特征信息。
在解码过程中如果单一地对特征图进行上采样操作会损失许多特征,造成最终的分割结果的失败,但是简单的线性操作,例如求和或者串联却又不是最佳的选择,无法关注到融合信息中有用的部分。云雪检测任务中云层和积雪相似的浅层特征以及复杂背景的干扰都要求我们的网络在上采样恢复过程中能够准确提取不同粒度地特征,以融合更丰富的特征信息,从而最小化相似对象的影响。
在我们的网络中存在大量的通道连接操作,这样不仅可以融合不同层次的信息,还能提高模型的检测效率,避免信息的遗漏。
利用数据集进行网络模型的训练:
本发明采用有监督训练的方式,首先对数据集中的图像进行数据增强处理,然后再将原始图片和对应的标签转化为张量后输入到模型当中进行训练。将每次训练的批量大小设置为12,本发明采用等间隔调整学习率(StepLR)策略随着训练次数的增大相应的减小学习率来进行训练以达到更好的训练效果,其中将初始学习率设置为0.00015,衰减系数为0.98,每训练3次更新一次学习率,一共训练了300次。训练过程中使用Adam算法来作为我们的优化器。
使用训练好的网络模型进行预测并生成云雪的掩膜图像:
在训练结束后会得到模型的权重,接下来进入模型的预测阶段,本发明在预测时,使用训练好的跨维度特征注意力聚合网络进行预测,输入一张原始彩色图片,如图7所示为进行预测的原始彩色图片,这里我们选择的是一张大场景图片,经过训练好的权重提取特征进行编码解码操作后输出便得到云和雪的掩膜图像,如图8所示。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内容。

Claims (10)

1.一种跨维度注意力聚合的云雪辩识方法,其特征在于,方法包括以下步骤:
获取训练数据,所述训练数据中包括的背景、云层和雪;
构建跨维度特征注意力聚合网络,所述跨维度特征注意力聚合网络包括:上下文注意力聚合模块,多尺度条状卷积模块,深度特征语义信息提取模块和甲壳虫模块;
训练跨维度特征注意力聚合网络,对训练数据中的图像进行数据增强处理,然后将图像与对应的标签转化为张量,然后输入到跨维度特征注意力聚合网络中训练;
使用训练好的跨维度特征注意力聚合网络进行预测,输入一张彩色图片,经过训练好的权重提取特征进行编码解码操作后输出得到云和雪的掩膜图像。
2.根据权利要求1所述的一种跨维度注意力聚合的云雪辩识方法,其特征在于,所述上下文注意力聚合模块用于聚合不同维度的特征图,将浅层信息与深层信息进行融合,并加入注意力机制对其中的特征信息进行筛选,将浅层特征图与深层特征图进行拼接后经过一个通道注意力模块,提取其中的通道信息权重,接着与浅层特征进行乘积,关注其中有意义的通道信息,然后再使用一个空间注意力模块对其中的空间信息进行划分,最后将输出得到的空间信息与深层特征进行相加得到最后的输出;整个模块的计算过程如下:
Fout=Ms(Mc(Cat(Fl,Fh))*Fl)+Up(Fh)
其中Fout∈RC×H×W表示最终输出,Ms(·)表示空间注意力操作,Mc(·)表示通道注意力操作,Cat(·)表示通道维度上的拼接操作,Up(·)表示上采样操作,Fh∈RC×H×W、Fl∈Rc×h×w分别表示高层特征和低层特征;
通道注意力模块用于提取其中的通道注意力权重,首先输入特征图fi∈RC×H×W经过一个自适应全局平均池化层得到C×1×1的特征图,与一维全局平均池化的作用类似,它的计算公式如下:
Figure FDA0003703983810000021
之后采用多支路的形式,分别对特征图在通道上进行放缩变换,最后将两条支路分别经过Sigmoid激活函数后进行相加融合再用一层1x1卷积进行通道变换后都得到权重系数,计算过程如下:
f′i=GAP(fi)
fo=Conv1×1(Sigmoid(M1(f′i))+Sigmoid(M2(f′i)))
其中GAP(·)表示自适应全局平均池化操作,Conv1×1(·)表示1x1卷积操作,M1,M2分别表示两条支路操作;
空间注意力模块用于准确筛选在遥感图像的特征提取过程中产生的大量特征信息,其中C,H,W分别表示输入特征图的通道数以及高宽,输入Fi∈RC×H×W首先经过一个1×1卷积进行通道数调整得到F'i∈RC×H×W,接着分别经过平均池化层和最大池化层对信息进行筛选后在通道维度上的拼接得到Fm∈RC×H×W,然后将其重塑成C×HW大小后经过Sigmoid操作得到空间注意力权重M,最后将注意力权重与F'i进行乘积操作;计算过程如下:
F′i=Conv1×1(Fi)
Fm=Cat(Max(F′i),Avg(F′i))
M=Sigmoid(Reshape(Conv1×1(Fm)))
Fo=F′i*M+Fin
其中Conv1×1(·)表示1x1的卷积操作,Cat(·)表示在通道维度上的拼接,Max(·),Avg(·)分别表示最大池化和平均池化操作,Fo∈RC×H×W表示最终的输出特征图。
3.根据权利要求1所述的一种跨维度注意力聚合的云雪辩识方法,其特征在于,所述多尺度条状卷积模块用于提取目标的边缘信息与不同尺度的特征,并通过空洞卷积的方式增大感受野,让一些浅层特征也能获取到大的感受野信息;多尺度条状卷积模块中使用1×N和N×1的条状卷积来替代传统的NxN卷积核,为增大和感受野信息,还加入了空洞卷积,空洞卷积在保持原有参数两不变的同时扩大感受野,为了减少模型的参数量及计算量,将输入特征图进行通道平分后在进行多尺度卷积操作,定义输入Fin∈RC×H×W,那么经过通道平分操作后输出特征分别为F1∈RC/2×H×W和F2∈RC/2×H×W,整个模块计算过程如下:
F′1=M1(M1(F1))
F′2=M2(M2(F2))
Fo=Cat(F′1,F′2)+Fi
其中M1(·)表示经过1×5和5×1条状卷积操作,M2(·)表示经过1×3和3×1条状卷积操作,Cat(·)表示通道维度上的拼接,Fo∈RC×H×W表示最终的输出特征。
4.根据权利要求1所述的一种跨维度注意力聚合的云雪辩识方法,其特征在于,所述深度特征语义信息提取模块:本发明设计了深度特征语义信息提取模块用于提取深层特征中的语义信息和类别信息用于指导低层特征的分类,设输入特征图Fin∈RC×H×W大小为H×W,通道数为C,深度特征语义信息提取模块后会经过一个自适应全局平均池化层得到C×1×1大小的特征图F'in∈RC×1×1,之后通过split将其分为两部分F1和F2,分别经过1x1卷积层后得到F'1和F'2,再进行相加融合后经过1×1卷积层后得到F″2,之后分为两路,一路与F'1相加融合后经过一层1×1卷积进行通道的调整后得到F1out,另一路则再次经过一层1×1卷积进行通道的调整后得到F2out,最后将两者进行拼接即得到最终的权重系数,计算过程如下:
F′in=GAP(Fin)
F1,F2=Split(F′in)
F′1=Conv1×1(F1)
F′2=Conv1×1(F2)
F″2=Conv1×1((F′2+F′1))
F2out=Conv1×1(F″2)
F1out=Conv1×1(F″2+F′1)
Fout=Cat(F1out,F2out)
其中GAP(·)表示自适应全局平均池化操作,Split(·)表示通道维度上的拆分,Conv1×1(·)表示1x1卷积操作。
5.根据权利要求1所述的一种跨维度注意力聚合的云雪辩识方法,其特征在于,所述甲壳虫模块加入了特征增强与注意力机制,设给定两个不同的特征图F1∈Rc×h×w和F2∈RC×H×W,其中F1是低层特征图,F2是高层语义特征图,整体过程表示为:
Fo=Sigmoid(M(F1+F2))*F2+(1-Sigmoid(M(F1+F2)))*F1
其中Fo∈RC×H×W表示最后的上采样输出结果,M(·)表示中间特征增强与注意力机制过程,延续了将卷积与注意力相结合的思想,分为两条支路,其中一条支路借鉴了瓶颈模块的思想,并且将传统的3×3卷积替换成连续的1×3和3×1卷积层,在不改变感受野的同时减少了参数量,另一条支路引入空间注意力,受到轻量化注意力模块的启发,首先将输入fin∈RC×H×W进行一个基于通道上的平均池化和最大池化操作,接着将得到的两张特征图fmax∈R1 ×H×W和favg∈R1×H×W进行拼接,之后再经过一个1×1的卷积进行通道数的调整得到最后的输出权重fout∈R1×H×W,计算过程如下:
fmax=Max(fin)
favg=Avg(fin)
fout=Conv1×1(Cat(fmax,favg))。
其中Max(.)表示基于通道维度上的最大池化操作,Avg(.)表示基于通道维度上的平均池化操作,Conv1×1(.)表示卷积核大小为1×1的卷积操作,Cat(.)表示基于通道维度上的拼接操作。
6.根据权利要求1所述的一种跨维度注意力聚合的云雪辩识方法,其特征在于,所述背景包括森林,湖泊,裸地,草原。
7.根据权利要求1所述的一种跨维度注意力聚合的云雪辩识方法,其特征在于,所述云层包括卷积云,高积云,卷云,积云以及层云。
8.根据权利要求1所述的一种跨维度注意力聚合的云雪辩识方法,其特征在于,所述雪由永久雪,稳定雪和不稳定雪组成。
9.一种设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的一种跨维度注意力聚合的云雪辩识方法。
10.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-8中任一所述的一种跨维度注意力聚合的云雪辩识方法。
CN202210722624.9A 2022-06-20 2022-06-20 一种跨维度注意力聚合的云雪辩识方法、设备及存储介质 Pending CN115205624A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210722624.9A CN115205624A (zh) 2022-06-20 2022-06-20 一种跨维度注意力聚合的云雪辩识方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210722624.9A CN115205624A (zh) 2022-06-20 2022-06-20 一种跨维度注意力聚合的云雪辩识方法、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115205624A true CN115205624A (zh) 2022-10-18

Family

ID=83577779

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210722624.9A Pending CN115205624A (zh) 2022-06-20 2022-06-20 一种跨维度注意力聚合的云雪辩识方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115205624A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116309601A (zh) * 2023-05-24 2023-06-23 泉州装备制造研究所 基于Lite-EDNet的皮革缺陷实时检测算法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116309601A (zh) * 2023-05-24 2023-06-23 泉州装备制造研究所 基于Lite-EDNet的皮革缺陷实时检测算法
CN116309601B (zh) * 2023-05-24 2023-08-22 泉州装备制造研究所 基于Lite-EDNet的皮革缺陷实时检测方法

Similar Documents

Publication Publication Date Title
CN110428428B (zh) 一种图像语义分割方法、电子设备和可读存储介质
CN109754015B (zh) 用于画作多标签识别的神经网络及相关方法、介质和设备
CN109859190B (zh) 一种基于深度学习的目标区域检测方法
Gao et al. MLNet: Multichannel feature fusion lozenge network for land segmentation
Zhang et al. Saliency detection based on self-adaptive multiple feature fusion for remote sensing images
US20230281763A1 (en) Generating an image mask for a digital image by utilizing a multi-branch masking pipeline with neural networks
CN116258719B (zh) 基于多模态数据融合的浮选泡沫图像分割方法和装置
CN112150493A (zh) 一种基于语义指导的自然场景下屏幕区域检测方法
CN116645592B (zh) 一种基于图像处理的裂缝检测方法和存储介质
Tan et al. Multi-branch convolutional neural network for built-up area extraction from remote sensing image
CN113034506B (zh) 遥感图像语义分割方法、装置、计算机设备和存储介质
CN113762138A (zh) 伪造人脸图片的识别方法、装置、计算机设备及存储介质
CN112561876A (zh) 基于图像的池塘和水库的水质检测方法及系统
CN113902913A (zh) 图片语义分割方法及装置
CN115620010A (zh) 一种rgb-t双模态特征融合的语义分割方法
CN113239736A (zh) 一种基于多源遥感数据的土地覆盖分类标注图获取方法、存储介质及系统
Zhao et al. CRAS-YOLO: A novel multi-category vessel detection and classification model based on YOLOv5s algorithm
Huang et al. Attention-guided label refinement network for semantic segmentation of very high resolution aerial orthoimages
Dumka et al. Advanced digital image processing and its applications in Big Data
CN115205672A (zh) 一种基于多尺度区域注意力的遥感建筑物语义分割方法及系统
CN115205624A (zh) 一种跨维度注意力聚合的云雪辩识方法、设备及存储介质
Li et al. A new algorithm of vehicle license plate location based on convolutional neural network
CN116051593A (zh) 服装图像提取方法及其装置、设备、介质、产品
CN115761223A (zh) 一种利用数据合成的遥感影像实例分割方法
CN115482463A (zh) 一种生成对抗网络矿区土地覆盖识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination