CN117237645A - 基于边界增强的语义分割模型的训练方法、装置和设备 - Google Patents
基于边界增强的语义分割模型的训练方法、装置和设备 Download PDFInfo
- Publication number
- CN117237645A CN117237645A CN202311514852.8A CN202311514852A CN117237645A CN 117237645 A CN117237645 A CN 117237645A CN 202311514852 A CN202311514852 A CN 202311514852A CN 117237645 A CN117237645 A CN 117237645A
- Authority
- CN
- China
- Prior art keywords
- features
- level
- boundary
- level features
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 95
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000012549 training Methods 0.000 title claims abstract description 40
- 230000004927 fusion Effects 0.000 claims abstract description 86
- 230000006870 function Effects 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 12
- 230000002708 enhancing effect Effects 0.000 claims description 8
- 238000007499 fusion processing Methods 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 abstract description 6
- 230000000295 complement effect Effects 0.000 abstract description 3
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 230000008569 process Effects 0.000 description 9
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000003708 edge detection Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Image Analysis (AREA)
Abstract
本申请提供一种基于边界增强的语义分割模型的训练方法、装置和设备。其中,通过提取遥感图像的边界特征,可以实现边界检测,且还可以利用边界特征对包含上下文信息的多层级特征进行增强,实现边界对语义上下文的引导,如此,可以使模型具有更细致的上下文视角,有助于提高模型进行语义分割的性能。此外,在提取多尺度语义信息和利用边界信息引导多层级语义特征融合时,只使用了简单的无参数数学运算来融合两个互补的特征,在保证融合性能的同时降低复杂性,减少参数量。
Description
技术领域
本申请涉及一种基于边界增强的语义分割模型的训练方法、装置和设备,属于图像处理技术领域。
背景技术
遥感图像是通过遥感技术获取的地球表面的图像,其具有很高的分辨率。遥感图像可以用于许多应用领域,例如地理信息系统、环境监测、农业和城市规划等。为了从遥感图像中提取并划分出具有不同语义类别的区域,一般需要利用网络模型来对遥感图像进行语义分割。语义分割指的是对遥感图像中每一个像素点进行分类,确定每个点的类别(如属于背景、人或车等),从而进行区域划分。
语义分割过程中涉及边界的检测,也即需要确定相邻语义类别的区域的分界。对于高分辨率遥感图像,其内容都是较大场景,而较大场景总是包含更复杂的地面信息和丰富的细节信息,又因为地面对象的多样性和复杂性,高分辨率遥感图像往往表现出大的类内差异和小的类间差异,现有方法不能很好地区分高分辨率遥感图像中相邻的语义目标,除此之外,现有方法主要关注于边界的检测,而忽略了边界与语义上下文之间的关系,从而导致遥感图像语义分割的性能受到限制。
发明内容
本申请提供一种基于边界增强的语义分割模型的训练方法、装置和设备,以解决相关技术中忽略了边界与语义上下文之间的关系,从而导致遥感图像语义分割的性能受到限制的问题。
第一方面,本申请实施例提供一种基于边界增强的语义分割模型的训练方法,其包括:
获取图像样本,并对所述图像样本进行特征提取,得到多个层级的图像特征;其中,所述图像样本为包括分割标签的遥感图像,所述多个层级的图像特征包括对所述图像样本进行下采样得到的第一层级特征、对所述第一层级特征进行下采样得到的第二层级特征、对所述第二层级特征进行下采样得到的第三层级特征、对所述第三层级特征进行空洞卷积得到的第四层级特征以及对所述第四层级特征进行空洞卷积得到的第五层级特征;
基于所述第一层级特征、所述第二层级特征和所述第五层级特征,提取对应层级的边界特征,并将不同层级的边界特征进行拼接,得到边界信息,以及基于各层级的边界特征和边界标签计算边界损失;其中,所述边界标签基于所述分割标签进行拉普拉斯卷积得到;
对所述第三层级特征、所述第四层级特征和所述第五层级特征进行特征融合得到多层级融合特征;
利用所述边界信息对所述多层级融合特征进行增强,并将增强结果与所述第五层级特征进行融合,得到预测结果,以及基于所述预测结果和所述分割标签计算分割损失;
以所述边界损失和所述分割损失作为模型损失,并以所述模型损失小于设定阈值为目标,对特征提取和特征融合过程中所使用的网络模型的各参数进行训练,得到遥感图像的语义分割模型。
基于以上的方法,可选地,所述基于所述第一层级特征、所述第二层级特征和所述第五层级特征,提取对应层级的边界特征,并将不同层级的边界特征进行拼接,得到边界信息,包括:
分别将所述第二层级特征和所述第五层级特征上采样到与所述第一层级特征相同的尺寸;
分别对所述第一层级特征、上采样后的所述第二层级特征和上采样后的所述第五层级特征进行边界特征提取,得到对应层级的边界特征;
将各层级的所述边界特征按照通道维度进行特征拼接,得到边界信息。
基于以上的方法,可选地,基于各层级的边界特征和边界标签计算边界损失,包括:
将各层级的边界特征的通道维度转换为1,并对转换结果求和,得到预测边界结果;
对边界标签分别进行步长为1、2和4的拉普拉斯卷积,得到第一标签分支、第二标签分支和第三标签分支;
分别将所述第二标签分支和第三标签分支上采样到与所述第一标签分支相同的尺寸,并将所述第一标签分支、上采样后的第二标签分支和上采样后的第三标签分支按照通道维度进行拼接,得到二值边界标签;
采用二值交叉熵算法,基于所述预测边界结果和所述二值边界标签计算得到边界损失。
基于以上的方法,可选地,所述对所述第三层级特征、所述第四层级特征和所述第五层级特征进行特征融合得到多层级融合特征,包括:
基于门融合算法,对所述第四层级特征和所述第五层级特征进行特征融合,得到融合特征;
基于门融合算法,对所述融合特征和所述第三层级特征进行特征融合,得到多层级融合特征。
基于以上的方法,可选地,所述基于门融合算法,对所述第四层级特征和所述第五层级特征进行特征融合,得到融合特征,包括:
将所述第四层级特征和所述第五层级特征按照通道维度进行拼接,并对拼接结果进行预设卷积操作,得到卷积结果;
利用Sigmoid激活函数作为门函数,对所述卷积结果进行处理,并将处理结果进行全局平均池化,得到控制门;
基于所述控制门确定所述第四层级特征和所述第五层级特征的权重,并对所述第四层级特征和所述第五层级特征进行加权求和,得到融合特征。
基于以上的方法,可选地,所述利用所述边界信息对所述多层级融合特征进行增强,并将增强结果与所述第五层级特征进行融合,得到预测结果,包括:
将所述边界信息和所述多层级融合特征相乘,得到增强后的多层级融合特征;
对所述第五层级特征进行上采样,并与所述增强后的多层级融合特征相加,得到预测结果。
基于以上的方法,可选地,所述基于所述预测结果和所述分割标签计算分割损失,包括:
采用交叉熵损失算法计算,基于所述预测结果和所述分割标签计算分割损失。
第二方面,本申请实施例还提供一种基于边界增强的语义分割模型的训练装置,其包括:
特征提取模块,用于获取图像样本,并对所述图像样本进行特征提取,得到多个层级的图像特征;其中,所述图像样本为包括分割标签的遥感图像,所述多个层级的图像特征包括对所述图像样本进行下采样得到的第一层级特征、对所述第一层级特征进行下采样得到的第二层级特征、对所述第二层级特征进行下采样得到的第三层级特征、对所述第三层级特征进行空洞卷积得到的第四层级特征以及对所述第四层级特征进行空洞卷积得到的第五层级特征;
边界提取模块,用于基于所述第一层级特征、所述第二层级特征和所述第五层级特征,提取对应层级的边界特征,并将不同层级的边界特征进行拼接,得到边界信息,以及基于各层级的边界特征和边界标签计算边界损失;其中,所述边界标签基于所述分割标签进行拉普拉斯卷积得到;
特征融合模块,用于对所述第三层级特征、所述第四层级特征和所述第五层级特征进行特征融合得到多层级融合特征;
分割预测模块,用于利用所述边界信息对所述多层级融合特征进行增强,并将增强结果与所述第五层级特征进行融合,得到预测结果,以及基于所述预测结果和所述分割标签计算分割损失;
模型训练模块,用于以所述边界损失和所述分割损失作为模型损失,并以所述模型损失小于设定阈值为目标,对特征提取和特征融合过程中所使用的网络模型的各参数进行训练,得到遥感图像的语义分割模型。
第三方面,本申请实施例还提供一种电子设备,其包括存储器和处理器,所述存储器存储有计算机程序,所述处理器调用并执行所述计算机程序时,实现如第一方面任意一项所述的基于边界增强的语义分割模型的训练方法。
本申请提供的基于边界增强的语义分割模型的训练方法、装置和设备中,通过提取遥感图像的边界特征,可以实现边界检测,且还可以利用边界特征对包含上下文信息的多层级特征进行增强,实现边界对语义上下文的引导,如此,可以使模型具有更细致的上下文视角,有助于提高模型进行语义分割的性能。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。此外,这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
图1为本申请一个实施例提供的基于边界增强的语义分割模型的训练方法的流程示意图;
图2为本申请一个实施例提供的基于边界增强的语义分割模型的训练装置的结构示意图;
图3为本申请一个实施例提供的电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请的实施例,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
对于高分辨率的遥感图像,其内容都是较大场景,而较大场景总是包含更复杂的地面信息和丰富的细节信息,又因为地面对象的多样性和复杂性,高分辨率遥感图像往往表现出大的类内差异和小的类间差异。具体来说,高分辨率的遥感图像中,每个像素代表地面上一个较小的区域,这使得图像中同一类别的像素往往具有更多的细节和变化。例如,在一张高分辨率的农田遥感图像中,同一类别的像素可能包含多样的农田作物、不同的生长状态、不同的土壤类型等。
然而,不同类别之间的差异相对较小,这是因为高分辨率图像可能在空间上更加细致,能够捕捉到更详细的地物特征,但是不同的地物类别可能在原始图像中表现出相似的纹理、颜色或形状特征,造成类间差异相对较小。
基于上述原因,现有的语义分割方法不能很好地区分高分辨率遥感图像中相邻的语义目标,除此之外,现有方法主要关注于边界的检测,而忽略了边界与语义上下文之间的关系,很少利用边界信息指导语义上下文,以提高遥感图像语义分割的性能。
针对上述问题,本申请提供一种基于边界增强的语义分割模型的训练方案,通过提取边界特征并对包含上下文信息的多层级语义特征进行增强,实现边界对语义上下文的引导,从而提高模型进行语义分割的性能。此外,在提取多尺度语义信息和利用边界信息引导多层级语义特征融合时,只使用了简单的无参数数学运算来融合两个互补的特征,在保证融合性能的同时降低复杂性,减少参数量。以下通过几个示例或实施例对具体实现方案进行非限制性说明。
本申请一些实施例提供一种基于边界增强的语义分割模型的训练方法,参照图1,图1为本申请一个实施例提供的基于边界增强的语义分割模型的训练方法的流程示意图。其中,在具体实施时,本实施例的方案可以由计算机或服务器等设备执行。
此外,本实施例的遥感图像的语义分割模型采用全卷积网络(FullyConvolutional Networks,FCN)作为框架,FCN网络结构主要分为两个部分:全卷积部分和反卷积部分。其中,全卷积部分用于提取特征,本实施例中可以采用卷积神经网络(Convolutional Neural Network,CNN)或残差网络(ResNet)作为骨干网络来实现;反卷积部分则用于将全卷积部分的处理结果还原到输入图像的尺寸,从而最终得到语义分割结果,其中可以采用反卷积层(Deconvolutional layer)结合上采样实现。通过本实施例的方案,可以显式地利用提取到的边界信息引导语义上下文,增强语义一致性。
基于上述的网络结构,如图1所示,本实施例的基于边界增强的语义分割模型的训练方法包括以下步骤:
步骤S101:获取图像样本,并对图像样本进行特征提取,得到多个层级的图像特征。其中,图像样本为包括分割标签的遥感图像,多个层级的图像特征包括对图像样本进行下采样得到的第一层级特征、对第一层级特征进行下采样得到的第二层级特征、对第二层级特征进行下采样得到的第三层级特征、对第三层级特征进行空洞卷积得到的第四层级特征以及对第四层级特征进行空洞卷积得到的第五层级特征。
具体地,图像样本指的是用于训练模型的高分辨率的遥感图像,本实施例中可以采用ISPRS Vaihingen数据集中的图像作为图像样本,ISPRS Vaihingen数据集记录了一个相对较小的村庄,包含33个正射影图像,图像的平均大小为,分辨率为9厘米。可以从中选择一部分图像作为训练样本,一部分图像作为测试样本,测试训练的模型的性能。此外,分割标签是人工添加的注释标签(Ground Truth),用于表示图像样本中各个像素所属的类别信息(语义分割结果)。
基于获取到的图像样本,分别将其中的每一张图像输入到预先构建的基于CNN网络的特征提取器中,从而分别得到第一层级特征、第二层级特征、第三层级特征、第四层级特征和第五层级特征。其中,每次利用卷积核进行2倍下采样而得到第一层级特征、第二层级特征和第三层级特征,再对第三层级特征进行空洞卷积得到第四层级特征,再对第四层级特征进行空洞卷积得到第五层级特征。
其中,下采样是缩小原图像的过程,会将多个相邻像素的值进行融合从而得到一个像素值,由于结果融合了相邻像素的值,因此,下采样的结果会包含上下文信息。空洞卷积是一种特殊的卷积操作,空洞卷积中,卷积核的元素之间会有一定的间隔,也被称为"膨胀率"。对于一个带有膨胀率的卷积核,卷积操作时,卷积核的元素会与输入图像中与其对齐的间隔位置上的元素进行卷积运算,然后求和得到输出的相应位置的元素。这样可以在不增加参数数量和计算量的情况下,扩大感受野,提取更广泛的上下文信息。每进行一次空洞卷积,都可以提取得到相对前一次结果更广泛的上下文信息,因此,本实施例中第五层级特征具有最广泛的上下文语义特征。换言之,第五层级特征是本步骤得到的最高级的语义特征。
为了便于表述和理解,提取得到的各层级图像特征可以分别记为第一层级特征、第二层级特征/>、第三层级特征/>、第四层级特征/>和第五层级特征/>,其中,,/>,/>,/>,,特征维度之间的关系如下:
式中,表示图像的通道数、/>表示图像的高度、/>表示图像的宽度。
步骤S102:基于第一层级特征、第二层级特征和第五层级特征,提取对应层级的边界特征,并将不同层级的边界特征进行拼接,得到边界信息,以及基于各层级的边界特征和边界标签计算边界损失。其中,边界标签基于分割标签进行拉普拉斯卷积得到。
具体地,可以利用特定的卷积核分别对第一层级特征、第二层级特征和第五层级特征进行进一步卷积操作,实现边缘检测,从而得到各层级的边界特征。再将不同层级的边界特征进行拼接,即可得到所需的边界信息。
一些实施例中,步骤S102中基于第一层级特征、第二层级特征和第五层级特征,提取对应层级的边界特征,并将不同层级的边界特征进行拼接,得到边界信息的步骤,具体包括:
步骤S1021:分别将第二层级特征和第五层级特征上采样到与第一层级特征相同的尺寸。
具体地,由于三个输入特征的空间维度不同,因此需要首先将第二层级特征和第五层级特征/>上采样到和第一层级特征/>相同大小。具体可以表示为:
其中,()和/>()分别表示将特征图上采样/>倍和/>倍,得到特征图和/>。
步骤S1022:分别对第一层级特征、上采样后的第二层级特征和上采样后的第五层级特征进行边界特征提取,得到对应层级的边界特征。
具体地,本实施例中,可以将第一层级特征、上采样后的第二层级特征/>和上采样后的第五层级特征/>分别通过/>卷积,提取各自与边界有关的边界特征,其中,/>表示卷积核大小为3的卷积操作。
步骤S1023:将各层级的边界特征按照通道维度进行特征拼接,得到边界信息。
该过程可以表示为:
其中,表示沿通道维度拼接,/>表示边界信息。
为了使得上述处理得到的边界信息包含正确的边界信息,需要进一步判断得到的边界信息与真实的边界标签的差别,也即计算边界损失来定量表示处理得到的边界信息与真实的边界标签的差别。
一些实施例中,基于各层级的边界特征和边界标签计算边界损失的步骤具体可以包括:
步骤S1024:将各层级的边界特征的通道维度转换为1,并对转换结果求和,得到预测边界结果。
具体地,可以使用的卷积核进行卷积处理,从而将三个层级的通道维度变为,再将三个层级的结果求和,即得到预测边界结果。操作过程可以表示为:
式中,()和/>()分别表示卷积核大小为/>和/>的卷积操作,/>表示得到的预测边界结果。
步骤S1025:对边界标签分别进行步长为1、2和4的拉普拉斯卷积,得到第一标签分支、第二标签分支和第三标签分支。
具体地,由于样本图像不包含边界标签,因此本方案中,利用拉普拉斯卷积累提取边界标签。
其中,拉普拉斯卷积核如下:
步骤S1026:分别将第二标签分支和第三标签分支上采样到与第一标签分支相同的尺寸,并将第一标签分支、上采样后的第二标签分支和上采样后的第三标签分支按照通道维度进行拼接,得到二值边界标签。
具体地,由于得到第二标签分支和第三标签分支的卷积步长分别为2和4,因此,需要分别对第二标签分支进行2倍上采样,对第三标签分支进行4倍上采样,从而得到与第一标签分支相同的尺寸,相当于恢复到原始的分割标签的大小。操作过程表示如下:
其中,表示分割标签,/>表示由分割标签/>生成的二值边界标签,/>()表示步长为/>的拉普拉斯卷积操作,/>表示在空间维度上进行/>倍上采样(),/>表示卷积核大小为/>的卷积操作,/>表示沿通道维度拼接。
步骤S1027:采用二值交叉熵算法,基于预测边界结果和二值边界标签计算得到边界损失。
具体地,边缘检测本质是一个二分类问题(也即图像中的每个像素要么是边缘像素,要么是非边缘像素),因此本步骤中,采用二分类问题中常用二值交叉熵作为损失函数,来计算边界损失。边界损失函数表示如下:
其中,表示边界损失,/>表示像素点,/>表示/>像素的二值边界标签,/>表示/>像素的预测边界结果。
步骤S103:对第三层级特征、第四层级特征和第五层级特征进行特征融合得到多层级融合特征。
具体地,将不同层级的语义特征进行融合,可以更好地融合上下文语义信息。其中,在融合时,需要首先将第三层级特征、第四层级特征/>和第五层级特征/>分别通过卷积统一通道维度,得到/>,然后进行融合。
一些实施例中,步骤S103具体可以包括:基于门融合算法,对第四层级特征和第五层级特征进行特征融合,得到融合特征;基于门融合算法,对融合特征和第三层级特征进行特征融合,得到多层级融合特征。
具体地,门融合算法通过使用一个门控机制来决定两个特征的权重,从而得到融合后的特征。本实施例中,先基于门融合的原理将第四层级特征和第五层级特征进行特征融合,再采用相同的原理将融合结果与第三层级特征进行特征融合,最终得到多层级融合特征。
其中,门融合的过程为:对于待融合的双尺度特征,首先将其沿通道维度进行拼接,然后进行/>卷积操作,以获得来自不同尺度、相同通道的特征相对重要性,再经激活函数后进行全局平均池化,得到控制门/>,上述过程表示如下:
其中,表示控制门,/>表示全局平均池化,/>表示激活函数。控制门/>值越大,说明/>对应的特征通道相比/>对应的特征通道越重要,反之亦然,即/>。因此,得到了不同尺度特征通道的相对重要性。
在得到控制门后,采用门融合的方法融合两个尺度特征,将输入的与/>相乘,将输入的/>与/>相乘,融合特征计算如下:
其中,表示融合操作。
以基于门融合算法对第四层级特征和第五层级特征进行特征融合得到融合特征为例,其具体过程包括:将第四层级特征和第五层级特征按照通道维度进行拼接,并对拼接结果进行预设()卷积操作,得到卷积结果;利用Sigmoid激活函数作为门函数,对卷积结果进行处理,并将处理结果进行全局平均池化,得到控制门;基于控制门确定第四层级特征和第五层级特征的权重,并对第四层级特征和第五层级特征进行加权求和,即得到融合特征。融合特征可以表示为:/>。
再然后按照相同的原理,将第四层级特征和第五层级特征的融合特征与第三层级特征进行融合,再经过卷积和上采样操作,即得到多层级融合特征。整个融合过程可以表示为:
其中,表示多层级融合特征。
步骤S104:利用边界信息对多层级融合特征进行增强,并将增强结果与第五层级特征进行融合,得到预测结果,以及基于预测结果和分割标签计算分割损失。
具体地,利用前述步骤S102得到的边界信息对多层级融合特征/>进行增强,可以利用边界信息对语义上下文进行引导,增强模型的分割性能,再将增强结果与第五层级特征进行融合,从而可以鼓励模型得到更准确的分割结果。
一些实施例中,步骤S104中利用边界信息对多层级融合特征进行增强,并将增强结果与第五层级特征进行融合,得到预测结果,具体可以包括:
将边界信息和多层级融合特征相乘,得到增强后的多层级融合特征;对第五层级特征进行上采样,并与增强后的多层级融合特征相加,得到预测结果。
上述过程可以表示为:
其中,表示模型输出的预测结果,最后通过一层卷积层变换和上采样操作即可实现图像分割。
此外,一些实施例中,基于预测结果和分割标签计算分割损失具体可以包括:采用交叉熵损失算法计算,基于预测结果和所述分割标签计算分割损失。其中,交叉熵损失也分类问题中常用的损失函数。分割损失函数可以表示为:
其中,表示分割损失大小,/>表示类别数,对于ISPRS Vaihingen数据集,/>,分别为不透水面、建筑物、低矮植被、树木、汽车和背景,/>表示最后的输出预测图,/>表示人工标注的分割标签。
步骤S105:以边界损失和分割损失作为模型损失,并以模型损失小于设定阈值为目标,对特征提取和特征融合过程中所使用的网络模型的各参数进行训练,得到遥感图像的语义分割模型。
具体地,模型损失可以表示模型的预测结果与真实结果的差别,模式损失为零是最理想的情况,但实际中难以达到。因此,本实施例中,在模型损失小于设定阈值时即认为模型的性能达到要求,也即认为模型预测结果的误差在可接受范围内。模型损失可以表示为:
其中,表示模型损失大小,/>表示边界损失,/>表示预设的系数,本实施例中,。
其中,模型中待训练的部分包括前述各步骤中进行特征提取以及特征融合时所使用的各个网络模型,包括:步骤S101中用于提取多个层级的图像特征的网络模型、步骤S102中用于提取边界特征的网络模型以及步骤S103中用于特征融合的网络模型等。
在进行一次或多次训练后,可以计算当前的模型损失,并与设定阈值进行比较,若小于设定阈值,则训练完成;否则继续进行训练。最终可以得到模型损失小于设定阈值处理网络模型,即为所需的遥感图像的语义分割模型。
基于上述各实施例的方案,通过提取遥感图像的边界特征,可以实现边界检测,且还可以利用边界特征对包含上下文信息的多层级特征进行增强,实现边界对语义上下文的引导,如此,可以使模型具有更细致的上下文视角,有助于提高模型进行语义分割的性能。
此外,在提取多尺度语义信息和利用边界信息引导多层级语义特征融合时,只使用了简单的无参数数学运算来融合两个互补的特征(也即步骤S104),在保证融合性能的同时可以降低复杂性,减少参数量。
最终,训练得到所需的遥感图像的语义分割模型后,将任意一个待分割的遥感图像输入到训练好的网络模型中,模型可以自动对其进行分割预测,得到对应的语义分割结果。
此外,本申请实施例提供一种基于边界增强的语义分割模型的训练装置,参照图2,基于边界增强的语义分割模型的训练装置包括:
特征提取模块21,用于获取图像样本,并对图像样本进行特征提取,得到多个层级的图像特征;其中,图像样本为包括分割标签的遥感图像,多个层级的图像特征包括对图像样本进行下采样得到的第一层级特征、对第一层级特征进行下采样得到的第二层级特征、对第二层级特征进行下采样得到的第三层级特征、对第三层级特征进行空洞卷积得到的第四层级特征以及对第四层级特征进行空洞卷积得到的第五层级特征;
边界提取模块22,用于基于第一层级特征、第二层级特征和第五层级特征,提取对应层级的边界特征,并将不同层级的边界特征进行拼接,得到边界信息,以及基于各层级的边界特征和边界标签计算边界损失;其中,边界标签基于分割标签进行拉普拉斯卷积得到;
特征融合模块23,用于对第三层级特征、第四层级特征和第五层级特征进行特征融合得到多层级融合特征;
分割预测模块24,用于利用边界信息对多层级融合特征进行增强,并将增强结果与第五层级特征进行融合,得到预测结果,以及基于预测结果和分割标签计算分割损失;
模型训练模块25,用于以边界损失和分割损失作为模型损失,并以模型损失小于设定阈值为目标,对特征提取和特征融合过程中所使用的网络模型的各参数进行训练,得到遥感图像的语义分割模型。
其中,关于上述的基于边界增强的语义分割模型的训练装置过的各个模块的具体实现方法,可以参照前述方法实施例中的相应内容,此处不再赘述。
此外,本申请实施例提供一种电子设备,如图3所示,该电子设备包括存储器31和处理器32;其中,存储器31存储有计算机程序,处理器32调用并执行计算机程序时,实现上述任一实施例中的基于边界增强的语义分割模型的训练方法。
其中,该电子设备可以是台式电脑、笔记本电脑或者服务器等。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (9)
1.一种基于边界增强的语义分割模型的训练方法,其特征在于,包括:
获取图像样本,并对所述图像样本进行特征提取,得到多个层级的图像特征;其中,所述图像样本为包括分割标签的遥感图像,所述多个层级的图像特征包括对所述图像样本进行下采样得到的第一层级特征、对所述第一层级特征进行下采样得到的第二层级特征、对所述第二层级特征进行下采样得到的第三层级特征、对所述第三层级特征进行空洞卷积得到的第四层级特征以及对所述第四层级特征进行空洞卷积得到的第五层级特征;
基于所述第一层级特征、所述第二层级特征和所述第五层级特征,提取对应层级的边界特征,并将不同层级的边界特征进行拼接,得到边界信息,以及基于各层级的边界特征和边界标签计算边界损失;其中,所述边界标签基于所述分割标签进行拉普拉斯卷积得到;
对所述第三层级特征、所述第四层级特征和所述第五层级特征进行特征融合得到多层级融合特征;
利用所述边界信息对所述多层级融合特征进行增强,并将增强结果与所述第五层级特征进行融合,得到预测结果,以及基于所述预测结果和所述分割标签计算分割损失;
以所述边界损失和所述分割损失作为模型损失,并以所述模型损失小于设定阈值为目标,对特征提取和特征融合过程中所使用的网络模型的各参数进行训练,得到遥感图像的语义分割模型。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一层级特征、所述第二层级特征和所述第五层级特征,提取对应层级的边界特征,并将不同层级的边界特征进行拼接,得到边界信息,包括:
分别将所述第二层级特征和所述第五层级特征上采样到与所述第一层级特征相同的尺寸;
分别对所述第一层级特征、上采样后的所述第二层级特征和上采样后的所述第五层级特征进行边界特征提取,得到对应层级的边界特征;
将各层级的所述边界特征按照通道维度进行特征拼接,得到边界信息。
3.根据权利要求1所述的方法,其特征在于,所述基于各层级的边界特征和边界标签计算边界损失,包括:
将各层级的边界特征的通道维度转换为1,并对转换结果求和,得到预测边界结果;
对边界标签分别进行步长为1、2和4的拉普拉斯卷积,得到第一标签分支、第二标签分支和第三标签分支;
分别将所述第二标签分支和第三标签分支上采样到与所述第一标签分支相同的尺寸,并将所述第一标签分支、上采样后的第二标签分支和上采样后的第三标签分支按照通道维度进行拼接,得到二值边界标签;
采用二值交叉熵算法,基于所述预测边界结果和所述二值边界标签计算得到边界损失。
4.根据权利要求1所述的方法,其特征在于,所述对所述第三层级特征、所述第四层级特征和所述第五层级特征进行特征融合得到多层级融合特征,包括:
基于门融合算法,对所述第四层级特征和所述第五层级特征进行特征融合,得到融合特征;
基于门融合算法,对所述融合特征和所述第三层级特征进行特征融合,得到多层级融合特征。
5.根据权利要求4所述的方法,其特征在于,所述基于门融合算法,对所述第四层级特征和所述第五层级特征进行特征融合,得到融合特征,包括:
将所述第四层级特征和所述第五层级特征按照通道维度进行拼接,并对拼接结果进行预设卷积操作,得到卷积结果;
利用Sigmoid激活函数作为门函数,对所述卷积结果进行处理,并将处理结果进行全局平均池化,得到控制门;
基于所述控制门确定所述第四层级特征和所述第五层级特征的权重,并对所述第四层级特征和所述第五层级特征进行加权求和,得到融合特征。
6.根据权利要求1所述的方法,其特征在于,所述利用所述边界信息对所述多层级融合特征进行增强,并将增强结果与所述第五层级特征进行融合,得到预测结果,包括:
将所述边界信息和所述多层级融合特征相乘,得到增强后的多层级融合特征;
对所述第五层级特征进行上采样,并与所述增强后的多层级融合特征相加,得到预测结果。
7.根据权利要求1所述的方法,其特征在于,所述基于所述预测结果和所述分割标签计算分割损失,包括:
采用交叉熵损失算法计算,基于所述预测结果和所述分割标签计算分割损失。
8.一种基于边界增强的语义分割模型的训练装置,其特征在于,包括:
特征提取模块,用于获取图像样本,并对所述图像样本进行特征提取,得到多个层级的图像特征;其中,所述图像样本为包括分割标签的遥感图像,所述多个层级的图像特征包括对所述图像样本进行下采样得到的第一层级特征、对所述第一层级特征进行下采样得到的第二层级特征、对所述第二层级特征进行下采样得到的第三层级特征、对所述第三层级特征进行空洞卷积得到的第四层级特征以及对所述第四层级特征进行空洞卷积得到的第五层级特征;
边界提取模块,用于基于所述第一层级特征、所述第二层级特征和所述第五层级特征,提取对应层级的边界特征,并将不同层级的边界特征进行拼接,得到边界信息,以及基于各层级的边界特征和边界标签计算边界损失;其中,所述边界标签基于所述分割标签进行拉普拉斯卷积得到;
特征融合模块,用于对所述第三层级特征、所述第四层级特征和所述第五层级特征进行特征融合得到多层级融合特征;
分割预测模块,用于利用所述边界信息对所述多层级融合特征进行增强,并将增强结果与所述第五层级特征进行融合,得到预测结果,以及基于所述预测结果和所述分割标签计算分割损失;
模型训练模块,用于以所述边界损失和所述分割损失作为模型损失,并以所述模型损失小于设定阈值为目标,对特征提取和特征融合过程中所使用的网络模型的各参数进行训练,得到遥感图像的语义分割模型。
9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器调用并执行所述计算机程序时,实现如权利要求1至7任意一项所述的基于边界增强的语义分割模型的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311514852.8A CN117237645B (zh) | 2023-11-15 | 2023-11-15 | 基于边界增强的语义分割模型的训练方法、装置和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311514852.8A CN117237645B (zh) | 2023-11-15 | 2023-11-15 | 基于边界增强的语义分割模型的训练方法、装置和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117237645A true CN117237645A (zh) | 2023-12-15 |
CN117237645B CN117237645B (zh) | 2024-02-06 |
Family
ID=89086484
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311514852.8A Active CN117237645B (zh) | 2023-11-15 | 2023-11-15 | 基于边界增强的语义分割模型的训练方法、装置和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117237645B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111127493A (zh) * | 2019-11-12 | 2020-05-08 | 中国矿业大学 | 基于注意力多尺度特征融合的遥感图像语义分割方法 |
CN114581752A (zh) * | 2022-05-09 | 2022-06-03 | 华北理工大学 | 一种基于上下文感知和边界细化的伪装目标检测方法 |
CN115049936A (zh) * | 2022-08-12 | 2022-09-13 | 武汉大学 | 一种面向高分遥感影像的边界增强型语义分割方法 |
US20220358765A1 (en) * | 2021-05-10 | 2022-11-10 | Aerospace Information Research Institute, Chinese Academy Of Sciences | Method for extracting oil storage tank based on high-spatial-resolution remote sensing image |
CN116258850A (zh) * | 2022-12-12 | 2023-06-13 | 浙江大华技术股份有限公司 | 图像语义分割方法、电子设备以及计算机可读存储介质 |
WO2023201681A1 (zh) * | 2022-04-22 | 2023-10-26 | 北京航空航天大学杭州创新研究院 | 面向粗标签的语义分割模型的训练方法和装置 |
-
2023
- 2023-11-15 CN CN202311514852.8A patent/CN117237645B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111127493A (zh) * | 2019-11-12 | 2020-05-08 | 中国矿业大学 | 基于注意力多尺度特征融合的遥感图像语义分割方法 |
US20220358765A1 (en) * | 2021-05-10 | 2022-11-10 | Aerospace Information Research Institute, Chinese Academy Of Sciences | Method for extracting oil storage tank based on high-spatial-resolution remote sensing image |
WO2023201681A1 (zh) * | 2022-04-22 | 2023-10-26 | 北京航空航天大学杭州创新研究院 | 面向粗标签的语义分割模型的训练方法和装置 |
CN114581752A (zh) * | 2022-05-09 | 2022-06-03 | 华北理工大学 | 一种基于上下文感知和边界细化的伪装目标检测方法 |
CN115049936A (zh) * | 2022-08-12 | 2022-09-13 | 武汉大学 | 一种面向高分遥感影像的边界增强型语义分割方法 |
CN116258850A (zh) * | 2022-12-12 | 2023-06-13 | 浙江大华技术股份有限公司 | 图像语义分割方法、电子设备以及计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
陈果 等: "基于边缘引导和多尺度感知的遥感图像道路提取", 激光杂志. HTTPS://LINK.CNKI.NET/URLID/50.1085.TN.20231103.1339.004, pages 1 - 6 * |
Also Published As
Publication number | Publication date |
---|---|
CN117237645B (zh) | 2024-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110674866B (zh) | 迁移学习特征金字塔网络对X-ray乳腺病灶图像检测方法 | |
CN110232394B (zh) | 一种多尺度图像语义分割方法 | |
Wu et al. | Semantic segmentation of high-resolution remote sensing images using fully convolutional network with adaptive threshold | |
CN109544598B (zh) | 目标跟踪方法、装置及可读存储介质 | |
CN114120102A (zh) | 边界优化的遥感图像语义分割方法、装置、设备及介质 | |
CN110096994B (zh) | 一种基于模糊标签语义先验的小样本PolSAR图像分类方法 | |
CN111047551A (zh) | 一种基于U-net改进算法的遥感影像变化检测方法及系统 | |
CN113609889B (zh) | 基于敏感特征聚焦感知的高分辨遥感影像植被提取方法 | |
CN110781756A (zh) | 基于遥感图像的城市道路提取方法及装置 | |
CN111145209A (zh) | 一种医学图像分割方法、装置、设备及存储介质 | |
Couturier et al. | Image denoising using a deep encoder-decoder network with skip connections | |
Wang et al. | The poor generalization of deep convolutional networks to aerial imagery from new geographic locations: an empirical study with solar array detection | |
CN112561937A (zh) | 基于病变边界信息响应的上下文感知医学图像分割方法 | |
Babawuro et al. | Satellite imagery cadastral features extractions using image processing algorithms: A viable option for cadastral science | |
CN113065551A (zh) | 利用深度神经网络模型执行图像分割的方法 | |
CN116645592A (zh) | 一种基于图像处理的裂缝检测方法和存储介质 | |
CN117078930A (zh) | 基于边界感知和注意力机制的医学图像分割方法 | |
Qiu et al. | Saliency detection using a deep conditional random field network | |
CN110728675A (zh) | 肺结节分析装置、模型训练方法、装置及分析设备 | |
CN117253044B (zh) | 一种基于半监督交互学习的农田遥感图像分割方法 | |
Gonzalez | DL4DS—Deep learning for empirical downscaling | |
CN111507950B (zh) | 图像分割的方法和装置、电子设备及计算机可读存储介质 | |
CN117237648A (zh) | 基于上下文感知的语义分割模型的训练方法、装置和设备 | |
CN117237645B (zh) | 基于边界增强的语义分割模型的训练方法、装置和设备 | |
Feng et al. | Improved deep fully convolutional network with superpixel-based conditional random fields for building extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |