CN114170231A - 基于卷积神经网络的图像语义分割方法、装置及电子设备 - Google Patents

基于卷积神经网络的图像语义分割方法、装置及电子设备 Download PDF

Info

Publication number
CN114170231A
CN114170231A CN202010851395.1A CN202010851395A CN114170231A CN 114170231 A CN114170231 A CN 114170231A CN 202010851395 A CN202010851395 A CN 202010851395A CN 114170231 A CN114170231 A CN 114170231A
Authority
CN
China
Prior art keywords
image
feature map
feature
neural network
feature maps
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010851395.1A
Other languages
English (en)
Inventor
徐阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oneplus Technology Shenzhen Co Ltd
Original Assignee
Oneplus Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oneplus Technology Shenzhen Co Ltd filed Critical Oneplus Technology Shenzhen Co Ltd
Priority to CN202010851395.1A priority Critical patent/CN114170231A/zh
Publication of CN114170231A publication Critical patent/CN114170231A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及图像识别技术领域,尤其涉及一种基于卷积神经网络的图像语义分割方法、装置及电子设备。该方法包括:获取待分割的图像;通过包括预设解码器结构的深度卷积神经网络对所述图像进行预测,以获得所述图像的语义分割结果;其中,所述预设解码器结构采用基于多层卷积操作的金字塔结构模块提取高层语义特征,再基于注意力机制将局部特征和全局特征进行融合,以获得初步分割热图。本发明实施例提供的基于卷积神经网络的图像语义分割方法、装置及电子设备,不需要额外引入新的自定义层,所述卷积神经网络模型具有良好的移植性和扩展性;并且能尽量少的引入模型的训练参数,特别适用于轻量级网络中提升神经网络的特征表达能力。

Description

基于卷积神经网络的图像语义分割方法、装置及电子设备
【技术领域】
本发明涉及图像识别技术领域,尤其涉及一种基于卷积神经网络的图像语义分割方法、装置及电子设备。
【背景技术】
编码器-解码器(Encoder-Decoder)结构常用于回归预测的问题中,其中最典型的是图像分割问题。目前使用编码器-解码器结构解决物体分割问题的包括全卷积网络(Fully Convolutional Networks,FCN),Unet,SegNet等。其中,FCN所需要的网络模型参数量较小,但其处理复杂的语义分割任务时分割精度较差;Unet的分割精度相较于FCN较高,但其模型参数量和计算开销较大;而SegNet等不仅会存在上述问题,并且其网络结构中引入了自定义的模型层,导致使用现有的通用的深度学习组件部署时会遇到困难。
因此,提供一种能够尽量少的引入模型训练参数,并且在分割任务中提升网络的特征表达能力的卷积神经网络具有重要意义。
【发明内容】
本发明要解决的技术问题是提供一种基于卷积神经网络的图像语义分割方法、装置及电子设备,以解决相关技术在图像语义分割时存在网络模型参数量大、分割精度差的技术问题。
本发明实施例的一个方面,提供了一种基于卷积神经网络的图像语义分割方法,所述方法包括:
获取待分割的图像;
通过包括预设解码器结构的深度卷积神经网络对所述图像进行预测,以获得所述图像的语义分割结果;其中,所述预设解码器结构采用基于多层卷积操作的金字塔结构模块提取高层语义特征,再基于注意力机制将局部特征和全局特征进行融合,以获得初步分割热图。
可选地,所述通过包括预设解码器结构的深度卷积神经网络对所述图像进行预测,以获得所述图像的语义分割的结果,包括:
对所述待分割的图像进行预处理;
将所述预处理后的图像执行卷积操作和降采样操作,以获得至少两个第一特征图;
对所述至少两个第一特征图分别执行变换通道操作,以获得至少两个第二特征图;
将所述至少两个第二特征图进行上采样,以获得第三特征图;
将所述预处理后的图像执行变换通道操作,并与所述第三特征图进行元素点对点的乘积操作,以获得第四特征图;
将所述预处理后的图像进行全局池化层变换和执行变换通道操作,以获得第五特征图;
调整所述第五特征图的大小,以输出与所述预处理后的图像大小相同的第六特征图;
将所述第四特征图和所述第六特征图进行元素点对点相加操作,以获得第七特征图;
将所述第七特征图进行上采样,以使所述第七特征图的图像尺寸与所述待分割的图像尺寸相同,其中,尺寸变化后的高维特征图中包括每一像素点的预测结果;
基于所述每一像素点的预测结果,获取每一像素点对应的最大预测概率所对应的类别,所述类别作为所述每一像素点的分类结果。
可选地,所述执行变换通道操作具体包括:将特征图的通道数变为所述待分割的图像的类别数。
可选地,所述将所述至少两个第二特征图进行上采样,以获得第三特征图,包括:
将所述至少两个第二特征图中的第一个第二特征图进行上采样,并将其上采样的结果与所述至少两个第二特征图中的第二个第二特征图相加,以获得元素点相加后的特征图;
将所述元素点相加后的特征图进行上采样,并将其上采样的结果与所述至少两个第二特征图中的第三个第二特征图相加,重复上述过程,直至所述至少两个第二特征图中的全部第二特征图都完成了上采样,最后输出第三特征图。
可选地,所述方法还包括:
当所述执行变换通道操作后的图像与所述第三特征图进行元素点对点的乘积操作时,通过Softmax层和Relu层进行数值区间范围约束。
本发明实施例的另一个方面,提供了一种基于卷积神经网络的图像语义分割装置,所述装置包括:
图像获取模块,用于获取待分割的图像;
图像分割模块,用于通过包括预设解码器结构的深度卷积神经网络对所述图像进行预测,以获得所述图像的语义分割结果;其中,所述预设解码器结构采用基于多层卷积操作的金字塔结构模块提取高层语义特征,再基于注意力机制将局部特征和全局特征进行融合,以获得初步分割热图。
可选地,所述图像分割模块具体用于:
对所述待分割的图像进行预处理;
将所述预处理后的图像执行卷积操作和降采样操作,以获得至少两个第一特征图;
对所述至少两个第一特征图分别执行变换通道操作,以获得至少两个第二特征图;
将所述至少两个第二特征图进行上采样,以获得第三特征图;
将所述预处理后的图像执行变换通道操作,并与所述第三特征图进行元素点对点的乘积操作,以获得第四特征图;
将所述预处理后的图像进行全局池化层变换和执行变换通道操作,以获得第五特征图;
调整所述第五特征图的大小,以输出与所述预处理后的图像大小相同的第六特征图;
将所述第四特征图和所述第六特征图进行元素点对点相加操作,以获得第七特征图;
将所述第七特征图进行上采样,以使所述第七特征图的图像尺寸与所述待分割的图像尺寸相同,其中,尺寸变化后的高维特征图中包括每一像素点的预测结果;
基于所述每一像素点的预测结果,获取每一像素点对应的最大预测概率所对应的类别,所述类别作为所述每一像素点的分类结果。
可选地,所述将所述至少两个第二特征图进行上采样,以获得第三特征图,包括:
将所述至少两个第二特征图中的第一个第二特征图进行上采样,并将其上采样的结果与所述至少两个第二特征图中的第二个第二特征图相加,以获得元素点相加后的特征图;
将所述元素点相加后的特征图进行上采样,并将其上采样的结果与所述至少两个第二特征图中的第三个第二特征图相加,重复上述过程,直至所述至少两个第二特征图中的全部第二特征图都完成了上采样,最后输出第三特征图。
本发明实施例的又一个方面,提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的方法。
本发明实施例的还一个方面,提供了一种非易失性计算机可读存储介质,所述非易失性计算机可读存储介质存储有计算机可执行指令,当所述计算机可执行指令被电子设备执行时,使所述电子设备执行如上所述的方法。
本发明实施例的再一个方面,提供了一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被电子设备执行时,使所述电子设备执行如上所述的方法。
区别于现有技术,本发明实施例提供的基于卷积神经网络的图像语义分割方法、装置及电子设备,通过获取待分割的图像;通过包括预设解码器结构的深度卷积神经网络对所述图像进行预测,以获得所述图像的语义分割结果;其中,所述预设解码器结构采用基于多层卷积操作的金字塔结构模块提取高层语义特征,再基于注意力机制将局部特征和全局特征进行融合,以获得初步分割热图。本发明实施例提供的基于卷积神经网络的图像语义分割方法、装置及电子设备,不需要额外引入新的自定义层,所述卷积神经网络模型具有良好的移植性和扩展性;并且能尽量少的引入模型的训练参数,特别适用于轻量级网络中提升神经网络的特征表达能力。
【附图说明】
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是本发明实施例提供的一种基于卷积神经网络的图像语义分割方法的流程图;
图2是本发明实施例提供的通过所述深度卷积神经网络对所述图像进行预测,以获得所述图像的语义分割的结果的方法的流程图;
图3是本发明实施例提供的所述深度卷积神经网络的一种示意图;
图4是本发明实施例提供的一种基于卷积神经网络的图像语义分割装置的结构示意图;
图5是本发明实施例提供的一种电子设备的硬件结构示意图。
【具体实施方式】
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
需要说明的是,如果不冲突,本发明实施例中的各个特征可以相互组合,均在本发明的保护范围之内。另外,虽然在装置示意图中进行了功能模块的划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置示意图中的模块划分,或流程图中的顺序执行所示出或描述的步骤。
本发明实施例提供的基于卷积神经网络的图像语义分割方法和装置,主要采用语义分割的方法,通过像素级识别,定位出待分割图像中的目标物的位置和类别。其中,所述卷积神经网络包括一种新的编码器-解码器结构,通过该新的编码器-解码器结构进行图像语义分割,能够保证网络的轻量化和可移植性,并且提高了小目标的分类精度。
所述基于卷积神经网络的图像语义分割方法和装置,可以在任何合适类型、具有运算能力的电子设备中执行,诸如摄像机、人脸扫描设备、服务器、台式计算机、智能手机、平板电脑等其他电子产品。其中,所述服务器可以是一个物理服务器或者多个物理服务器虚拟而成的一个逻辑服务器。服务器也可以是多个可互联通信的服务器组成的服务器集群,且各个功能模块可分别分布在服务器集群中的各个服务器上。
请参阅图1,图1是本发明实施例提供的一种基于卷积神经网络的图像语义分割方法的流程图。所述方法包括:
S11、获取待分割的图像。
所述待分割的图像可以通过包含摄像头的电子设备实时采集获得,也可以从本地数据库中调取得到。所获得的待分割的图像中包括至少一个待分割的目标物。所述目标物可以是同类物体,也可以是不同类物体。例如,识别一张图像中的人和羊,人和羊是待分割的目标物。
S12、通过包括预设解码器结构的深度卷积神经网络对所述图像进行预测,以获得所述图像的语义分割结果;其中,所述预设解码器结构采用基于多层卷积操作的金字塔结构模块提取高层语义特征,再基于注意力机制将局部特征和全局特征进行融合,以获得初步分割热图。
其中,请参阅图2,所述通过包括预设解码器结构的深度卷积神经网络对所述图像进行预测,以获得所述图像的语义分割的结果,包括:
S1201、对所述待分割的图像进行预处理;其中,所述预处理包括对图像进行旋转一定角度、水平翻转、模糊噪声、多尺度缩放等。当所述待分割的图像包括多幅时,可以将所述多幅待分割图像的宽度和高度调整至相同的大小。
S1202、将所述预处理后的图像执行卷积操作和降采样操作,以获得至少两个第一特征图;
其中,所述卷积操作可以是多层卷积操作,在进行卷积操作时,使用的卷积核的大小以及个数遵循以下原则:(1)越多的卷积核数目意味着下一层的输出特征层的通道数越多(更多的网络训练参数和更强的保留特征信息的能力);(2)卷积核大小的调节可以方便控制输出特征层的大小,使得相同输出大小的特征层可以通过通道维度合并在一起,形成多尺度特征融合网络;(3)在目标检测和语义分割任务中,通常金字塔形的结构有利于提升图像的表征能力,因为通常每个层级的信息都应该是有用的,对于大物体更多提取网络底层的细节信息,而小物体可以获取到更多由高层更大感受野提供的上下文的信息,将这两种结构用以结合可以得到更高质量的结果。
其中,所述卷积操作和所述降采样(池化)操作都可以把输入层的特征维度降低,但两者有不同点。其中,所述降采样操作,也即是池化操作,是直接对输入特征图按规定划分的大小做平均或者最大值,这一步损失了大量特征层信息,但保留了原特征层中的最重要的信息,或者称为最大激活的信息,在分割中,激活值所在的位置一般对应图像中的关注的区域。例如,图像中人站在左下角,那做人像分割时特征层的激活值一般应该在特征层的左下方。所以池化层在一定程度上保留了这种位置敏感性,损失了大部分的图像细节信息。
所述卷积操作是卷积神经网络的基本操作,用来加深网络结构,增强网络的表征能力。但它保留太多图像的信息反而不利于语义分割任务,同时卷积的操作破坏了网络对特征层和网络的相对位置关系,对应多尺度的特征融合来说不可缺少,但只通过卷积操作是不够的。
因此,上述对所述预处理后的图像先执行卷积操作,再执行降采样操作,所述降采样操作可以执行一次或多次。
S1203、对所述至少两个第一特征图分别执行变换通道操作,以获得至少两个第二特征图;
其中,对所述至少两个第一特征图中的每一特征图分别执行变换通道操作,从而得到变换通道后的至少两个第二特征图。
所述执行变换通道操作具体包括:将特征图的通道数变为所述待分割的图像的类别数。
S1204、将所述至少两个第二特征图进行上采样,以获得第三特征图;
上述步骤S1203和步骤S1204分别执行变换通道操作和上采样操作,这是两个操作步骤,两个操作的目的是为了使得输入的特征层在尽可能保留信息量的基础上改变成自己需要的形状。上述两个操作不分先后顺序,可以是先执行变换通道操作,然后进行上采样操作;也可以是先进行上采样操作,然后执行变换通道操作。如果同时进行变换通道操作和上采样操作,会破坏网络提取特征的能力,降低网络性能,所以通常是分布完成。
其中,所述将所述至少两个第二特征图进行上采样,以获得第三特征图,包括:
将所述至少两个第二特征图中的第一个第二特征图进行上采样,并将其上采样的结果与所述至少两个第二特征图中的第二个第二特征图相加,以获得元素点相加后的特征图;将所述元素点相加后的特征图进行上采样,并将其上采样的结果与所述至少两个第二特征图中的第三个第二特征图相加,重复上述过程,直至所述至少两个第二特征图中的全部第二特征图都完成了上采样,最后输出第三特征图。
S1205、将所述预处理后的图像执行变换通道操作,并与所述第三特征图进行元素点对点的乘积操作,以获得第四特征图;
其中,将所述预处理后的图像执行变换通道操作具体是将通道数设置为和需要分割的图像的类别数相同的数目,由此,一方面,方便后续使用Softmax损失函数沿通道方向做逐像素的分类。另一方面,能够明确网络特征层中每个通道所代表的实际类别意义,这样在物体类别数和任务不同的时候方便模型的修改和权重的迁移。
其中,将执行变换通道操作后的图像与所述第三特征图进行元素点对点的乘积操作,原因在于:执行变换通道操作后的图像与所述第三特征图是从不同角度对同一图像做的一种特征提取,它们所蕴含的信息量都有助于帮助做分割,通常对于不同尺度的特征融合可以使用点对点加法或者是直接沿着通道维度做合并,但是点对点的乘积是对图像中信息变化最敏感的一种方式,如果在训练过程中所述第三特征图没有很好的提取到图像中的关键信息,点对点的乘积形式的结果会变得很差,从而可以帮助提升网络对语义信息的敏感程度,以获得精度更高的结果,提升模型训练的效率。
在一些实施例中,当所述执行变换通道操作后的图像与所述第三特征图进行元素点对点的乘积操作时,可以通过Softmax层和Relu层进行数值区间范围约束。其中,Softmax层是一个非线性函数,所有的数值都会在输出时被约束在0~1的范围内。其中,输入正无穷的输出为1,输出负无穷的输出为0。Relu是一个激活函数,针对输入值小于0的数都会统一变成0,大于0的数不做改变。通过Softmax层和Relu层的结合可以使得输出以一个概率的形式呈现。
S1206、将所述预处理后的图像进行全局池化层变换和执行变换通道操作,以获得第五特征图;
可以理解的是,卷积操作可以类比人类视觉中的局部感受野功能,及通过对局部特征的处理完成特定任务。之所以使用卷积根本目的是为了降低模型参数量的同时保证局部细节特征信息不损失。但如果在语义分割中假设所要分割的物体有其他物体遮挡,只观察局部的某个区域可能会引起严重的误判,例如分割人的时候有其他物体遮挡,便效果急剧下滑。因此需要一种全局特征和局部特征进行融合。全局特征便是使用全局池化层(Global Average Pooling)得到。
其中,所述执行变换通道操作具体包括:将进行所述全局池化层变换后的特征图的通道数变为所述待分割的图像的类别数。
S1207、调整所述第五特征图的大小,以输出与所述预处理后的图像大小相同的第六特征图;
其中,可以通过Resize操作调整所述第五特征图的大小。对特征图做Resize操作跟图像的放缩类似,通常是双线性插值法,目的是为了使输出的特征直接达到自己想要的大小。
S1208、将所述第四特征图和所述第六特征图进行元素点对点相加操作,以获得第七特征图;
其中,点对点的加法及步骤S1205中点对点的乘法,可以看做是对步骤S1205中执行变换通道操作后的图像做的一个线性操作,可以类比一次函数y=kx+b,其中x是所述执行变换通道操作后的图像,y是所述第六特征图,其中k和b在其中做的操作就是乘法和加法。k和b的值是通过不断训练得到的值,它们的物理意义可以当做是对所述执行变换通道操作后的图像中的信息量及表征能力通过不同尺度的特征提取办法进行修正,所以可以当做一种注意力机制。如果只是直接用所述执行变换通道操作后的图像的结果也没有问题,只是会使得语义分割的精度变差,因为可能缺少多尺度特征信息和全局特征的信息。
S1209、将所述第七特征图进行上采样,以使所述第七特征图的图像尺寸与所述待分割的图像尺寸相同,其中,尺寸变化后的高维特征图中包括每一像素点的预测结果;
S1210、基于所述每一像素点的预测结果,获取每一像素点对应的最大预测概率所对应的类别,所述类别作为所述每一像素点的分类结果。
进行所述上采样操作后,可以得到一分割热图,该热图包括每一像素点的分类结果。一个像素点的分类结果包括多种,每一种可以对应一预测概率,选取所述最大预测概率对应的类别作为所述像素点的分类结果。
上述结构可以在解码器每个尺度上进行多次使用,具体可以作为一个插件多次以不同的特征作为输入使用,从而加强网络的表征能力。
在一些实施例中,所述方法还包括:组合属于相同分类结果的各个像素点,得到与目标物分类结果对应的目标物的类别;在图像中标记出属于相同目标物分类结果的各个像素点的位置,从而获得目标物在图像中的位置。
在一些实施例中,上述步骤S1209中的结构中包含的卷积层可以用深度可分离卷积进行替换。深度可分离卷积是用于神经网络轻量化的组件,根本目的是替换常规卷积神经网络中的卷积层,同时大幅度降低网络的参数和计算量。由于深度可分离卷积是卷积的低秩近似,所以不能够全部替换,可以只在卷积参数量比较多的几个地方替换,从而保证整体性能不下降。
需要说明的是,除了采用深度可分离卷积替换外,还可以采用其他类型的卷积进行替换,例如空洞卷积,可变性卷积等。
本发明实施例提供的基于卷积神经网络的图像语义分割方法,通过获取待分割的图像;通过包括预设解码器结构的深度卷积神经网络对所述图像进行预测,以获得所述图像的语义分割结果;其中,所述预设解码器结构采用基于多层卷积操作的金字塔结构模块提取高层语义特征,再基于注意力机制将局部特征和全局特征进行融合,以获得初步分割热图。本发明实施例提供的基于卷积神经网络的图像语义分割方法不需要额外引入新的自定义层,所述卷积神经网络模型具有良好的移植性和扩展性;并且能尽量少的引入模型的训练参数,特别适用于轻量级网络中提升神经网络的特征表达能力。
下面通过一个实例来说明所述深度卷积神经网络结构。请参阅图3,图3是本发明实施例提供的所述深度卷积神经网络的一种示意图。其中,假设F是输入的特征层,其尺寸为128*64*128(宽度*高度*通道数)。
步骤1:原始特征层F用128个2*2的卷积层卷积得到64*32*128的输出F_conv1,F_conv1再次用2*2卷积降采样成32*16*128的特征图F_conv2,F_conv2继续降采样成16*8*128的特征图F_conv3。
步骤2:把步骤1得到的F_conv1,F_conv2,F_conv3分别使用1*1的卷积层变换通道数为C,这里C是分割物体的类别数,输出特征图分别为G_conv1,G_conv2,G_conv3。对G_conv1使用上采样层上采样到G_2xconv1[32*16*C],再将G_2xconv1和G_conv2进行元素点对点的相加得到G_2xconv1_sum[32*16*C],再对其进行上采样得到G_4xconv2[64*32*C],所述G_4xconv2[64*32*C]与G_conv3进行特征图对应位置元素的相加并进行上采样得到G_4xconv3_sum[128*64*C]。
步骤3:把原始的特征层F用1*1的卷积变换通道数为C,得到F_conv4[128*64*C],然后和G_4xconv3_sum[128*64*C]进行元素点对点的乘积。
步骤4:将原始的特征层F用全局池化层变为Pool1[1*1*128],再通过1*1的卷积变换通道为Pool_conv1[1*1*C],然后再重新resize成128*64*C大小的特征图,并加到步骤3的结果上得到基于注意力机制习得的特征图F_128x64xC。
步骤5:将特征图F_128x64xC上采样到原图大小F_1024x512xC。
请参阅图4,图4是本发明实施例提供的一种基于卷积神经网络的图像语义分割装置的结构示意图,所述装置40包括:图像获取模块401和图像分割模块402。
所述图像获取模块401用于获取待分割的图像;所述图像分割模块402用于通过包括预设解码器结构的深度卷积神经网络对所述图像进行预测,以获得所述图像的语义分割结果;其中,所述预设解码器结构采用基于多层卷积操作的金字塔结构模块提取高层语义特征,再基于注意力机制将局部特征和全局特征进行融合,以获得初步分割热图。
其中,所述图像分割模块402具体用于:
对所述待分割的图像进行预处理;
将所述预处理后的图像执行卷积操作和降采样操作,以获得至少两个第一特征图;
对所述至少两个第一特征图分别执行变换通道操作,以获得至少两个第二特征图;
将所述至少两个第二特征图进行上采样,以获得第三特征图;
将所述预处理后的图像执行变换通道操作,并与所述第三特征图进行元素点对点的乘积操作,以获得第四特征图;
将所述预处理后的图像进行全局池化层变换和执行变换通道操作,以获得第五特征图;
调整所述第五特征图的大小,以输出与所述预处理后的图像大小相同的第六特征图;
将所述第四特征图和所述第六特征图进行元素点对点相加操作,以获得第七特征图;
将所述第七特征图进行上采样,以使所述第七特征图的图像尺寸与所述待分割的图像尺寸相同,其中,尺寸变化后的高维特征图中包括每一像素点的预测结果;
基于所述每一像素点的预测结果,获取每一像素点对应的最大预测概率所对应的类别,所述类别作为所述每一像素点的分类结果。
其中,所述执行变换通道操作具体包括:将特征图的通道数变为所述待分割的图像的类别数。
其中,所述将所述至少两个第二特征图进行上采样,以获得第三特征图,包括:
将所述至少两个第二特征图中的第一个第二特征图进行上采样,并将其上采样的结果与所述至少两个第二特征图中的第二个第二特征图相加,以获得元素点相加后的特征图;
将所述元素点相加后的特征图进行上采样,并将其上采样的结果与所述至少两个第二特征图中的第三个第二特征图相加,重复上述过程,直至所述至少两个第二特征图中的全部第二特征图都完成了上采样,最后输出第三特征图。
其中,当所述执行变换通道操作后的图像与所述第三特征图进行元素点对点的乘积操作时,所述图像分割模块402还用于通过Softmax层和Relu层进行数值区间范围约束。
需要说明的是,上述基于卷积神经网络的图像语义分割装置可执行本发明实施例所提供的基于卷积神经网络的图像语义分割方法,具备执行方法相应的功能模块和有益效果。未在基于卷积神经网络的图像语义分割装置实施例中详尽描述的技术细节,可参见本发明实施例所提供的基于卷积神经网络的图像语义分割方法。
请参阅图5,图5是本发明实施例提供的一种电子设备的硬件结构示意图,所述电子设备可以用于执行如上所述的基于卷积神经网络的图像语义分割方法。如图5所示,该电子设备50包括:
一个或多个处理器51以及存储器52,图5中以一个处理器51为例。
处理器51和存储器52可以通过总线或者其他方式连接,图5中以通过总线连接为例。
存储器52作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的基于卷积神经网络的图像语义分割方法对应的程序指令/模块(例如,附图4所示的模块)。处理器51通过运行存储在存储器52中的非易失性软件程序、指令以及模块,从而执行基于卷积神经网络的图像语义分割装置的各种功能应用以及数据处理,即实现上述方法实施例的基于卷积神经网络的图像语义分割方法。
存储器52可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据基于卷积神经网络的图像语义分割装置的使用所创建的数据等。此外,存储器52可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器52可选包括相对于处理器51远程设置的存储器,这些远程存储器可以通过网络连接至基于卷积神经网络的图像语义分割装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器52中,当被所述一个或者多个处理器51执行时,执行上述任意方法实施例中的基于卷积神经网络的图像语义分割方法,例如,执行以上描述的图1和图2中的方法步骤,实现图4中的模块的功能。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
本发明实施例提供了一种非易失性计算机可读存储介质,所述非易失性计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被电子设备执行上述任意方法实施例中的基于卷积神经网络的图像语义分割方法,例如,执行以上描述的图1和图2中的方法步骤,实现图4中的模块的功能。
本发明实施例提供了一种计算机程序产品,包括存储在非易失性计算机可读存储介质上的计算程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任意方法实施例中的基于卷积神经网络的图像语义分割方法,例如,执行以上描述的图1和图2中的方法步骤,实现图4中的模块的功能。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域普通技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件来实现。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明,它们没有在细节中提供;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种基于卷积神经网络的图像语义分割方法,其特征在于,所述方法包括:
获取待分割的图像;
通过包括预设解码器结构的深度卷积神经网络对所述图像进行预测,以获得所述图像的语义分割结果;其中,所述预设解码器结构采用基于多层卷积操作的金字塔结构模块提取高层语义特征,再基于注意力机制将局部特征和全局特征进行融合,以获得初步分割热图。
2.根据权利要求1所述的方法,其特征在于,所述通过包括预设解码器结构的深度卷积神经网络对所述图像进行预测,以获得所述图像的语义分割的结果,包括:
对所述待分割的图像进行预处理;
将所述预处理后的图像执行卷积操作和降采样操作,以获得至少两个第一特征图;
对所述至少两个第一特征图分别执行变换通道操作,以获得至少两个第二特征图;
将所述至少两个第二特征图进行上采样,以获得第三特征图;
将所述预处理后的图像执行变换通道操作,并与所述第三特征图进行元素点对点的乘积操作,以获得第四特征图;
将所述预处理后的图像进行全局池化层变换和执行变换通道操作,以获得第五特征图;
调整所述第五特征图的大小,以输出与所述预处理后的图像大小相同的第六特征图;
将所述第四特征图和所述第六特征图进行元素点对点相加操作,以获得第七特征图;
将所述第七特征图进行上采样,以使所述第七特征图的图像尺寸与所述待分割的图像尺寸相同,其中,尺寸变化后的高维特征图中包括每一像素点的预测结果;
基于所述每一像素点的预测结果,获取每一像素点对应的最大预测概率所对应的类别,所述类别作为所述每一像素点的分类结果。
3.根据权利要求2所述的方法,其特征在于,所述执行变换通道操作具体包括:将特征图的通道数变为所述待分割的图像的类别数。
4.根据权利要求2所述的方法,其特征在于,所述将所述至少两个第二特征图进行上采样,以获得第三特征图,包括:
将所述至少两个第二特征图中的第一个第二特征图进行上采样,并将其上采样的结果与所述至少两个第二特征图中的第二个第二特征图相加,以获得元素点相加后的特征图;
将所述元素点相加后的特征图进行上采样,并将其上采样的结果与所述至少两个第二特征图中的第三个第二特征图相加,重复上述过程,直至所述至少两个第二特征图中的全部第二特征图都完成了上采样,最后输出第三特征图。
5.根据权利要求2至4任一项所述的方法,其特征在于,所述方法还包括:
当所述执行变换通道操作后的图像与所述第三特征图进行元素点对点的乘积操作时,通过Softmax层和Relu层进行数值区间范围约束。
6.一种基于卷积神经网络的图像语义分割装置,其特征在于,所述装置包括:
图像获取模块,用于获取待分割的图像;
图像分割模块,用于通过包括预设解码器结构的深度卷积神经网络对所述图像进行预测,以获得所述图像的语义分割结果;其中,所述预设解码器结构采用基于多层卷积操作的金字塔结构模块提取高层语义特征,再基于注意力机制将局部特征和全局特征进行融合,以获得初步分割热图。
7.根据权利要求6所述的装置,其特征在于,所述图像分割模块具体用于:
对所述待分割的图像进行预处理;
将所述预处理后的图像执行卷积操作和降采样操作,以获得至少两个第一特征图;
对所述至少两个第一特征图分别执行变换通道操作,以获得至少两个第二特征图;
将所述至少两个第二特征图进行上采样,以获得第三特征图;
将所述预处理后的图像执行变换通道操作,并与所述第三特征图进行元素点对点的乘积操作,以获得第四特征图;
将所述预处理后的图像进行全局池化层变换和执行变换通道操作,以获得第五特征图;
调整所述第五特征图的大小,以输出与所述预处理后的图像大小相同的第六特征图;
将所述第四特征图和所述第六特征图进行元素点对点相加操作,以获得第七特征图;
将所述第七特征图进行上采样,以使所述第七特征图的图像尺寸与所述待分割的图像尺寸相同,其中,尺寸变化后的高维特征图中包括每一像素点的预测结果;
基于所述每一像素点的预测结果,获取每一像素点对应的最大预测概率所对应的类别,所述类别作为所述每一像素点的分类结果。
8.根据权利要求7所述的装置,其特征在于,所述将所述至少两个第二特征图进行上采样,以获得第三特征图,包括:
将所述至少两个第二特征图中的第一个第二特征图进行上采样,并将其上采样的结果与所述至少两个第二特征图中的第二个第二特征图相加,以获得元素点相加后的特征图;
将所述元素点相加后的特征图进行上采样,并将其上采样的结果与所述至少两个第二特征图中的第三个第二特征图相加,重复上述过程,直至所述至少两个第二特征图中的全部第二特征图都完成了上采样,最后输出第三特征图。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至5中任一项所述的方法。
10.一种非易失性计算机可读存储介质,其特征在于,所述非易失性计算机可读存储介质存储有计算机可执行指令,当所述计算机可执行指令被电子设备执行时,使所述电子设备执行权利要求1至5中任一项所述的方法。
CN202010851395.1A 2020-08-21 2020-08-21 基于卷积神经网络的图像语义分割方法、装置及电子设备 Pending CN114170231A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010851395.1A CN114170231A (zh) 2020-08-21 2020-08-21 基于卷积神经网络的图像语义分割方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010851395.1A CN114170231A (zh) 2020-08-21 2020-08-21 基于卷积神经网络的图像语义分割方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN114170231A true CN114170231A (zh) 2022-03-11

Family

ID=80475491

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010851395.1A Pending CN114170231A (zh) 2020-08-21 2020-08-21 基于卷积神经网络的图像语义分割方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN114170231A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114419381A (zh) * 2022-04-01 2022-04-29 城云科技(中国)有限公司 一种语义分割方法及应用其的道路积水检测方法和装置
CN114882212A (zh) * 2022-03-23 2022-08-09 上海人工智能创新中心 一种基于先验结构的语义分割方法及装置
CN115239889B (zh) * 2022-09-01 2023-05-26 北京百度网讯科技有限公司 3d重建网络的训练方法、3d重建方法、装置、设备和介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114882212A (zh) * 2022-03-23 2022-08-09 上海人工智能创新中心 一种基于先验结构的语义分割方法及装置
CN114882212B (zh) * 2022-03-23 2024-06-04 上海人工智能创新中心 一种基于先验结构的语义分割方法及装置
CN114419381A (zh) * 2022-04-01 2022-04-29 城云科技(中国)有限公司 一种语义分割方法及应用其的道路积水检测方法和装置
CN114419381B (zh) * 2022-04-01 2022-06-24 城云科技(中国)有限公司 一种语义分割方法及应用其的道路积水检测方法和装置
CN115239889B (zh) * 2022-09-01 2023-05-26 北京百度网讯科技有限公司 3d重建网络的训练方法、3d重建方法、装置、设备和介质

Similar Documents

Publication Publication Date Title
CN108416266B (zh) 一种利用光流提取运动目标的视频行为快速识别方法
Fu et al. Using convolutional neural network to identify irregular segmentation objects from very high-resolution remote sensing imagery
CN109255772B (zh) 基于风格迁移的车牌图像生成方法、装置、设备及介质
AU2019268184B2 (en) Precise and robust camera calibration
CN110516541B (zh) 文本定位方法、装置、计算机可读存储介质和计算机设备
CN114170231A (zh) 基于卷积神经网络的图像语义分割方法、装置及电子设备
AU2021354030B2 (en) Processing images using self-attention based neural networks
CN113159232A (zh) 一种三维目标分类、分割方法
US20230326173A1 (en) Image processing method and apparatus, and computer-readable storage medium
CN114092938B (zh) 图像的识别处理方法、装置、电子设备及存储介质
CN112464798A (zh) 文本识别方法及装置、电子设备、存储介质
CN111209964A (zh) 模型训练方法、基于深度学习的金属断口分析方法及应用
WO2024001095A1 (zh) 面部表情识别方法、终端设备及存储介质
CN114037640A (zh) 图像生成方法及装置
CN114359289A (zh) 一种图像处理方法及相关装置
CN110807463B (zh) 图像分割方法、装置、计算机设备和存储介质
CN110633640A (zh) 优化PointNet对于复杂场景的识别方法
CN113963272A (zh) 一种基于改进yolov3的无人机图像目标检测方法
CN113496472A (zh) 图像去雾模型构建、道路图像去雾方法、装置及车辆
CN111652245B (zh) 车辆轮廓检测方法、装置、计算机设备及存储介质
CN115115860A (zh) 一种基于深度学习的图像特征点检测匹配网络
WO2022081175A1 (en) Enhanced images
CN115984583B (zh) 数据处理方法、装置、计算机设备、存储介质和程序产品
CN111161250B (zh) 一种多尺度遥感图像密集房屋检测方法及装置
CN111291593B (zh) 一种检测人体姿态的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination