CN116363368A - 基于卷积神经网络的图像语义分割方法及其装置 - Google Patents
基于卷积神经网络的图像语义分割方法及其装置 Download PDFInfo
- Publication number
- CN116363368A CN116363368A CN202310443191.8A CN202310443191A CN116363368A CN 116363368 A CN116363368 A CN 116363368A CN 202310443191 A CN202310443191 A CN 202310443191A CN 116363368 A CN116363368 A CN 116363368A
- Authority
- CN
- China
- Prior art keywords
- image
- semantic segmentation
- module
- layer
- image semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例公开了基于卷积神经网络的图像语义分割方法及其装置,通过对图像语义分割网络模型进行改进,以达到提升图像语义分割的准确度,提升图像语义分割效果的目的。该图像语义分割方法包括:获取待处理图像,待处理图像是预先采集准备进行图像语义分割的图像;使用预先训练好的图像语义分割网络模型对待处理图像进行图像语义分割,得到分割结果图,图像语义分割网络模型包括编码器和解码器,编码器是使用空洞卷积对卷积神经网络进行改进后得到,解码器是采用边界增强模块、金字塔池化模块和像素对齐模块组合而成多层次结构设计得到。
Description
技术领域
本申请涉及图像处理和深度学习技术领域,尤其涉及基于卷积神经网络的图像语义分割方法及其装置。
背景技术
图像语义分割在计算机视觉领域有着广泛而活跃的研究,是实现场景理解的一项重要前置任务。其目的是为图像中的所有像素分配语义类别的标签,将场景图像分割解析为与语义类别相关的不同区域。
目前,在相关技术中,传统的图像图像语义分割是基于全卷积神经网络FCN模型实现语义分割的。FCN模型能够实现端到端全图像分割,具有一定的精度优势,但FCN模型侧重于图像的核心区域的图像特征,很大程度上忽略了图像的局部特征和边界特征的提取,从而导致FCN模型在复杂场景下使用FCN模型进行图像语义分割的准确度低、效果不佳。
发明内容
基于此,有必要针对上述问题,本申请提出了基于卷积神经网络的图像语义分割方法及其装置,通过对图像语义分割网络模型进行改进,以达到提升图像语义分割的准确度,提升图像语义分割效果的目的。
第一方面,本申请提供了一种基于卷积神经网络的图像语义分割方法,包括:
获取待处理图像,待处理图像是预先采集准备进行图像语义分割的图像;
使用预先训练好的图像语义分割网络模型对待处理图像进行图像语义分割,得到分割结果图,图像语义分割网络模型包括编码器和解码器,编码器是使用空洞卷积对卷积神经网络进行改进后得到,解码器是采用边界增强模块、金字塔池化模块和像素对齐模块组合而成多层次结构设计得到。
可选的,在第一方面的一种可能的实现方式中,卷积神经网络为残差网络ResNet50,残差网络ResNet50分为四层,其中第三层和第四层中使用的卷积为空洞卷积,每一层的输出图像均输入解码器中。
可选的,在第一方面的一种可能的实现方式中,编码器和解码器之间的连接方式如下:残差网络ResNet50中第一层的输出图像输入边界增强模块中;残差网络ResNet50中第三层的输出图像通过卷积模块控制后,与第二层的输出图像进行通道合并后输入像素对齐模块中;残差网络ResNet50中第四层的输出图像输入金字塔池化模块中,并通过金字塔池化模块后与第二层和第三层的融合输出进行通道合并后输入像素对齐模块。
可选的,在第一方面的一种可能的实现方式中,边界增强模块采用平均池化和最大池化技术设计得到,用于增加图像中目标的边界。
可选的,在第一方面的一种可能的实现方式中,金字塔池化模块中包括至少两个不同尺寸的自适应平均池化块,用于获取不同图像的多尺度特征。
可选的,在第一方面的一种可能的实现方式中,像素对齐模块采用深度可分离卷积和上采样技术设计得到,用于获取不同尺寸特征图之间的像素关联性。
可选的,在第一方面的一种可能的实现方式中,上述图像语义分割方法还包括:基于语义分割图像数据集中的数据,使用带动量的随机梯度下降算法,对图像语义分割网络模型进行数据训练。
第二方面,本申请提供了一种图像语义分割装置,包括:
图像获取模块和图像语义分割模块;
图像获取模块,用于获取待处理图像,待处理图像是预先采集准备进行图像语义分割的图像;
图像语义分割模块,用于使用预先训练好的图像语义分割网络模型对待处理图像进行图像语义分割,得到分割结果图,图像语义分割网络模型包括编码器和解码器,编码器是使用空洞卷积对卷积神经网络进行改进后得到,解码器是采用边界增强模块、金字塔池化模块和像素对齐模块组合而成多层次结构设计得到。
第三方面,本申请提供了一种电子设备,包括:存储器和处理器,存储器上存储有可执行代码,当可执行代码被处理器所调用时,使得电子设备执行如第一方面及其实现方式中任一项所述的基于卷积神经网络的图像语义分割方法。
第四方面,本申请提供了一种计算机可读存储介质,其上存储有有可执行代码,当可执行代码被电子设备的处理器所调用时,使得电子设备执行如第一方面及其实现方式中任一项所述的基于卷积神经网络的图像语义分割方法。
本申请提供的技术方案具有以下有益效果:
本申请技术方案中,通过对图像语义分割网络模型进行改进,一方面,使用空洞卷积对卷积神经网络中的编码器进行改进,使得改进后的编码器可以将不同网络层的输出图像输出至解码器中;另一方面,解码器采用边界增强模块、金字塔池化模块和像素对齐模块组合而成多层次结构设计,使得解码器可以更好地利用编码器不同网络层的输出图像,提取图像中丰富的多尺度局部信息和全局信息,深度挖掘图像的内在联系,细化图像的语义分割结果,提升图像语义分割的准确度,提升图像语义分割效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
通过结合附图对本申请示例性实施方式进行更详细的描述,本申请的上述以及其它目的、特征和优势将变得更加明显,其中,在本申请示例性实施方式中,相同的参考标号通常代表相同部件。
图1为本申请实施例中基于卷积神经网络的图像语义分割方法的一个实施例示意图;
图2为本申请实施例中图像语义分割网络模型的一个结构示意图;
图3为本申请实施例中边界增强模块的一个结构示意图;
图4为本申请实施例中金字塔池化模块的一个结构示意图;
图5为本申请实施例中像素对齐模块的一个结构示意图;
图6为本申请实施例中图像语义分割装置的一个结构示意图;
图7为本申请实施例中电子设备的一个结构示意图。
具体实施方式
下面将参照附图更详细地描述本申请的实施方式。虽然附图中显示了本申请的实施方式,然而应该理解,可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本申请更加透彻和完整,并且能够将本申请的范围完整地传达给本领域的技术人员。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语“第一”、“第二”、“第三”等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
图像语义分割应用于人机交互、医疗诊断以及物体行为分析等方面,其为卫星遥感系统、自动驾驶等复杂的应用提供了底层支持。为了提升图像语义分割在复杂场景下的准确性,本申请实施例中提供了一种基于卷积神经网络的图像语义分割方法及其装置,通过对图像语义分割网络模型进行改进,以达到提升图像语义分割的准确度,提升图像语义分割效果的目的。
为了便于理解本申请实施例的技术方案,下面结合附图及其具体实施例对本申请实施例中的基于卷积神经网络的图像语义分割方法进行详细说明,具体如下:
图1为本申请实施例中基于卷积神经网络的图像语义分割方法的一个实施例示意图。
如图1所示,本申请实施例中基于卷积神经网络的图像语义分割方法,包括:
101、对图像语义分割网络模型进行数据训练。
本申请实施例中,模型训练的具体方式可以为:基于语义分割图像数据集中的数据,使用带动量的随机梯度下降算法,对图像语义分割网络模型进行数据训练。
具体来说,首先,对语义分割数据集中的图像进行预处理,其操作具体为:将语义分割数据集中的图像及其掩码进行剪切、翻转、平移和缩放操作,扩充语义分割数据集;进而,使用预处理后的语义分割图像数据集进行图像语义分割网络模型的模型训练和网络参数设置具体为:将预处理后的语义分割图像数据集内的图像作为输入图像,统一输入图像的尺寸,图像语义分割网络模型中的权值初始化方式为Kaiming,图像语义分割网络模型使用带动量的随机梯度下降算法进行训练,迭代次数为30000次,权重衰减为1e-5,动量为0.9,批处理个数为4,初始学习率为0.001,学习率迭代策略为“Poly”。
进一步的,图像语义分割网络模型包括编码器和解码器,编码器是使用空洞卷积对卷积神经网络进行改进后得到,解码器是采用边界增强模块、金字塔池化模块和像素对齐模块组合而成多层次结构设计得到。
进一步的,卷积神经网络为残差网络ResNet50,残差网络ResNet50分为四层,其中第三层和第四层中使用的卷积为空洞卷积,每一层的输出图像均输入解码器中。
可选的,在上述残差网络ResNet50中,编码器和解码器之间的连接方式如下:残差网络ResNet50中第一层的输出图像输入边界增强模块中;残差网络ResNet50中第三层的输出图像通过卷积模块控制后,与第二层的输出图像进行通道合并后输入像素对齐模块中;残差网络ResNet50中第四层的输出图像输入金字塔池化模块中,并通过金字塔池化模块后与第二层和第三层的融合输出进行通道合并后输入像素对齐模块。
编码器为ResNet50变体的骨干网络。在解码器中,设计了多层次结构,包括边界增强模块、金字塔池化模块和像素对齐模块,这些不同模块在多层次结构中完成各自的功能,实现多尺度特征图的高效聚合。在训练过程中,将预处理的语义分割图像送入到较深的编码器中力求网络学习到更多的图像特征信息,此外,采用迁移学习进行网络架构的初始化,加速图像特征信息的学习,进而加速模型收敛。
102、获取待处理图像,待处理图像是预先采集准备进行图像语义分割的图像。
在本申请实施例中,待处理图像被获取后,可以先对该图像进行预处理,以提高图像语义分割的准确度。具体的图像预处理操作可以是:对待处理图像及其掩码进行剪切、翻转、平移和缩放操作。
103、使用预先训练好的图像语义分割网络模型对待处理图像进行图像语义分割,得到分割结果图。
在本申请实施例中,在完成对图像语义分割网络模型的训练后,将待处理图像直接输入或对待处理图像进行预处理后输入图像语义分割网络模型中进行图像语义分割,得到分割结果图。
在本申请实施例的技术方案中,通过对图像语义分割网络模型进行改进,一方面,使用空洞卷积对卷积神经网络中的编码器进行改进,使得改进后的编码器可以将不同网络层的输出图像输出至解码器中;另一方面,解码器采用边界增强模块、金字塔池化模块和像素对齐模块组合而成多层次结构设计,使得解码器可以更好地利用编码器不同网络层的输出图像,提取图像中丰富的多尺度局部信息和全局信息,深度挖掘图像的内在联系,细化图像的语义分割结果,提升图像语义分割的准确度,提升图像语义分割效果。
进一步的,本申请实施例中可以采用Python语言作为基础,开源的Pytorch作为神经网络框架,完成语义分割网络模型的搭建,通过语义分割图像数据集训练语义分割网络模型,找出最优的模型参数,包括以下步骤:
步骤1:场景图像数据集构建,对图像数据集进行分割标注预处理;搭建语义分割网络模型,将卷积神经网络模型ResNet50骨干网络的一种变体作为分割模型编码器,采用边界增强模块、金字塔池化模块和像素对齐模块组合成多层次结构作为解码器;在高性能服务器上完成训练环境和训练参数的设置,搭建好的语义分割网络模型在预处理后的语义分割图像数据集上训练,获得网络模型权重文件,获得训练好的语义分割模型。
步骤2:模型应用,其具体为:使用训练好的语义分割网络模型对图像进行语义分割,得到分割结果图。
其中,对场景图像数据集构建,对图像数据集进行分割标注预处理,具体为:获得不同场景下的图像,将其统一为同种能够进行模型训练的规格。标注就是获得图像的掩码,预处理对原图与掩码进行剪切、翻转、平移和缩放操作,扩充语义分割数据集,可以提升语义分割网络模型的泛化能力。
图2为本申请实施例中图像语义分割网络模型的一个结构示意图;
如图2所示,一方面,搭建语义分割网络模型将卷积神经网络模型ResNet50骨干网络的一种变体作为分割模型编码器,ResNet50骨干网络一共分为4层,输入图像送入第一层,每一层的输出送入下一层,并且每层的输出特征图尺寸不一致。本发明所用变体的ResNet50骨干网络相比于原始的ResNet50骨干网络,其第三层和第四层使用空洞卷积来替换普通的卷积,这使得第三层和第四层的输出尺寸与第二层保持一致,每一层的输出都会作为解码器的输入。
另一方面,搭建的语义分割网络模型采用边界增强模块、金字塔池化模块和像素对齐模块组合成多层次结构作为解码器,多层次结构的输入为ResNet50的每一层输出。骨干网络第一层的输出送入所述的边界增强模块,第二层和第三层的输出通过一个卷积模块控制尺寸后进行通道合并这种融合方式,第四层的输出通过金字塔池化模块与前两层的融合输出进行通道合并,所获得的结果与边界增强模块的输出一起送入像素对齐模块,像素对齐模块的输出用来生成分割结果图,边界增强模块能够加强目标边界,金字塔池化模块和像素对齐模块分别针对不同事物的特征,对于不规则形状的事物分割具有一定的提高。
进一步可选的,在本申请实施例的一些实施方式中,边界增强模块采用平均池化和最大池化技术设计得到,用于增加图像中目标的边界。
具体来说,图3为本申请实施例中边界增强模块的一个结构示意图。
边界增强模块如图3所示,本申请实施例中ResNet50骨干网络第一层的输出为特征图,的尺寸为H×W×C,经过通道平均池化、通道最大池化、通道归一化获得尺寸均为H×W×1的特征图,进行像素Addition和Sigmoid激活函数,生成注意系数,所述注意系数对特征图进行加权像素点乘,用来的调节特征图上每一个像素点,强化物体的边界。
进一步可选的,在本申请实施例的一些实施方式中,金字塔池化模块中包括至少两个不同尺寸的自适应平均池化块,用于获取不同图像的多尺度特征。
具体来说,图4为本申请实施例中金字塔池化模块的一个结构示意图。
金字塔池化模块如图4所示,包括m个k×k的自适应平均池化块,k>0,可取1,2,…,6等,骨干网络第四层输出的特征图经过降维后送入m个自适应平均池化块;池化块输出的特征图经过卷积块进行通道降维后,上采样恢复到输入金字塔池化模块一致的尺寸大小;最后,送入一个3×3的卷积块得到金字塔池化模块的输出,即池化后的特征图。
进一步可选的,在本申请实施例的一些实施方式中,像素对齐模块采用深度可分离卷积和上采样技术设计得到,用于获取不同尺寸特征图之间的像素关联性。
具体来说,图5为本申请实施例中像素对齐模块的一个结构示意图。
像素对齐模块如图5所示,模块的输入为不同尺寸的特征图F1和特征图F2,通过一个双线性差值层将F1上采样到F2相同的尺寸,之后进行通道融合,通过一组深度可分离卷积(DW-Conv)来建立不同层次特征图上像素点之间的位置关系,用DCN[29]相似的方式,使用一个3x3的卷积生成像素运动场Ffield∈RH×W×2。Ffield含有像素向量的空间变换信息(x-y矢量场),将Ffield上每一个像素位置ρl特征映射到输入F1得到Fwarp∈RH×W×256。具体如公式其中ωρ表示弯曲空间网格上双线性核的权重是通过Ffield计算得到,δ(ρl)表示ρl相邻的位置。由F1产生的Fwarp与F2之间的像素关系就得到统一,将其通道连接并用一个3×3的卷积(不带BN和ReLU)进行特征融合与维度控制生成最终输出F4。
本申请中的图像分割方法是一种基于全卷积语义分割方法,编码器为ResNet50变体的骨干网络。在解码器中,设计了多层次结构,包括边界增强模块、金字塔池化模块和像素对齐模块,这些不同模块在多层次结构中完成各自的功能,实现多尺度特征图的高效聚合。在训练过程中,将预处理的语义分割图像送入到较深的编码器中力求网络学习到更多的图像特征信息,此外,采用迁移学习进行网络架构的初始化,加速图像特征信息的学习,进而加速模型收敛。
整体上讲,尽管不同类别的物体可能具有相似的局部特征,且相关细节信息增大了分割的难度,然而,本发明能够有效实现编解码之间的联系,充分提取不同阶段之间和同一阶段内的相关信息,可以有效地融合低层和高层特征,获得远程依赖和丰富的上下文信息,可以比较高效准确地对相关图像进行分割。通过本发明可以高效、准确地实现对相关图像的语义分割任务。
与前述应用功能实现方法实施例相对应,本申请还提供了一种图像语义分割装置、电子设备、存储介质及相应的实施例。
图6为本申请实施例中图像语义分割装置的一个结构示意图。
如图6所示,本申请实施例中图像语义分割装置60包括:图像获取模块601和图像语义分割模块602;
图像获取模块601,用于获取待处理图像,待处理图像是预先采集准备进行图像语义分割的图像;
图像语义分割模块602,用于使用预先训练好的图像语义分割网络模型对待处理图像进行图像语义分割,得到分割结果图,图像语义分割网络模型包括编码器和解码器,编码器是使用空洞卷积对卷积神经网络进行改进后得到,解码器是采用边界增强模块、金字塔池化模块和像素对齐模块组合而成多层次结构设计得到。
可选的,在本申请实施例的一些实施方式中,卷积神经网络为残差网络ResNet50,残差网络ResNet50分为四层,其中第三层和第四层中使用的卷积为空洞卷积,每一层的输出图像均输入解码器中。
可选的,在本申请实施例的一些实施方式中,编码器和解码器之间的连接方式如下:残差网络ResNet50中第一层的输出图像输入边界增强模块中;残差网络ResNet50中第三层的输出图像通过卷积模块控制后,与第二层的输出图像进行通道合并后输入像素对齐模块中;残差网络ResNet50中第四层的输出图像输入金字塔池化模块中,并通过金字塔池化模块后与第二层和第三层的融合输出进行通道合并后输入像素对齐模块。
可选的,在本申请实施例的一些实施方式中,边界增强模块采用平均池化和最大池化技术设计得到,用于增加图像中目标的边界。
可选的,在本申请实施例的一些实施方式中,金字塔池化模块中包括至少两个不同尺寸的自适应平均池化块,用于获取不同图像的多尺度特征。
可选的,在本申请实施例的一些实施方式中,像素对齐模块采用深度可分离卷积和上采样技术设计得到,用于获取不同尺寸特征图之间的像素关联性。
可选的,在本申请实施例的一些实施方式中,图像语义分割装置60还包括:数据训练模块603,用于基于语义分割图像数据集中的数据,使用带动量的随机梯度下降算法,对图像语义分割网络模型进行数据训练。
关于上述实施例中的装置,其中各个模块执行操作的具体方式及其有益效果已经在有关该方法的实施例中进行了详细描述,此处将不再做详细阐述说明。
图7为本申请实施例中电子设备的一个结构示意图。
如图7所示,本申请实施例中电子设备70包括存储器701和处理器702。存储器上存储有可执行代码,当可执行代码被处理器执行时,使处理器执行上述任一实施例中的方法。
处理器702可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器701可以包括各种类型的存储单元,例如系统内存、只读存储器(ROM),和永久存储装置。其中,ROM可以存储处理器702或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器701可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(DRAM,SRAM,SDRAM,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器701可以包括可读和/或写的可移除的存储设备,例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM,双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
存储器701上存储有可执行代码,当可执行代码被处理器702处理时,可以使处理器702执行上文述及的方法中的部分或全部。
此外,根据本申请的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本申请的上述方法中部分或全部步骤的计算机程序代码指令。
或者,本申请还可以实施为一种计算机可读存储介质(或机器可读存储介质),其上存储有可执行代码(或计算机程序、或计算机指令代码),当可执行代码(或计算机程序、或计算机指令代码)被电子设备(或电子设备、服务器等)的处理器执行时,使处理器执行根据本申请的上述方法的各个步骤的部分或全部。
本领域技术人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件的方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应该认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系属于仅仅用来将一个实体或者操作与另一个实体或者操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语包括、包含或者其他任何变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
以上已经描述了本申请的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (10)
1.一种基于卷积神经网络的图像语义分割方法,其特征在于,包括:
获取待处理图像,所述待处理图像是预先采集准备进行图像语义分割的图像;
使用预先训练好的图像语义分割网络模型对所述待处理图像进行图像语义分割,得到分割结果图,所述图像语义分割网络模型包括编码器和解码器,所述编码器是使用空洞卷积对卷积神经网络进行改进后得到,所述解码器是采用边界增强模块、金字塔池化模块和像素对齐模块组合而成多层次结构设计得到。
2.根据权利要求1所述的方法,其特征在于,所述卷积神经网络为残差网络ResNet50,所述残差网络ResNet50分为四层,其中第三层和第四层中使用的卷积为所述空洞卷积,每一层的输出图像均输入所述解码器中。
3.根据权利要求2所述的方法,其特征在于,所述编码器和所述解码器之间的连接方式如下:
所述残差网络ResNet50中第一层的输出图像输入所述边界增强模块中;
所述残差网络ResNet50中第三层的输出图像通过卷积模块控制后,与第二层的输出图像进行通道合并后输入所述像素对齐模块中;
所述残差网络ResNet50中第四层的输出图像输入所述金字塔池化模块中,并通过所述金字塔池化模块后与第二层和第三层的融合输出进行通道合并后输入所述像素对齐模块。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述边界增强模块采用平均池化和最大池化技术设计得到,用于增加图像中目标的边界。
5.根据权利要求1-3任一项所述的方法,其特征在于,所述金字塔池化模块中包括至少两个不同尺寸的自适应平均池化块,用于获取不同图像的多尺度特征。
6.根据权利要求1-3任一项所述的方法,其特征在于,所述像素对齐模块采用深度可分离卷积和上采样技术设计得到,用于获取不同尺寸特征图之间的像素关联性。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于语义分割图像数据集中的数据,使用带动量的随机梯度下降算法,对所述图像语义分割网络模型进行数据训练。
8.一种图像语义分割装置,其特征在于,包括:
图像获取模块和图像语义分割模块;
所述图像获取模块,用于获取待处理图像,所述待处理图像是预先采集准备进行图像语义分割的图像;
所述图像语义分割模块,用于使用预先训练好的图像语义分割网络模型对所述待处理图像进行图像语义分割,得到分割结果图,所述图像语义分割网络模型包括编码器和解码器,所述编码器是使用空洞卷积对卷积神经网络进行改进后得到,所述解码器是采用边界增强模块、金字塔池化模块和像素对齐模块组合而成多层次结构设计得到。
9.一种电子设备,其特征在于,包括:
存储器和处理器,所述存储器上存储有可执行代码;
当所述可执行代码被所述处理器所调用时,使得所述电子设备执行如权利要求1-7任一项中所述的图像语义分割方法。
10.一种计算机可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器所调用时,使得所述电子设备执行如权利要求1-7任一项中所述的图像语义分割方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310443191.8A CN116363368A (zh) | 2023-04-23 | 2023-04-23 | 基于卷积神经网络的图像语义分割方法及其装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310443191.8A CN116363368A (zh) | 2023-04-23 | 2023-04-23 | 基于卷积神经网络的图像语义分割方法及其装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116363368A true CN116363368A (zh) | 2023-06-30 |
Family
ID=86939105
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310443191.8A Pending CN116363368A (zh) | 2023-04-23 | 2023-04-23 | 基于卷积神经网络的图像语义分割方法及其装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116363368A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117314932A (zh) * | 2023-09-12 | 2023-12-29 | 四川大学华西第四医院(四川大学华西职业病医院) | 基于令牌金字塔的胰胆管分割方法、模型及存储介质 |
-
2023
- 2023-04-23 CN CN202310443191.8A patent/CN116363368A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117314932A (zh) * | 2023-09-12 | 2023-12-29 | 四川大学华西第四医院(四川大学华西职业病医院) | 基于令牌金字塔的胰胆管分割方法、模型及存储介质 |
CN117314932B (zh) * | 2023-09-12 | 2024-06-07 | 四川大学华西第四医院(四川大学华西职业病医院) | 基于令牌金字塔的胰胆管分割方法、模型及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sun et al. | Swformer: Sparse window transformer for 3d object detection in point clouds | |
US11854241B2 (en) | Method and apparatus with dilated convolution | |
KR102141163B1 (ko) | Sar 영상 생성을 위한 뉴럴 네크워크 학습 방법 및 장치. | |
CN111814794B (zh) | 文本检测方法、装置、电子设备及存储介质 | |
US11954755B2 (en) | Image processing device and operation method thereof | |
EP3872761A2 (en) | Analysing objects in a set of frames | |
CN116363368A (zh) | 基于卷积神经网络的图像语义分割方法及其装置 | |
US20230153965A1 (en) | Image processing method and related device | |
CN116310712A (zh) | 一种基于循环生成对抗网络的图像水墨风格迁移方法及系统 | |
CN112446431A (zh) | 特征点提取与匹配方法、网络、设备及计算机存储介质 | |
US20230053618A1 (en) | Recurrent unit for generating or processing a sequence of images | |
US20230206515A1 (en) | Automatic caricature generating method and apparatus | |
CN113496228B (zh) | 一种基于Res2Net、TransUNet和协同注意力的人体语义分割方法 | |
CN114612654A (zh) | 一种基于循环深度神经网络的磁共振成像特征提取方法 | |
CN113807354B (zh) | 图像语义分割方法、装置、设备和存储介质 | |
CN113298097B (zh) | 基于卷积神经网络的特征点提取方法、设备及存储介质 | |
KR102678473B1 (ko) | 자동 캐리커처 생성 방법 및 장치 | |
Elhassan et al. | PPANet: Point‐Wise Pyramid Attention Network for Semantic Segmentation | |
CN112001268B (zh) | 人脸校准方法及设备 | |
US20240169479A1 (en) | Video generation with latent diffusion models | |
Li et al. | IPE transformer for depth completion with input-aware positional embeddings | |
CN117522675A (zh) | 一种扩散模型的构建方法及装置 | |
CN116612171A (zh) | 单目相机绝对深度获取方法、装置、设备及存储介质 | |
CN117576177A (zh) | 一种基于gan网络的地质纹理合成方法及装置 | |
CN118071598A (zh) | 一种可调节锐化程度的超分辨率影像重建方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |