CN116402996A - 图像分割方法、装置、存储介质及电子装置 - Google Patents
图像分割方法、装置、存储介质及电子装置 Download PDFInfo
- Publication number
- CN116402996A CN116402996A CN202310289173.9A CN202310289173A CN116402996A CN 116402996 A CN116402996 A CN 116402996A CN 202310289173 A CN202310289173 A CN 202310289173A CN 116402996 A CN116402996 A CN 116402996A
- Authority
- CN
- China
- Prior art keywords
- convolution
- image
- features
- image segmentation
- encoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000003709 image segmentation Methods 0.000 title claims abstract description 49
- 230000006870 function Effects 0.000 claims description 44
- 230000004913 activation Effects 0.000 claims description 28
- 238000010606 normalization Methods 0.000 claims description 16
- 238000005457 optimization Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 abstract description 40
- 238000004364 calculation method Methods 0.000 abstract description 10
- 238000005070 sampling Methods 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 230000000750 progressive effect Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000011176 pooling Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000002401 inhibitory effect Effects 0.000 description 3
- 238000000638 solvent extraction Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本申请公开了一种图像分割方法、装置、存储介质及电子装置。该方法包括接收待分割图像;采用第一编码器对所述待分割图像进行多级编码,得到多级语义特征;采用第二编码器对高级语义特征图进行混合编码,得到全局上下文特征;采用解码器基于多尺度注意力门,构建全局上下文特征和多级语义特征的跳跃连接;对跳跃连接后的特征进行重建以细粒度地实现图像分割。在使用较少数据集和算力的情况下获取全局上下文,且抑制输入图像中于分割目标无关的区域,同时突出对分割目标有用的显著特征,能够有效提升分割性能。本申请解决了由于需要大量数据集和算力以获取全局上下文,且跳跃连接时无法传递有价值的显著特征造成的分割性能差的技术问题。
Description
技术领域
本申请涉及计算机视觉和深度学习领域,具体而言,涉及一种图像分割方法、装置、存储介质及电子装置。
背景技术
基于自注意力机制(Transformer)的U型架构网络用于图像分割任务,尽管自注意力机制可以获取卷积神经网络(CNN)的全局上下文,但其依赖大量的图像和计算开销以训练一个鲁棒的图像分割网络。此外,直接使用编码器特征进行跳跃连接无法抑制输入图像中的无关区域且无法突出对特定分割组织结构有用的显著特征。
针对相关技术中需要大量数据集和算力以获取全局上下文,且跳跃连接时无法显著的传递有价值的显著特征造成的分割性能差的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种图像分割方法、装置、存储介质及电子装置,以解决需要大量数据集和算力以获取全局上下文,且跳跃连接时无法显著的传递有价值的显著特征造成的分割性能差的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种图像分割方法。
根据本申请的图像分割方法包括:接收待分割图像;采用第一编码器对所述待分割图像进行多级编码,得到多级语义特征;采用第二编码器对所述高级语义特征图进行混合编码,得到全局上下文特征;采用解码器基于多尺度注意力门,构建所述全局上下文特征和多级语义特征的跳跃连接;对跳跃连接后的特征进行重建以细粒度地实现图像分割。
进一步的,接收待分割图像之前还包括:调整初始图像至预设的大小值,并对调整后的初始图像进行随机翻转和旋转,得到待分割图像。
进一步的,对跳跃连接后的特征进行重建以细粒度地实现图像分割之后还包括:使用优化函数对第一编码器、第二编码器和解码器所涉及的参数进行调整,直至达到迭代次数或精度需求。
进一步的,所述第一编码器为多级编码器,从上到下分为五级,且每级由两个第一普通卷积模块和一个下采样操作组成,其中,每个第一普通卷积模块包括一个卷积层,批量归一化层和ReLU激活函数。
进一步的,所述第二编码器为混合编码器,包含L个混合卷积层,且单个混合卷积层由逐深度卷积和逐点卷积组成,逐深度卷积和逐点卷积后紧接GeLU激活函数和批量归一化层;
混合编码器表示为:
f′l=BN(σ1{DepthwiseConv(fl―1)})+fl―1
fl=BN(σ1{PointwiseConv(f′l)})
其中fl表示混合卷积l层的输出特征图,σ1表示GeLU激活函数,BN表示批量归一化层,DepthwiseConv表示逐深度卷积,PointwiseConv表示逐点卷积。
进一步的,所述解码器自下向上分为五级,且每级由两个第二普通卷积块和一个上采样模块组成,其中,所述上采样模块包括上采样层、卷积层、批量归一化层和ReLU激活函数。
进一步的,基于多尺度注意力门,构建所述全局上下文特征和多级语义特征的跳跃连接包括:
采用多尺度注意力门的逐点卷积、普通卷积和空洞卷积分别提取相应的注意力特征;
将三个不同的卷积输出的特征图进行拼接后,输入到ReLU激活函数并通过一个逐点卷积进行投票选择有价值的特征;
投票的过程为:
将逐点卷积输出的特征图输入到Sigmoid激活函数并与原特征图进行相乘后相加,具体操作过程为:
fs=f×σ3(PointwiseConv(fConcat))+f
其中f表示为编码特征,fConcat表示为级联特征,fs是多尺度注意力门输出特征,σ2和σ3分别表示激活函数ReLU和Sigmoid,PointwiseConv表示为逐点卷积,OrdinaryConv表示为普通卷积,DilationConv表示为空洞卷积。
进一步的,分割模型的损失函数Lseg表示为:
其中BCE为二元交叉熵损失,Dice为Dice损失,y为真实分割结果,y为分割网络预测分割结果,最终通过不断利用反向梯度算法进行模型的参数优化目标函数Lseg来优化变分分割网络中的所有参数。
为了实现上述目的,根据本申请的另一方面,提供了一种图像分割装置。
根据本申请的图像分割装置包括:接收模块,用于接收待分割图像;第一编码模块,用于采用第一编码器对所述待分割图像进行多级编码,得到多级语义特征;第二编码模块,用于采用第二编码器对所述高级语义特征图进行混合编码,得到全局上下文特征;构建模块,用于采用解码器基于多尺度注意力门,构建所述全局上下文特征和多级语义特征的跳跃连接;重建模块,用于对跳跃连接后的特征进行重建以细粒度地实现图像分割。
为了实现上述目的,根据本申请的另一方面,提供了一种计算机可读存储介质。
根据本申请的计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述的图像分割方法。
为了实现上述目的,根据本申请的另一方面,提供了一种电子装置。
根据本申请的电子装置,包括:存储器和处理器,所述存储器中存储有计算机程序,其中,所述处理器被设置为运行所述计算机程序以执行所述的图像分割方法。
在本申请实施例中,采用基于混合卷积和多尺度注意力门进行图像分割的方式,通过接收待分割图像;采用第一编码器对所述待分割图像进行多级编码,得到多级语义特征;采用第二编码器对所述高级语义特征图进行混合编码,得到全局上下文特征;采用解码器基于多尺度注意力门,构建所述全局上下文特征和多级语义特征的跳跃连接;对跳跃连接后的特征进行重建以细粒度地实现图像分割。达到了在使用较少数据集和算力的情况下获取全局上下文,且抑制输入图像中于分割目标无关的区域,同时突出对分割目标有用的显著特征的目的,从而实现了有效提升分割性能的技术效果,进而解决了由于需要大量数据集和算力以获取全局上下文,且跳跃连接时无法显著的传递有价值的显著特征造成的分割性能差的技术问题。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的图像分割方法的流程示意图;
图2是根据本申请实施例的图像分割装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本申请中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本发明及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。
并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本发明中的具体含义。
此外,术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如,可以是固定连接,可拆卸连接,或整体式构造;可以是机械连接,或电连接;可以是直接相连,或者是通过中间媒介间接相连,又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
根据本发明实施例,提供了一种图像分割方法,如图1所示,该方法包括如下的步骤S101至步骤S105:
步骤S101、接收待分割图像;
待分割图像是需要进行分割的图像;可以是采用接口输入待分割图像到处理器中,也可以是采用路径从本地存储器中读取待分割图像到处理中。为后续通过处理器进行处理提供保障。
步骤S102、采用第一编码器对所述待分割图像进行多级编码,得到多级语义特征;
编码器具有将数据信息编码为特征向量;本实施例中,第一编码器能够提取待分割图像的多级语义特征;具体地,所述第一编码器为多级编码器,从上到下分为五级,且每级由两个第一普通卷积模块和一个下采样操作组成,其中,每个第一普通卷积模块包括一个卷积层,批量归一化层和ReLU激活函数;从上到下每一级输出特征的通道数分别为C1=64、C2=128、C3=256、C4=512和C5=1025;其中卷积层的卷积核大小为3*3,卷积步幅为1,特征图填充为1,下采样为最大池化操作,其中最大池化的窗口大小为2*2,在下采样后特征图尺寸变为原尺寸的1/2。
经过五级编码后,能够得到五组语义特征,分别为与上述通道数相应的低级、中低级、中级、中高级、高级五个级别的语义特征,为后续的进一步处理提供特征数据支持。
步骤S103、采用第二编码器对所述高级语义特征图进行混合编码,得到全局上下文特征;
第二编码器能够对高级语义特征进一步进行混合编码,以获取待分割图像中的全局上下文特征;具体地,第二编码器为混合编码器,包含L个混合卷积层,且单个混合卷积层由逐深度卷积和逐点卷积组成,逐深度卷积和逐点卷积后紧接GeLU激活函数和批量归一化层;
混合编码器表示为:
f′l=BN(σ1{DepthwiseConv(fl―1)})+fl―1
fl=BN(σ1{PointwiseConv(f′l)})
其中fl表示混合卷积l层的输出特征图,σ1表示GeLU激活函数,BN表示批量归一化层,DepthwiseConv表示逐深度卷积,PointwiseConv表示逐点卷积。
需要了解到是,逐深度卷积的组通道数等于输入特征图的通道数,逐点卷积的卷积核大小为1*1,混合卷积模块的所有层的输出特征图尺寸和输入尺寸保持相同。
在使用较少数据集和算力的情况下,利用混合卷积模块(混合编码器)提取图像的全局上下文信息。
步骤S104、采用解码器基于多尺度注意力门,构建所述全局上下文特征和多级语义特征的跳跃连接;
解码器具有将特征向量解码为图像数据的作用;具体地,解码器自下向上分为五级,且每级由两个第二普通卷积块和一个上采样模块组成,其中,所述上采样模块包括上采样层、卷积层、批量归一化层和ReLU激活函数。第二普通卷积块与第一普通卷积块相同,上采样层使用双线性插值,卷积层的卷积核大小为3*3,卷积步幅为1,特征图填充为1。
基于多尺度注意力门,构建所述全局上下文特征和多级语义特征的跳跃连接包括:
采用多尺度注意力门的逐点卷积、普通卷积和空洞卷积分别提取相应的注意力特征;
将三个不同的卷积输出的特征图进行拼接后,输入到ReLU激活函数并通过一个逐点卷积进行投票选择有价值的特征;
投票的过程为:
将逐点卷积输出的特征图输入到Sigmoid激活函数并与原特征图进行相乘后相加,具体操作过程为:
fs=f×σ3(PointwiseConv(fConcat))+f
其中f表示为编码特征,fConcat表示为级联特征,fs是多尺度注意力门输出特征,σ2和σ3分别表示激活函数ReLU和Sigmoid,PointwiseConv表示为逐点卷积,OrdinaryConv表示为普通卷积,DilationConv表示为空洞卷积。
利用多尺度注意力门学习并抑制输入图像中于分割目标无关的区域,同时突出对分割目标有用的显著特征。
使用多个开源数据集进行实际验证,本发明的分割性能优于目前的先进方法,证明本发明的有效性和合理性。
步骤S105、对跳跃连接后的特征进行重建以细粒度地实现图像分割。
经过跳跃连接后得到的特征,已经排除了分割目标无关的区域,并且筛选得到了对分割目标有用的显著特征,基于这些特征进行重建以细粒度地实现图像分割。
优选的,分割模型的损失函数Lseg表示为:
从以上的描述中,可以看出,本发明实现了如下技术效果:
在本申请实施例中,采用基于混合卷积和多尺度注意力门进行图像分割的方式,通过接收待分割图像;采用第一编码器对所述待分割图像进行多级编码,得到多级语义特征;采用第二编码器对所述高级语义特征图进行混合编码,得到全局上下文特征;采用解码器基于多尺度注意力门,构建所述全局上下文特征和多级语义特征的跳跃连接;对跳跃连接后的特征进行重建以细粒度地实现图像分割。达到了在使用较少数据集和算力的情况下获取全局上下文,且抑制输入图像中于分割目标无关的区域,同时突出对分割目标有用的显著特征的目的,从而实现了有效提升分割性能的技术效果,进而解决了由于需要大量数据集和算力以获取全局上下文,且跳跃连接时无法显著的传递有价值的显著特征造成的分割性能差的技术问题。
根据本发明实施例,优选的,接收待分割图像之前还包括:
调整初始图像至预设的大小值,并对调整后的初始图像进行随机翻转和旋转,得到待分割图像。
优选的,将图像大小调整为256*256后进行随机旋转和翻转。图像经过调整大小并翻转和旋转后,使其大小相同,并且有不同的角度,能够实现数据增强,保证后续的编码提取。
根据本发明实施例,优选的,对跳跃连接后的特征进行重建以细粒度地实现图像分割之后还包括:
使用优化函数对第一编码器、第二编码器和解码器所涉及的参数进行调整,直至达到迭代次数或精度需求。
优化函数中预设了迭代次数或精度参数阈值,以及优化算法,采用优化算法能够给第一编码器、第二编码器和解码器所涉及的参数进行调整,并且在达到迭代次数或者精度参数阈值时,停止调整,此时的参数能够使得图像分割的精度达到最高。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本发明实施例,还提供了一种用于实施上述图像分割方法的装置,如图2所示,该装置包括:
接收模块10,用于接收待分割图像;
待分割图像是需要进行分割的图像;可以是采用接口输入待分割图像到处理器中,也可以是采用路径从本地存储器中读取待分割图像到处理中。为后续通过处理器进行处理提供保障。
第一编码模块20,用于采用第一编码器对所述待分割图像进行多级编码,得到多级语义特征;
编码器具有将数据信息编码为特征向量;本实施例中,第一编码器能够提取待分割图像的多级语义特征;具体地,所述第一编码器为多级编码器,从上到下分为五级,且每级由两个第一普通卷积模块和一个下采样操作组成,其中,每个第一普通卷积模块包括一个卷积层,批量归一化层和ReLU激活函数;从上到下每一级输出特征的通道数分别为C1=64、C2=128、C3=256、C4=512和C5=1025;其中卷积层的卷积核大小为3*3,卷积步幅为1,特征图填充为1,下采样为最大池化操作,其中最大池化的窗口大小为2*2,在下采样后特征图尺寸变为原尺寸的1/2。
经过五级编码后,能够得到五组语义特征,分别为与上述通道数相应的低级、中低级、中级、中高级、高级五个级别的语义特征,为后续的进一步处理提供特征数据支持。
第二编码模块30,用于采用第二编码器对所述高级语义特征图进行混合编码,得到全局上下文特征;
第二编码器能够对高级语义特征进一步进行混合编码,以获取待分割图像中的全局上下文特征;具体地,第二编码器为混合编码器,包含L个混合卷积层,且单个混合卷积层由逐深度卷积和逐点卷积组成,逐深度卷积和逐点卷积后紧接GeLU激活函数和批量归一化层;
混合编码器表示为:
f′l=BN(σ1{DepthwiseConv(fl―1)})+fl―1
fl=BN(σ1{PointwiseConv(f′l)})
其中fl表示混合卷积l层的输出特征图,σ1表示GeLU激活函数,BN表示批量归一化层,DepthwiseConv表示逐深度卷积,PointwiseConv表示逐点卷积。
需要了解到是,逐深度卷积的组通道数等于输入特征图的通道数,逐点卷积的卷积核大小为1*1,混合卷积模块的所有层的输出特征图尺寸和输入尺寸保持相同。
在使用较少数据集和算力的情况下,利用混合卷积模块(混合编码器)提取图像的全局上下文信息。
构建模块40,用于采用解码器基于多尺度注意力门,构建所述全局上下文特征和多级语义特征的跳跃连接;
解码器具有将特征向量解码为图像数据的作用;具体地,解码器自下向上分为五级,且每级由两个第二普通卷积块和一个上采样模块组成,其中,所述上采样模块包括上采样层、卷积层、批量归一化层和ReLU激活函数。第二普通卷积块与第一普通卷积块相同,上采样层使用双线性插值,卷积层的卷积核大小为3*3,卷积步幅为1,特征图填充为1。
基于多尺度注意力门,构建所述全局上下文特征和多级语义特征的跳跃连接包括:
采用多尺度注意力门的逐点卷积、普通卷积和空洞卷积分别提取相应的注意力特征;
将三个不同的卷积输出的特征图进行拼接后,输入到ReLU激活函数并通过一个逐点卷积进行投票选择有价值的特征;
投票的过程为:
将逐点卷积输出的特征图输入到Sigmoid激活函数并与原特征图进行相乘后相加,具体操作过程为:
fs=f×σ3(PointwiseConv(fConcat))+f
其中f表示为编码特征,fConcat表示为级联特征,fs是多尺度注意力门输出特征,σ2和σ3分别表示激活函数ReLU和Sigmoid,PointwiseConv表示为逐点卷积,OrdinaryConv表示为普通卷积,DilationConv表示为空洞卷积。
利用多尺度注意力门学习并抑制输入图像中于分割目标无关的区域,同时突出对分割目标有用的显著特征。
使用多个开源数据集进行实际验证,本发明的分割性能优于目前的先进方法,证明本发明的有效性和合理性。
重建模块50,用于对跳跃连接后的特征进行重建以细粒度地实现图像分割。
经过跳跃连接后得到的特征,已经排除了分割目标无关的区域,并且筛选得到了对分割目标有用的显著特征,基于这些特征进行重建以细粒度地实现图像分割。
分割模型的损失函数Lseg表示为:
从以上的描述中,可以看出,本发明实现了如下技术效果:
在本申请实施例中,采用基于混合卷积和多尺度注意力门进行图像分割的方式,通过接收待分割图像;采用第一编码器对所述待分割图像进行多级编码,得到多级语义特征;采用第二编码器对所述高级语义特征图进行混合编码,得到全局上下文特征;采用解码器基于多尺度注意力门,构建所述全局上下文特征和多级语义特征的跳跃连接;对跳跃连接后的特征进行重建以细粒度地实现图像分割。达到了在使用较少数据集和算力的情况下获取全局上下文,且抑制输入图像中于分割目标无关的区域,同时突出对分割目标有用的显著特征的目的,从而实现了有效提升分割性能的技术效果,进而解决了由于需要大量数据集和算力以获取全局上下文,且跳跃连接时无法显著的传递有价值的显著特征造成的分割性能差的技术问题。
根据本发明实施例,优选的,接收待分割图像之前还包括:
调整初始图像至预设的大小值,并对调整后的初始图像进行随机翻转和旋转,得到待分割图像。
优选的,将图像大小调整为256*256后进行随机旋转和翻转。图像经过调整大小并翻转和旋转后,使其大小相同,并且有不同的角度,能够实现数据增强,保证后续的编码提取。
根据本发明实施例,优选的,对跳跃连接后的特征进行重建以细粒度地实现图像分割之后还包括:
使用优化函数对第一编码器、第二编码器和解码器所涉及的参数进行调整,直至达到迭代次数或精度需求。
优化函数中预设了迭代次数或精度参数阈值,以及优化算法,采用优化算法能够给第一编码器、第二编码器和解码器所涉及的参数进行调整,并且在达到迭代次数或者精度参数阈值时,停止调整,此时的参数能够使得图像分割的精度达到最高。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种图像分割方法,其特征在于,包括:
接收待分割图像;
采用第一编码器对所述待分割图像进行多级编码,得到多级语义特征;
采用第二编码器对所述高级语义特征图进行混合编码,得到全局上下文特征;
采用解码器基于多尺度注意力门,构建所述全局上下文特征和多级语义特征的跳跃连接;
对跳跃连接后的特征进行重建以细粒度地实现图像分割。
2.根据权利要求1所述的图像分割方法,其特征在于,接收待分割图像之前还包括:
调整初始图像至预设的大小值,并对调整后的初始图像进行随机翻转和旋转,得到待分割图像。
3.根据权利要求1所述的图像分割方法,其特征在于,对跳跃连接后的特征进行重建以细粒度地实现图像分割之后还包括:
使用优化函数对第一编码器、第二编码器和解码器所涉及的参数进行调整,直至达到迭代次数或精度需求。
4.根据权利要求1所述的图像分割方法,其特征在于,所述第一编码器为多级编码器,从上到下分为五级,且每级由两个第一普通卷积模块和一个下采样操作组成,其中,每个第一普通卷积模块包括一个卷积层,批量归一化层和ReLU激活函数。
5.根据权利要求1所述的图像分割方法,其特征在于,所述第二编码器为混合编码器,包含L个混合卷积层,且单个混合卷积层由逐深度卷积和逐点卷积组成,逐深度卷积和逐点卷积后紧接GeLU激活函数和批量归一化层;
混合编码器表示为:
f′l=BN(σ1{DepthwiseConv(fl―1)})+fl―1
fl=BN(σ1{PointwiseConv(f′l)})
其中fl表示混合卷积l层的输出特征图,σ1表示GeLU激活函数,BN表示批量归一化层,DepthwiseConv表示逐深度卷积,PointwiseConv表示逐点卷积。
6.根据权利要求1所述的图像分割方法,其特征在于,所述解码器自下向上分为五级,且每级由两个第二普通卷积块和一个上采样模块组成,其中,所述上采样模块包括上采样层、卷积层、批量归一化层和ReLU激活函数。
7.根据权利要求1所述的图像分割方法,其特征在于,基于多尺度注意力门,构建所述全局上下文特征和多级语义特征的跳跃连接包括:
采用多尺度注意力门的逐点卷积、普通卷积和空洞卷积分别提取相应的注意力特征;
将三个不同的卷积输出的特征图进行拼接后,输入到ReLU激活函数并通过一个逐点卷积进行投票选择有价值的特征;
投票的过程为:
将逐点卷积输出的特征图输入到Sigmoid激活函数并与原特征图进行相乘后相加,具体操作过程为:
fs=f×σ3(PointwiseConv(fConcat))+f
其中f表示为编码特征,fConcat表示为级联特征,fs是多尺度注意力门输出特征,σ2和σ3分别表示激活函数ReLU和Sigmoid,PointwiseConv表示为逐点卷积,OrdinaryConv表示为普通卷积,DilationConv表示为空洞卷积。
8.一种图像分割装置,其特征在于,包括:
接收模块,用于接收待分割图像;
第一编码模块,用于采用第一编码器对所述待分割图像进行多级编码,得到多级语义特征;
第二编码模块,用于采用第二编码器对所述高级语义特征图进行混合编码,得到全局上下文特征;
构建模块,用于采用解码器基于多尺度注意力门,构建所述全局上下文特征和多级语义特征的跳跃连接;
重建模块,用于对跳跃连接后的特征进行重建以细粒度地实现图像分割。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至7中任一项所述的图像分割方法。
10.一种电子装置,包括:存储器和处理器,其特征在于,所述存储器中存储有计算机程序,其中,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7中任一项所述的图像分割方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310289173.9A CN116402996A (zh) | 2023-03-20 | 2023-03-20 | 图像分割方法、装置、存储介质及电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310289173.9A CN116402996A (zh) | 2023-03-20 | 2023-03-20 | 图像分割方法、装置、存储介质及电子装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116402996A true CN116402996A (zh) | 2023-07-07 |
Family
ID=87013530
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310289173.9A Pending CN116402996A (zh) | 2023-03-20 | 2023-03-20 | 图像分割方法、装置、存储介质及电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116402996A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210248761A1 (en) * | 2020-02-10 | 2021-08-12 | Hong Kong Applied Science and Technology Research Institute Company Limited | Method for image segmentation using cnn |
CN115115831A (zh) * | 2022-05-30 | 2022-09-27 | 西安理工大学 | 基于注意力引导的多尺度上下文信息交互的语义分割方法 |
CN115330813A (zh) * | 2022-07-15 | 2022-11-11 | 深圳先进技术研究院 | 一种图像处理方法、装置、设备及可读存储介质 |
CN115619797A (zh) * | 2022-10-24 | 2023-01-17 | 宁夏医科大学 | 一种基于注意力机制的并行U-Net网络的肺部图像分割方法 |
-
2023
- 2023-03-20 CN CN202310289173.9A patent/CN116402996A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210248761A1 (en) * | 2020-02-10 | 2021-08-12 | Hong Kong Applied Science and Technology Research Institute Company Limited | Method for image segmentation using cnn |
CN115115831A (zh) * | 2022-05-30 | 2022-09-27 | 西安理工大学 | 基于注意力引导的多尺度上下文信息交互的语义分割方法 |
CN115330813A (zh) * | 2022-07-15 | 2022-11-11 | 深圳先进技术研究院 | 一种图像处理方法、装置、设备及可读存储介质 |
CN115619797A (zh) * | 2022-10-24 | 2023-01-17 | 宁夏医科大学 | 一种基于注意力机制的并行U-Net网络的肺部图像分割方法 |
Non-Patent Citations (1)
Title |
---|
FENGHE TANG等: "CMU-NET: A STRONG CONVMIXER-BASED MEDICAL ULTRASOUND IMAGE SEGMENTATION NETWORK", 《ARXIV:2210.13012V2 [EESS.IV]》, pages 1 - 5 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10740865B2 (en) | Image processing apparatus and method using multi-channel feature map | |
CN109903221B (zh) | 图像超分方法及装置 | |
WO2022116856A1 (zh) | 一种模型结构、模型训练方法、图像增强方法及设备 | |
CN111832570A (zh) | 一种图像语义分割模型训练方法及系统 | |
CN113159073A (zh) | 知识蒸馏方法及装置、存储介质、终端 | |
CN112712528B (zh) | 一种多尺度u型残差编码器与整体反向注意机制结合的肠道病灶分割方法 | |
US11113601B1 (en) | Method and system for balanced-weight sparse convolution processing | |
CN110738663A (zh) | 双域适应模块金字塔型网络及无监督域适应图像分割方法 | |
CN116433914A (zh) | 一种二维医学图像分割方法及系统 | |
CN115239591A (zh) | 图像处理方法、装置、电子设备、存储介质及程序产品 | |
CN116681584A (zh) | 一种多级扩散图像超分辨算法 | |
CN113159236A (zh) | 基于多尺度变换的多聚焦图像融合方法及装置 | |
Liu et al. | Facial image inpainting using multi-level generative network | |
CN114359293A (zh) | 一种基于深度学习的三维mri脑肿瘤分割方法 | |
CN114494006A (zh) | 图像重建模型的训练方法、装置、电子设备及存储介质 | |
CN116977343A (zh) | 图像处理方法、装置、设备、存储介质及程序产品 | |
CN116402996A (zh) | 图像分割方法、装置、存储介质及电子装置 | |
CN116630302A (zh) | 细胞图像分割方法、装置以及电子设备 | |
CN116612416A (zh) | 一种指代视频目标分割方法、装置、设备及可读存储介质 | |
CN116975357A (zh) | 视频生成方法、装置、电子设备、存储介质及程序产品 | |
CN116597263A (zh) | 图像合成模型的训练方法及相关装置 | |
CN116563315A (zh) | 一种医学图像腺体分割方法 | |
CN116152263A (zh) | 一种基于cm-mlp网络的医学图像分割方法 | |
CN113256662B (zh) | 病理切片图像分割方法、装置、计算机设备和存储介质 | |
CN115115835A (zh) | 图像的语义分割方法、装置、设备、存储介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information |
Inventor after: Ding Jianrui Inventor after: Tang Fenghe Inventor after: Ding Zhuo Inventor after: Feng Yu Inventor before: Ding Jianrui Inventor before: Tang Fenghe Inventor before: Ding Zhuo Inventor before: Lu Ning |
|
CB03 | Change of inventor or designer information |