CN112001931A - 图像分割方法、装置、设备及存储介质 - Google Patents
图像分割方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112001931A CN112001931A CN202010857319.1A CN202010857319A CN112001931A CN 112001931 A CN112001931 A CN 112001931A CN 202010857319 A CN202010857319 A CN 202010857319A CN 112001931 A CN112001931 A CN 112001931A
- Authority
- CN
- China
- Prior art keywords
- image segmentation
- feature map
- pooling
- characteristic diagram
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003709 image segmentation Methods 0.000 title claims abstract description 154
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000011176 pooling Methods 0.000 claims abstract description 124
- 238000010586 diagram Methods 0.000 claims abstract description 102
- 238000012545 processing Methods 0.000 claims abstract description 67
- 238000012549 training Methods 0.000 claims description 51
- 239000011159 matrix material Substances 0.000 claims description 44
- 230000007246 mechanism Effects 0.000 claims description 29
- 230000009466 transformation Effects 0.000 claims description 17
- 238000005070 sampling Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 7
- 238000013519 translation Methods 0.000 claims description 6
- 230000002708 enhancing effect Effects 0.000 abstract description 5
- 230000008569 process Effects 0.000 description 12
- 230000000694 effects Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 108091026890 Coding region Proteins 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007634 remodeling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例提供一种图像分割方法、装置、设备及存储介质,通过图像分割模型的基网络对待处理图像提取初始特征图;通过图像分割模型的平均池化子模型对初始特征图池化,获取携带短距离依赖关系信息的第一特征图;通过至少一个分支子模型对初始特征图处理获取至少一种目标特征图,包括携带全局依赖关系信息的第二特征图和/或携带长距离依赖关系信息的第三特征图;将第一特征图与目标特征图级联,再卷积,得到图像分割结果并输出。本发明与平均池化子模型并列设置分支子模型获取携带全局依赖关系信息和/或携带长距离依赖关系信息的特征图,与平均池化子模型得到的携带短距离依赖关系信息的特征图级联,增强特征表示能力,提高图像分割的准确率。
Description
技术领域
本发明实施例涉及图像处理技术领域,尤其涉及一种图像分割方法、装置、设备及存储介质。
背景技术
随着AI技术和图像处理技术的不断发展,利用AI图像技术来改善我们的生活方式以服务于人类已成为研究AI技术的新走向。图像分割是一种重要的和关键的图像分析技术,其目的是把图像分成各具特性的区域并提取出感兴趣的部分,图像分割的结果是图像特征提取和识别等图像理解的基础,因此其在计算机视觉领域有着重要的地位,同样,其也面临着一些新的挑战。
现有技术中通常采用FCN、Segnet、Pspnet等神经网络模型进行图像分割,虽然FCN、Segnet、Pspnet等方法在进行图像分割时对上下文信息融合有助于捕获不同比例的对象,但却无法利用全局视图中对象之间的关系,从而导致分割效果不是很好;在对神经网络进行卷积操作时产生的是局部感受野,可能会导致相同标签的像素对应特征可能不同,而这种差异会进而导致类内的不一致性,从而影响识别的准确率。
发明内容
本发明实施例提供一种图像分割方法、装置、设备及存储介质,以增强特征表示,提升图像的分割效果。
本发明实施例的第一方面是提供一种图像分割方法,包括:
将待处理图像输入图像分割模型,通过所述图像分割模型的基网络对所述待处理图像提取初始特征图;
通过所述图像分割模型的平均池化子模型对所述初始特征图进行池化,获取携带短距离依赖关系信息的第一特征图;
通过所述图像分割模型的至少一个分支子模型对所述初始特征图进行处理,获取至少一种目标特征图,所述至少一种目标特征图包括携带全局依赖关系信息的第二特征图和/或携带长距离依赖关系信息的第三特征图;
将所述第一特征图与所述目标特征图进行级联,并对级联结果进行卷积处理,得到图像分割结果,并输出所述图像分割结果。
在一种可能的实现方式中,所述通过所述图像分割模型的至少一个分支子模型对所述初始特征图进行处理,获取至少一种目标特征图,包括:
通过所述图像分割模型的注意力机制子模型对所述初始特征图进行处理,获取携带全局依赖关系信息的第二特征图;和/或
通过所述图像分割模型的条纹池化子模型对所述初始特征图进行池化,获取携带长距离依赖关系信息的第三特征图。
在一种可能的实现方式中,所述通过所述图像分割模型的注意力机制子模型对所述初始特征图进行处理,获取携带全局依赖关系信息的第二特征图,包括:
通过所述注意力机制子模型的卷积层对所述初始特征图进行卷积处理,得到初始张量,并对所述初始张量进行重塑处理,使得所述初始张量由三阶转换为二阶,得到中间张量;
根据所述中间张量获取注意力矩阵,所述注意力矩阵用于表示所述中间张量各位置特征之间的相关性;
将所述中间张量与所述注意力矩阵相乘,得到第四特征图,并将所述初始特征图与所述第四特征图相加,得到所述第二特征图。
在一种可能的实现方式中,所述根据所述中间张量获取注意力矩阵,所述注意力矩阵用于表示所述中间张量各位置特征之间的相关性,包括:
将所述中间张量的转置与所述中间张量相乘,得到特征矩阵;
将所述特征矩阵输入到的所述注意力机制子模型的Softmax层中,获取所述注意力矩阵。
在一种可能的实现方式中,所述通过所述图像分割模型的条纹池化子模型对所述初始特征图进行池化,获取携带长距离依赖关系信息的第三特征图,包括:
通过所述条纹池化子模型对所述初始特征图进行水平条纹池化和垂直条纹池化;
对水平条纹池化结果和垂直条纹池化结果分别进行卷积后上采样,将上采样结果进行级联,得到所述第三特征图。
在一种可能的实现方式中,所述通过所述图像分割模型的平均池化子模型对所述初始特征图进行池化,获取携带短距离依赖关系信息的第一特征图,包括:
通过所述平均池化子模型对所述初始特征图进行金字塔池化;
将金字塔池化结果分别进行卷积后上采样,将上采样结果进行级联,得到所述第一特征图。
在一种可能的实现方式中,所述方法还包括:
获取训练数据,所述训练数据为经过图像分割并标注的训练图像;
对所述训练图像进行变换操作,变换操作后的训练图像也作为所述训练数据,所述变换操作包括平移、缩放、旋转中的至少一种;
根据所述训练数据对所述图像分割模型进行训练。
本发明实施例的第二方面是提供一种图像分割装置,包括:
输入模块,用于将待处理图像输入图像分割模型;
处理模块,用于通过所述图像分割模型的基网络对所述待处理图像提取初始特征图;通过所述图像分割模型的平均池化子模型对所述初始特征图进行池化,获取携带短距离依赖关系信息的第一特征图;通过所述图像分割模型的至少一个分支子模型对所述初始特征图进行处理,获取至少一种目标特征图,所述至少一种目标特征图包括携带全局依赖关系信息的第二特征图和/或携带长距离依赖关系信息的第三特征图;将所述第一特征图与所述目标特征图进行级联,并对级联结果进行卷积处理,得到图像分割结果;
输出模块,用于输出所述图像分割结果。
在一种可能的实现方式中,所述处理模块在通过所述图像分割模型的至少一个分支子模型对所述初始特征图进行处理,获取至少一种目标特征图时,用于:
通过所述图像分割模型的注意力机制子模型对所述初始特征图进行处理,获取携带全局依赖关系信息的第二特征图;和/或
通过所述图像分割模型的条纹池化子模型对所述初始特征图进行池化,获取携带长距离依赖关系信息的第三特征图。
在一种可能的实现方式中,所述处理模块在通过所述图像分割模型的注意力机制子模型对所述初始特征图进行处理,获取携带全局依赖关系信息的第二特征图时,用于:
通过所述注意力机制子模型的卷积层对所述初始特征图进行卷积处理,得到初始张量,并对所述初始张量进行重塑处理,使得所述初始张量由三阶转换为二阶,得到中间张量;
根据所述中间张量获取注意力矩阵,所述注意力矩阵用于表示所述中间张量各位置特征之间的相关性;
将所述中间张量与所述注意力矩阵相乘,得到第四特征图,并将所述初始特征图与所述第四特征图相加,得到所述第二特征图。
在一种可能的实现方式中,所述处理模块在根据所述中间张量获取注意力矩阵,所述注意力矩阵用于表示所述中间张量各位置特征之间的相关性时,用于:
将所述中间张量的转置与所述中间张量相乘,得到特征矩阵;
将所述特征矩阵输入到的所述注意力机制子模型的Softmax层中,获取所述注意力矩阵。
在一种可能的实现方式中,所述处理模块在通过所述图像分割模型的条纹池化子模型对所述初始特征图进行池化,获取携带长距离依赖关系信息的第三特征图时,用于:
通过所述条纹池化子模型对所述初始特征图进行水平条纹池化和垂直条纹池化;
对水平条纹池化结果和垂直条纹池化结果分别进行卷积后上采样,将上采样结果进行级联,得到所述第三特征图。
在一种可能的实现方式中,所述处理模块在通过所述图像分割模型的平均池化子模型对所述初始特征图进行池化,获取携带短距离依赖关系信息的第一特征图时,用于:
通过所述平均池化子模型对所述初始特征图进行金字塔池化;
将金字塔池化结果分别进行卷积后上采样,将上采样结果进行级联,得到所述第一特征图。
在一种可能的实现方式中,所述处理模块还用于:
获取训练数据,所述训练数据为经过图像分割并标注的训练图像;
对所述训练图像进行变换操作,变换操作后的训练图像也作为所述训练数据,所述变换操作包括平移、缩放、旋转中的至少一种;
根据所述训练数据对所述图像分割模型进行训练。
本发明实施例的第三方面是提供一种计算机设备,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如第一方面所述的方法。
本发明实施例的第四方面是提供一种计算机可读存储介质,其上存储有计算机程序;
所述计算机程序被处理器执行时实现如第一方面所述的方法。
本发明实施例提供的图像分割方法、装置、设备及存储介质,通过图像分割模型的基网络对待处理图像提取初始特征图;通过图像分割模型的平均池化子模型对初始特征图进行池化,获取携带短距离依赖关系信息的第一特征图;通过图像分割模型的至少一个分支子模型对初始特征图进行处理,获取至少一种目标特征图,至少一种目标特征图包括携带全局依赖关系信息的第二特征图和/或携带长距离依赖关系信息的第三特征图;将第一特征图与目标特征图进行级联,并对级联结果进行卷积处理,得到图像分割结果,并输出图像分割结果。本发明实施例中在图像分割模型中平均池化子模型并列设置分支子模型,获取携带全局依赖关系信息和/或携带长距离依赖关系信息特征图,并与平均池化子模型得到的携带短距离依赖关系信息的特征图进行级联,从而有效的增强了特征表示能力,提高图像分割的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的图像分割模型的示意图;
图2为本发明一实施例提供的图像分割方法流程图;
图3为本发明另一实施例提供的图像分割模型的示意图;
图4为本发明另一实施例提供的图像分割方法流程图;
图5为本发明另一实施例提供的图像分割方法流程图;
图6为本发明一实施例提供的条纹池化过程示意图;
图7为本发明另一实施例提供的图像分割方法流程图;
图8为本发明一实施例提供的图像分割装置的结构图;
图9为本发明一实施例提供的执行图像分割方法的计算机设备的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明实施例一部分实施例,而不是全部的实施例。基于本发明实施例中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明实施例保护的范围。
现有技术中通常采用FCN、Segnet、Pspnet等神经网络模型进行图像分割,虽然FCN、Segnet、Pspnet等方法在进行图像分割时对上下文信息融合有助于捕获不同比例的对象,但却无法利用全局视图中对象之间的关系,从而导致分割效果不是很好;在对神经网络进行卷积操作时产生的是局部感受野,可能会导致相同标签的像素对应特征可能不同,而这种差异会进而导致类内的不一致性,从而影响识别的准确率。
为了解决上述问题,考虑到Pspnet等神经网络模型只能捕获到图像中不同位置之间的短距离依赖关系,而无法捕捉全局特征依赖关系,因此本发明实施例中引入了全局特征依赖关系,在局部特征的基础上建立丰富的上下文关系,以Pspnet网络为基础,与Pspnet网络的平均池化层(金字塔池化模块Pyramid Pooling Module)并列的增加了分支网络,来获取携带全局依赖关系信息的特征图和/或携带长距离依赖关系信息的特征图,并与池化层得到的特征图进行concat级联,从而增强特征的表示能力,提高图像分割和识别的准确率。而由于注意力机制(Attention)可以很好的捕捉空间中的全局特征依赖关系,并在局部特征上建立丰富的上下文关系,可以作为本发明实施例中的一种分支网络;条纹池化也可以很好的捕获不同位置之间的长距离依赖关系,并且可以使得整个场景中离散分布的区域之间的连接和带状结构的编码区域之间的连接成为可能,也可作为本发明实施例中的一种分支网络。因此本发明实施例中可以选择注意力机制模型和/或条纹池化模型作为Pspnet网络中与平均池化层并列的分支网络,例如图1所示的网络架构,平均池化层并列的网络分支为和条纹池化模型,当然也可仅并列注意力机制模型,或者仅并列条纹池化模型。
下面结合具体的实施例对图像分割过程进行详细的描述。
图2为本发明实施例提供的图像分割方法流程图。本实施例提供了一种图像分割方法,执行主体为具有处理能力的计算机设备,该图像分割方法具体步骤如下:
S201、将待处理图像输入图像分割模型,通过所述图像分割模型的基网络对所述待处理图像提取初始特征图。
在本实施例中,图像分割模型中基网络用于对神经网络待处理图像提取特征图feature map,可包括卷积层、全连接层等,例如可以为残差网络(Resnet),包括Resnet18、Resnet50、Resnet101等,此处不再详细赘述。
S202、通过所述图像分割模型的平均池化子模型对所述初始特征图进行池化,获取携带短距离依赖关系信息的第一特征图。
在本实施例中,可以对初始特征图进行平均池化(Average Pooling),即对邻域内的特征点求平均,从而实现对初始特征图进行下采样,得到第一特征图feature map携带有短距离依赖关系信息。本实施例中平均池化可以很好的捕获不同位置之间的短距离依赖关系,特别对于语义区域分布紧密的情况运用平均池化非常必要。
可选的,本实施例中平均池化子模型可采用金字塔池化模块(pyramid poolingmodule),通过不同金字塔等级的池化核对初始特征图进行金字塔池化,得到不同层次的特征,再分别进行卷积,然后上采样得到与初始特征图相同尺寸的特征图feature map,再将各特征图feature map进行concat级联,得到第一特征图,从而融合了不同金字塔尺度的特征,减少不同区域之间的信息损失。
S203、通过所述图像分割模型的至少一个分支子模型对所述初始特征图进行处理,获取至少一种目标特征图,所述至少一种目标特征图包括携带全局依赖关系信息的第二特征图和/或携带长距离依赖关系信息的第三特征图。
在本实施例中,在图像分割模型中与平均池化子模型并列设置至少一个分支子模型,至少一个分支子模型中每隔分支子模型可以得到一种维度的目标特征图feature map,例如全局维度的feature map或长距离维度的feature map,也即目标特征图feature map携带全局依赖关系信息、或携带长距离依赖关系信息。
可选的,本实施例中可通过注意力机制子模型对初始特征图进行处理,获取携带全局依赖关系信息的第二特征图;和/或,通过条纹池化子模型对初始特征图进行池化,获取携带长距离依赖关系信息的第三特征图。
其中,注意力机制可以很好的捕捉空间中的全局特征依赖关系,并在局部特征上建立丰富的上下文关系,将更广泛的上下文信息编码为局部特征,进而增强了他们的表示能力;而条纹池化可以很好的捕获不同位置之间的长距离依赖关系,并且可以使得整个场景中离散分布的区域之间的连接和带状结构的编码区域之间的连接成为可能。
S204、将所述第一特征图与所述目标特征图进行级联,并对级联结果进行卷积处理,得到图像分割结果,并输出所述图像分割结果。
在本实施例中,将第一特征图与目标特征图进行concat级联,对级联结果进行卷积处理,得到图像分割结果,通过concat级联使得特征表示更加健壮,并最终进一步的实现分割效果的显著提升。
本实施例提供的图像分割方法,通过图像分割模型的基网络对待处理图像提取初始特征图;通过图像分割模型的平均池化子模型对初始特征图进行池化,获取携带短距离依赖关系信息的第一特征图;通过图像分割模型的至少一个分支子模型对初始特征图进行处理,获取至少一种目标特征图,至少一种目标特征图包括携带全局依赖关系信息的第二特征图和/或携带长距离依赖关系信息的第三特征图;将第一特征图与目标特征图进行级联,并对级联结果进行卷积处理,得到图像分割结果,并输出图像分割结果。本实施例中在图像分割模型中平均池化子模型并列设置分支子模型,获取携带全局依赖关系信息和/或携带长距离依赖关系信息特征图,并与平均池化子模型得到的携带短距离依赖关系信息的特征图进行级联,从而有效的增强了特征表示能力,提高图像分割的准确率。
在上述实施例的基础上,本实施例的图像分割模型中的至少一个分支子模型可以为注意力机制子模型和/或条纹池化子模型,图像分割模型具体如图3所示,进一步的,S203所述通过所述图像分割模型的至少一个分支子模型对所述初始特征图进行处理,获取至少一种目标特征图,可以包括:
通过所述图像分割模型的注意力机制子模型对所述初始特征图进行处理,获取携带全局依赖关系信息的第二特征图;和/或
通过所述图像分割模型的条纹池化子模型对所述初始特征图进行池化,获取携带长距离依赖关系信息的第三特征图。
在上述实施例的基础上,如图4所示,所述通过所述图像分割模型的注意力机制子模型对所述初始特征图进行处理,获取携带全局依赖关系信息的第二特征图,可以包括:
S301、通过所述注意力机制子模型的卷积层对所述初始特征图进行卷积处理,得到初始张量,并对所述初始张量进行重塑处理,使得所述初始张量由三阶转换为二阶,得到中间张量;
S302、根据所述中间张量获取注意力矩阵,所述注意力矩阵用于表示所述中间张量各位置特征之间的相关性;
S303、将所述中间张量与所述注意力矩阵相乘,得到第四特征图,并将所述初始特征图与所述第四特征图相加,得到所述第二特征图。
在本实施例中,如图3中注意力机制的部分所示,将初始特征图X(C*H*W)送入到卷积层,得到初始张量,图中X1、X2、X3为同样shape的初始张量,尺寸都为C*H*W,将初始张量进行reshape重塑处理,得到C*N的尺寸的中间张量,其中N=H*W,也即将原先H*W的feature给flatten拉平,进而从三维降成二维;
进一步的,根据中间张量获取注意力矩阵,用于表示中间张量各位置特征之间的相关性,具体的,将所述中间张量的转置与所述中间张量相乘,得到特征矩阵;将所述特征矩阵输入到的所述注意力机制子模型的Softmax层中,获取所述注意力矩阵。也即,X1、X2经过reshape后得到对进行转置并与相乘,得到N*N的特征矩阵(邻接矩阵)记为M,即(H*W)*(H*W)尺寸大小,将得到的N*N的特征矩阵M送入Softmax得到注意力矩阵P(N*N),而注意力矩阵P中的值则会反映两个位置的特征的相关性,也即两个位置的特征表示越相似,它们之间的相关性就越大。
其中,通过Softmax计算注意力矩阵具体可通过如下公式计算:
其中,Pij为特征矩阵M中的值,i∈(0,N-1),j∈(0,N-1),Sij为注意力矩阵P中的值,用于度量第i个位置对第j个位置的影响,也就是第i个位置和第j个位置之间的关联程度/相关性,Sij越大则第i个位置和第j个位置越相似。
在得到注意力矩阵P后,将X3经过reshape后得到的与注意力矩阵P相乘,得到第四特征图T(C*H*W),最后将第四特征图T与初始特征图X相加,得到所述第二特征图,用于后续与第一特征图进行concat级联。
本实施例中上述的注意力机制应用了位置注意力模块(Position AttetionModule),基于非局部均值滤波操作思想,来捕获空间(图片)的长范围依赖,在计算每个像素位置输出时候,不再只和邻域计算,而是和图像中所有位置计算相关性,然后将相关性作为一个权重表征其他位置和当前待计算位置的相似度,从而将更广泛的上下文信息编码到局部特征中,从而增强其表示能力。
在上述任一实施例的基础上,如图5所示,所述通过所述图像分割模型的条纹池化子模型对所述初始特征图进行池化,获取携带长距离依赖关系信息的第三特征图,可以包括:
S401、通过所述条纹池化子模型对所述初始特征图进行水平条纹池化和垂直条纹池化;
S402、对水平条纹池化结果和垂直条纹池化结果分别进行卷积后上采样,将上采样结果进行级联,得到所述第三特征图。
本实施例中,可参照PSPnet中的Pyramid Pooling Module模块,将其中的平均池化,换成了条纹池化,也即在经过条纹池化后将池化结果进行卷积后上采样,再将上采样结果进行级联。
举例来讲,将初始特征图X(C*H*W)输入条纹池化子模型后,进行水平条纹池化和垂直条纹池化,如图6所示,其中为了更加直观,以C=1为例,也即初始特征图X的通道为1,经过水平条纹池化和垂直条纹池化后得到H×1和1×W的池化结果,然后经过卷积核为3的一维卷积得到特征图,经进行上采样恢复到到C*H*W尺寸,最后concat级联,得到第三特征图,用于后续与第一特征图进行concat级联。
在上述任一实施例的基础上,如图7所示,所述方法还包括对所述图像分割模型的训练过程,具体如下:
S501、获取训练数据,所述训练数据为经过图像分割并标注的训练图像;
S502、对所述训练图像进行变换操作,变换操作后的训练图像也作为所述训练数据,所述变换操作包括平移、缩放、旋转中的至少一种;
S503、根据所述训练数据对所述图像分割模型进行训练。
本实施例中,可获取预定数量的图像,并对该些图像进行图像分割以及标注过程,作为训练数据,为了扩展训练数据的数量,还可对上述经过图像分割并标注的训练图像进行变换操作,包括但不限于平移、缩放、旋转等,将变换操作后的训练图像也作为训练数据,进而可根据训练数据对所构建的图像分割模型进行训练,其训练过程此处不再赘述。
可选的,在得到训练数据后,还可对训练数据进行检查,检查是否存在标注错误或漏标的训练图像,检查过程可以为人为检查,或者通过其他途径进行检查。
进一步的,完成训练的图像分割模型即可应用到实际场景中,可根据需求设定判定逻辑,对图像分割模型输出的分割结果进行判定,例如应用到交通领域中,可根据图像分割结果识别车辆外观、识别车型、路况分析等等。
图8为本发明实施例提供的图像分割装置的结构图。本实施例提供的图像分割装置可以执行图像分割方法实施例提供的处理流程,如图8所示,所述图像分割装置80包括输入模块81、处理模块82及输出模块83。
输入模块81,用于将待处理图像输入图像分割模型;
处理模块82,用于通过所述图像分割模型的基网络对所述待处理图像提取初始特征图;通过所述图像分割模型的平均池化子模型对所述初始特征图进行池化,获取携带短距离依赖关系信息的第一特征图;通过所述图像分割模型的至少一个分支子模型对所述初始特征图进行处理,获取至少一种目标特征图,所述至少一种目标特征图包括携带全局依赖关系信息的第二特征图和/或携带长距离依赖关系信息的第三特征图;将所述第一特征图与所述目标特征图进行级联,并对级联结果进行卷积处理,得到图像分割结果;
输出模块83,用于输出所述图像分割结果。
在上述实施例的基础上,所述处理模块82在通过所述图像分割模型的至少一个分支子模型对所述初始特征图进行处理,获取至少一种目标特征图时,用于:
通过所述图像分割模型的注意力机制子模型对所述初始特征图进行处理,获取携带全局依赖关系信息的第二特征图;和/或
通过所述图像分割模型的条纹池化子模型对所述初始特征图进行池化,获取携带长距离依赖关系信息的第三特征图。
在上述任一实施例的基础上,所述处理模块82在通过所述图像分割模型的注意力机制子模型对所述初始特征图进行处理,获取携带全局依赖关系信息的第二特征图时,用于:
通过所述注意力机制子模型的卷积层对所述初始特征图进行卷积处理,得到初始张量,并对所述初始张量进行重塑处理,使得所述初始张量由三阶转换为二阶,得到中间张量;
根据所述中间张量获取注意力矩阵,所述注意力矩阵用于表示所述中间张量各位置特征之间的相关性;
将所述中间张量与所述注意力矩阵相乘,得到第四特征图,并将所述初始特征图与所述第四特征图相加,得到所述第二特征图。
在上述任一实施例的基础上,所述处理模块82在根据所述中间张量获取注意力矩阵,所述注意力矩阵用于表示所述中间张量各位置特征之间的相关性时,用于:
将所述中间张量的转置与所述中间张量相乘,得到特征矩阵;
将所述特征矩阵输入到的所述注意力机制子模型的Softmax层中,获取所述注意力矩阵。
在上述任一实施例的基础上,所述处理模块82在通过所述图像分割模型的条纹池化子模型对所述初始特征图进行池化,获取携带长距离依赖关系信息的第三特征图时,用于:
通过所述条纹池化子模型对所述初始特征图进行水平条纹池化和垂直条纹池化;
对水平条纹池化结果和垂直条纹池化结果分别进行卷积后上采样,将上采样结果进行级联,得到所述第三特征图。
在上述任一实施例的基础上,所述处理模块82在通过所述图像分割模型的平均池化子模型对所述初始特征图进行池化,获取携带短距离依赖关系信息的第一特征图时,用于:
通过所述平均池化子模型对所述初始特征图进行金字塔池化;
将金字塔池化结果分别进行卷积后上采样,将上采样结果进行级联,得到所述第一特征图。
在上述任一实施例的基础上,所述处理模块82还用于:
获取训练数据,所述训练数据为经过图像分割并标注的训练图像;
对所述训练图像进行变换操作,变换操作后的训练图像也作为所述训练数据,所述变换操作包括平移、缩放、旋转中的至少一种;
根据所述训练数据对所述图像分割模型进行训练。
本发明实施例提供的图像分割装置可以具体用于执行上述图2、4-5、7所提供的方法实施例,具体功能此处不再赘述。
本发明实施例提供的图像分割装置,通过图像分割模型的基网络对待处理图像提取初始特征图;通过图像分割模型的平均池化子模型对初始特征图进行池化,获取携带短距离依赖关系信息的第一特征图;通过图像分割模型的至少一个分支子模型对初始特征图进行处理,获取至少一种目标特征图,至少一种目标特征图包括携带全局依赖关系信息的第二特征图和/或携带长距离依赖关系信息的第三特征图;将第一特征图与目标特征图进行级联,并对级联结果进行卷积处理,得到图像分割结果,并输出图像分割结果。本实施例中在图像分割模型中平均池化子模型并列设置分支子模型,获取携带全局依赖关系信息和/或携带长距离依赖关系信息特征图,并与平均池化子模型得到的携带短距离依赖关系信息的特征图进行级联,从而有效的增强了特征表示能力,提高图像分割的准确率。
图9为本发明实施例提供的计算机设备的结构示意图。本发明实施例提供的计算机设备可以执行图像分割方法实施例提供的处理流程,如图9所示,计算机设备90包括存储器91、处理器92、计算机程序和通讯接口93;其中,计算机程序存储在存储器91中,并被配置为由处理器92执行以上实施例所述的图像分割方法。
图9所示实施例的计算机设备可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
另外,本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现上述实施例所述的图像分割方法。
在本发明实施例所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明实施例各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明实施例各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
最后应说明的是:以上各实施例仅用以说明本发明实施例的技术方案,而非对其限制;尽管参照前述各实施例对本发明实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例各实施例技术方案的范围。
Claims (10)
1.一种图像分割方法,其特征在于,包括:
将待处理图像输入图像分割模型,通过所述图像分割模型的基网络对所述待处理图像提取初始特征图;
通过所述图像分割模型的平均池化子模型对所述初始特征图进行池化,获取携带短距离依赖关系信息的第一特征图;
通过所述图像分割模型的至少一个分支子模型对所述初始特征图进行处理,获取至少一种目标特征图,所述至少一种目标特征图包括携带全局依赖关系信息的第二特征图和/或携带长距离依赖关系信息的第三特征图;
将所述第一特征图与所述目标特征图进行级联,并对级联结果进行卷积处理,得到图像分割结果,并输出所述图像分割结果。
2.根据权利要求1所述的方法,其特征在于,所述通过所述图像分割模型的至少一个分支子模型对所述初始特征图进行处理,获取至少一种目标特征图,包括:
通过所述图像分割模型的注意力机制子模型对所述初始特征图进行处理,获取携带全局依赖关系信息的第二特征图;和/或
通过所述图像分割模型的条纹池化子模型对所述初始特征图进行池化,获取携带长距离依赖关系信息的第三特征图。
3.根据权利要求2所述的方法,其特征在于,所述通过所述图像分割模型的注意力机制子模型对所述初始特征图进行处理,获取携带全局依赖关系信息的第二特征图,包括:
通过所述注意力机制子模型的卷积层对所述初始特征图进行卷积处理,得到初始张量,并对所述初始张量进行重塑处理,使得所述初始张量由三阶转换为二阶,得到中间张量;
根据所述中间张量获取注意力矩阵,所述注意力矩阵用于表示所述中间张量各位置特征之间的相关性;
将所述中间张量与所述注意力矩阵相乘,得到第四特征图,并将所述初始特征图与所述第四特征图相加,得到所述第二特征图。
4.根据权利要求3所述的方法,其特征在于,所述根据所述中间张量获取注意力矩阵,所述注意力矩阵用于表示所述中间张量各位置特征之间的相关性,包括:
将所述中间张量的转置与所述中间张量相乘,得到特征矩阵;
将所述特征矩阵输入到的所述注意力机制子模型的Softmax层中,获取所述注意力矩阵。
5.根据权利要求2所述的方法,其特征在于,所述通过所述图像分割模型的条纹池化子模型对所述初始特征图进行池化,获取携带长距离依赖关系信息的第三特征图,包括:
通过所述条纹池化子模型对所述初始特征图进行水平条纹池化和垂直条纹池化;
对水平条纹池化结果和垂直条纹池化结果分别进行卷积后上采样,将上采样结果进行级联,得到所述第三特征图。
6.根据权利要求1所述的方法,其特征在于,所述通过所述图像分割模型的平均池化子模型对所述初始特征图进行池化,获取携带短距离依赖关系信息的第一特征图,包括:
通过所述平均池化子模型对所述初始特征图进行金字塔池化;
将金字塔池化结果分别进行卷积后上采样,将上采样结果进行级联,得到所述第一特征图。
7.根据权利要求1所述的方法,其特征在于,还包括:
获取训练数据,所述训练数据为经过图像分割并标注的训练图像;
对所述训练图像进行变换操作,变换操作后的训练图像也作为所述训练数据,所述变换操作包括平移、缩放、旋转中的至少一种;
根据所述训练数据对所述图像分割模型进行训练。
8.一种图像分割装置,其特征在于,包括:
输入模块,用于将待处理图像输入图像分割模型;
处理模块,用于通过所述图像分割模型的基网络对所述待处理图像提取初始特征图;通过所述图像分割模型的平均池化子模型对所述初始特征图进行池化,获取携带短距离依赖关系信息的第一特征图;通过所述图像分割模型的至少一个分支子模型对所述初始特征图进行处理,获取至少一种目标特征图,所述至少一种目标特征图包括携带全局依赖关系信息的第二特征图和/或携带长距离依赖关系信息的第三特征图;将所述第一特征图与所述目标特征图进行级联,并对级联结果进行卷积处理,得到图像分割结果;
输出模块,用于输出所述图像分割结果。
9.一种计算机设备,其特征在于,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序;
所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010857319.1A CN112001931A (zh) | 2020-08-24 | 2020-08-24 | 图像分割方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010857319.1A CN112001931A (zh) | 2020-08-24 | 2020-08-24 | 图像分割方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112001931A true CN112001931A (zh) | 2020-11-27 |
Family
ID=73470528
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010857319.1A Pending CN112001931A (zh) | 2020-08-24 | 2020-08-24 | 图像分割方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112001931A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112598003A (zh) * | 2020-12-18 | 2021-04-02 | 燕山大学 | 基于数据扩充和全监督预处理的实时语义分割方法 |
CN113229767A (zh) * | 2021-04-12 | 2021-08-10 | 佛山市顺德区美的洗涤电器制造有限公司 | 用于处理图像的方法、处理器、控制装置及家用电器 |
CN113326851A (zh) * | 2021-05-21 | 2021-08-31 | 中国科学院深圳先进技术研究院 | 图像特征提取方法、装置、电子设备及存储介质 |
CN113689434A (zh) * | 2021-07-14 | 2021-11-23 | 淮阴工学院 | 一种基于条带池化的图像语义分割方法 |
US20220207890A1 (en) * | 2020-12-30 | 2022-06-30 | Zhejiang Wanli University | Method and system for detecting scene text |
CN116385814A (zh) * | 2023-03-07 | 2023-07-04 | 广州市妇女儿童医疗中心 | 一种检测目标的超声筛查方法、系统、装置及介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110188765A (zh) * | 2019-06-05 | 2019-08-30 | 京东方科技集团股份有限公司 | 图像语义分割模型生成方法、装置、设备及存储介质 |
CN111539316A (zh) * | 2020-04-22 | 2020-08-14 | 中南大学 | 基于双注意力孪生网络的高分遥感影像变化检测方法 |
-
2020
- 2020-08-24 CN CN202010857319.1A patent/CN112001931A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110188765A (zh) * | 2019-06-05 | 2019-08-30 | 京东方科技集团股份有限公司 | 图像语义分割模型生成方法、装置、设备及存储介质 |
CN111539316A (zh) * | 2020-04-22 | 2020-08-14 | 中南大学 | 基于双注意力孪生网络的高分遥感影像变化检测方法 |
Non-Patent Citations (1)
Title |
---|
QIBIN HOU等: "Strip Pooling: Rethinking Spatial Pooling for Scene Parsing", 2020 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), 5 August 2020 (2020-08-05), pages 4002 - 4011 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112598003A (zh) * | 2020-12-18 | 2021-04-02 | 燕山大学 | 基于数据扩充和全监督预处理的实时语义分割方法 |
US20220207890A1 (en) * | 2020-12-30 | 2022-06-30 | Zhejiang Wanli University | Method and system for detecting scene text |
US11995901B2 (en) * | 2020-12-30 | 2024-05-28 | Zhejiang Wanli University | Method and system for detecting scene text |
CN113229767A (zh) * | 2021-04-12 | 2021-08-10 | 佛山市顺德区美的洗涤电器制造有限公司 | 用于处理图像的方法、处理器、控制装置及家用电器 |
CN113229767B (zh) * | 2021-04-12 | 2022-08-19 | 佛山市顺德区美的洗涤电器制造有限公司 | 用于处理图像的方法、处理器、控制装置及家用电器 |
CN113326851A (zh) * | 2021-05-21 | 2021-08-31 | 中国科学院深圳先进技术研究院 | 图像特征提取方法、装置、电子设备及存储介质 |
CN113326851B (zh) * | 2021-05-21 | 2023-10-27 | 中国科学院深圳先进技术研究院 | 图像特征提取方法、装置、电子设备及存储介质 |
CN113689434A (zh) * | 2021-07-14 | 2021-11-23 | 淮阴工学院 | 一种基于条带池化的图像语义分割方法 |
CN113689434B (zh) * | 2021-07-14 | 2022-05-27 | 淮阴工学院 | 一种基于条带池化的图像语义分割方法 |
CN116385814A (zh) * | 2023-03-07 | 2023-07-04 | 广州市妇女儿童医疗中心 | 一种检测目标的超声筛查方法、系统、装置及介质 |
CN116385814B (zh) * | 2023-03-07 | 2023-12-05 | 广州市妇女儿童医疗中心 | 一种检测目标的超声筛查方法、系统、装置及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112001931A (zh) | 图像分割方法、装置、设备及存储介质 | |
CN110738207B (zh) | 一种融合文字图像中文字区域边缘信息的文字检测方法 | |
CN113888744A (zh) | 一种基于Transformer视觉上采样模块的图像语义分割方法 | |
CN112001914A (zh) | 深度图像补全的方法和装置 | |
CN112115783A (zh) | 基于深度知识迁移的人脸特征点检测方法、装置及设备 | |
CN113343982B (zh) | 多模态特征融合的实体关系提取方法、装置和设备 | |
CN112749666B (zh) | 一种动作识别模型的训练及动作识别方法与相关装置 | |
CN113554032B (zh) | 基于高度感知的多路并行网络的遥感图像分割方法 | |
CN113066089B (zh) | 一种基于注意力引导机制的实时图像语义分割方法 | |
CN115082675A (zh) | 一种透明物体图像分割方法及系统 | |
CN111179270A (zh) | 基于注意力机制的图像共分割方法和装置 | |
CN113642585A (zh) | 图像处理方法、装置、设备、存储介质及计算机程序产品 | |
CN115577768A (zh) | 半监督模型训练方法和装置 | |
CN116189162A (zh) | 一种船牌检测与识别方法、装置、电子设备和储存介质 | |
CN114998756A (zh) | 一种基于yolov5的遥感图像检测方法、装置及存储介质 | |
CN115272691A (zh) | 一种钢筋绑扎状态检测模型的训练方法、识别方法及设备 | |
CN114612681A (zh) | 基于gcn的多标签图像分类方法、模型构建方法及装置 | |
Lu et al. | Multi-scale enhanced deep network for road detection | |
CN114049491A (zh) | 指纹分割模型训练、指纹分割方法、装置、设备及介质 | |
CN113902789A (zh) | 图像特征处理、深度图像生成方法及装置、介质和设备 | |
CN113096133A (zh) | 一种基于注意力机制的语义分割网络的构建方法 | |
CN113033448A (zh) | 一种基于多尺度卷积和注意力的遥感影像去云残差神经网络系统、方法、设备及存储介质 | |
CN116796287A (zh) | 图文理解模型的预训练方法、装置、设备及存储介质 | |
CN112989919B (zh) | 一种从影像中提取目标对象的方法及系统 | |
CN117523219A (zh) | 图像处理方法及装置、电子设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |