CN117011515A - 基于注意力机制的交互式图像分割模型及其分割方法 - Google Patents
基于注意力机制的交互式图像分割模型及其分割方法 Download PDFInfo
- Publication number
- CN117011515A CN117011515A CN202310976823.7A CN202310976823A CN117011515A CN 117011515 A CN117011515 A CN 117011515A CN 202310976823 A CN202310976823 A CN 202310976823A CN 117011515 A CN117011515 A CN 117011515A
- Authority
- CN
- China
- Prior art keywords
- attention
- segmentation
- module
- click
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 100
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 41
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000003709 image segmentation Methods 0.000 title claims abstract description 25
- 230000007246 mechanism Effects 0.000 title claims abstract description 17
- 238000011176 pooling Methods 0.000 claims abstract description 42
- 230000003993 interaction Effects 0.000 claims abstract description 30
- 230000009466 transformation Effects 0.000 claims abstract description 13
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 30
- 238000010586 diagram Methods 0.000 claims description 28
- 238000013528 artificial neural network Methods 0.000 claims description 22
- 239000013598 vector Substances 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 17
- 101100295091 Arabidopsis thaliana NUDT14 gene Proteins 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 239000011796 hollow space material Substances 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 3
- 238000002372 labelling Methods 0.000 abstract description 4
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/248—Aligning, centring, orientation detection or correction of the image by interactive preprocessing or interactive shape modelling, e.g. feature points assigned by a user
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于注意力机制的交互式图像分割模型及其分割方法,分割模型由基础分割模块和注意力分割模块组成,基础分割模块包括主干网络、空洞空间卷积池化金字塔模块和解码器;注意力分割模块包括高斯变换模块和基于点击的注意力模块;分割方法应用于基于注意力机制的交互式图像分割模型上。本发明的有益效果是:本发明通过点击的交互方式,使用一个基础分割模块和一个注意力分割模块,完成图像的分割,减轻数据标注的负担,更快的完成数据标注;能够更有效的关注点击信息,交互方式更加简单,准确率提升大,设计的交互式分割系统,使用简单,操作方便,只需通过点击即可完成分割,可以大大减轻图片数据标注的负担,加快图片数据标注速度。
Description
技术领域
本发明涉及一种交互式图像分割领域,具体为一种基于注意力机制的交互式图像分割模型及其分割方法。
背景技术
交互式图像分割是指通过用户提供少量的交互信息,如点击、划线、画框等,来辅助计算机提取图像中具有高层语义的目标区域。交互式分割在数据标注,医学图像,抠图,人脸识别等领域都有广泛的应用,交互式分割涉及到多个领域和问题的融合与创新,也有着多种应用场景和潜在价值。
目前交互式分割方法仍然有很多难点和缺陷:
(1)交互方式:不同的交互方式,如点击、划线、画框等,对用户的操作习惯和分割效果都有影响,需要根据不同的场景和目标选择合适的交互方式。同时,交互方式还需要考虑用户的误操作和撤销操作,提供更灵活和自然的交互体验。
(2)交互过程:交互式分割是一个迭代的过程,用户需要多次提供交互信息,才能得到满意的分割结果。这个过程中,用户往往不知道在哪些区域需要提供更多的交互信息,也不知道什么时候可以停止交互。因此,交互式分割需要提供一些智能和友好的机制,如给出建议、反馈、提示等,来引导用户进行有效的交互。
(3)交互效果:交互式分割的最终目标是得到高质量的分割结果,但是现有的方法在一些复杂和多样的场景下,仍然存在一些问题,如分割不足、分割过度、边缘模糊等。因此,交互式分割需要提高模型的鲁棒性和泛化性,以适应不同的图像和目标。
发明内容
本发明的目的在于提供一种基于注意力机制的交互式图像分割模型及其分割方法,作为一种新的分割模型并给出完整的图像交互式分割操作流程,通过点击的交互方式,完成图像的分割,减轻数据标注的负担,更快的完成数据标注。
本发明的技术方案是:基于注意力机制的交互式图像分割模型,由基础分割模块和注意力分割模块组成,基础分割模块包括主干网络、空洞空间卷积池化金字塔模块和解码器;注意力分割模块包括高斯变换模块和基于点击的注意力模块。
本发明采用另外一组技术方案,基于注意力机制的交互式图像分割方法,应用于基于注意力机制的交互式图像分割模型上,具体步骤如下:
步骤S1,在基础分割模块中,输入一张原图像和这张原图像的点击交互,将点击交互分为正向点击和负向点击,将正向点击和负向点击通过欧氏距离计算得到两个高斯点图,两个高斯点图和原图像进行拼接,输入到基础分割模块中的主干网络,主干网络使用101层深度残差网络作为特征提取网络,进行初次分割并输出结果;
步骤S2,同时在注意力分割模块中,将正向点击和负向点击转化成两个高斯点图进行拼接,再和步骤S1的基础分割模块中的101层深度残差网络的输出结果进行拼接,接着输入到基于点击的注意力模块中的通道注意力中部分输出结果;
步骤S3,步骤S1初次分割的输出结果和步骤S2基于点击的注意力模块中的通道注意力中部分输出结果进行拼接,输入到基础分割模块的空洞空间卷积池化金字塔模块中,并输出结果;
步骤S4,在注意力分割模块中,基于点击的注意力模块中的通道注意力中部分输出结果,通过和原图像对比,得到注意力损失;
步骤S5,将步骤S3中空洞空间卷积池化金字塔模块的输出结果和步骤S1初次分割的输出结果共同输入到解码器中,得到一般分割结果,计算与原图像的一般损失;
步骤S6,结合步骤S4中注意力损失和步骤S5中一般损失,使用平衡交叉熵法平衡两个损失函数,通过反向传播计算最后的分割结果。
进一步的,主干网络的详细步骤为:
(1)主干网络的输入是原图像和这张原图像的点击交互,其中原图像为RGB色彩图像,这张原图像的点击交互为两个正向点击和负向点击转化的高斯点图进行拼接,高斯点图通过欧式距离计算得到,高斯点半径设置为10;
(2)101层深度残差网络分为五个阶段,每个阶段包含若干个残差块,第一个阶段为一个普通残差块,第二阶段到第五个阶段为一个瓶颈残差块和若干个普通残差块,第二阶段到第五个阶段的瓶颈残差块对输入图片特征图进行下采样(降低尺寸和增加通道数),其他的残差块保持输入和输出的形状不变;
(3)图片特征图F1为第二个阶段的最后一个普通残差块,图片特征图F2为第三个阶段的最后一个普通残差块,图片特征图F3为第四个阶段的最后一个普通残差块,图片特征图F4为第五个阶段的最后一个普通残差块,即第二阶段到第五个阶段的图片特征图定义为{F1,F2,F3,F4};
其中欧式距离计算公式如下:
其中,d(x,y)是真实标签x和真实标签y的欧式距离,x和y是两个n维的真实标签,xi和yi分别是x和y的第i个样本的真实标签。
进一步的,空洞空间卷积池化金字塔模块的详细步骤为:
(1)步骤S1初次分割的输出结果即101层深度残差网络中的图片特征图F4,步骤S2基于点击的注意力模块中的通道注意力中部分输出结果即图片特征图Fattention(注意力分割模块中的基于点击的注意力模块);
(2)图片特征图F4和图片特征图Fattention进行拼接,拼接后的特征输入到空洞空间卷积池化金字塔模块,并输出结果;
(3)空洞空间卷积池化金字塔模块主要分为四个尺寸为1、6、12、18的空洞卷积层以及一个全局池化层,从四个空洞卷积层和全局池化层输出的特征进行拼接,拼接后的特征再通过空洞空间卷积池化金字塔模块中的一个额外的1×1卷积层进行进一步的变换和降维,得到最终的输出特征,记作FASPP。其中额外的1×1卷积层用于融合多尺度的特征,并降低输出的通道数。
进一步的,解码器的详细步骤为:
(1)步骤S1初次分割的输出结果即101层深度残差网络中的图片特征图F1,步骤S3中空洞空间卷积池化金字塔模块的输出结果即图片特征图FASPP;
(2)图片特征图F1和图片特征图FASPP共同输入到解码器中,使用解码器中的卷积层对解码器的输出进行分类,得到一般分割结果即每个像素的类别概率。
进一步的,高斯变换模块的详细步骤为:对正向点击和负向点击转化成两个高斯点图进行拼接即为高斯变换模块,高斯点半径设置为15。
进一步的,基于点击的注意力模块的详细步骤为:
(1)对输入的图片特征图进行全局平均池化和全局最大池化,得到两个通道描述向量,通道描述向量表示全局的信息;
(2)将两个通道描述向量分别送入一个共享的两层神经网络,第一层神经网络用于降低维度,第二层神经网络用于恢复维度,第一层神经网络和第二层神经网络中间有一个ReLU激活函数;
(3)将第一层神经网络和第二层神经网络的输出相加,通过一个Sigmoid激活函数,得到一个权重向量,权重向量表示每个通道的注意力系数;
(4)将权重向量与输入的图片特征图相乘,得到加权后的图片特征图Fattention;
(5)用得到的加权后的特征图Fattention和原图像计算注意力损失。
进一步的,所述平衡交叉熵法见公式(2)所示;
其中,L(y,p)表示损失函数,是真实标签y和预测概率p之间的差异的度量,真实标签y指的是原始图片,预测概率p是最终模块输出的图片为预测概率;N表示像素数量,β表示正样本的权重,根据两个分割结果中正负样本的比例来设置不同的β值,β设置为0.3;yi表示第i个样本的真实标签,是一个0或1的数,表示正负样本(正样本为前景,负样本为背景);p(yi)是第i个样本的预测概率,它是一个0到1之间的数,表示预测为正样本的概率。
本发明的有益效果是:传统的交互式图像分割方法是将交互结果(点击,划线,画框)和图像作为输入,输入到一个全卷积网络中,得到分割结果,本发明作为一种新的分割模型并给出完整的图像交互式分割操作流程,通过点击的交互方式,使用一个基础分割模块和一个注意力分割模块,完成图像的分割,减轻数据标注的负担,更快的完成数据标注;本发明提出新的交互式分割结构,对比传统的交互式分割方法,多使用了一个基于点击的注意力模块,能够更有效的关注点击信息,交互方式更加简单(点击),准确率提升大,设计的交互式分割系统,使用简单,操作方便,只需通过点击即可完成分割,可以大大减轻图片数据标注的负担,加快图片数据标注速度。
附图说明
图1为本发明交互式图像分割方法的结构流程图。
图2为本发明交互式图像分割方法的整体网络架构图。
具体实施方式
如图1-2所示,本发明是这样来工作和实施的,基于注意力机制的交互式图像分割模型,由基础分割模块和注意力分割模块组成,基础分割模块包括主干网络、空洞空间卷积池化金字塔模块和解码器;注意力分割模块包括高斯变换模块和基于点击的注意力模块。
基于注意力机制的交互式图像分割方法,应用于基于注意力机制的交互式图像分割模型上,具体步骤如下:
步骤S1,在基础分割模块中,输入一张原图像和这张原图像的点击交互,将点击交互分为正向点击和负向点击,将正向点击和负向点击通过欧氏距离计算得到两个高斯点图,两个高斯点图和原图像进行拼接,输入到基础分割模块中的主干网络,主干网络使用101层深度残差网络作为特征提取网络,进行初次分割并输出结果;
步骤S2,同时在注意力分割模块中,将正向点击和负向点击转化成两个高斯点图进行拼接,再和步骤S1的基础分割模块中的101层深度残差网络的输出结果进行拼接,接着输入到基于点击的注意力模块中的通道注意力中部分输出结果;
步骤S3,步骤S1初次分割的输出结果和步骤S2基于点击的注意力模块中的通道注意力中部分输出结果进行拼接,输入到基础分割模块的空洞空间卷积池化金字塔模块中,并输出结果;
步骤S4,在注意力分割模块中,基于点击的注意力模块中的通道注意力中部分输出结果,通过和原图像对比,得到注意力损失;
步骤S5,将步骤S3中空洞空间卷积池化金字塔模块的输出结果和步骤S1初次分割的输出结果共同输入到解码器中,得到一般分割结果,计算与原图像的一般损失;
步骤S6,结合步骤S4中注意力损失和步骤S5中一般损失,使用平衡交叉熵法平衡两个损失函数,通过反向传播计算最后的分割结果。
进一步的,主干网络的详细步骤为:
(1)主干网络的输入是原图像和这张原图像的点击交互,其中原图像为RGB色彩图像,这张原图像的点击交互为两个正向点击和负向点击转化的高斯点图进行拼接,高斯点图通过欧式距离计算得到,高斯点半径设置为10;
(2)101层深度残差网络分为五个阶段,每个阶段包含若干个残差块,第一个阶段为一个普通残差块,第二阶段到第五个阶段为一个瓶颈残差块和若干个普通残差块,第二阶段到第五个阶段的瓶颈残差块对输入图片特征图进行下采样(降低尺寸和增加通道数),其他的残差块保持输入和输出的形状不变;
(3)图片特征图F1为第二个阶段的最后一个普通残差块,图片特征图F2为第三个阶段的最后一个普通残差块,图片特征图F3为第四个阶段的最后一个普通残差块,图片特征图F4为第五个阶段的最后一个普通残差块,即第二阶段到第五个阶段的图片特征图定义为{F1,F2,F3,F4};
其中欧式距离计算公式如下:
其中,d(x,y)是真实标签x和真实标签y的欧式距离,x和y是两个n维的真实标签,xi和yi分别是x和y的第i个样本的真实标签。
进一步的,空洞空间卷积池化金字塔模块的详细步骤为:
(1)步骤S1初次分割的输出结果即101层深度残差网络中的图片特征图F4,步骤S2基于点击的注意力模块中的通道注意力中部分输出结果即图片特征图Fattention(注意力分割模块中的基于点击的注意力模块);
(2)图片特征图F4和图片特征图Fattention进行拼接,拼接后的特征输入到空洞空间卷积池化金字塔模块,并输出结果;
(3)空洞空间卷积池化金字塔模块主要分为四个尺寸为1、6、12、18的空洞卷积层以及一个全局池化层,从四个空洞卷积层和全局池化层输出的特征进行拼接,拼接后的特征再通过空洞空间卷积池化金字塔模块中的一个额外的1×1卷积层进行进一步的变换和降维,得到最终的输出特征,记作FASPP。其中额外的1×1卷积层用于融合多尺度的特征,并降低输出的通道数。
进一步的,解码器的详细步骤为:
(1)步骤S1初次分割的输出结果即101层深度残差网络中的图片特征图F1,步骤S3中空洞空间卷积池化金字塔模块的输出结果即图片特征图FASPP;
(2)图片特征图F1和图片特征图FASPP共同输入到解码器中,使用解码器中的卷积层对解码器的输出进行分类,得到一般分割结果即每个像素的类别概率。其中解码器模块的作用是将特征图像恢复到原图像的尺寸,并提取更细致的信息。
进一步的,高斯变换模块的详细步骤为:对正向点击和负向点击转化成两个高斯点图进行拼接即为高斯变换模块,高斯点半径设置为15。
进一步的,基础分割模块设置的高斯半径和注意力分割模块设置的高斯半径数值不同,基础分割模块设置的更小,注意力分割模块设置的更大,因为注意力分割模块可以在大的范围内找更加重要的信息,所以可以设置的大一点,可以根据不同的交互目的,调整点击的影响范围;一般来说,早期的交互更侧重于选择目标物体,所以可以设置较大的高斯半径,让点击覆盖更多的区域;后期的交互更侧重于微调分割结果,所以可以设置较小的高斯半径,让点击更精确地指示前景或背景。
进一步的,基于点击的注意力模块的详细步骤为:
(1)对输入的图片特征图进行全局平均池化和全局最大池化,得到两个通道描述向量,通道描述向量表示全局的信息;
(2)将两个通道描述向量分别送入一个共享的两层神经网络,第一层神经网络用于降低维度,第二层神经网络用于恢复维度,第一层神经网络和第二层神经网络中间有一个ReLU激活函数;
(3)将第一层神经网络和第二层神经网络的输出相加,通过一个Sigmoid激活函数,得到一个权重向量,权重向量表示每个通道的注意力系数;
(4)将权重向量与输入的图片特征图相乘,得到加权后的图片特征图Fattention;
(5)用得到的加权后的图片特征图Fattention和原图像计算注意力损失。
进一步的,使用基于点击的注意力模块的方法分配不同的注意力权重,基于点击的注意力模块中用到的通道注意力机制是一种在卷积神经网络中增强特征表示能力的方法,它可以自适应地调整每个特征通道的权重,使网络重点关注对当前任务有用的特征通道,抑制对当前任务无用的特征通道,使用通道注意力机制,重点关注哪些重要的点击,实现更好的分割效果。
进一步的,全局平均池化和全局最大池化为现有技术,具体做法:全局平均池化是对每个通道的特征图计算所有像素点的均值,全局最大池化是对每个通道的特征图计算所有像素点的最大值。
进一步的,所述平衡交叉熵法见公式(2)所示;
其中,L(y,p)表示损失函数,是真实标签y和预测概率p之间的差异的度量,真实标签y指的是原始图片,预测概率p是最终模块输出的图片为预测概率;N表示像素数量,β表示正样本的权重,根据两个分割结果中正负样本的比例来设置不同的β值,β设置为0.3;yi表示第i个样本的真实标签,是一个0或1的数,表示正负样本(正样本为前景,负样本为背景);p(yi)是第i个样本的预测概率,它是一个0到1之间的数,表示预测为正样本的概率。
进一步的,所述反向传播计算即用于训练神经网络的监督学习算法,反向传播算法的基本步骤如下:
(1)前向传播:将输入数据从输入层经过隐藏层到输出层,得到网络的输出结果;
(2)计算误差:根据输出结果和期望结果之间的差异,定义一个损失函数,并计算其值;
(3)反向传播:根据损失函数对每个参数的偏导数,从输出层到输入层逐层计算误差项,并根据梯度下降法更新参数。
(4)重复迭代:重复上述步骤,直到损失函数收敛或达到预设的条件。
实施例1
见图1所示,输入一张图片,进行点击操作,根据用户的点击操作分离出前景和背景,完成图像分割。
具体流程如下:
(1)输入一组图像,用户对图像进行点击操作;
(2)将点击操作图的positive clicks(正向点击)和Negative clicks(负向点击)转化的两个高斯点图和原图像进行拼接,输入到基础分割模块中的(ResNet101)101层的残差网络主干网;
(3)将点击操作图的positive clicks(正向点击)和Negative clicks(负向点击)转化的两个高斯点图进行拼接,再和ResNet101(101层的残差网络)特征提取网络初次分割的结果拼接输入到注意力模块;
(4)注意力分割模块输出的结果和前面的结果进行拼接,输入ASPP模块;
(5)空洞空间卷积池化金字塔模块(ASPP)模块的输出和b步骤中的ResNet101(101层的残差网络)的特征提取结果的底层特征结果拼接后输入解码器,得到一般分割结果(result),计算与原图像(ground truth)的一般损失(general loss);
(6)注意力模块通过b的操作得到注意力分割结果(Supervision result),与原图像(ground truth)计算注意力损失(attention click loss);
(7)结合两个分支的一般损失(general loss)和注意力损失(attention clickloss)使用平衡交叉熵法最后的分割结果(mask)。
Claims (8)
1.基于注意力机制的交互式图像分割模型,其特征在于:由基础分割模块和注意力分割模块组成,基础分割模块包括主干网络、空洞空间卷积池化金字塔模块和解码器;注意力分割模块包括高斯变换模块和基于点击的注意力模块。
2.基于注意力机制的交互式图像分割方法,其特征在于:应用于权利要求1所述的基于注意力机制的交互式图像分割模型上,具体步骤如下:
步骤S1,在基础分割模块中,输入一张原图像和这张原图像的点击交互,将点击交互分为正向点击和负向点击,将正向点击和负向点击通过欧氏距离计算得到两个高斯点图,两个高斯点图和原图像进行拼接,输入到基础分割模块中的主干网络,主干网络使用101层深度残差网络作为特征提取网络,进行初次分割并输出结果;
步骤S2,同时在注意力分割模块中,将正向点击和负向点击转化成两个高斯点图进行拼接,再和步骤S1的基础分割模块中的101层深度残差网络的输出结果进行拼接,接着输入到基于点击的注意力模块中的通道注意力中部分输出结果;
步骤S3,步骤S1初次分割的输出结果和步骤S2基于点击的注意力模块中的通道注意力中部分输出结果进行拼接,输入到基础分割模块的空洞空间卷积池化金字塔模块中,并输出结果;
步骤S4,在注意力分割模块中,基于点击的注意力模块中的通道注意力中部分输出结果,通过和原图像对比,得到注意力损失;
步骤S5,将步骤S3中空洞空间卷积池化金字塔模块的输出结果和步骤S1初次分割的输出结果共同输入到解码器中,得到一般分割结果,计算与原图像的一般损失;
步骤S6,结合步骤S4中注意力损失和步骤S5中一般损失,使用平衡交叉熵法平衡两个损失函数,通过反向传播计算最后的分割结果。
3.根据权利要求2所述的基于注意力机制的交互式图像分割方法,其特征在于:主干网络的详细步骤为:
(1)主干网络的输入是原图像和这张原图像的点击交互,其中原图像为RGB色彩图像,这张原图像的点击交互为两个正向点击和负向点击转化的高斯点图进行拼接,高斯点图通过欧式距离计算得到,高斯点半径设置为10;
(2)101层深度残差网络分为五个阶段,每个阶段包含若干个残差块,第一个阶段为一个普通残差块,第二阶段到第五个阶段为一个瓶颈残差块和若干个普通残差块,第二阶段到第五个阶段的瓶颈残差块对输入图片特征图进行下采样(降低尺寸和增加通道数),其他的残差块保持输入和输出的形状不变;
(3)图片特征图F1为第二个阶段的最后一个普通残差块,图片特征图F2为第三个阶段的最后一个普通残差块,图片特征图F3为第四个阶段的最后一个普通残差块,图片特征图F4为第五个阶段的最后一个普通残差块,即第二阶段到第五个阶段的图片特征图定义为{F1,F2,F3,F4};
其中欧式距离计算公式如下:
其中,d(x,y)是真实标签x和真实标签y的欧式距离,x和y是两个n维的真实标签,xi和yi分别是x和y的第i个样本的真实标签。
4.根据权利要求2所述的基于注意力机制的交互式图像分割方法,其特征在于:空洞空间卷积池化金字塔模块的详细步骤为:
(1)步骤S1初次分割的输出结果即101层深度残差网络中的图片特征图F4,步骤S2基于点击的注意力模块中的通道注意力中部分输出结果即图片特征图Fattention;
(2)图片特征图F4和图片特征图Fattention进行拼接,拼接后的特征输入到空洞空间卷积池化金字塔模块,并输出结果;
(3)空洞空间卷积池化金字塔模块主要分为四个尺寸为1、6、12、18的空洞卷积层以及一个全局池化层,从四个空洞卷积层和全局池化层输出的特征进行拼接,拼接后的特征再通过空洞空间卷积池化金字塔模块中的一个额外的1×1卷积层进行进一步的变换和降维,得到最终的输出特征,记作图片特征图FASPP。
5.根据权利要求2所述的基于注意力机制的交互式图像分割方法,其特征在于:解码器的详细步骤为:
(1)步骤S1初次分割的输出结果即101层深度残差网络中的图片特征图F1,步骤S3中空洞空间卷积池化金字塔模块的输出结果即图片特征图FASPP;
(2)图片特征图F1和图片特征图FASPP共同输入到解码器中,使用解码器中的卷积层对解码器的输出进行分类,得到一般分割结果即每个像素的类别概率。
6.根据权利要求2所述的基于注意力机制的交互式图像分割方法,其特征在于:高斯变换模块的详细步骤为:对正向点击和负向点击转化成两个高斯点图进行拼接即为高斯变换模块,高斯点半径设置为15。
7.根据权利要求2所述的基于注意力机制的交互式图像分割方法,其特征在于:基于点击的注意力模块的详细步骤为:
(1)对输入的图片特征图进行全局平均池化和全局最大池化,得到两个通道描述向量,通道描述向量表示全局的信息;
(2)将两个通道描述向量分别送入一个共享的两层神经网络,第一层神经网络用于降低维度,第二层神经网络用于恢复维度,第一层神经网络和第二层神经网络中间有一个ReLU激活函数;
(3)将第一层神经网络和第二层神经网络的输出相加,通过一个Sigmoid激活函数,得到一个权重向量,权重向量表示每个通道的注意力系数;
(4)将权重向量与输入的图片特征图相乘,得到加权后的图片特征图Fattention;
(5)用得到的加权后的特征图Fattention和原图像计算注意力损失。
8.根据权利要求2所述的基于注意力机制的交互式图像分割方法,其特征在于:所述平衡交叉熵法见公式(2)所示;
其中,L(y,p)表示损失函数,是真实标签y和预测概率p之间的差异的度量,真实标签y指的是原始图片,预测概率p是最终模块输出的图片为预测概率;N表示像素数量,β表示正样本的权重,根据两个分割结果中正负样本的比例来设置不同的β值,β设置为0.3;yi表示第i个样本的真实标签,是一个0或1的数,表示正负样本(正样本为前景,负样本为背景);p(yi)是第i个样本的预测概率,它是一个0到1之间的数,表示预测为正样本的概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310976823.7A CN117011515A (zh) | 2023-08-04 | 2023-08-04 | 基于注意力机制的交互式图像分割模型及其分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310976823.7A CN117011515A (zh) | 2023-08-04 | 2023-08-04 | 基于注意力机制的交互式图像分割模型及其分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117011515A true CN117011515A (zh) | 2023-11-07 |
Family
ID=88561493
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310976823.7A Pending CN117011515A (zh) | 2023-08-04 | 2023-08-04 | 基于注意力机制的交互式图像分割模型及其分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117011515A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117593292A (zh) * | 2024-01-18 | 2024-02-23 | 江西师范大学 | 一种基于三维正交注意力的ct图像目标检测方法 |
-
2023
- 2023-08-04 CN CN202310976823.7A patent/CN117011515A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117593292A (zh) * | 2024-01-18 | 2024-02-23 | 江西师范大学 | 一种基于三维正交注意力的ct图像目标检测方法 |
CN117593292B (zh) * | 2024-01-18 | 2024-04-05 | 江西师范大学 | 一种基于三维正交注意力的ct图像目标检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109299274B (zh) | 一种基于全卷积神经网络的自然场景文本检测方法 | |
CN108681752B (zh) | 一种基于深度学习的图像场景标注方法 | |
CN110335290B (zh) | 基于注意力机制的孪生候选区域生成网络目标跟踪方法 | |
CN109949317B (zh) | 基于逐步对抗学习的半监督图像实例分割方法 | |
CN110111366B (zh) | 一种基于多级损失量的端到端光流估计方法 | |
CN113128558B (zh) | 基于浅层空间特征融合与自适应通道筛选的目标检测方法 | |
CN113158862B (zh) | 一种基于多任务的轻量级实时人脸检测方法 | |
CN112036447B (zh) | 零样本目标检测系统及可学习语义和固定语义融合方法 | |
CN111583263A (zh) | 一种基于联合动态图卷积的点云分割方法 | |
CN112287941B (zh) | 一种基于自动字符区域感知的车牌识别方法 | |
CN111986125A (zh) | 一种用于多目标任务实例分割的方法 | |
CN112784756B (zh) | 人体识别跟踪方法 | |
CN114048822A (zh) | 一种图像的注意力机制特征融合分割方法 | |
CN111739037B (zh) | 一种针对室内场景rgb-d图像的语义分割方法 | |
CN112488209A (zh) | 一种基于半监督学习的增量式图片分类方法 | |
CN116258990A (zh) | 一种基于跨模态亲和力的小样本参考视频目标分割方法 | |
CN117011515A (zh) | 基于注意力机制的交互式图像分割模型及其分割方法 | |
CN114359631A (zh) | 基于编码-译码弱监督网络模型的目标分类与定位方法 | |
CN113205103A (zh) | 一种轻量级的文身检测方法 | |
CN110633706B (zh) | 一种基于金字塔网络的语义分割方法 | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 | |
CN115249313A (zh) | 一种基于元模块融合增量学习的图像分类方法 | |
CN114860973A (zh) | 一种面向小样本场景的深度图像检索方法 | |
CN112801029B (zh) | 基于注意力机制的多任务学习方法 | |
CN113902966A (zh) | 一种针对电子元器件的无锚框目标检测网络及应用该网络的检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |