CN112465800A - 一种使用分类注意力模块校正分类错误的实例分割方法 - Google Patents
一种使用分类注意力模块校正分类错误的实例分割方法 Download PDFInfo
- Publication number
- CN112465800A CN112465800A CN202011449578.7A CN202011449578A CN112465800A CN 112465800 A CN112465800 A CN 112465800A CN 202011449578 A CN202011449578 A CN 202011449578A CN 112465800 A CN112465800 A CN 112465800A
- Authority
- CN
- China
- Prior art keywords
- image
- processed
- mask
- feature map
- foreground
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 108
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012545 processing Methods 0.000 claims abstract description 64
- 238000013528 artificial neural network Methods 0.000 claims abstract description 17
- 230000006870 function Effects 0.000 claims description 31
- 238000010586 diagram Methods 0.000 claims description 19
- 238000010606 normalization Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 5
- 230000000873 masking effect Effects 0.000 claims 2
- 239000000126 substance Substances 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000003709 image segmentation Methods 0.000 description 3
- 210000002458 fetal heart Anatomy 0.000 description 2
- 210000003754 fetus Anatomy 0.000 description 2
- 101100000858 Caenorhabditis elegans act-3 gene Proteins 0.000 description 1
- HEFNNWSXXWATRW-UHFFFAOYSA-N Ibuprofen Chemical compound CC(C)CC1=CC=C(C(C)C(O)=O)C=C1 HEFNNWSXXWATRW-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000001605 fetal effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10132—Ultrasound image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30048—Heart; Cardiac
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种使用分类注意力模块校正分类错误的实例分割方法,基于预设实例分割模型的骨干神经网络获取待处理图像的多个特征图;基于预设实例分割模型的分类模块对所述特征图进行卷积处理,以得到所述待处理图像的语义类别;基于预设实例分割模型的分类注意力模块对所述特征图进行卷积处理,以得到所述待处理图像的像素类别;基于所述像素前景类通道和所述语义类别确定所述待处理图像的前景类通道;将所述待处理图像的前景类通道的掩码卷积核参数与掩码特征图进行卷积处理,以得到所述待处理图像的前景类通道的预测掩码,并根据所述预测掩码对图像进行实例分割,从而校正了误分类实例,并进一步提高了图像实例分割的精确度。
Description
技术领域
本发明涉及图像分割技术领域,特别涉及一种使用分类注意力模块校正分类错误的实例分割方法。
背景技术
随着深度神经网络技术的发展,出现了各种图像实例分割模型,当前学术界性能指标最好的算法是SOLO算法(Segmenting Objects by Locations)以及其改进版本SOLOv2。SOLOv2针对mask的检测效果和运行效率做了两个改进:(1)mask learning:能够更好地学习到mask;(2)mask NMS:提出了matrix nms,大大减少了前向推理的时间。SOLOv2相比SOLOv1,平均精度和速度都有提升。
但是,现有的图像实例分割方法中都是通过语义分类来确定分割图像的类别,当分割图像的类别出现错误时就会导致分割结果出现错误,进而影响图像分割的精确度。
因此,如何校正误分类实例,并进一步提高图像实例分割的精确度,是目前有待解决的技术问题。
发明内容
本发明提供了一种使用分类注意力模块校正分类错误的实例分割方法,用以解决现有技术中无法校正误分类实例,图像实例分割精确度不高的技术问题,所述方法包括:
基于预设实例分割模型的骨干神经网络获取待处理图像的多个特征图;
基于所述预设实例分割模型的分类模块对所述特征图进行卷积处理,以得到所述待处理图像的语义类别;
基于所述预设实例分割模型的分类注意力模块对所述特征图进行卷积处理,以得到所述待处理图像的像素类别,所述像素类别包括像素前景类通道和像素背景类通道;
基于所述像素前景类通道和所述语义类别确定所述待处理图像的前景类通道;
将所述待处理图像的前景类通道的掩码卷积核参数与掩码特征图进行卷积处理,以得到所述待处理图像的前景类通道的预测掩码,并根据所述预测掩码对图像进行实例分割。
一些实施例中,多个所述特征图根据尺寸从大到小包括:第一特征图、第二特征图、第三特征图、第四特征图、第五特征图。
一些实施例中,基于分类模块对所述特征图进行卷积处理,以得到所述待处理图像的语义类别,具体为:
对各所述特征图进行双线性插值分别得到预设尺寸大小的特征图;
基于分类模块对各所述预设尺寸大小的特征图进行卷积处理,得到所述待处理图像的语义类别。
一些实施例中,基于分类注意力模块对所述特征图进行卷积处理,以得到所述待处理图像的像素类别,具体为:
去除所述第五特征图,将剩余所述特征图采样至所述待处理图像尺寸的四分之一大小并合并,得到注意力特征图;
基于分类注意力模块对所述注意力特征图进行卷积处理,并对卷积结果做双线性插值和归一化处理,得到所述待处理图像的像素类别。
一些实施例中,基于所述像素前景类通道和所述语义类别确定所述待处理图像的前景类通道,具体为:
将所述像素前景类通道和所述语义类别相乘,得到所述待处理图像各个位置的前景类通道的置信度;
将所述置信度大于预设阈值的位置作为所述待处理图像的前景类通道;
将所述置信度不大于预设阈值的位置作为所述待处理图像的背景类通道。
一些实施例中,所述预设实例分割模型的损失函数包括所述分类模块的损失函数、所述分类注意力模块的损失函数以及所述预设实例分割模型的掩码模块的损失函数,所述掩码模块包括掩码特征图模块和掩码卷积核模块。
一些实施例中,在将所述待处理图像的前景类通道的掩码卷积核参数与掩码特征图进行卷积处理之前,所述方法还包括:
基于所述掩码卷积核模块对所述特征图进行卷积处理,得到所述待处理图像的掩码卷积核参数。
一些实施例中,在将所述待处理图像的前景类通道的掩码卷积核参数与掩码特征图进行卷积处理之前,所述方法还包括:
基于所述掩码特征图模块对所述特征图进行卷积处理,得到所述待处理图像的掩码特征图。
相应的,本申请还提出了一种使用分类注意力模块校正分类错误的实例分割设备,包括:
获取单元,基于预设实例分割模型的预设骨干神经网络获取多个待处理图像的特征图;
分类单元,基于所述预设实例分割模型的分类模块对所述特征图进行卷积处理,以得到所述待处理图像的语义类别;
分类注意力单元,基于所述预设实例分割模型的分类注意力模块对所述特征图进行卷积处理,以得到所述待处理图像的像素类别,所述像素类别包括像素前景类通道和像素背景类通道;
确定单元,基于所述像素前景类通道和所述语义类别确定所述待处理图像的前景类通道;
分割单元,将所述待处理图像的前景类通道的掩码卷积核参数与掩码特征图进行卷积处理,以得到所述待处理图像的前景类通道的预测掩码,并根据所述预测掩码对待处理图像进行实例分割。
相应的,本申请还提出了计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行如上所述的方法。
与现有技术相比,本发明具体有以下有益效果:
本发明公开了一种使用分类注意力模块校正分类错误的实例分割方法及设备,基于预设实例分割模型的骨干神经网络获取待处理图像的多个特征图;基于预设实例分割模型的分类模块对所述特征图进行卷积处理,以得到所述待处理图像的语义类别;基于预设实例分割模型的分类注意力模块对所述特征图进行卷积处理,以得到所述待处理图像的像素类别;基于所述像素前景类通道和所述语义类别确定所述待处理图像的前景类通道;将所述待处理图像的前景类通道的掩码卷积核参数与掩码特征图进行卷积处理,以得到所述待处理图像的前景类通道的预测掩码,并根据所述预测掩码对图像进行实例分割,同时将所述像素前景类通道和所述语义类别相乘,得到所述待处理图像各个位置的前景类通道的置信度,并通过该置信度确定待处理图像的前景类通道,从而校正了误分类实例,并进一步提高了图像实例分割的精确度。
附图说明
图1为本申请实施例提出的一种使用分类注意力模块校正分类错误的实例分割方法的流程示意图;
图2为本申请另一实施例提出的一种使用分类注意力模块校正分类错误的实例分割方法的流程示意图;
图3为本申请具体实施例提出的一种使用分类注意力模块校正分类错误的实例分割方法的流程示意图;
图4为本申请具体实施例提出的胎儿心脏图像实例分割效果对比图;
图5为本申请具体实施例提出的胎儿心脏图像实例分割定性化展示图;
图6为本申请实施例提出的一种使用分类注意力模块校正分类错误的实例分割设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请的描述中,需要理解的是,术语“中心”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在本申请的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。
如背景技术所述,现有技术中,图像实例分割都是通过语义分类来确定分割图像的类别,当分割图像的类别出现错误时就会导致分割结果出现错误,进而影响图像分割的精确度。
为了解决上述问题,本申请提出了一种使用分类注意力模块校正分类错误的实例分割方法,如图1所示,所示方法包括:
S101,基于预设实例分割模型的骨干神经网络获取待处理图像的多个特征图。
本步骤中,预设实例分割模型是通过待处理图像学习训练得到的,预设实例分割模型的骨干神经网络用于提取待处理图像的特征图,可选的,通过FPN(Feature PyramidNetwork,一种利用常规CNN模型来高效提取图片中各维度特征的方法),获取待处理图像的多个特征图。
为了使特征图能更好的表示待处理图像的特征,在一些实施例中,多个所述特征图根据分辨率从大到小包括:第一特征图、第二特征图、第三特征图、第四特征图、第五特征图。
具体的,特征图的分辨率从大到小包括,第一特征图、第二特征图、第三特征图、第四特征图和第五特征图,其中不同特征图用来生成不同大小目标的特征图,第一特征图分辨率大用来生成较小目标的特征图,第五特征图分辨率小用来生成较大目标的特征图。
需要说明的是,以上优选实施例的方案仅为本申请所提出的一种具体实现方案,本领域技术人员可以根据需要获取其他数量的特征图,这些都属于本申请的保护范围。
S102,基于所述预设实例分割模型的分类模块对所述特征图进行卷积处理,以得到所述待处理图像的语义类别。
本步骤中,在得到待处理图像的多个特征图后,通过预设实例分割模型的分类模块对该特征图进行卷积处理,得到待处理图像的语义类别,该语义类别用来预测待处理图像的语义分类,其中,该语义类别主要预测待处理图像的前景类通道,同时还可以将该前景类通道划分为多个子类别。
为了准确得到待处理图像的语义类别,在一些实施例中,基于分类模块对所述特征图进行卷积处理,以得到所述待处理图像的语义类别,具体为:
对各所述特征图进行双线性插值分别得到预设分辨率的特征图;
基于所述分类模块对各所述预设分辨率的特征图进行卷积处理,得到所述待处理图像的语义类别。
具体的,得到待处理图像的多个特征图后,先对各个特征图进行双线性插值得到预设分辨率的特征图,这里的预设分别率可以根据特征图的大小进行设定,优选的,第一特征图的预设分辨率为40*40,第二特征图的预设分辨率为36*36,第三特征图的预设分辨率为24*24,第四特征图的预设分辨率为16*16,第五特征图的预设分辨率为12*12,然后根据预设实例分割模型的分类模块对各所述预设分辨率的特征图进行卷积处理,得到所述待处理图像的语义类别。
需要说明的是,特征图本身的大小不同,对应的目标也不同,当特征图本身像素高时,可以比较清晰的表示出小目标的特征图,这时设定的预设分辨率也相对较大,但是为了方便后续处理预设分辨率一般都比特征图本身的分辨率小,这时特征图上的一些点可能不在预设分辨率的特征图上,就需要通过双线性插值在预设分辨率的特征图上得到这些点。
S103,基于所述预设实例分割模型的分类注意力模块对所述特征图进行卷积处理,以得到所述待处理图像的像素类别,所述像素类别包括像素前景类通道和像素背景类通道。
本步骤中,根据预设实例分割模型的分类注意力模块对特征图进行卷积处理,得到待处理图像的像素类别,该像素类别用于校正待处理图像语义分类的错误,其中,像素类别包括像素前景类通道和像素背景类通道。
为了准确的得到待处理图像的像素类别,在一些实施例中,基于所述分类注意力模块对所述特征图进行卷积处理,以得到所述待处理图像的像素类别,具体为:
去除所述第五特征图,将剩余所述特征图采样至所述待处理图像尺寸的四分之一大小并合并,得到注意力特征图;
基于分类注意力模块对所述注意力特征图进行卷积处理,并对卷积结果做双线性插值和归一化处理,得到所述待处理图像的像素类别。
具体的,在根据预设实例分割模型的分类注意力模块对注意力神经网络对所述特征图进行卷积处理之前,先去除第五特征图,然后将第一至第四特征图采样至待处理图像尺寸的四分之一大小后并相加合并得到注意力特征图,然后以该注意力特征图为预设实例分割模型的分类注意力模块的输入,进行卷积,由于该注意力特征图的输出是为了校正待处理图像的语义类别,为了方便后续处理对该卷积结果进行双线性插值和归一化处理,优选的,在对该卷积结果进行双线性插值和归一化处理后得到与语义类别对应的多个预设目标分辨率大小的待处理图像的像素类别。可选的,该预设分辨率为5个,从大到小依次为:40*40、36*36、24*24、16*16、12*12。
需要说明的是,以上优选实施例的方案仅为本申请所提出的一种具体实现方案,其他基于所述分类注意力模块对所述特征图进行卷积处理,以得到所述待处理图像的像素类别的方法都属于本申请的保护范围。
S104,基于所述像素前景类通道和所述语义类别确定所述待处理图像的前景类通道。
本步骤中,根据所述像素前景类通道和语义类别共同确定待处理图像的前景类通道,避免了只通过语义类别确定待处理图像的前景类通道时的误分类现象。
为了准确的确定待处理图像的前景类通道,基于所述像素前景类通道和所述语义类别确定所述待处理图像的前景类通道,具体为:
将所述像素前景类通道和所述语义类别相乘,得到所述待处理图像各个位置的前景类通道的置信度;
将所述置信度大于预设阈值的位置作为所述待处理图像的前景类通道;
将所述置信度不大于预设阈值的位置作为所述待处理图像的背景类通道。
具体的,语义类别和像素类别分别预测了各个位置存在实例的概率和类别,将像素类别预测为前景类通道的位置和语义类别预测为前景类通道的位置相乘得到待处理图像各个位置的前景类通道的置信度,当像素类别和语义类别预测的类别一致时,也就是说二者类别的最大值在相同的通道,那么二者相乘后类别的最大值所在的通道不变,当二者预测的类别不一致(至少有一个预测错误),即二者类别的最大值在不同的通道,那么二者相乘后在类别预测错误通道的值被减小(最大值被减小)。因此将置信度大于预设阈值的位置作为所述待处理图像的前景类通道,可以过滤掉那些被错误分类的预测结果,同时将所述置信度不大于预设阈值的位置作为所述待处理图像的背景类通道,使得被错误分为前景类通道的位置重新被划为背景类通道,提高了分类的精确度。
需要说明的是,以上优选实施例的方案仅为本申请所提出的一种具体实现方案,其他基于所述像素前景类通道和所述语义类别确定所述待处理图像的前景类通道的方法都属于本申请的保护范围。
S105,将所述待处理图像的前景类通道的掩码卷积核参数与掩码特征图进行卷积处理,以得到所述待处理图像的前景类通道的预测掩码,并根据所述预测掩码对待处理图像进行实例分割。
本步骤中,通过像素前景类通道和语义类别确定待处理图像的前景类通道后,将待处理图像被分为前景类通道的掩码卷积核参数和掩码特征图进行卷积,然后得到待处理图像的前景类通道的预测掩码,最后根据该预测掩码对待处理图像进行实例分割。
需要说明的是,本申请对待处理图像进行分割,主要得到前景类通道的预测掩码,根据该掩码就可以将前景类的图像分割出来,进一步的,还可以对前景类通道中的不同类别分别标记分类。在图像实例分割中,预测掩码通过掩码卷积核参数和掩码特征图进行卷积,而在确定待处理图像的类别后,就可以根据预测类别得到与其类别对应的预测掩码。
为了准确得到预设实例分割模型的损失函数,在一些实施例中,所述预设实例分割模型的损失函数包括所述分类模块的损失函数、所述分类注意力模块的损失函数以及所述预设实例分割模型的掩码模块的损失函数,所述掩码模块包括掩码特征图模块和掩码卷积核模块。
具体的,神经网络模型的损失函数可以在保证方便处理图像信息的前提下极大的保留了图像的完整性,该预设实例分割模型的损失函数包括分类模块的损失函数、所述分类注意力模块的损失函数以及预设实例分割模型的掩码模块的损失函数。预设实例分割模型的掩码模块包括掩码特征图模块和掩码卷积核参数神经网络。可选的,预设实例分割模型的损失函数等于分类模块的损失函数、分类注意力模块的损失函数以及掩码模块的损失函数分别与系数相乘后的和,如以下公式:
L=βLCate+λLMask+μLAtte
其中L表示预设实例分割模型的损失函数,LCate是预设实例分割模型的分类模块的损失函数,优选的,该分类模块的损失函数为:Focal loss,LMask是预设实例分割模型的掩码模块的损失函数,优选的,该掩码模块的损失函数为:Dice loss,LAtte是预设实例分割模型的分类注意力模块的损失函数,优选的,该分类注意力模块的损失函数为:CrossEntropy loss(交叉熵损失函数)。这里β、μ和λ由实验确定,优选的,β为1或3,μ和λ为3。
需要说明的是,以上优选实施例的方案仅为本申请所提出的一种具体实现方案,本领域技术人员可以根据实际情况设置其他损失函数,这些都属于本申请的保护范围。
为了准确得到待处理图像的掩码卷积核参数,在一些实施例中,在将所述待处理图像的前景类通道的掩码卷积核参数与掩码特征图进行卷积处理之前,所述方法还包括:
基于所述掩码卷积核模块对所述特征图进行卷积处理,得到所述待处理图像的掩码卷积核参数。
具体的,通过预设实例分割模型的掩码卷积核模块对所述特征图进行卷积处理,得到所述待处理图像的掩码卷积核参数,优选的,在进行卷积之前,先对各所述特征图进行双线性插值分别得到预设分辨率的特征图。
为了准确得到待处理图像的掩码特征图,在一些实施例中,在将所述待处理图像的前景类通道的掩码卷积核参数与掩码特征图进行卷积处理之前,所述方法还包括:
基于所述掩码特征图模块对所述特征图进行卷积处理,得到所述待处理图像的掩码特征图。
具体的,通过预设实例分割模型的掩码特征图模块对所述特征图进行卷积处理,得到所述待处理图像的掩码特征图。优选的,在进行卷积之前,先去除分辨率最小的特征图,然后将剩余特征图采样至所述待处理图像尺寸的四分之一大小并合并,然后将合并结果作为所述掩码特征图模块的输入。
本发明公开了一种使用分类注意力模块校正分类错误的实例分割方法,基于预设实例分割模型的骨干神经网络获取待处理图像的多个特征图;基于预设实例分割模型的分类模块对所述特征图进行卷积处理,以得到所述待处理图像的语义类别;基于预设实例分割模型的分类注意力模块对所述特征图进行卷积处理,以得到所述待处理图像的像素类别;基于所述像素前景类通道和所述语义类别确定所述待处理图像的前景类通道;将所述待处理图像的前景类通道的掩码卷积核参数与掩码特征图进行卷积处理,以得到所述待处理图像的前景类通道的预测掩码,并根据所述预测掩码对图像进行实例分割,同时将所述像素前景类通道和所述语义类别相乘,得到所述待处理图像各个位置的前景类通道的置信度,并通过该置信度确定待处理图像的前景类通道,从而校正了误分类实例,并进一步提高了图像实例分割的精确度。
为了进一步阐述本发明的技术思想,结合具体应用场景,如图2所示本发明另一实施例提出的一种使用分类注意力模块校正分类错误的实例分割方法的流程示意图,所述方法具体步骤如下:
S201,基于预设实例分割模型的骨干神经网络获取待处理图像的多个特征图。
优选的,基于实例分割模型的骨干神经网络,并通过FPN获取待处理图像的多个特征图。
S202,基于预设实例分割模型的分类模块对所述特征图进行卷积处理,以得到所述待处理图像的语义类别。
在获取到待处理图像的多个特征图后,先将每个特征图双线性插值成预设分辨率大小,然后再将插值后的特征图通过分类模块进行卷积处理,得到所述待处理图像的语义类别。优选的,获取语义类别的公式如下所示:
其中,是输出的语义类别,它预测了S*S个位置存在实例的概率和类别,S*S*C中的C是前景类通道的数量,每一个通道代表一个类别。bili表示对特征图双线性插值操作,将特征图P双线性插值后的特征图记为S*S*E表示特征图分辨率的尺寸,表示卷积操作,卷积层顺序从左到右依次进行,表示分类模块的卷积核大小为3*3*E,括号右上角“4”和“1”表示卷积进行的层数分别为4和1,括号右下角“E”和“C”表示每层卷积核的个数。本领域技术人员也可以根据需要设置卷积核个数,具体卷积核个数根据所需输出特征图的通道数决定。
S203,基于预设实例分割模型的掩码卷积核模块对特征图进行卷积处理,得到所述待处理图像的掩码卷积核参数。
在获取到待处理图像的多个特征图后,先将每个特征图双线性插值成预设分辨率大小,然后再将插值后的特征图通过掩码卷积核模块进行卷积处理,得到所述待处理图像的掩码卷积核参数。优选的,获取掩码卷积核参数的公式如下所示:
S204,基于预设实例分割模型的掩码特征图模块对特征图进行卷积处理,得到所述待处理图像的掩码特征图。
先去除分辨率最小的特征图,然后将剩余特征图采样至所述待处理图像尺寸的四分之一大小并合并,然后将合并结果通过掩码特征图模块进行卷积,得到待处理图像的掩码特征图。优选的,获取掩码特征图的公式如下所示:
其中,表示输出的掩码特征图,它预测了一个掩码特征图,它通过对进行卷积获得,并被S*S个位置共享。是去除分辨率最小的特征图后,并将剩余特征图采样至待处理图像尺寸的四分之一大小并合并的结果。表示掩码特征图模块的卷积核。公式中其他含义与上述获取语义类别的公式一致。
S205,基于预设实例分割模型的分类注意力模块对所述特征图进行卷积处理,得到所述待处理图像的像素类别。
先去除分辨率最小的特征图,然后将剩余特征图采样至所述待处理图像尺寸的四分之一大小并合并,然后将合并结果通过分类注意力模块进行卷积,得到待处理图像的像素类别。优选的,获取像素类别的公式如下所示:
由于,是分类注意力模块对合并处理后的特征图进行卷积后的输出,分类注意力模块用于校正分类模块的分类错误,所以直接用对待处理图像的语义类别进行校正不是很方便,因此需要对做进一步处理得到待处理图像的像素类别。具体步骤包括:
S206,基于语义类别和像素类别确定待处理图像前景类通道的置信度,并根据该置信度确定待处理图像的前景类通道。
在得到语义类别和像素类别后,然后将前景类通道的像素类别和语义类别相乘得到待处理图像前景类通道的置信度,优选的,获取置信度的公式如下所示:
其中,是前景类通道的像素类别,是语义类别,是待处理图像前景类通道的置信度,在得到该置信度后,再通过该置信度与预设阈值进行比较,保留大于预设阈值的通道就可以确定待处理图像的前景类通道。例如前景类通道的数量C为4,在待处理图像某个位置上,前景类通道的像素类别是(0.05,0.1,0.05,0.8),语义类别是(0.1,0.1,0.05,0.75),最大值分别是0.8和0.75,都在第4通道,相乘后的结果是(0.005,0.01,0.0025,0.6),最大值是0.6,也在第4通道,这时设置预设阈值为0.5,那么第4通道大于阈值就被归为待处理图像的前景类通道,且被具体归类为前景类通道4。
需要说明的是,通过被校正的待处理图像的前景类通道,不仅仅可以将待处理图像分为背景类和前景类,还可以针对前景类通道继续划分为不同类型的前景类,如上所述前景类通道的数量C为4时,代表待处理图像的前景类通道还可以进一步被分成4类。
S207,将前景类通道的掩码卷积核参数与掩码特征图进行卷积处理,得到前景类通道的预测掩码,并根据预测掩码对待处理图像进行实例分割。
得到校正后的待处理图像的前景类通道后,根据前景类通道卷积核参数与掩码特征图进行卷积,就可以得到前景类通道的预测掩码,最后根据该预测掩码就可以对待处理图像进行实例分割。
如图3所示,本申请具体实施例提出的一种使用分类注意力模块校正分类错误的实例分割方法的流程示意图,其中,P2-P6为通过预设实例分割模型的骨干神经网络获取到的特征图,P2-P6经过双线性插值为S*S大小后作为上面两条分支的输入,其中,第一条分支为分类模块,第二条分支为掩码卷积核模块;P2-P5上采样至待处理图像的1/4大小并相加合并作为下面两条分支的输入,其中,最下面的分支为分类注意力模块,该分支经过卷积、双线性插值、归一化处理后输出像素类别,然后该输出的像素类别与第一条分支输出的语义类别共同确定待处理图像各个位置的类别;倒数第二条分支为掩码特征图模块,该分支的输出与第二条分支的输出进行卷积得到待处理图像的预测掩码,然后通过该预测掩码与得到的待处理图像各个位置的类别就可以对图像进行实例分割。
需要说明的是,该发明的方法在胎儿超声心动图四腔心分割问题上得到了验证,能够同时精确的分割出胎儿的四个心室,为心脏病学家评估、诊断提供辅助。如图4所示,其中第1行为原始图像,第2行为使用SOLOv2进行分割的结果,可见存在分类错误。第3行为使用本发明进行分割的效果,可见错误的分类得到了校正。图5为,本发明效果的定性化展示,可见使用本发明能够精确分割出胎儿四腔心。
与本申请实施例中的使用分类注意力模块校正分类错误的实例分割方法相对应,本申请实施例还提出了一种使用分类注意力模块校正分类错误的实例分割设备,如图6所示,所述设备包括:
获取单元501,基于预设实例分割模型的预设骨干神经网络获取多个待处理图像的特征图;
分类单元502,基于所述预设实例分割模型的分类模块对所述特征图进行卷积处理,以得到所述待处理图像的语义类别;
分类注意力单元503,基于所述预设实例分割模型的分类注意力模块对所述特征图进行卷积处理,以得到所述待处理图像的像素类别,所述像素类别包括像素前景类通道和像素背景类通道;
确定单元504,基于所述像素前景类通道和所述语义类别确定所述待处理图像的前景类通道;
分割单元505,将所述待处理图像的前景类通道的掩码卷积核参数与掩码特征图进行卷积处理,以得到所述待处理图像的前景类通道的预测掩码,并根据所述预测掩码对待处理图像进行实例分割。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种使用分类注意力模块校正分类错误的实例分割方法,其特征在于,所述方法包括:
基于预设实例分割模型的骨干神经网络获取待处理图像的多个特征图;
基于所述预设实例分割模型的分类模块对所述特征图进行卷积处理,以得到所述待处理图像的语义类别;
基于所述预设实例分割模型的分类注意力模块对所述特征图进行卷积处理,以得到所述待处理图像的像素类别,所述像素类别包括像素前景类通道和像素背景类通道;
基于所述像素前景类通道和所述语义类别确定所述待处理图像的前景类通道;
将所述待处理图像的前景类通道的掩码卷积核参数与掩码特征图进行卷积处理,以得到所述待处理图像的前景类通道的预测掩码,并根据所述预测掩码对待处理图像进行实例分割。
2.如权利要求1所述的方法,其特征在于,多个所述特征图根据分辨率从大到小包括:第一特征图、第二特征图、第三特征图、第四特征图、第五特征图。
3.如权利要求2所述的方法,其特征在于,基于分类模块对所述特征图进行卷积处理,以得到所述待处理图像的语义类别,具体为:
对各所述特征图进行双线性插值分别得到预设分辨率的特征图;
基于所述分类模块对各所述预设分辨率的特征图进行卷积处理,得到所述待处理图像的语义类别。
4.如权利要求2所述的方法,其特征在于,基于分类注意力模块对所述特征图进行卷积处理,以得到所述待处理图像的像素类别,具体为:
去除所述第五特征图,将剩余所述特征图采样至所述待处理图像尺寸的四分之一大小并合并,得到注意力特征图;
基于所述分类注意力模块对所述注意力特征图进行卷积处理,并对卷积结果做双线性插值和归一化处理,得到所述待处理图像的像素类别。
5.如权利要求1所述的方法,其特征在于,基于所述像素前景类通道和所述语义类别确定所述待处理图像的前景类通道,具体为:
将所述像素前景类通道和所述语义类别相乘,得到所述待处理图像各个位置的前景类通道的置信度;
将所述置信度大于预设阈值的位置作为所述待处理图像的前景类通道;
将所述置信度不大于预设阈值的位置作为所述待处理图像的背景类通道。
6.如权利要求1所述的方法,其特征在于,所述预设实例分割模型的损失函数包括所述分类模块的损失函数、所述分类注意力模块的损失函数以及所述预设实例分割模型的掩码模块的损失函数,所述掩码模块包括掩码特征图模块和掩码卷积核模块。
7.如权利要求6所述的方法,其特征在于,在将所述待处理图像的前景类通道的掩码卷积核参数与掩码特征图进行卷积处理之前,所述方法还包括:
基于所述掩码卷积核模块对所述特征图进行卷积处理,得到所述待处理图像的掩码卷积核参数。
8.如权利要求6所述的方法,其特征在于,在将所述待处理图像的前景类通道的掩码卷积核参数与掩码特征图进行卷积处理之前,所述方法还包括:
基于所述掩码特征图模块对所述特征图进行卷积处理,得到所述待处理图像的掩码特征图。
9.一种使用分类注意力模块校正分类错误的实例分割设备,其特征在于,所述设备包括:
获取单元,基于预设实例分割模型的预设骨干神经网络获取多个待处理图像的特征图;
分类单元,基于所述预设实例分割模型的分类模块对所述特征图进行卷积处理,以得到所述待处理图像的语义类别;
分类注意力单元,基于所述预设实例分割模型的分类注意力模块对所述特征图进行卷积处理,以得到所述待处理图像的像素类别,所述像素类别包括像素前景类通道和像素背景类通道;
确定单元,基于所述像素前景类通道和所述语义类别确定所述待处理图像的前景类通道;
分割单元,将所述待处理图像的前景类通道的掩码卷积核参数与掩码特征图进行卷积处理,以得到所述待处理图像的前景类通道的预测掩码,并根据所述预测掩码对待处理图像进行实例分割。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行如权利要求1-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011449578.7A CN112465800B (zh) | 2020-12-09 | 2020-12-09 | 一种使用分类注意力模块校正分类错误的实例分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011449578.7A CN112465800B (zh) | 2020-12-09 | 2020-12-09 | 一种使用分类注意力模块校正分类错误的实例分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112465800A true CN112465800A (zh) | 2021-03-09 |
CN112465800B CN112465800B (zh) | 2022-07-29 |
Family
ID=74800926
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011449578.7A Active CN112465800B (zh) | 2020-12-09 | 2020-12-09 | 一种使用分类注意力模块校正分类错误的实例分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112465800B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113159057A (zh) * | 2021-04-01 | 2021-07-23 | 湖北工业大学 | 一种图像语义分割方法和计算机设备 |
CN113920411A (zh) * | 2021-10-09 | 2022-01-11 | 成都信息工程大学 | 基于改进SOLOv2的校园场景图像分割方法 |
CN114581670A (zh) * | 2021-11-25 | 2022-06-03 | 哈尔滨工程大学 | 一种基于空间分布注意力的船舶实例分割方法 |
WO2022247486A1 (zh) * | 2021-05-25 | 2022-12-01 | 苏州慧维智能医疗科技有限公司 | 基于无锚框的大肠内窥镜息肉检测与病理分类方法 |
CN116894842A (zh) * | 2023-09-08 | 2023-10-17 | 南方医科大学南方医院 | 肿瘤腹腔种植转移病灶图像处理方法及相关装置 |
CN117593530A (zh) * | 2024-01-19 | 2024-02-23 | 杭州灵西机器人智能科技有限公司 | 一种密集纸箱分割方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190057507A1 (en) * | 2017-08-18 | 2019-02-21 | Samsung Electronics Co., Ltd. | System and method for semantic segmentation of images |
CN110705558A (zh) * | 2019-09-29 | 2020-01-17 | 郑州阿帕斯科技有限公司 | 图像实例分割方法和装置 |
CN111428726A (zh) * | 2020-06-10 | 2020-07-17 | 中山大学 | 基于图神经网络的全景分割方法、系统、设备及存储介质 |
WO2020215236A1 (zh) * | 2019-04-24 | 2020-10-29 | 哈尔滨工业大学(深圳) | 图像语义分割方法和系统 |
-
2020
- 2020-12-09 CN CN202011449578.7A patent/CN112465800B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190057507A1 (en) * | 2017-08-18 | 2019-02-21 | Samsung Electronics Co., Ltd. | System and method for semantic segmentation of images |
WO2020215236A1 (zh) * | 2019-04-24 | 2020-10-29 | 哈尔滨工业大学(深圳) | 图像语义分割方法和系统 |
CN110705558A (zh) * | 2019-09-29 | 2020-01-17 | 郑州阿帕斯科技有限公司 | 图像实例分割方法和装置 |
CN111428726A (zh) * | 2020-06-10 | 2020-07-17 | 中山大学 | 基于图神经网络的全景分割方法、系统、设备及存储介质 |
Non-Patent Citations (4)
Title |
---|
LI LEI 等: ""A deep residual networks classification algorithm of fetal heart CT images"", 《IEEE》 * |
LI LEI 等: ""A deep residual networks classification algorithm of fetal heart CT images"", 《IEEE》, 17 December 2018 (2018-12-17) * |
王惠锋 等: ""一种面向图象语义的主要区域提取方法"", 《中国图象图形学报》 * |
王惠锋 等: ""一种面向图象语义的主要区域提取方法"", 《中国图象图形学报》, 10 January 2003 (2003-01-10) * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113159057A (zh) * | 2021-04-01 | 2021-07-23 | 湖北工业大学 | 一种图像语义分割方法和计算机设备 |
CN113159057B (zh) * | 2021-04-01 | 2022-09-02 | 湖北工业大学 | 一种图像语义分割方法和计算机设备 |
WO2022247486A1 (zh) * | 2021-05-25 | 2022-12-01 | 苏州慧维智能医疗科技有限公司 | 基于无锚框的大肠内窥镜息肉检测与病理分类方法 |
US11954857B2 (en) | 2021-05-25 | 2024-04-09 | Highwise Co, Ltd. | Method for detection and pathological classification of polyps via colonoscopy based on anchor-free technique |
CN113920411A (zh) * | 2021-10-09 | 2022-01-11 | 成都信息工程大学 | 基于改进SOLOv2的校园场景图像分割方法 |
CN114581670A (zh) * | 2021-11-25 | 2022-06-03 | 哈尔滨工程大学 | 一种基于空间分布注意力的船舶实例分割方法 |
CN116894842A (zh) * | 2023-09-08 | 2023-10-17 | 南方医科大学南方医院 | 肿瘤腹腔种植转移病灶图像处理方法及相关装置 |
CN116894842B (zh) * | 2023-09-08 | 2023-12-22 | 南方医科大学南方医院 | 肿瘤腹腔种植转移病灶图像处理方法及相关装置 |
CN117593530A (zh) * | 2024-01-19 | 2024-02-23 | 杭州灵西机器人智能科技有限公司 | 一种密集纸箱分割方法和系统 |
CN117593530B (zh) * | 2024-01-19 | 2024-06-04 | 杭州灵西机器人智能科技有限公司 | 一种密集纸箱分割方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112465800B (zh) | 2022-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112465800B (zh) | 一种使用分类注意力模块校正分类错误的实例分割方法 | |
CN110232394B (zh) | 一种多尺度图像语义分割方法 | |
CN109522816B (zh) | 表格识别方法及装置、计算机存储介质 | |
CN111524137B (zh) | 基于图像识别的细胞识别计数方法、装置和计算机设备 | |
CN111428726A (zh) | 基于图神经网络的全景分割方法、系统、设备及存储介质 | |
CN112465801B (zh) | 一种分尺度提取掩码特征的实例分割方法 | |
CN110781756A (zh) | 基于遥感图像的城市道路提取方法及装置 | |
CN112862774B (zh) | 一种遥感影像建筑物精确分割方法 | |
CN110443357B (zh) | 卷积神经网络计算优化方法、装置、计算机设备及介质 | |
CN114565770B (zh) | 基于边缘辅助计算和掩模注意力的图像分割方法及系统 | |
CN111178367B (zh) | 适应多物件尺寸的特征决定装置及方法 | |
CN111401290A (zh) | 一种人脸检测方法及系统、计算机可读存储介质 | |
CN112700460A (zh) | 图像分割方法及系统 | |
CN114266894A (zh) | 一种图像分割方法、装置、电子设备及存储介质 | |
CN110008949B (zh) | 一种图像目标检测方法、系统、装置和存储介质 | |
CN111199255A (zh) | 基于darknet53网络的小目标检测网络模型及检测方法 | |
CN114581709A (zh) | 识别医学图像中的目标的模型训练、方法、设备及介质 | |
CN114519717A (zh) | 一种图像处理方法及装置、计算机设备、存储介质 | |
CN117437423A (zh) | 基于sam协同学习和跨层特征聚合增强的弱监督医学图像分割方法及装置 | |
CN114943834B (zh) | 一种少标注样本下基于原型队列学习的全场景语义分割方法 | |
CN114638814B (zh) | 基于ct图像的结直肠癌自动分期方法、系统、介质及设备 | |
CN114283431B (zh) | 一种基于可微分二值化的文本检测方法 | |
CN114724175A (zh) | 行人图像的检测网络、检测方法、训练方法、电子设备和介质 | |
CN115131361A (zh) | 目标分割模型的训练、病灶分割方法及装置 | |
CN112949731A (zh) | 基于多专家模型的目标检测方法、装置、存储介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |