CN110490203A - 图像分割方法及装置、电子设备和计算机可读存储介质 - Google Patents

图像分割方法及装置、电子设备和计算机可读存储介质 Download PDF

Info

Publication number
CN110490203A
CN110490203A CN201910602691.5A CN201910602691A CN110490203A CN 110490203 A CN110490203 A CN 110490203A CN 201910602691 A CN201910602691 A CN 201910602691A CN 110490203 A CN110490203 A CN 110490203A
Authority
CN
China
Prior art keywords
sampling
image
split
pond
characteristic set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910602691.5A
Other languages
English (en)
Other versions
CN110490203B (zh
Inventor
陈玥蓉
韩茂琨
王健宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910602691.5A priority Critical patent/CN110490203B/zh
Priority to PCT/CN2019/118294 priority patent/WO2021003936A1/zh
Publication of CN110490203A publication Critical patent/CN110490203A/zh
Application granted granted Critical
Publication of CN110490203B publication Critical patent/CN110490203B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种图像分割方法及装置、电子设备和计算机可读存储介质,涉及人工智能技术领域,其中,该方法包括:获取待分割图像;对所述待分割图像进行卷积、激活和池化处理,得到五个池化特征集合;根据所述待分割图像的预定下采样倍数所对应的上采样方式,对所述五个池化特征集合中的指定池化特征集合进行上采样处理;在所述上采样处理的过程中,根据预测掩模与实际掩模的交并比以及所述待分割图像的原有网络分类的掩模得分,计算掩模总得分;通过smooth L2损失函数基于所述掩模总得分对所述上采样处理的最终结果进行分割,得到分割图像。该技术方案,使得卷积神经网络的输出图像得到像素维度的还原,从而提升了图像语义分割的准确性。

Description

图像分割方法及装置、电子设备和计算机可读存储介质
【技术领域】
本发明涉及人工智能技术领域,尤其涉及一种图像分割方法及装置、电子设备和计算机可读存储介质。
【背景技术】
对于用于分类的卷积神经网络(Convolutional Neural Networks,CNN),往往会在网络的最后加入一些全连接层,全连接层输出的内容经过softmax函数处理后就可以获得类别概率信息。
但是,这个获得类别概率信息是一维的,即只能标识整个图片的类别,不能标识每个像素点的类别,尤其在对图像边缘进行处理的时候,效果很不理想。
因此,如何进一步提升图像语义分割的准确性,成为目前亟待解决的技术问题。
【发明内容】
本发明实施例提供了一种图像分割方法及装置、电子设备和计算机可读存储介质,旨在解决相关技术中图像语义分割的准确性不足的技术问题,能够通过反卷积层取代全连接层以及新增另一个全连接层的方式对图像的每个像素点进行分类,以进一步提升图像语义分割的准确性。
第一方面,本发明实施例提供了一种图像分割方法,包括:获取待分割图像;对所述待分割图像进行卷积、激活和池化处理,得到五个池化特征集合;根据所述待分割图像的预定下采样倍数所对应的上采样方式,对所述五个池化特征集合中的指定池化特征集合进行上采样处理;在所述上采样处理的过程中,根据预测掩模与实际掩模的交并比以及所述待分割图像的原有网络分类的掩模得分,计算掩模总得分;通过smooth L2损失函数基于所述掩模总得分对所述上采样处理的最终结果进行分割,得到分割图像。
在本发明上述实施例中,可选地,所述根据所述待分割图像的预定下采样倍数所对应的上采样方式,对所述五个池化特征集合中的指定池化特征集合进行上采样处理的步骤,包括:在所述待分割图像的所述预定下采样倍数为32倍的情况下,对所述五个池化特征集合中的第五池化特征集合进行32倍上采样处理。
在本发明上述实施例中,可选地,所述根据所述待分割图像的预定下采样倍数所对应的上采样方式,对所述五个池化特征集合中的指定池化特征集合进行上采样处理的步骤,包括:在所述待分割图像的所述预定下采样倍数为16倍的情况下,对所述五个池化特征集合中的第五池化特征集合进行2倍上采样处理,得到第一上采样特征集合;将所述第一上采样特征集合与所述五个池化特征集合中的第四池化特征集合进行融合,得到所述上采样处理的所述最终结果。
在本发明上述实施例中,可选地,所述根据所述待分割图像的预定下采样倍数所对应的上采样方式,对所述五个池化特征集合中的指定池化特征集合进行上采样处理的步骤,包括:在所述待分割图像的所述预定下采样倍数为8倍的情况下,对所述五个池化特征集合中的第五池化特征集合进行2倍上采样处理,得到第一上采样特征集合;将所述第一上采样特征集合与所述五个池化特征集合中的第四池化特征集合进行融合,得到融合结果;对所述融合结果进行2倍上采样处理,得到第二上采样特征集合;将所述第二上采样特征集合与所述五个池化特征集合中的第三池化特征集合进行融合,得到所述上采样处理的所述最终结果。
在本发明上述实施例中,可选地,所述上采样处理包括内插值处理和反褶积处理。
第二方面,本发明实施例提供了一种图像分割装置,包括:图像获取单元,用于获取待分割图像;下采样处理单元,用于对所述待分割图像进行卷积、激活和池化处理,得到五个池化特征集合;上采样处理单元,用于根据所述待分割图像的预定下采样倍数所对应的上采样方式,对所述五个池化特征集合中的指定池化特征集合进行上采样处理;掩模总得分计算单元,用于在所述上采样处理的过程中,根据预测掩模与实际掩模的交并比以及所述待分割图像的原有网络分类的掩模得分,计算掩模总得分;图像分割单元,用于通过smooth L2损失函数基于所述掩模总得分对所述上采样处理的最终结果进行分割,得到分割图像。
在本发明上述实施例中,可选地,所述上采样处理单元包括:第一处理单元,用于在所述待分割图像的所述预定下采样倍数为32倍的情况下,对所述五个池化特征集合中的第五池化特征集合进行32倍上采样处理。
在本发明上述实施例中,可选地,所述上采样处理单元包括:第二处理单元,在所述待分割图像的所述预定下采样倍数为16倍的情况下,对所述五个池化特征集合中的第五池化特征集合进行2倍上采样处理,得到第一上采样特征集合;第一融合单元,用于将所述第一上采样特征集合与所述五个池化特征集合中的第四池化特征集合进行融合,得到所述上采样处理的所述最终结果。
在本发明上述实施例中,可选地,所述上采样处理单元包括:第二处理单元,用于在所述待分割图像的所述预定下采样倍数为8倍的情况下,对所述五个池化特征集合中的第五池化特征集合进行2倍上采样处理,得到第一上采样特征集合;第一融合单元,用于将所述第一上采样特征集合与所述五个池化特征集合中的第四池化特征集合进行融合,得到融合结果;第三处理单元,用于对所述融合结果进行2倍上采样处理,得到第二上采样特征集合;第二融合单元,用于将所述第二上采样特征集合与所述五个池化特征集合中的第三池化特征集合进行融合,得到所述上采样处理的所述最终结果。
在本发明上述实施例中,可选地,所述上采样处理包括内插值处理和反褶积处理。
第三方面,本发明实施例提供了一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行上述第一方面中任一项所述的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行上述第一方面中任一项所述的方法流程。
通过以上技术方案,针对相关技术中图像语义分割的准确性不足的技术问题,能够通过反卷积层取代全连接层的方式对图像的每个像素点进行分类。
具体来说,在本技术方案中,卷积神经网络包括卷积层、激活层和池化层,还包括取代了原有的全连接层的反卷积层,其中,在获得了待分割图像后,可通过卷积层将待分割图像中的特征,也就是像素点,按照不同的特征类型或者说主体进行分类,接着,通过激活层突出分类结果中的重要特征,再通过池化层将来自激活层的数据进行缩小参数矩阵的尺寸的处理,从而实现数据的缩减,减少下一步待处理的参数的数量,既可以加快计算速度,也可以防止过拟合。
在相关技术的卷积神经网络中,通过每步卷积后,输出的图像尺寸会逐渐降低,最终到达全连接层时,获得的类别概率信息是一维的,即只能标识整个图片的类别,不能标识每个像素点的类别,尤其在对图像边缘进行处理的时候,效果很不理想。因此,在本发明的技术方案中,通过反卷积层取代全连接层,由于反卷积相当于把普通卷积反过来,比如,输入蓝色2x2矩阵,卷积核大小还是3x3。当设置反卷积参数pad=0,stride=1时输出绿色4x4矩阵,这相当于完全将卷积倒过来,其中,卷积即为下采样处理,而反卷积即为上采样处理。
因此,在每步反卷积也就是上采样处理后,输出的图像的维度会逐步还原回去,那么对于每一个像素点来说,其特征经过每一次反卷积,都会更加准确。故通过本发明的技术方案,使得卷积神经网络的输出图像得到像素维度的还原,从而便于对输出图像的特征进行有效分类,提升了图像语义分割的准确性。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出了本发明的一个实施例的图像分割方法的流程图;
图2示出了本发明的一个实施例的进行图像分割的示意图;
图3示出了本发明的另一个实施例的图像分割方法的流程图;
图4示出了本发明的一个实施例的图像分割装置的框图;
图5示出了本发明的一个实施例的电子设备的框图。
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
图1示出了本发明的一个实施例的图像分割方法的流程图。
如图1所示,本发明的一个实施例的图像分割方法的流程包括:
步骤102,获取待分割图像。
步骤104,对所述待分割图像进行卷积、激活和池化处理,得到五个池化特征集合。
卷积神经网络包括卷积层、激活层和池化层,还包括取代了原有的全连接层的反卷积层,其中,在获得了待分割图像后,可通过卷积层将待分割图像中的特征,也就是像素点,按照不同的特征类型或者说主体进行分类,接着,通过激活层突出分类结果中的重要特征,再通过池化层将来自激活层的数据进行缩小参数矩阵的尺寸的处理,从而实现数据的缩减,减少下一步待处理的参数的数量,既可以加快计算速度,也可以防止过拟合。
步骤106,根据所述待分割图像的预定下采样倍数所对应的上采样方式,对所述五个池化特征集合中的指定池化特征集合进行上采样处理。
在相关技术的卷积神经网络中,通过每步卷积后,输出的图像尺寸会逐渐降低,最终到达全连接层时,获得的类别概率信息是一维的,即只能标识整个图片的类别,不能标识每个像素点的类别,尤其在对图像边缘进行处理的时候,效果很不理想。因此,在本发明的技术方案中,通过反卷积层取代全连接层,由于反卷积相当于把普通卷积反过来,比如,输入蓝色2x2矩阵,卷积核大小还是3x3。当设置反卷积参数pad=0,stride=1时输出绿色4x4矩阵,这相当于完全将卷积倒过来,其中,卷积即为下采样处理,而反卷积即为上采样处理。
因此,在每步反卷积也就是上采样处理后,输出的图像的维度会逐步还原回去,那么对于每一个像素点来说,其特征经过每一次反卷积,都会更加准确。故通过本发明的技术方案,使得卷积神经网络的输出图像得到像素维度的还原,从而便于对输出图像的特征进行有效分类,提升了图像语义分割的准确性。
其中,所述上采样处理包括内插值处理和反褶积处理。其中,内插值处理指的是在原有图像像素的基础上在像素点之间采用合适的插值算法插入新的元素,反褶积处理指的是通过压缩基本子波来提高数据垂向分辨率。由此可知,这两种方式均能够有效提升图像的精确度。
步骤108,在所述上采样处理的过程中,根据预测掩模与实际掩模的交并比以及所述待分割图像的原有网络分类的掩模得分,计算掩模总得分;
步骤110,通过smooth L2损失函数基于所述掩模总得分对所述上采样处理的最终结果进行分割,得到分割图像。
在每步反卷积也就是上采样处理后,增加全连接层,去预测mask iou,然后使用smooth L2损失函数去回归mask iou。smooth L2损失函数的权重是设置为1时,图像分割效果最优。具体来说,在所述上采样处理的过程中,需要根据预测掩模(prediction mask)与实际掩模(ground truth mask)的交并比(iou)以及所述待分割图像的原有网络分类的掩模得分,计算掩模总得分(mask score),其中,交并比指的是两个边界框交集和并集之比,两个边界框的并集是a区域,而交集就是b区域,那么交并比等于预测掩模与实际掩模的交并比以及待分割图像的原有网络分类的掩模得分的乘积,这样一来,对分类得分高的情况,若计算所用的交并比低,就会惩罚掩模总得分的分支。由此,即可在上采样过程中将掩模总得分训练至优化,得到优化上采样结果。
最终,用于通过smooth L2损失函数基于所述掩模总得分对所述上采样处理的最终结果进行分割,得到分割图像。smooth L2损失函数也被称为最小平方误差。总的来说,它是把目标值与估计值的差值的平方和最小化,会让特征的权重不过大,使得特征的权重比较平均,从而有助于得到效果优化的分割图像。
另外,在本申请的一种实现方式中,可选地,还可以结合smooth L2损失函数与softmax函数共同进行图像分割,即在smooth L2损失函数的分割结果的技术上,使用softmax函数再进行精确分割。softmax函数或称归一化指数函数,为有限项离散概率分布的梯度对数归一化,softmax将多个神经元的输出,映射到(0,1)区间内,可以看成是当前输出是属于各个分类的概率,从而便于选取概率最大的分类作为预测的目标。相对于其他可完成最大值选取的函数,softmax中使用了指数,这样可以让大的值更大,让小的更小,增加了区分对比度,使得神经网络的学习效率更高。
通过以上技术方案,针对相关技术中图像语义分割的准确性不足的技术问题,能够通过反卷积层取代全连接层、以及额外增加另一全连接层的方式,对图像的每个像素点进行分类,可提升图像语义分割的准确性。
图2示出了本发明的一个实施例的进行图像分割的示意图。
如图2所示,w代表宽度,h代表高度,则长和宽分别为w和h的待分割图像(image)经卷积和池化,生成第一池化特征集合(pool1),长和宽缩减为w/2和h/2,第一池化特征集合经卷积和池化,生成第二池化特征集合(pool2),长和宽缩减为w/4和h/4,第二池化特征集合经卷积和池化,生成第三池化特征集合(pool3),长和宽缩减为w/8和h/8,第三池化特征集合经卷积和池化,生成第四池化特征集合(pool4),长和宽缩减为w/16和h/16,第四池化特征集合经卷积和池化,生成第五池化特征集合(pool5),长和宽缩减为w/32和h/32。此时,画面的分辨率随着长和宽的缩减,也大大缩减,造成图像质量降低。
因此,可采用反卷积也就是上采样处理,由于反卷积相当于把普通卷积反过来,比如,输入蓝色2x2矩阵,卷积核大小还是3x3。当设置反卷积参数pad=0,stride=1时输出绿色4x4矩阵,这相当于完全将卷积倒过来。由此可知,上采样处理可以将原本的分辨率进行增大,而应用于卷积和池化后的池化特征集合,则能够实现池化特征集合的分辨率还原。
具体来说,在所述待分割图像的所述预定下采样倍数为32倍的情况下,对所述五个池化特征集合中的第五池化特征集合进行32倍上采样处理,再对32倍上采样处理得到的结果进行softmax分割,从而实现对第五池化特征集合的32倍还原,提升了32倍上采样处理得到的结果的精确度。
在所述待分割图像的所述预定下采样倍数为16倍的情况下,对所述五个池化特征集合中的第五池化特征集合进行2倍上采样处理,得到第一上采样特征集合;将所述第一上采样特征集合与所述五个池化特征集合中的第四池化特征集合进行融合,得到所述上采样处理的所述最终结果,再对所述最终结果进行softmax分割,从而实现对第四池化特征集合的还原,提升了16倍上采样处理得到的结果的精确度。
单纯对第四池化特征集合的16倍还原可在一定程度上提升结果的精确度,但是,由于已生成第五池化特征集合,也就是说,由于已将第四池化特征集合进一步筛选和突出在32倍下采样的第五池化特征集合中,故可以对其有效利用,将其2倍还原至长和宽分别为w/16和h/16,即与第四池化特征集合具有同样的长和宽,从而可与第四池化特征集合融合,融合后进行16倍上采样处理。这里所述的融合,指的是将第四池化特征集合的像素点的特征与第五池化特征集合2倍上采样后得到的像素点的特征进行逐个合并。
因此,相对于单纯对第四池化特征集合的16倍还原进一步提升了上采样处理结果的精确性,有利于对图像边缘的进一步锐化,提升了对图像边缘的分类的准确性。
在所述待分割图像的所述预定下采样倍数为8倍的情况下,对所述五个池化特征集合中的第五池化特征集合进行2倍上采样处理,得到第一上采样特征集合;将所述第一上采样特征集合与所述五个池化特征集合中的第四池化特征集合进行融合,得到融合结果;对所述融合结果进行2倍上采样处理,得到第二上采样特征集合;将所述第二上采样特征集合与所述五个池化特征集合中的第三池化特征集合进行融合,得到所述上采样处理的所述最终结果,再对所述最终结果进行softmax分割,从而实现对第三池化特征集合的还原,提升了8倍上采样处理得到的结果的精确度。
单纯对第三池化特征集合的8倍上采样可在一定程度上提升结果的精确度,但是,由于已生成第四池化特征集合和第五池化特征集合,也就是说,由于已将第三池化特征集合进一步筛选和突出在16倍下采样的第四池化特征集合中,并已将第四池化特征集合进一步筛选和突出在32倍下采样的第五池化特征集合中,故可以对这些下采样结果进行有效利用,将第五池化特征集合2倍还原至长和宽分别为w/16和h/16,即与第四池化特征集合具有同样的长和宽,从而可直接与第四池化特征集合融合,融合后进行16倍上采样处理。这里所述的融合,指的是将第四池化特征集合的像素点的特征与第五池化特征集合2倍上采样后得到的像素点的特征进行逐个合并,从而完成了对第四池化特征集合的像素点的一次特征修正,使其特征更具分类性。接着,可将融合后的结果2倍上采样后还原至长和宽分别为w/8和h/8,与第三池化特征集合具有相同的长和宽,便于与第三池化特征集合融合,融合后进行8倍上采样处理,从而可通过第四池化特征集合和第五池化特征集合筛选和突出后的特征对第三池化特征集合内像素点的特征进行修正,使得最终的融合结果内的像素点的特征更加准确,适于分类。
因此,相对于单纯对第三池化特征集合的8倍还原,可进一步提升了上采样处理结果的精确性,有利于对图像边缘的进一步锐化,提升了对图像边缘的分类的准确性。
图3示出了本发明的另一个实施例的图像分割方法的流程图。
如图3所示,本发明的另一个实施例的图像分割方法的流程包括:
步骤302,获取待分割图像。
步骤304,对所述待分割图像进行卷积、激活和池化处理,得到五个池化特征集合。
步骤306,根据所述待分割图像的预定下采样倍数所对应的上采样方式,对所述五个池化特征集合中的指定池化特征集合进行上采样处理。
步骤308,判断所述上采样处理内的融合次数是否与所述预定下采样倍数的指定融合次数相同,在判断结果为是时,进入步骤310,在判断结果为否时,返回步骤306,继续进行包含融合过程的上采样处理。
结合图2示出的实施例可知,在所述待分割图像的所述预定下采样倍数为32倍的情况下,由于第五池化特征集合后没有后续更精确的特征集合,故仅上采样处理一次即可,对应的指定融合次数为0次。在所述待分割图像的所述预定下采样倍数为16倍的情况下,由于第四池化特征集合后具有特征更精确的第五池化特征集合,故需要与第五池化特征集合的2倍上采样结果进行1次融合。同理,在所述待分割图像的所述预定下采样倍数为16倍的情况下,由于第三池化特征集合后具有特征更精确的第四池化特征集合和第五池化特征集合,需要进行2次融合。
因此,每种预定下采样倍数对应有需达成的融合次数,故可通过对上采样处理过程中的融合次数的检验,确定是否可结束上采样处理步骤进入图像分割步骤,并避免在融合次数未达标也就是特征还原水平不足时输出上采样结果,通过此种对上采样处理的有效监控,可进一步保证最终结果的准确性。
步骤310,通过smooth L2损失函数和softmax函数对所述上采样处理的最终结果进行分割,得到分割图像。
在每步反卷积也就是上采样处理后,增加全连接层,去预测mask iou,然后使用smooth L2损失函数去回归mask iou。smooth L2损失函数的权重是设置为1时,图像分割效果最优。具体来说,在所述上采样处理的过程中,需要根据预测掩模(prediction mask)与实际掩模(ground truth mask)的交并比(iou)以及所述待分割图像的原有网络分类的掩模得分,计算掩模总得分(mask score),其中,交并比指的是两个边界框交集和并集之比,两个边界框的并集是a区域,而交集就是b区域,那么交并比等于预测掩模与实际掩模的交并比以及待分割图像的原有网络分类的掩模得分的乘积,这样一来,对分类得分高的情况,若计算所用的交并比低,就会惩罚掩模总得分的分支。由此,即可在上采样过程中将掩模总得分训练至优化,得到优化上采样结果。
最终,用于通过smooth L2损失函数基于所述掩模总得分对所述上采样处理的最终结果进行分割,得到分割图像。smooth L2损失函数也被称为最小平方误差。总的来说,它是把目标值与估计值的差值的平方和最小化,会让特征的权重不过大,使得特征的权重比较平均,从而能够通过反卷积层取代全连接层、以及额外增加另一全连接层的方式,得到效果优化的分割图像。
在smooth L2损失函数的分割结果的技术上,使用softmax函数再进行精确分割。softmax函数或称归一化指数函数,为有限项离散概率分布的梯度对数归一化,softmax将多个神经元的输出,映射到(0,1)区间内,可以看成是当前输出是属于各个分类的概率,从而便于选取概率最大的分类作为预测的目标。相对于其他可完成最大值选取的函数,softmax中使用了指数,这样可以让大的值更大,让小的更小,增加了区分对比度,使得神经网络的学习效率更高。
综上,通过反卷积层取代全连接层的方式、以及额外增加另一全连接层的方式,对图像的每个像素点进行分类,可提升图像语义分割的准确性。
图4示出了本发明的一个实施例的图像分割装置的框图。
如图4所示,本发明的一个实施例的图像分割装置400包括:图像获取单元402,用于获取待分割图像;下采样处理单元404,用于对所述待分割图像进行卷积、激活和池化处理,得到五个池化特征集合;上采样处理单元406,用于根据所述待分割图像的预定下采样倍数所对应的上采样方式,对所述五个池化特征集合中的指定池化特征集合进行上采样处理;掩模总得分计算单元408,用于在所述上采样处理的过程中,根据预测掩模与实际掩模的交并比以及所述待分割图像的原有网络分类的掩模得分,计算掩模总得分;图像分割单元410,用于通过smooth L2损失函数基于所述掩模总得分对所述上采样处理的最终结果进行分割,得到分割图像。
在本发明上述实施例中,可选地,所述上采样处理单元406包括:第一处理单元,用于在所述待分割图像的所述预定下采样倍数为32倍的情况下,对所述五个池化特征集合中的第五池化特征集合进行32倍上采样处理。
在本发明上述实施例中,可选地,所述上采样处理单元406包括:第二处理单元,在所述待分割图像的所述预定下采样倍数为16倍的情况下,对所述五个池化特征集合中的第五池化特征集合进行2倍上采样处理,得到第一上采样特征集合;第一融合单元,用于将所述第一上采样特征集合与所述五个池化特征集合中的第四池化特征集合进行融合,得到所述上采样处理的所述最终结果。
在本发明上述实施例中,可选地,所述上采样处理单元406包括:第二处理单元,用于在所述待分割图像的所述预定下采样倍数为8倍的情况下,对所述五个池化特征集合中的第五池化特征集合进行2倍上采样处理,得到第一上采样特征集合;第一融合单元,用于将所述第一上采样特征集合与所述五个池化特征集合中的第四池化特征集合进行融合,得到融合结果;第三处理单元,用于对所述融合结果进行2倍上采样处理,得到第二上采样特征集合;第二融合单元,用于将所述第二上采样特征集合与所述五个池化特征集合中的第三池化特征集合进行融合,得到所述上采样处理的所述最终结果。
在本发明上述实施例中,可选地,所述上采样处理包括内插值处理和反褶积处理。
该图像分割装置400使用图1至图3示出的实施例中任一项所述的方案,因此,具有上述所有技术效果,在此不再赘述。
图5示出了本发明的一个实施例的电子设备的框图。
如图5所示,本发明的一个实施例的电子设备500,包括至少一个存储器502;以及,与所述至少一个存储器502通信连接的处理器504;其中,所述存储器存储有可被所述至少一个处理器504执行的指令,所述指令被设置为用于执行上述图1至图3实施例中任一项所述的方案。因此,该电子设备500具有和图1至图3实施例中任一项相同的技术效果,在此不再赘述。
本发明实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
另外,本发明实施例提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行上述图1至图3实施例中任一项所述的方法流程。
以上结合附图详细说明了本发明的技术方案,通过本发明的技术方案,使得卷积神经网络的输出图像得到像素维度的还原,从而便于对输出图像的特征进行有效分类,提升了图像语义分割的准确性。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应当理解,尽管在本发明实施例中可能采用术语第一、第二等来描述池化特征集合,但这些池化特征集合不应限于这些术语。这些术语仅用来将池化特征集合彼此区分开。例如,在不脱离本发明实施例范围的情况下,第一池化特征集合也可以被称为第二池化特征集合,类似地,第二池化特征集合也可以被称为第一池化特征集合。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种图像分割方法,其特征在于,包括:
获取待分割图像;
对所述待分割图像进行卷积、激活和池化处理,得到五个池化特征集合;
根据所述待分割图像的预定下采样倍数所对应的上采样方式,对所述五个池化特征集合中的指定池化特征集合进行上采样处理;
在所述上采样处理的过程中,根据预测掩模与实际掩模的交并比以及所述待分割图像的原有网络分类的掩模得分,计算掩模总得分;
通过smooth L2损失函数基于所述掩模总得分对所述上采样处理的最终结果进行分割,得到分割图像。
2.根据权利要求1所述的图像分割方法,其特征在于,所述根据所述待分割图像的预定下采样倍数所对应的上采样方式,对所述五个池化特征集合中的指定池化特征集合进行上采样处理的步骤,包括:
在所述待分割图像的所述预定下采样倍数为32倍的情况下,对所述五个池化特征集合中的第五池化特征集合进行32倍上采样处理。
3.根据权利要求1所述的图像分割方法,其特征在于,所述根据所述待分割图像的预定下采样倍数所对应的上采样方式,对所述五个池化特征集合中的指定池化特征集合进行上采样处理的步骤,包括:
在所述待分割图像的所述预定下采样倍数为16倍的情况下,对所述五个池化特征集合中的第五池化特征集合进行2倍上采样处理,得到第一上采样特征集合;
将所述第一上采样特征集合与所述五个池化特征集合中的第四池化特征集合进行融合,得到所述上采样处理的所述最终结果。
4.根据权利要求1所述的图像分割方法,其特征在于,所述根据所述待分割图像的预定下采样倍数所对应的上采样方式,对所述五个池化特征集合中的指定池化特征集合进行上采样处理的步骤,包括:
在所述待分割图像的所述预定下采样倍数为8倍的情况下,对所述五个池化特征集合中的第五池化特征集合进行2倍上采样处理,得到第一上采样特征集合;
将所述第一上采样特征集合与所述五个池化特征集合中的第四池化特征集合进行融合,得到融合结果;
对所述融合结果进行2倍上采样处理,得到第二上采样特征集合;
将所述第二上采样特征集合与所述五个池化特征集合中的第三池化特征集合进行融合,得到所述上采样处理的所述最终结果。
5.根据权利要求1至4中任一项所述的图像分割方法,其特征在于,
所述上采样处理包括内插值处理和反褶积处理。
6.一种图像分割装置,其特征在于,包括:
图像获取单元,用于获取待分割图像;
下采样处理单元,用于对所述待分割图像进行卷积、激活和池化处理,得到五个池化特征集合;
上采样处理单元,用于根据所述待分割图像的预定下采样倍数所对应的上采样方式,对所述五个池化特征集合中的指定池化特征集合进行上采样处理;
掩模总得分计算单元,用于在所述上采样处理的过程中,根据预测掩模与实际掩模的交并比以及所述待分割图像的原有网络分类的掩模得分,计算掩模总得分;
图像分割单元,用于通过smooth L2损失函数基于所述掩模总得分对所述上采样处理的最终结果进行分割,得到分割图像。
7.根据权利要求6所述的图像分割装置,其特征在于,所述上采样处理单元包括:
第一处理单元,用于在所述待分割图像的所述预定下采样倍数为32倍的情况下,对所述五个池化特征集合中的第五池化特征集合进行32倍上采样处理。
8.根据权利要求6所述的图像分割装置,其特征在于,所述上采样处理单元包括:
第二处理单元,在所述待分割图像的所述预定下采样倍数为16倍的情况下,对所述五个池化特征集合中的第五池化特征集合进行2倍上采样处理,得到第一上采样特征集合;
第一融合单元,用于将所述第一上采样特征集合与所述五个池化特征集合中的第四池化特征集合进行融合,得到所述上采样处理的所述最终结果。
9.一种电子设备,其特征在于,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行上述权利要求1至5中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,存储有计算机可执行指令,所述计算机可执行指令用于执行如权利要求1至5中任一项所述的方法流程。
CN201910602691.5A 2019-07-05 2019-07-05 图像分割方法及装置、电子设备和计算机可读存储介质 Active CN110490203B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910602691.5A CN110490203B (zh) 2019-07-05 2019-07-05 图像分割方法及装置、电子设备和计算机可读存储介质
PCT/CN2019/118294 WO2021003936A1 (zh) 2019-07-05 2019-11-14 图像分割方法、电子设备和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910602691.5A CN110490203B (zh) 2019-07-05 2019-07-05 图像分割方法及装置、电子设备和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110490203A true CN110490203A (zh) 2019-11-22
CN110490203B CN110490203B (zh) 2023-11-03

Family

ID=68546051

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910602691.5A Active CN110490203B (zh) 2019-07-05 2019-07-05 图像分割方法及装置、电子设备和计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN110490203B (zh)
WO (1) WO2021003936A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340820A (zh) * 2020-02-10 2020-06-26 中国科学技术大学 图像分割方法、装置、电子设备及存储介质
CN111340813A (zh) * 2020-02-25 2020-06-26 北京字节跳动网络技术有限公司 图像实例分割方法、装置、电子设备及存储介质
CN111523548A (zh) * 2020-04-24 2020-08-11 北京市商汤科技开发有限公司 一种图像语义分割、智能行驶控制方法及装置
CN112150470A (zh) * 2020-09-22 2020-12-29 平安科技(深圳)有限公司 图像分割方法、装置、介质及电子设备
CN113160263A (zh) * 2021-03-30 2021-07-23 电子科技大学 一种基于yolact实例分割的改进方法
CN113744276A (zh) * 2020-05-13 2021-12-03 Oppo广东移动通信有限公司 图像处理方法、图像处理装置、电子设备和可读存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114638841A (zh) * 2022-02-25 2022-06-17 河南中原动力智能制造有限公司 一种图像分割方法、装置、移动终端及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108230329A (zh) * 2017-12-18 2018-06-29 孙颖 基于多尺度卷积神经网络的语义分割方法
CN109584251A (zh) * 2018-12-06 2019-04-05 湘潭大学 一种基于单目标区域分割的舌体图像分割方法
CN109636807A (zh) * 2018-11-27 2019-04-16 宿州新材云计算服务有限公司 一种图像分割与像素复原的葡萄病害叶片分割法
US20190130189A1 (en) * 2017-10-30 2019-05-02 Qualcomm Incorporated Suppressing duplicated bounding boxes from object detection in a video analytics system
CN109784283A (zh) * 2019-01-21 2019-05-21 陕西师范大学 基于场景识别任务下的遥感图像目标提取方法
CN109800735A (zh) * 2019-01-31 2019-05-24 中国人民解放军国防科技大学 一种船目标精确检测与分割方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108171663B (zh) * 2017-12-22 2021-05-25 哈尔滨工业大学 基于特征图最近邻替换的卷积神经网络的图像填充系统
US10304193B1 (en) * 2018-08-17 2019-05-28 12 Sigma Technologies Image segmentation and object detection using fully convolutional neural network
CN109816011B (zh) * 2019-01-21 2021-09-07 厦门美图之家科技有限公司 视频关键帧提取方法
CN109886971A (zh) * 2019-01-24 2019-06-14 西安交通大学 一种基于卷积神经网络的图像分割方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190130189A1 (en) * 2017-10-30 2019-05-02 Qualcomm Incorporated Suppressing duplicated bounding boxes from object detection in a video analytics system
CN108230329A (zh) * 2017-12-18 2018-06-29 孙颖 基于多尺度卷积神经网络的语义分割方法
CN109636807A (zh) * 2018-11-27 2019-04-16 宿州新材云计算服务有限公司 一种图像分割与像素复原的葡萄病害叶片分割法
CN109584251A (zh) * 2018-12-06 2019-04-05 湘潭大学 一种基于单目标区域分割的舌体图像分割方法
CN109784283A (zh) * 2019-01-21 2019-05-21 陕西师范大学 基于场景识别任务下的遥感图像目标提取方法
CN109800735A (zh) * 2019-01-31 2019-05-24 中国人民解放军国防科技大学 一种船目标精确检测与分割方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
GDTOP818: "《Mask Scoring R-CNN[详解]》", pages 2, Retrieved from the Internet <URL:https://blog.csdn.net/weixin_ 37993251/article/details/88248361> *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340820A (zh) * 2020-02-10 2020-06-26 中国科学技术大学 图像分割方法、装置、电子设备及存储介质
CN111340820B (zh) * 2020-02-10 2022-05-17 中国科学技术大学 图像分割方法、装置、电子设备及存储介质
CN111340813A (zh) * 2020-02-25 2020-06-26 北京字节跳动网络技术有限公司 图像实例分割方法、装置、电子设备及存储介质
CN111340813B (zh) * 2020-02-25 2023-09-01 北京字节跳动网络技术有限公司 图像实例分割方法、装置、电子设备及存储介质
CN111523548A (zh) * 2020-04-24 2020-08-11 北京市商汤科技开发有限公司 一种图像语义分割、智能行驶控制方法及装置
CN111523548B (zh) * 2020-04-24 2023-11-28 北京市商汤科技开发有限公司 一种图像语义分割、智能行驶控制方法及装置
CN113744276A (zh) * 2020-05-13 2021-12-03 Oppo广东移动通信有限公司 图像处理方法、图像处理装置、电子设备和可读存储介质
CN112150470A (zh) * 2020-09-22 2020-12-29 平安科技(深圳)有限公司 图像分割方法、装置、介质及电子设备
CN112150470B (zh) * 2020-09-22 2023-10-03 平安科技(深圳)有限公司 图像分割方法、装置、介质及电子设备
CN113160263A (zh) * 2021-03-30 2021-07-23 电子科技大学 一种基于yolact实例分割的改进方法

Also Published As

Publication number Publication date
CN110490203B (zh) 2023-11-03
WO2021003936A1 (zh) 2021-01-14

Similar Documents

Publication Publication Date Title
CN110490203A (zh) 图像分割方法及装置、电子设备和计算机可读存储介质
CN109859190B (zh) 一种基于深度学习的目标区域检测方法
CN112651438A (zh) 多类别图像的分类方法、装置、终端设备和存储介质
CN110990631A (zh) 视频筛选方法、装置、电子设备和存储介质
CN105930402A (zh) 基于卷积神经网络的视频检索方法及系统
CN108229341A (zh) 分类方法和装置、电子设备、计算机存储介质、程序
KR20180048930A (ko) 분류를 위한 강제된 희소성
CN113822209B (zh) 高光谱图像识别方法、装置、电子设备及可读存储介质
Zhang et al. ReYOLO: A traffic sign detector based on network reparameterization and features adaptive weighting
CN114511576B (zh) 尺度自适应特征增强深度神经网络的图像分割方法与系统
CN112926429B (zh) 机审模型训练、视频机审方法、装置、设备及存储介质
CN107832794A (zh) 一种卷积神经网络生成方法、车系识别方法及计算设备
CN111639230B (zh) 一种相似视频的筛选方法、装置、设备和存储介质
CN115272794A (zh) 模型训练方法、计算机设备及存储介质
CN115223042A (zh) 基于YOLOv5网络模型的目标识别方法及装置
CN108154120A (zh) 视频分类模型训练方法、装置、存储介质及电子设备
CN110489955A (zh) 应用于电子设备的图像处理、装置、计算设备、介质
CN112418256A (zh) 分类、模型训练、信息搜索方法、系统及设备
Wei et al. A study on Shine-Muscat grape detection at maturity based on deep learning
CN111340139B (zh) 一种图像内容复杂度的判别方法及装置
Wen et al. Application of improved YOLOv7-based sugarcane stem node recognition algorithm in complex environments
CN111126501A (zh) 一种图像识别方法、终端设备及存储介质
Mao et al. ChaInNet: deep chain instance segmentation network for panoptic segmentation
Zhang et al. A small target detection algorithm based on improved YOLOv5 in aerial image
CN115205624A (zh) 一种跨维度注意力聚合的云雪辩识方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant