CN111489357A - 一种图像分割方法、装置、设备及存储介质 - Google Patents

一种图像分割方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111489357A
CN111489357A CN201910087598.5A CN201910087598A CN111489357A CN 111489357 A CN111489357 A CN 111489357A CN 201910087598 A CN201910087598 A CN 201910087598A CN 111489357 A CN111489357 A CN 111489357A
Authority
CN
China
Prior art keywords
image
picture
neural network
segmentation
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910087598.5A
Other languages
English (en)
Inventor
王俊东
梁柱锦
张壮辉
梁德澎
张树业
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Baiguoyuan Information Technology Co Ltd
Original Assignee
Guangzhou Baiguoyuan Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Baiguoyuan Information Technology Co Ltd filed Critical Guangzhou Baiguoyuan Information Technology Co Ltd
Priority to CN201910087598.5A priority Critical patent/CN111489357A/zh
Publication of CN111489357A publication Critical patent/CN111489357A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/187Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种图像分割方法、装置、设备及存储介质。该方法包括:获取原始图片;将原始图片输入图像分割模型,得到原始图片的图像语义分割图,图像分割模型基于超像素分割算法和全卷积神经网络联合训练生成。本发明实施例通过采用超像素分割算法和全卷积神经网络训练生成的图像分割模型对原始图片进行图像语义分割时,由于识别出了原始图片的底层特征,使得生成的图像语义分割图边缘定位准确且空间一致性好,并且由于超像素分割算法仅参与图像分割模型的训练生成过程,而不参与采用图像分割模型进行图像语义分割图的生成过程,因此,相比于仅基于全卷积神经网络训练生成的图像分割模型而言,实现了在不增加计算开销的基础上,提高了模型的预测精度。

Description

一种图像分割方法、装置、设备及存储介质
技术领域
本发明实施例涉及计算机视觉技术,尤其涉及一种图像分割方法、装置、设备及存储介质。
背景技术
近年来,随着计算机硬件性能的提升和大规模图像数据的出现,深度学习在计算机视觉领域得到广泛应用。其中,全卷积神经网络是在计算机视觉领域具有突出成就的一个深度学习的神经网络结构。
图像语义分割是计算机视觉中三大核心研究问题之一,也是最具有难度的问题。图像语义分割是将图片中的每个像素分类按照其所属种类进行分类,最后得到包含语义信息的分割图像,即将图片中每个像素分类为预定义的特定类别以及背景类。针对图像语义分割来说,全卷积神经网络也在图像语义分割方面得到广泛应用,即采用基于全卷积神经网络训练生成的图像分割模型进行图像语义分割。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:其一、无法对图片边缘进行精确定位。所谓图片边缘可以图片中一个属性区域和另一个属性区域的交接处,是属性发生突变的位置,每个属性区域中颜色、亮度、纹理和梯度等底层特征相似。而全卷积神经网络由于缺乏对图片的颜色、亮度、纹理和梯度等底层特征的识别能力,因此,使得基于全卷积神经网络训练生成的图像分割模型无法实现图片边缘的精确定位;其二、缺乏空间一致性。所谓空间一致性可以理解为图片中颜色、亮度、纹理和梯度等底层特征相似的像素应属于同一分类。而全卷积神经网络由于没有充分考虑具有相似底层特征的像素之间的关联性,而使得基于全卷积神经网络训练生成的图像分割模型无法将属于同一分类的物体识别完整,即缺乏空间一致性。上述存在的问题使得基于全卷积神经网络训练生成的图像分割模型的预测精度不高。
发明内容
本发明实施例提供一种图像分割方法、装置、设备及存储介质,以在不增加计算开销的基础上,提高图像分割模型的预测精度。
第一方面,本发明实施例提供了一种图像分割方法,该方法包括:
获取原始图片;
将所述原始图片输入图像分割模型,得到原始图片的图像语义分割图,所述图像语义分割模型基于超像素分割算法和全卷积神经网络联合训练生成。
第二方面,本发明实施例还提供了一种图像分割装置,该装置包括:
原始图片获取模块,用于获取原始图片;
图像语义分割图生成模块,用于将所述原始图片输入图像分割模型,得到原始图片的图像语义分割图,所述图像分割模型基于超像素分割算法和全卷积神经网络联合训练生成。
第三方面,本发明实施例还提供了一种设备,该设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明实施例第一方面所述的方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例第一方面所述的方法。
本发明实施例通过获取原始图片,将原始图片输入图像分割模型,得到原始图片的图像语义分割图,图像分割模型基于超像素分割算法和全卷积神经网络联合训练生成,通过采用超像素分割算法和全卷积神经网络训练生成的图像分割模型对原始图片进行图像语义分割时,由于识别出了原始图片的底层特征,因此,使得生成的图像语义分割图边缘定位准确且空间一致性好,并且由于超像素分割算法仅参与图像分割模型的训练生成过程,而不参与采用图像分割模型进行图像语义分割图的生成过程,因此,相比于仅基于全卷积神经网络训练生成的图像分割模型而言,实现了在不增加计算开销的基础上,提高了模型的预测精度。
附图说明
图1是本发明实施例中的一种图像分割方法的流程图;
图2是本发明实施例中的一种图像分割方法的应用示意图;
图3是本发明实施例中的一种图像分割效果示意图;
图4是本发明实施例中的一种置卷积运算的示意图;
图5是本发明实施例中的一种全卷积神经网络中损失函数生成方法的示意图;
图6是本发明实施例中的一种图像分割方法的结构示意图;
图7是本发明实施例中的一种设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例
采用基于全卷积神经网络训练生成的图像分割模型进行图像语义分割时,由于图片边缘定位不准确且缺乏空间一致性,因此,使得图像分割模型的预测精度不高。上述图片边缘定位不准确以及缺乏空间一致性,归根到底是由于基于全卷积神经网络训练生成的图像分割模型无法很好的识别图片的颜色、亮度、纹理和梯度等底层特征。基于上述,可考虑如何使基于全卷积神经网络训练生成的图像分割模型可以准确识别图片的底层特征,从而提高图像分割模型的预测精度。
传统方法中,基于超像素分割的图像语义分割算法在识别图片的底层特征方面具有优势,超像素是一系列像素形成的像素块,像素块内的各个像素具有相似的颜色、纹理、亮度和梯度等特征,可以理解到,超像素具有良好的局部特征表达能力,且能够准确表达图像的边缘信息。超像素分割即是通过图像底层特征,将图片中具有相似的颜色、纹理、亮度和梯度等特征的相邻像素聚成同一个像素块,得到多个互不重叠的像素块且各像素块之间的特征差别明显,上述各像素块形成超像素分割图,即对图片进行超像素分割得到超像素分割图。因此,考虑将超像素分割算法和全卷积神经网络相结合来训练生成图像分割模型,以提高图像分割模型的预测精度。此外,还考虑到图像语义分割模型需要在移动端上实时运行,而移动端的计算能力有限,因此,在采用基于超像素分割算法和全卷积神经网络相结合训练生成的图像分割模型进行图像语义分割时,相比于仅基于全卷积神经网络训练生成的图像分割模型,尽量保证不增加计算开销。综上,在保证不增加计算开销的基础上,采用基于超像素分割算法和全卷积神经网络相结合方式训练生成图像分割模型,以提高图像分割模型的预测精度。下面将结合具体实施例对上述内容进行进一步说明。
图1为本发明实施例提供的一种图像分割方法的流程图,本实施例可适用于提高图像分割模型的预测精度的情况,该方法可以由图像分割装置来执行,该装置可以采用软件和/或硬件的方式实现,该装置可以配置于设备中,例如典型的是计算机或移动终端等。如图1所示,该方法具体包括如下步骤:
步骤110、获取原始图片。
步骤120、将原始图片输入图像分割模型,得到原始图片的图像语义分割图像,图像分割模型基于超像素分割算法和全卷积神经网络联合训练生成。
在本发明的实施例中,为了实现在不增加计算开销的基础上,提高图像分割模型的预测精度,采用基于超像素分割算法和全卷积神经网络联合训练得到的图像分割模型进行图像语义分割。这里所述的联合训练指的是将超像素分割算法得到的超像素分割图,参与到对全卷积神经网络进行训练的过程中,且并不是将超像素分割算法得到的超像素分割图作为全卷积神经网络的输入变量以及并不是将超像素分割作为全卷积神经网络的一个网络层,而是作为全卷积神经网络的监督信号,参与到全卷积神经网络的训练过程,所谓监督信号指的是其仅在全卷积神经网络的训练过程起作用,而当全卷积神经网络训练完成,后续由于采用该已训练完成的全卷积神经网络进行图像语义分割时,无需再计算全卷积神经网络的损失函数,因此,超像素分割便不再起作用。更具体的,超像素分割在全卷积神经网络的训练过程所起的作用体现在:其参与到计算全卷积神经网络的损失函数的过程中。从网络结构角度理解,即将超像素分割理解为一个模块,则可认为在全卷积神经网络的训练过程,其是全卷积神经网络的网络结构中的一个辅助损失函数模块,由于在采用已训练完成的全卷积神经网络进行图像语义分割时,无需再计算全卷积神经网络的损失函数,因此,对于已训练完成的全卷积神经网络来说,其网络结构中将不再存在该辅助损失函数模块。需要说明的是,将已训练完成的全卷积神经网络作为图像分割模型。
采用上述方式得到的图像分割模型可以实现在不增加计算开销的基础上,提高其预测精度的原因在于:由于采用超像素分割算法得到的超像素分割图中包含颜色、纹理、亮度和梯度等丰富的底层特征,上述底层特征可以准确区分图片边缘,同时,上述底层特征也体现了空间一致性,即充分考虑了各像素之间的关系,而全卷积神经网络恰是在上述方面存在缺陷,即基于全卷积神经网络得到的图像语义分割图,在图片边缘特别分明的情况下,还可能出现难以准确定位边缘的情况,同时,也没有考虑各像素之间的关系,缺乏空间一致,因此,将基于超像素分割算法和全卷积神经网络联合训练生成的图像分割模型,相比于仅基于全卷积神经网络训练生成的图像分割模型来说,可以提高其预测精度。此外,由于采用已训练完成的全卷积神经网络进行图像语义分割时,无需再使用超像素分割,其中,已训练完成的全卷积神经网络即为图像分割模型,因此,在使用该图像分割模型进行图像语义分割时,其网络结构与仅基于全卷积神经网络训练生成的图像分割模型的网络结构一样,当两者的网络结构相同时,两者的计算开销也是相同的,即采用基于超像素分割算法和全卷积神经网络训练生成的图像分割模型与仅基于全卷积神经网络训练生成的图像分割模型的计算开销相同,也即基于超像素分割算法和全卷积神经网络训练生成的图像分割模型并不会增加计算开销。
在本发明实施例所提供的技术方案中,图像分割模型是基于超像素分割算法和全卷积神经网络联合训练生成的,图像分割模型的网络结构以及网络参数与已训练完成的全卷积神经网络的网络结构以及网络参数相同。换句话说,图像分割模型可以为全卷积神经网络,全卷积神经网络可以包括编码器和解码器,将原始图片输入图像分割模型,得到原始图片的图像语义分割图,即将原始图片输入编码器,得到下采样特征图,下采样特征图包含了图像语义信息,并且下采样特征图尺寸相比于原始图片尺寸进行了尺寸缩小,解码器连接在编码器后面,将下采样特征图输入解码器,得到上采样特征图,上采样特征图尺寸与原始图片尺寸相同,将上采样特征图作为图像语义分割图,在上述过中,由于下采样特征图尺寸相比于原始图片尺寸进行了尺寸缩小,因此,下采样特征图具有更大的感受野,可以提供更多的上下文信息。此外,由于图像分割模型是基于超像素分割算法和全卷积神经网络联合训练生成的,因此,在对原始图片进行特征提取的过程中也将提取到底层特征,使得得到的图像语义分割图边缘定位准确,且空间一致性好。上述表明,相比于基于全卷积神经网络训练生成的图像分割模型而言,基于超像素分割算法和全卷积神经网络训练生成的图像分割模型的预测精度更高,所述的预测精度更高体现在图像语义分割图边缘定位准确且空间一致性好。
超像素分割算法可以包括SLIC(Simple Linear Iterative Clustering,简单线性迭代聚类)、GBIS(Graph-Based Image Segmentation,图的图像分割)、NCut(NormalizedCut)、Turbo-Pixel、Quick-Shift(快速漂移)和Graph-Cut(图割)等。具体可以根据实际情况进行选择,在此不作具体限定。下面以SLIC为例进行说明。具体的:
SLIC是通过改良传统的K均值方法提出的一种新聚类算法,其可以调整产生的像素块的数目heel分割的紧密度,产生的像素块具有较为优秀的边缘贴合度。SLIC基于颜色和空间距离相似性对像素进行局部聚类并递归地更新聚类中心。当迭代过程达到某种预设的条件后,迭代停止,超像素分割完成。具体的:通过将自然图像的RGB空间变换到转化为CIELAB颜色空间和XY空间像素坐标,构建五维特征向量{l,a,b,x,y},然后对五维特征向量{l,a,b,x,y}构造距离度量标准,实现图像像素的局部聚类,其中,{l,a,b}表示CIELAB颜色空间的各个分量,{x,y}表示像素的坐标。CIELAB颜色空间是一个不受所用设备影响的颜色系统,更是一个符合人类视觉感知的三维空间。即它是用空间中离散点的方法来表达能感受到的所有色彩。在CIELAB颜色空间中,每一种色彩由l、a和b三个参数来表征。其中,l是一条由得到白的轴,表示亮度(Luminosity),取值范围是[0,100];a代表由绿到红的轴,取值区间是[-128,127],其中负值表示绿色,而正值表示品红;b代表由黄到蓝的范围,取值区间是[-128,127],其中负值表示蓝色,而正值表示黄色。
SLIC具体实现步骤为:步骤a、初始化种子点(即聚类中心):设一张原始图片含有T个像素,要分割为N个像素块,则每个像素块内包含像素个数约为T/N,每两个像素块之间的距离近似为L=sqrt(T/N)。首先初始化聚类中心:Cg=[lg,ag,bg,xg,yg],然后,再初始化每个像素标签,这里所述的标签即为每个像素属于哪个聚类中心,每个像素标签为:ln=-1,dn=∞,其中,n表示第n个像素;步骤b、在q×q邻域内重新选择聚类中心,计算该领域内所有像素的梯度值,将聚类中心移至该邻域内最小梯度位置,上述是为了避免聚类中心落在梯度较大的轮廓边界上,以免影响后续聚类效果;步骤c、在每个聚类中心Cg的2f×2f邻域,计算每个像素n到聚类中心Cg的距离Dn,如果Dn<d,则dn=Dn,通过标签记录此时的位置,并将所有像素关联到与其最近的区域中;步骤d、第一次迭代完成后,重新计算每个像素块的新聚类中心点;步骤e、重复步骤c和步骤d,计算新的聚类中心与上次聚类中心的误差,如果该误差大于预设阈值,则迭代结束,其中,距离度量公式为;
Figure BDA0001962269000000051
Figure BDA0001962269000000052
其中,dlab表示像素间的颜色差别,dxy表示的是像素间的空间位置距离,Dn表示两像素间的相似性,该值越大表示两个像素越相似,m表示紧密度,用来衡量颜色差异与空间信息在相似度衡量中的比重;步骤f、处理孤立点,在初始分割后的图像中,可能会有许多小的且孤立的分割点。具体可采用连通分量法,根据4邻域或者8邻域连通方法计算区域面积,如果该面积过小,则将其合并到最近的区域中,否则,则将其合并到相似度最高的邻近区域。在上述步骤中,像素块N和紧密度m需要预先设定。如图所示,给出了基于SLIC的超像素分割图。
为了更好的理解本发明实施例所提供的技术方案,下面以具体示例进行说明,具体的:如图2所示,给出了一种图像分割方法的应用示意图。图2中获取原始图片,将原始图片输入图像分割模型,得到原始图片的图像语义分割图,其中,图像分割模型基于超像素分割算法和全卷积神经网络训练生成。图像分割模型包括编码器和解码器。
如图3所示,给出了一种图像分割效果示意图。图3中从左到右依次为原始图片,原始图片的原始标注值、仅基于全卷积神经网络训练生成的图像分割模型得到的原始图片的图像语义分割图(即超像素分割算法未参与训练生成图像分割模型)以及基于超像素分割算法和全卷积神经网络联合训练生成的图像分割模型得到的原始图片的图像语义分割图(即超像素分割算法参与训练生成图像分割模型)。从图3中可以看出,基于超像素分割算法和全卷积神经网络联合训练生成的图像分割图的预测精度高于仅基于全卷积神经网络训练生成的图像分割模型,其更接近于原始图片的原始标注值,预测精度更高具体体现在边缘定位准确,且空间一致性好。
本实施例的技术方案,通过获取原始图片,将原始图片输入图像分割模型,得到原始图片的图像语义分割图,图像分割模型基于超像素分割算法和全卷积神经网络联合训练生成,通过采用超像素分割算法和全卷积神经网络训练生成的图像分割模型对原始图片进行图像语义分割时,由于识别出了原始图片的底层特征,因此,使得生成的图像语义分割图边缘定位准确且空间一致性好,并且由于超像素分割算法仅参与图像分割模型的训练生成过程,而不参与采用图像分割模型进行图像语义分割图的生成过程,因此,相比于仅基于全卷积神经网络训练生成的图像分割模型而言,实现了在不增加计算开销的基础上,提高了模型的预测精度。
可选的,在上述技术方案的基础上,图像分割模型基于超像素分割算法和全卷积神经网络联合训练生成,具体可以包括:获取训练图片和训练图片中每个像素的原始标注值。对训练图片进行超像素分割,得到训练图片的超像素分割图。将训练图片输入全卷积神经网络,得到训练图片的图像语义分割图。根据超像素分割图和训练图片的图像语义分割图,得到全卷积神经网络的第一损失函数,并且根据训练图片中每个像素的原始标注值和训练图片的图像语义分割图,得到全卷积神经网络的第二损失函数。根据全卷积神经网络的第一损失函数和第二损失函数得到全卷积神经网络的损失函数,根据损失函数调整全卷积神经网络的网络参数,直至损失函数的输出值小于等于预设阈值,则将全卷积神经网络作为图像分割模型。
在本发明的实施例中,训练图片中每个像素的原始标注值可以表示训练图片中每个像素的真实分类,训练图片的图像语义分割图中可以体现每个像素的预测标注值,训练图片中每个像素的预测标注值可以表示训练图片中每个像素所属分类类别的概率值。
对训练图片进行超像素分割,得到训练图片的超像素分割图,该超像素分割图中可以包括两个或两个以上像素块,每个像素块中各个像素具有相似的颜色颜色、纹理、亮度和梯度等特征,而各像素块之间的特征差别明显。超像素分割图具有良好的局部特征表达能力,且能够准确表达图像的边缘信息。而上述超像素分割图所具有的良好的局部特征表达能力以及可准确表达图像的边缘信息的特性恰是基于全卷积神经网络训练生成的图像分割模型所缺乏的。基于上述,可在对全卷积神经网络进行训练得到图像分割模型的过程中,将基于超像素分割算法得到的超像素分割图引入到全卷积神经网络的训练过程,以提高图像分割模型的预测精度。需要说明的是,将超像素分割图具体划分的像素块的个数,可以根据实际情况进行设定,在此不作具体限定。
由于全卷积神经网络是不包含全连接层的卷积神经网络,因此,全卷积神经网络中每层的输出是多个特征图。全卷积神经网络可以为编码器-解码器结构,其中,编码器可以包括由卷积层和池化层构成的下采样模块,解码器可以包括上采样模块,上采样模块用于实现上采样操作,上采样操作的实现方式具体可以包括转置卷积、双线性插值和反池化。转置卷积(或称反卷积)本质上也是一种卷积,只是由于转置卷积的前向传播过程是卷积层的反向传播过程,反向传播过程是卷积层的前向传播过程。反池化是池化的逆操作,反池化无法还原全部的原始信息,这是由于池化就只保留了主要信息,舍去了部分信息,因此,从池化后的这些主要信息中恢复出全部信息,则存在信息缺失。这时只能通过补位来实现最大程度的信息完整。根据前文所述可知,池化可以为最大池化和平均池化,相应的,反池化可以为反最大池化和反平均池化,且池化与反池化的具体实现方式需要对应,即如果池化时采用的是最大池化,则反池化时需要采用反最大池化;如果池化时采用的是平均池化,则反池化时需要采用反平均池化。针对最大池化和反最大池化来说,采用最大池化对特征图进行下采样时,将选取池化窗口中像素值最大的元素作为该区域采样后的值,相应的,采用反最大池化对特征图进行上采样时,可将输入特征图中最大元素所在的位置映射到输出特征图中,其余位置填零补充。相应的,上采样模块可以为由转置卷积层构成的上采样模块,也可以为由双线性插值层构成的上采样模块,还可以为由反池化层构成的上采样模块,具体可根据实际情况进行选择,在此不作具体限定。
将训练图片输入全卷积神经网络,得到训练图片的图像语义分割图,具体可作如下理解:将训练图片输入编码器,得到下采样特征图,下采样特征图包含了原始图片的语义信息,并且由于下采样特征图尺寸相比于原始图片尺寸进行了尺寸缩小,因此,下采样特征图具有更大的感受野,可以提供更多的上下文信息,并提取出抽象高层语义特征。同时,也减少了冗余信息,使计算复杂度和内存占用大大减少。将下采样特征图输入解码器,得到上采样特征图,这里所述的上采样特征图即指图像语义分割图,图像语义分割图尺寸与原始图片尺寸相同,因此,可以根据图像语义分割图确定原始图片中每个像素所属类别。
可以理解到,由于图像语义分割需要对每个像素所属类别进行识别,因此,要求输出图像(即图像语义分割图)与输入图像(即训练图片)具有相同的分辨率(即尺寸),即图像语义分割要求图像语义分割图与训练图片具有相同的尺寸,可以理解到,上述要求编码器包括多少个下采样模块,相应的,解码器也要包括相同个数的上采样模块。还可以理解到,当下采样模块和上采样模块的个数为两个或两个以上时,意味着训练图片输入编码器后,并不是直接得到下采样特征图的,而是逐步得到的,即每经过一个下采样模块将得到一个中间特征图,当前中间特征图尺寸相比与前一中间特征图尺寸进行了尺寸缩小,可将经过最后一个下采样模块后输出的中间特征图作为下采样特征图。同样的,下采样特征图输入解码器后,并不是直接得到图像语义分割图的,也是逐步得到的,即每经过一个上采样模块将得到一个中间特征图,当前中间特征图尺寸相比前一中间特征图尺寸进行了尺寸放大,可将经过最后一个上采样模块后输出的中间特征图作为图像语义分割图。也即,下采样特征图输入解码器后逐渐恢复原始图片中各物体的细节和空间维度,最终解码器输出的图像语义分割图尺寸与编码器输入的原始图片尺寸相同。需要说明的是,下采样模块和上采样模块的个数可以根据实际情况进行确定,在此不作具体限定。
此外,为了更好地提高分割准确率和恢复物体的细节信息,可以在编码器和解码器之间连接跳跃连接模块,直接将底层特征与高层语义特征融合,有效利用图片中不同层次的语义特征。
全卷积神经网络中的特征图可以用W×H×K表示,其中,W表示特征图的宽度,H表示特征图的长度,K表示输出通道数,W×H即表示特征图尺寸。针对输入图片来说,其可以表示为W×H×D,其中,W和H与前述含义相同,D表示深度,示例性的,如果输入图片是RGB图片,则D=3;如果输入图片是是灰度图片,则D=1。在本发明实施例中,输入图片即为训练图片,则训练图片可以用W×H×D表示,相应的,训练图片的图像语义分割图可以用W×H×K表示,由于训练图片的图像语义分割图尺寸与训练图片尺寸相同,即训练图片的W×H与图像语义分割图的W×H相同。需要说明的是,针对图像语义分割来说,图像语义分割图中K除了可以表示输出通道数外,还可以表示分类类别个数,即有K个分类类别,在上述K个分类类别中,包括K-1个物体类别和1个背景类别。基于上述,可以理解到,每个输出通道将对应一个分类类别。此外,针对训练图片的图像语义分割图来说,其是由每个像素在每个输出通道上的预测标注值来确定的,换句话说,训练图片的图像语义分割图可以体现每个像素在每个输出通道上的预测标注值,后续可以根据训练图片的图像语义分割图中每个像素在每个输出通道上的预测标注值,同时,结合超像素分割图以及训练图片的原始标注值来确定全卷积神经网络的损失函数。
根据训练图片的超像素分割图和训练图片的图像语义分割图,得到全卷积神经网络的第一损失函数,可作如下理解:训练图片的超像素分割图可以包括两个或两个以上像素块,对于训练图片的超像素图中每个像素块,可以根据训练图片的图像语义分割图中每个像素的预测标注值,计算该像素块在训练图片的图像语义分割图的每个输出通道上的方差函数,根据各像素块在训练图片的图像语义分割图的各输出通道上的方差函数和预设权重系数得到全卷积神经网络的第一损失函数。
根据训练图片中每个像素的原始标注值和训练图片的图像语义分割图,得到全卷积神经网络的第二损失函数,可作如下理解:训练图片的图像语义分割图可以体现训练图片的图像语义分割图中每个像素的预测标注值,可根据训练图片的图像语义分割图中每个像素的预测标注值和训练图片中每个像素的原始标注值,得到全卷积神经网络的第二损失函数。根据前文所述可知,训练图片的图像语义分割图中每个像素的预测标注值可以指该像素所属分类类别的概率值。第二损失函数的具体形式可以包括交叉熵损失函数、0-1损失函数、平方损失函数、绝对损失函数和对数损失函数等,具体可根据实际情况进行设定,在此不作具体限定。
全卷积神经网络的训练过程是经过前向传播计算全卷积神经网络的损失函数,并计算损失函数对网络参数的偏导数,采用反向梯度传播方法,对全卷积神经网络的网络参数进行调整,并重新计算全卷积神经网络的损失函数的输出值,直至全卷积神经网络的损失函数的输出值小于等于预设阈值。当全卷积神经网络的损失函数的输出值小于等于预设阈值时,可以表示全卷积神经网络已训练完成,此时,全卷积神经网络的网络参数也得以确定。在此基础上,便可将训练完成的全卷积神经网络作为图像分割模型,这里所述的全卷积神经网络的损失函数是根据全卷积神经网络的第一损失函数和第二损失函数得到的,这里所述的网络参数可以包括权值和偏置。
需要说明的是,在对仅基于全卷积神经网络训练生成的图像分割模型的训练过程中,全卷积神经网络的损失函数将由根据训练图片中每个像素的原始标注值和训练图片的图像语义分割图中每个像素的预测标注值,得到的全卷积神经网络的第二损失函数所确定,即该种情况下,全卷积神经网络的损失函数即为本发明实施例所述的第二损失函数。而本发明实施例所述的全卷积神经网络的损失函数除了包括所述的第二损失函数外,还包括根据训练图片的超像素分割图和训练图片的图像语义分割图所确定的第一损失函数,上述第一损失函数的引入将使得基于本发明实施例所提供的技术方案训练得到的图像分割模型,相比于仅基于全卷积神经网络训练生成的图像分割模型而言,图像分割模型的预测精度更高。可以实现上述的原因在于:
可以理解到,由于超像素分割图中每个像素块中的各像素具有相似的颜色、亮度、纹理和梯度等,因此,理论上,每个像素块中的各像素应该属于相同的分类类别。基于上述,从训练图片的图像语义分割图中每个像素的预测标注值角度来说,每个像素块中各像素,在训练图片的图像语义分割图中每个输出通道上对应的预测标注值应该相近,这里所述的相近即指预测标注值大小相差不大。上述是在基于全卷积神经网络得到的每个像素块中的各像素的预测标注值相对正确的情况下,得出的上述结论。
根据前文所述可知,由于基于全卷积神经网络得到的训练图片的图像语义分割图,存在着在图片边缘特别分明的情况下,还可能出现难以准确定位边缘的缺陷,同时,也存在着没有考虑各像素之间的关系,缺乏空间一致的缺陷,因此,上述缺陷使得每个像素块中各像素,在训练图片的图像语义分割图中每个输出通道上对应的预测标注值可能并不相近,即差异较大。基于全卷积神经网络得到的训练图片的图像语义分割图所存在的上述缺陷恰恰是基于超像素分割算法得到的训练图片的超像素分割图所具有的优势,即基于超像素分割算法得到的训练图片的超像素分割图中包含颜色、纹理、亮度和梯度等丰富的底层特征,上述底层特征可以准确区分图像边缘,同时,上述底层特征也体现了空间一致性,即充分考虑了各像素之间的关系。基于上述,可以理解到,使基于超像素分割算法得到的训练图片的超像素分割图参与全卷积神经网络的训练过程,其所起到的作用应该是:
如果每个像素块中各像素,在训练图片的图像语义分割图中每个输出通道上对应的预测标注值差异较大时,则可通过其参与全卷积神经网络的训练过程,以使全卷积神经网络可以不断学习到图片的底层特征,从而使得基于全卷积神经网络得到的训练图片的图像语义分割图边缘定位准确,且空间一致性好,进而使得每个像素块中各像素,在训练图片的图像语义分割图中每个输出通道上对应的预测标注值相近。由于全卷积神经网络的训练过程是经过前向传播计算全卷积神经网络的损失函数,并计算损失函数对网络参数的偏导数,采用反向梯度传播方法,对全卷积神经网络的网络参数进行调整,并重新计算全卷积神经网络的损失函数的输出值,直至全卷积神经网络的损失函数的输出值小于等于预设阈值,因此,可以理解到,全卷积神经网络的损失函数对确定全卷积神经网络的网络参数将起到决定性作用,而全卷积神经网络正是通过不同的网络参数来提取不同的图片特征的,换句话说,如果想训练生成的全卷积神经网络可用于提取期望特征,如图片的底层特征,则需要将上述期望特征体现在损失函数中,进而反映到网络参数上。基于上述,可使基于超像素分割算法得到的训练图片的超像素分割图参与到构建全卷积神经网络的损失函数的过程中,即根据超像素分割算法得到的训练图片的超像素分割图和根据全卷积神经网络得到的训练图片的图像语义分割图,得到全卷积神经网络的第一损失函数,而第一损失函数的具体形式需要结合实际情况进行设定,针对本发明实施例所提供的技术方案来说,第一损失函数需要满足如下条件:如果每个像素块中各像素,在训练图片的图像语义分割图中每个输出通道上对应的预测标注值差异较大,则第一损失函数的输出值较大;如果每个像素块中各像素,在训练图片的图像语义分割图中每个输出通道上对应的预测标注值相接近,则第一损失函数的输出值较小,从而在根据全卷积神经网络的损失函数对网络参数求偏导数,再采用反向梯度传播方法,对全卷积神经网络的网络参数进行调整,使得第一损失函数在确定网络参数方面可以起到较大作用,进而如果每个像素块中各像素,在训练图片的图像语义分割图中每个输出通道上对应的预测标注值差异较大,则可随着网络参数的不断调整,使第一损失函数的输出值随之不断减小,而随着第一损失函数的输出值的不断减小,可说明全卷积神经网络在提取图片的底层特征方面的精确度不断提高。同时,如果每个像素块中各像素,在训练图片的图像语义分割图中每个输出通道上对应的预测标注值相接近,则可以说明每个像素块中各像素,在训练图片的图像语义分割图中每个输出通道上对应的预测标注值比较符合实际情况,即全卷积神经网络已经可以准确提取相关的底层特征,而无需再让全卷积神经网络继续提高提取相关的底层特征的精确度,上述需要第一损失函数的输出值较小,进而根据全卷积神经网络的损失函数对网络参数求偏导数时,该种情况下的第一损失函数将不起作用或起到较小的作用。
基于上述,可考虑将第一损失函数的具体形式设置为方差函数,这是由于方差是衡量一组数据的离散程度的度量,因此,方差函数的输出值(即第一损失函数的输出值)的大小可以体现每个像素块中各像素,在训练图片的图像语义分割图中每个输出通道上对应的预测标注值差异程度。如果第一函数的输出值较大,则通过反向梯度传播方法,调整全卷积神经网络的网络参数,使得全卷积神经网络可以提取到图片的底层特征,上述体现在第一损失函数的输出值上将是第一损失函数的输出值的大小不断缩小。可以理解到,由于训练完成的全卷积神经网络可以提取到图片的底层特征,因此,将基于超像素分割算法和全卷积神经网络训练完成的全卷积神经网络作为图像分割模型,相比于仅基于全卷积神经网络训练生成的图像分割模型而言,图像分割模型的预测精度更高。
可选的,在上述技术方案的基础上,根据超像素分割图和训练图片的图像语义分割图,得到全卷积神经网络的第一损失函数,具体可以包括:对于超像素分割图中每个像素块,根据训练图片的图像语义分割图中每个像素的预测标注值,得到像素块在所述训练图片的图像语义分割图的每个输出通道上的方差函数。根据各像素块在训练图片的图像语义分割图的各输出通道上的方差函数和预设权重系数得到全卷积神经网络的第一损失函数。
在本发明的实施例中,预设权重系数的取值范围可以为[0,1),具体可根据实际情况进行设定,在此不作具体限定。对于超像素分割图中每个像素块来说,其在训练图片的图像语义分割图中每个输出通道上的方差函数可以通过如下方式计算:根据该像素块内每个像素在训练图片的图像语义分割图的每个输出通道上对应的预测标注值,得到该像素块在训练图片的图像语义分割图中每个输出通道上的均值函数,根据该像素块内每个像素在训练图片的图像语义分割图的每个输出通道上对应的预测标注值和该像素块在训练图片的图像语义分割图中每个输出通道上的均值函数,得到该像素块在训练图片的图像语义分割图中每个输出通道上的方差函数。
可以理解到,在计算超像素分割图中每个像素块在训练图片的图像语义分割图中每个输出通道上的均值函数时,如果该像素块内各像素在训练图片的图像语义分割图的某个输出通道上对应的预测标注值差异较大,则该像素块内各像素在训练图片的图像语义分割图的该输出通道上对应的预测标注值与该像素块在训练图片的图像语义分割图中该输出通道上的均值函数的输出值的差值的绝对值将较大,即该像素块在训练图片的图像语义分割图中该输出通道上的方差函数的输出值将较大;如果该像素块内各像素在训练图片的图像语义分割图的某个输出通道上对应的预测标注值差异较小,则该像素块内各像素在训练图片的图像语义分割图的该输出通道上对应的预测标注值与该像素块在训练图片的图像语义分割图中该输出通道上的均值函数的输出值的差值的绝对值将较小,即该像素块在训练图片的图像语义分割图中该输出通道上的方差函数的输出值将较小。
可选的,在上述技术方案的基础上,根据训练图片中每个像素的原始标注值和训练图片的图像语义分割图,得到全卷积神经网络的第二损失函数,具体可以包括:根据训练图片中每个像素的原始标注值和训练图片的图像语义分割图中每个像素的预测标注值,得到最小均方差函数,将最小均方差函数作为全卷积神经网络的第二损失函数。
在本发明的实施例中,全卷积神经网络的第二损失函数可以为最小均方差函数,最小均方差函数即为欧式距离的和。
本发明实施例所提供的技术方案中全卷积神经网络的第一损失函数、第二损失函数以及损失函数可以通过如下公式计算,具体的:
设定训练图片的图像语义分割图用W×H×K表示,其中,W表示训练图片的图像语义分割图的宽度,H表示训练图片的图像语义分割图的长度,K表示训练图片的图像语义分割图的输出通道数或分类类别个数,W×H即表示训练图片的图像语义分割图尺寸,如果K表示训练图片的图像语义分割图的分类类别个数,即训练图片的图像语义分割图包括K个分类类别,在上述K个分类类别中,包括K-1个物体类别和1个背景类别。
在训练图片的图像语义分割图的第k个输出通道上,第i像素用pik(x,y)表示,i∈{1,2,......,W×H×K};pik(x,y)的预测标注值用cik(x,y)表示,pik(x,y)的原始标注值为gik(x,y);训练图片的超像素分割图包括N个像素块,第j像素块用sj表示,j∈{1,2,......,N},第j像素块包括像素个数用|sj|表示。
pi,k(x,y)的最小均方差函数可以为:
Figure BDA0001962269000000101
相应的,全卷积神经网络的第二损失函数可以为:
Figure BDA0001962269000000102
第j像素块,在训练图片的图像语义分割图的第k个输出通道上的均值函数可以为:
Figure BDA0001962269000000111
相应的,第j像素块,在训练图片的图像语义分割图的第k个输出通道上的方差函数可以为:
Figure BDA0001962269000000112
全卷积神经网络的第一损失函数可以为:
Figure BDA0001962269000000113
其中,α表示预设权重系数,α∈[0,1)。
全卷积神经网络的损失函数可以表示为:L=MSE+SL。
可选的,在上述技术方案的基础上,图像分割模型为全卷积神经网络,全卷积神经网络可以包括编码器和解码器。将原始图片输入图像分割模型,得到原始图片的图像语义分割图,具体可以包括:将原始图片输入所述编码器,得到下采样特征图,下采样特征图尺寸为原始图片尺寸的1/2V,1≤V≤3。将下采样特征图输入所述解码器,得到上采样特征图,上采样特征图尺寸与原始图片尺寸相同,将上采样特征图作为原始图片的图像语义分割图。
在本发明的实施例中,图像分割模块可以为全卷积神经网络,全卷积神经网络具体可以包括编码器和解码器,将原始图片输入编码器,得到下采样特征图,下采样特征图尺寸为原始图片尺寸的1/2V,下采样特征图包含了原始图片的语义信息,并且由于下采样特征图尺寸相比于原始图片尺寸进行了尺寸缩小,因此,下采样特征图具有更大的感受野,可以提供更多的上下文信息。同时,也减少了冗余信息,使计算复杂度和内存占用大大减小。将下采样特征图输入解码器,得到上采样特征图,上采样特征图尺寸与原始图片尺寸相同,并将上采样特征图作为原始图片的图像语义分割图。由于上采样特征图尺寸(即原始图片的图像语义分割图)与原始图片尺寸相同,因此,可以根据原始图片的图像语义分割图确定原始图片中每个像素所属分类类别。
需要说明的是,下采样特征图尺寸过小会对边界定位精度产生不利影响,为了分类精度、定位精度和网络计算效率的平衡,对下采样特征图尺寸进行了限定,即1≤V≤3,即下采样特征图尺寸最小为原始图片尺寸的八分之一。
编码器具体可以包括W个下采样模块,每个下采样模块可以包括池化层,解码器包括W个上采样模块,每个上采样模块可以为转置卷积层、双线性插值层或反池化层,其中,W=V。
需要说明的是,池化层可以为空洞卷积层。将池化层设置为空洞卷积层的目的在于增大感受野。感受野是全卷积神经网络的每一层输出特征图上的像素在输入特征图上映射的区域大小。感受野的大小表示了提取的特征图包含信息的多少,感受野越大包含的上下文信息越多。在图像语义分割中,提取的特征包含的信息越多则对当前像素进行正确分类的可能性就越大。
传统技术中,为了增大感受野,通常采用如下方式,具体的:通过使用池化层,先降低图片的尺寸来增大感受野,然后对特征图采用上采样恢复到原图尺寸,但是在上述先减小图片尺寸再增大图片尺寸的过程中,将导致细节信息的损失。针对上述增大感受野方式所存在的问题,可考虑使用空洞卷积来解决。空洞卷积可以实现在不损失细节信息,同时不增加网络的复杂度的情况下增大感受野。下面对空洞卷积进行详细说明,具体的:
空洞卷积是在标准卷积核进行上注入空洞得到的卷积核,这里所述的注入空洞可以理解为插零扩张。相比于原来正常的卷积运算,空洞卷积使用一个额外的超参数扩张率来控制卷积核插入空洞的间隔。标准卷积核的感受野的计算公式为:RFout=(RFin-1)*stride+ksize,其中,RFout表示当前层感受野,RFin表示上一层感受野,stride表示卷积步长或池化步长,ksize表示卷积核大小。空洞卷积核的感受野的计算公式和上面相同,所谓空洞可以理解为扩大了标准卷积核的大小。或者,空洞卷积核的感受野的计算公式为:RFout=2(d/2+2)-1,其中,RFout表示当前层感受野,表示扩张率。
由于空洞卷积可以实现在不损失细节信息,同时不增加网络的复杂度的情况下增大感受野,因此,可将池化层设置为空洞卷积层。
可选的,在上述技术方案的基础上,将原始图片输入编码器,得到下采样特征图,下采样特征图尺寸为原始图片尺寸的1/2V,1≤V≤3,具体可以包括:将原始图片输入编码器,得到V个中间特征图,并将第V中间特征图作为下采样特征图,第一中间特征图尺寸为原始图片尺寸的1/2,第一中间特征图之后的每个中间特征图尺寸为前一中间特征图尺寸的1/2,1≤V≤3。
在本发明的实施例中,将原始图片输入编码器,得到下采样特征图,下采样特征图尺寸为原始图片尺寸的1/2V,需要说明的是,将原始图片尺寸缩小为原始图片尺寸的1/2V,并不是一次下采样操作就得到的,而是经过V次下采样操作得到的,每经过一次下采样操作,将得到对应的一个中间特征图,因此,将原始图片输入编码器,将依次得到V个中间特征图,并将最后一个中间特征图,即第V中间特征图作为下采样特征图。
第一中间特征图尺寸为原始图片尺寸的1/2,第一中间特征图之后的每个中间特征图尺寸为前一中间特征图尺寸的1/2,即每经过一次下采样操作,中间特征图尺寸将缩小1/2。
可选的,在上述技术方案的基础上,全卷积神经网络还可以包括跳跃连接模块,跳跃连接模块位于编码器和解码器之间。将下采样特征图输入解码器,得到上采样特征图,具体可以包括:将前V-1个中间特征图通过跳跃连接模块输入解码器,并与下采样特征图输入解码器得到的特征图进行融合,得到上采样特征图。
在本发明的实施例中,如果只对下采样特征图输入解码器进行上采样操作,得到上采样特征图(即原始图片的图像语义分割图),则由于下采样特征图尺寸为原始图片尺寸的1/2V,即在编码器中经过了V次下采样操作,上述下采样操作使得下采样特征图丢失了过多的细节信息,因此,原始图片的图像语义分割图的分割结果将不够精确。为了有效利用图片不同层次的语义信息,提高图像语义分割效率和恢复目标对象的细节信息,可在编码器和解码器之间设置跳跃连接模块。
将前V-1个中间特征图通过跳跃连接模块输入解码器,并与下采样特征图输入解码器得到的特征图进行融合,得到上采样特征图。示例性的,如第V-1个中间特征图尺寸为1/2V-1,将其通过跳跃连接模块输入解码器,与下采样特征图输入解码器进行一次上采样操作后,得到的尺寸为1/2V-1的特征图进行融合后,再经过两次上采样操作,得到上采样特征图。
可选的,在上述技术方案的基础上,解码器包括转置卷积层。
在本发明的实施例中,解码器可以包括转置卷积层,转置卷积的前向传播即为卷积的反向传播,由于在卷积的实现中,输入的二维图像被拉直为一个长向量,正向传播运算可以表达为卷积核参数相关的矩阵左乘向量得到输出,反向传播则是参数矩阵的转置左乘梯度向量,因此,在转置卷积中,其正向传播是左乘卷积核参数矩阵的转置。如图4所示,给出了一种转置卷积运算的示意图。
为了更好的理解本发明实施例所述的全卷积神经网络的损失函数,下面将通过具体示例进行说明。具体的:如图5所示,给出了一种全卷积神经网络中损失函数生成方法的示意图。图5中,对训练图片进行超像素分割,得到训练图片的超像素分割图,将训练图片输入全卷积神经网络,得到训练图片的图像语义分割图,根据训练图片的超像素分割图和训练图片的图像语义分割图,得到全卷积神经网络的第一损失函数,根据训练图片的图像语义分割图和训练图片的原始标注值,得到全卷积神经网络的第二损失函数,根据全卷积神经网络的第一损失函数和第二损失函数,得到全卷积神经网络的损失函数。其中,全卷积神经网络可以包括编码器、解码器以及位于编码器和解码器之间的跳跃连接模块。
图6为本发明实施例提供的一种图像分割装置的结构示意图,本实施例可适用于提高图像分割模型的预测精度的情况,该装置可以采用软件和/或硬件的方式实现,该装置可以配置于设备中,例如典型的是计算机或移动终端等。如图6所示,该装置具体包括:
原始图片获取模块210,用于获取原始图片。
图像语义分割图生成模块210,用于将原始图片输入图像分割模型,得到原始图片的图像语义分割图,图像分割模型基于超像素分割算法和全卷积神经网络联合训练生成。
本实施例的技术方案,通过获取原始图片,将原始图片输入图像分割模型,得到原始图片的图像语义分割图,图像分割模型基于超像素分割算法和全卷积神经网络联合训练生成,通过采用超像素分割算法和全卷积神经网络训练生成的图像分割模型对原始图片进行图像语义分割时,由于识别出了原始图片的底层特征,因此,使得生成的图像语义分割图边缘定位准确且空间一致性好,并且由于超像素分割算法仅参与图像分割模型的训练生成过程,而不参与采用图像分割模型进行图像语义分割图的生成过程,因此,相比于仅基于全卷积神经网络训练生成的图像分割模型而言,实现了在不增加计算开销的基础上,提高了模型的预测精度。
可选的,在上述技术方案的基础上,图像语义分割模型基于超像素分割算法和全卷积神经网络联合训练生成,具体可以包括:
获取训练图片和训练图片中每个像素的原始标注值。
对训练图片进行超像素分割,得到训练图片的超像素分割图。
将训练图片输入全卷积神经网络,得到训练图片的图像语义分割图。
根据超像素分割图和训练图片的图像语义分割图,得到全卷积神经网络的第一损失函数,并且根据训练图片中每个像素的原始标注值和训练图片的图像语义分割图,得到全卷积神经网络的第二损失函数。
根据全卷积神经网络的第一损失函数和第二损失函数得到全卷积神经网络的损失函数,根据损失函数调整全卷积神经网络的网络参数,直至损失函数的输出值小于等于预设阈值,则将全卷积神经网络作为图像分割模型。
可选的,在上述技术方案的基础上,根据超像素分割图和训练图片的图像语义分割图,得到全卷积神经网络的第一损失函数,具体可以包括:
对于超像素分割图中每个像素块,根据训练图片的图像语义分割图中每个像素的预测标注值,得到像素块在训练图片的图像语义分割图的每个输出通道上的方差函数。
根据各像素块在训练图片的图像语义分割图的各输出通道上的方差函数和预设权重系数得到全卷积神经网络的第一损失函数。
可选的,在上述技术方案的基础上,根据训练图片中每个像素的原始标注值和训练图片的图像语义分割图,得到全卷积神经网络的第二损失函数,具体可以包括:
根据训练图片中每个像素的原始标注值和训练图片的图像语义分割图中每个像素的预测标注值,得到最小均方差函数,将最小均方差函数作为全卷积神经网络的第二损失函数。
可选的,在上述技术方案的基础上,图像分割模型为全卷积神经网络,全卷积神经网络包括编码器和解码器。
图像语义分割图生成模块220,具体可以用于:
将原始图片输入所述编码器,得到下采样特征图,下采样特征图尺寸为原始图片尺寸的1/2V,1≤V≤3。
将下采样特征图输入所述解码器,得到上采样特征图,上采样特征图尺寸与原始图片尺寸相同,将上采样特征图作为原始图片的图像语义分割图。
可选的,在上述技术方案的基础上,将原始图片输入所述解码器,得到下采样特征图,下采样特征图尺寸为原始图片尺寸的1/2V,1≤V≤3,具体可以包括:
将原始图片输入所述编码器,得到V个中间特征图,并将第V中间特征图作为下采样特征图,第一中间特征图尺寸为原始图片尺寸的1/2,第一中间特征图之后的每个中间特征图尺寸为前一中间特征图尺寸的1/2,1≤V≤3。
可选的,在上述技术方案的基础上,全卷积神经网络具体还可以包括跳跃连接模块,跳跃连接模块位于编码器和解码器之间。
将下采样特征图输入所述解码器,得到上采样特征图,具体可以包括:
将前V-1个中间特征图通过跳跃连接模块输入解码器,并与下采样特征图输入解码器得到的特征图进行融合,得到上采样特征图。
可选的,在上述技术方案的基础上,解码器具体可以包括转置卷积层。
本发明实施例所提供的图像分割装置可执行本发明任意实施例所提供的图像分割方法,具备执行方法相应的功能模块和有益效果。
图7为本发明实施例提供的一种设备的结构示意图。图7示出了适于用来实现本发明实施方式的示例性设备612的框图。图7显示的设备312仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,设备312以通用计算设备的形式表现。设备312的组件可以包括但不限于:一个或者多个处理器316,系统存储器328,连接于不同系统组件(包括系统存储器328和处理器316)的总线318。
总线318表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Instruction Set Architecture,ISA)总线,微通道体系结构(Micro Channel Architecture,MCA)总线,增强型(Instruction Set Architecture,ISA)总线、视频电子标准协会(Video ElectronicsStandards Association,VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnect,PCI)总线。
设备312典型地包括多种计算机系统可读介质。这些介质可以是任何能够被设备312访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器328可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory,RAM)330和/或高速缓存存储器332。设备312可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统334可以用于读写不可移动的、非易失性磁介质(图7未显示,通常称为“硬盘驱动器”)。尽管图7中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如(Computer Disc Read-Only Memory,CD-ROM),数字视盘(Digital Video Disc-Read Only Memory,DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线318相连。存储器328可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块342的程序/实用工具340,可以存储在例如存储器328中,这样的程序模块342包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块342通常执行本发明所描述的实施例中的功能和/或方法。
设备312也可以与一个或多个外部设备314(例如键盘、指向设备、显示器324等)通信,还可与一个或者多个使得用户能与该设备312交互的设备通信,和/或与使得该设备312能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口322进行。并且,设备312还可以通过网络适配器320与一个或者多个网络(例如局域网(Local Area Network,LAN),广域网(Wide Area Network,WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器320通过总线318与设备312的其它模块通信。应当明白,尽管图7中未示出,可以结合设备312使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Disks,RAID)系统、磁带驱动器以及数据备份存储系统等。
处理器316通过运行存储在系统存储器328中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的一种图像分割方法,该方法包括:
获取原始图片;
将原始图片输入图像分割模型,得到原始图片的图像语义分割图,图像分割模型基于超像素分割算法和全卷积神经网络联合训练生成。
当然,本领域技术人员可以理解,处理器还可以实现本发明任意实施例所提供应用于设备的图像分割方法的技术方案。该设备的硬件结构以及功能可参见实施例的内容解释。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例所提供的一种图像分割方法,该方法包括:
获取原始图片;
将原始图片输入图像分割模型,得到原始图片的图像语义分割图,图像分割模型基于超像素分割算法和全卷积神经网络联合训练生成。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、可擦式可编程只读存储器(ErasableProgrammable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Computer Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、射频等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——局域网(Local AreaNetwork,LAN)或广域网(Wide Area Network,WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
当然,本发明实施例所提供的一种计算机可读存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的设备的图像分割方法中的相关操作。对存储介质的介绍可参见实施例中的内容解释。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (11)

1.一种图像分割方法,其特征在于,包括:
获取原始图片;
将所述原始图片输入图像分割模型,得到原始图片的图像语义分割图,所述图像分割模型基于超像素分割算法和全卷积神经网络联合训练生成。
2.根据权利要求1所述的方法,其特征在于,所述图像分割模型基于超像素分割算法和全卷积神经网络联合训练生成,包括:
获取训练图片和训练图片中每个像素的原始标注值;
对所述训练图片进行超像素分割,得到所述训练图片的超像素分割图;
将所述训练图片输入全卷积神经网络,得到所述训练图片的图像语义分割图;
根据所述超像素分割图和所述训练图片的图像语义分割图,得到所述全卷积神经网络的第一损失函数,并且根据所述训练图片中每个像素的原始标注值和训练图片的图像语义分割图,得到所述全卷积神经网络的第二损失函数;
根据所述全卷积神经网络的第一损失函数和第二损失函数得到所述全卷积神经网络的损失函数,根据所述损失函数调整所述全卷积神经网络的网络参数,直至所述损失函数的输出值小于等于预设阈值,则将所述全卷积神经网络作为所述图像分割模型。
3.根据权利要求2所述的方法,其特征在于,所述根据所述超像素分割图和所述训练图片的图像语义分割图,得到所述全卷积神经网络的第一损失函数,包括:
对于所述超像素分割图中每个像素块,根据所述训练图片的图像语义分割图中每个像素的预测标注值,得到所述像素块在所述训练图片的图像语义分割图的每个输出通道上的方差函数;
根据各像素块在所述训练图片的图像语义分割图的各输出通道上的方差函数和预设权重系数得到所述全卷积神经网络的第一损失函数。
4.根据权利要求2所述的方法,其特征在于,所述根据所述训练图片中每个像素的原始标注值和所述训练图片的图像语义分割图,得到所述全卷积神经网络的第二损失函数,包括:
根据所述训练图片中每个像素的原始标注值和所述训练图片的图像语义分割图中每个像素的预测标注值,得到最小均方差函数,将所述最小均方差函数作为所述全卷积神经网络的第二损失函数。
5.根据权利要求1所述的方法,其特征在于,所述图像分割模型为全卷积神经网络,所述全卷积神经网络包括编码器和解码器;
所述将所述原始图片输入图像分割模型,得到原始图片的图像语义分割图,包括:
将所述原始图片输入所述编码器,得到下采样特征图,所述下采样特征图尺寸为原始图片尺寸的1/2V,1≤V≤3;
将所述下采样特征图输入所述解码器,得到上采样特征图,所述上采样特征图尺寸与所述原始图片尺寸相同,将所述上采样特征图作为所述原始图片的图像语义分割图。
6.根据权利要求5所述的方法,其特征在于,所述将所述原始图片输入所述编码器,得到下采样特征图,所述下采样特征图尺寸为原始图片尺寸的1/2V,1≤V≤3,包括:
将所述原始图片输入所述编码器,得到V个中间特征图,并将第V中间间特征图作为所述下采样特征图,第一中间特征图尺寸为原始图片尺寸的1/2,第一中间特征图之后的每个中间特征图尺寸为前一中间特征图尺寸的1/2,1≤V≤3。
7.根据权利要求6所述的方法,其特征在于,所述全卷积神经网络还包括跳跃连接模块,所述跳跃连接模块位于所述编码器和所述解码器之间;
所述将所述下采样特征图输入所述解码器,得到上采样特征图,包括:
将前V-1个中间特征图通过跳跃连接模块输入所述解码器,并与所述下采样特征图输入所述解码器得到的特征图进行融合,得到所述上采样特征图。
8.根据权利要求5所述的方法,其特征在于,所述解码器包括转置卷积层。
9.一种图像分割装置,其特征在于,包括:
原始图片获取模块,用于获取原始图片;
图像语义分割图生成模块,用于将所述原始图片输入图像分割模型,得到原始图片的图像语义分割图,所述图像分割模型基于超像素分割算法和全卷积神经网络联合训练生成。
10.一种设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8任一所述的方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8任一所述的方法。
CN201910087598.5A 2019-01-29 2019-01-29 一种图像分割方法、装置、设备及存储介质 Pending CN111489357A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910087598.5A CN111489357A (zh) 2019-01-29 2019-01-29 一种图像分割方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910087598.5A CN111489357A (zh) 2019-01-29 2019-01-29 一种图像分割方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN111489357A true CN111489357A (zh) 2020-08-04

Family

ID=71794222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910087598.5A Pending CN111489357A (zh) 2019-01-29 2019-01-29 一种图像分割方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111489357A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112132847A (zh) * 2020-09-27 2020-12-25 北京字跳网络技术有限公司 模型训练方法、图像分割方法、装置、电子设备和介质
CN112164035A (zh) * 2020-09-15 2021-01-01 郑州金惠计算机系统工程有限公司 基于图像的缺陷检测方法、装置、电子设备及存储介质
CN112200818A (zh) * 2020-10-15 2021-01-08 广州华多网络科技有限公司 基于图像的着装区域分割和着装替换方法、装置及设备
CN112330697A (zh) * 2020-12-04 2021-02-05 中信银行股份有限公司 一种图像分割方法、装置、电子设备和可读存储介质
CN112597329A (zh) * 2020-12-21 2021-04-02 华南理工大学 一种基于改进的语义分割网络的实时图像检索方法
CN112734874A (zh) * 2021-01-04 2021-04-30 厦门美图之家科技有限公司 油画生成方法、装置、计算机设备和存储介质
CN112750124A (zh) * 2021-01-22 2021-05-04 推想医疗科技股份有限公司 模型生成、图像分割方法、装置、电子设备及存储介质
CN112861708A (zh) * 2021-02-05 2021-05-28 北京理工大学前沿技术研究院 一种雷达图像的语义分割方法、设备及存储介质
CN112926596A (zh) * 2021-02-10 2021-06-08 北京邮电大学 基于循环神经网络的实时超像素分割方法及系统
CN112950652A (zh) * 2021-02-08 2021-06-11 深圳市优必选科技股份有限公司 机器人及其手部图像分割方法和装置
CN114092494A (zh) * 2021-11-29 2022-02-25 长春工业大学 一种基于超像素和全卷积神经网络的脑部mr图像分割方法
CN114119981A (zh) * 2021-12-09 2022-03-01 成都理工大学 基于小样本深度学习无监督语义分割的大地电磁反演增强方法
CN114445420A (zh) * 2021-12-31 2022-05-06 湖南科技大学 编解码结构结合注意力机制的图像分割模型及其训练方法
WO2022249997A1 (ja) * 2021-05-24 2022-12-01 京セラ株式会社 教師データ生成装置、教師データ生成方法、及び画像処理装置
CN116824308A (zh) * 2023-08-30 2023-09-29 腾讯科技(深圳)有限公司 图像分割模型训练方法与相关方法、装置、介质及设备
CN117078982A (zh) * 2023-10-16 2023-11-17 山东建筑大学 基于深度学习的大倾角立体像对准密集特征匹配方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106529565A (zh) * 2016-09-23 2017-03-22 北京市商汤科技开发有限公司 目标识别模型训练和目标识别方法及装置、计算设备
CN106709924A (zh) * 2016-11-18 2017-05-24 中国人民解放军信息工程大学 基于深度卷积神经网络和超像素的图像语义分割方法
CN107424159A (zh) * 2017-07-28 2017-12-01 西安电子科技大学 基于超像素边缘和全卷积网络的图像语义分割方法
CN108764241A (zh) * 2018-04-20 2018-11-06 平安科技(深圳)有限公司 分割股骨近端的方法、装置、计算机设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106529565A (zh) * 2016-09-23 2017-03-22 北京市商汤科技开发有限公司 目标识别模型训练和目标识别方法及装置、计算设备
CN106709924A (zh) * 2016-11-18 2017-05-24 中国人民解放军信息工程大学 基于深度卷积神经网络和超像素的图像语义分割方法
CN107424159A (zh) * 2017-07-28 2017-12-01 西安电子科技大学 基于超像素边缘和全卷积网络的图像语义分割方法
CN108764241A (zh) * 2018-04-20 2018-11-06 平安科技(深圳)有限公司 分割股骨近端的方法、装置、计算机设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
伍佳等: "顾及区域信息的卷积神经网络在影像语义分割中的应用" *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112164035A (zh) * 2020-09-15 2021-01-01 郑州金惠计算机系统工程有限公司 基于图像的缺陷检测方法、装置、电子设备及存储介质
CN112132847A (zh) * 2020-09-27 2020-12-25 北京字跳网络技术有限公司 模型训练方法、图像分割方法、装置、电子设备和介质
CN112200818A (zh) * 2020-10-15 2021-01-08 广州华多网络科技有限公司 基于图像的着装区域分割和着装替换方法、装置及设备
CN112330697A (zh) * 2020-12-04 2021-02-05 中信银行股份有限公司 一种图像分割方法、装置、电子设备和可读存储介质
CN112330697B (zh) * 2020-12-04 2024-04-30 中信银行股份有限公司 一种图像分割方法、装置、电子设备和可读存储介质
CN112597329B (zh) * 2020-12-21 2022-12-16 华南理工大学 一种基于改进的语义分割网络的实时图像检索方法
CN112597329A (zh) * 2020-12-21 2021-04-02 华南理工大学 一种基于改进的语义分割网络的实时图像检索方法
CN112734874A (zh) * 2021-01-04 2021-04-30 厦门美图之家科技有限公司 油画生成方法、装置、计算机设备和存储介质
CN112750124A (zh) * 2021-01-22 2021-05-04 推想医疗科技股份有限公司 模型生成、图像分割方法、装置、电子设备及存储介质
CN112750124B (zh) * 2021-01-22 2021-11-09 推想医疗科技股份有限公司 模型生成、图像分割方法、装置、电子设备及存储介质
CN112861708A (zh) * 2021-02-05 2021-05-28 北京理工大学前沿技术研究院 一种雷达图像的语义分割方法、设备及存储介质
CN112950652B (zh) * 2021-02-08 2024-01-19 深圳市优必选科技股份有限公司 机器人及其手部图像分割方法和装置
CN112950652A (zh) * 2021-02-08 2021-06-11 深圳市优必选科技股份有限公司 机器人及其手部图像分割方法和装置
CN112926596A (zh) * 2021-02-10 2021-06-08 北京邮电大学 基于循环神经网络的实时超像素分割方法及系统
WO2022249997A1 (ja) * 2021-05-24 2022-12-01 京セラ株式会社 教師データ生成装置、教師データ生成方法、及び画像処理装置
JP7467773B2 (ja) 2021-05-24 2024-04-15 京セラ株式会社 教師データ生成装置、教師データ生成方法、及び画像処理装置
CN114092494A (zh) * 2021-11-29 2022-02-25 长春工业大学 一种基于超像素和全卷积神经网络的脑部mr图像分割方法
CN114119981A (zh) * 2021-12-09 2022-03-01 成都理工大学 基于小样本深度学习无监督语义分割的大地电磁反演增强方法
CN114445420A (zh) * 2021-12-31 2022-05-06 湖南科技大学 编解码结构结合注意力机制的图像分割模型及其训练方法
CN114445420B (zh) * 2021-12-31 2024-07-26 湖南科技大学 编解码结构结合注意力机制的图像分割模型及其训练方法
CN116824308A (zh) * 2023-08-30 2023-09-29 腾讯科技(深圳)有限公司 图像分割模型训练方法与相关方法、装置、介质及设备
CN116824308B (zh) * 2023-08-30 2024-03-22 腾讯科技(深圳)有限公司 图像分割模型训练方法与相关方法、装置、介质及设备
CN117078982A (zh) * 2023-10-16 2023-11-17 山东建筑大学 基于深度学习的大倾角立体像对准密集特征匹配方法
CN117078982B (zh) * 2023-10-16 2024-01-26 山东建筑大学 基于深度学习的大倾角立体像对准密集特征匹配方法

Similar Documents

Publication Publication Date Title
CN111489357A (zh) 一种图像分割方法、装置、设备及存储介质
CN110674866B (zh) 迁移学习特征金字塔网络对X-ray乳腺病灶图像检测方法
CN111311592B (zh) 一种基于深度学习的三维医学图像自动分割方法
US11200424B2 (en) Space-time memory network for locating target object in video content
US11670071B2 (en) Fine-grained image recognition
Wu et al. Stereo matching with fusing adaptive support weights
WO2021203795A1 (zh) 一种基于显著性密集连接扩张卷积网络的胰腺ct自动分割方法
CN111612008A (zh) 基于卷积网络的图像分割方法
CN114283164B (zh) 基于UNet3+的乳腺癌病理切片图像分割预测系统
CN114119977A (zh) 一种基于图卷积的Transformer胃癌癌变区域图像分割方法
CN113065594A (zh) 一种基于北斗数据与遥感影像融合的路网提取方法及装置
CN113177592B (zh) 一种图像分割方法、装置、计算机设备及存储介质
CN115205672A (zh) 一种基于多尺度区域注意力的遥感建筑物语义分割方法及系统
CN113486894B (zh) 一种卫星图像特征部件语义分割方法
CN112884668A (zh) 基于多尺度的轻量级低光图像增强方法
CN111860823A (zh) 神经网络训练、图像处理方法及装置、设备及存储介质
CN110992379A (zh) 一种基于方向超像素的快速图像分割方法
CN109741358A (zh) 基于自适应超图学习的超像素分割方法
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
CN111739037A (zh) 一种针对室内场景rgb-d图像的语义分割方法
CN111192320A (zh) 一种位置信息确定方法、装置、设备和存储介质
CN116664590B (zh) 基于动态对比增强磁共振图像的自动分割方法及装置
CN117437423A (zh) 基于sam协同学习和跨层特征聚合增强的弱监督医学图像分割方法及装置
CN117151162A (zh) 基于自监督与专家门控的跨解剖区域器官增量分割方法
CN108765384B (zh) 一种联合流形排序和改进凸包的显著性检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200804