CN111192278A - 语义分割方法、装置、计算机设备和计算机可读存储介质 - Google Patents

语义分割方法、装置、计算机设备和计算机可读存储介质 Download PDF

Info

Publication number
CN111192278A
CN111192278A CN201911419407.7A CN201911419407A CN111192278A CN 111192278 A CN111192278 A CN 111192278A CN 201911419407 A CN201911419407 A CN 201911419407A CN 111192278 A CN111192278 A CN 111192278A
Authority
CN
China
Prior art keywords
feature
image
feature maps
processed
semantic segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911419407.7A
Other languages
English (en)
Other versions
CN111192278B (zh
Inventor
张志强
斯海洋
俞刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Megvii Technology Co Ltd
Original Assignee
Beijing Megvii Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Megvii Technology Co Ltd filed Critical Beijing Megvii Technology Co Ltd
Priority to CN201911419407.7A priority Critical patent/CN111192278B/zh
Publication of CN111192278A publication Critical patent/CN111192278A/zh
Application granted granted Critical
Publication of CN111192278B publication Critical patent/CN111192278B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种语义分割方法、装置、计算机设备和存储介质。该方法包括:获取待处理图像;对待处理图像进行特征提取,得到多组第一特征图;对多组第一特征图中每组第一特征图进行多次池化,得到每组第一特征图对应的具有不同大小的多组第二特征图;在所有第二特征图中,将相同大小的第二特征图进行拼接后,再对拼接结果进行降维操作,得到由不同大小的多组第三特征图构成的特征金字塔;将特征金字塔中的多组第三特征图进行融合,并基于融合结果预测待处理图像对应的语义分割结果。由于该特征金字塔包含了不同大小和感受野的第三特征图,使其具有更多样的感受野和空间信息,由此基于该特征金字塔的特性来预测语义分割结果,可提升语义分割精度。

Description

语义分割方法、装置、计算机设备和计算机可读存储介质
技术领域
本申请涉及语义分割技术领域,特别是涉及一种语义分割方法、装置、计算机设备和计算机可读存储介质。
背景技术
图像语义分割是计算机视觉领域中一项重要的研究内容,其目标是将图像分割成具有不同语义信息的区域,并且标注每个区域相应的语义标签,例如:通过对一幅图像进行图像语义分割后可为图像中的物体添加语义标签(如桌子、墙壁、天空、人、狗等)。图像语义分割可应用于无人驾驶等多种领域。
传统的语义分割方法通常采用语义分割网络如ICNet、BiSeNet等神经网络来实现语义分割,然而,由于这些网络采用快速下采样且通道数较少,使得空间信息的保存不够准确,且感受野也较小,从而导致语义分割的精度不佳。
发明内容
基于此,有必要针对上述传统的语义分割方法精度不佳的技术问题,提供一种语义分割方法、装置、计算机设备和计算机可读存储介质。
一种语义分割方法,所述方法包括:
获取待处理图像;
对所述待处理图像进行特征提取,得到多组第一特征图;
对所述多组第一特征图中每组第一特征图进行多次池化,得到所述每组第一特征图对应的具有不同大小的多组第二特征图;
在所有第二特征图中,将相同大小的第二特征图进行拼接后,再对拼接结果进行降维操作,得到由不同大小的多组第三特征图构成的特征金字塔;
将所述特征金字塔中的多组第三特征图进行融合,并基于融合结果预测得到所述待处理图像对应的语义分割结果。
在其中一个实施例中,对所述多组第一特征图中每组第一特征图进行多次池化,得到所述每组第一特征图对应的具有不同大小的多组第二特征图,包括:
基于不同的池化参数,对所述多组第一特征图中每组第一特征图进行多次池化,得到所述每组第一特征图对应的具有不同大小的多组第二特征图。
在其中一个实施例中,将所述特征金字塔中的多组第三特征图进行融合,并基于融合结果预测得到所述待处理图像对应的语义分割结果,包括:
按照从小到大的先后顺序,从尺寸最小的第三特征图开始,依次进行上采样并与后一大小的第三特征图叠加融合,直至融合到预设大小的第三特征图,以得到语义特征图;
将所述语义特征图按照所述待处理图像的大小进行调整,得到所述待处理图像对应的语义分割结果。
在其中一个实施例中,所述方法还包括:
按照从小到大的先后顺序,从尺寸最小的第三特征图开始,依次进行上采样并与后一大小的第三特征图叠加融合,直至融合到预设大小的第三特征图,以得到边界特征图;
将所述语义特征图按照所述待处理图像的大小进行调整,得到所述待处理图像对应的语义分割结果,包括:
将所述语义特征图和所述边界特征图进行融合,得到融合结果;
将所述融合结果按照所述待处理图像的大小进行调整,得到所述待处理图像对应的语义分割结果。
在其中一个实施例中,将所述融合结果按照所述待处理图像的大小进行调整,得到所述待处理图像对应的语义分割结果,包括:
对所述融合结果进行卷积操作,得到卷积结果;
将所述卷积结果按照所述待处理图像的大小进行上采样,得到所述待处理图像对应的语义分割结果。
在其中一个实施例中,所述第三特征图的预设大小包括所述待处理图像的1/4或1/8。
在其中一个实施例中,对所述待处理图像进行特征提取,得到多组第一特征图,包括:
将所述待处理图像输入至主干网络中,通过所述主干网络对所述待处理图像按照不同的下采样倍数进行下采样,得到多组第一特征图,其中,每个下采样倍数对应于一组第一特征图。
一种语义分割装置,所述装置包括:
图像获取模块,用于获取待处理图像;
特征提取模块,用于对所述待处理图像进行特征提取,得到多组第一特征图;
池化模块,用于对所述多组第一特征图中每组第一特征图进行多次池化,得到所述每组第一特征图对应的具有不同大小的多组第二特征图;
融合模块,用于在所有第二特征图中,将相同大小的第二特征图进行拼接后,再对拼接结果进行降维操作,得到由不同大小的多组第三特征图构成的特征金字塔;
结果预测模块,用于将所述特征金字塔中的多组第三特征图进行融合,并基于融合结果预测得到所述待处理图像对应的语义分割结果。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待处理图像;
对所述待处理图像进行特征提取,得到多组第一特征图;
对所述多组第一特征图中每组第一特征图进行多次池化,得到所述每组第一特征图对应的具有不同大小的多组第二特征图;
在所有第二特征图中,将相同大小的第二特征图进行拼接后,再对拼接结果进行降维操作,得到由不同大小的多组第三特征图构成的特征金字塔;
将所述特征金字塔中的多组第三特征图进行融合,并基于融合结果预测得到所述待处理图像对应的语义分割结果。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待处理图像;
对所述待处理图像进行特征提取,得到多组第一特征图;
对所述多组第一特征图中每组第一特征图进行多次池化,得到所述每组第一特征图对应的具有不同大小的多组第二特征图;
在所有第二特征图中,将相同大小的第二特征图进行拼接后,再对拼接结果进行降维操作,得到由不同大小的多组第三特征图构成的特征金字塔;
将所述特征金字塔中的多组第三特征图进行融合,并基于融合结果预测得到所述待处理图像对应的语义分割结果。
上述语义分割方法、装置、计算机设备和计算机可读存储介质,通过对每组第一特征图进行多次池化得到多组第二特征图,池化后的第二特征图具有不同的大小和感受野,进而将相同大小的第二特征图进行拼接及降维,得到特征金字塔,由于该特征金字塔包含了不同大小和感受野的多组第三特征图,使其具有更多样的感受野和空间信息,由此基于该特征金字塔的特性来预测得到语义分割结果,可提升语义分割的精度。
附图说明
图1为一个实施例中语义分割方法的应用环境图;
图2为一个实施例中语义分割方法的流程示意图;
图3为一个实施例中涉及采用带类别的边界进行监督的补充方案的流程示意图;
图4为一个实施例中语义分割装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的语义分割方法,可以应用于如图1所示的应用环境中。其中,语义分割系统包括主干网络11、多特征融合模块12和多分支上采样模块13,多特征融合模块12包括多空间感知池化单元121和融合单元122,多分支上采样模块13包括分割单元131和边界单元132。具体地,主干网络11用于依据不同的下采样倍数提取不同阶段的特征,得到每个阶段对应的特征图。多空间感知池化单元121用于对主干网络11提取的每个阶段的特征图进行多次池化,进而融合单元122用于对每个阶段池化后的特征进行融合。分割单元131和边界单元132用于对融合后的结果进行上采样以及再融合,并基于最终融合后的特征预测语义分割结果。
在一个实施例中,如图2所示,提供了一种语义分割方法,以该方法应用于图1中的语义分割系统为例进行说明,包括以下步骤:
在步骤S21中,获取待处理图像。
在步骤S22中,对待处理图像进行特征提取,得到多组第一特征图。
在步骤S23中,对多组第一特征图中每组第一特征图进行多次池化,得到每组第一特征图对应的具有不同大小的多组第二特征图。
在步骤S24中,在所有第二特征图中,将相同大小的第二特征图进行拼接后,再对拼接结果进行降维操作,得到由不同大小的多组第三特征图构成的特征金字塔。
在步骤S25中,将特征金字塔中的多组第三特征图进行融合,并基于融合结果预测得到待处理图像对应的语义分割结果。
其中,第一特征图、第二特征图及第三特征图可以是三维张量。
具体地,请参照图1,图1中所示的输入数据可以是待处理图像。在待处理图像输入后,采用神经网络的主干网络对待处理图像进行特征提取,得到表征不同阶段的多组第一特征图。需要指出,由于不同阶段所配置的特征提取参数不同,因此,不同阶段的第一特征图含有不同的特征信息。例如:有的第一特征图具有丰富多样的语义信息,而有的第一特征图具有丰富多样的空间信息。
然后,多特征多空间感知池化单元121对多组第一特征图中每组第一特征图进行多次池化,得到每组第一特征图对应的具有不同大小的多组第二特征图。其中,第一特征图在经过池化之后,使得各第二特征图具有不同的大小和感受野。
之后,在所有第二特征图中,融合单元122将相同大小的第二特征图进行拼接以及降维,得到由不同大小的多组第三特征图构成的特征金字塔。
最后,可采用分割单元131基于特征金字塔的结构,将多组第三特征图依次进行融合,作为示例,假设特征金字塔中包括1/8大小的第三特征图、1/16大小的第三特征图、1/32大小的第三特征图,则融合方式可以是先对1/32大小的第三特征图进行2倍上采样到1/16大小,再和1/16大小的第三特征图进行融合,得到融合后的1/16的特征图,再对1/16的特征图进行2倍上采样到1/8大小,再和1/8大小的第三特征图进行融合,最终得到融合后的1/8的语义特征图,从而基于该1/8的语义特征图预测得到待处理图像对应的语义分割结果。需要指出,上述1/8、1/16、1/32皆是不同第三特征图大小与待处理图像大小的比值。此外,第三特征图的大小还可以是其他比值,例如更大的1、1/2,或者更小的1/512、1/1024等等。
在其他实施方式中,也可采用分割单元131和边界单元132分别对将多组第三特征图依次进行融合(融合方式如上),得到各自的融合结果,包括语义特征图和边界特征图,再将这两个特征图结果进行融合,基于融合后的特征预测得到待处理图像对应的语义分割结果。
上述语义分割方法,通过对每组第一特征图进行多次池化得到多组第二特征图,池化后的第二特征图具有不同的大小和感受野,进而将相同大小的第二特征图进行拼接及降维,得到特征金字塔,由于该特征金字塔包含了不同大小和感受野的多组第三特征图,使其具有更多样的感受野和空间信息,由此基于该特征金字塔的特性来预测得到语义分割结果,可提升语义分割的精度。
在一个实施例中,涉及对待处理图像进行特征提取,得到多组第一特征图的一种可能的实现过程。在上述实施例的基础上,步骤S22包括以下步骤:
在步骤S221中,将待处理图像输入至主干网络中,通过主干网络对待处理图像按照不同的下采样倍数进行下采样,得到多组第一特征图。
示例性地,采用在ImageNet上训练好的resnet-18神经网络中的分类网络作为主干网络,如图1所示,通过该主干网络对输入的待处理图像分别进行4倍(4x)、8倍(8x)、16倍(16x)以及32倍(32x)的下采样,也即进行不同阶段(每一阶段对应于每一倍数)的下采样,可得到四组第一特征图。可以理解,每一下采样倍数对应于一组第一特征图。另外,在其他实施方式中,下采样倍数还可以选取64倍、128倍等更高的倍数,且每一倍数也分别得到对应的第一特征图,本申请实施例对下采样倍数的选取并不做限定。需要清楚的是,4倍对应的第一特征图可以理解为低层次的特征图,8倍、16倍、32倍等对应的第一特征图可以理解为高层次的特征图。其中,低层次的特征图具有丰富的语义信息,高层次的特征图具有丰富的空间信息。
本实施例中,通过对待处理图像进行不同倍数的下采样,以得到可表征不同特征信息的第一特征图。采用这些第一特征图所具有的多样的特征信息,有助于提高语义分割的精度。
在一个实施例中,涉及对多组第一特征图中每组第一特征图进行多次池化,得到每组第一特征图对应的具有不同大小的多组第二特征图的一种可能的实现过程。在上述实施例的基础上,步骤S23包括以下步骤:
在步骤S231中,基于不同的池化参数,对多组第一特征图中每组第一特征图进行多次池化,得到每组第一特征图对应的具有不同大小的多组第二特征图。
其中,池化参数包括池化窗口的大小、相邻池化窗口的水平位移或竖直位移和下采样因子的一种或多种。
具体地,多空间感知池化单元121中预先配置了不同的池化参数。例如:池化窗口的大小可包括2^2+1、2^3+1……2^(k+1)+1,其中,k为正整数。对应地,相邻池化窗口的水平位移或竖直位移可包括2^1,2^2……2^k。多空间感知池化单元121在获得多组第一特征图之后,基于配置好的不同的池化参数,对每组第一特征图进行多次池化,针对每组第一特征图,都会对应得到多组具有不同大小和感受野的第二特征图。
本实施例中,采用多空间感知池化单元的池化操作之后,能够增大感受野且具有较好的鲁棒性,有利于提升语义分割精度。
可选地,在一个实施例中,第二特征图的大小可采用分辨率表示。作为一种实施方式,步骤S231包括步骤:对多组第一特征图中每组第一特征图进行多次池化,得到每组第一特征图对应的具有不同分辨率的多组第二特征图;
步骤S24包括步骤:在所有第二特征图中,将相同分辨率的第二特征图进行拼接后,再对拼接结果进行降维操作,得到由不同分辨率的多组第三特征图构成的特征金字塔。
具体地,请参照图1,每个SAP(Spatial Aware Pooling)单元被对应输入下采样得到的第一特征图,并完成对第一特征图的多次池化。然后,借助于SAP单元与cancat(拼接)单元的连接关系,将不同分辨率的第二特征图分别对应放入不同的cancat单元中,这样,每个cancat单元中放入了相同分辨率的第二特征图,从而在cancat单元中将相同分辨率的第二特征图进行融合,由此每一cancat单元会输出一组第三特征图,多个cancat单元共输出多组第三特征图,并构成特征金字塔。
在本实施例中,通过多次的池化操作,能够增大感受野且具有较好的鲁棒性,同时将池化结果融合,使得整个网络具有丰富的感受野和敏感的空间信息,基于该特性进行语义分割,可提升语义分割精度。
在一个实施例中,涉及将特征金字塔中的多组第三特征图进行融合,并基于融合结果预测得到待处理图像对应的语义分割结果的一种可能的实现过程。在上述实施例的基础上,步骤S25包括以下步骤:
在步骤S25a中,按照从小到大的先后顺序,从尺寸最小的第三特征图开始,依次进行上采样并与后一大小的第三特征图叠加融合,直至融合到预设大小的第三特征图,以得到语义特征图;
在步骤S25b中,将语义特征图按照待处理图像的大小进行调整,得到待处理图像对应的语义分割结果。
具体地,首先,获取特征金字塔中每组第三特征图的大小,按照从小到大的先后顺序,先对最小的第三特征图按照预设倍数进行上采样,并将上采样结果与后一大小的第三特征图进行叠加融合。接下来,对融合结果中按照预设倍数进行上采样,并将上采样结果与后一大小的第三特征图进行叠加融合。接下来,重复执行对融合结果按照预设倍数进行上采样,并将上采样结果与后一大小的第三特征图进行叠加融合的步骤,直到叠加融合至预设大小的第三特征图为止,并获取预设大小的第三特征图在叠加融合后得到的语义特征图。其中,该语义特征图用于表征待处理图像的语义信息。接下来,将语义特征图按照待处理图像的大小进行调整,得到待处理图像对应的语义分割结果。
举例而言,请参照图1,每个cancat单元与对应的上采样单元(如up_1 1/8单元、up_1 1/16单元、up_1 1/32单元等等)连接。其中,这些上采样单元配置有相应的上采样倍数以及语义特征提取参数,从而对多组第三特征图中每组第三特征图按照对应的上采样倍数进行上采样。例如,在up_1 1/1024单元中,其包含的第三特征图的大小为待处理图像大小的1/1024,通过对该第三特征图进行2倍的上采样,可得到对应的上采样结果,该上采样结果实质为大小为1/512的特征图。然后,将该上采样结果输入至up_1 1/512单元中,与该单元包含的大小为1/512的第三特征图进行叠加融合,再对融合结果进行上采样,可得到大小为1/256的特征图,并将该大小为1/256的特征图输入至up_1 1/256单元中,完成相应的叠加融合和上采样操作,以此类推,直至叠加融合至预设大小的第三特征图为止,并获取该预设大小的第三特征图在叠加融合后得到的语义特征图。可选地,第三特征图的预设大小可以是待处理图像的1/4、1/8或原图大小。最后,将语义特征图调整为待处理图像的大小,得到待处理图像对应的语义分割结果。
本实施例中,在上采样到预设大小的第三特征图之后,直接调整到待处理图像的大小,使得语义分割的过程可同时达到很高的精度和较快的速度。
在一个实施例中,请参阅图3,该方法还包括以下步骤:
在步骤S26中,按照从小到大的先后顺序,从尺寸最小的第三特征图开始,依次进行上采样并与后一大小的第三特征图叠加融合,直至融合到预设大小的第三特征图,以得到边界特征图;
步骤S25b包括以下步骤:
在步骤S251中,将语义特征图和边界特征图进行融合,得到融合结果;
在步骤S252中,将融合结果按照待处理图像的大小进行调整,得到待处理图像对应的语义分割结果。
具体地,首先,获取特征金字塔中每组第三特征图的大小,按照从小到大的先后顺序,先对最小的第三特征图中按照预设倍数进行上采样,并将上采样结果与后一大小的第三特征图进行叠加融合。接下来,对融合结果按照预设倍数进行上采样,并将上采样结果与后一大小的第三特征图进行叠加融合。接下来,重复执行对融合结果按照预设倍数进行上采样,并将上采样结果与后一大小的第三特征图进行叠加融合的步骤,直到叠加融合至预设大小的第三特征图为止,并获取预设大小的第三特征图在叠加融合后得到的边界特征图。其中,该边界特征图用于表征待处理图像的边界信息。之后,将语义特征图与边界特征图进行融合,得到融合结果。接下来,将融合结果按照待处理图像的大小进行调整,得到待处理图像对应的语义分割结果。
在本实施例中,采用两条独立的上采样分支,分别是分割单元131对应的分支和边界单元132对应的分支。可选地,该上采样分支可以是U-shape结构。其中,边界单元132对应的分支可实现通过带类别的边界进行监督的作用。
举例而言,请参照图1,在边界单元132中,首先将1/1024的第三特征图中上采样至1/512大小之后,与前面的1/512的第三特征图叠加融合得到大小为1/512的融合结果。再对1/512的融合结果上采样至1/256大小之后,与前面的1/256的第三特征图叠加融合得到大小为1/256的融合结果。依此类推,直至叠加融合至1/8的第三特征图,并得到大小为1/8的融合结果,该融合结果实质为1/8大小的边界特征图。之后,将都为1/8大小的语义特征图和边界特征图进行融合,得到融合结果,可以理解,该融合结果的大小为待处理图像大小的1/8。最后,将融合结果按照待处理图像的大小进行调整,并基于调整结果预测得到待处理图像对应的语义分割结果。
需要指出,分割单元中的分支和边界单元中的分支使用相同的结构,但参数不共享。
在本实施例中,采用两条独立的上采样分支,并用带类别的边界来有效地监督网络边缘信息,最后将其融合,从而能够有效提升网络对于信息和小物体的语义分割性能。
在一个实施例中,步骤S252包括步骤:对融合结果进行卷积操作,得到卷积结果;将卷积结果按照待处理图像的大小进行上采样,得到待处理图像对应的语义分割结果。具体地,首先,对融合结果依据depthwise convolution方式进行3x3的卷积操作,从而得到一个通道所输出的特征,即卷积结果。接下来,将卷积结果按照待处理图像的大小进行上采样,以实现大小的调整,从而得到待处理图像对应的语义分割结果。
应该理解的是,虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种语义分割装置30,其中,该语义分割装置30包括:
图像获取模块302,用于获取待处理图像;
特征提取模块304,用于对待处理图像进行特征提取,得到多组第一特征图;
池化模块306,用于对多组第一特征图中每组第一特征图进行多次池化,得到每组第一特征图对应的具有不同大小的多组第二特征图;
融合模块308,用于在所有第二特征图中,将相同大小的第二特征图进行拼接后,再对拼接结果进行降维操作,得到由不同大小的多组第三特征图构成的特征金字塔;
结果生成模块310,用于将特征金字塔中的多组第三特征图进行融合,并基于融合结果预测得到待处理图像对应的语义分割结果。
上述语义分割装置,通过对每组第一特征图进行多次池化得到多组第二特征图,池化后的第二特征图具有不同的大小和感受野,进而将相同大小的第二特征图进行拼接及降维,得到特征金字塔,由于该特征金字塔包含了不同大小和感受野的多组第三特征图,使其具有更多样的感受野和空间信息,由此基于该特征金字塔的特性来预测得到语义分割结果,可提升语义分割的精度。
关于语义分割装置的具体限定可以参见上文中对于语义分割方法的限定,在此不再赘述。上述语义分割装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语义分割方法。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取待处理图像;
对待处理图像进行特征提取,得到多组第一特征图;
对多组第一特征图中每组第一特征图进行多次池化,得到每组第一特征图对应的具有不同大小的多组第二特征图;
在所有第二特征图中,将相同大小的第二特征图进行拼接后,再对拼接结果进行降维操作,得到由不同大小的多组第三特征图构成的特征金字塔;
将特征金字塔中的多组第三特征图进行融合,并基于融合结果预测得到待处理图像对应的语义分割结果。
上述计算机设备,通过对每组第一特征图进行多次池化得到多组第二特征图,池化后的第二特征图具有不同的大小和感受野,进而将相同大小的第二特征图进行拼接及降维,得到特征金字塔,由于该特征金字塔包含了不同大小和感受野的多组第三特征图,使其具有更多样的感受野和空间信息,由此基于该特征金字塔的特性来预测得到语义分割结果,可提升语义分割的精度。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取待处理图像;
对待处理图像进行特征提取,得到多组第一特征图;
对多组第一特征图中每组第一特征图进行多次池化,得到每组第一特征图对应的具有不同大小的多组第二特征图;
在所有第二特征图中,将相同大小的第二特征图进行拼接后,再对拼接结果进行降维操作,得到由不同大小的多组第三特征图构成的特征金字塔;
将特征金字塔中的多组第三特征图进行融合,并基于融合结果预测得到待处理图像对应的语义分割结果。
上述计算机可读存储介质,通过对每组第一特征图进行多次池化得到多组第二特征图,池化后的第二特征图具有不同的大小和感受野,进而将相同大小的第二特征图进行拼接及降维,得到特征金字塔,由于该特征金字塔包含了不同大小和感受野的多组第三特征图,使其具有更多样的感受野和空间信息,由此基于该特征金字塔的特性来预测得到语义分割结果,可提升语义分割的精度。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。

Claims (10)

1.一种语义分割方法,其特征在于,所述方法包括:
获取待处理图像;
对所述待处理图像进行特征提取,得到多组第一特征图;
对所述多组第一特征图中每组第一特征图进行多次池化,得到所述每组第一特征图对应的具有不同大小的多组第二特征图;
在所有第二特征图中,将相同大小的第二特征图进行拼接后,再对拼接结果进行降维操作,得到由不同大小的多组第三特征图构成的特征金字塔;
将所述特征金字塔中的多组第三特征图进行融合,并基于融合结果预测得到所述待处理图像对应的语义分割结果。
2.根据权利要求1所述的方法,其特征在于,对所述多组第一特征图中每组第一特征图进行多次池化,得到所述每组第一特征图对应的具有不同大小的多组第二特征图,包括:
基于不同的池化参数,对所述多组第一特征图中每组第一特征图进行多次池化,得到所述每组第一特征图对应的具有不同大小的多组第二特征图。
3.根据权利要求1所述的方法,其特征在于,将所述特征金字塔中的多组第三特征图进行融合,并基于融合结果预测得到所述待处理图像对应的语义分割结果,包括:
按照从小到大的先后顺序,从尺寸最小的第三特征图开始,依次进行上采样并与后一大小的第三特征图叠加融合,直至融合到预设大小的第三特征图,以得到语义特征图;
将所述语义特征图按照所述待处理图像的大小进行调整,得到所述待处理图像对应的语义分割结果。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
按照从小到大的先后顺序,从尺寸最小的第三特征图开始,依次进行上采样并与后一大小的第三特征图叠加融合,直至融合到预设大小的第三特征图,以得到边界特征图;
将所述语义特征图按照所述待处理图像的大小进行调整,得到所述待处理图像对应的语义分割结果,包括:
将所述语义特征图和所述边界特征图进行融合,得到融合结果;
将所述融合结果按照所述待处理图像的大小进行调整,得到所述待处理图像对应的语义分割结果。
5.根据权利要求4所述的方法,其特征在于,将所述融合结果按照所述待处理图像的大小进行调整,得到所述待处理图像对应的语义分割结果,包括:
对所述融合结果进行卷积操作,得到卷积结果;
将所述卷积结果按照所述待处理图像的大小进行上采样,得到所述待处理图像对应的语义分割结果。
6.根据权利要求3-5任一所述的方法,其特征在于,所述第三特征图的预设大小包括所述待处理图像的1/4或1/8。
7.根据权利要求1-5任一所述的方法,其特征在于,对所述待处理图像进行特征提取,得到多组第一特征图,包括:
将所述待处理图像输入至主干网络中,通过所述主干网络对所述待处理图像按照不同的下采样倍数进行下采样,得到多组第一特征图,其中,每个下采样倍数对应于一组第一特征图。
8.一种语义分割装置,其特征在于,所述装置包括:
图像获取模块,用于获取待处理图像;
特征提取模块,用于对所述待处理图像进行特征提取,得到多组第一特征图;
池化模块,用于对所述多组第一特征图中每组第一特征图进行多次池化,得到所述每组第一特征图对应的具有不同大小的多组第二特征图;
融合模块,用于在所有第二特征图中,将相同大小的第二特征图进行拼接后,再对拼接结果进行降维操作,得到由不同大小的多组第三特征图构成的特征金字塔;
结果预测模块,用于将所述特征金字塔中的多组第三特征图进行融合,并基于融合结果预测得到所述待处理图像对应的语义分割结果。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN201911419407.7A 2019-12-31 2019-12-31 语义分割方法、装置、计算机设备和计算机可读存储介质 Active CN111192278B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911419407.7A CN111192278B (zh) 2019-12-31 2019-12-31 语义分割方法、装置、计算机设备和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911419407.7A CN111192278B (zh) 2019-12-31 2019-12-31 语义分割方法、装置、计算机设备和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111192278A true CN111192278A (zh) 2020-05-22
CN111192278B CN111192278B (zh) 2023-10-24

Family

ID=70710564

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911419407.7A Active CN111192278B (zh) 2019-12-31 2019-12-31 语义分割方法、装置、计算机设备和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111192278B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111899263A (zh) * 2020-07-14 2020-11-06 深圳大学 图像分割方法、装置、计算机设备及存储介质
CN112132834A (zh) * 2020-09-18 2020-12-25 中山大学 一种心室图像分割方法、系统、装置及存储介质
CN112966791A (zh) * 2021-04-30 2021-06-15 平安科技(深圳)有限公司 基于语义分割的图像分类方法、装置、设备及介质
CN113420641A (zh) * 2021-06-21 2021-09-21 梅卡曼德(北京)机器人科技有限公司 图像数据处理方法、装置、电子设备和存储介质
CN113762396A (zh) * 2021-09-10 2021-12-07 西南科技大学 一种二维图像语义分割方法
CN114827482A (zh) * 2021-01-28 2022-07-29 北京字节跳动网络技术有限公司 图像亮度的调整方法、装置、电子设备及介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480206A (zh) * 2017-07-25 2017-12-15 杭州电子科技大学 一种基于多模态低秩双线性池化的图像内容问答方法
US20190012790A1 (en) * 2017-07-05 2019-01-10 Canon Kabushiki Kaisha Image processing apparatus, training apparatus, image processing method, training method, and storage medium
CN109447990A (zh) * 2018-10-22 2019-03-08 北京旷视科技有限公司 图像语义分割方法、装置、电子设备和计算机可读介质
CN109584246A (zh) * 2018-11-16 2019-04-05 成都信息工程大学 基于多尺度特征金字塔的dcm心肌诊疗放射影像分割方法
US20190164290A1 (en) * 2016-08-25 2019-05-30 Intel Corporation Coupled multi-task fully convolutional networks using multi-scale contextual information and hierarchical hyper-features for semantic image segmentation
CN110363134A (zh) * 2019-07-10 2019-10-22 电子科技大学 一种基于语义分割的人脸遮挡区定位方法
CN110428428A (zh) * 2019-07-26 2019-11-08 长沙理工大学 一种图像语义分割方法、电子设备和可读存储介质
CN110427509A (zh) * 2019-08-05 2019-11-08 山东浪潮人工智能研究院有限公司 一种基于深度学习的多尺度特征融合图像哈希检索方法及系统
CN110633706A (zh) * 2019-08-02 2019-12-31 杭州电子科技大学 一种基于金字塔网络的语义分割方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190164290A1 (en) * 2016-08-25 2019-05-30 Intel Corporation Coupled multi-task fully convolutional networks using multi-scale contextual information and hierarchical hyper-features for semantic image segmentation
US20190012790A1 (en) * 2017-07-05 2019-01-10 Canon Kabushiki Kaisha Image processing apparatus, training apparatus, image processing method, training method, and storage medium
CN107480206A (zh) * 2017-07-25 2017-12-15 杭州电子科技大学 一种基于多模态低秩双线性池化的图像内容问答方法
CN109447990A (zh) * 2018-10-22 2019-03-08 北京旷视科技有限公司 图像语义分割方法、装置、电子设备和计算机可读介质
CN109584246A (zh) * 2018-11-16 2019-04-05 成都信息工程大学 基于多尺度特征金字塔的dcm心肌诊疗放射影像分割方法
CN110363134A (zh) * 2019-07-10 2019-10-22 电子科技大学 一种基于语义分割的人脸遮挡区定位方法
CN110428428A (zh) * 2019-07-26 2019-11-08 长沙理工大学 一种图像语义分割方法、电子设备和可读存储介质
CN110633706A (zh) * 2019-08-02 2019-12-31 杭州电子科技大学 一种基于金字塔网络的语义分割方法
CN110427509A (zh) * 2019-08-05 2019-11-08 山东浪潮人工智能研究院有限公司 一种基于深度学习的多尺度特征融合图像哈希检索方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邹亚君;李翌昕;马尽文;: "基于深度学习的酒标分割研究" *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111899263A (zh) * 2020-07-14 2020-11-06 深圳大学 图像分割方法、装置、计算机设备及存储介质
CN111899263B (zh) * 2020-07-14 2023-10-17 深圳大学 图像分割方法、装置、计算机设备及存储介质
CN112132834A (zh) * 2020-09-18 2020-12-25 中山大学 一种心室图像分割方法、系统、装置及存储介质
CN112132834B (zh) * 2020-09-18 2023-09-29 中山大学 一种心室图像分割方法、系统、装置及存储介质
CN114827482A (zh) * 2021-01-28 2022-07-29 北京字节跳动网络技术有限公司 图像亮度的调整方法、装置、电子设备及介质
CN114827482B (zh) * 2021-01-28 2023-11-03 抖音视界有限公司 图像亮度的调整方法、装置、电子设备及介质
CN112966791A (zh) * 2021-04-30 2021-06-15 平安科技(深圳)有限公司 基于语义分割的图像分类方法、装置、设备及介质
CN112966791B (zh) * 2021-04-30 2024-05-28 平安科技(深圳)有限公司 基于语义分割的图像分类方法、装置、设备及介质
CN113420641A (zh) * 2021-06-21 2021-09-21 梅卡曼德(北京)机器人科技有限公司 图像数据处理方法、装置、电子设备和存储介质
CN113762396A (zh) * 2021-09-10 2021-12-07 西南科技大学 一种二维图像语义分割方法

Also Published As

Publication number Publication date
CN111192278B (zh) 2023-10-24

Similar Documents

Publication Publication Date Title
CN111192278A (zh) 语义分割方法、装置、计算机设备和计算机可读存储介质
CN112184687B (zh) 基于胶囊特征金字塔的道路裂缝检测方法和存储介质
CN111696110B (zh) 场景分割方法及系统
CN112733919B (zh) 基于空洞卷积和多尺度多分支的图像语义分割方法及系统
CN113139543B (zh) 目标对象检测模型的训练方法、目标对象检测方法和设备
CN111191533A (zh) 行人重识别的处理方法、装置、计算机设备和存储介质
CN112949507A (zh) 人脸检测方法、装置、计算机设备及存储介质
CN113642585B (zh) 图像处理方法、装置、设备、存储介质及计算机程序产品
CN112183295A (zh) 行人重识别方法、装置、计算机设备及存储介质
CN112785542B (zh) 遥感影像转换网络地图方法、装置、计算机设备和介质
CN112541918A (zh) 基于自注意力机制神经网络的三维医学图像分割方法
CN113065551B (zh) 利用深度神经网络模型执行图像分割的方法
CN112016502B (zh) 安全带检测方法、装置、计算机设备及存储介质
CN113901900A (zh) 一种同源或异源遥感图像用无监督变化检测方法及系统
CN112132216B (zh) 车型识别方法、装置、电子设备及存储介质
CN117409412A (zh) 一种基于细节增强的双分辨率实时语义分割方法
CN113205519A (zh) 一种基于多支路特征融合的图像分割方法及系统
CN116740527A (zh) U型网络与自注意力机制结合的遥感图像变化检测方法
CN116188907A (zh) 图像处理方法、语义分割模型的训练方法及装置
CN112580656A (zh) 一种端到端的文本检测方法、系统、终端及存储介质
CN117726513A (zh) 一种基于彩色图像引导的深度图超分辨率重建方法及系统
CN115294337B (zh) 训练语义分割模型的方法、图像语义分割方法及相关装置
CN116486071A (zh) 图像分块特征提取方法、装置及存储介质
CN112966791B (zh) 基于语义分割的图像分类方法、装置、设备及介质
CN112507872B (zh) 人体头肩区域的定位方法、定位装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant