CN114223019A - 用于参数有效的语义图像分割的反馈解码器 - Google Patents
用于参数有效的语义图像分割的反馈解码器 Download PDFInfo
- Publication number
- CN114223019A CN114223019A CN202080056954.8A CN202080056954A CN114223019A CN 114223019 A CN114223019 A CN 114223019A CN 202080056954 A CN202080056954 A CN 202080056954A CN 114223019 A CN114223019 A CN 114223019A
- Authority
- CN
- China
- Prior art keywords
- convolutional layer
- encoder
- filter
- decoder
- filter kernel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003709 image segmentation Methods 0.000 title claims abstract description 24
- 238000000034 method Methods 0.000 claims abstract description 59
- 238000013528 artificial neural network Methods 0.000 claims abstract description 9
- 238000012545 processing Methods 0.000 claims description 54
- 238000012549 training Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 11
- 230000006870 function Effects 0.000 description 8
- 230000015654 memory Effects 0.000 description 8
- 238000001514 detection method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000011176 pooling Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 5
- 238000009825 accumulation Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biodiversity & Conservation Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
一种涉及构建用于提供语义图像分割的编码器和解码器神经网络的系统和方法,包括生成包括编码卷积层的编码器,每个编码卷积层使用相应的第一滤波器内核指定编码滤波器操作,生成对应于编码器的解码器,该解码器包括解码卷积层,每个解码卷积层与相应的编码卷积层相关联,并且每个解码卷积层使用从相应的编码器卷积层的第一滤波器内核导出的相应的第二滤波器内核来指定解码滤波器操作,并向编码器和解码器提供输入图像以用于语义图像分割。
Description
相关申请的交叉引用
本申请要求于2019年7月1日提交的美国临时申请62/869,253的优先权,其内容通过引用整体并入。
技术领域
本公开涉及检测图像中的对象,并且具体地,涉及用于参数有效的语义图像分割的反馈解码器的系统和方法。
背景技术
被编程以检测环境中的物体的计算机系统具有广泛的工业应用。例如,自动驾驶车辆可以配备传感器(例如,激光雷达传感器和摄像机)以捕获车辆周围的传感器数据。此外,自动驾驶车辆可以配备计算机系统,该计算机系统包括处理装置以执行可执行代码,用于基于传感器数据检测车辆周围的物体。
附图说明
通过以下给出的详细描述以及根据本公开的各种实施例的附图,将更充分地理解本公开。然而,附图不应被视为将本公开限制于特定实施例,而仅用于解释和理解。
图1示出了根据本公开的实施方式的用于语义图像分割的系统。
图2描绘了根据本公开的实施方式的使用包括反馈解码器的语义图像分割来检测图像中的对象的方法的流程图。
图3示出了根据本公开的实施方式的可以基于输出通道的数量划分为五个块的全卷积层的示例。
图4描绘了根据本公开的实施方式的构建编码器和解码器网络并将编码器和解码器应用于输入图像的方法的流程图。
图5描绘了根据本公开的一个或多个方面操作的计算机系统的框图。
具体实施方式
基于图像的对象检测方法可以依赖机器学习来自动检测和分类图像中的对象。机器学习图像分割方法之一是语义分割。给定一个图像(例如,像素阵列,其中每个像素由一个或多个强度值通道(例如,红色、绿色、蓝色值或范围数据值)表示),图像分割的任务是根据成像器中显示的场景来识别图像中的区域。语义分割可以将图像的每个像素与类标签(例如,人类对象、道路或云的标签)相关联,其中类的数量可以预先指定。基于与像素相关联的类标签,可以使用对象检测层来检测图像中的对象。
为此,语义图像分割的当前实施方式可以采用编码器-解码器网络来执行分类任务。编码器可以包括称为全卷积网络的卷积层。卷积层可以包括对输入数据(称为输入特征图)应用滤波器(称为内核)以生成滤波后的特征图(称为输出特征图),然后可选地对滤波后的特征图应用最大池化操作,以将滤波后的特征图降低到较低的分辨率(即较小的尺寸)。例如,每个滤波器层可以将分辨率降低一半。一个内核可以对应于一种类别的对象。当存在多种类别的对象时,可以将多个内核应用于特征图以生成较低分辨率的滤波后的特征图。虽然全连接层可以实现对图像中物体的检测,但全连接层(不会通过层降低图像分辨率)与一个大的权重参数集合相关联,可能需要大量的计算机资源来学习。与全连接层相比,卷积层减小了特征图的大小,从而使像素级分类在计算上更可行和更有效地实现。虽然多个卷积层可以生成一组丰富的特征,但分层卷积和池化的过程会降低对象检测的空间分辨率。
为了解决空间分辨率低的缺陷,语义图像分割的当前实施方式可以进一步采用解码器,从编码器获取输出特征图,以对编码器的最终结果进行上采样。上采样可以包括一系列解码层,这些解码层可以将较低分辨率的图像转换为较高分辨率的图像,直到达到原始输入图像的分辨率。在一些实施方式中,解码层可以包括以分数步长(例如,以沿着x和y方向的1/4步长)将内核滤波器应用于较低分辨率的图像。
编码器和解码器一起形成编码器和解码器网络。虽然可以在训练过程中使用为不同类别的对象设计不同的内核的训练数据集来学习编码器的内核,但解码器通常没有预先训练并且在实践中很难训练。此外,解码器的当前实施方式与编码器解耦并独立。由于这些原因,解码器通常不会调整到最佳状态,从而成为编码器-解码器网络的性能瓶颈。
为了克服上述和其他缺陷,本公开的实施方式提供了一种系统和方法,该系统和方法可以直接从解码器的卷积层的相应内核滤波器W导出解码器的解码层的内核滤波器W'。以这种方式,无需训练,就可以基于编码器快速构建解码器。实验表明,包含从编码器导出的解码器的编码器-解码器网络可以使用一个小的参数集合实现出色的语义图像分割性能。
计算机系统可用于实现所公开的系统和方法。图1示出了根据本公开的实施方式的用于语义图像分割的系统100。如图1所示,系统100可以包括处理装置102、加速器电路104和存储器装置106。系统100可以可选地包括传感器,例如图像照相机118。系统100可以是计算系统(例如,自动驾驶车辆上的计算系统)或片上系统(SoC)。处理装置102可以是硬件处理器,例如中央处理单元(CPU)、图形处理单元(GPU)或通用处理单元。在一种实施方式中,处理装置102可以被编程以执行某些任务,包括将计算密集型任务委托给加速器电路104。
加速器电路104可以通信地耦合到处理装置102以使用其中的专用电路来执行计算密集型任务。专用电路可以是专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、网络处理器等。在一种实施方式中,加速器电路104可以包括多个计算电路元件(CCE),它们是可以被编程以执行某种类型的计算的电路单元。例如,为了实现神经网络,可以在处理装置102的指令下对CCE进行编程,以执行诸如加权求和、卷积、点积和激活函数(例如,ReLU)之类的操作。因此,可以对每个CCE进行编程,以执行与神经网络的节点相关联的计算;加速器电路104的一组CCE可以被编程为编码器-解码器网络中的节点层(可见层或隐藏层);加速器电路104的多组CCE可以被编程以用作编码器-解码器网络的节点层。在一种实施方式中,除了执行计算之外,CCE还可以包括本地存储装置(例如,寄存器)(未示出)以存储在计算中使用的参数(例如,内核和特征图)。因此,为了描述的简洁,本公开中的每个CCE对应于实现与编码器-解码器网络的节点相关联的参数的计算的电路元件。可以用指令对处理装置102进行编程,以构建编码器-网络的架构并为特定任务训练编码器-解码器网络。
存储器装置106可以包括通信地耦合到处理装置102和加速器电路104的存储装置。在一种实施方式中,存储器装置106可以将输入数据114存储到由处理装置102执行的语义图像分割程序108并存储通过执行语义图像分割程序108生成的输出数据116。输入数据114可以是由图像照相机118捕获的全分辨率的图像(称为特征图)。此外,输入数据114可以包括滤波器(称为内核),其已使用现有数据库(例如,公开可用的ImageNet数据库)进行训练。输出数据116可以包括通过执行语义图像分割程序生成的中间结果和最终分割结果。最终结果可以是具有与原始输入图像一样的分辨率的特征图,其中每个像素被标记为属于特定类别的对象。
在一种实施方式中,处理装置102可以被编程为执行语义图像分割程序108,该程序在被执行时可以基于输入图像检测不同类别的对象。如上所述,使用应用于由摄像机118捕获的全分辨率图像帧的全连接神经网络的对象检测消耗大量计算资源。相反,本公开的实施方式使用包括编码器-解码器网络的语义图像分割来实现对象检测。本公开的解码器的滤波器内核直接由编码器中使用的滤波器内核构建。解码器的构建不需要训练过程。这样构建的解码器可以在不需要训练的情况下实现良好的性能。
参考图1,由处理装置102执行的语义图像分割程序108可以包括编码器-解码器网络。在一种实施方式中,编码器110和解码器112的卷积层可以在加速器电路104上实现以减少处理装置102的计算负担。可替代地,当加速器电路104不可用时,编码器110和解码器112的卷积层可以在处理装置102上实现。
根据一种实施方式,输入图像可以包括具有根据所度量的像素数量表示的宽度(W)和高度(H)的像素阵列。图像分辨率可以定义为每单位面积的像素数。因此,W和/或H越高,图像分辨率越高。对于彩色图像,每个像素可以包括多个通道(例如,RGB表示红色、绿色、蓝色分量的强度值和/或范围数据值)。因此,全分辨率的输入图像可以表示为形如I(p(y,x),c)的张量,其中p表示一个像素,x是沿x轴的索引值,y是沿y轴的索引值。每个像素可以与对应于通道(R,G,B)的三个颜色值c(r,g,b)相关联。因此,I是张量数据对象(或三层二维数组)。编码器110可以包括一系列卷积层。卷积层L可以表示为具有单位步长的L=Convolution2D(c1,c2,(m,n)),其中c1是该层的输入通道数,c2是该层的输出通道数,m是滤波器内核高度,n是滤波器内核宽度。每一层可以接收一个输入特征图,表示为一个给定的层L可以产生输出特征图其中输出特征图中的通道数(c2)可以与输入特征图中的通道数(c1)不同。输出特征图可以通过步长s和t的池化操作进一步下采样到张量
如果c1=c2(即L既不扩展也不收缩通道维度),本公开的实施方式使用卷积层L作为相应的解码层L',而不是添加新层。当卷积层L改变通道维度时(即c1≠c2),卷积层L不可以直接用作解码层L'。然而,解码层L'可以从相应的卷积层L导出。
为了从A变换到B,底层卷积层L可以使用权重张量作为应用于A的变换张量。同样,为了从B'变换到A',底层变换可以需要一个权重张量有很多方法可以从W导出W'。在一种实施方式中,通过转置W的维度从W导出W',以便W具有与W's所需的维度相同的维度。换句话说,可以通过针对 交换输入通道维度c1和输出通道维度c2而导出。因此,卷积层能够通过应用W在前向传递中将特征投影到不同的维度,并通过应用W'在相反的后向传递中反转效果。从W导出的W'可以保留W中最初卷积滤波器的内部结构。
具体而言,可以表示为滤波器矩阵其项是卷积滤波器其中0≤i<c1并且0≤j<c2。在编码器的前向传递中,WF中的每一列滤波器作为一个组工作,以在每个空间位置(例如,每个像素位置)处输出一个数字。对于解码器的后向传递,是通过交换的输入通道维度和输出通道维度来转置 而导出的。因为W'F中的每一列曾经是WF中的一行,所以将W'F的卷积滤波器分组为列相当于将W的卷积滤波器分组为行。这意味着卷积权重通过重组用于通道扩展和通道收缩,同时它们的值保持不变。
图2描绘了根据本公开的实施方式的使用包括反馈解码器的语义图像分割来检测图像中的对象的方法200的流程图。方法200可以由包括硬件(例如,电路、专用逻辑)、计算机可读指令(例如,在通用计算机系统或专用机器上运行)或两者的组合的处理装置来执行。方法200及其各个功能、例程、子例程或操作中的每一个可以由执行该方法的计算机装置的一个或多个处理器来执行。在某些实施方式中,方法200可以由单个处理线程执行。可替代地,方法200可以由两个或更多个处理线程执行,每个线程执行方法的一个或多个功能、例程、子例程或操作。
为了解释的简单,本公开的方法被描绘和描述为一系列动作。然而,根据本公开的动作可以以各种顺序和/或同时发生,并且与本文未呈现和描述的其他动作一起发生。此外,实施根据所公开主题的方法可能不需要所有示出的动作。此外,本领域技术人员将理解和明白,这些方法可以替代地经由状态图或事件表示为一系列相互关联的状态。此外,应当理解,本说明书中公开的方法能够存储在制品上,以便于将这些方法运输和转移到计算装置。如本文所用,术语“制品”旨在涵盖可从任何计算机可读装置或存储介质访问的计算机程序。在一种实施方式中,方法200可以由如图1所示的执行语义图像分割程序108的处理装置102和加速器电路104来执行。
在202处,处理装置可以接收全分辨率的输入图像(特征图)以及已经被训练以检测不同类别中的对象的滤波器内核Ws。输入图像可以是二维像素阵列,每个像素包括预设数量的通道(例如,RGB)。滤波器内核可以包括参数值的二维数组,这些参数值可以在滤波器操作(例如,卷积操作)中应用于输入图像的像素。
在204,处理装置可以执行包括多个卷积层的编码器。通过这些卷积层,处理装置可以将滤波器内核Ws依次应用于输入特征图,然后对滤波后的特征图进行下采样,直到达到最低分辨率结果。在一种实施方式中,每个卷积层可以包括将一个或多个滤波器内核应用到特征图以及对滤波后的特征图进行下采样。通过卷积层的应用,可以将特征图的分辨率降低到目标分辨率。
在206,处理装置可以在后向传递中确定用于解码器的滤波器内核W's。解码器滤波器用于将滤波后的特征图的分辨率从目标分辨率(最低)增加到原始特征图(即输入图像)的分辨率。如上所述,编码器可以包括一系列滤波器内核Ws,每个滤波器内核可以具有相应的W',该相应的W'可以直接从相应的W导出。在一种实施方式中,当通道的数量通过前向滤波改变时,W's的元素可以通过将相应Ws的列与行交换来导出。
在208,处理装置可以执行包括多个解码层的解码器。通过这些解码层,处理装置可以首先使用插值对较低分辨率的特征图进行上采样,然后将W's滤波器内核应用于特征图。这个过程从最低分辨率的特征图开始,直到达到原始图像的全分辨率,以生成最终的对象检测结果。
本公开的实施方式可以实现对现有方法显著的性能改进。在如图3所示的一个实施方式中,所公开的语义图像分割被构建为在编码器的前向传递中包括13个卷积层。卷积层可以包括滤波器内核W。解码器也可以包括13个解码层,其滤波器W's是通过转置W的权重导出的。编码器-解码器网络中的每一层都可以跟随着一个ReLU激活函数,除了最后一个跟随着一个SoftMax操作。解码器中还有一层(第14层)是从头开始训练的,用于对象分类。
图3示出了根据本公开的实施方式的编码器-解码器网络300。编码器-解码器网络300可以是深度学习卷积神经网络的实现。如图3所示,前向传递(编码器阶段)可以包括13个卷积层,划分为五个块(块1-5)。输入图像可以包括像素阵列(例如,1024x 2048像素),其中每个像素可以包括多个数据值通道(例如,RGB)。输入图像可以被馈送到包括滤波器操作的13个卷积层的前向滤波器流水线中。每个卷积层可以将滤波器内核Wi-j应用于从先前卷积层接收的输入特征图,其中i表示块标识符(i=1,...,5),j表示第i个块内的第j个卷积。卷积层1的输入特征图是输入图像,卷积层1的滤波输出可以是块1中卷积层2的输入特征图。滤波器内核Wi-j可以应用于输入特征图的每个像素。如果滤波器内核可以保持或改变从输入特征图到输出特征图的通道数。此外,每个卷积层还可以包括归一化操作以移除由卷积层生成的偏差。
前向传递中的块之间的转换(例如,从块1到块2、从块2到块3、从块3到块4、以及从块4到块5)可以包括最大池化操作,其可对特征图进行下采样,降低特征图的分辨率。因此,输入图像可在编码器前向传递中进行卷积和下采样操作,这会将输入图像的分辨率降低到最小目标分辨率。编码器的输出可以被馈送到解码器的后向传递中。
后向传递可以使用插值、累加和滤波(卷积)操作将特征图从目标最小分辨率转换回输入图像的全分辨率。后向传递可以相应地包括13个卷积层。解码器中的13个卷积层中的每一个都与编码器中的相应层相匹配。此外,后向传递可以包括插值和累加操作。而在前向传递中,相邻块通过最大池化分离。在后向传递中,相邻块通过插值分离。在一个示例中,可以通过最近邻插值来实现插值。插值操作可以通过在块之间的边界处从较低分辨率上采样到较高分辨率来增加特征图的分辨率。累加操作可以执行前向传递中的特征图与后向传递中的相应特征图的逐像素相加。例如,一旦到达最后一层(在U形转弯处),下采样之后跟随着上采样会反转信息流的方向。后向传递中深度d处的特征图与前向传递中深度d-1处的特征图在累加操作中相加,形成一个融合特征图。唯一的例外是深度0处的特征图,它直接馈送到最终分类器中。然后将深度d处的融合特征图馈送到后向传递中深度d-1处的卷积层,以生成深度d-1处的反馈特征。
在后向传递中,可以从前向传递的相应卷积层中使用的滤波器内核导出滤波器内核,而不是为卷积层独立地生成滤波器内核(例如,通过单独的训练过程)。如果后向传递中的卷积层不改变通道维度(即输入特征图的通道数与通过卷积层的输出特征图相同),则后向传递中的滤波器内核Wi-j ’可以使用在前向传递中的相同的相应滤波器内核Wi-j而无需更改。如果后向传递中的卷积层改变了通道维度(例如,从c1到c2),则后向传递中的滤波器内核Wi-j'的数据元素可以是前向传递中的相应滤波器内核Wi-j中的数据元素的置换(例如,Wi-j'可以是Wi-j的转置)。通过这种方式,后向传递的滤波器内核可以直接从前向传递的滤波器内核导出,而无需训练过程,同时仍然为编码器和解码器网络实现良好的性能。
图4描绘了根据本公开的实施方式的构建编码器和解码器网络并将编码器和解码器应用于输入图像以进行语义图像分割的方法400的流程图。方法400可以由包括硬件(例如,电路、专用逻辑)、计算机可读指令(例如,在通用计算机系统或专用机器上运行)或两者的组合的处理装置来执行。方法200及其各个功能、例程、子例程或操作中的每一个可以由执行该方法的计算机装置的一个或多个处理器来执行。在某些实施方式中,方法400可以由单个处理线程执行。可替代地,方法400可以由两个或更多个处理线程执行,每个线程执行方法的一个或多个单独的功能、例程、子例程或操作。
参考图4,在402,处理装置可以生成包括卷积层的编码器。编码器的每个卷积层可以使用相应的第一滤波器内核来指定滤波器操作。编码器中的卷积层可以形成一个滤波器操作流水线,其中每个卷积层可以接收输入特征图,通过将卷积层的滤波器内核应用到输入特征图上以生成输出特征图来执行滤波器操作,以及将输出特征图作为输入特征图提供给编码器的滤波器操作流水线中的下一个卷积层。沿着滤波器操作流水线,编码器还可以包括下采样操作(例如,最大池化操作)以降低输入特征图的分辨率。编码器的滤波器操作流水线最终可生成目标最小分辨率的特征图。在一种实施方式中,使用训练数据集(例如,公开可用的ImageNet数据集)训练编码器的滤波器操作流水线中的滤波器内核以进行对象识别。
在404,处理装置可以生成对应于编码器的解码器。解码器还可以包括卷积层,其中解码器的每个卷积层可以与编码器的相应卷积层相关联。因此,如图3所示,如果编码器包括13个卷积层,则解码器也可包括13个卷积层,每个卷积层可以与编码器的相应卷积层相关联。解码器的每个卷积层可以使用相应的第二滤波器内核来指定滤波器操作,其中第二滤波器内核是从编码器的相应卷积层中使用的第一滤波器内核导出的。如果第一滤波器内核不改变滤波器操作中的通道数,则第二滤波器内核可以是相应的第一滤波器内核的副本。可替代地,如果第一滤波器内核改变滤波器操作中的通道数,则第二滤波器内核的数据元素是相应的第一滤波器内核的数据元素的置换。在一个示例中,第二滤波器内核是第一滤波器内核的转置。因为第二滤波器内核直接从相应的第一滤波器内核导出,所以第二滤波器内核可以在没有训练过程的情况下构建。
解码器的滤波器操作流水线可以接收由编码器生成的具有最低分辨率的输出特征图作为输入。解码器可以使用解码器中的卷积层执行滤波器操作。解码器中的卷积层可以形成一个滤波器操作流水线,其中每个卷积层可以接收输入特征图,通过将卷积层的滤波器核应用到输入特征图上以生成输出特征图来执行滤波器操作,以及将输出特征图作为输入特征图提供给解码器的滤波器操作流水线中的下一个卷积层。沿着滤波器操作流水线,解码器还可以包括上采样操作(例如,插值操作)以增加输入特征图的分辨率。在一种实施方式中,解码器中的上采样操作与编码器中的相应下采样操作处于相同的级别。例如,如图3所示,最大池化操作(下采样)与插值操作(上采样)处于相同的级别。
在406,处理装置可以向编码器和解码器网络提供输入图像以执行输入图像的语义分割。由编码器和其后跟随的解码器生成的输出特征图可以被馈送到经过训练的分类器,该分类器可以用类标签标记输入图像中的每个像素。类标签可以指示像素属于输入图像中的某个对象。这样,可以使用编码器和解码器网络将输入图像中的每个像素标记为与某个对象相关联,其中解码器的滤波器内核直接从编码器中的滤波器内核导出。
图5描绘了根据本公开的一个或多个方面操作的计算机系统的框图。在各种说明性示例中,计算机系统500可以对应于图1的系统100。
在某些实施方式中,计算机系统500可以连接(例如,经由诸如局域网(LAN)、内联网、外联网或互联网的网络)到其他计算机系统。计算机系统500可以在客户端-服务器环境中以服务器或客户端计算机的身份运行,或者在对等或分布式网络环境中作为对等计算机运行。计算机系统500可以由个人计算机(PC)、平板PC、机顶盒(STB)、个人数字助理(PDA)、蜂窝电话、web设备、服务器、网络路由器、交换机或桥接器、或能够执行一组指令(顺序或其他)的任何装置提供,这些指令指定该装置要采取的动作。此外,术语“计算机”应包括单独或共同执行一组(或多组)指令以执行本文所述的任何一种或多种方法的任何计算机集合。
在另一方面,计算机系统500可以包括处理装置502、易失性存储器504(例如,随机存取存储器(RAM))、非易失性存储器506(例如,只读存储器(ROM)或电可擦可编程ROM(EEPROM))和数据存储装置516,它们可以经由总线508相互通信。
处理装置502可以由一个或多个处理器提供,例如通用处理器(例如,复杂指令集计算(CISC)微处理器、精简指令集计算(RISC)微处理器、非常长的指令字(VLIW)微处理器、实现其他类型的指令集的微处理器或实现指令集的类型的组合的微处理器)或专用处理器(例如,专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)或网络处理器)。
计算机系统500还可以包括网络接口装置522。计算机系统500还可以包括视频显示单元510(例如,LCD)、字母数字输入装置512(例如,键盘)、光标控制装置514(例如,鼠标)和信号生成装置520。
数据存储装置516可以包括非暂时性计算机可读存储介质524,其上可以存储对本文描述的任何一个或多个方法或功能进行编码的指令526,包括用于实现方法200或400的图1的语义图像分割程序108的指令。
指令526还可以在由计算机系统500执行期间完全或部分地驻留在易失性存储器504和/或处理装置502内,因此,易失性存储器504和处理装置502也可以构成机器可读存储介质。
虽然计算机可读存储介质524在说明性示例中被示为单个介质,但术语“计算机可读存储介质”应包括存储一组或多组可执行指令的单个介质或多个介质(例如,集中式或分布式数据库、和/或关联的高速缓存和服务器)。术语“计算机可读存储介质”还应包括能够存储或编码一组指令以供计算机执行的任何有形介质,这些指令使计算机执行本文描述的任何一个或多个方法。术语“计算机可读存储介质”应包括但不限于固态存储器、光介质和磁介质。
本文描述的方法、组件和特征可以由分立的硬件组件实现,或者可以集成在其他硬件组件的功能中,例如ASICS、FPGA、DSP或类似装置。此外,方法、组件和特征可以由硬件装置内的固件模块或功能电路来实现。此外,方法、组件和特征可以以硬件装置和计算机程序组件的任何组合或以计算机程序实现。
除非另有明确说明,否则诸如“接收”、“关联”、“确定”、“更新”等术语是指由计算机系统执行或实施的动作和过程,其将表示为计算机系统寄存器和存储器内的物理(电子)量的数据操纵和转换为类似地表示为计算机系统存储器或寄存器或其他此类信息存储、传输或显示装置内的物理量的其他数据。此外,本文使用的术语“第一”、“第二”、“第三”、“第四”等意在作为区分不同元素的标签,并且根据它们的数字指定可能不具有顺序含义。
本文描述的示例还涉及用于执行本文描述的方法的设备。该设备可以专门构造用于执行本文所述的方法,或者它可以包括由存储在计算机系统中的计算机程序选择性地编程的通用计算机系统。这种计算机程序可以存储在计算机可读有形存储介质中。
本文描述的方法和说明性示例与任何特定计算机或其他设备没有内在关联。可以根据本文描述的教导使用各种通用系统,或者构造更专业的设备来执行方法200或400和/或其各个功能、例程、子例程或操作中的每一个可能被证明是方便的。各种这些系统的结构示例在以上描述中进行了阐述。
以上描述旨在说明性而非限制性的。尽管已经参考具体说明性示例和实施方式描述了本公开,但是将认识到本公开不限于所描述的示例和实施方式。本公开的范围应参照所附权利要求以及权利要求所享有的等同物的全部范围来确定。
Claims (20)
1.一种用于构建用于提供语义图像分割的编码器和解码器神经网络的方法,所述方法包括:
由处理装置生成包括编码卷积层的编码器,每个编码卷积层使用相应的第一滤波器内核指定编码滤波器操作;
由所述处理装置生成对应于所述编码器的解码器,所述解码器包括解码卷积层,每个解码卷积层与相应的编码卷积层相关联,并且每个解码卷积层使用从相应的编码器卷积层的第一滤波器内核导出的相应的第二滤波器内核来指定解码滤波器操作;以及
由所述处理装置向所述编码器和所述解码器提供输入图像以用于语义图像分割。
2.根据权利要求1所述的方法,其中,由所述处理装置生成包括编码卷积层的编码器,每个编码卷积层使用相应的第一滤波器内核指定编码滤波器操作进一步包括:
在所述编码器中提供下采样操作,其中每个下采样操作是生成分辨率低于输入特征图的分辨率的输出特征图。
3.根据权利要求2所述的方法,其中,由所述处理装置生成对应于所述编码器的解码器,所述解码器包括解码卷积层,每个解码卷积层与所述相应的编码卷积层相关联,并且每个解码卷积层使用从所述相应的编码器卷积层的第一滤波器内核导出的相应的第二滤波器内核来指定解码滤波器操作进一步包括:
在所述解码器中提供上采样操作,其中,每个上采样操作是生成分辨率高于输入特征图的分辨率的输出特征图。
4.根据权利要求3所述的方法,其中,所述编码器通过所述编码卷积层和所述下采样操作降低所述输入图像的分辨率至具有最低分辨率的目标输出特征图,并且其中所述解码器通过所述解码卷积层和所述上采样操作增加所述目标输出特征图的分辨率至具有与所述输入图像的分辨率相同的分辨率的最终输出特征图。
5.根据权利要求4所述的方法,还包括:
将所述编码器和解码器神经网络的最终输出特征图提供给分类器以用对象类标记每个像素。
6.根据权利要求1所述的方法,其中,所述第一滤波器内核是通过使用训练数据集的训练过程来确定的,并且其中所述第二滤波器内核是从所述第一滤波器内核导出的而不经历所述训练过程。
7.根据权利要求1所述的方法,其中,每个第二滤波器内核是与相应的第一内核滤波器相同或相应的第一内核滤波器的置换中的一个。
8.根据权利要求1所述的方法,其中,由所述处理装置生成对应于所述编码器的解码器,所述解码器包括解码卷积层,每个解码卷积层与相应的编码卷积层相关联,并且每个解码卷积层使用从所述相应的编码器卷积层的第一滤波器内核导出的相应的第二滤波器内核指定解码滤波器操作进一步包括:对于每个解码卷积层,
识别所述相应的编码卷积层;
确定相应的卷积层的第一滤波器内核是否通过所述相应的卷积层改变通道数;
响应于确定所述通道数没有改变,将所述解码卷积层的第二滤波器内核设置为与所述第一滤波器内核相同;以及
响应于确定所述通道数改变,将所述解码卷积层的第二滤波器内核设置为所述第一滤波器内核的置换。
9.一种系统,包括:
存储输入图像的存储器装置;
加速器电路,用于实现用于提供语义图像分割的编码器和解码器神经网络;以及
处理装置,通信地耦合到所述存储器装置和所述加速器电路,以:
在所述加速器电路上生成包括编码卷积层的编码器,每个编码卷积层使用相应的第一滤波器内核指定编码滤波器操作;
在所述加速器电路上生成对应于所述编码器的解码器,所述解码器包括解码卷积层,每个解码卷积层与相应的编码卷积层相关联,并且每个解码卷积层使用从相应的编码器卷积层的第一滤波器内核导出的相应的第二滤波器内核指定解码滤波器操作;以及
将所述输入图像提供给所述编码器和所述解码器以用于语义图像分割。
10.根据权利要求9所述的系统,其中,为了在所述加速器电路上生成包括编码卷积层的编码器,每个编码卷积层使用相应的第一滤波器内核来指定编码滤波器操作,所述处理装置进一步:
在所述编码器中提供下采样操作,其中每个下采样操作是生成分辨率低于输入特征图的分辨率的输出特征图。
11.根据权利要求10所述的系统,其中,为了在所述加速器电路上生成对应于所述编码器的解码器,所述解码器包括解码卷积层,每个解码卷积层与相应的编码卷积层相关联,并且每个解码卷积层使用从所述相应的编码器卷积层的第一滤波器内核导出的相应的第二滤波器内核来指定解码滤波器操作,所述处理装置进一步:
在所述解码器中提供上采样操作,其中每个上采样操作是生成分辨率高于输入特征图的分辨率的输出特征图。
12.根据权利要求11所述的系统,其中,所述编码器通过所述编码卷积层和所述下采样操作降低所述输入图像的分辨率至具有最低分辨率的目标输出特征图,并且其中所述解码器通过所述解码卷积层和所述上采样操作增加所述目标输出特征图的分辨率至具有与所述输入图像的分辨率相同的分辨率的最终输出特征图。
13.根据权利要求12所述的系统,其中,所述处理装置进一步将所述编码器和解码器神经网络的最终输出特征图提供给分类器以用对象类标记每个像素。
14.根据权利要求9所述的系统,其中,所述第一滤波器内核是通过使用训练数据集的训练过程来确定的,并且其中所述第二滤波器内核是从所述第一滤波器内核导出的而不经历所述训练过程。
15.根据权利要求9所述的系统,其中,每个第二滤波器内核是与相应的第一内核滤波器相同或相应的第一内核滤波器的置换中的一个。
16.根据权利要求9所述的系统,其中,为了在所述加速器电路上生成对应于所述编码器的解码器,所述解码器包括解码卷积层,每个解码卷积层与相应的编码卷积层相关联,并且每个解码卷积层使用从所述相应的编码器卷积层的第一滤波器内核导出的相应的第二滤波器内核指定解码滤波器操作,所述处理装置进一步:对于每个解码卷积层,
识别相应的编码卷积层;
确定相应的卷积层的第一滤波器内核是否通过所述相应的卷积层改变通道数;
响应于确定所述通道数没有改变,将所述解码卷积层的第二滤波器内核设置为与所述第一滤波器内核相同;以及
响应于确定所述通道数改变,将所述解码卷积层的第二滤波器内核设置为所述第一滤波器内核的置换。
17.一种存储指令的非暂时性机器可读存储介质,所述指令在被执行时使处理装置执行构建用于提供语义图像分割的编码器和解码器神经网络的操作,所述操作包括:
由所述处理装置生成包括编码卷积层的编码器,每个编码卷积层使用相应的第一滤波器内核指定编码滤波器操作;
由所述处理装置生成对应于所述编码器的解码器,所述解码器包括解码卷积层,每个解码卷积层与相应的编码卷积层相关联,并且每个解码卷积层使用从相应的编码器卷积层的第一滤波器内核导出的相应的第二滤波器内核来指定解码滤波器操作;以及
由所述处理装置向所述编码器和解码器提供输入图像以用于语义图像分割。
18.根据权利要求17所述的非暂时性机器可读存储介质,其中,由所述处理装置生成包括编码卷积层的编码器,每个编码卷积层使用相应的第一滤波器内核指定编码滤波器操作进一步包括在所述编码器中提供下采样操作,其中每个下采样操作是生成分辨率低于输入特征图的分辨率的输出特征图,并且其中由所述处理装置生成对应于所述编码器的解码器,所述解码器包括解码卷积层,每个解码卷积层与所述相应的编码卷积层相关联,并且每个解码卷积层使用从所述相应的编码器卷积层的第一滤波器内核导出的相应的第二滤波器内核来指定解码滤波器操作进一步包括在所述解码器中提供上采样操作,其中,每个上采样操作是生成分辨率高于输入特征图的分辨率的输出特征图。
19.根据权利要求18所述的非暂时性机器可读存储介质,其中,所述编码器通过所述编码卷积层和所述下采样操作降低所述输入图像的分辨率至具有最低分辨率的目标输出特征图,并且其中所述解码器通过所述解码卷积层和所述上采样操作增加所述目标输出特征图的分辨率至具有与所述输入图像的分辨率相同的分辨率的最终输出特征图。
20.根据权利要求17所述的非暂时性机器可读存储介质,其中,每个第二滤波器内核是与相应的第一内核滤波器相同或相应的第一内核滤波器的置换中的一个。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962869253P | 2019-07-01 | 2019-07-01 | |
US62/869253 | 2019-07-01 | ||
PCT/US2020/040236 WO2021003125A1 (en) | 2019-07-01 | 2020-06-30 | Feedbackward decoder for parameter efficient semantic image segmentation |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114223019A true CN114223019A (zh) | 2022-03-22 |
Family
ID=74101248
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080056954.8A Pending CN114223019A (zh) | 2019-07-01 | 2020-06-30 | 用于参数有效的语义图像分割的反馈解码器 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220262002A1 (zh) |
EP (1) | EP3994616A1 (zh) |
KR (1) | KR20220027233A (zh) |
CN (1) | CN114223019A (zh) |
WO (1) | WO2021003125A1 (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021041082A1 (en) * | 2019-08-23 | 2021-03-04 | Nantcell, Inc. | Performing segmentation based on tensor inputs |
US20210192019A1 (en) * | 2019-12-18 | 2021-06-24 | Booz Allen Hamilton Inc. | System and method for digital steganography purification |
CN112767502B (zh) * | 2021-01-08 | 2023-04-07 | 广东中科天机医疗装备有限公司 | 基于医学影像模型的影像处理方法及装置 |
CN112766176B (zh) * | 2021-01-21 | 2023-12-01 | 深圳市安软科技股份有限公司 | 轻量化卷积神经网络的训练方法及人脸属性识别方法 |
US20210225002A1 (en) * | 2021-01-28 | 2021-07-22 | Intel Corporation | Techniques for Interactive Image Segmentation Networks |
CN115861635B (zh) * | 2023-02-17 | 2023-07-28 | 深圳市规划和自然资源数据管理中心(深圳市空间地理信息中心) | 抗透射畸变的无人机倾斜影像语义信息提取方法及设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102276339B1 (ko) * | 2014-12-09 | 2021-07-12 | 삼성전자주식회사 | Cnn의 근사화를 위한 학습 장치 및 방법 |
US9916522B2 (en) * | 2016-03-11 | 2018-03-13 | Kabushiki Kaisha Toshiba | Training constrained deconvolutional networks for road scene semantic segmentation |
CN107920248B (zh) * | 2016-10-11 | 2020-10-30 | 京东方科技集团股份有限公司 | 图像编解码装置、图像处理系统、训练方法和显示装置 |
US10147193B2 (en) * | 2017-03-10 | 2018-12-04 | TuSimple | System and method for semantic segmentation using hybrid dilated convolution (HDC) |
-
2020
- 2020-06-30 CN CN202080056954.8A patent/CN114223019A/zh active Pending
- 2020-06-30 US US17/623,714 patent/US20220262002A1/en active Pending
- 2020-06-30 KR KR1020227003677A patent/KR20220027233A/ko unknown
- 2020-06-30 WO PCT/US2020/040236 patent/WO2021003125A1/en unknown
- 2020-06-30 EP EP20834715.3A patent/EP3994616A1/en not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
KR20220027233A (ko) | 2022-03-07 |
WO2021003125A1 (en) | 2021-01-07 |
US20220262002A1 (en) | 2022-08-18 |
EP3994616A1 (en) | 2022-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tang et al. | PIAFusion: A progressive infrared and visible image fusion network based on illumination aware | |
CN114223019A (zh) | 用于参数有效的语义图像分割的反馈解码器 | |
Li et al. | Global aggregation then local distribution in fully convolutional networks | |
CN112308200B (zh) | 神经网络的搜索方法及装置 | |
CN111480169A (zh) | 用于模式识别的方法、系统和装置 | |
CN112561027A (zh) | 神经网络架构搜索方法、图像处理方法、装置和存储介质 | |
CN109389667B (zh) | 一种基于深度学习的高效全局光照明绘制方法 | |
Seo et al. | Progressive attention networks for visual attribute prediction | |
Chang et al. | Attention-aware feature aggregation for real-time stereo matching on edge devices | |
CN112132844A (zh) | 基于轻量级的递归式非局部自注意力的图像分割方法 | |
CN116188999B (zh) | 一种基于可见光和红外图像数据融合的小目标检测方法 | |
CN116229461A (zh) | 一种基于多尺度细化的室内场景图像实时语义分割方法 | |
JP2024018938A (ja) | 周波数領域における自己注意機構に基づく夜間オブジェクト検出、訓練方法及び装置 | |
CN116863194A (zh) | 一种足溃疡图像分类方法、系统、设备及介质 | |
Zhou et al. | AIF-LFNet: All-in-focus light field super-resolution method considering the depth-varying defocus | |
Liu et al. | PDR-Net: Progressive depth reconstruction network for color guided depth map super-resolution | |
Tiwari et al. | A new modified-unet deep learning model for semantic segmentation | |
Liang et al. | Hybrid transformer-CNN networks using superpixel segmentation for remote sensing building change detection | |
Huang et al. | A stereo matching algorithm based on the improved PSMNet | |
Chacon-Murguia et al. | Moving object detection in video sequences based on a two-frame temporal information CNN | |
CN114998630B (zh) | 一种从粗到精的地对空图像配准方法 | |
Li et al. | Depth estimation based on monocular camera sensors in autonomous vehicles: A self-supervised learning approach | |
Huang et al. | Lidar-camera fusion based high-resolution network for efficient road segmentation | |
Lee et al. | SAF-Nets: Shape-Adaptive Filter Networks for 3D point cloud processing | |
Fan et al. | New network based on D-LinkNet and ResNeXt for high resolution satellite imagery road extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20220322 |