CN111008973A - 用于对图像数据的语义分割的方法、人工神经网络和设备 - Google Patents

用于对图像数据的语义分割的方法、人工神经网络和设备 Download PDF

Info

Publication number
CN111008973A
CN111008973A CN201910950033.5A CN201910950033A CN111008973A CN 111008973 A CN111008973 A CN 111008973A CN 201910950033 A CN201910950033 A CN 201910950033A CN 111008973 A CN111008973 A CN 111008973A
Authority
CN
China
Prior art keywords
tensor
neural network
artificial neural
image data
stitching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910950033.5A
Other languages
English (en)
Inventor
F·D·安迪利亚
D·巴里亚米斯
高见正人
U·布罗施
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Publication of CN111008973A publication Critical patent/CN111008973A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/245Classification techniques relating to the decision surface
    • G06F18/2451Classification techniques relating to the decision surface linear, e.g. hyperplane
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

一种用于对成像传感器的图像数据进行节约计算资源的语义分割的方法,所述方法借助人工神经网络进行,尤其借助卷积神经网络进行,其中,所述人工神经网络具有编码器路径、解码器路径(和跳跃部件),所述方法包括以下步骤:借助第一拼接(合并)函数/准则,对输入张量与跳跃张量进行第一拼接(合并),以便获得合并张量,其中,所述输入张量和所述跳跃张量与所述图像数据相关;将神经网络的函数、尤其卷积应用到所述合并张量上,以便获得审校张量;借助第二拼接(合并)函数/准则,对所述审校张量与所述输入张量进行第二拼接(合并),以便获得输出张量;将所述输出张量输出至所述人工神经网络的所述解码器路径。

Description

用于对图像数据的语义分割的方法、人工神经网络和设备
技术领域
本发明从一种用于对图像数据进行语义分割的方法、人工神经网络和设备出发。
背景技术
“Evan Shelhamer,Jonathan Long,Trevor Darrell所著的《用于语义分割的全卷积模型》,(PAMI:模式分析与机器智能汇刊,2016)”公开卷积神经网络的一种扩展方案。卷积神经网络是强劲的人工神经网络,其用于处理视觉数据,所述视觉数据能够产生视觉数据的语义的特征层次。该文献公开以下方案:使用“全卷积网络”,该“全卷积网络”可以接收任何规模的输入数据并且可以借助特征的有效推导来输出在尺寸上对应的输出。
“Olaf Ronneberger,Philipp Fischer,Thomas Brox.U-Net所著的《用于生物医学图像分割的卷积网络》(医学图像计算和计算机辅助干预(MICCAI),Springer,LNCS,第9351卷)”公开一种用于该网络的训练策略,所述训练策略基于扩展的(增强的)训练数据的使用,以便更有效地使用现有的已注释的示例。网络的架构包括用于检测输入数据的语境的“收缩路径:Contracting Path”(编码器路径),以及与此对称地包括能够实现所检测的语境的精确定位的“扩展路径:Expanding Path”(解码器路径)。可以使用相对较少数目的训练数据来对人工神经网络进行训练。
发明内容
用于对图像数据进行语义分割、尤其用于对图像数据中的对象进行定位和分类的人工神经网络、尤其所谓的卷积神经网络(CNN)对计算资源具有高的需求。通过解码部件或上采样部件和拼接(Verbindung)部件(跳跃部件),在编码器部件中进行语义分析后,重建图像数据直至原始分辨率,由于添加解码部件或上采样部件和拼接部件(跳跃部件),进一步大幅增加对计算资源的需求。在一些实现中,这可能导致对计算资源的需求指数式地增长。
在使用人工神经网络时,尤其是在使用卷积神经网络时,除了对计算资源的需求增长外,基于像素的图像数据的语义分割还需要更多的存储资源,即,在训练阶段期间和应用网络期间,需要更多的存储带宽、存储访问和存储空间。
只要应用程序不在高内存的和分布式计算的特殊计算单元——例如图像处理单元群集(GPU-群集)上进行,而是在嵌入式计算单元——例如嵌入式硬件或类似物上运行,则对计算资源和存储资源的附加需求的该缺点加剧。
在此背景下,本发明提供一种用于对成像传感器的图像数据进行语义分割的方法、人工神经网络、设备、计算机程序和机器可读的存储介质。
在此,图像数据可以理解为成像传感器的数据。首先,图像数据应理解为视频传感器的、因此摄像机的数据。同样地,由于数据的相似性,借助本发明可以将雷达传感器、超声传感器、激光雷达传感器或类似物的数据作为图像数据来处理。因此,关于本发明,可以将雷达传感器、超声传感器、激光雷达传感器或类似物理解为成像传感器。
在此,对于本发明而言特别重要的是适合应用在车辆中的成像传感器或类似物、因此汽车图像传感器的图像数据。
在此,语义分割应理解为对图像数据的处理,其目的是,求取图像中包含的对象的语义类别以及所述对象在图像中的定位。在此应考虑,图像中的全局信息允许得出关于对象的语义类别的结论,反之,图像中的局部信息允许得出关于对象在图像中的定位的结论。
本发明的一个方面是一种用于借助人工神经网络、尤其卷积神经网络(CNN)对图像数据进行语义分割的方法。人工神经网络具有用于求取图像数据中的语义类别的编码器路径和用于对在图像数据中的所求取的类别进行定位的解码器路径。该方法包括以下步骤:
借助第一拼接函数,对输入张量与跳跃张量进行第一拼接或合并,以便获得合并张量。
在此,输入张量和跳跃张量可以与图像数据相关。
将神经网络的、尤其卷积(Convolution))的函数应用到合并张量上,以便获得审校张量。
借助第二拼接函数,对审校张量与输入张量进行第二拼接或合并,以便获得输出张量。
将输出张量输出至人工神经网络的解码器路径。
在此,人工神经网络应理解为用于处理信息、例如用于处理图像数据、尤其用于对图像数据中的对象进行定位和分类的由人工神经元组成的网络。
在此,卷积神经网络(CNN)应理解为人工神经网络的一个类别,其在分类领域被认为是为“现有技术”(State of Art)。CNN的基本结构由卷积层和池化层(Pooling Layer)的任意序列组成,这些层由一个或多个全拼接的层终止。相应的层由人工神经元构成。
在此,编码器路径应理解为从图像数据的处理直至图像数据中的对象的分类的路径。
在此,解码器路径应理解为连接到编码器路径上并且基于分类来重建原始的图像数据以便对已分类的对象进行定位的路径。
在此,张量应理解为在人工神经网络中的处理期间的数据表示。数据项包括图像数据的经处理的状态和所属的特征映射(feature maps)。人工神经网络中第i步骤的级l上的张量通常表示为
Figure BDA0002225341070000031
其具有n个行、m个列和f个特征映射。
输入张量是在通过本发明的方法进行处理之前的数据表示。根据本发明,输入张量基于人工神经网络的先前的级l-1的经上转换的输出张量。在此,如下进行上转换:上转换的张量的维度相应于第一拼接的步骤中的跳跃张量的维度。
跳跃张量是神经网络中第j步骤中的级l上的数据表示。跳跃张量可以由拼接部件(跳跃部件)提供并且因此直接地、即在编码器路径中不进行进一步处理的情况下,将编码器路径中的来自人工神经网络的级l的信息提供给人工神经网络的解码器路径。
在此,拼接部件应理解为进行语义分割的人工神经网络中的架构部件,该架构部件提供来自解码器路径的对应位置的编码器路径的信息。拼接部件可以作为跳跃拼接或作为跳跃模块出现。
合并张量是根据本发明的方法的第一拼接步骤之后的数据表示。合并张量是第一拼接函数的结果。作为拼接函数,可以考虑函数级联(Concatenation)、加法(Addition)、乘法(Multiplication)或类似物。
审校张量是在应用根据本发明的方法的人工神经网络——尤其卷积神经网络(CNN)——的函数之后的数据表示。作为人工神经网络、尤其CNN,可以考虑函数卷积(Convolution)——还有卷积块的构型——即——卷积的多重应用、深度卷积、压缩、残差(Residual),稠密度(Dense)、Inception、激活(Activation,Act)、归一化、池化(Pooling)或类似物。
在此,Inception应理解为人工神经网络、尤其卷积神经网络的一种架构变型方案,其首先在Szegedy等人所著的“《随着卷积而深入(Going deeper with convolutions)》(IEEE计算机视觉和模式识别会议记录,第1至9页,2015年)”中被描述。
输出张量是在根据本发明的方法的第二拼接的步骤之后的数据表示,其用于在人工神经网络的解码器路径上进一步处理。输出张量是第二拼接函数的结果。作为拼接函数,可以考虑级联(Concatenation)、加法(Addition)、乘法(Multiplication)或类似物。
在此,特征映射应理解为人工神经网络的一个层(Layer)的输出。在CNN中通常涉及通过卷积层、接着是由所属的池化层进行的处理的结果并且可以作为用于后续层(Layer)或——如果设置了——则用于全拼接层的输入数据来使用。
在此,人工神经网络的函数可以理解为人工神经网络的神经元层的任何函数。该函数可以是卷积(Convolution)——还有卷积块的构型——即——卷积的多重应用、深度卷积、压缩、残差(Residual),稠密度(Dense)、Inception、激活(Activation,Act)、归一化、池化(Pooling)或类似物。
在此,Inception应理解为人工神经网络、尤其卷积神经网络的一种架构变型方案,其首先在Szegedy等人所著的“《随着卷积而深入(Going deeper with convolutions)》(IEEE计算机视觉和模式识别会议记录,第1至9页,2015年)”中被描述。
本发明的方法的一个优点在于应用人工神经网络的函数以便获得审校张量的步骤以及随后的对审校张量与输入张量进行拼接的步骤。在应用的步骤中,不仅将来自编码器路径的粗粒度特征而且将来自解码器路径的细粒度特征相互拼接。在拼接的步骤中,借助审校张量实现对输入张量的精细化,以便产生用于下一层(Layer)的输出张量。
根据本发明的方法的一种实施方式,在应用的步骤中人工神经网络的函数与输入张量的一个特征映射或多个特征映射相关。即——如此选择函数,使得尽管将所述函数应用到合并传感器上,所述函数仍然适合于一个特征映射或多个特征映射。
该方法的这种实施例具有以下优点:由此精细化、即更精确地实现在人工神经网络的较深层(Layern)中实现的分类。
根据本发明的方法的一种实施方式,第一拼接函数和第二拼接函数如此构型,使得保持输入张量的维度。
根据本发明的方法的一种实施方式,该方法的步骤在人工神经网络的解码器路径中进行。
本发明的另一方面是一种用于对图像数据进行定位和分类的人工神经网络,其中,该人工神经网络具有用于对图像数据进行分类的编码器路径、用于对图像数据进行定位的解码器路径并且设置用于实施根据本发明的方法的步骤。
如此设置的人工神经网络优选地应用于在技术系统中、尤其机器人、车辆、工具或工具机中,以便根据输入参量确定输出参量。作为人工神经网络的输入参量可以考虑传感器数据或与传感器数据相关的参量。传感器数据可以源于技术系统的传感器或由技术系统从外部接收。根据人工神经网络的输出参量,通过技术系统的控制装置、借助控制信号来控制技术系统的至少一个执行器。如此,例如可以控制机器人或车辆的运动,或者可以控制工具或工具机。
在根据本发明的人工神经网络的一种实施方式中,人工神经网络可以构型为卷积神经网络。
本发明的另一方面是一种设备,该设备设置用于实施根据本发明的方法的步骤。
本发明的另一方面是一种计算机程序,该计算机程序设置用于实施根据本发明的方法的步骤。
本发明的另一方面是一种机器可读的存储介质,在其上存储有根据本发明的人工神经网络或根据本发明的计算机程序。
以下根据多个附图更详细地阐述本发明的细节和实施方式。
附图说明
图1示出现有技术中的全卷积网络的框图;
图2示出现有技术中的卷积网络的U-Net架构的框图;
图3示出根据全卷积网络架构的人工神经网络的图示;
图4示出根据“U-Net”架构的人工神经网络的图示;
图5示出根据全卷积网络架构的人工神经网络的解码器方框中的拼接函数的图示;
图6示出根据U-Net架构的人工神经网络中的拼接函数的图示;
图7示出根据本发明的根据U-Net架构的人工神经网络中的拼接函数的图示;
图8示出本发明在根据全卷积网络架构的人工神经网络中的应用的图示;
图9示出根据本发明的方法900的一种实施方式的流程图。
具体实施方式
图1示出来自“Evan Shelhamer,Jonathan Long,Trevor Darrell所著的:用于语义分割的全卷积模型,PAMI,2016”的全卷积网络的框图。
该图将所示出的流程的一部分在人工神经网络中汇总成模块。
在方框编码器110中,示出从作为输入数据111的图像数据出发通过卷积神经网络(CNN)的多个层(Layer)的处理步骤。从该图清楚地得出卷积层112a和池化层112b。
在方框解码器120中,示出CNN的“反卷积(deconvolutioned)”的结果121、122、123。在此,反卷积可以通过卷积步骤的反转来实现。在此,能够实现将粗粒度的分类结果的图像映射到原始图像数据上,以便因此实现已分类对象的定位。
在方框跳跃模块130中,示出从CNN的较高等级的分类中间结果至“反卷积(deconvolutioned)”结果的拼接。因此,在第二行中,第4个池(Pool)的中间结果已与最终结果122关联,在第3行中,第3个池和4个池的中间结果与最终结果123关联。
这些关联的优点在于以下可能性:确定更精细的细节并且同时保留更高级别的语义信息。
图2示出来自“Olaf Ronneberger,Philipp Fischer,Thomas Brox.U-Net所著的:用于生物医学图像分割的卷积网络,医学图像计算和计算机辅助干预(MICCAI),Springer,LNCS,第9351卷”的卷积网络的U-Net架构的框图。
在方框编码器210中,示出从作为输入数据211的图像数据出发通过卷积神经网络(CNN)的多个层(Layer)的处理步骤,用于对输入数据211进行分类。
在方框解码器220中示出“反卷积步骤(上卷积)”,其从最深分类水平出发通过对应数目的反卷积层(Layer)直至具有输入数据211的已定位并且已分类的对象的语义分割图221。
在方框230中,示出分类层(Layer)和对应的定位层(Layer)之间的拼接(跳跃拼接)。这些拼接示出人工神经网络中的在分类任务和定位任务之间的信息流。由此可能的是,使粗粒度的语义分割与输入数据的更高重建度一致。
图3示出基于张量的“全卷积网络”(FCN)形式的人工神经网络。在此,图像数据作为输入张量301提供给网络。通过卷积函数、即所谓的卷积,基于输入张量301生成特征映射302。特征映射中的通过卷积函数求取的信息通过所谓的池化来压缩并且映射到编码器张量303上。编码器张量303用作全卷积网络的下一更深层(Layer)的输入张量。在此重新应用卷积函数、即所谓的卷积,以便获得映射到相应的特征映射302中的语义更丰富的信息。全卷积网络的编码器方框的结果张量310用作全卷积网络的解码器方框的输入张量,其中,借助全卷积网络的较高层(Layer)的定位信息来使语义丰富的信息丰富。
为此目的,结果张量310首先上转换(upsampling:上采样)成上采样张量304并且与跳跃张量306拼接,跳跃张量306例如已经由更高层的编码器张量303导出。还可以考虑,代替编码器张量303,将一个或多个特征映射张量302借助跳跃模块从全卷积网络的编码器方框输送至全卷积网络的解码器方框。
该过程的结果是解码器张量315,该解码器张量315经上转换地作为用于全卷积网络的解码器方框的下一更高级的层的上采样张量304来使用。
在解码器方框的末尾,解码器张量315可以上转换直至输入张量301的原始参量。
结果是语义分割的图像数据320,所述图像数据320具有关于图像数据中包含的对象或特征的类别和定位信息。
因为在全卷积网络中,在较深和较精细的表示(即,在网络的较深层(Layer)上)之间不进行语义信息的传递,所以较精细的表示是较不独特的。由此,这些层(Layer)对确定误差更显著地作出贡献。
此外,较深的层(Layer)不易受所谓的“梯度消失:Gradient Vanishing”的影响。从输入张量301中去除的层越少,“梯度消失”的效应越显著地影响这些层。
“梯度消失”应理解为在人工神经网络训练期间可能发生的效应,参数的变化轻微消失(vanishing)。在最坏的情况下,该效应导致对已训练的参数的改变或改善停滞。
跳跃模块130的或跳跃拼接230的引入有助于克服该效应。
此外,出于这些原因,全卷积网络尤其适合于大数目的语义类别(即,多于3个类别),以及适合于扁平的网络,因为较精细的层(Layer)的语义特征不再能够区分。
图4示出根据“U-Net”架构的人工神经网络的图示。
根据图示,从左到右地进行图像数据的处理。待处理的图像数据将作为输入张量410被导至人工神经网络。输入张量401表示待处理的图像数据。通过应用神经网络的函数,例如卷积(Convolution)——还有卷积块的构型——即——卷积的多重应用、深度卷积、压缩、残差(Residual),稠密度(Dense)、Inception、激活(Activation,Act)、归一化、池化(Pooling)或类似物,能够由输入张量401产生特征映射402并且将特征映射402进一步处理为网络中的张量。
人工神经网络通常构建在层(Layer)中。在层内通常应用人工神经网络的以下函数:所述函数不导致张量的分辨率的变化。
在层变换的情况下,通常应用人工神经网络的以下函数:作为其结果,张量的分辨率被改变。在较深层的方向上,分辨率降低(池化、下采样),而在较高层的方向上,分辨率上转换(上采样)。
为了进行下采样,可以应用所谓的池化函数到张量上。作为池化函数的结果,存在池化张量403,作为人工神经网络中的较深层的输入张量。如图4中的图示所示,可以将人工神经网络的函数应用到池化张量403上,以便基于池化张量403获得特征映射402。
在U-Net架构中,如果已经以如此程度处理图像数据使得存在(所寻求的或所期望的)分类信息,则达到最深层。通常,关于图像数据中的确定的语义类别的存在的信息缺少关于所识别的语义类别的定位的信息,即,关于所识别的类别位于图像数据中哪里的信息)。
U-Net架构为此设置解码器路径,在所述解码器路径中,对张量(池化张量403和特征映射402)进行上转换(上采样)。根据应用,上转换能够进行直到图像数据的初始分辨率。
在添加来自编码器路径210的相应级别的信息的情况下,可以实现由人工神经网络最深层进行上转换。在图4的图示中,这通过编码器路径210的相应层与解码器路径220的相应层之间的拼接箭头示出。
该添加通过将解码器路径220中的上转换一层的张量与来自编码器的跳跃张量相互拼接成解码器220中的级联张量411来实现。
可以将人工神经网络的函数例如卷积(Convolution)——还有卷积块的构型——即卷积的多重应用、深度卷积、压缩、残差(Residual)、稠密度(Dense)、Inception、激活(Activation,Act)、归一化、池化(Pooling)或类似物应用到级联张量411上,以便获得解码器路径220中的特征映射412。
解码器路径220的结果是结果张量420,在结果张量420中,示出经处理的图像数据的表示,除图像数据之外,也示出已识别的语义类别,以及这些语义类别在图像数据中的定位。
通过相互拼接(Concatenation:级联)编码器路径210的特征以及通过随后与关于网络的较深和较精细的级别的知识拼接(合并),该U-Net架构允许将图像数据精确定为到高至原始分辨率。
该架构旨在通过使用更多资源来应对全卷积网络架构的缺点。
在此,这种资源使用可能导致成本增加。成本的增加可以通过以下方式来抵消:即使输出类别的数目、即图像数据中的待区分的对象的量保持得小,例如2到3个类别的数量级。
U-Net架构的最大缺点是在在网络的较深层中的“梯度消失”的强大效应。该效应是由布置在“损失函数”和判别层(Discriminative Layer)之间的多个层引起。
因此,U-Net架构特别适合于以下任务:所述任务仅仅需要小数目的类别并且因此需要高的定位精度。
图5示出根据全卷积网络架构的人工神经网络的解码器方框中的拼接函数的图示。
在网络的编码器方框中,借助人工神经网络的函数的使用来形成编码器张量501。
通过跳跃模块,可以将编码器张量501作为跳跃张量502直接提供给解码器模块,而无需在编码器方框中以及必要时在解码器方框中进行进一步的处理。
由解码器方框的较深层(Layer)或在解码器开始时由编码器方框的最深层(Layer)提供结果张量作为解码器张量503。解码器张量503在进入下一更高级的层时首先被上转换(上采样)成上采样张量504。上采样张量504和跳跃张量502借助拼接函数520彼此拼接(合并)并且因此形成所示出的层(Layer)的结果张量515。
图6示出根据U-Net架构的人工神经网络中的拼接函数(合并)的图示。
如上图示中所示,经上转换的解码器张量502作为上采样张量504与跳跃张量502一起借助拼接函数520拼接(合并)成拼接张量605。在该图示中,应用级联(concatenation)作为拼接函数520。同样,可以考虑其他拼接函数,例如加法(Addition)、乘法(Multiplication)或类似物。
随后,将人工神经网络的卷积函数620(Convolution)应用到拼接张量605上,以便形成所示出的层的结果张量615。
借助卷积函数(Convolution)620,在与目标输出类别没有直接关系的情况下,将粗略的和精细的语义特征彼此拼接。
图7示出根据U-Net架构的以本发明扩展的人工神经网络中的拼接函数的图示。
如以上图示中所示,经上转换的解码器张量503作为上采样张量704和跳跃张量502一起借助第一拼接函数520拼接(合并)成拼接张量705。
将人工神经网络的一系列函数620应用到拼接张量705上,以便获得审校张量706。人工神经网络的所应用的函数620应该将通过相应的张量代表的粗略的特征和精细的特征彼此拼接并且应该与较低层(Layer)的特征映射相配地进行匹配。例如卷积(Convolution)——还有卷积块的构型——即——卷积的多重应用、深度卷积、压缩、残差(Residual),稠密度(Dense)、Inception、激活(Activation,Act)、归一化、池化(Pooling)或类似物。
随后,审校张量706借助第二拼接函数720与上采样张量704拼接(合并),以便形成所示出的层(Layer)的结果张量715。
通过借助拼接函数720重新拼接(合并)720审校张量706与上采样张量704可以实现,在确定的等级内校正特征的定位。由此,通过以下方式改进在图像数据中识别的特征:所述特征变得更加精确。
借助拼接函数(合并)720,不仅审校张量706可以与经上转换的解码器张量704拼接。可以考虑,附加地将另外的张量707借助拼接函数(合并)720拼接成结果张量715。
不同的函数应用到采样张量704、拼接张量705和审校张量706上形成所谓的校正模块(审校模块)700。
图8示出本发明在根据全卷积网络架构的人工神经网络中的应用的图示。
在此,本发明的应用实现层(Layer)之间的知识传递的增强,其中,特别在区别层(Discriminative Layer)上能够防止“梯度消失”的效应。
可以通过以下方式来实现将本发明应用到根据全卷积网络架构的人工神经网络上:在解码器模块120中,各个跳跃张量802和上采样张量304一起借助拼接函数拼接(合并)成审校张量806。
随后,审校张量806再次与上采样张量304一起借助拼接函数拼接(合并)成解码器张量815。
作为根据全卷积网络架构的人工神经网络的解码器模块120的最后一层的结果,存在以下结果张量320:该结果张量具有优化的语义分割和直至经处理的图像数据的原始分辨率的分辨率。
图9示出本发明的方法900的一种实施方式的流程图。
在步骤910中,借助第一拼接函数,实现输入张量304、504、704与跳跃张量502、802的拼接(合并),以便获得合并张量605、705,其中,输入张量304、504、704和跳跃张量502、802分别与图像数据111、211相关。
在步骤920中,将神经网络的函数、尤其卷积(Convolution)应用到合并张量605、705上,以便获得审校张量706、806。
在步骤930中,借助第二拼接函数,实现审校张量706、806与输入张量304、504、704的第二拼接(合并),以便获得输出张量715、815。
在步骤904中,将输出张量715、815输出到人工神经网络的解码器路径120、220。
本发明优选地适合在汽车系统中、尤其与驾驶辅助系统结合地、直至部分自动驾驶或全自动驾驶地使用。
在此,特别令人感兴趣的是对代表车辆周围环境的图像数据或图像流的处理。
这些图像数据或图像流可以由车辆的成像传感器来检测。在此,借助单个传感器进行检测。同样可以考虑,将多个传感器的图像数据融合,必要时将多个传感器的图像数据与不同的检测传感器——例如视频传感器、雷达传感器、超声传感器、激光雷达传感器融合。
在此,自由空间的求取(Free Space Detection)以及在图像数据或图像流中前景与背景之间的语义区分特别重要。
可以通过应用根据本发明的人工神经网络对图像数据或图像流进行处理来求取这些特征。基于该信息,可以相应地控制用于车辆纵向控制或横向控制的控制系统,从而车辆适当地对图像数据中的这些特征的检测作出反应。
本发明的另一应用领域可以视为,对于基于摄像机的车辆控制系统执行图像数据或图像数据流的精确的预标记(pre-labeling)。
在此,待分配的标记(Label)示出在图像数据或图像流中应已识别的对象类别。
本发明还能够应用在需要借助人工神经网络进行基于像素的精确预测(pixel-wise prediction)的所有领域(例如汽车、机器人、健康、监控等)中。在此,例如可以提及:光流、单色图像数据的深度、数字、边界识别,钥匙卡、对象探测等。

Claims (8)

1.一种用于对成像传感器的图像数据(111,211)进行节约计算资源的语义分割的方法(900),所述方法借助人工神经网络进行,尤其借助卷积神经网络进行,其中,所述人工神经网络具有编码器路径(110,210)和解码器路径(120,220),所述方法包括以下步骤:
借助第一拼接函数(520),对输入张量(304,704)与跳跃张量(502,802)进行第一拼接(910),以便获得合并张量(705),其中,所述输入张量(304,704)和所述跳跃张量(502,802)与所述图像数据(111,211)相关;
将神经网络的函数(620)、尤其卷积应用(920)到所述合并张量(705)上,以便获得审校张量(706,806);
借助第二拼接函数(720),对所述审校张量(706,806)与所述输入张量(304,704)进行第二拼接(930),以便获得输出张量(715,815);
将所述输出张量(715,815)输出(940)到所述人工神经网络的所述解码器路径(210,220)。
2.根据以上权利要求中任一项所述的方法(900),其中,所述输入张量(304,704)具有特征映射(302,402),并且在所述应用(920)的步骤中,神经网络的所述函数(620)与所述特征映射(302,402)相关。
3.根据权利要求1所述的方法(900),其中,如此构型所述第一拼接函数(520)和/或所述第二拼接函数(720),使得保持所述输入张量(304,704)的维度。
4.根据以上权利要求中任一项所述的方法(900),其中,所述方法的所述步骤在所述人工神经网络的所述解码器路径(120,22)中进行。
5.一种用于对成像传感器的图像数据(111,211)进行语义分割的人工神经网络、尤其卷积神经网络,其中,所述人工神经网络具有用于对所述图像数据(111,211)进行分类的编码器路径(110,210)和用于对所述图像数据(111,211)进行定位的解码器路径(120,220),并且,所述人工神经网络如此设置用于实施根据权利要求1至4中任一项所述的方法(900)的步骤。
6.一种设备,其尤其具有根据权利要求5所述的人工神经网络,所述设备设置用于实施根据权利要求1至4中任一项所述的方法(900)的步骤。
7.一种计算机程序,所述计算机程序设置用于实施根据权利要求1至4中任一项所述的方法(900)的所有步骤。
8.一种机器可读的存储介质,在其上存储有根据权利要求5所述的人工神经网络和/或根据权利要求7所述的计算机程序。
CN201910950033.5A 2018-10-05 2019-10-08 用于对图像数据的语义分割的方法、人工神经网络和设备 Pending CN111008973A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102018217090.8A DE102018217090A1 (de) 2018-10-05 2018-10-05 Verfahren, künstliches neuronales Netz, Vorrichtung, Computerprogramm und maschinenlesbares Speichermedium zur semantischen Segmentierung von Bilddaten
DE102018217090.8 2018-10-05

Publications (1)

Publication Number Publication Date
CN111008973A true CN111008973A (zh) 2020-04-14

Family

ID=69886242

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910950033.5A Pending CN111008973A (zh) 2018-10-05 2019-10-08 用于对图像数据的语义分割的方法、人工神经网络和设备

Country Status (3)

Country Link
US (1) US11100358B2 (zh)
CN (1) CN111008973A (zh)
DE (1) DE102018217090A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112669313A (zh) * 2021-01-15 2021-04-16 济南浪潮高新科技投资发展有限公司 一种金属表面缺陷定位及分类方法
CN113012087A (zh) * 2021-03-31 2021-06-22 中南大学 基于卷积神经网络的图像融合方法
CN117392247A (zh) * 2023-09-25 2024-01-12 清华大学 基于素描图的图像视频语义编解码方法和装置

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11893482B2 (en) * 2019-11-14 2024-02-06 Microsoft Technology Licensing, Llc Image restoration for through-display imaging
WO2022016262A1 (en) * 2020-07-20 2022-01-27 12188848 Canada Limited Lung ultrasound processing systems and methods
DE102021100765A1 (de) 2021-01-15 2022-07-21 Dr. Ing. H.C. F. Porsche Aktiengesellschaft Verfahren, System und Computerprogrammprodukt zur Bestimmung von sicherheitskritischen Ausgabewerten einer technischen Entität
CN114615507B (zh) * 2022-05-11 2022-09-13 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种图像编码方法、解码方法及相关装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019029785A1 (en) * 2017-08-07 2019-02-14 Renesas Electronics Corporation MATERIAL CIRCUIT
EP3701488A4 (en) * 2017-10-24 2021-08-04 L'Oréal SA IMAGE PROCESSING SYSTEM AND METHOD THANKS TO DEEP NEURAL NETWORKS

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112669313A (zh) * 2021-01-15 2021-04-16 济南浪潮高新科技投资发展有限公司 一种金属表面缺陷定位及分类方法
CN113012087A (zh) * 2021-03-31 2021-06-22 中南大学 基于卷积神经网络的图像融合方法
CN113012087B (zh) * 2021-03-31 2022-11-04 中南大学 基于卷积神经网络的图像融合方法
CN117392247A (zh) * 2023-09-25 2024-01-12 清华大学 基于素描图的图像视频语义编解码方法和装置

Also Published As

Publication number Publication date
DE102018217090A1 (de) 2020-04-09
US20200110961A1 (en) 2020-04-09
US11100358B2 (en) 2021-08-24

Similar Documents

Publication Publication Date Title
CN111008973A (zh) 用于对图像数据的语义分割的方法、人工神经网络和设备
EP3289529B1 (en) Reducing image resolution in deep convolutional networks
US20180157972A1 (en) Partially shared neural networks for multiple tasks
US10810745B2 (en) Method and apparatus with image segmentation
CN107895150B (zh) 基于嵌入式系统小规模卷积神经网络模块的人脸检测和头部姿态角评估
CN109753913B (zh) 计算高效的多模式视频语义分割方法
US11908142B2 (en) Method, artificial neural network, device, computer program, and machine-readable memory medium for the semantic segmentation of image data
CN111008972A (zh) 用于图像数据的语义分割的方法和设备
US20210056388A1 (en) Knowledge Transfer Between Different Deep Learning Architectures
CN111696110B (zh) 场景分割方法及系统
CN110077416B (zh) 一种基于决策树的驾驶员意图分析方法及系统
CN115147598B (zh) 目标检测分割方法、装置、智能终端及存储介质
CN113312983A (zh) 基于多模态数据融合的语义分割方法、系统、装置及介质
US11308324B2 (en) Object detecting system for detecting object by using hierarchical pyramid and object detecting method thereof
CN114549369A (zh) 数据修复方法、装置、计算机及可读存储介质
Aditya et al. Collision Detection: An Improved Deep Learning Approach Using SENet and ResNext
CN111210411A (zh) 图像中灭点的检测方法、检测模型训练方法和电子设备
EP4235492A1 (en) A computer-implemented method, data processing apparatus and computer program for object detection
KR20220040530A (ko) 딥 러닝 기반 저조도 영상 분할 시스템 및 방법
Lim et al. Global and local multi-scale feature fusion for object detection and semantic segmentation
Felsberg Five years after the deep learning revolution of computer vision: State of the art methods for online image and video analysis
CN117036895B (zh) 基于相机与激光雷达点云融合的多任务环境感知方法
US11526965B2 (en) Multiplicative filter network
Zhou et al. Pixel-level bird view image generation from front view by using a generative adversarial network
US11893086B2 (en) Shape-biased image classification using deep convolutional networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination