CN113168558A

CN113168558A - 用于图像数据的语义分割的方法、人工神经网络、设备、计算机程序和机器可读存储介质

Info

Publication number: CN113168558A
Application number: CN201980080536.XA
Authority: CN
Inventors: 高见昌渡; U·布罗希; D·巴里亚米斯; F·迭戈安蒂拉
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2018-10-05
Filing date: 2019-09-26
Publication date: 2021-07-23
Also published as: WO2020069964A1; DE102018217092A1; US11908142B2; US20210343019A1

Abstract

用于借助于人工神经网络、特别是卷积神经网络对图像数据（111、211）进行节省计算和存储器资源的语义分割的方法（500），其中所述人工神经网络具有编码器路径（110、210、380）和解码器路径（120、220、340），所述方法包括以下步骤：‑根据划分函数（320、420）将输入张量（310）划分（520）为至少一个第一切片张量（330）和至少一个第二切片张量（350），其中所述输入张量（310）取决于所述图像数据（111、211）；‑将所述至少一个第一切片张量（330）输出（530）至所述神经网络的解码器路径（120、220、340）；‑根据连接函数（360）将所述至少一个第一切片张量（330）与所述至少一个第二切片张量（350）连接（540），以获得输出张量（370）；‑将所述输出张量（370）输出（550）到所述神经网络的编码器路径（110、210、380）。

Description

用于图像数据的语义分割的方法、人工神经网络、设备、计算机程序和机器可读存储介质

背景技术

“Evan Shelhamer，Jonathan Long，Trevor Darrell，Fully ConvolutionalModels for Semantic Segmentation（用于语义分割的全卷积模型），PAMI 2016”公开了卷积神经网络的一种扩展。卷积神经网络是用于处理可视数据的强大的人工神经网络，其可以生成可视数据的语义特征层次。该文献公开了使用“完全卷积网络”的方案，该完全卷积网络可以接受任意范围的输入数据并输出大小上对应的具有有效特征推导的输出。

“Olaf Ronneberger，Philipp Fischer，Thomas Brox，U-Net：ConvolutionalNetworks for Biomedical Image Segmentation（U-Net：用于生物医学图像分割的卷积网络），Medical Image Computing and Computer-Assisted Intervention（MICCAI），Springer，LNCS，第9351卷”公开了一种人工神经网络的体系架构以及一种用于该网络的训练策略，所述训练策略基于使用扩展的（增强的）训练数据来更有效地使用现有的带注释示例。该网络的体系架构包括用于检测输入数据的上下文的“压缩路径”（编码器路径）以及与此对称地包括“扩展路径”（解码器路径），所述扩展路径使得可以对检测的上下文进行精确定位。可以使用相对少量的训练数据来训练该人工神经网络。

发明内容

用于语义分割，特别是用于对图像数据中的特征进行定位和分类的人工神经网络，特别是所谓的卷积神经网络（CNN），对计算资源有很高的需求。通过添加解码器组件或上采样组件以及添加连接组件（跳过组件）进一步增加了对计算资源的需求，其中在编码器组件中进行了语义分析之后通过所述连接组件恢复高达原始分辨率的图像数据。在一些实现方式中，这可能导致计算资源的指数性增加。

除了增加计算资源外，在使用人工神经网络的情况下，特别是在使用CNN的情况下，在该网络的训练阶段和应用期间对以像素为基础的图像数据进行语义分割还需要更多的存储器资源，即需要更多的存储器带宽、存储器访问和存储器空间。

一旦应用不在诸如图形处理单元集群（GPU集群）的高存储器和分布式计算的专用计算单元上进行，而是应当在诸如嵌入式硬件等的嵌入式计算单元上运行，对计算资源和存储器资源的这种额外需求的缺点就会增强。

在这种背景下，本发明涉及用于对成像传感器的图像数据进行语义分割的方法、人工神经网络、设备、计算机程序和机器可读存储介质。

在当前情况下，图像数据可以理解为成像传感器的数据。首先，图像数据应理解为视频传感器（因此是相机）的数据。由于数据的相似性，雷达传感器、超声传感器、激光雷达传感器等的数据同样可以作为图像数据借助于本发明加以处理。因此，就本发明而言，可以将雷达传感器、超声传感器、激光雷达传感器等理解为成像传感器。

在此，适于在车辆中使用的成像传感器等（因此是汽车图像传感器）的图像数据对于本发明特别重要。

在当前情况下，语义分割应理解为对图像数据的处理，具有既确定图像中包含的对象的语义类别又确定这些对象在所述图像中的定位的目标。在此应当考虑的是，所述图像中的全局信息允许推断出所述对象的语义类别，而所述图像中的局部信息则允许推断出所述对象在所述图像中的定位。

本发明的一个方面是一种用于借助于人工神经网络、特别是卷积神经网络（CNN）对图像数据进行语义分割的方法。所述人工神经网络具有用于确定所述图像数据中语义类别的编码器路径和用于在所述图像数据中定位所确定类别的解码器路径。该方法包括以下步骤：

根据划分函数将输入张量划分为至少一个第一切片张量和至少一个第二切片张量，其中所述输入张量取决于所述图像数据；

将所述至少一个第一切片张量输出至所述人工神经网络的解码器路径；

根据连接函数将所述至少一个第一切片张量与所述至少一个第二切片张量连接，以获得输出张量；

将所述输出张量输出到所述人工神经网络的编码器路径。

在当前情况下，人工神经网络应理解为用于信息处理的人工神经元网络，所述信息处理例如是对图像数据进行语义分割，特别是对图像数据中的特征进行定位和分类。

在当前情况下，卷积神经网络（CNN）应理解为一类人工神经网络，这类人工神经网络在分类的领域中被认为是“现有技术”（State of the Art）。CNN的基本结构由卷积层和池化层的任意序列组成，卷积层和池化层由一个或多个完全连接的层封闭。相应的层由人工神经元构建而成。

在当前情况下，编码器路径应理解为处理图像数据直到所述图像数据中的特征（例如，对象）得到分类的路径。

在当前情况下，解码器路径应理解为与编码器路径连接的路径，该路径基于所述分类来恢复原始图像数据以定位经过分类的特征。

在当前情况下，连接组件应理解为进行语义分割的人工神经网络中的体系架构组件，该体系架构组件使得来自所述编码器路径的信息可用于所述解码器路径的对应位置。连接组件作为跳过连接或跳过模块出现。

在当前情况下，张量应理解为在人工神经网络中的处理期间的数据表示。数据组包括图像数据的处理状态和相关联的特征图。人工神经网络中第i步骤的张量典型地表示为

，具有n行、m列和f个特征图。

输入张量是在通过本发明的方法处理之前的数据表示。

切片张量是在根据本发明的方法进行划分的步骤之后的数据表示。

输出张量是用于在所述人工神经网络的编码器路径上进行进一步处理的数据表示。

在当前情况下，划分函数可以理解为适合于从所述输入张量和相关联特征图的集合中选择合适集合的任意函数。这可以根据划分因子、下标等来进行。

在当前情况下，连接函数可以理解为适合于将所述至少一个第一切片张量与所述至少一个第二切片张量连接的任意函数。这可以通过级联、求和、替换、再现等来进行。

本发明方法的优点在于划分步骤。通过该步骤可以实现图像数据的精确语义分割，并且同时将必要的计算资源和必要的存储器资源最小化，其方式是最佳地利用在所述编码器路径中执行的计算。

这允许本发明的方法在典型地在汽车环境中使用的嵌入式计算单元（所谓的嵌入式硬件）上执行。

根据本发明的方法的一种实施方式，在划分步骤中所述划分函数被设计为，使得仅选择所述输入张量的特征图的一个子集来形成所述至少一个第一切片张量。

在当前情况下，特征图应理解为人工神经网络的层（Layer）的输出。在CNN的情况下，特征图典型地是通过卷积层以及随后相关联的池化层进行处理的结果，并且可以用作后续层（Layer）或（如果设置了的话）全连接层的输入数据。

根据本发明的方法的一种实施方式，在连接步骤中所述连接函数（融合）被设计为，使得保持所述输入张量的维度。

该实施方式具有的优点是，就待使用的计算资源而言，可以以更少地资源利用率并且由此更有利地继续使用来自所述人工神经网络、特别是卷积神经网络（CNN）的不同层的信息。

根据本发明的方法的一种实施方式，该方法具有在前的接收步骤，其中在接收步骤中接收所述输入张量和所述划分函数。

该方法的该实施方式的优点在于，所述人工神经网络在与常规人工神经网络的并行执行相比减少了成本的同时更加灵活，并且可以在相应的层（Layer）上对相应的输入张量进行更精细的反应。

根据本发明的方法的一种实施方式，在划分步骤中将人工神经网络的第一函数应用于所述至少一个第一切片张量，并且将人工神经网络的第二函数应用于所述至少一个第二切片张量。

在当前情况下，人工神经网络的函数可以理解为人工神经网络的神经元层的任意函数。这可以是卷积（Convolution）—也可以表达为卷积块，即卷积的多次应用、深度卷积、压缩、残值（Residual）、密度（Dense）、Inception、激活（Activation，Act）、标准化、收集（Pooling（池化））等。

在当前情况下，Inception应理解为人工神经网络、特别是卷积神经网络的一种体系架构变型，其首先在Szegedy等人的Going deeper with convolutions，Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition，1-9页，2015中描述。

根据本发明的方法的一种实施方式，在划分步骤中所述划分函数被设计为，使得所述划分函数包括人工神经网络的特征图的待计算数量以及相应函数或计算图，以用于计算所述至少一个第一切片张量和所述至少一个第二切片张量。

本发明方法的该实施方式具有以下优点：可以通过简单的方式对所述至少一个第一切片张量和所述至少一个第二切片张量应用人工神经网络的不同函数。由此该人工神经网络在与常规人工神经网络的并行执行相比减少了成本的同时更加灵活，并且该人工神经网络可以对相应的输入张量进行更精细的反应。

本发明的另一方面是一种用于对图像数据进行语义分割的人工神经网络，其中所述人工神经网络具有用于对所述图像数据进行分类的编码器路径，用于对所述图像数据进行定位的解码器路径，并且被设置为执行根据本发明的方法的步骤。

以此方式设置的人工神经网络优选地用在技术系统中，特别是用在机器人、车辆、工具或机床中，以根据输入变量来确定输出变量。作为所述人工神经网络的输入变量，考虑传感器数据或依赖于传感器数据的变量。所述传感器数据可以源自所述技术系统的传感器，或者由所述技术系统从外部接收。根据所述人工神经网络的输出变量，所述技术系统的控制装置利用操控信号来操控所述技术系统的至少一个致动器。从而例如可以控制机器人或车辆的运动，或者可以操控工具或机床。

在根据本发明的人工神经网络的一种实施方式中，所述人工神经网络可以被设计为卷积神经网络。

本发明的另一方面是一种设备，其被设置为执行根据本发明的方法的步骤。

本发明的另一方面是一种计算机程序，其被设置为执行根据本发明的方法的步骤。

本发明的另一方面是一种机器可读存储介质，其上存储有根据本发明的人工神经网络或根据本发明的计算机程序。

附图说明

下面基于多个附图更详细地解释本发明的细节和实施方式。

图1示出了现有技术的全卷积网络的框图；

图2示出了现有技术的卷积网络的U-Net架构的框图；

图3示出了根据本发明的人工神经网络的实施方式的一部分的框图；

图4示出了根据本发明的人工神经网络的另一实施方式的一部分的框图；

图5示出了根据本发明的方法的流程图。

具体实施方式

图1示出了来自“Evan Shelhamer，Jonathan Long，Trevor Darrell，FullyConvolutional Models for Semantic Segmentation（用于语义分割的全卷积模型），PAMI2016”的全卷积网络的框图。

该图以块的形式总结了人工神经网络中所示流程的各个部分。

在块—编码器110中，示出了基于作为输入数据111的图像数据通过卷积神经网络（CNN）的多层（Layer）的处理步骤。从该图中可以清楚地看出卷积层112a和池化层112b。

在块—解码器120中，示出了CNN的“解卷积（deconvolutioned）”结果121、122、123。解卷积在此可以通过反转卷积步骤来实现。在此可以将粗粒度的分类结果映射为原始图像数据，以从而对经过分类的特征实现定位。

在块—跳过模块130中，示出了CNN的较高等级分类中间结果与“解卷积（deconvolutioned）”结果的连接。从而在第2行中，第4池化的中间结果与最终结果122逻辑关联，而在第3行中，第3池化和第4池化的中间结果与最终结果123逻辑关联。

这些逻辑关联的优点在于可以确定更精细的信息，同时可以获得更高级别的语义信息。

图2示出了来自“Olaf Ronneberger，Philipp Fischer，Thomas Brox，U-Net：Convolutional Networks for Biomedical Image Segmentation（U-Net：用于生物医学图像分割的卷积网络），Medical Image Computing and Computer-Assisted Intervention（MICCAI），Springer，LNCS，第9351卷”的卷积网络的U-Net体系架构的框图。

在块—编码器210中示出了基于作为输入数据111的图像数据通过卷积神经网络（CNN）的多层（Layer）以对输入数据211进行分类的处理步骤。

在块—解码器220中，示出了从最低分类级别出发经由对应数量的解卷积层（Layer）直到经过语义分割的图221的“解卷积步骤（Upconvolution，上卷积）”，图221具有输入数据211的定位和分类的特征。

在块230中示出了块—编码器210的层（Layer）与块—解码器220的对应层（Layer）之间的连接（Skip Connections，跳过连接）。这些连接代表了人工神经网络中在分类任务与定位任务之间的信息流。由此使得可以将粗粒度的语义分割与输入数据的更高程度的恢复相匹配。

图3示出了根据本发明的人工神经网络的实施方式的一部分的框图。根据该实施方式，以所谓的“张量模式”运行根据本发明的人工神经网络或方法。

在当前情况下，示出了在人工神经网络的第i步骤中的输入张量

310，其中n是行数量，m是列数量，f是特征图数量。此外存在划分函数（切片）320。根据划分函数（切片）320，将所述输入张量划分为至少一个第一切片张量330和至少一个第二切片张量350。在此可以根据任意划分函数（切片）320进行所述划分。尤其是可以想到根据划分因子（splitting factor）、根据索引等进行划分。

至少一个第一切片张量330旨在被输送到所述人工神经网络的解码器路径340，以便在那里与粗略的抽象特征表示逻辑关联。

至少一个第二切片张量350与至少一个第一切片张量330一起被输送到连接函数（融合）360，以生成输出张量370。作为连接函数（融合）360可以应用适合于将第一切片张量320与第二切片张量350连接的任何规则。尤其是可以想到级联、求和、替换、复制等。输出张量370旨在进一步沿着编码器路径380由所述人工神经网络处理。

图4示出了根据本发明的人工神经网络的另一实施方式的一部分的框图。根据该实施方式，以所谓的“函数模式”400运行根据本发明的人工神经网络或方法。

函数模式400的输入数据不仅包括输入张量310，而且包括划分函数（切片）420。将划分函数（切片）420应用于输入张量310以获得第一切片张量330和第二切片张量350。与“张量模式”300不同，还将人工神经网络的任意函数421、422应用于第一切片张量330和第二切片张量350。尤其是可以想到卷积（Convolution）、残值（Residual）、密度（Dense）、Inception、激活（Activation，Act）、标准化、收集（Pooling）等。对第一切片张量330和第二切片张量350可以应用人工神经网络的不同函数421、422。

然后将第一切片张量330输送到所述人工神经网络的解码器路径340，以便在那里与粗略的抽象特征表示逻辑关联。

至少一个第二切片张量350与至少一个第一切片张量330一起被输送到连接函数（融合）360，以生成输出张量370。作为连接函数（融合）360可以应用适合于将第一切片张量330与第二切片张量350连接的任何规则。尤其是可以想到级联、求和、替换、复制等。输出张量370旨在进一步沿着编码器路径380由所述人工神经网络处理。

图5示出了根据本发明的方法的流程图。

步骤510以虚线示出。这说明步骤510将被视为可选步骤。在步骤510中，接收输入张量310和划分函数320、420。

在步骤520中，根据划分函数320、420将输入张量310划分为至少一个第一切片张量330和至少一个第二切片张量350，其中输入张量310取决于图像数据111、211。

如果没有发生可选步骤510，则预给定划分函数320、430，并且输入张量310作为所述方法的输入数据而存在。

在步骤530中，将至少一个第一切片张量330输出到所述神经网络的解码器路径120、220。在解码器路径120、220中，可以将至少一个第一切片张量330与粗略的抽象特征表示逻辑关联。

在步骤540中，根据连接函数（融合）360将至少一个第一切片张量320与至少一个第二切片张量350连接，以获得输出张量370。输出张量370旨在在所述人工神经网络的编码器路径110、210上接受处理。

在步骤550中，将输出张量370输出到所述神经网络的编码器路径110、210，以由所述人工神经网络进一步处理。

本发明优选地适合于在汽车系统中使用，特别是与驾驶员辅助系统结合使用，直至部分或完全自动化驾驶。

在此，对代表车辆环境的图像数据或图像流的处理尤为重要。

这样的图像数据或图像流可以由车辆的成像传感器来检测。在此，可以借助于单个传感器进行所述检测。可以想到将使用不同检测技术的多个传感器（必要时来自多个传感器）的图像数据或图像流融合，所述传感器例如是视频传感器、雷达传感器、超声传感器、激光雷达传感器。

在此，在所述图像数据或图像流中确定自由空间（Free Space Detection,自由空间探测）以及对前景与背景进行语义区分特别重要。

这些特征可以通过应用根据本发明的人工神经网络处理图像数据或图像流来加以确定。基于该信息，可以对应地操控用于车辆纵向或横向控制的控制系统，使得可以操控该车辆对在所述图像数据或图像流中检测到这些特征进行适当的响应。

本发明的另一应用领域可以是为基于相机的车辆控制系统执行图像数据或图像数据流的精确预标记（pre-labeling）。

在此，要分配的标记（Label）代表应当在图像数据或图像流中识别的对象类别。

本发明还可用于所有领域，例如汽车、机器人学、健康、监视等，这些领域需要借助于人工神经网络进行精确的基于像素的对象识别（逐像素预测）。在此示例性地列出：光流，来自单色图像数据的深度，数字，边界识别，钥匙卡，对象探测等。

Claims

1.一种用于借助于人工神经网络、特别是卷积神经网络对图像数据（111、211）进行节省计算和存储器资源的语义分割的方法（500），其中所述人工神经网络具有编码器路径（110、210、380）和解码器路径（120、220、340），所述方法包括以下步骤：

-根据划分函数（320、420）将输入张量（310）划分（520）为至少一个第一切片张量（330）和至少一个第二切片张量（350），其中所述输入张量（310）取决于所述图像数据（111、211）；

-将所述至少一个第一切片张量（330）输出（530）至所述神经网络的解码器路径（120、220、340）；

-根据连接函数（360）将所述至少一个第一切片张量（330）与所述至少一个第二切片张量（350）连接（540），以获得输出张量（370）；

-将所述输出张量（370）输出（550）到所述神经网络的编码器路径（110、210、380）。

2.根据权利要求1所述的方法（500），其中，在划分步骤中所述划分函数（320、430）被设计为，使得仅选择所述输入张量（310）的特征图的一个子集来形成所述至少一个第一切片张量（330）。

3.根据权利要求1或2所述的方法（500），其中，所述连接函数（360）被设计为，使得保持所述输入张量（310）的维度。

4.根据前述权利要求中任一项所述的方法（500），所述方法具有在前的接收（510）步骤，其中在接收（510）步骤中接收所述输入张量（310）和所述划分函数（320、420）。

5.根据前述权利要求中任一项所述的方法（500），其中，在划分（520）步骤中将神经网络的第一函数（421）应用于所述至少一个第一切片张量（330），并且将神经网络的第二函数（422）应用于所述至少一个第二切片张量（350）。

6.根据权利要求5所述的方法（500），其中，所述划分函数（420）被设计为，使得所述划分函数包括人工神经网络的特征图的待计算数量以及相应函数（421、422），以用于计算所述至少一个第一切片张量（330）和所述至少一个第二切片张量（350）。

7.一种用于对成像传感器的图像数据进行语义分割的人工神经网络，特别是卷积神经网络，其中所述人工神经网络具有用于对所述图像数据（111、211）进行分类的编码器路径（110、210），用于对所述图像数据（111、211）进行定位的解码器路径（120、220），并且被设置为执行根据权利要求1至6中任一项所述的方法（500）的步骤。

8.一种特别是具有根据权利要求7所述的人工神经网络的设备，所述设备被设置为执行根据权利要求1至6中任一项所述的方法（500）的步骤。

9.一种计算机程序，其被设置为执行根据权利要求1至6中任一项所述的方法（500）的所有步骤。

10.一种机器可读存储介质，其上存储有根据权利要求7所述的人工神经网络和/或根据权利要求9所述的计算机程序。