CN114430839A

CN114430839A - 用于处理神经网络的数据的设备和方法

Info

Publication number: CN114430839A
Application number: CN202080069274.XA
Authority: CN
Inventors: T·温泽尔; A·朗格
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2019-10-02
Filing date: 2020-08-10
Publication date: 2022-05-03
Also published as: WO2021063572A1; US20220343641A1; DE102019215255A1

Abstract

用于处理神经网络、特别是深度神经网络的数据、特别是非归一化多维数据的设备（200）和方法（100），特别是用于检测输入图像中的对象，其中所述数据针对所述输入图像中的大量位置分别包括至少一个第一分类值，其中分类值量化了类别的存在，其中所述方法包括以下步骤：根据阈值评估（102）所述数据，其中丢弃（104a）所述输入图像中相应位置的低于或高于所述阈值的第一分类值，并且不丢弃（104b）所述输入图像中相应位置的高于或低于所述阈值的第一分类值。

Description

用于处理神经网络的数据的设备和方法

技术领域

本公开涉及一种用于处理神经网络、特别是深度神经网络的数据、特别是非归一化多维数据的计算机实现的方法。

本公开还涉及一种用于处理神经网络、特别是深度神经网络的数据、特别是非归一化多维数据的计算机实现的设备。

背景技术

在图像处理领域，特别是在对象检测领域，经常使用神经网络，特别是卷积神经网络（英语：Convolutional Neural Network）。原则上，这种网络的结构由多个卷积层（英语：Convolutional Layer）组成。

为了进行对象检测，使用这种网络对输入图像中的大量位置来判定类别、特别是目标对象类别的存在。通过这种方式，对每个输入图像都做出大量判定，例如多达10⁷个。然后可以基于这些判定进一步计算神经网络的最终网络输出，也称为预测。

在所谓的边界框方法中，对对象的预测通常按照以下方式处理，即，为检测到的对象计算所谓的边界框，即围绕对象的框。边界框的坐标对应于所述对象在输入图像中的位置。针对所述边界框输出对象类别的至少一个概率值。

在所谓的语义分割中，逐个像素或逐个超像素地将类别分配给输入图像的像素。在这种背景下，逐个超像素应理解为多个组合的像素。在此，像素在输入图像中具有特定位置。

甚至更小的这种网络已经可以包括数百万个参数，并且执行一次就需要数十亿次计算操作。特别是应当在嵌入式系统中使用神经网络的情况下，所需的存储器带宽以及所需的计算操作数量通常都是限制因素。

由于神经网络的最终网络输出的特征性频度分布，传统的压缩方法通常不适合于减小所需的存储器带宽。

期望提供一种可以用于既减少所需计算操作的数量又减少所需存储器带宽的方法。

发明内容

优选实施方式涉及一种用于处理神经网络、特别是深度神经网络的数据、特别是非归一化多维数据的计算机实现的方法，特别是用于检测输入图像中的对象，其中所述数据针对所述输入图像中的大量位置分别包括至少一个第一分类值，其中分类值量化了类别的存在，其中所述方法包括以下步骤：根据阈值评估所述数据，其中丢弃所述输入图像中相应位置的低于或高于所述阈值的第一分类值，并且不丢弃所述输入图像中相应位置的高于或低于所述阈值的第一分类值。

第一分类值例如是所述神经网络的过滤器、特别是卷积层的非归一化结果。被训练为量化类别的存在的过滤器在下面也称为类别过滤器。因此建议评估所述类别过滤器的非归一化结果，并根据阈值丢弃所述类别过滤器的结果。

在另外的优选实施方式中规定，所述阈值为零并且丢弃所述输入图像中相应位置的低于所述阈值的第一分类值，并且不丢弃所述输入图像中相应位置的高于所述阈值的第一分类值。因此建议丢弃负分类值，不丢弃正分类值。

在另外的优选实施方式中规定，丢弃所述输入图像中相应位置的第一分类值还包括：将所述第一分类值设置为固定值，特别是零。所述固定值优选地是可任意设定的值。优选地，所述固定值为零。然后可以将诸如游程编码的压缩方法应用于所述分类值。由于神经网络的非归一化多维数据在将第一分类值设置为特别是零的所述固定值之后主要包括该固定值，因此可以实现高压缩率，特别是10³到10⁴的压缩率。

在另外的优选实施方式中规定，所述第一分类值是所述神经网络的针对所述输入图像中相应位置的类别过滤器的非归一化结果，特别是针对背景类别，其中丢弃所述输入图像中相应位置的第一分类值包括丢弃所述类别过滤器的结果。

在另外的优选实施方式中规定，所述输入图像中相应位置的数据包括至少一个另外的分类值和/或附加属性的至少一个值，其中另外的分类值包括对象类别、特别是目标对象类别的类别过滤器的非归一化结果，其中所述方法还包括：根据是否丢弃相应位置的第一分类值来丢弃所述相应位置的至少一个另外的分类值和/或所述相应位置的附加属性的至少一个值。附加属性的值例如包括相对位置的值。

在另外的优选实施方式中规定，丢弃至少一个另外的分类值还包括：将所述另外的分类值和/或附加属性的值设置为固定值，特别是零。然后可以将诸如游程编码的压缩方法应用于所述分类值。由于神经网络的非归一化多维数据在将第一分类值和另外的分类值和/或附加属性的值设置为特别是零的固定值之后主要包括该固定值，因此可以实现高压缩率，特别是10³-10⁴的压缩率。

在另外的优选实施方式中规定，该方法还包括：处理未丢弃的分类值，特别是转发未丢弃的分类值和/或将激活函数，特别是softmax激活函数应用于未丢弃的分类值。通过应用激活函数，然后可以基于未丢弃的分类值来计算神经网络的最终网络输出，也称为预测，特别是为了预测特定类别中的对象是否和/或以何种概率位于所述输入图像中的特定位置。

另外的优选实施方式涉及一种用于处理神经网络、特别是深度神经网络的数据、特别是非归一化多维数据的设备，特别是用于检测输入图像中的对象，其中所述数据针对所述输入图像中的大量位置分别包括至少一个第一分类值，其中所述设备被构造为执行根据实施方式的方法。

在另外的优选实施方式中规定，所述设备包括用于至少一个人工神经网络的计算装置，特别是处理器，以及用于至少一个人工神经网络的存储器，它们被构造为执行根据权利要求的方法。

另外的优选实施方式涉及一种用于检测输入图像中的对象的系统，包括根据实施方式的用于处理神经网络的数据、特别是非归一化多维数据的设备，其中所述系统还包括用于应用激活函数、特别是softmax激活函数的计算装置，特别是用于计算所述神经网络的预测，并且所述设备被构造为将未丢弃的分类值转发给所述计算装置和/或分配给所述计算装置的存储装置。

另外的优选实施方式涉及一种计算机程序，其中所述计算机程序包括计算机可读指令，在由计算机执行所述计算机可读指令时运行根据实施方式的方法。

另外的优选实施方式涉及一种计算机程序产品，其中所述计算机程序产品包括存储器，根据实施方式的计算机程序存储在所述存储器上。

另外的优选实施方式涉及根据实施方式的方法和/或根据实施方式的神经网络和/或根据实施方式的设备和/或根据实施方式的系统和/或根据实施方式的计算机程序和/或根据实施方式的计算机程序产品用于至少部分自主地移动车辆的应用，其中输入图像由所述车辆的传感装置，特别是相机、雷达传感器或激光雷达传感器捕获，其中针对用于检测对象的输入图像执行根据实施方式的方法，其中根据对象检测的结果确定用于所述车辆的至少一个操控，特别是用于所述车辆的自动化的制动、转向或加速。

另外的优选实施方式涉及根据实施方式的方法和/或根据实施方式的神经网络和/或根据实施方式的设备和/或根据实施方式的系统和/或根据实施方式的计算机程序和/或根据实施方式的计算机程序产品用于移动机器人系统或其部分的应用，其中输入图像由所述机器人系统的传感装置，特别是相机捕获，其中针对用于检测对象的输入图像执行根据实施方式的方法，其中根据对象检测的结果确定用于所述机器人系统的至少一个操控，特别是用于与所述机器人系统环境中的对象交互的操控。

附图说明

另外的有利实施方式从以下描述和附图得出。在附图中

图1示出了用于对象检测的传统方法的步骤；

图2a示出了用于对象检测的神经网络的卷积层结果的典型频度分布；

图2b示出了包括第一分类值和另外的分类值的非归一化数据的典型频度分布；

图2c示出了包括第一分类值的非归一化数据的典型频度分布；

图2d示出了包括另外的分类值的非归一化数据的典型频度分布；

图3示出了用于处理数据的方法的步骤；

图4示出了用于处理数据的设备的示意图；以及

图5示出了用于处理数据的系统的示意图。

具体实施方式

图1示意性地示出了用于对象检测的已知方法的步骤。为此通常使用所谓的卷积神经网络。这种网络的结构通常包括多个卷积层。这些卷积层的过滤器例如被训练为量化类别的存在。这种过滤器在下面也被称为类别过滤器。在步骤10中，使用针对输入图像中大量位置的类别过滤器来判定类别的存在，特别是背景类别和/或目标对象类别。类别过滤器的结果在下面也称为分类值。

随后，在步骤12中，在每个位置处，对类别过滤器的结果（也称为非归一化多维数据，英语：Raw Scores（原始分数））应用Softmax函数来确定特定类别的对象位于相应位置的概率。通过使用softmax函数，将原始分数归一化为区间[0,1]，从而为每个位置产生所谓的分数向量。所述分数向量通常分别具有每个目标对象类别的条目和背景类别的条目。随后，在进一步的步骤14中，通过所谓的分数阈值化过滤掉其中目标对象类别的分数向量条目大于预定义阈值的分数向量。

用于后处理的进一步的步骤包括例如计算对象框和应用另外的标准方法，例如非最大抑制，以产生最终对象框。这些后处理步骤示例性地组合在步骤16中。

用于神经网络的大多数计算这种，特别是硬件加速器，不适合于执行步骤12-16。于是出于这个原因，必须将包括分类值在内的所有非归一化数据传输到另外的存储装置，以便随后由适合于此的另外的计算装置进一步处理。

所有数据的传输和上述后处理步骤的应用都既需要高存储器带宽又需要大量所需的计算操作。

图2b示出了包括第一分类值和另外的分类值的非归一化数据的典型频度分布。第一分类值例如是用于背景类别的类别过滤器的结果。另外的分类值例如是用于目标对象类别—行人的类别过滤器的结果。

用于减少存储器带宽的方法，例如基于无损压缩或有损压缩来减少存储器带宽的方法（例如游程编码）是已知的。这种方案例如可以应用于卷积层的结果。图2a示出了神经网络卷积层结果的典型频度分布。由于分类值的数值的频度分布，这种方案不适用于神经网络的非归一化数据，参见图2b。

图3示出了一种用于处理神经网络、特别是深度神经网络的数据、特别是非归一化多维数据的计算机实现的方法100，特别是用于检测输入图像中的对象，其中所述数据针对所述输入图像中的大量位置分别包括至少一个第一分类值，其中该方法包括以下步骤：根据阈值评估102所述数据，其中丢弃104a所述输入图像中相应位置的低于或高于所述阈值的第一分类值，并且不丢弃104b所述输入图像中相应位置的高于或低于所述阈值的第一分类值。

神经网络例如根据所谓的边界框方法工作，其中在检测到对象的情况下计算所谓的边界框，即围绕对象的框。边界框的坐标对应于该对象在输入图像中的位置。针对边界框输出对象类别的至少一个概率值。

神经网络还可以根据所谓语义分割的方法工作，根据该方法将类别逐个像素或逐个超像素地分配给输入图像的像素。在该背景下，逐个超像素应理解为多个组合的像素。在此，像素在输入图像中具有特定位置。

因此在方法100中，基于阈值（即所谓的分数阈值）来评估102神经网络的非归一化的多维数据（即原始分数）。

在另外的实施方式中，第一分类值是所述神经网络的针对所述输入图像中相应位置的类别过滤器的非归一化结果，特别是针对背景类别，其中丢弃104a所述输入图像中相应位置的第一分类值包括丢弃所述类别过滤器的结果。

因此，如果第一分类值是背景类别的类别过滤器的结果并且低于或高于阈值，则假设在输入图像中的该位置处存在背景并且因此不存在目标对象实例。因此单独考虑的话，背景类别的分类值已经代表了有效的判定极限。不需要与其他类别过滤器的另外的分类值组合，而例如在应用softmax函数时就进行该组合。从图2c和2d可以看出，背景类别的类别过滤器的非归一化数据和诸如行人的目标对象类别的类别过滤器的非归一化数据不是无关的。

特别地，所述阈值可以为零。在这种情况下可以证明有利的是，丢弃104a输入图像中相应位置的低于所述阈值的第一分类值，并且不丢弃104b输入图像中相应位置的高于所述阈值的第一分类值。

在这方面规定，对第一分类值，即背景类别的类别过滤器的结果进行校准，使得值零定义所述判定极限，从该就判定极限起可以假设在输入图像中具有低于所述阈值的分类值（即分类值为负）的位置处存在背景，并且因此不存在目标对象实例。对分类值的所述校准例如借助于背景类别的卷积过滤器中的偏差进行。

还可以规定，输入图像中相应位置的数据包括至少一个另外的分类值和/或附加属性的至少一个值，其中另外的分类值包括对象类别、特别是目标对象类别的类别过滤器的非归一化结果，其中该方法还包括：根据是否丢弃相应位置的第一分类值来丢弃所述相应位置的至少一个另外的分类值和/或所述相应位置的附加属性的至少一个值。具体地，因此规定，根据第一分类值、特别是背景类别的类别过滤器的结果来丢弃用于位置的过滤器的所有结果。

在另一方面中规定，在步骤106中处理未丢弃的分类值，特别是转发未丢弃的分类值和/或将激活函数，特别是softmax激活函数应用于未丢弃的分类值。因此只转发和/或进一步处理未丢弃的分类值。通过应用激活函数，然后可以基于未丢弃的分类值来计算神经网络的预测，特别是为了预测特定类别中的对象是否和/或以何种概率位于输入图像中的特定位置。通过将激活函数只应用于未丢弃的分类值并且因此只应用于部分分类值，减少了计算预测所需的计算操作。

在另一方面中可以规定，在转发未丢弃的分类值时一起转发未丢弃的分类值的原始位置。这对于确定分类值在输入图像中的位置特别有利。这意味着，不是为所有位置传输分类值，而是为数量明显减少的位置传输分类值和位置。

在另一方面中可以规定，丢弃104a输入图像中相应位置的第一分类值还包括：将第一分类值设置为固定值，特别是零。在这种背景下，可以有利地进一步规定，丢弃至少一个另外的分类值和/或附加属性的至少一个值还包括：将另外的分类值和/或附加属性的至少一个值设置为固定值，特别是零。

具体地因此规定，根据第一分类值，特别是背景类别的类别过滤器的结果将一个位置的所有分类值并且必要时将一个位置的附加属性的另外的值设置为固定值，特别是零。然后可以将诸如游程编码的压缩方法应用于分类值。由于神经网络的非归一化多维数据在将分类值和/或附加属性的另外的值设置为特别是零的固定值后主要包括该固定值，因此可以实现高压缩率，特别是10³到10⁴的压缩率。

所描述的方法100可以例如由处理神经网络、特别是深度神经网络的数据、特别是非归一化多维数据的计算机实现的设备200执行，特别是用于检测输入图像中的对象，其中所述数据针对所述输入图像中的大量位置分别包括至少一个第一分类值，参见图4。

设备200包括用于神经网络的计算装置210，特别是硬件加速器，以及用于神经网络的存储装置220。

另一方面涉及用于检测输入图像中的对象的系统300，包括设备200和计算装置310，用于应用激活函数，特别是softmax激活函数，特别是用于计算神经网络的预测。设备200被构造为将未丢弃的分类值转发给计算装置310和/或分配给计算装置310的存储装置320。数据线路330在该示例中将这些装置连接，参见图5。

在用于神经网络的计算装置210不适合执行步骤106的情况下，已证明有利的是，将未丢弃的分类值转发到计算装置310和/或分配给该计算装置310的存储装置320。

所描述的方法100、所描述的设备200和所描述的系统300可以例如用于对象检测，特别是人检测，例如在监视区域、机器人技术或汽车领域。

另外的优选实施方式涉及根据实施方式的方法100和/或根据实施方式的设备200和/或根据实施方式的系统300和/或根据实施方式的计算机程序和/或根据实施方式的计算机程序产品用于至少部分自主地移动车辆的应用，其中输入图像由所述车辆的传感装置，特别是相机、雷达传感器或激光雷达传感器捕获，其中针对用于检测对象的输入图像执行根据实施方式的方法100，其中根据对象检测的结果确定用于所述车辆的至少一个操控，特别是用于所述车辆的自动化的制动、转向或加速。

另外的优选实施方式涉及根据实施方式的方法100和/或根据实施方式的设备200和/或根据实施方式的系统300和/或根据实施方式的计算机程序和/或根据实施方式的计算机程序产品用于移动机器人系统或其部分的应用，其中输入图像由所述机器人系统的传感装置，特别是相机捕获，其中针对用于检测对象的输入图像执行根据实施方式的方法100，其中根据对象检测的结果确定用于所述机器人系统的至少一个操控。

Claims

1.一种用于处理神经网络、特别是深度神经网络的数据、特别是非归一化多维数据的计算机实现的方法（100），特别是用于检测输入图像中的对象，其中所述数据针对所述输入图像中的大量位置分别包括至少一个第一分类值，其中分类值量化了类别的存在，其中所述方法包括以下步骤：根据阈值评估（102）所述数据，其中丢弃（104a）所述输入图像中相应位置的低于或高于所述阈值的第一分类值，并且不丢弃（104b）所述输入图像中相应位置的高于或低于所述阈值的第一分类值。

2.根据权利要求1所述的方法（100），其中所述阈值为零并且丢弃（104a）所述输入图像中相应位置的低于所述阈值的第一分类值，并且不丢弃（104b）所述输入图像中相应位置的高于所述阈值的第一分类值。

3.根据前述权利要求中的至少一项所述的方法（100），其中丢弃（104a）所述输入图像中相应位置的第一分类值还包括：将所述第一分类值设置为固定值，特别是零。

4.根据前述权利要求中的至少一项所述的方法（100），其中所述第一分类值是所述神经网络的针对所述输入图像中相应位置的类别过滤器的非归一化结果，特别是针对背景类别的类别过滤器，其中丢弃（104a）所述输入图像中相应位置的第一分类值包括丢弃所述类别过滤器的结果。

5.根据前述权利要求中至少一项所述的方法（100），其中所述输入图像中相应位置的数据包括至少一个另外的分类值和/或附加属性的至少一个值，其中所述另外的分类值包括对象类别、特别是目标对象类别的类别过滤器的非归一化结果，其中所述方法还包括：根据是否丢弃相应位置的第一分类值来丢弃所述相应位置的至少一个另外的分类值和/或所述相应位置的附加属性的至少一个值。

6.根据权利要求5所述的方法（100），其中丢弃所述至少一个另外的分类值和/或丢弃附加属性的所述至少一个值还包括：将所述另外的分类值和/或附加属性的值设置为固定值，特别是零。

7.根据前述权利要求中至少一项所述的方法（100），其中所述方法还包括：处理（106）未丢弃的分类值，特别是转发所述未丢弃的分类值和/或将激活函数，特别是softmax激活函数应用于所述未丢弃的分类值。

8.一种用于处理神经网络、特别是深度神经网络的数据、特别是非归一化多维数据的设备（200），特别是用于检测输入图像中的对象，其中所述数据针对所述输入图像中的大量位置分别包括至少一个第一分类值，其中所述设备被构造为执行根据权利要求1至7中至少一项所述的方法（100）。

9.一种用于检测输入图像中的对象的系统（300），包括根据权利要求8所述的用于处理神经网络的数据、特别是非归一化多维数据的设备（200），其中所述系统（300）还包括用于应用激活函数、特别是softmax激活函数的计算装置（310），特别是用于计算所述神经网络的预测，并且所述设备（200）被构造为将未丢弃的分类值转发给所述计算装置（310）和/或分配给所述计算装置（310）的存储装置（320）。

10.一种计算机程序，其中所述计算机程序包括计算机可读指令，当由计算机执行所述计算机可读指令时运行根据权利要求1至7中任一项所述的方法（100）。

11.一种计算机程序产品，其中所述计算机程序产品包括存储器，根据权利要求10所述的计算机程序存储在所述存储器上。

12.根据权利要求1至7中任一项的方法（100）和/或根据权利要求8的设备和/或根据权利要求9的系统和/或根据权利要求10的计算机程序和/或根据权利要求11的计算机程序产品用于至少部分自主地移动车辆的应用，其中输入图像由所述车辆的传感装置，特别是相机、雷达传感器或激光雷达传感器捕获，其中针对用于检测对象的输入图像执行根据权利要求1至7中任一项的方法（100），其中根据对象检测的结果确定用于所述车辆的至少一个操控，特别是用于所述车辆的自动化的制动、转向或加速。

13.根据权利要求1至7中任一项的方法（100）和/或根据权利要求8的设备和/或根据权利要求9的系统和/或根据权利要求10的计算机程序和/或根据权利要求11的计算机程序产品用于移动机器人系统或其部分的应用，其中输入图像由所述机器人系统的传感装置，特别是相机捕获，其中针对用于检测对象的输入图像执行根据权利要求1至7中任一项的方法（100），其中根据对象检测的结果确定用于所述机器人系统的至少一个操控。