CN112241757A

CN112241757A - 用于操作神经网络的设备和方法

Info

Publication number: CN112241757A
Application number: CN202010685719.9A
Authority: CN
Inventors: A·M·慕诺兹德尔加多; A·霍列娃; L·赫耶尔; P·卡蒂亚尔; V·费舍尔
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2019-07-17
Filing date: 2020-07-16
Publication date: 2021-01-19
Also published as: US20210019620A1; EP3767543A1

Abstract

提供了用于操作神经网络的设备和方法。根据各种实施例，描述了一种用于操作神经网络的方法，包括：使用神经网络为神经网络输入传感器数据确定神经网络输出数据；选择输出数据点的部分以形成感兴趣区域；以及对于感兴趣区域外部的至少一些输出数据点中的每一个，确定表示与神经网络的输出数据点相关联的一个或多个输入数据点的贡献的贡献值，所述神经网络确定分配给感兴趣区域中的输出数据点的输出数据点值。

Description

用于操作神经网络的设备和方法

技术领域

本公开涉及用于操作神经网络的设备和方法。

背景技术

神经网络正变得越来越广泛地用于将图像分类成预定义数量的类。理解神经网络是如何达到其结果的，可以极大地帮助确定分类有多么可信，但是众所周知的困难。

在2013年学习表征国际会议（International Conference on LearningRepresentations，ICLR）中由Karen Simonyan、Andrea Vedaldi和Andrew Zisserman的出版物“Deep inside convolutional networks： Visualising image classificationmodels and saliency maps”描述了通过生成低级视觉解释来解读网络决策过程。这样和类似的方案主要地聚焦于图像分类的任务，并且可以被划分成两个类别：基于梯度的方法和基于扰动的方法。

基于梯度的方法计算可视化每个图像像素对特定类预测的敏感度的显著性图，该显著性图通过相对于图像反向传播该预测的梯度并且估计沿着梯度移动如何影响类输出而被获得。基于梯度的方法主要依赖于用于反向传播的启发法，并且可以提供不忠实于模型或数据的解释。基于扰动的方法相对于受扰动的图像来评估类预测改变，例如，针对受扰动的图像，图像的特定区域利用均值图像值来被替换或通过应用模糊或高斯噪声来被移除。

用于显著性确定的高效方案是合期望的，所述方案不限于图像分类网络的解释，而且还用于诸如密集预测网络之类的其他神经网络。

发明内容

具有独立权利要求1（第一示例）和18（第二十三示例）的特征的方法和设备允许为神经网络（诸如密集预测（或语义分割）网络）提供空间相干解释。对于语义分割神经网络，因此可以发现由神经网络拾取的训练数据中的空间和语义相互关联性，并且例如在进一步的处理中将诸如用于自动化驾驶的车辆控制考虑在内。

在下文中描述了另外的示例。

一种由一个或多个处理器执行的用于操作神经网络的方法可以包括：使用神经网络为神经网络输入传感器数据确定神经网络输出数据，其中神经网络输入数据传感器数据包括多重输入数据点，每个输入数据点被分配一个或多个输入数据点值，并且其中神经网络输出数据包括多重输出数据点，每个输出数据点被分配一个或多个输出数据点值，并且其中每个输出数据点与一个或多个输入数据点相关联；从所述多重输出数据点中选择输出数据点的部分以形成感兴趣区域，其中感兴趣区域包括多个输出数据点；以及对于感兴趣区域外部的至少一些输出数据点中的每一个，确定表示与神经网络的输出数据点相关联的一个或多个输入数据点的贡献的贡献值，所述神经网络确定分配给感兴趣区域中的输出数据点的输出数据点值。该段落中提及的方法提供了第一示例。

通过输入数据点坐标到输出数据点坐标的映射，每个输出数据点可以与一个或多个输入数据点相关联。该段落中提及的特征与第一示例相组合提供了第二示例。

输入数据点可以被构造为输入阵列，并且输出数据点可以被构造为输出阵列，并且通过输入阵列中的位置到输出阵列中的位置的映射，每个输出数据点与一个或多个输入数据点相关联。该段落中提及的特征与第一示例至第二示例中的任何一个相组合提供了第三示例。

输入数据点可以被构造为输入图像，并且输出数据点可以被构造为输出图像，并且通过输入阵列中的像素位置到输出阵列中的像素位置的映射，每个输出数据点可以与一个或多个输入数据点相关联。该段落中提及的特征与第一示例至第三示例中的任何一个相组合提供了第四示例。

所述方法可以包括向用户呈现具有贡献值的输出数据点和感兴趣区域的输出数据点。所述方法可以进一步包括将具有贡献值的输出数据点与感兴趣区域的输出数据点的相对位置进行比较。两种程序均具有如下优点：神经网络的输出可以取决于贡献值进行验证。

所述方法可以进一步包括基于与输出数据点相关联的输入数据点的输入数据点值的扰动对输出数据点的一个或多个输出数据点值具有的影响的度量来确定数据点的贡献值。该段落中提及的特征与第一示例至第四示例中的任何一个相组合提供了第五示例。

可以基于贡献值的总度量与保持损失之间的权衡来确定贡献值，当确定分配给感兴趣区域中的输出数据点的输出数据点值时，以及当基于贡献值忽视输入数据值中的信息时，所述保持损失发生。该段落中提及的特征与第一示例至第五示例中的任何一个相组合提供了第六示例。

被选择来形成感兴趣区域的输出数据点的部分可以是输出数据的多重输出数据点的真实子集。该段落中提及的特征与第一示例至第六示例中的任何一个相组合提供了第七示例。

每个输出数据点的输出数据点值可以指定与输出数据点相关联的一个或多个输入数据点的输入数据点值的数据类。该段落中提及的特征与第一示例至第七示例中的任何一个相组合提供了第八示例。

输出数据点的贡献值可以表示与输出数据点相关联的一个或多个输入数据点对神经网络设置输出数据点的输出数据点值以指定数据类的决策的贡献。该段落中提及的特征与第八示例相组合提供了第九示例。

神经网络输入传感器数据可以包括一个或多个图像。该段落中提及的特征与第一示例至第九示例中的任何一个相组合提供了第十示例。

神经网络输出数据可以包括结果图像。该段落中提及的特征与第一示例至第十示例中的任何一个相组合提供了第十一示例。

感兴趣区域可以是结果图像中的图像区域。该段落中提及的特征与第十一示例相组合提供了第十二示例。

神经网络可以被训练用于图像分割，其中结果图像表示语义分割。该段落中提及的特征与第十一示例至第十二示例中的任何一个相组合提供了第十三示例。

感兴趣区域可以对应于语义分割的一个或多个分段。该段落中提及的特征与第十三示例相组合提供了第十四示例。

结果图像可以是深度图像或运动图像。该段落中提及的特征与第十一示例至第十二示例中的任何一个相组合提供了第十五示例。

所述方法可以包括生成表示贡献值的显著性图。该段落中提及的特征与第一示例至第十五示例中的任何一个相组合提供了第十六示例。

贡献值可以是显著性图的像素值。该段落中提及的特征与第十六示例相组合提供了第十七示例。

每个输入数据点可以恰好与一个输出数据点相关联。该段落中提及的特征与第一示例至第十七示例中的任何一个相组合提供了第十八示例。

可以选择输出数据点的部分，使得输出数据点的输出数据点值位于预定范围内。该段落中提及的特征与第一示例至第十八示例中的任何一个相组合提供了第十九示例。

所述方法可以进一步包括基于贡献值控制神经网络的训练。该段落中提及的特征与第一示例至第十九示例中的任何一个相组合提供了第二十示例。

所述方法可以进一步包括基于贡献值控制致动器。该段落中提及的特征与第一示例至第二十示例中的任何一个相组合提供了第二十一示例。

所述方法可以进一步包括基于贡献值评估神经网络的性能。该段落中提及的特征与第一示例至第二十一示例中的任何一个相组合提供了第二十二示例。

一种设备可以被配置为执行第一示例至第二十二示例中的任何一个的方法。该段落中提及的特征提供了第二十三示例。

一种车辆可以包括：至少一个图像传感器，其被配置为提供数字图像数据；以及驾驶员辅助系统，其包括根据第一示例至第二十二示例中的任何一个操作的神经网络，其中神经网络被配置为对数字图像数据进行分类，并且其中驾驶员辅助系统被配置为基于分类的数字图像数据和贡献值来控制所述车辆。该段落中提及的特征提供了第二十四示例。

一种计算机程序可以具有程序指令，所述程序指令被配置为当由一个或多个处理器执行时，使所述一个或多个处理器执行根据第一示例至第二十二示例中的一个或多个的方法。

所述计算机程序可以存储在机器可读存储介质中。

附图说明

在附图中，同样的参考字符贯穿不同的视图一般指代相同的部分。附图不一定按比例，而是一般将重点放在说明本发明的原理上。在以下描述中，参考以下附图描述了各个方面，在附图中：

图1示出了自主驾驶场景中的对象检测的示例。

图2示出了可以用来将图像分类成预定义数量的类的神经网络的示例。

图3图示了根据实施例的显著性确定。

图4和5示出了根据实施例确定的显著性的示例。

图6示出了图示根据实施例的用于操作神经网络的方法的流程图。

具体实施方式

以下详细描述参考了附图，附图通过图示的方式示出了其中可以实践本发明的本公开的具体细节和方面。在不脱离本发明的范围的情况下，可以利用其他方面，并且可以进行结构、逻辑和电气改变。本公开的各个方面不一定相互排斥，因为本公开的一些方面可以与本公开的一个或多个其他方面组合以形成新的方面。

在下文中，将更详细地描述各种示例。

图1示出了自主驾驶场景中的对象检测的示例100。

在图1的示例中，车辆101（例如汽车、货车或摩托车）被提供有车辆控制器102。

车辆控制器102包括数据处理部件，例如处理器（例如CPU（中央处理单元））103和用于存储车辆控制器102根据其操作的控制软件和处理器103对其进行操作的数据的存储器104。

例如，存储的控制软件包括当由处理器103执行时使处理器实现神经网络107的指令。

存储在存储器104中的数据可以包括来自一个或多个图像源105（例如由一个或多个相机获取）的图像数据。图像可以包括表示一个或多个对象或模式的数据集合。一个或多个图像源105可以例如输出车辆环境的灰度或彩色图片。一个或多个图像源105可以响应于可见光或不可见光，诸如例如红外光或紫外光、超声波或雷达波或者其他电磁或音波信号。

车辆控制器102可以基于图像数据确定对象的存在，例如，诸如交通标志或道路标记之类的固定对象和/或诸如行人、动物和其他车辆之类的移动对象。

然后可以由车辆控制器102根据对象确定的结果来控制车辆101。例如，车辆控制器102可以控制致动器106来控制车辆的速度，例如来致动车辆的制动器。

可以在由神经网络107执行的对象分类的基础上来执行控制。

图2示出了神经网络200的示例，该神经网络200可以用于将图像分类成预定义数量的类。

在该示例中，神经网络200包括一个输入层201、两个层202a和202b以及一个输出层203。

应当注意到，神经网络200是用于分类目的的实际深度神经网络（例如深度前馈神经网络）的简化示例，其可以包括多很多的处理节点和层。

输入数据对应于输入层201，并且一般可以被看作多维值阵列，例如，输入图像可以被看作与图像的像素值相对应的2维值阵列。

来自输入层201的输入然后被连接到处理节点204。典型的节点204将每个输入与权重相乘，并且将加权值相加起来。附加地，节点204可以向总和添加偏差。

节点204典型地各自跟随有非线性激活函数205，例如整流线性单元ReLU（

）或sigmoid函数（

）。所得值然后被输出到下一层。

层202a和202b可以是隐藏层，例如完全连接层，如在图2中所示，其中一层的每个节点连接到另一层的每个节点。

层也可以是非完全连接层（或由非完全连接层补充），例如，在卷积神经网络CNN的情况下的卷积层或汇集（pooling）层（典型地跟随有一个或多个隐藏层）。

在卷积层中，输入由卷积滤波器修改。这些滤波器对输入数据的子集进行操作，并且可以帮助提取输入数据的特征，例如特定的形状或模式。由卷积层实现的滤波器引起卷积层的若干个对应节点204仅从先前层的一部分接收输入。

汇集层可以被看作一种形式的非线性下采样，其通过将若干个节点的输出组合成下一层中的单个节点（例如通过取得输出的最大值）来降低数据的维度。

在设计用于分类的神经网络（诸如神经网络200）中，输出层203从至少一个在前层、例如从隐藏层202b接收值。然后，这些值可以由输出层例如通过在其上应用softmax函数（

，其中v _i（i = 1，……，K）是输出层接收的值）或sigmoid函数，而转变成概率。包含在输出向量中的最高概率值对应于类预测。

在下文中，类预测也可以被称为预测、预测类标注或预测分类标注。

因此，输出层203的输出向量是概率向量，对于每个预定义的类，该概率向量指示图像对应于预定义的类——例如图像示出了预定义的对象——的概率。例如，假设对于数字的输入图像存在10个预定义的类（0，1，……，9），输出向量是由10个元素组成的向量，其中每个元素对应于数字的概率。类预测将是对应于输出向量中最高概率的数字。输出层203可以输出由概率值组成的整个向量，或者仅输出类预测。

为了能够对图像进行分类，首先相应地训练神经网络200。在汽车驾驶的情况下，这可以基于诸如城市景观的交通场景的集合来完成。

在以上示例中应当注意，一个图像被分类，例如，图像被分类为示出行人。然而，例如在汽车驾驶场景中，（例如由相机105拍摄的）图像典型地包括多个对象。因此，在这样的应用中，可以使用密集预测（或语义分割），这可以被视为对图像的每个像素进行分类。例如，某些像素可以被分类以示出行人，而其他像素被分类以示出另一车辆。这样的密集预测可以类似地使用如以上解释的用于图像分类的神经网络来被执行，不同之处在于输出包括图像的每个像素的类预测，而不是每个图像的类预测。图像x的输出因此可以是指示每个像素的类预测的另一图像（例如，通过颜色被编码，例如行人绿色、车辆红色、背景灰色等），即

本身是具有与可能的类预测相对应的多个通道的图像。对于语义分割，可以使用CNN。

在许多现实世界场景中，对象的存在、其位置和外观与该对象周围的上下文信息高度相互关联，该对象周围的上下文信息诸如其他附近对象的存在或更多全局场景语义。例如，在城市街道场景的情况下，骑车人更有可能与自行车共现，并且汽车更有可能出现在天空和建筑物下方的道路上。这些语义相互关联性固有地存在于现实世界的数据中。诸如深度神经网络200之类的数据驱动模型倾向于利用这些统计偏差以便改进其预测性能。针对现实世界的应用（例如自主驾驶）对深度学习模型有效且安全的利用要求良好理解数据中固有的这些上下文偏差，以及经学习的模型将它们并入其决策过程的程度。否则，存在对象被错误分类的风险，例如因为它出现在不寻常的位置中。

显著性方法可以通过突出在输入中可假定对模型的预测具有高相关性的部分，即通过标识对网络预测贡献最多的图像像素，来解释经训练的模型（例如经训练的神经网络）的预测。

根据各种实施例，提供了一种用于显著性确定的方案，即显著性方法，其可以被看作用于朝向（像素级）密集预测任务的图像分类的显著性方法的扩展，并且其允许通过利用密集预测中的空间信息来生成空间相干解释（并且在预测解释之间进行空间上的区分）。

在以下示例中，该方案被称为网格显著性，其是一种基于扰动的显著性方法，该方法基于一个公式，该公式作为标识在目标对象区域内部保留网络预测所需要的图像的最小未扰动区的优化问题。由于网格显著性允许在显著性图中在对象和其相关联的上下文区之间进行区分，因此它允许针对语义分割网络产生上下文解释，从而发现哪个上下文信息对目标对象区内部的类预测影响最多。

让

标示例如由深度神经网络200实现的预测函数，其将网格输入空间

（例如输入图像空间的输入图像）映射到网格输出空间

（例如输出图像空间的输出图像），其中W和H是输入（图像）和输出（图像）的相应宽度和高度，并且

和

是输入通道的数量（例如对于图像为3或1）和输出预测通道的数量（例如对于语义分割的类数量）。

在下文中，为了易于解释，仅将图像视为输入，并且将网络的每像素密集预测视为输出，即输入是图像，

，并且输出是每像素密集预测

。此外，为了简单起见，假设输入和输出空间维度是相同的。

根据实施例，针对输入图像x的网格显著性确定可以被视为基于找到必须保留在图像x中的最小显著性（图）

，以便针对类（例如通道）

保持请求掩码区

中的网络预测

，其中显著性的大小基于M的像素值。例如，如果M的像素值的

范数小于M’的像素值的

范数，则M小于M’。

根据各种实施例，网格显著性基于扰动显著性方案。这意味着（在请求区中）主要负责分类器决策的显著图像区域是通过如下方式来被确定的：利用非信息性像素值替换图像的部分（即扰动图像），并且评估对应的类预测改变。

让p标示从图像x中移除显著性M外部的信息的扰动函数（其中外部意指对于其而言M不是1的像素）。例如，这样的扰动函数可以是x与

之间的插值，其中a可以是恒定颜色图像、高斯模糊或随机噪声。在这种情况下，

，其中“

”标示哈达玛乘积。

应当注意到，在实践中，显著性M可以被定义在比输入图像低的分辨率上，以避免对抗性伪影，并且可以稍后被上采样到输入图像分辨率。此外，受扰动的图像

的像素值可以被限幅（clip）以保持原始图像像素值空间的范围。

基于以上符号，找到用于类c预测的显著性图M的任务可以被公式化为如下优化

（1）

其中

标示

范数，并且

是类c的网络预测，即对于类（通道）c的输出图像的像素值。

在等式（1）右手侧的第一项可以被视为使显著图像区最小化使得原始图像被尽可能多地扰动的掩码损失。第二项充当保持损失，其确保在受扰动图像

上类c的网络预测

至少达到在原始未扰动输入图像上的网络预测

的置信度。因此，第二损失项可以被视为对不满足约束

的惩罚，因此在等式（1）中使用

。参数

控制M的稀疏性，即控制显著性的大小有多强烈地受到惩罚。

的示例性值是0.05，但是其他值可能地生成更小或更大的显著性。

进一步可能的是，通过根据下式在等式（1）中将保持损失限制到请求掩码R，将在显著性图M中给出的对于所请求的感兴趣区R中的网络预测的解释与对于其他预测的解释在空间上分开

（2）

在下文中，等式（2）的结果被称为网格显著性图。

来自等式（2）的网格显著性公式可以适应于具体提供针对所请求的感兴趣区R的上下文解释。对于语义分割，上下文解释是特别感兴趣的，因为上下文典型地通常充当用于语义分割网络的主要线索之一。

因此，根据各种实施例，存在对于语义标注预测的上下文解释的关注，并且假设R是覆盖输入图像x中的感兴趣对象的区。为了优化对象上下文的显著部分，对象请求掩码R被集成到扰动函数中。对于请求掩码R，受扰动的图像

仅包含R内部的对象信息，并且（例如，在恒定颜色的图像a的情况下）移除R外部的所有上下文信息。

为了优化（即显著性的确定），使用该新的受扰动图像

而不是受最大扰动图像

，并且上下文扰动函数是

。换言之，当输入图像受扰动时，R内的图像信息是相关的（因此，显著性不“需要”包括请求区R）。

类c和请求对象R的上下文显著性图由下式给出

（3）

这可以被看作对显著性图的优化，以选择至少产生请求掩码R内部针对类c的原始预测所必需的最小上下文。

应当注意到，上下文显著性图可以被看作网格显著性图的特殊情况，因为扰动采取特殊的形式。

图3图示了根据实施例的显著性确定。

在301中，神经网络被训练用于密集预测，其由函数f标示。

在302中，给定被训练用于f（密集预测任务）的网络、输入图像x以及针对该输入图像和类c（例如输出图像通道c）的网络

的预测（图），选择预测图中针对其要求视觉解释的目标区R。

在303中，这些组成部分用于根据等式（3）定义优化问题，求解该优化问题以得到显著性图作为目标区R中预测的事后（post-hoc）解释。

优化问题可以使用各种优化技术来被求解（即，显著性图可以被优化），所述优化技术诸如具有动量或亚当（Adam）的随机梯度下降（SGD）。例如，对于SGD，针对100个步骤，可以使用0.5的动量和0.2的学习速率，并且对于每个像素，可以利用0.5来初始化显著性图。另一示例是使用SGD对粗略的16乘32像素掩码的优化，SGD具有针对80个步骤的为1的学习速率。

在304中，所得显著性图用于各种目的，例如作为针对网络预测的视觉解释，以及用于调试经训练的网络中的错误和分类可靠性的确定。

例如，控制器102可以基于显著性图确定分类的可靠性，并且可以进一步基于显著性图处理类预测。例如，取决于所确定的上下文，可以接受或丢弃类预测以供进一步处理（例如，车辆控制）。例如，如果分类的上下文没有意义（例如，当确定的上下文不包括可以预期为相关的图像区域时），则控制器102可以丢弃分类，如下文中所解释的。

图4和5示出了根据实施例确定的显著性的示例。

在图4中，第一图片401示出了由神经网络确定的第一交通场景的语义分割。第二图片402示出了类“骑手”的上下文（由网格显著性确定），第三图片403示出了类“自行车”的上下文，并且第四图片404示出了类“汽车”的上下文。

在图5中，第一图片501示出了由神经网络确定的第二交通场景的语义分割。第二图片502示出了类“行人”的上下文，第三图片503示出了类“腿”的上下文，并且第四图片504示出了类“汽车”的上下文。

可以看出，网格显著性可以用于从上下文解释正确的预测：在图4的第二图片402中，神经网络查看摩托车以正确预测类骑手。然而，用于语义分割的网格显著性的上下文解释也可以解释错误的预测：在图5的示例中，骑手的上身被错误地预测为行人。如在图5的第二图片502中可以看出，对于该预测，与正确分类的骑手的腿（图5的第三图片503）形成对比，自行车并不显著。

这是其中控制器102可以丢弃分类的情况：由于自行车对于骑手的分类来说并不显著，但是对于骑手的腿来说是显著的，所以控制器可能怀疑对于骑手作为行人的分类，自行车已经被错误地忽略了，并且可能忽略该分类。

网格显著性可以例如用于通过经由获得的网格显著性图检测由经训练的网络拾取的偏差来增强经训练的模型（例如任何密集预测网络）。通过检查跨对于相同语义对象类的显著性解释的不一致性并且通过获得的显著性图标识异常的原因，获得的网格显著性图可以用于异常检测。更一般地，它可以用于解释任何未预期的模型行为，例如，在针对临界情况（corner case）的错误预测的情况下，网格显著性可以用于理解图像（任何数据样本）的哪个部分是“离群部”（异常）并且导致故障。

网格显著性可以特别地用于在线诊断工具中，例如用于诸如车辆控制器102的控制器中。

应当注意到，虽然在以上示例中，网格显著性是经由扰动来确定的，但是它也可以基于其他方案（诸如以如在下文中解释的基于梯度的方式）来被确定。

让

标示相对于输入图像

针对类c的预测fc的梯度。对于VG（普通梯度）、IG（积分梯度）和SG（平滑梯度）显著性，显著性图分别被计算为

（4）

其中n是用于IG的近似步骤数量或用于SG的样本数量，并且

表示具有标准差

的高斯噪声。

类似于基于扰动的方案，显著性M中对于请求区R中的网络预测给出的解释与其他预测在空间上分开。对于给定的输入x和二进制请求掩码R，请求区R中针对类c的归一化网络预测分数被标示为

。

类似于

，对于网格显著性，定义

，其通过利用

替换等式（4）中的

而直接产生网格显著性

。对于基于梯度的上下文显著性，类似于基于扰动的方案，仅考虑对象区（即感兴趣区域）外部的显著像素，即

（5）

应当注意到，基于梯度的显著性图倾向于是有噪声的。因此，为了规避这点，可以在显著性图的顶部上使用具有

内核和步幅的空间均值滤波器，其中

是基于扰动的显著性图的分辨率。

总之，根据各种实施例，提供了如图6中所图示的方法。

图6示出了图示根据实施例的用于操作神经网络的方法的流程图600。

在601中，使用神经网络为神经网络输入传感器数据确定神经网络输出数据，其中神经网络输入数据传感器数据包括多重输入数据点，每个输入数据点被分配一个或多个输入数据点值，并且其中神经网络输出数据包括多重输出数据点，每个输出数据点被分配一个或多个输出数据点值，并且其中每个输出数据点与一个或多个输入数据点相关联。

在602中，从多重输出数据点中选择输出数据点的部分以形成感兴趣区域，其中感兴趣区域包括多个输出数据点。

在603中，对于感兴趣区域外部的至少一些输出数据点中的每一个，确定表示与神经网络的输出数据点相关联的一个或多个输入数据点的贡献的贡献值，所述神经网络确定分配给感兴趣区域中的输出数据点的输出数据点值。

根据各种实施例，换言之，为输出中的某个感兴趣区域确定输入数据值的显著性。例如，用作确定贡献值（其可以被看作显著性确定结果，例如可以形成（网格）显著性图）的基础的保持损失被限制于感兴趣区域。

例如，确定依据贡献值的语义分割的上下文解释。在以上示例中，贡献值例如可以是

的值，例如，0和1之间的值表示像素（或一般对应于输出数据点的一个或多个输入数据点值）对神经网络关于另一个数据点的一个或多个数据点值（例如分类）的决策的贡献。这里，贡献值0表明最小贡献，并且贡献值1表明最大贡献。

图6的方法可以由一个或多个处理器来执行。术语“处理器”可以理解为允许处理数据或信号的任何类型的实体。例如，可以根据由处理器执行的至少一个（即，一个或多于一个）特定功能来处置数据或信号。处理器可以包括模拟电路、数字电路、复合信号电路、逻辑电路、微处理器、中央处理单元（CPU）、图形处理单元（GPU）、数字信号处理器（DSP）、可编程门阵列（FPGA）集成电路或其任何组合，或者由其形成。实现相应功能的任何其他方式（将在下面更详细地描述）也可以理解为处理器或逻辑电路。将理解到，本文中详细描述的方法步骤中的一个或多个可以由处理器通过处理器执行的一个或多个特定功能来执行（例如，实现）。

虽然在以上示例中，神经网络是用于具有作为输入数据的相机图像的车辆的密集预测网络，但是图6的方案可以用于接收从任何传感器接收的传感器信号的神经网络，即，对任何种类的输入传感器数据（诸如视频、雷达、激光雷达、超声和运动）进行操作。

应当特别注意到，输入数据不限于图像，而是也可以应用于任何类似图像的数据（例如，以一个或多个二维或还更高维阵列的形式构造的数据），诸如声音频谱图、雷达频谱、超声图像等。此外，原始1D（例如音频）或3D数据（视频，或RGBD（红绿蓝深度）数据）也可以用作输入。

生成的显著性确定结果（例如网格显著性图）可以用作计算控制信号的基础，所述控制信号用于控制物理系统（像例如是计算机控制的机器、像机器人、车辆、家用器具、电动工具、制造机器、个人助理或访问控制系统）、或者用于传送信息的系统（像监督系统或医学（成像）系统）以便解释和理解在以上物理系统中使用的密集预测网络的决策过程。它通过生成低级视觉解释（例如网格显著性图）来这样做。特别地，结果图像允许通过分析由结果图像给出的解释来标识异常的原因。

根据各种实施例，输入数据是以图像的形式（或处于类似图像的数据结构）。因此，根据各种实施例，提供了一种由一个或多个处理器执行的用于分析神经网络的方法，包括：借助于神经网络为输入图像确定结果图像，其中结果图像包括多重像素，每个像素具有一个或多个像素值；选择结果图像的感兴趣区域；以及确定感兴趣区域外部的结果图像的区域，取决于所述结果图像的区域，神经网络已经确定了感兴趣区域中的像素的像素值。

尽管已经在本文中说明和描述了特定的实施例，但是本领域的普通技术人员将领会到，在不脱离本发明的范围的情况下，多种替代和/或等同的实现可以代替于所示出和描述的特定实施例。本申请意图覆盖本文中讨论的特定实施例的任何改编或变型。因此，意图的是本发明仅由权利要求及其等同物来限制。

Claims

1.一种由一个或多个处理器执行的用于操作神经网络的方法，所述方法包括：

·使用神经网络为神经网络输入传感器数据确定神经网络输出数据，其中神经网络输入数据传感器数据包括多重输入数据点，每个输入数据点被分配一个或多个输入数据点值，并且其中神经网络输出数据包括多重输出数据点，每个输出数据点被分配一个或多个输出数据点值，并且其中每个输出数据点与一个或多个输入数据点相关联；

·从所述多重输出数据点中选择输出数据点的部分以形成感兴趣区域，其中感兴趣区域包括多个输出数据点；以及

·对于感兴趣区域外部的至少一些输出数据点中的每一个，确定表示与神经网络的输出数据点相关联的一个或多个输入数据点的贡献的贡献值，所述神经网络确定分配给感兴趣区域中的输出数据点的输出数据点值。

2.根据权利要求1所述的方法，其中向用户呈现具有贡献值的输出数据点和感兴趣区域的输出数据点。

3.根据权利要求1所述的方法，其中将具有贡献值的输出数据点与感兴趣区域的输出数据点的相对位置进行比较。

4.根据权利要求1-3中任一项所述的方法，其中通过输入数据点坐标到输出数据点坐标的映射，每个输出数据点与一个或多个输入数据点相关联。

5.根据权利要求1-4中任一项所述的方法，其中输入数据点被构造为输入阵列，并且输出数据点被构造为输出阵列，并且通过输入阵列中的位置到输出阵列中的位置的映射，每个输出数据点与一个或多个输入数据点相关联。

6.根据权利要求1至5中任一项所述的方法，其中输入数据点被构造为输入图像，并且输出数据点被构造为输出图像，并且通过输入阵列中的像素位置到输出阵列中的像素位置的映射，每个输出数据点与一个或多个输入数据点相关联。

7.根据权利要求1至6中任一项所述的方法，包括基于与输出数据点相关联的输入数据点的输入数据点值的扰动对输出数据点的一个或多个输出数据点值具有的影响的度量来确定数据点的贡献值。

8.根据权利要求1至7中任一项所述的方法，其中，贡献值是基于贡献值的总度量与保持损失之间的权衡来确定的，当确定分配给感兴趣区域中的输出数据点的输出数据点值时，以及当基于贡献值忽视输入数据值中的信息时，所述保持损失发生。

9.根据权利要求1至8中任一项所述的方法，其中被选择来形成感兴趣区域的输出数据点的部分是输出数据的多重输出数据点的真实子集。

10.根据权利要求1至9中任一项所述的方法，其中每个输出数据点的输出数据点值指定与输出数据点相关联的一个或多个输入数据点的输入数据点值的数据类。

11.根据权利要求10所述的方法，其中，输出数据点的贡献值表示与输出数据点相关联的一个或多个输入数据点对神经网络设置输出数据点的输出数据点值以指定数据类的决策的贡献。

12.根据权利要求1至11中任一项所述的方法，其中神经网络输入传感器数据包括一个或多个图像。

13.根据权利要求1至12中任一项所述的方法，其中神经网络输出数据包括结果图像，并且其中感兴趣区域是结果图像中的图像区域。

14.根据权利要求11或13所述的方法，其中神经网络被训练用于图像分割，其中结果图像表示语义分割，并且其中感兴趣区域对应于语义分割的一个或多个分段。

15.根据权利要求13所述的方法，其中结果图像是深度图像或运动图像。

16.根据权利要求1至15中任一项所述的方法，包括生成表示贡献值的显著性图，并且其中贡献值是显著性图的像素值。

17.一种设备，包括用于实行权利要求1至16中任一项的方法的装置。

18.一种包括指令的计算机程序，当所述程序由计算机执行时，所述指令引起计算机实行权利要求1至16中任一项的方法。

19.一种计算机可读存储装置，其上存储有权利要求18的计算机程序。

20.一种车辆包括：

·至少一个图像传感器，其被配置为提供数字图像数据；以及

·驾驶员辅助系统，其包括根据权利要求1至16中任一项操作的神经网络，其中神经网络被配置为对数字图像数据进行分类，并且其中驾驶员辅助系统被配置为基于分类的数字图像数据和贡献值来控制所述车辆。