CN113039557A

CN113039557A - 生成深度神经网络和定位对象的方法、深度神经网络、计算机程序产品和计算机可读存储介质

Info

Publication number: CN113039557A
Application number: CN201980077210.1A
Authority: CN
Inventors: S·戈什; P·阿蒙; A·胡特
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2018-09-24
Filing date: 2019-08-28
Publication date: 2021-06-25
Also published as: EP3627379A1; WO2020064253A1; US20220076117A1; US11900646B2; EP3837632A1

Abstract

本发明涉及一种用于生成深度神经网络（10）和用于定位输入图像（2）中的对象（30）的方法（1）、深度神经网络（10）、对应的计算机程序产品和对应的计算机可读存储介质。本发明提出了将判别性计数模型训练成：根据在每一个图像（2）中描绘的预定类型的对象（30）的数量来对图像（2）进行分类，并且将分割模型训练成：通过根据像素属于什么图像部分（30、31、35‑38、42、60）来对每个像素进行分类从而分割图像（2）。对两个模型的部分（11）和/或特征进行组合以形成深度神经网络（10），其中深度神经网络（10）被适配成在单个前向传递中针对每个输入图像（2）生成指示任何对象（30）的位置的图（14、16、52、58、63）。

Description

生成深度神经网络和定位对象的方法、深度神经网络、计算机程序产品和计算机可读存储介质

本发明涉及用于生成深度神经网络的方法、用于定位输入图像中的对象的方法、用于定位图像中的对象的深度神经网络、对应的计算机程序产品和对应的计算机可读存储介质。

许多任务和应用需要或可以受益于自动处理图像或图像数据，以检测、定位对象以及将对象进行分类和/或相应地分割图像。然而，对于通用对象检测算法而言，检测特定类别或类型的对象（如人或车辆）往往具有挑战性。如今，深度神经网络已经在用于图像和视频分析的各种计算机视觉应用中取得了成功。虽然已经在可公开获得的、特别准备的数据集上证明了神经网络或相应深度模型的良好性能，但是性能在实际场景和应用中通常会下降。为了尝试更好地概括或应对涉及所描绘场景中的混乱、被部分遮挡的对象和/或相对小的对象的现实世界情形，深度神经网络的架构的复杂性已经由于具有训练过程的复杂性、对训练数据的需要以及训练数据的注释要求而不断地增加。当然，在所需要的处理时间以及结果的质量或准确性方面实现更好的性能始终是合期望的目标。这对于需要实时或接近实时的可靠性能和/或对安全性敏感型的应用（例如，视频监控和自主驾驶）而言尤其如此。

在过去，已经通过完全监督技术以及通过弱监督技术以不同的成功而实现了使用深度学习对图像进行的对象定位或语义分割。

在完全监督技术中，使用像素级标签来生成定位或分割图。通常，涉及编码器-解码器架构，其中编码器包括一系列卷积和池化层，解码器包括一系列去卷积（deconvolutional）和反池化（unpooling）层。然后，由涉及像素级标签或注释的损失函数来驱动深度神经网络。对于该架构存在一些变体，其中存在从编码器到解码器侧的连接。一些技术使用全卷积网络或SegNet及其变体，如贝叶斯SegNet和U-Net。

在另一方面，弱监督方法涉及使用由分类网络生成的注意力图来进行对象定位。这意味着，使用图像级标签来训练分类网络，该分类网络进而用于生成注意力图。已经开发了各种技术来得出（come up with）注意力图。这些技术包括去卷积、CAM和Grad-CAM。所有这些方法都涉及通过经训练的深度神经网络的完全或部分后向传递（backward pass），以生成注意力图。用于对象定位和图像分割的这些弱监督技术中的一些的示例被描述在M.Oquab等人于2015年在CVPR中的“Is object localisation free

Weakly-supervisedlearning with convolutional neural networks”以及A.Kolesnikov和C.H. Lampert于2016年在ECCV中的“Seed，expand and constrain：Three principles for weakly-supervised image segmentation”中。

本发明的目的是使得能够以与当前可用现有技术相比改进的性能来进行图像中的自动对象定位。该目的通过独立权利要求的主题来实现。在从属权利要求以及说明书和附图中指示了具有本发明的有益开发的有利实施例。

根据本发明的用于生成、即用于创建或准备深度神经网络以用于定位输入图像中的预定类型的对象的方法包括多个步骤。在该方法的一个步骤中，将判别性深度计数模型、即用于对对象进行计数的判别性深度神经网络训练成：根据在每一个图像中描绘的预定类型的对象的相应数量来对图像进行分类。其中，针对或利用与预定类型的对象的不同数量相对应的至少两个、优选地至少三个或更多个不同的类来训练计数模型。换句话说，计数模型被训练成：聚焦于预定类型的对象的计数或数量作为图像之间的区别特征。类通常被表示为计数模型的全连接输出层或分类层的节点。优选地，计数模型、即计数模型可以指派给输入图像的类具有复合类结构（compositional class structure）。

在该方法的另一个步骤中，将深度分割模型训练成：通过根据像素属于相应图像的哪个描绘的对象或部分来对相应图像的每个像素进行分类从而分割图像。可以针对或利用至少两个类（诸如，前景和背景）来训练分割模型、即用于分割图像的深度神经网络。因此，经训练的分割模型可以将图像的每个像素分类为属于相应图像的前景或属于相应图像的背景。其中，前景可以被定义为预定类型的一个或多个对象，而背景可以被定义为前景、即预定类型的一个或多个对象被嵌入其中的场景。换句话说，背景可以包括相应图像中的不表示或不描绘预定类型的一个或多个对象的每个其他部分。

在根据本发明的方法的另一个步骤中，对计数模型和分割模型的部分进行组合以形成深度神经网络，其中深度神经网络被构造或配置或适配成：针对每个经处理的输入图像生成指示预定类型的任何对象的位置的图（map）。优选地，深度神经网络被构造或配置成在相应输入图像通过深度神经网络的单个前向传递中生成该图。将计数模型和分割模型或其部分彼此组合的不同方式是可能的。下面将进一步更详细地描述这些不同方式中的一些。特别地，可以在模型的训练之前或之后对计数模型和分割模型进行组合。相应地，根据本发明的方法的所描述的步骤可以以它们已被描述的次序或者以不同的次序来执行。

取决于计数模型和分割模型彼此组合的方式，由所得的深度神经网络生成的图可以是定位图或注意力图，或者该图可以是相应经处理的输入图像或针对相应经处理的输入图像的分割图。

对象的预定类型基本上是任意的，这意味着深度神经网络或其部分可以被训练或适配成用于定位基本上任何类型或种类的对象。可以在所生成的图中定位或指示的对象或对象类型的典型示例包括人或人员、车辆（诸如，汽车、公共汽车、自行车等）、道路标记物、街道标志、建筑物、动物、工具、工件等。

计数模型和分割模型的训练可以通过已知的方法（如自动微分，或者具体地是反向传播）来完成。

通过将深度计数模型的至少部分和深度分割模型的至少部分组合成深度神经网络，可以利用两个不同类型的模型的个体优势（strength）和益处，以用于定位图像中的对象的任务。这进而导致改进的性能，特别是对象定位或图像分割的改进的质量或准确度。计数模型的优势和益处、特别是针对深度计数模型或作为深度计数模型的一部分而训练的的特征提取器包括检测相对小的和/或被部分遮挡的对象的能力，检测相对小的和/或被部分遮挡的对象对于其他对象检测算法而言通常是个问题。计数模型的另一个优点是检测或定位变化尺度（scale）下的对象的能力，而无需其他检测技术中通常必要的附加步骤。之所以是这种情况，是因为作为特征的“计数”或“数量”对于尺度来说（to scale）是不变的，即对于相应对象相对于相应图像的总体大小的大小来说、和/或在表示相应对象的像素的数量方面是不变的。计数模型的另一个优点是如下事实：即，可以使用在图像级别处仅具有单个标签用于注释的训练图像来相对容易地训练该计数模型，该单个标签即在相应训练图像中描绘的预定类型的对象的相应计数或数量。这意味着，计数模型的弱监督训练是可能的，使得可以在可管理的努力下生成深度神经网络。

在另一方面，分割模型有利地能够实现对预定类型的对象的更精细或更全面的分割，特别是跨不同尺度的分割。而且，随着日益复杂的图像，分割模型是在像素级处引导深度神经网络的一种方式。

总体上，通过对深度计数模型和深度分割模型的部分和/或特征进行组合，与或者仅使用计数模型或者仅使用分割模型相比，深度神经网络可以有利地实现具有显著改进的准确度的背景分割。此外，由计数模型和分割模型的部分和/或特征形成深度神经网络或者利用它们形成深度神经网络为实现计算优势打开了有利的可能性，这是由于有可能避免通过典型分割网络的各种去卷积和反池化层的解码器传递。这可以有利地实现所提出的发明的实时或接近实时的实现方式或应用。换句话说，使用本发明，在推理时，在每个输入图像通过深度神经网络的单个前向传递中获得结果、即定位图或分割图，而不需要如典型的已知分割网络下常见的完整或部分后向传递或通过解码器的传递。由于有可能仅使用计数模型和分割模型的卷积层来形成深度神经网络，因此处理基本上任意大小或尺寸的图像（至少是比使用传统分割网络可以可行地处理的图像大小显著更大的图像）变得可能或在计算上可行。本发明的另一个优点在于如下事实：合成图像可以用于训练，这也将在下面进一步更详细地描述。所发现的是，合成图像可以成功地用于教导深度神经网络或其部分（即，计数模型和分割模型），预定类型的对象的有意义的特征导致了深度神经网络泛化（generalize）至在训练期间根本未看到的其他图像或数据集的能力。

复合性（compositionality）并且具体地是作为复合性的一种形式的多重性（multiplicity）可以有利地用于使得计数模型或其特征提取器能够可靠地聚焦于要被计数的预定类型的对象。虽然已知利用各种各样的统计信息在训练期间向深度神经网络提供更多的数据通常应当导致更好的模型，但是在这里，采用该方法是为了通过使用类结构中以及用于训练深度计数模型的训练图像或训练数据中的复合性并且具体地是多重性的原理来引导深度计数模型学习与预定类型的对象有关的有意义的特征。

本发明范围内的复合性意味着，每个后续的类或对象类别是相应先前的类或对象类别的超集。传统或常规的简单分类网络通常可以将图像分类成两个类，其中类0对应于相应图像中没有描绘或不存在预定类型的对象，并且类1对应于相应图像中存在预定类型的至少一个对象。代替于使用这种传统的分割网络，在这里，类的数量增加到至少三个或更多个。一个或多个附加类对应于预定类型的对象的不同数量或计数。例如，类1可以对应于确切地一个对象，类2可以对应于确切地2个对象，类3可以对应于预定类型的确切地三个对象，依此类推。

当训练判别性神经网络或模型时，它需要将对应于不同的类的表示进行解纠缠（disentangle），在这种情况下，这些不同的类是预定类型的所描绘对象的不同计数或数量。在该过程中，该模型学习聚焦于该对象，这是由于在不同的类之间进行区分的特征就是“对象实例”本身。通过以这种方式引入作为复合性的一种形式的多重性，每个后续的类是先前的类的超集，并且就涉及深度计数模型的分类器和成本函数而言，这些类之间的差异点是对象的数量，但是就涉及深度计数模型的特征提取器而言，差异点是预定类型的对象本身或预定类型的多个对象本身。在类内以及跨类具有相同类型的对象的多于一个实例可以借助于跨类的“视觉相似性”以及“语义相似性”来实现。这将在下面进一步更详细地解释。

在本发明的有利开发中，彼此组合地训练计数模型和分割模型。出于该目的，在用于计数模型和分割模型的共享特征提取器的下游来彼此并行地布置计数模型头部（head）和分割模型头部。其中，计数模型头部包括至少一个全连接层，分割模型头部包括至少一个转置卷积层（也被称为去卷积层）和/或至少一个卷积层，并且共享特征提取器包括多个卷积层。然后，通过共享特征提取器将训练图像馈送到模型头部中的每一个。换句话说，组合架构用于针对计数模型和分割模型两者同时使用相同的特征提取器来训练计数模型和分割模型。共享特征提取器的输出随后被分岔（branch off）。沿着一个分支，共享特征提取器的输出作为输入被提供给计数模型头部，而沿着另一个并行分支，共享特征提取器的输出作为输入被提供给分割模型头部。

这意味着，计数模型包括共享特征提取器和计数模型头部，而分割模型包括共享特征提取器和分割模型头部。两个模型中的每一个还可以包括或包含附加的部分或特征，诸如例如相应的分类器，即用作相应输出层的分类层。共享特征提取器然后可以用作两个模型的相应部分，以形成深度神经网络。

所描述的架构有效地形成了利用计数损失函数以及分割损失函数而训练的多任务深度神经网络。所得的深度神经网络有利地具有特别短的流水线，这有利地导致了更少的必要计算以及对输入图像的更快的处理。

在训练时，用于训练计数模型部分的计数损失函数有利地帮助有效地消除背景特征，而用于训练分割部分的分割损失函数帮助获得对预定类型的对象、即在本申请意义上的前景对象的更准确且更全面的分割。用于深度神经网络或共享特征提取器的总体或组合损失函数然后可以被理解或表示为计数损失函数和分割损失函数的加权组合。通过调整相应的加权因子，可以改变计数部分和分割部分的相应影响，以针对各种用例或应用来调节所得的共享特征提取器或深度神经网络。

有利地，分割模型或分割部分不需要像针对传统分割网络常见的那样包括全功能的（full-fledged）解码器或者去卷积或反池化层的完全堆叠。这种简化基于如下洞察：即，共享特征提取器已经可以生成不错的定位图作为输出，这是因为它是使用计数损失函数来训练的。在没有针对深度计数模型或作为深度计数模型的一部分而训练的的特征提取器的提供相对良好的对象定位的性质的情况下，使用这种简化将是不可能的。

在本发明的进一步有利开发中，在深度神经网络的最终卷积层之后添加上采样级或上采样模块。上采样模块被适配成将所生成的图取作输入，并且根据其来生成上采样图。特别地，在训练或训练阶段完成之后添加上采样模块。换句话说，上采样模块仅被添加用于推理阶段，即用于深度神经网络的生产性使用或应用，在该生产性使用或应用中，要处理先前未知或未看到的输入图像。上采样模块可以优选地使用或包括传统或常规的图像处理算法或图像处理程序。换句话说，上采样模块不一定需要使用或基于机器学习或神经网络架构。这可以有利地在所需的处理时间方面导致改进的图像处理性能，并且在处理基本上任意大小或尺寸的输入图像的能力方面导致增加的灵活性。

然而，还有可能使用一个或多个去卷积层作为上采样模块或作为上采样模块的一部分。在这种情况下，可以在训练阶段之前添加上采样模块以便还训练这些层。

通常，分割网络以与相应输入图像相同或几乎相同的分辨率来生成或预测分割图。然而，深度计数模型通常以较低的分辨率来生成或预测注意力或定位图。由于在本发明中，计数模型和分割模型彼此组合，因此上采样模块的添加对于获得高质量的定位或分割图作为最终输出或结果来说是特别有利的。

在本发明的进一步有利开发中，顺序地训练计数模型和分割模型。这意味着，首先训练模型中的第一个模型，并且然后，之后训练模型中的相应其他模型。取决于训练的次序，使用由经训练的计数模型生成的注意力图或定位图来训练分割模型。换句话说，如果首先训练计数模型，则使用由经训练的计数模型生成的提示（cue）来训练分割模型。提示（即，注意力图或定位图）被生成作为计数模型的特征提取器的输出，即作为最终卷积层的输出，最终卷积层恰好在包括计数模型的分类层的最终一个或多个全连接层的上游。

在另一方面，如果首先训练分割模型，则使用由经训练的分割模型生成的分割图来训练计数模型。

顺序地训练这两个模型可能比同时对这两个模型的组合训练更容易实现。顺序地训练两个模型的另一个优点是：在一个模型的训练完成之后，可以有利地在训练过程中的该中间阶段处执行对结果的测试或验证。虽然这两个模型是顺序地（即，在不同的时间处）训练的，但是它们实际上并不是彼此独立地训练的，这是由于第一训练的模型的相应输出被用于训练第二模型，从而影响第二模型。在这种意义上，即使仅使用第二训练的模型或其特征提取器而不使用第一训练的模型的特征提取器来形成组合深度神经网络，第一模型的特征仍在组合深度神经网络中被使用。

通过以这种方式顺序地训练这两个模型，仍然可以实现或利用结合这两个模型的组合训练所描述的优点。在训练时进行定序（sequencing）的另一个优点是：在稍后的推理时间或推理阶段处，可以容易地分离这两个模型，使得有可能在没有任何附加努力的情况下，例如当已经首先训练了计数模型时仅使用经训练的分割模型。在该场景中，在推理阶段期间不需要计数模型。这意味着，针对推理阶段，硬件或计算要求可以更低，这为本发明打开了附加的用例或应用。

在本发明的进一步有利开发中，彼此独立地训练计数模型和分割模型。然后，通过以串行或顺序布置对两个模型的至少相应特征提取器进行组合来形成深度神经网络，其中每个特征提取器包括多个卷积层。换句话说，特征提取器之一被布置在另一个特征提取器的下游。

如果计数模型的特征提取器被用作该串行布置的第一部分，则分割模型的特征提取器然后被用于作为计数模型的特征提取器的输出而生成的注意力或定位图上。然后，从计数模型获得的该注意力或定位图可以由分割模型的特征提取器使用，以从正在被处理的相应图像中去除背景部分。

然而，还有可能将分割模型的特征提取器布置在前面，即，布置在充当注意力生成机构的计数模型的特征提取器的上游。

彼此独立地训练这两个模型具有的优点是训练期间增加的灵活性。例如，当计算时间或资源变得可用时，可以使用不同的计算机系统来训练这两个模型。甚至可以同时或在重叠的时间段期间训练这两个模型。而且，这两个模型可以在它们相应的训练完成之后被分别且独立地检查或验证。至少在原则上可以使用已知或现有的计数和分割模型。这表示用于实现或实施本发明的一种特别容易且低努力的方式。

在本发明的进一步有利开发中，利用合成图像来训练至少计数模型。换句话说，使用至少一些合成图像来训练计数模型，或者训练计数模型和分割模型两者。合成图像是根据预定规则和/或以为了具有一个或多个预定特性、特征或性质的这种方式而手动或自动创建或适配的图像。使用合成图像来训练这些模型——并且特别是相应的特征提取器——可以显著减少为了获得合适的训练数据集（即，训练图像）以及为了确保训练数据（即，合成训练图像）在特征或特性方面平衡所需的时间和努力。这可以有利地确保用于训练这些模型的图像不会导致特征提取器的任何不想要的偏差。

有利地，使用合成图像作为训练图像使得有可能以相对低的努力来确保训练图像遵守复合性并且具体地是多重性的原则，即，训练图像及其特征或特性对应于期望的复合类结构。然而，使用合成图像来训练一个或多个模型并不排除还使用至少一些自然图像（即，已经由相机拍摄并且尚未为了训练目的而特别适配或编辑的图像）的可能性。

在本发明的进一步有利开发中，合成训练图像包括在语义上彼此相似但是在视觉上彼此不同的图像。当两个图像描绘了相同数量的预定类型的对象时，在该意义上，它们在语义上彼此相似。当两个图像在其像素的至少50%中不同时，在该意义上，它们在视觉上彼此不同。例如，当两个图像描绘了预定类型的对象被嵌入其中的不同场景时，它们可能在视觉上彼此不同。例如，相同数量的预定类型的对象可以简单地叠加在不同背景或背景场景的顶部或前面。然而，还可能的是，预定类型的对象被图像的不同深度水平处的场景或背景部分所包围。还可能的是，在相应图像的感知深度或虚拟深度方面，预定类型的一个或多个对象可以被认为位于图像的背景中。因此，在本申请的意义和上下文中的术语“背景”和“前景”应当不一定在相应图像的特定部分的深度水平或深度位置方面被严格地考虑。而是，预定类型的一个或多个对象可以被认为是或表示相应图像在语义意义上的前景，而与它们在相应图像中的深度位置或风景（scenic）深度无关。如果两个图像描绘了相同的背景场景但是描绘了不同的前景（即，相同预定类型的不同对象）、并且如果前景（即，这些对象）占据了相应图像的显著部分（特别是至少50%），则这两个图像可能也在视觉上彼此不同。

两个图像的语义相似性意味着：在语义级别处，这两个图像当中存在相似性。例如，具有不同背景或描绘了预定类型的一个或多个前景对象被嵌入其中的不同场景的两个图像可能示出或描绘相同数量的预定类型的对象。这两个图像然后将被认为在语义上相似或相同，但是在视觉上不同。

语义相似性或不相似性也可以是渐进的度量，其中如果两个图像中描绘的预定类型的对象的数量之间的差异较大，则语义相似性较低。

通过针对至少计数模型对于其特征提取器的训练阶段、或者在该训练阶段中引入在语义上相似但是在视觉上不同的图像（即，在视觉上不同但是对应于相同的类的训练图像），相应的模型神经网络需要努力运行（word hard）以找到有意义的特征，从而针对语义上相似或相同的图像预测正确的类。

在本发明的进一步有利开发中，合成训练图像包括在语义上彼此不同但是在视觉上彼此相似的图像。当两个图像描绘了不同数量的预定类型的对象时，或者换句话说，如果它们具有不同的前景，则在该意义上，它们在语义上彼此不同。当两个图像的像素的至少50%、优选地至少70%相同时，在该意义上，它们在视觉上彼此相似。例如，如果两个图像描绘了预定类型的对象被嵌入其中、或者预定类型的对象被叠加在其顶部或前面的相同场景或背景，则它们可能在视觉上彼此相似。在视觉上相似的图像包括如下图像：其中利用预定类型的一个或多个对象的不同数量或实例来扩充（augment）相同的场景（即，相同的背景），或将相同的场景（即，相同的背景）与预定类型的一个或多个对象的不同数量或实例相组合。然而，对于两个图像要在视觉上彼此相似而言，具有相同的背景不是严格必要的，例如，如果背景仅构成图像的相对小的部分、特别是少于50%或少于70%的话。更一般地，这意味着，对于两个视觉上相似的图像而言，跨这两个图像的显著部分（特别是针对其区域或像素的至少50%或至少70%）在像素级值处存在相似性或同一性。这仍然使得打开了两个图像在语义上彼此不同（即，对应于不同的类）的可能性。例如，从特定图像开始，有可能通过利用预定类型的对象的另一个实例来扩充起始图像、即通过在不改变其余部分（即，起始图像的背景）的情况下将预定类型的一个或多个对象人工地或合成地添加到起始图像以保持视觉相似性完整，从而创建与起始图像在语义上不同但是在视觉上相似的第二图像。

通过跨不同的类引入在语义上不同但是在视觉上相似的训练图像，相应的模型、特别是相应的特征提取器学习聚焦于预定类型的对象，即，学习关于该对象的有意义的特征，并且学习很好地泛化至在训练或训练阶段期间未看到或未处理（即，未作为训练图像的一部分而看到）的图像。

在本发明的进一步有利开发中，合成训练图像包括在语义上彼此相似并且在视觉上也彼此相似但是彼此不相同的图像。特别地，两个图像可以通过预定类型的一个或多个对象的不同位置、尺度和/或遮挡而彼此不同。当两个图像描绘了相同数量的预定类型的对象时，在该意义上，它们在语义上彼此相似。当两个图像的像素的至少50%、优选地至少70%相同时，在该意义上，它们在视觉上彼此相似。如所解释的，这可以例如意味着，它们描绘了预定类型的对象被嵌入其中、或者预定类型的对象被叠加在其顶部或前面的相同场景或背景。如果例如在一个图像中存在部分地遮挡了预定类型的对象之一的附加对象，则两个图像也可能在语义和视觉上彼此相似，同时彼此不相同。换句话说，在训练期间引入了相同类的视觉上相似的图像。通过引入这些类型的图像，相应的神经网络或特征提取器可以有利地学习不变性的因素。

使用合成图像来进行训练是特别有利的，这是由于利用相对低的努力，在语义和视觉相似性和/或不相似性方面的各种类型的不同图像可以由有限数量的场景或背景、以及以不同数量和/或在图像内的不同位置处的预定类型的对象所组成。在现场或现实世界数据或图像的情况下，这可能是不可能的或者不那么容易，这是由于在不同时刻处或者在相同对象处于不同位置的情况下捕获完全相同的场景可能是不可能的。因此，通过使用合成图像，变得有可能在合成训练图像中强制执行视觉和/或语义相似性和/或不相似性的不同变型，如对于相应神经网络或特征提取器的最优训练和性能所需要的那样。换句话说，使用合成图像来进行训练的可能性是本发明的特别的优点，其使得可以控制分别在类、训练图像当中的、以及相应地计数模型的分类器或分类层的复合性和多重性或依赖性（dependency）。

合成训练图像中的复合性或多重性可以通过加法性（additive）以及通过减法性（subtractive）技术来创建。在加法性技术中，合成图像可以由自然图像的元素和/或例如手动创建或按程序创建的元素（如不同的背景和前景对象）所组成。然后，通过添加预定类型的更多前景对象来创建多重性。在减法性技术中，如果图像的像素级图可用，则可以从现有图像中移除对象的实例，即预定类型的个体对象。为了从图像中移除对象的实例，可以使用如图像修复（inpainting）之类的技术或其他生成性技术。在这种情况下，虽然确实可能使用像素级标签来扩充或创建合成训练图像，但是在神经网络的训练期间实际上不使用这些像素级标签或注释。神经网络的实际训练是使用具有图像级注释的合成图像来进行的，并且因此仍然可以被认为是弱监督的。总体上，这些技术使得能够使用合成图像，并且使用当今已经可公开获得的大量数据集和注释。

在本发明的进一步有利开发中，将一个或多个跳跃连接添加到分割模型和/或深度神经网络。每个跳跃连接将相应的较低卷积层连接到层的相应层级结构中的相应的较高卷积层，以将数据从较低卷积层提供给较高卷积层。在该意义上，较高卷积层是在从输入层到输出层的方向上来看被布置在更下游的层。换句话说，较低卷积层（即，位于或定位在层的层级结构中较低处的层）与较高层相比被定位或布置成更靠近相应的输入层。已经发现的是，引入来自不直接相邻的一个或多个层的细节可以有利地导致所生成的图的改进的质量或准确度。

本发明的另一方面是一种用于定位输入图像中的预定类型的任何对象的方法。在该方法中，提供了深度神经网络。该深度神经网络将判别性深度计数模型的部分和/或特征与深度分割模型的部分和/或特征进行组合。其中，计数模型被训练成：根据在每一个图像中描绘的预定类型的对象的数量来对图像进行分类。分割模型被训练成：通过根据相应像素属于相应图像的哪个描绘的对象或部分来对相应图像的每个像素进行分类从而分割图像。针对或者利用与预定类型的对象的不同数量相对应的至少两个、优选地至少三个或更多个不同的类来训练计数模型。优选地，计数模型或类具有复合类结构。在该方法的另一个步骤中，将输入图像作为输入提供给深度神经网络。该方法的另一个步骤包括：捕获或获取由深度神经网络生成的图作为针对输入图像的输出。优选地，在相应输入图像通过深度神经网络的单个前向传递中生成该图。在所生成的图中，在该图中指示了输入图像中描绘的预定类型的任何对象。

换句话说，可以使用用于生成深度神经网络以用于定位输入图像中的预定类型的对象的根据本发明的方法来生成或创建本文中提供的深度神经网络。由深度神经网络生成的图可以是分割图或注意力图或定位图。预定类型的对象可以通过分割来定位，或者在定位或注意力图中被指示为相对最高的注意力或重要性的区域。

本文中描述的根据本发明的方法可以完全或部分地是计算机实现的方法。

本发明的另一方面是一种用于定位输入图像中的预定类型的对象的深度神经网络，其中借助于根据本发明的用于生成深度神经网络以用于定位输入图像中的预定类型的对象的方法来生成根据本发明的深度神经网络。

在本发明的有利开发中，深度神经网络被构造成处理每个输入图像，并且在相应输入图像通过深度神经网络的单个向前传递中生成相应的图。这可以有利地减少计算能力方面的处理时间和要求。

本发明的另一方面是一种包括指令的计算机程序产品或计算机程序，当计算机执行该计算机程序时，该指令使计算机执行根据本发明的方法的至少一个实施例。换句话说，根据本发明的计算机程序产品确实表示或编码了相应一个或多个方法的步骤。用于执行该计算机程序产品或计算机程序的计算机可以特别地包括处理器、微芯片或微控制器、以及连接到其上并且包含根据本发明的计算机程序产品或计算机程序的计算机可读存储介质。

其上存储有根据本发明的计算机程序产品或计算机程序的这种计算机可读存储介质本身就是本发明的另一方面。

本发明的另一方面是一种携带根据本发明的计算机程序产品或计算机程序和/或根据本发明所生成的深度神经网络的数据载体信号。

本文中针对本发明的至少一个方面、即针对方法、深度神经网络、计算机程序产品和计算机可读存储介质所描述的本发明的实施例和开发以及对应的优点可以应用于本发明的任何和所有方面。

本发明的进一步的优点、特征和细节来源于本发明的优选实施例的以下描述以及来源于与本发明相关的附图。在不脱离本发明的范围的情况下，在本描述中先前提到的特征和特征组合、以及在附图的以下描述中提到的和/或单独在附图中示出的特征和特征组合不仅可以在分别指示的组合中采用，而且还可以在其他组合中采用，或者单独地采用。在附图中：

图1示意性地示出了用于定位图像中的对象的方法的流程图的示例；

图2示出了可用于对象定位的深度计数网络的示意图；

图3示出了用于生成图像的分割图的分割网络的示意图；

图4示出了用于训练阶段的计数模型和分割模型的组合的示意图；

图5示出了用于推理阶段中的多任务训练的深度神经网络的示意图；

图6示出了多任务深度神经网络的第一示例的示意图；

图7示出了多任务深度神经网络的第二示例的示意图；

图8示出了深度神经网络的结构的示意性概述；

图9示出了描绘具有多个人的场景的图像；

图10示出了与图9的图像在语义和视觉上相似的图像；

图11示出了描绘也具有多个人的不同场景的另一个图像；

图12示出了与图11的图像在语义上相似但是在视觉上不同的图像；

图13示出了描绘具有多个人的另一个场景的另一个图像；

图14示出了与图13的图像在语义上不同但是在视觉上相似的图像；

图15示出了描绘具有第一尺度下的人的另一个场景的另一个图像、以及对应的定位图；

图16基本上示出了图15的图像，该图像具有在第二尺度下示出的人；

图17基本上示出了图15和图16的图像，该图像具有在第三尺度下示出的人；

图18示出了描绘人的另一个图像；

图19示出了仅使用深度计数模型而生成的与图18的图像相对应的定位图；

图20示出了仅使用深度分割模型而生成的与图18的图像相对应的定位图；

图21示出了使用组合模型而生成的与图18的图像相对应的定位图；

图22示出了描绘具有多个人的场景的另一个图像；

图23示出了仅使用分割模型而生成的与图22的图像相对应的分割图；

图24示出了使用由计数模型生成的提示所训练的分割模型而生成的与图22的图像相对应的分割图；

图25示出了描绘具有多个人的场景的另一个图像；

图26示出了仅使用分割模型而生成的与图25的图像相对应的分割图；以及

图27示出了使用由计数模型生成的提示所训练的分割模型而生成的与图25的图像相对应的分割图。

附图中匹配的或功能上等同的特征由相同的附图标记来指示。

下面描述的示例指代本发明的优选实施例。其中，实施例的个体组件和过程步骤均构成本发明的个体独立特征，这些特征可以彼此独立地以及以未明确描述的组合来进一步开发本发明。可以通过上面已经描述的特征、组件和/或步骤来进一步开发或补充所描述的实施例。

图像处理被用于各种各样的技术应用中。一个具体问题是图像中的特定种类或类型的对象的定位，例如在用于图像和视频分析的计算机视觉应用中。

图1示意性地示出了用于定位图像2中的对象的方法的流程图1的示例。下面简要描述了该方法的步骤。在此之后，参考其他附图来给出并描述进一步的细节和示例。

在过程步骤S1中，生成或选择训练图像，该训练图像可以用于神经网络（也称为模型或深度模型）的训练，使得其可以用于处理图像2以定位其中描绘的预定类型的对象的任务。

在过程步骤S2和S3中，使用在过程步骤S1中生成和/或选择的训练图像来训练判别性深度计数模型和深度分割模型，并且通过对计数模型和分割模型的部分和/或特征进行组合来形成用于定位预定类型的对象的神经网络。可以以不同的次序来执行过程步骤S2和S3，这通过图1中的过程步骤S2和S3的并行布置来说明。计数模型被训练成：根据在每一个图像2中描绘的预定类型的对象的数量来对图像2进行分类，其中计数模型具有复合类结构，并且是针对与预定类型的对象的不同数量相对应的至少三个不同的类来训练的。分割模型被训练成：通过根据或取决于相应像素属于图像2的哪个描绘的对象或部分来对相应图像2的每个像素进行分类从而分割图像2。通过训练计数模型和分割模型并且对这些模型或其部分或特征进行组合而生成的神经网络被适配成：在相应图像2通过神经网络的单个前向传递中针对每个经处理的图像2生成指示预定类型的任何对象的位置的图。

为了完成神经网络，在过程步骤S4中，将上采样级或上采样模块15添加到神经网络。

在完成神经网络之后，即在神经网络被训练和组装或准备用于推理阶段之后，在过程步骤S5中将待处理的图像2作为输入提供给神经网络。该过程步骤以及随后的过程步骤也被称为推理阶段。

在过程步骤S6中，然后由神经网络来处理图像2，该神经网络生成对应的图。

在过程步骤S7中，捕获或获取所生成的图作为处理结果。这可以例如意味着所生成的图被保存或存储在电子或计算机可读存储介质上，和/或被传输到另一个程序或应用以供进一步处理或使用。

如果要处理多个图像，诸如一系列图像或视频流，则在过程步骤S8中将相应的下一个图像作为输入提供给神经网络，以便同样进行处理。这通过由图1中的过程步骤S5至S8形成的循环来指示。

图2示意性地示出了可以用作深度计数模型的判别性深度神经网络的基本结构。在这里，图像2可以作为输入被提供给特征提取器，该特征提取器由多个卷积层3组成或者包括多个卷积层3。在训练阶段期间，图像2可以是带注释的训练图像，而在训练完成之后的推理阶段期间，图像2可以是测试图像，即计数模型在训练期间不一定看到或遇到过的待处理图像。卷积层3之后是一个或多个全连接层4、以及也可以是全连接层的计数分类层或计数分类器5。计数分类器5包含表示各种计数类别（即，预定类型的对象的各种数量）的多个输出节点。

在训练阶段期间，通过卷积层3、全连接层4和计数分类器5来处理图像2。

通过使用合成训练图像——其中不同计数类别或类的这些训练图像遵守“复合性”并且具体地是“多重性”的原则——来训练计数模型，特征提取器（即，深度计数模型的卷积层3的组）学习将其注意力聚焦在正在被计数的对象上。

在训练阶段完成之后，可以通过或由卷积层3来处理图像2。作为卷积层3的最后的或在层级上最高的层的输出6，定位图或注意力图可以被捕获或获取，该定位图或注意力图指示图像2中的与其中描绘的预定类型的任何对象相对应的区域。

图3示意性地示出了可以用作分割网络或分割模型的深度神经网络的典型基本结构。就像针对这里的计数模型的情况一样，图像2也可以作为输入被提供给一组或一系列卷积层3。卷积层3之后下游是一个或多个去卷积层7，也被称为转置卷积层。分割模型的输出层由分割分类器8形成。分割分类器8可以将图像2的每个像素分类为属于图像2的前景或背景。在分割模型的训练完成之后，它可以以或几乎以相应经处理图像2的分辨率来预测经处理图像2的或针对经处理图像2的分割图9。虽然图3示出了分割网络的典型架构，但是其他架构也是可能的。

图4示意性图示了如下基本思想：即，将计数模型和分割模型组合成深度神经网络10，以利用计数模型以及分割模型的个体优势和益处来改进对象定位和/或图像分割的质量或准确度。在这里，共享或公共特征提取器11形成深度神经网络10的输入级。公共特征提取器11之后下游是计数头部或计数模型头部12和分割头部或分割模型头部13。计数模型头部12和分割模型头部13彼此并行地布置。虽然公共特征提取器11包括多个卷积层3，但是计数模型头部12包括一个或多个全连接层，并且分割模型头部13包括一个或多个卷积层。看待图4中所示的结构的另一种方式是用分割模型头部13来扩充和利用深度计数模型的特征提取器，分割模型头部13在训练阶段期间将像素分类为属于前景对象或背景的类别。

在使用图4中所示的结构的训练阶段期间，可以将计数损失函数L_CNT用于训练计数模型头部12，并且可以将分割损失函数L_SEG用于训练分割模型头部13。然后，用于完整结构、即用于深度神经网络10的组合训练损失函数L可以被表述为L=α∙L_CNT+β∙L_SEG，其中α和β分别是用于计数分支和分割分支的可调加权因子或权重。总体损失函数L是计数损失函数L_CNT和分割损失函数L_SEG的加权组合。通过调整加权因子α和β，可以改变计数部分和分割部分的影响以调节深度神经网络10。特别地，在训练期间，有可能例如基于关于待处理的相应训练图像和/或关于该深度神经网络被预期用于的用例或应用的已知或可用信息，来动态地改变组合损失函数L的两个组份的权重α和β。虽然在一方面，在训练时，计数损失函数L_CNT帮助有效地消除图像背景或背景场景，但是在另一方面，分割损失函数L_SEG帮助获得对前景对象或预定类型的对象的更准确且更全面的分割。

在推理阶段期间或针对推理阶段，仅使用卷积层3是可能的，即可以将公共特征提取器11用于处理图像2，以获得对象或预定类型的对象的定位区域、或者对图像2进行分割。这在图5中被示意性地示出。在这里，图像2作为输入被提供给公共特征提取器11，公共特征提取器11本身可以被认为是深度神经网络10，这是由于它包括多个卷积层3。通过处理输入图像2，公共特征提取器11生成下采样分割图14作为输出，下采样分割图14通常具有比输入图像2更小的大小，即更低的分辨率。下采样分割图14然后可以作为输入被馈送到上采样级或上采样模块15。

上采样模块15生成上采样分割图16作为输出，上采样分割图16具有比下采样分割图14更高的分辨率。上采样分割图16可以优选地具有与相应图像2相同或几乎相同的分辨率。

图6示出了多任务深度神经网络10的第一示例的示意图，即如何将计数模型和分割模型组合成深度神经网络10的一个选项。在这里，两个分支从卷积层3、即共同特征提取器11的输出侧引出。对应于计数模型的第一分支包括全连接层4和计数分类器5。对应于分割模型的第二分支包括去卷积层7和分割分类器8。基本上，这两个分支分别对应于图2和图3中所示的计数模型和分割模型。然而，这种方法将意味着，必须针对分割模型训练增加数量的层，这是由于它包括一系列反池化和去卷积层7。此外，在推理阶段期间，还必须使用这些附加的层，从而导致增加的处理时间或计算要求。

图7示出了多任务深度神经网络10的优选第二示例的示意图。这表示对深度计数模型和深度分割模型进行组合的更有效的方法。在这里，公共特征提取器11也包括多个卷积层3。类似于图6中所示的结构，两个分支从卷积层3的最后的或在层级上最高的层（即，在公共特征提取器11之后）引出。

遵循第一数据路径17，待处理的数据（诸如，输入图像2或从其导出的数据）沿着第一分支流经公共特征提取器11，到达全连接层4和计数分类器5。如先前那样，在训练阶段期间，全连接层4和计数分类器5对应于深度神经网络10的深度计数模型或计数部分。遵循第二数据路径18，该数据流经公共特征提取器11，到达扩充的卷积层19并且到达分割分类器8上。扩充的卷积层19和分割分类器8对应于深度神经网络10的分割模型或分割部分。

在深度神经网络10已经被完全地训练之后，可以针对推理阶段来重新移动全连接层4和计数分类器5。在这里，这由第一虚线框20来图示。同时，可以针对推理阶段在分割分类器8之后添加在训练阶段期间不一定存在的上采样模块15。这由第二虚线框21来图示。

特别值得注意的是，在这种方法中，分割模型或分割部分不包括全功能的解码器或者去卷积和反池化层（诸如，例如图6中所示的去卷积层7）的完全堆叠。取而代之的是，利用一个或几个卷积层（即，扩充的卷积层19）来扩充深度计数模型和深度分割模型的公共特征提取器11，并且使得公共特征提取器11预测下采样分割图14。这种简化的基本原理是：计数模型的特征提取器（或者在这种情况下，是作为深度神经网络10的计数部分的一部分或结合该计数部分而训练的公共特征提取器11）的输出已经学习到生成几乎良好的下采样定位图。仅需要将该定位图略微上拉（pull up），即可获得良好的下采样分割图。这是通过以下方式来完成的：通过扩充的卷积层19和分割分类器8来处理下采样定位图14以获得改进的下采样分割图，该改进的下采样分割图与通常由传统分割网络生成的分割图相比具有改进的定位或分割质量或准确度。在没有具有良好对象定位性质的个体深度计数模型的特征提取器性质的情况下，该简化将是不可能的。

上采样模块15然后可以根据改进的下采样分割图来生成具有改进分辨率的上采样分割图16。

本文中描述的基本思想原则上可以利用任何深度卷积神经网络来实现。作为示例，图8示意性地示出了基于AlexNet的骨干（backbone）网络的深度神经网络10的更详细的结构。在该示例中，深度神经网络10包括输入层22，输入层22之后是五个卷积层3。卷积层3形成这里示出的深度神经网络10的特征提取器。在第一分支中，卷积层3之后是包括计数分类器5的三个全连接层4。在也是在卷积层3的第五层并且是最后的层之后引出的第二分支中，添加了对应于分割模型头部13或扩充的卷积层19的附加卷积层。该附加卷积层可以被适配成生成与第五个卷积层3的个体特征图的大小相等的分割图。在第二分支中添加的附加卷积层可以具有1×1的大小或尺寸。

附加卷积层的每个输出由交叉熵损失函数来驱动，其中输出类别或类分别对应于与前景和背景相对应的两个级别。还有可能（尽管在这里未明确示出）添加一个或多个跳跃连接，以引入来自深度神经网络10的一个或多个其他层22、3的细节。

为了进一步说明深度神经网络10的结构，图8中还指示了输入层22和卷积层3的核23。深度神经网络10的层22、3、4、5、19以不同的方式被表示或示出，以指示在每一层中的神经元数量方面，它们可以具有不同的大小或尺寸。类似地，核23具有不同的大小或尺寸是可能的。

为了使得计数模型能够聚焦于并且定位预定类型的对象，具体地出于该目的、特别是在考虑到复合性的情况下来生成和/或选择用于训练的训练图像。多重性是复合性的特殊形式。可以通过不同的手段来实现复合性的其他形式，例如通过两个对象之间的不同遮挡模式。

对于本示例，一个或多个人30被用作预定类型的对象。

图9和图10分别示出了第一训练图像24和第二训练图像25。第一和第二训练图像24、25彼此在语义上相似并且在视觉上相似。这意味着，两个训练图像24、25包含相同数量的预定类型的对象，该对象在这种情况下是人30。附加地，两个训练图像24、25包含相同的第一背景31，即，人30被嵌入其中的相同场景。在本示例中，第一背景31包括街道32、草坪33和建筑物34、以及第一和第二训练图像24、25中的不是人30的任何其他部分。提供彼此在语义上相似以及在视觉上相似的训练图像帮助深度神经网络10学习或捕获相同的类（即，具有相同数量的人30）的训练图像24、25中的不变性。

图11和图12分别示出了第三训练图像26和第四训练图像27。第三和第四训练图像26、27在语义上相似，这是因为它们两者都包含相同数量的人30。然而，第三和第四训练图像26、27在视觉上不同，这是因为第三训练图像26包含第二背景35，而第四训练图像27包含不同于第二背景35的第三背景36。简而言之，第三和第四训练图像26、27是语义上相似的图像，这是由于两者都具有相同数量或计数的一个或多个人30，但是它们在视觉上彼此不同，这是由于第二和第三背景35、36是不同的。而且，第三和第四训练图像26、27的前景包括不同的人30，尽管数量相同。这可以用公式表示为：

I₁=背景1*前景1，

I₂=背景2*前景1，

其中I表示图像，并且符号“*”表示复合（composition）。“前景1”表示或包括要被计数或定位的对象，该对象在该示例中是人30。

图13和图14分别示出了第五训练图像28和第六训练图像39。第五和第六训练图像28、29在语义上彼此不同，这是由于两者都描绘了不同数量的人30。然而，第五和第六训练图像28、29在视觉上彼此相似，这是由于第五训练图像28的第四背景37与第六训练图像29的第五背景38相同。这可以用公式表示为：

I₁=背景*前景1，

I₂=背景*前景1*前景2，

其中I表示图像，并且符号“*”表示复合。“前景1”和“前景2”表示或包括要被计数或定位的对象，诸如人23。

由于作为特征的“计数”或“数量”对于尺度来说是不变的，因此至少在深度计数模型被相应地训练、即利用示出了不同大小或尺度下的预定类型的对象的训练图像而被训练的情况下，该深度计数模型有利地可以定位变化尺度下的预定类型的对象。特别地，可以定位不同尺度下的这些对象，而无需其他检测技术中通常需要的任何附加步骤。在图12中图示了针对计数模型或利用计数模型而训练的特征提取器用以定位变化尺度下的对象的能力的示例。

图15、图16和图17示出了三个测试图像的序列，这三个测试图像即图15中的第一测试图像39、图16中的第二测试图像40和图16中的第三测试图像41。所有三个测试图像39、40、41具有相同的第六背景42，并且所有三个测试图像39、40、41均确切地描绘了一个人30。然而，该人30被示出处于距用于捕获测试图像40、41、42的相机的变化的距离处。在第一测试图像39中，人30位于距相机6 m的距离处，并且占据大约50×66像素的区域。在第二测试图像41中，人30位于距相机3 m的距离处，并且占据大约93×130像素的区域。在第三测试图像42中，人30位于距相机0.8 m的距离处，并且占据大约256×280像素的区域。

除了测试图像39、40、41之外，在图15、图16和图17中还分别示出了相应的对应计数定位图43、44和45。在计数定位图43、44和45中，指示了相应的对象区域46。所指示的对象区域45对应于相应测试图像39、40、41中的如计数模型所找到的属于人30的区域或部分。清楚的是，在所有不同的尺度下，计数模型都能够成功地定位相应的人30。

在图15中，从第一测试图像39导出的第一计数定位图43示出了对象区域46，对象区域46清楚地指示了第一测试图像39中的人30的位置。类似地，在图16中，在对应的第二计数定位图44中正确地指示了第二测试图像40中的人30的位置。在这里，对象区域46明显大于与第二测试图像40中的人30的较大部位相对应的第一计数定位图41中的对象区域35。在图17中，在从第三测试图像42导出的第三计数定位图45中，所指示的一个或多个对象区域46再次显著大于第一和第二计数定位图43、44中指示的对象区域46。清楚可见的是，当与第一和第二计数定位图43、44相比时，在第三定位图45中，指示了对应于人30的附加对象区域47。然而，这些附加对象区域47确实明显对应于第三测试图像41中的实际上被人30所占据的区域，并且因此不是假阳性区域62（见图26）。

为了说明使用深度计数和分割模型的组合的本文中提出的方法的可行性和优点，图18示出了第四测试图像48。针对第四测试图像48，在图19、图20和图21中示出了使用不同模型或方法而生成的对应定位图49、50、52。同样，第四测试图像48示出了背景前面的单个人30。图19示出了仅使用深度计数分支（即，对应于计数损失函数L_CNT的深度计数模型）而已经获得的计数分支定位图49。在计数分支定位图49中，微弱地指示了一些分离的对象区域46。虽然这些对象区域46确实粗略地对应于第四测试图像48中的属于人30的部分，但是清楚的是，在计数分支定位图49中指示的分离的对象区域46并不表示对人30的准确且完整的定位。

在图20中，示出了分割分支定位图50。分割分支定位图50是仅使用深度分割分支（即，对应于分割损失函数L_SEG的分割模型）而获得的。在分割分支定位图50中，经连接的所指示的对象区域46大于计数分支定位图49中的对象区域，并且表示对第四测试图像48中的人30的更准确或更完整的定位。然而，在分割分支定位图50中仍然存在一些遗漏区域51，这些遗漏区域51未被指示为属于人30或对应于人30，即使这明显是第四测试图像48中的情况。

图21示出了使用所描述的组合方法（即，对应于组合损失函数L=α∙L_CNT+β∙L_SEG的组合深度神经网络10）而已经获得的组合定位图52。组合定位图52中的对象区域46同样大于计数分支和分割分支定位图49、50中的对象区域，并且表示对第四测试图像48中的人30的甚至更准确且全面的定位。特别地，在分割分支定位图50中清楚可见的遗漏区域51现在在组合定位图52中被正确地指示为属于人30。分别如图19、图20和图21中所示的在仅使用计数模型的情况下相比于在仅使用成本函数L的分割部分的情况下相比于在使用所提出的组合方法的情况下获得的不同定位图49、50、52的示例清楚地证明了所提出的组合方法的优越性能。

如上所描述，可以基本上同时地针对计数模型和分割模型两者以组合的方式来训练公共特征提取器11。还可能的是，在训练和/或推理时通过将计数模型和分割模型一个接一个地定序（即，计数模型之后是分割模型，或者反之亦然）来组合计数模型和分割模型。作为针对在已经通过提示（即，由计数模型生成的注意力图）训练了分割模型之后使用该分割模型的改进性能的示例，图22和图25分别示出了第五测试图像53和第六测试图像59。

第五测试图像53示出了背景前面的两个人30。对应于第五测试图像53，图23示出了仅使用独立训练的分割模型而已经获得的第一纯分割图54。虽然在第一纯分割54中基本上正确地指示了对应于人30的一些对象片段55以及一些背景片段56，但是也存在被错误地归类或分割为属于背景的一些遗漏片段57。图24示出了也对应于第五测试图像53的第一提示分割图58。在已经通过由计数模型生成的提示而训练了分割模型之后，已经使用该分割模型获得了第一提示分割图58。在第一提示分割图58中，所指示的对象片段55和背景片段56清楚地表示对人30的更准确且全面的定位，即，对第五测试图像53的更准确的分割。特别地，在第一纯分割图54中被错误地归类的遗漏片段57现在在第一提示分割图58中被正确地指示为属于人30或对应于人30。该示例说明了本文中描述的组合方法用以增加对象的正确或真实检测的潜力。

图25中所示的第六测试图像59示出了在第七背景60前面的正在骑自行车的多个人30。第七背景60包括道路、景观和天空的区域。图26示出了对应于第六测试图像59的第二纯分割图61。类似于第一纯分割图54，第二纯分割图61是仅使用独立训练的分割模型而已经获得的。虽然在第二纯分割图61中已经正确地指示了对应于人30的一些对象片段55和对应于第七背景60的不同部分的一些背景片段56，但是也存在一些假阳性片段62，这些假阳性片段62被错误地指示或分割为属于人30，即使在第六测试图像59中，这些对应区域明显是第七背景60的一部分。

图27示出了也对应于第六测试图像59（即，从第六测试图像59导出）的第二提示分割图63。类似于第一提示分割图58，在已经通过由计数模型生成的提示而训练了分割模型之后，已经使用该分割模型获得了第二提示分割图63。在第二提示分割图63中，在与第二纯分割图61相比时，对象片段55的轮廓或形状现在更接近地且更准确地匹配于第六测试图像59中的人30的实际轮廓或形状。值得注意的是，在第二纯分割图61中已经被错误地分类的假阳性片段62现在在第二提示分割图63中被正确地分类或指示为背景片段56。该示例说明了所描述的组合方法用以减少错误检测的能力。

总而言之，提出了对用于计数的深度模型和用于分割的深度模型进行组合以生成或获得深度神经网络10，在与深度计数模型或深度分割模型本身相比时，该深度神经网络10在定位对象或分割图像2方面表现出优越的性能。分别对应于计数和分割模型或部分的组合损失函数L的两个组份L_CNT和L_SEG帮助组合架构中的公共特征提取器11学习对于对象定位和/或图像分割更合期望的特征。因此，用于计数的深度模型和用于分割的深度模型两者的益处可以被获得并组合。作为判别性模型的计数模型的特征提取器倾向于仅聚焦于被计数的对象的特定特征，即，其聚焦于该模型所学习的最具判别性的特征。通过在多任务框架中添加由分割成本或分割损失函数L_SEG与计数成本或计数损失函数L_CNT一起驱动的分割层，诸如扩充的卷积层19或分割模型头部13。与仅使用单个计数模型相比，特征提取器学习聚焦于对象的更完整区域。计数模型便于检测小的和/或被部分遮挡的对象。如果在没有计数模型的情况下仅使用分割损失函数L_SEG，则与如果在多任务框架中使用计数损失函数L_CNT相比，背景消除要差得多，并且会实现差得多的准确度。分割部分确保或便于跨尺度的更全面的检测。

总体上，所描述的示例说明了可以如何以相对于当前可用的现有技术改进的性能来实现图像中的自动对象定位。

Claims

1.一种用于生成深度神经网络（10）以用于定位输入图像（2）中的预定类型的对象（30）的方法（1），包括以下步骤：

- 将判别性深度计数模型训练成：根据在每一个图像（2）中描绘的预定类型的对象（30）的数量来对图像（2）进行分类，其中针对与预定类型的对象（30）的不同数量相对应的至少两个不同的类来训练计数模型，

- 将深度分割模型训练成：通过根据相应像素属于相应图像（2）的什么部分（30、31、35-38、42、60）来对相应图像（2）的每个像素进行分类从而分割图像（2），

- 对计数模型和分割模型的部分（11）进行组合以形成所述深度神经网络（10），其中所述深度神经网络（10）被构造成：通过处理相应的输入图像（2）来针对每个经处理的输入图像（2）生成相应的对应图（14、16、52、58、63），所述图（14、16、52、58、63）指示预定类型的任何对象（30）的位置。

2.根据权利要求1所述的方法（1），其特征在于，通过以下方式来彼此组合地训练计数模型和分割模型：

- 在用于计数模型和分割模型的共享特征提取器（11）的下游来彼此并行地布置计数模型头部（12）和分割模型头部（13），其中计数模型头部（12）包括至少一个全连接层（4、5），分割模型头部（13）包括至少一个转置卷积层（7）和/或至少一个卷积层（8、19），并且共享特征提取器（11）包括多个卷积层（3），

- 通过共享特征提取器（11）将训练图像（2）馈送到模型头部（12、13）中的每一个。

3.根据权利要求2所述的方法（1），其特征在于，在所述深度神经网络（10）的最终卷积层（3）之后添加上采样模块（15），其中上采样模块（15）被适配成将所生成的图（14、52、58、63）取作输入，并且根据其来生成上采样图（16、52、58、63）。

4.根据权利要求1所述的方法（1），其特征在于，顺序地训练计数模型和分割模型，其中取决于训练的次序：

- 使用由经训练的计数模型生成的注意力图（43、44、45、49）来训练分割模型，或者

- 使用由经训练的分割模型生成的分割图（54、61）来训练计数模型。

5.根据权利要求1所述的方法（1），其特征在于，彼此独立地训练计数模型和分割模型，并且通过以串行布置对两个模型的至少相应特征提取器进行组合来形成所述深度神经网络（10），其中每个特征提取器包括多个卷积层（3）。

6.根据前述权利要求中任一项所述的方法（1），其特征在于，利用合成训练图像（2）来训练至少计数模型。

7.根据权利要求6所述的方法（1），其特征在于，所述合成训练图像（2）包括在语义上彼此相似但是在视觉上彼此不同的图像（26、27），其中当两个图像（26、27）描绘了相同数量的预定类型的对象（30）时，它们在语义上彼此相似，并且当两个图像（26、27）的像素（28、29）的至少50%彼此不同时，它们在视觉上彼此不同。

8.根据权利要求6和7中任一项所述的方法（1），其特征在于，所述合成训练图像（2）包括在语义上彼此不同但是在视觉上彼此相似的图像（28、29），其中当两个图像（28、29）描绘了不同数量的预定类型的对象（30）时，它们在语义上彼此不同，并且当两个图像（28、29）的像素（30）的至少50%、优选地至少70%相同时，它们在视觉上彼此相似。

9.根据权利要求6至8中任一项所述的方法（1），其特征在于，所述合成训练图像（2）包括在语义上彼此相似并且在视觉上彼此相似但是彼此不相同的图像（24、25），特别是通过预定类型的一个或多个对象（30）的不同位置、尺度和/或遮挡而彼此不相同的图像（24、25），其中当两个图像（24、25）描绘了相同数量的预定类型的对象（30）时，它们在语义上彼此相似，并且当两个图像（24、25）的像素（31、37、38、42）的至少50%、优选地至少70%相同时，它们在视觉上彼此相似。

10.根据前述权利要求中任一项所述的方法（1），其特征在于，将一个或多个跳跃连接添加到分割模型和/或所述深度神经网络（10），其中每个跳跃连接将相应的较低卷积层（3）连接到层的相应层级结构中的相应的较高卷积层（3），以将数据从较低卷积层（3）提供给较高卷积层（3）。

11.一种用于通过以下方式来定位输入图像（2）中的预定类型的任何对象（30）的方法（1）：

- 提供深度神经网络（10），所述深度神经网络（10）组合了以下各项的部分（11）：

- 判别性计数模型，其被训练成：根据在每一个图像（2）中描绘的预定类型的对象（30）的数量来对图像（2）进行分类，其中针对与预定类型的对象（30）的不同数量相对应的至少两个不同的类来训练计数模型，以及

- 分割模型，其被训练成：通过根据相应像素属于相应图像（2）的什么部分（30、31、35-38、42、60）来对相应图像（2）的每个像素进行分类从而分割图像（2），

- 将输入图像（2）作为输入提供给所述深度神经网络（10），以及

- 捕获由所述深度神经网络（10）生成的图（14、16、52、58、63）作为针对输入图像（2）的输出，所述图（14、16、52、58、63）是通过经由所述深度神经网络（10）处理输入图像（2）而生成的，其中在所述图（14、16、52、58、63）中指示了输入图像（2）中描绘的预定类型的任何对象（30）。

12.一种用于定位输入图像（2）中的预定类型的对象（30）的深度神经网络（10），其特征在于，借助于根据权利要求1至10中任一项所述的方法（1）来生成所述深度神经网络（10）。

13.根据权利要求12所述的深度神经网络（10），其特征在于，所述深度神经网络（10）被构造成：处理输入图像（2），并且在该输入图像（2）通过所述深度神经网络（10）的单个前向传递中生成对应的图（14、16、52、58、63）。

14.一种包括指令的计算机程序产品，当计算机执行所述计算机程序时，所述指令使计算机执行根据权利要求1至11中的至少一项所述的方法（1）。

15.一种其上存储有根据权利要求14所述的计算机程序产品的计算机可读存储介质。