CN110892409B

CN110892409B - 用于分析图像的方法和装置

Info

Publication number: CN110892409B
Application number: CN201880037328.7A
Authority: CN
Inventors: S.戈什; P.阿蒙; A.胡特
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2017-06-05
Filing date: 2018-06-04
Publication date: 2023-09-22
Anticipated expiration: 2038-06-04
Also published as: CN110892409A; WO2018224437A1; US11126894B2; EP3596655C0; EP3596655A1; US20200090005A1; EP3596655B1

Abstract

本发明涉及一种用于分析图像（16、23、43）的方法（1、22）和装置。该方法（1、22）包括提供预训练以将图像（16、23、43）分类为多个分层类别的分层系统的人工深度神经网络（2、24）。然后针对一个具体类别来适配预训练的神经网络（2、24），其中具体类别在分层系统中比图像（16、23、43）的实际类别低。然后借助于通过适配的神经网络（5）的前向传递（26）来处理图像（16、23、43），以生成处理结果（7、20）。然后使用图像处理算法（28）来分析聚焦于对应于具体类别的特征（21）上的处理结果（7、20）。

Description

用于分析图像的方法和装置

技术领域

本发明涉及一种用于使用人工深度神经网络（也表示为神经网络）分析图像的方法和装置。

背景技术

过去，神经网络和深度学习技术已经被成功地用于比如图像分类、对象检测或语义分割的任务。然而，在大多数情况下，神经网络或模型是以监督的方式训练的。这需要对训练数据进行注释。如果新数据是可用的，则也需要注释，以便用该新数据更新神经网络或模型，这可能并不总是可行或实际的。因此，用于更新的新数据的实际可用性可能被限制。对于比如在监视应用、高级驾驶员辅助系统、自主导航或其中需要分析环境的任何应用中是重要的目标检测的任务，可能需要以边界框或像素级分割的形式的对新数据中的目标的注释。这可能需要相当多的时间、努力和金钱的投入。为了实现期望的结果，当来自待分析的目标位置的新数据变得可用时，或者如果目标位置处的条件显著变化，则一些应用也可能需要神经网络的更新。

关于深度神经网络及其训练要记住的另一个方面是，它们通常是针对具体任务而训练的。然而，在实际应用中，可能需要执行不是与训练期间相同的任务而是不同的相关任务。利用学习的特征或分类器来执行该不同的相关任务的方法通常还涉及使用广泛注释的训练数据来重新训练神经网络。当待分析的新样本或样本的集合从目标位置变得可用时，这些情况也需要更新神经网络，这又再次需要对新数据的注释。

存在用于解决上面提到的问题和挑战的各种方法。一种这样的方法使用加伪标签（pseudo-labelling）来对新的传入数据加标签。伪标签可被用于深度神经网络的半监督学习框架中。例如，具有最高预测概率的相应类别可以被用作伪标签，并如同其是真实标签来处理。另一种方法是通过用一致性的概念增加预测目标来使用有噪声的和不完整的加标签。如果在给定相似的感知的情况下做出了相同的预测，则可以认为预测是一致的，其中相似性的概念在根据输入数据计算的深度网络特征之间。另一种方法将对象分成视觉上相似的组，并分别学习这些组的深度表示。另一种方法在于，将训练视为随着新的数据的类别的到来的持续的学习过程。由此，用于预测增加的数量的类别的神经网络或模型的容量逐渐扩大。可以根据相似性对类别进行分组，并且新添加的容量可以被划分为预测粗粒度超类的组件模型。

发明内容

本发明的目的是提供一种使用深度神经网络来分析新图像数据而无需广泛详细注释的方法。

该目的通过本发明公开的用于分析图像的方法和本发明公开的用于分析图像的装置来实现。在下面的描述和附图中指示了具有本发明的有利发展的有利实施例。

根据本发明的方法涉及分析图像。为此目的，提供了一种人工深度神经网络，其被预训练以将图像分类为多个分层类别的分层系统。然后预训练的神经网络被适配或专门用于多个分层类别中的一个具体类别，其中该具体类别在分层系统中低于图像的实际类别。图像的实际类别是其正确的客观的真实类别。具体类别可以作为输入或参数来提供。它也可以被自动选择，并且因此也可以被称为选择的类别。例如，可以根据实际类别、图像的预测类别、图像的类型和/或图像分析的相应应用或目标来完成自动选择。在适配预训练的神经网络之后，然后借助于通过适配的神经网络的前向传递来处理图像以生成处理结果。下一步骤包括使用图像处理算法、特别是低级图像处理算法来分析聚焦于对应于具体类别的特征上的处理结果。由于适配，适配的神经网络被聚焦于具体类别上，并且因此处理结果被聚焦于对应于具体类别的特征上。另外，图像处理算法或相应地使用图像处理算法的图像分析也可以聚焦对应于具体类别的特征。这可以导致改善的图像分析结果，因为可以根据具体类别特别地自动选择和/或适配图像处理算法和/或图像分析，以例如检测对应于具体类别的特征或将对应于具体类别的特征按优先序排列（prioritize）。

深度神经网络是包括多个层的神经网络。可以以随机启动的权重和/或其他参数开始，从零开始（from scratch）训练预训练的神经网络。当有可能将图像分析的问题转换（cast）为其中分类器的类别或种类是彼此的嵌入的情况时，其也可以通过从针对一般图像分类或分析来训练的基线神经网络开始的转移学习来预训练。这意味着所述类别形成可被用于图像分析的分层系统或结构。在类别的分层系统或结构中，分层结构中比另一个类别高的每个类别是该另一个类别的超集，该另一个类在分层系统中位于较低的位置。换言之，较低的类别被包含在较高的类别中，这意味着较低的类别是更具体的。

作为示例，分类器可以是深度神经网络的最后或最高完全连接层。分类器的输出然后给出处理的输入图像属于由分类器学习的不同类别的概率。在非常简单的示例中，神经网络可以针对三个种类或类别被预训练，第一且最低的一个种类或类别是线，第二且因此下一个较高的一个种类或类别是包含线的平面，并且第三且最高的一个类别是包含平面并因此也包含线的立方体。

针对一个具体类别适配或调整（tune）神经网络允许或迫使它聚焦于对应于该确切具体或选择的类别的特征上。从预训练的神经网络开始，该适配或调整可以通过提供用针对其来适配预训练的神经网络的具体类别来加标签或注释的训练数据来实现。具体地，使用反向传播方法来适配预训练的神经网络是可能的，该方法可以例如包括在神经网络的成本函数上运行梯度下降的若干次迭代。

由于类别的分层性质，使用对应于分层结构中较低类别的注释是正确的，因为输入图像确实具有对应于该类别的特征。在这种情况下，不需要以完美的准确性来注释新数据。只要用于调整的注释在分层结构中位于低于相应处理或分析图像的实际类别，获得关于输入数据点（即分析的图像）的新数据或对该输入数据点（即分析的图像）的洞察就是可能的。由于类别的简单指示作为注释是足够的，因此对数据加标签（即对图像加标签）可以自动完成。例如，提供具体类别以用作多个图像的标签是可能的。在这种情况下，加标签可以自动地被应用于多个图像中的每个，并且本文中描述的方法仍然可以实现期望的图像分析。这也意味着预训练的神经网络可以针对新的数据（即针对要分析的新图像）来在线适配。

理想地，针对多个类别训练的模型将预测每个输入图像的实际类别或种类。通过使用具体类别来适配已经学习了类别的概念的神经网络，神经网络的权重被适配或调整，使得其聚焦于对应于具体的、层级较低的类别的特征上。构成本发明的基础（underlying）的发现是，如果没有将针对多个分层类别预训练的神经网络用作起点，那么创建神经网络来实现这一点是极其困难的。有利地，从预训练的神经网络开始的适配可以用比训练新的神经网络所需的迭代显著更少的迭代来完成。这允许目前描述的方法的大的和高效的灵活性，因为所提供的预训练的神经网络可以自动地或以非常有限的用户输入在逐例的基础上适配于具体的用例或应用。

在本说明书中，术语模型可以是指训练的、预训练的或适配的神经网络。

借助于通过适配的神经网络的前向传递来处理图像意味着图像被提供作为对适配的神经网络的第一层或输入层的输入，该第一层或输入层然后对该输入进行处理（work），并在最终层或输出层处提供相应的结果或输出。因此，通过神经网络的前向传递包括从输入层到输出层的数据流，即从神经网络的分层的层结构中的最低层到最高层的数据流。

处理结果可以例如是前向传递之后的适配的神经网络的输出，或者它可以是由图像的处理产生的或在图像的处理期间发生的适配的神经网络的某个状态或激活。在前向传递之后执行附加的处理步骤或除了前向传递之外还执行附加的处理步骤以生成处理结果，这也是可能的。

就本发明而言，低级图像处理算法以及低级图像处理是指不是机器学习领域的部分和/或作为整体不涉及场景或图像的解释或分类的算法和方法。而是，这些低级技术可以例如包括基于像素的操作、找到对应点、边缘检测以及诸如此类。

使用图像处理算法来分析处理结果的步骤可以例如包括醒目显示对应于具体类别的特征，隔离和/或聚焦于原因上，和/或分离该原因或特征。在这个意义上，原因应该被理解为图像的特征、性质或特性，该特征、性质或特性对处理结果或其某些部分负责，即，该特征、性质或特性是导致处理结果或其某些部分的原因。

本发明的优点是，对正确注释图像没有严格的要求，因为将预训练的神经网络适配于类别分层结构中的较低级标签揭示了与该具体类别相关的有意义的特征，并且因此给出了有意义的图像分析结果。

与传统方法相比，本发明还有利地促进在线训练，因为注释可以被容易地自动化，并且具有低于完美的准确性的注释不产生不正确的图像分析结果。在完全分析新数据之前，还可以使用要分析的新数据来适配模型。因此，该模型可以容易地被更新为要分析的目标数据集中的任何变化的统计数据或特性。因为本发明只需要生成一次预训练的神经网络，所以它可以灵活地和快速地针对不同的应用或环境来适配或定制，因为可以用从所提供的预训练的神经网络开始的相对较少的迭代来实现相应的所需适配。因此，本发明有利地允许对新的和变化的图像数据的快速、容易、鲁棒、高效和准确的分析。本发明还有利地促进使用鉴别模型来分析图像数据并获得对该数据的洞察。

本发明原则上可以被用于分析任意图像。因此，术语图像将被广义地解释，并且可以是指不同种类的图像或图像数据。输入（即待分析的图像）可以例如是由监视相机或是汽车的辅助系统的部分的相机捕获的图像。代替直接使用由相机捕获的图像，使用已经以某种方式预处理的图像或图像数据也是可能的。该图像可以例如是已被细分的较大图像的裁剪。使用由区域建议算法或对象检测算法产生的输出——例如边界框的内容，或者来自变化检测算法的结果或输出作为图像，这也是可能的。这样的预处理算法（其输出被用作要由本发明分析的图像）可以例如是在压缩域中操作的低复杂度算法。特别地，图像可以是整个图像或者由另一算法输出的图像的裁剪，该另一算法不能够分离紧密间隔的对象或者与相应图像中存在的实际对象的大小相比识别更大的区域。

在本发明的有利发展中，从适配的神经网络的中间层的至少一个过滤器和/或从适配的神经网络的输出层获得处理结果。换言之，使用适配的神经网络的一个或多个不同层的一个或多个过滤器的状态、激活或输出作为将由图像处理算法分析的处理结果是可能的。替代地或附加地，使用在适配的神经网络的最高层处的前向传递的最终输出作为处理结果当然也是可能的。由于适配的神经网络的不同过滤器和层对应于图像的不同特征和性质，该方法允许根据相应应用的要求和/或根据图像有利地定制本方法。因此，可以对应于预定的分析任务和/或根据要分析的一个或多个图像的预定特性或类型来选择要用作处理结果的过滤器和/或层。通过使用不同的过滤器和/或层作为处理结果的基础，可以更有效地分析不同类型的图像。例如，使用较高层的过滤器和来自较低层的过滤器，以便使相应的图像分析结果包含关于图像的具体低级特征的数据以及关于图像的更一般或抽象的高级特征或概念的数据，这可能是有利的。

在本发明的有利发展中，借助于通过适配的神经网络的前向传递和随后的反向传递来处理图像，以生成处理结果。因此，反向传递构成了在前向传递之后但在使用图像处理算法来分析处理结果之前的附加处理步骤。在这种情况下，处理结果是反向传递的输出或者从反向传递的输出导出。在反向传递之后，处理结果然后被提供给图像处理算法作为待分析的输入。

通过神经网络的反向传递是指使用神经网络在如与前向传递中使用的数据处理的方向相比的相反方向上处理数据。因此，反向传递包括从神经网络的较高层到较低层的数据流。在反向传递处理结果之后，即，反向传递的输出可以表示或类似于其中只有属于或对应于具体类别的原始输入图像的特征或原因是可见的或醒目显示的图像。情况就是这样，因为输入图像的其他特征在前向传递期间被丢弃或忽略，并且在反向传递期间不被重建。用于实现反向传递的一种可能性是使用由已经被用于前向传递的相应神经网络学习的权重的转置。使用反向传递的附加步骤可能是有利的，因为反向传递的结果或输出可能比直接从前向传递收集的处理结果更不抽象，并且因此可能更易于使用传统图像处理算法来分析。因此，使用反向传递的结果或输出可以导致改善的图像分析的结果。

类似于前向传递的上面提到的处理结果，反向传递之后的处理结果也可以从适配的神经网络的至少一个中间层的至少一个过滤器获得。

在本发明的有利发展中，深度卷积神经网络和/或深度前馈神经网络和/或深度递归神经网络被用作深度神经网络。因此，深度神经网络可以具有这些类型的神经网络之一的特征或特性，或者这些类型的神经网络中的一些或全部的组合的特征或特性。这允许将神经网络的性质和行为适配于不同的应用。使用卷积神经网络（CNN）对于图像处理和分析是尤其有利的，因为可以实现高准确性。这部分地是因为隐含的位置（locality）的假设。这意味着，通过使用CNN，利用如下事实是可能的：在典型图像中以及在其中描绘的典型对象的情况下，位于图像的相同区域中的像素比更远或分开的像素更可能与相同对象相关，即属于相同对象。使用CNN用于图像分析的传统方法的缺点是，需要大量的广泛注释的训练数据来训练CNN。对于本发明，通过使用已经学习了分层类别的概念的预训练的CNN并且然后针对具体任务、用例或应用来适配该CNN来避免这个问题。可以使用合成图像数据来训练预训练的CNN。该预训练的神经网络的适配或调整需要显著更少的训练数据，训练数据也可以用显著更少的努力来注释。

因此，本发明使得能够分析新的图像或图像数据，而不需要大量的训练数据和/或广泛加标签或注释。尤其是在使用CNN的情况下，通过CNN的反向传递也可以被称为解卷积传递或者简单地称为解卷积。因此，解卷积传递可以涉及从CNN的层处的学习过滤器之一开始，并执行连续解池化（unpooling）、修正和过滤的反向数据处理步骤，以重建下面层中的活动，这导致在解卷积传递开始的地方选择激活学习过滤器。因此，解卷积传递的输出可以被称为解卷积输出。

前馈神经网络具有非常鲁棒的优点，这意味着在存在越来越多的噪声的量的情况下，它们的性能适度（gracefully）恶化。使用递归神经网络对于分析具有时间结构的数据（诸如例如多个图像的时间序列或视频馈送）可以是尤其有利的。

在本发明的有利发展中，使用预训练的神经网络来处理图像，以获得图像的预测类别。这在适配预训练的神经网络之前完成。换言之，图像因此可以使用预训练的神经网络来自动预分类。预测的类别可以被用作参考或检查。有利地，用于适配预训练的神经网络的具体类别在分层系统中被设置成低于预测类别。换言之，预测的类别可以被用作具体类别的选择的上边界。因此，这种方法允许完全自动化图像分析过程。使用预测类别作为初始化或退出条件也可能是有利的。例如，如果预测的类别等于分层系统中的最低类别，则可以停止或取消图像的进一步处理，以节省所需的处理时间和努力。例如，这种方法可以有利地被用于非常快速和高效地处理多个图像或对多个图像分类。

在本发明的有利发展中，使用图像和/或图像的组在线适配预训练的神经网络，所述图像和/或图像的组然后被相继地处理，而无需进一步的适配步骤来分析一个或多个图像。在线适配或调整预训练的神经网络意味着在其分析之前使用相同的相应待分析图像来适配预训练的神经网络。即使在具有不同和/或变化的输入数据（即，具有待分析的可变图像）的实际应用中，这也有利地允许灵活和准确地使用目前描述的方法。由于相应的实际目标数据被用于调整过程，因此这可能有利地导致改善的图像分析的结果。为了使得能够实现这种方法，要分析的每个图像或图像的组可以特别地自动地被加标签或注释。虽然将预训练的神经网络适配于要分析的每个图像可以产生改善的或更准确的图像分析结果，但是使用该组或一批多个图像来适配预训练的神经网络并且然后处理和分析相应组的所有图像可以有利地导致分析该组的所有图像所需的较低的总处理时间。与实现的适配的变型无关，该方法可以产生准确的图像分析结果，因为适配不需要依赖于不同于目标数据（即，要分析的实际图像）的训练数据。

使用预选择的训练数据离线适配预训练的神经网络也是可能的，该预选择的训练数据可以包括合成图像和/或自然图像，即描绘真实场景的图像。就本发明而言，离线训练或适配是指使用不同于待分析的目标图像或目标数据集的训练数据，而在线训练或适配是指使用之后待分析的相同的图像或目标数据用于训练和/或调整目的。离线适配可能是有利的，因为训练数据以及因此适配可以被控制和监督，从而降低了神经网络获取非预期偏差的机会。

在线和/或离线训练或调整可被用于每个图像或用于图像的组。

在本发明的有利发展中，使用图像处理算法对处理结果的分析包括基于强度来对区域进行伪着色和/或醒目显示和/或阈值化和/或轮廓检测和/或生成边界框（特别是包围检测到的轮廓的边界框）。这些任务可以使用低级图像处理技术来自动执行，并且因此不需要使用神经网络。伪着色可被用于基于正弦波生成针对不同颜色通道来生成或创建颜色变化。阈值化可被用于丢弃具有低于预定阈值的至少一个值（诸如亮度、强度和/或颜色）的处理结果的部分。生成边界框可以有利地提供分配给检测到的轮廓、检测到的对象、具体特征或者诸如此类或者与检测到的轮廓、检测到的对象、具体特征或者诸如此类相关联的参考区域或区。因此，边界框可以有利地被用于向用户和/或另一程序或系统指示图像或处理结果的具体部分。因为边界框可以是几何图元形式，例如矩形，所以这可以用比使用复杂的详细轮廓或形状或分割更少的处理努力来完成，并且因此可以导致快速和高效的处理，尤其是在时间敏感的应用中。边界框可以被添加到处理结果和/或被添加到输入图像。

在本发明的有利发展中，预训练的神经网络被预训练以对图像中的对象计数。换言之，神经网络被预训练以根据其中描绘的多个对象对图像进行分类。因此，神经网络的分类器或输出层的每个类可以表示或对应于不同的对象的计数。例如，如果有16个不同的类别或种类，则神经网络可能能够根据每个图像中描绘的对象的相应数量，对具有从0到15、或1到16任何地方（anywhere）、或任何16个不同数量的对象的图像进行分类。因为类别中的每个表示计数，并且较高的类别表示较高的帐户，所以较低的类别被嵌入或包含在较高的类别内。这意味着具有6个对象的图像也是具有5个对象的图像。所述类别因此形成了嵌入的或分层的结构或系统。通过针对具体类别（其是图像的实际类别的子集）来适配预训练的神经网络，神经网络能够学习对应于该子类别（即对应于该具体类别）的有意义的特征。因此，将预训练的用于对图像数据中的对象进行计数的神经网络适配以对恰好一个对象计数可能是尤其有利的。对一个对象计数意味着聚焦于一个对象上，并且忽略属于或对应于可能在相同图像中描绘的其他对象的特征。如果图像中存在至少一个对象，则适配的神经网络将因此提供一个对象的图像的分类，这意味着它已经对图像中描绘的对象之一计数。以1的计数的调整可能导致中间层中的稀疏表示。对图像中描绘的多个对象中的哪一个对象进行计数可以取决于具体图像的不容易明显的特征或特性和/或适配的神经网络的训练历史。

在本发明的有利发展中，通过使用图像处理算法来分析处理结果，在处理结果中检测对应于具体类别的特征的至少一种表现和/或对应于具体类别的至少一个对象。特征的表现可以是特征的实在或具体实例或出现。特征也可以是抽象的概念，而表现是图像的真实部分。因此，用于分析图像的方法可以被用作用于检测图像中的至少一个对象的方法。对象检测是各种应用中的常见问题。在比如监视或驾驶员辅助系统或自动驾驶或其中需要关于环境的信息的任何应用的应用中，检测对象是重要的任务。此外，通常存在对检测具体种类的对象（比如行人或车辆）的需要。尤其是在其中至少有两个对象靠近在一起或遮挡其他前景对象的情况下，然而检测可能变得有挑战性。将使用图像处理算法的对象检测技术与借助于预训练用于对对象计数的神经网络——并且尤其是被适配用于对一个对象计数的神经网络——处理图像相结合，可以产生尤其准确的图像分析和对象检测结果。即使在没有提供训练数据的情况下，情况也是这样，其中多个对象中的每个都以详细的方式来概述和加标签。不仅神经网络的最高层，而且神经网络的中间层也可以学习要检测的前景对象的有意义的特征。因此，使用来自不同层的过滤器或激活作为处理结果，以不仅检测对象，而且还聚焦于具体特征上，这可能是有益的。

在本发明的另外的有利发展中，使用至少一个预定优化标准来检测至少一种表现和/或至少一个对象。这尤其可以包括对边界平滑度和/或对图像或处理结果的区域使用至少一个预定约束。在这种意义上，约束可以包括一个或多个预定阈值，使得例如如果相应的边界平滑度和/或由边界或轮廓包围的区域大于或小于预定阈值和/或位于两个预定阈值之间，则边界或轮廓被解释为指示对象。不同的阈值和/或约束可以被提供并用于检测不同的对象和/或不同种类的对象。使用这样的预定优化标准中的至少一个使得能够实现快速和可靠的对象检测，特别是因为通过在使用图像处理算法之前使用适配的神经网络处理图像来醒目显示或相对强调了对应于要检测的对象的特征或原因。

在本发明的有利发展中，通过将图像或处理结果的像素视为马尔可夫随机场并使用对强度的梯度的预定约束来检测至少一种表现和/或至少一个对象。该方法可能是尤其有利的，因为马尔可夫随机场可以被用于同时检测和分割图像中的对象，并且因此可以产生快速和准确的对象检测和分割，如在时间敏感和/或安全相关的应用中可能需要的那样。马尔可夫随机场模型也可以有利地被用于以提高的准确性来检测移动对象。

在本发明的有利发展中，在通过图像处理算法检测到多个对象的情况下，根据预定标准来选择对象之一。例如，由于预训练的神经网络的调整，和/或由于低级图像处理或阈值化的参数，可能检测到多个对象。提供用于选择一个对象的预定对象选择标准有利地允许可靠地标记恰好一个对象。该标准有利地允许改善的灵活性和图像分析的定制。选择一个对象可以有利地增强将用于对象检测的本发明的能力，因为它在一次仅检测单个对象时增强了焦点。

在另外的有利的发展中，该标准是对应于多个检测到的对象中的每个的相应区域的大小。该区域可以例如被边界框或检测到的轮廓或边界包围。例如，可以选择对应于具有最大面积的边界框的对象。基于图像或处理结果的大多数的具体区域——例如高强度区域——属于单个对象的假设，这可能是有利的。

除了本文中描述的方法之外，本发明的另一方面是一种用于分析图像的装置。该装置包括人工深度神经网络，其被预训练以将图像分类为多个分层类别的分层系统。该装置进一步包括单独的图像处理单元。该装置被配置成借助于通过适配的神经网络的前向传递来处理图像，以生成处理结果。适配的神经网络从预训练的神经网络针对多个分层类别中的一个具体类别来适配。针对其来适配神经网络的具体类别在分层系统中低于图像的实际类别。该装置进一步被配置成向图像处理单元提供处理结果。图像处理单元被配置成使用图像处理算法来分析聚焦于对应于具体类别的特征上的处理结果。

该装置可以包括处理单元（CPU）、存储器设备和I/O系统。特别地，根据本发明的装置可以被配置成执行或实施根据本发明的方法的至少一个实施例。为此目的，该装置可以包括存储器设备或数据存储设备，该存储器设备或数据存储设备包含表示该方法的步骤或对该方法的步骤进行编码的程序代码。包含该程序代码的存储器设备或数据存储设备也可以独立地被视为本发明的一个方面。根据本发明的方法的相应实施例以及相应的优点可以被应用于装置、存储器设备或数据存储设备和/或其中包含的程序代码，如果适用的话，并且反之亦然。

附图说明

本发明的另外的优点、特征和细节从本发明的优选实施例的以下描述以及从与本发明相关的附图导出。说明书中先前提到的特征和特征组合以及附图的以下描述中提到的和/或附图中单独示出的特征和特征组合不仅可以在分别指示的组合中采用，而且也可以在其他组合中采用或单独采用，而不脱离本发明的范围。

在图中

图1描绘了示意图，其图示了用于使用针对分层类别而训练的神经网络来分析图像的方法的基本结构；

图2示意性地图示了属于不同分层类别的对象的玩具模型（toy model）；

图3示意性地描绘了具有六个对象的图像；

图4示意性地描绘了借助于通过预训练的神经网络的前向和反向传递来处理图3中所示的图像的结果；

图5示意性地描绘了借助于通过针对3个对象的类别适配的神经网络的前向和反向传递来处理图3中所示的图像的结果；

图6描绘了图示用于使用针对分层类别而训练的神经网络来检测图像中的对象的方法的示意图；

图7示意性地描绘了训练用于分析图像的深度卷积神经网络的结构；

图8示意性地描绘了要分析的图像，该图像示出了两个行人，其中的一个行人被另一个行人部分地遮挡；

图9示意性地描绘了处理图8中所示的图像的若干个步骤的结果；以及

图10示意性地描绘了图8中所示的图像，补充有包围行人之一的边界框。

具体实施方式

图1描绘了示意图1，该示意图1图示了用于使用预训练的神经网络2来分析图像的方法的基本结构。预训练的神经网络2目前是针对多个分层类别训练的深度卷积神经网络（CNN）。这意味着，预训练的神经网络2可以根据其已经学习的不同类别来对输入进行分类，其中，每个较低的类别是分层类别的对应的分层系统中的较高类别的子类别。分层结构的方向由从分层结构中的较低类别指向较高类别的箭头指示。然后，在调整步骤3中，使用针对或用具体类别加标签或注释的训练数据4来适配或调整预训练的神经网络2。这导致了专门的或适配的神经网络5。特别地，预训练的神经网络2可以适用于分层类别的分层系统的最低类别或最低非零类别。这对于获得关于非常具体的特征或对相应处理的输入的数据的见解可能是有利的。由于预训练的神经网络2要被适配于分层系统中比处理的输入的实际类别更低的具体类别，因此使用最低类别进行适配使得能够处理最大数量的不同输入。借助于通过适配的神经网络5的前向传递来处理该输入。然后，借助于通过适配的神经网络5的反向传递6进一步处理该前向传递的输出，以生成处理结果或输出7。前向传递的输出可以从适配的神经网络5的至少一个层或过滤器获得。该层可以是适配神经网络5的最高层或输出层，尽管不一定必须是这种情况。由于适配神经网络5的较高层是最特定于任务的，因此如果反向传递从较高层之一开始，则预期的是反向传递6的输出7可以揭示具体对应于针对其调整适配神经网络5的具体类别的原始输入的具体特征。然后，可以使用图像处理算法、特别是低级图像处理算法聚焦于对应于具体类别的特征上来分析输出7。

可以通过在对应的成本函数上运行梯度下降的多次迭代来实现神经网络的适配或调整

如果使用交叉熵函数，则成本函数可以被表达为

其中L是损失，θ包括权重w和偏差，其不是指单个权重而是整个层，N是训练样本的数量，C是类别的数量，y _ij是预测的类别，t _ij是实际的类别，并且λ是加权因子。对于单个数据点，例如对于单个图像，这简化为

其中，符号具有与上面提到的相同的含义。如果针对所有类别训练的模型能够正确地预测标签y，则标签x代之以用于调整，其中，x是y的子集。当梯度下降的迭代在该成本函数上被执行时，其在权重被更新时被最小化，使得模型能够在调整后将数据点的标签预测为x。在该过程中，模型学会聚焦于与标签x相关的特征上。

图2示意性地图示了属于不同分层类别或种类的对象的玩具模型。在这种情况下，分层系统包括三个种类，这可以考虑第一样本8来理解。最低或第一种类是线11。下一个较高种类，即第二种类，是包含线11的平面10。最高的种类，即第三种类，是包含平地（plain）10并因此也包含线11的立方体9。因此，对应于立方体9、平地10和线11的三个种类形成了分层类别的分层系统，其中每个类别或种类包含系统的较低种类或类别。对于本示例，可以针对这三个分层类别来训练预训练的神经网络2。在调整步骤3中，可以针对对应于线11的第一或最低种类来调整它。当分析新数据样本12（其在这种情况下是第二立方体13）时，即使第二立方体13的实际标签或实际类别是最高或第三种类的实际标签或实际类别，使用针对最低种类调整的适配神经网络5处理新数据样本12也不仅揭示了第二立方体13，而且还揭示了包含在其中的第二平面14和包含在第二平面14中的第二线15。

在另一个示例中，可以训练预训练的神经网络2以用于对图像中的行人进行计数。图3示意性地描绘了图像16，其示出了六个紧密间隔且部分遮挡的行人17。可以借助于通过预训练的神经网络2的前向传递来处理图像16，以获得图像16的预测类别。在这种情况下，由于部分遮挡可能使得其对预训练的神经网络2而言难以对正确数量的对象（即所有的行人17）计数，因此预测类别可能是六个或低于六个。仍尚未被适配的通过预训练的神经网络2的图像16的该前向传递的输出，之后是通过预训练的神经网络2的解卷积传递，产生处理结果，这里表示为解卷积输出18，其在图4中被示意性描绘。在解卷积输出18中，所有六个行人17的逆表示19是可见的。

通过用作上面提到的训练数据4，图像16可以被用于在线调整预训练的神经网络2。为了针对三个对象的类别来适配预训练的神经网络2，可以将标签三应用于图像16。利用该标签，可以在预训练的神经网络2上执行梯度下降的多次迭代。在完成适配之后，可以借助于通过适配的神经网络5的前向传递，之后是也通过适配的神经网络5的反向传递6来处理图像16。这产生了处理结果20，其在图5中被示意性地描绘。对应于输出7的处理结果20与解卷积的输出18的不同之处在于，根据用于调整预训练的神经网络2的三个标签或具体类别，只有对应于三个行人17的特征21是可见的。

通过针对类别三来适配预训练的神经网络2，它被针对低于图像16的实际类别（其是六）的类别来适配。上面提到的原理可以被用于分析图像数据，并且特别地用于检测单个对象。

图6描绘了示意图22，其图示了用于使用针对分层类别训练的神经网络来检测图像中的对象的方法。下面，参考图7至10解释示意图22和用于检测对象的各个步骤。

在该示例中，将分析示出多个对象的输入图像23以检测对象之一。输入图像23的示例在图8中示出。这里，描绘了较大图像的裁剪43。裁剪43包含第一行人44和第二行人45，第二行人45部分地被前者遮挡。输入图像23（即裁剪43）被提供为对计数模型24的输入并由计数模型24处理。输入图像23经历通过计数模型24的前向传递。计数模型24是预训练的卷积神经网络，该预训练的卷积神经网络被训练以对图像中的对象进行计数，在这种情况下，根据其中示出的行人44、45的相应数量来对诸如裁剪43之类的图像进行分类。可以通过从使用合成和/或自然图像针对一般图像分类训练的基线神经网络开始的转移学习来创建计数模型24。

图7示意性地示出了诸如计数模型24的深度卷积神经网络的层结构30的示例。

在通过该层结构30的前向传递期间，在输入数据层31处分别接收输入图像23——或裁剪43。输入数据层31之后是五个卷积层32，所述五个卷积层32之后又是三个完全连接的层33。层31、32、33的不同形状和大小示意性地指示不同的相应尺寸，即神经元和过滤器的数量。输入数据层31和前四个卷积层35至38中的较小正方形指示各自的内核大小。在本示例中，输入数据层31可以具有227乘227个神经元的大小，其具有11乘11的内核大小。第一卷积层35可以具有55乘55个神经元的大小，其具有96的厚度，这指示如由箭头34指示的数据流的方向上的过滤器的数量。第一卷积层35的内核大小可以例如是5乘5。第二卷积层36可以具有27乘27个神经元的大小，神经元具有256个过滤器。第二卷积层36、第三卷积层37和第四卷积层38的内核大小全部都可以是相同的，为3乘3。第三卷积层37和第四卷积层38可以具有相同的尺寸，例如为13乘13个神经元，每个神经元具有384个过滤器。第五卷积层39可以具有相同的大小，为13乘13个神经元，但是只有256个过滤器。第一完全连接层40和第二完全连接层41可各自具有1024个过滤器。相应的神经网络可以例如被训练以对1到16个行人计数。相应地，充当分类器的第三完全连接层42包括用于从1到16的不同行人计数的16个类别。作为相应神经网络的部分，修正线性单元（ReLU）可以被用作激活函数，而池化和局部响应归一化层可以呈现在卷积层32之后。下降（dropout）可以被用来减少过度拟合。

输入图像23通过计数模型24的前向传递产生输入图像23的对象（即行人）的预测计数。对于裁剪43，该预测计数可能是二。然而，如果不同裁剪或输入图像23示出零或一个行人，则预测计数可能相应地为零或一。预测计数可以被用作初始化条件或退出条件。这意味着，如果预测计数是一或更低，则可以停止对相应输入图像23的分析。如果提供了要分析的多个输入图像23，则该方法可以自动跳到下一个输入图像。因此，可以一次一个地处理和分析多个输入图像23。然而，如果预测计数大于一，则可以启动该方法的下面的步骤，即图像分析的下面的步骤。

如果预测计数大于一——如裁剪43的目前情况——则针对具体类别，即针对低于预测计数的对象计数来适配计数模型24。这在调整级25中完成。目前，针对一的计数来调整计数模型24，以促进检测恰好一个对象。可以通过自动地用一的类别来对输入图像23加标签并将其用作训练数据来完成调整。调整计数模型24导致针对一的行人计数调整的适配的计数模型。

然后，借助于通过该适配的计数模型的前向传递26来处理裁剪43，以对恰好一个对象（即行人44、45之一）计数。然后，借助于解卷积27进一步处理该前向传递26的输出或结果，即，通过适配的计数模型的反向传递。由解卷积27得到的解卷积输出然后被传递到图像处理单元，该图像处理单元采用低级图像处理算法28来进一步处理和分析解卷积输出。

类似于图5中所示的处理结果20，解卷积输出指示对应于一个计数对象的原始裁剪43的特征或原因，在这种情况下，该一个计数对象是第一行人44。使用低级图像处理算法28来处理解卷积输出可以包括基于强度对解卷积输出的区域进行伪着色和/或醒目显示，以及用预定阈值进行阈值化，以丢弃不对应于计数对象的任何剩余特征或噪声。由低级处理算法28对解卷积输出执行的处理步骤可以在术语后处理下总结。图9示意性地示出了阈值化步骤之后的中间后处理结果46。在中间后处理结果46中，对应于计数的第一行人44的轮廓47是可见的。作为由低级图像处理算法28完成的后处理的部分，可以检测轮廓47。这意味着在图像数据中通过低级图像处理技术可以检测单个对象，所述图像数据先前已经使用深度神经网络来处理，所述深度神经网络使用分层类别系统被预训练用于对对象计数，其中神经网络已经被适配以对恰好一个对象计数。

低级图像处理算法28还可以被用于在解卷积输出中、在中间处理结果中和/或在原始输入图像23中标记检测到的对象或对应于检测到的对象的区域。低级图像处理算法28的输出然后可以被认为是最终图像分析结果29。

在本示例中，该图像分析结果29可以是图10中示意性示出的后处理结果48。后处理结果48可以是裁剪43，该裁剪具有添加的边界框49，边界框49包围检测到的对象，即第一行人44。

从输入图像23移除检测到的对象以生成具有与输入图像23相比减少一的实际对象计数的修改的图像，这也是可能的。为了实现这一点，低级图像处理算法28可以被用于用预定的均匀颜色和/或强度的像素替换由边界框49标记的区域。该预定的颜色和/或强度还可以从邻近边界框49的一个或多个像素导出。在迭代过程中，修改的图像然后可以被用作下一迭代步骤的输入图像23，以进一步分析该图像。以这种方式，图像中的多个对象可以相继地被一次一个地检测。

Claims

1.用于分析图像（16、23、43）的方法（1、22），包括以下步骤：

-提供预训练以将图像（16、23、43）分类为多个分层类别的分层系统的人工深度神经网络（2、24），

-针对多个分层类别中的一个具体类别来适配预训练的神经网络（2、24），其中具体类别在分层系统中比图像（16、23、43）的实际类别低，

-借助于通过适配的神经网络（5）的前向传递（26）来处理图像（16、23、43），以生成处理结果（7、20），

-使用图像处理算法（28）来分析聚焦于对应于具体类别的特征（21）上的处理结果（7、20）。

2.根据权利要求1所述的方法（1、22），其特征在于，从适配的神经网络（5）的中间层（35、36、37、38、39、40、41）和/或从适配的神经网络（5）的输出层（42）的至少一个过滤器获得处理结果（7、20）。

3.根据前述权利要求中的任一项所述的方法（1、22），其特征在于

借助于通过适配的神经网络（5）的前向传递（26）和随后的反向传递（6、27）来处理图像，以生成处理结果（7、20）。

4.根据权利要求1或2所述的方法（1、22），其特征在于，深度卷积神经网络（30）和/或深度前馈神经网络和/或深度递归神经网络被用作深度神经网络（2、5、24）。

5.根据权利要求1或2所述的方法（1、22），其特征在于，在适配预训练的神经网络（2、24）之前，将其用于处理图像（16、23、43）以获得图像（16、23、43）的预测类别。

6.根据权利要求5所述的方法（1、22），其特征在于，用于适配预训练的神经网络（2、24）的具体类别在分层系统中被设置为低于预测类别。

7.根据权利要求1、2或6所述的方法（1、22），其特征在于，使用图像（16、23、43）和/或图像（16、23、43）的组来在线适配预训练的神经网络（2、24），所述图像（16、23、43）和/或图像（16、23、43）的组然后被相继地处理和分析，而无需进一步的适配步骤。

8.根据权利要求1、2或6所述的方法（1、22），其特征在于，使用图像处理算法（28）对处理结果（7、20）的分析包括如下各项中的一个或多个：基于强度来对区域进行伪着色、醒目显示、阈值化、轮廓检测和生成边界框（49）。

9.根据权利要求8所述的方法（1、22），其特征在于，所述边界框（49）是包围检测到的轮廓（47）的边界框（49）。

10.根据权利要求1、2或6所述的方法（1、22），其特征在于，预训练的神经网络（2、24）被预训练以对图像（16、23、43）中的对象（17、44、45）计数。

11.根据权利要求1所述的方法（1、22），其特征在于，通过使用图像处理算法（28）来分析处理结果（7、20），在处理结果（7、20）中检测对应于具体类别的特征（21）的至少一个表现和/或对应于具体类别的最少一个对象（17、44、45）。

12.根据权利要求11所述的方法（1、22），其特征在于，使用至少一个预定的优化标准来检测表现或对象。

13.根据权利要求12所述的方法（1、22），其特征在于，使用对边界平滑度和/或对图像（16、23、43）或处理结果（7、20）的区域的至少一个预定的约束来检测表现或对象。

14.根据权利要求11和12中的任一项所述的方法（1、22），其特征在于，通过将图像（16、23、43）或处理结果（7、20）的像素视为马尔可夫随机场并使用对强度的梯度的预定约束来检测表现和/或对象（17、44、45）。

15.根据权利要求11和12中的任一项所述的方法（1、22），其特征在于，在通过图像处理算法（28）检测到多个对象（17、44、45）的情况下，根据预定标准来选择对象（17、44、45）之一。

16.根据权利要求15所述的方法（1、22），其特征在于，所述标准是对应于多个检测到的对象（17、44、45）中的每个的相应区域的大小。

17.用于分析图像（16、23、43）的装置，包括被预训练以将图像（16、23、43）分类为多个分层类别的分层系统的人工深度神经网络，以及单独的图像处理单元，其中所述装置被配置成

-借助于通过适配的神经网络（5）的前向传递（26）来处理图像（16、23、43），以生成处理结果（7、20），其中适配的神经网络（5）针对多个分层类别中的一个具体类别从预训练的神经网络（2、24）适配，其中具体类别在分层系统中比图像（16、23、43）的实际类别低，

-将处理结果（7、20）提供给图像处理单元，

其中，图像处理单元被配置成