CN110914831B - 用于分析图像的方法和设备 - Google Patents

用于分析图像的方法和设备 Download PDF

Info

Publication number
CN110914831B
CN110914831B CN201880037330.4A CN201880037330A CN110914831B CN 110914831 B CN110914831 B CN 110914831B CN 201880037330 A CN201880037330 A CN 201880037330A CN 110914831 B CN110914831 B CN 110914831B
Authority
CN
China
Prior art keywords
neural network
image
trained
images
objects
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880037330.4A
Other languages
English (en)
Other versions
CN110914831A (zh
Inventor
S.戈什
P.阿蒙
A.胡特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of CN110914831A publication Critical patent/CN110914831A/zh
Application granted granted Critical
Publication of CN110914831B publication Critical patent/CN110914831B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/143Segmentation; Edge detection involving probabilistic approaches, e.g. Markov random field [MRF] modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30232Surveillance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30242Counting objects in image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及用于使用针对多个类别而预先训练的深度神经网络(25)来分析图像(13,18,24,48)的方法(12,17,23)和设备(15)。图像(13,18,24,48)借助于通过经适应的神经网络的前向传递(20,30)来被处理以生成处理结果。经适应的神经网络根据预先训练的神经网络(25)被适应成聚焦于确切的一个所选类别。然后使用图像处理算法,对聚焦于与所选类别相对应的特征的处理结果进行分析。通过从图像(13,18,24,48)中移除这些特征的表现(49),来生成经修改的图像(55)。

Description

用于分析图像的方法和设备
本发明涉及一种用于使用人工深度神经网络来分析图像的方法和设备,该人工深度神经网络也称为神经网络。
图像分析是各种应用中的常见问题。在比如监督、驾驶员辅助系统、自主驾驶之类的应用中,或在需要关于环境的信息的任何应用中,对图像进行分析以检测对象是一项重要任务。此外,通常存在检测比如行人或车辆的特定种类的对象的需要。尤其是在存在靠近在一起和/或被部分遮挡的多个前景对象的场景中,正确的图像分析——即对所有对象的正确检测——变得具有挑战性。
存在用以在这些困难的场景中处理基于图像的对象检测的各种方案。一种方法使用基于来自在邻近处的检测的尺度和遮挡线索的可视背景(context)来检测行人,以用于监督应用,尤其是对于拥挤场景的应用。另一方案使用概率性行人检测框架。在该框架中,基于可变形部分的模型被用来获得用于部分检测的得分,并且各部分的可视性作为隐藏变量而被建模。另一方法使用二次无约束二进制优化框架来推出在具有空间重叠的情况下的多个对象检测。该方法使由一元检测置信度得分和成对重叠约束组成的目标函数最大化,以确定哪些重叠检测应该被抑制以及哪些应该被保持。另一方案是将与个体性(individualness)进行组合的行列式点过程进行组合,以最佳地选择最终检测。其中,基于个体性,每个检测使用其质量和与其他检测的相似性来被建模。然后,通过使用矩阵的行列式测量它们的概率来选择具有高检测得分和低相关性的检测,该矩阵由对角线条目上的质量项和作为非对角线条目的相似性组成。还有另一方案使用分层共现模型来增强行人的语义表示。其中,采用潜在支持向量模型(SVM)结构来作为隐藏变量而对节点的父子对当中的空间共现关系进行建模以用于处理部分遮挡。
论文“Cross-scene Crowd Counting via Deep Convolutional NeuralNetworks”(Cong Zhang等人,2015 IEEE计算机视觉和模式识别会议,IEEE,2015年6月7日,第833-841页,XP032793494,doi:10.1109/CVPR.2015.7298684)提出了利用深度卷积神经网络来解决跨场景人群计数问题。其中,提出了一种具有两个相关学习目标——估计密度图和全局计数——的可切换训练方案。另外,提出了一种数据驱动的方法来从训练数据中选择样本,以微调适应于未见场景的预先训练的CNN模型。
本发明的一个目的是提供一种用于准确分析图像的可替换的、易于实现的方案。
该目的通过具有专利权利要求1的特征的方法和具有专利权利要求11的特征的设备来实现。在从属专利权利要求中以及在以下的描述和附图中指示了具有本发明的权宜发展的有利实施例。
根据本发明的方法涉及对图像进行分析,其中图像可以具有与至少一个类别相对应的特征。出于该目的,针对多个类别而预先训练人工深度神经网络。该预先训练的神经网络被针对一个类别来适应,也就是说,以聚焦于该预先训练的神经网络已学习的多个类别中的确切一个所选类别。术语类别可以例如指代对象类别、对象计数、对象条件等等。神经网络已学习的类别数量可以等于神经网络的输出层的节点数量。在使神经网络适应之后,图像然后借助于通过经适应的神经网络(adapted neural net)的前向传递(forwardpass)来被处理,以生成处理结果。下一步骤包括:使用可能不是机器学习域的部分的图像处理算法(特别地是低层图像处理算法),聚焦于与所选类别相对应的特征来分析处理结果。这包括:检测处理结果中与所选类别相对应的特征(即,至少一个对象)的表现或实例。由于该适应,经适应的神经网络聚焦于所选类别,并且因此处理结果被聚焦于与所选类别相对应的特征。另外,图像处理算法或使用图像处理算法的图像分析也可以分别聚焦与所选类别相对应的特征。这可以导致改进的图像分析结果,因为图像处理算法和/或图像分析可以特别地依赖于所选类别而被自动地选择和/或调整,以例如检测与所选类别相对应的特征或优先考虑这些特征。在根据本发明的方法的下一步骤中,通过从图像中移除与所选类别相对应的特征的表现或实例(特别是其先前检测到的表现或实例),来生成经修改的图像。可以使用单独的图像处理单元来生成经修改的图像,该图像处理单元可以使用但不一定必须使用神经网络。
在一个有利的发展中,经修改的图像被迭代地用作经适应的神经网络的输入,以针对与所选类别相对应的特征的可能的剩余表现(manifestation)来分析经修改的图像。由于神经网络被适应并且因此被聚焦于所选类别,因此即使图像可以包含所选类别或与其相对应的特征的多个表现、实例或出现,其也可以每个迭代仅检测一个表现。于是单个迭代可以仅检测和移除一个表现、实例或出现。通过使用迭代过程,因此最大程度地聚焦神经网络并且仍然顺序地检测图像中存在的所有特征表现变得有可能。总的来说,该方案可以产生更详细、更精确的图像分析结果。附加地或替换地,预先训练的神经网络被预先训练以用于对图像中的对象进行计数,并且预先训练的神经网络被适应用于对确切地一个对象进行计数。下面对这一点进行更详细地解释。
也有可能适应预先训练的神经网络或针对不同的类别进一步适应经适应的神经网络,并且然后使用经修改的图像作为用于该经不同地适应的神经网络的输入。这允许通过例如迭代地和/或顺序地检测与不同类别相对应的特征来更详细地分析图像。
处理结果是前向传递之后的经适应的神经网络的输出。还可以为处理结果考虑由图像的处理产生的,或在图像的处理期间发生的经适应的神经网络的某个状态或激活(activation)。在前向传递之后或除了前向传递之外进行附加的处理步骤以生成处理结果也是可能的。
根据本发明的低级图像处理算法以及低级图像处理指代不是机器学习域的部分和/或不涉及作为整体的场景或图像的解释或分类的算法和方法。而是,这些低级技术可以例如包括基于像素的操作、发现对应点、边缘检测等等。
遍及以下描述,有时会出于说明性目的而提及一个示例。在该示例中,神经网络被预先训练以用于给对象进行计数,特别是用于对图像中的行人进行计数,并且该方法被用于检测对象。然后,该示例可以被概括,并且该示例的细节和术语可以被如在权利要求中使用的那样的更宽泛的术语代替。在这个意义上,训练神经网络所针对的多个类别是不同的对象计数,使得经适应的神经网络适应于对如所选类别给出的对象的特定数量进行计数。然而,要理解的是,本发明决不限于该示例,因为原则上神经网络可以针对任意类别被预先训练。而且,本发明原则上可以被用来分析任意图像。因此,术语图像要被宽泛地解释,并且可以指代不同种类的图像或图像数据。输入(即待分析的图像)可以例如是由监督相机或作为汽车的辅助系统的部分的相机所捕获的场景或图像。
代替直接使用相机捕获的图像,使用已经以某种方式预处理的图像数据也是可能的。该图像可以例如是已被细分的较大图像的裁切(crop)。例如,使用由区域建议算法或对象检测算法产生的输出(例如边界框的内容),或者由变化检测算法产生的结果或输出作为图像也是可能的。这样的预处理算法(其输出被用作本发明要分析的图像),例如可以是在压缩域中操作的低复杂度算法。特别地,图像可以是整个图像或者是由另一算法输出的图像的裁切,该另一算法不能够分离紧密间隔的对象或者标识了与实际对象的大小相比更大的区。
当所提出的方法被用于检测对象时,当输入(即待分析的图像)被聚焦于具有一个或多个紧密间隔的对象或相互遮挡的对象的小区域时,所提出的方法可以是尤其有效的。较大的图像可以例如描绘多组行人,并且可以被细分为在其中可以具有零个、一个或多个行人的裁切。在起始图像被检测算法预处理的情况下,本文中描述的方法可以被用作后处理步骤,以检测由检测算法所生成的边界框内部的对象,从而更详细地并且以更好的准确性来检测被包含在该边界框中的对象。
使用较大图像的裁切作为要使用本发明分析的图像可以是尤其有利的。针对此的原因在于,当输入图像或裁切中存在较少背景信息时,对象检测的性能被改进,这是因为神经网络于是不必去除背景而是可以聚焦于待检测的特定前景对象。在紧密裁切中,这些待检测的前景对象构成输入图像的较大部分。
深度神经网络是包括多个层的神经网络。预先训练的神经网络可以以随机发起的权重和/或其他参数开始而被从头开始训练。它也可以通过从针对一般图像分类而训练的基线神经网络开始的转移学习来被预先训练,以用于给对象进行计数。与从头开始训练或创建新的神经网络相比,可以于是利用显著少的时间和努力来进行预先训练的神经网络对确切的一个类别的适应。为了适应预先训练的神经网络,可以向预先训练的神经网络提供训练数据。可以用非常小的努力、利用所选类别来向该训练数据加标签或加注释,例如,这可能需要仅仅单个词或数字。适应预先训练的神经网络也可以被称为调谐预先训练的神经网络。该适应或调谐可以例如通过使用反向传播方法在误差表面上进行梯度下降过程来实现,该误差表面即用于特定数据点的误差函数,该特定数据点即被用作训练数据的特定图像。通过针对特定训练数据图像运行例如梯度下降或反向传播的多次迭代,在适应或调谐过程期间更新预先训练的神经网络的权重和/或其他参数。使预先训练的神经网络适应于所选类别允许或迫使它聚焦于与所选类别相对应的相应输入的特征或原因。属于或对应于另一类别的特征或者甚至对应于相同类别的附加表现可能被丢弃。这可以在经适应的神经网络的中间层中导致稀疏的表示。如果该方法被用于检测对象,则这可以有利地被利用以分离被紧密间隔或遮挡的对象。如果图像具有与所选类别相对应的特征的至少一个表现,则该适应确保了经适应的神经网络将提供与所选类别等同的该图像的分类。如果具有存在于图像中的这些特征的多个表现,则神经网络聚焦于这些特征中的哪一个可以取决于特定图像和/或特定经适应的神经网络或其训练历史的不是容易地显而易见的特征或特性。
在本说明书中,经训练的、预先训练的或经适应的神经网络也可以被称为模型。
借助于前向传递来处理图像意指图像作为输入被提供给神经网络的第一层或输入层,然后该神经网络的第一层或输入层对该输入起作用,并且在最终层或输出层提供对应的结果或输出。因此,通过神经网络的前向传递包括:从输入层到输出层的数据流,即,在神经网络的分层的层结构中从最低层到最高层的数据流。因此,针对所选类别而预先训练的神经网络可以接受图像作为输入,并且根据神经网络的结构和训练来提供针对输入图像要属于不同类别的概率作为输出。
有利地,处理结果可以从至少一个中间层的至少一个过滤器和/或从经适应的神经网络的输出层取得。在这种情况下,过滤器或层的相应状态或激活可以用作以上提及的处理结果。换句话说,使用经适应的神经网络的一个或多个层和/或一个或多个不同层的过滤器的状态、激活或输出作为要由图像处理算法分析的处理结果是可能的。替换地或此外,在经适应的神经网络的最高层使用前向传递的最终输出作为处理结果当然是可能的。由于经适应的神经网络的不同过滤器和层对应于图像的不同特征和属性,因此该方案允许依赖于相应应用的要求和/或依赖于图像而有利地定制本方法。因此,可以对应于预定的分析任务和/或依赖于待分析的一个或多个图像的预定特性或类型来选择要被用作处理结果的过滤器和/或层。通过使用不同的过滤器和/或层作为处理结果的基础,可以更有效地分析不同类型的图像。例如可以有利的是,使用较高层的过滤器和来自较低层的过滤器,以便相应的图像分析结果包含关于图像的特定低级特征的数据以及关于图像的更一般或抽象的高级特征或概念的数据。
还可以有利的是,不仅借助于通过经适应的神经网络的前向传递而且还借助于随后的反向传递来处理图像,以生成处理结果。因此,反向传递构成了附加的处理步骤,其在前向传递之后,但是在使用图像处理算法来分析处理结果之前。在这种情况下,处理结果是反向传递的输出,或者从该反向传递的输出导出。通过神经网络的反向传递指代在与前向传递中使用的方向相比的相反方向上使用神经网络来处理数据。因此,反向传递包括从相应神经网络的较高层到较低层的数据流。在反向传递处理结果之后,即,反向传递的输出可以表示或像一图像,其中仅仅属于或对应于所选类别的原始输入图像的特征或原因是可见的或突出显示的。因为输入图像的其他特征在前向传递期间被丢弃或忽略并且在反向传递期间未被重建,所以是这种情况。用于实现反向传递的一个可能性是要使用由已经被用于前向传递的相应神经网络所学习的权重的转置。使用反向传递的附加步骤可以是有利的,因为反向传递的结果或输出可能不比直接从前向传递收集的处理结果抽象,并且因此使用常规的图像处理算法进行分析可能更容易。因此,使用反向传递的结果或输出可以导致图像分析的经改进的结果。
类似于以上提及的前向传递的处理结果,反向传递之后的处理结果也可以从经适应的神经网络的至少一个中间层的至少一个过滤器取得。
在本发明的一个有利发展中,反向传递从经适应的神经网络的中间层开始。中间层的过滤器在前向传递之后的输出可以用作反向传递的起始点。使用来自不同层的不同过滤器的输出的组合以用于借助于反向传递进行处理也是可能的。这导致反向传递的输出,在反向传递的输出中,引起一个或多个过滤器的对应激活的经处理的图像的特征是可见的。因为不同的层或这些层的过滤器或激活对应于图像的不同的特征或特征组合,所以从中间层开始允许有针对性地选择哪些特征或特征组合在反向传递的输出中变得可见,并且因此被用于图像分析结果或影响图像分析结果。这有利地允许图像分析的精细调谐定制。然而,从经适应的神经网络的最高层开始反向传递,以仅聚焦于与所选类别相对应的最具体的特征也是可能的。
有利地,深度卷积神经网络和/或深度前馈神经网络和/或深度递归神经网络被用作深度神经网络。因此,深度神经网络可以具有这些类型的神经网络中的一个的特征或特性,或者这些类型的神经网络中的一些或全部的组合的特征或特性。这允许使神经网络的属性和行为适应于不同的应用。
使用卷积神经网络(CNN)对于图像处理和分析尤其有利,这是因为可以实现高准确性。这部分地是由于局部性(locality)的隐含假设。这意味着,通过使用CNN,利用如下事实是可能的:该事实为在典型的图像中并且具有在其中描绘的典型对象,位于图像的相同区域中的像素比更远或分开的像素更有可能是相关的,即,属于同一对象。使用CNN进行图像分析的常规方案的缺点是,需要大量广泛注释的训练数据来训练CNN。利用本发明、通过使用早已学习了不同类别的预先训练的CNN,并且然后使该CNN适应于特定的任务、用例或应用,避免了此问题。可以使用合成图像数据来训练预先训练的CNN。该预先训练的神经网络的适应或调谐需要显著少的训练数据,也可以用显著少的努力来注释该训练数据。
因此,本发明在不需要大量的训练数据和/或广泛的标签或注释的情况下使得能够实现对新的图像或图像数据的分析。尤其是在使用CNN的情况下,通过CNN的反向传递也可以被称为去卷积传递或者简单地被称为去卷积。因此,去卷积传递可以涉及从在CNN的层处的经学习的过滤器中的一个开始,并且进行连续去池化、校正和滤波的反向数据处理步骤,以重建下面层中的活动,这导致在去卷积传递开始的地方选择激活经学习的过滤器。因而,去卷积传递的输出可以被称为去卷积输出。
前馈神经网络具有非常稳健的优点,其意味着在存在越来越多的噪声量的情况下,它们的性能温吞地下降。使用递归神经网络对于分析具有时间结构的数据可以是尤其有利的,具有时间结构的数据诸如例如多个图像的时间序列或视频馈送。
有利地,使用训练数据、特别是使用合成图像来离线地适应预先训练的神经网络。换句话说,在分析或处理目标图像或目标数据集之前(即在特定应用中有成效地(productively)使用经适应的神经网络之前),在训练或调谐阶段中,针对所选类别来适应预先训练的神经网络,例如以用于对确切的一个对象进行计数。使用合成图像作为训练数据是特别有利的,因为这些图像可以被容易地大规模生产、管理以及被专门创建或定制以适合相应的用例并且避免任何非故意的偏差。然而,使用自然图像(即真实场景的图像)也是可能的。使用自然图像可以具有为其意图的应用更好地准备神经网络的优势。如果在该特定的应用中关于要分析的图像的某些事是已知的,或者如果来自目标图像将来自的所意图的目标位置的图像是可用的,则可能尤其是这种情况。使用合成图像和自然图像的组合来训练、预先训练和/或适应神经网络也是可能的。由于所需的标签或注释可以非常简单,并且可以由仅将所选类别(例如,用于对一个对象进行计数的一个的数量或计数)应用于训练数据的每个图像而组成,所以这种标签可以被有利地自动进行。因此,用以生成经适应的神经网络的总体所需时间和努力显著低于用于生成能够例如在检测对象中的类似的性能分析图像的新神经网络的所需时间和努力。
在本发明的有利发展中,使用待分析的图像来在线适应预先训练的神经网络。在借助于通过经适应的神经网络的对应前向传递来处理该相同图像之前完成此在线适应。换句话说,待分析的特定图像被用作训练数据,以适应预先训练的神经网络。这意味着实际目标数据被用于调谐过程,这可以有利地导致经改进的图像分析性能。为了实现这一点,目标图像(即作为待分析的输入而提供的图像)可以用所选类别来加标签或注释,作为训练数据被提供给预先训练的神经网络,并且在适应完成之后使用经适应的神经网络以及随后的图像处理算法来被处理。该方案可以被用于待分析的每个图像,使得针对待分析的每个输入图像来进行调谐步骤。这有利地允许灵活和准确地使用当前描述的方法,即使在具有不同和/或变化的输入数据(即具有待分析的可变图像)的实际应用中。总的来说,该方案可以产生特别准确的结果,因为该适应不需要依赖于与在相应有成效的应用中待分析的目标数据不同的训练数据。以这种方式,离线训练指代使用与待分析的目标图像或目标数据集不同的训练数据,而在线训练指代出于训练和/或调谐的目的使用稍后要被分析的相同目标数据。
在本发明的有利发展中,使用一组图像来适应神经网络。在适应完成之后,该组图像被顺序地处理,而没有在分析该组的图像之间的另外的适应步骤。这意味着,针对该组图像来适应预先训练的神经网络,而不是在分析每个个体图像以检测图像中的相应对象之前进行相应的适应步骤。换句话说,适应步骤是针对图像或输入的组或集合而进行的,而不是针对每个输入或图像而单独进行的。以这种方式,代替于仅仅为单个图像来针对所选类别调谐预先训练的神经网络,可以将图像组一起用于组合的适应步骤,以加速或加快总体处理速度。可以离线地以及在线地进行使用一组图像来适应神经网络。虽然使预先训练的神经网络适应于待分析的每个图像可以产生经改进的或更准确的图像分析结果,但是使用该组或一批的多个图像来适应预先训练的神经网络并且然后处理和分析各个组的所有图像可以有利地导致分析该组的所有图像所需的更短的总体处理时间。如果应用是时间敏感的和/或如果组中的图像彼此相似或相关,这可能尤其有利。在后一种情况下,在处理每个个体图像之前省略用于每个个体图像的调谐步骤将通常不会导致图像分析的显著降低的质量或准确性。
独立于所实现的适应变体,该方案可以产生准确的图像分析结果,因为适应不需要依赖于与目标数据(即待分析的实际图像)不同的训练数据。
使用用于适应预先训练的神经网络的以上提及的方案或方法的组合也是可能的。预先训练的神经网络可以例如被离线地适应,然后被部署到其有成效的环境或应用,并且被再次适应,即,使用待被分析的实际目标图像进行精细调谐。使用调谐方法的不同组合有利地提供大量的灵活性,并且允许根据本发明的方法的定制,以在所需准备或训练时间、用于处理相应目标数据集的所需处理时间以及图像分析(尤其是对象检测)的准确性方面适合不同的需求和用例。
根据本发明,离线训练或调谐指代使用与待分析的目标图像或目标数据集不同的训练数据,而在线训练或调谐指代出于训练和/或调谐的目的来使用稍后要被分析的同一图像或目标数据。
在本发明的有利发展中,预先训练的神经网络被预先训练,以用于对图像中的对象进行计数。换句话说,神经网络被预先训练以根据其中描绘的多个对象来对图像进行分类。因此,预先训练的神经网络的分类器或输出层的每个类别可以表示或对应于不同的对象计数。例如,如果有16个不同的类别或种类,则神经网络可能能够根据每个图像中描绘的对象的相应数量,对具有从0到15或从1到16或任何16不同数量的对象的任何地方的图像进行分类。要注意的是,给对象进行计数不一定包括检测或指定每个对象的个体位置或轮廓。因此,与例如训练神经网络来检测个体对象相比,训练神经网络以用于给对象进行计数需要在训练数据中少得多的详细注释。神经网络可以被预先训练以用于对至少一个特定类型的对象(诸如例如行人或汽车)进行计数。
其中,预先训练的神经网络被适应用于对确切的一个对象进行计数。如果具有存在于图像中的至少一个对象,则借助于前向传递来处理图像因此导致对确切的一个对象进行计数。即使图像包含预先训练神经网络所针对的类型的多个对象,也是这种情况。对一个对象进行计数意味着聚焦于一个对象,并且忽略属于可能在同一图像中描绘的其他对象或与其相对应的特征。如果具有存在于图像中的至少一个对象,则经适应的神经网络将因此提供图像的分类为1,这意味着它已经对图像中描绘的对象中的一个进行了计数。
在本发明中,通过使用图像处理算法来分析处理结果,在处理结果中检测与所选类别相对应的至少一个对象。这意味着使用简单的低级图像处理技术来进行对象检测。
对象检测是各种应用中的常见问题。在比如监督或驾驶员辅助系统、或自主驾驶之类的应用中,或在需要关于环境的信息的任何应用中,检测对象是一项重要任务。此外,通常存在检测比如行人或车辆之类的特定种类的对象的需要。检测虽然可能变得具有挑战性,尤其是在存在靠近在一起或遮挡其他前景对象的至少两个对象的场景中。将使用图像处理算法的对象检测技术与借助于被预先训练以用于给对象进行计数的神经网络(并且尤其是被适应以用于对一个对象进行计数的神经网络)来处理图像相组合,可以产生尤其准确的图像分析和对象检测结果。即使没有提供训练数据,也是这种情况,其中多个对象中的每一个对象都以详细的方式被描轮廓和加标签。不仅神经网络的最高层,而且神经网络的中间层也可以学习待检测的前景对象的有意义的特征。因此可以有益的是,使用来自不同层的过滤器或激活作为处理结果,以不仅检测对象而且还聚焦于特定特征。
虽然神经网络有利地不需要被训练来检测对象,但是使用神经网络来处理图像可以导致使用图像处理算法的显著更容易、更快、更准确且更可靠的对象检测。因为神经网络可以将焦点或相对重点放在与所选类别相对应的特征(例如一个对象或特定类型的对象)上,所以图像处理算法不必处理原始输入图像的其他特征。这可以减小假阳性检测的机会。神经网络可以例如被适应于对确切的一个对象进行计数,该对象然后可以使用图像处理算法来检测。
通过从图像中移除每个个体计数或检测的对象,迭代地检测同一图像中的多个对象是可能的。由于检测到的对象被移除,因此其特征在随后的迭代步骤中不再影响神经网络。因此,准确地检测甚至被紧密间隔或部分遮挡的对象变得可能。因此,本发明在这样的场景中提供了经改进的计数或检测。由于所使用的神经网络不需要被明确地训练以用于对象检测,因此不存在对于在训练数据中对待检测对象的确切位置进行详细的指示或注释的需要,这通常需要在监督训练期间投入大量的时间和努力。相比之下,训练神经网络以用于计数所需的注释非常简单,因为仅仅需要单个数字,该单个数字是对象的计数。可以用相对非常少的图像来实现预先训练的神经网络的调谐。
在本发明的有利发展中,通过用预定值替换与检测到的对象相对应的像素的像素值,从图像中移除检测到的对象。属于或对应于检测到的对象的图像的像素或部分可以例如被均匀着色的像素或区替换。在替换之后,由具有一个或多个预定像素值的像素组成的替换区或区域可以实质上是无特征的。被用于替换像素的预定值可以例如是预定的恒定值。使用从与检测到的对象或与检测到的对象相对应的区域相邻的至少一个像素中导出的像素值也是可能的。
在这个意义上,像素值可以特别地指代颜色、强度和/或亮度。与检测到的对象相对应的像素可以例如是:由检测到的对象或边界框内的所有像素组成的特定像素,或者被确定为与检测到的对象相对应的类似的(例如分割的)区域。与检测到的对象相对应的像素可以例如由低级图像处理算法来确定。通过以这种方式从图像中移除检测到的对象,使得经适应的神经网络对该对象进行计数的任何特征都被消除。这有利地确保了在计数和/或检测步骤的随后迭代中不再次计数和/或检测相同的特征或对象。
在本发明的有利发展中,使用图像处理算法对处理结果的分析(例如对计数对象的检测)包括:基于强度和/或阈值和/或轮廓检测和/或生成边界框(特别是封围或包围检测到的轮廓或对象的边界框)的伪着色和/或突出显示的区域。这些任务可以使用低级图像处理技术来自动实行,并且因此不需要使用神经网络。伪着色可以被用来基于不同颜色通道的正弦波生成来生成或创建颜色变化。阈值化可以被用来将具有低于预定阈值的一个或多个值的去卷积输出的部分(诸如强度)丢弃。生成边界框可以有利地提供被分配给计数对象或与计数对象相关联的参考区或区域。因此,边界框可以被用来向用户和/或另一程序或系统指示检测到的对象。因为边界框可以是几何图元形式(例如矩形),所以这可以用比使用检测到的对象的复杂的详细轮廓或形状少得多的处理努力来完成。边界框可以被添加到处理结果和/或被添加到输入图像。
在本发明的另外的有利发展中,使用至少一个预定的优化标准来检测对象。特别地,这可以是或可以包括对于边界平滑度和/或对于图像的区和/或处理结果的区使用至少一个预定约束。这种意义上的约束可以包括一个或多个预定阈值,使得例如如果对应的边界平滑度和/或由边界或轮廓包围的区大于或小于预定阈值和/或位于两个预定阈值之间,则边界或轮廓被解释成指示对象。不同的阈值或约束可以被提供并且被用于检测不同的对象和/或不同种类的对象。使用至少一个这样的预定优化标准可以使得能够实现快速且可靠的对象检测,特别是因为通过在使用图像处理算法之前使用经适应的神经网络来处理图像,与待检测的对象相对应的特征或原因被突出显示或被相对强调。
在本发明的有利发展中,通过将图像的像素或处理结果视为马尔可夫随机场(Markov random field)并且使用对强度梯度的预定约束来检测对象。在这里,以上提及的优化标准可以是或可以包括对于强度梯度的至少一个预定约束。在其他优点和益处当中,该方案可以是尤其有利的,因为马尔可夫随机场可以被用来同时地检测和分割图像中的对象,并且因此可以产生快速且准确的对象检测和分割,如在时间敏感和/或安全相关的应用中可能需要的那样。马尔可夫随机场模型也可以有利地被用来以经改进的准确性来检测移动对象。
在由于图像处理算法的参数或阈值化而检测到多个对象的情况下,可以依赖于预定标准来选择检测到的对象中的一个。这对于将该方法聚焦于一次检测仅单个对象可以是有用的。如果为每个检测到的对象生成边界框,则用于选择对象中的一个的标准可以是边界框的面积。例如,可以选择与具有最大面积的边界框相对应或由该具有最大面积的边界框标记的对象。这基于去卷积输出的大部分特定区域(例如高强度区域)属于单个对象的假设而可以是有利的。
在本发明的有利发展中,预先训练的神经网络被用来处理或分析图像,以在适应预先训练的神经网络之前获得用于图像的参考类别。换句话说,在预先训练的神经网络针对所选类别进行适应之前,可以借助于通过该预先训练的神经网络的前向传递来处理图像。例如,如果神经网络被预先训练用于给对象进行计数,则参考类别可以是对象的参考计数。这对于取得图像中存在的对象数量的估计可以是有用的。参考类别可以提供比较值(comparative value)来测量预先训练的和/或经适应的神经网络的性能或准确性。
参考计数还可以有利地为检测在待分析的图像中描绘的所有对象所需的迭代次数提供下限。这种情况是因为在每次迭代都计数、检测和移除一个对象的情况下,使得每次迭代都将剩余的未检测到的对象的数量减少一个。所需迭代次数的下限可以提供对于所需总体处理时间的估计。它还可以被用来(尤其是被自动地用来)为根据本发明描述的方法的适应步骤选择调谐方法。换句话说,依赖于参考计数自动地选择用于检测图像中的对象的方法的变化是可能的。
例如,如果参考计数超过预定阈值,则可以省略使用图像的在线适应,以减少总体处理时间。另一方面,如果参考计数低于预定阈值,则在处理相应的修改图像之前,可以实行在线适应步骤和/或由每次迭代产生的经修改的图像也可以被用于单独的在线适应。所描述的将经修改的图像用作用于下一迭代步骤的在线适应的训练数据当然也可以被用于根据本发明的方法的其他变体中。使用参考类别、特别是作为退出条件的为零或一的参考计数也可以是有利的。这意味着,如果使用预先训练的神经网络的图像的处理导致为零或一的参考计数,则可以停止或取消对图像的进一步处理,以节省所需的处理时间和努力。该方案例如可以有利地被用来非常快速地处理或分类多个图像。因此,预先训练的神经网络给对象进行计数的能力可以被用来发起和可能地终止算法,即,对输入图像的处理或分析,因为预先训练的神经网络或其提供的参考计数可以被用作检查。
除了本文中描述的方法之外,本发明的另一方面是用于分析图像的设备。图像可以具有至少一个类别的特征或与至少一个类别相对应的特征。该设备包括针对多个类别而预先训练的人工深度神经网络以及单独的图像处理单元。该设备被配置成借助于通过经适应的神经网络的前向传递来处理图像,以生成处理结果,该处理结果是经适应的神经网络的输出。经适应的神经网络从预先训练的神经网络进行适应,以用于、即聚焦于多个类别中确切的一个所选类别。该设备进一步被配置成向图像处理单元提供处理结果。该图像处理单元被配置成使用图像处理算法来聚焦于与所选类别相对应的特征而分析处理结果,即,以检测与所选类别相对应的至少一个对象。该图像处理单元进一步被配置成通过从图像中移除与所选类别相对应的特征的表现来生成经修改的图像。在本发明的一个发展中,该设备被配置成将经修改的图像迭代地用作经适应的神经网络的输入,以针对与所选类别相对应的特征的可能的剩余表现来分析经修改的图像。在本发明的附加或替换的发展中,预先训练的神经网络被预先训练以用于对图像中的对象进行计数,并且预先训练的神经网络被适应用于对确切的一个对象进行计数。
该设备可以包括处理单元(CPU)、存储器装置和I/O系统。特别地,根据本发明的设备可以被配置成实行或实施根据本发明的方法的至少一个实施例。出于此目的,该设备可以包括:包含表示或编码该方法的步骤的程序代码的存储器装置或数据存储装置。包含该程序代码的存储器装置或数据存储装置就其自身而言也可以被视为是本发明的一个方面。根据本发明的方法的相应实施例以及相应优点可以被应用于根据本发明的设备、存储器装置或数据存储装置和/或其中包含的程序代码,如可适用的那样以及反之亦然。
该设备可以进一步被配置成迭代地使用由图像处理单元生成的经修改的图像,作为对于经适应的神经网络的输入,以针对与所选类别相对应的特征的可能的剩余表现来分析经修改的图像。
该设备还可以被配置成使预先训练的神经网络适应于所选类别,即,以聚焦于与所选类别相对应的特征。为了实现这一点,该设备可以包括适应阶段。该适应阶段可以被配置成运行梯度下降的多次迭代,以使用训练数据来适应预先训练的神经网络。迭代次数可以被预定(predetermine)。迭代次数也可以由神经网络的意图输出与相应实际输出之间的差的预定阈值来确定。意图输出可以是如以等于或大于预定阈值的概率或置信度值而属于所选类别的相应训练数据或图像的分类。
提供经适应的神经网络作为设备的部分也是可能的。
本发明的另外的优点、特征和细节得自于本发明的优选实施例的以下描述以及得自于与本发明相关的附图。在说明书中先前提及的特征和特征组合以及单独在图的以下描述中提及的和/或在图中示出的特征和特征组合可以不仅在分别指示的组合中采用,而且还在其他组合中被采用,或者在不脱离本发明的范围的情况下被单独取用。
附图说明
在附图中:
图1示意性地描绘了两个场景,每个场景具有多个部分遮挡的行人和由常规的对象检测算法生成的多个边界框;
图2描绘了图示与用于分析图像的方法有关的数据流的示意图;
图3描绘了图示用于检测图像中的对象的方法的步骤的示意图;
图4描绘了图3中所示的示意图的更详细的和补充的版本;
图5描绘了图示可以被用来分析图像的深度卷积神经网络的结构的示意图;
图6示意性地描绘了待分析的图像,该图像示出了第一行人和第二行人,其中一个被另一个部分遮挡;
图7示意性地描绘了处理图6中所示图像的若干个步骤的结果;
图8示意性地描绘了具有包围检测到的第一行人的边界框的图6中所示的图像;
图9示意性地描绘了在与第一行人相对应的区域被从图6中所示的图像中移除的情况下的图6中所示的图像;以及
图10示意性地描绘了具有在检测到的第二行人周围的边界框的图6中所示的图像。
图1示意性地描绘了第一场景1和第二场景2,每个场景示出了多个行人3。场景1、2可以例如是由监督相机拍摄的图像。行人3可以被认为是对象,特别是前景对象,它们要通过用于分析图像、特别是用于检测图像中的一个或多个对象的方法和设备而被自动地检测。
图1中还描绘了由常规的对象检测算法生成的多个对象边界框4。如可以容易看到的,多个行人3包括一些被部分地遮挡的行人。这些被称为被遮挡的行人5。行人6例如部分地包括场景1中的行人7。以类似的方式,行人9被行人8部分地遮挡。场景2中的示例是行人10被行人11的部分遮挡。
因此,场景1、2表示难以分析如下图像:该图像具有其中一些也被部分遮挡的紧密间隔的对象。结果,常规的对象检测算法不能够可靠且准确地检测所有对象,即场景1、2或类似图像中的所有行人3。当考虑对象边界框4时,这一点变得很明显。这些框中的一些包围多个行人3,如例如行人8和9那样,从而指示所使用的检测算法不能够在这些对象之间进行区分。而且,行人3中的一些(诸如例如行人7)没有被检测到,并且因此根本没有被对象边界框4中的一个包围。
这清楚地指示了需要一种用于检测图像数据中的对象的经改进的方法。这样的经改进的方法在变化检测算法对图像中已经发生变化的区进行检测的场景中也可以是有用的,因为可能需要比可以由常规的对象检测算法所提供的更精细的一个或多个前景对象的描绘。
图2示出了图示与用于图像中的对象检测的方法有关的数据流的示意图12。在第一步中,提供输入13,该输入13可以例如包括要针对可检测对象进行分析的基本上原始或未经改变的图像。输入13被馈送到第一阶段14中。在该第一阶段14中,可以使用常规的对象检测算法或变化检测算法来处理输入13,或者可以细分或裁切包含在输入13中的一个或多个图像。第一阶段14可以作为输出提供输入13,该输入13利用分别与包含变化特征或检测到的对象的区域相对应的区域提议(proposal)或边界框来被补充。第一阶段14的这些结果或输出以及因此输入13的部分或裁切进而作为要被进一步分析的一个或多个图像被提供给设备15。设备15被配置成实行用于检测图像中的一个或多个对象的经改进的方法,该方法在下面进一步详细描述。设备15可以作为输出16而向输入13提供细化的、单独的和/或附加的边界框4。
图3描绘了图示设备15的结构和功能的示意图17。这里提供了要针对可检测的对象进行处理和分析的输入图像18。在调谐步骤19中,预先训练以用于给对象进行计数的人工深度卷积神经网络被适应成对仅一个对象进行计数,即使输入图像18包含多个对象。在计数步骤20中,经适应的神经网络被用来对输入图像18中的一个对象进行计数。计数步骤20目前包括:输入图像18通过经适应的神经网络的前向传递,以及在相反方向上通过经适应的神经网络的反向或去卷积传递。反向传递的所得到的输出揭示了在计数步骤20中被计数的单个对象。这种情况是因为神经网络被适应成对一个对象进行计数,并且经适应的神经网络的最高层是最任务特定的,其中(在此情况下)该任务是给对象进行计数。
在通过经适应的神经网络的前向和反向传递期间,经适应的神经网络的不同层和过滤器中的特定激活的原因或输入图像18的特征被丢弃或忽略,使得焦点仅位于一个对象或与一个计数对象相对应的特征或原因上。
激活的原因可以是输入图像18的特征,和/或是负责相应神经网络的一个层或过滤器内的特定激活或激活模式的神经网络的中间层或过滤器中的一个的输出。往回提及到以行人作为待检测对象的示例,调谐步骤19的结果是使得在计数步骤20中,经适应的神经网络能够将其注意力聚焦于一个特定的行人。
然后可以通过常规的低级图像处理算法来处理反向传递的输出,以检测计数对象,并且可选地标记其在输入图像18中的位置。这使得能够实现在修改步骤21中从输入图像18中移除检测到的对象。因此,在修改步骤21中,创建了经修改的图像。该经修改的图像可以被理解成是输入图像18减去与检测到的对象相对应的图像数据。该经修改的图像可以然后在迭代过程中被用作用于计数步骤20的下一迭代的输入。
由于在经修改的图像中移除了已首先被计数和检测的对象,因此经修改的图像的实际对象计数比输入图像18的对象计数低一。通过经历多次这些迭代,包含在输入图像18内的所有对象可以顺序地被检测到,并且被从在每次相应迭代中处理的相应图像中移除。当不再检测到对象时,可以停止后续计数步骤20和修改步骤21的迭代循环。
例如,输出22可以是具有所有检测到的对象的输入图像18,该检测到的对象由相应的边界框来标记。例如,如果输入图像18仅包含单个对象,则也可以采用所描述的方式来有效地检测该对象,其中修改步骤21仅被执行一次,因为如果计数步骤20的结果指示检测不到对象,即如果对象计数在任何点处都是零或变为零,则该方法可以终止。
如果针对给对象进行计数而预先训练的深度神经网络代替地针对更高数量的对象而被调谐——即用以对更高数量的对象进行计数,则对应地更多对象将在去卷积输出中——即在反向传递的输出中是可见的。对调谐预先训练的神经网络所针对的对象数量进行计数的这种行为目前可以通过调谐预先训练的神经网络以对一个对象进行计数来被利用。这有效地导致了检测单个对象的能力。该方案可以被用来分离紧密间隔的对象或彼此遮挡的对象,以实现与使用被训练以用于对象检测的神经网络的常规对象检测算法相比更高的检测准确性。
被预先训练以用于给对象进行计数的神经网络可以被理解成是针对多个类别而被预先训练。每个类别对应于特定数量的对象——即特定的对象计数。这些多个类别中的一个(在这种情况下,该类别对应于为一的对象计数)被用作用于对预先训练的神经网络进行调谐的所选类别。因此,由一个行人3组成和/或与一个行人3相对应的图像的特征和部分是与神经网络被适应所针对的所选类别相对应的特征。
图4描绘了图3中所示的示意图17的更详细的和补充的版本。被指示以包含在虚线23内部的所有功能可以被认为是图2中所示的设备15的功能。下面参照图5-10来解释这些功能。与输入图像18相对应,提供2D图像的裁切24作为要针对可检测对象进行分析的输入图像数据。裁切24的示例在图6中被示为图像48。图像48示出了第一行人49和第二行人50,其中第二行人50被第一行人49部分地遮挡。
裁切24被馈送进深度卷积神经网络(CNN),其被称为CNN 25。在本示例中,CNN 25被训练以对2D图像中的行人进行计数。
图5示意性地示出了CNN 25的可能的层结构35的示例。在通过该层结构35的前向传递期间,在输入数据层36处接收裁切24。输入数据层36接着是五个卷积层37,这些卷积层37进而接着是三个完全连接的层38。层36、37、38的不同形状和大小示意性地指示了不同的对应尺寸,即神经元和过滤器的数量。输入数据层36和前四个卷积层40至43中的较小方块指示了相应的内核大小。在本示例中,输入数据层36可以具有227乘227个神经元的大小,该层具有11乘11的内核大小。第一卷积层40可以具有55乘55个神经元的大小,该层具有的厚度为96,该厚度指示在如箭头39所指示的数据流的方向上的过滤器的数量。第一卷积层40的内核大小可以例如是5乘5。第二卷积层41可以具有27乘27个神经元的大小,该层具有256个过滤器。第二卷积层41、第三卷积层42和第四卷积层43的内核大小可以都是以3乘3而是相同的。第三卷积层42和第四卷积层43可以具有以例如13乘13个神经元的相同尺寸,每个层具有384个过滤器。第五卷积层44可以具有以13乘13个神经元的相同大小,但是仅有256个过滤器。第一完全连接层45和第二完全连接层46可以各自具有1024个过滤器。CNN 25可以例如被训练成对0至15或1至16个行人进行计数。对应地,第三完全连接层47——即,充当分类器的输出层——包括用于不同行人计数的16个类别。作为CNN 25的部分,整流线性单元(ReLU)可以被用作激活功能,而池化和局部响应归一化层可以在卷积层37之后出现。Dropout可以被用来减少过拟合。
裁切24由CNN 25处理,以获得裁切24中存在的对象的参考或预测计数。
与图3中提及的调谐步骤19相对应,这接着是调谐步骤26,以使CNN 25适应于对仅一个对象进行计数。存在若干个不同的选项来实行该调谐或适应。在第一调谐选项27中,用为一的计数来将相应的训练数据加标签或注释,以使CNN 25适应于对一个对象进行计数。在第二调谐选项28中,CNN 25被适应成以用于使用一组图像或裁切来对一个对象进行计数。这些多个裁切可以是来自单个较大图像的裁切,或者它们可以是来自多个不同图像的裁切,例如视频序列的多个不同的帧。在第三调谐选项29中,CNN 25被适应成以用于使用同一裁切24来对一个对象进行计数,该同一裁切要在随后的步骤中被进一步分析。调谐选项27、28、29也可以以各种方式进行组合。
用以给对象进行计数的CNN 25的调谐及其训练可以通过提供对应的训练数据来完成。训练数据可以包括不同类型的图像,诸如合成图像和/或自然图像,或者它们的组合。有利地,相当大量的合成图像可以被用于训练CNN 25,而可以使用相当少的自然图像——即真实图像——来实现调谐。这避免了针对大量人工注释的训练数据的需要。调谐步骤26导致经调谐或适应的神经网络。
在调谐步骤26之后,借助于通过经适应的神经网络的前向传递30来处理裁切24。然后,借助于通过生成处理结果的经适应的神经网络的反向传递或去卷积31,再次处理该前向传递30的输出。去卷积31之后的该处理结果是揭示了在前向传递30中被计数的单个对象的图像。
去卷积31接着是后处理步骤32。完成该后处理步骤32,以便从去卷积输出中分割出计数对象。这可以包括若干个不同的低级图像处理步骤,诸如伪着色、基于强度突出显示与计数对象相对应的区域、阈值化、轮廓检测以及生成包围被计数和被检测的对象的边界框。
图7示意性地描绘了在伪着色、突出显示和阈值化之后的中间后处理结果51。这些低级图像处理步骤揭示了与检测到的对象相对应的轮廓52,在这种情况下,该检测到的对象是图6中所示的第一行人49。
图8示出了第一最终后处理结果53,其具有包围检测到的对象——即,第一行人49——的第一边界框54。基于检测到的轮廓52来生成第一边界框54。
然后,第一最终后处理结果53被传递到修改阶段33。在该修改阶段33中,与检测到的第一行人49相对应的像素被从第一最终后处理结果53或对应的裁切24——即,图像48——中移除。目前,通过用具有均匀强度和颜色的像素替换第一边界框54的区和内容来完成这一点。这导致了图9中所示的经修改的裁切55。在这里,如由第一边界框54指示的那样,与检测到的第一行人49相对应的图像48的一部分现在被具有均匀颜色和强度的替换区域56替换。因此,导致前向传递30和后处理步骤32中的第一行人49的计数和检测的所有特征和原因在经修改的裁切55中不再是可区分的。代替于替换第一边界框54的区,对第一行人49进行更详细的分割也是可能的。该分割越好地与第一行人49——即,相应检测到的对象——相匹配,从第一后处理结果53或图像48中分别移除的不属于第一行人49的像素就越少。这进而可以导致在随后的迭代中针对仍要被检测的其他剩余对象(诸如第二行人50)的经改进的检测结果。
在所描述过程的第二迭代中,借助于第二前向传递30、第二反向传递31和随后的第二后处理步骤32,将经修改的裁切55作为输入提供给经适应的神经网络以供处理。以这种方式处理经修改的裁切55导致了图10中示意性示出的第二后处理结果57。其中,第二行人50被检测到,并且由周围的第二边界框58进行标记。可以重复此用于顺序地检测图像48中的所有对象的迭代过程,直到不再检测到对象为止。
裁切24的所描述的处理的总体输出34可以包括所有处理迭代的相应后处理结果53、57和/或这些结果的组合,即,具有所有检测到的对象的裁切24或图像48,该所有检测到的对象即是由相应边界框54、58标记的所有检测到的行人49、50。
如上所述,为一的对象计数被用来生成经适应的神经网络,并且以此提取单个前景对象。这仅仅是因为先前已训练了CNN 25以用于给对象进行计数而是可能的。相比之下,如果使用为一的标签并且从头开始训练分类器,则所得到的神经网络非常难以聚焦于单个前景对象。然而,由于特征提取器——即,神经网络或其一部分——学习了提取对于计数有用的特征,因此所有前景对象——或者在本示例中的两个前景对象——然后将在去卷积输出中被揭示。换句话说,如果不使用被训练以用于给对象进行计数的CNN 25,而是代替地将从头开始训练最后的完全连接层47,则两个或所有前景对象将变得可见,即使为一的计数可以被用于调谐。
综上所述,使用计数模型——即被预先训练以用于给对象进行计数的深度神经网络——还通过将其调谐成对仅一个对象进行计数的限制来检测对象是可能的。这允许准确且可靠地检测紧密间隔的和/或部分遮挡的对象,诸如行人3、49、50。一般而言,与由不被认为是前景的部分的对象进行的遮挡相比,由相似的前景对象进行的遮挡可以是具有挑战性的情形,因为分类器可以被训练成拒绝不感兴趣的对象。然而,如果前景对象正被相同类型或类别的另一前景对象遮挡,则挑战在于要单独地检测被部分地被遮挡和未被遮挡的对象,因为他们似乎在2D图像中重叠。为了满足该挑战,本发明建议使用深度神经网络,该深度神经网络被预先训练以用于给对象进行计数,并且被调谐以用于对一个对象进行计数,使得它能够一次将注意力聚焦在一个对象上。在所描述的示例中,神经网络在具有不同数量的行人的图像的裁切上训练,并且然后朝向对一个行人进行计数而被调谐。因此,本发明的基本原理思想是,当被推向对一个对象进行计数的极限时能够进行计数的神经网络可以被用于对象检测。

Claims (11)

1.用于分析具有与至少一个类别相对应的特征的图像(13,18,24,48)的方法(12,17,23),包括以下步骤:
-通过向预先训练的神经网络(25)提供利用所选类别加标签的训练数据,将针对多个类别而预先训练的神经网络(25)适应成聚焦于所述多个类别中的确切一个所选类别,其中所述图像(13,18,24,48)具有与所述所选类别相对应的特征,
-借助于通过经适应的神经网络的前向传递(20,30)来处理所述图像(13,18,24,48),以生成处理结果,所述处理结果是在所述前向传递(20,30)之后的所述经适应的神经网络的输出,
-通过使用图像处理算法来分析所述处理结果,以在其中检测与所述所选类别相对应的至少一个对象(3,49,50),所述图像处理算法用以检测和分割所述处理结果中与所述所选类别相对应的对象(3,49,50)的表现(49),
-通过从所述图像(13,18,24,48)中移除与所述所选类别相对应的对象(3,49,50)的表现(49)来生成经修改的图像(55),
其中
a)所述经修改的图像(55)被迭代地用作所述经适应的神经网络的输入,以针对与所述所选类别相对应的对象(3,49,50)的可能的剩余表现(50)来分析所述经修改的图像(55),
和/或
b)所述预先训练的神经网络(25)被预先训练以用于对图像中的对象(3,49,50)进行计数,并且所述预先训练的神经网络(25)被适应用于对确切的一个对象(3,49,50)进行计数。
2.根据权利要求1所述的方法(12,17,23),其特征在于,所述处理结果从所述经适应的神经网络的中间层(40,41,42,43,44,45,46)的至少一个过滤器和/或从所述经适应的神经网络的输出层(47)取得。
3.根据前述权利要求中任一项所述的方法(12,17,23),其特征在于
所述图像(13,18,24,48)借助于通过所述经适应的神经网络(5)的前向传递(20,30)和随后的反向传递(31)来被处理,以生成处理结果。
4.根据权利要求3所述的方法(12,17,23),其特征在于,所述反向传递(31)从所述经适应的神经网络的中间层(40,41,42,43,44,45,46)开始。
5.根据权利要求1和2中任一项所述的方法(12,17,23),其特征在于,深度卷积神经网络(25,35)和/或深度前馈神经网络被用作神经网络。
6.根据权利要求1和2中任一项所述的方法(12,17,23),其特征在于,使用训练数据来离线地适应所述预先训练的神经网络(25)。
7.根据权利要求1和2中任一项所述的方法(12,17,23),其特征在于,在所述图像(13,18,24,48)借助于对应的前向传递(20,30)被处理之前,使用所述图像(13,18,24,48)来在线地适应所述预先训练的神经网络(25)。
8.根据权利要求1和2中任一项所述的方法(12,17,23),其特征在于:
-使用一组图像(13,18,24,48)来适应所述神经网络,以及
-在适应(26,27,28,29)之后,所述一组图像(13,18,24,48)被顺序地处理,而没有进一步的适应步骤(26,27,28,29)。
9.根据权利要求1和2中任一项所述的方法(12,17,23),其特征在于,通过用预定值(56)替换与检测到的对象(3,49,50)相对应的像素的像素值来移除所述检测到的对象(3,49,50)。
10.根据权利要求1和2中任一项所述的方法(12,17,23),其特征在于,在适应所述预先训练的神经网络(25)之前,所述预先训练的神经网络(25)被用来处理所述图像(13,18,24,48),以获得针对所述图像(13,18,24,48)的参考类别。
11.一种用于分析具有与至少一个类别相对应的特征的图像(13,18,24,48)的设备(15),包括针对多个类别而预先训练的神经网络(25),以及单独的图像处理单元(21,32,33),其中所述设备(15)被配置成:
-借助于通过经适应的神经网络的前向传递(20,30)来处理所述图像(13,18,24,48),以生成处理结果,所述处理结果是在所述前向传递(20,30)之后的所述经适应的神经网络的输出,其中
-通过向预先训练的神经网络(25)提供利用所选类别加标签的训练数据,所述经适应的神经网络被从所述预先训练的神经网络(25)适应成聚焦于所述多个类别中的确切一个所选类别,以及
-所述图像(13,18,24,48)具有与所述所选类别相对应的特征,以及
-将所述处理结果提供给所述图像处理单元(21,32,33),
其中所述图像处理单元(21,32,33)被配置成
-通过使用图像处理算法来分析所述处理结果,以在其中检测与所述所选类别相对应的至少一个对象(3,49,50),所述图像处理算法用以检测和分割所述处理结果中与所述所选类别相对应的对象(3,49,50)的表现(49),以及
-通过从所述图像(13,18,24,48)中移除与所述所选类别相对应的对象(3,49,50)的表现(49)来生成经修改的图像(55),
以及其中
a)所述设备(15)被配置成将所述经修改的图像(55)迭代地用作所述经适应的神经网络的输入,以针对与所述所选类别相对应的对象(3,49,50)的可能的剩余表现(50)来分析所述经修改的图像(55),
和/或
b)所述预先训练的神经网络(25)被预先训练以用于对图像中的对象(3,49,50)进行计数,并且所述预先训练的神经网络(25)被适应用于对确切的一个对象(3;49;50)进行计数。
CN201880037330.4A 2017-06-05 2018-06-04 用于分析图像的方法和设备 Active CN110914831B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
IN201711019646 2017-06-05
IN201711019646 2017-06-05
PCT/EP2018/064631 WO2018224442A1 (en) 2017-06-05 2018-06-04 Method and apparatus for analysing an image

Publications (2)

Publication Number Publication Date
CN110914831A CN110914831A (zh) 2020-03-24
CN110914831B true CN110914831B (zh) 2022-05-10

Family

ID=62684748

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880037330.4A Active CN110914831B (zh) 2017-06-05 2018-06-04 用于分析图像的方法和设备

Country Status (4)

Country Link
US (1) US11055580B2 (zh)
EP (1) EP3602398B1 (zh)
CN (1) CN110914831B (zh)
WO (1) WO2018224442A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11126894B2 (en) * 2017-06-05 2021-09-21 Siemens Aktiengesellschaft Method and apparatus for analysing an image
CN110110189A (zh) * 2018-02-01 2019-08-09 北京京东尚科信息技术有限公司 用于生成信息的方法和装置
CN111428535A (zh) * 2019-01-09 2020-07-17 佳能株式会社 图像处理装置和方法及图像处理系统
CN109561257B (zh) * 2019-01-18 2020-09-18 深圳看到科技有限公司 画面对焦方法、装置、终端及对应的存储介质
US11405547B2 (en) * 2019-02-01 2022-08-02 Electronics And Telecommunications Research Institute Method and apparatus for generating all-in-focus image using multi-focus image
PL3825691T3 (pl) 2019-11-25 2023-03-13 F. Hoffmann-La Roche Ag Sposób oznaczania stężenia analitu w płynie ustrojowym
CN110956122B (zh) * 2019-11-27 2022-08-02 深圳市商汤科技有限公司 图像处理方法及装置、处理器、电子设备、存储介质
US11494933B2 (en) * 2020-06-30 2022-11-08 Ncr Corporation Occluded item detection for vision-based self-checkouts
CN112132023B (zh) * 2020-09-22 2024-05-17 上海应用技术大学 基于多尺度上下文增强网络的人群计数方法
CN113724276B (zh) * 2021-08-04 2024-05-28 香港中文大学(深圳) 一种息肉图像的分割方法和装置
WO2023091131A1 (en) * 2021-11-17 2023-05-25 Innopeak Technology, Inc. Methods and systems for retrieving images based on semantic plane features

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7505621B1 (en) * 2003-10-24 2009-03-17 Videomining Corporation Demographic classification using image components
CN103914702A (zh) * 2013-01-02 2014-07-09 国际商业机器公司 用于提高视频中的对象检测性能的系统和方法
CN106688011A (zh) * 2014-09-10 2017-05-17 北京市商汤科技开发有限公司 用于多类别物体检测的方法和系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101292264B (zh) * 2006-12-01 2013-06-12 松下电器产业株式会社 迭代运动分割
US20110150328A1 (en) * 2009-12-21 2011-06-23 Electronics And Telecommunications Research Institute Apparatus and method for blockiing objectionable image on basis of multimodal and multiscale features
US9317775B2 (en) * 2013-08-14 2016-04-19 Ricoh Co., Ltd. Recognition procedure for identifying multiple items in images
US9361524B2 (en) * 2014-10-20 2016-06-07 King Abdullah University Of Science & Technology System and method for crowd counting and tracking
US9972092B2 (en) * 2016-03-31 2018-05-15 Adobe Systems Incorporated Utilizing deep learning for boundary-aware image segmentation
CN110088776A (zh) * 2016-10-06 2019-08-02 西门子股份公司 用于训练深度神经网络的计算机设备
KR20180055070A (ko) * 2016-11-16 2018-05-25 삼성전자주식회사 재질 인식 및 재질 트레이닝을 수행하는 방법 및 장치
US10255681B2 (en) * 2017-03-02 2019-04-09 Adobe Inc. Image matting using deep learning

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7505621B1 (en) * 2003-10-24 2009-03-17 Videomining Corporation Demographic classification using image components
CN103914702A (zh) * 2013-01-02 2014-07-09 国际商业机器公司 用于提高视频中的对象检测性能的系统和方法
CN106688011A (zh) * 2014-09-10 2017-05-17 北京市商汤科技开发有限公司 用于多类别物体检测的方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CROSS-SCENE CROWD COUNTING VIA DEEP CONVOLUTIONAL NEURAL NETWORKS;CONG ZHANG 等;《2015 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》;20150607;833-841 *

Also Published As

Publication number Publication date
WO2018224442A1 (en) 2018-12-13
EP3602398B1 (en) 2022-04-13
US20210089816A1 (en) 2021-03-25
EP3602398A1 (en) 2020-02-05
CN110914831A (zh) 2020-03-24
US11055580B2 (en) 2021-07-06

Similar Documents

Publication Publication Date Title
CN110914831B (zh) 用于分析图像的方法和设备
EP3620956B1 (en) Learning method, learning device for detecting lane through classification of lane candidate pixels and testing method, testing device using the same
EP3596655B1 (en) Method and apparatus for analysing an image
Farag Recognition of traffic signs by convolutional neural nets for self-driving vehicles
JP2018538612A (ja) オブジェクト検出のためのスケール依存プーリングによるカスケード型ニューラルネットワーク
EP2657857A1 (en) Method for binary classification of a query image
Wang et al. Towards realistic predictors
CN111985333B (zh) 一种基于图结构信息交互增强的行为检测方法及电子装置
Farag Traffic signs classification by deep learning for advanced driving assistance systems
CN116206334A (zh) 一种野生动物识别方法和装置
EP3627391A1 (en) Deep neural net for localising objects in images, methods for preparing such a neural net and for localising objects in images, corresponding computer program product, and corresponding computer-readable medium
Ke et al. Learning hierarchical image segmentation for recognition and by recognition
CN113780331A (zh) 由计算机实施的训练方法、分类方法及系统和计算机可读记录介质
Kiruthika Devi et al. A deep learning-based residual network model for traffic sign detection and classification
Mansoor et al. Recognizing text with a CNN
Çetinkaya et al. A Traffic Sign Detection System Linking Hypothesis Tests and Deep Learning Networks
Elfakharany et al. Halalnet: a deep neural network that classifies the halalness slaughtered chicken from their images
Naidu et al. Character level segmentation and recognition using CNN followed random forest classifier for NPR system
Goswami et al. Text Detection and Recognition in images: A survey
Kunene et al. Better feature acquisition through the use of infrared imaging for human detection systems
Tian et al. Image target detection based on deep convolutional neural network
Thakur et al. Machine Learning Techniques Applied to Extract Objects from Images: Research Issues Challenges and a Case Study
Mukherjee et al. Segmentation of natural image based on colour cohesion and spatial criteria
Björnsson et al. Modelling temporal context for traffic light recognition using RNNs
Julin Vision based facial emotion detection using deep convolutional neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant