CN112840347A - 用于对象检测的方法、装置和计算机可读介质 - Google Patents

用于对象检测的方法、装置和计算机可读介质 Download PDF

Info

Publication number
CN112840347A
CN112840347A CN201880098586.6A CN201880098586A CN112840347A CN 112840347 A CN112840347 A CN 112840347A CN 201880098586 A CN201880098586 A CN 201880098586A CN 112840347 A CN112840347 A CN 112840347A
Authority
CN
China
Prior art keywords
scale
features
objects
candidate
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201880098586.6A
Other languages
English (en)
Inventor
李亚钊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Technologies Oy
Original Assignee
Nokia Technologies Oy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Technologies Oy filed Critical Nokia Technologies Oy
Publication of CN112840347A publication Critical patent/CN112840347A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • G06T5/30Erosion or dilatation, e.g. thinning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

提供用于对象检测的方法、装置和计算机程序产品。一种方法包括提取图像的一般特征,所述一般特征表征所述图像的一个或多个一般属性(310);标识一个或多个感兴趣区域ROI(320);基于所述一般特征和一个或多个候选尺度,生成关于所述图像中的一个或多个对象的尺度信息(330);基于所述尺度信息生成所述图像的一个或多个特定于尺度的特征(340);以及基于所标识的一个或多个ROI和一个或多个特定于尺度的特征来检测所述图像中的所述一个或多个对象(350)。

Description

用于对象检测的方法、装置和计算机可读介质
技术领域
本公开的非限制性和示例性实施例总地涉及信号处理的技术领域,并且具体地涉及用于检测图像中的对象的方法、装置和计算机程序产品。
背景技术
本节介绍可以有助于更好地理解本公开的方面。因此,本节的陈述应从这个角度来阅读,而不应被理解为关于什么是现有技术或者什么不是现有技术的承认。
对象检测是诸如人机交互、安全监控和高级驾驶辅助系统(ADAS)之类的各种应用中的一项关键任务。例如,在自动驾驶的场景中,精确地检测对象是重要的,因为如果没有检测到或错误地检测到对象,则可能导致生命和/或财产损失。
因此,提高对象检测的精度具有重要意义。
发明内容
本公开的各种实施例主要旨在提供用于对象检测的方法、装置和计算机存储介质。
在本公开的第一方面中,提供了一种用于图像处理的方法。该方法包括:提取图像的一般特征,该一般特征表征图像的一个或多个一般属性;标识一个或多个感兴趣区域ROI;基于所述一般特征和一个或多个候选尺度,生成关于所述图像中的一个或多个对象的尺度信息;基于所述尺度信息生成所述图像的一个或多个特定于尺度的特征;以及基于所标识的一个或多个ROI和一个或多个特定于尺度的特征来检测图像中的一个或多个对象。
在一些实施例中,提取图像的一般特征可以包括:经由卷积神经网络CNN的一个或多个卷积块来提取所述一般特征。在一些实施例中,一个或多个卷积块可以形成CNN的骨干网络。
在一些实施例中,标识所述一个或多个ROI可以包括:经由区域建议网络(RPN)为一个或多个对象生成一个或多个区域建议,其中区域建议指示对象的ROI。
在一些实施例中,生成所述尺度信息可以包括:从所述一个或多个候选尺度确定针对所述一个或多个对象中的每个对象的尺度;以及基于针对所述一个或多个对象确定的尺度来生成所述尺度信息。在另一些实施例中,基于针对一个或多个对象确定的尺度来生成尺度信息可以包括:针对所述一个或多个候选尺度中的每个候选尺度,确定用于膨胀卷积的与候选尺度相关联的膨胀率;基于所确定的膨胀率和所确定的尺度来确定卷积核;以及通过所述一般特征和所述卷积核的卷积来生成与所述候选尺度相关联的尺度信息。
在一些实施例中,基于所述尺度信息生成所述图像的一个或多个特定于尺度的特征可以包括:针对所述一个或多个候选尺度中的每个候选尺度,通过将与候选尺度相关联的尺度信息与一般特征或基于所述一般特征生成的另外特征相结合来生成与所述候选尺度相关联的特征。在一些实施例中,将与所述候选尺度相关联的尺度信息与所述一般特征或所述另外特征相结合可以包括:基于按元素的乘法(element wise multiplication)来将与所述候选尺度相关联的尺度信息与所述一般特征或所述另外特征相结合。
在一些实施例中,检测图像中的一个或多个对象可以包括:基于所述一个或多个候选尺度来确定针对所标识的一个或多个ROI中的每一个ROI的尺度;基于所确定的ROI的尺度从所述一个或多个特定于尺度的特征中提取特定于尺度的区域特征;以及基于所述特定于尺度的区域特征来检测所述图像中的一个或多个对象。在一些实施例中,基于特定于尺度的区域特征来检测图像中的一个或多个对象可以包括:针对所述一个或多个候选尺度中的每个候选尺度,基于所述特定于尺度的区域特征来检测具有候选尺度的一个或多个对象;以及确定关于所检测的对象的信息,所述信息包括坐标、边界框和分类中的至少一项。
在一些实施例中,该方法可进一步包括将所确定的关于所检测的对象的信息与所述一个或多个候选尺度相整合。在一些实施例中,经由非极大值抑制NMS来实现对所确定的信息的整合。
在一些实施例中,该方法还可以包括输出一个或多个对象的检测结果。
在本公开的第二方面中,提供了一种用于对象检测的装置。所述装置包括:至少一个处理器;以及包括计算机程序代码的至少一个存储器;所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述计算设备至少:提取图像的一般特征,该一般特征表征图像的一个或多个一般属性;标识一个或多个感兴趣区域ROI;基于所述一般特征和一个或多个候选尺度,生成关于所述图像中的一个或多个对象的尺度信息;基于所述尺度信息生成所述图像的一个或多个特定于尺度的特征;以及基于所标识的一个或多个ROI和一个或多个特定于尺度的特征来检测图像中的一个或多个对象。
在本公开的第三方面中,提供了另一种用于图像中的对象检测的装置。所述装置包括:用于提取图像的一般特征的部件,该一般特征表征图像的一个或多个一般属性;用于用于标识一个或多个ROI的部件;用于基于所述一般特征和一个或多个候选尺度来生成关于图像中的一个或多个对象的尺度信息的部件;用于基于所述尺度信息生成所述图像的一个或多个特定于尺度的特征的部件;以及用于基于所标识的一个或多个ROI和一个或多个特定于尺度的特征来检测图像中的一个或多个对象的部件。在一些实施例中,所述部件可以包括至少一个处理器;和至少一个存储器,所述至少一个存储器包括计算机程序代码,所述至少一个存储器和计算机程序代码被配置为与所述至少一个处理器一起引起所述装置的执行。
在本公开的第四方面中,提供了一种计算机程序。所述计算机程序包括指令,所述指令在由装置执行时使所述装置执行根据本公开第一方面的方法。
在本公开的第五方面中,提供了一种计算机可读介质,其上存储有计算机程序,该计算机程序在由装置执行时使所述装置执行本公开的第一方面的方法。
在本公开的第六方面中,提供了一种计算设备。计算设备包括根据本公开的第二方面或第三方面的装置。
在本公开的第七方面中,提供了一种非瞬态计算机可读介质,包括程序指令,该程序指令用于使装置执行根据本公开第一方面的方法。
附图说明
通过以下参考附图的详细描述,本公开的各种实施例的上述和其他方面、特征和优点将变得更加明显,在附图中,使用类似的参考标号来表示类似或等效的元件。图示这些附图是为了便于更好地理解本公开实施例,并且附图不必按尺度绘制,其中:
图1示出可以实施本公开实施例的自动驾驶系统(ADS)应用场景;
图2A示出根据本公开示例实施例的用于对象检测的CNN的示例架构;
图2B示出根据本公开示例实施例的针对具有不同尺度的对象的检测结果的示例;
图3示出根据本公开示例实施例的用于对象检测的方法的流程图;
图4示出根据本公开示例实施例的用于生成尺度信息的示例操作;
图5示出根据本公开示例实施例的用于对象检测的示例操作;
图6示出根据本公开示例实施例的可实施为计算设备/在计算设备中实施的装置的简化框图;以及
图7示出根据本公开示例实施例的可用于图像检测的示例系统。
具体实施方式
在下文中,将参考说明性实施例来描述本公开的原理和精神。应当理解,给出所有这些示例实施例仅仅是为了本领域技术人员更好地理解和进一步实践本公开,而不是为了限制本公开的范围。例如,作为一个实施例的一部分示出或描述的特征可与另一实施例一起使用以产生又一实施例。
说明书中对“一个实施例”、“实施例”、“示例实施例”等的引用指示所描述的实施例可以包括特定的特征、结构或特性,但是不是一定每个实施例都包括该特定的特征、结构或特性。此外,这些用语不一定指同一实施例。此外,当结合实施例描述特定特征、结构或特性时,应认为,无论是否明确描述,结合其他实施例影响该特征、结构或特性都在本领域技术人员的知识范围内。
应当理解,尽管这里可以使用术语“第一”和“第二”等来描述各种元素,但是这些元素不应受到这些术语的限制。这些术语仅用于区分一个元素和另一个元素。例如,在不脱离示例性实施例的范围的情况下,第一元素可以被称为第二元素,并且类似地,第二元素可以被称为第一元素。如本文所使用的,术语“和/或”包括所列项中的一个或多个项的任何和所有组合。
本文中使用的术语仅用于描述特定实施例的目的,而不旨在限定示例实施例。如本文所使用的,除非上下文另有明确指示,否则单数形式“一个”、“一”和“该”也意在包括复数形式。将进一步理解,用语“包括”、“包含”、“具有”、“有”、“含有”和/或“包括有”在本文中使用时指明所述特征、元件和/或组件等的存在,但不排除一个或多个其他特征、元件、组件和/或其组合的存在或添加。
如在本申请中所用的,术语“电路”可指以下的一个或多个或全部:
(a)仅硬件电路实现(例如仅在模拟和/或数字电路中的实现)和
(b)硬件电路和软件的组合,例如(如适用):
(i)模拟和/或数字硬件电路与软件/固件的组合,以及
(ii)具有软件的硬件处理器的任何部分(包括数字信号处理器、软件和存储器,该数字信号处理器、软件和存储器一起工作以使诸如移动电话或服务器之类的装置执行各种功能),以及
(c)硬件电路和/或处理器,例如微处理器或微处理器的一部分,其操作需要软件(例如固件),但当操作不需要软件时可以不存在软件。
电路的这一定义适用于该术语在本申请中的所有使用,包括在任何权利要求中的所有使用。作为另一示例,如在本申请中使用的那样,术语电路也涵盖仅仅是硬件电路或处理器(或多个处理器)或硬件电路或处理器的一部分及其(或它们)伴随的软件和/或固件的实施。例如,如果适用于特定的权利要求元素,术语电路还涵盖用于计算设备的基带集成电路或处理器集成电路。
如本文所使用的,术语“计算设备”或“装置”是指能够进行计算和数据处理的任何设备。作为示例而非限制,计算设备可以包括但不限于以下中的一个或多个或其任何组合:摄像机、静止相机、雷达、光探测和测距(LiDAR)设备、移动电话、蜂窝电话、智能电话、IP语音(VoIP)电话、无线本地环路电话、平板电脑、可穿戴终端设备、个人数字助理(PDA)、便携式计算机、台式计算机、服务器计算机、诸如数码相机的图像捕获终端设备、游戏终端设备、安装有相机的传感器设备、安装有相机的车辆、安装有相机的无人机和安装有相机的机器人等。
作为另一示例,在物联网(IOT)场景中,计算设备或装置可以代表执行监测和/或测量并将该监测和/或测量的结果发送到另一设备的机器或其他设备。在这种情况下,计算设备可以是机器对机器(M2M)设备,其在3GPP上下文中可以被称为机器类型通信(MTC)设备。
计算设备可以用于例如视觉监督和/或自动驾驶系统(ADS),并且可以具有图像处理能力。
对象检测是诸如人机交互、安全监控、高级驾驶辅助系统之类的各种应用中的图像处理中的一项关键任务。
实际上,图像中的对象可能大小不同。例如,用于ADS或ADAS的道路场景可能是复杂的,并且包括具有各种尺度的对象。靠近相机的对象可能看起来很大,而远离相机的对象可能看起来很小。此外,如果一辆车和一个行人与相机的距离相近,那么车看起来比行人大得多。对象尺度的差异导致了对象检测中的问题,其可以被称为尺度问题,并使得对象检测具有挑战性。
在基于CNN的对象检测方法中,从图像中提取特征而不考虑尺度问题。因此,来自大对象的特征在整体检测中占主导地位,而与大对象的显著特征相比来自小对象的特征则被覆盖。这造成针对小对象的检测性能较差。然而,在一些应用场景中,如在ADS中,精确地检测行人或小动物等小对象是非常重要的。
此外,对象的尺度可能随其与相机的距离而变化。因此,对于对象检测而言不区分对象尺度的CNN显然是不合理的。
在本公开中,提出了新的对象检测方案,以解决尺度问题并提高对象检测的性能。
图1示出可以应用本文提出的对象检测方案的示例应用场景。在图1中,具有相机的装置101(例如汽车)可以支持ADS或ADAS,并且它捕获道路的图像110。如图1所示,图像110包括具有不同尺寸的若干对象,例如行人102、汽车103、骑手104和另一行人105。然后,可以通过本文提出的对象检测方案来处理图像110,并且可以通过图像120中的边界框112-115来检测和指示图像110中的对象。
在本公开的一些实施例中,图像(例如,图1中的图像110)中的对象可以通过本文提出的有效尺度注意力(attention)网络(以下称为SANet)来检测。SANet包括用于在特定尺度掩码的监督下提取尺度注意力的尺度注意力模块(SAM)和用于基于提取的尺度注意力进行尺度感知检测的尺度检测模块(SDM),所述尺度注意力表示对具有给定尺度的对象的注意力。在视觉场景中,人类可以很容易地注意和区分具有不同尺度的不同对象。这种机制叫做注意力。本文提出的SANet中的SAM是通过模仿注意力机制来提高检测性能。
在一些实施例中,SANet还包括用于生成一个或多个对象建议的区域建议网络(RPN)。对象建议覆盖了对象可能出现的感兴趣区域(ROI)。
在一些实施例中,在SDM中,由RPN提取的ROI被近似/映射到适当尺度,该适当尺度来自一个或多个预定候选尺度的集合。例如,该预定候选尺度的集合可以包括三个尺度,即小尺度、中尺度和大尺度。相应地,ROI可分为具有小尺度的ROI、具有中尺度的ROI和具有大尺度的ROI。然后,每个具有特定尺度的ROI依据与相应尺度相关联的尺度感知特征被池化。在一些实施例中,具有不同尺度的ROI可以由单独的和各自的检测头进行回归和分类,以提供具有不同尺度的对象的检测结果。
在一些示例实施例中,可通过分离具有不同尺度的对象的特征来提取尺度感知特征。通过基于特定尺度特征来检测对象,可以有效地解决对象检测中的尺度问题,而无需花费大量的时间。
为了说明而非限制,图2A示意性地示出所提出的SANet的示例结构200。在该示例中,SANet包括骨干网络210、RPN 220、SAM 230和SDM 240。
骨干网络210被配置用于一般特征提取,并且可以被实现为用于一般特征提取的基于CNN的对象检测方法中的子网络。在图2A所示的示例中,骨干网络210包括4个卷积块211、212、213和215,每个卷积块可以包括多个卷积层。为了简单起见,从骨干网络210的卷积块211、212、213和215输出的输入图像(例如,图1中的图像110)的一般特征在下文中被表示为F1、F2、F3和F5。应当理解,本公开实施例不限于任何特定数量的卷积块或卷积层来构造骨干网络。换句话说,在其他示例实施例中,可以堆叠更少或更多卷积块来形成骨干网络。
RPN 220被配置用于生成对象建议(也称为区域建议),并且可以通过与在常规对象检测方法中使用的RPN模块相同的方式来实现。例如,RPN 220可以与在较快的基于区域CNN(R-CNN)的方法中使用的RPN模块相同。在图2A的示例中,RPN 220包括卷积块224,卷积块224可包括用于生成ROI的若干卷积层。由RPN 220生成的一个或多个对象/区域建议覆盖相应对象可能出现的一个或多个ROI。
SAM 230被配置用于产生尺度注意力。为了产生尺度注意力,可以在SANet的训练阶段采用尺度掩码监督。例如,可以预定或预定义候选尺度集合(例如小尺度、中尺度和大尺度)或任意数量的尺度,并且相应地,可以将输入图像中的对象分组为小对象、中对象和大对象,或任何其他对象组。在此基础上,尺度掩码Mi可以通过以下方式生成:
Figure BDA0003013580280000091
因此,通过将小对象出现的位置的值标记为“1”以及将其他位置的值标记为“0”来生成M1。通过将中对象出现的位置的值标记为“1”以及将其他位置的值标记为“0”来生成M2。同样,通过将大对象出现的位置的值标记为“1”以及将其他位置的值标记为“0”来生成M3。备选地,i=n,其中n是任意实数。作为示例,针对图1中的图像110,对于汽车103和骑手104出现的位置,M3的值被设置为“1”,并且对于其他位置,M3的值被设置为零。通过使用尺度掩码,可以如下地从一般特征(例如,来自骨干网络210的卷积块213的特征F3)生成尺度信息,该尺度信息可以被称为监督A1、A2、A3或An,并且分别表示小尺度对象、中尺度对象和大尺度对象或任意尺度对象的注意力:
Figure BDA0003013580280000092
其中,
Figure BDA0003013580280000093
表示膨胀卷积运算,Wri表示用于以膨胀率Wri生成尺度i的注意力的卷积核。备选地,i=n,并且n是任意实数。Wri可在训练阶段期间基于式(1)中所示的尺度掩码Mi获得。由于图像中具有不同尺度的对象覆盖具有不同大小的区域,因此可以使用具有不同膨胀率的膨胀卷积来生成A1、A2和A3以满足尺度要求。也就是说,与每个Wri相关联的膨胀率ri可以不同。具体来说,针对不同尺度的膨胀率ri应满足条件r1<r2<r3,以便针对分别与小尺度对象、中尺度对象和大尺度对象相关联的不同尺度的注意力A1、A2和A3产生不同的感受野(receptive field)。备选地,在(2)中,特征F3可以由从任意卷积块输出的任意Fi代替。
基于Wri(其基于掩码Mi产生)产生注意力Ai的操作被称为掩码监督,这是一种弱监督。在训练阶段生成Wri期间,可以使用SoftmaxLoss函数作为代价函数。因此,由式(2)得出的结果A1只注意小对象,而A2只注意中对象且A3只注意大对象。
在图2A的示例中的所提出的SDM 240被设计用于检测分别具有不同尺度的对象。在一些实施例中,通过将特征(例如,从图2A中的骨干网络210的215输出的F5,其基于一般特征F3获得)与来自SAM 230的尺度注意力A1、A2和A3结合,可以通过以下方式生成多尺度特征:
S1=A1e F5, S2=A2e F5, S3=A3e F5. (3)
其中,e表示元素相乘,S1、S2和S3分别表示小尺度特征、中尺度特征和大尺度特征。也就是说,在所提出的方案中,与不同尺度相关联的特征被分离以供进一步处理。
应当理解,尽管在此示例中,多尺度特征(即,与不同尺度相关联的特征)是基于特征F5获得的,但实施例不限于这种特定实现。相反,在一些实施例中,可以基于一般特征F(例如,图2A中的F3)获得多尺度特征。一般来说,Si、Ai和Fi可以用在式(3)中,其中i=n,并且n是任意实数。
在一些实施例中,通过聚集特征金字塔来对CNN的不同阶段(例如,图2A中的卷积块211、212、213和215)进行预测,可以进一步改进检测性能。
现在仍然参考图2A。在一些实施例中,根据与SAM 230中相同的尺度划分,将通过RPN 220提取的ROI近似(241、242和243)到不同的尺度。然后依据多尺度特征Si对具有不同尺度的对象分别进行ROI池化(244、245和246)。池化可以看作是一种类似于采样的操作,其提取对应位置的特征。
在一些实施例中,由若干卷积层组成的另一卷积块可用于在每次RIO池化之后提取特征。例如,在图2A中,经由ROI轮询基于S1来提取小ROI以获得区域特征(其可以具有固定大小(例如,7x7)),然后通过使用卷积块247进一步提取区域特征以获得特征F1,6。同样地,经由ROI轮询基于S2来提取中ROI以获得区域特征,通过使用卷积块248进一步提取该区域特征以获得特征F2,6,并且经由ROI轮询基于S3来提取大ROI以获得区域特征,通过使用卷积块249进一步提取该区域特征以获得特征F3,6
与不同尺度相关联的特征F1,6、F2,6和F3,6被用于检测输入图像(例如,图1中的图像110)中的对象。在一些实施例中,一个或多个不同的检测头(Ri,Ci,i=1,2,3,…)可被用于具有不同尺度的对象的边界框的回归R和分类C。仅出于图示目的,图2A中示出分别被表示为((R1,C1),(R2,C2),(R3,C3))的三个检测头。
以图1中的输入图像110为例,从近到远至少有四个检测对象:驾驶员104、行人(人)102、汽车103和行人105。由专用于小对象的检测头(R1,C1)检测具有最小尺度的行人105,以得到图2B所示的检测结果251,由专用于中对象的检测头(R2,C2)检测行人102,以得到图2B所示的检测结果252,并且由专用于大对象的检测头(R3,C3)检测其它对象,以得到图2B的检测结果253。
任选地,在一些实施例中,可以例如通过使用非最大抑制(NMS),将检测结果251-253融合/整合到单个图像(例如,图1中的图像120)中,以提供最终输出。
这里提出的SANet可以作为深度CNN来实现。在实践中被用于对象检测之前,可以使用大量的图像样本对SANet进行训练。实施例不限于任何特定的训练机制,相反,可以采用任何现有的或将来要开发的合适训练方案。作为示例而不是限制,SANet的训练阶段可以包括以下操作中的部分或全部操作。
要训练的SANet的示例可以类似于图2A中所示的示例,即,SANet可以包括骨干网络、RPN、SAM和SDM。骨干网络和RPN可以类似于在传统CNN(例如,较快的R-CNN或基于区域的完全卷积网络(R-FCN))或其他现有的著名检测网络中使用的那些骨干网络和RPN。针对对象的候选尺度的集合可以是预定的或预定义的。也就是说,对象可以被分组成几个(例如,3个或更多个)尺度。SAM和SDM都支持与所定义的集合中数量相同(如3个或更多)的尺度。例如,SAM和SDM可以通过与参考图2A描述的方式相同的方式来设计。
在训练阶段期间,可以进行监督,包括SAM中的掩码监督和SDM中针对每个尺度的回归监督和分类监督,以确保准确检测。
可以提供训练图像的集合和它们的地面真值,用于SANet的监督训练。对于尺度注意力的监督(例如,在SAM中的Ai),掩码Mi可以作为地面真值。为了监督SDM中的回归和分类(例如,图2A中的(R1,C1)),地面真值可以是每个尺度中的对象标签(例如,对象的位置和/或分类)。
参数初始化可以在训练阶段期间执行。要初始化的参数可以包括可学习的卷积滤波器和SANet中的其他参数。例如,可以通过来自ImageNet或检测数据集的预先训练的参数来初始化与骨干网络和RPN相关的参数。其他可学习的参数可以被随机初始化,例如,通过使用高斯方法、泽维尔(Xavier)方法或深CNN中使用的其他方法。
在一些实施例中,可以迭代地训练SANet。例如,SANet可以通过前向传播和后向传播来训练。备选地或者附加地,可以通过迭代执行随机梯度下降(SGD)算法来优化参数,直到收敛。
在训练之后,SANet可用于检测图像(包括视频)中的对象以确定精确的对象定位(例如,边界框)和对象识别(例如,分类)。例如,可以通过执行以下操作来产生输入图像的检测结果:通过骨干网络提取一般特征;通过RPN生成区域建议;通过SAM生成尺度注意力;生成尺度注意力特征;基于尺度注意力特征检测对应尺度上的对象;以及融合/整合(例如,通过使用NMS)针对每个尺度的检测结果以生成最终结果。
所提出的SANet能够有效地解决由对象的不同尺度所引起的检测问题,并在各种应用中提高检测性能,包括但不限于ADAS和ADS。
在本公开的另一方面中,提出了用于对象检测的方法。图3示出根据本公开实施例的用于对象检测的方法300的操作。方法300可以由计算设备或装置来实现,例如,图1所示的车辆101或安装在车辆101中的装置。然而,应当理解,方法300也可以在任何计算设备或装置中实现。此外,在一些实施例中,方法300的一些或所有操作可以在云中实现。仅出于说明的目的而非限制,下面将参考计算设备来描述方法300。
如图3所示,在框310,计算设备提取图像的一般特征。所提取的特征表征该图像的一个或多个一般属性。为了说明而不是限制,可以经由CNN的一个或多个卷积块(例如,图2A中的卷积块211、212、213和215)来实现块310的操作。一个或多个卷积块可以形成CNN的骨干网络(例如,图2A中的骨干网络210)。
在框320,计算设备标识一个或多个ROI。例如,计算设备可以经由RPN(例如,图2A中的RPN 220)为图像中的一个或多个对象生成一个或多个区域建议。区域建议指示对象的ROI。在一些实施例中,块RPN的操作可以与常规检测网络(例如R-CNN)中的操作相同的方式来执行。
在框330,计算设备基于所提取的一般特征和一个或多个候选尺度(例如,3个预定尺度,即小尺度、中尺度和大尺度,或更多候选尺度)生成关于图像中的一个或多个对象的尺度信息。尺度信息可以包括但不限于尺度注意力。在一些实施例中,在框330,计算设备可以从一个或多个候选尺度中确定针对一个或多个对象中的每个对象的尺度。换句话说,一个或多个对象可以被分组成不同的尺度。然后,基于针对一个或多个对象确定的尺度,计算设备可以生成尺度信息,例如,尺度注意力。
在一些实施例中,计算设备可以通过对一个或多个候选尺度中的每个候选尺度执行图4所示的操作400来生成尺度信息。如图4所示,在框410,计算设备可以确定用于膨胀卷积的与候选尺度i相关的膨胀率ri。在框420,基于确定的膨胀率ri以及确定的尺度来确定卷积核Wri,并且在框430,计算设备通过一般特征和卷积核Wri的卷积来生成与候选尺度i相关联的尺度信息Ai。例如,可以根据式(2)获得尺度信息。
现在回到图3。基于在框330处生成的尺度信息,在框340处,计算设备生成图像的一个或多个特定于尺度的特征。作为示例而不是限制,计算设备可以通过分别生成与一个或多个候选尺度中的每个候选尺度相关联的一个或多个特征来生成一个或多个特定于尺度的特征。在一些实施例中,对于一个或多个候选尺度中的每个候选尺度i,计算设备可以通过组合与候选尺度i相关联的尺度信息(例如,Ai)和一般特征(例如,图2A中的F3)或基于一般特征生成的另外特征(例如,图2A中的F5)来生成与候选尺度i相关联的特征Si。为了说明而非限制,可以通过基于按元素的乘法来将与候选尺度i相关联的尺度信息(例如,Ai)和一般特征(例如,图2A中的F3)或另外特征(例如,图2A中的F5)相结合来生成特定于尺度的特征,即,与每个尺度相关联的特征。这样,与不同尺度相关联的特征被分离以供进一步处理。此操作不同于现有的检测机制,并且带来改善的检测性能。
在框350,计算设备基于所标识的一个或多个ROI和所生成的一个或多个特定于尺度的特征来检测图像中的一个或多个对象。在一些实施例中,经由对应的检测头分别检测具有不同尺度的对象。
备选地或附加地,在一些实施例中,在框350处执行的检测可以包括图5所示的操作500。在图5所示的示例中,在框510,计算设备基于一个或多个候选尺度来确定针对所标识的一个或多个ROI中的每一个ROI的尺度。在框520处,所确定的ROI的尺度被用于从一个或多个特定于尺度的特征中提取特定于尺度的区域特征。作为示例而非限制,通过ROI池化和可选地在ROI池化之后的进一步卷积操作,计算设备可以从一个或多个特定于尺度的特征(例如,S1、S2和S2)中提取特定于尺度的区域特征(例如,F1,6、F2,6和F3,6),如图2A的SDM240中所示。在框530,计算设备基于特定于尺度的区域特征来检测图像中的一个或多个对象。
在一些实施例中,检测可以包括回归R和分类C,如图2A的示例中所示。作为示例而非限制,在框530处,例如对于一个或多个候选尺度中的每个候选尺度i,计算设备可以基于特定于尺度的区域特征来检测(例如,经由针对该尺度i的专用检测头)具有候选尺度i的一个或多个对象,并确定关于检测对象的信息。所确定的信息可包括(例如但不限于)坐标、边界框和分类中的一项或多项,或其任何组合。
在分别确定具有不同尺度的对象的信息的实施例中,计算设备可以进一步将所确定的关于检测对象的信息与一个或多个候选尺度整合到例如图1所示的单个图像120中。例如,可以通过经由非最大抑制(NMS)进行融合来实现该整合。
在一些实施例中,计算设备可以输出一个或多个对象的检测结果,例如如图3所示在框360。例如,可以输出图1所示的图像120,其中针对对象具有边界框。
下面的表1示出所提出的基于图2A中的SANet的检测机制与被称为较快的R-CNN加特征金字塔网络(FPN)的基线检测方法之间的检测性能的比较。
表1 SANet和基线方法的检测性能
Figure BDA0003013580280000151
在比较中,COCO检测数据集被用来评估所提出的SANet的性能。COCO数据集中有80个类别对象。利用80k训练图像的联合对SANet进行训练,如在FPN中那样用5k图像对其性能进行测试。三个候选尺度在待测试的SANet中被预定义。测试结果表明,较快R-CNN+FPN算法可以实现33.9%的平均准确率(AP),而所提出的SANet方案实现37.8%的平均AP,这意味着所提出的方案比基线方法高出3.9%。此外,如表1所示,通过大的余量,SANet大大提高了针对每个尺度的检测性能,特别是在检测小对象方面(23.4对比17.8)。
通过对一些示例实施例的描述,本领域技术人员可以理解,通过使用尺度注意力,在一些实施例中所提出的对象检测方案可以将对象分组为若干尺度,并基于对应的尺度特征检测具有每个尺度的对象。在复杂的实践场景中,对象的尺度可以是可变的,并且直接检测对象而不区分尺度会使检测性能变差。然而,利用所提出的“分而治之”的机制,可以有效地解决处于对象检测核心的尺度问题。
与图像金字塔方法和特征金字塔方法不同,本文提出的方法不会带来太多的时间开销,并且能够解决尺度问题的根源。此外,所提出的尺度注意力模块和尺度检测模块可以与其他优异的检测网络相结合,进一步提高检测性能。
图6示出装置600的简化框图,所述装置600可实施为计算设备或装置/作为计算设备或装置实施,其可包括但不限于相机设备、安装有相机设备的车辆、安装有相机设备的无人机、具有相机设备的工业机器人等。
如图6的示例所示,装置600包括控制装置600的操作和功能的处理器610。例如,在一些实施例中,处理器610可以借助存储在与处理器610耦合的存储器620中的指令630来实现各种操作。存储器620可以是适合于本地技术环境的任何合适类型,并且可以使用任何合适的数据存储技术来实现,作为非限制性示例例如基于半导体的存储器设备、磁存储器设备和系统、光存储器设备和系统、固定存储器和可移动存储器。在一些示例实施例中,存储器620可以是非瞬态计算机可读介质。尽管在图6中仅示出一个存储器单元,但是在装置600中可以存在多个物理上不同的存储器单元。
处理器610可以是适应本地技术环境的任何适当类型,并且作为非限制性示例可以包括通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、中央处理单元(CPU)、现场可编程门阵列(FPGA)、专用电路(ASIC)、GPU(图形处理单元)、NPU(神经网络处理单元)、AI(人工智能)加速器和基于多核处理器架构的处理器中的一项或多项。装置600还可以包括以其任何组合的多个处理器610。
处理器610还可以与一个或多个无线电收发器640耦合,无线电收发器640使得能够通过无线通信部件接收和传输信息。在一些实施例中,无线电收发器640可包括无线通信部件(例如无线联网部件、无线电电信部件、根据以下技术进行通信的部件:长期演进(LTE)、第五代(5G)通信、窄带物联网(NB-IoT)、远程广域网(LoRaWAN)、专用短程通信(DSRC)和/或无线局域网(WLAN)通信标准等),其允许装置600以例如车对车(V2V)、车对物(V2X)、点对点(P2P)等方式与其他设备/装置通信,并且发送和接收图像检测相关信息。另外,处理器610还可以耦合到一个或多个有线通信部件,其使得能够通过有线通信网络(例如局域网(LAN)、以太网、广域网或其任何组合)来接收和发送信息。
在一些实施例中,处理器610和存储器620可以协同操作以实现参考图2至图5所述的任何方法。应当理解,以上参照图2至图5描述的所有特征也适用于装置600,因此这里不再详述。
本公开的各种实施例可以通过可由一个或多个处理器(例如图6中的处理器610)、软件、固件、硬件或其组合执行的计算机程序或计算机程序产品来实现。
尽管在对象检测的上下文中描述了一些实施例,但不应将其解释为限制本公开的精神和范围。本公开的原理和构思可以更普遍地适用于语义分段和其他位置敏感的应用场景。
此外,本公开还提供了包含上述计算机程序的载体(例如,图6中的计算机指令/程序630)。载体包括计算机可读存储介质。例如,计算机可读存储介质可包括光盘或诸如RAM(随机存取存储器)、ROM(只读存储器)、闪存、磁带、CD-ROM、DVD、蓝光盘等的电子存储器设备。
图7描绘了根据本公开实施例的包括机器学习模型的系统或装置700的示例。系统或装置700可以安装在车辆790中,例如汽车或卡车,但是系统或装置700也可以在没有车辆790的情况下使用。车辆790可以被视为根据本公开实施例的装置的示例,并且可以例如在图1所示的ADS应用中使用。
如图7所示,根据一些示例实施例,示例系统或装置700包括一个或多个传感器705(例如,相机)和CNN 710或任何其他机器学习算法或其任何组合。在一些实施例中,CNN 710可以包括可形成骨干网络的一个或多个卷积块,以及RPN、SAM和SDM中的一个或多个,如图2A所示。
系统或装置700还可以包括一个或多个射频收发器715。在一些实施例中,射频收发器715可以包括无线通信部件(例如,无线联网部件、无线电电信部件、用于根据LTE、5G、NB-IoT、LoRaWAN、DSRC和/或WLAN标准等进行通信的部件),其允许系统或装置700或者车辆790以例如车对车(V2V)、车对网络、车对物(V2X)、点对点(P2P)等方式与其他一个或多个设备、装置或车辆或其任意组合进行通信,并且发送和接收图像检测相关信息。此外,系统或装置700或车辆790可以执行根据本公开的一个或多个示例实施例的用于一个或多个图像中的对象的检测和/或图像识别,并向系统或装置700或车辆790本身提供或发送或传输相关的一个或多个指令或消息,例如,制动、转向、加速、取消动作、位置、图像识别、对象分类和/或回归信息、或报警或其任何组合。另外,系统或装置700或车辆790可向类似于该系统或装置700、车辆790或装置600或其任何组合的一个或多个其他系统或装置发送消息和/或指令,例如制动、转向、加速、取消动作、位置、图像识别、对象分类和/或回归信息、报警或其任何组合。
传感器705可以包括至少一个图像传感器,其被配置为提供图像数据,例如图像帧、视频、图片等。例如,在高级驾驶员辅助系统和/或自动车辆的情况下,传感器705可以包括相机、LiDAR传感器、毫米波雷达、红外相机和/或其他类型的传感器。
在一些示例实施例中,系统或装置700可以包括(但不限于)位置检测和确定系统,例如全球导航卫星(GNSS)系统及其子系统,例如全球定位系统(GPS)、GLONASS、北斗导航卫星系统(BDS)和伽利略导航卫星系统等。
备选地或附加地,在一些示例实施例中,系统或装置700可被训练成根据例如方法300来检测对象,例如人、动物、其他车辆、交通标志、道路危险等。例如,使用系统或装置700,车辆790可以检测图1中的对象102-105及其相对和/或绝对位置(例如,经度、纬度和高度/海拔和/或坐标)。
在高级驾驶员辅助系统(ADAS)中,当检测到诸如车辆/人的对象时,例如在系统或装置700、车辆790或装置600的显示器上,可以生成诸如警告声音、触觉反馈、识别对象的指示或其他指示之类的输出,以警告或通知驾驶员。在包括系统或装置700的自动车辆的情况下,例如自动驾驶系统(ADS)或ADAS,检测到的对象可以向控制电路发信号通知在车辆中采取附加动作(例如,启动制动、加速/减速、转向和/或一些其他动作)。此外,可以经由射频收发器715将指示传输给其他车辆、IoT设备或云、移动边缘计算(MEC)平台等。
为了说明而不是限制,根据一些示例实施例,CNN 710可以在至少一个CNN电路中实现。CNN电路可以表示被配置有基于邻值(例如考虑邻值)的激活功能的专用CNN电路。专用CNN电路可以提供深度CNN。备选地或附加地,CNN 710或CNN电路可以以其他方式实现,例如,使用至少一个存储器,该至少一个存储器包括程序代码,该程序代码在由至少一个处理器执行时提供CNN 710。在一些实施例中,CNN电路可以实现参考图2至图5描述的用于对象检测的一个或多个实施例。
在一些示例实施例中,系统或装置700可以在系统或装置700内具有训练阶段。训练阶段可以配置CNN 710学习以检测和/或分类一个或多个感兴趣的对象。参考前面的示例,CNN电路可以用包括诸如人、其他车辆、道路危险等对象的图像来训练。一旦训练完成,当图像包括对象时,训练的CNN 710可以检测该对象并提供对该对象的检测/分类的指示。在训练阶段,CNN 710可以学习其配置(例如,参数、权重等)。一旦训练完成,所配置的CNN可在测试或操作阶段中用于检测和/或分类未知输入图像的补丁或部分,并且从而确定该输入图像是包括感兴趣的对象还是仅仅包括背景(即,没有感兴趣的对象)。在一些其他示例实施例中,训练阶段可以在系统或装置700之外执行,例如在云系统中,其中系统和云通过有线和/或无线网络通信部件连接。在一些其它备选实施例中,训练阶段可以被分开在系统或装置700和云系统之间。
本文描述的技术可以通过各种部件来实现,使得实现用实施例描述的相应装置的一个或多个功能的装置不仅包括现有技术部件,也包括用于实现对应装置的一个或多个功能的部件,并且它可以包括用于每个单独功能的单独部件或者被配置为执行两个或多个功能的部件。例如,这些技术可以在硬件(例如,电路或处理器)、固件、软件或其组合中实现。对于固件或软件,可通过执行本文所述功能的模块(例如,过程、功能等)来实现。
本文中的一些示例实施例已在上文中参考方法和装置的框图和流程图说明进行了描述。应当理解,框图和流程图的每个框以及框图和流程图中的框的组合可以分别通过包括计算机程序指令的各种部件来实现。这些计算机程序指令可加载到通用计算机、专用计算机或其他可编程数据处理装置上以产生机器,使得在计算机或其它可编程数据处理装置上执行的指令创建用于实现在一个或多个流程图框中指定功能的部件。
尽管本说明书包含许多具体的实现细节,但这些细节不应被解释为对任何实现的范围或可能要求保护的内容的限制,而是对可能特定于特定实现的特定实施例的特征的描述。在单独实施例的上下文中在本说明书中描述的某些特征也可以在单个实施例中组合实现。相反,在单个实施例的上下文中描述的各种特征也可以在多个实施例中单独地或在任何合适的子组合中实现。此外,尽管上述特征可以被描述为以某些组合起作用并且即使最初也是这么要求的,但是在某些情况下可以从所要求的组合中切除来自所要求的组合的一个或多个特征,并且所要求的组合可以涉及子组合或子组合的变体。
对于本领域技术人员来说显而易见的是,随着技术的进步,可以以各种方式实现本公开的构思。给出上述实施例是为了描述而不是限制本公开,并且应当理解,可以在不脱离本公开的精神和范围的情况下进行修改和变化,正如本领域技术人员容易理解的那样。此类修改和变化被认为在本公开和所附权利要求的范围内。本公开的保护范围由所附权利要求所限定。

Claims (33)

1.一种用于对象检测的装置,包括:
至少一个处理器;以及
至少一个存储器,包括计算机程序代码;
所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置至少:
提取图像的一般特征,所述一般特征表征所述图像的一个或多个一般属性;
标识一个或多个感兴趣区域ROI;
基于所述一般特征和一个或多个候选尺度,生成关于所述图像中的一个或多个对象的尺度信息;
基于所述尺度信息生成所述图像的一个或多个特定于尺度的特征;以及
基于所标识的所述一个或多个ROI和所述一个或多个特定于尺度的特征来检测所述图像中的所述一个或多个对象。
2.根据权利要求1所述的装置,其中所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置:经由卷积神经网络CNN的一个或多个卷积块来提取所述图像的所述一般特征。
3.根据权利要求1所述的装置,其中所述一个或多个卷积块形成所述CNN的骨干网络。
4.根据权利要求1所述的装置,其中所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置标识所述一个或多个ROI,还包括:
经由区域建议网络RPN为所述一个或多个对象生成一个或多个区域建议,其中区域建议指示对象的ROI。
5.根据权利要求1所述的装置,其中所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置生成所述尺度信息,还包括:
从所述一个或多个候选尺度中确定针对所述一个或多个对象中的每个对象的尺度;以及
基于针对所述一个或多个对象确定的所述尺度来生成所述尺度信息。
6.根据权利要求5所述的装置,其中所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置基于针对所述一个或多个对象确定的所述尺度来生成所述尺度信息,还包括:
针对所述一个或多个候选尺度中的每个候选尺度,
确定用于膨胀卷积的与所述候选尺度相关联的膨胀率;
基于所确定的所述膨胀率和所确定的所述尺度来确定卷积核;以及
通过所述一般特征和所述卷积核的卷积来生成与所述候选尺度相关联的所述尺度信息。
7.根据权利要求6所述的装置,其中所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置基于所述尺度信息生成所述图像的所述一个或多个特定于尺度的特征,还包括:
针对所述一个或多个候选尺度中的每个候选尺度,
通过将与所述候选尺度相关联的尺度信息和所述一般特征或基于所述一般特征生成的另外特征相结合,来生成与所述候选尺度相关联的特征。
8.根据权利要求7所述的装置,其中所述至少一个存储器和所述计算机程序代码还被配置为与所述至少一个处理器一起进一步使所述装置:
基于按元素的乘法来将与所述候选尺度相关联的所述尺度信息和所述一般特征或所述另外特征相结合。
9.根据权利要求1所述的装置,其中所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置检测所述图像中的所述一个或多个对象,还包括:
基于所述一个或多个候选尺度来确定针对所标识的所述一个或多个ROI中的每一个ROI的尺度;
基于所述ROI的所确定的所述尺度从所述一个或多个特定于尺度的特征中提取特定于尺度的区域特征;以及
基于所述特定于尺度的区域特征来检测所述图像中的所述一个或多个对象。
10.根据权利要求9所述的装置,其中所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置基于所述特定于尺度的区域特征来检测所述图像中的所述一个或多个对象,还包括:
针对所述一个或多个候选尺度中的每个候选尺度,
基于所述特定于尺度的区域特征来检测具有所述候选尺度的一个或多个对象;以及
确定关于所检测的所述对象的信息,所述信息包括坐标、边界框和分类中的至少一项。
11.根据权利要求10所述的装置,其中所述至少一个存储器和所述计算机程序代码还被配置为与所述至少一个处理器一起使所述装置:
将所确定的关于所检测的所述对象的所述信息与所述一个或多个候选尺度相整合。
12.根据权利要求12所述的装置,其中所述至少一个存储器和所述计算机程序代码还被配置为与所述至少一个处理器一起使所述装置经由非极大值抑制NMS来整合所检测的关于所检测的所述对象的所述信息。
13.根据权利要求1-12中任一项所述的装置,其中所述至少一个存储器和所述计算机程序代码还被配置为与所述至少一个处理器一起使所述装置:
输出所述一个或多个对象的检测结果。
14.一种用于图像处理的装置,包括:
用于提取图像的一般特征的部件,所述一般特征表征所述图像的一个或多个一般属性;
用于标识一个或多个感兴趣区域ROI的部件;
用于基于所述一般特征和一个或多个候选尺度来生成关于所述图像中的一个或多个对象的尺度信息的部件;
用于基于所述尺度信息生成所述图像的一个或多个特定于尺度的特征的部件;以及
用于基于所标识的所述ROI和所述一个或多个特定于尺度的特征来检测所述图像中的所述一个或多个对象的部件。
15.根据权利要求14所述的装置,包括:
用于输出所述一个或多个对象的检测结果的部件。
16.根据权利要求14或15所述的装置,其中所述部件包括:
至少一个处理器;以及
至少一个存储器,包括计算机程序代码,所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起引起所述装置的执行。
17.一种图像处理的方法,包括:
提取图像的一般特征,所述一般特征表征所述图像的一个或多个一般属性;
标识一个或多个感兴趣区域ROI;
基于所述一般特征和一个或多个候选尺度,生成关于所述图像中的一个或多个对象的尺度信息;
基于所述尺度信息生成所述图像的一个或多个特定于尺度的特征;以及
基于所标识的所述一个或多个ROI和所述一个或多个特定于尺度的特征来检测所述图像中的所述一个或多个对象。
18.根据权利要求17所述的方法,其中提取所述图像的所述一般特征还包括:
经由卷积神经网络CNN的一个或多个卷积块来提取所述一般特征。
19.根据权利要求18所述的方法,其中所述一个或多个卷积块形成所述CNN的骨干网络。
20.根据权利要求17所述的方法,其中标识所述一个或多个ROI还包括:
经由区域建议网络RPN为所述一个或多个对象生成一个或多个区域建议,其中区域建议指示对象的ROI。
21.根据权利要求17所述的方法,其中生成所述尺度信息还包括:
从所述一个或多个候选尺度中确定针对所述一个或多个对象中的每个对象的尺度;以及
基于针对所述一个或多个对象确定的所述尺度来生成所述尺度信息。
22.根据权利要求21所述的方法,其中基于针对所述一个或多个对象确定的所述尺度来生成所述尺度信息还包括:
针对所述一个或多个候选尺度中的每个候选尺度,
确定用于膨胀卷积的与所述候选尺度相关联的膨胀率;
基于所确定的所述膨胀率和所确定的所述尺度来确定卷积核;以及
通过所述一般特征和所述卷积核的卷积来生成与所述候选尺度相关联的所述尺度信息。
23.根据权利要求22所述的方法,其中基于所述尺度信息生成所述图像的一个或多个特定于尺度的特征还包括:
针对所述一个或多个候选尺度中的每个候选尺度,
通过将与所述候选尺度相关联的尺度信息和所述一般特征或基于所述一般特征生成的另外特征相结合,来生成与所述候选尺度相关联的特征。
24.根据权利要求23所述的方法,其中将与所述候选尺度相关联的尺度信息和所述一般特征或所述另外特征相结合还包括:
基于按元素的乘法来将与所述候选尺度相关联的所述尺度信息和所述一般特征或所述另外特征相结合。
25.根据权利要求17所述的方法,其中检测所述图像中的所述一个或多个对象还包括:
基于所述一个或多个候选尺度来确定针对所标识的所述一个或多个ROI中的每一个ROI的尺度;
基于所述ROI的所确定的所述尺度从所述一个或多个特定于尺度的特征中提取特定于尺度的区域特征;以及
基于所述特定于尺度的区域特征来检测所述图像中的所述一个或多个对象。
26.根据权利要求25所述的方法,其中基于所述特定于尺度的区域特征来检测所述图像中的所述一个或多个对象还包括:
针对所述一个或多个候选尺度中的每个候选尺度,
基于所述特定于尺度的区域特征来检测具有所述候选尺度的一个或多个对象;以及
确定关于所检测的所述对象的信息,所述信息包括坐标、边界框和分类中的至少一项。
27.根据权利要求26所述的方法,还包括:
将所确定的关于所检测的所述对象的所述信息与所述一个或多个候选尺度相整合。
28.根据权利要求27所述的方法,其中整合所确定的所述信息还包括:
经由非极大值抑制NMS来整合所检测的关于所检测的所述对象的所述信息。
29.根据权利要求17-28中任一项所述的方法,还包括:
输出所述一个或多个对象的检测结果。
30.一种计算机可读介质,其上存储有计算机程序,所述计算机程序在由设备的至少一个处理器执行时使所述设备执行根据权利要求17-29中任一项所述的方法。
31.一种非瞬态计算机可读介质,包括程序指令,所述程序指令用于使装置至少执行以下项:
提取图像的一般特征,所述一般特征表征所述图像的一个或多个一般属性;
标识一个或多个感兴趣区域ROI;
基于所述一般特征和一个或多个候选尺度,生成关于所述图像中的一个或多个对象的尺度信息;
基于所述尺度信息生成所述图像的一个或多个特定于尺度的特征;以及
基于所标识的所述一个或多个ROI和所述一个或多个特定于尺度的特征来检测所述图像中的所述一个或多个对象。
32.一种计算设备,包括根据权利要求1至13中任一项所述的装置。
33.根据权利要求32所述的计算设备,其中所述计算设备包括以下中的一项:
相机设备,
安装有所述相机设备的车辆,
安装有所述相机设备的无人机,以及
具有所述相机设备的机器人。
CN201880098586.6A 2018-10-12 2018-10-12 用于对象检测的方法、装置和计算机可读介质 Pending CN112840347A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2018/110064 WO2020073316A1 (en) 2018-10-12 2018-10-12 Method, apparatus and computer readable media for object detection

Publications (1)

Publication Number Publication Date
CN112840347A true CN112840347A (zh) 2021-05-25

Family

ID=70163953

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880098586.6A Pending CN112840347A (zh) 2018-10-12 2018-10-12 用于对象检测的方法、装置和计算机可读介质

Country Status (4)

Country Link
US (1) US20210357640A1 (zh)
EP (1) EP3864569A4 (zh)
CN (1) CN112840347A (zh)
WO (1) WO2020073316A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114495042A (zh) * 2022-01-27 2022-05-13 北京百度网讯科技有限公司 目标检测方法和装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11494935B2 (en) * 2019-10-17 2022-11-08 Objectvideo Labs, Llc Scaled human video tracking
CN111950612B (zh) * 2020-07-30 2021-06-01 中国科学院大学 基于fpn的融合因子的弱小目标检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170124409A1 (en) * 2015-11-04 2017-05-04 Nec Laboratories America, Inc. Cascaded neural network with scale dependent pooling for object detection
CN107045345A (zh) * 2017-03-06 2017-08-15 吉林大学 基于互联网的履带车辆远程控制及自动驾驶系统
CN108229366A (zh) * 2017-12-28 2018-06-29 北京航空航天大学 基于雷达和图像数据融合的深度学习车载障碍物检测方法
CN108573244A (zh) * 2018-04-28 2018-09-25 济南浪潮高新科技投资发展有限公司 一种车辆检测方法、装置及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2246806B1 (en) * 2009-04-29 2014-04-02 Autoliv Development AB Vision method and system for automatically detecting objects in front of a motor vehicle
US9390315B1 (en) * 2015-06-25 2016-07-12 A9.Com, Inc. Image match for featureless objects

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170124409A1 (en) * 2015-11-04 2017-05-04 Nec Laboratories America, Inc. Cascaded neural network with scale dependent pooling for object detection
CN107045345A (zh) * 2017-03-06 2017-08-15 吉林大学 基于互联网的履带车辆远程控制及自动驾驶系统
CN108229366A (zh) * 2017-12-28 2018-06-29 北京航空航天大学 基于雷达和图像数据融合的深度学习车载障碍物检测方法
CN108573244A (zh) * 2018-04-28 2018-09-25 济南浪潮高新科技投资发展有限公司 一种车辆检测方法、装置及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114495042A (zh) * 2022-01-27 2022-05-13 北京百度网讯科技有限公司 目标检测方法和装置
CN114495042B (zh) * 2022-01-27 2023-08-29 北京百度网讯科技有限公司 目标检测方法和装置

Also Published As

Publication number Publication date
EP3864569A1 (en) 2021-08-18
EP3864569A4 (en) 2022-06-15
WO2020073316A1 (en) 2020-04-16
US20210357640A1 (en) 2021-11-18

Similar Documents

Publication Publication Date Title
US11928866B2 (en) Neural networks for object detection and characterization
US11270441B2 (en) Depth-aware object counting
US10872275B2 (en) Semantic segmentation based on a hierarchy of neural networks
US10452923B2 (en) Method and apparatus for integration of detected object identifiers and semantic scene graph networks for captured visual scene behavior estimation
CN110046640B (zh) 用于关联来自多个车辆的观察的分布式表示学习
Vaddi Efficient object detection model for real-time UAV applications
CN112840347A (zh) 用于对象检测的方法、装置和计算机可读介质
WO2018145308A1 (en) Filter reusing mechanism for constructing robust deep convolutional neural network
US20220396281A1 (en) Platform for perception system development for automated driving system
KR102053906B1 (ko) 지리공간정보를 이용하는 실시간 감독 학습 방법 및 시스템
CN111837163B (zh) 用于车辆车轮检测的系统和方法
US11620482B2 (en) Collaborative activation for deep learning field
KR20240019763A (ko) 이미지 및 메시지 정보를 이용한 오브젝트 검출
WO2020000431A1 (en) Method, apparatus and computer readable media for image processing
CN116630888A (zh) 无人机监测方法、无人机监测装置、电子设备及存储介质
US20240071122A1 (en) Object recognition method and time-of-flight object recognition circuitry
Stojanović et al. Parking Occupancy Prediction using Computer Vision with Location Awareness
BE1029668B1 (nl) Methoden, systemen, opslagmedia en apparatuur voor end-to-end scenario-extractie uit 3d input puntenwolken, scenario-indeling en het genereren van sequentiële rij-eigenschappen voor de identificatie van veiligheidskritieke scenario-categorieën
US20240062349A1 (en) Enhanced high dynamic range pipeline for three-dimensional image signal processing
US20220198295A1 (en) Computerized system and method for identifying and applying class specific features of a machine learning model in a communication network
Pinto et al. Analysis and Deployment of an OCR—SSD Deep Learning Technique for Real-Time Active Car Tracking and Positioning on a Quadrotor
Lin et al. Object Recognition with Layer Slicing of Point Cloud
CN118053062A (zh) 使用多个神经网络执行电子设备或车辆的感知任务的方法
Abou El-Seoud et al. A framework of Malicious Vehicles Recognition in Real Time Foggy Weather
Devi SMART WARNING SYSTEM USING EDGE COMPUTING

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination