CN113168705A

CN113168705A - 用于上下文嵌入且基于区域的对象检测的方法和装置

Info

Publication number: CN113168705A
Application number: CN201880099562.2A
Authority: CN
Inventors: 聂晶
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2018-10-12
Filing date: 2018-10-12
Publication date: 2021-07-23
Also published as: WO2020073310A1; EP3864621A4; JP7192109B2; US11908160B2; US20210383166A1; JP2022504774A; EP3864621A1

Abstract

一种使用卷积神经网络(CNN)检测图像中的对象的方法包括：基于图像生成多个参考特征图和包括多个最终特征图的对应特征金字塔；获取所提议的感兴趣区域(ROI)；生成至少第一上下文ROI，第一上下文ROI具有的面积大于所提议的ROI的面积；将所提议的ROI和第一上下文ROI分配给具有不同大小的第一最终特征图和第二最终特征图；通过执行ROI池化，从使用所提议的ROI的第一最终特征图提取第一组特征，并且从使用第一上下文ROI的第二最终特征图提取第二组特征；以及基于所提取的第一组特征和所提取的第二组特征来确定对象的位置和对象的类别中的至少一项。

Description

用于上下文嵌入且基于区域的对象检测的方法和装置

技术领域

各种示例实施例总体上涉及用于执行基于区域的对象检测的方法和装置。

背景技术

对象检测是计算机视觉领域的任务，其目的在于利用边界框来定位和识别对象实例。基于卷积神经网络(CNN)的对象检测可以用于视觉监控、高级驾驶员辅助系统(ADAS)和人机交互(HMI)领域。

当前的对象检测框架可以被分为两个主要流：基于区域的方法和无区域方法。基于区域的检测器的示例例如在以下各项中有讨论：Y.S.Cao、X.Niu和Y.Dou,“Region-basedconvolutional neural networks for object detection in very high resolutionremote sensing images”，In International Conference on Natural Computation,Fuzzy Systems and Knowledge Discovery,2016、R.Girshick,“Fast r-cnn”，ComputerScience,2015；以及S.Ren、K.He、R.Girshick和J.Sun，“Faster r-cnn:towards real-timeobject detection with region proposal networks”，International Conference onNeural Information Processing Systems,2015,第91-99页。通常，基于区域的方法将对象检测分为两个步骤。在第一步骤中，区域提议网络(RPN)生成高质量的提议。然后，在第二步骤中，通过逐区域子网进一步对提议进行分类和回归。通常，无区域方法通过在位置、尺度和纵横比上进行定期且密集的采样来检测对象。

发明内容

根据至少一些示例实施例，一种使用卷积神经网络(CNN)检测图像中的对象的方法包括：由CNN基于图像生成多个参考特征图；生成特征金字塔，该特征金字塔包括分别与多个参考特征图相对应的多个最终特征图；获取所提议的感兴趣区域(ROI)；基于所提议的ROI生成至少第一上下文ROI，使得第一上下文ROI的面积大于所提议的ROI的面积；将所提议的ROI分配给多个最终特征图中的第一最终特征图；将第一上下文ROI分配给多个最终特征图中的第二最终特征图，第一最终特征图的大小不同于第二最终特征图的大小；通过使用所提议的ROI对第一最终特征图执行ROI池化操作来从第一最终特征图提取第一组特征；通过使用第一上下文ROI对第二最终特征图执行ROI池化操作来从第二最终特征图提取第二组特征；以及基于所提取的第一组特征和所提取的第二组特征来确定对象相对于图像的位置和对象的类别中的至少一项。

特征金字塔可以根据特征金字塔网络(FPN)架构基于多个参考特征图而被生成。

第一上下文ROI的面积可以是所提议的ROI的面积的2²倍。

该方法还可以包括：将所提取的第一组特征和所提取的第二组特征级联，其中确定包括基于所提取的特征的级联集合来确定对象相对于图像的位置和对象的类别中的至少一项。

该方法还可以包括将所提取的特征的级联集合应用于挤压和激励块(SEB)，其中对象相对于图像的位置和对象的类别中的至少一项基于SEB的输出而被确定。

该方法还可以包括：基于所提议的ROI生成第二上下文ROI，使得第二上下文ROI的面积大于第一上下文ROI的面积；将第二上下文ROI分配给多个最终特征图中的第三最终特征图，第三最终特征图的大小不同于第一最终特征图的大小和第二最终特征图的大小；以及通过使用第二上下文ROI对第一最终特征图执行ROI池化来从第一最终特征图提取第三组特征，其中确定包括基于所提取的第一组特征、所提取的第二组特征和所提取的第三组特征来确定对象相对于图像的位置和对象的类别中的至少一项。

第一上下文ROI的面积可以是所提议的ROI的面积的2²倍，并且第二上下文ROI的面积可以是所提议的ROI的面积的4²倍。

该方法还可以包括：将所提取的第一组特征、所提取的第二组特征和所提取的第三组特征级联，其中确定包括基于所提取的特征的级联集合来确定对象相对于图像的位置和对象的类别中的至少一项。

该方法还可以包括：将所提取的特征的级联集合应用于挤压和激励块(SEB)，其中对象相对于图像的位置和对象的类别中的至少一项基于SEB的输出而被确定。

根据至少一些示例实施例，一种计算机可读介质包括用于使装置至少执行以下的程序指令：由卷积神经网络(CNN)基于包括对象的图像生成多个参考特征图；生成特征金字塔，该特征金字塔包括分别与多个参考特征图相对应的多个最终特征图；获取所提议的感兴趣区域(ROI)；基于所提议的ROI生成至少第一上下文ROI，使得第一上下文ROI的面积大于所提议的ROI的面积；将所提议的ROI分配给多个最终特征图中的第一最终特征图；将第一上下文ROI分配给多个最终特征图中的第二最终特征图，第一最终特征图的大小不同于第二最终特征图的大小；通过使用所提议的ROI对第一最终特征图执行ROI池化操作来从第一最终特征图提取第一组特征；通过使用第一上下文ROI对第二最终特征图执行ROI池化操作来从第二最终特征图提取第二组特征；以及基于所提取的第一组特征和所提取的第二组特征来确定对象相对于图像的位置和对象的类别中的至少一项。

第一上下文ROI的面积可以是所提议的ROI的面积的2²倍。

计算机可读介质还可以包括用于使装置至少执行以下的程序指令：将所提取的第一组特征和所提取的第二组特征级联，其中确定包括基于所提取的特征的级联集合来确定对象相对于图像的位置和对象的类别中的至少一项。

根据权利要求14所述的计算机可读介质还可以包括用于使装置至少执行以下的程序指令：将所提取的特征的级联集合应用于挤压和激励块(SEB)，其中对象相对于图像的位置和对象的类别中的至少一项基于SEB的输出而被确定。

根据至少一些示例实施例，一种装置包括：至少一个处理器；以及包括计算机程序代码的至少一个存储器，至少一个存储器和计算机程序代码被配置为与至少一个处理器一起使装置至少执行：由卷积神经网络(CNN)基于包括对象的图像生成多个参考特征图；生成特征金字塔，该特征金字塔包括分别与多个参考特征图相对应的多个最终特征图；获取所提议的感兴趣区域(ROI)；基于所提议的ROI生成至少第一上下文ROI，使得第一上下文ROI的面积大于所提议的ROI的面积；将所提议的ROI分配给多个最终特征图中的第一最终特征图；将第一上下文ROI分配给多个最终特征图中的第二最终特征图，第一最终特征图的大小不同于第二最终特征图的大小；通过使用所提议的ROI对第一最终特征图执行ROI池化操作来从第一最终特征图提取第一组特征；通过使用第一上下文ROI对第二最终特征图执行ROI池化操作来从第二最终特征图提取第二组特征；以及基于所提取的第一组特征和所提取的第二组特征来确定对象相对于图像的位置和对象的类别中的至少一项。

第一上下文ROI的面积可以是所提议的ROI的面积的两倍。

至少一个存储器和计算机程序代码还可以被配置为与至少一个处理器一起使装置至少执行：将所提取的第一组特征和所提取的第二组特征级联，其中确定包括基于所提取的特征的级联集合来确定对象相对于图像的位置和对象的类别中的至少一项。

至少一个存储器和计算机程序代码还可以被配置为与至少一个处理器一起使装置至少执行：将所提取的特征的级联集合应用于挤压和激发块(SEB)，其中对象相对于图像的位置和对象的类别中的至少一项基于SEB的输出而被确定。

附图说明

通过下面提供的详细描述和附图，至少一些示例实施例将变得能够被更加充分地理解，其中相似的元素由相似的附图标记表示，其仅以示例的方式给出，因此不限制示例实施例，并且在附图中：

图1是根据至少一些示例实施例的监控网络10的图。

图2是示出根据至少一些示例实施例的对象检测设备的示例结构的图。

图3示出了多尺度卷积神经网络(MS-CNN)检测器的对象检测子网络。

图4示出了根据至少一些示例实施例的骨干卷积神经网络(CNN)的一部分。

图5示出了根据至少一些示例实施例的特征金字塔网络(FPN)。

图6示出了根据至少一些示例实施例的上下文嵌入的、基于区域的对象检测网络600的一部分的图。

图7是示出根据至少一些示例实施例的用于执行上下文嵌入的、基于区域的对象检测方法的示例算法的流程图。

具体实施方式

现在将参考其中示出了一些示例实施例的附图来更全面地描述各种示例实施例。

本文中公开了详细的说明性实施例。然而，出于描述至少一些示例实施例的目的，本文中公开的特定的结构细节和功能细节仅是代表性的。然而，示例实施例可以以很多备选形式来体现，而不应当被解释为仅限于本文中阐述的实施例。

因此，尽管示例实施例能够具有各种修改和备选形式，但是其实施例在附图中通过示例示出，并且将在本文中进行详细描述。然而，应当理解，并非旨在将示例实施例限于所公开的特定形式，而是相反，示例实施例将覆盖落入示例实施例的范围内的所有修改、等同形式和备选形式。在整个附图的描述中，相似的附图标记指代相似的元素。如本文中使用的，术语“和/或”包括相关列出的项目中的一个或多个项目的任何组合和所有组合。

应当理解，当一个元件被称为“连接”或“耦合”到另一元件时，该元件可以直接连接或耦合到另一元件，或者可以存在中间元件。相反，当一个元件被称为“直接连接”或“直接耦合”到另一元件时，不存在中间元件。用于描述元件之间的关系的其他词语(例如，“在……之间”与“直接在……之间”、“相邻”与“直接相邻”等)应当以类似的方式来解释。

本文中使用的术语仅是出于描述特定实施例的目的，并且不旨在限制示例实施例。如本文中使用的，除非上下文另外明确指出，否则单数形式“一”、“一个”和“该”还旨在包括复数形式。还应当理解，当在本文中使用时，术语“包括”和/或“包含”规定了所陈述的特征、整数、步骤、操作、元素和/或组件的存在，但是不排除一个或多个其他特征、整数、步骤、操作、元素、组件和/或其组的存在或添加。

还应当注意，在一些备选实现中，所提到的功能/动作可以不按照图中提到的顺序发生。例如，取决于所涉及的功能/动作，连续示出的两个图实际上可以基本上同时执行，或者有时可以以相反的顺序执行。

本文中将示例性实施例讨论为在合适的计算环境中实现。尽管不是必需的，但是将在由一个或多个计算机处理器或CPU执行的计算机可执行指令(例如，程序代码)(诸如程序模块或功能处理)的一般上下文中描述示例性实施例。通常，程序模块或功能过程包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。

在以下描述中，除非另外指出，否则将参考由一个或多个处理器执行的操作的动作和符号表示(例如，以流程图的形式)来描述说明性实施例。因此，应当理解，有时被称为计算机执行的这样的动作和操作包括由处理器对代表结构化形式的数据的电信号的操纵。该操纵转换数据或将其保存在计算机的存储器系统中的位置处，从而以本领域技术人员熟知的方式重新配置或以其他方式改变计算机的操作。

I.概述

如下面更详细地讨论的，根据至少一些示例实施例的上下文嵌入的、基于区域的对象检测方法以基于区域的对象检测方法为基础，并且包括嵌入上下文分支以便获取丰富的上下文信息，从而改进对象检测。根据至少一些示例实施例，上下文信息对于检测小型、模糊和被遮挡的对象是有益的。此外，如下面还更详细地讨论的，根据至少一些示例实施例的上下文嵌入的基于区域的对象检测方法结合上下文分支采用挤压和激励块来减少噪声信息、或备选地避免噪声信息。根据至少一些示例实施例的上下文嵌入的基于区域的对象检测方法可以以包括例如视觉监控的、几种不同的方式来应用。

下面将在本公开的部分II中讨论根据至少一些示例实施例的可以利用上下文嵌入的基于区域的对象检测方法的监控网络和对象检测设备100的示例结构。然后，将在本公开的部分III中讨论使用特征金字塔和上下文嵌入来执行对象检测的示例。然后，将在本公开的部分IV中讨论根据至少一些示例实施例的用于执行上下文嵌入的基于区域的对象检测方法的卷积神经网络(CNN)架构和算法的示例。此外，将在本公开的部分V中讨论训练CNN架构的方法。

II.根据至少一些示例实施例的用于实现上下文嵌入的基于区域的对象检测方法的示例结构

例如，图1示出了根据至少一些示例实施例的监控网络10的图。如图1所示，监控网络10可以包括对象检测设备100和监控系统150。

监控系统150可以包括一个或多个摄像头，每个摄像头捕获表示摄像头位置附近的场景的图像数据。例如，如图1所示，监控系统150包括摄像头152，摄像头152捕获监控场景154。摄像头152可以通过例如连续地捕获监控场景154的多个时间相邻图像(即，捕获视频或运动图像数据)来捕获监控场景154。根据至少一些示例实施例，摄像头152将与所捕获的监控场景154相对应的图像数据120传输到对象检测设备100。现在将在下面参考图2更详细地讨论对象检测设备100的示例结构。

图2是示出根据至少一些示例实施例的对象检测设备100的示例结构的图。

参考图2，对象检测设备100可以包括例如数据总线259、传输单元252、接收单元254、存储器单元256和处理单元258。

传输单元252、接收单元254、存储器单元256和处理单元258可以使用数据总线259向彼此发送数据和/或从彼此接收数据。

传输单元252是包括用于经由与无线通信网络中的一个或多个其他网络元件的一个或多个有线连接和/或无线连接来传输信号(包括例如控制信号或数据信号)的硬件和任何必要软件的设备。

接收单元254是包括用于经由与无线通信网络中的一个或多个其他网络元件的一个或多个有线连接和/或无线连接来接收无线信号(包括例如控制信号或数据信号)的硬件和任何必要软件的设备。

存储器单元256可以是能够存储数据的任何设备，其包括磁存储、闪存存储等。此外，尽管未示出，但是存储器单元256还可以包括用于接收和/或安装可移动存储介质(例如，USB闪存驱动器、SD卡、嵌入式多媒体卡(eMMC)、CD、DVD和蓝光光盘中的一项或多项)的端口、扩展坞、驱动器(例如，光盘驱动器)或开口。

处理单元258可以是能够处理数据的任何设备，其包括例如处理器。

根据至少一个示例实施例，本文中例如参考图1至图7中的任何一个图而描述为由对象检测设备执行的任何操作可以由具有图2所示的对象检测设备100的结构的电子设备来执行。例如，根据至少一个示例实施例，对象检测设备100可以在软件和/或硬件方面被编程，以执行本文中描述为由对象检测设备执行的任何功能或所有功能。因此，对象检测设备100可以通过软件和/或硬件编程而被实现为专用计算机。

现在将在下面讨论在软件方面将对象检测设备100编程为执行本文中描述为由对象检测设备执行的任何功能或所有功能的示例。例如，存储器单元256可以存储程序，该程序包括与本文中描述为由对象检测设备执行的任何操作或所有操作相对应的可执行指令(例如，程序代码)。根据至少一个示例实施例，除了或替代被存储在存储器单元256中，可执行指令(例如，程序代码)可以存储在计算机可读介质中，计算机可读介质包括例如光盘、闪存驱动器、SD卡等，并且对象检测设备100可以包括用于读取存储在计算机可读介质上的数据的硬件。此外，处理单元258可以是处理器，该处理器被配置为执行本文中参考图1至图4描述为由对象检测设备执行的任何操作或所有操作，例如，通过读取和执行存储在存储器单元256和计算机可读存储介质中的至少一项中的可执行指令(例如，程序代码)，该计算机可读存储介质被加载到对象检测设备100中包括的硬件中以读取计算机可读介质。

现在将在下面讨论在硬件方面将对象检测设备100编程为执行本文中描述为由对象检测设备执行的任何功能或所有功能的示例。除了或替代如上所述存储在存储器单元或计算机可读介质中的与参考图1至图7描述为由对象检测设备执行的功能相对应的可执行指令(例如，程序代码)，处理单元258可以包括具有专用于执行本文中参考图1至图6描述为由对象检测设备执行的任何操作或所有操作的结构设计的电路(例如，集成电路)。例如，处理单元258中包括的上述电路可以是FPGA或ASIC，该FPGA或ASIC通过特定电路设计而被物理地编程为执行参考图1至图7描述为由对象检测设备执行的任何操作或所有操作。

根据至少一些示例实施例，对象检测设备100使用上下文嵌入来执行基于区域的对象检测，这导致相对于其他对象检测方法针对小型、模糊和被遮挡的对象改善了对象检测性能，同时还能够以多个尺度来检测对象。现在将在下面的部分III中详细讨论由一些其他对象检测方法使用的两个特征、特征金字塔和嵌入上下文。

III.特征金字塔和嵌入上下文

例如，一些对象检测方法利用特征金字塔，特征金字塔包括多个级别(即，多个尺度)的特征图。例如，基于区域的检测器、多尺度CNN(MS-CNN)使用不同空间分辨率的卷积层来生成不同尺度的区域提议。但是，MS-CNN检测器的不同层可以具有不一致的语义。MS-CNN的示例例如在Z.Cai、Q.Fan,R.S Feris和N.Vasconcelos“A unified multi-scale deepconvolutional neural network for fast object detection”，European Conferenceon Computer Vision.Springer,Cham,2016中有讨论。

此外，除了使用特征金字塔来生成区域提议，MS-CNN检测器还包括利用上下文嵌入的对象检测子网络。图3示出了MS-CNN检测器的对象检测子网络300。如图3所示，MS-CNN对象检测子网络300包括主干CNN层310、与conv4-3卷积层相对应的第一特征图320、以及与conv4-3-2x卷积层相对应的第二特征图330，第二特征图330是对第一特征图320执行解卷积运算而得到的，使得第二特征图330是第一特征图320的放大版本。对于图3所示的示例，第一特征图320的尺寸为H/8×W/8×512，并且第二特征图330的尺寸为H/4×W/4×512，其中H是最初输入到MS-CNN检测器的输入图像的高度，并且W是输入图像的宽度。

如图3所示，在第二特征图330内，存在第一区域334A(即，在第二特征图330内示出的最里面的立方体)和第二区域332A(即，在第二特征图330内示出为包围第一区域334A的立方体)。第二区域332A是第一区域334A的放大版本，并且是第一区域334A的1.5倍大。此外，也如图3所示，通过ROI池化，将第二特征图330的与第一区域334A相对应的特征减小为具有尺寸7×7×512的第一固定尺寸特征图334B。此外，通过ROI池化，将第二特征图330的与第二区域332A相对应的特征减小为同样具有尺寸7×7×512的第二固定尺寸特征图332B。如图3所示，MS-CNN对象检测子网络300将第一固定尺寸特征图334B和第二固定尺寸特征图332B级联，将结果特征图减小为具有尺寸5×5×512的第三固定尺寸特征图340B，并且将第三固定尺寸特征图340B的特征馈送到全连接层350，以确定类别概率370和边界框360。通过将放大的第二区域332A与第一区域334A结合使用，MS-CNN检测器尝试嵌入MS-CNN检测器中包括的特征金字塔的高级别的上下文信息。然而，由于放大的第二区域332A和第一区域334A二者都被映射到特征金字塔的相同级别(即，conv4-3-2x层)，因此可能会限制与放大的第二区域332A相对应的上下文信息的丰富度。

相反，如下面参考图4至图6所解释的，根据本文中公开的至少一些示例实施例的上下文嵌入的基于区域的对象检测方法包括嵌入上下文分支使得能够从特征金字塔的多个级别提取与所提议的感兴趣区域(RoI)相对应的特征和与一个或多个放大的RoI相对应的上下文信息。因此，相对于MS-CNN检测器的上下文信息，可以改善所提取的上下文信息的丰富度，并且因此，根据至少一些示例实施例的上下文嵌入的基于区域的对象检测方法的对象检测性能可以得到改善。

现在将在本公开的部分IV中讨论根据至少一些示例实施例的用于执行上下文嵌入的基于区域的对象检测方法的卷积神经网络(CNN)架构和算法的示例。

IV.根据至少一些示例实施例的用于实现上下文嵌入的基于区域的对象检测方法的示例CNN架构和算法

根据至少一些示例实施例，下面参考图4至图7讨论的CNN结构和算法可以通过以上参考图1和图2讨论的对象检测设备100来实现。因此，下面参考图4至图7讨论的任何操作或所有操作都可以由对象检测设备100(即，处理单元258)执行或控制。

根据至少一些示例实施例，用于实现上下文嵌入的基于区域的对象检测方法的CNN架构可以包括骨干CNN和特征金字塔网络(FPN)，骨干CNN和特征金字塔网络(FPN)可以一起用于实现区域提议网络(RPN)和上下文嵌入的基于区域的对象检测网络中的一项或两项。

例如，图4示出了根据至少一些示例实施例的骨干CNN 400的一部分。此外，可以用作骨干CNN 400的一种类型的CNN是残差网络CNN(即，ResNet)，其示例(包括ResNet36和ResNet50)在例如K He、X Zhang、S Ren和J Sun，“Deep Residual Learning for ImageRecognition”，Proc.IEEE Computer Vision and Pattern Recognition,2016中有讨论。为了简单起见，图4所示的骨干CNN 400的结构是ResNet36 CNN的结构。然而，根据至少一些示例实施例，骨干CNN 400由ResNet50 CNN实现。此外，骨干CNN 400不限于ResNet36CNN和ResNet50 CNN。根据至少一些示例实施例，骨干CNN 400可以由生成具有不同尺度的多个特征图的任何CNN来实现。

如图4所示，当骨干CNN 400由ResNet来实现时，骨干CNN 400可以包括分别输出多个参考特征图的多个卷积层。例如，图4所示的骨干CNN 400包括第一卷积层conv1_x(未示出)、输出第二参考特征图C₂的第二卷积层conv2_x、输出第三参考特征图C₃的第三卷积层conv3_x、输出第四参考特征图C₄的第四卷积层conv4_x、以及输出第五参考特征图C₅的第五卷积层conv5_x。如将在下面参考图5更详细地讨论的，参考特征图C₂、C₃、C₄和C₅可以形成FPN的基础。

图5示出了根据至少一些示例实施例的FPN 500。FPN 500可以基于骨干CNN 400的参考特征图(例如，第二参考特征图至第五参考特征图C₂-C₅)来构造。例如，FPN的示例在以下各项中有讨论：T.Lin、P.Dollar、R.Girshick、K.He、B.Hariharan和S.Belongie，“Feature Pyramid Networks for Object Detection”，Proc.IEEE Computer Vision andPattern Recognition,2017；T.Kong、F.Sun、A.Yao、H.Liu、M.Lu和Y.Chen，“Ron:Reverseconnection with objectness prior networks for object detection”，Proc.IEEEComputer Vision and Pattern Recognition,2017；以及Lin T Y、Goyal P、Girshick R等人，“Focal Loss for Dense Object Detection”，Proc.IEEE Computer Vision andPattern Recognition。与以上参考图4讨论的MS-CNN检测器的多尺度特征图相反，FPN 500采用自上而下的架构来创建特征金字塔，该特征金字塔包括所有尺度的高级语义特征图。例如，FPN 500创建分别与参考特征图C_k0+2、C_k0+1、C_k0、C_k0-1、C_k0-2相对应的最终特征图P_k0+2、P_k0+1、P_k0、P_k0-1、P_k0-2，其中k₀是常数，k₀的值可以例如根据对象检测设备100的设计者和/或用户的偏好来设置。常数k₀将在下面参考等式1和图6以及图7进行更详细地讨论。此外，如下面参考图6和图7更详细地讨论的，由FPN 500生成的最终特征图P可以用于区域提议和上下文嵌入的基于区域的对象检测中的一项或两项。

图6示出了根据至少一些示例实施例的上下文嵌入的基于区域的对象检测网络600的一部分的图。图7是示出根据至少一些示例实施例的用于执行上下文嵌入的基于区域的对象检测方法的示例算法的流程图。现在将参考图4至图7关于如下的示例场景来讨论根据至少一些示例实施例的用于执行上下文嵌入的基于区域的对象检测方法的示例算法，在该示例场景中，由对象检测设备100执行算法，并且对象检测设备100实现(即，体现)骨干CNN 400、FPN 500和对象检测网络600。因此，参考图4至图7描述为由骨干CNN 400、FPN 500或对象检测网络600或其元素执行的操作可以由对象检测设备100执行(例如，由对象检测设备100的处理单元258执行与骨干CNN 400、FPN 500和对象检测网络600的操作相对应的计算机可读程序代码)。

此外，出于简化和易于描述的目的，将参考检测输入图像中包括的单个对象来说明图7。然而，根据至少一些示例实施例的用于执行上下文嵌入的基于区域的对象检测方法的算法不仅限于接收仅包括一个对象的图像，也不限于仅检测一个对象。输入图像可以包括多个对象，并且该算法能够同时检测具有不同类别、位置和尺度的多个对象。

参考图7，在步骤S710中，对象检测设备100接收包括对象的输入图像。根据本发明构思的至少一个示例实施例，对象检测设备100可以接收输入图像作为从监控系统150接收的图像数据120的一部分，如以上参考图1所讨论的。在接收到输入图像之后，对象检测设备100可以将所接收的图像作为输入应用于骨干CNN 400。在步骤S710之后，对象检测设备100进行到步骤S720。

在步骤S720中，对象检测设备100可以生成参考特征图。例如，对象检测设备100可以使用骨干CNN 400基于在步骤S710中接收的输入图像来生成多个参考特征图。

例如，在步骤S720中，骨干CNN 400的第二卷积层至第五卷积层{conv2_x，conv3_x，conv4_x，conv5_x}可以分别生成第二参考特征图至第五参考特征图{C₂，C₃，C₄，C₅}。参考特征图{C₂，C₃，C₄，C₅}可以各自具有不同大小/尺度，这些不同大小/尺度从第二参考特征图C₂到第五参考特征图C₅减小。在步骤S720之后，对象检测设备100进行到步骤S730。

在步骤S730中，对象检测设备100可以使用FPN生成包括最终特征图的特征金字塔。例如，对象检测设备100可以生成包括分别与在步骤S720中生成的多个参考特征图相对应的多个最终特征图的特征金字塔。

例如，如以上参考图5所示的FPN 500所讨论的，在步骤S720中，FPN 500可以生成第一最终特征图至第五最终特征图以及可选地附加的第六最终特征图{P₂，P₃，P₄，P₅，P₆}。第一最终特征图至第五最终特征图{P₂，P₃，P₄，P₅}可以分别对应于在步骤S720中生成的第一参考特征图至第五参考特征图{C₂，C₃，C₄，C₅}。第六最终特征图P₆可以由FPN 500基于第五最终特征图P₅来生成，例如，通过执行第五最终特征图P₅的步幅2子采样，这例如在T.Lin、P.Dollar、R.Girshick、K.He、B.Hariharan和S.Belongie，“Feature Pyramid Networksfor Object Detection”，Proc.IEEE Computer Vision and Pattern Recognition,2017中有讨论。最终特征图{P₂，P₃，P₄，P₅，P₆}可以各自具有不同大小/尺度，这些不同大小/尺度从第二最终特征图P₂到第六最终特征图P₆逐渐减小。在步骤S730之后，对象检测设备100进行到步骤S740。

在步骤S740中，对象检测设备100获取所提议的感兴趣区域(RoI或ROI)，并且生成一个或多个上下文RoI。

例如，根据至少一些示例实施例，对象检测设备100可以从外部源获取所提议的RoI。备选地，对象检测设备100可以通过基于FPN 500实现区域提议网络(RPN)并且使用基于FPN的RPN生成所提议的RoI来获取所提议的RoI。

例如，根据至少一些示例实施例，如图5所示由FPN 500生成的最终特征图P_k0+2、P_k0+1、P_k0、P_k0-1、P_k0-2可以用于实现基于FPN的RPN。本领域普通技术人员将认识到，实现基于FPN的RPN的示例方法在T.Lin、P.Dollar、R.Girshick,、K.He、B.Hariharan和S.Belongie，“Feature Pyramid Networks for Object Detection”，Proc.IEEE Computer Vision andPattern Recognition,2017中有讨论。例如，当k₀＝4时，FPN 500生成第二最终特征图到第六最终特征图P₂、P₃、P₄、P₅和P₆。第六最终特征图P₆可以以与以上参考步骤S730所讨论的相同的方式基于第五最终特征图P₅被生成。此外，为了生成区域提议，基于FPN的RPN可以针对第二最终特征图至第六最终特征图P₂-P₆中的每个最终特征图使用三个不同纵横比{1:2，1:1，2:1}的锚点，使得在5个不同最终特征图{P₂，P₃，P₄，P₅，P₆}上使用的锚点分别具有5个不同面积{32²，64²，128²，256²，512²}。

因此，在步骤S740中，对象检测设备100可以通过接收所提议的RoI和生成所提议的RoI中的任一项来获取所提议的RoI。

此外，在步骤S740中，基于所获取的所提议的RoI，对象检测设备100可以通过放大所提议的RoI来获取一个或多个上下文RoI。例如，图6示出了输入图像605、所提议的RoI610、以及第一上下文RoI 615A和第二上下文RoI 615B。根据本发明构思的至少一些示例实施例，对象检测网络600通过将所提议的RoI 610的面积(即，w×h)放大因子s1来生成第一上下文RoI 615A，并且对象检测网络600通过将所提议的RoI 610的面积(即，w×h)放大因子s2来生成第二上下文RoI 615B，其中“w”是输入图像605的宽度，“h”是输入图像605的高度，s1和s2二者都是大于1的正数。在图6所示的示例中，s1＝2²和s2＝4²。此外，根据至少一些示例实施例，对象检测网络600可以以上下文RoI与所提议的RoI同心的方式来确定通过放大所提议的RoI而生成的上下文RoI的坐标。

此外，出于简单和易于描述的目的，将步骤S740描述为获取“所提议的RoI”。然而，根据至少一些示例实施例的用于执行上下文嵌入的基于区域的对象检测方法的算法不限于获取仅一个RoI或一次仅一个RoI。例如，在步骤S740中，对象检测设备100能够同时获取具有不同位置、尺度和纵横比的多个RoI。

此外，尽管以上参考示例场景描述了步骤S740，在该示例场景中，根据至少一些示例实施例，生成两个上下文RoI(即，所提议的RoI 610的两个放大版本)，但是可以通过放大所提议的RoI 610来生成任何数目的上下文RoI(例如，1个、3个、5个等)。在步骤S740之后，对象检测设备100进行到步骤S750。

在步骤S750中，对象检测设备100将所提议的RoI和一个或多个上下文RoI分配给最终特征图。例如，在步骤S750中，对象检测设备可以将所提议的RoI 610、第一上下文RoI615A和第二上下文RoI 615B分配给例如在步骤S730中生成的最终特征图{P₂，P₃，P₄，P₅，P₆}中的最终特征图。

例如，为了执行以上参考分配，对象检测设备100可以使用以下等式：

在等式1中，“w”表示宽度，“h”表示高度，并且k₀是常数，k₀的值可以例如根据对象检测设备100的设计者和/或用户的偏好来设置。有关设置k₀的附加详细信息在文档[6]中有讨论。在图6所示的示例场景中，k₀＝4。这表示k₀对应于224²的面积(即，w×h＝224²)。等式1例如在T.Lin、P.Dollar、R.Girshick、K.He、B.Hariharan和S.Belongie，“FeaturePyramid Networks for Object Detection”，Proc.IEEE Computer Vision and PatternRecognition,2017中有讨论。

对于所提议的ROI 610、第一上下文ROI 615A和第二上下文ROI 615B中的每项，对象检测设备100可以将RoI的宽度“w”和高度“h”应用于上面的等式1以获取输出k，并且将RoI分配给第k最终特征图P_k。例如，在图6所示的示例场景中，当将所提议的RoI 610的宽度w和高度h应用于等式1时，k＝3。因此，对象检测网络600将所提议的RoI 610分配给第三最终特征图P₃，如图6所示。类似地，当将第一上下文RoI 615A和第二上下文RoI 615B的宽度w和高度h分别应用于等式1时，k＝4和5。因此，对象检测网络600将第一上下文RoI 615A和第二上下文RoI 615B分别分配给第四最终特征图P₄和第五最终特征图P₅，如图6所示。在步骤S750之后，对象检测设备100进行到步骤S760。

在步骤S760中，对象检测设备100使用RoI池化从被分配有RoI之一的每个最终特征图提取一组特征。例如，在步骤S760中，由对象检测设备100体现的对象检测网络600可以关于被分配有所提议的RoI 610和所提议的RoI 610的最终特征图执行RoI池化。具体地，关于所提议的RoI 610，对象检测网络600对被分配有所提议的RoI 610的最终特征图(即，第三最终特征图P₃)执行RoI池化，使得第三最终特征图P₃的落入所提议的RoI 610内的特征通过RoI池化操作被池化以生成固定大小原始特征图620。因此，固定大小原始特征图620是基于最初提议的RoI(所提议的RoI 610)从第三最终特征图P₃提取的一组特征。

此外，在步骤S760中，对象检测网络600通过对第一上下文RoI 615A和第二上下文RoI 615B以及被分配有第一上下文RoI 615A和第二上下文RoI 615B的最终特征图执行RoI池化来形成上下文分支630。具体地，关于第一上下文RoI 615A和第二上下文RoI 615B，对象检测网络600对分别被分配有第一上下文RoI 615A和第二上下文RoI 615B的最终特征图(即，第4最终特征图P₄和第5最终特征图P₅)执行RoI池化，使得第四最终特征图P₄的落入第一上下文RoI 615A内的特征通过RoI池化操作被池化以生成第一固定大小上下文特征图632，并且第五最终特征图P₅的落入第二上下文RoI 615B内的特征通过RoI池化操作被池化以生成第二固定大小上下文特征图634。因此，第一固定大小上下文特征图632是基于第一上下文RoI 615A从第四最终特征图P₄提取的一组特征，并且第二固定大小上下文特征图634是基于第二上下文RoI 615B从第五最终特征图P₅提取的一组特征。

根据至少一些示例实施例，以上参考步骤S750讨论的RoI池化操作可以通过使用在文档R.Girshick，“Fast r-cnn”，Computer Science,2015中讨论的RoI池化层的操作来执行。备选地，根据至少一些示例实施例，以上参考步骤S750讨论的RoI池化操作可以通过使用RoIAlign层的操作来执行。RoIAlign层的示例例如在K.He、G.Gkioxari、P.Dollar和R.Girshick，“Mask R-CNN”，In ICCV 2018中有讨论。在步骤S760之后，对象检测设备100进行到步骤S770。

在步骤S770中，对象检测设备100确定图像中包括的对象的类别和/或位置。例如，在步骤S770中，对象检测网络600可以通过将第一固定大小上下文特征图632和第二固定大小上下文特征图634级联到固定大小原始特征图620来执行上下文嵌入，从而形成级联特征图625，如图6所示。

此外，与以上关于图3讨论的MS-CNN对象检测子网络300相比，对象检测网络600可以获取更丰富的上下文特征和改进的对象检测结果，因为级联特征图625中包括的特征并不是全部从相同卷积层或特征金字塔{P₂，P₃，P₄，P₅，P₆}的相同层提取的。

还如图6所示，对象检测网络600包括挤压和激励(SE)块640，并且可以将级联特征图625应用于SE块640，以便例如通过重新校准逐通道特征响应来减少噪声信息、或备选地消除噪声信息。SE块640包含两个步骤：挤压和激励。第一步骤是将全局空间信息压缩到信道描述符中。这是通过使用全局平均池化生成逐通道统计信息来实现的。第二步骤是自适应重新校准。例如，SE块640可以包括全连接层fc1，全连接层fc1后是整流线性单元(ReLU)，该整流线性单元(ReLU)的输出具有尺寸1×1×C'。此外，SE块640可以包括另一全连接层fc2，该另一全连接层fc2后是sigmoid，sigmoid的输出具有尺寸1×1×C(其中通常C'＝C/16)，并且sigmoid用于重新缩放级联特征图625的初始特征，例如，经由逐通道乘法，如图6所示。用于构建和使用SE块的示例结构和方法例如在Hu、Jie、Li Shen和Gang Sun,“Squeeze-and-excitation networks”,arXiv:1709.01507，2017中有描述。

然后，通过使用SE块640的输出来确定输入图像605中包括的对象的类别和边界框(即，位置)，以生成类别概率值660和边界框值670。例如，SE块640的输出可以被应用于另一全连接层650，以便生成类别概率值(或类别标签)660和边界框值670。

对象检测利用边界框来精确地定位对象所在的位置并且为对象分配正确的类别标签。当在步骤S710中将视频的图像块或视频帧用作输入图像时，类别概率值660和边界框值670是以上参考图4至图7讨论的上下文嵌入的基于区域的对象检测方法的对象检测结果。

以上参考图4至图7讨论的上下文嵌入的基于区域的对象检测方法的至少一些示例实施例可以应用于多种功能，包括自动驾驶系统和视频监控。例如，参考图1，当监控网络10的摄像头152被放置在地铁站的入口处时，实现以上参考图4至图7讨论的上下文嵌入的基于区域的对象检测方法的对象检测设备100可以帮助计算通过地铁的行人流量。另外，当监控网络10的摄像头152被放置在市场中时，根据至少一些示例实施例的实现上下文嵌入的基于区域的对象检测方法的对象检测设备100可以帮助计算市场中的客户数目，从而使得市场的所有者或操作者可以例如出于安全原因而控制客户数目。

此外，根据至少一些示例实施例的上下文嵌入的基于区域的对象检测方法包括：放大原始RoI(例如，所提议的RoI 610)的大小，以便使用放大的RoI(例如，第一上下文RoI615A和第二上下文RoI 615B)获取更多上下文信息。此外，将放大的RoI映射到与原始RoI不同的特征图，从而提高了经由放大的RoI而获取的上下文信息的表示能力。因此，所获取的上下文信息对于检测输入图像中的小型和被遮挡的对象的任务是有益的。

现在将在下面的部分V中讨论训练CNN架构以执行以上参考图4至图7讨论的上下文嵌入的基于区域的对象检测方法的示例方法。

V.示例训练方法

用于执行以上参考图4至图7讨论的上下文嵌入的基于区域的对象检测方法的CNN架构例如可以根据已知的CNN训练技术来训练，以设置在各个卷积层中使用的滤波器的各种值(例如，图4所示的骨干CNN 400的第一卷积层至第五卷积层conv1_x-conv5_x的滤波器)。

为了开始训练阶段，设计适当的损失函数。对于对象检测的任务，可以使用多任务损失函数。例如，多任务损失函数的示例在Lin T Y、Goyal P和Girshick R等人，“FocalLoss for Dense Object Detection”，Proc.IEEE Computer Vision and PatternRecognition,2017中有讨论。此外，根据至少一些示例实施例，可以通过使用上下文中的公共对象(COCO)训练和val-minus-minival数据集作为训练数据来执行训练。利用反向传播技术，可以迭代地更新上述滤波器的参数，直到通过随机梯度下降(SGD)算法收敛。

因此，描述了示例实施例，显而易见的是，可以以很多方式改变实施例。这样的变型不应当被认为偏离示例实施例，并且所有这样的修改旨在被包括在示例实施例的范围内。

Claims

1.一种使用卷积神经网络(CNN)检测图像中的对象的方法，所述方法包括：

由所述CNN基于所述图像生成多个参考特征图；

生成特征金字塔，所述特征金字塔包括分别与所述多个参考特征图相对应的多个最终特征图；

获取所提议的感兴趣区域(ROI)；

基于所提议的ROI生成至少第一上下文ROI，使得所述第一上下文ROI的面积大于所提议的ROI的面积；

将所提议的ROI分配给所述多个最终特征图中的第一最终特征图；

将所述第一上下文ROI分配给所述多个最终特征图中的第二最终特征图，所述第一最终特征图的大小不同于所述第二最终特征图的大小；

通过使用所提议的ROI对所述第一最终特征图执行ROI池化操作，来从所述第一最终特征图提取第一组特征；

通过使用所述第一上下文ROI对所述第二最终特征图执行ROI池化操作，来从所述第二最终特征图提取第二组特征；以及

基于所提取的第一组特征和所提取的第二组特征，来确定所述对象相对于所述图像的位置和所述对象的类别中的至少一项。

2.根据权利要求1所述的方法，其中所述特征金字塔根据特征金字塔网络(FPN)架构基于所述多个参考特征图而被生成。

3.根据权利要求1所述的方法，其中所述第一上下文ROI的面积是所提议的ROI的面积的2²倍。

4.根据权利要求1所述的方法，还包括：

将所提取的第一组特征和所提取的第二组特征级联，

其中所述确定包括：基于所提取的特征的级联集合来确定所述对象相对于所述图像的位置和所述对象的类别中的至少一项。

5.根据权利要求4所述的方法，还包括：

将所提取的特征的级联集合应用于挤压和激励块(SEB)，

其中所述对象相对于所述图像的位置和所述对象的类别中的所述至少一项基于所述SEB的输出而被确定。

6.根据权利要求1所述的方法，还包括：

基于所提议的ROI生成第二上下文ROI，使得所述第二上下文ROI的面积大于所述第一上下文ROI的面积；

将所述第二上下文ROI分配给所述多个最终特征图中的第三最终特征图，所述第三最终特征图的大小不同于所述第一最终特征图的所述大小和所述第二最终特征图的所述大小；以及

通过使用所述第二上下文ROI对所述第一最终特征图执行ROI池化，来从所述第一最终特征图提取第三组特征，

其中所述确定包括：基于所提取的第一组特征、所提取的第二组特征和所提取的第三组特征，来确定所述对象相对于所述图像的所述位置和所述对象的所述类别中的至少一项。

7.根据权利要求6所述的方法，其中所述特征金字塔根据特征金字塔网络(FPN)架构基于所述多个参考特征图而被生成。

8.根据权利要求6所述的方法，其中所述第一上下文ROI的面积是所提议的ROI的面积的2²倍，并且所述第二上下文ROI的面积是所提议的ROI的面积的4²倍。

9.根据权利要求6所述的方法，还包括：

将所提取的第一组特征、所提取的第二组特征和所提取的第三组特征级联，

10.根据权利要求9所述的方法，还包括：

将所提取的特征的级联集合应用于挤压和激励块(SEB)，

11.一种计算机可读介质，包括程序指令，所述程序指令用于使装置至少执行以下：

由卷积神经网络(CNN)基于图像生成多个参考特征图，所述图像包括对象；

获取所提议的感兴趣区域(ROI)；

12.根据权利要求11所述的计算机可读介质，其中所述特征金字塔根据特征金字塔网络(FPN)架构基于所述多个参考特征图而被生成。

13.根据权利要求11所述的计算机可读介质，其中所述第一上下文ROI的面积是所提议的ROI的面积的2²倍。

14.根据权利要求11所述的计算机可读介质，还包括用于使装置至少执行以下的程序指令：

将所提取的第一组特征和所提取的第二组特征级联，

15.根据权利要求14所述的计算机可读介质，还包括用于使装置至少执行以下的程序指令：

将所提取的特征的级联集合应用于挤压和激励块(SEB)，

16.一种装置，包括：

至少一个处理器；以及

至少一个存储器，包括计算机程序代码，

所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置至少执行：

获取所提议的感兴趣区域(ROI)；

17.根据权利要求16所述的装置，其中所述特征金字塔根据特征金字塔网络(FPN)架构基于所述多个参考特征图而被生成。

18.根据权利要求16所述的装置，其中所述第一上下文ROI的面积是所提议的ROI的面积的两倍。

19.根据权利要求16所述的装置，其中所述至少一个存储器和所述计算机程序代码还被配置为与所述至少一个处理器一起使所述装置至少执行：

将所提取的第一组特征和所提取的第二组特征级联，

20.根据权利要求19所述的装置，其中所述至少一个存储器和所述计算机程序代码还被配置为与所述至少一个处理器一起使所述装置至少执行：

将所提取的特征的级联集合应用于挤压和激励块(SEB)，