CN112154476A

CN112154476A - 用于快速对象检测的系统和方法

Info

Publication number: CN112154476A
Application number: CN201980033895.XA
Authority: CN
Inventors: 章荷铭; 王小龙; 朱静雯
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2018-05-22
Filing date: 2019-05-22
Publication date: 2020-12-29
Also published as: EP3756160A4; US20190362132A1; WO2019225964A1; US11113507B2; EP3756160A1

Abstract

一个实施例提供了一种方法，其包括：基于在电子设备处对输入图像中的兴趣区域(RoI)的处理来识别输入图像中的对象的显著部分。该方法还包括：基于显著部分以及显著部分与对象之间的关系来确定输入图像中的对象的估计全外观。基于对象的估计全外观来操作电子设备。

Description

用于快速对象检测的系统和方法

技术领域

一个或多个实施例一般地涉及对象检测，并且具体地涉及用于快速对象检测的系统和方法。

背景技术

对象检测通常是指检测数字图像数据中的一个或多个对象的过程。由于移动电子设备的资源限制(例如，内存和计算限制)，移动电子设备上的实时对象检测是具有挑战性的。

发明内容

一个实施例提供了一种方法，其包括：基于在电子设备处对输入图像中的兴趣区域(RoI)的处理，来识别输入图像中的对象的显著部分。该方法还包括基于显著部分和显著部分与对象之间的关系来确定输入图像中的对象的估计全外观。基于对象的估计全外观来操作电子设备。

参考以下描述、所附的权利要求书和附图，将会理解一个或多个实施例的这些和其他特征、方面和优点。

附图说明

图1示出在一个或多个实施例中用于实现对象检测系统的示例性计算体系结构。

图2详细示出一个或多个实施例中的示例性对象检测系统。

图3示出一个或多个实施例中的示例性训练阶段。

图4示出一个或多个实施例中的示例性对象检测过程。

图5示出一个或多个实施例中的示例性训练的多标签分类网络。

图6示出在一个或多个实施例中经由常规级联卷积神经网络系统执行的对象检测和经由对象检测系统执行的对象检测之间的比较。

图7示出一个或多个实施例中的示例性建议生成过程。

图8示出在一个或多个实施例中的对象检测系统的示例性应用。

图9示出在一个或多个实施例中的对象检测系统的另一示例性应用。

图10是在一个或多个实施例中用于执行快速对象检测的示例性过程的流程图。

图11是在一个或多个实施例中用于执行快速人脸检测的示例性过程的流程图。

图12是示出包括用于实现所公开的实施例的计算机系统的信息处理系统的高级框图。

具体实施方式

以下描述是出于说明一个或一个实施例的一般原理的目的而做出的，而不意味着限制本文所要求保护的发明构思。此外，本文的特定特征可以以各种可能组合和置换中的每一者与其他特征组合使用。除非在本文中另有具体定义，否则所有术语将被赋予其最广泛的可能解释，包括说明书所暗示的含义以及本领域技术人员所理解的含义和/或在词典、论文等中所定义的含义。

一个或多个实施例一般地涉及对象检测，并且具体地涉及用于快速对象检测的系统和方法。一个实施例提供了一种方法，其包括：基于在电子设备处对输入图像中的兴趣区域(RoI)的处理来识别输入图像中的对象的显著部分。该方法还包括：基于显著部分和显著部分与对象之间的关系来确定输入图像中的对象的估计全外观。基于对象的估计全外观来操作电子设备。

在本说明书中，术语“输入图像”通常指的是数字二维(2D)图像，而术语“输入切片”通常指的是从2D图像分割出的、2D图像的一部分。2D图像可以是经由图像传感器(例如，移动电子设备的相机)捕获的图像、屏幕快照或屏幕截图(例如，移动电子设备上的视频流的屏幕截图)、下载并存储在移动设备上的图像等。可以使用一个或多个滑动窗或其他方法从2D图像中分割输入切片。

在本说明书中，术语“兴趣区域”通常是指包含一个或多个对象(例如，汽车、面部等)的输入图像的区域。

在本说明书中，术语“面部检测”通常指用于检测存在于输入图像中的一个或多个面部的对象检测任务。

级联卷积神经网络(CNN)是一种常规的用于对象检测的架构。级联CNN由多个级组成，其中每个级是基于CNN的二进制分类器，其将输入切片分类为RoI(例如，输入切片包含面部)或非RoI(即，输入切片不包含面部)。从级联CNN的第一级到最后一级，在每个级处使用的CNN增长得更深，并且变得更有区别地处理错误的肯定。例如，在第一级，扫描输入图像以获得候选ROI(例如，候选面部窗)。由于包含在输入图像中的对象可能具有不同的对象尺寸(即，比例)，所以第一级必须通过建议可能包含不同对象尺寸的对象的候选ROI来解决这种多比例问题。

这种多比例问题的一种常规解决方法是：在第一级使用小尺寸CNN。然而，由于其有限的容量，小尺寸CNN只能在有限范围的对象尺寸上工作。这样，只能通过小尺寸CNN来检测具有与输入切片的尺寸相似的对象尺寸的对象。为了使用小尺寸CNN来检测具有不同对象尺寸的对象，必须将输入图像重调尺寸(即，重新缩放)到不同的比例，从而产生具有多个金字塔层的密集图像金字塔。当扫描密集图像金字塔的每个金字塔层时，从每个金字塔层分割出固定大小的输入切片，从而导致总运行时间的减慢(即，低速)。

用于解决多比例问题的另一种常规方法是：利用大尺寸CNN或多CNN的集合，其对于多比例变化是鲁棒的。尽管这消除了对输入图像重调尺寸/重新缩放输入图像的需要，但是由于所利用的CNN的复杂特性，这种方法仍然导致较慢的总运行时间。

级联CNN将候选ROI从第一级转发到下一级，以减少错误肯定的数目(即，去除实际上不是ROI的候选ROI)。在剩余的输入切片到达最后一级之前，通过在级联CNN的较早级使用的、较浅的CNN来消除大多数输入切片。

由于移动电子设备的资源限制(例如，内存和计算限制)，在移动电子设备上使用级联CNN或其他常规方法的实时对象检测是具有挑战性的(例如，慢、低精度等)。

具有不同对象尺寸的对象具有不同的特征(即，线索)。例如，较小对象尺寸的对象可能仅具有全局特征(即，局部特征可能缺失)，而较大对象尺寸的对象可能同时具有全局特征和局部特征。上面描述的两种常规方法整体上检测对象，从而仅集中于对象的全局特征。

一个实施例提供了一种用于快速对象检测的系统和方法，其提高了对象检测的效率。一个实施例同时关注对象的全局和局部特征。为了捕获对象的局部特征，一个实施例提取对象的显著部分。例如，对于面部检测，面部的显著部分包括但不限于眼睛、鼻子、全嘴、左嘴角、右嘴角和耳朵等。在一个实施例中，训练基于深度学习的方法，例如多标签分类网络，以学习所提取的显著部分的特征(即，局部特征)以及整个对象的特征(即，全局特征)。与将输入切片分类为对象或非对象(即，二进制分类器)的常规方法不同，示例性多标签分类网络被训练成将输入切片分类为以下之一：背景、对象或对象的显著部分。

一个实施例在保持高精度的同时提高了基于深度学习的方法的速度。

在一个实施例中，如果捕捉到输入切片中的对象的全局特征，则确定对象的对象尺寸较小，并且从输入切片的位置直接获得对象的位置。基于此，对象的位置被确定为输入切片的位置(即，输入切片的位置是候选RoI)。

在一个实施例中，如果捕获到对象的局部特征，则确定对象的对象尺寸大，并且与所捕获的局部特征相对应的位置是整个对象的显著部分的位置。基于输入切片的位置以及局部对象(即，整个对象的显著部分)与整个对象之间的关系来确定对象的位置。

在一个实施例中，在单个推断中对具有不同对象尺寸的对象执行对象检测，从而减少输入图像必须被重调尺寸/重新缩放的次数，并进而减少包括在作为输入提供给多标签分类网络的图像金字塔中的金字塔层的量/数量，从而提高效率。

图1示出在一个或多个实施例中用于实现对象检测系统300的示例性计算体系结构10。计算体系结构10包括电子设备100，该电子设备100包括资源，例如一个或多个处理器110和一个或多个存储单元120。一个或多个应用可以利用电子设备100的资源在电子设备100上运行/操作。

电子设备100的示例包括但不限于台式计算机、移动电子设备(例如，平板电脑、智能电话、膝上型计算机等)、消费产品(诸如智能电视)或利用对象检测的任何其他产品。

在一个实施例中，电子设备100包括集成在电子设备100中或联接到电子设备100的图像传感器140，例如相机。电子设备100上的一个或多个应用可以利用图像传感器140来捕获呈现给图像传感器140的对象(例如，对象的实况视频捕获、对象的照片等)。

在一个实施例中，电子设备100上的应用包括但不限于对象检测系统300，其被配置为执行以下至少之一：(1)接收输入图像(例如，经由图像传感器140捕获的、从存储装置120检索的)；以及(2)对输入图像执行对象检测，以检测输入图像中的一个或多个对象的存在。如本文稍后详细描述的，在一个实施例中，对象检测系统300被配置为基于对输入图像中的RoI的处理来识别输入图像中的对象(例如，面部)的显著部分(例如，面部部位)，并且基于显著部分和显著部分与对象之间的关系来确定输入图像中的对象的估计全外观。电子设备100然后可以基于对象的估计全外观来操作。

在一个实施例中，电子设备100上的应用还可以包括加载到电子设备100上或下载到电子设备100上的一个或多个软件移动应用150，诸如相机应用、社交媒体应用等。电子设备100上的软件移动应用150可以与对象检测系统300交换数据。例如，相机应用可以调用对象检测系统300来执行对象检测。

在一个实施例中，电子设备100还可以包括一个或多个附加传感器，例如麦克风、GPS或深度传感器。电子设备100的传感器可用于捕获内容和/或捕获基于传感器的上下文信息。例如，对象检测系统300和/或软件移动应用150可以利用电子设备100的一个或多个附加传感器来捕获内容和/或基于传感器的上下文信息，诸如用于音频数据(例如，语音记录)的麦克风、用于位置数据(例如，位置坐标)的GPS、或用于呈现给图像传感器140的对象的形状的深度传感器。

在一个实施例中，电子设备100包括集成在电子设备100中或联接到电子设备100的一个或多个输入/输出(I/O)单元130，例如键盘、小键盘、触摸接口或显示屏。

在一个实施例中，电子设备100配置为通过连接(例如，诸如WiFi连接或蜂窝数据连接的无线连接、有线连接或两者的组合)与一个或多个远程服务器200或远程电子设备交换数据。例如，远程服务器200可以是用于托管一个或多个在线服务(例如，在线社交媒体服务)和/或分发一个或多个软件移动应用150的在线平台。作为另一个示例，对象检测系统300可以被加载到电子设备100上或者从远程服务器200下载到电子设备100上，该远程服务器200维护和分发用于对象检测系统300的更新。

在一个实施例中，计算体系结构10是集中式计算体系结构。在另一个实施例中，计算体系结构10是分布式计算体系结构。

图2详细示出一个或多个实施例中的示例性对象检测系统300。在一个实施例中，对象检测系统300包括建议系统310，其被配置为根据基于深度学习的方法来确定一个或多个输入图像中的一个或多个候选ROI。如本文稍后详细描述的，在一个实施例中，建议系统310利用经过训练的多标签分类网络(MCN)320通过同时捕获对象的局部特征和全局特征来执行一个或多个对象检测任务。

在一个实施例中，建议系统310包括与可选的训练系统315相关联的可选的训练阶段。在一个实施例中，在训练阶段期间，训练系统315被配置为接收用于训练的一组输入图像50(图3)(“训练图像”)，并且通过利用图像分割单元316从训练图像50随机地分割输入切片55来生成一组输入切片55。训练系统315向初始MCN 317提供输入切片55以用作训练数据。在训练阶段期间，训练MCN 317以学习对象的局部特征和全局特征。

在一个实施例中，训练阶段可以离线进行(即，不在电子设备100上)。例如，在一个实施例中，训练阶段可以利用远程服务器200或远程电子设备来进行。

在一个实施例中，建议系统310包括与提取和检测系统318相关联的操作阶段。在操作阶段，在一个实施例中，提取和检测系统318配置为接收输入图像60(图4)，并且通过利用图像重调尺寸单元330来调整/重新缩放输入图像60以形成稀疏图像金字塔65(图4)。提取和检测系统318将稀疏图像金字塔65提供给经训练的MCN 320(例如，由训练系统315产生的经训练的MCN 320)。响应于接收到稀疏图像金字塔65，MCN 320生成一组特征图70(图4)，其中每个特征图70是热图，该热图指示输入图像60中的、在其中与整个对象或整个对象的显著部分(例如，面部部位)相关联的特征被MCN 320捕获的一个或多个区域(即，位置)。如本文稍后详细描述的，在一个实施例中，对于面部检测，MCN 320生成特征图，该特征图指示输入图像60中的、在其中与整个面部和/或面部部位相关联的特征被捕获的一个或多个区域。

提取和检测系统318将特征图70转发给建议生成系统340。建议生成系统340被配置为基于特征图70和预定义的对象边界框模板生成输入图像60的一个或多个建议，其中每个建议指示输入图像60中的一个或多个候选ROI。如本文稍后详细描述的，在一个实施例中，对于面部检测，建议生成系统340基于面部和/或面部部位的特征图70和针对不同面部部位的预限定的边界框模板来生成一个或多个面部建议。

在一个实施例中，对象检测系统300包括分类和回归单元350。分类和回归单元350配置成从建议系统310接收一个或多个建议，将每个建议分类为背景、整个对象(例如面部)或整个对象的显著部分(例如面部部位)中的一个，并且对包含整个对象或整个对象的显著部分的每个建议进行回归以适合对象的边界。

在一个实施例中，操作阶段可以在线发生(即，在电子设备100上)。

图3示出一个或多个实施例中的示例性训练阶段。在一个实施例中，训练阶段包括训练用于面部检测的初始MCN 317。具体地，训练系统315接收包括面部和面部部位的一组训练图像50。图像分割单元316从训练图像50随机分割包括面部和不同面部部位(例如，耳朵、眼睛、全嘴、鼻子等)的一组输入切片55。例如，如果训练图像50包括显示第一组跑步者的图像A和显示第二组跑步者的不同图像B，则输入切片55可以包括但不限于以下一个或多个：显示从图像A分割出的眼睛的输入切片AA、显示从图像A分割出的全嘴的输入切片AB、显示从图像A分割出的鼻子的输入切片AC、显示从图像A分割出的不同眼睛的输入切片AD、以及显示从图像B分割出的耳朵的输入切片BA。在一个实施例中，输入切片55用于训练初始MCN 317以将输入切片55分类为以下类别/分类之一：(1)背景；(2)整个面部；(3)眼睛；(4)鼻子；(5)全嘴；(6)左嘴角；(7)右嘴角；或(8)耳朵。MCN 317被训练成同时捕捉整个面部的全局特征和不同面部部位(即，眼睛、鼻子、全嘴、左嘴角、右嘴角或耳朵)的局部特征。在另一个实施例中，可以训练初始MCN 317以将输入切片55分类为与上述八个类别不同或更少/更多的类别/分类。

在一个实施例中，由训练系统315产生的经训练的MCN 320是完全卷积的。经训练的MCN 320不需要固定的输入大小，并且可以接收任意维度的输入图像。经训练的MCN 320消除了使用滑动窗或其他方法来分割出输入切片的需要。在一个实施例中，经训练的MCN320的输入分辨率是12×12，并且步幅宽度被设置为2。

图4示出一个或多个实施例中的示例性对象检测过程。在一个实施例中，操作阶段包括：利用经训练的MCN 320来执行面部检测。具体地，提取和检测系统318在操作阶段接收输入图像60。例如，如图4所示，输入图像60可以显示一个或多个面部。图像重调尺寸单元330通过生成具有一个或多个金字塔层(pyramid level)66的稀疏图像金字塔65来将输入图像60重调尺寸到不同的比例，其中每个金字塔层66用输入图像60的不同比例进行编码。稀疏图像金字塔65具有比使用常规级联CNN生成的密集图像金字塔更少的金字塔层66。与密集图像金字塔的每个金字塔层对应于一个特定比例的密集图像金字塔不同，稀疏图像金字塔65的每个金字塔层66对应于多个比例，从而减少所需的金字塔层66的量/数量，并增加建议生成系统340为输入图像60生成的建议的数量。

例如，如图4所示，稀疏图像金字塔65可以包括第一金字塔层66(层1)和第二金字塔层66(层2)。

响应于从图像重调尺寸单元330接收到稀疏图像金字塔65，经训练的MCN 320生成面部和面部部位的一组特征图70。基于从MCN 320接收到的特征图70和每个面部部位的预限定的边界框模板，建议生成系统340生成一个或多个面部建议80。每个面部建议80指示一个或多个候选面部窗85(如果有的话)，其中每个候选面部窗85是包含可能面部的候选RoI。例如，如图4所示，面部建议80可以包括用于输入图像60中所示的每个面部的候选面部窗85。

如果MCN 320捕获输入切片中的整个面部的全局特征，则建议系统310确定整个面部的位置是输入切片的位置(即，输入切片的位置是候选面部窗85)。如果MCN 320捕获输入切片中面部部位的局部特征，则建议系统310基于输入切片的位置以及面部部位和整个面部之间的关系推断整个面部的位置。

图5示出一个或多个实施例中的示例性的、经过训练的MCN 320。在一个实施例中，MCN 320是完全卷积的。MCN 320不需要固定的输入尺寸，并且可以接收任意维度的输入图像。MCN 320包括多个层321(例如，一个或多个卷积层、一个或多个池化层)，该多个层321包括最后一层322。每个层321包括一组特定大小的感受野(receptive field)323。

例如，如图5所示，MCN 320可以至少包括以下：(1)包括第一组感受野323的第一层321(“层1”)，其中第一组感受野323中的每个具有10×10×16的尺寸；(2)包括第二组感受野323的第二层321(“层2”)，其中第二组感受野323中的每个具有8×8×16的尺寸；(3)包括第三组感受野323的第三层321(“层3”)，其中第三组感受野323中的每个具有8×8×16的尺寸；(4)包括第四组感受野323的第四层321(“层4”)，其中第四组感受野323中的每个具有6×6×32的尺寸；(5)包括第五组感受野323的第五层321(“层5”)，其中第五组感受野323中的每个具有4×4×32的尺寸；(6)包括第六组感受野的第六层321(“层6”)，其中第六组感受野323中的每个具有2×2×32的尺寸；(7)包括第七组感受野的第七层321(“层7”)，其中第七组感受野323中的每个具有1×1×64的尺寸；以及(8)包括第八组感受野的最后一层322(“层8”)，其中第八组感受野323中的每个具有1×1×8的尺寸。

在一个实施例中，最后一层322的这组感受野323具有m×n×x的总尺寸，其中m×n是MCN 320可以接收作为输入的输入图像60的最大图像分辨率，x是MCN 320训练成对其进行分类的不同类别/分类的数量。例如，如果MCN 320训练成针对面部检测的八个不同的类别/分类(例如，背景、整个面部、眼睛、鼻子、全嘴、左嘴角、右嘴角和耳朵)进行分类，则最后一层322的每个感受野323具有1×1×8的大小。如果最大图像分辨率是12×12，则最后一层322的总尺寸是12×12×8。

在一个实施例中，针对MCN 320训练成对其进行分类的每个类别，最后一层322被配置为生成表示输入图像60中的、在其中与分类相关联的特征被MCN 320捕获的一个或多个区域的相应特征图70。例如，假设MCN 320被训练来分类用于面部检测的至少以下八个类别/分类：背景、整个面部、眼睛、鼻子、全嘴、左嘴角、右嘴角和耳朵。响应于接收到输入图像60，最后一层322至少生成以下特征：(1)指示输入图像60中的、在其中捕获到与整个面部相关联的特征的一个或多个区域的第一特征图70(HEAT MAP1)；(2)指示输入图像60中的、在其中捕获到与眼睛相关联的特征的一个或多个区域的第二特征图70(HEAT MAP2)；(3)指示输入图像60中的、在其中捕获到与鼻子相关联的特征的一个或多个区域的第三特征图70(HEAT MAP3)；(4)指示输入图像60中的、在其中捕获到与全嘴相关联的特征的一个或多个区域的第四特征图70(HEAT MAP4)；(5)指示输入图像60中的、在其中捕获到与左嘴角相关联的特征的一个或多个区域的第五特征图70(HEAT MAP5)；(6)指示输入图像60中的、在其中捕获到与右嘴角相关联的特征的一个或多个区域的第六特征图70(HEAT MAP6)；(7)指示输入图像60中的、在其中捕获到与耳朵相关联的特征的一个或多个区域的第七特征图70(HEAT MAP7)；(8)指示输入图像中的、在其中捕获到与背景相关的特征的一个或多个区域的第八特征图70(HEAT MAP8)。

在一个实施例中，对象检测系统300配置为当对象的对象尺寸超过处理尺寸(例如，MCN 320的最大图像分辨率)时直接识别对象的显著部分。

图6示出在一个或多个实施例中，经由常规级联CNN系统4执行的对象检测和经由对象检测系统300执行的对象检测之间的比较。假设相同的输入图像60被提供给常规级联CNN系统4和对象检测系统300。如图6所示，输入图像60在输入图像60中的不同区域处示出不同的面部，诸如在第一区域处的第一面部S、在第二区域处的第二面部T、在第三区域处的第三面部U、以及在第四区域处的第四面部V。

响应于接收到输入图像60，常规级联CNN系统4生成包括多个金字塔层6的密集图像金字塔5，其中每个金字塔层6对应于特定比例的输入图像60。例如，如图6所示，密集图像金字塔5包括：对应于第一比例(Scale 1)的输入图像60的第一金字塔层6、对应于第二比例(Scale 2)的输入图像60的第二金字塔层6、以及对应于第N比例(Scale N)的输入图像60的第N金字塔层6，其中N是正整数。常规级联CNN系统4向级联CNN提供密集图像金字塔5。

通过比较，响应于接收到输入图像60，对象检测系统300生成包括多个金字塔层66的稀疏图像金字塔65，其中每个金字塔层66对应于不同比例的输入图像60。例如，如图6所示，稀疏图像金字塔65包括：与一组不同比例(包括第一比例(Scale 1))的输入图像60相对应的第一金字塔层66、以及与另一组不同比例(包括第M比例(Scale M))的输入图像60相对应的第M金字塔层66，其中M是正整数，且M<N。当稀疏图像金字塔65的每个金字塔层66以多个比例编码时，稀疏图像金字塔65比密集图像金字塔5需要更少的金字塔层。对象检测系统300向MCN 320提供稀疏图像金字塔65。

对于密集图像金字塔5的每个金字塔层6，级联CNN将金字塔层6的每个输入切片分类为面部或仅背景。例如，如图6所示，级联CNN分类如下：(1)密集图像金字塔66的金字塔层6A的三个输入切片作为面部(即，面部S、T和U)；以及(2)密集图像金字塔66的金字塔层6B的一个输入切片作为面部(即，面部V)。基于该分类，常规级联CNN系统4输出表示输入图像60中的四个候选面部窗85(即，面部S、T、U和V)的面部建议8。

通过比较，对于稀疏图像金字塔65的每个金字塔层66，MCN 320将金字塔层66的每个输入切片分类为仅背景、整个面部或整个面部的特定面部部位(即，眼睛、鼻子、全嘴、左嘴角、右嘴角或耳部)。例如，如图6所示，MCN 320分类如下：(1)稀疏图像金字塔66的金字塔层66A的一个输入切片作为嘴(即，面部S的嘴)；(2)金字塔层66A的两个其他输入切片作为眼睛(即，面部T的眼睛和面部U的眼睛)；以及(3)金字塔层66A的另一个输入切片作为面部(即，面部V)。对象检测系统300输出表示输入图像60中的四个候选面部窗85(即，面部S、T、U和V)的面部建议80。因此，与常规级联CNN系统4不同，对象检测系统300更精确，因为它能够检测整个面部和不同的面部部位。

图7示出一个或多个实施例中的示例性建议生成过程。在一个实施例中，由MCN320响应于接收到输入图像60而生成的一组特征图70被转发到建议生成系统340。例如，如果MCN 320训练成用于面部检测，则如图7所示(为了便于说明，对应于仅背景、整个面部或其他面部部位的特征图未在图7中示出)，一组特征图70可以包括第一特征图70A和第二特征图70B，第一特征图70A指示输入图像60中的、在其中与全嘴相关联的特征被MCN 320捕获的一个或多个区域，而第二特征图70B指示输入图像60中的、在其中与眼睛相关联的特征被MCN 320捕获的一个或多个区域。

在一个实施例中，建议生成系统340包括局部极大值单元341，其被配置为对于对应于面部部位的每个特征图70确定特征图的局部极大值。设p通常表示特定的面部部位，并且设τ_p通常表示用于在对应于面部部位p的特征图的局部区域中保持强响应点的相应的预定阈值。在一个实施例中，为了确定对应于面部部位p的特征图70的局部极大值，局部极大值单元341对特征图70应用非极大值抑制(NMS)以获得特征图70的一个或多个局部区域中的一个或多个最强响应点。例如，如图7所示，局部极大值单元341获得用于第一特征图70A的最强响应点71A(对应于嘴的位置)以及用于第二特征图70B的两个最强响应点71BA和71BB(对应于左眼和右眼的位置)。

在一个实施例中，建议生成系统340包括边界框单元342，该边界框单元342被配置为：对于对应于面部部位的每个特征图70，基于特征图70的局部极大值(例如，由局部极大值单元341确定的局部极大值)和面部部位的一个或多个边界框模板来确定面部部位的一个或多个边界框。对于每个面部部位p，边界框单元342保持一个或多个相应的边界框模板。与面部部位对应的边界框模板是面部部位的预定义模板区域。例如，对于一些面部部位，例如眼睛，边界框单元342可以保持两个边界框模板。

设b_i一般表示边界框i的位置，其中bi＝(x_i1,y_i1,x_i2,y_i2)、(x_i1,y_i1)是边界框i的左上顶点的坐标、而(x_i2,y_i2)是边界框i的右下顶点的坐标。设p_i一般表示对应的边界框i的置信度得分。在一个实施例中，为了基于对应于面部部位p的特征图70的局部极大值来确定面部的边界框，边界框单元342将对应的置信度得分pi设置为等于其在特征图70中的对应值，其中对应值是特征图70上对应于边界框的位置的点的大小。例如，如图7所示，边界框单元342确定用于第一特征图70A的边界框72A、以及用于第二特征图70B的四个单独的边界框72B(用于左眼的两个边界框70B、用于右眼的两个边界框70B)。

在一个实施例中，建议生成系统340包括部位框组合(PBC)单元343，其配置成从包含面部部位的区域(即面部部位区域)推断包含面部的区域(即面部区域或面部窗)。在一个实施例中，为了获得面部区域，通过平均化来组合具有高重叠的面部部位区域。

具体而言，给定对应于不同面部部位的特征图70的原始边界框集合，PBC单元343通过以下来启动搜索和合并过程：选择具有最高置信度得分的边界框，并识别与所选择的边界框具有高于阈值τ_IoU的交并比(IoU)的所有边界框。PBC单元343通过根据以下提供的公式(1)对位置坐标求平均，将所选择的边界框和所识别的边界框合并/组合成表征面部区域的合并边界框：

其中，C_i是一组高度重叠的边界框，并且C_i根据以下提供的公式(2)来定义：

c_i＝{b_i}∪{b_j：IoU(b_i，b_j)＞τ_IoU} (2).

PBC单元343根据以下提供的公式(3)为合并边界框确定相应的置信度得分p_m，i：

例如，如图7所示，PBC单元343生成表示候选面部窗85的包括合并边界框的面部建议80，其中合并边界框取决于对应于不同面部部位的特征图70的一组边界框(例如，分别用于特征图70A和70B的边界框72A和72B)。向合并边界框分配面部建议80，并且从原始集中去除用于进行合并的边界框。PBC单元343针对原始集合中的剩余边界框重复搜索和合并过程，直到没有剩余边界框。

图8示出一个或多个实施例中的对象检测系统300的示例性应用。在一个实施例中，加载到或下载到电子设备100的一个或多个软件移动应用150可以与对象检测系统300交换数据。在一个实施例中，对电子设备100上的相机进行控制的相机应用可以调用对象检测系统300来执行对象检测。例如，如果用户与相机的快门交互，则相机应用可以仅在对象检测系统300检测到相机的相机视图400内的每个对象(例如，个人)的预期特征时才能够捕获图片(即，照片)。每个对象的预期特征可以包括但不限于具有睁开的眼睛、微笑的嘴、完整面部(即，没有被物体或阴影部分遮挡/遮住的面部)并且没有部分地位于相机视图之外的对象。在一个实施例中，可以使用附加的学习系统来精确地提取这些期望的特征，附加的学习系统例如但不限于可以通过监督标签数据(supervised labeled data)来构建的张嘴识别、表情识别等。例如，如图8所示，相机视图400可以显示要捕获的四个不同的对象G、H、I和J。由于对象G部分地位于相机视图400之外、对象H具有闭眼并且对象I具有张嘴，所以对象检测系统300仅检测对象J的预期特征(即，对象G、H和I不具有预期特征)。

如果对象检测系统300检测到要被捕获的每个对象的预期特征，则相机应用使得能够捕获图片；否则，相机应用可以调用其他动作，例如延迟关闭快门、向用户提供警告等。由于面部和面部部位的尺寸可以随着要捕获的对象和相机之间的距离而变化，所以对象检测系统300能够实现具有大规模能力的快速面部检测。

图9示出一个或多个实施例中的对象检测系统300的另一示例性应用。在一个实施例中，相机应用可以利用对象检测系统300来分析相机的相机视图内的场景的当前组成410，并且基于当前组成410提供一个或多个建议来改进要拍摄的图片的组成。对象检测系统300被配置为确定对象的边界框，使得边界框的边界紧密包围对象。因此，如果对象检测系统300确定对象的边界框，则也确定对象的位置和大小。例如，对于相机视图内的每个对象，对象检测系统300可以基于为对象确定的边界框来检测对象的位置和对象面部的大小。

基于检测到的信息，相机应用可以建议一个或多个动作，这些动作需要来自相机视图内的一个或多个对象的最小量的努力，诸如建议一个对象移动到另一个位置等。例如，如图9所示，相机应用可以提供其中一个对象进一步移回以创建备选组合420的第一建议(建议1)以及其中另一个对象进一步向前移动以创建备选组合430的第二建议(建议2)。建议可以利用电子设备100以各种格式呈现，包括但不限于视觉提示、语音通知等。

图10是在一个或多个实施例中用于执行快速对象检测的示例性过程800的流程图。过程框801包括：接收输入图像。过程框802包括：将输入图像重调尺寸到不同的比例以形成稀疏图像金字塔，其中稀疏图像金字塔被馈送到多标签分类网络(MCN)，该多标签分类网络被训练以捕获对象的局部特征和全局特征。过程框803包括：接收由MCN生成的一组特征图，其中每个特征图对应于特定对象分类(例如，背景、整个对象或显著部分)。过程框804包括：基于特征图和对象的预定义边界框模板来确定输入图像中的候选RoI。过程框805包括：生成指示候选RoI的建议。

在一个实施例中，过程框801-805可以由对象检测系统300的一个或多个组件执行，例如MCN 320、图像重调尺寸单元330和建议生成系统340。

图11是在一个或多个实施例中用于执行快速人脸检测的示例性过程900的流程图。过程框901包括：接收输入图像。过程框902将输入图像重调尺寸到不同的比例以形成稀疏图像金字塔，其中稀疏图像金字塔被馈送到多标签分类网络(MCN)，该多标签分类网络被训练以捕获整个面部的全局特征和不同面部部位的局部特征。过程框903包括：接收由MCN生成的一组特征图，其中每个特征图对应于特定对象分类(例如，背景、整个面部、或者诸如眼睛、鼻子、全嘴、左嘴角、右嘴角和耳朵的面部部位)。过程框904包括：基于不同面部部位的特征图和预限定的边界框模板来确定输入图像中的候选面部窗。过程框905包括：生成指示候选面部窗的建议。

在一个实施例中，过程框901-905可以由对象检测系统300的一个或多个组件执行，例如MCN 320、图像重调尺寸单元330和建议生成系统340。

图12是示出包括用于实现所公开的实施例的计算机系统600的信息处理系统的高级框图。每个系统300、310、315、318和350可以被组合到显示设备或服务器设备中。计算机系统600包括一个或多个处理器601，并且还可以包括电子显示设备602(用于显示视频、图形、文本和其他数据)、主存储器603(例如随机存取存储器(RAM))、存储设备604(例如硬盘驱动器)、可移动存储设备605(例如，可移动存储驱动器、可移动存储模块、磁带驱动器、光盘驱动器、其中存储有计算机软件和/或数据的计算机可读介质)、查看器接口设备606(例如，键盘、触摸屏、小键盘、指示设备)、以及通信接口607(例如，调制解调器、网络接口(例如，以太网卡)、通信端口、或PCMCIA插槽和卡)。通信接口607允许软件和数据在计算机系统和外部设备之间传送。系统600还包括通信基础设施608(例如，通信总线、跨接杆或网络)，上述设备/模块601至607连接到该通信基础设施608。

经由通信接口607传送的信息可以是能够由通信接口607经由携带信号的通信链路接收的信号形式，诸如电子、电磁、光学或其他信号，并且可以使用有线或电缆、光纤、电话线、蜂窝电话链路、射频(RF)链路和/或其他通信信道来实现。可以将表示这里的框图和/或流程图的计算机程序指令加载到计算机、可编程数据处理设备或处理设备上，以使得在其上执行的一系列操作生成计算机实现的过程。在一个实施例中，用于过程800(图10)和过程900(图11)的处理指令可以作为程序指令存储在存储器603、存储设备604和/或可移除存储设备605上以供处理器601执行。

已经参考方法、装置(系统)和计算机程序产品的流程图和/或框图描述了实施例。可以通过计算机程序指令来实现这种图示/图的每个框或其组合。计算机程序指令在被提供给处理器时产生机器，使得经由处理器执行的指令创建用于实现流程图和/或框图中指定的功能/操作的装置。流程图/框图中的每个框可以表示硬件和/或软件模块或逻辑。在替代实施例中，在框中标注的功能可以不按照在附图中标注的顺序发生、可以同时发生、等等。

术语“计算机程序介质”、“计算机可用介质”、“计算机可读介质”和“计算机程序产品”通常用于指诸如主存储器、辅助存储器、可移除存储驱动器、安装在硬盘驱动器中的硬盘和信号之类的介质。这些计算机程序产品是用于向计算机系统提供软件的装置。计算机可读介质允许计算机系统从计算机可读介质读取数据、指令、消息或消息包、以及其他计算机可读信息。例如，计算机可读介质可以包括非易失性存储器，例如软盘、ROM、闪存、磁盘驱动器存储器、CD-ROM和其他永久存储器。例如，它对于在计算机系统之间传输例如数据和计算机指令的信息来说是有用的。计算机程序指令可以存储在计算机可读介质中，该计算机可读介质可以引导计算机、其他可编程数据处理设备或其他设备以特定方式运行，使得存储在计算机可读介质中的指令产生包括实现在流程图和/或框图的一个或多个框中指定的功能/动作的指令的制品。

如本领域的技术人员将理解的，实施例的各方面可以被实现为系统、方法或计算机程序产品。因此，实施例的各方面可以采取完全硬件实施例、完全软件实施例(包括固件、常驻软件、微代码等)或组合软件和硬件方面的实施例的形式，软件和硬件方面在本文中通常可被称为“电路”、“模块”或“系统”。此外，实施例的各方面可以采取在一个或多个计算机可读介质中实现的计算机程序产品的形式，一个或多个计算机可读介质具有在其上实现的计算机可读程序代码。

可以利用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读存储介质。计算机可读存储介质可以是例如但不限于电子、磁、光学、电磁、红外或半导体系统、装置或设备，或者前述的任何合适的组合。计算机可读存储介质的更具体的示例(非穷举的列表)将包括以下：具有一条或多条导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤、便携式光盘只读存储器(CD-ROM)、光学存储设备、磁性存储设备、或前述的任何合适的组合。在本文档的上下文中，计算机可读存储介质可以是可以包含或存储由指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合使用的程序的任何有形介质。

用于执行一个或多个实施例的各方面的操作的计算机程序代码可以用一种或多种编程语言的任意组合来编写，该编程语言包括面向对象的编程语言(例如Java、Smalltalk、C++等)以及常规的过程编程语言(例如C编程语言或类似的编程语言)。程序代码可以完全在用户的计算机上执行、作为独立的软件包部分在用户的计算机上执行、部分在用户的计算机上执行且部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户的计算机或者连接到外部计算机(例如，通过使用因特网服务提供商的因特网)。

上面参考方法、装置(系统)和计算机程序产品的流程图和/或框图描述了一个或多个实施例的方面。应当理解，流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机程序指令来实现。这些计算机程序指令可以被提供给专用计算机或其他可编程数据处理设备以产生机器，使得经由计算机或其他可编程数据处理设备的处理器执行的指令创建用于实现在流程图和/或框图的一个或多个框中指定的功能/动作的装置。

这些计算机程序指令还可以存储在计算机可读介质中，该计算机可读介质可以引导计算机、其他可编程数据处理设备或其他设备以特定方式运行，使得存储在计算机可读介质中的指令产生包括实现在流程图和/或框图一个或多个框中指定的功能/动作的指令的制品。

计算机程序指令还可以被加载到计算机、其他可编程数据处理设备或其他设备上，以使得在计算机、其他可编程设备或其他设备上执行一系列操作步骤，从而产生计算机实现的过程，使得在计算机或其他可编程设备上执行的指令提供用于实现在流程图和/或框图的一个或多个框中指定的功能/动作的过程。

附图中的流程图和框图示出根据各种实施例的系统、方法和计算机程序产品的可能实现的体系结构、功能和操作。在这点上，流程图或框图中的每个框可以表示模块、段或指令的一部分，其包括用于实现指定逻辑功能的一个或多个可执行指令。在一些替换实现方式中，在框中所注明的功能可以不按图中所注明的顺序发生。例如，连续示出的两个框实际上可以基本上同时执行，或者这些框有时可以以相反的顺序执行，这取决于所涉及的功能。还将注意到，框图和/或流程图例示的每个框以及框图和/或流程图图示中的框的组合可以通过执行指定功能或动作或者执行专用硬件和计算机指令的组合的、基于专用硬件的系统来实现。

除非明确地如此陈述，否则权利要求中对单数元件的引用不意味着“一个且唯一”，而是“一个或多个”。本领域的普通技术人员现在已知知道或以后将会知道的上述示例性实施例的元件的所有结构和功能等同物都包括在所提出的权利要求书中。除非使用短语“用于……的装置”或“用于……的步骤”来明确地阐述该元件，否则本申请的权利要求的元件不依据35U.S.C.§112第六段的规定进行解释。。

本文所用的术语仅出于描述特定实施例的目的，而并非旨在限制本发明。如本文所用，单数形式“一个”、“一种”和“该”旨在也包括复数形式，除非上下文另外清楚地指示。还应当理解，当在本说明书中使用时，术语“包括”和/或“包含”指定所陈述的特征、整体、步骤、操作、元件和/或组件的存在，但不排除一个或多个其他特征、整体、步骤、操作、元件、组件和/或其组的存在或添加。

在所附的权利要求中的所有装置或步骤加上功能元件的相应结构、材料、动作和等同物旨在包括用于与具体要求保护的其他保护元件组合地执行功能的任何结构、材料或动作。为了说明和描述的目的已经给出了对实施例的描述，但并不旨在穷举或限于所公开的形式的实施例。在不脱离本发明的范围和精神的情况下，许多修改和变化对于本领域普通技术人员将是显而易见的。

尽管已经参考其某些形式描述了实施例；然而，其他形式也是可能的。因此，所附权利要求的精神和范围不应限于本文所包含的优选形式的描述。

Claims

1.一种方法，包括：

基于在电子设备处对输入图像中的兴趣区域(RoI)的处理，识别所述输入图像中的对象的显著部分；

基于所述显著部分以及所述显著部分与所述对象之间的关系，确定所述输入图像中的所述对象的估计全外观；以及

基于所述对象的估计全外观操作所述电子设备。

2.如权利要求1所述的方法，其中，识别所述输入图像中的对象的显著部分包括：

通过生成包括一个或多个金字塔层的稀疏图像金字塔对所述输入图像重调尺寸，其中每个金字塔层对应于不同比例的所述输入图像；

基于所述稀疏图像金字塔生成一组特征图；以及

基于所述一组特征图确定所述输入图像中的RoI。

3.如权利要求2所述的方法，其中，生成所述一组特征图包括：

对于所述稀疏图像金字塔的每个金字塔层的每个输入切片，利用多标签分类网络将所述输入切片分类为多个对象类别中的一个，其中所述多标签分类网络配置为捕获所述对象的一个或多个全局特征以及所述对象的一个或多个显著部分的一个或多个局部特征。

4.如权利要求3所述的方法，其中，所述多标签分类网络被训练成：基于从所述对象的一组训练图像分割出的一组输入切片，捕获所述对象的所述一个或多个全局特征以及所述对象的所述一个或多个显著部分的所述一个或多个局部特征。

5.如权利要求1所述的方法，其中，所述对象是面部，并且所述显著部分是面部部位。

6.如权利要求3所述的方法，其中，所述多个对象类别包括以下各项中的至少之一：背景、整个面部、眼睛、鼻子、全嘴、左嘴角、右嘴角或耳朵。

7.如权利要求3所述的方法，还包括：

响应于所述多标签分类网络捕获到所述输入切片中的所述对象的全局特征，基于所述输入切片的位置来确定所述对象在所述输入图像中的位置；以及

响应于所述多标签分类网络捕获到所述对象的显著部分的局部特征，基于所述输入切片的位置以及由用于所述显著部分的一个或多个边界框模板限定的、所述显著部分和所述对象之间的关系，推断所述对象在所述输入图像中的位置。

8.如权利要求3所述的方法，其中，操作所述电子设备包括：

响应于经由联接到所述电子设备的相机捕获图片的请求，基于利用所述多标签分类网络检测到所述输入图像中存在一个或多个预期特征，控制捕获所述图片，其中所述输入图像是所述相机的相机视图。

9.如权利要求1所述的方法，其中，操作所述电子设备包括：

响应于经由联接到所述电子设备的相机捕获图片的请求，

通过检测所述输入图像中每个对象的位置和大小来确定所述图片的当前组成，其中所述输入图像是所述相机的相机视图；以及

基于所述当前组成提供一个或多个建议以改变所述图片的当前组成。

10.一种系统，包括：

至少一个处理器；以及

非暂时性处理器可读存储器设备，存储有指令，所述指令在由所述至少一个处理器执行时使所述至少一个处理器执行操作，所述操作包括：

基于在电子设备处对所述输入图像中的兴趣区域(RoI)的处理来识别所述输入图像中的对象的显著部分；

基于所述对象的估计全外观来操作所述电子设备。

11.如权利要求10所述的系统，其中，识别所述输入图像中的对象的显著部分包括：

基于稀疏图像金字塔生成一组特征图；以及

基于所述一组特征图确定所述输入图像中的RoI。

12.如权利要求11所述的系统，其中，生成所述一组特征图包括：

对于所述稀疏图像金字塔的每个金字塔层的每个输入切片，利用多标签分类网络将所述输入切片分类为多个对象类别中的一个，其中所述多标签分类网络配置为捕获所述对象的一个或多个全局特征以及所述对象的一个或多个显著部分的一个或多个局部特征，

其中，所述多标签分类网络被训练成：基于从所述对象的一组训练图像分割出的一组输入切片，捕获所述对象的所述一个或多个全局特征以及所述对象的所述一个或多个显著部分的所述一个或多个局部特征。

13.如权利要求10所述的系统，其中，所述对象是面部，并且所述显著部分是面部部位。

14.如权利要求12所述的系统，其中，所述多个对象类别包括以下至少之一：背景、整个面部、眼睛、鼻子、全嘴、左嘴角、右嘴角或耳朵。

15.如权利要求12所述的系统，其中，所述操作还包括：

响应于所述多标签分类网络在所述输入切片中捕获到所述对象的全局特征，基于所述输入切片的位置来确定所述对象在所述输入图像中的位置；以及

响应于所述多标签分类网络捕获到所述对象的显著部分的局部特征，基于所述输入切片的位置以及由用于所述显著部分的一个或多个边界框模板限定的、所述显著部分和所述对象之间的关系来推断所述对象在所述输入图像中的位置。