CN111626082A

CN111626082A - 检测装置和方法及图像处理装置和系统

Info

Publication number: CN111626082A
Application number: CN201910149263.1A
Authority: CN
Inventors: 黄耀海; 张志远
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2019-02-28
Filing date: 2019-02-28
Publication date: 2020-09-04
Also published as: US11393186B2; JP2020140700A; US20200279124A1; JP6821772B2

Abstract

本发明公开了一种检测装置和方法及图像处理装置和系统。所述检测装置包括：从图像中提取特征的单元；基于所提取的特征检测图像中的对象的单元；以及，基于所提取的特征、所检测到的对象及预先获得的关键点集检测所检测到的对象的关键点的单元。根据本发明，在进行对象及其关键点的检测的同时，能确保整个的检测速度不受待检测图像中的对象的数量的影响，从而可更好地满足实际的计算机视觉任务对检测及时性和实用性的要求。

Description

检测装置和方法及图像处理装置和系统

技术领域

本发明涉及图像处理，尤其涉及例如图像中的对象及其关键点的检测。

背景技术

对象(例如，人、物体)的关键点检测是诸多计算机视觉任务的基础，例如动作检测和分类、异常/危险行为检测以及自动驾驶等。因此对象的关键点检测十分重要。当前常规的做法是将一个复杂的多对象关键点检测问题简化为单对象关键点检测问题。具体操作为：先从图像中检测出多个对象(例如，尤其是对象的边界框)，之后对每一个检测到的对象从其边界框中检测出相应的关键点。

例如，非专利文献“Mask R-CNN”(Kaiming He,Georgia Gkioxari,Piotr Doll′ar,Ross Girshick；Facebook AI Research；ICCV 2017)中公开了一种利用神经网络检测对象关键点的示例性技术。其中，该示例性技术用到的神经网络例如包括用于检测对象的网络分支和用于检测对象关键点的网络分支。其中，该示例性技术主要是：先利用用于检测对象的网络分支检测出图像中的对象及获得对象的类别；之后对每一个检测到的对象，利用用于检测对象关键点的网络分支检测出该对象的关键点。

如上所述可知，在进行对象的关键点的检测过程中，上述的做法需要通过两个独立的阶段来实现相应的检测。其中一个阶段的操作是检测图像中的对象(例如，包括对象的边界框和对象的类别)。另一个阶段的操作是对每一个检测到的对象检测其相应的关键点，也即，在该阶段需要对检测到的每一个对象逐一地进行关键点的检测操作。由此可见，在待检测图像中的对象的数量较多的情况下，关键点检测操作所需耗费的时间将更多，从而影响整个的检测速度(例如，使得检测速度变慢)。换句话说，关键点检测操作所需耗费的时间与待检测图像中的对象的数量直接相关。因此，待检测图像中的对象的数量越多，关键点检测操作所需耗费的时间将越多，整个的检测速度所受到的影响也将越大，进而使得实际的计算机视觉任务的及时性和实用性受到影响。

发明内容

鉴于上面的背景技术中的记载，本发明旨在解决上述问题中的至少一点。

根据本发明的一个方面，提供一种检测装置，所述检测装置包括：特征提取单元，从图像中提取特征；对象检测单元，基于所提取的特征检测所述图像中的对象；以及关键点检测单元，基于所提取的特征、所检测到的对象及预先获得的关键点集检测所检测到的对象的关键点。

根据本发明的另一个方面，提供一种检测方法，所述检测方法包括：特征提取步骤，从图像中提取特征；对象检测步骤，基于所提取的特征检测所述图像中的对象；以及关键点检测步骤，基于所提取的特征、所检测到的对象及预先获得的关键点集检测所检测到的对象的关键点。

其中，在本发明中，图像中的对象例如包括图像中的人和图像中的物体。其中，所检测到的对象至少具有对象的区域信息和对象的类别置信度信息。其中，在本发明中，所述预先获得的关键点集中的一个关键点集例如可描述一个对象的形状和/或可描述一个对象的姿势。

根据本发明的再一方面，提供一种图像处理装置，所述图像处理装置包括：获取设备，用于获取图像或视频；存储设备，存储有指令；以及处理器，基于所获得的图像或视频执行所述指令，使得所述处理器至少实现如上所述的检测方法。

根据本发明的又一方面，提供一种图像处理系统，所述图像处理系统包括：获取设备，用于获取图像或视频；如上所述的检测装置，从所获取的图像或视频中检测对象及其关键点；以及处理装置，基于所检测到的对象及其关键点，执行后续的图像处理操作；其中，所述获取装置、所述检测装置和所述处理装置经由网络相互连接。

在本发明中，通过从图像中同时地提取可被对象检测操作和关键点检测操作使用的特征以及通过使用预先获得的关键点集，使得本发明能以一阶段式的处理来实现图像中的对象检测和关键点检测，也即，使得关键点检测操作可融合到对象检测操作的过程中一并实现。因此，根据本发明，可使得关键点检测操作所需耗费的时间(也即，关键点检测速度)与待检测图像中的对象的数量无关。从而，根据本发明，在进行对象及其关键点的检测的同时，能确保整个的检测速度不受待检测图像中的对象的数量的影响，从而可更好地满足实际的计算机视觉任务对检测及时性和实用性的要求。

通过以下参考附图对典型实施例的说明，本发明的其它特征和优点将变得明显。

附图说明

并入说明书中并构成说明书的一部分的附图例示本发明的实施例，并且与实施例的描述一起用于解释本发明的原理。

图1A～1B示意性地示出了根据本发明的通过一定数量的且位于特定位置的关键点来描述人的示例。

图2A～2B示意性地示出了根据本发明的通过一定数量的且位于特定位置的关键点来描述汽车的示例。

图3A～3B示意性地示出了根据本发明的通过一定数量的且位于特定位置的关键点来描述自行车的示例。

图4是示意性地示出可实现根据本发明实施例的技术的硬件构造的框图。

图5是例示根据本发明的第一实施例的检测装置的构造的框图。

图6示意性示出可用于本发明的第一实施例的预先生成的神经网络的示意性结构。

图7示意性地示出根据本发明的第一实施例的检测方法的一种流程图。

图8示意性地示出根据本发明的第一实施例的如图7中所示的关键点检测步骤S730的一种流程图。

图9示意性地示出了根据本发明被更新的与人对应的锚点集的示例。

图10A～10B示意性地示出了根据本发明的具有一种形状的人及可用于描述其的锚点集的示例。

图11A～11B示意性地示出了根据本发明的具有另一种形状的人及可用于描述其的锚点集的示例。

图12A～12B示意性地示出了根据本发明的具有某种姿势及某种形状的人及可用于描述其的锚点集的示例。

图13是例示根据本发明的第二实施例的检测装置的构造的框图。

图14示意性示出可用于本发明的第二实施例的预先生成的神经网络的示意性结构。

图15示意性地示出根据本发明的第二实施例的检测方法的一种流程图。

图16示意性地示出根据本发明的第二实施例的如图15中所示的步骤S1520的一种流程图。

图17示出根据本发明的一种示例性图像处理装置的布置。

图18示出根据本发明的一种示例性图像处理系统的布置。

具体实施方式

下面将参照附图详细地描述本发明的示例性实施例。应注意，下面的描述实质上仅为说明性和示例性的，并且决不意图限制本发明及其应用或用途。除非另有具体说明，否则实施例中阐述的组件和步骤的相对布置、数值表达式和数值并不限制本发明的范围。另外，本领域技术人员已知的技术、方法和设备可能不会被详细地讨论，但在适当的情形中其应当是本说明书的一部分。

请注意，相似的附图标记和字母指代附图中相似的项目，因此，一旦一个项目在一个附图中被定义，则不必在下面的附图中对其进行讨论。

一方面，如上所述可知，在上述的常规做法中，由于对象检测操作和关键点检测操作是分别独立地进行的，因此使得需要分别单独地提取用于检测对象的特征和用于关键点检测的特征。又，由于需要对检测到的每一个对象逐一地进行关键点的检测操作，因此使得需要对检测到的每一个对象提取相应的用于关键点检测的特征。从而可知，在上述的常规做法中，尤其是在待检测图像中的对象的数量较多的情况下，特征提取操作所需耗费的时间也会影响整个的检测处理所需耗费的时间。由于从图像中提取出的与整张图像相关的特征通常包含可用于各项操作的特征，例如其中的与对象相关的特征可用于对象检测、其中的与对象的关键点相关的特征可用于关键点检测等。因此，发明人认为，可同时地先从图像中提取出与整张图像相关的特征，从而使得后续的对象检测操作和关键点检测操作均可使用该特征，并且也可尽可能地减少特征提取操作所需耗费的时间对整个的检测处理所需耗费的时间的影响。在下文中，上述所提取的特征例如可被视为“共享特征”，其中，在本发明中，该共享特征至少包含与对象相关的特征和与对象的关键点相关的特征。然而，显然不限于此。

另一方面，如上所述可知，在上述的常规做法中，由于对象检测操作和关键点检测操作是分别独立地进行的，因此使得关键点检测操作所需耗费的时间与待检测图像中的对象的数量直接相关。由于对于某类对象，其通常可由具有一定数量的且位于特定位置的关键点来描述。例如，在对象是人(例如如图1A中所示)的情况下，其通常可通过如图1B中所示的这些关键点来描述，其中图1B中所示的小圆点例如表示人的关键点。再如，在对象是汽车(例如如图2A中所示)的情况下，其通常可通过如图2B中所示的这些关键点来描述，其中图2B中所示的小圆点例如表示汽车的关键点。又如，在对象是自行车(例如如图3A中所示)的情况下，其通常可通过如图3B中所示的这些关键点来描述，其中图3B中所示的小圆点例如表示自行车的关键点。因此，发明人认为，对于每一类对象，均可通过由一定数量的且位于特定位置的关键点所构成的至少一个关键点集合来描述。在下文中，所述关键点例如可被视为“锚点(anchor)”，所述关键点集合例如可被视为“锚点集”。从而，发明人认为，可为每一类对象预先构建至少一个锚点集，并可基于该预先构建的锚点集来约束各类对象的关键点的检测以将关键点检测操作融合到对象检测操作的过程中一并实现，而无需为检测到的每一个对象逐一地进行独立的关键点检测(例如，单独地提取用于关键点检测的特征及单独地执行相应的检测操作)。因此，根据本发明，可使得关键点检测操作所需耗费的时间(也即，关键点检测速度)与待检测图像中的对象的数量无关。从而，根据本发明，在进行对象及其关键点的检测的同时，能确保整个的检测速度不受待检测图像中的对象的数量的影响，从而可更好地满足实际的计算机视觉任务对检测及时性和实用性的要求。

(硬件构造)

首先将参照图4描述可实现下文中描述的技术的硬件构造。

硬件构造400例如包括中央处理单元(CPU)410、随机存取存储器(RAM)420、只读存储器(ROM)430、硬盘440、输入设备450、输出设备460、网络接口470和系统总线480。此外，在一种实现方式中，硬件构造400可由计算机实现，诸如平板电脑、笔记本电脑、台式电脑或其他合适的电子设备。在另一种实现方式中，硬件构造400可由监控设备实现，诸如数码相机、摄像机、网络相机或其他合适的电子设备。其中，在硬件构造400由监控设备实现的情况下，硬件构造400还包括例如光学系统490。

在一种实现方式中，根据本发明的检测装置由硬件或固件构造并且用作硬件构造400的模块或组件。例如，将在下文参照图5详细描述的检测装置500或将在下文参照图13详细描述的检测装置1300可用作硬件构造400的模块或组件。在另一种实现方式中，根据本发明的检测装置由存储在ROM 430或硬盘440中且由CPU 410执行的软件构造。例如，将在下文参照图7详细描述的过程700和将在下文参照图15详细描述的过程1500可用作存储在ROM430或硬盘440中的程序。

CPU 410是任意合适的可编程控制设备(诸如，处理器)，并且可通过执行存储在ROM 430或硬盘440(诸如，存储器)中的各种应用程序来执行下文中要描述的各种功能。RAM420用于临时存储从ROM 430或硬盘440加载的程序或数据，并且也被用作CPU 410在其中执行各种过程(诸如，实施将在下文参照图7至图12B及图15至图16详细描述的技术)以及其他可用功能的空间。硬盘440存储诸如操作系统(OS)、各种应用、控制程序、视频、图像、预先生成的网络(例如，神经网络)、预先构建/获得的锚点集等多种信息。

在一种实现方式中，输入设备450用于允许用户与硬件构造400交互。在一个实例中，用户可通过输入设备450输入视频/图像。在另一实例中，用户可通过输入设备450触发本发明的对应处理。此外，输入设备450可采用多种形式，诸如按钮、键盘或触摸屏。在另一种实现方式中，输入设备450用于接收从诸如数码相机、摄像机和/或网络相机等专门电子设备输出的视频/图像。另外，在硬件构造400由监控设备实现的情况下，硬件构造400中的光学系统490将直接捕获监控场所的视频/图像。

在一种实现方式中，输出设备460用于向用户显示检测结果(诸如，检测到的对象及其关键点)。而且，输出设备460可采用诸如阴极射线管(CRT)或液晶显示器等各种形式。在另一种实现方式中，输出设备460用于向诸如动作检测和分类、异常/危险行为检测等的后续图像处理输出检测结果。

网络接口470提供用于将硬件构造400连接到网络的接口。例如，硬件构造400可经由网络接口470与经由网络连接的其他电子设备进行数据通信。可选地，可以为硬件构造400提供无线接口以进行无线数据通信。系统总线480可以提供用于在CPU 410、RAM 420、ROM 430、硬盘440、输入设备450、输出设备460、网络接口470和光学系统490等之间相互传输数据的数据传输路径。虽然被称为总线，但是系统总线480并不限于任何特定的数据传输技术。

上述硬件构造400仅仅是说明性的，并且决不意图限制本发明、其应用或用途。而且，为了简明起见，图4中只示出一个硬件构造。但是，根据需要也可以使用多个硬件构造。

(检测装置和方法)

接下来将参照图5至图16描述根据本发明的检测处理。

图5是例示根据本发明的第一实施例的检测装置500的构造的框图。其中，图5中所示的一些或全部模块可由专用硬件实现。如图5中所示，检测装置500包括特征提取单元510、对象检测单元520和关键点检测单元530。

另外，图5中所示的存储设备540例如至少存储有预先构建/获得的关键点集(也即，锚点集)。在一种实现中，存储设备540为图4中所示的ROM 430或硬盘440。在另一种实现方式中，存储设备540为经由网络(未示出)与检测装置500连接的服务器或外部存储设备。

首先，在一种实现方式中，例如，在图4中所示的硬件构造400由计算机实现的情况下，输入设备450接收从专门电子设备(例如，摄像机等)输出或由用户输入的图像。接着，输入设备450经由系统总线480将所接收的图像传输到检测装置500。在另一种实现方式中，例如，在硬件构造400由监控设备实现的情况下，检测装置500直接使用由光学系统490捕获的图像。

然后，如图5中所示，特征提取单元510从接收到的图像(也即，整张图像)中提取特征。如上所述，在本发明中，所提取的特征可被视为共享特征，所提取的特征例如至少包含与对象相关的特征和与对象的关键点相关的特征。如上所述，在本发明中，图像中的对象例如包括图像中的人和图像中的物体。在一种实现方式中，特征提取单元510利用各种特征提取算子从接收到的图像中提取共享特征，例如结构为VGC16、ResNet、SENe、Darknet等的卷积神经网络。

对象检测单元520基于特征提取单元510所提取的共享特征检测接收到的图像中的对象。在一种实现方式中，对象检测单元520通过利用常规的回归算法，基于所提取的共享特征中的与对象相关的特征检测接收到的图像中的人和/或感兴趣的物体。如上所述，在本发明中，所检测到的对象例如至少具有对象的区域信息和对象的类别置信度信息。

关键点检测单元530基于特征提取单元510所提取的共享特征、对象检测单元520所检测到的对象及存储在存储设备540中的预先构建/获得的关键点集(也即，锚点集)检测所检测到的对象的关键点。其中，如上所述可知，预先获得的锚点集中的每一个，由一定数量的且位于特定位置的关键点构成且可用于描述一个对象。在一种实现方式中，关键点检测单元530通过利用常规的回归算法，基于所检测到的对象、所提取的共享特征中的与对象的关键点相关的特征及预先获得的锚点集检测所检测到的对象的关键点。其中，在本发明中，所检测到的每一个关键点例如具有与其对应的置信度信息，从而可根据每一个关键点的置信度信息来判断其是否是真实的关键点或判断其是否是被遮挡的关键点等。

最后，对象检测单元520和关键点检测单元530经由图4中所示的系统总线480将检测结果(例如，所检测到的对象及其关键点)传输至输出设备460，用于向用户显示检测结果或用于向诸如动作检测和分类、异常/危险行为检测等的后续图像处理输出检测结果。

此外，优选地，在一种实现方式中，图5中所示的检测装置500中的各单元(也即，特征提取单元510、对象检测单元520和关键点检测单元530)可利用预先生成的神经网络来执行相应的操作，其中，在本发明中，该预先生成的神经网络例如可被称为预先生成的第一神经网络。一方面，例如如图6中所示，可用于本发明的第一实施例的预先生成的第一神经网络例如包括用于提取特征的部分(也即，子网络)、用于检测对象的部分和用于检测关键点的部分。其中，在本发明中，例如可基于在其中标注有对象的区域、类别及关键点的样本图像、通过端到端的训练方式和反向传递的更新方式来预先生成该第一神经网络中的各部分。另一方面，该预先生成的第一神经网络例如可存储在存储设备540中。

具体地，一方面，检测装置500从存储设备540中获取预先生成的第一神经网络。另一方面，特征提取单元510利用神经网络中的用于提取特征的部分从接收到的图像中提取共享特征。对象检测单元520利用神经网络中的用于检测对象的部分，基于特征提取单元510所提取的共享特征检测接收到的图像中的对象。关键点检测单元530利用神经网络中的用于检测关键点的部分，基于特征提取单元510所提取的共享特征、对象检测单元520所检测到的对象及存储在存储设备540中的预先获得的锚点集来检测所检测到的对象的关键点。

图7中所示的流程图700是图5中所示的检测装置500的一种对应过程。

如图7中所示，在特征提取步骤S710中，特征提取单元510从接收到的图像中提取特征(也即，共享特征)。

在获得共享特征后，在对象检测步骤S720中，对象检测单元520基于所提取的共享特征检测接收到的图像中的对象。例如，对象检测单元520利用常规的回归算法，基于所提取的共享特征中的与对象相关的特征检测接收到的图像中的对象。如上所述，在本发明中，所检测到的对象例如至少具有对象的区域信息和对象的类别置信度信息。

在检测到图像中的对象后，在关键点检测步骤S730中，关键点检测单元530基于所提取的共享特征、所检测到的对象及存储在存储设备540中的预先构建/获得的关键点集(也即，锚点集)检测所检测到的对象的关键点。例如，关键点检测单元530利用常规的回归算法，基于所检测到的对象、所提取的共享特征中的与对象的关键点相关的特征及预先获得的锚点集检测所检测到的对象的关键点。在一种实现方式中，对于所检测到的任一一个对象，关键点检测单元530参照图8执行相应的关键点检测操作。

如图8中所示，在步骤S7310中，关键点检测单元530基于该对象的信息从存储在存储设备540中的预先获得的锚点集中确定与该对象对应的锚点集。如上所述，对于每一类对象，均可通过由一定数量的且位于特定位置的锚点所构成的至少一个锚点集合来描述。

因此，在一种实现中，预先获得的锚点集中的每一个锚点集可用于描述一类对象。也就是说，每一类对象分别对应于预先获得的锚点集中的一个锚点集。从而，在该种情况下，关键点检测单元530例如通过如下方式确定与所检测到的对象对应的锚点集：首先，基于该对象的类别置信度信息从预先获得的锚点集中选择与该对象的类别对应的锚点集，例如，在所检测到的对象是人的情况下，选择出的锚点集例如如图1B中所示，其中图1B中所示的矩形框表示锚点集的区域大小；然后，可选地，基于该对象的区域信息调整选择出的锚点集的区域大小，以使得锚点集的区域大小例如与对象的区域大小相同，以便选择出的锚点集可用于后续的关键点检测。此外，对于图像中的其它对象，例如物体(例如，汽车、自行车等)，可通过与上述相似的方式来确定对应的锚点集。进一步地，在该种情况下，在所检测到的对象是人的情况下，由于人的某些部位(尤其是，人的手臂)通常具有较大的运动变化，例如人的手臂通常会被举起、挥动、弯曲等，因此在仅用一个固定的锚点集来描述人的情况下，人的具有较大运动变化的部位无法被很好的描述。从而，为了改善人的关键点的检测精度，尤其是人的具有较大运动变化的部位的关键点的检测精度，在关键点检测单元530如上述方式从预先获得的锚点集中确定出与人对应的锚点集后，关键点检测单元530可进一步地基于人的部位信息更新所确定的与人对应的锚点集。例如，对于所确定的与人对应的锚点集中的描述人的手臂的锚点，关键点检测单元530将基于手臂的可能的运动变化(例如，举起、挥动、弯曲等)在这些锚点周围增加相应的锚点。如上所述，所确定的与人对应的锚点集例如如图1B中所示，则经更新后的锚点集例如如图9中所示，其中图9中所示的小黑点表示新增加的锚点。此外，对于锚点集中描述人的腿部的锚点，也可进行类似的更新操作。

由于对象在图像中通常会有不同的形状和/或姿势，因此，也可通过多余一个的锚点集合来描述一类对象，其中每一个锚点集可由一定数量的且位于特定位置的锚点构成。以人为例，一方面，其通常会具有如下形状，例如，头部形状、上半身形状、全身形状、侧身形状等。另一方面，其通常会具有如下姿势(尤其是，运动姿势)，例如，直立行走、跑、推等。然而，显然不限于此。例如，在人的形状是如图10A中所示的情况下，可描述其的锚点集如图10B所示，其中图10B中所示的小黑点例如表示人的关键点(也即，锚点)。在人的形状是如图11A中所示的情况下，可描述其的锚点集如图11B所示，其中图11B中所示的小黑点例如表示人的锚点。在人的形状及姿势是如图12A中所示的情况下，可描述其的锚点集如图12B所示，其中图12B中所示的小黑点例如表示人的锚点。其中，上述图中所示的锚点集仅是示例性的，只要锚点集能描述对应的人的形状和/或姿势均可用作本发明所述的锚点集。此外，对于具有不同形状和/或姿势的其它对象，例如物体(例如，汽车、自行车等)，同样地可通过不同的锚点集来描述。因此，为了改善关键点的检测精度，在另一种实现中，预先获得的锚点集中的多个锚点集可用于描述一类对象。也就是说，每一类对象可对应于预先获得的锚点集中的多个锚点集。从而，在该种情况下，一方面，图5中所示的对象检测单元520除了能够检测对象的区域信息和类别置信度信息，还可检测对象的形状信息。例如，对象检测单元520可通过利用常规的回归算法，基于所提取的共享特征中的与对象相关的特征检测接收到的图像中的对象的形状信息。换句话说，对象检测单元520所检测到的对象还具有对象的形状信息。另一方面，关键点检测单元530例如通过如下方式确定与所检测到的对象对应的锚点集：首先，基于该对象的类别置信度信息和形状信息从预先获得的锚点集中选择与该对象的类别和形状均对应的锚点集，例如，在所检测到的对象是人且其形状及姿势例如是如图12A中所示的情况下，选择出的锚点集例如如图12B中所示，其中图12B中所示的矩形框表示锚点集的区域大小；然后，可选地，也可基于该对象的区域信息调整选择出的锚点集的区域大小。此外，对于图像中的其它对象，可通过与上述相似的方式来确定对应的锚点集。此外，在该种情况下，上述预先获得的锚点集(也即，关键点集)可基于其中标注有与对象的形状对应的样本关键点和/或其中标注有与对象的姿势对应的样本关键点的样本图像获得。

返回图8，在确定了与该对象对应的锚点集后(也包括被更新的锚点集)，在步骤S7320中，关键点检测单元530基于所提取的特征(也即，共享特征)和所确定的关键点集(也即，锚点集)检测该对象的关键点。例如，关键点检测单元530可将所确定的锚点集中的锚点作为关键点检测的初始点，并基于所提取的共享特征中的与对象的关键点相关的特征、利用常规的回归算法对这些初始点进行相应的回归操作以得到该对象的最终的关键点。此外，如上所述，在本发明中，所检测到的每一个关键点例如具有与其对应的置信度信息。因此，在对象的某一部分/部位(例如，人的手臂)处具有多个关键点的情况下，例如可将该部分/部位处的具有最大置信度信息的关键点作为该部分/部位的最终关键点输出。然而，显然不限于此，也可通过其它的方式来确定最终的关键点。

最后，返回图7，对象检测单元520和关键点检测单元530经由图4中所示的系统总线480将检测结果(例如，所检测到的对象及其关键点)传输至输出设备460，用于向用户显示检测结果或用于向诸如动作检测和分类、异常/危险行为检测等的后续图像处理输出检测结果。

此外，如图5中所述，检测装置500中的各单元(也即，特征提取单元510、对象检测单元520和关键点检测单元530)可利用预先生成的神经网络(例如，第一神经网络)来执行相应的操作。因此，图7中所示的各步骤(也即，特征提取步骤S710、对象检测步骤S720和关键点检测步骤S730)也可利用该预先生成的神经网络来执行相应的操作。

此外，在关键点检测操作中，有时会存在些比较难检测的关键点，例如，被遮挡的关键点、运动变化较大的关键点、特征不明显的关键点等。对于这些关键点，为了能够得到更加精确的检测结果，图13是例示根据本发明的第二实施例的检测装置1300的构造的框图。其中，图13中所示的一些或全部模块可由专用硬件实现。如图13中所示，检测装置1300包括特征提取单元510、对象检测单元520、关键点检测单元530和关键点更新单元1310。

其中，图13中所示的特征提取单元510、对象检测单元520、关键点检测单元530和存储设备540与图5中所示的各单元相同，在此不再赘述。

如图13中所示，在其中的特征提取单元510、对象检测单元520和关键点检测单元530参照图5至图12B的相关描述检测出接收到的图像中的对象的关键点后，关键点更新单元1310对所检测到的对象的关键点中的部分关键点至少执行一次更新操作以更新所检测到的对象的关键点。如图5至图12B中所述，由关键点检测单元530所检测到的每一个关键点具有与其对应的置信度信息，因此，在一种实现方式中，关键点更新单元1310例如基于预定义的阈值和所检测到的对象的关键点的置信度信息，确定需要被执行更新操作的关键点及确定执行更新操作的次数，其中所执行的更新操作例如通过利用常规的回归算法来实现。此外，如图5中所述，检测装置500中的各单元可利用预先生成的神经网络来执行相应的操作。类似地，图13中所示的检测装置1300中的各单元(也即，特征提取单元510、对象检测单元520、关键点检测单元530和关键点更新单元1310)也可利用预先生成的神经网络来执行相应的操作，其中，在本发明中，该预先生成的神经网络例如可被称为预先生成的第二神经网络。一方面，例如如图14中所示，可用于本发明的第二实施例的预先生成的第二神经网络例如包括用于提取特征的部分(也即，子网络)、用于检测对象的部分、用于检测关键点的部分和用于更新的部分。其中，用于更新的部分例如包括至少一层网络，且，每一层网络例如包括用于再次提取特征的部分和用于更新关键点的部分。其中，在本发明中，例如可基于在其中标注有对象的区域、类别及关键点的样本图像、通过端到端的训练方式和反向传递的更新方式来预先生成该第二神经网络中的各部分。其中，对于用于提取特征的部分的神经网络的结构和用于再次提取特征的部分的神经网络的结构例如可为：VGC16、ResNet、SENe、Darknet等。其中，在生成该第二神经网络的过程中，对于用于更新的部分中的每一层网络，可将其视为一个“端”来处理。另一方面，该预先生成的第二神经网络例如可存储在存储设备540中。

具体地，一方面，检测装置1300从存储设备540中获取预先生成的第二神经网络。另一方面，特征提取单元510、对象检测单元520和关键点检测单元530如图5中所述利用神经网络的相关部分执行相应的操作，且关键点更新单元1310利用神经网络中的用于更新的部分，对关键点检测单元530所检测到的对象的关键点执行相应的更新操作。

图15中所示的流程图1500是图13中所示的检测装置1300的一种对应过程。

如图15中所示，由于特征提取步骤S710、对象检测步骤S720和关键点检测步骤S730与图7中所示的各步骤所执行的操作相同，在此不再赘述。

在关键点检测单元530经由关键点检测步骤S730从接收到的图像中检测出对象的关键点后，关键点更新单元1310对所检测到的对象的关键点中的部分关键点至少执行一次更新操作以更新所检测到的对象的关键点。

具体地，在步骤S1510中，关键点更新单元1310判断所检测到的对象的关键点中是否存在需要更新的关键点。在本发明中，需要被更新的关键点例如是上述的比较难检测的关键点(例如，被遮挡的关键点、运动变化较大的关键点、特征不明显的关键点等)。在一种实现中，对于关键点检测单元530所检测到的每一个关键点，关键点更新单元1310将该关键点的置信度信息与预定义的阈值(例如，TH_n)进行比较来确定其是否属于需要更新的关键点。例如，在该关键点的置信度信息大于或等于预定义的阈值的情况下，该关键点将被认为是比较容易检测的且无需被执行更新操作。在该关键点的置信度信息小于预定义的阈值的情况下，该关键点将被认为是比较难检测的且需要被执行更新操作。其中，上述的n表示需要执行更新操作的次数。也就是说，每一次用于判断是否存在需要更新的关键点的阈值可以不同。然而，显然不限于此。

对于被判断为需要更新的关键点，在步骤S1520中，关键点更新单元1310对其执行相应的更新操作。在一种实现方式中，关键点更新单元1310参照图16执行相应的更新操作。

如图16中所示，在步骤S1521中，关键点更新单元1310从接收到的图像中提取与需要更新的关键点相关的特征，其中，该再次提取的特征例如是热图。

在步骤S1522中，关键点更新单元1310基于再次提取的特征对需要更新的关键点执行更新操作。在一种实现中，关键点更新单元1310将需要更新的关键点作为关键点更新的初始点，并基于所提取的特征图利用常规的回归算法对这些初始点进行相应的回归操作以更新需要更新的关键点。在另一种实现中，关键点更新单元1310基于所提取的热图利用基于热图的算法在更新需要更新的关键点。

返回图15，对于经步骤S1520更新完的关键点，流程1500将返回到步骤S1510中，关键点更新单元1310将判断被更新的关键点中是否还存在需要更新的关键点。在还存在需要更新的关键点的情况下，关键点更新单元1310将在步骤S1520中对这些需要被再次更新的关键点执行再一次的更新操作，直至不存在需要更新的关键点为止。

在不再存在需要更新的关键点的情况下，对象检测单元520、关键点检测单元530/关键点更新单元1310经由图4中所示的系统总线480将检测结果(例如，所检测到的对象及其关键点)传输至输出设备460，用于向用户显示检测结果或用于向诸如动作检测和分类、异常/危险行为检测等的后续图像处理输出检测结果。

此外，如图13中所述，检测装置1300中的各单元(也即，特征提取单元510、对象检测单元520、关键点检测单元530和关键点更新单元1310)可利用预先生成的神经网络(例如，第二神经网络)来执行相应的操作。因此，图15中所示的各步骤(也即，特征提取步骤S710、对象检测步骤S720、关键点检测步骤S730、步骤S1510和步骤S1520)也可利用该预先生成的神经网络来执行相应的操作。

如上所述，本发明通过从图像中一次性地提取可被对象检测操作和关键点检测操作使用的特征以及通过使用预先获得的关键点集来使得关键点检测操作可融合到对象检测操作的过程中一并实现。因此，根据本发明，可使得关键点检测操作所需耗费的时间(也即，关键点检测速度)与待检测图像中的对象的数量无关。从而，根据本发明，在进行对象及其关键点的检测的同时，能确保整个的检测速度不受待检测图像中的对象的数量的影响，从而可更好地满足实际的计算机视觉任务对检测及时性和实用性的要求。

(应用)

此外，如上所述，本发明可由监控设备(例如，网络相机)实现。因此，作为一种应用，以本发明由网络相机实现为例，图17示出根据本发明的一种示例性图像处理装置1700的布置。如图17中所示，图像处理装置1700至少包括获取设备1710、存储设备1720和处理器1730。显然，图像处理装置1700还可包括未示出的输入设备、输出设备等。

如图17中所示，首先，获取设备1710(例如，网络相机的光学系统)捕获感兴趣的地方(例如，监控场所)的图像/视频并将捕获的图像/视频传输到处理器1730。其中，上述监控场所例如可以是需要进行动作检测和分类、异常/危险行为检测等的场所。

存储设备1720存储有指令，其中所存储的指令至少是与如图7至图12B及如图15至图16中所述的检测方法对应的指令。

处理器1730，基于所捕获的图像/视频执行所存储的指令，使得其至少能实现如图7至图12B及如图15至图16中所述的检测方法，从而可以检测出所捕获的图像/视频中的对象及其关键点。

此外，在存储设备1720还存储有后续的图像处理指令的情况下，例如判断监控场所是否出现异常/危险行为等，则处理器1730也可基于检测到的对象及其关键点(尤其是，人及其关键点)执行相应的后续图像处理指令来实现相应的操作。在这种情况下，例如可通过网络将外部显示装置(未示出)与图像处理装置1700连接，从而外部显示装置可以向用户/监控人员输出后续的图像处理结果(例如，出现异常/危险行为等)。作为一种替换，上述后续的图像处理指令也可通过外部处理器(未示出)来执行。在这种情况下，上述后续的图像处理指令例如存储在外部存储设备(未示出)中，并且例如可通过网络将图像处理装置1700、外部存储设备、外部处理器和外部显示装置连接。从而，外部处理器可基于图像处理装置1700检测到的对象及其关键点执行外部存储设备中所存储的后续图像处理指令，并且外部显示装置可向用户/监控人员输出后续的图像处理结果。

此外，如上所述，本发明也可由计算机(例如，客户端服务器)实现。因此，作为一种应用，以本发明由客户端服务器为例，图18示出根据本发明的一种示例性图像处理系统1800的布置。如图18中所示，图像处理系统1800包括获取装置1810(例如，至少一个网络相机)、处理装置1820和如图5中所示的检测装置500或如图13中所示的检测装置1300，其中获取装置1810、处理装置1820和检测装置500/1300经由网络1830相互连接。其中，处理装置1820和图像处理装置500/1300可通过同一客户端服务器来实现，也可分别通过不同的客户端服务器来实现。

如图18中所示，首先，获取装置1810捕获感兴趣的地方(例如，监控场所)的图像或视频并将捕获的图像/视频经由网络1830传输到检测装置500/1300。其中，上述监控场所例如可以是需要进行动作检测和分类、异常/危险行为检测等的场所。

检测装置500参照图7至图12B或检测装置1300参照图15至图16从所捕获的图像/视频中检测对象及其关键点。

处理装置1820基于所检测到的对象及其关键点，执行后续的图像处理操作，例如判断监控场所是否出现异常/危险行为等。例如，可将所检测到的人及其关键点与预定义的异常/危险规则进行比较来判断是否出现异常/危险行为。例如，假设预定义的异常/危险规则为“当存在很多人聚集在一起的情况下，出现异常/危险行为”，则在检测到的人的区域信息比较密集的情况下，则可通过例如由网络1830连接的显示装置或报警装置向用户/监控人员输出相应的图像处理结果(例如，出现异常/危险行为等)。

此外，本发明还可用于人流统计(people counting)系统中以扩展人流统计系统的功能。例如，通过人流统计可得到输入图像/视频中的人的头部的区域；之后对于所得到的每一个人的头部区域，可利用如图7中所示的步骤S730所执行的关键点检测操作或利用如图15中所示的步骤S730及步骤S1510～S1520所执行的关键点检测和更新操作来检测该人的头部的关键点，以便可以对人流统计信息进行进一步的分析，例如人流中的性别分布、人流中的年龄分布等。

上述的所有单元都是用于实现本公开中所述处理的示例性和/或优选模块。这些单元可以是硬件单元(诸如，现场可编程门阵列(FPGA)、数字信号处理器、专用集成电路等)和/或软件模块(诸如，计算机可读程序)。上面没有详尽地描述用于实现各步骤的单元。然而，当存在执行特定过程的步骤的情况下，可以存在用于实现该同一过程的对应功能模块或单元(通过硬件和/或软件实现)。通过描述的步骤和对应于这些步骤的单元的所有组合的技术方案包括在本申请的公开内容中，只要它们所构成的技术方案是完整的、适用的即可。

可以以多种方式来实施本发明的方法和装置。例如，可以通过软件、硬件、固件或其任何组合来实施本发明的方法和装置。除非另有具体说明，否则本方法的步骤的上述顺序仅旨在是说明性的，并且本发明的方法的步骤不局限于上述具体描述的顺序。此外，在一些实施例中，本发明还可以被实施为在记录介质中记录的程序，其包括用于实现根据本发明的方法的机器可读指令。因此，本发明也覆盖存储用于实现根据本发明的方法的程序的记录介质。

虽然已经通过示例详细地展示了本发明的一些具体实施例，但是本领域的技术人员应该理解，上述示例仅旨在是说明性的，并不限制本发明的范围。本领域的技术人员应该理解，上述实施例可以在不脱离本发明的范围和精神的情况下被修改。本发明的范围由所附权利要求约束。

Claims

1.一种检测装置，其特征在于，所述检测装置包括：

特征提取单元，从图像中提取特征；

对象检测单元，基于所提取的特征检测所述图像中的对象；以及

关键点检测单元，基于所提取的特征、所检测到的对象及预先获得的关键点集检测所检测到的对象的关键点。

2.根据权利要求1所述的检测装置，其中，对于一个所检测到的对象，所述关键点检测单元基于该对象的信息从所述预先获得的关键点集中确定与该对象对应的关键点集，并基于所提取的特征和所确定的关键点集检测该对象的关键点。

3.根据权利要求2所述的检测装置，其中，对于一个所检测到的对象，该对象的信息包括该对象的形状信息。

4.根据权利要求2所述的检测装置，其中，在所检测到的对象是人的情况下，对于所确定的与该人对应的关键点集，所述关键点检测单元进一步基于人的部位信息更新与该人对应的关键点集，并基于该更新的关键点集来检测该人的关键点。

5.根据权利要求3所述的检测装置，其中，所述预先获得的关键点集中的一个关键点集描述一个对象的形状和/或描述一个对象的姿势。

6.根据权利要求1所述的检测装置，其中，所述特征提取单元、所述对象检测单元和所述关键点检测单元利用预先生成的第一神经网络执行相应的操作。

7.根据权利要求1所述的检测装置，所述检测装置进一步包括：

关键点更新单元，对所检测到的对象的关键点中的部分关键点至少执行一次更新操作以更新所检测到的对象的关键点。

8.根据权利要求7所述的检测装置，其中，所述关键点更新单元基于预定义的阈值和所检测到的对象的关键点的置信度信息，确定需要被执行更新操作的关键点及确定执行更新操作的次数。

9.根据权利要求7所述的检测装置，其中，所述特征提取单元、所述对象检测单元、所述关键点检测单元和所述关键点更新单元利用预先生成的第二神经网络执行相应的操作。

10.一种检测方法，其特征在于，所述检测方法包括：

特征提取步骤，从图像中提取特征；

对象检测步骤，基于所提取的特征检测所述图像中的对象；以及

关键点检测步骤，基于所提取的特征、所检测到的对象及预先获得的关键点集检测所检测到的对象的关键点。

11.根据权利要求10所述的检测方法，其中，其中，对于一个所检测到的对象，在所述关键点检测步骤中，基于该对象的信息从所述预先获得的关键点集中确定与该对象对应的关键点集，并基于所提取的特征和所确定的关键点集检测该对象的关键点。

12.根据权利要求11所述的检测方法，其中，对于一个所检测到的对象，该对象的信息包括该对象的形状信息。

13.根据权利要求10所述的检测方法，其中，在所述特征提取步骤、所述对象检测步骤和所述关键点检测步骤中，利用预先生成的神经网络执行相应的操作。

14.一种图像处理装置，其特征在于，所述图像处理装置包括：

获取设备，用于获取图像或视频；

存储设备，存储有指令；以及

处理器，基于所获得的图像或视频执行所述指令，使得所述处理器至少实现如权利要求10至13中任一项所述的检测方法。

15.一种图像处理系统，其特征在于，所述图像处理系统包括：

获取设备，用于获取图像或视频；

根据权利要求1至9中的任一项所述的检测装置，从所获取的图像或视频中检测对象及其关键点；以及

处理装置，基于所检测到的对象及其关键点，执行后续的图像处理操作；

其中，所述获取装置、所述检测装置和所述处理装置经由网络相互连接。