CN111507125A

CN111507125A - 检测装置和方法及图像处理装置和系统

Info

Publication number: CN111507125A
Application number: CN201910089715.1A
Authority: CN
Inventors: 黄耀海; 纪新
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2019-01-30
Filing date: 2019-01-30
Publication date: 2020-08-07
Also published as: US20200242345A1; JP2020123328A

Abstract

本发明公开了一种检测装置和方法及图像处理装置和系统。所述检测装置包括：从图像中提取特征的单元；基于所提取的特征检测图像中的人的单元；基于所提取的特征检测在所检测到的人的周围区域中的物体的单元；以及，基于所提取的特征、所检测到的人和所检测到的物体确定图像中的人‑物交互信息。根据本发明，可提高从视频/图像中检测出人、物体和人‑物交互关系的检测速度和检测精度，从而可更好地满足向需要帮助的人提供帮助的及时性和准确性。

Description

检测装置和方法及图像处理装置和系统

技术领域

本发明涉及图像处理，尤其涉及例如图像中人-物交互的检测。

背景技术

在监控场景中，为了能够向需要帮助的人及时地提供帮助，能够从图像/视频中快速及时地检测出人与物的交互关系(也即，人-物交互关系)是一项关键任务，其中人-物交互关系例如包括人手拄拐杖、人坐在轮椅上、人推着婴儿车等。例如，在人-物交互关系是人坐在轮椅上或人手拄拐杖等的情况下，该人通常是需要被帮助的人。

为了从视频/图像中检测出人-物交互关系，非专利文献“Detecting andRecognizing Human-Object Interactions”(Georgia Gkioxari Ross Girshick PiotrDoll′ar Kaiming He,Facebook AI Research,CVPR 2018)中公开了一种检测和识别人-物交互关系的示例性技术。其中，该示例性技术主要是：先通过一个神经网络从图像中提取特征以检测出图像中的所有可能的人和物体的候选区域；然后，通过另一个神经网络从检测出的候选区域中再次提取特征，并基于再次提取的特征通过该神经网络中的物体检测分支、人检测分支和人-物交互关系检测分支分别从候选区域中检测出人、物体和人-物交互关系。

如上所述，可知在从视频/图像中检测出人-物交互关系的过程中，上述的示例性技术需要通过两个独立的阶段来实现相应的检测。其中一个阶段的操作是从图像中同时地检测出所有的人的候选区域和所有的物体的候选区域，另一个阶段的操作是从所有的候选区域中检测出人、物体和人-物交互关系。由于两个阶段的操作需要进行两次的网络计算，尤其是需要进行两次的特征提取(例如，提取用于检测人和物体的候选区域的特征以及提取用于检测人、物体和人-物交互关系的特征)，从而使得整个的检测处理需要耗费更多的处理时间，也即影响从视频/图像中检测出人、物体和人-物交互关系的检测速度，进而影响向需要帮助的人提供帮助的及时性。

发明内容

鉴于上面的背景技术中的记载，本发明旨在解决上述问题中的至少一点。

根据本发明的一个方面，提供一种检测装置，所述检测装置包括：特征提取单元，从图像中提取特征；人检测单元，基于所述特征检测所述图像中的人；物体检测单元，基于所述特征检测在所检测到的人的周围区域中的物体；以及交互确定单元，基于所述特征、所检测到的人和所检测到的物体确定所述图像中的人-物交互信息(也即，人-物交互关系)。

根据本发明的另一个方面，提供一种检测方法，所述检测方法包括：特征提取步骤，从图像中提取特征；人检测步骤，基于所述特征检测所述图像中的人；物体检测步骤，基于所述特征检测在所检测到的人的周围区域的物体；以及交互确定步骤，基于所述特征、所检测到的人和所检测到的物体确定所述图像中的人-物交互信息(也即，人-物交互关系)。

其中，在本发明中，基于待检测的物体的类型来确定所检测到的人的至少一个部件；其中，所述周围区域是所确定的至少一个部件的周围的区域。其中，在本发明中，通过确定所检测到的人的人体姿态来确定所述周围区域。

根据本发明的再一方面，提供一种图像处理装置，所述图像处理装置包括：获取设备，用于获取图像或视频；存储设备，存储有指令；以及处理器，基于所获得的图像或视频执行所述指令，使得所述处理器至少实现如上所述的检测方法。

根据本发明的又一方面，提供一种图像处理系统，所述图像处理系统包括：获取设备，用于获取图像或视频；如上所述的检测装置，从所获取的图像或视频中检测人、物体和人-物交互信息；以及处理装置，基于所检测的人-物交互信息，执行后续的图像处理操作；其中，所述获取装置、所述检测装置和所述处理装置经由网络相互连接。

一方面，由于本发明通过从图像中获取各操作都能使用的共享特征，因此使得本发明能以一阶段式的处理来实现人、物体和人-物交互关系的检测，从而可减少整个的检测处理的处理时间。另一方面，由于本发明仅需先检测出图像中的人，之后再基于所检测到的人的信息来确定需要从中检测物体的区域，因此使得本发明可缩小物体检测的范围，从而可改善整个的检测处理的检测精度并可进一步地减少整个的检测处理的处理时间。因此，根据本发明，可提高从视频/图像中检测出人、物体和人-物交互关系的检测速度和检测精度，从而可更好地满足向需要帮助的人提供帮助的及时性和准确性。

通过以下参考附图对典型实施例的说明，本发明的其它特征和优点将变得明显。

附图说明

并入说明书中并构成说明书的一部分的附图例示本发明的实施例，并且与实施例的描述一起用于解释本发明的原理。

图1是示意性地示出可实现根据本发明实施例的技术的硬件构造的框图。

图2是例示根据本发明实施例的检测装置的构造的框图。

图3示意性示出可用于本发明实施例的预先生成的神经网络的示意性结构。

图4示意性地示出根据本发明实施例的检测方法的一种流程图。

图5示意性地示出根据本发明实施例的如图4中所示的物体检测步骤S430的一种流程图。

图6A～6E示意性地示出了一种根据本发明确定用于检测物体的区域的示例。

图7A～7C示意性地示出了另一种根据本发明确定用于检测物体的区域的示例。

图8示意性地示出一种用于预先生成可用于本发明实施例的神经网络的生成方法的流程图。

图9示出根据本发明的一种示例性图像处理装置的布置。

图10示出根据本发明的一种示例性图像处理系统的布置。

具体实施方式

下面将参照附图详细地描述本发明的示例性实施例。应注意，下面的描述实质上仅为说明性和示例性的，并且决不意图限制本发明及其应用或用途。除非另有具体说明，否则实施例中阐述的组件和步骤的相对布置、数值表达式和数值并不限制本发明的范围。另外，本领域技术人员已知的技术、方法和设备可能不会被详细地讨论，但在适当的情形中其应当是本说明书的一部分。

请注意，相似的附图标记和字母指代附图中相似的项目，因此，一旦一个项目在一个附图中被定义，则不必在下面的附图中对其进行讨论。

在检测人-物交互关系的过程中，通常需要关注的是位于人的周围的物体，尤其是位于人的某些部件(例如，手、下半身等)的周围的物体。换句话说，在检测人-物交互关系的过程中，人与物体的检测是互相关联而非互相独立的。因此，发明人认为，一方面，可通过先从图像中检测出人，之后再基于所检测到的人的信息(例如，位置、姿势等信息)来从图像中检测出关联的物体，并基于所检测到的人和物体来确定人-物交互关系。另一方面，由于人、物体和人-物交互关系的检测是相互关联的，因此可通过从整张图像中提取特征(可被视为，共享特征)并将其同时地用于人的检测、物体的检测和人-物交互关系的检测的过程中。从而，使得本发明能以一阶段式的处理来实现人、物体和人-物交互关系的检测。

因此，根据本发明，可减少整个的检测处理的处理时间并可改善整个的检测处理的检测精度。从而，根据本发明，可提高从视频/图像中检测出人、物体和人-物交互关系的检测速度和检测精度，进而可更好地满足向需要帮助的人提供帮助的及时性和准确性。

(硬件构造)

首先将参照图1描述可实现下文中描述的技术的硬件构造。

硬件构造100例如包括中央处理单元(CPU)110、随机存取存储器(RAM)120、只读存储器(ROM)130、硬盘140、输入设备150、输出设备160、网络接口170和系统总线180。此外，在一种实现方式中，硬件构造100可由计算机实现，诸如平板电脑、笔记本电脑、台式电脑或其他合适的电子设备。在另一种实现方式中，硬件构造100可由监控设备实现，诸如数码相机、摄像机、网络相机或其他合适的电子设备。其中，在硬件构造100由监控设备实现的情况下，硬件构造100还包括例如光学系统190。

在一种实现方式中，根据本发明的检测装置由硬件或固件构造并且用作硬件构造100的模块或组件。例如，将在下文参照图2详细描述的检测装置200用作硬件构造100的模块或组件。在另一种实现方式中，根据本发明的检测装置由存储在ROM 130或硬盘140中且由CPU 110执行的软件构造。例如，将在下文参照图4详细描述的过程400用作存储在ROM130或硬盘140中的程序。

CPU 110是任意合适的可编程控制设备(诸如，处理器)，并且可通过执行存储在ROM 130或硬盘140(诸如，存储器)中的各种应用程序来执行下文中要描述的各种功能。RAM120用于临时存储从ROM 130或硬盘140加载的程序或数据，并且也被用作CPU 110在其中执行各种过程(诸如，实施将在下文参照图4至图8详细描述的技术)以及其他可用功能的空间。硬盘140存储诸如操作系统(OS)、各种应用、控制程序、视频、图像、预先生成的网络(例如，神经网络)、预先定义的数据(例如，对于某一物体，人的常规的使用方式)等多种信息。

在一种实现方式中，输入设备150用于允许用户与硬件构造100交互。在一个实例中，用户可通过输入设备150输入视频/图像。在另一实例中，用户可通过输入设备150触发本发明的对应处理。此外，输入设备150可采用多种形式，诸如按钮、键盘或触摸屏。在另一种实现方式中，输入设备150用于接收从诸如数码相机、摄像机和/或网络相机等专门电子设备输出的视频/图像。另外，在硬件构造100由监控设备实现的情况下，硬件构造100中的光学系统190将直接捕获监控场所的视频/图像。

在一种实现方式中，输出设备160用于向用户显示检测结果(诸如，检测到的人、物体和人-物交互关系)。而且，输出设备160可采用诸如阴极射线管(CRT)或液晶显示器等各种形式。在另一种实现方式中，输出设备160用于向诸如安全监控、异常场景检测等的后续图像处理输出检测结果。

网络接口170提供用于将硬件构造100连接到网络的接口。例如，硬件构造100可经由网络接口170与经由网络连接的其他电子设备进行数据通信。可选地，可以为硬件构造100提供无线接口以进行无线数据通信。系统总线180可以提供用于在CPU 110、RAM 120、ROM 130、硬盘140、输入设备150、输出设备160、网络接口170和光学系统190等之间相互传输数据的数据传输路径。虽然被称为总线，但是系统总线180并不限于任何特定的数据传输技术。

上述硬件构造100仅仅是说明性的，并且决不意图限制本发明、其应用或用途。而且，为了简明起见，图1中只示出一个硬件构造。但是，根据需要也可以使用多个硬件构造。

(检测装置和方法)

接下来将参照图2至图7C描述根据本发明的检测处理。

图2是例示根据本发明实施例的检测装置200的构造的框图。其中，图2中所示的一些或全部模块可由专用硬件实现。如图2中所示，检测装置200包括特征提取单元210、人检测单元220、物体检测单元230和交互确定单元240。

首先，在一种实现方式中，例如，在图1中所示的硬件构造100由计算机实现的情况下，输入设备150接收从专门电子设备(例如，摄像机等)输出或由用户输入的图像。接着，输入设备150经由系统总线180将所接收的图像传输到检测装置200。在另一种实现方式中，例如，在硬件构造100由监控设备实现的情况下，检测装置200直接使用由光学系统190捕获的图像。

然后，如图2中所示，特征提取单元210从接收到的图像(也即，整张图像)中提取特征。在本发明中，所提取的特征可被视为共享特征。在一种实现中，特征提取单元210利用各种特征提取算子从接收到的图像中提取共享特征，例如方向梯度直方图(Histogram ofOriented Gradient，HOG)、局部二值模式(Local Binary Pattern，LBP)等算子。

人检测单元220基于特征提取单元210所提取的共享特征检测接收到的图像中的人。在一种实现方式中，人检测单元220所执行的检测操作是从图像中检测人的区域。在该实现方式中，人检测单元220可利用已有的区域检测算法来检测人的区域，例如，选择性搜索(selective search)算法、EdgeBoxes算法或对象性(Objectness)算法等。在另一种实现方式中，人检测单元220所执行的检测操作是从图像中检测人的关键点。在该实现方式中，人检测单元220可利用已有的关键点检测算法来检测人的关键点，例如，掩码区域卷积神经网络(Mask R-CNN)算法等。

物体检测单元230基于特征提取单元210所提取的共享特征检测在人检测单元220所检测到的人的周围区域中的物体。一方面，在进行安全监控或异常场景检测的过程中，通常检测的目的是确定的，例如需要检测图像中是否存在坐轮椅、手持拐杖等的人，因此，根据检测的目的可直接地得知待检测的物体的类型。从而，进一步地，可基于待检测的物体的类型来确定所检测到的人的至少一个部件，并且所述周围区域是所确定的至少一个部件的周围的区域。例如，在待检测的物体是拐杖或轮椅的情况下，所确定的人的部件例如是人的下半身。例如，在待检测的物体是拐杖和遮阳伞/雨伞的情况下，所确定的人的部件例如是人的上半身和人的下半身。例如，在待检测的物体是拐杖和背包的情况下，所确定的人的部件例如是人的下半身和人的中间部位。然而显然不限于此。另一方面，如上所述，人检测单元220所执行的检测操作可以是检测人的区域或检测人的关键点。因此，在一种实现方式中，在人检测单元220检测的是人的区域的情况下，物体检测单元230所执行的检测操作是检测物体的区域。其中，物体检测单元230也可利用例如上述的已有的区域检测算法来检测物体的区域。在另一种实现方式中，在人检测单元220检测的是人的关键点的情况下，物体检测单元230所执行的检测操作是检测物体的关键点。其中，物体检测单元230也可利用例如上述的已有的关键点检测算法来检测物体的关键点。

在检测出接收到的图像中的人和物体后，交互确定单元240基于特征提取单元210所提取的共享特征、人检测单元220所检测到的人和物体检测单元230所检测到的物体确定接收到的图像中的人-物交互信息(也即，人-物交互关系)。在一种实现中，交互确定单元240例如可利用预先生成的分类器基于共享特征、所检测到的人和物体来确定人-物交互关系。其中，该分类器例如可利用支持向量机(SVM)等算法，基于其中标注有人、物体及人-物交互关系(也即，人使用对应物体的常规使用方式)的样本来训练得到。

最后，人检测单元220、物体检测单元230和交互确定单元240经由图1中所示的系统总线180将检测结果(例如，所检测到的人、物和人-物交互关系)传输至输出设备160，用于向用户显示检测结果或用于向诸如安全监控、异常场景检测等的后续图像处理输出检测结果。

此外，优选地，在一种实现方式中，图2中所示的检测装置200中的各单元(也即，特征提取单元210、人检测单元220、物体检测单元230和交互确定单元240)可利用预先生成的神经网络来执行相应的操作。一方面，例如如图3中所示，可用于本发明的实施例的预先生成的神经网络例如包括用于提取特征的部分、用于检测人的部分、用于检测物体的部分和用于确定人-物交互关系的部分。其中，在下文中，将参照图8详细地描述预先生成该神经网络的方法。另一方面，该预先生成的神经网络可存储在存储设备(未示出)中。例如，该存储设备可以是图1中所示的ROM 230或硬盘240。例如，该存储设备可以是经由网络(未示出)与检测装置200连接的服务器或外部存储设备。

具体地，一方面，检测装置200从存储设备中获取预先生成的神经网络。另一方面，特征提取单元210利用神经网络中的用于提取特征的部分从接收到的图像中提取共享特征。人检测单元220利用神经网络中的用于检测人的部分，基于特征提取单元210所提取的共享特征检测接收到的图像中的人。物体检测单元230利用神经网络中的用于检测物体的部分，基于特征提取单元210所提取的共享特征和人检测单元220所检测到的人来检测人的周围的物体。交互确定单元240利用神经网络中的用于确定人-物交互关系的部分，基于特征提取单元210所提取的共享特征、人检测单元220所检测到的人和物体检测单元230所检测到的物体确定接收到的图像中的人-物交互关系。

图4中所示的流程图400是图2中所示的检测装置200的一种对应过程。

如图4中所示，在特征提取步骤S410中，特征提取单元210从接收到的图像中提取特征(也即，共享特征)。

在获得共享特征后，在人检测步骤S420中，人检测单元220基于共享特征检测接收到的图像中的人。其中，如上所述，人检测单元220所执行的检测操作可以是从图像中检测人的区域或从图像中检测人的关键点。

在检测出图像中的人后，在物体检测步骤S430中，物体检测单元230基于共享特征检测在所检测到的人的周围区域中的物体。在一种实现方式中，物体检测单元230参照图5执行相应的物体检测操作。在这种情况下，图2中所示的物体检测单元230例如可包括区域确定子单元(未示出)和物体检测子单元(未示出)。

如图5中所示，在步骤S4310中，物体检测单元230或区域确定子单元确定所检测到的人的至少一个部件并确定所确定的部件的周围区域以作为用于检测物体的区域。

其中，关于所检测到的人的至少一个部件的确定，如上所述，在进行安全监控或异常场景检测的过程中，由于检测的目的通常是确定的，因此可基于待检测的物体的类型来从所检测到的人中确定至少一个部件。在安全监控的过程中，由于需要获得帮助的人通常是使用拐杖或轮椅的人，因此，待检测的物体通常位于人的下半身所在的区域。从而，优选地，所确定的人的部件例如是人的下半身。例如如图6A～6C中所示，其中，6A表示所接收到的图像，6B中的区域610表示所检测到的人的区域，由于待检测的物体的类型为拐杖，从而所检测到的人的下半身(如6C中的区域620所示)可被确定为相应的一个部件。

其中，关于所确定的部件的周围区域的确定(也即，用于检测物体的区域的确定)，在一种实现中，例如可通过扩展所确定的部件所在的区域来确定用于检测物体的区域。例如如图6D中所示，6D中的区域630表示用于检测物体的区域，且其是通过扩展图6C中的区域620直接得到的。在另一种实现中，由于人使用某类物体通常会有特定的姿态，例如人“坐”轮椅、人“拄”拐杖、人“撑”伞、人“推”婴儿车等，因此为了得到更有效的用于检测物体的区域以提高检测物体的速度，例如可通过确定所检测到的人的人体姿态来确定用于检测物体的区域。例如，假设通过确定所检测到的人的人体姿态为“手拄拐杖”，则用于检测物体的区域通常位于人的下半身中靠近人的手部的位置，因此例如如图6E中所示，6E中的区域640和区域650表示用于检测物体的区域，且其是通过图6C中的区域620并结合所确定的人体姿态而得到的。此外，如上所述，除了检测人的区域和物体的区域，还可检测人的关键点和物体的关键点。因此，在再一种实现中，在人检测单元220所检测的是人的关键点的情况下，所检测到的人的关键点中的至少一个的周围的区域可被确定为用于检测物体(也即，检测物体的关键点)的区域，其中通过该种方式也可得到更有效的用于检测物体的区域以提高检测物体的速度。例如，假设人通常用右手拄拐杖，则可将表示右手的关键点的周围的区域确定为用于检测物体的区域。当然，也可将分别表示左手的关键点和表示右手的关键点的周围的区域确定为用于检测物体的区域。例如如图7A～6C中所示，其中，7A表示所接收到的图像，7B中的星型点表示所检测到的人的关键点，其中星型点710表示右手的关键点，星型点720表示左手的关键点，7C中的区域730表示用于检测物体的区域(也即，右手的关键点的周围的区域)，图7C中的区域740表示另一个用于检测物体的区域(也即，左手的关键点的周围的区域)。

返回图5，在确定了用于检测物体的区域后，在步骤S4320中，物体检测单元230或物体检测子单元基于共享特征和所确定的区域来检测物体(例如，检测物体的区域或检测物体的关键点)。

返回图4，S440在检测出接收到的图像中的人和物体后，在交互确定步骤S440中，交互确定单元240基于共享特征、所检测到的人和物体确定接收到的图像中的人-物交互信息(也即，人-物交互关系)。例如如图6A或图7A所示的图像，所确定的人-物交互关系为人手拄拐杖。

如上所述，一方面，由于本发明通过从图像中获取各操作都能使用的共享特征，因此使得本发明能以一阶段式的处理来实现人、物体和人-物交互关系的检测，从而可减少整个的检测处理的处理时间。另一方面，由于本发明仅需先检测出图像中的人，之后再基于所检测到的人的信息来确定需要从中检测物体的区域，因此使得本发明可缩小物体检测的范围，从而可改善整个的检测处理的检测精度并可进一步地减少整个的检测处理的处理时间。因此，根据本发明，可提高从视频/图像中检测出人、物体和人-物交互关系的检测速度和检测精度，从而可更好地满足向需要帮助的人提供帮助的及时性和准确性。

(神经网络的生成)

如上所述，在本发明的实施例中可利用预先生成的神经网络(例如如图3中所示的神经网络)来执行相应的操作。在本发明中，可利用深度学习方法(例如，神经网络方法)、基于在其中标注有人的区域/关键点、物体的区域/关键点和人-物交互关系等的训练样本来预先生成相应的神经网络。

在一种实现方式中，为了减少生成神经网络所需花费的时间，将通过反向传递方式来共同地更新神经网络中用于提取特征的部分、用于检测人的部分、用于检测物体的部分和用于确定人-物交互关系的部分。图8示意性地示出一种用于预先生成可用于本发明的实施例的神经网络的生成方法的流程图800。在图8所示的流程图800中将以利用神经网络方法来生成相应的神经网络为例进行说明，然而，显然不必局限于此。其中，参照图8的生成方法也可以通过图1所示的硬件结构100来执行。

如图8中所示，首先，如图1中所示的CPU 110通过输入设备150获取被预先设置好的初始神经网络和多张训练样本。其中，各训练样本中标记有人的区域/关键点、物体的区域/关键点和人-物交互关系。

然后，在步骤S810中，一方面，CPU 110将训练样本经由当前神经网络(例如，初始神经网络)以获得人的区域/关键点、物体的区域/关键点和人-物交互关系。也就是说，CPU110将训练样本依次经由当前神经网络中的用于提取特征的部分、用于检测人的部分、用于检测物体的部分和用于确定人-物交互关系的部分以获得人的区域/关键点、物体的区域/关键点和人-物交互关系。另一方面，对于所获得的人的区域/关键点，CPU 110确定所获得的人的区域/关键点与人的样本区域/关键点之间的损失(例如，第一损失，Loss1)。其中，人的样本区域/关键点可根据训练样本中所标记的人的区域/关键点获得。其中，第一损失Loss1表示利用当前神经网络获得的人的预测区域/关键点与人的样本区域/关键点(也即，真实区域/关键点)之间的误差，其中该误差例如可通过距离来衡量。

对于所获得的物体的区域/关键点，CPU 110确定所获得的物体的区域/关键点与物体的样本区域/关键点之间的损失(例如，第二损失，Loss2)。其中，物体的样本区域/关键点可根据训练样本中所标记的物体的区域/关键点获得。其中，第二损失Loss2表示利用当前神经网络获得的物体的预测区域/关键点与物体的样本区域/关键点(也即，真实区域/关键点)之间的误差，其中该误差例如可通过距离来衡量。

对于所获得的人-物交互关系，CPU 110确定所获得的人-物交互关系与样本人-物交互关系之间的损失(例如，第二损失，Loss3)。其中，样本人-物交互关系可根据训练样本中所标记的人-物交互关系获得。其中，第三损失Loss3表示利用当前神经网络获得的预测的人-物交互关系与样本人-物交互关系(也即，真实人-物交互关系)之间的误差，其中该误差例如可通过距离来衡量。

返回图8，在步骤S820中，CPU 110将基于确定得到的所有损失(也即，第一损失Loss1、第二损失Loss2和第三损失Loss3)判断当前神经网络是否满足预定条件。例如，将这三个损失的和或加权和与一阈值(例如，TH1)进行比较，在这三个损失的和/加权和小于或等于TH1的情况下，当前神经网络将被判断为满足预定条件而被作为最终的神经网络(也即，作为预先生成的神经网络)输出，其中该最终的神经网络例如可被输出到图1中所示的ROM 130或硬盘140中以用于如图2至图7C中所述的检测操作。在这三个损失的和/加权和大于TH1的情况下，当前神经网络将被判断为还不满足预定条件，则生成过程将进入步骤S830。

在步骤S830中，CPU 110基于第一损失Loss1、第二损失Loss2和第三损失Loss3更新当前神经网络，也即，依次更新当前神经网络中的用于确定人-物交互关系的部分、用于检测物体的部分、用于检测人的部分和用于提取特征的部分中各层的参数。其中，此处各层的参数例如是上述各部分中的各卷积层中的权重值。在一种实例中，例如利用随机梯度下降方法基于第一损失Loss1、第二损失Loss2和第三损失Loss3来更新各层的参数。之后，生成过程重新进入步骤S810。

在图8中所示的流程800中，是以第一损失Loss1、第二损失Loss2和第三损失Loss3这三个损失的和/加权和是否满足预定条件来作为停止更新当前神经网络的条件的。然而，显然不必局限于此。作为一种替换，例如可以省略步骤S820，而是在对当前神经网络的更新次数达到一个预定的次数后便停止相应的更新操作。

(应用)

此外，如上所述，本发明可由监控设备(例如，网络相机)实现。因此，作为一种应用，以本发明由网络相机实现为例，图9示出根据本发明的一种示例性图像处理装置900的布置。如图9中所示，图像处理装置900至少包括获取设备910、存储设备920和处理器930。显然，图像处理装置900还可包括未示出的输入设备、输出设备等。

如图9中所示，首先，获取设备910(例如，网络相机的光学系统)捕获感兴趣的地方(例如，监控场所)的图像/视频并将捕获的图像/视频传输到处理器930。其中，上述监控场所例如可以是需要进行安全监控、异常场景检测等的场所。

存储设备920存储有指令，其中所存储的指令至少是与如图4至图7C中所述的检测方法对应的指令。

处理器930，基于所捕获的图像/视频执行所存储的指令，使得其至少能实现如图4至图7C中所述的检测方法，从而可以检测出所捕获的图像/视频中的人、物体和人-物交互关系。

此外，在存储设备920还存储有后续的图像处理指令的情况下，例如判断监控场所是否出现异常场景(例如，是否出现需要向其提供帮助的人)等，则处理器930也可基于检测到的人-物交互关系执行相应的后续图像处理指令来实现相应的操作。在这种情况下，例如可通过网络将外部显示装置(未示出)与图像处理装置900连接，从而外部显示装置可以向用户/监控人员输出后续的图像处理结果(例如，出现需要向其提供帮助的人等)。作为一种替换，上述后续的图像处理指令也可通过外部处理器(未示出)来执行。在这种情况下，上述后续的图像处理指令例如存储在外部存储设备(未示出)中，并且例如可通过网络将图像处理装置900、外部存储设备、外部处理器和外部显示装置连接。从而，外部处理器可基于图像处理装置900检测到的人-物交互关系执行外部存储设备中所存储的后续图像处理指令，并且外部显示装置可向用户/监控人员输出后续的图像处理结果。

此外，如上所述，本发明也可由计算机(例如，客户端服务器)实现。因此，作为一种应用，以本发明由客户端服务器为例，图10示出根据本发明的一种示例性图像处理系统1000的布置。如图10中所示，图像处理系统1000包括获取装置1010(例如，至少一个网络相机)、处理装置1020和如图2中所示的检测装置200，其中获取装置1010、处理装置1020和检测装置200经由网络1030相互连接。其中，处理装置1020和图像处理装置200可通过同一客户端服务器来实现，也可分别通过不同的客户端服务器来实现。

如图10中所示，首先，获取装置1010捕获感兴趣的地方(例如，监控场所)的图像或视频并将捕获的图像/视频经由网络1030传输到检测装置200。其中，上述监控场所例如可以是需要进行安全监控、异常场景检测等的场所。

检测装置200参照图2至图7C从所捕获的图像/视频中检测人、物体和人-物交互关系。

处理装置1020基于所检测的人-物交互关系，执行后续的图像处理操作，例如判断监控场所是否出现异常场景(例如，是否出现需要向其提供帮助的人)等。例如，可将所检测到的人-物交互关系与预定义的异常规则进行比较来判断是否出现需要向其提供帮助的人。例如，假设预定义的异常规则为“当存在手拄拐杖或坐轮椅的人的情况下，需要向其提供帮助”，则在检测到的人-物交互关系为“人手拄拐杖或坐轮椅”的情况下，则例如可通过网络1030连接显示装置或报警装置，以便向用户/监控人员输出相应的图像处理结果(例如，出现需要向其提供帮助的人等)。

上述的所有单元都是用于实现本公开中所述处理的示例性和/或优选模块。这些单元可以是硬件单元(诸如，现场可编程门阵列(FPGA)、数字信号处理器、专用集成电路等)和/或软件模块(诸如，计算机可读程序)。上面没有详尽地描述用于实现各步骤的单元。然而，当存在执行特定过程的步骤的情况下，可以存在用于实现该同一过程的对应功能模块或单元(通过硬件和/或软件实现)。通过描述的步骤和对应于这些步骤的单元的所有组合的技术方案包括在本申请的公开内容中，只要它们所构成的技术方案是完整的、适用的即可。

可以以多种方式来实施本发明的方法和装置。例如，可以通过软件、硬件、固件或其任何组合来实施本发明的方法和装置。除非另有具体说明，否则本方法的步骤的上述顺序仅旨在是说明性的，并且本发明的方法的步骤不局限于上述具体描述的顺序。此外，在一些实施例中，本发明还可以被实施为在记录介质中记录的程序，其包括用于实现根据本发明的方法的机器可读指令。因此，本发明也覆盖存储用于实现根据本发明的方法的程序的记录介质。

虽然已经通过示例详细地展示了本发明的一些具体实施例，但是本领域的技术人员应该理解，上述示例仅旨在是说明性的，并不限制本发明的范围。本领域的技术人员应该理解，上述实施例可以在不脱离本发明的范围和精神的情况下被修改。本发明的范围由所附权利要求约束。

Claims

1.一种检测装置，其特征在于，所述检测装置包括：

特征提取单元，从图像中提取特征；

人检测单元，基于所述特征检测所述图像中的人；

物体检测单元，基于所述特征检测在所检测到的人的周围区域中的物体；以及

交互确定单元，基于所述特征、所检测到的人和所检测到的物体确定所述图像中的人-物交互信息。

2.根据权利要求1所述的检测装置，其中，所述人检测单元和所述物体检测单元所执行的检测操作是检测人和物体的区域或检测人和物体的关键点。

3.根据权利要求2所述的检测装置，其中，基于待检测的物体的类别来确定所检测到的人的至少一个部件；其中，所述周围区域是所确定的至少一个部件的周围的区域。

4.根据权利要求3所述的检测装置，其中，所确定的至少一个部件为所检测到的人的下半身。

5.根据权利要求3所述的检测装置，其中，通过确定所检测到的人的人体姿态来确定所述周围区域。

6.根据权利要求3所述的检测装置，其中，在所检测的是人的关键点的情况下，所述周围区域是所述人的关键点中的至少一个的周围的区域。

7.根据权利要求1所述的检测装置，其中，所述特征提取单元、所述人检测单元、所述物体检测单元和所述交互确定单元利用预先生成的神经网络执行相应的操作。

8.一种检测方法，其特征在于，所述检测方法包括：

特征提取步骤，从图像中提取特征；

人检测步骤，基于所述特征检测所述图像中的人；

物体检测步骤，基于所述特征检测在所检测到的人的周围区域的物体；以及

交互确定步骤，基于所述特征、所检测到的人和所检测到的物体确定所述图像中的人-物交互信息。

9.根据权利要求8所述的检测方法，其中，在所述人检测步骤和所述物体检测步骤中，所执行的检测操作是检测人和物体的区域或检测人和物体的关键点。

10.根据权利要求9所述的检测方法，其中，基于待检测的物体的类别来确定所检测到的人的至少一个部件；其中，所述周围区域是所确定的至少一个部件的周围的区域。

11.根据权利要求10所述的检测方法，其中，通过确定所检测到的人的人体姿态来确定所述周围区域。

12.根据权利要求10所述的检测方法，其中，在所检测的是人的关键点的情况下，所述周围区域是所述人的关键点中的至少一个周围的区域。

13.一种图像处理装置，其特征在于，所述图像处理装置包括：

获取设备，用于获取图像或视频；

存储设备，存储有指令；以及

处理器，基于所获得的图像或视频执行所述指令，使得所述处理器至少实现如权利要求8至12中任一项所述的检测方法。

14.一种图像处理系统，其特征在于，所述图像处理系统包括：

获取设备，用于获取图像或视频；

根据权利要求1至7中的任一项所述的检测装置，从所获取的图像或视频中检测人、物体和人-物交互信息；以及

处理装置，基于所检测的人-物交互信息，执行后续的图像处理操作；

其中，所述获取装置、所述检测装置和所述处理装置经由网络相互连接。