CN111428535A

CN111428535A - 图像处理装置和方法及图像处理系统

Info

Publication number: CN111428535A
Application number: CN201910018399.9A
Authority: CN
Inventors: 张志远; 黄耀海; 汪德宇
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2019-01-09
Filing date: 2019-01-09
Publication date: 2020-07-17
Also published as: US20200219269A1; US11170512B2

Abstract

本发明公开了一种图像处理装置和方法及图像处理系统。所述图像处理装置包括：从一段视频的视频帧中提取特征的单元；对于非初始视频帧，相对于在其前一视频帧中所检测到的对象的对象信息，确定对象在相应的非初始视频帧中的参考信息的单元；以及，基于所述特征从初始视频帧中检测对象且基于所述特征及所确定的参考信息从非初始视频帧中检测对象的单元。根据本发明，可减少对象检测处理的处理时间，进而可更好地满足视频中对象检测的实时性要求。

Description

图像处理装置和方法及图像处理系统

技术领域

本发明涉及图像处理，尤其涉及例如视频中对象的检测和/或跟踪。

背景技术

在视频监控处理中，实时地检测和跟踪视频中的对象(例如，特定目标)是一项关键任务。例如，在安全监控方面，通过对从监控场所实时获取的视频中的可疑目标(例如，可疑人物)进行实时地检测和跟踪，可迅速地定位出可疑目标在监控场所中的位置，从而可使得监控人员及时做出后续的处理。例如，在场景理解方面，通过对某一场景的视频中的对象进行实时地检测和跟踪及通过分析所检测到的对象及其运动轨迹，可获得该场景的类别及实时的状况。例如，该场景是十字路口还是单行道、该场景是人行道还是跑道、及该场景是否出现拥挤状况等。

在检测和跟踪视频中的对象的过程中，通常会通过逐帧检测对象然后关联检测到的对象来进行对象跟踪，或者通过检测关键视频帧中的对象然后用跟踪算法来进行对象跟踪。近年来，随着神经网络的发展，神经网络在对象检测中取得了很大的进展，“ObjectDetection in Videos with Tubelet Proposal Networks”(Kai Kang,Hongsheng Li,Tong Xiao,Wanli Ouyang,Junjie Yan,Xihui Liu,Xiaogang Wang；CVPR2017)中公开了一种示例性的利用神经网络检测视频中的对象的方法。该示例性方法主要为：先通过一个用于对象定位的神经网络(例如，Tubelet Proposal Networks(管道推荐网络))来定位一段视频中的非初始视频帧中的对象，然后通过一个用于对象分类的神经网络(例如，LongShort-Term Memory Networks(长短期记忆网络))对定位结果进行分类以得到最终的对象检测结果。其中，对于视频中的初始视频帧，该示例性方法检测对象在其中的位置并将该位置作为对象在各非初始视频中的初始位置以实现对非初始视频帧中的对象的检测。

如上所述，可知在对视频中的对象进行检测的过程中，上述的示例性方法是通过两个独立的阶段(也即，对象定位阶段和对象分类阶段)来实现对象检测的。由于两个阶段的操作需要进行两次的网络计算，例如需要进行两次的特征提取(例如，提取用于对象定位的特征、提取用于对象分类的特征)、需要分别地进行定位和分类操作等，从而使得整个的对象检测处理需要耗费更多的处理时间，进而影响对视频中的对象进行检测和跟踪的实时性要求，也即影响视频监控的实时性要求。

发明内容

鉴于上面的背景技术中的记载，本发明旨在解决上述问题中的至少一点。

根据本发明的一个方面，提供一种图像处理装置，所述图像处理装置包括：提取单元，从一段视频的视频帧中提取特征；确定单元，对于所述视频中的非初始视频帧，相对于在其前一视频帧中所检测到的对象的对象信息，确定对象在相应的非初始视频帧中的参考信息；以及检测单元，对于所述视频中的初始视频帧，基于所述特征从该初始视频帧中检测对象；对于所述视频中的非初始视频帧，基于所述特征及所确定的参考信息从相应的非初始视频帧中检测对象。其中，所述一段视频例如包含N个视频帧，其中N为自然数且N≥3。其中，在一个视频帧中所检测到的一个对象的对象信息至少包括：该对象在该视频帧中的位置、该对象在下一个视频帧的各区域中出现的出现概率。其中，所述检测单元所执行的对象检测操作为检测视频帧中的对象的区域或检测视频中的对象的关键点。其中，所述图像处理装置利用预先生成的神经网络执行相应的操作。

根据本发明的另一个方面，提供一种图像处理方法，所述图像处理方法包括：提取步骤，从一段视频的视频帧中提取特征；确定步骤，对于所述视频中的非初始视频帧，相对于在其前一视频帧中所检测到的对象的对象信息，确定对象在相应的非初始视频帧中的参考信息；以及检测步骤，对于所述视频中的初始视频帧，基于所述特征从该初始视频帧中检测对象；对于所述视频中的非初始视频帧，基于所述特征及所确定的参考信息从相应的非初始视频帧中检测对象。其中，所述一段视频例如包含N个视频帧，其中N为自然数且N≥3。其中，在一个视频帧中所检测到的一个对象的对象信息至少包括：该对象在该视频帧中的位置、该对象在下一个视频帧的各区域中出现的出现概率。其中，在所述检测步骤中，所执行的对象检测操作为检测视频帧中的对象的区域或检测视频中的对象的关键点。其中，所述图像处理方法利用预先生成的神经网络执行相应的操作。

根据本发明的再一方面，提供一种图像处理装置，所述图像处理装置包括：获取设备，用于获取一段视频；存储设备，存储有指令；以及处理器，基于所获得的视频执行所述指令，使得所述处理器至少实现如上所述的图像处理方法。

根据本发明的又一方面，提供一种图像处理系统，所述图像处理系统包括：获取设备，用于获取一段视频；如上所述的图像处理装置，从所获取的视频中检测对象；以及后续处理装置，基于所检测的对象，执行后续的图像处理操作；其中，所述获取装置、所述图像处理装置和所述后续处理装置经由网络相互连接。

由于本发明通过获取各操作都能使用的特征及通过前一视频帧中检测到的对象(尤其是，对象信息)来关联/约束后一视频帧中的对象的检测，因此使得本发明能以一阶段式的处理来实现视频中对象的检测，从而可减少整个的对象检测处理的处理时间，进而可更好地满足对视频中的对象进行检测的实时性要求，也即可更好地满足视频监控的实时性要求。此外，由于本发明是以一阶段式的处理来对视频中的对象进行检测的，因此不会涉及需要额外的存储空间来存储例如中间处理阶段所得到的信息(例如，特征等信息)，从而也可节省存储空间。

通过以下参考附图对典型实施例的说明，本发明的其它特征和优点将变得明显。

附图说明

并入说明书中并构成说明书的一部分的附图例示本发明的实施例，并且与实施例的描述一起用于解释本发明的原理。

图1是示意性地示出可实现根据本发明实施例的技术的硬件构造的框图。

图2是例示根据本发明实施例的图像处理装置的构造的框图。

图3示意性地示出了一种共享特征的示例。

图4示意性地示出根据本发明实施例的图像处理方法的一种流程图。

图5示意性地示出根据本发明实施例的如图4中所示的确定步骤S430的一种流程图。

图6示意性地示出一种确定候选锚点的示例。

图7示意性地示出另一种确定候选锚点的示例。

图8示意性地示出再一种确定候选锚点的示例。

图9示意性地示出又一种确定候选锚点的示例。

图10示意性地示出一个对象的可能运动方向的示例。

图11示意性地示出根据本发明实施例的图像处理方法的另一种流程图。

图12示意性地示出根据本发明对一段视频中的两个对象所构成的锚点流的示例。

图13A～13C示意性地示出了根据本发明的对象检测结果的示例。

图14示意性地示出一种用于预先生成可用于本发明实施例的第一神经网络的生成方法的流程图。

图15A～15C示意性地示出在一个视频帧样本中所构建的锚点响应图和区域图的示例。

图16示意性示出在本发明实施例中用到的预先生成的第二神经网络的示意性结构。

图17示意性地示出一种用于预先生成可用于本发明实施例的第二神经网络的生成方法的流程图。

图18A～18B示意性地示出在一个视频帧样本中所构建的锚点响应图的另一种示例。

图19A～19B示意性地示出在一个视频帧样本中所构建的锚点响应图的再一种示例。

图20示出根据本发明的一种示例性应用装置的布置。

图21示出根据本发明的一种示例性应用系统的布置。

具体实施方式

下面将参照附图详细地描述本发明的示例性实施例。应注意，下面的描述实质上仅为说明性和示例性的，并且决不意图限制本发明及其应用或用途。除非另有具体说明，否则实施例中阐述的组件和步骤的相对布置、数值表达式和数值并不限制本发明的范围。另外，本领域技术人员已知的技术、方法和设备可能不会被详细地讨论，但在适当的情形中其应当是本说明书的一部分。

请注意，相似的附图标记和字母指代附图中相似的项目，因此，一旦一个项目在一个附图中被定义，则不必在下面的附图中对其进行讨论。

对于一段视频而言，一方面，通常一个对象在相邻视频帧中的相关信息(也即，对象信息)的变化较小，其中，一个对象在一个视频帧中的对象信息例如包括对象的位置、对象在下一个视频帧的各区域中出现的出现概率、对象的区域的宽高、对象的类别等。因此，发明人认为，对于一个视频帧(初始视频帧除外)及在其中的一个对象而言，可基于在该视频帧的前一视频帧中所检测到的对象信息来确定该对象在该视频帧中的参考信息，并可基于所确定的参考信息利用例如回归算法来确定该对象的偏移以得到该对象在该视频帧中的对象信息。其中，在本发明中，上述对象信息例如可被视为锚点(anchor)，上述参考信息例如可被视为参考锚点。另一方面，通常从相邻视频帧中所提取的特征(例如，视觉特征)的变化较小且是相关联的。因此，发明人认为，可通过融合从相邻视频帧中所提取的相应特征来获得可表示整段视频的内容的特征(例如，可被视为共享特征)，并可将该共享特征用于视频中对象检测处理的各操作中。从而，发明人认为，可通过上述分析的两个方面来以一阶段式的处理来实现视频中对象的检测。此外，如上所述，后一视频帧中的对象的检测需要参照前一视频帧中的对象的检测结果，因此，对于一段视频帧中的一个对象而言，可通过在各视频帧中检测到的对象信息所构成的信息流(例如，可被视为锚点流)来关联该对象。从而，发明人认为，在通过一阶段式的处理对视频中的对象进行检测的同时也可实现对视频中对象的跟踪。

从而，一方面，由于可通过一阶段式的处理来实现视频中对象的检测，因此，根据本发明可提高视频中对象检测的处理速度，也即，可减少视频中对象检测的处理时间。另一方面，由于在通过一阶段式的处理来实现视频中对象的检测的同时也可实现对视频中对象的跟踪，因此，根据本发明可提高视频中对象检测和跟踪的处理速度，也即，可减少视频中对象检测和跟踪的处理时间。从而，根据本发明可更好地满足对视频中的对象进行检测和跟踪的实时性要求，也即可更好地满足视频监控的实时性要求。此外，由于本发明是以一阶段式的处理来对视频中的对象进行检测的，因此不会涉及需要额外的存储空间来存储例如中间处理阶段所得到的信息(例如，特征等信息)，从而也可节省存储空间。

(硬件构造)

首先将参照图1描述可实现下文中描述的技术的硬件构造。

硬件构造100例如包括中央处理单元(CPU)110、随机存取存储器(RAM)120、只读存储器(ROM)130、硬盘140、输入设备150、输出设备160、网络接口170和系统总线180。此外，在一种实现方式中，硬件构造100可由计算机实现，诸如平板电脑、笔记本电脑、台式电脑或其他合适的电子设备。在另一种实现方式中，硬件构造100可由监控设备实现，诸如数码相机、摄像机、网络相机或其他合适的电子设备。其中，在硬件构造100由监控设备实现的情况下，硬件构造100还包括例如光学系统190。

在一种实现方式中，根据本发明的图像处理装置由硬件或固件构造并且用作硬件构造100的模块或组件。例如，将在下文参照图2详细描述的图像处理装置200用作硬件构造100的模块或组件。在另一种实现方式中，根据本发明的图像处理装置由存储在ROM 130或硬盘140中且由CPU 110执行的软件构造。例如，将在下文参照图3详细描述的过程300和将在下文参照图11详细描述的过程1100用作存储在ROM 130或硬盘140中的程序。

CPU 110是任意合适的可编程控制设备(诸如，处理器)，并且可通过执行存储在ROM 130或硬盘140(诸如，存储器)中的各种应用程序来执行下文中要描述的各种功能。RAM120用于临时存储从ROM 130或硬盘140加载的程序或数据，并且也被用作CPU 110在其中执行各种过程(诸如，实施将在下文参照图4至图11、图14、图17详细描述的技术)以及其他可用功能的空间。硬盘140存储诸如操作系统(OS)、各种应用、控制程序、视频、图像、预先生成的网络(例如，神经网络)、预先定义的数据(例如，阈值(THs))等多种信息。

在一种实现方式中，输入设备150用于允许用户与硬件构造100交互。在一个实例中，用户可通过输入设备150输入视频/数据。在另一实例中，用户可通过输入设备150触发本发明的对应处理。此外，输入设备150可采用多种形式，诸如按钮、键盘或触摸屏。在另一种实现方式中，输入设备150用于接收从诸如数码相机、摄像机和/或网络相机等专门电子设备输出的视频。另外，在硬件构造100由监控设备实现的情况下，硬件构造100中的光学系统190将直接捕获监控位置的视频。

在一种实现方式中，输出设备160用于向用户显示处理结果(诸如，检测出的对象)。而且，输出设备160可采用诸如阴极射线管(CRT)或液晶显示器等各种形式。在另一种实现方式中，输出设备160用于向诸如安全监控、场景理解等的后续图像处理输出处理结果。

网络接口170提供用于将硬件构造100连接到网络的接口。例如，硬件构造100可经由网络接口170与经由网络连接的其他电子设备进行数据通信。可选地，可以为硬件构造100提供无线接口以进行无线数据通信。系统总线180可以提供用于在CPU 110、RAM 120、ROM 130、硬盘140、输入设备150、输出设备160、网络接口170和光学系统190等之间相互传输数据的数据传输路径。虽然被称为总线，但是系统总线180并不限于任何特定的数据传输技术。

上述硬件构造100仅仅是说明性的，并且决不意图限制本发明、其应用或用途。而且，为了简明起见，图1中只示出一个硬件构造。但是，根据需要也可以使用多个硬件构造。

(图像处理装置和方法)

接下来将参照图2至图13C描述根据本发明的图像处理。

图2是例示根据本发明实施例的图像处理装置200的构造的框图。其中，图2中所示的一些或全部模块可由专用硬件实现。如图2中所示，图像处理装置200包括提取单元210、确定单元220和检测单元230。其中，图像处理装置200例如可用于从视频中检测出对象(例如，人体、车辆等物体)。

另外，图2中所示的存储设备240例如至少存储有由确定单元220所确定的信息(例如，参考信息、参考锚点)和由检测单元所检测的信息(例如，对象信息、锚点)。在一种实现中，存储设备240为图1中所示的ROM 130或硬盘140。在另一种实现方式中，存储设备240为经由网络(未示出)与图像处理装置200连接的服务器或外部存储设备。

首先，在一种实现方式中，例如，在图1中所示的硬件构造100由计算机实现的情况下，输入设备150接收从专门电子设备(例如，摄像机等)输出或由用户输入的一段视频。接着，输入设备150经由系统总线180将所接收视频传输到图像处理装置200。在另一种实现方式中，例如，在硬件构造100由监控设备实现的情况下，图像处理装置200直接使用由光学系统190捕获的一段视频。

然后，如图2中所示，提取单元210从所接收到的视频的视频帧中提取特征。在本发明中，所提取的特征例如可被视为共享特征，然而显然不限于此。其中，所接收到的视频例如包含N个视频帧，其中N为自然数且N≥3。在本发明中，提取单元210例如从所接收到的视频的各视频帧中提取第一特征来获得共享特征。在一种实现方式中，提取单元210可通过将从相邻视频帧中分别提取出的第一特征接连在一起来获得共享特征。例如，图3示意性地示出了一种共享特征的示例。如图3中所示，310例如表示从初始视频帧中提取的第一特征，320例如表示从其中一个非初始视频帧(例如，第2个视频帧)中提取的第一特征，330例如表示所获得的共享特征。

在一种实现中，提取单元210例如通过利用已有的特征提取算法或预先生成的神经网络从相邻视频帧中分别提取第一特征。在另一种实现中，由于相邻视频帧之间的特征具有很高的相似性和互补性，因此在从视频中的初始视频帧中提取了相应的特征(例如，全局特征)后，从视频中的相邻的非初始视频帧的低分辨率图像中提取相应的特征便可，其中例如通过下采样的方式获得非初始视频帧的低分辨率图像。从而，为了减少重复性的计算以提高视频中对象检测的处理速度，提取单元210例如通过利用已有的特征提取算法或预先生成的神经网络从初始视频帧的原始图像和相邻的非初始视频帧的低分辨率图像中分别提取第一特征。然而显然不限于此。其中，可采用的特征提取算法例如为局部二值模式(LBP)算法、方向梯度直方图(HOG)算法等。其中，预先生成的神经网络例如为VGG16结构、ResNet结构、SENet结构等。在本发明中，该预先生成的神经网络例如可被视为第二神经网络并存储在存储设备240中。其中，在下文中，将参照图16至图19B详细地描述预先生成该第二神经网络的方法。

返回图2，在提取单元210获得共享特征后，一方面，对于初始视频帧，检测单元230基于共享特征利用例如回归算法从该初始视频帧中检测对象，并将检测到的对象的对象信息例如存储到存储设备240中。另一方面，对于相邻的非初始视频帧(例如，第2个视频帧，…，第n个视频帧等)，首先，确定单元220例如从存储设备240中获取在非初始视频帧的前一视频帧中所检测到的对象的对象信息，并相对于所获取的对象信息确定对象在相应的非初始视频帧中的参考信息。同时，确定单元220也可将确定的参考信息例如存储到存储设备240中。然后，检测单元230基于共享特征及所确定的参考信息利用例如回归算法从相应的非初始视频帧中检测对象，并将检测到的对象的对象信息例如也存储到存储设备240中。在下文中，上述对象信息例如被称为锚点(anchor)，上述参考信息例如被称为参考锚点。

在本发明中，对于视频中的各视频帧，检测单元230所执行的对象检测操作为检测各视频帧中的对象的区域或检测各视频帧中的对象的关键点。此外，作为一种替换，也可通过专门的对象检测单元(未示出)和专门的关键点检测单元(未示出)来分别地执行相应的检测操作。

在本发明中，在检测单元230检测的是各视频帧中的对象的区域的情况下，在一个视频帧中所检测到的一个对象的锚点至少包括：该对象在该视频帧中的位置、该对象在下一个视频帧的各区域中出现的出现概率。同时，该锚点还可包括：该对象的区域的宽高信息、该对象的类别信息等。在检测单元230检测的是各视频帧中的对象的关键点的情况下，在一个视频帧中所检测到的一个对象的锚点至少包括：该对象在该视频帧中的位置、该对象在下一个视频帧的各区域中出现的出现概率。同时，该锚点还可包括：该对象的区域的宽高信息、该对象的类别信息、该对象的各关键点在该视频帧中的位置等。

如上所述，对于一段视频帧中的一个对象而言，可通过在各视频帧中检测到的锚点所构成的锚点流来关联该对象。从而，图像处理装置200可进一步地包括跟踪单元250。其中，跟踪单元250例如从存储设备240中获取在初始视频帧中所检测到的对象的锚点和在非初始视频帧中所确定的参考锚点来关联所接收到的视频中的各视频帧中的对象。具体地，跟踪单元250通过利用在初始视频帧中所检测到的对象的锚点和在非初始视频帧中所确定的参考锚点来构成锚点流，并基于所构成的锚点流来关联所接收到的视频中的各视频帧中的对象以达到跟踪视频中的对象的目的。

此外，如上所述，提取单元210可利用存储在例如存储设备240中的预先生成的第二神经网络来执行相应的操作。同样地，确定单元220和检测单元230也可利用存储在例如存储设备240中的预先生成的第二神经网络来执行相应的操作。其中，在下文中，也将参照图16至图20B详细地描述预先生成该第二神经网络的方法。

最后，检测单元230或跟踪单元250经由图1中所示的系统总线180将处理结果(例如，检测/跟踪的对象)传输至输出设备160，用于向用户显示所检测/跟踪的对象或用于向诸如安全监控、场景理解等的后续图像处理输出处理结果。

图4中所示的流程图400是图2中所示的图像处理装置200的一种对应过程。

如图4中所示，在提取步骤S410中，提取单元210从所接收到的视频的视频帧中提取特征。也即，提取单元210从所接收到的视频的相邻视频帧中提取第一特征来获得共享特征。

在获得共享特征后，对于初始视频帧(也即，第1个视频帧)，在步骤S420中，检测单元230基于共享特征利用例如回归算法从该初始视频帧中检测对象，并将检测到的对象的锚点存储到存储设备240中。对于一个非初始视频帧(例如，第n个视频帧，其中例如n＝2)，在确定步骤S430中，确定单元220从存储设备240中获取第n个视频帧的前一视频帧(也即，第n-1个视频帧)中所检测到的对象的锚点，并相对于所获取的锚点确定对象在第n个视频帧中的参考锚点。同时，确定单元220也可将确定的参考锚点存储到存储设备240中。其中，2≤n≤N，N表示所接收到的视频的总长度。

如上所述，对于一段视频而言，通常一个对象在相邻视频帧中的相关信息(也即，锚点)的变化较小。因此，对于第n个视频帧，可从第n个视频帧中的相对于在第n-1个视频帧中所检测到的对象的锚点的周围来确定对象在第n个视频帧中的参考锚点。进一步地，如上所述，无论是检测视频帧中的对象的区域还是检测视频帧中的对象的关键点，在一个视频帧中所检测到的一个对象的锚点至少包括：该对象在该视频帧中的位置、该对象在下一个视频帧的各区域中出现的出现概率。从而，在一种实现方式中，对于第n个视频帧，确定单元220基于在第n-1个视频帧中所检测到的对象的位置，通过从第n个视频帧的对应位置的周围区域中确定对象在第n个视频帧中的候选信息来确定对象在第n个视频帧中的参考锚点。在本发明中，上述候选信息例如可被视为候选锚点。在下文中，上述候选信息例如被称为候选锚点。具体地，对于第n-1个视频帧中的一个对象，确定单元220参照图5确定该对象在第n个视频帧中的参考锚点。在这种情况下，图2中所示的确定单元220例如可包括候选锚点确定单元(未示出)和参考锚点确定单元(未示出)。

如图5中所示，在步骤S4310中，一方面，确定单元220或候选锚点确定单元从存储设备240中获得该对象在第n-1个视频帧中的位置，并在第n个视频帧中确定与该位置对应的位置(例如，可被视为“对应位置”)。另一方面，确定单元220或候选锚点确定单元从该对应位置的周围区域中确定该对象在第n个视频帧中的候选锚点。

在一种实现中，确定单元220或候选锚点确定单元可将在第n个视频帧中确定的对应位置的相邻位置处的锚点直接确定为该对象在第n个视频帧中的候选锚点。例如，如图6中所示，假设610表示第n-1个视频帧，其中该视频帧中的一个对象例如为人体611。假设第n-1个视频帧例如通过特征图620来表示，其中621例如表示人体611在该视频帧中的位置。假设第n个视频帧例如通过特征图630来表示，其中631例如表示在该视频帧中确定的对应位置，其中631周围的灰色区域部分例如表示所确定的候选锚点。

在另一种实现中，由于一段视频中同一时刻的不同对象或不同时刻的同一对象的尺度通常会存在差异，为了能够更加准确地确定候选锚点以改善对象检测的精度，确定单元220或候选锚点确定单元可基于该对象在第n-1个视频帧中的尺度，从在第n个视频帧中确定的对应位置的周围区域中确定该对象在第n个视频帧中的候选锚点。具体地，确定单元220或候选锚点确定单元可基于在第n-1个视频帧中所检测到的该对象的区域的宽高信息确定该对象在整个的第n-1个视频帧中所占的比例，并基于该比例从在第n个视频帧中确定的对应位置的周围区域中确定该对象在第n个视频帧中的候选锚点。例如，如图7中所示，假设710表示第n-1个视频帧，其中该视频帧中的一个对象例如为人体711、另一个对象例如为人体712；从图中可知，人体711的尺度比人体712的尺度大，假设整个的第n-1个视频帧的长宽信息为7*7，假设人体711在第n-1个视频帧中的长宽信息是4*3，人体712在第n-1个视频帧中的长宽信息是3*3，则可知，人体711在第n-1个视频帧中所占的比例为4*3，人体712在第n-1个视频帧中所占的比例为3*3。假设第n-1个视频帧例如通过特征图720来表示，其中721例如表示人体711在该视频帧中的位置，722例如表示人体712在该视频帧中的位置。假设第n个视频帧例如通过特征图730来表示，假设整个的第n个视频帧的长宽信息也为7*7，其中731例如表示针对人体711在该视频帧中确定的对应位置，732例如表示针对人体712在该视频帧中确定的对应位置；其中，根据人体711在第n-1个视频帧中所占的比例，731周围的灰色区域部分例如表示所确定的针对人体711的候选锚点；其中，根据人体712在第n-1个视频帧中所占的比例，732周围的由小方格构成的区域部分例如表示所确定的针对人体712的候选锚点。

在再一种实现中，由于一段视频中视频帧间的对象具有运动信息，为了能够确定更加合适的候选锚点以提高对象检测的速度，确定单元220或候选锚点确定单元可基于该对象从第n-1个视频帧到第n个视频帧时的运动趋势，从在第n个视频帧中确定的对应位置的周围区域中确定该对象在第n个视频帧中的候选锚点。在一种实现中，对象从第n-1个视频帧到第n个视频帧时的运动趋势例如可通过利用已有的光流算法来获得。在另一种实现中，对象从第n-1个视频帧到第n个视频帧时的运动趋势例如可基于对象在第n-1个视频帧中的表观信息(例如，尺度不变特征变换(SIFT)特征、方向梯度直方图(HOG)特征等)来确定。例如，通过人体面部的朝向可确定人体的运动趋势，通过汽车的车头朝向可确定汽车的运动趋势。在再一种实现中，对象从第n-1个视频帧到第n个视频帧时的运动趋势例如可基于对象在第n-1个视频帧中的关键点信息来确定。例如，通过人体的左右臂和左右腿的关节点信息可确定人体的朝前后方向的运动趋势，通过人体的尺度及人体的左右肩和左右臀的关节点信息可确定人体的朝左右方向的运动趋势。例如，如图8中所示，假设810表示第n-1个视频帧，其中该视频帧中的一个对象例如为人体811，其中810中的箭头例如表示人体811的运动趋势。假设第n-1个视频帧例如通过特征图820来表示，其中821例如表示人体811在该视频帧中的位置。假设第n个视频帧例如通过特征图830来表示，其中831例如表示在该视频帧中确定的对应位置，其中831周围的灰色区域部分例如表示所确定的候选锚点。此外，也可同时利用对象的尺度和运动趋势来确定对象在第n个视频帧中的候选锚点。例如，在利用对象的尺度来确定对象在第n个视频帧中的候选锚点后，再利用对象的运动信息来进一步地确定候选锚点，则相对于仅利用对象的尺度来确定候选锚点的情况，可提高对象检测的速度。例如，在利用对象的运动趋势来确定对象在第n个视频帧中的候选锚点后，再利用对象的尺度来进一步地确定候选锚点，则相对于仅利用对象的运动趋势来确定候选锚点的情况，可改善对象检测的精度。

在又一种实现中，为了使得本发明能够自适应地应用于各种场景以得到更加鲁棒的候选锚点，从而改善对象检测的精度，确定单元220或候选锚点确定单元可基于由图4中所示的提取步骤S410所提取的共享特征，经由预先生成的神经网络(例如，可被视为第一神经网络)从在第n个视频帧中确定的对应位置的周围区域中确定该对象在第n个视频帧中的候选锚点。其中，该预先生成的第一神经网络例如也可存储在存储设备240中，显然不限于此。在下文中，将参照图14至图15C详细地描述预先生成该第一神经网络的方法。例如，如图9中所示，假设第n-1个视频帧例如通过特征图910来表示，其中911例如表示一个对象在第n-1个视频帧中的位置。假设第n个视频帧例如通过特征图920来表示，其中921例如表示在该视频帧中确定的对应位置，其中921周围的灰色区域部分例如表示所确定的候选锚点。

返回图5，对于第n-1个视频帧中的一个对象，在确定了该对象在第n个视频帧中的候选锚点后，在步骤S4320中，一方面，确定单元220或参考锚点确定单元从存储设备240中获得在第n-1个视频帧中所检测到的该对象在第n个视频帧的各区域中出现的出现概率。其中，例如如图10中所示，假设第n-1个视频帧例如通过特征图1010来表示，其中1011例如表示该对象在第n-1个视频帧中的位置；则该对象向第n个视频帧的各区域可能运动的方向例如如图10中的1020所示，其中1020中的各箭头例如表示该对象的可能运动方向，然而显然不限于此。从而，沿着该对象的每一个可能的运动方向所涉及的区域，都存在一个相应的出现概率。根据上述确定候选锚点的过程可知，所确定的该对象在第n个视频帧中的每一个候选锚点都对应一个出现概率。

因此，另一方面，在获得出现概率后，确定单元220或参考锚点确定单元基于所获得的出现概率从所确定的候选锚点中确定该对象在第n个视频帧中的参考锚点。在一种实现中，可将具有最大出现概率的候选锚点确定为该对象在第n个视频帧中的参考锚点。其中，若有多个候选锚点具有相同且最大的出现概率，则可任意选择其中的一个候选锚点作为该对象在第n个视频帧中的参考锚点。在另一种实现中，可通过已有的动态规划算法基于所确定的候选锚点来确定该对象在第n个视频帧中的参考锚点。

返回图4，在确定了对象在第n个视频帧中的参考锚点后，在步骤S440中，检测单元230基于在提取步骤S410中提取的共享特征及在确定步骤S430中所确定的参考锚点利用例如回归算法从第n个视频帧中检测对象，并将检测到的对象的锚点例如也存储到存储设备240中。

在步骤S450中，图2中所示的图像处理装置200判断所有的视频帧是否均被处理完，也即，判断n是否大于N。若判断n大于N，则结束图4中所示的流程图400的过程。否则，在步骤S460中，将设置n＝n+1，并重复执行从步骤S430至步骤S450的对应操作。

最后，返回图4，检测单元230经由图1中所示的系统总线180将处理结果(例如，检测的对象)传输至输出设备160，用于向用户显示所检测的对象或用于向诸如安全监控、场景理解等的后续图像处理输出处理结果。

此外，如上所述，图2中所示的图像处理装置200可进一步地用于跟踪视频中的对象。从而，图11中所示的流程图1100是图2中所示的图像处理装置200的另一种对应过程。

如图11中所示，由于步骤S410至步骤S460的操作与图4中所示的步骤S410至步骤S460的操作相同，在此不再赘述。

在经由步骤S440检测出第n个视频帧中的对象后，在跟踪步骤S1110中，跟踪单元250从存储设备240中获取在第n-1个视频帧和第n个视频帧中所确定的参考锚点来关联这两个视频帧中的对象。其中，在n＝2的情况下，对于第n-1个视频帧(也即，初始视频帧)，所获得的是在初始视频帧中所检测到的对象的锚点。具体地，对于在第n个视频帧中所检测到的对象中的任意一个对象，跟踪单元250通过利用在第n-1个视频帧和第n个视频帧中所确定的对应于该对象的参考锚点来构成一个锚点流，并基于该锚点流来关联这两个视频帧中的相应对象。然后在步骤S450中，图2中所示的图像处理装置200判断所有的视频帧是否均被处理完，也即，判断n是否大于N。若判断n大于N，则结束图11中所示的流程图1100的过程。否则，在步骤S460中，将设置n＝n+1，并重复执行从步骤S430至步骤S450和步骤S1110的对应操作以达到跟踪视频中的对象的目的。其中，对于一段视频中的一个对象，例如可通过直接连接所确定的对应于该对象的参考锚点中的对象的位置来构成相应的锚点流，从而达到跟踪该对象的目的。例如如图12中所示，假设一段视频中的初始视频帧通过特征图1201来表示，第2个视频帧通过特征图1202来表示，第3个视频帧通过特征图1203来表示，第n个视频帧通过特征图120n来表示。假设在初始视频帧中，分别检测出两个对象，其中1211和1221例如分别表示这两个对象在初始视频帧中的位置。假设1212～121n分别表示所确定的对应于其中的一个对象的参考锚点中的对象的位置，假设1222～122n分别表示所确定的对应于其中的另一个对象的参考锚点中的对象的位置，从而如上所述，通过直接连接各相应的位置可构成相应的锚点流，图12中所示的两条曲线例如表示为上述两个对象所构成的锚点流。

此外，如上面对图2中所示的图像处理装置200的描述，同样地，图4和图11中所示的提取步骤S410、确定步骤S430、检测步骤S420和S440，也可利用存储在例如存储设备240中的预先生成的第二神经网络来执行相应的操作。其中，在下文中，也将参照图16至图19B详细地描述预先生成该第二神经网络的方法。

如上所述，一方面，由于可通过一阶段式的处理来实现视频中对象的检测，因此，根据本发明可提高视频中对象检测的处理速度，也即，可减少视频中对象检测的处理时间。另一方面，由于在通过一阶段式的处理来实现视频中对象的检测的同时也可实现对视频中对象的跟踪，因此，根据本发明可提高视频中对象检测和跟踪的处理速度，也即，可减少视频中对象检测和跟踪的处理时间。从而，根据本发明可更好地满足对视频中的对象进行检测和跟踪的实时性要求，也即可更好地满足视频监控的实时性要求。此外，由于本发明是以一阶段式的处理来对视频中的对象进行检测的，因此不会涉及需要额外的存储空间来存储例如中间处理阶段所得到的信息(例如，特征等信息)，从而也可节省存储空间。

例如，以检测一段视频中的一个人体(如图13A所示)为例，在检测视频中的人体的区域的情况下，根据本发明的实施例所检测到的人体的区域例如如图13B中的虚线框所示。在检测视频中的人体的关键点的情况下，根据本发明的实施例所检测到的人体的区域例如如图13C中的虚线框所示、所检测到的人体的关键点例如如图13C中的小黑点所示。

(神经网络的生成)

如上面对图5中的步骤S4310的有关描述，在本发明的实施例中可利用预先生成的神经网络(也即，上述的第一神经网络)来确定对象在视频帧中的候选锚点。

在一种实现方式中，为了减少生成第一神经网络所需花费的时间，将通过反向传递方式来执行神经网络的更新操作。图14示意性地示出一种用于预先生成可用于本发明的实施例的第一神经网络的生成方法的流程图1400。在图14所示的流程图1400中以利用深度学习方法中的神经网络方法来生成相应的神经网络为例进行说明，然而，显然不必局限于此。其中，参照图14的生成方法也可以通过图1所示的硬件结构100来执行。

如图14中所示，首先，如图1中所示的CPU 110通过输入设备150获取被预先设置好的初始神经网络和多个视频帧样本。其中，各视频帧样本源自连续的视频样本，且各视频帧样本中标记有对象的位置(也即，对象的中心位置)、对象的区域的宽高和对象的类别。

然后，在步骤S1410中，对于任意两个相邻视频帧样本，CPU 110基于后一视频帧样本中的各对象的位置和各对象的区域的宽高来确定前一视频帧样本中各对象的候选锚点图的标记。其中，在各视频帧样本中标记出的候选锚点图可被视为样本候选锚点图(也即，真实候选锚点图)。其中，样本候选锚点图中的每一个样本候选锚点具有一个样本出现概率(也即，真实出现概率)。在一种实现中，例如通过如下方式确定候选锚点图的标记：首先，CPU 110基于后一视频帧样本中的各对象的位置来确定前一视频帧样本中各对象的锚点响应图，例如，可将后一视频帧样本中的各对象的位置进行例如高斯扩散以构建前一视频帧样本中各对象的锚点响应图(例如对于如图15A中所示的对象，其锚点响应图如图15B中所示的黑色的中心辐射图)；其次，CPU 110基于所构建的锚点响应图及后一视频帧样本中的各对象的区域的宽高构建前一视频帧样本中各对象所在区域的区域图(例如对于如图15A中所示的对象，所构建的区域图如图15C中所示的黑色的中心辐射图)；然后，将所构建的区域图变换为神经网络输出图的大小，并将变换的区域图确定为该前一视频帧样本中的候选锚点图的标记。

在步骤S1420中，一方面，CPU 110将经由步骤S1410处理的各视频帧样本经由当前神经网络(例如，初始神经网络)以获得各视频帧样本中的预测候选锚点图。其中，预测候选锚点图中的每一个预测候选锚点具有一个预测出现概率。另一方面，对于每一个视频帧样本，CPU 110确定在该视频帧样本中所获得的预测候选锚点图与在该视频帧样本的后一视频帧样本中的样本候选锚点图之间的损失(例如，第一损失，Loss1)。其中，对于每一个视频帧样本，第一损失Loss1表示利用当前神经网络获得的预测候选锚点图与样本候选锚点图之间的误差。其中，对于每一个视频帧样本，第一损失Loss1包括每一个预测候选锚点与样本候选锚点之间的误差。其中，每一个预测候选锚点与样本候选锚点之间的误差例如可基于如下信息来确定：预测出现概率与样本出现概率之间的差值(例如，可通过交叉熵损失函数来计算)、预测候选锚点的位置与样本候选锚点的位置之间的距离(例如，可通过平方差损失函数来计算)等。再一方面，CPU 110基于对每一个视频帧样本确定的第一损失Loss1获得一个损失和，例如可通过直接求和或通过加权求和的方式来得到该损失和。

在步骤S1430中，CPU 110将基于所获得的损失和判断当前神经网络是否满足预定条件。例如，将该损失和与一阈值(例如，TH1)进行比较，在该损失和小于或等于TH1的情况下，当前神经网络将被判断为满足预定条件而被作为最终的神经网络(也即，作为预先生成的第一神经网络)输出，其中该最终的神经网络例如被输出到图2中所示的存储设备240中以用于如图5中所述的候选锚点的确定。在该损失和大于TH1的情况下，当前神经网络将被判断为还不满足预定条件，则生成过程将进入步骤S1440。

在步骤S1440中，CPU 110基于所获得的损失和更新当前神经网络，也即，更新当前神经网络中各层的参数。其中，此处各层的参数例如是各卷积层中的权重值。在一种实例中，例如利用随机梯度下降方法基于该损失和来更新各层的参数。之后，生成过程重新进入步骤S1420。

在图14中所示的流程1400中，是以所获得的损失和是否满足预定条件来作为停止更新当前神经网络的条件的。然而，显然不必局限于此。作为一种替换，例如可以省略步骤S1430，而是在对当前神经网络的更新次数达到一个预定的次数后便停止相应的更新操作。

如上所述，在本发明的实施例中可利用预先生成的神经网络(也即，上述的第二神经网络)来执行相应的操作。例如如图16中所示，可用于本发明的实施例的预先生成的第二神经网络例如可包括用于提取特征的部分、用于确定参考锚点的部分和用于检测对象的部分。在本发明中，可利用深度学习方法(例如，神经网络方法)、基于在其中标记有对象的位置、对象的区域的宽高和对象的类别等的视频帧样本来预先生成相应的神经网络，其中各视频帧样本源自连续的视频样本。

在一种实现方式中，为了减少生成神经网络所需花费的时间，将通过反向传递方式来共同地更新神经网络中用于提取特征的部分、用于确定参考锚点的部分和用于检测对象的部分。图17示意性地示出一种用于预先生成可用于本发明的实施例的第二神经网络的生成方法的流程图1700。在图17所示的流程图1700中将以利用神经网络方法来生成相应的神经网络为例进行说明，然而，显然不必局限于此。其中，参照图17的生成方法也可以通过图1所示的硬件结构100来执行。

如图17中所示，首先，如图1中所示的CPU 110通过输入设备150获取被预先设置好的初始神经网络和多张视频帧样本。其中，各视频帧样本源自连续的视频样本，且各视频帧样本中标记有对象的位置(也即，对象的中心位置)、对象的区域的宽高和对象的类别。

然后，在步骤S1710中，对于任意两个相邻视频帧样本，CPU 110至少基于后一视频帧样本中的各对象的位置来确定前一视频帧样本中各对象的锚点(也即，对象的对象信息)的标记。其中，在各视频帧样本中标记出的锚点可被视为样本锚点(也即，真实锚点)。其中，一个样本锚点具有一个样本出现概率(也即，真实出现概率)。在一种实现中，在仅利用后一视频帧样本中的各对象的位置来确定前一视频帧样本中各对象的锚点的标记的情况下，例如，首先，将后一视频帧样本中的各对象的位置进行例如高斯扩散以构建前一视频帧样本中各对象的锚点响应图(例如对于如图15A中所示的对象，其锚点响应图如图15B中所示的黑色的中心辐射图)；然后，将所构建的锚点响应图变换为神经网络输出图的大小，并将变换的响应图确定为该前一视频帧样本中的锚点的标记。在另一种实现中，在利用后一视频帧样本中的各对象的位置及各对象的尺度来确定前一视频帧样本中各对象的锚点的标记的情况下，例如，首先，将后一视频帧样本中的各对象的位置和尺度进行例如高斯扩散以构建前一视频帧样本中各对象的锚点响应图(例如对于如图18A中所示的对象1811，其锚点响应图如图18B中所示的黑色的中心辐射图1812；例如对于如图18A中所示的对象1821，其锚点响应图如图18B中所示的黑色的中心辐射图1822)；然后，将所构建的锚点响应图变换为神经网络输出图的大小，并将变换的响应图确定为该前一视频帧样本中的锚点的标记。在再一种实现中，在利用后一视频帧样本中的各对象的位置及各对象的运动趋势来确定前一视频帧样本中各对象的锚点的标记的情况下，例如，首先，将后一视频帧样本中的各对象的位置和运动趋势进行例如高斯扩散以构建前一视频帧样本中各对象的锚点响应图(例如对于如图19A中所示的对象，其锚点响应图如图19B中所示的黑色的中心辐射图)；然后，将所构建的锚点响应图变换为神经网络输出图的大小，并将变换的响应图确定为该前一视频帧样本中的锚点的标记。当然，也可同时利用后一视频帧样本中的各对象的位置、各对象的尺度及各对象的运动趋势来确定前一视频帧样本中各对象的锚点的标记。

然后，在步骤S1720中，一方面，CPU 110将经由步骤S1710处理的各视频帧样本经由当前神经网络(例如，初始神经网络)以获得各视频帧样本中的对象的预测锚点(也即，预测对象信息)。也就是说，CPU 110将经由步骤S1710处理的各视频帧样本依次经由当前神经网络中的用于提取特征的部分、用于确定参考锚点的部分和用于检测对象的部分以获得对象的预测锚点。其中，一个预测锚点具有一个预测出现概率。另一方面，对于每一个视频帧样本，CPU 110确定在该视频帧样本中所获得的对象的锚点与该视频帧样本中的样本锚点之间的损失(例如，第二损失，Loss2)。其中，对于每一个视频帧样本，第二损失Loss2表示利用当前神经网络获得的预测锚点与样本锚点之间的误差。其中，对于每一个视频帧样本，第二损失Loss2包括每一个预测锚点与样本锚点之间的误差。其中，每一个预测锚点与样本锚点之间的误差例如可基于如下信息来确定：预测出现概率与样本出现概率之间的差值(例如，可通过交叉熵损失函数来计算)、预测锚点的位置与样本锚点的位置之间的距离(例如，可通过平方差损失函数来计算)、预测对象的区域的宽高与样本对象的区域的宽高之间的差值(可通过平方差损失函数来计算)、预测对象的类别与样本对象的类别之间的距离(例如，可通过交叉熵损失函数来计算)等。再一方面，CPU 110基于对每一个视频帧样本确定的第二损失Loss2获得一个损失和，例如可通过直接求和或通过加权求和的方式来得到该损失和。此外，对于神经网络中用于确定参考锚点的部分所涉及的候选锚点的确定的相关操作，具体可参照图14中所示的流程图1400来获得，在此不再赘述。

在步骤S1730中，CPU 110将基于所获得的损失和判断当前神经网络是否满足预定条件。例如，将该损失和与一阈值(例如，TH2)进行比较，在该损失和小于或等于TH2的情况下，当前神经网络将被判断为满足预定条件而被作为最终的神经网络(也即，作为预先生成的第二神经网络)输出，其中该最终的神经网络例如被输出到图2中所示的存储设备240中以用于如图2至图13C中所述的对象检测。在该损失和大于TH2的情况下，当前神经网络将被判断为还不满足预定条件，则生成过程将进入步骤S1740。

在步骤S1740中，CPU 110基于所获得的损失和更新当前神经网络，也即，也即，更新依次更新当前神经网络中的用于检测对象的部分、用于确定参考锚点的部分和用于提取特征的部分中各层的参数。其中，此处各层的参数例如是上述各部分中的各卷积层中的权重值。在一种实例中，例如利用随机梯度下降方法基于该损失和来更新各层的参数。之后，生成过程重新进入步骤S1720。

在图17中所示的流程1700中，是以所获得的损失和是否满足预定条件来作为停止更新当前神经网络的条件的。然而，显然不必局限于此。作为一种替换，例如可以省略步骤S1730，而是在对当前神经网络的更新次数达到一个预定的次数后便停止相应的更新操作。

(应用)

此外，如上所述，本发明可由监控设备(例如，网络相机)实现。因此，作为一种应用，以本发明由网络相机实现为例，图20示出根据本发明的一种示例性图像处理装置2000的布置。如图20中所示，图像处理装置2000至少包括获取设备2010、存储设备2020和处理器2030。显然，图像处理装置2000还可包括未示出的输入设备、输出设备等。

如图20中所示，首先，获取设备2010(例如，网络相机的光学系统)捕获感兴趣的地方(例如，监控场所)的视频并将捕获的视频传输到处理器2030。其中，上述监控场所例如可以是需要进行安全监控、场景理解等的场所。

存储设备2020存储有指令，其中所存储的指令至少是与如图4至图11中所述的图像处理方法对应的指令。

处理器2030，基于所捕获的视频执行所存储的指令，使得其至少能实现如图4至图11中所述的图像处理方法，从而可以检测出所捕获的视频中的对象或跟踪所捕获的视频中的对象。

此外，在存储设备2020还存储有后续的图像处理指令的情况下，例如判断监控场所是否出现可疑人物等，则处理器2030也可基于检测/跟踪的对象执行相应的后续图像处理指令来实现相应的操作。在这种情况下，例如可通过网络将外部显示装置(未示出)与图像处理装置2000连接，从而外部显示装置可以向用户/监控人员输出后续的图像处理结果(例如，出现可疑人物等)。作为一种替换，上述后续的图像处理指令也可通过外部处理器(未示出)来执行。在这种情况下，上述后续的图像处理指令例如存储在外部存储设备(未示出)中，并且例如可通过网络将图像处理装置2000、外部存储设备、外部处理器和外部显示装置连接。从而，外部处理器可基于图像处理装置2000检测/跟踪的对象执行外部存储设备中所存储的后续图像处理指令，并且外部显示装置可向用户/监控人员输出后续的图像处理结果。

此外，如上所述，本发明也可由计算机(例如，客户端服务器)实现。因此，作为一种应用，以本发明由客户端服务器为例，图21示出根据本发明的一种示例性图像处理系统2100的布置。如图21中所示，图像处理系统2100包括获取装置2110(例如，至少一个网络相机)、后处理装置2120和如图2中所示的图像处理装置200，其中获取装置2110、后处理装置2120和图像处理装置200经由网络2130相互连接。其中，后处理装置2120和图像处理装置200可通过同一客户端服务器来实现，也可分别通过不同的客户端服务器来实现。

如图21中所示，首先，获取装置2110捕获感兴趣的地方(例如，监控场所)的视频并将捕获的视频经由网络2130传输到图像处理装置200。其中，上述监控场所例如可以是需要进行安全监控、场景理解等的场所。

图像处理装置200参照图2至图11从所捕获的视频中检测或跟踪对象。

后处理装置2120基于所检测/跟踪的对象，执行后续的图像处理操作，例如判断监控场所是否出现可疑人物等。此外，还可通过网络2130连接显示装置或报警装置，以便可向用户/监控人员输出相应的图像处理结果(例如，出现可疑人物等)。

上述的所有单元都是用于实现本公开中所述处理的示例性和/或优选模块。这些单元可以是硬件单元(诸如，现场可编程门阵列(FPGA)、数字信号处理器、专用集成电路等)和/或软件模块(诸如，计算机可读程序)。上面没有详尽地描述用于实现各步骤的单元。然而，当存在执行特定过程的步骤的情况下，可以存在用于实现该同一过程的对应功能模块或单元(通过硬件和/或软件实现)。通过描述的步骤和对应于这些步骤的单元的所有组合的技术方案包括在本申请的公开内容中，只要它们所构成的技术方案是完整的、适用的即可。

可以以多种方式来实施本发明的方法和装置。例如，可以通过软件、硬件、固件或其任何组合来实施本发明的方法和装置。除非另有具体说明，否则本方法的步骤的上述顺序仅旨在是说明性的，并且本发明的方法的步骤不局限于上述具体描述的顺序。此外，在一些实施例中，本发明还可以被实施为在记录介质中记录的程序，其包括用于实现根据本发明的方法的机器可读指令。因此，本发明也覆盖存储用于实现根据本发明的方法的程序的记录介质。

虽然已经通过示例详细地展示了本发明的一些具体实施例，但是本领域的技术人员应该理解，上述示例仅旨在是说明性的，并不限制本发明的范围。本领域的技术人员应该理解，上述实施例可以在不脱离本发明的范围和精神的情况下被修改。本发明的范围由所附权利要求约束。

Claims

1.一种图像处理装置，其特征在于，所述图像处理装置包括：

提取单元，从一段视频的视频帧中提取特征；

确定单元，对于所述视频中的非初始视频帧，相对于在其前一视频帧中所检测到的对象的对象信息，确定对象在相应的非初始视频帧中的参考信息；以及

检测单元，对于所述视频中的初始视频帧，基于所述特征从该初始视频帧中检测对象；对于所述视频中的非初始视频帧，基于所述特征及所确定的参考信息从相应的非初始视频帧中检测对象。

2.根据权利要求1所述的图像处理装置，其中，在一个视频帧中所检测到的一个对象的对象信息至少包括：该对象在该视频帧中的位置、该对象在下一个视频帧的各区域中出现的出现概率。

3.根据权利要求2所述的图像处理装置，其中，对于所述视频中的非初始视频帧中的任意一个视频帧，所述确定单元：

基于在该视频帧的前一视频帧中所检测到的对象的位置，通过从该视频帧的对应位置的周围区域中确定对象在该视频帧中的候选信息来确定对象在该视频帧中的参考信息。

4.根据权利要求3所述的图像处理装置，其中，对于所述视频中的非初始视频帧中的任意一个视频帧，所述确定单元：

基于在该视频帧的前一视频帧中所检测到的对象的出现概率，从所确定的候选信息中确定对象在该视频帧中的参考信息。

5.根据权利要求4所述的图像处理装置，其中，对于所述视频中的非初始视频帧中的任意一个视频帧，所述确定单元：

基于对象在该视频帧的前一视频帧中的尺度，从所述周围区域中确定对象在该视频帧中的候选信息；和/或

基于对象从该视频帧的前一视频帧到该视频帧时的运动趋势，从所述周围区域中确定对象在该视频帧中的候选信息。

6.根据权利要求4所述的图像处理装置，其中，对于所述视频中的非初始视频帧中的任意一个视频帧，所述确定单元基于所述特征，经由预先生成的第一神经网络从所述周围区域中确定对象在该视频帧中的候选信息。

7.根据权利要求1-6中任一项所述的图像处理装置，所述图像处理装置进一步包括：

跟踪单元，基于在所述视频中的初始视频帧中所检测到的对象的对象信息及在所述视频中的非初始视频帧中所确定的参考信息，关联所述视频中的各视频帧中的对象。

8.根据权利要求1-6中任一项所述的图像处理装置，其中，所述提取单元从所述视频的各视频帧中提取第一特征来获得所述特征；

其中，对于所述视频中的非初始视频帧，所述提取单元从相应的非初始视频帧的低分辨率图像中提取所述第一特征。

9.根据权利要求1-6中任一项所述的图像处理装置，其中，所述提取单元、所述确定单元和所述检测单元利用预先生成的第二神经网络执行相应的操作。

10.根据权利要求1-6中任一项所述的图像处理装置，其中，所述检测单元所执行的对象检测操作为检测视频帧中的对象的区域或检测视频帧中的对象的关键点。

11.一种图像处理方法，其特征在于，所述图像处理方法包括：

提取步骤，从一段视频的视频帧中提取特征；

确定步骤，对于所述视频中的非初始视频帧，相对于在其前一视频帧中所检测到的对象的对象信息，确定对象在相应的非初始视频帧中的参考信息；以及

检测步骤，对于所述视频中的初始视频帧，基于所述特征从该初始视频帧中检测对象；对于所述视频中的非初始视频帧，基于所述特征及所确定的参考信息从相应的非初始视频帧中检测对象。

12.根据权利要求11所述的图像处理方法，其中，在一个视频帧中所检测到的一个对象的对象信息至少包括：该对象在该视频帧中的位置、该对象在下一个视频帧的各区域中出现的出现概率。

13.根据权利要求12所述的图像处理方法，其中，对于所述视频中的非初始视频帧中的任意一个视频帧，在所述确定步骤中：

14.根据权利要求11-13中任一项所述的图像处理方法，所述图像处理方法进一步包括：

跟踪步骤，基于在所述视频中的初始视频帧中所检测到的对象的对象信息及在所述视频中的非初始视频帧中所确定的参考信息，关联所述视频中的各视频帧中的对象。

15.根据权利要求11-13中任一项所述的图像处理装置，其中，在所述提取步骤中，从所述视频的各视频帧中提取第一特征来获得所述特征；

其中，对于所述视频中的非初始视频帧，在所述提取步骤中，从相应的非初始视频帧的低分辨率图像中提取所述第一特征。

16.根据权利要求11-13中任一项所述的图像处理方法，其中，在所述提取步骤、所述确定步骤和所述检测步骤中，利用预先生成的第二神经网络执行相应的操作。

17.根据权利要求11-13中任一项所述的图像处理方法，其中，在所述检测步骤中，所执行的对象检测操作为检测视频帧中的对象的区域或检测视频帧中的对象的关键点。

18.一种图像处理装置，其特征在于，所述图像处理装置包括：

获取设备，用于获取一段视频；

存储设备，存储有指令；以及

处理器，基于所获得的视频执行所述指令，使得所述处理器至少实现如权利要求11至17中任一项所述的图像处理方法。

19.一种图像处理系统，其特征在于，所述图像处理系统包括：

获取设备，用于获取一段视频；

根据权利要求1至10中的任一项所述的图像处理装置，从所获取的视频中检测对象；以及

后处理装置，基于所检测的对象，执行后续的图像处理操作；

其中，所述获取装置、所述图像处理装置和所述后处理装置经由网络相互连接。