CN105872477A

CN105872477A - 视频监控方法和视频监控系统

Info

Publication number: CN105872477A
Application number: CN201610366216.9A
Authority: CN
Inventors: 俞刚; 李超; 何奇正; 陈牧歌; 印奇
Original assignee: Beijing Megvii Technology Co Ltd; Beijing Aperture Science and Technology Ltd
Current assignee: Beijing Megvii Technology Co Ltd; Beijing Aperture Science and Technology Ltd
Priority date: 2016-05-27
Filing date: 2016-05-27
Publication date: 2016-08-17
Anticipated expiration: 2036-05-27
Also published as: CN105872477B; US20170345181A1; US10672140B2

Abstract

本公开涉及视频监控方法和视频监控系统。所述视频监控方法包括：获取分别经由第一视频采集模块和第二视频采集模块同时采集的监控场景的第一视频数据和第二视频数据；基于第一视频数据，检测至少一个目标对象，并确定至少一个目标对象在第一视频数据中的至少一帧中的参数信息，参数信息包括第一位置；基于第一视频数据和第二视频数据的坐标变换关系，根据第一位置确定至少一个目标对象在第二视频数据中的对应帧中的第二位置；以及基于第二视频数据，提取处于第二位置的至少一个目标对象的特征信息，其中，第一视频采集模块与第二视频采集模块相对于地平面采集视频数据的方向不同，并且第一视频采集模块和第二视频采集模块包含深度视频数据采集模块。

Description

视频监控方法和视频监控系统

技术领域

本公开涉及视频监控领域，更具体地，本公开涉及一种视频监控方法和使用该视频监控方法的视频监控系统。

背景技术

对于监控视频中的行人跟踪以及行人身份分析对于很多应用领域有着非常大的价值。例如，对于智能零售来说，店铺希望能了解每个客户在店铺中的完整轨迹，同时又能知道每个客户的大致年龄、穿着等身份属性以及在店铺触摸过哪些商品这样的动作行为。此外，对于安防监控领域，在敏感场景下，需要监控场景中的每个行人，以判断每个行人是否有异常行为等动作。因此，需要对场景中行人的准确位置定位跟踪，并且还希望通过跟踪行人来获得一些关于行人的身份属性信息以及行人的动作分析。

目前使用单一视角的监控视频采集设备都不能很好解决此问题。例如，在使用顶视摄像机的情况下，虽然因为没有行人与行人之间的遮挡，可以很好的定位行人在每一帧中的位置，但是由于顶视视角本身的限制，很难看到每个行人除了头部之外的信息，从而无法实现对行人身份属性以及行人可能的动作的分析。另一个方面，在使用俯视摄像机的情况下，虽然能很大程度上看清每个行人的外观，但由于存在行人之间的遮挡，所以对行人本身的检测以及跟踪造成困难。

发明内容

鉴于上述问题而提出了本公开。本公开提供了一种视频监控方法和使用该视频监控方法的视频监控系统，其通过融合顶视和俯视两个视角监控信息，实现完整的行人检测跟踪，以及身份特征和动作特征的精确识别。

根据本公开的一个实施例，提供了一种视频监控方法，包括：获取分别经由第一视频采集模块和第二视频采集模块同时采集的监控场景的第一视频数据和第二视频数据；基于所述第一视频数据，检测至少一个目标对象，并确定所述至少一个目标对象在所述第一视频数据中的至少一帧中的参数信息，所述参数信息包括第一位置；基于所述第一视频数据和所述第二视频数据的坐标变换关系，根据所述第一位置确定所述至少一个目标对象在所述第二视频数据中的对应帧中的第二位置；以及基于所述第二视频数据，提取处于所述第二位置的所述至少一个目标对象的特征信息，其中，所述第一视频采集模块与所述第二视频采集模块相对于地平面采集视频数据的方向不同，并且所述第一视频采集模块和所述第二视频采集模块包含深度视频数据采集模块。

此外，根据本公开的一个实施例的视频监控方法，还包括：配置所述第一视频采集模块和所述第二视频采集模块，并且确定所述第一视频采集模块的第一坐标参数和所述第二视频采集模块的第二坐标参数；以及基于所述第一坐标参数和所述第二坐标参数，确定所述坐标变换关系，其中，所述第一视频采集模块和所述第二视频采集模块配置在不同位置，并且所述第一视频采集模块为顶视视频采集模块，所述第二视频采集模块为俯视视频采集模块。

此外，根据本公开的一个实施例的视频监控方法，其中基于所述第一视频数据，检测所述至少一个目标对象，并确定所述至少一个目标对象在所述第一视频数据中的至少一帧中的参数信息的步骤包括：获取包括其深度信息不同于所述监控场景的地面深度信息的像素点的区域为前景候选区域；根据深度信息将所述前景候选区域分为多个前景候选子区域；以及基于第一面积阈值和/或第一高度阈值过滤所述多个前景候选子区域，以获得多个前景子区域。

此外，根据本公开的一个实施例的视频监控方法，其中基于所述第一视频数据，检测所述至少一个目标对象，并确定所述至少一个目标对象在所述第一视频数据中的至少一帧中的参数信息的步骤还包括：对所述多个前景子区域滤波，确定其中大于第二高度阈值的候选峰值位置；以及利用训练好的分类器确定所述候选峰值位置是否对应于所述至少一个目标对象的头部。

此外，根据本公开的一个实施例的视频监控方法，还包括：根据检测到的所述头部位置，在所述第一视频数据中的至少两帧之间关联以确定所述至少一个目标对象在第一视频数据各帧中的所述第一位置，以获得所述至少一个目标对象的动态特征信息。

此外，根据本公开的一个实施例的视频监控方法，其中基于所述第二视频数据，提取处于所述第二位置的所述至少一个目标对象的特征信息的步骤包括：获得所述至少一个目标对象在所述第二视频数据中的所述对应帧，其中，所述至少一个目标对象在所述对应帧中位于所述第二位置；经由第一神经网络，基于所述对应帧视频数据，获取所述至少一个目标对象的对应帧第一特征信息；以及经由第二神经网络，基于所述对应帧第一特征信息以及所述对应帧之前任一帧中获得的所述至少一个目标对象的身份特征信息，获取所述至少一个目标对象在所述对应帧中的身份特征信息。

此外，根据本公开的一个实施例的视频监控方法，其中基于所述第二视频数据，提取处于所述第二位置的所述至少一个目标对象的特征信息的步骤还包括：经由第三神经网络，基于所述对应帧视频数据，获取所述至少一个目标对象的对应帧第三特征信息；以及经由第四神经网络，基于所述对应帧第三特征信息、所述获取的所述至少一个目标对象在所述对应帧中的身份特征信息以及所述对应帧之前任一帧中获得的所述至少一个目标对象的动作特征信息，获取所述至少一个目标对象在所述对应帧中的动作特征信息。

此外，根据本公开的一个实施例的视频监控方法，其中，所述动作特征信息包括骨骼信息和动作属性信息，其中，所述骨骼信息包括所述目标对象骨骼上的多个关键点，所述第四神经网络输出所述多个关键点在所述对应帧中的坐标位置。

根据本公开的另一个实施例，提供了一种视频监控系统，包括：第一视频采集模块，用于采集监控场景的第一视频数据；第二视频采集模块，用于与所述第一视频采集模块同时采集所述监控场景的第二视频数据，所述第一视频采集模块与所述第二视频采集模块相对于地平面采集视频数据的方向不同，其中，所述第一视频采集模块和所述第二视频采集模块包含深度视频采集模块；以及视频监控模块，用于基于所述视频数据监控所述视频中的至少一个目标对象，其包含：监控目标对象确定单元，用于基于所述第一视频数据，检测所述至少一个目标对象，并确定所述至少一个目标对象在所述第一视频数据中的至少一帧中的参数信息，所述参数信息包括第一位置；视频坐标变换单元，用于基于所述第一视频数据和所述第二视频数据的坐标变换关系，根据所述第一位置确定所述至少一个目标对象在所述第二视频数据中的第二位置；以及特征信息提取单元，用于基于所述第二视频数据，提取处于所述第二位置的所述至少一个目标对象的特征信息。

此外，根据本公开的另一个实施例的视频监控系统，其中所述第一视频采集模块和所述第二视频采集模块配置在不同位置，并且所述第一视频采集模块为顶视视频采集模块，所述第二视频采集模块为俯视视频采集模块，所述视频坐标变换单元确定所述第一视频采集模块的第一坐标参数和所述第二视频采集模块的第二坐标参数，并且基于所述第一坐标参数和所述第二坐标参数，确定所述坐标变换关系。

此外，根据本公开的另一个实施例的视频监控系统，其中所述监控目标对象确定单元获取包括其深度信息不同于所述监控场景的地面深度信息的像素点的区域为前景候选区域；根据深度信息将所述前景候选区域分为多个前景候选子区域；以及基于第一面积阈值和/或第一高度阈值过滤所述多个前景候选子区域，以获得多个前景子区域。

此外，根据本公开的另一个实施例的视频监控系统，其中所述监控目标对象确定单元对所述多个前景子区域滤波，确定其中大于第二高度阈值的候选峰值位置；并且利用训练好的分类器确定所述候选峰值位置是否对应于所述至少一个目标对象的头部。

此外，根据本公开的另一个实施例的视频监控系统，其中所述监控目标对象确定单元根据检测到的所述头部位置，在所述第一视频数据中的至少两帧之间关联以确定所述至少一个目标对象在所述第一视频数据各帧中的所述第一位置，以获得所述至少一个目标对象的动态特征信息。

此外，根据本公开的另一个实施例的视频监控系统，其中所述特征信息提取单元获得所述至少一个目标对象在所述第二视频数据中的所述对应帧，其中，所述至少一个目标对象在所述对应帧中位于所述第二位置；所述特征信息提取单元经由第一神经网络，基于所述对应帧视频数据，获取所述至少一个目标对象的对应帧第一特征信息；以及经由第二神经网络，基于所述对应帧第一特征信息以及所述对应帧之前任一帧中获得的所述至少一个目标对象的身份特征信息，获取所述至少一个目标对象在所述对应帧中的身份特征信息。

此外，根据本公开的另一个实施例的视频监控系统，其中所述特征信息提取单元还经由第三神经网络，基于所述对应帧视频数据，获取所述至少一个目标对象的对应帧第三特征信息；以及经由第四神经网络，基于所述对应帧第三特征信息、所述获取的所述至少一个目标对象在所述对应帧中的身份特征信息以及所述对应帧之前任一帧中获得的所述至少一个目标对象的动作特征信息，获取所述至少一个目标对象在所述对应帧中的动作特征信息。

此外，根据本公开的另一个实施例的视频监控系统，其中，所述动作特征信息包括骨骼信息和动作属性信息，其中，所述骨骼信息包括骨骼上的多个关键点，所述第四神经网络输出所述多个关键点在所述对应帧中的坐标位置。

根据本公开的又一个实施例，提供了一种计算机程序产品，包括计算机可读存储介质，在所述计算机可读存储介质上存储了计算机程序指令，所述计算机程序指令在被计算机运行时，使得所述计算机执行以下步骤：

获取分别经由第一视频采集模块和第二视频采集模块同时采集的监控场景的第一视频数据和第二视频数据；基于所述第一视频数据，检测至少一个目标对象，并确定所述至少一个目标对象在所述第一视频数据中的至少一帧中的参数信息，所述参数信息包括第一位置；基于所述第一视频数据和所述第二视频数据的坐标变换关系，根据所述第一位置确定所述至少一个目标对象在所述第二视频数据中的对应帧中的第二位置；以及基于所述第二视频数据，提取处于所述第二位置的所述至少一个目标对象的特征信息，其中，所述第一视频采集模块与所述第二视频采集模块相对于地平面采集视频数据的方向不同，并且所述第一视频采集模块和所述第二视频采集模块包含深度视频数据采集模块。

要理解的是，前面的一般描述和下面的详细描述两者都是示例性的，并且意图在于提供要求保护的技术的进一步说明。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是概述根据本公开实施例的视频监控方法的流程图。

图2是图示根据本公开实施例的视频监控系统的功能性框图。

图3A和3B是图示根据本公开实施例的视频监控系统的视频采集模块的示意图。

图4是进一步图示根据本公开实施例的视频监控方法中的目标对象检测及其动态特征信息跟踪处理的流程图。

图5是图示根据本公开实施例的视频监控方法中的目标对象检测的示意图。

图6是进一步图示根据本公开实施例的视频监控方法中的目标对象的身份特征信息和动作特征信息获取处理的流程图。

图7是图示根据本公开实施例的视频监控方法中的目标对象的身份特征信息获取的示意图。

图8是图示根据本公开实施例的视频监控方法中的目标对象的动作特征信息获取的示意图。

图9是进一步图示根据本公开实施例的视频监控方法获取的骨骼信息的示意图。

图10是图示根据本公开实施例的视频监控系统的示意性框图。

具体实施方式

为了使得本公开的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。基于本公开中描述的本公开实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本公开的保护范围之内。

以下，将参考附图详细描述本公开的实施例。

图1是概述根据本公开实施例的视频监控方法的流程图。如图1所示，根据本公开实施例的视频监控方法包括以下步骤。

在步骤S101中，获取同时采集的监控场景的第一视频数据和第二视频数据。

如下将参照附图详细描述的，在本公开的一个实施例中，获取分别经由第一视频采集模块和第二视频采集模块同时采集的监控场景的第一视频数据和第二视频数据。所述第一视频采集模块与所述第二视频采集模块相对于地平面采集视频数据的方向不同，并且所述第一视频采集模块和所述第二视频采集模块包含深度视频数据采集模块，使得所述第一视频数据和第二视频数据包括深度视频数据和RGB彩色视频数据。更具体地，所述第一视频采集模块和所述第二视频采集模块配置在不同位置，且相对于地平面采集视频数据的方向不同，并且所述第一视频采集模块为顶视视频采集模块，其视角为垂直向下拍摄；所述第二视频采集模块为俯视视频采集模块，其视角为俯视地面。第一视频采集模块和所述第二视频采集模块配置为可以覆盖相同或至少部分相同的监控场景。此后，处理进到步骤S102。

在步骤S102中，基于第一视频数据，检测至少一个目标对象，确定至少一个目标对象在第一视频数据中的至少一帧中的参数信息，所述参数信息包括第一位置。

如下将参照附图详细描述的，在本公开的一个实施例中，利用第一视频采集模块(顶视视频采集模块)采集的所述第一视频数据，由于视频采集视角为垂直向下拍摄，其中不存在行人之间的相互遮挡，所以对于监控场景中的作为目标对象的每个行人，可以精确地检测出其准确的位置(第一位置)，作为目标对象在第一视频数据中的至少一帧中的参数信息。进一步地，可以将每一帧视频数据中的目标对象进行关联，以跟踪连续多帧中的每个行人，从而确定每个行人在第一视频数据每一帧中的位置并将确定的位置作为目标对象在第一视频数据中的每一帧中的第一位置，以实现对于诸如其运动轨迹的动态特征信息的获取。此后，处理进到步骤S103。

在步骤S103中，基于第一视频数据和第二视频数据的坐标变换关系，根据第一位置确定至少一个目标对象在第二视频数据中的对应帧中的第二位置。

如下将参照附图详细描述的，在本公开的一个实施例中，基于所述第一视频采集模块(顶视视频采集模块)与所述第二视频采集模块(俯视视频采集模块)的相对位置关系，确定第一视频数据和第二视频数据的坐标变换关系。进一步地，基于该坐标变换关系，可以将在步骤S102中确定的至少一个目标对象在第一视频数据(顶视视频数据)中的第一位置转换到该至少一个目标对象在第二视频数据(俯视视频数据)中的对应帧中的相应位置(第二位置)。通过基于第一视频数据(顶视视频数据)的目标对象的位置检测，避免了利用第二视频数据(俯视视频数据)检测目标对象时由于行人之间的相互遮挡而可能导致的漏检或错检。此后，处理进到步骤S104。

在步骤S104中，基于所述第二视频数据，提取处于所述第二位置的所述至少一个目标对象的特征信息。

如下将参照附图详细描述的，在本公开的一个实施例中，基于所述第二视频数据，使用神经网络(例如，卷积神经网络和反馈神经网络)提取处于所述第二位置的所述至少一个目标对象的特征信息。至少一个目标对象的特征信息包括但不限于身份特征信息和动作特征信息等。所述身份特征信息包括但不限于性别、年龄、穿衣风格、身高、体重、头发颜色、头发长短等属性信息等。进一步地，对于每个身份特征属性信息，可以量化为一个多元的分类问题。例如，对于年龄这一身份特征属性信息，其可以量化为：小孩(0)、少年(1)、青年(2)、中年(3)、老年(4)等；对于性别这一身份特征属性信息，可以量化为：男性(0)和女性(1)；对于穿衣风格，可以量化为：商务(0)、休闲(1)、运动(2)、制服(3)等；身高可以量化为：高(0)、矮(1)等；体重可以量化为：偏重(0)、正常(1)、偏瘦(2)等；头发颜色可以量化为黑色(0)、白色(1)、其它颜色(2)等；头发长短可以量化为：长发(0)、中长发(1)、短发(2)、超短发(3)等，从而实现每个身份特征属性信息的多元分类。所述动作特征信息包括但不限于骨骼信息和动作信息。与所述身份特征信息类似，对于每一种动作特征信息也可以量化为一个多元的分类问题。例如，对于目标对象在店铺中的动作行为可以量化为：观看商品(0)、停留(1)、体验商品(2)等。因此，对于提取诸如身份特征信息和动作特征信息的对象的特征信息的多元分类问题，可以分别使用对应的误差函数来调整神经网络的参数、对神经网络进行训练。在一个实施例中，使用第一神经网络(例如，第一卷积神经网络)和第二神经网络(例如，第二反馈神经网络)基于所述第二视频数据，提取目标对象的身份特征信息。在训练第一神经网络和第二神经网络的过程中，可以将每种身份特征属性信息计算得到的损失函数整合在一起，去调整第一神经网络和第二神经网，以得到训练好的第一神经网络和第二神经网络用于提取目标对象的身份特征信息。在一个实施例中，使用第三神经网络(例如，第三卷积神经网络)和第四神经网络(例如，第四反馈神经网络)基于所述第二视频数据，提取目标对象的动作特征信息。在训练第三神经网络和第四神经网络的过程中，可以将每种动作特征信息计算得到的损失函数整合在一起，去调整第三神经网络和第四神经网络，以得到训练好的第三神经网络和第四神经网络用于提取目标对象的动作特征信息。

应该理解的是，上述身份特征信息和动作特征信息及其分类量化仅是示例性的，可以根据实际应用的需求，采用不同的身份特征信息和动作特征信息并对其进行分类量化。

上述根据本公开实施例的视频监控方法，通过顶视视频采集模块与俯视视频采集模块的配合，首先利用不存在目标对象之间的相互遮挡的顶视视频数据对于监控场景中的目标对象进行精确检测和跟踪，以获取目标对象在顶视视频数据(即第一视频数据)中的第一位置信息；通过顶视视频数据和俯视视频数据之间的坐标变换关系，获取目标对象在俯视视频数据(即第二视频数据)中的相应的第二位置并进行跟踪；对于已经在俯视视频数据中精确定位的每个目标对象，利用俯视视频数据能够提供目标对象更多特征信息的优势，实现对于监控场景中的目标对象的诸如身份特征信息和动作特征信息的特征信息的获取。也就是说根据本公开实施例的视频监控方法通过融合顶视和俯视两个视角监控信息，实现完整的行人检测跟踪，以及身份特征和动作特征的精确识别。

以下，将参照图2进一步描述执行上述视频监控方法的一种视频监控系统。

图2是图示根据本公开实施例的视频监控系统的功能性框图。如图2所示，根据本公开实施例的视频监控系统20包括第一视频采集模块21、第二视频采集模块22和视频监控模块23。

具体地，所述第一视频采集模块21用于采集监控场景的第一视频数据；所述第二视频采集模块22用于与所述第一视频采集模块同时采集所述监控场景的第二视频数据。所述第一视频采集模块21与所述第二视频采集模块22相对于地平面采集视频数据的方向不同，所述第一视频采集模块21和所述第二视频采集模块22包含深度视频采集模块。在本公开的一个实施例中，所述第一视频采集模块21和所述第二视频采集模块22配置在不同位置且相对于地平面采集视频数据的方向不同，所述第一视频采集模块21和所述第二视频采集模块被配置以覆盖相同或至少部分相同的监控场景，并且所述第一视频采集模块21为顶视视频采集模块，所述第二视频采集模块22为俯视视频采集模块。将参照图3A和3B描述所述第一视频采集模块21和所述第二视频采集模块22的配置。

图3A和3B是图示根据本公开实施例的视频监控系统的视频采集模块的示意图。图3A示出所述第一视频采集模块21(顶视视频采集模块)，并且图3B示出所述第二视频采集模块22(俯视视频采集模块)。

如图3A所示，所述第一视频采集模块21(顶视视频采集模块)为深度视频采集模块，其安装高度为2.5-4米，其视角为垂直向下拍摄(如图3A示意性所示)。在本公开的一个实施例中，所述第一视频采集模块21可以是深度相机，例如深度彩色双镜头相机。在深度彩色双镜头相机的情况下，需要对相机进行校准，使得两个镜头得到的图像相对应和同步。此外，对于安装后的所述第一视频采集模块21，确定其离基准面的实际高度和角度等坐标参数。选择预定基准面上的多个基准点，如图3A所示，所述预定基准面可以是地平面，选择的基准点的数目越大(例如，大于等于5个)，精度越高。基于选择的多个基准点的坐标信息，确定所述第一视频采集模块21的相机坐标系统与世界坐标系统的变换关系。可以通过选择的多个基准点，基于最小二乘法来估计相机坐标系统到世界坐标系统的转换矩阵，即相机坐标系统与世界坐标系统的变换关系。通过利用所述变换关系，将相机坐标系统转换到世界坐标系统，可以确定所述第一视频采集模块21的实际高度和角度等坐标参数。同样地，将所述第一视频采集模块21采集的视频中的像素点转换到世界坐标系统，可以确定视频监控场景中的完整地平面位置。

如图3B所示，所述第二视频采集模块22(俯视视频采集模块)为深度视频采集模块，其安装高度为2.5-3.5米，其视角为俯视地面(如图3B示意性所示)。在本公开的一个实施例中，所述第二视频采集模块22可以是深度相机，例如彩色双镜头相机。类似地，对于所述第二视频采集模块22，需要对相机进行校准，使得两个镜头得到的图像相对应和同步。此外，也需要执行第二视频采集模块22的相机坐标系统与世界坐标系统的变换。

此外，在本公开的一个实施例中，还需要建立顶视视角与俯视视角的映射关系，即统一所述第一视频采集模块21(顶视视频采集模块)和所述第二视频采集模块22(俯视视频采集模块)所使用的世界坐标系统。具体地，在同一场景的顶视视频数据和俯视视频数据中选择N对匹配点，例如预先让单个测试对象在场景中移动，记录所述测试对象每个时刻在顶视视频数据和俯视视频数据中的位置，由于场景中仅存在单个测试对象，而不存在遮挡等问题，所以容易精确确定所述测试对象在N个时间点在顶视视频数据和俯视视频数据中的位置点，并将确定的顶视视频数据和俯视视频数据中的位置点作为N对匹配点。例如，在顶视视频数据和俯视视频数据中的N对匹配点分别为：

X_t_i＝(x_t_i,y_t_i,z_t_i)

X_b_i＝(x_b_i,y_b_i,z_b_i),i＝1,...N

假设所述第一视频采集模块21(顶视视频采集模块)所使用的世界坐标系统可以经由旋转和平移转换到所述第二视频采集模块22(俯视视频采集模块)所使用的世界坐标系统。假设所述旋转由旋转矩阵R表示，所述平移由平移矩阵T表示，那么RX_t_i+T＝X_b_i。进一步地，通过使用最小二乘法，可以获得所述旋转矩阵R和平移矩阵T的近似估计，从而建立顶视视角与俯视视角的映射关系，即第一视频数据和所述第二视频数据的坐标变换关系。

返回参照图2。由所述第一视频采集模块21和第二视频采集模块22分别同时采集的监控场景的第一视频数据和第二视频数据提供给所述视频监控模块23。所述第一视频采集模块21和第二视频采集模块22可以与其后的所述视频监控模块23物理上分离，或者物理上位于同一位置甚至位于同一机壳内部。在所述第一视频采集模块21和第二视频采集模块22与其后的所述视频监控模块23物理上分离的情况下，所述第一视频采集模块21和第二视频采集模块22进一步经由有线或者无线方式将分别获取的第一视频数据和第二视频数据发送给其后的模块。在所述第一视频采集模块21和第二视频采集模块22与其后的所述视频监控模块23物理上位于同一位置甚至位于同一机壳内部的情况下，所述第一视频采集模块21和第二视频采集模块22经由内部总线将分别获取的第一视频数据和第二视频数据发送给其后的模块。在经由有线或者无线方式或者经由内部总线发送所述第一视频数据和第二视频数据之前，可以将其预定格式进行编码和压缩为图像数据包，以减少发送需要占用的通信量和带宽。

所述视频监控模块23用于基于所述第一视频数据和第二视频数据监控所述视频中的至少一个目标对象。所述视频监控模块23进一步包括监控目标对象确定单元231、视频坐标变换单元232和特征信息提取单元233。

所述监控目标对象确定单元231用于基于所述第一视频数据，检测所述至少一个目标对象，并确定所述至少一个目标对象在所述第一视频数据中的至少一帧中的参数信息，所述参数信息包括第一位置。如上所述，利用所述第一视频采集模块21(顶视视频采集模块)采集的所述第一视频数据，由于其中不存在行人之间的相互遮挡，所以对于监控场景中的作为目标对象的每个行人，可以精确地检测出其准确的位置，作为目标对象在第一视频数据中的至少一帧中的参数信息。

所述视频坐标变换单元232用于基于所述第一视频数据和所述第二视频数据的坐标变换关系，根据所述第一位置确定所述至少一个目标对象在所述第二视频数据的第二位置。如上所述，通过基于第一视频数据(顶视视频数据)的目标对象的位置检测，避免了利用第二视频数据(俯视视频数据)检测目标对象时由于行人之间的相互遮挡而可能导致的漏检或错检。

所述特征信息提取单元233用于基于所述第二视频数据提取处于所述第二位置的所述至少一个目标对象的特征信息。在一个实施例中，所述特征信息提取单元233用于基于所述第二视频数据，使用神经网络提取处于所述第二位置的所述至少一个目标对象的特征信息。如上所述，至少一个目标对象的特征信息包括但不限于身份特征信息和动作特征信息等。对于提取诸如身份特征信息和动作特征信息的对象的特征信息的多元分类问题，可以分别使用对应的误差函数来调整神经网络的参数、对神经网络进行训练。例如，在一个实施例中，所述特征信息提取单元233使用第一神经网络(例如，第一卷积神经网络)和第二神经网络(例如，第二反馈神经网络)基于所述第二视频数据，提取目标对象的身份特征信息。在训练第一神经网络和第二神经网络的过程中，可以将每种身份特征属性信息计算得到的损失函数整合在一起，去调整第一神经网络和第二神经网络，以得到训练好的第一神经网络和第二神经网络用于提取目标对象的身份特征信息。在一个实施例中，所述特征信息提取单元233使用第三神经网络(例如，第三卷积神经网络)和第四神经网络(例如，第四反馈神经网络)基于所述第二视频数据，提取目标对象的动作特征信息。在训练第三神经网络和第四神经网络的过程中，可以将每种动作特征信息计算得到的损失函数整合在一起，去调整第三神经网络和第四神经网络，以得到训练好的第三神经网络和第四神经网络用于提取目标对象的动作特征信息。

以上，参照图1到图3B描述了根据本公开实施例的视频监控方法以及执行该视频监控方法的视频监控系统。以下，将参照流程图和示意图，进一步详细描述根据本公开实施例的视频监控方法。

图4是进一步图示根据本公开实施例的视频监控方法中的目标对象检测及其动态特征信息跟踪处理的流程图。图5是图示根据本公开实施例的视频监控方法中的目标对象检测的示意图。

如图4所示，在图1所示的步骤S101中获取同时采集的监控场景的第一视频数据和第二视频数据之后，处理进到步骤S401，以便执行目标对象检测及其动态特征信息跟踪处理。

在步骤S401，获取包括其深度信息不同于所述监控场景的地面深度信息的像素点的区域为前景候选区域。

在本公开的一个实施例中，预先在监控场景中不存在任何目标的情况下，获取此时由所述第一视频采集模块21捕获的监控场景中每个位置的地面深度信息，将其保存为矩阵D(x,y)，其代表在每个图像坐标(x,y)处的地面深度值。获取由所述第一视频采集模块21实时捕获的监控场景的当前深度值C(x,y)，从而计算图像空间中每个像素位置的深度信息差ΔD＝C(x,y)-D(x,y)。进一步地，确定包括深度信息差大于第一预定阈值的像素点的区域为前景候选区域。在本公开的一个实施例中，在所述监控场景的地面基本水平没有明显起伏的情况下，每个位置的地面深度信息是统一的，那么就可以将实时捕获的监控场景中其深度信息不同于所述监控场景的地面深度信息的像素点的区域为前景候选区域。此后，处理进到步骤S402。

在步骤S402中，根据深度信息将所述前景候选区域分为多个前景候选子区域。例如，根据深度信息，可以将深度信息相同或相近的区域划分在一个前景候选子区域内。此后，处理进到步骤S403。

在步骤S403中，基于第一面积阈值和/或第一高度阈值过滤所述多个前景候选子区域，以获得多个前景子区域。所述第一面积阈值用于将多个前景候选子区域中面积过小而不可能是目标对象的候选子区域过滤掉。所述第一高度阈值用于将多个前景候选子区域中离地面高度过小的候选子区域过滤掉。此后，处理进到步骤S404中。

在步骤S404中，对所述多个前景子区域滤波，确定其中大于第二高度阈值的候选峰值位置。

将参照图5进一步详细描述对所述多个前景子区域滤波，确定其中大于第二高度阈值的候选峰值位置，即确定候选目标对象头部的位置。图5是图示根据本公开实施例的视频监控方法中的目标对象检测的示意图。

对于多个前景子区域，由于在拥挤的情况下，可能存在多个目标对象处于一个前景子区域中的情况。如图5所示的是多个前景子区域的深度示意图。可以采用迭代的峰值搜索以检出所有峰值位置。例如，在深度图中搜索最高的峰值，例如图5中的峰₁。在该峰₁附近进行过滤，过滤峰₁到谷₁和谷₂中的所有点，直到找到下一个峰值位置，如图5中的峰₃，如果峰₃的幅值(距离山腰的高度)大于第一阈值，则将峰₃视为山峰；否则，过滤掉。继续找下一个峰值的位置，如图5中的峰₂，如果峰₂的幅值(距离山腰的高度)大于第一阈值，则将峰₂视为山峰；否则，过滤掉。按照同样的方法将所有峰值找到，对于深度图中搜索到的所有峰值，将其高度值与预定第二高度阈值比较，认为大于该预定第二高度阈值的峰值位置存在目标对象的头部。如此，可以检出所述多个前景子区域中可能存在目标对象的头部的峰值位置，并且过滤掉由目标对象肩部等造成的噪声₁到噪声₄。

返回参照图4，在获得大于第二高度阈值的候选峰值位置后，处理进到步骤S405。

在步骤S405中，判断候选峰值位置是否对应于至少一个目标对象的头部。在本公开的一个实施例中，利用训练好的分类器确定所述候选峰值位置是否对应于所述至少一个目标对象的头部。例如，对于利用深度图像获得的候选峰值位置，可以利用RGB图像进行进一步验证。从对应于该候选峰值位置的RGB图像中提取出预定区域(例如，矩形区域)，用预先训练好的行人头部分类器进行分类，判断该预定区域是否对应于行人头部。

如果在步骤S405获得否定结果，即候选峰值位置不对应于至少一个目标对象的头部，则处理返回步骤S401，以便继续基于深度视频数据确定候选峰值位置。

相反地，如果在步骤S405获得肯定结果，即候选峰值位置对应于至少一个目标对象的头部，则处理进到步骤S406。

在步骤S406中，检测到至少一个目标对象的头部位置。也就是说，确定并且记录对应于至少一个目标对象的头部的峰值位置为该至少一个目标对象的第一位置，并将此第一位置作为目标对象的参数信息。此后，处理进到步骤S407。

在步骤S407中，在第一视频数据的中至少两帧之间关联以确定至少一个目标对象在各帧中的第一位置，以获得至少一个目标对象的动态特征信息。在本公开的一个实施例中，假设在第t帧检测到至少一个目标对象，对于在第(t+1)帧中检测到的目标对象，可以使用空间位置关系以及目标对象头部的高度大小颜色等信息求出第t帧和第(t+1)帧中目标对象的相似度关系，即连接第t帧中每一个目标对象的头部和第(t+1)帧中每个目标对象的头部的每条边的权重。根据匈牙利算法或者网络流算法，计算出权重最大的边，并将权重最大的边所连接的目标对象的头部作为同一个目标对象的头部，从而确定目标对象在连续帧中的位置，从而可以更新其位置、速度等动态特征信息，并且获得目标对象在监控场景中的整体运动轨迹。

以上，通过图4中的步骤S401到S407，基于所述第一视频采集模块21(顶视视频采集模块)采集的所述第一视频数据，检测至少一个目标对象，并确定所述至少一个目标对象在所述第一视频数据中的至少一帧中的参数信息(步骤S102)，从而实现精确检测和跟踪监控场景中的目标对象。以下，将进一步描述通过顶视视频采集模块与俯视视频采集模块的配合，对于检测和跟踪监控场景中的目标对象进一步获取诸如身份特征信息和动作特征信息的特征信息。

如图6所示，在图1所示的步骤S103中基于第一视频数据和第二视频数据的坐标变换关系，根据第一位置确定至少一个目标对象在第二视频数据中的对应帧中的第二位置之后，处理进到步骤S601～S605，实现基于所述第二视频数据，提取处于所述第二位置的所述至少一个目标对象的特征信息(步骤S104)。在下文中，将详细描述基于所述第二视频数据，使用神经网络提取处于所述第二位置的所述至少一个目标对象的特征信息。

在步骤S601中，获得所述至少一个目标对象在所述第二视频数据中的所述对应帧，其中，所述至少一个目标对象在所述对应帧中位于第二位置。如上所述，位于第二位置的至少一个目标对象的所述对应帧视频数据也包括深度视频数据。此后，处理进到步骤S602。

在步骤S602中，经由第一神经网络，基于所述对应帧视频数据，获取至少一个目标对象的所述对应帧第一特征信息。所述第一特征信息用于表示对应帧中的视频数据。在本公开的一个实施例中，所述第一神经网络是预先训练好的卷积神经网络(CNN)。此后，处理进到步骤S603。

在步骤S603中，经由第二神经网络，基于所述对应帧第一特征信息以及对应帧之前任一帧中获得的至少一个目标对象的身份特征信息，获取至少一个目标对象在所述对应帧中的身份特征信息。

参照图7进一步描述上述步骤S602和S603。图7是图示根据本公开实施例的视频监控方法中的目标对象的身份特征信息获取的示意图。

如图7所示，将第二视频数据的对应帧(例如，第t帧)视频数据输入第一神经网络71(该第t帧视频数据中，所述目标对象位于第二位置)，第一神经网络71可以包括卷积神经网络CNN711。经由第一神经网络71中的CNN 711获得第t帧第一特征信息。进一步地，将由CNN 711提取的单帧信息输入第二神经网络72，此外将对于前一帧(第(t-1)帧)已经获得的中间结果(第(t-1)帧身份特征信息)也输入所述第二神经网络72。所述第二神经网络72可以包括两个反馈神经网络GRU(Gated Recurrent Unit)(GRU 721和GRU 722)。其中GRU 721用于基于第(t-1)帧身份特征信息和第t帧第一特征信息输出每种身份特征属性信息的分类结果，而GRU 722把所有信息再一次结合以输出目标对象在第t帧中的身份特征属性信息，从而使输出的每种身份特征属性信息更加准确。

此外，如上所述，所述身份特征属性信息包括但不限于性别、年龄、穿衣风格、身高、体重、头发长短、头发颜色等属性信息等。进一步地，对于每个身份特征属性信息，可以量化为一个多元的分类问题。也就是说，在所述第二神经网络72的输出端存在多个分类输出，每个分类输出对应于一种身份特征属性信息。

图7中所示为基于所述对应帧(第t帧)的前一帧(第(t-1)帧)的身份特征信息获得对应帧(第t帧)的身份特征信息，应当理解的是，还可以基于当对应帧之前的任一帧(第(t-n)帧)的身份特征信息获得对应帧(第t帧)的身份特征信息。

返回参照图6，在步骤S603中获得至少一个目标对象的身份特征信息之后，处理进到步骤S604。

在步骤S604中，经由第三神经网络，基于对应帧视频数据，获取至少一个目标对象的对应帧第三特征信息。所述对应帧第三特征信息用于表示对应帧中的视频数据。在本公开的一个实施例中，所述第三神经网络是预先训练好的卷积神经网络(CNN)。此后，处理进到步骤S605。

在步骤S605中，经由第四神经网络，基于所述对应帧第三特征信息、所述获取的对应帧中的身份特征信息以及对应帧之前任一帧中获得的所述至少一个目标对象的动作特征信息，获取所述至少一个目标对象在所述对应帧中的动作特征信息。

参照图8和图9进一步描述上述步骤S604和S605。图8是图示根据本公开实施例的视频监控方法中的目标对象的动作特征信息获取的示意图。

如图8所示，在将第二视频数据的对应帧(例如，第t帧)视频数据输入第三神经网络81，第三神经网络81包括卷积神经网络CNN811。经由第三神经网络81中的CNN 811获得第t帧第三特征信息之后，进一步地，将由CNN 811提取的单帧信息输入第四神经网络82，所述第四神经网络82同样可以包括两个反馈神经网络GRU(GRU 821和GRU 822)。此外，将对于前一帧(第(t-1)帧)已经获得的中间结果(第(t-1)帧动作特征信息)和由第二神经网络72输出的第t帧身份特征信息也输入所述第四神经网络82，这是由于目标对象的动作特征信息跟目标对象的身份特征信息有关，比如目标对象的身高体重信息可能导致目标对象不同的动作产生不同的姿态。所述第四神经网络82基于所述对应帧第三特征信息、所述获取的对应帧身份特征信息以及对应帧之前任一帧中获得的所述至少一个目标对象的动作特征信息，获取所述至少一个目标对象在所述对应帧(例如，第t帧)中的动作特征信息。

图8中所示为基于对应帧的前一帧(第(t-1)帧)的动作特征信息获得对应帧(第t帧)的动作特征信息，应当理解的是，还可以基于对应帧之前的任一帧(第(t-n)帧)的动作特征信息获得对应帧(第t帧)的动作特征信息。

在本公开的一个实施例中，动作特征信息可以包括但不限于骨骼信息和动作信息。类似于上述身份特征信息的分类，所述动作特征信息同样属于多元的分类问题。此外，对于骨骼信息和动作信息两者，比如骨骼决定了目标对象的姿态，姿态又进一步决定了目标对象当前的动作，反之亦然。因此，类似于上述身份特征信息的分类，所述动作特征信息的分类同样属于多任务学习过程，可以把两部分的监督信号结合起来，使得监督信号更完整，信息量更大。例如，在训练第三神经网络81和第四神经网络82的过程中，可以将基于骨骼信息和动作信息得到的损失函数整合起来调整第三神经网络81和第四神经网络82的参数，从而实现两部分的监督信号的结合，得到训练好的第三神经网络81和第四神经网络82用于提取目标对象的动作特征信息，所述动作特征信息包括骨骼信息和动作信息。

图9是进一步图示根据本公开实施例的视频监控方法获取的骨骼信息的示意图。在图9所示的示意图中，选取目标对象上的15个关键点，输出每个关键点在视频图像中的位置坐标作为骨骼信息，基于所述骨骼信息，可以辅助获得所述动作信息。

图10是图示根据本发明实施例的视频监控系统的示意性框图。如图10所示，根据本发明实施例的视频监控系统100包括：处理器101、存储器102、以及在所述存储器102的中存储的计算机程序指令103。

所述计算机程序指令103在所述处理器101运行时可以实现根据本发明实施例的视频监控系统的各个功能模块的功能，并且/或者可以执行根据本发明实施例的视频监控方法的各个步骤。

具体地，在所述计算机程序指令103被所述处理器101运行时，可以使得视频监控系统100执行以下步骤：获取分别经由第一视频采集模块和第二视频采集模块同时采集的监控场景的第一视频数据和第二视频数据；基于所述第一视频数据，检测至少一个目标对象，并确定所述至少一个目标对象在所述第一视频数据中的至少一帧中的参数信息，所述参数信息包括第一位置；基于所述第一视频数据和所述第二视频数据的坐标变换关系，根据所述第一位置确定所述至少一个目标对象在所述第二视频数据中的对应帧中的第二位置；以及基于所述第二视频数据，提取处于所述第二位置的所述至少一个目标对象的特征信息，其中，所述第一视频采集模块与所述第二视频采集模块相对于地平面采集视频数据的方向不同，并且所述第一视频采集模块和所述第二视频采集模块包含深度视频数据采集模块。

此外，在所述计算机程序指令103被所述处理器101运行时，可以使得视频监控系统100执行：配置所述第一视频采集模块和所述第二视频采集模块，并且确定所述第一视频采集模块的第一坐标参数和所述第二视频采集模块的第二坐标参数，以及基于所述第一坐标参数和所述第二坐标参数，确定所述坐标变换关系，其中，所述第一视频采集模块和所述第二视频采集模块配置在不同位置，并且所述第一视频采集模块为顶视视频采集模块，所述第二视频采集模块为俯视视频采集模块。

此外，在所述计算机程序指令103被所述处理器101运行时，可以使得视频监控系统100执行：获取包括其深度信息不同于所述监控场景的地面深度信息的像素点的区域为前景候选区域；根据深度信息将所述前景候选区域分为多个前景候选子区域；以及基于第一面积阈值和/或第一高度阈值过滤所述多个前景候选子区域，以获得多个前景子区域。

此外，在所述计算机程序指令103被所述处理器101运行时，可以使得视频监控系统100执行：对所述多个前景子区域滤波，确定其中大于第二高度阈值的候选峰值位置；以及利用训练好的分类器确定所述候选峰值位置是否对应于所述至少一个目标对象的头部。

此外，在所述计算机程序指令103被所述处理器101运行时，可以使得视频监控系统100执行：根据检测到的所述头部位置，在所述第一视频数据中的至少两帧之间关联以确定所述至少一个目标对象在第一视频数据各帧中的所述第一位置，以获得所述至少一个目标对象的动态特征信息。

此外，在所述计算机程序指令103被所述处理器101运行时，可以使得视频监控系统100执行：获得所述至少一个目标对象在所述第二视频数据中的所述对应帧，其中，所述至少一个目标对象在所述对应帧中位于所述第二位置；经由第一神经网络，基于所述对应帧视频数据，获取所述至少一个目标对象的对应帧第一特征信息；以及经由第二神经网络，基于所述对应帧第一特征信息以及所述对应帧之前任一帧中获得的所述至少一个目标对象的身份特征信息，获取所述至少一个目标对象在所述对应帧中的身份特征信息。

此外，在所述计算机程序指令103被所述处理器101运行时，可以使得视频监控系统100执行：经由第三神经网络，基于所述对应帧视频数据，获取所述至少一个目标对象的对应帧第三特征信息；以及经由第四神经网络，基于所述对应帧第三特征信息、所述获取的所述至少一个目标对象在所述对应帧中的身份特征信息以及所述对应帧之前任一帧中获得的所述至少一个目标对象的动作特征信息，获取所述至少一个目标对象在所述对应帧中的动作特征信息。

根据本公开实施例的视频监控系统中的各模块可以通过根据本公开实施例的视频监控系统中的处理器运行在存储器中存储的计算机程序指令来实现，或者可以在根据本公开实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机运行时实现。

所述计算机可读存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。

在上面详细描述的本公开的示例实施例仅仅是说明性的，而不是限制性的。本领域技术人员应该理解，在不脱离本公开的原理和精神的情况下，可对这些实施例进行各种修改，组合或子组合，并且这样的修改应落入本公开的范围内。

Claims

1.一种视频监控方法，包括：

获取分别经由第一视频采集模块和第二视频采集模块同时采集的监控场景的第一视频数据和第二视频数据；

基于所述第一视频数据，检测至少一个目标对象，并确定所述至少一个目标对象在所述第一视频数据中的至少一帧中的参数信息，所述参数信息包括第一位置；

基于所述第一视频数据和所述第二视频数据的坐标变换关系，根据所述第一位置确定所述至少一个目标对象在所述第二视频数据中的对应帧中的第二位置；以及

基于所述第二视频数据，提取处于所述第二位置的所述至少一个目标对象的特征信息，

其中，所述第一视频采集模块与所述第二视频采集模块相对于地平面采集视频数据的方向不同，并且所述第一视频采集模块和所述第二视频采集模块包含深度视频数据采集模块。

2.如权利要求1所述的视频监控方法，还包括：

配置所述第一视频采集模块和所述第二视频采集模块，并且确定所述第一视频采集模块的第一坐标参数和所述第二视频采集模块的第二坐标参数；以及

基于所述第一坐标参数和所述第二坐标参数，确定所述坐标变换关系，

其中，所述第一视频采集模块和所述第二视频采集模块配置在不同位置，并且所述第一视频采集模块为顶视视频采集模块，所述第二视频采集模块为俯视视频采集模块。

3.如权利要求1所述的视频监控方法，其中基于所述第一视频数据，检测所述至少一个目标对象，并确定所述至少一个目标对象在所述第一视频数据中的至少一帧中的参数信息的步骤包括：

获取包括其深度信息不同于所述监控场景的地面深度信息的像素点的区域为前景候选区域；

根据深度信息将所述前景候选区域分为多个前景候选子区域；以及

基于第一面积阈值和/或第一高度阈值过滤所述多个前景候选子区域，以获得多个前景子区域。

4.如权利要求3所述的视频监控方法，其中基于所述第一视频数据，检测所述至少一个目标对象，并确定所述至少一个目标对象在所述第一视频数据中的至少一帧中的参数信息的步骤还包括：

对所述多个前景子区域滤波，确定其中大于第二高度阈值的候选峰值位置；以及

利用训练好的分类器确定所述候选峰值位置是否对应于所述至少一个目标对象的头部。

5.如权利要求4所述的视频监控方法，还包括：

根据检测到的所述头部位置，在所述第一视频数据中的至少两帧之间关联以确定所述至少一个目标对象在第一视频数据各帧中的所述第一位置，以获得所述至少一个目标对象的动态特征信息。

6.如权利要求1所述的视频监控方法，其中基于所述第二视频数据，提取处于所述第二位置的所述至少一个目标对象的特征信息的步骤包括：

获得所述至少一个目标对象在所述第二视频数据中的所述对应帧，其中，所述至少一个目标对象在所述对应帧中位于所述第二位置；

经由第一神经网络，基于所述对应帧视频数据，获取所述至少一个目标对象的对应帧第一特征信息；以及

经由第二神经网络，基于所述对应帧第一特征信息以及所述对应帧之前任一帧中获得的所述至少一个目标对象的身份特征信息，获取所述至少一个目标对象在所述对应帧中的身份特征信息。

7.如权利要求6所述的视频监控方法，其中基于所述第二视频数据，提取处于所述第二位置的所述至少一个目标对象的特征信息的步骤还包括：

经由第三神经网络，基于所述对应帧视频数据，获取所述至少一个目标对象的对应帧第三特征信息；以及

经由第四神经网络，基于所述对应帧第三特征信息、所述获取的所述至少一个目标对象在所述对应帧中的身份特征信息以及所述对应帧之前任一帧中获得的所述至少一个目标对象的动作特征信息，获取所述至少一个目标对象在所述对应帧中的动作特征信息。

8.如权利要求7所述的视频监控方法，其中，所述动作特征信息包括骨骼信息和动作属性信息，其中，所述骨骼信息包括所述目标对象骨骼上的多个关键点，所述第四神经网络输出所述多个关键点在所述对应帧中的坐标位置。

9.一种视频监控系统，包括：

第一视频采集模块，用于采集监控场景的第一视频数据；

第二视频采集模块，用于与所述第一视频采集模块同时采集所述监控场景的第二视频数据，所述第一视频采集模块与所述第二视频采集模块相对于地平面采集视频数据的方向不同，其中，所述第一视频采集模块和所述第二视频采集模块包含深度视频采集模块；以及

视频监控模块，用于基于所述视频数据监控所述视频中的至少一个目标对象，其包含：

监控目标对象确定单元，用于基于所述第一视频数据，检测所述至少一个目标对象，并确定所述至少一个目标对象在所述第一视频数据中的至少一帧中的参数信息，所述参数信息包括第一位置；

视频坐标变换单元，用于基于所述第一视频数据和所述第二视频数据的坐标变换关系，根据所述第一位置确定所述至少一个目标对象在所述第二视频数据中的第二位置；以及

特征信息提取单元，用于基于所述第二视频数据，提取处于所述第二位置的所述至少一个目标对象的特征信息。

10.如权利要求9所述的视频监控系统，其中所述第一视频采集模块和所述第二视频采集模块配置在不同位置，并且所述第一视频采集模块为顶视视频采集模块，所述第二视频采集模块为俯视视频采集模块，

所述视频坐标变换单元确定所述第一视频采集模块的第一坐标参数和所述第二视频采集模块的第二坐标参数，并且基于所述第一坐标参数和所述第二坐标参数，确定所述坐标变换关系。

11.如权利要求9所述的视频监控系统，其中所述监控目标对象确定单元获取包括其深度信息不同于所述监控场景的地面深度信息的像素点的区域为前景候选区域；根据深度信息将所述前景候选区域分为多个前景候选子区域；以及基于第一面积阈值和/或第一高度阈值过滤所述多个前景候选子区域，以获得多个前景子区域。

12.如权利要求11所述的视频监控系统，其中所述监控目标对象确定单元对所述多个前景子区域滤波，确定其中大于第二高度阈值的候选峰值位置；并且利用训练好的分类器确定所述候选峰值位置是否对应于所述至少一个目标对象的头部。

13.如权利要求12所述的视频监控系统，其中所述监控目标对象确定单元根据检测到的所述头部位置，在所述第一视频数据中的至少两帧之间关联以确定所述至少一个目标对象在所述第一视频数据各帧中的所述第一位置，以获得所述至少一个目标对象的动态特征信息。

14.如权利要求9所述的视频监控系统，其中所述特征信息提取单元获得所述至少一个目标对象在所述第二视频数据中的所述对应帧，其中，所述至少一个目标对象在所述对应帧中位于所述第二位置；

所述特征信息提取单元经由第一神经网络，基于所述对应帧视频数据，获取所述至少一个目标对象的对应帧第一特征信息；以及经由第二神经网络，基于所述对应帧第一特征信息以及所述对应帧之前任一帧中获得的所述至少一个目标对象的身份特征信息，获取所述至少一个目标对象在所述对应帧中的身份特征信息。

15.如权利要求14所述的视频监控系统，其中所述特征信息提取单元还经由第三神经网络，基于所述对应帧视频数据，获取所述至少一个目标对象的对应帧第三特征信息；以及经由第四神经网络，基于所述对应帧第三特征信息、所述获取的所述至少一个目标对象在所述对应帧中的身份特征信息以及所述对应帧之前任一帧中获得的所述至少一个目标对象的动作特征信息，获取所述至少一个目标对象在所述对应帧中的动作特征信息。

16.如权利要求15所述的视频监控系统，其中，所述动作特征信息包括骨骼信息和动作属性信息，其中，所述骨骼信息包括骨骼上的多个关键点，所述第四神经网络输出所述多个关键点在所述对应帧中的坐标位置。