CN111754713A

CN111754713A - 视频监控方法、装置及系统

Info

Publication number: CN111754713A
Application number: CN201910245555.5A
Authority: CN
Inventors: 苏星
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2019-03-28
Filing date: 2019-03-28
Publication date: 2020-10-09
Anticipated expiration: 2039-03-28
Also published as: CN111754713B

Abstract

本申请公开了一种视频监控方法、装置及系统，属于安防监控领域。方法包括：获取双目摄像机中的第一摄像头采集的第一图像中的至少一个目标框；基于第一图像，以及双目摄像机中的第二摄像头采集的第二图像，获取第一图像的深度图以及位于深度图中的至少一个目标框；基于深度图确定深度图中的每个目标框中的目标对象的实际尺寸；若根据目标对象的实际尺寸确定出目标对象为入侵目标，生成报警信息。通过目标对象的实际尺寸对入侵目标和诸如树叶或小动物的小目标进行区分，有效的降低了误报率，提高了通过双目摄像机监测入侵目标的可靠性。

Description

视频监控方法、装置及系统

技术领域

本申请涉及安防监控领域，特别涉及一种视频监控方法、装置及系统。

背景技术

随着科技的发展，为了加强对外防范和防止恶性事件的发生，周界安防技术被广泛应用于机场、银行、监狱、军事基地或小区等区域。目前的周界安防技术手段多种多样，例如，智能视频图像分析。

通常可以通过视频监控方法来实现智能视频图像分析，例如，可以在周界区域布置摄像机，通过摄像机对进入该周界区域的人员或车辆等入侵目标进行监测，并发出报警信息。

当入侵目标距离摄像机较远时，该摄像机很难对该入侵目标和诸如树叶或小动物的小目标进行区分，容易引起误报(也即是对小目标进入周界区域后进行报警)，因此目前的摄像机监测入侵目标的可靠性较低。

发明内容

本申请实施例提供了一种视频监控方法、装置及系统，至少可以解决摄像机监测入侵目标的可靠性较低的问题，所述技术方案如下：

一方面，提供了一种视频监控方法，所述方法包括：

获取双目摄像机中的第一摄像头采集的第一图像中的至少一个目标框，每个目标框用于指示目标对象在所述第一图像中的位置；

基于所述第一图像，以及所述双目摄像机中的第二摄像头采集的第二图像，获取所述第一图像的深度图以及位于所述深度图中的至少一个目标框，所述第一图像与所述第二图像为时序上相同的两幅图像；

基于所述深度图确定所述深度图中的每个目标框中的目标对象的实际尺寸；

若根据所述目标对象的实际尺寸确定出所述目标对象为入侵目标，生成报警信息。

可选的，基于所述深度图确定所述深度图中的每个目标框中的目标对象的实际尺寸，包括：

对于每个所述目标框，在所述深度图中获取所述目标框中每个像素点的深度值；

基于所述目标框中每个像素点的深度值，确定所述目标框的深度值代表，所述深度值代表用于指示所述目标框中的目标对象距离所述双目摄像机的距离；

基于所述深度值代表，确定所述目标对象的实际尺寸。

可选的，所述方法还包括：

在所述深度图中获取所述目标框中每个像素点的深度值之前，对所述深度图中的每个像素点的深度值进行中值滤波处理，得到中值滤波处理后的深度图；

在所述深度图中获取所述目标框中每个像素点的深度值，包括：

在所述中值滤波处理后的深度图中获取所述目标框中每个像素点的深度值。

可选的，基于所述目标框中每个像素点的深度值，确定所述目标框的深度值代表，包括：

基于所述目标框中每个像素点的深度值，采用深度值代表计算公式计算得到所述目标框的深度值代表，所述深度值代表计算公式为：

其中，z₀表示所述目标框的深度值代表；(x，y)表示所述中值滤波处理后的深度图中各个像素点在所述第一摄像头的第一坐标系中的坐标；D(x，y)表示所述中值滤波处理后的深度图中各个像素点的深度值；(x₁，y₁)和(x₂，y₂)分别表示所述目标框任意两个对角的像素点在所述第一坐标系中的坐标。

可选的，基于所述深度值代表，确定所述目标框的实际长度和实际宽度。

可选的，所述若根据所述目标对象的实际尺寸确定出所述目标对象为入侵目标，生成报警信息之前，所述方法还包括：

基于所述目标框的实际长度和实际宽度，计算所述目标对象的加权值；判断所述目标对象的加权值是否在加权值范围内；若所述目标对象的加权值在所述加权值范围内，确定所述目标对象为入侵目标。

可选的，基于所述目标框的实际长度和实际宽度，计算所述目标对象的加权值，包括：

基于所述双目摄像机的倾角，对所述目标框的实际长度进行校正，得到校正后长度；

基于所述目标框的实际宽度和所述校正后的长度，计算所述目标对象的加权值。

可选的，所述获取双目摄像机中的第一摄像头采集的第一图像中的至少一个目标框，包括：

基于所述第一图像，采用目标检测算法获取所述第一图像中的第一待选框，所述第一待选框用于指示目标对象在所述第一图像中的位置；

基于所述第一摄像头采集的包含所述第一图像的视频流，采用目标跟踪检测算法获取所述第一图像中的第二待选框，所述第二待选框用于指示目标对象在所述第一图像中的位置；

将所述第一图像中的所有的第一待选框和第二待选框，确定为所述第一图像中的目标框。

可选的，在基于所述第一图像，以及所述双目摄像机中的第二摄像头采集的第二图像，获取所述第一图像的深度图以及位于所述深度图中的至少一个目标框之前，所述方法还包括：

采用深度学习网络模型对所述第一图像中的每个目标框中的目标对象进行分类处理，得到所述目标对象的分类处理结果；

基于所述目标对象的分类处理结果，判断所述目标对象是否为非入侵目标；

若所述目标对象为非入侵目标，滤除所述目标对象对应的目标框。

可选的，在采用深度学习网络模型对所述第一图像中的每个目标框中的目标对象进行分类处理，判断所述目标对象是否为入侵目标之前，所述方法还包括：

判断所述第一图像中的每个所述目标框是否与所述第一图像中的指定区域重合；

若所述目标框不与所述指定区域重合，滤除所述目标框。

可选的，所述第一摄像头与所述第二摄像头均为红绿蓝RGB摄像头或红外摄像头，

基于所述第一图像，以及所述双目摄像机中的第二摄像头采集的第二图像，获取所述第一图像的深度图以及位于所述深度图中的至少一个目标框，包括：

基于所述第一图像和所述第二图像采用立体匹配算法，确定所述第一图像的深度图；

基于所述第一图像中的至少一个目标框，确定所述深度图中的至少一个目标框。

可选的，所述第一摄像头为RGB摄像头或红外摄像头，所述第二摄像头为深度摄像头，

通过所述第二摄像头采集的第二图像，确定所述第一图像的深度图；

另一方面，提供了一种视频监控装置，所述装置包括：

第一获取模块，用于获取双目摄像机中的第一摄像头采集的第一图像中的至少一个目标框，每个目标框用于指示目标对象在所述第一图像中的位置；

第二获取模块，用于基于所述第一图像，以及所述双目摄像机中的第二摄像头采集的第二图像，获取所述第一图像的深度图以及位于所述深度图中的至少一个目标框，所述第一图像与所述第二图像为时序上相同的两幅图像；

第一确定模块，用于基于所述深度图确定所述深度图中的每个目标框中的目标对象的实际尺寸；

生成模块，用于若根据所述目标对象的实际尺寸确定出所述目标对象为入侵目标，生成报警信息。

可选的，所述第一确定模块，包括：

第一获取单元，用于对于每个所述目标框，在所述深度图中获取所述目标框中每个像素点的深度值；

第一确定单元，用于基于所述目标框中每个像素点的深度值，确定所述目标框的深度值代表，所述深度值代表用于指示所述目标框中的目标对象距离所述双目摄像机的距离；

第二确定单元，用于基于所述深度值代表，确定所述目标对象的实际尺寸。

可选的，所述装置还包括：

中值滤波处理模块，用于在所述深度图中获取所述目标框中每个像素点的深度值之前，对所述深度图中的每个像素点的深度值进行中值滤波处理，得到中值滤波处理后的深度图；

所述第一获取单元，用于在所述中值滤波处理后的深度图中获取所述目标框中每个像素点的深度值。

可选的，所述第一确定单元，用于：

可选的，所述第二确定单元，用于：

基于所述深度值代表，确定所述目标框的实际长度和实际宽度。

可选的，所述装置还包括：

计算模块，用于基于所述目标框的实际长度和实际宽度，计算所述目标对象的加权值；

第一判断模块，用于判断所述目标对象的加权值是否在加权值范围内；

第二确定模块，用于若所述目标对象的加权值在所述加权值范围内，确定所述目标对象为入侵目标。

可选的，所述计算模块，包括：

校正单元，用于基于所述双目摄像机的倾角，对所述目标框的实际长度进行校正，得到校正后长度；

计算单元，基于所述目标框的实际宽度和所述校正后的长度，计算所述目标对象的加权值。

可选的，所述第一获取模块，包括：

第二获取单元，用于基于所述第一图像，采用目标检测算法获取所述第一图像中的第一待选框，所述第一待选框用于指示目标对象在所述第一图像中的位置；

第三获取单元，用于基于所述第一摄像头采集的包含所述第一图像的视频流，采用目标跟踪检测算法获取所述第一图像中的第二待选框，所述第二待选框用于指示目标对象在所述第一图像中的位置；

第三确定单元，用于将所述第一图像中的所有的第一待选框和第二待选框，确定为所述第一图像中的目标框。

可选的，所述装置还包括：

分类处理模块，用于采用深度学习网络模型对所述第一图像中的每个目标框中的目标对象进行分类处理，得到所述目标对象的分类处理结果；

第二判断模块，用于基于所述目标对象的分类处理结果，判断所述目标对象是否为非入侵目标；

第一滤除模块，用于若所述目标对象为非入侵目标，滤除所述目标对象对应的目标框。

可选的，所述装置还包括：

第三判断模块，用于判断所述第一图像中的每个所述目标框是否与所述第一图像中的指定区域重合；

第二滤除模块，用于若所述目标框不与所述指定区域重合，滤除所述目标框。

可选的，所述第一摄像头与所述第二摄像头均为RGB摄像头或红外摄像头，所述第二获取模块，包括：

第四确定单元，用于基于所述第一图像和所述第二图像采用立体匹配算法，确定所述第一图像的深度图；

第五确定单元，用于基于所述第一图像中的至少一个目标框，确定所述深度图中的至少一个目标框。

可选的，所述第一摄像头为RGB摄像头或红外摄像头，所述第二摄像头为深度摄像头，所述第二获取模块，包括：

第五确定单元，通过所述第二摄像头采集的第二图像，确定所述第一图像的深度图；

第六确定单元，基于所述第一图像中的至少一个目标框，确定所述深度图中的至少一个目标框。

又一方面，提供了一种视频监控系统，包括：双目摄像机和监控服务器；

所述双目摄像机用于获取所述双目摄像机中的第一摄像头采集的第一图像中的至少一个目标框，每个目标框用于指示目标对象在所述第一图像中的位置；

所述双目摄像机还用于基于所述第一图像，以及所述双目摄像机中的第二摄像头采集的第二图像，获取所述第一图像的深度图以及位于所述深度图中的至少一个目标框，所述第一图像与所述第二图像为时序上相同的两幅图像；

所述双目摄像机还用于基于所述深度图确定所述深度图中的每个目标框中的目标对象的实际尺寸；

所述双目摄像机还用于若根据所述目标对象的实际尺寸确定出所述目标对象为入侵目标，生成报警信息，并向所述监控服务器发送所述报警信息；

所述监控服务器用于接收所述双目摄像机发送的所述报警信息。

再一方面，提供了一种视频监控系统，包括：双目摄像机和监控服务器；

所述双目摄像机用于通过所述双目摄像机中的第一摄像头采集第一图像，通过所述双目摄像机中的第二摄像头采集第二图像，所述第一图像与所述第二图像为时序上相同的两幅图像；

所述监控服务器用于获取所述第一图像中的至少一个目标框，每个目标框用于指示目标对象在所述第一图像中的位置；

所述监控服务器还用于基于所述第一图像，以及所述第二图像，获取所述第一图像的深度图以及位于所述深度图中的至少一个目标框；

所述监控服务器还用于基于所述深度图确定所述深度图中的每个目标框中的目标对象的实际尺寸；

所述监控服务器还用于若根据所述目标对象的实际尺寸确定出所述目标对象为入侵目标，生成报警信息。

本申请实施例提供的技术方案带来的有益效果至少包括：

在获取包含至少一个目标框的第一图像后，还需获取了该第一图像的深度图以及位于该深度图中的至少一个目标框，此时，可以基于该深度图确定该深度图中的每个目标框中的目标对象的实际尺寸，通过目标对象的实际尺寸对入侵目标和诸如树叶或小动物的小目标进行区分，并在确定出目标对象为入侵目标后，生成报警信息，有效的降低了误报率，提高了通过双目摄像机监测入侵目标的可靠性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种视频监控方法所涉及的视频监控系统的结构示意图；

图2是本申请实施例提供的一种视频监控方法的流程图；

图3是本申请实施例提供的另一种视频监控方法的流程图；

图4是本申请实施例通过的一种第一图像的示意图；

图5是本申请实施例提供的一种对像素点的深度值中值滤波处理的示意图；

图6是本申请实施例提供的一种视频监控装置的框图；

图7是本申请实施例提供的一种第一确定模块的框图；

图8是本申请实施例通过的另一种视频监控装置的框图；

图9是本申请实施例提供的一种第一获取模块的框图；

图10是本申请实施例提供的又一种视频监控装置的框图；

图11是本申请实施例提供的一种双目摄像机的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

请参考图1，图1是本申请实施例提供的一种视频监控方法所涉及的视频监控系统的结构示意图。该视频监控系统100包括：双目摄像机101和监控服务器102。

双目摄像机101可以包括：第一摄像头101a和第二摄像头101b。在一种实现方式中，该第一摄像头101a和第二摄像头101b可以均为RGB摄像头或者红外摄像头；在另一种实现方式中，该第一摄像头101a可以为RGB摄像头或者红外摄像头，第二摄像头101b可以深度摄像头；在又一种实现方式中，该第一摄像头101a可以为RGB摄像头和红外摄像头中的一个，第二摄像头101b可以为RGB摄像头和红外摄像头中的另一个。

监控服务器102可以是一台服务器，或者由若干台服务器组成的服务器集群，或者是一个云计算服务中心。

该双目摄像机101与监控服务器102建立有通信连接。需要说明的是，本申请实施例中所谓的通信连接，可以是通过有线网络或者无线网络建立的通信连接。

请参考图2，图2是本申请实施例提供的一种视频监控方法的流程图。该视频监控方法可以应用于图1示出的视频监控系统100中的双目摄像机101，也可以应用于视频监控系统100中的监控服务器102。该视频监控方法可以包括：

步骤201、获取双目摄像机中的第一摄像头采集的第一图像中的至少一个目标框。每个目标框用于指示目标对象在第一图像中的位置。

步骤202、基于第一图像，以及双目摄像机中的第二摄像头采集的第二图像，获取该第一图像的深度图以及位于该深度图中的至少一个目标框。该第一图像与第二图像为时序上相同的两幅图像。

步骤203、基于深度图确定该深度图中的每个目标框中的目标对象的实际尺寸。

步骤204、若根据目标对象的实际尺寸确定出目标对象为入侵目标，生成报警信息。

在相关技术中，通常是通过对图像中的目标对象采用深度学习网络模型进行识别，但是，当入侵目标距离摄像机较远时，深度学习网络模型很难对诸如树叶或小动物的小目标与入侵目标进行区分，容易引起误报。而在本申请实施例中，通过获取目标对象的实际尺寸，可以将小目标与入侵目标进行区分，有效的降低了误报率。

综上所述，本申请实施例提供的视频监控方法，在获取包含至少一个目标框的第一图像后，还需获取了该第一图像的深度图以及位于该深度图中的至少一个目标框，此时，可以基于该深度图确定该深度图中的每个目标框中的目标对象的实际尺寸，通过目标对象的实际尺寸对入侵目标和诸如树叶或小动物的小目标进行区分，并在确定出目标对象为入侵目标后，生成报警信息，有效的降低了误报率，提高了通过双目摄像机监测入侵目标的可靠性。

请参考图3，图3是本申请实施例提供的另一种视频监控方法的流程图。该视频监控方法可以应用于图1示出的视频监控系统100中的双目摄像机101，也可以应用于视频监控系统100中的监控服务器102。该视频监控方法可以包括：

步骤301、获取双目摄像机中的第一摄像头采集的第一图像中的至少一个目标框。

在本申请实施例中，该第一摄像头可以为RGB摄像头或红外摄像头。每个目标框用于指示目标对象在第一图像中的位置。示例的，获取双目摄像机中的第一摄像头采集的第一图像中的至少一个目标框可以包括以下几个步骤：

步骤A1、基于第一图像，采用目标检测算法获取第一图像中的第一待选框。该第一待选框用于指示目标对象在第一图像中的位置。

在本申请实施例中，可以基于第一图像采用目标检测算法，在第一图像中将每个目标对象所处的位置采用第一待选框进行标记。

步骤B1、基于第一摄像头采集的包含第一图像的视频流，采用目标跟踪检测算法获取第一图像中的第二待选框。该第二待选框用于指示目标对象在第一图像中的位置。

在本申请实施例中，可以基于第一摄像头采集的包含第一图像的视频流，采用目标跟踪检测算法，在第一图像中将每个目标对象所处的位置采用第二待选框进行标记。

步骤C1、将第一图像中的所有的第一待选框和第二待选框，确定为第一图像中的目标框。

在本申请实施例中，可以将步骤A1中采用目标检测算法获取的所有第一待选框，以及步骤B1中采用目标跟踪检测算法获取的所有第二待选框确定为第一图像中的目标框。

需要说明的是，在多数情况下，第一待选框和第二待选框在第一图像中是重合。但是，在个别情况下，采用目标检测算法可能无法检测到第一图像中的某些目标对象，而采用目标跟踪检测算法可以检测到这些目标对象；或者，采用目标跟踪检测算法可能无法检测到第一图像中的某些目标对象，而采用目标检测算法可以检测到这些目标对象。因此，本申请实施例中采用两种不同的检测算法对第一图像中的目标对象进行检测，可以避免采用单一的检测算法对第一图像进行检测时，出现目标对象遗漏的现象。

还需要说明的是，在获取双目摄像机中的第一摄像头采集的第一图像中的至少一个目标框之前，还需要对双目摄像机进行标定处理，以获取该双目摄像机的相机内参和相机外参等参数，便于在后续过程中能够获取到通过双目摄像机获取的图像的深度图，该深度图中每个像素点的像素值为深度值，该深度值用于表示对应像素点距离双目摄像机的距离。

步骤302、判断第一图像中的每个目标框是否与第一图像中的指定区域重合。

示例的，若目标框不与该指定区域重合，滤除该目标框，也即是，执行步骤303；若目标框与该指定区域重合，保留该目标框，便于通过后续步骤进一步的确认该目标框中的目标对象是否为入侵目标。

步骤303、若目标框不与指定区域重合，滤除该目标框。

在本申请实施例中，请参考图4，图4是本申请实施例通过的一种第一图像的示意图，该第一图像中的目标对象01可以通过上述步骤301获取的目标框02进行标记。该第一图像中还含有指定区域03，该指定区域03通常可以为诸如机场、银行、监狱、军事基地或小区等区域中的周界区域。

若第一图像中的目标框02与该指定区域03重合，该目标框02中的目标对象01可能为入侵目标，需要通过后续的步骤进一步的确认该目标对象01是否为入侵目标；若第一图像中的目标框02不与该指定区域03重合，该目标框02中的目标对象01一定为非入侵目标，为了减少运算量，可以对该目标框02进行滤除，也即是，在第一图像中删除该目标框02。

例如，如图4所述，在判断出第一图像中的目标框02a不与指定区域03重合，此时，可以将该目标框02a进行删除；在判断出第一图像中的目标框02b与指定区域03重合，此时，需要保留该目标框02a。在后续步骤中仅需要对目标框02a进行分析，而无需对目标框02b进行分析，有效的减小了运算量。

步骤304、采用深度学习网络模型对第一图像中的每个目标框中的目标对象进行分类处理，得到目标对象的分类处理结果。

示例的，在深度学习网络模型中输入第一图像后，深度学习网络模型可以对该第一图像中的每个目标框中的目标对象进行分类处理，得到的目标对象的分类处理结果包括：非入侵目标和疑似入侵目标。该疑似入侵目标可能为人或者车辆等入侵目标，也可能为诸如树叶或小动物的小目标。需要说明的是，本申请实施例中的深度学习网络模型是事先进行训练处理得到的。

步骤305、基于目标对象的分类处理结果，判断目标对象是否为非入侵目标。

在本申请实施例中，由于目标对象的分类处理结果包括：非入侵目标和疑似入侵目标，因此可以基于目标对象的分类处理结果，判断出目标对象是否为非侵目标。

示例的，若目标对象为非入侵目标，滤除该目标对象对应的目标框，也即是，执行步骤306；若目标对象不为非入侵目标，也即是，该目标对象为疑似入侵目标，保留目标对象对应的目标框。

需要说明的是，由于通过深度学习网络模型很难对距离双目摄像机较远的入侵目标和诸如树叶和小动物的小目标进行区分，因此，若基于目标对象的分类处理结果，判断出目标对象为疑似入侵目标，还需通过后续的步骤进一步的对该疑似入侵目标进行验证。

步骤306、若目标对象为非入侵目标，滤除该目标对象对应的目标框。

在本申请实施例中，若目标对象为非入侵目标，可以对该目标对象对象的目标框进行滤除，使得后续仅需要对目标对象为疑似入侵目标所对应的目标框进行分析，有效的降低了运算量。

步骤307、基于第一图像，以及双目摄像机中的第二摄像头采集的第二图像，获取第一图像的深度图以及位于深度图中的至少一个目标框。

在本申请实施例中，由于第二摄像头可以为RGB摄像头或红外摄像头，该第二摄像头还可以为深度摄像头，因此通过第一图像以及第二图像获取第一图像的深度图以及位于该深度图中的至少一个目标框的实现方式有多种，本申请实施例以以下两种可实现方式为例进行示意性说明：

在第一种可实现方式中，当第二摄像头为RGB摄像头或红外摄像头时，基于第一图像，以及双目摄像机中的第二摄像头采集的第二图像，获取第一图像的深度图以及位于深度图中的至少一个目标框可以包括以下几个步骤：

步骤A2、基于第一图像和第二图像采用立体匹配算法，确定第一图像的深度图。

在本申请实施例中，基于第一图像和第二图像采用立体匹配算法，确定第一图像的深度图包括以下几个步骤：

步骤A21、基于预先获取的双目摄像机的相机内参和相机外参，对第一图像和第二图像进行极线对齐校正处理，得到校正后的第一图像和第二图像。

步骤A22、基于校正后的第一图像和第二图像采用立体匹配算法，确定第一图像的深度图。

需要说明的是，上述步骤A21至步骤A22可以参考相关技术，本申请示例在此不再赘述。

步骤B2、基于第一图像中的至少一个目标框，确定深度图中的至少一个目标框。

在本申请实施例中，在确定出第一图像的深度图后，可以在第一摄像头中的第一坐标系中，先确定出第一图像中每个目标框的坐标，然后基于每个目标框的坐标，在深度图中确定至少一个目标框。

示例的，可以在第一坐标系中，先确定出第一图像中每个目标框的四个顶点的坐标，然后基于每个目标框的四个顶点的坐标，在深度图中确定至少一个目标框。

例如，假设目标框R0在第一摄像头中的第一坐标系中的左上角的坐标为(x₀₁，y₀₁)，右上角的坐标为(x₀₂，y₀₂)，该目标框内的深度图可以表示为D_R0：

D_R0＝{D₀(x，y)|x₀₁≤x≤x₀₂，y₀₁≤y≤y₀₂}；

其中，(x，y)表示第一图像的深度图中各个像素点在第一坐标系中的坐标；D₀(x，y)表示第一图像的深度图中各个像素点的深度值。

在第二种可实现方式中，当第二摄像头为深度摄像头时，基于第一图像，以及双目摄像机中的第二摄像头采集的第二图像，获取第一图像的深度图以及位于深度图中的至少一个目标框可以包括以下几个步骤：

步骤A3、通过第二摄像头采集的第二图像，确定第一图像的深度图。

在本申请实施例中，若第二摄像头为深度摄像头，则通过该第二摄像头采集的第二图像为深度图，此时，可以将该第二图像映射在第一摄像头中的第一坐标系中，即可得到第一图像的深度图。

步骤B3、基于第一图像中的至少一个目标框，确定深度图中的至少一个目标框。

需要说明的是，该步骤B3可以上述步骤B2，在此不再赘述。

步骤308、基于深度图确定该深度图中的每个目标框中的目标对象的实际尺寸。

示例的，基于深度图确定深度图中的每个目标框中的目标对象的实际尺寸可以包括以下几个步骤：

步骤A4、对于每个目标框，在深度图中获取该目标框中每个像素点的深度值。

在本申请实施例中，目标框中像素点的深度值可能会出现异常突变的情况，例如，在该目标框中，除了包含目标对象所在区域，还包含除目标对象之外的区域，对于除目标对象之外的区域中像素点的深度值可能会远大于目标对象所在区域中像素点的深度值。

由于后续需要通过目标框中像素点的深度值，计算该目标框中的目标对象的实际尺寸，若基于目标框中出现异常突变的像素点的深度值，可能会增大后续计算出的目标对象的实际尺寸的误差。为了降低目标对象的实际尺寸的误差，需要对目标框中出现异常突变的像素点的深度值进行修正。

示例的，该视频监控方法还可以包括：在深度图中获取该目标框中每个像素点的深度值之前，对深度图中的每个像素点的深度值进行中值滤波处理，得到中值滤波处理后的深度图。

在本申请实施例中，可以采用中值滤波框对深度图中的每个像素点的深度值进行中值滤波处理，该中值滤波框可以为：3×3的滤波框或5×5的滤波框等。例如，请参考图5，图5是本申请实施例提供的一种对像素点的深度值中值滤波处理的示意图，可以采用3×3的滤波框对像素点a的深度值进行中值滤波处理，该像素点a的深度值在中值滤波处理前为90，在中值滤波处理前后为42。

在对深度图中的每个像素点的深度值进行中值滤波处理后，该步骤A4可以包括：在中值滤波处理后的深度图中获取目标框中每个像素点的深度值。此时，可以有效的对目标框中出现异常突变的像素点的深度值进行修正，避免后续出现计算出的目标对象的实际尺寸的误差较大的情况。

步骤B4、基于目标框中每个像素点的深度值，确定目标框的深度值代表。

在本申请实施例中，目标框中的每个像素点的深度值可能不同，为了便于计算，可以确定出用于指示目标框中的目标对象距离双目摄像机的距离的深度值代表，后续只需基于该目标框的深度值代表计算目标对象的实际尺寸即可。

示例的，由于目标框中央区域基本为目标对象所在区域，位于中央区域的深度值表示目标对象距离双目摄像机的距离的准确性较高，因此可以对目标框中的中央区域的每个像素点得深度值进行加权平均后，即可得到目标框的深度值代表。

例如，假设目标框中的中央区域为目标框中央四分之一的区域，则该步骤B4可以包括：基于目标框中每个像素点的深度值，采用深度值代表计算公式计算得到目标框的深度值代表。该深度值代表计算公式为：

其中，z₀表示目标框的深度值代表；(x，y)表示中值滤波处理后的深度图中各个像素点在第一摄像头的第一坐标系中的坐标；D(x，y)表示中值滤波处理后的深度图中各个像素点的深度值；(x₁，y₁)和(x₂，y₂)分别表示目标框任意两个对角的像素点在第一坐标系中的坐标。

在本申请实施例中，在确定了目标框的深度值代表后，可以采用该深度值代表对目标框进行填充，也即是，将目标框中每个像素点的深度值采用深度值代表表示；而除了目标框之外的像素点的深度值不变，也即是，除了目标框之外的像素点的深度值，依然为中值滤波处理后的深度图中对应像素点的深度值。

步骤C4、基于深度值代表，确定目标对象的实际尺寸。

在申请实施例中，目标框中的目标对象的实际尺寸可以采用该目标框的实际长度和实际宽度来表示，基于步骤B4计算出的深度值代表可以确定出目标对象实际长度和实际宽度。

示例的，首先可以将目标框中任意两个对角的像素点在第一坐标系中的坐标(x₁，y₁)和(x₂，y₂)映射到世界坐标系中，然后，在世界坐标系中计算出这两个坐标的纵坐标差和横坐标差，即可得到目标框的实际长度和时间宽度。

在本申请实施例中，第一坐标系中的坐标与世界坐标系之间的映射关系如下：

其中，(X，Y，Z)表示世界坐标系中的坐标；(x₀，y₀)第一摄像头的光心在第一坐标系送的坐标；B表示基线距离，该基线距离代表第一摄像头的光心与第二摄像头的光心之间的距离，在本申请实施例中，该基线距不小于4厘米；d表示相同的物点在第一图像与第二图像上的视差；f表示第一摄像头的焦距。

对于第一坐标系中的坐标(x₁，y₁)，其映射到世界坐标系中的坐标为(X₁，Y₁，Z₁)，该坐标(X₁，Y₁，Z₁)的计算公式如下：

对于第一坐标系中的坐标(x₂，y₂)，其映射到世界坐标系中的坐标为(X₂，Y₂，Z₂)，该坐标(X₂，Y₂，Z₂)的计算公式如下：

目标框的实际宽度为坐标(X₁，Y₁，Z₁)与坐标(X₂，Y₂，Z₂)的横坐标差△X，该目标框的实际宽度△X计算过程如下：

目标框的实际长度为坐标(X₁，Y₁，Z₁)与坐标(X₂，Y₂，Z₂)的纵坐标差△Y，该目标框的实际长度△Y计算过程如下：

因此，该步骤C4可以包括：基于深度值代表，采用尺寸计算公式计算得到目标框的实际长度和实际宽度，该尺寸计算公式为：

其中，△X表示目标框的实际宽度，△Y表示目标框的实际长度，f表示第一摄像头的焦距。

步骤309、基于目标框的实际长度和实际宽度，计算目标对象的加权值。

在本申请实施例中，为了便于确定目标框中的目标对象是否为入侵目标，可以先计算出目标对象的加权值，再基于该目标对象的加权值可以判断出目标对象是否为入侵目标。

示例的，基于目标框的实际长度和实际宽度，计算目标对象的加权值可以包括以下几个步骤：

步骤A5、基于双目摄像机的倾角，对目标框的实际长度进行校正，得到校正后长度。

在本申请实施例中，由于在双目摄像机安装后，该双目摄像机均存在倾角，该倾角通常为双目摄像机的相机平面与水平面(也称地面)之间的夹角，若后续直接通过坐标(X₁，Y₁，Z₁)与坐标(X₂，Y₂，Z₂)计算出的目标框的实际长度，判断目标对象是否为入侵目标的误差较大，因此，需要对该目标框的实际长度进行校正。需要说明的是，该双目摄像机的倾角可以通过图像的标定算法获取，也可以通过该双目摄像机内部的加速度传感器获取。

示例的，可以通过长度校正公式对目标框的实际长度进行校正，得到校正后长度。该长度校正公式为：

△Y’＝△Y/cosθ；

其中，△Y’表示目标框的实际长度进行校正后的长度；θ表示双目摄像机的倾角。

步骤B5、基于所述目标框的实际宽度和所述校正后的长度，计算所述目标对象的加权值。

示例的，可以采用加权值公式计算目标对象的加权值，该加权计算公式为：

其中，S表示目标对象的加权值；α目标框的实际宽度的权重；β目标框的实际长度进行校正后的长度的权重；γ表示目标框的实际面积的权重。

步骤310、判断目标对象的加权值是否在加权值范围内。

在本申请实施例中，在计算出目标对象的加权值后，需要判断该目标对象的加权值是否在加权值范围内，以此确定目标对象是否为入侵目标。示例的，若目标对象的加权值在加权值范围内，确定该目标对象为入侵目标，也即是，执行步骤311；若目标对象的加权值在加权值范围内，确定该目标对象不是入侵目标，结束动作。

步骤311、若目标对象的加权值在加权值范围内，确定目标对象为入侵目标。

示例的，该加权值范围可以实现通过大量的测试获取，示例的，该加权值范围可以为[S1，S2]，其中，S1为加权值范围的下限阈值，S2为加权值范围的上限阈值。若目标对象的加权值在[S1，S2]内时，确定该目标对象为入侵目标。

步骤313、生成报警信息。

可选的，该报警信息可以为用于向监控人员指示双目摄像机所监控的周界区域中存在入侵目标的信息。

在本申请实施例中，当上述步骤301至步骤312示出的视频监控方法应用于监控服务器时，在步骤313直接生成报警信息即可；当上述步骤301至步骤312示出的视频监控方法应用于双目摄像机时，在步骤313中生成报警信息后，还需要向监控服务器发送该报警信息。

需要说明的是，本申请实施例提供的视频监控方法步骤的先后顺序可以进行适当调整，步骤也可以根据情况进行相应增减，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化的方法，都应涵盖在本申请的保护范围之内，因此不再赘述。

请参考图6，图6是本申请实施例提供的一种视频监控装置的框图，该视频监控装置可以集成在图1示出的视频监控系统100中的双目摄像机101，也可以集成在视频监控系统100中的监控服务器102。该视频监控装置400可以包括：

第一获取模块401，用于获取双目摄像机中的第一摄像头采集的第一图像中的至少一个目标框。每个目标框用于指示目标对象在第一图像中的位置。

第二获取模块402，用于基于第一图像，以及双目摄像机中的第二摄像头采集的第二图像，获取第一图像的深度图以及位于深度图中的至少一个目标框。该第一图像与第二图像为时序上相同的两幅图像。

第一确定模块403，用于基于深度图确定深度图中的每个目标框中的目标对象的实际尺寸。

生成模块404，用于若根据目标对象的实际尺寸确定出目标对象为入侵目标，生成报警信息。

综上所述，本申请实施例提供的视频监控装置，在获取包含至少一个目标框的第一图像后，还需获取了该第一图像的深度图以及位于该深度图中的至少一个目标框，此时，可以基于该深度图确定该深度图中的每个目标框中的目标对象的实际尺寸，通过目标对象的实际尺寸对入侵目标和诸如树叶或小动物的小目标进行区分，并在确定出目标对象为入侵目标后，生成报警信息，有效的降低了误报率，提高了通过双目摄像机监测入侵目标的可靠性。

可选的，请参考图7，图7是本申请实施例提供的一种第一确定模块的框图，该第一确定模块403包括：

第一获取单元4031，用于对于每个目标框，在深度图中获取目标框中每个像素点的深度值。

第一确定单元4032，用于基于目标框中每个像素点的深度值，确定目标框的深度值代表。该深度值代表用于指示目标框中的目标对象距离双目摄像机的距离。

第二确定单元4033，用于基于深度值代表，确定目标对象的实际尺寸。

可选的，该视频监控装置400还可以包括：中值滤波处理模块，用于在深度图中获取目标框中每个像素点的深度值之前，对深度图中的每个像素点的深度值进行中值滤波处理，得到中值滤波处理后的深度图。该第一获取单元4031，用于在中值滤波处理后的深度图中获取目标框中每个像素点的深度值。

可选的，该第一确定单元4032用于：

基于目标框中每个像素点的深度值，采用深度值代表计算公式计算得到目标框的深度值代表，深度值代表计算公式为：

可选的，该第二确定单元4033，用于：基于所述深度值代表，确定所述目标框的实际长度和实际宽度。示例的，可以基于深度值代表，采用尺寸计算公式计算得到目标框的实际长度和实际宽度，该尺寸计算公式为：

可选的，请参考图8，图8是本申请实施例通过的另一种视频监控装置的框图，该视频监控装置400还可以包括：

计算模块405，用于基于目标框的实际长度和实际宽度，计算目标对象的加权值。

第一判断模块406，用于判断目标对象的加权值是否在加权值范围内；

第二确定模块407，用于若目标对象的加权值在加权值范围内，确定目标对象为入侵目标。

可选的，该计算模块405包括：

校正单元，用于基于所述双目摄像机的倾角，对所述目标框的实际长度进行校正，得到校正后长度。示例的，可以通过长度校正公式对目标框的实际长度进行校正，得到校正后长度。该长度校正公式为：

△Y’＝△Y/cosθ；

计算单元，基于所述目标框的实际宽度和所述校正后的长度，计算所述目标对象的加权值。示例的，可以采用加权值公式计算目标对象的加权值，该加权计算公式为：

可选的，请参考图9，图9是本申请实施例提供的一种第一获取模块的框图，该第一获取模块401包括：

第二获取单元4011，用于基于第一图像，采用目标检测算法获取第一图像中的第一待选框。该第一待选框用于指示目标对象在第一图像中的位置。

第三获取单元4012，用于基于第一摄像头采集的包含第一图像的视频流，采用目标跟踪检测算法获取第一图像中的第二待选框。该第二待选框用于指示目标对象在第一图像中的位置；

第三确定单元4013，用于将第一图像中的所有的第一待选框和第二待选框，确定为第一图像中的目标框。

可选的，如图10所示，图10是本申请实施例提供的又一种视频监控装置的框图。该视频监控装置400还可以包括：

分类处理模块408，用于采用深度学习网络模型对第一图像中的每个目标框中的目标对象进行分类处理，得到目标对象的分类处理结果。

第二判断模块409，用于基于目标对象的分类处理结果，判断目标对象是否为非入侵目标。

第一滤除模块410，用于若目标对象为非入侵目标，滤除目标对象对应的目标框。

可选的，该视频监控装置400还可以包括：

第三判断模块411，用于判断第一图像中的每个目标框是否与第一图像中的指定区域重合。

第二滤除模块412，用于若目标框不与指定区域重合，滤除目标框。

可选的，第一摄像头与第二摄像头均为RGB摄像头或红外摄像头，第二获取模块402可以包括：

第四确定单元，用于基于第一图像和第二图像采用立体匹配算法，确定第一图像的深度图。

第五确定单元，用于基于第一图像中的至少一个目标框，确定深度图中的至少一个目标框。

可选的，第一摄像头为RGB摄像头或红外摄像头，第二摄像头为深度摄像头，第二获取模块402可以包括：

第五确定单元，通过第二摄像头采集的第二图像，确定第一图像的深度图。

第六确定单元，基于第一图像中的至少一个目标框，确定深度图中的至少一个目标框。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供了一种视频监控系统，该视频监控系统的结构可以参考图1。该视频监控系统100包括：双目摄像机101和监控服务器102。图6、图8或图10示出的视频监控装置400可以集成在双目摄像机101上，也可以集成在监控服务器102上。

在一种实现方式中，若视频监控装置集成在双目摄像机上，该视频监控系统中的双目摄像机和监控服务器作用如下：

双目摄像机用于获取双目摄像机中的第一摄像头采集的第一图像中的至少一个目标框，每个目标框用于指示目标对象在第一图像中的位置；

双目摄像机还用于基于第一图像，以及双目摄像机中的第二摄像头采集的第二图像，获取第一图像的深度图以及位于深度图中的至少一个目标框，第一图像与第二图像为时序上相同的两幅图像；

双目摄像机还用于基于深度图确定深度图中的每个目标框中的目标对象的实际尺寸；

双目摄像机还用于若根据目标对象的实际尺寸确定出目标对象为入侵目标，生成报警信息，并向监控服务器发送报警信息；

监控服务器用于接收双目摄像机发送的报警信息。

在另一种实现方式中，若视频监控装置集成在监控服务器上，该视频监控系统中的双目摄像机和监控服务器作用如下：

双目摄像机用于通过双目摄像机中的第一摄像头采集第一图像，通过双目摄像机中的第二摄像头采集第二图像，第一图像与第二图像为时序上相同的两幅图像；

监控服务器用于获取第一图像中的至少一个目标框，每个目标框用于指示目标对象在第一图像中的位置；

监控服务器还用于基于第一图像，以及第二图像，获取第一图像的深度图以及位于深度图中的至少一个目标框；

监控服务器还用于基于深度图确定深度图中的每个目标框中的目标对象的实际尺寸；

监控服务器还用于若根据目标对象的实际尺寸确定出目标对象为入侵目标，生成报警信息。

本申请实施例还提供了一种计算机设备，该计算机设备可以为图1示出的视频监控系统100中的双目摄像机101，也可以为视频监控系统100中的监控服务器102。该计算机设备包括：至少一个处理器；和至少一个存储器；

其中，该至少一个存储器存储有一个或多个程序；

至少一个处理器，用于执行至少一个存储器上所存储的程序，以实现图2或图3示出的视频监控方法。示例的，该方法可以包括：

获取双目摄像机中的第一摄像头采集的第一图像中的至少一个目标框，每个目标框用于指示目标对象在第一图像中的位置；基于第一图像，以及双目摄像机中的第二摄像头采集的第二图像，获取第一图像的深度图以及位于深度图中的至少一个目标框，第一图像与第二图像为时序上相同的两幅图像；基于深度图确定深度图中的每个目标框中的目标对象的实际尺寸；若根据目标对象的实际尺寸确定出目标对象为入侵目标，生成报警信息。

示例的，当该计算机设备为双目摄像机时，请参考图11，图11是本申请实施例提供的一种双目摄像机101的结构示意图。该双目摄像机101可以包括：第一摄像头101a和第二摄像头101b，以及主控制单元101c，该主控制单元101c包括：至少一个处理器c1和至少一个存储器c2。主控制单元101c可以获取第一摄像头101a采集的第一图像，以及第二摄像头101b采集的第二图像，并进行分析处理。例如，存储器c2内可以存储有程序，处理器c1可以执行存储器c2上存储的程序，以实现图2或图3示出的视频监控方法。该处理器c1包括但不限定于CPU、DSP或ARM等计算处理平台。

本申请实施例还提供了一种计算机可读存储介质，该存储介质为非易失性存储介质，该存储介质中存储有代码指令，该代码指令由处理器执行，以执行图2或图3示出的视频监控方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选的实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频监控方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，基于所述深度图确定所述深度图中的每个目标框中的目标对象的实际尺寸，包括：

基于所述深度值代表，确定所述目标对象的实际尺寸。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，基于所述目标框中每个像素点的深度值，确定所述目标框的深度值代表，包括：

5.根据权利要求4所述的方法，其特征在于，基于所述深度值代表，确定所述目标对象的实际尺寸，包括：

6.根据权利要求5所述的方法，其特征在于，所述若根据所述目标对象的实际尺寸确定出所述目标对象为入侵目标，生成报警信息之前，所述方法还包括：

基于所述目标框的实际长度和实际宽度，计算所述目标对象的加权值；

判断所述目标对象的加权值是否在加权值范围内；

若所述目标对象的加权值在所述加权值范围内，确定所述目标对象为入侵目标。

7.根据权利要求6所述的方法，其特征在于，基于所述目标框的实际长度和实际宽度，计算所述目标对象的加权值，包括：

8.根据权利要求1至7任一所述的方法，其特征在于，所述获取双目摄像机中的第一摄像头采集的第一图像中的至少一个目标框，包括：

9.根据权利要求1至7任一所述的方法，其特征在于，在基于所述第一图像，以及所述双目摄像机中的第二摄像头采集的第二图像，获取所述第一图像的深度图以及位于所述深度图中的至少一个目标框之前，所述方法还包括：

10.根据权利要求9所述的方法，其特征在于，在采用深度学习网络模型对所述第一图像中的每个目标框中的目标对象进行分类处理，判断所述目标对象是否为入侵目标之前，所述方法还包括：

若所述目标框不与所述指定区域重合，滤除所述目标框。

11.根据权利要求1至7任一所述的方法，其特征在于，所述第一摄像头与所述第二摄像头均为红绿蓝RGB摄像头或红外摄像头，

12.根据权利要求1至7任一所述的方法，其特征在于，所述第一摄像头为RGB摄像头或红外摄像头，所述第二摄像头为深度摄像头，

13.一种视频监控装置，其特征在于，所述装置包括：

14.根据权利要求13所述的装置，其特征在于，所述第一确定模块，包括：

15.根据权利要求14所述的装置，其特征在于，所述装置还包括：

16.根据权利要求15所述的装置，其特征在于，所述第二确定单元，用于：

17.根据权利要求16所述的装置，其特征在于，所述装置还包括：

18.根据权利要求17所述的装置，其特征在于，所述计算模块，包括：

19.根据权利要求13至18任一所述的装置，其特征在于，所述第一获取模块，包括：

20.根据权利要求13至18任一所述的装置，其特征在于，所述装置还包括：

21.根据权利要求20所述的装置，其特征在于，所述装置还包括：

22.根据权利要求13至18任一所述的装置，其特征在于，所述第一摄像头与所述第二摄像头均为RGB摄像头或红外摄像头，所述第二获取模块，包括：

23.根据权利要求13至18任一所述的装置，其特征在于，所述第一摄像头为RGB摄像头或红外摄像头，所述第二摄像头为深度摄像头，所述第二获取模块，包括：

24.一种视频监控系统，其特征在于，包括：双目摄像机和监控服务器；

25.一种视频监控系统，其特征在于，包括：双目摄像机和监控服务器；