CN110879951A

CN110879951A - 一种运动前景检测方法及装置

Info

Publication number: CN110879951A
Application number: CN201811036878.5A
Authority: CN
Inventors: 方舒
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2018-09-06
Filing date: 2018-09-06
Publication date: 2020-03-13
Anticipated expiration: 2038-09-06
Also published as: CN110879951B

Abstract

一种运动前景检测方法及装置，用以解决现有技术中存在的运动前景检测方法的普适性较差的问题。该方法包括：获取目标场景的待检测视频帧。之后基于背景模型提取所述待检测视频帧中的运动区域特征，得到运动特征图，所述背景模型为基于针对所述目标场景过去采集的多个视频帧建立的，所述运动区域特征用于表征运动对象所在的区域。并提取所述待检测视频帧中的目标物体特征，得到目标特征图，所述目标物体包括前景目标和/或干扰物体。之后，基于所述运动特征图以及所述目标特征图确定所述待检测视频帧的运动前景。

Description

一种运动前景检测方法及装置

技术领域

本申请实施例涉及图像处理技术领域，尤其涉及一种运动前景检测方法及装置。

背景技术

目前，可以在视频监控中通过图像处理的方法识别出监控视频图像中的运动前景区域，从而可以实现基于视频内容的差异化资源分配，即针对运动前景区域可以分配较高的码率、比特率等视频资源，针对运动背景区域可以分配较低的码率、比特率等视频资源。运动背景区域包括运动背景物体，运动背景物体为指监控场景中静止的或是非常缓慢的移动的物体，而运动前景区域包括运动前景物体，运动前景为监控场景中相对于运动背景物体移动的物体。例如，监控场景中的公路及公路两旁的植物为运动背景物体，而行驶的车辆、行走的人等为运动前景物体。

目前，识别运动区域的方法有通过神经网络模型来区分运动背景区域以及运动前景区域。具体的，首先收集训练数据，即收集被监控场景的若干视频帧，并精确标注这些视频帧里的运动前景物体。然后将训练数据输入神经网络模型进行训练，以使神经网络模型可以区分监控场景的监控视频帧中的运动背景区域和运动前景区域。之后可以采用训练好的神经网络模型检测针对该监控场景当前采集的视频帧的运动前景区域。

然而，这种运动前景检测方法只使用于固定场景。当监控场景发生变化时，如监控摄像头由原监控场景切换到新监控场景，这时需要针对新监控场景采集对应的训练数据来重新训练神经网络模型，以使神经网络模型可以区分新监控场景的监控视频帧中的运动背景区域和运动前景区域。因此，目前采用的运动前景检测方法的普适性较差。

发明内容

本申请提供一种运动前景检测方法及装置，用以解决现有技术中存在的运动前景检测方法的普适性较差的问题。

第一方面，本申请提供了一种运动前景检测方法，该方法包括：获取目标场景的待检测视频帧。之后基于背景模型提取所述待检测视频帧中的运动区域特征，得到运动特征图，所述背景模型为针对所述目标场景已经采集的多个视频帧建立的，所述运动区域特征用于表征运动对象所在的区域。并提取所述待检测视频帧中的目标物体特征，得到目标特征图，所述目标物体包括前景目标和/或干扰物体。之后，基于所述运动特征图以及所述目标特征图确定所述待检测视频帧的运动前景。

本申请实施例中通过针对目标场景已经采集的视频帧建立背景模型，然后通过该背景模型过滤待检测视频帧中的固定不变的背景，得到运动对象所在的运动区域。并检测待检测视频帧中的前景目标和/或干扰物体，然后结合运动区域以及检测出的前景目标和/或干扰物体可以较为准确的检测出运动前景。例如，可以认为在运动区域的前景目标为运动前景，不在运动区域的前景目标为运动背景。或者，可以认为运动区域中干扰物体为运动背景，前景目标为运动前景等。相比于现有技术中通过神经网络模型来区分运动背景以及运动前景的方法，本申请实施例提供的运动前景检测方法可以应用在任意监控场景中，因此本申请实施例提供的运动前景检测方法具有较好的普适性。并且，相比于通过不同场景的视频帧训练神经网络模型，然后通过神经网络模型检测视频帧中可能是运动前景的物体(如车、人等等)的方法，本申请实施例的准确性较高。举例说明，当监控场景中存在一辆长时间静止的车辆时，在该车辆静止期间可以认为是运动背景，但是通过神经网络模型检测运动前景的物体的方式则将该车辆错误检测为运动前景，而本申请实施例中，通过背景模型可以将该车辆过滤掉，从而可以检测该车辆为运动背景，可见，本申请实施例的准确性较高。

在一种可能的设计中，在基于所述运动特征图以及所述目标特征图确定所述待检测视频帧的运动前景时，可以基于所述运动特征图确定所述待检测视频帧的第n个像素点的第一概率，所述n为取遍不大于所述待检测视频帧中像素点的总数的正整数，所述第一概率为所述第n个像素点位于所述运动区域的概率。并基于所述目标特征图确定所述第n个像素点的第二概率，所述第二概率为所述第n个像素点属于所述目标物体的概率。之后，基于所述第n个像素点的所述第一概率以及所述第二概率确定所述第n个像素点是否属于运动前景。上述设计中，通过融合运动特征图的运动区域信息以及目标特征图中目标物体信息，可以得到更精确的运动前景。

在一种可能的设计中，在基于所述第n个像素点的所述第一概率以及所述第二概率确定所述第n个像素点是否属于运动前景时，可以基于所述第n个像素点的所述第一概率以及所述第二概率，确定所述第n个像素点的自相关信息。并基于所述第n个像素点的所述第一概率以及所述第二概率，确定所述第n个像素点与所述待检测视频帧中其他像素点之间的互相关信息。之后，基于所述第n个像素点的自相关信息以及所述互相关信息确定所述第n个像素点的第三概率，所述第三概率为所述第n个像素点属于运动前景的概率。若所述第n个像素点的所述第三概率大于预设阈值，则可以确认所述第n个像素点属于运动前景，反之，则可以确认所述第n个像素点不属于运动前景。上述设计中，通过结合像素点的运动信息即该像素点属于运动区域的概率，以及该像素点的视觉信息即该像素点属于目标物体的概率，确定该像素点属于运动前景的概率，从而根据各个像素点属于运动前景的概率可以确定准确性比较高的运动区域。

在一种可能的设计中，所述第n个像素点的自相关信息可以符合如下公式：

p(s_n)＝p(d_n)p(f_n)；

其中，所述p(s_n)为所述第n个像素点的自相关信息；所述p(d_n)为所述第n个像素点的所述第一概率；所述p(f_n)为所述第n个像素点的所述第二概率。

所述第n个像素点与所述待检测视频帧中其他像素点之间的互相关信息可以符合如下公式：

其中，所述p(z_n)为所述第n个像素点的所述互相关信息；所述H为所述待检测视频帧中像素点的总数；所述p(o_mn)为所述第m个像素点的权重值。

所述第n个像素点的第三概率可以符合如下公式：

p(q_n)＝w₁×p(s_n)+w₂×p(z_n)[p(d_n)+p(f_n)],m≠n；

其中，p(q_n)为所述第n个像素点的所述第三概率，所述w₁和所述w₂为参数值。

在一种可能的设计中，所述p(o_mn)符合如下公式：

其中，所述w为参数值；当第m个像素点与所述第n个像素点在同一个运动区域时所述I_mn为1，当所述第m个像素点与所述第n个像素点不在同一个运动区域时所述I_mn为0；所述D_mn为所述第m个像素点与所述第n个像素点之间的距离。

在一种可能的设计中，在提取所述待检测视频帧中的目标物体特征，得到目标特征图时，可以将所述待检测视频帧输入预先训练的神经网络模型中提取目标物体特征，得到所述目标特征图。通过神经网络模型可以确定准确的定位待检测视频帧中的目标物体，从而可以有助于提高运动前景检测的准确性。

在一种可能的设计中，在提取所述待检测视频帧中的目标物体特征，得到目标特征图时，也可以基于上一次针对所述目标场景的视频帧检测所述目标物体时所确定的所述目标物体的位置，提取所述待检测视频帧中的所述目标物体特征，得到所述目标特征图。上述设计中，通过之前定位的目标物体确定待检测图像中目标物体的位置，可以有效的节省计算资源，以及时间资源，从而可以提高运动前景检测的速度。

在一种可能的设计中，所述神经网络模型可以通过如下方式训练得到：在第K次训练过程中，通过经过K-1次调整的神经网络模型提取训练样本数据库中第K个样本视频帧的所述目标物体特征，所述训练样本数据库包括针对一个或多个场景采集的N个样本视频帧，每个样本视频帧分别标注所述目标物体，所述N为大于0的整数，所述神经网络模型包括权重和偏置，所述K为大于0且不大于所述N的整数。在第K次训练后，获取所述样本视频帧的所述目标物体特征与所述样本视频帧中标注的所述目标物体之间的误差值。若所述样本视频帧的所述目标物体特征与所述样本视频帧中标注的所述目标物体之间的误差值不满足预设条件，基于所述样本视频帧的所述目标物体特征与所述样本视频帧中标注的所述目标物体之间的误差值，调整第K+1次训练过程所使用的权重和偏置。若所述样本视频帧的所述目标物体特征与所述样本视频帧中标注的所述目标物体之间的误差值满足预设条件，则所述经过K-1次调整的神经网络模型为训练完成的神经网络模型。

在一种可能的设计中，在基于背景模型检测所述待检测视频帧中的运动区域，得到运动特征图时，可以基于所述背景模型确定所述待检测视频帧的二值图，其中，所述二值图中背景像素点的像素值为0，非背景像素点的像素值为1。并将所述二值图进行形态学闭运算，得到包括至少一个连通区域的所述运动特征图，所述连通区域为所述运动区域。通过上述设计可以消除二值图中的边界点，还可以消除图像的空洞，从而可以得到运动对象所在的运动区域。

在一种可能的设计中，在将所述二值图进行形态学闭运算之前，可以将所述二值图进行平滑处理。通过上述设计可以消除二值图中孤立的像素点，从而可以提高运动区域的准确性。

第二方面，本申请提供一种运动前景检测装置。该装置具有实现上述第一方面以及第一方面中任一实施例的功能。该功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。

第三方面，本申请提供了一种电子设备，包括：处理器和存储器。存储器用于存储计算机执行指令，当该电子设备运行时，该处理器执行该存储器存储的该计算机执行指令，以使该装置执行如上述第一方面或第一方面中任一所述的运动前景检测方法。在一种可能的设计中，电子设备还可以包括传感设备如摄像头，处理器可以通过传感设备获取目标场景的待检测视频帧。

第四方面，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面或第一方面中任一所述的运动前景检测方法。

第五方面，本申请还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面或第一方面中任一所述的运动前景检测方法。

附图说明

图1A为本申请提供的一种应用场景的示意图；

图1B为本申请提供的一种检测运动前景思路的示意图；

图1C为本申请提供的一种运动前景检测方法的流程示意图；

图2为本申请提供的一种中值滤波方法的示意图；

图3为本申请提供的一种运动前景检测装置的结构示意图；

图4为本申请提供的一种运动前景检测装置的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述。

基于视频的运动前景信息的准确估计，在实际的视频分析领域中有着广泛的应用，尤其在视频监控方面。通过图像处理的方法，使计算机能够自动识别出视频中的运动前景。运动背景区域包括运动背景物体，运动背景物体为指监控场景中静止的或是非常缓慢的移动的物体，而运动前景区域包括运动前景物体，运动前景为监控场景中相对于运动背景物体移动的物体。例如，监控场景中的公路及公路两旁的植物为运动背景物体，而行驶的车辆、行走的人等为运动前景物体。例如，如图1A所示，高速公路上的监控摄像头时刻监控道路上行驶的车辆，后台监控软件通过对摄像头采集的视频帧进行检测运动前景、过滤运动前景图像等处理，自动识别出视频中的运动前景，也就是行驶的车辆。

目前，识别运动区域的方法有通过神经网络模型来区分运动背景区域以及运动前景区域。具体的，首先收集训练数据，即收集被监控场景的若干视频帧，并精确标注这些视频帧里的运动前景物体。然后将训练数据输入神经网络模型进行训练，以使神经网络模型可以区分监控场景的监控视频帧中的运动背景区域和运动前景区域。之后可以采用训练好的神经网络模型检测针对该监控场景当前采集的视频帧的运动前景区域。然而，这种运动前景检测方法只使用于固定场景。当监控场景发生变化时，如监控摄像头由原监控场景切换到新监控场景，这时需要针对新监控场景采集对应的训练数据来重新训练神经网络模型，以使神经网络模型可以区分新监控场景的监控视频帧中的运动背景区域和运动前景区域。因此，目前采用的运动前景检测方法的普适性较差。

本申请提供一种运动前景检测方法及装置，参阅图1B所示，该方法可以通过获取待检测图像中运动对象所在的运动区域，例如可以通过背景减除方法获得该图像像素级的前/背景2值图，然后针对前/背景2值图进行处理得到运动矩形框，该运动矩形框为运动区域。并获取待检测图像的前景目标区域和/或干扰物体区域，例如可以将待检测图像输入神经网络模型中提取前景目标区域以及干扰物体区域，其中，神经网络模型为预先经过训练数据经过训练的。之后将结合运动区域以及前景目标区域、干扰物体区域检测出运动前景所在的区域。本申请实施例提供的运动前景检测方法可以应用于任意场景，从而可以解决现有技术中存在的运动前景检测方法普适性较差的问题。

本申请实施例涉及的运动区域，可以指运动对象所在的区域。

本申请实施例涉及的前景目标区域可以指前景目标所在的区域，其中，前景目标可以但不限于为人、车等等。干扰物体区域可以指干扰物体所在的区域，其中，干扰物体可以但不限于为树叶等等。

其中，方法和装置是基于同一发明构思的，由于方法及装置解决问题的原理相似，因此装置与方法的实施可以相互参见，重复之处不再赘述。

需要说明的是，本申请中涉及的多个，是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。同时，应当理解，在本申请实施例的描述中，“第一”、“第二”等词汇，仅用于区分描述的目的，而不能理解为指示或暗示相对重要性，也不能理解为指示或暗示顺序。

下面结合附图对本申请提供的运动前景检测方法进行具体说明。

参见图1C，为本申请提供的运动前景检测方法的流程图。该方法可以应用于电子设备中，电子设备可以但不限于为监控设备等等，该方法包括：

S101，获取目标场景的待检测视频帧。需要说明的是，在步骤S101中，获取目标场景的待检测视频帧的方式包括但不限于：通过电子设备上的摄像头采集目标场景的待检测视频帧、获取其他传感设备采集的目标场景的待检测视频帧、在数据库中获取目标场景的待检测视频帧等。所述传感设备包括但不限于：光线传感设备、摄像设备、采集设备等。所述数据库包括但不限于：本地数据库、云端数据库、U盘、硬盘等。

S102，基于背景模型提取所述待检测视频帧中的运动区域特征，得到运动特征图，所述背景模型为针对所述目标场景已经采集的多个视频帧建立的，所述运动区域特征用于表征运动对象所在的区域。示例性的，可以针对目标场景已经采集的连续的多个视频帧建立背景模型。其中，针对所述目标场景过去采集的多个视频帧与待检测视频帧的尺寸大小可以相同。

一种实现方式中，背景模型可以如下方式建立：针对所述目标场景过去采集的多个视频帧，通过背景减除方法建立背景模型。背景模型可以采用均值法、中值法、直方图法、高斯算法、混合高斯算法等背景减除法进行建立，这里对背景减除法不再一一列举。

下面以均值法为例对背景模型的建立过程进行说明：确定针对目标场景过去采集的多个视频帧中位于(i，j)的像素点的像素值均值，其中，i为取遍不大于W的正整数，j取遍不大于H的正整数，W为视频帧的长度，H为视频帧的宽度。在确定每个位置的像素点的像素值均值后，可以得到背景模型，其中，背景模型中(i，j)的像素点的像素值等于针对目标场景过去采集的多个视频帧中位于(i，j)的像素点的像素值均值。例如，确定针对目标场景过去采集的多个视频帧中位于(2，3)为像素点的像素值均值，因此背景模型中位于(2，3)的像素点的像素值等于针对目标场景过去采集的多个视频帧中位于(2，3)为像素点的像素值均值。

在一种可能的实施方式中，基于背景模型过滤所述待检测视频帧中的背景，得到运动特征图，可以通过下述步骤A1和A2实现：

A1，基于所述背景模型确定所述待检测视频帧的二值图，其中，所述二值图中背景像素点的像素值为0，非背景像素点的像素值为1。示例性的，可以针对待检测视频帧中每个像素点，确定该像素点的像素值与背景模型中相同位置像素点的像素值之间的差值，若差值大于第一阈值，则确定该位置的像素点为非背景像素点，即该位置像素点的像素值为1。若差值小于或等于第一阈值，则确定该位置的像素点为背景像素点，即该位置像素点的像素值为0。

为了提高准确性，在得到二值图之后，可以将所述二值图进行平滑处理。示例性的，可以采用中值滤波的方式对所述二值图进行平滑处理。以3*3的中值滤波方式为例，针对二值图中的每个像素点，确定包括该像素点中周围8个像素点以及自身的9个像素点的像素值中值，并将该像素值中值确定为该像素点的像素值。例如，如图2所示，像素点1周围的8个像素点分别为像素点2、像素点3、像素点4、像素点5、像素点6、像素点7、像素点8、像素点9，其中，像素点1～9的像素值分别为t₁～t₉，确定像素点1～9中的像素值中值，假设像素值中值为像素点5的像素值t₅，则令像素点1的像素值等于t₅。通过上述方式，可以平滑掉孤立的像素点。当然，也可以采用其他的方法对二值图进行平滑处理，本申请实施例在这里对平滑处理的方式不做具体限定。

A2，将经过平滑处理的所述二值图进行形态学闭运算，得到包括至少一个连通区域的所述运动特征图，所述连通区域为所述运动区域。形态学闭运算即先对经过平滑处理的所述二值图进行膨胀，然后将经过膨胀处理的二值图进行腐蚀。示例性的，膨胀和腐蚀的尺寸可以为7*7，当然，膨胀和腐蚀的尺寸也可以为其他尺寸，另外，膨胀和腐蚀的尺寸可以相同也可以不相同，本申请实施例在这里对膨胀和腐蚀的尺寸不做具体限定。

一种实施方式中，在将经过平滑处理的所述二值图进行形态学闭运算，得到至少一个连通区域后，可以针对每个连通区域，采用轮廓检测算法获取能框住该连通区域的矩形框，从而确定获取的矩形框为运动区域。

S103，检测所述待检测视频帧中的目标物体，得到目标特征图，所述目标物体包括前景目标和/或干扰物体。从而实现对所述待检测视频帧中目标物体的定位。前景目标可以但不限于为人、车等等，干扰物体可以但不限于为树叶等等。可以但不限于基于最近一次针对所述目标场景的视频帧检测所述目标物体时所确定的所述目标物体的位置，检测所述待检测视频帧中的所述目标物体，得到所述目标特征图。

一种实现方式中，可以将所述待检测视频帧输入预先训练的神经网络模型中提取目标物体特征。这种实现方式可以适用于目标物体包括前景目标以及干扰物体，或者目标物体仅包括前景目标，或者目标物体仅包括干扰物体的情况，从而在待检测视频帧中检测出目标物体的位置。

又一种实现方式中，也可以基于上一次针对所述目标场景的视频帧检测所述目标物体时所确定的所述目标物体的位置，提取所述待检测视频帧中的所述目标物体特征，得到所述目标特征图。这种实现方式可以适用于目标物体仅包括干扰物体的情况下。例如，可以每间隔Q帧，将视频帧输入预先训练的神经网络模型中提取干扰物体特征，从而确定干扰物体的位置，然后在提取待检测视频帧的干扰物体特征时，可以根据上一次针对视频帧提取的干扰物体特征对应的位置，将待检测视频帧中相同位置的区域确定为干扰物体，从而在待检测视频帧中检测出干扰物体。Q为大于0的整数。

在检测所述待检测视频帧中的目标物体时所采用的神经网络模型可以为全卷积神经网络。示例性的，神经网络模型可以包括两部分，第一部分为VGG16的前10层卷积层，第二部分可以包括11层反卷积层，神经网络模型中还可以包括其他类型的层，如池化层等等，这里不再一一列举。神经网络模型可以参阅表1所示。表1仅是一种示例性说明，并不对神经网络模型内包括的层数、各个层的类型、各个层的尺寸等进行具体限定。

表1

一种实施方式中，所述神经网络模型可以通过下述步骤B1至B3训练得到：

B1，在第K次训练过程中，通过经过K-1次调整的神经网络模型提取训练样本数据库中第K个样本视频帧的所述目标物体特征，所述训练样本数据库包括针对一个或多个场景采集的N个样本视频帧，每个样本视频帧分别标注所述目标物体，所述N为大于0的整数，所述神经网络模型包括权重和偏置，所述K为大于0且不大于所述N的整数。

B2，在第K次训练后，获取所述样本视频帧的所述目标物体特征与所述样本视频帧中标注的所述目标物体之间的误差值。

B3，若所述样本视频帧的所述目标物体特征与所述样本视频帧中标注的所述目标物体之间的误差值不满足预设条件，基于所述样本视频帧的所述目标物体特征与所述样本视频帧中标注的所述目标物体之间的误差值，调整第K+1次训练过程所使用的权重和偏置。若所述样本视频帧的所述目标物体特征与所述样本视频帧中标注的所述目标物体之间的误差值满足预设条件，则所述经过K-1次调整的神经网络模型为训练完成的神经网络模型。

以训练样本数据库中包括10个样本视频帧为例，在第一次训练中，将训练样本数据库的第1个样本视频帧输入初始化的神经网络模型中提取第1个样本视频帧的目标物体特征。然后获取第1个样本视频帧的目标物体特征与第1个样本视频帧中标注的目标物体之间的误差值。若该误差值不满足预设条件则调整初始化的神经网络模型的权重和偏置，并进行第二次训练。若该误差值满足预设条件，则该初始化的神经网络模型为训练完成的神经网络模型。

在第二次训练中，将训练样本数据库的第2个样本视频帧输入初始化的神经网络模型中提取第2个样本视频帧的目标物体特征。然后获取第2个样本视频帧的目标物体特征与第2个样本视频帧中标注的目标物体之间的误差值。若该误差值不满足预设条件则调整初始化的神经网络模型的权重和偏置，并进行第三次训练。若该误差值满足预设条件，则第一次训练后中调整权重和偏置后得到的神经网络模型为训练完成的神经网络模型。

以此类推，直到神经网络模型提取的目标物体特征与标注的目标物体特征的误差值满足预设条件时，神经网络模型训练完成。

需要说明的是，步骤S102和S103并没有严格的先后顺序，可以先执行S102再执行S103，也可以先执行S103再执行S102，也可以同时执行S102和S103，本申请实施例在这里不做具体限定。

S104，基于所述运动特征图以及所述目标特征图确定所述待检测视频帧的运动前景。例如，一种实现方式，针对所述待检测视频帧中的每个像素点，若该像素点属于运动特征图的运动区域，且属于目标特征图的前景目标，可以认为该像素点为运动前景的像素点，反之，可以认为该像素点不是运动前景的像素点。又一种实现方式，针对所述待检测视频帧中的每个像素点，若该像素点属于运动特征图的运动区域，且不属于目标特征图的干扰物体所在的区域，可以认为该像素点为运动前景的像素点，反之，可以认为该像素点不是运动前景的像素点。

本申请实施例中通过针对目标场景过去采集的视频帧建立背景模型，然后通过该背景模型过滤待检测视频帧中的固定不变的背景，得到运动对象所在的运动区域。并检测待检测视频帧中的前景目标和/或干扰物体，然后结合运动区域以及检测出的前景目标和/或干扰物体可以较为准确的检测出运动前景。例如，可以认为在运动区域的前景目标为运动前景，不在运动区域的前景目标为运动背景。或者，可以认为运动区域中干扰物体为运动背景，前景目标为运动前景等。相比于现有技术中通过神经网络模型来区分运动背景以及运动前景的方法，本申请实施例提供的运动前景检测方法可以应用在任意监控场景中，因此本申请实施例提供的运动前景检测方法具有较好的普适性。并且，相比于通过不同场景的视频帧训练神经网络模型，然后通过神经网络模型检测视频帧中可能是运动前景的物体(如车、人等等)的方法，本申请实施例的准确性较高。举例说明，当监控场景中存在一辆长时间静止的车辆时，在该车辆静止期间可以认为是运动背景，但是通过神经网络模型检测运动前景的物体的方式则将该车辆错误检测为运动前景，而本申请实施例中，通过背景模型可以将该车辆过滤掉，从而可以检测该车辆为运动背景，可见，本申请实施例的准确性较高。

一种实施方式中，步骤S104，基于所述运动特征图以及所述目标特征图确定所述待检测视频帧的运动前景，可以通过下述步骤C1至C3实现：

C1，基于所述运动特征图确定所述待检测视频帧的第n个像素点的第一概率，所述n为取遍不大于所述待检测视频帧中像素点的总数的正整数，所述第一概率为所述第n个像素点位于所述运动区域的概率。示例性的，运动特征图中属于运动区域的像素点的第一概率可以为1，不属于运动区域的像素点的第一概率可以为0。

C2，基于所述目标特征图确定所述第n个像素点的第二概率，所述第二概率为所述第n个像素点属于所述目标物体的概率。

一种示例，若第n个像素点属于前景目标，则第n个像素点的第二概率可以等于该像素点的目标物体概率按照上调规则进行上调后得到的数值。若第n个像素点不属于前景目标，则第n个像素点的第二概率可以等于该像素点的目标物体概率。

一种示例，若第n个像素点属于前景目标，则第n个像素点的第二概率可以等于该像素点的目标物体概率。若第n个像素点不属于前景目标，则第n个像素点的第二概率可以等于该像素点的目标物体概率按照下调规则进行下调后得到的数值。

例如，若第n个像素点属于前景目标，则第n个像素点的第二概率可以等于该像素点的目标物体概率，若第n个像素点不属于前景目标，则第n个像素点的第二概率可以等于0。即，第n个像素点的第二概率可以符合如下公式：

其中，p(f_n)为第n个像素点的第二概率，P(f_n)为第n个像素点的目标物体概率。

又例如，若第n个像素点属于前景目标，则第n个像素点的第二概率可以等于该像素点的目标物体概率，若第n个像素点不属于前景目标，则第n个像素点的第二概率可以等于第n个像素点的目标物体概率的负数。即，第n个像素点的第二概率可以符合如下公式：

另一种示例，若第n个像素点属于前景目标，则第n个像素点的第二概率可以等于该像素点的目标物体概率按照上调规则进行上调后得到的数值。若第n个像素点不属于前景目标，则第n个像素点的第二概率可以等于该像素点的目标物体概率按照下调规则进行下调后得到的数值。例如，若第n个像素点属于前景目标，则第n个像素点的第二概率可以等于1，若第n个像素点不属于前景目标，则第n个像素点的第二概率可以等于0。即，第n个像素点的第二概率可以符合如下公式：

另一种示例，若第n个像素点不属于干扰物体，则第n个像素点的第二概率可以等于该像素点的目标物体概率按照上调规则进行上调后得到的数值。若第n个像素点属于干扰物体，则第n个像素点的第二概率可以等于该像素点的目标物体概率按照下调规则进行下调后得到的数值。例如，若第n个像素点属于干扰目标，则第n个像素点的第二概率可以等于该像素点的目标物体概率的负数，若第n个像素点不属于干扰物体，则第n个像素点的第二概率可以等于1。即，第n个像素点的第二概率可以符合如下公式：

本申请实施例中所涉及的上调规则还可以为像素点的目标物体概率加上一个正整数，下调规则还可以为像素点的目标物体概率减去一个正整数。或者，上调规则也可以为乘以一个大于1的数值等等，下调规则也可以为除以一个大于1的数值等等，当然，上调规则可以为能够使像素点上调后的目标物体概率大于上调前的目标物体概率的其他规则，下调规则可以为能够使像素点下调后的目标物体概率小于下调前的目标物体概率的其他规则，这里对上调规则、下调规则不做具体限定。

在确定第二概率时，通过将属于前景目标的像素点的目标物体概率进行上调，将不属于前景目标的像素点的目标物体概率进行下调，可以降低干扰物体的影响，从而可以提高运动前景检测的准确性。

C3，基于所述第n个像素点的所述第一概率以及所述第二概率确定所述第n个像素点是否属于运动前景。

一种可能的实施方式中，基于所述第n个像素点的所述第一概率以及所述第二概率确定所述第n个像素点是否属于运动前景，可以通过下述步骤D1至D4实现：

D1，基于所述第n个像素点的所述第一概率以及所述第二概率，确定所述第n个像素点的自相关信息。示例性的，第n个像素点的自相关信息可以符合如下公式：

p(s_n)＝p(d_n)p(f_n)；

其中，所述p(s_n)为第n个像素点的自相关信息；所述p(d_n)为第n个像素点的第一概率；所述p(f_n)为第n个像素点的第二概率。

D2，基于所述第n个像素点的所述第一概率以及所述第二概率，确定所述第n个像素点与所述待检测视频帧中其他像素点之间的互相关信息。示例性的，所述第n个像素点与所述待检测视频帧中其他像素点之间的互相关信息符合如下公式：

其中，所述p(z_n)为第n个像素点的互相关信息。所述H为待检测视频帧中像素点的总数。所述p(o_mn)为第m个像素点的权重值。其中，所述p(o_mn)可以符合如下公式：

其中，所述w为参数值。当第m个像素点与第n个像素点在同一个运动区域时所述I_mn为1，当第m个像素点与第n个像素点不在同一个运动区域时所述I_mn为0。所述D_mn为所述第m个像素点与所述第n个像素点之间的距离。D_mn可以符合如下公式：

其中，所述x为第m个像素的横坐标，所述y为第m个像素的纵坐标，所述μ₁为第n个像素的横坐标，所述μ₂为第n个像素的纵坐标。

D3，基于所述第n个像素点的自相关信息以及所述互相关信息确定所述第n个像素点的第三概率，所述第三概率为所述第n个像素点属于运动前景的概率。示例性的，所述第n个像素点的第三概率可以符合如下公式：

p(qn)＝w₁×p(s_n)+w₂×p(z_n)[p(d_n)+p(f_n)],m≠n；

其中，p(q_n)为第n个像素点的所述第三概率，所述w₁和所述w₂为参数值。

D4，若所述第n个像素点的所述第三概率大于第二阈值，则所述第n个像素点属于运动前景。若所述第n个像素点的所述第三概率小于或等于所述第二阈值，则所述第n个像素点不属于运动前景。

例如，在第n个像素点的第二概率符合如下公式时：

若第n个像素点的第三概率大于0.5，则可以认为第n个像素点属于运动前景。若第n个像素点的第三概率小于或等于0.5，则可以认为第n个像素点不属于运动前景。

又例如，在第n个像素点的第二概率符合如下公式时：

若第n个像素点的第三概率大于0，则可以认为第n个像素点属于运动前景。若第n个像素点的第三概率小于或等于0，则可以认为第n个像素点不属于运动前景。

本申请实施例中通过针对目标场景过去采集的视频帧建立背景模型，然后通过该背景模型过滤待检测视频帧中的固定不变的背景，得到运动对象所在的运动区域。并检测待检测视频帧中的前景目标和/或干扰物体，然后结合运动区域以及检测出的前景目标和/或干扰物体可以较为准确的检测出运动前景。相比于现有技术，本申请实施例提供的运动前景检测方法可以应用在任意监控场景中，因此本申请实施例提供的运动前景检测方法具有较好的普适性。并且，本申请实施例通过结合运动区域以及定位的目标物体可以降低活动背景的干扰，例如风中的树叶，还可以在有效的避免静止的前景目标开始运动时引起的误检，例如停在路边的车，在开走的一段时间内车原来停止的位置可能会被误检为运动前景等。

基于与方法实施例的同一发明构思，本发明实施例提供一种运动前景检测装置30，具体用于实现图1C所述的实施例描述的方法，该装置的结构如图3所示，包括获取模块31、第一提取模块32、第二提取模块33以及确定模块34。其中，获取模块31，用于执行上述方法实施例中图1C的步骤S101，获取目标场景的待检测视频帧。第一提取模块32，用于执行上述方法实施例中图1C的步骤S102，基于背景模型提取所述待检测视频帧中的运动区域特征，得到运动特征图。第二提取模块33，用于执行上述方法实施例中图1C的步骤S103，检测所述待检测视频帧中的目标物体，得到目标特征图。确定模块34，用于执行上述方法实施例中图1C的步骤S104，基于所述运动特征图以及所述目标特征图确定所述待检测视频帧的运动前景。

获取模块31、第一提取模块32、第二提取模块33以及确定模块34还可以用于执行上述方法实施例相对应的其他步骤，具体可以参阅上述方法实施例，这里不再重复赘述。

本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，另外，在本申请各个实施例中的各功能模块可以集成在一个处理器中，也可以是单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

其中，集成的模块既可以采用硬件的形式实现时，如图4所示，运动前景检测装置可以包括处理器401。上述模块对应的实体的硬件可以为处理器401。处理器401，可以是一个中央处理模块(central processing unit，CPU)，或者为数字处理模块等等。该装置还包括：存储器402，用于存储处理器401执行的程序。存储器402可以是非易失性存储器，比如硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)等，还可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)。存储器402是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。该装置还可以包括采集器403，如摄像头。处理器401可以通过采集器403采集目标场景的待检测视频帧。该装置还可以包括通信接口404，处理器401可以通过通信接口404获取其他采集设备采集的目标场景的待检测视频帧，或者，处理器401可以通过通信接口404在数据库中获取目标场景的待检测视频帧。

处理器401用于执行存储器402存储的程序代码，具体用于执行图1C所示实施例所述的方法。可以参见图1C所示实施例所述的方法，本申请在此不再赘述。

本申请实施例中不限定上述处理器401、存储器402以及采集器403、通信接口404之间的具体连接介质。本申请实施例在图4中以处理器401、存储器402以及采集器403、通信接口404之间通过总线405连接，总线在图4中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

本发明实施例还提供了一种计算机可读存储介质，用于存储为执行上述处理器所需执行的计算机软件指令，其包含用于执行上述处理器所需执行的程序。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种运动前景检测方法，其特征在于，包括：

获取目标场景的待检测视频帧；

基于背景模型提取所述待检测视频帧中的运动区域特征，得到运动特征图，所述背景模型为针对所述目标场景已经采集的多个视频帧建立的，所述运动区域特征用于表征运动对象所在的运动区域；

提取所述待检测视频帧中的目标物体特征，得到目标特征图，所述目标物体包括前景目标和/或干扰物体；

基于所述运动特征图以及所述目标特征图确定所述待检测视频帧的运动前景。

2.如权利要求1所述的方法，其特征在于，基于所述运动特征图以及所述目标特征图确定所述待检测视频帧的运动前景，包括：

基于所述运动特征图确定所述待检测视频帧的第n个像素点的第一概率，所述n为取遍不大于所述待检测视频帧中像素点的总数的正整数，所述第一概率为所述第n个像素点位于所述运动区域的概率；

基于所述目标特征图确定所述第n个像素点的第二概率，所述第二概率为所述第n个像素点属于所述目标物体的概率；

基于所述第n个像素点的所述第一概率以及所述第二概率确定所述第n个像素点是否属于运动前景。

3.如权利要求2所述的方法，其特征在于，基于所述第n个像素点的所述第一概率以及所述第二概率确定所述第n个像素点是否属于运动前景，包括：

基于所述第n个像素点的所述第一概率以及所述第二概率，确定所述第n个像素点的自相关信息；

基于所述第n个像素点的所述第一概率以及所述第二概率，确定所述第n个像素点与所述待检测视频帧中其他像素点之间的互相关信息；

基于所述第n个像素点的自相关信息以及所述互相关信息，确定所述第n个像素点的第三概率，所述第三概率为所述第n个像素点属于运动前景的概率；

若所述第n个像素点的所述第三概率大于预设阈值，则所述第n个像素点属于运动前景；

若所述第n个像素点的所述第三概率小于或等于所述预设阈值，则所述第n个像素点不属于运动前景。

4.如权利要求3所述的方法，其特征在于，所述第n个像素点的自相关信息符合如下公式：

p(s_n)＝p(d_n)p(f_n)；

其中，所述p(s_n)为所述第n个像素点的自相关信息；所述p(d_n)为所述第n个像素点的所述第一概率；所述p(f_n)为所述第n个像素点的所述第二概率；

所述第n个像素点与所述待检测视频帧中其他像素点之间的互相关信息符合如下公式：

其中，所述p(z_n)为所述第n个像素点的所述互相关信息；所述H为所述待检测视频帧中像素点的总数；所述p(o_mn)为所述第m个像素点的权重值；

所述第n个像素点的第三概率符合如下公式：

p(q_n)＝w₁×p(s_n)+w₂×p(z_n)[p(d_n)+p(f_n)],m≠n；

5.如权利要求4所述的方法，其特征在于，所述p(o_mn)符合如下公式：

6.如权利要求1至5任一项所述的方法，其特征在于，提取所述待检测视频帧中的目标物体特征，得到目标特征图，包括：

将所述待检测视频帧输入预先训练的神经网络模型中提取目标物体特征，得到所述目标特征图；或者，

基于上一次针对所述目标场景的视频帧检测所述目标物体时所确定的所述目标物体的位置，提取所述待检测视频帧中的所述目标物体特征，得到所述目标特征图。

7.如权利要求6所述的方法，其特征在于，所述神经网络模型通过如下方式训练得到：在第K次训练过程中，通过经过K-1次调整的神经网络模型提取训练样本数据库中第K个样本视频帧的所述目标物体特征，所述训练样本数据库包括针对一个或多个场景采集的N个样本视频帧，每个样本视频帧分别标注所述目标物体，所述N为大于0的整数，所述神经网络模型包括权重和偏置，所述K为大于0且不大于所述N的整数；

在第K次训练后，获取所述样本视频帧的所述目标物体特征与所述样本视频帧中标注的所述目标物体之间的误差值；

若所述样本视频帧的所述目标物体特征与所述样本视频帧中标注的所述目标物体之间的误差值不满足预设条件，基于所述样本视频帧的所述目标物体特征与所述样本视频帧中标注的所述目标物体之间的误差值，调整第K+1次训练过程所使用的权重和偏置；

若所述样本视频帧的所述目标物体特征与所述样本视频帧中标注的所述目标物体之间的误差值满足预设条件，则所述经过K-1次调整的神经网络模型为训练完成的神经网络模型。

8.如权利要求1至7任一项所述的方法，其特征在于，基于背景模型提取所述待检测视频帧中的运动区域特征，得到运动特征图，包括：

基于所述背景模型确定所述待检测视频帧的二值图，其中，所述二值图中背景像素点的像素值为0，非背景像素点的像素值为1；

将所述二值图进行形态学闭运算，得到包括至少一个连通区域的所述运动特征图，所述连通区域为所述运动区域。

9.一种运动前景检测装置，其特征在于，包括：

获取模块，用于获取目标场景的待检测视频帧；

第一提取模块，用于基于背景模型提取所述获取模块获取的所述待检测视频帧中的运动区域特征，得到运动特征图，所述背景模型为针对所述目标场景已经采集的多个视频帧建立的，所述运动区域特征用于表征运动对象所在的运动区域；

第二提取模块，用于提取所述获取模块获取的所述待检测视频帧中的目标物体特征，得到目标特征图，所述目标物体包括前景目标和/或干扰物体；

确定模块，用于基于所述第一提取模块得到的所述运动特征图以及所述第二提取模块得到的所述目标特征图确定所述待检测视频帧的运动前景。

10.如权利要求9所述的装置，其特征在于，所述确定模块，具体用于：

11.如权利要求10所述的装置，其特征在于，所述确定模块，在基于所述第n个像素点的所述第一概率以及所述第二概率确定所述第n个像素点是否属于运动前景时，具体用于：

12.如权利要求11所述的装置，其特征在于，所述第n个像素点的自相关信息符合如下公式：

p(s_n)＝p(d_n)p(f_n)；

所述第n个像素点的第三概率符合如下公式：

p(q_n)＝w₁×p(s_n)+w₂×p(z_n)[p(d_n)+p(f_n)],m≠n；

13.如权利要求12所述的装置，其特征在于，所述p(o_mn)符合如下公式：

14.如权利要求9至13任一项所述的装置，其特征在于，所述第二提取模块，具体用于：

15.如权利要求14所述的装置，其特征在于，所述神经网络模型通过如下方式训练得到：

在第K次训练过程中，通过经过K-1次调整的神经网络模型提取训练样本数据库中第K个样本视频帧的所述目标物体特征，所述训练样本数据库包括针对一个或多个场景采集的N个样本视频帧，每个样本视频帧分别标注所述目标物体，所述N为大于0的整数，所述神经网络模型包括权重和偏置，所述K为大于0且不大于所述N的整数；

16.如权利要求9至15任一项所述的装置，其特征在于，所述第一提取模块，具体用于：

17.一种计算机存储介质，其特征在于，所述计算机存储介质存储有程序指令，当所述程序指令在电子设备上运行时，使得所述电子设备执行权利要求1至8任一所述的方法。