CN104268900B

CN104268900B - 一种运动目标检测方法及装置

Info

Publication number: CN104268900B
Application number: CN201410504910.3A
Authority: CN
Inventors: 田永鸿; 刘弘也; 王耀威; 黄铁军
Original assignee: Peking University; China Security and Fire Technology Co Ltd
Current assignee: Peking University; China Security and Fire Technology Co Ltd
Priority date: 2014-09-26
Filing date: 2014-09-26
Publication date: 2017-02-15
Anticipated expiration: 2034-09-26
Also published as: CN104268900A

Abstract

本发明提供一种运动目标检测方法及装置，该方法包括：在视频流的压缩域中，对当前帧图像中帧内编码的像素块进行运动向量预测，得到帧内编码的像素块的运动向量，其中，视频流中的每帧图像预先按照设定规则被分割成设定数目个像素块，每帧图像大小相同；根据当前帧以及当前帧之前连续M帧图像中，位于同一位置的像素块对应的运动向量为非零向量的次数，确定当前帧图像中的所有非零向量；根据确定的所有非零向量，确定当前帧图像中的运动区域；将运动区域映射到像素域，在运动区域中，采用像素域目标检测算法进行预设目标的检测，并将检测到的预设目标进行标记后输出。本发明能够提高目标检测的准确度以及目标检测的速度。

Description

一种运动目标检测方法及装置

技术领域

本发明涉及目标检测技术领域，尤其涉及一种运动目标检测方法及装置。

背景技术

运动目标检测一直是计算机视觉领域中的技术人员研究的重点。一般可以从目标的外形、颜色及纹理等特征入手，通过建立数学模型，把视频流中预先设定的需要检测的目标预先定义出来，从而对这些预先定义的目标进行运动检测。在实际计算机视觉应用中，运动目标检测也是进行目标跟踪、动作识别、人机交互等上层分析任务的基础，其准确性和实时性对计算机视觉应用起着至关重要的作用。

现有技术中常用的运动目标检测方法大体可以分为两大类：一类是基于像素域的运动目标检测算法，如帧差法、光流法、背景差分法；另一类是基于压缩域的运动目标检测算法。

基于像素域的运动目标检测算法研究时间较长，也具有更加稳定更加精确的运动目标检测准确率，但由于该算法需要对图像上的每个像素点进行多次遍历来进行运动目标检测，使得其处理速度较慢，在实时高清视频分析系统中应用该类算法进行运动目标检测时很难保证实时处理的需求；相对而言，基于压缩域的运动目标检测算法的处理速度较快，但是该类运动目标检测算法只能得到不可靠的运动向量信息，从而导致运动目标检测的准确率较低，且仅能在某些极为理想的简单场景下应用。

因此，目前缺少一种处理速度快且运动目标检测准确率高的运动目标检测方法来弥补上述各运动目标检测算法的缺陷。

发明内容

本发明提供一种运动目标检测方法及装置，用以解决现有技术中运动目标检测方法检测准确率低以及处理速度慢的技术问题。

本发明提供了一种运动目标检测方法，包括：

在视频流的压缩域中，对当前帧图像中帧内编码的像素块进行运动向量预测，得到所述帧内编码的像素块的运动向量，其中，所述视频流中的每帧图像预先按照设定规则被分割成设定数目个像素块，每帧图像的形状大小相同；

根据当前帧以及当前帧之前连续M帧图像中，位于同一位置的像素块对应的运动向量为非零向量的次数，确定当前帧图像中的所有非零向量；

根据所述确定的所有非零向量，确定当前帧图像中的运动区域；

将所述运动区域映射到像素域，在所述运动区域中，采用像素域目标检测算法进行预设目标的检测，并将检测到的预设目标进行标记后输出。

所述方法中，所述根据当前帧以及当前帧之前连续M帧图像中，位于同一位置的像素块对应的运动向量为非零向量的次数，确定当前帧图像中的所有非零向量，具体包括：

针对当前帧图像中的每个像素块，记录该像素块所处的位置；

统计当前帧以及当前帧之前连续M帧图像中，在该位置出现的M+1个像素块对应的运动向量为非零向量的次数；

确定该像素块出现非零向量的次数大于或等于设定阈值时，确定该像素块对应的运动向量为非零向量；

确定该像素块出现非零向量的次数小于设定阈值时，确定该像素块对应的运动向量为零向量。

利用本发明实施例，可以滤除当前帧图像中的噪声，从而得到更加准确的运动目标。

所述方法中，每帧图像预先按照设定规则分割成若干个像素块，具体包括：

根据每帧图像的长和宽，将每帧图像分割成设定数目个n×n的像素块。

本发明实施例优选将图像分割成设定数目个4×4的像素块。

所述方法，将检测到的预设目标用矩形框进行标记，在输出带有矩形框标记的预设目标之前，还包括：

针对检测到的每个预设目标，确定该预设目标对应的矩形框中包含非零向量的比例小于设定比例阈值时，根据该预设目标的初始置信度、所述设定比值阈值、该预设目标对应的矩形框中包含非零向量的比例，更新该预设目标的置信度；

确定该预设目标对应的矩形框中包含非零向量的比例大于或等于设定比例阈值时，确定该预设目标的置信度为初始置信度；

其中，所述置信度用于确定是否显示预设目标对应的矩形框。

本发明实施例通过对检测到的预设目标进行置信度的修正，使得输出结果更加准确，保证了标记检测到的运动目标的矩形框能够清楚、准确的在屏幕上显示。

针对检测到的每个预设目标，采用如下方式对该预设目标对应的矩形框进行更新：

其中，1≤j≤n，n表示利用深度优先算法DFS计算得到的当前帧图像中的连通区域的总个数，j表示当前帧图像中检测到的任一连通区域序号，分别表示当前帧图像中检测到的任一预设目标对应的更新后的矩形框的左上角在当前帧图像坐标系中的横坐标、纵坐标，分别表示当前帧图像中检测到的所述任一预设目标对应的更新后的矩形框的宽和高，分别表示任一连通区域对应的最小覆盖矩形框的左上角在当前正图像坐标系中的横坐标、纵坐标，分别表示任一连通区域对应的最小覆盖矩形框的宽和高，q^j表示任一预设目标对应的更新前的矩形框与任一连通区域相交部分的面积与该任一连通区域面积的比值，θ_q表示预先设定的面积比例阈值。

本发明实施例通过对矩形框进行调整，一方面能够使用一个最小的矩形框标记出预设目标，另一方面通过调整矩形框的位置，能够使得该矩形框对应的预设目标正好被包围在该矩形框中。

本发明实施例还提供了一种运动目标检测装置，包括：

预测单元，用于在视频流的压缩域中，对当前帧图像中帧内编码的像素块进行运动向量预测，得到所述帧内编码的像素块的运动向量，其中，所述视频流中的每帧图像预先按照设定规则被分割成设定数目个像素块，每帧图像的形状大小相同；

第一确定单元，用于根据当前帧以及当前帧之前连续M帧图像中，位于同一位置的像素块对应的运动向量为非零向量的次数，确定当前帧图像中的所有非零向量；

第二确定单元，用于根据所述确定的所有非零向量，确定当前帧图像中的运动区域；

检测单元，用于将所述运动区域映射到像素域，在所述运动区域中，采用像素域目标检测算法进行预设目标的检测，并将检测到的预设目标进行标记后输出。

所述装置中，所述第一确定单元具体用于：

所述装置，还包括：

分割单元，用于根据每帧图像的长和宽，将每帧图像分割成设定数目个n×n的像素块。

所述装置中，所述检测单元具体用于，将检测到的预设目标用矩形框进行标记后输出；

所述装置还包括：

第一更新单元：用于输出带有矩形框标记的预设目标之前，针对检测到的每个预设目标，确定该预设目标对应的矩形框中包含非零向量的比例小于设定比例阈值时，根据该预设目标的初始置信度、所述设定比值阈值、该预设目标对应的矩形框中包含非零向量的比例，更新该预设目标的置信度；

所述装置还包括：

第二更新单元，用于输出带有矩形框标记的预设目标之前针对检测到的每个预设目标，采用如下方式对该预设目标对应的矩形框进行更新：

其中，1≤j≤n，n表示利用深度优先算法DFS计算得到的当前帧图像中的连通区域的总个数，j表示当前帧图像中检测到的任一连通区域序号，分别表示当前帧图像中检测到的任一预设目标对应的更新后的矩形框的左上角在当前帧图像坐标系中的横坐标、纵坐标，分别表示当前帧图像中检测到的任一预设目标对应的更新后的矩形框的宽和高，分别表示任一连通区域对应的最小覆盖矩形框的左上角在当前正图像坐标系中的横坐标、纵坐标，分别表示任一连通区域对应的最小覆盖矩形框的宽和高，q^j表示任一预设目标对应的更新前的矩形框与任一连通区域相交部分的面积与该任一连通区域面积的比值，θ_q表示预先设定的面积比例阈值。

利用本发明实施例提供的运动目标检测方法及装置，具有以下有益效果：本发明首先在压缩域从原始的视频流数据中提取出运动向量，并对提取出的运动向量进行帧内编码预测；然后利用命中图滤波器过滤不可靠的噪声，得到视频流中当前帧图像上的运动区域。接着将确定的运动区域映射到像素域，在像素域利用像素域目标检测算法在当前帧图像上进行预设目标的检测。从而减少了搜索预设目标的范围，加快了处理速度。

附图说明

图1为本发明实施例提供的运动目标检测方法流程图；

图2为本发明实施例提供的确定当前帧图像中的非零向量的方法流程图；

图3(a)为本发明实施例提供的从原始视频码流中提取的原始图像；

图3(b)为本发明实施例提供的利用本发明实施例的确定运动区域的方法在图3(a)中进行运动区域确定后得到的结果示意图；

图3(c)为本发明实施例提供的对图3(b)进行二值化操作后得到的结果示意图；

图4为本发明实施例提供的对检测到的预设目标进行置信度修正的方法流程图；

图5(a)为利用本发明实施例提供的确定运动区域的方法进行运动区域确定后得到的结果示意图；

图5(b)为本发明实施例提供的在图5(a)中利用利用像素域目标检测算法对行人进行检测后的结果示意图；

图5(c)为利用本发明实施例提供的对图5(b)进行置信度更新后的结果示意图；

图5(d)为本发明实施例提供的对图5(c)进行矩形框更新后的结果示意图；

图6为本发明实施例提供的运动目标检测装置示意图。

具体实施方式

下面结合附图和实施例对本发明提供的运动目标检测方法及装置进行更详细地说明。

背景技术中提到传统目标检测算法大体可以分为两大类，基于像素域目标检测算法和基于压缩域目标检测算法，前者由于充分利用了图像每个像素点的RGB信息，通常具有较高的检测准确率，然而由于需要多次遍历每个像素点，导致处理速度也会比较慢；而后者正好相反，由于不需要针对每个像素点去处理分析，而且省去了视频解码的时间，因而处理速度极快，另一方面，因为仅能使用并不可靠的运动向量信息，不足以充分推导场景真实情况，使得运动目标检测准确率也完全无法和基于像素域目标检测算法相比。二者在实际应用中都有很明显的优势和劣势。

本发明提供的运动目标检测方法，综合上述两种方法，使其优缺点互补，同时运用像素域目标检测算法和压缩域目标检测算法，从而实现准确率高且处理速度快的目标检测方法，使运动目标检测的准确率和处理速度都得以保证。

本发明实施例提供的运动目标检测方法，从网络或者摄像头获取视频流，在针对该视频流进行运动目标检测时，该视频流需要分成两个数据流，一个是解码之后每帧图像的RGB像素信息(对应像素域)，另一个是从原视频码流中提取的该视频流的运动向量信息(对应压缩域)，首先在压缩域，提取视频流中每帧图像的运动向量，根据运动向量确定运动区域，将确定的运动区域对应的数据输入像素域对应的数据流中，在像素域利用像素域目标检测算法，仅在所确定的运动区域中进行目标检测。本发明实施例提供的运动目标检测方法具体如图1所示，包括：

步骤101，在视频流的压缩域中，对当前帧图像中帧内编码的像素块进行运动向量预测，得到帧内编码的像素块的运动向量，其中，视频流中的每帧图像预先按照设定规则分割成设定数目个像素块，每帧图像的形状大小相同。

由于每帧图像的形状大小相同，而且每帧图像都按照相同的设定规则进行像素块的划分，因此，每帧图像划分得到的像素块的大小相同，数目也相同，分割后的像素块之间不重叠。

其中，上述像素块也称为PU(Predict Unit，预测单元)或编码块。具体的，现有技术中，每帧图像中有些像素块是帧间编码的像素块，有些像素块是帧内编码的像素块，帧内编码和帧间编码都是在视频流的编码过程中执行的，在视频流的编码过程中可得到帧间编码的像素块对应的运动向量，而帧内编码的像素块没有对应的运动向量。因此，在确定运动区域前，需要对当前帧图像中帧内编码的像素块进行运动向量的预测，得到帧内编码的像素块对应的运动向量，从而得到帧内编码的像素块的运动趋势。具体的，可利用现有帧内编码方法对当前帧图像中的帧内的像素块进行运动向量预测，比如使用PVM(Polar VectorMedian，极坐标中值预测)方法对当前帧图像中的帧内编码的像素块进行运动向量预测。

步骤101中，每帧图像预先按照设定规则分割成设定数目个像素块，具体包括：

根据每帧图像的长和宽，将每帧图像分割成设定数目个n×n的像素块；

优选地，根据每帧图像的长和宽，将每帧图像分割成设定数目个4×4的像素块。

具体的，假设视频流中的每帧图像中任一4×4的像素块为B(x,y)，其中w，h分别视频流中帧图像的长和宽，x，y分别表示任一像素块在图像坐标系中的横坐标和纵坐标。

优选以图上的上设定点(图像左上角的点)为坐标原点建立图像坐标系，将分割后的图像上的各个像素块进行编号，y表示像素块所在的行号，x表示像素块所在的列号。这种优选地建立图像坐标系的方式只是一种优选实施方式，也可采用其它方式建立图像坐标系，从而表示像素块的坐标。

这里将每帧图像分割成4×4的像素块是一种优选的实施方式，也可分为其它形式的像素块，比如8×8像素块。

步骤102，根据当前帧以及当前帧之前连续M帧图像中，位于同一位置的像素块对应的运动向量为非零向量的次数，确定当前帧图像中的所有非零向量。

其中，M的取值可根据视频流的帧率确定。具体的，对当前帧图像中的帧内编码的像素块进行运动向量预测后，结合帧间编码的像素块的运动向量，会得到当前帧图像中的所有非零向量，理论上来讲可将此时得到的非零向量确定为当前帧图像中的运动区域。但是，为了尽量减少所确定的当前帧图像中的运动区域中包含的噪声，要利用步骤102来消除当前帧图像中的噪声，使得最终得到的当前帧图像中的运动区域更加准确可靠。

具体的，在步骤101中，由于视频流中的每帧图像的形状大小相同，且按照设定规则将每帧图像划分为设定数目个像素块，则对于其中任意一帧图像，该帧图像中的每个像素块都位于该图像中的不同位置。本发明实施例中的同一位置的像素块为：假设各帧图像都被划分成了4个像素块，每个像素块在其对应的图像中分别对应位置A、B、C、D，那么连续的M+1帧图像中同一位置的像素块为每帧图像中都位于位置A或B或C或D的像素块。

基于上述实施例，根据当前帧以及当前帧之前连续M帧图像中，位于同一位置的像素块对应的运动向量为非零向量的次数，确定当前帧图像中的所有非零向量，如图2所示，具体包括：

步骤201，针对当前帧图像中的每个像素块，记录该像素块所处的位置。

步骤202，判断当前帧以及当前帧之前连续M帧图像中，在该位置出现的M+1个像素块对应的运动向量为非零向量的次数是否小于设定阈值，如果是，执行步骤203，否则，执行步骤204。

步骤203，确定该像素块对应的运动向量为零向量。

步骤204，确定该像素块对应的运动向量为非零向量。

其中，设定阈值越大，则根据该设定阈值确定的像素块为非零向量的概率越小；设定阈值越小，则根据该设定阈值确定的像素块为非零向量的概率越大；设定阈值的取值可根据实际情况而定。

假设M＝1，当前图像为第3帧图像，预先根据设定规则将第3帧图像分割成4个像素块，每个像素块分别对应位置A、B、C、D；同时预先根据设定规则，将第2帧图像分割成4个像素块，每个像素块也分别对应位置A、B、C、D，统计在第1帧图像的A位置和第2帧图像的A位置的像素块对应的运动向量为非零向量的次数，其余位置的非零向量也按照A位置统计非零向量的方式进行确定，最后得出当前帧图像中的所有非零向量。

步骤201-204的执行过程可简称为命中图滤波(HTM)，利用命中图滤波不仅能消除普通噪声，还能消除异常聚集块。普通噪声是常见的不可避免的噪声，通常在图像的各个区域随机分布，大多零散出现，不会聚集成块；异常聚集块是在视频编码过程中出现的一些异常聚集块，一般由多个像素块聚集而成，其大小可能和所要检测的目标的尺寸相当，因此不能用传统的应对普通噪声的方法过滤消除这些异常聚集块。不论是普通噪声还是异常聚集块，都是随机出现的，不会持续稳定的出现在连续若干帧图像上，因此，本发明实施例步骤201-204针对这两种噪声的共性，采取了监控连续M+1帧图像的方式，统计图像中每个像素块在连续的M+1帧图像中出现非零向量的次数，当前帧图像中的任一像素块在连续M+1帧图像中出现非零向量的次数达到设定阈值时，才认为该像素块对应的运动向量是非零向量。

步骤201-步骤204的具体实施方式可以为：建立一个保存每帧图像运动向量的缓冲区{V_t-M+1,V_t-M+2,...,V_t},其中V_t为当前帧对应的运动向量，然后针对当前帧图像中的每个4×4像素块，统计该4×4像素块B(x,y)在{V_t-M+1,V_t-M+2,...,V_t}中出现非零运动向量的次数H(x,y)，由于连续的M+1帧图像在时域上是连续的，因此H(x,y)体现出了像素块B(x,y)对应的运动向量在时域上出现非零向量的连续性。H(x,y)越大，则像素块B(x,y)属于前景目标的可能性越大。

假设设定阈值为θ_H，则确定当前帧图像中的运动前景区域的公式为：

Mask_(x,y)＝1如果H_(x,y)≥θ_H

Mask_(x,y)＝0如果H_(x,y)＜θ_H

当H_(x,y)≥θ_H时，则当前帧图像中的像素块B(x,y)对应的运动向量为非零向量，则该像素块B(x,y)就属于前景区域，即Mask(x,y)就等于1，否则为背景区域，即Mask(x,y)就等于0，该过程也相当于将当前帧图像进行了二值化操作。

步骤103，根据确定的所有非零向量，确定当前帧图像中的运动区域。

具体的，确定当前帧图像中的所有非零向量后，将零向量确定为背景区域，非零向量确定为前景区域，从而得到当前帧图像中的运动区域，所得到的运动区域数目不定，只要是当前帧图像中的所有运动的物体都能被确定为运动区域。如图3(a)、图3(b)、图3(c)所示，图3(a)是从原始视频码流中提取的原始图像，可以看到许多背景区域也有非零向量，图3(b)中的白色块是采用步骤102-步骤103处理后的到的运动区域，块的颜色越白，说明该块越属于前景区域的可能性越大，图3(c)是对图3(b)进行二值化操作后得到的前景区域，可以看出，图3(c)中显示的运动前景区域比直接使用图3(a)得到的前景区域要准确很多。

当前帧图像中的运动区域确定后，所得到的运动区域还不是很可靠。此外，本发明实施例得到运动区域，会将当前帧图像中的所有运动目标(比如行人，车辆等)检测出来，无法只锁定设定目标(比如设定目标为行人)，因此要执行步骤104，从而检测出设定目标并使得检测到的设定目标更加准确可靠。

步骤104，将上述运动区域映射到像素域，在上述运动区域中，采用像素域目标检测算法进行预设目标的检测，并将检测到的预设目标进行标记后输出。

具体的，在压缩域将运动区域确定提取后，映射到像素域，在像素域采用像素域目标检测算法，进行预设目标的检测，该运动区域中可能没有预设目标，也可能有多个预设目标。检测到的预设目标时，将该预设目标进行标记后输出，并继续其它上层分析的后续处理，一个预设目标用一个矩形框标记输出。其中，预设目标可根据实际场景而定，比如，预设目标可以为人、车辆等。利用像素域目标检测算法进行预设目标检测时，会得到一个置信度，该置信度的值决定了矩形框是否能够显示，从而间接反映的是利用像素域目标检测算法检测到的运动目标的准确性。

本发明实施例，先在压缩域中提取视频流中的运动向量，利用提取的运动向量确定运动区域；再将确定的运动区域映射到像素域，利用像素域目标检测算法，只在运动区域中进行预设目标的检测，从而既提高了运动目标检测的准确度，也提高了运动目标检测的速度。

基于图1提供的实施例，假设预设目标为行人(也可以为其它预设目标)，所采用的像素域目标检测算法为DPM(Deformable Parts Model，可形变块模型)目标检测算法。假设视频流中的每帧图像都被预先分割为若干个4×4的像素块B(x,y)，其中w、h分别视频流中帧图像的宽和长，每个像素块B(x,y)都对应一个运动向量V(x,y)，理想状况下，如果V(x,y)＝0，则该运动向量对应的像素块B(x,y)必定属于背景，如果V(x,y)≠0，则该运动向量对应的像素块B(x,y)必定属于前景区域，即为运动目标。

则步骤101中，可利用现有的PVM方法对当前帧图像中的帧内编码的像素块进行运动向量的预测，即，假设将当前帧图像划分为若干个8×8的宏块，以8×8的宏块(MB)为最小单位，预测每个帧内编码的8×8宏块的运动向量，其中，宏块之间不相互重叠，每个8×8宏块中包含了4个4×4的像素块，得到该8×8宏块的运动向量后，将该8×8宏块的运动向量赋值给该宏块包含的4个4×4的像素块，从而确定该宏块中的这4个4×4的像素块对应的运动向量。

下面介绍利用现有的PVM方法对当前帧图像中的帧内编码的像素块进行运动向量的预测的实施过程：

首先记录与帧内编码的8x8宏块相邻的16个4x4像素块中属于帧间编码像素块的运动向量，例如，若某个8×8宏块周围16个像素块对应的运动向量为：V1,V2,...,V16，其中V3,V10是帧内编码的像素块对应的运动向量，那么只需记录非帧内编码的像素块(帧间编码的像素块)对应的运动向量即可，即只记录V1,V2,V4,...,V9,V11,...,V16这14个运动向量。

然后计算上述某个8×8宏块的运动向量，具体过程为：

将上述某个8×8宏块周围的所有帧间编码的像素块对应的运动向量序列转换为极坐标表示，从而得到每个运动向量对应角度的大小，将各个运动向量按角度大小进行排序，排序后的运动向量序列设为V＝{V₁,V₂,...,V_n}，其中1,2，…，n分别为上述某个8×8宏块周围的第1,2，…，n个像素块对应的运动向量的序号，然后按如下公式在V＝{V₁,V₂,...,V_n}中选取运动向量的序号连续的m＝(1+n)/2个运动向量：

该公式中，I表示确定的运动向量的最小序号，V_i表示n个运动向量中任一运动向量，i个运动向量中表示任一运动向量对应的序列号且1≤i≤n，j为一个变量且1≤j≤n-m+1，θ_i表示序列号连续的两个运动向量V_i和V_i+1的夹角。

确定所要选取的运动向量中序号最小的运动向量后，从序号I开始，选取V＝{V₁,V₂,...,V_n}中，选取V_I+1，…，V_I+m-1个运动向量，后得到新运动向量序列该序列中运动向量的个数为原序列运动向量个数的一半，新的运动向量序列中包含的运动向量都聚集在一个非常小的夹角范围内，规定上述某个8×8宏块对应的运动向量的角度为：运动向量序列中，从序号为I的运动向量到序号为I+m-1的运动向量对应的角度中的中间值，计算公式为：其中，i＝I:I+m-1；规定上述某个8×8宏块对应的运动向量的模长为：运动向量序列V＝{V₁,V₂,...,V_n}中n个运动向量对应的模长的中间值，计算公式为：其中，i＝1:n。

优选地，步骤104中所采用的像素域目标检测算法为DPM目标检测算法。

传统的HOG(Histogram of Oriented Gradient，方向梯度直方图)+SVM(SurpportVector Machine，支持向量机)目标检测算法一般是使用单模型对目标进行分类和检测的，而DPM则采用多模型的思路，将一个目标划分为多个部分，针对每个部分进行建模，得到子模型，最后各个子模型之间利用弹簧模型，对各个部分的位置关系进行约束。从而能够准确的检测到预设目标。本发明实施例中的像素域目标检测算法不限于DPM目标检测算法，也可采用其它像素域目标检测算法。

假设预设目标为行人，则利用DPM目标检测算法对行人进行检测的过程为：将行人拆分为多个部分，比如拆分为头、手、腿等，每个部分对应一个子模型，在整体模型的基础上增加对应于各个组成部分的子模型。也就是说，在对行人进行检测时，依次寻找行人的各个部分，综合考虑整体模型和子模型的匹配程度之后，确定行人的区域。在对子模型进行匹配时，各个子模型不能偏离其应该在的区域太远(比如头部子模型不能在腿部子模型的下方)，具体可采用弹簧形变模型来建模，即在考虑各个子模型进行匹配之后再附加上形变程度的惩罚系数。

具体的，DPM目标检测算法的流程为：(1)提取HOG特征；(2)整体模型、子模型的相似度匹配；(3)子模型形变惩罚计算；(4)计算综合评分，判断样本是否是预设目标。具体的DPM检测算法的执行过程为现有技术，这里不再赘述。

由于是在利用压缩域目标检测算法确定的运动区域中进行DPM目标检测算法的，因此在进行DPM检测算法时，不需要在当前帧的整幅图像中进行预设目标的检测，只需要在运动区域中进行预设目标的检测即可，大大缩短了预设目标的检测时间。

基于上述实施例，在利用像素域目标检测算法对预设目标进行检测后，每个检测到的预设目标都对应一个初始置信度，优选地，将检测到的预设目标用矩形框进行标记，那么在输出带有矩形框标记的预设目标之前，还包括对所检测到的预设目标的置信度进行更新，如图4所示：

步骤401，针对检测到的每个预设目标，判断该预设目标对应的矩形框中包含非零向量的比例是否小于设定比例阈值，如果是，执行步骤402，否则，执行步骤403。

步骤402，根据该预设目标的初始置信度、设定比值阈值、该预设目标对应的矩形框中包含非零向量的比例，更新该预设目标的置信度。

其中，置信度用于确定是否显示预设目标对应的矩形框。

步骤403，确定该预设目标的置信度为初始置信度。

本发明实施例中，对检测到的预设目标的置信度进行更新，可使输出的检测到的预设目标更加准确。

具体的，采用如下方式将检测到的预设目标进行置信度更新：

将惩罚值与采用像素域目标检测算法进行预设目标检测后得到的初始置信度相加；

其中，惩罚值的计算方式如下：

其中pⁱ＜θ_p

Penslty(pⁱ,sⁱ)＝0，其中，pⁱ≥θ_p

上述公式中，Penalty(pⁱ,sⁱ)为惩罚值，θ_p为设定阈值、C、λ分别为常数，i表示当前帧图像中检测到的任一预设目标，pⁱ为检测到任一预设目标对应的矩形框中所包含的非零运动向量的比例，sⁱ表示任一预设目标对应的初始置信度。

具体的，根据实际情况预先设定任一帧视频图像的矩形框中包含的非零向量的阈值θ_p，如果任一预设目标对应的矩形框中所包含的非零向量的比例pⁱ小于θ_p，则认为该预设目标对应的初始置信度不可靠，需要更新。否则，认为可靠，则不需要更新。

调整后的当前帧图像中任一预设目标的置信度Sa为：

S_a＝sⁱ+Penslty(pⁱ,sⁱ)

具体的，上述pⁱ的计算公式为：

其中，#表示集合中元素的个数，i表示当前帧图像中检测到的任一预设目标，rⁱ表示当前帧图像中检测到的任一预设目标对应的矩形框，(x,y)表示当前帧图像中任一像素块在当前帧图像中的坐标，D_(x,y)表示当前帧图像中任一像素块，v_(x,y)表示当前帧图像中任一像素块对应的运动向量。pⁱ越小，表示该矩形框内的运动区域很小，此时该运动区域可能为误检(比如把背景中的某个区域当做了预设目标)，pⁱ越大，表示该巨型框内的运动区域越大，即该矩形框内包含了检测到的预设目标。

优选地，将检测到的预设目标用矩形框进行标记。利用像素域目标检测算法进行预设目标的检测，一般会将检测到的目标用矩形框标记出来，但是，利用像素域目标检测算法所检测到的预设目标对应的矩形框不一定能准确的将预设目标标记出来，比如，矩形框可能会比检测到的预设目标大很多或者偏移到了预设目标的右侧等。此时，需要根据在压缩域得到的运动向量对检测到的预设目标对应的矩形框进行更新(修正)，使得矩形框能够准确的将检测到的预设目标标记出来。

具体的，在对矩形框进行更新时，检测到的预设目标有多个时，如果两个预设目标距离较远，则在更新这两个预设目标对应的矩形框时，对于任一预设目标对应的矩形框，只需要将该矩形框更新为一个最小的可以覆盖该预设目标的矩形框即可，但是，如果场景比较复杂，所检测到的多个预设目标距离较近，那个这些预设目标可能会有重叠的区域，那么在对这些预设目标对应的矩形框进行更新时，就不能用这种简单的更新矩形框的方法。

因此，本发明实施例提供了一种对矩形框进行更新的方式，即，当多个预设目标在场景中运动时，其运动的方向、速度并不会完全一致，以预设目标为行人为例，行人的头、胸、手、腿这些部分的运动方向和速度不会完全一致。以行人为例对本发明实施例提供的对矩形框进行更新的方式进行说明：

一个人在行走时，胸腹部像素块对应的运动向量的方向和速度一般较为一致，而手、脚等四肢的像素块对应的运动向量会比较混乱，当多人行走在一起且互相接触时，首先使用深度优先算法(DFS)把所检测到的当前帧图像中的运动区域对应的像素块分割成若干各具有相似运动向量像素块的连通区域，然后利用这些连通区域对检测到的预设目标对应的矩形框进行更新。具体的利用深度优先算法在当前帧图像上的运动区域上进行连通区域搜索，两个像素块B(x1,y1)、B(x2,y2)连通的条件是坐标相邻且二者对应的运动向量V(x1,y1)和V(x2,y2)相似，两个像素块连通的条件如下：

即，两个运动向量的横坐标之差不大于1，且，两个运动向量的纵坐标之差不大于1，且，两个运动向量的相似度不小于设定相似度阈值，其中，ρ(v₁,v₂)代表了两个运动向量的相似度，计算公式如下：

其中，v₁，v₂分别表示运动向量V(x1,y1)和V(x2,y2)。

假设利用深度优先算法搜索得到的n个连通区域为：

O＝{O¹,O²,…,Oⁿ}

具体的，每个连通区域都对应一个最小的能覆盖该连通区域的矩形框，这些连通区域对应的最小覆盖矩形框分别为：

R＝{R¹，R²，…，Rⁿ}

那么，任一连通区域对应的矩形框与该连通区域相交部分的面积与该连通区域的面积的比值q^j采用如下方式计算：

其中，1≤j≤n，rⁱ表示检测到的任一预设目标对应的更新前的矩形框，该矩形框是在利用像素域目标检测算法进行预设目标检测后得到的，ο^j表示利用深度优先算法计算得到当前帧图像上的任一连通区域。

在输出带有矩形框标记的预设目标之前，对每个检测到的预设目标对应的矩形框进行更新的方式为：利用深度优先算法可计算得到当前帧图像中的多个连通区域，其中，具有相似运动向量的像素块会划分到同一个连通区域中，一个预设目标可能被划分成了多个连通区域，根据这些连通区域，对预设目标对应的矩形框进行更新，比如设目标为行人，则行人的手、躯干、腿可能被划分成了5个连通区域，要利用这些连通区域将该行人用一个矩形框表示出来。本发明实施例在更新其中检测到的任一预设目标对应的矩形框时，确定该任一预设目标对应的矩形框与任一连通区域相交部分的面积与任一连通区域的面积的比值q^j大于或等于设定面积比例阈值θ_q的所有连通区域，继而将每个连通区域对应的最小覆盖矩形框中，最小覆盖矩形框的左上角的横坐标和纵坐标的最小值分别作为该任一预设目标对应的更新后的矩形框的横坐标和纵坐标最后计算每个最小覆盖矩形框的左上角的横坐标加上该最小覆盖矩形框的宽度之和Z^j，取Z^j中的最小值Z_min ^j与之差作为该任一预设目标对应的更新后的矩形框的宽计算每个最小覆盖矩形框的左上角的纵坐标加上该最小覆盖矩形框的高度之和U^j，取U^j中的最小值U_min ^j与之差作为该任一预设目标对应的更新后的矩形框的高的计算公式具体如下：

其中，1≤j≤n，n表示利用深度优先算法DFS计算得到的当前帧图像中检测到的连通区域的总个数，j表示利用深度优先算法DFS计算得到的当前帧图像中检测到的任一连通区域序号，分别表示当前帧图像中检测到的任一预设目标对应的更新后的矩形框的左上角在当前帧图像坐标系中的横坐标、纵坐标，分别表示当前帧图像中检测到的任一预设目标对应的更新后的矩形框的宽和高，分别表示利用深度优先算法DFS计算得到的当前帧图像中的任一连通区域对应的最小覆盖矩形框的左上角在当前正图像坐标系中的横坐标、纵坐标，分别表示利用深度优先算法DFS计算得到的当前帧图像中的当前帧图像中的任一连通区域对应的最小覆盖矩形框的宽和高，q^j表示任一预设目标对应的更新前的矩形框与任一连通区域相交部分的面积与该任一连通区域的面积的比值，θ_q表示预先设定的面积比例阈值。

利用本优选实施方式，可以达到对标记检测到的预设目标的矩形框进行更新的目的，从而使得输出的矩形框标记能够更加准确的将检测到的预设目标标记出来。

在利用本发明实施例提供的运动目标检测方法对行人(预设目标)进行检测的实验结果如图5(a)、图5(b)、图5(c)、图5(d)所示，图5(a)中的黑色区域执行步骤101-步骤103后，提取的图像中的连通(运动)区域，图5(b)为利用像素域目标检测算法对行人进行检测后，用矩形框将检测到的行人标记后输出的结果，其中，框1为真实的行人对应的矩形框，框2为利用像素域目标检测算法在图像中的连通区域中对行人进行检测后输出的矩形框，框3为误检；图5(c)为在图5(b)的基础上，利用本发明实施例提供的置信度更新的方式后得到的检测结果，由5(c)可以看出，通过置信度修正后可将误检的矩形框滤除掉；图5(d)为在图5(c)的基础上，对输出的行人的矩形框2进行更新后的输出结果，其中，框4为更新后的矩形框，可见，经过矩形框更新后，能够用一个最小矩形框将所检测到的行人完全覆盖，从而准确标记出检测到的行人。

为了体现本发明实施例提供的运动目标检测算法的优势，下面分别将利用HOG算法、HOG+HTM算法、DPM算法、DPM+HTM算法进行目标检测的结果进行对比，对比结果如表1所示：

表一

其中，Precision表示检测的精确率，Recall表示召回率，F1-score表示将精确率和召回率综合考虑后得到的数值，F1-score的计算方式为现有方式，这里不再赘述。Pets、PKU分别为公知的视频测试数据集的名称，View1、View5、View6分别表示Pets数据集中的部分数据；Ch03、Ch04分别表示PKU数据集中的部分数据。

本发明实施例还提供了一种运动目标检测装置，如图6所示，包括：

预测单元601，用于在视频流的压缩域中，对当前帧图像中帧内编码的像素块进行运动向量预测，得到帧内编码的像素块的运动向量，其中，视频流中的每帧图像预先按照设定规则被分割成设定数目个像素块，每帧图像的形状大小相同；

第一确定单元602，用于根据当前帧以及当前帧之前连续M帧图像中，位于同一位置的像素块对应的运动向量为非零向量的次数，确定当前帧图像中的所有非零向量；

第二确定单元603，用于根据确定的所有非零向量，确定当前帧图像中的运动区域；

检测单元604，用于将运动区域映射到像素域，在运动区域中，采用像素域目标检测算法进行预设目标的检测，并将检测到的预设目标进行记后输出。

上述装置中的第一确定单元具体用于：

上述装置，还包括：

分割单元605，用于根据每帧图像的长和宽，将每帧图像分割成设定数目个n×n的像素块。

上述装置中，检测单元具体用于，将检测到的预设目标用矩形框进行标记后输出；

所述装置还包括：

第一更新单元606，用于输出带有矩形框标记的预设目标之前，针对检测到的每个预设目标，确定该预设目标对应的矩形框中包含非零向量的比例小于设定比例阈值时，根据该预设目标的初始置信度、设定比值阈值、该预设目标对应的矩形框中包含非零向量的比例，更新该预设目标的置信度；

其中，置信度用于确定是否显示预设目标对应的矩形框。

所述装置还包括：

第二更新单元607，用于输出带有矩形框标记的预设目标之前，针对检测到的每个预设目标，采用如下方式对该预设目标对应的矩形框进行更新：

其中，1≤j≤n，n表示利用深度优先算法DFS计算得到的当前帧图像中的连通区域的总个数，j表示当前帧图像中检测到的任一连通区域序号，分别表示当前帧图像中检测到的任一预设目标对应的更新后的矩形框的左上角在当前帧图像坐标系中的横坐标、纵坐标，分别表示当前帧图像中检测到的任一预设目标对应的更新后的矩形框的宽和高，分别表示任一连通区域对应的最小覆盖矩形框的左上角在当前正图像坐标系中的横坐标、纵坐标，分别任一连通区域对应的最小覆盖矩形框的宽和高，q^j表示任一预设目标对应的更新前的矩形框与任一连通区域相交部分的面积与该任一连通区域面积的比值，θ_q表示预先设定的面积比例阈值。

本发明是参照根据本发明实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种运动目标检测方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述根据当前帧以及当前帧之前连续M帧图像中，位于同一位置的像素块对应的运动向量为非零向量的次数，确定当前帧图像中的所有非零向量，具体包括：

3.如权利要求1所述的方法，其特征在于，每帧图像预先按照设定规则分割成若干个像素块，具体包括：

4.如权利要求1-3任一所述的方法，其特征在于，将检测到的预设目标用矩形框进行标记，输出带有矩形框标记的预设目标之前，还包括：

5.如权利要求1-3任一所述的方法，其特征在于，将检测到的预设目标用矩形框进行标记，输出带有矩形框标记的预设目标之前，还包括：

r_{x}^{i} = \underset{j}{m i n} {R_{x}^{j} | q^{j} &GreaterEqual; θ_{q}}

r_{y}^{i} = \underset{j}{m i n} {R_{y}^{j} | q^{j} &GreaterEqual; θ_{q}}

r_{w}^{i} = \underset{j}{m a x} {R_{x}^{j} + R_{w}^{j} | q^{j} &GreaterEqual; θ_{q}} - r_{x}^{i}

r_{h}^{i} = \underset{j}{m a x} {R_{y}^{j} + R_{h}^{j} | q^{j} &GreaterEqual; θ_{q}} - r_{y}^{i}

其中，1≤j≤n，n表示利用深度优先算法DFS计算得到的当前帧图像中的连通区域的总个数，j表示当前帧图像中的任一连通区域序号，分别表示当前帧图像中检测到的任一预设目标对应的更新后的矩形框的左上角在当前帧图像坐标系中的横坐标、纵坐标，分别表示当前帧图像中检测到的任一预设目标对应的更新后的矩形框的宽和高，分别表示任一连通区域对应的最小覆盖矩形框的左上角在当前帧图像坐标系中的横坐标、纵坐标，分别表示任一连通区域对应的最小覆盖矩形框的宽和高，q^j表示任一预设目标对应的更新前的矩形框与任一连通区域相交部分的面积与该任一连通区域面积的比值，θ_q表示预先设定的面积比例阈值。

6.一种运动目标检测装置，其特征在于，包括：

7.如权利要求6所述的装置，其特征在于，所述第一确定单元具体用于：

8.如权利要求6所述的装置，其特征在于，还包括：

9.如权利要求6-8任一所述的装置，其特征在于，所述检测单元具体用于，将检测到的预设目标用矩形框进行标记后输出；

该装置还包括：

第一更新单元，用于输出带有矩形框标记的预设目标之前，针对检测到的每个预设目标，确定该预设目标对应的矩形框中包含非零向量的比例小于设定比例阈值时，根据该预设目标的初始置信度、所述设定比值阈值、该预设目标对应的矩形框中包含非零向量的比例，更新该预设目标的置信度；确定该预设目标对应的矩形框中包含非零向量的比例大于或等于设定比例阈值时，确定该预设目标的置信度为初始置信度；

10.如权利要求6-8任一所述的装置，其特征在于，所述检测单元具体用于，将检测到的预设目标用矩形框进行标记后输出；该装置还包括：

第二更新单元，用于输出带有矩形框标记的预设目标之前，针对检测到的每个预设目标，采用如下方式对该预设目标对应的矩形框进行更新：

r_{x}^{i} = \underset{j}{m i n} {R_{x}^{j} | q^{j} &GreaterEqual; θ_{q}}

r_{y}^{i} = \underset{j}{m i n} {R_{y}^{j} | q^{j} &GreaterEqual; θ_{q}}

r_{w}^{i} = \underset{j}{m a x} {R_{x}^{j} + R_{w}^{j} | q^{j} &GreaterEqual; θ_{q}} - r_{x}^{i}

r_{h}^{i} = \underset{j}{m a x} {R_{y}^{j} + R_{h}^{j} | q^{j} &GreaterEqual; θ_{q}} - r_{y}^{i}

其中，1≤j≤n，n表示利用深度优先算法DFS计算得到的当前帧图像中的连通区域的总个数，j表示当前帧图像中检测到的任一连通区域序号，分别表示当前帧图像中检测到的任一预设目标对应的更新后的矩形框的左上角在当前帧图像坐标系中的横坐标、纵坐标，分别表示当前帧图像中检测到的任一预设目标对应的更新后的矩形框的宽和高，分别表示任一连通区域对应的最小覆盖矩形框的左上角在当前帧图像坐标系中的横坐标、纵坐标，分别表示当前帧图像中检测到的任一连通区域对应的最小覆盖矩形框的宽和高，q^j表示任一预设目标对应的更新前的矩形框与任一连通区域相交部分的面积与该任一连通区域面积的比值，θ_q表示预先设定的面积比例阈值。