CN113112527A

CN113112527A - 一种基于h264视频码流的运动小目标检测方法

Info

Publication number: CN113112527A
Application number: CN202110324939.3A
Authority: CN
Inventors: 王靖宇; 张国俊; 张科; 苏雨; 谭明虎; 李浩宇; 张烨
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2021-07-13
Anticipated expiration: 2041-03-26
Also published as: CN113112527B

Abstract

本发明公开了一种基于H.264视频码流的运动小目标检测方法，首先依据H.264码流信息计算量化参数显著性，即QP显著性；然后建立全局运动估计模型，并补偿原始运动矢量数据；接下来依据补偿后的运动矢量，计算运动矢量显著性，即MV显著性；然后再依据H.264码流信息计算变换因子显著性，即Coeff显著性；利用点乘、加乘的方式实现QP显著性、MV显著性和Coeff显著性的融合；最后利用马尔可夫随机场计算当前帧运动矢量、当前帧变换因子矩阵与前序帧检测结果的后验估计，实现对可见光视频码流中运动小目标的检测。本发明克服了目标所含像素小与环境相似可能引入的检测精度问题，最终检测得到的目标完整性好，降低了漏检率，提高了检测精度，实现了对运动小目标的精确检测。

Description

一种基于H264视频码流的运动小目标检测方法

技术领域

本发明属于图像处理技术领域，具体涉及一种运动小目标检测方法。

背景技术

运动目标检测是计算机视觉领域的一个重要研究课题。其目的是利用视频序列间的相关性，快速、准确地从视频中检测出运动目标，以降低后续行为分析等环节的处理难度。随着视频监视系统中普及，运动小目标检测在许多计算机视觉领域逐渐扮演重要角色，包括预警系统，防御措施安全，遥感和视觉跟踪等应用。

陈明生，梁光明等人(《复杂背景下H.264压缩域运动目标检测算法》，通信学报,2011,32-3,91-97)中针对H.264/AVC压缩码流中的运动目标检测问题，提出了一种基于马尔可夫随机场的最大后验概率(MAP-MRF，Maximum A Posterior-Markov Random Field)下的H.264压缩域运动目标检测方法。方法首先将大小各异的宏块(Macroblock)归一化为4×4像素大小，针对各宏块运动矢量(MV，Motion Vector)场建立高斯混合模型(GMM，GaussianMixture Model)，结合MV幅度、帧间宏块分割模式、MV相位背景模型和运动目标时空约束建立马尔可夫随机场(MRF，Markov Random Field)模型。通过求解模型判断每个4×4大小宏块是否属于运动目标。但该算法未考虑H.264码流中的残差因素，故在检测效果中，存在漏检，且随着方法的运行，检测的准确性会逐渐下降。

发明内容

为了克服现有技术的不足，本发明提供了一种基于H.264视频码流的运动小目标检测方法，首先依据H.264码流信息计算量化参数显著性，即QP显著性；然后建立全局运动估计模型，并补偿原始运动矢量数据；接下来依据补偿后的运动矢量，计算运动矢量显著性，即MV显著性；然后再依据H.264码流信息计算变换因子显著性，即Coeff显著性；利用点乘、加乘的方式实现QP显著性、MV显著性和Coeff显著性的融合；最后利用马尔可夫随机场计算当前帧运动矢量、当前帧变换因子矩阵与前序帧检测结果的后验估计，实现对可见光视频码流中运动小目标的检测。本发明克服了目标所含像素小与环境相似可能引入的检测精度问题，最终检测得到的目标完整性好，降低了漏检率，提高了检测精度，实现了对运动小目标的精确检测。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤1：依据H.264码流信息计算量化参数显著性，即QP显著性；

步骤2：依据H.264码流中原始运动矢量数据，建立全局运动估计模型，并补偿原始运动矢量数据；

步骤3：依据补偿后的运动矢量，计算运动矢量显著性，即MV显著性；

步骤4：依据H.264码流信息计算变换因子显著性，即Coeff显著性；

步骤5：利用点乘、加乘的方式实现QP显著性、MV显著性和Coeff显著性的融合；

步骤6：利用马尔可夫随机场MRF计算当前帧运动矢量、当前帧变换因子矩阵与前序帧检测结果的后验估计，实现对可见光视频码流中运动小目标的检测。

进一步地，所述步骤1中依据H.264码流信息计算量化参数显著性的方法如下：

设序列图像F，帧长度为m，其中各帧由f_t，t＝1,2,...,m表示；将第t帧f_t划分为多个a₁×a₁大小的像素块，将该像素块定义为宏块，每一个宏块共用一个QP值，第j个宏块的量化参数显著性Saliency_QPj为：

其中，QP_max和QP_min分别为帧f_t中最大QP值和最小QP值，j＝1，…，n，n为帧f_t中宏块的个数，QP_j为第j个宏块的QP值；

计算图像帧f_t中所有宏块的量化参数显著性，再将计算出的所有量化参数显著性按照各宏块在图像帧中的位置排列，从而获得Saliency_QP，即QP显著图；

进一步地，所述步骤2中建立全局运动估计模型，并补偿原始运动矢量数据的步骤如下：

步骤2-1：采用稳健回归估计的方式，利用迭代加权最小二乘估计参数，实现全局运动模型估计；

(MVx_i,MVy_i)＝(x_i'-x_i,y_i'-y_i)

ex_i＝x_i+MVx_i-x_i' (2)

ey_i＝x_i+MVy_i-y_i'

其中，(MVx_i,MVy_i)表示当前帧中宏块i的运动矢量MV，(x_i,y_i)表示当前帧中宏块i的坐标，(x_i',y_i')表示参考帧中宏块i的坐标；e_i＝[ex_i,ey_i]表示运动矢量MV与真实坐标间存在的误差，运动矢量MV被视作(x_i-x_i',y_i-y_i')；

步骤2-2：建立全局运动模型：

其中a,b,c,d,e,f为模型参数，则根据最小二乘法将全局运动模型写为：

其中，x₁…x_n表示第1个到第n个图像块；

步骤2-3：式(4)的求解过程采用矩阵形式，如式(5)：

其中B为左式，A为右式含(x_i y_i 1)的矩阵，X为全局运动模型模型参数矩阵：

采用迭代加权最小二乘估计参数，则矩阵解法为：

X＝(A^TWA)^-1A^TWB (6)

其中，权重矩阵为：

矩阵中，各权重采用下式计算：

其中，ε(i)为第i个宏块的运动矢量与由全局运动模型估计的运动矢量的棋盘距离，μ_ε为所有ε(i)的均值，σ_ε为ε(i)的方差；

在解得全局运动模型后，ε(i)即为完成补偿后的第i个宏块的运动矢量MV；计算图像帧中所有宏块补偿后的运动矢量，从而完成全局运动的补偿；

进一步地，所述步骤3中计算运动矢量显著性的方法如下：

步骤3-1：遍历图像帧f_t内各宏块，计算每个宏块的8-邻域内宏块MV的中值MV_median；

中值MV_median的计算方法为：对于宏块i，计算宏块i的8-邻域内所有宏块MV的夹角∠θ_j，并将夹角∠θ_j进行排序，若宏块i的8-邻域内宏块数为偶数，则取中间两个夹角对应MV的加权和；否则，若宏块i的8-邻域内宏块数为奇数，取中间夹角对应的MV；

步骤3-2：记录宏块的8-邻域内宏块个数，记为cnt_adjacency_number；cnt_adjacency_number的取值有3、5、8三种；记录宏块的8-邻域内各宏块MV_median为零的个数，记为cnt_adjacency_mv_zero；

运动矢量显著性具体逻辑如下：

(1)若当前宏块MV为0，且cnt_adjacency_mv_zero大于等于4，将当前宏块的显著性赋值为0；否则若当前宏块MV为0，且cnt_adjacency_mv_zero小于4，则将当前宏块的显著性赋值为0.1；

(2)若当前宏块MV非0，计算当前宏块8-邻域内宏块MV的中值MV_median，进而计算当前宏块MV与MV_median的余弦相似度：

则各非零运动矢量的宏块的显著性由下式表示：

Saliency_MV＝1-cos_sim(MV,MV_median) (9)

最终，由当前帧内各宏块MV计算得到的Saliency_MV组成当前帧的运动矢量显著图，即MV显著图；

进一步地，所述步骤4中依据H.264码流信息计算变换因子显著性的方法如下：

H.264视频编码标准通过应用整数离散余弦变换DCT，将视频帧中真实块与预测块像素间的差异变换为频域信号；统一H.264标准中8×8与4×4两类变换方式，规定两类变换的直流DC、低频LF、中频MF、高频HF的界限：

其中，i，j分别为每个8×8与4×4块的横纵坐标：由于每个8×8块可以包含4个4×4块，则统一后：

其中，用#表示对应分量的非零元素数目，round()函数表示四舍五入；

定义变换因子显著性模型：

num_Coeff＝#DC+1.1·(#LF)+1.2·(#MF)+1.3·(#HF) (11)

其中，num_Coeff表示对应分量的加权非零元素的数目总和；

将num_Coeff进行归一化：

其中，temp_Coeff为num_Coeff归一化后的结果，num_Coeffmin、num_Coeffmax分别为8X8变换块或由4X4变换块融合成的8X8变换块的8-邻域内的加权非零元素数目最小值与最大值：

对temp_Coeff进行高斯平滑：

Saliency_Coeff＝gaussian(temp_Coeff) (13)

由此得到的Saliency_Coeff为最终的变换因子显著图，即Coeff显著图；

进一步地，所述步骤五利用点乘、加乘的方式实现QP显著性、MV显著性和Coeff显著性的融合的方法如下：

将QP显著图作为统领项，将MV显著图与Coeff显著图进行加权相加与对应元素相乘，式(14)中的β_item总和为0.6，用来平衡MV与Coeff两种显著性的取舍程度，γ取0.4；

进一步地，所述步骤6实现对可见光视频码流中运动小目标的检测的具体步骤如下：

步骤6-1：通过MRF进行再检测，即把检测获得的Saliency_final作为先验知识，设置MRF中的各能量项与当前帧运动矢量、当前帧变换矩阵与前序帧检测结果进行关联，实现后验估计；

后验估计通常为处理贝叶斯问题，设当前帧检测结果为L^t∈{0,1}，前序帧检测结果为L^t-1∈{0,1}，则最大后验概率表示为：

其中，MV^t表示当前帧的MV场，Coeff^t表示当前帧的由各Coeff数目组成的场；则最大后验概率转化为求解使得分子取最大值时的L^t，Ω表示为当前帧所有检测结果，即标签的组合：

由于MRF与服从Gibbs分布的随机场等价，因此将上述公式求对数，同时设计能量函数进行求解，各能量函数的表达如下：

等价于：

式(18)中右边第一项：时域连续性；E₁(ψ；L^t-1,MV^t,Coeff^t)中在时间连续中直接相关的变量仅为MV，因此将能量函数退化为E₁(ψ；L^t-1,MV^t)；设当前帧f_t中某4X4分块b标记为1，则由其MV反推至前序帧f_t-1中的对应区域，通过统计对应区域中标记为1的数目，则获得当前分块b为目标的概率p(b)：标记为1的数目除以16，则E₁(ψ；L^t-1,MV^t)为所有标记为1的分块b的概率总和；

式(18)中右边第二项：显著区域继承性；E₂(ψ；MV^t,Coeff^t)能量函数仅取决于MV、Coeff：

式中，c块为b块的邻域块，包含b块本身；若b块处的Saliency_final与其邻域内的最大值相差大于预设阈值，且其值大于0.5，则认为块b为目标区域，否则，认为b块仍为背景；

式(18)中右边第三项：邻域关联性；在E₃(ψ)中，采用具有不同权重的8-邻域区域，计算邻域相关性，则此分块权重通过当前块邻域标记加权和计算：

其中N1(b)和N2(b)分别为块b的一阶即上下左右和二阶即左上、右上、右下、左下邻域；相邻块中标记为1的块的数量与能量项呈负相关，块b属于目标的概率越大，从而保证

可以取更小的值；

在MRF开始前，前一帧的标签作为当前帧的初始标签，若当前帧为第一帧，则此时初始标签全设置为0；在迭代MRF至能量函数前后两次变化量小于0.01后退出迭代，输出结果，完成最终的运动小目标检测。

进一步地，所述a₁＝16。

本发明的有益效果如下：

1、本发明通过利用H.264视频码流中包含的量化参数、运动矢量、变换因子矩阵刻画三类显著性指标，并根据马尔可夫随机场实现显著区域的后验估计，提高了视频数据中运动小目标的检测准确性。

2、本发明提出的针对运动小目标检测的方法在含有多个目标的场景中，克服了目标所含像素小与环境相似可能引入的检测精度问题，最终检测得到的目标完整性好，降低了漏检率，提高了检测精度，实现了对运动小目标的精确检测。

附图说明

图1为本发明方法流程图。

图2为本发明方法的效果图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

本发明针对目前已有的依靠H.264视频码流数据进行运动小目标检测方法，大多存在漏检的问题，采用码流信息中量化参数(QP，Quantitation Parameter)、运动矢量、变换矩阵(Coeff，Coefficient Matrix)等信息建立显著性图。在此基础上，结合时域连续性、显著区域继承性、邻域关联性约束马尔可夫随机场实现对H.264标准下视频的运动小目标准确检测。

如图1所示，一种基于H.264视频码流的运动小目标检测方法，包括以下步骤：

H.264依靠量化参数(QP，Quantitation Parameter)控制视频区域的细节刻画程度。当摄像设备参数恒定时，运动物体在视场中运动速度越快，在成像结果中保留的细节越少。反之，如静止的区域，其在结果中保留了大量的细节。因此在H.264视频数据中，运动区域通常会由高QP值刻画，即量化更粗略，而静止区域由低QP值，即量化更精细。

设序列图像F，帧长度为m，其中各帧由f_t，t＝1,2,...,m表示；将第t帧f_t划分为多个16×16大小的像素块，将该像素块定义为宏块，每一个宏块共用一个QP值，第j个宏块的量化参数显著性Saliency_QPj为：

步骤2-1：由于无法准确刻画视频编码标准所计算的各宏块运动矢量与各像素真实运动方向之间的误差分布模型，采用稳健回归估计的方式，利用迭代加权最小二乘估计参数，实现全局运动模型估计；

(MVx_i,MVy_i)＝(x_i'-x_i,y_i'-y_i)

ex_i＝x_i+MVx_i-x_i' (2)

ey_i＝x_i+MVy_i-y_i'

步骤2-2：建立全局运动模型：

其中，x₁…x_n表示第1个到第n个图像块；

步骤2-3：式(4)的求解过程采用矩阵形式，如式(5)：

而稳健回归，采用迭代加权最小二乘估计参数。根据前一次计算结果中回归残差的大小来确定各宏块MV的权重，其中ω_i为权重，则矩阵解法为：

X＝(A^TWA)^-1A^TWB (6)

其中，权重矩阵为：

矩阵中，各权重采用下式计算：

进一步地，所述步骤3中计算运动矢量显著性的方法如下：

步骤3-1：在完成全局运动补偿后，需要进一步提取剩余MV中与各邻域内MV差异显著的成分，并将此区域初步判定为包含目标的区域。

遍历图像帧f_t内各宏块，计算每个宏块的8-邻域内宏块MV的中值MV_median；

运动矢量显著性具体逻辑如下：

(1)若当前宏块MV为0，且cnt_adjacency_mv_zero大于等于4，说明当前区域无运动的概率高，将当前宏块的显著性赋值为0；否则若当前宏块MV为0，且cnt_adjacency_mv_zero小于4，说明与周围运动不匹配，可能包含实际运动目标，则将当前宏块的显著性赋值为0.1；

则各非零运动矢量的宏块的显著性由下式表示：

Saliency_MV＝1-cos_sim(MV,MV_median) (9)

H.264视频编码标准通过应用整数离散余弦变换(DCT，DiscreteCosineTransformation)，将视频帧中真实块与预测块像素间的差异变换为频域信号；统一H.264标准中8×8与4×4两类变换方式，规定两类变换的直流DC、低频LF、中频MF、高频HF的界限：

设计变换因子显著性模型为基于加权统计各分量非零元素总数的模型，式(11)中为了更为突出直流以外的频率分量，增加了加权系数，同时保证越高频其权重越高。因高频分量的数目更为突出地反映了实际宏块与预测宏块之间像素域上悬殊差异，下标Coeff即为因子的简写：

定义变换因子显著性模型：

num_Coeff＝#DC+1.1·(#LF)+1.2·(#MF)+1.3·(#HF) (11)

其中，num_Coeff表示对应分量的加权非零元素的数目总和；

将num_Coeff进行归一化：

然而，当目标发生运动时，部分变换矩阵通常反映出前后帧中目标边缘与背景间的变化差异，故为确保变换因子显著性能覆盖小目标，需将由各处temp_Coeff组成的信息进行平滑(如高斯平滑)，从而确保temp_Coeff能最终囊括目标本体，确保小目标的完整性(gaussian()为高斯平滑函数)：对temp_Coeff进行高斯平滑：

Saliency_Coeff＝gaussian(temp_Coeff) (13)

步骤6-1：为降低仅由各类显著性检测运动小目标而造成的漏检问题，通过MRF进行再检测，即把检测获得的Saliency_final作为先验知识，设置MRF中的各能量项与当前帧运动矢量、当前帧变换矩阵与前序帧检测结果进行关联，实现后验估计；

等价于：

式(18)中右边第一项：时域连续性；E₁(ψ；L^t-1,MV^t,Coeff^t)中在时间连续中直接相关的变量仅为MV，因此将能量函数退化为E₁(ψ；L^t-1,MV^t)；考虑到标记为0的分块对当前检测结果没有影响，故仅需考虑上一帧中标记为1的分块。设当前帧f_t中某4X4分块b标记为1，则由其MV反推至前序帧f_t-1中的对应区域，通过统计对应区域中标记为1的数目，则获得当前分块b为目标的概率p(b)：标记为1的数目除以16，则E₁(ψ；L^t-1,MV^t)为所有标记为1的分块b的概率总和；

式(18)中右边第二项：显著区域继承性；E₂(ψ；MV^t,Coeff^t)能量函数仅取决于MV、Coeff：由最终的显著性Saliency_final充分考虑了两者，故E₂(ψ；MV^t,Coeff^t)以Saliency_final为基础，通过下述方法将其取值范围[0,1]映射至各位置对应的能量函数。从而保证最终检测结果为L^t∈{0,1}。与此同时，在初始帧进行检测时，由于不存在L⁰，故时域连续性在第一帧中无法进行运用，此时显著区域继承性承担了初始化的任务。

式(18)中右边第三项：邻域关联性；一般视频中的运动目标具有区域相关性，即已知帧中某块邻域块属于目标，则该块从属于同一目标的概率有所增加。在E₃(ψ)中，采用具有不同权重的8-邻域区域，计算邻域相关性，则此分块权重通过当前块邻域标记加权和计算：

可以取更小的值；在实验中设定α＝1/6和β＝1/12，以增大一阶邻域的权重。

从最终的检测结果图2中看出，本发明提出的针对运动小目标检测的方法在含有多个目标的场景中，克服了目标所含像素小与环境相似可能引入的检测精度问题，最终检测得到的目标完整性好，降低了漏检率，提高了检测精度，实现了对运动小目标的精确检测。