CN108574846B

CN108574846B - 一种视频压缩域目标跟踪方法和系统

Info

Publication number: CN108574846B
Application number: CN201810477116.2A
Authority: CN
Inventors: 江小平; 孙婧; 李成华; 丁昊; 岳映君
Original assignee: South Central University for Nationalities
Current assignee: South Central Minzu University
Priority date: 2018-05-18
Filing date: 2018-05-18
Publication date: 2019-03-08
Anticipated expiration: 2038-05-18
Also published as: CN108574846A

Abstract

本发明公开了一种视频压缩域目标跟踪方法，包括：从视频序列经过压缩编码得到的视频码流中提取该视频序列中第一帧对应的压缩域信息进行解码，以得到解码后的图像，并对该图像进行手动目标标记，以得到第一帧的目标标记图，对视频码流进行语法解析，以从该视频码流中提取视频序列中当前帧的下一帧对应的运动矢量MV和块编码模式，并对得到的运动矢量先后进行归一化处理和预处理，以得到处理后的下一帧的运动矢量，使用时空马尔科夫模型获得该下一帧的目标标记图。本发明能够解决现有压缩域目标跟踪方法中由于采用块级编码处理造成跟踪准确率低、以及跟踪准确率随着帧数的不断增加而逐帧持续、断崖式下降的技术问题。

Description

一种视频压缩域目标跟踪方法和系统

技术领域

本发明属于图像处理和模式识别技术领域，更具体地，涉及一种视频压缩域目标跟踪方法和系统。

背景技术

视频目标跟踪是计算机视觉的一个研究热点，它为视频分析、视频检索、行为理解等提供支持，在军事制导、人机交互、医疗诊断等领域都有着日益广泛的研究价值和应用前景。

目前的视频目标跟踪方法包括有基于像素域的视频目标跟踪方法，以及基于压缩域的视频目标跟踪方法。对于后者而言，目前普遍采用的视频目标跟踪方法是使用来自于压缩比特流的运动矢量(Motion vectors，简称MV)和块编码模式(Block coding modes)来执行跟踪，

然而，上述视频目标追踪方法存在一定的缺陷：首先，由于所利用的压缩域信息是基于块级编码处理，有些块中既有目标又有非目标，无论将该块标记为目标块或者非目标块，都会造成跟踪结果的准确率偏低；其次，由于该方法中，每一帧的目标标记图是由上一帧的目标标记图运算得到，随着帧数的不断增加，也会出现跟踪准确率呈现连续、断崖式下降的问题。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种视频压缩域目标跟踪方法和系统，其目的在于，解决现有压缩域目标跟踪方法中由于采用块级编码处理造成跟踪准确率低、以及跟踪准确率随着帧数的不断增加而逐帧持续、断崖式下降的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种视频压缩域目标跟踪方法，包括以下步骤：

(1)设置计数器c＝1；

(2)从视频序列经过压缩编码得到的视频码流中提取该视频序列中第c帧对应的压缩域信息进行解码，以得到解码后的图像，并对该图像进行目标标记，以得到第c帧的目标标记图；

(3)对步骤(2)中的视频码流进行语法解析，以从该视频码流中提取视频序列中第c+1帧对应的运动矢量MV和块编码模式，并对得到的运动矢量先后进行归一化处理和预处理，以得到处理后的第c+1帧的运动矢量。

(4)根据第c帧的目标标记图和步骤(3)中得到的处理后的第c+1帧的运动矢量，并使用时空马尔科夫模型获得第c+1帧的目标标记图；步骤(4)具体包括以下子步骤：

(4-1)对第c帧的目标标记图进行仿射变换处理，以得到第c+1帧的候选目标标记图；

(4-2)根据步骤(3)中得到的处理后的第c+1帧的运动矢量，并使用时空马尔科夫模型对第c+1帧的候选目标标记图进行更新，以得到第c+1帧的目标标记图；步骤(4-2)具体是采用以下公式：

其中φ表示第c+1帧所有可能的目标标记图的集合，mask_t为第c+1帧的目标标记图，mv_t′为第c+1帧的运动矢量，mask_t-1为第c帧的目标标记图，p(mask_t-1|mask_t，mv_t′)表示运动矢量的时域连续度，p(mv_t′|mask_t)表示运动矢量的空域一致度，p(mask_t)表示运动矢量的紧密度；

(5)在像素域中对步骤(4)中得到的第c+1帧的目标标记图中目标的边界进行细化，以得到第c+1帧的最终目标标记图。

(6)判断视频序列中的第c+1帧是否是视频序列的最后一帧，如果是则进入步骤(8)，否则进入步骤(7)；

(7)判断视频序列中的第c+2帧是P帧还是I帧，如果是P帧，则设置c＝c+1，并返回步骤(3)，如果是I帧，则设置c＝c+2，并返回步骤(2)；

(8)将得到的视频序列中所有帧的最终目标标记图输出。

优选地，步骤(3)包括以下子步骤：

(3-1)对步骤(2)中的视频码流进行熵解码，以从该视频码流中提取视频序列中第c+1帧对应的运动矢量和块编码模式，其中得到的块编码模式中规定了帧间编码的宏块大小；

(3-2)使用单元块对步骤(3-1)得到的运动矢量进行归一化处理，以得到归一化处理后的运动矢量{MV_i}，其中i＝1，2，...，n，n为归一化后得到的单元块的总数量。

(3-3)根据视频序列的干扰类型选择对应的预处理方法对归一化后的运动矢量{MV_i}进行处理，以得到处理后的运动矢量{MV_i’}；

优选地，步骤(3-3)中使用的预处理方法可以是中值滤波、矢量场累积、和/或全局运动补偿方法，如果视频中存在噪声，则使用中值滤波进行预处理；若视频中的运动矢量场比较稀疏，则使用矢量场累积进行预处理；若视频中存在照相机的运动，则应使用全局运动补偿去掉照相机的运动，以突出得到目标的运动。

优选地，单元块的大小可以为1*1、2*2、4*4，8*8、或者16*16。

优选地，步骤(5)包括以下子步骤：

(5-1)提取步骤(4)中得到的第c+1帧的目标标记图中目标的边界处的单元块{B_j}，其中j＝1，2，3，...，k，k表示目标标记图中目标的边界处的单元块的总数量；

(5-2)对步骤(5-1)提取的目标标记图中目标的边界处的单元块{B_j}执行压缩域到像素域的转换操作，从而得到该单元块对应的像素信息{B_j’}；

(5-3)使用像素域边缘检测算法对步骤(5-2)得到的单元块对应的像素信息进行处理，以得到每个单元块对应的像素级别目标标记结果；

(5-4)使用步骤(5-3)得到的每个单元块对应的像素级别目标标记结果替换步骤(4)中得到的第c+1帧的目标标记图中的对应区域，从而形成第c+1帧的最终目标标记图。

优选地，像素域边缘检测算法是Roberts算子、Log算子、Canny算子、小波多尺度方法、分形理论方法、数学形态学方法、或人工智能以及遗传算法。

按照本发明的另一方面，提供了一种视频压缩域目标跟踪系统，包括：

第一模块，用于设置计数器c＝1；

第二模块，用于从视频序列经过压缩编码得到的视频码流中提取该视频序列中第c帧对应的压缩域信息进行解码，以得到解码后的图像，并对该图像进行目标标记，以得到第c帧的目标标记图；

第三模块，用于对第二模块中的视频码流进行语法解析，以从该视频码流中提取视频序列中第c+1帧对应的运动矢量MV和块编码模式，并对得到的运动矢量先后进行归一化处理和预处理，以得到处理后的第c+1帧的运动矢量。

第四模块，用于根据第c帧的目标标记图和第三模块中得到的处理后的第c+1帧的运动矢量，并使用时空马尔科夫模型获得第c+1帧的目标标记图；第四模块具体包括以下子模块：

第一子模块，用于对第c帧的目标标记图进行仿射变换处理，以得到第c+1帧的候选目标标记图；

第二子模块，用于根据第三模块中得到的处理后的第c+1帧的运动矢量，并使用时空马尔科夫模型对第c+1帧的候选目标标记图进行更新，以得到第c+1帧的目标标记图；第二子模块具体是采用以下公式：

其中φ表示第c+1帧所有可能的目标标记图的集合，mask_t为第c+1帧的目标标记图，mv_t′为第c+1帧的运动矢量，mask_t-1为第c帧的目标标记图，ｐ(mask_t-1|mask_t，mv_t′)表示运动矢量的时域连续度，p(mv_t′|mask_t)表示运动矢量的空域一致度，p(mask_t)表示运动矢量的紧密度；

第五模块，用于在像素域中对第四模块中得到的第c+1帧的目标标记图中目标的边界进行细化，以得到第c+1帧的最终目标标记图。

第六模块，用于判断视频序列中的第c+1帧是否是视频序列的最后一帧，如果是则进入第八模块，否则进入第七模块；

第七模块，用于判断视频序列中的第c+2帧是P帧还是I帧，如果是P帧，则设置c＝c+1，并返回第三模块，如果是I帧，则设置c＝c+2，并返回第二模块；

第八模块，用于将得到的视频序列中所有帧的最终目标标记图输出。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)由于本发明采用步骤(5)对目标标记图中目标的边界进行细化，将目标标记结果从块级转化为像素级，因此能够保证较高的跟踪准确率。

(2)由于本发明定期将I帧作为初始帧进行更新操作，即使在后续帧出现错误的情况下，准确率也不会出现断崖式下降，同时，更新操作会停止准确率持续不断下降的趋势。

(3)本发明采用熵解码实现部分解码操作，避免了视频完全解码和重构，这样可以提高系统的处理效率，便于实时应用。

(4)本发明单元块的大小可以设置为1*1、2*2、4*4，8*8、或者16*16，从而可以满足不同应用场景的需要。

(5)本发明可广泛适用于MPEG-4、H.264、H.265等格式的视频中。

附图说明

图1是本发明视频压缩域目标跟踪方法的流程图；

图2是本发明方法的步骤(2)中得到的第一帧的目标标记图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明的基本思路在于，对视频序列的首帧作为初始帧进行目标标记图初始化，对接下来视频序列的每一帧，不需要完全解码，直接从压缩码流中提取出压缩域信息如运动矢量和块编码模式信息，利用上一帧的目标标记图和提取压缩域信息的时域和空域特性，实现下一帧目标的自动追踪。由于所利用的压缩域信息是基于块级编码处理，有些块中既有目标又有非目标，无论将该块标记为目标块或者非目标块，都会造成跟踪准确率下降，为了提高跟踪精度，对标识为目标的边界块映射到像素域进行像素级别的目标标记图修正。同时，由于每一帧的目标标记图是由上一帧的目标标记图运算得到，随着帧数的不断增加会出现跟踪准确率下降的问题，本发明定期将I帧作为初始帧更新目标标记图，以提高后续帧的跟踪准确率。本发明方法复杂度较低，能够有效提高视频目标的跟踪精度和处理效率。

如图1所示，本发明视频压缩域目标跟踪方法包括以下步骤：

(1)设置计数器c＝1；

(2)从视频序列经过压缩编码得到的视频码流中提取该视频序列中第c帧(即I帧)对应的压缩域信息进行解码，以得到解码后的图像，并对该图像进行目标标记，以得到第c帧的目标标记图(如图2所示)；

在图2中，该目标标记图中的白色区域表示目标，黑色区域表示背景。

具体而言，I帧对应的压缩域信息包括离散余弦变换(Discrete CosineTransform，简称DCT)系数等。

对图像进行目标标记，可以采用手动目标标记，也可以采用基于像素域的目标标记。

(3)对步骤(2)中的视频码流进行语法解析，以从该视频码流中提取视频序列中第c+1帧(即P帧)对应的运动矢量(Motion vector，简称MV)和块编码模式(Block codingmodes)，并对得到的运动矢量先后进行归一化处理和预处理，以得到处理后的第c+1帧的运动矢量。

本步骤中对运动矢量进行预处理的过程，是为了得到一个更可靠、更真实地反映目标运动的运动矢量。

本步骤具体包括以下子步骤：

(3-1)对步骤(2)中的视频码流进行熵解码，以从该视频码流中提取视频序列的第c+1帧对应的运动矢量和块编码模式，其中得到的块编码模式中规定了帧间编码的宏块大小；

具体而言，如果本发明的视频序列是经过H.264压缩编码得到视频码流，则帧间编码的宏块大小可以是4*4、4*8、8*4、8*8、16*8、8*16、或者16*16；

具体而言，单元块的大小可以为1*1、2*2、4*4，8*8、或者16*16，取值越小，则目标跟踪的准确率越高，整个流程持续的时间越长；反之则准确率越低，持续时间越短。

例如，将某个大小为16*16的宏块按4*4最小单元块进行归一化处理，如果该16*16的宏块的运动矢量为MV，则归一化处理后，该16*16大小的宏块被归一化为16个大小为4*4宏块，且每个大小为4*4的宏块的运动矢量都是MV。

具体而言，本步骤中使用的预处理方法可以为中值滤波、矢量场累积、和/或全局运动补偿方法，如果视频中存在噪声，则使用中值滤波进行预处理；若视频中的运动矢量场比较稀疏，则使用矢量场累积进行预处理；若视频中存在照相机的运动，则应使用全局运动补偿去掉照相机的运动，以突出得到目标的运动。

(4)根据第c帧的目标标记图和步骤(3)中得到的处理后的第c+1帧的运动矢量，并使用时空马尔科夫模型获得第c+1帧的目标标记图；

本步骤具体包括以下子步骤：

(4-2)根据步骤(3)中得到的处理后的第c+1帧的运动矢量，并使用时空马尔科夫模型对第c+1帧的候选目标标记图进行更新，以得到第c+1帧的目标标记图；

本步骤具体是采用以下公式：

其中φ表示第c+1帧所有可能的目标标记图的集合，mask_t为第c+1帧的目标标记图，mv_t′为第c+1帧的运动矢量，mask_t-1为第c帧的目标标记图，p(mask_t-1|mask_t，mv_t′)表示运动矢量的时域连续度，p(mv_t′|mask_t)表示运动矢量的空域一致度，p(mask_t)表示运动矢量的紧密度。

本步骤包括以下子步骤：

具体而言，像素域边缘检测算法包括Roberts算子、Log算子、Canny算子、小波多尺度方法、分形理论方法、数学形态学方法、或人工智能以及遗传算法等。

(5-4)使用步骤(5-3)得到的每个单元块对应的像素级别目标标记结果替换步骤(4)中得到的下一帧的目标标记图中的对应区域，从而形成第c+1帧的最终目标标记图。

(8)将得到的视频序列中所有帧的最终目标标记图输出。

实验结果与分析

下表1和表2分别示出了使用本发明的方法和现有方法所分别得到的不同视频序列的相关性能参数比较。其中视频序列1到5分别是从视频处理库中获取到的海岸警卫队、斯蒂芬(Stefan)、大堂监控器、花园、乒乓球的视频序列。

从上述2个表中可以看出，本发明的方法比现有方法大大提高了查准率、查全率和F度量。

表1查准率比较

表2 F-度量比较

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频压缩域目标跟踪方法，其特征在于，包括以下步骤：

（1）设置计数器c=1；

（2）从视频序列经过压缩编码得到的视频码流中提取该视频序列中第c帧对应的压缩域信息进行解码，以得到解码后的图像，对该图像进行目标标记，以得到第c帧的目标标记图；

（3）对步骤（2）中的视频码流进行语法解析，以从该视频码流中提取视频序列中第c+1帧对应的运动矢量MV和块编码模式，并对得到的运动矢量先后进行归一化处理和预处理，以得到处理后的第c+1帧的运动矢量；

（4）根据第c帧的目标标记图和步骤（3）中得到的处理后的第c+1帧的运动矢量，并使用时空马尔科夫模型获得第c+1帧的目标标记图；步骤（4）具体包括以下子步骤：

（4-1）对第c帧的目标标记图进行仿射变换处理，以得到第c+1帧的候选目标标记图；

（4-2）根据步骤（3）中得到的处理后的第c+1帧的运动矢量，并使用时空马尔科夫模型对第c+1帧的候选目标标记图进行更新，以得到第c+1帧的目标标记图；步骤（4-2）具体是采用以下公式：

其中表示第c+1帧所有可能的目标标记图的集合，为第c+1帧的目标标记图，为第c+1帧的运动矢量，为第c帧的目标标记图，表示运动矢量的时域连续度，表示运动矢量的空域一致度，表示运动矢量的紧密度；

（5）在像素域中对步骤（4）中得到的第c+1帧的目标标记图中目标的边界进行细化，以得到第c+1帧的最终目标标记图；

（6）判断视频序列中的第c+1帧是否是视频序列的最后一帧，如果是则进入步骤（8），否则进入步骤（7）；

（7）判断视频序列中的第c+2帧是P帧还是I帧，如果是P帧，则设置c=c+1，并返回步骤（3），如果是I帧，则设置c=c+2，并返回步骤（2）；

（8）将得到的视频序列中所有帧的最终目标标记图输出。

2.根据权利要求1所述的视频压缩域目标跟踪方法，其特征在于，步骤（3）包括以下子步骤：

（3-1）对步骤（2）中的视频码流进行熵解码，以从该视频码流中提取视频序列中第c+1帧对应的运动矢量和块编码模式，其中得到的块编码模式中规定了帧间编码的宏块大小；

（3-2）使用单元块对步骤（3-1）得到的运动矢量进行归一化处理，以得到归一化处理后的运动矢量{MV_i }，其中i=1，2，...，n，n为归一化后得到的单元块的总数量；

（3-3）根据视频序列的干扰类型选择对应的预处理方法对归一化后的运动矢量{MV_i}进行处理，以得到处理后的运动矢量{MV_i ^’}。

3.根据权利要求2所述的视频压缩域目标跟踪方法，其特征在于，步骤（3-3）中使用的预处理方法可以是中值滤波、矢量场累积、和/或全局运动补偿方法，如果视频中存在噪声，则使用中值滤波进行预处理；若视频中的运动矢量场比较稀疏，则使用矢量场累积进行预处理；若视频中存在照相机的运动，则应使用全局运动补偿去掉照相机的运动，以突出得到目标的运动。

4.根据权利要求2所述的视频压缩域目标跟踪方法，其特征在于，单元块的大小可以为1*1、2*2、4*4，8*8、或者16*16。

5.根据权利要求2所述的视频压缩域目标跟踪方法，其特征在于，步骤（5）包括以下子步骤：

（5-1）提取步骤（4）中得到的第c+1帧的目标标记图中目标的边界处的单元块{B_j}，其中j=1，2，3，...，k，k表示目标标记图中目标的边界处的单元块的总数量；

（5-2）对步骤（5-1）提取的目标标记图中目标的边界处的单元块{B_j}执行压缩域到像素域的转换操作，从而得到该单元块对应的像素信息{B_j’}；

（5-3）使用像素域边缘检测算法对步骤（5-2）得到的单元块对应的像素信息进行处理，以得到每个单元块对应的像素级别目标标记结果；

（5-4）使用步骤（5-3）得到的每个单元块对应的像素级别目标标记结果替换步骤（4）中得到的第c+1帧的目标标记图中的对应区域，从而形成第c+1帧的最终目标标记图。

6.根据权利要求5所述的视频压缩域目标跟踪方法，其特征在于，像素域边缘检测算法是Roberts算子、Log算子、Canny算子、小波多尺度方法、分形理论方法、数学形态学方法、或人工智能以及遗传算法。

7.一种视频压缩域目标跟踪系统，其特征在于，包括：

第一模块，用于设置计数器c=1；

第三模块，用于对第二模块中的视频码流进行语法解析，以从该视频码流中提取视频序列中第c+1帧对应的运动矢量MV和块编码模式，并对得到的运动矢量先后进行归一化处理和预处理，以得到处理后的第c+1帧的运动矢量；

第五模块，用于在像素域中对第四模块中得到的第c+1帧的目标标记图中目标的边界进行细化，以得到第c+1帧的最终目标标记图；

第七模块，用于判断视频序列中的第c+2帧是P帧还是I帧，如果是P帧，则设置c=c+1，并返回第三模块，如果是I帧，则设置c=c+2，并返回第二模块；