CN109005409A

CN109005409A - 一种基于目标检测与跟踪的智能视频编码方法

Info

Publication number: CN109005409A
Application number: CN201810845985.6A
Authority: CN
Inventors: 朱威; 王东洋; 王义锋; 吴远; 陈朋; 郑雅羽
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2018-07-27
Filing date: 2018-07-27
Publication date: 2018-12-14
Anticipated expiration: 2038-07-27
Also published as: CN109005409B

Abstract

本发明涉及一种基于目标检测与跟踪的智能视频编码方法，包括以下步骤：（1）输入原始视频图像和目标对象类别的权重值；（2）生成检测跟踪图像；（3）目标对象检测；（4）目标对象特征提取；（5）目标对象跟踪；（6）生成感兴趣区域；（7）计算感兴趣区域量化参数下调值；（8）视频图像编码。通过深度学习检测感兴趣目标对象及确定感兴趣区域，提高检测效率和准确度，可以有效保证感兴趣区域的图像质量，同时本发明将检测到的目标对象信息压入码流中，有利于后期的视频检索与摘要。

Description

一种基于目标检测与跟踪的智能视频编码方法

技术领域

本发明涉及视频编码技术领域，特别涉及一种基于目标检测与跟踪的智能视频编码方法。

背景技术

目前常用的视频图像分辨率已经达到1080P高清，正逐渐向4K和8K超清方向发展，这些高分辨率视频的码流数据在传输和存储方面受到巨大的挑战。对于主要采用高分辨率视频且对实时性和图像质量要求较高的视频监控、视频会议等应用领域，如何在有限的网络带宽和存储空间下合理分配码率资源至关重要。在视频信息处理领域，感兴趣区域的提出与应用主要利用了人类视觉系统(Human Visual System,HVS)的特征。HVS在面对一个复杂场景时优先将注意力集中在少数几个具有显著视觉特征的视频对象上，对场景中的不同区域给于不同级别的关注程度。因此，在对整个视频图像区域进行处理时，那些不符合人眼特性的区域会造成码流资源和计算资源的浪费。感兴趣区域(Region of Interest,ROI)在视频编码领域中的主要应用体现在优先保证人眼关注区域的图像清晰度，并降低非关注区域的码流比特数。此外，ROI中清晰目标对象也为后续高质量的智能视频分析打下良好基础。

在视频监控等应用中，除了运动区域之外，静止区域也很有可能包含重要的监控目标。目前大多数感兴趣区域获取方法主要分为两类：一种是用户指定一块区域，此类方法只能选择固定区域当作感兴趣区域，其灵活性受到限制；另一种是基于运动目标检测的方法，此类方法缺点是依赖运动目标的检测，但运动的目标也可能是非感兴趣的目标，而静止的目标也有可能是用户感兴趣的目标。近年来，深度学习取得了重大突破，其在图像分类、人脸识别、语音识别等领域取得了不错效果，其中卷积神经网络就是一种采用深度学习技术的深度神经网络，该网络能够利用大量的训练样本深入地学习图像的抽象信息，更灵活地获取图像特征。在计算机视觉应用方面，SSD(Single Shot multiBox Detector)检测模型是典型的神经网络模型，结合了YOLO和FasterRCNN两者的优点。标准的SSD框架可以分为基础网络、检测网络和分类网络。SSD的基础网络也称为特征提取层，可以采用常见的特征提取网络包括ResNet、VGG-Net、Inception-Net，并由此衍生出各种改进的SSD模型。目前，基于VGG-Net的SSD模型在高配置的GPU上可以达到实时性要求，但在计算性能一般的设备、尤其在小型嵌入式设备进行目标检测时仍难以满足实时应用需求。为此，学术界也涌现出一批轻量型神经网络，代表性的模型主要有MobileNet、ShuffleNet、SqueezeNet和XceptionNet。这些模型的参数较少，层数不多，减少了训练和推理的计算量，同时也具备较好的检测准确率。

在视频编码处理中，对于感兴趣区域和非感兴趣区域的处理往往通过设置不同的量化参数值来实现。量化参数(Quant Parameter,QP)是量化步长(Q_step)的编号，对于目前主流的H.264和HEVC编码标准而言，Q_step共有52个值，对应的QP取值范围为[0,51]。QP和ln(Q_step)之间具有线性相关性，Q_step随着QP的增加而增大，每当QP值增加6，Q_step便增加一倍。当QP取最小值0时，Q_step值最小，表示量化最精细；反之，当QP取最大值51时，Q_step值最大，表示量化是最粗糙。目前推出的主流视频编解码处理芯片都支持对若干个矩形区域进行QP相对值的设置，方便用户根据需求实现感兴趣区域编码。

目前国内外的相关研究主要集中在目标检测的算法优化以及感兴趣区域的提取。申请号为CN201010505812.3的专利公开了一种视频序列感兴趣区域的校正方法，通过将前后帧的感兴趣区域投影到当前帧图像，结合当前帧的原始感兴趣区域，确定当前帧的一个增强的感兴趣区域，来校正视频序列的感兴趣轨迹，使得感兴趣区域轨迹变得平滑。申请号为CN201310034633.X的专利公开了一种基于感兴趣区域的视频编码方法，通过先检测特定对象来识别视频帧中的感兴趣区域和非感兴趣区域，然后计算宏块的量化参数值以及宏块的类型，再对视频帧进行编码。申请号为CN201610541399.3的专利公开了一种视频编码方法，通过运动检测确定感兴趣区域，并采用感兴趣区域保真度高于非感兴趣区域的方式进行视频编码。这些发明虽然能够实现感兴趣区域的提取和针对性编码，但不能识别感兴趣区域中的目标对象，无法根据目标对象重要程度进行智能编码和存储。

发明内容

为了合理分配码流资源，保证用户感兴趣的目标区域的图像质量，提高视频存储和传输的效率，本发明提出了一种基于目标检测与跟踪的智能视频编码方法。该方法利用卷积神经网络检测用户感兴趣目标所在的区域，并对目标区域进行特征提取，在后续视频帧中，利用目标跟踪算法对检测到的感兴趣目标进行跟踪，预测目标所在位置，编码器根据目标位置信息，在已有码率控制算法的基础上，调整感兴趣目标区域的量化参数，从而保证感兴趣区域的图像质量。

本发明提出的一种基于目标检测与跟踪的智能视频编码方法，该方法具体包括以下步骤：

(1)输入原始视频图像P1和目标对象类别的权重值

本发明支持的目标对象类别包括儿童、成年人、自行车、两轮电动车、两轮摩托车、三轮车、轿车、客车、货车、专用车等人和车；针对不同智能视频处理应用场景，结合人眼特性以及目标对象在场景中的重要程度，分别对每个感兴趣目标对象类别设置不同的权重值Weight，其取值范围为[1,10]，权重值越大说明对应的目标对象类别越重要，具体取值根据用户应用需求设定。

(2)生成检测跟踪图像P2

目前大多数摄像头拍摄的视频分辨率都比较高，为了加快感兴趣目标检测跟踪的处理速度，本发明基于水平像素分辨率，对原始视频图像P1进行缩放获得分辨率较小的用于目标检测与跟踪的图像P2。若原始视频图像P1的水平像素分辨率小于等于1920，则采用双线性插值算法将输入的原始视频图像P1缩放到分辨率为R的检测跟踪图像P2，以降低图像缩放的计算量；否则采用基于像素区域关系的插值算法将原始视频图像P1缩放到分辨率为R的检测跟踪图像P2，以保证图像质量；分辨率R的大小在640×480至960×720之间，用户根据计算资源决定，分辨率越高，则检测和跟踪的计算量越大。

(3)目标对象检测

目标检测是整个处理流程中的关键环节，为了减少计算资源消耗，本发明有选择的对步骤(2)生成的检测跟踪图像P2进行目标对象检测，从第1帧开始检测，之后每隔N帧检测一次，N的取值范围为[15,150]，进行检测的帧称为检测帧，其它在检测间隔中的帧称为非检测帧；若当前帧为检测帧，并且检测到目标对象，则输出目标对象的位置坐标、检测框宽高、置信度最大的对象类别及置信度值，并进行步骤(4)；若当前帧中没有目标对象，进行步骤(8)，完成视频图像编码。

若当前帧为非检测帧，并且在最近一次检测中已检测到目标对象，则进行步骤(5)；若当前帧中没有目标对象，进行步骤(8)，完成视频图像编码。

本发明将步骤(2)生成的检测跟踪图像P2输入到经大量数据样本离线训练好改进的SSD神经网络模型，检测输入图像P2中是否存在目标对象；若检测到目标对象，则为了减少后续特征提取和目标跟踪的计算量，本发明选择像素尺寸较大的前M个目标对象进行下一步处理，M的取值范围为[1,50]，用户根据应用系统的计算资源决定。

为了提高检测速率，本发明设计的改进的SSD神经网络模型以SSD检测框架为基础，该改进模型包括11层网络，前5层由Xception神经网络的前5个卷积层组成，替换了原有的VGG-16网络的前5个卷积层，后6层为SSD原有的5个卷积层和1个池化层。该模型结合了Xception和SSD两种类型网络的优势，在特征提取时采用轻量型神经网络Xception替代原先的VGG网络，以Xception的卷积层作为基础网络，在基础网络之后使用SSD原有的5个卷积层作为检测网络，使用3*3卷积进行多尺度的预测。改进的SSD神经网络模型可极大减少神经网络参数，并维持SSD的多尺度预测特点，在保持检测准确率的同时，提高了处理速度。此外，Xception使用深度可分卷积增加网络宽度，不仅提升了分类的正确率，也增强了网络对细微特征的学习能力，非常适合本发明支持的目标对象进行快速准确识别。

(4)目标对象特征提取

特征提取是目标跟踪的基础，表达性良好的特征有利于提高目标对象的跟踪精度。本发明在步骤(2)生成的检测跟踪图像P2中，对检测到的每个目标对象的像素区域提取方向梯度直方图和颜色直方图这两类统计特征，用于后续跟踪算法的初始化和对象匹配。

方向梯度直方图特征即HOG特征，对运动模糊和光照变化有较强的适应能力，但该特征中没有尺度信息，因此对快速变形和快速运动效果不佳。颜色直方图描述的是图像中不同色彩所占比例，与其所处的空间位置无关，可以脱离图像中具体对象描述全局的颜色统计信息，因此其对形变和快速运动不敏感，但是受光照的影响较大。本发明通过HOG特征弥补颜色特征所忽略的空间信息，减少光照、尺度变换以及背景颜色相似的影响，综合互补二者的特性，有效提高特征鲁棒性，较好的解决运动目标跟踪过程中遇到的遮挡、尺度变化及背景相似等问题。

(5)目标对象跟踪

本发明利用两帧间被跟踪目标对象的相关性，采用核相关滤波目标跟踪算法对目标对象进行跟踪：若当前帧在步骤(3)中已经进行了目标对象检测，则将检测到的目标对象初始化核相关滤波目标跟踪算法，并用步骤(4)提取的方向梯度直方图和颜色直方图特征训练对应的滤波器；若当前帧未在步骤(3)中进行检测，即为非检测帧，则采用核相关滤波目标跟踪算法确定各个目标对象在当前帧中的位置。

(6)生成感兴趣区域

由于进行目标检测跟踪图像P2与待编码的原始视频图像P1的分辨率不同，需要将目标的位置和大小重新映射为以原图像P1分辨率为基准的位置和大小。本发明利用目标对象与检测跟踪图像P2及原始视频图像P1的关系，首先将检测跟踪图像P2中的目标位置和大小映射到原始视频图像P1中的位置和大小，然后将映射后P1中的目标区域矩形框上下左右四条边往外扩展到最接近像素个数为16倍数的边界作为感兴趣区域。

(7)计算感兴趣区域量化参数下调值

对于每个目标对象所在的感兴趣区域，根据步骤(1)设置的目标对象类别的权重值Weight和步骤(3)输出的目标对象置信度值Conf，按式(1)计算对应感兴趣区域量化参数下调值QP_down，

即该感兴趣区域实际编码量化参数相对于原始编码器计算的量化参数QP_org的下调值，其中Conf的取值范围为[0,1]，当Conf小于等于0.5时，d₁为调节参数，其取值范围为[0.3,0.7]；当Conf大于0.5时，d₂为调节参数，其取值范围为(0.7,0.1.3]；为向上取整符号，当Weight值为1时，计算出来的QP_down值为0，对应的感兴趣区域不用下调编码量化参数。

(8)视频图像编码

若当前帧中存在目标对象，则在编码器已有的码率控制算法基础上，根据感兴趣区域位置及其对应的量化参数下调值，实现感兴趣区域编码，同时将检测到的目标对象类别、位置和大小压入码流：首先将四个字节的同步头0x00000001写入码流，再将一个字节的目标信息标识0xFF写入码流，然后将目标对象的数据结构写入码流。目标对象的数据结构包含：目标对象总个数Cnt_obj，每个目标对象的类别编号Type_obj、位置X_pos和Y_pos，长宽X_with和Y_height；其中，目标对象总个数Cnt_obj和每个目标对象的类别Type_obj各占2个字节，目标位置X_pos、Y_pos、宽X_with和Y_height各占4个字节；编码时把目标对象的数据结构信息放置到帧头位置。本发明对步骤(1)支持的目标对象类别进行编号，即Type_obj，具体如下：0：儿童，1：成年人，2：自行车，3：两轮电动车，4：两轮摩托车，5：三轮车，6：轿车，7：客车，8：货车，9：专用车。

若当前帧中不存在目标对象，则根据编码器已有的码率控制算法进行视频图像编码，输出视频码流。

本发明与传统感兴趣区域编码方法相比，主要优势在于：

通过深度学习检测感兴趣目标对象及确定感兴趣区域，提高检测效率和准确度，可以有效保证感兴趣区域图像质量。本发明提出的方法，不仅可以检测运动的目标，还可以检测静止的目标，比传统基于运动的感兴趣区域编码方法具有更稳定的检测效果。在支持的目标对象上有很大的灵活性，可以弥补传统感兴趣区域编码在对象识别上的不足。此外，在编码过程中，本发明将检测到的目标对象信息压入码流中，有利于后期的视频检索与摘要。

附图说明

图1是本发明的方法流程图。

具体实施方式

下面结合实施例来详细描述本发明，本项实例在JetsonTX2处理器平台，在其H.264硬件编码器的基础上实现智能视频编码，但本发明并不仅限于此。

如图1所示，一种基于目标检测与跟踪的智能视频编码方法，包括以下步骤：

(1)输入原始视频图像P1和目标对象类别的权重值Weight；

(2)生成检测跟踪图像P2；

(3)目标对象检测；

(4)目标对象特征提取；

(5)目标对象跟踪；

(6)生成感兴趣区域；

(7)计算感兴趣区域量化参数下调值QP_down；

(8)视频图像编码。

本实例中，步骤(1)具体包括：

输入原始视频图像P1的分辨率为1080P，即宽width值为1920，高height值为1080。根据交通监控场景，设置感兴趣目标对象类别的权重值如下：儿童、成年人和自行车的权重值Weight为8，两轮电动车、两轮摩托车和三轮车的权重值Weight为6，轿车、客车、货车和专用车的权重值Weight为4。

步骤(2)具体包括：

采用双线性插值算法对输入的视频图像P1进行缩小，缩小后图像P2的分辨率R为640×480。

步骤(3)具体包括：

设计一个改进的SSD神经网络模型，包括11层网络，前5层由Xception网络的前5个卷积层组成，替换了原有的VGG-16网络的前5个卷积层，后6层为SSD原有的5个卷积层和1个池化层；根据支持的目标对象类别进行离线训练。采用训练好的SSD的神经网络改进模型，对步骤(2)生成的检测跟踪图像P2进行目标对象检测，检测从第1帧开始，检测间隔N取值为30。若当前帧为检测帧，并且检测到目标对象，则输出目标对象的位置坐标、检测框宽高、置信度最大的对象类别及置信度值Conf，并进行步骤(4)；若当前帧中没有目标对象，进行步骤(8)，完成视频图像编码；若当前帧为非检测帧，并且在最近一次检测中已检测到目标对象，则进行步骤(5)；若当前帧中没有目标对象，进行步骤(8)，完成视频图像编码。为了减少后续特征提取和目标跟踪的计算量，选择像素尺寸较大的前M个目标对象进行输出，根据JetsonTX2支持的H.264硬件编码器的最大ROI区域个数，M的取值为8。

步骤(4)具体包括：

根据步骤(3)的检测结果，对检测到的每个目标对象区域提取方向梯度直方图和颜色直方图这两类特征。

步骤(5)具体包括：

利用两帧间被跟踪目标对象的相关性，采用核相关滤波目标跟踪算法对每个目标对象进行跟踪：若当前帧在步骤(3)中已经进行了目标对象检测，则将检测到的目标对象初始化核相关滤波目标跟踪算法，并用步骤(4)提取的方向梯度直方图和颜色直方图特征训练对应的滤波器；若当前帧未在步骤(3)中进行检测，即为非检测帧，则采用核相关滤波目标跟踪算法确定各个目标对象在当前帧中的位置。

步骤(6)具体包括：

将检测跟踪图像P2中的目标位置和大小映射为原始视频图像P1中的位置和大小，然后将映射后的矩形框上下左右四条边往外扩展到最近像素个数为16倍数的边界作为感兴趣区域。

步骤(7)具体包括：

根据步骤(1)设置的目标对象类别权重值Weight和步骤(3)输出的目标对象置信度值Conf，按式(1)计算对应感兴趣区域量化参数下调值QP_down，其中参数d₁的取值为0.5,参数d₂的取值为1：

步骤(8)具体包括：

若当前帧中存在目标对象，则在编码器已有的码率控制算法基础上，根据感兴趣区域位置及其对应的量化参数下调值，实现感兴趣区域编码，同时将检测到的目标对象类别、位置和大小压入码流：首先将四个字节的同步头0x00000001写入码流，再将一个字节的目标信息标识0xFF写入码流，然后将目标对象的数据结构写入码流。目标对象结构包含：目标对象总个数Cnt_obj，每个目标对象的类别Type_obj、位置X_pos和Y_pos，长宽X_with和Y_height。其中，目标对象总个数Cnt_obj和每个目标对象的类别Type_obj各占2个字节，目标位置X_pos、Y_pos、宽X_with和Y_height各占4个字节。编码时把目标对象的数据结构信息放置到帧头位置。对步骤(1)支持的目标对象进行编号，具体如下：0：儿童，1：成年人，2：自行车，3：两轮电动车，4：两轮摩托车，5：三轮车，6：轿车，7：客车，8：货车，9：专用车。

若当前帧中不存在目标对象，则按编码器已有的码率控制算法进行视频图像编码，输出视频码流。

Claims

1.一种基于目标检测与跟踪的智能视频编码方法，其特征在于：所述方法包括以下步骤：

步骤1：输入原始视频图像P1，设定目标对象类别的权重值Weight；

步骤2：基于原始视频图像P1的水平像素分辨率，生成检测跟踪图像P2；

步骤3：对检测跟踪图像P2进行目标对象检测，输出检测到目标对象的位置坐标、检测框宽高、置信度最大的对象类别及置信度值；

步骤4：在生成的检测跟踪图像P2中，根据检测结果提取目标对象特征；

步骤5：采用核相关滤波目标跟踪算法对目标对象进行跟踪；

步骤6：利用目标对象与检测跟踪图像P2及原始视频图像P1的关系生成感兴趣区域；

步骤7：计算感兴趣区域量化参数下调值QP_down；

步骤8：视频图像编码。

2.根据权利要求1所述的一种基于目标检测与跟踪的智能视频编码方法，其特征在于：所述步骤1中，支持目标对象类别包括人和车，Weight取值范围为[1,10]。

3.根据权利要求1所述的一种基于目标检测与跟踪的智能视频编码方法，其特征在于：所述步骤2中，若原始视频图像P1的水平像素分辨率小于等于1920，则采用双线性插值算法将输入的原始视频图像P1缩放到分辨率为R的检测跟踪图像P2；否则采用基于像素区域关系的插值算法将原始视频图像P1缩放到分辨率为R的检测跟踪图像P2；分辨率R的大小在640×480至960×720之间，用户根据计算资源决定。

4.根据权利要求1所述的一种基于目标检测与跟踪的智能视频编码方法，其特征在于：所述步骤3中，对步骤2生成的检测跟踪图像P2采用改进的SSD神经网络模型进行目标对象检测，从第1帧开始检测，每隔N帧检测一次，N的取值范围为[15,150]；

若当前帧为检测帧，并且检测到目标对象，则输出像素尺寸较大的前M个目标对象的位置坐标、检测框大小、置信度最大的对象类别及置信度值Conf，并进行步骤4；若当前帧中没有目标对象，进行步骤8，完成视频图像编码；M的取值范围为[1,50]；

若当前帧为非检测帧，并且在最近一次检测中已检测到目标对象，则进行步骤5，若当前帧中没有目标对象，进行步骤8，完成视频图像编码。

5.根据权利要求4所述的一种基于目标检测与跟踪的智能视频编码方法，其特征在于：所述改进的SSD神经网络模型以SSD检测框架为基础，模型包括11层网络，前5层以Xception神经网络的前5个卷积层替换VGG-16网络的前5个卷积层，后6层为SSD的5个卷积层和1个池化层。

6.根据权利要求1所述的一种基于目标检测与跟踪的智能视频编码方法，其特征在于：所述步骤4中，目标对象特征包括对检测到的每个目标对象区域提取的方向梯度直方图和颜色直方图特征。

7.根据权利要求6所述的一种基于目标检测与跟踪的智能视频编码方法，其特征在于：所述步骤5中，若当前帧在步骤3中已经进行了目标对象检测，则将检测到的目标对象初始化核相关滤波目标跟踪算法，并用步骤4提取的目标对象特征训练对应的滤波器；若当前帧未在步骤3中进行检测，则采用核相关滤波目标跟踪算法确定各个目标对象在当前帧中的位置。

8.根据权利要求1所述的一种基于目标检测与跟踪的智能视频编码方法，其特征在于：所述步骤6中，将检测跟踪图像P2中的目标位置和大小映射到原始视频图像P1中的位置和大小，然后将映射后P1中的目标区域矩形框上下左右四条边往外扩展到最接近像素个数为16倍数的边界作为感兴趣区域。

9.根据权利要求1所述的一种基于目标检测与跟踪的智能视频编码方法，其特征在于：所述步骤7中，基于步骤1设置的目标对象类别权重值Weight和步骤3输出的目标对象置信度值Conf，按式(1)计算对应感兴趣区域量化参数下调值QP_down：

其中，Conf的取值范围为[0,1]，d₁和d₂为调节参数，d₁的取值范围为[0.3,0.7]，d₂的取值范围为(0.7,0.1.3]。

10.根据权利要求4所述的一种基于目标检测与跟踪的智能视频编码方法，其特征在于：所述步骤8中，若当前帧中存在目标对象，则在编码器已有的码率控制算法基础上，根据感兴趣区域位置及其对应的量化参数下调值，实现感兴趣区域编码，同时将检测到的目标对象类别、位置和大小压入码流；否则按编码器已有的码率控制算法进行视频图像编码，输出视频码流。