CN116456090A

CN116456090A - 一种基于目标检测算法的视频压缩方法

Info

Publication number: CN116456090A
Application number: CN202310339155.7A
Authority: CN
Inventors: 陈绍炜; 李家璇; 窦智; 王琰; 陈首亮; 李奇; 莫一凡; 孙召卿; 王诗音
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2023-04-01
Filing date: 2023-04-01
Publication date: 2023-07-18

Abstract

本发明公开了一种基于目标检测算法的视频压缩方法，涉及视频压缩领域。该方法通过目标检测算法对采集的画面进行检测，然后基于检测结果进行H.265编码压缩，获取更优的压缩效果，使得感兴趣区域的画面质量更优。同时，该方法通过采取变步长的策略改变量化参数QP来调整实际输出码率，实现码率自适应。一方面当信道状态变好时，能够向上提升服务质量，提高传输的视频质量，另一方面当信道状态变差时，能够降低输出码率，从而保证视频数据的有效传输。本发明能提高重构图像中用户感兴趣区域的图像质量，并且实现输出码率的自适应，保证视频数据的有效传输。

Description

一种基于目标检测算法的视频压缩方法

技术领域

本发明涉及视频压缩领域，更具体的涉及基于目标检测算法的视频压缩应用领域。

背景技术

视频处理系统作为无人机的“眼睛”，在无人机执行任务时担任着不可或缺的角色。随着成像技术的飞速发展，无人机采集图像的数据量也爆炸增长，如果直接对其进行传输或存储，需要耗费巨大的信道带宽和存储空间。而无人机的无线传输信道由于受到地理环境、噪声干扰等因素的影响，一般带宽比较有限。因此，对无人机的视频数据进行压缩处理是无人机视频处理系统中必不可少的一部分。

目前主流的H.265/HEVC(High Efficiency Video Coding)视频压缩标准虽然可以有效地将原始视频数据进行压缩，但是观察者对于图像中的不同区域关注度一般不同，而H.265压缩算法未将这一因素考虑在内。

由于在无人机的应用场景下，往往观察者只关注图像中的某些重要目标所在的区域，而对其他区域仅仅进行粗略分析甚至忽视，那么如果对图像中的感兴趣区域和非感兴趣区域采用相同的压缩策略势必会造成不必要的资源浪费。

同时，在不同的信道状态下系统所要求的目标码率一般有所变化，为了保证视频数据的有效传输，需要视频处理系统能够在目标码率改变时调节实际输出码率满足传输要求。

发明内容

针对上述的问题，本发明提出了一种基于目标检测的视频压缩方法，通过目标检测算法对采集的画面进行检测，然后基于检测结果进行H.265编码压缩，获取更优的压缩效果，使得感兴趣区域的画面质量更优。同时，该方法通过采取变步长的策略改变量化参数QP来调整实际输出码率，实现码率自适应。一方面当信道状态变好时，能够向上提升服务质量，提高传输的视频质量，另一方面当信道状态变差时，能够降低输出码率，从而保证视频数据的有效传输。

本发明提出的一种基于目标检测算法的视频压缩方法，包括以下步骤：

步骤1：进行视频数据的采集；

步骤2：构建深度学习网络。使用SSD算法作为实现目标检测的基础，将SSD中主干网络VGG16网络替换为更轻量化的MobileNetV2网络，并且增加特征融合模块来将浅层特征与更深层的特征进行融合，从而提高网络的检测能力。

其中，以维度分别为w×h×c₁和2w×2h×c₂的特征图为例，特征融合模块结构如图1所示。特征融合模块的实现包括以下步骤：

步骤2.1：将深层特征图与浅层特征图的尺度进行统一，对较小尺寸的深层特征图进行上采样操作，将其尺寸将扩展为原来的2倍；

步骤2.2：将维度为2w×2h×c₁的深层特征图与维度为2w×2h×c₂的浅层特征图分别通过卷积层、批归一化(Batch Normalization，BN)层和ReLU6激活函数进行特征再提取；

步骤2.3：将统一尺寸后的两个特征图进行通道合并以增加当前特征图的信息量，此时特征图维度为2w×2h×(c₁+c₂)；

步骤2.4：对合并后的特征图利用1×1的卷积操作进一步完成特征融合，得到语义更丰富的2w×2h×c的特征图。

步骤3：根据实际使用场景中所需检测的特定目标制作数据集，使用制作的包含所需检测的特定目标类别的数据集训练网络模型；

步骤4：利用步骤3所训练好的网络模型对采集视频画面进行目标检测，输出目标的坐标信息并画出目标框，所画出的目标框即为感兴趣区域；

步骤5：将目标检测的结果(即步骤4中所框选的感兴趣区域)与H.265视频压缩进行结合。在视频压缩时，当采集的画面中没有用户感兴趣的特定目标(即无感兴趣区域)时，画面整体采用较高压缩率进行压缩；当采集的画面中出现用户感兴趣的特定目标(即有感兴趣区域)时，仅针对目标检测算法框选出的感兴趣区域采用较低压缩率进行压缩，针对感兴趣区域之外的背景区域采用较高的压缩率进行压缩。

在视频压缩的一些实际应用中，针对不同的信道状态，一般压缩时需要采用不同的目标码率，从而满足压缩后数据的传输要求。在目标码率变化时，整体上采用变步长的策略调整实际输出码率，具体的：在实际输出码率与目标码率差距悬殊时采用大步长调整QP变化从而快速调整输出码率；当实际输出码率与目标码率差距不大时采用中步长较为快速地调整输出码率；最后，当实际输出码率与目标码率比较接近时采用小步长微调输出码率直至满足目标码率。

其中，在调节图像中的量化参数QP时，可将其分为感兴趣区域的QP和背景区域的QP两部分，分别使用QP_ROI表示感兴趣区域的QP、QP_BG代表背景区域的QP，一般情况下QP调整时只针对QP_BG进行改变，当出现特殊情况再去对QP_ROI进行改变。

如图2所示，变步长的调整策略的实现包括以下步骤：

步骤5.1：定义实际输出码率与目标码率之比F来描述两者关系，公式如下：

其中，R_real为计算的实际输出码率值，R_Target为目标码率值。

步骤5.2：针对实际输出码率与目标码率不同的大小关系设置步长变化的门限，根据式(1)得出的F(F>0)的值，将其分为0<F，，1和F>1两种情形。

步骤5.3：当0<F，，1时，说明实际输出码率小于目标码率，则需要减小QP，从而增大输出码率，保证信道资源的合理利用。

对于0<F，，1，设置两个门限F_l1和F_h1(F_l1<F_h1且0<F_l1,F_h1<1)将其细分分为三种情况，对于不同情况使用不同的步长来减小QP。

如果F_h1剟F1，则表示基本充分利用信道资源，保持原有QP设置，不做改变；如果0<F<F_l1，说明大部分信道资源未利用，故采用中步长减小QP_BG，较为快速地提高码率；当F_l1，，F<F_h1，说明少量信道资源未充分利用，则采用小步长减小QP_BG，“保守”地趋近目标码率，直至F∈[F_h1,1]。

在上述过程中，如果出现QP_BG和QP_ROI的值相等的情况，则采用小步长同步减小QP_BG和QP_ROI来提高码率，直至F∈[F_h1,1]；

步骤5.4：当F>1时，说明实际输出码率大于目标码率，这时为了保证视频在有限带宽内有效传输，需要增大QP，从而降低输出码率。

对于F>1，同样设置两个门限F_l2和F_h2(F_l2<F_h2且F_l2,F_h2>1)将其分为三种情况。

当F>F_h2时，表示实际输出码率已经超出目标码率较多，为了在信道速率降低时快速适应，采用大步长增大QP_BG，“激进”地降低输出码率。当F_l2<F，，F_h2时，采用中步长增大QP_BG，较为快速地降低码率。当1<F，，F_l2时，表示已经接近目标码率，此时采用小步长增大QP_BG，“保守”地降低码率，直至F∈[F_h1,1]。

在上述大步长的“激进”的策略下，如果出现降低后的码率出现过小的情况，即F∈(0,F_h1)的情况，这时仍可以采用步骤5.3中的策略调整输出码率，直至F∈[F_h1,1]。

本发明的有益效果：本发明提出了基于目标检测算法的视频压缩方法，能够在有限带宽的应用场景下，通过对感兴趣区域采用较小的QP进行编码、背景区域采用较大的QP进行编码，提高重构图像中用户感兴趣区域的图像质量。并且能够在信道带宽变化时，通过建立实际输出码率与目标码率之间的关系，采取变步长的策略调节感兴趣区域和背景区域的量化参数QP来调节输出码率，从而实现输出码率的自适应，保证视频数据的有效传输。

附图说明

图1是特征融合模块的设计说明示意图；

图2是变步长调整策略流程图；

图3是基于SSD和MobileNetV2的深度学习网络结构图；

图4是所述方法压缩效果示意图。

具体实施例

该实施例中的基于目标检测算法的视频压缩方法，包括以下步骤：

步骤1：通过MIPI接口连接高清摄像头，进行视频数据的采集；

步骤2：选择SSD算法作为实现目标检测的基础，使用MobileNetV2作为主干网络进行特征提取，同时使用特征融合模块将Conv11的输出特征图与Conv13的输出特征图进行特征融合得到新的特征图，将Conv13的输出特征图和Conv14_2的输出特征图进行特征融合得到新的特征图，加上Conv14_2、Conv15_2、Conv16_2、Conv17_2输出的特征图，共6个特征层用于预测。最终，所构建的基于SSD和MobileNetV2的深度学习网络结构如图3所示。

步骤3：训练模型时所需检测的特定目标类别选取飞机、汽车、船舶三类，数据集选择上使用中国科学院西安光学精密机械研究所光学影像分析与学习中心制作的HRRSD数据集，其中将飞机、汽车、船舶三类目标的数据集挑选出来生成新的数据集，数据集如表1所示。

表1数据集信息

基于步骤2所构建的网络结构，使用上述包含飞机、汽车、船舶三类目标的新数据集进行网络模型的训练，得到所需的目标检测网络模型；

步骤4：利用步骤3所训练好的网络模型对采集的视频画面进行目标检测，得到模型的最终检测结果，即预测框的归一化坐标位置，然后将归一化的坐标映射到需要进行编码的图像上，根据坐标信息画出目标框，目标框所在区域即为感兴趣区域；

步骤5：将目标检测的结果与H.265视频压缩进行结合。当采集的画面中没有用户感兴趣的特定目标时，整个画面均采用较大量化参数QP进行压缩；当采集的画面中出现用户感兴趣的特定目标时，对目标检测算法框选出的感兴趣区域采用较小的量化参数QP进行压缩，对针对感兴趣区域之外的背景区域采用较大量化参数QP进行压缩。

通过上述方法对所选取视频进行压缩，效果如图4所示。

可以看出，该方法压缩后的重构图像中感兴趣区域相比于背景区域的图像质量更好。

在目标码率变化时，整体上采用变步长的策略调整实际输出码率，其中大步长取5，中步长取2，小步长取1。基础码率控制模式选择CBR模式——固定比特率，QP配置模式上选择相对QP模式，在已经设置的CBR模式的基础上对不同区域的QP进行修正，将感兴趣区域量化参数的初始值设置为-8，背景区域量化参数的初始值设置为+2。当目标码率变化时，根据实际输出码率与目标码率的关系，利用所设计的码率自适应算法按照所设置参数调整输出码率来满足目标码率。

选取两个不同的场景，分别设置两种典型的目标码率1024kbps和2048kbps使用上述方法进行实验，效果如表2所示。

表2码率调整效果

可以看出，该方法能够在目标码率变化时调整实际输出码率来适应目标码率，从而满足传输需求。

Claims

1.一种基于目标检测算法的视频压缩方法，其特征在于，包括以下步骤：

步骤1：进行视频数据的采集；

步骤2：构建深度学习网络：使用SSD算法作为实现目标检测的基础，将SSD中主干网络VGG16网络替换为更轻量化的MobileNetV2网络，并且增加特征融合模块来将浅层特征与更深层的特征进行融合，从而提高网络的检测能力；

对于维度分别为w×h×c₁和2w×2h×c₂的特征图，所述特征融合模块的实现包括以下步骤：

步骤2.4：对合并后的特征图利用1×1的卷积操作进一步完成特征融合，得到语义更丰富的2w×2h×c的特征图；

步骤5：将目标检测的结果，即步骤4中所框选的感兴趣区域与H.265视频压缩进行结合；在视频压缩时，当采集的画面中没有用户感兴趣的特定目标即无感兴趣区域时，画面整体采用较高压缩率进行压缩；当采集的画面中出现用户感兴趣的特定目标即有感兴趣区域时，仅针对目标检测算法框选出的感兴趣区域采用较低压缩率进行压缩，针对感兴趣区域之外的背景区域采用较高的压缩率进行压缩；

在目标码率变化时，整体上采用变步长的策略调整实际输出码率，具体的：在实际输出码率与目标码率差距悬殊时采用大步长调整QP变化从而快速调整输出码率；当实际输出码率与目标码率差距不大时采用中步长较为快速地调整输出码率；最后，当实际输出码率与目标码率比较接近时采用小步长微调输出码率直至满足目标码率；

其中，在调节图像中的量化参数QP时，将其分为感兴趣区域的QP和背景区域的QP两部分，分别使用QP_ROI表示感兴趣区域的QP、QP_BG代表背景区域的QP，一般情况下QP调整时只针对QP_BG进行改变，当出现特殊情况再去对QP_ROI进行改变。

所述变步长的调整策略的实现包括以下步骤：

步骤5.2：针对实际输出码率与目标码率不同的大小关系设置步长变化的门限，根据式(1)得出的F(F>0)的值，将其分为0<F_”1和F>1两种情形；

步骤5.3：当0<F_”1时，说明实际输出码率小于目标码率，则需要减小QP，从而增大输出码率，保证信道资源的合理利用；

对于0<F_”1，设置两个门限F_l1和F_h1(F_l1<F_h1且0<F_l1,F_h1<1)将其细分分为三种情况，对于不同情况使用不同的步长来减小QP；

如果F_h1剟F1，则表示基本充分利用信道资源，保持原有QP设置，不做改变；如果0<F<F_l1，说明大部分信道资源未利用，故采用中步长减小QP_BG，较为快速地提高码率；当F_l1”F<F_h1，说明少量信道资源未充分利用，则采用小步长减小QP_BG，“保守”地趋近目标码率，直至F∈[F_h1,1]；

对于F>1，同样设置两个门限F_l2和F_h2(F_l2<F_h2且F_l2,F_h2>1)将其分为三种情况：

当F>F_h2时，表示实际输出码率已经超出目标码率较多，为了在信道速率降低时快速适应，采用大步长增大QP_BG，“激进”地降低输出码率。当F_l2<F_”F_h2时，采用中步长增大QP_BG，较为快速地降低码率。当1<F_”F_l2时，表示已经接近目标码率，此时采用小步长增大QP_BG，“保守”地降低码率，直至F∈[F_h1,1]；

在上述大步长的“激进”的策略下，如果出现降低后的码率出现过小的情况，即F∈(0,F_h1)的情况，这时仍采用步骤5.3中的策略调整输出码率，直至F∈[F_h1,1]。