CN111432207A

CN111432207A - 基于显著目标检测和显著性指导的感知高清视频编码方法

Info

Publication number: CN111432207A
Application number: CN202010235826.1A
Authority: CN
Inventors: 祝世平; 谢文韬; 赵丛杨
Original assignee: Beihang University
Current assignee: Shenzhen Beichen Xingtu Technology Co.,Ltd.
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2020-07-17
Anticipated expiration: 2040-03-30
Also published as: CN111432207B

Abstract

本发明公开了基于显著目标检测和显著性指导的感知高清视频编码方法，包括：构建多尺度金字塔混洗网络的显著目标检测模型；通过所述多尺度金字塔混洗网络的显著目标检测模型，对视频数据进行显著性区域预测；利用预测结果对HEVC视频压缩标准指导，通过自适应量化参数与基于显著性的编码单元分块策略，进行视频编码。其中，多尺度金字塔混洗网络的显著目标检测模型，泛化性更强，可输出准确度更高的显著目标分割的预测结果图像；基于该预测结果图像对HEVC视频压缩标准进行指导，将视频图像分为显著性区域与非显著性区域，在率失真优化和量化参数选取上进行动态优化，最终得到多种指标上更优的视频编码结果，视频码流更小，画质更优。

Description

基于显著目标检测和显著性指导的感知高清视频编码方法

技术领域

本发明涉及视频技术领域，特别涉及基于显著目标检测和显著性指导的感知高清视频编码方法。

背景技术

在信息化时代，随着视频技术和应用的飞速发展，使得视频和图像这样的视觉信息载体具有更为广泛的实用性和更高的使用效率，充分发挥其直观性、确定性、高效性和视频信号的高带宽性等特点，深入到我们工作和生活的方方面面。

目前人们在各种渠道与设备所观看的视频，都是经过压缩后的视频。如果没有视频压缩这一个步骤，原画质、原码流的视频将会具有相当大的数据量，这对于数据传输来说无法接受，目前最快的传输介质光纤只能达到100Mbps，若不经过压缩，按照目前最主流的分辨率为1920×1080的标准1080P视频为例，视频位深度8bit，则60秒的视频数据量就达到了惊人的10.36GB，所以要以正常的速度传输，播放未经压缩的数字视频信号是不可能的。因此有了视频编码(Video Coding，即视频压缩)，通过去除视频中不需要的信息，来达到压缩文件大小的目标。

视频压缩是一场码流大小与画质高低之间的博弈，由于视频大多是服务于人眼观察的，其中引起观察者人眼敏感的图像物体称为显著性物体，例如图像中色彩鲜艳、高速运动、闪烁爆炸等图像区域，这些区域的失真会引起观察者的敏感，反馈也更加强烈，而有些情况下这些信息的损失是无法让观察者发觉的，如一大片平坦区域、颜色相同区域等即低显著性物体，通过去除这些低显著性的冗余信息，可以在不明显影响用户观看体验的同时，做到视频码流的大幅度缩减，这便是有损压缩。

另外，现有的最先进Salient Object Detection Networks(显著目标检测网络)都是基于在海量数据集上预训练的卷积神经网络(CNNs)，他们对于CNN模型中的多尺度特征并没有很好地进行充分利用和整合，也并没有将Salient Object Detection(显著目标检测)预测结果很好地用于视频处理等工程应用，同时在视频压缩方面，目前最先进的高效视频编码(HEVC)在视频压缩后的码流大小和画质上仍有一定提升空间。

发明内容

鉴于上述问题，本发明提出了一种克服上述问题或者至少部分地解决上述问题的一种基于显著目标检测和显著性指导的感知高清视频编码方法，构建的多尺度金字塔混洗网络的显著目标检测模型泛化能力强，基于预测结果对HEVC视频压缩标准指导，获得更优的视频编码结果，视频码流更小，画质更优。

本发明实施例提供基于显著目标检测和显著性指导的感知高清视频编码方法，包括以下步骤：

S1、构建多尺度金字塔混洗网络的显著目标检测模型；

S2、通过所述多尺度金字塔混洗网络的显著目标检测模型，对视频数据进行显著性区域预测；

S3、利用预测结果对HEVC视频压缩标准指导，通过自适应量化参数与基于显著性的编码单元分块策略，进行视频编码。

进一步地，步骤S3中所述基于显著性的编码单元分块策略，包括：

HEVC编码器在帧内、帧间预测模式选择以及运动估计时使用率失真优化，以率失真公式为准则选择能够使视频率失真最小的参数进行编码；视频压缩时的目标函数为：

min D s.t.R≤R_c (1)

(1)式中D表示压缩失真，R表示编码所需字节数，R_c表示期望的压缩视频字节数；

根据压缩失真和压缩视频字节数受到预测效果、量化参数、分块大小因素的影响，引入拉格朗日系数λ，转化为一个无约束优化问题：

minJ J＝D+λ·R (2)

(2)式中，J表示总编码代价，编码时遍历各模式计算出的最小J，即是决定最优编码模式的标准。

进一步地，步骤S3中所述自适应量化参数影响量化步长的大小，及影响编码单元的量化误差；所述量化误差为视频数据量化值与输入值之间存在的间隙；

设视频数据输入信号最小值和最大值分别为a，b，重建值个数为M，则量化步长Δ为：

进一步地，所述步骤S3，包括：

S31、利用预测结果对HEVC视频压缩标准指导；

S32、率失真优化步骤遍历各种可能的编码单元块大小和模式，不同的量化参数以控制视频压缩的参数；

S33、计算每种策略带来的总编码代价，选择在相同码流的情况下最小化失真方案，进行视频压缩。

进一步地，所述步骤S1，包括：

S11、选用了在ImageNet上预先进行训练的ResNet-50进行图像特征提取；

S12、利用普通卷积层配合maxpooling层对ResNet-50的输出进行处理，得到了从上到下不同层次的特征图，不改变特征图尺寸大小，得到一个编码器；

S13、构建一个自编码结构，从ResNet-50输出层处理得到的最小特征图开始，对前面得到的5个不同尺度的特征图通过上采样进行尺寸加倍和channels减半并与原来对应尺寸的特征图进行拼接，得到特征图金字塔结构；

S14、对得到的5组特征图每3个分为一个新的尺度组，得到乱序排列的10个不同尺度组，10组内每一组层次的特征图出现次数相同；下式(4)代表了每个尺度组的组合情况，G_n表示第n个尺度组，F_I,F_j,F_k表示当前组内三个互不相同的特征图组：

由于每一组特征图的尺寸以及channels不同，通过以下公式(5)计算得到尺度距离值SD_i，通过计算二范数差值衡量不同组特征图的差异性，H×W表示长×宽特征图尺寸，i，j表示组别，C表示channels：

SD_i＝(floor(log₂ H_i+log₂ W_i),log₂ C_i) (5)

ΔSD_i,j＝||SD_i-SD_j||₂ (6)

对10个尺度组内的每组特征图之间两两计算尺度距离差值后，在channels维度上找到一个使得当前组内尺度距离差值和最大的排列G*；

f(G_n)＝ΔSD_i,j+ΔSD_j,k (7)

G_n*＝arg max f(G_n) (8)

S15、接着每一个尺度组进行拼接然后再在channels维度上分成两部分，接着这两部分channels通过组卷积然后根据前面基于尺度距离的排列再一次拼接，得到的新特征图；

S16、模型的最后，利用双重卷积结构将10组新得到的特征图进行最后一步的处理；根据数据集图像调整修正参数，得到多尺度金字塔混洗网络的显著目标检测模型。

进一步地，所述多尺度金字塔混洗网络的显著目标检测模型的损失函数由两部分组成；

第一部分为交叉熵损失函数；BCE注重衡量预测图像像素和二值化groundtruth对应像素值的分类差异，倾向于将像素往groundtruth像素类别的方向接近，公式如下：

(9)式中，G表示真值图像；S表示预测显著性图；r和c表示行数、列数；

第二部分为IOU，用于模型训练；评价两种数据集分布的回归任务：

(10)式中，H表示高；W表示宽；

将BCE和IOU进行结合，使得损失函数同时在像素级别的分类任务和数据集级别的回归任务上综合衡量模型表现，得到更好的训练效果：

l_loss＝l_bce+l_iou (11)

I_loss表示总损失；I_bce表示交叉熵损失；I_iou表示交并比损失。

进一步地，步骤S3中，所述自适应量化参数的选取包括：

利用经DCT变换后的残差系数除以通过量化参数QP决定的量化步长，量化步长的公式：

HEVC编码标准处理的视频色度格式为YCbCr，亮度分量与色度分量采用不同的QP，亮度与色度QP范围分别为0～51和0～45，在QP较小时，两者相同，当QP大于等于30时，色度QP会小于亮度QP；

(13)式中data_out表示输出数据；floor表示向下取整；c表示选定常数；Q_step表示量化步长；f表示量化偏移量，控制数据的进位与舍去；

HEVC放大分子和分母然后对其进行舍入操作；QP的计算如下：

对每一个编码单元，QP搜索范围如下：

(15)-(17)式中avg(S_CU)为编码单元平均显著性，avg(S_Frame)为帧平均显著性；

对于高低两种不同显著性的编码单元，其QP搜索范围相差一个ΔQP；式中r为预设参数，用来控制QP搜索的最大范围。

进一步地，步骤S3中基于显著性的编码单元优化包括：

引入显著性系数SW，其计算公式如下：

SW的取值介于0～2之间；对于高显著性区域(avg(S_CU)≥avg(S_Frame))，2≥SW≥1；对于低显著性区域(avg(S_CU)＜avg(S_Frame))，1≥SW≥0；

构建SW_r设定参数来控制SW能在1左右取值的范围；

SW＝Clip3(1-SW_r,SW,1+SW_r) (19)

对于不同大小的编码单元划分策略，引入显著性后的编码失真如下：

(20)式中D^*表示修正后的编码失真，D表示按照传统HEVC编码得到的编码失真，SIZE_2N×2N表示保持较大编码单元尺寸不再往下继续划分，SIZE_N×N表示按照四叉树继续往下划分一级得到更小尺寸编码单元；

引入显著性修正后的总体编码代价函数如下：

J＝D^*+λ·R (21)

对于低显著性区域，SW计算结果在0和1之间，划分为大块的修正失真值低于划分为小块的修正失真值，倾向于在编码处理中选择较大的编码单元尺寸以增加压缩比；对于高显著性区域，SW计算结果在1和2之间，分成小尺寸编码单元的校正失真值低于大尺寸编码单元的校正失真值，倾向于向下划分为尺寸更小的编码单元。

本发明实施例提供的上述技术方案的有益效果至少包括：

本发明实施例提供的基于显著目标检测和显著性指导的感知高清视频编码方法，包括：构建多尺度金字塔混洗网络的显著目标检测模型；通过所述多尺度金字塔混洗网络的显著目标检测模型，对视频数据进行显著性区域预测；利用预测结果对HEVC视频压缩标准指导，通过自适应量化参数与基于显著性的编码单元分块策略，进行视频编码。其中，多尺度金字塔混洗网络的显著目标检测模型，泛化性更强，可输出准确度更高的显著目标分割的预测结果图像；基于该预测结果图像对HEVC视频压缩标准进行指导，将视频图像分为显著性区域与非显著性区域，在率失真优化和量化参数选取上进行动态优化，最终得到多种指标上更优的视频编码结果，视频码流更小，画质更优。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例提供的基于显著目标检测和显著性指导的感知高清视频编码方法流程图；

图2为本发明实施例提供的多尺度金字塔混洗网络的显著目标检测模型的结构图；

图3为本发明实施例提供的显著性检测模型指导的HEVC编码流程图；

图4为本发明实施例提供的显著性指导下的CU分块示意图；

图5为本发明实施例提供的四组模型进行内部对照结果示意图；

图6为本发明实施例提供的本发明显著性检测算法与9种经典算法的预测图对比；

图7为测试视频截图；

图8为测试视频每bit的PSNR指标结果示意图；

图9为测试视频的VMAF指标结果示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

为了便于更准确的理解本发明的技术方案，将本发明中用到的本领域的常规术语进行解释：

channels：通道；

shuffle：混洗；

shufflenet：混洗网络；

group convolution：组卷积；

ground truth：在机器学习中，术语“ground truth”指的是用于有监督训练的训练集的分类准确性，主要用于统计模型中验证或推翻某种研究假设。术语也指收集准确客观的数据用于验证的过程；

scale distance：尺度距离；

precision：精确；准确；细致；

recall：召回；

pyramid shuffle：金字塔混洗；

multi-scale pyramid shuffle：多尺度金字塔混洗；

参照图1所示，本发明实施例提供的基于显著目标检测和显著性指导的感知高清视频编码方法，包括以下步骤S1～S3；

S1、构建多尺度金字塔混洗网络的显著目标检测模型；

本实施例中，步骤S1中构建的多尺度金字塔混洗网络的显著目标检测模型，是基于CNN的视觉显著性物体检测，通过建立特征金字塔结构，将金字塔不同层的特征进行交叉融合，并且在不同组的融合过程中进行channels shuffle(通道混洗)，增强模型对图像中不同场景显著性目标的学习策略的鲁棒性。

步骤S2中，基于步骤S1得到的显著性预测模型，可以对待压缩的视频进行显著性预测，分割出每一帧图像的显著性目标对HEVC视频编码流程进行优化改进。

步骤S3中，在基于显著性信息的基础上对量化参数QP的搜索范围进行了修改，同时也优化了HEVC对编码单元CU(Code Unit)的分块规则。本发明实施例的视频压缩采用了HEVC视频编码标准，在与其他主流视频压缩算法相比时，通过比较相同程度压缩码流大小情况下的画质情况，明显具有优势。

下面分别对上述各个步骤进行详细的说明。

对视频数据的压缩一直以来都是数据传输的要求，数据压缩就是去除冗余的过程。人眼在观察目标时，每个视神经都对观察到的图像特定区域敏感，即存在“感受野”，同时人眼并不是观察目标的全貌，而是选择性观察更感兴趣的区域，即感兴趣区域(Regionof Interest,ROI)。人眼会对特定部分区域的图像变化反应更大，因此在发生同等失真情况下，人眼对图像中不同区域的失真可察觉度不同。因此，尽管就压缩率等指标而言，基于传统技术手段的视频编码方法已达到相当高的压缩效率，但若能在视频编码中合理地结合人类视觉系统(Human Visual System,HVS)的感知特征，则可挖掘主观视觉感知冗余，进一步提高视频压缩效率。

本发明是基于HM16.8版本，主要在HEVC的图像分块和QP设置上进行了改进。

(a)率失真优化：

在图像分块方面，HEVC的一个重要革新之处就是为预测和变换编码目标而对图像进行的基于四叉树的划分。这个过程生成不同尺寸的块，这种块在HEVC被称为编码单元(CU)，是最基本的图像压缩部分。较小的尺寸获得更精细的画质，但是压缩率小，较大的尺寸可以获得更大的压缩率，但是会有粗糙的画质。

因此本发明将利用显著性预测网络生成的显著性图对编码过程单元划分进行动态调整。高显著性部分一般对应于运动较为剧烈的图像部分，因此对这部分图像应用较深的CU划分模式，而低显著性部分一般对应于静止或运动较平缓的图像部分，因此对它们应用较浅的CU划分模式，从而降低CU划分的复杂度和所使用的时间。

对于同一压缩算法来说，码率越高表示图像质量越好、失真越小，但是码率越高要求更大的存储空间，也会增加网络传输的压力。率失真定理就是在给定比特率的情况下寻找编码失真最小的编码器，在码率与失真中找出平衡点，使压缩效果最优，其方法被称为率失真优化(Rate Distortion Optimization,RDO)。

HEVC编码器在帧内、帧间预测模式选择以及运动估计时都会使用率失真优化，以率失真公式为准则选择能够使视频率失真最小的参数进行编码。视频压缩时的目标函数为min D s.t.R≤R_c (1)

(1)式中D表示压缩失真，R表示编码所需字节数，R_c表示期望的压缩视频字节数；该式表示在控制压缩视频字节数不超过R_c的情况下使得压缩视频的失真最小。压缩失真和压缩视频字节数受到预测效果、量化参数、分块大小等一系列因素影响。为了求解式(1)，引入拉格朗日系数，将它转化为一个无约束优化问题：

min J J＝D+λ·R (2)

(b)量化参数：

HEVC中的量化参数QP影响着量化器的工作。量化器的作用是将输入数据(通常是连续数据)映射到一个较小集合上(通常是可数的离散值)。

量化是有损压缩中非常重要的过程，它可以减小输入数据的范围以实现压缩，但它也会产生量化失真。量化值和输入值之间存在间隙，该误差称为量化误差。HEVC中的量化参数QP影响量化步长的大小，因此也影响编码单元的量化误差。QP越小，量化步长越细、越小。量化误差越大，编码单元的压缩质量越好，但压缩后的数据量越大；QP越大，量化步长越粗，量化误差越大，编码单位压缩质量越差，压缩后的数据量越小，从数学角度看，设输入信号最小值和最大值分别为a，b，重建值个数为M，则量化步长Δ为：

因此，率真优化步骤遍历各种可能的CU块大小和模式，不同的量化参数QP值等以控制视频压缩的参数，计算每种策略带来的总编码代价选择在相同码流的情况下最小化失真的方法，也就是说，当前压缩的最佳解决方案。

上述步骤S1构建多尺度金字塔混洗网络的显著目标检测模型：

本实施例的图像视觉显著性分割模型采用了卷积神经网络(CNN)的结构，在模型的前部采用了迁移学习的思路，因此选用了在ImageNet上预先进行训练的ResNet-50进行图像特征提取。ResNet在经典卷积神经网络的基础上加入了残差连接，使得训练过程的梯度能够顺利的从模型末尾传播到模型开头，解决了深度网络训练过程中容易出现的梯度消失问题，大大改善了深度网络的训练难度。同时ResNet还解决了网络深度增加带来的训练精度饱和之后急剧衰退的问题。因此ResNet结构深度可以非常高，高于100层的ResNet仍然可以正常训练，步骤S1提出模型将在ImageNet上表现出色的ResNet-50作为模型的特征提取器。

本实施例中利用了一种双重卷积结构层，这种层的特点在于使用了两次卷积流程，结构内部流程分为三步：第一步为二维卷积，用3*3的卷积核以及1的padding对图像进行卷积，用于特征的提取，公式中I代表输入图像，K代表卷积核，S代表输出图像：

式中，x，y表示当前图像坐标位置；m，n表示卷积核内坐标位置。

第二步为归一化处理，将一个batch内的特征图进行数据归一化，这样的操作是为了防止由于不同二维特征图内各像素点的值差距过大，会导致模型参数性能的不稳定，x为输入信号，eps为一个极小量防止分母为0，γ和β为可学习的偏移量：

第三步为修正线性单元，利用ReLu激活函数可以加快收敛速度，防止梯度消失问题发生，同时极大地简化了计算复杂度，提高了效率，公式中x为输入信号，y为输出信号

y＝max(x,0) (6)

而在每一个双重卷积结构层里，将上述三个步骤重复两次，在面对不同复杂度的场景产生自适应的显著性分割策略，使得模型的性能更稳定，双重卷积结构层将用于模型后端的输出部分。

如图2所示，首先利用普通卷积层配合maxpooling层对ResNet-50的输出进行处理，得到了从上到下不同层次的特征图，不改变特征图尺寸大小，得到一个编码器。接着开始构建一个自编码结构，从ResNet-50输出层处理得到的最小特征图开始，对前面得到的5个不同尺度的特征图通过上采样进行尺寸加倍和channels减半并与原来对应尺寸的特征图进行拼接，得到新特征图。最终得到了一个特征图金字塔的结构，5组不同尺度的特征图包含了不同高低层次的信息，从顶端到底端根据尺寸大小和channels多少进行排列。

考虑到不同特征图的尺寸与对应的channels不同，高channels对应的特征图尺寸较小，每个像素对应的感受野较大，即对应了原始图像中更大的空间区域，用于表达图像高级语义信息；而对于低channels的特征图尺寸较大，感受野相对较小，用于提取图像的基本空间信息。如何更好的整合这些信息，防止某些层次特征权重过大或者信息丢失，是决定最终预测效果的关键。

这里创造了一个独特的特征图shuffle过程，受到shufflenet结构的中groupconvolution以及channels shuffle的思路启发。如图2所示，首先对得到的5组特征图每3个分为一个新的尺度组，保证每一组内都存在3组不同层次的特征图，可以得到乱序排列的10个不同尺度组，10组内每一组层次的特征图出现次数相同，这样可以保证特征信息权重的平衡，同时每一组内都有不同层次的特征可以进行整合，下式代表了每个尺度组的组合情况，G_n代表第n个尺度组，F_I,F_j,F_k代表当前组内三个互不相同的特征图组：

接着引入一个scale distance的概念，由于前面提到每一组特征图的尺寸以及channels不同，通过以下公式计算得到scale distance值，通过计算二范数差值衡量不同组特征图的差异性，H×W代表特征图尺寸，i，j代表组别，C代表channels；

SD_i＝(floor(log₂ H_i+log₂ W_i),log₂ C_i) (8)

ΔSD_i,j＝||SD_i-SD_j||₂ (9)

对10个尺度组内的每组特征图之间两两计算scale distance差值后，在channels维度上找到一个使得当前组内scale distance差值和最大的排列G*，这样可以保证相近层次的特征被尽量分开，减少相近层次特征的关联性，使得模型在综合了不同层次特征的同时不会对特征的层次排序产生依赖。

f(G_n)＝ΔSD_i,j+ΔSD_j,k (10)

G_n*＝arg max f(G_n) (11)

接着每一个尺度组进行拼接然后再在channels维度上分成两部分(每组前2个层次和后两个层次各自分为一部分，如第1第2为一部分，第2第3为一部分)。接着这两部分channels通过组卷积然后根据前面基于scale distance的排列再一次拼接，得到的新特征图很好的融合了三个层次的特征。

在模型的最后，利用双重卷积结构将10组新得到的特征图进行最后一步的处理，降低channels并恢复图像尺寸到原始大小，因为双重卷积结构是一个传统的卷积层重复两次，所以这一层的每个节点会有更多的权重来表示图像的特征，但是会导致更多的数据，所以只在模型的后端使用。最后得到10个新的特征图组，每个征图组都对高低层次信息进行细化。模型自动根据数据集图像调整修正参数，得到更符合图像特征的分割模型。最终输出将channels归为1，得到显著性分割预测图像。若不将5组特征图分为10个尺度组接着进行基于scale distance的shuffle操作，而是直接将特征图进行拼接通过卷积层进行channels的降低，最终得到单通道显著目标预测图，那么效果将会相对而言变差，后续会在评测部分进行对比。

本发明实施例中，上述多尺度金字塔混洗网络的显著目标检测模型的损失函数由2部分组成：

第一部分是交叉熵损失函数，BCE被广泛运用在二值化分类任务和图像分割任务上，在本实施例中BCE注重衡量预测图像像素和二值化groundtruth对应像素值的分类差异，倾向于将像素往groundtruth像素类别的方向接近，公式如下：

(12)式中，G表示真值图像；S表示预测显著性图；r和c表示行数、列数；

第二部分为IOU，被用于评价检测和分割任务；经过改良后可用于模型训练，这原本是用来衡量两个数据集之间的相似性，更倾向于评价两种数据集分布的回归任务：

(13)式中，H表示高；W表示宽；

l_loss＝l_bce+l_iou (14)

下面说明视频压缩算法：

在利用HEVC视频压缩标准之前，先对目标视频进行显著性分析，利用之前得到的多尺度金字塔混洗网络的显著目标检测模型生成需要压缩的视频帧的显著性分割预测图，图像中每个位置的像素值大小对应当前位置显著性大小，接着HEVC根据对应视频帧的显著性情况，修改压缩策略。

本实施例中，从两个方面对HEVC压缩策略进行优化，一个是HEVC根据当前帧的显著性情况，对高显著性区域倾向于更小尺寸的CU划分，对低显著性区域倾向于更大尺寸的CU划分；另一方面，HEVC在量化参数上，对高显著性区域采用低QP进行量化，而在低显著性区域采用高QP进行量化。

HEVC编码具体流程如图3所示，由于HEVC中对视频的编码是基于编码单元(CU)的，因此将编码单元作为显著性评判的单位。HEVC计算这一帧图像的显著性图平均值即为这幅图像的显著性标准，计算每一个编码单元内像素显著性的算术平均值，如果该编码单元显著性值大于帧平均显著性值，则该编码单元为高显著性区域，否则若编码单元显著性值小于帧平均显著性值，则该编码单元为低显著性区域，对应公式如下：

其中：

式中avg(S_CU)为CU平均显著性，avg(S_Frame)为帧平均显著性。接下来便以这个编码单元的显著性值为基础，进行HEVC压缩策略优化。

(A)动态QP的选取：

量化是对高清视频进行压缩的重要手段，其用于处理较大范围的视频编码残差系数。HEVC视频编码标准的反量化部分已经被固定，而量化部分可以供用户修改。量化的实质是利用经DCT变换后的残差系数除以通过量化参数QP决定的量化步长，下面是量化步长的公式：

HEVC编码标准处理的视频色度格式为YCbCr，亮度分量与色度分量采用不同的QP，亮度与色度QP范围分别为0～51和0～45，在QP较小时，两者相同，当QP大于等于30时，色度QP会小于亮度QP。

式中data_out代表输出数据，floor代表向下取整，c为选定常数，Q_step代表量化步长；f代表量化偏移量，控制数据的进位与舍去。

HEVC中有52个量化步长，其对应于52个量化参数。通过查找表格可以获得具体设置。对于色度分量，量化参数限制为0～45。具体地，当亮度分量的QP小于30时，QP和色度分量的亮度相同。当亮度信号QP为30到51时，可以通过查找表来获得两者之间的关系。

为了避免浮点计算，HEVC放大分子和分母然后对其进行舍入以确保操作的准确性。QP的计算方法也进行了调整：

由于本实施例中，使用当前编码单元的显著性值的高低程度来决定其采用的量化参数QP大小，对于高显著性的编码单元采用较小的QP保证其压缩质量，对于低显著性的编码单元则采用较大的QP以提高其压缩率，这是一个综合的优化考量。对每一个编码单元，QP搜索范围如下：

从上面可以看出，对于高低两种不同显著性的编码单元，其QP搜索范围相差一个ΔQP。式中r为手动设定的一个参数，用来控制QP搜索的最大范围。

(B)分块模式优化：

HEVC中的每个树编码单元和编码单元被四叉树方式划分，并且编码单元中的预测单元和变换单元可以继续执行多个对称和非对称划分。通常，在离散余弦变换之后的较大分区可以更好地将能量集中在低频分量上，从而增加压缩比。较小的分区可以更好地保持变换后的高频分量，这样更好获取图像细节并减少失真。基于人类视觉系统研究，希望在高影响区域获得更好的图像质量，因此，本实施例可以使用较小的编码单元，对于低显著性区域，可以牺牲图像质量来提高压缩率，即使用更大尺寸的编码单元划分。

HEVC中编码单元的分块模式是对所有分块模式的总编码代价进行筛选后，选取最小的误差代表的分块模式，也就是前面的率失真优化的内容。HEVC的CU分块过程是递归迭代过程，其中许多编码单元必须经历数次划分。因此，更改算法以显著性为标准计算当前分区方法的总编码成本，以便保留HEVC的原始编码过程并使分区模式更加智能。

由之前的率失真优化可以得知，编码总体代价由编码带来的失真和编码所需的字节数组成。编码所需的字节数由各种控制信息和预测残差决定。基于显著性信息的情况下，对于相同的编码单元，相同的编码失真将导致在高显著性区域中的观看质量低于低显著性区域中的观看质量。这里引入显著性系数Saliency Weight(SW)，其计算公式如下：

计算结果会使SW的取值介于0～2之间。对于高显著性区域(avg(S_CU)≥avg(S_Frame))，2≥SW≥1；对于低显著性区域(avg(S_CU)＜avg(S_Frame))，1≥SW≥0。为了SW取值范围在可控范围内，使用SW_r这个自己设定的参数来控制SW能在1左右取值的范围，在多次实验后，比如可将SW_r设定为0.55：

SW＝Clip3(1-SW_r,SW,1+SW_r) (24)

(25)式中D^*为修正后的编码失真，D为按照传统HEVC编码方法得到的编码失真，SIZE_2N×2N代表保持较大编码单元尺寸不再往下继续划分，SIZE_N×N代表按照四叉树继续往下划分一级得到更小尺寸编码单元。引入显著性修正后的总体编码代价函数如下：

J＝D^*+λ·R (26)

对于低显著性区域，SW计算结果在0和1之间，因此划分为大块的修正失真值低于划分为小块的修正失真值，这使得其更倾向于在编码处理中选择较大的编码单元尺寸以增加压缩比；对于高显著性区域，SW计算结果在1和2之间，因此，分成小尺寸编码单元的校正失真值低于大尺寸编码单元的校正失真值，这里的编码策略选择了提高图像质量，倾向于向下划分为尺寸更小的编码单元。结合上面的动态QP选取，本项目将算法性能进行可视化。

如图4所示(左：未使用显著性；右：使用显著性指导)，可以看到将显著性引入后视频编码后，对于人的头部特别是眼睛鼻子嘴巴等面部器官处以及面部与头发交界处等人眼更倾向于观察的区域，HEVC采用了更小的编码单元，对于单一色调的头发以及背景板这种人眼不会去仔细观察的区域，HEVC标准采用了更大的编码单元分块。对于不使用显著性的传统HEVC编码单元分块，人脸细节部分区域采用了较大的分块，而头发与背景板部分区域采用了较小的分块，而且右图在细节纹理处的过度上更为柔和自然，块状效应也较小，相比左图有着更高的画质。

前面提到了量化参数QP是对图像的残差系数进行信号量化程度的衡量指标，视频压缩后的码流大小就是取决于QP。QP越大，代表压缩的程度越高，压缩后视频的码流也就越小；反之，QP越小，代表压缩的程度越低，压缩后的视频码流也就越大。

下面通过两方面来说明本发明实施例具有的优势：

第一方面：多尺度金字塔混洗网络的显著目标检测模型的分割实验结果；

本实施例所提出模型利用了DUTS_TR开源数据集对模型进行训练，数据集中含有图片与GT共21106张图片，包含了多种复杂度的场景，显著性分割目标种类包含人、动物、水杯、气球、建筑等多种不同体积颜色形状的物体，可以让显著性分割模型通过学习对更广泛的场景种类做到精确目标分割。在配置有32GB DDR4 RAM和NVIDIA Titan V GPU的IntelI9-9900X CPU的工作站上完成实验，利用Pytorch 0.4深度学习框架，将训练集图片resize为256×320的尺寸送入模型训练，超参数设置为epochs＝100，batch_size＝8，learning_rate＝0.001，weight_decay＝0，利用Adam优化器进行梯度反向传递修正模型参数。

对于显著性分割任务来说，目前有多种指标可以分辨模型生成的显著性目标分割预测图和真实人眼annotation之间的差异，本发明选择F-measure，S-measure以及MAE这三种具有代表性并且在学术领域广泛应用的指标进行评价。

F-measure：

F-measure是基于预测模型中precision和recall这两个数据进行扩展得到的指标，TP,TN,FP,FN分别代表true-positive,true-negative,false-positive,and false-negative，参数β2＝0.3，首先对模型预测图进行二值化处理，由于图像深度为8bit，因此原始像素值为0-255区间内，因此，本发明在此区间内选取256个整数作为阈值对预测图进行二值化处理，得到256组precision和recall，每组求得一个F-measure值，由于数据过多，本项目并不会展示所有F-measure，而是选择目前大多方法使用的maximal F-measure值，以最优的F-measure结果表征整个算法模型。

S-measure：

Structural-measure(S-measure)是一种与传统的在像素级别分辨预测图与gt的评价指标不同的一种方法，其注重于真实值的模型预测图和二值化的GT图之间的结构相似性。S-measure主要分为S-object和S-region两部分，考虑object和region两个方面的相似性，常数α通常取为0.5。

S-measure公式

S＝α×S_o+(1-α)×S_r (29)

MAE：

与上面两种评价方法不同，MAE注重true negative像素，其对模型预测图和GT图进行归一化，求取两者对应像素差的绝对值，并对全局像素求均值，这种方法更加客观的表征了预测图和GT的差异。

基于上面提到的三种评价指标，本发明针对模型中pyramid shuffle与损失函数两个模块进行了内部对比，根据multi-scale pyramid shuffle(MPS)是否采用pyramidshuffle方法模型分为两类，损失函数是BCE还是BCE+IOU分为两类，共计四组模型进行内部对照。对照结果如图5所示。其中：图5(a)原始图像.(b)groundtruth.(c)MPS.(d)MPSwithout pyramid shuffle&IOU loss function.(e)MPS without pyramid shuffle.(f)MPS without IOU loss function。

同时在ECSSD,DUT-OMRON,PASCAL-S这三个数据集上对四组模型进行测试可以发现，运用了pyramid shuffle与BCE+IOU loss的模型获得了最高的综合得分，如表1所示。

表1 Pyramid Shuffle&IOU loss function引入对算法影响的对比实验

取最终的模型与2017-2019年的18种主流SOD模型进行了对比，选取其中代表性的几类算法进行显著性图预测比较，由于篇幅有限，选取了几种经典算法见图6。

可看到本发明提出的模型在对图像数据集的测试结果中，其对显著性区域定位的准确度和显著对象轮廓分割的精确度都明显比其他经典网络要高，对酒瓶在墙壁的阴影、巴士与背景楼房的颜色相近连接处、自行车车轮缝隙等容易导致误分割的特征上都做出了较好的判断，同时在人物手掌、鸟类羽毛等复杂轮廓上分割效果也更好，总体上减少了对显著目标信息的丢失，显著性区域也更加封闭，整体分割效果更好。

第二部分：视频编码实验结果

视频的总编码代价是由失真和码流大小共同决定的，因此，在评价视频压缩结果时，需要固定一个变量去衡量另一个，由于目前视频压缩的主流方法在压缩比上差别基本上不大，压缩比的大小取决于量化程度，因此本发明在评价视频压缩重建的质量时，在同一压缩码流的水平下去评价压缩后视频画质，并与几种主流视频压缩方法进行比较。

本发明使用峰值信噪比(PSNR)来评价压缩视频的最终质量，公式如下：

其中：

上式中f为原始视频图像，g为压缩后的视频图像。max(f)为图像像素点可以达到的最高数值，8bit图像对应max(f(＝255。图像压缩领域最常用PSNR去评估信号重建质量的方法。

同时，本发明还使用Netflix提出的多方法视频评估融合(VMAF，VideoMultimethod Assessment Fusion)来评估压缩质量。由Netflix和南加州大学联合开发的VMAF是由Netflix和南加州大学开发的客观视频质量评估方法。它使用支持向量机融合四个图像质量指标并输出0到100的分数，分数越高，视频质量越接近原始视频。VMAF中使用的四个图像质量指标是：VIF，VIF,Visual Information Fidelity；DLM,Detail LossMetric；MCPD,Mean Co-Located Pixel Difference；AN-SNR,Anti-noise signal-to-noise ratio。其将每帧的分数利用时域算术平均值来技术总体的差分平均分数。目前，VMAF在工程和学术领域运用广泛，其能够准确表征观看视频的感知质量，是用来评价显著性指导的优化视频压缩的合适指标。

由于在固定了码流的情况下去评价视频画质，因此，本发明选择了18～38范围内整数插值作为QP参数对视频进行压缩，每个视频得到不同码流大小的压缩结果，并分别进行PSNR与VMAF指标评价，得到每bit数据对应的PSNR与VMAF值，并进行比较。

本发明采用大多数同类视频压缩项目常用的高清测试视频作为测试集，其截图如图7所示。

本发明中，HEVC编码结构设为IPPP，GOP长度为1，除了本发明的算法模型，还进行了与HM16.8版本的HEVC标准模型(未使用显著性)、SAVC压缩算法、结果超越标准HM显著性模式如AQP/MQP的目前最好的PGVC压缩算法、一共三种压缩模型，都是目前领先性能优异的算法。最终，本发明对8个测试视频进行压缩，性能比较折线图如图8和图9(因篇幅有限，特以图7中BasketballDrive为例)。

由于数据过多，此处利用曲线图进行更直观的表现，可以看到不管是信号处理中常用的PSNR，还是工程和学术领域评价视频感知压缩质量的VMAF，本项目的方法基本上都有着较为明显的优势。

从PSNR-rate曲线图可以看出，本发明的算法都处于较为左上角的优势地位，意味着在同等码流情况下模型能够提供更好的图像画质；而在VMAF-rate图中，本发明的也达到了靠左上角的优势位置，因此，本发明实施例提供的视频压缩方法，可以利用算法在得到更好的观看感受的同时，进一步降低码流。

从视频性质来说，本发明的压缩算法对人物视频的处理上效果格外突出，例如KristenAndSara、vidyo3和vidyo4都是访谈类或者课程类视频，在目前视频种类中占比极大，其特点就是显著目标都是人物，这也符合正常的人类视觉常识。本发明中算法先利用显著性物体分割模型，将每一帧图像里的显著目标即人物精细的分割出来作为高显著性区域，而背景作为低显著性区域，接着便利用预测的显著性图指导HEVC进行压缩，通过自适应QP与基于显著性的CU分块策略，进行合理的视频编码。因此本发明的算法可以很好地对目前绝大多数的人物为显著目标的视频进行更优化的压缩，在当下火热的短视频领域有很大的发展潜力。

本发明实施例提出了一种基于卷积神经网络的multi-scale pyramid shufflenetwork，并通过模型对视频进行显著性目标分割，得到高显著性区域和低显著性区域，以此指导HEVC视频编码标准对视频施行更灵活的压缩策略。本发明提出的显著性目标分割模型(多尺度金字塔混洗网络的显著目标检测模型)综合了原始图像高低层次不同尺度的信息，在三个广泛应用且具有代表性的评价指标上都得到了超过目前绝大多数主流算法的成绩，并且模型结构清晰可移植性好；同时基于显著性分割得到的不同显著性区域，在QP的选取以及CU的划分这两个策略上对HEVC视频编码标准进行优化，在测试中的绝大多数视频上，通过主流PSNR与VMAF评价指标也获得了超过主流压缩算法的结果，在BD-PSNR，BD-VMAF，BD-RATE的综合评测中也获得了最佳的表现。也为基于显著性图像对视频进行更智慧的编码提供了更多可能性。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。