CN108184117A

CN108184117A - 基于内容的比特流层视频质量评价模型

Info

Publication number: CN108184117A
Application number: CN201810024449.XA
Authority: CN
Inventors: 李晨昊; 张美娜
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2018-01-10
Filing date: 2018-01-10
Publication date: 2018-06-19
Anticipated expiration: 2038-01-10
Also published as: CN108184117B

Abstract

本发明公开了基于内容的比特流层视频质量评价模型，属于多媒体技术领域。压缩域模型可以直接从码流中提取视频参数，用于实时非侵入式的质量监控。模型主要针对H.264视频编码标准，用于编码失真的质量评估。建立感知质量和量化参数QP之间的基本关系。考虑到感知质量对于视频内容的明显依赖性，视频内容被定义为不同时间复杂度和空间复杂度的组合。本发明使用小尺寸预测块所占比例SPM_Ratio，I帧中平均每个4×4块所包含DCT非零数的比例Ave_Coef，同时来描述视频的空间复杂度。使用码流中运动矢量信息后缀长度平均值归一化参数Ave_Mvlen来描述视频的空间复杂度。所有信息都可直接从码流中提取出来，而不需要进行解码操作。

Description

基于内容的比特流层视频质量评价模型

技术领域

本发明提出了一种基于压缩域的视频质量评价模型，属于多媒体技术领域。

背景技术

近年来，随着多媒体技术的蓬勃发展，网络视频服务，可视电话，IPTV等在我们的日常生活中已经获得明显的普及。然而，这些应用的质量时常无法得到实时的监控和保证。因此，建立一种网络视频质量评估的客观模型变得非常有必要。

从是否需要原始视频信息的角度来讲，视频质量评价可以分为主观评价和客观评价两种。主观评价需要受测者在特定环境下，观察一系列的被测视频，按照事先规定的评分标准进行评分。主要的方法有：DSIS(Double Stimulus Impairment Scale)法，DSCQS(Double Stimulus Continuous Quality Scale)法，SSIM(Single Stimulus Methods)法，SSCQE(Single Stimulus Continuous Quality Evaluation)法。主观评价方法最常用的打分标准是MOS标准，MOS分数由5到1代表感知质量越来越差。主观评价是能最直接反映人对视频质量的感知水平的方法，但缺点是主观实验费时费力，且容易受到观察者自身认知水平的影响。客观评价一般通过数学计算的方法来对视频序列进行打分。根据对原始视频的依赖程度不用，又可以分为3类：全参考、部分参考、无参考。全参考模型需要原始视频的全部信息，常用的方法有PSNR、SSIM、MS-SSIM等。全参考模型需要评估完整的原始视频信息，也就是未经压缩的像素数据，这个量级的数据一般是无法实时传输的，这也就导致无法远程实时监控和评估视频质量。为了解决这个问题，人们提出了部分参考模型。部分参考模型需要原始视频的部分信息。这类方法通常会提取原始视频的某些特征值，利用它们来评价视频质量。作为一种折中方案，它能解决远程传输的问题，但是其准确度较低。无参考模型不再需要失真前的数据，而仅需要观众实际得到的视频信息。这类方法实现起来比较困难，但是一旦实现，即可很灵活地应用在视频相关的各个领域，是一种比较理想的视频质量评价手段。但到目前为止，无参考方法仍然没有一个较为成熟的方案，一方面因为其准确性不是特别高，另一方面其对视频内容有比较大的依赖性，普适性不能得到保证。

根据输入信息的来源不同，客观评价模型可以被分为：参数模型，包层模型，比特流层模型，媒体层模型和混合模型。参数模型往往从网络中提取参数，例如丢包率，延迟，比特率等等，常被用于QoE评估。包层模型利用包头信息来获取服务质量的信息，例如帧类型，I帧和P帧的比例等等。比特流层模型是从编码比特流中提取相关的有效信息，这种模型是一种非侵入式的评估方法，重点在于提高模型的准确性。媒体层模型是利用媒体信号来评估视频质量。这种模型需要重建视频，因此也被称为基于像素的模型。混合模型使用的信息来自比特流和像素域的组合，因此在某些应用上面具有比较好的性能。

整体而言，参数模型和包层模型由于无法访问有效载荷信息，因此模型精度不高。媒体模型和混合模型需要完全解码视频才能获得基于像素域的视频信息，因此非常耗时耗力。因此，比特流层模型是一个折中的度量方法，可以实现相对较高的准确度和较低的计算量。

网络视频失真主要有两个主要原因：编码时的量化失真和传输时的丢包失真。其中，编码失真的评估是视频质量评估的基础，很大程度上也是最关键的部分。因此，本发明致力于解决H.264视频的编码失真评估问题。

根据人眼视觉系统的掩蔽效应，人类对不同内容的视频具有不同的敏感程度。因此，视频的纹理和运动特性也是影响视频感知质量的重要影响因素。一些文章使用像素域的特征信息，例如空间信息(spatial information,SI)和时间感知信息(temporalinformation,TI)来描述视频序列的特征，使视频质量评估更加准确[17]。此类方法需要完整的解码，也就意味着更高的计算复杂度。一些比特流层模型无需解码，专注于PSNR的估计，但许多研究表明PNSR与感知质量之间的相关性很差。

一些文献表明量化参数QP是影响视频失真的最主要因素，而视频内容信息，例如空间复杂度则次之。一些文献提出一种基于时间特征的比特流层模型。其中，基于运动的特征参数以及比特率被用于质量评估，但其尚未考虑空间特征。一些文献提出了使用DCT系数等来评估视频编码失真，然后其并没有考虑时间特征。一些文献中的模型公式表明客观分数和QP之间呈现线性关系，而事实上线性关系并不能代表感知质量与影响因素之间的关系。一些文献针对H.264视频，然而并没有考虑到视频内容，因此并不能提供一个更准确的评估方式。值得一提的是，随着深度学习的火热发展，深度神经网络也被用于视频及图像质量评价领域。一些文献使用ImageNet作为工具，进行图像的质量评估。一些文献使用轻量化的RBM网络，以及来自LIVE数据库的9个原始视频来建立视频质量评价模型。但是，深度学习需要大量的视频数据，而常用的数据库并不能达到这个数量级。另外，至今仍然没有完整的科学理论来支撑深度学习的可行性，因此深度学习目前并没有在视频质量评价方向获得更多的认可和成果。

发明内容

为了对不同内容的视频进行质量评价，本发明提出了一种基于压缩域的视频质量评价模型。压缩域模型可以直接从码流中提取视频参数，用于实时非侵入式的质量监控。模型主要针对H.264视频编码标准，用于编码失真的质量评估。首先，建立感知质量和量化参数QP之间的基本关系。然后，考虑到感知质量对于视频内容的明显依赖性，视频内容被定义为不同时间复杂度和空间复杂度的组合。本发明使用小尺寸预测块所占比例SPM_Ratio，I帧中平均每个4×4块所包含DCT非零数的比例Ave_Coef，同时来描述视频的空间复杂度。使用码流中运动矢量信息后缀长度平均值归一化参数Ave_Mvlen来描述视频的空间复杂度。以上所有信息都可直接从码流中提取出来，而不需要进行解码操作。由于使用内容信息，所提模型可适应于不同的视频内容。

本发明采用的技术方案为基于内容的比特流层视频质量评价模型，该模型的实施包括以下步骤：

S1.感知质量与量化参数

由于H.264是基于块的DCT压缩方法，块失真是最主要的编码失真，在H.264/AVC编码标准中有52个量化步长Q^step值，通过量化参数QP索引，每隔6个QP，Q^step就增长一倍。

Q^step＝2^(Qp-4)/6 (1)

Q^step是由QP决定的，因此，QP是反映编码失真的关键参数，选取四组标准测试视频序列，用恒定QP进行编码。通过改变QP值，获得对应的MOS分数值。该关系可以被描述为一个倒S的曲线，在QP较小时MOS下降不大，之后MOS快速下降，而最后趋于平滑且取值接近。不同的视频形状各不相同。四组标准测试视频序列分别为足球，电影，工头，母女；即Football,Mobile,Foreman,mother_daugher。

具有更高纹理丰富度即空间信息和运动剧烈度即时间信息的视频，Football,Mobile在相同QP条件下，具有相对较高的感知质量。相应地，Mother_daugher的运动剧烈度和纹理丰富度较低，在相同QP条件下感知质量较低。而Foreman具有中等的时间和空间复杂度，以及中等的感知分数。这种差异符合HVS的掩蔽效应，视频内容在影响感知质量中扮演重要角色。将视频内容特征的影响加入到视频质量评价中去。充分利用视频内容的两个主要特征因素：空间复杂度和时间复杂度。

S2.空间复杂度

H.264编解码主要分为5个部分：帧内和帧间预测Estimation，变换Transform和反变换，量化Quantization和反量化，环路滤波Loop Filter，熵编码。

H.264采用了更多有效的帧内与帧间预测模式，对于帧内预测编码，H.264提供了9种模式的4×4预测模式，适用于带有大量细节的图像编码，以及4种16×16预测模式，适用于平坦区域的图像编码。对于帧间预测编码，H.264支持7种宏块分割模式，分别是16×16、16×8、8×8、8×4、4×8和4×4，每个分割块或者子宏块都有独立的运动补偿，大的分割尺寸对应平坦区域，小尺寸对应细节较多的区域。因此，小尺寸的预测模式可以反映纹理细节较多的区域。

为此，定义帧间8×8、8×4、4×8、4×4以及帧内4×4为小尺寸预测模式SPM(SmallPrediction Mode)。所以小尺寸预测块的个数总和记为SPM_total，所有预测块的个数总和记为Prdmode_total。则小尺寸预测块占所有预测块总数的比例SPM_Ratio，就能说明视频序列包含的细节丰富程度。其值越大，证明视频纹理越丰富，即空间复杂度越高，感知质量越高，反之则越小。

4×4块数据经过预测、变换、量化后的数据表现出如下特性：非零系数主要集中在低频部分，包括了图像的大部分内容。而高频系数大部分是零。因此，DCT系数很大程度上反映了视频纹理丰富度。

为此，定义了I帧中平均每个4×4块包含的非零数比例，用来表示纹理的丰富程度。

其中，Coeff_Token是所有4×4块非零个数的总和，Inum是I帧的数目，BLKnum是每帧4×4块数目，16是归一化的系数，即非零数最大值。AVE_Coef越大，则说明视频序列所对应的纹理丰富度越高，感知质量越高，反之则越低。

S3.时间复杂度

在H.264编码标准从功能上分为视频编码层VCL和网络提取层NAL，其中对VCL数据传输或存储之前，先被映射或封装进NAL单元中，H.264比特率由一系列NALU单元构成，每个NALU包括一个对应于视频编码数据的NAL头信息和原始字节序列载荷RBSP。NAL头信息指示当前NAL的优先级，并指明当前NALU中的RBSP的数据类型。RBSP是NALU的数据部分的封装格式，可以是序列参数集SPS、图像参数集PPS或者一个编码片数据。编码片又可以分为片头和编码片数据，片头指明第一个宏块的地址，片类型，片所引用的序号以及片的解码顺序等等。编码片数据包含一系列编码宏块及跳过编码数据，每个MB又包含头单元和残差数据。MB的头单元包括宏块类型、预测模式、残差编码方案。

其中，宏块层数据中的帧内预测模式表明当前宏块的预测模式，残差系数包含了预测残差能量，而运动矢量残差则包含了视频运动信息。运动矢量残差采用有符号指数哥伦布码进行编码。运动矢量残差v到带编码code_mum的映射关系如下：

code_num指数哥伦布码的码字由三部分组成，表示为[M zeros][1][INFO]，其中M个零称为前缀，对应的INFO是一个M位的信息后缀。指数哥伦布码字是一种具有规则结构的变长码，编码实现简单，不需要浪费空间存储映射码表，每个码字code_num的M和INFO值通过公式(5)、(6)计算得到：

M＝floor(log₂[code_num+1]) (5)

INFO＝code_num+1-2^M (6)

因此，运动矢量残差的幅值与码字前缀的M值以及后缀的INFO值均有关系，而运动矢量残差的符号只由后缀INFO的最后一位比特决定。定义运动矢量的信息后缀平均长度为Ave_Mvlen，通过公式(7)计算得到。

其中Infolen_tot是信息后缀长度的总和，Infonum是运动矢量的总个数，6是归一化系数，即信息后缀长度最大值。Ave_Mvlen的值越大，表明视频序列时间复杂度越高，反之亦然。

S4.模型建立

在得到QP、时间复杂度、空间复杂度与视频感知质量的影响关系之后，本发明最终给出了客观质量分数的计算公式。

根据之前提到的每个MOS-QP的关系图，给出感知质量的公式如下：

其中，η、ω、是经验参数，QP是每个视频序列的量化参数平均值。然而，视频感知质量很大程度上取决于视频内容，因此上式对于具有不同时间和空间复杂度的视频具有不同的结果。

使用最小二乘法进行拟合，表1给出了η、ω、的最佳拟合值。从表1中可以看出，η、ω对于不同的视频具有相对较小的差异，分别趋于5和23。而是一个与视频内容复杂度有关的参数，且复杂度越高值越大，这也符合人眼视觉效应。

表1η、ω、的最佳拟合值

一旦η、ω的最佳拟合值被确定，公式(8)中的可以重新训练以获得与视频复杂度的关系。由于与视频复杂度是正相关的关系，因此在简洁而不失准确性的情况下，表示为：

其中，α、β、γ、μ是通过最小二乘法训练获得，结果如表2所示。但是，如果应用于其它视频数据库，则它们的取值需要调整。

表2 α、β、γ、μ的最佳拟合值

α	β	γ	μ
				4.6494	2.3919	9.2585	14.6431

将公式(9)带入到公式(8)中，客观视频质量计算公式可表示为：

到此为止，所提出的基于内容的比特流层视频质量评价模型完全可用于评估H.264/AVC编码失真的视频。除量化参数外，视频的时间和空间复杂度都在所提模型中被考虑到，以获得更精准的结果。

附图说明

图1是基于内容的比特流层视频质量评价模型；

图2是MOS-QP关系图；

图3是H.264编码流程图；

图4是SPM_Ratio对MOS的影响；

图5是Ave_Coef对MOS的影响；

图6是H.264比特流分层结构示意图；

图7是Ave_Mvlen对MOS的影响；

图8.1是时间和空间掩蔽效应的验证一；

图8.2是时间和空间掩蔽效应的验证二；

具体实施方式

本发明提出了一种基于内容的比特流层视频质量评价模型，用于评估H.264视频的编码失真。模型框架及流程如图1所示。

实施方式1研究了主观感知质量与量化参数QP的关系；实施方式2使用小尺寸预测块所占比例SPM_Ratio、I帧中平均每个4×4块所包含DCT系数非零数比例Ave_Coef描述了视频序列的空间复杂度；实施方式3使用运动矢量信息后缀平均长度归一化参数Ave_Mvlen描述了视频序列了时间复杂度；实施方式4根据主观感知质量与QP的关系，并使用最小二乘法训练相关参数，最终建立视频质量评价模型公式。

S1.感知质量与量化参数

由于H.264是基于块的DCT压缩方法，块失真是最主要的编码失真，因此量化与编码失真及感知质量有着密切的联系。在H.264/AVC编码标准中有52个量化步长Q^step值，通过量化参数QP索引，每隔6个QP，Q^step就增长一倍。

Q^step＝2^(Qp-4)/6 (1)

Q^step是由QP决定的，因此，QP是反映编码失真的关键参数。为了研究QP与感知质量的关系，本发明的模型选取了四组标准测试视频序列(足球，电影，工头，母女；即Football,Mobile,Foreman,mother_daugher)，用恒定QP进行编码。通过改变QP值，获得对应的MOS分数值。该关系可以被描述为一个倒S的曲线，在QP较小时MOS下降不大，之后MOS快速下降，而最后趋于平滑且取值接近。但是，不同的视频形状各不相同。

具有更高纹理丰富度(空间信息)和运动剧烈度(时间信息)的视频，如Football,Mobile在相同QP条件下，具有相对较高的感知质量。相应地，Mother_daugher的运动剧烈度和纹理丰富度较低，在相同QP条件下感知质量较低。而Foreman具有中等的时间和空间复杂度，以及中等的感知分数。这种差异符合HVS的掩蔽效应，视频内容在影响感知质量中扮演重要角色。考虑到这一点，势必将视频内容特征的影响加入到视频质量评价中去。充分利用视频内容的两个主要特征因素：空间复杂度和时间复杂度。

S2.空间复杂度

H.264编解码主要分为5个部分：帧内和帧间预测(Estimation)，变换(Transform)和反变换，量化(Quantization)和反量化，环路滤波(LoopFilter)，熵编码。

与以往视频编码标准相比，H.264采用了更多有效的帧内与帧间预测模式。对于帧内预测编码，H.264提供了9种模式的4×4预测模式，适用于带有大量细节的图像编码，以及4种16×16预测模式，适用于平坦区域的图像编码。对于帧间预测编码，H.264支持7种宏块分割模式，分别是16×16、16×8、8×8、8×4、4×8和4×4，每个分割块或者子宏块都有独立的运动补偿，整体而言，大的分割尺寸对应平坦区域，小尺寸对应细节较多的区域。因此，小尺寸的预测模式可以反映纹理细节较多的区域。

S3.时间复杂度

在H.264编码标准从功能上分为视频编码层VCL(Video Coding Layer)和网络提取层NAL(NetworkAbstraction Layer)，其中对VCL数据传输或存储之前，先被映射或封装进NAL单元中。这种分层处理的结构使得H.264能修灵活适应于不同的传输环境，提高了编码和传输效率。如图3所示，H.264比特率由一系列NALU(NetworkAbstraction Layer Unit)单元构成，每个NALU包括一个对应于视频编码数据的NAL头信息和原始字节序列载荷RBSP(Raw Byte Sequence Payload)。NAL头信息指示当前NAL的优先级，并指明当前NALU中的RBSP的数据类型。RBSP是NALU的数据部分的封装格式，可以是序列参数集SPS(SequenceParameter Set)、图像参数集PPS(Picture Parameter Set)或者一个编码片(Slice)数据等等。编码片又可以分为片头和编码片数据，片头指明第一个宏块的地址，片类型，片所引用的序号以及片的解码顺序等等。编码片数据包含一系列编码宏块(MB,Macroblock)及跳过编码数据，每个MB又包含头单元和残差数据。MB的头单元包括宏块类型(mb_type)、预测模式(mb_pred)、残差编码方案(CBP,Coded Block Pattern)等等。

code_num指数哥伦布码的码字由三部分组成，可以表示为[M zeros][1][INFO]，其中M个零称为前缀(prefix)，对应的INFO是一个M位的信息后缀(info_suffix)。指数哥伦布码字是一种具有规则结构的变长码，编码实现简单，不需要浪费空间存储映射码表，每个码字code_num的M和INFO值可以通过公式(5)(6)计算得到：

M＝floor(log₂[code_num+1]) (5)

INFO＝code_num+1-2^M (6)

因此，运动矢量残差的幅值与码字前缀的M值以及后缀的INFO值均有关系，而运动矢量残差的符号只由后缀INFO的最后一位比特决定。在本文中，定义运动矢量的信息后缀平均长度为Ave_Mvlen，可以通过公式(7)计算得到。

S4.模型建立

表1 η、ω、的最佳拟合值

一旦η、ω的最佳拟合值被确定，公式(8)中的可以重新训练以获得与视频复杂度的关系。由于与视频复杂度是正相关的关系，因此在简洁而不失准确性的情况下，可以表示为：

表2α、β、γ、μ的最佳拟合值

α	β	γ	μ
				4.6494	2.3919	9.2585	14.6431

到此为止，本发明所提出的基于内容的比特流层视频质量评价模型完全可用于评估H.264/AVC编码失真的视频。除量化参数外，视频的时间和空间复杂度都在所提模型中被考虑到，以获得更精准的结果。

S5.实验结果

本发明介绍了一种基于内容的比特流层视频质量评价模型。使用9个标准测试序列Football、Mobile、Tempele、Waterfall、Soccer、Foreman、Highway、Hall、Mother_daughter。训练和测试视频序列集不同，测试序列包含了176×144、352×288、768×432等不同尺寸的视频，范围涵盖时间和空间复杂度从高到底的较广范围。此外，所有的视频序列都是大约8秒的CIF格式，并采用JM以基本档次，25fps，GOP等于15，11个不同的QP(18-48)进行编码。最后模型将于PSNR和MS-SSIM等全参考视频质量评价指标，以及文献[31]提出的比特流层无参考模型进行对比。

主观实验采用DSIS(Double Stimulus Impairment Scale)的方法，由21个非专业人员严格按照ITU-T.P.910标准进行打分。使用MOS(Mean Opinion Score)分数来表示主观感知质量，其中5代表质量最好，1代表质量最差。

如图8.1-8.2所示，Football与Highway的时间复杂度相差不大，而空间复杂度较大，因此具有更高的感知质量。Soccer与Mother_daughter的空间复杂度相差不大，而时间复杂度较大，因此具有更高的感知质量。这也充分证明了本文所提模型符合人眼视觉掩蔽原理。

斯皮尔曼相关系数SROCC和皮尔逊相关系数PLCC是衡量两个变量之间相关性的指标，经常被用于评价视频质量评价的准确性。SROCC和PLCC越大，表明两个变量之间相关性越高，即模型准确性越高。表3和表4分别是本文模型与全参考和无参考模型的对比。

表3与全参考模型对比

表4与无参考模型对比

参考文献

[1]Staelens N,Wallendael G V,Crombecq K,et al.No-Reference Bitstream-Based Visual Quality Impairment Detection for High Definition H.264/AVCEncoded Video Sequences[J].IEEE Transactions on Broadcasting,2012,58(2):187-199.2

[2]M.Knee,A single-ended picture quality measure for MPEG-2,in:Proc.Int.Broad.Convention(IBC),2000,pp.95–100.

[3]Wang Z,Lu L,Bovik A C.Video quality assessment based on structuraldistortion measurement[J].Signal Processing Image Communication,2004,19(2):121-132.

[4]Wang Z,Simoncelli E P,Bovik A C.Multiscale structural similarityfor image quality assessment[C]//Signals,Systems and Computers,2004.Conference Record of the Thirty-SeventhAsilomar Conference on.IEEE,2004:1398-1402Vol.2.2.

[5]Marziliano P,Dufaux F,Winkler S,et al.A no-reference perceptualblur metric[C]//International Conference on ImageProcessing.2002.Proceedings.IEEE,2002:III-57-III-60vol.3.

[6]Moorthy A K,Bovik A C.A Two-Step Framework for Constructing BlindImage Quality Indices[J].IEEE Signal Processing Letters,2010,17(5):513-516.

[7]Mittal A,Moorthy A K,Bovik A C.Blind/Referenceless Image SpatialQuality Evaluator[C]//Signals,Systems and Computers.IEEE,2015:723-727.

[8]Staelens N,Deschrijver D,Vladislavleva E,et al.Constructing a No-Reference H.264/AVC Bitstream-Based Video Quality Metric Using GeneticProgramming-Based Symbolic Regression[J].IEEE Transactions on Circuits&Systems for Video Technology,2013,23(8):1322-1333.

[9]You A,Jiang X,Lei X.Quality assessment ofvideos compressed by HEVCbased on video content complexity[C]//IEEE International Conference onComputer and Communications.IEEE,2016:425-429.

[10]Yang F,Wan S.Bitstream-based quality assessment for networkedvideo:a review[J].IEEE Communications Magazine,2012,50(11):203-209.

[11]Takahashi A,Hands D,Barriac V.Standardization activities in theITU for a QoE assessment ofIPTV[J].IEEE Communications Magazine,2008,46(2):78-84.

[12]Yang F,Song J,Wan S,et al.Content-Adaptive Packet-Layer Model forQuality Assessment of Networked Video Services[J].IEEE Journal of SelectedTopics in Signal Processing,2012,6(6):672-683.

[13]Yang F,Wan S,Xie Q,et al.No-Reference Quality Assessment forNetworked Video via Primary Analysis of Bit Stream[J].IEEE Transactions onCircuits&Systems for Video Technology,2010,20(11):1544-1554.

[14]Chikkerur S,Sundaram V,Reisslein M,et al.Objective Video QualityAssessment Methods:A Classification,Review,and Performance Comparison[J].IEEETransactions on Broadcasting,2011,57(2):165-182.

[15]Lin W,Kuo C C J.Perceptual visual quality metrics:A survey[J].Journal of Visual Communication&Image Representation,2011,22(4):297-312.

[16]Yamagishi K,Kawano T,Hayashi T.Hybrid Video-Quality-EstimationModel for IPTV Services[C]//Global Telecommunications Conference,2009.GLOBECOM.IEEE Xplore,2009:1-5.

[17]Ramos P D L C,Vidal F G,Leal R P.Perceived Video QualityEstimation from Spatial and Temporal Information Contents and NetworkPerformance Parameters in IPTV[C]//Fifth International Conference on DigitalTelecommunications.IEEE Computer Society,2010:128-131.

[18]Yang Y,Wen X,Zheng W,et al.A no-reference video quality metric byusing inter-frame encoding characters[C]//International Symposium on WirelessPersonal Multimedia Communications.IEEE,2011:1-5.

[19]Chin M,T,Queluz M P.Bitstream-based quality metric forpacketized transmission of H.264 encoded video[C]//International Conferenceon Systems,Signals and Image Processing.IEEE,2012:312-315.

[20]Watanabe K,Yamagishi K,Okamoto J,et al.Proposal of new QoEassessment approach for quality management of IPTV services[C]//IEEEInternational Conference on Image Processing.IEEE,2008:2060-2063.

[21]Yang F,Wan S,Xie Q,et al.No-Reference Quality Assessment forNetworked Video via Primary Analysis of Bit Stream[J].IEEE Transactions onCircuits&Systems for Video Technology,2010,20(11):1544-1554.

[22]Ries M,Nemethova O,Rupp M.Motion Based Reference-Free QualityEstimation for H.264/AVC Video Streaming[C]//International Symposium onWireless Pervasive Computing.IEEE,2007.

[23]Sugimoto O,Naito S.No reference metric of video coding qualitybased on parametric analysis of video bitstream[C]//IEEE InternationalConference on Image Processing.IEEE,2011:3333-3336.

[24]Watanabe K,Yamagishi K,Okamoto J,et al.Proposal of new QoEassessment approach for quality management of IPTV services[C]//IEEEInternational Conference on Image Processing.IEEE,2008:2060-2063.

[25]Li Y,Po L M,Feng L,et al.No-reference image quality assessmentwith deep convolutional neural networks[C]//IEEE International Conference onDigital Signal Processing.IEEE,2017:685-689.

[26]Vega M T,Mocanu D C,Famaey J,et al.Deep Learning for QualityAssessment in Live Video Streaming[J].IEEE Signal Processing Letters,2017,PP(99):1-1.

[27]Eden A.No-Reference Image Quality Analysis for Compressed VideoSequences[J].IEEE Transactions on Broadcasting,2008,54(3):691-697.

[28]Rimac-Drlje S,Zagar D,Martinovic G.Spatial Masking and PerceivedVideo Quality in Multimedia Applications[C]//International Conference onSystems,Signals and Image Processing.IEEE,2009:1-4.

[29]Davis A G,Bayart D,Hands D S.Hybrid no-reference video qualityprediction[C]//IEEE International Symposium on Broadband Multimedia Systemsand Broadcasting.IEEE,2009:1-6.

[30]Ou Y F,Ma Z,Liu T,et al.Perceptual Quality Assessment ofVideoConsidering Both Frame Rate and Quantization Artifacts[J].IEEE Transactionson Circuits&Systems for Video Technology,2011,21(3):286-298.

[31]Chen Z,Liao N,Gu X,et al.Hybrid Distortion Ranking TunedBitstream-Layer Video Quality Assessment[J].IEEE Transactions on Circuits&Systems for Video Technology,2016,26(6):1029-1043.

Claims

1.基于内容的比特流层视频质量评价模型，其特征在于：该模型的实施包括以下步骤：

S1.感知质量与量化参数

由于H.264是基于块的DCT压缩方法，块失真是最主要的编码失真，在H.264/AVC编码标准中有52个量化步长Q^step值，通过量化参数QP索引，每隔6个QP，Q^step就增长一倍；

Q^step＝2^(Qp-4)/6 (1)

Q^step是由QP决定的，因此，QP是反映编码失真的关键参数，选取四组标准测试视频序列，用恒定QP进行编码；通过改变QP值，获得对应的MOS分数值；该关系可以被描述为一个倒S的曲线，在QP较小时MOS下降不大，之后MOS快速下降，而最后趋于平滑且取值接近；不同的视频形状各不相同；四组标准测试视频序列分别为足球，电影，工头，母女；即Football,Mobile,Foreman,mother_daugher；

具有更高纹理丰富度即空间信息和运动剧烈度即时间信息的视频，Football,Mobile在相同QP条件下，具有相对较高的感知质量；相应地，Mother_daugher的运动剧烈度和纹理丰富度较低，在相同QP条件下感知质量较低；而Foreman具有中等的时间和空间复杂度，以及中等的感知分数；这种差异符合HVS的掩蔽效应，视频内容在影响感知质量中扮演重要角色；将视频内容特征的影响加入到视频质量评价中去；充分利用视频内容的两个主要特征因素：空间复杂度和时间复杂度；

S2.空间复杂度

H.264编解码主要分为5个部分：帧内和帧间预测Estimation，变换Transform和反变换，量化Quantization和反量化，环路滤波LoopFilter，熵编码；

H.264采用了更多有效的帧内与帧间预测模式，对于帧内预测编码，H.264提供了9种模式的4×4预测模式，适用于带有大量细节的图像编码，以及4种16×16预测模式，适用于平坦区域的图像编码；对于帧间预测编码，H.264支持7种宏块分割模式，分别是16×16、16×8、8×8、8×4、4×8和4×4，每个分割块或者子宏块都有独立的运动补偿，大的分割尺寸对应平坦区域，小尺寸对应细节较多的区域；因此，小尺寸的预测模式可以反映纹理细节较多的区域；

为此，定义帧间8×8、8×4、4×8、4×4以及帧内4×4为小尺寸预测模式SPM(SmallPrediction Mode)；所以小尺寸预测块的个数总和记为SPM_total，所有预测块的个数总和记为Prdmode_total；则小尺寸预测块占所有预测块总数的比例SPM_Ratio，就能说明视频序列包含的细节丰富程度；其值越大，证明视频纹理越丰富，即空间复杂度越高，感知质量越高，反之则越小；

4×4块数据经过预测、变换、量化后的数据表现出如下特性：非零系数主要集中在低频部分，包括了图像的大部分内容；而高频系数大部分是零；因此，DCT系数很大程度上反映了视频纹理丰富度；

为此，定义了I帧中平均每个4×4块包含的非零数比例，用来表示纹理的丰富程度；

其中，Coeff_Token是所有4×4块非零个数的总和，Inum是I帧的数目，BLKnum是每帧4×4块数目，16是归一化的系数，即非零数最大值；AVE_Coef越大，则说明视频序列所对应的纹理丰富度越高，感知质量越高，反之则越低；

S3.时间复杂度

在H.264编码标准从功能上分为视频编码层VCL和网络提取层NAL，其中对VCL数据传输或存储之前，先被映射或封装进NAL单元中，H.264比特率由一系列NALU单元构成，每个NALU包括一个对应于视频编码数据的NAL头信息和原始字节序列载荷RBSP；NAL头信息指示当前NAL的优先级，并指明当前NALU中的RBSP的数据类型；RBSP是NALU的数据部分的封装格式，可以是序列参数集SPS、图像参数集PPS或者一个编码片数据；编码片又可以分为片头和编码片数据，片头指明第一个宏块的地址，片类型，片所引用的序号以及片的解码顺序等等；编码片数据包含一系列编码宏块及跳过编码数据，每个MB又包含头单元和残差数据；MB的头单元包括宏块类型、预测模式、残差编码方案；

其中，宏块层数据中的帧内预测模式表明当前宏块的预测模式，残差系数包含了预测残差能量，而运动矢量残差则包含了视频运动信息；运动矢量残差采用有符号指数哥伦布码进行编码；运动矢量残差v到带编码code_mum的映射关系如下：

code_num指数哥伦布码的码字由三部分组成，表示为[M zeros][1][INFO]，其中M个零称为前缀，对应的INFO是一个M位的信息后缀；指数哥伦布码字是一种具有规则结构的变长码，编码实现简单，不需要浪费空间存储映射码表，每个码字code_num的M和INFO值通过公式(5)、(6)计算得到：

M＝floor(log₂[code_num+1]) (5)

INFO＝code_num+1-2^M (6)

因此，运动矢量残差的幅值与码字前缀的M值以及后缀的INFO值均有关系，而运动矢量残差的符号只由后缀INFO的最后一位比特决定；定义运动矢量的信息后缀平均长度为Ave_Mvlen，通过公式(7)计算得到；

其中Infolen_tot是信息后缀长度的总和，Infonum是运动矢量的总个数，6是归一化系数，即信息后缀长度最大值；Ave_Mvlen的值越大，表明视频序列时间复杂度越高，反之亦然；

S4.模型建立

在得到QP、时间复杂度、空间复杂度与视频感知质量的影响关系之后，本发明最终给出了客观质量分数的计算公式；

其中，η、ω、是经验参数，QP是每个视频序列的量化参数平均值；然而，视频感知质量很大程度上取决于视频内容，因此上式对于具有不同时间和空间复杂度的视频具有不同的结果；

使用最小二乘法进行拟合，一旦η、ω的最佳拟合值被确定，公式(8)中的可以重新训练以获得与视频复杂度的关系；由于与视频复杂度是正相关的关系，因此在简洁而不失准确性的情况下，表示为：

其中，α、β、γ、μ是通过最小二乘法训练获得；但是，如果应用于其它视频数据库，则它们的取值需要调整；

到此为止，所提出的基于内容的比特流层视频质量评价模型完全可用于评估H.264/AVC编码失真的视频；除量化参数外，视频的时间和空间复杂度都在所提模型中被考虑到，以获得更精准的结果。