CN102084660B

CN102084660B - 视频质量测量

Info

Publication number: CN102084660B
Application number: CN2009801262371A
Authority: CN
Inventors: 安德鲁·戈登·戴维斯
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 2008-07-07
Filing date: 2009-04-23
Publication date: 2012-12-05
Anticipated expiration: 2029-04-23
Also published as: EP2144449A1; CA2726276A1; US20110102601A1; US9578321B2; JP2011527544A; CA2726276C; KR20110039214A; WO2010004238A1; EP2294829B1; CN102084660A; EP2294829A1; KR101558636B1; JP5384628B2

Abstract

本发明涉及视频质量测量方法，尤其所述视频信号具有：原始形式；编码形式，在编码形式中已经使用压缩算法对视频信号进行了编码，该压缩算法利用可变量化器步长使得编码后的信号包括量化器步长参数；以及解码形式，在解码形式中编码后的视频信号已经至少部分地被再转换成原始形式。该方法包括下列步骤：a)生成作为所述量化器步长参数的函数的第一质量测度；b)生成掩蔽测度；以及c)混合所述第一和第二测度。所述掩蔽测度是由解码形式的视频信号所表示的帧的一些部分的空间复杂度的函数，通过生成作为预测残差的函数的第二测度以及识别图像中第二测度超过阈值的一个或更多个区域来选择这些部分。

Description

视频质量测量

技术领域

本发明涉及视频质量测度，尤其是在已经使用压缩算法进行编码的视频信号的情况下。

背景技术

当要从一个位置向另一个位置传输视频信号时，已知使用编码算法来编码或压缩信号，使得可以使用比未编码情况下将需要的带宽更低的带宽来传输编码后的信号。一旦接收到该信号，就对该编码后的信号进行解码以取回原始信号。在很多编码技术中，执行二维余弦变换，产生大小被量化的一系列变换系数。所以可以有效地分配带宽，允许改变量化间隔尺寸，即，步长。

编码和解码视频序列的过程可能引入失真或以其他方式降低信号质量。测量失真横向的一种方法涉及记录观看者对于失真视频序列中可觉察失真的横向的意见，并且对结果进行求平均，以获得平均意见分数(MOS：Mean Opinion Score)。但是，这可能是耗时的过程。因此，可以期望的是，预测观看者会在视频序列中觉察到的质量损失。尽管通过参照原始序列可以获得由于编码/解码和传输过程而引起的视频质量的下降，但是这样的方法常常是不方便的。

在预测编码中，可以传输实际信号和预测信号之间的差，该差被称为“预测残差”(prediction residual)。更通常地，传输其量化后的版本。

根据我们共同未决的国际专利申请WO2007/066066，提供了一种生成代表多个帧的视频信号的质量测度的方法，该视频信号具有：原始形式；编码形式，在编码形式中使用压缩算法已经对视频信号进行编码，该压缩算法利用可变量化器步长使得编码后的信号具有相关联的量化器步长参数；以及解码形式，在解码形式中编码后的视频信号已经至少部分地被再转换成原始形式，该方法包括以下步骤：a)生成作为所述量化器步长参数的函数的第一质量测度；b)生成第二质量测度，该第二质量测度是由解码形式的视频信号所表示的帧的至少一部分的空间复杂度的函数；以及c)组合第一测度和第二测度。

在预测编码中，可以传输实际信号与预测信号之间的差，该差被称为“预测残差”。更通常地，传输其量化后的版本。

发明内容

根据本发明，提供了一种生成表示多个帧的视频信号的质量测度的方法，该视频信号具有：原始形式；编码形式，在编码形式中已经使用压缩算法对视频信号进行了编码，该压缩算法利用可变量化器步长使得编码后的信号具有与该可变量化器步长相关联的量化器步长参数，并且利用差分编码使得编码后的信号含有信号的预测残差的表示；以及解码形式，在解码形式中编码后的视频信号已经至少部分地被再转换成原始形式，该方法包括以下步骤：

a)生成根据预定关系取决于所述量化器步长参数的第一质量测度；

b)生成掩蔽测度，该掩蔽测度根据预定关系取决于由所述解码形式的所述视频信号所表示的帧的至少一部分的所述空间复杂度；以及

c)生成混合测度，该混合测度根据预定关系取决于所述第一测度和所述掩蔽测度；

其中，所述方法还包括：

生成根据预定关系取决于所述信号的预测残差的第二测度；

识别所述图像中所述第二测度超过阈值的一个或更多个区域；

并且其中所述掩蔽测度根据预定关系取决于识别出的区域的所述空间复杂度。

在权利要求书中指明了本发明的其他方面。

附图说明

现在将参照附图以示例的方式进一步描述本发明的一些实施方式，其中：

图1是以功能术语示出了用于估计视频序列的质量的装置的框图；

图1a示出了如何计算图像中的像素的横向对比度测度；

图1b示出了如何计算图1a的图像中的像素纵向对比度测度；以及

图2至图11是示出了图1的系统的测试结果的图。

具体实施方式

下面描述的实施方式涉及基于解码器的无参考的视频质量评价工具。用于该工具的算法可以在视频解码器内部工作，使用各解码后的宏块的量化器步长参数(通常是输入的编码后的视频流中所包括的变量)和来自各解码后图像的像素强度值，以估计解码后视频的主观质量。对各帧的解码像素执行滑动窗口平均像素强度差(像素对比度测度)计算，并且所得到的平均值(CWS)用作视频的噪声掩蔽特征的测度。然后，使质量估计作为步长参数的平均值和CWS参数二者的函数。函数通过对之前获得的关于序列的主观分数以及特征解码序列的训练数据库的多个回归分析来预先确定。使用一方面步长并且另一方面估计复杂度的滑动窗口平均像素强度差测度的组合，提供了良好的主观质量估计。

原则上，所使用的测量过程通常可以应用到已经使用利用变换编码并且具有可变量化器步长的压缩技术编码的视频信号。但是，要描述的版本被设计为与根据H.262和H.264标准编码的信号一起使用。(尽管其也应用到其他基于DCT的标准编解码器，如H.261、H.263、MPEG-2(基于帧)等。)

测量方法是非侵入式或“无参考”式，即，其不需要使用原始信号的副本。该方法被设计为在适合的解码器中使用，由于其要求使用来自编码后的比特流和解码后的视频图像二者的参数。

作为第一步，应当解释的是，用于训练和测试技术的视频数据库由十八个不同的8-秒序列构成，所有序列都具有625-行广播格式。六个序列来自VQEG阶段I的数据库【7】，而剩余的源自其他地方。由于质量参数基于各序列的持续时间期间的平均值，因此重要的是，选择具有运动和细节的一致特征的内容。表1中示出序列的细节。

表1 训练和测试序列

编码

所有训练和测试序列使用具有针对各个序列设置的相同编码器选项的H.262编码器来编码。以速率控制失效和量化参数QP固定的方式使用I、P、B、P、B、P的帧模式。然后增大用于各源文件的测试之间的量化器步长参数。

使用用于训练和测试组的12个主体执行正式的单刺激主观测试。使用5级ACR评定标度获得主观分数。在表2(训练组)和表3(测试组)中示出平均后的平均意见分数结果MMOS。

表2 训练序列的主观分数

表3 测试序列的主观分数

在图1中所示的装置中，在输入端1接收输入信号，并且输入信号传到针对各图像进行解码并输出下述参数的视频解码器：

解码图像(D)

以像素为单位的横向解码图像尺寸(X)

以像素为单位的纵向解码图像尺寸(Y)

以宏块为单位的横向解码图像(M_x)

以宏块为单位的纵向解码图像尺寸(M_y)

量化器步长参数组(Q)

DCT系数(R)。

在装置中存在两个分析路径，它们用于计算图像平均的量化器步长信号AvQstep(n)(单元3)和图像平均的对比度测度CWS(单元4)。然后，单元5对信号AvQstep(n)和CW(n)进行时间平均，以分别给出信号AvQstep和CWS。最后，在单元6中组合这些信号，以给出用于解码视频序列D的主观质量的估计PMOS。元件3至6可以由单个硬件元件实现，但更方便的实现是使用适当编程的处理器来执行所有这些阶段。

图像-平均Q

适合于H.264的第一版本使用从解码器输出的量化器步长信号Q。Q包含用于当前解码图像的各宏块的一个量化器步长参数值QP。对于H.264，量化器参数QP限定了用于编码变换系数的线性量化器的间距QSTEP。实际上，QP为预定间距的表建立了索引，其中对于QP每增大6，QSTEP的大小加倍。根据下式在单元3中计算图像平均的量化器参数QPF：

QPF = (1 / M_{X} * M_{Y}) Σ_{i = 0}^{M_{X} - 1} Σ_{j = 0}^{M_{Y} - 1} Q (i, j) - - - (0)

其中，Mx和My分别是图像中横向宏块数和纵向宏块数，并且Q(i，j)是在位置(i，j)处用于宏块的量化器步长参数。

H.262中的量化过程稍不服从以上针对H.264主要类型(Main profile)定义的分析。因此，一些修改已经是必须的。在H.262中，在帧内(intra)DC系数和所有其他变换系数之间的量化过程是不同的。为了简单，量化效应的分析将仅限制于AC变换系数。

对于AC变换系数，通过量化器比例因子QP和加权矩阵qWeight的组合，来确定编码过程引入的量化噪声量。因子QP对于宏块中所有DCT系数的量化是恒定的，但是可以在宏块之间不同地变化(即，从之前宏块的因子小变化+/-)。矩阵qWeight为8×8DCT矩阵的各元素提供用户限定的加权因子，并且通常在编码器初始化时进行设置。由于矩阵仅在序列级进行设置，因此对于各宏块，矩阵是相同的。

对于帧n内的宏块k，被量化到级号lev的DCT系数元素j将根据(1)被解码成系数qDCT：

qDCT＝((2*lev)+c)*qWeight(j)*QP(n，k)/32 n∈N k∈K(n) (1)

其中N代表视频序列中的帧的集合，并且K(n)代表帧n内要分析的宏块的集合。变量c是如【2】中所限定的、具有{-1，0，+1}中的一个值的符号偏移(sign offset)。

用于元素j的实际量化步长Qstep可以通过下式计算：

Qstep(n，k，j)＝QP(n，k)*qWeight(j)/16 n∈N k∈K(n) (2)

通过索引QPi，将比例因子QP设置成预定值的固定集合中的一个。按照标准限定了值的两个集合，提供如表4中所示的线性或非线性间隔参数的选择。

表4 MPEG-2量化器的比例阵列

加权后的量化参数wQstep可以被限定为反映各宏块的加权矩阵的影响。

wQstep (n, k) = \frac{1}{16} QP (n, k) * f (qWeight)

n∈N k∈K(n) (3)

在(3)中，f()是加权矩阵qWeight的函数，并且可以根据(4)来限定：

f () = \frac{1}{Jtot} \underset{j &Element; J}{Σ} qWeight (j) - - - (4)

在(4)中，J限定了要执行平均的变换系数的集合，并且Jtot等于在该集合中的元素个数。

对加权矩阵qWeight的影响的深入考虑在该调查范围之外，但是测试了集合J的两个不同定义：

J1＝{3个最高频率AC系数(不管它们是有效的还是无效的)}

J2＝{所有有效(非零)AC系数}

对于帧n，平均步长测度AvQstep(n)可以根据(5)来计算：

AvQstep (n) = \frac{1}{Ktot} \underset{k &Element; K (n)}{Σ} wQstep (n, k), n &Element; N - - - (5)

K(n)限定了帧n中要执行分析的宏块的集合。通常地，这将是除了边缘区域之外的整个图像---即，剪修后的图像，以避免由于存在本身已经被剪修的视频而引起的边界效应。图像的中心对于视觉注意通常是最重要的。

可以根据(6)计算平均量化器步长的序列平均测度：

AvQstep = \frac{1}{Ntot} \underset{n &Element; N}{Σ} AvQstep (n) - - - (6)

对于各测试，加权矩阵是固定的并且根据QPi值从6、8、10、12、14、16、18、20、22、24、26和32中来设置QP值。根据(6)使用(4)中集合J1为各测试确定AvQstep。图2示出了9个训练序列中的各个序列的AvQstep与测量出的平均意见分数MMOS，并且图3示出了9个测试序列中的各个序列的AvQstep与测量的平均意见分数MMOS。对每秒25帧的8秒持续时间的序列进行序列平均-即，在式6中N＝200。

图2和图3示出了AvQstep是主观分数MMOS的好的基础预测器，并且存在按照内容类型的很一致的曲线分离。对于训练组，AvQstep和MMOS之间的相关度被计算为0.89，而对于测试为0.91(参见表4)。

注意的是，对于H.264，量化器加权矩阵(类似于H.262的原则)可以在“高端类型(High Profile)”中限定。加权矩阵可以在序列或图像级被限定为“平的(flat)”、“默认非平的”或“用户定义的”，并且应用到4×4帧内、4×4帧间、8×8帧内和8×8帧间变换(8×8变换仅可在高端类型中获得)。与对其所建议的对于H.262的类似方法还可以用于H.262高端类型。

计算对比度测度

失真掩蔽是影响感知编码后的视频序列内的失真的重要因素。由于人类感知机能无法区别相同谱、时间或空间位置内的信号和噪声成分而出现了这样的掩蔽。这样的考虑在设计视频编码器中是很重要的，其中比特的有效分配是必要的。在变换和像素域【8，9，10】中已经进行了本领域中的研究，但是对于CS，仅考虑了像素域。

图1a和图1b示出了如何为横向方向X个像素和纵向方向Y个像素大小的图像内在位置(x，y)处的像素(x，y)计算对比度测度。

图2中示出了计算横向对比度测度的分析。这里，关于由阴影区域所示的像素p(x，y)计算对比度测度。选择相同大小的相邻区域(其中一个区域包括阴影像素)。各区域由来自阴影像素所位于的行的一组(优选地连续的)像素组成。对各区域中的像素强度进行平均化，然后根据下面的式(2)计算平均值的绝对差，对比度测度是该差的值。如图3所示，以类似方式计算纵向对比度测度。这里，选择上像素组和下像素组。各个所选像素位于相同列，阴影像素在上组和下组之间的边界附近。对上组和下组中像素的强度进行平均化，然后估算各组的平均强度的差，该差的绝对值是下面式(3)中所示的纵向对比度测度，即在纵向方向的对比度的测度。在该示例中，在下组中包括阴影像素。但是，如果与对比度测度相关联的像素的位置在所比较的像素组所共享的边界附近，则与对比度测度相关联的像素的位置是任意的。

因此，为了获得横向对比度测度，比较长度为H1和H2的行部分，而为了获得纵向对比度测度，比较长度为V1和V2的列部分(长度H1、H2和V1、V2可以相同但不必须相同)。对比度测度与这样的像素相关联，即，该像素的位置在一方面行部分和另一方面列部分的公共边界的本地。

然后比较这样计算出的横向对比度测度和纵向对比度测度，并且两个值中的较大值(如式(4)中所示的横向-纵向测度)与阴影像素相关联，并且存储在内存中。

针对图像中的各像素(在与图像的纵向和横向边缘分别相距纵向距离V1、V2和横向距离H1、H2内)重复该过程，从而提供利用H1、H2、V1或V2的窗口尺寸对像素的滑动窗口分析。然后对图像(帧)中各像素的横向-纵向测度进行平均化，接着在多个图像上进行各图像相关联的该整体测度的平均化，以获得序列平均测度。在其上对整体测度进行平均化的图像数量将取决于视频序列的性质，和场景变化之间的时间，并且可以长达几秒。仅一部分图像需要以这种方式进行分析，如下面将更详细地描述的。

通过测量图像中不同位置的对比度并且平均化，来获得图像的复杂度的简单测度。因为图像中的复杂度可以掩蔽失真，从而使观察者相信图像对于给定失真具有更好质量，图像中复杂度的程度可以部分用于预测观看者将与视频信号相关联的质量的主观程度。

阴影像素周围的各个区域的宽度或高度与观察者将注意到复杂度时的细节级别有关。因此，如果从远处观看图像，则将选择这些以比设想观看者将更接近图像的情况更大。由于距离图像的、观看者感到舒服的距离通常取决于图像的尺寸，因此该尺寸还将取决于像素尺寸和像素维数(更大的显示器通常具有更大的像素而不是更多的像素，尽管对于给定像素强度，显示器尺寸还可以是一个因素)。通常地，期望的是，H1、H2和V1、V2各个将在各自图像维数的0.5％和2％之间。例如，横向值可以是4*100/720＝0.56％，其中横向存在720个像素，并且用于平均化的各组包含4个像素，并且在纵向方向上，4*100/576＝0.69％，其中在纵向方向上存在576个像素。

更详细地，根据下式计算像素差对比度测度C_h和C_v

C_{h} (n, x, y) = abs (((1 / H 1) Σ_{j = 0}^{H 1 - 1} d (n, x - j, y)) - ((1 / H 2) Σ_{j = 0}^{H 2 - 1} d (n, x + 1 + j, y)))

x＝H1-1..X-H2-1

y＝0..Y-1 (7)

其中，d(n，x，y)是来自X横向(x＝0..X-1)和Y纵向(y＝0..Y-1)像素的维数的解码后序列d的N的第n个帧内的像素强度值(0..255)。

C_{v} (n, x, y) = abs (((1 / V 1) Σ_{j = 0}^{V 1 - 1} d (n, x, y - j)) - ((1 / V 2) Σ_{j = 0}^{V 2 - 1} d (n, x, y + 1 + j)))

x＝0..X-1

y＝V1-1..Y-V2-1 (8)

其中，H1和H2是用于横向像素分析的窗口长度，而V1和V2是用于纵向像素分析的窗口长度。

然后，可以组合C_h和C_v以给出横向-纵向测度C_hv，

C_hv(n，x，y)＝max(C_h(n，x，y)，C_v(n，x，y))

x＝H1-1..X-H2-1

y＝V1-1..Y-V2-1 (9)

在我们早期专利申请中，然后C_hv用于根据下式计算帧的整体像素差测度CF：

CF (n) = (1 / (X + 1 - H 1 - H 2) (Y + 1 - V 1 - V 2)) Σ_{y = V 1 - 1}^{Y - V 2 - 1} Σ_{x = H 1 - 1}^{X - H 2 - 1} C_{hv} (n, x, y) - - - (10)

并且进而计算序列平均测度CS：

CS = (1 / N) Σ_{n = 0}^{N - 1} CF (n) - - - (11)

使用H1＝4、H2＝1以及V1＝2，V2＝1计算各个解码后的训练序列的序列平均测度CS，并且在图4中示出根据AvQstep绘制的结果。

来自我们早期专利申请的结果表明测度CS与序列的噪声掩蔽特征有关。高CS表示高掩蔽，从而表示给定量化器步长的MMOS更高。无参考质量估计中的CS测度的可能应用通过下面描述的多次回归分析中包含该CS测度来测试。

序列平均对比度测度CS利用横向和纵向像素差测度的整体图像平均CF。这样的测度可能不适合包含很好编码的平坦区域的大区域的图像，因为这样的区域将可能具有小的视觉影响，但是严重影响了CF的大小，进而影响CS的大小。针对“竖琴”测试序列(图5)可以找到该影响的示例，对于质量其接近一流(图2)，但是对于掩蔽其是中流水平(图4)。为了更好地处理这样的内容，区域重要性的测度用于将分析集中在图像中运动和细节的程度更高的部分上。

通常混合视频编码算法(诸如，H.262、H.263和H.264)包括用于预测像素块、对得到的差块进行变换、对变换后的系数进行量化以及对这些量化后的符号进行熵编码的功能。以小于10Mbit/s的比特率对广播格式视频序列进行编码将通常产生大量被量化为零的变换系数。大比例的非零量化系数将往往表示很难预测并且具有高细节度的区域。因为这些区域往往吸引视觉注意并且经受了更大的量化效应，所以它们潜在地用于区域分析。

很方便基于关于在这些编码器中所找到的规则宏块结构的区域分析。对于帧数n，可以根据下式计算宏块k的DCT活动性的测度Act1：

Actl (n, k) = \underset{m &Element; M (n, k)}{Σ} TCount (m), n &Element; N k &Element; K (n) - - - (12)

TCount(m)代表宏块m内非零量化变换系数的个数的计数和。

M(n，k)限定了以宏块k中心、要执行加和的宏块的集合，

K(n)代表在帧n中要考虑的宏块的集合。

N限定了在要考虑的序列中的帧的集合。

可以通过根据M的形状和尺寸限制用于M的中心值的集合K(n)或通过在初始交叠分析之后对Act1()进行适当过滤，得到M的未交叠区域的结果。这里，第二种方法是有利的，同时根据下述步骤对Act1进行过滤。

1.将用于图像n的研究MB的临时集合KMAX初始化为KMAX＝K(n)；

2.如果对于所有的k∈KMAX，Act1(n，k)＝0，则前进到7；

3.对于k∈KMAX，找到k_max＝k使得Act1(n，k)是最大值；

4.针对(m∈M(n，k_max)∩(m≠k_max))，设置Act1(n，m)＝0；

5.从集合KMAX去除元素k_max；

6.返回到2；

7.结束。

(12)应用于“竖琴”序列的MPEG2编码，同时M(n，k)限定了以宏块k为中心的3×3区域的宏块，并且K限定了覆盖图像的剪修区域的宏块。如上所述应用对Act1的非交叠过滤。

图6示出了产生的活动性图的示例。图6示出了运动(手)以及高细节区域中的最高活动性和不可预测性(枝形吊灯和部分衬衫)。然后，对于帧n，可以通过根据(13)将阈值应用于活动性阵列Act1来限定最大活动性区域K1(n)。

K1(n)＝{k1：Act1(n，k1)＞Thresh1(n) ∧ k1∈K(n)} n∈N (13)

-表示更大集合K1(n)中满足条件Act1(n，k1)＞Thresh1(n)的所有k1的集合。

Thresh1可以根据(14)被限定为图像内的最大活动性的函数。

Thresh 1 (n) = \frac{Thresh 1 PerCent}{100.0} * \max_{k &Element; K (n)} (Act 1 (n, k)), n &Element; N - - - (14)

图7示出了将50％的活动性阈值应用到来自图6的图的效果。为了显示目的，通过重复在3×3宏块分析区域上Act1的相关值来显示活动性的区域。

所示的区域可以被认为是量化效应将最大的区域的估计。可以通过比较这些区域的掩蔽特性和剩余图像的掩蔽特性，来进行这些区域的重要性的估计。

如果K1表示一起取得的、最大活动性的一个区域或多个区域，则通过首先根据(15)计算平均对比度函数来估计K1的掩蔽特性：

C 1 (n) = \frac{1}{K 1 tot (n)} \underset{k 1 &Element; K 1 (n)}{Σ} C 0 (k 1), n &Element; N - - - (15)

其中，K1tot(n)等于集合K1(n)中的元素的个数，并且C0(k1)是由M(n，k1)覆盖的像素区域的对比度测度。

因此，C0(k1)被限定为根据式(7)-(9)在由k1所代表的宏块上进行加和的像素对比度测度C_hv：然后

C 0 (k 1) = \underset{x, y &Element; k 1}{Σ} Σ C_{hv} (n, x, y), k 1 &Element; K 1 (n) - - - (16)

其中，x，y是各自像素k1的像素坐标。

初始分析区域K(n)之内但是不包括在最大活动性区域K1(n)中的图像区域也是重要的。该区域可以被限定为K2(n)，该K2(n)的元素k2满足(17)。

K2(n)＝{k2：k2∈K(n) ∧

k 2 &NotElement; K 1 (n)}

(17)

同时，假设区域K2比区域K1具有更少的可见失真，则其对比度特性可以对预测整体失真具有重要影响。区域K2可以具有已经很好地预测从而不包括在区域K1中的高对比度区域。但是，这样的区域可以引起视觉注意并且提供K1中一般的失真掩蔽。通过根据(18)使用阈值C0Thresh(n)来限定集合K3(n)，K2内对比度特性可与K1中的对比度特性比较的图像区域包括在剪修图像K的分析中。

K3(n)＝{k3：C0(k3)＞C0Thresh(n) ∧ k3∈K2(n)} n∈N (18)

C0Thresh(n)＝C1(n) (19)

发现等于最大活动性区域K1上的对比度测度的平均值的C0Thresh的阈值适用于所测试的序列。可以根据(20)组合高活动性区域K1和具有低活动性但显著对比度的区域K3，来制作区域K4。

K4＝{k4：k4∈(K1∪K3)} (20)

根据式(15)至(20)对“竖琴”序列执行对比度分析，并且图8中示出单个域(single field)的区域K4的结果。

现在，可以根据(21)限定各帧的加权对比度测度CW：

CW (n) = \frac{1}{K 4 tot (n)} \underset{k &Element; K 4 (n)}{Σ} C 0 (k), n &Element; N - - - (21)

K4tot(n)等于帧n的集合K4的元素个数。进而，根据(22)可以计算序列平均区域性加权对比度测度CWS：

CWS = \frac{1}{Ntot} \underset{n &Element; N}{Σ} CW (n) - - - (22)

针对使用的各个解码训练序列计算序列平均测度CWS，并且图9示出根据平均量化器步长绘制的结果。

图9中的CWS结果示出了与图4中对应CS结果的令人鼓舞的不同。具有类似的低运动和平背景特性的两个序列“竖琴”和“景色”按照CWS排列已移动到最高，而不是按照CS被排列在中上。这显示出了与图2中的MMOS等级的极好的一致。类似地，序列“巴塞罗那”从CS最高等级移动到CWS中间等级，这与图2中的其MMOS中间等级更接近一致。

参数平均化(这里针对量化器步长)应当在MOS估计所要求的时间间隔N上执行。这可以是产生单对AvQstep和CWS参数的单个分析周期，或者可以是产生参数序列的间隔序列。通过使分析窗口在时间上“滑动”通过时间序列可以实现连续分析，通常窗口间隔的长度在秒的量级。

以上讨论的活动性测度Act1是通常根据变换系数所计算的预测残差的函数的测度的示例。非零系数的计数是有效的，但是也可以使用还取决于系数大小的测度，诸如总能量，或者计数和能量二者的组合。

估计MOS

模型设计

量化器步长的序列平均测度AvsQstep和加权对比度CWS(或者可替换地像素对比度CS)用于做出对应的主观测量到的平均意见分数MMOS的估计PMOS。根据(23)由参数的组合计算出PMOS：

PMOS＝F₁(AvQstep)+F₂(CWS)+K₀ (23)

F₁和F₂是AvQstep和CWS中合适的线性或非线性函数。K₀是常数。

PMOS是在1..5的范围之内，其中5等同于优秀质量而1等同于差质量。F₁、F₂和K₀可以通过如在很多商用统计软件包中可得的合适回归分析(例如，线性的、多项式或对数的)来确定。这样的分析要求已知主观质量的一组训练序列。然后，可以通过回归分析得到由F₁、F₂和K₀所限定的模型，其中MMOS作为因变量，而AvQstep和CWS作为自变量。产生的模型将通常用于预测测试序列的质量，该测试序列已经经受类似于训练中使用的那些序列的降级(编解码器类型和压缩率)。但是，视频内容可以是不同的。

对于这里提出的MPEG-2编码的全分辨率广播序列，发现合适的非线性模型为：

PMOS＝-0.013*AvQstep-1.749*log10(AvQstep)+0.29*CWS+5.122 (24)

然后，得到的估计值将根据下式来限制：

如果(PMOS＞5)则PMOS＝5

如果(PMOS＜1)则PMOS＝1 (25)

应当在MOS估计要求的时间间隔上执行参数平均化。这可以是产生单对AvQstep和CWS参数的单个分析周期，如在模型的校准中；或者可以是产生参数序列的间隔序列。通过使分析窗口在时间上“滑动”通过AvQstep和CWS时间顺序可以实现连续分析，窗口间隔的长度通常在秒的量级。

结果

首先，使用如在很多商用统计软件包中可得的标准线性和多项式/对数回归分析，通过AvQstep(自变量)来做出用于训练组的MMOS(因变量)的模型。然后，所得到的模型用于测试序列。接着，使用CS和CWS作为附加自变量重复上述。对于各模型，所估计的和测量到的平均意见分数(PMOS和MMOS)的相关度和RMS残差示出在表5中。

表5 MMOS和PMOS之间的相关度和RMS残差

结果表明在基于AvQstep的MOS估计模型中包括序列平均、区域性加权的对比度测度CWS显著地提高了针对训练数据组和测试数据组的性能。分别在图10和图11中以散布图的形式示出了针对AvQP/CS和AvQP/CWS的单个训练和测试结果。

可以设想上述方法中的多个变型。例如，如上所述，针对远离边界区域(不包括该边界区域以避免边界效应)的整个图像区域执行质量测量。但是，如果期望，评价可以被限制在图像、区域的更小部分。这可以使用识别图像之内感兴趣的区域的已知“视觉注意”算法来选择。在另一种方法中，测度AvQstep的计算可以限制在区域K1(或K4)。

在图像包含不使用预测而编码的宏块的情况下，我们在实践中发现以所述方式处理这些块未明显地影响整体结果。但是，如果这变成问题，则可以把这样的宏块完全从过程中去除。

结论

现有的工作【1】已经表明根据视频解码器中实现的双参数模型可以实现主观视频质量的良好预测。这里，示出了可以通过使用新的区域性加权的对比度测度CWS来改善使用基于量化器步长和平均对比度的测度的现有技术。

首先，使用非零量化变换系数的计数，来限定最大活动性的区域K1以识别图像的最重要区域。大比例的非零量化系数将往往表示难以预测并且具有高细节度的区域。由于这些区域往往吸引视觉注意并且经受更高的量化效应，因此它们潜在地用于区域分析。

然后，最大活动性的区域K1用于确定用于评价整体图像的掩蔽特性的对比度阈值C0Thresh。同时，假设图像中不在区域K1中的部分具有低的可视失真，它们的对比度特性可以对感知整体失真具有重要作用。已经很好地预测从而不包括在区域K1中的高对比度区域可以吸引视觉注意并且提供K1中的普通失真掩蔽。图像中对比度特性在阈值C0Thresh之上的所有区域都包括在区域性加权的对比度分析中，以给出测度CWS。该技术得益于考虑到了高活动性低对比度区域和低活动性高对比度区域二者，这二者在质量的感知中很重要。

给出了针对18个不同的内容剪辑的结果，这些结果已经以700Kbps高达18Mbps的比特率进行了MPEG-2编码，并且示出了CWS测度，以提供在原始模型之上的重要性能增益。

参考文献

【1】A.G.Davis，″No-reference Video Quality Prediction For a H.264 Decoder″，待发表。

【2】ISO/IEC 13818-2和ITU-T Rec.H.262：Information technology-Genericcoding of moving pictures and associated audio information：Video，http://www.itu.int/rec/T-REC-H.262/en。

【3】Final report from the Video Quality Experts Group on the Validation ofObjective Models of Video Quality Assessment，Phase 2，www.vqeg.org。

【4】ITU-T，J.144，″Objective perceptual video quality measurement techniquesfor digital cable television in the presence of a full reference″。

【5】ITU-T，J.143，″User Requirements for Objective Perceptual Video QualityMeasurements in Digital Cable Television″。

【6】ISO/IEC 14496-10和ITU-T Rec.H.264，Advanced Video Coding，2003.

【7】VQEGI sequence database，address：ftp://ftp.crc.ca/crc/vqeg/TestSequences/ALL 625/

【8】W.Osberger，S.Hammond及N.Bergmann，″An MPEG EncoderIncorporating Perceptually Based Quantisation，″IEEE TENCON-Speech andImage Technologies for Computing and Telecommunications，pp.731-733，1997.

【9】Atul Puri及R.Aravind，″Motion-Compensated Video Coding with AdaptivePerceptual Quantization，″IEEE Transactions On Circuits and Systems for VideoTechnology，Vol.1，No.4，pp 351-361，Dec.1991.

【10】Bo Tao，Bradley W.Dickinson及Heidi A.Peterson，″AdaptiveModel-Driven Bit Allocation for MPEG Video Coding，″IEEE Transactions onCircuits and Systems for Video Technology，Vol.10，No.1，pp 147-157，Feb.2000.

Claims

1.一种生成表示多个帧的视频信号的质量测度的方法，所述视频信号具有：原始形式；编码形式，在该编码形式中已经使用压缩算法对所述视频信号进行了编码，该压缩算法利用可变量化器步长使得编码后的信号具有与该可变量化器步长相关联的量化器步长参数，并且利用了差分编码使得编码后的信号含有所述视频信号的预测残差的表示；以及解码形式，在该解码形式中编码后的视频信号已经至少部分地被再转换成所述原始形式，所述方法包括以下步骤：

a）生成第一质量测度，该第一质量测度根据预定关系而取决于所述量化器步长参数；

b）生成掩蔽测度，该掩蔽测度根据预定关系而取决于由所述解码形式的所述视频信号所表示的帧的至少一部分的空间复杂度；以及

c）生成混合测度，该混合测度根据预定关系而取决于所述第一质量测度和所述掩蔽测度；

其中所述方法还包括以下步骤：

生成第二测度，该第二测度根据预定关系而取决于所述视频信号的所述预测残差；

识别图像中所述第二测度超过阈值的一个或更多个区域；

并且其中所述掩蔽测度根据预定关系而取决于识别出的区域的所述空间复杂度。

2.根据权利要求1所述的方法，其中，所述预测残差的表示是像素域预测残差的二维变换的系数，并且根据所述系数来计算所述第二测度。

3.根据权利要求2所述的方法，其中，所述变换是离散余弦变换。

4.根据权利要求2或权利要求3所述的方法，其中，所述第二测度是非零变换系数的个数的计数。

5.根据权利要求2或权利要求3所述的方法，其中，所述第二测度取决于所述变换系数的大小。

6.根据权利要求5所述的方法，其中，所述第二测度是解码后系数的能量和的函数。

7.根据权利要求1所述的方法，其中，所述掩蔽测度是以下各项的所述空间复杂度的函数：

（a）所述图像中所述第二测度超过阈值的、识别出的区域；以及

（b）所述图像中的所述第二测度未超过所述阈值但是所述空间复杂度超过了第二阈值的一个区域或多个区域。

8.根据权利要求7所述的方法，其中，所述第二阈值动态地改变，所述第二阈值是针对所述识别出的区域所计算的空间复杂度的函数。

9.根据权利要求8所述的方法，其中，所述第二阈值等于针对所述识别出的区域所计算的空间复杂度的平均值。

10.根据权利要求1所述的方法，其中，仅根据所述图像中得出所述掩蔽测度的所述识别出的区域，来得出所述第一质量测度。

11.根据权利要求1所述的方法，其中，通过确定帧中多个位置处的局部对比度测度，来测量所述空间复杂度。

12.根据权利要求11所述的方法，其中，各帧包括多个像素，并且其中对于给定帧的至少一些像素，对像素附近的相邻区域执行比较功能，以获得关于该像素的比较值。

13.根据权利要求1所述的方法，其中，在多个帧上对所述第二测度进行平均化。