CN101578875A

CN101578875A - 利用迭代重新编码的视频信号编码

Info

Publication number: CN101578875A
Application number: CNA2008800017804A
Authority: CN
Inventors: 安德鲁·戈登·戴维斯; 达米安·罗杰·勒内·巴亚尔; 大卫·斯内登·汉兹
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 2007-01-04
Filing date: 2008-01-03
Publication date: 2009-11-11
Also published as: JP2010515392A; KR20090110323A; EP2123047A2; WO2008081185A3; WO2008081185A2; US20100061446A1

Abstract

一种用于对视频信号进行编码的方法和系统，其提供了压缩的编码信号，从而可以通过通信链路有效地发送所述信号，同时当对该信号进行解码并显示时，该信号在其估计出的感知质量方面还满足预定的标准。这是通过在编码端设置控制单元(24)和控制逻辑(34)而实现的，控制单元(24)利用感知质量指标(PQM)系统(32)来量化估计出的感知质量，控制逻辑(34)将量化后的PQM与信号在发送前必需满足的用户定义的准则进行比较。优选的是，只有在满足所述准则的情况下，才通过通信链路向前发送所述信号。否则，所述控制单元(24)可操作地例如使用预滤波对信号进行修正，或使用修正后的编码参数对信号进行重新编码，从而提高信号质量，即，使得量化后的PQM向该准则收敛。在所得到的PQM满足该准则并得以发送之前，可能要求对该编码－修正－编码过程进行多次迭代。可以限制迭代的次数，在这种情况下，修正后的编码应至少在感知质量方面得到改善。

Description

利用迭代重新编码的视频信号编码

技术领域

本发明涉及对代表多个帧的视频信号进行编码的方法和系统，更具体地涉及用于对视频信号进行编码并导出编码信号的质量测度的方法和系统。

背景技术

对数字视频信号进行编码从而能够在通信链路上有效率地发送是公知的。例如，使用诸如像素块预测(prediction of block of pixel)、离散余弦变换(DCT)、量化、行程编码(run-length encoding)以及利用了统计冗余和心理物理冗余的其它压缩技术，可以对源数据进行编码以降低需要发送的数据量。公知的视频编码算法/标准包括MPEG-2以及H.264/MPEG-4AVC，而且应该理解的是，存在其它的已知标准。在通信链路的解码端，提供了对编码的视频进行解码或解压缩的软件，从而可以将视频输出到显示装置。

尽管在降低要在数据链路上发送的数据量方面是有用的，但是利用量化过程(非无噪声编码)对视频信号进行压缩的过程将引入失真并因此降低了视频的质量。很多编码算法试图利用人类视觉系统(HVS)的限制，使得观看者所感知的失真尽可能小。测量失真的一种方法涉及记录观看者对解码的视频序列中可感知的失真程度的意见并对结果求平均以获得平均意见分数(MOS，mean opinion score)。然而，这种人工处理不仅耗时，还需要受过训练的人员对视频表示的对象样本恰当地进行评价以提供有意义的数据。因此，已经提供了对感知质量进行估计的所谓感知质量指标(PQM)工具的软件工具。在通信链路的解码器端提供了这种PQM工具。在申请人的国际专利申请第GB2006/004155号中，对示例性的PQM工具进行了详细的说明。

在例如互联网协议电视(IPTV)的商用视频系统中，感知质量是一个重要的问题。信道的性质要求在编码器端对数据进行压缩。然而，由于IPTV服务提供商的客户在视频质量方面对服务有一定程度期望，因此服务提供商非常渴望确保所发送的视频在大部分发送时间(如果不是全部的话)可满足客户期望。

发明内容

在一方面，本发明提供了一种对代表多个帧的视频信号进行编码的方法，该方法包括以下步骤：(a)使用利用了至少一个编码参数的压缩算法对所述视频信号或部分所述视频信号进行编码；(b)使用感知质量指标来生成经编码信号的质量测度并且识别所述质量测度是否满足预定的质量准则；(c)如果所述质量测度不满足所述预定的质量准则，则使用所述至少一个编码参数的修正值或所述视频信号的修正版本来迭代地执行步骤(a)至步骤(c)，所述修正使得所述质量准则与更新后的质量测度之间的差减小。

根据本发明的第一方面，提供了一种对代表了多个帧的视频信号进行编码的方法，该方法包括以下步骤：(a)使用利用了至少一个编码参数的压缩算法对所述视频信号或部分所述视频信号进行编码；(b)使用感知质量指标来生成经编码信号的质量测度并且识别所述质量测度是否满足预定的质量准则；(c)如果所述质量测度不满足所述预定的质量准则，则使用所述至少一个编码参数的修正值或所述视频信号的修正版本来迭代地执行步骤(a)至步骤(c)，直到如此生成的质量测度满足所述预定的质量准则。

这样理解感知质量指标，即，感知质量指标是被设置成客观地估计或预测所感知到的视频质量(即，正如由人类观看者所感知到的视频质量那样)的指标或模型。这意味着，所得到的质量测度可自动地并一致地应用于视频数据。

该方法提供了在与视频信号相关联的质量测度不满足预定的质量准则的情况下对该视频信号的迭代的重新编码，所述重新编码采用了至少一个编码参数的修正值或所述视频信号的修正版本。以这种方式，采用了一种反馈布置(feedback arrangement)来确保经编码信号满足某种形式的质量要求。这种方法可以为希望保证对客户的最低服务水平的视频内容服务提供商提供特别的优势(例如，在诸如IPTV的商用应用中)。应该理解的是，一旦识别出所述质量测度满足所述预定的质量准则，则不再需要执行步骤(c)。

优选地在通信链路的解码器端来执行该方法，并且该方法还可进一步包括以下步骤：仅当所述质量测度满足所述预定的质量准则时才通过通信链路向视频解码器发送经编码信号。

在步骤(c)中对所述编码参数值或所述视频信号应用的修正量可以是在步骤(b)中生成的所述质量测度的值的函数。

可以针对第一信号部分与第二信号部分来执行该方法，其中仅当针对所述第一信号部分的所述质量测度满足所述预定的质量准则时才对所述第二信号部分进行编码。

所述质量测度优选地是使用预定算法生成的数值，并且其中，如果所述质量测度的值在预定范围的值内，则所述质量测度满足所述预定的质量准则。可将所述预定范围限定在第一边界值与第二边界值之间，并且其中，所应用的修正导致所述质量测度值的变化，从而在该次或各次随后的迭代中，所述质量测度值向其中一个边界值收敛。

所述经编码信号可代表多个能够分别识别出的帧的组(GOF，groupof frame)，其中，能够得出关于各GOF的质量测度，并且其中，在步骤(c)中，针对不满足所述预定的质量准则的各GOF而应用所述至少一个编码参数的修正值或应用所述视频信号的修正版本。

该方法可进一步包括以下步骤：提供多个修正类型，各修正类型定义了将在步骤(c)中应用的另选的修正方法；以及根据一个或更多个选择规则来选择所述类型中的一个。例如，如果预定数量的连续GOF不满足所述预定的质量准则，则选择第一修正类型，所述第一类型被设置为当应用所述第一类型时，对与所述GOF相对应的所述视频信号的经过滤波的版本进行重新编码。所述滤波步骤可包括以下步骤：减少对所述GOF的各帧进行编码所要求的比特数。如果在包括了预定数量GOF的段内仅有一些GOF不满足所述预定的质量准则，则可选择第二修正类型，所述第二类型被设置为当应用所述第二类型时使用经修正的编码参数对与不满足所述预定的质量准则的各GOF相对应的视频信号进行重新编码。

可针对各单独的帧而生成另一质量测度，并且其中，在一帧的所述另一质量测度不满足所述预定的质量准则的情况下，对所述帧进行帧间分析以确定所述帧的哪部分要求进行修正。

上面提及的所述至少一个编码参数可包括量化步长大小(quantization step size)，在这种情况下，步骤(c)包括以下步骤：应用量化器步长大小的修正值。另选地或者附加地，所述至少一个编码参数可包括编码比特率，在这种情况下，步骤(c)包括以下步骤：应用所述编码比特率的修正值。

根据本发明的第二方面，提供了一种对代表多个帧的视频信号进行编码的方法，该方法包括以下步骤：(a)使用利用了至少一个编码参数的压缩算法对所述视频信号或部分所述视频信号进行编码；(b)生成所述编码信号的数值形式的质量测度并且识别所述数值是否满足预定的质量准则，所述质量准则由具有上界和下界的数值范围限定；(c)如果所述的质量测度不满足所述预定的质量准则，则修正所述至少一个编码参数并迭代地重复步骤(a)至步骤(c)，直到如此生成的所述值落入所述值的范围内。

根据本发明的第三方面，提供了一种对代表多个帧的视频信号进行编码的方法，该方法包括以下步骤：(a)使用利用了至少一个编码参数的压缩算法对所述视频信号或部分所述视频信号进行编码；(b)使用感知质量指标来生成经编码信号的质量测度并且识别所述质量测度是否满足预定的质量准则；(c)如果所述质量测度不满足所述预定的质量准则，则选择多个修正类型中的一个，并且根据所选择的修正类型，使用所述至少一个编码参数的修正值或所述视频信号的修正版本来重复步骤(a)至步骤(c)，直到如此生成的质量测度满足所述预定的质量准则，其中，如果所述视频信号的包括预定数量帧的段不满足所述预定的质量准则，则选择第一修正类型，所述第一类型被设置为当应用所述第一类型时，对所述视频段的滤波后的版本进行进行重新编码，并且其中，如果所述视频信号的包括预定数量帧的段中仅帧的子集或帧的组不满足所述预定的质量准则，则选择第二修正类型，所述第二类型被设置为当应用所述第二类型时，使用经修正的编码参数对与不满足所述预定的质量准则的各帧或帧的组相对应的所述视频信号进行重新编码。

根据本发明的第四方面，提供了一种对代表多个帧的视频信号进行编码的方法，该方法包括以下步骤：(a)使用利用了至少一个编码参数的压缩算法对所述视频信号或部分所述视频信号进行编码，所述经编码信号代表多个能够分别识别出的帧的组(GOF)；(b)对于包括多个GOF的视频段，使用感知质量指标来生成各GOF的质量测度；(c)对所述视频段中质量测度低于预定质量等级的一个或更多个GOF进行识别，并且修正针对低于预定质量等级的该GOF或低于预定质量等级的各GOF而使用的所述至少一个编码参数，从而使得在重新编码时所述质量测度将满足或接近所述预定质量等级；(d)对同一视频段中质量测度高于预定质量等级的一个或更多个GOF进行识别，并且修正针对高于预定质量等级的该GOF或高于预定质量等级的各GOF而使用的所述至少一个编码参数，从而使得在重新编码时所述质量测度满足或接近所述预定质量等级；以及(e)使用在步骤(c)和(d)中修正的所述编码参数对所述视频段进行重新编码。

还可以提供一种用于承载处理器代码的载体介质，当所述处理器代码在处理器上执行时，使所述处理器实现上述方法。

根据本发明的第五方面，提供了一种视频编码系统，该系统包括：视频编码器，该视频编码器被设置成使用利用了至少一个编码参数的压缩算法对代表多个帧的视频信号进行编码；控制器，该控制器用于从所述视频编码器接收经编码信号，并被设置成生成所述经编码信号的质量测度，从而识别所述质量测度是否满足预定的质量准则，并且，如果所述质量测度不满足所述预定的质量准则，则使得所述视频编码器使用所述至少一个编码参数的修正值或使用所述视频信号的修正版本迭代地对所述视频信号进行重新编码，直到如此生成的质量测度满足所述预定的质量准则。

所述控制器可设置成仅当所述质量测度满足所述预定质量准则时才通过通信链路向视频解码器发送经编码信号。所述控制器可以被设置成，在使用中，应用于所述编码参数值或所述视频信号的修正量是所述质量测度的值的函数。所述系统可进一步包括用于从所述视频解码器接收并存储预定数量经编码帧的缓存器，所述缓存器被设置成响应于来自所述控制器并表示针对先前发送的帧的集合而生成的质量测度满足所述预定质量准则的控制信号，向所述控制器发送所述经编码帧。在所述控制器处生成的所述质量测度可以是使用预定算法生成的数值，并且其中，如果所述质量测度的值在预定范围的值内，则所述质量测度满足所述预定的质量准则。可将所述预定范围限定在第一边界值与第二边界值之间，而在所述控制器处应用的修正可导致所述质量测度值的变化，从而在该次或各次随后的迭代中，所述质量测度值向其中一个边界值收敛。所述编码器所生成的经编码信号可代表多个能够分别识别出的帧的组(GOF)，并且其中，所述控制器被设置成生成关于各GOF的质量测度，并且针对不满足所述预定的质量准则的各GOF而应用所述至少一个编码参数的修正值或应用所述视频信号的修正版本。所述控制器可提供多个修正类型，各修正类型限定了将在步骤(c)中应用的另选的修正方法，并且所述控制器被设置成根据一个或更多个选择规则来选择所述类型中的一个。所述控制器可被设置成，在使用中，如果预定数量的连续GOF不满足所述预定的质量准则，则选择第一修正类型，所述第一类型可设置成，当所述控制器应用所述第一类型时，对与所述GOF相对应的所述视频信号的经过滤波的版本进行重新编码。所述滤波可以包括以下步骤：减少对所述GOF的各帧进行编码所要求的比特数。所述控制器可被设置成，在使用中，如果在包括预定数量GOF的段内仅有一些GOF不满足所述预定的质量准则，则选择第二修正类型，所述第二类型被设置成，当所述控制器应用所述第二类型时，使用修正的编码参数对与不满足所述预定的质量准则的各GOF相对应的视频信号进行重新编码。所述控制器可被设置成生成关于各单独的帧的另一质量测度，其中，在一帧的所述另一质量测度不满足所述预定的质量准则的情况下，对所述帧进行帧间分析以确定要求对所述帧的哪部分进行修正。所述至少一个编码参数可包括量化步长大小，步骤(c)包括以下步骤：应用量化器步长大小的修正值。另选地或者附加地，所述至少一个编码参数可包括编码比特率，步骤(c)包括以下步骤：应用所述编码比特率的修正值。

附图说明

现在，将通过示例并参照附图来描述本发明，在附图中：

图1是其中在内容服务提供商端可以使用根据本发明的编码系统的商用视频系统的框图；

图2是根据本发明的通用视频编码系统；

图3示出了另选的感知质量测量尺度，该尺度可用于以数值形式指示编码视频的质量测度；

图4是根据本发明的一个优选实施方式的H.264视频编码系统的框图；

图5、图6和图7是示出了针对三种不同质量情况而获得的多个帧的示例性感知质量测度的曲线图；

图8是示出了适用于在优选实施方式中对视频序列的质量进行估计的感知质量测量设备的功能性框图；

图9例示了在图8的设备中如何计算图像中像素的水平对比度测度；

图10例示了在图8的设备中如何计算图9的图像中像素的垂直对比度测度；

图11示出了针对训练序列的AvPSNR与测得的MOS；

图12示出了针对训练序列的AvQP与测得的MOS；

图13示出了针对训练序列的CS与测得的MOS；以及

图14示出了针对AvQP/CS模型的测得的MOS与估计出的MOS。

具体实施方式

现在将详细地说明用于对视频信号进行编码的方法和系统，该方法和系统的目的是在通信链路的编码端提供压缩的编码信号，从而可以将该信号通过链路高效地发送，同时在对该信号进行解码并显示时，该信号在其估计出的感知质量方面还满足预定的标准。这是通过在编码端设置利用感知质量指标(PQM)系统对估计出的感知质量进行量化的控制单元、以及将所述量化的PQM与信号在发送前必须满足的用户定义的准则进行比较的控制逻辑而实现的。只有在满足该准则的情况下，才通过通信链路向前发送信号。否则，控制系统可操作地对信号进行修正(例如，使用预滤波)，或使用修正的编码参数对信号进行重新编码，从而提高信号质量使得量化后的PQM收敛至该准则。在所获得的PQM满足该准则并得以发送之前，可能需要对这种编码-修正-编码过程进行多次迭代。有利的是，一旦用户设定了用于编码的初始参数以及该准则，系统就能够自动工作，从而视频内容的提供商更能确信观看者将在对提供商所要求的交互最少的情况下解码并收看到满足最低服务水平或满足改善的服务水平的内容。

参照图1，示出了可有利地采用这种编码系统的一种商用系统的示例。这里，内容服务提供商10以数字形式向多个客户发送视频内容，这些客户使用他们各自的机顶盒(STB)12接收并解码数字信号以输出至电视机(TV)14。可以用多种方式来发送该内容，例如，使用陆地广播天线16通过无线链路来发送，或通过利用铜缆或光缆的诸如IP链路18的“有线”连接来发送。后一种方法正在变得越来越流行，并且一般地被称为IPTV。卫星广播是另一种选择。确实，一些服务提供商实现了这些通信方法的组合，例如，通过无线链路来广播免费(free-to-air)内容，同时使用IPTV链路来提供视频点播(VOD)服务。不管使用哪种方法，都要求服务提供商10按如下方式对视频信号进行编码，即对源数字信号进行压缩使得可以通过服务提供商与客户STB 12之间的有限带宽链路高效地发送。有时将这种处理称为信源编码(source encoding)，并且已知多种编码算法或编码标准。下面的描述将假定使用H.264/MPEG-4AVC标准，应该理解的是，可以使用其它任意的视频编码标准。在每个STB 12处，设置了解码器以根据在编码器处使用的标准对接收到的信号进行解码。

参照图2，其示出了采用上述质量控制功能的通用编码系统的框图。向编码器22提供源视频20，编码器22被设置成根据所选择的编码标准来工作。源视频20代表了呈数字形式的包括帧序列的视频内容，各帧包括n×m个图像单元(picture element)或像素(pixel)。编码器22根据多个由用户定义的参数(具体地说是编码比特率)来工作，并且还可选地根据编码类型(profile)而工作。关于后者，特定的编码标准定义了提供预定的压缩程度的具体编码类型。除了比特率以及编码类型以外，用户还规定了质量阈值，质量阈值定义了与可接受感知质量等级相对应的质量值的范围。用户还可以设定最优的目标质量。尽管根据所示，质量阈值与目标质量被提供给编码器22，但是质量阈值与目标质量还可以直接地提供给下一级，即控制单元24。

控制单元24被设置成接收编码视频数据以及上述的质量阈值与目标质量。在控制单元24内有PQM系统32，取决于服务提供商的要求，PQM系统32生成随后可用于指示单个帧的感知质量的一个数值或可用于指示几组帧的感知质量的几个数值。在下面所给出的具体示例中，我们生成了被称为平均意见分数(MOS)的测度，从现在起，我们把该测度作为质量参数。PQM系统32能够生成的MOS值的范围是预定的，并且ITU-R推荐标准提供了多个标准化的系统。图3a示出了五分制，其中值“一”表示感知质量等级很差，而“五”表示质量很好。图3b示出了百分制的一个另选方案，其中“零”表示最低质量而“一百”表示最高质量。PQM系统32可包括任意已知的PQM系统，例如，全参考(full reference)系统、无参考(no reference)系统或简化参考(reduced reference)系统。假设读者了解这些不同的种类以及它们的一般工作原理。在完全无参考PQM系统的情况下，仅所要求对原始的编码比特流进行访问。在全参考PQM系统的情况下，需要源视频的副本，因此在图2中存在虚线。简化参考(reduced reference)的PQM系统需要与源内容相关的信息中的一些而非全部。在接下来的详细说明中，我们描述了对混合比特流/解码器无参考PQM系统32的使用，该系统要求内容的比特流和内容的解码版本以生成不同的质量信息。因此，PQM系统32将包括解码器，在这个特定示例中是H.264解码器。

PQM系统可生成的信息的种类包括下面的参数的非穷尽列表：

-每场(field)/帧平均意见分数MOS_Fn

-视频单元/图像组平均意见分数MOS_GOP

-质量的瞬时变化(MOS_Fn-MOS_Fn-1)

-视频单元的平均意见分数变化(MOS_GOP(k)-MOS_GOP(k-1))

-空间复杂度

-空间掩蔽(spatial masking)

-时间复杂度

-量化器步长大小(每场/帧)

-比特率

-片(slice)结构

-宏块大小与组成

-运动矢量值

在控制单元24内还提供了控制逻辑34，该控制逻辑34被设置成接收由PQM系统32生成的这个参数或每个参数(在下面的详细示例中，使用了单个MOS值)以确定所指示的质量测度是否落入了由用户输入的阈值和目标值所定义的质量值的范围内。如果该质量测度落入了该范围，则控制逻辑34判定该视频“合格(pass)”，然后或是存储该视频以备随后的发送，或是立即发送该视频。否则，控制逻辑34判定该视频“不合格(fail)”，并且不发送或存储该视频。而是，使用编码前预滤波的视频数据和/或使用修正的编码参数(通常是量化器步长大小(QSS)的修正值或编码比特率)来对视频数据(即，与不合格的帧或帧的组相对应的源视频数据)再次进行编码。对于是进行预滤波还是修正编码参数的选择基于作为控制单元的一部分的控制逻辑34所提供的预定的修正规则。这些规则是这样定义的，即，在下一次编码迭代中，质量测度将至少更加接近于由阈值定义的可接受质量范围。另外，所应用的修正种类和/或修正量取决于PQM系统32生成的一个或更多个参数，将在下面做出解释。图2示出了单独的模块28向源视频提供控制信号以指出需要重新编码的帧或帧的组以及针对编码器22的更新后的参数集。在实践中，这可以形成控制单元24的组成部分。

如前所述，在质量测度落入该范围内并且合格的视频被存储和/或向前发送之前，可能要求进行多次重新编码迭代。在特定的对时间要求苛刻的应用中，可以将迭代的次数限制为预定的次数，在迭代了该次数后，发送视频数据。

现在将对通用编码系统的工作过程进行说明。

初始地，源视频20被递交给编码器。操作员设定了相关的编码参数，例如，QSS、编码比特率、编码类型、以及质量阈值。之后将编码的输出传递给控制单元24的PQM系统32。取决于PQM系统的种类，编码的视频可能要求进行解码(例如在PQM系统32使用了全参考或混合比特流/解码器方法的情况下)。获得各帧的感知质量测量值，该测量值提供了先前列出的一个或更多个参数。测量方法可输出质量的瞬时测度和局部测度，例如，MOSi、MOS_GOP。下一阶段涉及针对质量阈值所定义的范围对该质量测度或多个质量测度进行测试。尽管在下面我们所描述的实施方式中，生成并测试了单个质量测度，但是该测试可以使用任何一个质量参数或多个质量参数的组合。由于考虑到应容许偶尔下降到低于MOSi阈值，因此可以认为MOS_GOP测度是最重要的。另外，为了在操作优选的或所要求的比特率限制的同时与目标质量一致地对质量进行调节，建议对不合格内容的决策将多GOP考虑在内。

落入质量阈值内的视频内容被判定是合格的并进行存储或发送。使用内容的预滤波版本和/或使用修正的编码参数对在控制逻辑的质量阈值测试中被判定为不合格的内容进行重新编码。尽管我们描述了使用阈值来定义可接受质量范围，但应该理解的是，仅使用下界阈值(落在该阈值之上均被判定为通过了该质量测试)，系统将正确地工作。然而，在我们详述的实施中，既设定了上界阈值又设定了下界阈值，而且在特定情况下，对落在上界(即，高质量)阈值之外的数据进行重新编码可能是有利的。

在控制系统的控制逻辑确定了要求修正的编码参数的情况下，根据预定的规则生成这些修正的编码参数并发送回编码器。该过程可迭代地进行编码、测量、重新编码等，直到视频质量是可接受的，或达到了预定的最大迭代计数。可以为全部编码参数(例如，QSS、编码类型、编码比特率等)或这些编码参数的子集提供新的值。在一个非常简单的例子中，例如通过对各次迭代将比特率修正特定百分比值或参照查找表(LUT)来修正比特率，可对编码比特率进行编码。通过预先由PQM系统32对大的内容数据库进行处理，可以定义该LUT。之后，利用与视频属性(例如，具有不同的空间或时间复杂度)和编码器参数值(例如量化图(quantisation map))一起生成的MOS值来创建LUT。一旦已在控制单元24的PQM系统32中对内容进行了测量，则将不合格内容的特性与质量阈值一起映射至LUT，并且，由LUT生成新的参数或参数集并将新的参数或参数集传递到编码器22。

执行空间错误映射的感知模型(由PQM系统使用)可使用感知质量信息来定位图像的特别容易出错的部分以改善其质量。例如，在定义新的编码器参数集时，满足质量准则的帧将不生成新的值，而不合格的帧将具有新的参数集。类似地，在空间域中，不向图像处在质量范围内的部分提供新的编码值，但是图像的未通过质量测试的区域可被指派新的参数。在比特率是主要的限制的情况下，该方法通过对许多GOP(例如，与相关的接收器缓存器的大小相等的GOP的集合)进行空时质量检查而工作，从而(a)例如通过增大QSS来降低高于质量上界或处于最高质量上界的帧或部分帧的质量，和/或(b)例如通过减小QSS来提高低于质量下界或处在质量下界的帧或部分帧的质量。

作为对编码参数进行修正的另选方法，控制逻辑34可确定，改变实际的源视频20是恰当的(即，通过预滤波)。通过识别编码视频的问题部分，可以使用质量测量值来定位将给编码器22造成压力的源视频的段或区域。例如，在将源视频20的特定部分识别为具有高速运动(highmotion)或精细的细节，并且在PQM系统32处展示了很差质量的情况下，可以应用特定的预滤波。为了在下一次迭代时改善数据的质量，控制单元24可向预滤波器发送指令从而例如通过降低图像分辨率或通过应用空间频率滤波器来修正相应的源内容。

现在将对采用了质量控制单元的一种编码系统的更详细的例子进行说明。

参照图4，编码系统利用H.264编码器42对作为帧序列Fn而提供的源内容40进行编码。H.264编码器42的结构与工作是公知的，因此在这里不对其进行详细说明。通常，第一级44执行包括运动估计和运动补偿的预测编码，从而产生预测片(prediction slice)和数据残差值(dataresidual value)。在随后的级中，例如使用CAVCL或CABAC执行变换编码46、量化48、图像重排50以及熵编码52。将编码的输出数据放置在信令/数据分组中，这里，将信令/数据分组称为网络提取层(NAL，networkabstraction layer)单元54。

编码系统还包括质量控制单元(QCU)56，与在图2中示出并参照图2描述的通用控制单元24相似，质量控制单元56包括PQM系统32和控制逻辑34以对编码数据的估计出的感知质量进行测量、确定该质量是否满足预定的质量准则、并在该质量不满足预定的质量准则的情况下对信号和/或信号的编码进行修正以提高质量。使用预处理滤波器62对信号进行修正。通过对输入到H.264编码器42的量化部件48的一个或更多个参数进行修正来修正编码。如果QCU 56判定编码视频是合格的，则将编码视频发送到视频缓存器60以随后在通信链路/信道上进行发送。

在使用中，操作员设定2Mbit/s的目标编码比特率，并且规定了一个两秒的接收机缓存器。操作员还限定了目标质量并通过规定上界与下界而定义了质量准则。采用图3a中示出的五分制，并且使用如下示例性值，上界＝4.0，下界＝2.8而目标质量＝3.4。将编码-测量-重新编码的迭代次数限制为三次。尽管上下界、目标质量以及迭代限制可直接地馈送到QCU 56，但仍然将所有值输入编码器42。

将编码的NAL单元58发送到QCU 56。其目的是生成具有如下相对一致的质量的视频内容，该质量高于下界并优选地在目标质量附近且没有或有很少不合格GOP或GOP内的帧。

QCU 56使用PQM系统来执行感知质量测量，该PQM系统可以是任何种类的已知PQM系统32。出于例示的目的，我们采用了在我们的共同待决国际专利申请第GB2006/004155号中描述的混合比特流/解码器PQM系统。在本说明书的结尾处给出了这种类型的PQM系统的更多细节。

PQM系统32根据两秒的接收机缓存器来操作视频数据的段。即，在编码器与PQM系统之间提供了两秒的缓存器(未示出)，其中PQM系统被设置成从该缓存器接收GOP并对接收的GOP进行分析。QCU 56与编码器42协同(in tandem)工作，使得直到已经处理了当前GOP时(即，直到它们被判定为合格并被发送时)，才从缓存器将其它的GOP馈送到PQM系统32中。仅这种情况出现时才会接收到新的GOP。对于不合格的内容，编码器42将接收关于量化器48的修正值的指令，或者将等候预滤波之后输入新的源内容。为此，QCU 56被设置成生成以下给编码器42的控制信号中的一个：

控制信号含义

0判定视频合格，对下两秒内容段进行编码

1判定视频不合格，等候新的量化器参数，例如，QSS、比特率

2判定视频不合格，等候新的预滤波后的源输入

在QCU 56中，设置了多个规则，这些规则确定后续如何对不合格的视频进行处理，即，确定要应用何种预滤波(如果有的话)和/或如何修正量化器参数。这些规则涉及识别出不合格的段属于三种质量类型A-C中的哪一种。现在，参照现实生活的情形，与QCU逻辑34响应于对相关类型的识别而采取的对应行动一起来考虑每种类型。为此，我们假定了代表两秒PAL视频并因此包括五十帧的视频数据段。我们假定每个GOP包括十帧。

类型A：段的全部或大部分不合格

在该情形中，整个两秒数据段不满足质量准则。图5以曲线图的形式示出了可能会导致这种情况的输出。存在很少空间来对编码过程进行操作以满足所有GOP的质量要求，因此在这种情况下，我们在重新编码之前对源视频进行预滤波。将控制信号“2”发送到编码器42。通过执行空间频率滤波和时间频率滤波中的一种或两种，预滤波将降低视频的复杂度。或者，可以例如将图像从全分辨率缩减到四分之三或三分之二分辨率。之后将经过滤波的源视频传递到编码器42并将迭代计数递增。

类型B：段的大部分合格而一些不合格

在该情形中，考虑段中的一小部分不合格。图6以曲线图的形式示出了可能导致的输出。该段中GOP5-GOP7的一部分降到下界之下。在这种情况下，命令QCU提取与不合格的GOP有关的信息并生成修改后的编码参数(如QSS)。控制信号“1”被发送到编码器42。此外，确定目标GOP(在此情况下为GOP3、GOP9和GOP10)作为对质量降低的合适候选。在这个方面，应该理解的是，为了提高不合格GOP的质量，降低QSS将造成压缩成本。如果我们能够确定高于目标质量的GOP，则我们能够以可控的方式来降低它们的质量，从而在满足最低质量要求的同时进行补偿。当然，还可以确定第二GOP候选，例如，GOP1、GOP2和GOP8。

QCU56中的控制逻辑34被设置成生成所有GOP1-GOP10的修改后的QSS值。这些修改后的QSS值或者是参考LUT而获得，或者通过在相关的GOP中调整每帧的QSS而获得。例如，在GOP低于下界的情况下，每低于所述下界0.5MOS，就可以将QSS减1。在质量落入该范围内的情况下，只对那些高于质量下界0.5MOS的GOP进行修正，例如，每高出0.5MOS就将QSS加1。注意，这些修正数字是示例性的，并且针对不同的质量范围，可以使用更小或更大的值。对于小的质量范围，应使用MOS的小的变化来调整QSS。下表1示出了与图6中示出的各GOP相关联的示例性QSS变化。这些新的参数值被直接地传递给编码器42的量化器，已经接收到控制信号“1”的编码器对这些GOP进行重新编码。使迭代计数递增，该过程一直继续，直到QCU 56确定内容满足质量要求或满足为3的最大迭代计数。

GOP# MOS_target MOS_lower MOS_upper MOS_GOP QP_change

1 3.4 2.8 4 3.3 1

2 3.4 2.8 4 3.35 1

3 3.4 2.8 4 3.5 2

4 3.4 2.8 4 3.2* -1

5 3.4 2.8 4 2.3 -2

6 3.4 2.8 4 2.3 -2

7 3.4 2.8 4 2.6 -1

8 3.4 2.8 4 3.2 0

9 3.4 2.8 4 3.45 2

10 3.4 2.8 4 3.4 2

表1-示例性测量值以及所得到的量化器参数的变化

值得注意的是，GOP4在构成它的所有帧上其质量上有很大变化。可以采用一种方法解决这个问题，其中，与这些帧的MOS变化一起来检查平均MOS。如果比质量阈值低的帧所占的百分比大于例如30％，则QCU可以仅针对低于阈值的帧来重新计算MOS并且仅将QSS变化应用到这些帧，而保持GOP内高于质量阈值的帧不变(或者，在高于阈值的帧＞0.5MOS的情况下，可以增加这些帧的QSS)。下表2中示出的数字指出了处理可变质量GOP的方法。同样应注意的是，30％的阈值仅是示例性的。

在单个GOP内的所有帧上对QSS进行的不同调整同样可应用于其中所有帧都低于质量阈值的那些GOP。在不合格范围变化很大的情况下，一些帧可能要求例如减少2，而其它帧可能要求大约为1的变化。对于只包含少数不合格帧的GOP(例如，少于30％)，可以忽略这些。

Frame# MOS_target MOS_lower MOS_upper MOS_tramo QP_change

1 3.4 2.8 4 3.4 1

2 3.4 2.8 4 3.3 1

3 3.4 2.8 4 3.2 0

4 3.4 2.8 4 3 0

5 3.4 2.8 4 2.9 0

6 3.4 2.8 4 2.75 -1

7 3.4 2.8 4 2.7 -1

8 3.4 2.8 4 2.65 -1

9 3.4 2.8 4 2.6 -1

10 3.4 2.8 4 2.55 -1

表2-示例性测量值和所得到的针对GOP#4内的各帧的量化器参数的变化

类型C：段的大部分合格，而在下界以下和上界以上具有不合格部分

在图7中以曲线图的形式示出了该情形。一些内容由于低于下界而是不合格的，一些内容由于太好了(即，高于上界)而不合格，剩余的内容落在质量边界之内。如前面那样，QCU 56对每个GOP或可变质量GOP内的帧进行修正，如上所述。然而，在这个例子中，第一次迭代通过提高GOP2、4、9和10的质量同时通过降低GOP5、6和7的质量来对该提高进行补偿，从而对那些处于质量范围之外的GOP(即，GOP2、GOP4、GOP5、GOP6、GOP7、GOP9和GOP10)进行处理。

类型B和类型C旨在处理相似的情形，即，其中段的大部分是合格的而有一部分不合格。这两个示例示出了如何改变QSS以修复视频不合格的部分。在类型B中，其思路是示出如何能够既针对GOP也针对帧来改善视频不合格的部分。GOP示例被限制为其中在GOP上仅存在不合格质量或仅存在目标质量的情形。一些目标质量GOP的QSS增大，这用于补偿不合格GOP的QSS降低，尽管该折衷不一定是平衡的-可能更多地应用的是QSS的降低而非QSS的增大。帧的示例示出了在质量有显著变化(一些为目标质量而一些为不合格质量)的单个GOP中可以如何应用QSS的修正。同样地，可以将QSS中的不平衡折衷用于获得一个GOP内处于质量边界之内的帧的质量。类型C的目的实际上是显示出当一组GOP具有3个等级的质量(即，不合格质量、目标质量和超出目标质量(即，太好的))时，可如何应用QSS(或其它(多个)参数)的修正。我们知道，对于用户体验来说，质量一致是优选的，通过降低“太好的”段并提高“不合格”的段，我们能够在整个GOP上得到可预测性更好且更一致的质量。

对于这里提供的所有示例来说，在操作员有能力发送连续地超出目标比特率的内容的情况下，可以提高比特率以满足质量目标。在这个例子中，将信号发送到编码器42以提高内容的目标比特率。这个方法提供了在感知方面敏感的方法以动态地调整应用于视频信号的比特率。为了使QCU 56可选择新的编码率，可以参考如上所述的查找表。假设，已知QSS是特别有用的质量指示符，其对于本示例中使用的PQM来说是非常重要的，已使用QSS来代替比特率。如在上面类型A中所说明的那样，在质量类型全都不合格的情况下，对比特率进行修正可能更为恰当。然而，由于目标比特率是对编码的主要限制，且操作员通常设定希望满足的目标比特率，因此假设在使用本示例中使用的混合比特流/解码PQM系统32时，预滤波或调整QSS是最好的方法。

结论是，现在描述了一种可在上述的PQM系统32中采用的感知质量处理方法以及系统的示例。应该理解的是，可以采用其它的这种测量方法。

感知质量测量系统

本系统的目的是生成代表多个帧的视频信号的质量测度，该视频信号具有：原始形式；编码形式，其中已经使用利用了可变量化器步长大小的压缩算法对视频信号进行了编码，使得编码信号具有可与其关联的量化器步长大小；以及，解码形式，其中，编码视频信号已经被至少部分地恢复到原始形式，该系统被设置成执行以下步骤：a)生成第一质量测度，该第一质量测度是所述量化器步长大小参数的函数；b)生成第二质量测度，该第二质量测度是由解码形式的视频信号所代表的帧的至少一部分的空间复杂度的函数；以及c)合并第一测度与第二测度。

由于步长大小可从编码视频序列得到，并且复杂度测度是从解码后的信号获得，因此减少了参照原始视频信号的需要。另外，由于在很多编码方案中，步长大小作为参数与视频序列一起发送，因此可以很方便地使用这个参数来预测视频质量而无需重新计算这个参数。重要的是，已经发现，与步长大小或复杂度单独地作为视频质量指示符而可预期的质量测度的可靠性相比，步长大小与复杂度测度相结合使用对质量测度的可靠性的提高更大。

系统概述

下面的实施方式涉及无参考的、基于解码器的视频质量评估工具。该工具的算法可在视频解码器内工作，其使用针对各经解码宏块的量化器步长大小参数(一般是包括在进入的编码视频流中的一个变量)以及来自各经解码图像的像素强度值来估计解码视频的主观质量。对各帧的经解码像素执行滑动窗平均像素强度差(像素对比度测度)计算，并将所得到的平均值(TCF)用作视频的噪声掩蔽特性的测度。之后，根据步长大小参数的平均值与TCF参数加权函数进行质量估计。加权函数是通过对特性解码序列和先前获得的该序列的主观分数二者的训练数据库进行多元回归分析而预先确定的。一方面使用步长大小而另一方面使用滑动窗平均像素强度差测度二者的组合来估计复杂度提供了对主观质量的良好估计。

原则上，所使用的测量过程通常适用于已经使用利用了变换编码并具有可变量化器步长大小的压缩技术进行了编码的视频信号。但是，将要说明的这个版本是供针对根据H.264标准编码的信号使用而设计的。该过程还适用于其它基于DCT的标准编解码器，如H.261、H.263、以及MPEG-2(基于帧的)。

测量方法是非介入式(non-intrusive)或“无参考”型，即，该方法不需要访问原始信号的副本。由于该方法需要对来自经编码比特流与经解码视频图像的参数都进行访问，因此该方法被设计为在合适的解码器内使用。

在图8中示出的设备中，在输入1接收到输入信号并将其传递到视频解码器，该视频解码器进行解码并输出针对各图像的下列参数：

解码图像(D)

以像素为单位的水平解码图像大小(P_x)

以像素为单位的垂直解码图像大小(P_y)

以宏块为单位的水平解码图像大小(M_x)

以宏块为单位的垂直解码图像大小(M_y)

量化器步长大小参数集(Q)

在设备中存在两个分析路线(analysis path)，这两个分析路线用于计算图像平均的量化器步长大小信号QPF(单元3)以及图像平均的对比度测度CF(单元4)。之后单元5对信号QPF和CF进行时间平均以分别给出信号的TQPF和TCF。最终，在单元6中对这些信号进行组合以给出对解码视频序列D的主观质量的估计PMOS。元件3至6可以由单独的硬件元件来实现，但更加方便的实现方式是使用经过恰当编程的处理器来执行所有这些级。

对Q进行图像平均

这使用了从解码器输出的量化器步长大小信号Q。针对当前解码图像的各宏块，Q包含一个量化器步长大小参数值QP。对于H.264来说，量化器参数QP定义了用于对变换系数进行编码的线性量化器的间隔(spacing)QSTEP。实际上，QP对预定间隔表进行索引(index)，在该表中，QP每增加6，QSTEP的大小就增加一倍。根据下式在单元3中计算图像平均的量化器参数QPF

QPF = (1 / M_{X} * M_{Y}) Σ_{i = 0}^{M_{X} - 1} Σ_{j = 0}^{M_{Y} - 1} Q (i, j) - - - (1)

其中Mx与My分别是图像中水平宏块与垂直宏块的数量，而Q(i，j)是在位置(i，j)处的宏块的量化器步长大小参数。

计算对比度测度

图9与图10例示了如何计算在水平方向上大小为Px个像素且在垂直方向上大小为Py个像素的图像中的位置(x，y)处的像素p(x，y)的对比度测度。

在图9中示出了对计算水平对比度测度的分析。这里，对比度测度是针对示为阴影区域的像素p(x，y)而计算的。选择了具有相等大小的邻近区域(其中一个包括带阴影的像素)。各区域都是由来自带阴影的像素所在行的像素的集合(优选地是连续的)形成的。对各区域中的像素强度求平均，之后根据下式(2)计算平均值之差的绝对值，而对比度测度就是该差的值。如图10所示，以相同的方式计算垂直对比度测度。这里，选择一个上部像素集合和一个下部像素集合。所选择的像素中的每一个都位于相同的列，带阴影像素处在上下集合之间的边界旁边。对上下集合中的像素强度求平均，之后求取各集合的平均强度差，该差的绝对值作为在下式(3)中的垂直对比度测度，即，在垂直方向上的对比度测度。在本示例中，带阴影像素包括在下部的集合中。然而，对比度测度所关联的像素的位置是任意的，只要其位于所比较的像素集合所共有的边界附近即可。

因此，为了获得水平对比度测度，对长度为H的行部分进行比较，而为了获得垂直对比度测度，对长度V的列部分进行比较(长度H与长度V可以相同，也可以不同)。对比度测度与这样的像素相关联，即，该像素的位置属于一方面是行部分而另一方面是列部分的共有边界。

之后，将如此计算出的水平对比度测度与垂直对比度测度进行比较，并将两个值中的最大值(称为如式(4)中的水平-垂直测度)与带阴影像素相关联并存储在存储器中。

针对图像中的各像素(在分别距图像的垂直边缘与水平边缘的垂直距离V与水平距离H之内)来重复这个过程，由此提供对像素的滑动窗分析，其中窗的大小是H或V。之后，对图像(帧)中的各像素的水平-垂直测度求平均以给出总像素差测度(参见式(5))。之后，根据式(7)在多个图像上对与各图像相关联的该总测度求平均以获得序列平均测度(即，时间平均测度)TCF。对总(CF)测度求平均的图像数量取决于视频序列的性质、以及场景变化之间的时间，并且长度可以为几秒。显然，这种方式(特别是在量化器步长大小在整个图像上不同的情况下)仅需对部分图像进行分析。

通过在图像中的不同位置处测量对比度并求平均，获得了对图像复杂度的简单测度。由于图像的复杂度会掩蔽失真，并由此造成观看者认为对于给定的失真来说图像具有更好的质量，因此图像复杂度等级能够部分地用于预测观看者将与一个视频信号联系起来的主观质量等级。

与带阴影像素有关的相应区域的宽度(H)或高度(V)涉及观察者在哪个细节层次上注意到复杂度。因此，如果从远处观看图像，可以将H和V选择为使得其大于当观看者更加靠近图像地正视的情况下的H和V。由于一般来说，与图像相距多远时观看者会感觉舒服取决于图像的大小，H和V的大小也将取决于像素的大小和像素尺度(dimension)(较大的显示器一般具有更大的像素而不是更多的像素，尽管对于给定的像素强度来说，显示器大小也可能是一个因素)。通常，希望H和V各自都是相应图像尺度的0.5％到2％之间。例如，水平值可以是4*100/720＝0.56％，其中水平方向有720个像素并且用于求平均的各集合包括4个像素，而在垂直方向上，4*100/576＝0.69％，其中在垂直方向上有576个像素。

可以参照下式来如下描述计算对比度测度的分析：该计算使用经解码视频图像D，并针对各图像而确定图像平均的复杂度测度CF。通过首先对经解码的视频图像执行滑动窗像素分析而确定CF。在例示了对大小为P_X个水平像素和P_y个垂直像素的图像内的像素p(x，y)进行水平分析的图9中，根据下式计算经解码序列D的第n个图像的水平对比度测度C_h：

C_{h} (n, x, y) = (1 / H) (abs ((Σ_{j = 0}^{H - 1} D (n, x - j, y)) - (Σ_{j = 0}^{H - 1} D (n, x + 1 + j, y))))

x＝H-1...P_X-H-1 (2)

y＝0...P_Y-1

H是用于水平像素分析的窗长度。C_h(n，x，y)是经解码序列D的第n个图像的像素p(x，y)的水平对比度参数。D(n，x，y)是经解码序列D的第n个图像的像素p(x，y)的强度。

在例示了对应的垂直像素分析的图10中，由下式来计算垂直对比度测度C_v：

C_{v} (n, x, y) = (1 / Y) (abs ((Σ_{j = 0}^{V - 1} D (n, x, y - j)) - (Σ_{j = 0}^{V - 1} D (n, x, y + 1 + j))))

x＝0...P_X-1 (3)

y＝V-1...P_Y-V-1

这里，V是垂直像素分析的窗长度。

之后，对C_h和C_v进行合并以给出水平-垂直测度C_hv，其中，

C_hv(n，x，y)＝max(C_h(n，x，y)，C_v(n，x，y)) (4)

x＝H-1..P_X-H-1

y＝V-1..P_Y-V-1

在这里应该注意的是，对于一些应用来说，更可取的是使水平分量与垂直分量保持分离，从而使得可以在估计主观质量(单元6)时对水平分量与垂直分量分别应用不同的加权参数。

最终，根据下式

CF (n) = (1 / (P_{X} + 1 - 2 H) (P_{Y} + 1 - 2 V)) Σ_{y = V - 1}^{P_{Y} - V - 1} Σ_{x = H - 1}^{P_{X} - H - 1} C (n, x, y) - - - (5)

由对比度值C_h、C_v和/或C_hv计算总的图像平均像素差测度CF。

时间平均

时间平均使用图像平均参数QPF和CF，并且根据下式

TQPF = (1 / N) Σ_{n = 0}^{N - 1} QPF (n) - - - (6)

TCF = (1 / N) Σ_{n = 0}^{N - 1} CF (n) - - - (7)

来确定相应的时间平均参数TQPF和TCF。

应当在MOS估计所要求的时间间隔上执行参数平均。这可以是生成单一一对TQPF和TCF参数的单分析周期或者可以是生成了参数序列的间隔序列。通过在CF和QPF时间序列上“滑动”时间分析窗(通常是以长度为秒量级的窗间隔)，可以实现连续分析。

估计MOS

MOS估计使用时间平均参数TQPF与TCF来估计针对经解码序列D的相应时间间隔而主观地测得的平均意见分数PMOS。PQPF用于估计经解码序列中存在的噪声，而TCF用于估计视频序列的内容对噪声的掩蔽程度。根据下式由这些参数的组合来计算PMOS。

PMOS＝F₁(TPQF)+F₂(TCF)+K₀ (8)

F₁和F₂是AvQp和CS中的适当的线性函数或非线性函数。K₀是常数。PMOS是预测出的平均意见分数并且处在1...5的范围内，其中5相当于很好的质量而1相当于很差的质量。通过在很多商用统计软件包中提供的适当的回归分析(例如，线性的、多项式的或对数的)，可以确定F₁、F₂和K₀。这种分析要求具有已知主观质量的训练序列集。之后，通过MOS作为因变量而TQPF与TCF作为自变量的回归分析，可以推导出由F₁、F₂和K₀定义的模型。所得到的模型通常将用于预测已经受到与训练序列中所使用的退化(degradation)类似的退化影响(编解码器种类和压缩率)的测试序列的质量。然而，视频内容可以是不同的。

对于全分辨率广播材料的H.264压缩来说，找到的适当线性模型为：

PMOS＝-0.135*TPQF+0.04*CS+7.442 (9)

之后，将根据下式

if(PMOS＞5)PMOS＝5

if(PMOS＜1)PMOS＝1 (10)

对所得到的估计进行限制。

下面提供了对以上实施方式的各个不同方面的附加讨论。

引言：已经示出，在分析时利用了源视频序列和退化视频序列二者的全参考视频质量测量工具已被证明能够非常精确地预测广播视频的视频质量。不使用预先受损的“参考”序列的无参考技术的设计是个更为棘手的命题。

无参考分析的另一种形式可通过使用解码器中或网络中其它地方的经编码比特流来实现。这种“比特流”分析的优点是能够即刻使用在帧缓存器分析中不可用的编码参数(如量化器步长大小、运动矢量和块统计)。比特流分析的范围可以从计算量小的解码参数分析(没有逆变换或运动预测宏块重建)到视频序列完整解码。

PSNR是在视频编码器中和全参考视频测量工具中估计主观视频质量时都使用的测度。在无参考工具中，不能直接地计算PSNR，但是可以估计出PSNR。这里，我们展示了优于全参考PSNR测度的在H.264/AVC解码器中工作的无参考视频质量预测技术。

首先，提供了使用PSNR测度对多种H.264编码序列的基准质量估计的结果。其次，考虑了使用平均量化器步长大小(AvQP)这一测度来估计主观质量的比特流技术。已证实，对于该比特流，无参考测度在质量估计方面优于全参考PSNR，而不仅是作为PSNR的近似。最后，引入了噪声掩蔽(CS)测度，其进一步增强了基于PSNR和基于量化器步长大小的质量估计技术的性能。该测度是基于对经解码图像序列的像素差分析，并且是在视频解码器内计算出。已证实基于所得到的解码器的无参考模型实现的测得的主观分数与估计出的主观分数之间的相关性超过0.91。

视频测试材料-训练与测试数据库：用于对该技术进行训练和测试的视频数据库由18个不同的8秒序列组成，总共625种广播格式。训练集由9个序列组成，其中6个序列来自VQEG1数据库，而其余3个序列来自别处。测试集由9个不同序列组成。VQEG1是公知的，并且可从VQEG站点下载。由于质量参数要基于各序列的时长上的平均值，因此选择具有一致的运动属性和细节的内容非常重要。在表4中示出了序列的详细情况。

训练序列	特性	测试序列	特性
训练序列	特性	测试序列	特性	Barcelona(巴塞罗那)	饱满的色彩、缓慢缩放	Boat(船)	水、缓慢运动
Harp(竖琴)	缓慢缩放、稀少的细节	Bridge(桥)	细节、缓慢移动	Barcelona(巴塞罗那)	饱满的色彩、缓慢缩放	Boat(船)	水、缓慢运动
Harp(竖琴)	缓慢缩放、稀少的细节	Bridge(桥)	细节、缓慢移动	Canoe(独木舟)	水的运动、摇摄、细节	Ballroom(舞厅)	图案和运动
Rugby(橄榄球)	运动、快速摇摄	Crowd(人群)	运动	Canoe(独木舟)	水的运动、摇摄、细节	Ballroom(舞厅)	图案和运动
Rugby(橄榄球)	运动、快速摇摄	Crowd(人群)	运动	Calendar(日历)	显著细节、缓慢摇摄	Animals(动物)	色调、运动
Fries(薯条)	快速摇摄、使朦胧	Fountain(喷泉)	水的运动	Calendar(日历)	显著细节、缓慢摇摄	Animals(动物)	色调、运动
Fries(薯条)	快速摇摄、使朦胧	Fountain(喷泉)	水的运动	Rocks(岩石)	运动、对比度变化	Children(儿童)	运动
Sport(运动)	稀少的细节、运动	Funfair(游艺市场)	局部的高速运动	Rocks(岩石)	运动、对比度变化	Children(儿童)	运动
Sport(运动)	稀少的细节、运动	Funfair(游艺市场)	局部的高速运动	View(风景)	缓慢运动、细节	Street(街道)	一些运动

表4训练与测试序列

视频测试材料-编码：所有的训练序列和测试序列都以分别设置的相同编码器选项使用H.264编码器JM7.5c进行编码。

编码器设置的关键特征是：I，P，B，P，B，P，...帧模式；禁用速率控制；固定量化器参数(QP)；启用自适应帧/场编码；禁用环路滤波。

利用如此多的不同的可能编码器设置，确定保持以上设置不变，而仅改变各源文件的测试之间的量化器步长大小参数。

对训练集和测试集使用12名被试者执行正式的单一刺激(single-stimulus)主观测试。在表5(训练集)和表6(测试集)中示出了平均MOS结果。

表5.训练序列的主观分数

表6.测试序列的主观分数

质量估计-峰值信号噪声比：峰值信号噪声比(PSNR)是常用的全参考质量测量，并且是在很多视频编码器中要进行优化的关键测度。在将参考序列与退化序列正确地对准的情况下，PSNR是可直接计算的测度，并且可以根据下式

AvPSNR = (1 / N) Σ_{n = 0}^{N - 1} (10 \log_{10} (255^{2} * Y * X) / (Σ_{y = 0}^{Y - 1} Σ_{x = 0}^{X - 1} {(s (n, x, y) - d (n, x, y))}^{2})) - - - (11)

来计算时间平均测度(AvPSNR)，其中，s(n，x，y)与d(n，x，y)是来自尺寸为X个水平(x＝0...X-1)像素和Y个垂直(y＝0...Y-1)像素的源序列s与退化序列d的N个帧中的第n帧内的相应像素强度值(0...255)。该式用于计算在9个训练序列中的每一个的8秒上的平均PSNR。在图11中示出了平均PSNR相对于平均的测得MOS的图。

展现了当考虑处于25dB的平均PSNR下的MOS分数时数据的内容相关的特性。数据中的3MOS分的范围表明使用PSNR来估计感知到的质量的可能并不精确。多项式回归分析得到的MOS数据与AvPSNR数据之间的相关性为0.78而RMS残差为0.715。

质量估计-量化器步长大小：对于H.264来说，量化器参数QP限定了用于对变换系数进行编码的线性量化器的间隔QSTEP。QP对预定间隔的表进行索引，在该表中，QP每增加6，QSTEP大小就增加一倍。

对于针对训练集的每个测试，针对P宏块和I宏块，QP被固定在20、28、32、36、40或44中的一个值，而针对B宏块，QP被固定在比上述值大2的值。图12示出了针对9个训练序列中的每一个，平均QP相对于平均MOS的图。

MOS与QP之间的多项式回归分析所得到的相关性为0.924，而RMS残差为0.424。同样明显的是，各种QP值处的预期MOS范围显著地小于AvPSNR的预期MOS范围。

根据量化器步长大小对PSNR的一个估计依赖于量化范围内的误差值对均匀分布的近似。然而，当大部分系数被“中心削波”为零时，对于步长很大而比特率很低的情况该近似并不成立。稍稍令人惊讶的是，结果表明，与PSNR相比，AvQP可能是对主观分数的更好预测。在这里应该注意的是，在H.264中，QP与实际量化器步长大小之间的非线性映射可以在某种程度上易于进行多项式分析的可能性已经打了折扣，对于实际步长大小相对于MOS也也有相同的结果。

像素对比度测度-失真掩蔽：失真掩蔽是影响对经编码视频序列内的失真的感知的重要因素。这种掩蔽是由于人类感知机能不能对处于相同频谱区域、时间区域或空间区域内的信号分量与噪声分量进行区分而引起。在必须要对比特进行有效分配的视频编码器的设计中，这种考虑非常重要。已经在变换域和像素域进行了该领域中的研究。这里，只考虑像素域。

像素对比度测度-像素差对比度测度：这里，对视频质量估计应用的思想是通过像素域内的分析来确定图像序列的掩蔽特性。实验显示，通过滑动窗像素差分析而计算出的对比度测度表现得非常好。

根据上式(2)和(3)来计算像素差对比度测度C_h和C_v，其中H是用于水平像素分析的窗长度而V是用于垂直像素分析的窗长度。随后可以根据式(4)来合并C_h和C_v以给出水平-垂直测度C_hv。之后，根据式(5)，C_hv可用于计算帧的总像素差测量值CF，并且如上式(6)中所定义的那样，进而计算序列平均的测度CS。使用H＝4和V＝2针对经解码训练序列中的每一个来计算序列平均的测度CS(在上面称为TCF)，在图13中示出了相对于平均量化器步长大小而画出的结果。

图13的结果示出了标出的在等级上与图11的PSNR相对MOS结果的相似性，以及与图12的AvQstep相对MOS结果的相似性(相似程度下降)。“日历”和“岩石”序列具有最高CS值，而在PSNR与AvQstep二者的良好范围上具有最高MOS值。类似地，“独木舟”与“薯条”序列具有最低CS值以及其中的最低MOS值。因此，由经解码像素计算出的CS测度看上去与序列的噪声掩蔽特性相关。高CS意味着高掩蔽从而意味着对于给定PSNR具有更高MOS。通过将无参考质量估计中的CS测度包含在下述多元回归分析中，测试了该CS测度的潜在应用。

结果：首先，使用在很多商用统计软件包(例如，Statview^TM，见www.statview.com)中提供的标准多项式/对数回归分析由PSNR(自变量)对训练集的平均MOS(因变量)建模。之后将所得到的模型用于测试序列。之后使用AvQP作为自变量来重复这一过程。在每种情况下使用CS作为附加的自变量来重复这一过程，在表7中示出了所得到的估计出的MOS值与测得的MOS值之间的相关性以及RMS残差。

表7.估计出的MOS与测得的MOS的相关性和残差

结果显示，将序列平均的对比度测度(CS)包括在基于PSNR或基于AvQP的MOS估计模型中提高了训练数据集与测试数据集二者的性能。使用AvQP和CS参数的模型的性能特别好，其对训练数据集(0.95)而且更令人印象深刻地对测试数据集(0.916)均实现了超过0.9的相关性。

在图14中以散点图的形式示出了针对AvQP/CS的各个训练和测试结果。

结论：已经展示了在H.264视频解码器中用于估计主观视频质量的双参数模型。与在视频序列上求平均的H.264量化器步长大小索引相对应的AvQP参数用于对噪声进行估计。使用对经解码像素的滑动窗差分析而计算出的CS参数添加了对视频内容的噪声掩蔽特性的指示。结果表名，当一起使用这些参数时，可以在解码器中实现精度令人惊讶的主观质量估计。

为了降低图像特性随时间的显著变化，选择8秒的训练序列和测试序列。其目的是使用具有一致退化特性的经解码序列，从而不会由短暂且明显的失真来对测得的MOS分数进行不当的加权。以这种方式，利用序列平均的参数对MOS分数进行建模成为更加灵敏而且准确的过程。

在式(5)中定义的对比度测度CF取决于对整个剪裁图像在每个像素上执行的平均。已经认识到，在空时块上分析CF可能是有益的。

Claims

1、一种对代表多个帧的视频信号进行编码的方法，该方法包括以下步骤：

(a)使用利用了至少一个编码参数的压缩算法对所述视频信号或部分所述视频信号进行编码；

(b)使用感知质量指标来生成经编码信号的质量测度并且识别所述质量测度是否满足预定的质量准则；

(c)如果所述质量测度不满足所述预定的质量准则，则使用所述至少一个编码参数的修正值或所述视频信号的修正版本来迭代地执行步骤(a)至步骤(c)，直到如此生成的质量测度满足所述预定的质量准则。

2、根据权利要求1所述的方法，还该法进一步包括以下步骤：

仅当所述质量测度满足所述预定的质量准则时才通过通信链路向视频解码器发送所述经编码信号。

3、根据权利要求1或权利要求2所述的方法，其中，在步骤(c)中对所述编码参数值或所述视频信号应用的修正量是在步骤(b)中生成的所述质量测度的值的函数。

4、根据任一前述权利要求所述的方法，针对第一信号部分和第二信号部分来执行该方法，仅当针对所述第一信号部分的所述质量测度满足所述预定的质量准则时才对所述第二信号部分进行编码。

5、根据任一前述权利要求所述的方法，其中，所述质量测度是使用预定算法生成的数值，并且其中，如果所述质量测度的值在值的预定范围内，则所述质量测度满足所述预定的质量准则。

6、根据权利要求5所述的方法，其中，所述预定范围限定在第一边界值与第二边界值之间，并且其中，所应用的修正导致所述质量测度值的变化，从而在该次或各次随后的迭代中，所述质量测度值向其中一个边界值收敛。

7、根据任一前述权利要求所述的方法，其中，所述经编码信号代表多个能够分别识别出的帧的组(GOF)，其中，能够得出关于各GOF的质量测度，并且其中，在步骤(c)中，针对不满足所述预定的质量准则的各GOF而应用所述至少一个编码参数的修正值或应用所述视频信号的修正版本。

8、根据权利要求7所述的方法，该方法进一步包括以下步骤：提供多个修正类型，各修正类型定义了将在步骤(c)中应用的另选的修正方法，并根据一个或更多个选择规则来选择所述类型中的一个。

9、根据权利要求8所述的方法，其中，如果预定数量的连续GOF不满足所述预定的质量准则，则选择第一修正类型，所述第一类型被设置为当应用所述第一类型时，对与所述GOF相对应的所述视频信号的经过滤波的版本进行重新编码。

10、根据权利要求9所述的方法，其中，所述滤波步骤包括以下步骤：减少对所述GOF的各帧进行编码所要求的比特数。

11、根据权利要求8至10中任一项所述的方法，其中，如果在包括了预定数量GOF的段内仅有一些GOF不满足所述预定的质量准则，则选择第二修正类型，所述第二类型被设置为当应用所述第二类型时使用经修正的编码参数对与不满足所述预定的质量准则的各GOF相对应的视频信号进行重新编码。

12、根据任一前述权利要求所述的方法，其中，针对各单独的帧而生成另一质量测度，并且其中，在一帧的所述另一质量测度不满足所述预定的质量准则的情况下，对所述帧进行帧内分析以确定所述帧的哪部分要求进行修正。

13、根据任一前述权利要求所述的方法，其中，所述至少一个编码参数包括量化步长大小，并且其中，步骤(c)包括以下步骤：应用量化步长大小的修正值。

14、根据任一前述权利要求所述的方法，其中，所述至少一个编码参数包括编码比特率，并且其中，步骤(c)包括以下步骤：应用所述编码比特率的修正值。

15、一种对代表多个帧的视频信号进行编码的方法，该方法包括以下步骤：

(c)如果所述质量测度不满足所述预定的质量准则，则选择多个修正类型中的一个，并且根据所选择的修正类型，使用所述至少一个编码参数的修正值或所述视频信号的修正版本来重复步骤(a)至步骤(c)，直到如此生成的质量测度满足所述预定的质量准则，

其中，如果所述视频信号的包括预定数量帧的段不满足所述预定的质量准则，则选择第一修正类型，所述第一类型被设置为当应用所述第一类型时，对所述视频段的滤波后的版本进行进行重新编码，并且其中，如果所述视频信号的包括预定数量帧的段中仅帧的子集或帧的组不满足所述预定的质量准则，则选择第二修正类型，所述第二类型被设置为当应用所述第二类型时，使用经修正的编码参数对与不满足所述预定的质量准则的各帧或帧的组相对应的所述视频信号进行重新编码。

16、一种对代表多个帧的视频信号进行编码的方法，该方法包括以下步骤：

(a)使用利用了至少一个编码参数的压缩算法对所述视频信号或部分所述视频信号进行编码，所述经编码信号代表多个能够分别识别出的帧的组(GOF)；

(b)对于包括多个GOF的视频段，使用感知质量指标来生成各GOF的质量测度；

(c)对所述视频段中质量测度低于预定质量等级的一个或更多个GOF进行识别，并且修正针对低于预定质量等级的该GOF或低于预定质量等级的各GOF而使用的所述至少一个编码参数，从而使得在重新编码时所述质量测度将满足或接近所述预定质量等级；

(d)对同一视频段中质量测度高于预定质量等级的一个或更多个GOF进行识别，并且修正针对高于预定质量等级的该GOF或高于预定质量等级的各GOF而使用的所述至少一个编码参数，从而使得在重新编码时所述质量测度满足或接近所述预定质量等级；以及

(e)使用在步骤(c)和(d)中修正的所述编码参数对所述视频段进行重新编码。

17、一种用于承载处理器代码的载体介质，当所述处理器代码在处理器上执行时，使所述处理器实现根据任一前述权利要求所述的方法。

18、一种视频编码系统，该系统包括：

视频编码器，该视频编码器被设置成使用利用了至少一个编码参数的压缩算法对代表多个帧的视频信号进行编码；

控制器，该控制器用于从所述视频编码器接收经编码信号，并被设置成使用感知质量指标来生成所述经编码信号的质量测度，从而识别所述质量测度是否满足预定的质量准则，并且，如果所述质量测度不满足所述预定的质量准则，则使得所述视频编码器使用所述至少一个编码参数的修正值或使用所述视频信号的修正版本迭代地对所述视频信号进行重新编码，直到如此生成的质量测度满足所述预定的质量准则。

19、一种IPTV服务提供系统，该系统包括：

编码系统，该编码系统被设置成通过各自的IP链路向多个接收机发送至少一个信道的视频数据，所述编码系统在权利要求18中限定。