CN107852496A

CN107852496A - 用于预测感知视频质量的技术

Info

Publication number: CN107852496A
Application number: CN201680040842.7A
Authority: CN
Inventors: 安妮·亚伦; 金达; 林裕杰; 大卫·龙卡; 安迪·舒勒; 曹顾严; 巫奇豪
Original assignee: Netflix Inc
Current assignee: Netflix Inc
Priority date: 2015-05-11
Filing date: 2016-05-09
Publication date: 2018-03-27
Anticipated expiration: 2036-05-09
Also published as: JP6707563B2; WO2016183011A1; AU2016259613B2; JP2018522448A; CA2985771A1; KR102110022B1; AU2019250226A1; US10007977B2; US20160335754A1; EP3295669A1; CN107852496B; MX2017014482A; MX370014B; US10475172B2; AU2016259613A1; CA2985771C; US20180300869A1; KR20180003609A

Abstract

在本发明的一个实施例中，质量训练器和质量计算器协作以通过机器学习建立一致的感知质量度量。在训练阶段，质量训练器利用机器智能技术来创建感知质量模型，该感知质量模型将客观度量组合起来以最优地跟踪在训练视频的观看期间分配的主观度量。随后，质量计算器将感知质量模型应用于针对目标视频的客观度量的值，从而生成针对目标视频的感知质量得分。以这种方式，感知质量模型基于在训练阶段期间处理的视觉反馈来明智地融合针对目标视频的客观度量。由于每个客观度量对感知质量得分的贡献是基于经验数据来确定的，所以相比于传统客观度量，感知质量得分是对观测视频质量的更准确的评估。

Description

用于预测感知视频质量的技术

相关申请的交叉引用

本申请要求于2015年5月11日提交的序列号为14/709,230的美国专利申请的权益，该专利申请通过引用合并于此。

技术领域

本发明的实施例总体涉及计算机科学，并且更具体地涉及用于预测感知视频质量的技术。

背景技术

有效且准确地对源视频进行编码对于视频内容的实时传送来说是必不可少的。在经编码的视频内容被接收之后，解码并观看源视频或以其他方式对源视频进行操作。一些编码过程采用无损压缩算法(例如霍夫曼编码)以实现对源的准确复制。相比之下，为了增加压缩率和/或减小经编码的视频内容的尺寸，其他编码过程利用消除所选择的信息的有损数据压缩技术，这通常仅能够实现对源的近似重构。在视频被按比例放大到更大分辨率以匹配显示设备的尺寸的调整尺寸操作期间可能引入进一步的失真。

手动验证所传送的视频的质量是非常耗时的。因此，为了确保可接受的视频观看体验，有效且准确地预测所传送的视频的质量是可取的。因此，自动视频质量评估通常是编码和流基础架构的组成部分，编码和流基础架构用于各种过程(例如，评估编码器和微调流比特率)以保持视频质量。

在用于评估经编码的视频的质量的一种方法中，使用诸如峰值信噪比(PSNR)之类的全参考质量度量来将源视频与经编码的视频进行比较。然而，尽管这些度量准确地反映了信号保真度(即，经编码的视频相对源视频的忠实度(faithfulness))，但这些度量无法可靠地预测人们对质量的感知。例如，保真度测量通常无法反映静止场景中的视觉伪像可能比快动作场景中的视觉伪像更明显地降低观看体验。此外，由于这种感知效果，这种保真度度量是依赖于内容的，因此在不同类型的视频数据之间不一致。例如，主要由快动作场景组成的动作电影中的保真度下降比慢节奏的纪录片中的保真度下降更不明显。

如前所述，本领域需要的是用于预测视频的感知质量的更有效的技术。

发明内容

本发明的一个实施例阐述了用于估计感知视频质量的计算机实现的方法。该方法包括选择表示多个确定性视频特性的一组客观度量；对于包括在一组训练视频中的每个训练视频，接收描述该训练视频的数据集，其中该数据集包括针对感知视频质量度量的主观值和针对该组客观度量的一组客观值；从该数据集中导出复合关系，该复合关系基于针对该组客观度量的一组值来确定针对感知视频质量度量的值；对于目标视频，计算针对该组客观度量的第一组值；以及将复合关系应用于第一组值以生成针对感知视频质量度量的输出值。

所公开的用于估计感知视频质量的技术的一个优势在于定义感知视频质量度量的复合关系基于直接的人类观测来融合客观度量。更具体地，因为人类对一组训练视频的反馈指导了每个客观度量的贡献，所以将复合关系应用于目标视频概述了人类的反馈。因此，感知视频质量度量可靠地预测感知的视频质量。相比之下，传统的质量度量通常测量信号保真度，信号保真度这一特性不一定跟踪人类视觉系统所感知的视频质量。

附图说明

为了能够详细地理解本发明的上述特征的方式，可以通过参考实施例来获得上面简要概述的本发明的更具体的描述，其中一些实施例在附图中示出。然而，要注意的是，附图仅示出了本发明的典型实施例，因此不被认为是对其范围的限制，因为本发明可以允许其他等效的实施例。

图1是被配置为实现本发明的一个或多个方面的系统的概念图；

图2是示出根据本发明的一个实施例的图1的客观度量生成子系统和感知质量训练器的框图；

图3是示出根据本发明的一个实施例的图1的客观度量生成子系统和感知质量计算器的框图；

图4是根据本发明的一个实施例的用于预测感知视觉质量的方法步骤的流程图；以及

图5是根据本发明的一个实施例的用于基于经验训练的模型计算感知视觉质量得分的值的方法步骤的流程图。

具体实施方式

在下面的描述中，阐述了许多具体细节以提供对本发明的更透彻的理解。然而，对于本领域技术人员来说显而易见的是，可以在没有这些具体细节中的一个或多个的情况下实施本发明。

系统概览

图1是被配置为实现本发明的一个或多个方面的系统100的概念图。如图所示，系统100包括连接到能够传输输入数据和/或显示视频的各种设备的虚拟私有云(即，封装的共享资源、软件、数据等)102。这样的设备包括但不限于台式计算机102、智能电话104以及膝上型计算机106。在替代实施例中，系统100可以以任何组合包括任何数量和/或类型的输入设备、输出设备、和/或输入/输出设备。

虚拟私有云(VPC)100包括但不限于任何数量和类型的计算实例110。VPC 100从输入设备(例如，膝上型计算机106)接收输入用户信息，一个或多个计算实例110对用户信息进行操作，并且VPC 100将经处理的信息传输给用户。VPC 100通过诸如传统的阴极射线管、液晶显示器、发光二极管等任何数量的设备的显示能力将输出信息传送给用户。

在替代实施例中，VPC 100可以被诸如公共云或混合云之类的任何类型的云计算环境替代。在其他实施例中，系统100可以包括代替VPC 100的任何分布式计算机系统。在其他实施例中，系统100不包括VPC 100，而是系统100包括实现多个处理单元(例如，以任何组合的中央处理单元和/或图形处理单元)的单个计算单元。

如计算实例110₀所示，每个计算实例110包括中央处理单元(CPU)112、图形处理单元(GPU)114和存储器116。在操作中，CPU 112是计算实例110的主处理器，其控制和协调包括在计算实例110中的其他组件的操作。特别地，CPU 112发出控制GPU 114的操作的命令。GPU 114包含针对图形和视频处理而优化的电路，包括例如视频输出电路。在各种实施例中，GPU 114可以与计算实例110的一个或多个其他元件集成。存储器116存储由计算实例110的CPU 112和GPU 114使用的内容，例如软件应用和数据。

通常，包括在VPC 100中的计算实例110被配置为实现一个或多个应用。如图所示，计算实例110₁-110_N被配置为编码器120。编码器120实现本领域已知的任何类型的数据压缩技术，并以任何技术上可行的方式来实现。在一些实施例中，编码器140是并行块编码器，其将源数据分割成多个块，然后在块上同时执行数据压缩技术。

为了符合诸如编码数据尺寸限制和可用流带宽之类的资源约束，编码器120实现消除所选择的信息的有损数据压缩技术。通过消除信息，编码器120创建在重构源数据时引入失真的“压缩”伪像。经重构的源数据的视觉质量通常还被包括在转码流水线中的其他元件(即，将一种格式的源数据转换成另一格式的经重构的数据的应用)进一步破坏。例如，可能在按比例缩小和编码源数据然后在显示设备处将经解码的数据按比例放大到源分辨率的过程期间引入“缩放”伪像。

为了确保可接受的观看体验，经重构的数据的质量以及间接地包括在转码流水线中的元件的质量通常在使用质量度量的设计和传送过程中的各个点处被评估。质量度量的值然后用于指导应用(例如，编码器)的开发以及内容传送的实时优化，例如质量感知的流切换算法。

许多广泛应用的质量度量(例如，均方误差(MSE)和峰值信噪比(PSNR))测量保真度，即，经重构的数据相对源数据的忠实度。然而，保真度测量无法反映影响人类视觉系统(HVS)的心理视觉现象，例如掩蔽、对比敏感度、或自然图像中高度结构化的内容。此外，由于这种未完美反映的感知效果，这样的保真度度量是依赖于内容的，所以这些值在不同类型的视频数据之间是不可比较的。例如，尽管人类观看者可以观察到的视觉影响相对较低，但是具有颗粒噪声的视频在PSNR中受到相当严重的惩罚。一般而言，传统的质量度量不是对人类所感知的视觉质量的可靠指示，因此也不是对观看体验的可接受性的可靠指示。

为此，VPC 102中的一个或多个计算实例110实现机器学习技术以建立一致的感知质量度量。值得注意的是，无论视频内容的类型如何，感知质量得分165(即，针对感知质量度量的值)以通用的方式与主观的人类视觉体验相关。可以利用本领域已知的任何类型的学习算法来实现一致的感知质量度量。在一些实施例中，支持向量机(SVM)为一致的感知质量度量提供框架。在其他实施例中，神经网络实现算法以建立一致的感知质量度量。

在图1中用虚线描绘的训练阶段中，感知质量训练器150创建感知质量模型155。感知质量模型155是监督学习模型，其组合客观度量145以最优地跟踪在观看训练数据期间分配的主观度量135的值。客观度量子系统140基于训练数据与对应的经编码的训练数据之间的比较操作来生成客观度量145。这样的客观度量145被称为全参考质量指标，并且可以以任何技术上可行的方式来生成。在解码器125从经编码的训练数据中生成经重构的训练数据之后，观看者110在诸如膝上型计算机106的屏幕之类的显示设备上观看经重构的数据，并且亲自评价视觉质量，即将值分配给主观度量135。

感知质量训练器150接收针对客观度量145的计算值和针对主观度量135的人类分配值。感知质量训练器150然后基于这些度量训练感知质量模型155。更具体地，感知质量训练器150执行对客观度量145与主观度量135之间的模式进行识别的学习算法。随后，感知质量训练器150配置感知质量模型155，以将针对客观度量145的值融合到感知质量得分165中，感知质量得分165反映了针对主观度量135的值，并且因此反映了观看者110的体验。

在图1中用实线描绘的评分阶段中，感知质量计算器160接收目标数据的针对客观度量145的值和感知质量模型155。感知质量计算器160将感知质量模型155应用于针对客观度量145的值，并生成目标数据的感知质量得分165。针对客观度量145的值可以以任何技术上可行的方式来生成。例如，客观度量子系统140可以将任何参考数据(例如，源数据)与任何导出的目标数据(例如，经编码的源数据)进行比较以计算针对客观度量145的值。

训练阶段

图2是示出根据本发明的一个实施例的图1的客观度量生成子系统140和感知质量训练器150的框图。客观度量生成子系统140可以以任何技术上可行的方式来实现，并且可以包括任何数量的单独的应用，每个应用生成针对客观度量145的任何数量的值。感知质量训练器150包括但不限于支持向量机(SVM)模型生成器240和时间调整标识器250。

在接收到针对一组训练视频的训练数据205和经编码的训练数据295之后，客观度量生成子系统140计算针对客观度量145的值。训练视频可以包括表示要由感知质量得分165表示的视频类型的范围的任何数量和长度的视频剪辑。例如，在一个实施例中，训练集中的视频剪辑跨越不同范围的高级特征(例如，动画、运动、室内、相机运动、脸部特写、人物、水、明显突出、对象编号)和低级特性(例如，胶片颗粒噪声、亮度、对比度、纹理、运动、色彩变化、色彩丰富度、清晰度)。

在一些实施例中，该组训练视频是可从南加利福尼亚大学公开获得的视频剪辑的MCL-V视频数据库。在其他实施例中，视频剪辑的ML-V视频数据库被补充有选定的高胶片颗粒剪辑和动画标题以增加该组训练视频的多样性和鲁棒性。训练数据205包括训练视频，并且经编码的训练数据295从训练数据205中导出。更具体地，对于包括在训练数据205中的每个剪辑，编码器150被配置为以各种不同的分辨率和/或质量水平(即，比特率)重复地对剪辑进行编码。以这种方式，从训练集中的每个视频剪辑中生成预定数量的经编码的剪辑，并且这些经编码的剪辑形成经编码的训练数据295。

通常，每个视频质量度量都具有优势和劣势。为了利用优势并减轻劣势，客观度量生成子系统140被配置为计算一组客观度量145，这些客观度量145一起提供对经编码的训练数据295的范围内的视觉质量的有价值的了解。客观度量145的选择可以以任何技术上可行的方式进行，以解决任何数量的预期伪像。例如，在一些实施例中，客观度量145是根据经验选择的，以评估由压缩(即，块效应)和缩放(即，模糊)引起的劣化。

如图所示，客观度量145包括细节丢失度量(DLM)242、视觉信息保真度(VIF)244、以及抗噪声信噪比(ANSNR)246。DLM 242基于应用小波分解来识别信号的模糊分量。DLM242在检测中等质量范围内的模糊度方面相对较好，但在识别较高质量范围内的质量方面相对较差。VIF244基于应用小波变换来分析频域中的信号。VIF 244在检测轻微发蓝伪像方面相对较好，但在检测块伪像方面相对较差。

ANSNR 246被设计为减轻电影内容的SNR的一些缺点。在执行SNR计算之前，客观度量生成子系统140将较弱的低通滤波器应用于训练数据205，并将较强的低通滤波器应用于经编码的训练数据295。ANSNR 246计算速度相对较快，并且适合检测压缩伪像和强缩放伪像。然而，ANSNR246忽略轻微的模糊伪像，因此对高质量范围内的微小质量变化不敏感。

作为进一步的优化，由于在高运动期间人类视觉系统对劣化不太敏感，所以客观度量生成子系统140计算运动值248。对于每个帧，客观度量生成子系统140将运动值248计算为帧相对于前一帧的平均同位像素差。值得注意的是，为了减少噪声被误解为运动的可能性，客观度量生成子系统140在执行差计算之前应用低通滤波器。

针对主观度量135的值由观看者110在任何数量和类型的显示设备上观看训练数据205和经编码的训练数据295的解码版本(这里被称为经重构的训练数据)之后分配。在一个实施例中，每个观看者110并行地观看每个训练剪辑与每个经重构的训练剪辑，并将值分配给主观度量135。针对主观度量135的值是指示所感知的视觉质量的绝对值。例如，在一个实施例中，针对主观度量135的值可以从0变化到100。得分100表示经重构的训练剪辑看起来像与训练剪辑相同。低于20的得分表示经重构的训练剪辑失去了显著的场景结构，并且相对于训练剪辑显示出相当大的模糊。

随后，SVM模型生成器240接收针对经编码的训练数据295的运动值248、针对客观度量145的值、以及针对主观度量135的值。SVM模型生成器240然后应用学习算法来训练感知质量模型150。对于经编码的训练数据295，SMV模型生成器240识别针对主观度量135的观测值与针对客观度量145的计算值以及运动值248之间的相关性。SVM模型生成器240然后生成感知质量模型155，其是客观度量135和估计主观度量135的运动值248的融合。如本领域技术人员将认识到的，SVM模型生成器240可以实现许多学习算法中的任何一种以生成任何类型的模型。在替代实施例中，SVM模型生成器240可以被实现任何类型的学习算法(例如，神经网络)的任何处理单元替代。

时间调整标识器250被配置为针对极端情况调整感知质量模型155。值得注意的是，对于非常高运动的场景(即，高运动值248)，感知质量模型155可能不足以表示时间掩蔽效应。因此，时间调整标识器250生成针对这样的场景应用于感知质量模型155的时间调整255。在一些实施例中，时间调整255包括阈值和百分比。结合感知质量模型155应用时间调整255，将经由感知质量模型155计算的感知质量得分165增加百分比。

评分阶段

图3是示出根据本发明的一个实施例的图1的客观度量生成子系统140和感知质量计算器160的框图。如图所示，感知质量计算器150包括但不限于支持向量机(SVM)映射器360和时间调整器370。感知质量计算器150在评分阶段期间进行操作，即基于“训练的”感知质量模型155和时间调整255来计算针对从源数据105中导出的编码数据195的感知质量得分165。

SVM映射器360可以被配置有对应于任何数量的训练数据105的任何数量的感知质量模型155和时间调整255。在一些实施例中，模型选择模块(未示出)将相似内容的训练数据105分类为组，然后基于待评估的编码数据195的内容来分配感知质量模型155。例如，一组训练数据105可以包括相对高质量的视频，并且因此相应的感知质量模型155被优化以确定针对高质量编码数据195的感知质量得分165。相比之下，另一组训练数据105可以包括相对低质量的视频，并且因此相应的感知质量模型155被优化以确定针对低质量编码数据195的感知质量得分165。

在接收到源数据105和从源数据105中导出的编码数据195之后，客观度量生成子系统140计算针对客观度量145的值和运动值248。通常，针对客观度量145的值和运动值248可以以任何技术上可行的方式来确定。例如，一些实施例包括多个客观度量计算器，并且每个客观度量计算器配置不同的客观度量。

SVM映射器360将感知质量模型155应用于客观度量145和运动值248以生成感知质量得分165。随后，时间调整器370选择性地将时间调整255应用于感知质量得分165以微调极端情况。在一个实施例中，时间调整器370将运动值248与包括在时间调整255中的阈值进行比较。如果运动值248超过阈值，则时间调整器370将感知质量得分165增加包括在时间调整255中的百分比以反映感知质量模型155对于高运动场景的固有悲观情绪(pessimism)。因为感知质量模型155和时间调整255跟踪由观看者110观测到的质量，所以感知质量得分165反映了编码数据195在被人观看时的质量。

注意，本文描述的技术是说明性的而不是限制性的，并且可以在不脱离本发明的更广泛的精神和范围的情况下进行改变。更具体地，感知质量训练器150可以用实现任何数量的机器学习过程的任何模块来替代以生成模型，该模型融合多个客观计算的值以跟踪实验观测到的视觉质量。相应地，感知质量计算器160可以用以一致的方式应用模型的任何模块来替代。此外，感知质量训练器150可以包括被设计为微调所生成的模型的任何数量的调整识别模块，并且感知质量计算器160可以包括应用所识别的调整的任何数量的调整计算器。

训练数据105、客观度量145、主观度量135、和运动值245的粒度(例如，每帧、每场景、每镜头、每6分钟的剪辑等)可以在实现方式之内和之间变化。如本领域技术人员将认识到的，传统的数学技术(例如，平均、外插、内插、最大化等)可以以任何组合应用于客观度量145、主观度量135、和/或运动值245确保测量单位的一致性。此外，感知质量训练器150和感知质量计算器160可以被配置为以任何粒度确定感知质量模型155、时间调整255、和/或感知质量得分160。

预测人类感知的质量

图4是根据本发明的一个实施例的用于预测感知视觉质量的方法步骤的流程图。尽管参考图1-3的系统描述了方法步骤，但是本领域技术人员将理解，被配置为以任何顺序实现这些方法步骤的任何系统都落入本发明的范围内。

如图所示，方法400在步骤404开始，其中感知质量训练器150接收训练数据205。训练数据205可以包括任何数量和长度的视频剪辑。例如，在一个实施例中，训练数据205包括十六个六分钟的剪辑。在步骤406，编码器120针对任何数量的分辨率和比特率的组合从训练数据205中导出经编码的测试数据295。通常，选择分辨率和比特率以反映用于观看设备和/或流带宽的目标支持范围。

在步骤406，感知质量训练器150接收针对从经编码的训练数据295中导出的经重构的视频剪辑(即，经解码的、经缩放的等)的主观度量135的值。感知质量训练器150可以以任何形式获得针对主观度量135的值，并且可以执行任何数量的后处理操作(例如，平均、移除离群数据点等)。在替代实施例中，感知质量训练器150可以以任何技术上可行的方式接收和处理对应于任何数量的主观度量135的数据。

例如，在一些实施例中，感知质量训练器150接收在人类(例如，由观看者100)并行地对训练数据205和从经编码的训练数据295中导出的经重构的视频剪辑(即，经解码的、经缩放的等)进行一系列比较期间生成的反馈。对于每个经重构的视频剪辑，该反馈包括针对相应的经编码的测试数据295的主观度量135的值。针对主观度量135的值基于绝对的、预定的质量标度(例如，0-100，其中100表示不显著的伪像)反映平均观测到的视觉质量。

在步骤410，客观度量生成子系统140基于经编码的测试数据295和训练数据205这二者来计算针对经编码的测试数据295的客观度量145的值。客观度量生成子系统140可以选择客观度量145，然后以任何技术上可行的方式计算针对客观度量145的值。例如，在一些实施例中，客观度量生成子系统140被配置为计算细节丢失度量(DLM)242、视觉信息保真度(VIF)244、以及抗噪声信噪比(ANSNR)246的值。

作为步骤410的一部分，客观度量生成子系统140还可以计算与经编码的测试数据295相关联的任何其他类型的空间或时间数据。更具体地，客观度量生成子系统140计算包括在经编码的测试数据295中的每个帧的运动值248，即时间视觉差。

在步骤412，支持向量机(SVM)模型生成器240执行机器学习操作，即训练感知质量模型155以基于针对客观度量145的值和运动值248的融合来跟踪针对主观度量135的值。在步骤414，感知质量训练器150确定感知质量模型155是否在高运动期间准确地追踪针对主观度量135的值。如果在步骤414，感知质量训练器150确定感知质量模型155的准确度是可接受的，则该方法直接进行到步骤418。

如果在步骤414，感知质量训练器150确定感知质量模型155的准确度是不可接受的，则该方法进行到步骤416。在步骤416，时间调整标识器250确定阈值，超过该阈值的基于感知质量模型155计算的感知质量得分165是不可接受地悲观的。时间调整标识器250还确定百分比增加，该百分比增加在被应用于基于感知质量模型155计算的感知质量得分165时提高感知质量得分165的准确度。同时，阈值和百分比增加形成时间调整255。

在步骤418，感知质量计算器160基于感知质量模型165以及时间调整255(当存在时)计算针对编码数据195的感知质量得分165。通常，感知质量计算器160通过以任何技术上可行的方式将感知质量模型155应用于编码数据195的针对客观度量155的值和运动值248来计算感知质量得分165。

例如，在一些实施例中，感知质量计算器150执行下面结合图5概述的方法步骤，即利用经训练的感知质量模型155以获得感知质量得分165(即，针对主观度量135的值)。值得注意的是，在训练阶段期间，感知质量模型165直接结合人类对训练数据205的反馈。随后，在评分阶段期间，经训练的感知质量模型165使得该人类反馈能够被概括为任何数量和类型的源数据105。

图5是根据本发明的一个实施例的用于基于经验训练的模型计算感知视觉质量得分的值的方法步骤的流程图。尽管参考图1-3的系统描述了方法步骤，但是本领域技术人员将理解，被配置为以任何顺序实现这些方法步骤的任何系统都落入本发明的范围内。

如图所示，方法500在步骤516开始，其中感知质量计算器160接收感知质量模型155和时间调整255。在替代实施例中，可以省略时间调整255。在其他实施例中，用被设计为微调感知质量得分165的任何数量的其它调整来替代时间调整255。感知质量模型155可以以任何技术上可行的方式来生成。例如，在一些实施例中，感知质量训练器140执行图4中概述的方法步骤406-416。

在步骤518，感知质量计算器160接收源数据105。在步骤520，编码器120针对目标分辨率和/或比特率从源数据205中导出编码数据195。在步骤522，客观度量生成子系统140基于编码数据195和可选的源数据105计算针对编码数据195的客观度量145的值。客观度量生成子系统140还计算针对编码数据195的每个帧的运动值248。通常，感知质量计算器160被配置为计算感知质量模型155中的自变量的值。

在步骤524，支持向量机(SVM)映射器360将感知质量模型155应用于针对编码数据195的客观度量145的值和运动值248，以生成感知质量得分165。在步骤526，时间调整器370确定一个或多个帧的运动值248是否超过在时间调整255中指定的阈值。如果在步骤526，时间调整器370确定没有运动值248超过阈值，则感知质量计算器160认为感知质量得分165准确地预测预期的观看体验，并且方法500结束。

如果在步骤526，时间调整器370确定任何运动值248超过阈值，则时间调整器370认为帧反映高运动的时段，并且方法500进行到步骤526。在步骤526，时间调整器370将感知质量得分165增加(在时间调整255中指定的)阈值百分比以补偿在高运动时段期间的感知质量模型155的悲观情绪，并且方法500结束。

总之，可以使用所公开的技术来有效且可靠地预测感知视频质量。感知质量训练器实现支持向量机(SVM)以生成感知质量模型。值得注意的是，对于视频训练集，SVM被配置为将一组客观度量和时间运动的值融合到感知质量得分中，感知质量得分是基于人类视频观看反馈的主观视觉质量得分。随后，感知质量计算器将感知质量模型应用于针对目标视频的客观度量和时间运动的值，以生成对应的感知质量度量的值(即，视觉质量得分)。

有利地，使用由人类视觉系统进行的直接观测来训练感知质量模型使得感知质量计算器能够有效地计算质量得分，该质量得分以绝对的方式可靠地预测感知视频质量。相比之下，传统的质量度量通常会测量信号保真度，即，对真实世界观看欣赏的依赖于内容的、不一致的、并且不可靠的指示。此外，通过将初始的基于经验的训练阶段与随后的每视频确定性计算阶段分开，所公开的技术是快速和可扩展的。因此，感知质量模型既减少了开发和准确评估编码器所需的时间，又实现了对时间敏感的编码应用，例如实时质量感知流切换。

已经出于说明的目的给出了对各种实施例的描述，但并不意图是穷尽的或者限于所公开的实施例。在不脱离所描述的实施例的范围和精神的情况下，对于本领域的普通技术人员来说，许多修改和变化将是显而易见的。

本实施例的各方面可以体现为系统、方法或计算机程序产品。因此，本公开的各个方面可以采取完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)、或组合软件和硬件方面的实施例的形式，这些实施例在本文通常可以被称为“电路”、“模块”或“系统”。此外，本公开的各方面可以采取体现在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质具有体现在其上的计算机可读程序代码。

可以使用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是例如但不限于电子的、磁的、光学的、电磁的、红外的或半导体系统、装置或设备、或前述的任何合适的组合。计算机可读存储介质的更具体的示例(非穷举列表)将包括以下各项：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤、便携式光盘只读存储器(CD-ROM)、光存储设备、磁存储设备、或前述的任何合适的组合。在本文档的上下文中，计算机可读存储介质可以是可以包含或存储由指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合使用的程序的任何有形介质。

以上参照根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各方面。将理解的是，流程图和/或框图中的每个框以及流程图和/或框图中的框的组合可以通过计算机程序指令来实现。可以将这些计算机程序指令提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器，使得经由计算机或其他可编程数据处理装置的处理器执行的指令能够实现在流程图和/或框图的一个或多个框中指定的功能/动作。这样的处理器可以是但不限于通用处理器、专用处理器、专用处理器、或现场可编程处理器。

附图中的流程图和框图示出了根据本公开的各种实施例的系统、方法和计算机程序产品的可能的实现方式的架构、功能和操作。就这一点而言，流程图或框图中的每个框可以表示包括用于实现(一个或多个)指定的逻辑功能的一个或多个可执行指令的代码的模块、段或部分。还应该注意的是，在一些替代的实现方式中，框中提到的功能可以不按照附图中指出的顺序发生。例如，连续示出的两个框实际上可以基本上同时执行，或者框有时可以以相反的顺序执行，这取决于所涉及的功能。还应该注意的是，框图和/或流程图中的每个框以及框图和/或流程图中的框的组合可以由执行指定的功能或动作的基于专用硬件的系统、或专用硬件和计算机指令的组合来实现。

尽管前面涉及本公开的实施例，但是在不脱离本公开的基本范围的情况下可以设计本公开的其他和进一步的实施例，并且本公开的范围由所附的权利要求确定。

Claims

1.一种用于估计感知视频质量的计算机实现的方法，所述方法包括：

选择表示多个确定性视频特性的一组客观度量；

针对包括在一组训练视频中的每个训练视频，接收描述该训练视频的数据集，其中所述数据集包括针对感知视频质量度量的主观值和针对所述一组客观度量的一组客观值；

从所述数据集中导出复合关系，所述复合关系基于针对所述一组客观度量的一组值来确定针对所述感知视频质量度量的值；

针对目标视频，计算针对所述一组客观度量的第一组值；以及

将所述复合关系应用于所述第一组值以生成针对所述感知视频质量度量的输出值。

2.根据权利要求1所述的计算机实现的方法，其中，导出所述复合关系包括对所述数据集执行一个或多个训练操作。

3.根据权利要求2所述的计算机实现的方法，其中，对给定数据集执行一个或多个训练操作包括将支持向量机算法或人工神经网络算法应用于包括在所述数据集中的所述一组客观值。

4.根据权利要求1所述的计算机实现的方法，还包括：

确定包括在所述第一组值中的值超过预定阈值；以及

基于调整因子来修改针对感知质量度量的所述输出值。

5.根据权利要求1所述的计算机实现的方法，还包括：

基于所述目标视频的两个连续帧之间的像素差来计算运动值；

确定所述运动值超过预定阈值；以及

将针对感知质量度量的所述输出值增加预定量。

6.根据权利要求1所述的计算机实现的方法，其中，所述一组客观度量包括细节丢失度量和视觉信息保真度中的至少一个。

7.根据权利要求1所述的计算机实现的方法，其中，所述一组客观度量包括抗噪声信噪比，所述目标视频是从源视频中导出的，并且计算所述抗噪声信噪比的第一值包括：

将第一低通滤波器应用于所述源视频；

将比所述第一低通滤波器更强的第二低通滤波器应用于所述目标视频；以及

基于经滤波的源视频和经滤波的目标视频来执行一个或多个信噪比计算。

8.根据权利要求1所述的计算机实现的方法，其中，包括在所述一组训练视频中的第一训练视频包括经压缩的数据和经缩放的数据中的至少一个。

9.根据权利要求1所述的计算机实现的方法，其中，针对所述感知视频质量度量的第一主观值是从第一训练视频中导出的经重构的视频的视觉质量的人类观测得分。

10.一种包括指令的计算机可读存储介质，所述指令在由处理单元执行时使得所述处理单元通过执行以下步骤来估计感知视频质量：

选择表示多个确定性视频特性的一组客观度量；

11.根据权利要求10所述的计算机可读存储介质，其中，导出所述复合关系包括对所述数据集执行一个或多个训练操作。

12.根据权利要求10所述的计算机可读存储介质，还包括：

确定所述运动值超过预定阈值；以及

将针对感知质量度量的所述输出值增加预定量。

13.根据权利要求10所述的计算机可读存储介质，其中，包括在所述一组训练视频中的第一训练视频包括从第一原始视频中导出的经压缩的数据。

14.根据权利要求13所述的计算机可读存储介质，其中，针对所述感知视频质量度量的第一主观值指示所述第一原始视频的视觉质量与基于一个或多个解压缩操作从所述第一训练视频中导出的经重构的训练视频的视觉质量之间的变化。

15.根据权利要求13所述的计算机实现的方法，其中，针对所述感知视频质量度量的第一主观值是基于一个或多个解压缩操作从所述第一训练视频中导出的视频的视觉质量的人类观测得分。

16.根据权利要求1所述的计算机实现的方法，其中，所述一组客观度量包括抗噪声信噪比，所述目标视频是从源视频中导出的，并且计算所述抗噪声信噪比的第一值包括：

将第一低通滤波器应用于所述源视频；

17.根据权利要求10所述的计算机可读存储介质，其中，所述复合关系是等式。

18.根据权利要求17所述的计算机可读存储介质，其中，将所述复合关系应用于所述第一组值包括：求解针对包括在所述第一组值中的值的所述等式。

19.一种被配置为基于表示多个确定性视频特性的一组客观度量来估计感知视频质量的系统，所述系统包括：

编码器，被配置为从多个原始视频中生成一组训练视频；

感知质量训练器，被配置为：

针对包括在所述一组训练视频中的每个训练视频，接收描述该训练视频的数据集，其中所述数据集包括针对感知视频质量度量的主观值和针对所述一组客观度量的一组客观值；

从所述数据集中导出复合关系，所述复合关系基于针对所述一组客观度量的一组值来确定针对所述感知视频质量度量的值；以及

感知质量计算器，被配置为：

20.根据权利要求19所述的系统，其中，导出所述复合关系包括对所述数据集执行一个或多个训练操作。

21.一种用于估计感知视频质量的计算机实现的方法，所述方法包括：

针对包括在一组训练视频中的每个训练视频，接收描述该训练视频的数据集，其中所述数据集包括针对感知视频质量度量的主观值、针对运动的一组客观值、以及针对包括抗噪声信噪比、细节丢失度量和视觉信息保真度度量在内的一组客观度量的一组客观值；

从所述数据集中导出复合关系，所述复合关系基于针对所述运动的一组值和针对所述一组客观度量的一组值来确定针对所述感知视频质量度量的值；

针对目标视频，计算针对所述运动的第一组值和针对所述一组客观度量的第一组值；

将所述复合关系应用于针对所述运动的所述第一组值和针对所述一组客观度量的所述第一组值，以生成针对所述感知视频质量度量的输出值；

确定包括在针对所述运动的所述第一组值中的第一运动值超过预定阈值；以及

基于与所述运动相关联的调整因子来修改针对所述感知质量度量的所述输出值。