CN113630600A

CN113630600A - 人类视觉系统自适应视频编码

Info

Publication number: CN113630600A
Application number: CN202011354226.3A
Authority: CN
Inventors: 张习民; 李相熙; 基思·罗
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2020-05-07
Filing date: 2020-11-27
Publication date: 2021-11-09
Also published as: US12022096B2; DE102020133238A1; US20200267396A1; US20240357138A1

Abstract

本发明公开了人类视觉系统自适应视频编码。用于对视频帧进行编码的示例设备包括：掩码选择器，用于根据实际目标压缩率和GOP配置来选择视觉掩模的子集；以及复杂度估计器，用于估计当前帧的画面级空间/时间复杂度。该示例装置还包括GOP自适应视觉掩模选择器，用于从视觉掩模的子集中指定与所估计的空间和时间复杂度值相对应的视觉掩模；以及足够好画面QP推导器，用于使用视觉掩模推导出足够好画面QP值。该示例装置还包括调节器，用于基于块级人类视觉系统灵敏度和已编码帧的统计信息来调节足够好画面QP值，以获得最终人类视觉系统QP图。

Description

人类视觉系统自适应视频编码

技术领域

本发明涉及视频领域，具体地涉及人类视觉系统自适应视频编码。

背景技术

视频编解码器用于高效地对视频进行编码，以在设备之间传输或在具有特定回放支持的设备上回放。例如，一种这样的编解码器是H.264/AVC编解码器标准。

发明内容

本发明的一方面提供了一种用于对视频帧进行编码的装置，该装置包括：掩模选择器，用于根据实际目标压缩率和画面组(GOP)配置来选择视觉掩模的子集；复杂度估计器，用于估计当前帧的画面级空间和时间复杂度；GOP自适应视觉掩模选择器，用于从视觉掩模的子集中指定与所估计的空间和时间复杂度值相对应的视觉掩模；足够好画面量化参数(QP)推导器，用于使用视觉掩模来推导足够好画面QP值；以及调节器，用于基于块级人类视觉系统(HVS)灵敏度和已编码帧的统计信息来调节足够好画面QP值，以获得最终HVS QP图。

本发明的另一方面提供了一种用于对视频帧进行编码的方法，包括：根据实际目标压缩率和画面组(GOP)配置来选择视觉掩模的子集；估计当前帧的画面级空间和时间复杂度；从视觉掩模的子集中指定与所估计的空间和时间复杂度值相对应的视觉掩模；使用视觉掩模来推导足够好画面QP值；以及基于块级人类视觉系统(HVS)灵敏度和已编码帧的统计信息来调节所述足够好画面QP值，以获得最终HVS QP图。

本发明的又一方面提供了至少一种用于对视频帧进行编码的计算机可读介质，具有存储在其中的其包括指令，这些所述指令在由响应于在计算设备上被执行时而使所述计算设备至少：根据实际目标压缩率和画面组(GOP)配置来选择视觉掩模的子集；估计当前帧的画面级空间和时间复杂度；从视觉掩模的子集中指定与所估计的空间和时间复杂度值相对应的视觉掩模；使用视觉掩模来推导足够好画面QP值；以及基于块级人类视觉系统(HVS)灵敏度和已编码帧的统计信息来调节所述足够好画面QP值，以获得最终HVS QP图。

附图说明

图1是示出用于人类视觉系统自适应视频编码的示例系统的框图；

图2是用于目标速率自适应视觉掩模(mask)计算的方法的过程流程图；

图3是用于当前帧的空间/时间复杂度分析的方法的过程流程图；

图4是用于HVS QP图推导的方法的过程流程图；

图5是用于历史复杂度视觉掩蔽(masking)调节的方法的过程流程图；

图6是用于人类视觉系统自适应视频编码的方法的过程流程图；

图7是示出可以基于人类视觉系统对视频帧进行自适应编码的示例计算设备的框图；以及

图8是示出存储用于人类视觉系统自适应编码的代码的计算机可读介质的框图。

在整个公开和附图中使用相同的数字来引用相似的组件和特征。100系列中的数字是指最初在图1中找到的特征；200系列中的数字表示最初在图2中找到的特征等。

具体实施方式

比特率控制是一种将一种视频编码解决方案与其他视频编码解决方案区分开的技术。以最小比特率实现足够好的视频质量的技术是许多视频应用所期望的，特别是对于高质量的内容存储。在许多情况下，将帧大小控制为可预测值可以由应用(尤其是与网络相关的应用)使用。通过最优的比特分配，可以获得主观改进和客观改进。为了实现这些改进，在给定目标比特率的情况下，大多数速率控制算法调节每个画面的量化参数(QP)值，以控制从这些画面生成的比特，使得可以达到该目标比特率。如本文所使用的，画面可以指视频或其他画面系列中的帧。

当画面中的一个部分或对象的可见性由于另一对象和背景的存在而减少时，出现视觉掩蔽。由于视觉掩蔽，人眼对空间上具有平坦且简单的纹理的区域中的质量变化更敏感。人类对时间上的小变化也更敏感。此外，人类视觉体验还受到特定观看者对质量的期望的影响。期望值越低，越容易获得好的视觉体验。在实施例中，质量期望与压缩率和观看者对刚播放的视频片段的印象高度相关。

例如，HEVC测试模型(HM)参考速率控制算法基于帧在画面组(GOP)内的位置和目标压缩率为视频的每个帧分配大小。如本文所使用的，GOP是编码的视频流内的连续画面的集合。每个编码的视频流由连续的GOP组成。作为一个示例，如果使用GOP 8，则八个帧的GOP内的每个帧总是使用分配给所有八个帧的固定百分比的比特，并且相同数量的比特总是被分配给每个八个帧的分组。这种方法没有考虑人类视觉系统(HVS)的特征。特别地，这种类型的编码无法高效适应视频的内容，例如空间复杂度和时间相关性。结果，在一些场景和剪辑上浪费了太多的比特，而一些复杂的剪辑或视频场景的质量较低。为了实现用于高质量内容存储的足够好的质量内容，通常选择较大的目标比特率，并且相关联的存储要求是显著的。

本技术通常涉及人类视觉系统自适应编码。在实施例中，执行目标速率自适应视觉掩模计算，以通过离线训练来推导与目标压缩率和空间/时间复杂度相对应的视觉掩模集。在编码过程期间，空间/时间复杂度分析被应用于当前帧，并且视觉掩模基于空间/时间复杂度的估计进行选择。画面级足够好QP从所选择的视觉掩模中推导。基于人类视觉系统(HVS)分析，为帧的每个块调节画面级足够好QP。在实施例中，HVS分析包括块级人类视觉系统灵敏度和已编码帧的统计信息。基于HVS分析，针对每者调节画面级足够好QP，使得画面的HVS敏感区域使用较小的QP值进行编码，而画面的非HVS敏感区域使用较大的QP值进行编码。推导出的块级QP值可以根据历史复杂度分析来进一步调节。这些调节用于为当前帧生成足够好HVS QP图。HVS QP图用于限制从可变比特率(VBR)速率中控制推导出的典型QP，并且为当前帧的每个块生成最终QP。

如本文所使用的，QP值指示在编码时要应用于特定宏块的量化量。宏块或块是指由编码标准指定的帧的处理单位。QP值调节保存多少空间细节。画面级QP值是应用于整个帧的QP值，其中帧的所有块都使用画面级QP。块级QP值是应用于帧的每个块的QP值。对于给定帧，块级QP值对于每个块可以是不同的。当QP值非常小时，几乎保留了所有细节。当QP值增加时，一些细节被聚集，使得比特率以失真的一些增加和质量的一些损失为代价而下降。例如，在H.264编码标准中，QP值的范围从0到51。

图1是示出用于人类视觉系统自适应视频编码的示例系统的框图。示例系统100可以分别使用图2、3、4、5和6的方法200、300、400、500和600中的一种或多种，在图7中的计算设备700中实现。如图所示，示例系统100包括画面输入102、目标比特率输入104以及GOP结构和画面类型输入106。

对于每个视频编解码器或视频编码标准，执行目标速率自适应视觉掩模计算108以针对视频编解码器或视频编码标准所支持的所有目标压缩率推导视觉掩模集。每个标准的视觉掩模集可以基于空间/时间复杂度和GOP配置，并且该视觉掩模集是通过离线训练推导出的。在编码期间，在GOP视觉掩模选择110处选择视觉掩模的子集。在实施例中，根据与当前帧相关联的实际目标压缩率和GOP配置来选择视觉掩模的子集。视觉掩模通常是指帧的一个或多个部分的预定义可见性。例如，考虑到一般的空间/时间复杂度，与图像的更复杂部分相比，因为图像的不太复杂部分的编码伪像更加可见，所以使用高可见性掩模。

在每个帧的编码过程期间，应用空间/时间复杂度分析112。空间/时间复杂度分析112可以确定当前帧的复杂度，因为针对每个帧生成的比特的数量被用作输入画面102的复杂度度量。此外，复杂度可以被确定为与当前画面相关联的预测失真值。空间/时间复杂度分析112估计输入到足够好画面QP推导114的当前帧的画面级空间和时间复杂度。在足够好画面QP推导114处，指定的视觉掩模选自与由空间/时间复杂度分析112获得的所估计的当前帧的空间和时间复杂度值相对应的视觉掩模的子集。该视觉掩模用于估计足够好画面QP值。

足够好画面级QP值是被期望以下述视觉质量生成编码画面的当前帧的所有块的QP值：基于当前帧的复杂度和目标比特率，该视觉质量是可接受的。当生成视觉掩模集时，可以在离线训练期间推导出足够好画面级QP值。每个掩模对应于一组指定的QP值。对应于高可见性的掩模被映射到较小的QP，而对应于低可见性的掩模被映射到较大的QP。

该估计的足够好画面QP值被发送到基于HVS的块调节模块116，其中，基于当前帧的每个宏块/块的块级HVS灵敏度来调节足够好画面QP值。在这样做时，HVS敏感块可以使用较小的QP值，而非HVS敏感块可以使用较大的QP值。将针对当前帧的块的经调节的足够好画面QP值发送到历史复杂度视觉掩蔽调节模块118。在历史复杂度视觉掩蔽调节模块118处，根据先前编码帧的实际编码统计信息来进一步调节经调节的QP。针对当前帧中的每个块获得最终HVS QP图，并且将其用于最终QP决策块120。确定利用可变比特率控制VBR的画面级QP估计124，并将其作为输入提供给最终QP决策块120。利用可变比特率控制(VBR)的画面级QP估计124推导出初始QP以对当前帧进行编码。在实施例中，在给定目标比特率的情况下，针对整个帧确定初始QP，并且速率控制算法调节GOP中每个画面的QP值以控制从画面生成的比特，使得可以达到目标比特率。

在最终QP决策块120处，针对每个块，将初始QP与从历史复杂度视觉掩蔽调节模块118获得的HVS QP图进行比较。对于每个块，如果初始QP值小于来自HVS QP图的相应块的QP值，则为当前块选择来自HVS QP图的QP值，并将其用于后续编码过程。编码器126在框126处继续对当前帧进行编码，并且将先前编码帧的编码统计信息提供给历史复杂度视觉掩蔽调节118和利用VBR速率控制的画面QP估计124。

图1的图并不旨在指示示例系统100将包括图1所示的所有组件。相反，示例系统100可以使用更少或附加的图1中未示出的组件来实现(例如，附加统计、QP、编码器等)。

以这种方式，本技术提供了一种目标速率自适应视觉掩模估计，其定义了从足够好画面QP值推导中得到的足够好的画面质量。此外，历史复杂度分析利用人类视觉系统的视觉记忆效果来动态调节目标速率自适应视觉掩模。此外，开发了根据本技术的系统以将提取的视觉掩模集成到传统的速率控制中。结果，速率控制在简单场景上自动分配较少的比特，而在复杂场景上使用保存的比特。整体质量可以提高。此外，本技术使用单遍编码而不需要多遍来编码。

图2是用于目标速率自适应视觉掩模计算的方法200的过程流程图。示例方法200可以在图1的系统100、图7的计算设备700或图8的计算机可读介质800中实现。如上所述，人类视觉质量印象与期望高度相关。该期望与目标比特率(压缩率)和历史质量信息相关。因此，目标比特率自适应可以与传统的空间/时间复杂度分析相结合以推导新的目标自适应视觉掩模。

在框202处，针对一个或多个视频片段计算基于复杂度的视觉掩模。为了计算视觉掩模集，接收目标比特率，并且用不同的QP值对一个或多个视频片段进行编码。视频片段可以从测试数据集获得，该测试数据集包括用于具有不同复杂度的离线训练的视频片段。推导出可以为每个视频片段生成视觉无损质量的最大QP值。为了确定最大QP，专家组对实时显示的编码比特流进行评估，并找出可以产生视觉无损质量的最大QP。该评估可以针对每种视频编码标准进行。在实施例中，专家组可以基于他们自己对QP值对每个片段的影响的视觉观察来设置片段的最大QP值。在实施例中，空间/时间分析被应用于共享相同视觉无损QP值的片段。共享相同视觉无损QP的片段被分组在一起。将空间/时间复杂度分析应用于每个组，并获得该组的平均复杂度值。然后，针对每个片段组计算基于复杂度的视觉掩模。因此，建立了基于复杂度的视觉掩模，其中，以复杂度为输入，以组QP为输出。

在框204处，使用不同的压缩率对多个片段中的每个片段进行编码。从目标比特率推导出不同的压缩率。可以根据使用的特定视频编码标准来识别目标比特率。在该编码期间，对于每个压缩率范围，计算平均QP值。该平均QP值可以被称为足够好QP值。

在框206处，对于所使用的每个压缩率或目标比特率，调节来自框202的视觉掩模以生成相应的压缩率的指定视觉掩模。在实施例中，如果在框204处得到的平均QP值大于在框202处得到的组QP的中值，则通过逐渐增加由每个复杂度产生的QP值来调节视觉掩模。对于每个复杂度范围，增加步长是不同的。在实施例中，复杂度越大，QP中的增加步长越大。获得了足够好二维QP查找表，该足够好二维QP查找表将复杂度和压缩率作为输入用于查找。在实施例中，图2中描述的目标速率视觉掩模计算可以应用于不同的GOP配置，以相应地生成足够好QP查找表。在编码过程期间，选择与实际GOP和压缩率相对应的QP查找表。

该过程流程图并不旨在指示示例方法200的框将以任何特定顺序执行，或者在每种情况下都将包括所有框。此外，取决于特定实施方式的细节，示例方法200内可以包括任何数量的未示出的附加框。

作为示例，考虑被划分为20级的帧级复杂度。一种高压缩率的示例QP查找表可以如下所示。每个QP值对应于帧级复杂度级。{18，19，20，21，22，23，24，25，26，27，28，29，30，31，32，33，34，35，36，37}

图3是用于当前帧的空间/时间复杂度分析的方法300的过程流程图。示例方法300可以在图1系统100、图7的计算设备700或图8的计算机可读介质800中实现。

方法300提供了具有针对下采样视频的简化编码预测过程的复杂度分析。在框302处，对输入画面进行下采样。在框304处，用恒定的QP对下采样的输入画面进行编码。在框306处，获得每个画面的预测失真，以用作空间/时间复杂度估计。每个画面的预测失真(来自针对下采样视频的简化编码预测过程)被用作画面复杂度估计结果。在实施例中，预测失真表示原始帧和相应参考帧之间的预测失真。

该过程流程图并不旨在指示示例方法300的框将以任何特定顺序执行，或者在每种情况下都将包括所有框。此外，取决于特定实施方式的细节，示例方法300内可以包括任何数量的未示出的附加框。

图4是用于HVS QP图推导的方法400的过程流程图。示例方法400可以在图1的系统100、图7的计算设备700或图8的计算机可读介质800中实现。

在框402处，每个块根据其预测失真被分类。在实施例中，可以应用阈值以将每个块分为两个类。第一类块具有高于阈值的预测失真。在实施例中，阈值可以通过经验调查来确定。第二类块具有小于或等于阈值的预测失真。

在框404处，使用块方差来确定具有高于阈值的预测失真的第一类块的正增量QP。每个块的正增量QP被应用为画面级QP之上的QP的增加而应用。在框406处，使用块方差来确定具有小于或等于阈值的预测失真的第二类块的负增量QP。每个块的负增量QP被应用为块QP相对于画面级QP的减少。来自关于图4描述的基于HVS的块调节的块QP可以使用历史复杂度视觉掩蔽调节来进一步调节。

该过程流程图并不旨在指示示例方法400的框将以任何特定顺序执行，或者在所有情况下都将包括所有框。此外，取决于具体实施方式的细节，示例方法400内可以包括任何数量的未示出的附加框。

图5是用于历史复杂度视觉掩蔽调节的方法500的过程流程图。示例方法500可以在图1的系统100、图7的计算设备700或图8的计算机可读介质800中实现。

在框502处，将平均历史QP值与推导出的画面级足够好QP值进行比较。例如，在图1的框114处得到推导出的画面级足够好QP。可以提供平均历史QP值作为来自图1的编码器126的先前编码帧的编码统计信息。先前编码的画面的平均历史QP值可以例如是四个最接近的编码帧的平均画面级QP。在框504处，将先前编码的画面的平均历史QP值与推导出的画面级足够好QP值进行比较。如果平均历史QP值小于推导出的画面级足够好QP值，则处理流程继续到框506。在框506处，调节推导出的画面级足够好QP。特别地，如果画面级足够好QP值大于平均历史QP加上阈值，则将最终足够好QP值设置为等于平均历史QP值加上阈值。如果推导出的画面级足够好QP小于或等于平均历史QP，则处理流程继续到框508。在框508处，将画面级足够好QP用于HVS QP图。如上所述，可以在框120(图1)进行最终QP决策。

该过程流程图并不旨在指示示例方法500的框将以任何特定顺序执行，或者在所有情况下都将包括所有框。此外，取决于具体实施方式的细节，示例方法500内可以包括任何数量的未示出的附加框。

图6是用于人类视觉系统自适应视频编码的方法600的过程流程图。示例方法600可以在图1的系统100、图7的计算设备700或图8的计算机可读介质800中实现。此外，示例方法600可以分别经由图2-5的方法200、300、400和500实现。

在框602处，选择视觉掩模的子集。在框604处，估计当前帧的画面级空间/时间复杂度。在框606处，基于所估计的当前帧的空间/时间复杂度，从视觉掩模的子集中指定视觉掩模。在框608处，使用视觉掩模推导出画面级足够好QP值。在框610处，基于块级人类视觉系统灵敏度来调节画面级足够好QP值。在框612处，基于来自先前编码帧的编码统计信息来进一步调节画面级足够好QP值，以获得最终人类视觉系统QP图。在实施例中，可以将来自HVS QP图的块级QP值与初始QP进行比较。可以使用可变比特率控制来推导出初始QP。在最终QP决策之后，可以使用最终QP对当前帧进行编码。

该过程流程图并不旨在指示示例方法600的框将以任何特定顺序执行，或者在所有情况下都将包括所有框。此外，取决于具体实施方式的细节，示例方法600内可以包括任何数量的未示出的附加框。

现在参考图7，示出了可以基于人类视觉系统对视频帧进行自适应编码的示例计算设备的框图。计算设备700可以是例如膝上型计算机、台式计算机、平板计算机、移动设备或可穿戴设备等。在一些示例中，计算设备700可以是流式视频捕获设备，诸如安全摄像机或其他摄像机。计算设备700可以包括被配置为执行存储的指令的中央处理单元(CPU)702、以及存储CPU 702可执行的指令的存储器设备704。CPU 702可以通过总线706耦合至存储器设备704。另外，CPU 702可以是单核处理器、多核处理器、计算集群或任何数量的其他配置。此外，计算设备700可以包括多于一个CPU702。在一些示例中，CPU 702可以是具有多核处理器架构的片上系统(SoC)。在一些示例中，CPU 702可以是用于图像处理的专用数字信号处理器(DSP)。存储器设备704可以包括随机存取存储器(RAM)、只读存储器(ROM)、闪存或任何其他合适的存储器系统。例如，存储器设备704可以包括动态随机存取存储器(DRAM)。

存储器设备704可以包括随机存取存储器(RAM)、只读存储器(ROM)、闪存或任何其他合适的存储器系统。例如，存储器设备704可以包括动态随机存取存储器(DRAM)。

计算设备700还可以包括图形处理单元(GPU)708。如图所示，CPU 702可以通过总线706耦合到GPU 708。GPU 708可以被配置为在计算设备700内执行任何数量的图形操作。例如，GPU 708可以被配置为渲染或操纵要显示给计算设备700的用户的图形图像、图形帧、视频等。

存储器设备704可以包括随机存取存储器(RAM)、只读存储器(ROM)、闪存或任何其他合适的存储器系统。例如，存储器设备704可以包括动态随机存取存储器(DRAM)。存储器设备704可以包括设备驱动器710，其被配置为执行指令以用于训练多个卷积神经网络执行与序列无关的处理。设备驱动器710可以是软件、应用、应用代码等。

CPU 702还可以通过总线706连接到被配置为将计算设备700连接到一个或多个I/O设备714的输入/输出(I/O)设备接口712。I/O设备714可以包括例如键盘和指示设备，其中指示设备可以包括触摸板或触摸屏等。I/O设备714可以是计算设备700的内置组件，或者可以是从外部连接到计算设备700的设备。在一些示例中，存储器704可以通过直接存储器存取(DMA)通信地耦合到I/O设备714。

CPU 702还可以通过总线706链接到配置为将计算设备700连接到显示设备718的显示器接口716。显示设备718可以包括作为计算设备700的内置组件的显示屏。显示设备718还可以包括在计算设备700内部或从外部连接到计算设备700的计算机监视器、电视或投影仪。

计算设备700还包括存储器设备720。存储器设备720是诸如硬盘驱动器、光盘驱动器、拇指驱动器、驱动器阵列、固态驱动器或其任何组合的物理存储器。存储器设备720还可以包括远程存储驱动器。

计算设备700还可以包括网络接口控制器(NIC)722。NIC 722可以被配置为通过总线706将计算设备700连接到网络724。网络724可以是广域网(WAN)、局域网(LAN)或因特网等。在一些示例中，该设备可以通过无线技术与其他设备通信。例如，该设备可以经由无线局域网连接与其他设备通信。在一些示例中，该设备可以经由

或类似技术与其他设备连接和通信。

计算设备700还包括相机726。例如，相机726可以包括一个或多个成像传感器。在一些示例中，相机726可以包括用于生成视频帧的处理器。

计算设备700还包括HVS自适应编码器728。例如，HVS自适应编码器728可以用于基于检测到的运动对视频帧进行自适应编码。HVS自适应编码器728可以包括复杂度估计器730、掩模选择器732、足够好QP推导器734、HVS/历史调节器736、最终QP选择器738以及编码器740。在一些示例中，HVS自适应编码器728的每个组件730-740可以是微控制器、嵌入式处理器或软件模块。复杂度估计器730可以估计当前帧的画面级空间/时间复杂度。掩模选择器732可以基于估计的空间/时间复杂度从视觉掩模的子集中指定视觉掩模。足够好QP推导器734可以使用视觉掩模推导出画面级足够好QP。HVS/历史调节器736可以基于块级人类视觉系统灵敏度来调节画面级足够好QP。HVS/历史调节器736还可以基于来自先前编码帧的编码统计信息来调节画面级足够好QP，以获得最终人类视觉系统QP图。最终QP选择器738可以将来自HVS QP图的块级QP值与初始QP进行比较，以做出最终QP决策。可以使用可变比特率控制来推导出初始QP。编码器740可以使用最终QP对当前帧进行编码。

图7的框图并不旨在指示计算设备700将包括图7所示的所有组件。相反，计算设备700可以包括更少或附加的图7中未示出的组件，诸如附加缓冲器、附加处理器等。取决于具体实施方式的细节，计算设备700可以包括图7中未示出的任何数量的附加组件。此外，复杂度估计器730、掩模选择器732、足够好QP推导器734、HVS/历史调节器736、最终QP选择器738和编码器740的任何功能可以部分或全部地在硬件和/或处理器702中实现。例如，该功能可以用专用集成电路实现、在处理器702中实现的逻辑中实现或在任何其他设备中实现。另外，CPU 702的任何功能可以部分地或全部地在硬件和/或处理器中实现。例如，HVS自适应编码器728的功能可以利用专用集成电路，以在处理器中实现的逻辑，以在诸如GPU 708之类的专用图形处理单元中实现的逻辑，或以何其他设备来实现。

图8是示出存储用于人类视觉系统自适应编码的代码的计算机可读介质800的框图。计算机可读介质800可以由处理器802通过计算机总线804访问。此外，计算机可读介质800可以包括被配置为指导处理器802执行本文描述的方法的代码。在一些实施例中，计算机可读介质800可以是非暂态计算机可读介质。在一些示例中，计算机可读介质800可以是存储介质。

如图8所示，本文讨论的各种软件组件可以被存储在一种或多种计算机可读介质800上。例如，复杂度估计器模块806可以估计当前帧的画面级空间/时间复杂度。掩模选择器模块808可以基于所估计的空间/时间复杂度从视觉掩模的子集中指定视觉掩模。足够好QP推导器模块810可以使用视觉掩模推导出画面级足够好QP。HVS/历史调节器模块812可以基于块级人类视觉系统灵敏度来调节画面级足够好QP。HVS/历史调节器模块812还可以基于来自先前编码帧的编码统计信息来调节画面级足够好QP，以获得最终人类视觉系统QP图。最终QP选择器模块816可以将来自HVS QP图的块级QP值与初始QP进行比较，以做出最终QP决策。初始QP可以使用可变比特率控制来推导。编码器模块818可以使用最终QP对当前帧进行编码。

图8的框图并不旨在指示计算机可读介质800将包括图8所示的所有组件。此外，取决于具体实施方式的细节，计算机可读介质800可以包括图8中未示出的任何数量的附加组件。

示例1是用于对视频帧进行编码的装置。该装置包括掩模选择器，用于根据实际目标压缩率和画面组(GOP)配置来选择视觉掩模的子集。装置还包括复杂度估计器，用于估计当前帧的画面级空间/时间复杂度；以及GOP自适应视觉掩模选择器，用于从视觉掩模的子集中指定与所估计的空间和时间复杂度值相对应的视觉掩模。此外，该装置还包括足够好画面QP推导器，用于使用视觉掩模来推导出足够好画面QP值；以及调节器，用于基于块级人类视觉系统灵敏度和已编码帧的统计信息来调节足够好画面QP值，以获得最终人类视觉系统QP图。

示例2包括示例1的装置，包括或不包括可选特征。在该示例中，最终人类视觉系统QP图为所述当前帧的每个块指定QP值。

示例3包括示例1至2中任一项的装置，包括或不包括可选特征。在该示例中，.最终QP值是通过针对每个块将初始QP值与HVS QP图进行比较来获得的，并且响应于初始QP值小于HVS QP图中的相应QP值，HVS QP图中的相应QP值被选择用于当前块，并用于后续编码过程。

示例4包括示例1至3中任一项的装置，包括或不包括可选特征。在该示例中，目标速率自适应视觉掩模计算被执行以通过离线训练来推导针对视频编码标准的支持的目标压缩率、空间/时间复杂度和GOP配置的视觉掩模集。

示例5包括示例1至4中任一项的装置，包括或不包括可选特征。在该示例中，画面级空间/时间复杂度是根据针对每个画面获得的预测失真值来估计的。

示例6包括示例1至5中任一项的装置，包括或不包括可选特征。在此示例中，GOP自适应掩模选择器使用GOP配置作为输入并使用组QP作为输出来指定视觉掩模。

示例7包括示例1至6中任一项的装置，包括或不包括可选特征。在该示例中，视觉掩模用于推导出二维足够好QP查找表，该二维足够好查找表将复杂度和压缩率作为输入用于查找。

示例8包括示例1至7中任一项的装置，包括或不包括可选特征。在该示例中，在编码过程期间，与当前GOP和压缩率相对应的QP查找表被选择。

示例9是用于对视频帧进行编码的方法。该方法包括根据实际目标压缩率和画面组(GOP)配置来选择视觉掩模的子集。该方法还估计当前帧的画面级空间/时间复杂度并从视觉掩模的子集中指定与估计的空间和时间复杂度值相对应的视觉掩模。该方法还包括使用视觉掩模推导出足够好画面QP值并基于块级人类视觉系统的灵敏度和已编码帧的统计信息来调节足够好画面QP值，以获得最终人类视觉系统QP图。

示例10包括示例9的方法，包括或不包括可选特征。在该示例中，最终人类视觉系统QP图为当前帧的每个块指定QP值。

示例11包括示例9至10中任一项的方法，包括或不包括可选特征。在该示例中，最终QP值是通过针对每个块将初始QP值与HVS QP图进行比较来获得的，并且响应于初始QP值小于HVS QP图中的相应QP值，HVS QP图中的相应QP值被选择用于当前块，并用于后续编码过程。

示例12包括示例9至11中任一项的方法，包括或不包括可选特征。在该示例中，目标速率自适应视觉掩模计算被执行以通过离线训练来推导针对视频编码标准支持的目标压缩率、空间/时间复杂度和GOP配置的视觉掩模集。

示例13包括示例9至12中任一项的方法，包括或不包括可选特征。在该示例中，画面级空间/时间复杂度是根据针对每个画面获得的预测失真值来估计的。

示例14包括示例9至13中任一项的方法，包括或不包括可选特征。在该示例中，该方法包括使用复杂度作为所述输入并且使用组QP作为输出来指定视觉掩模。

示例15包括示例9至14中任一项的方法，包括或不包括可选特征。在该示例中，视觉掩模用于推导出二维足够好QP查找表，该二维足够好查找表将复杂度和压缩率输入用于查找。

示例16包括示例9至15中任一项的方法，包括或不包括可选特征。在该示例中，在编码过程期间，与当前GOP和压缩率相对应的QP查找表被选择。

示例17是至少一种用于对视频帧进行编码的计算机可读介质，具有存储在其中的指令。该计算机可读介质包括指导处理器根据实际目标压缩率和图像组(GOP)配置来选择视觉掩模子集的指令。指令还指导处理器估计当前帧的图像级空间/时间复杂度，并从视觉掩码的子集中指定与所估计的空间和时间复杂度值相对应的视觉掩码。此外，指令指导处理器使用视觉掩模来推导出足够好画面QP值，并基于块级人类视觉系统灵敏度和已编码帧的统计信息来调节足够好画面QP值以获得最终人类视觉系统QP图。

示例18包括示例17的计算机可读介质，包括或不包括可选特征。在该示例中，最终人类视觉系统QP图为当前帧的每个块指定QP值。

示例19包括示例17至18中任一项的计算机可读介质，包括或不包括可选特征。在该示例中，最终QP值是通过针对每个块将初始QP值与HVS QP图进行比较来获得的，并且响应于初始QP值小于HVS QP图中的相应QP值，HVS QP图中的相应QP值被选择用于当前块，并用于后续编码过程。

示例20包括示例17至19中任一项的计算机可读介质，包括或不包括可选特征。在该示例中，目标速率自适应视觉掩模计算被执行以通过离线训练来推导针对视频编码标准的支持的目标压缩率、空间/时间复杂度和GOP配置的视觉掩模集。

示例21包括示例17至20中任一项的计算机可读介质，包括或不包括可选特征。在该示例中，画面级空间/时间复杂度是根据针对每个画面获得的预测失真值来估计的。

示例22包括示例17至21中的任一项的计算机可读介质，包括或不包括可选特征。在该示例中，计算机可读介质包括使用复杂度作为输入并且使用组QP作为输出来指定视觉掩模。

示例23包括示例17至22中任一项的计算机可读介质，包括或不包括可选特征。在该示例中，视觉掩模用于推导出二维足够好QP查找表，该二维足够好查找表将复杂度和压缩率作为输入用于查找。

示例24包括示例17至23中任一项的计算机可读介质，包括或不包括可选特征。在该示例中，在编码过程期间，与当前GOP和压缩率相对应的QP查找表被选择。

并非本文描述和示出的所有组件、特征、结构、特性等都需要包括在一个或多个特定方面中。如果说明书指出组件、特征、结构或特性“可”、“可以”、“能”或“能够”被包括，则该特定组件、特征、结构或特性不是必须被包括。如果说明书或权利要求书提及“一”元素，则这并不意味着仅存在一个元素。如果说明书或权利要求书提及“附加”元素，则不排除存在多于一个的附加元素。

要注意的是，尽管已经参考特定实施方式描述了一些方面，但是根据一些方面，其他实施方式也是可能的。另外，在附图中示出的和/或本文描述的电路元件或其他特征的布置和/或顺序不需要以所示出的和描述的特定方式布置。根据一些方面，许多其他布置是可能的。

在附图中所示的每个系统中，在一些情况下，元件可以各自具有相同的附图标记或不同的附图标记，以表明所表示的元件可以是不同的和/或相似的。然而，元件可以足够灵活，以具有不同的实施方式并且与本文所示出或描述的一些或全部系统一起工作。附图中所示的各种元件可以相同或不同。哪个被称为第一元件，哪个被称为第二元件素是任意的。

应该理解，前述示例中的细节可以在一个或多个方面的任何地方使用。例如，上述计算设备的所有可选特征也可以相对于本文描述的方法或计算机可读介质来实现。此外，尽管流程图和/或状态图可以在本文中用于描述各方面，但是该技术不限于这些附图或本文中的相应描述。例如，流程不需要移动通过每个所示的框或状态，或者以与本文所示和描述的完全相同的顺序移动。

本技术不限于本文列出的具体细节。实际上，受益于本公开的本领域技术人员将认识到，可以在本技术的范围内对前述描述和附图进行许多其他变型。因此，包括对其的任何修改的所附权利要求书限定了本技术范围。

Claims

1.一种用于对视频帧进行编码的装置，所述装置包括：

掩模选择器，用于根据实际目标压缩率和画面组(GOP)配置来选择视觉掩模的子集；

复杂度估计器，用于估计当前帧的画面级空间和时间复杂度；

GOP自适应视觉掩模选择器，用于从所述视觉掩模的子集中指定与所估计的空间和时间复杂度值相对应的视觉掩模；

足够好画面量化参数(QP)推导器，用于使用所述视觉掩模来推导足够好画面QP值；以及

调节器，用于基于块级人类视觉系统(HVS)灵敏度和已编码帧的统计信息来调节足够好画面QP值，以获得最终HVS QP图。

2.根据权利要求1所述的装置，其中，所述最终HVS QP图用于为所述当前帧的每个块指定QP值。

3.根据权利要求1或2所述的装置，还包括最终QP选择器，用于：

针对每个块，执行初始QP值与所述HVS QP图的比较，以获得最终QP值；以及

响应于所述初始QP值小于所述HVS QP图中的相应QP值，为当前块选择所述HVS QP图中的所述相应QP值以用于后续编码过程。

4.根据权利要求1或2所述的装置，其中，所述掩模选择器用于执行目标速率自适应视觉掩模计算，以通过离线训练来推导针对视频编码标准的支持的目标压缩率、空间和时间复杂度以及GOP配置的视觉掩模集。

5.根据权利要求1或2所述的装置，其中，所述复杂度估计器用于根据针对每个画面获得的预测失真值来估计所述画面级空间和时间复杂度。

6.根据权利要求1或2所述的装置，其中，所述GOP自适应掩模选择器用于使用GOP配置作为输入并使用组QP作为输出来指定所述视觉掩模。

7.根据权利要求1或2所述的装置，其中，所述足够好画面QP推导器用于使用所述视觉掩模来推导二维足够好QP查找表，所述二维足够好查找表将复杂度和压缩率作为输入用于查找。

8.根据权利要求1或2所述的装置，其中，在编码过程期间，所述调节器用于选择与当前GOP和压缩率相对应的QP查找表。

9.一种用于对视频帧进行编码的方法，包括：

根据实际目标压缩率和画面组(GOP)配置来选择视觉掩模的子集；

估计当前帧的画面级空间和时间复杂度；

从所述视觉掩模的子集中指定与所估计的空间和时间复杂度值相对应的视觉掩模；

使用所述视觉掩模来推导足够好画面QP值；以及

基于块级人类视觉系统(HVS)灵敏度和已编码帧的统计信息来调节所述足够好画面QP值，以获得最终HVS QP图。

10.根据权利要求9所述的方法，还包括：

11.根据权利要求9或10所述的方法，还包括：执行目标速率自适应视觉掩模计算，以通过离线训练来推导针对视频编码标准的支持的目标压缩率、空间和时间复杂度以及GOP配置的视觉掩模集。

12.根据权利要求9或10所述的方法，还包括：根据针对每个画面获得的预测失真值来估计所述画面级空间和时间复杂度。

13.根据权利要求9或10所述的方法，还包括：使用复杂度作为输入并使用组QP作为输出来指定所述视觉掩模。

14.根据权利要求9或10所述的方法，还包括：使用所述视觉掩模来推导二维足够好QP查找表，所述二维足够好QP查找表将复杂度和压缩率作为输入用于查找。

15.至少一种用于对视频帧进行编码的计算机可读介质，其包括指令，所述指令在由计算设备执行时使所述计算设备至少：

估计当前帧的画面级空间和时间复杂度；

使用所述视觉掩模来推导足够好画面QP值；以及

16.根据权利要求15所述的至少一种计算机可读介质，其中，所述指令在被执行时使所述计算设备：

17.根据权利要求15或16所述的至少一种计算机可读介质，其中，所述指令在被执行时使所述计算设备执行目标速率自适应视觉掩模计算，以通过离线训练来推导针对视频编码标准的支持的目标压缩率、空间和时间复杂度以及GOP配置的视觉掩模集。

18.根据权利要求15或16所述的至少一个计算机可读介质，其中，所述指令在被执行时使所述计算设备根据针对每个画面获得的预测失真值来估计所述画面级空间和时间复杂度。

19.根据权利要求15或16所述的至少一种计算机可读介质，其中，所述指令在被执行时使所述计算设备使用复杂度作为输入并使用组QP作为输出来指定所述视觉掩模。

20.根据权利要求15或16所述的至少一种计算机可读介质，其中，所述指令在被执行时使所述计算设备使用所述视觉掩模来推导二维足够好QP查找表，所述二维足够好QP查找表将复杂度和压缩率作为输入用于查找。

21.一种装置，包括：

第一选择装置，用于根据实际目标压缩率和画面组(GOP)配置来选择视觉掩模的子集；

估计装置，用于估计当前帧的画面级空间和时间复杂度；

第二选择装置，用于从所述视觉掩模的子集中指定与所估计的空间和时间复杂度值相对应的视觉掩模；

推导装置，用于使用所述视觉掩模来推导足够好画面QP值；以及

调节装置，用于基于块级人类视觉系统(HVS)灵敏度和已编码帧的统计信息来调节足够好画面QP值，以获得最终HVS QP图。

22.根据权利要求21所述的装置，其中，所述第一选择装置用于执行目标速率自适应视觉掩模计算，以通过离线训练来推导针对视频编码标准的支持的目标压缩率、空间和时间复杂度以及GOP配置的视觉掩模集。

23.根据权利要求21或22所述的装置，其中，所述估计装置用于根据针对每个画面获得的预测失真值来估计所述画面级空间和时间复杂度。

24.根据权利要求21或22所述的装置，其中，所述第二选择装置用于使用复杂度作为输入并使用组QP作为输出来指定所述视觉掩模。

25.根据权利要求21或22所述的装置，其中，所述推导装置用于使用所述视觉掩模来推导二维足够好QP查找表，所述二维足够好QP查找表将复杂度和压缩率作为输入用于查找。