CN114342407A

CN114342407A - 感兴趣区域感知自适应分辨率视频编码

Info

Publication number: CN114342407A
Application number: CN201980099921.9A
Authority: CN
Inventors: 张翠姗; 孫域晨; 楼剑
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2022-04-12
Also published as: WO2021102880A1

Abstract

方法和系统被提供用于支持基于从相同图像数据导出的不同分辨率的参考帧对输出帧进行分辨率自适应视频编码以进行显示，每个帧通过不同方法基于源图像数据的感兴趣区域被压缩，从而保存计算资源并且改进压缩效率。本文描述的方法和系统提供一种视频编码器，所述视频编码器：从源帧生成具有不同分辨率的多个帧的分组；确定将所述分组的每个帧划分成多个不同相对视觉感兴趣区域；针对参考帧的至少两个不同区域利用不同编码模式来对所述分组的所述参考帧进行编码；以及针对输出帧的至少两个不同区域利用不同编码模式来对所述分组的所述输出帧进行编码。

Description

感兴趣区域感知自适应分辨率视频编码

背景技术

在诸如H.264/AVC(高级视频编码)和H.265/HEVC(高效率视频编码)标准的常规视频编码格式中，序列中的视频帧使其大小和分辨率被在序列级别下记录在头部中。因此，为了改变帧分辨率，必须从帧内编码帧开始生成新的视频序列，所述帧内编码帧与帧间编码帧比承载显著更大的发送带宽成本。因此，尽管期望在网络带宽变低、减少或节流时通过网络自适应地发送下采样的低分辨率视频，但是难以在使用常规视频编码格式的同时实现带宽节省，因为自适应地下采样的带宽成本抵消带宽增益。

已对支持在发送编码帧的同时改变分辨率进行了研究。在由AOM开发的AV1编解码器的实现方式中，并且在下一代视频编解码器规范的开发中，提供了VVC、新的帧类型和新的运动预测编码工具。一般而言，可以以各种方式实现对引用具有不同分辨率的先前帧的帧的编码的支持，以实现降低带宽成本的目标。

实现此类技术的结果将是编码器可以将各种分辨率的帧输出到位流中，并且可以使用任何其他分辨率或许多其他分辨率的参考帧的运动信息来对帧进行编码以进行显示。因此，期望优化在位流中发送的帧数据的编码以便利用可变分辨率位流数据来促进运动预测和运动补偿，减少计算资源的消耗，并且改进压缩效率。

附图说明

参考附图阐述详细描述。在各图中，附图标记的最左边数字标识该附图标记首次出现在其中的图。在不同图中使用相同的附图标记指示类似或相同的项目或特征。

图1图示根据本公开的示例实施例的根据相应视觉兴趣来将帧划分成区域的示例。

图2图示如由根据本公开的示例实施例的视频编码器所生成的全部从同一源帧导出的具有不同分辨率的多个帧的分组。

图3图示根据本公开的示例实施例的感兴趣区域感知编码方法。

图4图示用于实现本文描述的用于在视频编码器中实现针对感兴趣区域感知编码方法的支持的过程和方法的示例系统。

具体实施方式

本文讨论的系统和方法致力于在视频编码器中支持自适应分辨率变化，并且更具体地，实现改进计算资源分配和压缩效率的感兴趣区域感知编码方法。

根据被实现为与AVC、HEVC、VP9以及实现可变分辨率帧的此类视频编码标准兼容的本公开的示例实施例，可以将帧细分成宏块(“MB”)，每个宏块具有16x16像素的尺寸，所述16x16像素可以被进一步细分成分区。根据被实现为与HEVC标准兼容的本公开的示例实施例，可以将帧细分成编码树单元(“CTU”)，其亮度(“亮度(luma)”)和色度(“色度(chroma)”)分量可以被进一步细分成编码树块(“CTB”)，这些编码树块被进一步细分成编码单元(“CU”)。根据作为其他标准实现的本公开的示例实施例，可以将帧细分成NxN像素的单元，这些单元然后可以被进一步细分成子单元。出于本公开的目的，可以通常将帧的这些最大细分单元中的每一个称为“块”。

根据本公开的示例实施例，运动预测编码格式可以是指这样的数据格式，其中视频帧的图像数据是通过通过包括对一个或多个其他帧的运动信息和预测单元(“PU”)的一个或多个参考用帧的运动矢量信息和预测信息进行编码来压缩的。运动信息可以是指描述帧或其单元或子单元的块结构的运动的数据，诸如运动矢量和对当前帧或另一帧的块的参考。PU可以是指与帧的多个块结构(诸如MB或CTU)当中的块结构相对应的单元或多个子单元，其中块基于帧数据被分区并且根据确立的视频编解码器被编码。与PU相对应的运动信息可以描述如由任何运动矢量编码工具所编码的运动预测，包括但不限于本文描述的那些。

根据运动预测编码的视频编码器可以从视频源获得帧并且对该帧进行编码以获得可以被最终输出以进行显示的重建帧。重建帧和重建帧的块可以被帧内编码，其中重建帧的至少一些运动信息是指重建帧中别处的运动信息，或者被帧间编码，其中重建帧的至少一些运动信息是指另一帧的运动信息。一般而言，根据本公开的示例实施例的帧及其块可以根据帧内编码或帧间编码的运动预测被编码，除非任何一个被明确地指定。

依照如由阿里巴巴集团所提出的自适应分辨率变化(“ARC”)编码技术，视频编码器可以在各种不同分辨率中以压缩格式对来自视频源的帧进行编码并且在可变分辨率位流中发送经编码的帧，然而视频解码器可以随后从可变分辨率位流获得编码帧并且使用可变分辨率帧来执行运动补偿以重建这些帧以进行显示。因此，应该理解，根据本公开的示例实施例的视频位流通过此类技术的实现方式可以是可变分辨率，此类技术的细节在此不再赘述。

根据ARC的可变分辨率位流可以包括不同分辨率的多个帧，这多个帧包含全部从同一源帧导出的图像数据。多个帧的此类分组可以包括具有与原始帧的分辨率相同的分辨率的输出帧，并且可以对此输出帧进行编码以被输出以进行显示。多个帧的此类分组还可以包括各自具有与原始帧的分辨率不同的分辨率的任何数量的参考帧，并且这些参考帧可以被编码但是可能未被最终输出以进行显示。

根据本公开的示例实施例的视频编码器可以通过将源帧的图像数据上采样或下采样到各种不同分辨率来生成全部从同一源帧导出的不同分辨率的多个帧的分组。根据本公开的示例实施例的上采样或下采样算法可以包括插值、平均、双线性算法、训练算法或任何其他合适的算法。

根据ARC实现的解码器可以操作来参考从相同原始帧导出的不同分辨率的任何数量的参考帧来对输出帧进行解码。其实现方式的细节在此不再赘述。

本公开的示例实施例提供了通过对作为参考帧全部从同一源帧导出的不同分辨率的多个帧进行编码来改进压缩要输出以进行显示的帧的效率的方法。根据本公开的示例实施例，要编码的帧可以在编码之前基于该帧的图像数据被划分成像素的区域，从而变成根据人类观众对每个相应区域中的图像数据的多个相应视觉感兴趣区域。图1图示根据本公开的示例实施例的根据相应视觉兴趣将帧100划分成区域的示例。

可以将帧划分成任何数量的多个区域，出于描述的目的，可以按它们对彼此的相对视觉兴趣来描述所述多个区域。不同区域的视觉兴趣可能在往往吸引人类观众注意的图像内容元素的相对频率方面是相关的。例如，在图像内容中包含锐利边缘的第一区域与在图像内容中包含模糊边缘或者不包含边缘的第二区域比可以具有更多的视觉兴趣。包含高频分量图像内容的第一区域与包含低频分量图像内容的第二区域比可以具有更多的视觉兴趣。包含前景图像内容的第一区域与包含中景或背景图像内容的第二区域比可以具有更多的视觉兴趣。在其图像内容中包含文本的第一区域与在其图像内容中不包含文本的第二区域比可以具有更多的视觉兴趣。

根据用于视觉兴趣的这些和任何数量的其他类似准则，可以根据每一个区域之间的相对视觉兴趣来将帧划分成两个区域、三个区域或任何其他数量的多个区域。例如，如图1图示，区域102具有最低视觉兴趣；区域104与区域102比具有较高视觉兴趣；以及区域106具有最高视觉兴趣。

可以基于生成具有不同分辨率的多个帧的分组的源帧来执行帧变成区域的划分，并且可以将多个帧的分组的每个帧划分成与其相应的分辨率成比例的对应地成形和定位的区域。对于帧的这种分组的每个帧，区域的数量可以等于帧的这种分组中的帧的数量，从而对输出帧和每个参考帧进行计数。对于帧的每个不同分组，区域的数量可以是相同或不同的。

对用于划分帧的区域的数量的确定可以(如将随后描述的那样)基于要生成的不同分辨率的多个帧的数量；除本文规定的那些方式以外，将帧划分成区域的方式以及确定用于划分帧的帧数的其他方式应在本公开的范围之外。

图2图示如由根据本公开的示例实施例的视频编码器所生成的全部从同一源帧导出的具有不同分辨率的多个帧的分组200A和200B。图2图示围绕分组200A和围绕分组200B绘制以图示每个分组的框，但是这些框不应该被视为构造帧的传输，诸如在位流中。尽管分组200A和200B的帧被各自示为连续帧的序列，但是它们不一定被按该顺序编码或输出到位流中或者作为连续帧输出。

图2进一步图示根据本公开的示例实施例的分组200A和200B当中的编码间关系。如图2中图示的箭头可以指示帧是参考另一帧的运动信息而编码的，而不一定指示并且限制相应帧的排序：例如，在位流中，预测帧(“P帧”)可以仅是指先前帧，但是双向帧(“B帧”)可以是指先前帧和后续帧。

图2图示分组200A中的帧202、204和206(按上升分辨率的顺序)以及分组200B中的帧208、210和212(按上升分辨率的顺序)。输出帧206和212被编码以被输出以进行显示，然而参考帧202、204、208和210被编码但是可能未被输出以进行显示。所图示的帧中的任一个可以具有与其他图示的帧中的任一个的分辨率不同的分辨率。在图2中图示为彼此相邻的帧可以是连续帧，或者可以在其之间具有出于本公开的目的未图示的附加帧。

根据本公开的示例实施例，输出帧206和212可以各自是参考其相应分组的参考帧中的每一个而编码的：也就是说，输出帧206是参考参考帧202和204而编码的，而输出帧212是参考参考帧208和210而编码的。此外，分组中的每个参考帧可以是参考具有相对较小分辨率的至少一个参考帧(除具有最小分辨率的参考帧以外)而编码的。例如，参考帧204是参考参考帧202而编码的，而参考帧210是参考参考帧208而编码的。

分组中的帧此外可以是参考在该分组之外的帧而编码的。例如，帧202可以是参考某个任意帧而编码的，或者可以是无限制地在不参考任何其他帧的情况下帧内编码的。类似地，帧208可以是参考某个任意帧(如图2所图示的，帧206)而编码的，或者可以是无限制地在不参考任何其他帧的情况下帧内编码的。

根据本公开的示例实施例，视频编码器可以如上所述生成全部从同一源帧导出的具有不同分辨率的多个帧的分组，并且，对于每个不同的源帧，可以生成(相同数量或不同数量的)多个帧的不同分组。对要生成的不同分辨率的帧的数量的确定可以(如将随后描述的那样)基于分组的每个帧被划分成的区域的数量；除本文指定的那些方式以外，确定要生成的不同分辨率的帧的数量的其他方式以及确定特定不同分辨率的方式应在本公开的范围之外。

视频编码器然后可以根据如本文所述的感兴趣区域感知方法来对多个帧的分组中的每一个进行编码。

图3图示根据本公开的示例实施例的感兴趣区域感知编码方法300。

在步骤302，视频编码器从视频源获得源帧。

在步骤304，视频编码器从源帧生成具有不同分辨率的多个帧的分组。如上所述，可以从源帧的相同图像数据导出分组的每个帧，并且对多个帧的每个不同分组来说，多个帧的数量可以是相同的或者可以是不同的。可以通过将源帧的图像数据上采样或下采样到各种不同分辨率来导出分组的每个帧。

多个帧的分组包括具有与源帧相同的分辨率的输出帧。多个帧的分组进一步包括具有与源帧不同的分辨率的任何数量的参考帧。可以以这种方式生成具有彼此不同的分辨率的任何数量的参考帧。要生成的不同分辨率的参考帧的数量可以被预先确定，可以经受视频编码器的可配置设置被确定，或者可以如在下面关于步骤306所描述的那样经受将分组的每个帧划分成多个区域被确定。

在步骤306，视频编码器确定应用于分组的每个帧的多个不同相对视觉感兴趣区域。如上所述，可以根据人类观众对每个相应区域中的图像数据的相应视觉兴趣来将分组的每个帧划分成多个区域。此外，如上所述，划分的数量和划分的方式对每个分组来说可以是不同的。此外，如上所述，可以基于源帧来执行帧变成区域的划分，并且可以将分组的每个帧划分成与其相应分辨率成比例的对应地成形和定位的区域。

根据本公开的示例实施例，可以基于分组的每个帧被划分成的区域的数量来确定要在分组中生成的不同分辨率的参考帧的数量，使得在分组中针对分组的每个帧被划分成的每个附加区域生成不同分辨率的附加参考帧。可替代地，可以基于要在分组中生成的不同分辨率的参考帧的数量来确定分组的每个帧被划分成的区域的数量，使得对于要在分组中生成的不同分辨率的每个附加参考帧，分组的每个帧被划分成一个附加区域。

步骤304和步骤306可以被相对于彼此以任何一种顺序执行。也就是说，可以首先生成多个帧的分组，接下来执行区域的确定，其中每个帧被划分成的区域的数量是基于在多个帧的分组中生成的不同分辨率的参考帧的数量而确定的。可替代地，可以首先执行分组的确定，接下来生成多个帧的分组，其中所生成的不同分辨率的参考帧的数量是基于每个帧被划分成的区域的数量而确定的。

在步骤308，视频编码器针对至少一个视觉感兴趣区域与针对关键视觉感兴趣区域比利用不同编码模式来对分组的参考帧进行编码。

根据本公开的示例实施例，如将在下面参考步骤310进一步详细地描述的，可以参考不同分辨率的每个参考帧来对输出帧进行编码。对于不同分辨率的每个参考帧，可以参考该参考帧的特定视觉感兴趣区域来对输出帧进行编码。可以参考该参考帧的至少一个视觉感兴趣区域来对输出帧进行编码。此外，可以针对每一参考帧参考不同的视觉感兴趣区域来对输出帧进行编码(依照每个参考帧被划分成对应地成形和定位的区域，“相同的”的视觉感兴趣区域可以是指跨不同分辨率的帧的对应地成形和定位的区域，而“不同的”视觉感兴趣区域可以是指跨不同分辨率的帧的非对应地成形和定位的区域)；这些不同的视觉感兴趣区域在本文中将被称为“关键区域”。虽然可以比仅一个视觉感兴趣区域参考任何参考帧的更多部分来对输出帧进行编码，但是输出帧是参考至少每个参考帧的不同关键区域而编码的。

对于每个参考帧，视频编码器可以确定在对输出帧进行编码时将参考哪个关键区域。此确定可以是按顺序基于每个参考帧的相对分辨率并且按顺序基于每个视觉感兴趣区域的相对视觉兴趣而做出的。例如，对于最低分辨率的参考帧，可以在对输出帧进行编码时参考最低视觉兴趣的关键视觉感兴趣区域；对于次最低分辨率的参考帧，可以在对输出帧进行编码时参考次最低视觉兴趣的关键视觉感兴趣区域；依此类推。

因此，参考图1和图2，假定图1的感兴趣区域应用于分组200A，那么对于参考帧202，可以在对输出帧206进行编码时参考参考帧202的区域102；以及对于参考帧204，可以在对输出帧206进行编码时参考参考帧204的区域104。可替代地，假定图1的感兴趣区域应用于分组200B，那么对于参考帧208，可以在对输出帧212进行编码时参考参考帧208的区域102；以及对于参考帧210，可以在对输出帧212进行编码时参考参考帧210的区域104。(然而，图1的感兴趣区域可能不应用于分组200A和分组200B两者。)

视频编码器可以利用如由运动预测编码格式所支持的任何合适的编码模式来对关键区域进行编码。例如，可以利用用于以下各项的任何合适的算法来对关键区域进行编码：帧内预测、帧间预测、各种形式的运动矢量预测(诸如自适应运动矢量预测(“AMVP”)、高级时间运动矢量预测(“ATMV”)、控制点运动矢量预测(“CPMVP”)、时间运动矢量预测(“TMVP”)、空时运动矢量预测(“STMV”)、子块时间运动矢量预测(“SbTMVP”)等)、块内复制(“IBC”)等。关键区域的编码可能通常不限于根据本公开的示例实施例的任何一种编码模式。

然而，根据本公开的示例实施例，视频编码器可以针对至少一个视觉感兴趣区域利用与用于对关键区域进行编码的编码模式不同的编码模式或者针对除关键区域以外的每个视觉感兴趣区域利用与用于对关键区域进行编码的编码模式不同的编码模式来对每个参考帧进行编码。特别地，可以通过最小计算密集编码模式来对那些其他视觉感兴趣区域进行编码。例如，可以通过跳过模式或合并模式来对那些其他视觉感兴趣区域的块进行编码，其中区域的运动信息从另一参考帧的块的运动信息复制。可以进一步与当前参考帧的分辨率和另一个参考帧的分辨率之间的差成比例地调整所复制的运动信息大小并对其重新采样。

由于已知输出帧是参考关键区域而编码的，所以可以通过最小计算密集编码模式来对未用于对输出帧进行编码的任何其他视觉感兴趣区域进行编码以便使编码过程的计算开销最小化。根据本公开的示例实施例，可以通过最小计算密集编码模式来对每个视觉感兴趣区域进行编码。

因此，参考图1和图2，假定图1的感兴趣区域应用于分组200A，那么对于参考帧202，参考帧202的区域102可以是关键区域并且可以无限制地通过任何合适的编码模式来编码，同时可以通过最小计算密集编码模式来对进行编码参考帧202的区域104和106；以及对于参考帧204，参考帧204的区域104可以是关键区域并且可以无限制地通过任何合适的编码模式来编码，同时可以通过最小计算密集编码模式来对参考帧204的区域102和106进行编码。可替代地，假定图2的感兴趣区域应用于分组200B，那么对于参考帧208，参考帧208的区域102可以是关键区域并且可以无限制地通过任何合适的编码模式来编码，同时可以通过最小计算密集编码模式来对区域104参考帧208的106和106进行编码；以及对于参考帧210，参考帧210的区域104可以是关键区域并且可以无限制地通过任何合适的编码模式来编码，同时可以通过最小计算密集编码模式来对参考帧210的区域102和106进行编码。(然而，图1的感兴趣区域可能不应用于分组200A和分组200B两者。)

在步骤310，视频编码器针对至少一个非最高视觉感兴趣区域与针对最高视觉感兴趣区域比利用不同编码模式来对分组的输出帧进行编码。

视频编码器可以利用如由运动预测编码格式所支持的任何合适的编码模式对最高视觉感兴趣区域进行编码。例如，可以利用用于以下各项的任何合适的算法来对最高视觉感兴趣区域进行编码：帧内预测、帧间预测、各种形式的运动矢量预测(诸如自适应运动矢量预测(“AMVP”)、高级时间运动矢量预测(“ATMV”)、控制点运动矢量预测(“CPMVP”)、时间运动矢量预测(“TMVP”)、空时运动矢量预测(“STMV”)、子块时间运动矢量预测(“SbTMVP”)等)、块内复制(“IBC”)等。最高视觉感兴趣区域的编码可能通常不限于根据本公开的示例实施例的任何一种编码模式。

然而，根据本公开的示例实施例，视频编码器可以针对至少一个非最高视觉感兴趣区域利用与用于对最高视觉感兴趣区域进行编码的编码模式不同的编码模式或者针对每个非最高视觉感兴趣区域利用与用于最高视觉感兴趣区域的编码模式不同的编码模式来对输出帧进行编码。特别地，可以通过比用于最高视觉感兴趣区域的编码模式更低的计算密集编码模式来对那些非最高视觉感兴趣区域进行编码。

例如，可以基于分组的参考帧之一的关键区域的块通过简化帧间编码运动预测模式来对输出帧的非最高视觉感兴趣区域的块进行编码。如上所述，输出帧是参考至少每个参考帧的不同关键区域而编码的；因此，输出帧的每个区域是参考不同参考帧的不同关键区域而编码的。此外，由于每个参考帧是从与输出帧相同的源帧导出的，所以可以预期不需要残差信息(从计算输出帧与参考帧之间的差异生成)来将参考帧的运动信息变换到源帧的运动信息。因此，可以通过在对输出帧进行编码时不计算输出帧与参考帧之间的残差信息并且随后不将其与输出帧一起发送来表征帧间编码运动预测模式的简化。此外，还可以与输出帧的分辨率和参考帧的分辨率之间的差异成比例地调整经编码的运动信息大小并对其重新采样。在其他方面，可以根据本领域技术人员的知识来实现帧间编码运动预测模式。

在步骤312，视频编码器将分组的编码帧输出到位流。编码帧可以包括输出帧和参考帧。编码帧不保留有关每个帧变成区域的划分的信息。

图4图示用于实现上述用于在视频编码器中实现针对感兴趣区域感知编码方法的支持的过程和方法的示例系统400。

本文描述的技术和机制可以由系统400的多个实例以及由任何其他计算装置、系统和/或环境来实现。图4所示的系统400仅仅是系统的一个示例并且不旨在关于被利用来执行上述过程和/或程序的任何计算装置的使用范围或功能性建议任何限制。可以适合于与实施例一起使用的其他众所周知的计算装置、系统、环境和/或配置包括但不限于个人计算机、服务器计算机、手持或膝上型装置、多处理器系统、基于微处理器的系统、机顶盒、游戏机、可编程消费者电子产品、网络PC、小型计算机、大型计算机、包括上述系统或装置中的任一个的分布式计算环境、使用现场可编程门阵列(“FPGA”)和专用集成电路(“ASIC”)的实现方式和/或类似物。

系统400可以包括一个或多个处理器402和通信地耦合到处理器402的系统存储器404。处理器402可以运行一个或多个模块和/或过程以使处理器402执行各种功能。在一些实施例中，处理器402可以包括中央处理单元(“CPU”)、图形处理单元(“GPU”)、CPU和GPU两者、或本领域中已知的其他处理单元或组件。附加地，每一个处理器402可以拥有它自己的本地存储器，该本地存储器也可以存储程序模块、程序数据和/或一个或多个操作系统。

取决于系统400的确切配置和类型，系统存储器404可以是易失性的，诸如RAM，非易失性的，诸如ROM、闪速存储器、微型硬盘驱动器、存储卡等，或其某种组合。系统存储器404可以包括可由处理器402运行的一个或多个计算机可运行模块406。

模块406可以包括但不限于编码器模块408。编码器模块408还包括源帧获得子模块410、帧生成子模块412、区域确定子模块414、参考帧编码子模块416、输出帧编码子模块418和帧输出子模块420。

编码器模块408可以被配置为通过本文描述的算法和过程中的任一个来对来自视频源的帧执行运动预测编码，包括本文描述的每个子模块的功能性。

源帧获得子模块410可以被配置为从视频源获得源帧，如在上面参考图3所描述的。

帧生成子模块412可以被配置为从源帧生成具有不同分辨率的多个帧的分组，如在上面参考图3所描述的。

区域确定子模块414可以被配置为确定将分组的每个帧划分成多个不同相对视觉感兴趣区域，如在上面参考图3所描述的。

参考帧编码子模块416可以被配置为针对至少一个视觉感兴趣区域与针对关键视觉感兴趣区域比利用不同编码模式来对分组的参考帧进行编码，如在上面参考图3所描述的。

输出帧编码子模块418可以被配置为针对至少一个非最高视觉感兴趣区域与针对最高视觉感兴趣区域比利用不同编码模式来对分组的输出帧进行编码，如在上面参考图3所描述的。

帧输出子模块420可以被配置为将分组的编码帧输出到位流，如在上面参考图3所描述的。

系统400可以附加地包括输入/输出(“I/O”)接口440以用于从视频源数据接收帧的序列，并且以用于将重建帧输出到参考帧缓冲区和/或传输缓冲区。系统400还可以包括通信模块450，从而允许系统400通过网络(未示出)与其他装置(未示出)进行通信。网络可以包括因特网、诸如有线网络或直接有线连接的有线介质以及诸如声学、射频(“RF”)、红外线和其他无线介质的无线介质。

能够通过运行如在下面所定义的存储在计算机可读存储介质上的计算机可读指令来执行上述方法的一些或所有操作。如说明书和权利要求中使用的术语“计算机可读指令”包括例程、应用、应用模块、程序模块、程序、组件、数据结构、算法等。能够在各种系统配置上实现计算机可读指令，所述各种系统配置包括单处理器或多处理器系统、小型计算机、大型计算机、个人计算机、手持计算装置、基于微处理器的系统、可编程消费者电子产品、其组合等。

计算机可读存储介质可以包括易失性存储器(诸如随机存取存储器(“RAM”))和/或非易失性存储器(诸如只读存储器(“ROM”)、闪速存储器等)。计算机可读存储介质还可以包括附加可移动存储装置和/或不可移动存储装置，包括但不限于可以提供计算机可读指令、数据结构、程序模块等的非易失性存储的闪速存储器、磁存储装置、光存储装置和/或磁带存储装置。

非瞬态计算机可读存储介质是计算机可读介质的示例。计算机可读介质包括至少两种类型的计算机可读介质，即计算机可读存储介质和通信介质。计算机可读存储介质包括在任何过程或技术中实现以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据的信息的易失性和非易失性、可移动和不可移动介质。计算机可读存储介质包括但不限于相变存储器(“PRAM”)、静态随机存取存储器(“SRAM”)、动态随机存取存储器(“DRAM”)、其他类型的随机存取存储器(“RAM”)、只读存储器(“ROM”)、电可擦除可编程只读存储器(“EEPROM”)、闪速存储器或其他存储器技术、紧致盘只读存储器(“CD-ROM”)、数字通用盘(“DVD”)或其他光存储装置、磁盒、磁带、磁盘存储装置或其他磁存储装置，或能够用于存储信息以供计算装置访问的任何其他非传输介质。相比之下，通信介质可以在诸如载波或其他传输机制的调制数据信号中体现计算机可读指令、数据结构、程序模块或其他数据。本文采用的计算机可读存储介质不应被解释为瞬态信号它本身，诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(诸如通过光纤线缆的光脉冲)或通过电线传播的电信号。

存储在一个或多个非暂时性计算机可读存储介质上的计算机可读指令当由一个或多个处理器运行时，可以执行在上面参考图1-4描述的操作。通常，计算机可读指令包括执行特定功能或者实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。描述操作的顺序不旨在被解释为限制，并且能够以任何顺序和/或并行组合任何数量的所描述的操作以实现过程。

通过上述技术解决方案，本公开提供了由视频编码器的感兴趣区域感知编码模式支持的分辨率自适应视频编码，从而使得编码器能够基于从相同图像数据导出的不同分辨率的参考帧来对输出帧的运动信息进行编码以进行显示，每个帧通过不同方法基于源图像数据的感兴趣区域被压缩，以便保存计算资源并且改进压缩效率。本文描述的方法和系统提供一种视频编码器，所述视频编码器：从视频源获得源帧；从源帧生成具有不同分辨率的多个帧的分组；确定将分组的每个帧划分成多个不同相对视觉感兴趣区域；针对至少一个视觉感兴趣区域与针对关键视觉感兴趣区域比利用不同编码模式来对分组的参考帧进行编码；针对至少一个非最高视觉感兴趣区域与针对最高视觉感兴趣区域比利用不同编码模式来对分组的输出帧进行编码；以及将分组的编码帧输出到位流。

示例条款

A.一种方法，所述方法包括：从视频源获得源帧；从所述源帧生成具有不同分辨率的多个帧的分组；确定多个不同相对视觉感兴趣区域，所述多个区域应用于所述分组的每个帧；针对所述多个区域当中的至少一个视觉感兴趣区域与针对所述多个区域当中的关键视觉感兴趣区域比利用不同编码模式来对所述分组的参考帧进行编码；以及针对所述多个区域当中的至少一个非最高视觉感兴趣区域与针对所述多个区域当中的最高视觉感兴趣区域比利用不同编码模式来对所述分组的输出帧进行编码。

B.如段落A所述的方法，其中所述分组的每个帧是通过将所述源帧的图像数据上采样或下采样到不同分辨率而导出的。

C.如段落A所述的方法，其中所述分组包括具有与所述源帧相同的分辨率的输出帧和至少一个参考帧，每个参考帧具有不同分辨率。

D.如段落C所述的方法，其中每个参考帧的分辨率与所述源帧的分辨率不同。

E.如段落C所述的方法，其中要在所述分组中生成的不同分辨率的参考帧的数量是基于应用于所述分组的每个帧的所述多个区域的数量而确定的。

F.如段落C所述的方法，其中应用于所述分组的每个帧的所述多个区域的数量是基于要在所述分组中生成的不同分辨率的参考帧的数量而确定的。

G.如段落A所述的方法，其中所述多个区域中的每一个区域的相对视觉兴趣是根据每个相应区域中的所述源帧的图像数据的相应视觉兴趣。

H.如段落A所述的方法，其中所述输出帧是针对不同分辨率的每个参考帧参考应用于该参考帧的所述多个区域当中的至少一个视觉感兴趣区域来编码的。

I.如段落H所述的方法，其中所述输出帧是针对不同分辨率的每个参考帧参考至少应用于该参考帧的所述多个区域当中的不同关键区域来编码的。

J.如段落I所述的方法，其中，对于不同分辨率的每个参考帧，要在对所述输出帧进行编码时参考的关键区域是按顺序基于每个参考帧的相对分辨率并且按顺序基于每个视觉感兴趣区域的相对视觉兴趣而确定的。

K.如段落I所述的方法，其中每个参考帧是针对所述多个区域当中的至少一个视觉感兴趣区域利用与用于对所述关键区域进行编码的编码模式不同的编码模式来编码的。

L.如段落K所述的方法，其中每个参考帧是针对除所述关键区域以外的所述多个区域当中的每个视觉感兴趣区域利用与用于对所述关键区域进行编码的所述编码模式不同的编码模式来编码的。

M.如段落K所述的方法，其中所述不同编码模式是最小计算密集编码模式。

N.如段落M所述的方法，其中所述不同编码模式是跳过模式或合并模式。

O.如段落I所述的方法，其中所述输出帧是针对所述多个区域当中的至少一个非最高视觉感兴趣区域利用与用于对所述最高视觉感兴趣区域进行编码的编码模式不同的编码模式来编码的。

P.如段落O所述的方法，其中所述输出帧是针对所述多个区域当中的每个非最高视觉感兴趣区域利用与用于对所述最高视觉感兴趣区域进行编码的所述编码模式不同的编码模式来编码的。

Q.如段落O所述的方法，其中所述不同编码模式是比用于所述最高视觉感兴趣区域的所述编码模式更低的计算密集编码模式。

R.如段落Q所述的方法，其中所述不同编码模式是通过不计算所述输出帧与所述参考帧之间的残差信息而简化的帧间编码运动预测模式。

S.一种系统，所述系统包括：一个或多个处理器；以及存储器，所述存储器通信地耦合到所述一个或多个处理器，所述存储器存储可由所述一个或多个处理器运行的计算机可运行模块，当由所述一个或多个处理器运行时，所述计算机可运行模块执行相关操作，所述计算机可运行模块包括：编码器模块，所述编码器模块还包括：帧获得子模块，所述帧获得子模块被配置为从视频源获得源帧；帧生成子模块，所述帧生成子模块被配置为从所述源帧生成具有不同分辨率的多个帧的分组；区域确定子模块，所述区域确定子模块被配置为确定多个不同相对视觉感兴趣区域，所述多个区域应用于所述分组的每个帧；参考帧编码子模块，所述参考帧编码子模块被配置为针对所述多个区域当中的至少一个视觉感兴趣区域与针对所述多个区域当中的关键视觉感兴趣区域比利用不同编码模式来对所述分组的参考帧进行编码；以及输出帧编码子模块，所述输出帧编码子模块被配置为针对所述多个区域当中的至少一个非最高视觉感兴趣区域与针对所述多个区域当中的最高视觉感兴趣区域比利用不同编码模式来对所述分组的输出帧进行编码。

T.如段落S所述的系统，其中所述帧生成子模块被配置为通过将所述源帧的图像数据上采样或下采样到不同分辨率来导出所述分组的每个帧。

U.如段落S所述的系统，其中所述分组包括具有与所述源帧相同的分辨率的输出帧和至少一个参考帧，每个参考帧具有不同分辨率。

V.如段落U所述的系统，其中每个参考帧的分辨率与所述源帧的分辨率不同。

W.如段落U所述的系统，其中所述区域确定子模块被配置为基于应用于所述分组的每个帧的所述多个区域的数量来确定要在所述分组中生成的不同分辨率的参考帧的数量。

X.如段落U所述的系统，其中所述区域确定子模块被配置为基于要在所述分组中生成的不同分辨率的参考帧的数量来确定应用于所述分组的每个帧的所述多个区域的数量。

Y.如段落S所述的系统，其中所述多个区域中的每一个区域的相对视觉兴趣是根据每个相应区域中的所述源帧的图像数据的相应视觉兴趣。

Z.如段落S所述的系统，其中所述输出帧编码子模块被配置为针对不同分辨率的每个参考帧参考应用于该参考帧的所述多个区域当中的至少一个视觉感兴趣区域来对所述输出帧进行编码。

AA.如段落Z所述的系统，其中所述输出帧编码子模块被配置为针对不同分辨率的每个参考帧参考至少应用于该参考帧的所述多个区域当中的不同关键区域来对所述输出帧进行编码。

BB.如段落AA所述的系统，其中所述输出帧编码子模块被配置为针对不同分辨率的每个参考帧，按顺序基于每个参考帧的相对分辨率并且按顺序基于每个视觉感兴趣区域的相对视觉兴趣确定要在对所述输出帧进行编码时参考的关键区域。

CC.如段落AA所述的系统，其中所述参考帧编码子模块被配置为针对所述多个区域当中的至少一个视觉感兴趣区域利用与用于对所述关键区域进行编码的编码模式不同的编码模式来对每个参考帧进行编码。

DD.如段落CC所述的系统，其中所述参考帧编码子模块被配置为针对除所述关键区域以外的所述多个区域当中的每个视觉感兴趣区域利用与用于对所述关键区域进行编码的所述编码模式不同的编码模式来对每个参考帧进行编码。

EE.如段落CC所述的系统，其中所述不同编码模式是最小计算密集编码模式。

FF.如段落EE所述的系统，其中所述不同编码模式是跳过模式或合并模式。

GG.如段落Z所述的系统，其中所述输出帧编码子模块被配置为针对所述多个区域当中的至少一个非最高视觉感兴趣区域利用与用于对所述最高视觉感兴趣区域进行编码的编码模式不同的编码模式来对所述输出帧进行编码。

HH.如段落GG所述的系统，其中所述输出帧编码子模块被配置为针对所述多个区域当中的每个非最高视觉感兴趣区域利用与用于对所述最高视觉感兴趣区域进行编码的所述编码模式不同的编码模式来对所述输出帧进行编码。

II.如段落GG所述的系统，其中所述不同编码模式是比用于所述最高视觉感兴趣区域的所述编码模式更低的计算密集编码模式。

JJ.如段落II所述的系统，其中所述不同编码模式是通过不计算所述输出帧与所述参考帧之间的残差信息而简化的帧间编码运动预测模式。

KK.一种计算机可读存储介质，所述计算机可读存储介质存储可由一个或多个处理器运行的计算机可读指令，当由所述一个或多个处理器运行时，所述计算机可读指令使所述一个或多个处理器执行操作，所述操作包括：从视频源获得源帧；从所述源帧生成具有不同分辨率的多个帧的分组；确定多个不同相对视觉感兴趣区域，所述多个区域应用于所述分组的每个帧；针对所述多个区域当中的至少一个视觉感兴趣区域与针对所述多个区域当中的关键视觉感兴趣区域比利用不同编码模式来对所述分组的参考帧进行编码；以及针对所述多个区域当中的至少一个非最高视觉感兴趣区域与针对所述多个区域当中的最高视觉感兴趣区域比利用不同编码模式来对所述分组的输出帧进行编码。

LL.如段落KK所述的计算机可读存储介质，其中所述分组的每个帧是通过将所述源帧的图像数据上采样或下采样到不同分辨率而导出的。

MM.如段落KK所述的计算机可读存储介质，其中所述分组包括具有与所述源帧相同的分辨率的输出帧和至少一个参考帧，每个参考帧具有不同分辨率。

NN.如段落MM所述的计算机可读存储介质，其中每个参考帧的分辨率与所述源帧的分辨率不同。

OO.如段落MM所述的计算机可读存储介质，其中要在所述分组中生成的不同分辨率的参考帧的数量是基于应用于所述分组的每个帧的所述多个区域的数量而确定的。

PP.如段落MM所述的计算机可读存储介质，其中应用于所述分组的每个帧的所述多个区域的数量是基于要在所述分组中生成的不同分辨率的参考帧的数量而确定的。

QQ.如段落KK所述的计算机可读存储介质，其中所述多个区域中的每一个区域的相对视觉兴趣是根据每个相应区域中的所述源帧的图像数据的相应视觉兴趣。

RR.如段落KK所述的计算机可读存储介质，其中所述输出帧是针对不同分辨率的每个参考帧参考应用于该参考帧的所述多个区域当中的至少一个视觉感兴趣区域来编码的。

SS.如段落RR所述的计算机可读存储介质，其中所述输出帧是针对不同分辨率的每个参考帧参考至少应用于该参考帧的所述多个区域当中的不同关键区域来编码的。

TT.如段落SS所述的计算机可读存储介质，其中，对于不同分辨率的每个参考帧，要在对所述输出帧进行编码时参考的关键区域是按顺序基于每个参考帧的相对分辨率并且按顺序基于每个视觉感兴趣区域的相对视觉兴趣而确定的。

UU.如段落SS所述的计算机可读存储介质，其中每个参考帧是针对所述多个区域当中的至少一个视觉感兴趣区域利用与用于对所述关键区域进行编码的编码模式不同的编码模式来编码的。

VV.如段落UU所述的计算机可读存储介质，其中每个参考帧是针对除所述关键区域以外的所述多个区域当中的每个视觉感兴趣区域利用与用于对所述关键区域进行编码的所述编码模式不同的编码模式来编码的。

WW.如段落UU所述的计算机可读存储介质，其中所述不同编码模式是最小计算密集编码模式。

XX.如段落WW所述的计算机可读存储介质，其中所述不同编码模式是跳过模式或合并模式。

YY.如段落SS所述的计算机可读存储介质，其中所述输出帧是针对所述多个区域当中的至少一个非最高视觉感兴趣区域利用与用于对所述最高视觉感兴趣区域进行编码的编码模式不同的编码模式来编码的。

ZZ.如段落YY所述的计算机可读存储介质，其中所述输出帧是针对所述多个区域当中的每个非最高视觉感兴趣区域利用与用于对所述最高视觉感兴趣区域进行编码的所述编码模式不同的编码模式来编码的。

AAA.如段落YY所述的计算机可读存储介质，其中所述不同编码模式是比用于所述最高视觉感兴趣区域的所述编码模式更低的计算密集编码模式。

BBB.如段落AAA所述的计算机可读存储介质，其中所述不同编码模式是通过不计算所述输出帧与所述参考帧之间的残差信息而简化的帧间编码运动预测模式。

尽管已经用特定于结构特征和/或方法学行为的语言描述了主题，但是应当理解，在所附权利要求中定义的主题不一定限于所描述的特定特征或行为。相反，特定特征和行为作为实现权利要求的示例性形式被公开。

Claims

1.一种方法，所述方法包括：

生成具有不同分辨率的多个帧的分组；

确定多个不同相对视觉感兴趣区域，所述多个区域应用于所述分组的每个帧；

针对参考帧的至少两个不同区域利用不同编码模式来对所述分组的所述参考帧进行编码；以及

针对输出帧的至少两个不同区域利用不同参考帧来对所述输出帧进行编码。

2.根据权利要求1所述的方法，其中所述分组包括至少一个参考帧，每个参考帧具有彼此不同的分辨率。

3.根据权利要求1所述的方法，其中所述输出帧是针对不同分辨率的每个参考帧参考该参考帧的多个区域当中的至少一个区域来编码的。

4.根据权利要求3所述的方法，其中所述输出帧是针对不同分辨率的每个参考帧参考至少与针对每个其他参考帧参考的关键区域不同的该参考帧的关键区域来编码的。

5.根据权利要求4所述的方法，其中每个参考帧是针对所述参考帧的所述多个区域当中的至少一个区域利用与用于对所述参考帧的关键区域进行编码的编码模式不同的编码模式来编码的。

6.根据权利要求4所述的方法，其中所述输出帧是针对所述输出帧的所述多个区域当中的至少一个非最高视觉感兴趣区域利用与用于对所述输出帧的最高视觉感兴趣区域进行编码的编码模式不同的编码模式来编码的。

7.根据权利要求6所述的方法，其中所述不同编码模式是通过不计算所述输出帧与所述参考帧之间的残差信息而简化的帧间编码运动预测模式。

8.一种系统，所述系统包括：

一个或多个处理器；以及

存储器，所述存储器通信地耦合到所述一个或多个处理器，所述存储器存储可由所述一个或多个处理器运行的计算机可运行模块，当由所述一个或多个处理器运行时，所述计算机可运行模块执行相关操作，所述计算机可运行模块包括：

编码器模块，所述编码器模块还包括：

帧生成子模块，所述帧生成子模块被配置为生成具有不同分辨率的多个帧的分组；

区域确定子模块，所述区域确定子模块被配置为确定多个不同相对视觉感兴趣区域，所述多个区域应用于所述分组的每个帧；

参考帧编码子模块，所述参考帧编码子模块被配置为针对参考帧的至少两个不同区域利用不同编码模式来对所述分组的所述参考帧进行编码；以及

输出帧编码子模块，所述输出帧编码子模块被配置为针对输出帧的至少两个区域利用不同编码模式来对所述输出帧进行编码。

9.根据权利要求8所述的系统，其中所述分组包括至少一个参考帧，每个参考帧具有彼此不同的分辨率。

10.根据权利要求8所述的系统，其中所述输出帧编码子模块被配置为针对不同分辨率的每个参考帧参考该参考帧的多个区域当中的至少一个区域来对所述输出帧进行编码。

11.根据权利要求10所述的系统，其中所述输出帧编码子模块被配置为针对不同分辨率的每个参考帧参考至少与针对每个其他参考帧参考的关键区域不同的该参考帧的关键区域来对所述输出帧进行编码。

12.根据权利要求11所述的系统，其中所述参考帧编码子模块被配置为针对所述参考帧的至少一个区域利用与用于对所述参考帧的关键区域进行编码的编码模式不同的编码模式来对每个参考帧进行编码。

13.根据权利要求11所述的系统，其中所述输出帧编码子模块被配置为针对所述输出帧的所述多个区域当中的至少一个非最高视觉感兴趣区域利用与用于对所述输出帧的最高视觉感兴趣区域进行编码的编码模式不同的编码模式来对所述输出帧进行编码。

14.根据权利要求13所述的系统，其中所述不同编码模式是通过不计算所述输出帧与所述参考帧之间的残差信息而简化的帧间编码运动预测模式。

15.一种计算机可读存储介质，所述计算机可读存储介质存储可由一个或多个处理器运行的计算机可读指令，当由所述一个或多个处理器运行时，所述计算机可读指令使所述一个或多个处理器执行操作，所述操作包括：

生成具有不同分辨率的多个帧的组；

针对输出帧的至少两个不同区域利用不同编码模式来对所述分组的所述输出帧进行编码。

16.根据权利要求15所述的计算机可读存储介质，其中所述输出帧是针对不同分辨率的每个参考帧参考该参考帧的多个区域当中的至少一个区域来编码的。

17.根据权利要求16所述的计算机可读存储介质，其中所述输出帧是针对不同分辨率的每个参考帧参考至少与针对每个其他参考帧参考的关键区域不同的该参考帧的关键区域来编码的。

18.根据权利要求17所述的计算机可读存储介质，其中每个参考帧是针对所述参考帧的所述多个区域当中的至少一个区域利用与用于对所述参考帧的关键区域进行编码的编码模式不同的编码模式来编码的。

19.根据权利要求17所述的计算机可读存储介质，其中所述输出帧是针对所述输出帧的所述多个区域当中的至少一个非最高视觉感兴趣区域利用与用于对所述输出帧的最高视觉感兴趣区域进行编码的编码模式不同的编码模式来编码的。

20.根据权利要求19所述的计算机可读存储介质，其中所述不同编码模式是通过不计算所述输出帧与所述参考帧之间的残差信息而简化的帧间编码运动预测模式。