CN116614630A

CN116614630A - 对包括叠层的视频流进行编码

Info

Publication number: CN116614630A
Application number: CN202310096848.8A
Authority: CN
Inventors: 维克托·埃德帕尔姆; 袁嵩
Original assignee: Axis AB
Current assignee: Axis AB
Priority date: 2022-02-17
Filing date: 2023-02-10
Publication date: 2023-08-18
Also published as: KR20230123870A; EP4231638A1; TW202337210A; US20230262238A1; JP2023120155A

Abstract

本发明涉及对包括叠层的视频流进行编码。提供了对包括叠层的视频流进行编码的方法，包括：捕获第一图像；在第一位置处将叠层添加到第一图像，并且对在视频流的第一帧中的第一图像进行编码；捕获场景的第二图像；确定在第二图像中的叠层的期望位置；对在被标记为非显示帧的第二帧中的第二图像进行编码，并且生成并编码第三帧，第三帧包括在参考第一帧的叠层的期望位置处的时间预测宏块和基于期望位置和第一位置之间的差的运动向量以及参考第一帧的叠层的期望位置之外的跳过宏块。还提供了对应的装置、计算机程序和计算机程序产品。

Description

对包括叠层的视频流进行编码

技术领域

本公开涉及视频编码的领域。更具体地，本公开涉及(诸如在例如增强现实应用中使用的)包括一个或多个叠层(overlay)的视频流的编码。

背景技术

诸如增强现实(AR)的新兴技术尝试增强用户通过相机观看世界时的体验。这可以包括利用例如文本或其他图形来覆盖视频流的捕获图像，以向用户提供关于用户当前正在观看的确切内容的更多信息。作为通过这种技术可用的多种示例之一，在描绘例如街道和各种建筑物的视频流中，可以添加叠层，显示例如特定建筑物的地址和/或例如建筑物的所有者等。这可以在尝试例如在街道上导航时帮助用户，因为用户然后可以通过使用相机拍摄街道来了解各种建筑物。

叠层在视频流的捕获图像上生成并渲染。例如，叠层可以与在由视频流当前捕获的场景内发现的特定建筑物、人、旅游景点或者其他对象相关联。在现实的情况下，如果用于捕获场景的相机被移动，和/或如果例如相机的视场(FOV)改变，则叠层的位置被更新，使得当处理视频流的下一捕获的图像时叠层被重新渲染，使得如果对象是静止的，则它相对于场景本身保持固定。移动叠层的其他原因例如可以是关联的对象本身在场景中是非静止的(并且是移动的)。

然而，如果相机同时忙于执行其他任务(诸如对象的检测和跟踪、视频流的编码或者生成输出视频流所需的其他处理)，则每次例如相机改变和/或对象移动时生成和重新渲染叠层所需的处理能力(例如，在CPU、GPU和/或存储器方面)可能并不总是可用的，并且因此，当视频流中的下一图像应当被显示/编码时，叠层的重新生成和渲染可能无法及时完成。这可能导致视频流中的同步问题，从而导致断续，或者例如叠层在一帧和下一帧之间消失和重新出现。此外，由于例如文本或者其他图形的存在，叠层通常包含锐化的细节，过于频繁地(重新)生成和(重新)渲染这种叠层可能增加负责编码视频流和控制例如所生成的输出视频流的比特率的电路和软件的开销。如果叠层是隐私掩模，则隐私掩模在一个或多个帧中消失的风险可能进一步是完全不能容忍的。因此，当计算能力预算有限时，需要更好地处理视频流中叠层的(重新)生成和(重新)渲染。

发明内容

为了至少部分地克服上述问题，并且至少部分地满足上述需求，本公开提供了对包括叠层的视频流进行编码的如所附独立权利要求所限定的改进方法以及改进的装置、计算机程序和计算机程序产品。在所附的从属权利要求中限定了改进的方法、装置、计算机程序和计算机程序产品的各种实施例。

根据第一方面，提供了对包括叠层的视频流进行编码的方法。该方法包括a)捕获场景的第一图像。该方法包括b)在第一位置处将叠层添加到第一图像，并且将第一图像编码为编码视频流的第一帧的部分。该方法包括c)捕获场景的第二图像。该方法包括d)确定第二图像中的叠层的期望位置，第二图像中的叠层的期望位置与第一图像中的叠层的第一位置不同。该方法进一步包括e)将第二图像编码为视频流的第二帧的部分，包括将第二帧标记为非显示帧。该方法进一步包括f)生成(使用例如软件，而不接收场景的对应的第三图像)并编码视频流的第三帧，第三帧包括在(第二图像中)叠层的期望位置处的是参考第一帧的时间预测宏块的一个或多个宏块，并且具有基于第一图像中叠层的第一位置和第二图像中叠层的期望位置之间的差的一个或多个运动向量，并且包括第三帧的在(第二图像中)叠层的期望位置之外的是参考视频流的第二帧的跳过宏块的一个或多个宏块。

如本文以上所讨论的，叠层可以例如包括在图像之上渲染的文本或者其他图形，使得在对图像进行编码的结果帧中，叠层可以提供关于例如在视频流中捕获的场景中的对象的附加信息。

如本文中所使用的“时间预测宏块”是形成时间预测帧的部分的宏块(即图像中的像素块，诸如例如8×8像素、16×16像素等的块)，并且对于宏块，渲染像素所需的信息是基于视频流的其他帧中的相同(或者其他像素)来发现的。这种帧也可以被称为帧间帧、预测帧、差分帧，或者例如P帧或者B帧，这取决于它们是仅包含对先前编码的帧的参考，还是也包含对未来帧的参考。换句话说，术语“时间预测宏块”的含义不偏离已经建立的视频编码标准中的含义，并且用于说明包括这种宏块的帧在编码期间使用时间冗余信息(即使得渲染帧所需的信息不需要完全包含在编码帧本身中，而是可以在一个或多个先前或者甚至未来帧中发现的信息中来发现或者至少从这些信息中近似发现)。如本文中所使用的“跳过宏块”(或者SKIP宏块、被跳过宏块等)也具有它们的标准化含义，并且被理解为包含对在先前帧(或者在未来帧)中的同一位置处发现的宏块的参考的任何宏块，使得图像数据可以直接从先前帧(或者未来帧)复制(不需要任何运动向量)，并且不被包括为当前编码帧本身的部分。最后，“非显示帧”应当被理解为以下帧，其以任何方式被标记，以指示解码器该帧将不被渲染为解码视频流的部分，但是该帧仍然可用，使得可以从中获取信息并用于解码要显示的一个或多个其他帧(即未被标记为非显示帧)。第一帧可以是例如帧内预测帧，其包括解码和渲染该帧所需的所有数据，而不依赖于对一个或多个先前或者未来帧的任何参考。这种帧也可以被称为帧内帧(I帧)或者全帧等。第一帧、第二帧和第三帧可以例如形成所谓图片组(GOP)的部分，其中帧内帧(第一帧)之后是一个或多个时间预测帧或者包含对一个或者其他帧的参考的帧(诸如包含一个或多个跳过宏块的帧)。其他序列当然也是可能的，只要存在与第一帧等同的内容，对于包括叠层的区域，第三帧可以从第一帧获取其图像数据，并且只要存在第二帧，第二帧不被显示而是仅作为不包括叠层的区域的第三帧的图像数据的源。

可以设想，支持时间预测宏块、跳过宏块、非显示帧和运动向量的上述概念的任何视频编码标准都可以用于实现所公开的方法。这种标准的示例包括(但不一定限于)：高效视频编码(HEVC)H.265、高级视频编码(AVC)H.264、VP8、VP9、AV1和通用视频编码(VVC)H.266。

本公开对当前可用技术的改进在于，它允许以很少的开销成本来渲染叠层，并且降低甚至消除无法在下一帧到期之前完成渲染该帧的风险。这是通过以下步骤来实现的，即一旦图像中叠层的位置改变，就不执行帧的完全重新渲染，而是重新使用与来自先前帧的叠层相关的图像数据，并且从为此目的生成的非显示帧中提供与不包括叠层的场景部分相关的图像数据。由于本公开仅依赖于已经可用的和标准化的帧类型，因此它允许编码器正常编码，并使用软件构建和插入第三帧。同样，任何符合标准的解码器都可以正常操作，而不需要任何特殊考虑来成功地向用户渲染场景和叠层的视频。运动向量可以使用编码器来设置，这可以利用硬件加速的优点来进一步减少所需的计算时间。

在该方法的一些实施例中，第一图像中的叠层的第一位置和第二图像中的叠层的期望位置之间的差可以至少部分地由捕获第一图像和第二图像之间的视场(相机的FOV)的改变而引起。用于捕获场景的相机可以是例如所谓的平移-倾斜-缩放(PTZ)相机，并且FOV可以例如通过相机放大或者缩小或者甚至倾斜或者移动(平移)而改变。

在该方法的一些实施例中，第一图像中的叠层的第一位置和第二图像中的叠层的期望位置之间的差可以至少部分地由场景中与叠层相关联的对象的位置的改变而引起。例如，叠层可以与场景中的人相关联，并且如果人在场景中移动，则本文描述的方法可以用于以有效的方式重新渲染叠层。

在该方法的一些实施例中，第三帧可以是预测帧(P帧，仅包含对其自身和/或帧序列中的一个或多个先前帧的参考)，或者是双向预测帧(B帧，包含对例如其自身和/或一个或多个先前帧的参考，但是可选地或者替代地，也包含对序列中的一个或多个未来帧的参考)。第三帧可以被插入到编码视频流中的第二帧之后，使得第三帧返回参考第二帧。

在该方法的一些实施例中，第三帧可以是B帧，并且被插入到编码视频流中的第二帧之前，使得第三帧向前参考第二帧。

在该方法的一些实施例中，第一图像和第二图像可以使用同一相机来捕获。在其他实施例中，可以设想，使用一个相机捕获第一图像，并且使用另一个第二相机捕获第二图像(例如，在被配置成提供场景的全景图像的相机布置中)。

在该方法的一些实施例中，叠层可以是增强现实(AR)叠层。

在该方法的一些实施例中，该方法可以在用于捕获第一图像和/或第二图像的相机中执行。相机可以是例如监控相机(例如，监视相机等)。在其他实施例中，该方法可以在包括这种相机的相机系统中执行，但是不一定在相机本身中执行，而是在例如视频处理服务器等中执行。

在该方法的一些实施例中，叠层可以相对于场景固定。例如，叠层可以与场景中不移动的对象(诸如建筑物、街道或者其他类型的不移动的、静止的结构)相关联。

在该方法的一些实施例中，该方法可以包括估计将叠层(替代地)渲染/添加并编码为第二图像和第二帧的部分所需的计算时间。如果确定该所需的计算时间低于阈值，则该方法可以替代地跳过生成第三帧的步骤，并且替代地在期望位置处将叠层添加到第二图像，并且将第二图像编码为视频流的第二帧的部分。该方法可以跳过将第二帧标记为非显示帧，使得第二帧可以在第一帧之后渲染。该实施例的优点在于，如果有足够的计算能力可用(即如果上述估计所针对的阈值基于可用的计算资源)，则可以直接重新渲染叠层。这可以例如提供改进的质量，因为例如在渲染叠层时还将考虑捕获第一图像和第二图像之间的场景的视角的改变。

根据本公开的第二方面，提供了用于对包括叠层的视频流进行编码的装置。该装置包括处理器和存储器。存储器存储指令，该指令当由处理器执行时，使该装置：捕获场景的第一图像；在第一位置处将叠层添加到第一图像，并且将第一图像编码为编码视频流的第一帧的部分；捕获场景的第二图像；确定在第二图像中的叠层的期望位置，其中在第二图像中的叠层的期望位置与在第一图像中的叠层的第一位置不同；将第二图像编码为视频流的第二帧的部分，包括将第二帧标记为非显示帧；并且(使用例如软件)生成并编码视频流的第三帧，其中第三帧的在叠层的期望位置处的一个或多个宏块是参考第一帧的时间预测宏块，并且具有基于(在第一图像中的)叠层的第一位置和(在第二图像中的)叠层的期望位置之间的差的运动向量，并且其中第三帧的(在第二图像中的)叠层的期望位置之外的一个或多个宏块是参考(编码)视频流的第二帧的跳过宏块。

因此，根据第二方面的装置被配置成执行第一方面的方法的对应步骤。

在该装置的一些实施例中，该装置被进一步配置成(即该指令使得它们在被处理器执行时使该装置)执行本文描述的方法的任何实施例。

在该装置的一些实施例中，该装置是监控相机。监控相机可以被配置成捕获第一图像和第二图像中的至少一个。

根据本公开的第三方面，提供了用于对包括叠层的视频流进行编码的计算机程序。计算机程序被配置成当由装置(诸如根据第二方面的装置)的处理器执行时，使该装置：捕获场景的第一图像；在第一位置处将叠层添加到第一图像，并且将第一图像编码为编码视频流的第一帧的部分；捕获场景的第二图像；确定在第二图像中的叠层的期望位置，其中在第二图像中的叠层的期望位置与在第一图像中的叠层的第一位置不同；将第二图像编码为视频流的第二帧的部分，包括将第二帧标记为非显示帧；并且(使用例如软件)生成并编码视频流的第三帧，其中第三帧的在叠层的期望位置处的一个或多个宏块是参考第一帧的时间预测宏块，并且具有基于(在第一图像中的)叠层的第一位置和(在第二图像中的)叠层的期望位置之间的差的运动向量，并且其中第三帧的(在第二图像中的)叠层的期望位置之外的一个或多个宏块是参考(编码)视频流的第二帧的跳过宏块。

因此，根据第一方面，计算机程序被配置成使该装置执行如本文以上所述的方法。

在一些实施例中，计算机程序还被配置成(当由装置的处理器执行时)使装置执行本文描述的方法的任何实施例。

根据第四方面，提供了计算机程序产品，包括存储根据第三方面或者其任何实施例的计算机程序的计算机可读存储介质。计算机可读存储介质可以是例如非暂时性的，并且被提供为例如硬盘驱动器(HDD)、固态驱动器(SDD)、USB闪存驱动器、SD卡、CD/DVD和/或能够非暂时性存储数据的任何其他存储介质。

根据以下详细描述、附图和权利要求，本公开的其他目的和优点将变得显而易见。在本公开的范围内，可以设想，参考例如第一方面的方法来描述的所有特征和优点与参考第二方面的装置、第三方面的计算机程序和/或第四方面的计算机程序产品来描述的任何特征和优点相关、适用并且可以结合使用，并且反之亦然。

附图说明

以下将参考附图描述示例性实施例，在附图中：

图1A至图1D示意性地图示出如何使用根据本公开的方法来对包括叠层的视频流进行编码的示例；

图2A和图2B图示出根据本公开的方法的各种实施例的流程图；

图3A至图3C示意性地图示出如何使用根据本公开的方法来对包括叠层的视频流进行编码的附加示例，以及

图4示意性地图示出根据本公开的装置的实施例。

在附图中，相同的附图标记将用于相同的元件，除非另有说明。除非有相反的明确说明，否则附图仅示出了图示出示例性实施例所必需的元件，而为了清楚起见，可以省略或仅暗示其他元件。如附图中所图示，为了说明的目的，元件和区域的(绝对或者相对)尺寸可能相对于它们的真实值被夸大或者保守表述，并且因此被提供以图示出实施例的一般结构。

具体实施方式

现在将参考图1A至图1D描述如何使用根据本公开的方法来对包括叠层的视频流进行编码的各种示例。还参考示意性地图示出这种方法200的步骤S201-S206的流程图的图2A。

图1A和图1B示意性地图示出可以使用当前公开的方法的情况。图1A图示出所捕获的第一图像110。第一图像110描绘了场景，这里包括街道的视图，沿该街道存在几个建筑物/房屋以及经常在这种环境中出现的诸如树木、垃圾箱、灯柱等的其他对象。增强现实用于向观看第一图像(作为视频流的一部分)的用户提供附加信息，包括添加的叠层120，以呈现关于场景中特定建筑物124的附加信息。这里，该附加信息包括建筑物124的地址(“街道123”)。当然，还可以提供例如指示其他建筑物的地址、街道名称、指南针方向、指示用户应当向哪个方向移动以到达期望位置的箭头的一个或多个附加的叠层以及多种其他类型的叠层。假设第一图像110使用具有包括相机的特定对准(例如，在偏转、俯仰和滚动方面)和特定变焦级别等的特定视场(FOV)的相机来捕获。相机例如可以是用户佩戴的身体相机、智能手机或者平板电脑的相机、安装在用户当前驾驶的车辆中的仪表板相机或者例如安装在例如建筑物上的相机(诸如平移-倾斜-变焦PTZ相机)(诸如监控或者监视相机等)。其他替代方案当然也是可能的，并且都被设想为可用于所公开的方法中。

图1B图示出同一场景的所捕获的第二图像112，但是其中场景中的对象的位置在第二图像112中与在第一图像110中处于不同的位置。这可能是由于相机发生了移动、倾斜、平移、缩放等。例如，可以假设在捕获场景的第一图像110和第二图像112之间，相机已经沿街道向后并向左移动，和/或相机已经缩小了场景。与此无关，在第二图像112中，特定建筑物124现在被发现位于不同的位置，这表示第二图像112中的叠层120的期望位置与第一图像110中的叠层(这里图示出为叠层120’)的位置不同。因此，需要在第二图像112中重新渲染叠层120，使得叠层120看起来相对于场景是固定的，即跟随特定建筑物124的位置，其中叠层120应当提供关于特定建筑物124的附加信息。图1B中的阵列130图示出叠层的期望移动。

如前所述，相机(或者负责编码视频流的任何其他装置，第一图像110和第二图像112应当形成该视频流的一部分)可能被一个或多个其他任务占用，这些任务占用计算资源，并且可用于重新渲染第二图像112中的叠层120的剩余的资源不足以及时地(即在处理应当移动到在第二图像112之后捕获的后续第三图像之前等)完成这种重新渲染。这可能导致同步问题、过渡到视频流中的第二图像的断续或者不平滑和/或例如由于没有及时地完全渲染而导致叠层从第二图像中消失。

如现在将参考图1C和图1D(以及图2A)进行描述的，本文设想的方法提供了如何克服这样的问题的解决方案。

图1C示意性地图示出根据所设想的方法200创建编码视频流140的帧序列150、152和154。

如参考图1A所描述的，方法200首先从(在步骤S201中)捕获场景的第一图像110开始，并且然后继续(在步骤S202中)将叠层120添加到第一图像110，并将第一图像110(和叠层120)编码成编码视频流140的第一帧150的部分。如使用图像坐标来测量的，在第一帧150中，叠层120位于第一图像110内的第一位置。第一图像110被编码成第一帧150的“部分”表示当然也可以存在在第一帧150中提供的其他内容，诸如例如除源自第一图像110的图像信息之外的附加图形或者文本对象等。

方法200然后继续(在步骤S203中)捕获同一场景的第二图像112，但是其中，在捕获第一图像110和第二图像112之间，相机已经改变，使得在第二图像112中的叠层120的期望位置现在与在第一图像110中的叠层120的位置不同。在步骤S204中，方法200包括确定叠层120在第二图像112中的期望位置，其中，如上所述，在第二图像112中的叠层120的期望位置与在第一图像110中的期望位置不同。位置的改变由图1B中的箭头130图示出。第二图像中的期望位置例如可以通过知道相机的移动、相机的变焦等来发现。

与尝试在第二图像112的顶部重新渲染叠层并且然后将第二图像112和叠层120一起编码为例如编码视频流140的第二帧不同，方法200替代地继续(在步骤S205中)将没有叠层120的第二图像112编码成视频流140的第二帧152的部分(如前所述，“作为……的部分”表示第二帧152中还可以包括除第二图像112之外的其他内容)。此外，方法200将第二帧152标记为所谓的非显示帧，这表示第二帧152不被接收编码视频流140的解码器渲染为可见。然而，第二帧152仍可用于包含又可以由视频流140中的一个或多个其他帧使用的信息。

在将第二图像112编码成第二帧152的部分之后，方法200然后继续(在步骤S206中)生成视频流140的第三帧154。第三帧154不包含任何捕获的图像，而是包含对视频流140中一个或多个其他帧的参考170和172，如现在将对此进行描述的。

在第二图像112中的叠层120的期望位置处，第三帧154包括是时间预测宏块的一个或多个宏块160。这表示这些宏块不包含第三帧154中的任何实际图像数据，而是包含对第一图像110和视频流140的第一帧150的宏块161的参考170。第三帧154的宏块160所参考的第一帧150的宏块161位于第一图像110中的叠层120的位置处。为了知道解码器应当在第一图像110和第一帧150中的何处寻找这些宏块161，第三帧154还包括(例如，编码)一个或多个运动向量132。运动向量132基于第一图像110中的叠层120的位置和第二图像112中的叠层120的期望位置之间的差，如在先前的步骤S205中获取的。运动向量132例如在方向和长度上与图1B中所指示的箭头130相反，使得解码器可以知道在第一图像110中的叠层120的位置的宏块161处可以发现宏块160的图像数据。

第三帧154还包括不在第二图像112中的叠层120的期望位置处的一个或多个宏块162。这些宏块162是所谓的跳过宏块(skip-macroblocks)，并且包括对在第二图像112和第二帧152中的同一位置处的宏块163的一个或多个参考172，使得解码器知道它应当直接从第二图像112和第二帧152的宏块163复制图像信息，并且使用该信息来创建第三帧154的对应部分。因此，第三帧152被提供足以(在视频流140的解码期间)创建图像的信息，该图像示出了叠层120(其中叠层的数据是从第一图像110和第一帧150获取的)和不包含叠层120的区域(其中数据是从第二图像112和第二帧152获取的)两者。当在解码后显示第三帧154时，用户然后可以看到场景的更新视图(由于相机的移动而需要)，包括在期望的正确位置处的叠层120。

在参考图1C描述的示例中，第一帧150是例如不参考编码视频流140中的一个或多个其他帧的帧内帧。第一帧150是例如所谓的I帧，并且相对于在解码第一帧150之后观看第一图像110所需的图像数据是完备的(self-containing)。另外，在参考图1C描述的示例中，第二(非显示)帧152被添加在第一帧150之后但是在第三帧154之前。因此，第三帧154具有在时间上返回第二帧152的参考172，并且例如是所谓的P帧。第一帧150可以例如用作GOP帧序列中的第一帧。在第三帧154之后可能有其他帧，和/或在第一帧150之前可能有其他帧。

图1D示意性地图示出方法200如何可以操作以对视频流140和叠层120进行编码的另一可能的示例。这里的各个步骤S201-S206与参考图1C描述的步骤相同，但是不同之处在于软件生成的第二帧152被替代地添加在第三帧154之后。这里第三帧154是所谓的B帧，其现在包括对“未来帧”(第二帧152)的参考，因为第二帧152包括第三帧152应当从其直接复制的宏块(由于第三帧152的宏块162是参考172第二帧152的宏块163的跳过宏块)。如前所述，第三帧154还包括对先前第一帧150的参考170，以结合运动向量132，合适地复制和处理第一帧150的宏块161，其中在第一图像110中发现叠层120。

现在将参考图3A至图3C描述本文中所设想的方法200可以操作的另一种情况。所遵循的过程与上文参考图1A至图1D描述的过程相同，但是用于不同种类的场景和相机设置。图3A示意性地图示出在描绘街道的人行道的第一图像310中由固定相机捕获的场景。在该场景中，为其提供叠层320的特定对象是狗324的形式的非静止移动对象。这里的叠层320将动物的类型标识为“狗”，但是当然可以提供被认为对通过视频流观看场景的用户有用的其他信息。当狗324沿人行道移动/行走时，它的位置将在捕获的图像之间改变，并且叠层必须相应地更新以便叠层相对于对象/狗324保持固定。

图3B图示出描绘相同场景的所捕获的第二图像312，但是其中狗324的位置自从捕获第一图像310起已经改变，如箭头330所图示。因此，第二图像312中的叠层320的期望位置因此与第一图像310中的叠层(这里由叠层320’图示出)的位置不同。

如前所述，方法200在本文可以通过首先捕获(在步骤S201中)第一图像310、渲染/添加(在步骤S202中)叠层320以及将结果编码为编码视频流340的第一帧350的部分来进行。方法200然后可以继续捕获(在步骤S203中)场景的第二图像312，并且方法200然后可以确定(在步骤S204中)第二图像312中的叠层320的期望位置和第一图像310中的叠层320的位置之间的差。方法200可以将该第二图像312编码(在步骤S205中)成不包括叠层320的第二帧352(标记为非显示帧)的部分，然后借助于基于第二图像312中的叠层320的期望位置和第一图像310中的期望位置之间的差的一个或多个运动向量332继续生成(例如，使用软件)并编码(在步骤S206中)第三帧354，时间预测宏块360参考370在第一图像310中的叠层320的位置处的第一帧350的宏块361，并且一个或多个跳过宏块362参考372第二非显示帧352的一个或多个宏块363，正如以上参考图1C和图1D所描述的。因此，当图像中叠层的期望位置由于相机的改变/移动(诸如例如相机的FOV的改变)而改变时、当图像中叠层的期望位置由于场景中对象(叠层与之相关联)的移动而改变时和/或当期望位置由于相机的改变和对象在场景中移动的组合而改变时，方法可以根据需要执行。换句话说，当叠层相对于场景固定时以及例如当叠层相对于在场景中移动的对象固定时，本文中公开和设想的方法都可以起作用。

本文中，可以设想，方法200可以由例如用于捕获场景的图像的监控相机来执行，或者例如在包括这种监控相机的(监控)相机系统的任何其他合适的部件中执行。方法200当然也可以在能够至少接收所捕获的第一和第二图像并生成各种帧并且编码视频流作为输出的任何其他装置中执行。现在将参考图4更详细地描述本文中设想的这种装置的示例。

图4示意性地图示出用于对包括叠层的视频流进行编码的装置400。装置400至少包括处理器(或者“处理电路”)410和存储器412。如本文中所使用的“处理器”或者“处理电路”可以是例如能够执行存储在存储器412中的软件指令的合适的中央处理单元(CPU)、多处理器、微控制器(μC)、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、图形处理单元(GPU)等中的一个或多个的任何组合。存储器412可以在处理器410的外部，或者可以在处理器410的内部。如本文中所使用的“存储器”可以是随机存取存储器(RAM)和只读存储器(ROM)的任何组合或者能够存储指令的任何其他种类的存储器。存储器412包含(即存储)指令，当由处理器410执行时，指令使装置400执行本文中描述的方法(即方法200或者其任何实施例)。装置400可以进一步包括在一些情况下对于执行该方法是必要的一个或多个附加项414。在一些示例实施例中，装置400可以是例如上述监控相机，并且附加项414然后可以包括例如图像传感器和例如用于将来自场景的光聚焦在图像传感器上的一个或多个镜头，使得监控相机可以捕获场景的图像，作为执行所设想的方法的部分。附加项414还可以包括例如捕获场景所需的各种其他电子部件，例如以根据需要正确操作图像传感器和/或镜头。在监控相机中执行该方法可能是有用的，因为处理被移动到“边缘”，即与在其他地方(诸如在更集中的处理服务器等)执行处理和视频编码相比，更靠近捕获实际场景的地方。装置400可以连接到例如网络，使得执行该方法产生的编码视频流可以传输给用户。为此，装置400可以包括网络接口416，网络接口416可以是例如无线网络接口(如支持例如Wi-Fi的任何IEEE 802.11或者后续标准中限定的)或者有线网络接口(如支持例如以太网的任何IEEE 802.3或者后续标准中限定的)。网络接口416还可以支持例如能够传输编码视频的任何其他无线标准(诸如蓝牙等)。各种部件410、412、414和416(如果存在)可以经由一个或多个通信总线428连接，使得这些部件可以彼此通信，并且根据需要交换数据。

装置400可以是例如以能够提供场景的更宽视角的PTZ相机或者鱼眼相机(fisheye-camera)的形式的例如安装在或者可安装在建筑物上的监控相机，或者任何其他类型的监控/监视相机。装置400可以是例如适用于安装在人、动物和/或各种车辆等上的身体相机、动作相机、仪表板摄像头等。装置400可以是例如用户可以携带并拍摄感兴趣的场景的智能手机或者平板电脑，以从一个或多个叠层中获得进一步的信息。装置400还可以是或者包括例如用户可以佩戴的虚拟头戴耳机等，以经由视频流观察场景。在装置400的任何这样的示例中，可以设想装置400可以包括除本文中已经说明的那些部件之外的所有必要部件(如果有)，只要装置400仍然能够执行本文中设想的方法200或者其任何实施例。

尽管本文没有进一步详细描述，但是可以设想，装置400(诸如例如相机)还可以具有例如识别场景中的诸如人、建筑物、街道、车辆、动物、旅游景点等的一个或多个对象，并且为这样的对象生成合适的叠层以向用户提供有用的信息的能力。对象的识别可以例如基于机器学习算法和/或例如位置信息(例如从(可能)被包括在装置400中的GPS接收器获取的)来执行。

现在将参考图2B来描述方法200的另一可替代的实施例。图2B示意性地图示出在步骤S204之后方法200所遵循的可替代的过程。在步骤S207(不一定在步骤S204之后执行)中，决定替代地将叠层直接添加/渲染为第二图像/第二帧的部分所需的计算时间是否低于阈值。换句话说，步骤S207包括估计是否存在足够的计算资源可用，使得在场景中的相机和/或对象已经移动或者改变之后，叠层可以照常(即如传统上实现的)重新渲染。如果所估计的计算时间低于阈值(其中例如阈值在很少计算资源可用时较低，而在当前有更多计算资源可用的情况下较高)，则方法然后可以前进到步骤S205’(而不是如参考图2A所描述的那样前进到步骤S205和S206)，其中将叠层(直接)添加/渲染到第二图像的期望位置处，并且然后(直接)编码为视频流的第二帧的部分。这里，第二帧不被标记为非显示帧，并且可以跳过参考第一帧和第二帧生成第三帧。另一方面，如果确定可用的计算资源不足以及时执行第二图像中的叠层的这种直接重新渲染，则方法200可以如前所述进行到步骤S205和S206。

通过使用参考图2B描述的方法200的可替代的示例，当例如场景中的相机和/或对象改变时，叠层的正常重新渲染可以替换为所设想的仅在需要时利用第二非显示帧和软件生成的(和插入的)第三帧。这具有例如提高图像质量的优点，因为在相机和/或对象的移动/改变之后的正常重新渲染通常导致更好的视觉体验，因为例如在第一图像和第二图像的捕获之间发生的场景的任何视角改变也被考虑。

上述阈值可以例如基于例如负责输出编码视频流的装置(诸如监控相机)中使用的处理器或者其他处理电路的当前负载来连续更新。例如，如果装置被其他资源密集型任务(诸如跟踪场景中的多个对象等)大量占用，则所设想的利用第二非显示帧和软件生成的(和插入的)第三帧的方法可以提供更新叠层的位置的更快方式，使得它相对于例如场景或者场景中的特定对象保持固定，并且具有可接受的视觉质量。对可用计算资源和负载的这种检查可以例如每秒多次执行，或者以任何期望的间隔执行。因此，所设想的方法可以在叠层的正常重新渲染是不可能的情况下用作备份。

如本文中总体设想的，例如可以通过知道叠层在第一图像中的位置，并且还通过知道例如相机相对于缩放级别、摇摄、倾斜等在捕获第一图像和第二图像之间如何改变，来获取/确定第二图像中的叠层的期望位置。因此，可以基于来自相机的这种信息来计算第二图像中的期望位置和第一图像中的叠层的位置之间的差。如果相机没有安装在诸如建筑物的静止对象上，则可能需要附加信息来确定相机的方向和位置是如何改变的。可以设想，如果需要，这种附加信息可以从安装在例如相机自身上和/或相机安装到的任何非静止对象上的一个或多个合适的传感器获取。在其他实施例中，可以设想，可以通过使用例如一个或多个图像/视频分析算法(诸如例如用于对象检测和/或跟踪的算法)来识别第二图像中的叠层的正确位置，来发现第二图像中的期望位置(以及与第一图像的对应差以及对应运动向量)。

在本文呈现的多种实施例的概述中，本公开提供了在编码视频流中提供叠层(并更新其位置)的改进方式，其中需要更新场景图像中的叠层的位置。所设想的解决方案克服了潜在地没有足够的可用计算资源来完成每次这样的叠层的重新渲染的问题。通过将第二帧标记为非显示帧，并且替代地插入参考该第二帧的软件生成的第三帧，可以通过简单的复制操作从第二帧向第三帧提供关于叠层不应当位于的区域中的场景的图像信息。同样，也通过从第三帧参考第一帧，关于叠层自身的图像信息可以通过从叠层被正确渲染(当然使用基于场景中的相机和/或对象如何改变/移动而提供的合适的运动向量)的最后一帧(即从第一帧)复制该信息而被提供给第三帧。因此，第三帧(包括在新的期望位置处的叠层)可以由编码器通过仅参考其他帧中已经可用的信息来生成，并且因此，导致减少准备和编码第三帧所需的计算时间，而无需在第二图像中的新位置处重新渲染叠层。类似地，对应的解码器不受该方法的影响，并且可以通过如从所设想的方法输出的编码视频流所指示的那样从其他帧复制信息来照常进行。换句话说，可以使用支持运动向量、时间预测帧、非显示帧等概念的当前可用的编码器而无需修改。该方法也可以使用已经可用的编码器来执行，而不需要对这些编码器进行修改，因为第三帧可以手动生成(使用软件)并且仅插入(或者组合)来自这种编码器的输出，以生成如本文中所设想的编码视频流。

尽管以上可能以特定的组合描述了特征和元件，但是每个特征或者元件可以在没有其他特征和元件的情况下单独使用，或者在具有或者不具有其他特征和元件的各种组合中使用。附加地，本领域技术人员在实践所要求保护的发明时，通过研究附图、公开内容和所附权利要求，可以理解和实现所公开的实施例的变型。

在权利要求中，术语“包括”和“包含”不排除其他元件，并且不定冠词“一”不排除多个。某些特征在互不相同的从属权利要求中叙述的事实并不表明这些特征的组合不能被有利地使用。

附图标记列表

110，310 场景的第一图像

112，312 场景的第二图像

120，320 叠层

120’，320’ 在第一图像中的叠层的位置

124，324 场景中的与叠层相关联的特定对象

130，330 叠层的位置的移动

132，332 运动向量

140，340 视频流

150，350 第一(图像)帧

152，352 第二(图像)帧

154，354 第三(图像)帧

160，360 第三帧中的时间预测宏块

161，361 第一帧中的源宏块

162，362 第三帧中的跳过宏块

163，363 第二帧中的源宏块

170，370 参考第一帧中的源宏块

172，372 参考第二帧中的源宏块

200 方法(流程图)

S201-S206 方法步骤

S205’，S207 可替代的方法步骤

400 装置

410 处理器/处理电路

412 存储器

414 网络接口

416 附加项

428 通信总线

Claims

1.一种对包括叠层的视频流进行编码的方法，包括：

a)捕获场景的第一图像；

b)在第一位置处将叠层添加到所述第一图像，并且将所述第一图像编码为编码视频流的第一帧的部分；

c)捕获所述场景的第二图像；

d)基于以下各项中的至少一项来计算所述第二图像中的所述叠层的期望位置：i)关于捕获所述第一图像和所述第二图像之间的相机视场改变的信息，ii)关于捕获所述第一图像和所述第二图像之间的相机位置改变的信息，以及iii)在所述第二图像中的在所述场景中与所述叠层相关联的对象的检测和/或跟踪的位置，所述第二图像中的所述叠层的所述期望位置与所述第一图像中的所述叠层的所述第一位置不同；

e)将所述第二图像编码为所述视频流的第二帧的部分，包括将所述第二帧标记为非显示帧，以及

f)生成并编码所述视频流的第三帧，所述第三帧包括所述第三帧的在所述叠层的所述期望位置处的是参考所述第一帧的时间预测宏块的一个或多个宏块，包括所述第三帧的在所述叠层的所述期望位置之外的是参考所述视频流的所述第二帧的跳过宏块的一个或多个宏块，并且包括基于所述第一图像中的所述叠层的所述第一位置和所述第二图像中的所述叠层的所计算的期望位置之间的差来计算所述一个或多个时间预测宏块的运动向量。

2.根据权利要求1所述的方法，所述第三帧是插入在所述编码视频流中的所述第二帧之后的预测帧P帧或者双向预测帧B帧。

3.根据权利要求1所述的方法，所述第三帧是插入在所述编码视频流中的所述第二帧之前的双向预测帧B帧。

4.根据权利要求1所述的方法，包括使用同一相机捕获所述第一图像和所述第二图像。

5.根据权利要求1所述的方法，所述方法在用于捕获所述第一图像和/或所述第二图像的相机中执行。

6.根据权利要求1所述的方法，所述叠层相对于所述场景是固定的。

7.根据权利要求1所述的方法，进一步包括：估计将所述叠层渲染和编码为所述第二图像和所述第二帧的部分所需的计算时间，并且如果确定所估计的计算时间低于阈值，则执行步骤a)-d)，但不执行步骤e)和f)并且替代地在步骤d)之后：

e’)在所述期望位置处将所述叠层添加到所述第二图像，并且将所述第二图像编码为所述视频流的第二帧的部分。

8.一种用于对包括叠层的视频流进行编码的装置，包括：

处理器，以及

存储器，存储指令，所述指令当由所述处理器执行时，使所述装置：

-捕获场景的第一图像；

-在第一位置处将叠层添加到所述第一图像，并且将所述第一图像编码为编码视频流的第一帧的部分；

-捕获所述场景的第二图像；

-基于以下各项中的至少一项来计算所述第二图像中的所述叠层的期望位置：i)关于捕获所述第一图像和所述第二图像之间的相机视场改变的信息，ii)关于捕获所述第一图像和所述第二图像之间的相机位置改变的信息，以及iii)在所述第二图像中的在所述场景中与所述叠层相关联的对象的检测和/或跟踪的位置，所述第二图像中的所述叠层的所述期望位置与所述第一图像中的所述叠层的所述第一位置不同；

-将所述第二图像编码为所述视频流的第二帧的部分，包括将所述第二帧标记为非显示帧，以及

-生成并编码所述视频流的第三帧，其中，所述第三帧的在所述叠层的所述期望位置处的一个或多个宏块是参考所述第一帧的时间预测宏块，并且其中，所述第三帧的在所述叠层的所述期望位置之外的一个或多个宏块是参考所述视频流的所述第二帧的跳过宏块，包括基于所述第一图像中的所述叠层的所述第一位置和所述第二图像中的所述叠层的所计算的期望位置之间的差来计算所述一个或多个时间预测宏块的运动向量。

9.根据权利要求8所述的装置，其中，所述装置是被配置成捕获所述第一图像和所述第二图像中的至少一个的监控相机。

10.一种非暂时性计算机可读存储介质，其上存储有用于对包括叠层的视频流进行编码的计算机程序，所述计算机程序被配置成当由装置的处理器执行时，使所述装置：

-捕获场景的第一图像；

-捕获所述场景的第二图像；

-基于以下各项中的至少一项来计算所述第二图像中的所述叠层的期望位置：i)关于捕获所述第一图像和所述第二图像之间的相机视场改变的信息，ii)关于捕获所述第一图像和所述第二图像之间的相机位置改变的信息，以及iii)在所述第二图像中的在所述场景中与所述叠层相关联的对象的检测和/或跟踪的位置，其中，所述第二图像中的所述叠层的所述期望位置与所述第一图像中的所述叠层的所述第一位置不同；