CN117043820A

CN117043820A - 沉浸式视频上下文中的深度估计方法

Info

Publication number: CN117043820A
Application number: CN202180095775.XA
Authority: CN
Inventors: 乔尔·荣格
Original assignee: Tencent Cloud Europe France Easy Stock Co
Current assignee: Tencent Cloud Europe France Easy Stock Co
Priority date: 2021-10-05
Filing date: 2021-10-05
Publication date: 2023-11-10
Also published as: WO2023057784A1; US20230419519A1

Abstract

服务器(SRV)通过对与场景(S)的不同视图(V_i)相对应的的图像(IMG_i,j)进行编码以生成流(STR)。服务器(SRV)确定目标深度图(DM_i,j)的深度块(DB^c,r _i,j)，目标深度图(DM_i,j)的深度块(DB^c,r _i,j)的深度(dp^c,r _i,j)可以通过对包括在另一个或相同深度图(DM_i,j，DM_i’,j’)中的参考深度块(DB^c’,r’ _i,j，DB^c’,r’ _i’,j’)的深度(d^c’,r’ _i,j，d^c’,r’ _i’,j’)执行操作(op^c,r _i,j)来推导出。服务器生成信号(SIG)，信号包括使设备能够识别可导出深度块(DB^c,r _i,j)的信息。服务器向设备发送流(STR)和信号(SIG)。设备(CLT)分析信号以识别可导出深度块(DB^c,r _i,j)，并通过对参考深度块(DB^c’,r’ _i,j，DB^c’,r’ _i’,j’)的深度(d^c’,r’ _i,j，d^c’,r’ _i’,j’)执行操作(op^c,r _i,j)来获得目标深度图(DM_i,j)。设备使用目标深度图(DM_i,j)和通过对流(STR)进行解码而获得的图像(IMG*_i,j)来合成新图像(IMG_PV)。

Description

沉浸式视频上下文中的深度估计方法

技术领域

本发明涉及视频通信的一般领域。本发明可以应用于任何类型的视频；然而，本发明发现了例如在云环境中提供的用于交互式服务(诸如沉浸式视频服务和在线游戏服务)的特许的但不受限制的应用。本发明更具体地应用于沉浸式视频的上下文中。

背景技术

在沉浸式视频的上下文中，观察者可以选择他想要观察场景的视点。观察者可以随时改变该视点，而视频不会停止。这就是“自由航行(free navigation)”的原则。

观察者所请求的大多数视点都没有被相机捕捉到。可以通过投影方法根据附近采集的视图和深度信息合成这些视点。

深度的计算是计算机视觉中一个传统且已解决的问题。通常使用极线几何(epipolar geometry)通过三角测量获得深度。这在理论上很容易，但在实践中要复杂得多。它需要将一帧中的所有点与另一帧中的一个点进行匹配。因为相机捕捉相同的场景，因此这是可能的。这种立体匹配通常通过非常昂贵的光流方法进行。

对象在两个相机之间的位移幅度取决于该对象与每个相机之间的距离。知晓了位移(立体匹配)，则允许计算对象和相机之间的距离，即其深度。该过程通常包括以下步骤：

(i)图像校正：为了降低像素匹配的复杂性，两台相机的极线水平地对齐。这可以通过旋转、平移和倾斜图像的线性变换来实现；

(ii)立体匹配(或视差计算)；以及

(iii)通过三角测量(极线几何)将视差转换为深度。

应当注意，对于步骤(i)和(iii)，需要相机的固有参数(相机的特性，例如焦距、分辨率等)和非固有的相机位置(位置、角度等)。

在下面的描述中，将上述复杂且昂贵的深度计算方法称为“常规深度计算方法”。

此外，观察者所请求的视点可能不为服务器所知，因此可能需要所有采集的视图来合成所请求的视图。

流和相关联的深度图构成了要从服务器传输到客户端的大量数据。在客户端，解码这些内容，然后合成所请求的视图。

这种方法有两个主要问题：传输这种数据所需的数据速率很高(比特率)，且客户端在很短的时间内要解码的像素量很高(像素率)。为了部分解决这个问题，解决方案包括不传输深度图，而是在客户端根据已解码的纹理视图估计深度图。

因为深度图的计算很复杂，因此与该解决方案相关的问题是客户端处的计算复杂性。本发明提出了不同的方法来降低这种复杂性并提高深度图的质量。

发明内容

本发明旨在克服至少一些上述缺点。

因此，根据第一方面，本发明提出了一种合成图像的方法，所述方法由设备执行并且所述包括：

-从服务器接收流，所述流是通过对与由多个相机获取的同一场景的不同视图相对应的图像进行编码而获得的；

-分析信号，所述信号包括使所述设备能够识别与一个所述图像相对应的目标深度图的至少一个可导出深度块的至少一个信息；

-确定要使用的操作，所述操作用于根据在与一个所述图像相对应的深度图中包括的至少一个参考深度块的深度，来推导出所述至少一个可导出深度块的深度；

-通过执行至少一个所述操作来获得所述目标深度图；以及

-使用所述目标深度图和通过对所述流进行解码而获得的至少一个图像来合成新图像。

相关地，本发明还涉及一种设备，包括：

-模块，用于从服务器接收流，所述流是通过对与由多个相机获取的同一场景的不同视图相对应的图像进行编码而获得的；

-模块，用于分析信号，所述信号包括使所述设备能够识别与一个所述图像相对应的目标深度图的至少一个可导出深度块的至少一个信息；

-模块，用于确定要使用的操作的指示，所述操作用于根据在与一个所述图像相对应的深度图中包括的至少一个参考深度块的深度，来推导出所述至少一个可导出深度块的深度；

模块，用于通过执行至少一个所述操作来获得所述目标深度图；以及

-模块，用于使用所述目标深度图和通过对所述流进行解码而获得的至少一个图像来合成新图像。

在本文件中，术语“操作的确定”应从广义上理解。这意味着客户端可以以某种方式确定推导操作。例如：

-操作的类型可以包括在信号中；

-服务器和设备可能先前已经交换以就操作达成一致；

-可以在服务器和/或设备中对操作进行预先确定和硬编码等。

设备可以是服务器的客户端设备。设备可以嵌入到观察者(即用户)的终端中，例如智能手机、平板电脑、电视或个人计算机。

设备可以嵌入到终端可以访问的云网络设备中。例如，使用终端的观察者可以选择视点，该视点由用户的终端发送至设备。该设备可以通过使用表示场景中对象相对于由所述视点定义的虚拟相机(fictitious camera)的深度的目标深度图来执行合成该视点的新图像的方法。设备可以将新图像发送至终端。

因此，一般而言，本发明旨在通过根据本发明的设备简化深度图的计算，这些深度图的至少一些块的深度可以简单地从参考深度块的深度推导出。

本发明使得能够在合成观察者所需的视图之前，在客户端对深度图进行估计期间提高深度图的计算速度和/或质量。

本发明的一个原理是获得并使用指示在客户端根据常规深度计算方法计算某些块的深度估计是不必要的信息，因为这些块的深度可以更容易地从其他深度块的深度推导出来。

在一个实施例中，用于推导出所述至少一个可导出深度块的所述深度的所述操作不使用所述相机的固有参数或非固有参数。

在一个实施例中，用于推导出所述至少一个可导出深度块的所述深度的所述操作是所述至少一个参考深度块的所述深度的线性组合。

在一个实施例中，用于推导出所述至少一个可导出深度块的所述深度的所述操作是复制一个所述参考深度块的所述深度。

在一个实施例中，可导出块的深度的推导不是对参考深度块的深度的简单复制，而是特定数量的块的深度的函数。例如，可以使用中值、平均值、最小值(有利于前景中的对象)等。

因此，在一个实施例中，用于推导出所述至少一个可导出深度块的所述深度的所述操作包括计算所述至少一个参考深度块的一组所述深度的平均值、中值或最小值。

在一个实施例中，用于推导出所述至少一个可导出深度块的深度的所述操作包括将预测方法应用于所述至少一个参考深度块。

在一个实施例中，所述信号包括至少一个所述目标深度图的至少一个非必要深度块的标识符，所述方法包括在合成所述新图像之前跳过对所述非必要深度块的深度的确定。

实际上，与观察者请求的视点相对应的待合成的图像不一定需要访问场景的所有视图的所有深度信息。渲染这些视图不需要的深度图的块不需要估计，并因此是非必要的。这些块的位置可以通过投影算法获得。

在一个实施例中，从服务器接收信号。

在该实施例中，算法可以在服务器侧确定：对于给定的纹理块，是否应该计算目标深度图中相应块的深度，或者是否可以根据一个或多个参考深度块的深度推导出目标深度图中相应块的深度。当服务器知晓观察者请求的视点时，该算法还可以确定是否存在非必要深度块。

因此，根据第二方面，本发明涉及一种在服务器中执行的方法，所述方法包括：

-获取与由多个相机获取的同一场景的不同视图相对应的多个图像；

-通过对所述图像进行编码以生成流；

-确定与一个所述图像相对应的目标深度图的至少一个可导出深度块，其中，通过对在与一个所述图像相对应的深度图中包括的至少一个参考深度块的深度执行操作来推导出所述至少一个可导出深度块的深度；

-生成至少包括所述操作的指示的信号；以及

-将所述流和所述信号发送至设备，所述信号是根据无损协议发送的。

相关地，本发明还涉及一种服务器，包括：

-模块，用于获得与由多个相机获取的同一场景的不同视图相对应的多个图像；

编码器，用于通过对所述图像进行编码以生成流；

-模块，用于确定与一个所述图像相对应的目标深度图的至少一个可导出深度块，其中，通过对包括在与一个所述图像相对应的深度图中的至少一个参考深度块的深度执行操作，来推导出所述至少一个可导出深度块的深度；

-模块，用于生成信号，所述信号包括使设备能够识别所述至少一个可导出深度块的至少一个信息；以及

-模块，用于将所述流和所述信号发送至所述设备，所述信号是根据无损协议发送的。

根据本发明的由服务器发送至设备的信号必须包括对于设备确定可导出深度块而言所必要的信息。

在一个实施例中，在初始步骤中，服务器向设备指示块的尺寸和形状。对于块的尺寸或形状没有特别的限制，即使是尺寸为1x1的块的极端情况。实际上，根据上下文，可以在以下两种情况之间对块的尺寸进行折衷：

-小块，以增加可导出深度块的数量，以及

-大块，以减少服务器发送至设备的信息量(信号尺寸)。

在另一实施例中，信号还包括所述至少一个参考深度块的标识符。

如果设备知晓深度图的尺寸(每行和每列的块数)，则信号不需要包括可导出块的标识符。

如果设备知晓如何确定用于推导出给定块的深度的至少一个参考深度块以及待使用的操作，则信号不需要包括任何此信息。

在一个实施例中，信号还包括所述操作的指示。

因此，在一个特别简单的实施方式中，信号仅包括每个深度块的一个比特，例如，如果要计算深度块，则该比特等于1，如果要推导出深度块，则该比特等于0。

在一个实施例中，服务器获得由观察者使用客户端设备所选择的目标视点。服务器确定所述至少一个目标深度图的至少一个非必要深度块，其中，所述非必要深度块的深度对于合成新图像不是必要的。服务器在信号中包括使所述设备能够识别所述至少一个非必要深度块的一个信息。

因此，在另一个特别简单的实施方式中，所述信号包括每个深度块的比特对，例如，如果要计算深度块，则该比特对等于“01”，如果要推导出深度块，则该比特对等于“00”，如果不需要深度块，则该比特对等于“11”。

可以根据设备已知的顺序在信号中对比特(或比特对)进行排序。例如，如果深度图具有C列和R行，则比特的顺序可以如下：对应于第1行第1列中的深度块的比特，……，对应于第1行第C列中的深度块的比特，……，对应于第2行第1行中的深度块的比特，……，对应于第2行第C列中的深度块的比特，……，对应于第R行第1列中的深度块的比特，……，对应于第R行第C列中的深度块的比特。

在另一个实施例中，信号不具有针对每个块的比特(或比特对)，而是显式地针对可导出深度块(或非必要深度块)。

在一个实施例中，如果深度图对服务器可用，则服务器可以确定类似于给定深度块的参考深度块。例如，服务器可以执行运动估计以识别最合适的参考深度块。

在一个变体中，服务器确定一组候选参考深度块，并在该组候选参考深度块中选择与给定深度块最相似的一个。如果运动估计是通过对两个块执行差异(或接近性)准则来验证，则可以认为这两种方法是相同的。

在实践中，深度图和纹理通常具有相对接近或相似的轮廓。

因此，在特定实施例中，服务器将候选参考深度块确定为与候选纹理块相对应的深度块，所述候选纹理块是由服务器通过分析由相机获取的且不是来自深度图的图像(例如通过运动估计)来确定的。当深度在服务器侧不可用时，该实施例特别具有吸引力。

例如，对于目标深度图中给定位置处的给定可导出深度块，候选纹理块可以为：

-与目标深度图相对应的图像中的、在给定位置附近或位于从给定位置偏移了运动矢量的位置处的纹理块，该运动矢量是针对纹理而计算的或为推导出可导出深度块的深度而计算的；或者

-同一视图的先前图像中的、位于相同位置(并置-collocated)处或者位于移位了已知运动矢量的位置处的纹理块；或者

-位于(例如移位了视差矢量的)另一视图的图像中的另一位置处的纹理块。

因此，在一个实施例中，服务器通过如下方法获得至少一个参考深度块：

-使用应用于至少一个所述图像的运动估计方法；或者

-使用应用于与一个所述图像相对应的至少一个深度图的运动估计方法；或者

-在针对所述至少一个可导出深度块确定的至少一个候选块的列表中，其中所述候选块为：

-在所述深度图中的所述至少一个可导出深度块的邻域中的块；或者

在与另一个所述图像相对应的深度图中所述至少一个可导出深度块的位置处的块。

相似性准则可用于执行候选块的运动估计、视差估计或邻近性检查。

相似性准则可以是SAD(绝对差值和)或SSD(平方差值和)，在考虑待传输的附加信息的成本的拉格朗日量的最小化中可以使用或者可以不使用相似性准则。

机器学习算法也可用于识别相似的区域。

也可以使用直接选择待丢弃的块的机器学习算法。该机器学习算法不仅依赖于块之间的相似性准则，而且将使用从不同块中提取的特征来找到待推导出的块。该机器学习算法将以监督的方式预先进行训练，其中，将提及是否应该推导出块的信息作为验证数据。

在一个实施例中，服务器发送与给定深度块和(在预选候选中找到的，或者通过运动估计找到的)参考深度块之间的差值相对应的像素的残差深度块。

因此，在一个实施例中，由服务器发送的信号还包括至少一个残差深度块的标识符，该至少一个残差深度块可以由设备添加至所述至少一个参考深度块以获得所述可导出深度块。

该信号可指示：

-推导的类型。推导可以是“直接的”，即基于参考深度块，或者推导可以是“通过残差的”，即基于残差参考深度块；

-用于推导的至少一个参考深度块：可以显式地或间接地识别该块(左邻、上邻、并置等)；

-至少一个参考深度块的视图：可以显式地或间接地识别该视图(左邻视图、场景末端处的视图等)；

-视图中的帧：可以显式地或间接地识别该帧(前一帧，当前帧-n，……)。

当信号由服务器发送至设备时，使用无损协议进行传输。可以应用源编码(熵编码、自适应算术编码等)来减少待传输的数据量。

信号(或信令)可以采取标准化数据流的形式，来由服务器发送，并且其使用在客户端是强制性的。

信号/信令还可以采取补充增强信息(SEI)消息的形式，来由服务器发送。使用该消息的客户端可以加速其处理；不使用该消息的客户端应用传统处理。

在另一个实施例中，信号不是从服务器接收的，而是由设备计算的。当服务器不能获得深度图时，或者在服务器和客户端之间的带宽有限的情况下，可以特别地应用该实施例。

因此，在一个实施例中，在设备中执行的合成图像的方法包括：

–对从服务器接收的流进行解码以获得已解码图像；

-确定与一个所述已解码图像相对应的目标深度图的至少一个可导出深度块，其中，通过对包括在与一个所述已解码图像相对应的深度图中的至少一个参考深度块的深度执行操作来推导出所述至少一个可导出深度块的深度；

-生成所述信号，其中，所述信号包括能够识别所述至少一个可导出深度块的一个信息；以及

-将所述信号发送至所述设备的模块，所述模块配置为通过执行至少一个所述操作来获得所述目标深度图。

由所述设备生成的信号还可以包括所述操作的指示和/或所述至少一个参考深度块的标识符，无论所述模块是否知晓该信息。

在一个实施例中，设备通过解析所述流来确定所述至少一个可导出深度块。

例如，以跳过模式或合并模式编码的块指示：在同一视图中，从一个图像到另一个图像，同一块的变化很小或没有变化。相反，帧内块的使用强烈指示了相反的现象。

因此，在一个实施例中，设备可以认为与以跳过模式或合并模式编码的纹理块相对应的深度块是可导出块。

在一个实施例中，设备通过分析所述已解码图像来确定所述至少一个可导出深度块。解码步骤是在流解析之后执行的步骤，以便获得已解码像素。一旦这些像素被解码，就可以计算与先前描述的相同的不同准则，但是这次应用于已解码像素。

已解码像素通常包含编码伪像(artifact)。一种变体包括在进行计算以获得可导出深度块或非必要深度块之前，通过传统算法减少这些伪像。

在一个实施例中，还可以在解析流之后重建运动矢量。可以直接使用这些运动矢量，因为这些运动矢量显示了在同一视图中从一个图像到另一个图像的移动。类似地，视差矢量反映了对于同一图像从一个视图到另一个视图的移动。

在一个实施例中，可以使用残差纹理块。例如，如果设备确定给定纹理块和参考纹理块之间的纹理残差较低(在纹理像素上)，则设备可以认为这些纹理块具有良好的匹配性，并且可以使用纹理运动矢量从参考纹理块的深度推导出与给定纹理块相对应的深度块的深度。

因此，在设备中执行的合成方法的一个实施例中，至少一个参考深度块通过所述设备通过以下方法获得：

-使用应用于至少一个所述已解码图像的运动估计方法；或者

-使用应用于与至少一个所述已解码图像相对应的至少一个深度图的运动估计方法；或者

-在为所述至少一个可导出深度块确定的至少一个候选块的列表中，其中，所述候选块为：

-在所述目标深度图中的所述至少一个可导出深度块的邻域中的块；或者

在与另一个所述已解码图像相对应的深度图中所述至少一个可导出深度块的位置处的块。

本发明还涉及一种计算机程序，包括指令，所述指令配置为在该计算机程序由计算机执行时实现所述合成图像的方法的步骤。

本发明还涉及一种计算机程序，包括指令，所述指令配置为在该计算机程序由计算机执行时实现所述在服务器中执行的方法的步骤。

这些程序可以使用任何编程语言，并且这些程序采用源代码、目标代码或介于源代码和目标代码之间的中间代码的形式，例如采用部分编译的形式，或者采用任何其他期望的形式。

本发明还涉及一种可读介质，包括这组计算机程序中的至少一个计算机程序。

记录介质可以是能够存储程序的任何实体或设备。例如，支持可以包括存储装置，例如ROM，诸如CD ROM或微电子电路ROM，或者还可以包括磁记录装置，例如硬盘。

另一方面，记录介质可以是可传输的介质，例如电信号或光信号，其可以通过电缆或光缆、无线电或其他方式承载。根据本发明的程序尤其可以在因特网类型的网络上下载。

可选地，记录介质可以是包括程序的集成电路，该集成电路适于执行所讨论的方法或该集成电路用于所讨论的方法的执行。

附图说明

本发明的其他特征和优点将从下面参考附图给出的描述中显现出来，附图示出了本发明的示例性实施例，这些示例性实施例不具有任何限制性特征。在附图中：

图1示出了图像及其相关的深度图。

图2示出了根据本发明第一实施例的服务器和设备。

图3示出了表示本发明第一实施例中由服务器执行的方法的主要步骤和由设备执行的方法的主要步骤的流程图。

图4a示出了根据本发明第一实施例的信号。

图4b示出了根据本发明第二实施例的信号。

图5示出了用于从至少一个参考深度块的深度推导出深度图的块的深度的不同可能操作。

图6示出了根据本发明第二实施例的服务器和设备。

图7示出了表示本发明第二实施例中由服务器执行的方法的主要步骤和由设备执行的方法的主要步骤的流程图。

图8示出了根据本发明特定实施例的服务器的硬件架构。

图9示出了根据本发明特定实施例的客户端设备的硬件架构。

具体实施例

第一实施例

图1示出了IMG图像和相关的DM深度图。这显示了可以在DM深度图上找到IMG图像的轮廓。我们定义以下符号：

-IB^c,r：位于c列r行的图像块(或纹理块)；以及

-DB_c,r：位于c列r行的深度块。

图2示出了根据本发明第一实施例的服务器SRV和设备CLT。在该实施例中，设备CLT嵌入在用户或观察者的终端中。或者，可以在基于云的网络中实现设备CLT。

该第一实施例是在服务器SRV可以生成深度图但不将深度图发送至设备CLT的上下文中。

服务器SRV经由图像获取模块IAM连接到相机CAM_i，相机CAM_i配置为获取场景S的图像IMG_i,j，其中i是视图V_i的索引，j是帧的索引。

在该第一实施例中，认为每个相机CAM_i与未示出的一设备相关联，并且相机CAM_i配置成为每个图像IMG_i,j生成深度图DM_i,j。服务器在步骤S2期间获得这些图像。

服务器SRV包括编码器COD，编码器COD配置为根据图像IMG_i,j生成(步骤S4)视频流STR。

服务器SRV包括信号生成模块SSGM，信号生成模块SSGM配置为生成(步骤S10)信号SIG，信号SIG包括使设备CLT能够识别包括在深度图DM_i,j中的可导出深度块DB^c,r _i,j的信息。

图4a示出了根据本发明第一实施例的信号SIG。在该第一实施例中，假定设备CLT知晓：

-深度图的尺寸(每行和每列的块数)；以及

–用于推导出可导出块DB^c,r _i,j的深度dp^c,r _i,j的操作op^c,r _i,j。

例如，该操作可以简单地包括使用当前深度块左侧的块的深度。

op^c,r _i,j:dp^c,r _i,j＝dp^c-1,r _i,j

实际上，在该第一实施例中，信号SIG仅包括每个深度块的一个比特，例如，如果要使用常规的深度计算方法来计算深度块，则该比特等于1，如果要推导出深度块，则该比特等于0。

图4b示出了根据本发明第二实施例的信号SIG。信号SIG是针对两个深度图DM_i,j，DM_k,l示出的。在该第二实施例中，对于每个深度图的每个深度块DB^c,r _i,j，信号SIG包括：

-块标识符DB^c,r _i,j；

-指示块的深度dp^c,r _i,j是否应为如下的属性：

(i)是使用常规深度计算方法(tbc)计算得出的；或者

(ii)是推导出的(d)；

(iii)当认为深度块的深度对于合成新图像是非必要的时，简单地忽略或跳过(u)；以及

-对于可导出块，推导出该深度dp^c,r _i,j所需的操作op^c,r _i,j的指示。

在另一实施例(未示出)中，信号SIG还可以包括参考深度块DB^c’,r’ _i,j、DB^c’,r’ _i’,j’的标识符或残差深度块DBR^c’,r’ _i,j的标识符，基于这些标识符可以推导出深度dp^c,r _i,j或给定深度块。

图5示出了从虚线所示的至少一个参考深度块的深度推导出深度图DM_i,j的块DM^c ^,r _i,j的深度的不同可能操作。

例如，参考深度块可以为：

-另一深度图DM_i’,j’的块DB^c’,r’ _i’,j’(图5a)；或者

-同一深度图DM_i,j的块DB^c’,r’ _i,j(图5b)。

服务器可以使用不同的方法来识别(步骤S8)至少一个参考深度块。例如，服务器SRV使用如下方式获得这些参考深度块：

-使用应用于图像IMG_i’,j’的运动估计方法；或者

-使用应用于深度图DM_i’,j’的运动估计方法；

-在针对给定可导出深度块DM^c,r _i,j所确定的候选块DM^c’,r’ _i’,j’的列表中，其中，所述候选块为：

-同一深度图DM_i,j中的给定可导出深度块的邻域(c’,r’)中的块；或者

-在与另一个图像IMG_i’,j’(通常是同一视图中的前一帧)相对应的深度图DM_i’,j’中、给定可导出深度块的位置(c,r)处的块。

参考块DB^c’,r’ _i’,j’，DB^c’,r’ _i,j的坐标c’，r’可以接近于当前深度块DB^c,r _i,j的坐标。如果更远的参考块与当前深度块的对应性更好，也可以选择更远的参考块。

在图2的实施例中，信号生成模块SSGM包括用于确定可导出深度块的模块SMDDB和用于确定非必要深度块的模块SMDUB。

服务器SRV包括用于向设备CLT发送(步骤S12)视频流STR和信号SIG的通信模块COM。

信号SIG是根据无损协议发送的。可以以SEI消息的形式发送信号SIG。

设备CLT通过通信模块COM接收流STR和信号SIG(步骤C2)。设备CLT包括解码(步骤C4)流STR并检索已解码图像IMG*_i,j的解码器。

设备CLT包括模块DMGM，模块DMGM配置为根据所接收的信号SIG生成(步骤C10)目标深度图DM_i,j。

目标图DM_i,j可用于根据观察者选择的视点pv合成(步骤C12)新图像IMG_pv。在本文描述的实施例中，设备CLT包括I/O模块，用户可以通过I/O模块选择该视点。

模块DMGM配置为分析(步骤C6)信号SIG并识别目标深度图DM_i,j中的可导出深度块。

例如，如果客户端接收到图4a的信号SIG，客户端确定等于1的每个比特对应于必须使用常规深度计算方法计算的深度块，并且等于1的每个比特对应于可导出深度块。

在另一示例中，如果客户端接收到图4b的信号SIG，则对于深度图的每个深度块DB^c,r _i,j，客户端确定块的深度dp^c,r _i,j是否应该为：

(i)是使用常规深度计算方法(tbc)计算得到的；或者

(ii)是推导出的(d)；

(iii)当认为深度块的深度对于合成新图像是非必要的时，简单地忽略或跳过(u)。

对于每个可导出块，模块DMGM还确定(步骤C8)推导出该深度dp^c,r _i,j所需的操作op^c,r _i,j。

在一个实施例中，服务器SRV和客户端初步商定用于根据一个或多个深度块的深度推导出给定深度块的深度所要执行的操作。

模块DMGM通过执行至少一个所述操作op^c,r _i,j来获得目标深度图DM_i,j。

在该实施例中，设备CLT包括模块ISM，用于使用所述目标深度图DM_i,j和通过解码所述流STR获得的至少一个图像IMG*_i,j来合成新图像IMG_PV。

在该第一实施例的详细示例中，服务器SRV发送指示可导出块的SEI消息。

在服务器端，由多相机设备在体育场周围拍摄了一个包含30个视图的沉浸式视频。没有采集深度图也没有计算深度图。依次研究每个视图中每个图像的每个块，该每个块为正方形且尺寸为32x32。在当前块和当前块的并置块(相同的视图，先前图像)之间应用SAD准则。如果SAD的值低于预定义的阈值，则认为该块的纹理没有显著变化。然后假设该块的深度没有显著变化。对于一组3个连续的块，将创建以下字符串：0210000101。

-0：正方形块指示

-2：32x32尺寸的指示(1代表16x16等)

-1：待推导的块的指示

-0：直接推导(1表示残差推导)

-0：使用并置块(1代表顶部，2代表左侧，等等)。

-0：待计算的块指示

-1：待推导的块的指示

-0：直接继承(1表示残差)

-1：使用顶部块

使用霍夫曼编码对该字符串进行无损编码，霍夫曼编码将该字符串转换成0和1的序列。该字符串与其他块的字符串关联，通过SEI消息传输到客户端。

在客户端CLT处，对SEI消息进行读取和解码(反向霍夫曼)。找到字符串0210000101。客户端知晓，对于尺寸为32x32的第一个正方形块，不应计算深度，而必须直接从并置块中推导出深度。然后，客户端知晓对于接下来的2个块，必须计算深度，并且必须根据顶部块的深度推导出下一个块。

第二实施例

图6示出了根据本发明第一实施例的服务器SRV和设备CLT。

图7示出了表示该第二实施例中由设备执行的方法的主要步骤的流程图。

在该实施例中，服务器SRV不生成深度图。服务器SRV仅向设备CLT发送视频流STR(在步骤C2接收该视频流STR)。

在该实施例中，客户端包括模块DSGM以生成(步骤C60)信号SIG，信号SIG包括能够识别目标深度图的可导出深度块的信息。在该实施例中，可导出深度块是指其深度可以通过对包括在与已解码图像IMG*_i,j，IMG*_i’,j’相对应的深度图DM_i,j中的至少一个参考深度块的深度执行操作而推导出的深度块。

在一个实施例中，模块DSGM配置为将信号发送(步骤C70)到模块DMGM，模块DMGM配置为根据信号SIG生成目标深度图DM_i,j。模块DMGM可以类似于上面参照图2描述的同名模块。

在一个实施例中，可导出深度块可以由子模块CMDDB确定(步骤C50)，子模块CMDDB配置为解析视频流STR和/或分析已解码图像IMG*_i,j。

例如，子模块CMDDB可以解析流STR以识别已经以跳过(Skip)、合并(Merge)或帧内模式(Intra mode)编码的纹理块，并且可以确定与以跳过模式或合并模式编码的纹理块相对应的深度块是可导出块。

在一个实施例中，模块DSGM配置为生成信号SIG、并通过以下方式获得参考深度块：

-使用应用于至少一个所述已解码图像IMG*_i’,j’的运动估计方法；或者

-使用应用于与至少一个所述已解码图像相对应的至少一个深度图DM_i’,j’的运动估计方法；或者

-在针对给定可导出深度块DM^c,r _i,j确定的至少一个候选块的列表中，其中，所述候选块为：

-目标深度图中所述给定可导出深度块的邻域中的块；

在与另一已解码图像IMG_i’,j’相对应的深度图DM_i’,j’中所述至少一个可导出深度块的位置处的块。

在一个实施例中，配置为生成信号SIG的模块DMGS还包括子模块CMDUB，子模块CMDUB配置为识别其深度对于合成针对给定视点pv的新图像IMG_pv不是必要的的深度块。

在该第二实施例的详细示例中，客户端CLT从视频流读取语法元素以识别可导出深度块。

在该第二示例中，服务器端没有特殊的处理。使用2D或3D编码器以传统的方式对所有的视图进行编码，并且将视频流传输到客户端。

在客户端，对于给定的纹理块，研究像素残差。事实证明，像素残差的平均幅度非常低，这表明编码器完美地预测了这个块。对流的解析还指示该块是以帧间模式编码的，具有视差矢量(+5，-10)。因此，客户端推断：在同一帧中，可以在移动了(+5，-10)个像素的块中，复用位于另一视图中的深度像素。

如图7所示，服务器SRV特别包括处理器1_SRV、随机存取存储器3_SRV、只读存储器2_SRV和非易失性闪存4_SRV。

只读存储器2_SRV构成根据本发明的记录介质，可由处理器1_SRV读取只读存储器2_SRV，并在只读存储器2_SRV上记录根据本发明的计算机程序PG_SRV。

计算机程序PG_SRV定义服务器100的功能(这里是软件)模块。

在图2的实施例中，这些功能模块包括：

-模块IAM，用于获得多个图像IMG_i,j；

-编码器COD，用于生成视频流STR；

-模块SSGM，用于确定可导出深度块并用于生成信号SIG；以及

-通信模块，用于向客户端CLT发送视频流STR和信号SIG。

如图8所示，设备CLT特别包括处理器1_CLT、随机存取存储器3_CLT、只读存储器2_CLT和非易失性闪存4_CLT。

只读存储器2_CLT构成根据本发明的记录介质，可由处理器1_CLT读取，并在只读存储器2_CLT上记录根据本发明的计算机程序PG_CLT。

计算机程序PG_CLT定义设备CLT的功能(这里是软件)模块。

在图2的实施例中，这些功能模块包括：

-解码器DEC；

-模块DMGM，配置为分析从服务器SRV接收的信号SIG并获得目标深度图；以及

-模块ISM，用于合成新图像。

在图6的实施例中，这些功能模块包括：

-解码器DEC；

-模块SSGM，用于确定可导出深度块并用于生成信号SIG；

-模块DMGM，配置为分析从模块SSGM接收的信号SIG并获得目标深度图；以及

-模块ISM，用于合成新图像。

Claims

1.一种合成图像(IMG_PV)的方法，其特征在于，所述方法由设备(CLT)执行，并且所述方法包括：

-从服务器(SRV)接收(C2)流(STR)，所述流是通过对与由多个相机(CAM_i)获取的同一场景(S)的不同视图(V_i)相对应的图像(IMG_i,j)进行编码而获得的；

-分析(C6)信号(SIG)，所述信号(SIG)包括使所述设备能够识别与一个所述图像(IMG_i,j)相对应的目标深度图(DM_i,j)的至少一个可导出深度块(DB^c,r _i,j)的至少一个信息；

-确定(C8)要使用的操作(op^c,r _i,j)，所述操作(op^c,r _i,j)用于根据在与一个所述图像(IMG_i,j，IMG_i’,j’)相对应的深度图(DM_i,j，DM_i’,j’)中包括的至少一个参考深度块(DB^c’,r’ _i,j，DB^c’,r’ _i’,j’)的深度(d^c’,r’ _i,j，d^c’,r’ _i’,j’)，来推导出所述至少一个可导出深度块(DB^c,r _i,j)的深度(dp^c,r _i,j)；

-通过执行至少一个所述操作(op^c,r _i,j)来获得(C10)所述目标深度图(DM_i,j)；以及

-使用所述目标深度图(DM_i,j)和通过对所述流(STR)进行解码而获得的至少一个图像(IMG*_i,j)来合成(C12)新图像(IMG_PV)。

2.根据权利要求1所述的合成图像的方法，其特征在于，所述信号(SIG)是从所述服务器(SRV)接收的。

3.根据权利要求2所述的合成图像的方法，其特征在于，所述信号(SIG)在补充增强信息消息中传送。

4.根据权利要求1所述的合成图像的方法，其特征在于，所述方法包括：

-对所述流(STR)进行解码(C4)以获得已解码图像(IMG*_i,j)；

-确定与一个所述已解码图像(IMG*_i,j)相对应的目标深度图(DM_i,j)的所述至少一个可导出深度块(DB^c,r _i,j)，其中，通过对在与一个所述已解码图像(IMG*_i,j，IMG*_i’,j’)相对应的深度图(DM_i,j，DM_i’,j’)中包括的至少一个参考深度块(DB^c’,r’ _i,j，DB^c’,r’ _i’,j’)的深度(d^c ^’,r’ _i,j，d^c’,r’ _i’,j’)执行操作(op^c,r _i,j)来推导出所述至少一个可导出深度块(DB^c,r _i,j)的深度(dp^c,r _i,j)；

-生成(C50)所述信号(SIG)，其中，所述信号包括能够识别所述至少一个可导出深度块(DB^c,r _i,j)的一个信息；以及

-将所述信号(SIG)发送(C54)至所述设备的模块(DMGM)，所述模块(DMGM)用于通过执行至少一个所述操作来获得所述目标深度图。

5.根据权利要求4所述的方法，其特征在于，所述至少一个可导出深度块(DB^c,r _i,j)是通过解析所述流(STR)获得的。

6.根据权利要求4或5所述的方法，其特征在于，所述至少一个可导出深度块(DB^c,r _i,j)是通过分析所述已解码图像(IMG*_i,j)确定的。

7.根据权利要求4至6中任一项所述的合成图像的方法，其特征在于，所述至少一个参考深度块(DB^c’,r’ _i’,j’)由所述设备(CLT)通过如下方法获得：

-使用应用于至少一个所述已解码图像(IMG*_i’,j’)的运动估计方法；或者

-使用应用于与至少一个所述已解码图像(IMG*_i’,j’)相对应的至少一个深度图(DM_i’,j’)的运动估计方法；

-在针对所述至少一个可导出深度块(DM^c,r _i,j)确定的至少一个候选块(DM^c’,r’ _i’,j’)的列表中，其中，所述候选块为：

-在所述目标深度图(DM_i,j)中的所述至少一个可导出深度块(DM^c,r _i,j)的邻域中的块；或者

-在与另一个所述已解码图像(IMG_i’,j’)相对应的深度图(DM_i’,j’)中所述至少一个可导出深度块(DM^c,r _i,j)的位置(c,r)处的块。

8.一种在服务器(SRV)中执行的方法，其特征在于，所述方法包括：

-获得(S2)与由多个相机(CAM_i)获取的同一场景(S)的不同视图(V_i)相对应的多个图像(IMG_i,j)；

-通过对所述图像(IMG_i,j)进行编码以生成(S4)流(STR)；

-确定(S8)与一个所述图像(IMG_i,j)相对应的目标深度图(DM_i,j)的至少一个可导出深度块(DB^c,r _i,j)，其中，通过根据在与一个所述图像(IMG_i,j，IMG_i’,j’)相对应的深度图(DM_i,j，DM_i’,j’)中包括的至少一个参考深度块(DB^c’,r’ _i,j，DB^c’,r’ _i’,j’)的深度(d^c’,r’ _i,j，d^c’,r’ _i’,j’)执行操作(op^c,r _i,j)，来推导出所述至少一个可导出深度块(DB^c,r _i,j)的深度(dp^c,r _i,j)；

-生成(S10)信号(SIG)，所述信号包括使设备(CLT)能够识别所述至少一个可导出深度块(DB^c,r _i,j)的至少一个信息；

向所述设备(CLT)发送(S12)所述流(STR)和所述信号(SIG)，所述信号(SIG)是根据无损协议发送的。

9.根据权利要求8所述的在服务器中执行的方法，其特征在于，所述至少一个参考深度块(DB^c’,r’ _i’,j’)由所述服务器(SRV)通过如下方法获得：

-使用应用于至少一个所述图像(IMG_i’,j’)的运动估计方法；或者

-使用应用于与一个所述图像(IMG_i’,j’)相对应的至少一个深度图(DM_i’,j’)的运动估计方法；或者

-在所述深度图(DM_i,j)中的所述至少一个可导出深度块(DM^c,r _i,j)的邻域中的块；或者

-在与另一个所述图像(IMG_i’,j’)相对应的深度图(DM_i’,j’)中所述至少一个可导出深度块(DM^c,r _i,j)的位置(c,r)处的块。

10.根据权利要求8或9所述的在服务器中执行的方法，其特征在于，所述方法包括：

-获得由观察者选择的目标视点(pv)；

-确定至少一个所述目标深度图(DM_i,j)的至少一个非必要深度块，其中，所述非必要深度块的深度对于合成新图像(IMG_pv)不是必要的；以及

-在所述信号中包括使所述设备能够识别所述至少一个非必要深度块(DB^c,r _i,j)的一个信息。

11.根据权利要求1至10中任一项所述的方法，其特征在于，所述信号(SIG)还包括所述操作(op^c,r _i,j)的指示。

12.根据权利要求1或11中任一项所述的方法，其特征在于，所述信号(SIG)还包括所述至少一个参考深度块(DB^c’,r’ _i,j，DB^c’,r’ _i’,j’)的标识符。

13.根据权利要求1至12中任一项所述的方法，其特征在于，用于推导出所述至少一个可导出深度块(DB^c,r _i,j)的所述深度(dp^c,r _i,j)的所述操作(op^c,r _i,j)不使用所述相机(CAM_i)的固有参数或非固有参数。

14.根据权利要求1至13中任一项所述的方法，其特征在于，用于推导出所述至少一个可导出深度块(DB^c,r _i,j)的所述深度(dp^c,r _i,j)的所述操作(op^c,r _i,j)是所述至少一个参考深度块(DB^c’,r’ _i,j，DB^c’,r’ _i’,j’)的所述深度(d^c’,r’ _i,j，d^c’,r’ _i’,j’)的线性组合。

15.根据权利要求14所述的方法，其特征在于，用于推导出所述至少一个可导出深度块(DB^c,r _i,j)的所述深度(dp^c,r _i,j)的所述操作(op^c,r _i,j)是复制一个所述参考深度块(DB^c’,r’ _i,j，DB^c’,r’ _i’,j’)的深度(d^c’,r’ _i,j)。

16.根据权利要求1至15中任一项所述的方法，其特征在于，用于推导出所述至少一个可导出深度块(DB^c,r _i,j)的所述深度(dp^c,r _i,j)的所述操作(op^c,r _i,j)包括计算所述至少一个参考深度块(DB^c’,r’ _i’,j’)的一组所述深度的平均值、中值或最小值。

17.根据权利要求1至16中任一项所述的方法，其特征在于，用于推导出所述至少一个可导出深度块(DB^c,r _i,j)的所述深度(dp^c,r _i,j)的所述操作(op^c,r _i,j)包括将预测方法应用于所述至少一个参考深度块(DB^c’,r’ _i’,j’)。

18.根据权利要求1至17中任一项所述的方法，其特征在于，所述信号(SIG)包括至少一个所述目标深度图(DM_i,j)的至少一个非必要深度块的标识符，所述方法包括在合成所述新图像(IMG_pv)之前跳过对所述非必要深度块的深度的确定。

19.根据权利要求1至18中任一项所述的方法，其特征在于，所述信号(SIG)包括至少一个残差深度块(RDB^c,r _i,j)的标识符，所述至少一个残差深度块由所述设备(CLT)添加至所述至少一个参考深度块(DB^c’,r’ _i’,j’)以获得所述可导出深度块(DB^c,r _i,j)。

20.一种设备，其特征在于，包括：

-模块(COM)，用于从服务器(SRV)接收流(STR)，所述流(STR)是通过对与由多个相机(CAM_i)获取的同一场景(S)的不同视图(V_i)相对应的图像(IMG_i,j)进行编码而获得的；

-模块(DMGM)，用于分析信号(SIG)，所述信号(SIG)包括使所述设备能够识别与一个所述图像(IMG_i,j)相对应的目标深度图(DM_i,j)的至少一个可导出深度块(DB^c,r _i,j)的至少一个信息；

-模块(DMGM)，用于确定要使用的操作(op^c,r _i,j)的指示，所述操作(op^c,r _i,j)用于根据在与一个所述图像(IMG_i,j，IMG_i’,j’)相对应的深度图(DM_i,j，DM_i’,j’)中包括的至少一个参考深度块(DB^c’,r’ _i,j，DB^c’,r’ _i’,j’)的深度(d^c’,r’ _i,j，d^c’,r’ _i’,j’)来推导出所述至少一个可导出深度块(DB^c,r _i,j)的深度(dp^c,r _i,j)；

-模块(DMGM)，用于通过执行至少一个所述操作(op^c,r _i,j)来获得所述目标深度图(DM_i,j)；以及

-模块(ISM)，用于使用所述目标深度图(DM_i,j)和通过对所述流(STR)进行解码而获得的至少一个图像(IMG*_i,j)来合成新图像(IMG_PV)。

21.一种服务器(SRV)，其特征在于，包括：

-模块(IAM)，用于获得与由多个相机(CAM_i)获取的同一场景(S)的不同视图(V_i)相对应的多个图像(IMG_i,j)；

-编码器(COD)，用于通过对所述图像(IMG_i,j)进行编码以生成流(STR)；

-模块(SSGM)，用于确定与一个所述图像(IMG_i,j)相对应的目标深度图(DM_i,j)的至少一个可导出深度块(DB^c,r _i,j)，其中，通过对在与一个所述图像(IMG_i,j，IMG_i’,j’)相对应的深度图(DM_i,j，DM_i’,j’)中包括的至少一个参考深度块(DB^c’,r’ _i,j，DB^c’,r’ _i’,j’)的深度(d^c’,r’ _i,j，d^c ^’,r’ _i’,j’)执行操作(op^c,r _i,j)，来推导出所述至少一个可导出深度块(DB^c,r _i,j)的深度(dp^c ^,r _i,j)；

-模块(SSGM)，用于生成信号(SIG)，所述信号包括使设备能够识别所述至少一个可导出深度块(DB^c,r _i,j)的至少一个信息；以及

-模块(COM)，用于向所述设备(CLT)发送所述流(STR)和所述信号(SIG)，所述信号(SIG)是根据无损协议发送的。

22.一种计算机程序(PG_CLT，PG_SRV)，其特征在于，包括指令，所述指令配置为在由计算机执行时实现根据权利要求1至19中任一项所述的方法的步骤。

23.一种可读介质(1_SRV，1_CLT)，其特征在于，包括根据权利要求22所述的计算机程序(PG_CLT，PG_SRV)。