CN112585978B

CN112585978B - 生成用于在vr中显示的复合视频流

Info

Publication number: CN112585978B
Application number: CN201980055019.7A
Authority: CN
Inventors: A·达西尔瓦普拉塔斯; M·O·范德文特; H·M·斯托金
Original assignee: Nederlandse Organisatie voor Toegepast Natuurwetenschappelijk Onderzoek TNO; Koninklijke KPN NV
Current assignee: Nederlandse Organisatie voor Toegepast Natuurwetenschappelijk Onderzoek TNO; Koninklijke KPN NV
Priority date: 2018-07-30
Filing date: 2019-07-29
Publication date: 2023-07-25
Anticipated expiration: 2039-07-29
Also published as: WO2020025558A1; US20210266613A1; US11516521B2; EP3831075A1; CN112585978A

Abstract

可以提供一种用于生成可以将背景视频和前景视频流组合为一个流的复合视频流的处理器系统和计算机实施的方法。为此，可以获得例如图块流形式的对背景视频的空间分段编码。该前景视频流可以例如从(另一)客户端设备接收。例如当在实时通信中使用时，该前景视频流可以是实时流。可以通过以下方式将该前景视频流的图像数据插入到该背景视频中：对该背景视频的所选片段进行解码，将该前景图像数据插入到这些片段的解码后的背景图像数据中，并且对所得的复合图像数据进行编码以获得与该背景视频的未处理片段一起形成对复合视频的空间分段编码的复合片段。

Description

生成用于在VR中显示的复合视频流

技术领域

本发明涉及一种用于生成用于由客户端设备例如在VR环境中显示的复合视频流的方法和处理器系统。本发明进一步涉及一种包括用于执行该方法的指令的计算机程序。本发明进一步涉及一种计算机可读介质，所述计算机可读介质包括用于生成复合视频流的放置元数据。本发明进一步涉及一种表示用于在VR环境中渲染复合视频流的客户端设备的处理器系统。

背景技术

虚拟现实(VR)涉及使用计算机技术来模拟用户在虚拟环境中的物理存在。通常，VR渲染设备利用头戴式显示器(HMD)向用户渲染虚拟环境，尽管还可以使用其他类型的VR显示器和渲染技术，包括但不限于全息术和洞穴状自动虚拟环境。

VR可以用于渲染由三维(3D)图形表示(例如，被定义为一组顶点、边、面等)的场景。

然而，在许多情况下，可能期望在VR中渲染场景的基于视频的表示。例如，视频可以是现实生活场景的视频记录，或者是通过虚拟场景的计算机生成图像(CGI)获得的视频等。在一些情况下，视频可以表示全向视频，该全向视频可以提供场景的大视场，例如，允许用户在场景内“环顾四周”。对场景的这种基于视频的表示的渲染可以涉及将视频的图像数据投影到虚拟主体(比如球体)上，并然后从该虚拟主体内的或面向该虚拟主体的视点进行渲染。

例如，在VR中的多用户通信会话中，热带岛屿的全向视频可以用作该多用户通信会话的“虚拟背景”，方法是将该视频投影到球体内部并将表示该多用户通信会话的用户的化身放置在该球体内部，从而为每个用户提供岛屿上其他参与者的视图。另一示例是‘VR社交’会话，其中，将电影院播放电影的全向视频用作“虚拟布景”，并且其中，将用户表示为电影院中的可以一起观看电影的化身。

在上面的示例中，场景的基于视频的表示可以表示比如前述化身等“前景”对象的背景，其中，从VR环境中用户的视点来看，该前景对象被视为放置在背景之前。在某些场景中，前景对象可以示出视频流。这种视频流的示例在被显示时可以提供另一用户的基于视频的实时表示，例如，如[1]所描述的所谓的视频化身。这种视频流可以示出在背景(例如，如[2]所述，虽然是基于图像的背景而不是基于视频的背景)的前面。因此，放置在背景视频之前的先前描述的化身可以是视频化身。

这种场景的缺点是客户端设备可以接收多个流，即，表示背景视频的视频流和表示例如要在VR环境中在背景视频前面显示的另一用户的实时记录的前景视频流。

即，对于客户端设备而言，同时接收和解码多个视频流可能是挑战性的。例如，低端VR设备(比如低端智能电话)可能仅具有仅允许对一个视频流进行硬件解码的一个硬件解码器。其他流可能是软件解码的，这通常在计算上(远远)更复杂。在VR环境中要在背景视频前面显示几个前景视频流(例如在电话会议中，对于其他参与者中的每一个都显示一个前景视频流)的情况下，此问题可能会加剧。

相关的问题可能是在使用“视频化身”的VR中的多用户通信会话中可能需要交换相对较多的流。即，对于N用户的多用户通信会话，每个客户端设备可以接收N个传入流(即表示背景视频的一个流(通常可以由中央服务器提供)和其他用户的N-1个流)，同时还必须将相应用户的记录作为N-1个传出流而流式传输到其他客户端设备中的每一个。这可能表示对客户端设备的负担，例如，因为必须提供并分配足够的带宽，并且必须与其他客户端设备中每一个维持网络会话。

尽管上述问题是针对VR中的多用户通信而描述的，但是在其他场景中可能会出现相同或类似的问题，在这些其他场景中，在VR中或在任何其他非VR类型的显示环境(比如简单的全屏或窗口化显示)中，前景视频流要显示在背景视频前面。例如，背景视频流可以表示电影院布景的视频，该视频示出了坐在电影院中的其他用户(例如，看着屏幕，吃爆米花等)，而要播放的真正电影是由单独的视频流提供的，该单独的视频流将覆盖在背景视频的(空白)屏幕上。

参考文献

[1]Hirose等人,“Integrating live video for immersive environments[集成实况视频以获得沉浸式环境]”,IEEE Multimedia[IEEE多媒体杂志]6.3，1999，第14-22页。

[2]M.J.Prins、S.Gunkel和O.Niamut的“一起VR：实现360度VR中照片般逼真的共享媒体体验的框架[TogetherVR:A Framework for Photo-Realistic Shared MediaExperiences in 360-Degree VR]”，国际广播电视会议，2017。

发明内容

例如，与对背景视频流和单独的前景视频流的解码相比，使客户端设备能够以降低的计算复杂度显示背景视频和前景视频流将是有利的。

根据本发明的第一方面，可以提供一种用于生成用于由客户端设备显示的复合视频流的方法。该方法可以包括以下步骤中的一个或多个步骤：

-获得对背景视频的空间分段编码，所述分段编码包括可独立解码的背景片段；

-接收至少一个前景视频流，该至少一个前景视频流的至少一部分要显示在该背景视频的前面；

-确定该前景视频流相对于该背景视频的放置位置；

-识别当该前景视频流被显示在该放置位置处时，被该前景视频流部分地或全部遮挡的背景片段子集；

-通过针对该复合视频流的相应输出帧以及该背景视频和该前景视频流的各个输入帧执行以下操作来为该客户端设备生成该复合视频流：

-选择性地解码该背景片段子集，从而获得解码后的背景图像数据，

-将该前景视频流的图像数据复合到该解码后的背景图像数据中，从而获得复合图像数据，以及

-对该复合图像数据进行编码以获得可独立解码的复合片段集，该复合片段集与不在该背景片段子集中的背景片段一起表示对该复合视频流的输出帧的空间分段编码；以及

-将该复合视频流或该复合视频流中的所选空间片段流式传输到该客户端设备。

根据本发明的进一步方面，一种暂态或非暂态计算机可读介质可以包括计算机程序，该计算机程序可以包括用于使处理器系统执行方法的指令。

根据本发明的进一步方面，可以提供一种可以被配置用于生成用于由客户端设备显示的复合视频流的处理器系统。该处理器系统可以包括：

-到网络的网络接口；

-输入接口，该输入接口用于获得对背景视频的空间分段编码，所述分段编码包括可独立解码的背景片段；

-处理器，该处理器被配置为执行以下各项中的一项或多项：

经由该网络接口接收至少一个前景视频流，该至少一个前景视频流的至少一部分要显示在该背景视频的前面；

确定该前景视频流相对于该背景视频的放置位置；

识别当该前景视频流被显示在该放置位置处时，被该前景视频流部分地或全部遮挡的背景片段子集；

通过针对该复合视频流的相应输出帧以及该背景视频和该前景视频流的各个输入帧执行以下操作来为该客户端设备生成该复合视频流：

经由该网络接口将该复合视频流或该复合视频流中的所选空间片段流式传输到该客户端设备。

根据本发明的进一步方面，可以提供一种可以表示被配置为渲染VR环境的客户端设备的处理器系统。该处理器系统可以包括：

-到网络的网络接口；

-处理器，该处理器被配置为经由该网络接口进行以下操作：

获得该客户端设备的用户的实时记录，并将该实时记录作为视频流而流式传输到所选处理器系统；

从该所选处理器系统接收复合视频流或该复合视频流中的所选空间片段，该复合视频流是空间分段编码，该空间分段编码包括复合到背景视频上的、另一客户端设备的用户的实时记录；

该处理器进一步被配置为执行以下各项中的一项或多项：

解码该复合视频流的片段的至少一部分，从而获得解码后的复合图像数据；并且

从该VR环境中的观看位置渲染该解码后的复合图像数据。

根据本发明的进一步方面，可以提供一种用于渲染VR环境的计算机实施的方法。该方法可以包括例如在客户端设备处进行以下操作：

-获得该客户端设备的用户的实时记录，并将该实时记录作为视频流而流式传输到所选处理器系统；

-从该所选处理器系统接收复合视频流或该复合视频流中的所选空间片段，该复合视频流是空间分段编码，该空间分段编码包括复合到背景视频上的、另一客户端设备的用户的实时记录；

-解码该复合视频流的片段的至少一部分，从而获得解码后的复合图像数据；以及

-从该VR环境中的观看位置渲染该解码后的复合图像数据。

以上措施可以涉及生成可以将背景视频和前景视频流组合为一个流的复合视频流。为此，可以获得例如图块流形式的对背景视频的空间分段编码。该前景视频流可以例如从(另一)客户端设备接收。例如当在实时通信中使用时，该前景视频流可以是实时流。

然后可以通过将前景视频流的图像数据复合到背景视频的图像数据中，来将前景视频流“插入”到背景视频中。为此，可以确定前景视频流的放置位置，该放置位置可以指示该前景视频流相对于背景视频要被放置的位置(例如，当两者均在VR环境中显示以及在任何其他类型的显示中显示时)。这种放置位置可以是预定义的，或者例如在前景视频流表示另一用户的实时记录并且该放置位置要对应于该用户在VR环境中的位置的情况下可以动态变化。复合本身可以采取各种形式，比如图像元素(例如，像素)的简单覆写或混合，但还可以包括更高级的处理。

在这方面，注意，通常，不是所有的前景视频流都可以被“插入”到背景中，而是仅该前景视频流的一部分(可能是实质部分)可以被“插入”到背景中。对前景视频流的“插入”、“复合”、“显示”等的任何提及应理解为包括仅应用于视频流的一部分(实质部分)的所述动作。例如，如果前景视频流包含用户以及他/她附近环境的记录，则仅用户的图像数据可以被插入到背景视频中，而省略了他/她周围环境的图像数据的插入。

通常，前景视频流可能比背景视频流更具动态性。因此，可以实时提供前景视频流，而可以预先记录背景视频流。然而，这不是限制，因为也可以实时获得(例如，实况记录)背景视频流，和/或可以可替代地预先记录前景视频流。

此外，术语“前景”和“背景”在技术上并不对相应流/视频的(语义)内容进行限制，而是指显示顺序，因为前景视频流要在背景视频的“前面”显示。例如，通常，背景视频流可以包含场景的背景，但是背景视频流还可以包括一个或多个前景对象。作为具体示例，在VR会议布景中，背景视频流可以提供会议室的背景以及前景中的桌子，而(多个)前景视频流可以包括参与VR会议的(多个)用户的(多个)实时视频流。

由于与要在背景视频之前显示前景视频流的空间大小相比，背景视频的空间尺寸可能相对较大，因此可以具体以空间分段的形式获得背景视频。即，可以识别其中当例如在VR环境中显示时前景视频流遮挡背景的特定片段。然后可以例如通过解码、复合图像数据并重新编码复合图像数据来处理这些特定片段。然后可以生成复合视频流，其中，复合视频流的各片段由复合(“重新编码的”)片段和其余背景片段(其尚未通过解码、复合和重新编码进行处理)组成。然后，复合视频流可以全部或作为所选空间片段(例如，在给定客户端设备的用户在VR环境中的当前视场的情况下，仅该用户才可见的那些空间片段)而流式传输到客户端设备(作为所选空间片段而流式传输的概念在VR中也称为“图块流式传输”，特别是用于流式传输所谓的‘视口’)。

与必须接收两个或更多个单独的视频流(例如，背景视频流和至少一个前景视频流)的客户端设备相比，上述措施可以为客户端设备提供几个优点。例如，客户端设备可能仅需要解码复合视频流，并且从而解码较少的视频流。这可以提供与仅具有一个硬件解码器的客户端设备的兼容性。此外，复合视频流可以省略背景中被前景视频流遮挡的部分，并且因此其大小可以小于背景视频流和附加的前景视频流(因为背景视频流包含当例如在VR环境中显示时将被前景视频流遮挡的图像数据)。这可以降低解码的计算复杂度以及用于接收和缓冲的带宽要求和存储要求。此外，如果存在由比如前述处理器系统等实体集中插入的几个前景视频流，则客户端设备将仅需要接收和解码复合视频流，而不必单独地接收和解码可能来自不同实体的前景视频流。

带宽优点还可以适用于通过其将复合视频流传输到客户端设备的(接入)网络。

从执行复合的处理器系统的角度来看，对背景的分段编码可以显著降低复合的计算复杂度，因为由于只可以对背景视频中当例如在VR环境中显示时背景被前景视频流遮挡的那些片段进行处理，故而仅可以选择性地处理(通过解码、复合和重新编码)背景视频。由于背景视频可能相对较大(例如，提供场景的180度或360度高分辨率视图)，因此可能仅必须处理片段的一小部分。这不仅可以降低计算复杂度，而且可以减少由处理引起的等待时间。该等待时间在前景视频流用于通信目的(例如，在表示另一用户的实时记录时)的情况下可能特别相关，因为等待时间可能会干扰通信。

在实施例中，该客户端设备可以被配置为在VR环境中显示该复合视频流，并从用户的观看位置渲染该VR环境，并且该方法可以进一步包括：

-例如通过从该客户端设备接收指示该观看位置的数据来确定该用户的观看位置；以及

-进一步基于该观看位置，识别被该前景视频流部分地或全部遮挡的该背景片段子集。

可以考虑客户端设备的用户在VR环境中的观看位置来生成复合视频流，针对该用户生成该复合视频流。在这里和其他地方，可以理解的是，“用户的”可以在技术上对应于提供用户可调整的参数，以及提供用于用户调整所述参数的机制。

观看位置可以以各种方式来表征，例如，表征为VR环境中的2D位置或3D位置。如果前景视频流不是要“粘合”到背景视频上，而是要在VR环境中表示为要放置在表示背景视频的对象(例如，周围的球体)的前面的单独对象，则观看位置可以确定前景视频流遮挡了背景视频的哪些部分，并且从而还确定要处理(通过解码、复合和重新编码)背景视频的哪些空间片段。通过考虑客户端设备的用户的观看位置，复合视频流可以以至少粗略地匹配用户在VR环境中的观看位置的方式示出复合到背景视频上的前景视频流。因此，客户端设备可能不需要在VR环境中将前景视频流表示为单独对象。而是，客户端设备(例如，在周围的球体的内表面上)显示可以向用户提供就好像前景视频流被示出为单独对象的类似视觉印象的背景视频即可。

注意，可以以各种方式例如通过从客户端设备接收指示观看位置的数据来确定用户的观看位置。这种数据可以被接收仅一次(例如，在开始生成复合视频流之前)，或者被定期地接收(例如，反映用户的当前观看位置)。然而，观看位置也可以是估计的或预先确定的(例如，对应于有限数量的观看位置之一)，或仅仅是固定的。

在替代性实施例中，在多用户通信场景中(其中，接收各自表示不同用户的实时记录的多个前景视频流，其中，这些记录要被插入到背景视频中的各个放置位置处，并且其中，可以逻辑地布置(例如，从左到右并标记为A、B、C)这些放置位置)，观看位置可以指示要将哪些记录放置在哪些放置位置处以在几个复合视频流间获得一致的用户放置，这些复合视频流是以相同或相似的方式针对几个客户端设备生成的。例如，如果为用户2至4的记录提供了三个放置位置，并且如果放置位置被水平标记为A、B和C，则观看位置可以指示当前用户(‘1’)就座于用户2的左侧、与用户3相对、并就座于用户4的右侧成一圈。因此，用户2的记录可以放置在放置位置A处，用户3的记录可以放置在放置位置B处，并且用户4的记录可以放置在放置位置C处。类似地，如果要以相同或相似的方式为用户2的客户端设备生成复合视频流，则观看位置可以指示当前用户(‘2’)就座于用户3的左侧、与用户4相对、并就座于用户1的右侧。

在实施例中，该方法可以进一步包括获得与对该背景视频的空间分段编码相关联的放置元数据，其中，该放置元数据可以定义该前景视频流相对于该背景视频的放置位置。前景视频流相对于背景视频的放置位置可以由可以与该背景视频相关联的元数据来定义。例如，元数据可以定义相对于背景视频的有限数量的放置位置，这些放置位置可以与背景视频的图像内容相匹配。例如，如果背景视频示出了具有一个或多个空座位的电影院，并且如果前景视频流是另一用户的实时记录，则放置元数据可以定义一个或多个放置位置，该一个或多个放置位置可以将另一用户的视频代替空座位放置在复合视频流中。同样地，如果前景视频流表示电影，则放置元数据可以定义电影院中要在其上方显示前景视频流的(其他)空白屏幕的位置。这种放置位置可以例如是背景视频的空间坐标系中的2D位置，例如，该位置定义前景视频流要被插入到背景视频中的位置。

在一些实施例中，放置元数据可以进一步指示前景视频流要被插入到背景视频中的大小。

在其他实施例中，例如，如果意图将前景视频流表示为VR环境中的单独对象，则放置位置可以是VR环境中的2D位置或3D位置。例如，如果前景视频流示出了另一用户的实时记录，则前景视频流在VR环境中的放置位置可以对应于该另一用户在VR环境中的观看位置。这种观看位置可以作为数据接收一次或定期从另一用户的客户端设备接收。

在实施例中，对背景视频的空间分段编码可以作为比特流获得，并且该方法可以进一步包括：

-用该比特流中的复合片段集替换该背景片段子集，以获得对该复合视频流的输出帧的空间分段编码。

因此，可以通过将背景视频的比特流的所选片段(即通过解码、复合和重新编码进行处理的那些片段)替换为通过所述处理而获得的片段来获得复合视频流并且该复合视频流由此包含前景视频流的图像数据。

在实施例中，对复合图像数据的编码可以包括以比对背景片段子集进行编码的比特率更高的比特率对该复合图像数据进行编码。前景视频流可以表示客户端设备的用户的感兴趣区。通过以更高的比特率或通常以更高的质量等级对复合图像数据进行编码，与仅包含背景视频的片段相比，可以提高表示该感兴趣区的片段的图像/视频质量。

在实施例中，对该背景视频的空间分段编码可以包含该背景视频的映射投影，比如等距柱状投影，并且该方法可以进一步包括：

-基于该映射投影将该前景视频流的图像数据复合到该解码后的背景图像数据中。

例如，将该前景视频流的图像数据复合到该解码后的背景图像数据中可以包括：在将所述图像数据复合到该解码后的背景图像数据中之前或之时，将该映射投影应用于该前景视频流的图像数据。

在另一示例中，所述复合可以包括：

-将反向映射投影应用于该解码后的背景图像数据；

-将该前景视频流的图像数据复合到该解码后的背景图像数据中，从而获得复合图像数据；以及

-将该映射投影应用于该复合图像数据。

通过将反向映射投影应用于解码后的背景图像数据，可以暂时地“撤消”映射投影，从而允许在没有映射投影的情况下直接插入前景视频流的图像数据。

在实施例中，该客户端设备可以被配置为在VR环境中显示该复合视频流，并在可由该用户确定的视场中渲染该VR环境，并且该方法可以进一步包括：

-确定该用户在该VR环境中的视场；以及

-基于该视场将该前景视频流的图像数据复合到该解码后的背景图像数据中。

在许多情况下，客户端设备只能在特定视场(也被称为“视口”)中渲染VR环境，该特定视场可能小于VR环境提供的整个视场，该整个视场通常为360度视场。由于VR环境的某些部分可能在给定的时刻对用户不可见，因此在将前景视频流的图像数据复合到解码后的背景图像数据中时，可以考虑到这一点。例如，基于该视场将该前景视频流的图像数据复合到该解码后的背景图像数据中可以包括以下操作中的至少一项操作：

-仅当该前景视频流的图像数据在该用户的视场中时，才复合所述图像数据；以及

-如果该前景视频流的图像数据在该用户的视场之外，则以降低的图像质量复合所述图像数据。

注意，客户端设备可以使用“图块流式传输”或类似技术来仅选择性地流式传输用户的视场内(和/或围绕该视场的窄“边带”内)的空间片段。因此，所请求的片段可以指示客户端设备的当前视场。

在实施例中，对该背景视频的空间分段编码和对该复合视频流的空间分段编码中的至少一者可以由基于图块的媒体流表示。在这里和其他地方，“图块流式传输”或“基于图块的媒体流”可以是指比如[3]和/或[4]等技术(参见“其他参考文献”)。简而言之，空间关系描述(SRD)或类似数据可以描述例如在MPD(媒体呈现描述)或类似数据中图块之间的关系。然后，客户端设备可以单独请求图块，例如用户的当前视场中的图块。

在实施例中，该方法可以包括：

-从一组客户端设备中的每个客户端设备接收实时前景视频流，每个相应前景视频流表示相应客户端设备的相应用户的实时记录；

-针对这些客户端设备中的每一个，生成复合视频流，该复合视频流包括从其他客户端设备接收的前景视频流的图像数据，该图像数据在相应放置位置处被复合到该背景视频中。

上面的实施例可以反映‘社交’，例如‘VR社交’用例，在该用例中，每个客户端设备可以将相应用户的实时记录流式传输到中央实体，比如执行该方法的处理器系统。对于这些客户端设备中的每一个，可以生成单独的复合视频流，其在各个放置位置处示出其他客户端设备的前景视频流。

在一些实施例中，每个复合视频流可以反映相应客户端设备的用户在VR环境中的观看位置，该观看位置可以与特定用户的前景视频流在其他复合视频流中的放置位置相对应或一致。

在实施例中，该方法可以由客户端设备或服务器(例如比如在5G或下一代电信网络——时延非常低并且针对此类媒体交换进行了优化的系统——中的边缘节点)执行。该客户端设备可以是与为其生成复合视频流的客户端设备不同的客户端设备。例如，在前述社交(VR)用例中，客户端设备之一可以被配置为执行该方法。

本领域技术人员应当理解，可以以任何认为有用的方式组合上文提及的本发明的实施例、实施方式和/或方面中的两个或更多个。

本领域技术人员能够基于本说明书执行方法、(多个)处理器系统、元数据和/或计算机程序的修改和变化，这些修改和变化与针对所述实体中的另一个实体描述的修改和变化相对应。

其他参考文献

[3]Ochi,Daisuke等人，“Live streaming system for omnidirectional video[全向视频的实况流式传输系统]”，虚拟现实(VR)，2015 IEEE

[4]K.Misra、A.Segall、M.Horowitz、S.Xu和A.Fuldseth，“An Overview ofTilesin HEVC[HEVC中的图块概述]”，IEEE信号处理精选主题期刊，第7卷，第6期，第969-977页，2013。

[5]Y.Sanchez、R.Globisch、T.Schierl和T.Wiegand，“Low ComplexityCloudvideo-Mixing UsingHEVC[使用HEVC进行低复杂度云视频混合]”，CCNC，第11期，第213-218页，2014。

[6]M.S.A.H.Peter Amon，“Compressed Domain Stitching of HEVC StreamsforVideo ConferencingApplications[用于视频会议应用的HEVC流的压缩域拼接]”，国际分组视频研讨会，慕尼黑，2012。

附图说明

参考下文所描述的实施例，本发明的这些方面和其他方面是显而易见的并且将被阐明。在附图中：

图1示出了前景视频显示在背景视频的前面，从而遮挡了背景视频的一部分；

图2示出了其中将各个用户的视频流示出在背景视频的前面的多用户视频会议，同时展示了服务器与客户端设备之间以及客户端设备之间的流；

图3示出了以空间分段的方式编码的背景视频，从而得到了对背景视频的空间分段编码；

图4示出了对背景视频的所选片段进行解码，将(多个)前景视频的图像数据插入到所述片段中，并且对这些片段进行重新编码以获得空间分段的复合视频流；

图5示出了多用户视频会议，其中，服务器接收每个客户端设备的前景视频，并为所有客户端设备生成空间分段的复合视频流或为每个客户端设备单独生成一个空间分段的复合视频流；

图6示出了用于生成复合视频流的数据流；

图7展示了VR环境中的多用户视频会议布景中的用户布置，同时展示了可以如何生成可以在VR环境中显示的复合视频流；

图8A展示了用户的布置，其中，用户在VR环境中的放置位置相互不一致；

图8B展示了用户的布置，其中，用户在VR环境中的放置位置相互一致；

图9示出了基于特定用户(即用户4)的观看位置为该用户生成复合视频流的示例；

图10A示出了针对用户4的基于立方体贴图的复合视频流；

图10B示出了针对用户2的基于立方体贴图的复合视频流；

图11A和图11B示出了针对用户1至4的复合视频流，这些用户在VR环境中提供了相互一致的用户放置；

图12示出了放置元数据，该放置元数据定义了一个或多个前景视频流相对于背景视频的放置位置；

图13示出了对于背景视频的两个不同捕获位置，前景视频流相对于背景视频的放置位置；

图14展示了服务器与处理器系统之间的数据通信，该处理器系统被配置用于在VR环境中显示复合视频流；

图15示出了被配置用于生成空间分段的复合视频流的处理器系统；

图16示出了被配置用于在VR环境中显示复合视频流的处理器系统；

图17示出了生成复合视频流的方法；

图18示出了包括非暂态数据的计算机可读介质；

图19示出了示例性数据处理系统。

应该注意，在不同的附图中具有相同附图标记的项具有相同的结构特征和相同的功能，或是相同的信号。在已经解释了这种项的功能和/或结构的情况下，在详细描述中不再重复解释。

附图标记和缩写词清单

以下附图标记和缩写词清单被提供用于简化附图解释，并且不应该被解释为对权利要求的限制。

100至103 前景视频(人的相机记录)

110 前景视频(字幕)

120 背景视频

130 被前景视频遮挡的区域

140 前景视频和背景视频的合并

150 对背景视频的分段编码

160 要解码的背景片段

170 对复合视频的分段编码

180 包含前景视频的复合片段

200 现有技术的服务器

210至213 现有技术的客户端设备

220 由客户端设备传输的前景视频流

230 传输到客户端设备的背景视频流

250 服务器

260至263 客户端设备

270 从客户端设备接收的前景视频流

280 传输到客户端设备的复合视频流

300 用户布置

310至313 不一致的用户间布置

320至323 一致的用户间布置

400至408 对复合视频的分段编码

410 包含前景视频的复合片段

500 背景视频A

510 背景视频B

501至503 相对于背景视频A的放置位置

511至513 相对于背景视频B的放置位置

600 服务器

610 复合视频流

615 前景视频流

630 网络

640 处理器系统

650 头戴式显示器

655 所渲染的图像数据

660 相机

665 相机数据

670 背景视频

675 数据容器

680 放置元数据

700 处理器系统

710 网络接口

712 网络数据通信

720 处理器

730 存储装置

800 处理器系统

810 网络接口

812 网络数据通信

820 处理器

830 相机输入

832 相机数据

835 相机

840 显示输出

842 显示数据

845 显示器

900 生成复合视频流的方法

910 获得对背景视频的空间分段编码

915 接收前景视频流

920 确定前景视频流的放置位置

925 识别背景片段子集

930 生成复合视频流

950 计算机可读介质

960 非暂态数据

1000 示例性数据处理系统

1002 处理器

1004 存储器元件

1006 系统总线

1008 本地存储器

1010 大容量存储设备

1012 输入设备

1014 输出设备

1016 网络适配器

1018 应用程序

具体实施方式

以下实施例涉及例如由服务器进行的视频的传输和组合，并且可以通过利用空间分段编码技术(例如，用于比如360度视频等高分辨率视频中)来以计算上高效的方式将多个视频组合为输出视频。实施例可以有利地应用于基于视频的多用户通信中，例如应用于‘VR社交’中，在VR社交中，多个用户可以使用头戴式显示器(HMD)和相机参与电话会议。

但是，本说明书中描述的技术也可以应用于所有其他应用，在这些其他应用中，前景视频流要被插入到背景视频中，并且在这些其他应用中，前景视频流随后覆盖(“遮挡”)背景视频的一部分。非限制性示例是将包含“硬编码”字幕的视频流插入到比如电影或TV节目等主视频上。

进一步注意，在下文中，对“视频流”的任何提及可以是指适合于例如使用已知流式传输技术来流式传输的视频的数据表示。此外，对“视频”的提及可以包括视频流，但还可以包括不适合于(尚未适合于)流式传输或者至少常规上不旨在用于流式传输的视频的数据表示。在这些图中，视频(流)可以由单个视频帧示意性地表示。

图1示出了将前景视频流100与背景视频120组合的现有技术方式。前景视频流100可以本地插入到背景视频120中，从而在输出视频140中占据背景视频的一部分130。部分130可以是相对较小的部分，例如小于背景视频的总面积的50％或25％。前景视频流100的插入可以逐帧地执行，因为前景视频流100的帧可以被插入到背景视频120的相应帧中，其中针对连续的输入帧重复该过程以产生连续的输出帧。不利地，将前景视频流100的帧插入到背景视频120的相应帧中可能需要对背景视频帧进行整体解码，因为背景视频通常是以编码形式(例如使用比如MPEG-2部分2、MPEG-4部分2、H.264(MPEG-4部分10)、HEVC等视频编码技术)接收和/或存储的。这可能需要大量计算，特别是对于较大的空间分辨率或在同时处理多个背景视频的情况下。

图2示出了多用户视频会议，其中，各个用户的视频流示出在背景视频的前面。在这种场景下，将前景视频流与背景视频组合的现有技术方式可能特别不利。即，服务器200可以将背景视频120流式传输230到参与多用户视频会议的每个客户端设备210至213。同时，每个客户端设备210至213可以获得客户端设备的相应用户的实时记录100至103，并将所得的视频流流式传输到其他客户端设备中的每一个，这在图2中针对由“第一”客户端设备210传输流220进行了展示。每个客户端设备210至213然后可以例如通过解码背景视频流、解码从其他客户端设备接收的每个视频流、并且然后将这些接收的视频流插入该背景视频流中，来本地组合接收到的视频流。

在具有四个客户端设备210至213的图2的示例中，每个客户端设备可能必须在接收到三个其他客户端设备各自的三个视频流和来自服务器220的背景视频流的同时将相应用户的实时记录传送到这些其他客户端设备。总体上，可能存在由各个客户端设备210至213传输的12个视频流和由服务器220传输的四个视频流，这可能表示将客户端设备彼此和/或与服务器连接的网络上的负担，并且由于这些流中的每一个可能都是时间敏感的，因此可能还会造成更多的故障点。每个客户端设备可能必须同时解码四个视频流，这可能需要大量计算。

在多用户视频会议发生在VR中的情况下，图2的情况可能会加剧。这可以表示所谓的‘VR社交’用例，在该用例中，用户可以通过模拟他们处在同一地方来彼此通信。本质上，VR社交可能涉及：每个客户端设备210至213记录相应用户以获得用户的实时视频100至103，并可选地在用户的实时视频中将用户的图像数据与用户周围环境的图像数据分离(也称为“背景去除”)。然后，可以将用户的图像数据作为实时视频流220流式传输到其他客户端设备，这些其他客户端设备进而可以将任何接收到的“前景”视频流叠加到全向视频(比如180度或360度视频)上，该全向视频是作为背景视频流230从服务器200接收的。这样，每个用户可以在由背景视频提供的共享空间内看到其他用户的视频，这可以使用户感觉处在同一个空间中。这可以有助于在用户之间的“数字”多用户通信中建立沉浸感。

在这种VR社交情况下，作为背景视频提供的全向视频可能是特别高分辨率的，例如4K或8K。对于客户端设备而言，同时解码高分辨率背景视频流和几个前景视频流可能会需要特别大量的计算。

图3及下文展示了本发明的实施例如何使用分段编码技术解决这种问题。即，可以以空间分段的方式对背景视频120进行编码，从而得到了对背景视频的空间分段编码150。例如，作为空间片段，可以使用所谓的“图块”[3]、[4]，其可以将视频帧细分为逻辑上分离的矩形部分，当对给定帧进行解码时，可以独立地对这些矩形部分进行解码。例如，HEVC图块[4]和类似的空间分段不允许在帧中跨图块边界进行空间预测或不允许熵编码依赖性。这样，图块在编码和解码过程方面是独立的；预测和滤波不会跨图块边界进行。HEVC标准将整个帧的图块构型定义为均匀的规则网格，如图3所描绘的。

图4示出了在要插入前景视频流的图像数据的情况下，这种图块或通常可独立编码和/或解码的任何其他类型的空间片段如何可以避免对整个背景视频帧进行解码的需要。即，如果要将用户的前景视频流100、101和/或包括字幕的前景视频流110插入到以分段形式150可用的背景视频中，则可能仅需要解码所选片段160，即仅解码前景视频流的图像数据要插入到其中的片段。然后可以将前景视频流的图像数据插入到片段160的解码后的背景图像数据中。例如，这可能涉及仅插入前景视频流100至110的一部分图像数据，例如，表示用户或字幕的图像数据，而不是其周围环境。结果，可以获得复合片段180，这些复合片段可以被编码并且可以与背景视频150的其余“未处理”片段一起提供对复合视频170的空间分段编码。

在这方面，注意，如果背景片段的图像数据被前景视频流的图像数据完全遮挡(例如，既就空间范围而言，而且就背景图像数据被前景图像数据完全替换而言)，则可能根本不需要解码背景片段。而是，背景片段可以简单地由包含前景视频流的图像数据的新生成的片段替换。通常，可能仅在复合视频片段仍包含背景的图像数据(例如，其在空间上围绕前景视频流的图像数据，或例如通过使用半透明或其他类型的混合插入前景视频流的图像数据而与前景视频流的图像数据混杂)情况下才需要这种解码。

注意，复合视频170的生成可以涉及例如以[5]和[6]中描述的方式重写背景视频150的比特流。这种重写可以包括改变比特流中的参数，例如高级语法参数，比如图片参数集(PPS)中的图块位置和尺寸。然而，由于整个视频都保持相同的空间大小(分辨率)，因此与[5]和[6]中的前述示例相比，发生变化的参数相对较少。

应当理解，可以以比背景片段子集被编码时的比特率更高的比特率或者通常以更高的质量等级来对复合片段180进行编码。例如，所使用的编码器可以为复合片段180选择合适的量化参数(QP)值，以提高质量。例如，在HEVC中，QP值的范围可以在0至51之间，其中最高质量为0。编码器可以将QP调节为较低的值，并提高复合片段180的质量。这种质量提高也可能特定于包含用户(人)的图像数据的复合片段，因为其通常会受到更多关注。

关于图3和图4描述的技术可以有利地用于以计算上高效的方式生成复合视频流，并且特别地，可以允许将前景视频的插入从客户端设备“卸载”到服务器或类似实体上。结果，客户端设备现在可以接收单个复合视频流，与分离的背景视频流和(多个)前景视频流相比，客户端设备可以更容易地对该单个复合视频流进行解码。

图5示出了关于图3和图4描述的技术在前述多用户视频会议的情况中的使用。本质上，服务器250可以本地生成对背景视频的空间分段编码，或者可以获得已经呈这种形式的背景视频。如在图2的示例中，相应的客户端设备260至263可以记录相应的用户以获得用户的实时视频100至103，但是可以将视频(可能在去除背景之后)作为实时视频流270流式传输到服务器250，而不是将视频流流式传输到其他客户端设备260至263中的每一个。在接收到所有前景视频流270时，服务器250可以以关于图4等描述的方式生成复合视频流，并且然后将复合视频流280流式传输到客户端设备260至263中的每一个。在一些实施例中，如还将进一步阐明的那样，服务器250可以例如根据相应用户的观看位置来生成不同的复合视频流并将其发送到客户端设备260至263中的每一个。

关于用图3和图4描述的技术在VR社交用例中可能特别有利。即，通过获得对背景视频的空间分段编码，服务器250不仅可以以计算上高效的方式生成(多个)复合视频流，而且还可以仅处理和/或流式传输复合流的所选片段而不是全部片段，例如，以提供所谓的视点依赖流式传输或基于视场(FoV)的流式传输。

注意，在VR社交用例中，且在其他示例中，背景视频可以包含背景视频的图像数据的映射投影，例如在背景视频包含全向视频(比如180度或360度视频)的情况下。这种映射投影的示例是等距柱状投影。在将前景视频流的图像数据插入到背景图像数据中之前或之时，也可以将相同的映射投影应用于所述图像数据。可替代地，可以将反向映射投影应用于背景图像数据，之后可以插入前景图像数据。然后可以将映射投影重新应用于获得的复合图像数据。

当将图2的示例与当前的图5的示例进行比较时，可以看出，代替由各个客户端设备传输12个视频流和由服务器传输四个视频流，客户端设备260至263总共仅传输了四个视频流270，而服务器250传输的流280的数量保持不变。然而，由于服务器250现在传输复合流，所以每个客户端设备260至263可能仅必须解码复合视频流，这在很多情况下可以由客户端设备的硬件解码器执行并且因此可以是在计算上高效的。

图6示出了用于生成复合视频流的数据流：服务器250在访问使用空间分段编码技术编码的背景视频150时，可以获得例如表示不同用户的实时记录的几个前景视频流100至103。结果，复合视频流170可以由服务器生成，然后可以被传输到一个或多个客户端设备。应当理解，服务器250可以通过从各个客户端设备的流式传输来接收前景视频流100至103，而背景视频150可以从本地存储装置访问。可替代地，也可以从远程存储装置访问和/或流式传输背景视频。

注意，在包括前述VR社交用例的多用户通信中，前景视频流可以被插入在相对于背景视频的特定位置处。这些位置也可以被称为“放置位置”。这些放置位置还可以取决于特定用户的观看位置，如将参考图7等进行阐明的。

图7展示了VR环境中的多用户视频会议布景中的用户布置，同时展示了可以如何生成可以在VR环境中显示的复合视频流。在图7及下文的示例中，VR环境中的用户布置是用户沿着“虚拟桌子”而彼此面对面地布置300的布置，这是人们物理上就座于圆桌旁或站成一圈的虚拟等效物。然而，以下概念和技术在作必要的修改后也适用于VR环境中的其他用户布置，这些布置可以包括但不限于非圆形布置，比如细长的或矩形的座位安排/就座布置或排式座位安排(包括礼堂、教室或电影院式座位安排)。

在图7中，用户在“虚拟桌子”300上可用的位置用A至D指示，在该特定示例中为四个位置，而各个客户端设备的用户的放置位置由附图标记1至4指示，例如，用户1位于放置位置A处，用户2位于放置位置B处，等等。在VR环境中，可以存在各个用户的前景视频流相对于背景的预定放置位置。

例如，图7的右手侧示出了对复合视频400(可以表示180度或360度视频)的分段编码，并且其中，可以存在用A至D表示的用户的四个放置位置，这些放置位置对应于虚拟桌子300上的可用位置A至D。可以以各种方式来定义放置位置，例如通过像素掩模等将其定义为相对于背景视频的坐标。在图7的示例中，这些放置位置定位于所选数量的空间片段410内，在图7的特定示例中，每个空间片段均为以灰色标记的三个竖直邻近的片段。这样，为了插入前景视频流(在图7中示出并且进一步简单地通过人的符号/图画来示出)，将这些片段解码即可。

可以为特定的客户端设备生成与图7所示的复合视频类似的复合视频。对于该客户端设备，可能不需要将由该客户端设备传输的前景视频流插入到背景视频中(因为用户无需在VR环境中看到他/她自己)，而是仅需要将其他客户端设备的前景视频流插入到背景视频中。这样，可以为每个客户端设备生成不同的复合视频流。可能存在用于生成这种复合视频流以及用于确定客户端设备的前景视频流的放置位置的几种选择，从而得到VR环境中的不同用户布置。

图8A展示了在VR环境中的多用户视频会议布景中的用户之间不一致的用户布置。即，这里，针对每个用户1至4的客户端设备示出了不同的用户布置310至313。例如，对于用户1，用户2、3和4的放置位置是B、C和D，如在图8A的下半部分用“虚拟圆圈”和在复合视频流401中所展示的。对于用户2，用户1、3和4放置在B、C和D处(参见布置311)，而对于用户3，用户2、1和4放置在B、C和D处(参见布置312)，并且对于用户4，用户2、3和1放置在B、C和D处(参见布置313)。然而，这些布置彼此不一致，因为对于用户1来说，他/她看起来正就座于用户2的逆时针方向上，而对于用户2来说，他/她也看起来正就座于用户1的逆时针方向上，这与实际的物理布置不一致，并且可能会干扰通信。例如，在用户1与2之间的对话期间，用户1可能看向他/她的左侧，而用户2可能也这样做。这可能导致向两个用户呈现另一用户看向别处而不是看向他们的显示。

在一些实施例中，前景视频流的放置位置可以取决于为其生成复合视频流的客户端设备的用户的视点位置。在当前上下文中，观看位置可以是指用户在用户布置中的相对位置，例如，表示用户从中观看其他用户的用户位置。例如，观看位置可以指示特定用户，如用户1被放置在用户2与用户4之间并且与用户3相对。这可以实现用户之间一致(与图8A的布置不同)的用户布置。

图8B示出了这种用户布置的示例。这里，示出了与图8A中不同的用户布置320至323。例如，对于用户1，用户2、3和4的放置位置是B、C和D，如在图8B的下半部分用“虚拟圆圈”和在复合视频流401中所展示的，这仍与图8A相同。然而，对于用户2，用户1、3和4放置在A、C和D处(参见布置321)，而对于用户3，用户1、2和4放置在A、B和D处(参见布置322)，并且对于用户4，用户1、2和3放置在A、B和C处(参见布置323)。这些布置彼此一致，因为对于用户1来说，他/她看起来正就座于用户2的逆时针方向上，而对于用户2来说，他/她看起来正就座于用户1的顺时针方向上，这与实际的物理布置一致。作必要的修改后，这同样适用于用户3和用户4。实际上，可以为用户分派相对于背景视频的固定放置位置，并且当为相应用户的客户端设备生成复合视频流时，仅插入“其他”用户的前景视频流。

图9示出了为特定用户(即用户4)生成复合视频流402的示例。在该示例中，复合视频流402是基于用户的观看位置生成的，该观看位置即用户1的逆时针方向、用户3的顺时针方向且与用户2相对的位置，如在虚拟圆圈300中也由相应的数字所示。可以基于各个用户在VR环境中的放置数据来确定用户的观看位置，该放置数据例如指示用户被放置在圆形布置300中，同时还指示用户的相对顺序，例如1、2、3、4顺时针方向。基于该数据，服务器250可以生成复合视频流402，在该复合视频流中，用户1、2和3的前景视频流被插入到背景视频中。注意，用户4的前景视频流没有被插入到背景视频中，这在图9中通过用户4被从复合视频流402中排除来示意性地指示。

继续参考图8A和图8B，在每个复合视频流401中，在图8A和图8B中以白色指示的片段可以保持未处理，而对于所有复合视频流，可以解码在放置位置B、C和D处以灰色标记的片段，同时根据相应用户的观看位置将不同的前景视频流插入到所述片段中。

图10A和图10B示出了针对不同用户的这种不同复合视频流403、404的示例，在图10A的示例中是用户4的复合视频流403，而在图10B的示例中是用户2的复合视频流。两个图都另外展示了这种包括背景视频的立方体贴图投影的复合视频流。服务器可能必须考虑此立方体贴图投影来显式地(例如，通过获得定义立方体贴图投影的映射数据)，或隐式地(例如，通过获得已经呈这种方式(即，不需要投影的附加知识)的放置位置)将前景视频流放置在背景视频中的适当位置。

类似于图9至图10B，图11A和图11B示出了针对用户1至4的不同的复合视频流405至408，这些复合视频流是根据相应用户在如虚拟圆圈320至323所指示的用户布置中的观看位置而生成的。这里，当前用户用带下划线的对应附图标记指示。可以看出，用户布置彼此一致。

应当理解，在替代性实施例中，观看位置可以被表征为VR环境中的2D位置或3D位置。如果前景视频流不是要“粘合”到背景视频上，而是要在VR环境中表示为要放置在表示背景视频的对象(例如，周围的球体)的前面的单独对象，则观看位置可以确定前景视频流遮挡了背景视频的哪些部分，并且从而还确定要处理(通过解码、复合和重新编码)背景视频的哪些空间片段。通过考虑客户端设备的用户的观看位置，复合视频流可以以至少粗略地匹配用户在VR环境中的观看位置的方式示出复合到背景视频上的前景视频流。基于本说明书，基于VR的多用户通信的技术人员完全可以达到这样的和类似的实施例。

通常，前景视频流的放置位置可以由元数据定义，该元数据也被称为放置元数据。该元数据680在图12中示意性地示出并且可以与背景视频相关联。例如，还如图12所示，放置元数据可以在与背景视频相关联的坐标系中定义放置位置(例如在像素坐标方面)。然而，同样可以设想各种其他定义。通常，放置元数据680可以是与背景视频670相同的数据容器675(例如，相同的文件或媒体流)的一部分，但是也可以作为可以与背景视频670相关联的单独元数据680来提供。例如，元数据680可以包含背景视频670的数据容器的标识符，比如URL，从而允许元数据被检索并与背景视频相关联。又一个示例是，元数据可以被包括在与背景视频670相关联的清单文件中，或者其可以被包括在服务公告中，例如，包括在EPG中。同样可以设想各种其他关联方式。例如，在一些实施例中，背景视频670可以例如通过包含可以访问元数据680的URL而链接到放置元数据680。

图13展示了这样的放置元数据，该放置元数据可以允许为相同场景的两个不同捕获500、510定义放置位置501至503、511至513，但是这两个捕获在相对于背景视频的内容的相对位置方面是相对应的(如图13中由捕获A 500中的放置位置501至503与捕获B 510中的放置位置511至513之间的箭头所示)。场景的这种不同捕获可以用于例如为用户提供更好地匹配其在VR环境中的观看/放置位置的场景透视图。例如，当VR环境将用户“虚拟地就座”在电影院的不同座位上时，可以为每个用户提供从其相应位置捕获的不同背景视频。

通常，在多用户通信中，可以通过2D相机和深度相机或3D相机获得前景视频流。众所周知，这种相机提供深度信息，这种深度信息可以促进背景去除。

代替服务器或服务器的分布式系统，客户端设备之一或另一实体也可以执行参考服务器描述的功能。实际上，这种客户端设备或另一实体可以“充当”服务器。

尽管在多用户通信的上下文中将前景视频流描述为包含人的实时记录，但是这些前景视频流还可以包含各种其他内容，比如对象(比如桌子)或要向多用户通信会话中的用户示出的附加视频馈送。

服务器可以在生成复合视频流之前或之时执行视频后处理。例如，前景视频流可以被倾斜、拉伸或旋转以更好地适合于背景视频。前景视频流也可以被增强，例如以改善用户在所述视频中的外观。

每个客户端设备(并且从而每个用户)可以被提供有例如与场景中的不同捕获位置相对应的不同背景视频。可以在这种不同捕获位置处捕获这种不同背景视频，或者可以例如使用众所周知的变形技术从一个背景视频合成地生成这种不同背景视频。这种变形可以由服务器例如实时地或在多用户通信会话开始之前执行，或者由另一实体执行。

图14展示了服务器600与处理器系统640之间的数据通信，该处理器系统被配置用于在VR环境中显示复合视频流。处理器系统640可以对应于图4至图13的客户端设备之一，但是专门针对VR配置的。服务器600可以对应于如前所述的服务器250。服务器600(其可以是基于云的服务器)可以例如经由网络630(比如互联网)从处理器系统640接收前景视频流615。前景视频流615包含处理器系统640的用户的实时记录，该实时记录可以作为来自相机660的针对用户的相机数据665获得。服务器600可以将包含其他客户端设备的前景视频流的复合视频流610流式传输回到处理器系统640。在接收到复合视频流610之后，处理器系统640可以建立对在其中显示复合视频流的VR环境的视觉渲染。处理器系统640然后可以将渲染后的图像数据655输出到用户佩戴的HMD 650。

图15示出了用于生成用于由客户端设备显示的复合视频流的处理器系统700。为此，处理器系统700被示出为包括处理器720，该处理器可以例如通过硬件设计或软件被配置为执行参考图3至图14以及与复合视频流的生成有关的其他地方所描述的操作。例如，处理器720不但可以由单个中央处理单元(CPU)来具体化，而且还可以由这种CPU和/或其他类型的处理单元的组合或系统来具体化。处理器系统700进一步被示出为包括比如内部存储器、硬盘、固态驱动器、或其阵列等数据存储装置730，该数据存储装置可以用于存储或缓冲数据，比如背景视频，和/或用于缓冲任何接收的前景视频流。图15进一步示出了处理器系统700，该处理器系统包括网络接口710，该网络接口可以是任何合适类型的网络接口，经由该网络接口可以将(多个)复合视频流传输到(多个)客户端设备，并且经由该网络接口可以从(多个)客户端设备接收(多个)前景视频流，这两种类型的数据都由附图标记712指示。例如，网络接口710可以是例如基于Wi-Fi、蓝牙、ZigBee、4G或5G移动通信的无线网络接口，或例如基于以太网或光纤的有线网络接口。例如，网络接口710可以是局域网(LAN)网络接口，或到广域网(WAN)(比如互联网)的接口。

处理器系统700可以由(单个)设备或装置来具体化。例如，处理器系统700可以由服务器、工作站、个人计算机等来具体化。在一些实施例中，处理器系统700可以是终端用户设备，例如(集成到)与参考图16所描述的相同类型的设备，该终端用户设备被配置用于渲染VR环境。这种设备的示例包括但不限于智能电话、个人计算机、膝上型计算机、平板设备、游戏控制台、机顶盒、电视、监视器、投影仪、智能手表、智能眼镜、媒体播放器、媒体记录器、头戴式显示设备等。处理器系统700也可以由这种设备或装置的分布式系统来具体化。该分布式系统的示例可以是处理器系统700的功能至少部分地分布在网络中的网络元件上。

图16示出了被配置用于对在其中显示复合视频流的VR环境进行渲染的处理器系统800。处理器系统800可以实施如参考图3至图15以及其他地方所描述的“渲染器”和/或“显示”功能的一部分或全部。处理器系统800被示出为包括网络接口810，该网络接口可以被配置为接收复合视频流和/或传输表示用户的实时记录的视频流，这两种类型的数据都由附图标记812指示。网络接口810可以是用于接收和/或传输所述数据的任何合适类型的接口，包括但不限于如参考图15所描述的类型的网络接口。处理器系统800可以进一步包括相机输入830，处理器系统800可以通过该相机输入例如通过从连接的相机835接收相机数据832来获得用户的实时记录。处理器系统800可以进一步包括处理器820，该处理器可以例如通过硬件设计或软件被配置为执行参考图3至图15以及与VR环境的渲染有关的其他地方所描述的操作。在一些实施例中，处理器820可以直接生成显示数据842并将该显示数据输出到显示器845(比如HMD)。在其他实施例中，处理器820可以输出所渲染的视频数据，该所渲染的视频数据可以由显示输出840输出到显示器845。

处理器820不但可以由单个中央处理单元(CPU)来具体化，而且还可以由这种CPU和/或其他类型的处理单元的组合或系统来具体化。尽管在图16中未示出，但是处理器系统800还可以包括比如内部存储器、硬盘、固态驱动器或其阵列等数据存储装置，该数据存储装置可以用于缓冲数据，例如接收到的复合视频流和/或要传输的前景视频流。处理器系统800可以由(单个)设备或装置来具体化。例如，处理器系统800可以具体化为智能电话、个人计算机、膝上型计算机、平板设备、游戏控制台、机顶盒、电视、监视器、投影仪、智能手表、智能眼镜、媒体播放器、媒体记录器、头戴式显示设备等。处理器系统800也可以由这种设备或装置的分布式系统来具体化。该分布式系统的示例可以是处理器系统800的功能至少部分地分布在网络中的网络元件上。

通常，图15的处理器系统700和图16的处理器系统800可以各自具体化为设备或装置，或在设备或装置中具体化。该设备或装置可以包括执行适当软件的一个或多个(微)处理器。任一系统的处理器可以由这些(微)处理器中的一个或多个来具体化。实施任一系统的功能的软件可能已经被下载和/或存储在对应的一个或多个存储器中，例如，比如RAM等易失性存储器或比如闪存等非易失性存储器。可替代地，任一系统的处理器可以以可编程逻辑的形式在设备或装置中实施，例如，作为现场可编程门阵列(FPGA)。任何输入和/或输出接口可以由设备或装置的相应接口(比如网络接口)实施。通常，任一系统的每个单元可以以电路的形式实施。注意，任一系统还可以以分布式方式实施，例如，涉及不同的设备。

图17示出了用于由客户端设备显示复合视频流的方法900。方法900可以包括：在标题为“获得对背景视频的空间分段编码”的步骤中，获得910对背景视频的空间分段编码，所述分段编码包括可独立解码的背景片段。方法900可以进一步包括：在标题为“接收前景视频流”的步骤中，接收915至少一个前景视频流，该前景视频流的至少一部分将被显示在背景视频的前面。方法900可以进一步包括：在标题为“确定前景视频流的放置位置”的步骤中，确定920前景视频流相对于背景视频的放置位置。方法900可以进一步包括：在标题为“识别背景片段子集”的步骤中，识别925当前景视频流被显示在放置位置处时，被该前景视频流部分地或全部遮挡的背景片段子集。方法900可以进一步包括：在标题为“生成复合视频流”的步骤中，通过针对复合视频流的相应输出帧以及背景视频和前景视频流的各个输入帧执行以下操作来为客户端设备生成930复合视频流：i)选择性地解码背景片段子集，从而获得解码后的背景图像数据，ii)将前景视频流的图像数据复合到该解码后的背景图像数据中，从而获得复合图像数据；以及iii)对该复合图像数据进行编码以获得可独立解码的复合片段集，该复合片段集与不在该背景片段子集中的背景片段一起表示对该复合视频流的输出帧的空间分段编码。作为图9中未示出的(进一步的)可选步骤，方法900可以包括将复合视频流或该复合视频流的所选空间片段流式传输到客户端设备。

注意，在本说明书中描述的任何方法，例如，在任何权利要求中描述的任何方法，可以在计算机上实施为计算机实施的方法、专用硬件、或两者的组合。用于计算机的指令(例如，可执行代码)可以例如以一系列机器可读物理标记960的形式和/或作为一系列具有不同电(例如，磁或光)性质或值的元件的形式存储在如例如图18所示的计算机可读介质950上。可执行代码可以以暂态或非暂态的方式存储。计算机可读介质的示例包括存储器设备、光学存储设备、集成电路、服务器、在线软件等。图18通过示例示出了光学存储设备950。

在图18的计算机可读介质950的替代性实施例中，计算机可读介质950可以包括表示如本说明书中描述的放置元数据的暂态或非暂态数据960。

图19是展示可以在本说明书中描述的实施例中使用的示例性数据处理系统1000的框图。这种数据处理系统包括本说明书中描述的数据处理实体，包括但不限于如参考图3至图18以及其他地方所描述的服务器、客户端设备和处理器系统等。

数据处理系统1000可以包括通过系统总线1006耦合至存储器元件1004的至少一个处理器1002。这样，数据处理系统可以在存储器元件1004内存储程序代码。此外，处理器1002可以执行经由系统总线1006从存储器元件1004访问的程序代码。在一方面，数据处理系统可以被实施为适合于存储和/或执行程序代码的计算机。然而，应该理解，数据处理系统1000可以以包括处理器和存储器、能够执行本说明书中描述的功能的任何系统的形式实施。

存储器元件1004可以包括一个或多个物理存储器设备，比如例如本地存储器1008和一个或多个大容量存储设备1010。本地存储器可以指在程序代码的实际执行期间通常使用的随机存取存储器或其他(多个)非持久性存储器设备。大容量存储设备可以被实施为硬盘驱动器、固态硬盘或其他持久性数据存储设备。数据处理系统1000还可以包括一个或多个高速缓存存储器(未示出)，这些高速缓存存储器提供至少一些程序代码的临时存储，以便减少否则在执行期间从大容量存储设备1010检索程序代码的次数。

被描绘为输入设备1012和输出设备1014的输入/输出(I/O)设备可以可选地耦合至数据处理系统。输入设备的示例可以包括但不限于，例如，麦克风、键盘、比如鼠标等定点设备、游戏控制器、蓝牙控制器、VR控制器和基于手势的输入设备等。输出设备的示例可以包括但不限于，例如，监视器或显示器、扬声器等。输入设备和/或输出设备可以直接或通过中间I/O控制器耦合至数据处理系统。网络适配器1016还可以耦合至数据处理系统，以使其能够通过中间私有或公共网络耦合至其他系统、计算机系统、远程网络设备和/或远程存储设备。网络适配器可以包括用于接收由所述系统、设备和/或网络向所述数据传输的数据的数据接收器和用于向所述系统、设备和/或网络传输数据的数据发射器。调制解调器、电缆调制解调器和以太网卡是可以与数据处理系统1000一起使用的不同类型的网络适配器的示例。

如图19所示，存储器元件1004可以存储应用程序1018。应该理解，数据处理系统1000可以进一步执行能够促进应用程序的执行的操作系统(未示出)。以可执行程序代码的形式实施的应用程序可以由数据处理系统1000(例如，由处理器1002)执行。响应于执行应用程序，数据处理系统可以被配置为执行将在本文进一步详细描述的一个或多个操作。

例如，数据处理系统1000可以表示如参考图15所描述的处理器系统或如参考图4至图14所描述的服务器。在这种情况下，应用程序1018可以表示当被执行时配置数据处理系统1000来执行参考所述实体所描述的功能的应用程序。在另一示例中，数据处理系统1000可以表示如参考图16所描述的处理器系统或如参考图4至图14所描述的客户端设备。在这种情况下，应用程序1018可以表示当被执行时配置数据处理系统1000来执行参考所述实体所描述的功能的应用程序。

在权利要求中，置于括号间的任何附图标记不应被解释为限制权利要求。动词“包括(comprise)”及其词形变化的使用不排除权利要求中所述的元件或步骤之外的元件或步骤的存在。元件前面的冠词“一个(a)”或“一种(an)”不排除存在多个这种元件。本发明可以通过包括若干不同元件的硬件以及通过适当编程的计算机来实施。在列举了若干装置的设备权利要求中，这些装置中的若干装置可以由同一个硬件项具体化。在相互不同的从属权利要求中陈述某些措施这一事实，并不表示不能有利地使用这些措施的组合。

Claims

1.一种用于生成用于由客户端设备显示的复合视频流的方法，该方法包括另一客户端或服务器执行如下步骤：

-确定该前景视频流相对于该背景视频的放置位置；

-将该复合视频流或该复合视频流中的在该客户端设备的用户的视场内的空间片段流式传输到该客户端设备。

2.根据权利要求1所述的方法，其中，该客户端设备被配置为在VR环境中显示该复合视频流，并从用户的观看位置渲染该VR环境，其中，该方法进一步包括：

-确定该用户的观看位置；以及

3.根据权利要求2所述的方法，其中，确定该用户的观看位置包括从该客户端设备接收指示该观看位置的数据。

4.根据权利要求1或2所述的方法，进一步包括：

-获得与对该背景视频的空间分段编码相关联的放置元数据，其中，该放置元数据定义该前景视频流相对于该背景视频的放置位置。

5.根据以上权利要求1-2中任一项所述的方法，其中，对该背景视频的空间分段编码作为比特流获得，并且其中，该方法进一步包括：

6.根据以上权利要求1-2中任一项所述的方法，其中，对该背景视频的空间分段编码包含该背景视频的映射投影，并且其中，该方法进一步包括：

7.根据权利要求6所述的方法，其中，所述映射投影包括等距柱状投影。

8.根据权利要求6所述的方法，其中，将该前景视频流的图像数据复合到该解码后的背景图像数据中包括：在将所述图像数据复合到该解码后的背景图像数据中之前或之时，将该映射投影应用于该前景视频流的图像数据。

9.根据以上权利要求1-2中任一项所述的方法，其中，该客户端设备被配置为在VR环境中显示该复合视频流，并在可由该用户确定的视场中渲染该VR环境，其中，该方法进一步包括：

-确定该用户在该VR环境中的视场；以及

10.根据权利要求9所述的方法，其中，基于该视场将该前景视频流的图像数据复合到该解码后的背景图像数据中包括以下操作中的至少一项操作：

11.根据以上权利要求1-2中任一项所述的方法，其中，对该背景视频的空间分段编码和对该复合视频流的空间分段编码中的至少一者由基于图块的媒体流表示。

12.根据以上权利要求1-2中任一项所述的方法，进一步包括：

13.根据以上权利要求1-2中任一项所述的方法，其中，该服务器是5G或下一代电信网络的边缘节点。

14.一种暂态或非暂态计算机可读介质，该计算机可读介质包括计算机程序，该计算机程序包括用于使处理器系统执行根据权利要求1至13中任一项所述的方法的指令。

15.一种被配置用于生成用于由客户端设备显示的复合视频流的处理器系统，该处理器系统包括：

-到网络的网络接口；

-处理器，该处理器被配置为：

确定该前景视频流相对于该背景视频的放置位置；

经由该网络接口将该复合视频流或该复合视频流中的在该客户端设备的用户的视场内的空间片段流式传输到该客户端设备。

16.一种表示供所选权利要求15的处理器系统使用的客户端设备的处理器系统，该客户端设备被配置为渲染VR环境，该处理器系统包括：

-到网络的网络接口；

-处理器，该处理器被配置为经由该网络接口进行以下操作：

获得该客户端设备的用户的实时记录，并将该实时记录作为视频流而流式传输到该所选权利要求15的处理器系统；

从该所选权利要求15的处理器系统接收复合视频流或该复合视频流中的在该客户端设备的用户的视场内的空间片段，该复合视频流是空间分段编码，该空间分段编码包括复合到背景视频上的、另一客户端设备的用户的实时记录；

该处理器进一步被配置为：

从该VR环境中的观看位置渲染该解码后的复合图像数据。