CN117242500A

CN117242500A - 用于使用边缘处理创建与ar设备和非ar设备共享的虚拟对话空间的装置

Info

Publication number: CN117242500A
Application number: CN202280026510.9A
Authority: CN
Inventors: 伊拉吉·索达加
Original assignee: Tencent America LLC
Current assignee: Tencent America LLC
Priority date: 2022-02-07
Filing date: 2022-12-13
Publication date: 2023-12-15
Also published as: US20230252735A1; WO2023149955A1; KR20230145177A; JP2024516762A

Abstract

包括一种包括计算机代码的方法和装置，计算机代码被配置成使一个或多个处理器从非AR设备和AR设备获取视频数据，AR设备由第一房间中的第一用户使用，并且非AR设备由与第一房间分开的第二房间中的第二用户穿戴，基于视频数据确定非AR设备在第一房间中的AR场景中被显示的相对于第二用户的位置的取向，并且基于确定所述取向将场景信息流式传输到非AR设备。

Description

用于使用边缘处理创建与AR设备和非AR设备共享的虚拟对话空间的装置

相关申请的交叉引用

本申请要求于2022年2月7日提交的美国临时申请第63/307,534号和于2022年12月8日提交的美国申请第18/077,672号的优先权，该美国临时申请和美国申请在此通过引用将其全部内容明确地并入本申请中。

背景技术

1.技术领域

根据示例性实施方式，本公开内容旨在提供利用增强现实(argmented reality，AR)设备的虚拟对话会话，其中每个参与者在其本地空间中看到所有其他参与者，但是参与者在其本地空间中的布置与其他人相同，即人们以相同的配置坐着/站着等，就好像它们都是普通的，并且具有相同或相似的取向。

2.背景技术

即使AR流式传输设备可以提供会议的其他参与者的图像，即使非AR设备可以具有360视频或2D视频功能，非AR设备也可能无法参与AR视频会议。

发明内容

为了解决一个或更多个不同的技术问题，本公开内容提供了减少网络开销和服务器计算开销的技术解决方案，同时提供了将各种操作应用于解析元素使得在使用这些操作时可以改进这些操作的实用性和技术信号传送特征中的一些的选项。

包括方法和设备，该设备包括被配置成存储计算机程序代码的存储器和被配置成访问计算机程序代码并如计算机程序代码所指示的进行操作的一个或多个处理器。计算机程序代码包括：获取代码，其被配置成使至少一个处理器从非AR设备和AR设备获取视频数据，非AR设备由第一房间中的第一用户使用，并且AR设备由与第一房间分开的第二房间中的第二用户穿戴，获取代码被配置成使至少一个硬件处理器从不渲染AR场景的非AR设备获取AR场景描述；生成代码，其被配置成使至少一个硬件处理器解析和渲染从非AR设备获取的场景描述，以由云设备生成虚拟场景；确定代码，其被配置成使至少一个处理器基于从非AR设备获取的AR场景描述来确定非AR设备在第一房间中的AR场景中被显示的相对于第二用户的位置的取向；以及流式传输代码，其被配置成使至少一个处理器基于确定取向来将所渲染的虚拟场景流式传输到非AR设备。根据示例性实施方式，非AR设备可以是未被配置成渲染AR场景的设备，例如根据示例性实施方式的膝上型计算机、智能电视、智能电话等，并且AR设备可以是被配置成渲染AR场景的设备，并且可以包括玻璃型AR/混合现实设备等。

根据示例性实施方式，基于第一用户经由非AR设备的视图选择来确定在AR场景中第二用户被显示的位置。

根据示例性实施方式，将场景信息流式传输到非AR设备包括取决于第一用户经由非AR设备的选择来流式传输360视频和2D视频中的至少一个。

根据示例性实施方式，场景信息在与非AR设备分开的云设备中生成。

根据示例性实施方式，云设备基于视频数据实现AR渲染，并将场景信息提供给非AR设备。

根据示例性实施方式，场景信息包括第二用户虚拟覆盖在第一房间中的位置。

根据示例性实施方式，第二用户虚拟覆盖在第一房间中的位置是第一房间中非AR设备和云设备中的至少一个已经确定为第一房间中的专用位置的位置，在该专用位置处，在场景信息的流式传输期间覆盖第二用户。

根据示例性实施方式，云设备还基于非AR设备经由第一用户在第一房间中移动非AR设备来切换视图，向非AR设备提供更新的场景信息。

根据示例性实施方式，来自第一房间和来自第二房间的音频被混合，并且连同场景信息一起提供给非AR设备。

根据示例性实施方式，AR设备的第二用户在AR环境中观看场景，而非AR设备的第一用户根据场景描述在非AR环境中观看场景。

附图说明

所公开的主题的其他特征、性质和各种优点将根据以下详细描述和附图更加明显，在附图中：

图1是根据实施方式的简化示意图示。

图2是根据实施方式的简化示意图示。

图3是根据实施方式的关于解码器的简化框图。

图4是根据实施方式的关于编码器的简化框图。

图5是根据实施方式的简化框图。

图6是根据实施方式的简化框图。

图7是根据实施方式的简化框图。

图8是根据实施方式的简化框图。

图9是根据实施方式的简化框图。

图10是根据实施方式的简化图。

图11是根据实施方式的简化框图。

图12是根据实施方式的简化框图。

图13是根据实施方式的简化框图和时序图。

图14是根据实施方式的示意图示。

具体实施方式

可以单独使用或以任何顺序组合使用下面讨论的所提出的特征。此外，可以通过处理电路系统(例如，一个或更多个处理器或者一个或更多个集成电路)来实现实施方式。在一个示例中，一个或更多个处理器执行存储在非暂态计算机可读介质中的程序。

图1示出了根据本公开内容的实施方式的通信系统100的简化框图。通信系统100可以包括经由网络105互连的至少两个终端102和103。为了数据的单向传输，第一终端103可以在本地位置处对视频数据进行编码，以经由网络105传输至另一终端102。第二终端102可以从网络105接收另一终端的编码视频数据，对编码数据进行解码，并且显示恢复的视频数据。单向数据传输可能在媒体服务应用等中是常见的。

图1示出了第二对终端101和104，第二对终端101和104被设置成支持例如在视频会议期间可能发生的经编码的视频的双向传输。对于数据的双向传输，每个终端101和104可以对在本地位置处捕获的视频数据进行编码，以经由网络105传输至另一终端。每个终端101和104还可以接收由另一终端传输的编码视频数据，可以对编码数据进行解码，并且可以在本地显示设备上显示恢复的视频数据。

在图1中，终端101、102、103和104可以被示出为服务器、个人计算机和智能电话，但本公开内容的原理不限于此。本公开内容的实施方式应用于膝上型计算机、平板计算机、媒体播放器和/或专用视频会议装备。网络105表示在终端101、102、103和104之间传送编码视频数据的任何数目的网络，包括例如有线通信网络和/或无线通信网络。通信网络105可以在线路交换通道和/或分组交换通道中交换数据。代表性网络包括电信网络、局域网、广域网和/或因特网。出于本讨论的目的，除非在下文中有所说明，否则网络105的架构和拓扑对于本公开内容的操作而言可以是无关紧要的。

图2示出了视频编码器和视频解码器在流式传输环境中的放置方式，作为针对所公开的主题的应用的示例。所公开的主题可以同等地适用于其它支持视频的应用，包括例如视频会议、数字TV、在包括CD、DVD、存储棒等的数字介质上存储压缩视频等等。

流式传输系统可以包括捕获子系统203，捕获子系统203可以包括创建例如未压缩的视频样本流213的视频源201，例如数字摄像装置。样本流213可以被强调为在与已编码视频比特流进行比较时高的数据量，并且可以由耦接至摄像装置201的编码器202进行处理。编码器202可以包括硬件、软件或其组合，以实现或实施如下面更详细地描述的所公开的主题的各个方面。可以被强调为在与样本流进行比较时较低的数据量的已编码视频比特流204可以存储在流式传输服务器205上以供将来使用。一个或更多个流式传输客户端212和207可以访问流式传输服务器205以检索已编码视频比特流204的副本208和206。客户端212可以包括视频解码器211，视频解码器211对已编码视频比特流208的传入副本进行解码，并且创建可以在显示器209或其他渲染设备(未描绘)上渲染的传出视频样本流210。在一些流式传输系统中，可以根据某些视频编码/压缩标准来对视频比特流204、206和208进行编码。这些标准的示例在上面已经提到并且在本文中进一步描述。

图3可以是根据本发明的实施方式的视频解码器300的功能框图。

接收器302可以接收要由解码器300解码的一个或更多个编解码器视频序列；在同一实施方式或另一实施方式中，一次接收一个已编码视频序列，其中，每个已编码视频序列的解码独立于其他已编码视频序列。可以从信道301接收已编码视频序列，信道301可以是到存储已编码视频数据的存储设备的硬件/软件链路。接收器302可以接收已编码视频数据以及其他数据，例如，已编码音频数据和/或辅助数据流，这些数据可以被转发至其相应的使用实体(未描绘)。接收器302可以将已编码视频序列与其它数据分开。为了防止网络抖动，可以将缓冲存储器303耦接在接收器302与熵解码器/解析器304(此后被称为“解析器”)之间。在接收器302正在从具有足够带宽和可控性的存储/转发设备或者从等时同步网络(isosychronous network)接收数据时，可以不需要缓冲器303或者缓冲器303可以是小的。为了在尽力(best effort)型分组网络诸如因特网上使用，可能需要缓冲器303，缓冲器303可以相对较大并且可以有利地具有自适应大小。

视频解码器300可以包括解析器304，以根据已熵编码的视频序列重建符号313。这些符号的类别包括：用于管理解码器300的操作的信息；以及潜在地用于控制渲染设备诸如显示器312的信息，所述渲染设备不是解码器的组成部分而是可以耦接至解码器。用于渲染设备的控制信息可以是补充增强信息(SEI(Supplementary Enhancement Information)消息)或视频可用性信息参数集片段(未描绘)的形式。解析器304可以对接收到的已编码视频序列进行解析/熵解码。已编码视频序列的编码可以根据视频编码技术或标准进行，并且可以遵循本领域技术人员公知的原理，包括：可变长度编码、霍夫曼编码(Huffman coding)、具有或不具有上下文灵敏度的算术编码等。解析器304可以基于与群组对应的至少一个参数来从已编码视频序列中针对视频解码器中的像素的子群组中的至少一个子群组提取子群组参数集。子群组可以包括图片群组(Group of Pictures，GOP)、图片、图块、切片、宏块、编码单元(Coding Unit，CU)、块、变换单元(Transform Unit，TU)、预测单元(PredictionUnit，PU)等。熵解码器/解析器还可以从已编码视频序列中提取信息，例如变换系数、量化器参数值、运动矢量等。

解析器304可以对从缓冲器303接收到的视频序列进行熵解码/解析操作，以创建符号313。解析器304可以接收已编码数据，并且选择性地对特定符号313进行解码。此外，解析器304可以确定是否将特定符号313提供给运动补偿预测单元306、缩放器/逆变换单元305、帧内预测单元307或环路滤波器311。

根据已编码视频图片或其一部分的类型(例如：帧间图片和帧内图片、帧间块和帧内块)以及其他因素，符号313的重建可以涉及多个不同的单元。涉及哪些单元以及涉及方式可以通过由解析器304从已编码视频序列解析的子群组控制信息来控制。出于简洁起见，未描述解析器304与下面的多个单元之间的这样的子群组控制信息的流。

除了已经提及的功能块之外，解码器300可以在概念上细分成如下面描述的多个功能单元。在商业限制下的实际实现操作中，这些单元中的许多单元彼此紧密地相互作用并且可以至少部分地彼此集成。然而，出于描述所公开的主题的目的，在概念上细分为以下功能单元是适当的。

第一单元是缩放器/逆变换单元305。缩放器/逆变换单元305从解析器304接收作为符号313的量化变换系数以及控制信息，包括使用哪种变换、块大小、量化因子、量化缩放矩阵等。缩放器/逆变换单元305可以输出包括样本值的块，所述样本值可以输入至聚合器310中。

在一些情况下，缩放器/逆变换305的输出样本可以属于帧内编码块；也就是说：这个块不使用来自先前重建的图片的预测性信息，但是可以使用来自当前图片的先前重建部分的预测性信息。这样的预测性信息可以由帧内图片预测单元307提供。在一些情况下，帧内图片预测单元307使用从当前(部分重建的)图片309提取的周围已经重建的信息来生成与重建下的块相同大小和形状的块。在一些情况下，聚合器310基于每个样本将帧内预测单元307已经生成的预测信息添加至由缩放器/逆变换单元305提供的输出样本信息。

在其他情况下，缩放器/逆变换单元305的输出样本可以属于已帧间编码并且可能经运动补偿的块。在这种情况下，运动补偿预测单元306可以访问参考图片缓冲器308以提取用于预测的样本。在根据属于块的符号313对提取的样本进行运动补偿之后，这些样本可以由聚合器310添加至缩放器/逆变换单元的输出(在这种情况下被称为残差样本或残差信号)，以生成输出样本信息。运动补偿单元从其提取预测样本的参考图片存储器内的地址可以由运动矢量控制，所述运动矢量以符号313的形式供运动补偿单元使用，所述符号313可以具有例如X分量、Y分量和参考图片分量。运动补偿还可以包括在使用子样本精确运动矢量时从参考图片存储器提取的样本值的内插、运动矢量预测机制等等。

聚合器310的输出样本可以在环路滤波器单元311中经受各种环路滤波技术。视频压缩技术可以包括环路内滤波技术，所述环路内滤波技术由被包括在已编码视频比特流中并且作为来自解析器304的符号313可用于环路滤波器单元311的参数来控制，但是视频压缩技术还可以响应于在对已编码图片或已编码视频序列的先前(按解码顺序)部分进行解码期间获取的元信息，以及响应于先前重建且经环路滤波的样本值。

环路滤波器单元311的输出可以是样本流，所述样本流可以输出至可以作为渲染设备的显示器312以及存储在参考图片存储器557中，以用于将来的帧间图片预测。

一旦完全重建，某些已编码图片就可以用作参考图片以用于将来预测。一旦已编码图片被完全重建并且该已编码图片已经被识别为参考图片(通过例如解析器304)，则当前参考图片309就可以变为参考图片缓冲器308的一部分，并且可以在开始重建后续已编码图片之前重新分配新的当前图片存储器。

视频解码器300可以根据可以记录在例如ITU-T Rec.H.265的标准中的预定视频压缩技术执行解码操作。在已编码视频序列遵循视频压缩技术或标准的语法的意义上，已编码视频序列可以符合由正在使用的视频压缩技术或标准指定的语法，如在视频压缩技术文档或标准中且明确地在其中的简档文档中指定的语法。对于合规性，还要求已编码视频序列的复杂度在由视频压缩技术或标准的层级限定的范围内。在一些情况下，层级限制最大图片大小、最大帧速率、最大重构样本速率(以例如每秒兆个样本为单位进行度量)、最大参考图片大小等。在一些情况下，由层级设置的限制可以通过假设参考解码器(Hypothetical Reference Decoder，HRD)规范以及在已编码视频序列中用信号传送的HRD缓冲器管理的元数据来进一步限定。

在实施方式中，接收器302可以接收附加(冗余)数据以及已编码视频。附加数据可以被包括为(一个或多个)已编码视频序列的一部分。附加数据可以由视频解码器300使用以对数据进行适当解码和/或更准确地重建原始视频数据。附加数据可以呈例如时间、空间或信噪比(signal noise ratio，SNR)增强层、冗余切片、冗余图片、前向纠错码等形式。

图4可以是根据本公开内容的实施方式的视频编码器400的功能框图。

编码器400可以从视频源401(其并非编码器的一部分)接收视频样本，所述视频源401可以捕获要由编码器400编码的视频图像。

视频源401可以提供要由编码器(303)编码的呈数字视频样本流形式的源视频序列，该数字视频样本流可以具有任何合适的位深度(例如：8位、10位、12位......)、任何色彩空间(例如BT.601Y CrCB、RGB......)和任何合适的采样结构(例如Y CrCb 4:2:0、YCrCb 4:4:4)。在媒体服务系统中，视频源401可以是存储先前已准备的视频的存储设备。在视频会议系统中，视频源401可以是捕获本地图像信息作为视频序列的摄像装置。可以将视频数据提供为在按次序观看时被赋予运动的多个单独的图片。图片自身可以被组织为空间像素阵列，其中，取决于所使用的采样结构、色彩空间等，每个像素可以包括一个或更多个样本。本领域技术人员可以容易地理解像素与样本之间的关系。以下描述侧重于样本。

根据实施方式，编码器400可以实时地或者按照应用所要求的任何其他时间约束将源视频序列的图片编码并压缩成已编码视频序列410。执行适当的编码速度是控制器402的一个功能。控制器控制如下所述的其他功能单元并且在功能上耦接至这些单元。出于简洁起见，未描绘耦接。由控制器设置的参数可以包括：速率控制相关参数(图片跳过、量化器、率失真优化技术的λ值、…)、图片大小、图片群组(GOP)布局、最大运动矢量搜索范围等。本领域技术人员可以容易地识别控制器402的其他功能，这是因为这些功能可能属于针对某个系统设计优化的视频编码器400。

一些视频编码器以本领域技术人员所容易了解的“编码环路”进行操作。作为过于简化的描述，编码环路可以包括：编码器(例如源编码器403)的编码部分(负责基于要被编码的输入图片和参考图片创建符号)以及嵌入在编码器400中的(本地)解码器406，(本地)解码器406重建符号以创建(远程)解码器也将创建的样本数据(因为在所公开的主题中考虑的视频压缩技术中，符号与已编码视频比特流之间的任何压缩是无损的)。将该重建的样本流输入至参考图片存储器405。由于对符号流的解码导致独立于解码器位置(本地或远程)的位精确结果，因此参考图片缓冲器内容在本地编码器与远程编码器之间也是位精确的。换言之，编码器的预测部分“看到”的参考图片样本与解码器在解码期间使用预测时将“看到”的样本值完全相同。该参考图片同步性的基本原理(以及如果例如由于信道错误而不能保持同步性，则导致漂移)是本领域技术人员公知的。

“本地”解码器406的操作可以与已经在上面结合图3详细描述的“远程”解码器300的操作相同。然而，还简要参照图4，当符号可用并且熵编码器408和解析器304可以无损地将符号编码/解码为已编码的视频序列时，在本地解码器406中可以不完全实现包括信道301、接收器302、缓冲器303和解析器304的解码器300的熵解码部分。

此时可以观察到，除了存在于解码器中的解析/熵解码之外的任何解码器技术也必定以基本上相同的功能形式存在于对应的编码器中。由于编码器技术与全面地描述的解码器技术互逆，因此可以简化对编码器技术的描述。更详细的描述仅在某些区域中需要并且在下面被提供。

作为其操作的一部分，源编码器403可以执行运动补偿预测编码，该运动补偿预测编码参考来自视频序列中被指定为“参考帧”的一个或更多个先前已编码的帧对输入帧进行预测性编码。以这样的方式，编码引擎407对输入帧的像素块与参考帧的像素块之间的差异进行编码，所述参考帧可以被选作所述输入帧的预测参考。

本地视频解码器406可以基于由源编码器403创建的符号对可以指定为参考帧的帧的已编码视频数据进行解码。编码引擎407的操作可以有利地是有损处理。当已编码视频数据可以在视频解码器(图4中未示出)处被解码时，重建的视频序列通常可以是具有一些误差的源视频序列的副本。本地视频解码器406复制可以由视频解码器对参考帧执行的解码处理，并且可以使重建的参考帧存储在可以是例如缓存的参考图片存储器405中。以这样的方式，编码器400可以在本地存储重建的参考帧的副本，该副本与将由远端视频解码器获取的重建参考帧具有共同内容(不存在传输误差)。

预测器404可以针对编码引擎407执行预测搜索。也就是说，对于要编码的新图片，预测器404可以在参考图片存储器405中搜索可以用作用于新图片的适当预测参考的样本数据(作为候选参考像素块)或某些元数据，例如，参考图片运动矢量、块形状等。预测器404可以基于样本块逐像素块操作以找到适当的预测参考。在一些情况下，如由预测器404获取的搜索结果所确定的，输入图片可以具有从参考图片存储器405中存储的多个参考图片提取的预测参考。

控制器402可以管理视频编码器403的编码操作，包括例如设置用于对视频数据进行编码的参数和子群组参数。

所有以上提及的功能单元的输出可以在熵编码器408中经受熵编码。熵编码器通过根据本领域技术人员已知的技术(例如霍夫曼编码、可变长度编码、算术编码等)对符号进行无损压缩来将由各种功能单元生成的符号转换成已编码视频序列。

传输器409可以缓冲由熵编码器408创建的(一个或多个)编码视频序列，从而为经由通信信道411进行传输做准备，通信信道可以是到将存储已编码视频数据的存储装置的硬件/软件链路。传输器409可以将来自视频编码器403的已编码视频数据与要传输的其他数据合并，所述其他数据例如是已编码音频数据和/或辅助数据流(未示出源)。

控制器402可以管理编码器400的操作。在编码期间，控制器405可以向每个已编码图片分配某个已编码图片类型，这可能影响可以应用于相应的图片的编码技术。例如，通常可以向图片分配以下帧类型之一：

帧内图片(I图片)可以是不将序列中的任何其它帧用作预测源就可以被编码和解码的图片。一些视频编解码器允许不同类型的帧内图片，包括例如独立解码器刷新图片。本领域技术人员了解I图片的这些变型及其相应的应用和特征。

预测性图片(P图片)可以是可以使用帧内预测或帧间预测进行编码和解码的图片，所述帧内预测或帧间预测使用至多一个运动矢量和参考索引来预测每个块的样本值。

双向预测性图片(B图片)可以是可以使用帧内预测或帧间预测进行编码和解码的图片，所述帧内预测或帧间预测使用至多两个运动矢量和参考索引来预测每个块的样本值。类似地，多预测性图片可以使用多于两个参考图片和相关联的元数据来进行单个块的重构。

源图片通常可以在空间上细分成多个样本块(例如，分别为4×4、8×8、4×8或16×16样本的块)，并且基于逐块进行编码。这些块可参考其它(已编码)块进行预测性编码，根据应用于块的相应图片的编码分配来确定所述其它块。举例来说，I图片的块可进行非预测性编码，或所述块可参考同一图片的已经编码的块来进行预测性编码(空间预测或帧内预测)。P图片的像素块可以参考一个先前编码的参考图片经由空间预测或经由时间预测进行非预测性编码。B图片的块可参考一个或两个先前编码的参考图片经由空间预测或经由时域预测进行预测性编码。

视频编码器400可以根据预定视频编码技术或标准例如ITU-T Rec H.265.执行编码操作。在视频编码器400的操作中，视频编码器400可以执行各种压缩操作，包括利用输入视频序列中的时间冗余和空间冗余的预测性编码操作。因此，已编码视频数据可以符合由正在使用的视频编码技术或标准指定的语法。

在实施方式中，传输器409可以传输附加数据以及已编码视频。源编码器403可以包括这样的数据作为已编码视频序列的一部分。附加数据可以包括时间/空间/SNR增强层，其他形式的冗余数据，诸如冗余图片和切片、补充增强信息(Supplementary EnhancementInformation，SEI)消息、视觉可用性信息(Video Usability Information，VUI)参数集片段等。

图5是根据示例性实施方式的用于独立AR(stand-along AR，STAR)设备的端到端架构的示例500，示出了5G STAR用户设备(user equpiment，UE)接收器600、网络/云501和5G UE(发送器)700。图6是根据示例性实施方式的STAR UE接收器600的一个或更多个配置的进一步详细示例600，并且图7是根据示例性实施方式的5G UE发送器700的一个或更多个配置的进一步详细示例700。3GPP TR 26.998定义了在5G网络中对玻璃型增强现实/混合现实(AR/MR)设备的支持。并且根据本文的示例性实施方式，考虑至少两个设备类别：1)完全能够解码和播放复杂AR/MR内容的设备(独立AR或STAR)，以及2)具有较小计算资源和/或较小物理尺寸(因此电池)并且仅在大部分计算在5G边缘服务器、网络或云上而不是在设备(依赖于边缘的AR或EDGAR)上执行的情况下才能够运行此类应用的设备。

并且根据示例性实施方式，如下面描述的，可以体验共享对话用例，其中共享AR对话体验的所有参与者具有AR设备，每个参与者在AR场景中看到其他参与者，其中参与者被覆盖在本地物理场景中，场景中参与者的布置在所有接收设备中是一致的，例如，每个本地空间中的人相对于彼此具有相同的位置/座位布置，并且这样的虚拟空间产生处于相同空间中的感觉，但是房间因参与者而异，因为房间是每个人物理上所处的实际房间或空间。

例如，根据关于图5至图7示出的示例性实施方式，网络/云501上的沉浸式媒体处理功能接收来自各种设备的上行链路流，并合成定义各个参与者在单个虚拟会议室中的布置的场景描述。场景描述以及编码的媒体流被递送到每个接收参与者。接收参与者的5GSTAR UE 600接收、解码和处理3D视频和音频流，并使用接收到的场景描述和从其AR运行时接收到的信息来渲染它们，与所有其他参与者一起创建虚拟会议室的AR场景。虽然参与者的虚拟房间基于他们自己的物理空间，但房间中所有其他参与者的座位/位置安排与该会议中所有其他参与者的虚拟房间一致。

根据示例性实施方式，还参见图8示出关于EDGAR设备架构的示例800，其中诸如5GEDGAR UE 900的设备本身不能进行繁重的处理。因此，在云/边缘801中对接收到的内容执行场景解析和媒体解析，然后将具有少量媒体组件的简化AR场景递送到设备进行处理和渲染。图9示出了根据示例性实施方式的5G EDGAR UE 900的更详细的示例。

然而，即使具有关于图5至图9的示例性实施方式的这种能力，也可能存在关于在沉浸式媒体功能中构建公共虚拟空间场景描述(如果有的话)的一个或更多个技术问题。并且如下面描述，这样的实施方式在沉浸式媒体处理功能的环境中被技术改进以生成将被提供给所有参与者的场景描述，使得所有参与者可以在本地AR场景中体验参与者的相同相对布置。

图10示出了示例1000，其中用户A 10、用户B11和用户T12将参与AR会议室，并且用户中的一个或更多个用户可以不具有AR设备。如图所示，用户A 10在他们的办公室1001中，坐在具有各种数量的椅子的会议室中，并且用户A 10正在使用这些椅子。用户B11在他们的起居室1002中，坐在双人沙发上，在他的起居室中还有一个或更多个供两个人使用的沙发以及其他家具诸如椅子和桌子。用户T12在机场候机室1003处在长凳上，长凳横跨一个或更多个其他咖啡桌当中的一个咖啡桌。

并且在AR环境中看到，其中在办公室1001中，用户A 10的AR向用户A 10显示与用户B11相对应的虚拟用户B11v1，以及与用户T12相对应的虚拟用户T12v1，并且使得虚拟用户B11v1和虚拟用户T12v1向用户A 10显示为与用户A 10一样坐在办公室1001中的家具、办公椅上。并且在示例1200中的起居室1202中看到，其中用户B11的AR显示与用户T12相对应但坐在起居室1202中的沙发上的虚拟用户T12v2，以及与用户A 10相对应、也坐在起居室1202中的家具上而不是办公室1201中的办公椅上的虚拟用户A 10v1。在机场候机室1203还看到，其中用户T12的AR显示与用户A 10相对应但坐在机场候机室1203的桌子处的虚拟用户A 10v2，以及也坐在虚拟用户A 10v2对面的桌子处的虚拟用户B11v2。并且在这些办公室1201、起居室1202和机场休息室1203中的每一个中，每个房间的更新的场景描述在位置/座位布置方面与其他房间一致。例如，每个房间中，用户A 10被显示为逆时针相对于用户11或其虚拟表示，用户11也逆时针相对于用户T12或其虚拟表示。

但是AR技术在为不支持AR但可以解析VR或2D视频的设备整合虚拟空间的创建和使用的任何尝试中都受到限制，并且本文的实施方式提供了当这样的设备参与共享AR对话服务时用于创建与AR场景一致的虚拟场景的改进的技术过程。

图11示出了具有根据示例性实施方式的非AR设备1101以及云/边缘1102的端到端架构的示例1100。并且图12示出了非AR设备1101的进一步详细框图示例。

如图11和图12所示，非AR UE 1101是能够渲染360视频或2D视频但不具有任何AR能力的设备。然而，云/边缘1102上的边缘功能能够AR渲染接收到的场景、渲染场景以及从库中选择的虚拟房间中的沉浸式视觉和音频对象。然后，整个视频被编码并递送到设备1101用于解码和渲染。

因此，可以存在多视图能力，例如边缘/云1102上的AR处理可以生成同一虚拟房间的多个视频：来自不同的角度并且具有不同的视口。并且设备1101可以接收这些视频中的一个或更多个，当期望时在它们之间切换，或者向边缘/云处理发送命令以仅流式传输期望的视口/角度。

此外，可能存在改变背景能力，其中设备1101上的用户可以从所提供的库(例如不同会议室或甚至起居室和布局中的一个)中选择期望的房间背景。并且云/边缘1102使用所选择的背景并相应地创建虚拟房间。

图13示出了用于接收非AR UE 1101的沉浸式AR会话的示例呼叫流的示例时序图1300。为了便于说明，在该图中只显示了一个发送方，而没有显示其详细的呼叫流程。

示出了AR应用模块21、媒体播放模块22和媒体访问功能模块23，所述模块可以被认为是接收非AR UE 1101的模块。还示出了云/边缘分割渲染模块24。还示出了网络云1102中的每一个的媒体递送模块25和场景图形合成器模块26。还示出了5G发送器UE模块700。

S1至S6可以被认为是会话建立阶段。AR应用模块21可以在S1处请求启动到媒体访问功能模块23的会话，并且媒体访问功能模块23可以在S2处请求启动到云/边缘分割渲染模块24的会话。

云/边缘分割渲染模块24可以在S3处与场景图形合成器模块26实现会话协商，场景图形生成器模块26可以相应地与5G发送器UE 700协商。如果成功，则在S5处，云/边缘分割渲染模块可以向媒体访问功能模块23发送确认，并且媒体访问功能模块23可以向AR应用模块21发送确认。

之后，S7可以被认为是媒体流水线配置阶段，其中媒体访问功能模块23和云/边缘分割渲染模块24各自配置相应的流水线。然后，在该流水线配置之后，会话可以由信号开始，在S8处从AR应用模块到媒体播放器模块22，在S9处从媒体播放器模块22到媒体访问功能模块23，在S10处从媒体访问功能模块23到云/边缘分割渲染模块24。

然后可以存在从S11到S13的姿势循环阶段，其中在S11处，姿势数据可以从媒体播放器模块22提供给AR应用模块21，并且在S12处，AR应用模块可以将姿势数据12提供给媒体访问功能模块23，之后媒体访问功能模块23可以将姿势数据提供给云/边缘分割渲染模块24。

S14至S16可以被认为是共享体验流阶段，其中在S14处，5G发送器UE 700可以在S14处将媒体流提供给媒体递送模块25，并且在S15处将AR数据提供给场景图形合成器模块26。然后，场景图形合成器模块25可以基于接收到的AR数据合成一个或更多个场景，并且在S16处将场景和场景更新提供给云/边缘分割渲染模块24，并且媒体递送模块25还可以在S17处将媒体流提供给云/边缘分割渲染模块。根据示例性实施方式，这可以包括从不渲染AR场景的非AR设备获取AR场景描述符，并且解析和渲染从非AR设备获取的场景描述，以由云设备生成虚拟场景。

S18至S19可以被认为是媒体上行链路阶段，其中媒体播放器模块22捕获并处理来自其本地用户的媒体数据，并在S18处将该媒体数据提供给媒体访问功能模块23。然后，媒体访问模块23可以对媒体进行编码，并在S19处将媒体流提供给云/边缘分割渲染模块24。

在S19和S20之间可以考虑媒体下行链路阶段，其中云/边缘分割渲染模块24可以实现场景解析并完成AR渲染，之后，S20和S21可以考虑组成媒体流循环阶段。在S20处，云/边缘分割渲染模块24可以将媒体流提供给媒体访问功能模块23，然后媒体访问功能模块23可以解码媒体并在S21处将媒体渲染提供给媒体播放器22。

通过根据示例性实施方式的这种特征，非AR UE 1101即使不具有透明显示器并且因此不能创建AR场景，但是也可以利用其可以渲染VR或2D视频的显示器。因此，其沉浸式媒体处理功能仅生成描述每个参与者相对于其他人和场景的相对位置的共同场景描述。如上面描述的，在被渲染为AR场景之前，场景本身需要在每个设备处利用姿势信息进行调整。并且边缘或云上的AR渲染处理可以解析AR场景，并且创建简化的VR-2D场景。

根据示例性实施方式，本公开将EDGAR设备的类似分割渲染处理用于非AR设备、例如VR或2d视频设备，具有特征诸如边缘/云AR渲染处理在这种情况下不产生任何AR场景。相反，它通过针对给定背景(诸如会议室)解析和渲染从沉浸式媒体处理功能接收的场景描述来生成虚拟场景，然后在会议室中由场景描述所描述的位置中渲染每个参与者。

此外，取决于接收非AR设备的能力，所得到的视频可以是360视频或2D视频，并且根据示例性实施方式，考虑从非AR设备接收的姿势信息来生成所得到的视频。

此外，具有非AR设备的每个其他参与者被添加为会议室的360/2D视频上的2D视频叠加，如图10中所示，并且房间可以具有专用于使用这些叠加诸如图10中所示的虚拟图像被叠加的家具的叠加的区域。

此外，根据示例性实施方式，来自所有参与者的音频信号可以在必要时被混合以创建携带房间中的语音的单声道音频，视频可以被编码为单个360视频或2D视频并被递送到设备，并且可选地，可以创建多个视频(多视图)源，视频源中的每个视频源从不同的视图捕获相同的虚拟会议室并将这些视图提供给设备。

此外，非AR UE设备1101可以接收360视频和/或选择的一个或更多个多视图视频以及音频并在设备显示器上渲染，并且用户可以在不同视图之间切换，或者通过移动或旋转视图设备，改变360视频的视口，因此能够在观看视频的同时在虚拟房间中导航。

上述技术可以使用计算机可读指令被实现为计算机软件，并且被物理地存储在一个或更多个计算机可读介质中，或者可以通过特别配置的一个或更多个硬件处理器来实现上述技术。例如，图14示出了适于实现所公开的主题的某些实施方式的计算机系统1400。

可以使用任何合适的机器代码或计算机语言对计算机软件进行编码，机器代码或计算机语言可以经受汇编、编译、链接等机制以创建包括指令的代码，所述指令可以由计算机中央处理单元(central processing unit，CPU)、图形处理单元(Graphics ProcessingUnit，GPU)等直接执行或通过解译、微代码执行等执行。

指令可以在各种类型的计算机或其部件上执行，包括例如个人计算机、平板计算机、服务器、智能电话、游戏设备、物联网设备等。

图14中示出的用于计算机系统1400的部件本质上是示例性的，并且不旨在对实现本公开内容的实施方式的计算机软件的使用范围或功能范围提出任何限制。部件的配置也不应当被解释为具有与计算机系统1400的示例性实施方式中示出的部件中的任何一个部件或部件的组合有关的任何依赖性或要求。

计算机系统1400可以包括某些人机接口输入设备。这样的人机接口输入设备可以响应于由一个或更多个人类用户通过例如触觉输入(例如：击键、滑动、数据手套移动)、音频输入(例如：语音、拍打)、视觉输入(例如：姿势)、嗅觉输入(未描绘)实现的输入。人机接口设备还可以用于捕获不一定与人的意识输入直接有关的某些媒体，诸如音频(例如：语音、音乐、环境声音)、图像(例如：扫描图像、从静态图像摄像装置获取的摄影图像)、视频(例如二维视频、包括立体视频的三维视频)。

输入人机接口设备可以包括以下中的一个或更多个(仅描绘了每个中的一个)：键盘1401、鼠标1402、触控板1403、触摸屏1410、操纵杆1405、麦克风1406、扫描仪1408和摄像装置1407。

计算机系统1400还可以包括某些人机接口输出设备。这样的人机接口输出设备可以通过例如触觉输出、声音、光和气味/味道刺激一个或更多个人类用户的感官。这样的人机接口输出设备可以包括：触觉输出设备(例如，由触摸屏1410或操纵杆1405进行的触觉反馈，但是还可以存在不用作输入设备的触觉反馈设备)；音频输出设备(例如：扬声器1409、耳机(未描绘))；视觉输出设备(例如，包括CRT屏、LCD屏、等离子体屏、OLED屏的屏1410，每个屏具有或没有触摸屏输入功能，每个屏具有或没有触觉反馈能力——其中的一些可能能够通过诸如立体输出的手段输出二维视觉输出或超过三维的输出；虚拟现实眼镜(未描绘)；全息图显示器和烟箱(未描绘))；以及打印机(未描绘)。

计算机系统1400还可以包括人可访问存储设备及其相关联的介质，例如，包括带有CD/DVD 1411的CD/DVD ROM/RW 1420或类似介质的光学介质、拇指驱动器1422、可移动硬盘驱动器或固态驱动器1423、传统磁性介质诸如磁带和软盘(未描绘)、基于专用ROM/ASIC/PLD的设备，例如安全加密狗(未描绘)等。

本领域技术人员还应当理解，结合当前公开的主题使用的术语“计算机可读介质”不包含传输介质、载波或其他瞬态信号。

计算机系统1400还可以包括到一个或更多个通信网络1498的接口1499。网络1498可以例如是无线的、有线的、光学的。网络1498还可以是本地的、广域的、城域的、车辆和工业的、实时的、延迟容忍的等。网络1498的示例包括：局域网(例如以太网、无线LAN)；包括GSM、3G、4G、5G、LTE等的蜂窝网络；包括有线电视、卫星电视和地面广播电视的电视有线连接或无线广域数字网络；包括CANBus的车辆和工业网络等。某些网络1498通常需要外部网络接口适配器，该外部网络接口适配器附接至某些通用数据端口或外围总线(1450和1451)(诸如，例如计算机系统1400的USB端口)；其他网络通常通过附接至如下所述的系统总线(例如，到PC计算机系统的以太网接口或者到智能电话计算机系统的蜂窝网络接口)而集成至计算机系统1400的核中。使用这些网络1498中的任何网络，计算机系统1400可以与其他实体进行通信。这样的通信可以是单向仅接收的(例如，广播TV)、单向仅发送的(例如CANbus到某些CANbus设备)、或双向的，例如使用局域或广域数字网络到其他计算机系统。某些协议和协议栈可以用在如上所述的这些网络和网络接口中的每一个上。

上述的人机接口设备、人可访问的存储设备以及网络接口可以附接至计算机系统1400的核1440。

核1440可以包括一个或更多个中央处理单元(CPU)1441、图形处理单元(GPU)1442、图形适配器1417、现场可编程门区域(Field Programmable Gate Areas，FPGA)1443形式的专用可编程处理单元、某些任务的硬件加速器1444等。这些设备连同只读存储器(ROM)1445、随机存取存储器1446、内部大容量存储装置诸如内部非用户可访问硬盘驱动器、SSD等1447可以通过系统总线1448连接。在一些计算机系统中，系统总线1448可以以一个或更多个物理插头的形式访问，以实现通过附加CPU、GPU等进行扩展。外围设备可以直接地或通过外围总线1451附接至核的系统总线1448。外围总线的架构包括PCI、USB等。

CPU 1441、GPU 1442、FPGA 1443和加速器1444可以执行特定指令，这些指令的组合可以构成上述计算机代码。该计算机代码可以存储在ROM 1445或RAM 1446中。瞬态数据也可以存储在RAM 1446中，而永久数据可以存储在例如内部大容量存储装置1447中。对存储器设备中的任何的快速存储和检索可以通过使用高速缓冲存储器来实现，所述高速缓冲存储器可以与一个或更多个CPU 1441、GPU 1442、大容量存储装置1447、ROM 1445、RAM1446等紧密相关联。

计算机可读介质在其上可以具有用于执行各种计算机实现的操作的计算机代码。介质和计算机代码可以是为本公开内容的目的而专门设计和构造的介质和计算机代码，或者它们可以具有计算机软件领域的技术人员公知且可用的类型。

作为示例而通过非限制的方式，对应于计算机系统1400的架构，并且特别是核1440可以由于处理器(包括CPU、GPU、FPGA、加速器等)执行实施在一个或更多个有形计算机可读介质中的软件而提供功能。这样的计算机可读介质可以是与如以上所介绍的用户可访问的大容量存储装置以及核1440的具有非暂态性质的某些存储装置例如核内部大容量存储装置1447或ROM 1445相关联的介质。实现本公开内容的各种实施方式的软件可以存储在这样的设备中并且由核1440执行。根据特定需要，计算机可读介质可以包括一个或更多个存储器设备或者芯片。软件可以使核1440、特别是其中的处理器(包括CPU、GPU、FPGA等)执行本文中描述的特定处理或特定处理的特定部分，包括定义存储在RAM 1446中的数据结构，以及根据软件定义的处理修改这样的数据结构。另外地或作为替选，计算机系统可以由于逻辑硬连线或以其他方式实施在电路(例如：加速器1444)中而提供功能，该电路可以代替软件或者与软件一起操作以执行本文描述的特定处理或特定处理的特定部分。在适当的情况下，提及软件可以包含逻辑，并且反之，提及逻辑可以包含软件。在适当的情况下，提及计算机可读介质可以包含存储用于执行的软件的电路(例如集成电路(IC))、实施用于执行的逻辑的电路或两者。本公开内容包含硬件和软件的任何合适的组合。

尽管本公开内容已经描述了若干示例性实施方式，但是存在落入本公开内容的范围内的改变、置换和各种替换等效物。因此将认识到，本领域技术人员能够设想虽然本文中没有明确示出或描述但是实施了本公开内容的原理并且因此在其精神和范围内的许多系统和方法。

Claims

1.一种用于增强现实(AR)视频流式传输的方法，所述方法包括：

分别从非AR设备和AR设备获取视频数据，所述非AR设备由第一房间中的第一用户使用，所述AR设备由与所述第一房间分开的第二房间中的第二用户穿戴；

从所述非AR设备获取AR场景描述，其中，所述非AR设备不渲染AR场景；

解析和渲染从所述非AR设备获取的场景描述，以由云设备生成虚拟场景；

基于从所述非AR设备获取的AR场景描述，确定所述非AR设备在所述第一房间中的AR场景中被显示的相对于所述第二用户的位置的取向；以及

基于确定所述取向，将所渲染的虚拟场景流式传输到所述非AR设备。

2.根据权利要求1所述的方法，

其中，基于所述第一用户经由所述非AR设备的视图选择来确定在所述AR场景中所述第二用户被显示的位置。

3.根据权利要求1所述的方法，

其中，将所渲染的虚拟场景流式传输到所述非AR设备包括取决于所述第一用户经由所述非AR设备的选择来流式传输360视频和2D视频中的至少一个。

4.根据权利要求1所述的方法，

其中，所渲染的虚拟场景在与所述非AR设备分开的云设备中生成。

5.根据权利要求4所述的方法，

其中，所述云设备基于所述视频数据实现AR渲染，并将所渲染的虚拟场景提供给所述非AR设备。

6.根据权利要求5所述的方法，其中，所渲染的虚拟场景包括所述第二用户虚拟覆盖在所述第一房间中的位置。

7.根据权利要求6所述的方法，其中，所述第二用户虚拟覆盖在所述第一房间中的位置是所述第一房间中所述非AR设备和所述云设备中的至少一个已经确定为所述第一房间中的专用位置的位置，在所述专用位置处，在所渲染的虚拟场景的流式传输期间覆盖所述第二用户。

8.根据权利要求5所述的方法，

其中，所述云设备还基于所述非AR设备经由所述第一用户在所述第一房间中移动所述非AR设备来切换视图，向所述非AR设备提供更新的场景信息。

9.根据权利要求1所述的方法，

其中，来自所述第一房间和来自所述第二房间的音频被混合，并且连同所渲染的虚拟场景一起提供给所述非AR设备。

10.根据权利要求1所述的方法，

其中，所述AR设备的第二用户在AR环境中观看所述场景，而所述非AR设备的第一用户根据所述场景描述在所述非AR环境中观看所述场景。

11.一种用于增强现实(AR)视频流式传输的装置，所述装置包括：

至少一个存储器，所述至少一个存储器被配置成存储计算机程序代码；

至少一个处理器，所述至少一个处理器被配置成访问所述计算机程序代码并按照所述计算机程序代码所指示的进行操作，所述计算机程序代码包括：

获取代码，所述获取代码被配置成使所述至少一个处理器分别从非AR设备和AR设备获取视频数据，所述非AR设备由第一房间中的第一用户使用，所述AR设备由与所述第一房间分开的第二房间中的第二用户穿戴；

另外的获取代码，所述另外的获取代码被配置成使所述至少一个处理器从不渲染AR场景的所述非AR设备获取AR场景描述；

确定代码，所述确定代码被配置成使所述至少一个处理器基于从所述非AR设备获取的AR场景描述来确定所述非AR设备在所述第一房间中的AR场景中被显示的相对于所述第二用户的位置的取向；以及

流式传输代码，所述流式传输代码被配置成使所述至少一个处理器基于确定所述取向来将所渲染的虚拟场景流式传输到所述非AR设备。

12.根据权利要求11所述的装置，

13.根据权利要求11所述的装置，

14.根据权利要求11所述的装置，

15.根据权利要求14所述的装置，

16.根据权利要求15所述的装置，其中，所渲染的虚拟场景包括所述第二用户虚拟覆盖在所述第一房间中的位置。

17.根据权利要求16所述的装置，其中，所述第二用户虚拟覆盖在所述第一房间中的位置是所述第一房间中所述非AR设备和所述云设备中的至少一个已经确定为所述第一房间中的专用位置的位置，在所述专用位置处，在所渲染的虚拟场景的流式传输期间覆盖所述第二用户。

18.根据权利要求15所述的装置，

19.根据权利要求11所述的装置，

20.一种非暂态计算机可读介质，存储有使计算机执行处理的程序，所述处理包括：

从不渲染AR场景的所述非AR设备获取AR场景描述；