CN117397227A

CN117397227A - 实时增强现实通信会话

Info

Publication number: CN117397227A
Application number: CN202280039041.4A
Authority: CN
Inventors: I·布阿兹兹; T·斯托克哈默; N·K·梁; C·M·D·帕索斯; L·马
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2021-06-18
Filing date: 2022-06-17
Publication date: 2024-01-12
Also published as: KR20240023037A; TW202301850A; US20220407899A1; BR112023025770A2; EP4356593A1; JP2024525323A

Abstract

一种用于传输增强现实(AR)媒体数据的示例第一客户端设备包括存储器，该存储器被配置为存储包括语音数据和增强现实(AR)数据的媒体数据；和一个或多个处理器，该一个或多个处理器在电路中实现并且被配置为：参与与第二客户端设备的语音呼叫会话；从该第二客户端设备接收指示除了该语音呼叫会话之外还将发起AR会话的数据；接收用于发起该AR会话的数据；以及使用用于发起该AR会话的该数据来参与与该第二客户端设备的该AR会话。

Description

实时增强现实通信会话

本申请要求于2022年6月16日提交的美国专利申请17/807,284号以及于2021年6月18日提交的美国临时申请63/212,534号的优先权，这些申请中的每个申请的全部内容以引用方式并入本文。于2022年6月16日提交的美国专利申请17/807,284号要求于2021年6月18日提交的美国临时申请63/212,534号的权益。

技术领域

本公开涉及媒体数据的传输。

背景技术

数字视频能力可以并入到广泛的设备中，包括数字电视、数字直接广播系统、无线广播系统、个人数字助理(PDA)、膝上型或台式计算机、数字相机、数字记录设备、数字媒体播放器、视频游戏设备、视频游戏控制台、蜂窝或卫星无线电话、视频电话会议设备等。数字视频设备实现视频压缩技术(诸如由MPEG-2、MPEG-4、ITU-T H.263或ITU-T H.264/MPEG-4，第10部分，高级视频编码(AVC)，ITU-T H.265(也称为高效视频编码(HEVC))所定义的标准中以及这些标准的扩展中所描述的那些视频压缩技术)，以更有效地传输和接收数字视频信息。

在对媒体数据进行编码之后，可以对媒体数据进行打包以用于传输或存储。可以将媒体数据组装成符合各种标准(诸如国际标准化组织(ISO)基本媒体文件格式及其扩展，诸如AVC)中的任何标准的媒体文件。

发明内容

整体而言，本公开描述了用于例如在两个客户端设备之间通过现有通信会话发起增强现实(AR)会话的技术。现有通信会话可以是语音呼叫或视频呼叫。即，客户端设备可以在实时通信会话期间交换AR数据。具体地，客户端设备可以通过参与语音或视频呼叫来开始。在发起语音或视频呼叫之后，两个客户端设备中的一个客户端设备可发起与另一客户端设备的AR会话。除了现有通信会话的原始语音和/或视频数据之外或者作为现有通信会话的原始语音和/或视频数据的替代，客户端设备然后可以交换AR数据。

在一个示例中，一种传输增强现实(AR)媒体数据的方法包括由第一客户端设备参与与第二客户端设备的语音呼叫会话；由第一客户端设备从第二客户端设备接收指示除了语音呼叫会话之外还将发起增强现实(AR)会话的数据；由第一客户端设备接收用于发起AR会话的数据；以及由第一客户端设备使用用于发起AR会话的数据来参与与第二客户端设备的AR会话。

在另一个示例中，一种用于传输增强现实(AR)媒体数据的第一客户端设备包括：存储器，该存储器被配置为存储包括语音数据和增强现实(AR)数据的媒体数据；以及一个或多个处理器，该一个或多个处理器在电路中实现并且被配置为：参与与第二客户端设备的语音呼叫会话；从第二客户端设备接收指示除了语音呼叫会话之外还将发起AR会话的数据；接收用于发起AR会话的数据；以及使用用于发起AR会话的数据来参与与第二客户端设备的AR会话。

在另一个示例中，一种计算机可读存储介质在其上存储有指令，该指令在被执行时使第一客户端设备的处理器：参与与第二客户端设备的语音呼叫会话；从第二客户端设备接收指示除了语音呼叫会话之外还将发起增强现实(AR)会话的数据；接收用于发起AR会话的数据；以及使用用于发起AR会话的数据来参与与第二客户端设备的AR会话。

在另一个示例中，一种用于传输增强现实(AR)媒体数据的第一客户端设备包括用于参与与第二客户端设备的二维(2D)多媒体通信会话呼叫的装置；用于从第二客户端设备接收指示2D多媒体通信会话呼叫将被升级到增强现实(AR)会话的数据的装置；以及用于在接收到对于AR会话的场景描述之后参与与第二客户端设备的AR会话的装置。

在附图和以下描述中阐述一个或多个示例的细节。通过这些描述和附图，以及通过权利要求书，其他特征、对象和优点将是显而易见的。

附图说明

图1是示出了实现用于通过网络来流式传输媒体数据的技术的示例性系统的框图。

图2是示出了示例性多媒体内容的元素的概念图。

图3是示出了示例性视频文件的元素的框图。

图4是示出了可被配置为执行本公开的技术的示例性系统的框图。

图5是示出了可被配置为执行本公开的技术的示例性客户端设备的框图。

图6是示出了根据本公开的技术的用于设置通信会话并将通信会话升级到AR应用的示例性方法的呼叫流程图。

图7是示出了根据本公开的技术的用于将增强现实(AR)会话添加到现有语音呼叫并且参与AR会话和语音呼叫的示例性方法的流程图。

具体实施方式

整体而言，本公开描述了用于例如在两个客户端设备之间通过多媒体通信会话发起增强现实(AR)会话的技术。即，客户端设备可以在实时通信会话期间交换AR数据。尽管主要关于增强现实进行描述，但本公开的技术还可涉及真实世界和/或虚拟媒体数据的任何组合，例如，扩展现实(XR)或混合现实(MR)。

各种核心用例可具有与实时通信相关的方面。下表1汇总了此类用例的示例：

表1

3	实时3D通信
		5	利用AR的警察关键任务
7	与店员的实时通信
		8	360度会议
9	XR会议
		11	AR动画头像呼叫
12	AR头像多方呼叫
		13	前置相机视频多方呼叫
16	AR远程协作
		19	AR会议

这些用例涉及某种形式的实时通信，但遵循从应用调用到开始AR体验的不同过程。一些用例从规则2D通信(例如，呼叫或聊天)开始，并且升级到AR体验，其他用例作为完全成熟的扩展现实(XR)体验开始。用例的范围可以从无实时3D资产交换(即，仅预存储的3D资产)到实时捕获/重建的3D资产的大量交换。因此，使用足够灵活以适应不同用例的过程和呼叫流程是重要的。

以下设计原理可用于解决用例的具有实时方面的需要。一个设计原理是提供与渲染功能分离的递送功能。这样的分离可以确保渲染功能独立于将被渲染的资产如何被递送来操作，只要资产可及时用于渲染。另一设计原理是允许AR和2D体验之间的灵活切换。即，如果应用期望的话，应当可以在AR体验与2D体验之间切换。用于两种体验的媒体组件集可以重叠也可以不重叠。又一设计原理是提供对象和组件的灵活添加和/或移除。另一设计原理是提供对静态和实时2D和3D组件两者的支持。

本公开认识到用于实现集成IP多媒体子系统(IMS)上的多媒体电话(MTSI)呼叫和AR体验的以下三个选项。第一选项是通过单个应用(即MTSI应用)来提供完整的体验。MTSI应用可被增强以支持AR体验。所有会话控制和媒体可通过IMS核心进行交换。该第一选项的优点在于，应用是自给式的并且将从IMS核心接收支持。然而，缺点在于其灵活性小得多(因为与过顶(OTT)应用相比，其限制了应用创新)，需要运营商支持/背书，并且需要对MTSI规范的显著扩展。

第二选项是MTSI客户端被嵌入并用作AR应用中的库。起始点因此总是AR应用，这在需要的基础上建立IMS呼叫。该第二选项的优点在于IMS客户端限于基于IMS的媒体的传输。所有渲染然后将由AR应用控制。AR应用可以调用其他传输信道来交换用于AR体验的必要媒体。这要求MTSI客户端作为库组件可供应用开发者使用。它还需要MTSI客户端将对经处理的IMS媒体的控制让渡给AR应用以进行合成和渲染。

第三选项是MTSI客户端和AR应用是两个单独的独立应用。MTSI客户端可以触发AR应用以提供AR体验。AR应用可以终止以回退到规则MTSI呼叫。该第三选项的优点在于，将需要对MTSI应用的最小改变或不需要改变。AR应用可负责渲染所有AR相关媒体，并且MTSI客户端可限于仅渲染语音。AR应用可以利用诸如WebRTC之类的顶级内容和传输机制，而不影响IMS核心。该第三选项的可能变化将允许AR应用控制MTSI应用的输出以进行合成和渲染。

本公开描述基于用于在对话和交互式情形中启用AR的第三选项的详细示例。

在HTTP流式传输中，频繁使用的操作包括HEAD、GET和部分GET。HEAD操作获取与给定的统一资源定位符(URL)或统一资源名称(URN)相关联的文件的报头，而不获取与URL或URN相关联的有效载荷。GET操作获取与给定的URL或URN相关联的整个文件。部分GET操作接收字节范围作为输入参数并且获取文件的连续数量的字节，其中，字节数量对应于所接收的字节范围。因此，可以提供电影片段用于HTTP流式传输，这是因为部分GET操作可以取得一个或多个单独的电影片段。在电影片段中，可以存在不同轨道的若干个轨道片段。在HTTP流式传输中，媒体呈现可以是客户端可访问的结构化数据集合。客户端可以请求并下载媒体数据信息，以向用户提供流式传输服务。

在使用HTTP流式传输来流式传输3GPP数据的示例中，可能存在针对多媒体内容的视频和/或音频数据的多个表示。如下面说明的，不同的表示可以对应于不同的编码特性(例如，不同的视频编码标准简档或层级)、不同的编码标准或编码标准的扩展(诸如多视图和/或可缩放扩展)或者不同的比特速率。可以在媒体呈现描述(MPD)数据结构中定义这种表示的清单。媒体呈现可以对应于HTTP流式传输客户端设备可访问的结构化数据集合。HTTP流式传输客户端设备可以请求并下载媒体数据信息，以向客户端设备的用户提供流式传输服务。可以在MPD数据结构(其可以包括MPD的更新)中描述媒体呈现。

媒体呈现可以包含一个或多个周期的序列。每个周期可以扩展，直到下一周期的开始为止，或者在最后一个周期的情况下，直到媒体呈现的结束为止。每个周期可以包含针对相同媒体内容的一个或多个表示。表示可以是音频、视频、定时文本或其他此类数据的数个替代的经编码版本中的一个版本。表示可以依据编码类型(例如，比特速率、分辨率、和/或针对视频数据和比特速率的编解码器、语言、和/或针对音频数据的编解码器)而不同。术语表示可以用于指代经编码的音频或视频数据的对应于多媒体内容的特定周期并以特定方式编码的部分。

特定周期的表示可以分配给MPD中的属性(其指示表示所属的适配集)所指示的群组。相同适配集中的表示通常被视为彼此的替代，因为客户端设备可以动态地并且无缝地在这些表示之间切换，例如，以便执行带宽适配。例如，针对特定周期的视频数据的每个表示可以分配给相同的适配集，使得表示中的任何表示可以被选择用于解码，以呈现针对相应周期的多媒体内容的媒体数据(诸如视频数据或音频数据)。一个周期内的媒体内容可以由来自群组0的一个表示(如果存在的话)来表示，或者在一些示例中，由来自每个非零群组的最多一个表示的组合来表示。可以相对于周期的开始时间来表达针对周期的每个表示的定时数据。

表示可以包括一个或多个区段。每个表示可以包括初始化区段，或者表示的每个区段可以是自初始化的。当存在初始化区段时，其可以包含用于访问表示的初始化信息。通常，初始化区段不包含媒体数据。可以用标识符(诸如统一资源定位符(URL)、统一资源名称(URN)或统一资源标识符(URI))来唯一地引用区段。MPD可以提供针对每个区段的标识符。在一些示例中，MPD还可以以范围属性的形式来提供字节范围，其可以与针对能够由URL、URN或URI访问的文件内的区段的数据相对应。

可以选择不同的表示以用于基本上同时获取不同类型的媒体数据。例如，客户端设备可以选择从中获取区段的音频表示、视频表示以及定时文本表示。在一些示例中，客户端设备可以选择特定的适配集以用于执行带宽适配。即，客户端设备可以选择包括视频表示的适配集、包括音频表示的适配集、和/或包括定时文本的适配集。另选地，客户端设备可以选择针对某些类型的媒体(例如，视频)的适配集，并且直接地选择针对其他类型的媒体(例如，音频和/或定时文本)的表示。

图1是示出了实现用于通过网络来流式传输媒体数据的技术的示例性系统10的框图。在该示例中，系统10包括内容准备设备20、服务器设备60和客户端设备40。客户端设备40和服务器设备60通过网络74通信地联接，该网络可包括互联网。在一些示例中，内容准备设备20和服务器设备60还可通过网络74或另一网络联接，或者可直接通信地联接。在一些示例中，内容准备设备20和服务器设备60可以包括相同的设备。

在图1的示例中，内容准备设备20包括音频源22和视频源24。音频源22可包括例如麦克风，该麦克风产生电信号，该电信号表示所捕获的将由音频编码器26编码的音频数据。另选地，音频源22可以包括：存储介质，该存储介质存储先前记录的音频数据；音频数据生成器，诸如计算机化的合成器；或者任何其他的音频数据源。视频源24可以包括：视频相机，该视频相机产生将由视频编码器28编码的视频数据；编码有先前记录的视频数据的存储介质；视频数据生成单元，诸如计算机图形源；或者任何其他的视频数据源。内容准备设备20不一定在所有的例子中都通信地联接到服务器设备60，但是可以将多媒体内容存储到由服务器设备60读取的单独介质。

原始音频和视频数据可以包括模拟或数字数据。可以在由音频编码器26和/或视频编码器28对模拟数据进行编码之前对其进行数字化。当说话参与者正在说话时，音频源22可以从该说话参与者获得音频数据，并且视频源24可以同时获得该说话参与者的视频数据。在其他示例中，音频源22可以包括包含所存储的音频数据的计算机可读存储介质，并且视频源24可以包括包含所存储的视频数据的计算机可读存储介质。以此方式，本公开中所描述的技术可以应用于实况的、流式传输的、实时的音频和视频数据，或者应用于经存档的、预先记录的音频和视频数据。

与视频帧相对应的音频帧通常是包含音频数据的音频帧，其中该音频数据是由音频源22与包含在视频帧内的由视频源24捕获(或生成)的视频数据同时捕获(或生成)的。例如，当说话参与者通常通过说话来产生音频数据时，音频源22捕获音频数据，并且视频源24同时(即，当音频源22正在捕获音频数据时)捕获说话参与者的视频数据。因此，音频帧可以在时间上对应于一个或多个特定的视频帧。因此，与视频帧相对应的音频帧通常对应于以下情形：在该情形中，同时捕获音频数据和视频数据，并且对于该情形，音频帧和视频帧分别包括同时捕获的音频数据和视频数据。

在一些示例中，音频编码器26可以将时间戳编码到每个经编码的音频帧中，其中该时间戳表示用于经编码的音频帧的音频数据被记录的时间，并且类似地，视频编码器28可以将时间戳编码到每个经编码的视频帧中，其中该时间戳表示用于经编码的视频帧的视频数据被记录的时间。在此类示例中，与视频帧相对应的音频帧可以包括：包括时间戳的音频帧，以及包括相同时间戳的视频帧。内容准备设备20可以包括内部时钟，其中音频编码器26和/或视频编码器28可以根据该内部时钟来生成时间戳，或者音频源22和视频源24可以使用该内部时钟来分别将音频和视频数据与时间戳相关联。

在一些示例中，音频源22可以向音频编码器26发送与音频数据被记录的时间相对应的数据，并且视频源24可以向视频编码器28发送与视频数据被记录的时间相对应的数据。在一些示例中，音频编码器26可以将序列标识符编码到经编码的音频数据中，以指示经编码的音频数据的相对时间排序，而不必指示音频数据被记录的绝对时间，并且类似地，视频编码器28也可以使用序列标识符来指示经编码的视频数据的相对时间排序。类似地，在一些示例中，序列标识符可以被映射或者以其他方式与时间戳相关。

音频编码器26通常产生经编码的音频数据流，而视频编码器28产生经编码的视频数据流。每个单独的数据流(无论是音频还是视频)可以被称为基本流。基本流是表示的单个的、经数字编码(可能经压缩)的分量。例如，表示的经编码的视频或音频部分可以是基本流。基本流可以在被封装到视频文件中之前转换为打包的基本流(PES)。在相同的表示内，可以使用流ID来将属于一个基本流的PES分组与属于其他基本流的PES分组进行区分。基本流的数据的基本单元是打包的基本流(PES)分组。因此，经编码视频数据通常对应于基本视频流。类似地，音频数据对应于一个或多个相应的基本流。

许多视频编码标准(诸如ITU-T H.264/AVC、高效视频编码(HEVC)标准或多功能视频编码(VVC)标准)定义了针对无错误比特流的语法、语义和解码过程，其中任何一项符合某个简档或层级。视频编码标准通常不指定编码器，但是编码器的任务是保证所生成的比特流对于解码器来说是符合标准的。在视频编码标准的上下文中，“简档”与算法、特征或工具以及施加到算法、特征或工具的约束的子集相对应。如由H.264标准定义的，例如，“简档”是由H.264标准指定的整个比特流语法的子集。“层级”对应于诸如解码器存储器和计算之类的解码器资源消耗的限制，这些限制与图片的分辨率、比特速率以及块处理速率相关。可以利用profile_idc(简档指示符)值来用信号发送简档，同时可以利用level_idc(层级指示符)值来用信号发送层级。

例如，H.264标准认识到，在由给定简档的语法强加的界限内，取决于比特流中的语法元素所取的值(诸如，经解码的图片的指定大小)，仍然可能要求编码器和解码器的性能的大变化。H.264标准进一步认识到，在许多应用中，实现能够处理特定简档内的语法的所有假设使用的解码器既不实际也不经济。因此，H.264标准将“层级”定义为强加在比特流中的语法元素的值上的指定约束集合。这些约束可以是对值的简单限制。另选地，这些约束可以采取对值的算术组合(例如，图片宽度乘以图片高度乘以每秒解码的图片数量)的约束的形式。H.264标准还提供的是，单独的实现方式可以针对每个所支持的简档支持不同的层级。

符合简档的解码器通常支持该简档中所定义的所有特征。例如，作为编码特征，B图片编码在H.264/AVC的基线简档中未得到支持，但是在H.264/AVC的其他简档中得到支持。符合层级的解码器应当能够解码不需要超出该层级中定义的限制的资源的任何比特流。简档和层级的定义可以有助于可解释性。例如，在视频传输期间，可以针对整个传输会话来协商和同意一对简档和层级定义。更具体地，在H.264/AVC中，层级可以定义对以下各项的限制：需要处理的宏块数量，经解码图片缓冲器(DPB)大小，经编码图片缓冲器(CPB)大小，垂直运动向量范围，每两个连续MB的运动向量的最大数量，以及B块是否可以具有小于8×8像素的子宏块划分。以此方式，解码器可以确定该解码器是否能够恰当地解码比特流。

在图1的示例中，内容准备设备20的封装单元30从视频编码器28接收包括经编码的视频数据的基本流，并且从音频编码器26接收包括经编码的音频数据的基本流。在一些示例中，视频编码器28和音频编码器26均可以包括打包器(packetizer)，以用于根据经编码的数据来形成PES分组。在其他示例中，视频编码器28和音频编码器26均可以与用于根据经编码的数据来形成PES分组的相应打包器对接。在其他示例中，封装单元30可以包括打包器，以用于根据经编码的音频和视频数据来形成PES分组。

视频编码器28可以以各种方式来对多媒体内容的视频数据进行编码，以在各种比特速率下并且利用各种特性(诸如，像素分辨率、帧速率、对各种编码标准的符合性、对用于各种编码标准的各种简档和/或简档层级的符合性、具有一个或多个视图的表示(例如，针对二维或三维回放)，或其他此类特性)来产生多媒体内容的不同表示。如本公开中所使用的，表示可以包括以下各项中的一项：音频数据、视频数据、文本数据(例如，用于隐藏式字幕)，或者其他此类数据。表示可以包括基本流，诸如音频基本流或视频基本流。每个PES分组可以包括stream_id，其标识该PES分组所属的基本流。封装单元30负责将基本流组装成各种表示的视频文件(例如，区段)。

封装单元30从音频编码器26和视频编码器28接收用于表示的基本流的PES分组，并且根据PES分组来形成相应的网络抽象层(NAL)单元。经编码视频区段可组织成NAL单元，该NAL单元提供寻址诸如视频电话、存储、广播或流式传输等应用的“网络友好的”视频表示。NAL单元可以分类为视频编码层(VCL)NAL单元和非VCL NAL单元。VCL单元可以包含核心压缩引擎并且可以包括块、宏块和/或切片层级数据。其他NAL单元可以是非VCL NAL单元。在一些示例中，一个时间实例中的经编码图片(通常呈现为主要经编码图片)可以包含在访问单元中，其中访问单元可以包括一个或多个NAL单元。

非VCL NAL单元可以包括参数集NAL单元和SEI NAL单元等等。参数集可以包含序列层级报头信息(在序列参数集(SPS)中)以及很少改变的图片层级报头信息(在图片参数集(PPS)中)。利用参数集(例如，PPS和SPS)，不需要针对每个序列或图片重复很少改变的信息；因此，可以提高编码效率。此外，参数集的使用可以实现重要报头信息的带外传输，从而避免了需要针对错误复原而进行冗余传输。在带外传输的示例中，可以在与其他NAL单元(诸如，SEI NAL单元)不同的频道上发送参数集NAL单元。

补充增强信息(SEI)可以包含对于解码来自VCL NAL单元的经编码图片样本来说不是必要的但是可以辅助与解码、显示、错误恢复以及其他目的相关的过程的信息。SEI消息可以包含在非VCL NAL单元中。SEI消息是一些标准规范的规范性部分，并且因此对于符合标准的解码器实现方式来说并非总是强制的。SEI消息可以是序列层级SEI消息或图片层级SEI消息。一些序列层级信息可以包含在SEI消息中，诸如，在SVC的示例中的可缩放信息SEI消息，以及在MVC中的视图可缩放信息SEI消息。这些示例性的SEI消息可以传送关于例如操作点的提取和操作点的特性的信息。另外，封装单元30可以形成清单文件，诸如，对表示的特性进行描述的MPD。封装单元30可以根据可扩展标记语言(XML)来格式化MPD。

封装单元30可以将用于多媒体内容的一个或多个表示的数据连同清单文件(例如，MPD)提供给输出接口32。输出接口32可以包括网络接口或者用于向存储介质写入的接口，诸如，通用串行总线(USB)接口、CD或DVD写入器或烧录器、到磁性或闪速存储介质的接口、或者用于存储或发送媒体数据的其他接口。封装单元30可以将多媒体内容的表示中的每个表示的数据提供给输出接口32，其中该输出接口可以经由网络传输或存储介质来将数据发送给服务器设备60。在图1的示例中，服务器设备60包括存储各种多媒体内容64的存储介质62，其中每个多媒体内容包括相应的清单文件66以及一个或多个表示68A-68N(表示68)。在一些示例中，输出接口32还可以将数据直接发送给网络74。

在一些示例中，表示68可以被分离成适配集。即，表示68的各个子集可以包括相应的共同特性集合，诸如，编解码器、简档和层级、分辨率、视图数量、区段的文件格式、文本类型信息(其可以对要利用表示来显示的文本和/或要由例如说话者解码并呈现的音频数据的语言或其他特性进行标识)、相机角度信息(其可以描述针对适配集中的表示的场景的相机角度或真实世界相机视角)、描述针对特定观众的内容合适性的分级信息等。

清单文件66可以包括对与特定适配集相对应的表示68的子集以及针对适配集的共同特性进行指示的数据。清单文件66还可以包括对针对适配集的单独表示的单独特性(诸如，比特速率)进行表示的数据。以此方式，适配集可以提供简化的网络带宽适配。可以使用清单文件66的适配集元素的子元素来指示适配集中的表示。

服务器设备60包括请求处理单元70和网络接口72。在一些示例中，服务器设备60可以包括多个网络接口。此外，服务器设备60的任何或所有特征可在内容递送网络的其他设备(诸如路由器、桥接器、代理设备、交换机或其他设备)上实现。在一些示例中，内容递送网络的中间设备可以高速缓存多媒体内容64的数据，并且包括大体上符合服务器设备60的组件的组件。通常，网络接口72被配置为经由网络74来发送和接收数据。

请求处理单元70被配置为从客户端设备(诸如客户端设备40)接收针对存储介质62的数据的网络请求。例如，请求处理单元70可以实现超文本传输协议(HTTP)版本1.1，如R.Fielding等人在RFC 2616,“Hypertext Transfer Protocol–HTTP/1.1,”，网络工作组，IETF,1999年6月中所述。即，请求处理单元70可以被配置为接收HTTP GET或部分GET请求并且响应于该请求而提供多媒体内容64的数据。该请求可例如使用区段的URL来指定表示68中的一者的区段。在一些示例中，请求还可以指定区段的一个或多个字节范围，因此包括部分GET请求。请求处理单元70还可以被配置为对HTTP HEAD请求进行服务，以提供表示68中的一个表示的区段的报头数据。在任何情况下，请求处理单元70可以被配置为对请求进行处理，以向请求设备(诸如，客户端设备40)提供所请求的数据。

附加地或另选地，请求处理单元70可以被配置为经由广播或多播协议(诸如，eMBMS)来传递媒体数据。内容准备设备20可以以与所描述的方式大体上相同的方式来创建DASH区段和/或子区段，但是服务器设备60可以使用eMBMS或另一个广播或多播网络传输协议来传递这些区段或子区段。例如，请求处理单元70可以被配置为从客户端设备40接收多播群组加入请求。即，服务器设备60可向与特定媒体内容(例如，实况事件的广播)相关联的客户端设备(包括客户端设备40)通告与多播群组相关联的互联网协议(IP)地址。客户端设备40转而可以提交加入多播群组的请求。可以在整个网络74(例如，构成网络74的路由器)上传播该请求，使得促使路由器将以关联于多播群组的IP地址为目的地的业务引导到订阅客户端设备(诸如客户端设备40)。

如图1的示例中所示出的，多媒体内容64包括清单文件66，该清单文件可以对应于媒体呈现描述(MPD)。清单文件66可以包含对不同的替代表示68(例如，具有不同质量的视频服务)的描述，并且该描述可以包括例如编解码器信息、简档值、层级值、比特速率以及表示68的其他描述性特性。客户端设备40可以获取媒体呈现的MPD，以确定如何访问表示68的区段。

具体地，获取单元52可以获取客户端设备40的配置数据(未示出)，以确定视频解码器48的解码能力和视频输出44的渲染能力。配置数据还可以包括以下各项中的任一项或所有项：客户端设备40的用户所选择的语言偏好、与客户端设备40的用户所设置的深度偏好相对应的一个或多个相机视角、和/或客户端设备40的用户所选择的分级偏好。获取单元52可以包括例如被配置为提交HTTP GET和部分GET请求的web浏览器或媒体客户端。获取单元52可以与客户端设备40的一个或多个处理器或处理单元(未示出)所执行的软件指令相对应。在一些示例中，可以在硬件、或者硬件、软件、和/或固件的组合中实现针对获取单元52所描述的功能中的全部或部分功能，其中，可以提供必要的硬件来执行针对软件或固件的指令。

获取单元52可以将客户端设备40的解码和渲染能力与清单文件66的信息所指示的表示68的特性进行比较。获取单元52可以初始地获取清单文件66的至少一部分以确定表示68的特性。例如，获取单元52可以请求清单文件66的描述一个或多个适配集的特性的部分。获取单元52可选择具有可由客户端设备40的编码和渲染能力满足的特性的表示68的子集(例如，适配集)。获取单元52然后可以确定针对适配集中的表示的比特速率，确定当前可用的网络带宽量，以及从具有网络带宽能够满足的比特速率的表示中的一个表示中获取区段。

通常，较高比特速率的表示可以产生较高质量的视频回放，而当可用的网络带宽减小时，较低比特速率的表示可以提供足够质量的视频回放。因此，当可用的网络带宽相对高时，获取单元52可以从相对高的比特速率的表示中获取数据，而当可用的网络带宽低时，获取单元52可以从相对低的比特速率的表示中获取数据。以此方式，客户端设备40可以通过网络74来流式传输多媒体数据，同时也适应网络74的变化的网络带宽可用性。

附加地或另选地，获取单元52可以被配置为接收根据广播或多播网络协议(诸如，eMBMS或IP多播)的数据。在此类示例中，获取单元52可以提交加入与特定媒体内容相关联的多播网络群组的请求。在加入多播群组之后，获取单元52可以接收多播群组的数据而无需向服务器设备60或内容准备设备20发出进一步的请求。当不再需要多播群组的数据时，获取单元52可以提交离开多播群组的请求，例如，以便停止回放或将频道改变到不同的多播群组。

网络接口54可以接收所选择的表示的区段的数据并将该数据提供给获取单元52，该获取单元转而可以将区段提供给解封装单元50。解封装单元50可以将视频文件的元素解封装为组成PES流，对PES流进行解包以获取经编码的数据，以及将经编码的数据发送给音频解码器46或视频解码器48，这取决于经编码的数据是音频流还是视频流的一部分(例如，如流的PES分组报头所指示的)。音频解码器46对经编码的音频数据进行解码并将经解码的音频数据发送给音频输出42，而视频解码器48对经编码的视频数据进行解码并将经解码的视频数据(其可以包括流的多个视图)发送给视频输出44。

视频编码器28、视频解码器48、音频编码器26、音频解码器46、封装单元30、获取单元52以及解封装单元50均可以视适用情况实现为各种适当的处理电路中的任何处理电路，诸如，一个或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、分立逻辑电路、软件、硬件、固件或者它们的任何组合。视频编码器28和视频解码器48中的每一者都可以包括在一个或多个编码器或解码器中，该视频编码器和该视频解码器中的任一者可以集成为组合的视频编码器/解码器(CODEC)的一部分。同样，音频编码器26和音频解码器46中的每一者都可以包括在一个或多个编码器或解码器中，该音频编码器和该音频解码器中的任一者可以集成为组合的CODEC的一部分。包括视频编码器28、视频解码器48、音频编码器26、音频解码器46、封装单元30、获取单元52和/或解封装单元50的装置可包括集成电路、微处理器和/或无线通信设备，诸如蜂窝电话。

客户端设备40、服务器设备60和/或内容准备设备20可以被配置为根据本公开的技术来进行操作。出于举例的目的，本公开针对客户端设备40和服务器设备60来描述这些技术。但是，应当理解的是，作为服务器设备60的替代或者除服务器设备60之外，内容准备设备20也可以被配置为执行这些技术。

封装单元30可以形成NAL单元，该NAL单元包括标识NAL单元所属的节目的报头以及有效载荷，例如音频数据、视频数据或者描述NAL单元所对应的传输或程序流的数据。例如，在H.264/AVC中，NAL单元包括1个字节的报头和变化大小的有效载荷。在其有效载荷中包括视频数据的NAL单元可以包括各种粒度水平的视频数据。例如，NAL单元可以包括视频数据块、多个块、视频数据切片或者视频数据的整个图片。封装单元30可以从视频编码器28接收具有基本流的PES分组形式的经编码的视频数据。封装单元30可以将每个基本流与相应的节目相关联。

封装单元30还可以根据多个NAL单元来组装访问单元。通常，访问单元可以包括用于表示视频数据帧的一个或多个NAL单元，以及对应于该帧的音频数据(当该音频数据可用时)。访问单元通常包括针对一个输出时间实例的所有NAL单元，例如，针对一个时间实例的所有音频和视频数据。例如，如果每个视图具有每秒20帧(fps)的帧速率，则每个时间实例可以对应于0.05秒的时间间隔。在该时间间隔期间，可以同时渲染针对相同访问单元(相同时间实例)的所有视图的特定帧。在一个示例中，访问单元可以包括一个时间实例中的经编码图片，其可以被呈现为主要经编码图片。

因此，访问单元可包括共同时间实例的所有音频和视频帧，例如对应于时间X的所有视图。本公开还将特定视图的经编码图片称为“视图分量”。即，视图分量可包括在特定时间用于特定视图的经编码图片(或帧)。因此，访问单元可以定义为包括共同时间实例的所有视图分量。访问单元的解码顺序不必与输出顺序或显示顺序相同。

媒体呈现可以包括媒体呈现描述(MPD)，其可以包含对不同的替代表示(例如，具有不同质量的视频服务)的描述，并且该描述可以包括例如编解码器信息、简档值和层级值。MPD是清单文件(诸如清单文件66)的一个示例。客户端设备40可以获取媒体呈现的MPD，以确定如何访问各种表示的电影片段。电影片段可以位于视频文件的电影片段盒(moof盒)中。

清单文件66(其可以包括例如MPD)可以对表示68的区段的可用性进行通告。即，MPD可以包括对表示68中的一个表示的第一区段变为可用的挂钟时间进行指示的信息，以及对表示68内的区段的持续时间进行指示的信息。以此方式，客户端设备40的获取单元52可以基于在特定区段之前的区段的开始时间以及持续时间来确定每个区段何时可用。

在封装单元30已经基于接收到的数据将NAL单元和/或访问单元组装成视频文件之后，封装单元30将视频文件传递给输出接口32以用于输出。在一些示例中，封装单元30可以本地存储视频文件或者经由输出接口32将视频文件发送给远程服务器，而不是直接地将视频文件发送给客户端设备40。输出接口32可以包括例如发射器、收发器、用于向计算机可读介质(诸如例如，光学驱动器、磁性介质驱动器(例如，软盘驱动器))写入数据的设备、通用串行总线(USB)端口、网络接口或者其他输出接口。输出接口32将视频文件输出到计算机可读介质，诸如例如传输信号、磁性介质、光学介质、存储器、闪速驱动器或者其他计算机可读介质。

网络接口54可以经由网络74来接收NAL单元或访问单元，并且经由获取单元52将NAL单元或访问单元提供给解封装单元50。解封装单元50可以将视频文件的元素解封装为组成PES流，对PES流进行解包以获取经编码的数据，并且将经编码的数据发送给音频解码器46或视频解码器48，这取决于经编码的数据是音频流还是视频流的一部分(例如，如流的PES分组报头所指示的)。音频解码器46对经编码的音频数据进行解码并将经解码的音频数据发送给音频输出42，而视频解码器48对经编码的视频数据进行解码并将经解码的视频数据(其可以包括流的多个视图)发送给视频输出44。

在一些示例中，内容准备设备20和服务器设备60可准备增强现实(AR)内容并将其发送到客户端设备40。客户端设备40可高速缓存AR内容并且在与另一客户端设备的实时通信会话期间使用AR内容，如下文更详细地讨论。

在一些示例中，内容准备设备20和/或服务器设备60也可被配置为客户端设备。即，两个客户端设备可包括内容准备设备20、服务器设备60和客户端设备40中的每一者的元件，并且由此被配置为捕获、编码和传输数据以及接收、解码和呈现数据。根据本公开的技术，两个或更多个用户可使用相应客户端设备来参与语音呼叫或视频呼叫，并且然后将AR会话添加到正在进行的语音或视频呼叫。通常，本公开将包括语音数据的任何通信会话称为“语音呼叫”。因此，语音呼叫可以包括视频呼叫，该视频呼叫还包括语音数据的交换。

图2是示出了示例性多媒体内容120的元素的概念图。多媒体内容120可以与多媒体内容64(图1)或存储在存储介质62中的另一个多媒体内容相对应。在图2的示例中，多媒体内容120包括媒体呈现描述(MPD)122和多个表示124A-124N(表示124)。表示124A包括任选的报头数据126和区段128A-128N(区段128)，而表示124N包括任选的报头数据130和区段132A-132N(区段132)。为了方便起见，使用字母N来标示表示124中的每个表示中的最后一个电影片段。在一些示例中，在表示124之间可能存在不同数量的电影片段。

MPD 122可以包括与表示124分离的数据结构。MPD 122可以对应于图1的清单文件66。同样，表示124可以对应于图1的表示68。通常，MPD 122可以包括通常描述表示124的特性(诸如，编码和渲染特性、适配集、MPD 122所对应的简档、文本类型信息、相机角度信息、分级信息、特技模式信息(例如，对包括时间子序列的表示进行指示的信息)和/或用于获取远程周期的信息(例如，用于在回放期间将目标广告插入到媒体内容中))的数据。

报头数据126(当存在时)可以描述区段128的特性，例如，随机接入点(RAP，还被称为流接入点(SAP))的时间位置，区段128中的哪个区段包括随机接入点，到区段128内的随机接入点的字节偏移，区段128的统一资源定位符(URL)，或者区段128的其他方面。报头数据130(当存在时)可以描述区段132的类似特性。附加地或另选地，此类特性可以完全地包括在MPD 122内。

区段128、132包括一个或多个经编码的视频样本，其中每个视频样本可以包括视频数据帧或切片。区段128的经编码的视频样本中的每个视频样本可以具有类似的特性，例如，高度、宽度以及带宽要求。此类特性可由MPD 122的数据描述，但此类数据未在图2的示例中示出。MPD 122可以包括如由3GPP规范描述的特性，外加本公开中所描述的用信号发送的信息中的任何或所有信息。

区段128、132中的每个区段可以与唯一的统一资源定位符(URL)相关联。因此，可使用流式传输网络协议(诸如DASH)来独立地获取区段128、132中的每个区段。以此方式，目的地设备(诸如客户端设备40)可以使用HTTP GET请求来获取区段128或132。在一些示例中，客户端设备40可以使用HTTP部分GET请求来获取区段128或132的特定字节范围。

图3是示出了示例性视频文件150的元素的框图，该元素可对应于表示的区段，诸如图2的区段128、132中的一者。区段128、132中的每个区段可包括基本上符合图3的示例中所示的数据布置的数据。可以称视频文件150封装了区段。如上所述，根据ISO基本媒体文件格式及其扩展的视频文件将数据存储在被称为“盒”的一系列对象中。在图3的示例中，视频文件150包括文件类型(FTYP)盒152、电影(MOOV)盒154、区段索引(sidx)盒162、电影片段(MOOF)盒164和电影片段随机存取(MFRA)盒166。尽管图3表示视频文件的示例，但应当理解，根据ISO基本媒体文件格式及其扩展，其他媒体文件可包括类似于视频文件150的数据而构造的其他类型的媒体数据(例如，音频数据、定时文本数据等)。

文件类型(FTYP)盒152一般描述视频文件150的文件类型。文件类型盒152可包括标识描述视频文件150的最佳使用的规范的数据。文件类型盒152可以替代地放置在MOOV盒154、电影片段盒164和/或MFRA盒166之前。

在一些示例中，诸如视频文件150之类的区段可以包括FTYP盒152之前的MPD更新盒(未示出)。MPD更新盒可包括指示与包括视频文件150的表示相对应的MPD将被更新的信息以及用于更新MPD的信息。例如，MPD更新盒可以为要用于更新MPD的资源提供URI或URL。作为另一个示例，MPD更新盒可以包括用于更新MPD的数据。在一些示例中，MPD更新盒可以紧跟在视频文件150的区段类型(STYP)盒(未示出)之后，其中STYP盒可以定义视频文件150的区段类型。

在图3的示例中，MOOV盒154包括电影报头(MVHD)盒156、轨道(TRAK)盒158以及一个或多个电影扩展(MVEX)盒160。通常，MVHD盒156可描述视频文件150的一般特性。例如，MVHD盒156可包括描述何时最初创建视频文件150、何时最后修改视频文件150、视频文件150的时标、视频文件150的回放持续时间的数据、或一般地描述视频文件150的其他数据。

TRAK盒158可包括视频文件150的轨道的数据。TRAK盒158可包括轨道报头(TKHD)盒，该TKHD盒描述对应于TRAK盒158的轨道的特性。在一些示例中，TRAK盒158可以包括经编码的视频图片，而在其他示例中，轨道的经编码的视频图片可以被包括在电影片段164中，该电影片段可被TRAK盒158和/或sidx盒162的数据引用。

在一些示例中，视频文件150可以包括多于一个轨道。因此，MOOV盒154可包括数量等于视频文件150中的轨道数量的TRAK盒。TRAK盒158可描述视频文件150的对应轨道的特性。例如，TRAK盒158可描述对应轨道的时间和/或空间信息。当封装单元30(图2)在视频文件(诸如视频文件150)中包括参数集轨道时，类似于MOOV盒154的TRAK盒158的TRAK盒可描述参数集轨道的特性。封装单元30可发信号通知描述参数集轨道的TRAK盒内的参数集轨道中的序列层级SEI消息的存在。

MVEX盒160可描述对应电影片段164的特性，例如以发信号通知视频文件150除了包括在MOOV盒154内的视频数据(如果有的话)之外还包括电影片段164。在流式传输视频数据的上下文中，经编码的视频图片可被包括在电影片段164中而非MOOV盒154中。因此，所有经编码的视频样本可被包括在电影片段164中而非MOOV盒154中。

MOOV盒154可包括数量等于视频文件150中的电影片段164的数量的MVEX盒160。MVEX盒160中的每个MVEX盒可以描述电影片段164中的对应一个电影片段的特性。例如，每个MVEX盒可以包括电影扩展报头盒(MEHD)盒，该MEHD盒描述电影片段164中的对应一个电影片段的时间持续时间。

如上所述，封装单元30可将序列数据集存储在不包含实际经编码视频数据的视频样本中。视频样本可通常对应于存取单元，该存取单元是在特定时间实例处的经编码图片的表示。在AVC的上下文中，经编码图片包括一个或多个VCL NAL单元(其包含用以构造存取单元的所有像素的信息)和其他相关联的非VCL NAL单元(诸如SEI消息)。因此，封装单元30可在电影片段164中的一个电影片段中包括序列数据集，该序列数据集可包括序列层级SEI消息。封装单元30可进一步将序列数据集和/或序列层级SEI消息的存在发信号通知为在与电影片段164中的一个电影片段相对应的MVEX盒160中的一个MVEX盒内存在于电影片段164中的一个电影片段中。

SIDX盒162是视频文件150的任选元素。即，符合3GPP文件格式或其他此类文件格式的视频文件不必包括SIDX盒162。根据3GPP文件格式的示例，可使用SIDX盒来标识区段(例如，包含在视频文件150内的区段)的子区段。3GPP文件格式将子区段定义为“具有对应媒体数据盒和包含由电影片段盒引用的数据的媒体数据盒的一个或多个连续电影片段盒的自给式集合必须跟随该电影片段盒并且在包含关于同一轨道的信息的下一电影片段盒之前”。3GPP文件格式还指示SIDX盒“包含对由该盒记录的(子)区段的子区段的一系列引用。所引用的子区段在呈现时间上是连续的。类似地，由区段索引盒提及的字节在区段内总是连续的。所引用的大小给出了所引用的材料中的字节数的计数。”

SIDX盒162通常提供表示视频文件150中所包括的区段的一个或多个子区段的信息。例如，此类信息可以包括子区段开始和/或结束的回放时间、子区段的字节偏移、子区段是否包括(例如，开始于)流接入点(SAP)、SAP的类型(例如，SAP是否是即时解码器刷新(IDR)图片、干净随机存取(CRA)图片、断开链路存取(BLA)图片等)、SAP在子区段中的位置(在回放时间和/或字节偏移方面)等。

电影片段164可包括一个或多个经编码的视频图片。在一些示例中，电影片段164可包括一个或多个图片群组(GOP)，其中每个GOP可包括数个经编码的视频图片，例如，帧或图片。另外，如上所述，在一些示例中，电影片段164可包括序列数据集。电影片段164中的每个电影片段可包括电影片段报头盒(MFHD，图3中未示出)。MFHD盒可以描述对应电影片段的特性，诸如电影片段的序列号。电影片段164可以按照序列号的顺序被包括在视频文件150中。

MFRA盒166可以描述视频文件150的电影片段164内的随机接入点。这可以帮助执行特技模式，诸如执行对由视频文件150封装的区段内的特定时间位置(即，回放时间)的寻找。在一些示例中，MFRA盒166通常是任选的并且不需要被包括在视频文件中。类似地，客户端设备(诸如客户端设备40)不一定需要参考MFRA盒166来正确地解码和显示视频文件150的视频数据。MFRA盒166可以包括数量等于视频文件150的轨道数量，或者在一些示例中，数量等于视频文件150的媒体轨道(例如，非提示轨道)的数量的轨道片段随机存取(TFRA)盒(未示出)。

在一些示例中，电影片段164可以包括一个或多个流接入点(SAP)，诸如IDR图片。同样，MFRA盒166可以提供SAP的视频文件150内的位置的指示。因此，视频文件150的时间子序列可由视频文件150的SAP形成。时间子序列还可以包括其他图片，诸如依赖于SAP的P帧和/或B帧。时间子序列的帧和/或切片可以被布置在区段内，使得依赖于子序列的其他帧/切片的时间子序列的帧/切片可以被正确地解码。例如，在数据的分层布置中，用于其他数据的预测的数据也可以被包括在时间子序列中。

图4是示出了可被配置为执行本公开的技术的示例性系统180的框图。系统180包括客户端设备182、客户端设备200、数据信道服务器190、数据信道服务器192、代理呼叫会话控制功能(P-CSCF)设备194和P-CSCF设备196。客户端设备182包括增强现实(AR)应用184和多媒体通信客户端186。客户端设备200包括增强现实应用202和多媒体通信客户端204。多媒体通信客户端186、204可以根据常规语音电话和/或IP多媒体子系统(IMS)上的多媒体电话(MTSI)进行操作。通常，多媒体通信客户端186、204可分别使增强现实应用184、202参与增强现实会话126。

通常，客户端设备182、200最初可参与语音呼叫诸如MTSI呼叫。在某一时刻，在不失一般性的情况下，客户端设备182(例如)可以请求发起AR会话206。客户端设备182可以向DCS192发送发起AR会话206的请求。DCS192可以向客户端设备200提供发起AR会话206的触发数据。因此，客户端设备200可以从DCS192接收指示AR会话206将被添加到语音呼叫的数据。客户端设备200还可以接收发起AR会话206的数据，诸如场景描述。在发起AR会话206之后，客户端设备182和客户端设备200可以与参与原始语音呼叫(例如，MTSI呼叫)一起参与AR会话206。

为了使得能够从规则呼叫(例如，多媒体通信客户端186、204之间的语音呼叫或MTSI呼叫)启动增强现实(AR)应用，多媒体通信客户端186、204可以执行引导过程。在该引导过程中，多媒体通信客户端186、204可接收具有入口点的触发或到AR应用184、202中的对应一者的入口点的URL。多媒体通信客户端186、204可将入口点或到入口点的URL传递到AR应用184、202中的相应一者。这允许应用以常规呼叫开始并且然后例如基于来自参与者中的一个参与者或来自应用服务器的动作触发升级以添加AR会话206的情形。

可以要求有资格升级到AR会话206的呼叫建立控制连接，这些呼叫将通过该控制连接发送和接收用于开始AR会话206的触发。该信道可为由数据信道服务器(DCS)(例如，数据信道服务器190、192中的一者)提供的IMS数据信道。DCS190、192可以单独或基于来自远程参与者中的一个远程参与者(例如，客户端设备182、200的用户)的输入来触发对AR应用的升级。

触发可以包含用于AR应用的入口点，该入口点可以是场景描述的形式。可以使用所支持的子协议来提供场景描述或到场景描述的URL。

数据信道服务器190、192可以是本地数据信道服务器或远程数据信道服务器。

图5是示出了可被配置为执行本公开的技术的示例性客户端设备210的框图。在该示例中，客户端设备210包括5G/LTE通信单元224、处理单元226和存储器228。处理单元226可包括在电路中实现的一个或多个处理单元，该电路诸如一个或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、分立逻辑电路或者它们的组合。

存储器228可存储所获取的媒体数据(例如，AR数据)和用于由处理单元226执行的各种应用的指令。存储器228可以存储用于操作系统222、增强现实应用212、多媒体通信客户端214、过顶(OTT)协议216、DC/SCTP 218和IMS协议220的指令。OTT协议216可以包括例如WebRTC、HTTP等。IMS协议220可包括例如会话发起协议(SIP)、实时传输协议(RTP)、RTP控制协议(RTCP)等。

操作系统222可提供应用执行环境，其中图5中所示的各种其他应用可由处理单元226执行。增强现实应用212可在OTT协议216上执行。即，用于增强现实应用212的AR数据可经由OTT协议216交换。类似地，多媒体通信客户端214可以在DC/SCTP 218和IMS协议220上执行。由多媒体通信客户端214发送和接收的通信数据可以经由DC/SCTP 218和IMS协议220交换。在一些示例中，多媒体通信客户端214可以是MTSI应用。以此方式，图5描绘了由客户端设备210执行的AR应用的应用堆栈。

客户端设备210还可以被称为用户装备或“UE”。图4的客户端设备182、200可以包括与客户端设备210的那些组件相同或相似的组件。类似地，图1的客户端设备40可以包括与客户端设备210的那些组件相同或相似的组件。

图6是示出了根据本公开的技术的用于设置通信会话并将通信会话升级到AR应用的示例性方法的呼叫流程图。关于图5的客户端设备210来解释图6的方法。然而，诸如图1的客户端设备40或图4的客户端设备182、200之类的其他设备也可被配置为执行该方法或类似方法。

最初，客户端设备210(其还可被称为第一UE设备或如图6所示的“UE1”)的多媒体通信客户端214(表示MTSI客户端的示例)可发起与第二客户端设备(如图6所示的“UE2”)的语音呼叫或多媒体通信会话(250)。该发起可包括经由P-CSCF设备(例如，P-CSCF设备194、196中的一者)与第二客户端设备建立呼叫，该P-CSCF设备邀请第二客户端设备加入呼叫(252)，以及建立呼叫。UE1然后可参与与UE2的语音呼叫(254)。语音呼叫可以是仅语音呼叫或者除了语音数据之外还包括视频数据的多媒体呼叫。

在语音呼叫期间的某一时刻，第二客户端设备(UE2)可以向数据信道服务器(例如，图4的数据信道服务器190、192中的一者)发送数据，该数据指示将呼叫升级到AR体验的意图(256)。数据信道服务器可向UE1的多媒体通信客户端214发送触发对AR体验的升级的数据(258)。触发对AR会话的升级的数据可包括作为入口点的场景描述。UE1的多媒体通信客户端214可将作为入口点的场景描述发送到该UE1的增强现实应用212。增强现实应用212然后可以使用场景描述来设置AR场景(260)。

客户端设备210然后可以设置过顶(OTT)媒体流。具体地，UE1的AR场景管理器可以解析场景描述并且利用客户端设备210的移动性管理实体(MME)应用功能(MAF)来配置媒体流。然后，客户端设备210的MAF可以为具有5G媒体下行链路流式传输应用功能(5GMSd AF)的AR会话206配置服务质量(QoS)(262)。客户端设备210的MAF和5G媒体流式传输应用服务器(5GMS AS/MRF)然后可建立一个或多个传输会话(264)。客户端设备210的MAF可以进一步配置媒体流水线，例如用于缓冲所接收的数据并解码所接收的数据的缓冲器和解码器。

客户端设备210(UE1)然后可以参与与UE2的AR会话(266)。例如，客户端设备210可以在AR会话期间取回并渲染媒体数据。例如，客户端设备210的MAF可以从5GMS AS/MRF接收沉浸式媒体数据(例如，AR数据)。客户端设备210然后可以对AR媒体数据进行解码和处理，并且将AR媒体数据传递到AR/MR场景管理器。同样，多媒体通信客户端214还可以将经解码的媒体数据(例如，经由MTSI交换的2D媒体数据)传递给AR/MR场景管理器。AR/MR场景管理器可以根据经解码的AR媒体数据和2D媒体数据来组成和渲染最终图像，并且将这些图像传递到显示器以呈现给用户。

以此方式，图6的方法表示传输增强现实(AR)媒体数据的方法的示例，该方法包括：由第一客户端设备参与与第二客户端设备的语音呼叫会话；由第一客户端设备从第二客户端设备接收指示除了语音呼叫会话之外还将发起增强现实(AR)会话的数据；由第一客户端设备接收用于发起AR会话的数据；以及由第一客户端设备使用用于发起AR会话的数据来参与与第二客户端设备的AR会话。

图7是示出了根据本公开的技术的用于将增强现实(AR)会话添加到现有语音呼叫并且参与AR会话和语音呼叫的示例性方法的流程图。出于示例和解释的目的，关于图5的客户端设备210来解释图7的方法。然而，图1的客户端设备40和图4的客户端设备182、200也可以被配置为执行图7的方法。

最初，客户端设备210可以参与语音呼叫(300)。语音呼叫可以是多媒体呼叫，例如视频呼叫，或者仅语音呼叫。最初，多媒体通信客户端214(例如，MTSI客户端)可以例如经由代理呼叫会话控制功能(P-CSCF)设备与第二客户端设备建立语音呼叫。客户端设备210可以经由语音呼叫与第二客户端设备一起发送和接收语音(以及在一些情况下，视频)数据。

在某一时刻，客户端设备210可以接收触发数据，该触发数据可以包括入口点和场景描述(302)。场景描述可以将AR场景描述为分层结构，可以以包括顶点和边的曲线图的形式来表示该分层结构。曲线图的顶点(节点)可表示各种类型的对象，诸如音频、图像、视频、图形或文本对象。某些顶点可具有由边连接的子顶点，该子顶点描述父顶点的参数。一些顶点可表示用于检测用户的交互以触发其他动作(诸如通过AR场景的动画和移动)的传感器。客户端设备210可以使用场景描述来设置AR场景(304)。例如，AR应用212可以在AR场景中的适当位置处呈现AR对象，如场景描述所指示的。

客户端设备210可以进一步为AR会话配置媒体流(306)。例如，AR场景管理器可以利用客户端设备210的一个或多个媒体访问功能(MAF)来配置媒体流。然后，MAF可以为具有5G媒体下行链路流式传输应用功能(5GMSd AF)的AR会话配置服务质量(QoS)(308)。客户端设备210的MAF然后可以与5GMS应用服务器(AS)建立一个或多个传输会话(310)，并且配置媒体流水线(312)。为了配置媒体流水线，客户端设备210可以对用于接收各种传输会话的媒体数据的缓冲器以及用以解码所接收的媒体数据的解码器进行实例化。

客户端设备210然后可以例如结合现有语音呼叫来参与与第二客户端设备的AR会话(314)。因此，客户端设备210可以经由语音呼叫接收语音数据(316)，经由语音呼叫接收视频数据(318)，并且经由AR会话接收AR数据(320)。AR数据可包括表示第二客户端设备的用户在AR场景中的移动以及AR场景中的虚拟对象中的任一者是否由与用户的交互(例如，由于用户的移动)触发的数据。

客户端设备310的各种解码器可以对所接收的媒体数据(例如，视频、语音和AR数据)进行解码(322)。客户端设备310然后可以合成并渲染媒体数据作为AR场景的一部分(324)，使得客户端设备310的用户可以一起感知所有对应的媒体数据。

以此方式，图7的方法表示传输增强现实(AR)媒体数据的方法的示例，该方法包括：由第一客户端设备参与与第二客户端设备的语音呼叫会话；由第一客户端设备从第二客户端设备接收指示除了语音呼叫会话之外还将发起增强现实(AR)会话的数据；由第一客户端设备接收用于发起AR会话的数据；以及由第一客户端设备使用用于发起AR会话的数据来参与与第二客户端设备的AR会话。

本公开的技术的某些示例汇总于以下条款中：

条款1：一种传输增强现实(AR)媒体数据的方法，所述方法包括：由第一客户端设备的多媒体通信客户端参与与第二客户端设备的二维(2D)多媒体通信会话呼叫；由所述多媒体通信客户端从所述第二客户端设备接收指示所述2D多媒体通信会话呼叫将被升级到增强现实(AR)会话的数据；由所述多媒体通信客户端将对于所述AR会话的场景描述传递到所述第一客户端设备的增强现实客户端；以及由所述增强现实客户端参与与所述第二客户端设备的所述AR会话。

条款2：根据条款1所述的方法，其中参与所述AR会话包括：从所述第二客户端设备接收所述多媒体通信会话呼叫的2D媒体数据；从所述第二客户端设备接收所述AR会话的AR数据；以及使用所述2D媒体数据和所述AR数据来渲染图像。

条款3：根据条款1和2中任一项所述的方法，其中接收指示所述2D多媒体通信会话呼叫将被升级到所述AR会话的所述数据包括从数据信道服务器接收触发数据。

条款4：根据条款1至3中任一项所述的方法，其中所述多媒体通信会话呼叫包括在IP多媒体子系统(IMS)上的多媒体电话(MTSI)呼叫。

条款5：一种用于传输增强现实(AR)媒体数据的设备，所述设备包括用于执行根据条款1至4中任一项所述的方法的一个或多个装置。

条款6：根据条款5所述的设备，其中所述一个或多个装置包括在电路中实现的一个或多个处理器。

条款7：根据条款5所述的装置，其中所述装置包括以下各项中的至少一项：集成电路；微处理器；和无线通信设备。

条款8：一种用于传输增强现实(AR)媒体数据的第一客户端设备，所述第一客户端设备包括：用于参与与第二客户端设备的二维(2D)多媒体通信会话呼叫的装置；用于从所述第二客户端设备接收指示所述2D多媒体通信会话呼叫将被升级到增强现实(AR)会话的数据的装置；和用于在接收到对于所述AR会话的场景描述之后参与与所述第二客户端设备的所述AR会话的装置。

条款9：一种传输增强现实(AR)媒体数据的方法，所述方法包括：由第一客户端设备参与与第二客户端设备的语音呼叫会话；由所述第一客户端设备从所述第二客户端设备接收指示除了所述语音呼叫会话之外还将发起增强现实(AR)会话的数据；由所述第一客户端设备接收用于发起所述AR会话的数据；以及由所述第一客户端设备使用用于发起所述AR会话的所述数据来参与与所述第二客户端设备的所述AR会话。

条款10：根据条款9所述的方法，其中参与所述AR会话包括：在参与与所述第二客户端设备的所述语音呼叫会话的同时参与与所述第二客户端设备的所述AR会话。

条款11：根据条款9所述的方法，其中参与所述AR会话包括：从所述第二客户端设备接收所述语音呼叫会话的语音数据；从所述第二客户端设备接收所述AR会话的AR数据；以及将所述语音数据与所述AR数据一起呈现。

条款12：根据条款9所述的方法，其中接收指示将发起所述AR会话的所述数据包括从数据信道服务器设备接收触发数据。

条款13：根据条款9所述的方法，其中接收指示将发起所述AR会话的所述数据包括接收对于所述AR会话的场景描述。

条款14：根据条款9所述的方法，所述方法还包括发起所述AR会话，发起所述AR会话包括：为所述AR会话配置一个或多个媒体流；为所述AR会话配置服务质量(QoS)；以及为所述AR会话建立传输会话。

条款15：根据条款9所述的方法，其中所述语音呼叫会话包括在IP多媒体子系统(IMS)上的多媒体电话(MTSI)呼叫。

条款16：根据条款9所述的方法，其中所述语音呼叫会话包括视频和语音会话，所述方法还包括：经由所述视频和语音会话接收视频数据；经由所述AR会话接收AR数据；以及用AR数据渲染所述视频数据。

条款17：根据条款9所述的方法，其中参与所述语音呼叫会话包括经由与所述第二客户端设备的第一通信会话发送和接收语音数据，并且其中参与所述AR会话包括经由与所述第二客户端设备的第二通信会话发送和接收语音数据。

条款18：一种用于传输增强现实(AR)媒体数据的第一客户端设备，所述第一客户端设备包括：存储器，所述存储器被配置为存储包括语音数据和增强现实(AR)数据的媒体数据；和一个或多个处理器，所述一个或多个处理器在电路中实现并且被配置为：参与与第二客户端设备的语音呼叫会话；从所述第二客户端设备接收指示除了所述语音呼叫会话之外还将发起AR会话的数据；接收用于发起所述AR会话的数据；以及使用用于发起所述AR会话的所述数据来参与与所述第二客户端设备的所述AR会话。

条款19：根据条款18所述的设备，其中所述一个或多个处理器被配置为：在参与与所述第二客户端设备的所述语音呼叫会话的同时参与与所述第二客户端设备的所述AR会话。

条款20：根据条款18所述的设备，其中为了参与所述AR会话，所述一个或多个处理器被配置为：从所述第二客户端设备接收所述语音呼叫会话的语音数据；从所述第二客户端设备接收所述AR会话的AR数据；以及将所述语音数据与所述AR数据一起呈现。

条款21：根据条款18所述的设备，其中为了接收指示将发起所述AR会话的所述数据，所述一个或多个处理器被配置为从数据信道服务器设备接收触发数据。

条款22：根据条款18所述的设备，其中为了接收指示将发起所述AR会话的所述数据，所述一个或多个处理器被配置为接收对于所述AR会话的场景描述。

条款23：根据条款18所述的设备，其中所述一个或多个处理器被进一步配置为发起所述AR会话，发起所述AR会话包括：为所述AR会话配置一个或多个媒体流；为所述AR会话配置服务质量(QoS)；以及为所述AR会话建立传输会话。

条款24：根据条款18所述的设备，其中所述语音呼叫会话包括在IP多媒体子系统(IMS)上的多媒体电话(MTSI)呼叫。

条款25：根据条款18所述的设备，其中所述语音呼叫会话包括视频和语音会话，并且其中所述一个或多个处理器被进一步配置为：经由所述视频和语音会话接收视频数据；经由所述AR会话接收AR数据；以及用AR数据渲染所述视频数据。

条款26：根据条款18所述的设备，其中为了参与所述语音呼叫会话，所述一个或多个处理器被配置为经由与所述第二客户端设备的第一通信会话发送和接收语音数据，并且其中为了参与所述AR会话，所述一个或多个处理器被配置为经由与所述第二客户端设备的第二通信会话发送和接收语音数据。

条款27：根据条款18所述的设备，其中所述设备包括以下各项中的至少一项：集成电路；微处理器；或无线通信设备。

条款28：一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，所述指令在被执行时使第一客户端设备的处理器：参与与第二客户端设备的语音呼叫会话；从所述第二客户端设备接收指示除了所述语音呼叫会话之外还将发起增强现实(AR)会话的数据；接收用于发起所述AR会话的数据；以及使用用于发起所述AR会话的所述数据来参与与所述第二客户端设备的所述AR会话。

条款29：根据条款28所述的计算机可读存储介质，其中使所述处理器参与所述AR会话的所述指令包括使所述处理器在参与与所述第二客户端设备的所述语音呼叫会话的同时参与与所述第二客户端设备的所述AR会话的指令。

条款30：根据条款28所述的计算机可读存储介质，其中使所述处理器参与所述AR会话的所述指令包括使所述处理器进行以下操作的指令：从所述第二客户端设备接收所述语音呼叫会话的语音数据；从所述第二客户端设备接收所述AR会话的AR数据；以及将所述语音数据与所述AR数据一起呈现。

条款31：根据条款28所述的计算机可读存储介质，其中使所述处理器接收指示将发起所述AR会话的所述数据的所述指令包括使所述处理器从数据信道服务器设备接收触发数据的指令。

条款32：根据条款28所述的计算机可读存储介质，其中使所述处理器接收指示将发起所述AR会话的所述数据的所述指令包括使所述处理器接收对于所述AR会话的场景描述的指令。

条款33：根据条款28所述的计算机可读存储介质，所述计算机可读存储介质还包括使所述处理器发起所述AR会话的指令，使所述处理器发起所述AR会话的所述指令包括使所述处理器进行以下操作的指令：为所述AR会话配置一个或多个媒体流；为所述AR会话配置服务质量(QoS)；以及为所述AR会话建立传输会话。

条款34：根据条款28所述的计算机可读存储介质，其中所述语音呼叫会话包括在IP多媒体子系统(IMS)上的多媒体电话(MTSI)呼叫。

条款35：根据条款28所述的计算机可读存储介质，其中所述语音呼叫会话包括视频和语音会话，所述计算机可读存储介质还包括使所述处理器进行以下操作的指令：经由所述视频和语音会话接收视频数据；经由所述AR会话接收AR数据；以及用AR数据渲染所述视频数据。

条款36：根据条款28所述的计算机可读存储介质，其中使所述处理器参与所述语音呼叫会话的所述指令包括使所述处理器经由与所述第二客户端设备的第一通信会话发送和接收语音数据的指令，并且其中使所述处理器参与所述AR会话的所述指令包括使所述处理器经由与所述第二客户端设备的第二通信会话发送和接收语音数据的指令。

条款37：一种用于传输增强现实(AR)媒体数据的第一客户端设备，所述第一客户端设备包括：用于参与与第二客户端设备的二维(2D)多媒体通信会话呼叫的装置；用于从所述第二客户端设备接收指示所述2D多媒体通信会话呼叫将被升级到增强现实(AR)会话的数据的装置；和用于在接收到对于所述AR会话的场景描述之后参与与所述第二客户端设备的所述AR会话的装置。

条款38：一种传输增强现实(AR)媒体数据的方法，所述方法包括：由第一客户端设备参与与第二客户端设备的语音呼叫会话；由所述第一客户端设备从所述第二客户端设备接收指示除了所述语音呼叫会话之外还将发起增强现实(AR)会话的数据；由所述第一客户端设备接收用于发起所述AR会话的数据；以及由所述第一客户端设备使用用于发起所述AR会话的所述数据来参与与所述第二客户端设备的所述AR会话。

条款39：根据条款38所述的方法，其中参与所述AR会话包括：在参与与所述第二客户端设备的所述语音呼叫会话的同时参与与所述第二客户端设备的所述AR会话。

条款40：根据条款38和39中任一项所述的方法，其中参与所述AR会话包括：从所述第二客户端设备接收所述语音呼叫会话的语音数据；从所述第二客户端设备接收所述AR会话的AR数据；以及将所述语音数据与所述AR数据一起呈现。

条款41：根据条款38至40中任一项所述的方法，其中接收指示将发起所述AR会话的所述数据包括从数据信道服务器设备接收触发数据。

条款42：根据条款38至41中任一项所述的方法，其中接收指示将发起所述AR会话的所述数据包括接收对于所述AR会话的场景描述。

条款43：根据条款38至42中任一项所述的方法，所述方法还包括发起所述AR会话，发起所述AR会话包括：为所述AR会话配置一个或多个媒体流；为所述AR会话配置服务质量(QoS)；以及为所述AR会话建立传输会话。

条款44：根据条款38至43中任一项所述的方法，其中所述语音呼叫会话包括在IP多媒体子系统(IMS)上的多媒体电话(MTSI)呼叫。

条款45：根据条款38至44中任一项所述的方法，其中所述语音呼叫会话包括视频和语音会话，所述方法还包括：经由所述视频和语音会话接收视频数据；经由所述AR会话接收AR数据；以及用AR数据渲染所述视频数据。

条款46：根据条款38至45中任一项所述的方法，其中参与所述语音呼叫会话包括经由与所述第二客户端设备的第一通信会话发送和接收语音数据，并且其中参与所述AR会话包括经由与所述第二客户端设备的第二通信会话发送和接收语音数据。

条款47：一种用于传输增强现实(AR)媒体数据的第一客户端设备，所述第一客户端设备包括：存储器，所述存储器被配置为存储包括语音数据和增强现实(AR)数据的媒体数据；和一个或多个处理器，所述一个或多个处理器在电路中实现并且被配置为：参与与第二客户端设备的语音呼叫会话；从所述第二客户端设备接收指示除了所述语音呼叫会话之外还将发起AR会话的数据；接收用于发起所述AR会话的数据；以及使用用于发起所述AR会话的所述数据来参与与所述第二客户端设备的所述AR会话。

条款48：根据条款47所述的设备，其中所述一个或多个处理器被配置为：在参与与所述第二客户端设备的所述语音呼叫会话的同时参与与所述第二客户端设备的所述AR会话。

条款49：根据条款47和48中任一项所述的设备，其中为了参与所述AR会话，所述一个或多个处理器被配置为：从所述第二客户端设备接收所述语音呼叫会话的语音数据；从所述第二客户端设备接收所述AR会话的AR数据；以及将所述语音数据与所述AR数据一起呈现。

条款50：根据条款47至49中任一项所述的设备，其中为了接收指示将发起所述AR会话的所述数据，所述一个或多个处理器被配置为从数据信道服务器设备接收触发数据。

条款51：根据条款47至50中任一项所述的设备，其中为了接收指示将发起所述AR会话的所述数据，所述一个或多个处理器被配置为接收对于所述AR会话的场景描述。

条款52：根据条款47至51中任一项所述的设备，其中所述一个或多个处理器被进一步配置为发起所述AR会话，发起所述AR会话包括：为所述AR会话配置一个或多个媒体流；为所述AR会话配置服务质量(QoS)；以及为所述AR会话建立传输会话。

条款53：根据条款47至52中任一项所述的设备，其中所述语音呼叫会话包括在IP多媒体子系统(IMS)上的多媒体电话(MTSI)呼叫。

条款54：根据条款47至53中任一项所述的设备，其中所述语音呼叫会话包括视频和语音会话，并且其中所述一个或多个处理器进一步被配置为：经由所述视频和语音会话接收视频数据；经由所述AR会话接收AR数据；以及用AR数据渲染所述视频数据。

条款55：根据条款47至54中任一项所述的设备，其中为了参与所述语音呼叫会话，所述一个或多个处理器被配置为经由与所述第二客户端设备的第一通信会话发送和接收语音数据，并且其中为了参与所述AR会话，所述一个或多个处理器被配置为经由与所述第二客户端设备的第二通信会话发送和接收语音数据。

条款56：根据条款47至55中任一项所述的设备，其中所述设备包括以下各项中的至少一项：集成电路；微处理器；或无线通信设备。

条款57：一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，所述指令在被执行时使第一客户端设备的处理器：参与与第二客户端设备的语音呼叫会话；从所述第二客户端设备接收指示除了所述语音呼叫会话之外还将发起增强现实(AR)会话的数据；接收用于发起所述AR会话的数据；以及使用用于发起所述AR会话的所述数据来参与与所述第二客户端设备的所述AR会话。

条款58：根据条款57所述的计算机可读存储介质，其中使所述处理器参与所述AR会话的所述指令包括使所述处理器在参与与所述第二客户端设备的所述语音呼叫会话的同时参与与所述第二客户端设备的所述AR会话的指令。

条款59：根据条款57和58中任一项所述的计算机可读存储介质，其中使所述处理器参与所述AR会话的所述指令包括使所述处理器进行以下操作的指令：从所述第二客户端设备接收所述语音呼叫会话的语音数据；从所述第二客户端设备接收所述AR会话的AR数据；以及将所述语音数据与所述AR数据一起呈现。

条款60：根据条款57至59中任一项所述的计算机可读存储介质，其中使所述处理器接收指示将发起所述AR会话的所述数据的所述指令包括使所述处理器从数据信道服务器设备接收触发数据的指令。

条款61：根据条款57至60中任一项所述的计算机可读存储介质，其中使所述处理器接收指示将发起所述AR会话的所述数据的所述指令包括使所述处理器接收对于所述AR会话的场景描述的指令。

条款62：根据条款57至61中任一项所述的计算机可读存储介质，所述计算机可读存储介质还包括使所述处理器发起所述AR会话的指令，使所述处理器发起所述AR会话的所述指令包括使所述处理器进行以下操作的指令：为所述AR会话配置一个或多个媒体流；为所述AR会话配置服务质量(QoS)；以及为所述AR会话建立传输会话。

条款63：根据条款57至62中任一项所述的计算机可读存储介质，其中所述语音呼叫会话包括在IP多媒体子系统(IMS)上的多媒体电话(MTSI)呼叫。

条款64：根据条款57至63中任一项所述的计算机可读存储介质，其中所述语音呼叫会话包括视频和语音会话，所述计算机可读存储介质还包括使所述处理器进行以下操作的指令：经由所述视频和语音会话接收视频数据；经由所述AR会话接收AR数据；以及用AR数据渲染所述视频数据。

条款65：根据条款57至64中任一项所述的计算机可读存储介质，其中使所述处理器参与所述语音呼叫会话的所述指令包括使所述处理器经由与所述第二客户端设备的第一通信会话发送和接收语音数据的指令，并且其中使所述处理器参与所述AR会话的所述指令包括使所述处理器经由与所述第二客户端设备的第二通信会话发送和接收语音数据的指令。

条款66：一种用于传输增强现实(AR)媒体数据的第一客户端设备，所述第一客户端设备包括：用于参与与第二客户端设备的二维(2D)多媒体通信会话呼叫的装置；用于从所述第二客户端设备接收指示所述2D多媒体通信会话呼叫将被升级到增强现实(AR)会话的数据的装置；和用于在接收到对于所述AR会话的场景描述之后参与与所述第二客户端设备的所述AR会话的装置。

在一个或多个示例中，所描述的功能可以在硬件、软件、固件或它们的任何组合中实现。如果用软件来实现，则所述功能可以作为一个或多个指令或代码存储在计算机可读介质上或者通过计算机可读介质进行传输并且由基于硬件的处理单元执行。计算机可读介质可以包括计算机可读存储介质(其对应于诸如数据存储介质之类的有形介质)或者通信介质，该通信介质包括例如根据通信协议来促进计算机程序从一个地方传送到另一地方的任何介质。以这种方式，计算机可读介质通常可以对应于(1)非暂态的有形计算机可读存储介质、或者(2)诸如信号或载波之类的通信介质。数据存储介质可以是可以由一个或多个计算机或一个或多个处理器访问以取得用于实现在本公开中描述的技术的指令、代码和/或数据结构的任何可用介质。计算机程序产品可以包括计算机可读介质。

通过示例而非限制的方式，此类计算机可读存储介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、闪存、或者能够用于以指令或数据结构形式存储期望的程序代码并且能够由计算机访问的任何其他介质。而且，任何连接被适当地称为计算机可读介质。例如，如果指令是使用同轴电缆、光纤光缆、双绞线、数字用户线(DSL)或者无线技术(诸如，红外线、无线电和微波)从网站、服务器或其他远程源传送的，则同轴电缆、光纤光缆、双绞线、DSL或者无线技术(诸如，红外线、无线电和微波)被包括在介质的定义中。然而，应当理解的是，计算机可读存储介质和数据存储介质不包括连接、载波、信号或其他暂态介质，而是替代地针对非暂态的有形存储介质。本文使用的磁盘和光盘包括：压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软盘和蓝光光盘，其中，磁盘通常以磁性方式再现数据，而光盘利用激光来再现数据。上述的组合应当也被包括在计算机可读介质的范围内。

指令可以由一个或多个处理器来执行，诸如一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)、或其他等效的集成或分立逻辑电路。相应地，如本文所使用的术语“处理器”可以指任何上述结构或适于实现本文所描述的技术的任何其他结构。另外，在一些方面中，本文中所描述的功能可以在被配置用于编码和解码的专用硬件和/或软件模块内提供，或者被并入组合的编解码器中。同样，这些技术可以在一个或多个电路或逻辑元件中被完全实现。

本公开的技术可以在各种各样的设备或装置中实现，包括无线手机、集成电路(IC)或一组IC(例如，芯片组)。在本公开中描述各种组件、模块或单元以强调被配置为执行所公开的技术的设备的功能性方面，但是不一定要求通过不同的硬件单元来实现。确切而言，如上文所描述的，各种单元可以被组合在编解码器硬件单元中，或者可以由可互操作的硬件单元的集合(包括如上文所描述的一个或多个处理器)结合适当的软件和/或固件来提供各种单元。

已经描述各个示例。这些和其他示例在以下权利要求的范围内。

Claims

1.一种传输增强现实(AR)媒体数据的方法，所述方法包括：

由客户端设备参与语音呼叫会话；

由所述客户端设备接收指示除了所述语音呼叫会话之外还将发起增强现实(AR)会话的数据；

由所述客户端设备接收用于发起所述AR会话的数据；以及

由所述客户端设备使用用于发起所述AR会话的所述数据来参与所述AR会话。

2.根据权利要求1所述的方法，其中参与所述AR会话包括在参与所述语音呼叫会话的同时参与所述AR会话。

3.根据权利要求1所述的方法，其中参与所述AR会话包括：

接收所述语音呼叫会话的语音数据；

接收所述AR会话的AR数据；以及

将所述语音数据与所述AR数据一起呈现。

4.根据权利要求1所述的方法，其中接收指示将发起所述AR会话的所述数据包括从数据信道服务器设备接收触发数据。

5.根据权利要求1所述的方法，其中接收指示将发起所述AR会话的所述数据包括接收对于所述AR会话的场景描述。

6.根据权利要求1所述的方法，所述方法还包括发起所述AR会话，发起所述AR会话包括：

为所述AR会话配置一个或多个媒体流；

为所述AR会话配置服务质量(QoS)；以及

为所述AR会话建立传输会话。

7.根据权利要求1所述的方法，其中所述语音呼叫会话包括在IP多媒体子系统(IMS)上的多媒体电话(MTSI)呼叫。

8.根据权利要求1所述的方法，其中所述语音呼叫会话包括视频和语音会话，所述方法还包括：

经由所述视频和语音会话接收视频数据；

经由所述AR会话接收AR数据；以及

用AR数据渲染所述视频数据。

9.根据权利要求1所述的方法，

其中参与所述语音呼叫会话包括经由第一通信会话发送和接收语音数据，并且

其中参与所述AR会话包括经由第二通信会话发送和接收语音数据。

10.一种用于传输增强现实(AR)媒体数据的客户端设备，所述客户端设备包括：

存储器，所述存储器被配置为存储包括语音数据和增强现实(AR)数据的媒体数据；和

一个或多个处理器，所述一个或多个处理器在电路中实现，并且被配置为：

参与语音呼叫会话；

接收指示除了所述语音呼叫会话之外还将发起AR会话的数据；

接收用于发起所述AR会话的数据；以及

使用用于发起所述AR会话的所述数据来参与所述AR会话。

11.根据权利要求10所述的设备，其中所述一个或多个处理器被配置为在参与所述语音呼叫会话的同时参与所述AR会话。

12.根据权利要求10所述的设备，其中为了参与所述AR会话，所述一个或多个处理器被配置为：

接收所述语音呼叫会话的语音数据；

接收所述AR会话的AR数据；以及

将所述语音数据与所述AR数据一起呈现。

13.根据权利要求10所述的设备，其中为了接收指示将发起所述AR会话的所述数据，所述一个或多个处理器被配置为从数据信道服务器设备接收触发数据。

14.根据权利要求10所述的设备，其中为了接收指示将发起所述AR会话的所述数据，所述一个或多个处理器被配置为接收对于所述AR会话的场景描述。

15.根据权利要求10所述的设备，其中所述一个或多个处理器被进一步配置为发起所述AR会话，发起所述AR会话包括：

为所述AR会话配置一个或多个媒体流；

为所述AR会话配置服务质量(QoS)；以及

为所述AR会话建立传输会话。

16.根据权利要求10所述的设备，其中所述语音呼叫会话包括在IP多媒体子系统(IMS)上的多媒体电话(MTSI)呼叫。

17.根据权利要求10所述的设备，其中所述语音呼叫会话包括视频和语音会话，并且其中所述一个或多个处理器被进一步配置为：

经由所述视频和语音会话接收视频数据；

经由所述AR会话接收AR数据；以及

用AR数据渲染所述视频数据。

18.根据权利要求10所述的设备，

其中为了参与所述语音呼叫会话，所述一个或多个处理器被配置为经由第一通信会话发送和接收语音数据，并且

其中为了参与所述AR会话，所述一个或多个处理器被配置为经由第二通信会话发送和接收语音数据。

19.根据权利要求10所述的设备，其中所述设备包括以下各项中的至少一项：

集成电路；

微处理器；或

无线通信设备。

20.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，所述指令在被执行时使客户端设备的处理器：

参与语音呼叫会话；

接收指示除了所述语音呼叫会话之外还将发起增强现实(AR)会话的数据；

接收用于发起所述AR会话的数据；以及

使用用于发起所述AR会话的所述数据来参与所述AR会话。

21.根据权利要求20所述的计算机可读存储介质，其中使所述处理器参与所述AR会话的所述指令包括使所述处理器在参与所述语音呼叫会话的同时参与所述AR会话的指令。

22.根据权利要求20所述的计算机可读存储介质，其中使所述处理器参与所述AR会话的所述指令包括使所述处理器进行以下操作的指令：

接收所述语音呼叫会话的语音数据；

接收所述AR会话的AR数据；以及

将所述语音数据与所述AR数据一起呈现。

23.根据权利要求20所述的计算机可读存储介质，其中使所述处理器接收指示将发起所述AR会话的所述数据的所述指令包括使所述处理器从数据信道服务器设备接收触发数据的指令。

24.根据权利要求20所述的计算机可读存储介质，其中使所述处理器接收指示将发起所述AR会话的所述数据的所述指令包括使所述处理器接收对于所述AR会话的场景描述的指令。

25.根据权利要求20所述的计算机可读存储介质，所述计算机可读存储介质还包括使所述处理器发起所述AR会话的指令，使所述处理器发起所述AR会话的所述指令包括使所述处理器进行以下操作的指令：

为所述AR会话配置一个或多个媒体流；

为所述AR会话配置服务质量(QoS)；以及

为所述AR会话建立传输会话。

26.根据权利要求20所述的计算机可读存储介质，其中所述语音呼叫会话包括在IP多媒体子系统(IMS)上的多媒体电话(MTSI)呼叫。

27.根据权利要求20所述的计算机可读存储介质，其中所述语音呼叫会话包括视频和语音会话，所述计算机可读存储介质还包括使所述处理器进行以下操作的指令：

经由所述视频和语音会话接收视频数据；

经由所述AR会话接收AR数据；以及

用AR数据渲染所述视频数据。

28.根据权利要求20所述的计算机可读存储介质，

其中使所述处理器参与所述语音呼叫会话的所述指令包括使所述处理器经由第一通信会话发送和接收语音数据的指令，并且

其中使所述处理器参与所述AR会话的所述指令包括使所述处理器经由第二通信会话发送和接收语音数据的指令。

29.一种用于传输增强现实(AR)媒体数据的客户端设备，所述客户端设备包括：

用于参与二维(2D)多媒体通信会话呼叫的装置；

用于接收指示所述2D多媒体通信会话呼叫将被升级到增强现实(AR)会话的数据的装置；和

用于在接收到对于所述AR会话的场景描述之后参与所述AR会话的装置。