CN116830588A - 用于基于视觉体积视频(v3c)媒体和基于几何的点云(g-pcc)媒体的流式传输的mmt信令 - Google Patents
用于基于视觉体积视频(v3c)媒体和基于几何的点云(g-pcc)媒体的流式传输的mmt信令 Download PDFInfo
- Publication number
- CN116830588A CN116830588A CN202280012530.0A CN202280012530A CN116830588A CN 116830588 A CN116830588 A CN 116830588A CN 202280012530 A CN202280012530 A CN 202280012530A CN 116830588 A CN116830588 A CN 116830588A
- Authority
- CN
- China
- Prior art keywords
- message
- media
- asset
- data
- pcc
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 14
- 230000011664 signaling Effects 0.000 title description 43
- 238000000034 method Methods 0.000 claims abstract description 74
- 238000012545 processing Methods 0.000 claims abstract description 38
- VKALYYFVKBXHTF-UHFFFAOYSA-N 4-(methylsulfanyl)-m-cresol Chemical compound CSC1=CC=C(O)C=C1C VKALYYFVKBXHTF-UHFFFAOYSA-N 0.000 claims abstract 9
- 238000004891 communication Methods 0.000 claims description 69
- 230000008569 process Effects 0.000 claims description 31
- 230000006835 compression Effects 0.000 claims description 22
- 238000007906 compression Methods 0.000 claims description 22
- 230000001419 dependent effect Effects 0.000 claims description 18
- 230000015654 memory Effects 0.000 description 40
- 230000006870 function Effects 0.000 description 26
- 238000005516 engineering process Methods 0.000 description 23
- 238000010586 diagram Methods 0.000 description 22
- 230000008859 change Effects 0.000 description 16
- 238000005538 encapsulation Methods 0.000 description 15
- 230000005540 biological transmission Effects 0.000 description 14
- 238000007726 management method Methods 0.000 description 11
- 238000001228 spectrum Methods 0.000 description 10
- 238000012360 testing method Methods 0.000 description 10
- 238000009877 rendering Methods 0.000 description 9
- 241000760358 Enodes Species 0.000 description 8
- 230000002093 peripheral effect Effects 0.000 description 8
- 239000002609 medium Substances 0.000 description 7
- 230000003068 static effect Effects 0.000 description 7
- 230000001413 cellular effect Effects 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 238000013139 quantization Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 102100031545 Microsomal triglyceride transfer protein large subunit Human genes 0.000 description 4
- 238000013459 approach Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 3
- 238000004220 aggregation Methods 0.000 description 3
- 239000000969 carrier Substances 0.000 description 3
- 238000013499 data model Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- AWSBQWZZLBPUQH-UHFFFAOYSA-N mdat Chemical group C1=C2CC(N)CCC2=CC2=C1OCO2 AWSBQWZZLBPUQH-UHFFFAOYSA-N 0.000 description 3
- 238000002310 reflectometry Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 101000588130 Homo sapiens Microsomal triglyceride transfer protein large subunit Proteins 0.000 description 2
- 101100172132 Mus musculus Eif3a gene Proteins 0.000 description 2
- 238000004873 anchoring Methods 0.000 description 2
- 239000000872 buffer Substances 0.000 description 2
- 238000012508 change request Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 229910001416 lithium ion Inorganic materials 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000005055 memory storage Effects 0.000 description 2
- QELJHCBNGDEXLD-UHFFFAOYSA-N nickel zinc Chemical compound [Ni].[Zn] QELJHCBNGDEXLD-UHFFFAOYSA-N 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000007727 signaling mechanism Effects 0.000 description 2
- 230000003936 working memory Effects 0.000 description 2
- 208000037540 Alveolar soft tissue sarcoma Diseases 0.000 description 1
- 230000005355 Hall effect Effects 0.000 description 1
- HBBGRARXTFLTSG-UHFFFAOYSA-N Lithium ion Chemical compound [Li+] HBBGRARXTFLTSG-UHFFFAOYSA-N 0.000 description 1
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 241000700159 Rattus Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 239000012572 advanced medium Substances 0.000 description 1
- 208000008524 alveolar soft part sarcoma Diseases 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- OJIJEKBXJYRIBZ-UHFFFAOYSA-N cadmium nickel Chemical compound [Ni].[Cd] OJIJEKBXJYRIBZ-UHFFFAOYSA-N 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- GVVPGTZRZFNKDS-JXMROGBWSA-N geranyl diphosphate Chemical compound CC(C)=CCC\C(C)=C\CO[P@](O)(=O)OP(O)(O)=O GVVPGTZRZFNKDS-JXMROGBWSA-N 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 239000012464 large buffer Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 229910052987 metal hydride Inorganic materials 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 229910052759 nickel Inorganic materials 0.000 description 1
- PXHVJJICTQNCMI-UHFFFAOYSA-N nickel Substances [Ni] PXHVJJICTQNCMI-UHFFFAOYSA-N 0.000 description 1
- -1 nickel metal hydride Chemical class 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 230000009131 signaling function Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000000411 transmission spectrum Methods 0.000 description 1
Landscapes
- Mobile Radio Communication Systems (AREA)
Abstract
本文描述了用于基于视觉体积视频的编码(V3C)媒体和基于几何的点云编码(G‑PCC)媒体的流式传输的方法、系统和装置。一种在接收设备中实现的方法可包括接收以下各项中的一者或多者:包括可用于从发送设备被流式传输的媒体资产的列表的第一消息,或者分别描述媒体资产的一个或多个消息。该方法还可包括发送第二消息,该第二消息指示对待从发送设备被流式传输的媒体资产的子集的请求。媒体资产的所请求的子集可基于接收设备的视口来确定。该方法还可包括接收运动图像专家组(MPEG)媒体传输协议(MMTP)分组,以及处理这些分组以恢复媒体资产的所请求的子集的至少一部分。
Description
相关申请的交叉引用
本申请要求2021年1月5日提交的美国临时申请63/134,038号和2021年1月5日提交的美国临时申请63/134,143号的权益,这些美国临时申请的内容以引用方式并入本文。
背景技术
高质量三维(3D)点云和其他视觉体积媒体(诸如其中由多个真实或虚拟相机捕获真实或虚拟3D场景的沉浸式视频内容)近来已经作为沉浸式媒体的高级表示出现。
捕获和渲染3D点的技术的最新进步可允许在远程呈现、虚拟现实和大规模动态3D地图领域中的新颖应用。ISO/IEC JTC1/SC29/WG11运动图像专家组(MPEG)的3D图形子组当前正致力于开发两个3D点云压缩(PCC)标准:用于静态点云的基于几何的压缩标准和用于动态点云的基于视频的压缩标准。这些标准的目标可为支持3D点云的有效且可互操作的存储和传输。这些标准的要求之一可为支持点云几何坐标和属性的有损和/或无损编码。MPEG-I Visual是致力于开发用于压缩沉浸式视频内容以支持在有限体积内具有正确运动视差的6DoF虚拟漫游的标准的另一MPEG子组。由于基于视频的点云压缩和具有有限六自由度(6DoF)的沉浸式视频两者都可依赖于视频编码分量,所以这两种类型的沉浸式媒体的这些编码可被统称为基于视觉体积视频的编码(V3C),并且相同比特流格式可被用于表示它们的编码信息。
发明内容
本文描述了用于基于视觉体积视频的编码(V3C)媒体和基于几何的点云编码(G-PCC)媒体的流式传输的方法、系统和装置。一种在接收设备中实现的方法可包括接收以下各项中的一者或多者:包括可用于从发送设备被流式传输的媒体资产的列表的第一消息,或者分别描述媒体资产的一个或多个消息。该方法还可包括发送第二消息,该第二消息指示对待从发送设备被流式传输的媒体资产的子集的请求。媒体资产的所请求的子集可基于接收设备的视口来确定。该方法还可包括接收运动图像专家组(MPEG)媒体传输协议(MMTP)分组,以及处理这些分组以恢复媒体资产的所请求的子集的至少一部分。
附图说明
由以下结合附图以举例的方式给出的描述可得到更详细的理解,其中附图中类似的附图标号指示类似的元件,并且其中:
图1A是示出在其中一个或多个所公开的实施方案可得以实现的示例性通信系统的系统图;
图1B是示出根据一个实施方案可在图1A所示的通信系统内使用的示例性无线发射/接收单元(WTRU)的系统图;
图1C是示出根据一个实施方案可在图1A所示的通信系统内使用的示例性无线电接入网络(RAN)和示例性核心网络(CN)的系统图;
图1D是示出根据一个实施方案可在图1A所示的通信系统内使用的另外一个示例性RAN和另外一个示例性CN的系统图;
图2是示出视频编码器的一个示例的示意图;
图3是示出视频解码器的一个示例的示意图;
图4是示出可在其中实现本文所述的各个方面和实施方案的系统的示例的示意图;
图5是示出用于服务器与客户端的系统接口的示例的示意图;
图6是示出用于服务器与客户端的系统接口的另一示例的示意图;
图7示出了V3C比特流的结构的示例;
图8是示出支持的V3C属性类型的示例的表;
图9示出了如可根据ISOBMFF标准实现的V3C容器的结构的示例;
图10示出了具有多于一个图谱和多个图谱图块的多轨道容器的示例;
图11是示出比特流的结构的一个示例的示意图;
图12是提供G-PCC TLV封装单元的示例性语法结构的表;
图13是提供TLV类型参数的可能值和对应描述的表;
图14是提供G-PCC TLV单元有效载荷的示例性语法结构的表;
图15示出了根据其中提供G-PCC几何和属性信息的比特流被存储在单个轨道中的方案的样本结构的示例;
图16示出了多轨道ISOBMFF G-PCC容器的示例性结构;
图17描绘了其中执行MMT信令的系统的示例性端到端架构;
图18是根据一些实施方案的包结构的图示;
图19是提供定义的应用程序消息类型的列表的表;
图20是提供V3C资产描述符的语法结构的示例的表;
图21是示出V3CAssetGroupMessage的示例性语法的表;
图22是示出如可在Data_type字段中使用的V3C数据类型值的示例的表;
图23是示出V3CSelectionMessage的示例性语法的表;
图24是提供switching_mode字段的定义的表;
图25是示出V3CViewChangeFeedbackMessage的示例性语法的表;
图26是提供G-PCC资产描述符的语法结构的示例的表;
图27是示出定义的G-PCC应用程序消息类型的示例的表;
图28是示出群组消息的示例性语法的表;
图29是示出如可在Data_type字段中使用的G-PCC数据类型值的示例的表;
图30是示出GPCC选择反馈消息的示例性语法的表;
图31是提供switching_mode字段的定义的表;并且
图32是示出G-PCC视图改变反馈消息(例如,“GPCCViewChangeFeedback”)的示例性语法的表;
具体实施方式
图1A是示出在其中一个或多个所公开的实施方案可得以实现的示例性通信系统100的示图。通信系统100可为向多个无线用户提供诸如语音、数据、视频、消息、广播等内容的多址接入系统。通信系统100可使多个无线用户能够通过系统资源(包括无线带宽)的共享来访问此类内容。例如,通信系统100可采用一个或多个信道接入方法,诸如码分多址接入(CDMA)、时分多址接入(TDMA)、频分多址接入(FDMA)、正交FDMA(OFDMA)、单载波FDMA(SC-FDMA)、零尾唯一字离散傅里叶变换扩展OFDM(ZT-UW-DFT-S-OFDM)、唯一字OFDM(UW-OFDM)、资源块滤波OFDM、滤波器组多载波(FBMC)等。
如图1A所示,通信系统100可包括无线发射/接收单元(WTRU)102a、102b、102c、102d、无线电接入网络(RAN)104、核心网络(CN)106、公共交换电话网(PSTN)108、互联网110和其他网络112,但应当理解,所公开的实施方案设想了任何数量的WTRU、基站、网络和/或网络元件。WTRU 102a、102b、102c、102d中的每一者可以是被配置为在无线环境中操作和/或通信的任何类型的设备。举例来说,WTRU 102a、102b、102c、102d(其中任何一者均可被称为站(STA))可被配置为发射和/或接收无线信号,并且可包括用户装备(UE)、移动站、固定或移动用户单元、基于订阅的单元、寻呼机、蜂窝电话、个人数字助理(PDA)、智能电话、膝上型计算机、上网本、个人计算机、无线传感器、热点或Mi-Fi设备、物联网(IoT)设备、手表或其他可穿戴设备、头戴式显示器(HMD)、车辆、无人机、医疗设备和应用(例如,远程手术)、工业设备和应用(例如,在工业和/或自动处理链环境中操作的机器人和/或其他无线设备)、消费型电子设备、在商业和/或工业无线网络上操作的设备等。WTRU 102a、102b、102c和102d中的任一者可互换地称为UE。
通信系统100还可包括基站114a和/或基站114b。基站114a、114b中的每一者可为任何类型的设备,其被配置为与WTRU 102a、102b、102c、102d中的至少一者无线对接以促进对一个或多个通信网络(诸如CN 106、互联网110和/或其他网络112)的访问。作为示例,基站114a、114b可为基站收发台(BTS)、节点B、演进节点B(eNB)、家庭节点B、家庭演进节点B、下一代节点B,诸如gNode B(gNB)、新空口(NR)节点B、站点控制器、接入点(AP)、无线路由器等。虽然基站114a、114b各自被描绘为单个元件,但应当理解,基站114a、114b可包括任何数量的互连基站和/或网络元件。
基站114a可以是RAN 104的一部分,该RAN还可包括其他基站和/或网络元件(未示出),诸如基站控制器(BSC)、无线电网络控制器(RNC)、中继节点等。基站114a和/或基站114b可被配置为在一个或多个载波频率上发射和/或接收无线信号,该基站可被称为小区(未示出)。这些频率可在许可频谱、未许可频谱或许可和未许可频谱的组合中。小区可向特定地理区域提供无线服务的覆盖,该特定地理区域可为相对固定的或可随时间改变。小区可进一步被划分为小区扇区。例如,与基站114a相关联的小区可被划分为三个扇区。因此,在实施方案中,基站114a可包括三个收发器,即,小区的每个扇区一个收发器。在实施方案中,基站114a可采用多输入多输出(MIMO)技术并且可针对小区的每个扇区利用多个收发器。例如,可使用波束成形在所需的空间方向上发射和/或接收信号。
基站114a、114b可通过空中接口116与WTRU 102a、102b、102c、102d中的一者或多者通信,该空中接口可为任何合适的无线通信链路(例如,射频(RF)、微波、厘米波、微米波、红外(IR)、紫外(UV)、可见光等)。可使用任何合适的无线电接入技术(RAT)来建立空中接口116。
更具体地讲,如上所指出,通信系统100可为多址接入系统,并且可采用一个或多个信道接入方案,诸如CDMA、TDMA、FDMA、OFDMA、SC-FDMA等。例如,RAN 104中的基站114a和WTRU 102a、102b、102c可实现无线电技术诸如通用移动电信系统(UMTS)陆地无线电接入(UTRA),其可使用宽带CDMA(WCDMA)来建立空中接口116。WCDMA可包括诸如高速分组接入(HSPA)和/或演进的HSPA(HSPA+)之类的通信协议。HSPA可包括高速下行链路(DL)分组接入(HSDPA)和/或高速上行链路(UL)分组接入(HSUPA)。
在实施方案中,基站114a和WTRU 102a、102b、102c可实现诸如演进的UMTS陆地无线电接入(E-UTRA)的无线电技术,其可使用长期演进(LTE)和/高级LTE(LTE-A)和/或高级LTEPro(LTE-A Pro)来建立空中接口116。
在实施方案中,基站114a和WTRU 102a、102b、102c可实现无线电技术诸如NR无线电接入,其可使用NR来建立空中接口116。
在实施方案中,基站114a和WTRU 102a、102b、102c可实现多种无线电接入技术。例如,基站114a和WTRU 102a、102b、102c可例如使用双连接(DC)原理一起实现LTE无线电接入和NR无线电接入。因此,WTRU 102a、102b、102c所利用的空中接口可由多种类型的无线电接入技术和/或向/从多种类型的基站(例如,eNB和gNB)发送的发射来表征。
在其他实施方案中,基站114a和WTRU 102a、102b、102c可实现诸如IEEE 802.11(即,无线保真(WiFi))、IEEE 802.16(即,全球微波接入互操作性(WiMAX))、CDMA2000、CDMA2000 1X、CDMA2000 EV-DO、暂行标准2000(IS-2000)、暂行标准95(IS-95)、暂行标准856(IS-856)、全球移动通信系统(GSM)、GSM增强数据率演进(EDGE)、GSM EDGE(GERAN)等无线电技术。
图1A中的基站114b可为例如无线路由器、家庭节点B、家庭演进节点B或接入点,并且可利用任何合适的RAT来促进诸如商业场所、家庭、车辆、校园、工业设施、空中走廊(例如,供无人机使用)、道路等局部区域中的无线连接。在实施方案中,基站114b和WTRU 102c、102d可实现诸如IEEE 802.11之类的无线电技术以建立无线局域网(WLAN)。在实施方案中,基站114b和WTRU 102c、102d可实现诸如IEEE 802.15之类的无线电技术以建立无线个域网(WPAN)。在又一个实施方案中,基站114b和WTRU 102c、102d可利用基于蜂窝的RAT(例如,WCDMA、CDMA2000、GSM、LTE、LTE-A、LTE-A Pro、NR等)来建立微微小区或毫微微小区。如图1A所示,基站114b可直接连接到互联网110。因此,基站114b可不需要经由CN 106访问互联网110。
RAN 104可与CN 106通信,该CN可以是被配置为向WTRU 102a、102b、102c、102d中的一者或多者提供语音、数据、应用和/或互联网协议语音技术(VoIP)服务的任何类型的网络。数据可具有不同的服务质量(QoS)要求,诸如不同的吞吐量要求、延迟要求、误差容限要求、可靠性要求、数据吞吐量要求、移动性要求等。CN 106可提供呼叫控制、账单服务、基于移动位置的服务、预付费呼叫、互联网连接、视频分发等,和/或执行高级安全功能,诸如用户认证。尽管未在图1A中示出,但是应当理解,RAN 104和/或CN 106可与采用与RAN 104相同的RAT或不同RAT的其他RAN进行直接或间接通信。例如,除了连接到可利用NR无线电技术的RAN 104之外,CN 106还可与采用GSM、UMTS、CDMA 2000、WiMAX、E-UTRA或WiFi无线电技术的另一RAN(未示出)通信。
CN 106也可充当WTRU 102a、102b、102c、102d的网关,以访问PSTN 108、互联网110和/或其他网络112。PSTN 108可包括提供普通老式电话服务(POTS)的电路交换电话网络。互联网110可包括使用常见通信协议(诸如传输控制协议(TCP)、用户数据报协议(UDP)和/或TCP/IP互联网协议组中的互联网协议(IP))的互连计算机网络和设备的全球系统。网络112可包括由其他服务提供商拥有和/或操作的有线和/或无线通信网络。例如,网络112可包括连接到一个或多个RAN的另一个CN,其可采用与RAN 104相同的RAT或不同的RAT。
通信系统100中的一些或所有WTRU 102a、102b、102c、102d可包括多模式能力(例如,WTRU 102a、102b、102c、102d可包括用于通过不同无线链路与不同无线网络通信的多个收发器)。例如,图1A所示的WTRU 102c可被配置为与可采用基于蜂窝的无线电技术的基站114a通信,并且与可采用IEEE 802无线电技术的基站114b通信。
图1B是示出示例性WTRU 102的系统图。如图1B所示,WTRU 102可包括处理器118、收发器120、发射/接收元件122、扬声器/麦克风124、小键盘126、显示器/触摸板128、不可移动存储器130、可移动存储器132、电源134、全球定位系统(GPS)芯片组136和/或其他外围设备138等。应当理解,在与实施方案保持一致的同时,WTRU 102可包括前述元件的任何子组合。
处理器118可以是通用处理器、专用处理器、常规处理器、数字信号处理器(DSP)、多个微处理器、与DSP核心相关联的一个或多个微处理器、控制器、微控制器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、任何其他类型的集成电路(IC)、状态机等。处理器118可执行信号编码、数据处理、功率控制、输入/输出处理和/或任何其他功能,这些其他功能使WTRU 102能够在无线环境中工作。处理器118可耦合到收发器120,该收发器可耦合到发射/接收元件122。虽然图1B将处理器118和收发器120描绘为单独的部件,但是应当理解,处理器118和收发器120可在电子封装件或芯片中集成在一起。
发射/接收元件122可被配置为通过空中接口116向基站(例如,基站114a)发射信号或从基站接收信号。例如,在一个实施方案中,发射/接收元件122可以是被配置为发射和/或接收RF信号的天线。在实施方案中,发射/接收元件122可以是被配置为发射和/或接收例如IR、UV或可见光信号的发射器/检测器。在又一个实施方案中,发射/接收元件122可被配置为发射和/或接收RF和光信号。应当理解,发射/接收元件122可被配置为发射和/或接收无线信号的任何组合。
尽管发射/接收元件122在图1B中被描绘为单个元件,但是WTRU 102可包括任何数量的发射/接收元件122。更具体地讲,WTRU 102可采用MIMO技术。因此,在一个实施方案中,WTRU 102可包括用于通过空中接口116发射和接收无线信号的两个或更多个发射/接收元件122(例如,多个天线)。
收发器120可被配置为调制将由发射/接收元件122发射的信号并且解调由发射/接收元件122接收的信号。如上所指出,WTRU 102可具有多模式能力。例如,因此,收发器120可包括多个收发器,以便使WTRU 102能够经由多种RAT(诸如NR和IEEE 802.11)进行通信。
WTRU 102的处理器118可耦合到扬声器/麦克风124、小键盘126和/或显示器/触摸板128(例如,液晶显示器(LCD)显示单元或有机发光二极管(OLED)显示单元)并且可从其接收用户输入数据。处理器118还可将用户数据输出到扬声器/麦克风124、小键盘126和/或显示器/触摸板128。此外,处理器118可从任何类型的合适存储器(诸如不可移动存储器130和/或可移动存储器132)访问信息,并且将数据存储在任何类型的合适存储器中。不可移动存储器130可包括随机存取存储器(RAM)、只读存储器(ROM)、硬盘或任何其他类型的存储器存储设备。可移动存储器132可包括用户身份模块(SIM)卡、记忆棒、安全数字(SD)存储卡等。在其他实施方案中,处理器118可从未物理上定位在WTRU 102上(诸如,服务器或家用计算机(未示出)上)的存储器访问信息,并且将数据存储在该存储器中。
处理器118可从电源134接收电力,并且可被配置为向WTRU 102中的其他部件分配和/或控制电力。电源134可以是用于为WTRU 102供电的任何合适的设备。例如,电源134可包括一个或多个干电池组(例如,镍镉(NiCd)、镍锌(NiZn)、镍金属氢化物(NiMH)、锂离子(Li-ion)等)、太阳能电池、燃料电池等。
处理器118还可耦合到GPS芯片组136,该GPS芯片组可被配置为提供关于WTRU 102的当前位置的位置信息(例如,经度和纬度)。除了来自GPS芯片组136的信息之外或代替该信息,WTRU 102可通过空中接口116从基站(例如,基站114a、114b)接收位置信息和/或基于从两个或更多个附近基站接收到信号的定时来确定其位置。应当理解,在与实施方案保持一致的同时,该WTRU 102可通过任何合适的位置确定方法来获取位置信息。
处理器118还可耦合到其他外围设备138,该其他外围设备可包括提供附加特征、功能和/或有线或无线连接的一个或多个软件模块和/或硬件模块。例如,外围设备138可包括加速度计、电子指南针、卫星收发器、数字相机(用于照片和/或视频)、通用串行总线(USB)端口、振动设备、电视收发器、免提耳麦、模块、调频(FM)无线电单元、数字音乐播放器、媒体播放器、视频游戏播放器模块、互联网浏览器、虚拟现实和/或增强现实(VR/AR)设备、活动跟踪器等。外围设备138可包括一个或多个传感器。传感器可为以下一者或多者:陀螺仪、加速度计、霍尔效应传感器、磁力计、方位传感器、接近传感器、温度传感器、时间传感器;地理位置传感器、测高计、光传感器、触摸传感器、磁力计、气压计、手势传感器、生物识别传感器、湿度传感器等。
WTRU 102可包括全双工无线电台,对于该全双工无线电台,一些或所有信号的发射和接收(例如,与用于UL(例如,用于发射)和DL(例如,用于接收)的特定子帧相关联)可为并发的和/或同时的。全双工无线电台可包括干扰管理单元,该干扰管理单元用于经由硬件(例如,扼流圈)或经由处理器(例如,单独的处理器(未示出)或经由处理器118)进行的信号处理来减少和/或基本上消除自干扰。在实施方案中,WTRU 102可包括半双工无线电台,对于该半双工无线电台,发射和接收一些或所有信号(例如,与用于UL(例如,用于发射)或DL(例如,用于接收)的特定子帧相关联)。
图1C是示出根据实施方案的RAN 104和CN 106的系统图。如上所述,RAN 104可采用E-UTRA无线电技术通过空中接口116与WTRU 102a、102b、102c通信。RAN 104还可与CN106通信。
RAN 104可包括演进节点B 160a、160b、160c,但是应当理解,在与实施方案保持一致的同时,RAN 104可包括任何数量的演进节点B。演进节点B 160a、160b、160c各自可包括一个或多个收发器以便通过空中接口116与WTRU 102a、102b、102c通信。在实施方案中,演进节点B 160a、160b、160c可实现MIMO技术。因此,演进节点B 160a例如可使用多个天线来向WTRU 102a发射无线信号和/或从WTRU 102a接收无线信号。
演进节点B 160a、160b、160c中的每一者可与特定小区(未示出)相关联,并且可被配置为处理无线电资源管理决策、切换决策、UL和/或DL中的用户的调度等。如图1C所示,演进节点B 160a、160b、160c可通过X2接口彼此通信。
图1C所示的CN 106可包括移动性管理实体(MME)162、服务网关(SGW)164和分组数据网络(PDN)网关(PGW)166。虽然前述元件被描绘为CN 106的一部分,但是应当理解,这些元件中的任何元件可由除CN运营商之外的实体拥有和/或运营。
MME 162可经由S1接口连接到RAN 104中的演进节点B 162a、162b、162c中的每一者,并且可用作控制节点。例如,MME 162可负责认证WTRU 102a、102b、102c的用户、承载激活/去激活、在WTRU 102a、102b、102c的初始附加期间选择特定服务网关等。MME 162可提供用于在RAN 104和采用其他无线电技术(诸如GSM和/或WCDMA)的其他RAN(未示出)之间进行切换的控制平面功能。
SGW 164可经由S1接口连接到RAN 104中的演进节点B 160a、160b、160c中的每一者。SGW 164通常可向/从WTRU 102a、102b、102c路由和转发用户数据分组。SGW 164可执行其他功能,诸如在演进节点B间切换期间锚定用户平面、当DL数据可用于WTRU 102a、102b、102c时触发寻呼、管理和存储WTRU 102a、102b、102c的上下文等。
SGW 164可连接到PGW 166,该PGW可向WTRU 102a、102b、102c提供对分组交换网络(诸如互联网110)的访问,以有利于WTRU 102a、102b、102c和启用IP的设备之间的通信。
CN 106可促进与其他网络的通信。例如,CN 106可向WTRU 102a、102b、102c提供对电路交换网络(诸如,PSTN 108)的访问,以有利于WTRU 102a、102b、102c与传统陆线通信设备之间的通信。例如,CN 106可包括用作CN 106与PSTN 108之间的接口的IP网关(例如,IP多媒体子系统(IMS)服务器)或者可与该IP网关通信。除此之外,CN 106可向WTRU 102a、102b、102c提供对其他网络112的访问,该其他网络可包括由其他服务提供商拥有和/或运营的其他有线和/或无线网络。
尽管WTRU在图1A至图1D中被描述为无线终端,但是可以设想到,在某些代表性实施方案中,这种终端可(例如,临时或永久)使用与通信网络的有线通信接口。
在代表性实施方案中,其他网络112可为WLAN。
处于基础结构基本服务集(BSS)模式的WLAN可具有用于BSS的接入点(AP)以及与AP相关联的一个或多个站点(STA)。AP可具有至分配系统(DS)或将流量承载至和/或承载流量离开BSS的另一种类型的有线/无线网络的接入或接口。源自BSS外部并通向STA的流量可通过AP到达并且可被传递到STA。源自STA并通向BSS外部的目的地的流量可被发送到AP以被传递到相应目的地。BSS内的STA之间的流量可通过AP发送,例如,其中源STA可向AP发送流量,并且AP可将流量传递到目的地STA。BSS内的STA之间的流量可被视为和/或称为点对点流量。可利用直接链路建立(DLS)在源和目的地STA之间(例如,直接在它们之间)发送点对点流量。在某些代表性实施方案中,DLS可使用802.11e DLS或802.11z隧道DLS(TDLS)。使用独立BSS(IBSS)模式的WLAN可不具有AP,并且IBSS内或使用IBSS的STA(例如,所有STA)可彼此直接通信。IBSS通信模式在本文中有时可称为“ad-hoc”通信模式。
当使用802.11ac基础结构操作模式或相似操作模式时,AP可在固定信道(诸如主信道)上发射信标。主信道可为固定宽度(例如,20MHz宽带宽)或动态设置的宽度。主信道可为BSS的操作信道,并且可由STA用来建立与AP的连接。在某些代表性实施方案中,可例如在802.11系统中实现载波侦听多路访问/冲突避免(CSMA/CA)。对于CSMA/CA,STA(例如,每个STA)(包括AP)可侦听主信道。如果主信道被特定STA侦听/检测和/或确定为繁忙,则特定STA可退避。一个STA(例如,仅一个站)可在给定BSS中在任何给定时间发射。
高吞吐量(HT)STA可使用40MHz宽的信道进行通信,例如,通过主20MHz信道与相邻或不相邻的20MHz信道的组合以形成40MHz宽的信道。
极高吞吐量(VHT)STA可支持20MHz、40MHz、80MHz和/或160MHz宽的信道。40MHz和/或80MHz信道可通过组合连续的20MHz信道来形成。可通过组合8个连续的20MHz信道,或通过组合两个非连续的80MHz信道(这可被称为80+80配置)来形成160MHz信道。对于80+80配置,在信道编码之后,数据可通过可将数据分成两个流的段解析器。可单独地对每个流进行快速傅里叶逆变换(IFFT)处理和时间域处理。可将这些流映射到两个80MHz信道,并且可通过发射STA来发射数据。在接收STA的接收器处,可颠倒上述用于80+80配置的操作,并且可将组合的数据发送到介质访问控制(MAC)。
802.11af和802.11ah支持低于1GHz的操作模式。相对于802.11n和802.11ac中使用的那些,802.11af和802.11ah中减少了信道操作带宽和载波。802.11af支持电视白空间(TVWS)频谱中的5MHz、10MHz和20MHz带宽,并且802.11ah支持使用非TVWS频谱的1MHz、2MHz、4MHz、8MHz和16MHz带宽。根据代表性实施方案,802.11ah可支持仪表类型控制/机器类型通信(MTC),诸如宏覆盖区域中的MTC设备。MTC设备可具有某些能力,例如有限的能力,包括支持(例如,仅支持)某些带宽和/或有限的带宽。MTC设备可包括电池寿命高于阈值(例如,以保持非常长的电池寿命)的电池。
可支持多个信道的WLAN系统以及诸如802.11n、802.11ac、802.11af和802.11ah之类的信道带宽包括可被指定为主信道的信道。主信道可具有等于由BSS中的所有STA支持的最大公共操作带宽的带宽。主信道的带宽可由来自在BSS中操作的所有STA的STA(其支持最小带宽操作模式)设置和/或限制。在802.11ah的示例中,对于支持(例如,仅支持)1MHz模式的STA(例如,MTC型设备),主信道可为1MHz宽,即使AP和BSS中的其他STA支持2MHz、4MHz、8MHz、16MHz和/或其他信道带宽操作模式。载波侦听和/或网络分配向量(NAV)设置可取决于主信道的状态。如果主信道繁忙,例如,由于STA(仅支持1MHz操作模式)正在向AP发射,即使大多数可用频段保持空闲,全部可用频段也可被视为繁忙。
在美国,可供802.11ah使用的可用频带为902MHz至928MHz。在韩国,可用频带为917.5MHz至923.5MHz。在日本,可用频带为916.5MHz至927.5MHz。802.11ah可用的总带宽为6MHz至26MHz,具体取决于国家代码。
图1D是示出根据实施方案的RAN 104和CN 106的系统图。如上文所指出,RAN 104可采用NR无线电技术以通过空中接口116与WTRU 102a、102b、102c通信。RAN 104还可与CN106通信。
RAN 104可包括gNB 180a、180b、180c,但应当理解,在与实施方案保持一致的同时,RAN 104可包括任何数量的gNB。gNB 180a、180b、180c各自可包括一个或多个收发器以便通过空中接口116与WTRU 102a、102b、102c通信。在实施方案中,gNB 180a、180b、180c可实现MIMO技术。例如,gNB 180a、108b可利用波束成形来向gNB 180a、180b、180c传输信号和/或从gNB 180a、180b、180c接收信号。因此,gNB 180a例如可使用多个天线来向WTRU102a发射无线信号和/或从WTRU 102a接收无线信号。在实施方案中,gNB 180a、180b、180c可实现载波聚合技术。例如,gNB 180a可向WTRU 102a(未示出)发射多个分量载波。这些分量载波的子集可在免许可频谱上,而其余分量载波可在许可频谱上。在实施方案中,gNB180a、180b、180c可实现被协调的多点(CoMP)技术。例如,WTRU 102a可从gNB 180a和gNB180b(和/或gNB 180c)接收被协调的发射。
WTRU 102a、102b、102c可使用与可扩展参数集相关联的发射来与gNB 180a、180b、180c通信。例如,OFDM符号间隔和/或OFDM子载波间隔可因不同发射、不同小区和/或无线发射频谱的不同部分而变化。WTRU 102a、102b、102c可使用各种或可扩展长度的子帧或发射时间间隔(TTI)(例如,包含不同数量的OFDM符号和/或持续变化的绝对时间长度)来与gNB180a、180b、180c通信。
gNB 180a、180b、180c可被配置为以独立配置和/或非独立配置与WTRU 102a、102b、102c通信。在独立配置中,WTRU 102a、102b、102c可与gNB 180a、180b、180c通信,同时也不访问其他RAN(例如,诸如演进节点B 160a、160b、160c)。在独立配置中,WTRU 102a、102b、102c可将gNB 180a、180b、180c中的一者或多者用作移动性锚定点。在独立配置中,WTRU 102a、102b、102c可在未许可频带中使用信号与gNB 180a、180b、180c通信。在非独立配置中,WTRU 102a、102b、102c可与gNB 180a、180b、180c通信或连接,同时也与其他RAN(诸如,演进节点B160a、160b、160c)通信或连接。例如,WTRU 102a、102b、102c可实现DC原理以基本上同时与一个或多个gNB 180a、180b、180c和一个或多个演进节点B 160a、160b、160c通信。在非独立配置中,演进节点B 160a、160b、160c可用作WTRU 102a、102b、102c的移动性锚点,并且gNB 180a、180b、180c可提供用于服务WTRU 102a、102b、102c的附加覆盖和/或吞吐量。
gNB 180a、180b、180c中的每一者可与特定小区(未示出)相关联,并且可被配置为处理无线电资源管理决策、切换决策、UL和/或DL中的用户的调度、网络切片的支持、DC、NR和E-UTRA之间的互通、用户平面数据朝向用户平面功能(UPF)184a、184b的路由、控制平面信息朝向接入和移动性管理功能(AMF)182a、182b的路由等。如图1D所示,gNB 180a、180b、180c可通过Xn接口彼此通信。
图1D中所示的CN 106可包括至少一个AMF 182a、182b、至少一个UPF 184a、184b、至少一个会话管理功能(SMF)183a、183b以及可能数据网络(DN)185a、185b。虽然前述元件被描绘为CN 106的一部分,但是应当理解,这些元件中的任何元件可由除CN运营商之外的实体拥有和/或运营。
AMF 182a、182b可经由N2接口连接到RAN 104中的gNB 180a、180b、180c中的一者或多者,并且可用作控制节点。例如,AMF 182a、182b可负责认证WTRU 102a、102b、102c的用户、网络切片的支持(例如,具有不同要求的不同协议数据单元(PDU)会话的处理)、选择特定SMF 183a、183b、注册区域的管理、非接入层(NAS)信令的终止、移动性管理等。AMF 182a、182b可使用网络切片,以便基于WTRU 102a、102b、102c所使用的服务的类型来为WTRU102a、102b、102c定制CN支持。例如,可针对不同的用例(诸如,依赖超高可靠低延迟(URLLC)接入的服务、依赖增强型移动宽带(eMBB)接入的服务、用于MTC接入的服务等)建立不同的网络切片。AMF 182a、182b可提供用于在RAN 104和采用其他无线电技术(诸如LTE、LTE-A、LTE-A Pro和/或非3GPP接入技术,诸如WiFi)的其他RAN(未示出)之间进行切换的控制平面功能。
SMF 183a、183b可经由N11接口连接到CN 106中的AMF 182a、182b。SMF 183a、183b还可经由N4接口连接到CN 106中的UPF 184a、184b。SMF 183a、183b可选择并控制UPF184a、184b,并且配置通过UPF 184a、184b进行的流量路由。SMF 183a、183b可执行其他功能,诸如管理和分配UE IP地址、管理PDU会话、控制策略实施和QoS、提供DL数据通知等。PDU会话类型可以是基于IP的、非基于IP的、基于以太网的等。
UPF 184a、184b可经由N3接口连接到RAN 104中的gNB 180a、180b、180c中的一者或多者,该接口可向WTRU 102a、102b、102c提供对分组交换网络(诸如互联网110)的访问,以促进WTRU 102a、102b、102c与启用IP的设备之间的通信。UPF 184、184b可执行其他功能,诸如路由和转发分组、实施用户平面策略、支持多宿主PDU会话、处理用户平面QoS、缓冲DL分组、提供移动性锚定等。
CN 106可促进与其他网络的通信。例如,CN 106可包括用作CN 106与PSTN 108之间的接口的IP网关(例如,IP多媒体子系统(IMS)服务器)或者可与该IP网关通信。除此之外,CN 106可向WTRU 102a、102b、102c提供对其他网络112的访问,该其他网络可包括由其他服务提供商拥有和/或运营的其他有线和/或无线网络。在一个实施方案中,WTRU 102a、102b、102c可通过UPF 184a、184b经由至UPF 184a、184b的N3接口以及UPF 184a、184b与本地DN 185a、185b之间的N6接口连接到DN 185a、185b。
鉴于图1A至图1D以及图1A至图1D的对应描述,本文参照以下中的一者或多者描述的功能中的一个或多个功能或全部功能可由一个或多个仿真设备(未示出)执行:WTRU102a-d、基站114a-b、演进节点B 160a-c、MME 162、SGW 164、PGW 166、gNB 180a-c、AMF182a-b、UPF 184a-b、SMF 183a-b、DN 185a-b和/或本文所述的任何其他设备。仿真设备可以是被配置为模仿本文所述的一个或多个或所有功能的一个或多个设备。例如,仿真设备可用于测试其他设备和/或模拟网络和/或WTRU功能。
仿真设备可被设计为在实验室环境和/或运营商网络环境中实现其他设备的一个或多个测试。例如,该一个或多个仿真设备可执行一个或多个或所有功能,同时被完全或部分地实现和/或部署为有线和/或无线通信网络的一部分,以便测试通信网络内的其他设备。该一个或多个仿真设备可执行一个或多个功能或所有功能,同时临时被实现/部署为有线和/或无线通信网络的一部分。仿真设备可直接耦合到另一个设备以用于测试目的和/或使用空中无线通信来执行测试。
该一个或多个仿真设备可执行一个或多个(包括所有)功能,同时不被实现/部署为有线和/或无线通信网络的一部分。例如,仿真设备可在测试实验室和/或非部署(例如,测试)有线和/或无线通信网络中的测试场景中使用,以便实现一个或多个部件的测试。该一个或多个仿真设备可为测试装备。经由RF电路系统(例如,其可包括一个或多个天线)进行的直接RF耦合和/或无线通信可由仿真设备用于发射和/或接收数据。
如图2和图3所示,本申请中所述的各种方法和其他方面可用于修改例如视频编码器200和解码器300的模块。此外,本文所公开的主题呈现了不限于V3C或G-PCC的方面,并且可应用于例如任何类型、格式或版本的视频编码(无论是在标准中描述的还是在建议中描述的,无论是预先存在的还是未来开发的),以及任何此类标准和建议的扩展(例如,包括V3C和G-PCC)。除非另有指示或技术上排除,否则本申请中所述的方面可单独使用或组合使用。
在本申请描述的示例中使用了各种数值,诸如为V3C应用程序消息或G-PCC应用程序消息的字段保留的比特数量。这些和其他具体值是为了描述示例目的,并且所述方面不限于这些具体值。
图2是示出视频编码器的一个示例的示意图。设想了示例性编码器200的变型,但下文为了清楚起见描述了编码器200,而不描述所有预期的变型,
在进行编码之前,视频序列可经过预编码处理(201),例如,将颜色变换应用于输入彩色图片(例如,从RGB 4:4:4到YCbCr 4:2:0的转换),或执行输入图片分量的重新映射,以便获得对压缩更有弹性的信号分布(例如,使用颜色分量中的一个颜色分量的直方图均衡化)。元数据可与预处理相关联,并且此类元数据可附加到比特流。
在编码器200处,图片可由编码器元件进行编码,如下所述。可以按例如编码单元(CU)为单位对待编码的图片进行分区(202)和处理。例如,可以使用帧内模式或帧间模式对每个单元进行编码。当单元以帧内模式被编码时,其执行帧内预测(260),以帧间模式执行运动估计(275)和补偿(270)。编码器可决定(205)帧内模式或帧间模式中的哪一者用于对单元进行编码,并且通过例如预测模式标志来指示帧内/帧间决策。可例如通过从原始图像块减去(210)预测块来计算预测残差。
然后,可对预测残差进行变换(225)和量化(230)。可对量化的变换系数以及运动向量和其他语法元素进行熵编码(245)以输出比特流。编码器可以跳过变换,并且对未变换的残余信号直接应用量化。该编码器可绕过变换和量化两者,即,在不应用变换或量化过程的情况下直接对残差进行编码。
该编码器对编码块进行解码以提供进一步预测的参考。对量化的变换系数进行解量化(240)和逆变换(250)以对预测残差进行解码。组合(255)解码的预测残差和预测块,重建图像块。将环内滤波器(265)应用于重建的图片以执行例如去块/SAO(样本自适应偏移)滤波,从而以减少编码伪像。将滤波的图像存储在参考图片缓冲器(280)处。
图3是示出视频解码器的示例的示意图。在示例性解码器300中,比特流由如下所述的解码器元件解码。视频解码器300通常执行与如图2中所述的编码遍次互逆的解码遍次。编码器200通常还执行视频解码作为编码视频数据的一部分。特别地,解码器的输入可包括视频比特流,该视频比特流可由视频编码器200生成。可首先对该比特流进行熵解码(330)以获得变换系数、运动向量和其他编码信息。图片分割信息指示如何分割图片,因此解码器可根据解码的图片分割信息分割(335)图片。对变换系数进行解量化(340)和逆变换(350)以对预测残差进行解码。组合(355)解码的预测残差和预测块,重建图像块,可从帧内预测(360)或运动补偿预测(即,帧间预测)(375)获得(370)预测块。将环内滤波器(365)应用于重建的图像。将滤波的图像存储在参考图片缓冲器(380)处。
解码的图片可进一步经过解码后处理(385),例如,逆颜色变换(例如,从YCbCr 4:2:0到RGB 4::4的变换),或执行在预编码处理(201)中执行的重新映射的逆过程的逆重新映射。解码后处理可使用在预编码处理中导出并且在比特流中发信号通知的元数据,
图4是示出可在其中实现本文所述的各个方面和实施方案的系统的示例的示意图。系统400可体现为包括如下所述的各种部件并且被配置为执行本文档中所描述的方面中的一个或多个方面的设备。此类设备的示例包括但不限于各种电子设备,诸如个人计算机、膝上型计算机、智能电话、平板计算机、数字多媒体机顶盒、数字电视接收器、个人视频记录系统、所连接的家用电器和服务器。系统400的元件可(单独地或组合地)体现于单个集成电路(IG)、多个IC和/或离散部件中。例如,在至少一个示例中,系统400的处理元件和编码器/解码器元件跨多个IC和/或离散部件分布,在各种实施方案中,系统400经由例如通信总线或通过专用输入端口和/或输出端口通信地耦合到一个或多个其他系统或其他电子设备。在各种实施方案中,系统400被配置为实现本文档中所述的方面中的一个或多个方面,
系统400包括至少一个处理器410,该至少一个处理器被配置为执行加载在其中的指令,用于实现例如本文档中描述的各个方面,处理器410可包括嵌入式存储器、输入输出接口和本领域中已知的各种其他电路。系统400包括至少一个存储器420(例如,易失性存储器设备和/或非易失性存储器设备)。系统400包括存储设备440,该存储设备可包括非易失性存储器和/或易失性存储器,包括但不限于电可擦除可编程只读存储器(EEPROM)。只读存储器(ROM)、可编程只读存储器(PROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、磁盘驱动器和/或光盘驱动器。作为非限制性示例,存储设备440可包括内部存储设备、附接的存储设备(包括可拆卸和不可拆卸的存储设备)和/或网络可访问的存储设备。
系统400包括编码器/解码器模块430,该编码器/解码器模块被配置为例如处理数据以提供编码视频或解码视频,并且编码器/解码器模块430可包括其自身的处理器和存储器。编码器/解码器模块430表示可包括在设备中以执行编码和/或解码功能的一个或多个模块。众所周知,设备可包括编码模块和解码模块中的一者或两者。另外地,编码器/解码器模块430可被实现为系统400的单独的元件,或者可被结合在处理器410内作为本领域技术人员已知的硬件和软件的组合。
待加载到处理器410或编码器/解码器430上以执行本文档中所描述的各种方面的程序代码可存储于存储设备440中并且随后加载到存储器420上以供处理器410执行,根据各种实施方案,处理器410、存储器420、存储设备440和编码器/解码器模块430中的一者或多者可在本文档中所描述的过程的执行期间存储各种项目中的一个或多个项目。此类存储项目可包括但不限于输入视频、解码的视频或部分解码的视频、比特流、矩阵、变量以及处理等式、公式、运算和运算逻辑的中间或最终结果。
在一些实施方案中,在处理器410和/或编码器/解码器模块430内部的存储器用于存储指令并且提供在编码或解码期间所需的用于处理的工作存储器。然而,在其他实施方案中,处理设备(例如,处理设备可为处理器410或编码器/解码器模块430)外部的存储器用于这些功能中的一个或多个功能。外部存储器可为存储器420和/或存储设备440,例如动态易失性存储器和/或非易失性闪存存储器。在若干实施方案中,外部非易失性闪存存储器用于存储例如电视机的操作系统。在至少一个实施方案中,快速外部动态易失性存储器(诸如RAM)被用作用于视频编码和解码操作的工作存储器,诸如,例如,MPEG-2。MPEG可指运动图像专家组,并且MPEG-2也可被称为ISO/IEC 13818。ISO/IEC 13818-1也可被称为H.222,并且13818-2也可被称为H.262)、HEVG(HEVC是指高效视频编码,也被称为H.265和MPEG-H部分2)或VVC(通用视频编码,由联合视频专家小组JVET开发的新标准)。
如块445中所指示,可通过各种输入设备提供对系统400的元件的输入。此类输入设备包括但不限于:(i)射频(RF)部分,其接收例如由广播器通过空中传输的RF信号;(ii)分量(COMP)输入端子(或一组COMP输入端子);(iii)通用串行总线(USB)输入端子;和/或(iv)高清晰度多媒体接口(HDMI)输入端子。图4中未示出的其他示例可包括复合视频。
在各种实施方案中,块445的输入设备可与本领域已知的相应输入处理元件相关联。例如,RF部分可与适于以下项的元件相关联:(i)选择期望的频率(也称为选择信号,或将信号频带限制到一个频带),(ii)下变频选择的信号,(iii)再次将频带限制到更窄频带以选择(例如)在某些实施方案中可称为信道的信号频带,(iv)解调经下变频和频带限制的信号,(v)执行纠错,以及(vi)解复用以选择期望的数据包流。各种实施方案的RF部分包括执行这些功能的一个或多个元件,例如,频率选择器、信号选择器、频带限制器、信道选择器、滤波器、下变频器、解调器、纠错器和解复用器。RF部分可包括执行这些功能中的各种功能的调谐器,包括例如将接收到的信号下变频到较低频率(例如,中间频率或近基带频率)或基带,在一个机顶盒实施方案中,RF部分以及其相关联的输入处理元件接收通过有线(例如,电缆)介质传输的RF信号,并且通过滤波、下变频以及再次滤波到期望频带来执行频率选择。各种实施方案可重新布置上述(和其他)元件的顺序,移除这些元件中的一些元件,和/或添加执行类似或不同功能的其他元件。添加元件可包括在现有元件之间插入元件,诸如,例如,插入放大器和模数变换器,在各种实施方案中,RF部分包括天线。
另外地,USB和/或HDMI端子可包括用于跨USB和/或HDMI连接将系统400连接到其他电子设备的相应接口处理器,应当理解,输入处理的各个方面(例如,里德-所罗门(Reed-Solomon)纠错)可根据需要例如在单独的输入处理IC内或在处理器410内实现。类似地,USB或HDMI接口处理的方面可根据需要在单独的接口IC内或在处理器410内实现。将解调流、纠错流和解复用流提供给各种处理元件,包括例如处理器410和编码器/解码器430,该处理元件与存储器和存储元件结合操作以根据需要处理数据流以呈现在输出设备上,
系统400的各种元件可设置在集成壳体内。在集成壳体内,各种元件可使用合适的连接布置425(例如,本领域已知的内部总线,包括IC间(I2C)总线、布线和印刷电路板)互连并在这些元件之间传输数据。
系统400包括通信接口450,该通信接口使得能够经由通信信道460与其他设备通信。通信接口450可包括但不限于被配置为通过通信信道460传输和接收数据的收发器。通信接口450可包括但不限于调制解调器或网卡,并且通信信道460可例如在有线和/或无线介质内实现。
在各种实施方案中,可使用无线网络(诸如Wi-Fi网络,例如IEEE 802.11(IEEE是指电气和电子工程师协会))将数据流式传输或以其他方式提供给系统400。这些示例的Wi-Fi信号通过适于Wi-Fi通信的通信信道460和通信接口450来接收。这些实施方案的通信信道460通常连接到接入点或路由器,该接入点或路由器提供对外部网络(包括互联网)的访问,以用于允许流式传输应用和其他越过运营商的通信。其他实施方案使用机顶盒向系统400提供流式传输的数据,该机顶盒通过输入块445的HDMI连接来递送数据。还有其他实施方案使用输入块445的RF连接向系统400提供流式传输的数据。如上文所指示,各种实施方案以非流式传输方式提供数据。另外地,各种实施方案可使用除了Wi-Fi以外的无线网络,例如蜂窝网络或蓝牙网络。
系统400可向各种输出设备提供输出信号,包括显示器475、扬声器485和其他外围设备495。各种实施方案的显示器475包括例如触摸屏显示器、有机发光二极管(OLED)显示器、曲面显示器和/或可折叠显示器中的一者或多者。显示器475可用于电视机、平板计算机、膝上型计算机、蜂窝电话(移动电话)或其他设备。显示器475还可与其他部件集成(例如,如在智能电话中),或可为单独的(例如,膝上型计算机的外部监视器)。在实施方案的各种示例中,其他外围设备495包括单独数字视频光盘(或数字多功能光盘)(DVR,表示这两个术语)、碟片播放器、立体声系统和/或照明系统中的一者或多者。各种实施方案使用一个或多个外围设备495,其基于系统400的输出提供功能。例如,光盘播放器执行播放系统400的输出的功能。
在各种实施方案中,可使用信令(诸如AV Link、消费电子控制(CEC)或使得能够在有或没有用户干预的情况下进行设备到设备控制的其他通信协议)在系统400与显示器475、扬声器485或其他外围设备495之间传送控制信号。输出设备可通过相应接口470、480和490经由专用连接通信地耦合到系统400。另选地,输出设备可使用通信信道460经由通信接口450连接到系统400。显示器475和扬声器485可与电子设备(诸如,例如,电视机)中的系统400的其他部件集成在单个单元中,在各种实施方案中,显示器接口470包括显示驱动器,诸如,例如,定时控制器(T Con)芯片。
例如,如果输入445的RF部分是单独的机顶盒的一部分,则显示器475和扬声器485可另选地与其他部件中的一个或多个部件分开。在显示器475和扬声器485为外部部件的各种实施方案中,输出信号可经由专用输出连接(包括例如HDMI端口、USB端口或COMP输出)来提供。
这些实施方案可通过由处理器410实现的计算机软件或通过硬件或通过硬件和软件的组合来执行。作为非限制性示例,实施方案可由一个或多个集成电路实现。存储器420可为适于技术环境的任何类型,并且作为非限制性示例,可使用任何适当的数据存储技术来实现,诸如光学存储器设备、磁性存储器设备、基于半导体的存储器设备、固定存储器和可移动存储器。作为非限制性示例,处理器410可为适于技术环境的任何类型,并且可涵盖微处理器、通用计算机、专用计算机和基于多核架构的处理器中的一者或多者,
各种实施方式参与解码。如本申请中所使用的“解码”可涵盖例如对所接收的编码序列执行的过程的全部或部分过程,以便产生适用于显示的最终输出,在各种实施方案中,此类过程包括通常由解码器执行的过程的一个或多个过程,例如熵解码、逆量化、逆变换和差分解码。在各种实施方案中,此类过程还或另选地包括由本申请中描述的各种具体实施的解码器执行的过程,例如,解码经译码点云序列的一部分(例如,使用一个或多个文件格式结构封装在ISOBMFF容器中,例如,如本文中所公开的)以提供对经译码点云序列(例如,封装在ISOBMFF容器中)的部分访问等。
作为另外的实施方案,在一些示例中,“解码”可仅指熵解码,而在其他实施方案中,“解码”可仅指差分解码,并且在其他实施方案中,“解码”可指熵解码和差分解码的组合。短语“解码过程”是旨在具体地指操作的子集还是广义地指更广泛的解码过程基于具体描述的上下文将是清楚的,并且被认为会被本领域的技术人员很好地理解。
各种实施方式参与编码。以与上面关于“解码”的讨论类似的方式,如在本申请中使用的“编码”可涵盖例如对输入视频序列执行以便产生编码比特流的全部或部分过程。在各种实施方案中,此类过程包括通常由编码器执行的一个或多个过程,例如,分区、差分编码、变换、量化和熵编码。在各种实施方案中,此类过程还或另选地包括由本申请中描述的各种实施方式的编码器执行的过程,例如,编码包括一个或多个文件格式结构的基于视频的点云比特流(例如,如本文所公开的)以向编码的点云序列的不同部分(例如,封装在ISOBMFF容器中)提供部分访问支持等。
作为进一步的示例,在一个实施方案中,“编码”仅指熵编码,在另一实施方案中,“编码”仅指差分编码,并且在另一实施方案中,“编码”指差分编码和熵编码的组合。短语“编码过程”旨在具体地指操作的子集还是旨在广义地指更广泛的编码过程基于具体描述的上下文将是清楚的,并且被认为会被本领域的技术人员很好地理解。
应当注意,如本文所使用的语法元素(例如V3CSelectionMessage、V3CAssetGroupMessage和V3CViewChangeFeedbackMessage等)是描述性术语。因此,它们不排除使用其他语法元素名称。
当附图呈现为流程图时,应当理解,其还提供了对应装置的框图。类似地,当附图呈现为框图时,应当理解,其还提供了对应的方法/过程的流程图。
本文所述的具体实施和方面可在例如方法或过程、装置、软件程序、数据流或信号中实现。即使仅在单个形式的具体实施的上下文中讨论(例如,仅作为方法讨论),讨论的特征的具体实施也可以其他形式(例如,装置或程序)实现。装置可在例如适当的硬件、软件和固件中实现。方法可在例如处理器中实现,该处理器通常指处理设备,包括例如计算机、微处理器、集成电路或可编程逻辑设备。处理器还包括通信设备,诸如,例如,计算机、蜂窝电话、便携式/个人数字助理(“PDA”)以及促进终端用户之间的信息通信的其他设备。
对“一个实施方案”、“实施方案”、“示例”、“一个实施方式”或“实施方式”以及它们的变型的引用意味着结合该实施方式描述的特定特征、结构、特性等被包括在至少一个实施方式中。因此,在本申请中各处出现的短语“在一个实施方案中”、“在实施方案中”、“在示例中”、“在一个实施方式中”或“在实施方式中”以及任何其他变型不一定全部指相同实施方案或示例。
另外地,本申请可涉及“确定”各种信息。确定信息可包括例如估计信息、计算信息、预测信息或从存储器检索信息中的一者或多者。获得可包括接收、检索、构造、生成和/或确定。
此外,本申请可涉及“访问”各种信息。访问信息可包括例如接收信息、检索信息(例如,从存储器)、存储信息、移动信息、复制信息、计算信息、确定信息、预测信息或估计信息中的一者或多者。
另外,本申请可涉及“接收”各种信息。与“访问”一样,接收旨在为广义的术语。接收信息可包括例如访问信息或检索信息(例如,从存储器)中的一者或多者。此外,在操作(诸如,例如,存储信息、处理信息、传输信息、移动信息、复制信息、擦除信息、计算信息、确定信息、预测信息或估计信息)期间,通常以一种或另一种方式涉及“接收”。
应当理解,例如,在“A/B”、“A和/或B”以及“A和B中的至少一者”的情况下,使用以下“和/或”和“至少一种”中的任一种旨在涵盖仅选择第一列出的选项(A),或仅选择第二列出的选项(B),或选择两个选项(A和B)。作为进一步的示例,在“A、B和/或C”和“A、B和C中的至少一者”的情况下,此类短语旨在涵盖仅选择第一列出的选项(A),或仅选择第二列出的选项(B),或仅选择第三列出的选项(C),或仅选择第一列出的选项和第二列出的选项(A和B),或仅选择第一列出的选项和第三列出的选项(A和C),或仅选择第二列出的选项和第三列出的选项(B和C),或选择所有三个选项(A和B和C)。如对于本领域和相关领域的普通技术人员显而易见的是,这可扩展到所列出的尽可能多的项目。
而且,如本文所用,词语“发信号通知”指(除了别的以外)向对应解码器指示某物。在一些实施方案中,编码器可发信号通知(例如,在编码比特流中和/或在诸如ISOBMFF容器的封装文件中)例如参数集、SEI消息、元数据、编辑列表、后解码器要求、实现对封装于ISOBMFF容器中的编码的点云序列的不同部分的灵活部分访问的信号、每个发信号通知的对象的依赖性列表、到空间区域的映射、3D边界框信息等。这样,在实施方案中,在编码器侧和解码器侧两者处使用相同参数。因此,例如,编码器可向解码器发传输(显式信令)特定参数,使得解码器可使用相同特定参数。相反,如果解码器已具有特定参数以及其他参数,则可在不传输(隐式信令)的情况下使用信令,以简单地允许解码器知道和选择特定参数。通过避免传输任何实际功能,在各种实施方案中实现了比特节省,应当理解,可以各种方式实现信令。例如,在各种实施方案中,使用一个或多个语法元素、标志等将信息发信号通知至对应解码器。虽然前面涉及词语“signal(发信号通知)”的动词形式,但是词语“signal(信号)”在本文也可用作名词。
对于本领域的普通技术人员将显而易见的是,具体实施可产生格式化为携带例如可存储或可传输的信息的多种信号。信息可包括例如用于执行方法的指令或由所述具体实施中的一个具体实施产生的数据。例如,可格式化信号以携带该实施方案的比特流。此类信号可格式化为例如电磁波(例如,使用频谱的射频部分)或基带信号。格式化可包括例如对数据流进行编码并且使用经编码的数据流调制载体。信号携带的信息可为例如模拟或数字信息。如已知的,信号可通过多种不同的有线或无线链路传输。信号可存储在处理器可读介质上。
捕获和渲染三维(3D)图像(例如,使用3D点云)可具有许多应用(诸如远程呈现、虚拟现实和大规模动态3D地图)。3D点云可用于表示沉浸式媒体。3D点云可包括在3D空间中表示的点集。(例如,每个)点可包括坐标和/或一个或多个属性。坐标可指示(例如,每个)点的位置。属性可包括例如以下各项中的一项或多项:与每个点相关联的颜色、透明性、获取时间、激光的反射率或材料性质等。点云可以多种方式被捕获或部署,例如,使用多个相机和深度传感器、光检测和测距(LIDAR)激光扫描仪等等(例如,以对3D空间进行采样)。点(例如,由坐标和/或属性表示)可以例如通过对3D空间中的对象进行采样来生成。点云可包括多个点,每个点可由映射到3D空间的一组坐标(例如,x、y、z坐标)表示,在示例中,3D对象或场景可用包括数百万或数十亿个采样点的点云来表示或重建。3D点云可以表示静态和/或动态(移动)3D场景。
点云数据可被表示和/或压缩(例如,点云压缩(PCC)),例如以(例如,高效地)存储和/或传输点云数据。可以利用基于几何的压缩来编码和解码静态点云,并且可以利用基于视频的压缩来编码和解码动态点云,例如,以支持3D点云的高效且可互操作的存储和传输。点云采样、表示、压缩和/或渲染可支持点云的几何坐标和/或属性的有损和/或无损编码(例如,编码或解码)。
图5是示出用于服务器502和客户端510的系统接口500的示意图。服务器502可以是连接到互联网504和其他网络506的点云服务器。客户端510还可连接到互联网504和其他网络506,从而实现节点(例如,服务器502和客户端510)之间的通信。每个节点可包括处理器、非暂态计算机可读存储器存储介质以及包含在存储介质内的可执行指令,该可执行指令能够由处理器执行以执行本文所公开的方法或方法的部分。一个或多个节点还可包括一个或多个传感器。客户端510可以(例如,也可以)包括用于为诸如头戴式显示器(HMD)508之类的显示器呈现3D视频的图形处理器512。节点中的任一者或全部可包括WTRU并且通过网络进行通信,如以上关于图1A至图1D所述。
图6是示出用于服务器602和客户端604的系统接口600的示意图。服务器602可以是点云内容服务器602,并且可包括点云内容的数据库、用于处理细节级别的逻辑、以及服务器管理功能。在一些示例中,对细节的处理可降低传输到客户端604(例如,观看客户端604)的分辨率,诸如由于带宽限制或者由于观看距离足以允许降低而被允许。点云内容服务器602可与客户端604通信,并且可交换点云数据和/或点云元数据。对于一些示例,为观看者渲染的点云数据可经历诸如从点云数据和/或点云元数据(例如,从点云服务器602流式传输到观看客户端604)的数据构造的过程以降低和/或增加细节级别。点云服务器602可以以空间捕获已经提供的分辨率来流式传输点云数据,或者对于一些实施方案,下采样以便符合例如带宽约束或观看距离容差。点云服务器602可动态地降低细节水平,在一些示例中,点云服务器602可(例如,也可)分割点云数据并且标识点云内的对象。在一些示例中,对应于所选择的对象的点云数据内的点可以用较低分辨率数据来替换。
客户端604(例如,具有HMD的客户端604)可经由比特流(例如,基于视频的点云压缩(V-PCC)编码比特流)向点云内容服务器602请求点云的部分和/或图块。例如,可基于HMD的位置和/或取向来检索点云的部分和/或图块。
点云由可使用指示每个点的位置的坐标以及一个或多个属性(诸如与每个点相关联的颜色、透明度、获取时间、激光的反射率或材料性质等)在3D空间中表示的点集组成。点云可通过多种方式捕获。例如,用于捕获点云的一种技术可涉及使用多个相机和深度传感器。光检测和测距(LiDAR)激光扫描仪也可用于捕获点云。为了使用点云逼真地重建对象和场景所需的点的数量大约可为几百万(或者甚至几十亿)。因此,有效表示和压缩对于存储和/或传输点云数据可能是必需的。类似于点云,一些沉浸式视频类型也可以能够表示视觉体积内容并且提供支持以例如6个自由度(6DoF)在观看位置和取向的有限范围内回放3D场景。
如在以上段落中基本上描述的,提出了至少两个3D点云压缩(PCC)标准:用于静态点云的基于几何的压缩标准和用于动态点云的基于视频的压缩标准。关于用于动态点云的基于视频的压缩标准,基于视觉体积视频的编码(V3C)是一个示例,并且基于V3C的实施方式的各个方面可描述如下。
图7示出了V3C比特流的结构的示例。如图7所示,比特流可包括V3C样本流701,该V3C样本流可包括一组V3C单元,每个V3C单元具有V3C单元报头和V3C单元有效载荷。V3C单元报头可描述V3C单元类型。例如,V3C单元类型可包括V3C_OVD、V3C_GVD和/或V3C_AVD。具有单元类型V3C_OVD、V3C_GVD和V3C_AVD的V3C单元可分别为占用视频数据单元、几何视频数据单元和属性视频数据单元。这些数据单元可表示重建视觉体积媒体内容所需的三个主要分量。占用、几何和属性V3C单元有效载荷可对应于可由适当的视频解码器解码的视频数据单元(例如,NAL单元)。V3C比特流还可包括一个或多个V3C_VPS单元,该一个或多个V3C_VPS单元可提供定义如可在V3C单元报头中使用的语法元素的参数集。V3C比特流可进一步包括图谱子比特流(例如,由V3C单元报头V3C_AD表示),该图谱子比特流可携带网络抽象层(NAL)样本流702,包括至少包括NAL单元报头和限定(或部分地限定)编码图谱的封装数据的单元。例如,如图7所示,NAL单元可包括对应于图谱图块组的图谱图块组层703的有效载荷(例如,原始字节序列有效载荷(RBSP)),该有效载荷可包括报头和描述补丁(即,与体积信息相关联的图谱内的区域)的数据。
图8是示出支持的V3C属性类型的示例的表。除了V3C单元类型之外,V3C属性单元报头可指定属性类型。V3C属性单元报头可指定索引,从而允许支持相同属性类型的多个实例。例如,支持的属性类型可包括纹理、材料、透明度、反射率或表面法线。
本文描述了V3C容器文件格式。
图9示出了如可根据ISOBMFF标准实现的V3C容器的结构的示例。一般而言,V3C容器可包含由图谱数据、几何数据、属性数据和占用数据进一步定义的体积视频数据900。更具体地,容器可包括V3C图谱轨道910,该V3C图谱轨道包含样本条目中的V3C参数集和图谱参数集以及样本中的图谱分量比特流NAL单元。V3C图谱轨道还可包括对其他轨道920、930和940的轨道引用,该其他轨道携带视频压缩的V3C单元(即,等于V3C_OVD、V3C_GVD和V3C_AVD的V3C单元类型)或V3C图谱图块轨道的有效载荷。
容器可包括一个或多个V3C视频分量轨道,其中样本包含用于几何数据的视频编码基本流的访问单元(即,类型等于V3C_GVD的V3C单元的有效载荷),如图9中在920处所示。容器可包括零个或更多个V3C视频分量轨道,其中样本包含用于属性数据的视频编码基本流的访问单元(即,等于V3C_AVD的类型的V3C单元的有效载荷),如图9中在930处所示。容器可以包括零个或更多个V3C视频分量轨道,其中样本包含用于占用数据的视频编码基本流的访问单元(即,等于V3C_OVD类型的V3C单元的有效载荷),如图9中在940处所示。
图10示出了具有多于一个图谱和多个图谱图块的多轨道容器的示例。当多个图谱存在于V3C媒体中时,这些图谱可携带在具有对相关联的V3C分量轨道的轨道引用的单独的图谱轨道中(即,携带相关联的占用图、几何和属性信息的轨道)。如果图谱数据包含两个或更多个图谱图块,则这些图谱图块可被存储在由图谱轨道引用的单独的图谱图块轨道中,具有从图谱图块轨道到携带用于由图谱图块轨道携带的图谱图块的相关联的V3C视频分量信息的轨道的附加轨道引用。例如,这可在图10中示出。如在1001处所示,V3C轨道“v3cb”可包括多个图谱。例如,该图谱可被存储在具有样本条目“v3a1”或“v3ag”的单独的V3C轨道1010和1020中。V3C轨道1010和1020可各自包括多个图谱图块轨道1011和1012,并且图谱图块轨道1011和1012中的每一者可分别包括V3C分量轨道1013和1014。
如在以上段落中基本上描述的,还可定义用于静态点云的基于几何的压缩(G-PCC)标准以支持3D点云的有效且可互操作的存储和传输。本文提出可根据此类基于几何的压缩标准来执行和/或实现的方法、装置和系统。
图11是示出根据G-PCC标准编码的比特流的结构的一个示例的示意图。如图11所示,G-PCC比特流1100可携带一组G-PCC单元,也被称为类型长度值(TLV)封装结构。如在1110处所示,(即,每个)G-PCC TLV单元可包括指示TLV类型1111和G-PCC TLV单元有效载荷1112的信息。虽然在图11中未描绘,但是GPCC TLV单元还可包括指示G-PCC TLV单元有效载荷长度的信息,该信息可例如以字节或比特来表达。G-PCC TLV单元有效载荷1112可包括给定类型的信息。例如,G-PCC TLV单元有效载荷可携带给定类型的信息,该信息可为例如序列参数集、几何参数集、几何数据单元、属性参数集、属性数据单元、图块库存、帧边界标志或默认属性数据单元。
图12是提供可根据例如MPEG标准定义的G-PCC TLV封装单元的示例性语法结构的表。如图12所示,TLV封装单元可使用第一数量的比特(或字节)(例如,8比特)来指示有效载荷类型。然后,TLV封装单元有效载荷长度可以第二数量的比特(例如,32比特)来表示。G-PCC TLV封装单元可包括具有所指示的有效载荷类型和有效载荷长度的有效载荷。
图13是提供TLV类型参数的可能值和可能值中的每一者的相应描述的表。如图13所示,TLV有效载荷类型可为序列参数集、几何参数集、几何数据单元、属性参数集、属性数据单元、图块库存、帧边界标志或默认属性数据单元。具有单元类型“2”和“4”的G-PCC TLV单元可分别为几何数据单元和属性数据单元。
图14是提供G-PCC TLV单元有效载荷的示例性语法结构的表。图14中示出的示例性语法可与例如MPEG-I部分9(ISO/IEC 23090-9)中定义的语法结构一致。几何和属性G-PCC单元的有效载荷信息可对应于媒体数据单元(例如,TLV单元),该媒体数据单元可由G-PCC解码器解码并且可在对应几何和属性参数集G-PCC单元中指定。
在一些方案中,G-PCC比特流高级语法(HLS)可支持几何和属性数据的切片和图块组的概念。可将帧划分为多个图块及切片。切片可被理解为可独立地编码或解码的点集。切片可包括例如一个几何数据单元以及零个或更多个属性数据单元。属性数据单元的信息可取决于相同切片内的几何数据单元的对应信息。在切片内,几何数据单元可能必须出现在相关联的属性单元之前。切片的数据单元可以是连续的。不一定需要必须指定帧内切片的排序。
在一些方案中,可通过公共图块标识符来标识切片组。与一些标准一致,可提供描述每个图块的边界框的图块库存。在边界框中图块可与另一图块重叠。每个切片可包含标识其属于的图块的索引。
本文描述了G-PCC容器文件格式。当G-PCC比特流在单个轨道中携带时,其可能需要G-PCC编码比特流由单个轨道声明表示。在一些情况下,G-PCC数据的单轨道封装可利用简单ISOBMFF封装,其中将G-PCC比特流存储在单个轨道中,而无需进一步处理。此类轨道中的每个样本包含一个或多个G-PCC分量。换句话说,每个样本可包括一个或多个TLV封装结构。
图15示出了根据其中提供G-PCC几何和属性信息的比特流被存储在单个轨道中的方案的样本结构的示例。如图15所示,携带G-PCC比特流的轨道的样本1500可包括提供参数集的第一TLV 1510、提供几何数据的第二TLV 1520、以及提供对应于第二TLV 1520的几何数据的属性数据的第三TLV 1530中的至少一者。
当一个或多个编码的G-PCC几何比特流和一个或多个编码的G-PCC属性数据存储在单独的轨道中时,轨道中的每个样本可包含携带单个G-PCC分量数据的至少一个TLV封装结构。
图16示出了如可根据一些标准(诸如MPEG-I部分18(ISO/IEC 23090-18))实现的多轨道ISOBMFF G-PCC容器的示例性结构多轨道G-PCC容器可包括被称为“框”的信息单元,在图16中分别由ftyp结构1610、moov结构1620和mdat结构1630示出,该信息单元可与ISO/IEC 14496-12中定义的基本媒体文件格式一致。ftyp框1610可提供例如在媒体文件中使用的文件类型描述信息和公共数据结构。moov框1620和mdat框1630可包括G-PCC轨道1621和1631,这些G-PCC轨道一起包含几何参数集、序列参数集和携带几何数据TLV单元的几何比特流样本。轨道还可包括对携带一个或多个G-PCC属性分量的有效载荷的其他轨道的轨道引用。moov框1620和mdat框1630可共同地包括G-PCC轨道1622和1632,这些G-PCC轨道可包含相应属性的属性参数集和携带属性数据TLV单元的属性比特流样本。
当在多个轨道中携带G-PCC比特流时,可使用可根据一些标准(诸如ISO/IEC14496-12)实现的轨道引用工具来链接G-PCC分量轨道。在一些情况下,可将一个或多个TrackReferenceTypeBox添加到G-PCC轨道的TrackBox内的TrackReferenceBox中。TrackReferenceTypeBox可包含指定G-PCC轨道引用的轨道的track_ID阵列。为了将G-PCC几何轨道链接到G-PCC属性轨道,G-PCC几何轨道中的TrackReferenceTypeBox的reference_type可标识相关联的属性轨道。与这些轨道引用类型相关联的四字符代码(4CC)可以是“gpca”,其可以指示一个或多个所引用的轨道包含G-PCC属性数据的编码比特流。
当G-PCC比特流的几何流包含多个图块时,可将每个图块或图块组封装于单独的轨道(其可被称为几何图块轨道)中。几何图块轨道可携带一个或多个几何图块的TLV单元,因此实现对这些图块的直接访问。相似地,包含多个图块的G-PCC比特流的一个或多个属性流可携带在多个属性图块轨道中。
一个或多个G-PCC图块的数据可携带在容器中的单独的几何和属性图块轨道中。为了支持用于G-PCC编码流的ISOBMFF容器中的部分访问,对应于点云场景内的空间区域的图块在定时元数据轨道(诸如具有Dynamic3DSpatialRegionSampleEntry的轨道)的样本中发信号通知,该定时元数据轨道可与一些MPEG标准一致进行定义或者在GPCCSpatialRegionInfoBox框中也可在一些MPEG标准中定义。这可使得播放器和流式传输客户端能够检索携带渲染点云场景内的某些空间区域或图块所需的信息的图块轨道集。
G-PCC基本轨道可携带TLV封装结构,该TLV封装结构仅包含SPS、GPS、APS和图块库存信息,例如,与ISO/IEC 23090-9一致。为了将G-PCC基本轨道链接到几何图块轨道,可使用4CC“gpbt”来定义具有新的轨道引用类型的轨道引用。新类型的轨道引用可用于将G-PCC基本轨道与几何图块轨道中的每一者链接。
每个几何图块轨道可使用轨道引用工具与携带相应图块或图块组的属性信息的G-PCC图块轨道的其他属性或多个属性链接,该轨道引用工具如可例如与ISO/IEC 14496-12一致来实现。这些轨道引用类型的4CC可为例如与MPEG标准定义的“gpca”一致。
可在另选项中对点云场景进行编码。在此类情况下,编码的G-PCC数据的另选项可由替代轨道机制来指示,如可与ISO/IEC 14496-12一致来实现。例如,TrackHeaderBox的alternate_group字段可用于指示编码的G-PCC的另选项。当每个另选G-PCC比特流被存储在单个轨道中时,包含编码的G-PCC比特流的G-PCC轨道(其可为彼此的替代项)可在其TrackHeaderBox具有相同的alternate_group值。当每个另选G-PCC比特流被存储在多轨道容器中时,即,每个另选G-PCC比特流的不同分量比特流被携带在单独的轨道中时,另选G-PCC比特流的G-PCC几何轨道可在其TrackHeaderBox具有相同的alternate_group值。
本文描述了用于MPEG媒体传输(MMT)的方法、过程、装置和系统。一般而言,可使用一组工具来实现高级媒体传输和递送服务。这些工具可分布在三个不同的功能区域:媒体处理单元(MPU)格式、递送和信令。即使此类工具可被设计成有效地一起使用,它们也可以独立地使用。
媒体处理单元(MPU)功能区域可定义媒体内容的逻辑结构、待由MMT实体处理的数据单元的包和格式、以及它们利用例如ISO基本媒体文件格式的实例化。该包可指定包括媒体内容的分量以及它们之间的关系以提供用于高级递送的必要信息。数据的格式可被定义为封装用于存储或递送的编码媒体数据,并且允许在待存储的数据和待递送的数据之间容易地转换。
递送功能区域可定义被称为MMT协议(MMTP)的应用层传输协议和有效载荷格式。应用层传输协议可提供用于多媒体数据的递送的增强特征,诸如在单个分组流中的流式传输和下载递送的混合使用的多路复用和支持。有效载荷格式可使得能够携带对媒体类型和编码方法不可知的编码媒体数据。
信令功能区域可定义信令消息的格式以管理媒体数据的递送和消费。用于消费管理的信令消息可用于发信号通知包的结构,并且用于递送管理的信令消息可用于发信号通知有效载荷格式和协议配置的结构。
MMT协议可支持通过单个MMTP分组流对来自各种资产的不同媒体数据(诸如媒体处理单元(MPU))的多路复用。它可按照消费顺序向接收实体递送多种类型的数据,以帮助不同类型的媒体数据之间的同步,而不引入大的延迟或不需要大的缓冲器。MMTP还可支持单个分组流内的媒体数据和信令消息的多路复用。
在一些实施方案中,MMTP有效载荷可携带在仅在一个MMTP分组中。分段和聚合可由有效载荷格式提供,并且可不由MMTP本身提供。MMTP可定义两种分组化模式:通用文件递送(GFD)模式和MPU模式。GFD模式可使用数据单元在传输对象内的字节位置来标识数据单元。MPU模式可使用数据单元的角色和MPU内部的媒体位置来标识数据单元。MMT协议可支持在单个递送会话中具有两种不同模式的分组的混合使用。MMT分组的单个分组流可任意地由具有两种类型的有效载荷组成。
图17描绘了其中执行MMT信令的系统的示例性端到端架构。该架构可至少包括但不限于包提供者1710、一个或多个资产提供者1721和1722、MMT发送实体1730和MMT接收实体1740。如图17所示,MMT发送实体1730可从包提供者1710接收包。MMT发送实体1730可负责将包作为MMTP分组流发送到MMT接收实体1740。可要求MMT发送实体1730基于由包提供者1710提供的包的呈现信息从内容提供者收集媒体内容。媒体内容可作为被分段成一系列封装的MMT处理单元的资产来提供,该一系列封装的MMT处理单元形成MMTP分组流。因此,MMT发送实体1730可从资产提供者1721和/或1722中的一者或多者收集资产信息。
信令消息可用于管理包的递送和消费。可将MMT发送实体1730和MMT接收实体1740之间的接口以及它们的操作标准化。MMT协议(MMTP)可由MMT接收实体1740使用以基于packet_id和有效载荷类型来接收和解复用流式传输的媒体。由MMT接收实体1740执行的解封装过程可取决于所携带的有效载荷的类型并且可被单独地处理,例如,在图17中描绘的场景中。
本文描述了MMT数据模型的各个方面。MMT协议可提供编码媒体数据的流式传输递送和下载递送两者。对于流式传输递送,MMT协议可假定包括MPU、资产和包的特定数据模型。MMT协议可通过使用信令消息指示MPU、资产和包之间的结构关系来在递送期间保存数据模型。
编码媒体数据以及其相关元数据的收集可构建包。该包可从一个或多个MMT发送实体递送到一个或多个MMT接收实体。该包的一段或多段编码媒体数据(诸如一段音频或视频内容)可构成资产。
资产可与标识符相关联,该标识符对于其实际物理位置或提供其的服务提供商是不可知的,使得资产可被全球唯一地标识。具有不同标识符的资产可能是不可互换的。例如,两个不同资产可携带相同内容的两个不同编码,但是它们可能是不可互换的。MMT可不指定特定标识机制,但是可允许为此目的使用URI或UUID。每个资产可具有其自己的时间线,该时间线可具有与由该包创建的整个呈现的时间长度不同的时间长度。
每个MPU可构成资产的非重叠段,即相同资产的两个连续MPU可不包含相同媒体样本。每个MPU可由MMT接收实体的呈现引擎独立地消费。
图18是根据一些实施方案的包结构的图示。如图18所示,包1800可为逻辑实体。包1800可包含一个或多个呈现信息文档1810、一个或多个资产1820、以及针对每个资产的相关联的资产递送特性(ADC)。资产1820中的每个资产可包含一个或多个MPU 1830。包的处理可在每个MPU的基础上执行,并且每个MPU可共享相同资产ID。
根据一些实施方案,本文进一步描述了MMT资产。资产可为用于构建多媒体呈现的任何多媒体数据。资产可为共享用于携带编码媒体数据的相同资产ID的MPU的逻辑分组。资产的编码媒体数据可为定时数据或非定时数据。定时数据可包括具有固有时间线的编码媒体数据,并且可能需要在指定时间同步解码和呈现数据单元。非定时数据可包括不具有用于解码和呈现其媒体内容的固有时间线的任何其他类型的数据。非定时数据的每个项目的解码时间和呈现时间可能不一定与相同非定时数据的其他项目的解码时间和呈现时间相关。例如,这些可通过用户交互或呈现信息来确定。
携带定时媒体数据的相同资产的两个MPU在它们的呈现时间上可能没有重叠。由呈现信息引用的任何类型的数据可被认为是资产。可被认为是独立资产的媒体数据类型的示例可包括音频数据、视频数据或网页数据。
本文描述了媒体处理单元(MPU)的特征和特性。媒体处理单元(MPU)可为媒体数据项,该媒体数据项可由MMT实体处理并且由呈现引擎独立于其他MPU消费。
由MMT实体对MPU的处理可包括封装/解封装和分组化/解分组化。MPU可包括指示用于媒体感知分组化的MFU的边界的MMT提示轨道。MPU的消费可包括媒体处理(例如,编码/解码)和呈现。
出于分组化目的,可将MPU分段成数据单元,该数据单元可小于访问单元(AU)。MPU的语法和语义可不依赖于MPU中携带的媒体数据的类型。单个资产的MPU可具有定时媒体或非定时媒体。MPU可包含根据的若干标准中的一者或多者(诸如MPEG-4AVC(ISO/IEC 14496-10)或MPEG-2TS)格式化的数据的一部分。
单个MPU可包含整数个AU或非定时数据。对于定时数据,单个AU可不被分段为多个MPU。对于非定时数据,单个MPU可包含待由呈现引擎消费的一个或多个非定时数据项。MPU可由相关联的资产标识(asset_id)和/或序列号标识。
本文描述了MMTP有效载荷的各个方面。MMTP有效载荷可为用于经由MMT协议将媒体数据(诸如MPU、通用对象和用于包的消费的其他信息)分组化并携带媒体数据的通用有效载荷。适当的MMTP有效载荷格式可用于将MPU、通用对象和信令消息分组化。
MMTP有效载荷可携带完整的MPU或MPU的片段、信令消息、通用对象、AL-FEC方案的修复符号或其他数据单元或结构。有效载荷的类型可由MMT协议分组报头中的类型字段指示。对于每个有效载荷类型,可定义用于递送的一个或多个数据单元以及(另外地或另选地)类型特定有效载荷报头。例如,当MMTP有效载荷携带MPU片段时,MPU(例如,MFU)的片段可被认为是单个数据单元。MMT协议可将具有相同数据类型的多个数据单元聚合到单个MMTP有效载荷中。它还可将单个数据单元分段成多个MMTP分组。
MFU可为定时数据的样本或子样本或者非定时数据的项目。MFU可包含可小于用于定时数据的AU的媒体数据,并且所包含的媒体数据可由媒体解码器处理。MFU可包含MFU报头,该MFU报头包含关于所携带的媒体数据的边界的信息。MFU可包含用于唯一地区分MPU内部的MFU的标识符。它还可提供相对于相同MPU内的其他MFU的依赖性和优先级信息。
MMTP有效载荷可包括有效载荷报头和有效载荷数据。一些数据类型可允许分段和聚合,在这种情况下,可将单个数据单元分割成多个片段或者可在单个MMTP分组中递送一组数据单元。
近来,对新的且新兴的媒体类型(诸如虚拟现实(VR)和沉浸式视频和3D图形)产生了浓厚的兴趣。高质量3D点云和沉浸式媒体提供沉浸式媒体的高级表示,从而实现与虚拟世界的新形式的交互和通信。表示这些新的媒体类型所需的大量信息可能需要有效的编码算法。用于基于视频的点云压缩的新标准当前正在开发中,并且将形成用于基于视觉体积视频的编码(V3C)的基础。用于基于几何的点云压缩的标准也正在开发中,并且可定义用于压缩静态点云的比特流。与此同时,定义V3C媒体的携带和基于几何的点云数据的标准也在开发中。
虽然围绕V3C携带和点云标准的讨论可提出V3C数据和点云数据的存储和信令方面,但是此类讨论可能是有限的,因为它们可能仅涉及例如用于基于MPEG-DASH标准通过HTTP进行动态自适应流式传输的信令。用于实现不同流式传输和递送应用程序的另一重要候选标准是MPEG媒体传输(MMT)。然而,MMT标准当前可能不提供用于V3C媒体的任何信令机制。因此,需要使得流式传输客户端能够识别V3C流以及其分量子流的新信令元素。除此之外,还可能需要发信号通知与V3C分量相关联的不同种类的元数据,以使得流式传输客户端能够选择V3C内容或其分量的一个或多个最佳版本,其能够支持或能够在给定特定网络约束或用户的视口的情况下在任何给定时间递送。
此外,可以设想,实际点云应用程序将需要通过网络流式传输点云数据。取决于如何生成内容,此类应用程序可执行点云内容的实况或按需流式传输。由于表示点云所需的大量信息,此类应用程序可能需要支持自适应流式传输技术以避免使网络过载并且在任何给定时刻提供例如关于该时刻的网络容量的最佳观看体验。另外地,点云内容的分量可被划分为多个图块。一个或多个流式传输客户端可(例如,仅)想要(例如,确定或选择)例如基于带宽可用性来流式传输几何分量的特定图块部分(例如,而不是整个点云数据)。G-PCC分量图块数据可被封装到不同G-PCC图块轨道中。(例如,每个)图块轨道可表示一组G-PCC分量图块或一组所有G-PCC分量图块。
当前,MMT不提供用于点云媒体(包括基于MPEG G-PCC标准的点云流)的信令机制。因此,定义使得流式传输客户端能够标识点云流以及其分量子流的新信令元素是重要的。还需要发信号通知与点云分量相关联的不同种类的元数据,以使得流式传输客户端能够选择点云或其能够支持的分量的一个或多个最佳版本。
本文所述的解决方案可提供新的信令元素,该新的信令元素使得MMT流式传输客户端能够标识与V3C和GPCC媒体内容相关联的不同分量和元数据,并且选择客户端需要在流式传输会话期间的任何时间点从内容服务器检索的媒体数据。另外地,本文所述的解决方案可提供用于封装用于MMT流式传输的G-PCC数据和用于支持通过MMT递送G-PCC数据的必要MMT信令消息的各种方法。
本文进一步描述了V3C内容的MMT递送。V3C内容可在流式传输过程期间辅助MMT发送实体。例如,呈现信息可包含用于描述符合V3C的MPU以使得能够由应用程序进行适当的处理的信息。
播放器可接收关于当前观看方向、当前视口、以及运行该播放器的设备的显示器的特性的信息。基于该信息,依赖于视图的流式传输可用于减少流式传输会话中所需的带宽。在MMT的情况下,可通过一个或多个方法来实现依赖于视图的流式传输。
在一些基于客户端的流式传输方法中,MMT接收实体可由播放器指示以选择携带V3C信息的资产的子集,该V3C信息是呈现落入当前视口内(或与当前视口相交)的V3C内容的部分所需要的。MMT会话控制过程可用于从MMT发送实体请求所选择的资产集。播放器可使用来自服务器的V3C应用程序特定信令消息来选择待切换到的适当的资产,以用于依赖于视图的流式传输。
在一些基于服务器的方法中,MMT接收实体可依赖于MMT发送实体来选择提供V3C信息的资产的正确子集,以用于渲染覆盖当前视口的V3C内容的部分。接收实体可使用V3C应用程序特定信令来向发送实体发送关于当前视口的信息。
本文描述了用于将V3C容器映射到MMT资产的方法和过程。为了支持使用MMT的V3C内容的递送,多轨道ISOBMFF V3C容器内的每个轨道可被封装为单独的资产。资产的数量因此可等于容器内的轨道的数量。属于相同V3C分量的资产可被逻辑地分组为资产组。可向接收实体发信号通知这些资产组,以使得流式传输客户端能够做出关于请求哪些资产组的决定。本文描述了V3C特定应用程序MMT信令。
出于使用MMT流式传输V3C编码数据的目的,定义了V3C特定MMT消息得数量。例如,V3C应用程序特定信令可包括发送:群组消息,诸如V3CAssetGroupMessage;选择消息,诸如V3CSelectionMessage;或者改变视图反馈消息,诸如V3CViewChangeFeedbackMessage。在一些实施方案中,这些消息可包括应用程序标识符,例如,具有统一资源名称(URN)“urn:mpeg:mmt:app:v3c:2020”,该应用程序标识符可使得发送实体能够将信令与V3C应用程序相关联。
图19是提供定义的应用程序消息类型的列表的表。在所提出的MMT V3C信令中,可定义一组应用程序消息类型,并且该组的每个消息类型可与应用程序消息名称相关联,如图19所示。通过V3CAssetGroupMessage,发送实体可向客户端通知在服务器处可用的资产集,并且提供正在被流式传输到接收实体的那些资产的列表。在V3CSelectionMessage中,客户端可请求由发送实体向接收实体流式传输该资产集。在V3CViewChangeFeedbackMessage中,客户端可在基于服务器的依赖于视图的流式传输会话中向服务器发送用户的当前观看方向和视口的指示。
当经由MMT发送V3C内容时,在一些实施方案中,V3CAssetGroupMessage可为强制性的,并且可向接收实体提供在服务器处与V3C内容相关联的可用资产的列表。该消息还可用于向接收实体通知这些资产中的哪些资产当前正在被流式传输到接收实体。从该列表中,在接收实体上运行的客户端可使用V3CSelectionMessage消息来请求这些V3C资产的唯一子集。
对于通过MMT的V3C内容的依赖于视图的递送,客户端可使用V3CViewChangeFeedbackMessage消息来向服务器发送其当前视口信息,之后服务器可选择并向客户端递送对应于该视口的资产。V3CAssetGroupMessage也可用于更新关于所选择的资产的子集的客户端。图20是提供V3C资产描述符的语法结构的示例的表。资产描述符可用于向接收实体和消费应用程序通知关于携带V3C内容的资产的内容。本文提供了V3C资产描述符的语义。描述符标签(例如,“descriptor_tag”)可指示描述符的类型。描述符长度(例如,“descriptor_length”)可指定从该字段之后的下一字节计数到描述符的最后一个字节的以字节计的长度。数据类型(例如,“data_type”)可指示该资产中存在的V3C数据的类型。该字段的值可在图22中进一步示出,在下面段落中详细介绍和描述。依赖性标志(例如,“dependency_flag”)可指示V3C资产是否依赖于另一V3C资产中的数据来进行解码。为零的值可指示该V3C分量资产组数据可被独立地解码。为一的值可指示该V3C资产依赖于其他V3C资产数据来进行解码。替代组标志(例如,“alternate_group_flag”)可指示该V3C资产是否具有替代版本。为零的值可指示该V3C组件资产不具有任何替代资产。为一的值可指示该V3C资产具有一个或多个替代项。替代组ID(例如,“alternate_group_id”)可指示标识替代资产组的ID。相同V3C资产的不同编码版本对于该字段可具有相同值。依赖资产ID(例如,“dep_asset_id”)可指示该资产的解码所依赖的资产ID的值。在一些情况下,该值可仅在dependency_flag被设置为1时存在。例如,V3C视频分量资产可针对该字段使用对应V3C图谱分量资产ID。“num_tiles”可指示在该资产中携带的图块的数量。“tile_id”可指示用于特定图谱图块的唯一标识符。
图21是示出V3CAssetGroupMessage的示例性语法的表。与图21的表一致,V3CAssetGroupMessage的语义可描述如下。“message_id”可指示V3C应用程序消息的标识符。“version”可指示V3C应用程序消息的版本。“length”可指示V3C应用程序消息的以字节为单位的长度,从下一个字段的开始计数到消息的最后一个字节。该字段的值可不等于零。应用程序标识符(例如,“application_identifier”)可将应用程序标识符指示为URN,该URN将应用程序唯一地标识为消费该消息的内容。“app_message_type”可指示应用程序特定消息类型,如上文关于图19详细描述的。“num_v3c_asset_groups”可指示V3C资产组的数量,其中每个组包含与V3C分量相关联的资产。“asset_group_id”可指示与V3C分量相关联的资产组的标识符。“num_assets”指示与V3C分量相关联的资产组内的资产的数量。“start_time”可指示V3C分量的呈现时间,从该时间开始,该消息中列出的资产的状态是适用的。“data_type”可指示在该资产组中存在的V3C数据的类型。可在图22的上下文中描述此字段的值的示例,在接下来的段落中详细介绍和描述。“pending_flag”可指示是否所有数据分量都准备好为资产组渲染。例如,当被设置为“1”时,它可指示数据已准备好,否则标志可为“0”。“asset_id”可提供资产的资产标识符。“state_flag”可指示资产的递送状态。当被设置为一(“1”)时,这可指示发送实体正在主动地向接收实体发送资产。当被设置为零(“0”)时,这可指示发送实体没有主动地向接收实体发送资产。“sending_time_flag”可指示用于包含资产流的第一MPU的第一MMTP分组的“sending_time”的存在。默认值可为“0”。“alternate_group_flag”可指示该V3C分量资产是否具有替代版本。为零的值可指示该V3C资产不具有任何替代资产。为一的值可指示该V3C资产具有替代资产。依赖性标志(例如,“dependency_flag”)可指示该V3C分量资产是否依赖于其他V3C资产中的数据来进行解码。为零的值可指示该V3C分量资产组数据可被独立地解码。为一的值可指示该V3C资产依赖于其他V3C资产数据来进行解码。发送时间(例如,“sending_time”)可指示用于包含资产流的第一MPU的第一MMTP分组的发送时间。使用该信息,客户端可为新的资产流准备新的分组处理流水线。“alternate_group_id”可指示替代V3C分量资产的标识符。相同V3C资产的不同编码版本对于该字段可具有相同值。“dep_asset_group_id”可指示该资产的解码所依赖的资产的ID。在一些情况下,该值可例如仅在dependency_flag被设置为1时存在。例如,V3C属性分量资产可针对该字段使用对应V3C图谱分量资产ID。“all_tiles_present_flag”可指示图谱分量的所有图块是否是资产的一部分。为一的值可指示用于所有图谱图块的数据在资产中可用。为零的值可指示用于图谱图块的子集的数据在资产中可用。“num_tiles”可指示在该资产中携带的图块的数量。“tile_id”可提供用于特定图谱图块的唯一标识符。
图22是示出如可在Data_type字段中使用的V3C数据类型值的示例的表。如图22所示,Data_type字段的值可指示所有V3C分量数据、图谱分量数据、占用分量数据、几何分量数据、属性分量数据、编解码器初始化数据、动态体积定时元数据信息或视口定时元数据信息。
图23是示出V3CSelectionMessage的示例性语法的表。与图23的表一致,V3CSelectionMessage的语义可描述如下。“message_id”可指示V3C应用程序消息的标识符。“version”可指示V3C应用程序消息的版本。“length”可指示V3C应用程序消息的以字节为单位的长度,例如,从下一个字段的开始计数到消息的最后一个字节。该字段的值可不等于0。“application_identifier”可将应用程序标识符指示为URN,该URN将应用程序唯一地标识为消费该消息的内容。“app_message_type”可指示应用程序特定消息类型,如在上面段落中关于图19详细描述的。“num_selected_asset_groups”可指示存在接收实体的相关联的状态改变请求的资产组的数量。“asset_group_id”可指示与V3C内容相关联的资产组的标识符。“switching_mode”可指示用于如接收实体所请求的资产选择的切换模式。可例如与下文介绍和描述图23的段落一致地定义“switching_mode”的值的列表。“num_assets”可指示根据指定的切换模式为状态改变发信号通知的资产的数量。“asset_id”可指示用于根据所指定的切换模式的状态改变的资产的标识符。
图24是提供switching_mode字段的定义的表。如图24所示,“switching_mode”字段可指示用于资产选择的切换模式。例如,如果切换模式被设置为刷新,则对于在V3CSelectionMessage中列出的每个资产,每个资产的state_flag将被设置为“1”,而V3CSelectionMessage中未列出的所有资产的state_flag将被设置为“0”。如果切换模式被设置为切换,则对于在V3CSelectionMessage中列出的每个资产,每个资产的state_flag将改变,例如,如果最初是“0”则改变为“1”,并且如果最初是“1”则改变为“0”,而在V3CSelectionMessage中未列出的所有资产的state_flag将不改变。如果切换模式被设置为发送所有,则对于在V3CSelectionMessage中指定的资产组的所有资产,每个资产的state_flag将被设置为“1”。
图25是示出V3CViewChangeFeedbackMessage的示例性语法的表。与图25的表一致,V3CViewChangeFeedbackMessage的语义可描述如下。“message_id”可指示V3C应用程序消息的标识符。“version”可指示V3C应用程序消息的版本。“length”可指示V3C应用程序消息的以字节为单位的长度,从下一个字段的开始计数到消息的最后一个字节。该字段的值不应等于0。“application_identifier”可将应用程序标识符指示为URN,该URN将应用程序唯一地标识为消费该消息的内容。“app_message_type”可指示应用程序特定消息类型,如在上面段落中关于图19详细描述的。“vp_pos_x”、“vp_pos_y”和“vp_pos_z”可分别指示全局参考坐标系中的以米为单位的视口的位置的x、y和z坐标。该值可例如以2-16米为单位来提供。“vp_quat_x”、“vp_quat_y”和“vp_quat_z”可使用四元数表示分别指示视口区域的旋转的x、y和z分量。该值可为-1至1范围内的浮点值,包括端值在内。这些值可指定x、y和z分量(即,qX、qY和qZ),用于应用于使用四元数表示将相机的全局坐标轴转换成局部坐标轴的旋转。四元数qW的第四分量可根据等式1计算:
点(w,x,y,z)可表示围绕由向量(x,y,z)所指向的轴旋转角度,该角度可根据等式2确定:
“clipping_near_plane”和“clipping_far_plane”可基于以米为单位的视口的近裁剪平面和远裁剪平面来指示近深度和远深度(或近距离和远距离)。“horizontal_fov”可指定对应于视口区域的水平尺寸的经度范围,例如,以弧度为单位。该值可在0至2π的范围内。“vertical_fov”可指定对应于视口区域的垂直尺寸的纬度范围,例如,以弧度为单位。该值可在0至π的范围内。
本文描述了与流式传输客户端行为有关的方法和装置。MMT客户端可由应用程序特定信令消息中提供的信息来引导。以下是使用本文档中呈现的MMT信令来流式传输V3C内容的客户端行为的示例。
在一些方法中,MMT发送实体可向感兴趣的客户端发送“V3CAssetGroupMessage”应用程序消息。接收客户端可解析“V3CAssetGroupMessage”应用程序消息,并且标识存在于MMT内容发送实体处的V3C媒体资产。为了标识可用的V3C媒体内容,流式传输客户端可检查“V3CAssetGroupMessage”应用程序消息中设置为“urn:mpeg:mmt:app:v3c:2020”的“application_identifier”字段。V3C内容中可用的V3C资产中的全部或一些资产可通过检查在“V3CAssetGroupMessage”应用程序消息中发信号通知的资产ID来标识。客户端可基于用户的当前视口来挑选待流式传输的所需资产。MMT客户端可向发送实体发送“V3CSelectionMessage”应用程序消息,以从可用的V3C资产的列表中请求其感兴趣的V3C资产。MMT发送实体可形成具有MTP的MMTP分组,并且向客户端发送MTTP分组。
在一些方法中,MMT客户端可接收MMTP分组并且将MPU或MFU进行解分组化。MPU/MFU可包含定时或非定时V3C媒体内容。当MMT客户端接收到具有被设置为“0x05”的资产组“data_type”的MMTP分组时,该V3C资产数据表示初始化信息(诸如VPS、ASPS、AAPS、AFPS和SEI消息)。当MMT客户端接收到具有被设置为“0x06”的资产组“data_type”的MMTP分组时,该V3C资产数据可表示3D空间区域定时元数据信息。该资产中的信息可用于V3C内容的部分访问。当MMT客户端接收到具有被设置为“0x07”的资产组“data_type”的MMTP分组时,该V3C资产数据可指示初始或推荐的视口信息。该信息可用于实现基于不同标准的自动视口改变。MMT客户端可例如基于用户的视口或推荐的视口以及对应的一个或多个3D空间区域来选择所需的V3C资产。MMT客户端可向请求感兴趣的V3C资产的发送实体发送“V3CSelectionMessage”应用程序消息。
在一些方法中,当用户的视口在基于客户端的流式传输方法中改变时,MMT客户端可使用“V3CSelectionMessage”应用程序消息来请求不同V3C资产集。当用户的视口在基于服务器的流式传输方法中改变时,MMT客户端可向发送实体发送“V3CViewChangeFeedbackMessage”消息以发信号通知用户的当前视口。在接收到该消息时,MMT发送实体基于用户的新的视口信息来选择新的V3C资产集,并且将“V3CAssetGroupMessage”应用程序消息与对应的V3C资产一起发送到MMT客户端。MMT发送实体可将V3C资产数据作为MMTP分组进行流式传输。MMT客户端可开始接收用于所有那些所请求的V3C资产的MMTP分组并且从MMTP有效载荷提取MPU和MFU。MPU和MFU可直接包含媒体样本或媒体段。MMT客户端可开始解析媒体段容器(例如,ISOBMFF),以提取基本流信息并且根据V3C标准构造V3C比特流。可将比特流传递到V3C解码器。当MMTP有效载荷包含V3C媒体样本时,根据V3C比特流标准提取并构造基本流数据。可将比特流传递到V3C解码器。
本文描述了涉及在MMT中封装和发信号通知G-PCC数据的实施方案。不同于传统媒体内容,G-PCC媒体内容可包括多个分量,诸如几何和属性。可将每个分量单独地编码为G-PCC比特流的子流。可使用GPCC编码器将分量(诸如几何和属性)编码。然而,这些子流可能需要连同附加元数据一起被集体地解码,以便渲染点云。
可使用MMT通过网络递送G-PCC编码内容。当使用多个轨道发信号通知ISOBMFF内的G-PCC分量时,可提出将每个轨道封装到单独的资产中,该单独的资产然后可以通常的方式被分组化为MMTP分组。为了使服务器和客户端能够将一组多个资产标识到某些G-PCC分量,还提出了G-PCC定义的应用程序消息。
G-PCC媒体内容可包括一个或多个(例如,多个)分量,诸如几何和属性。可将(例如,每个)分量(例如,单独地)编码为G-PCC比特流的子流。可使用GPCC编码器将分量(诸如几何和属性)编码。子流可连同附加元数据一起被集体地解码,例如以便渲染点云。
可在MMT中封装和发信号通知G-PCC数据。可使用MMT通过网络递送G-PCC编码内容。可使用各种封装方法(例如,如本文所述的)来封装G-PCC数据以用于MMT流式传输。MMT信令消息可(例如,被生成和传输以)支持通过MMT递送G-PCC数据。
可使用多个轨道来发信号通知ISOBMFF内的G-PCC分量。可将(例如,多个轨道中的)(例如,每个)轨道封装到单独的资产中,该单独的资产可(例如,然后)被分组化为MMTP分组。G-PCC定义的应用程序消息可(例如,也)被配置/部署,例如,用于服务器和客户端以将一组多个资产标识到某个G-PCC分量或为该G-PCC分量标识一组多个资产标识。
在一些示例中(例如,为了支持使用MMT的G-PCC内容的递送),可将多轨道ISOBMFFG-PCC容器内的(例如,每个)轨道封装到单独的资产中。资产的数量可等于多轨道ISOBMFFG-PCC容器内的轨道的数量。在一些示例中,可将对应于(例如,单个)G-PCC分量的多个资产分组并且作为消息(例如,“GPCCAssetGroupMessage”应用程序消息)中的资产组来发信号通知。另选分量轨道可(例如,也)暴露于消息中(例如,使用“GPCCAssetGroupMessage”消息),例如以实现(例如,有效)服务器和客户端选择决策(例如,无需首先解析MMTP分组内的ISOBMFF文件)。
MMT可定义应用程序特定信令消息,该应用程序特定信令消息可支持(例如,允许)应用程序特定信息的递送。G-PCC特定信令消息可被定义(例如,配置)为使用MMT来流式传输G-PCC编码数据。G-PCC特定信令消息可具有应用程序标识符,该应用程序标识符具有统一资源名称(URN)值(例如,URN值“urn:mpeg:mmt:app:gpcc:2020”)。
图26是提供G-PCC资产描述符的语法结构的示例的表。资产描述符可用于向接收实体和消费应用程序通知关于携带G-PCC内容的资产的内容。本文提供了G-PCC资产描述符的语义。“descriptor_tag”可指示描述符的类型。“descriptor_length”可指定从该字段之后的下一字节计数到描述符的最后一个字节的以字节计的长度。“data_type”可指示在该资产中存在的G-PCC数据的类型。该字段的值可在图29中进一步示出,在下面段落中详细介绍和描述。“dependency_flag”可指示G-PCC资产是否依赖于另一G-PCC资产中的数据来进行解码。为零的值可指示该G-PCC分量资产组数据可被独立地解码。为一的值可指示该G-PCC资产依赖于其他G-PCC资产数据来进行解码。“alternate_group_flag”可指示该G-PCC分量资产是否具有替代版本。为零的值可指示该G-PCC分量资产不具有任何替代资产。为一的值可指示该G-PCC资产具有一个或多个替代项。“alternate_group_id”可指示标识替代资产组的ID。相同G-PCC资产的不同编码版本对于该字段可具有相同值。“dep_asset_id”可指示该资产的解码所依赖的资产ID的值。在一些情况下,该值可仅在dependency_flag被设置为1时存在。例如,G-PCC属性分量资产可针对该字段使用对应的G-PCC几何分量资产ID。“num_tiles”可指示在该资产中携带的图块的数量。“tile_id”指示图块库存中特定图块的唯一标识符。当dynamic_tile_id_flag被设置为值0时,tile_id可表示图块库存中存在的图块id值中的一者。
MMT G-PCC信令可包括例如以下组的(例如,定义的)应用程序消息类型中的一者或多者:群组消息(诸如GPCCAssetGroupMessage)、选择反馈消息(诸如GPCCSelectionMessageFeedback)和/或改变视图反馈消息(诸如GPCCViewChangeFeedback)。
图27是示出定义的G-PCC应用程序消息类型的示例的表。如图27所示,应用程序消息类型可指示消息是GPCCAssetGroupMessage、GPCCSelectionMessageFeedback消息或GPCCViewChangeFeedback消息。在GPCCAssetGroupMessage消息类型的示例中,发送实体可发送群组消息(例如,GPCCAssetGroupMessage消息),以向客户端通知在服务器处可用的资产集和/或可(例如,正在)被流式传输到接收实体的资产的列表。在选择反馈消息类型(例如,GPCCSelectionMessageFeedback消息类型)的示例中,客户端可使用选择反馈消息来请求待由发送实体向接收实体流式传输的资产集。在改变视图反馈消息(例如,GPCCViewChangeFeedback消息)的示例中,客户端可使用视图改变反馈消息来向服务器发送用户的当前观看空间的指示。
群组消息(例如,GPCCAssetGroupMessage消息)可用于经由MMT发送G-PCC编码内容。群组消息(例如,GPCCAssetGroupMessage消息)可向客户端提供在服务器处可用的G-PCC数据类型资产的列表,和/或可向客户端通知哪些资产可(例如,当前正在)被流式传输到接收实体。客户端可(例如,从列表)请求G-PCC数据类型资产的唯一子集。例如,可使用GPCCSelectionFeedback消息来做出请求。
客户端可(例如,对于通过MMT的G-PCC内容的依赖于视图的递送)使用GPCCViewChangeFeedback消息,例如向服务器发送当前观看空间(例如,平截头体)信息。服务器可选择对应于观看空间的资产并将其递送给客户端。GPCCAssetGroupMessage可(例如,也)被更新并被发送到客户端。表4提供了定义的G-PCC应用程序消息类型的示例。
图28是示出群组消息(诸如GPCCAssetGroupMessage)的示例性语法的表。与图28的表一致,GPCCAssetGroupMessage的语义可如下。“message_id”可指示G-PCC应用程序消息的标识符。“version”可指示G-PCC应用程序消息的版本。“length”可指示G-PCC应用程序消息的长度(例如,以字节为单位,从下一个字段的开始计数到消息的最后一个字节)。长度字段的值可不等于零(0)。应用程序标识符(例如,“application_identifier”)可将应用程序标识符指示为URN,该URN将应用程序的类型(例如,唯一地)例如标识为消费消息的内容。应用程序消息类型(例如,“app_message_type”)可定义应用程序特定消息类型(例如,如表4中的示例所提供的)。应用程序消息类型字段的长度可为例如8比特。G-PCC资产组的数量(例如,“num_gpcc_asset_groups”)可指示G-PCC资产组的数量。(例如,每个)资产组可包括与G-PCC分量相关联的资产。资产组标识符(例如,“asset_group_id”)可指示与G-PCC分量相关联的资产组的标识符。资产数量(例如,“num_assets”)可指示与G-PCC分量相关联的资产组内的资产的数量。开始时间(例如,“start_time”)可指示G-PCC分量的呈现时间,从该呈现时间开始,该消息中列出的资产的状态可以是适用的。数据类型(例如,“data_type”)可指示在资产组中存在的G-PCC点云数据的类型,在下面段落中关于图29进一步描述。未决标志(例如,“pending_flag”)可指示例如(例如,所有)数据分量是否准备好为资产组渲染。被设置为“1”的未决标志可指示数据已准备好。被设置为零(“0”)的未决标志可指示数据未准备好。依赖性标志(例如,“dependency_flag”)可指示G-PCC分量资产组是否依赖于其他G-PCC分量资产组数据来进行解码。为零(“0”)的值可指示G-PCC分量资产组数据可被独立地解码。为一(“1”)的值可指示G-PCC分量资产组依赖于其他G-PCC分量资产组数据来进行解码。依赖资产组ID(例如,“dep_asset_group_id”)可指示资产组内容解码所依赖的资产组ID的值。例如,(例如,仅)如果/当dependency_flag被设置为1时,该值可存在。例如,G-PCC属性分量资产组可将对应的G-PCC几何分量资产组ID用于依赖资产组ID字段。资产ID(例如,“asset_id”)可提供资产的资产标识符。替代资产组标志(例如,“alternate_asset_group_flag”)可指示G-PCC分量资产是否具有替代版本。为零(“0”)的值可指示G-PCC分量资产不具有替代版本。为一(“1”)的值可指示G-PCC分量资产具有替代版本。例如,如果/当相同G-PCC分量和/或资产的不同编码版本在比特流中可用时,替代组标志字段的值可被设置为一(“1”)。例如,如果/当相同G-PCC分量和/或资产的不同编码版本在比特流中可用时,替代组标志字段的值可被设置为零(“0”)。替代资产组ID(例如,“alternate_asset_group_id”)可指示替代G-PCC分量资产的值(例如,唯一值)。G-PCC分量或资产的不同编码版本可表示用于替代资产组ID字段的相同值。状态标志(例如,“state_flag”)可指示资产的递送状态。被设置为一(“1”)的状态标志可指示发送实体正在主动地向接收实体发送资产。被设置为零(“0”)的状态标志可指示发送实体没有主动地向接收实体发送资产。发送时间标志(例如,“sending_time_flag”)可指示用于包括资产流的第一MPU的第一MMTP分组的发送时间(例如,sending_time)的存在。默认值可为例如零(“0”)。发送时间(例如,“sending_time”)可指示用于包括资产流的第一MPU的第一MMTP分组的发送时间。客户端(例如,使用发送时间信息)可为新的资产流准备新的分组处理流水线。动态图块标志(例如,“dynamic_tile_flag”)可指示图块的数量和/或图块标识符是否可在资产中动态地改变。为零(“0”)的值可指示资产中的图块和图块识别符的数量在整个比特流中不改变和/或发信号通知图块的数量(例如,“num_tiles”)和图块ID(例如,“tile_id”)。为一(“1”)的值可指示图块和图块标识符的数量可在资产中改变。为一(“1”)的值可指示存在于图块轨道中的图块ID在比特流中随时间动态地改变。图块的数量(例如,“num_tiles”)可指示资产中携带的图块的数量。图块ID(例如,“tile_id”)可指示图块库存中的特定图块的(例如,唯一)标识符。例如,如果/当动态图块标志(例如,“dynamic_tile_flag”)被设置为为零(“0”)的值时,图块ID(例如,“tile_id”)可表示存在于图块库存中的图块id值(例如,这些值中的一者)。
图29是示出如可在Data_type字段中使用的G-PCC数据类型值的示例的表。如图24所示,Data_type字段的值可指示所有G-PCC分量数据、几何数据、属性数据、SPS、GPS、APS和图块库存数据,或3D空间区域定时元数据信息。
图30是示出GPCC选择反馈消息(例如,“GPCCSelectionFeedback”)的示例性语法的表。与图30的表一致,GPCCSelectionFeedback消息的语义可如下。消息ID(例如,“message_id”)可指示G-PCC应用程序消息的标识符。版本(例如,“version”)可指示G-PCC应用程序消息的版本。长度(例如,“length”)可指示G-PCC应用程序消息的长度(例如,以字节为单位,从下一个字段的开始计数到消息的最后一个字节)。长度字段的值可不等于0。应用程序标识符(例如,“application_identifier”)可将应用程序标识符指示为URN,该URN将应用程序的类型(例如,唯一地)例如标识为消费消息的内容。应用程序消息类型(例如,“app_message_type”)可定义应用程序特定消息类型(例如,在上面段落中关于图27详细描述的)。应用程序消息类型字段的长度可为例如8比特。所选择的资产组的数量(例如,“num_selected_asset_groups”)可指示存在接收实体的相关联的状态改变请求的资产组的数量。资产组ID(例如,“asset_group_id”)可指示与G-PCC内容相关联的资产组的标识符。切换模式(例如,“switching_mode”)可指示用于(例如,如接收实体所请求的)资产选择的切换模式。资产的数量(例如,“num_assets”)可指示(例如,根据指定的切换模式)为状态改变发信号通知的资产的数量。资产ID(例如,“asset_id”)可指示用于(例如,根据指定的切换模式)的状态改变的资产的标识符。
图31是提供switching_mode字段的定义的表。如图31所示,“switching_mode”字段可指示用于资产选择的切换模式。例如,如果切换模式被设置为刷新,则对于在GPCCSelectionMessageFeedback中列出的每个资产,每个资产的state_flag将被设置为“1”,而GPCCSelectionMessageFeedback中未列出的所有资产的state_flag将被设置为“0”。如果切换模式被设置为切换,则对于在GPCCSelectionMessageFeedback中列出的每个资产,每个资产的state_flag将改变,例如,如果最初是“0”则改变为“1”,并且如果最初是“1”则改变为“0”,而在GPCCSelectionMessageFeedback中未列出的所有资产的state_flag将不改变。如果切换模式被设置为发送所有,则对于在GPCCSelectionMessageFeedback中指定的资产组的所有资产,每个资产的state_flag将被设置为“1”。
图32是示出G-PCC视图改变反馈消息(例如,“GPCCViewChangeFeedback”)的示例性语法的表。与图32的表一致,GPCCViewChangeFeedback消息的语义可如下。消息ID(例如,“message_id”)可指示G-PCC应用程序消息的标识符。版本可指示G-PCC应用程序消息的版本。长度可指示G-PCC应用程序消息的长度(例如,以字节为单位,从下一个字段的开始计数到消息的最后一个字节)。长度字段的值可不等于0。应用程序标识符(例如,“application_identifier”)可将应用程序标识符指示为URN,该URN将应用程序的类型(例如,唯一地)例如标识为消费消息的内容。应用程序消息类型(例如,“app_message_type”)可定义应用程序特定消息类型(例如,如表4中的示例所提供的)。应用程序消息类型字段的长度可为例如8比特。视口位置坐标(例如,vp_pos_x、vp_pos_y、vp_pos_z)可指示全局参考坐标系中的以米为单位的视口的位置的x、y和z坐标。该值可例如以2-16米为单位。视口旋转(例如,vp_quat_x、vp_quat_y、vp_quat_z)可(例如,使用四元数表示)指示视口区域的旋转的x、y和z分量。该值可为例如-1至1范围内的浮点值,包括端值在内。该值可指定x、y和z分量(即,qX、qY和qZ),用于应用于(例如,使用四元数表示)将相机的全局坐标轴转换成局部坐标轴的旋转。四元数qW的第四分量可例如根据等式1来计算,在上面段落中详细描述。点(w,x,y,z)可表示围绕由向量(x,y,z)所指向的轴旋转角度,该角度根据等式2确定,也在上面段落中详细描述。
近平面中的裁剪(例如,clipping_near_plane)和远平面中的裁剪(例如,clipping_far_plane)可例如基于视口的近裁剪平面和远裁剪平面(例如,以米为单位)来指示近深度和远深度或近距离和远距离。
水平视场(FOV)(例如,horizontal_fov)可指定对应于视口区域的水平尺寸的经度范围(例如,以弧度为单位)。该值可在0至2π的范围内。
垂直FOV(例如,vertical_fov)可指定对应于视口区域的垂直尺寸的纬度范围(例如,以弧度为单位)。该值可在0至π的范围内。
可提供(例如,定义或配置)流式传输客户端行为。可例如通过在应用程序特定信令消息中提供的信息来引导MMT客户端。为流式传输基于几何的点云压缩内容提供了客户端行为的示例(例如,使用本文所公开的MMT信令的示例)。
MMT发送实体可向感兴趣的客户端发送“GPCCAssetGroupMessage”应用程序消息。接收客户端可解析“GPCCAssetGroupMessage”应用程序消息,并且标识存在于MMT内容发送实体处的G-PCC媒体资产。例如,流式传输客户端可检查“GPCCAssetGroupMessage”应用程序消息中的“application_identifier”字段(例如,设置为“urn:mpeg:mmt:app:gpcc:2020”),以标识可用的G-PCC媒体内容。G-PCC点云内容中可用的G-PCC资产(例如,所有G-PCC资产)可例如通过检查“GPCCAssetGroupMessage”应用程序消息中存在的asset_id来标识。客户端可例如基于用户当前视口来挑选(例如,选择)待流式传输的asset_id。MMT客户端可向发送实体发送“GPCCSelectionFeedback”应用程序消息,以从可用的G-PCC资产列表中请求感兴趣的G-PCC资产。MMT发送实体可形成具有MTP的MMTP分组。MMT发送实体可向客户端发送MTTP分组。MMT客户端可接收MMTP分组。MMT客户端可将MPU或MFU进行解分组化。MPU/MFU可包括定时或非定时G-PCC媒体内容。
G-PCC资产数据可表示初始化信息(例如,SPS、GPS、APS和/或图块库存),例如,如果/当MMT客户端接收到具有被设置为“3”的资产组“data_type”的MMTP分组时。G-PCC资产数据可表示3D空间区域定时元数据信息,例如,如果/当MMT客户端接收到具有被设置为“4”的资产组“data_type”的MMTP分组时。G-PCC资产信息可用于G-PCC数据的部分访问。
MMT客户端可基于用户视口和一个或多个对应的3D空间区域来选择G-PCC资产。MMT客户端可向请求感兴趣的G-PCC资产的发送实体发送“GPCCSelectionFeedback”应用程序消息。例如,如果/当用户视口改变时,MMT客户端可请求不同的G-PCC资产集(例如,使用“GPCCSelectionFeedback”应用程序消息)。
例如,如果/当用户视口改变时,MMT客户端可向发送实体发送“GPCCViewChangeFeedback”消息(例如,以发信号通知用户的当前视口)。MMT发送实体(例如,在从MMT客户端接收到消息时)可选择G-PCC资产(例如,基于用户的新的视口信息)。MMT发送实体可将“GPCCAssetGroupMessage”应用程序消息与对应的G-PCC资产一起发送到MMT客户端。MMT发送实体可将G-PCC资产数据作为MMTP分组进行流式传输。
MMT客户端可开始接收用于(例如,所有)所请求的G-PCC资产的MMTP分组。MMT客户端可从MMTP有效载荷中提取MPU和MFU。MPU和MFU可包括媒体样本(例如,直接地)或媒体段。
MMT客户端可开始解析媒体段容器(例如,ISOBMFF),以提取基本流信息,构造G-PCC比特流,并且将比特流传递到G-PCC解码器。例如,如果/当MMTP有效载荷包括G-PCC媒体样本时,可提取和构造基本流数据,并且可将比特流传递到G-PCC解码器。
本文已经描述了用于基于几何的点云(G-PCC)的MPEG媒体传输(MMT)流式传输的系统、方法和装置。可使用MMT通过网络递送G-PCC编码内容。可将封装G-PCC数据以用于MMT流式传输。MMT信令消息可支持通过MMT递送G-PCC数据。例如,如果/当使用多个轨道发信号通知用于标准化基本媒体文件格式(ISOBMFF)的国际组织内的G-PCC分量时,可将(例如,每个)轨道封装到单独的资产中,将该单独的资产被分组化为MMTP分组。G-PCC定义的应用程序消息可使得服务器和客户端能够标识用于G-PCC分量的一组多个资产。
尽管上文以特定组合描述了特征和元件,但是本领域的普通技术人员将理解,每个特征或元件可单独使用或以与其他特征和元件的任何组合来使用。另外,本文所述的方法可在结合于计算机可读介质中以供计算机或处理器执行的计算机程序、软件或固件中实现。计算机可读介质的示例包括电子信号(通过有线或无线连接发射)和计算机可读存储介质。计算机可读存储介质的示例包括但不限于只读存储器(ROM)、随机存取存储器(RAM)、寄存器、高速缓存存储器、半导体存储器设备、磁介质(诸如内置硬盘和可移动磁盘)、磁光介质和光介质(诸如CD-ROM磁盘和数字通用光盘(DVD))。与软件相关联的处理器可用于实现用于WTRU、UE、终端、基站、RNC或任何主计算机的射频收发器。
Claims (18)
1.一种在接收设备中实现的方法,所述方法包括:
从发送设备接收以下各项中的至少一项:
第一消息,所述第一消息包括可用于从所述发送设备被流式传输到所述接收设备的媒体资产的列表;或者
一个或多个消息,所述一个或多个消息分别描述可用于从所述发送设备被流式传输到所述接收设备的所述媒体资产;向所述发送设备发送第二消息,所述第二消息包括指示对待从所述发送设备被流式传输到所述接收设备的所述媒体资产的子集的请求的信息,其中基于所述接收设备的视口来确定所述媒体资产的所请求的子集;
响应于所述第二消息从所述发送设备接收一个或多个运动图像专家组(MPEG)媒体传输协议(MMTP)分组;以及
处理所述一个或多个MMTP分组以恢复所述媒体资产的所请求的子集的至少一部分。
2.根据权利要求1所述的方法,还包括:向所述发送设备发送第三消息,所述第三消息包括指示对待从所述发送设备被流式传输到所述接收设备的所述媒体资产的更新子集的请求的信息,其中基于所述接收设备的更新视口来确定所述媒体资产的所请求的更新子集;
3.根据权利要求1所述的方法,其中从所述发送设备接收到的所述第一消息还包括标识与所述媒体资产的列表相关联的应用程序的信息。
4.根据权利要求3所述的方法,其中标识所述应用程序的所述信息指示所述应用程序消费基于视觉体积视频的编码(V3C)数据。
5.根据权利要求3所述的方法,其中标识所述应用程序的所述信息指示所述应用程序消费基于几何的点云压缩(G-PCC)数据。
6.根据权利要求1所述的方法,其中所述第一消息包括指示以下各项中的一项或多项的信息:媒体资产依赖于另一媒体资产来进行解码;所述媒体资产所依赖的所述另一媒体资产的指示;媒体资产是否具有替代版本;以及所述媒体资产的所述替代版本的标识。
7.一种接收设备,所述接收设备包括:
处理器;和
通信接口;
所述处理器和所述通信接口被配置为从发送设备接收以下各项中的至少一项:
第一消息,所述第一消息包括指示可用于从所述发送设备被流式传输到所述接收设备的媒体资产的列表的信息;或者
一个或多个消息,所述一个或多个消息分别描述可用于从所述发送设备被流式传输到所述接收设备的所述媒体资产;
所述处理器和所述通信接口被配置为向所述发送设备发送第二消息,所述第二消息包括指示对待从所述发送设备被流式传输到所述接收设备的所述媒体资产的子集的请求的信息,其中基于所述接收设备的视口来确定所述媒体资产的所请求的子集;
所述处理器和所述通信接口被配置为响应于所述第二消息从所述发送设备接收一个或多个运动图像专家组(MPEG)媒体传输协议(MMTP)分组;并且
所述处理器被配置为处理所述一个或多个MMTP分组以恢复所述媒体资产的所请求的子集的至少一部分。
8.根据权利要求7所述的接收设备,还包括:向所述发送设备发送第三消息,所述第三消息包括指示对待从所述发送设备被流式传输到所述接收设备的所述媒体资产的更新子集的请求的信息,其中基于所述接收设备的更新视口来确定所述媒体资产的所请求的更新子集。
9.根据权利要求7所述的接收设备,其中从所述发送设备接收到的所述第一消息还包括标识与所述媒体资产的列表相关联的应用程序的信息。
10.根据权利要求9所述的接收设备,其中标识所述应用程序的所述信息指示所述应用程序消费基于视觉体积视频的编码(V3C)数据。
11.根据权利要求9所述的接收设备,其中标识所述应用程序的所述信息指示所述应用程序消费基于几何的点云压缩(G-PCC)数据。
12.根据权利要求7所述的接收设备,其中所述第一消息包括指示以下各项中的一项或多项的信息:媒体资产依赖于另一媒体资产来进行解码;所述媒体资产所依赖的所述另一媒体资产的指示;媒体资产是否具有替代版本;以及所述媒体资产的所述替代版本的标识。
13.一种接收设备,所述接收设备包括:
处理器;和
通信接口;
所述处理器和所述通信接口被配置为从发送设备接收以下各项中的至少一项:
第一消息,所述第一消息包括指示可用于从所述发送设备被流式传输到所述接收设备的媒体资产集的信息;或者
一个或多个消息,所述一个或多个消息分别描述可用于从所述发送设备被流式传输到所述接收设备的所述媒体资产;
所述处理器和所述通信接口被配置为向所述发送设备发送第二消息,所述第二消息包括指示所述接收设备的视口的信息;
所述处理器和所述通信接口被配置为从所述发送设备接收第三消息,所述第三消息包括指示待从所述发送设备被流式传输到所述接收设备的媒体资产的子集的信息,其中基于所指示的所述接收设备的所述视口来确定所述媒体资产的所指示的子集;
所述处理器和所述通信接口被配置为响应于所述第三消息从所述发送设备接收一个或多个运动图像专家组(MPEG)媒体传输协议(MMTP)分组;并且
所述处理器被配置为处理所述一个或多个MMTP分组以恢复所述媒体资产的所指示的子集的至少一部分。
14.根据权利要求13所述的接收设备,
所述处理器和所述通信接口被配置为向所述发送设备发送第四消息,所述第四消息包括指示所述接收设备的更新视口的信息;
所述处理器和所述通信接口被配置为从所述发送设备接收第四消息,所述第四消息包括指示与所述更新视口相关联的更新媒体资产集的信息;
所述处理器和所述通信接口被配置为从所述发送设备接收另一个或多个MMTP分组;并且
所述处理器被配置为处理所述另一个或多个MMTP分组以恢复与所述接收设备的所述更新视口相关联的所述更新媒体资产集的所述至少一部分。
15.根据权利要求13所述的接收设备,其中从所述发送设备接收到的所述第一消息还包括标识与所述媒体资产的列表相关联的应用程序的信息。
16.根据权利要求15所述的接收设备,其中标识所述应用程序的所述信息指示所述应用程序消费基于视觉体积视频的编码(V3C)数据。
17.根据权利要求15所述的接收设备,其中标识所述应用程序的所述信息指示所述应用程序消费基于几何的点云压缩(G-PCC)数据。
18.根据权利要求13所述的接收设备,其中所述第一消息包括指示以下各项中的一项或多项的信息:媒体资产依赖于另一媒体资产来进行解码;所述媒体资产所依赖的所述另一媒体资产的指示;媒体资产是否具有替代版本;以及所述媒体资产的所述替代版本的标识。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410017327.3A CN118055299A (zh) | 2021-01-05 | 2022-01-05 | 用于v3c媒体和g-pcc媒体的流式传输的mmt信令 |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202163134143P | 2021-01-05 | 2021-01-05 | |
US63/134,038 | 2021-01-05 | ||
US63/134,143 | 2021-01-05 | ||
PCT/US2022/011298 WO2022150376A1 (en) | 2021-01-05 | 2022-01-05 | Mmt signaling for streaming of visual volumetric video-based (v3c) and geometry-based point cloud (g-pcc) media |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410017327.3A Division CN118055299A (zh) | 2021-01-05 | 2022-01-05 | 用于v3c媒体和g-pcc媒体的流式传输的mmt信令 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116830588A true CN116830588A (zh) | 2023-09-29 |
Family
ID=88122566
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410017327.3A Pending CN118055299A (zh) | 2021-01-05 | 2022-01-05 | 用于v3c媒体和g-pcc媒体的流式传输的mmt信令 |
CN202280012530.0A Pending CN116830588A (zh) | 2021-01-05 | 2022-01-05 | 用于基于视觉体积视频(v3c)媒体和基于几何的点云(g-pcc)媒体的流式传输的mmt信令 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410017327.3A Pending CN118055299A (zh) | 2021-01-05 | 2022-01-05 | 用于v3c媒体和g-pcc媒体的流式传输的mmt信令 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN118055299A (zh) |
-
2022
- 2022-01-05 CN CN202410017327.3A patent/CN118055299A/zh active Pending
- 2022-01-05 CN CN202280012530.0A patent/CN116830588A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
CN118055299A (zh) | 2024-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2019342612B2 (en) | Methods and apparatus for point cloud compression bitstream format | |
US20240195999A1 (en) | Dynamic adaptation of volumetric content component sub-bitstreams in streaming services | |
US20230188751A1 (en) | Partial access support in isobmff containers for video-based point cloud streams | |
JP2023536725A (ja) | ジオメトリベースのポイントクラウドデータのためのタイルトラック | |
US20220329923A1 (en) | Video-based point cloud streams | |
US20240022773A1 (en) | Mmt signaling for streaming of visual volumetric video-based and geometry-based point cloud media | |
EP3973713A1 (en) | Video-based point cloud streams | |
US20230276053A1 (en) | Adaptive streaming of geometry-based point clouds | |
CN116830588A (zh) | 用于基于视觉体积视频(v3c)媒体和基于几何的点云(g-pcc)媒体的流式传输的mmt信令 | |
WO2024006279A1 (en) | Signaling parameter sets for geometry-based point cloud streams | |
KR20240089338A (ko) | 기하구조 기반 포인트 클라우드의 적응적 스트리밍 | |
WO2023059730A1 (en) | Adaptive streaming of geometry-based point clouds |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |