CN110771162A - 用轨道分组获取合成轨道之方法及装置 - Google Patents

用轨道分组获取合成轨道之方法及装置 Download PDF

Info

Publication number
CN110771162A
CN110771162A CN201880041178.7A CN201880041178A CN110771162A CN 110771162 A CN110771162 A CN 110771162A CN 201880041178 A CN201880041178 A CN 201880041178A CN 110771162 A CN110771162 A CN 110771162A
Authority
CN
China
Prior art keywords
tracks
image
track
sub
dimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880041178.7A
Other languages
English (en)
Other versions
CN110771162B (zh
Inventor
王新
陈鲁林
赵帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MediaTek Inc
Original Assignee
MediaTek Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by MediaTek Inc filed Critical MediaTek Inc
Publication of CN110771162A publication Critical patent/CN110771162A/zh
Application granted granted Critical
Publication of CN110771162B publication Critical patent/CN110771162B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/1883Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit relating to sub-band structure, e.g. hierarchical level, directional tree, e.g. low-high [LH], high-low [HL], high-high [HH]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/31Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the temporal domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/33Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the spatial domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/88Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving rearrangement of data among different coding units, e.g. shuffling, interleaving, scrambling or permutation of pixel data or permutation of transform coefficient data among different blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/89Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving methods or arrangements for detection of transmission errors at the decoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234327Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by decomposing into layers, e.g. base layer and one or more enhancement layers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4223Cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明揭露一种获取合成轨道的方法,装置及计算器可读媒介。三维视频数据报含与视埠相关的多个二维子图像轨道。用于合成该视埠的该多个二维子图像轨道的合成轨道获取包含指示下列信息的数据:该多个二维子图像轨道属于同一组,该多个二维子图像轨道的每一的放置信息,其中该放置信息可用于将来自该多个二维轨道的取样图像合成进与该视埠相关的画面,如果该画面包含由合成于该画面上的该多个二维子图像轨道的两个或更多个所创建的组成布局,则调整该组成的组成布局操作。该合成轨道获取可被编码及/或用于解码该三维视频数据。

Description

用轨道分组获取合成轨道之方法及装置
交叉申请
本申请根据35U.S.C.要求优先权,主张在2017年06月23日提出申请的申请号为62/523,880的美国临时专利申请的优先权。上述申请的内容以引用方式并入本文中。
本申请作为共同申请,与申请号为16/014,817,名称为“METHODS AND APPARATUSFOR DERIVING COMPOSITE TRACKS”的申请在同一天提交。该申请的代理人案卷号为M1295.70242US01,在此全文引入作为参考。
技术领域
此处所描述的技术有关于视频编解码。更具体地,本发明有关于用轨道分组(track grouping)获取复合/合成轨道(composite tracks)。
背景技术
存在有各种类型的3D内容与多向内容(multi-directional content)。例如,全向视频是一种使用一组摄像机捕捉的视频,相对于传统单向视频仅用单个摄像机完成。例如,摄像机可围绕特定中心点放置,使得每一摄像机捕捉场景的球面覆盖(sphericalcoverage)的部分视频以捕捉360度视频。多个摄像机的视频可被拼接(stitch),可能被旋转,且被投影来产生表示该球面内容的投影二维图像。例如,等距柱状投影(equalrectangular projection)可被用于将球面地图塞进二维图像。该二维图像可被进一步处理,例如使用二维编码及压缩技术。最终,编码及压缩的内容被储存并使用想要的传送机制(例如随身碟,数字视频光盘(DVD),文件下载,数字广播,及/或在线流媒体)被传送。如此的视频可用于虚拟现实(VR)及/或3D视频。
在客户端,当该客户处理该内容,视频解码器解码该编码及压缩视频且执行逆投影,以将该内容放回球面。用户可观看渲染的内容,例如使用头戴式观看设备。该内容通常根据用户视埠进行渲染,用户视埠表示用户观看该内容的角度。视埠也可包含表示观看区域的组件,其可描述用户以特定角度观看的区域多大,且是何种形状。
当该视频处理不是以独立于视埠(viewport-dependent)的方式完成时,这样视频编码器及/或解码器不知道用户会真正观看的内容,然后整个编码,传送及解码进程会处理整个球面内容。这样能够,举例来说,允许用户以任意特定视埠观看该内容及/或于任意区域观看该内容,因为所有球面内容都被编码,传送并解码了。
可是,处理所有球面内容计算密集并会消耗大量带宽。例如,对于在线流媒体应用,处理所有球面内容能给网络带宽带来超过实际需要的负担。因此,当带宽资源及/或计算资源有限时,较难维持用户体验。一些技术仅处理用户观看的内容。例如,如果用户正在观看顶部区域(例如北极),那么不需要传送该内容的底部区域(例如南极)。如果用户改变视埠,那么针对新视埠传送内容。又一例子中,对于自由视埠TV(FTV)应用(例如使用多个摄相机捕捉场景的视频),可根据用户在以何角度观看场景而传送内容。例如,如果用户正从一个视埠(例如摄像机及/或邻近多个摄像机)观看该内容,可能不需要传送其他视埠的内容。
发明内容
依照揭露的主题,提供装置,系统及方法来使用轨道分组获取合成轨道。
一些实施例有关于编码多个子图像轨道的合成轨道获取的编码方法。该方法包含编码三维视频数据,包含编码与视埠相关的多个二维子图像轨道。该方法包含编码合成轨道获取,用于合成该视埠的该多个二维子图像轨道,其中该合成轨道获取包含指示下列信息的数据:该多个二维子图像轨道属于同一组;该多个二维子图像轨道的每一的放置信息,其中该放置信息可用于将来自该多个二维轨道的取样图像合成进与该视埠相关的画面;以及如果该画面包含由合成于该画面上的该多个二维子图像轨道的两个或更多个所创建的组成布局,则调整组成的组成布局操作。该方法包含提供该编码三维视频数据与该组成布局操作。
一些实施例中,该组成布局包含在该画面上合成的该多个二维子图像轨道的该两个或更多个之间的间隙,在该画面上合成的该多个二维子图像轨道的该两个或更多个的重叠,或两者。
一些实施例中,编码该合成轨道获取包含对该多个二维子图像轨道的每一所包含的子图像组成轨道组盒中的该画面的宽度、高度,或两者进行编码。
一些实施例中,编码该合成轨道获取包含对该多个二维子图像轨道的每一所包含的子图像组成轨道组盒中的该画面的取样图像的尺寸、位置,或两者进行编码。
一些实施例中,编码该合成轨道获取包含:对包含该多个二维子图像轨道的轨道的轨道头盒中的该画面的取样图像的尺寸、位置,或两者进行编码;以及对该多个二维子图像轨道的每一所包含的该子图像组成轨道组盒中的包含轨道进行编码。编码该合成轨道获取包含:编码该子图像组成轨道组盒中的矩阵,其中该矩阵用于将该多个二维子图像轨道的每个叠放于该画面上。
一些实施例有关于解码视频数据来获取合成轨道的解码方法。该方法包含接收(a)与视埠相关的多个编码二维子图像轨道以及(b)合成轨道获取,用于合成该视埠的该多个二维子图像轨道,其中该合成轨道获取包含指示下列信息的数据:该多个二维子图像轨道属于同一组;该多个二维子图像轨道的每一的放置信息,其中该放置信息可用于将来自该多个二维轨道的取样图像合成进与该视埠相关的画面中;以及如果该画面包含获取轨道中携带的该画面上合成的该多个二维子图像轨道的两个或更多个构建的组成布局,则调整组成的组成布局操作。该方法包含决定该多个二维子图像轨道属于同一组。该方法包含根据该合成轨道获取合成该多个二维轨道进该画面,以获取合成轨道,包含:决定该多个合成二维子图像轨道的两个或更多个包含该组成布局;以及基于该组成布局操作,调整该组成来补偿该组成布局。
一些实施例中,其中决定该多个合成二维子图像轨道的两个或更多个包含该组成布局包含决定该多个合成二维子图像轨道的两个或更多个包含在该画面上合成的该多个二维子图像轨道的该两个或更多个之间的间隙,在该画面上合成的该多个二维子图像轨道的该两个或更多个的重叠,或两者。
一些实施例中,该方法更包含解码该合成轨道获取,包含对该多个二维子图像轨道的每一所包含的子图像组成轨道组盒中的该画面的宽度、高度,或两者进行解码。
一些实施例中,该方法更包含解码该合成轨道获取,包含对该多个二维子图像轨道的每一所包含的子图像组成轨道组盒中的该画面的取样图像的尺寸、位置,或两者进行解码。
一些实施例中,该方法更包含解码该合成轨道获取,包含:对包含该多个二维子图像轨道的轨道的轨道头盒中的该画面的取样图像的尺寸、位置,或两者进行解码;以及对该多个二维子图像轨道的每一所包含的该子图像组成轨道组盒中的包含轨道进行解码。解码该合成轨道获取可包含:解码该子图像组成轨道组盒中的矩阵,其中该矩阵用于将该多个二维子图像轨道的每个叠放于该画面上
一些实施例关于用于解码视频数据的装置。该装置包含与存储器通信的处理器,该处理器用于执行储存于该存储器内的多个指令,该多个指令使该处理器执行下列操作:接收(a)与视埠相关的多个编码二维子图像轨道以及(b)合成轨道获取,用于合成该视埠的该多个二维子图像轨道,其中该合成轨道获取包含指示下列信息的数据:该多个二维子图像轨道属于同一组;该多个二维子图像轨道的每一的放置信息,其中该放置信息可用于将来自该多个二维轨道的取样图像合成进与该视埠相关的画面中;以及如果该画面包含获取轨道中携带的该画面上合成的该多个二维子图像轨道的两个或更多个构建的组成布局,则调整组成的组成布局操作。该多个指令使该处理器决定该多个二维子图像轨道属于同一组。该多个指令使该处理器根据该合成轨道获取合成该多个二维轨道进该画面,以获取合成轨道,包含:决定该多个合成二维子图像轨道的两个或更多个包含该组成布局;以及基于该组成布局操作,调整该组成来补偿该组成布局。
一些实施例中,决定该多个合成二维子图像轨道的两个或更多个包含该组成布局包含决定该多个合成二维子图像轨道的两个或更多个包含在该画面上合成的该多个二维子图像轨道的该两个或更多个之间的间隙,在该画面上合成的该多个二维子图像轨道的该两个或更多个的重叠,或两者。
一些实施例中,该多个指令被进一步配置以使该处理器解码该合成轨道获取,包含对该多个二维子图像轨道的每一所包含的子图像组成轨道组盒中的该画面的宽度、高度,或两者进行解码。
一些实施例中,该多个指令被进一步配置以使该处理器解码该合成轨道获取,包含对该多个二维子图像轨道的每一所包含的子图像组成轨道组盒中的该画面的取样图像的尺寸、位置,或两者进行解码。
一些实施例中,该多个指令被进一步配置以使该处理器解码该合成轨道获取,包含对包含该多个二维子图像轨道的轨道的轨道头盒中的该画面的取样图像的尺寸、位置,或两者进行解码;以及对该多个二维子图像轨道的每一所包含的该子图像组成轨道组盒中的包含轨道进行解码。解码该合成轨道获取更包含解码该子图像组成轨道组盒中的矩阵,其中该矩阵用于将该多个二维子图像轨道的每个叠放于该画面上。
一些实施例关于编码视频数据的装置。该装置包含该装置包含与存储器通信的处理器,该处理器用于执行储存于该存储器内的多个指令,该多个指令使该处理器执行下列操作:编码三维视频数据,包含编码与视埠相关之多个二维子图像轨道。该多个指令使该处理器编码合成轨道获取,用于合成该视埠的该多个二维子图像轨道,其中该合成轨道获取包含指示下列信息的数据:该多个二维子图像轨道属于同一组;该多个二维子图像轨道的每一的放置信息,其中该放置信息可用于将来自该多个二维轨道的取样图像合成进与该视埠相关的画面;以及如果该画面包含由合成于该画面上的该多个二维子图像轨道的两个或更多个所创建的组成布局,则调整组成的组成布局操作。该多个指令使该处理器提供该编码三维视频数据与该组成布局。
一些实施例中,该组成布局包含在该画面上合成的该多个二维子图像轨道的该两个或更多个之间的间隙,在该画面上合成的该多个二维子图像轨道的该两个或更多个的重叠,或两者。
一些实施例中,编码该合成轨道获取包含对该多个二维子图像轨道的每一所包含的子图像组成轨道组盒中的该画面的宽度、高度,或两者进行编码。
一些实施例中,编码该合成轨道获取包含对该多个二维子图像轨道的每一所包含的子图像组成轨道组盒中的该画面的取样图像的尺寸、位置,或两者进行编码。
一些实施例中,编码该合成轨道获取包含:对包含该多个二维子图像轨道的轨道的轨道头盒中的该画面的取样图像的尺寸、位置,或两者进行编码;以及对该多个二维子图像轨道的每一所包含的该子图像组成轨道组盒中的包含轨道进行编码。编码该合成轨道获取包含编码该子图像组成轨道组盒中的矩阵,其中该矩阵用于将该多个二维子图像轨道的每个叠放于该画面上。
因此,已经相当广泛地概述了所公开的主题的特征,以便可以更好地理解随后的详细描述,并且可以更好地理解对本领域的贡献。当然,所公开的主题的附加特征将在下文中描述,并且将形成所附权利要求书的主题。应理解,本文采用的措辞和术语是出于描述的目的,不应视为限制。
附图说明
在附图中,不同图的每一相同或近似相同的组件用同样标号表示。为了简洁起见,并非每个附图中的每个组件都被标记。附图并无必要按比例所描绘,而是着重在展现所描述的技术与装置的各方面。
图1显示根据一些实施例的示例视频编解码配置。
图2显示根据一些实施例的用于VR内容的视埠独立内容流程。
图3显示根据一些实施例的使用合成轨道来发信视埠/ROI的示意图。
图4A显示根据一些实施例的示例子图像组成轨道分组。
图4B显示根据一些实施例的使用矩阵值的示例子图像组成轨道分组。
图4C显示根据一些实施例的示例转换矩阵。
图5A-5B显示根据一些实施例的混合模式的示例表格。
图6显示根据一些实施例的示例合成轨道。
图7显示根据一些实施例的具有背景与alpha混合信息的子图像轨道分组合成的例子。
图8显示根据一些实施例的具有背景与alpha混合信息的子图像轨道组矩阵组成的例子。
图9显示根据一些实施例的用于编码多个子图像轨道的轨道组合成的示例计算机化方法。
具体实施方式
可用各种技术来获取合成轨道,包含获取文件格式的合成轨道,例如ISOBMFF。
本申请的发明人发现现存的文件格式技术(例如像子图像轨道分组(sub-picturetrack grouping)及定时元数据轨道技术(timed metadata track))并不提供与由一组子图像轨道共同携带的整个3D内容相关联的全局信息(例如在定时元数据轨道中指定)。例如,轨道分组机制可用于将子图像与一组关联,可是,当该区域信息在定时元数据轨道内指定时,轨道分组机制并不提供识别是否每一子图像轨道贡献给特定区域(例如,如上所述的特殊的感兴趣区域)。因此,使用现存的分组与定时元数据轨道技术,比较难指定及/或决定哪个(些)子图像轨道会贡献给特定视埠而不需要搜索该组内的所有子图像轨道。
发明人已通过使用分组机制对合成轨道获取做出技术改良,其可被用于为由一组子图像轨道共同携带的内容指定全局元数据(例如,感兴趣区域),该多个子图像轨道的每一具有该组的分组元数据。分组元数据可指定与该组相关的子图像轨道。分组元数据也可指定多个二维子图像轨道(例如,基于子图像组成轨道组盒及/或由子图像组成轨道组盒所指示的轨道头)每一的放置信息(例如,宽度,高度,组成矩阵(composition matrix)),该多个轨道可用于自该多个二维轨道合成取样图像。分组元数据可进一步指定组成布局操作(例如,背景及/或混合信息),例如如果该画面包含组成布局(例如,其可或可不包含间隙及/或重叠)时用于调整该组成的操作。
在下面说明中,会列举关于揭露的主题的系统及方法的各种具体细节以及如此系统及方法可能操作的环境等,以提供揭露的主题的透彻理解。另外,可以理解的是下面提供的例子是示范性的,可考虑到其他系统及方法也落在揭露的主题的范围内。
图1显示根据一些实施例的示例视频编解码配置100。摄像机102A-102N是N个摄像机,且可以是任何类型的摄像机(例如包含音频录制能力的摄像机,以及/或分离的摄像机与音频录制功能)。编码设备104包含视频处理器106与编码器108。视频处理器106处理来自摄像机102A-102N的视频,例如拼接(stitching),投影及/或映像。编码器108编码及/或压缩二维视频数据。解码设备110接收该编码数据。解码设备110可接收该视频作为视频产品(例如,数字视频碟,或其他计算机可读媒体),其透过广播网络,透过行动网络(例如,小区网络),以及/或透过因特网接收。解码设备110可以是,例如,计算机,手持设备,头戴显示的部分,或任何其他具有解码能力的装置。解码设备110包含解码器112,用于解码该编码视频。解码设备110也包含渲染器114,用于将二维内容渲染回球面。显示器116显示来自渲染器114的渲染内容。
感兴趣区域(region of interest,ROI)概念上有些类似于视埠。ROI可,举例而言,代表全向视频的3D或2D编码中一个区域。ROI可具有不同形状(例如正方形,或圆形),其可相对于该3D或2D视频指定(例如,基于位置,高度等)。例如,感兴趣区域可代表图像中一个可被放大的区域,以及针对该放大视频内容,对应ROI视频可被显示。一些实施例中,ROI视频已被单独准备。如此实施例中,感兴趣区域通常具有携带该ROI内容的分离视频轨道。因此,该编码视频可用于指定该ROI,以及指定ROI如何与该有关视频相关联。
ROI或视埠轨道,例如分别编码的ROI轨道,可与主视频相关联。例如,ROI可与主视频相关联以允许放大及缩小操作,其中ROI用于给放大区域提供内容。例如,MPEG-B,第10部分,发表于2016年6月2日(w16191)的题为“Carriage of Timed Metadata Metrics ofMedia in ISO Base Media File Format”,其透过参考整体引入本申请,其描述了ISO基础媒体文件格式(Base Media File Format,ISOBMFF),其可使用定时元数据轨道来发信表示主2D视频轨道包含2D ROI轨道。
通常,3D内容可使用球面内容而表示来提供一个场景的360度视图(例如,有时称为全向媒体内容)。虽然通过3D球面可支持数个视图,终端用户一般仅观看3D球面上的部分内容。需要传送该整个3D球面的带宽可对网络造成巨大负担,且可不够支持球面内容。因此需要使3D内容传送更高效。可执行视埠独立处理(viewport dependent processing)来改善3D内容传送。3D球面内容可被分割为多个区域/块(tiles)/子图像,且仅提供与观看屏幕(例如,视埠)相关的域/块(tiles)/子图像,使得仅有那些与观看屏幕(例如,视埠)有关的被发送并传送给终端用户(例如,透过有线或无线连接或透过任何计算机可读储存媒介)。
图2显示根据一些实施例的用于VR内容的视埠独立内容流程200。如图所示,球面视埠201(例如,可包含整个球面)在区块202进行拼接,投影,映射(以产生投影且映像区域),在区块204编码(以产生多种质量的编码/转码块),且在区块206(以块形式)传送,且在区块208解码(以产生解码块),在区块210构造(以构造球面渲染视埠),且在区块212渲染。在区块214的用户交互可选择视埠,其可开启数个如图中虚线箭头所示的“实时(just-in-time)”进程步骤。
在于步骤200,由于当前网络带宽限制及各种适配需求(例如,不同质量,不同编解码器(codecs)以及不同保护机制),使用3D球面或任何其他3D模型的表示的VR内容首先被处理(stitched,projected and mapped)至2D平面(通过区块202),然后封装进数个基于块(tile-based)或基于子图像(or sub-picture-based)且分段的文件(在区块204),以播放及传送。在这样一个基于块且分段的文件中,2D平面中空间块(例如,其通常表示2D平面内容中一个矩形的空间部分)通常被封装为其变形的集合(例如,像在不同质量及码率中,或在不同编解码器及保护机制(例如,不同加密算法及模式))。一些实施例中,这些变形对应MPEG DASH中的适配组(adaptation sets)内的表示(representations)。一些实施例中,这是基于用户对视埠的选择,以致这些不同块的某些在放到一起时,提供了该选择视埠的覆盖,这些块从接收器取回或传送至接收器(透过传送区块206),且然后解码(在区块208)来构建并渲染需要的视埠(在区块210与212)。
如图2所示,视埠观点(viewport notion)是终端用户所观看的,这涉及球面上的区域的角度及尺寸。视埠可变化因此不是静止的。例如,当用户移动头,系统需要抓取邻近块(或子图像)来覆盖用户接着想看的内容。可是,在执行视埠独立处理后,例如包含裁剪(chopping)图像及/或编码不同质量,技术上并不允许指定或关联元数据至整个图像,或至整个3D球面内容。
ISOBMFF包含一些轨道分组机制(例如,哪些可用来分组块)。例如,像轨道组盒(Track Group Box)'trgr'及轨道选择盒(Track Selection Box)'tsel',可用于标记及发信给它们分别作为轨道组(group of tracks)与备选轨道组(alternate group oftracks)。通过使用这样的盒子(boxes),具有同样组识别符(group identifier)与组类型(group type)的每个轨道属于相同组。可是,这样的轨道分组机制,透过标记每个轨道,可在用于一般视埠独立内容流(generic viewport dependent content flow)进程时带来数个问题。这些问题可来自,例如,没有单个“tile”轨道表示一个块(tile)的变形轨道(variant tracks)的内容的事实,没有单个轨道表示整个球面VR的内容的事实,等等,其中整个球面VR的内容是所有单独“tile”轨道的合成。问题可包含,例如,在决定多少轨道属于特定组时的低效,而不需要扫描该文件内或所有相关文件中的所有轨道。
一些实施例中,视埠或ROI可用合成轨道发信。使用合成轨道提供单个轨道,其可用于表示一个块的变型轨道的内容。作为更进一步的例子,使用合成轨道能帮助建造轨道等级(track hierarchy)以指示就合成关系而言轨道是如何关联的,例如,当合成轨道从变型轨道及(合成)块轨道获取时。
获取的轨道可由包含类型‘dtrk’的取样入口的轨道所识别。获取的取样可包含要顺序执行的操作的次序表,这些操作是对次序表内的对应图像或取样进行,这些对应图像或取样是来自于次序表的输入轨道。每一操作可通过TransformProperty指定或指示。例如,TransformProperty操作可包含识别(identity,'idtt');清洁光圈(clean aperture,'clap');旋转(rotation,'srot');分解(dissolve,'dslv');裁剪(crop,'2dcc');等等。
为了支持VR视埠独立内容流进程,额外的TransformProperty项目可用于从现存的轨道获取合成轨道。可产生各种类型的合成轨道,例如所有视频轨道的合成(‘cmpa’),仅一个轨道的合成(‘cmp1’,其允许在取样及取样组级的切换),任何轨道的合成(‘cmpn’,其允许在取样及取样组级的切换),仅选择一个轨道(‘sel1’,其可以是轨道级选择,且可不包含在取样级的切换),任何轨道的选择(‘seln’,其可以是轨道级选择,且可不包含在取样级的切换),缩放(‘scal’),调整尺寸(‘resz’),等等。例如,‘cmpa’转换属性可指定获取取样的参考宽度与参考高度,并将每一输入图像依照其对应的指定x,y位置及指定尺寸放置(例如组合)到获取取样上。‘cmp1’转换属性可指定获取取样的参考宽度与参考高度,并将一个或任何一个或仅一个输入图像,依照其对应位置及对应尺寸放置(例如组合)到获取取样上。‘cmpn’转换属性可指定获取取样的参考宽度与参考高度,并将一个或多个输入图像,依照其对应位置及对应尺寸放置(例如组合)到获取取样上。‘sel1’转换属性可指定获取取样的参考宽度与参考高度,并将一个或多个输入图像,依照其对应位置及对应尺寸放置(例如组合)到获取取样上。‘sel1’转换属性可以是从列表的输入轨道中选择一个轨道。‘seln’转换属性可指定获取取样的参考宽度与参考高度,并将一个或多个输入图像,依照其对应位置及对应尺寸放置(例如组合)到获取取样上,其中输入图像来自从整个转换中选择的输入轨道的同一子集(subset)。‘seln’转换属性可以是从列表的输入轨道中选择n(n>0)个轨道。
实质上,‘cmpa’,‘cmp1’,‘cmpn’,‘sel1’与‘seln’指定了数个像‘2dcc’的字段,其根据各自的定义与语义提供2D空间信息,以合成输入2D图像取样至获取2D图像取样上。根据一些实施例,依靠这些额外TransformProperty项目,“tile”轨道可被指定为使用‘cmp1’或‘sel1”的其“variant”轨道的获取的合成轨道。整个VR球面内容的轨道,当投影至2D平面上时,可被指定为使用‘cmpa’的其“tile”轨道的获取的合成轨道。视埠或ROI轨道可被指定为使用‘cmpn’或‘seln’的其“tile”轨道的获取的合成轨道。此技术发表于2017年1月题为“Deriving Composite Tracks in ISOBMFF”,在m33971中叙述,其以引用方式整体纳入本申请,提供将2D合成轨道映像回球面3D内容的技术。
上述之合成轨道获取机制在transformProperty操作或在子图像轨道头或在两者中对投影或合成图像使用该多个子图像轨道的每一的放置的信息或元数据。这里讨论的新的合成轨道获取机制可在该多个子图像组成轨道使用轨道分组机制而组在一起时使用子图像组成轨道的分组元数据中所提供的放置信息或元数据(例如,子图像组成轨道组盒及/或由子图像盒成轨道组盒指示的轨道头)。
图3显示根据一些实施例的使用合成轨道来发信视埠/ROI的示意图300。四个2D子图像(或块)轨道t1-t4(302)针对两种不同质量(例如,‘h’表示HD,而‘s’表示SD)以及两个不同加密模式(例如,共同加密机制(Common Encryption Scheme,CENC)具有两个加密模式,‘a’表示计数器(Counter,CTR)以及‘b’表示加密块链(Cipher Block Chaining,CBC))被编码。编码及加密产生总共十六个轨道中四个轨道304A-D(总称为编码轨道304)的四个不同组。编码块304A对应使用第一加密模式(‘a’)的高质量(‘h’)编码,因此记为‘ha’。编码块304B对应使用第二加密模式(‘b’)的高质量(‘h’)编码,因此记为‘hb’。编码块304C对应使用第一加密模式(‘a’)的低质量(‘l’)编码,因此记为‘la’。编码块304D对应使用第二加密模式(‘b’)的低质量(‘l’)编码,因此记为‘lb’。
合成轨道基于编码轨道304而产生。块从编码轨道304选取。块可基于一个或多个转换属性(例如,如上所述的TransformProperties列表中的)选取。例如,本实施例根据下面所示的操作选择四块s1-s4:
s1=sel1{cmp1{t1ha,t1la},cmp1{t1hb,t1lb}}
s2=sel1{cmp1{t2ha,t2la},cmp1{t2hb,t2lb}}
s3=sel1{cmp1{t3ha,t3la},cmp1{t3hb,t3lb}}
s4=sel1{cmp1{t4ha,t4la},cmp1{t4hb,t4lb}}
参考上面的示范操作,使用了组成(cmp1)与选择(sel1),因为合成轨道来自于用不同质量及加密模式编码的多个不同轨道。质量变量首先用‘cmp1’合成,然后加密变量用‘sel1’合成。例如,假设一个m x n格的子图像轨道,其中每一子图像具有q个不同质量且以2种模式加密,那么就有m x n x q x 2个轨道。但是当适应性流传送(streaming)该内容时,仅有相关连接带宽的质量被动态选择,而加密模式是固定选择的。因此,如上所述,‘cmp1’用于在取样或取样组级选择合适质量块,‘sel1’用于在轨道级选择合适加密块。
对选择的轨道306执行合成以将子图像组成为2D内容轨道。合成进程产生一组成轨道C 308及组成轨道r 310。组成轨道C 308可包含所有来自选择轨道306的数据,而组成轨道r 310可包含来自选择轨道306的子集的数据。组成轨道C 308可用例如cmpa{s1,s2,s3,s4}产生,其合成所有块。一些实施例中,如果ROI或视埠涉及或被块t1,t2,t3及t4中任何覆盖,ROI或视埠轨道可用‘cmpn’决定(例如,以及/或可能的其他转换属性,如果涉及裁剪,调整尺寸或旋转)。例如,该ROI或视埠组成轨道r 310可用cmpn{s1,s2,s3,s4}来决定。一些实施例中,如果ROI或视埠涉及或仅被块t1与t2覆盖,ROI或视埠轨道可使用‘cmpa’决定(例如,以及/或可能的其他转换属性,如果涉及裁剪,调整尺寸或旋转)。例如,组成轨道r310可产生作为cmpa{s1,s2}。编码器产生元数据轨道m 312,例如定时元数据轨道。
如图2所示,视埠观点是终端用户所观看的,其可基于3D球面上的观看区域的角度及/或尺寸指定。如前提及,视埠不是固定的。例如,当用户移动头,然后视埠改变,所以系统需要抓取其他块(或子图像),例如邻近块,来覆盖用户接下来想要观看的内容。可是,在执行视埠独立处理后,例如包含裁剪(chopping)图像及/或编码不同质量,技术上不允许指定或关联元数据至整个图像,或至整个3D球面内容。例如,现存技术不提供用于组成布局的指定组成布局操作,例如间隙及重叠。
文件格式,例如MPEG文件格式,可包含轨道分组机制。轨道分组机制可用来标记各个轨道以组成轨道组。例如,前述的轨道组盒字段“trgr”可包含属于类组(generic group)的轨道。又一例子中,也在前述的轨道选择盒“tsel”可包含属于选择性组(selectivegroup)的轨道。
文件格式也可包含构造及/或获取轨道的技术。例如获取技术可用于将块/子图像合并为更大图像,例如,来指示更大图像包含某些区域。一些技术可在时间域内操作,例如从其他轨道聚集(aggregat)或提取时间分段。图像处理操作也可用来构造及/或获取轨道,且可包含,例如,识别,裁剪,旋转及/或分解(dissolve)操作。轨道构造及/或获取(derivations)可被用来从轨道取走副本(copy)然后将其与来自另一轨道的另一特征连接(concatenate)以形成节目。例如,它们可被用于播放广告然后切换至另一个广告,如此继续。在另一例子中,他们可被用于插入广告进一个节目中(例如,对于具有来自两个不同轨道的构造轨道的获取,两个轨道一个来自广告轨道一个来自TV轨道)。
文件格式可包含转换,例如转换矩阵(例如,可存在于轨道头中)。每一轨道头能包含转换矩阵来指定轨道自身的像素如何转换为更大图像,例如在被放进不同/更大图像时。转换矩阵可被用于简单操作(例如,像素倍增(pixel doubling),90°旋转)以及/或复杂操作,例如,剪切(shearing),任意旋转(arbitrary rotation)。
文件格式也可包含混合元数据,例如alpha混合元数据,其可用于执行两个实体的alpha混合。alpha混合元数据可在把轨道放在一起时用于间隙或重叠部分。所以混合元数据可用于预先考虑叠放(overlay)以及/或间隙,且可被用于指明叠放应该如何做,间隙应该如何填充(例如,间隙可用背景,视频等填充),等等
一些实施例中,alpha混合参数可包含合成信息,模式信息,及/或具体参数。例如,对于ISOBMFF,可针对alpha混合元数据而指定数个字段。compositing_top_left_x与compositing_top_left_y字段可指定相对参考坐标原点的合成空间的左上角,参考坐标原点可通过一应用指定,或通过包含媒体数据的该基础轨道(base track)与块轨道的包容器格式(container format)指定。compositing_width与compositing_height字段可指定在合成后的输出图像之宽度与高度。字段alpha_blending_mode可指定alpha混合模式。包含多个模式及具有默参数的对应算法的表格可在单独文件中指定,例如ISO/IEC 23001-8以及/或W3C建议。图5A-5B显示alpha_blending_mode的示例表格500。每一轨道的TrackHeaderBox中的‘layer’的参数值,其指定了视觉轨道从前到后的顺序,这可被设置并作为合成两个轨道的相对前后层的指示器。在表格500中,词‘Source’与‘Destination’可分别针对前/顶(front/top)层以及后/底(back/bottom)层或背景(backdrop)互换使用。字段blending_mode_specific_params可指定具有给定混合模式的可选参数(例如,除了使用在例如ISO/IEC 23001-8中的默认值,其可包含alpha频道数据)。
可采用一些机制来指示视觉项目的空间信息,其可用于,例如获取合成轨道。例如,合成轨道的获取于2017年4月公开于m40384中,题为“Deriving Composite Tracks inISOBMFF using track grouping mechanisms”,澳大利亚,霍巴特,以及在2017年1月瑞士日内瓦发表的题为“Deriving Composite Tracks in ISOBMFF”的m39971,其内容整体透过引用纳入本申请。文件格式,例如MPEG文件格式(例如,MPEG ISOBMFF文件格式),可包含使用轨道分组的合成轨道获取的技术。提到MPEG,例如合成信息可在所有‘cmpa’转换属性的合成中提供。通常,‘cmpa’可用来指定每个轨道的偏移信息,其属性在转换属性(TransformProperty)中指定。当存在时,‘cmpa’可指定输入轨道的数量(例如,由num_inputs指定)大于或等于1。另一例子中,‘cmpa’可指定对应图像操作的输入实体是视觉轨道。输入轨道可被限制,使得它们都属于同个轨道组(例如,输入轨道都包含具有相同track_group_id值的轨道组盒(Track Group Box)‘trgr’),且不是任意两个轨道属于同个备选轨道组(例如,它们不包含具有相同非零的alternate_group值的Track Header Box‘tkhd’,其中相同非零的alternate_group值指示它们属于同个备选组,来用于从备选组中仅选择一个。)
在MPEG中,取样‘cmpa’转换属性的字段可与ISO/IEC 23001-10指定的定时元数据取样入口及取样具有相同语义,(例如在文件n15177中描述,题为“Text of ISO/IEC14496-12第5版,ISO Base Media File Format”,2015年2月,瑞士日内瓦,其透过引用整体纳入本申请)。这可以,例如,用于将每个输入图像考虑作为获取图像的ROI考虑。这些字段可包含reference_width与reference_height,其可给出参考矩形空间的宽度及高度,所有坐标(例如top_left_x,top_left_y,宽度及高度)计算都在此空间内。reference_width与reference_height字段可指定获取图像的尺寸,其是对应输入视觉轨道的所有输入图像的合成。
字段也可包含top_left_x与top_left_y,其分别指定矩形区域的左上角的水平及垂直坐标,矩形区域是对应轨道的输入媒体图像要放置的地方。字段也可包含宽度及高度,其可分别指定矩形区域的宽度及高度,矩形区域是对应轨道的输入媒体图像要放置的地方。
因此,‘cmpa’转换属性可指定获取取样的参考宽度及高度(例如,reference_width与reference_height),且可把每个输入图像以对应尺寸的宽度及高度及由top_left_x与top_left_y指定的对应的位置,放置(或合成)到获取的取样上。
因为‘cmpa’字段可具有与ISO/IEC 23001-10中指定的‘2dcc’中这些字段的相同语义,指定‘cmpa’转换属性的另一种方法是包含输入轨道的额外列表,其大小等于num_inputs,以指示每个额外输入轨道是‘2dcc’定时元数据轨道(例如,二维迪卡尔坐标轨道),且其可携带对应输入轨道的空间信息座为获取轨道的ROI。转换属性可使用这些元数据轨道来合成输入视觉轨道进获取轨道。
可用来获取合成轨道的空间信息的指定的技术的另一例子是子图像组成轨道分组(例如,‘spco’分组)。通常,‘spco’是一个轨道组类型,其包含子图像组成信息,例如x与y偏移,轨道宽度及高度,及/或输出(或合成)宽度及高度。每个子图像轨道携带‘spco’分组盒来指示其组与相关信息,且也包含子图像信息。在MPEG ISOBMFF中,具有track_group_type等于‘spco’的TrackGroupTypeBox指示该轨道属于轨道合成,其可进行空间排列以获得适合展现的图像。被映像到此分组的视觉轨道(例如,其在TrackGroupTypeBox内具有相同的track_group_id,且track_group_type等于‘spco’)共同代表可被展现的视觉内容。适合展现的图像可透过将同个子图像组成轨道组的轨道的时间平行取样(time-parallelsamples)进行空间上排列,如轨道组的语法元素所指示。
‘spco’轨道分组可包含各种字段。图4A显示根据一些实施例的示例‘spco’轨道分组400。字段track_x402指定,以亮度取样单元计,合成图像的该轨道的取样的左上角的水平位置。track_x 402的值的范围可从0到composition_width 410-1,包含端点。字段track_y 404指定,以亮度取样单元计,合成图像的该轨道的取样的左上角的垂直位置。track_y 404的值的范围可从0到composition_height 412-1,包含端点。字段track_width406指定,以亮度取样单元计,合成图像的该轨道的取样的宽度。track_width 406的值的范围可从1到composition_width 410-track_x 402,包含端点。字段track_height 408指定,以亮度取样单元计,合成图像的该轨道的取样的高度。track_height 408的值的范围可从1到composition_height 412-track_y 404,包含端点。字段composition_width 410指定,以亮度取样单元计,合成图像的宽度。composition_width 410的值大于等于track_x 402+track_width 406。字段composition_height 412指定,以亮度取样单元计,合成图像的高度。composition_height 412的值大于等于track_y 404+track_height 408。
子图像组成轨道组也可使用矩阵值来指定。通常,矩阵值可以多种方式指定。例如,矩阵值可通过形成由子图像自身当作自己元数据携带的一组来指定。又一例子中,矩阵值可由形成子图像组成轨道组来指定,关于合成的信息可由该组盒及/或由该轨道头携带。
例如,在MPEG ISOBMFF中,子图像轨道分组盒在n16824中描述,题为“Text ofISO/IEC DIS 23090-2,Omnidirectional Media Format”,发表于2017年4月,澳大利亚,霍巴特,其透过引用整体纳入本申请。子图像组成盒被修改以使用轨道头盒中的矩阵值(例如,在m41002描述,题为“OMAF:Sub-Picture Track Composition Processing”,发表于2017年7月,意大利,都灵,其透过引用整体纳入本申请),且允许叠放混合(例如,在m40401中提出,题为“Carriage of alpha compositing metadata in MPEG file format”发表于2017年4月,澳大利亚,霍巴特,其透过引用整体纳入本申请。)图4B显示根据一些实施例的使用矩阵值的‘spco’450。字段包含如前所述的composition_width 452及composition_height 454,以及composition_width 410与composition_height 412。字段也可包含矩阵456,如本例子中所示。矩阵456可如图4C中的示例矩阵470所示来概括说明。例如,点(p,q)可使用矩阵470被转换为(p’,q’)。矩阵470中的值储存顺序为{a,b,u,c,d,v,x,y,w}。矩阵470与(p,q,1)相乘以计算(m,n,z),其中m=ap+cq+x;n=bp+dq+y;及z=up+vq+w。然后,(m,n,z)可通过计算p’=m/z;q’=n/z来计算(p’,q’)。进一步参考矩阵456,(u,v,w)被限制为(0,0,1),十六进制值(0,0,0x40000000)。
字段还可包含宽度458与高度460,其分别指定合成图像上的此轨道的取样的,以亮度取样单元计的,宽度及高度。层字段462指定视频轨道从前到后的顺序。字段composition_width 452指定为大于或等于x+width 458,且composition_height 454大于或等于y+height 460。矩阵456,宽度458,高度460,及层462在轨道用于展现时可具有如m39971所描述的相同语义。若这些字段存在时,然后它们会分别重写TrackHeaderBox中的矩阵,宽度,高度及层字段。否则,若这些字段不存在,使用TrackHeaderBox中的矩阵,宽度,高度及层,其中宽度,高度的旗目标值是0x000002(用于展现)。
这些字段也包含alpha_blending_mode 464,其指定alpha混合模式。混合模式的值可包含,例如,如图5A-5B中所示的示例表格500。这样的表格及相关具有默认参数的算法可在单独MPEG文件中指定,例如ISO/IEC 23001-8及/或W3C建议(例如“Composing andBlending 1.0”,W3C后选建议,2015年1月)。每个轨道的TrackHeaderBox的‘layer’参数值可被设定并作为合成两个轨道的相对前后层指示器,其指定了视觉轨道的从前到后顺序。
字段也可包含blending_mode_specific_params字段466,以指定给定混合模式的可选参数,除了使用例如在ISO/IEC 23001-8中指定的默认参数。例如参数可包含alpha频道数据。
发明人已经确认现有的合成轨道获取技术不提供将全局信息与由一组子图像轨道共同携带的内容关联。例如,现有技术不允许元数据与整个图像关联,例如识别整个图像中特定感兴趣区域的元数据。例如,用户需要识别3D内容的一部分来观看(例如,若在某个角度或视点存在你想要呼叫远程用户的东西,这需要加亮3D内容的该部分)。可是,因为视埠独立处理技术会破坏整个3D图像,可能无法识别内容的一部分来指给用户。因此,现有技术不提供指定任何全局信息给由一组子图像轨道共同携带的内容。
例如,轨道分组机制可用来关联子图像与一组,可是轨道分组机制不提供识别每一子图像轨道是否贡献给特定区域(例如,如前所述的特殊感兴趣区域)。如一例子中,所有子图像轨道可形成一组更大的3D图像,可是在摘要中没有实体可支撑该组–没有办法来关联元数据到该组子图像轨道。例如,为了关联元数据与子图像轨道,所有子图像轨道会需要携带同样元数据,这是复杂且难以维持的,且仍然破坏元数据与轨道间的任何关系。如另一例子中,很难构造或设计特定视埠,该视埠仅从子图像轨道的数个中抓取内容来形成该视埠。因此,使用现存的分组技术,很难指定及/或决定哪个子图像轨道会贡献给特定视埠,而不搜查组内全部子图像。如又一例子,分组技术并不包含任何顺序或组织-每一子图像轨道仅是具有一个标记指示该轨道是该组的部分。因此,例如,若3D内容包含数个组,必须要检查每一子图像轨道来决定子图像轨道属于哪个组。
发明人研发出用于获取合成轨道的针对现存文件格式的技术改良。该技术可用于指定全局元数据给子图像轨道组。该技术可允许子图像轨道组以允许元数据与轨道组的内容关联的方式被指定,而不需要每个子图像轨道单独指定。元数据可指定轨道获取如何执行。一些例子中,技术可用于,例如,指定叠放情况下的标准,包含决定背景来填充及/或合并。
发明人研发出用于合成轨道获取的技术改良。如此处所讨论,发明人已经开发用于合成轨道获取之技术,其使用具有轨道空间信息的子图像组成轨道分组的标记机制(labeling mechanisms)。发明人还开发出用于合成轨道获取之技术,其使用具有矩阵的子图像组成轨道分组。例如,如前所述,矩阵信息可在ISOBMFF的轨道的头信息内包含矩阵值,其可提供转换信息,空间合成信息,及/或alpha合成元数据。
一些实施例中,该技术可用在轨道分组盒中指定的信息(例如前述的n16824及m41002中指定的)替换轨道合成空间信息(例如,根据上述的m40384及m39971,在TransformProperty中明确指定的)。借助这些与前文揭露的实施例,整个2D帧轨道可指定为由相关块或子图像轨道组成的获取合成轨道(例如图2中的308,310)。另外,或可选的,任何ROI轨道可被指定为由相关覆盖块或子图像轨道组成获取合成轨道。
图6显示根据一些实施例的合成轨道600的例子。轨道合成轨道v 600由其它块/子图像轨道v1 602A到vr 602R合成。定时元数据轨道可与对应轨道关联(例如,或可参考)以提供这些轨道内的媒体内容的元数据。如图所示,例如,定时元数据轨道604与合成轨道v600关联,且定时元数据轨道与每一块/子图像轨道关联,如图中定时元数据轨道606A与块/子图像轨道v1 602A关联以及定时元数据轨道606R与块/子图像轨道vr 602R关联。
图7显示根据一些实施例的具有背景及alpha混合信息的子图像轨道分组合成700。轨道分组合成700延伸所有‘tgcp’转换属性702的合成。如下面进一步讨论,轨道分组合成700转换属性可指定单色画面背景,单个图像背景,以及/或发信该混合信息。轨道分组合成700转换属性可用于指定获取轨道,它们取样图像的每一是更大画面,该画面与一或多个输入轨道的取样图像以与它们排列的顺序同样的分层顺序相互叠放(例如,先是最底层的输入图像,依次,直到最后最顶层的输入图像)。同个子图像组成轨道组的轨道的时间平行(time-parallel)取样可根据轨道组的语法及语义在空间排列。一些实施例中,可如在n16824中指定那样,基于相关的子图像组成轨道组盒‘spco’指定各方面。例如,画面的尺寸可由composition_width与composition_height指定,且输入轨道的取样图像的尺寸及位置可由相关子图像组成轨道组盒‘spco’中的track_width,track_height,track_x andtrack_y指定。
一些实施例中,延伸的转换属性可施加约束。例如,‘tgcp’702指示输入入口num_input的数量大于或等于1,及/或输入实体为视觉轨道。一些实施例中,约束可用于输入轨道。例如,所有输入轨道可属于同个轨道组,使得每一输入轨道包含子图像组成轨道组盒‘spco’具有同样track_group_id值,‘spco’如上讨论且在n16824中指定。另外,或可选地,约束可包含没有任何两个轨道属于同个备选轨道组(例如,它们不包含具有同个非零alternate_group值的轨道头盒‘tkhd’,同个非零alternate_group值指示它们属于同个备选组,用于从备选组中仅选择一个)。因此,背景与混合信息可包含于轨道分组合成700中,且子图像轨道可使用‘spco’盒中的信息放在一起(例如,使得轨道分组合成700指定由每个子图像轨道携带的‘spco’盒中的信息是用于执行合成)。
background_flag 704指示用于获取合成轨道的背景类型。零值表示没有指定背景。当背景旗标等于1时(例如background_flag 704&1等于1),背景是彩色背景,色彩值由canvas_fill_value 706指定。canvas_fill_value 706可指示每个频道使用的像素值,例如,若在特定像素位置没有任何输入图像的像素。填充值可用RGBA指定(例如,对应回路计数器j分别等于0,1,2,与3的红,绿,蓝及A)。RGB值可落在IEC 61966-2-1中指定的sRGB彩色空间内。A值可为线性不透明度值,范围从例如0(完全透明)到65535(完全不透明)。当背景旗标等于2时(例如background_flag&2等于2),背景是由image_item_ID 708识别的图像。由image_item_ID识别的图像可被缩放来覆盖背景。例如,图像可用子图像组成轨道分组‘spco’中的composition_width与composition_height指定的尺寸缩放。
blending_flag 710指示在获取合成轨道中叠放输入视觉轨道时是否涉及混合。若是1,涉及混合,或若是零(或其他除了一之外的值),不涉及混合。alpha_blending_mode712指定alpha混合模式。混合模式可用段落2.3.2中的示例表格中的值来指定。可使用图5A-5B中的示例表格500的值。每个轨道的TrackHeaderBox中的‘layer’的参数值,其指定视觉轨道的从前到后的顺序,可被设置并可作为合成两个轨道的相对前后层指示器使用。blending_mode_specific_params 714指定具有给定混合模式的可选参数。例如,blending_mode_specific_params 714可指定例如ISO/IEC 23001-8中指定的模认值之外的其他参数,例如上述的包含alpha频道数据。
图8显示根据一些实施例具有背景及alpha混合信息的子图像轨道组矩阵组成800的例子。轨道组矩阵组成800延伸了所有‘tmcp’转换属性802的合成。如下面进一步讨论,轨道组矩阵组成800转换属性可指定单色画面背景,单个图像背景,及/或混合信息(例如,图像叠放混合)。混合信息的信令可对子图像组成轨道组盒‘spco’中的信令进行补充及/或重写,如前讨论及如m41002所提出的。
轨道分组合成800转换属性可用于指定获取轨道,它们取样图像的每一是更大画面,该画面与一或多个输入轨道的取样图像以它们排列的顺序同样的分层顺序相互叠放(例如,先是最底层的输入图像,依次,直到最后最顶层的输入图像)。通过子图像组成轨道组盒‘spco’指定各方面。例如,画面的尺寸可由composition_width与composition_height指定,且输入轨道的取样图像的尺寸及位置可透过子图像组成轨道组盒‘spco’指示的由包含轨道的轨道头TrackHeaderBox‘trkd’的宽度,高度及矩阵指定。
如前所述,延伸的转换属性可施加约束。例如,‘tmcp’可指示输入入口num_input的数量大于或等于1,及/或输入实体为视觉轨道。又如前所述,约束可用于输入轨道(例如,使得所有输入轨道属于同一轨道组,并包含具有同样track_group_id值的‘spco’,且没有任何两个轨道属于同一备选轨道组)。
background_flag 804指示用于获取合成轨道的背景类型。如background_flag704,零值表示没有指定背景。当背景旗标等于1时背景是彩色背景(具有由canvas_fill_value 706指定的色彩值),当值等于2时指示背景是由image_item_ID识别的图像(例如基于composition_width与composition_height缩放)。canvas_fill_value指示若特定像素位置没有任何输入图像的像素时使用的每个频道的像素值。如前讨论,canvas_fill_value706值可用RGBA指定。
blending_flag 810指示在获取合成轨道中叠放输入视觉轨道时是否涉及混合。alpha_blending_mode 812指定alpha混合模式,例如使用像上面讨论的alpha_blending_mode 712的值。类似的,如前讨论的blending_mode_specific_params 714,blending_mode_specific_params 814可指定具有给定混合模式的可选参数,例如alpha频道数据。
所揭露的技术可被使用来,例如支持小视图改变(small view changes)。例如,可需要允许视图以小幅增加来改变,以提供更佳体验(例如,而非仅允许大幅变动)。小的移动经常会具有不同球面内容,并经常需要执行叠放操作。叠放操作可能是复杂的。例如,叠放可并非基于单个球面的叠放,而是也可包含来自不同球面的子像素轨道。因此,在转换属性中指定叠放可带来好处,例如相较于在子图像轨道及/或头中指定叠放信息,因为否则在产生子图像轨道时,解码设备并不知道其他轨道或球面(例如,其仅接收轨道本身)。
图9显示根据一些实施例解码多个子图像轨道的合成轨道获取的示例方法900。在步骤902,设备(例如图1中的解码设备110)接收与视埠相关的多个编码二维子图像轨道。在步骤904,设备决定合成轨道获取,用于合成视埠的多个二维子图像轨道。如前讨论,合成轨道获取可包含指定该多个二维子图像轨道属于同个组的数据,用于将来自该多个二维轨道的取样图像合成(例如,基于子图像组成轨道组盒及/或由子图像组成轨道组盒指示的轨道头)进与视埠相关的画面中的放置信息(例如,宽度,高度,合成矩阵),以及/或用于调整组成布局(例如,包含处理间隙或重叠的操作)的组成布局操作(例如,背景及/或混合信息)。
在步骤906,设备决定该多个二维子图像轨道属于同一组。在步骤908,设备根据该合成轨道获取将该多个二维子图像轨道合成进该画面。在步骤910,设备决定合成的二维子图像轨道的两个或更多个包含该组成布局。在步骤912,设备基于该组成布局操作来调整该组成,从而调整组成布局。
如前讨论,组成布局操作可包含决定如何填充间隙。例如,合成信息可包含旗标,其用于决定是否用固定颜色填充间隙,是否用图像作为背景,或是否使用视频轨道内容作为背景。如前讨论,组成布局操作包含用于决定是否执行混合的旗标。若要执行混合,合成信息可包含指定如何执行混合的参数。
又如前讨论,每个二维子图像轨道中包含的子图像组成轨道组盒可指定画面的宽度,高度或两者。一些实施例中,画面中的取样图像的尺寸,位置或两者可在二维子图像轨道的每个所包含的子图像组成轨道组盒中指定。一些实施例中,画面中的取样图像的尺寸,位置或两者可在包含二维子图像轨道的轨道的轨道头盒(track header box)中指定,且该包含轨道可在二维子图像轨道的每个所包含的子图像组成轨道组盒中指定。
根据本申请描述的原理操作的技术可以以任何合适的方式实现。上面的流程图的处理和决策块代标可以包括在执行这些各种过程的算法中的步骤和动作。从这些过程导出的算法可以实现为与一个或多个单用途或多用途处理器的操作集成并指导其操作的软件,可以实现为功能等效电路,例如数字信号处理(DSP)电路或应用-专用集成电路(ASIC),或者可以以任何其他合适的方式实施。应当理解,这里包括的流程图不描绘任何特定电路或任何特定编程语言或编程语言类型的语法或操作。而是,流程图示出了本领域技术人员可以用来制造电路或实现计算器软件算法以执行执行本文所述技术类型的特定装置的处理的功能信息。还应当理解,除非本文另有指示,否则每个流程图中描述的特定步骤和/或动作序列仅仅是对可以实现的算法的说明,并且可以在本申请描述的原理的实现和实施例中变化。
因此,在一些实施例中,本文描述的技术可以体现为实现为软件的计算器可执行指令,包括作为应用软件,系统软件,韧体,中间件,嵌入代码或任何其他合适类型的计算器代码。这样的计算器可执行指令可以使用许多合适的编程语言和/或编程或脚本工具中的任何一种来编写,并且还可以被编译为在框架或虚拟机上执行的可执行机器语言代码或中间代码。
当本文描述的技术体现为计算器可执行指令时,这些计算器可执行指令可以以任何合适的方式实现,包括作为多个功能设施,每个功能设施提供一个或多个操作以完成根据这些技术操作的算法的执行。然而,实例化的“功能设施”是计算器系统的结构组件,当与一个或多个计算器集成并由一个或多个计算器执行时,使得一个或多个计算器执行特定的操作角色。功能设施可以是软件元素的一部分或整个软件元素。例如,功能设施可以实施为进程功能,或作为离散进程,或作为任何其他合适的处理单元。如果这里描述的技术被实现为多个功能设施,则每个功能设施可以以其自己的方式实现;所有这些都不需要以同样的方式实现。另外,这些功能设施可以适当地并行和/或串行地执行,并且可以使用它们正在执行的计算器上的共享存储器,使用消息传递协议,或其他合适的方式在任何一个之间传递信息。
通常,功能设施包括执行特定任务或实现特定抽象数据类型的例程,程序,对象,组件,数据结构等。通常,功能设施的功能可以根据需要在它们运行的系统中组合或分布。在一些实现中,执行本文技术的一个或多个功能设施可以一起形成完整的软件包。在替代实施例中,这些功能设施可以适于与其他不相关的功能设施和/或过程交互,以实现软件程序应用。
这里已经描述了用于执行一个或多个任务的一些示例性功能设施。然而,应当理解,所描述的功能设施和任务划分仅仅是可以实现本文描述的示例性技术的功能设施的类型的说明,并且实施例不限于以任何特定数量,划分,或功能设施的类型。在一些实现中,所有功能可以在单个功能设施中实现。还应当理解,在一些实施方式中,本文描述的一些功能设施可以与其他功能设施一起实施或与其他功能设施分开实施(即,作为单个单元或单独的单元),或者可以不实现这些功能设施中的一些。
在一些实施例中,实现本文描述的技术的计算器可执行指令(当实现为一个或多个功能设施或以任何其他方式实施时)可以在一个或多个计算器可读介质上编码以向媒体提供功能。计算器可读介质包括诸如硬盘驱动器之类的磁介质,诸如光盘(CD)或数字通用碟(DVD)之类的光学介质,持久或非持久固态存储器(例如,闪存,磁性),RAM等)或任何其他合适的存储介质。这种计算器可读介质可以以任何合适的方式实现。如这里所使用的,“计算器可读介质”(也称为“计算器可读存储介质”)指的是有形存储介质。有形存储介质是非暂时性的并且具有至少一个物理结构组件。在如本文所使用的“计算器可读介质”中,至少一个物理结构组件具有至少一个物理特性,该特性可在创建具有嵌入信息的介质的过程中,在其上记录信息的过程中,或用信息编码媒体的任何其他过程中以某种方式改变。例如,可以在记录过程期间改变计算器可读介质的物理结构的一部分的磁化状态。
此外,上述一些技术包括以某些方式存储信息(例如,数据和/或指令)以供这些技术使用的动作。在这些技术的一些实现中-诸如将技术实现为计算器可执行指令的实现-该信息可以在计算器可读存储介质上编码。在本文中将特定架构为存储该信息的有利格式的情况下,这些结构可用于在编码在存储介质上时赋予信息的物理组织。然后,这些有利结构可以通过影响与信息交互的一个或多个处理器的操作来向存储介质提供功能;例如,通过提高处理器执行的计算器操作的效率。
在其中技术可以体现为计算器可执行指令的一些但非全部实现中,这些指令可以在任何合适的计算器系统或一个或多个计算设备中操作的一个或多个合适的计算设备上执行(或者,一个或多个计算设备的一个或多个处理器)可以被编程为执行计算器可执行指令。计算设备或处理器可以被编程为当指令以计算设备或处理器可访问的方式存储时执行指令,例如在数据存储器(例如,片上高速缓存或指令寄存器,可通过总线访问的,可通过一个或多个网络访问并可由设备/处理器访问的计算器可读介质等)。包括这些计算器可执行指令的功能设施可以与单个多用途可编程数字计算设备的操作集成并指导其操作,两个或更多个多用途计算设备的协调系统共享处理能力并且联合执行本文描述的技术,专用于执行本文所述技术的单个计算设备或计算设备的协调系统(共址或地理分散),用于执行本文所述技术的一个或多个现场可程序化门阵列(FPGA),或任何其他合适的系统。
计算设备可以包括至少一个处理器,网络适配器和计算器可读存储介质。计算设备可以是例如台式或膝上型个人计算器,个人数字助理(PDA),智能移动电话,服务器或任何其他合适的计算设备。网络适配器可以是任何合适的硬件和/或软件,以使计算设备能够通过任何合适的计算网络与任何其他合适的计算设备进行有线和/或无线通信。计算网络可以包括无线接入点,交换机,路由器,网关和/或其他网络设备以及用于在两个或更多个计算器(包括因特网)之间交换数据的任何合适的有线和/或无线通信介质或介质。计算器可读介质可以适于存储要处理的数据和/或要由处理器执行的指令。处理器能够处理数据和执行指令。数据和指令可以存储在计算器可读存储介质上。
计算设备可以另外具有一个或多个组件和外围设备,包括输入和输出设备。除其他之外,这些设备可用于呈现用户界面。可用于提供用户界面的输出设备的示例包括用于输出和扬声器或其他声音生成设备的视觉呈现的打印机或显示屏,用于输出的可听呈现。可以用于用户界面的输入设备的示例包括键盘和指示设备,诸如鼠标,触摸板和数字化平板计算机。作为另一示例,计算设备可以通过语音识别或其他可听格式接收输入信息。
已经描述了以电路和/或计算器可执行指令实现这些技术的实施例。应当理解,一些实施例可以是方法的形式,其中已经提供了至少一个示例。作为方法的一部分执行的动作可以以任何合适的方式排序。因此,可以构造这样的实施例,其中以不同于所示的顺序执行动作,其可以包括同时执行一些动作,即使在示例性实施例中示出为顺序动作。
上述实施例的各个方面可以单独使用,组合使用,或者在前面描述的实施例中没有具体讨论的各种布置中使用,因此不限于其应用于上述实施例中阐述的部件的细节和布置。前面的描述或附图中示出的。例如,一个实施例中描述的方面可以以任何方式与其他实施例中描述的方面组合。
在权利要求书中使用诸如“第一”,“第二”,“第三”等的序数术语来修改权利要求要素本身并不意味着一个权利要求要素优先于另一个或者时间的任何优先权,优先权或顺序。执行方法的行为的顺序,但仅用作标签以将具有特定名称的一个权利要求要素与具有相同名称的另一个要素(但是用于使用序数术语)区分,以区分权利要求要素。
此外,这里使用的措辞和术语是出于描述的目的,而不应被视为限制。本文中“包括”,“包含”,“具有”,“含有”,“涉及”及其变化形式的使用旨在涵盖其后列出的项目及其等同物以及附加项目。
本文使用的“示例性”一词意味着用作示例,实例或说明。因此,在此描述为示例性的任何实施例,实现,过程,特征等应当被理解为说明性示例,并且除非另有指示,否则不应被理解为优选或有利示例。
已经如此描述了至少一个实施例的若干方面,应当理解,本领域技术人员将容易想到各种改变,修改和改进。这些改变,修改和改进旨在成为本公开的一部分,并且旨在落入本文描述的原理的精神和范围内。因此,前面的描述和附图仅是示例性的。

Claims (19)

1.一种编码方法,用于编码多个子图像轨道的合成轨道获取,该方法包含:
编码三维视频数据,包含编码与视埠相关的多个二维子图像轨道;
编码合成轨道获取,用于合成该视埠的该多个二维子图像轨道,其中该合成轨道获取包含指示下列信息的数据:
该多个二维子图像轨道属于同一组;
该多个二维子图像轨道的每一的放置信息,其中该放置信息可用于将来自该多个二维轨道的取样图像合成进与该视埠相关的画面;以及
如果该画面包含由合成于该画面上的该多个二维子图像轨道的两个或更多个所创建的组成布局,则调整组成的组成布局操作;以及
提供该编码三维视频数据与该组成布局操作。
2.根据权利要求1所述的编码方法,其特征在于,该组成布局包含于该画面上合成的该多个二维子图像轨道的该两个或更多个之间的间隙,在该画面上合成的该多个二维子图像轨道的该两个或更多个的重叠,或两者。
3.根据权利要求1所述的编码方法,其特征在于,该编码合成轨道获取包含:
对该多个二维子图像轨道的每一所包含的子图像组成轨道组盒中的该画面的宽度、高度,或两者进行编码。
4.根据权利要求1所述的编码方法,其特征在于,该编码合成轨道获取包含:
对该多个二维子图像轨道的每一所包含的子图像组成轨道组盒中的该画面的取样图像的尺寸、位置,或两者进行编码。
5.根据权利要求1所述的编码方法,其特征在于,该编码合成轨道获取包含:
对包含该多个二维子图像轨道的轨道的轨道头盒中的该画面的取样图像的尺寸、位置,或两者进行编码;以及
对该多个二维子图像轨道的每一所包含的该子图像组成轨道组盒中的包含轨道进行编码。
6.根据权利要求5所述的编码方法,其特征在于,该编码合成轨道获取包含:编码该子图像组成轨道组盒中的矩阵,其中该矩阵用于将该多个二维子图像轨道的每个叠放于该画面上。
7.一种解码方法,解码视频数据以获取合成轨道法,该方法包含:
接收(a)与视埠相关的多个编码二维子图像轨道以及(b)合成轨道获取,用于合成该视埠的该多个二维子图像轨道,其中该合成轨道获取包含指示下列信息的数据:
该多个二维子图像轨道属于同一组;
该多个二维子图像轨道的每一的放置信息,其中该放置信息可用于将来自该多个二维轨道的取样图像合成进与该视埠相关的画面中;以及
如果该画面包含获取轨道中携带的该画面上合成的该多个二维子图像轨道的两个或更多个构建的组成布局,则调整组成的组成布局操作;
决定该多个二维子图像轨道属于同一组;以及
根据该合成轨道获取将该多个二维轨道合成进该画面,以获取合成轨道,包含:
决定该多个合成二维子图像轨道的两个或更多个包含该组成布局;以及
基于该组成布局操作,调整该组成来补偿该组成布局。
8.根据权利要求7所述的解码方法,其特征在于,该决定该多个合成二维子图像轨道的两个或更多个包含组成布局包含:
决定该多个合成二维子图像轨道的两个或更多个包含于该画面上合成的该多个二维子图像轨道的该两个或更多个之间的间隙,在该画面上合成的该多个二维子图像轨道的该两个或更多个的重叠,或两者。
9.根据权利要求7所述的解码方法,其特征在于,更包含解码该合成轨道获取,包含:
对该多个二维子图像轨道的每一所包含的子图像组成轨道组盒中的该画面的宽度、高度,或两者进行解码。
10.根据权利要求7所述的解码方法,其特征在于,更包含解码该合成轨道获取,包含:
对该多个二维子图像轨道的每一所包含的一子图像组成轨道组盒中的该画面的取样图像的尺寸、位置,或两者进行解码。
11.根据权利要求7所述的解码方法,其特征在于,更包含解码该合成轨道获取,包含:
对包含该多个二维子图像轨道的轨道的轨道头盒中的该画面的取样图像的尺寸、位置,或两者进行解码;以及
对该多个二维子图像轨道的每一所包含的该子图像组成轨道组盒中的包含轨道进行解码。
12.根据权利要求11所述的解码方法,其特征在于,解码该合成轨道获取更包含:
解码该子图像组成轨道组盒中的矩阵,其中该矩阵用于将该多个二维子图像轨道的每个叠放于该画面上。
13.一种用于解码视频数据的装置,该装置包含与存储器通信的处理器,该处理器用于执行储存于该存储器内的多个指令,该多个指令使该处理器执行下列操作:
接收(a)与视埠相关的多个编码二维子图像轨道以及(b)合成轨道获取,用于合成该视埠的该多个二维子图像轨道,其中该合成轨道获取包含指示下列信息的数据:
该多个二维子图像轨道属于同一组;
该多个二维子图像轨道的每一的放置信息,其中该放置信息可用于将来自该多个二维轨道的取样图像合成进与该视埠相关的画面中;以及
如果该画面包含获取轨道中携带的该画面上合成的该多个二维子图像轨道的两个或更多个构建的组成布局,则调整组成的组成布局操作;
决定该多个二维子图像轨道属于一同个组;以及
根据该合成轨道获取合成该多个二维轨道进该画面,以获取合成轨道,包含:
决定该多个合成二维子图像轨道的两个或更多个包含该组成布局;以及
基于该组成布局操作,调整该组成来补偿该组成布局。
14.根据权利要求13所述的装置,其特征在于,决定该多个合成二维子图像轨道的两个或更多个包含该组成布局包含:
决定该多个合成二维子图像轨道的两个或更多个包含于该画面上合成的该多个二维子图像轨道的该两个或更多个之间的间隙,于该画面上合成的该多个二维子图像轨道的该两个或更多个的重叠,或两者。
15.根据权利要求13所述的装置,其特征在于,该多个指令被进一步配置以使该处理器解码该合成轨道获取,包含:
对该多个二维子图像轨道的每一所包含的子图像组成轨道组盒中的该画面的宽度、高度,或两者进行解码。
16.根据权利要求13所述的装置,其特征在于,该多个指令被进一步配置以使该处理器解码该合成轨道获取,包含:
对该多个二维子图像轨道的每一所包含的子图像组成轨道组盒中的该画面的取样图像的尺寸、位置,或两者进行解码。
17.根据权利要求13所述的装置,其特征在于,该多个指令被进一步配置以使该处理器解码该合成轨道获取,包含:
对包含该多个二维子图像轨道的轨道的轨道头盒中的该画面的取样图像的尺寸、位置,或两者进行解码;以及
对该多个二维子图像轨道的每一所包含的该子图像组成轨道组盒中的包含轨道进行解码。
18.根据权利要求17所述的装置,其特征在于,解码该合成轨道获取更包含:
解码该子图像组成轨道组盒中的矩阵,其中该矩阵用于将该多个二维子图像轨道的每个叠放于该画面上。
19.一种用于编码视频数据的装置,该装置包含与存储器通信的处理器,该处理器用于执行储存于该存储器内的多个指令,该多个指令使该处理器执行下列操作:
编码三维视频数据,包含编码与视埠相关的多个二维子图像轨道;
编码合成轨道获取,用于合成该视埠的该多个二维子图像轨道,其中该合成轨道获取包含指示下列信息的数据:
该多个二维子图像轨道属于同一组;
该多个二维子图像轨道的每一的放置信息,其中该放置信息可用于将来自该多个二维轨道的取样图像合成进与该视埠相关的画面;以及
如果该画面包含由合成于该画面上的该多个二维子图像轨道的两个或更多个所创建的组成布局,则调整组成的组成布局操作;以及
提供该编码三维视频数据与该组成布局。
CN201880041178.7A 2017-06-23 2018-06-22 用轨道分组获取合成轨道之方法及装置 Active CN110771162B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201762523880P 2017-06-23 2017-06-23
US62/523,880 2017-06-23
US16/014,856 US10778993B2 (en) 2017-06-23 2018-06-21 Methods and apparatus for deriving composite tracks with track grouping
US16/014,856 2018-06-21
PCT/CN2018/092420 WO2018233685A1 (en) 2017-06-23 2018-06-22 METHODS AND APPARATUS FOR DERIVING COMPOSITE TRACKS USING TRACK GROUPING

Publications (2)

Publication Number Publication Date
CN110771162A true CN110771162A (zh) 2020-02-07
CN110771162B CN110771162B (zh) 2021-10-01

Family

ID=64692943

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880041178.7A Active CN110771162B (zh) 2017-06-23 2018-06-22 用轨道分组获取合成轨道之方法及装置

Country Status (4)

Country Link
US (1) US10778993B2 (zh)
CN (1) CN110771162B (zh)
TW (1) TWI688264B (zh)
WO (1) WO2018233685A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113766271A (zh) * 2020-06-04 2021-12-07 腾讯科技(深圳)有限公司 一种沉浸媒体的数据处理方法
WO2022110108A1 (en) * 2020-11-30 2022-06-02 Zte Corporation Multi-atlas encapsulation of immersive media
TWI794076B (zh) * 2021-05-24 2023-02-21 大陸商騰訊科技(深圳)有限公司 多媒體資源中軌道資料的處理方法、裝置、媒體及設備
TWI796989B (zh) * 2021-06-11 2023-03-21 大陸商騰訊科技(深圳)有限公司 沉浸媒體的數據處理方法、裝置、相關設備及儲存媒介
CN117615079A (zh) * 2024-01-23 2024-02-27 北京工业大学 一种用于图像数据的加密方法及加密系统
US12010402B2 (en) 2020-06-04 2024-06-11 Tencent Technology (Shenzhen) Company Limited Data processing for immersive media

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10999602B2 (en) 2016-12-23 2021-05-04 Apple Inc. Sphere projected motion estimation/compensation and mode decision
US11259046B2 (en) 2017-02-15 2022-02-22 Apple Inc. Processing of equirectangular object data to compensate for distortion by spherical projections
US10924747B2 (en) 2017-02-27 2021-02-16 Apple Inc. Video coding techniques for multi-view video
US11093752B2 (en) 2017-06-02 2021-08-17 Apple Inc. Object tracking in multi-view video
US10873733B2 (en) 2017-06-23 2020-12-22 Mediatek Inc. Methods and apparatus for deriving composite tracks
US10754242B2 (en) 2017-06-30 2020-08-25 Apple Inc. Adaptive resolution and projection format in multi-direction video
US20190005709A1 (en) * 2017-06-30 2019-01-03 Apple Inc. Techniques for Correction of Visual Artifacts in Multi-View Images
GB2567625B (en) * 2017-10-12 2020-07-15 Canon Kk Method, device, and computer program for generating timed media data
WO2019235904A1 (ko) * 2018-06-08 2019-12-12 엘지전자 주식회사 360 비디오 시스템에서 오버레이 처리 방법 및 그 장치
US11516453B2 (en) * 2018-07-06 2022-11-29 Sony Corporation Information processing apparatus, information processing method, and program for point cloud sample processing
WO2020009344A1 (ko) * 2018-07-06 2020-01-09 엘지전자 주식회사 360 비디오 데이터의 서브픽처 기반 처리 방법 및 그 장치
WO2020071632A1 (ko) * 2018-10-02 2020-04-09 엘지전자 주식회사 360 비디오 시스템에서 오버레이 처리 방법 및 그 장치
CN111263191B (zh) * 2018-11-30 2023-06-27 中兴通讯股份有限公司 视频数据的处理方法、装置、相关设备及存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5561608A (en) * 1992-11-18 1996-10-01 Kabushiki Kaisha Toshiba Multisystem adaptable type signal processing and recording/reproducing apparatus
CN1846444A (zh) * 2003-09-17 2006-10-11 汤姆森许可贸易公司 自适应参考画面产生
US20080052306A1 (en) * 2006-08-24 2008-02-28 Nokia Corporation System and method for indicating track relationships in media files
US20110069153A1 (en) * 2008-07-31 2011-03-24 Kazuhiko Nakane Video encoding device, video encoding method, video reproducing device, video reproducing method, video recording medium, and video data stream
CN102036616A (zh) * 2008-03-21 2011-04-27 高桥淳 三维数字放大镜手术支持系统
CN102246529A (zh) * 2008-12-15 2011-11-16 皇家飞利浦电子股份有限公司 基于图像的3d视频格式
CN102411783A (zh) * 2010-10-14 2012-04-11 微软公司 在视频聊天应用中自动跟踪用户移动
CN104053017A (zh) * 2013-03-15 2014-09-17 国际商业机器公司 多通道媒体内容中的取证方法和系统
WO2015011109A1 (en) * 2013-07-23 2015-01-29 Canon Kabushiki Kaisha Method, device, and computer program for encapsulating partitioned timed media data using a generic signaling for coding dependencies
US20160088287A1 (en) * 2014-09-22 2016-03-24 Samsung Electronics Company, Ltd. Image stitching for three-dimensional video
CN105556982A (zh) * 2013-07-23 2016-05-04 佳能株式会社 使用子轨特征来封装分区定时媒体数据的方法、装置和计算机程序
US20170032553A1 (en) * 2015-07-29 2017-02-02 Adobe Systems Incorporated Positioning text in digital designs based on an underlying image
US20170134756A1 (en) * 2014-03-25 2017-05-11 Canon Kabushiki Kaisha Image data encapsulation with referenced description information

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8031190B2 (en) * 2004-05-03 2011-10-04 Microsoft Corporation Translating two-dimensional user input on three-dimensional scene
KR101423915B1 (ko) * 2006-04-21 2014-07-29 삼성전자주식회사 3차원 그래픽을 이용한 온스크린 디스플레이 생성 방법 및장치
TWI542190B (zh) * 2008-11-04 2016-07-11 皇家飛利浦電子股份有限公司 編碼三維影像信號的方法及系統、經編碼之三維影像信號、解碼三維影像信號的方法及系統
US8762846B2 (en) * 2009-11-16 2014-06-24 Broadcom Corporation Method and system for adaptive viewport for a mobile device based on viewing angle
CN102467756B (zh) * 2010-10-29 2015-11-25 国际商业机器公司 用于三维场景的透视方法及装置
US10873733B2 (en) 2017-06-23 2020-12-22 Mediatek Inc. Methods and apparatus for deriving composite tracks

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5561608A (en) * 1992-11-18 1996-10-01 Kabushiki Kaisha Toshiba Multisystem adaptable type signal processing and recording/reproducing apparatus
CN1846444A (zh) * 2003-09-17 2006-10-11 汤姆森许可贸易公司 自适应参考画面产生
US20080052306A1 (en) * 2006-08-24 2008-02-28 Nokia Corporation System and method for indicating track relationships in media files
CN102036616A (zh) * 2008-03-21 2011-04-27 高桥淳 三维数字放大镜手术支持系统
US20110069153A1 (en) * 2008-07-31 2011-03-24 Kazuhiko Nakane Video encoding device, video encoding method, video reproducing device, video reproducing method, video recording medium, and video data stream
CN102113324A (zh) * 2008-07-31 2011-06-29 三菱电机株式会社 视频编码装置、视频编码方法、视频再现装置、视频再现方法、视频记录介质以及视频数据流
CN102246529A (zh) * 2008-12-15 2011-11-16 皇家飞利浦电子股份有限公司 基于图像的3d视频格式
CN102411783A (zh) * 2010-10-14 2012-04-11 微软公司 在视频聊天应用中自动跟踪用户移动
CN104053017A (zh) * 2013-03-15 2014-09-17 国际商业机器公司 多通道媒体内容中的取证方法和系统
WO2015011109A1 (en) * 2013-07-23 2015-01-29 Canon Kabushiki Kaisha Method, device, and computer program for encapsulating partitioned timed media data using a generic signaling for coding dependencies
CN105556982A (zh) * 2013-07-23 2016-05-04 佳能株式会社 使用子轨特征来封装分区定时媒体数据的方法、装置和计算机程序
US20170134756A1 (en) * 2014-03-25 2017-05-11 Canon Kabushiki Kaisha Image data encapsulation with referenced description information
US20160088287A1 (en) * 2014-09-22 2016-03-24 Samsung Electronics Company, Ltd. Image stitching for three-dimensional video
US20170032553A1 (en) * 2015-07-29 2017-02-02 Adobe Systems Incorporated Positioning text in digital designs based on an underlying image

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SIWEI MA等: "AVS2__Making_Video_Coding_Smarter_Standards_in_a_Nutshell", 《IEEE》 *
程朋根: "一种基于似三棱柱体元的地质三维建模方法研究", 《东华理工学院学报》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113766271A (zh) * 2020-06-04 2021-12-07 腾讯科技(深圳)有限公司 一种沉浸媒体的数据处理方法
WO2021244132A1 (zh) * 2020-06-04 2021-12-09 腾讯科技(深圳)有限公司 沉浸媒体的数据处理方法、装置、设备及计算机存储介质
CN113766271B (zh) * 2020-06-04 2022-07-12 腾讯科技(深圳)有限公司 一种沉浸媒体的数据处理方法、装置及设备
US12010402B2 (en) 2020-06-04 2024-06-11 Tencent Technology (Shenzhen) Company Limited Data processing for immersive media
WO2022110108A1 (en) * 2020-11-30 2022-06-02 Zte Corporation Multi-atlas encapsulation of immersive media
TWI794076B (zh) * 2021-05-24 2023-02-21 大陸商騰訊科技(深圳)有限公司 多媒體資源中軌道資料的處理方法、裝置、媒體及設備
TWI796989B (zh) * 2021-06-11 2023-03-21 大陸商騰訊科技(深圳)有限公司 沉浸媒體的數據處理方法、裝置、相關設備及儲存媒介
CN117615079A (zh) * 2024-01-23 2024-02-27 北京工业大学 一种用于图像数据的加密方法及加密系统
CN117615079B (zh) * 2024-01-23 2024-03-29 北京工业大学 一种用于图像数据的加密方法及加密系统

Also Published As

Publication number Publication date
CN110771162B (zh) 2021-10-01
US20180376152A1 (en) 2018-12-27
TWI688264B (zh) 2020-03-11
WO2018233685A1 (en) 2018-12-27
US10778993B2 (en) 2020-09-15
TW201907720A (zh) 2019-02-16

Similar Documents

Publication Publication Date Title
CN110771162B (zh) 用轨道分组获取合成轨道之方法及装置
CN110786010B (zh) 一种推导合成轨道的方法及装置
US11200700B2 (en) Methods and apparatus for signaling viewports and regions of interest for point cloud multimedia data
US10742999B2 (en) Methods and apparatus for signaling viewports and regions of interest
US11245926B2 (en) Methods and apparatus for track derivation for immersive media data tracks
US10939086B2 (en) Methods and apparatus for encoding and decoding virtual reality content
CN110351563B (zh) 用于编解码视频数据的方法及装置
US11509878B2 (en) Methods and apparatus for using track derivations for network based media processing
US11457231B2 (en) Methods and apparatus for signaling spatial relationships for point cloud multimedia data tracks
US11146802B2 (en) Methods and apparatus for providing two-dimensional spatial relationships
US11218715B2 (en) Methods and apparatus for spatial grouping and coordinate signaling for immersive media data tracks
US10869016B2 (en) Methods and apparatus for encoding and decoding virtual reality content
US11589032B2 (en) Methods and apparatus for using track derivations to generate new tracks for network based media processing applications
US11922561B2 (en) Methods and systems for implementing scene descriptions using derived visual tracks
US11743559B2 (en) Methods and systems for derived immersive tracks
US20220070429A1 (en) Methods and apparatus for selecting and switching input video tracks using track derivations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant