CN110741649B - 用于轨道合成的方法及装置 - Google Patents

用于轨道合成的方法及装置 Download PDF

Info

Publication number
CN110741649B
CN110741649B CN201880019754.8A CN201880019754A CN110741649B CN 110741649 B CN110741649 B CN 110741649B CN 201880019754 A CN201880019754 A CN 201880019754A CN 110741649 B CN110741649 B CN 110741649B
Authority
CN
China
Prior art keywords
track
synthesis
composition
visual
metadata
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880019754.8A
Other languages
English (en)
Other versions
CN110741649A (zh
Inventor
陈鲁林
王新
赵帅
赖柏霖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MediaTek Inc
Original Assignee
MediaTek Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by MediaTek Inc filed Critical MediaTek Inc
Publication of CN110741649A publication Critical patent/CN110741649A/zh
Application granted granted Critical
Publication of CN110741649B publication Critical patent/CN110741649B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/85406Content authoring involving a specific file format, e.g. MP4 format
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/2624Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects for obtaining an image which is composed of whole input images, e.g. splitscreen
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/265Mixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/272Means for inserting a foreground image in a background image, i.e. inlay, outlay

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本发明一方面提供了包括接口电路以及处理电路的装置。所述接口电路用于接收携带元数据的信号,所述元数据用于来自多个视觉轨道的视觉轨道合成的,所述视觉轨道合成包括α合成,以及可以包括空间合成以及背景合成。所述处理电路用于解析所述元数据来提取用于所述视觉轨道合成的配置信息。进一步地,所述处理电路接收来自第一视觉轨道的第一取样以及来自第二视觉轨道的第二取样,以及基于有关于所述视觉轨道合成的所述配置信息,组合所述第一取样以及所述第二取样来生成合成取样。

Description

用于轨道合成的方法及装置
相关引用
本发明要求提交于2017年3月23日,号码为62/475,244的标题为“Method andapparatus of carriage and delivery of alpha compositing metadata in MPEG fileformat for media applications”美国临时申请案、提交于2017年6月13日,号码为62/518,637的标题为“Method and apparatus of matrix and sub-picture trackcomposition for OMAF”的美国临时申请案、提交于2017年7月12日,号码为62/531,378的标题为“Method of Sub-Picture Track Composition Processing”的美国临时申请案以及提交于2017年10月11日,号码为62/570,697的标题为“Method of using the matrixsyntax element for sub-picture composition”的美国临时申请案的优先权,在先申请的全部内容在此以引用的方式纳入其中。
技术领域
本发明所描述的多个实施例大体涉及视频编解码方法以及装置,更具体地涉及多轨道(multi-track)视觉数据处理技术。
背景技术
此处所提供的背景描述用于总体上呈现本发明的背景的目的。在本背景部分中所描述的范围内的当前署名的发明者的工作,以及在提交时可能不符合现有技术的说明书的各方面,这些内容既不明示地承认为本发明的现有技术也不暗示地承认为本发明的现有技术。
可以使用多个媒体轨道(media track)的文件格式来存储以及递送媒体内容。在一个示例中,大的帧区域(frame region)可被拆分成多个子图像(sub-picture)区域,以及用于大的帧区域的视频可以被存储为分别用于所述多个子图像区域的多个视觉轨道(visual track)。多个视觉轨道可以被递送以及组合来渲染视频用于大的帧区域。
发明内容
本发明一方面提供了一种包括接口电路以及处理电路的一种装置。所述接口电路用于接收携带元数据的信号,所述元数据用于来自多个视觉轨道的视觉轨道合成的,所述视觉轨道合成包括α合成,以及可以包括空间合成以及背景合成。所述处理电路用于解析所述元数据来提取用于视觉轨道合成的配置信息。进一步地,所述处理电路接收来自第一视觉轨道的第一取样以及来自第二视觉轨道的第二取样,以及基于用于所述视觉轨道合成的所述配置信息,将所述第一取样与所述第二取样组合来生成合成取样。
在一个实施例中,所述处理电路用于解析转换性能箱中的所述元数据来提取用于所述视觉轨道合成的所述配置信息。在另一实施例中,所述处理电路用于解析子图像合成箱中的所述元数据来提取用于所述视觉轨道合成的所述配置信息。
根据本发明一方面,所述处理电路用于解析所述元数据来提取指示空间合成的第一旗标、指示所述α合成的第二旗标以及指示背景合成的第三旗标。在一实施例中,所述处理电路用于当所述第二旗标表明在所述视觉轨道合成中使用所述α合成时,解析所述元数据来提取α合成模式以及与所述α合成模式有关的参数。进一步地,在一个示例中,所述处理电路用于当所述第一旗标表明在所述视觉轨道合成中使用所述空间合成时,解析所述元数据来提取用于所述空间合成的矩阵。所述矩阵可以提供于至少一个电影数据头、轨道数据头以及子图像数据头中。在另一示例中,其中所述处理电路用于当所述第三旗标表明在所述视觉轨道合成中使用所述背景合成时,解析所述元资料来提取用于所述背景合成的参数。
本发明的一方面提供了另一种装置,所述装置包括处理电路以及内存电路。所述处理电路用于形成视觉数据的多个视觉轨道用于不同的视觉视图,以及决定元数据用于形成来自所述多个视觉轨道的视觉轨道合成。所述视觉轨道合成包括α合成,以及可以包括背景合成以及空间合成。进一步地,所述处理电路将所述元数据与所述多个视觉轨道封装到文件中,以及将所述文件存储于所述内存电路中。
在一个实施例中,所述处理电路用于将转换性能箱中的所述元数据封装到所述文件中。在另一个实施例中,所述处理电路用于将子图像合成箱中的所述元数据封装到所述文件中。
根据本发明一方面,所述处理电路用于在所述元数据中包括指示空间合成的第一旗标、指示所述α合成的第二旗标以及指示背景合成的第三旗标。
在一个实施例中,所述处理电路用于当所述第二旗标表明在所述视觉轨道合成中使用所述α合成时,包括所述元数据的α合成模式以及与所述α合成模式有关的多个参数。
在另一实施例中,所述处理电路用于当所述第一旗标表明在所述视觉轨道合成中使用所述空间合成时,包括用于所述空间合成的矩阵。所述矩阵可以包括于至少一个电影数据头箱、轨道头箱以及子图像合成箱中。进一步地,在一个示例中,所述处理电路用于当所述第三旗标表明在所述视觉轨道合成中使用所述背景合成时,将用于背景合成的多个参数包括于所述元数据中。
本发明的一方面提供用于图像处理的一种方法,所述方法包括接收携带元数据的信号,所述元数据用于来自多个视觉轨道的视觉轨道合成,所述视觉轨道合成包括α合成,以及可以包括空间合成以及背景合成。进一步地,所述方法包括解析所述元数据来提取用于所述视觉轨道合成的配置信息。然后所述方法包括接收来自第一视觉轨道的第一取样以及来自第二视觉轨道的第二取样,以及基于用于所述视觉轨道合成的所述配置信息,将所述第一取样与所述第二取样组合来生成合成取样。
基于本发明所提供之方法,通过对媒体数据执行多轨道存储以及多个媒体对象的递送,可以有效完成对多个对象的展示及渲染,满足对大尺寸数据处理的需要。
附图说明
作为示例提出的本发明的各种实施例将参考后续的附图详细描述,其中,相同的附图标记表示相同的组件,其中:
图1示出了根据本发明实施例的媒体系统100的框图。
图2-3示出了根据本发明一些实施例的多个媒体文件的图式。
图4-8示出了根据本发明实施例的多个子图像组合箱(sub-picture compositionboxes)的示例。
图9示出了根据本发明实施例的概括进程示例900的流程图。
图10示出了根据本发明实施例的概括进程示例1000的流程图。
具体实施方式
视觉内容,例如原始视频以及全景视频/360视频内容,可以在时间上被表示为多个媒体流(media stream)。当以如ISO基础媒体文件格式(ISO base media file format,ISOBMFF)的文件格式表示或捕获多个媒体流的时候,多个媒体流也称多个为轨道。在一些实施例中,视觉轨道(visual track)包括以时间顺序的一序列图像取样,以及视觉轨道具有与视觉轨道相关的空间属性(spatial attribute),如视觉视图(例如,所述轨道中视觉数据的可见范围)。例如,主要视觉轨道包括相对的大视觉视图(large visual view)的一序列图像取样(例如,全局场景(panorama scene)),以及区域视觉轨道包括大视觉视图中区域(例如,图块场景(tile scene)、分割(partition)、子图像)的一序列图像取样。媒体文件可以包括具有各自空间属性的多个视觉轨道。
各种媒体应用以及用例组合来自不同视觉轨道的图像(或视频)来生成合成图像(合成视频)。来自不同视觉轨道的多个图像(或视频)的组合可以包括各种图像(视频)操作,例如空间转换(spatial transformation)、背景混合(background blending)、α合成等等。空间转换指多个图像(视频)的空间布局(spatial placement)、旋转以及缩放。背景混合指用背景图像(背景视频)来填充未被区域视觉轨道覆盖的区域的进程。α合成指组合图像(或视频)来创造部分或全透明度(transparency)的外观。本发明一方面提供了封装用于视觉轨道合成的配置信息的技术,例如媒体文件中的空间转换信息、背景混合信息以及α合成信息。进一步地,本发明提供了基于媒体文件中用于视觉轨道合成的所述配置信息来组合来自不同视觉轨道的图像(或视频)的技术。
图1示出了根据本发明实施例的媒体系统100的框图。媒体系统100包括耦合在一起的来源子系统110、递送子系统150以及渲染子系统160。来源子系统110用于获得媒体数据(例如,虚拟现实视频)以及适当的将所述媒体数据封装成一个或多个文件。递送子系统150用于将来自于来源子系统110的封装的媒体数据递送至渲染子系统160,渲染子系统160用于根据媒体数据来渲染视频。
根据本发明的一方面,来源子系统110将媒体数据构建成多个轨道,以及基于在时间顺序上的一个序列取样形成每一轨道。在一实施例中,根据如空间分割、图像质量、加密模式(encryption mode)、内容类等等的特定的属性,来源子系统110将视觉数据(例如图像视频、视频数据)构建成多个视觉轨道。进一步地,来源子系统110构造元数据(metadata),元数据提供用于视觉数据和/或视觉轨道的信息。例如,来源子系统110构造元数据,元数据提供用于来自多个视觉轨道的视觉轨道合成的信息。在一些实施例中,来源子系统110可以以时间顺序构造具有元数据取样的元数据轨道,在某一时间的元数据取样提供在所述时间用于视觉轨道合成的信息。
在一些实施例中,来源子系统110构建元数据用于包括多个视觉轨道的单一ISOBMFF文件中的视觉轨道合成。在一个实施例中,多个视觉轨道可以包括基于以时间顺序的一个序列取样形成的多个基础视觉轨道(elementary visual track),以及可以包括基于多个基础视觉轨道所构造的多个导出视觉轨道(derived visual track),多个导出视觉轨道可以是具有可变参数的多个虚拟轨道。多个导出视觉轨道的取样不存在于ISOBMFF文件中,以及可以在决定可变参数后决定(计算)所述导出视觉轨道。在一些实施例中,导出视觉轨道是多个视觉轨道的合成。导出视觉轨道可以由转换性能(transform property)所定义,转换性能携带用于视觉轨道合成的元数据。例如,转换性能指定合成位置(例如特定点的坐标,例如用于合成的矩形区域的左上角)、合成尺寸(例如,用于合成的矩形区域的宽度以及高度)、α混合模式(在一些示例中也称为α合成模式)以及与α混合模式有关的混合特定参数的信息。
在一个示例中,来源子系统110构建主要视觉轨道(primary visual track)以及次级视觉轨道(secondary visual track)。主要视觉轨道包括主要视图的多个第一图像取样,以及所述次级视觉轨道包括第二视图(例如广告视图、字幕视图)的多个第二图像取样。进一步地,来源子系统110基于转换性能构建导出视觉轨道,转换性能指定主要视图中的矩形区域,用于α合成所述次级视图的多个第二图像取样与所述主要视图的多个第一图像取样来生成合成视图。在一示例中,第一图像取样形成合成视图的背景,在矩形区域中,根据α混合模式以及与α混合模式有关的多个参数(例如,矩形区域中的透明度等级(transparency level)),第二图像取样与第一图像取样进行α混合。
在另一实施例中,多个视觉轨道可以是用于更大视图的多个区域(子图像、图块、分割)的多个子图像视觉轨道,以及来源子系统110可以构建轨道组(例如,客体)作为多个子图像视觉轨道的合成。轨道组可以携带元数据用于视觉轨道合成。在一示例中,捕获多个图像帧用于相关的大视图。相关的大视图可以被分割成多个区域视图,以及相关的大视图的多个图像帧被分割成用于多个区域视图的多个子图像。来源子系统110然后构建多个子图像视觉轨道,以及每一子图像视觉轨道包括在时间顺序上用于区域视图的多个子图像。进一步地,来源子系统110构建包括两个或多个子图像视觉轨道的轨道组,以及指定两个或多个子图像视觉轨道的合成。所述轨道组包括用于视觉轨道合成的元数据,例如空间转换、背景合成以及α合成。在一示例中,两个区域视图可以重迭,以及用于视觉轨道合成的元数据用于提供信息,来生成用于重迭区域的视觉视图。
需要注意的是,用于视觉轨道合成的元数据可以包括于各种形式中。在一示例中,空间转换可以指定使用矩阵(matrix)。在一些实施例中,轨道组指定定义空间转换的矩阵,例如平移、旋转以及缩放等等。例如,矩阵是如式子1所示的3×3矩阵。
Figure GDA0003315022260000081
其中a、b、c、d、x、y、u、v以及w是实值(real value)。在一示例中,基于根据Exp2-5的3×3矩阵,点(p,q)(p与q是二维坐标平面中的坐标)被转换成点(p’,q’)(p’以及q’是二维坐标平面中的坐标)。
m=ap+cq+x; Exp.2
n=bp+dq+y; Exp.3
z=up+vq+w; Exp.4
p'=m/z; Exp.5
q'=n/z Exp.6
需要注意的是,可以在各种层级提供矩阵,例如电影等级(movie level)(例如,在电影数据头(header))、轨道层级(例如,在轨道数据头)以及轨道组层级(在轨道组或子图像合成中)。
在另一示例中,可以由α混合模式以及与α混合模式有关的多个参数指定α合成。来提供比单一摄像机更大的环绕空间的覆盖范围。在一个示例中,由多个摄像机提供的多个图像提供整个环绕空间的360°球面覆盖范围。需要注意的是,由多个摄像机捕获的多个图像可以提供小于环绕空间的360°球面覆盖范围。
例如,由获取装置112获得媒体数据可以适当地存储或缓冲于内存115中。处理电路120可以存取内存115,处理所述媒体数据,以及合适的格式封装媒体数据。例如,封装的媒体数据可以然后合适地存储或缓冲于内存115中。
在一实施例中,处理电路120包括用于处理音频数据的音频处理路径(audioprocessing path),以及包括用于处理图像/视频数据的图像/视频处理路径。处理电路120然后根据合适的格式,对音频、图像以及视频数据与元数据进行封装。
在一示例中,由获取装置112获得的多个图像是二维(2D)图像。在另一示例中,在图像/视频处理路径上,处理电路120可以将由不同摄像机拍摄的多个图像拼接在一起来形成拼接的图像,例如全景图像等等。然后,处理电路120可以根据合适的2D平面来投影全景图像,来将所述全景图像变换成可以使用2D编码技术进行编码的2D图像,然后处理电路120可以适当地对图像和/或图像流进行编码。
需要注意的是,处理电路120可以根据任何合适的投影技术来投影全景图像。在一示例中,处理电路120可以使用等矩形投影(equirectangular projection,简称ERP)来投影全景图像,ERP投影以类似于将地球表面投影到地图的方式,来将如全景图像的球体表面投影至矩形平面,例如2D图像。在一个示例中,球体表面(例如,地球表明)使用偏航(例如,经度)以及俯仰(例如,纬度)的球面坐标系统,以及矩形平面使用XY坐标系统。在投影过程中,将偏航圈(yaw circle)转换成垂直线以及将俯仰圈(pitch circle)转换成水平线,偏航圈以及俯仰圈在空间坐标系统中是正交的(orthogonal),以及垂直线与所述水平线在XY坐标系统中是正交的。
在另一示例中,处理电路120可以将全景图像投影到柏拉图立体(platonicsolid)的多个面,例如四面体、立方体、八面体、二十面体等等。多个投影面可以分别重新排列,例如旋转、重新定位来形成2D图像,然后对2D图像进行编码。
需要注意的是,在一个实施例中,处理电路120可以对从不同摄像机拍摄的多个图像进行编码,以及不在多个图像上执行拼接操作和/或投影操作。
根据本发明一方面,所述处理电路120可以用于将视觉内容封装成多个视觉轨道,以及重构元数据用于视觉轨道合成。
根据本发明的一方面,处理电路120包括文件生成模块130,用于将多个视觉轨道以及元数据封装到文件中。在一个实施例中,处理电路120用于使用可扩展的格式标准用于如视频和/或音频的基于时间的媒体,所述标准例如ISO基础媒体文件格式(ISOBMFF)等等。在一示例中,ISO基础媒体文件格式定义了用于基于时间的多媒体文件的通用结构,以及对媒体的交换、管理、编辑和呈现是灵活的以及可扩展的。ISO基础媒体文件格式不依赖于特定的网络协议,以及大体可以支持各种网络协议。因此,在一示例中,通过网络或者通过其他流递送机制(stream delivery mechanism),基于ISO基础媒体文件格式的展示可以被局部地的渲染。
通常,媒体展示可以被包含于一个或多个文件中。一个或多个文件中特定的文件包括用于媒体展示的元数据,以及根据如ISO基础媒体文件格式的文件格式进行格式化。特定文件也可以包括媒体数据。当媒体展示被包含于多个文件的时候,其他文件可以包括媒体数据。在一个实施例中,元数据用于通过对媒体数据的参考来描述媒体数据。因此,在一个示例中,以对任何协议都不可知的状态来存储媒体数据。相同的媒体数据可以用于局部展示、多个协议等等。可以顺序或者不顺序地存储媒体数据。
ISO基础媒体文件格式包括多个箱(box)的特定集合,多个箱是逻辑容器。多个箱包括支持从媒体内容以及媒体内容结构导出的多个参数的描述符(descriptor)。在多个箱的层级中对媒体进行封装。箱是由独特的类型识别符(identifier)定义的面向对象的建构单元(building block)。
在一个示例中,媒体内容的展示被称为电影以及被拆分成在时间方面并行的多个轨道。每一轨道表示一段时间的一个序列媒体内容取样。媒体内容由存取单元进行存储以及存取,例如帧等等。存取单元被定义为在基本流中数据的最小单独可存取部分,以及独一无二的时间信息可以归功于每一存取单元。在一个实施例中,可以以任何序列和/或任何分组的形式物理地将多个存取单元完整或者细分的存储为多个数据包。ISO基础媒体文件格式使用多个箱来将存取单元映像到取样流,使用对存取单元的字节位置的引用。在一示例中,取样信息允许在时间在线同步地对多个存储单元进行解码以及展示,而不考虑存储。
根据本发明的一方面,处理电路120用于将视觉轨道合成信息包括在元数据中。在一示例中,处理电路120生成用于导出轨道的转换性能箱(transform property box),导出轨道是多个视觉轨道(例如,主要视觉轨道以及次级视觉轨道)的合成。处理电路120包括在转换性能箱中的视觉轨道合成信息,在另一示例中,处理电路120生成用于一组子图像视觉轨道的子图像合成箱。处理电路120包括在子图像合成箱中的视觉轨道合成信息。
在一个实施例中,使用一个或多个处理器实施处理电路120,以及一个或多个处理器用于执行软件指令来执行媒体数据处理。在另一实施例中,处理电路120使用集成电路来实施。
在图1的示例中,经由接口电路111将封装的媒体数据提供至递送子系统150,递送子系统150用于适当地提供媒体数据至客户装置,例如渲染子系统160。
在一个实施例中,递送子系统150包括各种网络组件来形成在来源子系统110以及渲染子系统160之间的递送路径,例如路由器、网络交换机、基站、接入点等等。在一个示例中,经由递送子系统150,来源子系统110发送媒体展示至渲染子系统160。经由有线和/或无线连接,递送子系统150的多个组件被适当地耦合在一起,经由有线和/或无线连接,递送子系统150适当地与来源子系统110以及渲染子系统160耦合在一起。
渲染子系统160可以使用任何合适的技术来实施。在一个示例中,渲染子系统的多个组件被组装于装置包(device package)中。在另一示例中,渲染子系统160是分布式系统(distributed system),来源子系统110的多个组件可以位于不同的位置,以及可以经由有线连接和/或无线连接适当地耦合在一起。
在图1的示例中,渲染子系统160包括耦合在一起的接口电路161、处理电路170以及显示设备165。接口电路161用于适当地接收媒体信息,例如经由任何合适的通信协议的媒体展示、媒体流等等的多个文件。
处理电路170用于处理媒体信息以及生成多个图像用于显示设备165来展示给一个或多个用户。显示设备165可以是任何合适的显示屏,例如电视、智能手机、可穿戴设备、头戴式设备等等。
在一示例中,处理电路170包括处理模块180以及图像生成模块190。处理模块180用于配置包装处理、控制以及通信操作。图像生成模块190用于生成用于显示的图像,处理模块180以及图像生成模块190可以被实施为执行软件指令的多个处理器或者可以被实施为集成电路。
根据本发明的一方面,渲染子系统160可以处理由来源子系统110构造的元数据,在一实施例中,通过递送子系统150,来源子系统110发送媒体文件至渲染子系统160,媒体文件包括用于视觉轨道合成的元数据。
在一实施例中,处理电路170可以解析元数据来提取用于视觉轨道合成的信息。在一示例中,媒体文件包括多个视觉轨道以及多个媒体取样,以及基于用于视觉轨道合成的信息,处理电路170可以生成用于显示的多个图像。在另一示例中,例如,处理电路170可以决定提供用于感兴趣区域的视觉数据的多个视觉轨道。处理电路170可以生成请求,来请求所决定的多个视觉轨道的视觉数据。可以由接口电路161发送所述请求,以及由来源子系统110所接收。来源子系统110可以提供所决定的多个视觉轨道的视觉数据,以及可以传输携带视觉数据的信号。接口电路161可以然后接收携带所决定的多个视觉轨道的视觉数据的信号,然后,基于所接收到的视觉数据,处理电路170可以基于用于视觉轨道合成的信息来生成多个图像。
图2示出了根据本发明一些实施例的视觉内容以及对应的媒体文件230的图式。在一示例中,媒体文件230由来源子系统110中的处理电路120生成。例如处理电路120包括媒体文件230中的视觉轨道合成信息,由递送子系统150,将媒体文件230从来源子系统110传输至渲染子系统160。然后,渲染子系统160中的处理电路170可以解析媒体文件230,以及基于如所述媒体文件230中的视觉轨道合成信息生成用于显示的多个图像。
视觉内容包括不同空间属性的视觉取样,例如,视觉内容包括用于主要视觉视图210(例如,用于播放电影)以及次级视觉视图220(例如,用于播放广告)的视觉数据。用于主要视觉视图210的所述视觉数据可以形成视觉轨道V,所述视觉轨道V在所述主要视觉视图210中提供视频。用于次级视觉视图220的视觉数据可以形成视觉轨道V’,视觉轨道V’在所述次级视觉视图220中提视频。
如图2所示,文件230包括用于视觉轨道的轨道箱以及用于导出轨道的转换性能箱。例如,文件230包括用于主要视觉轨道(也称为视频)V的轨道箱240,轨道箱240包括媒体箱(media box)245,其可以包括对用于主要视觉轨道V的多个视频取样的索引。类似地,文件230包括用于次级视觉轨道V’的轨道箱250,轨道箱250包括媒体箱255,其可以包括对于用于生成所述次级视频V’的多个视频取样的索引。进一步地,文件230包括转换性能箱260来包括用于导出视觉轨道的视觉轨道合成信息,导出视觉轨道是主要视觉轨道V以及次级视觉轨道V’的一合成。
在图2的示例中,视觉轨道合成信息包括空间合成信息以及α合成信息。特别地,空间合成信息指定用于轨道合成的矩形区域的位置以及多个尺寸,使用特定点的坐标指定矩形区域的位置,例如矩形区域左上角221,矩形区域的位置由(compositing_top_left_x,compositing_top_left_y)来提供。使用矩形区域的宽度223(例如,compositing_width)以及高度222(例如,compositing_height)指定所述矩形区域的多个尺寸。进一步地,视觉轨道合成信息指定α合成模式(例如,α_blending_mode)以及与α合成模式有关的多个参数(例如,blending_mode_specific_params)。在一个示例中,α合成模式是预定义的,例如附录A的表1。
包括于附录A中的美国临时申请案62/475,244公开了用于转换性能的语法以及语义。
图3示出了根据本发明一些实施例的视觉内容以及对应的媒体文件330的图式。在一个示例中,由来源子系统110中的处理电路120生成媒体文件330。例如处理电路120包括媒体文件330中的视觉轨道合成信息。由递送子系统150来将媒体文件330从来源子系统110传输至渲染子系统160。然后,渲染子系统160中的处理电路170可以解析媒体文件330,以及基于如媒体文件330中的视觉轨道合成信息生成用于显示的多个图像。
视觉内容包括不同空间属性的视觉取样。在一个示例中,捕获多个图像帧用于相关的大视图310。相关的大视图310可以被分割成多个区域视图311-314,以及相关的大视图的多个图像帧被分割成用于多个区域视图的多个子图像。在图3的示例中,区域视图311以及区域视图312是重迭的,以及重迭的区域如317所示。区域视图313以及区域视图314是重迭的,重迭的区域若318所示。用于区域视图311的视觉数据可以形成视觉轨道V1,视觉轨道V1在区域视觉视图311中提供视频。用于区域视图312的视觉数据可以形成视觉轨道V2,视觉轨道V2在区域视觉视图312中提供视频。用于区域视图313的视觉数据可以形成视觉轨道V3,视觉轨道V3在区域视觉视图313中提供视频。用于区域视图314的视觉数据可以形成视觉轨道V4,视觉轨道V4在区域视觉视图314中提供视频。
如图3所示,文件330包括用于视觉轨道V1-V4的多个轨道箱以及用于多个轨道组的多个子图像合成箱。例如,视觉轨道V1以及V2形成第一轨道组,以及视觉轨道V3以及V4形成第二轨道组。文件330包括用于第一轨道组的子图像合成箱360,以及包括用于第二轨道组的子图像合成箱370。子图像合成箱360包括用于第一轨道组的视觉轨道合成信息,例如空间合成、α合成以及背景合成信息。子图像合成箱370包括用于第二轨道组的视觉轨道合成信息,例如空间合成、α合成以及背景合成信息。
多个子图像合成箱的示例如图4-8所示。
图4示出了根据本发明实施例的子图像合成箱400。子图像合成箱400包括矩形区域的尺寸参数,例如矩形区域的宽度(例如,compositing_width)以及高度(例如,compositing_height)。在图4的示例中,子图像合成箱400使用多个旗标来指示是否在子图像合成箱层级中提供额外的空间合成信息、α合成信息以及背景合成信息。例如,matrix_flag是0,其指示不在子图像合成箱层级中提供额外的空间合成信息。在一个示例中,在电影数据头(例如,电影数据头箱)或者轨道数据头(例如,轨道头箱)中的空间合成信息可以用于空间合成。进一步地,blending_flag是0,其指示不在子图像合成箱层级中提供α合成信息,因此在一个示例中不需要混合处理。进一步地,background_flag是0,其指示不在子图像合成箱层级中提供背景合成信息,因此在一个示例中不需要背景处理。
图5示出了根据本发明实施例的子图像合成箱500。子图像合成箱500包括矩形区域的多个尺寸参数,例如矩形区域的宽度(例如,compositing_width)以及高度(例如,compositing_height)。在图5的示例中,子图像合成箱500使用多个旗标来指示是否在子图像合成箱层级中提供额外的空间合成信息、α合成信息以及背景合成信息。例如,matrix_flag是1,其指示在子图像合成箱层级中提供了空间合成信息,如矩阵,因此,子图像合成箱500中的矩阵用于空间合成。需要注意的是,可以忽略电影数据头或者轨道数据头中的矩阵。
进一步地,在图5的示例中,width在亮度取样单元中指定了合成图像上这一轨道的多个取样的宽度,height中亮度取样单元中指定了合成图像上这一轨道的多个取样的高度,以及layer指定了多个视频轨道的前后顺序。
图6示出了根据本发明实施例的子图像合成箱600。子图像合成箱600包括矩形区域的多个尺寸参数,例如矩形区域的宽度(例如,compositing_width)以及高度(例如,compositing_height)。在图6的示例中,子图像合成箱600使用多个旗标来指示是否在子图像合成箱层级中提供空间合成信息、α合成信息以及背景合成信息。例如,matrix_flag是1,其指示在子图像合成箱层级中提供了空间合成信息(例如,矩阵)。因此,使用子图像合成箱600中的矩阵以及可以忽略电影数据头或者轨道数据头中的矩阵。
进一步地,在图6的示例中,blending_flag是1,其指示在子图像合成箱层级中提供α合成信息,例如,提供所述α合成信息为α_blending_mode以及blending_mode_specificparams[]。
图7示出了根据本发明实施例的子图像合成箱700。子图像合成箱700包括矩形区域的多个尺寸参数,例如矩形区域的宽度(例如,compositing_width)以及高度(例如,compositing_height)。在图7的示例中,子图像合成箱700使用多个旗标来指示是否在子图像合成箱层级中提供空间合成信息、α合成信息以及背景合成信息。例如,matrix_flag是1,其指示在子图像合成箱层级中提供了空间合成信息(例如,矩阵)。因此,使用子图像合成箱700中的矩阵以及可以忽略电影数据头或者轨道数据头中的矩阵。
进一步地,在图7的示例中,blending_flag是1,其指示在子图像合成箱层级中提供α合成信息,例如,提供所述α合成信息为α_blending_mode以及blending_mode_specificparams[]。
进一步地,在图7的示例中,background_flag是2,其指示背景是静态图像,以及在子图像合成箱层级中提供所述静态图像的图像标识(例如,image_item_ID)。
图8示出了根据本发明实施例的子图像合成箱800。子图像合成箱800包括矩形区域的多个尺寸参数,例如矩形区域的宽度(例如,compositing_width)以及高度(例如,compositing_height)。在图8的示例中,子图像合成箱800使用多个旗标来指示是否在子图像合成箱层级中提供空间合成信息、α合成信息以及背景合成信息。
例如,matrix_flag可以是可变的,以及在稍后的时间决定,例如渲染时间。当matrix_flag是0的时候,在电影数据头或者轨道数据头中提供的矩阵可以用于空间合成。当matrix_flag是1的时候,在子图像合成箱800中提供的矩阵用于空间合成。
进一步地,在图8的示例中,blending_flag可以是可变的并在稍后的时间决定。当blending_flag是0的时候,不存在α合成信息,当blending_flag是1的时候,在子图像合成箱中提供的α合成信息可以用于α合成。
进一步地,在图8的示例中,background_flag可以是可变的并在稍后的时间决定。当background_flag是1的时候,纯色(solid color)用于背景。当background_flag是2的时候,由图像标识(例如,image_item_ID)所识别的静态图像用于背景。当background_flag是3的时候,视频用于背景,视频由视频轨道标识(例如,video_track_ID)所识别。
包括于附录B中的美国临时申请案62/518,637中、包括于附录C中的美国临时申请案62/531,378中以及包括于附录D中的美国临时申请案62/570,697中公开了用于子图像合成箱的语法以及语义。
图9示出了根据本发明实施例的概括进程示例900的流程图。在一个示例中,由图1示例中的来源子系统110执行进程900。进程开始于步骤S901并前进到步骤S910。
在步骤S910,获取媒体数据。在一示例中,获取设备112包括具有多个摄像机的摄像机平台,来在环绕空间中拍摄各种方向的图像。在一些其他实施例中,从多于一个来源设备中获得媒体数据,其不应所述仅限制于本发明所公开的内容。
在步骤S920,处理视觉数据来生成多个视觉取样以及形成多个视觉轨道。在一个示例中,处理电路120可以将从不同摄像机拍摄的多个图像拼接在一起来形成拼接的图像,例如全景图像等等。然后,根据合适的二维(2D)平面,处理电路120可以投影图像来将图像转换成2D图像。在一个示例中,2D平面可以被拆分成多个子图像区域(分割),以及处理电路120形成不同视觉视图的多个视觉轨道。处理电路120然后生成分别对应于多个视觉轨道多个轨道箱。用于视觉轨道的轨道箱可以包括数据索引,数据索引指向多个视觉取样的子集来形成视觉轨道。
在步骤S930,决定用于视觉轨道合成的元数据并包括于合适的箱中。在一个示例中,用于视觉轨道合成的元数据被包括于转换性能箱中。在另一示例中,用于视觉轨道合成的元数据被包括于子图像合成箱中。在一个实施例中,多个旗标用于指示是否在子图像合成箱中提供空间合成信息、α合成信息以及背景合成信息或者是否使用在电影数据头箱或者轨道头箱中提供的空间合成信息。
在步骤S940,将多个视觉轨道以及元数据封装到文件中。在一个示例中,多个视觉轨道以及元数据被封装到遵从ISOBMFF的文件(例如,文件230、文件330)中。文件被适当的存储于示例中,然后进程前进到步骤S999并结束。
图10示出了根据本发明实施例的概括进程示例1000的流程图。在一个示例中,由图1示例中的渲染子系统执行进程1000,进程开始于步骤S1001并前进到步骤S1010。
在步骤S1010,接收用于视觉轨道合成的元数据。在一个示例中,来源子系统110生成包括元数据(例如元数据轨道)的媒体文件,例如媒体文件230、媒体文件330等等,元数据包括用于来自多个视觉轨道的视觉轨道合成的配置信息。在一个实施例中,处理电路170可以解析元数据来提取用于视觉轨道合成的配置信息,例如空间合成信息、α合成信息以及背景合成信息等等。
在步骤S1020,取回多个视觉轨道。在一示个例中,渲染子系统160决定兴趣区域,以及决定提供视觉数据的多个视觉轨道用于感兴趣区域。在一个示例中,处理电路170可以生成请求,来请求所决定的多个视觉轨道的视觉数据。可以由接口电路161发送请求,接口电路161然后可以接收携带所决定的多个视觉轨道的视觉数据的信号。
在步骤S1030,基于用于视觉轨道合成的所述配置信息,通过组合多个视觉轨道来生成视频。在一个示例中,基于用于视觉轨道合成的配置信息,处理电路170组合分别来自多个视觉轨道的取样来生成合成取样。
在步骤S1040,播放所生成的视频。然后,进程前进到步骤S1099并结束。
附录A
A-1:定义
箱类型: “alcp”
强制性(每一取样): 无
数量(每一取样): 任何
α合成转换提供了色彩以及输出的合成位置中两个实体的α混合,例如两个取样,每一取样来自两个视觉轨道之一。按照在一单独文件中指定的α混合算法来计算输出同位像素(co-located pixel)值,例如,ISO-IEC 23001-8独立编码码点(Coding-independentcode points,检测CICP)或者W3C推荐[5]。
A-2:语法.
Figure GDA0003315022260000201
A-3:语义
compositing_top_left_x,compositing_top_left_y指定了相对于参考坐标原点的合成空间的左上角,可以由应用或者由包括基础轨道以及媒体数据的多个块轨道(tiletracks)的容器格式来指定所述参考坐标原点。
compositing_width,compositing_height指定合成之后输出图像的宽度以及高度。
α_blending_mode指定了具有下方范表中有效值的α混合模式。可以在独立的文件中定义这一正式表格以及具有多个默认参数的相关算法,例如,ISO/IEC 23001-8或者W3C推荐。每一轨道的TrackHeaderBox的“layer”的参数值可以被设置以及用作合成两个轨道的相对前后层次指示符,参数值指定多个视觉轨道[4]的前后顺序。在所述表格中,术语“Source”以及术语“Destination”可互换地分别用于前/顶层以及后/底层或者背景。
表1预定的α混合模式
Figure GDA0003315022260000211
Figure GDA0003315022260000221
blending_mode_specific_params指定具有给定混合模式的可选参数而不使用在如ISO/IEC 23001-8中指定的默认值参数,其可以包括α信道数据。
附录B
本发明提供了一种广泛的感测媒体合成,其不仅包括空间布局而且还包括用于展示的混合的空间转换。所提出的用于子图像合成箱的语法以及语义如下:
Figure GDA0003315022260000231
composition_width在亮度取样单元中指定合成图形的宽度。
composition_height在亮度取样单元中指定合成图形的高度。
matrix提供了转换矩阵{a,b,u,c,d,v,x,y,w}用于视频;{u,v,w}在此处被限制为(0,0,1)、十六进制值(0,0,0x40000000)。
width在亮度取样单元中指定合成图形上这一轨道的多个取样的宽度;
height在亮度取样单元中指定合成图形上这一轨道的多个取样的高度;
layer指定多个视频轨道的前后顺序;
composition_width将大于或等于x+width,composition_height将大于或等于y+height。
matrix、width、height以及layer具有与当轨道用于展示的时候相同的语义,如果存在,它们分别覆盖TrackHeaderBox中的matrix、width、height以及layer。否则,如果不存在,TrackHeaderBox中的matrix、width、height以及layer将用于宽度、高度,其中旗标值是0x000002(用于展示)。
α_blending_mode指定具有下方范表中的有效值α混合模式。这一正式的表格以及具有默认参数的相关算法将定义于一独立的文件中,例如,ISO/IEC23001-8或W3C推荐[3]。每一轨道的TrackHeaderBox中“layer”的参数值可以被设置以及用作合成两个轨道的相对前后层次指示符,参数值指定多个视觉轨道的前后顺序。
blending_mode_specific_params指定了具有给定混合模式的可选参数而不是使用在如ISO/IEC 23001-8中所指定的默认参数,其可以包括α信道数据。
如第一实施例,在不提供矩阵以及混合信息的情况下,SubPictureCompositionBox存在,如下所示:
Figure GDA0003315022260000241
Figure GDA0003315022260000251
如第二实施例,在不提供混合信息的情况下,SubPictureCompositionBox存在,如下所示:
Figure GDA0003315022260000252
在上述两个实施例中,当前OMAF子图像合成设计很好地映像到它们中用于合成展示,其具有明确地提供所述箱中的矩阵值或者隐含地使用的TrackHeaderBox中的矩阵值。
本发明所提出的设计是当前OMAF的超集(superset)情况,其中平移转换情况覆盖了当前OMAF子图像合成设计。
如第三实施例,此外,在提供用于合成的所有信息的情况下,SubPictureCompositionBox存在,如下所示:
Figure GDA0003315022260000261
在这种情况下,提出的设计可以执行丰富变换用于展示,包括子图像合成中的空间布局、旋转、缩放以及混合。
附录C
在上述两个资料头中定义的矩阵可以用于执行各种转换,例如平移、旋转以及缩放等等。然后,在OMAF DIS规范中,所定义的SubPictureCompositionBox(‘spco’)可以仅执行用于子图像轨道的空间布局。此外,这里可能有多个子图像彼此重迭的情况,以及可能需要在展示期间显示各种混合效果,例如AR图像轨道可能利用其它图像轨道或者以各种方式并入用于展示。
本发明提出的设计是一种广泛的感测媒体合成,其不仅包括空间布局而且还包括用于展示的混合以及背景的空间转换。所提出的用于子图像合成箱的语法以及语义如下:
Figure GDA0003315022260000271
Figure GDA0003315022260000281
composition_width在亮度取样单元中指定合成图像的宽度。
composition_height在亮度取样单元中指定合成图像的高度。
matrix提供了转换矩阵{a,b,u,c,d,v,x,y,w}用于视频;{u,v,w}在此处被限制为(0,0,1)、十六进制值(0,0,0x40000000)。
width在亮度取样单元中指定合成图像上这一轨道的多个取样的宽度;
height在亮度取样单元中指定合成图像上这一轨道的多个取样的高度;
layer指定多个视频轨道的前后顺序;
composition_width将大于或等于x+width,composition_height将大于或等于y+height。
当轨道用于展示的时候,matrix、width、height以及layer具有与[2]中相同的语义,如果存在,它们分别覆盖TrackHeaderBox中的matrix、width、height以及layer。否则,如果不存在,TrackHeaderBox中的matrix、width、height以及layer将用于宽度、高度,其旗标值是0x000002(用于展示)。
α_blending_mode指定具有下方范表中的有效值的α混合模式。这一正式的表格以及具有默认参数的相关算法将定义于独立的文件中,例如,ISO/IEC23001-8、ISO/IEC23091-1或W3C推荐[3]。每一轨道的TrackHeaderBox中“layer”的参数值可以被设置以及用作合成两个轨道的相对前后层次指示符,所述参数值指定多个视觉轨道的前后顺序。在所述表中,术语“Source”以及术语“Destination”可互换地分别用于前/顶层以及后/底层或者背景。
blending_mode_specific_params指定具有给定混合模式的可选参数而不使用在例如ISO/IEC 23001-8指定的默认值参数,其可以包括α信道数据。
如第一实施例,在不提供矩阵以及其他信息的情况下,SubPictureCompositionBox存在,如下所示:
Figure GDA0003315022260000291
如第二实施例,在提供矩阵信息的情况下,SubPictureCompositionBox存在,如下所示:
Figure GDA0003315022260000292
Figure GDA0003315022260000301
在上述两个实施例中,当前OMAF子图像合成设计很好地映像到它们中用于合成展示,其具有任一明确地提供所述箱中的矩阵值或者隐含地使用的TrackHeaderBox中的矩阵值。
本发明所提出的设计是当前OMAF的超集(superset)情况,其中平移转换情况覆盖了当前OMAF子图像合成设计。
如第三实施例,此外,在提供用于合成的矩阵以及混合信息的情况下,SubPictureCompositionBox存在,如下所示:
Figure GDA0003315022260000302
Figure GDA0003315022260000311
如果矩阵旗标设置为0,可以提供混合信息并与TrackHeaderBox中的矩阵值一起使用。
如第四实施例,此外,在提供用于合成的所有信息的情况下,SubPictureCompositionBox存在,如下所示:
Figure GDA0003315022260000312
在本发明中,提出的设计可以执行丰富变换用于展示,包括子图像合成中的空间布局、旋转、缩放以及混合。
附录D
上述所定义的新箱SubPictureRegionBox(‘sprg’)可以仅执行用于子图像矩阵的空间布局。以及SubPictureRegionBox中的子图像矩形尺寸(track_width,track_height)的关系不是很清楚地与TrackHeaderBox中用于展示的现有的轨道尺度(width,height)相关联。
在MEPG文件格式[2]中,在TrackHeaderBox‘trkd’中定义语法元素matrix用于处理解码的轨道媒体用于展示,参见下方语法:
Figure GDA0003315022260000321
Figure GDA0003315022260000331
矩阵值:
·其发生在数据头中,指定视频图像的转换用于展示;
·如果使用了矩阵,使用如下矩阵将点(p,q)转换成点(p’,q’)。
(p q 1)*|a b u|=(m n z)
|c d v|
|x y w|
m=ap+cq+x;n=bp+dq+y;z=up+vq+w;
p'=m/z;q'=n/z
·坐标{p,q}在解压缩的帧上,以及{p’,q’}在渲染的输出上。因此,例如,矩阵{2,0,0,0,2,0,0,0,1}精确是使图像的像素尺寸加倍。
·矩阵中的值以顺序{a,b,u,c,d,v,x,y,w}进行存储。
·矩阵中的所有值被存储为16.16定点值,除了u,v以及w以外,其存储为2.30定点值。
对于一些示例,矩阵{1,0,0,0,1,0,0,0,4}是单位矩阵,矩阵{2,0,0,0,2,0,0,0,1}精确地使图像的像素尺寸加倍,矩阵{1,0,0,0,1,0,20,30,4}是具有(20,30)的平移的单位矩阵。因此,例如,{x,y}可以被认为是用于图像的平移向量。
每一轨道使用它的矩阵被构成为整体图像,然后根据MovieHeaderBox中电影等级的矩阵进行转换以及合成。
在轨道数据头中定义的现有的矩阵可以用于执行各种转换用于OMAF中子图像合成,以及它应所述清楚地与SubPictureRegionBox中的元素相关联。本发明提出的设计是一种广泛的感测子轨道合成,其不仅包括空间不仅而且还包括空间转换,例如平移、旋转以及缩放等等。所提出的用于子图像区域箱SubPictureRegionBox的语法与当前DIS文本上的突出显示的变化相比较。“luma pixel”为“luma sample”,文件格式中以及OMAF的“sample”可以指图像。
Figure GDA0003315022260000341
matrix等于1,说明此处有新的矩阵将用于子轨道合成,当等于0的时候,说明此处除了轨道数据头TrackHeaderBox中的矩阵没有其他矩阵存在。
matrix提供了转换矩阵{a,b,u,c,d,v,x,y,w}用于视频;{u,v,w}在此处被限制为(0,0,1)、十六进制值(0,0,0x40000000)。其具有与TrackHeaderBox中矩阵相同的语义。当matrix_flag等于0的时候,它被设置为等于TrackHeaderBox中的矩阵。track_x等于x在亮度像素单元中指定这一轨道的取样的左上角的水平位置在合成图像上。track_x的值将包含在0到composition_width-1的范围内。
track_y等于y在亮度像素单元中指定这一轨道的取样的左上角的垂直位置在合成图像上。track_y的值将包含在0到composition_height-1的范围内。
track_width等于a*width在亮度像素单元中指定这一轨道的取样的水平尺寸在合成图像上。track_width的值将包含在0到composition_width-1的范围内。
track_height等于d*height在亮度像素单元中指定这一轨道的取样的垂直尺寸在合成图像上。track_height的值将在0到composition_height-1的范围内。
composition_width在亮度像素单元中指定合成图像的水平尺寸。在具有相同track_group_id的值的SubPictureCompositionBox的所有情况下,composition_width的值将相同。
composition_height在亮度像素单元中指定所述合成图像的垂直尺寸。在具有相同track_group_id的值的SubPictureCompositionBox的所有情况下,composition_height的值将相同。
由track_x、track_y、track_width以及track_height所表示的矩形被称为是这一轨道的子图像矩形。
对于属于相同子图像合成轨道组以及属于相同替换组(也就是具有相同非0alternate_group值)的所有轨道,子图像矩形的位置以及尺寸将分别是相同的。
子图像合成轨道组的合成图像被导出如下:
1)由于缺乏属于子图像合成轨道组的所有轨道,从每一替换组中选择一轨道;
2)对于所选择的多个轨道中的每一个,应用如下:
a)对于包括在0到track_width-1范围内每一值,以及对于包括在0到track_height-1饭内的每一值,合成图像的亮度像素在亮度像素位置。
((i+track_x)%composition_width,(j+track_y)%composition_height)被设置为等于在亮度像素位置(i,j)的这一轨道的子图像的亮度像素。
b)当解码的图像具有不同于4:0:0的色度格式的时候,相应地导出色度分量。
属于相同子图像合成轨道组的所有轨道以及属于不同替换组(也就是,alternate_group等于0或者不同的alternate_group值)的多个子图像矩形将不会重迭以及将不具有缝隙,以致在用于合成图像上述导出进程中,每一亮度像素位置(p',q')被精确地遍历一遍,其中p’包括在0到composition_width-1的范围内,以及q’包括在0到composition_height-1的范围内。
将所提出的语法以及语义与当前DIS进行比较,提出的方法相比于当前DIS内容具有以下优点:
1)除了合成图像尺寸不需要其他新的定义。
2)使用已设计用于这一空间位置目的的现有矩阵,其比在DIS研究中的一种更加普遍。
3)清楚地将子图像矩形描述与轨道头箱中的轨道尺寸关联;
4)不需要额外的信令用于相同的目的,这可能导致冗余以及潜在的不一致性。
5)使用可以覆盖包括平移、旋转以及缩放的各种转换的矩阵,尤其用于在合成中具有不同轨道尺寸的子图像中。
6)当子图像表示投影图像的区域或表面的时候,使用矩阵可以可组合区域/表面的打包处理。
当以硬件实施的时候,硬件可以包括离散组件、集成电路、特定应用集成电路(ASIC)等等的一个或多个。
虽然本发明的各方面已经结合作为示例提出的特定的实施例进行描述,可以对这些实施例进行替换、修改和变化。因此,本文所述之实施例旨在是说明性的而非限制性的,在不脱离下述提出的权利要求的情况下,可以进行改变。

Claims (20)

1.一种轨道合成装置,其特征在于,包括:
接口电路,用于接收携带元数据的信号,所述元数据用于来自多个视觉轨道的视觉轨道合成,所述多个视觉轨道分别 对应于多个图像,所述视觉轨道合成包括空间合成、α合成以及背景合成;以及
处理电路,用于:
解析所述元数据来提取用于所述视觉轨道合成的配置信息,其中所述配置信息用于指示是否应用所述空间合成、所述α合成或所述背景合成;
接收来自第一视觉轨道的第一取样以及来自第二视觉轨道的第二取样;
基于用于所述视觉轨道合成的所述配置信息,将所述第一取样与所述第二取样组合来生成合成取样。
2.如权利要求1所述的轨道合成装置,其特征在于,其中所述处理电路用于解析转换性能箱中的所述元数据来提取用于所述视觉轨道合成的所述配置信息。
3.如权利要求1所述的轨道合成装置,其特征在于,其中所述处理电路用于解析子图像合成箱中的所述元数据来提取用于所述视觉轨道合成的所述配置信息。
4.如权利要求1所述的轨道合成装置,其特征在于,其中所述处理电路用于解析所述元数据来提取指示是否应用空间合成的第一旗标、指示是否应用所述α合成的第二旗标以及指示是否应用背景合成的第三旗标。
5.如权利要求4所述的轨道合成装置,其特征在于,其中所述处理电路用于当所述第二旗标表明在所述视觉轨道合成中使用所述α合成时,解析所述元数据来提取α合成模式以及与所述α合成模式有关的参数。
6.如权利要求4所述的轨道合成装置,其特征在于,其中所述处理电路用于当所述第一旗标表明在所述视觉轨道合成中使用所述空间合成时,解析所述元数据来提取用于所述空间合成的矩阵。
7.如权利要求6所述的轨道合成装置,其特征在于,其中所述处理电路用于解析至少一个电影数据头箱、轨道头箱以及子图像合成箱中的所述元数据来提取所述矩阵。
8.如权利要求4所述的轨道合成装置,其特征在于,其中所述处理电路用于当所述第三旗标表明在所述视觉轨道合成中使用所述背景合成时,解析所述元数据来提取用于所述背景合成的参数。
9.一种轨道合成装置,其特征在于,包括:
处理电路,用于:
形成视觉数据的多个视觉轨道用于不同的视觉视图;
决定用于来自所述多个视觉轨道的视觉轨道合成的元数据,所述多个视觉轨道分别对应于多个图像,所述视觉轨道合成包括空间合成、α合成以及背景合成;以及
将所述元数据与所述多个视觉轨道封装到文件中,其中所述元数据包括配置信息,其中所述配置信息用于指示是否应用所述空间合成、所述α合成或所述背景合成,以及
内存电路,用于存储所述文件。
10.如权利要求9所述的轨道合成装置,其特征在于,其中所述处理电路用于将转换性能箱中的所述元数据封装到所述文件中。
11.如权利要求9所述的轨道合成装置,其特征在于,其中所述处理电路用于将子图像合成箱中的所述元数据封装到所述文件中。
12.如权利要求9所述的轨道合成装置,其特征在于,其中所述处理电路用于决定所述元数据,来包括指示是否应用空间合成的第一旗标、指示是否应用所述α合成的第二旗标以及指示是否应用背景合成的第三旗标。
13.如权利要求12所述的轨道合成装置,其特征在于,其中所述处理电路用于当所述第二旗标表明在所述视觉轨道合成中使用所述α合成时,决定所述元数据来包括α合成模式以及与所述α合成模式有关的多个参数。
14.如权利要求12所述的轨道合成装置,其特征在于,其中所述处理电路用于当所述第一旗标表明在所述视觉轨道合成中使用所述空间合成时,决定所述元数据来包括用于所述空间合成的矩阵。
15.如权利要求14所述的轨道合成装置,其特征在于,其中所述处理电路用于封装至少一个电影数据头箱、轨道头箱以及子图像合成箱中的所述元数据。
16.如权利要求12所述的轨道合成装置,其特征在于,其中所述处理电路用于当所述第三旗标表明在所述视觉轨道合成中使用所述背景合成时,决定所述元数据来包括用于所述背景合成的多个参数。
17.一种轨道合成方法,其特征在于,包括:
接收携带元数据的信号,所述元数据用于来自多个视觉轨道的视觉轨道合成,所述多个视觉轨道分别 对应于多个图像,所述视觉轨道合成包括空间合成、α合成以及背景合成;
解析所述元数据来提取用于所述视觉轨道合成的配置信息,其中所述配置信息用于指示是否应用所述空间合成、所述α合成或所述背景合成;
接收来自第一视觉轨道的第一取样以及来自第二视觉轨道的第二取样;以及
基于用于所述视觉轨道合成的所述配置信息,将所述第一取样与所述第二取样组合来生成合成取样。
18.如权利要求17所述的轨道合成方法,其特征在于,其中解析所述元数据来提取用于所述视觉轨道合成的所述配置信息进一步包括:
解析一转换性能箱以及一子图像合成箱的至少一个中的所述元数据来提取用于所述视觉轨道合成的所述配置信息。
19.如权利要求17所述的轨道合成方法,其特征在于,其中解析所述元数据来提取用于所述视觉轨道合成的所述配置信息进一步包括:
解析所述元数据来提取指示是否应用空间合成的第一旗标、指示是否应用所述α合成的第二旗标以及指示是否应用背景合成的第三旗标。
20.如权利要求19所述的轨道合成方法,其特征在于,进一步包括:
当所述第二旗标表明在所述视觉轨道合成中使用所述α合成时,从所述元数据提取α合成模式以及与所述α合成模式有关的参数。
CN201880019754.8A 2017-03-23 2018-03-23 用于轨道合成的方法及装置 Active CN110741649B (zh)

Applications Claiming Priority (11)

Application Number Priority Date Filing Date Title
US201762475244P 2017-03-23 2017-03-23
US62/475,244 2017-03-23
US201762518637P 2017-06-13 2017-06-13
US62/518,637 2017-06-13
US201762531378P 2017-07-12 2017-07-12
US62/531,378 2017-07-12
US201762570697P 2017-10-11 2017-10-11
US62/570,697 2017-10-11
US15/928,823 2018-03-22
US15/928,823 US10602239B2 (en) 2017-03-23 2018-03-22 Method and apparatus for track composition
PCT/CN2018/080327 WO2018171750A1 (en) 2017-03-23 2018-03-23 Method and apparatus for track composition

Publications (2)

Publication Number Publication Date
CN110741649A CN110741649A (zh) 2020-01-31
CN110741649B true CN110741649B (zh) 2022-05-24

Family

ID=63583220

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880019754.8A Active CN110741649B (zh) 2017-03-23 2018-03-23 用于轨道合成的方法及装置

Country Status (4)

Country Link
US (1) US10602239B2 (zh)
CN (1) CN110741649B (zh)
TW (1) TWI710248B (zh)
WO (1) WO2018171750A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2560921B (en) * 2017-03-27 2020-04-08 Canon Kk Method and apparatus for encoding media data comprising generated content
US10276213B2 (en) * 2017-05-22 2019-04-30 Adobe Inc. Automatic and intelligent video sorting
GB2563865A (en) * 2017-06-27 2019-01-02 Canon Kk Method, device, and computer program for transmitting media content
GB2567625B (en) * 2017-10-12 2020-07-15 Canon Kk Method, device, and computer program for generating timed media data
US11012657B2 (en) * 2018-06-08 2021-05-18 Lg Electronics Inc. Method for processing overlay in 360-degree video system and apparatus for the same
KR102188270B1 (ko) * 2018-07-06 2020-12-09 엘지전자 주식회사 360 비디오 데이터의 서브픽처 기반 처리 방법 및 그 장치

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101883218A (zh) * 2010-03-12 2010-11-10 浙江大学 一种基于摄像头的图像采集与艺术化处理的方法
CN105144720A (zh) * 2013-01-04 2015-12-09 Ge视频压缩有限责任公司 高效可伸缩编码概念
CN105635685A (zh) * 2015-12-31 2016-06-01 成都移动魔方科技有限公司 一种自动化数据采集传输方法
WO2016202648A1 (en) * 2015-06-16 2016-12-22 Canon Kabushiki Kaisha Method, device, and computer program for obtaining media data and metadata from encapsulated bit-streams wherein operating point descriptors can be dynamically set

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6466226B1 (en) * 2000-01-10 2002-10-15 Intel Corporation Method and apparatus for pixel filtering using shared filter resource between overlay and texture mapping engines
WO2009114111A2 (en) * 2008-03-12 2009-09-17 Packetvideo Corp. System and method for reformatting digital broadcast multimedia for a mobile device
EP2338278B1 (en) * 2008-09-16 2015-02-25 Intel Corporation Method for presenting an interactive video/multimedia application using content-aware metadata
KR101764372B1 (ko) * 2011-04-19 2017-08-03 삼성전자주식회사 휴대용 단말기에서 영상 합성 방법 및 장치
GB2513140B (en) * 2013-04-16 2016-05-04 Canon Kk Methods, devices, and computer programs for streaming partitioned timed media data
EP2866436A1 (en) * 2013-10-23 2015-04-29 Thomson Licensing Method and apparatus for transmission and reception of media data
US9538155B2 (en) * 2013-12-04 2017-01-03 Dolby Laboratories Licensing Corporation Decoding and display of high dynamic range video
WO2015140401A1 (en) * 2014-03-17 2015-09-24 Nokia Technologies Oy An apparatus, a method and a computer program for video coding and decoding
JP6332864B2 (ja) * 2014-12-25 2018-05-30 カシオ計算機株式会社 画像処理装置、画像処理方法及びプログラム
CN105828103A (zh) * 2016-03-31 2016-08-03 乐视控股(北京)有限公司 一种视频处理方法和一种播放器
CN106507096B (zh) * 2016-11-24 2018-12-04 北京邮电大学 一种具有超大视角的追踪式地面光场3d显示方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101883218A (zh) * 2010-03-12 2010-11-10 浙江大学 一种基于摄像头的图像采集与艺术化处理的方法
CN105144720A (zh) * 2013-01-04 2015-12-09 Ge视频压缩有限责任公司 高效可伸缩编码概念
WO2016202648A1 (en) * 2015-06-16 2016-12-22 Canon Kabushiki Kaisha Method, device, and computer program for obtaining media data and metadata from encapsulated bit-streams wherein operating point descriptors can be dynamically set
CN105635685A (zh) * 2015-12-31 2016-06-01 成都移动魔方科技有限公司 一种自动化数据采集传输方法

Also Published As

Publication number Publication date
US10602239B2 (en) 2020-03-24
TWI710248B (zh) 2020-11-11
CN110741649A (zh) 2020-01-31
US20180279014A1 (en) 2018-09-27
TW201841499A (zh) 2018-11-16
WO2018171750A1 (en) 2018-09-27

Similar Documents

Publication Publication Date Title
CN110741649B (zh) 用于轨道合成的方法及装置
CN108702528B (zh) 发送360视频的方法、接收360视频的方法、发送360视频的设备和接收360视频的设备
JP6960528B2 (ja) メディアコンテンツを生成および処理するための方法、装置、およびコンピュータプログラム
CN110800311B (zh) 用于传输媒体内容的方法、装置和计算机程序
CN111819842B (zh) 发送360度视频的方法和装置、接收360度视频的方法和装置
US11049323B2 (en) Method and apparatus for deriving VR projection, packing, ROI and viewport related tracks in ISOBMFF and supporting viewport roll signaling
CN112534825B (zh) 封装方法、生成图像的方法、计算装置和可读存储介质
KR20190094451A (ko) 360 비디오 시스템에서 오버레이 처리 방법 및 그 장치
US20200389640A1 (en) Method and device for transmitting 360-degree video by using metadata related to hotspot and roi
US20200112710A1 (en) Method and device for transmitting and receiving 360-degree video on basis of quality
US20190364261A1 (en) Method for transmitting 360-degree video, method for receiving 360-degree video, apparatus for transmitting 360-degree video and apparatus for receiving 360-degree video
US11831855B2 (en) Method for transmitting 360-degree video, method for providing a user interface for 360-degree video, apparatus for transmitting 360-degree video, and apparatus for providing a user interface for 360-degree video
CN111727605B (zh) 用于发送和接收关于多个视点的元数据的方法及设备
EP3873095A1 (en) An apparatus, a method and a computer program for omnidirectional video
WO2023169003A1 (zh) 点云媒体的解码方法、点云媒体的编码方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant