CN110431846A - 自适应扰动立方体的地图投影 - Google Patents

自适应扰动立方体的地图投影 Download PDF

Info

Publication number
CN110431846A
CN110431846A CN201880019181.9A CN201880019181A CN110431846A CN 110431846 A CN110431846 A CN 110431846A CN 201880019181 A CN201880019181 A CN 201880019181A CN 110431846 A CN110431846 A CN 110431846A
Authority
CN
China
Prior art keywords
video
dimensional
pixels
normalized coordinates
coordinate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201880019181.9A
Other languages
English (en)
Inventor
M·科班
G·范德奥维拉
M·卡切维奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN110431846A publication Critical patent/CN110431846A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/16Spatio-temporal transformations, e.g. video cubism
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/17Function evaluation by approximation methods, e.g. inter- or extrapolation, smoothing, least mean square method
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • G06T15/205Image-based rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/18Image warping, e.g. rearranging pixels individually
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/174Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a slice, e.g. a line of blocks or a group of blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Software Systems (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Processing Or Creating Images (AREA)
  • Image Processing (AREA)

Abstract

本发明提供用于处理视频数据的方法及系统。在一个实例中,可获得第一视频位流,其可包含360度视频数据的球面表示的视频帧。可确定几何形状的平面表面的像素位置的二维像素坐标。所述平面表面可为所述几何形状的多个平面表面的部分。可基于适应参数及所述二维像素坐标来确定所述像素位置的二维正规化坐标。可基于所述二维正规化坐标来确定所述360度视频数据的所述球面表示的样本点的三维坐标。可基于所述样本点来确定所述几何形状的所述平面表面的所述像素位置的像素值,且可产生第二视频位流,其包含针对所述几何形状的所述多个平面表面的像素位置确定的像素值。

Description

自适应扰动立方体的地图投影
技术领域
本申请案涉及360度视频内容。举例来说,系统与方法经描述用于提供用于表示360度视频内容的自适应扰动球形立方体图投影方案。
背景技术
虚拟实境(VR)描述可在看起来真实或实体方式内交互的三维的计算机产生的环境。大体来说,经历虚拟实境环境的用户可左右转、上下看及/或前后移动,因此改变其对虚拟环境的视角。呈现到所述用户的360度视频可因此改变,从而使得用户的体验如在真实世界中同样无缝。虚拟实境视频可以极高质量被检索且显现,从而潜在地提供真实沉浸式虚拟实境体验。
为提供无缝360度视图,通过360度视频检索系统检索的视频通常进行图像缝合。在360度视频产生的状况下的图像缝合涉及组合或合并视频帧重叠或将以其它方式连接所在的区域中的邻近摄影机的视频帧。结果将为大体球形帧。然而,类似于麦卡托(Mercator)投影,经合并数据通常以平面样式表示。举例来说,经合并视频帧中的像素可经映射到立方体形状或某其它三维平面形状(例如,角锥形、八面体、十面体等)的平面上。视频检索及视频显示装置通常按光栅原理操作-从而意谓视频帧作为像素栅格处置-因此,正方形或矩形平面通常用以表示球形环境。
360度视频可经编码用于存储及/或发射。视频译码标准包含国际电信联盟(ITU)ITU-T H.261、国际标准组织/国际电子装置委员会(ISO/IEC)动画群组(MPEG)MPEG-1Visual、ITU-T H.262或ISO/IEC MPEG-2 Visual、ITU-T H.263、ISO/IEC MPEG-4Visual、ITU-T H.264(也称为ISO/IEC MPEG-4AVC)、包含其可调式视频译码(SVC)及多视图视频译码(MVC)扩展及ITU-T H.265(也称为ISO/IEC MPEG-4HEVC)及其扩展。
发明内容
360度视频数据在本质上为球形,且可重新映射到其它几何形状或格式。此些其它几何形状可表示为二维,且可用以存储、编码、发射、解码、显现及/或观看所述360度视频。待用于360度视频数据的映射的一个实例几何形状可为使用等矩形投影(ERP)的等矩形几何形状。另一实例几何形状可为使用立方体图投影的立方体。其它几何形状包含圆柱形几何形状、截短正方棱锥几何形状,以及其它者。
360度视频数据到二维几何形状的此投影可能导致所述球面表示的不均匀采样。举例来说,作为投影的部分,所述球面表示上的样本点可映射到所述几何形状的二维平面上的等间隔的点。样本点之间的间隔可相对于所述球面表示上的所述样本点的所述位置而变化,其导致不均匀采样。所述不均匀采样分布可导致经投影360度视频数据的效率低下的编码。举例来说,所述不均匀采样分布可导致(所述经投影视频帧的)大量数据位用以表示所述球面的小区域(归因于那些小区域内的较大数目个样本点),且相对较小数目个数据位用以表示所述球面的大区域(归因于那些大区域内的较小数目个样本点)。所述经投影360度视频数据中的所述球面的不同区域的不等表示可降级编码的效率,从而过多数据位用以表示所述球面的某些区域,而一些区域用不足数目个数据位表示。
为改进译码效率,本文中描述用于基于用于译码360度视频的一或多个自适应参数执行立方体映射投影的一或多个系统及方法。所述一或多个自适应参数可改变立方体面上的等间隔点的位置与球面上的采样点的位置之间的映射关系,使得所述球面上的所述采样点还可变得间隔更加相等。此可改进360度视频数据的球面表示的采样的均匀性,且可使用更加成比例数目个数据位来表示所述球面的不同区域。因此,可改进所述编码效率。
在一些实例中,本文中描述用于处理360度视频数据的技术及系统。在一个实例中,提供一种用于处理视频数据的方法。所述方法包括:获得包含360度视频数据的球面表示的视频帧的第一视频位流;确定几何形状的平面表面的像素位置的二维像素坐标,所述平面表面为多个平面表面的部分;基于适应参数及所述二维像素坐标来确定所述像素位置的二维正规化坐标;基于所述二维正规化坐标来确定所述360度视频数据的所述球面表示的样本点的三维坐标;确定所述几何形状的所述平面表面的所述像素位置的像素值,所述像素值是基于与所述样本点相关联的所述球面表示的一或多个像素而确定;及产生包含多个视频帧的第二视频位流,所述多个视频帧的视频帧包含针对所述几何形状的所述多个平面表面的像素位置确定的像素值。
在一些实例中,提供一种用于处理视频数据的设备。所述设备可包含:存储器,其经配置以存储360度视频数据;及处理器,其经配置以:获得包含所述360度视频数据的球面表示的视频帧的第一视频位流;确定几何形状的平面表面的像素位置的二维像素坐标,所述平面表面为多个平面表面的部分;基于适应参数及所述二维像素坐标来确定所述像素位置的二维正规化坐标;基于所述二维正规化坐标来确定所述360度视频数据的所述球面表示的样本点的三维坐标;确定所述几何形状的所述平面表面的所述像素位置的像素值,所述像素值是基于与所述样本点相关联的所述球面表示的一或多个像素而确定;及产生包含多个视频帧的第二视频位流,所述多个视频帧的视频帧包含针对所述几何形状的所述多个平面表面的像素位置确定的像素值。
在一些实例中,一种存储有指令的非暂时性计算机可读媒体,所述指令在由一或多个处理器执行时使得所述一或多个处理器执行以下操作:获得包含360度视频数据的球面表示的视频帧的第一视频位流;确定几何形状的平面表面的像素位置的二维像素坐标,所述平面表面为多个平面表面的部分;基于适应参数及所述二维像素坐标来确定所述像素位置的二维正规化坐标;基于所述二维正规化坐标来确定所述360度视频数据的所述球面表示的样本点的三维坐标;确定所述几何形状的所述平面表面的所述像素位置的像素值,所述像素值是基于与所述样本点相关联的所述球面表示的一或多个像素而确定;及产生包含多个视频帧的第二视频位流,所述多个视频帧的视频帧包含针对所述几何形状的所述多个平面表面的像素位置确定的像素值。
在一些实例中,提供一种用于处理视频数据的设备。所述设备包括:用于获得包含360度视频数据的球面表示的视频帧的第一视频位流的装置;用于确定几何形状的平面表面的像素位置的二维像素坐标的装置,所述平面表面为多个平面表面的部分;用于基于适应参数及所述二维像素坐标来确定所述像素位置的二维正规化坐标的装置;用于基于所述二维正规化坐标来确定所述360度视频数据的所述球面表示的样本点的三维坐标的装置;用于确定所述几何形状的所述平面表面的所述像素位置的像素值的装置,所述像素值是基于与所述样本点相关联的所述球面表示的一或多个像素而确定;及用于产生包含多个视频帧的第二视频位流的装置,所述多个视频帧的视频帧包含针对所述几何形状的所述多个平面表面的像素位置确定的像素值。
在一些方面中,上文所描述的所述方法、设备及计算机可读媒体可进一步包含其中基于所述二维正规化坐标来确定所述样本点的三维坐标包含:确定所述多个平面表面的平面表面;基于所述经确定平面表面将所述三维坐标的第一坐标确定为常量;及基于所述二维正规化坐标及所述经确定平面表面来确定所述三维坐标的第二坐标及第三坐标。
在一些方面中,上文所描述的所述方法、设备及计算机可读媒体可进一步包含其中基于所述适应参数及所述二维像素坐标来确定所述像素位置的所述二维正规化坐标包含:基于所述像素位置的所述二维像素坐标来确定所述像素位置的初始二维正规化坐标;及通过使用所述适应参数修改所述初始二维正规化坐标来确定所述像素位置的所述二维正规化坐标。
在一些方面中,上文所描述的所述方法、设备及计算机可读媒体可包含其中通过使用所述适应参数修改所述初始二维正规化坐标来确定所述像素位置的所述二维正规化坐标包含:通过使用函数修改所述初始二维正规化坐标的第一初始二维正规化坐标来确定所述像素位置的所述二维正规化坐标的第一二维坐标,其中所述第一初始二维正规化坐标是通过将所述函数实施为所述适应参数及所述第一初始二维正规化坐标的函数来修改;及通过使用所述函数修改所述初始二维正规化坐标的第二初始二维正规化坐标来确定所述像素位置的所述二维正规化坐标的第二二维坐标,其中所述第二初始二维正规化坐标是通过将所述函数实施为所述适应参数及所述第二初始二维正规化坐标的函数来修改。
在一些方面中,所述函数可包含正负号(sgn)函数及平方根函数,且其中所述适应参数是基于所述平方根函数而设定成第一值。
在一些方面中,所述函数可包含正切(tan)函数,且其中所述适应参数是基于所述正切函数而设定成第二值。
在一些方面中,所述函数可包含分段线性模型,其包含多个枢轴点,且其中所述多个枢轴点中的至少一者是由所述适应参数定义。
在一些方面中,上文所描述的所述方法、设备及计算机可读媒体可进一步包括将所述适应参数的指示包含在所述第二视频位流中。在一些方面中,所述适应参数的所述指示可包含在与所述视频帧的图像块或片段相关联的标头或与所述视频帧或所述多个视频帧相关联的参数集中。
在一些方面中,上文所描述的所述方法、设备及计算机可读媒体可进一步包括:产生补充增强信息消息;及将所述适应参数的指示包含在所述补充增强信息消息中。
在一些方面中,上文所描述的所述方法、设备及计算机可读媒体可进一步包括用所述第二视频位流发射所述补充增强信息消息。
在一些方面中,上文所描述的所述方法、设备及计算机可读媒体可进一步包括从所述第一视频位流提取所述适应参数。
在一些方面中,上文所描述的所述方法、设备及计算机可读媒体可进一步包括从SEI消息提取所述适应参数。在一些方面中,所述SEI消息包含在所述第一视频位流中。
在一些方面中,所述几何形状可包含立方体,其中所述多个平面表面对应于所述立方体的六个表面,且其中所述六个表面的每一表面与所述球面表示的球面相切。
在一些方面中,所述设备包括具有用以检索所述360度视频数据的一或多个摄影机的移动装置。
在一些实例中,提供另外一种用于处理视频数据的方法。所述方法包括:获得包含360度视频数据的球面表示的多个视频帧的视频位流,所述多个视频帧的视频帧包含几何形状的多个平面表面,其中所述多个平面表面的每一平面表面包含多个像素;确定所述球面表示的目标点的三维坐标;确定所述目标点应映射到的所述几何形状的平面表面,所述平面表面是基于所述目标点的所述三维坐标而确定;基于所述目标点的所述三维坐标及适应参数来确定所述目标点应映射到的所述平面表面上的映射位置的二维坐标;基于所述多个像素中的与所述平面表面上的所述映射位置相关联的一或多个像素产生像素值;及将所述像素值指派给所述球面表示的所述目标点。
在一些实例中,提供一种用于处理视频数据的设备。所述设备包括:存储器,其经配置以存储360度视频数据;及处理器,其经配置以:获得包含所述360度视频数据的球面表示的多个视频帧的视频位流,所述多个视频帧的视频帧包含几何形状的多个平面表面,其中所述多个平面表面的每一平面表面包含多个像素;确定所述球面表示的目标点的三维坐标;确定所述目标点应映射到的所述几何形状的平面表面,所述平面表面是基于所述目标点的所述三维坐标而确定;基于所述目标点的所述三维坐标及适应参数来确定所述目标点应映射到的所述平面表面上的映射位置的二维坐标;基于所述多个像素中的与所述平面表面上的所述映射位置相关联的一或多个像素产生像素值;及将所述像素值指派给所述球面表示的所述目标点。
在一些实例中,一种存储有指令的非暂时性计算机可读媒体,所述指令在由一或多个处理器执行时使得所述一或多个处理器执行以下操作:获得包含360度视频数据的球面表示的多个视频帧的视频位流,所述多个视频帧的视频帧包含几何形状的多个平面表面,其中所述多个平面表面的每一平面表面包含多个像素;确定所述球面表示的目标点的三维坐标;确定所述目标点应映射到的所述几何形状的平面表面,所述平面表面是基于所述目标点的所述三维坐标而确定;基于所述目标点的所述三维坐标及适应参数来确定所述目标点应映射到的所述平面表面上的映射位置的二维坐标;基于所述多个像素中的与所述平面表面上的所述映射位置相关联的一或多个像素产生像素值;及将所述像素值指派给所述球面表示的所述目标点。
在一些实例中,提供一种用于处理视频数据的设备。所述设备包括:用于获得包含360度视频数据的球面表示的多个视频帧的视频位流的装置,所述多个视频帧的视频帧包含几何形状的多个平面表面,其中所述多个平面表面的每一平面表面包含多个像素;用于确定所述球面表示的目标点的三维坐标的装置;用于确定所述目标点应映射到的所述几何形状的平面表面的装置,所述平面表面是基于所述目标点的所述三维坐标而确定;用于基于所述目标点的所述三维坐标及适应参数来确定所述目标点应映射到的所述平面表面上的映射位置的二维坐标的装置;用于基于所述多个像素中的与所述平面表面上的所述映射位置相关联的一或多个像素产生像素值的装置;及用于将所述像素值指派给所述球面表示的所述目标点的装置。
在一些方面中,上文所描述的所述方法、设备及计算机可读媒体可包含其中确定所述平面表面上的所述映射位置的所述二维坐标包含:基于所述目标点的所述三维坐标来确定所述映射位置的初始二维坐标;及通过使用所述适应参数修改所述初始二维坐标来确定所述映射位置的所述二维坐标。
在一些方面中,上文所描述的所述方法、设备及计算机可读媒体可包含其中基于所述目标点的所述三维坐标来确定所述初始二维坐标包含:基于所述三维坐标的第一三维坐标与所述三维坐标的第二三维坐标之间的第一比来确定所述初始二维坐标的第一初始二维坐标;及基于所述三维坐标的第三三维坐标与所述三维坐标的所述第二三维坐标之间的第二比来确定所述初始二维坐标的第二初始二维坐标。
在一些方面中,上文所描述的所述方法、设备及计算机可读媒体可包含其中通过使用所述适应参数修改所述初始二维坐标来确定所述映射位置的所述二维坐标包含:通过使用函数修改所述第一初始二维坐标来确定所述映射位置的所述二维坐标的第一二维坐标,其中所述第一初始二维坐标系通过将所述函数实施为所述适应参数及所述第一初始二维坐标的函数来修改;及通过使用所述函数修改所述第二初始二维坐标来确定所述映射位置的所述二维坐标的第二二维坐标,其中所述第二初始二维坐标是通过将所述函数实施为所述适应参数及所述第二初始二维坐标的函数来修改。
在一些方面中,所述函数包含正负号(sgn)函数及二次函数,且其中所述适应参数是基于所述二次函数而设定成第一值。
在一些方面中,所述函数可包含反正切(atan)函数,且其中所述适应参数是基于所述反正切函数而设定成第二值。
在一些方面中,所述函数包含分段线性模型,其包含多个枢轴点,且其中所述多个枢轴点中的至少一者是由所述适应参数定义。
在一些方面中,所述视频位流将所述适应参数的指示包含在与所述视频帧的图像块或片段相关联的标头或与所述视频帧或所述多个视频帧相关联的参数集中,且进一步包括从所述视频位流提取所述适应参数。
在一些方面中,上文所描述的所述方法、设备及计算机可读媒体可进一步包括:接收补充增强信息消息,所述补充增强信息消息包含所述适应参数的指示;及从所述补充增强信息消息提取所述适应参数。
在一些方面中,所述几何形状包含立方体,其中所述多个平面表面对应于所述立方体的六个表面,且其中所述六个表面的每一表面与所述球面表示的球面相切。
此发明内容并不打算识别所主张标的物的关键或基本特征,也不打算单独使用以确定所主张标的物的范围。应参考此专利的整个说明书的适当部分、任何或所有图式及每一技术方案来理解标的物。
在参考以下说明书、权利要求书及随附图式时,前述内容连同其它特征及实施例将变得更显而易见。
附图说明
下文参考如下图式详细描述本申请案的说明性实施例:
图1为说明根据一些实例的编码装置及解码装置的实例的框图;
图2A及图2B为说明根据一些实例的由使用鱼眼透镜以检索宽视场的全向摄影机检索的视频图片的实例的图式;
图3A及图3B为说明根据一些实例的正用于360度视频呈现的360度视频图片的实例的图式;
图4为说明根据一些实例的等矩形视频图片的实例的图式;
图5为说明根据一些实例的等矩形视频帧及相关联的权重图的实例的图像;
图6为说明根据一些实例的立方体图视频帧及相关联的权重图的实例的图像;
图7A、图7B及图7C为说明根据一些实例的立方体图投影的实例的图式;
图8为说明根据一些实例的自适应扰动立方体图投影的实例的曲线;
图9A及图9B为说明根据一些实例的使用自适应扰动立方体图投影的立方体图视频帧中的360度视频图片样本的实例分布的图像;
图10为说明根据一些实例的用于处理360度视频数据的过程的实例的流程图;
图11为说明根据一些实例的用于处理360度视频数据的过程的另一实例的流程图;
图12为说明根据一些实例的实例视频编码装置的框图;且
图13为说明根据一些实例的实例视频解码装置的框图。
具体实施方式
下文提供本发明的某些方面及实施例。此些方面及实施例的一些可独立地应用并且其中的一些可以将对所属领域的一般技术人员显而易见的组合来应用。在以下描述中,出于解释的目的,阐述众多特定细节以便提供对本申请案的实施例的透彻理解。然而,将显而易见的是,可在无此些特定细节的情况下实践各种实施例。图式及描述不打算为限定性的。
随后描述仅提供示范性实施例且并不打算限制本发明的范围、适用性或配置。确切而言,示范性实施例的随后描述将为所属领域的一般技术人员提供能够实施示范性实施例的描述。应理解,可在不背离随附权利要求书中阐述的标的物的精神及范围的情况下对元件的功能及布置进行各种改变。
在本说明书中,给定特定细节以提供对实施例的透彻理解。然而,所属领域的一般技术人员应了解,实施例可在无需此些具体细节的情况下实践。举例来说,电路、系统、网络、过程及其它组件可以框图形式展示为组件以免以不必要的细节混淆实施例。在其它情况下,已在无不必要的细节的情况下展示熟知电路、过程、算法、结构及技术以便避免混淆实施例。
另外,应注意,个别实施例可描述为被描绘为流程图、流图、数据流图、结构图或框图的过程。虽然可将操作描述为依序过程,但操作中的许多者可并行地或同时来执行。另外,可重新布置操作的次序。过程在其操作完成时终止,但可具有不包含在图中的额外步骤。过程可对应于方法、函数、过程、子例程、子程序等。当过程对应于函数时,其终止可对应于函数传回到呼叫函数或主函数。
术语“计算机可读媒体”包含但不限于便携式或非便携式存储装置、光学存储装置,及能够存储、含有或携载指令及/或数据的各种其它媒体。计算机可读媒体可包含其中可存储数据的非暂时性媒体,在此状况下所述数据并非经由载波及/或暂时电子信号存储。非暂时性媒体的实例可包含(但不限于)磁盘或磁带、光学存储媒体,例如紧密光盘(CD)或数字化通用光盘(DVD)、快闪存储器、存储器或存储器装置。计算机可读媒体可具有存储于其上的程序代码及/或机器可执行指令,所述程序代码及/或机器可执行指令可表示过程、函数、子程序、程序、例程、子例程、模块、软件套件、类别,或指令、数据结构或程序语句的任何组合。一个码段可通过传递及/或接收信息、数据、论证、参数或存储器内容耦合到另一码段或硬件电路。信息、论证、参数、数据等可经由包含存储器共享、消息传递、符记传递、网络发射或其类似者的任何合适的方式传递、转发或发射。
此外,可由硬件、软件、固件、中间软件、微码、硬件描述语言或其任何组合实施方法的实施例。当实施于软件、固件、中间软件或微码中时,用以执行必要任务的程序代码或码段(例如,计算机程序产品)可存储于计算机可读或机器可读媒体中。处理器可执行必要任务。
视频内容可经检索及译码作为360度视频内容。如下文更详细地描述,本文中所描述的一或多个系统与方法涉及提供用于表示360度视频内容的自适应扰动球形立方体图投影方案。
360度视频为在360度场景或环境中检索的视频且可经显现用于360度场景或环境的沉浸式显示。举例来说,360度视频可表示可以看起来真实或实体方式交互的三维场景或环境。在一些状况下,360度视频可以极高质量被检索且显现(例如,高清晰度、4K超高清晰度、8K超高清晰度及/或其它高质量视频),从而潜在地提供真实沉浸式360度视频或虚拟实境体验。360度视频的说明性实例可包含经检索、经计算机产生抑或其类似者的虚拟实境视频、扩增实境数据或任何其它类型的360度类型的视频内容。360度视频应用的说明性实例包含实况体育事件、扩增实境、游戏、训练、教育、体育视频、线上购物,以及其它者。在一些状况下,经历360度视频环境的用户使用例如头戴式显示器(HMD)、移动装置或其它合适装置的电子装备。在一些状况下,某些工具或服装(例如,装配有传感器的手套)可视需要用以与虚拟环境交互。随着用户改变头部定向及/或在真实世界中移动,在360度视频环境中显现的图像也改变,从而向用户给予用户正在360度视频环境内移动的感觉。在一些状况下,360度视频环境可包含与用户的移动相关的声音,从而向用户给予声音来源于特定方向或来源的视听。
在一些应用中,相较于可(例如)出现在游戏及虚拟世界中的计算机产生的图形,来自真实世界的视频可用于360度视频或虚拟实境环境的呈现。在此些真实世界应用中,用户可以用户可体验用户的目前位置的相同方式体验另一位置。在一个说明性实例中,用户可在使用定位于旧金山的360度视频系统时体验柏林徒步之旅。在一些应用中,360度视频可提供虚拟存在于通过显现通过沉浸用户的移动而相关的自然及/或合成图像(及在一些状况下声音)建立的非实体世界中的能力,从而允许用户与彼世界交互。
360度视频系统可包含视频检索装置及视频显示装置,且可能还包含例如服务器、数据存储器及数据发射装备的其它中间装置。视频检索装置可包含摄影机集合,其可包含多个摄影机的集合,每一摄影机定向于不同方向且检索不同视图。在一个说明性实例中,六个摄影机可用以检索以摄影机集合的位置上定中心的完整360度视图。一些视频检索装置可使用更少摄影机。举例来说,一些视频检索装置可主要检索边到边视图或使用具有宽视场的透镜。在一个说明性实例中,装备有背对背定位的两个鱼眼透镜的一或多个摄影机可用以检索共同提供360度视场的两个图像。视频总体上包含图片(还被称作帧或图像),其中图片可包含场景中以电子方式译码的静态图像。摄影机每秒检索某数目个帧,其通常被称作摄影机的帧速率。
在一些状况下,为提供无缝360度视图,可对由摄影机集合中的摄影机中的每一者检索的视频图片执行图像缝合。在360度视频产生的状况下的图像缝合涉及组合或合并视频图片重叠或将以其它方式连接所在的区域中的邻近摄影机(或镜头)的视频图片。结果将为大体球形图片,且经合并数据以平面样式表示。举例来说,球形图片可映射到几何形状的二维表示及/或平面。举例来说,球形视频数据可使用等矩形投影(ERP)经投影到等矩形几何形状。作为另一实例,球形视频数据可经投影到几何形状,例如使用立方体图投影的立方体。球形视频数据还可投影到其它几何形状上,包含(例如)截短正方棱锥(TSP)、圆柱图、十二面体及/或其它合适几何形状。举例来说,经合并视频图片中的像素可经投影或映射到TSP形状、立方体形状或某其它三维平面形状(例如,角锥形、八面体、十面体等)的平面上。视频检索及视频显示装置可按光栅原理操作-从而意谓视频图片作为像素栅格处置-在此状况下正方形平面、矩形平面或其它适当地成形平面可用以表示球形环境。
映射到几何平面表示的360度视频图片可经编码及/或压缩以供存储及/或发射。编码及/或压缩可使用视频编解码器(例如,与高效视频译码(HEVC)标准(其还被称为H.265)、高级视频译码标准(其被称为H.264或其它合适编解码器)兼容的程序代码)来实现且产生经压缩视频位流(或经编码的视频位流)或位流的群组。360度视频内容的视频图片可使用时间帧间预测(TIP)而编码为单层位流,且整个译码位流可存储于服务器处。在一些状况下,360度视频内容的图片可使用TIP及层间预测(ILP)而编码为多层位流。下文进一步详细地描述使用视频编解码器对视频数据编码。
在一些实施中,经编码的视频位流可以媒体格式或文件格式存储及/或囊封。一或多个所存储位流可(例如)经由网络发射到接收器装置,所述接收器装置可解码并显现视频以供显示。此接收器装置在本文中可被称作视频显示装置。举例来说,360度视频系统可从经编码视频数据(例如,使用国际标准组织(ISO)基本媒体文件格式及/或导出的文件格式)产生经囊封文件。举例来说,视频编解码器可编码视频数据,且囊封引擎可通过将视频数据囊封于一或多个ISO格式媒体文件中而产生媒体文件。替代或另外地,所存储位流可直接从存储媒体提供到接收器装置。
接收器装置还可实施编解码器以解码及/或解压缩经编码的视频位流。在一或多个经编码的视频位流以媒体格式或文件格式存储及/或囊封情况下,接收器装置可支持用以将视频位流封装到文件(或多个文件)中的媒体或文件格式,且可提取视频(及还可能音频)数据以产生经编码视频数据。举例来说,接收器设备用经囊封视频数据剖析媒体文件以产生经编码视频数据,且接收器装置中的编解码器可解码经编码视频数据。
接收器装置接着可发送经解码视频信号到显现装置(例如,视频显示装置、播放器装置或其它合适的显现装置)。显现装置包含(例如)头戴式显示器、虚拟实境电视、支持360度视频应用的移动装置,及/或其它180度或360度显示装置。大体来说,头戴式显示器能够跟踪穿戴者的头部的移动及/或穿戴者的眼睛的移动。头戴式显示器可使用跟踪信息来显现对应于穿戴者正观察的方向的360度视频的部分,使得穿戴者以与穿戴者将体验真实世界相同的方式体验虚拟环境。(例如,接收器装置的)显现装置可在与检索视频时相同的帧速率下,或在不同的帧速率下显现视频。视需要,包含360度视频的位流可发射到接收器侧,通过解码器完全解码,且对应于经解码图片中由穿戴者观看的场景的一部分的区域(被称作观看者的视场(FOV))可通过显现装置显现以供通过穿戴者观看。观看者的FOV可由头戴式显示器或其它360度视频显示装置基于穿戴者的头部及/或眼睛的移动而确定。
如上所指出,360度视频图片(例如,经映射或投影到2D格式或几何形状)可经编码及/或压缩以供存储及/或发射,且接收器装置可解码及/或解压缩经编码360度视频图片。图1为说明视频译码系统100的实例的框图,所述视频译码系统包含编码装置104及解码装置112。编码装置104可为源装置的部分,且解码装置112可为接收装置的部分。源装置及/或接收装置可包含电子装置,例如移动或静止电话手机(例如,智能型手机、蜂窝式电话或其类似者)、台式计算机、膝上型或笔记型计算机、平板计算机、机顶盒、电视、摄影机、显示装置、数字媒体播放器、视频游戏主机、视频流式传输装置、因特网协议(IP)摄影机或任何其它合适的电子装置。在一些实例中,源装置及接收装置可包含用于无线通信的一或多个无线收发器。本文中所描述的译码技术适用于各种多媒体应用中的视频译码,包含流式传输视频发射(例如,经由因特网)、电视广播或发射、编码数字视频以供存储于数据存储媒体上、解码存储于数据存储媒体上的数字视频或其它应用。在一些实例中,系统100可支持单向或双向视频发射以支持例如视频会议、视频流式传输、视频播放、视频广播、游戏及/或视频电话的应用。
编码装置104(或编码器)可用以使用视频译码标准或协议编码视频数据以产生经编码的视频位流。视频译码标准的实例包含ITU-T H.261、ISO/IEC MPEG-1Visual、ITU-TH.262或ISO/IEC MPEG-2Visual、ITU-T H.263、ISO/IEC MPEG-4Visual、ITU-T H.264(也被称为ISO/IEC MPEG-4AVC),包含其可调式视频译码(SVC)及多视图视频译码(MVC)扩展,及ITU-T H.265(也被称为高效视频译码(HEVC))。存在涉及多层视频译码的HEVC的各种扩展,包含范围及屏幕内容译码扩展、3D视频译码扩展(3D-HEVC)及多视图扩展(MV-HEVC)及可调式扩展(SHVC)。HEVC及其扩展已通过ITU-T视频译码专家组(VCEG)及ISO/IEC动画专家组(MPEG)的视频译码联合协作小组(JCT-VC)以及3D视频译码扩展开发联合协作小组(JCT-3V)开发。MPEG及ITU-T VCEG已也形成联合探索视频小组(JVET),以探索用于下一代视频译码标准的新译码工具。参考软件被称作JEM(联合探索模型)。
本文中所描述的许多实施例提供使用HEVC标准及/或其扩展的实例。然而,本文中所描述的技术及系统也可适用于其它译码标准,例如AVC、MPEG、JEM模型、其扩展及/或已可用或尚不可用或尚未开发的其它合适的译码标准。因此,虽然可参考特定视频译码标准描述本文中所描述的技术及系统,但所属领域的一般技术人员将了解,描述不应解译为仅适用于彼特定标准。
参看图1,视频源102可将视频数据提供到编码装置104。视频源102可为源装置的部分,或可为除源装置以外的装置的部分。视频源102可包含视频检索装置(例如,摄像机、摄影机电话、视频电话或其类似者)、含有经存储视频的视频存档、提供视频数据的视频服务器或内容提供者、从视频服务器或内容提供者接收视频的视频馈入接口、用于产生计算机图形视频数据的计算机图形系统、此些源的组合或任何其它合适的视频源。
来自视频源102的视频数据可包含一或多个输入图片。视频的图片或帧为场景的静态图像。视频数据的图片或帧可包含经映射或投影到几何形状(例如,TSP、立方体或其它合适几何形状)的平面上的360度视频数据。编码装置104的编码器引擎106(或编码器)编码视频数据以产生经编码的视频位流。在一些实例中,经编码的视频位流(或“视频位流”或“位流”)为一系列的一或多个经译码视频序列。经译码视频序列(CVS)包含一系列存取单元(AU),其始于在基础层中具有随机存取点图片且具有某些性质的AU,直到且不包含在基础层中具有随机存取点图片且具有某些性质的下一AU。举例来说,开始CVS的随机存取点图片的某些性质可包含等于1的RASL旗标(例如,NoRaslOutputFlag)。否则,随机存取点图片(具有等于0的RASL旗标)并不开始CVS。存取单元(AU)包含一或多个经译码图片以及对应于共享相同输出时间的经译码图片的控制信息。图片的经译码片段在位流层级经囊封到被称作网络抽象层(NAL)单元的数据单元中。举例来说,HEVC视频位流可包含一或多个CVS,所述一或多个CVS包含NAL单元。NAL单元中的每一者具有NAL单元标头。在一个实例中,标头对于H.264/AVC(除了多层扩展以外)为一个位组且对于HEVC为两个位组。NAL单元标头中的语法元素采取指定位,且因此对所有种类的系统及输送层可见,例如输送流、实时输送(RTP)协议、文件格式以及其它者。
两种类别的NAL单元存在于HEVC标准中,包含视频译码层(VCL)NAL单元及非VCLNAL单元。VCL NAL单元包含经译码图片数据的一个片段或片段区段(如下描述),且非VCLNAL单元包含关于一或多个经译码图片的控制信息。在一些状况下,NAL单元可被称作包。HEVC AU包含含有经译码图片数据的VCL NAL单元及对应于经译码图片数据的非VCL NAL单元(如果存在)。
NAL单元可含有形成视频数据的经译码表示(例如,视频中的图片的经译码表示)的位序列(例如,经编码的视频位流、位流的CVS或类似者)。编码器引擎106通过将每一图片分割成多个片段而产生图片的经译码表示。片段独立于其它片段,以使得在不依赖于来自同一图片内的其它片段的数据的情况下译码所述片段中的信息。片段包含一或多个片段区段,所述一或多个片段区段包含独立片段区段及(如果存在)取决于先前片段区段的一或多个相关片段区段。片段接着被分割成明度样本及色度样本的译码树型块(CTB)。明度样本的CTB及色度样本的一或多个CTB连同样本的语法被称为译码树型单元(CTU)。CTU为用于HEVC编码的基本处理单元。CTU可经分裂成具有不同大小的多个译码单元(CU)。CU含有被称为译码块(CB)的明度及色度样本阵列。
明度及色度CB可进一步被分裂成预测块(PB)。PB为对于帧间预测或块内复制预测(在可用或经启用以供使用时)使用相同运动参数的明度分量或色度分量的样本的块。所述明度PB及一或多个色度PB连同相关联语法形成预测单元(PU)。对于帧间预测,运动参数集合(例如,一或多个运动向量、参考索引或其类似者)在位流中针对每一PU发信,且用于明度PB及一或多个色度PBs的帧间预测。运动参数还可被称作运动信息。CB还可被分割成一或多个变换块(TB)。TB表示色彩分量的样本的正方形块,对所述正方形块应用同一二维变换以用于译码预测残余信号。变换单元(TU)表示明度及色度样本的TB以及对应语法元素。
CU的大小对应于译码模式的大小,且可为正方形形状。举例来说,CU的大小可为8×8样本、16×16样本、32×32样本、64×64样本或达到对应CTU的大小的任何其它适当大小。短语“N×N”在本文中用以指代视频块就垂直及水平尺寸而言的像素尺寸(例如,8像素×8像素)。可按行及列来布置块中的像素。在一些实施例中,块在水平方向上可不具有与在垂直方向上相同的数目个像素。与CU相关联的语法数据可描述例如将CU分割成一或多个PU。分割模式可在CU经帧内预测模式编码抑或经帧间预测模式编码之间有所不同。PU可经分割成非正方形形状。与CU相关联的语法数据也可描述(例如)根据CTU将CU分割成一或多个TU。TU可为正方形或非正方形形状。
根据HEVC标准,可使用变换单元(TU)来执行变换。TU可针对不同CU而变化。可基于给定CU内的PU的大小而对TU设定大小。TU可与PU大小相同或小于PU。在一些实例中,可使用被称为“残余四分树”(RQT)的四分树结构将对应于CU的残余样本再分成较小单元。RQT的叶节点可对应于TU。可变换与TU相关联的像素差值以产生变换系数。变换系数可随后由编码器引擎106量化。
一旦视频数据的图片被分割成CU,编码器引擎106便使用预测模式来预测每一PU。接着从原始视频数据减去预测单元或预测块以得到残余(如下描述)。对于每一CU,可使用语法数据在位流内部发信预测模式。预测模式可包含帧内预测(或图片内预测)或帧间预测(或图片间预测)。帧内预测利用图片内的空间相邻样本之间的相关性。举例来说,在使用帧内预测的情况下,使用(例如)用以找出PU的平均值的DC预测(或其它合适预测)、用以将平面表面与PU拟合的平面预测、用以从相邻数据推知的方向预测,或任何其它合适预测类型从相同图片中的相邻图像数据预测每一PU。帧间预测使用图片之间的时间相关性以便导出图像样本的块的运动补偿预测。举例来说,在使用帧间预测的情况下,使用运动补偿预测从一或多个参考图片(按输出次序在当前图片之前或之后)中的图像数据预测每一PU。可(例如)在CU层级作出使用图片间预测抑或图片内预测来译码图片区域的决策。
在一些实例中,图片的一或多个片段被指派有片段类型。片段类型包含I片段、P片段及B片段。I片段(帧内预测帧,可独立解码)为仅通过帧内预测译码的图片的片段,且因此可独立解码,这是因为I片段仅需要图片内的数据来预测片段的任何预测单元或预测块。P片段(单向预测图片)为可通过帧内预测及通过单向帧间预测译码的图片的片段。通过帧内预测或帧间预测译码P片段内的每一预测单元或预测块。当应用帧间预测时,仅通过一个参考图片预测所述预测单元或预测块,且因此参考样本仅来自一个图片的一个参考区域。B片段(双向预测性图片)为通过帧内预测及帧间预测(例如,双向预测或单向预测)进行译码的图片的片段。B片段的预测单元或预测块可从两个参考图片进行双向预测,其中每一图片贡献一个参考区域,且两个参考区域的样本集合经加权(例如,用相等权重或不同权重)以产生经双向预测块的预测信号。如上文所解释,一个图片的片段经独立译码。在一些状况下,图片可仅作为一个片段而被译码。
PU可包含与预测过程相关的数据(例如,运动参数或其它合适数据)。举例来说,当使用帧内预测来编码PU时,PU可包含描述用于PU的帧内预测模式的数据。作为另一实例,当使用帧间预测来编码PU时,PU可包含定义用于PU的运动向量的数据。定义用于PU的运动向量的数据可描述(例如)运动向量的水平分量(Δx)、运动向量的垂直分量(Δy)、用于运动向量的分辨率(例如,整数精度、四分之一像素精度或八分之一像素精度)、运动向量指向的参考图片、参考索引、用于运动向量的参考图片列表(例如,列表0、列表1或列表C),或其任何组合。
编码装置104可接着执行变换及量化。举例来说,在预测之后,编码器引擎106可计算对应于PU的残余值。残余值可包含正经译码像素的当前块(PU)与用以预测当前块的预测块(例如,当前块的经预测版本)之间的像素差值。举例来说,在产生预测块(例如,使用帧间预测或帧内预测)之后,编码器引擎106可通过从当前块减去由预测单元产生的预测块来产生残余块。残余块包含量化当前块的像素值与预测块的像素值之间的差的一组像素差值。在一些实例中,残余块可表示为二维块格式(例如,像素值的二维矩阵或阵列)。在此些实例中,残余块为像素值的二维表示。
使用块变换来变换可在执行预测之后剩余的任何残余数据,此变换可基于离散余弦变换、离散正弦变换、整数变换、小波变换、其它合适的变换函数或其任何组合。在一些状况下,一或多个块变换(例如,大小32×32、16×16、8×8、4×4或其它合适大小)可应用于每一CU中的残余数据。在一些实施例中,TU可用于由编码器引擎106实施的变换及量化过程。具有一或多个PU的给定CU还可包含一或多个TU。如下文进一步详细描述,可使用块变换将残余值变换成变换系数,且随后可使用TU来量化且扫描以产生用于熵译码的串行化变换系数。
在一些实施例中,在使用CU的PU进行帧内预测性或帧间预测性译码之后,编码器引擎106可计算CU的TU的残余数据。PU可包含空间域(或像素域)中的像素数据。在应用块变换之后,TU可包含变换域中的系数。如先前所提及,残余数据可对应于未经编码图片的像素及与对应于PU的预测值之间的像素差值。编码器引擎106可形成包含CU的残余数据的TU,且接着可变换TU以产生CU的变换系数。
编码器引擎106可执行变换系数的量化。量化通过量化变换系数以减少用以表示系数的数据的量而提供进一步压缩。举例来说,量化可减少与系数中的一些或所有相关联的位深度。在一个实例中,具有n位值的系数可在量化期间经降值舍位为m位值,其中n大于m。
一旦执行量化,经译码视频位流包含经量化变换系数、预测信息(例如,预测模式、运动向量、块向量或其类似者)、分割信息及例如其它语法数据的任何其它合适的数据。接着可通过编码器引擎106对经译码视频位流的不同元素进行熵编码。在一些实例中,编码器引擎106可利用预定义扫描次序扫描经量化变换系数以产生可经熵编码的串行化向量。在一些实例中,编码器引擎106可执行自适应扫描。在扫描经量化变换系数以形成向量(例如,一维向量)之后,编码器引擎106可熵编码向量。举例来说,编码器引擎106可使用上下文自适应可变长度译码、上下文自自适应二进制算术译码、基于语法的上下文自适应二进制算术译码、概率区间分割熵译码或另一合适的熵编码技术。
如先前所描述,HEVC位流包含NAL单元的群组,包含VCL NAL单元及非VCL NAL单元。VCL NAL单元包含形成经译码视频位流的经译码图片数据。举例来说,形成经译码视频位流的位序列存在于VCL NAL单元中。除了其它信息以外,非VCL NAL单元还可含有具有与经编码的视频位流相关的高层级信息的参数集。举例来说,参数集可包含视频参数集(VPS)、序列参数集(SPS)及图片参数集(PPS)。参数集的目标的实例包含位速率效率、错误复原及提供系统层接口。每一片段可参考单一作用中PPS、SPS及VPS以存取解码装置112可用于解码片段的信息。可针对每一参数集译码识别符(ID),包含VPS ID、SPS ID及PPS ID。SPS包含SPS ID及VPS ID。PPS包含PPS ID及SPS ID。每一片段标头包含PPS ID。使用ID,可识别针对给定片段的作用中参数集。
PPS包含适用于给定图片中的所有片段的信息。因此,图片中的所有片段参考同一PPS。不同图片中的片段还可参考同一PPS。SPS包含适用于同一经译码视频序列(CVS)或位流中的所有图片的信息。如先前所描述,经译码视频序列为一系列存取单元(AU),其始于在基础层中且具有某些性质(如上文所描述)的随机存取点图片(例如,瞬时解码参考(IDR)图片或断链存取(BLA)图片或其它适当的随机存取点图片),直到且不包含具有在基础层中且具有某些性质的随机存取点图片的下一AU(或位流的末端)。SPS中的信息可不在经译码视频序列内在图片间改变。经译码视频序列中的图片可使用同一SPS。VPS包含适用于经译码视频序列或位流内的所有层的信息。VPS包含具有适用于全部经译码视频序列的语法元素的语法结构。在一些实施例中,可与经编码位流一起频带内发射VPS、SPS或PPS。在一些实施例中,可在与含有经译码视频数据的NAL单元分开的发射中带外经发射VPS、SPS或PPS。
视频位流还可包含补充增强信息(SEI)消息。举例来说,SEI NAL单元可为视频位流的部分。在一些状况下,SEI消息可含有解码过程未必需要的信息。举例来说,SEI消息中的信息可能并非对于解码器对位流所述视频图片进行解码必不可少,但解码器可使用所述信息以改进对图片(例如,经解码输出)的显示或处理。SEI消息中的信息可为嵌入型元数据。在一个说明性实例中,SEI消息中的信息可由解码器侧实体使用以改进内容的可见性。在一些情况下,某些应用标准可强制此类SEI消息在位流中的存在以使得符合应用标准的所有装置可达成质量的改进(例如,用于帧可兼容平面立体3DTV视频格式的帧包装SEI消息的携载,其中针对视频的每一图片携载SEI消息;恢复点SEI消息的处置;拉移式扫描矩形SEI消息在DVB中的使用;外加许多其它实例)。在一些实例中,SEI消息还可分别从视频位流发射。
编码装置104的输出端110可经由通信链路120将组成经编码的视频位流数据的NAL单元发送到接收装置的解码装置112。解码装置112的输入114可接收NAL单元。通信链路120可包含由无线网络、有线网络或有线网络与无线网络的组合提供的通道。无线网络可包含任何无线接口或无线接口的组合,且可包含任何适合的无线网络(例如,因特网或其它广域网、基于包的网络、WiFiTM、射频(RF)、UWB、WiFi-Direct、蜂窝式、长期演进(LTE)、WiMaxTM或其类似者)。有线网络可包含任何有线接口(例如,光纤、网络以太网、电力线网络以太网、经由同轴电缆的网络以太网、数字信号线(DSL)或其类似者)。可使用各种装备来实施有线及/或无线网络,所述装备例如基站、路由器、存取点、桥接器、网关、交换器或其类似者。可根据通信标准(例如,无线通信协议)调制经编码的视频位流数据,且将其发射到接收装置。
在一些实例中,编码装置104可将经编码的视频位流数据存储于存储器108中。输出端110可从编码器引擎106或从存储器108检索经编码的视频位流数据。存储器108可包含多种分散式或本地存取的数据存储媒体中的任一者。举例来说,存储器108可包含硬盘机、存储光盘、快闪存储器、易失性或非易失性存储器或用于存储经编码视频数据的任何其它合适的数字存储媒体。
解码装置112的输入端114接收经编码的视频位流数据,且可将视频位流数据提供到解码器引擎116,或提供到存储器118以供稍后由解码器引擎116使用。解码器引擎116可通过熵解码(例如,使用熵解码器)并提取组成经编码视频数据的一或多个经译码视频序列的元素,来解码经编码的视频位流数据。解码器引擎116可接着重新按比例调整经编码的视频位流数据且对其执行反变换。残余数据接着经传递到解码器引擎116的预测级。解码器引擎116随后预测像素的块(例如,PU)。在一些实例中,预测被加到反变换的输出(残余数据)。
解码装置112可将经解码视频输出到视频目的地装置122,视频目的地装置可包含用于将经解码视频数据显示给内容的消费者的显示器或其它输出装置。在一些方面中,视频目的地装置122可为接收装置的部分,所述接收装置包含解码装置112。在一些方面中,视频目的地装置122可为不同于接收装置的单独装置的部分。
在一些实施例中,视频编码装置104及/或视频解码装置112可分别与音频编码装置及音频解码装置集成。视频编码装置104及/或视频解码装置112也可包含实施上文所描述的译码技术所必要的其它硬件或软件,例如一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合。视频编码装置104及视频解码装置112可集成为各别装置中的组合式编码器/解码器(编解码器)的部分。下文参看图12描述编码装置104的特定细节的实例。下文参看图13描述解码装置112的特定细节的实例。
对HEVC标准的扩展包含多视图视频译码扩展(被称作MV-HEVC)及可调式视频译码扩展(被称作SHVC)。MV-HEVC及SHVC扩展共享分层译码的概念,其中不同层包含在经编码的视频位流中。经译码视频序列中的每一层是由唯一层识别符(ID)定址。层ID可存在于NAL单元的标头中以识别NAL单元所相关联的层。在MV-HEVC中,不同层可表示视频位流中的同一场景的不同视图。在SHVC中,提供表示空间分辨率(或图片分辨率)不同或重建保真度不同的视频位流的不同可调式层。可调式层可包含基层(具有层ID=0)及一或多个增强层(具有层ID=1、2、…n)。基层可符合HEVC的第一版本的配置文件,且表示位流中的最低可用层。与基层相比,增强层具有增加的空间分辨率、时间分辨率或帧速率及/或重建保真度(或质量)。增强层经阶层式组织,且可(或可不)取决于较低层。在一些实例中,可使用单一标准编解码器来译码不同层(例如,使用HEVC、SHVC或其它译码标准编码所有层)。在一些实例中,可使用多标准编码解码器来译码不同层。举例来说,可使用AVC来译码基层,而可使用对HEVC标准的SHVC及/或MV-HEVC扩展来译码一或多个增强层。
一般来说,层包含一组VCL NAL单元及对应的一组非VCL NAL单元。NAL单元被指派特定层ID值。在层可取决于较低层的意义上,层可为阶层式的。层集合指表示于位流内的独立的层的集合,意谓在解码过程中层集合内的层可取决于层集合中的其它层,但并不取决于任何其它层来进行解码。因此,层集合中的层可形成可表示视频内容的独立位流。可通过子位流提取过程的操作从另一位流获得层集合中的层的集合。层集合可对应于待在解码器希望根据某些参数操作时被解码的层集合。
在一些实施方案中,用于检索360度视频的摄影机集合可包含全向摄影机、反射折射摄影机(使用透镜及弯曲镜的摄影机)、装备有鱼眼透镜的摄影机,及/或其它合适摄影机。全向摄影机的一个实例为理光(Ricoh)Theta-STM,其使用以相反方向聚焦的两个鱼眼透镜。图2A及图2B说明由使用鱼眼透镜检索宽视场的全向摄影机检索的视频图片的实例。在图2A的实例中,视频图片200包含圆形鱼眼图像。鱼眼透镜能够检索极宽角度,例如180度或更大。因此,装备有背对背定位的两个鱼眼透镜的摄影机可检索共同提供360度视野(或更多)的两个图像。非广角鱼眼透镜检索近似45度到约90度的视场。视场可替代地或另外以弧度表达。
为了检索广角,鱼眼透镜使场景的图像失真。如图2A中所说明,在视频图片200中检索的场景形状为圆形,且从中心变形到此圆形区的外部边缘。因为摄影机传感器为矩形,所以视频图片200为矩形且图像包含非场景的部分的区域,此处使用点画说明。此些区域中的像素视为不可用,此是由于此些像素并非为场景的部分。
图2B的实例包含视频图片202,所述视频图片包含完整帧鱼眼图像。在此类型视频图片202中,广角视场也已在圆形区域中检索,其中场景经变形成圆形区域。在此实例中,图像已按比例调整(例如,放大)如此场景填充矩形图片的边缘。此实例视频图片202不包含不可用区域,且可由透镜检索的场景的一些部分已经裁剪或并未被检索。
如上文所描述,其它类型的摄影机还可用以检索360度视频。举例来说,摄影机集合可包含多个摄影机的集合(例如,检索足够数目个场景的视图所需要的5、6、7或其它数目个摄影机)。每一摄影机可定向于不同方向中并检索不同场景的视图。接着可对由摄影机集合中的摄影机中的每一者检索的视频图片执行图像缝合以提供无缝360度视图。
图3A及图3B说明正用于360度视频呈现的360度视频图片300的实例。可将360度视频图片300映射到球形空间上,以形成表示360度场景或环境的球面表示310(也被称作球面)。所得球面表示310的区域330(例如,对应于观看者320的视场(FOV))可使用例如头戴式显示器(HMD)或非HMD显示器(例如,TV、移动装置、可穿戴式装置或其它合适360度视频显示装置)的360度显示装置显示到观看者320。举例来说,当360度视频在360度视频显示装置上播放时,观看区360可经显现供显示到用户。观看区360可为与球面相切的360度视频图片300的平面(例如,在区域330中的点处与球面交叉的平面)上的区域(例如,矩形区域或其它合适形状),其中观看区360的平面与用户的观看方向正交。在一个说明性实例中,可通过应用投影技术将来自球面表示310上的区域330的视频数据映射于360度视频图片300中对应于观看区360的平面上来产生观看区。投影技术的实例包含直线投影(例如,如JVET-D1030中所论述)、立体平画投影、圆柱形投影或其它合适的投影技术。在一些实例中,球面上对应于观看区的区域可包含通过四个大圆的四个片段围封的区域(即,球面与穿过球面的中心点的平面的交叉点)。
360度视频数据在本质上为球形,且可重新映射到其它几何形状或格式。此些其它几何形状可用以存储、编码、发射、解码、显现及/或观看所述360度视频。在各种实施方案中,鱼眼图像302A、302B可映射到其它几何形状,例如映射到通过立方体、圆柱形、角锥形、截短正方棱锥(TSP)或任何其它合适的几何形状形成的面,以供译码、发射及/或存储。在一些状况下,几何形状可使用帧包装结构封装于2D视频图片中。几何形状接着可映射到球形空间,且由360度视频显示装置用以显示视频。一旦360度视频图片300已映射到球面表示310,便可通过显现观看区360来显示球面表示310中对应于观看者的FOV的部分(例如,观看区360)。观看者320可使用360度视频显示装置从球面表示内观看球面表示310的部分。在许多状况下,观看者320经定位使得来自观看者的视角“地面”为球面表示的最下方点。在一些状况下,球面表示310的赤道定位于观看者的视平线处。在各种实施方案中,球面表示310可经扩展或经收缩以满足观看者320的高度及/或位置(例如,在观看者320坐着、站立或在某其它位置中情况下)。
待用于360度视频数据的映射的一个实例几何形状可为使用等矩形投影(ERP)的等矩形几何形状。ERP可包含通过(例如)将球面上的点的纬度及经度映射到二维平面上的x-y坐标,将球面(例如,球面表示)上的点映射到二维平面。熟知等矩形投影为麦卡托投影,其中地球的地理是以正交纬度及经度线呈现。
图4说明基于两个鱼眼图像402A、402B的等矩形视频图片400的实例。在此实例等矩形视频图片400中,来自两个鱼眼图像402A、402B的可用像素(例如,圆形区域中的像素)已被映射到等矩形几何形状。在此实例中,每一鱼眼图像402A、402B包含180度或更大视场,以使得两个鱼眼图像402A、402B共同涵盖360度视场(可能具有某一重叠)。
使用等矩形投影映射来自鱼眼图像402A、402B的像素具有以下影响:打开在鱼眼图像402A、402B中所检索的场景,并向着视频图片400的边缘拉伸像素。所得等矩形图像可在视频图片400的顶部及底部呈拉伸状,使得视频图片400具有不均匀失真。通过两个鱼眼图像的等矩形投影形成的实例视频图片500展示于图5中。
另外,等矩形投影还可导致球面表示的不均匀采样。作为投影的部分,可将球面表示上的样本点映射到二维平面上的等间隔的点。在使用等矩形投影的情况下,样本点之间的间隔可相对于所述样本点在球面表示上的位置而变化,其导致不均匀采样。权重映射502说明等矩形投影所引入的不均匀采样的实例。在权重映射502中,黑暗层级反映采样密度,其中颜色愈暗表示球面表示的采样愈密集(例如,样本间隔愈接近)。在权重映射502中,被映射到二维平面的边缘的更接近球面表示的极(例如,区域504及506)的点比球面表示的赤道(区域510)经更密集采样。
另一实例几何形状可为使用立方体图投影的立方体。立方体映射投影将球面的表面上的点投影到与球面表面相切的平面上的点。即,像素被适配到立方体的六个平面表面上,其中立方体的高度、宽度及长度可使得所述立方体适配在球面内。图6说明包含360度视频帧的立方体映射投影的视频帧600。图5的实例为3×2布置;即,三个立方体面交叉,两个立方体面高立。3×2布置产生可高效地编码的宽高比。举例来说,相比使用例如1×2的布置的情况,需要存储较少根据像素线的数据。
在图6的实例视频帧600中,可视为前向前表面622的立方体面被放置于视频帧600的上半部分的中间中。位于前表面右侧及左侧的立方体面(例如,右侧面624及左侧面626)被分别放置于视频帧600的上半部分的右侧及左侧上。可视为背面628的立方体面旋转-90度,且被放置于视频帧600的下半部分的中间。可视为上面或顶面630的立方体面被放置于背面628的右侧,且还经旋转使得顶面630的边缘匹配背面628的边缘。可视为下面或底面632的立方体面被放置于背面628的左侧,经旋转以匹配背面628的边缘。
在图6的实例中,可将包含在前表面622中的像素选择为直接放置于观看者前方的视图。在其它实例中,可将视频数据的另一部分选择为正视图。另外,在图6的实例视频帧600中说明的立方体面的布置为一个实例布置。其它布置也为可能的。
通过将三维球面表示映射到还跨越三维空间的多个投影平面上,立方体映射投影可相比于等矩形投影向经投影图像引入较少失真。然而,立方体映射投影还可导致球面表示的不均匀采样。作为投影的部分,可将球面表示上的样本点映射到立方体面上的等间隔的点。在使用立方体映射投影的情况下,样本点之间的间隔还可相对于球面表示上的样本点的位置而变化,其导致不均匀采样。权重映射640说明采样分布642、644、646、648、650及652,其分别对应于立方体面622、624、626、628、630及632。在此些采样分布中的每一者中,黑暗层级还反映采样密度,其中颜色愈暗表示球面表示的采样愈密集(例如,样本间隔愈接近)。如权重映射640中所说明,映射到立方体面的边缘的样本点相比映射到立方体面的中间的样本间隔地愈接近(颜色愈暗)。
在立方体映射投影及等矩形投影的状况两者中,不均匀采样分布可导致经投影360度视频数据的效率低下的编码。举例来说,如上文所解释,在使用立方体映射投影及等矩形投影方案两者的情况下,样本点之间的间隔可相对于所述样本点在球面表示上的位置而变化。因此,经投影视频帧中的均匀间隔开的点可表示球面的不等区域,一些区域较小,且一些区域较大。不均匀采样分布可导致(经投影视频帧的)大量数据位用以表示球面的小区域(归因于那些小区域内的较大数目个样本点),且相对较小数目个数据位用以表示球面的大区域(归因于那些大区域内的较小数目个样本点)。所述经投影360度视频数据中的所述球面的不同区域的不等表示可降级编码的效率,从而过多数据位用以表示所述球面的某些区域,而一些区域用不足数目个数据位表示。
为改进译码效率,本文中描述用于基于用于译码360度视频的一或多个自适应参数执行立方体映射投影的一或多个系统及方法。所述一或多个自适应参数可改变立方体面上的等间隔点的位置与球面上的采样点的位置之间的映射关系,使得所述球面上的所述采样点也可变得间隔更加相等。此可改进360度视频数据的球面表示的采样的均匀性,且可使用更加类似或相同数目个数据位来表示球面的不同区域。因此,可改进所述编码效率。此外,也可保持经投影360度视频数据帧的宽高比。
图7A、图7B及图7C说明使用立方体映射过程将球面上的像素映射到立方体的六个平面表面的过程的实例。图7A说明球面700的三维坐标系统(沿X轴、Y轴及Z轴)的实例,其中A3为赤道。从球面的中央开始,X轴指向球面之前部,Y轴指向球面的顶部,且Z轴指向球面的右侧。图7A中的图展示基于右侧坐标系统的内部(X、Y、Z)坐标系统。球面可具有单元半径,且可用经度(φ)及纬度(θ)进行采样。在航空中,处于[-π,π]范围中的经度φ被称为偏航,且处于[-π/2,π/2]范围中的纬度θ被称为俯仰。经度φ由在逆时针方向上从X轴开始的角度定义,如图7A中所示。纬度θ由从赤道朝向Y轴的角度定义,如图7A中所示。可使用以下方程式(1)、(2)及(3)用(φ,θ)评估单元球面上的(X,Y,Z)坐标:
X=cos(θ)cos(φ) (方程式1)
Y=sin(θ) (方程式2)
Z=-cos(θ)sin(φ) (方程式3)
相反地,可使用以下方程式(4)及(5)用(X,Y,Z)评估经度及纬度(φ,θ):
φ=tan-1(-Z/X) (方程式4)
θ=sin-1(Y/(X2+Y2+Z2)1/2) (方程式5)
图7B说明立方体平面表面(在本文中还被称作立方体面或立方体平面)PX、NX、PY、NY、PZ及NZ上的像素到球面700的映射。此处,“P”可表示“正”,而“N”可表示“负”。每一平面表面可与范围介于0到5之间的面索引相关联。下方表1说明面索引值与六个立方体映射面中的每一者之间的实例映射。
面索引 面标记 注释
0 PX 具有正X轴值的前面
1 NX 具有负X轴值的背面
2 PY 具有正Y轴值的顶面
3 NY 具有负Y轴值的底面
4 PZ 具有正Z轴值的右面
5 NZ 具有负Z轴值的左面
表1.立方体映射投影(CMP)的面索引
每一立方体平面表面可与由u轴及v轴定义的二维坐标系统相关联。立方体表面上的点可与二维正规化坐标(u,v)相关联。对于2D到3D坐标转换,在给定立方体的给定平面表面(表示为面f)上的像素位置(m,n)(或位置)的情况下,可首先计算二维正规化坐标(u,v)。可执行2D到3D转换以确定来自球面的三维空间的样本,以用于(或映射到)立方体平面表面上的像素。举例来说,在假定立方体表面具有维度A×A的情况下,平面表面上的像素坐标为(m,n)的像素可根据以下方程式与二维正规化坐标(u,v)相关联:
u=(m+0.5)×2/A-1,0≤m<A (方程式6)
v=(n+0.5)*2/A-1,0≤n<A (方程式7)
此处,u及v可各自具有范围[-1,1],或其它合适正规化值范围。举例来说,可基于作为单元球面的球面使用范围[-1,1]。
在使用立方体映射过程的情况下,可将面索引f的立方体面上的点(具有二维正规化坐标(u,v))映射到X、Y及Z轴所横跨的三维空间。举例来说,可基于下表2,基于二维正规化坐标(u,v)及立方体面索引f而确定三维空间中的点的三维坐标(X,Y,Z):
f X Y Z
0 1.0 -v -u
1 -1.0 -v u
2 u 1.0 v
3 u -1.0 -v
4 u -v 1.0
5 -u -v -1.0
表2.在给定(u,v)及面索引f情况下的(X,Y,Z)导出
参看表2,二维正规化坐标(u,v)到三维坐标(X,Y,Z)的转换可针对不同立方体面而不同。举例来说,对于具有面索引1的立方体面上的坐标为(-0.5,0.5)的点(u,v),可将所述点映射到三维空间中的三维坐标为(-1,0.5,0.5)的点。立方体面上的点到三维空间中的点的映射(2D到3D坐标转换)可用以将360度视频数据的球面表示编码成立方体映射表示以供输送。
在反立方体映射过程(被称作3D到2D坐标转换)中,可将通过X、Y及Z轴横跨的三维空间中的点映射到面索引f的立方体面上的具有二维正规化坐标(u,v)及/或二维像素坐标(m,n)的点。可基于图7B中所示的球面的三维空间的三维坐标(X,Y,Z)而确定二维正规化坐标(u,v)。举例来说,对于3D到2D坐标转换,在针对需要确定的样本值给定三维空间中的坐标(X,Y,Z)的情况下,可基于下表3计算(u,v)及面索引f(将从所述面索引映射一或多个像素值,以包含在(X,Y,Z)坐标位置处)。
表3.在给定(X,Y,Z)情况下的(u,v)及面索引f的导出
参看表3,为将球面上具有三维(X,Y,Z)坐标的点映射到六个立方体面(例如,图7B中的PX、NX、PY、NY、PZ及NZ)中的一者上的点,可按照表3第一列中所列出的条件测试三维(X,Y,Z)坐标,以确定所述点应从哪个立方体面映射。接着可基于所确定的立方体面而确定u及v坐标。作为说明性实例,可基于X(0.4)大于或等于Y(0.4)及大于或等于Z(0.2)且X大于零,将球面上具有预定三维坐标(X=0.4,Y=0.4及Z=0.2)的点映射到面索引为0(PX)的立方体面。接着可确定立方体面上的点的u及v正规化坐标。可将与u及v坐标相关联的像素值指派给球面的(X,Y,Z)坐标位置。可基于如下第一行中的表达式确定立方体面PX上的映射点的u及v正规化坐标。
如下文将论述,可执行球面上的点到立方体面上的点的映射(3D到2D坐标转换)用于解码及显现。
图7C提供球面上的点到立方体面NX(具有面索引1)的映射的视觉表示。如图7C中所示,立方体面NX上的点可映射到球面700上的样本点(且反之亦然)。球面700上的每一样本点及立方体面NX上的映射点位于来源于球面700的中心的一条线上。每一线相对于赤道AE形成纬度角度(θ)。通过以下方程式给出映射点的v坐标(基于表2及方程式1及2的组合而导出):
在假定针对图7C中所示的球面700上的样本点,纵向角度(φ)为0的情况下,cos(φ)可等于1,且映射点的v坐标可通过正切(tan)函数与纬度角度(θ)相关。在另一方面,沿X轴及Y轴的样本点的坐标通过正切函数与纬度角度(θ)相关。实情为,样本点的X坐标通过cos(θ)给定,且样本点的Y坐标通过sin(θ)给定。
在映射点与样本点相对于纬度角度(θ)的关系之间的差在映射点(立方体面NX上)之间及样本点(球面700上)之间产生不同间隔。举例来说,如图7C中所示,立方体面NX上的映射点等间隔地隔开距离d。然而,对应样本点并非等间隔(且因此具有不均匀分布)。举例来说,赤道AE附近的两个样本点间隔开距离p0,而位于赤道AE及极A0之间的中间的两个样本点间隔开距离p1,其比p0短。采样点之间的不均匀间隔可导致向着立方体面NX的顶部边缘(其可与极A0对准)的更密集采样,及向着立方体面NX的中间(其可与赤道AE对准)的不太密集采样。
为改进采样的均匀性,可引入适应参数(在以下方程式中表示为参数“a”)以执行自适应扰动立方体映射过程。举例来说,当执行2D到3D映射(例如,使用来自上文的方程式(6)及(7))时,可在映射到最终(X,Y,Z)坐标(使用上文表2)之前使用适应参数来扰动(u,v)值,以便在球面上达成更均匀的采样。举例来说,为将立方体面(具有面索引f)上的点(具有二维像素坐标(m,n))映射或投影到球面上的点,可基于下文方程式用二维像素坐标(m,n)计算二维初始正规化坐标(u',v')。
u'=(m+0.5)×2/A-1,0≤m<A (方程式11)
v'=(n+0.5)*2/A-1,0≤n<A (方程式12)
在一个实例中,可基于以下方程式将二维初始正规化坐标(u',v')修改(或扰动)而变为二维正规化坐标(u,v):
此处,“sgn”指正负号函数,其可基于以下方程式:
在方程式13及14两者中,适应参数a可设定成任何合适的值。在一个说明性实例中,适应参数a可设定或预定义为等于0.36。应注意,提供值0.36作为非限制性实例,且可基于各个因数调适适应参数的值,包含(例如)采样均匀性的目标程度、采样密度(例如,待映射到立方体面的采样点的数目)、立方体面相对于球面表示的维度,或其它合适准则。不同适应参数可用于(例如)不同立方体面、不同视频帧或不同视频序列。
在另一实例中,可基于以下方程式将二维初始正规化坐标(u',v')修改为二维正规化坐标(u,v)。
方程式16及17两者包含通过适应参数a按比例缩放的初始正规化坐标(u'或v')的正切函数(tan)。在方程式16及17中,适应参数a的值可设定成任何值,包含(例如)值一。在适应参数a的值等于一的情况下,方程式16及17可变为:
在一些实例中,还可以经预先配置的查找表的形式表示方程式13到19,其可使用硬件处理器中的多路复用器电路集合来实施。多路复用器电路可与存储用于坐标u及v(基于适应参数所预定)的候选者值集合的寄存器集合耦合,且可基于输入初始正规化坐标值(u'或v')用候选者值设定输出值。在一些实例中,方程式13到19还可表示为多项式(例如,正切函数、平方根函数等的泰勒级数扩展),其包括基于适应参数而确定的系数集合。可将系数集合以及初始正规化坐标u'及v'提供到算术电路,以执行多项式计算而计算正规化坐标u及v。在一些实例中,方程式13到19还可以分段线性模型形式表达,且适应参数可包含在定义分段线性模型的参数集合中(例如,枢轴点的数目、枢轴点的函数值或其它合适参数)。
随后使用表2将所得正规化坐标(u,v)值映射到球面上的(X,Y,Z)坐标。举例来说,在确定具有特定面索引f的立方体面上的位置的正规化坐标(u,v)之后,可基于表2确定球面表示上的对应样本点(X,Y,Z)。接着可将来自球面上的(X,Y,Z)位置的样本指派给立方体的面上的正规化坐标(u,v)位置。
2D到3D立方体映射投影过程可用以产生视频位流,以输送360度视频数据的立方体映射表示。举例来说,对于360度视频数据的球面表示的每一帧,编码器可将帧投影到六个立方体面上。对于每一立方体面上的每一像素,编码器可基于方程式11到19确定像素位置的二维正规化坐标(u,v)。编码器可指表2,且可基于面索引及二维正规化坐标(u,v)确定球面上的样本点的三维坐标(X,Y,Z)。编码器接着可从样本点获得像素(或通过执行最接近彼样本点的像素的内插来产生像素),且将所述像素指派给立方体面上的像素位置的(u,v)正规化坐标。编码器可产生视频位流数据以包含具有立方体面的视频帧。视频帧可包含针对立方体面的像素位置而确定的像素值。视频位流可包含将每一像素与立方体面及二维正规化坐标(u,v)(或二维像素坐标(m,n))相关联的信息。
在一些实例中,编码器可从含有360度视频数据的视频位流或从其它源提取适应参数。举例来说,可在序列层级、帧层级等从补充增强信息(SEI)消息提取适应参数,且编码器可从视频位流获得SEI消息或作为独立数据。作为另一实例,可在序列层级、图片层级、在图像块标头中、片段标头中,或含有360度视频数据的视频位流中的其它合适层级及/或粒度中,在各种参数集合中定义适应参数。
此外,作为产生包含立方体映射表示的视频位流的编码过程的部分,编码器还可将适应参数包含在视频位流中,或作为待用位流发射的单独数据,以将适应参数发信到解码器。编码器可(例如)在序列层级、帧层级或在立方体面层级产生另一SEI消息,且将适应参数包含在SEI消息中。SEI消息可为视频位流的部分或可为独立数据。还可在序列层级、图片层级、在图像块标头中、片段标头中或在包含立方体映射表示的视频位流的其它合适层级及/或粒度中,在各个参数集合中定义适应参数。
在解码器侧,可执行反自适应扰动立方体映射过程(3D到2D坐标映射)以解码立方体映射表示,以供重建360度视频数据的球面表示。在一些状况下,对于3D到2D映射,为确定映射到球面上的目标点的三维坐标(X,Y,Z)的立方体面的特定像素的二维正规化坐标,解码器可首先获得立方体面上的像素的初始二维正规化坐标(u',v')(例如,使用表3公式),且可随后基于适应参数修改初始二维正规化坐标(u',v')以变为二维正规化坐标(u,v)。举例来说,对于3D到2D映射,根据表3中的公式,将球面上的(X,Y,Z)值映射到立方体面的二维正规化坐标(u,v)值。从来自表3的(u,v)值开始,且分别将其指派为u'、v'(即,u→u',v→v')可接着使用下文方程式(20)及(21)或(22)及(23)修改(或扰动)u'、v'值,从而产生最终(u,v)值。
在一个实例中,可基于以下方程式确定二维正规化坐标(u,v):
u=sgn(u′)(-a(u′)2+(a+1)|u′|) (方程式20)
v=sgn(v′)(-a(v′)2+(a+1)|v′|) (方程式21)
此处,“sgn”指方程式15的正负号函数。方程式20及21两者包含基于适应参数a的正规化坐标(u或v)的二次函数。在方程式20及21中,适应参数a的值可设定成(例如)0.36,或用于立方体映射表示的产生的适应值。在另一方面,将适应参数设定成零会使经调适正规化坐标(u',v')等于正规化坐标(u,v)。
在另一实例中,还可基于以下方程式确定二维正规化坐标(u,v):
方程式22及23两者包含通过适应参数a按比例缩放的正规化初始坐标(u'或v')的反正切函数(atan或tan-1)。在方程式22及23中,适应参数a的值可设定成(例如)一,或用于立方体映射表示的产生的适应值。在适应参数a的值等于1的情况下,方程式22及23可变为:
在一些实例中,可以经预先配置的查找表的形式表示方程式20到25(以及上文所描述的其它方程式),其可使用硬件处理器中的多路复用器电路集合来实施。多路复用器电路可与存储用于坐标u及v(基于适应参数所预定)的候选者值集合的寄存器集合耦合,且可基于输入初始正规化坐标值(u'或v')用候选者值设定输出值。在一些实例中,方程式20到25也可表示为多项式(例如,正切函数、平方根函数等的泰勒级数扩展),其包括基于适应参数而确定的系数集合。可将系数集合以及初始正规化坐标u'及v'提供到算术电路,以执行多项式计算而计算正规化坐标u及v。在一些实例中,方程式20到25还可以分段线性模型形式表达,且适应参数可包含在定义分段线性模型的参数集合中(例如,枢轴点的数目、枢轴点的函数值或其它合适参数)。
如上文所论述,反自适应扰动立方体映射过程(3D到2D坐标映射)可用以解码包含表示360度视频数据的立方体映射表示的视频位流,且重建360度视频数据的球面表示。举例来说,为获得球面上具有三维坐标(X,Y,Z)的像素位置的像素值,解码器可基于表3确定立方体面上的映射点的立方体面(与特定面索引f相关联)及二维初始正规化坐标(u',v')。解码器还可基于方程式20到25中的任一者用二维初始正规化坐标(u',v')计算二维正规化坐标u及v。解码器可在二维正规化坐标(u,v)的位置处从经确定立方体面提取像素(或执行最接近彼位置的像素的内插),且将所述像素提供到显现器以供在三维坐标(X,Y,Z)显示。在一些实例中,可执行额外投影(例如,直线投影)以将像素投影到如图3B中所描述的二维显示器上。
作为解码过程的部分,适应参数还可从视频位流获得或作为待用位流发射的单独数据。适应参数可在序列层级、帧层级或立方体面层级包含在补充增强信息(SEI)消息中。SEI消息可为视频位流的部分或可为独立数据。还可在序列层级、图片层级、在图像块标头中、片段标头中或在视频位流的其它合适层级及/或粒度中,在各个参数集合中定义适应参数。
图8说明在球面700上的采样点到立方体面的映射中引入适应参数的效应的实例。如图8中所示,作为引入适应参数的结果,球面700上的每一样本点及其在立方体面(例如,立方体面NX)上的对应映射点不在同一条线上。举例来说,采样点802在从球面700的中心805的线804上,而对应映射点806(经由实线连接到采样点802)在球面700的中心805的线808上。在使用此些布置的情况下,映射点及采样点两者可等间隔。举例来说,映射点在立方体面NX上间隔开相等距离d,而采样点在球面700上间隔开相等距离p。在使用此些布置的情况下,可改进采样的均匀性以及编码效率。
图9A及图9B说明使用自适应立方体映射投影的采样分布的实例。图9A说明权重映射900。权重映射900可对应于采样分布,其通过对视频帧600执行自适应立方体映射投影来获得,所述执行通过应用方程式11到13而进行。权重映射900说明采样分布902、904、906、908、910及912,其分别对应于立方体面622、624、626、628、630及632。此外,图9B说明权重映射950。权重映射950可对应于通过对视频帧600执行自适应立方体映射投影来获得的采样分布,所述执行通过应用方程式14至17而进行。权重映射950说明采样分布952、954、956、958、960及962,其分别对应于立方体面622、624、626、628、630及632。相比于图6的权重映射640,可看出,在权重映射900及950中,立方体面的边缘及中心之间的采样密度的差异程度已减少,其指示采样密度的均匀性的改进。更均匀的采样密度可导致译码效率增大。
图10为说明用于使用本文中所描述的技术来处理360度视频数据的过程1000的实例的流程图。过程1000可为2D到3D立方体映射投影的部分,以(例如)将360度视频数据的球面表示编码为立方体映射表示。在1002,过程1000包含获得包含360度视频数据的球面表示的视频帧的第一视频位流。可(例如)从全向摄影机、反射折射摄影机(使用透镜及弯曲镜的摄影机)、装备有鱼眼透镜的摄影机,及/或其它合适摄影机检索视频数据。球面表示可表示360度场景或环境。球面表示的视频帧可包含多个像素,其中每一像素与沿X轴、Y轴及Z轴所定义的三维坐标相关联。
在1004,过程1000包含确定几何形状的平面表面的像素位置的二维像素坐标,所述平面表面为多个平面表面的部分。举例来说,几何形状可为立方体,且平面表面可为六个立方体面中的一者(例如,图7B的立方体面PX、NX、PY、NY、PZ及NZ中的一者)。可基于二维像素坐标来确定待映射到立方体面上的像素位置的球面表示的样本点。
在1006,过程1000包含基于适应参数及所述二维像素坐标来确定所述像素位置的二维正规化坐标。在一些实例中,可基于(例如)方程式11及12从二维像素坐标(m,n)确定二维初始正规化坐标(u',v'),且接着基于(例如)方程式13到15及/或方程式16到19从二维初始正规化坐标(u',v')确定二维正规化坐标(u,v),其中所述两组方程式包含适应参数。适应参数可经配置以改进球面表示的采样的均匀性。在一些实例中,在方程式13到15用以确定二维正规化坐标(u,v)的情况下,适应参数可设定成0.36。在一些实例中,在方程式16及17用以确定二维正规化坐标(u,v)的情况下,适应参数可设定成1。可在序列层级、帧层级或其它合适粒度从(例如)SEI消息确定适应参数。SEI消息可为视频位流的部分或可为独立数据。也可在序列层级、图片层级、在图像块标头中、片段标头中或在视频位流的其它合适层级及/或粒度中,在各个参数集合中定义适应参数。
在1008,过程1000包含基于所述二维正规化坐标来确定所述360度视频数据的所述球面表示的样本点的三维坐标(X,Y,Z)。可基于(例如)如上文所描述的表2确定三维坐标。二维正规化坐标(u,v)到三维坐标(X,Y,Z)的转换可针对不同立方体面而不同。
在1010,过程1000包含确定所述几何形状的所述平面表面的所述像素位置的像素值,所述像素值是基于与所述样本点相关联的所述球面表示的一或多个像素而确定。举例来说,在样本点对应于球面表示中的像素位置的情况下,平面表面的像素位置的像素值可通过在球面表示的样本点处复制像素值来确定。在样本点并不对应于球面表示中的像素位置的情况下,可基于(例如)在最接近样本点的像素位置处内插一或多个像素值而确定平面表面的像素位置的像素值。
在1012,过程1000包含产生包含多个视频帧的第二视频位流,其中所述多个视频帧的视频帧包含针对所述几何形状的所述多个平面表面的像素位置确定的像素值。视频位流可针对每一视频帧包含立方体映射表示。立方体映射表示可包含像素值集合及将所述像素值集合与立方体面及立方体面上的像素坐标(及/或正规化坐标)相关联的信息。在一些实例中,作为产生包含立方体映射表示的视频位流的编码过程的部分,适应参数可包含在视频位流中,或作为待用位流发射的单独数据,以将适应参数发信到解码器。举例来说,SEI消息可(例如)在序列层级、帧层级或在立方体面层级产生,且将适应参数包含在SEI消息中。SEI消息可为视频位流的部分或可为独立数据。也可在序列层级、图片层级、在图像块标头中、片段标头中或在包含立方体映射表示的视频位流的其它合适层级及/或粒度中,在各个参数集合中定义适应参数。
图11为说明用于使用本文中所描述的技术来处理360度视频数据的过程1100的实例的流程图。过程1100可为3D到2D坐标映射的部分,(例如)以解码立方体映射表示以供重建360度视频数据的球面表示。在1102,过程1100可包含获得包含360度视频数据的球面表示的多个视频帧的视频位流,所述多个视频帧的视频帧包含几何形状的多个平面表面,其中所述多个平面表面的每一平面表面包含多个像素。举例来说,几何形状可为立方体,且平面表面可为六个立方体面中的一者(例如,图7B的立方体面PX、NX、PY、NY、PZ及NZ中的一者)。视频位流可包含基于(例如)过程1000产生的立方体映射表示。
在1104,过程1100包含所述确定球面表示的目标点的三维坐标。目标点的确定可为在360度视频显示装置上播放360度视频。为播放视频,可显现观看区以供显示到用户,且可基于所述观看区确定目标点。应从立方体映射表示拉出像素并将其投影到目标点以供显现。
在1106,过程1100包含确定所述目标点应映射到的所述几何形状的平面表面,所述平面表面是基于所述目标点的所述三维坐标而确定。平面表面的确定(例如,图7B的立方体面PX、NX、PY、NY、PZ及NZ的确定)可基于(例如)如上文所描述的表3。可按照表3第一列中所列出的条件测试三维(X,Y,Z)坐标,以确定所述目标点应从哪个立方体面映射。
在1108,过程1100包含基于所述目标点的所述三维坐标及适应参数来确定所述目标点应映射到的所述平面表面上的映射位置的二维坐标。在一些实例中,基于表3,可确定目标点经映射到的立方体面,且可确定二维初始正规化坐标(u',v')可基于(例如)方程式20及21或方程式22到25从二维初始正规化坐标(u',v')确定二维正规化坐标(u,v)。在使用方程式20及21的情况下,适应参数可设定成0.36或用以产生立方体映射表示的适应参数的值。在使用方程式22至25的情况下,适应参数可设定成1(或用以产生立方体映射表示的值)。
在1110,过程1100包含基于所述多个像素中的与所述平面表面上的所述映射位置相关联的一或多个像素来产生像素值。举例来说,在映射位置对应于像素位置的情况下,可在映射位置基于像素产生像素值。在映射位置并不对应于映射位置的情况下,可基于最接近所述映射位置的一或多个像素产生像素值。
在1112,过程1100包含将所述像素值指派给所述球面表示的所述目标点。举例来说,可将像素值及三维坐标(X,Y,Z)提供到观看区以供显现。
在一些实例中,过程1000可由例如编码装置104的计算装置或设备执行,而过程1100可由解码装置112执行。过程1000及1100还可由任何其它计算装置执行。在一些状况下,计算装置或设备可包含处理器、微处理器、微计算机或经配置以进行过程1000及1100的步骤的装置的其它组件。在一些实例中,计算装置或设备可包含经配置以检索包含视频图片的视频数据(例如,视频序列)的摄影机。举例来说,计算装置可包含摄影机装置,其可或可不包含视频编解码器。摄影机可经配置以检索360度视频,例如球形视频图片。在一些实例中,计算装置可包含具有可检索360度视频的摄影机的移动装置(例如,例如数字摄影机、IP摄影机或其类似者的摄影机装置,包含摄影机的移动电话或平板计算机,或其它类型的装置)。在一些状况下,计算装置可包含用于显示图像的显示器。在一些实例中,检索视频数据的摄影机或其它检索装置与计算装置分离,在此状况下,计算装置接收所检索视频数据。计算装置可进一步包含经配置以传达视频数据的网络接口。网络接口可经配置以传达基于因特网协议(IP)的数据或其它网络数据。
过程1000及1100经说明为逻辑流程图,所述过程的操作表示可以硬件、计算机指令或其组合实施的一连串操作。在计算机指令的上下文中,操作表示存储于一或多个计算机可读存储媒体上在由一或多个处理器执行时执行所叙述的操作的计算机可执行指令。通常,计算机可执行指令包含执行特定功能或实施特定数据类型的例程、程序、对象、组件、逻辑、数据结构及其类似者。描述操作的次序并不打算被理解为限制,且任何数目个经描述操作可按任何次序及/或与实施过程并行地组合。
另外,过程1000及1100可在经配置有可执行指令的一或多个计算机系统的控制下执行且可被实施为通过硬件或其组合共同执行于一或多个处理器上的代码(例如,可执行指令、一或多个计算机程序或一或多个应用)。如上所指出,程序代码可存储于计算机可读或机器可读存储媒体上,例如,呈包含可由一或多个处理器执行的指令的计算机程序形式。计算机可读或机器可读存储媒体可为非暂时性的。
通过摄影机(例如,鱼眼摄影机或其它合适摄影机或多个摄影机)检索的视频数据可经译码以减少发射及存储所需的数据的量。在一些实例中,系统包含提供稍后由目的地装置解码的经编码视频数据的源装置。详细来说,源装置经由计算机可读媒体将视频数据提供到目的地装置。源装置及目的地装置可包含广泛范围的装置中的任一者,包含台式计算机、笔记型计算机(即,膝上型计算机)、平板计算机、机顶盒、例如所谓的“智能型”电话的电话手持机、所谓的“智能型”平板计算机、电视、摄影机、显示装置、数字媒体播放器、视频游戏控制台、视频流式传输装置或类似物。在一些状况下,源装置及目的地装置可经装备以用于无线通信。
目的地装置可经由计算机可读媒体接收待解码的经编码视频数据。计算机可读媒体可包含能够将经编码视频数据从源装置移动到目的地装置的任何类型媒体或装置。在一个实例中,计算机可读媒体可包含使得源装置能够实时地将经编码视频数据直接发射到目的地装置的通信媒体。可根据通信标准(例如,无线通信协议)调制经编码视频数据,且将经编码视频数据发射到目的地装置。通信媒体可包含任何无线或有线通信媒体,例如射频(RF)频谱或一或多个物理发射线。通信媒体可形成基于包的网络(例如,局域网、广域网或例如因特网的全域网络)的部分。通信媒体可包含路由器、交换器、基站或可用于促进从源装置到目的地装置的通信的任何其它装备。
在一些实例中,经编码数据可从输出接口输出到存储装置。类似地,可通过输入接口从存储装置存取经编码数据。存储装置可包含多种分散式或本地存取的数据存储媒体中的任一者,例如硬盘机、蓝光光盘、DVD、CD-ROM、快闪存储器、易失性或非易失性存储器或用于存储经编码视频数据的任何其它合适的数字存储媒体。在另一实例中,存储装置可对应于文件服务器或可存储由源装置产生的经编码视频的另一中间存储装置。目的地装置可经由流式传输或下载从存储装置存取所存储的视频数据。文件服务器可为能够存储经编码视频数据且将彼经编码视频数据发射到目的地装置的任何类型的服务器。实例文件服务器包含网页服务器(例如,用于网站)、FTP服务器、网络附加存储(NAS)装置或本地磁盘机。目的地装置可经由任何标准数据连接(包含因特网连接)来存取经编码视频数据。此可包含适用于存取存储于文件服务器上的经编码视频数据的无线通道(例如,Wi-Fi连接)、有线连接(例如,DSL、电缆调制解调器等)或两者的组合。从存储装置的经编码视频数据的发射可为流式传输发射、下载发射或其组合。
本发明的技术不必限于无线应用或设定。所述技术可应用于支持多种多媒体应用中的任一者的视频译码,例如,空中电视广播、有线电视发射、卫星电视发射、因特网流式传输视频发射(例如,经由HTTP动态自适应流式传输(DASH))、经编码到数据存储媒体上的数字视频、存储于数据存储媒体上的数字视频的解码或其它应用。在一些实例中,系统可经配置以支持单向或双向视频发射以支持例如视频流式传输、视频播放、视频广播及/或视频电话的应用。
在一个实例中,源装置包含视频源、视频编码器及输出接口。目的地装置可包含输入接口、视频解码器及显示装置。源装置的视频编码器可经配置以应用本文中所公开的技术。在其它实例中,源装置及目的地装置可包含其它组件或布置。举例来说,源装置可从外部视频源(例如,外部摄影机)接收视频数据。同样,目的地装置可与外部显示装置介接,而非包含集成式显示装置。
以上实例系统仅为一个实例。用于平行地处理视频数据的技术可由任何数字视频编码及/或解码装置来执行。尽管本发明的技术一般由视频编码装置执行,但所述技术也可由视频编码器/解码器(通常被称作“编解码器”)执行。此外,本发明的技术也可由视频预处理器执行。源装置及目的地装置仅为此些译码装置的实例,其中源装置产生经译码视频数据以供发射到目的地装置。在一些实例中,源装置及目的地装置可以大体上对称的方式操作,使得所述装置中的每一者包含视频编码及解码组件。因此,实例系统可支持视频装置之间的单向或双向视频发射,例如用于视频流式传输、视频播放、视频广播或视频电话。
视频源可包含视频检索装置,例如摄像机、含有先前检索的视频的视频存档及/或用以从视频内容提供者接收视频的视频馈入接口。作为另一实例,视频源可产生基于计算机图形的数据,作为源视频或实况视频、存档视频及计算机产生的视频的组合。在一些状况下,如果视频源为摄像机,那么源装置及目的地装置可形成能够使用无线应用通信的所谓的摄影机电话或视频电话。然而,如上文所提及,本发明所描述的技术一般可适用于视频译码,且可适用于无线及/或有线应用。在每一状况下,可由视频编码器编码所检索、经预检索或计算机产生的视频。经编码视频信息接着可由输出接口输出到计算机可读媒体上。
如所提到,计算机可读媒体可包含暂时性媒体,例如无线广播或有线网络发射;或存储媒体(即,非暂时性存储媒体),例如硬盘、随身盘、紧密光盘、数字视频光盘、蓝光光盘或其它计算机可读媒体。在一些实例中,网络服务器(图中未示)可从源装置接收经编码视频数据,并(例如)经由网络发射将经编码视频数据提供到目的地装置。类似地,媒体生产设施(例如,光盘冲压设施)的计算装置可从源装置接收经编码视频数据且生产含有经编码视频数据的光盘。因此,在各种实例中,计算机可读媒体可理解为包含各种形式的一或多个计算机可读媒体。
目的地装置的输入接口从计算机可读媒体接收信息。计算机可读媒体的信息可包含由视频编码器定义的语法信息(其也由视频解码器使用),所述语法信息包含描述块及其它经译码单元(例如,图片群组(GOP))的特性及/或处理的语法元素。显示装置将经解码视频数据显示到用户,且可为多种显示装置中的任一者,例如阴极射线管(CRT)、液晶显示器(LCD)、等离子体显示器、有机发光二极管(OLED)显示器,或另一类型的显示装置。已描述本申请案的各种实施例。
编码装置104及解码装置112的特定细节分别展示于图12及图13中。图12为说明可实施本发明中所描述的技术中的一或多者的实例编码装置104的框图。编码装置104可(例如)产生本文中所描述的语法结构(例如,VPS、SPS、PPS或其它语法元素的语法结构)。编码装置104可执行视频片段内的视频块的帧内预测及帧间预测译码。如先前所描述,帧内译码至少部分地依赖于空间预测以减少或去除给定视频图片内的空间冗余。帧间译码至少部分地依赖于时间预测以减少或去除视频序列的邻近或周围图片内的时间冗余。帧内模式(I模式)可指若干基于空间的压缩模式中的任一者。帧间模式(例如,单向预测(P模式)或双向预测(B模式))可指若干基于时间的压缩模式中的任一者。
编码装置104包含分割单元35、预测处理单元41、滤波器单元63、图片存储器64、求和器50、变换处理单元52、量化单元54及熵编码单元56。预测处理单元41包含运动估计单元42、运动补偿单元44及帧内预测处理单元46。对于视频块重建,编码装置104也包含反量化单元58、反变换处理单元60及求和器62。滤波器单元63打算表示一或多个回路滤波器,例如解块滤波器、自适应回路滤波器(ALF)及样本自适应偏移(SAO)滤波器。尽管滤波器单元63在图12中展示为回路滤波器,但在其它配置中,滤波器单元63可实施为回路后滤波器。后处理装置57可对由编码装置104产生的经编码视频数据执行额外处理。在一些情况下,本发明的技术可通过编码装置104实施。然而,在其它情况下,本发明的技术中的一或多者可通过后处理装置57实施。
如图12中所展示,编码装置104接收视频数据,且分割单元35将数据分割成视频块。分割也可包含分割成片段、片段区段、图像块或其它较大单元,以及视频块分割,例如根据LCU及CU的四分树结构。编码装置104一般说明编码待编码的视频片段内的视频块的组件。可将片段划分成多个视频块(且可能划分成被称作图像块的视频块集合)。预测处理单元41可基于误差结果(例如,译码速率及失真等级,或其类似者)选择多个可能译码模式中的一者(例如,多个帧内预测译码模式中的一者或多个帧间预测译码模式中的一者)以用于当前视频块。预测处理单元41可将所得经帧内或帧间译码块提供到求和器50以产生残余块数据并提供到求和器62以重建经编码块以用作参考图片。
预测处理单元41内的帧内预测处理单元46可执行当前视频块相对于与待译码的当前块在相同的帧或片段中的一或多个相邻块的帧内预测译码,以提供空间压缩。预测处理单元41内的运动估计单元42及运动补偿单元44执行当前视频块相对于一或多个参考图片中的一或多个预测性块的帧间预测性译码,以提供时间压缩。
运动估计单元42可经配置以根据视频序列的预定图案来确定用于视频片段的帧间预测模式。预定图案可将序列中的视频片段指定为P片段、B片段或GPB片段。运动估计单元42及运动补偿单元44可高度集成,但为概念目的而分别说明。由运动估计单元42执行的运动估计为产生运动向量的过程,所述运动向量估计视频块的运动。运动向量(例如)可指示当前视频图片内的视频块的预测单元(PU)相对于参考图片内的预测性块的移位。
预测性块为依据像素差被发现紧密地匹配于待译码视频块的PU的块,所述像素差可通过绝对差和(SAD)、平方差和(SSD)或其它差度量予以确定。在一些实例中,编码装置104可计算存储于图片存储器64中的参考图片的次整数像素位置的值。举例来说,编码装置104可内插参考图片的四分之一像素位置、八分之一像素位置或其它分数像素位置的值。因此,运动估计单元42可执行关于全像素位置及分数像素位置的运动搜索且输出具有分数像素精确度的运动向量。
运动估计单元42通过比较PU的位置与参考图片的预测性块的位置而计算经帧间译码片段中的视频块的PU的运动向量。所述参考图片可选自第一参考图片列表(列表0)或第二参考图片列表(列表1),列表0或列表1中的每一者识别存储于参考存储器64中的一或多个参考图片。运动估计单元42将所计算运动向量发送到熵编码单元56及运动补偿单元44。
由运动补偿单元44执行的运动补偿可涉及基于通过运动估计确定的运动向量提取或产生预测性块,可能执行内插到子像素精确度。在接收到当前视频块的PU的运动向量之后,运动补偿单元44可在参考图片列表中定位运动向量所指向的预测性块。编码装置104通过从正经译码的当前视频块的像素值减去预测性块的像素值从而形成像素差值来形成残余视频块。像素差形成用于块的残余数据,且可包含明度及色度差分量两者。求和器50表示执行此减法运算的一或多个组件。运动补偿单元44也可产生与视频块及视频片段相关联的语法元素,以供解码装置112用于解码视频片段的视频块。
如上文所描述,作为由运动估计单元42及运动补偿单元44所执行的帧间预测的替代例,帧内预测处理单元46可对当前块进行帧内预测。详细来说,帧内预测处理单元46可确定帧内预测模式以用以编码当前块。在一些实例中,帧内预测处理单元46可(例如)在单独编码遍次期间使用各种帧内预测模式编码当前块,且帧内预测处理单元46可从经测试模式中选择适当帧内预测模式来使用。举例来说,帧内预测处理单元46可使用对各种所测试帧内预测模式的速率-失真分析来计算速率-失真值,且可在所测试模式当中选择具有最优选速率-失真特性的帧内预测模式。速率-失真分析大体上确定经编码块与原始、未经编码块(其经编码以产生经编码块)之间的失真(或误差)量,以及用以产生经编码块的位速率(即,位的数目)。帧内预测处理单元46可从各种经编码块的失真及速率计算比率以确定哪一帧内预测模式展现块的最好速率-失真值。
在任何状况下,在选择用于块的帧内预测模式之后,帧内预测处理单元46可将指示用于块的所选择帧内预测模式的信息提供到熵编码单元56。熵编码单元56可编码指示所选择的帧内预测模式的信息。编码装置104可将各种块的编码上下文的定义以及待用于上下文中的每一者的最可能的帧内预测模式、帧内预测模式索引表及经修改帧内预测模式索引表的指示包含在经发射位流配置数据中。位流配置数据可包含帧内预测模式索引表及经修改帧内预测模式索引表(还被称作码字映射表)。
在预测处理单元41经由帧间预测或帧内预测产生当前视频块的预测性块之后,编码装置104通过从当前视频块减去预测性块而形成残余视频块。残余块中的残余视频数据可包含在一或多个TU中且应用于变换处理单元52。变换处理单元52使用例如离散余弦变换(DCT)或概念上类似的变换将残余视频数据变换为残余变换系数。变换处理单元52可将残余视频数据从像素域转换到变换域(例如,频域)。
变换处理单元52可将所得变换系数发送到量化单元54。量化单元54量化变换系数以进一步减小位速率。量化过程可减小与系数中的一些或所有相关联的位深度。可通过调整量化参数来修改量化程度。在一些实例中,量化单元54可接着执行对包含经量化变换系数的矩阵的扫描。替代地,熵编码单元56可执行扫描。
在量化之后,熵编码单元56对经量化变换系数进行熵编码。举例来说,熵编码单元56可执行上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵编码技术。在由熵编码单元56进行熵编码之后,可将经编码位流发射到解码装置112,或加以存档以供稍后由解码装置112发射或检索。熵编码单元56还可熵编码正经译码的当前视频片段的运动向量及其它语法元素。
反量化单元58及反变换处理单元60分别应用反量化及反变换以重建像素域中的残余块,以供稍后用作参考图片的参考块。运动补偿单元44可通过将残余块添加到参考图片列表内的参考图片中的一者的预测性块来计算参考块。运动补偿单元44也可将一或多个内插滤波器应用于经重新构建残余块,以计算用于运动估计的次整数像素值。求和器62将重建的残余块添加到由运动补偿单元44产生的运动补偿预测块以产生参考块以用于存储于图片存储器64中。参考块可由运动估计单元42及运动补偿单元44用作为参考块以对后续视频图片中的块进行帧间预测。
以此方式,图12的编码装置104表示经配置以确定用于视频译码的自适应参数的视频编码器的实例,如上文所描述。举例来说,编码装置104可执行本文中所描述技术中的任一者,包含上文关于图10所描述的过程。在一些状况下,本发明的技术中的一些还可通过后处理装置57实施。
图13为说明实例解码装置112的框图。解码装置112包含熵解码单元80、预测处理单元81、反量化单元86、反变换处理单元88、求和器90、滤波器单元91及图片存储器92。预测处理单元81包含运动补偿单元82及帧内预测处理单元84。在一些实例中,解码装置112可执行大体上与关于来自图12的编码装置104描述的编码遍次互逆的解码遍次。
在解码过程期间,解码装置112接收经编码的视频位流,其表示经编码视频片段的视频块及通过编码装置104发送的相关联语法元素。在一些实施例中,解码装置112可从编码装置104接收经编码的视频位流。在一些实施例中,解码装置112可从例如以下各者的网络实体79接收经编码的视频位流:服务器、媒体感知网络元件(MANE)、视频编辑器/剪接器或经配置以实施上文所描述的技术中的一或多者的其它此装置。网络实体79可或可不包含编码装置104。本发明中所描述的技术中的一些可在网络实体79将经编码的视频位流发射到解码装置112之前由网络实体79实施。在一些视频解码系统中,网络实体79及解码装置112可为单独装置的部分,而在其它情况下,关于网络实体79所描述的功能性可由包含解码装置112的相同装置执行。
解码装置112的熵解码单元80对位流进行熵解码以产生经量化系数、运动向量及其它语法元素。熵解码单元80将运动向量及其它语法元素转发到预测处理单元81。解码装置112可接收视频片段层级及/或视频块层级的语法元素。熵解码单元80可处理及剖析一或多个参数集(例如,VPS、SPS及PPS)中的固定长度语法元素及可变长度语法元素两者。
当视频片段被译码为经帧内译码(I)片段时,预测处理单元81的帧内预测处理单元84可基于经发信帧内预测模式及来自当前图片的先前经解码块的数据而产生当前视频片段的视频块的预测数据。当视频帧经译码为经帧间译码(即,B、P或GPB)片段时,预测处理单元81的运动补偿单元82基于从熵解码单元80接收的运动向量及其它语法元素,产生用于当前视频片段的视频块的预测性块。可从参考图片列表内的参考图片中的一者产生预测性块。解码装置112可基于存储于图片存储器92中的参考图片使用默认构建技术来构建参考帧列表(列表0及列表1)。
运动补偿单元82通过剖析运动向量及其它语法元素来确定当前视频片段的视频块的预测信息,且使用预测信息来产生正在经解码的当前视频块的预测性块。举例来说,运动补偿单元82可使用参数集中的一或多个语法元素以确定用于译码视频片段的视频块的预测模式(例如,帧内预测或帧间预测)、帧间预测片段类型(例如,B片段、P片段或GPB片段)、片段的一或多个参考图片列表的构建信息、片段的每一帧间编码视频块的运动向量、片段的每一帧间译码视频块的帧间预测状态,及用以解码当前视频片段中的视频块的其它信息。
运动补偿单元82还可执行基于内插滤波器的内插。运动补偿单元82可使用如在编码视频块期间由编码装置104使用的内插滤波器来计算参考块的次整数像素的内插值。在此状况下,运动补偿单元82可从所接收语法元素确定由编码装置104使用的内插滤波器,且可使用内插滤波器来产生预测性块。
反量化单元86反量化(或解量化)位流中所提供,并由熵解码单元80解码的经量化的变换系数。反量化过程可包含使用由编码装置104针对视频片段中的每一视频块计算的量化参数以确定应应用的量化程度及(同样地)反量化程度。反变换处理单元88将反变换(例如,反DCT或其它合适的反变换)、反整数变换或概念上类似的反变换过程应用于变换系数以便在像素域中产生残余块。
在运动补偿单元82基于运动向量及其它语法元素而产生当前视频块的预测性块之后,解码装置112通过将来自反变换处理单元88的残余块与由运动补偿单元82所产生的对应预测性块求和,而形成经解码视频块。求和器90表示可执行此求和运算的一或多个组件。必要时,回路滤波器(在译码回路中或在译码回路之后)也可用于使像素转变平滑,或另外改进视频质量。滤波器单元91打算表示一或多个回路滤波器,例如解块滤波器、自适应回路滤波器(ALF)及样本自适应偏移(SAO)滤波器。尽管滤波器单元91在图13中展示为回路滤波器,但在其它配置中,滤波器单元91可实施为回路后滤波器。给定图片中的经解码视频块接着存储于图片存储器92中,所述图片存储器存储用于后续运动补偿的参考图片。图片存储器92还存储经解码视频以供稍后呈现于显示装置(例如,图1中所展示的视频目的地装置122)上。
以此方式,图13的解码装置112表示经配置以确定自适应参数的视频解码器的实例,如上文所描述。举例来说,在一些状况下,编码装置112可执行本文中所描述技术中的任一者,包含上文关于图11所描述的过程。
在前述描述中,参考其特定实施例描述申请案的方面,但所属领域的一般技术人员将认识到本申请案不限于此。因此,尽管本文中已详细描述申请案的说明性实施例,但应理解,本发明概念可以其它方式不同地体现并使用,且所附权利要求书打算解释为包含除现有技术所限制外的此些变化。上文所描述的标的物的各种特征及方面可单独地或联合地使用。另外,实施例可用于超出本文所描述的那些环境及应用的任何数目个环境及应用,而不脱离本说明书的更广精神及范围。因此,本说明书及图式被视为说明性而非限定性。出于说明的目的,以特定次序描述方法。应了解,在替代实施例中,可以与所描述的次序不同的次序来执行所述方法。
在组件被描述为“经配置以”执行某些操作的情况下,可(例如)通过设计电子电路或其它硬件以执行操作、通过编程可编程电子电路(例如,微处理器或其它适合的电子电路)以执行操作或其任何组合来实现此些配置。
结合本文所公开的实施例而描述的各种说明性逻辑块、模块、电路及算法步骤可被实施为电子硬件、计算机软件、固件或其组合。为了清楚地说明硬件与软件的此可互换性,各种说明性组件、块、模块、电路及步骤已在上文大体按其功能性加以了描述。此功能性实施为硬件抑或软件取决于特定应用及强加于整个系统上的设计约束。所属领域的一般技术人员可针对每一特定应用以不同的方式实施所描述功能性,但不应将此些实施决策解译为导致脱离本申请案的范围。
本文中所描述的技术也可以电子硬件、计算机软件、固件或其任何组合实施。此些技术可实施于多种装置中的任一者中,例如,通用计算机、无线通信装置手机或具有多种用途(包含在无线通信装置手机及其它装置中的应用)的集成电路装置。可将描述为模块或组件的任何特征一起实施于集成式逻辑装置中或分开来实施为离散但可互操作的逻辑装置。如果以软件实施,那么所述技术可至少部分由包括包含当经执行时执行以上描述方法中的一或多者的指令的程序代码的计算机可读数据存储媒体实现。计算机可读数据存储媒体可形成计算机程序产品的部分,计算机程序产品可包含封装材料。计算机可读媒体可包含存储器或数据存储媒体,例如,随机存取存储器(RAM),例如,同步动态随机存取存储器(SDRAM)、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦除可编程只读存储器(EEPROM)、快闪存储器、磁性或光学数据存储媒体,及其类似者。另外或替代地,所述技术可至少部分由计算机可读通信媒体实现,计算机可读通信媒体携载或传达呈指令或数据结构形式且可由计算机存取、读取及/或执行的程序代码,例如,经传播的信号或波。
程序代码可由可包含一或多个处理器的处理器执行,例如,一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成式或离散逻辑电路。此处理器可经配置以执行本发明中所描述的技术中的任一者。通用处理器可为微处理器;但在替代例中,处理器可为任何常规处理器、控制器、微控制器或状态机。处理器也可实施为计算装置的组合,例如,DSP与微处理器的组合、多个微处理器、一或多个微处理器结合DSP核心、或任何其它此类配置。因此,如本文中所使用的术语“处理器”可指前述结构中的任一者、前述结构的任何组合或适合于实施本文中所描述的技术的任何其它结构或设备。此外,在一些方面中,本文中描述的功能性可提供于经配置用于编码及解码的专用软件模块或硬件模块,或并入于组合的视频编码器-解码器(编解码器)中。

Claims (32)

1.一种用于处理视频数据的方法,其包括:
获得包含360度视频数据的球面表示的视频帧的第一视频位流;
确定几何形状的平面表面的像素位置的二维像素坐标,所述平面表面为多个平面表面的部分;
基于适应参数及所述二维像素坐标来确定所述像素位置的二维正规化坐标;
基于所述二维正规化坐标来确定所述360度视频数据的所述球面表示的样本点的三维坐标;
确定所述几何形状的所述平面表面的所述像素位置的像素值,所述像素值是基于与所述样本点相关联的所述球面表示的一或多个像素而确定;及
产生包含多个视频帧的第二视频位流,所述多个视频帧的视频帧包含针对所述几何形状的所述多个平面表面的像素位置确定的像素值。
2.根据权利要求1所述的方法,其中基于所述二维正规化坐标来确定所述样本点的三维坐标包含:
确定所述多个平面表面的平面表面;
基于所述经确定平面表面将所述三维坐标的第一坐标确定为常量;及
基于所述二维正规化坐标及所述经确定平面表面来确定所述三维坐标的第二坐标及第三坐标。
3.根据权利要求1所述的方法,其中基于所述适应参数及所述二维像素坐标来确定所述像素位置的所述二维正规化坐标包含:
基于所述像素位置的所述二维像素坐标来确定所述像素位置的初始二维正规化坐标;及
通过使用所述适应参数修改所述初始二维正规化坐标来确定所述像素位置的所述二维正规化坐标。
4.根据权利要求3所述的方法,其中通过使用所述适应参数修改所述初始二维正规化坐标来确定所述像素位置的所述二维正规化坐标包含:
通过使用函数修改所述初始二维正规化坐标的第一初始二维正规化坐标来确定所述像素位置的所述二维正规化坐标的第一二维坐标,其中所述第一初始二维正规化坐标是通过将所述函数实施为所述适应参数及所述第一初始二维正规化坐标的函数来修改;及
通过使用所述函数修改所述初始二维正规化坐标的第二初始二维正规化坐标来确定所述像素位置的所述二维正规化坐标的第二二维坐标,其中所述第二初始二维正规化坐标是通过将所述函数实施为所述适应参数及所述第二初始二维正规化坐标的函数来修改。
5.根据权利要求4所述的方法,其中所述函数包含正负号sgn函数及平方根函数,且其中所述适应参数是基于所述平方根函数而设定成第一值。
6.根据权利要求4所述的方法,其中所述函数包含正切tan函数,且其中所述适应参数是基于所述正切函数而设定成第二值。
7.根据权利要求4所述的方法,其中所述函数包含分段线性模型,其包含多个枢轴点,且其中所述多个枢轴点中的至少一者是由所述适应参数定义。
8.根据权利要求1所述的方法,其进一步包括将所述适应参数的指示包含在所述第二视频位流中。
9.根据权利要求8所述的方法,其中所述适应参数的所述指示包含在与所述视频帧的图像块或片段相关联的标头或与所述视频帧或所述多个视频帧相关联的参数集中。
10.根据权利要求1所述的方法,其进一步包括:
产生补充增强信息SEI消息;及
将所述适应参数的指示包含在所述补充增强信息消息中。
11.根据权利要求10所述的方法,其进一步包括:
用所述第二视频位流发射所述补充增强信息消息。
12.根据权利要求1所述的方法,其进一步包括从所述第一视频位流提取所述适应参数。
13.根据权利要求1所述的方法,其进一步包括从SEI消息提取所述适应参数。
14.根据权利要求13所述的方法,其中所述SEI消息包含在所述第一视频位流中。
15.根据权利要求1所述的方法,其中所述几何形状包含立方体,其中所述多个平面表面对应于所述立方体的六个表面,且其中所述六个表面的每一表面与所述球面表示的球面相切。
16.一种用于处理视频数据的设备,其包括:
存储器,其经配置以存储360度视频数据;及
处理器,其经配置以:
获得包含所述360度视频数据的球面表示的视频帧的第一视频位流;
确定几何形状的平面表面的像素位置的二维像素坐标,所述平面表面为多个平面表面的部分;
基于适应参数及所述二维像素坐标来确定所述像素位置的二维正规化坐标;
基于所述二维正规化坐标来确定所述360度视频数据的所述球面表示的样本点的三维坐标;
确定所述几何形状的所述平面表面的所述像素位置的像素值,所述像素值是基于与所述样本点相关联的所述球面表示的一或多个像素而确定;及
产生包含多个视频帧的第二视频位流,所述多个视频帧的视频帧包含针对所述几何形状的所述多个平面表面的像素位置确定的像素值。
17.根据权利要求16所述的设备,其中所述处理器经进一步配置以:
确定所述多个平面表面的平面表面;
基于所述经确定平面表面将所述三维坐标的第一坐标确定为常量;及
基于所述二维正规化坐标及所述经确定平面表面来确定所述三维坐标的第二坐标及第三坐标。
18.根据权利要求16所述的设备,其中所述处理器经进一步配置以:
基于所述像素位置的所述二维像素坐标来确定所述像素位置的初始二维正规化坐标;及
通过使用所述适应参数修改所述初始二维正规化坐标来确定所述像素位置的所述二维正规化坐标。
19.根据权利要求18所述的设备,其中所述处理器经进一步配置以:
通过使用函数修改所述初始二维正规化坐标的第一初始二维正规化坐标来确定所述像素位置的所述二维正规化坐标的第一二维坐标,其中所述第一初始二维正规化坐标是通过将所述函数实施为所述适应参数及所述第一初始二维正规化坐标的函数来修改;及
通过使用所述函数修改所述初始二维正规化坐标的第二初始二维正规化坐标来确定所述像素位置的所述二维正规化坐标的第二二维坐标,其中所述第二初始二维正规化坐标是通过将所述函数实施为所述适应参数及所述第二初始二维正规化坐标的函数来修改。
20.根据权利要求19所述的设备,其中所述函数包含正负号sgn函数及平方根函数,且其中所述适应参数是基于所述平方根函数而设定成第一值。
21.根据权利要求19所述的设备,其中所述函数包含正切tan函数,且其中所述适应参数是基于所述正切函数而设定成第二值。
22.根据权利要求19所述的设备,其中所述函数包含分段线性模型,其包含多个枢轴点,且其中所述多个枢轴点中的至少一者是由所述适应参数定义。
23.根据权利要求16所述的设备,其中所述处理器经进一步配置以将所述适应参数的指示包含在所述第二视频位流中。
24.根据权利要求23所述的设备,其中所述适应参数的所述指示包含在与所述视频帧的图像块或片段相关联的标头或与所述视频帧或所述多个视频帧相关联的参数集中。
25.根据权利要求16所述的设备,其中所述处理器经进一步配置以:
产生补充增强信息消息;及
将所述适应参数的指示包含在所述补充增强信息消息中。
26.根据权利要求25所述的设备,其中所述处理器经进一步配置以:
用所述第二视频位流发射所述补充增强信息消息。
27.根据权利要求16所述的设备,其中所述处理器经进一步配置以从所述第一视频位流提取所述适应参数。
28.根据权利要求16所述的设备,其中所述处理器经进一步配置以从SEI消息提取所述适应参数。
29.根据权利要求16所述的设备,其中所述几何形状包含立方体,其中所述多个平面表面对应于所述立方体的六个表面,且其中所述六个表面的每一表面与所述球面表示的球面相切。
30.根据权利要求16所述的设备,其中所述设备包括具有用以检索所述360度视频数据的一或多个摄影机的移动装置。
31.一种存储有指令的非暂时性计算机可读媒体,所述指令在由一或多个处理器执行时使得所述一或多个处理器执行以下操作:
获得包含360度视频数据的球面表示的视频帧的第一视频位流;
确定几何形状的平面表面的像素位置的二维像素坐标,所述平面表面为多个平面表面的部分;
基于适应参数及所述二维像素坐标来确定所述像素位置的二维正规化坐标;
基于所述二维正规化坐标来确定所述360度视频数据的所述球面表示的样本点的三维坐标;
确定所述几何形状的所述平面表面的所述像素位置的像素值,所述像素值是基于与所述样本点相关联的所述球面表示的一或多个像素而确定;及
产生包含多个视频帧的第二视频位流,所述多个视频帧的视频帧包含针对所述几何形状的所述多个平面表面的像素位置确定的像素值。
32.一种设备,其包括:
用于获得包含360度视频数据的球面表示的视频帧的第一视频位流的装置;
用于确定几何形状的平面表面的像素位置的二维像素坐标的装置,所述平面表面为多个平面表面的部分;
用于基于适应参数及所述二维像素坐标来确定所述像素位置的二维正规化坐标的装置;
用于基于所述二维正规化坐标来确定所述360度视频数据的所述球面表示的样本点的三维坐标的装置;
用于确定所述几何形状的所述平面表面的所述像素位置的像素值的装置,所述像素值是基于与所述样本点相关联的所述球面表示的一或多个像素而确定;及
用于产生包含多个视频帧的第二视频位流的装置,所述多个视频帧的视频帧包含针对所述几何形状的所述多个平面表面的像素位置确定的像素值。
CN201880019181.9A 2017-03-20 2018-03-20 自适应扰动立方体的地图投影 Pending CN110431846A (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201762473822P 2017-03-20 2017-03-20
US62/473,822 2017-03-20
US201762479843P 2017-03-31 2017-03-31
US62/479,843 2017-03-31
US15/925,674 2018-03-19
US15/925,674 US10915986B2 (en) 2017-03-20 2018-03-19 Adaptive perturbed cube map projection
PCT/US2018/023428 WO2018175491A1 (en) 2017-03-20 2018-03-20 Adaptive perturbed cube map projection

Publications (1)

Publication Number Publication Date
CN110431846A true CN110431846A (zh) 2019-11-08

Family

ID=63519393

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201880017761.4A Active CN110419221B (zh) 2017-03-20 2018-03-20 自适应扰动立方体的地图投影
CN201880019181.9A Pending CN110431846A (zh) 2017-03-20 2018-03-20 自适应扰动立方体的地图投影

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201880017761.4A Active CN110419221B (zh) 2017-03-20 2018-03-20 自适应扰动立方体的地图投影

Country Status (4)

Country Link
US (2) US10643301B2 (zh)
CN (2) CN110419221B (zh)
TW (2) TW201838407A (zh)
WO (2) WO2018175491A1 (zh)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180029315A (ko) * 2016-09-12 2018-03-21 삼성전자주식회사 가상 현실 컨텐트의 영상을 투영하기 위한 영상 처리 방법 및 장치
KR20180051288A (ko) * 2016-11-08 2018-05-16 삼성전자주식회사 디스플레이 장치 및 그 제어 방법
US10999602B2 (en) 2016-12-23 2021-05-04 Apple Inc. Sphere projected motion estimation/compensation and mode decision
US11259046B2 (en) 2017-02-15 2022-02-22 Apple Inc. Processing of equirectangular object data to compensate for distortion by spherical projections
CN108470379B (zh) * 2017-02-23 2021-12-07 株式会社理光 三维图像融合方法和装置
US10924747B2 (en) 2017-02-27 2021-02-16 Apple Inc. Video coding techniques for multi-view video
US10643301B2 (en) 2017-03-20 2020-05-05 Qualcomm Incorporated Adaptive perturbed cube map projection
US10839480B2 (en) * 2017-03-22 2020-11-17 Qualcomm Incorporated Sphere equator projection for efficient compression of 360-degree video
US11093752B2 (en) 2017-06-02 2021-08-17 Apple Inc. Object tracking in multi-view video
US20190005709A1 (en) * 2017-06-30 2019-01-03 Apple Inc. Techniques for Correction of Visual Artifacts in Multi-View Images
US10754242B2 (en) 2017-06-30 2020-08-25 Apple Inc. Adaptive resolution and projection format in multi-direction video
WO2019009600A1 (ko) * 2017-07-04 2019-01-10 엘지전자 주식회사 360도 비디오에 대한 영상 코딩 시스템에서 프로젝션 타입 기반 양자화 파라미터를 사용한 영상 디코딩 방법 및 장치
EP3425483B1 (en) * 2017-07-07 2024-01-10 Accenture Global Solutions Limited Intelligent object recognizer
US11212438B2 (en) 2018-02-14 2021-12-28 Qualcomm Incorporated Loop filter padding for 360-degree video coding
US10715832B2 (en) * 2018-03-16 2020-07-14 Mediatek Inc. Method and apparatus of block partition for VR360 video coding
US11145108B2 (en) * 2018-03-21 2021-10-12 Nvidia Corporation Uniform density cube map rendering for spherical projections
CN110349226B (zh) * 2018-04-01 2021-06-01 浙江大学 一种全景图像处理方法及装置
US20190385372A1 (en) * 2018-06-15 2019-12-19 Microsoft Technology Licensing, Llc Positioning a virtual reality passthrough region at a known distance
CN109151436B (zh) * 2018-09-30 2021-02-02 Oppo广东移动通信有限公司 数据处理方法及装置、电子设备及存储介质
CN109525842B (zh) * 2018-10-30 2022-08-12 深圳威尔视觉科技有限公司 基于位置的多Tile排列编码方法、装置、设备和解码方法
KR20210094646A (ko) * 2018-12-14 2021-07-29 지티이 코포레이션 몰입형 비디오 비트 스트림 처리
US10773162B1 (en) * 2018-12-21 2020-09-15 Electronic Arts Inc. Systems and methods for separable foreground and background rendering
US11089320B2 (en) * 2019-03-27 2021-08-10 Nvidia Corp. Adaptive pixel sampling order for temporally dense rendering
US11190768B2 (en) 2019-07-02 2021-11-30 Mediatek Inc. Video encoding method with syntax element signaling of packing of projection faces derived from cube-based projection and associated video decoding method and apparatus
US11190801B2 (en) * 2019-07-02 2021-11-30 Mediatek Inc. Video encoding method with syntax element signaling of mapping function employed by cube-based projection and associated video decoding method
US11659206B2 (en) 2019-07-02 2023-05-23 Mediatek Inc. Video encoding method with syntax element signaling of guard band configuration of projection-based frame and associated video decoding method and apparatus
CN110910504A (zh) * 2019-11-28 2020-03-24 北京世纪高通科技有限公司 区域的三维模型的确定方法及装置
US11816757B1 (en) * 2019-12-11 2023-11-14 Meta Platforms Technologies, Llc Device-side capture of data representative of an artificial reality environment
US11425420B2 (en) * 2019-12-27 2022-08-23 Qualcomm Incorporated Wraparound offsets for reference picture resampling in video coding
US11263722B2 (en) 2020-06-10 2022-03-01 Mediatek Inc. Video processing method for remapping sample locations in projection-based frame with hemisphere cubemap projection layout to locations on sphere and associated video processing apparatus
US11622100B2 (en) * 2021-02-17 2023-04-04 flexxCOACH VR 360-degree virtual-reality system for dynamic events

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1491403A (zh) * 2001-10-29 2004-04-21 ���ṫ˾ 非平面图像的图像处理装置、图像处理方法、存储介质及计算机程序
US20140340427A1 (en) * 2012-01-18 2014-11-20 Logos Technologies Llc Method, device, and system for computing a spherical projection image based on two-dimensional images

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140003523A1 (en) 2012-06-30 2014-01-02 Divx, Llc Systems and methods for encoding video using higher rate video sequences
US20160300392A1 (en) * 2015-04-10 2016-10-13 VR Global, Inc. Systems, media, and methods for providing improved virtual reality tours and associated analytics
US10796480B2 (en) * 2015-08-14 2020-10-06 Metail Limited Methods of generating personalized 3D head models or 3D body models
US9940697B2 (en) * 2016-04-15 2018-04-10 Gopro, Inc. Systems and methods for combined pipeline processing of panoramic images
US10681326B2 (en) * 2016-05-19 2020-06-09 AVAGO TECHNOLOGlES INTERNATIONAL SALES PTE. LIMITED 360 degree video system with coordinate compression
US10848668B2 (en) * 2016-05-19 2020-11-24 Avago Technologies International Sales Pte. Limited 360 degree video recording and playback with object tracking
US10699389B2 (en) * 2016-05-24 2020-06-30 Qualcomm Incorporated Fisheye rendering with lens distortion correction for 360-degree video
WO2017205648A1 (en) 2016-05-26 2017-11-30 Vid Scale, Inc. Geometric conversion for 360-degree video coding
US10652553B2 (en) * 2016-12-07 2020-05-12 Qualcomm Incorporated Systems and methods of signaling of regions of interest
US20180262774A1 (en) * 2017-03-09 2018-09-13 Mediatek Inc. Video processing apparatus using one or both of reference frame re-rotation and content-oriented rotation selection and associated video processing method
US11363248B2 (en) * 2017-03-17 2022-06-14 Lg Electronics Inc. Method and device for transmitting region information of 360-degree video
US10643301B2 (en) 2017-03-20 2020-05-05 Qualcomm Incorporated Adaptive perturbed cube map projection

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1491403A (zh) * 2001-10-29 2004-04-21 ���ṫ˾ 非平面图像的图像处理装置、图像处理方法、存储介质及计算机程序
US20140340427A1 (en) * 2012-01-18 2014-11-20 Logos Technologies Llc Method, device, and system for computing a spherical projection image based on two-dimensional images

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YAN YE: ""Algorithm descriptions of projection format conversion and video quality metrics in 360Lib"", 《JOINT VIDEO EXPLORATION TEAM (JVET) OF ITU-T SG 16 WP 3 AND ISO/IEC JTC 1/SC 29/WG 11 5TH MEETING: GENEVA, CH, 12–20 JANUARY 2017,JVET-E1003》 *

Also Published As

Publication number Publication date
US20180268517A1 (en) 2018-09-20
US10643301B2 (en) 2020-05-05
WO2018175491A1 (en) 2018-09-27
US10915986B2 (en) 2021-02-09
US20180268516A1 (en) 2018-09-20
WO2018175493A1 (en) 2018-09-27
CN110419221A (zh) 2019-11-05
CN110419221B (zh) 2023-06-09
TW201838407A (zh) 2018-10-16
TW201840178A (zh) 2018-11-01

Similar Documents

Publication Publication Date Title
CN110431846A (zh) 自适应扰动立方体的地图投影
US11151742B2 (en) Point cloud data transmission apparatus, point cloud data transmission method, point cloud data reception apparatus, and point cloud data reception method
US10652553B2 (en) Systems and methods of signaling of regions of interest
US20210005006A1 (en) Apparatus for transmitting point cloud data, a method for transmitting point cloud data, an apparatus for receiving point cloud data and a method for receiving point cloud data
EP3465607B1 (en) Fisheye rendering with lens distortion correction for 360-degree video
US10904531B2 (en) Adaptive parameters for coding of 360-degree video
US10620441B2 (en) Viewport-aware quality metric for 360-degree video
US20220159261A1 (en) Point cloud data transmission device, point cloud data transmission method, point cloud data reception device, and point cloud data reception method
CN109792548A (zh) 用于处理360度视频数据的方法和系统
CN108780567A (zh) 用于表示虚拟现实视频内容的截顶正方形金字塔几何结构和帧打包结构
CN110383843A (zh) 用于360度视频的有效压缩的球体赤道投影
CN110168600A (zh) 调整360度视频的截顶正方形棱锥投影的视场
CN109155861A (zh) 用于编码媒体内容的方法和装置以及计算机程序
CN110463205A (zh) 用于360度视频的有效压缩的球极投影
CN118118658A (zh) 基于dmvr和bdof的帧间预测方法及其设备
CN104115494A (zh) 用于多视图视频译码mvc兼容三维视频译码3dvc的嵌套式sei消息
CN104641652A (zh) 用于视频译码的帧封装立体三维(3d)视频数据的指示
CN105659595A (zh) 多层视频译码中的基于三维查找表的色域可缩放性
CN114930813A (zh) 点云数据发送装置、点云数据发送方法、点云数据接收装置和点云数据接收方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20191108