CN110447226A - 用于对360度视频进行译码的自适应参数 - Google Patents
用于对360度视频进行译码的自适应参数 Download PDFInfo
- Publication number
- CN110447226A CN110447226A CN201880020128.0A CN201880020128A CN110447226A CN 110447226 A CN110447226 A CN 110447226A CN 201880020128 A CN201880020128 A CN 201880020128A CN 110447226 A CN110447226 A CN 110447226A
- Authority
- CN
- China
- Prior art keywords
- value
- sample
- adaptive
- weighted
- picture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/124—Quantisation
- H04N19/126—Details of normalisation or weighting functions, e.g. normalisation matrices or variable uniform quantisers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/103—Selection of coding mode or of prediction mode
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/124—Quantisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/146—Data rate or code amount at the encoder output
- H04N19/147—Data rate or code amount at the encoder output according to rate distortion criteria
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/167—Position within a video image, e.g. region of interest [ROI]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/176—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/182—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/189—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
- H04N19/19—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding using optimisation based on Lagrange multipliers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/597—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明提供用于处理360度视频数据的技术和系统。举例来说,可获得所述360度视频数据的图片。所述图片可包含从三维格式投影成二维格式的样本。可确定所述图片的至少一个样本的权重值。可至少基于所述至少一个样本在所述图片中的位置来确定所述权重值。可使用所确定的权重值来确定所述至少一个样本的至少一个自适应参数。所述至少一个自适应参数可包含自适应加权失真、自适应加权量化参数值或自适应加权拉姆达值中的一或多个。可使用所述至少一个样本的所述至少一个自适应参数来确定与使用一或多个译码模式对所述至少一个样本进行译码相关联的成本。
Description
技术领域
本申请涉及处理360度视频。更具体地说,本申请涉及用于确定用于对360度视频进行译码的一或多个自适应参数的系统和方法。
背景技术
许多装置和系统允许处理并且输出视频数据以用于消费。数字视频数据包含大量数据以满足消费者和视频供应商的需求。举例来说,视频数据的消费者希望视频具有最佳的质量以及高保真度、分辨率、帧率等等。一种类型的视频是360度视频。360度视频可为查看者提供沉浸式体验。举例来说,360度视频可为查看者提供虚拟现实体验,将查看者置于虚拟地不同的时间和/或空间。作为另一实例,360度视频可为查看者提供由远程装置(例如,无人机、移动装置、相机装置和/或其它装置)捕获的视频内容的第一人称视图。
发明内容
在一些实例中,本文中描述用于确定用于对360度视频进行译码的一或多个自适应参数的技术和系统。自适应参数也可在本文中被称作自适应编码参数。360度视频的投影方案跨图片具有非均匀失真。在一个说明性实例中,具有等矩形投影(ERP)的360度视频的图片产生二维图片,所述二维图片的极区域具有比图片的赤道(中间)区域更高的失真。图片也可在本文中被称作帧(例如,视频帧)或图像。在此些情况下,由于用以选择合适的译码模式的速率失真优化分析,编码器可能在极区域中消耗更多位。用于极区域的更多位使得在极区域中的视口的质量高于在赤道区域中的视口的质量。视口是指可经显现以供显示的360度场景内的特定视图。
一或多个自适应参数考虑当将360度视频的三维(例如,球形)视频数据投影成二维格式时引入的非均匀失真。举例来说,360度视频的投影方案的非均匀失真特性可经利用以通过确定与不同区中的失真成比例的一或多个自适应参数并将其应用到360度视频的图片内的不同区来改进360度视频的压缩效率。在一些情况下,一或多个自适应参数可用以选择译码模式以对图片的一或多个样本(例如,像素、像素块、一行块等)进行译码。举例来说,译码模式可基于成本(例如,速率失真成本或其它合适的度量)而选择,所述成本可基于一或多个自适应参数而确定。
在一些实例中,可确定一或多个样本(例如,像素、像素块、一行块等)的权重,且所述权重可用以确定一或多个样本的一或多个自适应参数。在一些情况下,可确定一或多个样本的归一化权重,且所述归一化权重可用以确定一或多个自适应参数。在一些实例中,一或多个自适应参数可包含自适应加权失真、自适应加权量化参数(QP)值和/或自适应加权拉姆达值。一或多个样本的一或多个自适应参数(例如,自适应加权失真、自适应加权QP值和/或自适应加权拉姆达值)可接着用以确定与使用一或多个译码模式对一或多个样本进行译码相关联的成本。
根据至少一个实例,提供一种处理360度视频数据的方法。所述方法包括获得360度视频数据的图片。所述图片包括从三维格式投影成二维格式的样本。所述方法进一步包括确定图片的至少一个样本的权重值。至少基于所述至少一个样本在所述图片中的位置来确定所述权重值。所述方法进一步包括使用所确定的权重值来确定所述至少一个样本的所述至少一个自适应参数。所述至少一个自适应参数包括自适应加权失真、自适应加权量化(QP)参数值或自适应加权拉姆达值中的一或多个。所述方法进一步包括确定与使用一或多个译码模式对至少一个样本进行译码相关联的成本。使用针对所述至少一个样本确定的所述至少一个自适应参数来确定所述成本。
在另一实例中,提供一种用于处理360度视频数据的设备,其包含经配置以存储360度视频数据的存储器和处理器。所述处理器经配置以并且可以获得360度视频数据的图片。所述图片包括从三维格式投影成二维格式的样本。所述处理器经进一步配置以且可以确定图片的至少一个样本的权重值。至少基于所述至少一个样本在所述图片中的位置来确定所述权重值。所述处理器经进一步配置以且可以使用所确定的权重值确定至少一个样本的至少一个自适应参数。所述至少一个自适应参数包括自适应加权失真、自适应加权量化(QP)参数值或自适应加权拉姆达值中的一或多个。所述处理器经进一步配置以且可以确定与使用一或多个译码模式对至少一个样本进行译码相关联的成本。使用针对所述至少一个样本确定的所述至少一个自适应参数来确定所述成本。
在另一实例中,提供一种非暂时性计算机可读媒体,其上存储有指令,所述指令在由一或多个处理器执行时使所述一或多个处理器进行以下操作:获得360度视频数据的图片,其中所述图片包括从三维格式投影成二维格式的样本;确定所述图片的至少一个样本的权重值,其中至少基于所述至少一个样本在所述图片中的位置来确定所述权重值;使用所确定的权重值确定所述至少一个样本的至少一个自适应参数,所述至少一个自适应参数包括自适应加权失真、自适应加权量化参数(QP)值或自适应加权拉姆达值中的一或多个;以及确定与使用一或多个译码模式对所述至少一个样本进行译码相关联的成本,其中使用针对所述至少一个样本确定的所述至少一个自适应参数来确定所述成本。
在另一实例中,提供一种用于处理360度视频数据的设备。所述设备包含用于获得360度视频数据的图片的装置。所述图片包括从三维格式投影成二维格式的样本。所述设备进一步包含用于确定所述图片的至少一个样本的权重值的装置。至少基于所述至少一个样本在所述图片中的位置来确定所述权重值。所述设备进一步包含用于使用所确定的权重值来确定所述至少一个样本的所述至少一个自适应参数的装置。所述至少一个自适应参数包括自适应加权失真、自适应加权量化(QP)参数值或自适应加权拉姆达值中的一或多个。所述设备进一步包含用于确定与使用一或多个译码模式对至少一个样本进行译码相关联的成本的装置。使用针对所述至少一个样本确定的所述至少一个自适应参数来确定所述成本。
在一些方面中,上文所描述的所述方法、设备和计算机可读媒体还可包括确定对所述至少一个样本进行编码的译码模式,所述译码模式是基于所确定的成本而确定;以及使用所确定的译码模式对所述至少一个样本进行编码。
在一些方面中,所述至少一个自适应参数包括所述自适应加权失真。所述自适应加权失真包括乘以所确定的权重值的所述至少一个样本的失真。在一些情况下,所述至少一个样本的所述失真包括所述至少一个样本的原始值与所述至少一个样本的经重构值之间的差。
在一些方面中,所述至少一个自适应参数包括所述自适应加权QP值。所述自适应加权QP值包括由所确定的权重值修改的所述至少一个样本的QP值。
在一些方面中,所述至少一个自适应参数包括所述自适应加权拉姆达值。所述自适应加权拉姆达值包括由所确定的权重值修改的所述至少一个样本的拉姆达值。所述至少一个样本的所述拉姆达值可包含表示失真与数个位之间的权衡的拉格朗日常量。
在一些方面中,所述至少一个自适应参数包括所述自适应加权失真和所述自适应加权QP值。所述自适应加权失真包括乘以所确定的权重值的所述至少一个样本的失真,且所述自适应加权QP值包括由所确定的权重值修改的所述至少一个样本的QP值。
在一些方面中,所述至少一个自适应参数包括所述自适应加权失真和所述自适应加权拉姆达值。所述自适应加权失真包括乘以所确定的权重值的所述至少一个样本的失真,且所述自适应加权拉姆达值包括由所确定的权重值修改的所述至少一个样本的拉姆达值。
在一些方面中,上文所描述的所述方法、设备和计算机可读媒体可进一步包括确定所述图片的所述至少一个样本的归一化权重值。在此类方面中,基于所述图片中的所述样本的权重的总和且基于所述图片的高度来确定所述归一化权重值。在一些情况下,使用所确定的归一化权重值来确定所述至少一个样本的所述至少一个自适应参数。
在一些方面中,所述权重值是进一步基于所述二维格式的分辨率而确定。在一些实例中,所述至少一个样本包括像素、像素块或一行像素块。在一些方面中,所述二维格式包括等矩形几何形状(也被称作等矩形格式)或360度视频数据可投影成的其它合适的格式。在一些方面中,所述成本包括速率失真优化成本。
在一些情况下,所述设备包括用于捕获360度视频图片的相机。在一些情况下,设备包括具有用于捕获360度视频图片的相机的移动装置。在一些情况下,所述设备包括用于显示360度视频的显示器。
本发明内容并非意图识别所要求的主题的关键特征或基本特征,也并非意图单独用于确定所要求的主题的范围。应参考此专利的整个说明书的适当部分、任何或所有图式以及每一权利要求来理解主题。
在参考以下说明书、权利要求书以及附图之后,前述内容连同其它特征和实施例将变得更显而易见。
附图说明
下文参考以下图式详细描述本申请的说明性实施例:
图1是说明根据一些实例的编码装置和解码装置的实例的框图;
图2A和图2B是说明根据一些实例的由使用鱼眼镜头来捕获宽视场的全向相机捕获的视频图片的实例的图式;
图3是说明根据一些实例的等矩形视频图片的实例的图式;
图4A和图4B是说明根据一些实例的在360度视频呈现中使用的360度视频图片的实例的图式;
图5是说明根据一些实例的加权球形峰值信号-噪声比(WS-PSNR)权重的实例的曲线图;
图6是说明根据一些实例的归一化WS-PSNR权重的实例的曲线图;
图7是说明根据一些实例的基于WS-PSNR权重的4K视频序列的量化参数(QP)偏移的实例的曲线图;
图8是说明根据一些实例的基于归一化WS-PSNR权重的4K视频序列的量化参数(QP)偏移的实例的曲线图;
图9是说明根据一些实例的用于处理360度视频数据的过程的实例的流程图;
图10是说明根据一些实例的实例视频编码装置的框图;且
图11是说明根据一些实例的实例视频解码装置的框图。
具体实施方式
下文提供了本公开的某些方面和实施例。如所属领域的技术人员所显而易见的,这些方面和实施例中的一些可以独立地应用并且它们中的一些可以组合应用。在以下描述中,出于说明的目的,阐述特定细节以便提供对本申请的实施例的透彻理解。然而,将显而易见的是,可在无这些特定细节的情况下实践各种实施例。图式和描述并不意图是限制性的。
以下描述仅提供示范性实施例,且并不意图限制本公开的范围、适用性或配置。实际上,示范性实施例的以下描述将为所属领域的技术人员提供用于实施示范性实施例的启发性描述。应理解,可在不脱离所附权利要求书中所阐述的主题的精神和范围的情况下,对元件的功能和布置作出各种改变。
在以下描述中,给出特定细节以提供对实施例的透彻理解。然而,所属领域的技术人员应理解,所述实施例可以在没有这些特定细节的情况下加以实践。举例来说,电路、系统、网络、过程和其它组件可以框图形式展示为组件,以免以不必要的细节混淆实施例。在其它情况下,可以在没有不必要的细节的情况下展示众所周知的电路、过程、算法、结构以及技术以免混淆实施例。
此外,应注意,个别实施例可描述为经描绘为流程图、作业图、数据流图、结构图或框图的过程。尽管流程图可将操作描述为连续过程,但许多操作可并行或同时执行。此外,可重新布置操作的次序。过程在过程的操作完成时终止,但是可以具有不包含在图中的额外步骤。过程可以对应于方法、函数、步骤、子例程、子程序等。当过程对应于函数时,其终止对应于所述函数返回到调用函数或主函数。
术语“计算机可读媒体”包含但不限于便携式或非便携式存储装置、光学存储装置以及能够存储、含有或携载指令和/或数据的各种其它媒体。计算机可读媒体可包含其中可存储数据的非暂时性媒体,在此情况下,数据不经由载波和/或暂时性电子信号存储。非暂时性媒体的实例可包含但不限于,磁盘或磁带、光学存储媒体,例如光盘(CD)或数字通用光盘(DVD)、快闪存储器、存储器或存储器装置。计算机可读媒体可具有存储在其上的可表示程序、函数、子程序、程序、例程、子例程、模块、软件包、类别的代码和/或机器可执行指令,或指令、数据结构或程序语句的任何组合。一个代码段可通过传递和/或接收信息、数据、自变量、参数或存储器内容耦合到另一代码段或硬件电路。信息、自变量、参数、数据等可经由包含存储器共享、消息传递、令牌传递、网络发射等等的任何合适的装置传递、转发或发射。
此外,实施例可通过硬件、软件、固件、中间件、微码、硬件描述语言或其任何组合来实施。当以软件、固件、中间件或微码实施时,用以执行必要任务的程序代码或代码段(例如,计算机程序产品)可存储在计算机可读或机器可读媒体中。处理器可以执行必需任务。
视频内容可被捕获且作为360度视频内容而译码。如下文更详细地描述,本文中所描述的一或多个系统和方法涉及确定用于对360度视频进行译码的一或多个自适应参数。一或多个自适应参数考虑当将360度视频的三维(例如,球形)视频数据投影成二维格式时引入的非均匀失真。举例来说,360度视频的投影方案的非均匀失真特性可经利用以通过确定与不同区中的失真成比例的一或多个自适应参数并将其应用到360度视频的图片内的不同区来改进360度视频的压缩效率。在一些情况下,一或多个自适应参数可用以选择用于对图片的一或多个样本进行译码的译码模式。可确定一或多个样本的权重或归一化权重,且所述权重或归一化权重可用以确定一或多个样本的一或多个自适应参数。一或多个样本的一或多个自适应参数可接着用以确定与使用一或多个译码模式对一或多个样本进行译码相关联的成本。
360度视频是360度场景或环境的所捕获的视频,且可经显现以实现360度场景或环境的沉浸式显示。举例来说,360度视频可表示可以看起来真实或实体的方式交互的三维场景或环境。在一些情况下,360度视频可经捕获且以极高质量(例如,高清、4K超高清、8K超高清和/或其它高质量视频)显现,从而可能提供真正沉浸式360度视频或虚拟现实体验。360度视频的说明性实例可包含虚拟现实视频、扩增现实数据,或任何其它类型的360度类型的视频内容,不论是捕获的、计算机生成的还是其它方式获得的。360度视频应用的说明性实例包含实况体育活动、扩增现实、游戏、培训、教育、体育视频、线上购物及其它。在某些情况下,体验360度视频环境的用户使用例如头戴式显示器(HMD)、移动装置或其它合适的装置等电子设备。在某些情况下,特定工具或服装(例如,装配有传感器的手套)可任选地用于与虚拟环境交互。随着用户在现实世界中改变头部定向和/或移动,360度视频环境中显现的图像也改变,从而给予用户用户正在360度视频环境内移动的感知。在某些情况下,360度视频环境可包含与用户的移动相关的声音,从而给予用户声音源自特定方向或来源的印象。
在一些应用中,来自现实世界的视频可以在360度视频或虚拟现实环境的呈现中使用,这与可例如在游戏和虚拟世界中发现的计算机生成的图形形成对比。在此类现实世界应用中,用户可以用户可体验当前位置的相同方式体验另一位置。在一个说明性实例中,用户在使用位于旧金山的360度视频系统时可体验柏林的徒步之旅。在一些应用中,360度视频可提供虚拟地存在于非实体世界中从而允许用户与所述世界交互的能力,所述非实体世界是通过依据沉浸的用户的移动相关的天然和/或合成图像(以及在某些状况下,声音)的显现创建的。
360度视频系统可包含视频捕获装置和视频显示装置,且可能还包含其它中间装置,例如服务器、数据存储装置和数据发射设备。视频捕获装置可包含相机组,其可包含一组多个相机,每一相机定向于不同方向中且捕获不同视图。在一个说明性实例中,六个相机可用于捕获以相机组的位置为中心的全360度视图。一些视频捕获装置可使用较少相机。举例来说,一些视频捕获装置可主要捕获边到边视图或使用具有宽视场的镜头。在一个说明性实例中,装备有背对背定位的两个鱼眼镜头的一或多个相机可用于捕获一起提供360度视场的两个图像。视频大体上包含图片(也被称作帧或图像),其中图片可包含电子译码的场景的静态图像。相机每秒捕获一定数量的帧,这通常被称为相机的帧速率。
在一些情况下,为了提供无缝360度视图,可对由相机组中的相机中的每一个捕获的视频图片执行图像拼接。在360度视频生成的情况下的图像拼接涉及在视频图片重叠或以其它方式连接的区域中组合或合并来自邻近相机(或镜头)的视频图片。结果将是近似球形图片,且合并的数据可以平面方式表示。举例来说,球形图片可映射成二维表示和/或映射成几何形状的平面。举例来说,可使用等矩形投影(ERP)将球形视频数据投影成等矩形几何形状。作为另一实例,球形视频数据可投影成几何形状,例如截顶正方形金字塔(TSP)、立方体、柱体、十二面体和/或其它合适的几何形状。举例来说,合并视频图片中的像素可以被投影或映射到TSP形状、立方体形状的平面上,或者某一其它三维平面形状(例如,金字塔、八面体、十面体等)上。视频捕获和视频显示装置以光栅原理操作—意指视频图片经处理为像素的栅格—在此情况下,正方形平面、矩形平面或其它合适形状的平面可用以表示球形环境。
映射成几何平面表示的360度视频图片可以经编码和/或压缩以用于存储和/或发射。编码和/或压缩可使用视频编解码器(例如,与也称为H.265的高效视频译码(HEVC)标准、与称为H.264的高级视频译码标准兼容的代码,或另一合适的编解码器)来实现,且产生经压缩的视频位流(或经编码视频位流)或一组位流。360度视频内容的视频图片可使用时间帧间预测(TIP)编码为单层位流,且整个经译码位流可存储在服务器处。在一些情况下,360度视频内容的图片可使用TIP和层间预测(ILP)编码为多层位流。下文进一步详细描述使用视频编解码器对视频数据进行编码。
在一些实施方案中,经编码视频位流可以媒体格式或文件格式存储和/或囊封。可例如通过网络将存储的位流发射到可解码和显现视频以供显示的接收器装置。此接收器装置在本文中可以被称为视频显示装置。举例来说,360度视频系统可生成来自经编码视频数据的囊封文件(例如,使用国际标准组织(ISO)基础媒体文件格式和/或导出的文件格式)。举例来说,视频编解码器可对视频数据进行编码且囊封发动机可通过将视频数据囊封在一或多个ISO格式媒体文件中来生成媒体文件。替代地或另外,存储的位流可直接从存储媒体提供到接收器装置。
接收器装置还可实施编解码器以对经编码视频位流进行解码和/或解压缩。在其中经编码视频位流以媒体格式或文件格式存储和/或囊封的情况下,接收器装置可支持用以将视频位流打包到(一或多个)文件中的媒体或文件格式,且可提取视频(且还可能音频)数据,以生成经编码视频数据。举例来说,接收器装置可使用囊封的视频数据解析媒体文件以生成经编码视频数据,且接收器装置中的编解码器可对经编码视频数据进行解码。
接收器装置可接着将经解码视频信号发送到显现装置(例如,视频显示装置、播放器装置或其它合适的显现装置)。显现装置包含例如头戴式显示器、虚拟现实电视、支持360度视频应用的移动装置,和/或其它180度或360度显示装置。通常,头戴式显示器能够跟踪穿戴者的头部的移动和/或穿戴者的眼睛的移动。头戴式显示器可使用跟踪信息来显现对应于穿戴者正在看的方向的360度视频的部分,使得穿戴者以她体验现实世界的相同方式体验虚拟环境。(例如,接收器装置的)显现装置可以视频被捕获的相同帧速率或以不同帧速率显现视频。需要时,包含360度视频的位流可发射到接收器侧,由解码器完全解码,且对应于正由穿戴者查看的场景(被称作查看者的视场(FOV))的一部分的经解码图片的区可由显现装置显现以供穿戴者查看。可由头戴式显示器或其它360度视频显示装置基于穿戴者的头部和/或眼睛的移动来确定查看者的FOV。
如上文所提及,360度视频图片(例如,映射或投影成2D格式或几何形状)可经编码和/或压缩以用于存储和/或发射,且接收器装置可对经编码360度视频图片进行解码和/或解压缩。图1是说明包含编码装置104和解码装置112的视频译码系统100的实例的框图。编码装置104可为源装置的一部分,且解码装置112可为接收装置的一部分。源装置和/或接收装置可包含电子装置,例如,移动或静止电话手机(例如,智能电话、蜂窝电话等等)、桌上型计算机、膝上型或笔记本计算机、平板计算机、机顶盒、电视、相机、显示装置、数字媒体播放器、视频游戏控制台、视频流式处理装置、因特网协议(IP)相机,或任何其它合适的电子装置。在一些实例中,源装置和接收装置可以包含一或多个无线收发器以用于无线通信。本文中所描述的译码技术适用于各种多媒体应用中的视频译码,包含流式处理视频发射(例如,在因特网上)、电视广播或发射、用于存储在数据存储媒体上的数字视频的编码、存储在数据存储媒体上的数字视频的解码,或其它应用。在一些实例中,系统100可以支持单向或双向视频发射,以支持例如视频会议、视频流式处理、视频回放、视频广播、游戏和/或视频电话的应用。
编码装置104(或编码器)可用以使用视频译码标准或协议对视频数据进行编码以生成经编码视频位流。视频译码标准的实例包含ITU-T H.261、ISO/IEC MPEG-1 Visual、ITU-T H.262或ISO/IEC MPEG-2 Visual、ITU-T H.263、ISO/IEC MPEG-4 Visual、ITU-TH.264(也被称为ISO/IEC MPEG-4 AVC),包含其可缩放视频译码(SVC)和多视图视频译码(MVC)扩展,以及ITU-T H.265(高效视频译码(HEVC))。HEVC的各种扩展处理多层视频译码存在,包含范围和屏幕内容译码扩展、3D视频译码扩展(3D-HEVC)和多视图扩展(MV-HEVC)以及可缩放扩展(SHVC)。HEVC和其扩展已经通过视频译码联合合作小组(JCT-VC)以及ITU-T视频译码专家组(VCEG)和ISO/IEC运动图片专家组(MPEG)的3D视频译码扩展开发的联合合作小组(JCT-3V)开发。MPEG和ITU-T VCEG也已形成联合探索视频组(JVET)以探索用于下一代的视频译码标准的新译码工具。参考软件被称作JEM(联合探索模型)。
本文中所描述的许多实施例使用HEVC标准和/或其扩展提供实例。然而,本文中所描述的技术和系统还可适用于其它译码标准,例如AVC、MPEG、JEM模型、其扩展,和/或已可用或尚未可用或开发的其它合适的译码标准。因此,虽然本文中描述的技术和系统可以参考特定视频译码标准描述,但是所属领域的技术人员将了解描述不应解释为仅应用于特定标准。
参考图1,视频源102可将视频数据提供到编码装置104。视频源102可以是源装置的一部分,或者除源装置之外的装置的一部分。视频源102可包含视频捕获装置(例如,视频相机、相机电话、视频电话,等等)、含有所存储的视频的视频存档、提供视频数据的视频服务器或内容提供商、从视频服务器或内容提供商接收视频的视频馈送接口、用于生成计算机图形视频数据的计算机图形系统、此类来源的组合,或任何其它合适的视频源。
来自视频源102的视频数据可以包含一或多个输入图片。视频的图片或帧是场景的静态图像。视频数据的图片或帧可包含映射或投影到几何形状(例如,TSP、立方体或其它合适的几何形状)的平面上的360度视频数据。编码装置104的编码器引擎106(或编码器)对视频数据进行编码以生成经编码视频位流。在一些实例中,经编码视频位流(或“视频位流”或“位流”)是一系列一或多个经译码视频序列。经译码视频序列(CVS)包含一系列存取单元(AU),从具有基础层中的随机存取点图片且具有某些性质的AU开始,直到具有基础层中的随机存取点图片且具有某些性质的下一AU且不包含所述下一AU。举例来说,开始CVS的随机存取点图片的某些性质可以包含等于1的RASL旗标(例如,NoRaslOutputFlag)。否则,随机存取点图片(具有等于0的RASL旗标)不开始CVS。存取单元(AU)包含一或多个经译码图片以及对应于分享同一输出时间的经译码图片的控制信息。图片的经译码切片在位流层级中囊封到被称作网络抽象层(NAL)单元的数据单元中。举例来说,HEVC视频位流可以包含一或多个包含NAL单元的CVS。NAL单元中的每一个具有NAL单元标头。在一个实例中,标头对于H.264/AVC是一个字节(多层扩展除外)且对于HEVC是两个字节。NAL单元标头中的语法元素采用指定位并且因此对所有种类的系统和输送层可见,例如,输送流、实时输送(RTP)协议、文件格式等等。
在HEVC标准中存在两类NAL单元,包含视频译码层(VCL)NAL单元和非VCL NAL单元。VCL NAL单元包含经译码图片数据的一个切片或切片段(下文描述),且非VCL NAL单元包含与一或多个经译码图片有关的控制信息。在一些情况下,NAL单元可被称作包。HEVC AU包含含有经译码图片数据的VCL NAL单元以及对应于经译码图片数据的非VCL NAL单元(如果存在)。
NAL单元可以含有形成视频数据的经译码表示的位序列(例如,经编码视频位流、位流的CVS或类似物),例如视频中的图片的经译码表示。编码器引擎106通过将每一图片分割成多个切片来生成图片的经译码表示。切片不依赖于其它切片,以使得所述切片中的信息得到译码而无需依赖于来自同一图片内的其它切片的数据。切片包含一或多个切片段,包含独立的切片段,并且如果存在的话,包含取决于先前切片段的一或多个依赖性切片段。切片随后被分割成亮度样本和色度样本的译码树块(CTB)。亮度样本的CTB和色度样本的一或多个CTB连同样本的语法一起被称作译码树单元(CTU)。CTU是用于HEVC编码的基本处理单元。CTU可以被分裂成不同大小的多个译码单元(CU)。CU含有被称作译码块(CB)的亮度和色度样本阵列。
明度和色度CB可进一步分裂成预测块(PB)。PB是对于帧间预测或块内复制预测(当可供使用或经启用以供使用时)使用相同运动参数的亮度分量或色度分量的样本的块。亮度PB和一或多个色度PB连同相关联的语法形成预测单元(PU)。对于帧间预测,运动参数的集合(例如,一或多个运动向量、参考索引,等等)在位流中用信号发送以用于每一PU并且用于亮度PB和一或多个色度PB的帧间预测。运动参数也可以被称作运动信息。CB也可以被分割成一或多个变换块(TB)。TB表示色彩分量的样本的正方形块,在TB上应用相同二维变换以用于对预测残差信号进行译码。变换单元(TU)表示亮度和色度样本的TB以及对应的语法元素。
CU的大小对应于译码模式的大小,并且形状可为正方形。举例来说,CU的大小可以是8×8个样本、16×16个样本、32×32个样本、64×64个样本,或高达对应的CTU的大小的任何其它适当大小。短语“N×N”在本文中用于指就竖直和水平尺寸而言的视频块的像素尺寸(例如,8像素×8像素)。块中的像素可按行和列布置。在一些实例中,块可在水平方向上不具有与在竖直方向上相同数量的像素。举例来说,与CU相关联的语法数据可描述CU分割成一或多个PU。分割模式可在CU经帧内预测模式编码或是经帧间预测模式编码之间有所不同。PU可分割成非正方形形状。举例来说,与CU相关联的语法数据还可描述CU根据CTU分割成一或多个TU。TU可以是正方形或非正方形形状。
根据HEVC标准,可使用变换单元(TU)执行变换。TU可以针对不同CU发生变化。TU可以基于给定CU内的PU的大小而设定大小。TU可与PU大小相同或小于PU。在一些实例中,对应于CU的残差样本可使用被称为残差四叉树(RQT)的四叉树结构细分成更小单元。RQT的叶节点可以对应于TU。可以对与TU相关联的像素差值进行变换以产生变换系数。随后可通过编码器引擎106对变换系数进行量化。
一旦视频数据的图片被分割成CU,则编码器引擎106使用预测模式预测每一PU。随后从原始视频数据减去预测单元或预测块以获得残差(下文描述)。对于每一CU,可以在位流内部使用语法数据用信号发送预测模式。预测模式可以包含帧内预测(或图片内预测)或帧间预测(或图片间预测)。帧内预测使用图片内的空间相邻样本之间的相关性。举例来说,使用帧内预测,每一PU是从同一图片中的相邻图像数据中预测的,方法是使用例如DC预测(或其它合适的预测)以寻找PU的平均值、使用平面预测以将平面表面适配到PU、使用方向预测以从相邻数据中进行推断,或者使用任何其它合适类型的预测。帧间预测使用图片之间的时间相关以便导出用于图像样本的块的运动补偿预测。举例来说,使用帧间预测,每一PU是使用来自一或多个参考图片中的图像数据的运动补偿预测进行预测的(按输出次序在当前图片之前或之后)。举例来说,可以在CU层级作出是使用图片间还是图片内预测对图片区域进行译码的决策。
在一些实例中,对图片的一或多个切片分配切片类型。切片类型包含I切片、P切片和B切片。I切片(帧内,可独立解码)是图片的仅通过帧内预测译码且因此可独立地解码的切片,因为I切片仅需要图片内的数据来预测切片的任何预测单元或预测块。P切片(单向预测图片)是图片的可以通过帧内预测和单向帧间预测译码的切片。在P切片内的每一预测单元或预测块是通过帧内预测或帧间预测来译码的。当应用帧间预测时,预测单元或预测块仅通过一个参考图片来预测,并且因此参考样本仅来自一个图片的一个参考区。B切片(双向预测性图片)是图片的可通过帧内预测且通过帧间预测(例如,双向预测或单向预测)译码的。B切片的预测单元或预测块可以是来自两个参考图片的双向预测,其中每一图片贡献一个参考区并且两个参考区的样本集合经加权(例如,具有相等权重或具有不同权重)以产生双向预测块的预测信号。如上文所解释,一个图片的切片独立地经译码。在一些状况下,图片可经译码为仅一个切片。
PU可包含关于预测过程的数据(例如,运动参数或其它合适的数据)。举例来说,当使用帧内预测对PU进行编码时,PU可包含描述用于PU的帧内预测模式的数据。作为另一实例,当PU使用帧间预测编码时,PU可以包含界定PU的运动向量的数据。举例来说,界定PU的运动向量的数据可描述运动向量的水平分量(Δx)、运动向量的竖直分量(Δy)、运动向量的分辨率(例如,整数精度、四分之一像素精度或八分之一像素精度)、运动向量所指向的参考图片、参考索引、运动向量的参考图片列表(例如,列表0、列表1或列表C),或其任何组合。
编码装置104接着可执行变换和量化。举例来说,在预测之后,编码器引擎106可以计算对应于PU的残差值。残差值可包含正在经译码的像素的当前块(PU)与用以预测当前块的预测块(例如,当前块的预测版本)之间的像素差值。举例来说,在生成预测块(例如,使用帧间预测或帧内预测)之后,编码器引擎106可通过从当前块减去由预测单元产生的预测块而产生残差块。残差块包含对当前块的像素值与预测块的像素值之间的差进行量化的像素差值的集合。在一些实例中,残差块可以用二维块格式(例如,像素值的二维矩阵或阵列)表示。在此类实例中,残差块是像素值的二维表示。
在执行预测之后可能剩余的任何残差数据是使用块变换进行变换的,所述块变换可基于离散余弦变换、离散正弦变换、整数变换、小波变换、其它合适的变换函数,或其任何组合。在一些情况下,一或多个块变换(例如,大小32×32、16×16、8×8、4×4,或其它合适的大小)可以被应用到每一CU中的残差数据。在一些实施例中,TU可用于由编码器引擎106实施的变换和量化过程。给定的具有一或多个PU的CU还可包含一或多个TU。如下文中进一步详细描述,可使用块变换将残差值变换成变换系数,且接着可使用TU对其进行量化和扫描以产生用于熵译码的串行化变换系数。
在一些实施例中,在使用CU的PU的帧内预测性或帧间预测性译码之后,编码器引擎106可以计算针对CU的TU的残差数据。PU可包含空间域(或像素域)中的像素数据。TU可包含在块变换的应用之后的变换域中的系数。如前文所述,残差数据可以对应于在未经编码图片的像素与对应于PU的预测值之间的像素差值。编码器引擎106可以形成包含CU的残差数据的TU,并且可接着变换TU以产生用于CU的变换系数。
编码器引擎106可以执行变换系数的量化。量化通过对变换系数进行量化以减少用于表示系数的数据的量来提供进一步压缩。举例来说,量化可以减小与系数中的一些或全部相关联的位深度。在一个实例中,可在量化期间将n位值向下舍入到m位值,其中n大于m。
一旦执行量化,则经译码视频位流包含经量化变换系数、预测信息(例如,预测模式、运动向量、块向量,等等)、分割信息,以及任何其它合适的数据,例如,其它语法数据。经译码视频位流的不同元素可接着由编码器引擎106进行熵编码。在一些实例中,编码器引擎106可利用预定义扫描次序来扫描经量化变换系数以产生可经熵编码的串行化向量。在一些实例中,编码器引擎106可以执行自适应扫描。在扫描经量化变换系数以形成向量(例如,一维向量)之后,编码器引擎106可以对向量进行熵编码。举例来说,编码器引擎106可以使用上下文适应性可变长度译码、上下文自适应二进制算术译码、基于语法上下文自适应二进制算术译码的、概率区间分割熵译码或另一合适的熵编码技术。
如先前描述,HEVC位流包含一组NAL单元,包含VCL NAL单元和非VCL NAL单元。VCLNAL单元包含形成经译码视频位流的经译码图片数据。举例来说,形成经译码视频位流的位序列存在于VCL NAL单元中。除其它信息之外,非VCL NAL单元可以包含具有涉及经编码视频位流的高层级信息的参数集。举例来说,参数集可包含视频参数集(VPS)、序列参数集(SPS)和图片参数集(PPS)。参数集的目标的实例包含位速率效率、错误复原以及提供系统层接口。每一切片可参考单个作用的PPS、SPS和VPS以存取解码装置112可用于对切片进行解码的信息。标识符(ID)可以经译码用于每一参数集,包含VPS ID、SPS ID和PPS ID。SPS包含SPS ID和VPS ID。PPS包含PPS ID和SPS ID。每一切片标头包含PPS ID。使用ID,可标识针对给定切片的作用的参数集。
PPS包含应用于给定图片中的全部切片的信息。因为这一点,图片中的全部切片参考同一PPS。不同图片中的切片也可以参考同一PPS。SPS包含适用于同一经译码视频序列(CVS)或位流中的所有图片的信息。如先前描述,经译码视频序列是一系列存取单元(AU),其开始于基础层中的随机存取点图片(例如,瞬时解码参考(IDR)图片或断链存取(BLA)图片,或其它适当的随机存取点图片)且具有特定性质(上文所描述的),直到具有基础层中的随机存取点图片且具有特定性质(或位流的末尾)的下一AU且不包含所述下一AU。SPS中的信息并不会在经译码视频序列内在图片之间发生改变。经译码视频序列中的图片可以使用同一SPS。VPS包含应用于经译码视频序列或位流中的所有层的信息。VPS包含具有应用于整个经译码视频序列的语法元素的语法结构。在一些实施例中,VPS、SPS或PPS可以与经编码位流一起带内发射。在一些实施例中,VPS、SPS或PPS与含有经译码视频数据的NAL单元相比可以在单独发射中带外发射。
视频位流还可包含补充增强信息(SEI)消息。举例来说,SEI NAL单元可以是视频位流的一部分。在一些情况下,SEI消息可以含有解码过程所不需要的信息。举例来说,SEI消息中的信息可能并不是解码器对位流的视频图片进行解码所必需的,但是解码器可以使用所述信息来改进图片的显示或处理(例如,经解码输出)。SEI消息中的信息可以是嵌入元数据。在一个说明性实例中,SEI消息中的信息可由解码器侧实体使用以改进内容的可查看性。在一些情况下,某些应用标准可授权位流中此类SEI消息的存在,使得可对符合应用标准的所有装置进行质量改进(例如,用于帧兼容的平面立体3DTV视频格式的帧打包SEI消息的携载,其中携载SEI消息以用于视频的每一图片、恢复点SEI消息的处理、DVB中全景扫描矩形SEI消息的使用,以及许多其它实例)。
编码装置104的输出110可以将构成经编码视频位流数据的NAL单元经由通信链路120发送到接收装置的解码装置112。解码装置112的输入114可以接收NAL单元。通信链路120可以包含由无线网络、有线网络或有线和无线网络的组合提供的信道。无线网络可以包含任何无线接口或无线接口的组合并且可以包含任何合适的无线网络(例如,因特网或其它广域网、基于数据包的网络、WiFiTM、射频(RF)、UWB、WiFi-Direct、蜂窝、长期演进(LTE)、WiMaxTM等等)。有线网络可以包含任何有线接口(例如,纤维、以太网、电力线以太网、同轴电缆上的以太网、数字信号线(DSL)等等)。有线和/或无线网络可以使用各种设备实施,所述设备例如基站、路由器、存取点、桥接器、网关、开关等等。经编码视频位流数据可以根据例如无线通信协议等通信标准来调制,且发射到接收装置。
在一些实例中,编码装置104可以在存储装置108中存储经编码视频位流数据。输出110可检索来自编码器引擎106或来自存储装置108的经编码视频位流数据。存储装置108可包含多种分布式或本地存取的数据存储媒体中的任一个。举例来说,存储装置108可以包含硬盘驱动器、存储盘、快闪存储器、易失性或非易失性存储器或用于存储经编码视频数据的任何其它合适的数字存储媒体。
解码装置112的输入114接收经编码视频位流数据,且可将视频位流数据提供到解码器引擎116或提供到存储装置118以用于由解码器引擎116稍后使用。解码器引擎116可通过对组成经编码视频数据的一或多个经译码视频序列的元素进行熵解码(例如,使用熵解码器)和提取来对经编码视频位流数据进行解码。解码器引擎116可接着重新按比例缩放并且对经编码视频位流数据执行逆变换。接着将残差数据传递到解码器引擎116的预测级。解码器引擎116接着预测像素块(例如,PU)。在一些实例中,将预测添加到逆变换的输出(残差数据)。
解码装置112可将经解码视频输出到视频目的地装置122,所述视频目的地装置可以包含显示器或其它输出装置以用于将经解码视频数据显示给内容的消费者。在一些方面中,视频目的地装置122可以是包含解码装置112的接收装置的部分。在一些方面中,视频目的地装置122可以是除接收装置外的单独装置的部分。
在一些实施例中,视频编码装置104和/或视频解码装置112可以相应地与音频编码装置和音频解码装置集成。视频编码装置104和/或视频解码装置112也可包含实施上文所描述的译码技术所必需的其它硬件或软件,例如,一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合。视频编码装置104和视频解码装置112可以集成为相应的装置中的组合编码器/解码器(编解码器)的一部分。下文参考图10描述编码装置104的特定细节的实例。下文参考图11描述解码装置112的特定细节的实例。
对HEVC标准的扩展包含称为MV-HEVC的多视图视频译码扩展以及称为SHVC的可缩放视频译码扩展。MV-HEVC和SHVC扩展共享分层译码的概念,分层译码具有包含在经编码视频位流中的不同层。经译码视频序列中的每一层通过唯一层标识符(ID)寻址。层ID可以存在于NAL单元的标头中以识别NAL单元与之相关联的层。在MV-HEVC中,不同层可表示视频位流中的同一场景的不同视图。在SHVC中,提供表示不同空间分辨率(或图象分辨率)或不同重构保真度的视频位流的不同可缩放层。可缩放层可以包含基础层(具有层ID=0)和一或多个增强层(具有层ID=1、2……n)。基础层可以符合HEVC的第一版本的简档,并且表示在位流中的最低可供使用的层。与基础层相比,增强层具有增加的空间分辨率、时间分辨率或帧速率和/或重构保真度(或质量)。增强层是阶层式组织的并且可(或可不)依赖于较低层。在一些实例中,不同层可以使用单个标准编解码器译码(例如,全部层使用HEVC、SHVC或其它译码标准进行编码)。在一些实例中,可使用多标准编解码器对不同层进行译码。举例来说,基础层可以使用AVC进行译码,而一或多个增强层可以使用HEVC标准的SHVC和/或MV-HEVC扩展进行译码。
一般来说,层包含VCL NAL单元的集合和对应的非VCL NAL单元的集合。NAL单元被分配特定层ID值。在层可依赖于较低层的意义上,层可为阶层式的。层集合是指在位流内表示的自含式的层集合,意指层集合内的层可能在解码过程中依赖于层集合中的其它层,但并不依赖于任何其它层来进行解码。因此,层集合中的层可形成可表示视频内容的独立位流。可通过子位流提取过程的操作从另一位流获得层集合中的层的集合。层集合可对应于在解码器希望根据某些参数进行操作时将被解码的层的集合。
在一些实施方案中,用于捕获360度视频的相机组可包含全向相机、反射折射相机(使用透镜和弯曲镜面的相机)、装备有鱼眼镜头的相机,和/或其它合适的相机。全向相机的一个实例为Ricoh Theta-STM,其使用在相对方向中聚焦的两个鱼眼镜头。图2A和图2B说明使用鱼眼镜头来捕获宽视场的全向相机所捕获的视频图片的实例。在图2A的实例中,视频图片200包含圆形鱼眼图像。鱼眼镜头能够捕获极宽角度,例如280度或更大。因此,装备有背对背定位的两个鱼眼镜头的相机可捕获一起提供360度视图(或更大)的两个图像。非广角鱼眼镜头捕获近似约45到约90度的视场。视场可作为替代或另外以弧度表达。
为了捕获广角,鱼眼镜头使场景的图像失真。如图2A中所说明,视频图片200中捕获的场景为圆形形状,且从此圆形区的中心向外缘扭曲。因为相机传感器为矩形,所以视频图片200为矩形且图像包含(此处使用点画法说明)并非场景的一部分的区域。这些区中的像素被视为不可用的,因为这些像素不是场景的一部分。
图2B的实例包含视频图片202,所述视频图片包含全帧鱼眼图像。在此类型的视频图片202中,还已在圆形区中捕获广角视场,其中场景向圆形区中扭曲。在此实例中,图像已经缩放(例如,放大),因此场景填充矩形图片的边缘。此实例视频图片202不包含不可用的区域,且可由镜头捕获的场景的一些部分已经裁剪掉或未捕获。
如上文所描述,其它类型的相机也可用于捕获360度视频。举例来说,相机组可包含一组多个相机(例如,5个、6个、7个,或捕获场景的足够数量的视图所需的其它数目的相机)。每一相机可在不同方向中定向且捕获场景的不同视图。可接着对由相机组中的相机中的每一个捕获的视频图片执行图像拼接以提供无缝360度视图。
360度视频数据本质上为球形的,且可重新映射成其它几何形状或格式。这些其它几何形状可用以存储、编码、发射、解码、显现和/或查看360度视频。一个实例几何形状是使用等矩形投影(ERP)的等矩形几何形状。图3说明基于两个鱼眼图像302A、302B的等矩形视频图片300的实例。在此实例等矩形视频图片300中,来自两个鱼眼图像302A、302B的可用像素(例如,圆形区中的像素)已经映射成等矩形几何形状。在此实例中,每一鱼眼图像302A、302B包含180度或更大视场,使得两个鱼眼图像302A、302B一起涵盖360度视场(可能具有一些重叠)。
从鱼眼图像302A、302B映射像素具有以下效果:展开在鱼眼图像302A、302B中所捕获的场景,以及朝向视频图片300的边缘拉伸像素。所得等矩形图像可能在视频图片300的顶部和底部处出现拉伸,使得视频图片300具有非均匀失真。熟知等矩形投影是墨卡托投影,其中以正交经纬线所呈现地球的地形。
在各种实施方案中,鱼眼图像302A、302B可映射到其它几何形状,例如映射到由立方体、圆柱、金字塔、截顶正方形金字塔(TSP)或某一其它几何形状形成的面上。在这些情况中的每一个中,在使用鱼眼镜头的状况下,鱼眼图像302A、302B中存在的失真可被校正,且可消除不可用的像素。
图4A和图4B说明360度视频呈现中使用的360度视频图片400的实例。360度视频图片400可映射到球形空间上以形成球形表示410(也被称作球面),其表示360度场景或环境。所得球形表示410的区430(例如,对应于查看者420的视场(FOV))可使用360度显示装置显示给查看者420,所述360度显示装置例如头戴式显示器(HMD)或非HMD显示器(例如,TV、移动装置、可穿戴式装置,或其它合适的360度视频显示装置)。举例来说,当360度视频在360度视频显示装置上回放时,可显现视口460以供显示给用户。视口460可以是360度视频图片400的与球面相切的平面(例如,所述平面在区430中的某一点处与所述球面相交)上的区(例如,矩形区,或其它合适的形状),其中视口460的平面正交于用户的查看方向。在一个说明性实例中,可通过应用投影技术将来自球形表示410上的区430的视频数据映射到360度视频图片400的对应于视口460的平面上来生成视口。投影技术的实例包含直线投影(例如,如JVET-D1030中所论述)、立体平画投影、圆柱形投影,或其它合适的投影技术。在一些实例中,球面上的对应于视口的区可包含由四个大圆的四个段围封的区(即,球面和平面的交叉点穿过球面的中心点)。
在各种实例中,所捕获的360度视频图片可(使用不同投影技术)映射到等矩形几何形状、TSP几何形状、立方体几何形状、圆柱形几何形状、金字塔几何形状,或任何其它合适的几何形状,用于译码、发射和/或存储。在一些情况下,所述几何形状可使用帧打包结构打包到2D视频图片中。几何形状可接着映射到球形空间且由360度视频显示装置使用以显示视频。一旦360度视频图片400已映射到球形表示410,球形表示410的对应于查看者的FOV(例如,视口460)的部分就可通过显现视口460来显示。查看者420使用360度视频显示装置可从球形表示内查看球形表示410的所述部分。在许多情况下,查看者420经定位使得从查看者的视角的“地面”是球形表示的最底部点。在某些情况下,球形表示410的赤道定位于查看者的视平线处。在各种实施方案中,球形表示410可扩展或收缩以适合查看者420的高度和/或位置(例如,如果查看者420正坐着、站立,或在某一其它位置中)。
存在经投影360度视频数据的压缩效率的问题。举例来说,如上文所描述,360度视频实质上是球形的,且可在被从发射装置(例如,编码装置)发射和/或提供到360度视频显示装置之前投影到二维格式(等矩形形状或另一几何形状的一或多个平面)上。然而,360度视频的投影方案导致跨图片的非均匀失真。在一个说明性实例中,具有等矩形投影(ERP)的360度视频的图片产生图片,所述图片的极区域具有比图片的赤道(中间)区域更高的失真。在此些情况下,由于用以选择合适的译码模式的速率失真优化(RDO)分析,编码器可能在极区域中消耗更多位。用于极区域的更多位使得在极区域中的视口的质量高于在赤道区域中的视口的质量。
如上文所提及,本文中描述用于确定用于对360度视频进行译码的一或多个自适应参数的一或多个系统和方法。一或多个自适应参数考虑当将360度视频的三维(例如,球形)视频数据投影成二维格式(例如,等矩形几何形状、几何形状的一或多个平面等等)时引入的非均匀失真。举例来说,360度视频的投影方案的非均匀失真特性可经利用以通过确定与不同区中的失真成比例的一或多个自适应参数并将其应用到360度视频的图片内的不同区来改进360度视频的压缩效率。
一或多个自适应参数可用以选择用于对图片的一或多个样本进行译码的译码模式。举例来说,使用一或多个自适应参数,可确定与使用一或多个译码模式对图片的一或多个样本进行译码相关联的成本。成本可包含速率失真成本或用于评估不同译码模式当中的权衡的其它合适的度量。一或多个样本可包含像素、像素块、一行块,或其它合适的数目的图片样本。使用像素块作为实例,可确定与对块执行每一可能的译码模式(例如,一或多个帧间预测模式和/或一或多个帧内预测模式)相关联的成本,且与最低成本相关联的译码模式可选择为将针对块执行的译码模式。
可确定一或多个样本的权重,且所述权重可用以确定一或多个样本的一或多个自适应参数。举例来说,一或多个自适应参数可包含自适应加权失真、自适应加权量化参数(QP)值和/或自适应加权拉姆达值。一或多个样本的一或多个自适应参数(例如,自适应加权失真、自适应加权QP值和/或自适应加权拉姆达值)可接着用以确定与使用一或多个译码模式对一或多个样本进行译码相关联的成本。
在一些情况下,可基于一或多个样本在图片中的位置(例如,高度或其它合适的位置)确定一或多个样本的权重,因此根据一或多个样本位于图片中的位置(例如,在极区中或附近,在赤道区中或附近等等)来考虑图片中的非均匀失真。在一些情况下,权重的确定可基于用以投影一或多个样本的二维格式(例如,等矩形几何形状或其它合适的几何形状)的分辨率。在一些情况下,基于一或多个样本的位置(例如,高度或其它合适的位置)且基于二维格式的分辨率来确定权重。在一些情况下,可确定一或多个样本的归一化权重。举例来说,可通过考虑图片的位置和图片的样本的总权重来归一化一或多个样本的权重(基于位置和/或分辨率)。此归一化可增大图片中一些样本的权重且可减小图片中其它样本的权重。
如上文所提及,自适应参数可包含自适应加权失真、自适应量化参数(QP)和自适应拉姆达值中的一或多个。自适应译码参数可用以对360度视频数据进行编码。可独立地或组合地应用三个自适应参数(例如,失真、QP和/或拉姆达)的自适应方法。对于编码,译码决策由通用速率失真(RD)成本函数引导,所述函数针对对视频数据进行编码所需的数据量来优化失真量。使用此优化能够实现用以对图片的样本、块或一组块进行编码的数个位与通过使用所述数个位产生的所得失真之间的权衡。
RD成本函数的实例如下:成本=D+λR,其中项D表示失真,项λ表示拉姆达值(失真与位之间的所要权衡),且项R表示位的量(有时被称为速率)。失真D指示视频质量的损耗且可测得为原始样本(例如,像素)或块与在进行解码之后的经重构样本或块之间的偏差(或错误)。失真D可通过依赖于数学距离、通过考虑感知机构或使用任何其它合适的技术来测得。感知度量与查看者的感知体验十分相关,但由于对涉及人类视觉系统的各个生理组分进行建模的复杂度,因此可能难以定义。基于数学距离的客观质量量度更容易计算且提供主观质量与使用速率之间的质量权衡。用于确定源样本或块与经重构样本或块之间的失真D的基于距离的客观质量度量的说明性实例包含均方差(MSE)、峰值信噪比(PSNR)、绝对差总和(SAD),平方差总和(SSE),经阿达马变换的SAD(SATD),以及其它合适的技术。举例来说,SSE×标示如下:∑i,j(SA(i,j)-SB(i,j))2。作为另一实例,SAD标示如下:∑i,j|SA(i,j)-SB(i,j)|。项SA(i,j)和SB(i,j)分别标示块A和B(两者具有相同大小)中的第(i,j)个样本。
位的量R可取决于预测的准确度。举例来说,残差是原始块值与预测性块值之间的差。残差通过变换(例如,块变换)处理且接着经量化,如本文中所描述,从而得到具有某一数目个位的经量化变换值。残差值越大,表示差异所需的位就更多。
通过将位成本乘以拉姆达项λ(被称作拉格朗日或拉格朗日乘数、常量或参数)来测得位的量R,其为表示针对特定质量等级的位成本与质量之间的关系的非负值。拉姆达项λ可以是图片中的所有样本和/或块的常量。改变拉姆达项λ的值能够实现速率减小与失真增大之间的权衡。举例来说,在拉姆达项λ值为0的情况下失真降至最低,而拉姆达项λ的较大值对应于速率最小化。拉姆达项λ与量化步长大小Q之间的关系已建立为:λ=c*Q2。可以通过量化参数(QP)控制量化步长大小Q。举例来说,QP指示在量化期间图片的量化步长大小,且控制在量化之后从捕获的图像保留多少空间细节。随着QP值变小(步长越小),保留的细节越多,从而得到更好的视频质量和更高的图片大小。随着QP增大(步长越大),聚集的细节越多,使得位率下降,从而导致质量损耗且更小的图片大小。在一些情况下,量化步长大小Q与2(QP-12)/6成比例,且比例的常量c取决于译码模式决策。
可独立地且以四个阶段对样本的每一块(例如,对每一CU)执行成本函数的最小化:(1)译码模式决策(帧内预测与帧间预测);(2)帧内预测模式估计;(3)运动估计;以及(4)量化。举例来说,对于每一块,执行成本函数的预计算(与译码参数的每一组合相关联),其中块的最佳RD成本是最小化RD成本函数的组合。
使用用于对360度视频进行译码的本文中所描述的技术来更新上文标示的通用成本函数。举例来说,通过引入权重w来更新成本函数,所述权重可基于计算经重构图片的质量时360度视频图片(或帧)中像素的确定的重要性(或权重)来获得。一般来说,权重w的值表示(在解码之后)计算经重构图片的质量时360度图片中的权重(像素的重要性)。本文中所描述的方法使用基于加权球形峰值信噪比(WS-PSNR)的w值。举例来说,在使用等矩形投影(ERP)投影360度视频时,每一像素位置的w值是基于W(i,j),其定义如下:
其中j标示像素位置的高度(范围从0到图片高度)且a表示等矩形几何形状的分辨率(或格式),其定义为2a*a。高度j可从图片的底部,从图片的中心,或从图片中的任何其它点算起。虽然高度在本文中用作图片中的像素位置的实例,但是其它合适的位置标识也可用以表示图片中像素的位置。在一些情况下,可确定多于一个样本(像素),例如样本(像素)的块和/或一行样本(像素)块的权重。举例来说,如果确定像素块的权重,那么左上方样本的位置、中间样本的位置、底部样本的位置或块中其它合适的样本的位置可用作块的j高度位置。在确定一行块或一行样本的权重的情况下,行中的每一样本和/或块将具有相同j高度位置。举例来说,如果确定一行块的权重,那么每一块中的左上方样本位置(或其它合适的位置)将用作j位置。
上文的权重等式(1)基于像素的高度确定样本(例如,像素)的权重。当计算像素块(例如,具有8像素×8像素大小的像素块)的权重时,可确定块中的像素中的所有或一些的权重值。在一个说明性实例中,可确定块中的每一像素行的一个权重值(例如,8×8块的八个权重值)。举例来说,如果块位于图片的左上角处且具有8×8大小,那么从行0到行7的每一像素行将具有权重值,从而导致块的总权重值为八。在一些情况下,可确定每一块的一个权重值。连续上文使用具有八个权重值(一个权重值用于块中的每一行像素)的8×8块的实例,八个权重值可被变换为单个权重值。在一个说明性实例中,可以平均八个权重值。可执行类似技术以确定一行块的一或多个权重值。
使用上文等式(1)中的公式,每一像素(或样本的每一块,或块或样本的每一行)高度位置的w值在0与1之间。图5是说明加权球形峰值信号-噪声比(WS-PSNR)权重的实例的曲线图500。图5中的曲线图500说明以分辨率3328×1664译码的360度视频图片的每一像素高度的权重w值。通过基于图片中像素的高度(j)确定权重,考虑每一位置处的失真。如图5中所展示,图片的极区中的像素(或块、块行或像素行)具有比赤道区更低的权重。极区是图片的具有较低和较高高度的区。举例来说,具有高度1的像素和具有高度1663的像素具有最低权重(例如,权重值更接近0,例如0.01,或在一些情况下甚至更低),其是具有高失真量的像素。图片中间中的像素(具有大致832像素的高度)具有最高权重1,所述像素是具有最少失真量的像素。如下文更详细地描述,像素(或块、块行或像素行)的权重可用以修改像素(块或行)的成本确定。
在一些情况下,归一化过程可应用到WS-PSNR权重公式(在等式(1)中)以考虑360度视频的分辨率。对于等矩形投影,归一化w值可计算如下:
假设权重总和是归一化权重被定义为:
通过使用,上述等式(2)中的公式每一像素高度位置的w'值在0与1.570795之间的范围内。图6是说明归一化WS-PSNR权重的实例的曲线图600。图6中的曲线图600说明以分辨率3328×1664译码的360度视频图片的每一像素高度的归一化w'值。如所展示,赤道区中像素的归一化权重w'可增大(相比于图5中的WS-PSNR权重),但极区中像素的归一化权重w'保持为低。举例来说,图片中间中具有最少失真量的像素(具有大致832像素的高度)具有归一化权重w'值1.570795,而极区中的像素具有更接近0的归一化权重w'值。
权重w或归一化权重w'可接着用以确定图片(例如,像素、像素块、一行块或一行像素)的样本的自适应参数。举例来说,如上文所提及,权重w和归一化权重w'表示计算经重构图片的质量时360度图片中的像素中的一或多个中的每一个的重要性(权重),且因此可用以对影响通用成本函数的某些参数缩放或加权。举例来说,权重w或归一化权重w'可对通用成本函数中的失真D进行缩放。使用此公式,基于自适应加权失真的360度视频的成本函数可定义如下:
成本'=wD+λR (3)
当使用归一化权重w'时权重w项可替换为w'。通过相比于极区具有更高的赤道区权重(例如,如图5中的曲线图500和图6中的曲线图600中所展示),可均衡化图片中从赤道区域到极区域的非均匀失真。举例来说,使用图5中所展示的权重作为实例,赤道区域中间中的权重(在832的像素高度j处)将处于或接近于1值,在此情况下,那些区域中的失真不可被修改(例如,1*D=D)。当像素位置越来越接近极区域时,权重w将变小,因此减轻那些像素的较高失真对成本计算的影响。这使得RD优化决策对赤道区和极区之间的失真差异不太敏感,从而允许RD优化决策受到图片中所有样本的均匀影响。
加权失真还可以减少将用于对样本、块或一行块进行译码的位数。举例来说,如上文所提及,当减小极区域的失真(由于较低权重值)时,使RD优化(RDO)决策对失真差异不太敏感。减轻极区中的失真的影响可使编解码器选择不同译码模式,所述译码模式使用比在未对失真加权时使用的译码模式更少的位。举例来说,有35种可能的帧内模式可以被测试以确定用于当前块的帧内模式。在一个说明性实例中,RDO分析可确定针对帧内模式0的999失真(D)和25位数(R),且可确定针对帧内模式1的500失真(D)和30位数(R)。帧内模式0与帧内模式1之间的成本比较将由模式0的高失真支配。举例来说,假设固定拉姆达值为1且不使用任何加权失真,帧内模式0的成本将为1,024(成本=999(失真D)+25位(R)=1,025),且帧内模式1的成本将为530(成本=500(失真D)+30位(R)=530)。即使考虑到与帧内模式0相比执行帧内模式1的较高位成本,RDO分析也将在这种情况下选择帧内模式1。在此情形中,编解码器将使用30位代替25位。
希望不对图片的极区域使用这么多位,因为这些区域更难译码(由于从3D格式投影到2D格式的360度视频图片的极区域中的更高失真,如上文所描述)。用以生成自适应加权失真的权重w将有助于减少极区域中所用位数,因为极区域中的样本、块、块行的权重w值比赤道区域的权重w值小得多,因此降低极区域中较高失真(D)值的重要性。返回使用来自上文的帧内模型0和帧内模式1的实例,但是使用自适应加权失真,可以针对图片的极区中的块确定权重值w为0.01。在此实例中,帧内模式0的成本将为34.99(成本=0.01*999+25位(R)=34.99),且帧内模式1的成本将为35(成本=0.01*500+30位(R)=35)。在此实例中,RDO分析将选择帧内模式0,其使用比帧内模式1更少的位。在一些实例中,可使用四舍五入技术舍入成本。在一个说明性实例中,地面操作可用于将任何十进制值四舍五入为零,在此情况下34.99成本值将四舍五入为值34。
对于基于块的编码方案,可每像素、每块或每块行(例如,在等矩形投影的情况下)计算自适应加权失真。举例来说,可确定每一块或每一块行的自适应加权失真。如本文中关于自适应参数确定所使用,术语块可以指AVC译码方案的宏块(MB)或其它块、译码单元(CU)、译码树单元(CTU),或用于HEVC译码方案的其它块,和其它译码方案中的任何等效块概念。
在一些实例中,权重w或归一化权重w'可对通用成本函数中的拉姆达项λ进行缩放,所述λ可称为自适应拉姆达,λ'(也被称作自适应加权拉姆达)。可通过利用权重w对拉姆达项λ进行缩放来从图片拉姆达λ导出自适应拉姆达λ',如下所示:
使用自适应拉姆达λ',基于自适应拉姆达λ'的360度视频的成本函数可定义如下:
当使用归一化权重w'时权重w项可替换为w'。如可从等式(5)看出,权重w的值越高,拉姆达项λ的值就越低。极区域(如图5和图6中所展示)中的较小权重w值使极区域的拉姆达λ值变大。随着拉姆达变大,这些区域中将消耗更少位,且影响是R将变小。举例来说,如上文所描述,拉姆达项λ的大值对应于速率最小化。译码中较大拉姆达值的影响是随着拉姆达值变大,编解码器将分配更少的位。举例来说,随着拉姆达值增大,编解码器将应用更高QP值,其对应于更高量化步长值。当QP更高时,将利用更高QP对残差进行量化(对应于较粗量化),从而导致对块进行译码所需的位较少。对具有较高失真的极区域使用较低权重值将最小化通常为这些区域分配的较高位分配。如上文所描述,因为极区域比赤道区具有更多的失真,所以编解码器为这些区域分配更多位,因为它们往往更难以译码。举例来说,在具有更高失真的区域中(例如,更弯曲线),预测将更不准确,从而导致更高残差。需要大量的位来表示更大的残差值。对极区域使用较低权重值会增大拉姆达值,从而增加QP值并降低分配给这些区域的位数。由于这些区域难以译码,因此用于极区域的这种位的降低是有益的。
在一些情况下,可使用自适应加权失真和自适应加权拉姆达λ'两者,在此情况下成本函数变为:
对于基于块的编码的方案,可每块或块行(例如,在等矩形投影的情况下)计算和更新自适应拉姆达λ'。举例来说,可确定每一块或每一块行的自适应拉姆达λ'。
在一些实例中,权重w或归一化权重w'可用以更新QP值,其可称为自适应量化参数且标示为QP'(也被称作自适应加权QP')。举例来说,当权重w引入到用于360度视频的成本函数中时,也可相应地更新量化值(QP值)。自适应加权量化(QP')值可计算为:
QP'=QP-3*log2(w) (7)
其中QP'标示自适应加权量化参数且QP标示原始量化参数。当使用归一化权重w'时权重w项可替换为w'。
如上文所指示,可基于样本、块或块行在图片中的位置来确定样本(像素)、块或块行的自适应QP'。举例来说,极区域中的样本、块或块行的自适应QP'较粗(更高QP且因此更高量化步长),但赤道区域中样本、块或块行的QP'值较低。在一个说明性实例中,由于1的以2为底的对数等于0,因此当w=1时自适应QP'等于原始QP。在当使用归一化权重时的情况下,w可等于大于1的值,在此情况下赤道区中或附近的样本、块或块行的自适应QP'值可小于原始QP值。在一个说明性实例中,假定原始QP值为30且权重值为1.58(例如,对于图片中间中的块),权重的以2为底的对数将为约0.6599且自适应QP'值将等于大致28.02(QP’=30-(3*0.6599)=28.02)。
类似于自适应拉姆达λ',极区域(如图5和图6中所展示)中的较小权重w值使极区域的自适应加权QP'值变大。举例来说,介于0与1之间的数的以2为底的对数(log2)生成负值,其中w的较小值得到较高的以2为底的对数结果。在一个说明性实例中,针对0.1的权重值w(例如,针对图片的极区域),假设QP值为30,以2为底的对数值为大致-3.322,其导致自适应QP'值为大致39.966(QP’=30-(3*-3.322)=39.966)。随着极区域中的自适应QP'值变大(由于较低的权重),这些区域中消耗的位将减少,且影响是R变小。举例来说,编解码器将应用较高QP值,其对应于较高量化步长值。当QP更高时,将利用更高QP对残差进行量化(对应于较粗量化),从而导致对块进行译码所需的位较少。对具有较高失真的极区域使用较低权重值将最小化通常为这些区域分配的较高位分配。举例来说,编解码器向极区域分配更多位,其失真高于赤道区,因为它们往往更难译码。举例来说,在具有较高失真的极区域中,预测通常较不准确,从而导致较高的残差并且需要较大数量的位来表示较高的残差。对极区域使用较低权重值会增大QP值,且因此减少分配给这些区域的位数。由于这些区域难以译码,因此用于极区域的这种位的降低是有益的。
在一些情况下,当使用权重确定自适应QP'时RD成本计算可能不需要修改。举例来说,在一些情况下,可利用标准成本等式(成本=D+λR)来确定对当前像素或块使用的译码模式。在此些情况下,将(基于权重)修改给定样本、块或块行的QP,其将影响成本计算,因为基于所得QP'值来改变位数(R)(例如,较高QP'值导致使用较少位)。在一些实例中,自适应QP'可与自适应加权失真和/或自适应拉姆达λ'组合使用,在此情况下可利用来自上文的修改后的RD成本等式(3)、(5)或(6)中的一个。
图7是说明基于WS-PSNR权重的4K视频序列的量化参数(QP)偏移的实例的曲线图700。图8是是说明基于归一化WS-PSNR权重的4K视频序列的QP偏移的实例的曲线图800。通过使用上述等式(7)中的公式,在曲线图700和800中展示以分辨率3328×1664译码的360度视频的每一像素高度和CTU块的QP偏移(QP'-QP)(或△QP)。举例来说,图7中的曲线图700展示基于WS-PSNR权重的QP偏移,且图8中的曲线图800展示基于归一化WS-PSNR权重的QP偏移。
从图7中的曲线图700可以看出,如果使用非归一化权重w,那么图片的中间区中的QP偏移将为零,这意指原始QP用于这些区。当样本或块更接近曲线图的侧(对应于极区)时,QP偏移将变高,这指示QP'高于极中或附近的区的原始QP。举例来说,假定原始或基准QP为30,赤道区中的像素或块(例如,像素高度大致在505像素与1135像素之间)将使用基准QP值30,这是因为偏移等于0。当像素或块在赤道范围外(例如,像素高度低于505且高于1135)时,偏移将变大。举例来说,对于具有190高度(j值)的像素,偏移为5,在此情况下QP'将具有值35(QP+偏移=QP’)。
从图8中的曲线图800可以看出,如果使用归一化权重w',那么图片的中间区中的QP偏移将小于零,这意指QP'值小于这些区的原始QP。因此使用归一化权重w'通过重新分配编码器的行为以对这些区使用较多位且对图片的极中或附近的区使用较少位来提高赤道区中样本和/或块的质量。这可有效地获取从极区域分配的位且将这些位重新分配到赤道区域。此解决方案可增加整体PSNR(当计算经译码图片的质量时)。
对于基于块的编码的方案,可每块或块行(例如,在等矩形投影的情况下)计算和更新自适应加权QP'。举例来说,可确定每一块或每一块行的自适应QP'。
在AVC和HEVC中,在位流中用信号发送QP值和其增量。在一些情况下,在自适应QP使用的情况下,不必明确地用信号发送由于权重改变而导致的QP改变,因为它们可从图片中的块位置和权重图中导出。权重图可包含图片中每一像素位置的权重。为了支持此特征,用以指示已利用加权失真QP对经编码位流进行编码的信令可以补充增强信息(SEI)消息或任何其它合适的格式包含在参数集中(例如,在视频参数集(VPS)、序列参数集(SPS)、图片参数集合(PPS)等等)中。信令可包含语法元素、语法变量、语法结构、标志和/或任何其它合适的信令机制。在接收位流并确定(基于信令)通过使用自适应QP对位流进行编码后,解码器可或应相应地计算更新的一或多个QP。
图9是说明用于使用本文中所描述的技术处理360度视频数据的程序900的实例的流程图。在框902处,过程900包含获得360度视频数据的图片。所述图片包含从三维(3D)格式投影成二维(2D)格式的样本。在一些实例中,2D格式是等矩形几何形状。举例来说,可使用等矩形投影技术将360度视频图片(或帧或图像)的像素投影成等矩形几何形状,如本文中所描述。在其它实例中,2D格式是360度视频数据可投影成的另一格式。360度视频数据可投影成的其它格式包含截顶正方形金字塔(TSP)、立方体、柱体、十二面体和/或其它合适的几何形状的平面或面。
在框904处,过程900包含确定图片的至少一个样本的权重值。至少基于所述至少一个样本在所述图片中的位置来确定所述权重值。在一个说明性实例中,可使用上文的等式(1)确定权重值。举例来说,位置可包含图片中至少一个样本的高度(例如,上文的等式(1)中所使用的高度j)。在一些实例中,权重值是进一步基于二维格式的分辨率(例如,上文的等式(1)中所使用的a)而确定。
在一些实例中,权重值包含归一化权重值。在此类实例中,过程900包含确定图片的至少一个样本的归一化权重值。可基于图片中的样本的权重的总和且基于图片的高度来确定归一化权重值。在一个说明性实例中,可使用上文的等式(2)确定归一化权重值。
在一些实例中,至少一个样本是像素。在一些情况下,可确定多于一个样本(例如,像素),例如像素块和/或一行像素块的权重。在一些实例中,至少一个样本是像素块,例如宏块、译码树单元(CTU)、译码单元或译码块、预测单元或预测块,或其它合适的像素块。举例来说,如果确定像素块的权重,那么左上方样本的位置、中间样本的位置、底部样本的位置或块中其它合适的样本的位置可用作图片中块位置(例如,j高度位置)。在一些实例中,至少一个样本是一行像素块。举例来说,行可包含图片的行中的所有块,或少于图片的行中的所有块。如果确定一行块的权重,那么行中的每一块在图片中可具有相同位置(例如,j高度位置)。举例来说,如果确定一行块的权重,那么每一块中的左上方样本位置(或其它合适的位置)将用作j高度位置。
在框906处,过程900包含使用所确定的权重值来确定至少一个样本的至少一个自适应参数。在一些情况下,当权重值包含归一化权重值时,使用所确定的归一化权重值来确定至少一个样本的至少一个自适应参数。至少一个自适应参数可包含自适应加权失真、自适应加权量化参数(QP)值、自适应加权拉姆达值,或其任何组合。
在框908处,过程900包含确定与使用一或多个译码模式对至少一个样本进行译码相关联的成本。使用针对所述至少一个样本确定的所述至少一个自适应参数来确定所述成本。举例来说,在一些实例中,至少一个自适应参数包含自适应加权失真。自适应加权失真可包含乘以所确定的权重值的至少一个样本的失真。至少一个样本的失真可包含至少一个样本的原始值与至少一个样本的经重构值之间的差。在一个说明性实例中,可使用上文的等式(3)使用自适应加权失真确定成本。
在一些实例中,至少一个自适应参数包含自适应加权拉姆达值。自适应加权拉姆达值包含由所确定的权重值修改的至少一个样本的拉姆达值。所述至少一个样本的所述拉姆达值可包含表示失真与数个位之间的权衡的拉格朗日常量。在一个说明性实例中,可使用上文的等式(4)确定自适应加权拉姆达值(上文标示为λ')。在一个说明性实例中,可使用上文的等式(5)使用加权拉姆达来确定成本。
在一些情况下,至少一个自适应参数包含自适应加权失真和自适应加权拉姆达值。在一个说明性实例中,可使用上文的等式(6)使用自适应加权失真和自适应加权拉姆达来确定成本。
在一些实例中,至少一个自适应参数包含自适应加权QP值。自适应加权QP值包含由所确定的权重值修改的至少一个样本的QP值。在一个说明性实例中,可使用上文的等式(7)确定自适应加权QP值(上文标示为QP')。在各种实例中,可使用上文提到成本等式中的任一个使用自适应加权QP值来确定成本。举例来说,当在无其它自适应参数的情况下使用自适应加权QP值时,可使用成本函数成本=D+λR。当使用自适应加权失真和/或自适应加权拉姆达中的一或多个时,可使用等式(3)、(5)或(6)中的其它成本函数中的任一个。在一些情况下,至少一个自适应参数包含自适应加权失真和自适应加权QP值。在一个说明性实例中,当使用自适应加权QP值和自适应加权失真两者时可使用成本等式(3)来确定成本。在一些情况下,至少一个自适应参数包含自适应加权拉姆达值和自适应加权QP值。在一个说明性实例中,当使用自适应加权QP值和自适应加权拉姆达两者时可使用成本等式(5)来确定成本。
在一些实例中,至少一个自适应参数包含自适应加权失真、自适应加权拉姆达值和自适应加权QP值。在一个说明性实例中,当使用自适应加权QP值自适应加权失真和自适应加权拉姆达时可使用成本等式(6)来确定成本。
在一些实例中,成本是速率失真优化(RDO)成本。举例来说,过程900可包含基于使用自适应参数确定的成本来确定用于对至少一个样本进行编码的译码模式。RDO成本可视为相对于不考虑任何权重值的传统RDO成本的修改后的RDO成本(成本=D+λR)。在此类实例中,过程900可包含使用所确定的译码模式对至少一个样本进行编码。
在一些实例中,过程900可由计算装置或例如编码装置104、解码装置112或任何其它计算装置的设备执行。在一些情况下,计算装置或设备可包含处理器、微处理器、微计算机或经配置以执行程序900的步骤的装置的其它组件。在一些实例中,计算装置或设备可包含经配置以捕获包含视频图片的视频数据(例如,视频序列)的相机。举例来说,计算装置可包含相机装置,其可或可不包含视频编解码器。相机可经配置以捕获360度视频,例如球形视频图片。在一些实例中,计算装置可包含具有可捕获360度视频的相机的移动装置(例如,例如数码相机、IP相机等相机装置、包含相机的移动电话或平板计算机,或其它类型的装置)。在某些情况下,计算装置可包含用于显示图像的显示器。在一些实例中,相机或捕获视频数据的其它捕获装置与计算装置分开,在此情况下计算装置接收所捕获的视频数据。计算装置可进一步包含经配置以传送视频数据的网络接口。网络接口可经配置以传送基于因特网协议(IP)的数据或其它网络数据。
过程900经说明为逻辑流程图,其操作表示可以硬件、计算机指令或其组合实施的操作的序列。在计算机指令的上下文下,操作表示存储在一或多个计算机可读存储媒体上的计算机可执行指令,这些计算机可执行指令在由一或多个处理器执行时执行所叙述的操作。一般来说,计算机可执行指令包含例程、程序、对象、组件、数据结构以及执行特定功能或实施特定数据类型等等。描述操作的顺序并不意图解释为限制,且任何数目的所描述操作可以任何次序组合和/或并行以实施所述过程。
另外,过程900可以在配置有可执行指令的一或多个计算机系统的控制下执行且可以实施为在一或多个处理器上通过硬件或其组合共同地执行的代码(例如,可执行指令、一或多个计算机程序或一或多个应用程序)。如上文所提及,代码可以例如计算机程序的形式存储在计算机可读或机器可读存储媒体上,所述计算机程序包含可由一或多个处理器执行的指令。计算机可读或机器可读存储媒体可为非暂时性的。
由相机(例如,鱼眼相机或其它合适的一或多个相机)捕获的视频数据可经译码以减少发射和存储所需的数据量。在一些实例中,系统包含源装置,其提供在稍后时间将由目的地装置解码的经编码视频数据。确切地说,源装置通过计算机可读媒体将视频数据提供到目的地装置。源装置和目的地装置可包含广泛范围的装置中的任一者,包含桌上型计算机、笔记本(即,膝上型)计算机、平板计算机、机顶盒、例如所谓的“智能”电话的电话手机、所谓的“智能”垫、电视、相机、显示装置、数字媒体播放器、视频游戏控制台、视频流式处理装置等等。在一些情况下,源装置和目的地装置可经装备以用于无线通信。
目的地装置可经由计算机可读媒体接收将被解码的经编码视频数据。计算机可读媒体可包含能够将经编码视频数据从源装置移动到目的地装置的任何类型的媒体或装置。在一个实例中,计算机可读媒体可包含使源装置能够将经编码视频数据实时地直接发射到目的地装置的通信媒体。经编码视频数据可根据通信标准,例如无线通信协议加以调制,并发射到目的地装置。通信媒体可包含任何无线或有线通信媒体,例如射频(RF)频谱或一或多个物理发射线。通信媒体可形成基于包的网络的部分,所述基于包的网络例如局域网、广域网或全球网络,例如因特网。通信媒体可包含路由器、交换机、基站或可用于促进从源装置到目的地装置的通信的任何其它设备。
在一些实例中,经编码数据可从输出接口输出到存储装置。类似地,可以通过输入接口从存储装置存取经编码数据。存储装置可包含多种分布式或本地存取式数据存储媒体中的任一者,例如硬盘驱动器、蓝光光盘、DVD、CD-ROM、快闪存储器、易失性或非易失性存储器或用于存储经编码视频数据的任何其它合适的数字存储媒体。在另一实例中,存储装置可对应于文件服务器或可存储由源装置生成的经编码视频的另一中间存储装置。目的地装置可经由流式处理或下载从存储装置中存取所存储的视频数据。文件服务器可以是能够存储经编码视频数据并且将经编码视频数据发射到目的地装置的任何类型的服务器。实例文件服务器包含网页服务器(例如,用于网站)、FTP服务器、网络附接存储(NAS)装置或本端磁盘驱动器。目的地装置可通过包含因特网连接的任何标准数据连接来存取经编码的视频数据。此可包含适合于存取存储于文件服务器上的经编码视频数据的无线信道(例如,Wi-Fi连接)、有线连接(例如,DSL、电缆调制解调器等)或两者的组合。经编码视频数据从存储装置的发射可为流式处理发射、下载发射或其组合。
本公开的技术不必限于无线应用或设定。所述技术可应用于支持多种多媒体应用中的任一者的视频译码,所述多媒体应用例如空中电视广播、有线电视发射、卫星电视发射、因特网流式处理视频发射(例如,HTTP动态自适应流式处理(DASH))、被编码到数据存储媒体上的数字视频、存储在数据存储媒体上的数字视频的解码,或其它应用。在一些实例中,系统可经配置以支持单向或双向视频发射,以支持例如视频流式处理、视频回放、视频广播和/或视频电话的应用。
在一个实例中,源装置包含视频源、视频编码器和输出接口。目的地装置可包含输入接口、视频解码器和显示装置。源装置的视频编码器可经配置以应用本文所公开的技术。在其它实例中,源装置和目的地装置可包含其它组件或布置。举例来说,源装置可从例如外部相机的外部视频源接收视频数据。同样地,目的地装置可以与外部显示装置介接,并不包含集成显示装置。
以上实例系统仅为一个实例。用于并行处理视频数据的技术可由任何数字视频编码和/或解码装置来执行。虽然本公开的技术通常由视频编码装置执行,但是所述技术也可由通常被称作“编解码器”的视频编码器/解码器执行。此外,本公开的技术还可通过视频预处理器执行。源装置和目的地装置仅为此类译码装置的实例,其中源装置生成用于发射到目的地装置的经译码视频数据。在一些实例中,源装置和目的地装置可以基本上对称的方式操作,使得装置中的每一个包含视频编码和解码组件。因此,实例系统可支持视频装置之间的单向或双向视频发射,例如,用于视频流式处理、视频回放、视频广播或视频电话。
视频源可包含视频俘获装置,例如视频相机、含有先前所捕获的视频的视频存档和/或用于从视频内容提供者接收视频的视频馈入接口。作为另一个实例,视频源可以生成基于计算机图形的数据作为源视频,或实况视频、存档视频与计算机生成的视频的组合。在一些情况下,如果视频源是视频相机,那么源装置和目的地装置可形成所谓的能够使用无线应用进行通信的相机电话或视频电话。然而,如上文所提及,本公开中描述的技术一般可适用于视频译码,且可应用于无线和/或有线应用。在每一情况下,可由视频编码器编码所捕获、预先捕获或计算机生成的视频。经编码视频信息可接着由输出接口输出到计算机可读媒体上。
如所提到,计算机可读媒体可包含暂时性媒体,例如,无线广播或有线网络发射,或存储媒体(即,非暂时性存储媒体),例如,硬盘、快闪驱动器、压缩光盘、数字视频光盘、蓝光光盘或其它计算机可读媒体。在一些实例中,网络服务器(未展示)可从源装置接收经编码视频数据,并且例如经由网络发射将经编码视频数据提供到目的地装置。类似地,例如光盘冲压设施的媒体生产设施的计算装置可从源装置接收经编码视频数据并产生含有经编码视频数据的光盘。因此,在各种实例中,计算机可读媒体可以理解为各种形式的一或多个计算机可读媒体。
目的地装置的输入接口从计算机可读媒体接收信息。计算机可读媒体的信息可包含由视频编码器定义的语法信息,其也由视频解码器使用,且包含描述块和其它经译码单元(例如图片群组(GOP))的特性和/或处理的语法元素。显示装置将经解码视频数据显示给用户,且可以是多种显示装置中的任一个,所述显示装置例如阴极射线管(CRT)、液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器或另一类型的显示装置。已经描述本申请的各种实施例。
在图10和图11中分别展示编码装置104和解码装置112的特定细节。图10是说明可实施本公开中描述的技术中的一或多个的实例编码装置104的框图。举例来说,编码装置104可以生成本文中所描述的语法结构(例如,VPS、SPS、PPS的语法结构,或其它语法元素)。编码装置104可以在视频切片内执行视频块的帧内预测和帧间预测译码。如先前描述,帧内译码至少部分依赖于空间预测来减少或去除给定视频图片内的空间冗余。帧间译码至少部分依赖于时间预测来减少或去除视频序列的邻近或周围图片内的时间冗余。帧内模式(I模式)可以指若干基于空间压缩模式中的任一者。例如单向预测(P模式)或双向预测(B模式)的帧间模式可指若干基于时间的压缩模式中的任一者。
编码装置104包含分割单元35、预测处理单元41、滤波器单元63、图片存储器64、求和器50、变换处理单元52、量化单元54以及熵编码单元56。预测处理单元41包含运动估计单元42、运动补偿单元44和帧内预测处理单元46。对于视频块重构,编码装置104还包含逆量化单元58、逆变换处理单元60和求和器62。滤波器单元63意图表示一或多个环路滤波器,例如,解块滤波器、自适应环路滤波器(ALF)和样本自适应偏移(SAO)滤波器。尽管在图10中将滤波器单元63展示为环路内滤波器,但在其它配置中,可将滤波器单元63实施为环路后滤波器。后处理装置57可对由编码装置104生成的经编码视频数据执行额外处理。本公开的技术在一些情况下可由编码装置104实施。然而,在其它情况下,本公开的技术中的一或多个可由后处理装置57实施。
如图10中所展示,编码装置104接收视频数据,且分割单元35将所述数据分割成视频块。所述分割还可包含分割成切片、切片段、图块或其它较大单元,以及例如根据LCU和CU的四叉树结构的视频块分割。编码装置104总体上说明对将被编码的视频切片内的视频块进行编码的组件。所述切片可以划分成多个视频块(且可能划分成被称作图块的视频块集合)。预测处理单元41可基于错误结果(例如,译码速率和失真水平等等)为当前视频块选择多个可能的译码模式中的一个,例如多个帧内预测译码模式中的一个或多个帧间预测译码模式中的一个。预测处理单元41可将所得经帧内或帧间译码块提供到求和器50以生成残差块数据,且提供到求和器62以重构经编码块以用作参考图片。
预测处理单元41内的帧内预测处理单元46可相对于与将被译码的当前块在同一图片或切片中的一或多个相邻块执行当前视频块的帧内预测译码,以便提供空间压缩。预测处理单元41内的运动估计单元42和运动补偿单元44相对于一或多个参考图片中的一或多个预测性块执行当前视频块的帧间预测译码,以提供时间压缩。
运动估计单元42可经配置以根据用于视频序列的预定模式来确定用于视频切片的帧间预测模式。预定模式可将序列中的视频切片指定为P切片、B切片或GPB切片。运动估计单元42与运动补偿单元44可高度集成,但出于概念目的而分别加以说明。由运动估计单元42执行的运动估计是生成运动向量的过程,所述过程估计视频块的运动。运动向量例如可指示当前视频图片内的视频块的预测单元(PU)相对于参考图片内的预测性块的位移。
预测性块为被发现在像素差方面与将被译码的视频块的PU密切匹配的块,像素差可通过绝对差总和(SAD)、平方差总和(SSD)或其它差度量值来确定。在一些实例中,编码装置104可计算存储在图片存储器64中的参考图片的子整数像素位置的值。举例来说,编码装置104可内插四分之一像素位置、八分之一像素位置或参考图片的其它分数像素位置的值。因此,运动估计单元42可相对于全像素位置和分数像素位置执行运动搜索并且输出具有分数像素精度的运动向量。
运动估计单元42通过比较经帧间译码切片中的视频块的PU的位置与参考图片的预测性块的位置来计算PU的运动向量。参考图片可以选自第一参考图片列表(列表0)或第二参考图片列表(列表1),其中的每一个识别存储在图片存储器64中的一或多个参考图片。运动估计单元42向熵编码单元56和运动补偿单元44发送计算出的运动向量。
通过运动补偿单元44执行的运动补偿可以涉及基于通过运动估计(可能执行对子像素精度的内插)确定的运动向量提取或生成预测性块。在接收到当前视频块的PU的运动向量后,运动补偿单元44可以在参考图片列表中定位所述运动向量指向的预测性块。编码装置104通过从正被译码的当前视频块的像素值减去预测性块的像素值从而形成像素差值来形成残差视频块。像素差值形成用于所述块的残差数据,且可包含明度和色度差分量两者。求和器50表示执行此减法运算的一或多个组件。运动补偿单元44还可生成与视频块和视频切片相关联的语法元素以供解码装置112在对视频切片的视频块进行解码时使用。
作为如上文所描述的由运动估计单元42和运动补偿单元44执行的帧间预测的替代方案,帧内预测处理单元46可对当前块进行帧内预测。确切地说,帧内预测处理单元46可确定用以对当前块进行编码的帧内预测模式。在一些实例中,帧内预测处理单元46可以例如在单独的编码编次期间使用各种帧内预测模式对当前块进行编码,并且帧内预测处理单元46可以从经测试模式中选择适当帧内预测模式来使用。举例来说,帧内预测处理单元46可使用速率失真分析计算各种经测试帧内预测模式的速率失真值,并且在经测试模式当中选择具有最佳速率失真特性的帧内预测模式。速率失真分析大体上确定经编码块与经编码以产生所述经编码块的原始的未经编码块之间的失真(或误差)的量,以及用于产生经编码块的位率(也就是说,位数)。帧内预测处理单元46可以从用于各种经编码块的失真和速率计算比率,以确定哪种帧内预测模式对于所述块来说展现最佳速率失真值。
在任何情况下,在选择用于块的帧内预测模式后,帧内预测处理单元46可将指示用于块的所选帧内预测模式的信息提供到熵编码单元56。熵编码单元56可对指示所选帧内预测模式的信息进行编码。编码装置104可以在所发射的位流中包含用于各种块的编码上下文的配置数据定义以及最可能帧内预测模式的指示、帧内预测模式索引表和经修改帧内预测模式索引表以供每种上下文使用。位流配置数据可包含帧内预测模式索引表和经修改帧内预测模式索引表(也被称作码字映射表)。
在预测处理单元41经由帧间预测或帧内预测生成当前视频块的预测性块之后,编码装置104通过从当前视频块减去预测性块来形成残差视频块。残差块中的残差视频数据可包含于一或多个TU中,并可应用到变换处理单元52。变换处理单元52使用变换(例如,离散余弦变换(DCT)或在概念上类似的变换)来将残差视频数据变换成残差变换系数。变换处理单元52可将残差视频数据从像素域转换到变换域,例如,频域。
变换处理单元52可将所得变换系数发送到量化单元54。量化单元54对变换系数进行量化以进一步降低位率。量化过程可减少与系数中的一些或全部相关联的位深度。可通过调节量化参数来修改量化程度。在一些实例中,量化单元54可接着执行对包含经量化变换系数的矩阵的扫描。替代地,熵编码单元56可执行所述扫描。
在量化之后,熵编码单元56对经量化变换系数进行熵编码。举例来说,熵编码单元56可执行上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵编码技术。在熵编码单元56进行的熵编码之后,可将经编码位流发射到解码装置112,或将经编码位流存档以供稍后发射或由解码装置112检索。熵编码单元56还可对正被译码当前视频切片的运动向量和其它语法元素进行熵编码。
逆量化单元58和逆变换处理单元60分别应用逆量化和逆变换以在像素域中重构残差块,以供稍后用作参考图片的参考块。运动补偿单元44可通过将残差块添加到参考图片列表内的参考图片中的一个的预测性块来计算参考块。运动补偿单元44还可将一或多个内插滤波器应用于经重构残差块以计算用于运动估计的子整数像素值。求和器62将经重构残差块添加到由运动补偿单元44产生的经运动补偿的预测块,以产生参考块以用于存储于图片存储器64中。参考块可由运动估计单元42和运动补偿单元44用作参考块以对后续视频图片中的块进行帧间预测。
以此方式,图10的编码装置104表示经配置以确定用于视频译码的自适应参数的视频编码器的实例,如上文所描述。举例来说,编码装置104可以执行本文中所描述的技术中的任一个,包含上文相对于图9所描述的过程。在一些情况下,本公开的技术中的一些也可以通过后处理装置57实施。
图11是说明实例解码装置112的框图。解码装置112包含熵解码单元80、预测处理单元81、逆量化单元86、逆变换处理单元88、求和器90、滤波器单元91和图片存储器92。预测处理单元81包含运动补偿单元82和帧内预测处理单元84。在一些实例中,解码装置112可执行与相对于来自图10的编码装置104所描述的编码遍次大体上互逆的解码遍次。
在解码过程期间,解码装置112接收表示经编码视频切片的视频块和由编码装置104发送的相关联语法元素的经编码视频位流。在一些实施例中,解码装置112可以从编码装置104接收经编码视频位流。在一些实施例中,解码装置112可以从网络实体79接收经编码视频位流,该网络实体例如,服务器、媒体感知网络元件(MANE)、视频编辑器/剪接器或经配置以实施上文所述的技术中的一或多个的其它此类装置。网络实体79可包含或可不包含编码装置104。本公开中描述的技术的一些可以在网络实体79将经编码视频位流发射到解码装置112之前由网络实体79实施。在一些视频解码系统中,网络实体79和解码装置112可为单独的装置的部分,而在其它情况下,关于网络实体79描述的功能性可由包含解码装置112的同一装置执行。
解码装置112的熵解码单元80对位流进行熵解码以生成经量化系数、运动向量和其它语法元素。熵解码单元80将运动向量和其它语法元素转发到预测处理单元81。解码装置112可接收视频切片层级和/或视频块层级的语法元素。熵解码单元80可以处理和解析在例如VPS、SPS和PPS中的一或多个参数集中的固定长度语法元素和可变长度语法元素这两者。
当视频切片被译码为经帧内译码(I)切片时,预测处理单元81的帧内预测处理单元84可基于用信号发出的帧内预测模式和来自当前帧或图片的先前经解码块的数据生成用于当前视频切片的视频块的预测数据。当视频帧经译码为经帧间译码(即,B、P或GPB)切片时,预测处理单元81的运动补偿单元82基于从熵解码单元80接收的运动向量和其它语法元素产生当前视频切片的视频块的预测性块。所述预测性块可从参考图片列表内的参考图片中的一个产生。解码装置112可基于存储在图片存储器92中的参考图片使用默认建构技术构建参考帧列表,即,列表0和列表1。
运动补偿单元82通过解析运动向量和其它语法元素确定用于当前视频切片的视频块的预测信息,并且使用所述预测信息产生用于正被解码的当前视频块的预测性块。举例来说,运动补偿单元82可使用参数集中的一或多个语法元素来确定用于对视频切片的视频块进行译码的预测模式(例如,帧内预测或帧间预测)、帧间预测切片类型(例如,B切片、P切片或GPB切片)、用于切片的一或多个参考图片列表的建构信息、切片的每一经帧间编码视频块的运动向量、切片的每一经帧间译码视频块的帧间预测状态和用于对当前视频切片中的视频块进行解码的其它信息。
运动补偿单元82还可基于内插滤波器而执行内插。运动补偿单元82可使用如由编码装置104在视频块的编码期间所使用的内插滤波器来计算参考块的子整数像素的内插值。在此情况下,运动补偿单元82可从所接收的语法元素确定编码装置104所使用的内插滤波器,且可使用所述内插滤波器来产生预测性块。
逆量化单元86对在位流中提供且通过熵解码单元80解码的经量化变换系数进行逆量化,或解量化。逆量化过程可以包含将通过编码装置104计算出的量化参数用于视频切片中的每一视频块以确定量化的程度,并且同样确定应该应用的逆量化的程度。逆变换处理单元88将逆变换(例如,逆DCT或其它合适的逆变换)、逆整数变换或概念上类似的逆变换过程应用到所述变换系数,以便产生像素域中的残差块。
在运动补偿单元82基于运动向量和其它语法元素生成用于当前视频块的预测性块之后,解码装置112通过将来自逆变换处理单元88的残差块与由运动补偿单元82生成的对应预测性块求和来形成经解码视频块。求和器90表示执行此求和运算的一或多个组件。需要时,还可使用环路滤波器(在译码环路中或在译码环路之后)来使像素转变平滑或者以其它方式改进视频质量。滤波器单元91意图表示一或多个环路滤波器,例如,解块滤波器、自适应环路滤波器(ALF)和样本自适应偏移(SAO)滤波器。尽管在图11中将滤波器单元91展示为环路内滤波器,但在其它配置中,可将滤波器单元91实施为环路后滤波器。给定图片中的经解码视频块接着存储于图片存储器92中,图片存储器92存储用于后续运动补偿的参考图片。图片存储器92还存储经解码视频以供稍后在显示装置(例如,图1中所示的视频目的地装置122)上呈现。
以此方式,图11的解码装置112表示经配置以确定自适应参数的视频解码器的实例,如上文所描述。举例来说,在一些情况下,解码装置112可执行本文中所描述的技术中的任一个,包含上文关于图9所描述的过程。
在前述描述中,参考其具体实施例描述应用的方面,但是所属领域的技术人员将认识到本申请不限于此。因此,虽然已经在本文中详细地描述了应用的说明性实施例,但是应理解本发明概念可以其它方式不同地实施和采用,并且除了现有技术所限制的之外,所附权利要求书意图解释为包含此类变化。上文所描述的主题的各种特征和方面可以单独或联合地使用。另外,实施例可以在本文中描述的那些环境和应用之外的任何数量的环境和应用中使用而不脱离本说明书的广泛的精神和范围。因此,应将本说明书和图式视为说明性的而非限制性的。出于说明的目的,方法是以特定次序描述的。应了解,在替代实施例中,方法可以与所描述的次序不同的次序执行。
在组件被描述为“经配置以”执行特定操作的情况下,可例如通过设计电子电路或其它硬件以执行所述操作、通过编程可编程电子电路(例如,微处理器或其它适合电子电路)以执行所述操作或其任何组合来实现此类配置。
结合本文中所公开的实施例描述的各种说明性逻辑块、模块、电路和算法步骤可实施为电子硬件、计算机软件、固件或其组合。为了清楚地说明硬件与软件的这个互换性,上文已大体上关于其功能性而描述了各种说明性组件、块、模块、电路和步骤。此类功能性是实施为硬件还是软件取决于特定应用和施加于整个系统的设计约束。所属领域的技术人员可针对每一特定应用以不同方式来实施所描述的功能性,但这样的实施决策不应被解释为会引起脱离本申请的范围。
本文中描述的技术也可以在电子硬件、计算机软件、固件或其任何组合中实施。此类技术可实施于多种装置中的任一个中,例如通用计算机、无线通信装置手机或集成电路装置,其具有包含在无线通信装置手机及其它装置中的应用的多种用途。被描述为模块或组件的任何特征可一起实施于集成逻辑装置中或分开来实施为离散但可互操作的逻辑装置。如果实施于软件中,那么技术可至少部分地通过计算机可读数据存储媒体实现,所述计算机可读数据存储媒体包含程序代码,所述程序代码包含指令,所述指令在被执行时执行上文所描述的方法中的一或多个。计算机可读数据存储媒体可形成计算机程序产品的一部分,所述计算机程序产品可包含包装材料。计算机可读媒体可包含存储器或数据存储媒体,例如,随机存取存储器(RAM)(例如,同步动态随机存取存储器(SDRAM))、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦除可编程只读存储器(EEPROM)、快闪存储器、磁性或光学数据存储媒体,等等。另外或替代地,所述技术可至少部分地由计算机可读通信媒体来实现,所述计算机可读通信媒体以指令或数据结构的形式携载或传达程序代码且可由计算机存取、读取和/或执行(例如,传播的信号或波)。
程序代码可由处理器执行,所述处理器可包含一或多个处理器,例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路系统。此处理器可经配置以执行本公开中所描述的技术中的任一个。通用处理器可为微处理器,但在替代方案中,处理器可为任何常规的处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如DSP和微处理器的组合、多个微处理器、与DSP核心结合的一或多个微处理器,或任何其它此类配置。因此,如本文中所使用的术语“处理器”可指前述结构中的任一个、上述结构的任何组合,或适合于实施本文中所描述的技术的任何其它结构或设备。另外,在一些方面中,可将本文中所描述的功能性提供于经配置以用于编码和解码的专用软件模块或硬件模块内或并入组合的视频编码器-解码器(CODEC)中。
Claims (30)
1.一种处理360度视频数据的方法,其包括:
获得所述360度视频数据的图片,其中所述图片包括从三维格式投影成二维格式的样本;
确定所述图片的至少一个样本的权重值,其中至少基于所述至少一个样本在所述图片中的位置来确定所述权重值;
使用所述所确定的权重值确定所述至少一个样本的至少一个自适应参数,所述至少一个自适应参数包括自适应加权失真、自适应加权量化参数QP值或自适应加权拉姆达值中的一或多个;以及
确定与使用一或多个译码模式对所述至少一个样本进行译码相关联的成本,其中使用针对所述至少一个样本确定的所述至少一个自适应参数来确定所述成本。
2.根据权利要求1所述的方法,其进一步包括:
确定用于对所述至少一个样本进行编码的译码模式,所述译码模式是基于所确定的成本而确定;以及
使用所述所确定的译码模式对所述至少一个样本进行编码。
3.根据权利要求1所述的方法,其中所述至少一个自适应参数包括所述自适应加权失真,所述自适应加权失真包括乘以所述所确定的权重值的所述至少一个样本的失真。
4.根据权利要求3所述的方法,其中所述至少一个样本的所述失真包括所述至少一个样本的原始值与所述至少一个样本的经重构值之间的差。
5.根据权利要求1所述的方法,其中所述至少一个自适应参数包括所述自适应加权QP值,所述自适应加权QP值包括由所述所确定的权重值修改的所述至少一个样本的QP值。
6.根据权利要求1所述的方法,其中所述至少一个自适应参数包括所述自适应加权拉姆达值,所述自适应加权拉姆达值包括由所述所确定的权重值修改的所述至少一个样本的拉姆达值,其中所述至少一个样本的所述拉姆达值包括表示失真与数个位之间的权衡的拉格朗日常量。
7.根据权利要求1所述的方法,其中所述至少一个自适应参数包括所述自适应加权失真和所述自适应加权QP值,所述自适应加权失真包括乘以所述所确定的权重值的所述至少一个样本的失真,且所述自适应加权QP值包括由所述所确定的权重值修改的所述至少一个样本的QP值。
8.根据权利要求1所述的方法,其中所述至少一个自适应参数包括所述自适应加权失真和所述自适应加权拉姆达值,所述自适应加权失真包括乘以所述所确定的权重值的所述至少一个样本的失真,且所述自适应加权拉姆达值包括由所述所确定的权重值修改的所述至少一个样本的拉姆达值。
9.根据权利要求1所述的方法,其进一步包括:
确定所述图片的所述至少一个样本的归一化权重值,其中基于所述图片中的所述样本的权重的总和且基于所述图片的高度来确定所述归一化权重值;
其中使用所确定的归一化权重值来确定所述至少一个样本的所述至少一个自适应参数。
10.根据权利要求1所述的方法,其中所述权重值是进一步基于所述二维格式的分辨率而确定。
11.根据权利要求1所述的方法,其中所述至少一个样本包括像素、像素块或一行像素块。
12.根据权利要求1所述的方法,其中所述二维格式包括等矩形几何形状。
13.根据权利要求1所述的方法,其中所述成本包括速率失真优化成本。
14.一种用于处理360度视频数据的设备,其包括:
存储器,其经配置以存储所述360度视频数据;以及
处理器,其经配置以:
获得所述360度视频数据的图片,其中所述图片包括从三维格式投影成二维格式的样本;
确定所述图片的至少一个样本的权重值,其中至少基于所述至少一个样本在所述图片中的位置来确定所述权重值;
使用所述所确定的权重值确定所述至少一个样本的至少一个自适应参数,所述至少一个自适应参数包括自适应加权失真、自适应加权量化参数QP值或自适应加权拉姆达值中的一或多个;以及
确定与使用一或多个译码模式对所述至少一个样本进行译码相关联的成本,其中使用针对所述至少一个样本确定的所述至少一个自适应参数来确定所述成本。
15.根据权利要求14所述的设备,其中所述处理器经进一步配置以:
确定用于对所述至少一个样本进行编码的译码模式,所述译码模式是基于所确定的成本而确定;以及
使用所述所确定的译码模式对所述至少一个样本进行编码。
16.根据权利要求14所述的设备,其中所述至少一个自适应参数包括所述自适应加权失真,所述自适应加权失真包括乘以所述所确定的权重值的所述至少一个样本的失真。
17.根据权利要求16所述的设备,其中所述至少一个样本的所述失真包括所述至少一个样本的原始值与所述至少一个样本的经重构值之间的差。
18.根据权利要求14所述的设备,其中所述至少一个自适应参数包括所述自适应加权QP值,所述自适应加权QP值包括由所述所确定的权重值修改的所述至少一个样本的QP值。
19.根据权利要求14所述的设备,其中所述至少一个自适应参数包括所述自适应加权拉姆达值,所述自适应加权拉姆达值包括由所述所确定的权重值修改的所述至少一个样本的拉姆达值,其中所述至少一个样本的所述拉姆达值包括表示失真与数个位之间的权衡的拉格朗日常量。
20.根据权利要求14所述的设备,其中所述至少一个自适应参数包括所述自适应加权失真和所述自适应加权QP值,所述自适应加权失真包括乘以所述所确定的权重值的所述至少一个样本的失真,且所述自适应加权QP值包括由所述所确定的权重值修改的所述至少一个样本的QP值。
21.根据权利要求14所述的设备,其中所述至少一个自适应参数包括所述自适应加权失真和所述自适应加权拉姆达值,所述自适应加权失真包括乘以所述所确定的权重值的所述至少一个样本的失真,且所述自适应加权拉姆达值包括由所述所确定的权重值修改的所述至少一个样本的拉姆达值。
22.根据权利要求14所述的设备,其中所述处理器经进一步配置以:
确定所述图片的所述至少一个样本的归一化权重值,其中基于所述图片中的所述样本的权重的总和且基于所述图片的高度来确定所述归一化权重值;
其中使用所确定的归一化权重值来确定所述至少一个样本的所述至少一个自适应参数。
23.根据权利要求14所述的设备,其中所述权重值是进一步基于所述二维格式的分辨率而确定。
24.根据权利要求14所述的设备,其中所述至少一个样本包括像素、像素块或一行像素块。
25.根据权利要求14所述的设备,其中所述二维格式包括等矩形几何形状。
26.根据权利要求14所述的设备,其中所述成本包括速率失真优化成本。
27.根据权利要求14所述的设备,其进一步包括:
用于捕获360度视频的相机。
28.根据权利要求14所述的设备,其中所述设备包括具有用于捕获360度视频的相机的移动装置。
29.一种非暂时性计算机可读媒体,其上存储有指令,所述指令在由一或多个处理器执行时使所述一或多个处理器进行以下操作:
获得360度视频数据的图片,其中所述图片包括从三维格式投影成二维格式的样本;
确定所述图片的至少一个样本的权重值,其中至少基于所述至少一个样本在所述图片中的位置来确定所述权重值;
使用所述所确定的权重值确定所述至少一个样本的至少一个自适应参数,所述至少一个自适应参数包括自适应加权失真、自适应加权量化参数QP值或自适应加权拉姆达值中的一或多个;以及
确定与使用一或多个译码模式对所述至少一个样本进行译码相关联的成本,其中使用针对所述至少一个样本确定的所述至少一个自适应参数来确定所述成本。
30.一种用于处理360度视频数据的设备,其包括:
用于获得所述360度视频数据的图片的装置,其中所述图片包括从三维格式投影成二维格式的样本;
用于确定所述图片的至少一个样本的权重值的装置,其中至少基于所述至少一个样本在所述图片中的位置来确定所述权重值;
用于使用所述所确定的权重值确定所述至少一个样本的至少一个自适应参数的装置,所述至少一个自适应参数包括自适应加权失真、自适应加权量化参数QP值或自适应加权拉姆达值中的一或多个;以及
用于确定与使用一或多个译码模式对所述至少一个样本进行译码相关联的成本的装置,其中使用针对所述至少一个样本确定的所述至少一个自适应参数来确定所述成本。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762475838P | 2017-03-23 | 2017-03-23 | |
US62/475,838 | 2017-03-23 | ||
US15/922,723 | 2018-03-15 | ||
US15/922,723 US10904531B2 (en) | 2017-03-23 | 2018-03-15 | Adaptive parameters for coding of 360-degree video |
PCT/US2018/022775 WO2018175215A1 (en) | 2017-03-23 | 2018-03-16 | Adaptive parameters for coding of 360-degree video |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110447226A true CN110447226A (zh) | 2019-11-12 |
CN110447226B CN110447226B (zh) | 2022-08-09 |
Family
ID=63583766
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880020128.0A Active CN110447226B (zh) | 2017-03-23 | 2018-03-16 | 用于对360度视频进行译码的自适应参数 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10904531B2 (zh) |
CN (1) | CN110447226B (zh) |
WO (1) | WO2018175215A1 (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190238888A1 (en) | 2017-07-17 | 2019-08-01 | Ki Baek Kim | Image data encoding/decoding method and apparatus |
KR20200062365A (ko) | 2016-10-04 | 2020-06-03 | 김기백 | 영상 데이터 부호화/복호화 방법 및 장치 |
US10506255B2 (en) * | 2017-04-01 | 2019-12-10 | Intel Corporation | MV/mode prediction, ROI-based transmit, metadata capture, and format detection for 360 video |
EP3646604B1 (en) * | 2017-06-30 | 2024-10-16 | InterDigital VC Holdings, Inc. | Weighted to spherically uniform psnr for 360-degree video quality evaluation using cubemap-based projections |
US11051020B2 (en) * | 2017-07-04 | 2021-06-29 | Lg Electronics Inc. | Image decoding method and apparatus using projection-type based quantisation parameters in image coding system for 360-degree video |
US11212553B2 (en) * | 2017-11-28 | 2021-12-28 | Electronics And Telecommunications Research Institute | Bidirectional intra prediction method and apparatus |
US11272209B2 (en) * | 2018-04-03 | 2022-03-08 | Samsung Electronics Co., Ltd. | Methods and apparatus for determining adjustment parameter during encoding of spherical multimedia content |
US10904528B2 (en) * | 2018-09-28 | 2021-01-26 | Tencent America LLC | Techniques for QP selection for 360 image and video coding |
US10638146B2 (en) * | 2018-10-01 | 2020-04-28 | Tencent America LLC | Techniques for QP coding for 360 image and video coding |
CN109889829B (zh) * | 2019-01-23 | 2022-08-09 | 北方工业大学 | 360度视频的快速样点自适应补偿 |
EP3739880A1 (en) | 2019-05-14 | 2020-11-18 | Axis AB | Method, device and computer program product for encoding a distorted image frame |
US10614553B1 (en) * | 2019-05-17 | 2020-04-07 | National Chiao Tung University | Method for spherical camera image stitching |
US10834381B1 (en) * | 2019-07-25 | 2020-11-10 | International Business Machines Corporation | Video file modification |
US10757410B1 (en) * | 2019-07-26 | 2020-08-25 | Google Llc | Spatially adaptive video compression for multiple streams of color and depth |
CN110996101B (zh) * | 2019-11-22 | 2022-05-27 | 网宿科技股份有限公司 | 一种视频编码的方法和装置 |
CN111277839B (zh) * | 2020-03-06 | 2022-03-22 | 北京工业大学 | 一种编码立方体投影格式的自适应qp调整方法 |
US11619950B2 (en) * | 2020-06-30 | 2023-04-04 | Tusimple, Inc. | Systems and methods for projecting a three-dimensional (3D) surface to a two-dimensional (2D) surface for use in autonomous driving |
KR102377449B1 (ko) | 2020-07-31 | 2022-03-22 | 이화여자대학교 산학협력단 | 다중 코덱 기반의 전방위 몰입형 비디오에 대한 디코딩 방법 및 디코딩 장치 |
US11622100B2 (en) * | 2021-02-17 | 2023-04-04 | flexxCOACH VR | 360-degree virtual-reality system for dynamic events |
CN115022638B (zh) * | 2022-06-30 | 2024-10-01 | 电子科技大学 | 一种面向全景视频编码的率失真优化方法 |
US20240121402A1 (en) * | 2022-09-30 | 2024-04-11 | Netflix, Inc. | Techniques for predicting video quality across different viewing parameters |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1677252A1 (en) * | 2005-01-03 | 2006-07-05 | Thomson Licensing | Method and apparatus for calculating a lambda value controlling the coding mode in a video encoder. |
CN102547301A (zh) * | 2010-09-30 | 2012-07-04 | 苹果公司 | 使用图像信号处理器处理图像数据的系统和方法 |
CN102577350A (zh) * | 2009-09-03 | 2012-07-11 | 松下电器产业株式会社 | 图像处理装置和图像处理方法 |
WO2014193630A1 (en) * | 2013-05-30 | 2014-12-04 | Intel Corporation | Quantization offset and cost factor modification for video encoding |
CN104303501A (zh) * | 2012-04-03 | 2015-01-21 | 高通股份有限公司 | 用于视频译码的量化矩阵和解块滤波器 |
CN104718756A (zh) * | 2013-01-30 | 2015-06-17 | 英特尔公司 | 用于下一代视频译码的、利用经修改的参考的内容自适应预测性图片和功能预测性图片 |
CN105379268A (zh) * | 2013-01-28 | 2016-03-02 | 微软技术许可有限责任公司 | 在视频编码中适应鲁棒性 |
CN105830442A (zh) * | 2013-12-20 | 2016-08-03 | Lg电子株式会社 | 使用自适应采样编码和解码视频信号的方法和装置 |
CN106165421A (zh) * | 2014-04-15 | 2016-11-23 | 高通股份有限公司 | 用于显示流压缩(dsc)的拉格朗日参数计算的系统和方法 |
CN106412594A (zh) * | 2016-10-21 | 2017-02-15 | 乐视控股(北京)有限公司 | 全景图像编码方法和装置 |
CN106537920A (zh) * | 2014-06-20 | 2017-03-22 | 高通股份有限公司 | 用于约束参数集的表示格式参数的系统和方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7859574B1 (en) | 2005-07-19 | 2010-12-28 | Maxim Integrated Products, Inc. | Integrated camera image signal processor and video encoder |
JP6056122B2 (ja) * | 2011-01-24 | 2017-01-11 | ソニー株式会社 | 画像符号化装置と画像復号装置およびその方法とプログラム |
WO2018017599A1 (en) | 2016-07-19 | 2018-01-25 | Vid Scale, Inc. | Quality evaluation system and method for 360-degree video |
US10313686B2 (en) * | 2016-09-20 | 2019-06-04 | Gopro, Inc. | Apparatus and methods for compressing video content using adaptive projection selection |
EP3301921A1 (en) | 2016-09-30 | 2018-04-04 | Thomson Licensing | Method and apparatus for calculating quantization parameters to encode and decode an immersive video |
CN107094251B (zh) | 2017-03-31 | 2021-07-23 | 浙江大学 | 一种基于空间位置自适应质量调整的视频、图像编解码方法及装置 |
-
2018
- 2018-03-15 US US15/922,723 patent/US10904531B2/en active Active
- 2018-03-16 WO PCT/US2018/022775 patent/WO2018175215A1/en active Application Filing
- 2018-03-16 CN CN201880020128.0A patent/CN110447226B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1677252A1 (en) * | 2005-01-03 | 2006-07-05 | Thomson Licensing | Method and apparatus for calculating a lambda value controlling the coding mode in a video encoder. |
CN102577350A (zh) * | 2009-09-03 | 2012-07-11 | 松下电器产业株式会社 | 图像处理装置和图像处理方法 |
EP2475163A1 (en) * | 2009-09-03 | 2012-07-11 | Panasonic Corporation | Image processing device and image processing method |
CN102547301A (zh) * | 2010-09-30 | 2012-07-04 | 苹果公司 | 使用图像信号处理器处理图像数据的系统和方法 |
CN104303501A (zh) * | 2012-04-03 | 2015-01-21 | 高通股份有限公司 | 用于视频译码的量化矩阵和解块滤波器 |
CN105379268A (zh) * | 2013-01-28 | 2016-03-02 | 微软技术许可有限责任公司 | 在视频编码中适应鲁棒性 |
CN104718756A (zh) * | 2013-01-30 | 2015-06-17 | 英特尔公司 | 用于下一代视频译码的、利用经修改的参考的内容自适应预测性图片和功能预测性图片 |
WO2014193630A1 (en) * | 2013-05-30 | 2014-12-04 | Intel Corporation | Quantization offset and cost factor modification for video encoding |
CN105830442A (zh) * | 2013-12-20 | 2016-08-03 | Lg电子株式会社 | 使用自适应采样编码和解码视频信号的方法和装置 |
CN106165421A (zh) * | 2014-04-15 | 2016-11-23 | 高通股份有限公司 | 用于显示流压缩(dsc)的拉格朗日参数计算的系统和方法 |
CN106537920A (zh) * | 2014-06-20 | 2017-03-22 | 高通股份有限公司 | 用于约束参数集的表示格式参数的系统和方法 |
CN106412594A (zh) * | 2016-10-21 | 2017-02-15 | 乐视控股(北京)有限公司 | 全景图像编码方法和装置 |
Non-Patent Citations (3)
Title |
---|
MANU TOM: "Fast moving-object detection in H.264/AVC compressed domain for video surveillance", 《 2013 FOURTH NATIONAL CONFERENCE ON COMPUTER VISION, PATTERN RECOGNITION, IMAGE PROCESSING AND GRAPHICS (NCVPRIPG)》 * |
YULE SUN: "《Joint Video Exploration Team (JVET)of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11 4th Meeting: Chengdu, CN, 15–21 October 2016》", 6 October 2016 * |
兰远东: "高斯加权的多分类器物体追踪", 《计算机应用》 * |
Also Published As
Publication number | Publication date |
---|---|
CN110447226B (zh) | 2022-08-09 |
US10904531B2 (en) | 2021-01-26 |
US20180278936A1 (en) | 2018-09-27 |
WO2018175215A1 (en) | 2018-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110447226A (zh) | 用于对360度视频进行译码的自适应参数 | |
US10915986B2 (en) | Adaptive perturbed cube map projection | |
US10620441B2 (en) | Viewport-aware quality metric for 360-degree video | |
US10699389B2 (en) | Fisheye rendering with lens distortion correction for 360-degree video | |
CN110024400B (zh) | 感兴趣区的信号发送的系统和方法 | |
CN109792548B (zh) | 处理视频数据的方法和设备、处理媒体文件的方法和设备 | |
US10764582B2 (en) | Reducing seam artifacts in 360-degree video | |
US10839480B2 (en) | Sphere equator projection for efficient compression of 360-degree video | |
CN113615206A (zh) | 点云数据发送设备、点云数据发送方法、点云数据接收设备和点云数据接收方法 | |
CN110168600A (zh) | 调整360度视频的截顶正方形棱锥投影的视场 | |
CN108780567A (zh) | 用于表示虚拟现实视频内容的截顶正方形金字塔几何结构和帧打包结构 | |
CN113615207A (zh) | 点云数据发送装置、点云数据发送方法、点云数据接收装置和点云数据接收方法 | |
CN111819855B (zh) | 视频码流中的取消标志指示 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |