CN109997364A - 提供全向图像的映射的指示的方法、设备和流 - Google Patents

提供全向图像的映射的指示的方法、设备和流 Download PDF

Info

Publication number
CN109997364A
CN109997364A CN201780073222.8A CN201780073222A CN109997364A CN 109997364 A CN109997364 A CN 109997364A CN 201780073222 A CN201780073222 A CN 201780073222A CN 109997364 A CN109997364 A CN 109997364A
Authority
CN
China
Prior art keywords
video
mapping
instruction
omnidirectional
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201780073222.8A
Other languages
English (en)
Inventor
F.莱利安内克
F.加尔平
G.拉思
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
InterDigital VC Holdings Inc
Original Assignee
InterDigital VC Holdings Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by InterDigital VC Holdings Inc filed Critical InterDigital VC Holdings Inc
Publication of CN109997364A publication Critical patent/CN109997364A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/08Volume rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/10Constructive solid geometry [CSG] using solid primitives, e.g. cylinders, cubes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/12Panospheric to cylindrical image transformations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/16Spatio-temporal transformations, e.g. video cubism
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/194Transmission of image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

公开了使用全向视频到2D视频的映射指示对图像序列进行编码和解码的方法、装置或系统。要编码的图像是全向图像。根据不同的实施例,映射指示包括代表用于映射的表面的类型的第一项,该映射属于包括等矩形映射、立方体映射或金字塔映射中的至少一个的组。该指示用于驱动编码、解码或呈现处理。

Description

提供全向图像的映射的指示的方法、设备和流
技术领域
本公开涉及对沉浸式视频进行编码的领域(例如当这样的沉浸式视频在用于虚拟现实、增强现实或增强虚拟的系统中被处理时以及例如当在头戴式显示设备中被显示时)。
背景技术
最近,可用的大视场内容(高达360°)有所增长。这样的内容可能不会被观看诸如头戴式显示器、智能眼镜、PC屏幕、平板、智能电话等的沉浸式显示设备上的内容的用户完全看得见。这意味着在给定时刻,用户可能只是查看内容的一部分。然而,用户可以典型地通过诸如头部移动、鼠标移动、触摸屏、语音等的各种手段在内容内导航。典型地希望对该内容进行编码和解码。
发明内容
本公开的目的是克服向解码系统或呈现系统提供描述沉浸式视频的属性的一组信息的问题。本公开涉及以信号通知适配于将全向视频到矩形二维帧的映射属性提供给解码和呈现应用的语法和语义。
为此,公开了一种解码方法,其包括对视频的图像进行解码,该视频是全向视频被映射成的2D视频;以及对全向视频到2D视频的映射的指示进行解码,该指示包括代表用于映射的表面的类型的第一项,该映射属于包括等矩形映射、立方体映射或金字塔映射中的至少一个的组。有利地,该指示用于视频图像本身的解码或用于经解码图像的沉浸式呈现。
根据各种特性,该指示被编码为补充增强信息消息、或序列级首标信息、或图像级首标信息。
根据具体实施例,该指示还包括代表映射表面在3D空间中的取向的第二项。
根据另一具体实施例,该指示还包括代表映射在表面上的像素的密度的第三项。
根据另一具体实施例,该指示还包括代表映射表面到图像中的布局的第四项。
根据另一具体实施例,该指示还包括代表通用映射的第五项,其对于要编码的视频图像的每个像素包括到全向视频中的对应的像素的球面坐标。
根据另一具体实施例,该指示还包括代表通用映射的第六项,其对于到全向视频中的球体的每个采样像素包括像素在视频图像上的2D坐标。
根据另一具体实施例,该指示还包括第七项,其代表第一通用映射的中间采样空间,对于到全向视频中的球体的每个采样像素包括像素在中间采样空间中的坐标,以及代表第二通用映射的中间采样空间,对于中间空间中的每个采样像素包括像素在视频图像上的2D坐标。
根据第二方面,公开了一种视频编码方法,其包括对视频的图像进行编码,该视频是全向视频被映射成的2D视频;以及对全向视频到2D视频的映射的指示进行编码,该指示包括代表用于映射的表面的类型的第一项,该映射属于包括等矩形映射、立方体映射或金字塔映射中的至少一个的组。
根据第三方面,公开了一种视频传送方法,其包括传送视频的经编码图像,该视频是全向视频被映射成的2D视频;以及传送全向视频到2D视频的映射的经编码指示,该指示包括代表用于映射的表面的类型的第一项,该映射属于包括等矩形映射、立方体映射或金字塔映射中的至少一个的组。
根据第四方面,公开了一种装置,其包括用于以下的解码器:对视频的图像进行解码,该视频是全向视频被映射成的2D视频;以及对全向视频到2D视频的映射的指示进行解码,该指示包括代表用于映射的表面的类型的第一项,该映射属于包括等矩形映射、立方体映射或金字塔映射中的至少一个的组。
根据第五方面,公开了一种装置,其包括用于以下的编码器:对视频的图像进行编码,该视频是全向视频被映射成的2D视频;以及对全向视频到2D视频的映射的指示进行编码,该指示包括代表用于映射的表面的类型的第一项,该映射属于包括等矩形映射、立方体映射或金字塔映射中的至少一个的组。
根据第六方面,公开了一种装置,其包括用于以下的接口:传送视频的经编码图像,该视频是全向视频被映射成的2D视频;以及传送全向视频到2D视频的映射的经编码指示,该指示包括代表用于映射的表面的类型的第一项,该映射属于包括等矩形映射、立方体映射或金字塔映射中的至少一个的组。
根据第七方面,公开了一种视频信号数据,其包括视频的经编码图像,该视频是全向视频被映射成的2D视频;以及全向视频到2D视频的映射的经编码指示,该指示包括代表用于映射的表面的类型的第一项,该映射属于包括等矩形映射、立方体映射或金字塔映射中的至少一个的组。
根据第八方面,公开了一种处理器可读介质,其中存储有视频信号数据,该视频信号数据包括视频的经编码图像,该视频是全向视频被映射成的2D视频;以及全向视频到2D视频的映射的经编码指示,该指示包括代表用于映射的表面的类型的第一项,该映射属于包括等矩形映射、立方体映射或金字塔映射中的至少一个的组。
根据第九方面,公开了一种计算机程序产品,包括程序代码指令,以当在计算机上执行该程序时执行任何所公开的方法(解码、编码、呈现或传送)的步骤。
根据第十方面,公开了一种非临时性程序存储设备,其可由计算机读取,有形地包含可由计算机执行以执行任何所公开的方法(解码、编码、呈现或传送)的指令的程序。
虽然没有明确描述,但是本实施例和特性可以以任何组合或子组合被使用。例如,本原理不限于所描述的映射语法元素,并且可以使用随所公开的映射技术涵盖的任何语法元素。
此外,针对解码方法描述的任何特性或实施例与其他所公开的方法(解码、编码、呈现或传送)、旨在处理所公开的方法的设备、以及存储程序指令的计算机可读存储介质兼容。
附图说明
在阅读以下描述时,本公开将被更好地理解,并且其他具体特征和优点将出现,该描述参考附图,其中:
-图1表示根据本公开的实施例的示例环境的编码和解码系统的功能概述;
-图2至图6表示根据本原理的特定实施例的系统的第一实施例;
-图7至图9表示根据本原理的其他特定实施例的系统的第一实施例;
-图10至图12表示根据本原理的特定实施例的沉浸式视频呈现设备的第一实施例;
-图13图示了根据本公开的两个不同映射函数将全向视频映射在帧上的示例;
-图14图示了根据本公开的等矩形映射的可能布局的示例;
-图15图示了根据本公开的立方体映射的面的可能布局的两个示例;
-图16图示了根据本公开的金字塔映射的面的可能布局的两个示例;
-图17图示了在通用映射的情况下的帧F中的点到P的局部呈现帧的处理;
-图18图示了根据本原理的经编码帧F的2D笛卡尔坐标系与用于使3D空间中的球体S参数化的极坐标系之间的前向和后向变换;
-图19示意性地图示了根据本原理的特定实施例的对图像进行编码和传送经编码图像的方法;
-图20示意性地图示了根据本原理的特定实施例的对图像进行解码的方法;
-图21示意性地图示了根据本原理的特定实施例的呈现图像的方法;
-图22图示了比特流220的数据结构的特定实施例;以及
-图23示出了根据本原理的特定实施例的被配置为实现关于图19、图20或图21描述的方法的装置的硬件实施例。
具体实施方式
现在参考附图来描述主题,其中相同的参考标号始终用于指代相同的元素。在以下描述中,为了解释的目的,阐述许多具体细节以便提供对主题的透彻理解。要理解,可以在没有这些具体细节的情况下实践主题实施例。
大视场内容可以是三维计算机图形影像场景(3D CGI场景)、点云或沉浸式视频,等等。
许多术语可以用来设计这样的沉浸式视频,诸如例如虚拟现实(VR)、360、全景、4π、球面度、沉浸式、全向、大视场。
为了将全向视频编码成比特流,例如用于通过数据网络传送,可以使用传统的视频编解码器,诸如HEVC、H.264/AVC。因此,首先使用合适的投影函数,将全向视频的每个图片投影在一个或多个2D图片(二维像素阵列,即色彩信息的元素)上,例如投影在一个或多个矩形图片上。在实践中,将来自全向视频的图片表示为3D表面。为了便于投影,诸如球体、立方体或金字塔之类的凸起和简单的表面通常用于投影。然后,使用传统的视频编解码器对包括投影2D图片的2D视频进行编码,该投影2D图片代表全向视频。导致在3D表面的像素与2D图片的像素之间建立对应关系的这样的操作也称为全向视频到2D视频的映射。术语映射或投影及其派生词投影函数或映射函数、投影格式或映射表面在下文中被无差别地使用。
图13示出了使用等矩形投影将映射在表示为球体(130)的表面上的全向视频的帧投影到一个矩形图片(131)上的示例,以及另一示例,在该另一示例中,表面被表示为立方体(132),投影到另一矩形图片(133)的六个图片或面上。
为了对全向视频进行编码,然后可以使用诸如HEVC、H.264/AVC等的传统视频编码标准对表面的投影矩形图片进行编码。在呈现方法中,缺乏对被编码然后解码的沉浸式视频的特异性的考虑。例如,希望知道沉浸式视频如何被映射成矩形帧,以便执行2D到VR呈现。
可以根据帧中的映射函数对像素进行编码。映射函数可以取决于映射表面。对于相同的映射表面,若干个映射函数是可能的。例如,可以根据帧表面内的不同布局来构造立方体的面。例如,可以根据等矩形投影或球心投影来映射球体。产生自所选投影函数的像素的组织使线连续性、规格化正交局部帧、像素密度修改或断开,并引入时间和空间上的周期性。这些是用于对视频进行编码和解码的典型特征。在编码和解码方法中,缺乏对沉浸式视频的特异性的考虑。实际上,随着沉浸式视频是360°视频,例如摇拍引入运动和不连续性,这需要在场景的内容不改变的同时编码大量数据。作为示例,适配于这样的特异性的运动补偿处理可以提高编码效率。因此,在对视频帧进行解码时考虑已经在编码时利用的沉浸式视频特异性将为解码方法带来有价值的优势。
图1图示了根据示例实施例的编码和解码系统的总体概述。图1的系统是功能系统。预处理模块300可以准备用于由编码设备400进行编码的内容。预处理模块300可以执行多图像采集,在公共空间(如果我们对方向进行编码,则典型地为3D球体)中合并所采集的多个图像,以及使用例如但不限于等矩形映射或立方体映射将3D球体映射成2D帧。预处理模块300也可以接受特定格式(例如,等矩形)的全向视频作为输入,并对视频进行预处理,以将映射改变成更适合于编码的格式。取决于所采集的视频数据表示,预处理模块300可以执行映射空间改变。将关于说明书的其他附图描述编码设备400和编码方法。在编码之后,数据(例如其可以对沉浸式视频数据或3D CGI编码数据进行编码)被发送到网络接口500,网络接口500典型地可以以任何网络接口来实现,例如存在于网关中。然后,数据通过通信网络(诸如互联网,但是可以预见任何其他网络)被传送。然后,数据经由网络接口600被接收。网络接口600可以实现在网关中、电视中、机顶盒中、头戴式显示设备中、沉浸式(投影式)墙壁中或者任何沉浸式视频呈现设备中。在接收之后,数据被发送到解码设备700。解码功能是在下面的图2至图12中描述的处理功能之一。然后,经解码数据由播放器800处理。播放器800准备用于呈现设备900的数据,并且可以接收来自传感器的外部数据或用户输入数据。更准确地,播放器800准备将由呈现设备900显示的视频内容的部分。解码设备700和播放器800可以集成在单个设备(例如,智能电话、游戏控制台、STB、平板、计算机等)中。在变型中,播放器800集成在呈现设备900中。
例如在呈现沉浸式视频时,可以设想若干类型的系统来执行沉浸式显示设备的解码、播放和呈现功能。
图2至图6中图示了用于处理增强现实、虚拟现实或增强的虚拟内容的第一系统。这样的系统包括处理功能、沉浸式视频呈现设备,沉浸式视频呈现设备可以是例如头戴式显示器(HMD)、平板或智能电话,并且可以包括传感器。沉浸式视频呈现设备也可以包括显示设备与处理功能之间的附加接口模块。处理功能可以由一个或若干个设备执行。它们可以集成到沉浸式视频呈现设备中,或者它们可以集成到一个或若干个处理设备中。处理设备包括一个或若干个处理器,以及与沉浸式视频呈现设备的通信接口,诸如无线或有线通信接口。
处理设备也可以包括与诸如互联网之类的宽接入网的第二通信接口,并且直接地或者通过诸如家庭或本地网关之类的网络设备访问位于云上的内容。处理设备也可以通过第三接口(诸如以太网类型的本地接入网接口)访问本地储存器。在实施例中,处理设备可以是具有一个或若干个处理单元的计算机系统。在另一实施例中,它可以是智能电话,其可以通过有线或无线链路连接到沉浸式视频呈现设备,或者其可以在沉浸式视频呈现设备中插入壳体中并通过连接器或者无线地与之通信。处理设备的通信接口是有线接口(例如总线接口、广域网接口、局域网接口)或无线接口(诸如IEEE 802.11接口或接口)。
当由沉浸式视频呈现设备执行处理功能时,沉浸式视频呈现设备可以提供有直接或者通过网关接收和/或传送内容的到网络的接口。
在另一实施例中,该系统包括与沉浸式视频呈现设备并且与处理设备通信的辅助设备。在这样的实施例中,该辅助设备可以包含至少一个处理功能。
沉浸式视频呈现设备可以包括一个或若干个显示器。该设备可以在其每个显示器前面采用诸如透镜之类的光学器件。显示器也可以是沉浸式显示设备的一部分,比如智能电话或平板的情况。在另一实施例中,显示器和光学器件可以嵌入头盔中、眼镜中或用户可以佩戴的面罩中。沉浸式视频呈现设备也可以集成若干个传感器,如稍后所述。沉浸式视频呈现设备也可以包括若干个接口或连接器。它可以包括一个或若干个无线模块,以便与传感器、处理功能、手持或其他身体部位相关设备或传感器通信。
沉浸式视频呈现设备也可以包括由一个或若干个处理器执行并且被配置为解码内容或处理内容的处理功能。通过在此处理内容,要理解所有功能用于准备可被显示的内容。这可以包括例如解码内容、在显示内容之前合并内容以及修改内容以适合显示设备。
沉浸式内容呈现设备的一个功能是控制虚拟相机,该虚拟相机捕获被构造为虚拟体积(volume)的内容的至少一部分。该系统可以包括姿势跟踪传感器,其完全或部分地跟踪用户的姿势,例如,用户头部的姿势,以便处理虚拟相机的姿势。一些定位传感器可以跟踪用户的位移。该系统也可以包括与环境相关的其他传感器,例如以测量照明、温度或声音条件。这样的传感器也可以与用户的身体相关,例如以测量发汗或心率。通过这些传感器采集的信息可以用于处理内容。该系统也可以包括用户输入设备(例如,鼠标、键盘、遥控器、操纵杆)。来自用户输入设备的信息可以用于处理内容、管理用户界面或控制虚拟相机的姿势。传感器和用户输入设备通过有线或无线通信接口与处理设备和/或与沉浸式呈现设备通信。
使用图2至图6,描述用于显示增强现实、虚拟现实、增强虚拟或从增强现实到虚拟现实的任何内容的该第一类型的系统的若干个实施例。
图2图示了被配置为解码、处理和呈现沉浸式视频的系统的特定实施例。该系统包括沉浸式视频呈现设备10、传感器20、用户输入设备30、计算机40和网关50(可选的)。
图10上所示的沉浸式视频呈现设备10包括显示器101。显示器例如是OLED或LCD类型。沉浸式视频呈现设备10例如是HMD、平板或智能电话。设备10可以包括触摸表面102(例如,触摸板或触觉屏幕)、相机103、与至少一个处理器104连接的存储器105、以及至少一个通信接口106。至少一个处理器104处理从传感器20接收的信号。使用来自传感器的一些测量来计算设备的姿势和控制虚拟相机。用于姿势估计的传感器例如是陀螺仪、加速度计或罗盘。也可以使用(例如使用一套相机(a rig of cameras)的)更复杂的系统。在这种情况下,至少一个处理器执行图像处理以估计设备10的姿势。使用一些其他测量来根据环境条件或用户的反应处理内容。用于观察环境和用户的传感器例如是麦克风、光传感器或接触传感器。也可以使用更复杂的系统,比如例如跟踪用户眼睛的摄像机。在这种情况下,至少一个处理器执行图像处理以操作预期测量。来自传感器20和用户输入设备30的数据也可以被传送到计算机40,计算机40将根据这些传感器的输入来处理数据。
存储器105包括用于处理器104的参数和代码程序指令。存储器105也可以包括从传感器20和用户输入设备30接收的参数。通信接口106使得沉浸式视频呈现设备能够与计算机40通信。处理设备的通信接口106是有线接口(例如总线接口、广域网接口、局域网接口)或无线接口(诸如IEEE 802.11接口或接口)。计算机40将数据以及可选地将控制命令发送到沉浸式视频呈现设备10。计算机40负责处理数据,即,准备它们以用于由沉浸式视频呈现设备10显示。处理可以由计算机40专门完成,或者部分处理可以由计算机完成,并且部分由沉浸式视频呈现设备10完成。计算机40直接或者通过网关或网络接口50连接到互联网。计算机40从互联网接收代表沉浸式视频的数据,处理这些数据(例如,将它们解码以及可能地准备将由沉浸式视频呈现设备10显示的视频内容的部分),并将处理后的数据发送到沉浸式视频呈现设备10以用于显示。在变型中,该系统也可以包括存储代表沉浸式视频的数据的本地储存器(未示出),所述本地储存器可以在计算机40上或者在例如可通过局域网访问的本地服务器上(未示出)。
图3表示第二实施例。在该实施例中,STB 90直接(即,STB 90包括网络接口)或者经由网关50连接到诸如互联网之类的网络。STB 90通过无线接口或者通过有线接口连接到诸如电视机100或沉浸式视频呈现设备200之类的呈现设备。除了STB的传统功能之外,STB90包括处理视频内容以用于呈现在电视100或者任何沉浸式视频呈现设备200上的处理功能。这些处理功能与针对计算机40描述的处理功能相同,并且这里不再描述。传感器20和用户输入设备30也与较早关于图2描述的类型相同。STB 90从互联网获得代表沉浸式视频的数据。在变型中,STB 90从存储代表沉浸式视频的数据的本地储存器(未示出)获得代表沉浸式视频的数据。
图4表示与图2中所示的实施例相关的第三实施例。游戏控制台60处理内容数据。游戏控制台60将数据以及可选地将控制命令发送到沉浸式视频呈现设备10。游戏控制台60被配置为处理代表沉浸式视频的数据并将处理后的数据发送到沉浸式视频呈现设备10以用于显示。处理可以由游戏控制台60专门完成,或者部分处理可以由沉浸式视频呈现设备10完成。
游戏控制台60直接或者通过网关或网络接口50连接到互联网。游戏控制台60从互联网获得代表沉浸式视频的数据。在变型中,游戏控制台60从存储代表沉浸式视频的数据的本地储存器(未示出)获得代表沉浸式视频的数据,所述本地储存器可以在游戏控制台60上或者在例如可通过局域网访问的本地服务器上(未示出)。
游戏控制台60从互联网接收代表沉浸式视频的数据,处理这些数据(例如,将它们解码以及可能地准备将要显示的视频的部分),并将处理后的数据发送到沉浸式视频呈现设备10以用于显示。游戏控制台60可以从传感器20和用户输入设备30接收数据,并且可以使用它们来处理从互联网或者从本地储存器获得的代表沉浸式视频的数据。
图5表示所述第一类型的系统的第四实施例,其中沉浸式视频呈现设备70由插入壳体705中的智能电话701形成。智能电话701可以连接到互联网,并且因此可以从互联网获得代表沉浸式视频的数据。在变型中,智能电话701从存储代表沉浸式视频的数据的本地储存器(未示出)获得代表沉浸式视频的数据,所述本地储存器可以在智能电话701上或者在例如可通过局域网访问的本地服务器上(未示出)。
关于图11描述沉浸式视频呈现设备70,图11给出了沉浸式视频呈现设备70的优选实施例。它可选地包括至少一个网络接口702和用于智能电话701的壳体705。智能电话701包括智能电话和显示器的所有功能。智能电话的显示器用作沉浸式视频呈现设备70显示器。因此,不包括除智能电话701的显示器之外的显示器。然而,包括诸如透镜之类的光学器件704以用于在智能电话显示器上看到数据。智能电话701被配置为可能地根据从传感器20和从用户输入设备30接收的数据来处理(例如,解码以及准备用于显示)代表沉浸式视频的数据。使用来自传感器的一些测量来计算设备的姿势和控制虚拟相机。用于姿势估计的传感器例如是陀螺仪、加速度计或罗盘。也可以使用(例如使用一套相机的)更复杂的系统。在这种情况下,至少一个处理器执行图像处理以估计设备10的姿势。使用一些其他测量来根据环境条件或用户的反应处理内容。用于观察环境和用户的传感器例如是麦克风、光传感器或接触传感器。也可以使用更复杂的系统,比如例如跟踪用户眼睛的摄像机。在这种情况下,至少一个处理器执行图像处理以操作预期测量。
图6表示所述第一类型的系统的第五实施例,其中沉浸式视频呈现设备80包括用于处理和显示数据内容的所有功能。该系统包括沉浸式视频呈现设备80、传感器20和用户输入设备30。沉浸式视频呈现设备80被配置为可能地根据从传感器20和从用户输入设备30接收的数据来处理(例如,解码以及准备用于显示)代表沉浸式视频的数据。沉浸式视频呈现设备80可以连接到互联网,并且因此可以从互联网获得代表沉浸式视频的数据。在变型中,沉浸式视频呈现设备80从存储代表沉浸式视频的数据的本地储存器(未示出)获得代表沉浸式视频的数据,所述本地储存器可以在呈现设备80上或者在例如可通过局域网访问的本地服务器上(未示出)。
沉浸式视频呈现设备80在图12上示出。沉浸式视频呈现设备包括显示器801。显示器可以是例如OLED或LCD类型,触摸板(可选的)802,相机(可选的)803,与至少一个处理器804连接的存储器805,以及至少一个通信接口806。存储器805包括用于处理器804的参数和代码程序指令。存储器805也可以包括从传感器20和用户输入设备30接收的参数。存储器也可以足够大以存储代表沉浸式视频内容的数据。为此,可以存在若干类型的存储器,并且存储器805可以是单个存储器,或者可以是若干类型的储存器(SD卡、硬盘、易失性或非易失性存储器…)。通信接口806使得沉浸式视频呈现设备能够与互联网通信。处理器804处理代表视频的数据,以便显示器801显示它们。相机803捕获环境的图像以用于图像处理步骤。从该步骤提取数据以便控制沉浸式视频呈现设备。
用于处理增强现实、虚拟现实或增强的虚拟内容的第二系统在图7至图9中示出。这样的系统包括沉浸式墙壁。
图7表示第二类型的系统。它包括显示器1000,其为从计算机4000接收数据的沉浸式(投影式)墙壁。计算机4000可以从互联网接收沉浸式视频数据。计算机4000通常直接或者通过网关5000或网络接口连接到互联网。在变型中,由计算机4000从存储代表沉浸式视频的数据的本地储存器(未示出)获得沉浸式视频数据,所述本地储存器可以在计算机4000中或者在例如可通过局域网访问的本地服务器中(未示出)。
该系统也可以包括传感器2000和用户输入设备3000。沉浸式墙壁1000可以是OLED或LCD类型。它可以配备有一个或若干个相机。沉浸式墙壁1000可以处理从传感器2000(或多个传感器2000)接收的数据。从传感器2000接收的数据可以相关于照明条件、温度、用户的环境,例如物体的位置。
沉浸式墙壁1000也可以处理从用户输入设备3000接收的数据。用户输入设备3000发送诸如触觉信号之类的数据,以便给出关于用户情绪的反馈。用户输入设备3000的示例是手持设备,诸如智能电话、遥控器,以及具有陀螺仪功能的设备。
传感器2000和用户输入设备3000数据也可以被传送到计算机4000。计算机4000可以根据从这些传感器/用户输入设备接收的数据来处理视频数据(例如,将它们解码以及准备它们以用于显示)。传感器信号可以通过沉浸式墙壁的通信接口来接收。该通信接口可以是蓝牙类型、WIFI类型或者任何其他类型的连接,优选地是无线的,但也可以是有线连接。
计算机4000将处理后的数据以及可选地将控制命令发送到沉浸式墙壁1000。计算机4000被配置为处理将由沉浸式墙壁1000显示的数据,即准备它们以用于显示。处理可以由计算机4000专门完成,或者部分处理可以由计算机4000完成,并且部分由沉浸式墙壁1000完成。
图8表示第二类型的另一系统。它包括沉浸式(投影式)墙壁6000,其被配置为处理(例如,解码以及准备数据以用于显示)并显示视频内容。它还包括传感器2000、用户输入设备3000。
沉浸式墙壁6000通过网关5000从互联网或者直接从互联网接收沉浸式视频数据。在变型中,由沉浸式墙壁6000从存储代表沉浸式视频的数据的本地储存器(未示出)获得沉浸式视频数据,所述本地储存器可以在沉浸式墙壁6000中或者在例如可通过局域网访问的本地服务器中(未示出)。
该系统也可以包括传感器2000和用户输入设备3000。沉浸式墙壁6000可以是OLED或LCD类型。它可以配备有一个或若干个相机。沉浸式墙壁6000可以处理从传感器2000(或多个传感器2000)接收的数据。从传感器2000接收的数据可以相关于照明条件、温度、用户的环境,例如物体的位置。
沉浸式墙壁6000也可以处理从用户输入设备3000接收的数据。用户输入设备3000发送诸如触觉信号之类的数据,以便给出关于用户情绪的反馈。用户输入设备3000的示例是手持设备,诸如智能电话、遥控器,以及具有陀螺仪功能的设备。
沉浸式墙壁6000可以根据从这些传感器/用户输入设备接收的数据来处理视频数据(例如,将它们解码以及准备它们以用于显示)。传感器信号可以通过沉浸式墙壁的通信接口来接收。该通信接口可以是蓝牙类型、WIFI类型或者任何其他类型的连接,优选地是无线的,但也可以是有线连接。沉浸式墙壁6000可以包括至少一个通信接口,以与传感器并且与互联网通信。
图9图示了第三实施例,其中沉浸式墙壁用于游戏。一个或若干个游戏控制台7000优选地通过无线接口连接到沉浸式墙壁6000。沉浸式墙壁6000通过网关5000从互联网或者直接从互联网接收沉浸式视频数据。在变型中,由沉浸式墙壁6000从存储代表沉浸式视频的数据的本地储存器(未示出)获得沉浸式视频数据,所述本地储存器可以在沉浸式墙壁6000中或者在例如可通过局域网访问的本地服务器中(未示出)。
游戏控制台7000将指令和用户输入参数发送到沉浸式墙壁6000。沉浸式墙壁6000可能地根据从传感器2000和用户输入设备3000和游戏控制台7000接收的输入数据来处理沉浸式视频内容,以便准备用于显示的内容。沉浸式墙壁6000也可以包括内部存储器以存储要显示的内容。
根据本公开的非限制性实施例,公开了用于从流解码视频图像的方法和设备,该视频是全向视频(360°视频或3D视频)被映射成的二维视频(2D视频)。还公开了用于在流中编码视频图像的方法和设备,该视频是全向视频被映射成的2D视频。还公开了包括对全向视频到二维视频的映射进行描述的指示(语法)的流。还公开了用于传送包括这样的指示的流的方法和设备。
插入比特流中的3D到2D映射指示
根据本公开,流包括代表图像序列(或视频)的经编码数据,其中图像(或帧或图片)是全向图像被映射成的二维像素阵列。2D图像与代表全向视频到二维视频的映射的指示相关联。有利地,利用流对指示进行编码。该指示包括描述经编码视频已从360°环境映射到2D编码环境的方式的项(也被压缩领域的技术人员称为高级语法元素)。在下文中描述针对这样的语法元素的具体实施例。
简单映射标识符
根据具体实施例,该指示包括代表用于映射的表面的类型的第一项。有利地,映射属于包括等矩形映射、立方体映射或金字塔映射中的至少一个的组。因此,该指示允许解码设备和沉浸式呈现设备二者通过使用映射标识符(映射ID)在默认映射函数或预定义映射函数的集合之中确定映射函数。因此,解码设备和沉浸式呈现设备都知道在全向到2D映射中使用的投影的类型。等矩形映射、立方体映射或金字塔映射作为从3D空间到平面空间的众所周知的标准映射函数。然而,默认映射函数不限于那些众所周知的变型。
图13示出了根据两个不同映射函数将全向视频映射在帧上的示例。将3D场景(这里是酒店大厅)投影在球形映射表面130上。选择前方向以用于将表面映射在帧上。前方向可以对应于当呈现在如图2至图12上描述的沉浸式视频呈现设备上时在用户的前面显示的内容的部分。在图13的示例中,前方向面向其上印有‘A’的窗口。上面印有‘B’的旋转门处于前方向的左侧。图1的预处理模块在帧中执行投影130的映射。可以使用不同的映射函数,得到不同的帧。在图13的示例中,预处理模块300根据应用于球体130的等矩形映射函数生成帧序列131。在变型中,预处理模块300执行映射空间改变,在根据立方体布局134将立方体132映射在帧133上之前,将球体130变换成立方体132。图13的示例立方体布局将帧划分成由两行三个正方形组成的六个部分。在顶行上放置立方体的左面、前面和右面;在底行上以90°旋转放置立方体的顶面、后面和底面。在每行中确保连续性。立方体布局134的表示上的数字表示立方体边缘的连接。在另一变型中,预处理模块300执行映射空间改变,在根据金字塔布局135将金字塔映射在帧上之前,将球体130变换成金字塔。实际上,不同的布局可以用于映射函数中的任一个,如图14、图15或图16中所示。此外,可以使用(与投影表面相关联的)空间的其他变型,如图17上所示。这里,默认映射包括关于在投影中使用的表面和投影所使用的默认布局134、135这两者的指示,即,用于将2D帧映射回到3D空间中以供沉浸式呈现所需的任何指示。当然,图13中展现的相应的默认映射是默认映射的非限制性示例。由编码与解码/呈现之间的约定定义为默认的任何映射都与本原理兼容。
根据该具体实施例,定义第一项,其与用于生成经编码数据的默认全向到2D映射的标识符(360_mapping_id)相对应。换句话说,在映射信息消息中,将映射ID字段插入到流中,该流包括代表图像序列的经编码数据。
360_mapping_information(payloadSize){ 描述符
360_mapping_id ue(v)
}
表1:所提出的360映射信息消息
1 等矩形
2 立方体映射
3 金字塔映射
表2:用于识别预定义360°视频映射方法的示例性映射ID
根据第一特性,所提出的映射信息消息被编码在专用SEI消息内。SEI消息是根据以下的补充增强信息,即根据ITU-T H.265 ITU电信标准化部门(10/2014),H系列:视听和多媒体系统,视听业务基础架构-移动视频编码,高效视频编码,ITU-T H.265建议书,在下文中为“HEVC”。该特性良好地适配于被传递给沉浸式呈现设备,其中映射信息在视频编解码器外部用作边信息。
根据第二特性,所提出的映射信息消息被编码在序列级首标信息中,比如HEVC中指定的序列参数集。
根据第三特性,所提出的映射信息消息被编码在图片级首标信息中,比如HEVC中指定的图片参数集。
第二和第三特性更适配于被传递给解码设备,其中信息由解码器从经编码数据中提取。因此,在该情况下,解码器可以使用一些规范的解码工具,该工具利用所考虑的映射的特征(诸如几何变形,取决于帧布局的2个相邻像素之间的周期性或不连续性)。
高级360映射指示
根据其他具体实施例,该指示包括更准确地描述如何布置全向到2D图片映射的附加项。这些实施例在未定义默认映射的情况下或者在未使用所定义的默认映射的情况下特别好地适配。例如,这可以是针对提高压缩效率的目的的情况。根据非限制性示例,由于投影的表面不同,由于投影的前点不同而导致3D空间中的不同取向,或者由于2D帧上的布局不同,所以映射与默认映射不同。
根据一个具体实施例,该指示还包括代表映射表面在3D空间中的取向的第二项。实际上,提供对任何类型的映射共同的一些参数(phi_0,theta_0),以便指示映射表面在3D空间中的取向。在实践中,这两个角度参数用于指定3D空间坐标系,在其中稍后描述映射表面。相对于投影的前点(根据图13的前方向A)给出取向,前点对应于投影表面与3D空间的球体相切的点。在如利用图2至图12描述的沉浸式呈现系统中使用该参数。
有利地,该参数之后是全向到2D映射的标识符(360_mapping_id),该标识符指示使用哪种类型的3D到2D表面,以便携带代表等矩形映射、立方体映射或金字塔映射的不同变型的更多项。在该实施例中,全向到2D映射的标识符(360_mapping_id)仅指定在投影中使用的表面的类型,而不涉及随后需要详述的预定义默认映射的其他特异性。实际上,使用另一二进制值(default_equirectangular_mapping_flag,或default_cube_mapping_flag)来确定映射是默认的映射(1)还是不是默认的映射(0)。根据该变型,除了映射标识符(360_mapping_id)之外,该指示还包括代表对应的默认映射的使用的二进制值(或标志)。现在描述等矩形映射、立方体映射或金字塔映射的变型。
在等矩形映射(360_mapping_id==1)的情况下,二进制值(default_equirectangular_mapping_flag)指示默认模式是否被使用(1),其中假设默认等矩形映射是关于图13引入的映射。如果是,则不提供映射指示的更多项。如果使用非默认等矩形映射(0),则提供映射指示的附加项以更完全地指定等矩形映射。根据非限制性变型,二进制值(equator_on_x_axis_flag)指示赤道136是否平行于映射的2D图片的x轴。如果不是,则将赤道轴推断为映射的2D图片中的y轴。实际上,根据特定的等矩形映射,等矩形投影的布局可以沿着任何2D帧轴来布置。在另一变型中,对沿着与赤道正交的轴的一些坐标进行编码,以便指示该轴上的极点(top_pole_coordinate_in_2D_picture,top_pole_coordinate_in_2D_picture)的位置和赤道(equator_coordinate_in_2D_picture)的位置。实际上,根据特定的等矩形映射,极点和赤道可能落在与默认等矩形映射的定位不同的定位。
根据另一具体实施例,该指示还包括代表映射在表面上的像素的密度的第三项(density_infomation_flag)。如图14上所示,从球体到帧的投影导致不均匀的像素密度。要编码的帧F中的像素并不总是表示表面S上的相同表面(即,在呈现期间图像上的相同表面)。例如,在等矩形映射中,在极点141与赤道142之间,像素密度非常不同。该密度信息标志指示是否将密度查找表编码在所考虑的映射信息消息中。如果是,则该密度信息标志之后是一系列经编码密度值,该经编码密度值分别指示与经映射的赤道平行的每个行/列的(标准化的)像素密度。该密度信息有助于允许解码设备的编解码器选择适配于等矩形映射视频的规范视频编码工具。
根据另一具体实施例,该指示还包括代表映射表面到帧中的布局的第四项。该实施例特别好地适配于立方体映射或金字塔映射,其中立方体或金字塔的不同面可以以各种方式布置在经编码帧中。然而,在例如赤道不会被放置在帧的中间的情况下,该实施例也与等矩形映射兼容。
因此,在立方体映射(360_mapping_id==2)的情况下,指定立方体映射的布局的语法元素可以包括在所提出的映射指示中,如表3所示。
图15图示了立方体映射的第一和第二布局以及投影中使用的立方体的3D空间表示。首先,需要识别立方体的顶点(S0-S7)在3D空间中的坐标,其指示立方体在3D空间中如何取向。为此,遵循顶点的预先固定排序(S0-S7),指示每个顶点的坐标(coordinate_x,coordinate_y,coordinate_z)。然后,要由视频编解码器处理的2D帧中的一些非限制性示例性立方体映射布局在图15中示出。布局1或布局2指示在将3D表面放置在相同的2D平面上时的立方体面的布置。对于默认映射,使用布局标识符(cube_2D_layout_id),假设每个可能的布局是预定义的,并且每个预定义布局与对应于例如图15的布局1或布局2的特定标识符相关联。根据另一实施例,可以在所提出的映射信息消息中显式地以信号通知布局,如稍后关于表4和表5所描述的那样。显式地以信号通知立方体映射布局将包括立方体面标识符的有序列表,其描述如何在目标2D平面中布置立方体的面。例如,在图15的布局1的情况下,这样的有序列表将采用形式(3,2,前,后,顶,左,右,底),意指按照3×2的面阵列并遵循有序列表的面顺序来布置面。
有利地,指示具有默认布局的默认模式是否被使用(1)的二进制值的变型(default_cube_mapping_flag)(其中假设默认布局134映射是关于图13引入的映射)也与先前的立方体映射实施例兼容。如果是,则不提供映射指示的更多项。否则,在映射指示中推断显式描述立方体布局的以上项。
在金字塔映射(360_mapping_id==3)的情况下,可以应用相同的原理。指定金字塔映射的布局的语法元素可以包括在所提出的映射指示中,如表3所示。图16图示了金字塔映射的第一和第二布局以及金字塔的3D空间表示。首先,识别金字塔的顶点在3D空间中的坐标,以指示金字塔在3D空间中如何取向。为此,遵循顶点(B0-B3)的预先固定排序指示基底的每个顶点的坐标(base_x,base_y,base_z),以及尖峰的坐标(peak_x,peak_y,peak_z)。金字塔2D布局标识符(pyramid_2D_layout_id)指示在将3D表面放置在相同的2D平面上时的面的布置。从金字塔映射产生的两个非限制性典型2D布局在图16上示出,并且可以通过表3的pyramid_2D_layout_id语法元素的值来指代,分别与从球体到金字塔映射产生的每个可能的2D布局相关联。
所提出的高级映射指示由表3示出。
表3:具有指定如何执行映射的更多信息的所提出的映射信息消息
根据又一具体实施例,立方体映射或金字塔映射的布局未被默认定义并且通过其相应的标识符而被选择;于是,该指示包括允许描述映射表面到帧中的布局的第五项。允许描述3D到2D映射的显式布局的语法元素可以包括在所提出的映射指示中,如表4所示。
在立方体映射(360_mapping_id==2)的情况下,二进制值(basic_6_faces_layout_flag)指示默认立方布局模式是否被使用(1),其中假设默认立方布局是关于图15引入的布局。如果是,则不提供映射指示的更多项,并且可以使用立方布局标识符。如果使用非默认立方布局(0),则提供映射指示的附加项以完全指定布局。在第一可选变型中,指示2D帧中的面的大小(face_width,face_height)。然后,遵循面的预先固定排序(如表5中所示的1-6),每个面的位置(face_pos_x,face_pos_y)指示该面在2D帧中的位置。有利地,为描述金字塔布局而导出相同的原理。
表4:立方体布局信令语法的更高级实施例
0
1
2
3
4
5
6
表5:关联于所提出的更高级立方体布局语法的立方体面标识符
通用360映射指示
根据其他具体实施例,所提出的全向映射指示包括能够指示从3D球体到经编码帧F的任何可逆变换的通用语法。实际上,先前的实施例涉及处理最常见的全向到2D映射,其中投影使用球体、立方体或金字塔。
然而,全向视频表示的通用情况包括建立2D帧F与3D空间之间的对应关系,该3D空间与所考虑的视频数据的沉浸式表示相关联。该通用概念在图17上示出,其示出了2D帧F与可以以不同方式定义的3D表面S之间的对应关系。P是经编码2D帧F中的点(x,y)。P’是采集的2D表面上的点,P的图像。例如,对于球体,P’是使用球体上的极坐标表示的点。对于立方体,使用6个局部参数化。P3d是3D空间中的点P’,属于采集的3D表面,使用笛卡尔坐标系。P”是投影在与P3d处的表面相切的局部平面上的点P3d。通过构建,P”在帧G的中心。
在等矩形映射的情况下,3D表面S是图13的球体。球体自然地适配于全向内容。然而,3D表面S可以与球体不同。作为示例,在立方体映射中,3D表面S是图13的立方体。这使得指定能够处理任何2D/3D映射和解映射的通用、简单的映射表示语法复杂化。为了克服提供能够处理任何2D/3D映射和解映射的通用映射表示语法的问题,根据该实施例指示任何2D帧与3D球体之间的对应关系,以便受益于3D球体的属性。实际上,可以容易地将立方体上的视频像素数据变换成球体上定义的视频像素数据。在立方体的情况下,这在图18的右侧示出,其提供标准化立方体与球体之间存在的简单几何关系。能理解,与立方体上的点PC相对应的球体上的点PS在射线[O,PC)与一般地提供点PS的球体之间的交叉点上。
可以利用金字塔、四面体和任何其他几何体积来建立类似的对应关系。因此,根据通用映射指示实施例,映射指示包括代表2D帧F(在笛卡尔坐标中)与极坐标中的3D球体之间的前向和后向变换的第六项。这对应于图18上所示的f和f-1函数。
提供该通用映射项的基本方法包括对从编码帧F的2D空间朝向3D球体的函数进行编码。
这样的映射和逆映射函数都从2D空间到另一个2D空间。按两个2D查找表的形式,用于指定这样的映射函数的示例性语法规范由表6示出。这对应于表6中所示的通用映射模式。
注意,在表6上,用于以信号通知前向映射函数f的编码图片F的采样包括与编码图片F的大小(宽度和高度)相等的数量的图片采样。相反,用于指示解映射f-1的球体的采样利用可能取决于360°到2D映射处理、并且按sphereSamplingHeight和sphereSamplingWidth字段的形式显式地以信号通知的球体采样。
表6:包括通用模式的所提出的360°映射指示的更高级实施例
具有中间采样空间的通用360映射指示
根据最后的实施例,所提出的全向映射指示包括在任何使用情况中考虑的能够处理任何情况的360°到2D映射及其逆2D到360°解映射系统的甚至更通用的语法。
这里,目标是在从2D编码空间到3D环境的转移中,提供能够处理可用作中间数据表示空间的一组(可能是多个)参数表面的任何情况的语法编码,反之亦然。
为此,与先前的实施例相比,2D到3D转移语法未改变。3D到2D映射处理被如下修改。
如表7所示,中间多维空间通过其维度、其沿着每个轴的大小而被完全指定。这采用dim,size_1,…,size_dim语法元素的形式。接下来,通过指示多维中间空间中的坐标的一系列语法元素(I1[phi][theta],I2[phi][theta],…,Idim[phi][theta])来指定从3D球体(利用极坐标θ加索引)朝向该中间空间的转移,作为球体中的每个极坐标组的函数。
最终,通过指示帧F中的笛卡尔坐标(其对应于中间空间中的坐标(I1,I2,…,Idim))的一系列语法元素(x[I1][I2]…[Idim],y[I1][I2]…[Idim])来指定从dim维度中间空间朝向2D编解码器帧F的最后转移函数。
表7:包括2D帧与3D球体之间的中间映射和解映射空间的所提出的通用360°映射指示
将映射指示实现到编码方法、传送方法、解码方法和呈现方法中。
图19示意性地图示了对图像序列(或视频)的要编码的图像I1进行编码的方法190,该图像是全向图像被映射成的2D图像。该方法在图1的编码模块400中实现。在步骤191,使用映射指示(MI)来选择适配于全向到2D映射的编码工具(例如通过利用从3D到2D映射产生的视频的(一些)属性),以便与3D未知编码(3D unaware encoding)相比提供增加的压缩效率。作为示例,在运动补偿时间预测期间,该知识可以帮助编解码器(知道当前图片中的矩形块的参考空间区域(通常称为参考块)的形状)执行矩形块的运动补偿时间预测(借助于其相关联的运动矢量)。对于有效编码而言感兴趣的那些属性包括2D图像中的强几何变形、不均匀像素密度、不连续性以及周期性。响应于映射信息MI对输入图像I1进行编码,并输出经编码图像I2。根据本原理,步骤192生成比特流B,该比特流B携带代表经编码图像的序列的数据,并且携带以无损方式在流内编码的全向到2D映射的指示。图19还示意性地图示了传送比特流B的方法193,该比特流B包括经编码图像I2以及全向图像到2D经编码图像的映射的指示MI。该方法在图1的传送模块500中实现。
图20示意性地图示了根据本原理的特定实施例的使用关于全向映射的指示对图像进行解码的方法。数据源提供根据图19的方法190编码的比特流B。例如,源属于包括以下的一组源:本地存储器(例如视频存储器、随机存取存储器、闪速存储器、只读存储器、硬盘等),储存接口(例如,与大容量储存器、光盘或磁性支撑的接口)和通信接口(例如有线接口(例如总线接口、广域网接口、局域网接口)或无线接口(诸如IEEE 802.11接口或接口))。在步骤201,从流获得经编码图像I3,经编码图像I3对应于从3D映射到2D空间的经编码3D图像。还从比特流B获得映射指示MI。在步骤202中,根据映射指示MI,响应于适配于全向到2D映射的工具,通过解码生成经解码图像I4。在步骤203中,从经解码图像I4生成呈现图像I5。
图21示意性地图示了根据本原理的特定实施例的使用关于全向映射的指示来呈现图像的方法。数据源提供根据图19的方法190编码的比特流B。例如,源属于包括以下的一组源:本地存储器(例如视频存储器、随机存取存储器、闪速存储器、只读存储器、硬盘等),储存接口(例如,与大容量储存器、光盘或磁性支撑的接口)和通信接口(例如有线接口(例如总线接口、广域网接口、局域网接口)或无线接口(诸如IEEE 802.11接口或 接口))。在步骤211,从流获得经编码图像I3,经编码图像I3对应于从3D映射到2D空间的经编码3D图像。还从比特流B获得映射指示MI。在步骤202中,通过经编码图像I3的3D未知解码来生成经解码图像I4。在步骤203中,响应于在生成经编码图像时使用的关于全向到2D映射的映射指示MI,从经解码图像I4生成呈现图像I5。当然,可以组合图20和图21的实施例。
图22图示了比特流220的数据结构的特定实施例,该比特流220携带代表根据图19的方法190编码的图像的序列的数据。该序列的经编码图像形成比特流220的语法的第一元素,其存储在比特流221的有效载荷部分中。映射指示包括在比特流的语法的第二元素中,所述语法的第二元素包括在比特流220的首标部分222中。首标部分222以无损方式被编码。
图23示出了被配置为实现关于图19、图20或图21描述的任何方法的装置230的硬件实施例。在该示例中,设备230包括通过也传输时钟信号的地址和数据的总线231彼此连接的以下元件:
-微处理器232(或CPU),其为例如DSP(或数字信号处理器);
-ROM(只读存储器)类型的非易失性存储器233;
-随机存取存储器或RAM(234);
-I/O接口235,用于从应用接收要传送的数据;以及
-图形卡236,其可以嵌入随机存取存储器的寄存器;
-电源237。
根据示例,电源237在设备的外部。在每个提及的存储器中,说明书中使用的词语“寄存器”可以对应于小容量的区域(一些位)或非常大的区域(例如整个程序或大量的接收或解码的数据)。ROM 233包括至少程序和参数。ROM 233可以存储算法和指令以执行根据本原理的技术。当接通时,CPU 232上载RAM中的程序并执行对应的指令。
RAM 234在寄存器中包括由CPU 232执行并在设备230接通之后上载的程序,在寄存器中包括输入数据,在寄存器中包括方法的不同状态下的中间数据,以及在寄存器中包括用于执行该方法的其他变量。
在此描述的实现方式可以例如以方法190、方法200或方法210之一的模块或处理、装置、软件程序、数据流或信号来实现。即使仅在单一形式的实现方式的背景下进行了讨论(例如,仅作为方法或设备进行了讨论),但是所讨论的特征的实现方式也可以以其他形式(例如程序)来实现。装置例如可以实现在适当的硬件、软件和固件中,其可以是图2至图12中描述的系统的组件之一。方法及其模块例如可以实现在诸如例如处理器(其通常涉及处理设备,包括例如计算机、微处理器、集成电路或可编程逻辑器件)之类的装置中。处理器还包括通信设备,诸如例如计算机、蜂窝电话、便携式/个人数字助理(“PDA”)、机顶盒,以及便于最终用户之间的信息通信的其他设备,例如图2至图12中描述的系统的组件。
根据如图19(相应地为图20、图21)上所示的用于对序列图像的图像和全向到2D映射的指示进行编码(相应地为解码、呈现)的装置的示例,在此公开的装置230根据H.264/AVC标准或HEVC视频编码标准来执行图像的编码(相应地为解码、呈现)。然而,本原理可以容易地应用于任何视频编码标准。
根据如图19上所示的对序列图像的图像和全向到2D映射的指示进行编码的示例,从源获得代表图像序列的比特流。例如,源属于包括以下的集合:
-本地存储器(233,234或236),例如视频存储器或RAM(或随机存取存储器)、闪速存储器、ROM(或只读存储器)、硬盘;
-储存接口(235),例如与大容量储存器、RAM、闪速存储器、ROM、光盘或磁性支撑的接口;以及
-通信接口(235),例如有线接口(例如总线接口、广域网接口、局域网接口)或无线接口(诸如IEEE 802.11接口或接口)。
根据一个特定实施例,实现使用映射指示对序列图像的图像进行编码的方法190的步骤的算法被存储在与实现这些步骤的设备230相关联的图形卡236的存储器GRAM中。根据变型,RAM(234)的一部分由CPU(232)分配以用于存储算法。这些步骤导致视频流的产生,该视频流被发送到属于包括以下的集合的目的地:本地存储器(例如视频存储器(234)、RAM(234)、ROM(233)、闪速存储器(233)或硬盘(233)),储存接口(235)(例如与大容量储存器、RAM,ROM、闪速存储器、光盘或磁性支撑的接口),和/或从通信接口(235)(例如到点对点链路、总线、点对多点链路或广播网络的接口)接收该视频流。
根据响应于全向到2D映射的指示来解码图像序列的图像的示例,从源获得代表图像序列并包括映射指示的流。示例性地,从本地存储器(例如视频存储器(234)、RAM(234)、ROM(233)、闪速存储器(233)或硬盘(233))读取比特流。在变型中,从储存接口(235)(例如与大容量储存器、RAM、ROM、闪速存储器、光盘或磁性支撑的接口)接收流,和/或从通信接口(235)(例如到点对点链路、总线、点对多点链路或广播网络的接口)接收流。
根据一个特定实施例,实现响应于全向到2D映射的指示来解码图像序列的图像的方法的步骤的算法被存储在与实现这些步骤的设备230相关联的图形卡236的存储器GRAM中。根据变型,RAM(234)的一部分由CPU(232)分配以用于存储算法。这些步骤导致视频的组成,该视频被发送到属于包括图2至图12中描述的系统的组件的集合的目的地,诸如例如:
-移动设备;
-通信设备;
-游戏设备;
-机顶盒;
-电视机;
-平板(或平板计算机);
-膝上型机;
-显示器,以及
-解码芯片。
当然,本公开不限于先前描述的实施例。
特别地,本公开不限于对图像序列进行编码和解码的方法,而是还扩展到显示经解码视频的任何方法并且扩展到实现该显示方法的任何设备,如例如图2至图12的显示设备。编码和解码比特流所必需的计算的实现方式不限于着色器类型微程序中的实现方式,而是还扩展到任何程序类型的实现方式,例如可由CPU类型微处理器执行的程序。本公开的方法的使用不限于直播利用,而是还扩展到任何其他利用,例如用于在记录工作室中称为后期制作处理的处理。
在此描述的实现方式可以例如以方法或处理、装置、软件程序、数据流或信号来实现。即使仅在单一形式的实现方式的背景下进行了讨论(例如,仅作为方法或设备进行了讨论),但是所讨论的特征的实现方式也可以以其他形式(例如程序)来实现。装置例如可以实现在适当的硬件、软件和固件中。方法例如可以实现在诸如例如处理器(其通常涉及处理设备,包括例如计算机、微处理器、集成电路或可编程逻辑器件)之类的装置中。处理器还包括通信设备,诸如例如智能电话、平板、计算机、移动电话、便携式/个人数字助理(“PDA”),以及便于最终用户之间的信息通信的其他设备。
在此描述的各种处理和特征的实现方式可以实施在各种不同的装备或应用中,特别是例如与数据编码、数据解码、视图生成、纹理处理以及图像和相关的纹理信息和/或深度信息的其他处理相关联的装备或应用。这样的装备的示例包括编码器、解码器、处理来自解码器的输出的后处理器、向编码器提供输入的预处理器、视频编码器、视频解码器、视频编解码器、网络服务器、机顶盒、膝上型机、个人计算机、蜂窝电话、PDA和其他通信设备。如应当清楚的那样,装备可以是移动的,并且甚至安装在移动交通工具中。
另外,该方法可以由处理器正执行的指令来实现,并且这样的指令(和/或由实现方式产生的数据值)可以存储在处理器可读介质上,诸如例如集成电路、软件载体或其他储存设备,诸如例如硬盘、压缩盘(“CD”)、光盘(诸如例如DVD,通常称为数字多功能盘或数字视频盘)、随机存取存储器(“RAM”)或只读存储器(“ROM”)。指令可以形成有形地包含在处理器可读介质上的应用程序。指令可以例如在硬件、固件、软件或组合中。指令可以存在于例如操作系统、单独的应用或两者的组合中。因此,处理器可以表征为例如被配置为执行处理的设备和包括具有用于执行处理的指令的处理器可读介质(诸如储存设备)的设备二者。此外,除了指令或者代替指令,处理器可读介质可以存储由实现方式产生的数据值。
如对于本领域技术人员将明显的那样,实现方式可以产生被格式化为携带例如可以被存储或传送的信息的各种信号。信息可以包括例如用于执行方法的指令或者由所描述的实现方式之一产生的数据。例如,可以将信号格式化为携带用于写入或读取所描述的实施例的语法的规则作为数据,或者携带由所描述的实施例写入的实际语法值作为数据。例如,这样的信号可以被格式化为电磁波(例如使用频谱的射频部分)或者基带信号。格式化可以包括例如对数据流进行编码以及以经编码的数据流调制载波。例如,信号携带的信息可以是模拟或数字信息。如已知的那样,可以通过各种不同的有线或无线链路来传送信号。信号可以存储在处理器可读介质上。
已经描述了多个实现方式。然而,将理解,可以进行各种修改。例如,可以对不同实现方式的元素进行组合、补充、修改或移除,以产生其他实现方式。另外,普通技术人员将理解,其他结构和处理可以替代所公开的那些结构和处理,并且所得到的实现方式将以与所公开的实现方式至少基本相同的方式来执行与所公开的实现方式至少基本相同的功能,以实现与所公开的实现方式至少基本相同的结果。因此,本申请考虑这些以及其他实现方式。

Claims (15)

1.一种视频解码方法,其特征在于,该方法包括:
-对视频的图像进行解码(202),该视频是全向视频被映射成的2D视频;以及
-对全向视频到2D视频的映射的指示进行解码(201),该指示包括代表用于映射的表面的类型的第一项,该映射属于包括等矩形映射、立方体映射或金字塔映射中的至少一个的组,该指示用于视频图像的解码(202)。
2.一种视频编码方法,其特征在于,该方法包括:
-对视频的图像进行编码(191),该视频是全向视频被映射成的2D视频;以及
-对全向视频到2D视频的映射的指示进行编码(192),该指示包括代表用于映射的表面的类型的第一项,该映射属于包括等矩形映射、立方体映射或金字塔映射中的至少一个的组,该指示用于视频图像的编码(191)。
3.一种装置(230),包括用于以下的解码器:
-对视频的图像进行解码,该视频是全向视频被映射成的2D视频;以及
-对全向视频到2D视频的映射的指示进行解码,该指示包括代表用于映射的表面的类型的第一项,该映射属于包括等矩形映射、立方体映射或金字塔映射中的至少一个的组,该指示用于视频图像的解码以用于沉浸式呈现。
4.一种装置(230),包括用于以下的编码器:
-对视频的图像进行编码,该视频是全向视频被映射成的2D视频;以及
-对全向视频到2D视频的映射的指示进行编码,该指示包括代表用于映射的表面的类型的第一项,该映射属于包括等矩形映射、立方体映射或金字塔映射中的至少一个的组,该指示用于视频图像的编码。
5.根据权利要求1至2中任一项所述的方法或者根据权利要求3至4中任一项所述的装置,其中,该指示被编码为:
-补充增强信息消息,或
-序列级首标信息,或
-图像级首标信息。
6.根据权利要求1至2或5中任一项所述的方法或者根据权利要求3至5中任一项所述的装置,其中,该指示还包括代表映射表面在3D空间中的取向的第二项。
7.根据权利要求1至2或5至6中任一项所述的方法或者根据权利要求3至6中任一项所述的装置,其中,该指示还包括代表映射在表面上的像素的密度的第三项。
8.根据权利要求1至2或5至7中任一项所述的方法或者根据权利要求3至7中任一项所述的装置,其中,该指示还包括代表映射表面到图像中的布局的第四项。
9.根据权利要求1至2或5至8中任一项所述的方法或者根据权利要求3至8中任一项所述的装置,其中,该指示还包括代表通用映射的第五项,其对于要编码的视频图像的每个像素包括到全向视频中的对应的像素的球面坐标。
10.根据权利要求1至2或5至9中任一项所述的方法或者根据权利要求3至9中任一项所述的装置,其中,该指示还包括代表通用映射的第六项,其对于到全向视频中的球体的每个采样像素包括该像素在视频图像上的2D坐标。
11.根据权利要求1至2或5至10中任一项所述的方法或者根据权利要求4至12中任一项所述的装置,其中,该指示还包括第七项,其代表第一通用映射的中间采样空间,对于到全向视频中的球体的每个采样像素包括该像素在中间采样空间中的坐标,以及代表第二通用映射的中间采样空间,对于中间采样空间中的每个采样像素包括该像素在视频图像上的2D坐标。
12.一种视频信号数据,包括:
-视频的经编码图像,该视频是全向视频被映射成的2D视频;以及
-全向视频到2D视频的映射的经编码指示,该指示包括代表用于映射的表面的类型的第一项,该映射属于包括等矩形映射、立方体映射或金字塔映射中的至少一个的组,该指示用于视频图像的编码。
13.一种计算机程序产品,包括程序代码指令,以当在计算机上执行该程序时执行权利要求1至2或5至11中任一项所述的解码方法。
14.一种沉浸式呈现设备,包括根据权利要求3的用于对代表大视场视频的比特流进行解码的装置。
15.一种用于对编码成比特流的全向视频进行沉浸式呈现的系统,该系统至少包括:
-用于从数据网络接收所述比特流的网络接口(600),
-根据权利要求3的用于对所述比特流进行解码的装置(700),
-沉浸式呈现设备(900)。
CN201780073222.8A 2016-09-30 2017-09-28 提供全向图像的映射的指示的方法、设备和流 Pending CN109997364A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP16306265.6A EP3301933A1 (en) 2016-09-30 2016-09-30 Methods, devices and stream to provide indication of mapping of omnidirectional images
EP16306265.6 2016-09-30
PCT/EP2017/074658 WO2018060347A1 (en) 2016-09-30 2017-09-28 Methods, devices and stream to provide indication of mapping of omnidirectional images

Publications (1)

Publication Number Publication Date
CN109997364A true CN109997364A (zh) 2019-07-09

Family

ID=57138001

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780073222.8A Pending CN109997364A (zh) 2016-09-30 2017-09-28 提供全向图像的映射的指示的方法、设备和流

Country Status (7)

Country Link
US (1) US20190268584A1 (zh)
EP (2) EP3301933A1 (zh)
KR (1) KR20190055228A (zh)
CN (1) CN109997364A (zh)
CA (1) CA3043247A1 (zh)
RU (1) RU2019112864A (zh)
WO (1) WO2018060347A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018131832A1 (ko) * 2017-01-10 2018-07-19 엘지전자 주식회사 360 비디오를 전송하는 방법, 360 비디오를 수신하는 방법, 360 비디오 전송 장치, 360 비디오 수신 장치
US10818087B2 (en) * 2017-10-02 2020-10-27 At&T Intellectual Property I, L.P. Selective streaming of immersive video based on field-of-view prediction
CN110662087B (zh) 2018-06-30 2021-05-11 华为技术有限公司 点云编解码方法和编解码器
US11575976B2 (en) 2018-08-07 2023-02-07 Coredinate Inc. Omnidirectional video streaming
KR20210094646A (ko) * 2018-12-14 2021-07-29 지티이 코포레이션 몰입형 비디오 비트 스트림 처리
WO2020197086A1 (ko) * 2019-03-25 2020-10-01 엘지전자 주식회사 포인트 클라우드 데이터 송신 장치, 포인트 클라우드 데이터 송신 방법, 포인트 클라우드 데이터 수신 장치 및 포인트 클라우드 데이터 수신 방법
US10909668B1 (en) * 2019-07-31 2021-02-02 Nxp Usa, Inc. Adaptive sub-tiles for distortion correction in vision-based assistance systems and methods
KR20210027918A (ko) * 2019-09-03 2021-03-11 (주)코믹스브이 2차원 이미지로부터 hmd를 위한 3차원 이미지를 생성하는 방법
JP6698929B1 (ja) * 2019-10-31 2020-05-27 株式会社Cygames プログラム、ゲーム仮想空間提供方法、及びゲーム仮想空間提供装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1491403A (zh) * 2001-10-29 2004-04-21 ���ṫ˾ 非平面图像的图像处理装置、图像处理方法、存储介质及计算机程序
US20120062756A1 (en) * 2004-12-17 2012-03-15 Dong Tian Method and System for Processing Multiview Videos for View Synthesis Using Skip and Direct Modes
US20140307048A1 (en) * 2013-04-12 2014-10-16 Disney Enterprises, Inc. Signaling warp maps using a high efficiency video coding (hevc) extension for 3d video coding
CN104350745A (zh) * 2012-07-04 2015-02-11 英特尔公司 基于全景的3d视频译码
CN105308969A (zh) * 2013-01-10 2016-02-03 高通股份有限公司 三维视频中的视图合成
WO2016076680A1 (en) * 2014-11-14 2016-05-19 Samsung Electronics Co., Ltd. Coding of 360 degree videos using region adaptive smoothing

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6897858B1 (en) * 2000-02-16 2005-05-24 Enroute, Inc. Partial image decompression of a tiled image
WO2017188714A1 (ko) * 2016-04-26 2017-11-02 엘지전자 주식회사 360도 비디오를 전송하는 방법, 360도 비디오를 수신하는 방법, 360도 비디오 전송 장치, 360도 비디오 수신 장치

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1491403A (zh) * 2001-10-29 2004-04-21 ���ṫ˾ 非平面图像的图像处理装置、图像处理方法、存储介质及计算机程序
EP1441307A4 (en) * 2001-10-29 2007-11-28 Sony Corp NON-PLANAR IMAGE PROCESSING APPARATUS, IMAGE PROCESSING TECHNIQUE, AND COMPUTER PROGRAM
US20120062756A1 (en) * 2004-12-17 2012-03-15 Dong Tian Method and System for Processing Multiview Videos for View Synthesis Using Skip and Direct Modes
CN104350745A (zh) * 2012-07-04 2015-02-11 英特尔公司 基于全景的3d视频译码
CN105308969A (zh) * 2013-01-10 2016-02-03 高通股份有限公司 三维视频中的视图合成
US20140307048A1 (en) * 2013-04-12 2014-10-16 Disney Enterprises, Inc. Signaling warp maps using a high efficiency video coding (hevc) extension for 3d video coding
WO2016076680A1 (en) * 2014-11-14 2016-05-19 Samsung Electronics Co., Ltd. Coding of 360 degree videos using region adaptive smoothing

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BYEONGDOO CHOI ET AL.: "Proposed Text for Omnidirectional Media Application Format", 《114. MPEG MEETING》 *

Also Published As

Publication number Publication date
US20190268584A1 (en) 2019-08-29
CA3043247A1 (en) 2018-04-05
RU2019112864A (ru) 2020-10-30
EP3301933A1 (en) 2018-04-04
EP3520417A1 (en) 2019-08-07
WO2018060347A1 (en) 2018-04-05
KR20190055228A (ko) 2019-05-22

Similar Documents

Publication Publication Date Title
CN109997364A (zh) 提供全向图像的映射的指示的方法、设备和流
US11012657B2 (en) Method for processing overlay in 360-degree video system and apparatus for the same
US10757423B2 (en) Apparatus and methods for compressing video content using adaptive projection selection
KR102241082B1 (ko) 복수의 뷰포인트들에 대한 메타데이터를 송수신하는 방법 및 장치
JP7241018B2 (ja) 没入型ビデオフォーマットのための方法、装置、及びストリーム
KR102243664B1 (ko) 동적 뷰포인트의 좌표계에 대한 메타데이터를 송수신하는 방법 및 장치
US11140378B2 (en) Sub-picture-based processing method of 360-degree video data and apparatus therefor
KR102281349B1 (ko) 동적 뷰포인트의 좌표계에 대한 메타데이터를 송수신하는 방법 및 장치
KR102154530B1 (ko) 360 비디오 시스템에서 오버레이 미디어 처리 방법 및 그 장치
KR102201763B1 (ko) 360 비디오 시스템에서 오버레이 처리 방법 및 그 장치
KR102258446B1 (ko) 360 비디오 시스템에서 오버레이 처리 방법 및 그 장치
KR20200065076A (ko) 볼류메트릭 비디오 포맷을 위한 방법, 장치 및 스트림
KR20180029315A (ko) 가상 현실 컨텐트의 영상을 투영하기 위한 영상 처리 방법 및 장치
KR102278848B1 (ko) 다중 뷰포인트 기반 360 비디오 처리 방법 및 그 장치
CN110419224A (zh) 用于封装和流传输虚拟现实媒体内容的方法和装置
CN110138831A (zh) 一种进行远程协助的方法与设备
CN109792536A (zh) 用于编码和解码全向视频的方法和装置
CN109565571A (zh) 标示关注区域的方法与装置
KR20190046850A (ko) 몰입형 비디오 포맷을 위한 방법, 장치 및 스트림
CN108564662A (zh) 一种远距离场景下进行增强现实数字文化内容显示的方法及装置
CN110024404A (zh) 编码全局旋转运动补偿图像的方法,设备和流
WO2023098279A1 (zh) 视频数据处理方法、装置、计算机设备、计算机可读存储介质及计算机程序产品
CN110383846A (zh) 用于发信空间区域信息的方法及装置
Zheng et al. Research on panoramic stereo live streaming based on the virtual reality
WO2020012071A1 (en) A method, an apparatus and a computer program product for volumetric video coding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190709