CN107771395B

CN107771395B - 生成和发送用于虚拟现实的元数据的方法和装置

Info

Publication number: CN107771395B
Application number: CN201680036401.XA
Authority: CN
Inventors: A.萨克塞纳; H.纳贾夫-扎德; M.布达加维
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2015-06-26
Filing date: 2016-06-21
Publication date: 2021-10-26
Anticipated expiration: 2036-06-21
Also published as: EP3311563A1; KR20180013879A; US11245939B2; CN107771395A; EP3311563A4; WO2016208939A1; US20160381398A1

Abstract

一种电子设备，包括：接收器，被配置为接收包括多个帧的数据流；显示器，被配置为显示多个帧的帧的一部分；以及处理器，被配置为执行将电子设备的当前视点聚焦到关键帧中感兴趣区域的动作。数据流包括多个帧的关键帧中的感兴趣区域。

Description

生成和发送用于虚拟现实的元数据的方法和装置

技术领域

本公开总体上涉及虚拟现实。更具体地，本公开涉及生成和发送用于虚拟现实的元数据。

背景技术

虚拟现实体验正变得引人注目。例如，由于诸如智能手机的功能强大的手持设备的已准备好的可用性，360°视频正在成为体验沉浸式视频的新方式。360°视频通过捕捉世界的360°度视图，使得能够为消费者提供沉浸式的“真实生活”、“在场”体验。用户能够交互式地改变他们的视点，并动态地查看他们所需的捕捉场景的任何部分。显示器和导航传感器实时跟踪头部运动，以确定用户想要查看的360°视频的区域。

发明内容

技术问题

本公开提供了一种用于生成和发送用于虚拟现实的元数据的方法和装置。

技术方案

在第一实施例中，用户设备(user equipment，UE)包括接收器、显示器、和处理器。接收器被配置为接收包括多个帧的数据流。数据流包括多个帧的关键帧中的感兴趣区域。显示器被配置为显示多个帧的一个帧的一部分。处理器被配置为执行将UE的当前视图聚焦到关键帧中的感兴趣区域的动作。多个帧中的每个帧包括拼接在一起以形成拼接图像的多个图像。多个帧中的至少一个帧的拼接图像包括至少一个高动态范围(high dynamicrange，HDR)图像和至少一个标准动态范围(standard dynamic range，SDR)图像。

在第二实施例中，提供了一种用于处理数据流的方法。该方法包括接收包括多个帧的数据流，该数据流包括多个帧。数据流包括多个帧的关键帧中的感兴趣区域。该方法还包括显示多个帧中的帧的一部分。该方法还包括执行将用户设备(UE)的当前视图聚焦到关键帧中的感兴趣的区域的动作。多个帧中的每个帧包括拼接在一起以形成拼接图像的多个图像。针对多个帧中的至少一个帧的拼接图像包括至少一个高动态范围(HDR)图像和至少一个标准动态范围(SDR)图像。

在第三实施例中，电子设备包括：接收器，被配置为接收包括多个帧的数据流；显示器，被配置为显示多个帧的帧的一部分；以及处理器，被配置为执行将电子设备的当前视点聚焦到关键帧中的感兴趣区域的动作。数据流包括多个帧的关键帧中的感兴趣区域。

在第四实施例中，用于处理数据流的方法包括：接收包括多个帧的数据流；显示多个帧的帧的一部分；以及执行将电子设备的当前视点聚焦到关键帧中的感兴趣区域的动作。数据流包括多个帧的关键帧中的感兴趣区域。

根据以下附图、描述和权利要求，其他技术特征对于本领域技术人员来说可以是显而易见的。

发明的有益效果

根据本公开，用户设备(UE)能够将用户的当前视点聚焦到帧中的感兴趣区域。

附图说明

为了更完整地理解本公开及其优点，现在参考以下结合附图的描述，其中：

图1示出根据本公开的实施例的示例HMD，并且其中可以实现本公开的实施例；

图2示出根据本公开的实施例的渲染HMD中的内容的示例渲染；

图3示出根据本公开的实施例的渲染具有帧中的感兴趣区域的HMD中的内容的示例渲染；

图4示出根据本公开的实施例的渲染具有不同轨迹作为感兴趣区域的HMD中的内容的示例渲染；

图5示出根据本公开的用于处理感兴趣区域的过程；

图6示出根据本公开的实施例的360°视频的示例帧；

图7示出根据本公开的实施例的来自HDR和SDR相机的混合的360°图像的示例；

图8示出根据本公开指定HDR或SDR内容的过程；

图9A和图9B示出根据本公开的实施例的用于在编码器处生成元数据并且在解码器处使用元数据的过程；

图10A和10B示出根据本公开的用于在编码器和解码器处的平滑和逆滤波器应用的过程；

图11示出根据本公开的实施例的示例NALU报头和有效载荷；

图12示出根据本公开的实施例的用于H.264/AVC的示例NAL单元报头语法；

图13示出根据本公开的实施例的用于基于图片级相机的APL封装的基于帧的扩展NALU报头插入的示例；

图14示出根据本公开的实施例的用于图片级相机和基于GOP级的APL封装的基于帧的扩展SEI报头插入的示例；以及

图15示出根据本公开的用于将电子设备的当前视点聚焦到关键帧中的感兴趣区域的示例过程的流程图。

具体实施方式

在进行下面的详细描述之前，阐述贯穿本专利文件所使用的某些词语和短语的定义可能是有利的。术语“耦合”及其派生词是指两个或更多个元件之间的任何直接或间接的通信，不管这些元件是否彼此物理接触。术语“发送”、“接收”、和“通信”及其派生词包含直接和间接的通信。术语“包括”和“包含”及其派生词意指包括但不限于。术语“或”是包括性的，意指和/或。短语“与......相关联”及其派生词意指包括、被包括在内、与...互连、包含、被包含在……内、向或与......连接、向或与......耦合、与......可通信、与......合作、交织、并列、与……接近、与……绑定、具有、具有……性质、与……有关系等等。术语“控制器”意指控制至少一个操作的任何设备、系统或其部分。这样的控制器可以以硬件或硬件和软件和/或固件的组合来实现。与任何特定控制器相关的功能可以是集中式的或分布式的，无论是本地还是远程。当与项目的列表一起使用时，短语“至少一个”意指可以使用所列项目中的一个或多个的不同组合，并且可以仅需要列表中的一个项目。例如，“A、B、和C中的至少一个”包括以下组合中的任何：A、B、C、A和B、A和C、B和C、以及A和B和C。

而且，下面描述的各种功能能够由一个或多个计算机程序来实现或支持，每个计算机程序由计算机可读程序代码形成并且体现在计算机可读介质中。术语“应用”和“程序”是指适于在合适的计算机可读程序代码中实现的一个或多个计算机程序、软件组件、指令集、过程、函数、对象、类、实例、相关数据或其的一部分。短语“计算机可读程序代码”包括任何类型的计算机代码，包括源代码、目标代码、和可执行代码。短语“计算机可读介质”包括能够被计算机访问的任何类型的介质，诸如只读存储器(ROM)、随机存取存储器(RAM)、硬盘驱动器、光盘(CD)、数字视频光盘(DVD)、或任何其他类型的存储器。“非暂时性”计算机可读介质排除传输暂时性电信号或其他信号的有线、无线、光学、或其他通信链路。非暂时性计算机可读介质包括数据能够被永久存储的介质和数据能够被存储并且随后被重写的介质，诸如可重写光盘或可擦除存储器设备。

贯穿本专利文件提供了对其他某些词语和短语的定义。本领域的普通技术人员应该理解，在许多(如果不是绝大多数)情况下，这样的定义适用于这样定义的词语和短语的以前以及将来的使用。

以下讨论的图1至15以及用于描述本专利文件中的本公开的原理的各种实施例仅作为说明，而不应以任何方式被解释为限制本公开的范围。本领域的技术人员将理解，本公开的原理可以以任何适当布置的装置或方法来实现。

图1示出根据本公开的实施例的示例HMD 100，并且其中可以实现本公开的实施例。图1中示出的HMD 100的实施例仅用于说明，HMD 100以各种各样的配置形成，并且图1不将本公开的范围限制到HMD的任何特定实施方式。

在各种实施例中，HMD 100可以采取不同的形式，并且本公开不限于任何特定的形式。例如，HMD 100可以是可安装在虚拟现实(virtual reality，VR)和/或增强现实(augmented reality，AR)应用的头戴式耳机内的移动通信设备，诸如，例如，用户设备、移动台、电视机、订户站、无线终端、智能电话、平板计算机等。在其他示例中，HMD 100可以包括头戴式耳机并且采取用于VR和/或AR应用的可穿戴电子设备(诸如，例如，眼镜、护目镜、头盔等)的形式。

如图1所示，HMD 100包括天线105、射频(radio frequency，RF)收发器110、发送(TX)处理电路115、麦克风120、和接收(RX)处理电路125。HMD 100还包括扬声器130、处理器140、输入/输出(I/O)接口(interface，IF)145、触摸屏150、显示器155、存储器160、以及一个或多个传感器165。存储器160包括操作系统(operating system，OS)161和一个或多个应用162。

RF收发器110或接收器从天线105接收由网络(例如，WiFi、蓝牙、蜂窝、5G、LTE、LTE-A、WiMAX、或任何其他类型的无线网络)的接入点(例如，基站、WiFi路由器、蓝牙设备)发送的传入RF信号。RF收发器110或接收器将传入的RF信号下变频以生成中频(intermediate frequency，IF)或基带信号。IF或基带信号被传送到RX处理电路125，RX处理电路125通过对基带或IF信号进行滤波、解码、和/或数字化来生成经处理的基带信号。RX处理电路125将经处理的基带信号发送给扬声器130(诸如对于语音数据)或发送给处理器140以用于进一步处理(诸如网页浏览数据)。

TX处理电路115从麦克风120接收模拟或数字语音数据或从处理器140接收其他传出基带数据(诸如网络数据、电子邮件、或交互式视频游戏数据)。TX处理电路115对传出的基带数据进行编码、复用、和/或数字化以生成经处理的基带或IF信号。RF收发器110从TX处理电路115接收传出的经处理的基带或IF信号，并将基带或IF信号上变频为经由天线105发送的RF信号。

处理器140能够包括一个或多个处理器或其他处理设备，并且执行存储在存储器160中的OS 161，以便控制HMD 100的整体操作。例如，处理器140可以通过RF收发器110、RX处理电路125、和TX处理电路115按照公知的原理控制正向信道信号的接收和反向信道信号的发送。在一些实施例中，处理器140包括至少一个微处理器或微控制器。在另一实施例中，处理器140也可以被实现为处理电路。处理器140能够实行本文公开的任何过程的操作或指令。

处理器140还能够执行驻留在存储器160中的其他过程和程序。处理器140能够根据执行过程的需要将数据移入或移出存储器160。在一些实施例中，处理器140被配置为基于OS 161或者响应于从eNB或操作者接收到的信号来执行应用162。处理器140还耦合到I/O接口145，I/O接口145向HMD 100提供连接到诸如膝上型计算机和手持式计算机的其他设备的能力。I/O接口145是这些附件与处理器140之间的通信路径。

处理器140还耦合到触摸屏150和显示器155。HMD 100的操作者能够使用触摸屏150向来写入数据和/或向HMD输入。显示器155可以是液晶显示器、发光二极管(LED)显示器、光学LED(OLED)、有源矩阵OLED(AMOLED)、或能够渲染诸如来自网站、视频、游戏等的文本和/或图形的其他显示器。

存储器160耦合到处理器140。存储器160的一部分可以包括随机存取存储器(RAM)，并且存储器160的另一部分可以包括闪存或其他只读存储器(ROM)。

HMD 100还包括一个或多个传感器165，其能够计量物理量或者检测HMD 100的激活状态并且将计量的或者检测到的信息转换为电信号。例如，传感器165可以包括用于触摸输入的一个或多个按钮(例如，在头戴式耳机或HMD 100上)、相机、手势传感器、陀螺仪或陀螺仪传感器、气压传感器、磁传感器或磁力计、加速度传感器或加速计、抓握传感器、接近传感器、颜色传感器165H(例如，红绿蓝(RGB)传感器)、生物物理传感器、温度/湿度传感器、照度传感器165K、紫外线UV)传感器、肌电图(EMG)传感器、脑电图(EEG)传感器、心电图(ECG)传感器、IR传感器、超声波传感器、虹膜传感器、指纹传感器等。(多个)传感器165还能够包括用于控制包括在其中的传感器中的至少一个的控制电路。如将在下面更详细地讨论的，这些(多个)传感器165中的一个或多个可被用于控制音频渲染，确定用于3D内容显示标识的用户的方位以及面向方向等。这些(多个)传感器165中的任何一个可以位于HMD 100内、被配置为持住HMD 100的头戴式耳机内、或者头戴式耳机和HMD 100两者内，例如，在HMD100包括头戴式耳机的实施例中。

触摸屏150能够包括触摸面板、(数字)笔传感器、键、或者超声波输入设备。触摸屏150能够识别，例如，电容方案、压敏方案、红外方案、或超声波方案当中的至少一个方案中的触摸输入。触摸屏150还能够包括控制电路。在电容方案中，触摸屏150能够识别触摸或接近。

如下面更详细描述的，HMD 100可以包括用于为HMD提供3D音频的电路和应用。尽管图1示出了HMD 100的一个示例，但是可以对图1进行各种改变。例如，图1中的各种组件可以被组合，进一步细分或者省略，并且可以根据特定的需要添加额外的组件。作为特定示例，处理器140可以被划分为多个处理器，诸如一个或多个中央处理单元(CPU)和一个或多个图形处理单元(GPU)。而且，虽然图1示出了HMD 100被配置为移动电话、平板计算机或智能手机，但是HMD 100可以被配置为作为其他类型的移动或固定设备来操作。在另一示例实施例中，当HMD 100是电视机时，HMD 100可以不包括收发器、触摸屏、或麦克风。HMD 100可以包括接收器或解码器而没有发送器或编码器。

本公开的一个或多个实施例提供新类型的元数据、以及生成用于虚拟现实和高动态范围(HDR)应用的元数据。虚拟现实和HDR是新兴应用，并且这些应用的元数据的生成能够支持在这些应用程序中使用的图像或视频的预处理和后处理。这样的元数据改善了图像质量以及用户体验。本公开的实施例能够伴随现有的和新的视频编解码器帮助生成和发送元数据。

在一个示例中，本公开的实施例在诸如电视机的消费者应用中操作。需要高效开发下一代虚拟现实技术，特别适用于HDR内容。本公开的一个或多个实施例通过提取对于虚拟现实类型的应用(特别是对于HDR内容)有用的所有相关信息而认识到现有技术的限制。在编码端，原始(未压缩)的图像/视频是可用的，其将具有比解码器处的压缩的图像/视频更多的信息。因此，能够在编码器处执行额外的处理以生成能够作为辅助信息传送到解码器的元数据。在解码器处，虚拟现实和HDR应用能够使用元数据来改善图像质量，并增强用户体验。

由于元数据是从原始未压缩的视频中提取的，与从用于虚拟现实应用的解压缩视频中提取的任何信息相比，元数据更为准确。所有需要的VR参数都能够直接在编码器处确定，并由解码器处的VR块使用，因此解码复杂度大大降低。

360°视频观看器的示例是最近商业推出的头戴式GEARVR设备，其使用GALAXYNOTE4作为显示和导航传感器来实时跟踪头部运动，以确定用户想要观看的360°视频的区域。

图2示出根据本公开的实施例的渲染HMD 100中的内容的示例。在图2中，示出了创建3D空间的过程。在不同的实施例中，能够使用其他渲染过程。

在块202处，处理器能够使用来自多个相机206的多个图像204的输入来执行图像拼接以产生拼接图像208。如本文所使用的，图像也能够被称为帧。在一个示例中，处理器也能够执行等矩形映射。在这个示例中，相机和图像/视频源的数量是七。在其他示例实施例中，不同数量的相机可以与不同数量的图像/视频源一起使用。多个相机能够是HDR、标准动态范围(SDR)或组合。

在块210处，处理器能够对拼接图像208进行编码。在块212处，HMD 100的处理器能够对拼接图像208进行解码。在块214处，HMD 100的处理器能够将拼接图像208映射到360°球体216。在块218处，HMD 100的处理器能够以360°视频或图像内容将360°球体216输出到HMD 100的显示器中，以显示HMD 100的视图218。

对于新类型的内容HDR正在变得流行。已经开发了能够捕获诸如从0.01到约10，000尼特的从低强度到高强度的相机。工作室正在创建HDR内容，各个标准化组织正在从事于创建HDR标准，诸如MPEG-HDR。

图3示出根据本公开的实施例的渲染具有帧302-310中的感兴趣区域的HMD 100中的内容的示例。在图3中，当前视点312-320能够是用户当前聚焦的帧302-310的区域。帧302-310中的一个或多个可以是关键帧。关键帧能够包括作为用户应该聚焦的帧306的区域的感兴趣区域322。在不同的实施例中，其他聚焦区域能够是感兴趣区域。能够由元数据指示感兴趣区域322。随着时间显示帧302-310中的每一个。

在一个示例实施例中，元数据能够包括与当前视点312-320有关的信息。当前视点312-320能够是用户有兴趣观看视频的地方(例如，可能存在基于用户可能聚焦的对象的一些位置)。360度空间中的不同感兴趣区域能够包括不同的对象。

在另一示例中，元数据能够包括与感兴趣区域322有关的信息。VR允许终端观看者在任何方向上看到的充分的灵活性。在电影被显示在VR中的示例中，电影的导演可能想要控制故事以确保观看者不错过帧306中的感兴趣区域322，从而保持创意意图。例如，可能被用户错过的感兴趣区域322已经移动到360°世界中的不同当前视点316。因为帧306包括感兴趣区域322，所以帧306可以被称为关键帧。

在一个示例实施例中，为了向VR观看者指示感兴趣区域，如在帧306中所示，感兴趣区域可以被高亮或由指针324指示。指针324可以被投影在帧306上以指示用户向感兴趣区域移动。在不同的实施例中，其他用户界面(UI)模态是可能的。能够在关键帧之前的一段时间显示指针324，以便观看者有机会选择它并移动到360°世界中的那个位置。

能够以感兴趣的区域为基础在关键帧上提取元数据(phi，theta，zoom)，并且在那个特定关键帧之前传送一段时间k，允许VR场景使用用于感兴趣区域的元数据在k秒内移动到那个特定视点。

表1：创作意图和感兴趣功能的区域的元数据细节

在表1中：

●key_frame_numList表示关键帧的列表。

●size_kf_numList表示关键帧列表的大小。

●Offset k表示关键帧之前的时间偏移k，根据该Offset k，观看者能够通过关键帧到达期望的位置。Offset k可以以时间单位(例如，秒)或帧单位来表示。根据Offset k，聚焦动作按Offset k所指定的时间执行。由Offset k指定的时间是关键帧之前的时间偏移的时间。也就是说，Offset k用于确保观看者不会错过感兴趣区域。

●theta指定针对水平方向的VR场景的重心的theta视角。例如，在球面显示器上，这将从0°到360°，且能够被视为球体(球)上的经度。

●psi指定针对垂直方向的VR场景的重心的psi视角。例如，在球面显示器上，这将从0°到180°(+/-90°)，且能够被视为球体(球)上的纬度。

●zoom指定针对VR场景的重心的半径(到虚拟眼睛的距离)。这将基于区域的重心的虚拟深度(距离)，并且如果在显示器上该区域明显更小/更大，则能够根据需要执行放大/缩小操作。

感兴趣区域的元数据能够被用于广告。本公开的一个或多个实施例认识并考虑到，在VR中，目前没有办法将用户的兴趣聚焦在所广告的对象上。感兴趣区域元数据能够被用于通过创建指针或其他UI来将用户的注意力聚焦在所广告的对象上。

在另一示例实施例中，捕获用户生成的内容的用户可能希望将终端观看者的兴趣聚焦在感兴趣区域上。本公开的实施例认识到并考虑到VR格式中目前不存在允许导演进行这种控制(出于创作意图)或者允许用户生成的内容的此类机制。例如，诸如TWITCH和YOUTUBE的社交媒体视频网站允许对可能包含感兴趣区域的个性化体验的共享。

图4示出了根据本公开的实施例的渲染具有不同轨迹402-406作为感兴趣区域的HMD 100中的内容的示例。在图4中，感兴趣区域能够是用户414-418的当前视点408-412的轨迹402-406。轨迹402能够是当前视点408通过帧和时间的移动。轨迹404能够是当前视点410通过帧和时间的移动。轨迹406能够是当前视点412通过帧和时间的移动。在不同的实施例中，能够使用其他类型的感兴趣区域。

在VR电影中，不同的用户414-418可能具有用于观看的不同的轨迹402-406。本公开的一个或多个实施例提供了将轨迹402-406共享给其他观看者(朋友、家人等)以共享VR中的个性化体验的机制。

个性化VR体验的共享也适用于不同的观看者(具有不同的团队忠诚度)能够从不同角度观看比赛的现场或录制的体育赛事。例如，不同的观看者能够跟随比赛中他们最喜欢的人。自动技术也能够用来基于对比赛中的运动人员的跟踪来创建不同的视图轨迹。

终端用户可能只对特定类型的区域感兴趣。例如，终端用户可以对存在跨时间高活动量、高纹理(细节)的区域、区域中的(平均)照度高于阈值的区域等等感兴趣。这样的感兴趣区域能够是应用特定的，且能够使用分割算法找到。

而且，基于元数据，可以以更高的保真度压缩/处理具有视频的感兴趣区域的帧或帧的部分。没有感兴趣区域的帧或帧的部分可以以更低的保真度被压缩/处理。在解码器处，元数据能够用来识别合适的解压缩。此外，能够使用元数据来执行感兴趣区域的后处理。

图5示出了根据本公开的用于利用感兴趣区域进行处理的过程500。图5中所示的实施例仅用于说明。可以使用其它实施例而不脱离本公开的范围。诸如图1中所示的处理器140的处理器能够执行过程500的不同步骤。在这个示例中，针对场景或帧中的多个感兴趣区域传送元数据。

在块502处，处理器接收图像或视频。在块504处，处理器能够执行分割以识别图像或视频中的感兴趣区域。处理器能够基于感兴趣区域来创建元数据。在块506处，处理器能够执行分割的图像或视频的预处理和编码。在块508处，处理器能够提取元数据并基于元数据执行解码和后处理。

在一个示例实施例中，元数据能够包括图像或帧中的若干感兴趣区域。元数据还能够包括图像或帧是规则(矩形)还是不规则(非矩形)。

在另一示例中，对于每个感兴趣区域，元数据还能够包括如下的像素的开始和结束位置：

●如果区域是规则的，则元数据能够包括左上角、左下角、右上角、和右下角像素的像素位置。

●如果区域不规则，边界的第一像素位置(x，y)；和是否这是该区域的结束像素的标志endRegion。这之后将是边界的第二像素位置(x，y)和标志endRegion；随后是定义边界所需的像素数量。对于最后像素，endRegion标志将为1。例如，对于三角形，对于边界上的第三像素，endRegion将为1。

本公开的一个或多个实施例提供了依赖视图的色调映射(参数)元数据。360°相机所捕获的内容(图像和帧)能够包含宽动态范围。动态范围能够在多个相机曝光之间显著改变。例如，在室外场景中，指向太阳的相机具有太多峰值亮度，而指向远离太阳的相机具有更少的峰值亮度。

图6示出根据本公开的实施例的360°视频的示例帧600。在图6中，帧600包括亮区域602和暗区域604。本公开的一个或多个实施例认识并考虑到，归一化来自多个相机的图像并将它们拼接成单个360°SDR图像导致图像中的非自然暗区域。相反，人眼能够适应和感知暗区域中的细节。在这个示例中，能够由一个或多个处理器如下执行依赖视图或感兴趣区域的自适应动态范围扩展/压缩(色调映射/逆色调映射)：

●捕获具有高尼特(例如4000尼特)的内容。

●包含空间变化的动态范围元数据，例如针对不同区域的色调映射参数，诸如该区域中的最大、平均、最小亮度。

●包含用于区域分段的(静态)元数据(例如，每相机配置固定的)。

●根据用户在360°世界中正看的位置，选择性应用元数据和色量变换来模仿人眼的行为。

本公开的一个或多个实施例提供在接收由HDR和SDR相机的混合获得的图像和视频的内容时的解决方案。HDR相机可能很昂贵，360°视频需要多个相机来捕捉360°世界。HDR和SDR相机的组合能够用于降低成本。

图7示出根据本公开的实施例的来自HDR和SDR相机的混合的360°图像700的示例。在图7中，图像700包括SDR区域702和HDR区域704。图像700包括不同的SDR和HDR区域。本公开的一个或多个实施例提供了在这样的系统中支持HDR和HDR加SDR功能的VR格式。本公开的示例实施例能够包括原始图片、图像的拼接图、以及针对各个区域中的每一个的色调映射参数(如果内容是SDR则为逆色调映射)。本公开的示例实施例提供了依赖视图的色调映射参数。在实施例中，这些参数可以是H.264/AVC或HEVC协议中新附件的一部分。

表2：用于HDR加SDR相机的元数据细节，以及VR场景中关联的色调映射/逆色调映射

在表2中：

●num_regions指定图片中感兴趣区域的数量。

●region_regular_flag如果为1，则指定区域是规则(矩形)的。如果为0，则指定区域是不规则的。

●pixel_top_left指定矩形区域的左上角像素的位置。

●pixel_top_right指定矩形区域的右上角像素的位置。

●pixel_bottom_left指定矩形区域的左下角像素的位置。

●pixel_bottom_right指定矩形区域的右下角像素的位置。

●first_pixel_location指定不规则区域中第一像素的位置。

●end_region_flag指定不规则区域中的当前像素是否是边界上的最后像素。如果为0，则意指那些不规则区域中存在更多的边界像素。如果为1，则意指当前像素是该区域中的最后的边界像素。

●next_boundary_pixel_location指定不规则区域中下一边界像素的位置。

●isHDRFlag指定内容是否为HDR(如果是1)或SDR(如果是0)。

●tone_mapping_params如果isHDRFlag为1(即内容为HDR)，则指定要执行的色调映射的缺省类型。如果显示器为SDR，则参数能够用于色调映射，并能够用作信息缺省色调映射参数。

●inverse_tone_mapping_params如果isHDRFlag为0(即内容为SDR)，指定要执行的逆色调映射的缺省类型。如果显示器是HDR，参数能够用于逆色调映射，并能够作为信息缺省色调映射参数。

在一个实施例中，即使360°视频场景中的所有相机都是HDR，由于诸如比特率、带宽等的考虑，内容仍然能够以HDR加SDR格式(通过适当的色调映射)保存。另外，视场周围的区域(关键区域)能够以HDR格式保存，因为那些对于导演来说是重要的。远离关键区域的其他区域能够以SDR格式保存。

图8示出了根据本公开的用于指定HDR或SDR内容的过程800。图8中所示的实施例仅用于说明。可以使用其它实施例而不脱离本公开的范围。诸如图1所示的处理器140的处理器能够执行过程800的不同步骤。

本公开的一个或多个实施例认识并考虑到，对于具有在房间中观看视频的人以及沿着房间的墙壁的屏幕的沉浸式设置，视频能够以HDR格式来传递。可替换地，在可穿戴设备上，视频能够以SDR格式渲染。根据应用，可以将针对HDR或SDR内容的元数据传送到解码器以进行适当的处理，诸如从HDR到SDR的色调映射(如果内容是以HDR传递并且需要在可穿戴设备上看到)、或者针对沉浸式设置的逆色调映射(如果内容最初是以SDR格式传递)。针对沉浸式或可穿戴设备的该元数据也能够被封装在SEI消息中。

在块802处，提供图像或视频区域。在块804处，处理器能够提取用于区域色调映射(或逆色调映射)的参数。在块806处，图像或视频区域被编码、发送到解码器、并被解码。

在块808处，处理器确定原始图像或视频区域是HDR还是SDR，而在块810处，处理器确定显示器是HDR还是SDR兼容的。如果区域和显示器都是SDR或HDR，则在块812，处理器控制显示器显示图像或视频。如果区域是HDR并且显示器是SDR，那么在块814处，处理器执行色调映射，然后在块812处控制显示器显示图像或视频。如果显示器是HDR并且区域是SDR，则在块816处，处理器执行逆色调映射，然后在块812处控制显示器显示图像或视频。

在给定的场景中，一些区域能够是HDR，而一些区域能够是SDR。例如，在有活动(例如，玩家或球移动)的体育应用中，活动的区域可以是HDR，而(可能是静态的)能够是SDR格式。

在一个示例实施例中，元数据能够包括图片中的不同区域的数量以及区域是规则(矩形)还是不规则(非矩形)。对于每个区域，元数据能够指定像素的开始和结束位置、每个区域是HDR还是SDR、以及要使用色调映射还是逆色调映射功能。如果区域是规则的，则元数据能够包括左上角、左下角、右上角、和右下角像素的像素位置。如果区域是不规则的，则元数据能够包括边界的第一像素位置(x，y)、以及指示区域的结束像素的标志endRegion。接下来将是第二像素和标志endRegion；随后是定义边界所需的像素数量。对于最后的像素，endRegion标志将是1。作为示例，对于三角形，对于边界上的第三像素，endRegion将为1。元数据能够经由isHDR标志指定区域是HDR还是SDR。如果isHDR标志是1，即区域是HDR，则元数据能够指定色调映射功能以转换为SDR。否则，如果解码器需要，元数据能够指定逆色调映射功能以转换为HDR。

在本公开的实施例中，元数据包括VR/360°场景中的不同区域(相机视图)的峰值亮度值。

在所有相机都是HDR的示例中，每个相机将被映射在矩形平面上。显示器将在特定时间显示该整个场景的一部分。为了获得特定的能量评级，本公开的一个或多个实施例提供了小于某个阈值的在某个时间(或在某个时刻)耗散的平均功率。

在示例实施例中，能够假设在VR加HDR应用中，在所有时刻，平均亮度需要低于某个值。这能够容易地推广到当VR加HDR开启、关闭、正在使用等时将需要的多个值的情况。在这个示例实施例中，假设平均亮度是A尼特(例如500尼特)并且来自七个相机的七个区域中的每一个的峰值亮度是P_k尼特(k＝1…7)(假设七个相机)，其中P_k能够是例如2000尼特。如果来自一台相机的特定区域不明亮(例如，该区域内所有像素小于200尼特)，那么如果仅显示该区域，则该特定区域可以按原样显示。可替换地，如果七个区域中的任何一个的峰值亮度高于A尼特，则该特定区域的平均亮度也可以高于A尼特。

在显示器上仅显示一个区域的示例中，区域中针对每个像素的输入亮度能够被定义为u_i，其中i＝1…N，并且其中N表示该区域中的像素的总数。表示为B尼特的该区域的平均亮度由下式给出：

其中求和是只对该区域中的像素。

在示例中，如果显示器要满足特定的能量评级，则平均亮度可能希望小于A尼特。通过使用如下的函数f，场景中的亮度将需要被降低到A尼特：

lum_out＝f(lum_in)，

使得最终的平均亮度，表示为C：

在另一示例实施例中，显示器同时显示两个区域或两个区域的一部分。在这个示例中，P₁和P₂能够是两个区域的峰值亮度。如果P₁和P₂中的每一个小于平均A尼特，即max(P₁,P₂)<A，则不需要应用函数f。如果P₁或P₂中的至少一个高于A尼特，则对于两个区域中的所有相关像素能够用函数f来计算。各种峰值亮度P和区域映射的这种信息能够作为元数据发送给解码器。这样的元数据能够是静态的(每序列一次)或动态的(每场景/图片或GOP等)。

图9A和9B示出了根据本公开的实施例的用于在编码器处生成元数据并且在解码器处使用该元数据的过程900和902。图9A和9B所示的实施例仅用于说明。可以使用其它实施例而不脱离本公开的范围。诸如图1所示的处理器140的处理器能够执行过程900和902的不同步骤。

在块904处，可以将相机视图提供为帧或场景。在块906处，编码器能够执行预处理和/或压缩。压缩的比特流能够被发送到解码器。在块908处，编码器能够将所有区域的峰值亮度P_k尼特计算为元数据。元数据能够被发送到解码器。在块910处，解码器解压缩相机视图V₁。在块912处，解码器能够确定是否max(P_k)<A。如果是，则在块914处，解码器能够设置V_1,new＝V₁，其中V是视图，诸如帧、图像、或场景。如果否，则在块916处，解码器将函数f()应用于V₁以获得V_1,new。在块914和916之后，解码器对V_1,new进行后处理，并控制显示器显示V_1,new。

另外，如果在这两个区域中，一个区域是SDR，而另一区域是HDR，则该过程可以仅应用于HDR区域，因为SDR区域的峰值亮度可能已经小于A尼特。在这个示例中，在两个区域的峰值亮度差别很大的情况下，还能够应用平滑边界的附加步骤。

元数据能够包括图片中不同区域的数量以及区域是规则(矩形)还是不规则(非矩形)。对于每个区域，元数据能够指定像素的开始和结束位置、每个区域是HDR还是SDR、以及要使用色调映射还是逆色调映射功能。如果区域是规则的，则元数据能够包括左上角、左下角、右上角、和右下角像素的像素位置。如果区域不规则，则元数据能够包括边界的第一像素位置(x,y)，以及指示区域的结束像素的标志endRegion。接下来将是第二像素和标志endRegion；随后是定义边界所需的像素数量。对于最后的像素，endRegion标志将是1。作为示例，对于三角形，对于边界上的第三像素，endRegion将为1。元数据能够经由isHDR标志指定区域是HDR还是SDR。元数据能够指定区域k的峰值亮度(表示为P_k)。

图10A和10B示出了根据本公开的用于在编码器和解码器处进行平滑和逆滤波器应用的过程1000和1002。图10A和10B中所示的实施例仅用于说明。可以使用其它实施例而不脱离本公开的范围。诸如图1所示的处理器140的处理器能够执行过程1000和1002的不同步骤。

本公开的一个或多个实施例为解码器处的逆滤波器提供平滑参数。在360°视频中，来自顶部和底部相机的像素占据大的区域。这样的现象也出现在地球的地图上，其中靠近两极的区域似乎被扩大。在这个示例中，平滑能够在编码器上进行，以平滑顶部和底部的区域。具体而言，元数据能够包括(i)要平滑的区域；(b)平滑的滤波器参数，诸如滤波器类型、强度、窗口大小等。这样的元数据参数能够在编码器处生成，并且被传送到解码器。在解码器处，借助这个元数据，能够应用“逆”滤波器来增强这些区域的图像质量。

在块1004处，能够提供图像或视频。在块1006，编码器能够对图像或视频进行编码。在块1008处，编码器能够提取图像或区域的位置以平滑。平滑参数能够在编码期间被应用，并与要平滑区域组合以形成元数据。在块1010处，能够将元数据和压缩的比特流发送到解码器。

在块1012，解码器能够解码压缩的比特流。在块1014，解码器能够使用逆滤波器和元数据来执行后处理，并控制显示器以显示图像或视频。

在示例实施例中，元数据能够包括基于内容(HDR/SDR)的平滑。根据内容类型：HDR或SDR，能够使用不同的平滑技术。另外，也能够导出基于亮度的颜色平滑技术(元数据)。例如，人眼在暗区域对颜色没有那么敏感，而在光线充足的区域则敏感。因此，在暗区域能够执行更多平滑，而在光线充足的区域则可以不执行或执行更少平滑。如果目的是为了减少数据发送量，则将使用这种平滑方案和相应的元数据。

元数据能够包括图片中不同区域的数量以及区域是规则(矩形)还是不规则(非矩形)。对于每个区域，元数据能够指定像素的开始和结束位置、每个区域是HDR还是SDR、以及要使用色调映射还是逆色调映射功能。如果区域是规则的，则元数据能够包括左上角、左下角、右上角、和右下角像素的像素位置。如果区域不规则，则元数据能够包括边界的第一像素位置(x，y)、以及用于指示该区域的结束像素的标志endRegion。接下来将是第二像素和标志endRegion；随后是定义边界所需的像素的数量。对于最后的像素，endRegion标志将为1。作为示例，对于三角形，对于边界上的第三像素，endRegion将为1。对于每个区域，元数据可以指定平滑的滤波器参数，诸如滤波器类型、强度、窗口大小等。

在示例实施例中，元数据能够包括哪个相机在显示器上的哪里的地图。元数据还可以包括用于不同相机视图的拼接参数以及用于视频的翘曲参数。360°视图的相机能够在沉浸式的设置中被映射到多个显示器。拼接参数也能够经由元数据被传送给解码器，其中对于该拼接参数，来自相机的场景将要被每区域拼接。而且，在拼接期间编码器处的相机视图能够存在翘曲。这些参数也能够作为元数据发送。

在本公开的一个或多个实施例中，可以以标准支持的任何方式来支持元数据的发送。例如，在诸如H.264/AVC和HEVC的视频编解码器中，元数据能够在补充增强信息(SEI)或网络抽象层单元(NALU)中被支持，并且能够被传送到那里。在电影和电视工程师协会(SMPTE)的其他标准中，元数据能够经由不同的实体来支持。

本公开的一个或多个实施例示出了如何在NAL单元、H.264/AVC中的SEI、或适用于信息封装的其它参数内携带特定元数据。该实施例能够使用基于相机视图的APL元数据封装作为示例。类似的方法适用于上述所有其他元数据。

图11示出根据本公开的实施例的示例NALU报头1102a-b和有效载荷1104a-b。本公开的一个或多个实施例使用NALU来提供元数据的封装。NALU如H.264/AVC中所定义的在本文使用。与HEVC相关联的NALU扩展将是类似的。在图11中，NALU由两部分组成，包括NALU报头1102-1104和有效载荷1106-1108。在解码器处解析NALU头部1102-1104以进行适当的解码操作。例如，如果NALU报头1102指示当前NALU有效载荷1106是SPS(序列参数集)，则SPS解析和初始化将被激活；可替换地，如果NALU报头1104指示当前NALU有效载荷1108是切片NALU，则执行切片解码。

在H.264/AVC及其扩展中，NALU是字节对齐的。根据NALU是规则单层分组还是可伸缩分组，NALU报头是1字节或4字节。

表3：H.264/AVC中的NALU语法

图12示出了根据本公开的实施例的用于H.264/AVC的示例NAL单元报头语法1200。在图12中，正常的1字节NALU报头包括1比特forbidden_zero_bit(总是零)、3比特nal_ref_idc(指示是否能够参考该NALU)、以及5比特nal_unit_type(表示跟随的NAL单元有效载荷的确切类型)。如果nal_unit_type等于14或20，则解析额外的3个字节以导出用于H.264可伸缩视频的必要信息。本公开的实施例引入指示基于相机的APL元数据信息的新的nal_unit_type＝X。在一个示例实施例中，X能够是24。一旦nal_unit_type＝24，camera_based_APL()被用于解析和初始化基于解码相机的APL相关元数据。对于解码器每次解析该NALU头部，解码器启用针对HDR相机中的每一个的图片级APL数据。

表4：H.264/AVC中的Nal_unit_type定义

表5：扩展的NAL单元语法

表6：扩展的NAL单元类型定义

图13示出根据本公开的实施例的针对基于图片级相机的APL封装的基于帧的扩展NALU报头插入的示例。在图13中，示出了NALU报头1302和NALU有效载荷1304被插入在帧1306内。在一个示例实施例中，NALU报头1302能够是NALU报头1102-1104中的一个，且NALU有效负载1304能够是有效载荷1106-1108中的一个，如图11所示。

图14示出根据本公开的实施例的针对基于图片级相机和GOP级的APL封装的基于帧的扩展SEI报头插入示例。本公开的一个或多个实施例提供使用SEI的封装。该SEI语法能够在解码器处被解析，以帮助获得用于在解码器处执行色调映射的基于APL的参数。这些SEI消息能够在预处理/编码期间导出。

在一个示例中，如表5中所示，基于相机的APL元数据1402(即，camera_based_APL())能够作为具有payloadType＝X的新的SEI消息逐帧(图片)地插入到比特流中。payloadType能够为各种各样的值，包括，例如，55。还能够使用任何其他未使用的数字来定义这样的SEI消息。每次解码器解析该SEI消息时，解码器启用如表5中定义的帧级的、基于相机的APL解析。解码器/后处理器能够基于基于相机的APL元数据执行各种功能。

表7：H.264/AVC附件D中定义的SEI消息

用于使用VR加HDR应用的元数据的在各种附图中的配置能够被标准化以提供虚拟现实的标准。这样的标准使得在不同供应商产品之间能够实现互操作性。也能够执行使用霍夫曼或算术编码的元数据压缩。这将进一步提高压缩效率。

在块1505，电子设备接收包括多个帧的数据流。数据流包括多个帧的关键帧中的感兴趣区域。感兴趣区域包括通过多个帧中的至少两个帧的用户视点的轨迹。电子设备包括至少一个相机。至少一个相机捕获多个图像。电子设备连接多个帧的帧的多个图像。多个所连接的图像包括至少一个HDR图像和至少一个SDR图像。

在块1510，电子设备显示多个帧的帧的一部分。电子设备显示指示感兴趣区域的指针。电子设备在电子设备支持HDR时显示至少一个HDR图像，并在电子设备支持SDR时显示至少一个SDR图像。当电子设备支持HDR时，电子设备对至少一个SDR图像执行色调映射。当电子设备支持SDR时，电子设备对至少一个HDR图像执行逆色调映射。

在块1515，电子设备执行将电子设备的当前视点聚焦到关键帧中的感兴趣区域的动作。电子设备通过在显示关键帧之前的时间偏移来执行将电子设备的当前视点聚焦到感兴趣区域的动作。电子设备在多个帧的帧内识别电子设备的当前视点。电子设备将电子设备的当前视点移向感兴趣区域。电子设备沿轨迹移动电子设备的当前视点。

虽然已经用示例性实施例描述了本公开，但是可以向本领域技术人员建议各种改变和修改。意图是本公开包括落入所附权利要求的范围内的这样的改变和修改。

Claims

1.一种电子设备，包括：

接收器；

显示器；和

处理器，可操作性地与接收器和显示器耦合，并且被配置为：

接收包括多个帧的数据流，所述数据流包括指示所述多个帧中的感兴趣区域的轨迹的元数据；

显示所述多个帧中的帧；以及

在所述多个帧中的所述帧内识别所述电子设备的当前视点，以及

在与所述电子设备的当前视点相对应的所述帧的第一区域中显示指针，以指示所述电子设备将所述电子设备的当前视点沿着所述感兴趣区域的轨迹移动，

其中，所述指针通过所述元数据被创建；

其中，所述感兴趣区域的轨迹与另一电子设备的当前视点相关联；并且

其中，所述当前视点是所述电子设备当前指向的帧的区域。

2.根据权利要求1所述的电子设备，其中所述元数据是基于theta、psi和zoom来确定的，

其中，theta指定针对水平方向的VR场景的重心的theta视角，

其中，psi指定针对垂直方向的VR场景的重心的psi视角，并且

其中，zoom指定针对VR场景的重心的半径。

3.根据权利要求1所述的电子设备，还包括至少一个相机，

其中所述至少一个相机还被配置为捕获多个图像，

其中所述处理器进一步被配置为针对所述多个帧中的所述帧连接所述多个图像，并且

其中多个所连接的图像包括至少一个高动态范围(HDR)图像和至少一个标准动态范围(SDR)图像。

4.根据权利要求3所述的电子设备，其中，所述显示器还被配置为当所述显示器支持HDR时显示所述至少一个HDR图像，并且当所述显示器支持SDR时显示所述至少一个SDR图像。

5.根据权利要求4所述的电子设备，其中，所述处理器还被配置为：

当所述显示器支持HDR时，对所述至少一个SDR图像执行色调映射；以及

当所述显示器支持SDR时，对所述至少一个HDR图像执行逆色调映射。

6.一种电子设备执行的用于处理数据流的方法，所述方法包括：

显示所述多个帧中的帧；

其中，所述指针通过所述元数据被创建，

其中，所述当前视点是所述电子设备当前聚焦的帧的区域。

7.根据权利要求6所述的方法，其中所述元数据是基于theta、psi和zoom来确定的，

其中，theta指定针对水平方向的VR场景的重心的theta视角，

其中，psi指定针对垂直方向的VR场景的重心的psi视角，并且

其中，zoom指定针对VR场景的重心的半径。

8.根据权利要求6所述的方法，其中显示指针以指示所述电子设备将所述电子设备的当前视点沿着所述感兴趣区域的轨迹移动包括：

沿所述轨迹移动所述电子设备的所述帧的第一区域。