CN115617160A

CN115617160A - 视频处理及回放系统和方法

Info

Publication number: CN115617160A
Application number: CN202210841944.6A
Authority: CN
Inventors: M.A.卡瓦利鲁; R.古普塔; D.E.D.乌伯蒂; A.史密斯
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2021-07-16
Filing date: 2022-07-18
Publication date: 2023-01-17
Also published as: EP4120238A1; JP2023017720A; US20230017779A1

Abstract

一种视频处理及回放系统和方法，该视频处理方法包括一种用于环形全景视频记录的视频处理方法，该环形全景视频记录包括第一分辨率下的原始视场区域和第二较低分辨率下的原始视场之外的进一步外围区域，该方法包括对进一步外围区域执行空间放大到高于第二分辨率的分辨率的步骤。

Description

视频处理及回放系统和方法

技术领域

本发明涉及视频处理及回放系统和方法。

背景技术

诸如

的传统视频游戏流媒体系统，以及

或脸书

(Facebook)等其他视频托管平台，使视频游戏的玩家能够向广大观众广播这些游戏的玩法。

在玩视频游戏和观看这种游戏游玩的视频记录之间的显著差别是体验的被动属性，无论是从在游戏中做出的决定还是玩家的视点(例如由玩家输入来确定)的角度。

当视频游戏是VR或AR游戏时，后一个问题更加尖锐，通常游戏玩家至少部分基于自己的头部或眼球运动来确定视点。因此，当观看作为直播或记录流的这样的VR或AR游戏时，记录的图像将跟踪广播者的头部和/或眼球运动，而不是观众的。这可能会导致观众恶心，并且如果他们想看与广播玩家的不同方向，也可能会令人沮丧。

本发明寻求减轻或缓和这个问题。

发明内容

本发明的各个方面和特征在所附权利要求书中和在所附描述的文本中定义，并且至少在第一方面包括一种视频处理方法；在另一方面，包括一种观看视频记录的方法；在另一方面，包括一种视频处理系统；以及在又另一方面，包括一种视频回放系统。

应当理解，本发明的前述一般描述和以下详细描述两者都是示例性的，而不是限制性本发明。

附图说明

当结合附图考虑时，将容易获得对本公开内容及其许多附带优点的更完整理解，因为通过参考以下详细描述可以更好地理解本公开内容，其中：

图1示意性地示出了用户佩戴的HMD；

图2是HMD的示意性平面图；

图3示意性地示出了HMD对虚拟图像的形成；

图4示意性地示出了HMD中使用的另一种类型的显示器；

图5示意性地示出了一对立体图像；

图6a示意性地示出了HMD的平面图；

图6b示意性地示出了近眼跟踪布置；

图7示意性地示出了远程跟踪布置；

图8示意性地示出了凝视跟踪环境；

图9示意性地示出了凝视跟踪系统；

图10示意性地示出了人眼；

图11示意性地示出了人类视觉敏锐度的曲线图；

图12a和图12b示意性地示出了中心凹形渲染；

图13a和图13b示意性地示出了分辨率过渡；

图14a和图14b示意性地示出了根据本申请的实施例的扩展渲染方案；

图15是根据本申请的实施例的视频处理方法的流程图；以及

图16是根据本申请的实施例的视频回放方法的流程图。

具体实施方式

公开了视频记录及回放系统和方法。在下面的描述中，为了提供对本发明实施例的透彻理解，呈现了许多具体细节。然而，对本领域技术人员来说显而易见的是，不需要使用这些特定细节来实施本发明。相反，为了清楚起见，在适当的情况下省略了本领域技术人员已知的具体细节。

现在参考附图，其中类似的附图标记在多个视图中表示相同或对应的部分，在图1中，用户10在用户的头部30上佩戴HMD 20(作为一般的头戴式装置的示例—其他示例包括音频耳机或头戴式光源)。HMD包括框架40，在此示例中由后带和顶带形成，以及显示部分50。

可选地，HMD具有相关联的头戴式耳机音频换能器或耳机60，其适合于用户的左耳和右耳70。耳机60重放从外部源提供的音频信号，外部源可以与提供用于向用户眼睛显示的视频信号的视频信号源相同。

在操作中，HMD提供视频信号以供显示。这可以由诸如视频游戏机或数据处理装置(诸如个人计算机)的外部视频信号源80来提供，在这种情况下，信号可以通过有线或无线连接82向HMD发送。适用的无线连接的示例包括

(Bluetooth)连接。耳机60的音频信号可以通过相同的连接来携带。类似地，从HMD传递到视频(音频)信号源的任何控制信号都可以由相同的连接携带。此外，电源83(包括一个或多个电池和/或可连接到主电源插座)可以通过电缆84链接到HMD。

因此，图1的布置提供了头戴式显示系统的示例，该系统包括：将戴在观察者头上的框架，该框架定义了一个或两个眼睛显示位置，在使用中，眼睛显示位置位于观察者的相应眼睛的前面；以及相对于每个眼睛显示位置安装的显示元件，该显示元件提供从视频信号源到观察者的眼睛的视频信号的视频显示的虚拟图像。图1仅示出了HMD的一个示例。其他设计也是可能的：例如，HMD可以使用更类似于与传统眼镜相关联的框架。

在图1的示例中，为每个用户的眼睛提供了单独的相应显示器。图2提供了如何实现这一点的示意性平面图，其示出了用户眼睛的位置100和用户鼻子的相对位置110。显示部分50以示意形式包括外部屏蔽120和内部屏蔽130，外部屏蔽120用于遮蔽来自用户眼睛的环境光，内部屏蔽130用于防止一只眼睛看到意在于另一只眼睛的显示。用户的脸、外部屏蔽120和内部屏蔽130的组合形成两个隔间140，每个眼睛一个隔间。在每个隔间中提供有显示元件150和一个或多个光学元件160。将参考图3描述显示元件和(多个)光学元件协作以向用户提供显示的方式。

参照图3，(在此示例中)显示元件150生成由光学元件160(示意性地示出为凸透镜，但可以包括复合透镜或其他元件)折射的显示图像，以便生成对用户来说看起来比由显示元件150生成的真实图像大且远得多的虚拟图像170。在图3中，实线(诸如线180)用于表示实际的光学射线，而虚线(诸如线190)用于表示虚拟射线。

在图4中示出了一种替代布置，其中显示元件150和光学元件200协作以提供投影到反射镜210上的图像，反射镜210将图像偏向用户的眼睛位置220。用户感知到虚拟图像位于用户前面并且与用户有适当距离的位置230处。

在为每个用户的眼睛提供单独的相应显示器的情况下，可以显示立体图像。图5示出了显示给左眼和右眼的一对立体图像的示例。

在HMD的一些使用中，诸如那些与虚拟现实(VR)系统相关联的使用中，用户的视点应该跟踪相对于用户所在空间的运动。

该跟踪可以采用头部和/或凝视跟踪。通过检测HMD的运动并改变显示的图像的明显视点以使明显视点跟踪该运动来执行头部跟踪。运动跟踪可以使用任何合适的布置，包括硬件运动检测器(诸如加速度计或陀螺仪)、可操作以对HMD成像的外部相机、以及安装在HMD上的面向外的相机。

对于凝视跟踪，图6a和6b示意性地示出了两种可能的布置。

图6a示出了凝视跟踪布置的示例，其中相机被布置在HMD内以便从短距离捕捉用户眼睛的图像。这可以被称为近眼跟踪，或头戴跟踪。在该示例中，HDM 600(具有显示元件601)被提供有相机610，每个相机610被布置成直接捕捉相应的一个或多个图像。这里示出四个相机610作为眼睛跟踪相机可以提供的可能位置的示例，尽管通常每个眼睛一个相机可能被认为是优选的。可选地，只有一只眼睛可以被跟踪，假设眼睛的运动在两只眼睛之间通常是一致的。一个或多个这样的相机可以被定位成在用于捕捉眼睛图像的光路中包括透镜620。这样的位置的示例由相机630示出。例如，将透镜包括在光路内的优点可以是简化HMD设计上的物理约束。

图6b示出了凝视跟踪布置的示例，其中相机被代替布置成间接捕捉用户眼睛的图像。图6b包括被布置在显示器601和观看者的眼睛(或两只眼睛)之间的反射镜650。为了清楚起见，本图省略了任何附加光学器件(诸如透镜)。这种布置中的反射镜650被选择为部分透射；即，反射镜650应当被选择为使相机640能够在用户观看显示器601时获得用户眼睛的图像。实现这一点的一种方法是提供对IR波长反射但透射可见光的反射镜650—这使得用于跟踪的IR光能够从用户的眼睛反射到相机640，同时由显示器601发出的光不间断地穿过反射镜。这样的布置可以是有利的，例如相机可以更容易地被布置在用户的视场之外。此外，由于相机从有效地(由于反射)沿着用户眼睛与显示器之间的轴的位置捕捉图像，可以获得眼睛跟踪精度的提高。

可替代地，眼睛跟踪布置不需要如上文所描述的那样以头戴式或以其他近眼方式来实现。例如，图7示意性地示出了其中相机被布置成从远处捕捉用户的图像的系统。在图7中，提供了一起提供用户710的多个视场的相机阵列700。这些相机被配置成使用任何合适的方法来捕捉至少识别用户710的眼睛聚焦的方向的信息。

图8示意性地示出了可以执行眼睛跟踪过程的环境。在该示例中，用户800使用与诸如游戏控制台的处理单元830相关联的HMD 810，其中外围设备820允许用户800输入命令以控制处理。例如，HMD810可以按照图6a或6b所例示的布置来执行眼睛跟踪—即，HMD 810可以包括可操作以捕捉用户800的一只眼睛或双眼的图像的一个或多个相机。处理单元830可操作用于生成用于在HDM 810处显示的内容；尽管一些(或全部)内容生成可以由HMD 810内的处理单元来执行。

图8中的布置还包括位于HMD 810外部的相机840，和显示器850。在一些情况下，相机840可以用于在使用HMD 810的同时执行对用户800的跟踪，例如以识别身体运动或头部朝向。同时，在可替代布置中，相机840可以改为朝向外安装在HMD上，以基于所捕获视频内的运动来确定HMD运动。

从用户800的一只眼睛或双眼的捕获图像生成跟踪信息所需的处理可以由HMD810来本地执行，或者可以将捕获的图像或一个或多个检测的结果发送到外部设备(诸如处理单元830)进行处理。在前一种情况下，HMD 810可以将处理的结果输出到外部设备。

图9示意性地示出了用于执行一个或多个眼睛跟踪和头部跟踪过程的系统(例如在诸如上面参考图8讨论的系统中)。系统900包括处理设备910、一个或多个外围设备920、HMD 930、相机940和显示器950。

如图9所示，处理设备910可以包括中央处理单元(CPU)911、图形处理单元(GPU)912、存储(诸如硬盘驱动器或任何其他合适的数据存储介质)913和输入/输出914中的一个或多个。这些单元可以以个人计算机、游戏控制台或任何其他合适的处理设备的形式来提供。

例如，CPU 911可被配置为从来自一个或多个相机的用户眼睛的一个或多个输入图像，或从指示用户眼睛方向的数据生成跟踪数据。例如，这可以是从在远程设备处对用户眼睛的图像进行处理而获得的数据。当然，如果在其他地方生成跟踪数据，则在处理设备910处不需要这样的处理。

可替代地或另外地，一个或多个相机(除了凝视跟踪相机)可以如本文别处所描述的用于跟踪头部运动，诸如HMD内的加速度计等任何其他合适的运动跟踪器也可以如本文别处所描述的用于跟踪头部运动。

GPU 912可以被配置为生成用于向对其执行眼睛和/或头部跟踪的用户显示的内容。

根据所获得的跟踪数据，可以修改内容本身—这方面的一个示例是根据中心凹形渲染(foveal rendering)技术生成内容。当然，这样的内容生成过程可以在其他地方执行—例如，HMD 930可以具有板上GPU，其可操作以根据眼睛跟踪和/或头部运动数据来生成内容。

可以提供存储913以便存储任何合适的信息。这种信息的示例包括程序数据、内容生成数据以及眼睛和/或头部跟踪模型数据。在一些情况下，这样的信息可以远程存储(诸如在服务器上)，并且因此存储913可以是本地的或远程的，或者两者的组合。

如本文别处所讨论的，这样的存储还可用于记录所生成的联系(contact)。

输入/输出914可以被配置为执行适合于处理设备910的任何合适的通信。这种通信的示例包括向HMD 930和/或显示器950发送内容，从HMD 930和/或相机940接收眼睛跟踪数据、头部跟踪数据和/或图像，以及与一个或多个远程服务器的通信(例如，经由互联网)。

如在别处所讨论的，外围设备920可以被提供以允许用户向处理设备910提供输入，以便控制处理或以其他方式与生成的内容交互。这可以是按下按钮或类似的形式，或者可替代地通过跟踪运动来使手势能够用作输入。

HMD 930可以根据上面关于图2的对应元件的讨论来配置。相机940和显示器950可以根据上面关于图8的对应元件的讨论来配置。

现在参考图10，可以理解人眼不具有统一的结构；也就是，眼睛不是一个完美的球体，眼睛的不同部分具有不同的特性(诸如不同的反射率或颜色)。图10示出了典型眼睛1000的结构的简化侧视图；为了清晰起见，这个图省略了控制眼睛运动的肌肉等特征。

眼睛1000由充满水溶液1010的近球形结构形成，视网膜1020形成在眼睛1000的后表面上。视神经1030连接在眼睛1000的后部。通过进入眼睛1000的光在视网膜1020上形成图像，并且携带视觉信息的对应信号经由视神经1030从视网膜1020发送到大脑。

转向眼睛1000的前表面，巩膜1040(通常称为眼白)围绕虹膜1050。虹膜1050控制瞳孔1060的大小，瞳孔1060是光通过其进入眼睛1000的孔。虹膜1050和瞳孔1060被角膜1070覆盖，角膜1070是能够将光折射进入眼睛1000的透明层。眼睛1000还包括存在于虹膜1050后面的晶状体(未示出)，其可被控制以调节进入眼睛1000的光的焦点。

眼睛的结构是这样的，有一个高视力的区域(中心凹形)，它的两侧急剧下降。图11的曲线1100示出了这一点，中心的峰值代表中心凹形区域。1110区域是‘盲点’；这是一个眼睛没有视力的区域，因为它对应于视神经与视网膜相遇的区域。外围(即离中心凹形最远的视角)不是特别敏感的颜色或细节，而是用来检测运动。

也如本文其他地方所描述的，中心凹形渲染(foveal rendering或foveatedrendering)是利用中心凹形的相对小尺寸(约2.5至5度)和在其之外的锐度急剧下降的渲染技术。

用于中心凹形渲染的传统技术通常需要多个渲染遍次，以允许以不同的图像分辨率多次渲染图像帧，从而随后将所得到的渲染组合在一起，以实现图像帧中不同图像分辨率的区域。多个渲染遍次的使用需要很大的处理开销，并且在区域之间的边界处可能会出现不希望的图像伪影。

可替代地，在一些情况下，可以使用允许在图像帧的不同部分以不同分辨率进行渲染，而不需要额外的渲染遍次(所谓的灵活比例光栅化)的硬件。因此，当这样的硬件可用于使用时，这样的硬件加速实现在性能方面可能更好。

现在转向图12a，其示意性地示出了所显示场景1200的中心凹形渲染。用户凝视他们感兴趣的区域的方向。如本文其他地方所描述的跟踪凝视方向，并且在这种情况下，出于说明的目的，将凝视方向指向所显示的视场的中心。因此，大致对应于用户眼睛的高分辨率中心凹形区域的区域1210以高分辨率渲染，而外围区域1220以较低分辨率渲染。由于凝视跟踪，图像的高分辨率区域被投影到用户眼睛的高敏锐度中心凹形区域，而图像的低分辨率区域被投影到用户眼睛的低敏锐度区域。通过连续跟踪用户的凝视并以这种方式进行渲染，用户被愚弄成认为整个图像是高分辨率的，因为它总是看起来在用户自己视觉的高分辨率部分内。然而，实际上，通常图像的大部分实际上是以较低的分辨率渲染的。以此方式，可以大大减少渲染完整图像的计算开销。

这针对几个原因可能是有益的。首先，对于相同的计算预算，可以比之前向用户渲染更丰富、更复杂和/或更详细的图形，和/或对于相同的计算预算，可以渲染两个图像(例如形成用于头戴式显示器的立体对的左图像和右图像)，而不是渲染单个图像(诸如可以在电视上显示)。其次，可以减少要发送到诸如HMD的显示器的数据量，并且可选地，在HMD处对(多个)图像的任何后处理(诸如例如重新投影)也可以在计算上没那么昂贵。

现在转向图12b，认识到眼睛的中心凹形区域的视力下降是如图11所示的平稳进展的事实，可选的中心凹形渲染可以实现图像的中心凹形区域与外围区域之间的分辨率的多步或分级变化。

因此，对于显示的场景1200'的变体渲染，中心凹形区域1210被设置在中心凹形区域与缩小的外围区域1220'之间的过渡区域1230包围。

该过渡区域可以在中心凹形区域的分辨率与外围区域的分辨率之间的中间分辨率下被渲染。

现在还参考图13a和图13b，可替代地，它可以被渲染为与估计的凝视位置的距离的函数。这可以例如使用作为距离的函数具有越来越稀疏的像素的像素掩码来实现，该像素掩码指示对应的图像像素应该被渲染，剩余的像素根据附近渲染的颜色被混合填充。可替代地，在灵活比例光栅化系统中，可以通过适当的分辨率分布曲线来实现。图13a示出了分辨率之间的线性进展，而图13b示出了选择的非线性进展，以呼应用户眼睛中远离中心凹形的非线性锐度降低。第二种方法略微更快地降低分辨率，从而节省略微更多的计算开销。

因此将认识到，在使凝视跟踪成为可能的情况下(例如通过使用一个或多个凝视跟踪相机和随后计算用户的凝视方向以及因此计算虚拟图像上的凝视位置)，然后可选地，中心凹形渲染可用于保持高分辨率图像的错觉，同时减少图像产生的计算开销，至少在中心凹形区域中增加可得到的图像质量，和/或为了不到生成两个常规图像的两倍的成本而提供第二视点(例如，以生成立体对)。

此外，当佩戴HMD时，将理解，如果凝视区域1210是基于眼睛凝视的最感兴趣的显示区域，则整体渲染场景1200是基于头部位置的一般感兴趣的显示区域；也就是说，当佩戴HMD时，所显示的视场1200响应于用户的头部位置，而该视场内的任何中心凹形渲染响应于用户的凝视位置。

实际上，所显示的视场1200外的进一步外围(furhter periphery)可以被认为是在分辨率为零的特殊情况下渲染的(即，未实际渲染)，因为用户通常不可能看到所显示的视场之外。

然而，如果第二个人希望通过佩戴他们自己的HMD来观看用户的游戏记录，同时他们很可能观看与原始用户相同的内容(即，在相同的方向上)，这是无法保证的。因此，在本说明书的一个实施例中，并且现在参考图14a，中心凹形渲染的原理可以扩展到显示给原始用户的视场1200之外的区域，以便渲染原始用户视场之外的进一步外围的较低分辨率视图。该较低分辨率视图通常不会被原始用户看到(因为他们仅被渲染当前视场1200)，但是仍然可以使用用于当前视场内中心凹形渲染的相同技术来渲染，作为相同渲染管线的一部分。

因此，实际上，游戏机或其他渲染源现在渲染显示的图像1200的超集。可选地，它渲染高分辨率中心凹形区域1210。然后，它渲染在显示给用户的视场内的外围区域1220，可选地带有过渡区域1230(图14a中未示出)，然后渲染在显示给用户的视场外的进一步外围区域1240。

该进一步外围区域通常是概念上以用户头部为中心的球体(或更准确地，完成球体)，并且在显示给用户的视场中以比外围区域1220更低的分辨率来渲染。

现在参考图14b，可选地，以类似于图12b所示的过渡区域的方式，可以在显示给用户的视场周围的区域中实现其他过渡区域1250，其中显示给用户的视场内的外围区域1220的分辨率缓慢下降到球形进一步外围区域的较低分辨率。同样，这可以是中间分辨率或线性或非线性斜率。进一步过渡区域的相对大小可以是设计选择的问题，也可以是根据经验确定的；例如，想要跟踪原始用户头部运动的原始用户记录的观看者(通常是因为原始用户正在跟踪游戏内感兴趣的对象或事件)可能由于有限的反应时间而不能完美地跟踪原始显示的视场。因此，过渡区域的大小可以基于跟踪显示给用户的视场在围绕假想球体移动时的相对滞后来选择。这种滞后反过来可以是视场的大小和运动速度的函数；因此，例如，如果原始用户快速和/或大距离地移动他们的头部，则过渡区域1250可以可选地暂时较大，该大小是速度和/或距离的函数，并且可选地也是总体可用计算预算的函数(在这种情况下，可选地，球形进一步区域的剩余部分的分辨率可以暂时降低以维持总体计算预算)。相反，当原始用户的视场相对固定时，过渡区域可以相对较小，例如足以容纳后续观看者头部的微移动，和/或容纳后续头戴式显示器的不同(并且可能更大)视场(例如，在使用具有110°视场的第一代头戴式显示器创建记录的情况下，预期第二代头戴式显示器具有更宽视场，过渡区域可以尝试延伸到120°)。

球形图像可以在渲染管线内被渲染为例如立方体贴图(cube map)，或者使用用于球形场景渲染的任何其他合适技术。

如本文其他地方所述，原始用户只看到显示的视场1200，其本身可选地包括高分辨率中心凹形区域、可选的过渡区域和外围区域，或者例如头戴式显示器不包括凝视跟踪的地方，因而具有预定分辨率的显示的视场。所渲染的球形图像的剩余部分不被原始用户看到，并且以较低的分辨率渲染，可选地，在所显示的视场与球形图像的剩余部分之间具有过渡区域。

因此，在该渲染方案中，所显示的视场可以被认为是基于头部的中心凹形渲染方案，而不是基于凝视的中心凹形渲染方案，当用户移动其头部时，相对高分辨率的所显示的视场围绕整个渲染的球体移动，同时可选地，当用户移动其凝视时，较高分辨率的区域在所显示的视场内四处移动。原始用户只看到显示的视场，但是所渲染图像的记录的后续观看者可以独立于原始用户在该球体内显示的视场而潜在地访问整个球体。

因此，虽然通常他们可能试图跟踪用户显示的视场，但他们可以自由地查看球形图像内的其他地方，以欣赏周围环境，查看原始用户不感兴趣的东西，或者简单地在他们自己的当前视场与原始用户的视场不完全一致时，获得更大的沉浸感。

可以将完整图像(作为显示给原始用户的图像的球形超集)记录在例如循环缓冲器中，其方式类似于将常规显示图像记录在游戏机的循环缓冲器中的方式。例如，可以使用游戏机的硬盘、固态盘和/或RAM来记录完整图像的1、5、15、30或60分钟的镜头(footage)，并且用新的镜头覆盖最旧的镜头，除非用户明确表示他们希望保存/归档记录的材料，在这种情况下，可以将其复制到硬盘或固态盘中的单独文件中，或者上传到服务器。类似地，可以通过上传到广播分发服务器来直播完整图像，或者可以通过类似地上传到广播或视频分发服务器来在以后的时间从循环缓冲器或从保存的文件来广播或上传完整图像。

得到的结果是球形图像，其中，当原始用户在佩戴HMD时移动头部时，较高分辨率区域对应于该原始用户的所显示的视场，并且可选地，在该高分辨率区域内，更较高分辨率区域对应于他们在该显示视场内凝视的位置。

可选地，元数据可以作为视频记录的一部分或作为伴随文件与球形图像一起记录，其指示所显示的视场位于球形图像内的何处。这可用于例如协助后续观看者；如果后续观看者迷失方向或失去了对最初显示的视场移动到哪儿的跟踪(例如，如果观看空战，并且原始用户的宇宙飞船离开了视场，则它们对于随后的观看者可能是相对较少的可见参考点以用于朝向宇宙飞船—以及原始用户的视点—现在所在的位置进行导航)。在这种情况下，诸如指向最初显示的视场的当前方向的箭头的导航工具，或者在随后的观看者自己的视场的外围的相应边缘处的辉光，可以引导他们返回到所记录图像的最高分辨率部分。

以此方式，随后的用户可以在知道他们可以找到返回最初显示的视场的方法的前提下有信心环视场景，即使当他们向别处看时这会改变位置。

查看场景周围的一个可能的原因是，其他事件正在发生，或者虚拟环境中存在其他对象，而原始用户没有注意到或对这些对象不感兴趣。后续用户可能对这些更感兴趣。

因此，可选地，游戏机(或在其上运行的游戏或其他应用程序)可以维护指示对特定对象或环境元素(诸如非玩家角色)的预期兴趣程度的列表、表或其他相关联数据，和/或维护指示对特定事件(诸如对象或角色的出现、或爆炸、或被标记为可能感兴趣的脚本事件的一部分)的预期兴趣程度的类似数据。

在这样的情况下，当这样的对象或事件发生在原始用户的显示视场之外的球形图像内时，球形图像内对应于这样的对象或事件的区域本身可以以相对较高的分辨率(例如，对应于过渡区域1250或最初显示的外围区域1220的分辨率)渲染，可选地，球形图像的其他部分以较低的分辨率渲染，以维持总体计算预算。可选地，分辨率提升可以是与对象或事件相关联的兴趣度的函数(例如，没有、低或高兴趣对象或事件可以分别不被提升，被提升第一量或被提升第二较高的量)。

这样的对象或事件还可以在其周围具有类似于1230或1250的进一步过渡区域，以提供进入剩余球形图像的视觉平滑过渡。以此方式，原始用户未观看的感兴趣的对象或事件仍可由随后的观看者观看，并且相对于球形图像的较低感兴趣部分具有提高的分辨率。

可选地，上述方案，由此将中心凹形渲染的原理扩展到原始用户的视场之外，以添加形成球体(或其它环形全景图，诸如圆柱体)的进一步外围区域，或者类似地(如果不使用真正的中心凹形渲染，例如，因为没有凝视跟踪)，则该原理类似地应用于原始用户的视场之外，可以由用户、生成渲染环境的应用程序、游戏机的操作系统或辅助应用程序(例如，专门用于广播/流媒体上传的应用程序)中的一个或多个打开或关闭。

例如，可以默认禁用上述(一个或多个)方案，因为它们代表如果当前游戏不被上传、流式传输或广播则不需要的计算开销。然后，如果用户打算在将来以这种方式上传、广播或流式传输，或者响应于开始流、广播或上传的指示，该方案可以作为选项提供给用户来打开。

类似地，生成渲染环境的游戏或应用程序可以，例如响应于游戏事件、特定关卡或过场场景，来激活该方案，其中认为观众可能更有可能希望在与原始用户不同的方向上环顾四周。

帧速率

上述方案通过要求渲染更多的场景来增加计算开销，尽管通常以低于显示给原始用户的视场内的场景的分辨率。

为了减轻这一点，在显示给原始用户的视场之外或可选地在包围原始显示的视场的过渡区域1250之外渲染的场景的部分可以以比该视场和可选的过渡区域更低的帧速率来渲染。

因此，例如，视场可以以每秒60帧(fps)渲染，而球体的其余部分以30fps渲染，如果计算预算允许，可选地以比以60fps渲染更高的分辨率来渲染。

可选地，将结果记录上传到服务器，然后服务器可以对球体的剩余部分的帧进行插值，以将帧速率提高回到60fps。

因此，更一般地，球体的剩余部分(可选地包括围绕原始视场的过渡区域)以原始显示视场的帧速率的一小部分(通常为1/2或1/4)来渲染，然后由游戏机或由向其发送记录的服务器对图像的这一部分进行帧插值。

放大

可替代地或除了单独的时间/帧插值以补偿降低的帧速率之外，空间放大可用于补偿球体中降低的图像分辨率。这可以使用离线处理来实现，例如在上述游戏机或服务器处，或者在内容的后续观看者的客户端设备处。

合适的空间放大技术是众所周知的，包括双线性和双三次插值算法、sinc和Lanczos重采样算法等。

可替代地或另外地，可以使用机器学习(例如神经)渲染或图像修复技术，诸如被训练以放大图像的深度卷积神经网络。在本情况下，机器学习系统可以通过中心凹形(或视场)分辨率与较低分辨率(无论是外围、进一步外围还是过渡区域，视情况而定)之间分辨率的比例差来训练以进行放大。可选地，可以针对这些放大比率中的每一个来训练相应的机器学习系统。

这样的机器学习系统通过使用全分辨率目标图像和降低分辨率的输入图像(例如，通过缩小目标图像或以较低分辨率/质量重新渲染目标图像而创建的图像)来训练。在本申请的实施例中，训练集因此可以包括仿佛针对中心凹形区域(或者，如果没有中心凹形渲染，则为视场区域)而渲染的目标图像和仿佛针对一个或多个其它区域而渲染的对应输入图像。通常，机器学习系统不是在整个图像上进行训练的；相反，它是在图像中固定大小的图块(tile)上进行训练的。例如，图块可以是16×16像素，或者32×32、64×64等。该目标可以是类似大小的对应图块，但是由于它表示图像的更高分辨率版本，该目标图块可以仅对应于在输入图块中看到的图像的子集。例如，如果输入分辨率为640×480，而目标分辨率为1920×1080，则32×32输入图块对应于图像中比32×32输出图块多约6.75倍的面积。这允许机器学习系统使用输入中的图像的周围像素来促进对应于输出图块的部分的放大；例如，使用来自输入中重复图案和纹理的信息，或者更好地估计色度或亮度中的梯度或曲线。

应当理解，输出图块不必是与输入图块相同的大小，而是可以是任意大小，其大小可以达到并包括对应于与作为输入图块的图像的相同区域的大小。同时，将理解，输入图块可以表示图像的任何合适比例，高达并且包括所有图像，如果机器学习系统和它运行在上面的系统能够支持这一点的话。

还将理解，当根据本文所述的其他技术进行放大时，也可以使用输入图像图块的周围像素来促进该图块的对应于输出图块的一部分的放大，并且不限于机器学习。

应当理解，训练图像可以是任何图像，但是如果对来自与要放大的镜头中的相同游戏(和/或具有类似外观的系列中的先前游戏)的图像进行训练，则机器学习系统将执行得更好。

这些插值技术中的任何一个还可选地使用来自其他图像帧(例如在图像帧之前和/或之后)的附加信息，从这些附加信息中(例如由于低分辨率图像中的混叠)可以确定不同和互补的信息。

在本申请的实施例中，当视点在场景周围移动时，来自原始视场的图像信息可以被重用(由此提供较高分辨率的参考像素，该参考像素随后可以取代或通知对低分辨率渲染部分的处理)。因此，例如，如果用户的头部向左移动，则场景的当前中心部分将向右平移并以低分辨率被渲染。然而，场景的该部分的高分辨率数据可以从它位于视图中心的更早帧中获得。

因此，可选地，帧可以包括指示其中心视图方向的元数据，并且当放大帧的外围或进一步外围区域时，系统可以查看这样的区域的给定部分是否以及何时最后在中心视图中，并从该帧获得高分辨率像素数据。

可替代地或另外地，该系统可以使用来自以高分辨率渲染该像素的最后一帧的给定像素的数据来构建球形参考图像；因此，在这种情况下，中心凹形视图被处理成画刷(brush)，在每一帧的后缘(trailing edge)留下高分辨率像素的痕迹。当用户环视环境时，画刷绘制当前视图的高分辨率版本。可以理解，外围区域(或视场，如果不使用中心凹形渲染)也可以以类似的方式被处理为画刷(其值被中心凹形像素覆盖)，以便球体的最大表面区域可以用这些更高分辨率的像素来绘制。同样的方法可以用于进一步的过渡区域(如果存在的话)。因此，简而言之，对于参考球体上的给定位置，存储最近的最高分辨率像素值，并随着用户继续环顾四周而更新。这些值也可以被删除，例如在预定周期之后，或者如果用户移动位置超过阈值量，或者游戏环境改变超过阈值量。

然后，这些像素可以直接用于适当地在进一步外围或外围的当前放大中填充像素，或者可以用作本文描述的任何技术的附加输入数据。因此，例如，当放大当前帧的外围和进一步外围区域时，球形参考图像可以包括(例如)40％的球体的高分辨率像素，因为用户最近看过自己后面并且因此在连续的20或30帧中以中心凹形分辨率(或视场分辨率)包围了球形视图的大部分。因此，放大器可以结合正在放大的当前帧的低分辨率数据来使用高分辨率数据(例如，在大小上对应于目标高分辨率图块，或稍大)作为输入。

应当理解，在当前低分辨率输入和伴随高分辨率输入两者上训练的神经网络通常在匹配高分辨率目标方面做得更好。在这些情况下，神经网络可以在几个分辨率(例如，中心凹形、外围和进一步外围分辨率)下的伴随输入上进行训练，以学习适应用户观看方向的相对随机分布(这将确定参考球形图像的哪些部分可以用更高分辨率的信息来填充)。作为该方法的改进，可以估计在玩游戏期间用户的视角方向的可能性的测量，并且可以使用在对应于该可能性的频率上选择的伴随分辨率来进行神经网络的训练。因此，例如，用户的正后方将很少被观看，因此伴随输入将在训练期间最经常地被选择为最低分辨率数据(但将不同于当前输入，因为它来自较旧的帧数据，因此可能仍然是互补的)，而正面视图的左和右可能获得高质量数据，因此在训练期间最经常地被选择为最高分辨率数据。

可替代地或另外地，可选地机器学习系统可以被训练以放大已经在至少一些游戏环境的低分辨率和高分辨率漫游上训练过的视频，该游戏环境可以例如由开发人员在环境中移动并以目标分辨率渲染图像球体来生成(与得到的帧速率/所花费的时间无关，因为目的不在于玩游戏)。以此方式，机器学习系统在待解决的游戏上被专门训练，并且还使用完美的目标和输入数据(用于整个球体的全分辨率信息，以及其下采样版本，或者较低分辨率渲染—如果这在本质上是不同的—例如使用脚本针对视频的两个版本的相同的游戏中进展而生成的)，通常再次以平铺格式(tiled format)渲染给放大器。

可以使用其他策略来帮助放大过程的保真度。例如，在使用立方体贴图渲染球体的情况下，可以在立方体贴图的一个或多个相应的面(facet)上训练相应的机器学习系统，从而专门处理球体内的前、后、上、下、左或右视图。这可以帮助机器学习系统调整到可用的典型分辨率数据，以及典型的内容(例如，向上和向下可能是不同的)。如果假设球体的这些部分的保真度不像其他部分那样重要，那么可选地，特别是用于上部和后面的机器学习系统可以更小或更简单。

因此，包括剩余球体的记录视频原则上可以具有减小的时间和/或空间分辨率，这些至少部分地通过游戏机和/或保持/分发服务器的并行或后续处理来补偿，以对帧进行插值和/或对帧进行放大。

然后，服务器可以向一个或多个观看者(或向提供此功能的另一服务器)提供(空间和/或时间)放大的视频图像，或者实际上，如果没有应用变体，则提供最初上传的视频图像。

然后，如本文其他地方所述的，观看者可以使用其客户端设备上的应用程序观看视频，并且跟踪原始用户的视点或自由地环顾四周，但与原始记录的图像相比，原始用户的中心凹形/视场之外的分辨率有所改善。

概要实施例

现在参考图15，在本说明书的概要实施例中，一种用于环形全景视频记录(circular panoramic video recording)的视频处理方法包括步骤s1510，该环形全景视频记录包括第一分辨率下的原始视场‘FoV’区域和较低的第二分辨率下的原始视场之外的进一步外围区域，如本文别处所描述的，该步骤s1510是对进一步外围区域执行空间放大到高于第二分辨率的分辨率。如本文其他地方所述，放大分辨率可以是过渡区域、原始FoV区域或可选中心凹形区域中的任何一个。虽然优选地以原始FoV区域或可选中心凹形区域的分辨率为目标，但特别对于被认为用户不感兴趣的区域，诸如他们上方的天空(在大多数游戏中)，或者基于原始用户或早期类似材料的观众的观看热图，可以使用较低的分辨率(例如过渡分辨率)。

对本领域技术人员来说，显而易见的是，上述方法中对应于如本文所描述和要求保护的装置的各种实施例的操作的变化被认为处于本发明的范围内，包括但不限于：

-在概要实施例的实例中，如本文其他地方所描述的，原始视场区域还包括高于第一分辨率的第三分辨率下的中心凹形区域，并且该方法包括执行将第一分辨率下的原始视场区域空间放大到基本上第三分辨率的步骤；

-在概要实施例的实例中，如本文别处所描述的，环形全景视频记录包括在中心凹形区域与原始视场区域、以及原始视场区域与进一步外围区域中的一个或多个之间提供的至少第一相应过渡区域；相应的过渡区域具有在其所过渡的两个区域的分辨率之间的分辨率；

-在概要实施例的实例中，如本文其他地方所描述的，空间放大由机器学习系统来执行，该机器学习系统在记录分辨率中较低输入分辨率下的输入图像数据和记录分辨率中较高输出分辨率下的对应目标图像数据上进行训练；放大的分辨率可以是过渡区域、原始FoV区域或可选中心凹形区域中的任何一个；

-在概要实施例的实例中，如本文别处所描述的，该方法包括以下步骤：对于至少预定数量的先前帧，存储每个相应视频帧中具有高于第二分辨率的分辨率的至少一个图像数据子集的位置；以及当执行环形全景视频的当前帧的给定部分的空间放大时，使用在当前帧的给定部分的位置处具有较高分辨率的一个或多个先前帧的图像数据作为输入；

-类似地，在概要实施例的实例中，如本文其他地方所描述的，原始视场区域还包括高于第一分辨率的第三分辨率下的中心凹形区域，并且该方法包括以下步骤：对于至少预定数量的先前帧，存储至少第三分辨率下的图像数据在每个相应视频帧中的位置，以及当执行环形全景视频的当前帧的给定部分的空间放大时，使用在当前帧的给定部分的位置处具有至少第三分辨率的一个或多个先前帧的图像数据作为输入；

-在概要实施例的实例中，如本文别处所描述的，该方法包括以下步骤：使用至少一个图像数据子集来生成参考环形全景图像，该图像数据子集在预定数量的先前相应视频帧中的每一帧中具有高于第二分辨率的分辨率，该环形全景图像因此存储在参考环形全景图像上的每个方向上最近渲染的较高分辨率的渲染像素(可选地在没有其他数据可用的情况下使用第二分辨率的最近数据)；以及当执行环形全景视频的当前帧的给定部分的空间放大时，使用来自参考环形全景图像的对应部分的图像数据作为输入；

-在该实例中，如本文别处所描述的，可选地，给定图像帧的相应较高分辨率区域的像素数据优先于相应较低分辨率区域的像素数据由参考环形全景图像存储。

-类似地，在该实例中，如本文别处所描述的，可选地，空间放大由机器学习系统执行，机器学习系统在以下数据上进行训练：记录分辨率中较低输入分辨率下的输入图像数据连同来自参考环形全景图像的对应输入数据，以及记录分辨率中较高输出分辨率下的对应目标图像数据。

-在概要实施例的实例中，使用立方体贴图来渲染环形全景图像，并且空间放大由在立方体贴图的一个或多个相应面上进行训练的多个机器学习系统来执行。

-在概要实施例的实例中，如本文其他地方所描述的，环形全景图像都是圆柱形或球形。

现在参考图16，在本说明书的概要实施例中，一种视频输出方法包括以下步骤。

第一步骤s1610，如本文别处所描述的，获得根据任何前述要求进行空间放大后的环形全景视频记录。该视频可以从执行该放大的设备或其被上载到的服务器获得，或者经由流获得，或者可替代地可以通过执行该放大(例如在广播服务器或在客户端设备处)来获得。

第二步骤s1620，如本文别处所述，向用户输出用于显示的视频。通常，这将被输出到信号源80(例如，用户的客户端设备)的端口以供HMD观看(或者在诸如移动电话或手持控制台的客户端设备的情况下，潜在地由可能安装在HMD框架中的客户端设备本身显示)。

可选地，在概要实施例的实例中，环形全景视频记录包括对每一帧的原始视场区域的记录；并且在回放期间，当用户自己的视场与原始视场偏离阈值量(例如朝向视点的箭头，或者在当前图像的相关边距处的辉光)时，如本文别处所描述的，显示原始视场在环形全景视频内的位置的可视指示。

可以理解，上述方法可以通过软件指令或通过包含或替代专用硬件在适用时适当地适配的传统硬件上来执行。

因此，对传统等效设备的现有部分的所需适配可以以计算机程序产品的形式实现，该计算机程序产品包括存储在非暂时性机器可读介质(诸如软盘、光盘、硬盘、固态盘、PROM、RAM、闪存或这些或其他存储介质的任何组合)上的处理器可实现指令，或者以硬件实现为ASIC(专用集成电路)或FPGA(现场可编程门阵列)或适合用于适配传统等效设备的其他可配置电路。另外，这样的计算机程序可以经由网络(诸如以太网、无线网络、互联网或这些或其他网络的任何组合)上的数据信号来发送。

据此，在本说明书的概要实施例中，一种视频处理系统(诸如处理系统910，例如诸如PlayStation

视频游戏控制台，通常与头戴式显示器810结合)适于对环形全景视频记录执行空间放大，该环形全景视频记录包括第一分辨率下的原始视场区域和较低的第二分辨率下的原始视场之外的进一步外围区域，并且该视频处理系统包括空间放大处理器(例如CPU 911和/或GPU912)，其适于(例如通过适当的软件指令)将进一步外围区域空间放大到高于第二分辨率的分辨率。

对本领域技术人员来说，显而易见的是，上述视频处理系统中对应于如本文所描述和要求保护的各种方法和技术的变化被认为处于本发明的范围内。

类似地，在本描述的概要实施例中，视频回放设备(诸如处理系统910，例如诸如PlayStation

的视频游戏控制台，通常与头戴式显示器810结合)包括回放处理器(例如CPU 911和/或GPU 912)，其适于(例如通过适当的软件指令)获得根据任何前述权利要求进行空间放大后的环形全景视频记录；以及图形处理器(例如CPU 911和/或GPU 912)，其适于(例如通过适当的软件指令)向用户输出用于显示的视频。

同样，对本领域技术人员来说，显而易见的是，上述视频处理系统中对应于如本文所描述和要求保护的各种方法和技术的变化被认为处于本发明的范围内。

前述讨论仅公开并描述了本发明的示例性实施例。如本领域技术人员将理解的，本发明可以在不脱离其精神或本质特性的情况下以其他特定形式具体体现。因此，本发明的公开旨在说明而不是限制本发明以及其他权利要求的范围。本公开，包括本文教学的任何易于辨别的变体，部分地定义了前述权利要求术语的范围，使得没有任何发明主题是专用于公开的。

Claims

1.一种用于环形全景视频记录的视频处理方法，所述环形全景视频记录包括第一分辨率下的原始视场区域和较低的第二分辨率下的所述原始视场之外的进一步外围区域，所述方法包括以下步骤：

对所述进一步外围区域执行空间放大到高于所述第二分辨率的分辨率。

2.根据权利要求1所述的视频处理方法，其中，所述空间放大是到基本上等于所述第一分辨率的分辨率。

3.根据权利要求1所述的视频处理方法，其中，所述原始视场区域还包括高于所述第一分辨率的第三分辨率下的中心凹形区域，并且所述方法包括以下步骤：

对所述第一分辨率下的所述原始视场区域执行空间放大到基本上所述第三分辨率。

4.根据权利要求1所述的视频处理方法，其中

所述环形全景视频记录包括至少第一相应过渡区域，所述第一相应过渡区域在中心凹形区域与所述原始视场区域、以及所述原始视场区域与所述进一步外围区域中的一个或多个之间提供；以及

相应的过渡区域具有在其所过渡的两个区域的分辨率之间的分辨率。

5.根据权利要求1所述的视频处理方法，其中，所述空间放大由机器学习系统执行，所述机器学习系统在记录分辨率中较低输入分辨率下的输入图像数据和所述记录分辨率中较高输出分辨率下的对应目标图像数据上进行训练。

6.根据权利要求1所述的视频处理方法，包括以下步骤：

对于至少预定数量的先前帧，存储具有高于所述第二分辨率的分辨率的至少一个图像数据子集在每个相应视频帧中的位置；以及

当执行所述环形全景视频的当前帧的给定部分的空间放大时，使用在所述当前帧的所述给定部分的位置处具有较高分辨率的一个或多个先前帧的图像数据作为输入。

7.根据权利要求1所述的视频处理方法，其中，所述原始视场区域还包括高于所述第一分辨率的第三分辨率下的中心凹形区域，并且所述方法包括以下步骤：

对于至少预定数量的先前帧，存储至少所述第三分辨率下的图像数据在每个相应视频帧中的位置；以及

当执行所述环形全景视频的当前帧的给定部分的空间放大时，使用在所述当前帧的所述给定部分的位置处具有至少所述第三分辨率的一个或多个先前帧的图像数据作为输入。

8.根据权利要求1所述的视频处理方法，包括以下步骤：

使用在预定数量的先前相应视频帧中的每一帧中具有高于所述第二分辨率的分辨率的至少一个图像数据子集来生成参考环形全景图像，所述环形全景图像因此存储在所述参考环形全景图像上的每个方向上最近渲染的较高分辨率渲染像素；以及

当执行所述环形全景视频的当前帧的给定部分的空间放大时，使用来自所述参考环形全景图像的对应部分的图像数据作为输入。

9.根据权利要求8所述的视频处理方法，其中，给定图像帧的相应较高分辨率区域的像素数据优先于相应较低分辨率区域的像素数据由所述参考环形全景图像存储。

10.根据权利要求8或权利要求9所述的视频处理方法，其中，所述空间放大由机器学习系统执行，所述机器学习系统在以下数据上进行训练：记录分辨率中较低输入分辨率下的输入图像数据、连同来自所述参考环形全景图像的对应输入数据、以及所述记录分辨率中较高输出分辨率下的对应目标图像数据。

11.根据权利要求1所述的视频处理方法，其中，使用立方体贴图来渲染所述环形全景图像，并且所述空间放大由在所述立方体贴图的一个或多个相应面上进行训练的多个机器学习系统来执行。

12.根据权利要求1所述的视频处理方法，其中所述环形全景图像都是圆柱形或球形。

13.一种视频输出方法，包括以下步骤：

获得根据任何前述权利要求进行空间放大后的环形全景视频记录；以及

向用户输出用于显示的视频。

14.根据权利要求13所述的视频输出方法，其中

所述环形全景视频记录包括对每一帧的所述原始视场区域的记录；以及

在回放期间，当用户自己的视场与所述原始视场偏离阈值量时，显示所述原始视场在所述环形全景视频内的位置的可视指示。

15.一种包括计算机可执行指令的计算机程序，所述计算机可执行指令适于使计算机系统执行用于环形全景视频记录的视频处理方法，所述环形全景视频记录包括第一分辨率下的原始视场区域和较低的第二分辨率下的所述原始视场之外的进一步外围区域，所述方法包括以下步骤：

16.一种适于对环形全景视频记录执行空间放大的视频处理器，所述环形全景视频记录包括第一分辨率下的原始视场区域和较低的第二分辨率下的所述原始视场之外的进一步外围区域，所述视频处理器包括：

空间放大处理器，适于将所述进一步外围区域空间放大到高于所述第二分辨率的分辨率。

17.一种视频回放设备，包括

回放处理器，适于获得根据任何前述权利要求进行空间放大后的环形全景视频记录；以及

图形处理器，适于向用户输出用于显示的视频。