CN118525521A

CN118525521A - 用于实现高保真放大的交互式视频播放技术

Info

Publication number: CN118525521A
Application number: CN202280087113.2A
Authority: CN
Inventors: R·克里什南
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2022-01-07
Filing date: 2022-12-25
Publication date: 2024-08-20
Also published as: US20230222754A1; WO2023133060A1

Abstract

当呈现第一视频(400)时响应于缩放命令(206)，将第二视频(408)与所述第一视频组合并呈现。所述第一视频和第二视频在基本上相同的时间以基本上相同的分辨率从彼此基本上相同的相机位置生成。然而，所述第二视频由具有小于用于生成所述第一视频的物理或虚拟镜头的视场(FOV)的FOV的物理或虚拟镜头生成。模块(508、510)被描述为使用对齐度量将所述第二视频正确地放置在内部视频上并使其显得无缝。

Description

用于实现高保真放大的交互式视频播放技术

技术领域

本申请大体上涉及用于缩放视频而不损失分辨率的模块。

背景技术

如本文所认识到的，当对视频进行缩放时，在高水平缩放下图像变得像素化。这可以通过提供具有极高分辨率的视频来缓解，但此类视频会消耗过多的存储和带宽。目前还没有针对上述计算机相关的技术问题的适当解决方案。

发明内容

因此，在一个方面，设备包括至少一个存储设备，该至少一个存储设备不是暂时性信号并且进而包括指令，这些指令可由至少一个处理器执行以使该处理器呈现包含具有第一尺寸的第一对象的第一视频。指令可执行，以：响应于缩放命令而呈现包含具有第二尺寸的第一对象的第二视频，该第二尺寸大于第一尺寸；以及至少部分地使用单个维度中该第一视频中的像素的数量与该第二视频中的像素的数量的比率来将该第二视频的帧与该第一视频的帧对齐。

在该第一方面的示例性具体实施中，指令可执行，以：识别第二视频相对于第一视频的帧的感兴趣区域(ROI)的水平偏移；识别该第二视频相对于该第一视频的该帧的该ROI的垂直偏移；以及使用这些偏移将该第二视频的帧与该第一视频的帧对齐。在此类具体实施中，设备可以包括具有对应的第一视场(FOV)和第二视场(FOV)的第一物理或虚拟相机和第二物理或虚拟相机，这些虚拟相机被配置用于生成对应的第一视频和第二视频，其中第一FOV大于第二FOV，并且其中该第一相机和第二相机彼此同时捕捉第一对象的图像。

如果需要，指令可以进一步可执行，以禁用相机的自动曝光，从而促进第一视频和第二视频的混合。

在上面的实例中，指令可执行，以使第一视频和第二视频在时间上同步并将该第一视频和该第二视频编码为对应的第一比特流和第二比特流。指令可执行，以使用对应的第一解码器和第二解码器同时解码两个比特流。在其他实施例中，指令可执行，以将第一比特流和第二比特流压缩成单个比特流并使用单个解码器来解码该单个比特流。

在另一方面，视频播放器包括至少一个处理器，该至少一个处理器被配置为：输出具有第一视场(FOV)的第一视频和具有小于第一FOV的第二FOV的第二视频的像素。处理器被配置用于执行至少一个解码模块(DM)和至少一个渲染模块(RM)以输出像素。DM包括至少一个解码器，并且RM包括至少一个着色器。处理器被配置用于至少部分地使用DM和/或RM，响应于缩放命令而向至少一个显示器提供第一视频和第二视频的至少部分。

在该第二方面的一些具体实施中，处理器可以被配置用于相对于第一视频中的感兴趣区域(ROI)使用对齐度量将第二视频与该第一视频对齐。将视频对齐可以使用固定的对齐度量，或者这些对齐度量可以随时间改变，在这种情况下，它们可以在由DM解码的比特流中以元数据接收或者使用运动估计和图像匹配来计算。

在第二方面的具体实施中，缩放命令建立放大水平(ML)，并且处理器可以被配置为使用该ML确定第一视频和第二视频的哪些部分在显示器上是可见的。在此类情况下，处理器可以被配置为：设置ML的上限和下限以避免导致图片质量下降的放大水平。处理器也可以被配置用于：响应于增加ML的缩放命令，减少第一视频的可见像素的数量并且增加第二视频的可见像素的数量。

在第二方面的具体实施中，处理器可以被配置用于：执行RM的至少一个着色器，以使用与缩放命令相关联的放大水平(ML)、对齐度量以及与视频相关联的输入比特流的帧数量用于同步，以创建观看单个视频而不是两个单独视频的感觉。处理器可以被配置用于：使用至少一个着色器来羽化视频以掩盖视频之间的边界。

在第二方面的一些实施例中，处理器可以被配置用于：当由缩放命令建立的放大水平(ML)是第一ML时，跳过对第二视频的至少一部分的渲染，使得该第二视频的该部分不被渲染并且DM的至少一个解码器处于非活动状态。示例性处理器可以进一步被配置用于：响应于ML的改变，仅当要解码的当前帧是关键帧时，才将至少一个解码器从非活动状态改变为活动状态。

在另一方面，方法包括：接收表示对应的第一视频、第二视频和第三视频的至少第一比特流、第二比特流和第三比特流。该方法包括：响应于至少第一所需放大水平(ML)，利用第一解码器解码第一比特流以渲染第一视频，并利用第二解码器解码第二比特流以渲染第二视频，并且在显示器上呈现该第一视频和第二视频。该方法也包括：响应于大于第一所需ML的第二所需ML，利用第一解码器解码第三比特流以渲染第三视频，并利用第二解码器解码第二比特流以渲染第二视频，并且在显示器上呈现该第二视频和第三视频。

在该方面的一些实施例中，该方法包括：使用从解码器中的至少一个解码器传递的比特流标识符(ID)来根据第一所需ML或第二所需ML显示每个比特流的解码像素。响应于至少一个比特流ID的改变，可以更新渲染以使用不同纹理和采样坐标。

在该第三方面的实例中，该方法可以包括：使用第一解码器的相同实例来处理多个比特流，根据用户可以增加或减小ML的速度来对齐和均匀地隔开比特流的关键帧，以及预先计算每个比特流的关键帧位置和偏移。此外，示例性方法可以包括：使用至少一个解码器来基于所需ML预测要处理的下一个比特流，以及解码该下一个比特流以在解码像素在显示器上是可见的之前渲染该解码像素，以促进ML的变化率。

本申请关于其结构和操作的细节可以参考附图来最佳地理解，在附图中相同附图标记指代相同部分，且在附图中：

附图说明

图1是根据本原理的实例系统的框图；

图2示出了符合本原理的实例流程图格式的示例性逻辑；

图3示出了用户通过沿着Z轴向前移动的方式进行缩放；

图4示意性地示出了缩放；

图5示意性地示出视频之间的偏移；

图5A是渲染模块和解码模块的实例的框图；

图6示出了来自五个相机的视图；以及

图7示出了多FOV和多位置内容捕获。

具体实施方式

本公开大体上涉及包括消费电子产品(CE)设备网络的方面的计算机生态系统，该设备网络诸如但不限于计算机游戏网络，包括运行于5G或ATSC 3.0的无线网络。本文的系统可以包含服务器和客户端组件，它们可以通过网络连接以使得数据可以在客户端和服务器组件之间交换。客户端组件可以包括一个或多个计算设备，包括游戏控制台(诸如Sony或者由Microsoft或Nintendo或其他制造商制造的游戏控制台)、虚拟现实(VR)耳机、增强现实(AR)耳机、便携式电视(例如，智能TV、支持互联网的TV)、便携式计算机(诸如笔记本电脑和平板电脑)以及其他移动设备(包括智能电话和下文讨论的其他实例)。这些客户端设备可以用多种操作环境操作。举例来说，一些客户端计算机可以采用例如Linux操作系统、来自微软的操作系统或Unix操作系统，或由Apple,Inc.或Google制作的操作系统。这些操作环境可以用于执行一个或多个浏览程序，诸如由Microsoft或Google或Mozilla制作的浏览器或者可访问由下文论述的因特网服务器托管的网站的其它浏览器程序。并且，根据本发明原理的操作环境可以用于执行一个或多个计算机游戏程序。

可以使用服务器和/或网关，其可以包含执行指令的一个或多个处理器，所述指令配置服务器以通过诸如因特网等网络接收和传输数据。或者，客户端和服务器可通过本地内联网或虚拟专用网络而连接。服务器或控制器可以由诸如Sony个人计算机等游戏控制台来实例化。

信息可以通过网络在客户端与服务器之间交换。为此目的且为了安全性，服务器和/或客户端可包含防火墙、负载平衡器、临时存储装置和代理，以及为了可靠性和安全性的其它网络基础设施。一个或多个服务器可以形成实施向网络成员提供安全社区的方法的设备，安全社区为诸如在线社交网站或游戏玩家网络。

处理器可以是单芯片或多芯片处理器，其可借助于诸如地址线、数据线和控制线等各种线以及寄存器和移位寄存器来执行逻辑。

包含于一个实施例中的组件可以任何适当组合在其它实施例中使用。举例来说，可将本文中描述和/或图中所描绘的各种组件中的任一者进行组合、互换或从其它实施例排除。

“具有A、B和C中的至少一者的系统”(类似地，“具有A、B或C中的至少一者的系统”和“具有A、B、C中的至少一者的系统”)包含具有单独的A、单独的B、单独的C、A和B一起、A和C一起、B和C一起以及/或A、B和C一起的系统。

现在具体来说参考图1，示出实例系统10，其可以包含在上文所提及且在下文根据本发明原理进一步描述的实例设备中的一者或多者。包含于系统10中的实例设备中的第一个是消费电子产品(CE)设备，诸如音频视频设备(AVD)12，诸如(但不限于)带有TV调谐器(等效地，控制TV的机顶盒)的支持互联网的TV。AVD 12替代性地还可以是计算机化的支持互联网的(“智能”)电话、平板计算机、笔记本计算机、头戴式设备(HMD)和/或头戴式耳机(诸如智能眼镜或VR头戴式耳机)、另一种可穿戴计算机化的设备、计算机化的支持互联网的音乐播放器、计算机化的支持互联网的双耳耳机、计算机化的支持互联网的可植入设备(诸如植入式皮肤设备)等。无论如何，应当理解，AVD 12配置成执行本原理(例如，与其他CE设备通信以执行本原理、执行本文中所描述的逻辑以及执行本文文中所描述的任何其他功能和/或操作)。

因此，为了遵循此类原理，AVD 12可由图1中示出的一些或全部组件来建立。举例来说，AVD 12可包含一个或多个支持触摸功能的显示器14，该显示器可以通过高清晰度或超高清晰度“4K”或更高的平面屏幕实施。支持触摸功能的显示器14可以包含例如电容性或电阻性触摸感测层，其具有与本发明原理一致的用于触摸感测的电极网格。

AVD 12还可以包含用于根据本发明原理输出音频的一个或多个扬声器16，以及用于将可听命令输入到AVD 12以控制AVD 12的至少一个额外输入设备18，诸如音频接收器/麦克风。实例AVD 12还可以包含一个或多个网络接口20以用于在一个或多个处理器24的控制下通过诸如因特网、WAN、LAN等至少一个网络22进行通信。因此，接口20可以是(但不限于)Wi-Fi收发器，其为无线计算机网络接口的实例，诸如(但不限于)网状网络收发器。应理解，处理器24控制AVD 12以遵循本发明原理，包含本文所描述的诸如控制显示器14以在其上呈现图像和从其接收输入的AVD 12的其它元件。此外，应注意，网络接口20可以是有线或无线调制解调器或路由器，或诸如无线电话收发器等其它适当接口，或如上文所提及的Wi-Fi收发器等。

除前述内容之外，AVD 12还可以包含一个或多个输入和/或输出端口26，诸如高清多媒体接口(HDMI)端口或通用串行总线(USB)端口，以物理上连接到另一CE设备和/或头戴受话器端口以将头戴受话器连接到AVD 12，以用于通过头戴受话器从AVD 12向用户呈现音频。举例来说，输入端口26可以经由电线或无线地连接到音频视频内容的有线电视或卫星源26a。因此，源26a可以是单独或集成机顶盒，或卫星接收器。或者源26a可以是含有内容的游戏控制台或磁碟机。源26a当被实施为游戏控制台时可以包含下文关于CE设备48描述的组件中的一些或全部。

AVD 12可进一步包含一个或多个计算机存储器/计算机可读存储介质28，诸如作为非暂时性信号的基于磁盘的或固态存储设备，所述存储设备在一些情况下实施于AVD的机箱中作为独立设备，或作为在用于重放AV节目的AVD的机箱内部或外部的个人视频录制设备(PVR)或影碟机，或作为可装卸式存储器介质或下文描述的服务器。并且，在一些实施例中，AVD 12可包含位置或定位接收器，诸如(但不限于)手机接收器、GPS接收器和/或高度计30，其被配置成从卫星或手机基站接收地理位置信息且将信息提供到处理器24和/或结合处理器24来确定AVD 12所安置的高度。组件30也可以通过惯性测量单元(IMU)实施，所述惯性测量单元通常包含加速度计、陀螺仪和磁力计的组合以在三个维度中或通过基于事件的传感器确定AVD 12的位置和定向。

继续AVD 12的说明，在一些实施例中，AVD 12可以包含一个或多个相机32，其可以是热成像相机、诸如网络摄像机等数码相机、基于事件的传感器，和/或集成到AVD 12中且可由处理器24控制以根据本发明原理搜集图片/图像和/或视频的相机。AVD 12上还可以包含蓝牙收发器34和其它近场通信(NFC)元件36以用于分别使用蓝牙和/或NFC技术与其它设备通信。实例NFC元件可为射频识别(RFID)元件。

更进一步地，AVD 12可以包括向处理器24提供输入的一个或多个辅助传感器38(例如，压力传感器、运动传感器，诸如加速计、陀螺仪、循环仪或磁传感器、红外(IR)传感器、光学传感器、速度和/或节奏传感器、基于事件的传感器、姿势传感器(例如，用于感测姿势命令))。举例来说，辅助传感器38中的一个或多个辅助传感器可以包含形成支持触摸功能的显示器14自身的层的一个或多个压力传感器，且可以是(但不限于)压电压力传感器、电容性压力传感器、压阻式应变计、光学压力传感器、电磁压力传感器等。

AVD 12还可以包含用于接收OTA TV广播的空中TV广播端口40以向处理器24提供输入。除前述内容之外，还应注意，AVD 12还可以包含红外(IR)发射器和/或IR接收器和/或IR收发器42，诸如IR数据关联(IRDA)设备。可以提供电池(未示出)用于对AVD 12供电，其可以是可将动能变为电力以对电池充电和/或对AVD 12供电的动能采集器。还可以包含图形处理单元(GPU)44和现场可编程门阵列46。可以提供一个或多个触觉/振动生成器47以用于生成可由持有设备或与设备接触的人感觉到的触觉信号。触觉生成器47因此可以使用经由马达的可旋转轴杆连接到偏心和/或不平衡重量的电马达使AVD 12的全部或部分振动，使得轴杆可以在马达(其又可以由诸如处理器24等处理器控制)的控制下旋转，以在各种方向上产生各种频率和/或振幅的振动以及力模拟。

仍参考图1，除AVD 12之外，系统10还可以包含一个或多个其它CE设备类型。在一个实例中，第一CE设备48可以是计算机游戏控制台，其可用以经由直接发送到AVD 12的命令和/或通过下文描述的服务器将计算机游戏音频和视频发送到AVD 12，而第二CE设备50可以包含与第一CE设备48类似的组件。在示出的实例中，第二CE设备50可被配置成由玩家操控的计算机游戏控制器或由玩家穿戴的头戴式显示器(HMD)。HMD可以包含用于分别呈现AR/MR内容或VR内容的平视透明或不透明显示器。

在示出的实例中，示出仅两个CE设备，但应了解，可以使用更少或更多的设备。本文的设备可以实施针对AVD 12示出的组件中的一些或全部。在以下图中示出的组件中的任一个可以并入有在AVD 12的情况中示出的组件中的一些或全部。

现在参考前述至少一个服务器52，其包含至少一个服务器处理器54、诸如基于磁盘的或固态存储设备等至少一个有形计算机可读存储介质56，以及至少一个网络接口58，该至少一个网络接口在服务器处理器54的控制下允许通过网络22与图1的其它设备通信，且实际上可以根据本发明原理促进服务器与客户端设备之间的通信。应注意，网络接口58可以是例如有线或无线调制解调器或路由器、Wi-Fi收发器或其它适当接口，诸如例如无线电话收发器。

因此，在一些实施例中，服务器52可以是因特网服务器或整个服务器“集群”，且可以包含和执行“云”功能以使得系统10的设备可以在用于例如网络游戏应用的实例实施例中经由服务器52访问“云”环境。或者服务器52可以由与图1中示出的其它设备在相同空间中或附近的一个或多个游戏控制台或其它计算机实施。

以下图中示出的组件可以包含图1中示出的一些或所有组件。本文所描述的任何用户界面(UI)可以合并和/或扩展，且UI元件可以在UI之间混合和匹配。

图2示出了在实例中，在框200处由对应的虚拟或物理相机以及相关联的物理或虚拟镜头生成“N”个视频。N可以是等于或大于二的整数。在一个实例中，N等于五。

在一个实例中，N个视频中的每一个视频都具有相同的分辨率，诸如但不限于4K。然而，在其他实例中，N个视频可能不全部具有相同的分辨率。

在任何情况下，在一个实施例中，视频可以在相同或基本上相同的时间从相同或基本上相同的位置获取。“基本上相同的位置”是指在物理上定位两个相机的限制内，例如，在相同的地方——相机可以紧密并置，尽管以相机外壳的宽度分开。“基本上相同的时间”是指在相同的真实或虚拟时间或者彼此相差几秒之内。

然而，第一视频使用具有第一视场(FOV)的物理或虚拟镜头来生成，第二视频使用具有小于第一FOV的第二FOV的物理或虚拟镜头来生成，以此类推，其中每个连续视频都以与链中前一个视频相比逐渐变小的FOV来生成。然而，每个FOV可以以相同的位置或点或中心为中心。应注意，除了逐渐变小的FOV之外或者代替逐渐变小的FOV，物理或虚拟相机可以具有逐渐变短的焦距。

移动至框202，通过例如将每个视频的关键帧彼此对齐(并且在特定实例中将视频编码为H264)来使视频彼此同步。下面进一步描述对齐。

当用户想要播放视频时，在框204处使用第一视频(即，具有最宽的FOV的视频)来呈现该视频。在用户在框206处使用输入设备或通过当佩戴呈现视频的HMD时沿着Z轴移动他的头部来放大时，具有下一个变小的FOV的视频与第一视频组合并最终取代该第一视频。继续缩放会引起呈现逐渐变小的FOV的连续视频，从而模拟缩放而不损失保真度。因此，在播放期间，根据预先计算的对齐度量将来自长焦相机的内容插入到来自广角相机的内容中，以创建观看单个视频的感觉。由于精确对齐，对于观看者来说，在外部视频内显示内部视频是不明显的。

图3示出了佩戴HMD 302的用户300通过沿着Z轴304移动来进行缩放。

图4进一步示出。应注意，图4示出了除了使用不同FOV之外还在不同位置捕获场景的具体实施，而下面描述的图6示出了其中从相同的位置捕获两个以上视频的情况。更详细地，在针对图4示出的实例中，使用具有不同FOV的多个(例如，三个)镜头来捕获来自相同的真实或虚拟相机位置的三个视频，并且使用具有对应的不同FOV的相同的三个镜头来捕获来自第二位置的三个视频。因此，在录制之后，六个视频被同时捕获。

第一视频400以其最广角模式402示出。在用户进行放大时，视频以其标准角度模式404示出，并且最终在继续缩放下以其长焦模式406示出，其中每种模式填充显示器。应当理解，当用户进行缩放时，示出的三种模式之间的过渡是连续且渐进的，为了简单起见仅示出了三种一般模式。

当在第一视频的长焦模式406中的缩放已经达到阈值限制时，进一步缩放会引起将该第一视频与在其最广角模式410中的第二视频408组合。应当理解，在缩放从第一视频的长焦模式406进行到第二视频408的广角模式410时，该第二视频408可以最终或立即完全取代该第一视频。

当用户继续进行放大时，第二视频408以其标准角度模式412示出，并且最终在持续缩放下以其长焦模式414示出，其中每种模式填充显示器。

来自第二视频的长焦模式414的持续缩放会引起将第二视频与具有其最广角模式418的第三视频416组合。应当理解，在缩放从第二视频的长焦模式414进行到第三视频416的广角模式418时，该第三视频414可以最终或立即完全取代该第二视频。

在用户继续进行放大时，第三视频416以其标准角度模式420示出，并且最终在继续缩放下以其长焦模式422示出，其中每个模式填充显示器。应注意，如果仅从单个位置捕获场景，则步骤408至步骤422不可用。

虽然图4示出了三个视频的使用，每个视频均由具有逐渐变小的FOV的物理或虚拟镜头产生，但是应当理解，仅需要使用两个视频，或者可以使用三个以上的视频，这与图4的原理一致。

应注意，可以针对多个可能的用户焦点的区域生成多个视频，每个视频具有逐渐变小的FOV。中心焦点可以用作基线，并且然后可以使用在距该点的距离和方向方面的偏移并将其作为元数据发送，以指示用户何时聚焦于以该偏移与中心焦点分开的点。对于每个偏移，一系列嵌套视频可以被预先计算或者可以在用户聚焦于特定点时针对特定焦点被动态计算。如果用户碰巧聚焦在不存在具有逐渐变小的FOV的嵌套视频的点上，则可以使用常规放大技术。

先前用户关注每个场景的热图可以用于确定场景中的哪些点应该具有针对其生成的一系列嵌套视频。仅可以解码用户关注的区域的视频。

现在参考图5来讨论可以在捕获之前或捕获期间确定的对齐度量。

插入比率(R)可以被确定为单个维度中外部视频(较宽FOV)中的像素的数量与内部视频(较窄FOV)中的像素的数量的比率。在图5中，W0是外部视频的以像素为单位的宽度，且W1是内部视频的以像素为单位的宽度，并且在对齐之后，R＝W0/W1。插入比率取决于两个相机的焦距以及相机传感器的分辨率。应注意，即使内部视频可能具有与外部视频相同的分辨率，但在对齐之后内部视频可以以较小的尺寸显示。

水平偏移(Oh)在图5中示出且为内部视频或ROI的水平偏移，从外部视频的帧的中心测量。类似地，垂直偏移(Ov)是内部视频或ROI的垂直偏移，从外部视频的帧的中心测量。

图5示出了较宽FOV视频和较窄FOV视频的帧在显示期间沿着使用上述偏移的对齐度量对齐。具体地，确定相机位置，并且具有不同FOV的两个相机同时捕获相同场景。在最简单的情况下，Oh＝Ov＝0，其中ROI是视频帧的中心。通过使用针对广角镜头的为60的FOV和针对长焦镜头的为32.2左右的FOV，可以实现插入比率为二。应注意，从长焦镜头捕获的视频可能与从广角镜头捕获的视频具有相同的分辨率。插入比率并不是采集期间单个维度中第一视频的像素的数量与第二视频的像素的数量的比率。插入比率是基于这些视频在对齐之后的显示方式来确定的。在该实例中，两个视频都可以捕获为3840x2160。但在对齐之后，内部视频将初始显示为1920x1080。因此，插入比率将为3840/1920＝2。禁用自动功能(诸如相机的自动曝光)可以使显示期间两帧的混合更加容易。

请参考5A。使来自上述两个相机的原始视频(标记为500、502)同步并编码为两个单独的比特流。对于这种情况，使用两个解码器来同时解码两个比特流。在使用一个解码器的其他实施例中，来自每个相机的视频数据可以被压缩为单个比特流，但是可独立解码，例如，作为HEVC瓦片。在任何情况下，生成用于显示器506的输出像素的视频播放器504包括解码模块(DM)508和渲染模块(RM)510。DM继而包括能够解码压缩比特流的一个或多个解码器512。RM包括GPU着色器，其可以对视频纹理进行采样并将其渲染到显示器上。

对齐度量可以是固定的或者可以随时间改变。对于固定情况，对齐度量可以仅传送到DM和/或RM一次。对于动态对齐度量，DM和/或RM可以随度量的每次改变而更新。实现此目的的一种方法是将对齐度量作为压缩比特流中的元数据传递。在其他实施例中，可以使用运动估计和图像匹配算法自动计算对齐度量。

将解码的视频数据渲染到显示器的视频播放器使用设备(诸如鼠标或视频游戏控制器)来接受来自用户的放大控制。用户选择的放大水平(ML)用于确定在显示器上可见的外部视频和内部视频的部分。系统可以设置ML的上限和下限，以避免导致图片质量下降的放大水平。当用户进行放大时，ML的值增加，并且当用户进行缩小时，ML的值减小。当ML增加时，外部视频的可见像素的数量减少，并且内部视频的可见像素的数量增加。RM的GPU着色器使用ML的值、对齐度量和每个比特流的帧数量用于同步，以创建观看单个视频而不是两个单独视频的感觉。在其他实施例中，附加的“羽化”步骤可以由着色器执行，以掩盖内部视频和外部视频在交界处的边界。

当ML较小且内部视频的可见像素的数量较低时，可以跳过对内部视频的渲染，而所显示视频的图片质量没有明显差异。如果内部视频的解码视频数据没有被显示，则可以消除对不会显示的视频数据的解码，从而提高系统的性能和效率。实现这一点的方法之一是利用ML确定需要解码哪些视频比特流，以及仅渲染来自正在主动解码的比特流的帧。当解码器处于活动状态时，比特流的访问单元(AU)被正常解码，并且解码视频数据被发送到RM以渲染到显示器。当解码器处于非活动状态时，可以部分或完全跳过对AU的解码，并且不将与不活动解码器相对应的比特流的视频数据渲染到显示器。

在ML改变时，处于活动状态的解码器可能会变为非活动的，反之亦然。虽然可以立即将解码器从活动状态切换到非活动状态，但是从非活动状态到活动状态的切换可能不是立即的。其原因在于，当前AU可能依赖于前一个AU，并且如果在解码器处于非活动状态时跳过对前一个AU的解码，则该当前AU在解码时可能会出现错误。为了避免这个问题，可以仅当当前AU是关键帧(IDR帧)时才执行从非活动状态到活动状态的切换。为了支持这一点，可以使用寻找状态，其中，当ML跨越阈值时，处于非活动状态的解码器首先切换到解码器等待IDR的寻找状态。当当前AU为IDR时，解码器从寻找状态切换到活动状态。DM将活动解码器的比特流ID传递给RM，并将无效ID传递给处于寻找状态或非活动状态的解码器的RM。RM使用这些ID仅将有效像素渲染到显示器上。

对于需要高放大水平或从缩小视图到放大视图更平滑过渡的应用，可能需要两个以上的相机视图。对于此类用例，可以使用两个以上具有不同焦距或FOV的相机。如前，使用这些相机从单个位置同时捕捉相同场景。

可以使用五个相机捕获的视图的实例在图6中示出(其中五个视图标记为“广角1”、“广角2”、“长焦1”、“长焦2”和“标准”)。

可以使图6中来自每个相机的视频数据同步并压缩为单独的比特流或独立可解码的子流。虽然所有这些流可以被同时解码并根据所需ML有选择地渲染，但更有效的方法是仅解码最终将显示的流。DM中所需的解码器的数量可以等于任意时刻同时被渲染的视频流的最大数量。对于图5中示出的一个外部视频和一个内部视频的设置，即使使用两个以上的视频流，所需的解码器的数量也可以限制为两个。这是使用下文所述的“流切换”策略来实现的。

每个解码器要处理的流由ML的值决定。当应用启动时，第一解码器(D1)可以处理最广角比特流(B1)，并且第二解码器(D2)可以处理具有较低FOV的第二比特流(B2)。在用户增加ML时，将存在一点，超过该点B1的像素将不再被渲染到显示器。然后，D1过渡到寻找状态并准备解码视图列表中的下一个比特流(B3)。RM使用从解码器传递的比特流ID和对齐度量以正确的放大倍数显示每个比特流的解码像素。当RM检测到比特流ID的改变时，它更新渲染过程以使用正确的纹理和采样坐标。

在其他实施例中，在编码期间可以采取以下步骤以促进平滑的流切换。

首先，比特流使用类似的编码配置，以便解码器的相同实例可以处理来自多个比特流的AU，而不需要额外的内存。不同比特流的IDR可以根据用户增加或减小ML的速度来对齐和均匀隔开。接下来，每个比特流的IDR位置和AU偏移可以被预先计算以避免在DM中这样做。

在另外的实施例中，DM可以包括一个或多个额外的解码器以预测将基于ML处理的下一个比特流并且在解码像素在显示器上是可见的之前对这些流进行解码。该策略可以帮助提高ML的变化率。实现这一点的替代性方法是仅使用IDR编码比特流。

现在参考图7，用于需要高放大水平的应用的替代性技术是多位置内容捕获，而不是多FOV内容捕获。代替使用具有不同FOV的相机从一个位置捕获场景，可以通过使用相同的FOV但在场景捕获的方向上的不同位置700、702处来捕获场景。在其他实施例中，多FOV和多位置内容捕获可以一起使用，如图7所示。在其他实施例中，RM可以包括用于多位置或多视图内容之间的畸变校正的阶段。在其他实施例中，也可以从不同位置捕获音频，并且也可以根据ML切换音频流以获得更身临其境的体验。

虽然本文示出且详细地描述特定实施例，但应理解，本发明涵盖的主题仅受权利要求书限制。

Claims

1.一种设备，其包括：

至少一个存储设备，所述至少一个存储设备不是暂时性信号并且包括指令，所述指令可由至少一个处理器执行以使所述处理器：

呈现包含具有第一尺寸的第一对象的第一视频；

响应于缩放命令，呈现包含具有第二尺寸的所述第一对象的第二视频，所述第二尺寸大于所述第一尺寸；以及

至少部分地使用单个维度中所述第一视频中的所呈现像素的数量与所述第二视频中的所呈现像素的数量的比率来将所述第二视频的帧与所述第一视频的帧对齐。

2.根据权利要求1所述的设备，其中所述指令可执行，以：

识别所述第二视频相对于所述第一视频的帧的感兴趣区域(ROI)的水平偏移；

识别所述第二视频相对于所述第一视频的所述帧的所述ROI的垂直偏移；以及

使用所述偏移将所述第二视频的帧与所述第一视频的帧对齐。

3.根据权利要求2所述的设备，其包括具有对应的第一视场(FOV)和第二视场的第一物理或虚拟相机和第二物理或虚拟相机，所述物理或虚拟相机被配置用于生成对应的第一视频和第二视频，所述第一FOV大于所述第二FOV，所述第一相机和第二相机彼此同时捕捉所述第一对象的图像。

4.根据权利要求3所述的设备，其中所述指令可执行，以禁用所述相机的自动曝光，从而促进所述第一视频和第二视频的混合。

5.根据权利要求3所述的设备，其中所述指令可执行，以：

使所述第一视频和第二视频在时间上同步；以及

将所述第一视频和第二视频编码为对应的第一比特流和第二比特流。

6.根据权利要求3所述的设备，其中所述指令可执行，以使用对应的第一解码器和第二解码器同时解码两个比特流。

7.根据权利要求3所述的设备，其中所述指令可执行，以将所述第一比特流和第二比特流压缩成单个比特流并且使用单个解码器来解码所述单个比特流。

8.一种视频播放器，其包括：

至少一个处理器，所述至少一个处理器被配置用于：

输出具有第一视场(FOV)的第一视频和具有小于所述第一FOV的第二FOV的第二视频的像素；

执行至少一个解码模块(DM)和至少一个渲染模块(RM)以输出所述像素，所述DM包括至少一个解码器并且所述RM包括至少一个着色器；以及

至少部分地使用所述DM和/或RM，响应于缩放命令而向至少一个显示器提供所述第一视频和第二视频的至少部分。

9.根据权利要求8所述的视频播放器，其中所述处理器被配置用于：

相对于所述第一视频中的感兴趣区域(ROI)使用对齐度量将所述第二视频与所述第一视频对齐。

10.根据权利要求9所述的视频播放器，其中将所述视频对齐使用固定的对齐度量。

11.根据权利要求9所述的视频播放器，其中将所述视频对齐使用随时间改变的对齐度量。

12.根据权利要求11所述的视频播放器，其中所述对齐度量在由所述DM解码的比特流中以元数据接收。

13.根据权利要求11所述的视频播放器，其中所述处理器被配置用于：使用运动估计和图像匹配来计算所述对齐度量。

14.根据权利要求8所述的视频播放器，其中所述缩放命令建立放大水平(ML)，并且所述处理器被配置为：使用所述ML确定所述第一视频和第二视频的哪些部分在所述显示器上是可见的。

15.根据权利要求14所述的视频播放器，其中所述处理器被配置为：设置ML的上限和下限以避免导致图片质量下降的放大水平。

16.根据权利要求14所述的视频播放器，其中所述处理器被配置用于：响应于增加ML的所述缩放命令，减少第一视频的可见像素的数量并增加所述第二视频的可见像素的数量。

17.根据权利要求9所述的视频播放器，其中所述处理器被配置用于：执行所述RM的所述至少一个着色器，以使用与所述缩放命令相关联的放大水平(ML)、所述对齐度量以及与所述视频相关联的输入比特流的帧数量用于同步，以创建观看单个视频而不是两个单独视频的感觉。

18.根据权利要求17所述的视频播放器，其中所述处理器被配置用于：使用所述至少一个着色器来羽化所述视频，以掩盖所述视频之间的边界。

19.根据权利要求8所述的视频播放器，其中所述处理器被配置用于：当由所述缩放命令建立的放大水平(ML)是第一ML时，跳过对所述第二视频的至少一部分的渲染，使得所述第二视频的所述部分不被解码并且所述DM的至少一个解码器处于非活动状态。

20.根据权利要求19所述的视频播放器，其中所述处理器被配置用于：响应于所述ML的改变，仅当要解码的当前帧是关键帧时，才将所述至少一个解码器从非活动状态改变为活动状态。

21.一种方法，其包括：

接收表示对应的第一视频、第二视频和第三视频的至少第一比特流、第二比特流和第三比特流；

响应于至少第一所需放大水平(ML)，利用第一解码器解码所述第一比特流以渲染所述第一视频，并利用第二解码器解码所述第二比特流以渲染所述第二视频；

在显示器上呈现所述第一视频和第二视频；

响应于大于所述第一所需ML的第二所需ML，利用所述第一解码器解码所述第三比特流以渲染所述第三视频，并利用所述第二解码器解码所述第二比特流以渲染所述第二视频；以及

在显示器上呈现所述第二视频和第三视频。

22.根据权利要求21所述的方法，其包括：

使用从所述解码器中的至少一个解码器传递的比特流标识符(ID)来根据所述第一所需ML或第二所需ML显示每个比特流的解码像素；以及

响应于至少一个比特流ID的改变，更新渲染以使用不同纹理和采样坐标。

23.根据权利要求21所述的方法，其包括：

使用所述第一解码器的相同实例处理多个比特流，根据用户可以增加或减小所述ML的速度来对齐和均匀隔开所述比特流的关键帧；以及

预先计算每个比特流的关键帧位置和偏移。

24.根据权利要求23所述的方法，其包括：

使用至少一个解码器来基于所需ML预测要处理的下一个比特流；以及

解码所述下一个比特流以在解码像素在所述显示器上是可见的之前渲染所述解码像素，以促进所述ML的变化率。

25.根据权利要求14所述的视频播放器，其中所述处理器被配置用于：响应于减小ML的所述缩放命令，增加第一视频的可见像素的数量并减少所述第二视频的可见像素的数量。