CN115004701A

CN115004701A - 用于动态图像虚拟化的系统和方法

Info

Publication number: CN115004701A
Application number: CN202080093516.9A
Authority: CN
Inventors: K·亚伯拉罕
Original assignee: Bottega Veneta Studio Ltd
Current assignee: Cypress Investment Assets Holding Co ltd; Sniper Co ltd
Priority date: 2019-12-31
Filing date: 2020-12-21
Publication date: 2022-09-02
Also published as: WO2021137209A1; EP4085628A1; KR20220123543A; EP4085628A4; IL271774A; US20230022344A1

Abstract

一种动态图像虚拟化系统和方法，被配置为利用AI模型以对至少一个输入图像进行降低延迟的实时预测处理，其中，所述预测处理被指定为创建自由视点3D外推输出动态图像，所述自由视点3D外推输出动态图像是针对用户的偏好或需要预先定制的并且与所述至少一个输入图像相比包括较多视觉数据。

Description

用于动态图像虚拟化的系统和方法

技术领域

本发明总体涉及图像虚拟化系统，具体涉及用于产生动态图像并包括预测能力的低延迟图像虚拟化系统。

背景技术

图像虚拟化系统可用于许多目的，例如，可用于从不同视角对对象或周围环境进行可视化，或提供沉浸感以使用户能够探索感兴趣的环境或对象。为了实现这些能力，可视化系统优选地需要提供具有最小延迟的恒定操作，同时优选地使用最少的计算要求和资源。例如，需要一种被配置成例如通过使用增强现实(AR)或混合现实(MR)来提供沉浸式体验的虚拟化系统，来以最小的响应延迟提供用户方位(bearing)实时监测。这些能力在非受控网络环境中难以达到。

已知的虚拟化系统受到计算资源有限的困难，因此，与剧情长片或计算机游戏的质量相比，向这种系统的用户显示的3D内容的视觉质量相对较差。

造成上述困难的一个原因是：图像文件可能非常大，并且通常在大小上可以从几兆字节到几千兆字节，结果，在具有有限带宽的网络上分发可能是不可行的。即使在没有实时要求的情况下，用于传送图像文件的时间也可能太长而不能实际使用。

现有技术文献中公开的几种方案以及所导致的缺点公开如下：

图像云渲染——云渲染会造成各种缺陷。一个这样的缺陷涉及：已经证明将渲染资源分流到云计算系统中的尝试对由于网络通信中的中断而造成的延迟敏感。随着消费其内容的客户数量的增加，与云计算相关联的成本直线增长，这使得从商业模式的角度来看使用这种系统具有挑战性。

在客户设备上的程序性实时呈现——由于本地计算资源有限，这种方案会在其视觉质量结果方面受到限制，并且还可能需要长启动时间，这会增加延迟并妨碍所期望的实时操作。

点云流式传输——由于该技术仅支持朗伯表面，因此只能流式传输低视觉质量图像。在涉及大且复杂的体积拓扑的情况下，该技术的可扩展性会受到限制。

如前所述，若干文献公开了图像虚拟化系统。例如，公布US2006/0061584A1公开了一种用于在网络上实时分发与三维计算机建模图像场景相关的数据的方法、系统和设备。该文献公开了使用MIP贴图(mipmap)纹理技术，来减小图像尺寸并通过网络有效地提供数据。

公布文献US2006/0061584A1没有公开应用预测处理来创建与输入图像相比包括较多视觉数据的外推输出动态图像。此外，公布US2006/0061584A1没有公开通过使用任何种类的AI模型来创建另外视觉数据的预测处理。在本申请中使用AI使得能够进行预测处理，该预测处理提供了降低延迟的实时预测，并且进而实现了创建根据用户的偏好或需要而预先定制的外推输出动态图像。

发明内容

本发明提供了一种动态图像虚拟化系统，其包括低延迟虚拟化能力，并且可以用于通过使用AI模型来产生和显示包括经展宽的视觉数据并增强了质量的动态图像。

本发明使用AI模型来实时进行低延迟的预测处理，同时需要相对低的计算资源。

本发明还通过使用AI来实现，以增强外推输出动态图像的图像质量，从而提供有效的渲染技术来对视觉数据进行压缩和解码，同时向用户显示高质量图像的实时流。

本发明提出使用虚拟化系统来创建根据用户的偏好或需要预先定制的外推实时输出动态图像，同时需要适量的计算资源。

结合系统、装置和方法来描述和说明以下实施方式及其方面，所述系统、装置和方法旨在是示范性和说明性的，而非限制范围。在各种实施方式中，已经减少或消除了上述问题中的一个或更多个，而其它实施方式涉及其它优点或改进。

根据一个方面，提供了一种动态图像虚拟化系统，该系统包括：控制器，该控制器被配置为对至少一个输入图像执行数字图像处理并生成外推输出动态图像；以及至少一个显示单元，该至少一个显示单元被配置为向至少一个用户呈现所述外推输出动态图像。

根据一些实施方式，所述数字图像处理包括降低延迟的预测处理，该降低延迟的预测处理得到与至少一个输入图像相比包括较多视觉数据的外推输出动态图像。

根据一些实施方式，至少一个输入图像被细分为多个图像拼块。

根据一些实施方式，AI模型被训练以执行数据获取预测，以进行产生外推输出动态图像的降低延迟的预测处理。

根据一些实施方式，使用内容传递网络(CDN)来进行降低延迟的预测处理。

根据一些实施方式，降低延迟的预测处理被配置成通过计算和建议基于至少一个输入图像并且与至少一个输入图像相比包括另外视觉数据的后续未来拼块来生成外推输出动态图像。

根据一些实施方式，各个拼块包括可被压缩的视觉数据阵列。

根据一些实施方式，各个拼块是多分辨率拼块、多视图压缩拼块或时间压缩拼块。

根据一些实施方式，各个拼块与至少一个其它拼块组合以创建包括所组合拼块的视觉数据的较大拼块。

根据一些实施方式，外推输出动态图像包括覆盖层的无限堆和分辨率金字塔。

根据一些实施方式，外推输出动态图像向被训练以使用DNN进行图像质量增强的AI模型提供输入。

根据一些实施方式，图像质量增强使用SP技术。

根据一些实施方式，所述数字图像处理执行使用所述至少一个显示单元向所述至少一个用户呈现的以对象为中心的体积内容的流式传输。

根据一些实施方式，所述数字图像处理执行使用所述至少一个显示单元向所述至少一个用户呈现的以视图为中心的体积内容的流式传输。

根据一些实施方式，所述外推输出动态图像是使用非结构化光场技术来呈现的。

根据一些实施方式，其中，所述外推输出动态图像是使用基于广告牌的四边形渲染来呈现的。

根据一些实施方式，其中，所述至少一个输入图像通过使用虚拟摄像头的视图相关重建来创建并随后显示为外推输出动态图像。

根据一些实施方式，使用硬件摄像头捕捉所述至少一个输入图像。

根据一些实施方式，使用计算机生成影像来创建所述至少一个输入图像。

根据一些实施方式，所述至少一个输入图像是2D图像，并且所述外推输出动态图像是3D图像。

根据一些实施方式，外推输出动态图像显示虚拟化的建筑空间或结构。

根据一些实施方式，所述外推输出动态图像显示至少一个虚拟化视觉效果。

根据一些实施方式，所述至少一个用户的方位由至少一个传感器捕捉，并中继到所述控制器并由所述控制器分析。

根据一些实施方式，所述数字图像处理使用多层缓存。

根据一些实施方式，可以使用无线网络或有线网络来中继外推输出动态图像。

根据一些实施方式，使用远程流式传输来传送所述外推输出动态图像。

根据一些实施方式，所述至少一个显示单元是移动蜂窝设备或头戴式显示器(HMD)。

根据一些实施方式，其中，使用认证或验证算法来保护经处理的输入图像。

根据第二个方面，提供了一种用于使用动态图像虚拟化系统的方法，该方法包括以下步骤：捕捉或创建至少一个输入图像，对该至少一个输入图像应用压缩，从而相对地减小各个图像拼块的大小，创建数据集及其相关联的元数据，基于所创建的数据集应用降低延迟的预测，通过恢复经压缩的图像拼块并提取加密数据来应用解压缩，创建外推输出动态图像并向用户呈现该外推输出动态图像。

根据一些实施方式，在动态图像虚拟化方法期间获得并使用关于用户的方位的数据。

根据一些实施方式，使用人工智能(AI)技术来处理和分析所捕捉的输入图像。

根据一些实施方式，使用内容传递网络(CDN)来分发经压缩的图像拼块。

根据一些实施方式，应用深度神经网络(DNN)来执行获取降低延迟预测处理。

根据一些实施方式，其中，使用受控的按需存取处理来调节经历获取降低延迟预测处理的图像拼块的渲染。

根据一些实施方式，在图像拼块解压缩之后创建的3D图像被转换为2D外推输出动态图像。

根据一些实施方式，外推输出动态图像经历由人工智能(AI)训练的模型执行的质量增强处理。

根据一些实施方式，外推输出动态图像经历图像修复技术，以修复可能的图像缺陷。

根据第三个方面，提供了一种使用动态图像虚拟化系统进行数据处理的方法，该方法包括以下步骤：解析包含静态定义的数据结构的阵列的元数据，初始化视觉场景和摄像头，收集数据以向用户呈现表示摄像头当前位置的拼块，提取待获取并最终用于构建外推输出动态图像的当前和未来后续可能拼块，根据所提取的数据更新纹理图集，构建外推输出动态图像，应用图像细化技术以改进向用户呈现的外推输出动态图像，使用预测技术预测摄像头未来位置并基于摄像头未来位置收集未来拼块数据。

根据一些实施方式，可以通过创建包括覆盖层的无限堆和分辨率金字塔的外推输出图像来恢复输入图像。

根据一些实施方式，各个图像拼块包括低频率数据。

根据一些实施方式，使用时间压缩来压缩各个图像拼块。

根据一些实施方式，使用多视图压缩来压缩输入图像。

根据第四个方面，提供了一种使用动态图像虚拟化系统进行数据压缩的方法，所述方法包括以下步骤：捕捉或创建至少一个输入图像，将所捕捉的各个输入图像细分为图像拼块，以及应用压缩技术，从而相对地减小各个图像拼块的大小。

附图说明

在此参照附图描述本发明的一些实施方式。该描述与附图一起使得本领域普通技术人员清楚如何实施一些实施方式。附图是出于说明性描述的目的，并且不试图比基本理解本发明所必需的更详细地示出实施方式的结构细节。为了清楚起见，图中所示的一些对象不是按比例绘制的。

在附图中：

图1构成根据本发明一些实施方式的动态图像虚拟化系统的示意性立体图。

图2构成例示根据本发明一些实施方式的使用动态图像虚拟化系统进行动态图像虚拟化的方法的流程图。

图3构成根据本发明的一些实施方式的示出先前在图2中公开的可能的子操作的流程图。

图4构成示出根据本发明一些实施方式的在动态图像虚拟化系统的操作期间使用的各种压缩方法的数据集结构的各种子操作的结构图。

图5构成示出根据本发明的一些实施方式的在图2和图3中部分公开的可能的另外的子操作的流程图。

具体实施方式

在以下详细描述中，阐述了许多具体细节以提供对本发明的透彻理解。然而，本领域技术人员应当理解，本发明可以在没有这些具体细节的情况下实施。在其它情况下，没有详细描述公知的方法，过程和组件、模块、单元和/或电路，以免模糊本发明。关于一个实施方式描述的一些特征或元件可以与关于其它实施方式描述的特征或元件组合。为了清楚起见，可以不重复对相同或相似特征或元件的讨论。

尽管本发明的实施方式在这方面不受限制，但是利用诸如“处理”、“计算”、“运算”、“确定”、“建立”、“分析”、“检查”、“设置”、“接收”等术语的讨论可以指控制器、计算机、计算平台、计算系统或其它电子计算设备的操作和/或过程，其操纵和/或变换表示为物理(例如物理)的数据。计算机寄存器和/或存储器内的电子量类似地表示为计算机寄存器和/或存储器内的物理量或可存储执行操作和/或过程的指令的其它信息非瞬态存储介质。

除非明确说明，否则本文所述的方法实施方式不限于特定顺序或次序。另外，所描述的方法实施方式中的一些或其要素可同时，在同一时间点或同时发生或执行。

如本文中所使用，术语“控制器”是指可配备有存储器装置，中央处理单元(CPU)或微处理器和若干输入/输出(I/O)端口的任何类型的计算平台，例如，通用计算机(例如个人计算机、膝上型计算机、平板计算机)、移动蜂窝式电话或云计算系统。

本文所用的术语“人工智能”或“AI”是指可以仿真认知功能(如学习和解决问题)的任何计算机模型。AI还可以包括诸如由生物神经网络启发的人工神经网络(ANN)和深度神经网络(DNN)的特定内容。

本文使用的术语“内容传递网络”或“CDN”是指服务器及其数据中心的地理上分布式的网络，其中所述分布提供具有低延迟数据访问的缓存层。

本文使用的术语“非结构化光场”是指通过以非结构化方式从多个方向对光线进行密集采样来真实再现3D场景。

本文使用的术语“基于广告牌的四边形渲染”是指在3D世界中绘制2D纹理四边形元素的技术。

本文使用的术语“体积内容”是指捕捉三维图像的视频技术。这种类型的视频记录获得可以在普通屏幕以及3D和VR设备上观看的数据。观看者可以实时地体验体积内容。

本文使用的术语“虚拟摄像头”是指用于在虚拟世界中捕捉和呈现图像的由计算机生成的摄像头。虚拟摄像头可以从多个角度/距离捕捉并显示对象或周围环境，以及捕捉并显示用户视点(POV)。

本文使用的术语“计算机生成影像(CGI)”是指应用计算机图形来创建虚拟化图像，其中使用CGI创建的图像可以在任何领域中，例如，艺术、媒体、计算机游戏、仿真和广告营销等。CGI可以是动态的或静态的，并且可以包括2D、3D或更高维的图像。

本文使用的术语“降低延迟的预测处理”是指根据预报来获取可能的图像拼块并准备将其向用户呈现的处理，该预报基于计算图像拼块表示用户感兴趣的未来图像的可能性。此处理可以减少与图像渲染相关联的延迟。

本文使用的术语“外推输出动态图像”是指图像的恒定流，其包括关于所捕捉的输入图像的扩展视觉数据，所捕捉的输入图像形成获得和中继所述外推输出图像时的基础。

本文使用的术语“多视图压缩”(MVC或MVC 3D)是指一种压缩方法，其基于由多个摄像机从场景的各个视点获得的图像的相似性。例如，可以使用该技术来压缩使用从各种角度捕捉图像并创建单个视频流的多个摄像头同时捕捉的动态图像(例如，立体3D视频)。根据一些实施方式，也可以使用该技术来压缩自由视点动态图像或多视点3D视频，这使得图像在尺寸上被有效地减小并沿渲染流水线渲染。

本文使用的术语“时间压缩”是指沿着时间线压缩图像拼块序列。举例来说，可使用时间拼块压缩来压缩时间相关性，以减小视频帧的总字节大小以及沿渲染流水线渲染图像所需的时间，这种时间相关性经常存在于连续视频帧之间并且可以显示从一个位置移动到另一位置的对象或图像特征。

参照图1，图1构成了根据本发明一些实施方式的动态图像虚拟化系统10的示意性立体图。如图所示，动态图像虚拟化系统10包括控制器100，其被配置为执行数字图像处理并且可以控制形成动态图像虚拟化系统10的各种装置。根据一些实施方式，至少一个显示单元200被配置为向至少一个用户20显示由控制器100产生的外推输出动态图像。根据一些实施方式，控制器100可以是单独的装置，或者可以集成到显示单元200中或形成显示单元200的一部分。根据一些实施方式，显示单元200包括图像捕捉部件202，该图像捕捉部件可以是例如摄像头或任何其他类型的图像捕捉传感器。

根据一些实施方式，显示单元200是头戴式显示器(HMD)，其被配置为产生将由与其相关联的用户20感知的图像。根据一些实施方式，显示单元200可以是现成的部件，例如制造商的头戴式显示器(HMD)，例如HTC Oculus(例如

Oculus

Oculus

等)，Magicleap(例如MacigLeap One)或Microsoft(例如Hololens)。根据一些实施方式，显示单元200是配置为由至少一个用户20持有和观看的现成的移动蜂窝装置、膝上型计算机或平板计算机。

根据一些实施方式，显示单元200可以包括各种传感器204，例如运动传感器、加速度计等，并且由所述传感器记录的数据可以被传送并中继到控制器100用于分析。

根据一些实施方式，控制器100和显示单元200都包括有线或无线通信单元(未示出)，其能够实现从显示单元200到控制器100的恒定数据传输，反之亦然。

参照图2，图2构成示出根据本发明一些实施方式的用于使用动态图像虚拟化系统10进行动态图像虚拟化的方法的流程图。在操作302中，该方法可以包括捕捉至少一个输入图像。根据一些实施方式，输入图像可以由例如可以是摄像头的硬件传感器捕捉，或者另选地，输入图像可以由虚拟摄像头捕捉。根据一些实施方式，可以使用计算机生成影像(CGI)来创建所捕捉的输入图像。根据一些实施方式，通过认证和验证算法来保护所捕捉的输入图像，以确保仅暴露给授权用户20。

在操作304中，该方法可以包括使用各种压缩技术和协议来压缩所捕捉的输入图像。根据一些实施方式，所捕捉的输入图像被细分为独立拼块，这些独立拼块然后被加载到渲染流水线中，并进而被传送给用户20。根据一些实施方式，各个拼块的大小相对减小并且需要较短的时间来通过网络传递。

根据一些实施方式，被细分为独立拼块的所捕捉的输入图像可以被压缩以创建2D/3D输出图像，该2D/3D输出图像包括覆盖层的无限制堆和分辨率金字塔。根据一些实施方式，各个图像可以包括经压缩的视觉数据阵列，例如颜色数据(RGB)、深度通道、透明度、运动矢量、法线图、反射/折射、矢量等。

根据一些实施方式，可使用各种拼块压缩技术和协议(例如，YUV、ETC或DXT的量化)来压缩各个拼块。根据一些实施方式，使用前述技术的图像拼块压缩可以帮助在不将图像质量降级到不可接受的水平的情况下最小化图形文件的字节大小。图像拼块压缩还可以减少沿渲染流水线渲染图像所需的时间。

根据一些实施方式，可使用多视图压缩MVC(也称为MVC 3D)来压缩各个拼块，多视图压缩基于从各种视点获得的图像(例如，从沿着时间线改变的移动场景获得的图像或从从各种角度捕捉的静止场景获得的图像)间的相似性。根据一些实施方式，还可以使用沿着时间线的图像拼块序列的时间压缩来压缩各个拼块。

在操作306中，该方法可以包括创建数据集及其相关联的元数据。元数据可以包含静态定义的数据结构的阵列，其定义捕捉和渲染特性，例如视觉数据的数据结构、真实世界单元中的数据集的比例、可用的细节级别、代理对象、分辨率、压缩、流参数、当前数据集的深度神经网络(DNN)权重等。根据一些实施方式，渲染的迭代处理可以从虚拟或硬件摄像头与数据集取向之间的空间关系被定义的时刻开始。

根据一些实施方式，可以由诸如运动传感器、加速度计等的传感器204捕捉用户20的方位，并且所捕捉的数据可以被传送并中继到控制器100用于分析。根据一些实施方式，所述方位分析可以包括在操作306中创建的数据集的一部分，并且可以在执行以下在操作308中公开的预测时使用。

在操作308中，该方法可以包括基于在操作306中创建的数据集应用预测。根据一些实施方式，预测操作308通过减少与数字图像处理相关联的延迟可以改善用户体验以及系统资源的利用。

根据一些实施方式，预测处理可以应用关于用户20将观看某些图像的特性感兴趣的可能性的计算，所述特性诸如某些角度或视点、所捕捉的输入图像的3D重建、飞越或导航视图、视觉效果或可以在捕捉的输入图像上预测的任何其它视觉方面。

根据一些实施方式，预测操作308可以使用数据获取预测处理来进行，例如，预测处理可以甚至在用户20决定或作出暗示其下次感兴趣观看的内容的任何种类的操作之前预取资源和可预测数据。根据一些实施方式，可以通过使用人工智能(AI)(例如人工神经网络(ANN)或深度神经网络(DNN)等)训练模型并根据AI模型结果建议可能拼块来完成数据获取预测处理。

使用AI可以通过应用机器学习来降低延迟，以准确地预测用户20的偏好并向其提供实时输出的动态图像。当建议可能拼块时，预测操作308使得能够创建与所捕捉的输入图像相比包括较多视觉数据的外推输出动态图像(在操作310中进一步公开)。

根据一些实施方式，可以使用内容传递网络(CDN)来进行数据获取预测处理。CDN的使用可以通过从分布式服务器提供本地缓存并应用关于数据渲染的优化处理来降低延迟。

根据一些实施方式，外推输出动态图像的质量增强操作312可以使用通过使用人工智能(AI)(例如人工神经网络(ANN)或深度神经网络(DNN))训练模型以及通过使用诸如DeepPrior或基于DNN的其他超分辨率方案的技术(根据AI模型结果使用或不使用生成对手网络(GAN))来实现的质量增强处理来进行。

使用AI可以增强可能由于压缩操作304或由于图2中公开的其他操作而降低的输出动态图像质量。根据一些实施方式，将机器学习应用于图像拼块的特定区域或整个图像拼块可以固定或改善向用户20呈现的输出动态图像的整体视觉质量。

根据一些实施方式，用于产生外推输出动态图像的压缩304和解压缩309操作可以通过使用人工智能(AI)(例如人工神经网络(ANN)或深度神经网络(DNN))训练模型来实现。

在压缩阶段通过对整个数据集或其部分应用机器学习分析来使用AI、ML、ANN或DNN，以基于在改变条件期间识别的公共语义来压缩或解压缩拼块数据。根据一些实施方式，所述语义可以通过机器学习训练来获得，以启用和实施超分辨率技术。

根据一些实施方式，预测处理可以使用从传感器204收集并由控制器100分析的用户20的方位数据，以根据用户20的位置和运动呈现外推输出动态图像，例如，运动传感器可以感测到用户20在某一方向上转动其头部，并将量测结果中继到控制器100，控制器100转而可以根据所感测到的运动应用关于用户观看来自该特定方向的图像的可能性的计算。根据一些实施方式，然后可以应用数据获取预测处理，并且造成向用户20呈现可能拼块，该可能拼块形成(例如示出所述特定方向的)期望外推输出动态图像。

根据一些实施方式，预测操作308还可以使用缓存存储器来提供快速访问数据资源，这又有助于降低延迟。根据一些实施方式，可以使用包括多个层的复制或分布式多层缓存存储器架构，以进一步提高计算效率并降低与数字图像处理相关联的延迟。

在操作309中，可以应用解压缩处理，以恢复经压缩的图像拼块并提取加密数据。根据一些实施方式，可以通过使用人工智能(AI)(例如人工神经网络(ANN)或深度神经网络(DNN))训练模型来实现对用于生成外推输出动态图像的拼块的压缩304和解压缩309操作。

在操作310，该方法可以包括创建外推输出动态图像，该外推输出动态图像与在操作302所捕捉的输入图像相比包括较多可视数据。根据一些实施方式，外推输出动态图像是实时创建的，意味着用户20体验环境中的恒定动态运动感觉，或者从不同视角观看对象的恒定动态感觉。例如，用户20可以体验以各种角度\视点\距离观察商业产品的实时感觉，另选地，用户20可以实时体验在特定建筑结构或任何种类的环境中运动的感觉。

根据一些实施方式，降低延迟的预测操作308使得能够在操作310中通过预测和建议后续可能拼块来创建外推输出动态图像。根据一些实施方式，可能拼块可以是用户在不久的未来可能有兴趣看到的图像或图像的一部分，这种拼块可以是例如对象或周围环境的另一角度或视点的图像或图像的一部分。

根据一些实施方式，应用拼块渲染处理以减少产生外推输出动态图像所需的存储器和系统资源的量。

根据一些实施方式，各个拼块可以包括经分类的视觉数据阵列，经分类的视觉数据阵列可以有助于数据定位的优化效率，并且因此可以有助于降低延迟。根据一些实施方式，使用各种压缩协议来压缩形成各个拼块的经分类的视觉数据阵列，以节省处理资源。根据一些实施方式，各个拼块是多分辨率拼块。

根据一些实施方式，所捕捉的输入图像是2D图像，其在经过操作302至操作309之后在操作310中被转换为向用户20呈现的3D外推输出动态图像。根据一些实施方式，所捕捉的输入图像是3D图像，其在经过操作302至操作309之后在操作310中被转换为向用户20呈现的2D外推输出动态图像。

根据一些实施方式，外推输出动态图像可以显示至少一个虚拟化视觉效果。这种视觉效果可以是例如用于呈现或用于任何其它目的的虚拟人物。视觉效果的另一可能实现方式是将视觉效果应用于在输入图像中捕捉的真实对象或周围环境，例如，根据用户20或动态图像虚拟化系统10的操作者的变化的需要和期望，可以用虚拟化的视觉效果(诸如烟、闪光、附件或任何其它视觉效果)来装饰真实对象。

根据一些实施方式，各个动态输出图像包括由以下方式之一产生的分辨率金字塔：可缩放视频编码(SVC)、拉普拉斯金字塔或任何其它多分辨率方案。

在操作312中，该方法可以包括向用户20呈现外推输出动态图像。根据一些实施方式，通过使用虚拟摄像头的视图相关重建来向用户20呈现外推输出动态图像，例如，系统可以从用户20自身的视点向用户20呈现外推输出动态图像，这意味着用户20可以观看外推输出动态图像，就好像正在使用自己的眼睛观看它一样。

根据一些实施方式，外推输出动态图像被呈现为虚拟摄像头的视图相关重建，其允许用户20自由地改变摄像头在虚拟世界中的视角并从不同的角度、距离等观察对象或环境。

根据一些实施方式，使用投影器利用非结构化光场技术来呈现外推输出动态图像，为了捕捉来自各个方向的光线，可以使用所述投影器。根据一些实施方式，图像捕捉单元202可以被配置为在不需要外部投影器的情况下捕捉光场图像。根据一些实施方式，使用基于广告牌的四边形渲染来呈现外推输出动态图像。

根据一些实施方式，自由导航模式可以允许用户20将期望的视点从一个位置移动到另一位置，从而给出摄像头物理地从一个点移动到另一个点的感觉。在又一示例中，可以通过提供特定对象或周围环境的无限的多个上方视点来实现飞越立体图。根据一些实施方式，通过在操作310中创建如所公开的与原始捕捉的输入图像相比包括较多视觉数据的外推输出动态图像，可以在用户20经历最小延迟的同时实时地实现前述示例和更多示例。

根据一些实施方式，使用远程流式传输处理来传送在操作306创建的输入图像，其中，所述远程流式传输可以使用任何已知的流式传输协议来执行。根据一些实施方式，由控制器100执行的数字图像处理可以包括以对象为中心的体积内容的流式传输并将其向用户20呈现，其中，所呈现的对象可以是任何物理或虚拟对象。根据一些实施方式，由控制器100执行的数字图像处理可以应用向用户20呈现的以视图为中心的体积内容的流式传输，其中，所呈现的视图可以是任何环境或周围环境，户外或室内，逼真的或风格化的，诸如建筑结构，景观等。

根据一些实施方式，输入图像的流式传输可以根据各种需要或约束通过有线或无线通信来中继。

参照图3，其构成了根据本发明的一些实施方式的流程图，该流程图从算法角度例示了先前在图2中公开的操作306至操作312的可能子操作。在操作402中，该方法可包括下载和解析在图2中公开的操作306中创建的元数据。在操作404中，该方法可以包括通过如先前在图2的操作310至操作312中公开的虚拟摄像头的重建来建立将向用户20呈现的视觉场景。

根据一些实施方式，还可以通过捕捉实际场景或对象的物理表示的硬件摄像头向用户20呈现视觉场景。在操作406中，该方法可以包括收集统计信息和其他有价值的数据，以向用户20呈现表示虚拟或硬件摄像头的当前位置的拼块。在操作408中，作为先前在图2中公开的预测处理308的一部分，所述方法可以包括从缓存存储器提取待获取且向用户20呈现的当前和未来后续可能拼块。在操作410中，该方法可以包括根据在操作408中公开的所提取的数据更新纹理图集。在操作412中，该方法可以包括先前在图2的操作310中公开的外推输出动态图像的构建。

根据一些实施方式，在操作412中构建的外推输出动态图像可以是2D或3D图像。在操作414中，该方法可以包括应用任何类型的图像细化滤波器、技术或协议，以改进向用户20呈现的外推输出动态图像。在操作416中，该方法可以包括使用先前在图2的操作308中公开的预测阶段和技术来预测虚拟或硬件摄像头的未来位置。在操作418中，该方法可以包括基于对未来摄像机位置的估计来收集关于未来可预测拼块的获取和呈现的统计信息和有价值的数据。

根据一些实施方式，这种未来可预测的拼块可以是反映用户20的视点的视图/对象相关或虚拟/硬件摄像头的图像或图像的一部分。根据一些实施方式，可以使用反馈环420来中继在操作418中收集的统计信息和其他有价值的数据，以向统计信息收集操作406提供反馈。

参照图4，其构成了例示根据本发明的一些实施方式的有助于降低延迟并在动态图像虚拟化系统10的操作期间使用的各种压缩和封装方法的数据集结构的各种子操作的结构图。多个摄像头(例如，摄像头1至摄像头N)被配置为捕捉最终将作为帧序列(例如，帧1至Z)的一部分沿时间线呈现的图像。根据一些实施方式，所述多个摄像头可以是硬件摄像头或者虚拟摄像头。根据一些实施方式，所捕捉的各个图像被细分成独立的拼块，例如拼块502a至拼块516c，这些拼块稍后可以被组合以形成较大图像。

根据一些实施方式，可以在所述拼块上应用如以下所公开的多种压缩技术：

a.)根据一些实施方式，可以通过压缩所述拼块来恢复已被细分成独立拼块的所捕捉的各个图像，以创建包括覆盖层的无限堆和分辨率金字塔在内的输出图像，例如，可以压缩可以是10*10像素拼块的拼块502a和可以是50*50像素拼块的拼块502b，以最终形成包括所述拼块的输出图像。

根据一些实施方式，各个拼块502a至516c还可以包括经压缩的视觉数据阵列，例如颜色数据(RGB)、深度位图、阿尔法透明度位图、运动矢量、法线图、反射/折射位图等。根据一些实施方式，各个拼块502a到516c可与其它拼块组合以创建包括从多个单独拼块得到的视觉数据的较大拼块。根据一些实施方式，为了减少渲染的数据量，拼块可以仅包括低频率数据，而可以使用算法来完成和补偿丢失的视觉数据，并且通过该算法来恢复实际捕捉的图像。

b.)根据一些实施方式，可以使用时间压缩来压缩各个拼块502a到516c，例如，可使用时间拼块压缩来压缩包含沿着时间线的动态图像序列的拼块(例如，时间相关性，其存在于连续视频帧间并且显示从一个位置移动到另一位置的对象或图像特征)，以减小其字节大小以及沿着渲染流水线渲染图像所需的时间。

c.)根据一些实施方式，可以通过使用多个摄像头1到N以同时获得场景的各种视点来应用多视图压缩(MVC或MVC 3D)。例如，可以使用此技术来压缩通过细分使用多个摄像头1到N从各种角度同时捕捉的输入动态图像而创建的拼块以创建单个动态图像流。由于多视图视频的扩展的原始比特率，有效的压缩技术是必要的，从而以沿渲染流水线高效地渲染图像。根据一些实施方式，MVC压缩可以使用人工智能(AI)来进行，AI例如深度神经网络(DNN)或任何其他AI模型。

根据一些实施方式，还可以使用此技术来压缩从所捕捉的自由视点动态图像或从多视点3D视频细分的拼块。根据一些实施方式，前述压缩技术可以彼此组合以实现较大程度的数据压缩。

参照图5，图5构成了例示根据本发明的一些实施方式的先前在图2中公开的操作302至操作312的可能子操作的流程图。在操作602中，该方法可以包括获得由摄像头捕捉的输入图像，该摄像头可以是例如硬件摄像头或虚拟摄像头。根据一些实施方式，所捕捉的输入图像也可以使用计算机生成影像(CGI)来创建。根据一些实施方式，在操作602期间，可以获得另外的数据，例如，用户20方位的实时监测结果。

在操作604和操作606中，可以通过人工智能(AI)(例如，深度神经网络(DNN))来处理和分析所获得的输入图像，以根据一些实施方式将所述输入图像细分成多个图像拼块。根据一些实施方式，所述拼块可以表现出不同的分辨率并且具有不同的尺寸，例如，拼块可以是10*10像素、50*50像素等并且具有从几千字节到几千兆字节的各种大小。

在操作608中，可使用各种压缩技术和协议来压缩在操作606中产生的拼块。根据一些实施方式，各个经压缩的拼块的大小相对减小，使得各个拼块需要适度量的计算资源来沿着渲染流水线渲染。所述压缩技术可以包括上述分辨率金字塔、时间压缩或多视图压缩。根据一些实施方式，可以组合上述压缩技术以实现较大程度的数据压缩(如在图4的描述中进一步详细描述的)。

在操作610中，可以存储经压缩的拼块，例如存储在可用物理存储器中或作为云计算网络的一部分的远程服务器中。在操作612中，可以将经压缩的拼块分发到内容传递网络(CDN)。根据一些实施方式，CDN的使用可以通过从分布式服务器提供本地缓存并应用关于数据呈现的优化处理来降低延迟。根据一些实施方式，可使用诸如受控的按需存取处理等安全措施来调节经压缩的拼块的渲染以经历操作614。根据一些实施方式，可以通过验证算法来保护经压缩的拼块，以确保仅暴露给授权用户20。

在操作614中，可以应用人工智能(AI)，例如深度神经网络(DNN)，以执行获取预测处理，该获取预测处理可以预取资源和可预测数据，以创建操作616的所选择的另外的拼块。根据一些实施方式，所述获取预测处理可以用于创建包括关于在操作602中捕捉的输入图像的扩展视觉数据在内的外推输出动态图像。根据一些实施方式，所述获取预测处理使得能够根据预报来获取可能的图像拼块并准备将其向用户呈现，该预报基于对所述拼块表示用户20感兴趣的未来图像的可能性的计算。

根据一些实施方式，所述获取预测处理可以得到降低图像渲染相关联的延迟。根据一些实施方式，设备位置和方位会对所述获取预测处理有影响。根据一些实施方式，诸如运动传感器、加速度计等的传感器可以记录用户20的方位，并且所述方位分析可以用于执行所述获取预测处理。

在操作618中，可以应用解压缩处理，以恢复经压缩的拼块并提取加密数据。在操作620中，可以从解压缩后的拼块创建3D动态图像。在操作622中，将所述3D动态图像处理为2D动态图像。在操作624中，可以通过使用人工智能(AI)(例如人工神经网络(ANN)或深度神经网络(DNN))训练模型并根据AI模型结果来实现质量增强处理以产生输出动态图像。根据一些实施方式，所述质量增强过程由超分辨率算法执行。

根据一些实施方式并且如上所述，对作为图2和图5中描述的方法的结果而产生的外推输出动态图像的质量增强可以使用通过使用人工智能(AI)(例如人工神经网络(ANN)或深度神经网络(DNN))来训练模型并根据AI模型结果而实现的质量增强处理来进行。

根据一些实施方式，使用AI可以通过对作为图2和图5中描述的方法的结果而产生的输出动态图像应用各种技术来提高质量。例如，可以使用超分辨率或SR可用于放大和/或改进所述输出动态图像的细节。根据一些实施方式，可以使用所述AI模型将低分辨率输出动态图像放大到较高分辨率，其中，在细节基本上未知的位置填充高分辨率输出动态图像中的较多细节。根据一些实施方式，数学函数获得缺少细节的低分辨率图像，然后应用对所述图像中缺少的细节/特征的预测，并且通过这样做，数学函数可以产生可能从未记录在原始输入图像中的细节，但是仍然可以用于增强图像质量。

根据一些实施方式，可以在作为图2和图5中描述的方法的结果而产生的输出动态图像上执行诸如内部涂色的图像修复技术，以通过润饰去除不需要的元素来修复图像缺陷。根据一些实施方式，训练修补AI模型可通过去除图像的部分并基于先前知识和预测处理来训练AI模型以替换缺失部分来执行。

尽管已经参照特定实施方式描述了本发明，但是该描述并不意味着被解释为限制意义。参照本发明的描述，所公开的实施方式的各种修改以及本发明的另选实施方式对于本领域技术人员将变得明显。因此，预期所附权利要求将覆盖落入本发明范围内的这些修改。

Claims

1.一种动态图像虚拟化系统，所述系统包括：

(i)控制器，所述控制器被配置成通过使用被训练成执行数据获取预测的AI模型来对至少一个输入图像执行数字图像处理以产生外推输出动态图像，其中，所述至少一个输入图像是通过静态2D计算机生成影像CGI来生成的；以及

(ii)至少一个显示单元，所述至少一个显示单元被配置为向至少一个用户呈现所述外推输出动态图像，

其中，所述至少一个输入图像是离线生成的，并且所述外推输出动态图像是自由视点3D图像，并且其中，所述数据获取预测处理具有降低的延迟并且造成产生所述外推输出动态图像，所述外推输出动态图像与所述至少一个输入图像相比包括新颖的图像以及新颖的多方向和图像场景参数。

2.根据权利要求1所述的系统，其中，所述至少一个输入图像被细分成多个图像拼块。

3.根据权利要求1所述的系统，其中，所述降低延迟的预测处理是使用内容传递网络CDN来进行的。

4.根据权利要求1所述的系统，其中，所述降低延迟的预测处理被配置为通过计算和生成基于所述至少一个输入图像的后续未来拼块来产生外推输出动态图像，其中，所述外推输出动态图像与所述至少一个输入图像相比包括新颖的图像以及新颖的多方向和图像场景参数。

5.根据权利要求4所述的系统，其中，各个拼块包括视觉数据阵列。

6.根据权利要求5所述的系统，其中，各个拼块的所述视觉数据阵列是经压缩的。

7.根据权利要求4所述的系统，其中，各个拼块是多分辨率拼块。

8.根据权利要求4所述的系统，其中，各个拼块是多视图压缩拼块。

9.根据权利要求4所述的系统，其中，各个拼块是时间压缩的。

10.根据权利要求4所述的系统，其中，各个拼块与至少一个其它拼块组合以创建包括所组合拼块的视觉数据的较大拼块。

11.根据权利要求4所述的系统，其中，所述外推输出动态图像包括覆盖层的无限制堆和分辨率金字塔。

12.根据权利要求1所述的系统，其中，所述外推输出动态图像向所述AI模型提供输入，所述AI模型被训练成使用DNN进行图像质量增强。

13.根据权利要求1所述的系统，其中，使用超分辨率SP技术在所述外推输出动态图像上执行另外的图像质量增强。

14.根据权利要求1所述的系统，其中，所述数字图像处理执行使用所述至少一个显示单元向所述至少一个用户呈现的以对象为中心的体积内容的流式传输。

15.根据权利要求1所述的系统，其中，所述数字图像处理执行使用所述至少一个显示单元向所述至少一个用户呈现的以视图为中心的体积内容的流式传输。

16.根据权利要求1所述的系统，其中，所述外推输出动态图像是使用非结构化光场技术来呈现的。

17.根据权利要求1所述的系统，其中，所述外推输出动态图像是使用基于广告牌的四边形渲染来呈现的。

18.根据权利要求1所述的系统，其中，所述至少一个输入图像通过使用虚拟摄像头的视图相关重建来创建并随后显示为外推输出动态图像。

19.根据权利要求1所述的系统，其中，所述外推输出动态图像显示虚拟化的建筑空间或结构。

20.根据权利要求1所述的系统，其中，所述外推输出动态图像显示至少一个虚拟化视觉效果。

21.根据权利要求1所述的系统，其中，所述至少一个用户的方位由至少一个传感器捕捉，并中继到所述控制器并由所述控制器分析。

22.根据权利要求1所述的系统，其中，所述数字图像处理使用多层缓存。

23.根据权利要求1所述的系统，其中，能够使用无线网络来中继所述外推输出动态图像。

24.根据权利要求1所述的系统，其中，能够使用有线网络来中继所述外推输出动态图像。

25.根据权利要求1所述的系统，其中，使用远程流式传输来传送所述外推输出动态图像。

26.根据权利要求1所述的系统，其中，所述至少一个显示单元是移动蜂窝设备。

27.根据权利要求1所述的系统，其中，所述至少一个显示单元是头戴式显示器HMD。

28.根据权利要求1所述的系统，其中，使用验证算法来保护所述至少一个经处理的输入图像。

29.一种使用动态图像虚拟化系统的方法，所述方法包括以下步骤：

(i)创建包括摄像头捕捉位置和固有参数的至少一个输入图像，其中，所述至少一个输入图像通过静态2D CGI离线生成；

(ii)将所述至少一个输入图像细分为多个图像拼块，并对经细分的所述至少一个输入图像进行压缩，从而相对减小各个图像拼块的尺寸；

(iii)创建数据集及其相关联的元数据以产生3D图像；

(iv)使用经训练以执行具有降低的延迟并且基于所创建的数据集的数据获取预测处理的AI模型；

(v)通过恢复经压缩的图像拼块并提取加密数据来应用解压缩；

(vi)创建自由视点外推输出动态图像；以及

(vii)向用户呈现所述自由视点外推输出动态图像。

30.根据权利要求29所述的方法，其中，所述降低延迟的预测处理被配置为通过计算和产生基于所述至少一个输入图像的后续未来拼块来生成外推输出动态图像，其中，所述外推输出动态图像与所述至少一个输入图像相比包括新颖的图像以及新颖的多方向和图像场景参数。

31.根据权利要求29所述的方法，其中，获得并使用关于所述用户的方位的数据。

32.根据权利要求29所述的方法，其中，使用人工智能AI技术来处理和分析所捕捉的输入图像。

33.根据权利要求29所述的方法，其中，使用内容传递网络CDN来分发经压缩的图像拼块。

34.根据权利要求29所述的方法，其中，应用深度神经网络DNN来执行获取降低延迟预测处理。

35.根据权利要求34所述的方法，其中，使用受控的按需存取处理来调节正在进行获取降低延迟预测处理的图像拼块的渲染。

36.根据权利要求29所述的方法，其中，在对图像拼块进行解压缩之后创建的3D图像被转换成2D外推输出动态图像。

37.根据权利要求29或36中的任一项所述的方法，其中，所述外推输出动态图像还经历由人工智能AI训练的模型执行的质量增强处理。

38.根据权利要求29、36或37中的任一项所述的方法，其中，所述外推输出动态图像还经历图像修复技术，以修复可能的图像缺陷。

39.一种使用动态图像虚拟化系统进行数据处理的方法，所述方法包括以下步骤：

(i)解析包含静态定义的数据结构的阵列的元数据；

(ii)初始化视觉场景和摄像头以产生至少一个输入图像，其中，所述至少一个输入图像由静态2D CGI离线产生；

(iii)收集数据以向用户呈现表示摄像头当前位置和所述视觉场景的拼块；

(iv)提取待获取并最终用于构建外推输出动态图像的当前和未来后续可能拼块；

(v)根据所提取的数据更新纹理图集；

(vi)使用被训练以执行数据获取预测的AI模型来构建外推输出动态图像；

(vii)应用图像细化技术以改进向所述用户呈现的所述外推输出动态图像；

(viii)使用预测技术来预测所述摄像头的未来位置；

(ix)基于所述摄像头的未来位置来收集未来拼块数据。

40.根据权利要求39所述的方法，其中，至少一个输入图像能够通过创建包括覆盖层的无限制堆和分辨率金字塔在内的外推输出图像来恢复。

41.根据权利要求39所述的方法，其中，各个图像拼块包括低频率数据。

42.根据权利要求39所述的方法，其中，使用时间压缩来压缩各个图像拼块。

43.根据权利要求39所述的方法，其中，使用多视图压缩来压缩至少一个输入图像。

44.一种使用动态图像虚拟化系统进行数据压缩的方法，所述方法包括以下步骤：

(i)捕捉或创建至少一个输入图像，所述至少一个输入图像由静态2D CGI离线生成；

(ii)将所捕捉的各个输入图像细分成图像拼块；

(iii)应用压缩技术，从而相对减小各个图像拼块的尺寸；

(iv)使用经训练以执行具有降低的延迟的数据获取预测处理的AI模型。