CN115564900A

CN115564900A - 用于生成平面视频内容的合成现实重构的方法和设备

Info

Publication number: CN115564900A
Application number: CN202211357526.6A
Authority: CN
Inventors: I·M·里克特; D·乌尔布莱特; J-D·E·纳米亚斯; O·埃尔阿菲菲; P·迈耶
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2018-01-22
Filing date: 2019-01-18
Publication date: 2023-01-03
Also published as: CN111615832A; CN111615832B; EP4462796A1; US11386653B2; WO2019143984A1; EP3744108B1; US20200387712A1; EP3744108A1

Abstract

本公开涉及用于生成平面视频内容的合成现实重构的方法和设备。在一个具体实施中，一种方法包括：标识与视频内容的一部分相关联的场景内的第一情景；合成所述场景的场景描绘，所述场景描绘对应于与所述场景相关联的设置内所述第一情景施行者的轨线以及由所述第一情景施行者执行的动作；以及通过根据所述场景的所述场景描绘驱动与所述第一情景施行者相关联的第一数字资产来生成所述场景的对应合成现实(SR)重构。

Description

用于生成平面视频内容的合成现实重构的方法和设备

相关申请引用

本申请是国际申请号为PCT/US2019/014260、国际申请日为2019年1月18日、进入中国国家阶段日期为2020年7月16日、中国国家申请号为201980008675.1、发明名称为“用于生成平面视频内容的合成现实重构的方法和设备”的发明专利申请的分案申请。

技术领域

本公开整体涉及合成现实(SR)，并且具体地讲，涉及用于生成平面视频内容的SR重构的系统、方法和设备。

背景技术

虚拟现实(VR)和增强现实(AR)由于其突出的改变用户对世界的感知的能力而正变得越来越流行。例如，VR和AR被用于学习目的、游戏目的、内容创建目的、社交媒体和交互目的等。这些技术在用户对他/她在场的感知方面是不同的。VR将用户转置到虚拟空间中，使得其VR感知不同于他/她的真实世界感知。相比之下，AR采用用户的真实世界感知并向其添加一些东西。

由于例如硬件部件的小型化、硬件性能的改进以及软件效率的改进，这些技术正变得越来越普遍。作为一个示例，用户可体验叠加在手持式显示器(例如，具有视频透传的支持AR的移动电话或平板电脑)上的用户设置的实时视频馈送上的AR内容。又如，用户可通过佩戴头戴式设备(HMD)或头戴式壳罩来体验AR内容，该头戴式设备或头戴式壳罩仍然允许用户看到他/她的周围环境(例如，具有光学透视的眼镜)。又如，用户可通过使用包封用户视场并拴系到计算机的HMD来体验VR内容。

附图说明

因此，本公开可被本领域的普通技术人员理解，更详细的描述可参考一些例示性具体实施的方面，其中一些具体实施在附图中示出。

图1A是根据一些具体实施的示例性操作架构的框图。

图1B是根据一些具体实施的另一示例性操作架构的框图。

图2是根据一些具体实施的示例性控制器的框图。

图3是根据一些具体实施的示例性电子设备的框图。

图4是根据一些具体实施的合成现实(SR)内容生成架构的框图。

图5示出了根据一些具体实施的场景理解谱。

图6示出了根据一些具体实施的示例性SR内容生成情境。

图7是根据一些具体实施的生成平面视频内容的SR重构的方法的流程图表示。

图8是根据一些具体实施的生成平面视频内容的SR重构的方法的流程图表示。

根据通常的做法，附图中示出的各种特征部可能未按比例绘制。因此，为了清楚起见，可以任意地扩展或减小各种特征部的尺寸。另外，一些附图可能未描绘给定的系统、方法或设备的所有部件。最后，在整个说明书和附图中，类似的附图标号可用于表示类似的特征部。

发明内容

本文所公开的各种具体实施包括用于从平面视频内容生成合成现实(SR)内容的设备、系统和方法。根据一些具体实施，该方法在包括非暂态存储器和与该非暂态存储器耦接的一个或多个处理器的设备处执行。该方法包括：标识与视频内容的一部分相关联的场景内的第一情景施行者；合成所述场景的场景描绘，所述场景描绘对应于与所述场景相关联的设置内所述第一情景施行者的轨线以及由所述第一情景施行者执行的动作；以及通过根据所述场景的所述场景描绘驱动与第一情景施行者相关联的第一数字资产来生成所述场景的对应SR重构。

根据一些具体实施，一种设备包括一个或多个处理器、非暂态存储器以及一个或多个程序；该一个或多个程序被存储在非暂态存储器中并且被配置为由一个或多个处理器执行，并且该一个或多个程序包括用于执行或使得执行本文所述方法中的任一种的指令。根据一些具体实施，一种非暂态计算机可读存储介质中存储有指令，这些指令在由设备的一个或多个处理器执行时使该设备执行或使执行本文所述方法中的任一种。根据一些具体实施，一种设备包括：一个或多个处理器、非暂态存储器以及用于执行或使执行本文所述方法中的任一种的装置。

具体实施方式

描述了许多细节以便提供对附图中所示的示例具体实施的透彻理解。然而，附图仅示出了本公开的一些示例方面，因此不应被视为限制。本领域的普通技术人员将理解，其他有效方面和/或变体不包括本文所述的所有具体细节。此外，没有详尽地描述众所周知的系统、方法、部件、设备和电路，以免模糊本文所述的示例性具体实施的更多相关方面。

物理环境是指无需电子系统帮助个体就能够感知和/或个体能够交互的世界。物理环境(例如，物理森林)包括物理元素(例如，物理树、物理结构和物理动物)。个体可直接与物理环境相互作用和/或感知物理环境，诸如通过触摸、视觉、嗅觉、听觉和味觉。

相比之下，合成现实(SR)环境是指个体经由电子系统能够感知和/或能够与之交互的完全或部分由计算机创建的环境。在SR中，监测个体移动的子集，并且响应于此，以符合一个或多个物理定律的方式使SR环境中的一个或多个虚拟对象的一个或多个属性变化。例如，SR系统可检测到个体向前走几步，并且响应于此，以类似于此类情景和声音在物理环境中会如何变化的方式来调节呈现给个体的图形和音频。也可响应于移动的表示(例如，音频指令)而进行对SR环境中一个或多个虚拟对象的一个或多个属性的修改。

个体可使用他的任何感觉(包括触觉、嗅觉、视觉、味觉和声音)与SR对象进行交互和/或感知SR对象。例如，个体可与创建多维(例如，三维)或空间听觉环境和/或实现听觉透明性的听觉对象进行交互和/或感知听觉对象。多维或空间听觉环境为个体提供了在多维空间中对离散听觉源的感知。在具有或不具有计算机创建的音频的情况下，听觉透明性选择性地结合来自物理环境的声音。在一些SR环境中，个体可仅与听觉对象进行交互和/或仅感知听觉对象。

SR的一个示例是虚拟现实(VR)。VR环境是指被设计为仅包括针对至少一种感觉的计算机创建的感官输入的模拟环境。VR环境包括个体可与之交互和/或对其进行感知的多个虚拟对象。个体可通过在计算机创建的环境内模拟个体动作的子集和/或通过对个体或其在计算机创建的环境内的存在的模拟，来与VR环境中的虚拟对象进行交互和/或感知VR环境中的虚拟对象。

SR的另一个示例是混合现实(MR)。MR环境是指被设计为将计算机创建的感官输入(例如，虚拟对象)与来自物理环境的感官输入或其表示集成的模拟环境。在现实谱系上，混合现实环境介于一端的VR环境和另一端的完全物理环境之间并且不包括这些环境。

在一些MR环境中，计算机创建的感官输入可以适应于来自物理环境的感官输入的变化。另外，用于呈现MR环境的一些电子系统可以监测相对于物理环境的取向和/或位置，以使虚拟对象能够与真实对象(即来自物理环境的物理元素或其表示)交互。例如，系统可监测运动，使得虚拟植物相对于物理建筑物看起来是静止的。

混合现实的一个示例是增强现实(AR)。AR环境是指至少一个虚拟对象叠加在物理环境或其表示之上的模拟环境。例如，电子系统可具有不透明显示器和至少一个成像传感器，成像传感器用于捕获物理环境的图像或视频，这些图像或视频是物理环境的表示。系统将图像或视频与虚拟对象组合，并在不透明显示器上显示该组合。个体使用系统经由物理环境的图像或视频间接地查看物理环境，并且观察叠加在物理环境之上的虚拟对象。当系统使用一个或多个图像传感器捕获物理环境的图像，并且使用那些图像在不透明显示器上呈现AR环境时，所显示的图像被称为视频透传。另选地，用于显示AR环境的电子系统可具有透明或半透明显示器，个体可通过该显示器直接查看物理环境。该系统可在透明或半透明显示器上显示虚拟对象，使得个体使用该系统观察叠加在物理环境之上的虚拟对象。又如，系统可包括将虚拟对象投影到物理环境中的投影系统。虚拟对象可例如在物理表面上或作为全息图被投影，使得个体使用该系统观察叠加在物理环境之上的虚拟对象。

增强现实环境也可指其中物理环境的表示被计算机创建的感官信息改变的模拟环境。例如，物理环境的表示的一部分可被以图形方式改变(例如，放大)，使得所改变的部分仍可代表一个或多个初始捕获的图像但不是忠实再现的版本。又如，在提供视频透传时，系统可改变传感器图像中的至少一者以施加不同于一个或多个图像传感器捕获的视点的特定视点。再如，物理环境的表示可通过以图形方式将其部分进行模糊处理或消除其部分而被改变。

混合现实的另一个示例是增强虚拟(AV)。AV环境是指计算机创建环境或虚拟环境并入来自物理环境的至少一个感官输入的模拟环境。来自物理环境的一个或多个感官输入可为物理环境的至少一个特征的表示。例如，虚拟对象可呈现由一个或多个成像传感器捕获的物理元素的颜色。又如，虚拟对象可呈现出与物理环境中的实际天气条件相一致的特征，如经由天气相关的成像传感器和/或在线天气数据所识别的。在另一个示例中，增强现实森林可具有虚拟树木和结构，但动物可具有从对物理动物拍摄的图像精确再现的特征。

许多电子系统使得个体能够与各种SR环境进行交互和/或感知各种SR环境。一个示例包括头戴式系统。头戴式系统可具有不透明显示器和一个或多个扬声器。另选地，头戴式系统可以被设计为接收外部显示器(例如，智能电话)。头戴式系统可具有分别用于拍摄物理环境的图像/视频和/或捕获物理环境的音频的一个或多个成像传感器和/或麦克风。头戴式系统也可具有透明或半透明显示器。透明或半透明显示器可结合基板，表示图像的光通过该基板被引导到个体的眼睛。显示器可结合LED、OLED、数字光投影仪、激光扫描光源、硅上液晶，或这些技术的任意组合。透射光的基板可以是光波导、光组合器、光反射器、全息基板或这些基板的任意组合。在一个实施方案中，透明或半透明显示器可在不透明状态与透明或半透明状态之间选择性地转换。又如，电子系统可以是基于投影的系统。基于投影的系统可使用视网膜投影将图像投影到个体的视网膜上。另选地，投影系统还可将虚拟对象投影到物理环境中(例如，投影到物理表面上或作为全息图)。SR系统的其他示例包括平视显示器、能够显示图形的汽车挡风玻璃、能够显示图形的窗口、能够显示图形的镜片、耳机或耳塞、扬声器布置、输入机构(例如，具有或不具有触觉反馈的控制器)、平板电脑、智能电话，以及台式计算机或膝上型计算机。

用户可能希望体验视频内容(例如，电视剧集或电影)就好像他/她在具有人物的场景中一样。换句话讲，用户希望观看视频内容作为SR体验，而不是简单地在电视机或其他显示设备上观看视频内容。

SR内容常常是提前精心创建的，并且由用户从可用SR内容的库中访问。本文所公开的具体实施包括一种通过利用数字资产生成视频内容的按需SR重构的方法。因此，平面视频内容可无缝且快速地被接口到SR体验中。

图1A是根据一些具体实施的示例性操作架构100A的框图。尽管示出了相关特征，但本领域的普通技术人员将从本公开中认识到，为简洁起见并且为了不模糊本文所公开的示例性具体实施的更多相关方面，未示出各种其他特征。为此，作为非限制性示例，操作架构100A包括电子设备120。

在一些具体实施中，电子设备120被配置为向用户呈现SR体验。在一些具体实施中，电子设备120包括软件、固件和/或硬件的合适组合。下文参考图3更详细地描述电子设备120。根据一些具体实施，当用户150物理地存在于物理环境103内时，电子设备120向用户呈现合成现实(SR)体验，其中物理环境103包括处于电子设备120的视场111内的桌子107。这样，在一些具体实施中，用户将电子设备120拿在他/她的手中。在一些具体实施中，在呈现增强现实(AR)体验时，电子设备120被配置为呈现AR内容(例如，AR圆柱体109)并使得能够实现在显示器122上物理环境103(例如，包括桌子107)的视频透传。

图1B是根据一些具体实施的示例性操作架构100B的框图。尽管示出了相关特征，但本领域的普通技术人员将从本公开中认识到，为简洁起见并且为了不模糊本文所公开的示例性具体实施的更多相关方面，未示出各种其他特征。为此，作为非限制性示例，操作架构100B包括控制器110和电子设备120。

在一些具体实施中，控制器110被配置为管理和协调用户的SR体验。在一些具体实施中，控制器110包括软件、固件和/或硬件的合适组合。下文参考图2更详细地描述控制器110。在一些具体实施中，控制器110是相对于物理环境105处于本地或远程位置的计算设备。例如，控制器110是位于物理环境105内的本地服务器。在另一个示例中，控制器110是位于物理环境105之外的远程服务器(例如，云服务器、中央服务器等)。在一些具体实施中，控制器110经由一个或多个有线或无线通信信道144(例如，蓝牙、IEEE 802.11x、IEEE802.16x、IEEE 802.3x等)与电子设备120通信地耦接。

在一些具体实施中，电子设备120被配置为向用户150呈现SR体验。在一些具体实施中，电子设备120包括软件、固件和/或硬件的合适组合。下文参考图3更详细地描述电子设备120。在一些具体实施中，控制器110和/或显示设备130的功能由电子设备120提供和/或与电子设备120结合。

根据一些具体实施，当用户150虚拟地和/或物理地存在于物理环境105内时，电子设备120向用户150呈现合成现实(SR)体验。在一些具体实施中，在呈现增强现实(AR)体验时，电子设备120被配置为呈现AR内容以及使得能够实现物理环境105的光学透视。在一些具体实施中，在呈现虚拟现实(VR)体验时，电子设备120被配置为呈现VR内容以及任选地使得能够实现物理环境105的光学透传。

在一些具体实施中，用户150在他/她的头上佩戴电子设备120，诸如头戴式设备(HMD)。因此，电子设备120包括被提供用于显示SR内容的一个或多个显示器。例如，电子设备120包围用户150的视场。又如，电子设备120滑动到头戴式壳罩中或以其他方式附接到头戴式壳罩。在一些具体实施中，将电子设备120替换成被配置为呈现SR内容的SR室、壳罩或房间，用户150在其中不佩戴电子设备120。

图2是根据一些具体实施的控制器110的示例的框图。尽管示出了一些具体特征，但本领域的技术人员将从本公开中认识到，为简洁起见并且为了不模糊本文所公开的具体实施的更多相关方面，未示出各种其他特征。为此，作为非限制性示例，在一些具体实施中，控制器110包括一个或多个处理单元202(例如，微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、图形处理单元(GPU)、中央处理单元(CPU)、处理核心等)、一个或多个输入/输出(I/O)设备206、一个或多个通信接口208(例如，通用串行总线(USB)、IEEE 802.3x、IEEE 802.11x、IEEE 802.16x、全球移动通信系统(GSM)、码分多址(CDMA)、时分多址(TDMA)、全球定位系统(GPS)、红外(IR)、蓝牙、ZIGBEE和/或相似类型接口)、一个或多个编程(例如，I/O)接口210、存储器220以及用于互连这些部件和各种其他部件的一条或多条通信总线204。

在一些具体实施中，所述一条或多条通信总线204包括互连系统部件和控制系统部件之间的通信的电路。在一些具体实施中，一个或多个I/O设备206包括键盘、鼠标、触控板、操纵杆、一个或多个麦克风、一个或多个扬声器、一个或多个图像传感器、一个或多个显示器等中的至少一种。

存储器220包括高速随机存取存储器，诸如动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、双倍数据速率随机存取存储器(DDR RAM)或者其他随机存取固态存储器设备。在一些具体实施中，存储器220包括非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存存储器设备或其他非易失性固态存储设备。存储器220任选地包括远离所述一个或多个处理单元202定位的一个或多个存储设备。存储器220包括非暂态计算机可读存储介质。在一些具体实施中，存储器220或存储器220的非暂态计算机可读存储介质存储下述程序、模块和数据结构或它们的子集，其中包括任选的操作系统230、合成现实(SR)体验引擎240、和SR内容生成器250。

操作系统230包括用于处理各种基础系统服务和用于执行硬件相关任务的过程。

在一些具体实施中，SR体验引擎240被配置为管理和协调一个或多个用户的单重或多重SR体验(例如，一个或多个用户的单重SR体验，或一个或多个用户的相应群组的多重SR体验)。为此，在各种具体实施中，SR体验引擎240包括数据获取器242、标测器和定位器引擎244、协调器246和数据传输器248。

在一些具体实施中，数据获取器242被配置为从物理环境105中的传感器、与控制器110相关联的传感器、和电子设备120中的至少一者获取数据(例如，呈现数据、用户交互数据、传感器数据、位置数据等)。为此，在各种具体实施中，数据获取器242包括指令和/或用于指令的逻辑部件以及启发法和用于启发法的元数据。

在一些具体实施中，标测器和定位器引擎244被配置为标测物理环境105以及跟踪至少电子设备120相对于物理环境105的方位/位置。为此，在各种具体实施中，标测器和定位器引擎244包括指令和/或用于指令的逻辑部件以及启发法和用于启发法的元数据。

在一些具体实施中，协调器246被配置为管理和协调电子设备120向用户呈现的SR体验。为此，在各种具体实施中，协调器246包括指令和/或用于指令的逻辑部件以及启发法和用于启发法的元数据。

在一些具体实施中，数据传输器248被配置为至少向电子设备120传输数据(例如，呈现数据、位置数据等)。为此，在各种具体实施中，数据传输器248包括指令和/或用于指令的逻辑部件以及启发法和用于启发法的元数据。

在一些具体实施中，SR内容生成器250被配置为从视频内容生成场景的SR重构。为此，在各种具体实施中，SR内容生成器250包括摄取器252和重构引擎254。

在一些具体实施中，摄取器252被配置为获取视频内容(例如，与电视剧集或电影相关联的二维或“平面”AVI、FLV、WMV、MOV、MP4或类似文件)。在一些具体实施中，摄取器252还被配置为对场景执行场景理解过程和场景解析过程，以便合成场景的场景描绘(例如，与情景设置、关键帧等相关联的视频内容的一部分)。下文参考图4更详细地讨论摄取器252。

在一些具体实施中，重构引擎254被配置为获取与视频内容内的场景相关联的数字资产(例如，人物点云、物品/对象点云、场景设置点云、视频游戏模型、物品/对象模型、场景设置模型等)。在一些具体实施中，重构引擎254还被配置为实例化场景内每个情景施行者的主线。在一些具体实施中，重构引擎254还被配置为根据场景描绘驱动数字资产以便生成场景的SR重构。

虽然SR体验引擎240和SR内容生成器250被图示成驻留在单个设备(例如，控制器110)上，但是应当理解，在其他具体实施中，SR体验引擎240和SR内容生成器250的任何组合可以位于分开的计算设备中。

此外，图2更多地用作存在于特定实施方案中的各种特征部的功能描述，与本文所述的具体实施的结构示意图不同。如本领域的普通技术人员将认识到的，单独显示的项目可以组合，并且一些项目可以分开。例如，图2中单独示出的一些功能模块可以在单个模块中实现，并且单个功能块的各种功能可在各种具体实施中通过一个或多个功能块来实现。模块的实际数量和特定功能的划分以及如何在其中分配特征将根据实施方案而变化，并且在一些具体实施中，部分地取决于为特定实施方案选择的硬件、软件和/或固件的特定组合。

图3是根据一些具体实施的电子设备120的示例的框图。尽管示出了一些具体特征，但本领域的技术人员将从本公开中认识到，为简洁起见并且为了不模糊本文所公开的具体实施的更多相关方面，未示出各种其他特征。出于该目的，作为非限制性示例，在一些具体实施中，电子设备120包括一个或多个处理单元302(例如，微处理器、ASIC、FPGA、GPU、CPU、处理核心等)、一个或多个输入/输出(I/O)设备及传感器306、一个或多个通信接口308(例如，USB、IEEE 802.3x、IEEE 802.11x、IEEE 802.16x、GSM、CDMA、TDMA、GPS、IR、BLUETOOTH、ZIGBEE和/或类似类型的接口)、一个或多个编程(例如，I/O)接口310、一个或多个显示器312、一个或多个任选的面向内部和/或面向外部的图像传感器314、存储器320以及用于互连这些部件和各种其他部件的一条或多条通信总线304。

在一些具体实施中，一条或多条通信总线304包括互连和控制系统部件之间的通信的电路。在一些具体实施中，所述一个或多个I/O设备及传感器306包括惯性测量单元(IMU)、加速度计、陀螺仪、温度计、一个或多个生理传感器(例如，血压监测仪、心率监测仪、血氧传感器、血糖传感器等)、一个或多个麦克风、一个或多个扬声器、触觉引擎、加热和/或冷却单元、皮肤剪切引擎、一个或多个深度传感器(例如，结构光、飞行时间等)等。

在一些具体实施中，所述一个或多个显示器312被配置为向用户呈现SR体验。在一些具体实施中，所述一个或多个显示器312还被配置为向用户呈现平面视频内容(例如，与电视剧集或电影相关联的二维或“平面”AVI、FLV、WMV、MOV、MP4或类似文件，或物理环境105的实况视频透传)。在一些具体实施中，一个或多个显示器312对应于全息、数字光处理(DLP)、液晶显示器(LCD)、硅上液晶(LCoS)、有机发光场效应晶体管(OLET)、有机发光二极管(OLED)、表面传导电子发射器显示器(SED)、场发射显示器(FED)、量子点发光二极管(QD-LED)、微机电系统(MEMS)和/或相似显示器类型。在一些具体实施中，一个或多个显示器312对应于衍射、反射、偏振、全息等波导显示器。例如，电子设备120包括单个SR显示器。又如，电子设备120对于用户的每只眼睛包括SR显示器。在一些具体实施中，一个或多个显示器312能够呈现AR和VR内容。在一些具体实施中，所述一个或多个显示器312能够呈现AR或VR内容。在一些具体实施中，所述一个或多个任选的图像传感器314对应于一个或多个RGB相机(例如，具有互补金属氧化物半导体(CMOS)图像传感器或电荷耦合器件(CCD)图像传感器)、IR图像传感器、基于事件的相机等。

存储器320包括高速随机存取存储器，诸如DRAM、SRAM、DDR RAM或其他随机存取固态存储器设备。在一些具体实施中，存储器320包括非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存存储器设备或其他非易失性固态存储设备。存储器320任选地包括远离所述一个或多个处理单元302定位的一个或多个存储设备。存储器320包括非暂态计算机可读存储介质。在一些具体实施中，存储器320或存储器320的非暂态计算机可读存储介质存储下述程序、模块和数据结构或它们的子集，其中包括任选的操作系统330和SR呈现引擎340。

操作系统330包括用于处理各种基础系统服务和用于执行硬件相关任务的过程。在一些具体实施中，SR呈现引擎340被配置为经由所述一个或多个显示器312向用户呈现SR内容。出于该目的，在各种具体实施中，SR呈现引擎340包括数据获取器342、SR呈现器344、交互处理器346和数据传输器350。

在一些具体实施中，数据获取器342被配置为从物理环境105中的传感器、与电子设备120相关联的传感器、和控制器110中的至少一者获取数据(例如，呈现数据、用户交互数据、传感器数据、位置数据等)。为此，在各种具体实施中，数据获取器342包括指令和/或用于指令的逻辑部件以及启发法和用于启发法的元数据。

在一些具体实施中，SR呈现器344被配置为经由所述一个或多个显示器312呈现和更新SR内容。为此，在各种具体实施中，SR呈现器344包括指令和/或用于指令的逻辑部件以及启发法和用于启发法的元数据。

在一些具体实施中，交互处理器346被配置为检测和解释用户与所呈现SR内容的交互。为此，在各种具体实施中，交互处理器346包括指令和/或用于指令的逻辑部件以及启发法和用于启发法的元数据。

在一些具体实施中，数据传输器350被配置为向至少控制器110传输数据(例如，呈现数据、位置数据、用户交互数据等)。为此，在各种具体实施中，数据传输器350包括指令和/或用于指令的逻辑部件以及启发法和用于启发法的元数据。

尽管数据获取器342、SR呈现器344、交互处理器346和数据传输器350被图示成驻留在单个设备(例如，电子设备120)上，但应当理解，在其他具体实施中，数据获取器342、SR呈现器344、交互处理器346和数据传输器350的任何组合可位于分开的计算设备中。

此外，图3更多地用作存在于特定实施方案中的各种特征部的功能描述，而不是本文所述具体实施的结构示意。如本领域的普通技术人员将认识到的，单独显示的项目可以组合，并且一些项目可以分开。例如，图3中单独示出的一些功能模块可以在单个模块中实现，并且单个功能块的各种功能可在各种具体实施中通过一个或多个功能块来实现。模块的实际数量和特定功能的划分以及如何在其中分配特征将根据实施方案而变化，并且在一些具体实施中，部分地取决于为特定实施方案选择的硬件、软件和/或固件的特定组合。

图4示出了根据一些具体实施的示例性SR内容生成架构400。尽管示出了相关特征，但本领域的普通技术人员将从本公开中认识到，为简洁起见并且为了不模糊本文所公开的示例性具体实施的更多相关方面，未示出各种其他特征。为此，作为非限制性示例，SR内容生成架构400包括SR内容生成器250，SR内容生成器250通过根据场景描绘420驱动数字资产404(例如，人物/演员的视频游戏模型、人物/演员的点云等)来生成视频内容402内的场景的SR重构440。如图2所示，SR内容生成器250包括摄取器252和重构引擎254。

在一些具体实施中，摄取器252被配置为响应于请求(例如，来自用户的命令)而获取视频内容402。例如，SR内容生成器250获得来自用户的对于查看所指定视频内容(例如，电视剧集或电影)的SR重构的请求。继续该示例，响应于获得该请求，SR内容生成器250或其部件(例如，摄取器252)从本地库或远程库(例如，远程服务器、第三方内容提供方等)获取(例如，接收或检索)视频内容402。在一些具体实施中，摄取器252还被配置为对场景执行场景理解过程和场景解析过程，以便合成视频内容402内特定场景的场景描绘420(例如，与情景设置、关键帧等相关联的视频内容的一部分)。

为此，在一些具体实施中，摄取器252包括场景理解引擎412和场景解析引擎414。在一些具体实施中，场景理解引擎412被配置为对视频内容402中的场景执行场景理解过程。在一些具体实施中，作为场景理解过程的一部分，场景理解引擎412标识场景内的情景施行者、可动作对象、和不可动作环境元素和基础结构。例如，情景施行者对应于场景内影响与场景相关联的情景的人物(例如，类人物、动物、机械人、机器人等)。例如，可动作对象对应于场景内被情景施行者作用的环境元素(例如，工具、饮用容器、可移动家具诸如椅子等)。例如，不可动作环境元素和基础结构对应于场景内不被情景施行者作用的环境元素(例如，地毯、固定家具、墙壁等)。下文参考图5更详细地描述情景施行者、可动作对象、和不可动作环境元素和基础结构。

在一些具体实施中，场景理解引擎412基于面部、骨骼和/或仿人识别技术来标识场景内的情景施行者。在一些具体实施中，场景理解引擎412基于对象识别和/或分类技术来标识场景内的情景施行者。在一些具体实施中，场景理解引擎412基于对象识别和/或分类技术来标识场景内的可动作对象和不可动作环境元素和基础结构。

在一些具体实施中，作为场景理解过程的一部分，场景理解引擎412还确定场景中情景施行者、可动作对象和不可动作环境元素与基础结构之间的空间关系。例如，场景理解引擎412创建与场景相关联的设置的3维图，并且相对于3维图定位情景施行者、可动作对象、和不可动作环境元素和基础结构。

在一些具体实施中，场景解析引擎414被配置为对视频内容402中的场景执行场景解析过程。在一些具体实施中，作为场景解析过程的一部分，场景解析引擎414为场景内的每个情景施行者确定动作序列。例如，与场景的第一场景施行者相关联的动作序列包括以下时间排序的动作序列：进门、在椅子A坐下、拿起咖啡杯、从咖啡杯饮用、放下咖啡杯、站起、与第二情景施行者说话、挥手、围绕桌子行走、和出门。在一些具体实施中，作为场景解析过程的一部分，场景解析引擎414还为场景内的每个情景施行者确定轨线。例如，与场景内第一情景施行者相关联的轨线序列包括第一情景施行者相对于与场景相关联的设置的三维图所采取的路线或路径。

在一些具体实施中，在执行场景理解和场景解析过程(例如，现有场景概述、场景动作序列、场景信息等)时，摄取器引擎252利用与视频内容402相关的外部数据。在一些具体实施中，摄取器252被配置为合成场景描绘420，该场景描绘包括相对于与场景相关联的设置的三维图的每个情景施行者的动作序列和轨线。

在一些具体实施中，重构引擎254被配置为响应于上述请求而获取与视频内容402相关联的数字资产404。例如，SR内容生成器250获得来自用户的对于查看所指定视频内容(例如，电视剧集或电影)的SR重构的请求。继续该示例，响应于获得该请求，SR内容生成器250或其部件(例如，重构引擎254)从本地库或远程库(例如，远程服务器、第三方资产提供方等)获取(例如，接收或检索)数字资产404。例如，数字资产404包括与视频内容402内情景施行者(例如，人物或演员)相关联的点云、与视频内容402内情景施行者(例如，人物或演员)相关联的视频游戏模型等。在另一示例中，数字资产404包括与物品和/或对象(例如，家具、家居用品、家电、工具、食物等)相关联的点云、模型等。在又一示例中，数字资产404包括与和场景相关联的设置相关联的点云、模型等。

在一些具体实施中，如果用于情景施行者的点云或视频游戏模型不可用，则重构引擎254被配置为基于视频内容402和/或与情景施行者相关联的其他外部数据(例如，与情景施行者相关联的其他视频内容、图像、维度等)来生成情景施行者的模型。

在一些具体实施中，重构引擎254包括：场景设置生成器432、主线处理器434和数字资产驱动器436。在一些具体实施中，场景设置生成器432被配置为生成与场景相关联的场景设置的SR重构。在一些具体实施中，场景设置生成器432至少部分地基于数字资产404生成场景设置的SR重构。在一些具体实施中，场景设置生成器432至少部分地通过基于场景内所识别的环境元素和基础结构合成与场景相关联的场景设置的三维模型来生成场景设置的SR重构。

在一些具体实施中，主线处理器434被配置为实例化和管理场景内每个情景施行者的主线。在一些具体实施中，主线处理器434也被配置为实例化和管理场景内每个可动作对象的主线。

在一些具体实施中，数字资产驱动器436被配置为根据场景描绘420驱动每个情景施行者的数字资产(例如，视频游戏资产或点云)。在一些具体实施中，数字资产驱动器436根据自然语音、自然生物动力学/移动等技术来驱动数字资产。例如，相应情景施行者的数字资产的面部特征(例如，唇、嘴、面颊等)与相应情景施行者的语音轨道同步。

在一些具体实施中，重构引擎254被配置为通过在与场景相关联的设置的SR重构内根据场景描绘420驱动数字资产404来生成场景的SR重构440。在一些具体实施中，SR重构440被提供给SR呈现流水线450以用于呈现给用户。在一些具体实施中，SR重构440由控制器110渲染并作为呈现数据被传输给电子设备120，其中SR重构440经由所述一个或多个显示器312呈现。

图5示出了根据一些具体实施的示例性场景理解谱500。尽管示出了相关特征，但本领域的普通技术人员将从本公开中认识到，为简洁起见并且为了不模糊本文所公开的示例性具体实施的更多相关方面，未示出各种其他特征。为此，作为非限制性示例，场景理解谱500包括由图2和图4中的SR内容生成单元250或其部件(例如，图4中的场景理解单元412)在场景内标识的场景元素的谱，其基于场景元素在场景内的动态程度(例如，移动、语音等)来排序。

在一些具体实施中，作为场景理解过程的一部分，场景理解引擎412标识场景内的不可动作环境元素和基础结构502、可动作对象504、和情景施行者506。例如，情景施行者506对应于场景内影响与场景相关联的情景的人物(例如，类人物、动物、机械人、机器人等)。例如，可动作对象504对应于场景内被情景施行者作用的环境元素(例如，工具、饮用容器、家具等)。例如，不可动作环境元素和基础结构502对应于场景内不被情景施行者506作用的环境元素(例如，地毯、家具、墙壁等)。因此，情景施行者506可在场景内显著移动，生成可听噪声或语音，或者作用于可动作对象504(例如，球、方向盘、剑等)，可动作对象在场景内也被置于运动中，但不可动作环境元素和基础结构502是不被情景施行者506的动作改变的静态场景元素。

图6示出了根据一些具体实施的示例性SR内容生成情境600。尽管示出了相关特征，但本领域的普通技术人员将从本公开中认识到，为简洁起见并且为了不模糊本文所公开的示例性具体实施的更多相关方面，未示出各种其他特征。为此，作为非限制性示例，在SR内容生成情境600中，将视频内容402(例如，平面电视剧集或电影)和数字资产404(例如，与视频内容402中的情景施行者相关联的点云或视频游戏模型)作为输入提供给图2和图4中的SR内容生成器250。如上文参考图4所述，SR内容生成器250为视频内容402内的特定场景合成场景描绘420，并且通过根据场景描绘420驱动数字资产404来生成场景的SR重构440。

图7是根据一些具体实施的生成平面视频内容的SR重构的方法700的流程图表示。在各种具体实施中，方法700由具有一个或多个处理器和非暂态存储器(例如，图1B和图2中的控制器110、图1A至图1B和图3中的电子设备120、或它们的合适组合)或其部件(例如，图2和图4中的SR内容生成器250)的设备执行。在一些具体实施中，方法700由处理逻辑部件(包括硬件、固件、软件或其组合)执行。在一些具体实施中，方法700由执行存储在非暂态计算机可读介质(例如，存储器)中的代码的处理器执行。简而言之，在一些情况下，方法700包括：标识与视频内容的一部分相关联的场景内的第一情景施行者；合成所述场景的场景描绘，所述场景描绘对应于与所述场景相关联的设置内所述第一情景施行者的轨线以及由所述第一情景施行者执行的动作；以及通过根据所述场景的所述场景描绘驱动与第一情景施行者相关联的第一数字资产来生成所述场景的对应SR重构。

如框7-1所示，方法700包括标识与视频内容的一部分相关联的场景内的第一情景施行者(例如，将与主线相关联的人物或对象)。在一些具体实施中，作为场景理解过程的一部分，SR内容生成器250或其部件(例如，图4中的场景理解引擎412)标识第一情景施行者。在一些具体实施中，第一情景施行者对应于类人人物、机器人人物、动物、载体等(例如，执行动作和/或完成目标的实体)。在一些具体实施中，作为场景理解过程的一部分，SR内容生成器250或其部件(例如，图4中的场景理解引擎412)标识场景内的一个或多个其他情景施行者。例如，SR内容生成器250或其部件(例如，图4中的场景理解引擎412)以每个场景为基础基于关键帧等来执行场景理解过程。上文参考图4更详细地描述了与标识情景施行者相关联的过程。

如框7-2所示，方法700包括合成所述场景的场景描绘，所述场景描绘对应于与所述场景相关联的设置内所述第一情景施行者的轨线以及由所述第一情景施行者执行的动作。在一些具体实施中，场景描绘是从图像描述/解析过程生成的，由此，首先，SR内容生成器250对每个帧执行对象/仿人识别。接下来，SR内容生成器250确定所识别对象/类人物与场景/设置之间的空间关系(例如，深度)。然后，SR内容生成器250实例化所识别对象/类人物的主线。接下来，SR内容生成器250生成跟踪主线的视频内容的场景描绘(例如，剧本)。在一些具体实施中，场景描绘包括动作序列，并且还包括场景内每个情景施行者的轨线。上文参考图4更详细地描述了与合成场景描绘相关联的过程。

如框7-3所示，方法700包括通过根据所述场景的所述场景描绘驱动与第一情景施行者相关联的第一数字资产来生成所述场景的对应SR重构。在一些具体实施中，SR内容生成器250还利用与场景设置、对象等相关联的其他数字资产来生成场景的SR重构。上文参考图4更详细地描述了SR重构过程。

在一些具体实施中，数字资产对应于视频内容中情景施行者(例如，人物/演员)的视频游戏模型。在一些具体实施中，数字资产对应于与视频内容中情景施行者(例如，人物/演员)相关联的蒙皮点云。在一些具体实施中，数字资产对应于与场景相关联的设置和设置内的对象的模型。

图8是根据一些具体实施的生成平面视频内容的SR重构的方法800的流程图表示。在各种具体实施中，方法800由具有一个或多个处理器和非暂态存储器(例如，图1B和图2中的控制器110、图1A至图1B和图3中的电子设备120、或它们的合适组合)或其部件(例如，图2和图4中的SR内容生成器250)的设备执行。在一些具体实施中，方法800由处理逻辑部件(包括硬件、固件、软件或其组合)执行。在一些具体实施中，方法800由执行存储在非暂态计算机可读介质(例如，存储器)中的代码的处理器执行。简而言之，在一些情况下，方法800包括：检测用于基于所指定视频内容生成SR内容的触发；获取所述视频内容；对所述视频内容执行场景理解过程；对所述视频内容执行场景解析过程以合成场景描绘；获取与所述视频内容相关联的数字资产；通过根据所述场景描绘驱动所述数字资产来生成所述场景的SR重构；以及呈现所述SR重构。

如框8-1所示，方法800包括检测用于基于视频内容生成SR内容的触发。在一些具体实施中，SR内容生成器250或其部件获取来自用户的对于查看所指定视频内容(例如，电视剧集或电影)的SR重构的请求。因此，来自用户的对于查看所指定视频内容的SR重构的请求对应于用于基于所指定视频内容生成SR内容的触发。

如框8-2所示，方法800包括获取视频内容。在一些具体实施中，SR内容生成器250或其部件获取(例如，接收或检索)视频内容。例如，SR内容生成器250从本地库或远程库(例如，远程服务器、第三方内容提供方等)获取视频内容。

在一些实施方式中，代替视频内容或除视频内容之外，SR内容生成器250或其部件获取(例如，接收或检索)音频内容。例如，音频内容对应于与视频内容相关联的音轨或音频部分。因此，在一些具体实施中，SR内容生成器250至少部分地基于视频内容、相关联的音频内容、和/或与视频内容相关联的外部数据(例如，视频内容中演员的图片、视频内容中演员的高度和其他测量、设置和对象的各种视图(例如，平面图、侧视图、透视图等视图)等创建视频内容的SR重构。在另一示例中，音频内容对应于有声读物、广播剧等。因此，在一些具体实施中，SR内容生成器250至少部分地基于音频内容和与音频内容相关联的外部数据(例如，音频内容中人物的图片、音频内容中人物的高度和其他测量、设置和对象的各种视图(例如，平面图、侧视图、透视图等视图)等来创建音频内容的SR重构。

在一些具体实施中，代替视频内容或除视频内容之外，SR内容生成器250或其部件获取(例如，接收或检索)文本内容。例如，文本内容对应于与视频内容相关联的剧本或脚本。因此，在一些具体实施中，SR内容生成器250至少部分地基于视频内容、相关联的文本内容、和/或与视频内容相关联的外部数据(例如，视频内容中演员的图片、视频内容中演员的高度和其他测量、设置和对象的各种视图(例如，平面图、侧视图、透视图等视图)等创建视频内容的SR重构。在另一示例中，文本内容对应于小说、书籍、戏剧等。因此，在一些具体实施中，SR内容生成器250至少部分地基于文本内容和与音频内容相关联的外部数据(例如，文本内容中人物的图片、文本内容中人物的高度和其他测量、设置和对象的各种视图(例如，平面图、侧视图、透视图等视图)等来创建文本内容的SR重构。

如框8-3所示，方法800包括对视频内容执行场景理解过程。在一些具体实施中，SR内容生成器250或其部件(例如，场景理解引擎412)对视频内容执行场景理解过程。上文参考图4更详细地描述了场景理解过程。

在一些具体实施中，如框8-3a所示，方法800包括标识场景内的情景施行者。在一些具体实施中，SR内容生成器250或其部件(例如，场景理解引擎412)标识场景内的情景施行者、可动作对象、和不可动作环境元素和基础结构。

例如，情景施行者对应于场景内影响与场景相关联的情景的人物(例如，类人物、动物、机械人、载体、机器人等)。例如，可动作对象对应于场景内被情景施行者作用的环境元素(例如，工具、玩具、饮用容器、家具等)。例如，不可动作环境元素和基础结构对应于场景内不被情景施行者作用的环境元素(例如，地毯、家具、墙壁等)。下文参考图5更详细地描述情景施行者、可动作对象、和不可动作环境元素和基础结构。

在一些具体实施中，如框8-3b所示，方法800包括确定情景施行者和与场景相关联的场景设置之间的空间关系。例如，场景对应于戏剧场景或视频内容的预定义部分。在一些具体实施中，SR内容生成器250或其部件(例如，场景理解引擎412)确定场景中情景施行者、可动作对象、和不可动作环境元素和基础结构之间的空间关系。例如，场景理解引擎412创建与场景相关联的设置的3维图，并且相对于3维图定位情景施行者、可动作对象、和不可动作环境元素和基础结构。因此，例如，SR内容生成器250确定情景施行者相对于与场景相关联的设置在深度维度上的位置。

在一些具体实施中，SR内容生成器250或其部件(例如，场景理解引擎412)标识场景内的至少一个环境元素(例如，家具等)，并且确定至少第一情景施行者与所述至少一个环境元素之间的空间关系。在一些具体实施中，忽略场景的墙壁/外部维度。相反，环境对象诸如桌子或沙发被用作场景描绘的参考点。因此，SR重构示出了具有环境元素但没有伴随的墙壁的场景。

如框8-4所示，方法800包括对视频内容执行场景解析过程以合成场景描绘。在一些具体实施中，场景描绘包括场景的总体微剧本或场景中每个情景施行者的交互序列(例如，对于人物A：拿起杯子、从杯子饮用、放下杯子、看着人物B、与人物B说话、从椅子站起来、走出房间)。在一些具体实施中，SR内容生成器250或其部件(例如，场景解析引擎414)对视频内容执行场景解析过程以便生成场景描绘。上文参考图4更详细地描述了场景解析过程。

在一些具体实施中，如框8-4a所示，方法800包括确定每个情景施行者的动作序列。在一些具体实施中，SR内容生成器250或其部件(例如，场景解析引擎414)为场景内的每个情景施行者确定动作序列。例如，与场景的第一场景施行者相关联的动作序列包括以下时间排序的动作序列：进门、在椅子A坐下、拿起咖啡杯、从咖啡杯饮用、放下咖啡杯、站起、与第二情景施行者说话、挥手、围绕桌子行走、和出门。

在一些具体实施中，如框8-4b所示，方法800包括确定每个情景施行者的轨线。在一些具体实施中，SR内容生成器250或其部件(例如，场景解析引擎414)也为场景内的每个情景施行者确定轨线。例如，与场景内第一情景施行者相关联的轨线序列包括第一情景施行者相对于与场景相关联的设置的三维图所采取的路线或路径。

如框8-5所示，方法800包括获取与视频内容相关联的数字资产。在一些具体实施中，从与视频内容相关联的资产的库接收或检索数字资产。在一些具体实施中，数字资产对应于场景中情景施行者(例如，对象和/或类人人物)的预先存在的视频游戏模型。在一些具体实施中，数字资产对应于情景施行者的预先存在的蒙皮点云。在一些具体实施中，数字资产对应于设置的预先存在的模型(例如，太空船的桥梁、汽车的内部、公寓客厅、NYC时报广场等)。

在一些具体实施中，至少部分地基于视频内容和与视频内容相关联的外部数据来即时生成数字资产。在一些具体实施中，与视频内容相关联的外部数据对应于演员的图片、演员的高度和其他测量、设置和对象的各种视图(例如，平面图、侧视图、透视图等视图)等。

如框8-6所示，方法800包括通过根据所述场景描绘驱动所述数字资产来生成所述场景的SR重构。在一些具体实施中，SR内容生成器250或其部件(例如，重构引擎254)通过根据场景描绘驱动数字资产来生成场景的SR重构。上文参考图4更详细地描述了SR重构过程。

在一些具体实施中，生成场景的SR重构包括实例化每个情景施行者的主线。例如，每个主线对应于场景中每个人物或对象的动作序列。作为一个示例，对于场景中的第一情景施行者，主线包括以下动作序列：第一情景施行者在椅子上坐下、进食餐食、站起、走到沙发、以及坐在沙发上。又如，对于场景中的花瓶状对象，主线包括以下动作序列：花瓶被拿起并扔向墙壁、花瓶破裂成多个块并落到地板上。

如框8-7所示，方法800包括呈现SR重构。例如，参考图4，重构引擎254将SR重构440提供给SR呈现流水线450以用于呈现给用户。作为一个示例，参考图1B至图4，SR重构440由控制器110渲染并作为呈现数据被传输给电子设备120，其中SR重构440经由所述一个或多个显示器312呈现。例如，电子设备120的用户能够体验SR重构440，就好像他/她处于动作之中(例如，第一人称体验)。在另一示例中，电子设备120的用户能够体验SR重构440，就好像他/她正从鸟眼视图向下看所述动作(例如，第三人称体验)。在该示例中，SR重构440可被呈现成就好像SR重构440正在物理环境105内发生(例如，视频内容的三维投影出现在物理环境105内的平坦表面上)。

虽然上文描述了在所附权利要求书范围内的具体实施的各个方面，但是应当显而易见的是，上述具体实施的各种特征可通过各种各样的形式体现，并且上述任何特定结构和/或功能仅是例示性的。基于本公开，本领域的技术人员应当理解，本文所述的方面可以独立于任何其他方面来实现，并且这些方面中的两个或更多个可以采用各种方式组合。例如，可以使用本文阐述的任何数量的方面来实现装置和/或可以实践方法。另外，除了本文阐述的一个或多个方面之外或者不同于本文阐述的一个或多个方面，可以使用其他结构和/或功能来实现这样的装置和/或可以实践这样的方法。

还将理解的是，虽然术语“第一”、“第二”等可能在本文中用于描述各种元素，但是这些元素不应当被这些术语限定。这些术语只是用于将一个元件与另一元件区分开。例如，第一节点可以被称为第二节点，并且类似地，第二节点可以被称为第一节点，其改变描述的含义，只要所有出现的“第一节点”被一致地重命名并且所有出现的“第二节点”被一致地重命名。第一节点和第二节点都是节点，但它们不是同一个节点。

本文中所使用的术语仅仅是为了描述特定实施方案并非旨在对权利要求进行限制。如在本实施方案的描述和所附权利要求中所使用的那样，单数形式的“一个”和“该”旨在也涵盖复数形式，除非上下文清楚地另有指示。还将理解的是，本文中所使用的术语“和/或”是指并且涵盖相关联的所列出的项目中的一个或多个项目的任何和全部可能的组合。还将理解的是，术语“包括”在本说明书中使用时是指定存在所陈述的特征、整数、步骤、操作、元件和/或部件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、部件，和/或其分组。

如本文所使用的，术语“如果”可以被解释为表示“当所述先决条件为真时”或“在所述先决条件为真时”或“响应于确定”或“根据确定”或“响应于检测到”所述先决条件为真，具体取决于上下文。类似地，短语“如果确定[所述先决条件为真]”或“如果[所述先决条件为真]”或“当[所述先决条件为真]时”被解释为表示“在确定所述先决条件为真时”或“响应于确定”或“根据确定”所述先决条件为真或“当检测到所述先决条件为真时”或“响应于检测到”所述先决条件为真，具体取决于上下文。

Claims

1.一种方法，包括：

在包括非暂态存储器和一个或多个与所述非暂态存储器耦合的处理器的设备处：

标识与视频内容的一部分相关联的场景内的多个情景施行者和多个环境元素；

确定所述场景内的所述多个情景施行者和所述多个环境元素之间的一个或多个空间关系；

至少部分地基于所述一个或多个空间关系，合成所述场景的表示；

至少部分地基于所述视频内容所述的一部分，提取与所述多个情景施行者相对应的多个动作序列；以及

根据所述多个动作序列、通过驱动与所述多个情景施行者相关联的多个数字资产来在所述场景的所述表示内生成所述场景的对应合成现实SR重构。

2.根据权利要求1所述的方法，还包括：

生成与所述场景相关联的环境的图，所述环境的所述图包括所述场景内的所述多个环境元素，其中合成所述场景的所述表示包括：至少部分地基于所述一个或多个空间关系和环境的所述图来合成所述场景的所述表示。

3.根据权利要求1所述的方法，其中与所述场景相关联的所述环境的所述图对应于所述环境的三维图，所述三维图将所述多个情景施行者和所述多个环境元素定位在与所述场景相关联的所述环境内。

4.根据权利要求1所述的方法，其中所述多个动作序列中的第一动作序列对应于所述多个情景施行者中的第一情景施行者，并且其中所述第一情景施行者在所述环境中的轨线被链接到所述第一情景施行者的所述第一动作序列。

5.根据权利要求4所述的方法，其中所述第一动作序列包括由所述环境内的所述第一情景施行者执行的动作。

6.根据权利要求4所述的方法，其中所述第一情景施行者对应于与所述场景相关联的类人物、动物、载体、机械人、机器人中的一者。

7.根据权利要求1所述的方法，其中所述多个数字资产中的第一数字资产对应于所述第一情景施行者，并且其中所述第一数字资产对应于与所述第一情景施行者相关联的预先存在的视频游戏模型。

8.根据权利要求1所述的方法，其中所述多个数字资产中的第一数字资产对应于所述第一情景施行者，并且其中第一数字资产对应于与所述第一情景施行者相关联的预先存在的蒙皮点云。

9.根据权利要求1所述的方法，还包括：

从与所述视频内容相关联的数字资产的库中获取所述多个数字资产。

10.一种设备，包括：

一个或多个处理器；

非暂态存储器；以及

存储在所述非暂态存储器中的一个或多个程序，所述一个或多个程序在由所述一个或多个处理器执行时使得所述设备：

11.根据权利要求10所述的设备，所述一个或多个程序还使得所述设备：

12.根据权利要求10所述的设备，其中与所述场景相关联的所述环境的所述图对应于所述环境的三维图，所述三维图将所述多个情景施行者和所述多个环境元素定位在与所述场景相关联的所述环境内。

13.根据权利要求10所述的设备，其中所述多个动作序列中的第一动作序列对应于所述多个情景施行者中的第一情景施行者，并且其中所述第一情景施行者在所述环境中的轨线被链接到所述第一情景施行者的所述第一动作序列。

14.根据权利要求13所述的设备，其中所述第一动作序列包括由所述环境内的所述第一情景施行者执行的动作。

15.根据权利要求10所述的设备，其中所述多个数字资产中的第一数字资产对应于所述第一情景施行者，并且其中所述第一数字资产对应于与所述第一情景施行者相关联的预先存在的视频游戏模型。

16.一种存储一个或多个程序的非暂态存储器，所述一个或多个程序在由设备的一个或多个处理器执行时使得所述设备：

17.根据权利要求16所述的非暂态存储器，所述一个或多个程序还使得所述设备：

18.根据权利要求17所述的非暂态存储器，其中与所述场景相关联的所述环境的所述图对应于所述环境的三维图，所述三维图将所述多个情景施行者和所述多个环境元素定位在与所述场景相关联的所述环境内。

19.根据权利要求16所述的非暂态存储器，其中所述多个动作序列中的第一动作序列对应于所述多个情景施行者中的第一情景施行者，并且其中所述第一情景施行者在所述环境中的轨线被链接到所述第一情景施行者的所述第一动作序列。

20.根据权利要求19所述的非暂态存储器，其中所述第一动作序列包括由所述环境内的所述第一情景施行者执行的动作。