CN112567759A

CN112567759A - 数字媒体系统

Info

Publication number: CN112567759A
Application number: CN201980039551.XA
Authority: CN
Inventors: 河尚俞; 李萨蒙
Original assignee: Alcacruz Inc
Current assignee: Alcacruz Inc
Priority date: 2018-04-11
Filing date: 2019-04-08
Publication date: 2021-03-26
Anticipated expiration: 2039-04-08
Also published as: KR20230051309A; EP3955584A1; US11589110B2; JP2023021982A; KR102406219B1; US20210037287A1; KR20220081386A; KR102518869B1; JP2021521747A; EP3777208A1; KR20200143719A; US20230283840A1; US20220248088A1; EP3777208B1; US11343568B2; WO2019199637A1; CN112567759B; JP7174941B2

Abstract

数字媒体系统被配置为支持关于虚拟现实内容的多个特征中的任何一个或多个。此类特征的示例包括基于观看方向的定向画中画(PIP)窗口、基于观看方向的定向音频、基于视频内容中某些可视特征的异常观看时间的用户推荐、请求删除上传到内容分发网络的视频文件之前的生存时间(TTL)时长的动态调整、基于网络容量的待上传视频文件的时长的动态调整、基于网络容量的每组中待上传视频文件的数量的动态调整、视频文件组的画面区域内的顶部示出或底部示出区域的动态尺寸调整，视频文件组内的画面区域本身的动态调整尺寸调整或它们的任何合适的组合。

Description

数字媒体系统

相关申请

本申请主张2018年4月11日提交的美国临时专利申请62/656,149和2018年10月9日提交的美国临时专利申请62/743,083的优先权，这些申请的全部内容在此纳入作为参考。

技术领域

本文公开的主题一般地涉及处理数字媒体的专用机器的技术领域，包括以软件配置的此类专用机器的计算机化变型以及对这些变型的改进，并且涉及此类专用机器与处理数字媒体的其他专用机器相比得到改进所使用的技术。

背景技术

机器可被配置为通过将数字媒体内容(例如，视频文件、音频文件、图像、文本或它们的任何合适的组合)流传输到与一个或多个用户相对应的一个或多个设备来与一个或多个用户交互。例如，如果用户使其设备请求流传输特定数字媒体内容片段(例如，电影、体育赛事或音乐会的视频文件)，则机器会将该数字媒体内容片段流传输到该用户的设备。这可以通过机器经由网络将数字媒体内容片段的各序列部分(例如，视频帧)发送到设备，或者以其他方式使数据存储库经由网络将数字媒体内容片段的各序列部分发送到设备来执行。机器还可以通过在用户设备呈现数字媒体内容片段期间接收从该用户设备传送的一个或多个播放命令(例如，停止、暂停、快进、后退)并对此做出响应来与用户交互。

附图说明

在附图的各图中借助示例并且非限制地示出了一些实施例。

图1是示出根据一些示例实施例的适合于数字媒体的提供或其他处理的网络环境的网络图。

图2是示出根据一些示例实例的由一组并存视频文件表示的沉浸式场景的图。

图3是示出根据一些示例实施例的定向画中画(PIP)窗口的图。

图4是示出根据一些示例实施例的定向音频的图。

图5是示出根据一些示例实施例的用于提供用户推荐的方法的操作的流程图。

图6是示出根据一些示例实施例的基于网络容量动态地调整待上传视频文件的长度的图。

图7是示出根据一些示例实施例的基于网络容量动态地调整每组中待上传视频文件的数量的图。

图8是示出根据一些示例实施例的动态调整画面区域的顶部或底部区域的图。

图9是示出根据一些示例实施例的动态调整画面区域的图。

图10是示出根据一些示例实施例的来自单个沉浸式场景的要一起显示的并存PIP窗口的图，所述并存的PIP窗口包括选定的主PIP窗口和多个可用的辅PIP窗口。

图11是示出根据一些示例实施例的要一起显示的并存沉浸式场景的图，所述并存沉浸式场景包括来自选定的主沉浸式场景的选定区域以及来自可用的辅沉浸式场景的多个可用区域。

图12是示出根据一些示例实施例的机器的组件的框图，该机器能够从机器可读介质读取指令并执行本文所讨论的方法中的任何一种或多种。

具体实施方式

示例方法(例如算法)有助于数字媒体(例如，视频、音频、图像、文本或它们的任何合适的组合)的提供或其他处理，并且示例系统(例如，以专用软件配置的专用机器)被配置为便利数字媒体的提供或其他处理。示例仅代表可能的变化。除非另有明确说明，否则结构(例如，结构组件，如模块)是可选的，且可以被组合或细分，并且操作(例如，过程、算法或其他功能中的操作)可以按顺序变化或被组合或细分。在以下描述中，出于解释的目的，阐述了许多具体细节以提供对各种示例实施例的透彻理解。然而，对于本领域的技术人员将显而易见的是，可以在没有这些具体细节的情况下实践本主题。

数字媒体系统

图1是示出根据一些示例实施例的适合于提供处理数字媒体的网络环境100的网络图。网络环境100包括数字媒体机器110、数据库115、内容分发网络120以及设备130和150，所有这些组件均通过网络190彼此通信地耦合。数字媒体机器110(具有或不具有数据库115)可以形成云118(例如，在地理上分布的一组被配置为充当单个服务器的多个机器)的全部或部分，云118可以形成基于网络的系统105(例如，被配置为向设备130和150提供一种或多种基于网络的服务的基于云的服务器系统)的全部或部分。在一些示例实施例中，内容分发网络120是云118的一部分，而在其他示例实施例中，内容分发网络120形成不同于云118的第三方云的全部或部分(例如，在不同于基于网络的系统105的基于第三方网络的系统内)。如下面关于图2所述，数字媒体机器110、数据库115、内容分发网络120以及设备130和150可以全部或部分地在一个或多个专用(例如，专门的)计算机系统中实现。

图1中还示出了用户132和152。用户132和152中的一个或全部两个可以以是人类用户(例如，人类)、机器用户(例如，以软件程序配置的与设备130或150交互的计算机)，或它们的任何合适的组合(例如，由机器辅助的人或由人监督的机器)。用户132与设备130相关联，并且可以是设备130(例如，被配置为呈现包括虚拟现实内容的数字媒体的客户端设备)的用户。例如，设备130可以是属于用户132的桌面计算机、车载计算机、平板计算机、导航设备、便携式媒体设备、智能电话或可穿戴设备(例如，智能手表、智能眼镜、智能服装、或智能珠宝)。类似地，用户152与设备150相关联，并且可以是设备150(例如，被配置为呈现包括虚拟现实内容的数字媒体的客户端设备)的用户。例如，设备150可以是属于用户152的桌面计算机、车载计算机、平板计算机、导航设备、便携式媒体设备、智能电话或可穿戴设备(例如，智能手表、智能眼镜、智能服装、或智能珠宝)。

图1所示的任何系统或机器(例如，数据库和设备)可以是或可以包括专用(例如，专门的或其他非常规和非通用)计算机，或者可以以其他方式在此类专用计算机中实现，此类专用计算机已经被修改为针对所述系统或机器执行本文描述的一项或多项功能(例如，以专用软件，诸如专用应用、操作系统、固件、中间件或其他软件程序的一个或多个软件模块配置或编程)。例如，下面关于图12讨论了能够实现本文描述的方法中的任何一种或多种的专用计算机系统，这样的专用计算机可以相应地作为用于执行本文所讨论的方法中的任何一种或多种的装置。在此类专用计算机的技术领域内，与缺乏本文讨论的结构并且另外无法执行本文讨论的功能的其他专用计算机相比，已通过本文讨论的结构专门修改(例如，以专用软件配置)以执行本文讨论的功能的专用计算机在技术上得到了改进。因此，根据本文讨论的系统和方法配置的专用机器为类似的专用机器的技术提供了改进。

如本文所用，“数据库”是数据存储资源，并且可以存储被构造为文本文件、表格、电子表格、关系数据库(例如，对象关系数据库)、三元组存储、分层数据存储，或它们的任何合适的组合的数据。此外，图1所示的系统或机器中的任何两个或多个都可以被组合成单个系统或机器，并且本文针对任何单个系统或机器描述的功能可以细分到多个系统或机器当中。

网络190可以是允许系统、机器、数据库和设备之间(例如，机器110和设备130之间)进行通信的任何网络。因此，网络190可以是有线网络、无线网络(例如，移动或蜂窝网络)或它们的任何合适的组合。网络190可以包括构成私有网络、公共网络(例如，因特网)或它们的任何合适的组合的一个或多个部分。因此，网络190可以包括结合了局域网(LAN)、广域网(WAN)、因特网、移动电话网络(例如，蜂窝网络)、有线电话网络(例如，普通老式电话服务(POTS)网络)、无线数据网络(例如，WiFi网络或WiMax网络)或它们的任何合适的组合的一个或多个部分。网络190的任何一个或多个部分可以经由传输介质来传送信息。如本文所用，“传输介质”是指能够传送(例如，发送)由机器(例如，由该机器的一个或多个处理器)执行的指令的任何无形(例如，暂时性)介质，并且包括数字或模拟通信信号或便利这种软件的传送的其他无形媒介。

数字媒体机器110提供数据流传输服务并管理虚拟现实内容的流传输。数字媒体机器110可以在娱乐(例如，体育、音乐会或纪录片)、教育(例如，学术、公司或专业培训)、行业(例如，旅游或医学)或它们的任何合适的组合中找到有用的应用，其中包括实时应用或其他低延迟的应用(例如，新闻报道或游戏)。因此，数字媒体机器110可以相应地提供虚拟现实内容本身的一个或多个数据流，使内容分发网络120提供这些数据流中的一个或多个，或它们的任何合适的组合。可以将虚拟现实内容提供给一个或多个客户端设备，例如设备130和150中的一个或多个(例如，虚拟现实头戴式耳机、移动设备或其他能够显示虚拟现实内容的设备)。

参考图2，虚拟现实内容可以采取沉浸“场景”的形式，该场景由9到12个并存视频文件200表示，这些文件共同示出了该场景的至少一个公共时间跨度(例如，共同示出了相同的2秒内容，共同示出了相同的6秒内容，或共同示出了相同的12秒内容)。该组9到12个并存视频文件200由(例如，由数字媒体机器110、数据库115、内容分发网络120或它们的任何合适的组合)提供，以单独地流传输到一个或多个客户端设备(例如，客户端设备130)。每个单独的视频文件包括一系列带有时间戳的二维球形图像，每个球形图像示出了整个场景(例如，显示了围绕观看者位置的完整360度方位角)。这些球形图像在其对应的视频文件中充当顺序视频帧。而且，每个单独的视频文件及其球形图像组分可以示出、指定、定义、表示或以其他方式具有“偏心”区域的画面区域，该“偏心”区域比画面区域的其余“非偏心”部分具有更清晰的细节和更高的分辨率。例如，偏心区域可以是具有“6K”分辨率的中央区域(例如，位于6144x 3072像素处或附近)，而其相邻的非偏心区域可以具有“4K”分辨率(例如，位于3840x 2160像素处或附近)。

此外，在用于特定场景的一组9到12个并存视频文件200中，每个单独的视频文件可以具有不同的偏心区域，该偏心区域与相对于观看者位置的不同的对应方位角对准。例如，通过以下方式可以使用于给定场景的一组9个并存视频文件200全部彼此不同：即，将它们各自的偏心区域居中放置在不同的观看方向上，这些观看方向绕着观看者位置以40度增量表示(例如，相对于场景的正方向或反方向分别处于0、40、80、120、160、200、240、280、320度处)。

在许多情况下，对于用户(例如，用户132)而言虚拟现实内容中最感兴趣的部分出现在场景中相对于观看者位置的中等正仰角至中度负仰角的范围内，并且虚拟现实内容中相对不感兴趣的部分以高度正仰角或高度负仰角出现在该范围之外。因此，在任何给定的视频文件中，画面区域的偏心区域可以被垂直地限制在中等正仰角至中等负仰角的范围或该范围的子集内。画面区域中的高于或低于该范围的区域可被视为非偏心区域，或者可以被下采样到更低的分辨率，以提高数据效率。

此外，画面区域中具有高度正仰角或高度负仰角的区域可被分别称为“顶部”或“底部”区域，并且画面区域中的此类顶部和底部区域可以类似于画面区域的其他非偏心部分对待，甚至具有比画面区域的其他非偏心部分(例如，使用3840x2160像素处或附近的“4K”分辨率)更低的分辨率(例如，使用2048x 1080像素处或附近的“2K”分辨率)。另外，为了提高数据压缩效率，可以将顶部和底部区域分组在一起，并移动到该组并存视频文件当中的给定视频文件的球形图像的边距之一(例如，顶部边距、底部边距、左边距或右边距)，尽管如此，但是仍然被一个或多个客户端设备(例如，设备130)渲染为画面区域中正确放置的顶部和底部区域。

相应地，为了使用户(例如，用户132)能够在任意方向上观看场景，客户端设备(例如，可以是或可以包括虚拟现实头戴式耳机的设备130)被配置为自动并重复确定用户的观看方向(例如，基于运动检测传感器)，并请求(例如，从数字媒体机器110)提供具有与观看方向最对准的相应偏心区域的单独的视频文件。这可以通过将观看方向(例如，方位角和仰角，或仅方位角)重复地发送到数字媒体机器110来执行，并且数字媒体机器110可以通过提供或以其他方式使客户端设备接收(例如，从内容分发网络)与观看方向最对准的视频文件来动态地做出响应。由于用于该场景的并存视频文件200均具有带时间戳的球形图像作为视频帧，因此客户端设备被配置为在满足对此类视频文件的请求并且视频文件到达时，从显示一个获得的视频文件无缝地切换为显示另一获得的视频文件。

因此，用户(例如，用户132)可以在任意方向上观看场景，并且可以任意改变观看方向，用户时时地或几乎时时地看到基本位于用户前方的偏心虚拟现实内容，即使用户任意迅速地改变观看场景的方向也是如此。数字媒体机器110的各种示例实施例具有下面讨论的一个或多个特征，除非另有说明，否则每个特征可以在具有或不具有以下讨论的任何一个或多个其他特征，具有或不具有以上讨论的任何一个或多个特征，或它们的任何合适的组合的情况下实现。

定向画中画(PIP)

参考图3，在一些示例实施例中，数字媒体机器110被配置为支持PIP，其可以包括支持PIP的多个实例(例如，在单个场景内出现的多个PIP窗口)。此外，可以在表示给定场景的一组并存视频文件(例如，并存视频文件200)当中的不同视频文件中显示PIP的这种多个实例。在这种情况下，将并存视频文件称为“场景视频文件”是有帮助的。因此，数字媒体机器110可以访问(例如，接收、检索、获得或读取)一个或多个补充视频文件，这些补充视频文件作为一个或多个PIP窗口316、326和336插入到一个或多个场景视频文件中。可以经由下载，经由流传输视频或经由它们的任何合适的组合(例如，从内容分发网络120或从视频服务器)来执行访问。

然后，数字媒体机器110可以修改一个或多个场景视频文件，以示出画面区域中某个位置(例如，画面区域的偏心区域中的某个位置)的被访问的一个或多个补充视频文件。每个补充视频文件可以在其对应的场景视频文件内的其自己的对应PIP窗口中显示，该窗口会占用该场景视频文件中的偏心区域的一部分或全部。然后，一个或多个修改后的场景视频文件可以被并入整个一组场景视频文件，并且被提供给上述一个或多个客户端设备。

因此，数字媒体机器110可以将具有来自不同的补充视频文件的PIP内容的不同PIP窗口插入到每个场景视频文件或其子集中。因此，任何一个或多个PIP窗口在场景内具有方向依赖性。也就是说，PIP窗口可以仅出现在场景视频文件的子集中并因此仅出现在可用的观看方向的子集上。或者，PIP窗口可以出现在所有场景视频文件中并因此出现在所有可用的观看方向上，但是仅以高分辨率清晰地出现在一个或多个场景视频文件的对应偏心区域中，并且以低分辨率模糊地出现在其他场景视频文件的对应非偏心区域中。

例如，可以增强场景以在观看者的位置正后方显示一个干扰最小的PIP窗口，并且仅当用户转身直接观看场景的正方向或反方向后方的180度方位角时，该PIP窗口才会突然出现。这可以通过将PIP窗口仅放置在一个场景视频文件中来执行，即，其偏心区域与正方向或反方向直接相反地居中的特定场景视频文件。例如，这在用户观看其他完全沉浸的场景期间在PIP窗口内提供按需图形用户界面(例如，用于帮助文件、消息传递或其他交互)的情况下可能很有用。

或者，如果存在两个偏心区域(例如分别在160度和200度处)与场景的正方向或反方向后方的180度最对准的场景视频文件，则可以通过插入PIP窗口扩增这两个偏心区域(例如，一个朝着以160度为中心的偏心区域的左侧，一个朝着以200度为中心的偏心区域的右侧，这样当客户端设备在两个场景视频文件之间切换时，PIP窗口不会在空间中移动)。

作为另一示例，不同的PIP窗口可以在相对于场景的正方向或反方向的不同方向上显示。在多人游戏场景中，同一场景可以显示给分别操作自己的客户端设备的多个玩家和多个观众。数字媒体机器110将每个玩家(例如，多达场景视频文件的数量)分配给不同的场景视频文件，并将该玩家将的对应的PIP窗口插入到其指定场景视频文件的偏心区域中。插入的PIP窗口显示该玩家的游戏内图形和反馈。因此，玩家必须沿其指定方向观看场景以有效地玩游戏，而任何观众都可以通过改变其在场景内的观看方向来从任何玩家的角度观看游戏。

在多人游戏场景的变型中，例如，可以向被分配给场景视频文件的三个玩家显示相同的场景，所述三个场景视频文件分别对应于相对于场景的正方向或反方向的0、120和240度，并且其各自的PIP窗口可以插入到所有场景视频文件(例如，9个场景视频文件中的全部9个)中。但是，被分配给一个方向(例如0度)的玩家的PIP窗口仅清晰地出现在该方向的场景视频文件的偏心区域中；所有其他场景视频文件也示出了玩家的PIP窗口，但是该窗口仅以低分辨率出现在非偏心区域中。因此，被分配给该方向的玩家必须沿分配的方向观看场景才能有效地玩游戏，而任何观众都可以通过更改其观看方向来观看任何玩家的PIP窗口。由于每个玩家的PIP窗口显示为待在原处(例如，悬停在空中)而不会随着观看方向的变化而突然出现或消失，因此该变型在视觉上可能不太容易被观看。

图3通过示出三个场景视频文件310、320和330(例如，在完整的一组场景视频文件(例如并存视频文件200)当中)来说明该示例的一个变型，这些场景视频文件已被修改为在其对应的画面区域312、322和332的其对应的偏心区域314、324和334内分别包括PIP窗口316、326和336。该场景的剩余场景视频文件中的一个或多个可以在其对应的画面区域的非偏心区域中示出PIP窗口316、326和336中一个或多个。在所示的变型中，仅当场景的其正方向上被观看时，PIP窗口316才可见；仅当场景在其相应的方向(例如，与正方向成120度)上被观看时，PIP窗口326才可见；并且仅当场景在其相应的方向(例如，与正方向成240度)上被观看时，PIP窗口336才可见。

定向音频

在某些示例实施例中，数字媒体机器110被配置为支持具有或不具有定向PIP窗口的定向音频。例如，除了支持定向PIP之外，数字媒体机器110还可以在包含该PIP窗口的场景视频文件内插入或放大与每个PIP窗口相对应的音频。因此，在多人游戏场景中，被分配给给定观看方向的玩家必须沿该指定方向观看场景，才能有效地听到其PIP窗口的音频。在一些示例实施例中，用于其PIP窗口的音频仅存在于包含其PIP窗口的单个场景视频文件中。在其他示例实施例中，音频存在于所有场景视频文件中，但是音量较低(例如，对于游戏而言太低)，存在于除了被分配的场景视频文件之外的所有场景视频文件中，其中音频清晰且具有正常(例如，完全)音量。

这些后面的示例实施例中的一些在图4中示出，该图示出了先前讨论的三个场景视频文件310、320和330(例如，在完整的一组场景视频文件(例如并存视频文件200)当中)，并且三个场景视频文件310、320和330中的每一个具有其自己相应的音频混合(例如，多声道平衡)。如图4所示，场景视频文件310可以具有其朝着相对于场景的正方向或反方向的0度(例如，以其为中心)取向的偏心区域(例如，图3中的偏心区域314)，并且来自相对于场景的正方向或反方向的0度的对应音轨在音频混合中被放大到最大音量，而来自其他观看方向(例如，与前方成120度和240度)的音轨则在音频混合中相对地衰减(例如，音频增益降低)。如上所述，根据其他示例实施例，来自其他观看方向的音轨可以被静音或完全不存在于音频混合中。

另外，数字媒体机器110可被配置为通过使一个或多个客户端设备调整音频均衡并由此根据观看场景的方向的变化为用户空间化音频来支持另一形式的定向音频。通常使用多传感器相机来捕获虚拟现实内容，并且如本文所用，多传感器相机是能够捕获和数字化其周围360度水平视场(例如，方位角)中的光的设备或集成设备集，其中可以捕获或不可以捕获相对于其的完整的180度垂直视场(例如，仰角)。一些多传感器照相机具有针对不同方向的多个视频传感器，并且在每个视频传感器附近包括单独的麦克风(例如，麦克风指向与视频传感器相同的方向)。在某些情况下，麦克风是全向的。数字媒体机器110可被配置为将任何一个或多个音频信号与这样的麦克风隔离，并且向一个或多个客户端设备提供可用于执行客户端音频空间化的频率信息(例如，音频均衡设置)。

这可以通过从每个麦克风采样音频数据(例如，在场景视频文件内的给定视频帧被与该麦克风对应的视频传感器捕获期间)并执行音频数据到频域的变换(例如，快速傅里叶变换)来执行。通过比较来自多个麦克风的音频数据的这些频率分析，数字媒体机器确定哪个麦克风，哪个对应的视频传感器以及哪个对应的观看方向最紧密地指向所存在的多种声音当中的特定声音(例如，说话的声音或机械嗡嗡声)。因此，数字媒体机器110可以生成一组音频均衡设置，这些设置从其他声音中放大或以其他方式强调该特定声音，并将这些音频均衡设置发送给一个或多个客户端设备，使得客户端设备可以在不接收更复杂的音频空间数据(例如，多个音频声道)的情况下放大或以其他方式强调该声音。

用户推荐

在一些示例实施例中，基于网络的系统105内的数字媒体机器110或一些其他机器被配置为生成并提供用户推荐(例如，经由设备130向用户132提供)。这样的机器可被配置为例如通过训练神经网络以学习用户(例如，用户132)偏好(喜欢或不喜欢在具有或不具有PIP画面窗口的各种沉浸式场景中呈现给用户的各种图像)来实现机器学习和人工智能。用于提供这种用户推荐的一个示例方法500在图5中示出。

图5是示出根据一些示例实施例的在执行提供推荐的方法500时数字媒体机器110或其他适当配置的机器的操作的流程图。可以使用一个或多个处理器(例如，微处理器或其他硬件处理器)来执行方法500中的操作。如图5所示，方法500包括操作510、520、530、540和550。

如操作510、520和530所示，数字媒体机器110可以训练神经网络以在用户观看时识别与较长或较短的观看时间相关联的出现在一个或多个场景视频文件中的可视特征、在一个或多个PIP窗口中示出的一个或多个补充视频文件或它们的任何合适的组合。

例如，在操作510中，数字媒体机器110训练神经网络(例如，卷积神经网络或其他合适的新网络)以识别、确定或以其他方式能够检测出现在各种视频文件(例如，场景视频文件和/或补充视频文件)中的各种可视特征。在操作520中，数字媒体机器110检测到用户(例如，用户132)的异常或明显长或短的观看时间，如由用户注视各种视频文件的时间指示(例如，在对应于各种观看方向的场景视频文件的偏心区域内，或朝着在对应于各种观看方向的PIP窗口中显示的补充视频文件)。在某些情况下，数字媒体机器110生成观看时间的直方图或其他统计分布，并将观看时间与指示该用户的异常长或异常短的观看时间的一个或多个阈值范围进行比较。

在操作530中，数字媒体机器110识别被用户(例如，用户132)观看了异常短时间或异常长时间的视频文件中显示的可视特征(例如，在其偏心区域内)，数字媒体机器110可以通过以下方式执行上述操作：即，将异常观看时间与其关联的视频文件(例如，场景视频文件和/或补充视频文件)进行关联，然后将这些视频文件输入到训练的神经网络中，以便经过训练的神经网络可以识别在这些视频文件中显示的可视特征。

这种可视特征到观看时间的映射然后可以被用作用户的观看偏好配置文件的全部或部分，并且图5在操作540中示出了这一点。因此，数字媒体机器110可以生成或更新(例如，在数字机器110或数据库115内)将用户的异常观看时间与对应的可视特征进行关联的一个或多个数据记录，并且这些一个或多个数据记录可以构成该用户的观看偏好配置文件的全部或部分。

在操作550中，数字媒体机器110相应地生成或以其他方式产生图像(例如，一个或多个沉浸式场景、一个或多个补充视频文件或它们的任何合适的组合)的一个或多个推荐，以建议给用户(例如，用户132)，推荐给用户，提供给用户，宣传给用户，或以其他方式引起使用者的注意。

例如，用户的观看偏好配置文件可以指示用户喜欢长时间注视平静的风景，并且机器可以相应地推荐(例如，通过生成并提供推荐消息)包含也存在于平静的风景内的可视特征的一个或多个其他风景以供用户观看。作为另一示例，观看偏好配置文件可以指示用户不喜欢示出蜘蛛的图像，因为用户迅速地将其视线从这种图像中移开，因此，机器可以相应地避免将具有也存在于蛛形纲动物图像中的可视特征的任何图像呈现给用户，或者至少在向用户呈现具有这种可视特征的图像之前，生成并向用户呈现警告消息。

数字媒体机器110还可以分析一个用户的观看偏好配置文件，并确定观看偏好配置文件实际上结合了多个用户的观看偏好的可能性。当单个用户帐户的观看偏好配置文件在阈值水平的相似度内在数学上类似于两个或更多个观看偏好配置文件的组合(例如，求和、串联或聚合，例如聚合许多用户的观看偏好配置文件来确定)时，数字媒体机器110可以确定这些多个用户(例如，用户132和152)共享同一用户帐户(例如，在不同的时间使用同一用户帐户在不同时间观看其各自的偏好图像)。

除了基于出现在各种图像(例如，沉浸式场景、补充视频文件或它们的任何合适的组合)中的可视特征训练神经网络之外，神经网络的训练还可以基于用户的视角偏好(例如，哪些观看方向是有利的或不利的)，PIP窗口是否存在于偏心区域中的偏好、PIP窗口在偏心区域内的位置的偏好、PIP窗口内容的偏好(例如，特定的补充视频文件、其体裁、作者等)。

数字媒体机器110的某些变型还可基于用户的观看偏好配置文件修改图像，例如，通过在基于观看偏好配置文件选择的图像的部分处、周围或附近添加视觉突出显示来执行。例如，如果用户的观看偏好配置文件指示用户喜欢看毛茸茸的动物，则机器可以通过在示出一个或多个毛茸茸的动物的场景视频文件部分周围绘制亮黄色圆圈来修改一个或多个场景视频文件。这可以在每个相应的场景视频文件的偏心区域的内部或外部执行。因此，当用户改变沉浸式场景内的观看方向时，场景的一个或多个部分可以被突出显示以吸引用户对这些一个或多个部分的注意。

在一些变型中，数字媒体机器110另外支持用户以交互的方式选择突出显示的部分，使得用户(例如，用户132)能够选择突出显示的部分(例如，经由设备130)，并且该机器被配置为通过提供与该选择相对应的其他信息来响应该选择。例如，如果用户在毛茸茸的动物(例如狗、猫或雪貂)的图形周围选择亮黄色圆圈，则机器可以通过在用户当前观看的偏心区域中显示PIP窗口来做出响应，并且PIP窗口可以包含毛茸茸的动物的描述和/或购买毛茸茸的动物的邀请。

基于网络容量的上传文件的动态长度

在某些示例实施例中，数字媒体机器110管理沉浸式场到一个或多个客户端设备(例如，设备130和150)的流传输，并且可以通过使该设备从用于沉浸式场景的一组场景视频文件当中接收对应于观看方向的场景视频文件来对每个单独设备(例如，设备130)处的观看方向的变化做出响应。如上所述，数字媒体机器110可以将该组场景视频文件上传到内容分发网络120，以促进各种单独的场景视频文件的分发，同时仍通过控制哪个单独的客户端设备(例如，设备130)从内容分发网络120接收哪个单独的场景视频文件，对来自客户端设备的请求做出响应。在一些示例实施例中，数字媒体机器110将该组场景视频文件存储在数据库115中，可以从该数据库中将该组场景视频文件上传到内容分发网络120(例如，以便随后分发到一个或多个客户端设备)或直接提供给一个或多个客户端设备(例如，经由网络190)。

通常，沉浸式场景的总时长可以是几分钟、几个小时甚至是不确定的(例如，实况转播的活动)。因此，为了促进将沉浸式场景的低延迟地提供给一个或多个客户端设备(例如，设备130)，不同组的场景视频文件可以在时间上将沉浸式场景细分为不同的片段，这些片段的相应时长分别在2到6秒范围内(例如，各个场景视频文件的文件大小分别从0.2兆字节到0.7兆字节)。例如，一小时的沉浸式场景可以细分为600个连续的片段，每个片段的时长为6秒，这些六秒的片段中的每一个可以由不同的对应一组9到12个场景视频文件表示。给定片段的给定一组场景视频文件中的每个场景视频文件都可以跨越该片段的时长。

此外，数字媒体机器110可以动态调整场景视频文件或其组的时长，从而动态地调整沉浸式场景的连续片段的时长。这可以基于(例如，响应于)在数字媒体机器110和内容分发网络120之间检测到的网络容量(例如，上传数据速率或上传带宽)来完成。例如，数字媒体机器110可以响应于检测到网络190正在经历拥塞(例如，拥塞比阈值水平更严重，其可以由落在最低上传数据速率以下的测定的上传数据速率表示)而切换到上传具有动态调整的较短时长(例如，每个2到4秒)的场景视频文件，然后响应于检测到网络190不再经历先前检测到的拥塞(例如，拥塞优于阈值水平，其可以由满足或超过最低上传数据速率的测定的上传数据速率表示)而切换回上传具有动态调整的较长时长(例如，每个4到6秒)的场景视频文件。

因此，当网络190严重拥塞并且上传数据速率相应地较低时，数字媒体机器110上传时长较短(例如，2到4秒)的较小场景视频文件(例如，0.2到0.4兆字节)，在这种拥塞的条件下，上传通常需要更长的时间；当网络190不拥塞或仅轻微拥塞，并且上传数据速率相应较高时，数字媒体机器110上传时长较长(例如，4到6秒)的较大场景视频文件(例如，0.4到0.7兆字节)，在这种网络状况下。通过可以快速上传这些视频文件。为了清楚和简洁起见，本讨论集中在数字媒体机器110和内容分发网络120之间的网络拥塞，但是在其中场景视频文件从数字媒体机器110上传到数据库115的示例实施例中，类似的操作也适用于数字媒体机器110和数据库115之间的网络拥塞。

图6是示出根据一些示例实施例的数字媒体机器110如何基于网络容量动态地调整待上传视频文件的长度的图。如图6所示，沉浸式场景被细分为至少8个片段610，这些片段可以是具有默认时长(例如，6秒长)和默认文件大小(例如，0.7兆字节)的片段。这些片段610在被上传到内容分发网络120之前可以由数字媒体机器110、数据库115或它们的任何合适的组合存储。

在图6所示的场景中，在将片段610中的前三个上传到内容分发网络120时，数字媒体机器110未检测到网络拥塞(例如，在网络190内)。因此，片段610中的前三个无需更改(例如，不细分为较短时长的子片段)便可上传。

然而，在图6所示的场景中，在上传片段610当中的第四片段之前，数字媒体机器110检测到网络拥塞已将上传数据速率减小到阈值水平以上。作为响应，数字媒体机器110将片段610当中的第四片段和第五片段细分为具有非默认时长(例如，3秒长)和非默认文件大小(例如，0.35兆字节)的子片段，媒体机110将所生成的子片段上传到内容分发网络120，同时上传数据速率低于阈值水平。

继续图6所示的场景，在子片段的上传期间(例如，在片段610当中的第五片段的最后一个子片段的上传期间)，网络拥塞得到缓解并且不再可被数字媒体机器110检测到。例如，数字媒体机器110可以检测到上传数据速率已经上升到阈值水平以上(例如，先前使用的阈值水平或用于检测网络拥塞不存在的替代阈值水平)。作为响应，数字媒体机器110停止沉浸式场景的片段610的细分，并恢复正常的上传。结果，片段610当中的第六、第七和第八片段具有其默认时长(例如，6秒长)和默认文件大小(例如，0.7兆字节)，类似于沉浸式场景的片段610当中的第一、第二和第三片段。

基于网络容量的动态待上传文件数量

在各个示例实施例中，数字媒体机器110通过动态地调整作为每个组的一部分的待上传场景视频文件的数量，来动态地调整每组场景视频文件的大小。即，可以响应于上传数据速率的变化来动态地调整给定组中包括的场景视频文件的数量。这是数字媒体机器110对数字媒体机器110和内容分发网络120之间的网络容量(例如，在网络190内)波动的另一响应方式。

例如，响应于检测到网络190正在经历拥塞(例如，拥塞比阈值水平更严重，其可以由落在最低上传数据速率以下的测定的上传数据速率表示)而切换到上传每组场景视频文件中的较少的场景视频文件(例如，每组1到5个文件)，然后响应于检测到网络190不再经历先前检测到的拥塞(例如，拥塞优于阈值水平，其可以由满足或超过最低上传数据速率的测定的上传数据速率表示)而切换回上传每组场景视频文件中的较多的场景视频文件(例如，整个组9到12个文件)。

因此，当网络190严重拥塞并且上传数据速率相应地较低时，数字媒体机器110上传每组中的较少的场景视频文件(例如，每组3个文件)，使得这些较小组中的每一个的上传可能在请求流传输它们的任何场景视频文件之前在这种拥挤的拥塞中完成。相反，当网络190不拥塞或仅轻微拥塞，并且上传数据速率相应地较高时，数字媒体机器110上传较多的场景视频文件(例如，每组9个文件，或每组12个文件)，使得这些较大组中的每一个的上传可能在请求流传输它们的任何场景视频文件之前完成。为了清楚和简洁起见，本讨论集中在数字媒体机器110和内容分发网络120之间的网络拥塞，但是在其中场景视频文件从数字媒体机器110上传到数据库115的示例实施例中，类似的操作也适用于数字媒体机器110和数据库115之间的网络拥塞。

图7是示出根据一些示例实施例的数字媒体机器110如何基于网络容量动态地调整每组中待上传视频文件的数量的图。如图7所示，先前关于图6讨论的沉浸式场景被细分为至少8个片段610。如上所述，这些片段610可以全部具有默认时长(例如，6秒长)和默认文件大小(例如，0.7兆字节)，并且片段610在准备上传到内容分发网络120时，可以由数字媒体机器110、数据库115或它们的任何合适的组合存储。

在图7所示的场景中，当片段610当中的第一、第二和第三片段被上传到内容分发网络120时，数字媒体机器110未检测到网络拥塞(例如，在网络190内)。因此，片段610当中的第一、第二和第三片段作为完整的场景视频文件组(例如，每组9个文件，或每组12个文件)被上传。

然而，在图7所示的场景中，在上传片段610当中的第四片段之前，数字媒体机器110检测到网络拥塞已将上传数据速率减小到阈值水平以上。作为响应，数字媒体机器110减少片段610当中的第四片段和第五片段中的每一个内的待上传场景视频文件的数量(例如，减少到每组1个文件，或每组3个文件)，并且数字媒体机器110上传所生成的精简场景视频文件组，同时上传数据速率低于阈值水平。

在数字媒体机器110检测到网络拥塞的该时段期间，仅向选择了未针对其上传相应场景视频文件的观看方向的用户(例如，用户132)呈现来自已经上传到内容分发网络120的场景视频文件之一的非偏心区域的非偏心内容。但是，用于认为与根本看不到任何内容(例如，由于暂停内容的呈现，直到具有对应于所选观看方向的偏心内容的场景视频文件已被上传并可进行流传输为止)相比，这种情况更为可取。

此外，在此时间段内，数字媒体机器110可以对沉浸式场景的片段610当中的每个片段的每组中包含的一个或多个场景视频文件进行优先级排列。可以赋予与一个或多个特殊观看方向相对应的一个或多个选定场景视频文件优先级(例如，零度(正方向)相机馈送或其偏心内容描述了沉浸式场景中的主要动作的观看方向具有最高优先级)。此外，优先观看方向可能会随某些内容而变化。例如，在赛马中，具有其偏心区域示出了比赛中的领先马的场景视频文件的观看方向可能会随着马经过观看位置前方而发生变化。因此，在网络拥塞的这段时间内，数字媒体机器110可以动态地调整哪些观看方向由沉浸式场景的片段610当中的每个片段的每组中包含的数量减少的场景视频文件表示。

继续图7所示出的场景，在精简的场景视频文件组的上传期间(例如，在片段610当中的第五片段的精简的场景视频文件组的上传期间)，网络拥塞得到缓解并且不再可被数字媒体机器110检测到。例如，数字媒体机器110可以检测到上传数据速率已经上升到阈值水平以上(例如，先前使用的阈值水平或用于检测网络拥塞不存在的替代阈值水平)。作为响应，数字媒体机器110停止减少每组中的场景视频文件数量，并恢复正常的上传。结果，片段610当中的第六至第八片段作为完整的一组场景视频文件(例如，每组9个文件，或每组12个文件)上传，类似于沉浸式场景的片段610当中的第一、第二和第三片段。

上传的视频片段的动态删除

在一些示例实施例中，数字媒体机器110执行内容分发网络120的动态管理和控制，这可以具有优化或以其他方式改善数字媒体机器110对内容分发网络120的使用的效果。为此，数字媒体机器110可以删除早于自上传到内容分发网络120以来的动态可调的阈值时间的先前上传的沉浸式场景片段(例如，上传的场景视频文件)。

在上传的场景视频文件上传之后很快变得过时(例如，非实时或客户端设备不太可能请求的场景)的情况下，数字媒体机器110可以调整内部存储的生存时间(TTL)值，并在等于TTL值或基于TTL值定义的时间跨度到期后，将上传的场景视频文件从内容分发网络120中删除。例如，如果数字媒体机器110已经将沉浸式场景的六秒片段上传到内容分发网络120，则数字媒体机器110可以将TTL值设置为五秒，并且请求删除超过五秒前上传的所有场景视频文件。可以针对沉浸式场景的每个片段重复此过程。

因此，数字媒体机器110可以管理内容分发网络120，使得内容分发网络120仅存储极可能被客户端设备(例如，客户端设备130)请求的场景视频文件。在内容分发网络120由第三方管理(该第三方针对内容分发网络120对文件的托管收取费用)的情况下，这可以节省成本。

此外，数字媒体机器110可以基于在上面描述的动态调整的场景视频文件的长度动态地调整TTL值。例如，在网络拥塞期间(例如，结合时长较短的场景视频文件的上传)，TTL可能增加，因为如果由于网络拥塞，替换的后续场景视频文件尚未完全上传，则优选地提供最近被废弃的场景视频文件(例如，时长较短)。作为另一示例，当不再存在网络拥塞时(例如，结合时长较长的场景视频文件的上传)，TTL可能减小，以优化内容分发网络120上存储容量的使用。因此，当网络容量波动时，这两个特征一起起作用以有效地管理网络资源(例如，网络190和内容分发网络120)。

此外，数字媒体机器110可被配置为省略或实现(例如，暂停或恢复)这种基于沉浸式场景是否重复或以其他方式供以后观看来动态地调整TTL值。例如，可以对一个或多个沉浸式场景进行卷绕处理以循环重复播放(例如，作为在线帮助、训练材料或循环内容的轮播)，并且可以标记这些沉浸式场景(例如，在其组成场景视频的元数据中)，使得数字媒体机器110在上传其组成场景视频文件之后保持恒定的TTL值。在一些示例实施例中，每个场景视频文件具有其自己的对应的TTL值，并且数字媒体机器110动态地调整所有尚未被标记或以其他方式指示为被卷绕处理以循环重复播放的场景视频文件的TTL值。

作为另一示例，可以指定一个或多个沉浸式场景用于点播(例如，在视频点播的上下文中)，并且可以标记此类沉浸式场景(例如，在其场景视频文件的元数据中)，以使数字媒体机器110为这些沉浸式场景中的每个场景视频文件设置最大TTL值或空TTL值，这具有使内容分发网络122从不删除这些场景视频文件，而是保留它们以备随时(例如，不确定地)进行分发的效果。

画面区域的顶部示出区域或底部示出区域的动态大小

图8是示出根据一些示例实施例的数字媒体机器110如何动态地调整画面区域，例如画面区域312(例如，上面参考图3讨论的场景视频文件310的画面区域312)的顶部示出区域810和/或底部示出区域820的图。可以在保持画面区域312的尺寸恒定的同时或者在动态地调整画面区域312的尺寸的同时，动态地调整顶部示出区域810和/或底部示出区域820的大小(例如，如下面关于图9所讨论的)。

如图8所示，画面区域312包括顶部示出区域810、底部示出区域820以及分别对应于相对于沉浸式场景的正方向或反方向的不同方位角的多个区域(例如，分别以0、40、80、120、160、200、240、280、320度为中心或以其他方式瞄准这些度数的9个区域)。这些区域中的每一个可以包含由不同的相机(例如，朝上的相机、朝下的相机，以及瞄准分别相对于场景的正方向或反方向的0、40、80、120、160、200、240、280、320度的相机)捕获的图像数据。具体地，顶部示出区域810可以示出由朝上的相机(例如，瞄准天空或天花板)捕获的图像信息，而底部示出区域820可以示出由朝下的相机(例如，瞄准地面或地板)捕获的图像信息。

在图8的顶部，以顶部示出区域810和底部示出区域820的默认比例示出了画面区域312。根据一些示例实施例，顶部示出区域810和底部示出区域820相对于彼此平衡，并且在画面区域312内具有相等的面积(例如，面积比为1:1)。如上所述，顶部示出区域810和/或底部示出区域820中的VR内容通常不太令人感兴趣，这些区域可以类似于画面区域312的其他非偏心部分进行对待，甚至具有比画面区域312的其他非偏心部分(例如，使用3840x2160像素处或附近的“4K”分辨率)更低的分辨率(例如，使用2048x 1080像素处或附近的“2K”分辨率)。

然而，数字媒体机器110的一些示例实施例被配置为响应于视频复杂度和/或视频重要性而动态地调整顶部示出区域810和底部示出区域820的尺寸。因此，如图8的中部和底部部分所示，如果数字媒体机器110检测到底部示出区域820内的视频复杂度增加(例如，高于时间或空间复杂度的阈值水平)或底部示出区域820的视频重要性增加(例如，如描述沉浸式场景内的主要或关键事件的观看方向的元数据所指示的)，数字媒体机器110可以将较大百分比的画面区域312分配给底部示出区域820(例如，以牺牲顶部示出区域810为代价)。这可以导致顶部示出区域810和底部示出区域820的上下面积比为例如1:2、1:3或2:5。

相反，如果数字媒体机器110检测到顶部示出区域810内的视频复杂度增加(例如，高于时间或空间复杂度的阈值水平)或顶部示出区域810的视频重要性增加(例如，如描述沉浸式场景内的主要或关键事件的观看方向的元数据所指示的)，数字媒体机器110可以将较大百分比的画面区域312分配给顶部示出区域810(例如，以牺牲底部示出区域820为代价)。这可以导致顶部示出区域810和底部示出区域822的上下面积比为例如2:1、3:1或5:2。

类似地，如果数字媒体机器110检测到先前增加的视频复杂度已经返回到默认水平(例如，时间或空间复杂度的阈值水平以下)，或者先前增加的视频重要性已经返回到默认水平(例如，如描述沉浸式场景内的主要或关键事件的观看方向的元数据所指示的)，数字媒体机器110可以将顶部示出区域810和底部示出区域820恢复为其默认设置。

画面区域的动态尺寸

图9是示出根据一些示例实施例的数字媒体机器110如何动态地调整画面区域312(例如，场景视频文件310的画面区域)的图。画面区域312可以动态地调整尺寸，其中包括或不包括上面描述的顶部示出区域810、底部示出区域820或它们的任何合适组合的动态尺寸调整(例如，如上面关于图8所讨论的)，并且画面区域312的这种动态尺寸调整可以基于视频复杂度和/或网络容量来执行。

如图9所示，画面区域312包括顶部示出区域810、底部示出区域820以及分别对应于相对于沉浸式场景的正方向或反方向的不同方位角的多个区域(例如，分别以0、40、80、120、160、200、240、280、320度为中心或以其他方式瞄准这些度数的9个区域)。如上所述，这些区域中的每一个可以包含由不同的相机(例如，朝上的相机、朝下的相机，以及瞄准分别相对于场景的正方向或反方向的0、40、80、120、160、200、240、280、320度的相机)捕获的图像数据。具体地，顶部示出区域810可以示出由朝上的相机(例如，瞄准天空或天花板)捕获的图像信息，而底部示出区域820可以示出由朝下的相机(例如，瞄准地面或地板)捕获的图像信息。

在图9的顶部，再次以顶部示出区域810和底部示出区域820的默认比例示出了画面区域312。根据一些示例实施例，顶部示出区域810和底部示出区域820相对于彼此平衡，并且在画面区域312内具有相等的面积(例如，面积比为1:1)。由于顶部示出区域810和/或底部示出区域820中的VR内容通常不太令人感兴趣，因此这些区域可以类似于画面区域312的其他非偏心部分进行对待，甚至具有比画面区域312的其他非偏心部分(例如，使用3840x2160像素处或附近的“4K”分辨率)更低的分辨率(例如，使用2048x 1080像素处或附近的“2K”分辨率)。

然而，数字媒体机器110的某些示例实施例被配置为动态地调整画面区域312的尺寸，使得顶部示出区域810和底部示出区域820的尺寸具有更宽的范围以便于其动态调整(例如，如上面关于图8所述或如目前关于图9所述)。因此，如图9的中部和底部部分所示，如果数字媒体机器110检测到顶部示出区域810和/或底部示出区域820内的视频复杂度增加(例如，在时间或空间复杂度的阈值水平以上)、顶部示出区域810和/或底部示出区域820的视频重要性增加(例如，如描述沉浸式场景内的主要或关键事件的观看方向的元数据所指示的)、网络容量的增加(例如，如通过检测到达到或超过阈值水平的上传数据速率所指示的)或它们的任何合适的组合时，数字媒体机器110可以扩展画面区域312(例如，垂直地)，同时还扩展顶部示出区域810和/或底部示出区域820。图9的中部部分示出了画面区域312的垂直尺寸调整，以适应顶部示出区域810和/或底部示出区域820的垂直尺寸调整。图9的底部部分示出了画面区域312的垂直尺寸调整，以适应顶部示出区域810和/或底部示出区域820的水平尺寸调整。在一些示例实施例中，画面区域312的这种垂直扩展具有使顶部示出区域810和/或底部示出区域820的垂直尺寸倍增的效果。

类似地，如果数字媒体机器110检测到先前增加的视频复杂度已经返回到默认水平(例如，时间或空间复杂度的阈值水平以下)，先前增加的视频重要性已经返回到默认水平(例如，如描述沉浸式场景内的主要或关键事件的观看方向的元数据所指示的)，先前增加的网络容量已减少(例如，如通过检测到落在阈值水平以下的上传速率所指示的)或它们的任何合适的组合，数字媒体机器110可以缩小画面区域312(例如，垂直地)，同时还缩小顶部示出区域810和/或底部示出区域820。这可以导致画面区域312恢复到图9的顶部部分所示的状态。在一些示例实施例中，画面区域312的这种垂直收缩具有恢复顶部示出区域810和/或底部示出区域820的垂直尺寸的效果。

根据各种示例实施例，本文描述的方法中的一种或多种可以促进提供本文关于虚拟现实内容描述的多个特征中的任何一个或多个。特别是，此类特征包括基于观看方向的定向PIP窗口、基于观看方向的定向音频、基于视频内容中某些可视特征的异常观看时间的用户推荐、请求删除上传到内容分发网络的视频文件之前的TTL时长的动态调整、基于网络容量的待上传视频文件的时长的动态调整、基于网络容量的每组中待上传视频文件的数量的动态调整、视频文件组的画面区域内的顶部示出或底部示出区域的动态尺寸调整，视频文件组内的画面区域本身的动态调整尺寸调整或它们的任何合适的组合。因此，与现有系统和方法的能力相比，本文描述的方法中的一种或多种可以促进使用虚拟现实内容改善用户体验，以及促进提供这种改善的用户体验的硬件资源的改进使用。

同时显示多个PIP窗口或多个场景

图10是示出根据一些示例实施例的来自单个沉浸式场景的要在被配置为同时呈现主辅PIP窗口的客户端设备(例如，显示屏幕，如图所示，智能电话或智能电视)上一起显示的并存PIP窗口的图，所述并存PIP窗口包括选定的主PIP窗口和多个可用的辅PIP窗口。在图10所示的示例中，单个沉浸式场景由至少四个场景视频文件1010、1020、1030和1040表示，它们全部示出了相同的内容时间跨度，共同类似于上面讨论的并存视频文件200。每个单独的场景视频文件(例如，场景视频文件1010、1020、1030或1040)包含不同的偏心区域，该偏心区域与相对于观看者位置(例如，相对于场景的正方向或反方向)的不同的对应方位角对准。因此，场景视频文件1010具有画面区域1012，该画面区域包括偏心区域1014；场景视频文件1020具有画面区域1022，该画面区域包括偏心区域1024；场景视频文件1030具有画面区域1032，该画面区域包括偏心区域1034；场景视频文件1040具有画面区域1042，该画面区域包括偏心区域1044。

如图10进一步所示，每个场景视频文件的偏心区域(例如，偏心区域1014、1024、1034或1044)都包含一个不同的PIP窗口。因此，画面区域1012的偏心区域1014包括PIP窗口1016；画面区域1022的偏心区域1024包括PIP窗口1026；画面区域1032的偏心区域1034包括PIP窗口1036；画面区域1042的偏心区域1044包括PIP窗口1046。这些PIP窗口1016、1026、1036和1046分别被分配给显示屏幕的不同区域，并且并发地(例如，同时)显示在显示屏幕上。如图10所示，PIP窗口1016已被选定(例如，由观看者手动地选定或由机器自动地选定)作为主PIP窗口，用于在显示屏幕的最大区域中进行突出显示，而其他PIP窗口1026、1036和1046是被分配给显示屏幕的三个较小区域的辅PIP窗口，用于进行不太突出的显示，以表明它们可供选定作为主PIP窗口。

在一些示例实施例中，观看者手动选择主PIP窗口。例如，显示屏幕可以是或可以包括触敏触摸屏，并且观看者可以在显示屏幕的较小区域之一上进行触摸或轻扫，以使数字媒体机器110选择相应的PIP窗口(例如，PIP窗口1026、1036或1046)作为新的主PIP窗口，以在显示屏幕的最大区域中突出显示，甚至更突出地以全屏方式显示，从而排除其他PIP窗口，由此，之前的主PIP窗口(例如，PIP窗口1016)将被重新分配给显示屏幕上被触摸或轻扫的较小区域并在其中显示，或者完全隐藏。如上面关于图4所指出的，每个场景视频文件可以包括其对应的音轨(例如，具有其自己对应的音频混合)。因此，将任何PIP窗口选定作为新的主PIP窗口可以另外从同一场景视频文件中选择对应的音轨，使得用于主PIP窗口的音轨与显示屏幕最大区域中的主PIP窗口一起呈现(例如，播放)。另如上面关于图4指出的，来自其他(例如，辅或其他未选定的)PIP窗口的音轨在选定的音频混合中衰减，在选定的音频混合中静音，或完全不在选定的音轨中。

此外，尽管场景视频文件1010、1020、1030和1040均来自单个沉浸式场景，但它们各自的PIP窗口1016、1026、1036和1046的补充视频文件可能彼此不相关以及/或者与该单个沉浸式场景不相关。例如，PIP窗口1016、1026、1036和1046的补充视频文件可以由观看者单独地选择(例如，经由由数字媒体机器110生成的合适的图形用户界面或显示屏幕，并呈现在屏幕上)。观看者可以单独分配每个补充视频文件(例如，经由图形用户界面)，以在其相应的PIP窗口中显示。作为另一示例，补充视频文件可以由数字媒体机器110自动选择，并自动分配给其相应的PIP窗口1016、1026、1036和1046。例如，数字媒体机器110可以访问(例如，经由网络190从一个或多个视频源)表示四个直播或录播体育赛事(例如，足球比赛、英式足球比赛、篮球比赛和曲棍球比赛)的四个补充视频文件，将每个补充视频文件分配给不同的PIP窗口1016、1026、1036和1046中的一个，并将场景视频文件1010、1020、1030和1040作为体育媒体内容的预打包集提供给显示屏幕，该显示屏幕可被配置为(例如，经由适当的客户端软件)同时显示上述主PIP窗口和辅PIP窗口。

在某些示例实施例中，主PIP窗口由机器(例如，由数字媒体机器110和/或显示屏幕)自动选择。例如，机器可以执行或以其他方式操作人工智能引擎，该人工智能引擎被配置为执行对PIP窗口1016、1026、1036和1046的补充视频文件中的一个或多个视觉模式的识别，然后基于这种视觉模式识别选择主PIP窗口。作为更具体的示例，假设PIP窗口1016、1026、1036和1046的四个补充视频文件分别表示四种不同(美式)橄榄球比赛之一，则人工智能引擎可以识别得分事件(例如，触地得分或射门得分)具有高出现概率的时间。这可以包括检测到在其中一个补充视频文件中示出的争球线标记或第一次进攻标记已在球队自己的20码线内移动(例如，通过使用光学字符识别来检测n-gram“20”并使用视觉模式识别来检测三角形消歧符号和相关标记。基于该检测，机器可以自动选择显示对应的补充视频文件的相应PIP窗口作为主PIP窗口。这可以具有动态地选择四个补充视频文件中的哪一个将显示在显示屏幕的最大区域中的效果。

根据各种示例实施例，实现了其他算法以预测增加的得分事件概率。例如，人工智能引擎可被配置为预测足球何时到达任一支球队的20码线。作为另一示例，假设PIP窗口1016、1026、1036和1046的四个补充视频文件分别表示四种不同的篮球比赛之一，则人工智能引擎可被配置为预测特定篮球运动员何时可能得分。例如，与经由网络190从体育数据库访问的运动员的投篮统计数据相比，这种检测可以基于所检测到的运动员在篮球场上的位置(例如，三分线外)。

图11是示出根据一些示例实施例的要在客户端设备(例如，显示屏幕，如图所示，智能电话或智能电视)上一起显示的并存沉浸式场景的图，所述并存沉浸式场景包括来自选定的主沉浸式场景的选定区域以及来自可用的辅沉浸式场景的多个可用区域。在图11所示的示例中，四个单独的沉浸式场景(例如，场景1、场景2、场景3和场景4)是在显示屏幕的各区域中示出的内容的源。每个沉浸式场景(例如，场景1、2、3或4)由一组场景视频文件表示，类似于上面讨论的并存视频文件200。该组中的每个单独的场景视频文件包含一个不同的偏心区域，该偏心区域与相对于观看者位置(例如，相对于场景的正方向或反方向)的不同的对应方位角对准。因此，来自场景1的场景视频文件1110具有画面区域1112，该画面区域包括偏心区域1114；来自场景2的场景视频文件1120具有画面区域1122，该画面区域包括偏心区域1124；来自场景3的场景视频文件1130具有画面区域1132，该画面区域包括偏心区域1134；来自场景4的场景视频文件1140的画面区域1142，该画面区域包括偏心区域1144。由于偏心区域1114、1124、1134和1144来自不同的沉浸式场景，因此偏心区域1114、1124、1134和1144中的两个或更多个可以在其对准上重合，并且因此与相对于观看者位置(例如，相对于其相应场景的正方向或反方向)的相同的对应方位角对准。作为示例，图11示出了恰好具有与来自场景2的场景视频文件1120相同的对准的来自场景1的场景视频文件1110。

如图11进一步所示，尽管每个场景视频文件的偏心区域(例如，偏心区域1114、1124、1134或1144)可被整体分配给显示屏幕的相应区域并在其中显示，但对于偏心区域的一部分(例如，子区域，可由观看者经由控制器(例如，头戴式耳机、操纵杆或由数字媒体机器110或显示屏幕生成并在显示屏幕上呈现的合适的图形用户界面)来选择)而言，情况也是如此。偏心区域的这些部分(例如，子区域)分别被分配给显示屏幕的不同区域，并且并发地(例如，同时)一起显示在显示屏幕上。如图11所示，偏心区域1114的一部分已被选定作为主子区域(例如，代表主场景)，用于在显示屏幕的最大区域中进行突出显示，而偏心区域1124、1134和1144的其他部分是被分配给显示屏幕的三个较小区域的辅子区域(例如，代表辅场景)，用于进行不太突出的显示，以表明它们可供选择作为主子区域。

在各个示例实施例中，以与上面关于图10(涉及主PIP窗口的选择)所描述的类似方式来执行其偏心区域将提供主子区域的主场景(例如，场景1)的选择。也就是说，不是从单个沉浸式场景的单个一组场景视频文件中的多个场景视频文件的画面区域中的多个可用PIP窗口中选择主PIP窗口，而是，观看者或机器(例如，数字媒体机器110和/或显示屏幕)可以从各自具有自己的对应一组场景视频文件的多个可用沉浸式场景中选择主沉浸式场景。因此，选定的主沉浸式场景变为偏心区域的源，该偏心区域的整体或子区域被分配给显示屏幕的最大区域并在其中显示，或者以全屏显示。

另外，在选定主场景(例如，场景1)的情况下，可以以类似于上面关于图2所述的方式来执行其组成场景视频文件之一的选择(例如，基于选定的或以其他方式确定的观看方向，该观看方向可以由方位角和仰角指定，或者仅由方位角指定)。例如，观看者可以通过使用控制器设备(例如，头戴式耳机、鼠标、触摸屏、操纵杆或由显示屏幕或智能电话呈现的合适的图形用户界面)来指定观看方向。如上面关于图2所讨论的，选定与指定的观看方向最对准的场景视频文件(例如，场景视频文件1010)。因此，在选定场景视频文件的情况下，将其偏心区域(例如，偏心区域1114)或该偏心区域的选定部分分配给显示屏幕的最大区域并在其中显示。

根据各种示例实施例，从辅场景(例如，场景2、3和4)中选择代表性场景视频文件(例如，场景视频文件1120、1130和1140)。代表性场景视频文件可由观看者或由机器(例如，数字媒体机器110和/或显示屏幕)选择。例如，机器可以基于默认(例如，正或反)方向，基于来自人工智能引擎(例如，被配置为分析一组场景视频文件并从中进行选择)的输出或它们的任何合适的组合来随机地执行选择。类似地，如果在显示屏幕的指定区域中未示出相应的偏心区域的整体，则可以由观看者或机器来选择偏心区域的代表性部分(例如，子区域)。例如，机器可以基于默认(例如，居中)部分，基于来自人工智能引擎的输出或它们的任何合适的组合来随机地执行这种选择。在一些示例实施例中，观看者通过使用控制器设备(例如，头戴式耳机、鼠标、触摸屏、操纵杆或由显示屏幕或智能电话呈现的合适的图形用户界面)来同时选择代表性场景视频文件(例如，场景视频文件1120、1130或1140)及其偏心区域的一部分(例如偏心区域1124、1134或1144)。因此，在选定代表性场景视频文件的情况下，将其偏心区域或该偏心区域的选定部分分配给显示屏幕的较小区域之一并在其中显示。

当综合考虑这些效果时，本文描述的方法中的一种或多种可以避免对参与提供改善用户对虚拟现实内容的体验的一些努力或资源的需要。通过使用(例如，借助于)实现本文描述的方法中的一种或多种的专用机器，可以减少用户在感知或获得这种改善的用户体验方面，或者管理员在托管或提供这种改善的用户体验方面所花费的精力。一个或多个系统或机器(例如，在网络环境100内)所使用的计算资源可以类似地减少(例如，与缺少本文所讨论的结构或无法执行本文所讨论的功能的系统或机器相比)。这样的计算资源的示例包括处理器周期、网络流量、计算能力、主存储器使用率、图形渲染能力、图形存储器使用率、数据存储能力、功耗和散热能力。

图12是示出根据一些示例实施例的机器1200的组件的框图，机器1200能够从机器可读介质1222(例如，非暂时性机器可读介质、机器可读存储介质、计算机可读存储介质或它们的任何合适的组合)读取指令1224并全部或部分地执行本文所讨论的方法中的任何一种或多种。具体而言，图12以计算机系统(例如计算机，可以是超级计算机)的示例形式示出了机器1200，其中可以全部或部分地执行使机器1200执行本文所讨论的方法中的任何一种或多种的指令1224(例如，软件、程序、应用、小程序、app或其他可执行代码)。

在替代实施例中，机器1200作为独立设备操作，或者可以通信地耦合(例如，联网)到其他机器。在网络部署中，机器1200可以在服务器-客户端网络环境中作为服务器计算机或客户端计算机执行操作，或在分布式(例如，对等)网络中作为对等计算机执行操作。机器1200可以是服务器计算机(例如，超级计算服务器)、客户端计算机、个人计算机(PC)、平板计算机、膝上型计算机、上网本、蜂窝电话、智能电话、机顶盒(STB)、个人数字助理(PDA)、网络设备、网络路由器、网络交换机、网桥或能够依次或以其他方式执行指令1224(这些指令指定机器要采取的动作)的任何机器。此外，虽然仅示出了单个机器，但是术语“机器”也应被认为包括单独地或共同地执行指令1224以执行本文所讨论的方法中的任何一种或多种的机器的任何集合。

机器1200包括处理器1202(例如，一个或多个中央处理单元(CPU)、一个或多个图形处理单元(GPU)、一个或多个量子处理单元、一个或多个数字信号处理器(DSP)，一个或多个专用集成电路(ASIC)、一个或多个射频集成电路(RFIC)或它们的任何合适的组合)、主存储器1204和静态存储器1206，它们被配置为经由总线1208彼此通信。处理器1202包含固态数字微电路(例如，电的和/或光的)，这些微电路可以通过指令1224中的一些或全部临时或永久地配置，使得处理器1202可被配置为全部或部分地执行本文描述的方法中的任何一种或多种。例如，由处理器1202的一个或多个微电路构成的集合可被配置为执行本文描述的一个或多个模块(例如，软件模块)。在一些示例实施例中，处理器1202是多核CPU(例如，双核CPU、四核CPU、8核CPU或128核CPU)，其中多个核中的每一个作为单独的处理器，该处理器能够全部或部分地执行本文所讨论的方法中的任何一种或多种。尽管本文所述的有益效果可以由至少具有处理器1202的机器1200提供，但是这些相同的有益效果也可以由不包含任何处理器的不同种类的机器提供(例如，纯机械系统、纯液压系统，或混合式机械液压系统)，前提是这种无处理器机器被配置为执行本文描述的方法中的一种或多种。

机器1200可以进一步包括图形显示器1210(例如，等离子显示面板(PDP)、发光二极管(LED)显示器、液晶显示器(LCD)、投影仪、阴极射线管(CRT)或任何其他能够显示图形或视频的显示器)。机器1200还可以包括字母数字输入设备1212(例如，键盘或小键盘)、指点输入设备1214(例如，鼠标、触摸板、触摸屏、轨迹球、操纵杆、手写笔、运动传感器、眼睛跟踪设备、数据手套或其他指点工具)、数据存储1216、音频生成设备1218(例如，声卡、放大器、扬声器、耳机插孔或它们的任何合适的组合)，以及网络接口设备1220。

数据存储1216(例如，数据存储设备)包括机器可读介质1222(例如，有形且非暂时性的机器可读存储介质)，其上存储有体现本文描述的方法或功能中的任何一种或多种的指令1224。在由机器1200执行之前或期间，指令1224还可完全地或至少部分地驻留在主存储器1204内，静态存储器1206内，处理器1202内(例如，处理器的高速缓冲存储器内)或它们的任何合适的组合内。因此，主存储器1204、静态存储器1206和处理器1202可被视为机器可读介质(例如，有形且非暂时性的机器可读介质)。指令1224可以经由网络接口设备1220在网络190上被发送或接收。例如，网络接口设备1220可以使用任何一种或多种传输协议(例如，超文本传输协议(HTTP))传送指令1224。

在一些示例实施例中，机器1200可以是便携式计算设备(例如，智能电话、平板计算机或可穿戴设备)，并且可以具有一个或多个附加输入组件1230(例如，传感器或计量仪)。这样的输入组件1230的示例包括图像输入组件(例如，一个或多个相机)、音频输入组件(例如，一个或多个麦克风)、方向输入组件(例如，指南针)、位置输入组件(例如，全球定位系统(GPS)接收器)、取向组件(例如，陀螺仪)、运动检测组件(例如，一个或多个加速度计)、高度检测组件(例如，高度计)、温度输入组件(例如，温度计)和气体检测组件(例如，气体传感器)。由这些输入组件1230中的任何一个或多个收集的输入数据可被本文描述的任一模块访问和使用(例如，通过根据用户偏好、适用法规或它们的任何合适的组合实现的适当隐私通知和保护，例如加入同意或退出同意)。

如本文所用，术语“存储器”是指能够临时或永久地存储数据的机器可读介质，并且可被认为包括但不限于随机存取存储器(RAM)、只读存储器(ROM)、缓冲存储器、闪存和高速缓存存储器。尽管机器可读介质1222在示例实施例中被示出为单个介质，但是术语“机器可读介质”应被认为包括能够存储指令的单个介质或多个介质(例如，集中式或分布式数据库，或相关联的高速缓存和服务器)。术语“机器可读介质”也应被认为包括能够携带(例如，存储或传送)将由机器1200执行的指令1224的任何介质或多种介质的组合，使得指令1224在由机器1200的一个或多个处理器(例如，处理器1202)执行时，使机器1200全部或部分地执行本文描述的方法中的任何一种或多种。因此，“机器可读介质”指示单个存储装置或设备，以及包括多个存储装置或设备的基于云的存储系统或存储网络。因此，术语“机器可读介质”应被认为包括但不限于采取固态存储芯片、光盘、磁盘或它们的任何合适的组合的形式的一个或多个有形且非暂时性的数据存储库(例如，数据卷)。

如本文所用，“非暂时性”机器可读介质具体地排除了传播信号本身。根据各种示例实施例，可以经由载体介质(例如，机器可读载体介质)来传送由机器1200执行的指令1224。这样的载体介质的示例包括非暂时性载体介质(例如，非暂时性机器可读存储介质，例如可从一个位置物理地移动到另一位置的固态存储器)和瞬态载体介质(例如，传送指令1224的载波或其他传播信号)。

某些示例实施例在本文中被描述为包括模块。模块可以构成软件模块(例如，存储或以其他方式体现在机器可读介质或传输介质中的代码)、硬件模块或它们的任何合适的组合。“硬件模块”是能够执行某些操作，并且能够以某种物理方式配置或布置的有形(例如，非暂时性)物理组件(例如，一个或多个处理器的集合)。在各种示例实施例中，一个或多个计算机系统或其一个或多个硬件模块可以通过软件(例如，应用或其一部分)被配置为硬件模块，该硬件模块通过操作来执行本文针对该模块所述的操作。

在一些示例实施例中，硬件模块可以机械地，电子地，液压地或以它们的任何合适的组合来实现。例如，硬件模块可以包括永久地被配置为执行某些操作的专用电路或逻辑。硬件模块可以是或可以包括专用处理器，例如现场可编程门阵列(FPGA)或ASIC。硬件模块还可以包括可编程逻辑或电路，该逻辑或电路通过软件临时配置为执行某些操作。作为示例，硬件模块可以包括包含在CPU或其他可编程处理器内的软件。将意识到，可以根据成本和时间考量决定是在专用且永久配置的电路中，还是在临时配置的电路(例如，通过软件配置)中机械、液压地实现硬件模块。

因此，短语“硬件模块”应该被理解为包括这样的有形实体：该实体可被物理地构造，永久地配置(例如，硬接线)，或临时地配置(例如，编程)，以通过某种方式执行操作或执行本文所述的某些操作。此外，如本文所用，短语“硬件实现的模块”是指硬件模块。考虑其中硬件模块被临时配置(例如，编程)的示例实施例，每个硬件模块不需要在任一时间实例上被配置或实例化。例如，在硬件模块包括通过软件配置为专用处理器的CPU的情况下，该CPU可以在不同时间分别被配置为不同的专用处理器(例如，每个专用处理器被包括在不同的硬件模块中)。软件(例如，软件模块)可以相应地配置一个或多个处理器，例如使其在一个时间实例上成为或以其他方式构成特定的硬件模块，并在不同的时间实例上成为或以其他方式构成不同的硬件模块。

硬件模块可以向其他硬件模块提供信息并从其他硬件模块接收信息。因此，所描述的硬件模块可以被认为是通信耦合的。在同时存在多个硬件模块的情况下，可以通过在两个或更多个硬件模块之间或当中的信号传输(例如，通过电路和总线)来实现通信。在其中多个硬件模块在不同的时间被配置或实例化的实施例中，例如可以通过在多个硬件模块有权访问的存储器结构中存储和检索信息来实现这种硬件模块之间的通信。例如，一个硬件模块可以执行操作并将该操作的输出存储在与其通信耦合的存储器(例如，存储设备)中。然后，另一硬件模块可以在以后访问存储器，以检索和处理所存储的输出。硬件模块还可以发起与输入或输出设备的通信，并且可以对资源(例如，来自计算资源的信息集合)进行操作。

本文描述的示例方法的各种操作可以至少部分地由一个或多个处理器执行，这些处理器被临时地配置(例如，通过软件配置)或永久地配置为执行相关操作。无论是临时地配置还是永久地配置，这样的处理器都可以构成由处理器实现的模块，这些模块通过操作来执行本文描述的一个或多个操作或功能。如本文所用，“处理器实现的模块”是指其中硬件包括一个或多个处理器的硬件模块。因此，本文描述的操作可以至少部分地由处理器实现和/或由硬件实现(因为处理器是硬件的示例)，并且本文所讨论的方法中的任何一种或多种中的至少一些操作可以由一个或多个处理器实现的模块、硬件实现的模块或它们的任何合适的组合来执行。

此外，这样的一个或多个处理器可以在“云计算”环境中或作为服务(例如，在“软件即服务”(SaaS)实现内)执行操作。例如，本文所讨论的方法中的任何一种或多种的至少一些操作可以由一组计算机(例如，作为包括处理器的机器的示例)执行，其中这些操作可以经由网络(例如，因特网)以及经由一个或多个适当的接口(例如，应用程序接口(API))来访问。某些操作的执行可以分布在一个或多个处理器当中，无论是仅驻留在单个计算机内还是跨多个计算机部署。在一些示例实施例中，一个或多个处理器或硬件模块(例如，处理器实现的模块)可以位于单个地理位置中(例如，在家庭环境、办公室环境或服务器场内)。在其他示例实施例中，一个或多个处理器或硬件模块可以分布在多个地理位置上。

在整个说明书中，多个实例可以实现被描述为单个实例的组件、操作或结构。尽管将一种或多种方法的单个操作示出并描述为单独的操作，但是这些单个操作中的一个或多个可以同时执行，并且不需要按所示顺序执行操作。在示例配置中作为单独的组件和功能呈现的结构及其功能可以实现为具有组合功能的组合结构或组件。类似地，呈现为单个组件的结构和功能可以实现为单独的组件和功能。这些和其他变型、修改、添加和改进落入本文主题的范围内。

本文所讨论的主题的某些部分可以根据对作为位或二进制数字信号存储在存储器(例如，计算机存储器或其他机器存储器)中的数据进行运算的算法或运算的符号表示来呈现。这样的算法或符号表示是数据处理领域的普通技术人员用来将其工作内容传送给本领域其他技术人员的技术的示例。如本文所用，“算法”是导致期望结果的运算或类似处理的自洽序列。在这种情况下，算法和运算涉及对物理量的物理操纵。通常，但不是必须地，这样的量可以采取能够被机器存储、访问、传输、组合、比较或以其他方式操纵的电、磁或光信号的形式。主要出于常用的目的，有时方便地使用“数据”、“内容”、“位”、“值”、“元素”、“符号”、“字符”、“项”、“数”、“数字”等之类的词语指示这些信号。但是，这些词语仅是方便的标签，应与适当的物理量相关联。

除非另有明确说明，否则本文中使用“访问”、“处理”、“检测”、“计算”、“核算”、“确定”、“生成”、“呈现”、“显示”等词语的讨论指示由机器(例如，计算机)执行的动作或过程，该机器操纵或变换在一个或多个存储器(例如，易失性存储器、非易失性存储器或它们的任何合适的组合)、寄存器，或接收、存储、发送或显示信息的其他机器组件内表示为物理(例如，电、磁或光)量的数据。此外，除非另有明确说明，否则如专利文件中常见的，术语“一”或“一个”在本文中被用来包括一个或多个实例。最后，除非另有明确说明，否则如本文所用，连词“或”是指非排他性的“或”。

以下列举的说明描述了本文所讨论的方法、机器可读介质和系统(例如，机器、设备或其他装置)的各种示例。

第一示例提供了一种方法，包括：

通过机器的一个或多个处理器访问一组并存视频文件，所述一组并存视频文件示出了公共画面区域内的公共沉浸式场景，但是每个视频文件对应于不同的观看方向，并且包括与所述对应的观看方向对准且具有比所述公共画面区域的其余部分更高的分辨率的不同偏心区域；

通过所述机器的一个或多个处理器，经由将第一画中画(PIP)窗口并入所述一组并存视频文件当中的第一并存视频文件的第一偏心区域，以及将第二PIP窗口并入所述一组并存视频文件当中的第二并存视频文件的第二偏心区域，来修改所述组中的所述并存视频文件中的至少两个，所述第一和第二PIP窗口分别与不同的对应第一和第二观看方向对准；

响应于被请求在所述第一观看方向上渲染所述公共沉浸式场景的客户端设备发出的第一请求，通过所述机器的一个或多个处理器向所述客户端设备提供所修改的第一并存视频文件，所提供的第一并存视频文件使所述客户端设备渲染具有所述第一PIP窗口的所述第一偏心区域；以及

响应于被请求在所述第二观看方向上渲染所述公共沉浸式场景的客户端设备发出的第二请求，通过所述机器的一个或多个处理器向所述客户端设备提供所修改的第二并存视频文件，所提供的第二并存视频文件使所述客户端设备渲染具有所述第二PIP窗口的所述第二偏心区域。

第二示例提供了一种方法，包括：

通过机器的一个或多个处理器访问一组音轨，所述一组音轨分别对应于公共沉浸式场景内的一组观看方向当中的不同的观看方向，所述一组音轨包括对应于所述一组观看方向当中的第一观看方向的第一音轨；

通过所述机器的一个或多个处理器生成一组并存视频文件，所述一组并存视频文件示出了公共沉浸式场景，但是每个视频文件对应于所述一组观看方向当中的不同的观看方向，并且分别包括与所述对应的观看方向对准的不同音频混合，所述一组并存视频文件包括第一并存视频文件，所述第一并存视频文件包括与所述第一观看方向对准的第一音频混合，所述第一音频混合衰减除了对应于所述第一观看方向的所述第一音轨之外的所包括的音轨；以及

响应于被请求在所述第一观看方向上渲染所述公共沉浸式场景的客户端设备发出的请求，通过所述机器的一个或多个处理器向所述客户端设备提供所述第一并存视频文件，所提供的第一并存视频文件使所述客户端设备播放衰减除了对应于所述第一观看方向的所述第一音轨之外的所包括的音轨的所述第一音频混合。

第三示例提供了一种方法，包括：

通过机器的一个或多个处理器训练神经网络，以识别视频文件训练数据库中描述的一组可视特征；

通过所述机器的一个或多个处理器检测期间用户的客户端设备被请求渲染一组视频文件的异常观看时间，所述一组异常观看时间的检测基于期间所述客户端设备被请求渲染所述视频文件的监测观看时间的直方图；

通过所述机器的一个或多个处理器，经由将所述检测到的一组异常观看时间与所述渲染的视频文件进行关联并将所述渲染的视频文件输入到所述经过训练的神经网络中，来识别可由所述经过训练的神经网络识别的所述一组可视特征的子集，从而识别所述渲染的视频文件中的所述一组视频特征的所述子集；

通过所述机器的一个或多个处理器，基于所识别的所述一组可视特征的子集生成所述用户的观看偏好配置文件，所生成的观看偏好配置文件指示所识别的所述一组可视特征的子集；以及

通过所述机器的一个或多个处理器，生成推荐消息并将其提供给所述用户的所述客户端设备，所述推荐消息基于由所述用户的观看偏好配置文件指示的所述一组可视特征的所述子集而生成。

第四示例提供了一种方法，包括：

通过机器的一个或多个处理器访问要上传到内容分发网络的第一组并存视频文件，所述第一组并存视频文件均具有相同的第一时长，并且均表示沉浸式场景的相同时间片段；

通过所述机器的一个或多个处理器检测到测定的到所述内容分发网络的上传数据速率低于阈值上传数据速率；

响应于所测定的上传数据速率低于所述阈值上传数据速率，并通过所述机器的一个或多个处理器将所述第一组并存视频文件转换为多组并存视频文件，所述多组包括第二组并存视频文件，所述第二组并存视频文件均具有比所述第一时长短的相同第二时长；

进一步响应于所测定的上传速率低于所述阈值上传数据速率，并通过所述机器的一个或多个处理器将均具有比所述第一时长短的所述相同第二时长的转换后的第二组并存视频文件上传到所述内容分发网络。

第五示例提供了一种方法，包括：

通过机器的一个或多个处理器访问要上传到内容分发网络的一组并存视频文件，所述一组并存视频文件均具有相同的时长并且均表示沉浸式场景的相同时间片段；

响应于所测定的上传数据速率低于所述阈值上传数据速率，并通过所述机器的一个或多个处理器选择所述一组并存视频文件当中的至少一个并存视频文件以排除上传到所述内容分发网络，选择所述至少一个并存视频文件精简了要上传到所述内容分发网络的所述一组并存视频文件；

进一步响应于所测定的上传速率低于所述阈值上传数据速率，并通过所述机器的一个或多个处理器将所述精简的一组并存视频文件上传到所述内容分发网络。

第六示例提供了一种方法，包括：

通过机器的一个或多个处理器访问要上传到内容分发网络的一组并存视频文件，所述一组并存视频文件均表示沉浸式场景的相同时间片段，并且均对应于指定第一阈值时间跨度的第一生存时间(TTL)值；

响应于所测定的上传数据速率低于所述阈值上传数据速率，并通过所述机器的一个或多个处理器将所述第一TTL值减小为小于所述第一TTL值的第二TTL值；

通过所述机器的一个或多个处理器将所述一组并存视频文件上传到所述内容分发网络；以及

进一步响应于所测定的上传速率低于所述阈值上传速率，并通过所述机器的一个或多个处理器使所述内容分发网络基于自所述上传超过由所述第二TTL值指定的第二阈值时间跨度以来的时间跨度删除所上传的一组并存视频文件。

第七示例提供了一种方法，包括：

通过机器的一个或多个处理器访问要包括在一组并存视频文件的公共画面区域中以全部示出公共沉浸式场景的朝上的视频内容和朝下的视频内容；

通过所述机器的一个或多个处理器，基于所述朝上的视频内容的视频复杂度分析、所述朝下的视频内容的视频复杂度分析、所述朝上的视频内容的视频重要性指标或所述朝下的视频内容的视频重要性指标中的至少一项，确定所述公共画面区域的顶部示出区域与所述公共画面区域的底部示出区域的尺寸比；

通过所述机器的一个或多个处理器确定所述公共画面区域的所述顶部示出区域的至少一个第一维度和所述公共画面区域的所述底部示出区域的至少一个第二维度，所述至少一个第一和第二维度基于所述公共画面区域的所述顶部示出区域与所述公共画面区域的所述底部示出区域的尺寸比而确定；以及

通过所述机器的一个或多个处理器生成所述一组并存视频文件，所述一组并存视频文件全部示出了所述公共画面区域内的所述公共沉浸式场景，所述一组并存视频文件的所述生成分别基于所确定的所述顶部示出区域和所述底部示出区域的至少一个第一和第二维度。

第八示例提供了一种方法，包括：

通过所述机器的一个或多个处理器，经由基于所述朝上的视频内容的视频复杂度分析、所述朝下的视频内容的视频复杂度分析、所述朝上的视频内容的视频重要性指标、所述朝下的视频内容的视频重要性指标或测定的到内容分发网络的上传数据速率中的至少一项，确定所述公共画面区域的至少一个维度来确定所述公共画面区域的尺寸；

通过所述机器的一个或多个处理器确定所述公共画面区域的所述顶部示出区域的至少一个第一维度和所述公共画面区域的所述底部示出区域的至少一个第二维度，所述至少一个第一和第二维度基于所确定的所述公共画面区域的尺寸而确定；以及

第九示例提供了一种包括指令的机器可读介质(例如，非暂时性机器可读存储介质)，当由机器的一个或多个处理器执行时，所述指令使所述机器执行以下操作：

访问一组并存视频文件，所述一组并存视频文件示出了公共画面区域内的公共沉浸式场景，但是每个视频文件对应于不同的观看方向，并且包括与所述对应的观看方向对准且具有比所述公共画面区域的其余部分更高的分辨率的不同偏心区域；

经由将第一画中画(PIP)窗口并入所述一组并存视频文件当中的第一并存视频文件的第一偏心区域，以及将第二PIP窗口并入所述一组并存视频文件当中的第二并存视频文件的第二偏心区域，来修改所述组中的所述并存视频文件中的至少两个，所述第一和第二PIP窗口分别与不同的对应第一和第二观看方向对准；

响应于被请求在所述第一观看方向上渲染所述公共沉浸式场景的客户端设备发出的第一请求，向所述客户端设备提供所述修改后的第一并存视频文件，所提供的第一并存视频文件使所述客户端设备渲染具有所述第一PIP窗口的所述第一偏心区域；以及

响应于被请求在所述第二观看方向上渲染所述公共沉浸式场景的客户端设备发出的第二请求，向所述客户端设备提供所述修改后的第二并存视频文件，所提供的第二并存视频文件使所述客户端设备渲染具有所述第二PIP窗口的所述第二偏心区域。

第十示例提供了一种包括指令的机器可读介质(例如，非暂时性机器可读存储介质)，当由机器的一个或多个处理器执行时，所述指令使所述机器执行以下操作：

访问一组音轨，所述一组音轨分别对应于公共沉浸式场景内的一组观看方向当中的不同的观看方向，所述一组音轨包括对应于所述一组观看方向当中的第一观看方向的第一音轨；

生成一组并存视频文件，所述一组并存视频文件示出了公共沉浸式场景，但是每个视频文件对应于所述一组观看方向当中的不同的观看方向，并且分别包括与所述对应的观看方向对准的不同音频混合，所述一组并存视频文件包括第一并存视频文件，所述第一并存视频文件包括与所述第一观看方向对准的第一音频混合，所述第一音频混合衰减除了对应于所述第一观看方向的所述第一音轨之外的所包括的音轨；以及

响应于被请求在所述第一观看方向上渲染所述公共沉浸式场景的客户端设备发出的请求，向所述客户端设备提供所述第一并存视频文件，所提供的第一并存视频文件使所述客户端设备播放衰减除了对应于所述第一观看方向的所述第一音轨之外的所包括的音轨的所述第一音频混合。

第十一示例提供了一种包括指令的机器可读介质(例如，非暂时性机器可读存储介质)，当由机器的一个或多个处理器执行时，所述指令使所述机器执行以下操作：

训练神经网络，以识别视频文件训练数据库中描述的一组可视特征；

检测期间用户的客户端设备被请求渲染一组视频文件的异常观看时间，所述一组异常观看时间的检测基于期间所述客户端设备被请求渲染所述视频文件的监测观看时间的直方图；

经由将所述检测到的一组异常观看时间与所述渲染的视频文件进行关联并将所述渲染的视频文件输入到所述经过训练的神经网络中，来识别可由所述经过训练的神经网络识别的所述一组可视特征的子集，从而识别所述渲染的视频文件中的所述一组视频特征的所述子集；

基于所识别的所述一组可视特征的子集生成所述用户的观看偏好配置文件，所生成的观看偏好配置文件指示所识别的所述一组可视特征的子集；以及

生成推荐消息并将其提供给所述用户的所述客户端设备，所述推荐消息基于由所述用户的观看偏好配置文件指示的所述一组可视特征的所述子集而生成。

第十二示例提供了一种包括指令的机器可读介质(例如，非暂时性机器可读存储介质)，当由机器的一个或多个处理器执行时，所述指令使所述机器执行以下操作：

访问要上传到内容分发网络的第一组并存视频文件，所述第一组并存视频文件均具有相同的第一时长，并且均表示沉浸式场景的相同时间片段；

检测到测定的到所述内容分发网络的上传数据速率低于阈值上传数据速率；

响应于所测定的上传数据速率低于所述阈值上传数据速率，将所述第一组并存视频文件转换为多组并存视频文件，所述多组包括第二组并存视频文件，所述第二组并存视频文件均具有比所述第一时长短的相同第二时长；

进一步响应于所测定的上传速率低于所述阈值上传数据速率，将均具有比所述第一时长短的所述相同第二时长的转换后的第二组并存视频文件上传到所述内容分发网络。

第十三示例提供了一种包括指令的机器可读介质(例如，非暂时性机器可读存储介质)，当由机器的一个或多个处理器执行时，所述指令使所述机器执行以下操作：

访问要上传到内容分发网络的一组并存视频文件，所述一组并存视频文件均具有相同的时长并且均表示沉浸式场景的相同时间片段；

响应于所测定的上传数据速率低于所述阈值上传数据速率，选择所述一组并存视频文件当中的至少一个并存视频文件以排除上传到所述内容分发网络，选择所述至少一个并存视频文件精简了要上传到所述内容分发网络的所述一组并存视频文件；

进一步响应于所测定的上传速率低于所述阈值上传数据速率，将所述精简的一组并存视频文件上传到所述内容分发网络。

第十四示例提供了一种包括指令的机器可读介质(例如，非暂时性机器可读存储介质)，当由机器的一个或多个处理器执行时，所述指令使所述机器执行以下操作：

访问要上传到内容分发网络的一组并存视频文件，所述一组并存视频文件均表示沉浸式场景的相同时间片段，并且均对应于指定第一阈值时间跨度的第一生存时间(TTL)值；

响应于所测定的上传数据速率低于所述阈值上传数据速率，将所述第一TTL值减小为小于所述第一TTL值的第二TTL值；

将所述一组并存视频文件上传到所述内容分发网络；以及

进一步响应于所测定的上传速率低于所述阈值上传速率，使所述内容分发网络基于自所述上传超过由所述第二TTL值指定的第二阈值时间跨度以来的时间跨度删除所上传的一组并存视频文件。

第十五示例提供了一种包括指令的机器可读介质(例如，非暂时性机器可读存储介质)，当由机器的一个或多个处理器执行时，所述指令使所述机器执行以下操作：

访问要包括在一组并存视频文件的公共画面区域中以全部示出公共沉浸式场景的朝上的视频内容和朝下的视频内容；

基于所述朝上的视频内容的视频复杂度分析、所述朝下的视频内容的视频复杂度分析、所述朝上的视频内容的视频重要性指标或所述朝下的视频内容的视频重要性指标中的至少一项，确定所述公共画面区域的顶部示出区域与所述公共画面区域的底部示出区域的尺寸比；

确定所述公共画面区域的所述顶部示出区域的至少一个第一维度和所述公共画面区域的所述底部示出区域的至少一个第二维度，所述至少一个第一和第二维度基于所述公共画面区域的所述顶部示出区域与所述公共画面区域的所述底部示出区域的尺寸比而确定；以及

生成所述一组并存视频文件，所述一组并存视频文件全部示出了所述公共画面区域内的所述公共沉浸式场景，所述一组并存视频文件的所述生成分别基于所确定的所述顶部示出区域和所述底部示出区域的至少一个第一和第二维度。

第十六示例提供了一种包括指令的机器可读介质(例如，非暂时性机器可读存储介质)，当由机器的一个或多个处理器执行时，所述指令使所述机器执行以下操作：

经由基于所述朝上的视频内容的视频复杂度分析、所述朝下的视频内容的视频复杂度分析、所述朝上的视频内容的视频重要性指标、所述朝下的视频内容的视频重要性指标或测定的到内容分发网络的上传数据速率中的至少一项，确定所述公共画面区域的至少一个维度来确定所述公共画面区域的尺寸；

确定所述公共画面区域的所述顶部示出区域的至少一个第一维度和所述公共画面区域的所述底部示出区域的至少一个第二维度，所述至少一个第一和第二维度基于所确定的所述公共画面区域的尺寸而确定；以及

第十七示例提供了一种系统(例如，计算机系统)，包括：

一个或多个处理器；以及

存储指令的存储器，当由所述一个或多个处理器当中的至少一个处理器执行时，所述指令使所述系统执行以下操作：

第十八示例提供了一种系统(例如，计算机系统)，包括：

一个或多个处理器；以及

第十九示例提供了一种系统(例如，计算机系统)，包括：

一个或多个处理器；以及

第二十示例提供了一种系统(例如，计算机系统)，包括：

一个或多个处理器；以及

第二十一示例提供了一种系统(例如，计算机系统)，包括：

一个或多个处理器；以及

第二十二示例提供了一种系统(例如，计算机系统)，包括：

一个或多个处理器；以及

将所述一组并存视频文件上传到所述内容分发网络；以及

第二十三示例提供了一种系统(例如，计算机系统)，包括：

一个或多个处理器；以及

第二十四示例提供了一种系统(例如，计算机系统)，包括：

一个或多个处理器；以及

第二十五示例提供了一种方法，包括：

通过机器的一个或多个处理器访问多个并存视频文件，所述多个并存视频文件分别示出了对应的画面区域，所述画面区域包括与对应的观看方向对准且具有比所述对应的画面区域的其余部分更高的分辨率的对应偏心区域；

通过所述机器的一个或多个处理器确定所述多个并存视频文件当中的第一并发视频文件是选定的主并存视频文件，并且所述多个并存视频文件当中的第二并存视频文件是未选定的辅并存视频文件；

通过所述机器的一个或多个处理器将所述选定的主并存视频文件的所述对应偏心区域的至少一部分分配给显示屏幕的主区域，所述主区域的面积大于所述显示屏幕的辅区域；

通过所述机器的一个或多个处理器将所述未选定的辅并存视频文件的所述对应偏心区域的至少一部分分配给所述显示屏幕的所述辅区域；以及

通过所述机器的一个或多个处理器使所述显示屏幕同时在所述显示屏幕的所述主区域中呈现所述选定的主并存视频文件的所述对应偏心区域的所述分配部分以及在所述显示屏幕的所述辅区域中呈现所述未选定的辅并存视频文件的所述对应偏心区域的所述分配部分。

第二十六示例提供了一种包括指令的机器可读介质(例如，非暂时性机器可读存储介质)，当由机器的一个或多个处理器执行时，所述指令使所述机器执行以下操作：

访问多个并存视频文件，所述多个并存视频文件分别示出了对应的画面区域，所述画面区域包括与对应的观看方向对准且具有比所述对应的画面区域的其余部分更高的分辨率的对应偏心区域；

确定所述多个并存视频文件当中的第一并发视频文件是选定的主并存视频文件，并且所述多个并存视频文件当中的第二并存视频文件是未选定的辅并存视频文件；

将所述选定的主并存视频文件的所述对应偏心区域的至少一部分分配给显示屏幕的主区域，所述主区域的面积大于所述显示屏幕的辅区域；

将所述未选定的辅并存视频文件的所述对应偏心区域的至少一部分分配给所述显示屏幕的所述辅区域；以及

使所述显示屏幕同时在所述显示屏幕的所述主区域中呈现所述选定的主并存视频文件的所述对应偏心区域的所述分配部分以及在所述显示屏幕的所述辅区域中呈现所述未选定的辅并存视频文件的所述对应偏心区域的所述分配部分。

第二十七示例提供了一种系统(例如，计算机系统)，包括：

一个或多个处理器；以及

Claims

1.一种方法，包括：

通过机器的一个或多个处理器访问一组并存视频文件，所述一组并存视频文件示出公共画面区域内的公共沉浸式场景，但是每个并存视频文件对应于不同的观看方向，并且包括与对应的观看方向对准且具有比所述公共画面区域的其余部分更高的分辨率的不同偏心区域；

通过所述机器的一个或多个处理器，经由将第一画中画(PIP)窗口并入所述一组并存视频文件当中的第一并存视频文件的第一偏心区域，以及将第二PIP窗口并入所述一组并存视频文件当中的第二并存视频文件的第二偏心区域，来修改所述组中的并存视频文件中的至少两个；

2.根据权利要求1所述的方法，其中：

将所述第一PIP窗口并入所述第一并存视频文件的所述第一偏心区域包括将补充视频内容并入所述第一PIP窗口；以及

将所述第二PIP窗口并入所述第二并存视频文件的所述第二偏心区域包括将所述补充视频内容并入所述第二PIP窗口。

3.根据权利要求2所述的方法，其中：

第一和第二并存视频文件分别对应于不同的第一和第二观看方向；以及

第一和第二PIP窗口分别与不同的对应的第一和第二观看方向对准。

4.根据权利要求2所述的方法，其中：

第一和第二PIP窗口都与第一和第二观看方向之间的同一中间观看方向对准。

5.根据权利要求1所述的方法，其中：

将所述第一PIP窗口并入所述第一并存视频文件的所述第一偏心区域包括将第一补充视频内容并入所述第一PIP窗口；以及

将所述第二PIP窗口并入所述第二并存视频文件的所述第二偏心区域包括将不同于所述第一补充视频内容的第二补充视频内容并入所述第二PIP窗口。

6.根据权利要求5所述的方法，其中：

7.根据权利要求5所述的方法，其中：

将所述第二PIP窗口并入所述第二并存视频文件的所述第二偏心区域的步骤将所述第二PIP窗口的第一实例并入所述第二偏心区域；以及

修改所述组中的并存视频文件中的至少两个包括将所述第二PIP窗口的第二实例并入所述第一并存视频文件的非偏心区域。

8.根据权利要求7所述的方法，其中：

将所述第二PIP窗口的第二实例并入所述第一并存视频文件的非偏心区域的步骤以比所述第一并存视频文件的所述第一偏心区域中的所述第一PIP窗口低的分辨率并入所述第二PIP窗口的第二实例。

9.一种包括指令的非暂时性机器可读存储介质，当由机器的一个或多个处理器执行时，所述指令使所述机器执行以下操作：

访问一组并存视频文件，所述一组并存视频文件示出公共画面区域内的公共沉浸式场景，但是每个并存视频文件对应于不同的观看方向，并且包括与对应的观看方向对准且具有比所述公共画面区域的其余部分更高的分辨率的不同偏心区域；

经由将第一画中画(PIP)窗口并入所述一组并存视频文件当中的第一并存视频文件的第一偏心区域，以及将第二PIP窗口并入所述一组并存视频文件当中的第二并存视频文件的第二偏心区域，来修改所述组中的并存视频文件中的至少两个；

响应于被请求在所述第一观看方向上渲染所述公共沉浸式场景的客户端设备发出的第一请求，向所述客户端设备提供所修改的第一并存视频文件，所提供的第一并存视频文件使所述客户端设备渲染具有所述第一PIP窗口的所述第一偏心区域；以及

响应于被请求在所述第二观看方向上渲染所述公共沉浸式场景的客户端设备发出的第二请求，向所述客户端设备提供所修改的第二并存视频文件，所提供的第二并存视频文件使所述客户端设备渲染具有所述第二PIP窗口的所述第二偏心区域。

10.根据权利要求9所述的非暂时性机器可读存储介质，其中：

11.根据权利要求10所述的非暂时性机器可读存储介质，其中：

12.根据权利要求9所述的非暂时性机器可读存储介质，其中：

13.根据权利要求12所述的非暂时性机器可读存储介质，其中：

将所述第二PIP窗口并入所述第二并存视频文件的所述第二偏心区域的操作将所述第二PIP窗口的第一实例并入所述第二偏心区域；以及

14.根据权利要求13所述的非暂时性机器可读存储介质，其中：

将所述第二PIP窗口的第二实例并入所述第一并存视频文件的非偏心区域的操作以比所述第一并存视频文件的所述第一偏心区域中的所述第一PIP窗口低的分辨率并入所述第二PIP窗口的第二实例。

15.一种系统，包括：

一个或多个处理器；以及

存储指令的存储器，当由所述一个或多个处理器中的至少一个处理器执行时，所述指令使所述系统执行以下操作：

16.根据权利要求15所述的系统，其中：

17.根据权利要求16所述的系统，其中：

18.根据权利要求15所述的系统，其中：

19.根据权利要求18所述的系统，其中：

20.根据权利要求19所述的系统，其中：