CN109792562B

CN109792562B - 视频数据的基于内容的流分割

Info

Publication number: CN109792562B
Application number: CN201780058804.9A
Authority: CN
Inventors: C·阿特鲁鲁; A·尼南
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2016-09-26
Filing date: 2017-09-18
Publication date: 2021-04-13
Anticipated expiration: 2037-09-18
Also published as: EP3516882A1; CN109792562A; US11653065B2; US20220210512A1; EP3793205A1; KR20190038664A; EP3793205B1; US20210314670A1; EP3516882B1; CN113301439B; JP6884856B2; CN113301439A; KR102218519B1; US11303966B2; JP2019534614A; WO2018057472A1

Abstract

基于视频图像的图像内容来识别视频图像中的场景。基于视频图像中的场景来确定视频图像的区域横截面。将视频图像的在区域横截面中的图像部分编码为具有多种不同的时空分辨率的多个视频子流。将包括所述多个视频子流的整体视频流传输至流客户端设备。

Description

视频数据的基于内容的流分割

技术领域

本发明总体上涉及图像编码和渲染，并且具体地涉及视频数据的基于内容的流分割。

背景技术

对于虚拟现实应用，例如具有近眼显示器的那些应用，期望视频数据的量可以等于十八个4K分辨率视图，以便在观看具有防止人类视觉始终在所有潜在视角中感知像素化效应的空间分辨率的图像时具有无缝体验。考虑到压缩和解压缩视频数据所需的带宽量和计算能力，这种期望的视频数据量是巨大的，并且在当前网络基础设施中不太可能被各种显示设备(例如，近眼显示器)支持。

一些技术通过将球面分割成角锥体的多个“角锥体面”来解决这个问题。基础角锥体面覆盖视场(FOV)的紧邻的周围环境并且携带高分辨率图像。其他非基础角锥体面携带低分辨率图像。然而，这些技术在观看高分辨率图像时随着用户每次将FOV改变到非基础角锥体面而遭受可察觉的滞后(例如，长于12至15毫秒等)。此外，由于角锥体是基于面积/体积被分区的，因此用户的FOV可能会与两个角锥体面相交，从而导致FOV的一部分具有低分辨率。

在这一部分中描述的方法是可以采用的方法，但不一定是之前已经设想到或采用的方法。因此，除非另有指明，否则不应认为这一部分中所述的任何方法仅由于其被列入这一部分中就可称为现有技术。类似地，除非另有指明，否则不应当基于这一部分认为关于一种或多种方法所识别的问题已经在任何现有技术中被确认。

发明内容

根据本公开的第一方面，提供了一种用于流式传输视频数据的方法，所述方法包括：基于一个或多个视频图像的图像内容来识别所述一个或多个视频图像中的多个场景；其中，所述多个场景包括至少一个高兴趣程度的场景和至少一个低兴趣程度的场景；追踪所述一个或多个视频图像的观看者视口；基于所述一个或多个视频图像中的所述多个场景并且基于所述观看者视口来确定所述一个或多个视频图像的多个区域横截面；其中，所述多个区域横截面包括第一区域横截面、第二区域横截面和第三区域横截面，所述第一区域横截面与位于所述观看者视口内的高兴趣程度的场景相对应，所述第二区域横截面与位于所述观看者视口之外的高兴趣程度的场景相对应，所述第三区域横截面与位于所述观看者视口之外的低兴趣程度的场景相对应；对包围观看者中央凹视觉的场景中的图像数据应用模糊滤波器，所述模糊滤波器具有能够变化的空间分辨率，其中，在包围所述观看者中央凹视觉的场景部分中不执行模糊处理或执行很少的模糊处理，其中，在位于所述观看者中央凹视觉之外的场景部分中执行更强的模糊处理，并且其中，模糊处理的强度至少部分地基于空间位置与所述观看者中央凹视觉的中心之间的空间距离；将所述一个或多个视频图像的位于所述多个区域横截面中的多个图像部分编码为具有两种或更多种不同的时空分辨率的两个或更多个视频子流；其中，所述两个或更多个视频子流包括：用于所述第一区域横截面的具有第一时空分辨率的第一视频子流、用于所述第二区域横截面的具有第二时空分辨率的第二视频子流、以及用于所述第三区域横截面的具有第三时空分辨率的第三视频子流；其中，所述第三时空分辨率低于所述第二时空分辨率；并且其中，所述第二时空分辨率低于所述第一时空分辨率；将包括所述两个或更多个视频子流的整体视频流传输至流客户端设备；其中，所述方法由一个或多个计算设备来执行。

根据本公开的第二方面，提供了一种用于向观看者呈现视频数据的方法，所述方法包括：从流服务器接收整体视频流，所述整体视频流包括具有两种或更多种不同的时空分辨率的两个或更多个视频子流；其中，所述两个或更多个视频子流包括用于第一区域横截面的具有第一时空分辨率的第一视频子流、用于第二区域横截面的具有第二时空分辨率的第二视频子流以及用于第三区域横截面的具有第三时空分辨率的第三视频子流；其中，所述第三时空分辨率低于所述第二时空分辨率；并且其中，所述第二时空分辨率低于所述第一时空分辨率；将所述两个或更多个视频子流解码为一个或多个视频图像的一个或多个图像部分，其中，所述一个或多个图像部分位于多个区域横截面中的一个或多个区域横截面中，其中，至少部分地基于多个场景并且基于观看者视口来确定所述多个区域横截面，其中，基于所述一个或多个视频图像的图像内容来检测所述多个场景；其中，所述多个区域横截面包括所述第一区域横截面、所述第二区域横截面和所述第三区域横截面，所述第一区域横截面与位于所述观看者视口内的高兴趣程度的场景相对应，所述第二区域横截面与位于所述观看者视口之外的高兴趣程度的场景相对应，所述第三区域横截面与位于所述观看者视口之外的低兴趣程度的场景相对应；并且其中，对包围观看者中央凹视觉的场景中的图像数据应用模糊滤波器，所述模糊滤波器具有能够变化的空间分辨率，其中，在包围所述观看者中央凹视觉的场景部分中不执行模糊处理或执行很少的模糊处理，其中，在位于所述观看者中央凹视觉之外的场景部分中执行更强的模糊处理，并且其中，模糊处理的强度至少部分地基于空间位置与所述观看者中央凹视觉的中心之间的空间距离；基于所述一个或多个视频图像的所述一个或多个图像部分来生成视频内容；致使所述视频内容被渲染在显示器中；其中，所述方法由一个或多个计算设备来执行。

根据本公开的第三方面，提供了一种系统，所述系统包括多个模块，所述多个模块被配置为执行用于流式传输视频数据的方法或用于向观看者呈现视频数据的方法。

根据本公开的第四方面，提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储有一个或多个软件，所述一个或多个软件包括软件指令，所述软件指令当由一个或多个处理器执行时致使执行用于流式传输视频数据的方法或用于向观看者呈现视频数据的方法。

根据本公开的第五方面，提供了一种计算设备，所述计算设备包括一个或多个处理器以及一个或多个存储介质，所述存储介质存储有一个或多个程序，所述一个或多个程序包括一组指令，所述一组指令当由所述一个或多个处理器执行时致使执行用于流式传输视频数据的方法或用于向观看者呈现视频数据的方法。

附图说明

在附图中以举例而非限制的方式示出了本发明，并且在附图中相同的附图标记指代类似的元件，并且在附图中：

图1示出了示例性视频图像；

图2A至图2C示出了一个或多个视频图像的正在由用户观看的示例区域横截面；

图2D示出了示例性视口；

图2E示出了示例性场景；

图3A至图3C示出了示例性视频流服务器和客户端；

图4A和图4B示出了示例性处理流程；并且

图5示出了示例性硬件平台，在所述硬件平台上可以实施本申请中所描述的计算机或计算设备。

具体实施方式

本申请描述了涉及基于内容的视频数据流分割的示例性实施例。在以下描述中，为了解释的目的，阐述了许多具体细节以便透彻地理解本发明。然而，将明显的是，可以在没有这些具体细节的情况下实施本发明。在其他情形中，为了避免不必要的遮挡、模糊或混淆本发明，没有详尽地描述众所周知的结构和设备。

本申请根据以下概要对示例性实施例进行描述：

1.总体概述

2.视频图像

3.区域横截面和感兴趣的场景

4.从视频图像检测场景

5.示例性场景、区域横截面和视频子流

6.示例视频流服务器和客户端

7.示例处理流程

8.实施机制-硬件概述

9.等效物、扩展、替代品及其他

1.总体概述

此概述介绍了对本发明的示例性实施例的某些方面的基本描述。应当注意的是，此概述不是对示例性实施例的各方面的广泛或详尽总结。此外，应当注意的是，此概述不旨在被理解为确认示例性实施例的任何特别重要的方面或要素，也不旨在被理解为特别地描绘示例性实施例的任何范围，也不是概括地描绘本发明。此概述仅以扼要和简化的方式介绍与示例性实施例相关的一些概念，并且应该被理解为仅仅是以下示例性实施例的更详细说明的概念性前奏。注意，尽管本申请讨论了单独的实施例，但是本申请讨论的实施例和/或部分实施例的任何组合都可以组合而形成额外的实施例。

可以使用如本申请描述的技术来最小化用于在一个或多个视频流服务器与一个或多个视频流客户端之间流式传输视频数据的带宽使用。示例视频内容可以包括但不必限于以下各项中的任一项：视听节目、电影、视频节目、TV广播、计算机游戏、增强现实(AR)内容、虚拟现实(VR)内容等。示例视频流客户端可以包括但不必限于以下各项中的任一项：显示设备、具有近眼显示器的计算设备、头戴式显示器(HMD)、移动设备、可穿戴显示设备、具有诸如电视等的显示器的机顶盒、视频监视器等。

本申请中使用的“视频流服务器”可以指这样的一个或多个设备，所述一个或多个设备准备视频内容并且将视频内容流式传输至一个或多个视频流客户端，以便在一个或多个显示器上渲染视频内容的至少一部分(例如，与用户的FOV或视口等相对应的部分)。视频内容被渲染在其上的显示器可以是所述一个或多个视频流客户端的一部分，或者可以与所述一个或多个视频流客户端配合地操作。

示例视频流服务器可以包括但不必限于以下各项中的任一项：远离一个或多个视频流客户端定位的基于云的视频流服务器、通过本地有线网络或无线网络与一个或多个视频流客户端连接的本地视频流服务器、VR设备、AR设备、数字媒体设备、数字媒体接收器、机顶盒、游戏机(例如，Xbox)、通用个人计算机、平板电脑、专用数字媒体接收器(例如苹果TV或罗库盒(Roku box))等。

在如本申请描述的技术下，可以基于以下各项中的一项或多项将一个或多个视频图像的整个面积分区成多个区域横截面：用户视口、用户中央凹视觉(foveal vision)、高兴趣程度的场景、低兴趣程度的场景等。区域横截面中的每一个可以仅表示视频图像的整个面积的适当子集，例如，可与人类视觉中的视场相比的高达180度乘以100度的视野、高达240度乘以90度的视野等。然而，所有可能的区域横截面的组合可以覆盖视频图像的整个面积。

视频流服务器可以将多个视频子流中的视频图像的多个区域横截面中的对应图像部分以不同时空分辨率传输至下游接收设备，而不是使用非常高的带宽预算(例如，等于18个4K视频流等)在视频图像的整个空间面积中以固定的高时空分辨率来编码并传输视频图像。如本申请中使用的那样，时空分辨率可以指仅空间分辨率(包括但不限于高度空间频率内容)、仅时间分辨率(包括但不限于图像刷新率)、或空间分辨率和时间分辨率的组合。因此，如本申请中描述的技术可以用于降低或最小化将在视频流服务器与视频流客户端(例如，消费和/或播放流视频数据等的客户端设备)之间流式传输的视频数据量，从而降低或最小化以下对使用相对较高的带宽预算来流式传输视频数据的需要，并且有效地支持用于很多种下游设备的很多种视频流应用。

同时，如本申请中描述的技术可以用于允许下游接收设备的用户自由地改变用户对视频图像的视角或视场。在大多数(如果不是全部的话)操作情境下，可以向用户呈现高分辨率视频内容，以获得无缝观看体验，这种无缝观看体验相对没有与不采用本申请中所描述的技术的一些其他方法相关联的视觉伪像、生理不适等。与其他方法相关联的视觉伪像、生理不适等可以包括但不必限于以下各项中的任一项：人类视觉感知到的向高分辨率影像过渡过程中的长时间滞后、在人类视觉的中心观看区内可察觉的低分辨率影像、用户的自然的与视觉相关的直觉与为用户实际渲染的视频内容之间的失配、当观看者移动视角时影像中的视觉清晰度的突然下降、可感知到的从低分辨率向高分辨率的缓慢过渡、当观看者移动视角时对先前被遮挡图像细节示出模糊图像等等。

本申请中描述的示例性实施例涉及流式传输视频数据。基于一个或多个视频图像的图像内容识别所述一个或多个视频图像中的多个场景。基于所述一个或多个视频图像中的所述多个场景来确定所述一个或多个视频图像的多个区域横截面。所述一个或多个视频图像在所述多个区域横截面中的多个图像部分被编码成具有两种或更多种不同时空分辨率的两个或更多个视频子流。包括所述两个或更多个视频子流的整体视频流被传输至流客户端设备。

本申请中描述的示例性实施例涉及向观看者呈现流式传输的视频数据。从流服务器接收整体视频流，所述整体视频流包括具有两种或更多种不同的时空分辨率的两个或更多个视频子流。所述两个或更多个视频子流被解码成一个或多个视频图像的一个或多个图像部分。所述一个或多个图像部分位于多个区域横截面中的一个或多个区域横截面中。至少部分地基于多个场景来确定所述多个区域横截面。基于所述一个或多个视频图像的图像内容来检测所述多个场景。基于所述一个或多个视频图像的所述一个或多个图像部分来生成视频内容。将所述视频内容渲染在显示器中。

在一些示例性实施例中，本申请中描述的机制(mechanism)形成媒体处理系统的一部分，所述媒体处理系统包括但不限于以下各项中的任何一项：基于云的服务器、移动设备、虚拟现实系统、增强现实系统、抬头(head up)显示设备、头盔式显示设备、CAVE式系统或墙壁大小的显示器、视频游戏设备、显示设备、媒体播放器、媒体服务器、媒体制作系统、摄像系统、基于家庭的系统、通信设备、视频处理系统、视频编解码系统、演播室(studio)系统、流服务器、基于云的内容服务系统、手持式设备、游戏机、电视机、影院显示器、膝上型计算机、上网本计算机、平板计算机、蜂窝无线电话、电子书阅读器、销售点终端、台式计算机、计算机工作站、计算机服务器、计算机亭(kiosk)、或各种其他类型的终端和媒体处理单元。

对优选实施例和通用原理以及在此描述的特征作出的各种修改对本领域的技术人员而言将是显而易见的。因此，本公开内容不旨在被限制于所示实施例，而旨在被赋予与本申请中描述的原理和特征一致的最宽范围。

2.视频图像

在一些实施例中，可以利用部署在一个或多个空间环境中的一个或多个摄像系统来捕获本申请中所描述的视频图像。示例性空间环境可以包括但不仅限于以下各项中的任一项：物理空间环境、模拟空间环境、电影摄影棚、室外场景、室内场景、隧道、街道、车辆、船舶、飞行器、外太空等。示例性摄像系统可以包括但不仅限于以下各项中的任一项：光场相机、视场重叠和/或视场不重叠的多个摄像机、数字摄像机、模拟摄像机、网络摄像机等。

可以将如本申请中描述的视频图像记录或组合(assembled)为分布在具有各种空间形状的图像(例如，矩形图像、球形图像等)中的像素值。示例性空间形状可以包括但不必仅限于以下各项中的任一项：矩形形状、球形形状、全景形状、规则形状、不规则形状、平面形状、曲面形状等。

图1示出了示例性视频图像100。在一些实施例中，区域图像(100)可以表示(例如，高分辨率等)视频图像序列中的一个单独的高分辨率区域图像。视频流服务器可以被配置用于接收视频图像序列并且将所接收的视频图像序列作为输入使用，以便准备用于向(下游)视频流客户端流式传输的视频内容，从而支持以下应用中的一个或多个应用：VR应用、AR应用、远程呈现(remote presence)应用、显示应用等等。

可以在很多种坐标系中的任一种坐标系中来呈现本申请中描述的视频图像，所述很多种坐标系例如是世界坐标系、对于摄像系统静止的坐标系、相对于空间环境固定的坐标系等等。视频图像(100)中的空间位置可以是绝对位置(例如，在世界坐标系等中呈现)或相对位置(例如，在相对于摄像系统静止的相对坐标系等中呈现)。

在一些实施例中，视频图像(100)中的空间位置(例如，像素等)可以由一组特定的(x，y)坐标值来表示。

3.区域横截面和感兴趣的场景

如本申请中所使用的那样，视频图像(100)中的区域横截面可以指空间面积部分或空间体积部分，并且可以通过视频图像(100)中的(例如连续的、不相交的)空间位置集形成。可以由以下各项中的一项或多项来表示视频图像(100)中的特定区域横截面：视频图像(100)上的面积部分、空间形状、空间区域等。

本申请中描述的场景可以指占据一个或多个视频图像的整个面积的特定区域横截面的一个或多个视频图像的特定图像部分。一个或多个视频图像可以包含占据一个或多个视频图像的整个面积的不同视频横截面的多个场景。每个场景可以基于针对该场景中的一个或多个视频图像的特定图像部分所确定的特定用户兴趣度而分类为高兴趣程度的场景(例如，110-2等)、低兴趣程度的场景(例如，110-1、110-3等)。

在一些实施例中，基于一个或多个区域横截面类型来对视频图像(100)的所有区域横截面(例如，102-1、102-2、102-3等)进行分类，所述所有区域横截面从视频图像(100)中表示的整个空间面积(体积)划分出。可以将视频图像(100)中的区域横截面中的图像部分编码为多个视频子流，所述多个视频子流具有取决于区域横截面类型的不同的时空分辨率。例如，可以使用相对较高的时空分辨率对特定区域横截面类型的区域横截面的图像部分进行编码，所述特定区域横截面类型指示区域横截面处于用户(或观看者)的视口中、处于用户(或观看者)的中央凹视觉中、处于用户(或观看者)的视口或中央凹视觉之外的高兴趣程度的场景中等。可以使用相对较低的时空分辨率对特定区域横截面类型的图像部分进行编码，所述区域横截面类型指示区域横截面未处于用户(或观看者)的视口中、未处于用户(或观看者)的中央凹视觉中、未处于用户(或观看者)的视口或中央凹视觉之外的高兴趣程度的场景中等。

作为示例而非限制，区域图像(100)的区域横截面(例如，102-1、102-2、102-3等)包括视频图像(100)的至少覆盖用户的(有信号的)视口(例如，图2A的108-1、108-2等)的一个或多个第一区域横截面(例如，102-1等)。

用户视口可以指在显示器上提供的用户视场，用户通过所述用户视场观看视频图像(100)的图像部分。可以通过面部追踪设备和/或眼睛追踪设备来追踪运行时的用户视口。一个或多个面部/眼睛追踪设备可以与视频图像(100)的图像部分被渲染在其上的显示器一起实时操作。随着用户不时地改变视角和/或观看距离，一个或多个面部/眼睛追踪设备追踪并计算呈现视频图像序列的坐标系中的视角和/或观看距离、生成视口的时间序列(或视场的时间序列)、并且将每个视口(例如，图2A的108-1、108-2等)以所述视口的时间序列用信号发送至视频流服务器，如本文所描述的那样。由视频流服务器接收到的用户的每个这种有信号的视口可以通过时间点值或与时间点值相对应的视口索引值来索引。可以通过本申请中描述的视频流服务器将时间点值与视频图像序列中的特定视频图像相关联或相关。

可以将覆盖用户视口(例如，图2A的108-1、108-2等)的一个或多个第一区域横截面(例如，102-1等)分类为用于分类区域横截面的可用区域横截面类型中的视口类型。

在一些实施例中，一个或多个第一区域横截面(例如，102-1等)可以进一步被分区成覆盖用户的中央凹视觉(foveal vision)的一个或多个第一区域横截面以及不覆盖用户的中央凹视觉的一个或多个其他第一区域横截面。另外地、任选地、或替代性地，可以将所述一个或多个第一区域横截面分类为用于分类区域横截面的可用区域横截面类型中的中央凹视觉类型。另外地、任选地、或替代性地，可以将所述一个或多个其他第一区域横截面分类为用于分类区域横截面的可用区域横截面类型中的非中央凹视觉类型。

除了用户视口中的区域横截面之外，视频图像(100)的区域横截面(例如，102-1、102-2、102-3等)还可包括视频图像(100)的不覆盖用户的视口(例如，图2A的108-1、108-2等)的一个或多个第二区域横截面(例如，102-2、102-3等)。可以将所述第二区域横截面(例如，102-2、102-3等)分类为用于分类区域横截面的可用区域横截面类型中的非视口类型。

在示例性实施例中，区域横截面类型可以用于与各种用户兴趣度的一个或多个场景相对应，或者用于指示所述各种用户兴趣度的一个或多个场景的存在。区域横截面(例如，102-2等)可以与高兴趣程度的场景(例如，110-2等)相对应，或者可以指示区域横截面部分与高兴趣程度的场景(例如，110-2等)至少部分地重叠。另一区域横截面(例如，102-3等)可以与低兴趣程度的场景(例如，110-3等)相对应，或者可以指示所述区域横截面被所述低兴趣程度的场景(例如，110-3等)完全占据。

在一些实施例中，一个或多个视频图像(例如，100等)中的区域横截面(例如，102-1、102-2、102-3等)的形状、尺寸、长宽比、空间位置等不是先验地静态固定的(不考虑一个或多个视频图像中的实际图像内容)，而是基于在一个或多个视频图像中检测到的场景、构成所述场景的图像细节的形状、尺寸、长宽比、空间位置等、用户视口、用户中央凹视觉(例如，通过在运行时、动态地对实际图像内容进行预处理等)来确定或计算。

例如，可以基于用户视口(例如，108-1等)、用户中央凹视觉、与用户视口(例如，108-1等)或中央凹视觉重叠的高兴趣程度的场景等来生成或识别视频图像(100)中的一个或多个第一区域横截面(例如，102-1等)。可以基于用户视口(例如，108-1等)、用户中央凹视觉、与用户视口(例如，108-1等)或中央凹视觉重叠的高兴趣程度的场景等的形状、尺寸、长宽比、空间位置等(例如，通过在运行时、动态地对实际图像内容进行预处理等)来确定或选择视频图像(100)中的一个或多个第一区域横截面(例如，102-1等)的形状、尺寸、长宽比、空间位置等。

然而，应当注意的是，一个或多个第一区域横截面(例如，102-1等)的形状、尺寸、长宽比、空间位置等不需要与用户视口(例如，108-1等)、用户中央凹视觉、与用户视口(例如，108-1等)或中央凹视觉重叠的高兴趣程度的场景(例如，110-1等)等的形状、尺寸、长宽比、空间位置等相同或者是用户视口(例如，108-1等)、用户中央凹视觉、与用户视口(例如，108-1等)或中央凹视觉重叠的高兴趣程度的场景(例如，110-1等)等的形状、尺寸、长宽比、空间位置等的精确描绘。

在一些实施例中，如果确定用户视口在空间上包括/覆盖完整的高兴趣程度的场景，则一个或多个第一区域横截面(例如，102-1等)可被生成为或被识别为由这样的区域横截面构成，所述区域横截面的空间形状与视口(例如108-1等)的空间形状相近似并且包围所述视口(例如108-1等)的空间形状。然而，如果确定高兴趣程度的场景在空间上包括/覆盖用户的完整视口，则一个或多个第一区域横截面(例如，102-1等)可被生成为或被识别为由与高兴趣程度的场景相近似并且包围所述高兴趣程度的场景的空间形状构成。另外，如果确定高兴趣程度的场景部分地但不完全地在空间上与用户的完整视口重叠，则一个或多个第一区域横截面(例如，102-1等)可被生成为或识别为由这样的区域横截面构成，所述区域横截面的空间形状与所述高兴趣程度的场景和用户的完整视口的(空间)结合相近似并且包围所述(空间)结合。

可以将用户视口或用户中央凹视觉中的图像部分(例如，视频图像(100)的一个或多个第一区域横截面中的一些或全部)以高时空分辨率编码为单个视频子流并提供给下游接收设备。因此，当用户在高兴趣程度的场景内移动视角时，由一个或多个第一区域横截面(例如，102-1等)中的一个或多个图像部分编码的单个视频子流足以提供高兴趣程度的场景的无缝观看体验。

在一些实施例中，可以基于视频图像(100)中的不在用户视口中的场景(例如，110-2、110-3等)来生成或识别第二区域横截面(例如，102-2、102-3等)。可以基于视频图像(100)中的不在用户视口中的场景(例如，110-2、110-3等)的形状、尺寸、长宽比、空间位置等(例如，通过在运行时、动态地对实际图像内容进行预处理等)来确定或选择视频图像(100)中的第二区域横截面(例如，102-2、102-3等)的形状、尺寸、长宽比、空间位置等。

然而，应当注意的是，第二区域横截面(例如，102-2、102-3等)的形状、尺寸、长宽比、空间位置等不需要与视频图像(100)中的不在用户视口中的场景(例如，110-2、110-3等)的形状、尺寸、长宽比、空间位置等相同或是视频图像(100)中的不在用户视口中的场景(例如，110-2、110-3等)的形状、尺寸、长宽比、空间位置等的精确描绘。

4.从视频图像检测场景

在对一个或多个视频图像(例如，100等)中的区域横截面的图像部分进行编码之前和/或之时，可以为一个或多个视频图像确定视频图像(100)中的各种用户兴趣度的场景，例如，高兴趣程度的场景(例如，110-2等)、低兴趣程度的场景(例如，110-2、110-3等)等。

在一些实施例中，可以至少部分地基于来自视频专业人员(例如，导演、调色师、视频工程师、内容创作艺术家等)的用户输入来生成或识别一个或多个视频图像(例如，100等)中的各种用户兴趣度的场景。视频专业人员可以识别/辨别一个或多个视频图像中的场景，并且将这些场景分类为高兴趣程度的场景(例如，110-2)、低兴趣程度的场景(例如，110-1、110-3等)等。例如，视频专业人员可以提供指定高兴趣程度的场景(例如，110-2等)的用户输入，所述高兴趣程度的场景集中于一个或多个视频图像(例如，100等)中描绘的特定人。视频专业人员还可以提供指定高兴趣程度的场景(例如，110-2等)的用户输入，其中所述高兴趣程度的场景集中于一个或多个视频图像(例如，100等)中描绘的特定对象(例如，舞台、足球等)。视频专业人员可以在预览一个或多个视频图像(例如，100等)的同时或者在监视从音乐会、游戏、演讲等现场生成的一个或多个视频图像(例如，100等)的同时提供用户输入。

在一些实施例中，可以至少部分地基于对一个或多个视频图像(例如，100等)进行的图像内容分析来生成或识别所述一个或多个视频图像(例如，100等)中的各种用户兴趣度的场景。在一些实施例中，可以对视频图像(例如，100等)的整个面积中的一部分或全部(如分布在等矩柱状(equirectangular)图像表示的360度乘以180度角度上的)进行分析、评估等，以确定或识别视频图像(100)中的高兴趣程度的场景(例如，110-2等)、低兴趣程度的场景(例如，110-1、110-3等)等。可以使用以下各项中的一项或多项来执行本申请中描述的图像内容分析：分析规则、图像分析工具、一种或多种计算机视觉技术(例如，哈尔(Haar)滤波器、小波分解、基于傅立叶空间的空间分辨率追踪等)的任何组合。

例如，可以基于分析规则、图像分析工具、一种或多种计算机视觉技术(例如，哈尔滤波器、小波分解、基于傅立叶空间的空间分辨率追踪等)的任何组合中的一项或多项，利用各种用户兴趣度来识别/辨别并评估一个或多个视频图像(例如，100等)中的视觉对象、视觉元素等，例如某一活动中的舞台、足球赛中的足球、电影中的主角、突出的视觉特征等。另外地、任选地、或替代性地，可以基于在同一图像中存在的其他视觉对象、视觉元素等语义地找到一个或多个视频图像(例如，100等)中的视觉对象、视觉元素等。例如，在同一图像中发现了足球之后，可以语义地找到运动员。

可以使用在一个或多个视频图像(例如，100等)中确定的视觉对象、视觉元素等来生成或识别一个或多个视频图像(例如，100等)中的场景。包括在活动的视频图像中的舞台、足球赛的视频图像中的足球等的场景可以利用最高用户兴趣度来评估，并且因此被确定为高兴趣程度的场景(例如，110-2等)。不包括舞台或足球的场景可以利用相对较低的用户兴趣度来评估，并且因此被确定为低兴趣程度的场景(例如，110-1、110-3等)。

在一些实施例中，可以至少部分地基于用户群体中的用户正在观看一个或多个视频图像时收集到的用户观看行为数据来生成或识别所述一个或多个视频图像(例如，100等)中的各种用户兴趣度的场景。例如，可以基于用户观看行为数据来生成热度图，所述热度图指示输入视频图像的哪些特定视角、面积部分等分别是极高用户兴趣度、中等高用户兴趣度、低用户兴趣度、极低用户兴趣度的等。可以使用热度图来识别/确定一个或多个视频图像中的场景并评估/确定场景的相应的用户兴趣度。

在一些实施例中，可以基于用户反馈回路来更新热度图(例如，动态地，直至某一时间点等)。最初，可能基于热度图不能确定各种用户兴趣度的场景。因此，通过基于热度图的初始版本流式传输的视频数据来观看一个或多个视频图像的用户，例如在热度图仅用于识别各种用户兴趣度的场景的操作情境下，可能暴露于视觉伪像、生理不适等。当用户群体中的用户正在观看一个或多个视频图像时，可以通过用户的设备来收集用户观看行为数据。另外地、任选地、或替代性地，可以实施机器学习来分析所收集的用户观看行为数据。用户观看行为数据可以提供与一个或多个视频图像的不同面积部分相关的用户视角的空间分布(或统计分布)、用户以任何给定视角观看的持续时间等。可以使用用户视角的空间分布、用户以任何给定视角观看的持续时间等来识别一个或多个视频图像中的各种兴趣度的场景。当越来越多的用户观看行为数据被收集到并且被并入热度图时，可以相对准确地检测各种兴趣度的场景。

在一些实施例中，可以将视频元数据与视频图像(100)一起提供给下游模块/设备(例如，视频流服务器或其中的模块等)以用于进一步处理，所述视频元数据(例如，在坐标、位置、边界等方面)指定视频图像(100)中的以下各项中的一些或全部：各种用户兴趣度的场景、由各种用户兴趣度的场景产生的区域横截面、与所述场景和/或区域横截面相关的几何信息等。在一些实施例中，可以根据新的用户输入、新的用户观看数据、图像内容分析的新迭代等中的一个或多个来不时地、连续地、定期地、以编程方式地更新视频元数据，而不需要手动输入等。

5.示例性场景、区域横截面和视频子流

图2A示出了一个或多个视频图像的示例区域横截面，用户正在在视频相关应用(例如，VR应用、AR应用、远程呈现应用、显示应用等)中在逻辑表示的空间位置202处观看所述视频图像。位于逻辑表示的空间位置(202)处的用户可以被视为在逻辑上存在于由一个或多个视频图像形成的球体(或球面)中。用户的逻辑表示的空间位置(202)可以但不限于仅位于球体的中心位置。在任何给定时间，用户可以通过视口108-2来观看一个或多个视频图像中的每个视频图像的图像部分，所述视口108-2例如由作为视频流客户端的一部分或者与所述视频流客户端配合操作的HMD、移动设备、显示设备等提供。

视频流服务器可以通过用户输入、图像内容分析、用户反馈回路、机器学习等的任何组合来确定一个或多个视频图像包括高兴趣程度的第一场景(110-4)、高兴趣程度的第二场景(110-5)、低兴趣程度的第一场景(110-6)、和低兴趣程度的第二场景(110-7)。在一些实施例中，从一个或多个视频图像中检测到的所有场景(例如，110-4、110-5、110-6、110-7等)覆盖一个或多个视频图像的图像表示(例如，矩形图像帧、3D空间中的球体或球面等)中的整个面积。可以至少部分地基于从一个或多个视频图像中检测到的场景来从一个或多个视频图像生成或识别区域横截面102-4、102-5、102-6和102-7。在一些实施例中，如图2A中所示，从一个或多个视频图像生成或识别的区域横截面102-4、102-5、102-6和102-7中的每一个(例如，一对一地)对应于从一个或多个视频图像中检测到的场景(例如，110-4、110-5、110-6、110-7等)中的一个相应的场景。

在一些实施例中，高兴趣程度的第一场景(110-4)的尺寸可以小于用户视口(108-2)的尺寸，并且可以被所述用户视口完全包围。在一些实施例中，高兴趣程度的第二场景(110-5)的尺寸可以大于用户视口(108-2)的尺寸，并且可以没有被所述用户视口完全包围，即使用户视口(108-2)已经被移至朝向感兴趣的第二场景(110-5)的视角。

基于用户追踪数据(例如，经由图3A、图3B或图3C的双向数据流314等从视频流客户端接收到的用户追踪数据)，视频流服务器可以接收、确定、或以其他方式计算用户视场(例如，图1的108-2、108-1等)随着时间推移与一个或多个视频图像相关的视角、尺寸、长宽比等。

在一些实施例中，可以将与在用户视口(108-2)中的高兴趣程度的第一场景(110-4)相对应的区域横截面(102-4)中的(或用于该区域横截面(102-4)的)图像部分编码为具有第一时空分辨率的第一视频子流，所述第一时空分辨率例如是为了为用户渲染视频内容而从视频流服务区传送到视频流客户端的整体视频流中的所有视频子流中的最高时空分辨率。

在一些实施例中，可以将与不在用户视口(108-2)中的高兴趣程度的第二场景(110-5)相对应的区域横截面(102-5)中的(或用于区域横截面(102-5)的)图像部分编码为具有第二时空分辨率的第二视频子流。第二时空分辨率可以在相对较低的时空分辨率(例如，1/4、1/2等)和最高时空分辨率之间变化。另外地、任选地、或替代性地，可以对第二视频子流执行比第一视频子流更进一步的压缩、相对更大程度的压缩、具有相对大的误差的预测等，以将第二视频子流压缩为符合分配给第二视频子流的码率(bitrate)预算。

由于将在一个或多个视频图像中的这些高兴趣程度的场景(110-4和110-5)中的每一个编码成单个流，所以当用户在高兴趣程度的场景内移动视口时，相对于用户视口或用户中央凹视觉的额外的高分辨率周边视频数据已经从视频流服务器连续地传输至视频流客户端，由此防止可能由分辨率的骤降(或不连续)以及从低分辨率到高分辨率的缓慢过渡而产生的视觉伪像、生理不适等。

在一些实施例中，可以将与低兴趣程度的第一场景和第二场景(110-6和110-7)相对应的区域横截面(102-6和102-7)中的(或用于区域横截面(102-6和102-7)的)图像部分编码为具有第三时空分辨率的第三视频子流。所述第三时空分辨率可以低于所述第二时空分辨率。在一些实施例中，仅锚帧(例如，I帧等)以比第一和第二视频子流的图像刷新率都低的图像刷新率在第三视频子流中发送；其他非锚帧(例如，B帧、P帧等)可以不在包括第三视频子流的整体视频流中发送。当用户视口移至低兴趣程度的第一场景和第二场景(110-6和110-7)中时，锚帧(例如，I帧等)和非锚帧(例如，B帧、P帧等)两者都可以在第三视频子流中被发送到视频流客户端，可以将所述第三视频子流改变为具有比用户视口离开低兴趣程度的第一场景和第二场景(110-6和110-7)时更高的码率。对于在最后一个锚帧之后在同一图像组中的任何丢失的帧，可以执行错误隐藏操作，例如重复I帧、延迟视口改变直到下一GOP为止等。

另外地、任选地、或替代性地，可以对所述第三视频子流执行比所述第一视频子流和第二视频子流更进一步的压缩、更大程度的压缩、具有相对大的误差的语塞等等，例如以将所述第三视频子流压缩为符合分配给所述第三视频子流的码率预算。

图2B示出了一个或多个视频图像的附加的示例性区域横截面，用户正在在视频相关应用(例如，VR应用、AR应用、远程呈现应用、显示应用等)中在逻辑表示的空间位置(202)观看这些视频图像。

可以至少部分地基于从一个或多个视频图像中检测到的场景来从一个或多个视频图像生成或识别区域横截面102-4、102-7、102-8、102-9、102-10和102-11。在一些实施例中，如图2B中所示，从一个或多个视频图像(例如，一对一地)生成或识别的区域横截面102-4、102-5和102-6中的每一个不一定与从一个或多个视频图像中检测到的场景(例如，110-4、110-5、110-6、110-7等)中的场景具有一一对应关系。

例如，与图2A相比，在图2B中，低兴趣程度的第一场景(110-6)包括位于视口(108-2)中的第一场景部分以及位于视口(108-2)之外的第二场景部分。在一些实施例中，可以使用低兴趣程度的第一场景(110-6)来创建两个区域横截面102-8和102-9，所述两个区域横截面中的一个与视口(108-2)重叠，并且所述两个区域横截面中的另一个与视口(108-2)不重叠。这些区域横截面(102-8和102-9)可以或可以不与低兴趣程度的第一场景(110-6)中的第一和第二场景部分在空间上同延(coextensive)。

例如，与图2A相比，在图2B中，低兴趣程度的第二场景(110-7)包括位于视口(108-2)中的第三场景部分以及位于视口(108-2)之外的第四场景部分。在一些实施例中，可以使用低兴趣程度的第二场景(110-7)来创建两个区域横截面102-10和102-11，所述两个区域横截面中的一个与视口(108-2)重叠，并且所述两个区域横截面中的另一个与视口(108-2)不重叠。这些区域横截面(102-10和102-11)可以或可以不与低兴趣程度的第二场景(110-7)中的第三和第四场景部分在空间上同延。

在一些实施例中，如图2A中那样，可以将与用户视口(108-2)中的高兴趣程度的第一场景(110-4)相对应的区域横截面(102-4)中的(或用于该区域横截面(102-4)的)图像部分编码为具有第一时空分辨率的第一视频子流。

在一些实施例中，如图2A中那样，可以将与不在用户视口(108-2)中的高兴趣程度的第二场景(110-5)相对应的区域横截面(102-5)中的(或用于该区域横截面(102-5)的)图像部分编码为具有第二时空分辨率的第二视频子流。

在一些实施例中，可以将与低兴趣程度的第一和第二场景(110-6和110-7)的视口内场景部分相对应的区域横截面(102-9和102-10)中的(或用于该区域横截面(102-9和102-10)的)图像部分编码为具有第四时空分辨率的第四视频子流。所述第四时空分辨率可以低于所述第二时空分辨率。在一些实施例中，仅I帧以比第一和第二视频子流的图像刷新率都低的图像刷新率在第四视频子流中发送。另外地、任选地、或替代性地，可以对所述第四视频子流执行比所述第一和第二视频子流更进一步的压缩、更大程度的压缩、具有相对大的误差的预测等，以例如将所述第四视频子流压缩为符合分配给所述第四视频子流的码率预算。

在一些实施例中，可以将与低兴趣程度的第一和第二场景(110-6和110-7)的视口外场景部分相对应的区域横截面(102-8和102-11)中的(或用于该区域横截面(102-8和102-11)的)图像部分编码为具有第五时空分辨率的第五视频子流。所述第五时空分辨率可以低于所述第四时空分辨率。在一些实施例中，仅I帧以比第一、第二和第四视频子流的图像刷新率都低的图像刷新率在第四视频子流中发送。另外地、任选地、或替代性地，可以对所述第五视频子流执行与所述第一、第二和第四视频子流相比最强的压缩、最大程度的压缩、具有最大的低于阈值的误差的预测等，以例如将所述第五视频子流压缩为符合分配给所述第五视频子流的码率预算。

图2C示出了一个或多个视频图像的进一步的示例性区域横截面，用户正在在视频相关应用(例如，VR应用、AR应用、远程呈现应用、显示应用等)中在逻辑表示的空间位置(202)处观看这些视频图像。

可以至少部分地基于从一个或多个视频图像中检测到的场景来从一个或多个视频图像生成或识别区域横截面102-5、102-6、102-7、102-12和102-13。在一些实施例中，如图2B中所示，从一个或多个视频图像(例如，一对一地)生成或识别的区域横截面102-4、102-5和102-6中的每一个不一定与从一个或多个视频图像中检测到的场景(例如，110-4、110-5、110-6、110-7等)中的场景具有一一对应关系。

例如，与图2A相比，在图2C中，高兴趣程度的第一场景(110-4)包括位于视口(108-2)中的用户中央凹视觉(未示出)中的第一场景部分以及位于视口(108-2)中的用户中央凹视觉之外的第二场景部分。在一些实施例中，可以使用高兴趣程度的第一场景(110-4)来创建两个区域横截面102-12和102-13，所述两个区域横截面中的一个与视口(108-2)中的用户中央凹视觉重叠，并且所述两个区域横截面中的另一个与视口(108-2)中的用户中央凹视觉不重叠。区域横截面(102-12)可以或可以不与视口(108-2)中的用户中央凹视觉在空间上同延。

在一些实施例中，如图2A中那样，可以将与用户视口(108-2)中的用户中央凹视觉之外的高兴趣程度的第一场景(110-4)相对应的区域横截面(102-13)中的(或用于该区域横截面(102-13)的)图像部分编码为具有第一时空分辨率的第一视频子流。

在一些实施例中，如图2A中那样，可以将与低兴趣程度的第一和第二场景(110-6和110-7)相对应的区域横截面(102-6和102-7)中的(或用于该区域横截面(102-6和102-7)的)图像部分编码为具有第三时空分辨率的第三视频子流。

在一些实施例中，可以将包围用户视口(108-2)中的用户中央凹视觉的区域横截面(102-12)中的(或用于该区域横截面(102-12)的)图像部分编码为具有第六时空分辨率的第六视频子流。所述第六时空分辨率可以高于所述第一时空分辨率。在一些实施例中，第六视频子流中的视频帧以比第一视频子流的图像刷新率高的图像刷新率(例如，每秒120帧或更高、每秒60帧或更高等)来发送。另外地、任选地、或替代性地，与所述第一视频子流相比，可以对所述第六视频子流执行更少的压缩或不执行压缩、执行更低程度的压缩、相对更小误差的预测等等，以压缩第六视频子流，以例如产生与利用其它视频子流产生的影像相比最高质量的影像。

在一些实施例中，当用户视口处于一个或多个球面图像的未识别出高兴趣程度的场景的静态部分中时，则可以由具有视口的尺寸或更大的尺寸的区域横截面创建单个视频子流；在该单个视频子流中传输该区域横截面的图像部分。

在一些实施例中，可以创建比视口的尺寸要小的区域横截面。这可以用在视口中或场景中的图像部分的绝大部分是静态的操作情境下。对无改变或仅有非常小的改变的静态图像部分进行编码可能是不高效的。在本申请中描述的技术下，可以为可能比视口或场景小的动态图像部分指定区域横截面。可以以相对较高的时空分辨率(例如，相对较高的空间分辨率、相对较高的时间分辨率，以相对较高的刷新率、包含相对较高的空间频率内容等)将该区域横截面中的动态图像部分编码在视频子流中。另外地、任选地、或替代性地，不存在于视频子流中的图像内容的绝大部分从视频缓冲器中刷新或偶尔作为独立视频子流发送。

图2D示出了针对一个或多个视频图像的图像部分的示例视口(例如，108-2)(例如，其可以是用户在图2A至图2C的逻辑空间位置(202)处的视场等)。如所示的那样，视口(108-2)可以完全地包围高兴趣程度的场景(例如，110-4等)。视口(108-2)可以与在高兴趣程度的场景(110-4)之外的一个或多个低兴趣程度的场景重叠。在一些实施例中，可以将在视口(108-2)中的高兴趣程度的场景(110-4)中的图像部分编码在具有相对较高的时空分辨率的视频子流中，而可以将与视口(108-2)重叠的低兴趣程度的场景中的图像部分编码在具有相对较低的时空分辨率的一个或多个视频子流中。在非限制性的示例性实施例中，与视口(108-2)重叠的低兴趣程度的场景中的图像部分可以包括拍摄舞台上的一些表演者的观众的动态部分、以及拍摄缓慢变化或不变化的背景场景的静态部分。在一些实施例中，可以将与视口(108-2)重叠(或甚至未重叠)的低兴趣程度的场景中的动态部分和静态部分编码在具有不同时空分辨率的单独的视频子流中。例如，对动态部分的图像部分进行编码可以使用较高差分时空分辨率(differential spatiotemporal resolution)，而对静态部分的图像部分进行编码可以使用较低差分时空分辨率。另外地、任选地、或替代性地，对动态部分的图像部分进行编码可以使用较高刷新率，而对静态部分的图像部分进行编码可以使用较低刷新率。

图2E示出了一个或多个视频图像的示例性场景(110-8)，用户正在在视频相关应用(例如，VR应用、AR应用、远程呈现应用、显示应用等)中在视口(例如，图1的108-1、图2A至图2D的102-2等)中观看所述视频图像。

场景(110-8)可以包括包围用于中央凹视觉的场景部分204和不与所述用户中央凹视觉重叠的剩余场景部分206。在一些实施例中，整个场景(110-8)可以被包括在两个或更多个区域横截面中，所述两个或更多个区域横截面的图像部分被以在不同的时空分辨率编码在多个视频子流中。例如，场景部分(204)(其可以不小于用户中央凹视觉)可以被包括在这样的区域横截面中，该区域横截面的图像部分被以较高的时空分辨率编码在视频子流中，而场景部分(206)(其在用户中央凹视觉之外)可以被包括不同的区域横截面中，所述不同的区域横截面的图像部分被以较低的时空分辨率编码在不同的视频子流中。

在一些实施例中，整个场景(110-8)可以被包括在区域横截面中，该区域横截面的图像部分被以相同的时空分辨率编码在视频子流。

另外地，任选地或替代地，具有可变空间分辨率的(例如，低强度等)模糊滤波器可以应用于整个场景(110-8)的图像部分，以从整个场景(110-8)的位于用户中央凹视觉之外的图像部分的多个部分中抽取(decimate)高空间频率内容。模糊滤波器可以在包围用户中央凹视觉的场景部分(204)中不执行模糊处理或执行很少的模糊处理。模糊滤波器可以在场景部分(206)中执行更强的模糊处理；例如，在场景部分(206)中在场景部分(206)中的任何给定空间位置的模糊处理的强度可以至少部分地基于该空间位置与用户中央凹视觉中心的空间距离。

由于对场景(110-8)应用模糊过滤，所以可以在一个或多个视频子流中显著地减少要承载的视频数据量，同时维持或确保用户中央凹视觉内的视觉清晰度。

6.示例性视频流服务器和客户端

图3A示出了示例性视频流服务器300，所述服务器包括图像处理器302、多分辨率图像生成器312等。在一些实施例中，图像处理器(302)包括图像接收器306、区域横截面分类器308、数据储存库310等。视频流服务器(300)的部件中的一些或全部可以由一个或多个设备、模块、单元等以软件、硬件、软件和硬件的组合等的方式实施。

在一些实施例中，图像接收器(306)包括被配置用于进行以下操作的软件、硬件、软件和硬件的组合等：从图像源接收输入图像流304，所述图像源例如是基于云的图像源、与VR应用、AR应用、远程呈现应用、显示应用等相关的摄像系统；将输入图像流(304)解码成一个或多个输入视频图像(例如，输入视频图像序列等)；等。

在一些实施例中，区域横截面分类器(308)包括被配置用于将输入视频图像中的(例如，全部、基本上全部、全部但不包括标题文本框，等)区域横截面分类成不同的类型的软件、硬件、软件和硬件的组合等。将输入视频图像分类成不同类型的区域横截面可以是但不仅限于：基于图像、基于图片组(GOP)、基于场景、基于多个场景等。

在一些实施例中，可以基于与输入图像流(304)一起接收并且从所述输入图像流解码的图像元数据中的视频元数据来对不同类型的区域横截面进行分类。

另外地、任选地、或替代性地，在一些实施例中，可以基于由区域横截面分类器(308)生成的视频元数据来对不同类型的区域横截面进行分类。

基于视频元数据，区域横截面分类器(308)可以确定应当将输入图像流(304)中的一个、一些或所有区域横截面分类为哪一种特定类型或哪些种特定类型。

在一些实施例中，可以由视频流服务器(300)和/或上游系统使用来自视频专业人员(例如，导演、调色师、视频工程师等)的用户输入来生成本申请中描述的视频元数据。在一些实施例中，所述上游系统可以是上游视频流服务器，所述上游视频流服务器生成具有(例如，均匀的)较高空间分辨率的输入图像流(304)并且/或者通过一个或多个高带宽网络连接将所述输入图像流(304)传输至视频流服务器(300)。

在一些实施例中，可以由视频流服务器(300)和/或上游系统通过对输入图像流(304)执行图像内容分析来生成本申请中描述的视频元数据。可以使用以下各项中的一项或多项来执行这种图像内容分析：分析规则、图像分析工具、一种或多种计算机视觉技术(例如，哈尔(Haar)滤波器、小波分解、基于傅立叶空间的空间分辨率追踪等)的任何组合。

在一些实施例中，可以基于在用户群体中的用户正在观看一个或多个视频图像时在用户反馈回路中收集的用户观看行为数据，由视频流服务器(300)和/或上游系统生成本申请中描述的视频元数据。可以应用机器学习来分析在用户反馈回路中收集的用户观看行为数据。例如，可以基于用户观看行为数据来生成热度图，所述热度图指示输入视频图像的哪些特定视角、区域横截面等分别是极高用户兴趣度、中等用户兴趣度、低用户兴趣度、极低用户兴趣度等。所述热度图可以包括在视频元数据中或者可以用于生成所述视频元数据。另外地、任选地、或替代性地，在一些实施例中，从对一些视频节目执行的用户输入、图像内容分析、用户反馈回路、机器学习等的任何组合中获得的诸如热度图等的信息可以前瞻性地应用于其他视频节目。

在一些实施例中，数据储存库(310)表示一个或多个数据库、一个或多个数据存储单元/模块/设备等，其被配置用于支持对输入视频图像、图像元数据(例如，视频元数据等)等中的一些或全部进行的操作(例如，存储、更新、检索、删除等)。

在一些实施例中，多分辨率图像生成器(308)包括被配置用于进行以下操作的软件、硬件、软件和硬件的组合等：经由双向数据流314接收用户视场随着时间推移相对于空间坐标系的视角、尺寸、长宽比等，在所述空间坐标系中，在用户视场输入视频图像中渲染视频内容；生成整体视频流，所述整体视频流包括以不同空间分辨率和/或不同帧率编码的用于不同类型的区域横截面的不同视频子流；直接地、或间接地通过中间设备等经由双向数据流314来将整体视频流提供/传输到视频流客户端、显示设备、存储设备等。

另外地、任选地、或替代性地，可以由视频流服务器(300)执行图像处理操作中的一些或全部，所述图像处理操作例如是图像旋转确定、图像对齐(alignment)分析、场景切换检测(scene cut detection)、坐标系之间的变化、时间抑制(temporal dampening)、显示管理、内容映射、颜色映射、视场管理等。

视频流服务器(300)可以用于支持实时视觉应用、近实时视觉应用、非实时视觉应用、虚拟现实、增强现实、头盔式显示应用、抬头显示应用、游戏、2D显示应用、3D显示应用、多视图(multi-view)显示应用等。例如，可以由视频流服务器(300)实时地或近实时地等生成或评估视频图像、图像元数据、视口参数(例如，视口中心坐标、长宽比等)、每个视口(per-viewport)的图像元数据、视口图像数据等中的一些或全部。

图3B示出了示例性图像渲染系统324-1，所述示例性图像渲染系统包括多分辨率图像接收器316、显示管理器318、图像显示器320等。图像渲染系统(324-1)的部件中的一些或全部可以由一个或多个设备、模块、单元等以软件、硬件、软件和硬件的组合等方式实施。

在一些实施例中，多分辨率图像接收器(316)包括被配置用于进行以下操作的软件、硬件、软件和硬件的组合等：经由双向数据流314发送用户视场随着时间推移相对于空间坐标系的视角、尺寸、长宽比等，在所述空间坐标系中，在用户视场输入视频图像中渲染视频内容；接收整体视频流，所述整体视频流包括以不同空间分辨率和/或不同帧率编码的用于不同类型的区域横截面的不同视频子流；等。

用户可以在运行时将用户视口移向不同视场。图像渲染系统(324-1)被配置用于生成要在用户显示器上渲染的视频内容。在一些实施例中，可以将来自所接收的视频流中的一个或多个视频子流的视频数据拼接或合成在一起以形成统一(unified)影像。去块效应(de-blocking)操作、去轮廓(de-contouring)操作、模糊操作等可以作为合成要在用户的显示器上渲染的视频内容的一部分来执行。

在一些实施例中，显示管理器(318)包括被配置用于进行以下操作的软件、硬件、软件和硬件的组合等：对要在图像显示器(320)上渲染的视频内容执行显示管理操作，其中，所述视频内容由图像渲染系统(324-1)接收的整体视频流中的视频子流来解码和合成；将经过显示管理的视频内容输出到图像显示器(320)以用于渲染；等。

另外地、任选地、或替代性地，可以通过图像渲染系统(324-1)来执行以下操作中的一些或全部：图像渲染操作例如面部检测、头部追踪、运动检测、位置检测、旋转确定、坐标系之间的变化、随时间变化的图像参数的时间抑制、对图像参数的任何其他时间操纵(temporal manipulation)、显示管理、内容映射、色调映射、颜色映射、视场管理、预测、通过鼠标、轨迹球、键盘、脚追踪器、实际身体运动进行的导航等等。

图像渲染系统(324-1)可以用于支持实时视觉应用、近实时视觉应用、非实时视觉应用、虚拟现实、增强现实、头盔式显示应用、抬头显示应用、游戏、2D显示应用、3D显示应用、多视图显示应用等。例如，可以由图像渲染系统(324-1)实时地或近实时地等方式生成或评估视频图像、图像元数据、视口参数(例如，视口中心坐标、长宽比等)、每个视口图像元数据、视口图像数据等中的一些或全部。

本申请中所描述的技术可以在各种系统架构中实施。本申请中描述的一些或全部图像处理操作可以通过基于云的视频流服务器、与视频流客户端合作或并入视频流客户端中的视频流服务器、图像渲染系统、图像渲染系统、显示设备等中的一个或多个来实施。基于一个或多个因素(例如接收设备的视觉应用类型、带宽/码率预算、计算能力、资源、负载等；视频流服务器和/或计算机网络等的计算能力、资源、负载等)，一些图像处理操作可以由视频流服务器执行，而一些其他图像处理操作可以由视频流客户端、图像渲染系统、显示设备等执行。

图3C示出了示例性配置，在该示例性配置中，多分辨率图像生成器(例如，312等)被并入边缘视频流服务器324-2中。在一些实施例中，图3C的图像处理器302可以是基于云的。在一些实施例中，图像处理器(302)可以位于与诸如边缘视频流服务器(324-2)等的边缘设备分开的核心网络中。如图3A中那样，图像处理器(302)可以包括图像接收器306、区域横截面分类器308、数据储存库310等。图像处理器(302)可以表示上游视频流服务器，所述上游视频流服务器以相对较高的码率与边缘视频流服务器(324-2)通信。图像处理器(302)和/或边缘视频流服务器(324-2)的部件中的一些或全部可以由一个或多个设备、模块、单元等以软件、硬件、软件和硬件的组合等方式实施。

在一些实施例中，图像处理器(302)被配置用于将数据流322中的输出视频图像和视频元数据输出到下游设备，其中所述下游设备中的一个可以是边缘视频流服务器(324-2)。

在一些实施例中，边缘视频流服务器(324-2)或其中的多分辨率图像生成器(312)包括被配置用于进行以下操作的软件、硬件、软件和硬件的组合等：确定用户视场随着时间推移相对于空间坐标系的视角、尺寸、长宽比等，在所述空间坐标系中，在用户视场输入视频图像中渲染视频内容；生成整体视频流，所述整体视频流包括以不同空间分辨率和/或不同帧率编码的用于不同类型的区域横截面的不同视频子流；直接地、或间接地通过中间设备等经由双向数据流314来将整体视频流提供/传输到视频流客户端、显示设备、存储设备等。

在一些实施例中，图像渲染设备(例如，324-1)或其中的显示管理器(例如，图3B的318)包括被配置用于进行以下操作的软件、硬件、软件和硬件的组合等：对要在图像显示器(320)上渲染的视频内容执行显示管理操作，其中，所述视频内容由图像渲染系统(324-1)所接收的整体视频流中的视频子流来解码和合成；将经过显示管理的视频内容输出到图像显示器(320)以用于渲染；等。

用户可以在运行时将用户视口移向不同视场。图像渲染系统(324-2)被配置用于生成要在用户显示器上渲染的视频内容。在一些实施例中，可以将来自所接收的视频流中的一个或多个视频子流的视频数据拼接或合成在一起以形成统一影像。去块效应操作、去轮廓操作、模糊操作等可以作为合成要在用户的显示器上渲染的视频内容的一部分来执行。

7.示例性处理流程

图4A示出了根据本发明的一个示例性实施例的示例性处理流程。在一些示例性实施例中，一个或多个计算设备或部件可以执行这个处理流程。在框402中，图像处理器(例如，图3A至图3C的视频流服务器或视频流客户端等)基于一个或多个视频图像的图像内容来识别所述一个或多个视频图像中的多个场景。

在框404中，图像处理器基于所述一个或多个视频图像中的所述多个场景来确定所述一个或多个视频图像的多个区域横截面。

在框406中，图像处理器将所述一个或多个视频图像的位于所述多个区域横截面中的多个图像部分编码为具有两种或更多种不同的时空分辨率的两个或更多个视频子流。

在框408中，所述图像处理器将包括所述两个或更多个视频子流的整体视频流传输至流客户端设备。

在一个实施例中，所述多个区域横截面包括位于观看者视口中的第一区域横截面；所述多个区域横截面包括不在观看者视口中的第二区域横截面。

在一个实施例中，所述第一区域横截面不包括所述多个场景中的任何高兴趣程度的场景；所述第二区域横截面与所述多个场景中的至少一个高兴趣程度的场景重叠；所述第一区域横截面中的图像数据以第一时空分辨率来编码，所述第一时空分辨率低于编码第二区域横截面中的图像数据所使用的第二时空分辨率。

在一个实施例中，所述多个区域横截面中不存在相互重叠的两个区域横截面。

在一个实施例中，所述多个区域横截面中的至少两个区域横截面相互重叠。

在一个实施例中，所述多个区域横截面中的至少两个区域横截面具有不同的空间形状、不同的尺寸、不同的长宽比等。

在一个实施例中，部分地基于与所述一个或多个视频图像一起接收到的图像元数据来识别所述多个区域横截面中的至少一个区域横截面。

在一个实施例中，部分地基于对所述一个或多个视频图像执行图像内容分析来识别所述多个区域横截面中的至少一个区域横截面。

在一个实施例中，部分地基于在用户群体中的用户正在观看一个或多个视频图像时收集的用户观看行为数据来识别所述多个区域横截面中的至少一个区域横截面。

在一个实施例中，所述图像处理器进一步被配置用于对包围观看者的中央凹视觉的场景中的图像数据应用模糊滤波。

在一个实施例中，所述多个场景包括由观看者视口包围的高兴趣程度的场景。

在一个实施例中，观看者视口不包括从所述一个或多个视频图像中检测到的所述多个场景中的高兴趣程度的场景。

在一个实施例中，所述两个或更多个视频子流中的至少一个视频子流仅包括锚帧(anchor frame)。

在一个实施例中，所述两个或更多个视频子流中的至少一个视频子流包括锚帧和非锚帧两者。

在一个实施例中，所述图像处理器进一步被配置用于执行：生成视频元数据，所述视频元数据识别以下各项中的一项或多项：所述多个场景中的场景，或所述多个区域横截面中的区域横截面；将包括所述两个或更多个视频子流的所述整体视频流中的所述视频元数据传输至所述流客户端设备；等。

图4B示出了根据本发明示例性实施例的一个示例性处理流程。在一些示例性实施例中，一个或多个计算设备或部件可以执行这个处理流程。在框452中，图像处理器(例如，图3A至图3C的视频流客户端等)从流服务器接收整体视频流，所述整体视频流包括具有两种或更多种不同的时空分辨率的两个或更多个视频子流。

在框454中，图像处理器将所述两个或更多个视频子流解码成一个或多个视频图像的一个或多个图像部分。所述一个或多个图像部分位于多个区域横截面中的一个或多个区域横截面中。至少部分地基于多个场景来确定所述多个区域横截面。基于所述一个或多个视频图像的图像内容来检测所述多个场景。

在框456中，所述图像处理器基于所述一个或多个视频图像的所述一个或多个图像部分来生成视频内容。

在框458中，所述图像处理器使视频内容被渲染在显示器中。

在一个实施例中，图像处理器进一步被配置用于向流服务器发送视口信息。所述视口信息用于推导出与所述一个或多个视频图像相关的观看者视口。

在一个实施例中，所述视口信息进一步用于推导出与所述一个或多个视频图像相关的观看者中央凹视觉。

在一个实施例中，图像处理器进一步被配置用于对来自整体视频流的视频元数据进行解码。所述视频元数据识别以下各项中的一项或多项：所述多个场景中的场景、或所述多个区域横截面中的区域横截面。

在一个实施例中，图像处理器进一步被配置用于应用去块效应操作、去轮廓操作、模糊操作等中的一个或多个，作为生成将在显示器中渲染的视频内容的一部分。

在一个实施例中，所述图像处理器进一步被配置用于执行：检测观看者视口的变化；响应于所述观看者视口的变化，基于已经在所述整体视频流中的两个或更多个视频子流中的至少一个中传输的周边视频数据来生成新的视频内容。

在各种示例性实施例中，装置、系统、装置、或者一个或多个其他计算设备执行所描述的前述方法中的任何方法或其一部分。在一个实施例中，一种非暂态计算机可读存储介质存储有软件指令，所述软件指令当由一个或多个处理器执行时致使执行本申请中所描述的方法。

注意，尽管本申请中讨论了单独的实施例，但是本申请中讨论的实施例和/或部分实施例的任何组合都可以组合以形成进一步的实施例。

8.实施机制-硬件概述

根据一个实施例，本申请中描述的技术由一个或多个专用计算设备实施。专用计算设备可以是硬接线的，以用于执行这些技术，或者可以包括被持久地编程以执行这些技术的数字电子设备，例如一个或多个专用集成电路(ASIC)或现场可编程门阵列(FPGA)，或者可以包括被编程为根据固件、存储器、其他存储设备或组合中的程序指令执行这些技术的一个或多个通用硬件处理器。这种专用计算设备还可以将自定义硬接线逻辑、ASIC或FPGA与自定义编程相结合以实现所述技术。专用计算设备可以是台式计算机系统、便携式计算机系统、手持式设备、网络设备、或包含硬接线和/或程序逻辑以实施所述技术的任何其他设备。

例如，图5是框图，示出了可以在其上实施本发明的示例性实施例的计算机系统500。计算机系统500包括总线502或用于传送信息的其他通信机制(mechanism)、以及与总线502相连以处理信息的硬件处理器504。硬件处理器504可以是例如通用微处理器。

计算机系统500还包括连接到总线502以用于存储由处理器504执行的信息和指令的主存储器506，例如随机存取存储器(RAM)或其他动态存储设备。主存储器506还可以用于存储在执行要由处理器504执行的指令期间的临时变量或其他中间信息。这些指令当存储在处理器504可访问的非暂态存储介质中时，使得计算机系统500成为专用机器，所述专用机器被定制为执行指令中指定的操作。

计算机系统500还包括连接到总线502的只读存储器(ROM)508或其他静态存储设备，用于存储处理器504的静态信息和指令。

提供存储设备510(例如磁盘或光盘、固态RAM)，并将其连接到总线502以用于存储信息和指令。

计算机系统500可以经由总线502连接到显示器512(例如液晶显示器)以用于向计算机用户显示信息。包括字母数字键和其他键的输入设备514连接到总线502，以用于将信息和命令选择传送到处理器504。另一种类型的用户输入设备是光标控制装置516，例如鼠标、轨迹球或光标方向键，用于将方向信息和命令选择传送到处理器504并用于控制显示器512上的光标移动。典型地，这个输入设备具有两个在两条轴线(第一轴线(例如，x轴)和第二轴线(例如，y轴))上的自由度，其允许设备指定在某个平面中的位置。

计算机系统500可以使用定制的硬接线逻辑、一个或多个ASIC或FPGA、固件和/或程序逻辑(其与计算机系统相结合使计算机系统500成为专用机器或将计算机系统500编程为专用机器)来实施本申请中描述的技术。根据一个实施例，响应于处理器504执行包含在主存储器506中的一个或多个指令的一个或多个序列，计算机系统500执行本申请中的技术。这些指令可以从例如存储设备510等的另一存储介质读取到主存储器506中。包含在主存储器506中的指令序列的执行致使处理器504执行本申请中所述的处理步骤。在替代性实施例中，可以使用硬接线电路代替软件指令或者与所述软件指令相结合。

本申请中使用的术语“存储介质”是指存储致使机器以特定方式操作的数据和/或指令的任何非暂态介质。这样的存储介质可以包括非易失性介质和/或易失性介质。非易失性介质包括例如光盘或磁盘，例如存储设备510。易失性介质包括动态存储器，例如主存储器506。常见形式的存储介质包括例如软盘、软磁盘(flexible disk)、硬盘、固态硬盘、磁带或任何其他磁性数据存储介质、CD-ROM、任何其他光学数据存储介质、具有孔图案的任何物理介质、RAM、PROM和EPROM、闪速(flash)EPROM、NVRAM、任何其他存储器芯片或存储盒(memory cartridge)。

存储介质不同于传输介质但可以与传输介质结合使用。传输介质参与存储介质之间的信息传递。例如，传输介质包括同轴电缆、铜线和光纤，包括包含总线502的导线。传输介质还可以采用声波或光波的形式，例如在无线电波和红外数据通信期间生成的声波或光波。

各种形式的介质可以涉及将一个或多个指令的一个或多个序列载送到处理器504以供执行。例如，指令最初可以存储在远程计算机的磁盘或固态硬盘上。远程计算机可以将指令加载到其动态存储器中，并使用调制解调器通过电话线发送指令。计算机系统500本地的调制解调器可以从电话线接收数据，并使用红外发射器将数据转换成红外信号。红外检测器可以接收红外信号中携带的数据，并且适当的电路可以将数据放在总线502上。总线502将数据载送到主存储器506，处理器504从所述主存储器506检索并执行指令。主存储器506接收的指令可以任选地在由处理器504执行之前或之后存储在存储设备510上。

计算机系统500还包括连接到总线502的通信接口518。通信接口518提供连接到网络链路520的双向数据通信，所述网络链路520连接到局部网络522。例如，通信接口518可以是综合业务数字网(ISDN)卡、电缆调制解调器、卫星调制解调器、或用于提供与相应类型电话线的数据通信连接的调制解调器。作为另一个示例，通信接口518可以是局域网(LAN)卡，用于提供与兼容的LAN的数据通信连接。还可以实施无线链路。在任何这样的实施方式中，通信接口518发送和接收承载表示各种类型信息的数字数据流的电信号、电磁信号或光信号。

网络链路520通常通过一个或多个网络向其他数据设备提供数据通信。例如，网络链路520可以通过局部网络522连接到主计算机524或连接到由因特网服务提供商(ISP)526操作的数据设备。ISP 526进而通过现在通常称为“因特网”528的全球分组数据通信网络来提供数据通信服务。局部网络522和因特网528两者都使用承载数字数据流的电信号、电磁信号或光信号。通过各种网络的信号以及网络链路520上和通过通信接口518的信号(其将数字数据载送到计算机系统500和从所述计算机系统500载送数字数据)是传输介质的示例性形式。

计算机系统500可以通过一个或多个网络、网络链路520和通信接口518发送消息和接收数据，包括程序代码。在因特网示例中，服务器530可以通过因特网528、ISP 526、局部网络522和通信接口518为应用程序传输请求的代码。

在接收到代码和/或将代码存储在存储设备510或其它非易失性存储器中以供后续执行后，处理器504可以执行所接收的代码。

9.等效物、扩展、替代物及其他

在前述说明书中，已经参考许多具体细节描述了本发明的示例性实施例，这些细节可以根据实施方式而变化。因此，作为本发明的、并且申请人意图作为本发明的唯一且独有的指示是从本申请中以这套权利要求发布的具体形式发布的权利要求，包括任何后续修改。本申请中明确阐述的用于这些权利要求中包含的术语的任何定义应当支配着权利要求中使用的这样的术语的含义。因此，权利要求中未明确记载的限制、要素、特性、特征、优点或属性不应以任何方式限制这些权利要求的范围。因此，说明书和附图应被视为说明性的而非具有限制性意义。

可以从以下列举的示例性实施例(EEE)中理解本发明的各个方面：

EEE 1.一种用于流式传输视频数据的方法，所述方法包括：

基于一个或多个视频图像的图像内容来识别所述一个或多个视频图像中的多个场景；

基于所述一个或多个视频图像中的所述多个场景来确定所述一个或多个视频图像的多个区域横截面；

将所述一个或多个视频图像的位于所述多个区域横截面中的多个图像部分编码为具有两种或更多种不同的时空分辨率的两个或更多个视频子流；

将包括所述两个或更多个视频子流的整体视频流传输至流客户端设备；

其中，所述方法由一个或多个计算设备来执行。

EEE 2.如EEE 1所述的方法，其中，所述多个区域横截面包括处于观看者视口中的第一区域横截面，并且其中，所述多个区域横截面包括不在观看者视口中的第二区域横截面。

EEE 3.如EEE 2所述的方法，其中，所述第一区域横截面不具有所述多个场景中的任何高兴趣程度的场景；其中，所述第二区域横截面与所述多个场景中的至少一个高兴趣程度的场景重叠；其中，以第一时空分辨率来编码所述第一区域横截面中的图像数据，所述第一时空分辨率低于编码所述第二区域横截面中的图像数据所使用的第二时空分辨率。

EEE 4.如EEE 1所述的方法，其中，所述多个区域横截面中没有相互重叠的两个区域横截面。

EEE 5.如EEE 1所述的方法，其中，所述多个区域横截面中的至少两个区域横截面相互重叠。

EEE 6.如EEE 1所述的方法，其中，所述多个区域横截面中的至少两个区域横截面具有以下各项中的一项或多项：不同的空间形状、不同的尺寸、或不同的长宽比。

EEE 7.如EEE 1所述的方法，其中，部分地基于与所述一个或多个视频图像一起接收的图像元数据来识别所述多个区域横截面中的至少一个区域横截面。

EEE 8.如EEE 1所述的方法，其中，部分地基于对所述一个或多个视频图像执行图像内容分析来识别所述多个区域横截面中的至少一个区域横截面。

EEE 9.如EEE 1所述的方法，其中，部分地基于在用户群体中的用户正在观看一个或多个视频图像时收集的用户观看行为数据来识别所述多个区域横截面中的至少一个区域横截面。

EEE 10.如EEE 1所述的方法，所述方法还包括对包围观看者中央凹视觉的场景中的图像数据应用模糊滤波器。

EEE 11.如EEE 1所述的方法，其中，所述多个场景包括由观看者视口包围的高兴趣程度的场景。

EEE 12.如EEE 1所述的方法，其中，观看者视口不包括从所述一个或多个视频图像中检测到的所述多个场景中的高兴趣程度的场景。

EEE 13.如EEE 1所述的方法，其中，所述两个或更多个视频子流中的至少一个视频子流仅包括锚帧。

EEE 14.如EEE 1所述的方法，其中，所述两个或更多个视频子流中的至少一个视频子流包括锚帧和非锚帧两者。

EEE 15.根据EEE 1所述的方法，所述方法还包括：

生成识别以下各项中的一项或多项的视频元数据：所述多个场景中的场景或所述多个区域横截面中的区域横截面；

将包括所述两个或更多个视频子流的所述整体视频流中的所述视频元数据传输至所述流客户端设备。

EEE 16.一种用于向观看者呈现视频数据的方法，所述方法包括：

从流服务器接收整体视频流，所述整体视频流包括具有两种或更多种不同的时空分辨率的两个或更多个视频子流；

将所述两个或更多个视频子流解码成一个或多个视频图像的一个或多个图像部分，其中，所述一个或多个图像部分处于多个区域横截面中的一个或多个区域横截面中，其中，至少部分地基于多个场景来确定所述多个区域横截面，其中，基于所述一个或多个视频图像的图像内容来检测所述多个场景；

基于所述一个或多个视频图像的所述一个或多个图像部分来生成视频内容；

致使所述视频内容被渲染在显示器中；

其中，所述方法由一个或多个计算设备来执行。

EEE 17.如EEE 16所述的方法，所述方法还包括向所述流服务器发送视口信息，其中，所述视口信息用于推导出与所述一个或多个视频图像相关的观看者视口。

EEE 18.如EEE 17所述的方法，其中，所述视口信息还用于推导出与所述一个或多个视频图像相关的观看者中央凹视觉。

EEE 19.如EEE 16所述的方法，所述方法还包括解码来自所述整体视频流的视频元数据，其中，所述视频元数据识别以下各项中的一项或多项：所述多个场景中的场景或所述多个区域横截面中的区域横截面。

EEE 20.如EEE 16所述的方法，所述方法还包括应用去块效应操作、去轮廓操作、或模糊操作中的一个或多个，作为生成将在显示器中渲染的视频内容的一部分。

EEE 21.根据EEE 16所述的方法，所述方法还包括：

检测观看者视口的变化；

响应于所述观看者视口的变化，基于已经在所述整体视频流中的所述两个或更多个视频子流中的至少一个中传输的周边视频数据来生成新的视频内容。

EEE 22.一种装置，所述装置执行如EEE 1至21所述方法中的任何方法。

EEE 23.一种系统，所述系统执行如EEE 1至21所述方法中的任何方法。

EEE 24.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储有软件指令，所述软件指令当由一个或多个处理器执行时致使执行如EEE 1至21中任一项所述的方法。

EEE 25.一种计算设备，所述计算设备包括一个或多个处理器以及一个或多个存储介质，所述存储介质存储一组指令，所述一组指令当由一个或多个处理器执行时致使执行如EEE 1至21中任一项所述的方法。

Claims

1.一种用于流式传输视频数据的方法，所述方法包括：

基于一个或多个视频图像的图像内容来识别所述一个或多个视频图像中的多个场景；其中，所述多个场景包括至少一个高兴趣程度的场景和至少一个低兴趣程度的场景；

追踪所述一个或多个视频图像的观看者视口；

基于所述一个或多个视频图像中的所述多个场景并且基于所述观看者视口来确定所述一个或多个视频图像的多个区域横截面；其中，所述多个区域横截面包括第一区域横截面、第二区域横截面和第三区域横截面，所述第一区域横截面与位于所述观看者视口内的高兴趣程度的场景相对应，所述第二区域横截面与位于所述观看者视口之外的高兴趣程度的场景相对应，所述第三区域横截面与位于所述观看者视口之外的低兴趣程度的场景相对应；

对包围观看者中央凹视觉的场景中的图像数据应用模糊滤波器，所述模糊滤波器具有能够变化的空间分辨率，其中，在包围所述观看者中央凹视觉的场景部分中不执行模糊处理或执行很少的模糊处理，其中，在位于所述观看者中央凹视觉之外的场景部分中执行更强的模糊处理，并且其中，模糊处理的强度至少部分地基于空间位置与所述观看者中央凹视觉的中心之间的空间距离；

将所述一个或多个视频图像的位于所述多个区域横截面中的多个图像部分编码为具有两种或更多种不同的时空分辨率的两个或更多个视频子流；其中，所述两个或更多个视频子流包括：用于所述第一区域横截面的具有第一时空分辨率的第一视频子流、用于所述第二区域横截面的具有第二时空分辨率的第二视频子流、以及用于所述第三区域横截面的具有第三时空分辨率的第三视频子流；其中，所述第三时空分辨率低于所述第二时空分辨率；并且其中，所述第二时空分辨率低于所述第一时空分辨率；

其中，所述方法由一个或多个计算设备来执行。

2.如权利要求1所述的方法，其中，所述多个区域横截面包括与位于观看者中央凹视觉内的高兴趣程度的场景相对应的第四区域横截面；其中，所述两个或更多个视频子流包括用于所述第四区域横截面的具有第四时空分辨率的第四视频子流；并且其中，所述第四时空分辨率高于所述第一时空分辨率。

3.如权利要求1至2中任一项所述的方法，其中，部分地基于对所述一个或多个视频图像执行图像内容分析来识别所述多个区域横截面中的至少一个区域横截面。

4.如权利要求1至2中任一项所述的方法，其中，所述多个区域横截面中的至少两个区域横截面具有以下各项中的一项或多项：不同的空间形状、不同的尺寸、或不同的长宽比。

5.如权利要求1至2中任一项所述的方法，其中，所述两个或更多个视频子流中的至少一个视频子流仅包括锚帧。

6.如权利要求1至2中任一项所述的方法，所述方法还包括：

7.一种用于向观看者呈现视频数据的方法，所述方法包括：

从流服务器接收整体视频流，所述整体视频流包括具有两种或更多种不同的时空分辨率的两个或更多个视频子流；其中，所述两个或更多个视频子流包括用于第一区域横截面的具有第一时空分辨率的第一视频子流、用于第二区域横截面的具有第二时空分辨率的第二视频子流以及用于第三区域横截面的具有第三时空分辨率的第三视频子流；其中，所述第三时空分辨率低于所述第二时空分辨率；并且其中，所述第二时空分辨率低于所述第一时空分辨率；

将所述两个或更多个视频子流解码为一个或多个视频图像的一个或多个图像部分，其中，所述一个或多个图像部分位于多个区域横截面中的一个或多个区域横截面中，其中，至少部分地基于多个场景并且基于观看者视口来确定所述多个区域横截面，其中，基于所述一个或多个视频图像的图像内容来检测所述多个场景；其中，所述多个区域横截面包括所述第一区域横截面、所述第二区域横截面和所述第三区域横截面，所述第一区域横截面与位于所述观看者视口内的高兴趣程度的场景相对应，所述第二区域横截面与位于所述观看者视口之外的高兴趣程度的场景相对应，所述第三区域横截面与位于所述观看者视口之外的低兴趣程度的场景相对应；并且其中，对包围观看者中央凹视觉的场景中的图像数据应用模糊滤波器，所述模糊滤波器具有能够变化的空间分辨率，其中，在包围所述观看者中央凹视觉的场景部分中不执行模糊处理或执行很少的模糊处理，其中，在位于所述观看者中央凹视觉之外的场景部分中执行更强的模糊处理，并且其中，模糊处理的强度至少部分地基于空间位置与所述观看者中央凹视觉的中心之间的空间距离；

致使所述视频内容被渲染在显示器中；

其中，所述方法由一个或多个计算设备来执行。

8.如权利要求7所述方法，所述方法还包括向所述流服务器发送视口信息，其中，所述视口信息用于推导出与所述一个或多个视频图像相关的所述观看者视口。

9.如权利要求7或权利要求8所述的方法，所述方法还包括解码来自所述整体视频流的视频元数据，其中，所述视频元数据识别以下各项中的一项或多项：所述多个场景中的场景或所述多个区域横截面中的区域横截面。

10.如权利要求7或权利要求8所述的方法，所述方法还包括：

检测所述观看者视口的变化；

11.一种系统，所述系统包括多个模块，所述多个模块被配置为执行如权利要求1至10中任一项所述的方法的相应步骤。

12.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储有一个或多个程序，所述一个或多个程序包括软件指令，所述软件指令当由一个或多个处理器执行时致使执行如权利要求1至10中任一项所述的方法。

13.一种计算设备，所述计算设备包括一个或多个处理器以及一个或多个存储介质，所述一个或多个存储介质存储有一个或多个程序，所述一个或多个程序包括一组指令，所述一组指令当由所述一个或多个处理器执行时致使执行如权利要求1至10中任一项所述的方法。