CN110248178B

CN110248178B - 利用物体跟踪和历史轨迹全景视频的视口预测方法及系统

Info

Publication number: CN110248178B
Application number: CN201910525611.0A
Authority: CN
Inventors: 霍永凯; 唐金婷; 杨少石
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2019-06-18
Filing date: 2019-06-18
Publication date: 2021-11-23
Anticipated expiration: 2039-06-18
Also published as: CN110248178A

Abstract

本发明属于全景视频技术领域，公开了一种利用物体跟踪和历史轨迹全景视频的视口预测方法及系统，所述利用物体跟踪和历史轨迹全景视频的视口预测方法包括以下步骤：利用轨迹平移转换解决视口轨迹的不连续情况；利用对全景视频物体跟踪的轨迹模拟观看者兴趣坐标；构建基于深度学习的视口预测模型，预测未来帧的视口轨迹。本发明提出基于深度学习的视口预测方案用于预测视频观看者的视口位置，结合全景视频视口自适应传输方法实现节省带宽，其中历史视口轨迹和物体跟踪轨迹信息联合输入长短期记忆网络进行未来帧的视口轨迹预测。实验结果表明，本发明提出的方案优于基准方案高达33.5％。

Description

利用物体跟踪和历史轨迹全景视频的视口预测方法及系统

技术领域

本发明属于全景视频技术领域，尤其涉及一种利用物体跟踪和历史轨迹全景视频的视口预测方法及系统。

背景技术

全景视频作为一种新型的视频格式，突破了传统的视野范围，将其视野范围扩展到360度全覆盖，实现虚拟现实的沉浸感，因此吸引了大量的关注。全景视频可以用于多种场景，如体育，社交网络，游戏等，同时5G通信的快速突破，Facebook等平台的支持，以及头戴式虚拟现实显示设备(HMD)的大量生产和推广进一步促进全景视频的发展。全景视频克服了视频图像呈现和感知的被动，使得视频的观众成为沉浸在观看场景中的虚拟参与者。每个全景帧在水平和垂直方向上覆盖360°×180°信号的范围。如图2a所示，将平面全景视频信号投影到球面上以实现身临其境的体验，当观看者戴上HMD，360度的视频信号将围绕观看者使得观看者虚拟位于球面视频信号的中心。观看者所见的视频图像区域称为视口，视野范围为60°到110°，通过转动头部或者身体，观看者能自由的选择观看视频图像的内容，视口之外的图像不可见。视口轨迹通常为观看者的兴趣内容，如图2b所示，一段时间内产生的视口轨迹是连续的，观看者选择兴趣的物体并保持兴趣的物体于视口内。由于不同观看者的兴趣不同，他们在同一视频帧中会产生不同的视口选择。如图3所示，全景视频内容呈现在球面上，两个观看者在观看同一帧图像时，感兴趣兴趣物体不一致，视口中心位于不同的坐标，因此，所看到的图像内容也不一样，视口范围外的图像对观看者不可见。在视频网络传输过程中，为满足所有观看者对不同视口的需求。网络上传输完整的视频图像内容，而可见的视口图像信号只占用完整球面的信号的一小部分，因此，不可见的图像信号占用了大量的带宽资源。假设观看者将来时段的视口轨迹已知，则可以根据观看者需求选择对应的视口图像传输，有利于视口自适应地分配带宽资源，使得观看者观看的视频质量和用户体验效果更好。本发明为更好地实现全景视频视口自适应传输，提出了一种方法预测将来时段的视口轨迹。

目前已有许多针对全景视频的研究，从投影、压缩、视口自适应传输和虚拟摄像等。

·投影：等量矩形投影(equirectangular)为最通用的投影方式，其转化公式直接简明，但图像有较大的形变，球面图像两极占用较大的编码，赤道相对较少。通常图像的关键内容分布在球面赤道，立方体(cube)投影改善了编码的分布，使得赤道和两极编码分布更加均匀，它将球面的视频图像映射到等六面体中，使得每个面都没有形变。此外，Facebook提出使用椎体投影进一步提高图像质量。

·压缩：为提高观看者兴趣区域(RoI)的质量，许多研究提出了基于H.265和HEVC的视频流算法。

·视口自适应传输：为了节省带宽，在本发明中提出了基于视口自适应的视频分配方案。根据视口的位置，自适应传输可以为视口内的图像分配更多的带宽，视口外的图像分配较少的带宽，甚至距离视口较远的图像区域不分配带宽。通过不同图像区域不同权重的带宽分配从而实现更少的带宽消耗，对于观看者的视口图像质量更高，节省带宽的同时提高了观看者的观看体验。另一方面，基于“块”的自适应视频传输能更好地与HTTP和DASH协议整合。

·虚拟摄影：虚拟摄影指从全景视频中模拟专业的摄影师选择符合人们观看视角的图像内容，将全景视频中采样的多个视角连接在一起组成平滑的观看视角轨迹。其主要思想是在全景帧中找到吸引观看者注意力的区域，利用显著图、光流图和前段时间的视角位置，计算下一个视角位置。

综上所述，现有技术存在的问题是：传统的全景视频带宽分配方式将整个全景帧数据放在网络上传输，导致了观看者不可见的视频数据的传输占用了大量的带宽，影响视频观看的流畅和质量需求。视口自适应的带宽传输能实现视口范围的图像以较高的带宽传输，视口外的图像以较低的或者零带宽传输，从而节省带宽资源。然而，视口自适应传输的前提是已知视口的位置，对于不同的观看者而言，其视口位置由该观看者的兴趣决定，不同观看者在同一帧图像内视口位置不同。因此，本发明基于不同观看者的兴趣，提出方法预测其将来时段视口轨迹，从而有效地利用视口自适应传输来节省带宽。

发明内容

针对现有技术存在的问题，本发明提供了一种利用物体跟踪和历史轨迹全景视频的视口预测方法及系统。

本发明是这样实现的，一种利用物体跟踪和历史轨迹全景视频的视口预测方法，所述利用物体跟踪和历史轨迹全景视频的视口预测方法结合观看者历史的视口轨迹信息和观看者对视频内容的兴趣，实现预测观看者将来时段的视口轨迹；所述利用物体跟踪和历史轨迹全景视频的视口预测方法包括以下步骤：

步骤一，利用轨迹平移转换解决视口轨迹的不连续情况；

步骤二，利用物体跟踪模拟观看者兴趣坐标，诱导视口预测；

步骤三，构建基于深度学习的视口预测HOP模型，预测未来帧的视口轨迹；通过将历史轨迹信息和视频兴趣信息融合输入流行的LSTM网络训练，实现更准确的视口轨迹预测。

进一步，所述HOP模型的架构包括三个组成部分，即历史轨迹，物体跟踪和融合。

观看者的历史轨迹与将来的视口轨迹有较强的相关性，观看者的视口轨迹即为佩戴VR头盔的观看者的头部运动轨迹。在短时间内(如1～2秒)，观看者的兴趣有较大概率保持不变。例如观看者的当前的注意力关注于一个明星，则可推断其将来时段的注意力有较大的概率集中于明星，明星在全景视频图像中保持不变的位置或者加速地跑步，该观看者的视口则跟随明星的运动。因此，观看者的历史视口位置和短期内将来时段的视口位置具有一致性，可以通过观看者历史视口的位置预测其将来视口位置。

由于视口轨迹为球面上的曲线，其坐标范围为经度[-π,π],纬度[-π/2,π/2]。由于经度方向上-π和π为完全重合的经线，因此，当观看者的视口在±π邻域时，其视口轨迹经常出现从-π直接跨越到π(或从π直接跨越到-π)的情形，导致视口轨迹产生严重的不连续现象，理想的连续视口轨迹被划分为多个不连续的轨迹集合。因此，本发明针对该不连续现象产生的原因，提出了“轨迹平移”方法。方法的主要思想是将历史的视口轨迹平移至经度0度，使得轨迹的经度能较好地避免±π位置。由于短时间内观看者的视口移动距离超过π的概率非常小，通过将视口轨迹经度平移，能避免±π产生的视口值突变。

利用历史视口轨迹预测将来视口轨迹，常用的方法为线性回归法。然而线性回归对于历史的视口轨迹坐标具有固定的权重值，对比于擅长时序序列处理的LSTM神经网络，通过训练已有的视口轨迹，LSTM网络的门控制单元会自主选择历史视口轨迹中重要的信息，使用大量的神经元计算将来视口的位置。另一方面，历史视口轨迹仅包含该观看者前段时间的信息，将来时段的全景视频内容信息同样会影响观看者的注意力，导致视口位置的改变。比如全景视频中出现了一只可爱的小狗，使得大多数的观看者都将注意力转至小狗，因此，我们接着考虑全景视频内容对观看者视口位置的影响。

对于同一帧全景图像，不同的观看者有不同的兴趣点，因此产生不同的视口位置，如图3所示。全景图像中包含多个物体，不同的观看者对不同的物体感兴趣，各个物体在视频中的位置不同，将来时段物体的运动轨迹也不同。对于单个观看者，从大量的观看数据显示，观看者会对感兴趣的物体保持一段时间的注意力。因此，可根据将来时段被关注的物体的运动预测将来视口的轨迹。然而，针对不同的观看者，其兴趣物体不一致，因此，本发明提出根据观看者兴趣的物体运动“轨迹选择”方法。

对于全景视频的多个不同的前景物体，比如电影明星、汽车和动物等。依据观看者当前视口的位置，计算视口中心与不同物体的距离，距离最近同时满足该物体位于视口范围内，则该物体被认为该观看者感兴趣的关键物体。在全景视频中，只有视口范围内是观看者可见的图像区域，视口外的图像对观看者未知。因此，当前视口内的图像被认为是观看者感兴趣的区域，观看者通常把关注的物体置于视野的中心，因此，距离视口中心最近的前景物体作为关键物体。

不同观看者视口位置不同，其视口内的场景也不同。通常可以将场景分为三类：单个物体，多个物体和无物体。

单个物体指观看者视口内仅仅包含一个物体，则观看者关注的关键物体即为该物体；多物体指视口内出现了多个前景物体，对多个物体需要判断哪一个物体为观看者最感兴趣的物体。由于视频图像呈现在球面上，球面上两点之间用空间角来表示它们的距离，因此，判断关键物体的依据为视口中心和多个前景物体的最小空间角。通过计算最小空间角得到关键物体，从而利用关键物体将来时段的运动轨迹诱导预测观看者将来的视口位置。

通过历史视口轨迹，得到了将来时段视口的初始预测，再经过多个前景跟踪，计算出观看者感兴趣的关键物体将来帧的运动轨迹。将初始视口轨迹预测和物体运动轨迹结合，得到的联合信息输入第二个LSTM网络训练，产生最终的轨迹预测结果。

本发明的另一目的在于提供一种利用物体跟踪和历史轨迹全景视频的视口预测系统。

本发明的优点及积极效果为：

本发明考虑到不同观看者的兴趣物体不同，提出了基于观看者兴趣物体选择的方法，同时由于观看者历史视口轨迹和将来视口轨迹具有一致性，提出了基于历史轨迹和物体跟踪的方法预测观看者将来帧的视口轨迹。通过将历史轨迹信息和视频兴趣信息融合输入流行的LSTM网络训练，从而实现更准确的视口轨迹预测。预测第5帧和第30帧的平均空间角度误差为0.047和0.298弧度，相比基准的方法平均提高33％。

附图说明

图1是本发明实施提供的利用物体跟踪和历史轨迹全景视频的视口预测方法流程图。

图2是本发明说明全景图到球面图的转化。在图2a中，红色圆圈部分表示观看者的视口。

图3是本发明实施提供的两个观看者视口的演示图。

图4是本发明实施提供的视口轨迹的时间线图。

图5是本发明实施提供的HOP方法的结构图。

图6是本发明实施提供的经度平移为0度的轨迹图。

图7是本发明实施提供的不同观看者视口场景和关键物体选择流程图。

图8是本发明实施提供的不同预测帧长的CDF图。

图9是本发明实施提供的HOP方法和HOP不加物体跟踪的预测轨迹经度和纬度比较图。

图10是本发明实施提供的使用各种通用的预测方法对第15帧的视口预测结果进行比较：HOP w/o tracking，WLR和LSTM方法是基准方法；最左边的列显示原始全景帧，而其他列显示1秒内预测视口的采样结果；红色、绿色和蓝色圆圈表示生成的视口分别HOP，WLR和LSTM方法，而黄色圆圈代表真实的视口位置。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

下面结合附图对本发明的技术方案作详细的描述。

本发明实施例提供的利用物体跟踪和历史轨迹全景视频的视口预测方法结合观看者历史的视口轨迹信息和观看者对视频内容的兴趣，实现预测观看者将来时段的视口轨迹。

如图1所示，本发明实施例提供的利用物体跟踪和历史轨迹全景视频的视口预测方法包括以下步骤：

S101：利用轨迹平移转换解决视口轨迹的不连续情况；

S102：利用物体跟踪模拟观看者兴趣坐标，诱导视口预测；

S103：构建基于深度学习的视口预测HOP模型，预测未来帧的视口轨迹；通过将历史轨迹信息和视频兴趣信息融合输入流行的LSTM网络训练，实现更准确的视口轨迹预测。

本发明提供的HOP方法的架构包括三个组成部分，即历史轨迹，物体跟踪和融合。

首先，定义符号更准确地表示HOP架构所利用的信息。如表1所示，所定义的符号将在图5的HOP架构图中作为数据流在多个模块中传递。

表1数据符号定义

观看者的历史轨迹与将来的视口轨迹有较强的相关性，依赖该观看者历史观看轨迹信息可以预测其将来的观看视口轨迹，如图4所示，设当前视频帧为f₀，历史的前L帧的视口轨迹为

需预测的将来k帧的视口轨迹为

因此v₀为将来k帧

的预测起点。图5展示了HOP预测方法的框架，由于视口轨迹为球面上的曲线，其坐标范围为经度[-π，π]，纬度[-π/2，π/2]。当观看者的视口轨迹从经度-π直接跨越到π时，在经度方向会产生不连续的视口轨迹。因此，图5中“轨迹平移”模块将解决视口经度不连续问题，通过将视口轨迹平移至经度0度，并向经度正负其中某一方向延展，从而避免经度在-π到π之间的跨越，纬度方向保持不变。经过平移后的视口轨迹为

为了利用已有的历史视口轨迹预测将来时段的视口轨迹，采用擅长时序处理的LSTM神经网络结构，经过LSTM-1网络得到的预测视口轨迹为

该视口轨迹为仅依靠历史视口轨迹的信息的生成结果，为了挖掘观看者的兴趣特征，将进一步对全景视频的内容进行分析。

从大量的全景视频观看轨迹数据显示，观看者对全景视频的前景物体更感兴趣，其视口轨迹与全景视频的前景物体的运动有较强的一致性。因此，通过对视频中的运动物体进行物体轨迹跟踪，将有利于诱导预测视口轨迹。如图5所示，设将来的k帧全景帧为

从将来的全景帧中提取多个物体的运动轨迹为

其中

为第i个物体将来k帧的运动轨迹。根据观看者当前的视口位置，通过图5中“轨迹选择”模块可以估计观看者感兴趣的关键物体m，从而依据该物体的运动轨迹

预测观看者将来k帧的视口轨迹。为保持数据一致，将关键物体平移至与当前视口v₀相连接，平移后的物体运动轨迹为

融合部分将初步预测的视口轨迹

和平移后的运动物体轨迹

向量拼接组成

并输入LSTM-2网络进行训练，损失函数为L2范数。最后将网络的输出结果进行逆向的平移，得到最终的预测轨迹

图5中的“轨迹平移”块具体处理如下：

(1)设当前视口坐标表示为v_t＝(λ_t，φ_t)，将历史轨迹的第一个视口值的经度λ_1-l平移至0度，余下的L-1个经度

平移相同的经度值；

(2)计算i^th和i-1^th个平移后视口的距离

如果距离超过π，表示该位置的视口平移前横跨±π，给予±2π校正；

“轨迹平移”公式表示为：

“轨迹选择”模块根据观看者当前的视口位置选择该观看者感兴趣的关键物体m，并提取其将来k帧的运动轨迹

现实的观看者观看全景视频的场景可以分为三个类别：

单个物体：在当前视口v₀中，仅包含一个被观看的物体，则物体被认为观看者感兴趣的物体；

多个物体：当前视口v₀内包含多个观看物体，通常观看者把兴趣物体放置在视口的中心，因此距离视口最近的物体被选为观看者感兴趣的关键物体；

无物体：视口v₀内没有运动物体，状态为观看者在不同的物体中切换，则不输出关键物体。

由于视口轨迹为球面的曲线，因此采用空间角计算多个物体与视口中心的距离，假设全景帧f₀内有d个物体，则i^th个物体的空间角α_i计算公式为：

其中v₀(x，y，z)和

是球面笛卡尔坐标对应平面坐标v₀＝(λ，φ)和

⊙表示向量的点积，转换公式为：

x＝cosφcosλ

y＝cosφsinλ

z＝sinφ

关键物体m通过找到最小的α得到，表示为：

α_m＝min{α₁，...，α_i，...α_d}

s.t.α_m≤π/2.

因此，关键物体的索引是m，其对应的轨迹可以表示为

并且关键物体必须在当前视口视野范围内。在“无物体”场景中，预测的视口轨迹可以被认为独立于物体，因此“轨迹选择”模块不输出前景物体的运动轨迹。

1、全景视频吸引了大量的关注，因为它可以实现不同场景的360度体验。它可以用于多种场景，如体育，社交网络，游戏等，这些广泛的应用反过来进一步促进全景视频的发展。全景视频克服了视频图像呈现和感知的被动和结构限制。同时，全景视频的观众成为沉浸在视频场景中的虚拟参与者。每个全景帧可以分别在水平和垂直方向上覆盖360°×180°信号的范围。如图2a所示，将平面全景视频投影到球面上以实现身临其境的体验，当观看者带上头戴式显示器(HMD)，其视觉感知为全景视频的图像世界，观看者虚拟地位于渲染球体的中心。视口指的是全景视频中观看者观看到的视野范围，视口的位置由观看者决定。当观看者观看全景视频时，会产生连续的视口轨迹。视口轨迹为球面上的曲线，不同的观看者的视口轨迹不同。视口的大小取决于头戴显示器的硬件配置，通常为60°到110°范围。观看者只对视野内的图像可见，视野外的图像不可见。

全景视频在社交媒体上广泛可用，例如Facebook，Youtube等。但是，它需要大量带宽来分发这些全景视频，这些视频通常是超高分辨率(UHD)帧，例如4096×2160等。此外，观看者的视口仅占据了360度全景视频的一小部分，而其余部分则不可见。因此，完整分辨率的全景视频传输导致大量带宽浪费，因为它把可见和不可见的图像部分都通过网络传输，如图3所示。因此，本发明可以节省不可见图像部分的带宽资源。

2.方法

在本节中，首先介绍问题的表述，然后详细介绍HOP框架和它的组件。使用的符号在表1中定义。

2.1、问题制定

为节省全景视频中不可见图像部分的传输带宽，通过本发明对全景视频将来帧针对不同观看者的视口预测，将预测的视口用于视口自适应传输方案，使得它能根据视口位置，自适应地为视频图像内部区域分配不同的带宽，从而达到带宽节省的需求。

2.2、结构

为了预测未来帧中的视口，本发明考虑两个方面：历史视口轨迹和全景视频的图像内容。

如图3所示，观看者可能被同一全景帧的不同区域所吸引。因此，不同观看者的历史视口轨迹位置也不同。对于单个观看者来说，其历史视口轨迹与将来帧的视口轨迹高度相关。由于全景图像映射在球面上，因此视口的坐标为球面上的点。假设v_t＝(λ，φ)表示t^th的视口坐标，其中λ∈[-π，π]，φ∈[-π/2，π/2]。当前的视口为v₀，则历史的前L个视口轨迹如下：

如图4所示，展示了L个历史视口轨迹和K个将来帧的视口轨迹时间线。利用L个历史视口轨迹，可预测K个将来帧轨迹。如图5所示，历史视口轨迹通过LSTM Cell-1神经网络得到初始视口预测轨迹。

另一方面，全景视频图像内容对观看者的视口轨迹产生一定影响，观看者对不同的图像内容表现不同的兴趣。通常情况下，观看者对图像的背景兴趣较少，而对图像中前景物体的兴趣较大。因此，本发明从图像中多个前景物体筛选出观看者感兴趣的物体，然后将该物体将来帧的运动轨迹信息提取出来，用于诱导观看者视口的预测。对全景视频的多个物体提取运动轨迹，采用opencv的物体跟踪方法获取。假设当前帧含有d个物体，则其将来k帧的运动跟踪坐标表示为：

为第i个物体第t帧的视口位置。图5中的“轨迹选择”模块主要用于从多个前景物体运动轨迹中选出观看者感兴趣的物体轨迹。因为观看者的视口位置根据观看者的兴趣移动，所以关键物体的运动有利于预测该观看者将来帧的视口轨迹。

本发明提出的HOP方法主要思想是结合观看者历史视口的轨迹信息和观看者感兴趣物体将来帧的运动轨迹信息，预测观看者将来帧的视口轨迹。

假设第k帧的视口预测值为

则其用公式表示该HOP框架及其输入输出数据信息为：

如图5所示，HOP框架中对历史视口轨迹进行了“轨迹平移”处理，将平移后的历史视口轨迹输入时序神经网络LSTM Cell-1，得到视口初始的预测轨迹。基于全景图像内容方面，利用物体跟踪从图像提取了多个前景运动物体的运动轨迹，针对不同观看者的兴趣，通过“轨迹选择”模块选择关键物体的将来帧的运动轨迹，再利用该轨迹结合初始的预测轨迹共同预测将来帧的视口轨迹。对于“轨迹平移”模块和“轨迹选择”模块，分别做细致分析。

2.3、“轨迹平移”模块

图6中的“轨迹平移”块具体处理如下：

平移相同的经度值；

(2)计算i^th和i-1^th个平移后视口的距离

“轨迹平移”公式表示为：

2.4、“轨迹选择”模块

如图7所示，“轨迹选择”模块根据观看者当前的视口位置选择该观看者感兴趣的关键物体m，并提取其将来k帧的运动轨迹

现实的观看者观看全景视频的场景可以分为三个类别：

中v₀(x，y，z)和

是球面笛卡尔坐标对应平面坐标v₀＝(λ，φ)和

⊙表示向量的点积，转换公式为：

关键物体m通过找到最小的α得到，表示为：

α_m＝min{α₁，...，α_i，...α_d}#(7)

s.t.α_m≤π/2.

因此，关键物体的索引是m，其对应的轨迹可以表示为

并且每个空间角小于π/2保证关键物体在当前视口视野范围内。在“无物体”场景中，预测的视口轨迹可以被认为独立于物体，因此“轨迹选择”模块不输出前景物体的运动轨迹。

3.实验

本方法的实验部分先定义了衡量该方法的评估指标，接着介绍实验数据，然后对比其他已有的方法，最后对实验结果进行统计和分析。

3.1、评估指标

由于预测的视口

和真实的视口v_k在球面上，因此使用空间角度来评估两点之间的距离。角度差(AE)的计算公式为：

其中

和v_k(x，y，z)是

和v_k(λ，φ)的笛卡尔坐标转化。⊙表示两向量的点积。AE的范围是[0，π]，AE越小，则其空间角度误差越小，预测越准确。平均的角度误差(MAE)可表示为：

预测的AE越小，视口部分获取的带宽相对越多，带宽分配越满足观看者需求。一段时间内，AE的方差越小，则带宽需求越稳定，从而更有利于视口自适应的带宽分配。角度方差MSD可表述为：

3.2、方法比较

本发明对应的HOP方法将和WLR、LSTM和不加物体跟踪的HOP方法进行比较。

·WLR：作为线性回归的进化版本，WLR具有不相等的权重，并且其随着历史视口轨迹的时间轴而增加。时间上越接近当前的视口给予较大的权重。然而，WLR预测未来的视口轨迹完全依赖于历史视口轨迹，而忽略了全景视频内容。

·LSTM：考虑到LSTM在序列生成方面的优势，且LSTM相比WLR使用了更多的神经元进行训练。

·不加物体跟踪的HOP：不加物体跟踪的HOP是HOP的简化版本，此处比较的作用为体现物体跟踪的有效性。

3.3、数据库

实验数据为观看者观看全景视频的头部运动数据，该数据通过全景视频图像的3维空间的映射关系可以转化为观看者观看全景视频的视口轨迹。本实验的观看者人数为50人，每个视频都有1800至2100帧，帧速率为每秒30帧。

3.4、性能

基于评估指标，本发明与WLR、LSTM和不加物体跟踪的HOP方法进行性能比较。分别对预测帧长k＝[5，10，15，20，25，30]的情形进行展示。

图8显示了对AE的累积分布函数(CDF)，其中y轴表示累积概率，x轴表示AE。从图8中可以看出的根据累计概率，HOP方法在所有k值中都优于对比的方法。具体来说，HOP方法的较小的角度误差的概率具有更高的累计概率。

表2显示了具有不同预测长k的所有方法的MAE和MSD结果。在MAE方面，的HOP方法比WLR方案优于23.9％至47.7％，对比LSTM方法为7.3％至26.2％，与HOP无跟踪方案相比，HOP方法有进一步的提高。对于MSD指标，HOP无跟踪方案的稳定性最高。HOP方法的性能优势是因为：

(1)HOP方法将物体跟踪和历史视口轨迹相结合，然而WLR和LSTM方法仅依靠历史视口轨迹生成预测视口轨迹。

(2)HOP方法通过“轨迹平移”模块解决了短期内轨迹不连续的问题。

表格2对比不同方法的MAE和MSD指标

图9比较HOP方法和不加物体跟踪的HOP方法，采样了500帧的预测结果数据。数据显示观看者在一段时间内经度方向的变化要明显多于纬度方向，符合观看者观看全景视频时更习惯与水平方向的移动。从图中可发现，当观看者观看方向改变时，HOP能更迅速地跟随改变。

图10选取了3个视频样本，包括单物体和多物体的视频，物体运动快速和慢速的视频。最左边一列为2D的全景图，右边为全景的部分图像，每个彩色的点表示预测的视口中心。结果显示本发明提出的HOP方法预测得更接近真实视口的位置。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种利用物体跟踪和历史轨迹全景视频的视口预测方法，其特征在于，所述利用物体跟踪和历史轨迹全景视频的视口预测方法结合观看者历史的视口轨迹信息和观看者对视频内容的兴趣，实现预测观看者将来时段的视口轨迹；所述利用物体跟踪和历史轨迹全景视频的视口预测方法包括以下步骤：

步骤一，利用轨迹平移转换解决视口轨迹的不连续情况；

步骤三，构建基于深度学习的视口预测HOP模型，预测未来帧的视口轨迹；通过将历史轨迹信息和视频兴趣信息融合输入流行的LSTM网络训练，实现更准确的视口轨迹预测；

所述HOP模型的架构包括三个组成部分，即历史轨迹，物体跟踪和融合；

利用观看者历史观看轨迹信息预测其将来的观看视口轨迹，设当前视频帧为f₀，历史的前L帧的视口轨迹为

其中v₀为将来k帧

的预测起点；由于视口轨迹为球面上的曲线，其坐标范围为经度[-π，π]，纬度[-π/2，π/2]；

当观看者的视口轨迹从经度-π直接跨越到π时，在经度方向会产生不连续的视口轨迹；

轨迹平移模块将视口轨迹平移至经度0度，并向经度正负其中某一方向延展，避免经度在-π到π之间的跨越，纬度方向保持不变；经过平移后的视口轨迹为

利用已有的历史视口轨迹预测将来时段的视口轨迹，采用LSTM神经网络结构，经过LSTM-1网络得到的预测视口轨迹为

融合部分将初步预测的视口轨迹

和平移后的运动物体轨迹

向量拼接组成

并输入LSTM-2网络进行训练，损失函数为L2范数；最后将网络的输出结果进行逆向的平移，得到最终的预测轨迹

所述的轨迹平移模块处理如下：

平移相同的经度值；

(2)计算i^th和i-1^th个平移后视口的距离

如果距离超过π，表示当前位置的视口平移前横跨±π，给予±2π校正；

轨迹平移公式表示为：

轨迹选择模块根据观看者当前的视口位置选择该观看者感兴趣的关键物体m，并提取其将来k帧的运动轨迹

现实的观看者观看全景视频的场景可以分为三个类别：

无物体：视口v₀内没有运动物体，状态为观看者在不同的物体中切换，则不输出关键物体；

由于视口轨迹为球面的曲线，采用空间角计算多个物体与视口中心的距离，假设全景帧f₀内有d个物体，则i^th个物体的空间角α_i计算公式为：

其中v₀(x，y，z)和

是球面笛卡尔坐标分别对应平面坐标v₀＝(λ，φ)和

⊙表示向量的点积，转换公式为：

x＝cosφcosλ

y＝cosφsinλ

z＝sinφ

关键物体m通过找到最小的α_i得到，表示为：

α_m＝min{α₁，...，α_i，...α_d}

s.t.α_m≤π/2.

关键物体的索引是m，其对应的轨迹可以表示为

并且关键物体必须在当前视口视野范围内，在无物体场景中，预测的视口轨迹独立于物体。