CN110248178A - 利用物体跟踪和历史轨迹全景视频的视口预测方法及系统 - Google Patents

利用物体跟踪和历史轨迹全景视频的视口预测方法及系统 Download PDF

Info

Publication number
CN110248178A
CN110248178A CN201910525611.0A CN201910525611A CN110248178A CN 110248178 A CN110248178 A CN 110248178A CN 201910525611 A CN201910525611 A CN 201910525611A CN 110248178 A CN110248178 A CN 110248178A
Authority
CN
China
Prior art keywords
viewport
track
viewer
panoramic video
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910525611.0A
Other languages
English (en)
Other versions
CN110248178B (zh
Inventor
霍永凯
唐金婷
杨少石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN201910525611.0A priority Critical patent/CN110248178B/zh
Publication of CN110248178A publication Critical patent/CN110248178A/zh
Application granted granted Critical
Publication of CN110248178B publication Critical patent/CN110248178B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/332Displays for viewing with the aid of special glasses or head-mounted displays [HMD]
    • H04N13/344Displays for viewing with the aid of special glasses or head-mounted displays [HMD] with head-mounted left-right displays

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明属于全景视频技术领域,公开了一种利用物体跟踪和历史轨迹全景视频的视口预测方法及系统,所述利用物体跟踪和历史轨迹全景视频的视口预测方法包括以下步骤:利用轨迹平移转换解决视口轨迹的不连续情况;利用对全景视频物体跟踪的轨迹模拟观看者兴趣坐标;构建基于深度学习的视口预测模型,预测未来帧的视口轨迹。本发明提出基于深度学习的视口预测方案用于预测视频观看者的视口位置,结合全景视频视口自适应传输方法实现节省带宽,其中历史视口轨迹和物体跟踪轨迹信息联合输入长短期记忆网络进行未来帧的视口轨迹预测。实验结果表明,本发明提出的方案优于基准方案高达33.5%。

Description

利用物体跟踪和历史轨迹全景视频的视口预测方法及系统
技术领域
本发明属于全景视频技术领域,尤其涉及一种利用物体跟踪和历史轨迹全 景视频的视口预测方法及系统。
背景技术
全景视频作为一种新型的视频格式,突破了传统的视野范围,将其视野范 围扩展到360度全覆盖,实现虚拟现实的沉浸感,因此吸引了大量的关注。全 景视频可以用于多种场景,如体育,社交网络,游戏等,同时5G通信的快速突 破,Facebook等平台的支持,以及头戴式虚拟现实显示设备(HMD)的大量生 产和推广进一步促进全景视频的发展。全景视频克服了视频图像呈现和感知的 被动,使得视频的观众成为沉浸在观看场景中的虚拟参与者。每个全景帧在水 平和垂直方向上覆盖360°×180°信号的范围。如图2a所示,将平面全景视频信 号投影到球面上以实现身临其境的体验,当观看者戴上HMD,360度的视频信 号将围绕观看者使得观看者虚拟位于球面视频信号的中心。观看者所见的视频 图像区域称为视口,视野范围为60°到110°,通过转动头部或者身体,观看者能 自由的选择观看视频图像的内容,视口之外的图像不可见。视口轨迹通常为观 看者的兴趣内容,如图2b所示,一段时间内产生的视口轨迹是连续的,观看者 选择兴趣的物体并保持兴趣的物体于视口内。由于不同观看者的兴趣不同,他 们在同一视频帧中会产生不同的视口选择。如图3所示,全景视频内容呈现在 球面上,两个观看者在观看同一帧图像时,感兴趣兴趣物体不一致,视口中心位于不同的坐标,因此,所看到的图像内容也不一样,视口范围外的图像对观 看者不可见。在视频网络传输过程中,为满足所有观看者对不同视口的需求。 网络上传输完整的视频图像内容,而可见的视口图像信号只占用完整球面的信 号的一小部分,因此,不可见的图像信号占用了大量的带宽资源。假设观看者 将来时段的视口轨迹已知,则可以根据观看者需求选择对应的视口图像传输, 有利于视口自适应地分配带宽资源,使得观看者观看的视频质量和用户体验效 果更好。本发明为更好地实现全景视频视口自适应传输,提出了一种方法预测 将来时段的视口轨迹。
目前已有许多针对全景视频的研究,从投影、压缩、视口自适应传输和虚 拟摄像等。
·投影:等量矩形投影(equirectangular)为最通用的投影方式,其转化公式 直接简明,但图像有较大的形变,球面图像两极占用较大的编码,赤道相对较 少。通常图像的关键内容分布在球面赤道,立方体(cube)投影改善了编码的分 布,使得赤道和两极编码分布更加均匀,它将球面的视频图像映射到等六面体 中,使得每个面都没有形变。此外,Facebook提出使用椎体投影进一步提高图 像质量。
·压缩:为提高观看者兴趣区域(RoI)的质量,许多研究提出了基于H.265 和HEVC的视频流算法。
·视口自适应传输:为了节省带宽,在本发明中提出了基于视口自适应的视 频分配方案。根据视口的位置,自适应传输可以为视口内的图像分配更多的带 宽,视口外的图像分配较少的带宽,甚至距离视口较远的图像区域不分配带宽。 通过不同图像区域不同权重的带宽分配从而实现更少的带宽消耗,对于观看者 的视口图像质量更高,节省带宽的同时提高了观看者的观看体验。另一方面, 基于“块”的自适应视频传输能更好地与HTTP和DASH协议整合。
·虚拟摄影:虚拟摄影指从全景视频中模拟专业的摄影师选择符合人们观看 视角的图像内容,将全景视频中采样的多个视角连接在一起组成平滑的观看视 角轨迹。其主要思想是在全景帧中找到吸引观看者注意力的区域,利用显著图、 光流图和前段时间的视角位置,计算下一个视角位置。
综上所述,现有技术存在的问题是:传统的全景视频带宽分配方式将整个 全景帧数据放在网络上传输,导致了观看者不可见的视频数据的传输占用了大 量的带宽,影响视频观看的流畅和质量需求。视口自适应的带宽传输能实现视 口范围的图像以较高的带宽传输,视口外的图像以较低的或者零带宽传输,从 而节省带宽资源。然而,视口自适应传输的前提是已知视口的位置,对于不同 的观看者而言,其视口位置由该观看者的兴趣决定,不同观看者在同一帧图像 内视口位置不同。因此,本发明基于不同观看者的兴趣,提出方法预测其将来 时段视口轨迹,从而有效地利用视口自适应传输来节省带宽。
发明内容
针对现有技术存在的问题,本发明提供了一种利用物体跟踪和历史轨迹全 景视频的视口预测方法及系统。
本发明是这样实现的,一种利用物体跟踪和历史轨迹全景视频的视口预测 方法,所述利用物体跟踪和历史轨迹全景视频的视口预测方法结合观看者历史 的视口轨迹信息和观看者对视频内容的兴趣,实现预测观看者将来时段的视口 轨迹;所述利用物体跟踪和历史轨迹全景视频的视口预测方法包括以下步骤:
步骤一,利用轨迹平移转换解决视口轨迹的不连续情况;
步骤二,利用物体跟踪模拟观看者兴趣坐标,诱导视口预测;
步骤三,构建基于深度学习的视口预测HOP模型,预测未来帧的视口轨迹; 通过将历史轨迹信息和视频兴趣信息融合输入流行的LSTM网络训练,实现更 准确的视口轨迹预测。
进一步,所述HOP模型的架构包括三个组成部分,即历史轨迹,物体跟踪 和融合。
观看者的历史轨迹与将来的视口轨迹有较强的相关性,观看者的视口轨迹 即为佩戴VR头盔的观看者的头部运动轨迹。在短时间内(如1~2秒),观看 者的兴趣有较大概率保持不变。例如观看者的当前的注意力关注于一个明星, 则可推断其将来时段的注意力有较大的概率集中于明星,明星在全景视频图像 中保持不变的位置或者加速地跑步,该观看者的视口则跟随明星的运动。因此, 观看者的历史视口位置和短期内将来时段的视口位置具有一致性,可以通过观 看者历史视口的位置预测其将来视口位置。
由于视口轨迹为球面上的曲线,其坐标范围为经度[-π,π],纬度[-π/2,π/2]。由于经度方向上-π和π为完全重合的经线,因此,当观看者的视口在±π邻域时,其 视口轨迹经常出现从-π直接跨越到π(或从π直接跨越到-π)的情形,导致视口轨 迹产生严重的不连续现象,理想的连续视口轨迹被划分为多个不连续的轨迹集 合。因此,本发明针对该不连续现象产生的原因,提出了“轨迹平移”方法。方法 的主要思想是将历史的视口轨迹平移至经度0度,使得轨迹的经度能较好地避 免±π位置。由于短时间内观看者的视口移动距离超过π的概率非常小,通过将视 口轨迹经度平移,能避免±π产生的视口值突变。
利用历史视口轨迹预测将来视口轨迹,常用的方法为线性回归法。然而线 性回归对于历史的视口轨迹坐标具有固定的权重值,对比于擅长时序序列处理 的LSTM神经网络,通过训练已有的视口轨迹,LSTM网络的门控制单元会自 主选择历史视口轨迹中重要的信息,使用大量的神经元计算将来视口的位置。 另一方面,历史视口轨迹仅包含该观看者前段时间的信息,将来时段的全景视 频内容信息同样会影响观看者的注意力,导致视口位置的改变。比如全景视频 中出现了一只可爱的小狗,使得大多数的观看者都将注意力转至小狗,因此, 我们接着考虑全景视频内容对观看者视口位置的影响。
对于同一帧全景图像,不同的观看者有不同的兴趣点,因此产生不同的视 口位置,如图3所示。全景图像中包含多个物体,不同的观看者对不同的物体 感兴趣,各个物体在视频中的位置不同,将来时段物体的运动轨迹也不同。对 于单个观看者,从大量的观看数据显示,观看者会对感兴趣的物体保持一段时 间的注意力。因此,可根据将来时段被关注的物体的运动预测将来视口的轨迹。 然而,针对不同的观看者,其兴趣物体不一致,因此,本发明提出根据观看者 兴趣的物体运动“轨迹选择”方法。
对于全景视频的多个不同的前景物体,比如电影明星、汽车和动物等。依 据观看者当前视口的位置,计算视口中心与不同物体的距离,距离最近同时满 足该物体位于视口范围内,则该物体被认为该观看者感兴趣的关键物体。在全 景视频中,只有视口范围内是观看者可见的图像区域,视口外的图像对观看者 未知。因此,当前视口内的图像被认为是观看者感兴趣的区域,观看者通常把 关注的物体置于视野的中心,因此,距离视口中心最近的前景物体作为关键物 体。
不同观看者视口位置不同,其视口内的场景也不同。通常可以将场景分为 三类:单个物体,多个物体和无物体。
单个物体指观看者视口内仅仅包含一个物体,则观看者关注的关键物体即 为该物体;多物体指视口内出现了多个前景物体,对多个物体需要判断哪一个 物体为观看者最感兴趣的物体。由于视频图像呈现在球面上,球面上两点之间 用空间角来表示它们的距离,因此,判断关键物体的依据为视口中心和多个前 景物体的最小空间角。通过计算最小空间角得到关键物体,从而利用关键物体 将来时段的运动轨迹诱导预测观看者将来的视口位置。
通过历史视口轨迹,得到了将来时段视口的初始预测,再经过多个前景跟 踪,计算出观看者感兴趣的关键物体将来帧的运动轨迹。将初始视口轨迹预测 和物体运动轨迹结合,得到的联合信息输入第二个LSTM网络训练,产生最终 的轨迹预测结果。
本发明的另一目的在于提供一种利用物体跟踪和历史轨迹全景视频的视口 预测系统。
本发明的优点及积极效果为:
本发明考虑到不同观看者的兴趣物体不同,提出了基于观看者兴趣物体选 择的方法,同时由于观看者历史视口轨迹和将来视口轨迹具有一致性,提出了 基于历史轨迹和物体跟踪的方法预测观看者将来帧的视口轨迹。通过将历史轨 迹信息和视频兴趣信息融合输入流行的LSTM网络训练,从而实现更准确的视 口轨迹预测。预测第5帧和第30帧的平均空间角度误差为0.047和0.298弧度, 相比基准的方法平均提高33%。
附图说明
图1是本发明实施提供的利用物体跟踪和历史轨迹全景视频的视口预测方 法流程图。
图2是本发明说明全景图到球面图的转化。在图2a中,红色圆圈部分表示 观看者的视口。
图3是本发明实施提供的两个观看者视口的演示图。
图4是本发明实施提供的视口轨迹的时间线图。
图5是本发明实施提供的HOP方法的结构图。
图6是本发明实施提供的经度平移为0度的轨迹图。
图7是本发明实施提供的不同观看者视口场景和关键物体选择流程图。
图8是本发明实施提供的不同预测帧长的CDF图。
图9是本发明实施提供的HOP方法和HOP不加物体跟踪的预测轨迹经度 和纬度比较图。
图10是本发明实施提供的使用各种通用的预测方法对第15帧的视口预测 结果进行比较:HOP w/o tracking,WLR和LSTM方法是基准方法;最左边的列 显示原始全景帧,而其他列显示1秒内预测视口的采样结果;红色、绿色和蓝 色圆圈表示生成的视口分别HOP,WLR和LSTM方法,而黄色圆圈代表真实的 视口位置。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例, 对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以 解释本发明,并不用于限定本发明。
下面结合附图对本发明的技术方案作详细的描述。
本发明实施例提供的利用物体跟踪和历史轨迹全景视频的视口预测方法结 合观看者历史的视口轨迹信息和观看者对视频内容的兴趣,实现预测观看者将 来时段的视口轨迹。
如图1所示,本发明实施例提供的利用物体跟踪和历史轨迹全景视频的视 口预测方法包括以下步骤:
S101:利用轨迹平移转换解决视口轨迹的不连续情况;
S102:利用物体跟踪模拟观看者兴趣坐标,诱导视口预测;
S103:构建基于深度学习的视口预测HOP模型,预测未来帧的视口轨迹; 通过将历史轨迹信息和视频兴趣信息融合输入流行的LSTM网络训练,实现更 准确的视口轨迹预测。
本发明提供的HOP方法的架构包括三个组成部分,即历史轨迹,物体跟踪 和融合。
首先,定义符号更准确地表示HOP架构所利用的信息。如表1所示,所定 义的符号将在图5的HOP架构图中作为数据流在多个模块中传递。
表1数据符号定义
观看者的历史轨迹与将来的视口轨迹有较强的相关性,依赖该观看者历史 观看轨迹信息可以预测其将来的观看视口轨迹,如图4所示,设当前视频帧为f0, 历史的前L帧的视口轨迹为需预测的将来k帧的视口轨迹为因此v0为将来k帧的预测起点。图5展示了HOP预测方法的框架,由于 视口轨迹为球面上的曲线,其坐标范围为经度[-π,π],纬度[-π/2,π/2]。当观看者的 视口轨迹从经度-π直接跨越到π时,在经度方向会产生不连续的视口轨迹。因此, 图5中“轨迹平移”模块将解决视口经度不连续问题,通过将视口轨迹平移至经度 0度,并向经度正负其中某一方向延展,从而避免经度在-π到π之间的跨越,纬 度方向保持不变。经过平移后的视口轨迹为为了利用已有的历史视口轨 迹预测将来时段的视口轨迹,采用擅长时序处理的LSTM神经网络结构,经过 LSTM-1网络得到的预测视口轨迹为该视口轨迹为仅依靠历史视口轨 迹的信息的生成结果,为了挖掘观看者的兴趣特征,将进一步对全景视频的内 容进行分析。
从大量的全景视频观看轨迹数据显示,观看者对全景视频的前景物体更感 兴趣,其视口轨迹与全景视频的前景物体的运动有较强的一致性。因此,通过 对视频中的运动物体进行物体轨迹跟踪,将有利于诱导预测视口轨迹。如图5 所示,设将来的k帧全景帧为从将来的全景帧中提取多个物体的运动轨 迹为其中为第i个物体将来k帧的运 动轨迹。根据观看者当前的视口位置,通过图5中“轨迹选择”模块可以估计观看 者感兴趣的关键物体m,从而依据该物体的运动轨迹预测观看者将来k 帧的视口轨迹。为保持数据一致,将关键物体平移至与当前视口v0相连接,平 移后的物体运动轨迹为
融合部分将初步预测的视口轨迹和平移后的运动物体轨迹向量拼接组成并输入LSTM-2网络进行训练,损失函数为L2范数。最后 将网络的输出结果进行逆向的平移,得到最终的预测轨迹
图5中的“轨迹平移”块具体处理如下:
(1)设当前视口坐标表示为vt=(λt,φt),将历史轨迹的第一个视口值的经度 λ1-l平移至0度,余下的L-1个经度平移相同的经度值;
(2)计算ith和i-1th个平移后视口的距离如果距离超过π,表示 该位置的视口平移前横跨±π,给予±2π校正;
“轨迹平移”公式表示为:
“轨迹选择”模块根据观看者当前的视口位置选择该观看者感兴趣的关键物 体m,并提取其将来k帧的运动轨迹现实的观看者观看全景视频的场 景可以分为三个类别:
单个物体:在当前视口v0中,仅包含一个被观看的物体,则物体被认为观 看者感兴趣的物体;
多个物体:当前视口v0内包含多个观看物体,通常观看者把兴趣物体放置 在视口的中心,因此距离视口最近的物体被选为观看者感兴趣的关键物体;
无物体:视口v0内没有运动物体,状态为观看者在不同的物体中切换,则 不输出关键物体。
由于视口轨迹为球面的曲线,因此采用空间角计算多个物体与视口中心的 距离,假设全景帧f0内有d个物体,则ith个物体的空间角αi计算公式为:
其中v0(x,y,z)和是球面笛卡尔坐标对应平面坐标v0=(λ,φ)和 ⊙表示向量的点积,转换公式为:
x=cosφcosλ
y=cosφsinλ
z=sinφ
关键物体m通过找到最小的α得到,表示为:
αm=min{α1,…,αi,…αd}
s.t.αm≤π/2.
因此,关键物体的索引是m,其对应的轨迹可以表示为并且关键物 体必须在当前视口视野范围内。在“无物体”场景中,预测的视口轨迹可以被认为 独立于物体,因此“轨迹选择”模块不输出前景物体的运动轨迹。
1、全景视频吸引了大量的关注,因为它可以实现不同场景的360度体验。 它可以用于多种场景,如体育,社交网络,游戏等,这些广泛的应用反过来进 一步促进全景视频的发展。全景视频克服了视频图像呈现和感知的被动和结构 限制。同时,全景视频的观众成为沉浸在视频场景中的虚拟参与者。每个全景 帧可以分别在水平和垂直方向上覆盖360°×180°信号的范围。如图2a所示,将 平面全景视频投影到球面上以实现身临其境的体验,当观看者带上头戴式显示 器(HMD),其视觉感知为全景视频的图像世界,观看者虚拟地位于渲染球体 的中心。视口指的是全景视频中观看者观看到的视野范围,视口的位置由观看者决定。当观看者观看全景视频时,会产生连续的视口轨迹。视口轨迹为球面 上的曲线,不同的观看者的视口轨迹不同。视口的大小取决于头戴显示器的硬 件配置,通常为60°到110°范围。观看者只对视野内的图像可见,视野外的图像 不可见。
全景视频在社交媒体上广泛可用,例如Facebook,Youtube等。但是,它需 要大量带宽来分发这些全景视频,这些视频通常是超高分辨率(UHD)帧,例 如4096×2160等。此外,观看者的视口仅占据了360度全景视频的一小部分, 而其余部分则不可见。因此,完整分辨率的全景视频传输导致大量带宽浪费, 因为它把可见和不可见的图像部分都通过网络传输,如图3所示。因此,本发 明可以节省不可见图像部分的带宽资源。
2.方法
在本节中,首先介绍问题的表述,然后详细介绍HOP框架和它的组件。使 用的符号在表1中定义。
2.1、问题制定
为节省全景视频中不可见图像部分的传输带宽,通过本发明对全景视频将 来帧针对不同观看者的视口预测,将预测的视口用于视口自适应传输方案,使 得它能根据视口位置,自适应地为视频图像内部区域分配不同的带宽,从而达 到带宽节省的需求。
2.2、结构
为了预测未来帧中的视口,本发明考虑两个方面:历史视口轨迹和全景视 频的图像内容。
如图3所示,观看者可能被同一全景帧的不同区域所吸引。因此,不同观 看者的历史视口轨迹位置也不同。对于单个观看者来说,其历史视口轨迹与将 来帧的视口轨迹高度相关。由于全景图像映射在球面上,因此视口的坐标为球 面上的点。假设vt=(λ,φ)表示tth的视口坐标,其中λ∈[-π,π],φ∈[-π/2,π/2]。 当前的视口为v0,则历史的前L个视口轨迹如下:
如图4所示,展示了L个历史视口轨迹和K个将来帧的视口轨迹时间线。 利用L个历史视口轨迹,可预测K个将来帧轨迹。如图5所示,历史视口轨迹 通过LSTM Cell-1神经网络得到初始视口预测轨迹。
另一方面,全景视频图像内容对观看者的视口轨迹产生一定影响,观看者 对不同的图像内容表现不同的兴趣。通常情况下,观看者对图像的背景兴趣较 少,而对图像中前景物体的兴趣较大。因此,本发明从图像中多个前景物体筛 选出观看者感兴趣的物体,然后将该物体将来帧的运动轨迹信息提取出来,用 于诱导观看者视口的预测。对全景视频的多个物体提取运动轨迹,采用opencv 的物体跟踪方法获取。假设当前帧含有d个物体,则其将来k帧的运动跟踪坐 标表示为:
为第i个物体第t帧的视口位置。图5中的“轨迹选择”模块主要用于从多 个前景物体运动轨迹中选出观看者感兴趣的物体轨迹。因为观看者的视口位置 根据观看者的兴趣移动,所以关键物体的运动有利于预测该观看者将来帧的视 口轨迹。
本发明提出的HOP方法主要思想是结合观看者历史视口的轨迹信息和观看 者感兴趣物体将来帧的运动轨迹信息,预测观看者将来帧的视口轨迹。
假设第k帧的视口预测值为则其用公式表示该HOP框架及其输入输出 数据信息为:
如图5所示,HOP框架中对历史视口轨迹进行了“轨迹平移”处理,将平移 后的历史视口轨迹输入时序神经网络LSTM Cell-1,得到视口初始的预测轨迹。 基于全景图像内容方面,利用物体跟踪从图像提取了多个前景运动物体的运动 轨迹,针对不同观看者的兴趣,通过“轨迹选择”模块选择关键物体的将来帧的运 动轨迹,再利用该轨迹结合初始的预测轨迹共同预测将来帧的视口轨迹。对于 “轨迹平移”模块和“轨迹选择”模块,分别做细致分析。
2.3、“轨迹平移”模块
图6中的“轨迹平移”块具体处理如下:
(1)设当前视口坐标表示为vt=(λt,φt),将历史轨迹的第一个视口值的经度 λ1-l平移至0度,余下的L-1个经度平移相同的经度值;
(2)计算ith和i-1th个平移后视口的距离如果距离超过π,表示 该位置的视口平移前横跨±π,给予±2π校正;
“轨迹平移”公式表示为:
2.4、“轨迹选择”模块
如图7所示,“轨迹选择”模块根据观看者当前的视口位置选择该观看者感兴 趣的关键物体m,并提取其将来k帧的运动轨迹现实的观看者观看全 景视频的场景可以分为三个类别:
单个物体:在当前视口v0中,仅包含一个被观看的物体,则物体被认为观 看者感兴趣的物体;
多个物体:当前视口v0内包含多个观看物体,通常观看者把兴趣物体放置 在视口的中心,因此距离视口最近的物体被选为观看者感兴趣的关键物体;
无物体:视口v0内没有运动物体,状态为观看者在不同的物体中切换,则 不输出关键物体。
由于视口轨迹为球面的曲线,因此采用空间角计算多个物体与视口中心的 距离,假设全景帧f0内有d个物体,则ith个物体的空间角αi计算公式为:
中v0(x,y,z)和是球面笛卡尔 坐标对应平面坐标v0=(λ,φ)和⊙表示向量的点积,转换公式为:
z=sinφ
关键物体m通过找到最小的α得到,表示为:
αm=min{α1,…,αi,…αd}# ⑺
s.t.αm≤π/2.
因此,关键物体的索引是m,其对应的轨迹可以表示为并且每个空 间角小于π/2保证关键物体在当前视口视野范围内。在“无物体”场景中,预测的 视口轨迹可以被认为独立于物体,因此“轨迹选择”模块不输出前景物体的运动 轨迹。
3.实验
本方法的实验部分先定义了衡量该方法的评估指标,接着介绍实验数据, 然后对比其他已有的方法,最后对实验结果进行统计和分析。
3.1、评估指标
由于预测的视口和真实的视口vk在球面上,因此使用空间角度来评估两 点之间的距离。角度差(AE)的计算公式为:
其中和vk(x,y,z)是和vk(λ,φ)的笛卡尔坐标转化。⊙表示两向量的点积。AE的范围是[0,π],AE越小,则其空间角度误差越小,预测越 准确。平均的角度误差(MAE)可表示为:
预测的AE越小,视口部分获取的带宽相对越多,带宽分配越满足观看者需 求。一段时间内,AE的方差越小,则带宽需求越稳定,从而更有利于视口自适 应的带宽分配。角度方差MSD可表述为:
3.2、方法比较
本发明对应的HOP方法将和WLR、LSTM和不加物体跟踪的HOP方法进 行比较。
·WLR:作为线性回归的进化版本,WLR具有不相等的权重,并且其随着 历史视口轨迹的时间轴而增加。时间上越接近当前的视口给予较大的权重。然 而,WLR预测未来的视口轨迹完全依赖于历史视口轨迹,而忽略了全景视频内 容。
·LSTM:考虑到LSTM在序列生成方面的优势,且LSTM相比WLR使用 了更多的神经元进行训练。
·不加物体跟踪的HOP:不加物体跟踪的HOP是HOP的简化版本,此处比 较的作用为体现物体跟踪的有效性。
3.3、数据库
实验数据为观看者观看全景视频的头部运动数据,该数据通过全景视频图 像的3维空间的映射关系可以转化为观看者观看全景视频的视口轨迹。本实验 的观看者人数为50人,每个视频都有1800至2100帧,帧速率为每秒30帧。
3.4、性能
基于评估指标,本发明与WLR、LSTM和不加物体跟踪的HOP方法进行性 能比较。分别对预测帧长k=[5,10,15,20,25,30]的情形进行展示。
图8显示了对AE的累积分布函数(CDF),其中y轴表示累积概率,x轴 表示AE。从图8中可以看出的根据累计概率,HOP方法在所有k值中都优于对 比的方法。具体来说,HOP方法的较小的角度误差的概率具有更高的累计概率。
表2显示了具有不同预测长k的所有方法的MAE和MSD结果。在MAE 方面,的HOP方法比WLR方案优于23.9%至47.7%,对比LSTM方法为7.3% 至26.2%,与HOP无跟踪方案相比,HOP方法有进一步的提高。对于MSD指 标,HOP无跟踪方案的稳定性最高。HOP方法的性能优势是因为:
(1)HOP方法将物体跟踪和历史视口轨迹相结合,然而WLR和LSTM方 法仅依靠历史视口轨迹生成预测视口轨迹。
(2)HOP方法通过“轨迹平移”模块解决了短期内轨迹不连续的问题。
表格2对比不同方法的MAE和MSD指标
图9比较HOP方法和不加物体跟踪的HOP方法,采样了500帧的预测结 果数据。数据显示观看者在一段时间内经度方向的变化要明显多于纬度方向, 符合观看者观看全景视频时更习惯与水平方向的移动。从图中可发现,当观看 者观看方向改变时,HOP能更迅速地跟随改变。
图10选取了3个视频样本,包括单物体和多物体的视频,物体运动快速和 慢速的视频。最左边一列为2D的全景图,右边为全景的部分图像,每个彩色的 点表示预测的视口中心。结果显示本发明提出的HOP方法预测得更接近真实视 口的位置。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发 明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明 的保护范围之内。

Claims (8)

1.一种利用物体跟踪和历史轨迹全景视频的视口预测方法,其特征在于,所述利用物体跟踪和历史轨迹全景视频的视口预测方法结合观看者历史的视口轨迹信息和观看者对视频内容的兴趣,实现预测观看者将来时段的视口轨迹;所述利用物体跟踪和历史轨迹全景视频的视口预测方法包括以下步骤:
步骤一,利用轨迹平移转换解决视口轨迹的不连续情况;
步骤二,利用物体跟踪模拟观看者兴趣坐标,诱导视口预测;
步骤三,构建基于深度学习的视口预测HOP模型,预测未来帧的视口轨迹;通过将历史轨迹信息和视频兴趣信息融合输入流行的LSTM网络训练,实现更准确的视口轨迹预测。
2.如权利要求1所述的利用物体跟踪和历史轨迹全景视频的视口预测方法,其特征在于,所述HOP模型的架构包括三个组成部分,即历史轨迹,物体跟踪和融合;
利用观看者历史观看轨迹信息预测其将来的观看视口轨迹,设当前视频帧为f0,历史的前L帧的视口轨迹为其中v0为将来k帧的预测起点。由于视口轨迹为球面上的曲线,其坐标范围为经度[-π,π],纬度[-π/2,π/2];
当观看者的视口轨迹从经度-π直接跨越到π时,在经度方向会产生不连续的视口轨迹。
3.如权利要求2所述的利用物体跟踪和历史轨迹全景视频的视口预测方法,其特征在于,轨迹平移模块将视口轨迹平移至经度0度,并向经度正负其中某一方向延展,避免经度在-π到π之间的跨越,纬度方向保持不变;经过平移后的视口轨迹为利用已有的历史视口轨迹预测将来时段的视口轨迹,采用LSTM神经网络结构,经过LSTM-1网络得到的预测视口轨迹为
4.如权利要求2所述的利用物体跟踪和历史轨迹全景视频的视口预测方法,其特征在于,融合部分将初步预测的视口轨迹和平移后的运动物体轨迹向量拼接组成并输入LSTM-2网络进行训练,损失函数为L2范数;最后将网络的输出结果进行逆向的平移,得到最终的预测轨迹
5.如权利要求3所述的利用物体跟踪和历史轨迹全景视频的视口预测方法,其特征在于,所述的轨迹平移模块处理如下:
(1)设当前视口坐标表示为v2=(λt,φt),将历史轨迹的第一个视口值的经度λ1-l平移至0度,余下的L-1个经度平移相同的经度值;
(2)计算ith和i-1th个平移后视口的距离如果距离超过π,表示该位置的视口平移前横跨±π,给予±2π校正;
轨迹平移公式表示为:
6.如权利要求3所述的利用物体跟踪和历史轨迹全景视频的视口预测方法,其特征在于,所述的轨迹选择模块根据观看者当前的视口位置选择该观看者感兴趣的关键物体m,并提取其将来k帧的运动轨迹现实的观看者观看全景视频的场景可以分为三个类别:
单个物体:在当前视口v0中,仅包含一个被观看的物体,则物体被认为观看者感兴趣的物体;
多个物体:当前视口v0内包含多个观看物体,通常观看者把兴趣物体放置在视口的中心,因此距离视口最近的物体被选为观看者感兴趣的关键物体;
无物体:视口v0内没有运动物体,状态为观看者在不同的物体中切换,则不输出关键物体。
7.如权利要求6所述的利用物体跟踪和历史轨迹全景视频的视口预测方法,其特征在于,由于视口轨迹为球面的曲线,采用空间角计算多个物体与视口中心的距离,假设全景帧f0内有d个物体,则ith个物体的空间角αi计算公式为:
其中v0(x,y,z)和是球面笛卡尔坐标对应平面坐标v0=(λ,φ)和 ⊙表示向量的点积,转换公式为:
x=cosφcosλ
y=cosφsinλ
z=sinφ
关键物体m通过找到最小的α得到,表示为:
αm=min{α1,...,αi,...αd}
s.t.αm≤π/2.
关键物体的索引是m,其对应的轨迹可以表示为并且关键物体必须在当前视口视野范围内,在无物体场景中,预测的视口轨迹独立于物体。
8.一种权利要求1~7所述的利用物体跟踪和历史轨迹全景视频的视口预测方法的视口预测系统。
CN201910525611.0A 2019-06-18 2019-06-18 利用物体跟踪和历史轨迹全景视频的视口预测方法及系统 Active CN110248178B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910525611.0A CN110248178B (zh) 2019-06-18 2019-06-18 利用物体跟踪和历史轨迹全景视频的视口预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910525611.0A CN110248178B (zh) 2019-06-18 2019-06-18 利用物体跟踪和历史轨迹全景视频的视口预测方法及系统

Publications (2)

Publication Number Publication Date
CN110248178A true CN110248178A (zh) 2019-09-17
CN110248178B CN110248178B (zh) 2021-11-23

Family

ID=67887815

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910525611.0A Active CN110248178B (zh) 2019-06-18 2019-06-18 利用物体跟踪和历史轨迹全景视频的视口预测方法及系统

Country Status (1)

Country Link
CN (1) CN110248178B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111026034A (zh) * 2019-12-02 2020-04-17 江苏金猫机器人科技有限公司 一种基于视频采集的工业喷涂机器控制系统
CN112714321A (zh) * 2020-12-18 2021-04-27 深圳大学 压缩视频处理方法、装置、设备及计算机可读存储介质
CN112785628A (zh) * 2021-02-09 2021-05-11 成都视海芯图微电子有限公司 一种基于全景视角检测跟踪的轨迹预测方法及系统
CN113365156A (zh) * 2021-06-17 2021-09-07 合肥工业大学 一种基于有限视场反馈的全景视频多播流的视角预测方法
WO2022193211A1 (en) * 2021-03-18 2022-09-22 Intel Corporation Real-time adaptive correction in viewport prediction for improved immersive video
CN114827750B (zh) * 2022-05-31 2023-12-22 脸萌有限公司 视角的预测方法、装置、设备及存储介质

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110074916A1 (en) * 2009-09-29 2011-03-31 Toyota Motor Engin. & Manufact. N.A. (TEMA) Electronic control system, electronic control unit and associated methodology of adapting 3d panoramic views of vehicle surroundings by predicting driver intent
CN105323552A (zh) * 2015-10-26 2016-02-10 北京时代拓灵科技有限公司 一种全景视频播放方法及系统
CN105915937A (zh) * 2016-05-10 2016-08-31 上海乐相科技有限公司 一种全景视频播放方法及设备
CN107492113A (zh) * 2017-06-01 2017-12-19 南京行者易智能交通科技有限公司 一种视频图像中运动目标位置预测模型训练方法、位置预测方法及轨迹预测方法
CN108462868A (zh) * 2018-02-12 2018-08-28 叠境数字科技(上海)有限公司 360度全景vr视频中用户凝视点的预测方法
CN108492322A (zh) * 2018-04-04 2018-09-04 南京大学 一种基于深度学习预测用户视场的方法
CN108551586A (zh) * 2018-03-14 2018-09-18 上海交通大学 多用户360度视频流服务器端码率自适应分配方法及系统
US20180295205A1 (en) * 2017-04-06 2018-10-11 Sony Interactive Entertainment Inc. Predictive bitrate selection for 360 video streaming
CN108664122A (zh) * 2018-04-04 2018-10-16 歌尔股份有限公司 一种姿态预测方法和装置
CN108833880A (zh) * 2018-04-26 2018-11-16 北京大学 利用跨用户行为模式进行视点预测并实现虚拟现实视频最优化传输的方法和装置
CN109035327A (zh) * 2018-06-25 2018-12-18 北京大学 基于深度学习的全景相机姿态估计方法
CN109257584A (zh) * 2018-08-06 2019-01-22 上海交通大学 360度视频传输的用户观看视点序列预测方法
CN109413448A (zh) * 2018-11-05 2019-03-01 中山大学 基于深度强化学习的移动设备全景视频播放系统
US20190104324A1 (en) * 2017-10-02 2019-04-04 At&T Intellectual Property I, L.P. Selective streaming of immersive video based on field-of-view prediction
US20190147607A1 (en) * 2017-11-15 2019-05-16 Toyota Research Institute, Inc. Systems and methods for gaze tracking from arbitrary viewpoints

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110074916A1 (en) * 2009-09-29 2011-03-31 Toyota Motor Engin. & Manufact. N.A. (TEMA) Electronic control system, electronic control unit and associated methodology of adapting 3d panoramic views of vehicle surroundings by predicting driver intent
CN105323552A (zh) * 2015-10-26 2016-02-10 北京时代拓灵科技有限公司 一种全景视频播放方法及系统
CN105915937A (zh) * 2016-05-10 2016-08-31 上海乐相科技有限公司 一种全景视频播放方法及设备
US20180295205A1 (en) * 2017-04-06 2018-10-11 Sony Interactive Entertainment Inc. Predictive bitrate selection for 360 video streaming
CN107492113A (zh) * 2017-06-01 2017-12-19 南京行者易智能交通科技有限公司 一种视频图像中运动目标位置预测模型训练方法、位置预测方法及轨迹预测方法
US20190104324A1 (en) * 2017-10-02 2019-04-04 At&T Intellectual Property I, L.P. Selective streaming of immersive video based on field-of-view prediction
US20190147607A1 (en) * 2017-11-15 2019-05-16 Toyota Research Institute, Inc. Systems and methods for gaze tracking from arbitrary viewpoints
CN108462868A (zh) * 2018-02-12 2018-08-28 叠境数字科技(上海)有限公司 360度全景vr视频中用户凝视点的预测方法
CN108551586A (zh) * 2018-03-14 2018-09-18 上海交通大学 多用户360度视频流服务器端码率自适应分配方法及系统
CN108664122A (zh) * 2018-04-04 2018-10-16 歌尔股份有限公司 一种姿态预测方法和装置
CN108492322A (zh) * 2018-04-04 2018-09-04 南京大学 一种基于深度学习预测用户视场的方法
CN108833880A (zh) * 2018-04-26 2018-11-16 北京大学 利用跨用户行为模式进行视点预测并实现虚拟现实视频最优化传输的方法和装置
CN109035327A (zh) * 2018-06-25 2018-12-18 北京大学 基于深度学习的全景相机姿态估计方法
CN109257584A (zh) * 2018-08-06 2019-01-22 上海交通大学 360度视频传输的用户观看视点序列预测方法
CN109413448A (zh) * 2018-11-05 2019-03-01 中山大学 基于深度强化学习的移动设备全景视频播放系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
FUXING YANG,ET AL: "Region Priority Based Adaptive 360-Degree Video Streaming Using DASH", 《2018 INTERNATIONAL CONFERENCE ON AUDIO, LANGUAGE AND IMAGE PROCESSING (ICALIP)》 *
QIN YANG,ET AL: "Single and Sequential Viewports Prediction for 360-Degree Video Streaming", 《 2019 IEEE INTERNATIONAL SYMPOSIUM ON CIRCUITS AND SYSTEMS (ISCAS)》 *
YIXUAN BAN,ET AL: "CUB360-Exploiting Cross-Users Behaviors for Viewport Prediction in 360 Video Adaptive Streaming", 《2018 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO (ICME)》 *
郭宗明,等: "虚拟现实视频传输架构和关键技术", 《中兴通讯技术》 *
马登武,等: "虚拟现实系统中人的头部运动与跟踪研究", 《电光与控制》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111026034A (zh) * 2019-12-02 2020-04-17 江苏金猫机器人科技有限公司 一种基于视频采集的工业喷涂机器控制系统
CN112714321A (zh) * 2020-12-18 2021-04-27 深圳大学 压缩视频处理方法、装置、设备及计算机可读存储介质
CN112714321B (zh) * 2020-12-18 2022-11-22 深圳大学 压缩视频处理方法、装置、设备及计算机可读存储介质
CN112785628A (zh) * 2021-02-09 2021-05-11 成都视海芯图微电子有限公司 一种基于全景视角检测跟踪的轨迹预测方法及系统
CN112785628B (zh) * 2021-02-09 2023-08-08 成都视海芯图微电子有限公司 一种基于全景视角检测跟踪的轨迹预测方法及系统
WO2022193211A1 (en) * 2021-03-18 2022-09-22 Intel Corporation Real-time adaptive correction in viewport prediction for improved immersive video
CN113365156A (zh) * 2021-06-17 2021-09-07 合肥工业大学 一种基于有限视场反馈的全景视频多播流的视角预测方法
CN114827750B (zh) * 2022-05-31 2023-12-22 脸萌有限公司 视角的预测方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN110248178B (zh) 2021-11-23

Similar Documents

Publication Publication Date Title
CN110248178A (zh) 利用物体跟踪和历史轨迹全景视频的视口预测方法及系统
Zhou et al. Video coding optimization for virtual reality 360-degree source
Kim et al. Deep virtual reality image quality assessment with human perception guider for omnidirectional image
Chiariotti A survey on 360-degree video: Coding, quality of experience and streaming
WO2020037965A1 (zh) 一种用于视频预测的多运动流深度卷积网络模型方法
CN106797460B (zh) 三维视频的重建
CN110798673B (zh) 基于深度卷积神经网络的自由视点视频生成及交互方法
CN106919248A (zh) 应用于虚拟现实的内容传输方法以及设备
CN107105333A (zh) 一种基于视线追踪技术的vr视频直播交互方法与装置
US20220400230A1 (en) Avatar virtual arm movement
Zou et al. Probabilistic tile visibility-based server-side rate adaptation for adaptive 360-degree video streaming
CN110443883A (zh) 一种基于dropblock的单张彩色图片平面三维重建方法
CN106056622B (zh) 一种基于Kinect相机的多视点深度视频复原方法
Zhang et al. Dinet: Deformation inpainting network for realistic face visually dubbing on high resolution video
Yang et al. MetaFi: Device-free pose estimation via commodity WiFi for metaverse avatar simulation
WO2023086926A1 (en) Attention based audio adjustment in virtual environments
Jin et al. Ebublio: Edge assisted multi-user 360-degree video streaming
CN115914505A (zh) 基于语音驱动数字人模型的视频生成方法及系统
CN109375766A (zh) 一种基于手势控制的新型学习方法
Dong et al. Predicting long-term field of view in 360-degree video streaming
KR20170055930A (ko) 3d 디스플레이 시스템에서 입체 이미지 디스플레이 방법 및 장치
Chen Research on college physical education model based on virtual crowd simulation and digital media
Hu et al. Mobile edge assisted live streaming system for omnidirectional video
CN116740212A (zh) 基于生成对抗网络的姿势引导人体图像生成及面部优化方法
CN113395505B (zh) 一种基于用户视场的全景视频编码优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant