CN113365156B - 一种基于有限视场反馈的全景视频多播流的视角预测方法 - Google Patents

一种基于有限视场反馈的全景视频多播流的视角预测方法 Download PDF

Info

Publication number
CN113365156B
CN113365156B CN202110672362.5A CN202110672362A CN113365156B CN 113365156 B CN113365156 B CN 113365156B CN 202110672362 A CN202110672362 A CN 202110672362A CN 113365156 B CN113365156 B CN 113365156B
Authority
CN
China
Prior art keywords
layer
time
spcnn
user
panoramic video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110672362.5A
Other languages
English (en)
Other versions
CN113365156A (zh
Inventor
黎洁
韩玲
李奇越
张聪
王枭
陈勇
彭涛
王慧宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202110672362.5A priority Critical patent/CN113365156B/zh
Publication of CN113365156A publication Critical patent/CN113365156A/zh
Application granted granted Critical
Publication of CN113365156B publication Critical patent/CN113365156B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/64Addressing
    • H04N21/6405Multicasting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明公开了一种基于有限视场反馈的全景视频多播流的视角预测方法,包括以下步骤:1、构建基于球面卷积的显著性检测模型,并利用显著性检测模型对全景视频提取显著性特征;2、构建基于球面卷积的记忆网络模型,并利用基于球面卷积的记忆网络模型挖掘少量用户用户视图序列的因果关联性以及特征;3、最后结合视频的时空显著性特征和少量用户视角特征进行融合,得到预测的全体用户视角。本发明考虑了全景视频的映射失真问题,并将显著性检测与少量视角结合起来得到最终预测的用户视角,从而能够实现较高的预测准确率。

Description

一种基于有限视场反馈的全景视频多播流的视角预测方法
技术领域
本发明涉及多媒体视频传输领域,具体的说是一种基于有限视场反馈的全景视频多播流的视角预测方法。
背景技术
沉浸式多媒体,包括全景视频和虚拟/增强现实(VR/AR)视频,最近随着交互式应用程序的需求上升而变得越来越流行。全景视频,借助头戴显示器(HMDs),允许用户自由改变视野的方向,提供了一个非凡的沉浸式体验。然而,传统无线技术的带宽容量与360度视频流的带宽需求之间存在着很大的差距。由于头戴式显示设备HMD的局限性,用户只能看到整个视频的一小部分,因此选择用户感兴趣的视频区域进行传输能够节省带宽和计算资源。若像YouTube的策略一样,传输整个全景的视频内容,造成了带宽和计算资源的巨大浪费。假设用户未来的视角已知,则可以根据用户感兴趣的视频区域选择对应的视频传输,从而在视频传输中有利于带节省带宽资源,并使得用户观看的视频质量和用户体验效果更好。因此,需要预测未来的用户视角。
目前已有许多针对全景视频视角预测的研究。深圳大学的霍永凯等人发明了利用物体跟踪和历史轨迹全景视频的视角预测方法及系统(公开号:CN110248178A),利用物体跟踪和历史轨迹全景视频的视角预测方法包括以下步骤:利用轨迹平移转换解决视角轨迹的不连续情况;利用对全景视频物体跟踪的轨迹模拟观看者兴趣坐标;构建基于深度学习的视角预测模型,预测未来帧的视角轨迹。然而,许多用户在观看全景视频时都有自己独特的探索轨迹。因此,使用根据用户历史轨迹来预测未来的视角利用单一模型来预测所有用户的移动是不准确的。
叠境数字科技(上海)有限公司的高盛华等人发明了一种全景视频中用户凝视点的预测方法(公开号:CN108462868A),包括:获取过往用户观看特定视频时,视频帧和凝视点位置的样本集;建立人工神经网路,包括轨迹编码模块、显著性编码模块以及差值预测模块;将样本集输入人工神经网路中进行训练,使得到与用户实际的凝视点位置的欧氏距离最小的凝视点预测位置。但是此方法没有考虑到全景视频的映射失真问题,不能提高预测的准确性。
上海交通大学的宋利等人发明了一种多重CNN网络预测全景视频观看位置的方法(公开号:CN110166850A),该方法包括:基于前一段时间的观看轨迹,运用神经网络方法预测出下一时刻的观看点;将全景视频帧映射成多个方向上的小视频帧,每个小视频帧通过第一个卷积神经网络CNN得到相应的显著图,将显著图合并成整个的视频帧的显著图,再将整个的视频帧的显著图通过第二个卷积神经网络CNN进行精炼得到全景视频帧显著图;由于在观看全景视频时,视频上面和下面的区域关注比较少,较多关注的是中间区域,而每个区域都会有自己的显著图,所以将全景视频帧进行映射,得到上下前后左右6个方向上的映射图,并将这6幅映射图分别通过第一个CNN网络得到6幅相应的显著图,然后将这6幅显著图反映射成一整幅整个的视频帧的显著图,该显著图为灰度图;将预测的所述观看点和全景视频帧显著图输入到全连接网络,得到最终的预测点即全景视频观看位置点。虽然此方法考虑了全景视频的映射失真问题,并且通过立方体映射尽可能的降低失真的问题,但是,还引入了补丁边界的额外不连续性,并且可能需要进行后处理以结合每个补丁的单独输出,不能提高预测的准确性。
发明内容
本发明是为避免上述现有技术所存在的不足之处,提供一种基于有限视场反馈的全景视频多播流的视角预测方法,以期将显著性检测与少量视角结合起来得到最终预测的用户视角,从而克服全景视频的映射失真问题,并提高显著性检测模型的准确性和提高视角预测准确率。
本发明为解决技术问题采用如下技术方案:
本发明一种基于有限视场反馈的全景视频多播流的视角预测方法的特点是应用于多播网络场景中,所述多播网络场景中包含全景视频服务器和N个客户端;所述全景视频服务器和客户端之间的上行链路中包含有从客户端到全景视频服务器的反馈信道;所述反馈信道用于将用户的实时视角信息反馈给全景视频服务器,并由所述服务器进行视角预测;所述全景视频多播流的视角预测方法是按如下步骤进行:
步骤一、构建基于球面卷积的显著性检测模型,所述显著性检测模型包括:显著性特征提取模块MST-SPCNN和基于球面卷积注意力模块MSP-CBAM
所述显著性特征提取模块MST-SPCNN包括:空间特征提取单元MS-SPCNN和时间特征提取单元MT-SPCNN;所述空间特征提取单元MS-SPCNN以视频中t时刻的单帧全景图像χt为输入,并提取单帧图像χt中的空间尺度特征Ft S
所述时间特征提取单元MT-SPCNN以连续t时刻到t+τ时刻的多帧图像(χtt+1,...,χt+τ)为输入,并提取多帧图像间的时间尺度特征Ft T;将t时刻的空间尺度特征Ft S和时间尺度特征Ft T按通道串联后,得到t时刻的时空特征Ft ST
将t时刻的时空特征Ft ST输入到所述球面卷积注意力模块MSP-CBAM中并输出最终的时空特征Ft′,将时空特征Ft′映射为t时刻的显著性特征图Pt s;1≤t≤t+τ≤tmax,tmax表示全景视频的时长;
步骤二、根据N个用户通过反馈信道反馈的{t-k,...,t-2,t-1}时刻的历史视角信息,从中随机选择R个用户在{t-k,...,t-2,t-1}时刻的历史视角信息;
根据所选择的每个用户在{t-k,...,t-2,t-1}的历史视角信息,利用高斯分布生成每个用户在{t-k,…,t-2,t-1}时刻的历史视图序列,记为
Figure GDA0003463462850000031
其中,
Figure GDA0003463462850000032
表示第r个用户反馈的{t-k,...,t-2,t-1}时刻的历史视图序列,
Figure GDA0003463462850000033
表示第r个用户反馈的t-k时刻的历史用户视图,1≤r≤R≤N;
将R个用户在{t-k,...,t-2,t-1}时刻的历史用户视图序列相加,得到用户视图序列,记为(Xt-k,...,Xt-2,Xt-1);其中,Xt-k表示R个用户在t-k时刻的视图序列;
步骤三、构建视角预测模块,所述视角预测模块包含基于球面卷积的双层记忆网络模型,M2SP-ConvGRU;所述双层记忆网络模型M2SP-ConvGRU是由两层基于球面卷积的记忆单元MSP-ConvGRU构成,所述记忆单元MSP-ConvGRU是在GRU模型其输入到状态转换以及状态到状态转换中,用球面卷积代替元素级的乘法;
将用户视图序列(Xt-k,...,Xt-2,Xt-1)作为双层记忆网络模块M2SP-ConvGRU的输入,并进行特征挖掘和提取后,输出双层记忆网络模块M2SP-ConvGRU中第二层t时刻的隐藏层特征,并作为t时刻的视角特征后映射为用户特征图Pt v
步骤四、将显著性特征图Pt s和用户特征图Pt v进行融合,得到t时刻预测的全体用户视角Pt
本发明所述的基于有限视场反馈的全景视频多播流的视角预测方法的特点也在于,所述步骤一中的空间特征提取单元MS-SPCNN,包括:空间压缩路径和空间扩张路径;
所述空间压缩路径包括i层结构,记为
Figure GDA0003463462850000041
其中,第1层到第i-1层
Figure GDA0003463462850000042
中的每一层均依次由球面卷积层MSPCNN、ReLU层、BN层和最大池化层构成,第i层
Figure GDA0003463462850000043
中依次有球面卷积层MSPCNN、ReLU层和BN层;
所述空间扩张路径包括j层结构,记为
Figure GDA0003463462850000044
第1层到第j层
Figure GDA0003463462850000045
中的每一层均依次由第一上采样层、球面卷积层M′SPCNN、ReLU层和BN层构成;
将视频中t时刻的单帧全景图像χt输入到空间特征提取单元MS-SPCNN中经过所述空间压缩路径后,由第i层
Figure GDA0003463462850000046
输出的特征再经过空间扩张路径后,由第j层
Figure GDA0003463462850000047
输出空间特征Ft S
所述步骤一中的时间特征提取单元MT-SPCNN,包括:时间压缩路径和时间扩张路径;
所述时间压缩路径包括m层结构,记为
Figure GDA0003463462850000048
其中,第1层到第m层
Figure GDA0003463462850000049
中每一层均依次由球面卷积层M″SPCNN,ReLU层和BN层构成;
所述时间扩张路径包括j层结构,记为
Figure GDA00034634628500000410
第1层到第1到j层
Figure GDA00034634628500000411
中每一层均依次由第二上采样层,球面卷积层M″′SPCNN,ReLU层和BN层构成;
将连续t时刻到t+τ时刻的多帧图像(χtt+1,...,χt+τ)输入到所述时间特征提取单元MT-SPCNN,经过所述时间压缩路径后,由第m层
Figure GDA00034634628500000412
输出的特征再经过时间扩张路径后,由第j层
Figure GDA00034634628500000413
输出时间特征Ft T
所述步骤四是按如下过程进行:
步骤4.1、将显著性特征图Pt s分割成Γ×Ψ个像素块,记为
Figure GDA00034634628500000414
Figure GDA00034634628500000415
表示显著性特征图
Figure GDA00034634628500000416
中第i个像素块,
Figure GDA00034634628500000417
表示第i个像素块的最大像素值,1≤i≤Γ×Ψ;
步骤4.2、将视角特征图Pt v也分割成Γ×Ψ个像素块,记为{Vt 1,Vt 2,...,Vt i,...,Vt Γ×Ψ},Vt i表示视角特征图Pt v中第i个像素块,max{Vt i}表示第i个像素块的最大像素值;
步骤4.3、利用式(1)得到构造显著性特征图Pt s的权重
Figure GDA00034634628500000418
Figure GDA0003463462850000051
步骤4.4、利用式(2)得到视角特征图Pt v的权重
Figure GDA0003463462850000052
Figure GDA0003463462850000053
Figure GDA0003463462850000054
步骤4.5、利用式(3)构建t时刻预测的全体用户视角Pt
Figure GDA0003463462850000055
与现有技术相比,本发明的有益效果体现在:
1.本发明方法考虑了全景视频失真的影响,并利用球面卷积消除了视频失真的影响,从而提高了多用户视角预测的准确率。
2.本发明将显著性检测与反馈的少量的用户历史视角相结合,提出了一种以显著性检测为主,少量视角信息为辅的视角预测方法,从而提高了多用户视角预测的准确率。
附图说明
图1为本发明中所提出的基于有限视场反馈的全景视频多播流的视角预测方法的应用场景图;
图2为本发明中所提出的基于有限视场反馈的全景视频多播流的视角预测方法中显著性检测模型的系统结构图;
图3为本发明中所提出的基于有限视场反馈的全景视频多播流的视角预测方法中视角预测模块的系统结构图。
具体实施方式
本实施例中,一种基于有限视角反馈的全景视频多播流的视角预测方法,如图1所示,是应用于多播网络场景中,该多播网络场景中存在着全景视频服务器和N个客户端;全景视频服务器和客户端之间的上行链路中包含有从用户端到全景视频服务器的反馈信道;反馈信道用于把用户的实时视角信息反馈给全景视频服务器,帮助服务器进行视角预测工作。如图2所示,基于有限视场反馈的全景视频多播流的视角预测方法中显著性检测模型具体包括以下步骤:
步骤1、构建基于球面卷积的显著性检测模型,显著性检测模型包括:显著性特征提取模块MST-SPCNN和基于球面卷积注意力模块MSP-CBAM
显著性特征提取模块MST-SPCNN包括:空间特征提取单元MS-SPCNN和时间特征提取单元MT-SPCNN;空间特征提取单元MS-SPCNN以视频中t时刻的单帧全景图像χt为输入,并提取单帧图像χt中的空间尺度特征Ft S
时间特征提取单元MT-SPCNN以连续t时刻到t+τ时刻的多帧图像(χtt+1,...,χt+τ)为输入,并提取多帧图像间的时间尺度特征Ft T;从而利用式(1)将t时刻的空间尺度特征Ft S和时间尺度特征Ft T按通道串联后,得到t时刻的时空特征Ft ST
Ft ST=(Ft S;Ft T) (1)
将t时刻的时空特征Ft ST输入到球面卷积注意力模块MSP-CBAM中,利用式(2)输出最终的时空特征Ft′,将时空特征Ft′映射为t时刻的显著性特征图Pt s;1≤t≤t+τ≤tmax,tmax表示全景视频的时长;
Ft'=(MSP-CBAM(MSPCNN(Ft ST));Ft ST) (2)
具体实施中,该空间特征提取单元MS-SPCNN,其结构与Unet类似,包括:空间压缩路径和空间扩张路径;
空间压缩路径包括i层结构,记为
Figure GDA0003463462850000061
其中,第1层到第i-1层
Figure GDA0003463462850000062
中的每一层均依次由球面卷积层MSPCNN、ReLU层、BN层和最大池化层构成,第i层
Figure GDA0003463462850000063
中依次有球面卷积层MSPCNN、ReLU层和BN层;
空间扩张路径包括j层结构,记为
Figure GDA0003463462850000064
第1层到第j层
Figure GDA0003463462850000065
中的每一层均依次由第一上采样层、球面卷积层M′SPCNN、ReLU层和BN层构成;
将视频中t时刻的单帧全景图像χt输入到空间特征提取单元MS-SPCNN中经过空间压缩路径后,由第i层
Figure GDA0003463462850000066
输出的特征再经过空间扩张路径后,由第j层
Figure GDA0003463462850000067
输出空间特征Ft S
该构造时间特征提取单元MT-SPCNN,其结构采用与Flownet类似的结构,包括:时间压缩路径和时间扩张路径;
时间压缩路径包括m层结构,记为
Figure GDA0003463462850000071
其中,第1层到第m层
Figure GDA0003463462850000072
中每一层均依次由球面卷积层M″SPCNN,ReLU层和BN层构成;
时间扩张路径包括j层结构,记为
Figure GDA0003463462850000073
第1层到第1到j层
Figure GDA0003463462850000074
中每一层均依次由第二上采样层,球面卷积层M″′SPCNN,ReLU层和BN层构成;
将连续t时刻到t+τ时刻的多帧图像(χtt+1,...,χt+τ)输入到MT-SPCNN,经过述时间压缩路径后,由第m层
Figure GDA0003463462850000075
输出的特征再经过时间扩张路径后,由第j层
Figure GDA0003463462850000076
输出时间特征Ft T
步骤2、根据N个用户通过反馈信道反馈的{t-k,...,t-2,t-1}时刻的历史视角信息,从中随机选择R个用户在{t-k,...,t-2,t-1}时刻的历史视角信息;
根据所选择的每个用户在{t-k,…,t-2,t-1}的历史视角信息,利用高斯分布生成每个用户在{t-k,…,t-2,t-1}时刻的历史视图序列,记为
Figure GDA0003463462850000077
其中,
Figure GDA0003463462850000078
表示第r个用户反馈的{t-k,…,t-2,t-1}时刻的历史视图序列,
Figure GDA0003463462850000079
表示第r个用户反馈的t-k时刻的历史用户视图,1≤r≤R≤N;
将R个用户在{t-k,…,t-2,t-1}时刻的历史用户视图序列相加,得到用户视图序列,记为(Xt-k,…,Xt-2,Xt-1);其中,
Figure GDA00034634628500000710
表示R个用户在t-k时刻的视图序列;
步骤2.1、将R个用户用户视图序列相加,记为(Xt-k,...,Xt-2,Xt-1),并有:
Figure GDA00034634628500000711
步骤3、如图3所示,构建视角预测模块,该视角预测模块包含基于球面卷积的双层记忆网络模型,记为M2SP-ConvGRU;M2SP-ConvGRU是由两层基于球面卷积的记忆单元MSP-ConvGRU构成,且基于球面卷积的记忆单元MSP-ConvGRU是通过传统的GRU模型拓展而来,在传统的GRU模型的输入到状态转换和状态到状态转换中,用球面卷积代替了元素级的乘法;
将用户视图序列(Xt-k,…,Xt-2,Xt-1)作为双层记忆网络模块M2SP-ConvGRU的输入,并利用式(4)将进行特征挖掘和提取后,将双层记忆网络模块M2SP-ConvGRU中第二层t时刻的隐藏层特征作为t时刻的视角特征Ft V并映射为用户特征图Pt v
Figure GDA0003463462850000081
步骤4、将显著性特征图Pt s和用户特征图Pt v进行融合,得到t时刻预测的全体用户视角Pt
步骤4.1、将显著性特征图Pt s分割成Γ×Ψ个像素块,记为
Figure GDA0003463462850000082
Figure GDA0003463462850000083
表示显著性特征图Pt s中第i个像素块,
Figure GDA0003463462850000084
表示第i个像素块的最大像素值,1≤i≤Γ×Ψ;
步骤4.2、将视角特征图Pt v也分割成Γ×Ψ个像素块,记为
Figure GDA0003463462850000085
Vt i表示视角特征图Pt v中第i个像素块,max{Vt i}表示第i个像素块的最大像素值;
步骤4.3、利用式(5)得到构造显著性特征图Pt s的权重
Figure GDA0003463462850000086
Figure GDA0003463462850000087
步骤4.4、利用式(6)得到视角特征图Pt v的权重
Figure GDA0003463462850000088
Figure GDA0003463462850000089
Figure GDA00034634628500000810
步骤4.5、利用式(7)构建t时刻预测的全体用户视角Pt
Figure GDA00034634628500000811
综上所述,本方法考虑了全景视频的映射失真问题,利用球面卷积消除了全景视频的映射失真问题所带来的影响,并将显著性检测与少量视角结合起来得到最终预测的用户视角,且显著性检测模型中结合空间特征和时间特征以及利用球面卷积注意力模块加强时空特征,因而能够实现较高的预测准确率。

Claims (4)

1.一种基于有限视场反馈的全景视频多播流的视角预测方法,其特征是应用于多播网络场景中,所述多播网络场景中包含全景视频服务器和N个客户端;所述全景视频服务器和客户端之间的上行链路中包含有从客户端到全景视频服务器的反馈信道;所述反馈信道用于将用户的实时视角信息反馈给全景视频服务器,并由所述服务器进行视角预测;所述全景视频多播流的视角预测方法是按如下步骤进行:
步骤一、构建基于球面卷积的显著性检测模型,所述显著性检测模型包括:显著性特征提取模块MST-SPCNN和基于球面卷积注意力模块MSP-CBAM
所述显著性特征提取模块MST-SPCNN包括:空间特征提取单元MS-SPCNN和时间特征提取单元MT-SPCNN;所述空间特征提取单元MS-SPCNN以视频中t时刻的单帧全景图像χt为输入,并提取单帧图像χt中的空间尺度特征Ft S
所述时间特征提取单元MT-SPCNN以连续t时刻到t+τ时刻的多帧图像(χtt+1,...,χt+τ)为输入,并提取多帧图像间的时间尺度特征Ft T;将t时刻的空间尺度特征Ft S和时间尺度特征Ft T按通道串联后,得到t时刻的时空特征Ft ST
将t时刻的时空特征Ft ST输入到所述球面卷积注意力模块MSP-CBAM中并输出最终的时空特征Ft′,将时空特征Ft′映射为t时刻的显著性特征图Pt s;1≤t≤t+τ≤tmax,tmax表示全景视频的时长;
步骤二、根据N个用户通过反馈信道反馈的{t-k,...,t-2,t-1}时刻的历史视角信息,从中随机选择R个用户在{t-k,...,t-2,t-1}时刻的历史视角信息;
根据所选择的每个用户在{t-k,...,t-2,t-1}的历史视角信息,利用高斯分布生成每个用户在{t-k,...,t-2,t-1}时刻的历史视图序列,记为
Figure FDA0003463462840000011
其中,
Figure FDA0003463462840000012
表示第r个用户反馈的{t-k,...,t-2,t-1}时刻的历史视图序列,
Figure FDA0003463462840000013
表示第r个用户反馈的t-k时刻的历史用户视图,1≤r≤R≤N;
将R个用户在{t-k,...,t-2,t-1}时刻的历史用户视图序列相加,得到用户视图序列,记为(Xt-k,...,Xt-2,Xt-1);其中,Xt-k表示R个用户在t-k时刻的视图序列;
步骤三、构建视角预测模块,所述视角预测模块包含基于球面卷积的双层记忆网络模型,M2SP-ConvGRU;所述双层记忆网络模型M2SP-ConvGRU是由两层基于球面卷积的记忆单元MSP-ConvGRU构成,所述记忆单元MSP-ConvGRU是在GRU模型其输入到状态转换以及状态到状态转换中,用球面卷积代替元素级的乘法;
将用户视图序列(Xt-k,...,Xt-2,Xt-1)作为双层记忆网络模块M2SP-ConvGRU的输入,并进行特征挖掘和提取后,输出双层记忆网络模块M2SP-ConvGRU中第二层t时刻的隐藏层特征,并作为t时刻的视角特征后映射为用户特征图Pt v
步骤四、将显著性特征图Pt s和用户特征图Pt v进行融合,得到t时刻预测的全体用户视角Pt
2.根据权利要求1所述的基于有限视场反馈的全景视频多播流的视角预测方法,其特征是,所述步骤一中的空间特征提取单元MS-SPCNN,包括:空间压缩路径和空间扩张路径;
所述空间压缩路径包括i层结构,记为
Figure FDA0003463462840000021
其中,第1层到第i-1层
Figure FDA0003463462840000022
中的每一层均依次由球面卷积层MSPCNN、ReLU层、BN层和最大池化层构成,第i层
Figure FDA0003463462840000023
中依次有球面卷积层MSPCNN、ReLU层和BN层;
所述空间扩张路径包括j层结构,记为
Figure FDA0003463462840000024
第1层到第j层
Figure FDA0003463462840000025
中的每一层均依次由第一上采样层、球面卷积层M′SPCNN、ReLU层和BN层构成;
将视频中t时刻的单帧全景图像χt输入到空间特征提取单元MS-SPCNN中经过所述空间压缩路径后,由第i层
Figure FDA0003463462840000026
输出的特征再经过空间扩张路径后,由第j层
Figure FDA0003463462840000027
输出空间特征Ft S
3.根据权利要求1所述的基于有限视场反馈的全景视频多播流的视角预测方法,其特征是,所述步骤一中的时间特征提取单元MT-SPCNN,包括:时间压缩路径和时间扩张路径;
所述时间压缩路径包括m层结构,记为
Figure FDA0003463462840000028
其中,第1层到第m层
Figure FDA0003463462840000029
中每一层均依次由球面卷积层M″SPCNN,ReLU层和BN层构成;
所述时间扩张路径包括j层结构,记为
Figure FDA0003463462840000031
第1层到第1到j层
Figure FDA0003463462840000032
中每一层均依次由第二上采样层,球面卷积层M″′SPCNN,ReLU层和BN层构成;
将连续t时刻到t+τ时刻的多帧图像(χtt+1,...,χt+τ)输入到所述时间特征提取单元MT-SPCNN,经过所述时间压缩路径后,由第m层
Figure FDA0003463462840000033
输出的特征再经过时间扩张路径后,由第j层
Figure FDA0003463462840000034
输出时间特征Ft T
4.根据权利要求1所述的基于有限视场反馈的全景视频多播流的视角预测方法,其特征是,所述步骤四是按如下过程进行:
步骤4.1、将显著性特征图Pt s分割成Γ×Ψ个像素块,记为
Figure FDA0003463462840000035
Figure FDA0003463462840000036
表示显著性特征图Pt s中第i个像素块,
Figure FDA0003463462840000037
表示第i个像素块的最大像素值,1≤i≤Γ×Ψ;
步骤4.2、将视角特征图Pt v也分割成Γ×Ψ个像素块,记为{Vt 1,Vt 2,...,Vt i,...,Vt Γ×Ψ},Vt i表示视角特征图Pt v中第i个像素块,max{Vt i}表示第i个像素块的最大像素值;
步骤4.3、利用式(1)得到构造显著性特征图Pt s的权重
Figure FDA0003463462840000038
Figure FDA0003463462840000039
步骤4.4、利用式(2)得到视角特征图Pt v的权重
Figure FDA00034634628400000310
Figure FDA00034634628400000311
Figure FDA00034634628400000312
步骤4.5、利用式(3)构建t时刻预测的全体用户视角Pt
Figure FDA00034634628400000313
CN202110672362.5A 2021-06-17 2021-06-17 一种基于有限视场反馈的全景视频多播流的视角预测方法 Active CN113365156B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110672362.5A CN113365156B (zh) 2021-06-17 2021-06-17 一种基于有限视场反馈的全景视频多播流的视角预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110672362.5A CN113365156B (zh) 2021-06-17 2021-06-17 一种基于有限视场反馈的全景视频多播流的视角预测方法

Publications (2)

Publication Number Publication Date
CN113365156A CN113365156A (zh) 2021-09-07
CN113365156B true CN113365156B (zh) 2022-03-11

Family

ID=77534760

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110672362.5A Active CN113365156B (zh) 2021-06-17 2021-06-17 一种基于有限视场反馈的全景视频多播流的视角预测方法

Country Status (1)

Country Link
CN (1) CN113365156B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114584850B (zh) * 2022-03-09 2023-08-25 合肥工业大学 一种面向点云视频流媒体传输的用户视角预测方法
CN114827750B (zh) * 2022-05-31 2023-12-22 脸萌有限公司 视角的预测方法、装置、设备及存储介质
CN115861359B (zh) * 2022-12-16 2023-07-21 兰州交通大学 一种水面漂浮垃圾图像自适应分割提取方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108462868A (zh) * 2018-02-12 2018-08-28 叠境数字科技(上海)有限公司 360度全景vr视频中用户凝视点的预测方法
WO2020069976A1 (en) * 2018-10-01 2020-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concepts for improved head motion prediction and efficient encoding of immersive video
CN109413448A (zh) * 2018-11-05 2019-03-01 中山大学 基于深度强化学习的移动设备全景视频播放系统
US10638165B1 (en) * 2018-11-08 2020-04-28 At&T Intellectual Property I, L.P. Adaptive field of view prediction
CN110248178B (zh) * 2019-06-18 2021-11-23 深圳大学 利用物体跟踪和历史轨迹全景视频的视口预测方法及系统
CN112822564B (zh) * 2021-01-06 2023-03-24 鹏城实验室 一种基于视点的全景视频自适应流媒体传输方法及系统

Also Published As

Publication number Publication date
CN113365156A (zh) 2021-09-07

Similar Documents

Publication Publication Date Title
CN113365156B (zh) 一种基于有限视场反馈的全景视频多播流的视角预测方法
Bao et al. Motion-prediction-based multicast for 360-degree video transmissions
Li et al. Spherical convolution empowered viewport prediction in 360 video multicast with limited FoV feedback
CN110012352B (zh) 图像特效处理方法、装置及视频直播终端
CN112954312B (zh) 一种融合时空特征的无参考视频质量评估方法
WO2019238114A1 (zh) 动态模型三维重建方法、装置、设备和存储介质
CN109792562A (zh) 视频数据的基于内容的流分割
CN110166850B (zh) 多重cnn网络预测全景视频观看位置的方法和系统
CN112581627A (zh) 用于体积视频的用户控制的虚拟摄像机的系统和装置
CN109257584B (zh) 360度视频传输的用户观看视点序列预测方法
KR102107055B1 (ko) 기계학습 기반의 스포츠 중계 영상 추천 방법 및 장치
US20230154104A1 (en) UNCERTAINTY-AWARE FUSION TOWARDS LARGE-SCALE NeRF
CN112652058A (zh) 人脸图像重演方法、装置、计算机设备及存储介质
WO2024060669A1 (zh) 动作迁移方法、装置、终端设备及存储介质
WO2014205769A1 (en) Local binary pattern-based optical flow
CN115546162A (zh) 一种虚拟现实图像质量评估方法及系统
CN112468806B (zh) 一种用于云vr平台的全景视频传输优化方法
CN112862675A (zh) 时空超分辨率的视频增强方法和系统
Chen et al. Lightweight neural network-based viewport prediction for live VR streaming in wireless video sensor network
CN113556600B (zh) 基于时序信息的驱动控制方法、装置、电子设备和可读存储介质
CN116071427A (zh) 一种轻量级视频人体姿态识别系统
Ozcinar et al. Delivery of omnidirectional video using saliency prediction and optimal bitrate allocation
Guo et al. No-reference omnidirectional video quality assessment based on generative adversarial networks
CN110401832B (zh) 一种基于时空管道建模的全景视频客观质量评估方法
Xu et al. Content assisted viewport prediction for panoramic video streaming

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant