CN113411557B - 适用于蜂窝网络的vr全景视频优化传输方法 - Google Patents

适用于蜂窝网络的vr全景视频优化传输方法 Download PDF

Info

Publication number
CN113411557B
CN113411557B CN202110507947.1A CN202110507947A CN113411557B CN 113411557 B CN113411557 B CN 113411557B CN 202110507947 A CN202110507947 A CN 202110507947A CN 113411557 B CN113411557 B CN 113411557B
Authority
CN
China
Prior art keywords
video
transmission
client
panoramic
window
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110507947.1A
Other languages
English (en)
Other versions
CN113411557A (zh
Inventor
蒋林华
陈恩涛
张冠华
曾新华
庞成鑫
宋梁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN202110507947.1A priority Critical patent/CN113411557B/zh
Publication of CN113411557A publication Critical patent/CN113411557A/zh
Application granted granted Critical
Publication of CN113411557B publication Critical patent/CN113411557B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/363Image reproducers using image projection screens
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/80Responding to QoS
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • H04N13/117Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation the virtual viewpoint locations being selected by the viewers or determined by viewer tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/158Switching image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/149Data rate or code amount at the encoder output by estimating the code amount by means of a model, e.g. mathematical model or statistical model
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • H04N19/423Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation characterised by memory arrangements

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physics & Mathematics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明属于计算机网络应用层协议技术领域,具体为一种适用于蜂窝网络的VR全景视频优化传输方法。本发明方法包括:VR全景视频的投影、压缩、切片与分块;使用显著性检测对视频进行多焦点的冗余存储,其中采用3D卷积神经网络对样本视频进行有监督学习,得到预测模型用于预测显著区域,随后进行多焦点的冗余存储;视窗自适应传输协议,该协议是基于UDP的应用层协议,并保证视频流即时传输时有缓冲空间;基于头部运动方向预测的预传输,使用机器学习方法,建立方向预测模型,利用预测模型,预测出客户端下一段时间需要的视频片段,通过预传输的方式有效提高客户端视频流畅度。本发明模型简单,可以显著提升传输效率,保证实时性。

Description

适用于蜂窝网络的VR全景视频优化传输方法
技术领域
本发明属于计算机网络应用层协议技术领域,具体涉及一种在蜂窝网络下高效传输VR全景视频的传输方法。
背景技术
从近年全球VR(虚拟现实)产品出货量来看,消费级VR一体机将成为未来很长一段时间的市场主流趋势,并且随着5G网络的普及,VR一体机即将搭载5G芯片,在蜂窝网络环境下实现设备端与服务器端的通信。随着VR内容制作越来越精良、视频质量越来越高,对蜂窝网络的带宽、延迟要求也远远高于普通的平面视频,而现有的VR全景视频传输技术多是基于传统平面视频传输方法的简单改进,难以适应超高质量VR全景视频的传输,因此迫切需要一种高效的VR视频专用传输方法。
当前VR全景视频传输方法主要有两种:一是服务器端向设备端直接传输全景视频;二是服务器端根据设备端反馈的实时坐标传输当前的局部视窗。
上述第一种方法机理较为简单,与用于平面视频的流媒体技术相似,服务器端直接向设备端传输VR全景视频,除此之外几乎没有额外的操作,在客户端进行坐标转换,展现当前的局部视窗。这种传输方法会导致浪费大量网络带宽、网络延迟较高,并且大大增加设备端的负担,不仅对VR设备实时处理能力要求极高,还浪费了设备电能。
上述第二种方法则是略有改进的传输方法,即根据VR设备视窗大小对全景视频进行切割,在服务器端进行坐标转换,向设备端传输当前的局部视窗。这种方法虽然节省了带宽,但是VR设备的交互性大打折扣:视窗随着用户头部的转动需要及时刷新,否则会出现图像拖尾、视频卡顿等严重影响用户体验的情况。而以当前的网络延迟,很难满足如此高的视频刷新率,另外,实时分割传输视频也增加了服务器的负担。
综上所述,现有技术存在以下缺点:①大量浪费网络带宽、网络延迟较高;②服务端、设备端开销过大,难以保证实时性;③对设备端性能要求较高,不符合瘦终端的市场需求。
发明内容
本发明旨在克服现有技术的不足,提供一种适用于蜂窝网络的VR全景视频优化传输方法,以解决传统VR全景视频传输中对蜂窝网络带宽浪费较多、网络延迟较高、服务器与设备端开销过大等问题。
本发明提供的适用于蜂窝网络的VR全景视频优化传输方法,具体步骤为:
(1)VR全景视频的投影、压缩、切片与分块
由于目前还没有可以直接用于360度全景视频压缩的算法,因此首先需要将VR全景视频投影映射到平面视频,然后使用平面视频的压缩算法进行压缩与解压。这里采用的投影技术是等距柱状投影(Equi-Rectangular Projection,简称ERP),这种投影的特点是映射过程中球的经纬线距离不变,采样密度从赤道向两极逐渐增大,直到极点处达到无穷大,如图1所示。视频压缩算法可以视情况选择平面视频压缩算法,这里采用的是目前最常用的H264压缩算法。
对视频进行切片是为了灵活应对用户头部转动时视窗的切换,经过大量实验统计,用户头部保持不动的平均时长在2秒左右,因此这里选择2秒作为切片长度。
对单帧全景图像进行分块是为之后的显著性检测标定焦点区域提供便捷,分块操作如图2所示,以左上角为坐标原点,每个区块以一个(x,y)坐标标定,这里选择边长为64像素的方块,则对于4K(4096×2160)分辨率的屏幕,需要传输的区块数量为64*34(或65*35)。
(2)使用显著性检测对视频进行多焦点的冗余存储
对视频进行显著性检测标定在全景视频中最有可能被凝视的区域,这里采用的是深度学习中的3D卷积神经网络技术对样本视频进行有监督学习,得到一个预测效果良好的模型预测显著区域,并且随着数据量的增大和用户反馈的坐标信息可以进一步优化模型以达到更高的准确率。3D卷积神经网络的输入视频采样频率为2帧/秒,每次输入4张图片进行预测。
显著性区域标定完成后,需要进一步加工,以保证标定区域在时间上的连贯性。随后进行多焦点的冗余存储,具体操作是(如图4所示):将每个全景视频片段复制三个版本,分别对应三个位置的视角,每个版本的画面尺寸与原视频一致,但是不同的区块的分辨率不同,可视范围内的所有区块以高质量画质压缩存储,非可视范围内(即不转动头部无法看见的范围)只将做了显著性标定的区域压缩为高画质,其他区域压缩为低画质。
以上操作均是在服务器端完成,并且是非实时的操作,即预存储在服务器上,这样虽然占用了更多的存储空间,但是大大提升传输效率,减小服务器通信的开销。
(3)视窗自适应传输协议
如图5所示,视窗自适应协议细节如下:该协议是基于UDP的应用层协议,特点是无连接、不可靠传输。客户端根据VR头盔当前旋转角度计算视窗在坐标轴上的坐标,向服务器端发送帧计数和坐标,服务器端则保持监听状态,收到来自客户端的请求后,根据这个坐标信息计算当前视窗所在全景图的区域,返回对应版本的全景图。客户端将收到的视频帧暂存在缓冲区,由于网络延时等原因,视频帧可能存在接收顺序打乱的问题,对此问题客户端有两种处理方式:对于还未过时的视频帧可以插入缓冲区,已经过时的视频帧则直接舍弃。
当用户切换视窗时,由于每个时刻传输的是全景图,用户仍可以流畅地切换视野,并且显著区域还是高质量的视频块,用户体验影响很小。视窗自适应传输协议可以保证视频流即时传输时有一定缓冲空间,避免由于视频帧丢失造成卡顿。缓冲区的大小与预设定的VR视频最大延迟有关,例如最大延迟设定为1秒,则缓冲区的大小可以设定为稍大于一秒的视频帧数。
(4)基于头部运动方向预测的预传输
使用机器学习的方法,建立一个方向预测模型,以用户过去一段时间头部的运动轨迹为样本预测将来的方向,经试验证明,实验表明一个简单的加权线性模型对未来0.5秒及1秒的方向预测准确率可达90%以上。利用这个预测模型,服务端可以预测出客户端下一段时间需要的视频片段,通过预传输的方式有效提高客户端视频流畅度,并且浪费的开销可以忽略。
本发明的优点主要体现在:
①使用显著性预测技术标定焦点区域,在各个版本的全景视频中始终保持高清晰度,这使得在减小视频大小的同时不影响用户的观看体验;
②使用视窗自适应协议,传输的全景视频中只有视窗区域和显著区域是高质量的,其他区域为低质量,这样大大减小了视频大小,从而降低带宽占用,减小服务端与客户端的开销;
③视窗自适应协议设置的缓冲区,可以在保证视频实时传输的时候,不会由于视频帧丢失而造成卡顿,影响用户体验。
④对视频的预处理是非实时的,这样减小了服务端的通信开销,保障通信质量;
⑤在头部方向预测中,模型简单效果显著,这一方面对服务端影响极小,另一方面可以显著提升传输效率,保证实时性。
附图说明
图1 ERP技术示意图。
图2为全景图像分块示意图。
图3为全景视频显著性预测示意图。
图4为多焦点的冗余存储示意图(红色部分代表高画质,其他区域为低画质)。
图5为视窗自适应传输协议示意图。
具体实施方式
下面以一个具体案例描述本发明的实施过程。
服务器端的操作:
(1)将采集到的原始全景视频(三维)以等距柱状投影方式投影到平面(二维);
(2)将投影获得的平面图像切分成区块,并以其左上角坐标标志每个区块;
(3)将视频切分成2秒的短视频序列;
(4)对每个短视频进行显著性检测,预测出该视频的焦点区域,并记录焦点区域的区块坐标;
(5)对每个短视频,服务器端存储三个备份,分别对应全景视频中三个位置的视角,在可视范围内的区块和焦点区域的区块以高质量压缩,其他区块以低质量压缩。
视频传输的过程:
(1)客户端向服务器端传输当前所需要的视频帧计数与当前头盔的位置坐标;
(2)服务器端根据位置坐标判断客户的视角,传输对应版本的视频帧;
(3)客户端接收视频帧,验证通过后存储在视频缓冲区内,等待提取;
(4)若客户端开启了预传输模式,服务器端还将根据之前传输的视频帧预测之后可能要传输的视频帧,并且预先将其传输给客户端,若之后到来的请求与预测一致则忽略该请求,否则重新传输正确的视频帧。

Claims (1)

1.一种适用于蜂窝网络的VR全景视频优化传输方法,其特征至于,具体步骤为:
(1)VR全景视频的投影、压缩、切片与分块
首先将VR全景视频投影映射到平面视频,然后使用平面视频的压缩算法进行压缩与解压;这里,所述投影采用等距柱状投影技术,其在投影映射过程中球的经纬线距离不变,采样密度从赤道向两极逐渐增大,直到极点处达到无穷大;所述压缩算法采用平面视频压缩算法;
对视频进行切片,用于应对用户头部转动时视窗的切换,经过大量实验统计,用户头部保持不动的平均时长在2秒左右,因此这里选择2秒作为切片长度;
对单帧全景图像进行分块,为之后的显著性检测标定焦点区域提供便捷,分块操作:以左上角为坐标原点,每个区块以一个(x,y)坐标标定;选择边长为64像素的方块时,对于4K(4096×2160)分辨率的屏幕,传输的区块数量为64*34或65*35;
(2)使用显著性检测对视频进行多焦点的冗余存储
对视频进行显著性检测标定在全景视频中最有可能被凝视的区域;这里采用深度学习中的3D卷积神经网络技术对样本视频进行有监督学习,得到一个预测效果良好的模型用于预测显著区域,并且随着数据量的增大和用户反馈的坐标信息进一步优化模型,以达到更高的准确率;3D卷积神经网络的输入视频采样频率为2帧/秒,每次输入4张图片进行预测;
显著性区域标定完成后,进行进一步加工,以保证标定区域在时间上的连贯性;随后进行多焦点的冗余存储,具体操作是:将每个全景视频片段复制三个版本,分别对应三个位置的视角,每个版本的画面尺寸与原视频一致,但是不同的区块的分辨率不同,可视范围内的所有区块以高质量画质压缩存储,非可视范围内的区块,只将做了显著性标定的区域压缩为高画质,其他区域压缩为低画质;
(3)视窗自适应传输协议
视窗自适应传输协议具体如下:该协议是基于UDP的应用层协议,特点是无连接、不可靠传输;客户端根据VR头盔当前旋转角度计算视窗在坐标轴上的坐标,向服务器端发送帧计数和坐标,服务器端则保持监听状态,收到来自客户端的请求后,根据这个坐标信息计算当前视窗所在全景图的区域,返回对应版本的全景图;客户端将收到的视频帧暂存在缓冲区;由于网络延时等原因,视频帧可能存在接收顺序打乱的问题,对此问题客户端有两种处理方式:对于还未过时的视频帧插入缓冲区,对于已经过时的视频帧则直接舍弃;
视窗自适应传输协议保证视频流即时传输时有一定缓冲空间,避免由于视频帧丢失造成卡顿;缓冲区的大小与预设定的VR视频最大延迟有关;
(4)基于头部运动方向预测的预传输
使用机器学习的方法,建立一个方向预测模型,以用户过去一段时间头部的运动轨迹为样本预测将来的方向;这里,所述方向预测模型采用加权线性模型,利用这个预测模型,服务端预测出客户端下一段时间需要的视频片段,通过预传输的方式有效提高客户端视频流畅度。
CN202110507947.1A 2021-05-11 2021-05-11 适用于蜂窝网络的vr全景视频优化传输方法 Active CN113411557B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110507947.1A CN113411557B (zh) 2021-05-11 2021-05-11 适用于蜂窝网络的vr全景视频优化传输方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110507947.1A CN113411557B (zh) 2021-05-11 2021-05-11 适用于蜂窝网络的vr全景视频优化传输方法

Publications (2)

Publication Number Publication Date
CN113411557A CN113411557A (zh) 2021-09-17
CN113411557B true CN113411557B (zh) 2022-03-18

Family

ID=77678161

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110507947.1A Active CN113411557B (zh) 2021-05-11 2021-05-11 适用于蜂窝网络的vr全景视频优化传输方法

Country Status (1)

Country Link
CN (1) CN113411557B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114268835B (zh) * 2021-11-23 2022-11-01 北京航空航天大学 一种低传输流量的vr全景视频时空切片方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106101847A (zh) * 2016-07-12 2016-11-09 三星电子(中国)研发中心 全景视频交互传输的方法和系统
CN108235131A (zh) * 2018-01-30 2018-06-29 重庆邮电大学 一种基于dash的全景视频自适应传输方法
CN112468806A (zh) * 2020-11-12 2021-03-09 中山大学 一种用于云vr平台的全景视频传输优化方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017210444A1 (en) * 2016-06-02 2017-12-07 Comet Technologies, Llc Method and apparatus for streaming panoramic video

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106101847A (zh) * 2016-07-12 2016-11-09 三星电子(中国)研发中心 全景视频交互传输的方法和系统
CN108235131A (zh) * 2018-01-30 2018-06-29 重庆邮电大学 一种基于dash的全景视频自适应传输方法
CN112468806A (zh) * 2020-11-12 2021-03-09 中山大学 一种用于云vr平台的全景视频传输优化方法

Also Published As

Publication number Publication date
CN113411557A (zh) 2021-09-17

Similar Documents

Publication Publication Date Title
CN111355954B (zh) 为视频播放器装置处理视频数据
CN109891850B (zh) 用于减少360度视区自适应流媒体延迟的方法和装置
US10469820B2 (en) Streaming volumetric video for six degrees of freedom virtual reality
CN108810636B (zh) 视频播放方法、虚拟现实设备、服务器、系统及存储介质
EP3863296B1 (en) Streaming frames of spatial elements to a client device
CN109286855A (zh) 全景视频的传输方法、传输装置和传输系统
Shi et al. Freedom: Fast recovery enhanced vr delivery over mobile networks
CN105338323A (zh) 一种视频监控方法及装置
EP3434021B1 (en) Method, apparatus and stream of formatting an immersive video for legacy and immersive rendering devices
US11159823B2 (en) Multi-viewport transcoding for volumetric video streaming
WO2022111554A1 (zh) 一种视角切换方法及装置
CN108810427B (zh) 基于视点的全景视频内容表示的方法及装置
WO2020055655A1 (en) Scalability of multi-directional video streaming
US20200404241A1 (en) Processing system for streaming volumetric video to a client device
AU2018250308B2 (en) Video compression using down-sampling patterns in two phases
CN113411557B (zh) 适用于蜂窝网络的vr全景视频优化传输方法
US11575894B2 (en) Viewport-based transcoding for immersive visual streams
WO2021057686A1 (zh) 视频解码方法和装置、视频编码方法和装置、存储介质及电子装置
US20140321556A1 (en) Reducing amount of data in video encoding
WO2021018223A1 (zh) 视频的缓存方法和装置
WO2024060719A1 (zh) 一种数据传输的方法、装置、电子设备及存储介质
CN116456147A (zh) 实时广角视频通信系统
CN117440176A (zh) 用于视频传输的方法、装置、设备和介质
Boukerche et al. Design and Implementation of a Rate Control Mechanism for Image-based Virtual Exploration over Wireless Networks
KR20120063158A (ko) 무선 랜에서 데이터 방송 서비스를 위한 전송 속도 제어 방법 및 시스템, 이를 위한 액세스 포인트 및 기록매체

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant