CN115776564A - 传输全景视频方法、装置、存储介质以及电子设备 - Google Patents
传输全景视频方法、装置、存储介质以及电子设备 Download PDFInfo
- Publication number
- CN115776564A CN115776564A CN202211422386.6A CN202211422386A CN115776564A CN 115776564 A CN115776564 A CN 115776564A CN 202211422386 A CN202211422386 A CN 202211422386A CN 115776564 A CN115776564 A CN 115776564A
- Authority
- CN
- China
- Prior art keywords
- type area
- areas
- target
- image
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本申请公开了一种传输全景视频方法、装置、存储介质以及电子设备。其中,该方法包括:接收来自发送端设备的视频流,并将视频流分解为图像集;根据用户视域对图像集中的图像进行区域划分,得到不同类型的图像区域,其中,不同类型的区域各自所对应的视域不同;确定不同的图像区域中的目标类型区域,对目标类型区域进行编码,将编码后的目标类型区域进行分块,得到多个块图像;对多个块图像采用不同的量化步长进行压缩,得到目标块图像;将目标块图像及其他图像区域发送至接收端设备。本申请解决了由于采用均匀量化步长传输全景视频造成的在实时传输全景视频时不合理占用信道及浪费资源的技术问题。
Description
技术领域
本申请涉及视频编解码领域,具体而言,涉及一种传输全景视频方法、装置、存储介质以及电子设备。
背景技术
在5G通信及千兆光网时代中,越来越多人使用虚拟现实VR技术进行娱乐、工作。全景视频直播是VR技术的重要体现方式,全景视频直播相比传统视频直播,全景视频的分辨率及帧率更高,其需要传输的数据量也更大,在信道中传输时会占用更多的带宽资源。全景视频直播在压缩、传输、接收时的编解码方式直接影响到了用户的观看体验。
当前对全景视频直播通常采用均匀量化步长进行传输,但由于不同用户的信道传输条件不同,同一信道在不同时间下的传输条件也不同,若按照恒定不变的压缩处理单元及编码方式来对内容进行编码,会造成不合理占用信道及浪费资源,在实时传输全景视频的场景下采用均匀量化步长的传输方式缺点更为突出。
且对于分辨率更高的全景视频来说,与平面视频同用H.264方案编码,其处理单元将急剧增加,导致冗余信息增加,压缩效率降低。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种传输全景视频方法、装置、存储介质以及电子设备,以至少解决由于采用均匀量化步长传输全景视频造成的在实时传输全景视频时不合理占用信道及浪费资源的技术问题。
根据本申请实施例的一个方面,提供了一种传输全景视频方法,包括:接收来自发送端设备的视频流,并将视频流分解为图像集;根据用户视域对图像集中的图像进行区域划分,得到不同类型的图像区域,其中,不同类型的区域各自所对应的视域不同;确定不同的图像区域中的目标类型区域,对目标类型区域进行编码,将编码后的目标类型区域进行分块,得到多个块图像,其中,多个块图像的人眼视觉敏感度不同;对多个块图像采用不同的量化步长进行压缩,得到目标块图像;将目标块图像及其他图像区域发送至接收端设备。
可选地,不同类型的图像区域包括:第一类型区域、第二类型区域及第三类型区域,其中,第一类型区域、第二类型区域和第三类型区域的视域范围依次增大。
可选地,对目标类型区域进行编码之前,还包括:对第一类型区域、第二类型区域及第三类型区域进行离散余弦变换编码,并对离散余弦系数进行滤波处理;根据人眼最小可察觉失真算法确定第一类型区域、第二类型区域及第三类型区域各自对应的不同阈值;根据离散余弦系数与阈值的大小关系分别确定第一类型区域、第二类型区域及第三类型区域中的冗余区域;清除冗余区域。
可选地,将编码后的目标类型区域进行分块,包括:对交流系数能量进行HVS视觉函数加权,得到判断系数,其中,交流系数能量由离散余弦变换编码得到;根据判断系数将编码后的目标类型区域进行分块,其中,目标类型区域为第一类型区域。
可选地,对多个块图像采用不同的量化步长进行压缩,包括:根据不同第一类型区域块,以判断系数和总交流系数平均值为变量建立归一化函数;根据归一化函数所限定的数值范围,确定不同第一类型区域块的量化步长;根据人眼对不同第一类型区域块的敏感度选取量化步长,根据量化步长对不同第一类型区域块进行压缩。
可选地,根据人眼对不同第一类型区域块的敏感度选取量化步长,包括:对于人眼高敏感区域对应的第一类型区域块,选取第一量化步长;对于人眼低敏感区域对应的第一类型区域块,选取第二量化步长,其中,第一量化步长小于第二量化步长。
可选地,将目标块图像、第二类型区域和第三类型区域发送至接收端设备,包括:确定第一类型区域、第二类型区域及第三类型区域的传输优先级,其中,第一类型区域、第二类型区域及第三类型区域的优先级依次降低;根据传输优先级将目标块图像、第二类型区域和第三类型区域发送至接收端设备。
可选地,确定第一类型区域、第二类型区域及第三类型区域的传输优先级,包括:确定视频流所属直播过程中接收端设备的目标网络带宽及目标视域;根据接收端设备的目标网络带宽及目标视域确定第一类型区域、第二类型区域及第三类型区域的传输优先级。
可选地,将目标块图像及其他图像区域发送至接收端设备,包括:将第二类型区域按照第一预设步长进行压缩,得到目标第二类型区域;将第三类型区域按照第二预设步长进行压缩,得到目标第三类型区域;将目标块图像、第二类型区域和第三类型区域发送至接收端设备。
根据本申请实施例的另一方面,还提供了一种传输全景视频的装置,包括:分解模块,用于接收来自发送端设备的视频流,并将视频流分解为图像集;划分模块,用于根据用户视域对图像集中的图像进行区域划分,得到不同类型的图像区域,其中,不同类型的区域各自所对应的视域不同;编码模块,用于确定不同的图像区域中的目标类型区域,对目标类型区域进行编码,将编码后的目标类型区域进行分块,得到多个块图像,其中,多个块图像的人眼视觉敏感度不同;压缩模块,用于对多个块图像采用不同的量化步长进行压缩,得到目标块图像;发送模块,用于将目标块图像及其他图像区域发送至接收端设备。
根据本申请实施例的另一方面,还提供了一种非易失性存储介质,包括:存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行任意一项传输全景视频方法。
根据本申请实施例的另一方面,还提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行指令,以实现任意一项传输全景视频方法。
在本申请实施例中,对不同类型的图像区域采用非均匀步长对视频流进行编码的方式,通过接收来自发送端设备的视频流,并将视频流分解为图像集;根据用户视域对图像集中的图像进行区域划分,得到不同类型的图像区域,其中,不同类型的区域各自所对应的视域不同;确定不同的图像区域中的目标类型区域,对目标类型区域进行编码,将编码后的目标类型区域进行分块,得到多个块图像;对多个块图像采用不同的量化步长进行压缩,得到目标块图像;将目标块图像及其他图像区域发送至接收端设备,达到了全景视频直播时降低时延及减少卡顿的目的,从而实现了传输海量全景视频数据的处理需求,提高了传输全景视频数据的效率及全景视频的播放质量,结合人眼视觉分辨特性改善了全景视频的人眼视觉体验,灵活调整不同视频区域传输顺序的技术效果,进而解决了由于采用均匀量化步长传输全景视频造成的在实时传输全景视频时不合理占用信道及浪费资源技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种传输全景视频方法的流程示意图;
图2是根据本申请实施例的一种可选的传输全景视频方法的流程示意图;
图3是根据本申请实施例的一种传输全景视频的装置结构示意图;
图4出示了可以用来实施本申请的实施例的示例电子设备400的示意性框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了便于本领域技术人员更好的理解,本申请相关实施例,现对本申请可能涉及的技术术语或者部分名词进行解释:
人眼视觉分辨特性HVS是人类通过感知光线形成视觉的系统的重要特性,HVS在视频编码的主观优化中发挥重要作用,人眼视觉分辨特性主要有以下特性:(1)从空间频率域来说,人眼是一个低通型线性系统,由于人眼瞳孔有一定的几何尺寸和一定的光学像差,视觉细胞有一定的大小,所以人眼的分辨率是有限的,人眼对高分辨率感知不敏感。(2)人眼对亮度的响应具有对数非线性性质,以达到人眼对亮度的动态范围。在平均亮度大的区域中,人眼对灰度误差不敏感。(3)人眼对亮度信号的空间分辨率大于对色度信号的空间分辨率。(4)由于人眼受神经系统的调节,人眼具有带通性线性系统的特性,人眼会产生一种边缘增强感觉:侧抑制效应。(5)人眼容易感知到边缘位置的变化,而人眼对于边缘的灰度误差并不敏感。(6)人眼的视觉掩盖效应是一种局部效应,受背景照度、纹理复杂性和信号频率的影响。具有不同局部特性的区域,在保证不被人眼察觉的前提下,可以改变信号强度。
DCT变换为离散余弦变换,DCT变换属于傅里叶变换的一种,常用于对信号和图像(包括图片和视频)进行有损数据压缩。DCT将图像分成由不同频率组成的小块,然后进行量化。在量化过程中,舍弃高频分量,剩下的低频分量被保存下来用于后面的图像重建。在本质上,离散余弦变换需要一组N个相似的数据点,变换之后,返回N个不相似的数据点,其特点是能量被压缩在仅有的M个系数中,其中M<N。其中,DCT将矩阵的能量压缩到第一个元素中,被称为直流DC系数,其余的系数被称为交流AC系数。
JND为最小可觉察误差,用来度量人眼对图像中不同区域失真的敏感性,多用于基于视觉特性的图像/视频编码、数字水印、图像质量评价。目前已有多个JND模型被提出,主要分为两类,基于像素域的JND模型和基于DCT域的JND模型。
MPC为模型预测控制算法,MPC作用机理描述为:在每一个采用时刻,根据获得的当前测量信息,在线求解一个有限时间开环优化问题,并将得到的控制序列的第一个元素作用于被控对象。在下一个采样时刻,重复上述过程:用新的测量值作为此时预测系统未来动态的初始条件,刷新优化问题并重新求解。
根据本申请实施例,提供了一种传输全景视频的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本申请实施例的一种传输全景视频方法,如图1所示,该方法包括如下步骤:
步骤S102,接收来自发送端设备的视频流,并将视频流分解为图像集;
可以理解的是,将视频流逐帧分解为图像,可设置不同的视频流提取速度进行分解。
步骤S104,根据用户视域对图像集中的图像进行区域划分,得到不同类型的图像区域,其中,不同类型的区域各自所对应的视域不同;
需要说明的是,在对图像集中的图像进行区域划分之前,确定图像集中的图像状态,其中,图像状态包括初始状态与非初始状态,初始状态是指图像未进行用户视域预测的状态,非初始状态是指图像根据用户视域进行预测的状态。
可以理解的是,不同类型的区域是根据人眼视域范围结合全景视频投影格式进行划分。
举例而言,可按照不同用户视域对图像进行区域划分,其中,用户视域包括水平视场角、垂直视场角及对角线视场角。
步骤S106,确定不同的图像区域中的目标类型区域,对目标类型区域进行编码,将编码后的目标类型区域进行分块,得到多个块图像,其中,多个块图像的人眼视觉敏感度不同;
步骤S108,对多个块图像采用不同的量化步长进行压缩,得到目标块图像;
步骤S110,将目标块图像及其他图像区域发送至接收端设备。
在本申请实施例中,对不同类型的图像区域采用非均匀步长对视频流进行编码的方式,通过接收来自发送端设备的视频流,并将视频流分解为图像集;根据用户视域对图像集中的图像进行区域划分,得到不同类型的图像区域,其中,不同类型的区域各自所对应的视域不同;确定不同的图像区域中的目标类型区域,对目标类型区域进行编码,将编码后的目标类型区域进行分块,得到多个块图像;对多个块图像采用不同的量化步长进行压缩,得到目标块图像;将目标块图像及其他图像区域发送至接收端设备,达到了全景视频直播时降低时延及减少卡顿的目的,从而实现了传输海量全景视频数据的处理需求,提高了传输全景视频数据的效率及全景视频的播放质量,结合人眼视觉分辨特性改善了全景视频的人眼视觉体验,灵活调整不同视频区域传输顺序的技术效果,进而解决了由于采用均匀量化步长传输全景视频造成的在实时传输全景视频时不合理占用信道及浪费资源技术问题。
本申请一些可选的实施例中,不同类型的图像区域包括:第一类型区域、第二类型区域及第三类型区域,其中,第一类型区域、第二类型区域和第三类型区域的视域范围依次增大。
本申请一示例性实施例中,对目标类型区域进行编码之前,还包括:对第一类型区域、第二类型区域及第三类型区域进行离散余弦变换编码,并对离散余弦系数进行滤波处理;根据人眼最小可察觉失真算法确定第一类型区域、第二类型区域及第三类型区域各自对应的不同阈值;根据离散余弦系数与阈值的大小关系分别确定第一类型区域、第二类型区域及第三类型区域中的冗余区域;清除冗余区域。
举例而言,通过预处理滤波器对离散余弦系数进行滤波处理,根据人眼最小可察觉失真算法确定不同类型图像区域各自的阈值,在离散余弦系数小于或等于阈值的情况下,清除图像区域的冗余区域。
需要说明的是,冗余区域包括人眼视觉感知变化较小的视觉要素所对应的区域,其中,人眼视觉感知变化较小的视觉要素包括但不限于色彩、对比度及分辨率。
可以理解的是,全景视频的数据量远大于平面视频,结合人眼最小可察觉失真算法消除图像冗余,解决了在传输全景视频时,需传输海量数据而导致的传输速率慢的问题。
作为一种可选的实施方式,将编码后的目标类型区域进行分块,包括:对交流系数能量进行HVS视觉函数加权,得到判断系数,其中,交流系数能量由离散余弦变换编码得到;根据判断系数将编码后的目标类型区域进行分块,其中,目标类型区域为第一类型区域。
本申请一示例性实施例中,对多个块图像采用不同的量化步长进行压缩,包括:根据不同第一类型区域块,以判断系数和总交流系数平均值为变量建立归一化函数;根据归一化函数所限定的数值范围,确定不同第一类型区域块的量化步长;根据人眼对不同第一类型区域块的敏感度选取量化步长,根据量化步长对不同第一类型区域块进行压缩。
可以理解的是,采用不同的量化步长进行压缩保证了高编码效率的情况下,可以均衡压缩质量,有效提高了量化的精度,改善了全景视频在大压缩比情况下的人眼视觉体验。
本申请一些可选的实施例中,根据人眼对不同第一类型区域块的敏感度选取量化步长,包括:对于人眼高敏感区域对应的第一类型区域块,选取第一量化步长;对于人眼低敏感区域对应的第一类型区域块,选取第二量化步长,其中,第一量化步长小于第二量化步长。
作为一种可选的实施方式,将目标块图像、第二类型区域和第三类型区域发送至接收端设备,包括:确定第一类型区域、第二类型区域及第三类型区域的传输优先级,其中,第一类型区域、第二类型区域及第三类型区域的优先级依次降低;根据传输优先级将目标块图像、第二类型区域和第三类型区域发送至接收端设备。
可选地,确定第一类型区域、第二类型区域及第三类型区域的传输优先级,包括:确定视频流所属直播过程中接收端设备的目标网络带宽及目标视域;根据接收端设备的目标网络带宽及目标视域确定第一类型区域、第二类型区域及第三类型区域的传输优先级。
举例而言,当前时间段接收端设备的目标网络带宽传输数据量较大时,优先将第一类型区域发送至接收端设备,再依次将第二类型区域和第三类型区域发送至接收端设备;当前时间段接收端设备的目标网络带宽传输数据量较小时,优先将目标块图像发送至接收端设备,直至目标网络带宽恢复,动态调整第二类型区域和第三类型区域的传输顺序。
举例而言,当前时间段接收端设备的目标视域为第一类型区域时,优先将第一类型区域发送至接收端设备,根据当前时间段接收端设备的目标视域,动态调整第一类型区域、第二类型区域及第三类型区域的传输顺序。
可选地,将目标块图像及其他图像区域发送至接收端设备,包括:将第二类型区域按照第一预设步长进行压缩,得到目标第二类型区域;将第三类型区域按照第二预设步长进行压缩,得到目标第三类型区域;将目标块图像、第二类型区域和第三类型区域发送至接收端设备。
为了便于本领域技术人员更好的理解本申请的技术方案,现结合一具体实施例进行说明。
图2是根据本申请实施例的一种可选的传输全景视频方法的流程示意图,如图2所示,该流程主要包括如下步骤:
(1)将从发送端输出的全景视频流分解为全景图片集,将全景图片按初始状态时均匀划分、非初始状态时根据用户预测视域FOV划分的方法划分为用户主中次区域;
(2)再将每一块区域分别进行离散余弦(Discrete Cosine Transform,DCT)变换;
(3)根据人眼视觉分辨特性HVS,以最小可察觉失真法(Just NoticeableDistortion,JND)针对各区域设置不同阈值对DCT系数进行滤波处理,去除图像冗余;
(4)基于用户视域FOV,将图像主区域结合人眼视觉分辨特性HVS进行编码;
(5)人眼对图像平滑区噪声、图像边缘轮廓、低频率等信息更加敏感,结合瑞利能量定理,以交流系数能量经HVS视觉函数加权后的值为块判断系数来进行不同类型的块分类操作;
(6)再针对分类不同的块,以块判断系数和总交流系数平均值为变量,分别建立不同的归一化函数,以进行自我调节;
(7)根据函数计算结果,设置每个块的自适应处理单元量化步长,再对每个块分别进行压缩;
需要说明的是,对人眼高敏感区采取精细度高的量化方式,对人眼低敏感区采取精细度低的量化方式。
可以理解的是,压缩操作能够提升全景图像的传输质量。
(8)压缩后,为了提高有限带宽的利用率,利用模型预测控制(Model PredictiveControl,MPC)算法,预测直播过程中下一时刻用户的带宽及FOV,确定每块及每区域的传输优先级,优先保证高级别块传输稳定性,传输时结合实时带宽,适当牺牲低级别块的传输质量。
可以理解的是,根据优先级传输不同图像区域有利于降低直播时用户端时延,保障全景视频播放的流畅程度。
容易注意到的是,本申请结合全景视频流分解技术、图像变换冗余去除技术、人眼视觉特性分析技术、自适应量化技术,带宽及视域预测技术,设计了一种全景视频自适应量化编码及传输方法,并将其应用于实时直播场景下:将全景视频分解为图像帧,并根据用户预测视域划分区域后分别消除冗余,对主区域块分类并根据人眼视觉特性实行自适应量化机制进行压缩,在传输时结合实时带宽,有效提高全景视频传播质量,优化用户对VR技术的体验感,可实现低时延、不卡顿的全景视频的传输,在一对一通讯直播、一对多培训、演示直播等场景下,为个人及企业用户提供流畅的全景观看体验,有助于实现传统平面直播向创新化全景视频展示模式的转变。
本申请与全景视频结合度高,根据用户预测FOV划分全景区域,更利于应对全景视频编码传输的场景下海量数据的处理需求;本申请的方法适合于直播场景,在编码时消除冗余,且在传输过程中预测下一时刻用户的带宽,优先保证高级别块的传输稳定性,相较于直接传输的方法,更能有效提高传输效率,降低用户观看全景直播时的时延;本申请的方法具备灵活性,结合了HVS,自适应设置处理单元量化步长,相较于统一设置步长,使人眼敏感块保留更多细节信息。
本申请降低了要传输的数据量,全景视频的数据量远大于平面视频,本发明结合人眼定量度量特点,利用JND进一步稀疏DCT系数,消除图像冗余,解决全景视频在处理时庞大数据量导致的慢速问题;本申请平衡了编码效率及压缩质量,通过对图像进行块分类、基于HVS引入自适应量化系数,感知量化步长使全景图像在保证高编码效率情况下,还能够均衡压缩质量,有效提高了量化的精度,改善了全景视频在大压缩比情况下人眼视觉体验;本申请合理利用资源,利用MPC算法,预测用户带宽及FOV,结合优先级模式,有效解决不同网络条件下用户的资源分配及网络带宽波动带来的全景视频接收质量下降问题。
图3是根据本申请实施例的一种传输全景视频的装置结构示意图,如图3所示,该装置包括:
分解模块30,用于接收来自发送端设备的视频流,并将视频流分解为图像集;
划分模块32,用于根据用户视域对图像集中的图像进行区域划分,得到不同类型的图像区域,其中,不同类型的区域各自所对应的视域不同;
编码模块34,用于确定不同的图像区域中的目标类型区域,对目标类型区域进行编码,将编码后的目标类型区域进行分块,得到多个块图像,其中,多个块图像的人眼视觉敏感度不同;
压缩模块36,用于对多个块图像采用不同的量化步长进行压缩,得到目标块图像;
发送模块38,用于将目标块图像及其他图像区域发送至接收端设备。
该装置中,分解模块30,用于接收来自发送端设备的视频流,并将视频流分解为图像集;划分模块32,用于根据用户视域对图像集中的图像进行区域划分,得到不同类型的图像区域,其中,不同类型的区域各自所对应的视域不同;编码模块34,用于确定不同的图像区域中的目标类型区域,对目标类型区域进行编码,将编码后的目标类型区域进行分块,得到多个块图像,其中,多个块图像的人眼视觉敏感度不同;压缩模块36,用于对多个块图像采用不同的量化步长进行压缩,得到目标块图像;发送模块38,用于将目标块图像及其他图像区域发送至接收端设备,达到了全景视频直播时降低时延及减少卡顿的目的,从而实现了传输海量全景视频数据的处理需求,提高了传输全景视频数据的效率及全景视频的播放质量,结合人眼视觉分辨特性改善了全景视频的人眼视觉体验,灵活调整不同视频区域传输顺序的技术效果,进而解决了由于采用均匀量化步长传输全景视频造成的在实时传输全景视频时不合理占用信道及浪费资源技术问题。
根据本申请实施例的另一方面,还提供了一种非易失性存储介质,非易失性存储介质包括存储的程序,其中,在程序运行时控制非易失性存储介质所在设备执行任意一项传输全景视频方法。
具体地,上述存储介质用于存储以下功能的程序指令,实现以下功能:
接收来自发送端设备的视频流,并将视频流分解为图像集;根据用户视域对图像集中的图像进行区域划分,得到不同类型的图像区域,其中,不同类型的区域各自所对应的视域不同;确定不同的图像区域中的目标类型区域,对目标类型区域进行编码,将编码后的目标类型区域进行分块,得到多个块图像,其中,多个块图像的人眼视觉敏感度不同;对多个块图像采用不同的量化步长进行压缩,得到目标块图像;将目标块图像及其他图像区域发送至接收端设备。
可选地,在本实施例中,上述存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。上述存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
在本申请一示例性实施例中,还提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现上述任一项的传输全景视频方法。
可选地,该计算机程序在被处理器执行时可实现如下步骤:
接收来自发送端设备的视频流,并将视频流分解为图像集;根据用户视域对图像集中的图像进行区域划分,得到不同类型的图像区域,其中,不同类型的区域各自所对应的视域不同;确定不同的图像区域中的目标类型区域,对目标类型区域进行编码,将编码后的目标类型区域进行分块,得到多个块图像,其中,多个块图像的人眼视觉敏感度不同;对多个块图像采用不同的量化步长进行压缩,得到目标块图像;将目标块图像及其他图像区域发送至接收端设备。
根据本申请的实施例提供了一种电子设备,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述任一项的传输全景视频方法。
可选地,上述电子设备还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入设备输出设备和上述处理器连接。
图4示出了可以用来实施本申请的实施例的示例电子设备400的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图4所示,设备400包括计算单元401,其可以根据存储在只读存储器(ROM)402中的计算机程序或者从存储单元408加载到随机访问存储器(RAM)403中的计算机程序,来执行各种适当的动作和处理。在RAM 403中,还可存储设备400操作所需的各种程序和数据。计算单元401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
设备400中的多个部件连接至I/O接口405,包括:输入单元406,例如键盘、鼠标等;输出单元407,例如各种类型的显示器、扬声器等;存储单元408,例如磁盘、光盘等;以及通信单元409,例如网卡、调制解调器、无线通信收发机等。通信单元409允许设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元401的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元401执行上文所描述的各个方法和处理,例如传输全景视频方法。例如,在一些实施例中,传输全景视频方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元408。在一些实施例中,计算机程序的部分或者全部可以经由ROM 402和/或通信单元409而被载入和/或安装到设备400上。当计算机程序加载到RAM 403并由计算单元401执行时,可以执行上文描述的传输全景视频方法的一个或多个步骤。备选地,在其他实施例中,计算单元401可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行传输全景视频方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本申请的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (12)
1.一种传输全景视频方法,其特征在于,包括:
接收来自发送端设备的视频流,并将所述视频流分解为图像集;
根据用户视域对所述图像集中的图像进行区域划分,得到不同类型的图像区域,其中,所述不同类型的区域各自所对应的视域不同;
确定所述不同的图像区域中的目标类型区域,对所述目标类型区域进行编码,将编码后的目标类型区域进行分块,得到多个块图像,其中,所述多个块图像的人眼视觉敏感度不同;
对所述多个块图像采用不同的量化步长进行压缩,得到目标块图像;
将所述目标块图像及其他图像区域发送至接收端设备。
2.根据权利要求1所述的方法,其特征在于,所述不同类型的图像区域包括:第一类型区域、第二类型区域及第三类型区域,其中,所述第一类型区域、第二类型区域和第三类型区域的视域范围依次增大。
3.根据权利要求2所述的方法,其特征在于,对所述目标类型区域进行编码之前,还包括:
对所述第一类型区域、所述第二类型区域及所述第三类型区域进行离散余弦变换编码,并对离散余弦系数进行滤波处理;
根据人眼最小可察觉失真算法确定所述第一类型区域、所述第二类型区域及所述第三类型区域各自对应的不同阈值;
根据所述离散余弦系数与所述阈值的大小关系分别确定所述第一类型区域、所述第二类型区域及所述第三类型区域中的冗余区域;
清除所述冗余区域。
4.根据权利要求2所述的方法,其特征在于,将编码后的目标类型区域进行分块,包括:
对交流系数能量进行HVS视觉函数加权,得到判断系数,其中,所述交流系数能量由离散余弦变换编码得到;
根据判断系数将编码后的所述目标类型区域进行分块,其中,所述目标类型区域为第一类型区域。
5.根据权利要求2所述的方法,其特征在于,对所述多个块图像采用不同的量化步长进行压缩,包括:
根据所述不同第一类型区域块,以所述判断系数和总交流系数平均值为变量建立归一化函数;
根据归一化函数所限定的数值范围,确定所述不同第一类型区域块的量化步长;
根据人眼对所述不同第一类型区域块的敏感度选取所述量化步长,根据所述量化步长对所述不同第一类型区域块进行压缩。
6.根据权利要求5所述的方法,其特征在于,根据人眼对所述不同第一类型区域块的敏感度选取所述量化步长,包括:
对于人眼高敏感区域对应的所述第一类型区域块,选取第一量化步长;
对于人眼低敏感区域对应的所述第一类型区域块,选取第二量化步长,其中,所述第一量化步长小于所述第二量化步长。
7.根据权利要求2所述的方法,其特征在于,将所述目标块图像、所述第二类型区域和第三类型区域发送至接收端设备,包括:
确定所述第一类型区域、所述第二类型区域及所述第三类型区域的传输优先级,其中,所述第一类型区域、所述第二类型区域及所述第三类型区域的优先级依次降低;
根据所述传输优先级将所述目标块图像、所述第二类型区域和第三类型区域发送至接收端设备。
8.根据权利要求7所述的方法,其特征在于,确定所述第一类型区域、所述第二类型区域及所述第三类型区域的传输优先级,包括:
确定所述视频流所属直播过程中所述接收端设备的目标网络带宽及目标视域;
根据所述接收端设备的目标网络带宽及目标视域确定所述第一类型区域、所述第二类型区域及所述第三类型区域的传输优先级。
9.根据权利要求2所述的方法,其特征在于,将所述目标块图像及其他图像区域发送至接收端设备,包括:
将所述第二类型区域按照第一预设步长进行压缩,得到目标第二类型区域;
将所述第三类型区域按照第二预设步长进行压缩,得到目标第三类型区域;
将所述目标块图像、所述第二类型区域和第三类型区域发送至接收端设备。
10.一种传输全景视频的装置,其特征在于,包括:
分解模块,用于接收来自发送端设备的视频流,并将所述视频流分解为图像集;
划分模块,用于根据用户视域对所述图像集中的图像进行区域划分,得到不同类型的图像区域,其中,所述不同类型的区域各自所对应的视域不同;
编码模块,用于确定所述不同的图像区域中的目标类型区域,对所述目标类型区域进行编码,将编码后的目标类型区域进行分块,得到多个块图像,其中,所述多个块图像的人眼视觉敏感度不同;
压缩模块,用于对所述多个块图像采用不同的量化步长进行压缩,得到目标块图像;
发送模块,用于将所述目标块图像及其他图像区域发送至接收端设备。
11.一种非易失性存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至9中任意一项所述传输全景视频方法。
12.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至9中任一项所述的传输全景视频方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211422386.6A CN115776564A (zh) | 2022-11-14 | 2022-11-14 | 传输全景视频方法、装置、存储介质以及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211422386.6A CN115776564A (zh) | 2022-11-14 | 2022-11-14 | 传输全景视频方法、装置、存储介质以及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115776564A true CN115776564A (zh) | 2023-03-10 |
Family
ID=85389017
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211422386.6A Pending CN115776564A (zh) | 2022-11-14 | 2022-11-14 | 传输全景视频方法、装置、存储介质以及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115776564A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116996617A (zh) * | 2023-07-31 | 2023-11-03 | 咪咕音乐有限公司 | 一种视频彩铃的展示方法、装置、电子设备及介质 |
-
2022
- 2022-11-14 CN CN202211422386.6A patent/CN115776564A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116996617A (zh) * | 2023-07-31 | 2023-11-03 | 咪咕音乐有限公司 | 一种视频彩铃的展示方法、装置、电子设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2020508010A (ja) | 画像処理およびビデオ圧縮方法 | |
CN103313047B (zh) | 一种视频编码方法及装置 | |
CN114554211A (zh) | 内容自适应视频编码方法、装置、设备和存储介质 | |
CN111182303A (zh) | 共享屏幕的编码方法、装置、计算机可读介质及电子设备 | |
CN112887739A (zh) | 电子设备、系统及其控制方法 | |
CN110139112B (zh) | 一种基于jnd模型的视频编码方法 | |
CN110166796B (zh) | 视频帧的处理方法、装置、计算机可读介质及电子设备 | |
EP3648460B1 (en) | Method and apparatus for controlling encoding resolution ratio | |
CN113630600A (zh) | 人类视觉系统自适应视频编码 | |
US20230319292A1 (en) | Reinforcement learning based rate control | |
Wu et al. | An overview of perceptual processing for digital pictures | |
CN115776564A (zh) | 传输全景视频方法、装置、存储介质以及电子设备 | |
CN114374841B (zh) | 视频编码码率控制的优化方法、装置及电子设备 | |
WO2006131866A2 (en) | Method and system for image processing | |
CN106454386B (zh) | 一种基于jnd的视频编码的方法和装置 | |
CN116847087A (zh) | 视频处理方法、装置、存储介质及电子设备 | |
CN116980604A (zh) | 视频编码方法、视频解码方法及相关设备 | |
CN115567712A (zh) | 基于人眼恰可察觉失真的屏幕内容视频编码感知码率控制方法及装置 | |
CN116827921A (zh) | 一种流媒体的音视频处理方法、装置及设备 | |
CN111491166A (zh) | 基于内容分析的动态压缩系统及方法 | |
Zhang et al. | Visually lossless perceptual image coding based on natural-scene masking models | |
Kim et al. | Implementation of DWT-based adaptive mode selection for LCD overdrive | |
Ho et al. | Improving compression ratios for high bit-depth grayscale video formats | |
CN113160342B (zh) | 基于反馈的编码方法及装置、存储介质、电子设备 | |
EP3151565A1 (en) | A low complexity perceptual visual quality evaluation method for jpeg2000 compressed streams |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |