CN116542889A

CN116542889A - 一种拥有稳定视点的全景视频增强方法

Info

Publication number: CN116542889A
Application number: CN202310500426.2A
Authority: CN
Inventors: 叶茂; 邹子壮
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2023-05-06
Filing date: 2023-05-06
Publication date: 2023-08-04

Abstract

本发明公开了一种拥有稳定视点的全景视频增强方法，包括以下步骤：S1、对ERP格式的全景视频进行透视投影，得到与用户拥有视场角相同的视窗；S2、采集多帧相同视点的视频序列作为训练集；S3、将拥有相同视点的2T+1透视投影帧作为增强网络模型的输入，得到一组特征后；将特征分为偏移量offset和偏移量的重要程度；通过可变形卷积进行融合；接着经过L层步长为1的卷积后，得到掩模Mask，最后再与目标帧A_t进行以像素为单位的相加操作，得到最终的质量增强结果。本发明通过采集拥有相同视点的局部视频序列获取拥有相同背景的多帧信息，避免了预测视点序列精度不佳的问题；同时使用可变形卷积的神经网络模型，可以更轻易的捕捉与获取到移动的目标。

Description

一种拥有稳定视点的全景视频增强方法

技术领域

本发明属于图像处理技术领域，特别涉及一种拥有稳定视点的全景视频增强方法。

背景技术

传统的视频编码技术主要基于平面图像，即将图像按照一定的顺序排列成为一个平面的图像序列，再通过编码压缩的方式传输。而360°视频则是一种全景视频，其呈现的是一个球面图像，这导致传统编码技术中使用的编码算法无法直接应用于360°视频。而通过将球面信息投影到平面，转换成为ERP或CMP等格式，则H.264，H.265等技术可以对其进行编码。但由于ERP格式在远离赤道的区域存在几何扭曲，CMP格式存在不连续的边界，导致它们的编码效果劣于普通2D视频。

而传统编码手段与360°视频之间不匹配的问题可以通过透视投影的方式进行弥补，根据用户指定的视角大小和位置来裁剪全景图像，从而使得编码器只需要处理特定视角下的图像信息，以提高编码效率。但传统编所采用的基于块的编码策略，导致当图像中存在大面积的纹理或噪点时，这种策略可能会将这些纹理或噪点分成多个块进行编码，从而产生块效应，导致图像出现明显的瑕疵和失真。并且在高运动场景下，由于视频帧之间的物体位置变化较大，相邻帧之间的差异性也更大，因此编码器很难准确地预测下一帧的内容，导致码率的大幅上升和视频质量的下降。

申请号为201710878189.8的专利申请公开了一种基于卷积神经网络的图像或视频质量增强方法。首先设计两个用于视频质量增强的卷积神经网络，两个网络具有不同的计算复杂度；然后选择若干个训练图像或视频对两个卷积神经网络中的参数进行训练；根据实际需要，选择一个计算复杂度较为合适的卷积神经网络，将质量待增强的图像或视频输入到选择的网络中；最后，该网络输出经过质量增强的图像或视频。该方案可以有效增强视频质量；用户可以根据设备的计算能力或剩余电量指定选用计算复杂度较为合适的卷积神经网络来进行图像或视频的质量增强。该方案设计了两个不同复杂度的卷积神经网络，由用户根据设备的情况来选择网络，两个网络的区别只是卷积神经网络的深度不同，仅仅通过加深网络深度来提高质量增强效果的方案是不可行的，而且没有针对全景视频的特点设计网络，质量增强的效果还有待提升。

申请号为201910554229.2的专利申请公开了一种基于深度学习的模糊视频超分辨率方法及系统。在单帧深度反投影超分辨率模型的基础上，设计了多帧模糊视频超分辨率模型，提升了模糊视频超分辨率重建质量并且支持高倍数(×8)重建。针对运动模糊视频超分辨率重建后视频边缘轮廓等细节信息不清晰，视频质量低的问题，该发明通过在深度反投影超分辨率模型上引入递归学习和多帧融合策略构建模糊视频超分辨率模型。该模型通过学习模糊低分辨率视频帧到清晰高分辨率视频帧的非线性映射，能够重建边缘轮廓清晰的超分辨率视频，提升了运动模糊视频超分辨率重建的质量，使得人们能够更好的获取视频信息。该方案在单帧超分辨的基础上提出了多帧模糊视频的超分辨模型，使用对抗网络和光流的方案来去除低分辨视频的模糊，在低分辨的图像上使用光流估计的方案难以得到准确的帧间运动信息，所以得到的运动补偿也不够准确，可能会导致最终恢复的高质量帧的失真。并且全景视频分辨率要大于普通视频，小分辨率图像会造成严重的失真。

申请号为201810603510.6的专利申请公开了一种基于自适应可分离卷积的视频质量增强方法，将自适应可分离卷积作为第一个模块应用于网络模型当中，将每个二维卷积转化为一对水平方向和垂直方向的一维卷积核，参数量由n²变为n+n。第二，利用网络对于不同输入学习出来的自适应变化的卷积核以实现运动矢量的估计，通过选取连续的两帧作为网络输入，对于每两张连续输入可以得到一对可分离的二维卷积核，而后该2维卷积核被展开成四个1维卷积核，得到的1维卷积核随输入的改变而改变，提高网络自适应性。本发明用一维卷积核取代二维卷积核，使得网络训练模型参数减少，执行效率高。该方案使用五个编码模块和四个解码模块、一个分离卷积模块和一个图像预测模块，其结构是在传统的对称编解码模块网络的基础上，把最后一个解码模块替换为一个分离卷积模块，虽然有效的降低了模型的参数，但是质量增强的效果还有待进一步的提高。

随着元宇宙产业的发展，越来越多的全景视频以及图像被产出。全景视频通常需要进行投影得到一个正常视野的小区域以便用户观看，这就导致了全景视频通常需要更大的视野，来保证用户的使用体验，这时视频压缩能够有效的减少数据量，但也不可避免的导致视频质量的下降。

发明内容

本发明的目的在于克服现有技术的不足，提供一种拥有稳定视点的全景视频增强方法，本发明充分利用全景视频的拍摄特点，通过采集拥有相同视点的局部视频序列，获取拥有相同背景的多帧信息，避免了预测视点序列精度不佳的问题；同时使用可变形卷积的神经网络模型，可以更轻易的捕捉与获取到移动的目标，使得相邻帧的信息更好对目标帧进行质量增强。

本发明的目的是通过以下技术方案来实现的：一种拥有稳定视点的全景视频增强方法，包括以下步骤：

S1、对ERP格式的全景视频进行透视投影，得到与用户拥有的视场角相同的视窗；假定视频段为V_T，其中T代表该全景视频段拥有的全景视频帧数，其中第t帧表示为V_t；

对V_t进行透视投影操作，包括以下子步骤：

S11、将待投影平面plane中的每个像素点转换成为三维坐标：设定用户视场角的横向与纵向大小分别为fov_x和fov_y，将投影所得到的视窗分辨率的大小设为port_w和port_h；通过公式(1)和(2)计算出待投影平面plane的X和Y方向的焦距f_x和f_y：

根据以上的信息，得到相机的内参矩阵：

其中，矩阵中的(1,3)和(2,3)两个数据表示了主点在图像平面上的坐标位置，即相机的内参矩阵中相机的位置；

创建与投影所得到的视窗大小相同的网格，并得到该网格所对应的两个一维索引u_mesh和v_mesh；通过公式(4)将1和u_mesh、v_mesh进行拼接得到矩阵e：

其中1代表着三维坐标中的z轴都为1；然后得到齐次化后的投影坐标q：

q＝K^-1e (5)

之后将投影坐标q进行归一化操作，得到：

并且乘以一个对角矩阵将z轴坐标进行翻转以便得到非齐次化的投影坐标网格：

S12、根据设定的视窗经纬度计算出投影平面在球面中所需要的像素位置：先根据给定的经纬度点计算出旋转矩阵：

然后通过公式(9)将投影坐标网格进行旋转和平移操作，使得网格旋转到对应的位置：

E＝RP^T (9)

其中P^T代表着对矩阵P的转置；

将E转换为弧度形式的经纬度格式：

其中E₁，E₂和E₃分别代表着矩阵E中的第1，2和3行数据；

对所得到的像素位置进行纠正：

最终得到一个大小为(port_w，port_h)的与视点位置对其的网格：

将ERP格式视频帧中的像素赋予到grid中去；并使用双线性插值来对位置有偏移的像素进行填充；

S2、采集多帧相同视点的视频序列，并对视频序列进行步骤S1的处理，作为训练集；

S3、将拥有相同视点的2T+1透视投影帧作为增强网络模型的输入，分别进行下采样与上采样，然后对维度相同的特征进行拼接操作后得到一组特征后；将这组特征分为两部分，一部分为偏移量offset，另一部分是这些偏移量的重要程度；所述偏移量由两个部分组成，分别为偏移的横纵坐标；之后通过可变形卷积对偏移量、偏移量的重要程度和原始输入的多帧信息进行融合；接着经过L层步长为1的卷积后，得到掩模Mask，最后再与目标帧A_t进行以像素为单位的相加操作，得到最终的质量增强结果。

本发明的有益效果是：本发明充分利用全景视频的拍摄特点，通过采集拥有相同视点的局部视频序列，获取拥有相同背景的多帧信息，避免了预测视点序列精度不佳的问题；同时使用可变形卷积的神经网络模型，可以更轻易的捕捉与获取到移动的目标，使得相邻帧的信息更好对目标帧进行质量增强，从而使得整体达到更优的效果。

附图说明

图1为根据真实视点移动规矩所采集到的视频帧；

图2为视频增强网络的结构示意图；

图3为QP27，32，37和42上平均ΔPSNR表现比较图。

具体实施方式

缩略语和关键术语定义：

1、H.264/MPEG-4AVC：是ITU-T VCEG继H.264之后所制定的新的视频编码标准。H.265标准围绕着现有的视频编码标准H.264，保留原来的某些技术，同时对一些相关的技术加以改进。新技术使用先进的技术用以改善码流、编码质量、延时和算法复杂度之间的关系，达到最优化设置。

2、PSNR(Peak Signal to Noise Ratio)：峰值信噪比，一种评价图像的客观标准。

3、ERP(Equi-Rectangular Projection)：等距柱状投影，一种将球面信息映射到单一平面的投影方法。

4、CMP(Cube Map Projection)：立方体映射投影，一种将球面置于立方体中，并映射到六个独立面的投影方法。

下面结合附图进一步说明本发明的技术方案。

本发明的一种拥有稳定视点的全景视频增强方法，包括以下步骤：

S1、为了提取出背景相同的连续帧，需要对ERP格式的全景视频进行透视投影，得到与用户拥有的视场角相同的视窗；假定视频段为V_T，其中T代表该全景视频段拥有的全景视频帧数，其中第t帧表示为V_t；

对V_t进行透视投影操作，包括以下子步骤：

根据以上的信息，得到相机的内参矩阵：

q＝K^-1e (5)

之后将投影坐标q进行归一化操作，得到：

E＝RP^T (9)

其中P^T代表着对矩阵P的转置；

将E转换为弧度形式的经纬度格式：

其中E₁，E₂和E₃分别代表着矩阵E中的第1，2和3行数据；

最后由于ERP格式中存在的几何扭曲，需要对所得到的像素位置进行纠正：

将ERP格式视频帧中的像素赋予到grid中去；gird中的信息代表着投影结果平面网格中的位置与ERP图像中像素所对应的映射关系。通过映射关系将ERP图像中所对应的像素取出，并放置到grid中所对应的位置中去。并使用双线性插值来对位置有偏移的像素进行填充；

S2、采集多帧相同视点的视频序列，如图1所示，并对视频序列进行步骤S1的处理，作为训练集；从图1中两行图片的对比可以看出，第1行中的图片中的背景并没有变换，而只有左下角的物体发生了运动。而第二行中的图像，作为背景的山体发生了一定的移动，并且这也导致了运动物体的一定丢失。从这两组图片的对比中，可以得知，对第1行图像中移动物体进行增强的复杂程度要低于第2行中的图像。以此为出发点，采集多帧相同视点的视频序列来进行训练以及后续的测试。

S3、将拥有相同视点的2T+1透视投影帧(时间正序的T帧与时间逆序的T帧，以及目标帧)作为增强网络模型的输入，增强网络模型的结构如图2所示，S1的Convolution起到的是特征提取的作用，S2的Convolution代表卷积，起到的是下采样的作用，S2的Deconvolution代表反卷积，拥有上采样的作用，而addition代表的是以像素为单位对两个矩阵进行求和的操作。增强网络模型通过一个类似U-Net的结构进行特征提取、下采样与上采样，然后通过跳跃连接对维度相同的特征进行拼接操作后得到一组特征(即图中的偏移场)；将这组特征分为两部分，一部分为偏移量offset，另一部分是这些偏移量的重要程度；所述偏移量由两个部分组成，分别为偏移的横纵坐标；之后通过可变形卷积对偏移量、偏移量的重要程度和原始输入的多帧信息进行融合；接着经过L层步长为1的卷积后，得到掩模Mask，最后再与目标帧A_t进行以像素为单位的相加操作，得到最终的质量增强结果。

增强网络模型的损失函数计算方法为：该网络的目的是为了使得压缩帧的质量能够与原始帧的质量所相接近，所以采用平方误差的总和作为该模型的损失函数：

其中为我们预测得到的结果，E_t则为原始帧。由损失函数计算预测值和标签值之间的差异，然后根据该差异进行梯度回传并根据梯度更新质量增强网络中的参数。

下面通过实验进一步对本发明的增强效果进行测试。

使用VQA_ODV数据集，其共包涵10个组，每个组拥有6个视频，我们随机的从60个视频中选取了46个作为训练视频，其余的14个作为测试视频。使用H.265对所有序列进行压缩。为了形成对比，将与V-DNN方法进行比较，本发明的方法仅在经纬度皆为0的位置，对每个训练视频提取出一个序列；而TOMM的方法则是通过模型预测得到的视点序列进行采集。并分别在这两个序列集中进行相同的训练并进行对比，如表1所示。

表1

表1给出了在QP37压缩情况下两个模型对每个测试序列在PSNR上的具体表现，可以看出，V-DNN在序号为4的序列上出现了负增益的情况，而我们所提出的方法则可以在所有的序列中都拥有正增益。除此之外，从倒数第二行的方差数据中我们方法的稳定性要优于V-DNN，并且在最后一行的平均表现中，本发明拥有18.2％的提升。

图3给出了在每个测试序列的所有帧上的平均ΔPSNR，可以看出，我们提出的方法优于V-DNN，平均PSNR为0.248655，比V-DNN好0.053515，提升了27.4％。两个方法都在QP32时达到了最佳，而在QP27时提升达到了45％。总体而言本发明的方法在测试QP中与V-DNN进行比较都拥有更稳定，更优秀的表现。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种拥有稳定视点的全景视频增强方法，其特征在于，包括以下步骤：

对V_t进行透视投影操作，包括以下子步骤：

根据以上的信息，得到相机的内参矩阵：

q＝K^-1e (5)

之后将投影坐标q进行归一化操作，得到：

E＝RP^T (9)

其中P^T代表着对矩阵P的转置；

将E转换为弧度形式的经纬度格式：

其中E₁，E₂和E₃分别代表着矩阵E中的第1，2和3行数据；

对所得到的像素位置进行纠正：