CN108810547A

CN108810547A - 一种基于神经网络和pca-knn的高效vr视频压缩方法

Info

Publication number: CN108810547A
Application number: CN201810719999.3A
Authority: CN
Inventors: 王文; 王文一; 张梦; 赵丽丽; 张汝民
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-07-03
Filing date: 2018-07-03
Publication date: 2018-11-13

Abstract

本发明公开了一种基于神经网络和PCA‑KNN的高效VR视频压缩方法，涉及VR视频压缩技术领域，本发明包括如下步骤：S1、VR视频数据预处理；S2、将预处理后的VR视频数据输入Res‑CNN神经网络模型中，得到高维特征向量；S3、利用PCA‑KNN方法对高维特征向量进行降维分类，匹配最优映射模式，本发明针对不同的VR视频，通过神经网络的迁移特征，利用机器学习的方法分析VR视频的图像纹理特征，进而自适应地选择最优的映射模式，然后用该映射模式对VR视频进行映射后将其进行编码压缩，使得VR视频的编码压缩效率大大提高。

Description

一种基于神经网络和PCA-KNN的高效VR视频压缩方法

技术领域

本发明涉及VR视频压缩技术领域，更具体的是涉及一种基于神经网络和PCA-KNN的高效VR视频压缩方法。

背景技术

近年来，随着VR(Virtual Reality)技术的发展，为了得到更好的沉浸感体验，对VR视频的清晰度要求也随之上升。VR视频的分辨率从2K到4K甚至达到了8K，而目前的网络带宽达不到直接传输VR视频的要求，所以需要将VR视频进行编码压缩后再进行传输。但目前的视频编码标准都是针对二维视频建立的，所以三维的VR视频需要映射到二维平面后再进行编码传输。

三维视频映射到二维平面时会带来一定程度的失真，目前常用的映射方法有CMP(Cubemap projection)和ERP(Equirectangle projection)等映射方法，不同的映射方法带来的失真程度也不同，比如ERP映射方法会在两极处过采样，使得越靠近两极采样点失真越大，并且在映射时产生的失真也会对后面的编码压缩过程产生影响。因此，如何实现自适应地选择最佳映射方法来降低编码复杂度，提高VR视频的压缩效率是目前的研究重点。

发明内容

本发明的目的在于：为了解决目前多种VR映射方法对不同的VR视频会带来不同程度的失真，从而影响VR视频质量的问题，本发明提供一种基于神经网络和PCA-KNN的高效VR视频压缩方法。

本发明为了实现上述目的具体采用以下技术方案：

一种基于神经网络和PCA-KNN的高效VR视频压缩方法，包括如下步骤：

S1、VR视频数据预处理；

S2、将预处理后的VR视频数据输入Res-CNN神经网络模型中，得到高维特征向量；

S3、利用PCA-KNN方法对高维特征向量进行降维后分类，根据预测类别匹配最优映射模式。

进一步的，所述S1中对VR视频数据预处理，具体为：

S1.1、对VR视频进行插值处理，使VR视频图像的分辨率扩充为224的倍数，得到扩充视频；

S1.2、将扩充视频的每帧分割成大小为224×224的块；

S1.3、对每个块进行数据增广预处理。

进一步的，所述S1.3中的数据增广预处理包括如下步骤：

S1.3.1、对每个块进行随机水平翻转；

S1.3.2、对随机水平翻转后的块进行随机垂直翻转；

S1.3.3、对随机垂直翻转后的块进行颜色抖动处理；

S1.3.4、对颜色抖动处理后的块进行随机旋转。

进一步的，所述S2中，Res-CNN神经网络模型由包含1000类物体的ImageNet数据集进行预训练得到。

进一步的，所述Res-CNN神经网络模型包括卷积层、bottleneck层、池化层和全连接层，预处理后的VR视频数据依次经过所述卷积层、bottleneck层、池化层和全连接层后得到高维特征向量。

进一步的，所述S3中利用PCA-KNN方法对高维特征向量进行降维后分类，具体包括如下步骤：

S3.1、对高维特征向量进行主成分分析，将高维特征向量的维度降到D维，得到低维特征向量，并对低维特征向量进行正则化处理；

S3.2、用KNN分类器对正则化后的低维特征向量进行分类。

进一步的，所述KNN分类器对低维特征向量分类包括如下步骤：

S3.2.1、计算低维特征向量与KNN分类器中各类的特征向量之间的距离；

S3.2.2、对计算得到的距离从小到大进行排序，选取排序后的前K个点；

S3.2.3、这K个点中出现频率最高的类别就是低维特征向量的预测类别。

本发明的有益效果如下：

本发明针对不同的VR视频，通过神经网络的迁移学习，无需人工提取特征，将Res-CNN神经网络模型作为特征提取器，提取VR视频的高维特征向量。利用机器学习的方法分析VR视频的图像纹理特征，对其类别进行预测，进而自适应地选择最优的映射模式。用该映射模式对VR视频进行映射后将其进行编码压缩，极大地提高了VR视频的压缩效率。

附图说明

图1是CMP映射方法示意图。

图2是Doubring映射方法示意图。

图3是Polerect映射方法示意图。

图4是本发明的方法流程图。

图5是本发明的系统框架图。

图6是本发明的网络结构图。

具体实施方式

为了本技术领域的人员更好的理解本发明，下面结合附图和以下实施例对本发明作进一步详细描述。

实施例1

如图4至图6所示，本实施例提供一种基于神经网络和PCA-KNN的高效VR视频压缩方法，包括如下步骤：

S1、VR视频数据预处理，具体的，

S1.2、将扩充视频的每帧分割成大小为224×224的块；

S1.3、对每个块进行数据增广预处理，包括以下步骤：

S1.3.1、对每个块进行随机水平翻转；

S1.3.2、对随机水平翻转后的块进行随机垂直翻转；

S1.3.3、对随机垂直翻转后的块进行颜色抖动处理；

S1.3.4、对颜色抖动处理后的块进行随机旋转；

S2、将预处理后的VR视频数据输入Res-CNN神经网络模型中，得到高维特征向量，用这些高维特征向量表示VR视频的每帧，所述Res-CNN神经网络模型由包含1000类物体的ImageNet数据集进行预训练得到，使得Res-CNN神经网络模型能够很好地应对各种VR视频中的场景特征分析，具体的，

所述Res-CNN神经网络模型包括卷积层、bottleneck层、池化层和全连接层，预处理后的VR视频数据依次经过所述卷积层、bottleneck层、池化层和全连接层后得到高维特征向量。

S3、利用PCA-KNN方法对高维特征向量进行降维后分类，根据预测类别匹配最优映射模式，包括如下步骤：

S3.1、由于Res-CNN神经网络模型导出的高维特征向量在进行KNN分类时会带来很大的计算量，所以在进行KNN分类前，首先对高维特征向量进行主成分分析(PrincipalComponent Analysis,PCA)将高维特征向量的维度降到D维，得到低维特征向量来增强KNN分类器的鲁棒性，同时去除噪声对KNN分类器的影响；

假设一个VR视频序列有p帧，且每帧被分为q个块，每个块记为S_i，其中i表示一个视频序列中所有块中某一块的序号，i∈[1,p×q]，导出的高维特征向量的维数为N，对所有高维特征向量通过PCA降维至D维得到低维特征向量然后再对低维特征向量进行正则化处理得到所述正则化处理公式如下：

其中，

S3.2、用KNN分类器对正则化后的低维特征向量进行分类，具体为：

S3.2.1、计算低维特征向量与KNN分类器中各类的特征向量之间距离，所述距离的计算可以采用欧氏距离计算公式、曼哈顿距离计算公式或者其他距离的计算公式计算得到，所述欧式距离计算公式为：

所述曼哈顿距离计算公式为：

其中，y_i为KNN分类器中的训练数据；

S3.2.3、这K个点中出现频率最高的类别就是低维特征的预测类别。

常见的映射模式有以下三类：

1、CMP

CMP映射方法将一个球面VR视频映射到一个正六面体上，如图1所示，该方法先确定球形视频的外接正方体，正方体分为左面，正面，右面，背面，顶面和底面，在图1中用1-6表示，将正方体的顶点与球心相连，则连线与球产生的交面上的所有像素点即为映射后正方体该面上的像素点。

2、Doubring

如图2(a)和图2(b)所示，Doubring映射方法通过南纬30°和北纬30°的纬线将球分成了三部分，中间部分被称作“水平环”，其余部分称为“顶部”和“底部”，设球面视频的函数表达式为x²+y²+z²＝r²，则“水平环”的函数表达式为：

水平环被均匀分割成6个矩形区域，记为“正左面”“正中面”“正右面”“反左面”“反中面”“反右面”。接下来用一个纵向环去切割“顶部”和“底部”，该环的表达式如下：

纵向环和“顶部”相交的球面部分，用平面x＝0将其均匀分成两部分，映射成与“正中面”相同大小的两个矩形面，记为“正上面”和“反上面”；同理，可以得到“底部”分割成的“正下面”和“反下面”，最后，球面剩余的四个部分映射成相同大小的四个矩形面，依次记为“左上面”“右上面”“左下面”“反下面”，尺寸也和“正中面”相同，则将球面视频映射成了如图2(c)所示的14个矩形，其中，矩形3、7、9都被分成1/3和2/3部分，并经过旋转重排布成如图2(d)所示。

3、Polerect

如图3(a)所示，该映射方法对低纬度地区——±45°之间的球面不进行映射，直接拉伸为矩形并将其均匀分成4个矩形面，记为图3(b)中的1-4，剩余的两个高纬度地区——[-π/2,-π/4]，[π/4,π/2]被映射成两个矩形，在图3(b)中记为5、6，接下来映射后的矩形1-6被重排布成图3(c)所示，其中矩形5顺时针旋转90°，矩形4逆时针旋转90°。

以上所述，仅为本发明的较佳实施例，并不用以限制本发明，本发明的专利保护范围以权利要求书为准，凡是运用本发明的说明书及附图内容所作的等同结构变化，同理均应包含在本发明的保护范围内。

Claims

1.一种基于神经网络和PCA-KNN的高效VR视频压缩方法，其特征在于，包括如下步骤：

S1、VR视频数据预处理；

S3、利用PCA-KNN方法对高维特征向量进行降维分类，根据预测类别匹配最优映射模式。

2.根据权利要求1所述的一种基于神经网络和PCA-KNN的高效VR视频压缩方法，其特征在于，所述S1中对VR视频数据预处理，具体为：

S1.2、将扩充视频的每帧分割成大小为224×224的块；

S1.3、对每个块进行数据增广预处理。

3.根据权利要求2所述的一种基于神经网络和PCA-KNN的高效VR视频压缩方法，其特征在于，所述S1.3中的数据增广预处理包括如下步骤：

S1.3.1、对每个块进行随机水平翻转；

S1.3.2、对随机水平翻转后的块进行随机垂直翻转；

S1.3.3、对随机垂直翻转后的块进行颜色抖动处理；

S1.3.4、对颜色抖动处理后的块进行随机旋转。

4.根据权利要求1所述的一种基于神经网络和PCA-KNN的高效VR视频压缩方法，其特征在于，所述S2中，Res-CNN神经网络模型由包含1000类物体的ImageNet数据集进行预训练得到。

5.根据权利要求4所述的一种基于神经网络和PCA-KNN的高效VR视频压缩方法，其特征在于，所述Res-CNN神经网络模型包括卷积层、bottleneck层、池化层和全连接层，预处理后的VR视频数据依次经过所述卷积层、bottleneck层、池化层和全连接层后得到高维特征向量。

6.根据权利要求1所述的一种基于神经网络和PCA-KNN的高效VR视频压缩方法，其特征在于，所述S3中利用PCA-KNN方法对高维特征向量进行降维分类，包括如下步骤：

S3.2、用KNN分类器对正则化后的低维特征向量进行分类。

7.根据权利要求6所述的一种基于神经网络和PCA-KNN的高效VR视频压缩方法，其特征在于，所述KNN分类器对低维特征向量分类包括如下步骤：