CN108810547A - 一种基于神经网络和pca-knn的高效vr视频压缩方法 - Google Patents
一种基于神经网络和pca-knn的高效vr视频压缩方法 Download PDFInfo
- Publication number
- CN108810547A CN108810547A CN201810719999.3A CN201810719999A CN108810547A CN 108810547 A CN108810547 A CN 108810547A CN 201810719999 A CN201810719999 A CN 201810719999A CN 108810547 A CN108810547 A CN 108810547A
- Authority
- CN
- China
- Prior art keywords
- video
- knn
- neural network
- feature vector
- pca
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/42—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于神经网络和PCA‑KNN的高效VR视频压缩方法,涉及VR视频压缩技术领域,本发明包括如下步骤:S1、VR视频数据预处理;S2、将预处理后的VR视频数据输入Res‑CNN神经网络模型中,得到高维特征向量;S3、利用PCA‑KNN方法对高维特征向量进行降维分类,匹配最优映射模式,本发明针对不同的VR视频,通过神经网络的迁移特征,利用机器学习的方法分析VR视频的图像纹理特征,进而自适应地选择最优的映射模式,然后用该映射模式对VR视频进行映射后将其进行编码压缩,使得VR视频的编码压缩效率大大提高。
Description
技术领域
本发明涉及VR视频压缩技术领域,更具体的是涉及一种基于神经网络和PCA-KNN的高效VR视频压缩方法。
背景技术
近年来,随着VR(Virtual Reality)技术的发展,为了得到更好的沉浸感体验,对VR视频的清晰度要求也随之上升。VR视频的分辨率从2K到4K甚至达到了8K,而目前的网络带宽达不到直接传输VR视频的要求,所以需要将VR视频进行编码压缩后再进行传输。但目前的视频编码标准都是针对二维视频建立的,所以三维的VR视频需要映射到二维平面后再进行编码传输。
三维视频映射到二维平面时会带来一定程度的失真,目前常用的映射方法有CMP(Cubemap projection)和ERP(Equirectangle projection)等映射方法,不同的映射方法带来的失真程度也不同,比如ERP映射方法会在两极处过采样,使得越靠近两极采样点失真越大,并且在映射时产生的失真也会对后面的编码压缩过程产生影响。因此,如何实现自适应地选择最佳映射方法来降低编码复杂度,提高VR视频的压缩效率是目前的研究重点。
发明内容
本发明的目的在于:为了解决目前多种VR映射方法对不同的VR视频会带来不同程度的失真,从而影响VR视频质量的问题,本发明提供一种基于神经网络和PCA-KNN的高效VR视频压缩方法。
本发明为了实现上述目的具体采用以下技术方案:
一种基于神经网络和PCA-KNN的高效VR视频压缩方法,包括如下步骤:
S1、VR视频数据预处理;
S2、将预处理后的VR视频数据输入Res-CNN神经网络模型中,得到高维特征向量;
S3、利用PCA-KNN方法对高维特征向量进行降维后分类,根据预测类别匹配最优映射模式。
进一步的,所述S1中对VR视频数据预处理,具体为:
S1.1、对VR视频进行插值处理,使VR视频图像的分辨率扩充为224的倍数,得到扩充视频;
S1.2、将扩充视频的每帧分割成大小为224×224的块;
S1.3、对每个块进行数据增广预处理。
进一步的,所述S1.3中的数据增广预处理包括如下步骤:
S1.3.1、对每个块进行随机水平翻转;
S1.3.2、对随机水平翻转后的块进行随机垂直翻转;
S1.3.3、对随机垂直翻转后的块进行颜色抖动处理;
S1.3.4、对颜色抖动处理后的块进行随机旋转。
进一步的,所述S2中,Res-CNN神经网络模型由包含1000类物体的ImageNet数据集进行预训练得到。
进一步的,所述Res-CNN神经网络模型包括卷积层、bottleneck层、池化层和全连接层,预处理后的VR视频数据依次经过所述卷积层、bottleneck层、池化层和全连接层后得到高维特征向量。
进一步的,所述S3中利用PCA-KNN方法对高维特征向量进行降维后分类,具体包括如下步骤:
S3.1、对高维特征向量进行主成分分析,将高维特征向量的维度降到D维,得到低维特征向量,并对低维特征向量进行正则化处理;
S3.2、用KNN分类器对正则化后的低维特征向量进行分类。
进一步的,所述KNN分类器对低维特征向量分类包括如下步骤:
S3.2.1、计算低维特征向量与KNN分类器中各类的特征向量之间的距离;
S3.2.2、对计算得到的距离从小到大进行排序,选取排序后的前K个点;
S3.2.3、这K个点中出现频率最高的类别就是低维特征向量的预测类别。
本发明的有益效果如下:
本发明针对不同的VR视频,通过神经网络的迁移学习,无需人工提取特征,将Res-CNN神经网络模型作为特征提取器,提取VR视频的高维特征向量。利用机器学习的方法分析VR视频的图像纹理特征,对其类别进行预测,进而自适应地选择最优的映射模式。用该映射模式对VR视频进行映射后将其进行编码压缩,极大地提高了VR视频的压缩效率。
附图说明
图1是CMP映射方法示意图。
图2是Doubring映射方法示意图。
图3是Polerect映射方法示意图。
图4是本发明的方法流程图。
图5是本发明的系统框架图。
图6是本发明的网络结构图。
具体实施方式
为了本技术领域的人员更好的理解本发明,下面结合附图和以下实施例对本发明作进一步详细描述。
实施例1
如图4至图6所示,本实施例提供一种基于神经网络和PCA-KNN的高效VR视频压缩方法,包括如下步骤:
S1、VR视频数据预处理,具体的,
S1.1、对VR视频进行插值处理,使VR视频图像的分辨率扩充为224的倍数,得到扩充视频;
S1.2、将扩充视频的每帧分割成大小为224×224的块;
S1.3、对每个块进行数据增广预处理,包括以下步骤:
S1.3.1、对每个块进行随机水平翻转;
S1.3.2、对随机水平翻转后的块进行随机垂直翻转;
S1.3.3、对随机垂直翻转后的块进行颜色抖动处理;
S1.3.4、对颜色抖动处理后的块进行随机旋转;
S2、将预处理后的VR视频数据输入Res-CNN神经网络模型中,得到高维特征向量,用这些高维特征向量表示VR视频的每帧,所述Res-CNN神经网络模型由包含1000类物体的ImageNet数据集进行预训练得到,使得Res-CNN神经网络模型能够很好地应对各种VR视频中的场景特征分析,具体的,
所述Res-CNN神经网络模型包括卷积层、bottleneck层、池化层和全连接层,预处理后的VR视频数据依次经过所述卷积层、bottleneck层、池化层和全连接层后得到高维特征向量。
S3、利用PCA-KNN方法对高维特征向量进行降维后分类,根据预测类别匹配最优映射模式,包括如下步骤:
S3.1、由于Res-CNN神经网络模型导出的高维特征向量在进行KNN分类时会带来很大的计算量,所以在进行KNN分类前,首先对高维特征向量进行主成分分析(PrincipalComponent Analysis,PCA)将高维特征向量的维度降到D维,得到低维特征向量来增强KNN分类器的鲁棒性,同时去除噪声对KNN分类器的影响;
假设一个VR视频序列有p帧,且每帧被分为q个块,每个块记为Si,其中i表示一个视频序列中所有块中某一块的序号,i∈[1,p×q],导出的高维特征向量的维数为N,对所有高维特征向量通过PCA降维至D维得到低维特征向量然后再对低维特征向量进行正则化处理得到所述正则化处理公式如下:
其中,
S3.2、用KNN分类器对正则化后的低维特征向量进行分类,具体为:
S3.2.1、计算低维特征向量与KNN分类器中各类的特征向量之间距离,所述距离的计算可以采用欧氏距离计算公式、曼哈顿距离计算公式或者其他距离的计算公式计算得到,所述欧式距离计算公式为:
所述曼哈顿距离计算公式为:
其中,yi为KNN分类器中的训练数据;
S3.2.2、对计算得到的距离从小到大进行排序,选取排序后的前K个点;
S3.2.3、这K个点中出现频率最高的类别就是低维特征的预测类别。
常见的映射模式有以下三类:
1、CMP
CMP映射方法将一个球面VR视频映射到一个正六面体上,如图1所示,该方法先确定球形视频的外接正方体,正方体分为左面,正面,右面,背面,顶面和底面,在图1中用1-6表示,将正方体的顶点与球心相连,则连线与球产生的交面上的所有像素点即为映射后正方体该面上的像素点。
2、Doubring
如图2(a)和图2(b)所示,Doubring映射方法通过南纬30°和北纬30°的纬线将球分成了三部分,中间部分被称作“水平环”,其余部分称为“顶部”和“底部”,设球面视频的函数表达式为x2+y2+z2=r2,则“水平环”的函数表达式为:
水平环被均匀分割成6个矩形区域,记为“正左面”“正中面”“正右面”“反左面”“反中面”“反右面”。接下来用一个纵向环去切割“顶部”和“底部”,该环的表达式如下:
纵向环和“顶部”相交的球面部分,用平面x=0将其均匀分成两部分,映射成与“正中面”相同大小的两个矩形面,记为“正上面”和“反上面”;同理,可以得到“底部”分割成的“正下面”和“反下面”,最后,球面剩余的四个部分映射成相同大小的四个矩形面,依次记为“左上面”“右上面”“左下面”“反下面”,尺寸也和“正中面”相同,则将球面视频映射成了如图2(c)所示的14个矩形,其中,矩形3、7、9都被分成1/3和2/3部分,并经过旋转重排布成如图2(d)所示。
3、Polerect
如图3(a)所示,该映射方法对低纬度地区——±45°之间的球面不进行映射,直接拉伸为矩形并将其均匀分成4个矩形面,记为图3(b)中的1-4,剩余的两个高纬度地区——[-π/2,-π/4],[π/4,π/2]被映射成两个矩形,在图3(b)中记为5、6,接下来映射后的矩形1-6被重排布成图3(c)所示,其中矩形5顺时针旋转90°,矩形4逆时针旋转90°。
以上所述,仅为本发明的较佳实施例,并不用以限制本发明,本发明的专利保护范围以权利要求书为准,凡是运用本发明的说明书及附图内容所作的等同结构变化,同理均应包含在本发明的保护范围内。
Claims (7)
1.一种基于神经网络和PCA-KNN的高效VR视频压缩方法,其特征在于,包括如下步骤:
S1、VR视频数据预处理;
S2、将预处理后的VR视频数据输入Res-CNN神经网络模型中,得到高维特征向量;
S3、利用PCA-KNN方法对高维特征向量进行降维分类,根据预测类别匹配最优映射模式。
2.根据权利要求1所述的一种基于神经网络和PCA-KNN的高效VR视频压缩方法,其特征在于,所述S1中对VR视频数据预处理,具体为:
S1.1、对VR视频进行插值处理,使VR视频图像的分辨率扩充为224的倍数,得到扩充视频;
S1.2、将扩充视频的每帧分割成大小为224×224的块;
S1.3、对每个块进行数据增广预处理。
3.根据权利要求2所述的一种基于神经网络和PCA-KNN的高效VR视频压缩方法,其特征在于,所述S1.3中的数据增广预处理包括如下步骤:
S1.3.1、对每个块进行随机水平翻转;
S1.3.2、对随机水平翻转后的块进行随机垂直翻转;
S1.3.3、对随机垂直翻转后的块进行颜色抖动处理;
S1.3.4、对颜色抖动处理后的块进行随机旋转。
4.根据权利要求1所述的一种基于神经网络和PCA-KNN的高效VR视频压缩方法,其特征在于,所述S2中,Res-CNN神经网络模型由包含1000类物体的ImageNet数据集进行预训练得到。
5.根据权利要求4所述的一种基于神经网络和PCA-KNN的高效VR视频压缩方法,其特征在于,所述Res-CNN神经网络模型包括卷积层、bottleneck层、池化层和全连接层,预处理后的VR视频数据依次经过所述卷积层、bottleneck层、池化层和全连接层后得到高维特征向量。
6.根据权利要求1所述的一种基于神经网络和PCA-KNN的高效VR视频压缩方法,其特征在于,所述S3中利用PCA-KNN方法对高维特征向量进行降维分类,包括如下步骤:
S3.1、对高维特征向量进行主成分分析,将高维特征向量的维度降到D维,得到低维特征向量,并对低维特征向量进行正则化处理;
S3.2、用KNN分类器对正则化后的低维特征向量进行分类。
7.根据权利要求6所述的一种基于神经网络和PCA-KNN的高效VR视频压缩方法,其特征在于,所述KNN分类器对低维特征向量分类包括如下步骤:
S3.2.1、计算低维特征向量与KNN分类器中各类的特征向量之间的距离;
S3.2.2、对计算得到的距离从小到大进行排序,选取排序后的前K个点;
S3.2.3、这K个点中出现频率最高的类别就是低维特征向量的预测类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810719999.3A CN108810547A (zh) | 2018-07-03 | 2018-07-03 | 一种基于神经网络和pca-knn的高效vr视频压缩方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810719999.3A CN108810547A (zh) | 2018-07-03 | 2018-07-03 | 一种基于神经网络和pca-knn的高效vr视频压缩方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108810547A true CN108810547A (zh) | 2018-11-13 |
Family
ID=64074376
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810719999.3A Pending CN108810547A (zh) | 2018-07-03 | 2018-07-03 | 一种基于神经网络和pca-knn的高效vr视频压缩方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108810547A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112767261A (zh) * | 2021-01-06 | 2021-05-07 | 温州大学 | 一种基于广义非凸张量鲁棒主成分分析模型的针对彩色图像和视频的非局部去噪框架 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101657839A (zh) * | 2007-03-23 | 2010-02-24 | 汤姆森许可贸易公司 | 用于对2d图像进行区域分类以进行2d至3d转换的系统和方法 |
CN103218842A (zh) * | 2013-03-12 | 2013-07-24 | 西南交通大学 | 一种语音同步驱动三维人脸口型与面部姿势动画的方法 |
CN105787437A (zh) * | 2016-02-03 | 2016-07-20 | 东南大学 | 一种基于级联集成分类器的车辆品牌类型识别方法 |
CN105844238A (zh) * | 2016-03-23 | 2016-08-10 | 乐视云计算有限公司 | 视频鉴别方法及系统 |
CN106971174A (zh) * | 2017-04-24 | 2017-07-21 | 华南理工大学 | 一种cnn模型、cnn训练方法以及基于cnn的静脉识别方法 |
CN107220618A (zh) * | 2017-05-25 | 2017-09-29 | 中国科学院自动化研究所 | 人脸检测方法及装置、计算机可读存储介质、设备 |
CN107403141A (zh) * | 2017-07-05 | 2017-11-28 | 中国科学院自动化研究所 | 人脸检测方法及装置、计算机可读存储介质、设备 |
US20180017580A1 (en) * | 2014-12-05 | 2018-01-18 | Myriad Genetics, Inc. | Biomarkers for distinguishing mood disorders |
CN108074244A (zh) * | 2017-09-07 | 2018-05-25 | 汉鼎宇佑互联网股份有限公司 | 一种融合深度学习与背景差法的平安城市车流统计方法 |
-
2018
- 2018-07-03 CN CN201810719999.3A patent/CN108810547A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101657839A (zh) * | 2007-03-23 | 2010-02-24 | 汤姆森许可贸易公司 | 用于对2d图像进行区域分类以进行2d至3d转换的系统和方法 |
CN103218842A (zh) * | 2013-03-12 | 2013-07-24 | 西南交通大学 | 一种语音同步驱动三维人脸口型与面部姿势动画的方法 |
US20180017580A1 (en) * | 2014-12-05 | 2018-01-18 | Myriad Genetics, Inc. | Biomarkers for distinguishing mood disorders |
CN105787437A (zh) * | 2016-02-03 | 2016-07-20 | 东南大学 | 一种基于级联集成分类器的车辆品牌类型识别方法 |
CN105844238A (zh) * | 2016-03-23 | 2016-08-10 | 乐视云计算有限公司 | 视频鉴别方法及系统 |
CN106971174A (zh) * | 2017-04-24 | 2017-07-21 | 华南理工大学 | 一种cnn模型、cnn训练方法以及基于cnn的静脉识别方法 |
CN107220618A (zh) * | 2017-05-25 | 2017-09-29 | 中国科学院自动化研究所 | 人脸检测方法及装置、计算机可读存储介质、设备 |
CN107403141A (zh) * | 2017-07-05 | 2017-11-28 | 中国科学院自动化研究所 | 人脸检测方法及装置、计算机可读存储介质、设备 |
CN108074244A (zh) * | 2017-09-07 | 2018-05-25 | 汉鼎宇佑互联网股份有限公司 | 一种融合深度学习与背景差法的平安城市车流统计方法 |
Non-Patent Citations (1)
Title |
---|
陈丹等: "基于主分量分析的声信号特征提取及识别研究", 《声学技术》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112767261A (zh) * | 2021-01-06 | 2021-05-07 | 温州大学 | 一种基于广义非凸张量鲁棒主成分分析模型的针对彩色图像和视频的非局部去噪框架 |
CN112767261B (zh) * | 2021-01-06 | 2024-02-13 | 温州大学 | 一种基于广义非凸张量鲁棒主成分分析模型的针对彩色图像和视频的非局部去噪框架 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lee et al. | From big to small: Multi-scale local planar guidance for monocular depth estimation | |
CN109377530B (zh) | 一种基于深度神经网络的双目深度估计方法 | |
CN110084757B (zh) | 一种基于生成对抗网络的红外深度图像增强方法 | |
CN110378838B (zh) | 变视角图像生成方法,装置,存储介质及电子设备 | |
CN111798400A (zh) | 基于生成对抗网络的无参考低光照图像增强方法及系统 | |
Pan et al. | TSAN: Synthesized view quality enhancement via two-stream attention network for 3D-HEVC | |
CN107454468A (zh) | 对沉浸式视频进行格式化的方法、装置和流 | |
CN110381268B (zh) | 生成视频的方法,装置,存储介质及电子设备 | |
CN111951368B (zh) | 一种点云、体素和多视图融合的深度学习方法 | |
Li et al. | A real-time high-quality complete system for depth image-based rendering on FPGA | |
CN114079779A (zh) | 图像处理方法、智能终端及存储介质 | |
CN116664782B (zh) | 一种基于融合体素的神经辐射场三维重建方法 | |
CN110443883A (zh) | 一种基于dropblock的单张彩色图片平面三维重建方法 | |
CN115512073A (zh) | 基于可微分渲染下多阶段训练的三维纹理网格重建方法 | |
CN115298708A (zh) | 多视角神经人体渲染 | |
CN111899295A (zh) | 一种基于深度学习的单目场景深度预测方法 | |
CN110689498B (zh) | 一种基于对非关注点部分分级模糊的高清视频优化方法 | |
CN116957931A (zh) | 一种基于神经辐射场的相机图像画质提升方法 | |
CN108810547A (zh) | 一种基于神经网络和pca-knn的高效vr视频压缩方法 | |
CN113989460B (zh) | 用于增强现实场景的实时天空替换特效控制方法及装置 | |
US11727536B2 (en) | Method and apparatus for geometric smoothing | |
Wang et al. | Real time believable stereo and virtual view synthesis engine for autostereoscopic display | |
Dul et al. | Object-aware Image Compression with Adversarial Learning | |
CN115311145B (zh) | 图像处理方法及装置、电子设备、存储介质 | |
CN116051746A (zh) | 一种三维重建和神经渲染网络的改进方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181113 |
|
RJ01 | Rejection of invention patent application after publication |