CN110958449B

CN110958449B - 三维视频主观感知质量预测方法

Info

Publication number: CN110958449B
Application number: CN201911314441.8A
Authority: CN
Inventors: 崔力
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2019-12-19
Filing date: 2019-12-19
Publication date: 2021-07-06
Anticipated expiration: 2039-12-19
Also published as: CN110958449A

Abstract

本发明公开了一种三维视频主观感知质量预测方法，该方法为：对三维视频的预处理；对预处理后的三维视频分别进行三维视频数据张量的视觉特征提取和原始视频单帧图像的视觉特征提取；通过全连接和循环神经网络完成视觉感知特征的有效处理和进一步融合，最终获得对三维视频总体感知质量的有效预测。本发明基于深度学习网络能够显著提高GPU计算能力，视觉任务的训练和分布的难度，随着数据的提高，性能将会有比较大的提升，实现快速的特征提取和视觉感知计算。

Description

三维视频主观感知质量预测方法

技术领域

本发明属于视觉感知技术领域，具体涉及一种三维视频主观感知质量预测方法。

背景技术

视觉感知计算属于一种高级的计算机视觉任务，利用计算机手段模拟人类的视觉感知过程；考虑到视频在采集，处理采集存储中都需要保持较高的视觉感知质量，视觉感知质量的计算和监测显得尤其重要。

发明内容

有鉴于此，本发明的主要目的在于提供一种三维视频主观感知质量预测方法。

为达到上述目的，本发明的技术方案是这样实现的：

本发明实施例提供一种三维视频主观感知质量预测方法，该方法为：

对三维视频的预处理；

对预处理后的三维视频分别进行三维视频数据张量的视觉特征提取和原始视频单帧图像的视觉特征提取；

通过全连接和循环神经网络完成视觉感知特征的有效处理和进一步融合，最终获得对三维视频总体感知质量的有效预测。

上述方案中，所述对三维视频的预处理，具体为：将三维视频从原始RGB颜色空间转换为LMS颜色空间，之后，对不同空间频率分量所对应的亮度和色彩分量分别进行处理，最后，通过对比敏感函数进行处理。

上述方案中，所述将三维视频从原始RGB颜色空间转换为LMS颜色空间，具体为：从三维视频的RGB颜色空间出发，需要转为LMS颜色空间，

其中L代表亮度分量，M、S分别代表色彩分量。

上述方案中，所述对不同空间频率分量所对应的亮度和色彩分量分别进行处理，具体为：通过Gabor滤波将对色彩和亮度信号分别进行自带分解。

上述方案中，所述对预处理后的三维视频分别进行三维视频数据张量的视觉特征提取和原始视频单帧图像的视觉特征提取，具体为：基于端到端深度学习网络的视觉质量感知特征对预处理后的三维视频进行三维视频数据张量的视觉特征提取；基于端到端深度学习网络的视觉质量感知特征对预处理后的三维视频进行原始视频单帧图像的视觉特征提取。

上述方案中，所述通过全连接和循环神经网络完成视觉感知特征的有效处理和进一步融合，最终获得对三维视频总体感知质量的有效预测，具体为：对提取的三维视频数据张量的视觉特征和原始视频单帧图像的视觉特征进行有效融合，根据融合后的多维度视觉特征确定视频质量预测的数值并且输出。

与现有技术相比，本发明基于深度学习网络能够显著提高GPU计算能力，视觉任务的训练和分布的难度，随着数据的提高，性能将会有比较大的提升，实现快速的特征提取和视觉感知计算。

附图说明

图1为本发明实施例提供一种三维视频主观感知质量预测方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例提供一种三维视频主观感知质量预测方法，如图1所示，该通过以下步骤实现：

步骤101：对三维视频的预处理；

从三维视频的RGB颜色空间出发，需要转为LMS颜色空间，

其中L代表亮度分量，M、S分别代表色彩分量。

通过Gabor滤波将对色彩和亮度信号分别进行自带分解。

步骤102：对预处理后的三维视频分别进行三维视频数据张量的视觉特征提取和原始视频单帧图像的视觉特征提取；

具体地，基于端到端深度学习网络的视觉质量感知特征对预处理后的三维视频进行三维视频数据张量的视觉特征提取；基于端到端深度学习网络的视觉质量感知特征对预处理后的三维视频进行原始视频单帧图像的视觉特征提取。

考虑到深度卷积网络与人眼视觉系统V1区域的功能吻合，利用一个端到端深度学习网络计算视觉质量感知特征。考虑到深度学习网络输入的数据本质上是一个四维张量，深度学习网络卷积层采用三维滤波器构建。通过构建一个三维视频总体立体质量标注的平台，可以获得深度学习网络训练所需海量三维视频数据的高质量标注。

构建一个三维视频总体立体质量标注的平台：从原始视频单帧图像种获得视觉特征；构建端到端的深度学习网络完成视频单帧立体质量感知特征的计算；采集用于深度学习网络训练所用的数据。

值得注意的是，深度学习网络训练和验证所有用的数据必须具有内在一致性。

步骤103：通过全连接和循环神经网络完成视觉感知特征的有效处理和进一步融合，最终获得对三维视频总体感知质量的有效预测。

具体地，对提取的三维视频数据张量的视觉特征和原始视频单帧图像的视觉特征进行有效融合，根据融合后的多维度视觉特征确定视频质量预测的数值并且输出。

利用全连接和循环神经网络完成视觉感知特征的有效处理和进一步融合，最终获得对三维视频总体感知质量的有效预测。其中，RNN负责将单帧图像视觉特征融合，全连接层将异种特征处理合并为一个全局特征。

值得注意的是，需要加入一定约束防止网络过度拟合。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种三维视频主观感知质量预测方法，其特征在于，该方法为：

对三维视频的预处理；

基于端到端深度学习网络的视觉质量感知特征对预处理后的三维视频进行三维视频数据张量的视觉特征提取；基于端到端深度学习网络的视觉质量感知特征对预处理后的三维视频进行原始视频单帧图像的视觉特征提取；

通过全连接和循环神经网络完成视觉感知特征的有效处理和进一步融合，最终获得对三维视频总体感知质量的有效预测,具体为：对提取的三维视频数据张量的视觉特征和原始视频单帧图像的视觉特征进行有效融合，根据融合后的多维度视觉特征确定视频质量预测的数值并且输出;

所述对三维视频的预处理，具体为：将三维视频从原始RGB颜色空间转换为LMS颜色空间，之后，对不同空间频率分量所对应的亮度和色彩分量分别进行处理，最后，通过对比敏感函数进行处理；

所述将三维视频从原始RGB颜色空间转换为LMS颜色空间，具体为：从三维视频的RGB颜色空间出发，需要转为LMS颜色空间，

，其中L代表亮度分量，M、S分别代表色彩分量。

2.根据权利要求1所述的三维视频主观感知质量预测方法，其特征在于，所述对不同空间频率分量所对应的亮度和色彩分量分别进行处理，具体为：通过Gabor滤波将对色彩和亮度信号分别进行子带分解。