CN109862350A

CN109862350A - 基于时空域特征提取的无参考视频质量评价方法

Info

Publication number: CN109862350A
Application number: CN201910149737.2A
Authority: CN
Inventors: 桑庆兵; 张�浩; 方伟; 孙俊; 吴小俊
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2019-02-27
Filing date: 2019-02-27
Publication date: 2019-06-07
Anticipated expiration: 2039-02-27
Also published as: CN109862350B

Abstract

基于时空域特征提取的无参考视频质量评价方法，其所需数据量小，计算复杂度低，适用于无线应用的实时测评，可大大降低视频质量评价时延性，提高评价结果获取效率，其包括以下步骤：S1，选取一幅噪声视频作为待评价视频，S2，对待评价视频进行颜色空间转换，获取噪声视频的亮度信号值、色度信号值，S3，提取预处理后的噪声视频的时域特征、时空域特征，S31，采用分帧处理方法提取时域特征，获取视频帧差图，S32，将视频帧差图送Xception网络提取时空域特征，S4，对时空域特征进行拼接，获取拼接图，然后采用PCA方法对拼接图进行降维处理，获取深度处理特征，S5，建立XGBOOST模型，获得噪声视频的图像噪声指标，S6，采用性能指标对图像噪声指标进行评价。

Description

基于时空域特征提取的无参考视频质量评价方法

技术领域

本发明涉及视频评价方法技术领域，具体为基于时空域特征提取的无参考视频质量评价方法。

背景技术

随着移动4G网络的到来，智能手机的普及等原因导致了手机直播平台的快速发展，人们可以随时随地观看自己喜欢的视频节目，短视频在人们生活娱乐中占据了越来越重要的地位。由于视频在采集、压缩、传输等过程中很大程度会导致视频质量的下降，因此如何使用计算机去准确的评价视频的质量，提高客观评价结果与主观感知之间的一致性成为本领域人员越来越关注的问题。

目前，根据对未失真原始视频信息的参考度，视频质量客观评价方法可分为3大类：全参考(Full Reference，FR)视频质量评价方法，半参考(Reduced Reference，RR)视频质量评价方法和无参考(No Reference，NR)视频质量评价方法，但是在实际应用过程中，全参考视频的获取比较困难，且该方法所需的数据量大、计算复杂度较高，而半参考视频质量评价方法提取特征的数据量虽然少于全参考视频质量评价方法，但是该方法占用的宽带多，不适合无线应用的实时测评，这两种视频质量评价方法的评价时延性均较长，严重影响了评价结果的获取效率。

发明内容

为了解决现有的全参考视频质量评价方法的全参考视频获取困难、所需数据量大、计算复杂度高，半参考视频质量评价方法占用宽带多、不适合无线应用的实时测评，导致视频质量评价时延性长，评价结果获取效率低的问题，本发明提供了基于时空域特征提取的无参考视频质量评价方法，其所需数据量小，计算复杂度低，适用于无线应用的实时测评，可大大降低视频质量评价时延性，提高评价结果获取效率。

基于时空域特征提取的无参考视频质量评价方法，其包括以下步骤：

S1，选取噪声视频作为待评价视频；

S2，对选取的所述待评价视频进行预处理；

S3，提取预处理后的所述待评价视频的失真特征；

S4，对所述失真特征进行深度处理，获取深度处理特征；

S5，建立视频评价预测模型，获得所述噪声视频的图像噪声指标；

S6，采用性能指标对所述图像噪声指标进行评价；

其特征在于，在步骤S1中，选取一幅噪声视频作为待评价视频；

在步骤S2中，所述预处理即对所述噪声视频进行颜色空间转换，获取所述噪声视频的亮度信号值、色度信号值；

在步骤S3中，所述失真特征包括时域特征、时空域特征，依次提取所述时域特征、时空域特征，提取步骤如下：

S31，采用分帧处理方法提取所述时域特征，获取视频帧差图；

S32，将所述视频帧差图送入Xception网络提取所述时空域特征；

其还包括步骤S4，对所述失真特征进行深度处理，获取深度处理特征，所述深度处理即对所述时空域特征进行拼接，获取拼接图，然后采用PCA方法对所述拼接图进行降维处理，获取所述深度处理特征；

在步骤S5中，所述视频评价预测模型为XGBOOST模型，将所述深度处理特征作为所述XGBOOST模型的训练值。

其进一步特征在于，在步骤S2中，所述颜色空间转换采用的公式(1)如下所示：

其中R、G、B分别为所述噪声视频中的RGB色彩空间中的红色分量值、绿色分量值、蓝色分量值，Y、U、V分别为所述噪声视频中的YUV色彩空间中的所述亮度信号值、色度信号值，所述RGB色彩空间、YUV色彩空间中的各分量的取值范围为0～255；

在步骤S31中，所述分帧处理即采用帧差图计算公式对相邻的所述噪声视频进行处理，获取所述视频帧差图；

在步骤S31中，所述帧差图计算公式(2)为：

其中I表示所述噪声视频，i表示所述噪声视频的第i个视频帧，表示当前视频帧与后一帧的所述视频帧差图的像素值，Iⁱ⁺¹(x,y)表示i+1个视频帧的像素值，Iⁱ(x,y)表示当前第i个视频帧的像素值，M表示所述噪声视频的视频帧的总数，i为大于等于1的整数；

在步骤S32中，对所述Xception模型的全连接层进行调整修改，设置所述全连接层的输出层、隐藏层单元的个数；

在步骤S32中，所述输出层采用softmax激活函数，如公式(3)，

公式(3)中x_t是指第t个神经元的输出，是指所有输出神经元经过指数运算求和，该公式输出的每个神经节点的概率值，其和等于1，S表示所述激活函数，t为大于等于1的整数，损失函数采用多分类交叉熵损失，如公式(4)，

公式(4)中k指的是第k个样本，Q_k是指实际标签，是指网络的输出值，其中，实际标签都是采用独热编码(one-hot)的形式，E_loss表示损失函数,k为大于等于1的整数；

在步骤S32中，设置所述输出层为5个，所述隐藏层单元个数为2048个；

在步骤S4中，所述降维处理的降维值设置为150，最终失真频率的特征为150维；

在步骤S5中，所述XGBOOST模型的学习率取0.1，树的总数量取500，其他参数取默认值，其中树的最大深度、最小叶子分裂值、样本采样、属性列采样参数采用Sciki-learn包里面的网格搜索GridSearchCV函数进行Xgboost参数的寻优；

在步骤S6中，所述性能指标包括斯皮尔曼等级次序关系系数、相关系数。

采用本发明的上述结构，本发明选取一幅噪声视频作为待评价视频，其不需要参考视频，也不需要人为主动的去寻找相关失真特征，因此所需数据量小，且通过对噪声视频的颜色空间转换、时域特征及时空域特征提取、PCA方法深度处理、XGBOOST回归预测模型训练即可获得图像噪声指标，大大简化了计算复杂度，适用于无线应用的实时测评，本发明方法实现了一幅噪声视频的质量好坏快速评价，大大降低了视频质量评价时延性，提高了评价结果获取效率。

附图说明

图1为本发明的流程图。

具体实施方式

见图1，基于时空域特征提取的无参考视频质量评价方法，其包括以下步骤：

S1，选取一幅噪声视频作为待评价视频；

S2，对选取的噪声视频进行预处理，即对噪声视频进行颜色空间转换，获取噪声视频的亮度信号值、色度信号值，颜色空间转换采用的公式(1)如下所示：

其中R、G、B分别为噪声视频中的RGB色彩空间中的红色分量值、绿色分量值、蓝色分量值，Y、U、V分别为噪声视频中的YUV色彩空间中的亮度信号值、色度信号值，RGB色彩空间、YUV色彩空间中的各分量的取值范围为0～255；

S3，对经预处理后的噪声视频进行特征提取，提取噪声视频中的失真特征，失真特征包括时域特征、时空域特征，特征提取包括以下具体步骤：

S31，采用分帧处理方法提取时域特征，分帧处理即采用帧差图计算公式对相邻的噪声视频进行处理，获取视频帧差图，帧差图计算公式(2)为：

其中I表示所述噪声视频，i表示所述噪声视频的第i个视频帧，表示当前视频帧与后一帧的所述视频帧差图的像素值，Iⁱ⁺¹(x,y)表示i+1个视频帧的像素值，Iⁱ(x,y)表示当前第i个视频帧的像素值，M表示所述噪声视频的视频帧的总数，i、M均为大于等于1的整数；

S32，提取时空域特征，将视频帧差图输入至Xception模型中提取时空域特征，设置Xception模型的输出层、隐藏单元个数，本实施例中对Xception模型的全连接层进行调整修改，对失真视频帧差图片进行5分类，设置全连接层的输出层为5个、隐藏层单元的个数为2048个，输出层采用softmax激活函数，如公式(3)，损失函数采用多分类交叉熵损失，如公式(4)，

Xception模型中视频的输入尺寸为原始视频帧大小，采用随机梯度下降，Batchsize大小为40，优化器采用动量SGD，参数采用默认值，学习率设置为0.00001，经过10轮迭代，分类准确率达到80％，对于每一个视频帧差图像提取全连接前一层的特征进行保存，由于前一层有2048个神经单元，所以每一个帧差图可以提取2048个特征；

S4，对时空域特征进行深度处理，获取深度处理特征，深度处理即对失真特征进行拼接，获取拼接图，然后采用PCA方法对拼接图进行降维处理，获取深度处理特征，此处PCA方法的降维值设置为150，最终失真频率的特征为150维；

S5，将深度处理特征作为训练值输入至XGBOOST模型中建立回归预测模型进行训练，所得训练结果作为图像噪声指标，模型的参数设置如下：学习率(eta)取0.1，树的总数量(n_estimators)取500，其他参数取默认值，其中树的最大深度(max_depth)，最小叶子分裂值(min_child_weight)，样本采样(subsample)，属性列采样(colsample_bytree)参数采用Sciki-learn包里面的网格搜索GridSearchCV函数进行Xgboost参数的寻优，实验最优值为max_depth为8，min_child_weight为1.0，subsample为1.0，colsample_bytree为1.0；

S6，采用性能指标对获得的图像噪声指标进行评价，性能指标包括斯皮尔曼等级次序关系系数(SROCC)、相关系数(CC)，斯皮尔曼等级次序关系系数(SROCC)，反映客观评测预测成绩的单调性，相关系数(CC)，反映客观评测的精确性，SROCC和CC的值在0-1的范围之内，值越接近1，说明性能指标越好。

其具体工作原理如下所述：为了验证本发明方法的优越性，本实验是在美国德州大学Austin分校LIVE实验室视频质量评价数据库上进行测试，该LIVE数据库中共有150个失真视频，同时给出了该150个失真视频的主观得分值(MOS)，选取其中一幅噪声视频作为待评价视频，通过对选取的噪声视频进行颜色空间转换优化损失函数，再采用分帧处理法提取时域特征，采用Xception模型提取时空域特征，对时空域特征进行拼接，获取拼接图，采用PCA方法对拼接图进行降维处理，获取深度处理特征，通过更新XGBOOST模型网络参数去寻找导致噪声视频失真的主要特征信息，即获取图像噪声指标，并分别采用斯皮尔曼等级次序关系系数(SROCC)、相关系数(CC)性能指标对图像噪声指标进行评价，从而实现了一幅噪声视频的质量好坏快速评价，最终测试结果如表1所示：从表中可以看出，从表中可以看出，本发明方法的斯皮尔曼等级次序关系系数(SROCC)、相关系数(CC)均接近于1，具有非常好的性能指标，且通过本发明方法评价噪声视频质量好坏的结果与人类主观视觉感知结果的一致性较好。

表1在LIVE数据库上的性能指标

Claims

1.基于时空域特征提取的无参考视频质量评价方法，其包括以下步骤：

S1，选取噪声视频作为待评价视频；

S2，对选取的所述噪声视频进行预处理；

S3，提取预处理后的所述噪声视频的失真特征；

S6，采用性能指标对所述图像噪声指标进行评价；

S32，将所述视频帧差图送入Xception模型提取所述时空域特征；

2.根据权利要求1所述的基于时空域特征提取的无参考视频质量评价方法，其特征在于，在步骤S2中，所述颜色空间转换采用的公式(1)如下所示：

其中R、G、B分别为所述噪声视频中的RGB色彩空间中的红色分量值、绿色分量值、蓝色分量值，Y、U、V分别为所述噪声视频中的YUV色彩空间中的所述亮度信号值、色度信号值，所述RGB色彩空间、YUV色彩空间中的各分量的取值范围为0～255。

3.根据权利要求1或2任一项所述的基于时空域特征提取的无参考视频质量评价方法，其特征在于，在步骤S31中，所述分帧处理即采用帧差图计算公式对相邻的所述噪声视频进行处理，获取所述视频帧差图。

4.根据权利要求3所述的基于时空域特征提取的无参考视频质量评价方法，其特征在于，在步骤S31中，所述视频帧差图计算公式(2)为：

其中I表示所述噪声视频，i表示所述噪声视频的第i个视频帧，表示当前视频帧与后一帧的所述视频帧差图的像素值，Iⁱ⁺¹(x,y)表示i+1个视频帧的像素值，Iⁱ(x,y)表示当前第i个视频帧的像素值，M表示所述噪声视频的视频帧的总数，i为大于等于1的整数。

5.根据权利要求4所述的基于时空域特征提取的无参考视频质量评价方法，其特征在于，在步骤S32中，对所述Xception模型的全连接层进行调整修改，设置所述全连接层的输出层、隐藏层单元的个数。

6.根据权利要求5所述的基于时空域特征提取的无参考视频质量评价方法，其特征在于，在步骤S32中，所述输出层采用softmax激活函数，如公式(3)，

公式(4)中k指的是第k个样本，Q_k是指实际标签，是指网络的输出值，其中，实际标签都是采用独热编码(one-hot)的形式，E_loss表示损失函数,k为大于等于1的整数。

7.根据权利要求6所述的基于时空域特征提取的无参考视频质量评价方法，其特征在于，在步骤S32中，设置所述输出层为5个，所述隐藏层单元个数为2048个。

8.根据权利要求7所述的基于时空域特征提取的无参考视频质量评价方法，其特征在于，在步骤S4中，所述降维处理的降维值设置为150，最终失真视频的特征为150维。

9.根据权利要求1或8任一项所述的基于时空域特征提取的无参考视频质量评价方法，其特征在于，在步骤S5中，所述XGBOOST模型的学习率取0.1，树的总数量取500，其他参数取默认值，其中树的最大深度、最小叶子分裂值、样本采样、属性列采样参数采用Sciki-learn包里面的网格搜索GridSearchCV函数进行Xgboost参数的寻优。

10.根据权利要求9所述的基于时空域特征提取的无参考视频质量评价方法，其特征在于，在步骤S6中，所述性能指标包括斯皮尔曼等级次序关系系数、相关系数。