CN111818329B

CN111818329B - 基于堆栈式自适应编码器的视频质量评价方法

Info

Publication number: CN111818329B
Application number: CN202010590770.1A
Authority: CN
Inventors: 杨嘉琛; 武建鹏
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2021-08-13
Anticipated expiration: 2040-06-24
Also published as: CN111818329A

Abstract

本发明涉及一种基于堆栈式自适应编码器的视频质量评价方法，包括下列步骤：给定要评价的视频序列，计算输入视频帧的映射结果；计算视频映射

的梯度幅值特征；从视频映射

中提取对比度特征MNC以及几何平均数特征GM，进行归一化；通过堆栈式自适应编码器APES获取深层特征，使用深度神经网络来训练APES；利用训练完成的APES模型得到测试集的深层特征；利用SVR分别计算深层特征P_f、P_G、P_M的分数，得到最终的预测分数。

Description

基于堆栈式自适应编码器的视频质量评价方法

技术领域

本发明属视频处理领域，涉及视频质量评价方法。

背景技术

随着互联网的飞速发展以及科学技术的日益提高，视频处理技术被广泛应用。然而日常生活中人们所接触到的视频，其在编码、传输等过程，会导致视频压缩失真，且加之物体运动、噪声污染等原因，都会不可避免地带来某些视频的降质，从而影响人类对视频序列的感知，因此进行视频质量评价就显得很重要。

根据降阶视频与其相对应原始参考视频的需要程度，可以把客观质量评价方法分为三类：全参考视频质量评价方法、部分参考视频质量评价方法和无参考视频质量评价方法。全参考视频评价方法必须完整提供原始参考视频和在终端屏幕上显示的降阶视频，而大多数情况下原始视频较难获取。部分参考视频评价方法是指在做视频评价的时候没有原始参考视频的完整像素信息，只由原始视频的特征数据表达信息，因此只能把待评估的视频加上同样的特征表达方式得到特征数据并将两者的特征数据进行对比来判断待测视频的质量。无参考方法不需要提供任何原始视频信息，所有的评价都是基于捕获的降阶视频来处理的。由于不需要参考视频，所以无参考模型更适合对视频质量做实时评估，如流媒体点播类的业务。以往的二维和三维图像质量评价多基于浅层结构，而视频与图像相比更为复杂，因此浅层架构的图像质量评价无法直接适用于视频质量评价。CN201610072995.1提出了一种基于图像结构和人眼视觉特性的全参考图像质量评价方法。CN201710481380.9考虑到传输的图像质量，同时把帧图像延时因素加入评价方法内容中，从而有利于对视频发送端采用的发送协议和发送策略做出全面的评价分析。CN201910290548.7公开一种基于深度学习的视频质量评价方法和服务器，可以实现快速准确的视频质量评价。总的来说，当前视频质量评价的方法还较少，鲁棒性不足，因此本发明提出一种使用堆栈式自适应编码器(APES)的视频质量评价方法。

发明内容

本发明的目的在于构建一种视频质量评价方法，首先计算视频帧的映射求和结果，接着对视频帧映射后的结果提取相关特征，然后用无监督的方式训练堆栈式自适应编码器(APES)，将测试集的特征输入到训练好的APES来计算它们的深层特征，之后通过支持向量回归器(SVR)进行加权求和得到最终的预测结果。技术方案如下：

一种基于堆栈式自适应编码器的视频质量评价方法，包括下列步骤：

第一步：给定要评价的视频序列，计算输入视频帧的映射结果：取输入视频的(2K+1)帧，求和结果的计算步骤如下列公式所示：

其中f_i为第i帧，f_j→i为第j帧到第i帧的映射，W为双线性插值函数，

为(2K+1)帧视频映射的结果，w_j→i为求和系数，表示第j帧对于第i帧的重要程度；

第二步：计算视频映射

的梯度幅值特征，在像素点位置(x,y)的相对梯度方向值分别为F_RD(x,y)和 F_RM(x,y)：

其中

公式中Ω代表相对坐标变化量，定义为求取二阶偏导数的局部区域，(p,q)代表该局部区域内部的像素点，P、 Q代表该区域的大小，F_v(x,y)，F_h(x，y)分别代表梯度的切向、径向分量，

均根据下列公式计算得出：

第三步：从视频映射

中提取对比度特征MNC以及几何平均数特征GM，对比度特征MNC被表示为 M_I以及几何平均数特征GM被表示为G_I，利用M_I和G_I的统计特性，进行归一化，如下列公式所示：

其中T_i,j是以(i,j)为中心的一个邻域，w(l,k)是权重系数，C为常数；N_I代表对M_I、G_I求几何平均，

分别代表归一化后的对比度特征MNC以及几何平均数特征GM；

第四步：通过堆栈式自适应编码器APES获取深层特征，使用深度神经网络来训练APES，在训练阶段，选择适当的learning rate、epoch以及batch size，同时在训练时要根据训练结果调整策略，选择合适的隐藏层单元，通过迭代训练构建APES；利用训练完成的APES模型得到测试集的深层特征，分别记为梯度幅值特征P_f、几何平均数特征P_G、归一化对比度P_M；

第五步：利用SVR分别计算深层特征P_f、P_G、P_M的分数，记为Q_f、Q_G、Q_M，最终的预测分数计算如下列公式所示：

Q⁽ⁱ⁾＝W_fQ_f+W_GQ_G+W_MQ_M

其中W_f、W_G、W_M为权重系数，满足W_f+W_G+W_M＝1，Q⁽ⁱ⁾为最终得到的预测结果。

附图说明

图1本发明的方法流程图

图2 APES的迭代训练构建过程图

具体实施方式

本发明的目的在于构建一种视频质量评价方法。给定一个视频序列，首先计算视频帧的映射求和结果，接着利用相关的梯度幅值特征、归一化对比度特征以及几何平均数特征，然后用无监督的方式训练堆栈式自适应编码器(APES)，将测试集的特征输入到训练好的APES来计算它们的深层特征，之后通过支持向量回归器(SVR)进行加权求和得到最终的预测结果。具体实施方式如下：

第一步：给定要评价的视频序列，计算输入视频帧的映射结果。取输入视频的(2K+1)帧，求和结果的计算步骤如下列公式所示：

为(2K+1)帧视频映射的结果，w_j→i为求和系数，表示第j帧对于第i帧的重要程度。

第二步：计算视频映射

的梯度幅值特征，在像素点位置(x，y)的相对梯度方向值分别为F_RD(x,y)和 F_RM(x，y)：

其中

公式中Ω代表相对坐标变化量，定义为求取二阶偏导数的局部区域，(p,q)代表该区域内部的像素点，P、Q 代表该区域的大小。F_v(x，y)，F_h(x，y)分别代表梯度的切向、径向分量。

均由公式(4) 计算得出。

第三步：从视频映射

中提取对比度特征(MNC)以及几何平均数特征(GM)，利用MNC(M_I)以及GM(G_I)的统计特性，并进行归一化，计算步骤如下列公式所示：

其中T_i,j是以(i,j)为中心的一个邻域，w(l,k)是权重系数，C为常数，用来保证稳定性。N_I代表对M_I、G_I求几何平均，

分别代表归一化后的MNC(M_I)以及GM(G_I)特征。

第四步：通过堆栈式自适应编码器(APES)获取深层特征。本发明使用深度神经网络来训练APES，在训练阶段，要选择适当的learning rate、epoch以及batch size，同时在训练时要根据训练结果调整策略，选择合适的隐藏层单元，通过迭代训练构建APES。利用训练完成的APES模型得到测试集的深层特征，分别记为P_f(梯度幅值特征)、P_G(几何平均数特征)、P_M(对比度)。

第五步：利用SVR(Support Vactor Regression)分别计算深层特征P_f、P_G、P_M的分数，记为Q_f、Q_G、Q_M，最终的预测分数计算如下列公式所示：

Q⁽ⁱ⁾＝W_fQ_f+W_GQ_G+W_MQ_M