CN105979266B

CN105979266B - 一种基于帧间关联与时隙最差的时域信息融合方法

Info

Publication number: CN105979266B
Application number: CN201610297994.7A
Authority: CN
Inventors: 宋锐; 祝桂林; 胡银林; 贾媛; 李云松; 王养利
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2016-05-06
Filing date: 2016-05-06
Publication date: 2019-01-29
Anticipated expiration: 2036-05-06
Also published as: CN105979266A

Abstract

本发明公开了一种基于帧间关联与时隙最差的时域信息融合方法，根据客观视频质量评价模型计算出视频每一帧的预测分数，对其进行滑窗均值处理，再将滑窗后的结果进行排序，取其中最差的部分帧的均值作为最终对整个视频序列的预测分数。本发明在现有时域融合方法上，有效的提高了客观视频质量评价算法的性能，是一种简单、有效、符合人类视觉特性的时域信息融合方法；与已有的均值融合方法相比误差较小，符合人眼实际评估的结果；考虑视频帧与帧之间的影响，效果很好。本发明既考虑了人眼的延迟效应，还考虑了帧与帧间的联系，使用滑窗均值处理各帧的数据，使得估计准确性大大提升。

Description

一种基于帧间关联与时隙最差的时域信息融合方法

技术领域

本发明属于数字视频处理技术领域，尤其涉及一种基于帧间关联与时隙最差的时域信息融合方法。

背景技术

经过近三十年多媒体通信技术和视频压缩技术的高速发展，越来越多的通信数据依赖视频图像的形式出现。相对于其他通信数据，视频可以承载更真切更丰富也更容易被人类大脑接收和处理的数据，给人更直观、生动的形象。视频信息传输已成为工业通信和多媒体服务中不可缺少的重要组成部分。然而数字视频数据在采集、处理、压缩、传输以及再现过程中会受到噪声等各种因素的影响，产生各种失真，进而会影响到视觉观看效果。而人类对信息加工在很大程度上依赖于视觉，约有80％-90％的外界信息是通过人的眼睛获得的。因此数字视频的感知质量也成为了衡量视频处理和通信系统好坏的一个重要指标。视频的感知质量的评估也构成了视频处理和通信系统的重要组成部分。视频质量评价(VQA,Video Quality Assessment)处理的是对视频序列感知质量的预测。而在这一过程中，如何融合局部质量分数来预测对整个图像或视频的质量度量是一个很重要的问题，会直接影响到VQA算法最终的性能。一个使用最普遍，也最简单的方法就是使用所有局部分数的均值作为最终的预测结果。然而均值融合方法虽然简单，却与人类评估视频质量的方式并不是一致的。在进行视频质量评估时，观察者更容易关注到失真比较严重的区域。发生在局部帧间的严重失真是观察者进行视频质量评价的重要线索和依据。基于以上考虑，A.K.Moorthy于2009年提出了一种Percentile融合方法，即使用所有质量分数中最低的p％个分数来预测最终的结果。相对于平均值融合方法，这种改进提高了VQA的性能。但是还有很大的改进空间。除了这两种常用的方式外，还有Minkowski求和、指数加权的Minkowski求和、直方图以及机器学习等时域融合方法，然而这些方法效果还有待提高。

以上的方法中，从复杂度及性能上看，均值融合方法没有参数操作最为简单，但不符合人类评估视频质量的方式，效果欠佳；Percentile融合方法效果较好，但没有考虑帧间联系，还有很大的改进空间。

发明内容

本发明的目的在于提供一种基于帧间关联与时隙最差的时域信息融合方法，旨在解决视频质量评价中如何由局部质量分数预测对整个视频的质量度量的问题。

本发明是这样实现的，一种基于帧间关联与时隙最差的时域信息融合方法，所述基于帧间关联与时隙最差的时域信息融合方法根据客观视频质量评价模型计算出视频每一帧的预测分数，进行滑窗均值处理；再将滑窗后的结果进行排序，取其中最差的部分帧的均值作为最终对整个视频序列的预测分数。

进一步，所述基于帧间关联与时隙最差的时域信息融合方法包括以下步骤：

步骤一、选取客观视频质量评价模型OM，通过比较原始参考视频和失真视频，计算失真视频每帧的预测分值，例如使用PSNR质量评价模型时，每帧的预测分值即为视频序列每一帧的PSNR指标值。并将获取的帧级分数标记为矢量X，视频总帧数标记为N；

步骤二、人眼在看东西时具有一定的延迟特性。此外，在进行主观视频质量评价时，较前时刻的帧的质量对后面时刻的帧的评价也有对比与记忆的影响。本发明同时考虑人眼的延迟效应和视频中帧与帧间的联系，将客观质量评价模型(此处标记为OM模型)计算出来的所有帧级分数依次进行滑窗处理。滑窗具有延迟特性，帧与帧间的联系我们使用窗口内取均值来描述。设滑动窗口的窗口长度为winLen，对步骤一中所获得的每帧的预测分值，也就是帧级质量分数进行滑窗处理，即处理后第n帧的帧级分数为[n-winLen+1,n]帧的帧级分数的均值，将滑窗处理后的帧级分数标记为矢量WX；

步骤三、将WX由小到大进行排序，并将排序后的结果标记为WX’，取最差的p％帧的平均值，作为整个视频序列的质量度量分值。以PSNR为例，PSNR值越大说明视频质量越好。设视频总帧数为N，计算所有的帧级质量分数后共可以求出N个PSNR值。PSNR滑窗处理后的帧级分数标记为WX(PSNR)，将WX(PSNR)由小到大进行排序，其WX(PSNR)值最小的p％帧的帧级分数的均值即排序后第1个至第(p％*N)个WX(PSNR)的均值则为最终度量结果。

进一步，将OM模型计算出来的所有帧级分数依次进行滑窗处理，即：

其中，winLen表示滑窗滤波时的窗口长度，是需要调节的参数，X(t)表示第t帧的质量分数，WX(n)则表示滑窗处理后的第n帧的质量分数。

进一步，使用基于帧间关联与时隙最差的时域信息融合方法对预测帧级分数进行融合，最终的预测分数：

其中，p％为待调参数，N为视频总帧数，WX’(t)表示由小到大进行排序后的第t个帧级分数，OM_winPooling为该视频的质量的最终评价结果。

本发明提供的基于帧间关联与时隙最差的时域信息融合方法，在Percentile融合方法上进行了改进，同时考虑人眼延迟特性以及视频序列帧间的联系，最不同的客观视频质量评价算法性能都有改进。本发明的复杂度不高，便于实现。主要是适用于基于帧级质量计算的客观视频质量评价算法；在已有的效果较好的Percentile融合方法上进行改进，考虑人眼的延迟效应以及视频帧与帧间的联系，使Percentile融合方法的效果得到改善；在使用同一客观视频质量评价算法时，使用基于帧间关联与时隙最差的时域融合方法，最终的PCC和SROOC系数相较于平均值融合方法和Percentile融合方法都有提升，同时其RMSE值也有很大程度的降低，表明基于帧间关联与时隙最差的时域融合方法在一定程度上提升了各算法的性能；相比已有的均值融合方法直接求所有帧的均值作为最终的预测结果，计算虽然简单，但是误差很大，不太符合人眼实际评估的结果；以及Percentile融合方法，使用所有质量分数中最低的p％的分数来预测最终的结果，虽然考虑了人眼对质量比较差的地方更关注，但没有考虑视频帧与帧之间的影响，效果还有提升空间。本发明既考虑了人眼的延迟效应，还考虑了帧与帧间的联系，使用滑窗均值处理各帧的数据，使得估计准确性大大提升。

附图说明

图1是本发明实施例提供的基于帧间关联与时隙最差的时域信息融合方法流程图。

图2是本发明实施例提供的滑窗处理过程示意图。

图3是本发明实施例提供的基于局部最差方法示例示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

下面结合附图对本发明的应用原理作详细的描述。

如图1所示：一种基于帧间关联与时隙最差的时域融合方法，选用视频质量评价领域中比较权威的，引用比较广泛的LIVE视频质量评价数据库中的视频，进行测试，该基于帧间关联与时隙最差的时域融合方法包括以下步骤：

S101：开始；

S102：选取一种客观视频质量评价模型OM，通过比较原始参考视频和失真视频，计算失真视频每帧的预测分值，并将获取的帧级分数标记为矢量X，视频总帧数标记为N；

S103：设置初始参数：窗口长度L和p％；

S104：帧级质量分数X进行滑窗处理，即处理后第n帧的帧级分数为[n-L+1,n]帧的帧级分数的均值。将滑窗处理后的帧级分数标记为矢量WX，即

所述处理过程如图1所示。

S105：将WX由小到大进行排序，并将排序后的结果标记为WX’。取最差的p％帧的平均值，作为整个视频序列的质量度量分值，OM，即：

所述处理过程如图2所示。

S106：对预测结果OM进行非线性拟合，并与数据库给出的主观分数作比较，计算预测的性能评估指标值；

S107：判断是否当将参数设置为L和p％时所获得的性能指标值最好，若是，则跳至S108结束操作，基于帧间关联与时隙最差的时域融合方法中的两参数最佳值为L和p％；若否，则返回S103，重新修改窗口长度和百分比两个参数，重复操作，直至找到最佳参数。

S108：结束。

依据以上步骤最终得到基于帧间关联与时隙最差的时域融合方法的两个最佳参数及客观视频质量评价模型最终预测结果。

下面结合具体实施例对本发明的应用原理作进一步的描述。

本发明是这样实现的，先选取某种客观视频评价算法，通过该算法先行计算视频每一帧的质量分数，然后使用该种基于帧间关联与时隙最差的时域融合方法对这些帧级分数进行融合，最后得到对整个视频的质量度量值，以实现对视频进行质量评价的目的。该种基于帧间关联与时隙最差的时域融合方法包括以下步骤：

步骤一、选取一种客观视频质量评价模型OM，通过比较原始参考视频和失真视频，计算失真视频每帧的预测分值，并将获取的帧级分数标记为矢量X；

步骤二、人眼在看东西时具有一定的延迟特性。此外，在进行主观视频质量评价时，较前时刻的帧的质量对后面时刻的帧的评价也有对比与记忆的影响。本发明同时考虑人眼的延迟效应和视频中帧与帧间的联系，将OM模型计算出来的所有帧级分数依次进行滑窗处理。滑窗具有延迟特性，帧与帧间的联系此处由窗口内取均值来描述。假设滑动窗口的窗口长度为winLen，对上一步骤中获得的帧级质量分数进行滑窗处理，即处理后第n帧的帧级分数为[n-winLen+1,n]帧的帧级分数的均值，并将滑窗处理后的帧级分数标记为矢量WX，即

所述处理过程图2：

步骤三、将WX由小到大进行排序，并将排序后的结果标记为WX’。取最差的p％帧的平均值，作为整个视频序列的质量度量分值。以PSNR为例，PSNR值越大说明视频质量越好。PSNR滑窗处理后的帧级分数标记为WX(PSNR),将WX(PSNR)进行排序，其最小的p％帧的帧级分数均值则为最终度量结果。即：

所述处理过程图3。

在步骤二和步骤三中，有两个需要调节的参数，即窗口长度winLen和百分比p％。在实际实现中，可以先固定其中一个，在调节另一个参数。然后改变第一个参数的值，继续调节第二个参数。如此反复，直至得到最佳结果。

为了对时域融合算法性能客观的分析，此处选用了四种在工业界及学术研究领域使用比较广泛的客观视频质量评价算法模型—PSNR、VSNR、SSIM以及MS-SSIM。这几种方法都是基于帧级质量计算的客观视频质量评价算法，一般都是采用平均值融合方法进行时域融合的。在评估视频质量评价算法的性能时，通常需要先对算法预测出来的质量分数进行一次非线性拟合。此处分析同样遵循这样的流程，采用的拟合函数为视频质量评价专家组(VQEG,Video Quality Experts Group)推荐的：

其中Q_k代表客观模型预测出来的分数，Q′_k则代表拟合后的分数。将数据库发布的主观视频质量评价结果标记为DMOS，则客观模型预测分数拟合的初始参数设为β₁＝max(DMOS),β₂＝min(DＭOS)，β₃＝mean(Q_h),β₄＝1。

客观视频质量评价算法性能主要可以由三个性能指标进行评估，包括皮尔森相关系数(PCC,The Pearson Correlation Coefficient)、斯皮尔曼秩相关系数(SROCC,TheSpearman Rank Order Correlation Coefficient)和均方根误差(RMSE,The Root MeanSquare Error)。PCC是预测分数与主观分数DMOS的线性相关系数，描述的是客观评价模型的预测准确度；SROOC是预测分数与主观分数DMOS相关系数，描述的是是客观评价模型的预测单调性；RMSE则描述的是预测分数的准确程度。

本发明复杂度不高，便于实现。主要是适用于基于帧级质量计算的客观视频质量评价算法。本发明在已有的效果较好的Percentile融合方法上进行改进，考虑人眼的延迟效应以及视频帧与帧间的联系，使Percentile融合方法的效果得到改善。具体实验数据由表1、表2和表3给出。

表1.PCC结果

表2.SROCC结果

表3.RMSE结果

表1、表2和表3给出了四种客观视频质量评价模型在分别使用不同的时域融合方法时的性能指标值。由表1、表2、表3表明，在使用同一客观视频质量评价算法时，使用基于帧间关联与时隙最差的时域融合方法，最终的PCC和SROOC系数相较于平均值融合方法和Percentile融合方法都有提升，同时其RMSE值也有很大程度的降低，表明基于帧间关联与时隙最差的时域融合方法在一定程度上提升了各算法的性能。

相比已有的均值融合方法直接求所有帧的均值作为最终的预测结果，计算虽然简单，但是误差很大，不太符合人眼实际评估的结果；以及Percentile融合方法，使用所有质量分数中最低的p％的分数来预测最终的结果，虽然考虑了人眼对质量比较差的地方更关注，但没有考虑视频帧与帧之间的影响，效果还有提升空间。本发明既考虑了人眼的延迟效应，还考虑了帧与帧间的联系，使用滑窗均值处理各帧的数据，使得估计准确性大大提升。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于帧间关联与时隙最差的时域信息融合方法，其特征在于，所述基于帧间关联与时隙最差的时域信息融合方法根据客观视频质量评价模型计算出视频每一帧的预测分数，进行滑窗均值处理；再将滑窗后的结果进行排序，取其中最差的部分帧的均值作为最终对整个视频序列的预测分数；

所述基于帧间关联与时隙最差的时域信息融合方法包括以下步骤：

步骤一、选取客观视频质量评价模型OM，通过比较原始参考视频和失真视频，计算失真视频每帧的预测分值，并将获取的帧级分数标记为矢量X，视频总帧数标记为N；

步骤二、滑动窗口的窗口长度为winLen，对获得的帧级质量分数进行滑窗处理，即处理后第n帧的帧级分数为[n-winLen+1,n]帧的帧级分数的均值，将滑窗处理后的帧级分数标记为矢量WX；

步骤三、将WX由小到大进行排序，并将排序后的结果标记为WX’，取最差的p％帧的平均值，作为整个视频序列的质量度量分值，进行排序，最小的p％帧均值即为最终度量结果；

将OM模型计算出来的所有帧级分数依次进行滑窗处理，即：

其中，winLen表示滑窗滤波时的窗口长度，是需要调节的参数，X(t)表示第t帧的质量分数，WX(n)则表示滑窗处理后的第n帧的质量分数；

使用基于帧间关联与时隙最差的时域信息融合方法对预测帧级分数进行融合，最终的预测分数：