CN102769772B

CN102769772B - 一种视频序列失真评价方法和装置

Info

Publication number: CN102769772B
Application number: CN201110115281.1A
Authority: CN
Inventors: 虞露; 赵寅
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2011-05-05
Filing date: 2011-05-05
Publication date: 2014-12-10
Anticipated expiration: 2031-05-05
Also published as: CN102769772A

Abstract

提供一种视频序列失真评价方法和装置。所述评价方法包括：对视频序列每一帧中各局部区域失真，使用其所在位置的纹理强度因子、注视点距离因子、运动强度因子以及失真面积因子获得其对应的失真敏感度因子，将每一帧中各局部区域失真与其对应的失真敏感度因子的乘积的总和作为所述帧的失真总和；对视频序列每一帧，根据其相邻若干帧各帧的失真总和，获得所述帧的失真总和修正值；根据每一帧在视频序列中的对应时刻获得所述帧的时域权值，计算所有帧的失真总和修正值与其对应的时域权值的乘积的总和，除以一个归一化数值，得到所述视频序列的平均失真。由本发明得到的视频序列平均失真与主观视频质量评估结果具有较高的一致性。

Description

一种视频序列失真评价方法和装置

技术领域

本发明涉及多媒体通信领域，具体涉及一种视频序列失真评价方法。

背景技术

目前，多媒体技术日新月异，各类视频处理技术快速发展，人们对高质量视频的需求也日益高涨。对原始视频序列进行有损压缩、传输等处理往往会引入失真，使得处理后的视频序列与其对应的原始视频序列不同，而这些不同一般导致视频序列的视觉质量相对于原始视频序列的视觉质量有所下降。本说明书中，“视频序列”指对无损的“原始视频序列”处理后得到的有损的视频序列。视频质量评估技术，作为各类视频处理技术优劣的判定准则，其重要性也日渐突显。总的来说，视频质量评估可分为主观质量评估和客观质量评估两大类。

主观质量评估要求有大量人员参加，并且在严格的测试环境当中得到各测试人员对各被测视频序列的主观评分。常用的测试方法有ITU-R BT.500-11测试方法。主观质量评估需要大量的人才和时间，并且过程复杂，成本较高。

客观质量评估一般采用定量的方法测量视频中的平均失真，其方法通常为：首先，将视频序列每一帧图像划分为若干局部区域，通过以下两类方法求取该局部区域的失真：1)有参考模型：求取视频序列中每个局部区域与视频序列对应的原始视频序列中相应局部区域像素值的不同，通过一定运算将所述像素值的不同定量为一个数值，作为该局部区域的失真，例如，将视频序列每一帧划分为以一个像素为单位的局部区域，求取视频序列中各像素与其对应的原始视频序列中相应像素之间的平方误差作为各局部区域的失真；2)无参考模型：根据视频序列中每个局部区域的像素信息，利用一个特定的算子来预测该局部区域中某类图像失真(如块效应，模糊等)的程度，将这个程度定量为一个数值，作为该局部区域的失真。之后，利用所有局部区域失真的平均值来评价视频序列的失真程度，其失真程度越大，视频序列的主观质量越差。客观质量评估方法由处理器自动计算实现，无需人工参与，效率高，评估时间短，结果不具有时变性。

客观质量评估主要存在的问题是其评估结果不能与主观评分的结果高度一致。导致这种结果的一个原因是根据局部区域失真求取整个视频序列的平均失真的一般方法为简单的代数平均，其中并没有考虑以下三个重要的视觉因素：

1)人眼对一帧图像中不同局部区域的失真敏感度有很大差别；

2)视频中某一帧的相邻帧的失真对该帧的失真产生的视觉影响；

3)每一帧由于播放时刻不同，对视频序列平均失真产生的感知影响。

因此，一种结合人眼视觉特性，对视频序列局部区域失真进行处理，求取接近于人眼视觉感知的视频序列平均失真计算方法对提升客观质量评估方法的性能举足轻重。

获得视频序列局部区域失真的方法多种多样，目前已经有许多成熟的算法，例如，1)图像中每个像素作为一个局部区域，计算视频序列中各像素与原始视频序列中对应像素的差值的平方或者绝对值，作为各局部区域的失真；2)图像中每个像素作为一个局部区域，计算视频序列中各像素周围s×r块(即宽s个像素、高r个像素的块，下同)与原始视频序列中对应s×r块的结构相似度(Structural Similarity，详见参考文献[1])，作为各局部区域的失真；3)将图像划分为m×n块，每个m×n块为一个局部区域，计算视频序列中各m×n块对应的时间域噪声(temporal noise，详见参考文献[2])，作为这各局部区域的失真；4)将图像划分为m×n块，每个m×n块为一个局部区域，计算视频序列中各m×n块对应的块效应强度(blocking artifact，详见参考文献[3])，作为各局部区域的失真。上述局部区域失真计算方法中，方法1)、2)和3)为有参考模型的例子，方法4)为无参考模型的例子。

人眼对一帧图像中不同局部区域的失真敏感度不同，失真敏感度越低，则相同强度局部区域失真对应的视觉感知强度越低。失真敏感度主要受到以下四个因子的影响：

1)局部区域对应的背景区域纹理的对比度掩蔽效应(contrast masking)。一般来说，纹理的对比度(也称纹理强度)越强，人眼对该局部区域的失真敏感度越低。纹理强度可以用背景区域像素值的方差来近似估计。其中，背景区域指局部区域在视频序列或者视频序列对应的原始视频序列中的对应位置及其邻域构成的区域。

2)局部区域与人眼注视点(fixation)的距离。一般来说，距离越大，人眼对该局部区域的失真敏感度越低。其中人眼的注视点可以简单地用图像的中心来近似，也可以利用注意力模型(详见参考文献[4])计算图像的色彩、亮度、对比度等特征得到图像中Num(Num≥1)个最为显著的区域(the most salientregions)的位置。

3)局部区域对应的背景区域纹理的运动掩蔽效应(motion masking)。一般来说，背景区域纹理的运动速度越快，人眼对该局部区域的失真敏感度越低。其中背景区域纹理的运动速度可以由背景区域在当前帧和前一帧中对应位置的位移矢量得到。此外，如果将背景区域纹理的运动速度用其相对于对应帧中注视点移动速度的相对速度代替，失真敏感度的建模将更加准确。注视点移动速度可由注视点在前后帧中的位移除以两帧之间的相隔时间来近似表示。

4)局部区域是否属于一片大面积的图像失真。如果局部区域属于一片大面积的图像失真，则人眼对该局部区域的失真敏感度较高。其中局部区域是否属于一片大面积的图像失真可以由该局部区域对应的M×N背景区域中具有大于某一阈值K的失真的局部区域的总数占M×N背景区域包含的局部区域数目的百分比来估计。该百分比越大，则说明局部区域属于一片大面积的图像失真的概率越大。

综上所述，由上述四个因子决定的失真敏感度，对于调整局部区域失真的视觉强度有很重要的影响。若考虑以上四个因子相互独立，则失真敏感度可以近似表示为四个因子的乘积与一常数之和，或者四个因子的加权平均。

此外，由于人眼视觉的视觉暂留效应(visual persistence)，一个视觉刺激的视觉感知将会在其消失之后持续一段时间。因此，对于一个具有较强失真的帧，它对应的较强的视觉影响将会持续，从而之后具有较弱失真的帧对应时刻的感知失真总和被这一较强失真帧的感知失真总和所掩盖。这种现象可以用如下模型近似：每一帧的感知失真总和等于该帧相邻若干帧时间段内最大的失真总和。引入这种视觉暂留机制来修正每帧的失真总和有利于最终得到的视频序列的平均失真更接近于主观评价的结果。

再则，人的工作记忆体(working memory)记录对象的记忆强度随着时间变久而下降。记忆强度越小，则某一时刻失真的感知强度相应下降。主观评分通常在观看视频序列结束之后，因此，越先播放的帧相对于视频播放结束的时间(也就是评分的时间)越长，其失真总和的记忆强度越低，感知强度相应下降。所以，根据每帧的播放时刻，确定其对应的表示记忆强度的时域权值，用该时域权值来调整每帧的失真总和的感知强度也十分重要。

参考文献

[1]Z.Wang，A.C.Bovik，H.R.Sheikh，and E.P.Simoncelli，“Image quality assessment：from error visibility to structural similarity，”IEEE Trans.Image Process.，vol.13，no.4，pp.600-612，Apr.2004.

[2]Y.Zhao and L.Yu，“Evaluating video quality with temporal noise，”in Proc.IEEE Int.Conf.Multimedia & Expo(ICME)，2010，pp.708-712.

[3]S.A.Karunasekera and N.G.Kingsbury，“A distortion measure for blocking artifactsin images based on human visual sensitivity”，IEEE Trans.Image Processing，vol.4，no.6，pp.713-724，June 1995.

[4]D.Walther and C.Koch，“Modeling attention to salient proto-objects，”NeuralNetworks，vol.19，pp.1395-1407，2006.

发明内容

为克服现有技术的上述缺陷，本发明的目的在于提供一种视频序列失真评价方法，它包括：

对视频序列每一帧中各局部区域失真，使用其所在位置的纹理强度因子、注视点距离因子、运动强度因子以及失真面积因子计算得到所述的局部区域失真对应的失真敏感度因子，将每一帧中各局部区域失真与其对应的失真敏感度因子的乘积的总和作为所述帧的失真总和；

对视频序列中每一帧，根据其相邻若干帧各帧所述的失真总和，获得所述帧的失真总和修正值；

根据每一帧在视频序列中的对应时刻获得所述帧的时域权值，计算所有帧所述的失真总和修正值与其对应的时域权值的乘积的总和，除以一个归一化数值，得到所述视频序列的平均失真。

进一步的，所述纹理强度因子由以下处理方法之一得到：

a、计算局部区域失真所在位置背景区域的纹理强度，设定一组常数A1、A2和A3，将所述的纹理强度的A1次方与A2之和的倒数乘以A3，得到所述的纹理强度因子；

b、计算局部区域失真所在位置背景区域的纹理强度，设定一组常数B1、B2和B3，将所述的纹理强度以B1为底的对数与B2之和的倒数乘以B3，得到所述的纹理强度因子。

所述注视点距离因子由以下处理方法之一得到：

a、计算局部区域失真所在位置与其所在帧图像的图像中心的距离值，设定一组常数C1、C2和C3，将所述的距离值的C1次方与C2之和的倒数乘以C3，得到所述的注视点距离因子；

b、计算局部区域失真所在位置与其所在帧图像的各注视点的距离值，设定一组常数D1、D2和D3，将所述的各注视点的距离值的D1次方与D2之和的倒数乘以D3，得到该局部区域失真相对于各注视点的注视值；对所有所述的注视值进行加权求和，获得所述的注视点距离因子。

所述运动强度因子由以下处理方法之一得到：

a、计算局部区域失真所在位置背景区域的纹理运动速度，设定一组常数E1、E2和E3，将所述的纹理运动速度的模的E1次方与E2之和的倒数乘以E3，得到所述的运动强度因子；

b、计算局部区域失真所在位置背景区域的纹理运动速度和所述局部区域失真对应时刻的注视点移动速度，设定一组常数F1、F2和F3，将所述的纹理运动速度和注视点移动速度之差的模的F1次方与F2之和的倒数乘以F3，得到所述的运动强度因子。

所述失真面积因子由以下处理方法之一得到：

a、计算局部区域失真所在位置周围S×R区域中包含失真大于一个阈值G4的局部区域数目占所述S×R区域所包含局部区域总数的百分比，设定一组常数G1、G2和G3，将所述的百分比的G1次方与G2之和的倒数乘以G3，得到所述的失真面积因子；

b、计算局部区域失真所在位置周围S×R区域中包含失真大于一个阈值H4的局部区域数目占所述S×R区域所包含局部区域总数的百分比，设定一组常数H1、H2和H3，如果所述的百分比大于H1，则所述的失真面积因子等于H2；否则，所述的失真面积因子等于H3。

所述的使用其所在位置的纹理强度因子、注视点距离因子、运动强度因子以及失真面积因子计算得到所述的局部区域失真对应的失真敏感度因子，由以下处理方法之一完成：

a、设定一组常数I1、I2、I3、I4、J1、J2、J3和J4，将所述的纹理强度因子的I1次方与J1的乘积、注视点距离因子的I2次方与J2的乘积、运动强度因子的I3次方与J3的乘积以及失真面积因子的I4次方与J4的乘积相加，得到所述的失真敏感度因子；

b、设定一组常数K1、K2、K3、K4和K5，将所述的纹理强度因子的K1次方、注视点距离因子的K2次方、运动强度因子的K3次方以及失真面积因子的K4次方相乘，再加上K5，得到所述的失真敏感度因子。

所述的对视频序列中每一帧、根据其相邻若干帧各帧所述的失真总和、获得所述帧的失真总和修正值是由以下处理方法之一完成：

a、设定一组常数L1和L2，将每一帧的前L1帧、后L2帧及所述帧的失真总和中的最大值，作为所述帧的失真总和修正值；

b、设定一组常数M1和M2，将每一帧的前M1帧、后M2帧及所述帧的失真总和的平均值，作为所述帧的失真总和修正值。

所述的根据每一帧在视频序列中的对应时刻获得所述帧的时域权值是由以下处理方法之一完成：

a、设定一组常数N1、N2、N3和N4，计算每一帧与视频序列最后帧相距的播放时差，将所述的播放时差与N1之和求以N2为底的对数，乘以N3，加上N4，得到所述的时域权值；

b、设定一组常数O1、O2和O3，计算每一帧与视频序列最后帧相距的播放时差，将所述的播放时差与O1之和的倒数与O2的乘积加上O3，得到所述的时域权值。

本发明的另一目的还在于提供一种视频序列失真评价装置，该装置包括以下三个模块：

对视频序列每一帧中各局部区域失真，使用其所在位置的纹理强度因子、注视点距离因子、运动强度因子以及失真面积因子计算得到所述的局部区域失真对应的失真敏感度因子，将各局部区域失真与其对应的失真敏感度因子的乘积的总和作为所述帧的失真总和的帧级失真总和生成模块，其输入为视频序列的局部区域失真以及视频序列或者所述视频序列对应的原始视频序列，输出为视频序列每一帧的失真总和；

对视频序列中每一帧，根据其相邻若干帧的所述的失真总和，获得所述帧的失真总和修正值的帧级失真总合修正值生成模块，其输入为视频序列每一帧的失真总和，输出为视频序列每一帧的失真总和修正值；

根据每一帧在视频序列中的对应时刻获得所述帧的时域权值，计算所有帧所述的失真总和修正值与其对应的时域权值的乘积的总和，除以一个归一化数值，得到所述视频序列的平均失真的序列级平均失真生成模块，其输入为视频序列每一帧的失真总和修正值，其输出为视频序列的平均失真。

所述的帧级失真总和生成模块包括以下六个模块：

a、获得局部区域失真对应的纹理强度因子的纹理强度因子生成模块，其输入为局部区域失真以及视频序列或者视频序列对应的原始视频序列，其输出为局部区域失真对应的纹理强度因子，所述模块完成以下处理之一：

1)计算局部区域失真所在位置背景区域的纹理强度，设定一组常数A1、A2和A3，将所述的纹理强度的A1次方与A2之和的倒数乘以A3，得到所述的纹理强度因子；

2)计算局部区域失真所在位置背景区域的纹理强度，设定一组常数B1、B2和B3，将所述的纹理强度以B1为底的对数值与B2之和的倒数乘以B3，得到所述的纹理强度因子；

b、获得局部区域失真对应的注视点距离因子的注视点距离因子生成模块，其输入为局部区域失真以及视频序列或者视频序列对应的原始视频序列，其输出为局部区域失真对应的注视点距离因子，所述模块完成以下处理之一：

1)计算局部区域失真所在位置与图像中心的距离值，设定一组常数C1、C2和C3，将所述的距离值的C1次方与C2之和的倒数乘以C3，得到所述的注视点距离因子；

2)计算局部区域失真所在位置与该局部区域所在帧图像的各注视点的距离值，设定一组常数D1、D2和D3，将所述的各注视点的距离值的D1次方值与D2之和的倒数乘以D3，得到该局部区域失真相对于各注视点的注视值；对所有所述的注视值进行加权求和，获得所述的注视点距离因子；

c、获得局部区域失真对应的运动强度因子的运动强度因子生成模块，其输入为局部区域失真以及视频序列或者视频序列对应的原始视频序列，其输出为局部区域失真对应的运动强度因子，所述模块完成以下处理之一：

1)计算局部区域失真所在位置背景区域的纹理运动速度，设定一组常数E1、E2和E3，将所述的纹理运动速度的模的E1次方与E2之和的倒数乘以E3，得到所述的运动强度因子；

2)计算局部区域失真所在位置背景区域的纹理运动速度和所述局部区域失真对应时刻的注视点移动速度，设定一组常数F1、F2和F3，将所述的纹理运动速度和注视点移动速度之差的模的F1次方与F2之和的倒数乘以F3，得到所述的运动强度因子；

d、获得局部区域失真对应的失真面积因子的失真面积因子生成模块，其输入为局部区域失真，其输出为局部区域失真对应的失真面积因子，所述模块完成以下处理之一：

1)计算局部区域失真所在位置周围S×R区域中包含失真大于一个阈值G4的局部区域数目占所述S×R区域所包含局部区域总数的百分比，设定一组常数G1、G2和G3，将所述的百分比的G1次方与G2之和的倒数乘以G3，得到所述的失真面积因子；

2)计算局部区域失真所在位置周围S×R区域中包含失真大于一个阈值H4的局部区域数目占所述S×R区域所包含局部区域总数的百分比，设定一组常数H1、H2和H3，如果所述的百分比大于H1，则所述的失真面积因子等于H2；否则，所述的失真面积因子等于H3；

e、获得局部区域失真对应的失真敏感度因子的失真敏感度因子生成模块，其输入为局部区域失真对应的纹理强度因子、注视点距离因子、运动强度因子和失真面积因子，其输出为局部区域失真对应的失真敏感度因子，所述模块完成以下处理之一：

1)设定一组常数I1、I2、I3、I4、J1、J2、J3和J4，将所述的纹理强度因子的I1次方与J1的乘积、注视点距离因子的I2次方与J2的乘积、运动强度因子的I3次方与J3的乘积以及失真面积因子的I4次方与J4的乘积相加，得到所述的失真敏感度因子；

2)设定一组常数K1、K2、K3、K4和K5，将所述的纹理强度因子的K1次方、注视点距离因子的K2次方、运动强度因子的K3次方以及失真面积因子的K4次方相乘，再加上K5，得到所述的失真敏感度因子；

f、获得视频序列每一帧中所有局部区域失真之和的失真乘加模块，其输入为视频序列每一帧中所有局部区域失真及其对应的失真敏感度因子，其输出为所述帧的失真总和，所述模块完成以下处理：

将每一帧中各局部区域失真与其对应的失真敏感度因子的乘积的总和作为所述帧的失真总和。

本发明利用视觉敏感度、视觉暂留、记忆强度等特性的数值模型，对视频序列的各个局部区域失真进行处理，得到整个视频序列的平均失真，用以视频序列失真评价。相对于将视频序列的各个局部区域失真进行简单的几何平均所得到的几何平均失真，由本发明得到的视频序列的平均失真结果与主观视频质量评估方法的评估结果具有更高的一致性。

附图说明

图1为本发明一种视频序列失真评价装置实施例的结构示意图。

图2为本发明一种视频序列失真评价装置中帧级失真总和生成模块实施例的结构示意图。

图3为本发明对定义为“各像素平方误差”的局数区域失真进行处理后得到的视频序列平均失真(已归一化处理)和主观质量评估结果之间的散点图。

具体实施方式

下面，结合实施例来详细阐述本发明的视频序列失真评价方法和视频序列失真评价装置的具体实施方式。

所述的视频质量评估方法包括：对视频序列每一帧中各局部区域失真，使用其所在位置的纹理强度因子、注视点距离因子、运动强度因子以及失真面积因子计算得到所述的局部区域失真对应的失真敏感度因子，将每一帧中各局部区域失真与其对应的失真敏感度因子的乘积的总和作为所述帧的失真总和；对视频序列中每一帧，根据其相邻若干帧各帧所述的失真总和，获得该帧的失真总和修正值；根据每一帧在视频序列中的对应时刻获得时域权值，计算所有帧所述的失真总和修正值和对应时域权值的乘积的总和，除以一个归一化数值，得到该视频序列的平均失真。其具体实施方式如下：

本方法的处理对象为视频序列局部区域失真，其获得方法有多种，例如，

方法一：图像中每个像素作为一个局部区域，计算视频序列中该像素与原始视频序列中对应像素的差值的平方或者绝对值，作为该局部区域的失真。

方法二：图像中每个像素作为一个局部区域，计算视频序列中该像素周围s×r块与原始视频序列中对应s×r块的结构相似度(Structural Similarity，详见参考文献[1])，作为该局部区域的失真。

方法三：将图像划分为m×n块，每个m×n块为一个局部区域，计算视频序列中该m×n块对应的时间域噪声(temporal noise，详见参考文献[2])，作为该局部区域的失真。

方法四：将图像划分为m×n块，每个m×n块为一个局部区域，计算视频序列中各m×n块对应的块效应强度(blocking artifact，详见参考文献[3])，作为各局部区域的失真。

需要注意的是，每个局部区域失真也含有该局部区域在视频序列中的位置信息，即该局部区域所在帧的帧号，以及其在该帧中的坐标位置。

设一个视频序列共有I帧，每一帧i被划分为K个局部区域，相应的第i帧中第k个局部区域记为(k，i)，k∈K，i∈I，其失真记为Dis(k，i)，k∈K，i∈I，所述的局部区域失真可由上述的视频序列局部区域失真的获得方法中所述的四种方法获得，但不仅限于上述的四种方法。

所述的对视频序列每一帧中各局部区域失真，使用其所在位置的纹理强度因子、注视点距离因子、运动强度因子以及失真面积因子计算得到所述的局部区域失真对应的失真敏感度因子，将每一帧中各局部区域失真与其对应的失真敏感度因子的乘积的总和作为每一帧的失真总和，包括以下六项处理：

1)所述的局部区域失真对应的纹理强度因子与该局部区域所在位置背景区域的纹理强度呈单调递减关系。其中，背景区域指局部区域在视频序列或者视频序列对应的原始视频序列中的对应位置及其邻域构成的区域(下同)。所述的纹理强度因子T(k，i)，由以下处理方法之一得到：

方法一：计算局部区域(k，i)所在位置背景区域的纹理强度c(k，i)。设定一组常数A₁、A₂和A₃，所述的纹理强度因子T(k，i)通过以下运算得到：

T (k, i) = \frac{A_{3}}{c {(k, i)}^{A_{1}} + A_{2}} .

其中纹理强度c(k，i)可以用局部区域(k，i)所在位置背景区域M×N块中各像素值的方差表示。各常数的取值使得T(k，i)和c(k，i)呈单调递减关系且T(k，i)≥0，例如A₁＝1，A₂＝50，A₃＝50；又例如，A₁＝0.5，A₂＝20，A₃＝15。所述的局部区域(k，i)所在位置背景区域M×N块既可以是该视频序列中第i帧第k局部区域对应的背景区域M×N块，也可以是该视频序列对应的原始视频序列中第i帧第k局部区域对应的背景区域M×N块。其中，背景区域M×N块包含整个局部区域(k，i)，例如背景区域M×N块的中心和局部区域(k，i)的中心重合且背景区域M×N块面积大于等于局部区域(k，i)。背景区域大小取值例如M＝8，N＝8；又例如M＝9，N＝7。

方法二：计算局部区域(k，i)所在位置背景区域的纹理强度c(k，i)。设定一组常数B₁、B₂和B₃，所述的纹理强度因子T(k，i)通过以下运算得到：

T (k, i) = \frac{B_{3}}{\log_{B_{1}} c (k, i) + B_{2}} .

其中纹理强度c(k，i)可以用局部区域(k，i)所在位置背景区域M×N块中各像素值中的最大值和最小值之差表示。各常数的取值使得T(k，i)和c(k，i)呈单调递减关系且T(k，i)≥0，例如B₁＝2，B₂＝25，B₃＝20；又例如，B₁＝10，B₂＝3.5，B₃＝4。

2)所述的局部区域失真对应的注视点距离因子与该局部区域所在位置与图像中任意点注视点的距离呈单调递减关系。所述的注视点距离因子F(k，i)，由以下处理方法之一得到：

方法一：将图像中心设为注视点，计算局部区域(k，i)和图像中心之间的距离d(k，i)，d(k，i)例如以像素为单位。设定一组常数C₁、C₂和C₃，所述的注视点距离因子F(k，i)通过以下运算得到：

F (k, i) = \frac{C_{3}}{d {(k, i)}^{C_{1}} + C_{2}} .

其中各常数的取值使得F(k，i)和d(k，i)呈单调递减关系且F(k，i)≥0，例如C₁＝1，C₂＝H×tanθ，C₃＝H×tanθ，H为λ倍的图像高度，例如λ＝4，图像高度为768像素，θ＝2.5°；又例如C₁＝1.5，C₂＝20，C₃＝20。

方法二：对一帧图像设置P个注视点，分别计算局部区域(k，i)和每一注视点p，p∈P之间的距离d_p(k，i)，d_p(k，i)例如以像素为单位。对每一个注视点p，设定一组常数D_p，1、D_p，2和D_p，3，计算局部区域(k，i)对注视点p的注视值f(k，i，p)，通过以下运算得到：

f (k, i, p) = \frac{D_{p, 3}}{d_{p} {(k, i)}^{D_{p, 1}} + D_{p, 2}} .

其中，每一帧的注视点的获得方式可以有多种，一种方式为人工预先设定图像中的感兴趣区域的位置，作为当前帧的注视点，另一种成熟的方式是由注意力模型计算当前图像中Num(Num≥1)个最为显著的区域(the most salientregions)的位置，作为当前帧的注视点。

所述的注视点距离因子F(k，i)由所有注视值f(k，i，p)通过加权求和得到，即：

F (k, i) = \underset{p &Element; P}{Σ} a_{p} \times f (k, i, p) .

其中a_p为加权求和运算中的加权值。各常数的取值使得f(k，i，p)和d_p(k，i)呈单调递减关系，f(k，i，p)≥0且a_p≥0，例如D_p，2＝134/p，p＝1，2，...，P，D_p，3＝100，又例如D_p，1＝2，D_p，3＝17，D_p，3＝25，

3)如果不考虑人眼运动，所述的局部区域失真对应的运动强度因子与该局部区域所在位置背景区域的运动速度的模呈单调递减关系；如果考虑人眼运动，所述的局部区域失真对应的运动强度因子与该局部区域所在位置背景区域的运动速度相对于人眼运动速度的相对速度的模呈单调递减关系。所述的运动强度因子M(k，i)，由以下处理方法之一得到：

方法一：计算局部区域(k，i)所在位置背景区域的纹理运动速度e(k，i)，设定一组常数E₁、E₂和E₃，所述的运动强度因子M(k，i)通过以下运算得到：

M (k, i) = \frac{E_{3}}{{| e (k, i) |}^{E_{1}} + E_{2}} .

其中|Vec|表示求矢量Vec的模的运算，纹理运动速度e(k，i)可以由局部区域(k，i)所在位置背景区域M×N块Blk1与其在另一帧i′中对应M×N块Blk2的位置的位移除以i与i′差的绝对值得到，e(k，i)例如以像素/帧为单位。两帧间的对应块建立可以采用多种方式，一种常用的方式为运动搜索，即以Blk1块的位置为中心，在另一帧i′中设定一个S×S的窗口，计算窗口中各M×N块与Blk1块的均方误差值(Mean Squared Error，MSE)，取最小均方误差值对应的M×N块作为Blk2。运动搜索中各区域大小的取值，例如M＝8，N＝8，S＝32；又例如M＝9，N＝7，S＝41。

其中各常数的取值使得M(k，i)和|e(k，i)|呈单调递减关系且M(k，i)≥0，例如E₁＝2，E₂＝15，E₃＝15；又例如E₁＝1.5，E₂＝23，E₃＝24。

方法二：计算局部区域(k，i)所在位置背景区域的纹理运动速度e(k，i)，设定局部区域(k，i)所在帧的注视点运动速度为f(i)，设定一组常数F₁、F₂和F₃，所述的运动强度因子M(k，i)通过以下运算得到：

M (k, i) = \frac{F_{3}}{{| e (k, i) - f (i) |}^{F_{1}} + F_{2}} .

其中|Vec|表示求矢量Vec的模的运算，纹理运动速度e(k，i)同上述的运动强度M(k，i)的计算方法一中所述。两帧间的对应块建立方式可以采用多种方式，例如上述运动强度因子M(k，i)的计算方法一中所述的运动搜索法。注视点运动速度f(i)可以由当前帧i的注视点相对于另一帧i″的注视点的位移除以i与i″差的绝对值得到，f(i)例如以像素为单位。每一帧的注视点的获得方式可以有多种，一种方式为人工预先设定图像中的感兴趣区域的位置，作为当前帧的注视点，另一种成熟的方式是由注意力模型计算当前图像中Num(Num≥1)个最为显著的区域(the most salient regions)的位置，作为当前帧的注视点。若每一帧的注视点有多个，在计算注视点运动速度f(i)时所需要的帧(例如当前帧i和另一帧i″)中各选择一个注视点。

其中各常数的取值使得M(k，i)和|e(k，i)-f(i)|呈单调递减关系且M(k，i)≥0例如F₁＝2，F₂＝20，F₃＝20，又例如F₁＝1.5，F₂＝18.7，F₃＝21。

4)所述的局部区域失真对应的失真面积因子与该局部区域及其邻域构成的区域中含有明显失真的图像面积百分比呈(非严格)单调递减关系。所述的失真面积因子I(k，i)，由以下处理方法之一得到：

方法一：计算局部区域(k，i)所在位置周围S×R区域中包含失真大于一个阈值G₄的局部区域数目占该S×R区域所包含局部区域的总数的百分比h(k，i)，设定一组常数G₁、G₂和G₃，所述的失真面积因子E(k，i)通过以下运算得到：

E (k, i) = \frac{G_{3}}{h {(k, i)}^{G_{1}} + G_{2}} .

其中各常数的取值使得E(k，i)和h(k，i)呈单调递减关系且E(k，i)≥0，例如G₁＝1，G₂＝12，G₃＝8，G₄＝30；又例如G₁＝1.5，G₂＝12.8，G₃＝10.2，G₄＝25。其中，所述的S×R区域包含整个局部区域(k，i)，例如所述的S×R区域的中心和局部区域(k，i)的中心重合且S×R区域面积大于等于局部区域(k，i)，其大小取值例如S＝10，R＝10；又例如S＝12，R＝8。

方法二：计算局部区域(k，i)所在位置周围S×R区域中包含失真大于一个阈值H₄的局部区域数目占该S×R区域所包含局部区域的总数的百分比h(k，i)，设定一组常数H₁、H₂和H₃，所述的失真面积因子E(k，i)通过以下运算得到：

E (k, i) = \{\begin{matrix} H_{2}, & ifh (k, i) > H_{1} \\ H_{3}, & otherwise \end{matrix} .

其中各常数的取值使得E(k，i)和h(k，i)呈(非严格)单调递减关系，0＜H₁＜1且E(k，i)≥0，例如H₁＝50％，H₂＝1，H₃＝0，H₄＝24；又如H₁＝75％，H₂＝2.2，H₃＝1.05，H₄＝24.3。

5)所述的根据局部区域失真所在位置的纹理强度因子T(k，i)、注视点距离因子F(k，i)、运动强度因子M(k，i)以及失真面积因子E(k，i)获得其对应的失真敏感度因子Sen(k，i)的计算，由以下处理方法之一完成：

方法一：设定一组常数I₁、I₂、I₃、I₄、J₁、J₂、J₃和J₄，所述的局部区域(k，i)的失真敏感度因子Sen(k，i)通过以下运算得到：

Sen (k, i) = T {(k, i)}^{I_{1}} \times J_{1} + F {(k, i)}^{I_{2}} \times J_{2} + M {(k, i)}^{I_{3}} \times J_{3} + E {(k, i)}^{I_{4}} \times J_{4} .

其中各常数的取值满足I_q≥0，J_q≥0，q＝1，2，3，4，例如I₁＝1，I₂＝1.2，I₃＝0.8，I₄＝1，J₁＝0.4，J₂＝0.25，J₃＝0.75，J₄＝1.6；又如I₁＝1，I₂＝1，I₃＝1，I₄＝1，J₁＝0.25，J₂＝0.25，J₃＝0.25，J₄＝0.25。

需要说明的是，上述常数J₁、J₂、J₃和J₄可以设置为0，此时对应加权后的纹理强度因子T(k，i)项(即)、注视点距离因子F(k，i)项(即)、运动强度因子M(k，i)项(即)和失真面积因子E(k，i)项(即)被强制为0，对应因子的变化不再影响失真敏感度因子Sen(k，i)。同样的，将常数I₁、I₂、I₃和I₄设置为0，也可以达到相似的屏蔽对应影响因子的效果。

方法二：设定一组常数K₁、K₂、K₃、K₄和K₅，所述的局部区域(k，i)的失真敏感度因子Sen(k，i)通过以下运算得到：

Sen (k, i) = T {(k, i)}^{K_{1}} \times F {(k, i)}^{K_{2}} \times M {(k, i)}^{K_{3}} \times E {(k, i)}^{K_{4}} + K_{5} .

其中各常数的取值满足K_q≥0，q＝1，2，3，4，5，取值例如K₁＝1，K₂＝1，K₃＝1，K₄＝1，K₅＝0；又例如K₁＝1.5，K₂＝0.5，K₃＝2.1，K₄＝1，K₅＝0.2。

需要说明的是，上述常数K₁、K₂、K₃和K₄可以设置为0，此时对应的加权后的纹理强度因子T(k，i)项(即)、注视点距离因子F(k，i)项()、运动强度因子M(k，i)项(即)和失真面积因子E(k，i)项(即)被强制为1，对应因子的变化不再影响失真敏感度因子Sen(k，i)。

对于上述两种失真敏感度因子的加权计算方法，当上述的纹理强度因子T(k，i)、注视点距离因子F(k，i)、运动强度因子M(k，i)和失真面积因子E(k，i)在加权计算中被屏蔽(即其数值变化不引起失真敏感度因子的变化)时，为了节省计算复杂度，可以禁止或者不进行对应的影响因子的计算，而简单地将其赋值为一个常数，例如0或者1。

6)所述的将每一帧中各局部区域失真Dis(k，i)与其对应的失真敏感度因子Sen(k，i)的乘积的总和作为所述帧的失真总和DIST(i)，由以下处理方法完成：

DIST (i) = Σ_{k = 1}^{K} Dis (k, i) \times Sen (k, i) .

获得每一帧的失真总和之后，进行如下处理。所述的对视频序列中每一帧，根据其相邻若干帧各帧所述的失真总和，获得所述帧的失真总和修正值，由以下处理方法之一完成：

方法一：设定一组常数L₁和L₂，将每一帧i的前L₁(L₁≥0)帧、后L₂(L₂≥0)帧及该帧，共计L₁+L₂+1帧，作为一个时域窗口，当前帧i的失真总和修正值DIST(i)′即为对应时域窗口中每帧的失真总和DIST(t)，t∈[i-L₁，i+L₂]中的最大值Max(DIST(t))，t∈[i-L₁，i+L₂]，即有：

DIST(i)′＝Max(DIST(t))，t∈[i-L₁，i+L₂]。

其中Max(V)表示一个集合V中所有元素的最大值。各常数L₁和L₂的取值为非负整数且小于等于视频序列的播放帧率(即每秒播放的帧数)，其取值例如L₁＝7，L₂＝0；又例如L₁＝13，L₂＝1。

方法二：设定一组常数M₁和M₂，将每一帧i的前M₁(M₁≥0)帧、后M₂(M₂≥0)帧及该帧，共计M₁+M₂+1帧，作为一个时域窗口，当前帧i的失真总和修正值DIST(i)′即为对应时域窗口中每帧的失真总和DIST(t)，t∈[i-M₁，i+M₂]的平均值Avg(DIST(t))，t∈[i-M₁，i+M₂]，即有：

DIST(i)′＝Avg(DIST(t))，t∈[i-M₁，i+M₂]。

其中Avg(V)表示一个集合V中所有元素的平均值。各常数M₁和M₂的取值为非负整数且小于等于视频序列的播放帧率(即每秒播放的帧数)，其例如M₁＝5，M₂＝3；又例如M₁＝6，M₂＝0。

获得视频序列每一帧的失真总和修正值后，进行如下处理。所述的根据每一帧在视频序列中的对应时刻获得所述帧的时域权值，计算所有帧所述的失真总和修正值与其对应的时域权值的乘积的总和，除以一个归一化数值，得到所述视频序列的平均失真，由以下处理方法之一完成：

1)所述的根据每一帧在视频序列中的对应时刻获得所述帧的时域权值，至少包括以下一种处理方法：

方法一：设定一组常数N₁、N₂、N₃和N₄，计算每一帧i与视频序列最后帧相距的播放时差dt(i)，即通过以下运算得到：

dt (i) = \frac{I - FN (i)}{FR} .

其中，FN(i)为当前帧i对应的帧号，I为视频序列的总帧数，FR为一个设定的常数，其取值可以为播放视频序列的帧率，例如FR＝25(帧/秒)，也可以是一个人工设定的常数，例如FR＝12.5(帧/秒)。

每一帧i所述的时域权值Temp(i)由其播放时差dt(i)通过以下运算得到，

Temp (i) = N_{3} \times \log_{N_{2}} (dt (i) + N_{1}) + N_{4}

其中各常数的取值使得Temp(i)和dt(i)呈单调递减关系且N₁＞0，N₂＞0，N₃＜0，N₄≥0，例如N₁＝1，N₂＝e(自然对数，即2.71828...)，N₃＝-0.12，N₄＝1；又如N₁＝2，N₂＝10，N₃＝-0.23，N₄＝1.2。

方法二：设定一组常数O₁、O₂和O₃，计算每一帧i与视频序列最后帧相距的播放时差dt(i)，同上述方法一中所述。每一帧i所述的时域权值Temp(i)由其播放时差dt(i)通过以下运算得到：

Temp (i) = \frac{O_{2}}{dt (i) + O_{1}} + O_{3} .

其中各常数的取值使得Temp(i)和dt(i)呈单调递减关系且Temp(i)≥0，例如O₁＝0.5，O₂＝1，O₂＝-0.25；又例如O₁＝-0.1，O₂＝1.3，O₃＝0.3。

2)所述的计算所有帧所述的失真总和修正值DIST(i)′与其对应的时域权值Temp(i)的乘积的总和，除以一个归一化数值Nr(Nr＞0)，得到该视频序列的平均失真DISAvg，即通过如下运算得到：

DISAvg = \frac{Σ_{i = 1}^{I} DIST {(i)}^{'} \times Temp (i)}{Nr} .

需要注意的是，归一化数值Nr一般为视频序列实际包含的总像素数，例如一个200×100分辨率10帧的视频序列包含了200×100×10＝200000个像素，即有Nr＝200000。Nr也可以是别的数值，例如Nr可以是视频序列的帧数，或者Nr也可以是一个正常数，如Nr＝10。

下面，以一个具体的视频质量评价数据库为例，对本发明的视频失真评价结果与主观质量评估结果的相近程度进行说明。

视频质量评价数据库为The University of Texas at Austin大学Laboratoryfor Image&Video Engineering实验室提供的LIVE视频质量评价数据库(LIVEVQA Database)。该视频质量评价数据库包括10个原始视频序列，每个原始视频序列经过15种不同处理，得到15个受损的视频序列，即该数据库由10个原始视频序列和150个受损的视频序列构成。并且，由38人在ITU-RBT.500-11主观测试方法下得到150个视频序列分别相对于其对应的原始视频序列的平均DMOS(Degradation Mean Opinion Score)分值，作为各视频序列的主观质量评估结果，该分值越高，则对应的视频序列的质量越差。

当局部区域失真定义为视频序列和其对应的原始视频序列之间每一像素的平方误差时(如背景技术中所述的局部区域失真的获得方法一)，利用上述实施例中所述的本发明的视频序列失真评价方法，得到的各序列的平均失真和各序列的平均DMOS分值之间的Spearman Rank Order相关系数为0.81，具有很高的一致性。而利用对各像素平方误差求均值得到的视频平均失真和各序列的平均DMOS分值之间的Spearman Rank Order相关系数仅为0.53。可以看出，相比于由视频序列局部区域失真经过几何平均得到的视频序列的平均失真，本发明的视频序列失真评价方法有助于提高最终得到的视频序列的平均失真与主观评价结果的一致性。利用散布图(scatter diagram/scattergraph)的方法表示本发明对定义为“各像素平方误差”的局部区域失真进行处理后得到的视频序列的平均失真和主观质量评估结果之间的关系如图3所示。

图3中，水平坐标表示由本发明得到的视频序列平均失真，平均失真已经进行了归一化处理，数值越接近1，则表示平均失真越大(对应于评价的视频序列质量越差)，数值越接近0，则平均失真越小(对应于评价的视频序列质量越好)；垂直坐标表示上述每个视频序列的DMOS分值，数值越大，则表示质量越差。可以看出，150个视频序列的评估结果和主观质量评估结果有着很高的一致性。

图1为一种视频序列失真评价装置实施例结构示意图。该装置包括三个模块：

对视频序列每一帧中各局部区域失真，使用其所在位置的纹理强度因子、注视点距离因子、运动强度因子以及失真面积因子计算得到所述的局部区域失真对应的失真敏感度因子，将每一帧中各局部区域失真与其对应的失真敏感度因子进行加权求和，得到该帧的失真总和的帧级失真总和生成模块1；对视频序列中每一帧，根据其相邻若干帧的所述的失真总和，获得所述帧的失真总和修正值的帧级失真总合修正值生成模块2；根据每一帧在视频序列中的对应时刻获得所述帧的时域权值，计算所有帧所述的失真总和修正值与其对应时域权值的乘积的总和，除以一个归一化数值，得到视频序列的平均失真的序列级平均失真生成模块3。

帧级失真总和生成模块1的输入为视频序列各帧的局部区域失真以及视频序列或视频序列对应的原始视频序列，输出为视频序列每帧的失真总和，其完成的功能和实施方式与上述视频序列失真评价方法中所述的对视频序列每一帧中各局部区域失真，使用其所在位置的纹理强度因子、注视点距离因子、运动强度因子以及失真面积因子计算得到所述的局部区域失真对应的失真敏感度因子，将各局部区域失真与其对应的失真敏感度因子的乘积的总和作为所述帧的失真总和的方法所述的功能和实施方式相同。

帧级失真总合修正值生成模块2，其输入为视频序列每帧的失真总和，输出为视频序列每帧的失真总和修正值，其完成的功能和实施方式与上述视频序列失真评价方法中所述的对视频序列中每一帧，根据其相邻若干帧各帧所述的失真总和，获得所述帧的失真总和修正值的方法所述的功能和实施方式相同。

序列级平均失真生成模块3，其输入为视频序列每帧的失真总和修正值，其输出为视频序列的平均失真，其完成的功能和实施方式与上述视频序列失真评价方法中所述的根据每一帧在视频序列中的对应时刻获得时域权值，计算所有帧所述的失真总和修正值与其对应时域权值的乘积的总和，除以一个归一化数值，得到所述视频序列的平均失真的方法所述的功能和实施方式相同。

图2为所述视频序列失真评价装置中帧级失真总和生成模块实施例的结构示意图，该模块包括以下六个模块：获得局部区域失真对应的纹理强度因子的纹理强度因子生成模块4；获得局部区域失真对应的注视点距离因子的注视点距离因子生成模块5；获得局部区域失真对应的运动强度因子的运动强度因子生成模块6；获得局部区域失真对应的失真面积因子的失真面积因子生成模块7；获得局部区域失真对应的失真敏感度因子的失真敏感度因子生成模块8；获得一帧中所有局部区域失真之和的失真乘加模块9。

纹理强度因子生成模块4，其输入为局部区域失真以及视频序列或者视频序列对应的原始视频序列，其输出为局部区域失真对应的纹理强度因子，其完成的功能和实施方式与上述视频序列失真评价方法中所述的纹理强度因子T(k，i)的计算方法所述的功能和实施方式相同。

注视点距离因子生成模块5，其输入为局部区域失真以及视频序列或者视频序列对应的原始视频序列，其输出为局部区域失真对应的注视点距离因子，其完成的功能和实施方式与上述视频序列失真评价方法中所述的注视点距离因子F(k，i)的计算方法所述的功能和实施方式相同。

运动强度因子生成模块6，其输入为局部区域失真以及视频序列或者视频序列对应的原始视频序列，其输出为局部区域失真对应的运动强度因子，其完成的功能和实施方式与上述视频序列失真评价方法中所述的运动强度因子M(k，i)的计算方法所述的功能和实施方式相同。

失真面积因子生成模块7，其输入为局部区域失真，其输出为局部区域失真对应的运动强度因子，其完成的功能和实施方式与上述视频序列失真评价方法中所述的失真面积因子I(k，i)的计算方法所述的功能和实施方式相同。

失真敏感度因子生成模块8，其输入为局部区域失真对应的纹理强度因子、注视点距离因子、运动强度因子以及失真面积因子，其输出为局部区域失真对应的失真敏感度因子，其完成的功能和实施方式与上述视频序列失真评价方法中所述的使用其所在位置的纹理强度因子T(k，i)、注视点距离因子F(k，i)、运动强度因子M(k，i)以及失真面积因子E(k，i)计算得到所述的局部区域失真对应的失真敏感度因子Sen(k，i)的计算方法所述的功能和实施方式相同。

失真乘加模块9，其输入为每一帧中所有局部区域失真及其对应的失真敏感度因子，其输出为所述帧的失真总和，其完成的功能和实施方式与上述视频序列失真评价方法中所述的将各局部区域失真Dis(k，i)与其对应的失真敏感度因子Sen(k，i)的乘积的总和作为每一帧的失真总和DIST(i)计算方法所述的功能和实施方式相同。

所述的视频序列失真评价装置可以由多种方式实现，例如：

方法一：以电子计算机为硬件附加与所述视频序列失真评价方法功能相同的软件程序来实现。

方法二：以单片机为硬件附加与所述视频序列失真评价方法功能相同的软件程序来实现。

方法三：以数字信号处理器为硬件附加与所述视频序列失真评价方法功能相同的软件程序来实现。

方法四：设计与所述视频序列失真评价方法功能相同的电路来实现。

实现所述的视频序列失真评价装置的方法还可以有其它的方法，不仅限于上述四种。

虽然通过实施实例描述了本发明，但本领域普通技术人员应该知道，本发明具有多种变形和变化而不脱离本发明的核心思想，本发明的申请文件的权利要求保护范围包括这些变形和变化。

Claims

1.一种视频序列失真评价方法，其特征在于，包括：

根据每一帧在视频序列中的对应时刻获得所述帧的时域权值，计算所有帧所述的失真总和修正值与其对应的时域权值的乘积的总和，除以一个归一化数值，得到所述视频序列的平均失真；

其中，所述纹理强度因子为计算局部区域失真所在位置背景区域的纹理强度得到；所述注视点距离因子为计算局部区域失真所在位置与其所在帧图像的图像中至少一个位置的距离值得到；所述运动强度因子为计算局部区域失真所在位置背景区域的纹理运动速度得到；所述失真面积因子为计算局部区域失真所在位置周围一个预设区域中包含失真大于一个阈值的局部区域数目占所述预设区域所包含局部区域总数的百分比得到。

2.如权利要求1所述的视频序列失真评价方法，其特征在于，所述纹理强度因子以下处理方法之一得到：

3.如权利要求1所述的视频序列失真评价方法，其特征在于，所述注视点距离因子由以下处理方法之一得到：

4.如权利要求1所述的视频序列失真评价方法，其特征在于，所述运动强度因子由以下处理方法之一得到：

5.如权利要求1所述的视频序列失真评价方法，其特征在于，所述失真面积因子由以下处理方法之一得到：

6.如权利要求1所述的视频序列失真评价方法，其特征在于，所述的使用其所在位置的纹理强度因子、注视点距离因子、运动强度因子以及失真面积因子计算得到所述的局部区域失真对应的失真敏感度因子由以下处理方法之一完成：

7.如权利要求1所述的视频序列失真评价方法，其特征在于，对视频序列中每一帧、根据其相邻若干帧各帧所述的失真总和、获得所述帧的失真总和修正值是由以下处理方法之一完成：

8.如权利要求1所述的视频序列失真评价方法，其特征在于，所述的根据每一帧在视频序列中的对应时刻获得所述帧的时域权值由以下处理方法之一完成：

9.一种视频序列失真评价装置，其特征在于，包括以下三个模块：

根据每一帧在视频序列中的对应时刻获得所述帧的时域权值，计算所有帧所述的失真总和修正值与其对应的时域权值的乘积的总和，除以一个归一化数值，得到所述视频序列的平均失真的序列级平均失真生成模块，其输入为视频序列每一帧的失真总和修正值，其输出为视频序列的平均失真；

10.如权利要求9所述的视频序列失真评价装置，其特征在于，所述的帧级失真总和生成模块包括以下六个模块：