CN1695164A

CN1695164A - 生成用于评估图像或视频质量的质量导向重要性图的方法

Info

Publication number: CN1695164A
Application number: CNA028299752A
Authority: CN
Inventors: 陆中康; 林伟思; 姚苏苏; 王依平
Original assignee: Agency for Science Technology and Research Singapore
Current assignee: Agency for Science Technology and Research Singapore
Priority date: 2002-11-06
Filing date: 2002-11-06
Publication date: 2005-11-09
Also published as: WO2004043054A2; US20060233442A1; AU2002347754A8; JP2006505853A; MXPA05004956A; AU2002347754A1; EP1563459A2; US7590287B2; BR0215934A; WO2004043054A3

Abstract

一种生成用于评估图像或视频质量的质量导向重要性图的方法，其包括步骤：提取所述图像或视频的特征，确定至少一个已提取特征的感知质量需求，并结合所述已提取特征和所述至少一个已提取特征的感知质量需求以形成重要性级别值数组，从而生成所述质量导向重要性图。

Description

生成用于评估图像或视频质量的质量导向重要性图的方法

技术领域

本发明涉及一种生成质量导向重要性图的方法，其中该质量导向重要性图用于评估图像或视频的质量。

背景技术

视觉失真度量在监控广播图像/视频质量、控制压缩效率和改进图像增强处理中扮演了重要的角色。通常有两类质量或失真评估途径。第一类基于在数学上定义的测量，例如广泛使用的均方误差(MSE)，峰值信噪比(PSNR)等。第二类基于通过模拟人类视觉系统(HVS)特性对失真的测量。

在第一类途径中，MSE定义为

MSE = \frac{1}{N^{2}} \underset{i}{Σ} \underset{j}{Σ} {(c_{i, j} - {\hat{c}}_{i, j})}^{2}

其中，C_i，j和分别为原图像和失真图像中的像素值。PSNR定义为

PSNR = 10 lo g_{10} \frac{255^{2}}{MSE}

第一类途径的优点在于其在数学上简单且运算复杂度小。因此，第一类途径被广泛采用。

而第二类途径针对与人类视觉相近的感知效果，从而在视觉评估和信息处理中得到更好的准确性。然而，由于对HVS的不完全理解以及将生理学和/或心理学发现综合到HVS的滞后，第二类途径的性能依然不令人满意。

生理学和心理学研究表明图像或视频的观察者并不会对图像或视频的所有视觉信息产生注意，而仅仅集中在某些区域。这种观察者的视觉注意信息在许多应用的HVS中得到使用，例如，用于视觉感知中搜索过程的计算，或用于估计图像或视频的质量。

视觉注意可以通过自底向上过程或者自顶向下过程来实现。在自底向上过程中，视觉注意基于来自图像/视频的视觉特征的激励，且该图像/视频的特征图(saliency map)基于这种激励形成。基于激励的视觉特征的例子包括亮度、颜色、运动、形状等。在自顶向下过程中，图像/视频的特征图基于现有/领域知识或者基于来自声音之类的其他已知信息的指示而形成。

[1]披露了一种方法，其结合三个因素，即相关性损失，亮度失真和对比度失真，来衡量图像的失真。

[2]提出了无参质量量度100，如图1所示。失真图像/视频101由人工提取单元102接收以检测图像/视频101的模糊或块状(blurring andblockiness)分布。这种模糊或块状的分布属性在区别单元103中被加以区别，以产生表示失真图像/视频101的失真值的输出信号104。

根据[1]和[2]的方法属于第一类途径，从而，与第二类途径相比其不能提供接近于人类感知的结果。

[3]提出了基于视频分解和空间/时间遮蔽的度量200，如图2所示。参考图像/视频201和失真图像/视频202分别被信号分解单元203和204接收。分解信号205，206分别被用于该分解信号205、206的空间/时间遮蔽的对比度增益控制单元207和208接收。处理后的信号209，210分别由检测和合成单元111处理以产生表示失真图像/频202的失真值的输出信号212。

[4]使用了神经网络，结合多种视觉特征来衡量图像/视频的质量，如图3所示。参考图像/视频301和失真图像/视频302被输入到多个特征提取单元303以提取图像/视频301、302的各种特征。提取出的特征304由神经网络305接收以产生失真图像/视频302的失真值305。

[5]披露了一种通过对几种视觉激励赋予不同权重来评价视频的感知质量的方法。

参考文献[4]和[5]对整个图像或视频进行平等的处理，从而由于图像/视频中的非重要部分也被处理，其运算效率不高。

[6]使用了几种自底向上的视觉激励来确定图像/视频中的高视觉注意区域。从这些自底向上的视觉激励确定的特征被加权并累积以形成用于指示高视觉注意区域的重要性图。由于仅仅确定了自底向上的特征，这种方法并不能获得很好的对图像/视频的质量评定结果。此外，区域的高视觉注意并不总是意味着此区域应该被以高质量编码。

[7]披露了与[6]相似的方法，但同时使用了自底向上和自顶向下的视觉激励来确定图像/视频中的高视觉注意区域。从自底向上和自顶向下的视觉激励所获得的已确定的特征被利用贝叶斯网络结合在一起，其中贝叶斯网络需要在该结合前进行训练。如前所述，区域的高视觉注意并不总是意味着此区域应该被以高质量编码。而且，由于需要在结合特征之前对该贝叶斯网络进行训练，对用于结合图像/视频特征的贝叶斯网络的使用会比较复杂。

因此，需要一种更精确且鲁棒的方法来评估图像或视频的质量或失真。

发明内容

本发明的目的在于提供一种方法，其能够提高已有的评估图像或视频的质量或失真的方法的性能。

利用独立权利要求中所描述的特征来实现此目的。附加特征可从附属权利要求获得。

本发明涉及一种生成用于评估图像或视频质量的质量导向重要性图的方法，包括如下步骤，提取图像或视频特征，确定至少一个已提取特征的感知质量需求，并且结合已提取特征及至少一个已提取特征的感知质量需求以形成重要性级别值数组，从而生成质量导向重要性图。

此外，至少一个已提取特征被用于基于该特征确定图像/视频的感知质量需求。换言之，基于提取的特征来确定观察者所感知的图像/视频质量的重要性。

由结合已提取特征及至少一个已提取特征的感知质量需求而得到的重要性级别值形成了图像的3-D数组和视频的4-D数组。这种重要性级别值的数组被用作为评估图像或视频的质量或失真的质量导向重要性图。

需要注意的是，图像/视频的某一区域的视觉注意并不总是与图像/视频同一区域的高质量相一致。换言之，图像/视频的某一区域的高视觉注意并不总需要该图像/视频区域被以高质量编码，反之亦然。

由于感知质量信息被用于确定重要性级别值，所得的重要性图密切遵从图像/视频的感知质量需求。因此，与任何利用图并仅基于视觉注意的现有方法相比，实现了更准确的用于评估图像或视频质量的重要性图。

根据本发明生成的重要性图可用在第一类途径和第二类途径的已有失真度量中，并且因此可以提高图像/视频质量评估过程的准确度。

根据本发明，利用基于视觉特征的信息和基于知识的信息来提取图像或视频的特征。换言之，自底向上过程(基于视觉特征)和自顶向下过程(基于知识)都被使用。这些过程可以确定图像/视频中有哪些特征会引起视觉注意，并相应地提取这种可以引起视觉注意的特征。这些待提取的特征可能包括运动、亮度、颜色、对比度、方位、纹理等。也可以利用已有的图像/视频描述符，例如MPEG-7描述符。

根据本发明，视频或图像序列中的物体运动被分离成相对运动向量和绝对运动向量。相对运动为物体相对于背景或其它物体的运动，而绝对运动为物体在图像或视频帧中的实际运动。基于所确定的相对和绝对运动向量，确定物体(象素或区域)的质量级别值。所确定的质量级别值与其它来自图像/视频的已提取特征相结合以形成重要性级别值数组。

物体运动分析可以被分成两个步骤：全局运动估计和运动映射。全局运动估计给出对图像或视频的照相机(摄像机)的运动的估计，而运动分析提取物体的相对和绝对运动矢量。

需要注意的是，图像/视频的其它特征可用来确定图像/视频的像素或区域的质量级别值。其他特征的例子包括面部检测、人体检测和纹理分析。这种从其它特征确定的质量级别值可以与从运动分析获得的质量级别值结合以生成质量导向重要性级别。

根据本发明的优选实施例，所有的已提取特征与至少一个特征的已确定的质量级别值相结合，以利用非线性映射函数形成重要性级别值数组。

使用非线性映射函数具有计算要求低和实现简单的优点。此外，与[5]中披露的系统中所使用的贝叶斯网络不同，非线性映射函数的算法或系统不需要训练。

需要注意的是，在可选实施例中，例如神经网络或模糊规则等其它技术可用来结合已提取特征与至少一个特征的已确定的质量级别值。

根据本发明的另一优选实施例，当形成重要性级别值数组时，作为结合已提取特征的结果，耦合效应被考虑进来。对耦合效应的使用考虑到了不以线性相加的方式来结合可被视为重要性效果的不同的已提取特征。提取效果的不同组合带来了不同的耦合效应。

确切地说，根据本发明的另一优选实施例的质量导向重要性图可通过如下等式获得：

m_{s, i, j, t} = Σ_{n}^{N} f_{s, i, j, t}^{n} - \underset{k}{Σ} c^{Lk} \cdot g_{1} (f_{s, i, j, t}^{L}, f_{s, i, j, t}^{k})

其中，m_{s，i，j，t}为质量导向重要性图在标尺s、位置(i，j)以及时间t的元素，f_{s，i，j，t} ⁿ为第n个已提取特征，C^Lk为耦合因子，其表示组合f_{s，i，j，t} ^L和f_{s，i，j，t} ^k的耦合效应；n为已提取特征的指数；k为已提取特征的另一个指数，满足1＜k＜N且k≠L；N为提取特征的总数；以及g₁为非线性耦合映射函数，其定义为g₁(x，y)＝min(x，y)；而L为f_{s，i，j，t} ⁿ的最大值，其表示为

L = \arg \max (f_{s, i, j, t}^{n}) .

在本发明的可选优选实施例中，通过对加权的已提取特征的和施加非线性映射函数来实现已提取特征的结合。

确切地说，根据本发明的可选优选实施例的质量导向重要性图可以利用如下等式获得：

m_{s, i, j, t} = g_{2} (w_{1} f_{s, i, j, t}^{1} + w_{2} f_{s, i, j, t}^{2} + \cdot \cdot \cdot + w_{n} f_{s, i, j, t}^{n})

其中，g₂为非线性映射函数，其定义为

g_{2} (x) = \sqrt[a]{x + C},

其中，α为用于给出非线性属性的参数，C为常数。

根据本发明的优选实施例，用于生成质量导向重要性图的方法还包括用于处理此生成的质量导向重要性图的后处理步骤。该后处理步骤通过去除所有可能出现的噪声来提高该生成的重要性图的质量。并且，该后处理步骤可以被用于包括平滑或扩展该重要性图的其它操作，并去除重要性图中出现的不良因素。

特别地，根据本发明的优选实施例，可以用高斯平滑去除特征提取过程中的误差所导致的脉冲噪声。

本发明的所述实施例不仅可被应用于这种方法，还可应用于装置、计算机可读介质和计算机程序。

附图说明

图1示出了用于衡量感知图像/视频失真的通用无参度量的框图；

图2示出了用于衡量感知图像/视频失真的Winkler全参度量的框图；

图3示出了用于衡量感知图像/视频失真的Yao全参度量的框图；

图4示出了用于监控广播系统视频质量的通用系统；

图5示出了根据本发明的质量导向重要性图的示图；

图6示出了用于生成根据本发明优选实施例的质量导向重要性图的通用框图；

图7示出了根据本发明优选实施例的质量导向重要性图的具体实现；

图8示出了用于合并根据本发明的质量导向重要性图的失真度量框图；

图9示出了衡量失真度量的感知图像/视频失真的通用无参度量的框图，其用于合并根据本发明的质量导向重要性图；

图10示出了衡量失真度量的感知图像/视频失真的Winkler全参度量的框图，其用于合并根据本发明的质量导向重要性图；

图11示出了衡量失真度量的感知图像/视频失真的Yao全参度量的框图，其用于合并根据本发明的质量导向重要性图。

具体实施方式

图4描述了用于监控广播系统视频质量的通用系统。

图像/视频源401在编码器单元402中编码，且编码的图像/视频403在广域网(WAN)404上传输。来自WAN404的传输图像/视频405由解码器单元406接收以被解码。

失真度量单元410从具有/不具有参考图像/视频408的解码器单元406接收解码后的图像/视频407。参考图像/视频408由图像/视频源单元409生成，其中图像/视频源单元409可与用于生成原图像/视频401的图像/视频源单元相同，或者参考图像/视频408可被简单地从经过编码器单元402编码的原图像/视频401中提取。

通常，失真度量可分为全参(FR)、减参(RR)和无参(NR)模型。FR度量在失真图像序列和对应的无失真副本之间进行逐像素和逐帧的比较。减参度量从失真图像序列计算出一些统计量，并将其与对应存储的无失真图像序列的统计量相比较。这些统计量通过常规的回归分析被选取和相关联。无参度量不需要从无失真图像序列得到任何信息，而是直接在失真序列上进行特征提取来找到诸如MPEG块边界，点状噪声，或图像模糊等不良因素。

失真度量单元410比较参考图像/视频408和解码图像/视频407(在FR和RR的情况)，或者分析解码图像/视频407的不良因素(在NR的情况)，以评估解码图像/视频407的质量。由失真度量单元410生成的输出信号411代表解码图像/视频407的质量。

可以利用上述失真度量来实现失真度量单元410(参见图1、图2和图3)。

根据本发明，提出了一种质量导向重要性图，具体地说，提出了一种分级质量导向重要性图(HQSM)。HQSM基于图像/视频的视觉注意和感知质量需求生成。

对于自底向上过程，可基于几个规则从视觉特征确定图像/视频的像素或区域的重要性级别值图：

1、观察者的视点固定位置不总是固定于高视觉注意区域，而是视点沿着高视觉注意区域移动；

2、并非通过线性相加图像/视频的不同特征来得到累积效果；

3、观察者的眼睛对于焦点或者注意区域以外的世界并非看不见；

4、图像/视频特征的选择可以是基于空间或者基于物体；以及

5、对引发视觉注意的激励的结合和选取依赖于在某一时刻的“赢者全得”(WTA)过程的层次。

需要注意的是，最后一条规则5仅对特定时刻的同一位观察者而言为真。对一群观察者而言，注意区域可在统计图中进行表示。同样，对于单个观察者而言，当在一段时间内观看图像/视频时，可能会产生多个重要区域。这些重要区域也可表示在统计图中。

对于自顶向下过程，可利用来自于其它媒介的领域或现有知识来定义另外的图像/视频像素或区域的重要性级别值图。例如，飞机的音频声将使得观察者将其注意集中于图像/视频中的飞机物体。

如上生成的重要性图被结合以形成HQSM。根据本发明的HQSM为图像的3维数组，或者为视频的4维数组，如图5所示。

HQSM可用如下等式表达：

M＝{m_{s，i，j，t}，0＜s＜N_s-1，0≤i＜W_s-1，j＜L_s-1，0≤t＜N_t-1} (1)

其中，M表示HQSM，m_{s，i，j，t}表示HQSM在标尺s、位置(i，j)和时间t的图元素，W_s为图像或视频帧的宽度，L_s为图像或视频帧的高度，以及N_t为视频的时间间隔(仅应用于视频)。

图元素m_{s，i，j，t}的高数值表示图像/视频的像素或区域的高重要性级别，并且，该对应像素或区域的失真测量应该被赋予高权重，反之亦然。

HQSM的生成包括图6所示三个步骤。基于如下激励从特征提取单元602中提取图像/视频601的视觉特征：

1、视觉注意激励，例如运动、亮度、颜色、对比度、方向、纹理等。

2、基于知识的激励，例如，面部，人体，形状等。

3、用户定义的激励。

需要注意的是，诸如MPEG-7描述符的已有的图像/视频描述符可被合并用于特征提取。

已提取特征603由决定单元604接收，该决定单元604用于结合已提取特征603来生成初步的HQSM 605。根据本发明的优选实施例，初步HQSM 605被后处理单元606进一步处理，以提高初步的HQSM 605的质量，从而生成最终的HQSM 607。

图7示出了生成根据本发明优选实施例的HQSM的细节示图。下面对根据本发明优选实施例所要提取的不同特征进行总结。

运动分析

视频或图像序列中的物体运动可以被分成两个向量：相对运动向量和绝对运动向量。相对运动为物体相对于背景或其它物体的运动。绝对运动为在图像或视频帧中确切的位置移动。

运动分析可被分成用于确定图像/视频所用照相机(摄像机)的移动的全局运动估计，以及用于提取相对和绝对运动向量的运动映射。

全局运动估计可利用三参数法进行估计，其模型为：

(\begin{matrix} ΔX \\ ΔY \end{matrix}) = C_{f} \times (\begin{matrix} X \\ Y \end{matrix}) + (\begin{matrix} t_{x} \\ t_{y} \end{matrix}) - - - (2)

其中，(ΔX，ΔY)为视频的像素或区域(X，Y)的估计的运动向量，C_f为放大因子，以及(t_x，t_y)为平移向量。

需要注意的是，估计的运动向量(ΔX，ΔY)也为绝对运动向量。

因为与六参数模型或四参数模型等其它模型方法相比，三参数法对噪声不太敏感，所以其被优选使用。

全局运动估计的误差可被定义为：

C_f，t_x和t_y的值可通过对如下三个等式求最小值获得：

(\begin{matrix} C_{f} \\ t_{x} \\ t_{y} \end{matrix}) = {(\begin{matrix} ΣX & N & 0 \\ ΣY & 0 & N \\ Σ X^{2} + Σ Y^{2} & ΣY & ΣX \end{matrix})}^{- 1} (\begin{matrix} ΣΔX \\ ΣΔY \\ ΣX \cdot ΔX + ΣY \cdot ΔY \end{matrix}) - - - (4)

松弛算法(relaxation algorithm)可用来确定C_f，t_x和t_y的最小值，其可总结为如下步骤：

1、在图像/视频中选择具有较大变化的像素或区域；

2、在选定的像素中确定满足等式4的(C_f，t_x，t_y)；

3、利用等式3对每个像素估计误差ε；

4、在一定的误差范围[ε-Δ，ε+Δ]内，选择图像/视频的像素；

5、重复步骤2和3，直到(C_f，t_x，t_y)小于某个预定值。

得到(C_f，t_x，t_y)之后，可利用以下等式确定相对运动：

(\begin{matrix} {ΔX}_{R} \\ Δ Y_{R} \end{matrix}) = (\begin{matrix} ΔX \\ ΔY \end{matrix}) - C_{f} \times (\begin{matrix} X \\ Y \end{matrix}) + (\begin{matrix} t_{x} \\ t_{y} \end{matrix}) - - - (5)

注意级别与相对运动向量之间的关系为非线性单调增函数。该注意级别随着相对运动的增加而增加。当相对运动达到一定数值时，注意级别不再随着相对运动的进一步增加而增加。从而，注意级别与相对运动向量之间的关系可表示为：

f_{r} (x_{r}) = \{\begin{matrix} a \cdot {x_{r}}^{b} & 0 < x_{r} \leq 10 \\ a \cdot 10^{b} & x_{r} > 10 \end{matrix} - - - (6)

其中，X_r为相对运动向量，定义为

x_{r} = \sqrt{Δ {X_{R}}^{2} + Δ {Y_{R}}^{2}};

以及a和b为参数，满足a＞0，b＜1且a·10^b＝1。

类似地，注意级别和绝对运动向量之间的关系也为非线性函数。当绝对运动增加，注意级别相应地增加，并随后降低。注意级别和绝对运动向量之间的关系可定义为：

f_a(x_a)＝c·x·e^-dx (7)

其中，X_a为绝对运动向量，定义为

x_{a} = \sqrt{{ΔX}^{2} + {ΔY}^{2}};

c和d为参数，其使得max[f_a(x_a)]＝1。

由等式(7)可知，当

x = \frac{1}{d},

f_a(x)最大，从而，c＝de。

全部运动注意级别从而可被确定为：

f_total(x)＝f_a(x)·f_r(x) (8)

相对运动，绝对运动，注意级别和感知质量级别之间的关系可总结于表1中，如下所示：

表1

相对运动	绝对运动	注意级别	质量级别
相对运动	绝对运动	注意级别	质量级别	低	低	低	低
高	低	高	高	低	低	低	低
高	低	高	高	低	高	低	低
高	高	高	中	低	高	低	低

从表1中可见，具有高绝对运动的物体能吸引观察者的视觉注意。然而，观察者不会关心此物体的质量。例如，观察者会注视图像序列或视频中的飞动着的球的运动，而不会太注意此飞动着的球的形状(质量)。当此飞动着的球的相对运动为高而绝对运动为低时，观察者则会更注意此飞动着的球的形状(质量)。

需要注意的重点在于，注意级别并不总等同于感知质量级别。除了视觉注意级别，感知质量需求也被用于形成根据本发明的重要性图的数组，从而使得与任何现有技术相比，HQSM在评估图像/视频质量中能够更准确和鲁棒。

亮度映射

图像/视频区域的高亮度或对比度常常引起高视觉注意。例如，舞台上的聚光灯照明能吸引观众的视觉注意。可以通过对图像/视频应用高斯平滑滤波来估计亮度。也可以使用其它亮度估计方法。

颜色映射/肤色映射

颜色映射类似于亮度映射，只是图像/视频的其它区域之间的值的差别也可以被用于确定当前像素或区域的值。

肤色在很多情况下会吸引视觉注意，并且肤色检测可以在Cb-Cr域中进行。特别地，可用查找表来对图像/视频的各像素或区域赋予可能的颜色值。当像素值落入77＜Cb＜127且133＜Cr＜173的范围时，肤色被检测。

面部检测

面部检测即为从图像/视频中检测类似面部的区域，图像/视频中的人的面部常常使观察者产生高视觉注意。肤色和形状信息在面部检测中很有用。

眼睛/嘴检测

在面部区域，面部的眼睛和嘴常常比面部的其它部分更容易吸引高视觉注意。面部检测和形状信息可用于眼睛/嘴的检测。

形状分析/映射

形状分析对于确定可以引发视觉注意的图像/视频中的物体形状很有用。形状分析的信息对于面部、眼睛/嘴、文字字幕等其它信息的检测也很有用。可以通过对图像/视频帧应用流域分割算法(Watershed algorithm)来进行形状分析，并且形状分析可以把图像分割成更小区域。[9]中所描述的合并-分裂法和形状描述/分类法可被用于确定图像/视频中物体的形状。

人体检测

通过利用从形状分析、面部检测和眼睛/嘴检测所获得的信息，进行人体检测是可能的。

字幕检测

图像/视频中的字幕包含着重要信息，从而，具有高视觉注意。字幕可利用[8]中揭示的方法进行检测。

纹理分析/映射

纹理在重要性级别值的整体值上有负面效果，从而，对生成的HQSM而言也是。换言之，纹理降低了HQSM的图元素的整体值。确切地，我们可得到

f_{s, i, j, t}^{texture} < 0 - - - (9)

其中，f_{s，i，j，t} ^texture表示图像/视频的纹理特征。

因为考虑了图像/视频中纹理的负面效果，当形成重要性级别值的数组时，考虑纹理特征将增加重要性图的总的准确度。因此，与根据现有技术生成的重要性图相比，根据本发明生成的HQSM具有更高的准确度。

用户定义的注意

在此特征中，基于诸如音频、对特别物体刻意的集中注意等其它信息对图像/视频中部分或所有像素或区域的重要性级别进行人工定义。

需要注意的是，在仅描述一部分特征提取时，本发明并不局限于特征提取的某些具体方法，而是也可以进一步将图像/视频的其它特征合并到根据本发明的HQSM的生成方法中来。

在图像/视频的所有特征都被提取后，它们在决定单元604中结合。根据本发明的优选实施例，非线性映射函数用于结合所提取的特征。

作为合成任何一对上述提取特征的结果的耦合效应并不相同，且考虑了耦合效应并用于结合一对已提取特征的模型如下给出：

m_{s, i, j, t} = f_{s, i, j, t}^{1} + f_{s, i, j, t}^{2} - c^{12} g_{1} (f_{s, i, j, t}^{1}, f_{s, i, j, t}^{2}) - - - (10)

其中，m_{s，i，j，t}为质量导向重要性图的元素；c¹²为表示耦合效应的耦合因子；f_{s，i，j，t} ¹和f_{s，i，j，t} ²表示一对已提取特征；n为第n个已提取的特征；以及g₁表示非线性函数。

非线性映射函数可以被优选地定义为：

g₁(x，y)＝min(x，y) (11)

在本发明的另一个优选实施例中，三个或者更多的已提取特征被利用如下等式进行结合：

m_{s, i, j, t} = Σ_{n}^{N} f_{s, i, j, t}^{n} - \underset{k}{Σ} c^{Lk} \cdot g_{1} (f_{s, i, j, t}^{k}, f_{s, i, j, t}^{k}) - - - (12)

其中，f_{s，i，j，t} ⁿ为第n个已提取特征；C^Lk为耦合因子，其表示结合f_{s，i，j，t} ^L和f_{s，i，j，t} ^k的耦合效应；n为已提取特征的指数；k为已提取特征的另一个指数，满足l＜k＜N以及k≠L；N为已提取特征的总数；以及L为f_{s，i，j，t} ⁿ的最大值，并被表示为

L = \arg \max (f_{s, i, j, t}^{n}) - - - (13)

需要注意的是，等式(12)中仅考虑了具有最大值的已提取特征与其它已提取特征之间的耦合效应。其它已提取特征之间的耦合效应被忽略。

在本发明的可选优选实施例中，利用如下等式进行已提取特征的结合：

m_{s, i, j, t} = g_{2} (w_{1} f_{s, i, j, t}^{1} + w_{2} f_{s, i, j, t}^{2} + \cdot \cdot \cdot + w_{n} f_{s, i, j, t}^{n}) - - - (14)

其中，W₁，W₂，...，W_n为所提取特征的权重，而g₂为非线性映射函数。

非线性映射函数优选为

g_{2} (x) = \sqrt[a]{x + C} - - - (15)

其中，α为参数，值为α＝2以满足非线性属性，以及C为常数，考虑到观察者的眼睛对于焦点或者注意以外的世界并非完全看不见，其值为C＝1。

在可选实施例中，诸如神经网络、模糊规则等其它技术也可以用来结合已提取特征以形成重要性图605。

通过结合已提取特征而生成的重要性图605由后处理单元606接收，以进一步提高所生成的重要性图605的质量从而形成最终的HQSM 607。

在后处理单元606中，高斯平滑滤波器可被用于重要性图605以去除由特征提取过程602中的误差所引起的脉冲噪声。

根据本发明生成的HQSM可同样地应用于第一类途径和第二类途径。具体而言，HQSM可被合并到如下给出的MSE中

{MSE}_{\mod ified} = \frac{1}{N^{2}} \underset{i}{Σ} \underset{j}{Σ} m_{s, i, jt} \times {(c_{i, j} - {\hat{c}}_{i, j})}^{2} - - - (16)

其中，MSE_modified为合并所述HQSM的改进型MSE。于是，作为改进型MSE的结果，PSNR如下给出

{PSNR}_{\mod ified} = 10 lo g_{10} \frac{225^{2}}{{MSE}_{\mod ified}} - - - (17)

其中，PSNR_modified为合并了所述HQSM的改进型PSNR值。

在根据本发明生成HQSM后，其可应用于任何已有的失真度量，以提高该失真测量或质量评估的准确度。

图8示出了如何将生成的HQSM 801合并到已有的失真度量802。需要注意的是，HQSM 801被失真度量802从图像/视频的处理中分离出来，并且来自HQSM 801和失真度量802的输出在结合器单元803中结合。

图9、图10和图11示出了如何将上述HQSM应用于图1、图2和图3所示的失真度量。由于HQSM在失真度量中的应用独立于失真度量的图像/视频处理，此HQSM可在质量评估/失真测量过程的任何阶段应用于失真度量(如虚线所示)。

根据本发明和已有的失真度量进行实验以确定HQSM的性能。

在实验中，使用基于亮度映射、运动分析、肤色映射和面部检测而提取的特征生成上述HQSM。生成的HQSM应用于PSNR法以及在[1](Wang度量)和[2](Winkler度量)中所披露的失真度量。分别表示为“竖琴”和“秋叶”的两个视频序列作为测试视频序列用于视频序列质量的评估。

实验结果总结于表2：

表2

失真度量	PSNR	基于PSNR的HQSM	Wang度量	基于Wang度量的HQSM	Winkler度量	基于Winkler度量的HQSM
失真度量	PSNR	基于PSNR的HQSM	Wang度量	基于Wang度量的HQSM	Winkler度量	基于Winkler度量的HQSM	竖琴	0.8118	0.85	0.6706	0.6853	0.6912	0.7412
秋叶	0.1324	0.5441	0.9324	0.9265	0.8235	0.8647	竖琴	0.8118	0.85	0.6706	0.6853	0.6912	0.7412

从表2的结果可看出，合并了HQSM的失真度量在视频质量评估时具有更好的性能。唯一的例外是应用于视频序列“秋叶”的Wang度量。

此原因在于视频序列“秋叶”具有很高的斯皮尔曼(Spearman)相关值。此外，利用Wang度量得到的“秋叶”的质量级别值已经很高了(最大值为1)，从而，一群观察者对此视频序列的主观评定在这种情况下差别很大。

因此，根据本发明生成的HQSM能够提高已有的视频质量评估方法的性能。

本发明的上述实施例不仅应用于方法，同样也可应用于装置、计算机可读介质以及计算机程序。

所描述的本发明的实施例仅是本发明原理的示例。无需脱离本发明的精神和所附权利要求的范围就可构想出其它实施例和构造。

本说明书引用了如下文档：

[1]Z.Wang，A.C.Bovik，“A universal image quality index”，IEEE SignalProcessing Letters，Vol.9，No.3，March 2002，Pg.81-84.

[2]Z.Wang，H.R.Sheikh and A.C.Bovik，“No Reference perceptualquality assessment of JPEG compressed images”，IEEE InternationalConference on Image Processing，2002.

[3]Stefan Winkler，“Vision Models and Quality Metrics for ImageProcessing Applications”，Ph.D.Thesis#2313，Swiss Federal Institute ofTechnology，Lausanne，Switzerland，2000.

[4]S.Yao，et al，“Perceptual visual quality evaluation with multi-features”，submitted to IEE Electric Letters.

[5]WO 99/21173

[6]US Patent Publication No.2002/0126891

[7]EP 1109132

[8]US 6243419

[9]Miroslaw Bober，“MPEG-7 Visual Shape Descriptors”，IEEETransaction on circuits and systems for video technology，Vol.11，No.6，June 2001.

Claims

1.一种生成用于评估图像或视频质量的质量导向重要性图的方法，包括如下步骤：

提取所述图像或视频的特征；

确定至少一个已提取特征的感知质量需求；并且

结合所述已提取特征和所述至少一个已提取特征的感知质量需求以形成重要性级别值数组，从而生成所述质量导向重要性图。

2.根据权利要求1的方法，其中，利用基于视觉特征的信息和基于知识的信息提取所述图像或视频的所述特征。

3.根据权利要求2的方法，其中，绝对运动和相对运动被确定，并被用于确定所述图像或视频的像素或区域的质量级别值，其中，所确定的质量级别值为用于生成所述质量导向重要性图的感知质量需求。

4.根据权利要求2的方法，其中，所述已提取特征与所述至少一个已提取特征的感知质量需求被结合以利用非线性映射函数形成所述重要性级别值数组。

5.根据权利要求4的方法，其中，在形成所述重要性级别值数组时，利用了作为所述已提取特征结合的结果的耦合效应。

6.根据权利要求5的方法，其中，所述质量导向重要性图可以利用如下等式获得：

m_{s, i, j, t} = Σ_{n}^{N} f_{s, i, j, t}^{n} - \underset{k}{Σ} c^{Lk} \cdot g_{1} (f_{s, i, j, t}^{L}, f_{s, i, j, t}^{k})

其中，m_{s，i，j，t}为所述质量导向重要性图在标尺s、位置(i，j)以及时间t的元素；

f_{s，i，j，t} ⁿ为第n个已提取特征，C^Lk为耦合因子，其表示结合f_{s，i，j，t} ^L和f_{s，i，j，t} ^k的耦合效应；

n为所述已提取特征的指数；

k为所述已提取特征的另一个指数，满足1＜k＜N且k≠L；

N为所述已提取特征的总数；并且

L为f_{s，i，j，t} ⁿ的最大值，并表示为

L = \arg \max (f_{s, i, j, t}^{n}) .

7.根据权利要求6的方法，其中，所述非线性耦合映射函数定义为：g₁(x，y)＝min(x，y)

8.根据权利要求4的方法，其中，通过确定每一个所述已提取特征的权重，相加加权的已提取特征，并对累积的特征施加所述非线性映射函数来进行所述已提取特征的结合，从而形成所述视觉重要性级别值数组。

9.根据权利要求8的方法，其中，所述质量导向重要性图可以利用如下等式获得：

m_{s, i, j, t} = g_{2} (w_{1} f_{s, i, j, t}^{1} + w_{2} f_{s, i, j, t}^{2} + \cdot \cdot \cdot + w_{n} f_{s, i, j, t}^{n})

其中，m_{s，i，j，t}为所述质量导向重要性图在标尺s，位置(i，j)以及时间t的元素；

f_{s，i，j，t} ⁿ为所述已提取的特征；

n为第n个已提取特征；以及

g₂为所述非线性映射函数。

10.根据权利要求9的方法，其中，所述非线性映射函数定义为：

g_{2} (x) = \sqrt[α]{x + C},

其中，α为用于给定非线性属性的参数，以及C为常数。

11.根据权利要求1的方法，所述生成的质量导向重要性图进一步由后处理步骤进行处理以提高该生成的质量导向重要性图的质量。

12.根据权利要求11的方法，其中，利用高斯平滑技术来进行所述后处理步骤。

13.一种生成用于评估图像或视频质量的质量导向重要性图的装置，包括：

特征提取单元，用于提取所述图像或视频的特征；

确定单元，用于确定至少一个已提取特征的感知质量需求；以及

结合单元，用于结合所述已提取特征和所述至少一个已提取特征的感知质量需求以形成重要性级别值数组，从而生成所述质量导向重要性图。

14.一种计算机可读介质，其上记录有程序，其中，此程序使得计算机执行生成用于评估图像或视频质量的质量导向重要性图的进程，该进程包括如下步骤：

提取所述图像或视频的特征；

确定至少一个已提取特征的感知质量需求；以及

15.一种计算机程序单元，其使得计算机执行进程，生成用于评估图像或视频质量的质量导向重要性图，包括如下步骤：

提取所述图像或视频的特征；

确定至少一个已提取特征的感知质量需求；以及