CN103281554A

CN103281554A - 一种基于人眼视觉特性的视频客观质量评价方法

Info

Publication number: CN103281554A
Application number: CN2013101444630A
Authority: CN
Inventors: 蒋刚毅; 朱宏; 郁梅; 陈芬; 邵枫; 彭宗举
Original assignee: Ningbo University
Current assignee: Ningbo University
Priority date: 2013-04-23
Filing date: 2013-04-23
Publication date: 2013-09-04
Anticipated expiration: 2033-04-23
Also published as: CN103281554B

Abstract

本发明公开了一种基于人眼视觉特性的视频客观质量评价方法，其将失真视频序列中的图像划分为边缘、纹理和平滑区域，然后根据无失真视频序列中的图像的时域恰可察觉失真图，将边缘区域中的像素点分为可见和不可见失真点，接着对可见和不可见失真点进行不同程度的感知加权，再根据边缘区域中的每个像素点的感知加权后的结构相似度值、纹理区域和平滑区域中的每个像素点的结构相似度值，获取失真视频序列中的图像的质量分，最后根据低通滤波后的质量分获取失真视频序列的总体质量评价客观值，整个过程不仅有效地利用了人眼视觉特性，而且在评价平面视频图像质量的基础上，引入了时域特性，因此有效地提高了客观质量评价结果与主观感知之间的相关性。

Description

一种基于人眼视觉特性的视频客观质量评价方法

技术领域

本发明涉及一种视频质量评价方法，尤其是涉及一种基于人眼视觉特性的视频客观质量评价方法。

背景技术

随着互联网、通信、多媒体信息和图像处理技术的快速发展，视频编解码技术已经受到了广泛的关注和应用，如应用于数字电视、云点播、电视会议、消费电子等诸多领域。然而，在视频采集、编码压缩、网络传输、解码等视频处理过程中会不可避免的引入失真，从而会造成视频质量的损伤。因此，如何去界定和衡量视频质量的损失程度就显得尤为重要。由于人眼是视觉感知的终端，主观质量评价更接近于人眼主观感知，较为可靠，但是主观质量评价会耗费大量的人力和物力，且难于集成于实时系统中，难以得到大规模的推广应用。因此，如何建立一种有效可靠并且符合人眼视觉感知的视频客观质量评价方法是当前的研究热点之一。目前，很多学者和科研机构将平面图像质量评价方法结合运动信息应用于视频质量评价，如基于梯度和运动估计的质量评价方法、基于结构相似度的质量评价方法等，这些质量评价方法没有考虑到人眼感兴趣模型、掩蔽效应和不对称感知等人眼视觉特性，因此客观质量评价结果与主观感知之间的一致性不是很好。

发明内容

本发明所要解决的技术问题是提供一种基于人眼视觉特性的视频客观质量评价方法，其能够有效地提高视频客观质量评价结果与主观感知之间的相关性。

本发明解决上述技术问题所采用的技术方案为：一种基于人眼视觉特性的视频客观质量评价方法，其特征在于包括以下步骤：

①令V_org为原始的无失真的视频序列，令V_dis为失真的视频序列，将V_org中当前待处理的第n帧图像定义为当前第一图像，将V_dis中当前待处理的第n帧图像定义为当前第二图像，其中，1≤n≤frames，frames表示V_org和V_dis各自包含的图像的帧数；

②将当前第一图像记为Y_{org_n}，将当前第二图像记为Y_{dis_n}；

③首先，计算当前第一图像中的每个像素点的梯度幅值，并计算当前第二图像中的每个像素点的梯度幅值；然后根据当前第一图像和当前第二图像中的每个像素点的梯度幅值，将当前第二图像划分为边缘区域、纹理区域和平滑区域；

④首先，计算当前第一图像的时域恰可察觉失真图；然后根据当前第一图像与当前第二图像的绝对差值图及当前第一图像的时域恰可察觉失真图，确定当前第二图像中的边缘区域中的每个像素点为可见失真点还是为不可见失真点；

⑤首先，计算当前第二图像中的每个像素点的结构相似度值；然后，计算当前第二图像中的边缘区域中的可见失真点的感知加权因子和不可见失真点的感知加权因子；再利用当前第二图像中的边缘区域中的可见失真点的感知加权因子和不可见失真点的感知加权因子，对当前第二图像中的边缘区域中的每个像素点的结构相似度值进行感知加权，得到当前第二图像中的边缘区域中的每个像素点的感知加权后的结构相似度值；

⑥根据当前第二图像中的边缘区域中的每个像素点的感知加权后的结构相似度值、当前第二图像中的纹理区域中的每个像素点的结构相似度值、当前第二图像中的平滑区域中的每个像素点的结构相似度值，并采用线性加权方法，计算当前第二图像的质量分，记为q_n，

q_{n} = a_{1} \times \frac{1}{N_{1}} Σ_{k_{1} = 1}^{N_{1}} {ssim}_{e}^{'} (k_{1}) + a_{2} \times \frac{1}{N_{2}} Σ_{k_{2} = 1}^{N_{2}} {ssim}_{t} (k_{2}) + a_{3} \times \frac{1}{N_{3}} Σ_{k_{3} = 1}^{N_{3}} {ssim}_{s} (k_{3}),

其中，a₁表示当前第二图像中的边缘区域的加权权重，a₂表示当前第二图像中的纹理区域的加权权重，a₃表示当前第二图像中的平滑区域的加权权重，a₁+a₂+a₃=1，a₁≥a₂≥a₃，N₁表示当前第二图像中的边缘区域包含的像素点的个数，N₂表示当前第二图像中的纹理区域包含的像素点的个数，N₃表示当前第二图像中的平滑区域包含的像素点的个数，N₁+N₂+N₃=N，N表示当前第二图像包含的像素点的个数，1≤k₁≤N₁,1≤k₂≤N₂,1≤k₃≤N₃，ssim_e′(k₁)表示当前第二图像中的边缘区域中的第k₁个像素点的感知加权后的结构相似度值，ssim_t(k₂)表示当前第二图像中的纹理区域中的第k₂个像素点的结构相似度值，ssim_s(k₃)表示当前第二图像中的平滑区域中的第k₃个像素点的结构相似度值；

⑦令n=n+1，将V_org中下一帧待处理的图像作为当前第一图像，将V_dis中下一帧待处理的图像作为当前第二图像，然后返回步骤②继续执行，直至V_org和V_dis中的所有图像均处理完毕，得到V_dis中的每帧图像的质量分，其中，n=n+1中的“=”为赋值符号；

⑧对V_dis中的每帧图像的质量分进行低通滤波处理，得到V_dis中的每帧图像的滤波处理后的质量分，将V_dis中的第n帧图像的滤波处理后的质量分记为q_n′；然后将V_dis中由滤波处理后的质量分最低的h%帧图像构成的集合定义为较差图像集合；再根据较差图像集合中的每帧较差图像的滤波处理后的质量分，计算V_dis的总体质量评价客观值，记为Q，

其中，N_H表示较差图像集合中的较差图像的帧数，N_H=h%×frames，h表示最差加权策略参数，1≤n′≤N_H，q_n′′表示较差图像集合中的第n′帧较差图像的滤波处理后的质量分。

所述的步骤③的具体过程为：

③-1、利用水平方向上的三维Sobel矩阵，分别计算当前第一图像和当前第二图像中的每个像素点沿水平方向的梯度值，将当前第一图像中坐标位置为(i,j)的像素点沿水平方向的梯度值记为g_xr(i,j)，将当前第二图像中坐标位置为(i,j)的像素点沿水平方向的梯度值记为g_xd(i,j)；利用垂直方向上的三维Sobel矩阵，分别计算当前第一图像和当前第二图像中的每个像素点沿垂直方向的梯度值，将当前第一图像中坐标位置为(i,j)的像素点沿垂直方向的梯度值记为g_yr(i,j)，将当前第二图像中坐标位置为(i,j)的像素点沿垂直方向的梯度值记为g_yd(i,j)；利用时间方向上的三维Sobel矩阵，分别计算当前第一图像和当前第二图像中的每个像素点沿时间方向的梯度值，将当前第一图像中坐标位置为(i,j)的像素点沿时间方向的梯度值记为g_tr(i,j)，将当前第二图像中坐标位置为(i,j)的像素点沿时间方向的梯度值记为g_td(i,j)；其中，1≤i≤W,1≤j≤H，W表示V_org和V_dis中的图像的宽度，H表示V_org和V_dis中的图像的高度；

③-2、根据当前第一图像中的每个像素点沿水平方向的梯度值、沿垂直方向的梯度值及沿时间方向的梯度值，计算当前第一图像中的每个像素点的梯度幅值，将当前第一图像中坐标位置为(i,j)的像素点的梯度幅值记为G_{org_n}(i,j)，

G_{org_n} (i, j) = \sqrt{{g_{xr}}^{2} (i, j) + {g_{yr}}^{2} (i, j) + {g_{tr}}^{2} (i, j)};

根据当前第二图像中的每个像素点沿水平方向的梯度值、沿垂直方向的梯度值及沿时间方向的梯度值，计算当前第二图像中的每个像素点的梯度幅值，将当前第二图像中坐标位置为(i,j)的像素点的梯度幅值记为G_{dis_n}(i,j)，

G_{dis_n} (i, j) = \sqrt{{g_{xd}}^{2} (i, j) + {g_{yd}}^{2} (i, j) + {g_{td}}^{2} (i, j)};

③-3、从当前第一图像中的所有像素点的梯度幅值中找出值最大的梯度幅值，将该值最大的梯度幅值记为G_org,max；

③-4、根据G_org,max，计算第一区域划分阈值T₁和第二区域划分阈值T₂，T₁=α×G_org,max，T₂=β×G_org,max，其中，α和β均表示区域划分参数，α>β；

③-5、根据当前第一图像中的每个像素点的梯度幅值、当前第二图像中的每个像素点的梯度幅值、T₁和T₂，将当前第二图像划分为边缘区域、纹理区域和平滑区域。

所述的步骤③-4中取α=0.12，取β=0.06。

所述的步骤③-5的具体过程为：

③-5-a、将当前第一图像中当前待处理的坐标位置为(i,j)的像素点定义为当前第一像素点，将当前第二图像中当前待处理的坐标位置为(i,j)的像素点定义为当前第二像素点；

③-5-b、当当前第一像素点的梯度幅值G_{org_n}(i,j)大于T₁或当前第二像素点的梯度幅值G_{dis_n}(i,j)大于T₁时，将当前第二像素点归属于边缘区域；当当前第一像素点的梯度幅值G_{org_n}(i,j)小于T₂且当前第二像素点的梯度幅值G_{dis_n}(i,j)小于T₁时，将当前第二像素点归属于纹理区域；当为其他情况时，将当前第二像素点归属于平滑区域；

③-5-c、令i=i+1,j=j+1，将当前第一图像中下一个待处理的像素点作为当前第一像素点，将当前第二图像中下一个待处理的像素点作为当前第二像素点，然后返回步骤③-5-b继续执行，直至当前第一图像和当前第二图像中的所有像素点均处理完毕，得到当前第二图像的边缘区域、纹理区域和平滑区域，其中，i=i+1,j=j+1中的“=”为赋值符号。

所述的步骤④的具体过程为：

④-1、计算当前第一图像与当前第二图像的绝对差值图，记为D_n，D_n=|Y_{org_n}-Y_{dis_n}|，其中，符号“||”为取绝对值符号；

④-2、计算当前第一图像的时域恰可察觉失真图，记为JND_{org_n}，将JND_{org_n}中坐标位置为(i,j)的像素点的时域恰可察觉失真值记为jnd(i,j)，jnd(i,j)=jnd_l(i,j)+jnd_t(i,j)-C×min{jnd_l(i,j),jnd_t(i,j)}，其中，1≤i≤W,1≤j≤H，W表示V_org和V_dis中的图像的宽度，H表示V_org和V_dis中的图像的高度，jnd_l(i,j)表示当前第一图像中坐标位置为(i,j)的像素点的亮度阈值，

{jnd}_{l} (i, j) = \{\begin{matrix} 17 (1 - \sqrt{\frac{\overset{&OverBar;}{I (i, j)}}{127}}) + 3 & 0 \leq \overset{&OverBar;}{I (i, j)} \leq 127 \\ \frac{3}{128} (\overset{&OverBar;}{I (i, j)} - 127) + 3 & 127 < \overset{&OverBar;}{I (i, j)} \leq 255 \end{matrix},

表示当前第一图像中坐标位置为(i,j)的像素点的亮度均值，

，I(i,j)表示当前第一图像中坐标位置为(i,j)的像素点的亮度值，I(i-3+x,j-3+y)表示当前第一图像中坐标位置为(i-3+x,j-3+y)的像素点的亮度值，B(x,y)表示5×5的低通滤波器中坐标位置为(x,y)处的值，jnd_t(i,j)表示当前第一图像中坐标位置为(i,j)的像素点的纹理阈值，jnd_t(i,j)=α'×G(i,j)+β'，α'和β'为加权因子，

α^{'} = 0.0001 \times \overset{&OverBar;}{I (i, j)} + 0.115,

β^{'} = 0.5 - 0.01 \times \overset{&OverBar;}{I (i, j)},

G(i,j)表示当前第一图像中坐标位置为(i,j)的像素点分别通过水平方向、垂直方向、45°方向和135°方向的高通滤波器滤波处理后得到的四个值中的最大值，C为加权系数，min()为取最小值函数；

④-3、根据D_n和JND_{org_n}，确定当前第二图像中的边缘区域中的每个像素点为可见失真点还是为不可见失真点，具体过程为：假设当前第二图像中坐标位置为(i,j)的像素点属于当前第二图像中的边缘区域，则判断jnd(i,j)是否小于D_n中坐标位置为(i,j)的像素点的像素值D_n(i,j)，如果是，则确定当前第二图像中坐标位置为(i,j)的像素点为可见失真点，否则，确定当前第二图像中坐标位置为(i,j)的像素点为不可见失真点；其中，此处(i,j)∈Se，Se表示当前第二图像中的边缘区域中的所有像素点的坐标位置的集合。

所述的步骤④-2中取C=0.3。

所述的步骤⑤的具体过程为：

⑤-1、计算当前第二图像中的每个像素点的结构相似度值，将当前第二图像中的边缘区域中的第k₁个像素点的结构相似度值记为ssim_e(k₁)，将当前第二图像中的纹理区域中的第k₂个像素点的结构相似度值记为ssim_t(k₂)，将当前第二图像中的平滑区域中的第k₃个像素点的结构相似度值记为ssim_s(k₃)，其中，1≤k₁≤N₁,1≤k₂≤N₂,1≤k₃≤N₃，N₁表示当前第二图像中的边缘区域包含的像素点的个数，N₂表示当前第二图像中的纹理区域包含的像素点的个数，N₃表示当前第二图像中的平滑区域包含的像素点的个数，N₁+N₂+N₃=N，N表示当前第二图像包含的像素点的个数；

⑤-2、计算当前第二图像中的边缘区域中的像素点的感知加权因子，记为λ，

其中，ω₁表示当前第二图像中由边缘区域中的所有可见失真点构成的感兴趣区域的感兴趣系数，ω₂表示当前第二图像中由除边缘区域中的所有可见失真点外的所有像素点构成的非感兴趣区域的感兴趣系数，

S₁表示当前第二图像中的感兴趣区域所包含的像素点的个数，S₂表示当前第二图像中的非感兴趣区域所包含的像素点的个数；

⑤-3、利用当前第二图像中的边缘区域中的像素点的感知加权因子λ，对当前第二图像中的边缘区域中的每个像素点的结构相似度值进行感知加权，得到当前第二图像中的边缘区域中的每个像素点的感知加权后的结构相似度值，将当前第二图像中的边缘区域中的第k₁个像素点的感知加权后的结构相似度值记为ssim_e'(k₁)，ssim_e'(k₁)=λ×ssim_e(k₁)。

所述的步骤⑥中取a₁=0.9，取a₂=0.05，取a₃=0.05。

所述的步骤⑧中

{q_{n}}^{'} = \{\begin{matrix} q_{n - 1} + a_\times (q_{n} - q_{n - 1}) & (q_{n} - q_{n - 1}) \leq 0,1 < n \leq frames \\ q_{n - 1} + a_{+} \times (q_{n} - q_{n - 1}) & (q_{n} - q_{n - 1}) > 0,1 < n \leq frames \\ q_{n} & n = 1 \end{matrix},

其中，q_n-1表示V_dis中的第n-1帧图像的质量分，q_n表示V_dis中的第n帧图像的质量分，a_-和a₊均为低通滤波加权参数，a_-<a₊，a_-=0.04,a₊=0.5。

所述的步骤⑧中h的获取过程为：

⑧-1、采用多个无失真的视频序列建立在不同失真类型不同失真程度下的失真视频库，该失真视频库包括多个失真的视频序列；

⑧-2、采用主观质量评价方法，获取该失真视频库中的每个失真的视频序列的平均主观评分差值，记为DMOS，DMOS=100-MOS，其中，MOS表示主观评分均值，DMOS∈[0,100]；

⑧-3、根据步骤①至步骤⑧的操作过程，获取该失真视频库中的每个失真视频序列的总体质量评价客观值Q，然后采用线性加权的拟合方法拟合该失真视频库中的每个失真视频序列的平均主观评分差值DMOS和每个失真视频序列的总体质量评价客观值Q，得到每个失真视频序列相对于对应的无失真的视频序列的客观评价尺度度量最优时的最差加权策略参数h。

与现有技术相比，本发明的优点在于：其首先将失真的视频序列中的图像划分为边缘区域、纹理区域和平滑区域，然后根据无失真的视频序列中的图像的时域恰可察觉失真图，将边缘区域中的像素点分为可见失真点和不可见失真点，接着对边缘区域中的可见失真点和不可见失真点进行不同程度的感知加权，再根据边缘区域中的每个像素点的感知加权后的结构相似度值、纹理区域中的每个像素点的结构相似度值和平滑区域中的每个像素点的结构相似度值，获取失真的视频序列中的图像的质量分，之后对失真的视频序列中的图像的质量分进行低通滤波，最后根据低通滤波后的质量分获取失真的视频序列的总体质量评价客观值，整个质量评价过程不仅有效地利用了时域恰可察觉失真、人眼基于内容的敏感性、不对称感知以及视觉感兴趣模型等人眼视觉特性，而且在评价平面视频图像质量的基础上，同时引入了时域特性，因此有效地提高了视频客观质量评价结果与主观感知之间的相关性。

附图说明

图1a为水平方向即x方向上的三维Sobel矩阵的示意图；

图1b为垂直方向即y方向上的三维Sobel矩阵的示意图；

图1c为时间方向即t方向上的三维Sobel矩阵的示意图；

图2a为5×5的低通滤波器的算子模板的示意图；

图2b为水平方向的高通滤波器的算子模板的示意图；

图2c为垂直方向的高通滤波器的算子模板的示意图；

图2d为45°方向的高通滤波器的算子模板的示意图；

图2e为135°方向的高通滤波器的算子模板的示意图；

图3a为针对LIVE实验室提供的LIVE Video Database视频质量数据库提供的10组共150个失真的视频序列的客观模型预测值DMOS_p与平均主观评分差值DMOS之间的散点图；

图3b为针对LIVE实验室提供的LIVE Video Database视频质量数据库提供的10组共150个失真的视频序列的总体质量评价客观值Q与平均主观评分差值DMOS之间的散点图；

图3c为存在无线传输失真的视频序列的总体质量评价客观值Q与平均主观评分差值DMOS之间的散点图；

图3d为存在IP网络传输失真的视频序列的总体质量评价客观值Q与平均主观评分差值DMOS之间的散点图；

图3e为存在H.264编码失真的视频序列的总体质量评价客观值Q与平均主观评分差值DMOS之间的散点图；

图3f为存在MPEG-2编码失真的视频序列的总体质量评价客观值Q与平均主观评分差值DMOS之间的散点图；

图4为本发明方法的流程框图。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

本发明提出的一种基于人眼视觉特性的视频客观质量评价方法，其流程框图如图4所示，其具体包括以下步骤：

①令V_org为原始的无失真的视频序列，令V_dis为失真的视频序列，将V_org中当前待处理的第n帧图像定义为当前第一图像，将V_dis中当前待处理的第n帧图像定义为当前第二图像，其中，1≤n≤frames，frames表示V_org和V_dis各自包含的图像的帧数。

②将当前第一图像记为Y_{org_n}，将当前第二图像记为Y_{dis_n}。

③首先，计算当前第一图像中的每个像素点的梯度幅值，并计算当前第二图像中的每个像素点的梯度幅值；然后根据当前第一图像和当前第二图像中的每个像素点的梯度幅值，将当前第二图像划分为边缘区域、纹理区域和平滑区域。

在此具体实施例中，步骤③的具体过程为：

③-1、利用水平方向即x方向上的三维Sobel矩阵（如图1a所示），分别计算当前第一图像和当前第二图像中的每个像素点沿水平方向即x方向的梯度值，将当前第一图像中坐标位置为(i,j)的像素点沿水平方向的梯度值记为g_xr(i,j)，将当前第二图像中坐标位置为(i,j)的像素点沿水平方向的梯度值记为g_xd(i,j)；利用垂直方向即y方向上的三维Sobel矩阵（如图1b所示），分别计算当前第一图像和当前第二图像中的每个像素点沿垂直方向即y方向的梯度值，将当前第一图像中坐标位置为(i,j)的像素点沿垂直方向的梯度值记为g_yr(i,j)，将当前第二图像中坐标位置为(i,j)的像素点沿垂直方向的梯度值记为g_yd(i,j)；利用时间方向即t方向上的三维Sobel矩阵（如图1c所示），分别计算当前第一图像和当前第二图像中的每个像素点沿时间方向即t方向的梯度值，将当前第一图像中坐标位置为(i,j)的像素点沿时间方向的梯度值记为g_tr(i,j)，将当前第二图像中坐标位置为(i,j)的像素点沿时间方向的梯度值记为g_td(i,j)；其中，1≤i≤W,1≤j≤H，W表示V_org和V_dis中的图像的宽度，H表示V_org和V_dis中的图像的高度。

G_{org_n} (i, j) = \sqrt{{g_{xr}}^{2} (i, j) + {g_{yr}}^{2} (i, j) + {g_{tr}}^{2} (i, j)} .

G_{dis_n} (i, j) = \sqrt{{g_{xd}}^{2} (i, j) + {g_{yd}}^{2} (i, j) + {g_{td}}^{2} (i, j)} .

③-3、从当前第一图像中的所有像素点的梯度幅值中找出值最大的梯度幅值，将该值最大的梯度幅值记为G_org,max。

③-4、根据G_org,max，计算第一区域划分阈值T₁和第二区域划分阈值T₂，T₁=α×G_org,max，T₂=β×G_org,max，其中，α和β均表示区域划分参数，α>β，在本实施例中取α=0.12，取β=0.06。

③-5、根据当前第一图像中的每个像素点的梯度幅值、当前第二图像中的每个像素点的梯度幅值、T₁和T₂，将当前第二图像划分为边缘区域、纹理区域和平滑区域，具体过程为：

③-5-a、将当前第一图像中当前待处理的坐标位置为(i,j)的像素点定义为当前第一像素点，将当前第二图像中当前待处理的坐标位置为(i,j)的像素点定义为当前第二像素点。

③-5-b、当当前第一像素点的梯度幅值G_{org_n}(i,j)大于T₁或当前第二像素点的梯度幅值G_{dis_n}(i,j)大于T₁时，将当前第二像素点归属于边缘区域；当当前第一像素点的梯度幅值G_{org_n}(i,j)小于T₂且当前第二像素点的梯度幅值G_{dis_n}(i,j)小于T₁时，将当前第二像素点归属于纹理区域；当为其他情况时，将当前第二像素点归属于平滑区域。

④首先，计算当前第一图像的时域恰可察觉失真图；然后根据当前第一图像与当前第二图像的绝对差值图及当前第一图像的时域恰可察觉失真图，确定当前第二图像中的边缘区域中的每个像素点为可见失真点还是为不可见失真点。在此，通过利用时域恰可察觉失真这一人眼视觉特性获取了当前第一图像的时域恰可察觉失真图。

在此具体实施例中，步骤④的具体过程为：

④-1、计算当前第一图像与当前第二图像的绝对差值图，记为D_n，D_n=|Y_{org_n}-Y_{dis_n}|，其中，符号“||”为取绝对值符号。

④-2、计算当前第一图像的时域恰可察觉失真图，记为JND_{org_n}，将JND_{org_n}中坐标位置为(i,j)的像素点的时域恰可察觉失真值记为jnd(i,j)，jnd(i,j)=jnd_l(i,j)+jnd_t(i,j)-C×min{jnd_l(i,j),jnd_t(i,j)}，时域恰可察觉失真值表示人眼能够容忍的失真临界值，该值越大，则人眼能够容忍的失真程度就越大，其中，1≤i≤W,1≤j≤H，W表示V_org和V_dis中的图像的宽度，H表示V_org和V_dis中的图像的高度，jnd_l(i,j)表示当前第一图像中坐标位置为(i,j)的像素点的亮度阈值，

{jnd}_{l} (i, j) = \{\begin{matrix} 17 (1 - \sqrt{\frac{\overset{&OverBar;}{I (i, j)}}{127}}) + 3 & 0 \leq \overset{&OverBar;}{I (i, j)} \leq 127 \\ \frac{3}{128} (\overset{&OverBar;}{I (i, j)} - 127) + 3 & 127 < \overset{&OverBar;}{I (i, j)} \leq 255 \end{matrix},

表示当前第一图像中坐标位置为(i,j)的像素点的亮度均值，

，I(i,j)表示当前第一图像中坐标位置为(i,j)的像素点的亮度值，I(i-3+x,j-3+y)表示当前第一图像中坐标位置为(i-3+x,j-3+y)的像素点的亮度值，B(x,y)表示5×5的低通滤波器中坐标位置为(x,y)处的值，图2a给出了5×5的低通滤波器的算子模板的示意图，jnd_t(i,j)表示当前第一图像中坐标位置为(i,j)的像素点的纹理阈值，jnd_t(i,j)=α'×G(i,j)+β'，α'和β'为加权因子，

G(i,j)表示当前第一图像中坐标位置为(i,j)的像素点分别通过水平方向、垂直方向、45°方向和135°方向的高通滤波器滤波处理后得到的四个值中的最大值，

max()为取最大值函数，符号“||”为取绝对值符号，grad_k(i,j)表示当前第一图像中坐标位置为(i,j)的像素点通过第k个高通滤波器滤波处理后得到的值，第k=1个高通滤波器为水平方向的高通滤波器，第k=2个高通滤波器为垂直方向的高通滤波器，第k=3个高通滤波器为45°方向的高通滤波器，第k=4个高通滤波器为135°方向的高通滤波器，图2b给出了水平方向的高通滤波器的算子模板的示意图，图2c给出了垂直方向的高通滤波器的算子模板的示意图，图2d给出了45°方向的高通滤波器的算子模板的示意图，图2e给出了135°方向的高通滤波器的算子模板的示意图，C为加权系数，在本实施例中由于考虑到亮度掩蔽效应和纹理掩蔽效应的重叠，因此取C=0.3，min()为取最小值函数。

⑤首先，计算当前第二图像中的每个像素点的结构相似度值；然后，计算当前第二图像中的边缘区域中的可见失真点的感知加权因子和不可见失真点的感知加权因子；再利用当前第二图像中的边缘区域中的可见失真点的感知加权因子和不可见失真点的感知加权因子，对当前第二图像中的边缘区域中的每个像素点的结构相似度值进行感知加权，得到当前第二图像中的边缘区域中的每个像素点的感知加权后的结构相似度值。在此，利用视觉感兴趣模型这一人眼视觉特性获取当前第二图像中的边缘区域中的可见失真点的感知加权因子和不可见失真点的感知加权因子；赋予边缘区域中的可见失真点和不可见失真点不同的权值即感知加权因子，并进行线性加权，充分体现了人眼基于内容的敏感性这一人眼视觉特性。

在此具体实施例中，步骤⑤的具体过程为：

⑤-1、计算当前第二图像中的每个像素点的结构相似度值，将当前第二图像中的边缘区域中的第k₁个像素点的结构相似度值记为ssim_e(k₁)，将当前第二图像中的纹理区域中的第k₂个像素点的结构相似度值记为ssim_t(k₂)，将当前第二图像中的平滑区域中的第k₃个像素点的结构相似度值记为ssim_s(k₃)，其中，1≤k₁≤N₁,1≤k₂≤N₂,1≤k₃≤N₃，N₁表示当前第二图像中的边缘区域包含的像素点的个数，N₂表示当前第二图像中的纹理区域包含的像素点的个数，N₃表示当前第二图像中的平滑区域包含的像素点的个数，N₁+N₂+N₃=N，N表示当前第二图像包含的像素点的个数。

⑤-2、利用视觉感兴趣模型这一人眼视觉特性，计算当前第二图像中的边缘区域中的像素点的感知加权因子，记为λ，

其中，ω₁表示当前第二图像中由边缘区域中的所有可见失真点构成的感兴趣区域的感兴趣系数，

ω₂表示当前第二图像中由除边缘区域中的所有可见失真点外的所有像素点构成的非感兴趣区域的感兴趣系数，

S₁表示当前第二图像中的感兴趣区域所包含的像素点的个数即表示当前第二图像中的边缘区域中的可见失真点的个数，S₂表示当前第二图像中的非感兴趣区域所包含的像素点的个数。

⑤-3、利用当前第二图像中的边缘区域中的像素点的感知加权因子λ，对当前第二图像中的边缘区域中的每个像素点的结构相似度值进行感知加权，得到当前第二图像中的边缘区域中的每个像素点的感知加权后的结构相似度值，将当前第二图像中的边缘区域中的第k₁个像素点的感知加权后的结构相似度值记为ssim_e′(k₁)，ssim_e′(k₁)=λ×ssim_e(k₁)。

q_{n} = a_{1} \times \frac{1}{N_{1}} Σ_{k_{1} = 1}^{N_{1}} {ssim}_{e}^{'} (k_{1}) + a_{2} \times \frac{1}{N_{2}} Σ_{k_{2} = 1}^{N_{2}} {ssim}_{t} (k_{2}) + a_{3} \times \frac{1}{N_{3}} Σ_{k_{3} = 1}^{N_{3}} {ssim}_{s} (k_{3}),

其中，a₁表示当前第二图像中的边缘区域的加权权重，a₂表示当前第二图像中的纹理区域的加权权重，a₃表示当前第二图像中的平滑区域的加权权重，a₁+a₂+a₃=1，由于人眼对于边缘区域比纹理区域敏感，对于纹理区域比平滑区域敏感，因此选择a₁≥a₂≥a₃，在本实施例中取a₁=0.9，取a₂=0.05，取a₃=0.05，N₁表示当前第二图像中的边缘区域包含的像素点的个数，N₂表示当前第二图像中的纹理区域包含的像素点的个数，N₃表示当前第二图像中的平滑区域包含的像素点的个数，N₁+N₂+N₃=N，N表示当前第二图像包含的像素点的个数，1≤k₁≤N₁,1≤k₂≤N₂,1≤k₃≤N₃，ssim_e′(k₁)表示当前第二图像中的边缘区域中的第k₁个像素点的感知加权后的结构相似度值，ssim_t(k₂)表示当前第二图像中的纹理区域中的第k₂个像素点的结构相似度值，ssim_s(k₃)表示当前第二图像中的平滑区域中的第k₃个像素点的结构相似度值。在此，赋予边缘区域、纹理区域和平滑区域不同权值并进行线性加权，充分利用了人眼基于内容的敏感性这一人眼视觉特性。

⑦令n=n+1，将V_org中下一帧待处理的图像作为当前第一图像，将V_dis中下一帧待处理的图像作为当前第二图像，然后返回步骤②继续执行，直至V_org和V_dis中的所有图像均处理完毕，得到V_dis中的每帧图像的质量分，其中，n=n+1中的“=”为赋值符号。

⑧对V_dis中的每帧图像的质量分进行低通滤波处理，得到V_dis中的每帧图像的滤波处理后的质量分，将V_dis中的第n帧图像的滤波处理后的质量分记为q_n′，

{q_{n}}^{'} = \{\begin{matrix} q_{n - 1} + a_\times (q_{n} - q_{n - 1}) & (q_{n} - q_{n - 1}) \leq 0,1 < n \leq frames \\ q_{n - 1} + a_{+} \times (q_{n} - q_{n - 1}) & (q_{n} - q_{n - 1}) > 0,1 < n \leq frames \\ q_{n} & n = 1 \end{matrix},

其中，q_n-1表示V_dis中的第n-1帧图像的质量分，q_n表示V_dis中的第n帧图像的质量分，a_-和a₊均为低通滤波加权参数，a_-<a₊，在本实施例中取a_-=0.04,a₊=0.5，在此引入时域特性对图像的质量分进行低通滤波处理，通过利用低通滤波来模拟人眼的不对称感知特性，可有效提高评价结果与主观感知的相关性；然后将V_dis中由滤波处理后的质量分最低的h%帧图像构成的集合定义为较差图像集合；再根据较差图像集合中的每帧较差图像的滤波处理后的质量分，计算V_dis的总体质量评价客观值，记为Q，

其中，N_H表示较差图像集合中的较差图像的帧数，N_H=h%×frames，h表示最差加权策略参数，1≤n′≤N_H，q_n′′表示较差图像集合中的第n′帧较差图像的滤波处理后的质量分。在此，利用不对称感知这一人眼视觉特性对V_dis中的每帧图像的质量分进行低通滤波处理。

在此具体实施例中，步骤⑧中h的获取过程为：

⑧-1、采用多个无失真的视频序列建立在不同失真类型不同失真程度下的失真视频库，该失真视频库包括多个失真的视频序列。

⑧-2、采用主观质量评价方法，获取该失真视频库中的每个失真的视频序列的平均主观评分差值，记为DMOS，DMOS=100-MOS，其中，MOS表示主观评分均值，DMOS∈[0,100]。

在具体实验过程中，可根据失真的视频序列的失真类型确定h%的值，当失真类型为无线传输失真时，取h%=37%；当失真类型为IP网络传输失真时，取h%=56%；当失真类型为H.264编码失真时，取h%=86%；当失真类型为MPEG-2编码失真时，取h%=16%。

在此，针对不同失真类型的视频序列，本发明做了大量的优化实验，取视频序列的总体质量评价客观值最好时的最差加权策略参数h，具体实验如下：利用LIVE实验室提供的LIVE Video Database视频质量数据库提供的10组共150个失真的视频序列，对上述150个失真的视频序列和10个无失真的视频序列按本发明方法的步骤①至步骤⑧相同的操作计算得到每个失真的视频序列各自的总体质量评价客观值Q；然后采用线性加权得到这150个失真的视频序列的DMOS与总体质量评价客观值Q的函数关系式。h代表不同失真类型下选取的较差质量帧的比率，由于人眼对不同的失真敏感度也有所不同，对不同失真程度的敏感度也不同，根据这个特性，本发明统计了大量的参数，进行重复性实验，这里，利用评估视频质量评价方法常用的一个客观参量作为评价指标，即非线性回归条件下的Pearson相关系数（Correlation Coefficient，CC），CC相关系数反映失真的视频序列评价函数这一客观模型的准确性，CC值越大，说明评价性能越好，反之亦然，当Q与主观感知之间的一致性最好（即CC值最大）时，取不同类型的h值，即当失真类型为无线传输失真时，取h%=47%，当失真类型为IP网络传输失真时，取h%=56%，当失真类型为H.264编码失真时，取h%=83%，当失真类型为MPEG-2编码失真时，取h%=14%。

为说明本发明方法的有效性和可行性，分析本发明方法的客观评价结果与平均主观评分差值DMOS之间的相关性。由于主观实验过程中可能会引入一些非线性因素，需要将通过本发明方法得到的失真的视频序列的总体质量评价客观值Q做4参数Logistic函数非线性拟合，最终获得客观模型预测值DMOS_p，

其中，a,b,c,d均为常量，exp()为以e为底的指数函数。图3a给出了针对整个视频质量数据库中的所有视频序列的客观模型预测值DMOS_p与平均主观评分差值DMOS之间的散点图；图3b给出了针对整个视频质量数据库中的所有视频序列的总体质量评价客观值Q与平均主观评分差值DMOS之间的散点图；图3c给出了存在无线传输失真的视频序列的总体质量评价客观值Q与平均主观评分差值DMOS之间的散点图；图3d给出了存在IP网络传输失真的视频序列的总体质量评价客观值Q与平均主观评分差值DMOS之间的散点图；图3e给出了存在H.264编码失真的视频序列的总体质量评价客观值Q与平均主观评分差值DMOS之间的散点图；图3f给出了存在MPEG-2编码失真的视频序列的总体质量评价客观值Q与平均主观评分差值DMOS之间的散点图。在图3a至图3f中，散点越集中说明客观质量评价方法的评价性能越好，与主观评分之间的一致性越好。从图3a至图3f中可以看出本发明方法可以很好地区分低质量和高质量的视频序列，且评价性能较好。

在此，利用评估视频质量评价方法的4个常用客观参量作为评价指标，即非线性回归条件下的Pearson相关系数（Correlation Coefficient，CC）、Spearman等级相关系数（Spearman Rank Order Correlation Coefficient，SROCC）、异常值比率指标（Outlier Ratio，OR）和均方根误差（Rooted Mean Squared Error，RMSE）。其中，CC用来反映客观评价方法预测的精确性，SROCC用来反映客观评价方法的预测单调性，CC和SROCC的值越接近于1，表示客观评价方法的性能越好；OR用来反映客观评价方法的离散程度，OR的值越接近于0，代表客观评价方法越好；RMSE用来反映客观评价方法的预测准确性，RMSE的值越小说明客观评价方法越好。反映准确性、单调性和离散率的CC、SROCC、OR和RMSE系数如表1所列，根据表1所列的数据可见，本发明方法的整体混合失真CC值和SROCC值均达到0.82以上，离散率OR为0，均方根误差RMSE低于6.2，按本实施例得到的失真的视频序列的总体质量评价客观值Q和平均主观评分差值DMOS之间的相关性较高，表明本发明方法的客观评价结果与人眼主观感知的结果较为一致，很好地说明了本发明方法的有效性。

表1失真的视频序列的总体质量评价客观值与平均主观评分差值之间的相关性

	CC	SROCC	OR	RMSE
					无线传输失真	0.7450	0.7161	0	6.8829
IP网络传输失真	0.7923	0.7806	0	5.7104
					H.264编码失真	0.8914	0.9006	0	4.9197
MPEG-2编码失真	0.8008	0.8052	0	5.7110
					混合失真	0.8268	0.8242	0	6.1747

Claims

1.一种基于人眼视觉特性的视频客观质量评价方法，其特征在于包括以下步骤：

q_{n} = a_{1} \times \frac{1}{N_{1}} Σ_{k_{1} = 1}^{N_{1}} {ssim}_{e}^{'} (k_{1}) + a_{2} \times \frac{1}{N_{2}} Σ_{k_{2} = 1}^{N_{2}} {ssim}_{t} (k_{2}) + a_{3} \times \frac{1}{N_{3}} Σ_{k_{3} = 1}^{N_{3}} {ssim}_{s} (k_{3}),

其中，a₁表示当前第二图像中的边缘区域的加权权重，a₂表示当前第二图像中的纹理区域的加权权重，a₃表示当前第二图像中的平滑区域的加权权重，a₁+a₂+a₃=1，a₁≥a₂≥a₃，N₁表示当前第二图像中的边缘区域包含的像素点的个数，N₂表示当前第二图像中的纹理区域包含的像素点的个数，N₃表示当前第二图像中的平滑区域包含的像素点的个数，N₁+N₂+N₃=N，N表示当前第二图像包含的像素点的个数，1≤k₁≤N₁,1≤k₂≤N₂,1≤k₃≤N₃，ssim_e'(k₁)表示当前第二图像中的边缘区域中的第k₁个像素点的感知加权后的结构相似度值，ssim_t(k₂)表示当前第二图像中的纹理区域中的第k₂个像素点的结构相似度值，ssim_s(k₃)表示当前第二图像中的平滑区域中的第k₃个像素点的结构相似度值；

⑧对V_dis中的每帧图像的质量分进行低通滤波处理，得到V_dis中的每帧图像的滤波处理后的质量分，将V_dis中的第n帧图像的滤波处理后的质量分记为q_n'；然后将V_dis中由滤波处理后的质量分最低的h%帧图像构成的集合定义为较差图像集合；再根据较差图像集合中的每帧较差图像的滤波处理后的质量分，计算V_dis的总体质量评价客观值，记为Q，其中，N_H表示较差图像集合中的较差图像的帧数，N_H=h%×frames，h表示最差加权策略参数，1≤n'≤N_H，q_n''表示较差图像集合中的第n'帧较差图像的滤波处理后的质量分。

2.根据权利要求1所述的一种基于人眼视觉特性的视频客观质量评价方法，其特征在于所述的步骤③的具体过程为：