CN112967229A

CN112967229A - 基于视频感知特征参量度量计算恰可察觉失真阈值的方法

Info

Publication number: CN112967229A
Application number: CN202110149351.9A
Authority: CN
Inventors: 殷海兵; 邢亚芬; 王鸿奎; 陈勇; 谢亚光
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-02-03
Filing date: 2021-02-03
Publication date: 2021-06-15
Anticipated expiration: 2041-02-03
Also published as: CN112967229B

Abstract

本发明公开了基于视频感知特征参量度量计算恰可察觉失真阈值的方法，包括如下步骤：S1，时域感知参量同质化，包括如下步骤：S11，相对运动同质化，得到相对运动的视觉感知显著度；S12，背景运动同质化，得到背景运动导致的视觉感知不确定度；S13，时域持续时间的同质化，得到持续时间的视觉感知显著度；S14，残差波动强度同质化，得到残差波动强度导致的视觉感知不确定度；S2，时域参量融合，通过融合刺激导致的显著度和不确定度，计算时域权重因子，并提出显著度调节因子；S3，空时域JND模型的构建，利用时域权重因子和显著度调节因子对空域JND进行调节获得空时域JND模型。

Description

基于视频感知特征参量度量计算恰可察觉失真阈值的方法

技术领域

本发明涉及图像、视频处理技术领域，尤其是涉及一种基于视频感知特征参量度量计算恰可察觉失真阈值的方法。

背景技术

所有视频呈现在人眼之前，经历了一系列处理，如增强、压缩、传输和存储，然而，这些处理技术只考虑了视频数据本身的特点，视频的最终接收者是人眼，视频质量的好坏需要人眼的主观感知来衡量。因此，构建符合人眼视觉特性的模型并利用来对视频数据进行压缩，从而获得良好的主观感知效果，是视频压缩工作中一个重要的研究方向。

恰可察觉失真(JND)模型是根据人眼视觉系统(HVS)的特性来建模的，它表示人眼可以察觉到的最小失真阈值，代表视频中的视觉冗余度。因此，JND模型一般用来去除视频中的视觉冗余信息，提高编码效率，主要应用于图像和视频压缩、感知质量评价、数字水印、图像增强等领域。

传统JND建模方法根据视频内容不同考虑了一些主要的HVS特性：亮度自适应(LA)，对比掩蔽(CM)效应、中心凹掩蔽(FM)效应、空时域(CSF)、时域掩蔽(TM)效应、视觉注意特性等。这些视觉特性都取决于视频不同特征参量对人眼视觉感知的影响。现有空域JND模型充分考虑了亮度、边缘、方向、纹理、颜色等空域视觉特征参量，并推导构建了相应的模型来定量计算由这些参量引起的掩蔽效应。时域JND建模在像素域主要利用相邻帧间亮度差：如Chou和Yang依据相邻帧的平均亮度差作为时域的不连续性构建时域JND模型；Chin利用连续帧的运动变化估计JND阈值。变换域的时域JND建模主要考虑CSF和人眼运动特性：如Kelly依据他收集的视网膜稳定行波刺激的实验数据，首次提出了空时域CSF模型；后来，Daly加入人眼运动特性对Kelly的模型做了补充；Jia在他们的基础上将空时域CSF和人眼的运动特性相结合；Wei另外考虑到人眼对不同运动方向的敏感程度，构建了适合于单通道灰度视频的变换域JND模型；Bae将时域掩蔽效应和中心凹掩蔽效应结合起来，提出了一种TFM模型，来估计运动目标的JND阈值。

然而由于实际视频时域场景的复杂性，时域视觉特征参量的提取并不充分，导致时域仍有大量冗余信息。此外，如何度量不同视觉特征参量对不同感知特性的作用，并定量分析它们之间的作用机理，是研究JND建模时需要解决的关键问题，这会影响最终JND阈值的估计，而以往研究工作对这部分问题的探讨并不深入。

发明内容

为解决现有技术的不足，实现降低时域冗余信息，定量分析异质特征的目的，本发明采用如下的技术方案：

基于视频感知特征参量度量计算恰可察觉失真阈值的方法，包括如下步骤：

S1，时域感知参量同质化，包括如下步骤：

S11，相对运动同质化，通过幂函数来表示相对运动的先验概率分布，使用自信息来度量相对运动的视觉感知显著度I(v_r)；

S12，背景运动同质化，使用似然函数来表示视觉感知不确定性的等效噪声，使用信息熵来度量背景运动导致的视觉感知不确定度U(v_g)；

S13，时域持续时间的同质化，描述时域持续时间与人眼视觉显著性的关系，利用持续时间内目标运动方向的改变量及目标运动矢量大小，来调节时域持续时间的显著度，得到时域持续时间的视觉感知显著度I(τ)；

S14，残差波动强度同质化，使用似然函数来表示时域分量不确定性的等效噪声，使用信息熵来度量残差波动强度导致的视觉感知不确定度U(δ)；

S2，时域参量融合，通过I(v_r)、U(v_g)、I(τ)和U(δ)，来融合刺激导致的显著度和不确定度，计算时域权重因子α_t，并提出显著度调节因子α_s；

S3，空时域JND模型的构建，利用时域权重因子α_t和显著度调节因子α_s对空域JND进行调节获得空时域JND模型。

进一步地，所述步骤S11，相对运动同质化，通过幂函数来表示相对运动的先验概率分布：

其中v_r为相对运动速度，即相对运动矢量长度，相对运动矢量

是绝对运动矢量

与背景运动矢量

的差值：

其中

为相邻两帧之间像素的相对位移，对绝对运动矢量场进行柱状图分析，估计出背景运动矢量，最后运动速度表示为运动矢量长度，即

模型参数α₁、β₁是大于0的常数，相对运动的视觉感知显著度使用自信息来度量：

I(v_r)＝-log₂ p(v_r)＝α₁ log₂ v_r-log₂β₁ (3)。

运动的目标相对运动速度越大，一般越能吸引人眼的注意，相应地有越大的视觉感知显著度，根据上述公式可以看出，人眼视觉感知显著度随着运动速度增大而增大。

进一步地，所述步骤S12，背景运动同质化，视频的背景运动会消耗人眼感知能量，降低人眼对视频细微失真的分辨能力，这种抑制效应可以认为是背景运动导致的视觉感知不确定性，等效于人眼在观察视频细节时加入了噪声，使用似然函数来表示视觉感知不确定性的等效噪声，所述似然函数为对数正态分布，公式表示如下：

其中v_g和m₁分别为刺激和产生的等效噪声，高斯曲线宽度参数σ₁与对比度阈值c成反比关系：

参数λ₁、γ₁是大于0的常数，背景运动导致的视觉感知不确定度使用信息熵来度量：

以上公式计算的视觉感知不确定度与我们的主观感知是一致的，一方面，相对于静态图像，运动的视频中的细微失真更难察觉，视觉感知不确定度随背景运动的增大而增大；另一方面，对比度阈值越大，人眼看得越清楚，失真更易于察觉，因此不确定度随对比度阈值的增大而减小。

进一步地，所述步骤S13，时域持续时间的同质化，在一定时间范围内，人眼的感知敏感度随持续时间的增加而增加，当超过这个范围，人眼感知灵敏度趋于稳定，不再受时间变化的影响，本方法采用sigmoid函数来描述时域持续时间与人眼视觉显著性的关系：

其中a和b均为常数调整因子，τ为时域持续时间，计算方法：设t为当前帧，t-1帧为参考帧，根据运动矢量寻找当前帧像素(i,j)在t-1帧中的最佳匹配位置(p,q)，通过逐步刻画像素在时域上的运动轨迹来计算得到；此外，时域持续时间相同时，观察运动的目标往往比静止的目标需要消耗人眼更多能量，因此静止的区域若产生失真波动，更能引起人眼关注。而根据主观实验发现，作直线运动的目标比曲线运动的目标更能吸引人眼注意。因此，本方法利用持续时间内目标运动方向的改变量及目标运动矢量大小，来调节时域持续时间的显著度，并将概率密度函数建模为：

其中，参数α₂、β₂为大于零的常数，

为单位时间内目标运动方向的改变量，Δθ计算方法为：

其中θ(t,i,j)为当前像素(i,j)的运动矢量方向角，θ(t-1,p,q)为在t-1帧中的最佳匹配位置(p,q)的运动矢量角，因此，利用这两个参量调节后，时域持续时间的视觉感知显著度计算公式为：

以上公式计算的视觉感知显著度在时间阈值内随持续时间增加而增加，超过时间阈值后会趋于饱和，此外，相对运动速度越大，且单位时间内运动方向角的改变量越大，人眼视觉显著度越小，公式符合HVS特性。

进一步地，所述步骤S14，残差波动强度同质化，贝叶斯脑理论表明，对于当前输入的图像，人脑会自动预测后续视频帧，以实现对输入场景的感知，输入图像与人脑中的预测图像之间的误差是不可预测部分，即时域分量的不确定性，这种不确定性相当于在观看视频时加入了等效噪声，可以使用似然函数来表示时域分量不确定性的等效噪声，公式表示为：

其中δ为刺激源即残差波动强度，若当前帧像素(i,j)在t-1帧中最佳匹配点位于(p,q)，则(i,j)前向匹配点预测误差即为两像素值之差，像素时域持续时间内，计算所有相邻帧间匹配点的误差，得到误差矩阵，残差波动强度δ即为该矩阵的标准差，m₂为加入的等效噪声，宽度参数σ₂相对δ是常数，该常数受亮度自适应阈值LA的影响，LA的计算公式如下：

其中B(x)是像素x的背景亮度，当背景亮度小于127时，人眼对亮度变化的感知阈值与背景亮度呈非线性负相关；当背景亮度大于127时，人眼对亮度变化的感知阈值与背景亮度接近线性正比关系，因此，本方法使用以下公式来表示曲线宽度σ₂与亮度适应性阈值LA的关系：

其中λ₂、γ₂是大于0的常数，因此，残差波动强度导致的视觉感知不确定度用信息熵来度量：

得到视觉感知不确定度受残差波动强度和亮度自适应阈值的共同影响：随残差波动强度和亮度自适应阈值的增大而增大，这符合人眼视觉特性。

进一步地，所述步骤S2中，通过w_t＝k₁×[I(τ)-U(δ)]+k₂×[I(v_r)-U(v_g)]来融合刺激导致的显著度和不确定度，并使用sigmoid函数来计算时域权重因子：

其中t表示第t帧，i，j表示像素点的位置，k₁、k₂为权重控制参数，θ₁控制曲线斜率，并考虑到视觉显著性的影响，提出显著度调节因子：

其中s(x)为像素显著度值，通过自上而下的显著性检测，消除视频内容的冗余信息计算得到，其中

为大于零的常量，s(x)被归一化到0-1之间，当s(x)越接近1，显著度越高，JND阈值越小。

进一步地，所述步骤S3中，空域JND阈值的计算主要考虑了亮度自适应、对比掩蔽、空域CSF三种基本HVS特性，计算方法为：

JND_s(t,n,i,j)＝J_base(t,n,i,j)×a_LA(t,n,i,j)×a_CM(t,n,i,j) (17)

其中J_base(t,n,i,j)为只考虑空域CSF的基本JND阈值，空域对比敏感函数计算方法为：

其中ij表示特定大小DCT块系数位置，φ_i、φ_j为DCT变换的归一化因子，

为DCT的方向角，w_ij为空间频率，s、γ、a、b、c均为常数；

a_LA(t,n,i,j)和a_CM(t,n,i,j)为基于背景亮度和对比度建模的亮度自适应因子和对比掩蔽因子，利用时域权重因子和显著度调节因子对空域JND进行调节获得空时域JND模型：

JND_ST＝JND_s(t,n,i,j)×a_t(t,n)×a_s(t,n) (19)

其中，a_s(t,n)是a_s第n个块的均值，a_t(t,n)是a_t(t,i,j)的均值，n表示第n个块，为了获得直观的效果，将a_t(t,n)映射到[0,1]，得到的显著图，越亮的区域表示视觉显著度越大，得到的权重模型阈值图，越亮的区域表示视觉感知不确定度越大。

进一步地，所述

为相邻两帧之间像素的相对位移，由光流估计算法得到。

进一步地，所述k₁＝k₂＝0.5，θ₁＝6。

进一步地，所述

本发明的优势和有益效果在于：

1、本发明考虑了视频中四个影响HVS时域感知特性的参量，并分析它们的作用机理，提出相应的概率密度函数，使得能够定量度量这些参量导致的感知显著度与不确定度；

2、本发明提出的利用感知信息论的方法来度量这些参量，将它们映射到统一尺度，解决了异质特征参量融合困难这一问题；

3、本发明提出的JND模型在隐藏噪声方面优于现有JND。

附图说明

图1是本发明中时域感知特征参量计算方法图。

图2a是本发明中将a_s(t,n)映射到0-255之间的空域显著图。

图2b是本发明中将a_t(t,n)映射到0-255之间的时域权重模型阈值图。

图3是本发明中空时域JND模型框图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

影响HVS感知特征参量的提取：主要研究视频中普遍存在的三种运动：绝对运动、相对运动、背景运动，并分析由这三种运动所引起的视觉注意和掩蔽效应，考虑利用相对运动和运动轨迹上的持续时间度量视觉显著度，由背景运动和帧间残差波动强度度量不确定度。这四个时域特征参量在一定程度上会对人眼感知失真造成影响。一方面，部分激励源会影响人眼关注的定睛点，另一方面，有些特征参量会降低视觉感知灵敏度，消耗人眼感知能量。

感知特征参量的度量及融合：定量度量不同的感知特征参量有利于有效融合异质感知特征参量对HVS特性的影响效果，本发明提出了一种时域异质感知特征参量的度量方法，并将时域特征参量进行融合调节空域JND阈值。

具体地，本方法考虑了HVS的视觉注意特性，提出影响视觉注意的两个时域参量：相对运动v_r和目标运动轨迹上的时域持续时间τ；考虑时域掩蔽效应，提出导致视觉感知不确定性的两个参量：背景运动v_g及帧间残差波动强度δ。为了定量度量这四个感知特征参量，分别探究了其相应的概率密度函数，最后利用统计信息论原理，进行同质化度量，在自信息和信息熵这个统一尺度上，从能量分配的角度融合四个参量的视觉显著或掩蔽效应，从而提出一个时域JND权重模型。另外考虑到视觉显著性对JND阈值估计准度的影响，提出显著性调节因子对空域JND阈值进行调节。空域JND计算方面主要考虑对比敏感函数、亮度自适应、对比掩蔽效应等。

具体实施方式如下：

步骤一：时域感知参量同质化

1、相对运动同质化

运动的目标相对运动速度越大，一般越能吸引人眼的注意，相应地有越大的视觉感知显著度。统计分析的结果给出了相对运动的先验概率分布，大致可以用一个幂函数来表示：

其中v_r为相对运动速度，即相对运动矢量长度。相对运动矢量

是绝对运动矢量

与背景运动矢量

的差值：

其中

为相邻两帧之间像素的相对位移，由光流估计算法得到。对绝对运动矢量场进行柱状图分析，估计出背景运动矢量，最后运动速度表示为运动矢量长度，即

模型参数α₁、β₁是大于0的常数，相对运动的视觉感知显著度可以使用自信息来度量：

I(v_r)＝-log₂ p(v_r)＝α₁ log₂ v_r-log₂β₁ (3)

由此可以看出，人眼视觉感知显著度随着运动速度增大而增大。

2、背景运动同质化

视频的背景运动会消耗人眼感知能量，降低人眼对视频细微失真的分辨能力，这种抑制效应可以认为是背景运动导致的视觉感知不确定性，等效于人眼在观察视频细节时加入了噪声。可以使用似然函数来表示这个等效噪声，这个似然函数为对数正态分布，公式表示如下：

其中v_g和m₁分别为刺激和产生的等效噪声。高斯曲线宽度参数σ₁与对比度阈值c成反比关系：

参数λ₁、γ₁是大于0的常数。背景运动导致的视觉感知不确定度可以使用信息熵来度量：

以上公式计算的视觉感知不确定度与我们的主观感知是一致的。一方面，相对于静态图像来说，运动的视频中的细微失真更难察觉，视觉感知不确定度随背景运动的增大而增大；另一方面，对比度阈值越大，人眼看得越清楚，失真更易于察觉，因此不确定度随对比度阈值的增大而减小。

3、时域持续时间的同质化

人眼视觉系统具有近因效应和非对称感知的能力。视频中持续时间较长的区域部分，会在人脑中留下更强的短暂记忆效应，对于这些图像内容，人眼具有较高的感知敏感度。已有实验证明，在一定时间范围内，人眼的感知敏感度随持续时间的增加而增加，当超过这个范围，人眼感知灵敏度趋于稳定，不再受时间变化的影响。本方法采用sigmoid函数来描述时域持续时间与人眼视觉显著性的关系：

其中a和b均为常数调整因子，τ为时域持续时间，计算方法如图1所示，图中假设t为当前帧，t-1帧为参考帧，根据运动矢量寻找当前帧像素(i,j)在t-1帧中的最佳匹配位置(p,q)，逐步刻画像素在时域上的运动轨迹来计算得到，如图1中箭头标记线所示。此外，时域持续时间相同时，观察运动的目标往往比静止的目标需要消耗人眼更多能量，因此静止的区域若产生失真波动，更能引起人眼关注。而根据主观实验发现，作直线运动的目标比曲线运动的目标更能吸引人眼注意。因此，本方法利用持续时间内目标运动方向的改变量及目标运动矢量大小来调节时域持续时间的显著度，并将概率密度函数建模为：

其中，参数α₂、β₂为大于零的常数。

为单位时间内目标运动方向的改变量，Δθ计算方法为：

其中θ(t,i,j)为当前像素(i,j)的运动矢量方向角，θ(t-1,p,q)为其在t-1帧中的最佳匹配位置(p,q)的运动矢量角。因此，利用这两个参量调节后，时域持续时间的视觉感知显著度计算公式为：

以上公式计算的视觉感知显著度在一定时间阈值内随持续时间增加而增加，超过这个阈值后会趋于饱和，此外，相对运动速度越大，且单位时间内运动方向角的改变量越大，人眼视觉显著度越小，公式符合HVS特性。

4、残差波动强度同质化

贝叶斯脑理论表明，对于当前输入的图像，人脑会自动预测后续视频帧，以实现对输入场景的感知。输入图像与人脑中的预测图像之间的误差是不可预测部分，即时域分量的不确定性。这种不确定性相当于在观看视频时加入了等效噪声，可以使用似然函数来表示这个等效噪声，公式表示为：

其中δ为刺激源即残差波动强度，假设当前帧像素(i,j)在t-1帧中最佳匹配点位于(p,q),那么(i,j)前向匹配点预测误差即为两像素值之差，像素时域持续时间内，计算所有相邻帧间匹配点的误差，得到误差矩阵，残差波动强度δ即为该矩阵的标准差。m₂为加入的等效噪声。宽度参数σ₂对δ来说，可以认为是一个常数，但受亮度自适应阈值LA的影响，LA的计算公式如下：

其中B(x)是像素x的背景亮度，当背景亮度小于127时，人眼对亮度变化的感知阈值与背景亮度呈非线性负相关；当背景亮度大于127时，人眼对亮度变化的感知阈值与背景亮度接近线性正比关系。因此，本方法使用以下公式来表示曲线宽度σ₂与亮度适应性阈值LA的关系：

其中λ₂、γ₂是大于0的常数。因此，残差波动强度导致的视觉感知不确定度可以用信息熵来度量：

公式14中的视觉感知不确定度受残差波动强度和亮度自适应阈值的共同影响：随残差波动强度和亮度自适应阈值的增大而增大，这符合人眼视觉特性。

步骤二：时域参量融合

由于我们已经计算出了相对运动、时域持续时间等特征参量的视觉感知显著度，背景运动、帧间残差波动强度的感知不确定度。本方法定义w_t＝k₁×[I(τ)-U(δ)]+k₂×[I(v_r)-U(v_g)]来融合刺激导致的显著度和不确定度，并使用sigmoid函数来计算时域权重：

其中k₁、k₂为权重控制参数，θ₁控制曲线斜率，根据主观实验，k₁＝k₂＝0.5，θ₁＝6。

并考虑到视觉显著性的影响，提出显著性调节因子：

其中s(x)为像素显著度值，通过一种自上而下的显著性检测，消除视频内容的冗余信息来计算得到。其中

为大于零的常量，实验中取

s(x)被归一化到0-1之间。当s(x)越接近1，那么表明显著度越高，因此对应的JND阈值越小。

步骤三：空时域JND模型的构建

空域JND阈值的计算主要考虑了亮度自适应、对比掩蔽、空域CSF三种基本HVS特性，计算方法为：

JND_s(t,n,i,j)＝J_base(t,n,i,j)×a_LA(t,n,i,j)×a_CM(t,n,i,j) (17)

为DCT的方向角，w_ij为空间频率，s、γ、a、b、c均为常数；

a_LA(t,n,i,j)和a_CM(t,n,i,j)为基于背景亮度和对比度建模的亮度自适应因子和对比掩蔽因子。

利用时域权重因子和显著度调节因子对空域JND进行调节获得空时域JND模型：

JND_ST＝JND_s(t,n,i,j)×a_t(t,n)×a_s(t,n) (19)

其中，a_s(t,n)是a_s第n个块的均值，a_t(t,n)是a_t(t,i,j)的均值，n表示第n个块，为了获得直观的效果，将a_t(t,n)映射到[0,1]，如图2所示，得到的显著图和权重模型阈值图，图2(a)中，越亮的区域表示视觉显著度越大，图2(b)中，越亮的区域表示视觉感知不确定度越大。空时域JND模型的整体框图如图3所示。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims

1.基于视频感知特征参量度量计算恰可察觉失真阈值的方法，其特征在于包括如下步骤：

S1，时域感知参量同质化，包括如下步骤：

2.如权利要求1所述的基于视频感知特征参量度量计算恰可察觉失真阈值的方法，其特征在于所述步骤S11，相对运动同质化，通过幂函数来表示相对运动的先验概率分布：

是绝对运动矢量

与背景运动矢量

的差值：

其中

I(v_r)＝-log₂ p(v_r)＝α₁ log₂ v_r-log₂β₁ (3)。

3.如权利要求1所述的基于视频感知特征参量度量计算恰可察觉失真阈值的方法，其特征在于所述步骤S12，背景运动同质化，使用似然函数来表示视觉感知不确定性的等效噪声，所述似然函数为对数正态分布，公式表示如下：

其中v_g和m₁分别为等效噪声，高斯曲线宽度参数σ₁与对比度阈值c成反比关系：

一方面，视觉感知不确定度随背景运动的增大而增大；另一方面，不确定度随对比度阈值的增大而减小。

4.如权利要求1所述的基于视频感知特征参量度量计算恰可察觉失真阈值的方法，其特征在于所述步骤S13，时域持续时间的同质化，采用sigmoid函数来描述时域持续时间与人眼视觉显著性的关系：

其中a和b均为常数调整因子，τ为时域持续时间，计算方法：设t为当前帧，t-1帧为参考帧，根据运动矢量寻找当前帧像素(i,j)在t-1帧中的最佳匹配位置(p,q)，通过逐步刻画像素在时域上的运动轨迹来计算得到；利用持续时间内目标运动方向的改变量及目标运动矢量大小，来调节时域持续时间的显著度，并将概率密度函数建模为：