CN102231844B

CN102231844B - 基于结构相似度和人眼视觉的视频图像融合性能评价方法

Info

Publication number: CN102231844B
Application number: CN 201110205480
Authority: CN
Inventors: 张强; 陈闵利; 王龙
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2011-07-21
Filing date: 2011-07-21
Publication date: 2013-04-03
Anticipated expiration: 2031-07-21
Also published as: CN102231844A

Abstract

本发明公开了一种基于结构相似度和人眼视觉的视频图像融合性能评价方法，主要解决现有技术的评价结果与主观评价结果不一致的问题。其实现步骤是：根据融合视频各帧图像与输入视频各帧图像之间的结构相似度值，构建空间性能评价指标；根据融合视频图像与输入视频图像各帧差图像之间的结构相似度值，构建时间性能评价指标；将空间性能评价指标和时间性能评价指标结合作为空间-时间性能评价指标；根据人眼视觉感知特性，采用输入视频图像空间对比度和时间运动信息制定指标所需参数。本发明具有评价结果准确且符合人眼视觉主观评价的特性，可用于评价视频图像融合算法性能。

Description

基于结构相似度和人眼视觉的视频图像融合性能评价方法

技术领域

本发明涉及图像处理领域，具体说是一种视频融合性能评价方法，该方法用于从空间信息提取及时间一致性和稳定性两个方面综合评价各种融合算法的性能。

技术背景

图像融合技术已经广泛应用于机器视觉、数码相机、目标识别等领域。然而，目前绝大多数图像融合指标是针对静态图像融合处理而设计的，而有关多传感器视频图像融合研究较少。在安全监视以及战场环境下的目标检测和识别等实际应用中，往往需要对来自多个传感器的视频图像进行融合处理。视频图像融合不仅在空间性能上要满足一般图像融合的基本要求，即融合后视频图像各帧图像应尽可能地保留输入视频图像各帧图像中的有用信息和避免引入虚假信息等；在时间性能上还要满足时间一致性和稳定性，即融合后视频图像中各帧图像之间的灰度值差异仅能由输入视频图像中各帧图像之间的灰度值差异引起，而不能由算法自身融合过程引入(O.Rockinger，“Image sequence fusion using a shift invariant wavelet transform，”IEEE Transactions onImage Processing，Vol.3，1997，pp.288-291.)。

目前大多数的融合性能评价指标都是针对于静态图像融合性能的评价，例如：互信息熵(Du-Yih Tsai，Yongbum Lee，Eri Matsuyama，“Information Entropy Measure forEvaluation of Image Quality”，Journal Of Digital Image，Vol.21，No.3，2008，pp.338-347)，基于梯度信息保留的性能评价指标(V.Petrovic，C.Xydeas，“Objective evaluation ofsignal-level image fusion performance”，Optical Engineering，SPIE，Vol.44，No.8，2005，pp.087003.)和基于结构相似度的性能评价指标(G.Piella，H.Heijmans，“A new qualitymetric for image fusion”，IEEE International Conference on Image Processing，2003.)等。可以采用逐帧评价方式将上述静态图像融合性能评价指标用于视频图像融合性能评价中，但这种评价方法只能从空间信息提取一个方面对视频图像融合算法进行评价。为了评价各视频融合算法在时间一致性和稳定性方面的融合性能，Rockinger提出了一种基于帧差图像互信系熵的视频图像融合性能评价指标(O.Rockinger，“Imagesequence fusion using a shift invariant wavelet transform，”IEEE Transactions on ImageProcessing，Vol.3，1997，pp.288-291.)。与其它静态图像融合性能评价指标一样，该指标对视频图像融合性能评价时存在片面性。Petrovic等在基于空间梯度信息保留的融合性能评价指标的基础上，设计了一种基于空间-时间联合梯度信息保留的视频图像融合性能评价指标(V.Petrovic，T.Cootes，R.Pavlovic，“Dynamic image fusion performanceevaluation，”10th International Conference on Information Fusion，2007)，这种指标能够从空间信息提取及时间一致性和稳定性两个方面对视频图像融合性能进行综合评价。然而，该指标是一种基于梯度信息的性能评价指标，易受噪声影响。同时，该指标在设计过程中没有考虑人眼视觉感知特性，而人眼往往是视频图像融合的最终接收端，从而使得评价结果与主观评价结果相差较大。

发明内容

本发明的目的在于克服上述已有技术的不足，提出一种基于结构相似度和人眼视觉的视频图像融合性能评价方法，以从空间信息提取及时间一致性和稳定性两个方面综合评价视频图像融合的融合性能，同时结合人眼视觉感知特性使得评价结果更接近主观评价。

本发明的目的是这样实现的：

一.技术原理

本发明在基于结构相似度SSIM静态图像融合性能评价指标的基础上，根据融合后视频图像与输入视频图像各帧图像之间的SSIM值，构建空间融合性能评价指标；根据融合后视频图像与输入视频图像各帧差图像之间的SSIM值构建时间性能评价指标；将空间性能评价指标和时间性能评价标准结合，构建空间-时间性能评价标准，综合评价各融合算法。同时，根据人眼视觉感知特性设计所需局部和全局参数，从而使得客观评价结果更符合人眼主观评价。其中所根据的人眼视觉感知特性如下：(1)人眼视觉系统感知的目的是提取视频图像中显著特征，含有丰富信息的目标更容易引起人眼视觉系统的注意；(2)人眼视觉系统对不同信息感知确定程度不完全相同，在背景图像运动较快的视频图像中，人眼视觉系统对图像中的信息感知确定程度明显不及背景图像运动较慢的视频图像中的信息感知确定程度。

二.实现步骤

本发明以两个参考输入视频Va、Vb和融合后视频Vf为例，其实现步骤包括如下：

(1)针对融合后视频图像Vf与输入视频图像Va和Vb之间的当前帧图像构建相应的单帧空间性能评价指标Q_S，t(Va，Vb，Vf)：

Q_{S, t} (Va, Vb, Vf) = \frac{Σ_{m = 1}^{M} Σ_{n = 1}^{N} (λ_{a} (w_{m, n, t}) (SSIM (Va, Vf | w_{m, n, t})) + λ_{b} (w_{m, n, t}) (SSIM (Vb, Vf | w_{m, n, t}))}{Σ_{m = 1}^{M} Σ_{n = 1}^{N} (λ_{a} (w_{m, n, t}) + λ_{b} (w_{m, n, t}))}

其中，M×N为各视频每一帧图像的大小，w_m，n，t表示第t帧图像中空间位置为(m，n)处的局部窗口，λ_a(w_m，n，t)为输入视频图像Va在当前窗口下的权值，λ_b(w_m，n，t)为输入视频图像Vb在当前窗口下的权值，SSIM(Va，Vf|w_m，n，t)表示融合后视频图像Vf与输入视频图像Va在当前局部窗口下的结构相似度值，SSIM(Vb，Vf|w_m，n，t)表示融合后视频图像Vf与输入视频图像Vb在当前局部窗口下的结构相似度值；

(2)针对融合后视频图像Vf与输入视频图像Va和Vb各帧差视频图像之间的当前帧图像，构建相应的单帧时间性能评价指标Q_T，t(Da，Db，Df)：

Q_{T, t} (Da, Db, Df) = \frac{Σ_{m = 1}^{M} Σ_{n = 1}^{N} (ξ_{a} (w_{m, n, t}) (SSIM (Da, Df | w_{m, n, t})) + ξ_{b} (w_{m, n, t}) (SSIM (Db, Df | w_{m, n, t}))}{Σ_{m = 1}^{M} Σ_{n = 1}^{N} (ξ_{a} (w_{m, n, t}) + ξ_{b} (w_{m, n, t}))}

其中，Da、Db和Df分别为视频图像Va、Vb和Vf对应的帧差视频图像，ξ_a(w_m，n，t)为输入帧差视频图像Da在当前窗口下的权值，ξ_b(w_m，n，t)为输入帧差视频图像Db在当前窗口下的权值，SSIM(Da，Df|w_m，n，t)表示融合后帧差视频图像Df与输入帧差视频图像Da在当前局部窗口下的结构相似度值，SSIM(Db，Df|w_m，n，t)表示融合后帧差视频图像Df与输入帧差视频图像Db在当前局部窗口下的结构相似度值；

(3)针对融合后视频图像Vf与输入视频图像Va和Vb之间的当前帧图像，构建相应的单帧空间-时间性能评价指标Q_t(Va，Vb，Vf)：

其中，取值范围为[0，1]。

(4)构建全局空间-时间性能评价指标Q(Va，Vb，Vf)：

Q (Va, Vb, Vf) = \frac{Σ_{t = 1}^{T} Q_{t} (Va, Vb, Vf) \cdot ρ (t)}{Σ_{t = 1}^{T} ρ (t)}

其中，T表示视频图像所含的帧数，ρ(t)为全局帧权值。

本发明具有如下效果：

(1)能够从空间信息提取及时间一致性和稳定性两个方面对视频图像融合算法的性能进行综合评价。

本发明根据融合视频图像与输入视频图像各帧图像之间的SSIM值评价视频融合算法在空间信息提取方面的融合性能，根据融合视频图像与输入视频各帧差图像之间的SSIM值评价融合算法在时间一致性和稳定性方面的融合性能，将二者结合在一起，能够从空间信息提取及时间一致性和稳定性两个方面综合评价视频图像融合的融合性能。

(2)评价指标客观评价结果更符合人眼主观评价结果。

本发明评价指标中所设计的参数均是根据人眼视觉感知特性设计的，利用人眼视觉系统感知的目的是提取视频图像中显著特征，含有丰富信息的目标更容易引起人眼视觉系统的注意这一特性设计局部参数，利用人眼视觉系统对不同信息感知确定程度不完全相同这一特性设计全局参数，从而保证了评价指标能够更准确地评价各视频图像融合算法并且评价结果更符合人眼主观评价。

附图说明

图1为本发明流程框图；

图2为第一组两个输入视频图像的当前帧和前一帧图像；

图3为图2中当前帧和前一帧的帧差图像；

图4为采用四种融合方法分别对第一组两幅当前帧图像融合后的图像；

图5为采用四种融合方法分别对第一组两幅前一帧图像融合后的图像；

图6为图4与图5中融合后图像的帧差图像；

图7为第二组两个输入视频图像的当前帧和前一帧图像；

图8为图7中当前帧和前一帧的帧差图像；

图9为采用四种融合方法分别对第二组两幅当前帧图像融合后的图像；

图10为采用四种融合方法分别对第二组两幅前一帧图像融合后的图像；

图11为图9与图10中融合后图像的帧差图像。

具体实施方式

以下参照附图对本发明做进一步详细的描述。

参照图1，以两个参考输入视频Va、Vb和融合后视频Vf为例，其实现步骤为：

第一步，以各输入视频和融合后视频的每帧图像作为处理对象，计算单帧空间性能评价指标。

以下以各视频图像的第t帧图像为例说明：

(1.1)针对融合后视频图像Vf与输入视频图像Va和Vb第t帧图像在空间点(m，n)位置处定义局部窗口w_m，n，t，本发明中采用7×7大小的窗口；

(1.2)计算融合后视频图像Vf与输入视频图像Va、Vb在当前窗口w_m，n，t下的局部结构相似度值SSIM(Va，Vf|w_m，n，t)和SSIM(Vb，Vf|w_m，n，t)：

SSIM (Va, Vf | w_{m, n, t}) = \frac{(2 μ_{Va} (w_{m, n, t}) μ_{Vf} (w_{m, n, t}) + C_{1})}{(μ_{Va}^{2} (w_{m, n, t}) + μ_{Vf}^{2} (w_{m, n, t}) + C_{1})} \cdot \frac{(2 σ_{VaVf} (w_{m, n, t}) {+ C}_{2})}{(σ_{Va}^{2} (w_{m, n, t}) + σ_{Vf}^{2} (w_{m, n, t}) + C_{2})}

SSIM (Vb, Vf | w_{m, n, t}) = \frac{(2 μ_{Vb} (w_{m, n, t}) μ_{Vf} (w_{m, n, t}) + C_{1})}{(μ_{Vb}^{2} (w_{m, n, t}) + μ_{Vf}^{2} (w_{m, n, t}) + C_{1})} \cdot \frac{(2 σ_{VbVf} (w_{m, n, t}) {+ C}_{2})}{(σ_{Vb}^{2} (w_{m, n, t}) + σ_{Vf}^{2} (w_{m, n, t}) + C_{2})}

其中，μ_Va(w_m，n，t)、μ_Vb(w_m，n，t)和μ_Vf(w_m，n，t)分别表示视频图像Va、Vb和Vf在局部窗口下的均值，

和

分别表示视频图像Va、Vb和Vf在局部窗口下的方差，σ_VaVf(w_m，n，t)表示视频图像Vf与Va在当前窗口下的协方差值，σ_VbVf(w_m，n，t)表示视频图像Vf与Vb在当前窗口下的协方差值，C₁和C₂为常值，以避免运算错误；

(1.3)分别计算输入视频图像Va和Vb在当前窗口下的权值λ_a(w_m，n，t)和λ_b(w_m，n，t)：

λ_{a} (w_{m, n, t}) = \log (1 + \frac{σ_{Va}^{2} (w_{m, n, t})}{C_{t} (Va)})

λ_{b} (w_{m, n, t}) = \log (1 + \frac{σ_{Vb}^{2} (w_{m, n, t})}{C_{t} (Vb)})

其中，

和

分别为视频Va和Vb在当前局部窗口w_m，n，t内的方差，用于表示视频图像在当前窗口下的信号强度，C_t(Va)和C_t(Vb)分别表示视频图像Va和Vb当前帧图像中的噪声强度；

(1.4)计算出第t帧图像的空间性能评价指标Q_S，t(Va，Vb，Vf)为：

Q_{S, t} (Va, Vb, Vf) = \frac{Σ_{m = 1}^{M} Σ_{n = 1}^{N} (λ_{a} (w_{m, n, t}) (SSIM (Va, Vf | w_{m, n, t})) + λ_{b} (w_{m, n, t}) (SSIM (Vb, Vf | w_{m, n, t}))}{Σ_{m = 1}^{M} Σ_{n = 1}^{N} (λ_{a} (w_{m, n, t}) + λ_{b} (w_{m, n, t}))}

第二步，以参考视频和融合后视频的帧差视频图像为处理对象，计算单帧时间性能评价指标。

以各帧差视频图像的第t帧帧差图像为例说明如下：

(2.1)计算输入视频图像Va和Vb以及融合后视频图像Vf在第t帧的帧差视频图像Da、Db和Df：

Da(t)＝Va(t)-Va(t-1)

Db(t)＝Vb(t)-Vb(t-1)

Df(t)＝Vf(t)-Vf(t-1)

(2.2)计算帧差视频图像Df与帧差视频图像Da、Db在局部窗口w_m，n，t内SSIM值SSIM(Da，Df|w_m，n，t)和SSIM(Db，Df|w_m，n，t)：

SSIM (Da, Df | w_{m, n, t}) = \frac{(2 μ_{Da} (w_{m, n, t}) μ_{Df} (w_{m, n, t}) + C_{1})}{(μ_{Da}^{2} (w_{m, n, t}) + μ_{Df}^{2} (w_{m, n, t}) + C_{1})} \cdot \frac{(2 σ_{DaDf} (w_{m, n, t}) {+ C}_{2})}{(σ_{Da}^{2} (w_{m, n, t}) + σ_{Df}^{2} (w_{m, n, t}) + C_{2})}

SSIM (Db, Df | w_{m, n, t}) = \frac{(2 μ_{Db} (w_{m, n, t}) μ_{Df} (w_{m, n, t}) + C_{1})}{(μ_{Db}^{2} (w_{m, n, t}) + μ_{Df}^{2} (w_{m, n, t}) + C_{1})} \cdot \frac{(2 σ_{DbDf} (w_{m, n, t}) {+ C}_{2})}{(σ_{Db}^{2} (w_{m, n, t}) + σ_{Df}^{2} (w_{m, n, t}) + C_{2})}

其中，μ_Da(w_m，n，t)、μ_Db(w_m，n，t)和μ_Df(w_m，n，t)分别表示视频图像Da、Db和Df在局部窗口下的均值；

和

分别表示视频图像Da、Db和Df在局部窗口下的方差；σ_DaDf(w_m，n，t)表示视频图像Vf与Va在当前窗口下的协方差值，σ_DbDf(w_m，n，t)表示视频图像Vf与Vb在当前窗口下的协方差值，C₁和C₂为常值，以避免运算错误；

(2.3)计算帧差视频图像Da和Db在当前窗口下的权值ξ_a(w_m，n，t)和ξ_b(w_m，n，t)：

ξ_a(w_m，n，t)＝1+log(1+‖v_a(m，n，t)‖)

ξ_b(w_m，n，t)＝1+log(1+‖v_b(m，n，t)‖)

其中，v_a(m，n，t)和v_b(m，n，t)表示输入视频图像Va和Vb在当前时-空位置处的局部运动向量，‖‖表示运动向量范数；

(2.4)计算单帧时间性能评价指标Q_T，tVa，Vb，Vf)：

Q_{T, t} Va, Vb, Vf) = \frac{Σ_{m = 1}^{M} Σ_{n = 1}^{N} (ξ_{a} (w_{m, n, t}) (SSIM (Da, Df | w_{m, n, t})) + ξ_{b} (w_{m, n, t}) (SSIM (Db, Df | w_{m, n, t}))}{Σ_{m = 1}^{M} Σ_{n = 1}^{N} (ξ_{a} (w_{m, n, t}) + ξ_{b} (w_{m, n, t}))} .

第三步，根据单帧空间性能评价指标Q_S，t(Va，Vb，Vf)和单帧时间性能评价指标Q_T，tVa，Vb，Vf)，构建单帧空间-时间性能评价指标Q_t(Va，Vb，Vf)：

其中，

当时，Q_t(Va，Vb，Vf)退化为空间性能评价指标，可以用来评价各融合算法在空间信息提取方面的融合性能；当

时，Q_t(Va，Vb，Vf)退化为时间性能评价指标，可以用来评价各融合算法在时间一致性和稳定性方面的融合性能，本实例中

第四步，构建全局空间-时间性能评价指标Q(Va，Vb，Vf)。

(4.1)计算当前帧图像在输入视频图像Va和Vb中的全局帧权值ρ_a(t)和ρ_b(t)：

ρ_{a} (t) = \log (1 + \frac{1 + c_{g, a} (t)}{1 + v_{g, a} (t)})

ρ_{b} (t) = \log (1 + \frac{1 + c_{g, b} (t)}{1 + v_{g, b} (t)})

其中，v_g，a(t)和c_g，a(t)分别表示视频图像Va当前帧图像的全局运动速率和对比度强度，v_g，b(t)和c_g，b(t)分别表示视频图像Vb当前帧图像的全局运动速率和对比度强度；

(4.2)计算全局帧权值ρ(t)：

ρ(t)＝max(ρ_a(t)，ρ_b(t))

(4.3)根据全局帧权值ρ(t)和单帧空间-时间性能评价指标Q_t(Va，Vb，Vf)构建全局空间-时间性能评价指标Q(Va，Vb，Vf)：

Q (Va, Vb, Vf) = \frac{Σ_{t = 1}^{T} Q_{t} (Va, Vb, Vf) \cdot ρ (t)}{Σ_{t = 1}^{T} ρ (t)}

其中，T为视频图像所包含的帧数。

为验证本发明的有效性和正确性，用不同的融合性能评价方法对四组分别采用不同的融合方法融合后的视频图像进行性能评价仿真实验。所有仿真实验均在WindowsXP操作系统下采用Matlab 2009软件实现的。

仿真1

输入如图2所示的一个具有静态背景和较好对比度的红外视频图像与一个具有静态背景和较好对比度的可见光视频图像，并用四种不同的融合方法对输入的两个视频图像进行融合，再用不同的评价标准对四种融合方法的性能进行评价。

其中，图2(a)为可见光输入视频图像的当前帧图像，图2(b)为红外输入视频图像的当前帧图像，图2(c)为图2(a)的前一帧图像，图2(d)为图2(c)的前一帧图像。图3(a)为图2(a)与图2(c)的帧差图像，图3(b)为图2(b)与图2(d)的帧差图像。

图4所示为采用四种融合方法分别对图2两个输入图像融合得到的融合后图像，其中，图4(a)为离散小波变换DWT方法融合视频图像的当前帧图像，图4(b)为离散小波框架变换DWFT方法融合视频图像的当前帧图像，图4(c)为塔式滤波器LP方法融视频图像的当前帧图像，图4(d)为三维双树复数小波变换3D-DTCWT方法融合视频图像的当前帧图像。

图5为图4中图像的前一帧图像，图5(a)～图5(d)为图4(a)～图4(d)中对应图像的前一帧图像。

图6为图4与图5的帧差图像，图6(a)～图6(d)对应了图4(a)～图4(d)与图5(a)～图5(d)的帧差图像。

从图4可以看出，基于DWT融合方法和基于LP融合方法得到的融合结果中引入了一些虚假信息，即引入了一些“块”效应，而在基于DWFT融合方法和基于3D-DTCWT融合方法得到的融合结果中，尤其在基于DWFT融合方法得到的融合结果中，这种“块”效应或虚假信息得到了很好的抑制，从而表明在空间信息提取方面，上述四种融合方法性能从优到劣依次为：基于DWFT融合方法，基于3D-DTCWT融合方法，基于DWT融合方法和基于LP融合方法。

从图6可以看出，采用基于DWT融合方法和基于LP融合方法得到的融合结果图像对应的帧差图像也存在一些原帧差图像中所没有的信息，而采用基于3D-DTCWT融合方法和基于DWFT融合方法得到的融合结果图像，尤其采用3D-DTCWT融合方法得到的融合结果图像，其对应的帧差图像与原图像对应的帧差图像具有较高的一致性。从而表明在时间一致性和稳定性方面方面，上述四种融合方法性能从优到劣依次为：基于3D-DTCWT融合方法，基于DWFT融合方法，基于DWT融合方法和基于LP融合方法。

表1为用不同评价指标对图4中用到的四种融合方法性能的评价结果。根据表1中的基于梯度的评价指标Q_P和基于结构相似度的评价指标Q_w的值，上述四种融合方法在空间信息提取方面的融合性能从优到劣依次为：基于DWFT融合方法、基于3D-DTCWT融合方法、基于LP融合方法和基于DWT融合方法，其评价结果与对图4进行主观评价分析所得出的评价结果一致。

表1第一组图像不同的融合性能评价指标得到的数据

根据表1中的基于互信息的评价指标IFD_MI值，上述四种融合方法在时间一致性和稳定性方面的融合性能从优到劣依次为：基于3D-DTCWT融合方法、基于DWFT融合方法、基于LP融合方法和基于DWT融合方法，其评价结果与我们对图6进行主观评价分析所得出的评价结果一致。Q_P、Q_w只能从空域方面对各融合方法进行评价，而IFD_MI评价指标只能从时间一致性和稳定性方面对各融合方法进行评价，因此其评价结果都具有一定的片面性。与上述三种评价指标不同的是，基于时-空梯度的动态评价指标DQ_P和本发明提出的评价指标Q能够从空间信息提取及时间一致性和稳定性两个方面综合评价各融合方法的融合性能，从而评价结果更准确。

根据表1中的DQ_P和Q值，上述四种融合方法在空间信息提取及时间一致性和稳定性方面综合性能从优到劣依次为：基于3D-DTCWT融合方法、基于DWFT融合方法、基于LP融合方法和基于DWT融合方法，其评价结果与人眼主观评价结果十分一致。从而表明本发明提出的评价指标Q能够更全面地评价视频图像融合方法。

仿真2

输入如图7所示的一个静态背景有噪声且对比度较低的红外视频图像与一个静态背景有噪声且对比度较低的可见光视频图像，并用四种不同的融合方法对输入的两个视频图像进行融合，再用不同的评价标准对四种融合方法的性能进行评价。

其中，图7(a)为可见光输入视频图像中当前帧图像，图7(b)为红外输入视频图像中当前帧图像，图7(c)为图7(a)的前一帧图像，图7(d)为图7(c)的前一帧图像。图8(a)为图7(a)与图7(c)的帧差图像，图8(b)为图7(b)与图7(d)的帧差图像。

图9所示为采用四种融合方法分别对图7两个输入图像融合得到的融合后图像，其中，图9(a)为离散小波变换DWT方法融合视频图像中当前帧图像，图9(b)为离散小波框架滤波器DWFT方法融合视频图像中当前帧图像，图9(c)为塔式滤波器LP方法融视频图像中当前帧图像，图9(d)为三维双树复数小波变换3D-DTCWT方法融合视频图像中当前帧图像。

图10为图9中图像的前一帧图像，图10(a)～图10(d)为图9(a)～图9(d)中对应的当前帧图像的前一帧图像。

图11为图9与图10的帧差图像，图11(a)～图11(d)对应了图9(a)～图9(d)与图10(a)～图10(d)的帧差图像。

从图9可以看出，基于DWT融合方法比基于LP融合方法得到的融合结果中引入更多的一些虚假信息，而在基于DWFT融合方法和基于3D-DTCWT融合方法得到的融合结果中，尤其在基于DWFT融合方法得到的融合结果中，这种虚假信息得到了很好的抑制，从而表明在空间信息提取方面，上述四种融方法性能从优到劣依次为：基于DWFT融合方法、基于3D-DTCWT融合方法、基于LP融合方法和基于DWT融合方法。

从图11可以看出，采用基于DWT和基于LP融合方法得到的融合结果图像对应的帧差图像也存在一些原帧差图像中所没有的信息，而采用基于3D-DTCWT和基于DWFT融合方法得到的融合结果图像，尤其采用3D-DTCWT融合方法得到的融合结果图像，其对应的帧差图像与原图像对应的帧差图像具有较高的一致性。从而表明在时间一致性和稳定性方面，上述四种融合方法性能从优到劣依次为：基于3D-DTCWT融合方法，基于DWFT融合方法，基于DWT融合算法和基于LP融合方法。

表2为用不同评价指标对图9中用到的四种融合方法性能的评价结果。根据表2中的基于结构相似度的评价指标Q_w值，上述四种融合方法在空间信息提取方面的融合性能从优到劣依次为：基于DWFT融合方法、基于3D-DTCWT融合方法、基于LP融合方法和基于DWT融合方法，其评价结果与对图9进行主观评价分析所得出的评价结果一致。

表2第二组图像不同的融合性能评价指标得到的数据

根据表2中基于梯度的评价指标Q_P值，上述四种融合方法在空间信息提取方面的融合性能从优到劣依次为：基于3D-DTCWT融合方法、基于DWFT融合方法、基于LP融合方法和基于DWT融合方法，其评价结果与对图9进行主观评价分析所得出的评价结果不一致。

根据表2中基于时-空梯度的动态评价指标DQ_P值，上述四种融合方法在空间信息提取及时间一致性和稳定性两个方面的融合性能从优到劣依次为：基于3D-DTCWT融合方法、基于DWFT融合方法、基于LP融合方法和基于DWT融合方法，其评价结果与人眼主观评价结果不一致。评价指标Q_P和DQ_P均是基于梯度信息设计的，对噪声具有较高的灵敏性，故对存在噪声的图像评价时易受噪声影响从而造成评价结果不准确。

根据表2中基于互信息的评价指标IFD_MI值和本发明所提出的评价指标Q值，上述四种融合方法性能从优到劣依次为：基于3D-DTCWT融合方法、基于DWFT融合方法、基于DWT融合方法和基于LP融合方法，其评价结果与人眼主观评价结果十分一致。本发明提出的评价指标Q主要基于视频图像中的局部窗口区域统计特性设计，所采用的局部和全局参数均是根据人眼视觉感知特性设计的，因此本发明设计的视频图像融合性能评价指标Q对噪声具有更好的鲁棒性，评价结果更准确，更符合人眼主观评价。

Claims

1.一种基于结构相似度和人眼视觉的视频图像融合性能评价方法，以两个参考输入视频Va、Vb和融合后视频Vf为例，包括如下步骤：

(1)针对融合后视频图像Vf与输入视频图像Va和Vb之间的当前帧图像构建相应的单帧空间性能评价指标Q_S,t(Va,Vb,Vf)：

Q_{S, t} (Va, Vb, Vf) = \frac{Σ_{m = 1}^{M} Σ_{n = 1}^{N} (λ_{a} (w_{m, n, t}) (SSIM (Va, Vf | w_{m, n, t})) + λ_{b} (w_{m, n, t}) (SSIM (Vb, Vf | w_{m, n, t}))}{Σ_{m = 1}^{M} Σ_{n = 1}^{N} (λ_{a} (w_{m, n, t}) + λ_{b} (w_{m, n, t}))}

其中，M×N为各视频每一帧图像的大小，w_m，n，t表示第t帧图像中空间位置为(m,n)处的局部窗口，λ_a(w_m，n，t)为输入视频图像Va在当前窗口下的权值，λ_b(w_m，n，t)为输入视频图像Vb在当前窗口下的权值，SSIM(Va,Vf|w_m，n，t)表示融合后视频图像Vf与输入视频图像Va在当前局部窗口下的结构相似度值，SSIM(Vb,Vf|w_m，n，t)表示融合后视频图像Vf与输入视频图像Vb在当前局部窗口下的结构相似度值；

所述

SSIM (Va, Vf | w_{m, n, t}) = \frac{(2 μ_{Va} (w_{m, n, t}) μ_{Vf} (w_{m, n, t}) + C_{1})}{(μ_{Va}^{2} (w_{m, n, t}) + μ_{Vf}^{2} (w_{m, n, t}) + C_{1})} \cdot \frac{(2 σ_{VaVf} (w_{m, n, t}) + C_{2})}{(σ_{Va}^{2} (w_{m, n, t}) + σ_{Vf}^{2} (w_{m, n, t}) + C_{2})}

所述

SSIM (Vb, Vf | w_{m, n, t}) = \frac{(2 μ_{Vb} (w_{m, n, t}) μ_{Vf} (w_{m, n, t}) + C_{1})}{(μ_{Vb}^{2} (w_{m, n, t}) + μ_{Vf}^{2} (w_{m, n, t}) + C_{1})} \cdot \frac{(2 σ_{VbVf} (w_{m, n, t}) + C_{2})}{(σ_{Vb}^{2} (w_{m, n, t}) + σ_{Vf}^{2} (w_{m, n, t}) + C_{2})}

和分别表示视频图像Va、Vb和Vf在局部窗口下的方差，σ_VaVf(w_m，n，t)表示视频图像Vf与Va在当前窗口下的协方差值，σ_VbVf(w_m，n，t)表示视频图像Vf与Vb在当前窗口下的协方差值，C₁和C₂为常值，以避免运算错误；

(2)针对融合后视频图像Vf与输入视频图像Va和Vb各帧差视频图像之间的当前帧图像，构建相应的单帧时间性能评价指标Q_T,t(Da,Db,Df)：

Q_{T, t} (Da, Db, Df) = \frac{Σ_{m = 1}^{M} Σ_{n = 1}^{N} (ξ_{a} (w_{m, n, t}) (SSIM (Da, Df | w_{m, n, t})) + ξ_{b} (w_{m, n, t}) (SSIM (Db, Df | w_{m, n, t}))}{Σ_{m = 1}^{M} Σ_{n = 1}^{N} (ξ_{a} (w_{m, n, t}) + ξ_{b} (w_{m, n, t}))}

其中，Da、Db和Df分别为视频图像Va、Vb和Vf对应的帧差视频图像，ξ_a(w_m，n，t)为输入帧差视频图像Da在当前窗口下的权值，ξ_b(w_m，n，t)为输入帧差视频图像Db在当前窗口下的权值，SSIM(Da,Df|w_m，n，t)表示融合后帧差视频图像Df与输入帧差视频图像Da在当前局部窗口下的结构相似度值，SSIM(Db,Df|w_m，n，t)表示融合后帧差视频图像Df与输入帧差视频图像Db在当前局部窗口下的结构相似度值；

所述