CN103905815B

CN103905815B - 基于高阶奇异值分解的视频融合性能评价方法

Info

Publication number: CN103905815B
Application number: CN201410099933.0A
Authority: CN
Inventors: 张强; 华胜; 袁小青; 王龙
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2014-03-19
Filing date: 2014-03-19
Publication date: 2016-01-13
Anticipated expiration: 2034-03-19
Also published as: CN103905815A

Abstract

本发明公开了一种基于高阶奇异值分解的视频融合性能评价方法，主要解决现有技术不能对含噪声视频图像的融合性能进行评价的问题。其实现步骤为：分别输入已配准的两个参考视频和一个融合视频；将已输入的视频组成一个四阶张量，并对其进行高阶奇异值分解，得到各自的空间几何特征背景图像和时间运动特征图像；再通过阈值化方法将时间运动特征图像划分为运动目标区域和噪声区域；然后分别设计不同的评价指标对各区域进行评价；最后通过幂指数乘法构建出整体性能评价指标，从而实现对视频图像整体融合性能的评价。本发明能够对噪声环境下视频的融合性能进行有效、准确和客观地评价，可用于监控融合视频图像质量。

Description

基于高阶奇异值分解的视频融合性能评价方法

技术领域

本发明涉及视频图像处理领域，特别涉及含噪声的视频融合性能评价方法，该方法能够有效评价噪声环境下视频融合性能，可用于监控融合视频图像质量。

背景技术

随着图像融合技术广泛应用于目标跟踪、检测和机器视觉等领域中，图像融合性能评价也变得越来越重要，目前，绝大多数图像融合性能评价指标都是针对静态图像融合方法的，而有关视频图像融合方法的较少。视频图像融合不仅在空间性能上要满足一般图像融合的基本要求，即融合后视频图像中各帧图像不仅要尽可能地保留输入视频图像各帧图像中的有用信息，而且要避免引入虚假信息等；在时间性能上还要满足时间一致性和稳定性的要求，即融合后视频图像中各帧图像之间的灰度值差异仅能由输入视频图像中各帧图像之间的灰度值差异引起。可以采用逐帧评价的方式将静态图像融合性能评价指标用于视频融合性能评价中，但这种评价方法只能从空间信息提取一个方面对视频图像融合算法进行评价。为了评价各视频融合算法在时间一致性和稳定性方面的融合性能，也有一些学者提出了相关算法，例如，Petrovic等在基于空间梯度信息保留的融合性能评价指标的基础上，设计了一种基于空间-时间联合梯度信息保留的视频图像融合性能评价指标（V.Petrovic,T.Cootes,R.Pavlovic,“Dynamicimagefusionperformanceevaluation,”10thInternationalConferenceonInformationFusion,2007），西安电子科技大学申请的专利“基于结构相似度和人眼视觉的视频图像融合性能评价方法”（申请号：CN201110205480.1，申请公开号：CN102231844A）中公开的一种全局视频融合质量指标。但是这些算法与静态图像融合性能评价指标一样，主要是针对干净视频图像融合而设计的，但实际上视频在获取或者传输过程中是很容易受到噪声干扰。而现有视频融合性能评价指标都把噪声误认为重要信息，在对进行了噪声抑制的视频融合算法进行评价时，会认为其丢失了重要信息，从而获得与主观评价结果不一致甚至相反的结果。

发明内容

本发明的目的在于克服上述已有技术的不足，提出一种基于高阶奇异值分解的视频融合性能评价方法，以对在噪声环境下的视频融合性能进行有效、准确和客观的评价。

实现本发明的技术方案是：将输入的参考视频和融合视频构建成一个四阶张量，对其进行高阶奇异值分解HOSVD，将视频图像中的空间几何特征和时间特征有效地区分开来；再通过阈值化方法将时间特征中的时间运动特征和噪声有效地区分开来；然后分别定义不同的评价指标对各个特征区域进行评价，最后定义全局评价指标对视频图像融合性能进行整体评价。其具体实现步骤如下：

(1)分别输入两幅参考视频和一幅融合视频，即第一幅参考视频a、第二幅参考视频b以及融合视频f；

(2)用输入的第一幅参考视频a、第二幅参考视频b以及融合视频f，构成一个四阶张量υ(x,y,t,n)：

&upsi; (x, y, t, n) = \{\begin{matrix} a (x, y, t), n = 1 \\ b (x, y, t), n = 2 \\ f (x, y, t), n = 3 \end{matrix},

其中(x,y)表示空间坐标，t表示时间坐标，n表示四阶张量第四维坐标；

(3)对上述四阶张量υ(x,y,t,n)进行高阶奇异值分解，得到核心张量δ、x方向上的正交矩阵Q、y方向上的正交矩阵I、t方向上的正交矩阵G和n方向上的正交矩阵W，并将其进行乘积运算，得到特征图像ζ(x,y,t,n)；

(4)根据时间坐标t和四阶张量第四维坐标n的取值，对特征图像ζ(x,y,t,n)进行分类：

当t=1，n=1时，则用特征图像ζ(x,y,t,n)表示第一幅参考视频a的空间几何特征背景图像ζ(x,y,1,1)；

当t≠1，n=1时，则用特征图像ζ(x,y,t,n)表示第一幅参考视频a的时间运动特征图像ζ(x,y,t,1)；

当t=1，n=2时，则用特征图像ζ(x,y,t,n)表示第二幅参考视频b的空间几何特征背景图像ζ(x,y,1,2)；

当t≠1，n=2时，则用特征图像ζ(x,y,t,n)表示第二幅参考视频b的时间运动特征图像ζ(x,y,t,2)；

当t=1，n=3时，则用特征图像ζ(x,y,t,n)表示融合视频f的空间几何特征背景图像ζ(x,y,1,3)；

当t≠1，n=3时，则用特征图像ζ(x,y,t,n)表示融合视频f的时间运动特征图像ζ(x,y,t,3)；

(5)根据第一幅参考视频a的空间几何特征背景图像ζ(x,y,1,1)、第二幅参考视频b的空间几何特征背景图像ζ(x,y,1,2)和融合视频f的空间几何特征背景图像ζ(x,y,1,3)，利用基于结构相似度的评价指标Q_s，对空间几何特征背景的融合性能进行评价；

(6)通过阈值化法将第一幅参考视频a的时间运动特征图像ζ(x,y,t,1)和第二幅参考视频b的时间运动特征图像ζ(x,y,t,2)均划分成运动目标区域R₁和噪声区域R₂；

(7)对运动目标区域R₁和噪声区域R₂的融合性能进行评价：

7.1)根据第一幅参考视频a的每一帧时间运动特征图像ζ(x,y,t,1)和融合视频f中与之对应帧的时间运动特征图像ζ(x,y,t,3)，得到第一幅参考视频a和融合视频f对应运动目标区域的时间评价指标Q_af(t)：

Q_{af} (t) = \frac{2 Σ_{(x, y) &Element; R_{1}} | ζ (x, y, t, 1) ζ (x, y, t, 3) |}{E_{a} (t) + E_{f} (t)},

其中，E_a(t)表示第一幅参考视频a的时间运动特征图像ζ(x,y,t,1)的运动目标区域的能量，E_f(t)表示融合视频f的时间运动特征图像ζ(x,y,t,3)的运动目标区域的能量；

7.2)根据第二幅参考视频b的每一帧时间运动特征图像ζ(x,y,t,2)和融合视频f中与之对应帧的时间运动特征图像ζ(x,y,t,3)，得到第二幅参考视频b和融合视频f对应运动目标区域的时间评价指标Q_bf(t)：

Q_{bf} (t) = \frac{2 Σ_{(x, y) &Element; R_{1}} | ζ (x, y, t, 2) ζ (x, y, t, 3) |}{E_{b} (t) + E_{f} (t)},

其中，E_b(t)表示第二幅参考视频b的时间运动特征图像ζ(x,y,t,2)的运动目标区域的能量，E_f(t)表示融合视频f的时间运动特征图像ζ(x,y,t,3)的运动目标区域的能量；

7.3)根据第一幅参考视频a和融合视频f对应运动目标区域的时间评价指标Q_af(t)和第二幅参考视频b和融合视频f对应运动目标区域的时间评价指标Q_bf(t)，得到视频融合的时间融合性能评价指标Q_t：

Q_{t} = \frac{Σ_{t = 2}^{T} (\max (Q_{af} (t), Q_{bf} (t)))}{T - 1},

其中，T表示处理的视频图像帧数；

7.4)根据第一幅参考视频a的每一帧时间运动特征图像ζ(x,y,t,1)和融合视频f中与之对应帧的时间运动特征图像ζ(x,y,t,3)，得到第一幅参考视频a和融合视频f对应噪声区域的噪声评价指标N_af(t)：

N_{af} (t) = \frac{2 Σ_{(x, y) &Element; R_{2}} | ζ (x, y, t, 1) ζ (x, y, t, 3) |}{D_{a} (t) + D_{f} (t)},

其中，D_a(t)表示第一幅参考视频a的时间运动特征图像ζ(x,y,t,1)的噪声区域的能量，D_f(t)表示融合视频f的时间运动特征图像ζ(x,y,t,3)的噪声区域的能量；

7.5)根据第二幅参考视频b的每一帧时间运动特征图像ζ(x,y,t,2)和融合视频f中与之对应帧的时间运动特征图像ζ(x,y,t,3)，得到第二幅参考视频b和融合视频f对应噪声区域的噪声评价指标N_bf(t)：

N_{bf} (t) = \frac{2 Σ_{(x, y) &Element; R_{2}} | ζ (x, y, t, 2) ζ (x, y, t, 3) |}{D_{b} (t) + D_{f} (t)},

其中，D_b(t)表示第二幅参考视频b的时间运动特征图像ζ(x,y,t,2)的噪声区域的能量，D_f(t)表示融合视频f的时间运动特征图像ζ(x,y,t,3)的噪声区域的能量；

7.6)根据第一幅参考视频a和融合视频f对应噪声区域的噪声评价指标N_af(t)和第二幅参考视频b和融合视频f对应噪声区域的噪声评价指标N_bf(t)，得到视频融合的噪声融合性能评价指标Q_n：

Q_{n} = 1 - \frac{Σ_{t = 2}^{T} (\max (N_{af} (t), N_{bf} (t)))}{T - 1},

其中，T表示处理的视频图像帧数；

(8)将空间几何特征背景的融合性能评价指标Q_s与时间融合性能评价指标Q_t进行幂指数相乘，得到视频融合的时空融合性能评价指标Q_st；

(9)将视频融合的时空融合性能评价指标Q_st与视频融合的噪声融合性能评价指标Q_n进行幂指数相乘，得到视频融合的整体融合性能评价指标Q_nst。

本发明具有如下效果：

1)本发明由于使用高阶奇异值分解，有效地将视频的空间几何特征和时间运动特征提取出来，且对这两种特征图像的融合性能分别应用不同的评价指标进行评价，有效地提高了视频的时空信息提取性能评价结果。

2）本发明由于特别地对噪声区域进行了评价，且在全局评价指标中加入了对噪声的评价，从而能够对含噪声视频图像的融合性能进行有效评价。

附图说明

图1为本发明的流程图；

图2为本发明使用的第一组含人为噪声的红外与可见光视频图像及其在各种融合算法下的融合视频图像；

图3为本发明使用的第二组真实世界中含噪声的红外与可见光视频图像及其在各种融合算法下的融合视频图像。

具体实施方式

下面结合附图对本发明做进一步的描述。

参照图1，本发明的实现步骤如下：

步骤1,输入参考视频和融合视频。

分别输入两幅参考视频和一幅融合视频，即第一幅参考视频a、第二幅参考视频b以及融合视频f，该第一幅参考视频a和第二幅参考视频b都是直接从图像库中获得的已经经过空间和时间配准的视频；该融合视频f是第一幅参考视频a和第二幅参考视频b利用融合方法得到的融合视频；这三幅视频的大小相同，均含有T帧图像，每帧图像的大小都为M×N，M和N可以取任意整数值。

步骤2,用输入的参考视频和融合视频构成一个四阶张量。

用输入的第一幅参考视频a、第二幅参考视频b以及融合视频f，构成一个四阶张量υ(x,y,t,n)，其表示式如下：

&upsi; (x, y, t, n) = \{\begin{matrix} a (x, y, t), n = 1 \\ b (x, y, t), n = 2 \\ f (x, y, t), n = 3 \end{matrix},

其中(x,y)表示空间坐标，t表示时间坐标，n表示四阶张量第四维坐标，当n＝1时，υ(x,y,t,n)＝a(x,y,t)，当n＝2时，υ(x,y,t,n)＝b(x,y,t)，当n＝3时，υ(x,y,t,n)＝f(x,y,t)。

步骤3,对上述四阶张量进行高阶奇异值分解，并将分解得到的核心张量以及正交矩阵进行乘积运算，得到特征图像。

3.1)对四阶张量υ(x,y,t,n)进行高阶奇异值分解，得到核心张量δ、x方向上的正交矩阵Q、y方向上的正交矩阵I、t方向上的正交矩阵G和n方向上的正交矩阵W，即：

υ(x,y,t,n)＝δ×₁Q×₂I×₃G×₄W，

其中，核心张量δ大小为M×N×T×3，正交矩阵Q大小为M×M，正交矩阵I大小为N×N，正交矩阵G大小为T×T，正交矩阵W大小为3×3；

3.2)将核心张量δ、方向x上的正交矩阵Q、方向y上的正交矩阵I和方向n上的正交矩阵W进行乘积运算，得到特征图像ζ(x,y,t,n)：

ζ(x,y,t,n)＝δ×₁Q×₂I×₄W，

其中(x,y)表示空间坐标，t表示时间坐标，n表示四阶张量第四维坐标。

步骤4,对特征图像ζ(x,y,t,n)分类。

对特征图像ζ(x,y,t,n)进行分类是根据时间坐标t和四阶张量第四维坐标n的取值，分为以下几种情况：

当t≠1，n=3时，则用特征图像ζ(x,y,t,n)表示融合视频f的时间运动特征图像ζ(x,y,t,3)。

步骤5,评价空间几何特征背景的融合性能。

评价空间几何特征背景的融合性能是根据第一幅参考视频a的空间几何特征背景图像ζ(x,y,1,1)、第二幅参考视频b的空间几何特征背景图像ζ(x,y,1,2)和融合视频f的空间几何特征背景图像ζ(x,y,1,3)，利用基于结构相似度的评价指标Q_s进行，其评价步骤如下：

5.1)在以当前空间位置(x,y)为中心、大小为8×8的局部区域内,分别计算第一幅参考视频a的空间几何特征背景图像ζ(x,y,1,1)和第二幅参考视频b的空间几何特征背景图像ζ(x,y,1,2)的结构相似度SSIM(a,b/w)，计算第一幅参考视频a的空间几何特征背景图像ζ(x,y,1,1)和融合视频f的空间几何特征背景图像ζ(x,y,1,3)的结构相似度SSIM(a,f/w)，计算第二幅参考视频b的空间几何特征背景图像ζ(x,y,1,2)和融合视频f的空间几何特征背景图像ζ(x,y,1,3)的结构相似度SSIM(b,f/w)：

SSIM (a, f / w) = \frac{2 h (a / w) h (b / w)}{h^{2} (a / w) + h^{2} (b / w)} \cdot \frac{2 s (a, b / w)}{s^{2} (a / w) + s^{2} (b / w)}

SSIM (a, f / w) = \frac{2 h (a / w) h (f / w)}{h^{2} (a / w) + h^{2} (f / w)} \cdot \frac{2 s (a, f / w)}{s^{2} (a / w) + s^{2} (f / w)},

SSIM (b, f / w) = \frac{2 h (b / w) h (f / w)}{h^{2} (b / w) + h^{2} (f / w)} \cdot \frac{2 s (b, f / w)}{s^{2} (b / w) + s^{2} (f / w)},

其中，h(a/w)和s(a/w)分别表示第一幅参考视频a的空间几何特征背景图像ζ(x,y,1,1)在局部区域内的灰度平均值和方差；h(b/w)和s(b/w)分别表示第二幅参考视频b的空间几何特征背景图像ζ(x,y,1,2)在局部区域内的灰度平均值和方差；h(f/w)和s(f/w)分别表示融合视频f的空间几何特征背景图像ζ(x,y,1,3)在局部区域内的灰度平均值和方差；s(a,b/w)表示第一幅参考视频a的空间几何特征背景图像ζ(x,y,1,1)与第二幅参考视频b的空间几何特征背景图像ζ(x,y,1,2)在局部区域内的灰度协方差，s(a,f/w)表示第一幅参考视频a的空间几何特征背景图像ζ(x,y,1,1)与融合视频f的空间几何特征背景图像ζ(x,y,1,3)在局部区域内的灰度协方差，s(b,f/w)表示第二幅参考视频b的空间几何特征背景图像ζ(x,y,1,2)与融合视频f的空间几何特征背景图像ζ(x,y,1,3)在局部区域内的灰度协方差，w表示大小为8×8的滑动窗；

5.2)当所述SSIM(a,b/w)≥0.75时，采用SSIM(a,f/w)和SSIM(b,f/w)的加权平均作为局部融合性能评价指标；当SSIM(a,b/w)＜0.75时，采用所述SSIM(a,f/w)和所述SSIM(b,f/w)中较大的那个作为空间几何特征背景图像的局部融合性能评价指标，即：

Q (a, b, f / w) = \{\begin{matrix} λ (w) SSIM (a, f / w) + (1 - λ (w)) SSIM (b, f / w) & SSIM (a, b / w) &GreaterEqual; 0.75 \\ {\max (SSIM (a, f / w), SSIM (b, f / w))}^{,} & SSIM (a, b / w) < {0.75}^{,} \end{matrix}

其中，

λ (w) = \frac{s (a / w)}{s (a / w) + s (b / w)}

表示局部加权系数；

5.3)根据空间几何特征背景图像的局部融合性能评价指标，得到其整体融合性能评价指标：

Q_{s} = \frac{1}{| W |} Σ_{w &Element; W} Q (a, b, f / w),

其中，W表示所有滑动窗口的个数。

步骤6,对参考视频进行区域划分。

本步骤是通过阈值化法将第一幅参考视频a的时间运动特征图像ζ(x,y,t,1)和第二幅参考视频b的时间运动特征图像ζ(x,y,t,2)均划分成运动目标区域R₁和噪声区域R₂，其划分步骤如下：

6.1)定义第一幅参考视频a的每一帧时间运动特征图像ζ(x,y,t,1)的自适应阈值τ_a(t)和第二幅参考视频b的每一帧时间运动特征图像ζ(x,y,t,2)的自适应阈值τ_b(t)：

τ_{a} (t) = \frac{\underset{x, y}{median} (| ζ (x, y, t, 1) |)}{γ}

τ_{b} (t) = \frac{\underset{x, y}{median} (| ζ (x, y, t, 2) |)}{γ},

其中，γ表示控制噪声区域在每一帧时间运动特征图像中的比例，γ=0.3，(x,y)表示空间坐标，t表示时间坐标；

6.2)将第一幅参考视频a的每一帧时间运动特征图像ζ(x,y,t,1)像素值的绝对值与自适应阈值τ_a(t)比较，得到第一幅参考视频a的时间运动压缩特征图像

6.3)将第二幅参考视频b的每一帧时间运动特征图像ζ(x,y,t,2)像素值的绝对值与自适应阈值τ_b(t)比较，得到视频b的时间运动压缩特征图像

6.4)当第一幅参考视频a的每一帧时间运动压缩特征图像和第二幅参考视频b中与之相同帧的时间运动压缩特征图像的对应空间位置(x,y)处的像素值都为零时，则定义此空间位置(x,y)属于噪声区域R₂，否则，属于运动目标区域R₁。

步骤7,对运动目标区域R₁和噪声区域R₂的融合性能进行评价。

Q_{af} (t) = \frac{2 Σ_{(x, y) &Element; R_{1}} | ζ (x, y, t, 1) ζ (x, y, t, 3) |}{E_{a} (t) + E_{f} (t)},

Q_{bf} (t) = \frac{2 Σ_{(x, y) &Element; R_{1}} | ζ (x, y, t, 2) ζ (x, y, t, 3) |}{E_{b} (t) + E_{f} (t)},

Q_{t} = \frac{Σ_{t = 2}^{T} (\max (Q_{af} (t), Q_{bf} (t)))}{T - 1},

其中，T表示处理的视频图像帧数；

N_{af} (t) = \frac{2 Σ_{(x, y) &Element; R_{2}} | ζ (x, y, t, 1) ζ (x, y, t, 3) |}{D_{a} (t) + D_{f} (t)},

N_{bf} (t) = \frac{2 Σ_{(x, y) &Element; R_{2}} | ζ (x, y, t, 2) ζ (x, y, t, 3) |}{D_{b} (t) + D_{f} (t)},

Q_{n} = 1 - \frac{Σ_{t = 2}^{T} (\max (N_{af} (t), N_{bf} (t)))}{T - 1},

其中，T表示处理的视频图像帧数。

步骤8,对视频融合的时空融合性能进行评价。

根据步骤（5.3）中所述的空间几何特征背景图像的整体融合性能评价指标Q_s和步骤（7.3）中所述的视频融合的时间融合性能评价指标Q_t，得到视频融合的时空融合性能评价指标Q_st:

Q_{st} = Q_{s}^{α} Q_{t}^{(1 - α)},

其中，α是权值系数，其值通过经验获得，本实例取值为0.76。

步骤9,对视频融合的整体融合性能进行评价。

根据步骤（7.6）中所述的视频融合的噪声融合性能评价指标Q_n和步骤（8）中所述的视频融合的时空融合性能评价指标Q_st，得到视频融合的整体融合性能评价指标Q_nst：

Q_{nst} = Q_{st}^{β} Q_{n}^{(1 - β)},

其中，β是权值系数，其值通过经验获得，本实例取值0.8。

本发明的效果可通过以下仿真进一步说明：

1.仿真条件：所有仿真实验都是针对含噪声的红外与可见光视频融合进行的，且均在Windows7操作系统下采用MatlabR2010a软件实现。

2.仿真内容：

仿真1：对申请号：CN201310241978.2，名称为基于高阶奇异值分解的多传感器视频融合方法中提到的ST-HOSVD方法进行评价。

ST-HOSVD方法采用一种基于控制噪声区域比γ的阈值化方法进行噪声抑制，这里控制噪声区域比例γ的取值分别为正无穷，0.7，0.6，0.5，0.4，0.3，0.2和0.1。为了简单起见，将与之相对应的融合方法分别命名为HOSVD1，HOSVD2，HOSVD3，HOSVD4，HOSVD5，HOSVD6，HOSVD7和HOSVD8。

图2为一幅红外输入视频、一幅可见光输入视频和采用ST-HOSVD方法得到的融合视频，其中：

图2(a)为干净的红外输入视频中的某一帧图像，

图2(b)为干净的可见光输入视频中与图2(a)相同帧的图像，

图2(c)为采用高阶奇异值分解的多传感器视频融合方法中提到的ST-HOSVD方法在噪声区域比例取γ＝+∞时，对含人为噪声的红外输入视频与含人为噪声的可见光输入视频融合后，得到的融合视频中与图2(a)相同帧的图像，

图2(d)为采用高阶奇异值分解的多传感器视频融合方法中提到的ST-HOSVD方法在噪声区域比例取γ＝0.7时，对含人为噪声的红外输入视频与含人为噪声的可见光输入视频融合后，得到的融合视频中与图2(a)相同帧的图像，

图2(e)为采用高阶奇异值分解的多传感器视频融合方法中提到的ST-HOSVD方法在噪声区域比例取γ＝0.6时，对含人为噪声的红外输入视频与含人为噪声的可见光输入视频融合后，得到的融合视频中与图2(a)相同帧的图像，

图2(f)为采用高阶奇异值分解的多传感器视频融合方法中提到的ST-HOSVD方法在噪声区域比例取γ＝0.5时，对含人为噪声的红外输入视频与含人为噪声的可见光输入视频融合后，得到的融合视频中与图2(a)相同帧的图像，

图2(g)为采用高阶奇异值分解的多传感器视频融合方法中提到的ST-HOSVD方法在噪声区域比例取γ＝0.4时，对含人为噪声的红外输入视频与含人为噪声的可见光输入视频融合后，得到的融合视频中与图2(a)相同帧的图像，

图2(h)为采用高阶奇异值分解的多传感器视频融合方法中提到的ST-HOSVD方法在噪声区域比例取γ＝0.3时，对含人为噪声的红外输入视频与含人为噪声的可见光输入视频融合后，得到的融合视频中与图2(a)相同帧的图像，

图2(i)为采用高阶奇异值分解的多传感器视频融合方法中提到的ST-HOSVD方法在噪声区域比例取γ＝0.2时，对含人为噪声的红外输入视频与含人为噪声的可见光输入视频融合后，得到的融合视频中与图2(a)相同帧的图像，

图2(j)为采用高阶奇异值分解的多传感器视频融合方法中提到的ST-HOSVD方法在噪声区域比例取γ＝0.1时，对含人为噪声的红外输入视频与含人为噪声的可见光输入视频融合后，得到的融合视频中与图2(a)相同帧的图像。

从图2可以看出，随着噪声区域比例γ取值变得越来越小，融合视频图像质量逐渐由差变好再逐渐变差，特别是图2（g），即噪声区域比例γ取0.4时的视觉效果最好，楼房及地面结构清晰完整，运动目标清晰，噪声小；为了简单起见，将图2所示图像命名为视频组1。

对图2所示采用不同噪声区域比例γ的融合方法ST-HOSVD得到的融合视频的融合性能，采用现有的时空梯度指标DQ、全局视频融合质量指标Q_ST以及本发明所提出的时空融合性能评价指标Q_st这三个指标进行客观评价，其评价结果如表1所示：

表1参考视频干净，融合视频含噪声情况下的融合性能评价结果

从表1的数据可知，针对进行了噪声抑制的基于高阶奇异值分解的融合方法ST-HOSVD，当噪声区域比例γ的取值变的越来越小的时候，所提出的时空融合性能评价指标Q_st的取值呈先升后降的变化趋势，特别是在噪声区域比例γ为0.4时取得最大值。这不仅与时空梯度指标DQ和全局视频融合质量指标Q_ST的评价结果相似，而且与人眼主观评价结果一致，因此，本文所提出的时空融合性能评价指标Q_st能够对视频融合算法的时空融合性能进行准确评价。

对图2(a)和图2(b)所示的干净的输入视频加入均值为零，方差为0.001的高斯噪声后，得到含噪声的输入视频，将含噪声的输入视频作为参考视频，采用现有的时空梯度指标DQ、全局视频融合质量指标Q_ST，以及本发明所提出的时空融合性能评价指标Q_st、整体融合性能评价指标Q_nst这四个指标，对图2所示的这些采用不同噪声区域比例γ的融合视频性能进行客观评价，其评价结果如表2所示：

表2参考视频和融合视频均含噪声的融合性能评价结果

从表2的数据可知，对于进行了噪声抑制的基于高阶奇异值分解的融合方法ST-HOSVD，当噪声区域比例γ的取值变得越来越小的时候，本发明所提出的整体融合性能评价指标Q_nst的取值呈先升后降的变化趋势，特别是在噪声区域比例γ为0.2时取得的值最大，这与人眼主观评价结果一致。而时空梯度指标DQ、全局视频融合质量指标Q_ST和本发明所提出的时空融合性能评价指标Q_st由于都没有考虑噪声的影响，理论上应该呈下降趋势，实验结果亦如此。可见，本发明所提出的整体融合性能评价指标Q_nst能够对含噪声的融合视频的融合性能进行有效评价。特别是时空融合性能评价指标Q_st的取值随着噪声区域比例γ取值的减小下降的非常缓慢，说明该指标对噪声具有鲁棒性。

仿真2：对文献(Q.Zhang,L.Wang,etal.,"Anovelvideofusionframeworkusingsurfacelettransform"，OpticsCommunications,Vol.285,No.13-14,2012,pp:3032-3041)中所提到的基于时空能量的融合方法ST-energy和基于时空运动的融合方法ST-motion以及基于高阶奇异值分解的多传感器视频融合方法中提到的ST-HOSVD方法进行评价。

图3为一幅红外输入视频、一幅可见光输入视频和采用ST-energy、ST-motion以及ST-HOSVD方法得到的融合视频，其中：

图3(a)为含噪声的红外输入视频中的某一帧图像，

图3(b)为含噪声的可见光输入视频中与图3(a)相同帧的图像，

图3(c)为采用ST-energy方法得到的融合视频中与图3(a)相同帧的图像，

图3(d)为采用ST-motion方法得到的融合视频中与图3(a)相同帧的图像，

图3(e)为采用没有进行噪声抑制的ST-HOSVD方法得到的融合视频中与图3(a)相同帧的图像，

图3(f)为采用进行了噪声抑制的ST-HOSVD方法得到的融合视频中与图3(a)相同帧的图像，

从图3可以看出，采用进行了噪声抑制的ST-HOSVD方法得到的融合视频图像质量最好，时空显著特征被很好地从输入视频中提取出来且被很好地保留到融合视频中，噪声也被很好地抑制掉了，而通过其它融合方法得到的融合视频中噪声明显可见。为了简单起见，将图3所示视频图像命名为视频组2。

对图3中所示采用融合方法ST-energy、融合方法ST-motion以及融合方法ST-HOSVD得到的融合视频的融合性能，采用时空梯度指标DQ、全局视频融合质量指标Q_ST和本发明所提出的时空融合性能评价指标Q_st、整体融合性能评价指标Q_nst这四种评价指标进行客观评价，其评价结果如表3所示。

表3真实世界中含噪声的红外与可见光视频图像融合评价结果

从表3数据可知，本发明所提出的整体融合性能评价指标Q_nst得出的结果与人眼主观评价结果是一致的。而时空梯度指标DQ、全局视频融合质量指标Q_ST和本发明所提出的时空融合性能评价指标Q_st得出的结果与人眼主观评价结果是相悖的。可见，本发明所提出的整体融合性能评价指标Q_nst能够对噪声环境下视频融合算法的融合性能进行准确评价。

Claims

1.一种基于高阶奇异值分解的视频融合性能评价方法，包括如下步骤：

&upsi; (x, y, t, n) = \{\begin{matrix} a (x, y, t), & n = 1 \\ b (x, y, t), & n = 2 \\ f (x, y, t), & n = 3 \end{matrix},

(3)对上述四阶张量υ(x,y,t,n)进行高阶奇异值分解，得到核心张量δ、x方向上的正交矩阵Q、y方向上的正交矩阵I、t方向上的正交矩阵G和n方向上的正交矩阵W，并将核心张量δ、方向x上的正交矩阵Q、方向y上的正交矩阵I和方向n上的正交矩阵W进行乘积运算，得到特征图像：ζ(x,y,t,n)＝δ×₁Q×₂I×₄W，

当t＝1，n＝1时，则用特征图像ζ(x,y,t,n)表示第一幅参考视频a的空间几何特征背景图像ζ(x,y,1,1)；

当t≠1，n＝1时，则用特征图像ζ(x,y,t,n)表示第一幅参考视频a的时间运动特征图像ζ(x,y,t,1)；

当t＝1，n＝2时，则用特征图像ζ(x,y,t,n)表示第二幅参考视频b的空间几何特征背景图像ζ(x,y,1,2)；

当t≠1，n＝2时，则用特征图像ζ(x,y,t,n)表示第二幅参考视频b的时间运动特征图像ζ(x,y,t,2)；

当t＝1，n＝3时，则用特征图像ζ(x,y,t,n)表示融合视频f的空间几何特征背景图像ζ(x,y,1,3)；

当t≠1，n＝3时，则用特征图像ζ(x,y,t,n)表示融合视频f的时间运动特征图像ζ(x,y,t,3)；

(7)对运动目标区域R₁和噪声区域R₂的融合性能进行评价：

Q_{a f} (t) = \frac{2 Σ_{(x, y) &Element; R_{1}} | ζ (x, y, t, 1) ζ (x, y, t, 3) |}{E_{a} (t) + E_{f} (t)},

Q_{b f} (t) = \frac{2 Σ_{(x, y) &Element; R_{1}} | ζ (x, y, t, 2) ζ (x, y, t, 3) |}{E_{b} (t) + E_{f} (t)},

Q_{t} = \frac{Σ_{t = 2}^{T} (m a x (Q_{a f} (t), Q_{b f} (t)))}{T - 1},

其中，T表示处理的视频图像帧数；

N_{a f} (t) = \frac{2 Σ_{(x, y) &Element; R_{2}} | ζ (x, y, t, 1) ζ (x, y, t, 3) |}{D_{a} (t) + D_{f} (t)},

N_{b f} (t) = \frac{2 Σ_{(x, y) &Element; R_{2}} | ζ (x, y, t, 2) ζ (x, y, t, 3) |}{D_{b} (t) + D_{f} (t)},

(8)将空间几何特征背景的融合性能评价指标Q_s与时间融合性能评价指标Q_t进行幂指数相乘，得到视频融合的时空融合性能评价指标：其中，α是权值系数，其值通过经验获得，本实例取值为0.76；

(9)将视频融合的时空融合性能评价指标Q_st与视频融合的噪声融合性能评价指标Q_n进行幂指数相乘，得到视频融合的整体融合性能评价指标：其中，β是权值系数，其值通过经验获得，本实例取值0.8。

2.根据权利要求1所述的视频融合性能评价方法，其特征在于步骤(5)中所述的利用基于结构相似度的评价指标Q_s，对空间几何特征背景的融合性能进行评价，按如下步骤进行：

S S I M (a, b / w) = \frac{2 h (a / w) h (b / w)}{h^{2} (a / w) + h^{2} (b / w)} \cdot \frac{2 s (a, b / w)}{s^{2} (a / w) + s^{2} (b / w)}

S S I M (a, f / w) = \frac{2 h (a / w) h (f / w)}{h^{2} (a / w) + h^{2} (f / w)} \cdot \frac{2 s (a, f / w)}{s^{2} (a / w) + s^{2} (f / w)}

S S I M (b, f / w) = \frac{2 h (b / w) h (f / w)}{h^{2} (b / w) + h^{2} (f / w)} \cdot \frac{2 s (b, f / w)}{s^{2} (b / w) + s^{2} (f / w)},

5.2)当所述SSIM(a,b/w)≥0.75时，采用SSIM(a,f/w)和SSIM(b,f/w)的加权平均作为局部融合性能评价指标；当SSIM(a,b/w)<0.75时，采用所述SSIM(a,f/w)和所述SSIM(b,f/w)中较大的那个作为空间几何特征背景图像的局部融合性能评价指标，即：

Q (a, b, f / w) = {\begin{matrix} λ (w) S S I M (a, f / w) + (1 - λ (w)) S S I M (b, f / w) \\ m a x (S S I M (a, f / w), S S I M (b, f / w)) \end{matrix}, \begin{matrix} S S I M (a, b / w) &GreaterEqual; 0.75 \\ S S I M (a, b / w) < 0.75 \end{matrix},

其中，

λ (w) = \frac{s (a / w)}{s (a / w) + s (b / w)}

表示局部加权系数；

Q_{s} = \frac{1}{| W |} Σ_{w &Element; W} Q (a, b, f / w),

其中，W表示所有滑动窗口的个数。

3.根据权利要求1所述的视频融合性能评价方法，其特征在于步骤(6)中所述的通过阈值化法将第一幅参考视频a的时间运动特征图像ζ(x,y,t,1)和第二幅参考视频b的时间运动特征图像ζ(x,y,t,2)均划分成运动目标区域R₁和噪声区域R₂，按如下步骤进行：

τ_{a} (t) = \frac{\underset{x, y}{m e d i a n} (| ζ (x, y, t, 1) |)}{γ}

τ_{b} (t) = \frac{\underset{x, y}{m e d i a n} (| ζ (x, y, t, 2) |)}{γ},

其中，γ表示控制噪声区域在每一帧时间运动特征图像中的比例，γ＝0.3，(x,y)表示空间坐标，t表示时间坐标；