CN103095996A

CN103095996A - 基于时空显著性检测的多传感器视频融合方法

Info

Publication number: CN103095996A
Application number: CN2013100472239A
Authority: CN
Inventors: 张强; 陈月玲; 陈闵利; 王龙
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2013-01-25
Filing date: 2013-01-25
Publication date: 2013-05-08
Anticipated expiration: 2033-01-25
Also published as: CN103095996B

Abstract

本发明公开了一种基于时空显著性检测的多传感器视频融合方法。其步骤为：1、分别输入两个已配准的视频；2、利用三维均匀离散曲波3D-UDCT分解获得子带系数；3、将视频区域划分为三种不同的区域；4、对于不同的区域，按照不同的融合策略进行组合，得到融合后视频的高通方向子带系数；5、将低通子带系数进行加权平均，得到融合后视频的低通子带系数；6、进行三维均匀离散曲波3D-UDCT逆变换，得到融合后视频。本发明克服了现有技术中受限于空间信息提取和时空一致性的缺陷，可以更好地提取输入视频图像中的显著的时空特征信息，使得视频具有更高的时空一致性和稳定性，对噪声鲁棒性好，可以用于静态背景的视频图像融合。

Description

基于时空显著性检测的多传感器视频融合方法

技术领域

本发明属于图像处理技术领域，更进一步涉及一种视频图像处理技术领域中的基于时空显著性检测的多传感器视频融合方法。本发明能够更加准确的从输入的视频中提取显著的时空特征信息，可应用于多传感器静态背景的视频图像融合。

背景技术

图像和视频融合是信息和数据融合的一个特殊领域，通过图像或视频融合，将原图像或视频之间的“冗余”和“互补”信息提取出来，得到一个融合的图像或视频。融合后的图像或视频比单一的输入图像或视频更能精确地描述场景。静态图像融合的基本要求是输入图像中有用的空间信息应该尽可能多的保留在融合图像中，以及在融合过程中不引入虚假信息。静态图像融合算法已经得到广泛研究，相对于静态图像融合，视频图像融合除了满足上述基本要求外，还要满足时间稳定性和一致性。由于视频和图像之间的特殊关系，一般情况下，可以采用静态图像融合算法对视频逐帧进行融合，这种逐帧融合方法主要考虑了输入视频的空间信息，具有较好的空间信息提取性能，但往往忽略了输入视频中的时间信息，从而容易引起时间不一致性和不稳定性问题。

西安电子科技大学申请的专利“基于Surfacelet变换的红外与可见光视频图像融合方法”(申请号：CN201010172719.5，申请公开号：CN101873440A)中公开一种红外与可见光视频图像融合的方法。该方法的具体步骤是：首先，采用Surfacelet变换对输入视频图像进行多尺度、多方向分解得到不同频域子带系数；然后，通过基于三维局部空-时区域能量匹配的“选择”和“加权平均”相结合的融合方法，以及通过基于三维局部空-时区域能量和方向向量标准方差相结合的融合方法，分别对输入视频图像的低通子带系数和带通方向子带系数进行组合，得到融合视频图像的低通子带系数和带通方向子带系数；最后，对组合得到的各子带系数进行Surfacelet逆变换得到融合视频图像。该方法主要将已有的二维静态融合规则通过简单地扩展用于视频融合，但是该方法仍然存在的不足是，由于一个视频往往包含许多具有不同特征的区域，如果通过一个简单的扩展将那些静态图像融合准则应用到视频融合中，输入视频中所有的不同特征区域都将被等同对待，这在一定程度上，会降低融合方法在时空一致性和信息提取方面的性能。

王宏，敬忠良，李建勋发表的论文“一种基于目标区域的图像融合新方法”(中国激光，32(3)，2005，PP：351-355)中公开一种融合方法。该方法首先采用运动目标检测技术将视频中各帧图像分成运动目标区域和背景区域，然后针对每帧图像的背景区域和目标区域采用不同的融合规则分别融合，得到融合视频。但是该方法存在的不足是，由于该方法仅仅利用单帧的图像处理方法对不同区域采用不同的融合准则，在一定程度上，空间信息提取性能会被降低。

发明内容

本发明的目的在于克服上述已有技术的缺点，提出一种基于3D-UDCT和时空显著性检测相结合的视频融合方法，以便更好地提取输入视频图像中显著的空间-时间特征信息，并具有更高的空间-时间一致性和稳定性。

为实现上述目的，本发明对输入视频图像带通方向子带系数进行组合时，构建一种基于时空显著性检测的融合规则，其技术方案是首先利用时空结构张量，对输入视频带通方向子带系数进行时空显著性特征，将每一个带通方向子带划分成三种区域，即：运动目标区域、空间几何特征区域和平滑区域；然后利用不同的融合准则对不同区域带通方向子带系数分别进行组合，得到融合视频的带通方向子带系数。

本发明的具体步骤如下：

(1)分别输入两个已配准的视频；

(2)获得子带系数：

对两个视频分别进行三维均匀离散曲波3D-UDCT分解，得到各自的带通方向子带系数和低通子带系数；

(3)将视频区域划分三种区域：

对每一个视频的带通方向子带系数利用三维时空结构张量，进行时空显著性检测，将视频区域划分为运动目标区域、空间几何特征区域和平滑区域三种区域；

(4)获得融合后视频的带通方向子带系数：

4a)对运动目标区域的带通方向子带系数，按照基于能量选择的融合策略进行组合，得到运动目标区域内融合后视频的带通方向子带系数；

4b)对空间几何特征区域的带通方向子带系数，按照基于相似度选择和加权平均相结合的融合策略进行组合，得到空间几何特征区域内融合后视频的带通方向子带系数；

4c)对平滑区域的带通方向子带系数，按照加权平均融合策略进行组合，得到平滑区域内融合后视频的带通方向子带系数；

(5)获得融合后视频的低通子带系数：

对于每一个视频的低通子带系数，按照加权平均的融合策略进行组合，得到融合后视频的低通子带系数；

(6)获得融合后的视频：

将融合后视频的带通方向子带系数和低通子带系数，进行三维均匀离散曲波3D-UDCT逆变换，得到融合视频。

本发明与现有的技术相比具有以下优点：

第一，本发明利用3D-UDCT对输入视频进行多尺度、多方向分解，并针对每一个方向和尺度下分解得到的带通方向子带，利用三维时空结构张量对其进行时空显著性检测，将每个带通子带区域分成三个不同区域：运动目标区域，空间几何特征区域和平滑区域，然后对于包含不同特征的区域内的子带系数，利用了不同的融合准则，克服了现有技术中受限于空间信息提取和时空一致性的缺陷，使得本发明设计的融合方法与现有技术相比在空间信息提取和时空一致性方面有明显的提高。

第二，本发明中采用的三维时空结构张量矩阵以及对平滑区域进行“加权平均”，克服了现有技术的融合过程中容易受到噪声影响的缺陷，使得本发明与现有技术相比对噪声具有更高的鲁棒性。

附图说明

图1为本发明的流程图；

图2为对比度较高的红外与可见光视频图像融合的仿真图；

图3为对比度较低的红外与可见光视频图像融合的仿真图。

具体实施方法

下面结合附图对本发明做进一步的描述。

参照附图1，本发明的具体步骤如下：

步骤1，分别输入在空间和时间上已经严格校准的两个视频。

步骤2，获得子带系数：

对两个视频分别进行三维均匀离散曲波3D-UDCT分解，得到各自的带通方向子带系数和低通子带系数。

步骤3，将视频区域划分三种区域：

对每一个视频的带通方向子带系数利用三维时空结构张量，进行时空显著性检测，将视频区域划分为运动目标区域、空间几何特征区域和平滑区域三种区域；实现步骤如下：

在时空点p(x，y，t)处构建结构张量矩阵：

S (p) = [\begin{matrix} Σ_{r &Element; Ω} w (r) C_{x}^{2} (p - r) & Σ_{r &Element; Ω} w (r) C_{x} (p - r) C_{y} p - r) & Σ_{r &Element; Ω} w (r) C_{x} (p - r) C_{i} (p - r) \\ Σ_{r &Element; Ω} w (r) C_{x} (p - r) C_{y} (p - r) & Σ_{r &Element; Ω} w (r) C_{y}^{2} (p - r) & Σ_{r &Element; Ω} w (r) C_{y} (p - r) C_{i} (p - r) \\ Σ_{r &Element; Ω} w (r) C_{x} (p - r) C_{t} (p - r) & Σ_{r &Element; Ω} w (r) C_{y} (p - r) C_{t} (p - r) & Σ_{r &Element; Ω} w (r) C_{t}^{2} (p - r) \end{matrix}]

其中，S(p)表示在时空点p(x，y，t)处的结构张量矩阵，Ω是以点p(x，y，t)为中心，大小为3×3×3的局部区域，r是该局部区域的一个时空点，w(r)是一个具有同样大小3×3×3的高斯模板，C_x(p)，C_y(p)和C_t(p)分别表示输入视频在点p(x，y，t)处沿x，y，t轴的梯度。

划分平滑区域：确定阈值th1，其中，Γ(S)表示结构张量矩阵S(p)的迹，x、y表示时空点p(x，y，t)的空间坐标，当Γ(S)小于th1时，该区域为平滑区域。

划分空间几何区域：确定阈值th2，

其中，ε_t表示结构张量矩阵S(p)的最大特征值所对应特征向量的时间分量，|·|表示绝对值，x、y表示时空点p(x，y，t)的空间坐标，t表示时空点p(x，y，t)的时间坐标，当Γ(S)大于等于th1且|ε_t|小于th2时，该区域为空间几何区域。

划分时间运动区域：当Γ(S)大于等于th1且|ε_t|大于等于th2，该区域为时间运动区域。

步骤4，获得融合后视频的带通方向子带系数：

对运动目标区域的带通方向子带系数，按照基于能量选择的融合策略进行组合，得到运动目标区域内融合后视频的带通方向子带系数，其具体实施步骤如下：

对输入的两个已配准视频，获得两个输入视频的能量：在以当前时空位置(x，y，t)为中心，大小为3×3×3的局部区域内，将第一个输入视频分解得到的每一个带通方向子带系数，计算其在该局部时空区域内绝对值的平方和，得到该局部时空区域内第一个输入视频的能量；将第二个输入视频分解得到的每一个带通方向子带系数，计算其在该局部时空区域内绝对值的平方和，得到该局部时空区域内第二个输入视频的能量。

在该局部时空区域内，比较所获得的两个输入视频能量的大小；当第一个输入视频的能量大于第二个输入视频的能量时，融合后视频的带通方向子带系数为第一个输入视频在该局部时空区域内的带通方向子带系数；当第一个输入视频的能量小于等于第二个输入视频能量时，融合后视频的带通方向子带系数为第二个输入视频在该局部时空区域内的带通方向子带系数。

对空间几何特征区域的带通方向子带系数，按照基于相似度选择和加权平均相结合的融合策略进行组合，得到空间几何特征区域内的融合后视频的带通方向子带系数，其具体实施步骤如下：

对输入的在空间和时间上已经严格校准的两个视频，获得两个输入视频的能量：在以当前时空位置(x，y，t)为中心，大小为3×3×3的局部区域内，将第一个输入视频分解得到的每一个带通方向子带系数，计算其在该局部时空区域内绝对值的平方和，得到该局部时空区域内第一个输入视频的能量；将第二个输入视频分解得到的每一个带通方向子带系数，计算其在该局部时空区域内绝对值的平方和，得到该局部时空区域内第二个输入视频的能量。

在每一个尺度和方向上的带通方向子带中，按照下式计算该局部时空区域内两个视频能量的匹配程度：

γ_{s, k} (x, y, t) = \frac{2 Σ_{m = - 1}^{1} Σ_{n = - 1}^{1} Σ_{τ = - 1}^{1} | C_{a, s, k} (x + m, y + n, t + τ) C_{b, s, k} (x + m, y + n, t + τ) |}{E_{a, s, k} (x, y, t) + E_{b, s, k} (x, y, t)}

其中，γ_s，k(x，y，t)表示在尺度s、方向k上的带通方向子带中，以时空位置(x，y，t)为中心，大小为3×3×3的局部时空区域内两个视频能量的匹配程度，a和b分别表示第一个输入视频和第二个输入视频，C_a，s，k(x，y，t)和C_b，s，k(x，y，t)分别表示第一个输入视频带通方向子带系数和第二个输入视频带通方向子带系数，E_a，s，k(x，y，t)和E_b，s，k(x，y，t)分别表示在尺度s、方向k上的带通方向子带中，以时空位置(x，y，t)为中心，大小为3×3×3的局部时空区域内两个视频的能量。

在每一个尺度和方向上的带通方向子带中，定义自适应阈值如下：

α_{s, k} = 0.5 \times \max_{x, y, t} (γ_{s, k} (x, y, t))

其中，α_s，k表示在尺度s、方向k上的自适应阈值，γ_s，k(x，y，t)表示在尺度s、方向k上的带通方向子带中，以时空位置(x，y，t)为中心，大小为3×3×3的局部时空区域内两个视频能量的匹配程度。

获得输入视频的显著因子：在以当前时空位置(x，y，t)为中心，大小为3×3×3的局部区域内，第一个输入视频的显著性因子为对应局部时空区域内结构张量矩阵S(p)的最大特征值与对应局部时空区域内第一个输入视频的能量的积；第二个输入视频的显著性因子为对应局部时空区域内结构张量矩阵S(p)的最大特征值与对应局部时空区域内第二个输入视频的能量的积。

在每一个尺度和方向上的带通方向子带中，比较局部时空区域内的能量匹配程度和自适应阈值的大小；当局部时空区域内的能量匹配程度小于等于自适应阈值的大小时，则采用选择性融合准则：当第一个输入视频的显著性因子大于第二个输入视频的显著性因子时，融合后视频的带通方向子带系数为第一个输入视频在该局部时空区域内的带通方向子带系数；当第一个输入视频的显著性因子小于等于第二个输入视频的显著性因子时，融合后视频的带通方向子带系数为第二个输入视频在该局部时空区域内的带通方向子带系数。

按照下式计算输入视频的权值：

ω_{a, s, k} (x, y, t) = \frac{δ_{a, s, k} (x, y, t)}{δ_{a, s, k} (x, y, t) + δ_{b, s, k} (x, y, t)}

ω_{b, s, k} (x, y, t) = \frac{δ_{b, s, k} (x, y, t)}{δ_{a, s, k} (x, y, t) + δ_{b, s, k} (x, y, t)}

其中，ω_a，s，k(x，y，t)和ω_b，s，k(x，y，t)分别表示以时空位置(x，y，t)为中心，大小为3×3×3的局部时空区域内的第一个输入视频的权值和第二个输入视频的权值，a和b分别表示第一个输入视频和第二个输入视频，s表示尺度，k表示方向，δ_a，s，k(x，y，t)和δ_b，s，k(x，y，t)分别表示对应局部时空区域内第一个输入视频的显著性因子和第二个输入视频的显著性因子。

当局部时空区域内的能量匹配程度大于自适应阈值的大小时，则采用加权平均融合准则：按照下式计算该局部时空区域内融合后视频的带通方向子带系数：

C_f，s，k(x，y，t)＝ω_a，s，k(x，y，t)×C_a，s，k(x，y，t)+ω_b，s，k(x，y，t)×C_b，s，k(x，y，t)

其中，C_f，s，k(x，y，t)表示该局部时空区域内融合后视频的带通方向子带系数，f表示融合后视频，s表示尺度，k表示方向，a和b分别表示第一个输入视频和第二个输入视频，ω_a，s，k(x，y，t)和ω_b，s，k(x，y，t)分别表示该局部时空区域内第一个输入视频的权值和第二个输入视频的权值，C_a，s，k(x，y，t)和C_b，s，k(x，y，t)分别表示该局部时空区域内第一个输入视频的带通方向子带系数和第二个输入视频的带通方向子带系数。

对平滑区域的带通方向子带系数，按照加权平均融合策略进行组合，得到平滑区域内的融合后视频的带通方向子带系数，其具体实施步骤如下：

按照下式计算局部时空区域内输入视频的权值：

κ_{a, s, k} (x, y, t) = \frac{E_{a, s, k} (x, y, t)}{E_{a, s, k} (x, y, t) + E_{b, s, k} (x, y, t)}

κ_{b, s, k} (x, y, t) = \frac{E_{b, s, k} (x, y, t)}{E_{a, s, k} (x, y, t) + E_{b, s, k} (x, y, t)}

其中，κ_a，s，k(x，y，t)和κ_b，s，k(x，y，t)分别表示以时空位置(x，y，t)为中心，大小为3×3×3的局部时空区域内的第一个输入视频的权值和第二个输入视频的权值，a和b分别表示第一个输入视频和第二个输入视频，s表示尺度，k表示方向，E_a，s，k(x，y，t)和E_b，s，k(x，y，t)分别表示在该尺度和方向上的带通方向子带中，以时空位置(x，y，t)为中心，大小为3×3×3的局部时空区域内两个视频的能量。

按照下式计算对应局部时空区域内融合后视频的带通方向子带系数：

C_f，s，k(x，y，t)＝κ_a，s，k(x，y，t)×C_a，s，k(x，y，t)+κ_b，s，k(x，y，t)×C_b，s，k(x，y，t)

其中，C_f，s，k(x，y，t)表示对应局部时空区域内融合后视频的带通方向子带系数，f表示融合后视频，a和b分别表示第一个输入视频和第二个输入视频，s表示尺度，k表示方向，κ_a，s，k(x，y，t)和κ_b，s，k(x，y，t)分别表示对应局部时空区域内第一个输入视频的权值和第二个输入视频的权值，C_a，s，k(x，y，t)和C_b，s，k(x，y，t)分别表示对应局部时空区域内第一个输入视频的带通方向子带系数和第二个输入视频的带通方向子带系数。

步骤5，获得融合后视频的低通子带系数：

对于每一个视频的低通子带系数，按照加权平均的融合策略进行组合，得到融合后视频的低通子带系数，其具体实施步骤如下：

按照下式计算局部时空区域内输入视频的权值：

η_{a, S} (x, y, t) = \frac{E_{a, S} (x, y, t)}{E_{a, S} (x, y, t) + E_{b, S} (x, y, t)}

η_{b, S} (x, y, t) = \frac{E_{b, S} (x, y, t)}{E_{a, S} (x, y, t) + E_{b, S} (x, y, t)}

其中，η_a，S(x，y，t)和η_b，S(x，y，t)分别表示以时空位置(x，y，t)为中心，大小为3×3×3的局部时空区域内的第一个输入视频的权值和第二个输入视频的权值，S表示总尺度数目，(x，y，t)表示时空位置，a和b分别表示第一个输入视频和第二个输入视频，E_a，S(x，y，t)和E_b，S(x，y，t)分别表示在该局部时空区域内低通子带中两个视频的能量。

按照下式计算对应局部时空区域内融合后视频的低通子带系数：

C_f，S(x，y，t)＝η_a，S(x，y，t)×C_a，S(x，y，t)+η_b，S(x，y，t)×C_b，S(x，y，t)

其中，C_f，S(x，y，t)表示对应局部时空区域内融合后视频的低通子带系数，f表示融合后视频，S表示总尺度数目，(x，y，t)表示时空位置，a和b分别表示第一个输入视频和第二个输入视频，η_a，S(x，y，t)和η_b，S(x，y，t)分别表示对应局部时空区域内第一个输入视频的权值和第二个输入视频的权值，C_a，S(x，y，t)和C_b，S(x，y，t)分别表示对应局部时空区域内第一个输入视频的低通子带系数和第二个输入视频的低通子带系数。

步骤6，获得融合后的视频：

下面结合图2和图3仿真图对本发明的效果做进一步的描述。

为验证本发明的有效性和正确性，采用了两组红外与可见光视频图像进行融合仿真实验。所有仿真实验均在Windows XP操作系统下采用Matlab2009软件实现的。

仿真1

仿真1为一组具有对比度较高的红外与可见光视频图像融合实验，所采用的视频图像大小为224×224×224。本仿真采用了基于三维能量融合方法(3D-EN方法)和基于运动检测的融合方法(MT方法)与本发明方法进行了比较。同时，还采用信息熵I(Vf)、平均梯度AG(Vf)、帧差图像的互信息熵MI_IFD(Va，Vb，Vf)、相位一致性度量指标Q_PC(Va，Vb，Vf)以及基于结构相似度的动态图像融合性能评价指标Q_ST(Va，Vb，Vf)5种评价指标对上述不同融合方法进行客观评价。

图2给出了一组具有对比度较高的红外与可见光输入视频以及采用上述三种融合方法得到的融合视频中某一帧图像，其中，图2(a)为红外输入视频中单帧图像，图2(b)为可见光输入视频中对应帧图像，图2(c)为采用3D-EN融合方法得到的融合视频中对应帧图像，图2(d)为采用MT融合方法得到的融合视频中对应帧图像，图2(e)为采用本发明提出的融合方法得到的融合视频中对应帧图像。

从图2可以看出，采用MT融合方法得到的融合图像图2(d)看上去比较平滑，这是由于背景图像在融合之前进行了平均处理，使得一些空间特征信息在融合过程中丢失了。采用3D-EN融合方法得到的融合图像图2(c)和本发明提出的融合方法得到的融合图像图2(e)均具有较好的视觉效果，尤其是图2(e)具有更好的视觉效果。从而说明本发明提出的融合方法可以从输入视频中提取出更多的空间几何特征信息。此外，在图2(d)和图2(e)中用椭圆区域标注的运动目标比图2(c)中对应的运动目标区域更加明亮，这说明了MT融合方法和本发明提出的融合方法能够更好地从输入视频中提取出时间运动信息。

下表给出了分别采用3D-EN方法、MT方法、本发明三种不同融合方法的客观性能评价结果。

由上表可见，I(Vf)和AG(Vf)指标表明采用本发明得到的融合视频包含了更多的信息和具有更好的空间质量；MI_IFD(Va，Vb，Vf)和Q_PC(Va，Vb，Vf)指标分别表明本发明所提出的视频融合方法具有更好的时间一致性和空间一致性；Q_ST(Va，Vb，Vf)指标表明本发明提出的融合方法在时空信息提取和一致性方面均具有更好的融合性能，其评价结果与对图2进行主观评价分析所得出的评价结果一致。

仿真2

仿真2为一组具有较低对比度的红外与可见光视频图像融合实验。所采用的视频图像大小为192×240×224。图3给出了输入视频中单帧图像以及采用不同方法得到的融合视频对应的单帧图像，其中，图3(a)为红外输入视频中单帧图像，图3(b)为可见光输入视频中对应帧图像，图3(c)为采用3D-EN融合方法得到的融合视频中对应帧图像，图3(d)为采用MT融合方法得到的融合视频中对应帧图像，图3(e)为采用本发明提出的融合方法得到的融合视频中对应帧图像。

从图3和上表可以得出与仿真1相似的结论，即本发明所提出的融合方法在时空信息提取及一致性方面具有更高的融合性能。从而表明本发明提出的融合方法对噪声具有更好的鲁棒性。

Claims

1.一种基于时空显著性检测的多传感器视频融合方法，包括如下步骤：

(1)分别输入两个已配准的视频；

(2)获得子带系数：

(3)将视频区域划分三种区域：

(4)获得融合后视频的带通方向子带系数：

(5)获得融合后视频的低通子带系数：

(6)获得融合后的视频：

2.根据权利要求1所述的基于时空显著性检测的多传感器视频融合方法，其特征在于：步骤(3)中所述的视频区域划分步骤如下：

第一步，构建结构张量矩阵：在时空点p(x，y，t)处，将视频沿x、y和t方向求导，构建一个3×3的结构张量矩阵S(p)，其中x、y表示时空点的空间坐标，t表示时空点的时间坐标；

第二步，划分平滑区域：确定阈值th1，其中，Γ(S)表示结构张量矩阵S(p)的迹，x、y表示时空点p(x，y，t)的空间坐标，当Γ(S)小于th1时，该区域为平滑区域；

第三步，划分空间几何区域：确定阈值th2，

其中，ε_t表示结构张量矩阵S(p)的最大特征值所对应特征向量的时间分量，|·|表示绝对值，x、y表示时空点p(x，y，t)的空间坐标，t表示时空点p(x，y，t)的时间坐标，当Γ(S)大于等于th1且|ε_t|小于th2时，该区域为空间几何区域；

第四步，划分时间运动区域：当Γ(S)大于等于th1且|ε_t|大于等于th2时，该区域为时间运动区域。

3.根据权利要求1所述的基于时空显著性检测的多传感器视频融合方法，其特征在于：步骤4a)中所述能量选择的融合策略按照以下步骤实现：

第一步，对输入的两个已配准视频，获得两个输入视频的能量：在以当前时空位置(x，y，t)为中心，大小为3×3×3的局部区域内，将第一个输入视频分解得到的每一个带通方向子带系数，计算其在该局部时空区域内绝对值的平方和，得到该局部时空区域内第一个输入视频的能量；将第二个输入视频分解得到的每一个带通方向子带系数，计算其在该局部时空区域内绝对值的平方和，得到该局部时空区域内第二个输入视频的能量；

第二步，在该局部时空区域内，比较所获得的两个输入视频能量的大小；

第三步，当第一个输入视频的能量大于第二个输入视频的能量时，融合后视频的带通方向子带系数为第一个输入视频在该局部时空区域内的带通方向子带系数；当第一个输入视频的能量小于等于第二个输入视频的能量时，融合后视频的带通方向子带系数为第二个输入视频在该局部时空区域内的带通方向子带系数。

4.根据权利要求1所述的基于时空显著性检测的多传感器视频融合方法，其特征在于：步骤4b)中所述相似度选择和加权平均相结合的融合策略按照以下步骤实现：

第一步，对输入的两个已配准视频，获得两个输入视频的能量：在以当前时空位置(x，y，t)为中心，大小为3×3×3的局部区域内，将第一个输入视频分解得到的每一个带通方向子带系数，计算其在该局部时空区域内绝对值的平方和，得到该局部时空区域内第一个输入视频的能量；将第二个输入视频分解得到的每一个带通方向子带系

数，计算其在该局部时空区域内绝对值的平方和，得到该局部时空区域内第二个输入视频的能量；

第二步，在每一个尺度和方向上的带通方向子带中，按照下式计算该局部时空区域内两个视频能量的匹配程度：

γ_{s, k} (x, y, t) = \frac{2 Σ_{m = - 1}^{1} Σ_{n = - 1}^{1} Σ_{τ = - 1}^{1} | C_{a, s, k} (x + m, y + n, t + τ) C_{b, s, k} (x + m, y + n, t + τ) |}{E_{a, s, k} (x, y, t) + E_{b, s, k} (x, y, t)}

其中，γ_s，k(x，y，t)表示在尺度s、方向k上的带通方向子带中，以时空位置(x，y，t)为中心，大小为3×3×3的局部时空区域内两个视频能量的匹配程度，a和b分别表示第一个输入视频和第二个输入视频，C_a，s，k(x，y，t)和C_b，s，k(x，y，t)分别表示第一个输入视频带通方向子带系数和第二个输入视频带通方向子带系数，E_a，s，k(x，y，t)和E_b，s，k(x，y，t)分别表示在尺度s、方向k上的带通方向子带中，以时空位置(x，y，t)为中心，大小为3×3×3的局部时空区域内两个视频的能量；

第三步，在每一个尺度和方向上的带通方向子带中，定义自适应阈值如下：

α_{s, k} = 0.5 \times \max_{x, y, t} (γ_{s, k} (x, y, t))

其中，α_s，k表示在尺度s、方向k上的自适应阈值，γ_s，k(x，y，t)表示在尺度s、方向k上的带通方向子带中，以时空位置(x，y，t)为中心，大小为3×3×3的局部时空区域内两个视频能量的匹配程度；

第四步，获得输入视频的显著性因子：在以当前时空位置(x，y，t)为中心，大小为3×3×3的局部区域内，第一个输入视频的显著性因子为对应局部时空区域内结构张量矩阵S(p)的最大特征值与对应局部时空区域内第一个输入视频的能量的积；第二个输入视频的显著性因子为对应局部时空区域内结构张量矩阵S(p)的最大特征值与对应局部时空区域内第二个输入视频的能量的积；

第五步，在每一个尺度和方向上的带通方向子带中，比较局部时空区域内的能量匹配程度和自适应阈值的大小；

第六步，当局部时空区域内的能量匹配程度小于等于自适应阈值的大小时，则采用选择性融合准则：当第一个输入视频的显著性因子大于第二个输入视频的显著性因子时，融合后视频的带通方向子带系数为第一个输入视频在该局部时空区域内的带通方向子带系数；当第一个输入视频的显著性因子小于等于第二个输入视频的显著性因子时，融合后视频的带通方向子带系数为第二个输入视频在该局部时空区域内的带通方向子带系数；

第七步，按照下式计算输入视频的权值：

ω_{a, s, k} (x, y, t) = \frac{δ_{a, s, k} (x, y, t)}{δ_{a, s, k} (x, y, t) + δ_{b, s, k} (x, y, t)}

ω_{b, s, k} (x, y, t) = \frac{δ_{b, s, k} (x, y, t)}{δ_{a, s, k} (x, y, t) + δ_{b, s, k} (x, y, t)}

其中，ω_a，s，k(x，y，t)和ω_b，s，k(x，y，t)分别表示以时空位置(x，y，t)为中心，大小为3×3×3的局部时空区域内的第一个输入视频的权值和第二个输入视频的权值，a和b分别表示第一个输入视频和第二个输入视频，s表示尺度，k表示方向，δ_a，s，k(x，y，t)和δ_b，s，k(x，y，t)分别表示对应局部时空区域内第一个输入视频的显著性因子和第二个输入视频的显著性因子；

第八步，当局部时空区域内的能量匹配程度大于自适应阈值的大小时，则采用加权平均融合准则：按照下式计算该局部时空区域内融合后视频的带通方向子带系数：

5.根据权利要求1所述的基于时空显著性检测的多传感器视频融合方法，其特征在于：步骤4c)中所述的加权平均融合策略按照以下步骤实现：

第一步，按照下式计算局部时空区域内输入视频的权值：

κ_{a, s, k} (x, y, t) = \frac{E_{a, s, k} (x, y, t)}{E_{a, s, k} (x, y, t) + E_{b, s, k} (x, y, t)}

κ_{b, s, k} (x, y, t) = \frac{E_{b, s, k} (x, y, t)}{E_{a, s, k} (x, y, t) + E_{b, s, k} (x, y, t)}

其中，κ_a，s，k(x，y，t)和κ_b，s，k(x，y，t)分别表示以时空位置(x，y，t)为中心，大小为3×3×3的局部时空区域内的第一个输入视频的权值和第二个输入视频的权值，a和b分别表示第一个输入视频和第二个输入视频，s表示尺度，k表示方向，E_a，s，k(x，y，t)和E_b，s，k(x，y，t)分别表示在尺度s、方向k上的带通方向子带中，以时空位置(x，y，t)为中心，大小为3×3×3的局部时空区域内两个视频的能量；

第二步，按照下式计算对应局部时空区域内融合后视频的带通方向子带系数：

6.根据权利要求1所述的基于时空显著性检测的多传感器视频融合方法，其特征在于：步骤(5)中所述的加权平均融合策略按照以下步骤实现：

第一步，按照下式计算局部时空区域内输入视频的权值：

η_{a, S} (x, y, t) = \frac{E_{a, S} (x, y, t)}{E_{a, S} (x, y, t) + E_{b, S} (x, y, t)}

η_{b, S} (x, y, t) = \frac{E_{b, S} (x, y, t)}{E_{a, S} (x, y, t) + E_{b, S} (x, y, t)}

其中，η_a，S(x，y，t)和η_b，S(x，y，t)分别表示以时空位置(x，y，t)为中心，大小为3×3×3的局部时空区域内的第一个输入视频的权值和第二个输入视频的权值，S表示总尺度数目，(x，y，t)表示时空位置，a和b分别表示第一个输入视频和第二个输入视频，E_a，S(x，y，t)和E_b，S(x，y，t)分别表示在该局部时空区域内低通子带中两个视频的能量；

第二步，按照下式计算对应局部时空区域内融合后视频的低通子带系数：