CN103442161B

CN103442161B - 基于3d空时图像估计技术的视频稳像方法

Info

Publication number: CN103442161B
Application number: CN201310364748.5A
Authority: CN
Inventors: 郎文辉; 夏洋; 杨学志; 罗晶
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2013-08-20
Filing date: 2013-08-20
Publication date: 2016-03-02
Anticipated expiration: 2033-08-20
Also published as: CN103442161A

Abstract

本发明公开了一种基于3D空时图像估计技术的视频稳像方法，通过摄像机采集原始数据，将采集到的原始数据预处理成连续的帧序列，利用当前帧与参考帧的空间相似性来估计帧间运动情况，利用最小距离准则得到每一帧的抖动量，经过多帧处理可以得到一个抖动矢量的集合，得到的抖动矢量的集合用来表示摄像机在时域内的移动情况；根据每帧内所有的抖动估计信息，综合得出当前帧的整体运动情况，由运动估计结果对原场景帧图像进行空间重构，消除抖动量，获得稳定的图像序列。本发明用来消除抖动影响,稳定视频内容，基于3D场景图像估计，能有效解决2D场景稳像中无法处理景深变化的缺陷。

Description

基于3D空时图像估计技术的视频稳像方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于3D空时图像估计技术的视频稳像方法。

背景技术

随着摄录设备的发展与普及，监控系统的覆盖范围也在迅速的扩大，无论是军用还是民用领域都有广泛的应用，搭载的平台（机载、室内监控等）和视频类型（可见光、红外等）都多种多样。无论何种平台和类型的视频数据，内容清晰稳定是获取兴趣信息的必要前提。在实际应用中由于受到内外界环境的各种影响，如空气流动、载体平台运动等等，会使拍摄的视频内容发生观察者所不希望的晃动，造成视觉效果退化，当抖动噪声严重时甚至无法获取任何有用信息。因此，稳像技术对于提高视频内容的辨识度、优化视觉效果至关重要。

当前，在稳像领域大量使用机械和光学手段使摄像视场内容保持稳定，当对成像结果有较高稳定度要求时，高精度机械和光学稳像器的成本十分昂贵。另外，受平台的载重与空间条件的约束，有些情况下机械与光学稳像器的使用受到了限制。电子稳像具有体积小、成本低、精度高等优点，利用电子稳像与传统稳像方法结合甚至完全替代是当前的发展趋势。

视频场景内容多种多样，当存在视差信息时，2D电子稳像系统的结果会出现局部扭曲。

发明内容

本发明目的就是为了弥补已有技术的缺陷，解决视频采集时受系统本身及外界因素影响造成的视频场景抖动问题，提供一种基于3D空时图像估计技术的视频稳像方法，用来消除抖动影响,稳定视频内容。

本发明是通过以下技术方案实现的：

一种基于3D空时图像估计技术的视频稳像方法，其特征在于：包括以下步骤：

（1）视频数据采集与预处理；

通过摄像机采集原始数据，将采集到的原始数据预处理成连续的帧序列，作为待处理视频的连续帧图像，同时为了对场景信号进行估计提供空间描述，对图像进行分解与空间特征拟合得到空间特征函数；

（2）抖动量估计；

根据场景的特性选取某一固定帧或动态的以当前帧的前一帧作为参考帧，利用当前帧与参考帧的空间相似性来估计帧间运动情况，依据最小距离准则得到每一帧的抖动量，经过多帧处理可以得到一个抖动矢量的集合，得到的抖动矢量的集合用来表示摄像机在时域内的移动情况；

（3）去除随机抖动干扰，输出稳定后的图像序列；

根据每帧内所有的抖动估计信息，综合得出当前帧的整体运动情况，由运动估计结果对原场景帧图像进行空间重构，消除抖动量，获得稳定的图像序列。

本发明的优点是：本发明用来消除抖动影响,稳定视频内容，基于3D场景图像估计，能有效解决2D场景稳像中无法处理景深变化的缺陷。

附图说明

图1为本发明稳像算法流程与功能模块图。

具体实施方式

（1）视频数据采集与预处理；

（2）抖动量估计；

根据场景的特性选取某一固定帧或动态的当前帧的前一帧作为参考帧，利用当前帧与参考帧的空间相似性来估计帧间运动情况，利用最小距离准则得到每一帧的抖动量，经过多帧处理可以得到一个抖动矢量的集合，得到的抖动矢量的集合用来表示摄像机在时域内的移动情况；

（3）去除随机抖动干扰，输出稳定后的图像序列；

下面结合附图和具体模型，进一步说明，此处所描述的实施例仅用于解释本发明，并不用于限定本发明。

由传感器收集光学信息，形成视频数据。本方法的处理过程均针对帧图像，故输入数据为待处理视频的连续帧图像。常见的数据类型包括可见光、红外图像等。

单帧图像可用模型I_k(r_x,y)=S_k(r_x,y)+n_k来表示，这里I_k(r_x,y)为视频帧序列第k帧的全部内容，r_x,y指图像内坐标为(x,y)的点，S_k(r_x,y)表示真实场景信号，n_k为传感器加性噪声。通常噪声n_k在时间空间上无相关性，为了简化模型，认为噪声服从高斯分布，均值为0，方差为信号强度被认为是区分场景信号与噪声信号的一个指标。

鉴于以上模型，稳像工作针对S_k(r_x,y)信号，可建立该信号的空时模型该模型包含了杂波信号的时间与空间特性，其中f_l(k)是与时间特性相关的参数，g_l(r)是用来反应杂波信号空间特征的函数，维数D则根据具体应用所允许的估计误差来决定。关于估计量做准确性要求：这里c是由精度要求决定的一个常数，通常取1。

g_l(r)函数可通过多种方式得出，例如二维傅里叶分解与图像小波分解、多项式或样条曲线估计，可根据场景内容特点进行选择。

反应信号时间特性的参数f_l(k)的估计需要考虑到从当前帧开始向前τ帧的内容，并且认为总能找到这样的τ使得对于所有k和r_x,y均成立。由此，参数估计的滤波窗口时域长度为τ。

我们用δ(r_x,y)来表示帧间抖动量，不同环境下的平台抖动呈现不同的特点，具体包括平移、旋转、尺度以及视差等情况。最简单的情况是δ(r_x,y)的情况与空间分布无关，即δ(r_x,y)=δ，此时仅有平移抖动。复杂的情况下，相邻像素和区域之间的抖动量具有不一致性，即摄像系统出现了旋转、缩放以及视差等情况中的至少一种。无论何种抖动，在某个小区域或像素上其运动情况可用一个具有方向和幅度的矢量表示，并且限定其幅度不会超过某个最大值δ_max。

稳像过程的整体流程如图1所示，具体实现如下：

（1）初始处理

时间参数f_l(k)的估计需要至少τ帧的信息，故在前τ帧，无法用标准步骤的准则估计f_l(k)。前τ帧被称为初始化阶段。具体处理方式如下：

k表示当前帧数，当k=1时，令

当k=2时，

{\hat{δ}}_{2} (r_{x, y}) = \arg \min_{| δ | \leq δ_{\max}} {(S_{2} (r_{x, y}) - S_{1} (r_{x, y} + δ))}^{2},

将τ=2代入

{\hat{f}}_{k} = \arg \min_{f} Σ_{x = 1}^{N_{x}} Σ_{y = 1}^{N_{y}} Σ_{p = k - τ + 1}^{k} {(I_{p} (r_{x, y}) - Σ_{l = 1}^{D} f_{l} (p) g_{l} (r_{x, y}))}^{2}

中得到（该帧图像大小为N_x×N_y像素）；

k=3,...,τ时，抖动量的估计同一般情况，用以下准则进行估计，

{\hat{δ}}_{k} (r_{x, y}) = \arg \min_{| δ | \leq δ_{max}} {(I_{k} (r_{x, y}) - Σ_{l = 1}^{D} {\hat{f}}_{l} (k - 1) g_{l} (r_{x, y} + δ))}^{2} .

并将τ=k代入

{\hat{f}}_{k} = \arg \min_{f} Σ_{x = 1}^{N_{x}} Σ_{y = 1}^{N_{y}} Σ_{p = k - τ + 1}^{k} {(I_{p} (r_{x, y}) - Σ_{l = 1}^{D} f_{l} (p) g_{l} (r_{x, y}))}^{2}

中得到

（2）标准步骤

在初始处理阶段结束后应得到具体每一步可分成三个部分，初始处理部分也与之一一对应：

（a）抖动量估计

抖动估计基于最小化准则，具体表达式为：

{\hat{δ}}_{k} (r_{x, y}) = \arg \min_{| δ | \leq δ_{max}} {(I_{k} (r_{x, y}) - Σ_{l = 1}^{D} {\hat{f}}_{l} (k - 1) g_{l} (r_{x, y} + δ))}^{2},

用以上最小二乘解确定使得当前帧信号与参考帧场景估计信号间的重叠度最高的δ(r_x,y)，作为抖动量的估计值。

（b）时间参数g_l(r_x,y)估计

该参数估计归为是在τ帧窗口内的最小化问题，具体表达式为：

{\hat{f}}_{k} = \arg \min_{f} Σ_{x = 1}^{N_{x}} Σ_{y = 1}^{N_{y}} Σ_{p = k - m + 1}^{k} {(I_{p} (r_{x, y}) - Σ_{l = 1}^{D} f_{l} (p) g_{l} (r_{x, y}))}^{2} .

（c）场景信号估计

场景信号估计表达式为由之前步骤获得时间参数g_l(r_x,y)。

（3）抖动校正

获得各帧抖动估计信息后，根据模型I'_k(r_x,y)=I_k(r_x,y-δ_k(r_x,y))对原帧图像重新插值，消除抖动位移输出稳像结果。如图1为本发明稳像算法流程与功能模块图。

Claims

1.一种基于3D空时图像估计技术的视频稳像方法，其特征在于：包括以下步骤：

(1)视频数据采集与预处理；

(2)抖动量估计；

(3)去除随机抖动干扰，输出稳定后的图像序列；

根据每帧内所有的抖动估计信息，综合得出当前帧的整体运动情况，由运动估计结果对原场景帧图像进行空间重构，消除抖动量，获得稳定的图像序列；

稳像过程的整体流程，具体实现如下：

1)初始处理

时间参数f_l(k)的估计需要至少τ帧的信息，故在前τ帧，无法用标准步骤的准则估计f_l(k)，前τ帧被称为初始化阶段，具体处理方式如下：

k表示当前帧数，当k＝1时，令

当k＝2时，

{\hat{δ}}_{2} (r_{x, y}) = \arg \underset{| δ | \leq δ_{m a x}}{m i n} {(S_{2} (r_{x, y}) - S_{1} (r_{x, y} + δ))}^{2},

将τ＝2代入

{\hat{f}}_{k} = \arg \underset{f}{m i n} Σ_{x = 1}^{N_{x}} Σ_{y = 1}^{N_{y}} Σ_{p = k - τ + 1}^{k} {(I_{p} (r_{x, y}) - Σ_{l = 1}^{D} f_{l} (p) g_{l} (r_{x, y}))}^{2}

中得到该帧图像大小为N_x×N_y像素；

k＝3,…,τ时，抖动量的估计用以下准则进行估计，

{\hat{δ}}_{k} (r_{x, y}) = \arg \underset{| δ | \leq δ_{m a x}}{m i n} {(I_{k} (r_{x, y}) - Σ_{l = 1}^{D} {\hat{f}}_{l} (k - 1) g_{l} (r_{x, y} + δ))}^{2},

并将τ＝k代入

{\hat{f}}_{k} = \arg \underset{f}{m i n} Σ_{x = 1}^{N_{x}} Σ_{y = 1}^{N_{y}} Σ_{p = k - τ + 1}^{k} {(I_{p} (r_{x, y}) - Σ_{l = 1}^{D} f_{l} (p) g_{l} (r_{x, y}))}^{2}

中得到

2)标准步骤

在初始处理阶段结束后应得到具体每一步分成三个部分，初始处理部分也与之一一对应：

(a)抖动量估计

抖动估计基于最小化准则，具体表达式为：

{\hat{δ}}_{k} (r_{x, y}) = \arg \underset{| δ | \leq δ_{m a x}}{m i n} {(I_{k} (r_{x, y}) - Σ_{l = 1}^{D} {\hat{f}}_{l} (k - 1) g_{l} (r_{x, y} + δ))}^{2},

用以上最小二乘解确定使得当前帧信号与参考帧场景估计信号间的重叠度最高的δ(r_x,y)，作为抖动量的估计值，

(b)时间参数g_l(r_x,y)估计

{\hat{f}}_{k} = \arg \underset{f}{m i n} Σ_{x = 1}^{N_{x}} Σ_{y = 1}^{N_{y}} Σ_{p = k - m + 1}^{k} {(I_{p} (r_{x, y}) - Σ_{l = 1}^{D} f_{l} (p) g_{l} (r_{x, y}))}^{2};

(c)场景信号估计

场景信号估计表达式为由之前步骤获得时间参数g_l(r_x,y)；

3)抖动校正

获得各帧抖动估计信息后，根据模型I'_k(r_x,y)＝I_k(r_x,y-δ_k(r_x,y))对原帧图像重新插值，消除抖动位移输出稳像结果。