CN105894485A

CN105894485A - 一种基于信号相关性的自适应视频重建方法

Info

Publication number: CN105894485A
Application number: CN201610248728.5A
Authority: CN
Inventors: 陈跃庭; 唐超影; 徐之海; 李奇; 冯华君
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2016-04-20
Filing date: 2016-04-20
Publication date: 2016-08-24
Anticipated expiration: 2036-04-20
Also published as: CN105894485B

Abstract

本发明公开了一种基于信号相关性的自适应视频重建方法。在基于压缩感知的高时间分辨率视频重建过程中，考虑到视频图像中各运动物体运动速度不一致的情况，针对匹配追踪等基于字典(稀疏域)的重建方法，首先在构建字典时将训练样本根据运动量的不同分为多个样本集并分别进行训练，从而得到对应不同运动量的字典；在视频重建阶段，先将需要重建的观测图像进行不叠加的分块重建，然后计算各帧图像块之间的相关系数，通过相关系数大小确定局部图像运动量，最后根据运动量的大小有针对地选择字典并重建图像。本发明方法能在重建视频信号的同时区分视频中各物体的运动量，并根据运动信息针对性地重建图像，在提高重建视频效果的同时降低了重建时间。

Description

一种基于信号相关性的自适应视频重建方法

技术领域

本发明属于图像处理领域，尤其涉及一种基于信号相关性的自适应高时间分辨率视频重建方法。

背景技术

基于压缩感知的高时间分辨率视频重建技术，是通过对像素进行单像素曝光编码得到经过编码的观测图像，再利用重建算法对观测图像重建获得一系列视频序列图像，即由二维图像获取三维视频的时间分辨率拓展技术。由于压缩感知是对低于奈奎斯特采样率的采样信号进行恢复重建，因此重建信号的精确程度以及重建速度是人们关注的重点。重建算法一般可分为基于l₁范数最小化法、迭代阈值法、匹配追踪法、凸规化法、基于贝叶斯理论的重建方法等，其中匹配追踪法以及部分迭代阈值法认为待恢复的信号在某字典或稀疏域下的表示系数是稀疏的，从而通过估计稀疏系数来重建信号，字典通常使用DCT基、小波基等，为了得到更好的重建效果，也可利用已知的视频信号对字典进行训练。

实际的视频中往往有多个不同运动速度的物体，同一区域不同帧间的图像信号间有着相似性，如果该区域无运动，那么各帧信号相关性等于1，即完全相同，如果运动越大，信号相关稀疏就越小。在一些特定的编码方式下(如各像素曝光时间相同)，观测图像中静止背景部分是清晰的，不需要重建或不需要使用训练的字典。与此同时，大多数情况人们更关心的是视频中的运动区域，因此如果对图像全部区域按照相同方式进行重建，不仅浪费时间，而且无法获得物体的运动信息。传统的自适应重建方法一般是针对基于贝叶斯理论的重建方法或是对特定编码的观测图像进行区域搜索。

发明内容

本发明的目的是在基于压缩感知的高时间分辨率视频重建过程中，自适应地估算视频中各物体的运动量大小，并根据运动信息针对性地重建图像，从而在提高重建视频效果的同时降低重建时间。

本发明的目的是通过以下技术方案来实现的：一种基于信号相关性的自适应视频重建方法，该方法包括以下步骤：

(1)样本分类，具体是：

(1.1)利用光流法计算样本视频中相邻帧图像的运动矢量图；

(1.2)对样本视频进行随机采样，样本块大小为8×8×T，T为视频帧数；

(1.3)根据(1.1)中的运动矢量图计算各个样本块的平均运动量，并依据运动量将样本块分类，得到不同运动量的样本集，其中l为样本集个数，N为样本个数。

(2)字典训练，具体是：

(2.1)利用K-SVD算法对不同运动量的样本集分别进行训练，得到对应于不同运动量的完备字典Ψ^l；

(2.2)将(2.1)中训练的字典合并为一个字典Ψ，Ψ＝[Ψ¹,Ψ²,…]。

(3)初步分块重建，具体是；

(3.1)将观测图像分为不叠加的图像块，图像块大小为8×8；

(3.2)构建三维完备字典Ψ₀，其中空间维为64×64的二维余弦基，时间维为T×T的一维小波基；

(3.3)利用OMP算法以及字典Ψ₀对各图像块重建，得到重建视频块。

(4)运动区域分类，具体是：

(4.1)计算初步重建的视频块中各帧图像块间的相关系数；

(4.2)将相关系数取均值后作为对应图像块区域的相关系数，从而得到整幅图像的相关系数图；

(4.3)按照阈值分割相关系数图，得到运动分布图。

(5)视频信号重建，具体是：

(5.1)计算重建时图像块在(4.3)所得运动分布图中对应区域内各元素的个数，并分别乘上权重系数，根据个数值选择训练字典Ψ的不同区域用于重建；

(5.2)利用OMP算法以及(5.1)中选择的字典区域对信号块进行有叠加的块重建，每次移动1个像素。

进一步地，步骤1.3中，所述样本个数N＝40000。

进一步地，步骤1.3中，所述不同运动量为[0,0.1]，[0.1,1.5]，[1.5,3]三个区域。

进一步地，步骤4.3中，所述经验阈值为0.85和0.95，并根据阈值将图像像素值分割为0、0.5和1。

进一步地，步骤5.1中，所述权重系数分别为2、2、1。

进一步地，步骤5.1中，所述选择规则为，区域内元素1个数最多则选择Ψ¹，元素0.5个数最多则选择Ψ²，元素0个数最多则选择Ψ³。

本发明的有益效果：在基于压缩感知的高时间分辨率视频重建过程中，考虑到视频图像中各运动物体运动速度不一致的情况，首先通过样本分类训练的方式，得到对应不同运动速度的字典，使字典更具针对性；其次，在视频信号重建时，利用初步重建视频信号的相关性判断所重建区域的运动量，进而获得运动分布图，由于初步重建为非叠加的块重建，并且使用的是简单的完备字典，因此初步重建时间仅为使用过完备字典完整重建时的百分之一；根据判断结果选择字典区域更有针对性地重建视频，能在提高重建质量的同时降低重建时间。

附图说明

图1为本发明方法示意图。

图2(a)为示例样本视频。

图2(b)为示例样本视频由光流法计算得到的帧间运动矢量图。

图3为初步分块重建示意图。

图4为高时间分辨率视频重建过程示意图。

图5为相关系数图。

图6运动分布图。

图7为根据运动分布图自适应选择字典示意图。

图8(a)为等长曝光模式时的观测图像。

图8(b)为图8(a)所示观测图像由OMP算法、使用普通完备字典重建视频(8帧)中的第5帧。

图8(c)为图8(a)所示观测图像由本发明方法重建视频(8帧)中的第5帧。

具体实施方式

以下结合附图对本发明作进一步说明。

本发明提供的一种基于信号相关性的自适应重建方法，主要包括样本分类、字典训练、初步分块重建、运动量估计和视频重建等几个步骤，如图1所示。

步骤1.样本分类

1-1利用光流法计算样本视频中相邻帧图像的运动矢量图，如附图2所示，对于T帧的视频，则有T-1张矢量图，运动矢量图中各点的运动量大小为该点矢量的模，这里取T＝8；

1-2对样本视频进行随机采样，样本块大小为8×8×T；

1-3根据1-1中的运动矢量图计算各个样本块的平均运动量：

d = {Σ_{i = 1}^{7} Σ_{j = 1}^{32} B_{i j}} / [32 \cdot (T - 1)] - - - (1)

其中B_i∈R^1×64为第i张运动矢量图中对应采样区域(8×8)内的运动量值按照递减顺序排列得到的向量，这里取B_i前32项的均值作为采样区域在第i张矢量图上的运动量。依据运动量将样本块分类，得到对应不同运动量的样本集其中l＝1,2,3为样本集个数，N为样本个数。在对大量视频进行分类后发现，绝大多数视频中，运动物体的帧间运动量在3个像素以内，因此这里将运动量分为[0,0.1]，[0.1,1.5]，[1.5,3]三个区域，样本个数为40000。

步骤2.字典训练

2-1利用K-SVD算法对不同运动量的样本集分别进行训练，得到对应于不同运动量的完备字典Ψ^l；

信号稀疏分解理论的数学模型是：给定一个集合Ψ＝{ψ_k,k＝1,2,…,K}，其中Ψ为字典，Ψ中的每一个元素ψ_k称为字典原子。对于任意给定的信号X，可以将其分解为字典下各个原子的线性组合形式：

X = Σ_{k = 1}^{K} α_{k} ψ_{k} - - - (2)

其中α为稀疏表示系数。

字典训练的目的是选择尽可能逼近样本数据的基函数作为字典的原子。KSVD字典学习算法是一种迭代算法，通过简单而有效地逐列更新的方式，实现字典的整体更新。定义码集C＝[c₁,c₂,…,c_K]，当C给定时，样本信号Y＝{y₁,y₂,…,y_N}可用其最近的码字表示，即y_i＝Cα_ij，其中α_ij为一稀疏基中的向量，该向量仅在第j项为1，其余项全为0。j由式(3)得到：

&ForAll; k &NotEqual; j | | y_{i} - {Cα}_{j} | |_{2}^{2} \leq | | y_{i} - {Cα}_{k} | |_{2}^{2} - - - (3)

这可以看作稀疏表示的一种极限情况：稀疏系数仅有一项，且必须为1。整体误差可以表示为：

E r r o r = Σ_{i = 1}^{K} e_{i}^{2} = | | Y - C A | |_{F}^{2} - - - (4)

通过求解式(5)在最近邻域中找到最佳的编码集来表示训练样本：

\underset{C, A}{m i n} {| | Y - C A | |_{F}^{2}} - - - (5)

求解主要包括两个过程，首先利用K-means聚类将训练样本Y以接近的程度为依据，分为K组

R_{k}^{(J - 1)} = {i | &ForAll; l &NotEqual; k, | | y_{i} - c_{k}^{(J - 1)} | |_{2} < | | y_{i} - c_{l}^{(J - 1)} | |_{2}} - - - (6)

然后对C^(J-1)中的每一列按照式(7)更新，并令J＝J+1。重复上述步骤直到收敛。

c_{k}^{(J)} = \frac{1}{| R_{k} |} \underset{i &Element; R_{k}^{(J - 1)}}{Σ} y_{i} - - - (7)

最终得到训练后的字典Ψ＝{ψ_k,k＝1,2,…,K}，

步骤3.初步分块重建

3-1将观测图像分为不叠加的图像块，图像块大小为8×8；

3-2构建三维完备字典Ψ₀∈R^512×512，其中空间维为64×64的二维余弦基，时间维为8×8的一维小波基：

Ψ_{0} = Ψ_{d w t} &CircleTimes; Ψ_{d c t} &CircleTimes; Ψ_{d c t} - - - (8)

其中Ψ_dwt，Ψ_dct分别为一维小波基和一维余弦基，为克罗内克积。由于Ψ₀为完备(非冗余)基，且图像为非叠加重建，因此这一重建过程的时间很短，只有完整重建时间的1/100左右。

3-3利用OMP算法以及字典Ψ₀对各图像块重建，得到重建视频块，如附图3所示。高时间分辨率视频重建过程如附图4所示，设视频信号为三维数据体E(x,y,t)，S(x,y,t)为每个像素在全部曝光时间上的采样函数(S(x,y,t)∈{0,1})，那么获得的观测图像I(x,y)表示为：

I (x, y) = Σ_{t = 1}^{N} S (x, y, t) \cdot E (x, y, t) - - - (9)

其中S(x,y,t)已知。式(12)可写作矩阵形式I＝SE，其中I(观测信号)和E(视频信号)分别为E(x,y,t)和S(x,y,t)的向量形式。由于观测信号要远少于视频信号，因此该方程为一欠定方程。根据压缩感知理论，视频信号的重构问题可表示为：

\hat{E} = \arg \underset{E}{m i n} | | I - S E | |_{2}^{2} - - - (10)

其中E又可以写成某一字典Ψ的稀疏表示，即E＝Ψθ，其中θ为稀疏系数，可由重建算法求解。

步骤4.运动区域分类，具体是：

4-1计算初步重建的视频块中各帧图像块间的相关系数：

\begin{matrix} r = \frac{C o v (X_{n}, X_{n + 1})}{D (X_{n}) D (X_{n + 1})} \\ = \frac{Σ_{i = 1}^{64} (x_{n i} - {\overset{&OverBar;}{x}}_{n}) (x_{(n + 1) i} - {\overset{&OverBar;}{x}}_{n + 1})}{\sqrt{Σ_{i = 1}^{64} {(x_{n i} - {\overset{&OverBar;}{x}}_{n})}^{2} \cdot Σ_{i = 1}^{64} {(x_{(n + 1) i} - {\overset{&OverBar;}{x}}_{n + 1})}^{2}}} \end{matrix} - - - (11)

其中X_n＝[x_n1,…,x_n64]^T为第n帧重建图像块信号，相关系数绝对值越接近1越相关，越接近0则不相关。

4-2将视频块各帧间相关系数的绝对值取均值后作为对应区域的相关系数，从而得到整幅图像的相关系数图，如附图5所示；

4-3按照经验阈值分割相关系数图，得到运动分布图，如附图6所示，这里对应步骤1-3中分类区间的经验阈值为0.85和0.95，令小于0.85的元素为0，[0.85,0.95]间的元素为0.5，大于0.95的元素为1。

步骤5.视频信号重建：

5-1根据图像块在步骤4-3所得运动区域分布图，选择训练字典Ψ的不同区域用于重建：计算重建图像块在4-3所得运动区域分布图中对应区域内的0、0.5和1的个数，并分别乘上权重系数，区域内元素1个数最多则选择Ψ¹，元素0.5个数最多则选择Ψ²，元素0个数最多则选择Ψ³。如附图7所示，重建块在运动分布图上覆盖区域内0、0.5、1的个数分别为20、12、32，由于更关心运动区域(即0、1对应区域)，可以给0和1的个数更大权重，这里使用权重为2，因此最终个数分别为40、24和32，该图像块重建时选择字典Ψ³。

5-2利用OMP算法以及训练字典Ψ对信号块进行有叠加的块重建，每次移动1个像素。

本发明方法能使重建时间降低一半以上，同时提高重建图像质量，如附图8所示，从图中可以看出，本发明方法能更好地重建出运动区域。

Claims

1.一种基于信号相关性的自适应视频重建方法，其特征在于，该方法包括以下步骤：

(1)样本分类，具体是：

(1.1)利用光流法计算样本视频中相邻帧图像的运动矢量图；

(1.3)根据(1.1)中的运动矢量图计算各个样本块的平均运动量，并依据运动量将样本块分类，得到不同运动量的样本集其中l为样本集个数，N为样本个数。

(2)字典训练，具体是：

(3)初步分块重建，具体是；

(3.1)将观测图像分为不叠加的图像块，图像块大小为8×8；

(4)运动区域分类，具体是：

(4.1)计算初步重建的视频块中各帧图像块间的相关系数；

(4.3)按照阈值分割相关系数图，得到运动分布图。

(5)视频信号重建，具体是：

2.根据权利要求1所述一种自适应视频重建方法，其特征在于，步骤1.3中，所述样本个数N＝40000。

3.根据权利要求1所述一种自适应视频重建方法，其特征在于，步骤1.3中，所述不同运动量为[0,0.1]，[0.1,1.5]，[1.5,3]三个区域。

4.根据权利要求3所述一种自适应视频重建方法，其特征在于，步骤4.3中，所述阈值为0.85和0.95，通过阈值将像素值分割为0、0.5和1。

5.根据权利要求4所述一种自适应视频重建方法，其特征在于，步骤5.1中，所述权重分别为2、2、1。

6.根据权利要求4所述一种自适应视频重建方法，其特征在于，步骤5.1中，所述选择规则为，区域内元素1个数最多则选择Ψ¹，元素0.5个数最多则选择Ψ²，元素0个数最多则选择Ψ³。