CN103761738A

CN103761738A - 一种三维立体重建中提取视频序列关键帧的方法

Info

Publication number: CN103761738A
Application number: CN201410030056.1A
Authority: CN
Inventors: 杭灵纲; 刘清林; 汪晓妍; 刘干; 张文超; 王鑫
Original assignee: HANGZHOU KUANGLUN TECHNOLOGY Co Ltd
Current assignee: HANGZHOU KUANGLUN TECHNOLOGY Co Ltd
Priority date: 2014-01-22
Filing date: 2014-01-22
Publication date: 2014-04-30
Anticipated expiration: 2034-01-22

Abstract

本发明公开了一种三维立体重建中提取视频序列关键帧的方法，用于从用来进行三维立体重建的视频序列中提取关键帧，该方法从视频序列的第一帧开始，选取一帧图像清晰、包含用来三维重建内容的视频图像作为首个关键帧，并以此关键帧作为标准帧，通过逐个比较标准帧与当前帧视频图像的综合特征相似度，根据比较结果提取冗余信息小的视频图像作为关键帧，并以新提取的关键帧作为标准帧继续进行比较，直到视频序列的最后一帧。本发明有效提取关键帧，排除掉大量的冗余信息，提高三维立体重建的运行时间和精度。

Description

一种三维立体重建中提取视频序列关键帧的方法

技术领域

本发明属于三维立体重建技术领域，尤其涉及三维立体重建中提取视频序列关键帧的方法。

背景技术

随着计算机视觉技术在各个领域的实际应用，基于三维立体的各种信息越来越引起人们的关注，例如数字模拟化的城市、利用数字信息进行医学治疗、计算机虚拟动画即虚拟现实、高精尖科学方面的研究、高雅艺术领域的创作等。从单视角观看到多视角交互浏览，高逼真的三维立体视觉享受己渐成人们生活的日常需求，人们对信息的感知方式也发生了翻天覆地的变化。

通过计算机视觉的方法将图像和视频信息源组织起来，转化为三维立体场景的模型，是充分利用已有信息实现人们需求的重要任务。基于计算机视觉的三维立体场景建模研究中，直接面向图像信息进行三维立体信息提取和建模的方法是常用的三维建模方法。直接面向图像信息的三维立体信息提取和建模的方法依据研究对象的不同被划分为二视图、无序图像集合，有序图像序列等多种情况，就目前来看，基于有序图像序列或视频的三维立体场景建模已经被应用于人脸三维立体建模、人体姿态重建等方面的研究，城市建筑的重建作为一种典型的有序图像序列三维立体场景建模任务，得到了许多研究者的关注和研究。

但是由于现实生活中的图像和视频拍摄质量参差不齐，其中一些低质量的图像或视频会增加三维重建过程中的误差；另一方面，拍摄角度非常接近的图像或连续视频帧中又存在冗余数据，由于他们之间的基线短，对重建的贡献微乎其微，甚至会增加重建的错误率。可见在基于有序图像序列或视频的三维立体重建过程中，如果直接输入图像序列或者视频，将消耗大量的计算时间，并且精度较低，因此首先需要从有序图像序列或视频中选取关键帧来进行三维立体重建。目前关键帧的提取方法已经有很多研究，例如基于关键帧采样的提取算法，该算法每隔一段时间就从视频中提取一帧作为关键帧，时间比较固定，帧数比较适中，并且算法实现相对也比较简单，但是关键帧抽取时间很难和视频的重要内容分布保持同步；基于分类的典型关键帧提取算法，该算法第一会对镜头中的所有信息帧进行分类，如果类的数量能够达到足够大，则会将其作为关键帧类，并且会选择距离该类中心最近的那一帧作为最终抽取的关键帧，这类算法的最大欠缺就是计算量特别大。

发明内容

本发明的目的就是解决现有三维立体重建过程中由于视频序列拥有大量的冗余信息，有很多信息是无用的甚至会起到模糊匹配精度的结果，而提出一种三维立体重建中提取视频序列关键帧的方法，来立足删掉大量的冗余信息，提高三维立体重建的运行时间和精度。

为了实现上述发明目的，本发明技术方案如下：

一种三维立体重建中提取视频序列关键帧的方法，用于从用来进行三维立体重建的视频序列中提取关键帧，该方法包括步骤：

步骤1、从所述视频序列的第一帧开始，选取一帧图像清晰、包含用来三维重建内容的视频图像作为首个关键帧，并以此关键帧作为标准帧，以该首个关键帧的下一帧作为当前帧；

步骤2、计算所述标准帧与当前帧视频图像的综合特征相似度K；

步骤3、计算‖K-α‖，若‖K-α‖≤β，则进入步骤4，否则进入步骤5；

步骤4、将当前帧作为关键帧输出，若当前帧不是视频序列的最后一帧，则以该关键帧为标准帧，以该关键帧的下一帧为当前帧，返回步骤2进行下一次迭代，否则结束；

步骤5、若当前帧不是视频序列的最后一帧，则以当前帧的下一帧作为当前帧，返回步骤2进行下一次迭代，否则结束；

其中α和β为给定的参数，该参数即可手动设置或者自动提取，用来控制关键帧的数目。

本发明综合特征相似度K为基于所述标准帧f_B和当前帧f_i颜色相似度、形状特征和特征点对的矢量，表达式为：

K=compare(f_B,f_i)=(S,M,N)，

其中f_B为标准帧，f_i为当前帧，S为f_B与f_i的颜色相似度，M为f_B与f_i形状特征的差，N为f_B与f_i的特征点对。

其中，所述颜色相似度S计算公式如下：

S = \exp [\frac{{(C_{B 1} - C_{i 1})}^{2} + {(C_{B 2} - C_{i 2})}^{2} + {(C_{B 3} - C_{i 3})}^{2}}{3 σ^{2}}],

其中σ是一个常量，（C_B1、C_B2、C_B3）为标准帧视频图像颜色特征的欧式空间归一化值，（C_i1、C_i2、C_i3）为当前帧视频图像颜色特征的欧式空间归一化值。

对于任一帧视频图像，其颜色特征的欧式空间归一化值表示为，将该视频图像分为D个区域，每一个区域的颜色特征的欧式空间归一化值为（C_1d、C_2d、C_3d），该视频图像颜色特征的欧式归一化值（C₁、C₂、C₃）为所有区域的欧式归一化值（C_1d、C_2d、C_3d）的和，表示为：

C_{1} = Σ_{d = 1}^{D} C_{1 d}, C_{2} = Σ_{d = 1}^{D} C_{2 d}, C_{3} = Σ_{d = 1}^{D} C_{3} .

所述区域的颜色特征的欧式空间归一化值为（C_1d、C_2d、C_3d）为该区域所有像素颜色特征的欧式归一化值的均值，对于每一个像素，其欧式空间归一化值（c₁、c₂、c₃）为：

c₁=s*cos(h)、c₂=s*sin(h)、c₃=v。

其中，h,s,v分别为视频图像HSV颜色空间像素的色度h、饱和度s、亮度v。

本发明所述形状特征为边缘特征，采用Canny边缘检测算法计算得到标准帧f_B的形状特征M_B和当前帧f_i的形状特征M_i，所述f_B与f_i形状特征的差M=M_B-M_i。

本发明所述特征点对N通过SIFT特征提取算法得到，记为：

N=SIFT(f_B,f_i)。

本发明提出了一种三维立体重建中提取视频序列关键帧的方法，通过选取一个关键帧作为标准帧，然后基于综合特征相似度来逐帧比较，选取冗余信息比较小的视频图像作为关键帧输出。本发明的方法，能够有效提取关键帧，排除掉大量的冗余信息，提高三维立体重建的运行时间和精度。同时可以通过调整α和β参数，来控制关键帧的数目，以达到即能完美进行三维立体重建，又能减少运行时间。

附图说明

图1为本发明提取视频序列关键帧的方法流程图。

具体实施方式

下面结合附图和实施例对本发明技术方案做进一步详细说明，以下实施例不构成对本发明的限定。

本实施例从用来进行三维立体重建的视频序列中提取关键帧为例来详细描述本发明三维立体重建中提取视频序列关键帧的方法，如图1所示，包括步骤：

步骤101、从视频序列的第一帧开始，选取一帧图像清晰、包含用来三维重建内容的视频图像作为首个关键帧，并以此关键帧作为标准帧，以该首个关键帧的下一帧作为当前帧；

对于用来进行三维立体重建的视频序列(f₁,f₂,f₃,...,f_n)，首先依次观察视频序列的前几帧视频图像，选取质量好的一帧视频图像作为第一个提取出的关键帧，并以此关键帧为标准帧。这里选择第一个提取的关键帧的标准是图像质量好，即图像清晰、包含用来三维重建的内容。比如说如果第一帧视频图像f₁就满足提取关键帧的标准，那么就提取f₁，如果f₁不满足提取关键帧的标准就直接舍去，再看第二帧f₂是否满足提取关键帧的标准，依次类推，直到选择出第一个提取出的关键帧，并以此关键帧为标准帧。

步骤102、计算标准帧与当前帧视频图像的综合特征相似度K。

标准帧与下一帧视频图像的综合特征相似度记为K：

K=compare(f_B,f_i)=(S,M,N)

具体地，f_B与f_i的颜色相似度S计算公式如下：

S = \exp [\frac{{(C_{B 1} - C_{i 1})}^{2} + {(C_{B 2} - C_{i 2})}^{2} + {(C_{B 3} - C_{i 3})}^{2}}{3 σ^{2}}],

公式中σ是一个常量，（C_B1、C_B2、C_B3）为标准帧视频图像颜色特征的欧式空间归一化值，（C_i1、C_i2、C_i3）为当前帧视频图像颜色特征的欧式空间归一化值。（C₁、C₂、C₃）是视频图像颜色特征的欧式归一化值，视频图像颜色特征的欧式归一化值（C₁、C₂、C₃）的计算方法如下：

将视频图像分为D个区域，计算每一个区域的欧式归一化值（C_1d、C_2d、C_3d），视频图像颜色特征的欧式归一化值为所有区域的欧式归一化值的和。

即：

\begin{matrix} C_{1} = Σ_{d = 1}^{D} C_{1 d} \\ C_{2} = Σ_{d = 1}^{D} C_{2 d} \\ C_{3} = Σ_{d = 1}^{D} C_{3 d} \end{matrix}

其中，每一区域的（C_1d、C_2d、C_3d）为该区域所有像素颜色特征的欧式归一化值的均值。对于每一个像素，其欧式空间归一化值（c₁、c₂、c₃）为：

c₁=s*cos(h)、c₂=s*sin(h)、c₃=v。

其中，h,s,v分别为视频图像HSV颜色空间像素的色度h（Hue）、饱和度s（Saturation）、亮度v（Value）。

具体地，f_B与f_i形状特征的差M=M_B-M_i，形状特征是视频图像核心特征之一，也是人类视觉系统中用于物体识别的关键信息之一。视频图像的形状特征具有稳定性，利用形状特征进行提取关键帧能够提高精度和效率。本实施例形状特征采用边缘特征来表示，通过边缘提取，计算八个边缘梯度方向和数据，然后提取八个边缘方向的数据统计概率，归一化返回图像边缘八个方向的向量。本实施例边缘特征提取采用Canny边缘检测算法，Canny边缘检测算法，是很成熟的检测算法，这里不再赘述。

对于标准帧f_B的形状特征表示如下：

M_B=(n_B1,n_B2,n_B3,n_B4,n_B5,n_B6,n_B7,n_B8)；

对于当前帧f_i的形状特征表示如下：

M_i=(n_i1,n_i2,n_i3,n_i4,n_i5,n_i6,n_i7,n_i8)

在向量M_B、M_i中，n₁,n₂,…,n₈分别代表八个方向的数据统计概率。

具体地，对于视频图像序列中的每一帧，其特征点在不断的发生变化，可以根据特征点匹配的对数来进一步限制含有冗余信息的视频图像。利用SIFT（Scale-invariant feature transform）特征提取算法提取标准帧与当前帧的特征点进行匹配计算，获得匹配成功点的对数，以对数作为参数来控制关键帧的数量。SIFT特征提取算法是一种成熟的检测局部特征的算法，这里不再赘述。标准帧f_B与当前帧f_i的特征点对N表示为：

N=SIFT(f_B,f_i)

N=SIFT(f_B,f_i)表示匹配成功点的对数。根据视频图像序列中的每两帧都能够计算出N，然后根据不同的N值来选取关键帧。

步骤103、计算‖K-α‖，若‖K-α‖≤β，则进入步骤104，否则进入步骤105。

步骤104、将当前帧作为关键帧输出，若当前帧不是视频序列的最后一帧，则以该关键帧为标准帧，以该关键帧的下一帧为当前帧，返回步骤102进行下一次迭代，否则结束。

‖K-α‖值越小说明该视频图像冗余信息越少，若小于等于设定的阈值β，则选取当前帧作为关键帧输出。

步骤105、若当前帧不是视频序列的最后一帧，则以当前帧的下一帧作为当前帧，返回步骤102进行下一次迭代，否则结束。

本实施例基于视频图像综合特征相似度变化随时间自适应的选取关键帧，由该方法选取的关键帧，其数目不受最大定值的限制，做到了镜头内容差别变化大时多选取，变化小时少选取，并能充分反映视频的内容，

以上实施例仅用以说明本发明的技术方案而非对其进行限制，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种三维立体重建中提取视频序列关键帧的方法，用于从用来进行三维立体重建的视频序列中提取关键帧，其特征在于，该方法包括步骤：

其中α和β为给定的参数。

2.根据权利要求1所述的提取视频序列关键帧的方法，其特征在于，所述综合特征相似度K为基于所述标准帧f_B和当前帧f_i颜色相似度、形状特征和特征点对的矢量，表达式为：

K=compare(f_B,f_i)=(S,M,N)，

3.根据权利要求2所述的提取视频序列关键帧的方法，其特征在于，所述颜色相似度S计算公式如下：

S = \exp [\frac{{(C_{B 1} - C_{i 1})}^{2} + {(C_{B 2} - C_{i 2})}^{2} + {(C_{B 3} - C_{i 3})}^{2}}{3 σ^{2}}],

4.根据权利要求3所述的提取视频序列关键帧的方法，其特征在于，对于任一帧视频图像，其颜色特征的欧式空间归一化值表示为，将该视频图像分为D个区域，每一个区域的颜色特征的欧式空间归一化值为（C_1d、C_2d、C_3d），该视频图像颜色特征的欧式归一化值（C₁、C₂、C₃）为所有区域的欧式归一化值（C_1d、C_2d、C_3d）的和，表示为：

C_{1} = Σ_{d = 1}^{D} C_{1 d}, C_{2} = Σ_{d = 1}^{D} C_{2 d}, C_{3} = Σ_{d = 1}^{D} C_{3} .

5.根据权利要求4所述的提取视频序列关键帧的方法，其特征在于，所述区域的颜色特征的欧式空间归一化值为（C_1d、C_2d、C_3d）为该区域所有像素颜色特征的欧式归一化值的均值，对于每一个像素，其欧式空间归一化值（c₁、c₂、c₃）为：

c₁=s*cos(h)、c₂=s*sin(h)、c₃=v。

6.根据权利要求2所述的提取视频序列关键帧的方法，其特征在于，所述形状特征为边缘特征，采用Canny边缘检测算法计算得到标准帧f_B的形状特征M_B和当前帧f_i的形状特征M_i，所述f_B与f_i形状特征的差M=M_B-M_i。

7.根据权利要求2所述的提取视频序列关键帧的方法，其特征在于，所述特征点对N通过SIFT特征提取算法得到，记为：

N=SIFT(f_B,f_i)。