CN101964911B

CN101964911B - 一种基于gpu的视频分层方法

Info

Publication number: CN101964911B
Application number: CN 201010501833
Authority: CN
Inventors: 童若锋; 唐敏; 张桂超
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2010-10-09
Filing date: 2010-10-09
Publication date: 2012-10-17
Anticipated expiration: 2030-10-09
Also published as: CN101964911A

Abstract

本发明提供了一种基于GPU的视频分层方法。对于输入的视频，首先选择关键帧，用mean-shift图像分割方法对图像进行图像过分割处理，得到一系列区域块，然后通过统计各个区域块中运动信息匮乏的像素所占比例，标注出纹理信息匮乏的区域块，接着对未标注的区域块计算仿射运动参数，对面积达到阈值的区域块进行聚类处理，得到初始层，最后结合运动信息和颜色信息对未指派的像素区域进行计算处理，将其指定到所述初始的层次中的相应层中，完成关键帧的分层处理操作。对于视频中其它帧，主要结合先前帧的分层结果以及当前帧的信息，利用最大后验概率模型对其进行分层处理，并且使用GPU对其进行加速，使得视频每帧的处理效率得到很大提升。

Description

一种基于GPU的视频分层方法

技术领域：

本发明涉及一种基于GPU的视频分层方法。

背景技术：

视频分层技术在对象识别，视频压缩以及多目标跟踪等方面有着广泛的应用。考虑到视频本身数据的复杂性，以及现有技术的不成熟，视频分层不能对所有的视频得到十分理想的效果，很多方法针对特定类别的视频才有比较好的结果。目前国内外对于视频分层的研究主要是基于运动信息，然后融合颜色，空间以及形状等信息进行计算处理。

基于运动信息的视频分层主要包括两方面的内容：(1)视频各层次的描述，即相应运动模型参数表述；(2)视频中每帧的像素归属于相应层的操作。对于各层次的运动描述，一般使用光流算法以及假设相应的运动模型进行计算；对视频中每帧的像素计算相应的层次标号，一般采用概率模型方法，在已知初始层的情况下，计算像素属于各个层次的概率值，从而决定其属于哪一层次，或者采用全局优化的方法。目前国内外对于视频分层的研究，采用比较多的算法框架主要有概率模型算法以及图分割算法等。由于光流法对于纹理信息匮乏的区域，会产生较大的计算偏差，所以使用光流法计算相应的运动模型有一定的局限性，而且基于像素的概率模型算法以及图分割算法计算量较大，处理视频比较耗时。

发明内容：

本发明要解决的技术问题是提供一种结合颜色，运动和空间信息的基于GPU的视频分层方法，能够提高分层精度、减少计算量。为此，本发明采用以下技术方案：它包括以下步骤：

1)、对于输入的视频，选择其中的一帧作为关键帧，对关键帧进行图像分割操作，得到一系列区域块；采用光流法计算关键帧中各像素的光流信息；

2)、统计各个区域块中运动信息匮乏的像素所占的比例，标注出纹理信息匮乏的区域块；

3)、对于未标注为纹理信息匮乏的区域块，根据区域块中像素的光流信息，计算区域块对应的仿射运动参数；

4)、根据区域块对应的仿射运动参数，对面积达到阈值的区域块进行聚类处理，将得到的聚类簇作为初始的层次；

对初始的层次中的各层重新计算仿射运动参数；

5)、结合运动信息和颜色信息对未指派的像素区域进行计算处理，将其指定到所述初始的层次中的相应层中；未指派的像素区域包含两部分：其一，步骤4中因为面积未达到所述阈值，而没有参与聚类处理的区域块；其二，步骤4中参与聚类处理，但没有被所述初始的层次涵盖的区域块；

6)、对视频中的其它帧采用最大后验概率模型进行分层处理；

7)、采用基于GPU的算法提高步骤6)的计算处理速度。

在采用上述技术方案的基础上，本发明还可采用或组合采用以下进一步的技术方案：

在步骤1)中，采用mean-shift算法进行图像分割，在图像分割操作过程中，调整mean-shift算法中窗口大小参数，从而得到图像过分割对应的区域块。

在步骤1)中，对输入的视频选择与关键帧相邻或者间隔几帧的一帧图像作为辅助帧，针对关键帧和辅助帧，使用Lucas & Kanade算法，计算关键帧中像素对应的光流信息。

所述步骤2)中以光流信息x方向与y方向都为零的像素点为运动信息匮乏的像素，其数目占该区域块中像素点的比例达到阈值时，则将该区域块标定为纹理信息匮乏的区域块。

步骤3)包含以下分步骤：

3-1、找出权利要求3中所述的关键帧和辅助帧的匹配点对；

3-2、根据匹配点对计算仿射运动参数。

在分步骤3-1中，使用Lucas-Kanade算法计算出关键帧中各区域块内像素坐标在辅助帧中对应的像素坐标，将在关键帧和辅助帧中对应的两个像素点定为所述匹配点对，并对其中的孤立点，噪声点使用k邻近算法剔除。

在分步骤3-2中，通过区域块内的多对匹配点使用最小二乘法得到相应区域块的仿射运动参数。

在步骤4)中，先使用SVD方法对仿射运动参数值进行降维处理，对于得到的降维数据，采用K-means方法对数据再进行聚类处理，形成初始的层次，然后将各初始层视为一个整体，根据前述的方法，计算各初始层对应的仿射运动参数。

在步骤5)中，对于面积小于所述阈值，而没有参与聚类处理的区域块，计算其与初始的层次中的各层之间的质心距离，将其指派到离其最近的所述层中；

对于面积大于所述阈值，参与聚类处理，但初始层次没有涵盖的区域块，计算参与聚类处理但初始层次没有涵盖的区域块相对初始的层次中的各层的仿射运动残差值，如果最小的仿射运动残差值小于等于仿射运动残差值阈值，将其指派到使其运动残差值最小的所述层中；否则，计算各初始层对应区域块的颜色直方图，并对其进行归一化处理，根据像素颜色信息，计算待考虑区域块中各像素属于所述初始的层次中的各层的概率值，将各像素标注为使其取得最大概率值的层次号，然后统计待考虑区域块对应的像素的标注情况，将该区域块指派给标注次数最多的所述层中；

在步骤6)中，包括以下分步骤：

6-1、根据关键帧的分层结果，对每层在颜色、运动和空间数据上分别进行概率建模，其中，对于颜色和运动数据根据高斯分布进行建模，对空间数据根据图像中像素的实际空间数据进行建模；

6-2、将关键帧作为参考帧，将关键帧相邻的帧作为当前帧；

6-3、采用启发式算法计算颜色、运动以及空间各项数据对应的权重，计算当前帧的各像素属于所述初始的层次中的各层的概率值，计算得到的最大概率值对应的层次即为该像素在所述初始的层次中的层次；

6-4、得到当前帧的分层结果后，将当前帧视为参考帧，根据参考帧的分层结果，按照分步骤6-1的方法对每层在颜色、运动和空间数据上分别进行概率建模，将与参考帧相邻的帧作为当前帧，按照分步骤6-3对当前帧剂进行分层；

6-5、循环进行分步骤6-3和6-4，直至对所有需要分层的帧分层完毕。

本发明为一种结合颜色，运动和空间信息，基于GPU的快速视频分层方法。对于视频场景的分层表达，完全的场景三维重建显然是最理想的手段，考虑到目前三维重建的精度和庞大的计算量，本发明主要在二维上进行处理。对于输入的视频，首先选择其中的一帧作为关键帧，利用mean-shift图像分割方法对图像进行图像过分割处理，得到一系列的区域块，然后通过统计各个区域块中运动信息匮乏的像素所占的比例，从而标注出纹理信息匮乏的区域块，接着对未标注的区域块计算仿射运动参数，对面积达到阈值的区域块进行聚类处理，得到初始层，最后结合运动信息和颜色信息对未指派的像素区域进行计算处理，将其指定到所述初始的层次中的相应层中，完成关键帧的分层处理操作。对于视频中其它帧的处理，考虑到帧间连续性的约束，本方明主要结合先前帧的分层结果以及当前帧的信息，利用最大后验概率模型对其进行分层处理，并且使用GPU对其进行加速，使得视频每帧的处理效率得到很大的提升。

本发明得到的视频分层结果能够比较好的保持对象的边界信息，对于难以处理的纹理信息匮乏的区域，这种方法也能得到比较好的结果。考虑到视频分层计算量很大，处理耗时的问题，本发明实现了基于GPU的视频分层方法，使得计算时间大大缩减，能够较快的得到视频分层的处理结果。

附图说明：

图1是本发明的流程图。

具体实施方式：

参照附图，本发明涉及一种基于GPU的视频分层方法，按以下步骤进行：

步骤1、对于输入的视频，选择其中的一帧作为关键帧，对关键帧进行图像分割操作，得到一系列区域块；采用光流法计算关键帧中各像素的光流信息；

对于输入的视频，选择图像中包含的物体对象没有遮挡或者遮挡较少的图像作为关键帧。针对不同大小的图像，通过调整mean-shift算法中窗口参数的大小，选择合适的参数，达到对关键帧进行图像过分割，形成众多的保持了物体对象边界区域块的目的。经过图像分割得到的一系列区域块将作为后续计算处理的基本单元；选择与关键帧相邻或者间隔几帧的一幅图像作为辅助帧。对这输入的两帧，使用Lucas & Kanade算法，计算出关键帧中每一个像素对应的光流信息。

步骤2、统计各个区域块中运动信息匮乏的像素所占的比例，标注出纹理信息匮乏的区域块；

对于纹理信息匮乏的区域块，例如天空等，该区域块对应的运动信息相对缺乏。根据步骤1得到的区域分块以及关键帧中各个像素对应的光流信息，对于每个区域分块，以光流信息x方向与y方向都为零的像素点为运动信息匮乏的像素，统计该像素数目，定阈值为80％，当该数目占该区域块中像素点的比例达到80％时，则将该区域块标定为纹理信息匮乏的区域块。

步骤3、根据区域块中像素的光流信息，计算区域块对应的仿射运动参数

本步骤主要包括如下两个分步骤：3-1：找出关键帧和辅助帧的匹配点对；3-2：根据匹配点对计算仿射运动参数。

在3-1中，对于未标注为纹理信息匮乏的区域块，使用Lucas-Kanade算法计算出关键帧中各区域块内像素坐标在辅助帧中对应的像素坐标，将在关键帧和辅助帧中对应的两个像素点定为所述匹配点对，并对其中的孤立点，噪声点使用k邻近算法剔除；在本发明中，运动模型假设为比较常用的仿射运动模型，在3-2中，对于未标注为纹理信息匮乏的各个区域块，根据3-1中得到的匹配点对，利用最小二乘法求解区域块对应的仿射运动参数。

步骤4、根据区域块对应的仿射运动参数，对面积达到阈值的区域块进行聚类处理，将得到的聚类簇作为初始的层次；对初始的层次中的各层重新计算仿射运动参数；

本实施例中该阈值定位1/60，对于面积达到图像大小1/60的区域块，使用SVD方法对这些区域块对应的仿射运动参数值进行降维处理，对于得到的降维数据，采用K-means方法对数据进行聚类处理，将得到的聚类簇作为初始的层次，然后将各初始层视为一个整体，根据步骤3中所述的方法，对初始的层次中的各层重新计算仿射运动参数。

步骤5、结合运动信息和颜色信息对未指派的像素区域进行计算处理，将其指定到所述初始的层次中的相应层中；未指派的像素区域包含两部分：其一，步骤4中因为面积未达到所述阈值，而没有参与聚类处理的区域块；其二，步骤4中参与聚类处理，但没有被所述初始的层次涵盖的区域块

对于因为面积没有达到图像大小的1/60，而没有参与聚类处理的区域块：计算其与初始的层次中的各层之间的质心距离，将其指派到离其最近的所述层中；

对于面积达到图像大小的1/60，参与聚类处理，但初始层次没有涵盖的区域块：计算待考虑区域块相对初始的层次中的各层的仿射运动残差值，如果最小的仿射运动残差值小于等于仿射运动残差值阈值，将其指派到使其运动残差值最小的所述层中；否则，计算各初始层对应区域块的颜色直方图，并对其进行归一化处理，根据像素颜色信息，计算待考虑区域块中各像素属于所述初始的层次中的各层的概率值，将各像素标注为使其取得最大概率值的层次号，然后统计待考虑区域块对应的像素的标注情况，将该区域块指派给标注次数最多的所述层中。

步骤6、对视频中的其它帧采用最大后验概率模型进行分层处理；

根据关键帧的分层结果，对每层在颜色，运动和空间数据上分别进行概率建模，其中，对于颜色和运动数据根据高斯分布进行建模，对空间数据根据图像中像素的实际空间数据进行建模；

将关键帧作为参考帧，对关键帧相邻的帧，采用启发式算法计算颜色，运动以及空间各项数据对应的权重，计算关键帧相邻帧的各像素属于所述初始的层次中的各层的概率值，计算得到的最大概率值对应的层次即为该像素在所述初始的层次中的层次。得到当前帧的分层结果后，将当前帧视为参考帧，如上述针对参考帧以及参考帧相邻帧的处理一样，计算当前帧的相邻帧的分层结果，如此循环，直至处理完所有的视频帧。

考虑到视频中相邻帧间的连续性，对于后续帧的处理，本方明使用贝叶斯模型最大后验概率框架进行计算处理。通过关键帧分层得到的结果，分别对各层次在颜色，运动和空间数据上进行概率建模，其中，对于颜色和运动数据根据高斯分布进行建模，对空间数据根据图像中像素的实际空间数据进行建模；将关键帧作为参考帧，对于待考虑的当前帧(参考帧的相邻帧)的像素，采用启发式算法计算颜色，运动以及空间各项数据对应的权重，计算其属于所述初始的层次中的各层的概率值，计算得到的最大概率值对应的层次即为该像素在所述初始的层次中的层次；将当前帧视为参考帧，如上述针对参考帧以及参考帧相邻帧的处理一样，计算当前帧的相邻帧的分层结果，如此循环，直至处理完所有的视频帧。

根据参考帧的分层结果，计算其相邻帧的分层结果，主要包含以下几个分步骤：

a).对参考帧进行处理后，根据得到的分层结果，对每层在颜色，运动和空间数据上分别进行概率建模，对于颜色和运动数据(像素的光流信息)，一般假设符合高斯分布，因而采用高斯分布进行建模；考虑到空间数据的任意性，对空间数据根据图像中像素的实际空间数据进行建模。

b).对于待计算的参考帧的相邻帧，考虑到像素对颜色，运动以及空间数据的权重差异，采用启发式算法计算颜色，运动以及空间数据各项对应的权重。

c).像素Xt(x，y)属于层次Ci(1≤i≤n)的概率记为P(Ci|Xt(x，y))，记像素Xt(x，y)的层次标注为Lt(x，y)，则Lt(x，y)满足1≤Lt(x，y)≤n。根据贝叶斯公式推导得：

L_{t} (x, y) = \arg \max_{i} {\ln P (X_{t} (x, y) | C_{i})}

因而，对当前待计算的参考帧中的像素计算属于各层的概率值，计算得到的最大概率值对应层次即为该像素在所述初始的层次中的层次。

步骤7.使用GPU进行加速处理

考虑到步骤6中，使用最大后验概率模型进行计算时，待处理图像中的各个像素之间的计算是独立的，对于这些像素的计算处理，利用GPU进行并行加速处理，会使计算性能得到很大提升。对于当前需要处理的视频帧，其依赖的数据信息，主要来源于先前帧的分层结果，根据先前帧的分层结果，计算颜色，光流信息，以及空间信息的相关数据，例如：颜色和光流信息的均值矩阵以及协方差矩阵等，这些数据在CPU上计算完成后，被复制到GPU上，作为当前帧各像素计算的共享数据，当前帧中各像素的计算是相互独立的，从而使用GPU能够有效地进行加速处理。

Claims

1.一种基于GPU的视频分层方法，其特征在于它包括以下步骤：

1）、对于输入的视频，选择其中的一帧作为关键帧，对关键帧进行图像分割操作，得到一系列区域块；采用光流法计算关键帧中各像素的光流信息；

2）、统计各个区域块中运动信息匮乏的像素所占的比例，标注出纹理信息匮乏的区域块；

其中，以光流信息x方向与y方向都为零的像素点为运动信息匮乏的像素，其数目占该区域块中像素点的比例达到阈值时，则将该区域块标定为纹理信息匮乏的区域块；

3）、对于未标注为纹理信息匮乏的区域块，根据区域块中像素的光流信息，计算区域块对应的仿射运动参数；

4）、根据区域块对应的仿射运动参数，对面积达到阈值的区域块进行聚类处理，将得到的聚类簇作为初始的层次；

对初始的层次中的各层重新计算仿射运动参数；

5）、结合运动信息和颜色信息对未指派的像素区域进行计算处理，将其指定到所述初始的层次中的相应层中；未指派的像素区域包含两部分：其一，步骤4）中因为面积未达到所述阈值，而没有参与聚类处理的区域块；其二，步骤4）中参与聚类处理，但没有被所述初始的层次涵盖的区域块；

对于面积小于所述阈值，而没有参与聚类处理的区域块，计算其与初始的层次中的各层之间的质心距离，将其指派到离其最近的所述相应层中；

对于面积大于所述阈值，参与聚类处理，但初始层次没有涵盖的区域块，计算参与聚类处理但初始层次没有涵盖的区域块相对初始的层次中的各层的仿射运动残差值，如果最小的仿射运动残差值小于等于仿射运动残差值阈值，将其指派到使其运动残差值最小的所述相应层中；否则，计算各初始层对应区域块的颜色直方图，并对其进行归一化处理，根据像素颜色信息，计算待考虑区域块中各像素属于所述初始的层次中的各层的概率值，将各像素标注为使其取得最大概率值的层次号，然后统计待考虑区域块对应的像素的标注情况，将该区域块指派给标注次数最多的所述相应层中；

6）、对视频中的其它帧采用最大后验概率模型进行分层处理；

7）、采用基于GPU的算法提高步骤6）的计算处理速度。

2.根据权利要求1所述的一种基于GPU的视频分层方法，其特征在于在步骤1）中，采用mean-shift算法进行图像分割，在图像分割操作过程中，调整mean-shift算法中窗口大小参数，从而得到图像过分割对应的区域块。

3.根据权利要求1或2所述的一种基于GPU的视频分层方法，其特征在于在步骤1）中，对输入的视频选择与关键帧相邻或者间隔几帧的一帧图像作为辅助帧，针对关键帧和辅助帧，使用Lucas & Kanade算法，计算关键帧中像素对应的光流信息。

4.根据权利要求3所述的一种基于GPU的视频分层方法，其特征在于步骤3）包含以下分步骤：

3-1、找出权利要求3中所述的关键帧和辅助帧的匹配点对；

3-2、根据匹配点对计算仿射运动参数。

5.根据权利要求4所述的一种基于GPU的视频分层方法，其特征在于在分步骤3-1中，使用Lucas-Kanade算法计算出关键帧中各区域块内像素坐标在辅助帧中对应的像素坐标，将在关键帧和辅助帧中对应的两个像素点定为所述匹配点对，并对其中的孤立点，噪声点使用k邻近算法剔除；

6.根据权利要求5所述的一种基于GPU的视频分层方法，其特征在于在步骤4）中，先使用SVD方法对仿射运动参数值进行降维处理，对于得到的降维数据，采用K-means方法对数据再进行聚类处理，形成初始的层次，然后将各初始层视为一个整体，根据权利要求5所述的方法，计算各初始层对应的仿射运动参数。

7.根据权利要求1所述的一种基于GPU的视频分层方法，其特征在于在步骤6）中，包括以下分步骤：

6-2、将关键帧作为参考帧，将关键帧相邻的帧作为当前帧；

6-4、得到当前帧的分层结果后，将当前帧视为参考帧，将与参考帧相邻的帧作为当前帧，根据参考帧的分层结果，按照分步骤6-1的方法对每层在颜色、运动和空间数据上分别进行概率建模，接着按照分步骤6-3对当前帧剂进行分层；