CN113012165B

CN113012165B - 一种基于gpu的各向异性视频过分割方法

Info

Publication number: CN113012165B
Application number: CN202110295652.2A
Authority: CN
Inventors: 董潇; 陈中贵; 刘永进; 姚俊峰; 郭小虎
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2021-03-19
Filing date: 2021-03-19
Publication date: 2023-06-23
Anticipated expiration: 2041-03-19
Also published as: CN113012165A

Abstract

一种基于GPU的各向异性视频过分割方法，涉及视频处理技术领域。1)加载视频到显存中，计算视频的光流场；2)给定种子点的初始位置，根据光流场计算种子点的各向异性矩阵，加载信息到显存中；3)根据泛洪并行框架，每个像素都以一系列的步长查询周围的种子点信息，并更新距离自己最近的种子点，所有像素点都记录最近种子点，得到视频分割结果；4)将种子点的位置更新到当前簇的中心，然后重新计算种子点在新位置的各向异性矩阵；5)重复步骤3)和4)，直到分割结果趋于稳定或达到指定的迭代次数。利用视频的运动场更精确持久地捕捉物体的运动，各向异性超体素可以在GPU上并行实现，提高处理效率，视频分割准确率高，处理速度快。

Description

一种基于GPU的各向异性视频过分割方法

技术领域

本发明涉及视频处理技术领域，尤其是涉及在GPU上并行实现基于种子点聚类的一种GPU的各向异性视频过分割方法。

背景技术

泛洪并行(jump flooding)算法是一个近似Voronoi剖分的算法框架([1]GuodongRong and Tiow-Seng Tan.Jump flooding in gpu with applicationsto voronoidiagram and distance transform.In Proceedings of the 2006Symposium onInteractive 3D Graphics and Games,pages 109–116.ACM,2006.)该算法能够在GPU上计算离散的Voronoi图。

泛洪并行算法(JFA)(Jump Flooding Algorithm)包括若干个变种([2]GuodongRong and Tiow-Seng Tan.Variants of jump flooding algorithmfor computingdiscrete voronoi diagrams.In4th International Symposiumon Voronoi Diagrams inScience and Engineering(ISVD 2007),pages176–181.IEEE,2007)，JFA是一种并行实现的Voronoi剖分的拟合，这种剖分的并行实现和在CPU上计算的精确剖分之间的误差很小；1+JFA能够显著改善Voronoi的分割质量。JFA算法最初被用于计算2DVoronoi图，种子点和像素点的距离计算只涉及到空间距离。1+JFA算法进行2DVoronoi图分割效果非常好，与真实的Voronoi图之间的误差可以忽略不计。

基于种子点的聚类算法，最具有代表性的就是SLIC算法，该算法是在像素的位置和颜色构成的高维空间中得到Voronoi剖分。SLIC算法将视频视为包含位置和颜色信息的六维空间，使用欧氏度量来定义种子点和像素点的距离，欧式度量是各向同性的度量，在像素点的每个维度上都使用相同权重的度量。当物体与背景的颜色差距不明显时(比如绿色衣服和绿色草地)，即视频中存在弱边界，SLIC使用的各向同性度量不能够很好地将物体与背景分割开来。近年来基于SLIC算法提出了很多变种来提高分割准确率，但是现有算法存在一个严重的问题，即内存消耗和时间消耗巨大。比如处理一个100帧的481*321分辨率的视频需要消耗几个GB的内存和几分钟的处理时间。这种资源消耗是阻碍视频过分割技术在实时任务中广泛应用的主要原因。

发明内容

本发明的目的在于针对现有技术存在的上述技术问题，提供使用并行技术且能降低处理时间和内存消耗的一种基于GPU的各向异性视频过分割方法。

本发明包括以下步骤：

1)加载视频到显存中，计算视频的光流场；

2)给定种子点的初始位置，根据光流场计算种子点的各向异性矩阵，加载信息到显存中；

3)根据泛洪并行框架，每个像素都以一系列的步长查询周围的种子点信息，并更新距离自己最近的种子点，所有像素点都记录最近种子点，得到视频分割结果；

4)将种子点的位置更新到当前簇的中心，然后重新计算种子点在新位置的各向异性矩阵；

5)重复步骤3)和4)，直到分割结果趋于稳定或达到指定的迭代次数。

在步骤1)中，所述加载视频到显存中，计算视频的光流场的具体方法可为：加载视频到显存中，利用OpenCV库提供的方法，比如GPU FarnebackOpticalFlow routines，来计算视频的光流场，包括前向光流场和后向光流场的信息。

在步骤2)中，所述给定种子点的初始位置，根据光流场计算种子点的各向异性矩阵的具体方法可为：

种子点的各向异性矩阵M_i必须是半正定矩阵，即满足PSD(positive semi-definite)约束；这种约束在优化过程中通常难以满足，但是PSD矩阵一定是对称矩阵，可以首先求得一个对称矩阵

再判断其是否满足PSD约束由于矩阵/>

是对称的，包含6个未知量，将其表达为一个向量：/>

然后构建超定方程来求解这6个未知量：

其中A是18×6的矩阵，b是18维的向量[b₁，b₂，...，b₁₈]；因此可以求解处对称矩阵的未知量；假设一个种子点s_i落在第t帧，那么其在t+1帧中有9个邻居点，在t-1帧中也有9个邻居点；为了构建各向异性的矩阵，可以约束邻居点的运动量为期望值b；针对这18个邻居点的约束，得到上式；通过使用Eigen库来求解超定方程组，能够计算得到对称矩阵

当像素与周围的邻居具有相似的颜色和相似的运动时，光流法无法准确地检测其运动幅度，若种子点落在该像素，其矩阵就有可能不满足PSD约束；对于不满足PSD约束的矩阵，计算一个最接近的PSD矩阵

来进行修正；

对于不满足PSD约束的矩阵，采用以下方法：

①基于局部一致性，可以考虑计算出邻居像素的PSD矩阵，这类邻居最好与该种子点的运动方向一致，然后以均值矩阵作为该种子点矩阵的候选；

②当种子点的邻居也无法帮助解决矩阵的PSD性质时，计算矩阵的最接近PSD矩阵：

首先将对称阵

奇异值分解，将对角矩阵D中的负值替换成0，得到对角矩阵D₊，然后计算得到nearest PSD矩阵作为当前种子点矩阵的替代；

当得到满足PSD约束的所有种子点的矩阵之后，将其参数加载到显存中，以备后续处理使用。

在步骤3)中，所述泛洪并行框架使用OpenGL技术，绘制所有像素点，需要用到GLSL语言来编写shader文件，定义像素点在绘制过程中需要执行的操作；在shader里，查询每个像素p的一定步长l的邻居信息，如果某个邻居保存了种子点s，那么计算p和s的各向异性距离；如果s是目前与p距离最近的种子点，则将s保存在p的信息结构中；上述步骤重复若干次，p可以查询到其周边的所有像素保存的信息，能够找到距离其最近的种子点，就得到了视频的分割结果。

在步骤4)中，所述重新计算种子点在新位置的各向异性矩阵是对步骤3)得到的分割结果进行下一轮的优化；首先要计算当前簇的中心，即位置的平均值，然后将种子点移动到中心位置，根据步骤2)，重新计算种子点在新位置处的各向异性矩阵。

在步骤5)中，所述重复步骤3)和4)为了得到新一轮的视频分割，这个迭代过程是用来优化目标函数，使得视频的分割准确率进一步提高，该迭代次数可以手动指定，也可以当分割结果趋于稳定再停止。

本发明分析了基于种子点聚类的视频分割算法的不足，主要包括：现有算法不能准确将运动物体与背景分割开来；现有算法在弱边界处的分割准确率不高；现有算法在时间和内存的消耗巨大。本发明利用视频的运动信息，设计一种各向异性的距离度量方法，能够很好地捕捉到物体的运动，即使在弱边界处，也能够将运动物体与静止背景分割开来，从而提高视频的分割准确率。并且与现有算法不同，本发明的算法能够使用并行技术在GPU上实现，极大地降低了处理时间和内存消耗。

与现有技术相比，本发明具有以下突出的优点：

1、现有技术中最具有代表性的算法是SLIC算法，它是一种各向同性的超体素分割算法本发明提出的各向异性超体素能够直接利用视频的运动场更精确持久地捕捉物体的运动，因此分割结果更好。

2、针对基于种子点的聚类算法，初始化对结果是至关重要的。本发明提出一个简单有效地种子点调整策略。

3、本发明提出的各向异性超体素可以在GPU上并行实现，与现有的方法相比大大地提高了处理效率，有利于将超体素应用于后续视频处理任务中。

附图说明

图1为基于光流场的各向异性度量的计算图的示意图。

图2为各向异性距离矩阵的示例模型。其中，(a)为视频的3帧以及对应的光流场。(b)为种子点矩阵的等距面。

图3为基于物体信息的种子点初始化方法示意图。其中，(a)为视频的第一帧；(b)为基于SLIC算法中均匀的初始化的超体素结果；(c)为物体信息丰富程度。(d)为基于上述自适应初始化的分割结果。

图4为基于1+JFA框架的图像Voronoi分割过程图。其中，(a)为原图；(b)为种子点初始化位置；(c-i)为步长减半的flooding过程，步长分别为{1，18，9，5，3，2，1}；(j)为超像素及其边界。

图5为基于GPU的各向异性流视频超体素分割示意图。

图6为视频中某一帧的超体素分割结果示意图。其中，括号内是SA3D(3Dsegmentation accuracy)的指标，表示分割准确率。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下实施例将结合附图对本发明作进一步的说明。

本发明中需要计算种子点和像素点的距离，该各向异性距离的定义如下：

公式计算的是种子点s_i和体素v的距离，M_i是半正定的各向异性矩阵。给定种子点的位置，种子点的各向异性矩阵，然后各向异性Voronoi分割的能量由下述公式衡量，

算法的目标就是优化能量函数，通过更新种子点的位置，种子点的各向异性矩阵，以及更新各向异性Voronoi剖分，使得上述公式中的能量得到优化：

s.t.M_i∈PSD.

本发明实施例包括以下步骤：

①各向异性超体素算法

图1给出基于光流场的各向异性度量的计算示意图。v₀是种子点s_i的所在位置，v₁是其右上角的邻居点，n₁是v₁的光流向量，为了求解矩阵，通过限制n₂的长度来构建多项式求解各向异性矩阵。

本发明算法如算法1所示，是一个Lloyd迭代优化的过程。首先将视频、种子点及其各向异性矩阵信息加载到GPU，通过Jump flooding算法计算各向异性分割，然后将种子点移动到每个超体素的中心，重新计算其各向异性矩阵；再进行步骤7-11，进行迭代优化。

以下给出计算种子点的各向异性矩阵的计算方法。如图1所示，根据种子点处的运动场来计算种子点的各向异性矩阵M_i。v₀是种子点s_i的所在位置，v₁是其右上角的邻居点，n₁是v₁的光流向量，有n₂＝n₀+n₁。假设相邻的像素之间的距离是单位距离，且v₁的光流向量在x和y方向上的运动量为(i，j)。通过限制n₂的长度为期望的值来构建一个多项式求解矩阵M_i。

n₂＝n₀+n₁，

如上述公式所示，限制n₂的长度为3，针对M_i构建了一个多项式。像n₂这样的向量，在前帧和后帧上共有18个，因此可以构建18个多项式来求解M_i，如下述公式所示：

其中，n_p是3×1的向量，M_i是3×3的半正定矩阵，b_p是所期望的各向异性长度。

在目标函数中，将矩阵M限制为半正定矩阵(positive semidefinite)。PSD是一个很强的约束，在优化过程中不能保证。在算法中，首先保证矩阵M_i是对称的，记为

对于不满足PSD约束的矩阵，计算一个最接近的PSD矩阵/>

由于矩阵/>

是对称的，包含了6个未知量，将其表达为一个向量：/>

然后将超定方程转化成下述形式来求解这6个未知量：

A是18×6的矩阵，b是18维的向量[b₁，b₂，...，b₁₈]。可以求解处对称矩阵的未知量。通常情况下，种子点不会落在图像的边界处，构建出的方程个数总会大于6个，能够求解矩阵。在实现中使用的是OpenCV’s GPU FarnebackOpticalFlow算法来进行光流场的检测。

图2给出各向异性距离矩阵的示例模型。(a)视频的3帧，以及对应的光流场。背景和物体都在运动。足球上绿色的标记是位于足球上的种子点生成的超体素。(b)椭球面是种子点矩阵的等距面，椭球上的直线是种子点处的光流向量，即运动方向。图中的点表示该超体素中的像素。从图2可以看出，求解的种子点的各向异性矩阵的等距面和物体的光流向量的方向是一致的。

在实际运算中，不能保证所有种子点矩阵的PSD性质。实验表明，在运动较快的场景中，光流法可能无法准确检测所有像素的运动，导致一部分种子点的矩阵不满足PSD约束。通常当像素与周围的邻居具有相似的颜色和相似的运动时，光流法无法准确地检测其运动幅度。若种子点落在该像素，其矩阵就有可能不满足PSD约束。采取两种措施来处理这个问题：①基于局部一致性，可以考虑计算出邻居像素的PSD矩阵，这类邻居最好与该种子点的运动方向一致，然后以均值矩阵作为该种子点矩阵的候选。②当种子点的邻居也无法帮助解决矩阵的PSD性质时，计算矩阵的最接近PSD矩阵。使用下面公式：

D₊＝max(D，0)

首先将对称阵

奇异值分解，将对角矩阵D中的负值替换成0，得到对角矩阵D₊，然后得到nearest PSD矩阵作为当前种子点矩阵的替代。

在本发明的步骤2)中，首先要给定种子点的初始位置，提出一种简易的种子点初始化的方法。如图3所示，可以看出种子点更多地聚集在物体周围，将物体分割地更精确。

种子点初始化的方法如算法2所示。首先将视频分k个网格

然后计算网格内的梯度信息和运动信息，作为网格内容丰富度的衡量。然后根据每个网格内的丰富程度，来调整种子点的放置，希望复杂的地方放置更多地种子点。示例如图3所示，这个策略能够很好地调整种子点的放置。

②超体素算法的GPU实现

本发明中将JFA算法扩展到了图像的超像素分割和视频的超体素分割中。在图像的分割中，像素包含位置和颜色属性，超像素是一个5D的Voronoi分割结果。若种子点和像素点之间的距离计算采用欧氏距离，可以在GPU上用JFA框架实现经典的超像素分割方法SLIC[3,4]。1+JFA框架实现的SLIC分割结果如图4所示，是在一张图片上初始化若干个种子点，基于GPU并行得到的超像素分割。可以从图4的j图中看出，1+JFA得到的超像素能够准确地分割出物体的边界，基于GPU实现的分割结果和CPU实现的分割结果不会有太大的误差。将图像的1+JFA框架扩展到视频中，可以得到视频的超体素分割，并且分割质量与SLIC的CPU实现接近。

本发明将JFA扩展到视频的分割，每个voxel都以一定的步长查询其26个邻居，预先将视频加载到GPU，使用JFA框架来进行分割。各向异性度量的参数也会加载到GPU中，利用JFA框架能够得到视频的分割结果。

此外，流处理可以针对不能被一次性加载到内存的长视频进行分割。一次加载一个block大小的视频到内存中，放置k个种子点进行处理。然后保存前2/3的block的分割结果，再新加载进来2/3block的视频，与上一个block的后1/3组成新的block。由于在上一个block的后1/3块内容会有种子点，那么根据需要放置种子点使得当前的block中共有k个种子点。然后使用算法1进行分割处理。图5给出基于GPU的各向异性流视频超体素分割示意图。一次加载一个block到内存中，使用k个种子点进行分割。

以下给出具体实施例。

本实施例包括以下步骤：

1.用户指定视频的超体素个数K，取值区间为[20-10000]。

2.用户指定超体素的紧凑指标，取值区间为[2-20]。

3.算法将进行以下步骤来计算视频分割：

a.加载视频到显卡内存；

b.计算视频的光流场；

c.初始化种子点并且计算其各向异性矩阵，加载到显卡内存；

d.执行泛洪算法框架进行一次分割；

e.更新种子点位置及其各向异性矩阵；

f.重复执行步骤d-e，直到达到指定迭代次数或其他循环结束条件。

4.算法给出视频的分割结果。

图6为视频中某一帧上的分割结果。本发明处理速度为2s，能够达到25FPS，其他算法至少需要20s，种子点个数越多，其他算法的处理时间越长，而本发明的处理速度不受种子点个数的影响。

本发明基于种子点的聚类算法，利用视频的光流场对每个种子点设计一个各向异性的距离度量，使得种子点能够更好地捕捉周围物体的运动，从而提高视频分割的准确率。该方法利用泛洪并行算法在GPU上实现视频分割，这使得本方法能够在处理速度上领先现有方法，并且能够保证分割质量。使得视频过分割技术在分割质量，处理速度和消耗内存等方面取得了很好地平衡，通过各向异性的距离度量提高了基于种子点的超体素分割方法的准确率，基于GPU的实现使得在处理效率上远超现存的方法。和速度相同的经典算法比起来该方法的分割质量显著提高，和具有类似分割质量的其他算法比起来，处理速度最快，有利于视频过分割算法在后续其他视频处理任务中的广泛使用。

Claims

1.一种基于GPU的各向异性视频过分割方法，其特征在于包括以下步骤：

1)加载视频到显存中，计算视频的光流场；

所述给定种子点的初始位置，根据光流场计算种子点的各向异性矩阵的具体方法为：

种子点的各向异性矩阵M_i必须是半正定矩阵，满足PSD约束；首先求得一个对称矩阵

再判断其是否满足PSD约束；由于矩阵/>

是对称的，包含6个未知量，将其表达为一个向量：

然后构建超定方程来求解这6个未知量：

其中，A是18×6的矩阵，b是18维的向量[b₁，b₂，...，b₁₈]；求解处对称矩阵的未知量；假设一个种子点s_i落在第t帧，那么其在t+1帧中有9个邻居点，在t-1帧中也有9个邻居点；为了构建各向异性的矩阵，约束邻居点的运动量为期望值b；针对这18个邻居点的约束，得到上式；通过使用Eigen库来求解超定方程组，计算得到对称矩阵

当像素与周围的邻居具有相似的颜色和相似的运动时，光流法无法准确地检测其运动幅度，若种子点落在该像素，其矩阵可能不满足PSD约束；对于不满足PSD约束的矩阵，计算一个最接近的PSD矩阵

来进行修正；

所述对于不满足PSD约束的矩阵，采用以下方法进行修正：

①基于局部一致性，考虑计算出邻居像素的PSD矩阵，这类邻居与该种子点的运动方向一致，然后以均值矩阵作为该种子点矩阵的候选；

首先将对称阵

当得到满足PSD约束的所有种子点的矩阵之后，将其参数加载到显存中，以备后续处理使用；

所述泛洪并行框架使用OpenGL技术，绘制所有像素点，需要用到GLSL语言来编写shader文件，定义像素点在绘制过程中需要执行的操作；在shader里，查询每个像素p的一定步长l的邻居信息，如果某个邻居保存了种子点s，那么计算p和s的各向异性距离；如果s是目前与p距离最近的种子点，则将s保存在p的信息结构中；上述步骤重复若干次，p查询到其周边的所有像素保存的信息，能够找到距离其最近的种子点，就得到了视频的分割结果；

2.如权利要求1所述一种基于GPU的各向异性视频过分割方法，其特征在于在步骤1)中，所述加载视频到显存中，计算视频的光流场的具体方法为：加载视频到显存中，利用OpenCV库提供的方法，来计算视频的光流场，包括前向光流场和后向光流场的信息。

3.如权利要求1所述一种基于GPU的各向异性视频过分割方法，其特征在于在步骤4)中，所述重新计算种子点在新位置的各向异性矩阵是对步骤3)得到的分割结果进行下一轮的优化；首先要计算当前簇的中心，即位置的平均值，然后将种子点移动到中心位置，根据步骤2)，重新计算种子点在新位置处的各向异性矩阵。

4.如权利要求1所述一种基于GPU的各向异性视频过分割方法，其特征在于在步骤5)中，所述重复步骤3)和4)是为了得到新一轮的视频分割，这个迭代过程是用来优化目标函数，使得视频的分割准确率进一步提高，该迭代次数手动指定，当分割结果趋于稳定再停止。