CN113489896A

CN113489896A - 一种能够鲁棒预测全局运动估计的视频稳像方法

Info

Publication number: CN113489896A
Application number: CN202110713933.5A
Authority: CN
Inventors: 吴柔莞; 徐智勇; 张利红
Original assignee: Institute of Optics and Electronics of CAS
Current assignee: Institute of Optics and Electronics of CAS
Priority date: 2021-06-25
Filing date: 2021-06-25
Publication date: 2021-10-08
Anticipated expiration: 2041-06-25
Also published as: CN113489896B

Abstract

本发明公开了一种能够鲁棒预测全局运动估计的视频稳像方法，该方法首先对视频帧做自适应超像素分割，根据相邻两帧对应超像素质心运动建立二维运动空间，并进行k＝2的聚类操作，剔除聚类中心值大的类别的点，即完成局部运动块剔除。接着对保留超像素块进行特征点提取，并对匹配特征点对进行运动矢量计算，建立特征点运动空间，通过初始化聚类中心和对类间距离与类内距离的比值得到鲁棒k‑means结果，保留包含点最多的类别，完成局部特征点的剔除。该方法可以解决前景遮挡和多目标运动对全局运动估计的影响，稳像视频的峰值信噪比较原视频有显著提高。

Description

一种能够鲁棒预测全局运动估计的视频稳像方法

技术领域

本发明属于电子稳像领域，是一种能够鲁棒预测全局运动估计的视频稳像方法。

背景技术

固定摄像设备受恶劣天气影响，便携式设备受拍摄者不规律的运动影响，这些都会导致拍摄的视频出现抖动。抖动的视频不仅没有良好的观看体验，还会对后续的识别、跟踪、压缩等操作引入不必要的噪声，因此对抖动视频进行稳像处理是具有实际应用价值的。

传统基于特征点进行运动估计的方法，仅采用RANSAC(Random SampleConsensus)对局部运动进行剔除，但是其只能剔除误匹配点，并不能对落在前景中的特征点进行剔除，这些会影响全局单应性矩阵估计的准确性，影响稳像的效果。

发明内容

(一)本发明要解决的技术问题

鉴于此，本发明的主要目的是针对前景遮挡和多目标运动的抖动视频，提供一种能够鲁棒预测全局运动估计的视频稳像方法，该方法为基于超像素和改进的k-means相结合的方法，通过对得到的全局运动矢量进行补偿，最终实现视频稳像的目的。

(二)本发明采用的技术方案

为了达到上述目的，本发明提供如下技术方案：

一种鲁棒预测全局运动估计的视频稳像方法，该方法包括以下步骤：

步骤1：根据视频帧大小进行自适应超像素分割；

步骤2：建立超像素质心运动空间；

步骤3：对得到的超像素质心运动空间点进行K-means聚类后剔除局部运动块；

步骤4：对剔除局部运动块后的视频帧进行特征点提取，计算相邻两帧特征点的矢量运动，再根据欧氏距离建立特征点运动空间；

步骤5：基于所述特征点运动空间剔除局部特征点；

步骤6：对保留的特征点进行单应性变换，得到全局运动估计；

其中，步骤5中，采用改进k-means聚类方法剔除局部特征点：首先，基于特征点运动空间，对k-means聚类初始点进行均匀分布优化，然后，根据类间聚类与类内距离的比值对匹配特征点进行最优k值聚类，得到k个类别，并对每个类别中所包含的特征点进行统计，保留特征点个数最多的类别，实现鲁棒局部特征点剔除。

其中，步骤1中，采用简单线性迭代聚类的方法进行所述分割。

其中，步骤2中，通过对相邻两帧坐标接近的超像素质心进行运动矢量计算，建立超像素质心运动空间。

其中，步骤3中，对得到的超像素质心运动空间点进行K＝2的K-means聚类，并根据聚类中心数值对局部运动块进行剔除，保留聚类中心数值最小的运动块。

进一步的，所述方法还包括步骤7：对得到的全局运动矢量进行固定帧补偿，以消除或减轻抖动。

(三)本发明的有益效果

从上述技术方案可以看出，本发明具有以下有益效果：

(1)本发明将超像素引入视频稳像领域中，通过对超像素质心的运动进行聚类，可以粗略剔除局部运动块；

(2)本发明对传统k-means聚类方法进行改进，再对匹配特征点的运动矢量进行聚类剔除，得到准确全局特征点；

(3)本发明采用由粗到精的局部运动剔除策略，提高了计算精度。

附图说明

图1是采用超像素和改进k-means相结合得到准确运动估计的方法流程；

图2(a)是超像素对大前景视频某一帧分割结果；

图2(b)是超像素对多目标运动视频某一帧分割结果；

图3(a)是本发明实验选取的一帧图像；

图3(b)是图3(a)实施自适应简单线性迭代分割后的结果；

图3(c)是图3(a)对超像素质心运动矢量进行聚类保留后的结果；

图3(d)是图3(a)超像素运动矢量聚类图；

图4(a)是只采用RANSAC对匹配特征点进行误匹配处理的结果；

图4(b)是采用超像素和改进k-means相结合对匹配特征点进行误匹配处理的结果；

图5是补偿前后的峰值信噪比图。

具体实施方式

本发明主要针对前景遮挡和多目标运动的抖动视频，提供一种能够鲁棒预测全局运动估计的视频稳像方法，该方法为基于超像素和改进的k-means相结合的方法，通过对得到的全局运动矢量进行补偿，最终实现视频稳像的目的。

为使本发明的目的、技术方案和优点更加清楚明白，以下参考附图，结合具体实施方式对本发明进行详细说明。

图1所示为采用超像素和改进k-means相结合得到准确运动估计的方法流程的具体实施方式，该方法流程包括：

步骤1：根据视频帧大小进行自适应超像素分割，即：

其中Ks代表超像素个数，w和h分别代表视频帧的宽和高。

其中，为了提高分割的效率和准确度，采用简单线性迭代聚类的方法，即：

其中l表示LAB空间中的亮度，a表示LAB空间中从绿色到红色的分量，b表示LAB空间从蓝色到黄色的分量；i代表第i个像素点，j代表第j类的聚类中心点，d_c代表颜色距离，d_s代表空间距离，N_s代表同一类中的最大空间距离，N_c则代表最大颜色距离。

因为N_c无法确定，故对公式(2)的距离度量公式进行改写：

m表示空间和颜色的重要程度的比值，一般设置在10～40之间，

表示超像素所包含的像素个数，N表示视频帧所包含的总像素；根据公式(2)和(3)对像素进行聚类迭代，直到两次聚类中心的聚类小于设定阈值。

步骤2：建立超像素质心运动空间：通过对相邻两帧坐标接近的超像素质心进行运动矢量计算，建立超像素质心运动空间；

表示相邻两帧第i个超像素质心的x坐标，

表示相邻两帧第i个超像素质心的y坐标，超像素质心运动空间为

步骤3：对得到的超像素质心运动空间点进行K-means聚类后剔除局部运动块：对得到的空间点进行K＝2的K-means，并根据聚类中心数值对局部运动块进行剔除，其中，对聚类中心数值大的一类进行剔除；

步骤4：对剔除局部运动块后的视频帧，即保留的视频帧进行特征点提取，计算相邻两帧特征点的矢量运动，再根据欧氏距离建立特征点运动空间；

在相邻两帧中提取SURF(Speeded Up Robust Features)算子进行特征点检测，根据匹配特征点的欧式距离建立运动空间，即：

特征运动空间为

步骤5：基于所述特征点运动空间采用改进的k-means聚类方法剔除局部特征点；

具体的，对k-means算法初始聚类点进行改进，即：

dx，dy分别表示在特征运动空间中x和y方向上的最大距离。

g表示匹配点对最接近特征运动空间原点的索引值，根据该点的坐标和最大距离建立初始聚类中心{C₁，C₂，...，C_k}，即：

找到最优聚类k，定义判断因子a和距离因子d，即：

d(C_k，C_l)表示属于第k类聚类中心的点到第l类的平均聚类，

代表属于第k类聚类点的坐标，C_l代表第l类的聚类中心坐标，|C_k|代表属于第k类的个数。

再对类内距离和类间距离进行计算，即：

通过计算找到最小判断因子a，就可得到最优聚类值k，即：

保留包含最多个数特征点的类别。

步骤6：对保留的特征点进行单应性变换，得到准确的全局运动估计。

最后，利用步骤6得到的全局运动矢量进行固定帧补偿，以消除或减轻抖动，最终实现视频稳像。

具体实施上述方法时，首先对视频帧做自适应超像素分割，假设视频只包含背景和前景运动，且前景的矢量运动大于背景的矢量运动。然后对相邻两帧坐标点接近的超像素质心计算运动矢量，建立运动空间，执行k＝2的聚类运算，根据上述步骤3剔除局部运动块。

而后，对保留下的超像素块进行特征点提取，相邻两帧配对特征点进行运动矢量计算，建立特征点运动空间。为了使得到的聚类更加准确和分布均匀，首先计算运动空间相隔最远两点的距离，寻找离原点对接近的坐标点，接着根据聚类的类别，初始聚类中心点坐标。计算每次聚类的类间距离和类内距离，通过最小化类内距离与类间距离的比值，寻找最优聚类k。在最后一次剔除中，假设所保留的超像素中背景块大于前景块，通过保留类别中个数最多的点来保留全局特征点。

最后，根据全局特征点计算单应性矩阵，并对全局运动矢量进行累加，采用固定帧补偿的方式对抖动的视频进行处理。

图2(a)所示为带有的抖动大前景视频某一帧的超像素分割结果，图2(b)为带有抖动多目标运动视频某一帧的超像素分割结果。图3(a)为抖动视频某一帧的原图，图3(b)为超像素分割后的结果，图3(c)为剔除局部运动块后的结果，与图3(a)比较可以发现，部分带有前景的超像素块已经被剔除，图3(d)为超像素质心运动聚类结果图。图4(a)为抖动视频中采用RANSAC对相邻两帧图像特征点进行误匹配剔除后的结果，图4(b)为抖动视频中采用我们提出的发明所匹配的结果，通过对比两幅结果可以发现，图4(b)的匹配特征点对都落在背景上，通过后续单应性的求解，可以得到一个准确的全局运动估计。从图5的峰值信噪比对比图中可以发现，补偿后的峰值信噪比比较原始峰值信噪比有显著的提高，表明本发明应用于抖动视频，具有很好的效果。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，这些实施例仅仅是为了说明的目的，而并非为了限制本发明的范围。本发明的范围由所附权利要求及其等价物限定。不脱离本发明的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本发明的范围之内。

Claims

1.一种能够鲁棒预测全局运动估计的视频稳像方法，其特征在于，该方法包括以下步骤：

步骤1：根据视频帧大小进行自适应超像素分割；

步骤2：建立超像素质心运动空间；

步骤5：基于所述特征点运动空间剔除局部特征点；

其中，步骤5中，采用改进的k-means聚类方法剔除局部特征点：首先，基于特征点运动空间，对k-means聚类初始点进行均匀分布优化，然后，根据类间聚类与类内距离的比值对匹配特征点进行最优k值聚类，得到k个类别，并对每个类别所包含特征点进行统计，保留特征点个数最多的类别，实现鲁棒局部特征点剔除。

2.根据权利要求1所述的一种能够鲁棒预测全局运动估计的视频稳像方法，其特征在于，

步骤1中，采用简单线性迭代聚类的方法进行所述分割。

3.根据权利要求1所述的一种能够鲁棒预测全局运动估计的视频稳像方法，其特征在于，

步骤2中，通过对相邻两帧坐标接近的超像素质心进行运动矢量计算，建立超像素质心运动空间。

4.根据权利要求1所述的一种能够鲁棒预测全局运动估计的视频稳像方法，其特征在于，

步骤3中，对得到的超像素质心运动空间点进行K＝2的K-means聚类，并根据聚类中心数值对局部运动块进行剔除，保留聚类中心数值最小的运动块。

5.根据权利要求1所述的一种能够鲁棒预测全局运动估计的视频稳像方法，其特征在于，所述方法还包括：

步骤7：对得到的全局运动矢量进行固定帧补偿，以消除或减轻抖动。