CN104469086B

CN104469086B - 一种视频去抖动方法及装置

Info

Publication number: CN104469086B
Application number: CN201410799113.2A
Authority: CN
Inventors: 贺坚强
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2014-12-19
Filing date: 2014-12-19
Publication date: 2017-06-20
Anticipated expiration: 2034-12-19
Also published as: CN104469086A

Abstract

本发明实施例公开了一种视频去抖动方法及装置。一种视频去抖动方法，包括：对目标视频码流文件进行场景分割，获得至少一个码流分段；针对第i个码流分段中第j个视频帧，在该视频帧的边缘区域内确定满足预设要求的编码单元块，将该编码单元块覆盖的区域确定为背景特征区域；获取背景特征区域中各基本单元块相对于前一视频帧的运动矢量，根据预设的相机运动矢量确定规则，确定出一个视频帧的相机运动矢量；计算第i个码流分段中所有视频帧的相机运动矢量的均值，判断该均值是否小于ε_mv，根据判断结果采取对应的处理步骤。本发明可以根据码流信息，用振动模型模拟相机的抖动，进而采用对应的处理策略去除视频画面的抖动，以提高视频画面质量。

Description

一种视频去抖动方法及装置

技术领域

本发明涉及视频处理技术领域，特别涉及一种视频去抖动方法及装置。

背景技术

随着手机、数码相机及摄像机等具备视频拍摄功能的拍摄设备的普及，越来越多的非专业摄像人员开始使用拍摄设备对目标场景进行图像采集，比如用户使用手机拍摄一段舞蹈视频。通常情况下，拍摄设备会相对于目标场景发生抖动，拍摄设备抖动不可避免地导致采集到的图像的内容画面出现抖动。

因此，如果能够提出一种去除视频内容画面抖动的方法，无疑会对视频画面质量的提高起到促进作用。

发明内容

为了解决上述问题，本发明实施例公开了一种视频去抖动方法及装置，具体技术方案如下：

一种视频去抖动方法，所述方法包括：

提取目标视频码流文件的码流信息，根据提取到的码流信息对所述目标视频码流文件进行场景分割，获得至少一个码流分段；

针对第i个码流分段中的第j个视频帧f_(i,j)，在该视频帧的边缘区域内，确定满足预设要求的编码单元块，并将该编码单元块覆盖的区域确定为背景特征区域A_(i,j)；

获取背景特征区域A_(i,j)中各基本单元块相对于视频帧f_(i,j-1)的运动矢量，根据预设的相机运动矢量确定规则，从所获取的运动矢量中确定出：与视频帧f_(i,j)相对应的相机运动矢量c_mv_ij；

计算第i个码流分段中所有视频帧的相机运动矢量的均值c_mvg_i，判断|c_mvg_i|是否小于ε_mv；

如果|c_mvg_i|小于ε_mv，判断|s_mvg_i|是否小于α*ε_mv，如果是执行步骤R1，否则执行步骤R2；

其中，每个码流分段描述的视频内容画面为一个场景，每个码流分段中包含至少一个视频帧；i＝1,……,N；j＝1,……,M_i；N为码流分段的总数，M_i为第i个码流分段中包含的视频帧的总数；所述边缘区域的宽度为：W*1/w，高度为：H*1/h，所述预设要求为：编码单元块的尺寸值不小于预设的尺寸阈值，W为视频帧的宽度值，H为视频帧的高度值，w为预设的宽度量化参数，h为预设的高度量化参数；ε_mv为预设的第一阈值，α为预设的第一量化参数，β为预设的第二量化参数，

所述步骤R1为：对第i个码流分段中的各视频帧进行抖动矢量整体运动补偿，得到去除抖动后的图像；其中，抖动矢量为c_mv_ij-c_mvg_i；

所述步骤R2为：对视频帧f_(i,j)进行全局相机运动c_mvg_i补偿，得到第一虚拟相机拍摄的图像帧f_(i,j)补，对图像帧f_(i,j)补使用立体匹配技术，得到第二虚拟相机拍摄的图像帧f_(i,j)补对，第一、二虚拟相机拍摄的图像构成一对立体图像；根据场景图像深度值和基于深度图的绘制技术，将两个虚拟相机采集的图像映射到原始相机的位置，得到去抖后的图像；其中，第一虚拟相机与第二虚拟相机之间的距离为B，两个虚拟相机的焦距均为f，场景图像深度值z＝(B*f)/d，d为使用搜索匹配块技术从视频帧中获得的块级视差。

可选的，在所述步骤R1或R2之后，还包括：

根据提取到的码流信息，获取视频帧f_(i,j)中各基本单元块相对于视频帧f_(i,j-1)的运动矢量；

使用振动模型对所获取的运动矢量进行处理，获取视频帧f_(i,j)的抖动频率fp_(i,j)；

如果抖动频率fp_(i,j)大于预设的频率阈值，对所述去抖后的图像进行反向插值估计处理，获得去模糊后的图像。

可选的，所述对所述去抖后的图像进行反向插值估计处理，获得去模糊后的图像，包括：

对去抖后的图像中的每一行像素作如下处理：X＝C^-1×X^/，得到去模糊后的图像，其中，X^/为去抖后的图像中的一行模糊像素，C^-1为C的逆矩阵，C为预设的场景深度系数矩阵。

可选的，所述提取目标视频码流文件的码流信息，根据提取到的码流信息对所述目标视频码流文件进行场景分割，获得至少一个码流分段，包括：

提取目标视频码流文件的码流信息，根据提取到的码流信息，获取视频帧f_(i,j)中各基本单元块相对于视频帧f_(i,j-1)的运动矢量；

将所获取的运动矢量中符合预设的聚类规则的运动矢量聚类到不可用mv类别；其中，所述预设的聚类规则为：模值小于预设的第二阈值的运动矢量和帧内编码模式所对应的运动矢量；

统计所述不可用mv类别中运动矢量的总数S_un，如果S_un>S_un-thres，则视频帧f_(i,j)不属于该视频帧的前一帧所在的码流分段，其中，S_un-thres为预设的第三阈值。

提取目标视频码流文件的码流信息，从提取到的码流信息中获取视频帧f_(i,j)的基本单元块的预测残差；

如果所获取的预测残差的平方和大于预设的第四阈值，则视频帧f_(i,j)不属于该视频帧的前一帧所在的码流分段。

提取目标视频码流文件的码流信息，从提取到的码流信息中获取视频帧f_(i,j)的重构帧的基本单元块相对于视频帧f_(i,j-1)的预测残差；

如果所获取的预测残差的平方和大于预设的第五阈值，则视频帧f_(i,j)不属于该视频帧的前一帧所在的码流分段。

可选的，所述根据预设的相机运动矢量确定规则，从所获取的运动矢量中选择出：与视频帧f_(i,j)相对应的相机运动矢量c_mv_ij，包括：

根据预设的聚类规则，对所获取到的运动矢量进行聚类，将聚类得到的最大类别中包含的运动矢量映射到二维的xy坐标系中，得到多个样本点，用一个半径为预设的半径值的圆覆盖多数的样本点，将离圆心最近的样本点所对应的运动矢量确定为：与视频帧f_(i,j)相对应的相机运动矢量c_mv_ij。

一种视频去抖动装置，所述装置包括：

场景分割模块，用于提取目标视频码流文件的码流信息，根据提取到的码流信息对所述目标视频码流文件进行场景分割，获得至少一个码流分段；其中，每个码流分段描述的视频内容画面为一个场景，每个码流分段中包含至少一个视频帧；

背景特征区域确定模块，用于针对所述场景分割模块分割得到的第i个码流分段中的第j个视频帧f_(i,j)，在该视频帧的边缘区域内，确定满足预设要求的编码单元块，并将该编码单元块覆盖的区域确定为背景特征区域A_(i,j)；其中，i＝1,……,N；j＝1,……,M_i；N为码流分段的总数，M_i为第i个码流分段中包含的视频帧的总数；所述边缘区域的宽度为：W*1/w，高度为：H*1/h，所述预设要求为：编码单元块的尺寸值不小于预设的尺寸阈值，W为视频帧的宽度值，H为视频帧的高度值，w为预设的宽度量化参数，h为预设的高度量化参数；

相机运动矢量确定模块，用于获取所述背景特征区域确定模块确定出的背景特征区域A_(i,j)中各基本单元块相对于视频帧f_(i,j-1)的运动矢量，根据预设的相机运动矢量确定规则，从所获取的运动矢量中确定出：与视频帧f_(i,j)相对应的相机运动矢量c_mv_ij；

第一判断模块，用于计算第i个码流分段中所有视频帧的相机运动矢量的均值c_mvg_i，判断|c_mvg_i|是否小于ε_mv，并在判断结果为是的情况下触发第二判断模块，在判断结果为否的情况下触发第三判断模块；其中，ε_mv为预设的第一阈值；

所述第二判断模块，用于判断|s_mvg_i|是否小于α*ε_mv，并在判断结果为是的情况下触发第一去抖模块，在判断结果为否的情况下触发第二去抖模块；其中，α为预设的第一量化参数，

所述第三判断模块，用于判断|s_mvg_i|是否小于β*|c_mvg_i|，并在判断结果为是的情况下触发第一去抖模块，在判断结果为否的情况下触发第二去抖模块；其中，β为预设的第二量化参数；

所述第一去抖模块，用于对第i个码流分段中的各视频帧进行抖动矢量整体运动补偿，得到去除抖动后的图像；其中，抖动矢量为c_mv_ij-c_mvg_i；

所述第二去抖模块，用于对视频帧f_(i,j)进行全局相机运动c_mvg_i补偿，得到第一虚拟相机拍摄的图像帧f_(i,j)补，对图像帧f_(i,j)补使用立体匹配技术，得到第二虚拟相机拍摄的图像帧f_(i,j)补对，第一、二虚拟相机拍摄的图像构成一对立体图像；根据场景图像深度值和基于深度图的绘制技术，将两个虚拟相机采集的图像映射到原始相机的位置，得到去抖后的图像；

其中，第一虚拟相机与第二虚拟相机之间的距离为B，两个虚拟相机的焦距均为f，场景图像深度值z＝(B*f)/d，d为使用搜索匹配块技术从视频帧中获得的块级视差。

可选的，所述装置还包括：去模糊模块；所述去模糊模块包括：

运动矢量获取子模块，用于根据提取到的码流信息，获取视频帧f_(i,j)中各基本单元块相对于视频帧f_(i,j-1)的运动矢量；

抖动矢量获取子模块，用于使用振动模型对所述运动矢量获取子模块获取到的运动矢量进行处理，获取视频帧f_(i,j)的抖动频率fp_(i,j)；

去模糊子模块，用于在所述抖动矢量获取子模块获取到的抖动频率fp_(i,j)大于预设的频率阈值的情况下，对所述去抖后的图像进行反向插值估计处理，获得去模糊后的图像。

可选的，所述去模糊子模块，具体用于：

可选的，所述场景分割模块，具体用于：

可选的，所述相机运动矢量确定模块，具体用于：

应用上述技术方案，本发明实施例提供的视频去抖动方法及装置，可以提取视频码流中的码流信息，根据提取到的码流信息中视频帧的编码块划分和模式信息、运动矢量信息、预测残差信息及文理复杂度等信息模拟相机的抖动，进而根据相机的抖动情况，采用对应的处理策略去除视频画面的抖动，以提高视频画面的质量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a为本发明实施例提供的一种视频去抖动方法的流程图；

图1b为本发明实施例提供的边缘区域的示意图；

图1c为本发明实施例提供的视频帧的运动矢量映射到二维坐标系的示意图；

图1d为本发明实施例提供的相机运动轨迹曲线；

图1e为本发明实施例提供的虚拟相机与原始相机位置关系的示意图；

图1f为本发明实施例提供的两相机拍摄的图像的立体匹配图；

图2为本发明实施例提供的另一种视频去抖动方法的流程图；

图3为本发明实施例提供的一种视频去抖动装置的结构示意图；

图4为本发明实施例提供的另一种视频去抖动装置的结构示意图；

图5为本发明实施例提供的图4中去模糊模块309的一种结构示意图。

具体实施方式

为了使本领域技术人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

随着手机、数码相机及摄像机等具备视频拍摄功能的拍摄设备的普及，越来越多的非专业摄像人员开始使用拍摄设备拍摄视频，拍摄到的视频中的视频场景多数属于“所见即所得”。专业上，将非专业摄像人员拍摄的视频称为UGC(User Generated Content，用户生成的内容)，随着视频行业的爆发性增长，UGC在视频网站的内容比重占据着越来越重要的地位。

然而，由于非专业摄像人员在使用拍摄设备(为了便于描述，以下内容中均以“相机”代替)拍摄视频时，如果想要拍摄出画面质量较高的视频，就需要对相机的运动的有较为准确的掌控，相机的运动大体上可分为两类：一种是摄像人员手持相机有目的的移动，这种移动通常是匀速且相对缓慢的；另一种是抖动，多数体现在摄像人员手持相机在目标位置周围相对快速地振动。相机抖动不可避免地造成拍摄到的视频的内容画面出现抖动、变形和模糊。

如果能够提出一种去除视频内容画面抖动的方法，无疑会对视频画面质量的提高起到促进作用。为此，本发明实施例提供了一种视频去抖动方法及装置。

下面首先对本发明实施例提供的一种视频去抖动方法进行介绍。

如图1a所示，本发明实施例提供的一种视频去抖动方法，可以包括：

S101，提取目标视频码流文件的码流信息，根据提取到的码流信息对所述目标视频码流文件进行场景分割，获得至少一个码流分段。

需要说明的是，在本发明实施例中，每个码流分段描述的视频内容画面为一个场景，每个码流分段中包含至少一个视频帧，本发明实施例中的码流信息包括但不限于以下信息：视频帧的编码块划分和模式信息、运动矢量信息、预测残差信息及文理复杂度信息。

目前，视频被拍摄出来后通常会经过压缩处理，以获得便于存储及传输的码流文件，对该码流文件进行解码处理，可以获得RGB或YUV等格式的、用于显示渲染的视频图像。码流文件中往往包含了视频帧的编码块划分和模式信息、运动矢量信息、预测残差信息及文理复杂度等码流信息。

为了便于描述，接下来的内容中，本发明实施例仅以第三代视频标准HEVC为压缩格式的视频码流为例，对视频去抖动过程进行介绍，其他压缩类型的视频同样可以依据本方法进行去抖动操作，本发明实施例在这里不再赘述。

首先，可以从码流文件中的视频头中提取出：视频帧的图像尺寸S×T(像素)，该视频帧的最小构成单元---基本单元的尺寸4×4，则一个视频帧可以划分为s×t个基本单元，其中，s＝S/4，t＝T/4。此外，对于有黑边的视频帧，则上述参数均为对该视频帧去除黑边后得到的参数。

可选的，在本发明的一个实施方式中，上述S101，可以包括：

S101a，提取目标视频码流文件的码流信息，根据提取到的码流信息，获取视频帧f_(i,j)中各基本单元块相对于视频帧f_(i,j-1)的运动矢量。

从码流信息中可以获得视频帧f_(i,j)的全部预测单元块的运动矢量残差mvd和参考视频帧，在帧间编码模式及双向预测的情况下，可以根据运动矢量计算公式mv＝mvd+mvp，计算出每个预测单元块的运动矢量mv，运动矢量包括两个分量(mv_x，mv_y)，一个预测单元块内包含多个基本单元块，且各基本单元块的运动矢量是一致的，其中，mvd为运动矢量残差、mvp为预测运动矢量，。

进一步的，根据计算出的各预测单元块的运动矢量，计算出视频帧f_(i,j)中各基本单元块相对于视频帧f_(i,j-1)的运动矢量。

S101b，将所获取的运动矢量中符合预设的聚类规则的运动矢量聚类到不可用mv类别；其中，所述预设的聚类规则为：模值小于预设的第二阈值的运动矢量和帧内编码模式所对应的运动矢量。

具体的，可以使用k-means方法，将所获取的运动矢量中符合预设的聚类规则的运动矢量聚类到不可用mv类别。

S101c，统计所述不可用mv类别中运动矢量的总数S_un，如果S_un>S_un-thres，则视频帧f_(i,j)不属于该视频帧的前一帧所在的码流分段，其中，S_un-thres为预设的第三阈值。

可选的，在本发明的另一个实施方式中，上述S101，可以包括：

提取目标视频码流文件的码流信息，从提取到的码流信息中获取视频帧f_(i,j)的基本单元块的预测残差；如果所获取的预测残差的平方和大于预设的第四阈值，则视频帧f_(i,j)不属于该视频帧的前一帧所在的码流分段。

提取目标视频码流文件的码流信息，从提取到的码流信息中获取视频帧f_(i,j)的重构帧的基本单元块相对于视频帧f_(i,j-1)的预测残差；如果所获取的预测残差的平方和大于预设的第五阈值，则视频帧f_(i,j)不属于该视频帧的前一帧所在的码流分段。

S102，针对第i个码流分段中的第j个视频帧f_(i,j)，在该视频帧的边缘区域内，确定满足预设要求的编码单元块，并将该编码单元块覆盖的区域确定为背景特征区域A_(i,j)。

其中，i＝1,……,N；j＝1,……,M_i；N为码流分段的总数，M_i为第i个码流分段中包含的视频帧的总数；所述边缘区域的宽度为：W*1/w，高度为：H*1/h，所述预设要求为：编码单元块的尺寸值不小于预设的尺寸阈值，W为视频帧的宽度值，H为视频帧的高度值，w为预设的宽度量化参数，h为预设的高度量化参数。

需要说明的是，在实际应用中，可以根据实际情况，调整本发明实施例中的预设的尺寸阈值的取值，比如视频帧的帧结构为分层B帧帧结构，则对于低层的帧，该阈值的取值可以相对小一些；对于高层的帧，该阈值的取值可以相对大一些。本发明实施例对此不作限定。

如图1b所示的阴影区域为视频帧的边缘区域，在实际应用中，h、w可以取以下集合中的数值：{3,4,5,6}，本发明实施例对此不作限定。通常情况下，一个场景内视频的背景区域比较稳定，从观赏效果上体现为：前后比较连贯，变化比较小，失真较小；在码流中体现为：该区域中编码单元块的尺寸比较大、运动矢量残差和预测残差比较小，其中，一个编码单元块中可以包含多个基本单元块。

S103，获取背景特征区域A_(i,j)中各基本单元块相对于视频帧f_(i,j-1)的运动矢量，根据预设的相机运动矢量确定规则，从所获取的运动矢量中确定出：与视频帧f_(i,j)相对应的相机运动矢量c_mv_ij。

可选的，在本发明一个实施方式中，所述根据预设的相机运动矢量确定规则，从所获取的运动矢量中确定出：与视频帧f_(i,j)相对应的相机运动矢量c_mv_ij，可以包括：

根据预设的聚类规则，对所获取到的运动矢量进行聚类，将聚类得到的最大类别中包含的运动矢量映射到二维的xy坐标系中，得到多个样本点，用一个半径为预设的半径值的圆覆盖多数的样本点(如图1c所示)，将离圆心最近的样本点所对应的运动矢量确定为：与视频帧f_(i,j)相对应的相机运动矢量c_mv_ij。

本发明实施例中的预设的聚类规则可以为：一般的划分聚类方法如k-means算法、k-medoids算法，或者网格聚类方法如sting算法、wave-cluster算法等，本发明实施例对此不作限定。

S104，计算第i个码流分段中所有视频帧的相机运动矢量的均值c_mvg_i，判断|c_mvg_i|是否小于ε_mv，如果是触发执行S105，否则触发执行S106；其中，ε_mv为预设的第一阈值，

需要说明的是，在实际应用中，可以根据实际情况，调整本发明实施例中的ε_mv的取值。此外，如果|c_mvg_i|<ε_mv，则可以认为相机相对于目标位置抖动，否则可以认为相机是有目的地匀速运动的。对于不同的相机运动，本发明可以采取对应的处理策略，对该相机拍摄的视频进行处理。

S105，判断|s_mvg_i|是否小于α*ε_mv，如果是执行S107，否则执行S108；其中，α为预设的第一量化参数，

为了便于理解，可以利用所求出的相机运动矢量并结合振动模型模拟相机的抖动规律如图1d所示，下面将结合图1d对后续步骤进行介绍。

需要说明的是，在实际应用中，可以根据实际情况，调整本发明实施例中的α的取值，本发明实施例对此不作限定。此外，如果|s_mvg_i|<α*ε_mv，则可以认为相机的抖动幅度比较小如图1d中的Camera1的振动曲线，这种情况一般不会引图像抖动变形，否则认为相机的抖动幅度比较大如图Camera2或Camera3的振动曲线，这种情况一般会引起图像抖动变形。

S106，判断|s_mvg_i|是否小于β*|c_mvg_i|，如果是执行S107，否则执行S108；其中，β为预设的第二量化参数。

需要说明的是，在实际应用中，可以根据实际情况，调整本发明实施例中的β的取值，本发明实施例对此不作限定。此外，如果|s_mvg_i|<β*|c_mvg_i|，则可以认为相机的抖动幅度比较小如图1d中的Camera1的振动曲线，这种情况一般不会引图像抖动变形，否则认为相机的抖动幅度比较大如图Camera2或Camera3的振动曲线，这种情况一般会引起图像抖动变形。

S107，对第i个码流分段中的各视频帧进行抖动矢量整体运动补偿，得到去除抖动后的图像；其中，抖动矢量为c_mv_ij-c_mvg_i。

在相机的抖动幅度比较小的情况下，只需对第i个码流分段中的各视频帧进行抖动矢量整体运动补偿，就可以得到去除抖动后的图像。

S108，对视频帧f_(i,j)进行全局相机运动c_mvg_i补偿，得到第一虚拟相机拍摄的图像帧f_(i,j)补，对图像帧f_(i,j)补使用立体匹配技术，得到第二虚拟相机拍摄的图像帧f_(i,j)补对，第一、二虚拟相机拍摄的图像构成一对立体图像；根据场景图像深度值和基于深度图的绘制技术，将两个虚拟相机采集的图像映射到原始相机的位置，得到去抖后的图像。

其中，第一虚拟相机与第二虚拟相机之间的距离为B，两个虚拟相机的焦距均为f，场景图像深度值z＝(B*f)/d，d为使用搜索匹配块技术从视频帧中获得的块级视差。如图1e所示为第一虚拟相机、第二虚拟相机和原始相机的几何位置关系，在实际应用中，两虚拟相机的距离B的取值可以为：两倍抖动矢量的模值。

如图1d中Camera2、Camera3所示，相机的抖动幅度较大，在很短的时间范围内这种抖动一般是中心位置附近有周期性地振动，这时候可以等效为：视频序列是通过不同位置的相机分时采集合成的，而不同的相机拍摄的场景内容存在相对变形；此时，可以先对视频帧f_(i,j)进行全局相机运动c_mvg_i补偿，得到得到第一虚拟相机拍摄的图像帧f_(i,j)补，进一步对视频帧f_(i,j)补的抖动矢量进行中心匹配，获得该视频帧f_(i,j)补的振动对称帧，对该振动对称帧进行时域运动补偿及插值处理，得到第二虚拟相机拍摄的图像帧f_(i,j)补对。

如图1f所示，Cl、Cr分别为两个摄像机的光心，L、R分别表示对应的图像平面，P为场景点，Pl、Pr分别为P在图像平面L、R上的投影，已知场景中一点P在图像平面L中的投影点Pl以及P点的场景图像深度值和相机参数，就可以通过立体匹配技术找到P在图像平面R中的投影点Pr，这就是基于深度图的绘制(DIBR)技术。利用DIBR技术和深度信息可以把虚拟相机拍摄的虚拟视点的图像映射到原始相机处，从而可以去除相机抖动引起的变形。进一步的，也可以对映射后的图像进行滤波处理，以进一步提高画面质量。

由此可见，本发明实施例提供的视频去抖动方法，可以提取视频码流中的码流信息，根据提取到的码流信息中视频帧的编码块划分和模式信息、运动矢量信息、预测残差信息及文理复杂度等信息模拟相机的抖动，进而根据相机的抖动情况，采用对应的处理策略去除视频画面的抖动，以提高视频画面的质量。

可选的，在本发明的另一个实施例中，如图2所示，本发明实施例提供的视频去抖动方法还可以在图1a所示方法的基础上增加S109、S110和S111，下面对S109、S110和S111进行介绍：

S109，根据提取到的码流信息，获取视频帧f_(i,j)中各基本单元块相对于视频帧f_(i,j-1)的运动矢量。

S110，使用振动模型对所获取的运动矢量进行处理，获取视频帧f_(i,j)的抖动频率fp_(i,j)。

需要说明的是，根据经验值，本发明实施例中采用的振动模型通常为周期性的三角函数振动模型，对所获取的相机运动矢量使用上述振动模型处理后，可以得到相机的抖动曲线，从相机的抖动曲线中可以提取出该相机的抖动频率。

S111，如果抖动频率fp_(i,j)大于预设的频率阈值，对所述去抖后的图像进行反向插值估计处理，获得去模糊后的图像。

当抖动频率大于预设的频率阈值时，往往会导致视频出现模糊，此时可以对所述去抖后的图像进行反向插值估计处理，获得去模糊后的图像。

可选的，在本发明的一个实施方式中，上述S111，可以包括：

需要说明的是，由于很多拍摄设备的图像采集周期相对较长，因此采集的图像可以认为是对图像采集时间内扫过的区域的积分，快速抖动得到的图像像素可以认为是抖动轨迹上像素积分。因为视频场景中相邻点有很大的相关性，一般分像素点可以通过整像素点插值得到近似值，所以对分像素点的加权可以转化到整像素点的加权。具体的，每个像素可以认为是通过得到，其中x'_m是最终采集的模糊的像素，x_m是需要恢复的去模糊像素，c_m是深度相关的系数，对超出边界的像素可以用外扩边得到。

为了简单，一个码流分段只取背景场景深度相关的一组系数，每一个像素都有一个上式对应的方程，则一行像素的方程组可以写为X^/＝C×X，其中，C为场景深度系数矩阵且为正定矩阵，所以X＝C^-1×X^/,对去抖后的图像中的每一行像素作上述处理，就可以求得模糊前的图像像素X，从而可以有效提高去抖后视频图像的画面质量。

相应于上面的方法实施例，本发明实施例还提供了一种视频去抖动装置。

如图3所示，本发明实施例提供的一种视频去抖动装置，可以包括：

场景分割模块301，用于提取目标视频码流文件的码流信息，根据提取到的码流信息对所述目标视频码流文件进行场景分割，获得至少一个码流分段；其中，每个码流分段描述的视频内容画面为一个场景，每个码流分段中包含至少一个视频帧；

背景特征区域确定模块302，用于针对所述场景分割模块301分割得到的第i个码流分段中的第j个视频帧f_(i,j)，在该视频帧的边缘区域内，确定满足预设要求的编码单元块，并将该编码单元块覆盖的区域确定为背景特征区域A_(i,j)；

其中，i＝1,……,N；j＝1,……,M_i；N为码流分段的总数，M_i为第i个码流分段中包含的视频帧的总数；所述边缘区域的宽度为：W*1/w，高度为：H*1/h，所述预设要求为：编码单元块的尺寸值不小于预设的尺寸阈值，W为视频帧的宽度值，H为视频帧的高度值，w为预设的宽度量化参数，h为预设的高度量化参数；

相机运动矢量确定模块303，用于获取所述背景特征区域确定模块302确定出的背景特征区域A_(i,j)中各基本单元块相对于视频帧f_(i,j-1)的运动矢量，根据预设的相机运动矢量确定规则，从所获取的运动矢量中确定出：与视频帧f_(i,j)相对应的相机运动矢量c_mv_ij；

第一判断模块304，用于计算第i个码流分段中所有视频帧的相机运动矢量的均值c_mvg_i，判断|c_mvg_i|是否小于ε_mv，并在判断结果为是的情况下触发第二判断模块305，在判断结果为否的情况下触发第三判断模块306；其中，ε_mv为预设的第一阈值；

所述第二判断模块305，用于判断|s_mvg_i|是否小于α*ε_mv，并在判断结果为是的情况下触发第一去抖模块307，在判断结果为否的情况下触发第二去抖模块308；其中，α为预设的第一量化参数，

所述第三判断模块306，用于判断|s_mvg_i|是否小于β*|c_mvg_i|，并在判断结果为是的情况下触发第一去抖模块307，在判断结果为否的情况下触发第二去抖模块308；其中，β为预设的第二量化参数；

所述第一去抖模块307，用于对第i个码流分段中的各视频帧进行抖动矢量整体运动补偿，得到去除抖动后的图像；其中，抖动矢量为c_mv_ij-c_mvg_i；

所述第二去抖模块308，用于对视频帧f_(i,j)进行全局相机运动c_mvg_i补偿，得到第一虚拟相机拍摄的图像帧f_(i,j)补，对图像帧f_(i,j)补使用立体匹配技术，得到第二虚拟相机拍摄的图像帧f_(i,j)补对，第一、二虚拟相机拍摄的图像构成一对立体图像；根据场景图像深度值和基于深度图的绘制技术，将两个虚拟相机采集的图像映射到原始相机的位置，得到去抖后的图像；

由此可见，本发明实施例提供的视频去抖动装置，可以提取视频码流中的码流信息，根据提取到的码流信息中视频帧的编码块划分和模式信息、运动矢量信息、预测残差信息及文理复杂度等信息模拟相机的抖动，进而根据相机的抖动情况，采用对应的处理策略去除视频画面的抖动，以提高视频画面的质量。

可选的，在本发明的另一个实施例中，如图4所示，本发明实施例提供的视频去抖动装置还可以在图3所示装置的基础上增加：去模糊模块309；

可选的，在本发明的一个实施方式中，如图5所示，所述去模糊模块309，可以包括：

运动矢量获取子模块309a，用于根据提取到的码流信息，获取视频帧f_(i,j)中各基本单元块相对于视频帧f_(i,j-1)的运动矢量；

抖动矢量获取子模块309b，用于使用振动模型对所述运动矢量获取子模块309a获取到的运动矢量进行处理，获取视频帧f_(i,j)的抖动频率fp_(i,j)；

去模糊子模块309c，用于在所述抖动矢量获取子模块309b获取到的抖动频率fp_(i,j)大于预设的频率阈值的情况下，对所述去抖后的图像进行反向插值估计处理，获得去模糊后的图像。

可选的，在本发明的一个实施例中，所述去模糊子模块309c，具体可以用于：

可选的，在本发明的一个实施例中，所述场景分割模块301，具体可以用于：

可选的，在本发明的一个实施例中，所述相机运动矢量确定模块303，具体可以用于：

根据预设的聚类规则，对所获取到的运动矢量进行聚类，将聚类得到的最大类别中包含的运动矢量映射到二维的x-y坐标系中，得到多个样本点，用一个半径为预设的半径值的圆覆盖多数的样本点，将离圆心最近的样本点所对应的运动矢量确定为：与视频帧f_(i,j)相对应的相机运动矢量c_mv_ij。

对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本发明时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机可读取存储介质中，这里所称得的存储介质，如：ROM/RAM、磁碟、光盘等。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种视频去抖动方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在所述步骤R1或R2之后，还包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述去抖后的图像进行反向插值估计处理，获得去模糊后的图像，包括：

4.根据权利要求1所述的方法，其特征在于，所述提取目标视频码流文件的码流信息，根据提取到的码流信息对所述目标视频码流文件进行场景分割，获得至少一个码流分段，包括：

5.根据权利要求1所述的方法，其特征在于，所述提取目标视频码流文件的码流信息，根据提取到的码流信息对所述目标视频码流文件进行场景分割，获得至少一个码流分段，包括：

6.根据权利要求1所述的方法，其特征在于，所述提取目标视频码流文件的码流信息，根据提取到的码流信息对所述目标视频码流文件进行场景分割，获得至少一个码流分段，包括：

7.根据权利要求1所述的方法，其特征在于，所述根据预设的相机运动矢量确定规则，从所获取的运动矢量中选择出：与视频帧f_(i,j)相对应的相机运动矢量c_mv_ij，包括：

8.一种视频去抖动装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：去模糊模块；所述去模糊模块包括：

10.根据权利要求9所述的装置，其特征在于，所述去模糊子模块，具体用于：

11.根据权利要求8所述的装置，其特征在于，所述场景分割模块，具体用于：

12.根据权利要求8所述的装置，其特征在于，所述场景分割模块，具体用于：

13.根据权利要求8所述的装置，其特征在于，所述场景分割模块，具体用于：

14.根据权利要求8所述的装置，其特征在于，所述相机运动矢量确定模块，具体用于：