CN113766117B

CN113766117B - 一种视频去抖动方法和装置

Info

Publication number: CN113766117B
Application number: CN202011241258.2A
Authority: CN
Inventors: 车广富; 郭景昊; 安山
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2020-11-09
Filing date: 2020-11-09
Publication date: 2023-08-08
Anticipated expiration: 2040-11-09
Also published as: CN113766117A

Abstract

本发明公开了一种视频去抖动方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：获取包含目标对象的第一视频帧和第二视频帧，确定目标对象在第一视频帧和第二视频帧中的区域位置；其中，第一视频帧为上一时刻目标对象对应的视频帧，第二视频帧为当前时刻目标对象对应的视频帧；根据帧间偏移量对目标对象在当前时刻下的自由度位姿估计进行校正，根据校正后的自由度位姿估计对目标对象进行渲染成像。该实施方式实现了在线实时视频去抖动，拓展了视频去抖动的应用场景，提升了用户体验。

Description

一种视频去抖动方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种视频去抖动方法和装置。

背景技术

随着VR和AR技术的进步，虚拟试穿技术蓬勃发展，形成导购转化的功能越来越受到大众欢迎。例如，虚拟试鞋技术通过AR增强现实技术与智能手机相机的结合，可以帮助用户看到鞋款「穿」在自己脚上的效果，同时，在AR试鞋过程中，由于鞋模的抖动和漂移，连续的视频帧之间存在抖动现象，该问题极大的影响着用户体验。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

现有的视频去抖动多是通过对视频后期处理实现去抖动，无法实现在线实时去抖动，应用场景单一，用户体验差。

发明内容

有鉴于此，本发明实施例提供一种视频去抖动方法和装置，能够实现在线实时视频去抖动，拓展了视频去抖动的应用场景，提升了用户体验。

为实现上述目的，根据本发明实施例的第一方面，提供了一种视频去抖动方法，包括：

获取包含目标对象的第一视频帧和第二视频帧，确定目标对象在第一视频帧和第二视频帧中的区域位置；其中，第一视频帧为上一时刻目标对象对应的视频帧，第二视频帧为当前时刻目标对象对应的视频帧；

根据目标对象在第一视频帧和第二视频帧中的区域位置确定目标对象的帧间偏移量；

根据帧间偏移量对目标对象在当前时刻下的自由度位姿估计进行校正，根据校正后的自由度位姿估计对目标对象进行渲染成像。

进一步地，确定目标对象在第一视频帧和第二视频帧中的区域位置，包括：

分别对第一视频帧和第二视频帧进行图像分割处理，得到目标对象在第一视频帧和第二视频帧中的区域图像；

对区域图像进行二值化处理，根据二值化处理结果确定目标对象在第一视频帧和第二视频帧中的区域位置。

进一步地，根据目标对象在第一视频帧和第二视频帧中的区域位置确定目标对象的帧间偏移量的步骤包括：

根据目标对象在第一视频帧和第二视频帧中的区域位置，从第一视频帧和第二视频帧中分别提取目标对象对应的视觉线索点；

根据视觉线索点确定目标对象对应的帧间偏移量。

进一步地，根据帧间偏移量对目标对象在当前时刻下的位姿进行校正的步骤包括：

获取第一自由度位姿估计和第二自由度位姿估计；其中，第一自由度位姿估计是目标对象在上一时刻下的自由度位姿估计，第二自由度位姿估计是目标对象在当前时刻下的自由度位姿估计；自由度位姿估计包括第一矩阵和第二矩阵，第一矩阵由三维空间朝向参数构成，第二矩阵由三维空间位置参数构成；

根据帧间偏移量对第一自由度位姿估计进行校正；

根据校正后的第一自由度位姿估计对第二自由度位姿估计进行校正。

进一步地，根据帧间偏移量对第一自由度位姿估计进行校正的步骤包括：

根据帧间偏移量对第一自由度位姿估计中的第二矩阵进行校正，根据校正后第二矩阵对第一自由度位姿估计进行校正。

进一步地，根据校正后的第一自由度位姿估计对第二自由度位姿估计进行校正的步骤包括：

计算第二自由度位姿估计和校正后的第一自由度位姿估计之间的重投影误差，根据重投影误差对第一矩阵进行校正；

根据校正后的第一矩阵和校正后的第二矩阵，对目标对象在当前时刻下的自由度位姿估计进行校正。

进一步地，根据重投影误差对第一矩阵进行校正的步骤包括：

根据重投影误差与学习率之间的对应关系计算第一矩阵和第二矩阵的学习率；

根据重投影误差与第一矩阵和第二矩阵的学习率对第一矩阵进行校正。

根据本发明实施例的第二方面，提供了一种视频去抖动装置，包括：

区域位置确定模块，用于获取包含目标对象的第一视频帧和第二视频帧，确定目标对象在第一视频帧和第二视频帧中的区域位置；其中，第一视频帧为上一时刻目标对象对应的视频帧，第二视频帧为当前时刻目标对象对应的视频帧；

帧间偏移量确定模块，用于根据目标对象在第一视频帧和第二视频帧中的区域位置确定目标对象的帧间偏移量；

校正模块，用于根据帧间偏移量对目标对象在当前时刻下的自由度位姿估计进行校正，根据校正后的自由度位姿估计对目标对象进行渲染成像。

根据本发明实施例的第三方面，提供了一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如上述任一种视频去抖动方法。

根据本发明实施例的第四方面，提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上述任一种视频去抖动方法。

上述发明中的一个实施例具有如下优点或有益效果：因为采用获取包含目标对象的第一视频帧和第二视频帧，确定目标对象在第一视频帧和第二视频帧中的区域位置；其中，第一视频帧为上一时刻目标对象对应的视频帧，第二视频帧为当前时刻目标对象对应的视频帧；根据目标对象在第一视频帧和第二视频帧中的区域位置确定目标对象的帧间偏移量；根据帧间偏移量对目标对象在当前时刻下的自由度位姿估计进行校正，根据校正后的自由度位姿估计对目标对象进行渲染成像的技术手段，所以克服了现有技术中只能通过对视频后期处理实现去抖动，而无法实现在线实时去抖动，应用场景单一，用户体验差的技术问题，进而达到实现在线实时视频去抖动，拓展了视频去抖动的应用场景，提升了用户体验的技术效果。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明第一实施例提供的视频去抖动方法的主要流程的示意图；

图2a是根据本发明第二实施例提供的视频去抖动方法的主要流程的示意图；

图2b是图2a所示的神经网络模型的金字塔池化结构的示意图；

图2c是图2a所述方法中进行二值化处理的示意图；

图2d是图2a是提取视觉线索点的示意图；

图3是根据本发明实施例提供的视频去抖动装置的主要模块的示意图；

图4是本发明实施例可以应用于其中的示例性系统架构图；

图5是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本发明第一实施例提供的视频去抖动方法的主要流程的示意图；如图1所示，本发明实施例提供的视频去抖动方法主要包括：

步骤S101，获取包含目标对象的第一视频帧和第二视频帧，确定目标对象在第一视频帧和第二视频帧中的区域位置；其中，第一视频帧为上一时刻目标对象对应的视频帧，第二视频帧为当前时刻目标对象对应的视频帧。

通过上述设置，获取上一时刻和当前时刻下目标对象对应的视频帧，并确定目标对象在视频帧中的区域位置，有利于后续提取目标对象在二维坐标系下的视觉线索点，并将视觉线索点与目标对象在三维坐标系下的自由度位姿估计进行结合，进而实现视频防抖动。其中，目标对象可以是视频帧中的前景图像，或者是AR试鞋中的鞋、脚等待观察的对象。

根据本发明实施例，上述确定目标对象在第一视频帧和第二视频帧中的区域位置的步骤包括：

具体地，根据本发明实施例，上述二值化处理过程为：将所述区域图像中灰度值大于或者等于第一阈值的像素点的灰度值置为255，将其余像素点的灰度值置为0，其中，灰度值为255的像素点对应的位置为所述目标对象在所述第一视频帧和所述第二视频帧中的区域位置。需要说明的是，上述0和255并不是固定的，可以将灰度值大于或者等于第一阈值的像素点的灰度值置为0，其余像素点的灰度值置为255。根据本发明实施例，也可以不采用0和255两个值，而是采用区分度较明显的两个灰度值，以便进行区分即可。

根据本发明实施例，可以采取训练好的深度神经模型实现对视频帧中目标对象的图像分割，确定目标对象在视频帧中对应的区域图像。由于上述区域图像中可能包括非目标图像对应部分，因此再通过二值化处理，确定目标对象在第一视频帧和第二视频帧中的区域位置。通过二值化处理和上述图像分割处理相结合，能够更精确地锁定视频帧中的目标对象的区域位置，进而利于后续从确定视频帧中目标对应的区域位置中提取相应的视觉线索点，提高视频去抖动的准确率，提升用户体验。

步骤S102，根据目标对象在第一视频帧和第二视频帧中的区域位置确定目标对象的帧间偏移量。

具体地，根据本发明实施例，上述根据目标对象在第一视频帧和第二视频帧中的区域位置确定目标对象的帧间偏移量的步骤包括：

根据视觉线索点确定目标对象对应的帧间偏移量。

视觉线索点：是指图像中提供物体对象距离、方位和照明条件等特征信息的特征点。如，若目标对象为脚或鞋，则视觉线索点为脚部表面或者鞋表面的纹理等所对应的特征点。

通过上述设置，通过比对目标对象在上一时刻和当前时刻下的视觉线索点，可以快速准确的确定目标对象在两个时刻之间的帧间偏移量，进而后续通过该帧间偏移量去除视频抖动的情形。

步骤S103，根据帧间偏移量对目标对象在当前时刻下的自由度位姿估计进行校正，根据校正后的自由度位姿估计对目标对象进行渲染成像。

具体地，根据本发明实施例，上述根据帧间偏移量对目标对象在当前时刻下的位姿进行校正的步骤包括：

根据帧间偏移量对第一自由度位姿估计进行校正；

自由度位姿估计(6DoF，6degrees of freedom，6自由度位姿估计)，是由3D空间的移动应用出来的6个基本动作名称，可分为两大类，一类是平移(即平行线移动)，一类是旋转。在3D立体空间中的向量为X、Y以及Z轴，每个轴都有平移旋转动作，所以在3D立体空间里一共就有6个基本移动动作，也就是所谓的6DOF。

6DoF实际上包括三维空间朝向的估计和三维空间位置的估计。在数学上，三维空间朝向是由9个可变参数构成的第一矩阵(用3×3的矩阵R表示)，三维空间位置是由3×1的矩阵T＝(x,y,z)^T表示。

通过上述设置，首先根据帧间偏移量对上一时刻下目标对象对应的自由度位姿估计进行校准，然后根据上一时刻下校正的自由度位姿估计对当前时刻下目标对象对应的自由度位姿估计进行校正，从而实现在线实时去抖动，提升去抖动的效率，降低去抖动流程的复杂度。

进一步地，根据本发明实施例，上述根据帧间偏移量对第一自由度位姿估计进行校正的步骤包括：

具体地，根据本发明实施例，帧间偏移量表示目标对象在相邻两个时刻下的视频帧中的位置偏移量，根据帧间偏移量对第一自由度位姿估计(上一时刻下目标对象的自由度位姿估计)内的三维空间位置(即第二矩阵)进行校正。进而得到校正之后的第一自由度位姿估计。

优选地，根据本发明实施例，上述根据校正后的第一自由度位姿估计对第二自由度位姿估计进行校正的步骤包括：

具体地，通过3D模型点云根据相邻两时刻下目标对象的自由度位姿估计在图像二维坐标系下进行重投影，得到两个时刻下的2D坐标的集合，进而计算目标对象在相邻两个时刻下的重投影误差，根据该重投影误差对第一矩阵进行校正，根据校正后的第一矩阵和校正后的第二矩阵校正当前时刻下的自由度位姿估计。

示例性地，根据本发明实施例，上述根据重投影误差对第一矩阵进行校正的步骤包括：

重投影误差与第一矩阵和第二矩阵的学习率之间存在对应关系，随着视频帧的不断生成，重投影误差是动态变化的，因此第一矩阵与第二矩阵的学习率也是不断变化的。通过上述设置，首先根据重投影误差与学习率之间的对应关系计算第一矩阵和第二矩阵的学习率，进而根据重投影误差与第一矩阵和第二矩阵的学习率来实现对第一矩阵的校正。

根据本发明实施例的技术方案，因为采用分别对包含目标对象的第一视频帧和第二视频帧进行图像分割处理，以确定目标对象在第一视频帧和第二视频帧中的区域位置；其中，第一视频帧为上一时刻目标对象对应的视频帧，第二视频帧为当前时刻目标对象对应的视频帧；根据目标对象在第一视频帧和第二视频帧中的区域位置确定目标对象的帧间偏移量；根据帧间偏移量对目标对象在当前时刻下的自由度位姿估计进行校正，根据校正后的自由度位姿估计对目标对象进行渲染成像的技术手段，所以克服了现有技术中只能通过对视频后期处理实现去抖动，而无法实现在线实时去抖动，应用场景单一，用户体验差的技术问题，进而达到实现在线实时视频去抖动，拓展了视频去抖动的应用场景，提升了用户体验的技术效果。

图2a是根据本发明第二实施例提供的视频去抖动方法的主要流程的示意图；本发明实施例的一应用场景是试鞋过程中的视频去抖动，如图2a所示，本发明实施例提供的视频去抖动方法主要包括：

步骤S201，获取目标对象对应的第一视频帧和第二视频帧。

对于试鞋过程中的视频去抖动应用场景，主要解决的就是视频帧中鞋/脚的抖动和漂移现象。因此，获取当前时刻下和上一时刻下目标对象(在该实施例中即为鞋/脚)对应的视频帧，以便于后续提取目标对象在二维坐标系下的视觉线索点，并将视觉线索点与目标对象在三维坐标系下的自由度位姿估计进行结合，进而实现视频防抖动。

步骤S202，分别对第一视频帧和第二视频帧进行图像分割处理，得到目标对象在第一视频帧和第二视频帧中的区域图像。

具体地，根据本发明实施例，可采用卷积神经网络模型对视频帧进行图像分割处理。卷积神经网络模型是基于Fast SCNN(Fast Semantic Segmentation Network，快速卷积神经网络)，Fast SCNN采用如图2b所示的金字塔池化结构，能很好的保持完整的上下文间信息，避免出现误分类的情形。同时，该结构能对一些小尺寸、不显著的物体有较为鲁棒的效果，能够识别包含不显著物体的不同子区域。

根据本发明实施例的一具体实施方式，上述卷积神经网络模型可采取如下所示的softMax loss损失函数，该损失函数的结果相当于输入每个像素被分到每个标签的概率分布：

步骤S203，根据第一阈值对区域图像进行二值化处理，根据二值化处理结果确定目标对象在第一视频帧和第二视频帧中的区域位置。

具体地，根据本发明实施例，上述二值化处理过程为：将所述区域图像中灰度值大于或者等于第一阈值的像素点的灰度值置为255，将其余像素点的灰度值置为0，其中，灰度值为255的像素点对应的位置为所述目标对象在所述第一视频帧和所述第二视频帧中的区域位置。

具体地，如图2c所示，采取卷积神经网络模型确定目标对象在视频帧中对应的区域图像之后，对区域图像进行二值化处理，得到目标对象在视频帧中对应的区域位置，进而利于后续从视频帧中提取目标对象对应的视觉线索点，提高视频去抖动的准确率。

步骤S204，根据目标对象在第一视频帧和第二视频帧中的区域位置，从第一视频帧和第二视频帧中分别提取目标对象对应的视觉线索点；根据视觉线索点确定目标对象对应的帧间偏移量。

为了说明具体过程，假设I_t0表示上一时刻对应的视频帧，I_t1表示当前时刻对应的视频帧。首先，根据脚对应的Mask(区域位置)，分别提取I_t0和I_t1对应的视频帧图像上的视觉线索点(如图2d所示，根据二值化图像对目标对象在视频帧中区域位置进行更新后，框定视频帧中的目标对象，并提取视觉线索点)，分别用集合K_t0和K_t1表示；然后通过视觉算法中常用的匹配算法，得到K_t0和K_t1集合中具有匹配关系的集合K_m；最后，对K_m中视觉线索点进行位移平均计算，得到二维矢量(即帧间偏移量)其中，/>和/>是K_v在二维坐标系下的两个分量。

步骤S205，获取第一自由度位姿估计和第二自由度位姿估计。

6DoF实际上包括三维空间朝向的估计和三维空间位置的估计。在数学上，三维空间朝向是由9个可变参数构成的第一矩阵(用3×3的矩阵R表示)，三维空间位置是由3×1的矩阵T＝(x,y,z)^T表示。记上一时刻I_t0对应的视频帧上脚对应的6DoF为[R|T]_t0，当前时刻下I_t0对应的视频帧上脚对应的6DoF为[R|T]_t1。

步骤S206，根据帧间偏移量对第一自由度位姿估计中的第二矩阵进行校正，根据校正后第二矩阵对第一自由度位姿估计进行校正。

具体地，根据本发明实施例，根据帧间偏移量在x，y上的分量对[R|T]_t0进行校准。主要思想是将二维图像坐标系下的帧间偏移量转换到三维相机坐标系下，其中深度值用T_z表示。进而得到，目标对象(本发明实施例中的脚)在x，y上的变化量为：

其中，T_z表示矩阵T的z分量，f_x和f_y是指相机内参中的焦距参数。校正后的第一自由度位姿估计为T_r＝(x+Δx，y+Δy，z)^T。

步骤S207，计算第二自由度位姿估计和校正后的第一自由度位姿估计之间的重投影误差。

根据本发明实施例，对上一时刻的自由度位姿估计进行校正之后，通过3D模型点云X根据[R|T]_t0和[R|T]_t1在二维坐标系上进行重投影，得到两个2D坐标集合，分别用Pts_r和Pts_t1表示：

Pts_r＝k*[R|T_r]*X

Pts_t1＝k*[R|T]_t1*X

Dist_L1＝norm(Pts_r-Pts_t1)

其中，k为相机内参，Dist_L1是两个集合Pts_r和Pts_t1之间的平均L1距离，表示为重投影误差。

步骤S208，根据重投影误差与学习率之间的对应关系计算第一矩阵和第二矩阵的学习率；根据重投影误差与第一矩阵和第二矩阵的学习率对第一矩阵进行校正。

根据本发明实施例，重投影误差与学习率之间的对应关系通过工程经验调参得到，调参过程如下：

调试不同的重投影误差下采用何种学习率最好时，观测得到数据：{(displace[米]，lr}＝{(0.005,0.1),(0.01,0.4),(0.02,0.7),(0.05,1)}。可以看出，重投影误差与学习率之间是非线性关系，假设：

lr＝a*ln(displace)+b

通过构造代入上述观测数据得到，a＝0.432，b＝2.38755。(需要说明的是，上述得到重投影误差与学习率之间的对应关系的方式仅为示例，对应的数值仅为示例)。

根据重投影误差与学习率之间的对应关系拟合得到学习率方程。公式如下：

learningrate_R＝0.432*ln(Dist_L1)+2.38755

learningrate_T＝learningrate_R*learningrate_R

随着视频帧的不断生成，重投影误差是动态变化的，因此第一矩阵与第二矩阵的学习率也是不断变化的，进而确定第一矩阵R和第二矩阵T的校正方程如下：

R_r＝learningrate_R*R_t1+(1-learningrate_R)*R_t0

T_r＝learningrate_T*T_t1+(1-learningrate_T)*T_r

根据本发明实施例，又考虑到旋转矩阵R_t0，R_t1∈so(3)，该两个矩阵对于加法是不封闭的，两个变换矩阵相加后得到的并不是一个变换矩阵。因此，实际计算时需要转换为ξ_t1,ξ_t1t0∈so(3)再做加法计算，其中：

ξ_r＝learningrate_R*ξ_t1+(1-learningrate_R)*ξ_t0

根据方程R_r＝exp(ξ_r ^∧)对第一矩阵进行校正得到校正后的R_r。

步骤S209，根据校正后的第一矩阵和校正后的第二矩阵，对目标对象在当前时刻下的自由度位姿估计进行校正。

根据本发明实施例，利用校正后的第一矩阵R_r和校正后的第二矩阵T_r得到校正后的第二自由度位子估计[R_r|T_r]。

步骤S210，根据校正后的自由度位姿估计对目标对象进行渲染成像。

通过上述设置，利用校正后的第二自由度位姿估计进行三维鞋模的渲染成像，即可实现在AR试鞋效果上，抑制原始[R|T]_t1(原当前时刻的自由度位姿估计)渲染成像存在的视频抖动问题。

图3是根据本发明实施例提供的视频去抖动装置的主要模块的示意图；如图3所示，本发明实施例提供的视频去抖动装置300主要包括：

区域位置确定模块301，用于获取包含目标对象的第一视频帧和第二视频帧，确定目标对象在第一视频帧和第二视频帧中的区域位置；其中，第一视频帧为上一时刻目标对象对应的视频帧，第二视频帧为当前时刻目标对象对应的视频帧。

根据本发明实施例，上述区域位置确定模块301还用于：

帧间偏移量确定模块302，用于根据目标对象在第一视频帧和第二视频帧中的区域位置确定目标对象的帧间偏移量。

具体地，根据本发明实施例，上述帧间偏移量确定模块302还用于：

根据视觉线索点确定目标对象对应的帧间偏移量。

校正模块303，用于根据帧间偏移量对目标对象在当前时刻下的自由度位姿估计进行校正，根据校正后的自由度位姿估计对目标对象进行渲染成像。

具体地，根据本发明实施例，上述校正模块303还用于：

根据帧间偏移量对第一自由度位姿估计进行校正；

进一步地，根据本发明实施例，上述校正模块303还用于：

优选地，根据本发明实施例，上述校正模块303还用于：

示例性地，根据本发明实施例，上述校正模块303还用于：

图4示出了可以应用本发明实施例的视频去抖动方法或视频去抖动装置的示例性系统架构400。

如图4所示，系统架构400可以包括终端设备401、402、403，网络404和服务器405(此架构仅仅是示例，具体架构中包含的组件可以根据申请具体情况调整)。网络404用以在终端设备401、402、403和服务器405之间提供通信链路的介质。网络404可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备401、402、403通过网络404与服务器405交互，以接收或发送消息等。终端设备401、402、403上可以安装有各种通讯客户端应用，例如视频去抖动类应用、AR试装类应用、数据处理类应用、视频直播类应用(仅为示例)。

终端设备401、402、403可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器405可以是提供各种服务的服务器，例如对用户利用终端设备401、402、403所执行视频去抖动的服务器(仅为示例)。该服务器可以对接收到的目标对象对应的第一视频帧和第二视频帧等数据进行分析等处理，并将处理结果(例如第一二值化图像和第二二值化图像、帧间偏移量、校正后的自由度位姿估计--仅为示例)反馈给终端设备。

需要说明的是，本发明实施例所提供的视频去抖动方法一般由服务器405执行，相应地，视频去抖动装置一般设置于服务器405中。

应该理解，图4中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图5，其示出了适于用来实现本发明实施例的终端设备或服务器的计算机系统500的结构示意图。图5示出的终端设备或服务器仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，计算机系统500包括中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括二值化图像确定模块、帧间偏移量确定模块和校正模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，帧间偏移量确定模块还可以被描述为“用于根据第一二值化图像和第二二值化图像确定目标对象的帧间偏移量的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：分别对包含目标对象的第一视频帧和第二视频帧进行图像分割处理，以确定目标对象在第一视频帧和第二视频帧中的区域位置；其中，第一视频帧为上一时刻目标对象对应的视频帧，第二视频帧为当前时刻目标对象对应的视频帧；根据目标对象在第一视频帧和第二视频帧中的区域位置确定目标对象的帧间偏移量；根据帧间偏移量对目标对象在当前时刻下的自由度位姿估计进行校正，根据校正后的自由度位姿估计对目标对象进行渲染成像。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种视频去抖动方法，其特征在于，包括：

获取包含目标对象的第一视频帧和第二视频帧，确定所述目标对象在所述第一视频帧和所述第二视频帧中的区域位置；其中，所述第一视频帧为上一时刻所述目标对象对应的视频帧，所述第二视频帧为当前时刻所述目标对象对应的视频帧；

根据所述目标对象在所述第一视频帧和所述第二视频帧中的区域位置确定所述目标对象的帧间偏移量；

根据所述帧间偏移量对所述目标对象在当前时刻下的自由度位姿估计进行校正，根据校正后的自由度位姿估计对所述目标对象进行渲染成像；所述根据所述帧间偏移量对所述目标对象在当前时刻下的位姿进行校正的步骤包括：

获取第一自由度位姿估计和第二自由度位姿估计；其中，所述第一自由度位姿估计是所述目标对象在上一时刻下的自由度位姿估计，所述第二自由度位姿估计是所述目标对象在当前时刻下的自由度位姿估计；自由度位姿估计包括第一矩阵和第二矩阵，所述第一矩阵由三维空间朝向参数构成，所述第二矩阵由三维空间位置参数构成；

根据所述帧间偏移量对所述第一自由度位姿估计进行校正；

根据所述校正后的第一自由度位姿估计对所述第二自由度位姿估计进行校正。

2.根据权利要求1所述的视频去抖动方法，其特征在于，所述确定所述目标对象在所述第一视频帧和所述第二视频帧中的区域位置，包括：

分别对所述第一视频帧和所述第二视频帧进行图像分割处理，得到所述目标对象在所述第一视频帧和所述第二视频帧中的区域图像；

所述区域图像进行二值化处理，根据二值化处理结果确定所述目标对象在所述第一视频帧和所述第二视频帧中的区域位置。

3.根据权利要求1所述的视频去抖动方法，其特征在于，所述根据所述目标对象在所述第一视频帧和所述第二视频帧中的区域位置确定所述目标对象的帧间偏移量的步骤包括：

根据所述目标对象在所述第一视频帧和所述第二视频帧中的区域位置，从所述第一视频帧和所述第二视频帧中分别提取所述目标对象对应的视觉线索点；

根据所述视觉线索点确定所述目标对象对应的帧间偏移量。

4.根据权利要求1所述的视频去抖动方法，其特征在于，所述根据所述帧间偏移量对所述第一自由度位姿估计进行校正的步骤包括：

根据所述帧间偏移量对所述第一自由度位姿估计中的第二矩阵进行校正，根据校正后第二矩阵对所述第一自由度位姿估计进行校正。

5.根据权利要求1所述的视频去抖动方法，其特征在于，所述根据所述校正后的第一自由度位姿估计对所述第二自由度位姿估计进行校正的步骤包括：

计算所述第二自由度位姿估计和校正后的第一自由度位姿估计之间的重投影误差，根据所述重投影误差对所述第一矩阵进行校正；

根据校正后的第一矩阵和校正后的第二矩阵，对所述目标对象在当前时刻下的自由度位姿估计进行校正。

6.根据权利要求5所述的视频去抖动方法，其特征在于，所述根据所述重投影误差对所述第一矩阵进行校正的步骤包括：

根据所述重投影误差与学习率之间的对应关系计算所述第一矩阵和所述第二矩阵的学习率；

根据所述重投影误差与所述第一矩阵和所述第二矩阵的学习率对所述第一矩阵进行校正。

7.一种视频去抖动装置，其特征在于，包括：

区域位置确定模块，用于获取包含目标对象的第一视频帧和第二视频帧，确定所述目标对象在所述第一视频帧和所述第二视频帧中的区域位置；其中，所述第一视频帧为上一时刻所述目标对象对应的视频帧，所述第二视频帧为当前时刻所述目标对象对应的视频帧；

帧间偏移量确定模块，用于根据所述目标对象在所述第一视频帧和所述第二视频帧中的区域位置确定所述目标对象的帧间偏移量；

校正模块，用于根据所述帧间偏移量对所述目标对象在当前时刻下的自由度位姿估计进行校正，根据校正后的自由度位姿估计对所述目标对象进行渲染成像；所述校正模块还用于：

根据所述帧间偏移量对所述第一自由度位姿估计进行校正；

8.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。

9.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。