CN108171735A

CN108171735A - 基于深度学习的十亿像素视频对齐方法及系统

Info

Publication number: CN108171735A
Application number: CN201711443851.3A
Authority: CN
Inventors: 刘烨斌; 刘帝; 戴琼海
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2017-12-27
Filing date: 2017-12-27
Publication date: 2018-06-15
Anticipated expiration: 2037-12-27
Also published as: CN108171735B

Abstract

本发明提出了一种基于深度学习的十亿像素视频对齐方法及系统，其中，方法包括：S1、模型训练及预处理，使用多个数据训练深度学习网络模型，并对局部视频相机图像进行预处理；S2、得到每个局部视频相机图像在全局视频相机图像中匹配特征点最多的位置及位置的匹配特征点对；S3、利用每个局部视频相机图像在全局视频相机图像的最佳匹配位置进行初步对齐；S4、利用每个局部视频相机图像在全局视频相机图像的初步对齐结果，进行精细对齐和交叠区域修正；S5、对精细对齐和交叠区域修正的结果进行光学对齐，得到最终的视频对齐结果。该发明应用深度学习并擅长于提取特征，可以得到更好的特征匹配效果，从而得到更好的视频对齐效果。

Description

基于深度学习的十亿像素视频对齐方法及系统

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于深度学习的十亿像素视频对齐方法及系统。

背景技术

十亿像素技术是计算机视觉领域的重点问题。相比于十亿像素图像，十亿像素视频可以显示大范围场景的动态信息。而显示技术的发展，网络直播和实况直播盛行，以及用户的需求递增都为十亿像素视频技术提供了广阔且重要的应用价值。十亿像素视频可以让用户选择自己感兴趣的区域的关注，提供更友好的交互；而超高的分辨率能使用户如临其境。但相比于十亿像素图像的发展，十亿像素视频的发展显得略微滞后。十亿像素视频由于存储和网络带宽等条件的限制，无法采用普通的视频处理技术来处理。而且单个相机的感光元件面积非常有限，因此使用单个数字相机来拍摄十亿像素视频非常困难。因此相关技术中提出了对感光元件和算法的改进，但是在传统的单光圈成像系统中，几何畸变和衍射极限这两个因素限制了传统单光圈成像系统可获得的最大分辨率。因此必须增加光学系统尺寸，而光学系统尺寸的增加又会引入更大的几何畸变，因此又需要引入新的光学元件，从而使整体系统的复杂度以及成本大大增加。

随着计算摄像学的发展，人们不再局限于硬件上单个相机的感光元件，转而提出了新的采集装置。如将多个小的光学系统拼接成一个大的光学系统而得到十亿像素视频结果，比较著名的如AWARE系统。

十亿像素视频生成主要包括视频采集、几何对齐和光学对齐三个部分。其中视频的对齐尤其是几何对齐是视频拼接的重点难点所在。几何对齐的重要过程是局部视频相机与全局视频相机图像的特征点匹配问题，传统的特征点匹配算法有SIFT算法、SURF算法等，但由于局部视频图像与全局视频图像尺度相差较大，而SIFT算法和SURF算法均只适用于图像对尺度接近的情况，因而无法得到足够的匹配特征点。因此得到匹配特征点的效果直接影响了整个几何对齐的结果。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明的一方面目的在于提出一种能够得到更好的匹配效果及对齐效果的基于深度学习的十亿像素视频对齐方法。

本发明另一方面目的在于提出一种基于深度学习的十亿像素视频对齐系统。

为达到上述目的，本发明一方面的实施例提出了一种基于深度学习的十亿像素视频对齐方法，包括以下步骤：S1、模型训练及预处理，其中，使用多个数据训练深度学习网络模型，并对局部视频相机图像进行预处理；S2、将每个局部视频相机图像与全局视频相机图像输入训练好的所述深度学习网络模型，得到每个局部视频相机图像在全局视频相机图像中匹配特征点最多的位置及所述位置的匹配特征点对；S3、对每个局部视频相机图像，利用所述每个局部视频相机图像在全局视频相机图像的最佳匹配位置进行初步对齐；S4、对每个局部视频相机图像，利用所述每个局部视频相机图像在全局视频相机图像的初步对齐结果，进行精细对齐和交叠区域修正；S5、对精细对齐和交叠区域修正的结果进行光学对齐，得到最终的视频对齐结果。

根据本发明实施例的基于深度学习的十亿像素视频对齐方法，通过模型训练及预处理，并匹配特征点对，然后进行初步对齐，根据结果进行精细对齐和交叠区域修正，最终对精细对齐和交叠区域修正的结果进行光学对齐，得到视频对齐结果。该方法应用深度学习擅长于提取特征，可以得到更好的特征匹配效果，从而得到更好的视频对齐效果。

在一些示例中，在所述S1中，对局部视频相机图像的预处理是将局部视频相机图像缩放至全局视频相机图像的尺度。

在一些示例中，所述S2中，每个局部视频相机图像在全局视频相机图像中匹配特征点最多的位置为局部视频在全局视频中的实际位置。

在一些示例中，所述S3包括：将局部视频相机图像放置于对应于所述局部视频相机图像的全局视频相机图像中最佳匹配位置，得到所述初步对齐结果。

在一些示例中，所述步骤S4包括：

定义2D网格的非均匀变换进行精细对齐，其中，对于窗格的四个顶点，其中，所述四个顶点为：四边形窗格中任意位置用四个顶点的坐标表示，所述坐标为：p＝V_pω_p，

其中，表示各个顶点的权值，则有：

其中，{p,p}为经过深度神经网络后得到的最佳位置的匹配特征点对，p位于原图像上，p位于目标图像上，对各窗格的顶点坐标，估计一个仿射变换矩阵H_i，则有：V_i＝H_iV_i。

在一些示例中，所述步骤S4中在经由深度神经网络输出所有局部视频相机图像和全局视频相机图像的最佳匹配位置和所述位置特征匹配点之后，对相邻的局部视频相机图像进行交叠区域修正。

在一些示例中，所述步骤S4中，对经由深度神经网络输出所有局部视频相机图像和全局视频相机图像的最佳匹配位置和所述位置特征匹配点之后，根据2D网格变换和基于特征点的ZNCC patch方法进行的相邻局部视频图像交叠区域修正；

其中，表达公式如下：

其中，p_s和p_t分别是源图像I_s和目标图像I_t对应的特征点，G_s和G_t分别是源图像I_s和目标图像I_t对应的全局位置；

使用RANSAC方法剔除离群点，以保证算法的鲁棒性，找到对应特征点后，使用2D网格变换得到交叠区域修正的结果。

在一些示例中，所述步骤S5中，对经过精细对齐和交叠区域修正的结果采用仿射颜色映射模型进行光学对齐得到最终结果。

在一些示例中，采用仿射颜色映射模型进行光学对齐。

本发明的另一方面的实施例提出了一种基于深度学习的十亿像素视频对齐系统，包括：模型训练及预处理模块，用于使用多个数据训练深度学习网络模型，并对局部视频相机图像进行预处理；匹配特征点对获取模块，用于将每个局部视频相机图像与全局视频相机图像输入训练好的所述深度学习网络模型，得到每个局部视频相机图像在全局视频相机图像中匹配特征点最多的位置及所述位置的匹配特征点对；初步对其模块，用于对每个局部视频相机图像，利用所述每个局部视频相机图像在全局视频相机图像的最佳匹配位置进行初步对齐；修正模块，用于对每个局部视频相机图像，利用所述每个局部视频相机图像在全局视频相机图像的初步对齐结果，进行精细对齐和交叠区域修正；视频对齐结果获取模块，用于对精细对齐和交叠区域修正的结果进行光学对齐，得到最终的视频对齐结果。

根据本发明实施例的基于深度学习的十亿像素视频对齐系统，通过模型训练及预处理，并匹配特征点对，然后进行初步对齐，根据结果进行精细对齐和交叠区域修正，最终对精细对齐和交叠区域修正的结果进行光学对齐，得到视频对齐结果。该系统应用深度学习擅长于提取特征，可以得到更好的特征匹配效果，从而得到更好的视频对齐效果。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1是根据本发明实施例的基于深度学习的十亿像素视频对齐方法的流程图；

图2是本发明一个实施例的实施精细对齐和交叠区域修正的2D网格变换示意图；和

图3是本发明实施例的基于深度学习的十亿像素视频对齐系统的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

图1是根据本发明一个实施例的基于深度学习的十亿像素视频对齐方法的流程图，如图1所示并结合图2本发明一个实施例的实施精细对齐和交叠区域修正的2D网格变换示意图，该方法具体步骤如下所示：

S1，模型训练及预处理，其中，使用多个数据训练深度学习网络模型，并对局部视频相机图像进行预处理。

具体来说，使用大量数据训练深度学习网络模型，并对局部视频相机图像进行预处理。

在具体示例中，对局部视频相机图像的预处理是将局部视频相机图像缩放至全局视频相机图像的尺度。

S2，将每个局部视频相机图像与全局视频相机图像输入训练好的深度学习网络模型，得到每个局部视频相机图像在全局视频相机图像中匹配特征点最多的位置及位置的匹配特征点对。

在具体示例中，每个局部视频相机图像在全局视频相机图像中匹配特征点最多的位置为局部视频在全局视频中的实际位置。

S3，对每个局部视频相机图像，利用每个局部视频相机图像在全局视频相机图像的最佳匹配位置进行初步对齐。

在具体示例中，将局部视频相机图像放置于对应于局部视频相机图像的全局视频相机图像中最佳匹配位置，得到初步对齐结果

S4，对每个局部视频相机图像，利用每个局部视频相机图像在全局视频相机图像的初步对齐结果，进行精细对齐和交叠区域修正。

在具体示例中，定义2D网格的非均匀变换进行精细对齐，其中，对于原图像窗格的四个顶点，其中，四个顶点为：四边形窗格中任意位置用四个顶点的坐标表示，坐标为：p＝V_pω_p，

其中，表示各个顶点的权值，则有：

其中，{p,p}为经过深度神经网络后得到的最佳位置的匹配特征点对，p位于原图像上，p位于目标图像，对各窗格的顶点坐标，估计一个仿射变换矩阵H_i，则有：V_i＝H_iV_i。

在具体示例中，在经由深度神经网络输出所有局部视频相机图像和全局视频相机图像的最佳匹配位置和位置特征匹配点之后，对相邻的局部视频相机图像进行交叠区域修正。

在具体示例中，对经由深度神经网络输出所有局部视频相机图像和全局视频相机图像的最佳匹配位置和位置特征匹配点之后，根据2D网格变换和基于特征点的ZNCC patch方法进行的相邻局部视频图像交叠区域修正；

其中，表达公式如下：

S5，对精细对齐和交叠区域修正的结果进行光学对齐，得到最终的视频对齐结果。

在具体示例中，对经过精细对齐和交叠区域修正的结果采用仿射颜色映射模型进行光学对齐得到最终结果。

在具体示例中，采用仿射颜色映射模型进行光学对齐。其表达公式如下：

其中，[R(x,y),G(x,y),B(x,y)]和

[R^*(x,y),G^*(x,y),B^*(x,y)]分别表示变换前后的颜色。A为颜色仿射映射矩阵，b为偏差，计算公式如下：

Σ_u和Σ_v为目标图像与源图像的协方差矩阵，μ_v与μ_u为目标图像与源图像的协方差矩阵。

图3是本发明实施例的基于深度学习的十亿像素视频对齐系统的结构示意图，如图3所示，本发明实施例的基于深度学习的十亿像素视频对齐系统10，包括：模型训练及预处理模块101、匹配特征点对获取模块102、初步对齐模块103、修正模块104和视频对齐结果获取模块105。

其中，模型训练及预处理模块101，用于使用多个数据训练深度学习网络模型，并对局部视频相机图像进行预处理。

匹配特征点对获取模块102，用于将每个局部视频相机图像与全局视频相机图像输入训练好的深度学习网络模型，得到每个局部视频相机图像在全局视频相机图像中匹配特征点最多的位置及位置的匹配特征点对。

初步对齐模块103，用于对每个局部视频相机图像，利用每个局部视频相机图像在全局视频相机图像的最佳匹配位置进行初步对齐。

修正模块104，用于对每个局部视频相机图像，利用每个局部视频相机图像在全局视频相机图像的初步对齐结果，进行精细对齐和交叠区域修正。

视频对齐结果获取模块105，用于对精细对齐和交叠区域修正的结果进行光学对齐，得到最终的视频对齐结果。

需要说明的是，前述对基于深度学习的十亿像素视频对齐方法实施例的解释说明也适用于该基于深度学习的十亿像素视频对齐系统，此处不再赘述。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于深度学习的十亿像素视频对齐方法，其特征在于，包括以下步骤：

S1、模型训练及预处理，其中，使用多个数据训练深度学习网络模型，并对局部视频相机图像进行预处理；

S2、将每个局部视频相机图像与全局视频相机图像输入训练好的所述深度学习网络模型，得到每个局部视频相机图像在全局视频相机图像中匹配特征点最多的位置及所述位置的匹配特征点对；

S3、对每个局部视频相机图像，利用所述每个局部视频相机图像在全局视频相机图像的最佳匹配位置进行初步对齐；

S4、对每个局部视频相机图像，利用所述每个局部视频相机图像在全局视频相机图像的初步对齐结果，进行精细对齐和交叠区域修正；

S5、对精细对齐和交叠区域修正的结果进行光学对齐，得到最终的视频对齐结果。

2.根据权利要求1所述的基于深度学习的十亿像素视频对齐方法，其特征在于，在所述S1中，对局部视频相机图像的预处理是将局部视频相机图像缩放至全局视频相机图像的尺度。

3.根据权利要求1所述的基于深度学习的十亿像素视频对齐方法，其特征在于，在所述S2中，每个局部视频相机图像在全局视频相机图像中匹配特征点最多的位置为局部视频在全局视频中的实际位置。

4.根据权利要求1所述的基于深度学习的十亿像素视频对齐方法，其特征在于，所述S3包括：

将局部视频相机图像放置于对应于所述局部视频相机图像的全局视频相机图像中最佳匹配位置，得到所述初步对齐结果。

5.根据权利要求1所述的基于深度学习的十亿像素视频对齐方法，其特征在于，所述步骤S4包括：

其中，表示各个顶点的权值，则有：

6.根据权利要求1所述的基于深度学习的十亿像素视频对齐方法，其特征在于，在所述步骤S4中在经由深度神经网络输出所有局部视频相机图像和全局视频相机图像的最佳匹配位置和所述位置特征匹配点之后，对相邻的局部视频相机图像进行交叠区域修正。

7.根据权利要求6所述的基于深度学习的十亿像素视频对齐方法，其特征在于，所述步骤S4中，对经由深度神经网络输出所有局部视频相机图像和全局视频相机图像的最佳匹配位置和所述位置特征匹配点之后，根据2D网格变换和基于特征点的ZNCC patch方法进行的相邻局部视频图像交叠区域修正；

其中，表达公式如下：

s.t.||(p_s+G_s)-(p_t+G_t)||₁≤r，

8.根据权利要求1所述的基于深度学习的十亿像素视频对齐方法，其特征在于，在所述步骤S5中，对经过精细对齐和交叠区域修正的结果采用仿射颜色映射模型进行光学对齐得到最终结果。

9.根据权利要求8所述的基于深度学习的十亿像素视频对齐方法，其特征在于，其中，采用仿射颜色映射模型进行光学对齐。

10.一种基于深度学习的十亿像素视频对齐系统，其特征在于，包括：

模型训练及预处理模块，用于使用多个数据训练深度学习网络模型，并对局部视频相机图像进行预处理；

匹配特征点对获取模块，用于将每个局部视频相机图像与全局视频相机图像输入训练好的所述深度学习网络模型，得到每个局部视频相机图像在全局视频相机图像中匹配特征点最多的位置及所述位置的匹配特征点对；

初步对齐模块，用于对每个局部视频相机图像，利用所述每个局部视频相机图像在全局视频相机图像的最佳匹配位置进行初步对齐；

修正模块，用于对每个局部视频相机图像，利用所述每个局部视频相机图像在全局视频相机图像的初步对齐结果，进行精细对齐和交叠区域修正；

视频对齐结果获取模块，用于对精细对齐和交叠区域修正的结果进行光学对齐，得到最终的视频对齐结果。