CN107113381A

CN107113381A - 时空局部变形及接缝查找的容差视频拼接

Info

Publication number: CN107113381A
Application number: CN201580062015.3A
Authority: CN
Inventors: 蒋伟; 顾金伟
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2014-11-13
Filing date: 2015-11-11
Publication date: 2017-08-29
Anticipated expiration: 2035-11-11
Also published as: WO2016074620A1; EP3218870A1; CN107113381B; EP3218870A4; US9363449B1; US20160142643A1; EP3218870B1

Abstract

装置用于执行容差视频拼接方法。所述方法包括：确定多个待拼接的视频序列；对所述视频序列执行时空局部变形计算处理，以确定多个目标变形映射；采用所述目标变形映射，将所述视频序列中的多个帧变形为多个目标虚拟帧；对所述目标虚拟帧进行基于内容的时空查找接缝处理，以确定多个目标接缝映射；采用所述目标接缝映射将所述视频序列进行拼接。

Description

时空局部变形及接缝查找的容差视频拼接

技术领域

本发明通常涉及视频处理，尤其涉及时空局部变形及接缝查找的容差视频拼接的系统及方法。

背景技术

由于计算能力的日益增强，存储容量的不断扩大，以及传输带宽的不断扩展，市场上出现了多种多样的应用，这为现代用户提供了各种视觉体验。例如，随着诸如超大屏幕以及超清电视等高分辨率显示设备的出现，人们越来越期望生成具有超大视场(Field-of-View，简称FoV)的高质量视频，这可以给用户提供浸入式的媒体体验。已经提出了多种构建大FoV图像的设备及方法。为了实现这一目的，专业代理机构采用极其昂贵的高端摄像头系统，例如，国防工业采用的AWARE-2摄像头，这是一种单核心多尺度的摄像头，包括一组辅助微型摄像头所环绕的球形对称物镜。而对于具有更小预算的群体(例如，独立摄影师或者业余消费者)，则渴望一种能够获得良好质量但是成本低得多的摄像头系统。

发明内容

根据一实施例，提供了一种容差视频拼接方法。所述方法包括：确定多个待拼接的视频序列；对所述视频序列执行时空局部变形计算处理，以确定多个目标变形映射；采用所述目标变形映射，将所述视频序列中的多个帧变形为多个目标虚拟帧；对所述目标虚拟帧进行基于内容的时空接缝查找处理，以确定多个目标接缝映射；采用所述目标接缝映射将所述视频序列进行拼接。

根据另一实施例，提供了一种容差视频拼接装置。所述装置包括：至少一个存储器以及耦合于所述至少一个存储器的至少一个处理器。所述至少一个处理器用于：确定多个待拼接的视频序列；对所述视频序列执行时空局部变形计算处理，以确定多个目标变形映射；采用所述目标变形映射，将所述视频序列中的多个帧变形为多的目标虚拟帧；对所述目标虚拟帧进行基于内容的时空接缝查找处理，以确定多个目标接缝映射；采用所述目标接缝映射将所述视频序列进行拼接。

根据又一实施例，提供了一种包含计算机程序的非瞬时性计算机可读介质。所述计算机程序包括计算机可读程序代码，用于：确定多个待拼接的视频序列；对所述视频序列执行时空局部变形计算处理，以确定多个目标变形映射；采用所述目标变形映射，将所述视频序列中的多个帧变形为多个目标虚拟帧；对所述目标虚拟帧进行基于内容的时空接缝查找处理，以确定多个目标接缝映射；采用所述目标接缝映射将所述视频序列进行拼接。

在一个示例性实施例中，采用容差视频拼接装置将所述视频序列进行拼接。所述容差视频拼接装置包括：确定多个待拼接的视频序列的确定元件；对所述视频序列执行时空局部变形计算处理，以确定多个目标变形映射的执行元件；采用所述目标变形映射，将所述视频序列中的多个帧变形为多个目标虚拟帧的变形元件；对所述目标虚拟帧进行基于内容的时空接缝查找处理，以确定多个目标接缝映射的执行元件；采用所述目标接缝映射将所述视频序列进行拼接的拼接元件。

附图说明

为了更完整地理解本发明及其优点，现在参考下文结合附图进行的描述，相同的数字表示相同的对象，其中：

图1A示出了采用单一全局单应性引起的视差问题的示例。

图1B示出了采用单应性网格校正的视差问题。

图2A和图2B示出了在视频中直接运用二维(Two Dimensional，简称2D)拼接技术而引起的视差问题的示例。

图3示出了本发明提供的视频拼接的总体工作流程。

图4示出了本发明提供的实现图3所述时空局部变形计算块功能的时空局部变形框架的详图。

图5示出了本发明提供的实现图3所述基于内容的时空接缝查找块功能的基于内容的时空接缝查找框架的详图。

图6示出了本发明提供的采用时空图形构造处理所构造的图形的示例。

图7示出了本发明提供的视频拼接的示例方法。

图8示出了本发明提供的用于进行视频拼接工作流程的计算设备的示例。

具体实施方式

下面所述的图1A至图8以及用于描述本专利文档中的本发明原则的各实施例都仅用于示意性说明，而非对本发明的范围造成限制。本领域技术人员应该知道，本发明原则可以在任一合理设置的设备或系统中得以实现。

以下文档的内容被引入到本发明。(1)Brady等人编写的《多尺度十亿像素摄影》，Nature：486:386-389，2012(以下称为“参考1”)；(2)F.Zhang和F.Liu编写的《容差图像拼接》，IEEE CVPR，2014(以下称为“参考2”)；(3)Szeliski编写的《图像对齐及拼接：教程》，计算机图形及计算机视觉基础及趋势2006(以下称为“参考3”)。

采用诸如正常单反相机DSLR(Digital Single-Lens Reflex，简称DSLR)或移动摄像头等成本适中的摄像头，已经提出了很多用于生成大视场(Field-of-View，简称FoV)2D照片全景的方法。这些方法不需要使用恢复几何及测光场景模块，但是他们要求所采集的场景必须是平面或远景的，或者摄像头视点必须是紧密分布的，使得采用单一全局单应性可以将每个图像拼接到参考图像。当这些要求不能完全满足时，即当单一全局单应性不足以将图像拼接到参考图像时(这在实际应用中经常遇到)，生成的拼接的全景通常呈现不同程度的视差问题，例如，图1A所示的重影及失真。

为了解决视差问题，已经提出了一个或多个保留局部内容的变形算法。采用单应网格而非单一全局单应性，可以将每个图像拼接到具有局部单应性的参考图像，从而极大地减少图1B所示的视差问题。然而，如果视频包含不可忽视的中大型移动物体，那么很难普及之前的构造视频全景的2D全景方法。如果直接运用之前的2D全景方法对个别视频帧进行拼接，将会引起严重的问题，不仅仅是针对由于物体移动而造成的物体区域周围，而且也针对由于2D变形和/或拼接接缝中的不一致而造成的全部拼接的视频，正如图2B所示(比较而言，图2A中示出的帧具有更少的问题或没有问题)。

为了解决这些问题，本发明实施例提供了视频拼接的系统及方法，其包括时空局部变形框架以及基于内容的时空接缝查找框架。时空局部变形框架解决的是视频拼接中由移动物体所引起的问题，该框架包括确定最佳局部变形映射的时空成本函数，从而通过保留时空局部对齐、保留时空全局对齐以及保持时空平滑，将视频拼接到参考视频。

基于内容的时空接缝查找框架解决的是由不一致的拼接接缝以及不想要的剪辑显著前景物体的接缝所引起的问题。该框架包括基于内容的时空图割接缝查找机制。构造时空图形，该图形包含空间及时间边缘，并将像素的似物性考虑在内。基于该图形得到的最佳流接缝可以将视频更一致地进行拼接，同时也能避免对显著的前景物体进行剪辑。

图3示出了本发明提供的视频拼接的总体工作流程。图3所示的该工作流程300仅用于示意性说明。可以采用该工作流程300的其他实施例，其并不脱离本发明的范围。

为了更好地阐述视频拼接工作流程300，假设有n个待拼接的视频序列301a-301n。对参考视频序列进行定义，其可以是n个视频序列301a至301n中的任意一个。视频拼接的主要目的是通过将n个视频序列301a-301n的对应帧拼接到参考视频序列，生成更大的视频序列。假定I_i,t表示时间t下的参考视频序列中的帧，假定I_i,t表示时间t下的第i个视频序列中的帧。采用视频拼接，通过在不同的时间t＝1,...,m下将I_i,t,i＝1,...,n拼接到生成虚拟帧Ι′_t。

视频拼接工作流程300包括启用容差视频拼接的两个功能块：时空局部变形计算块310和基于内容的时空接缝查找块320。该时空局部变形计算块310采用视频序列301a-301n确定一组目标变形映射Μ_i,t302。采用对应的目标变形映射Μ_i,t302将每个帧I_i,t变形为目标虚拟帧该基于内容的时空接缝查找块320采用目标虚拟帧303确定一组目标接缝映射304。现对功能块310、320进行更详细的描述。

图4示出了本发明提供的实现时空局部变形计算块310功能的时空局部变形架构的详图。空局部变形架构400可与图3中的视频拼接工作流300结合使用。图4所示的时空局部变形架构400仅用于示意性说明。可以采用其他实施例的架构400，其并不脱离本发明的范围。

如图4所示，时空局部变形架构400采用一组视频序列I_i,t,i＝1,...,n,t＝1,...,m(在图4中，用视频序列301a-301n表示)，并确定一组目标变形映射Μ_i,t,i＝1,...,n,t＝1,...,m(在图4中，用目标变形映射302表示)。每个目标变形映射Μ_i,t包括用于将原始帧I_i,t变换(或变形)为目标虚拟帧的信息，其中，与参考帧是对齐的。

该时空局部变形架构400的第一步骤是采用一组视频序列I_i,t,i＝1,...,n,t＝1,...,m(视频序列301a-301n)，并从每个视频序列中提取一组视觉关键点(P_i,t,k,d_i,t,k),k＝1,...,K_i(关键点401a-401n)，其中，d_i,t,k为视觉描述符。每个视觉关键点(P_i,t,k,d_i,t,k)_i记录对应视频序列中的关键点的时空位置。

参数P_i,t,k＝(x_i,t,k,y_i,t,k)和视觉描述符d_i,t,k共同对关于对应视频序列中的视觉关键点的局部视觉特征进行描述。可以采用各种关键点提取技术提取视觉关键点，例如，2D或3D Harris角点检测器。存在各种用于d_i,t,k的描述符，例如，尺度不变量特征转换(ScaleInvariant Feature Transform，简称SIFT)、加速稳健特征(Speeded Up RobustFeatures，简称SURF)或者加速段测试特征(Features from Accelerated Segment Test，简称FAST)描述符。

采用一组视觉关键点(P_i,t,k,d_i,t,k),k＝1,...,K_i(关键点401a-401n)，该时空局部变形架构400确定一组空间全局单应性(空间全局单应性402)和一组时间全局单应性T_i,t,i＝1,...,n,t＝1,...,m(时间全局单应性403)。每个空间全局单应性为3x3转换矩阵，用于对每个帧I_i,t进行转换，从而与参考帧对齐。类似地，每个时间全局单应性T_i,t为3x3转换矩阵，用于对每个帧I_i,t进行转换，从而与第i个视频序列中的时间参考帧对齐。

在一优选实施例中，可以通过两个步骤确定时间参考帧首先，根据公式A_i＝avg∑_tA_i(t,t+1)计算平均的时间全局单应性A_i，其中，A_i(t,t+1)为3x3转换矩阵，用于对帧I_i,t+1进行转换。通过采用时间全局单应性T_it将每个帧I_i,t进行转换，以便与时间参考帧对齐，从而可以采用A_i定义的静态全局摄像头路径自动实现稳定原始视频帧I_i,t所带来的益处。当视频采集期间存在少量摄像头震动时，这有利于最终的拼接结果。当摄像头系统在物理上不是完全稳定时，例如，当摄像头系统在有强风的室外使用时，可能会出现这种震动。

在一优选实施例中，可以基于关键点(P_i,t,k,d_i,t,k)和(P_i,t+1,k,d_i,t+1,k)之间的相似性确定时间匹配对(P_i,t,l,P_i,t+1,l),l＝1,...,L_i,t，可以基于时间匹配对(P_i,t,l,P_i,t+1,l),l＝1,...,L_i,t采用随机抽样一致性以及离群值拒绝确定A_i(t,t+1)。采用平均的时间全局单应性A_i，可以将时间匹配对P_i,t,l,l＝1,...,L_i,t中的第一项转换为新的位置P'_i,t,l,l＝1,...,L_i,t，并基于匹配对(P'_i,t,l,P_i,t+1,l),l＝1,...,L_i,t采用随机抽样一致性以及RANSAC离群值拒绝确定时间全局单应性T_i,t。同时，可以基于关键点(P_i,t,k,d_i,t,k)和之间的相似性得到空间匹配对并可以采用不同时间(P_i,t,l,P_j,t,l),l＝1,...,L_i,j,t＝1,...,m下的所有空间匹配对以及采用随机抽样一致性以及离群值拒绝确定空间全局单应性其中，为从参考视频序列中提取的关键点，其可以为n个输入视频序列301a-301n中的任一个。

预变形处理404采用空间全局单应性(空间全局单应性402)以及时间全局单应性T_it,i＝1,...,n,t＝1,...,m(时间全局单应性403)。在预变形处理404中，根据方程式将每个输入视频帧I_i,t转换为预变形的视频帧

根据方程式将时间匹配对(P_i,t,l,P_i,t+1,l),l＝1,...,L_i,t转换为一组预变形的时间匹配对(预变形的时间匹配对405)：

根据方程式将空间匹配对转换为一组预变形的空间匹配对(预变形的空间匹配对406)：

定义一个统一网格x_n×y_n，用于将每个图像划分为x_n×y_n个统一的小区。假定V_i,t,k,k＝1,...,(x_n+1)(y_n+1)和分别表示图像I_i,t和预变形的图像中的网格顶点。在时空局部变形计算处理中，基于输入顶点V_i,t,k,k＝1,...,(x_n+1)(y_n+1)和输入的预变形空间匹配对以及输入的预变形时间配配对确定一组目标顶点(目标顶点407)。对于每个网状小区C_j，其四个顶点和V_i,t,j(1),V_i,t,j(2),V_i,t,j(3),V_i,t,j(4)确定了远景转换H_i,t,j，从而对网状小区C_j中的图像I_i,t的像素进行转换，从而与参考图像中的对应网状小区C_j对齐。在一优选实施例中，通过将下面的成本函数最小化，确定

参数E_ds测量空间局部对齐，其中，为预变形的空间匹配对406，用四个顶点的线性组合表示，其包含具有系数λ_i,t,l(k),k＝1,...,4的可以通过多种不同方法中的任一种确定该系数，例如，参考2中所述的逆双线性内插方法。因此，将E_ds最小化有利于最终的目标顶点通过匹配对应的关键点将每个原始帧I_i,t进行转换，从而与参考图像对齐。

参数E_dt测量时间局部对齐，其中，为预变形的时间匹配对405，用四个顶点的线性组合表示，其包含具有系数λ_i,t,l(k),k＝1,...,4的可以采用上述段落中的同一方法确定该系数。因此，将E_dt最小化有利于最终的目标顶点在保持时间对应对齐的同时，对每个原始帧I_i,t进行转换，从而与参考图像对齐。

参数E_gs测量空间全局对齐。当预变形顶点的空间邻域中没有预变形的空间匹配对时，有利于对应的顶点与预变形的顶点相同。因此，τ_i,t,l＝1。否则，τ_i,t,l＝0。

参数E_gt测量时间全局对齐。假定r∈Ω_t表示时间帧t的时间邻域。当预变形的顶点的空间邻域中没有预变形的时间匹配对时，有利于对应的顶点一直保持相同(即，在时间邻域Ω_t内保持不变)。因此，σ_i,t,l＝1。当预变形得顶点的空间邻域中存在预变形的时间匹配对时，权重值σ_i,t,l由预变形的顶点的空间邻域中的像素移动大小确定。即，如果该场景在预变形的顶点的空间邻域中保持静态，有利于对应的顶点一直保持相同，即，σ_i,t,l应该取接近1的较大值。当预变形得顶点的空间邻域中存在极大的场景移动时，σ_i,t,l应该取接近0的较小值。在一优选实施例中，采用移动的大小确定权重值σ_i,t,l，其中，该移动的大小是通过预变形顶点的空间邻域中的预变形的时间匹配对确定的。在其他实施例中，也可以采用其他基于光流的运动尺寸确定σ_i,t,l。

参数E_ss测量空间平滑度。假定Δ表示一组三元组，其中，Δ中的每个三元组包含确定三角形的三个顶点顶点可以按如下方式用其他顶点表示：

如果该三角形经历了相似性转换，则其本地坐标系中的坐标保持相同。因此，将E_ss最小化有利于网状小区经历空间上的相似性转换，这有利于减少优化处理中的局部失真。值为分配给每个三角形的权重，其由三角形中的空间边缘显著性确定，并有利于将更多的失真分配给更少的显著区域。

参数E_st测量时间平滑度。再次假定Δ表示一组三元组，其中，Δ中的每个三元组包含确定三角形的三个顶点顶点可以用其他顶点表示为：

如果该三角形经历了相似性转换，则其本地坐标系中的坐标保持相同。因此，将E_st最小化有利于网状小区经历时间上的相似性转换，这有利于减少优化处理中的局部失真。值为分配给每个三角形的权重，其由三角形中的时间边缘显著性确定，并有利于将更多的失真分配给更少的显著区域。

将权重分配给方程式(1)中的成本函数中的每个项，从而平衡优化处理中不同项的重要性。当时，将方程式(1)中的成本函数归纳为参考2中提出的用于静态图像拼接的保留内容的变形方法。

得到目标顶点之后，可以基于原始顶点V_i,t,k,k＝1,...,(x_n+1)(y_n+1),i＝1,...,n,t＝1,...,m和目标顶点确定一组目标变形顶点Μ_i,t,i＝1,...,n,t＝1,...,m。可以通过多种方式确定目标变形映射。在一优选实施例中，对于每个网状小区C_j，其四个顶点和V_i,t,j(1),V_i,t,j(2),V_i,t,j(3),V_i,t,j(4)定义了远景转换H_i,t,j，从而对网状小区C_j中的图像I_i,t的像素进行转换，从而与参考图像中的对应网状小区对齐。目标变形映射Μ_i,t简单地成了一组H_i,t,j,j＝1,...,x_ny_n，整个图像I_i,t可以由Μ_i,t一个小区一个小区地变形为目标虚拟帧(目标虚拟帧303)。

图5示出了本发明提供的实现基于内容的时空接缝查找块320功能的基于内容的时空接缝查找架构的详图。基于内容的时空接缝查找架构500可与图3中的视频拼接工作流程300结合使用。图5所示的基于内容的时空接缝查找架构500仅用于示意性说明。可以采用其他实施例的架构500，其并不脱离本发明范围。

如图5所示，基于内容的时空接缝查找架构500采用一组目标虚拟帧(在图5中，用目标虚拟帧303表示)，并确定一组目标接缝映射Z_t,t＝1,...,m(在图5中，用目标接缝映射304表示)。每个接缝映射Z_t包括与从变形的虚拟目标帧构建最终的拼接虚拟帧Ι′_t有关的信息。

基于内容的时空接缝查找结构500的第一步骤是时空似物性计算处理501。考虑到一对目标虚拟帧序列和在时空似物性计算处理501中，将似物性值o_i,j,t,k∈[0,1]分配给与之间的每个重叠像素p_i,j,t,k。似物性值o_i,j,t,k测量像素p_i,j,t,k的物体显著性等级。像素p_i,j,t,k越显著，值o_i,j,t,k越大，目标接缝剪辑的像素p_i,j,t,k越不受欢迎。可以通过很多不同的方法确定似物性值o_i,j,t,k。例如，如果像素在人脸上，为了避免引起问题，不支持目标接缝剪辑人脸。又例如，如果像素在快速移动的物体上，并且靠近强结构边缘，为了避免引起问题，不支持目标接缝剪辑过像素。在一优选实施例中，计算处理501将上述用于计算似物性值的因素考虑在内，其中，o_i,j,t,k＝a*f_i,j,t,k+b*e_i,j,t,k。值f_i,j,t,k为从像素p_i,j,t,k到自动检测到的人脸之间的距离，e_i,j,t,k为从像素p_i,j,t,k到附近强移动物体之间的距离。值a,b为平衡两者的权重。

然后，可以采用时空图形构建处理502构建一个时空图形。图6示出了本发明提供的图形建构的示例。如图6所示，该图形600包括多个图形节点601，每个图形节点601为重叠像素p_i,j,t,k。每对图形节点之间的边缘有两种类型：空间边缘(用空间边缘602表示)以及时间边缘(用时间边缘603表示)。空间边缘为两个图形节点之间的边缘，其对应于同一时间索引不同空间位置的像素。时间边缘为两个图形节点之间的边缘，其对应于同一空间位置不同时间索引的像素。具体地，根据下面方程式，将像素p_i,j,t,k和p_i,j,t,l之间的空间边缘602确定为E^s _i,j,t(k,l)：

其中，为像素值与像素值之间的距离测量，为帧中的第k个像素的像素值。可以采用各种距离测量确定例如，在一实施例中：

根据下面方程式，将像素p_i,j,t,k和p_i,j,t+1,k之间的时间边缘603确定为E^t _i,j,k(t,t+1)：

其中，为像素值与像素值之间的距离测量。可以采用各种距离测量确定例如，在一实施例中：

E^t _i,j,k(t,t+1)＝(o_i,j,t,k+o_i,j,t+1,k)(||I_i,t(k)-I_i,t+1(k)||+||I_j,t(k)-I_j,t+1(k)||)/2。

通常，假设图像为源端，图像为宿端，与之间重叠区域的边界上的重叠像素有一个最靠近图像(原端或宿端)的边缘，该边缘具有无穷的边缘权重。

然后，回到图5，采用时空图形构建处理502构建该图形之后，执行最大流接缝计算处理503，从而得到每个重叠像素p_i,j,t,k的最佳标记η_i,j,t,k。该标记η_i,j,t,k为源端或宿端，通过得到切割该图形的最小边缘成本路径而确定。如果η_i,j,t,k为源端，最终拼接图像中的对应像素将从中得到像素值，如果η_i,j,t,k为宿端，最终拼接图像中的对应像素将从中得到像素值。

为了确定最终的目标接缝映射Z_t，将帧一个一个地添加至拼接结果，并反复进行上述处理。即，首先将帧和进行拼接，然后添加帧并将其与帧和的拼接结果进行拼接等等。

一旦得到一组目标接缝映射Z_t,t＝1,...,m(目标接缝映射304)，可以采用各种颜色校正、增益补偿以及混合技术在视觉上增强拼接结果。

图7示出了本实施例提供的视频拼接的示例方法。为了便于说明，方法700在诸如图8中的计算设备800(如下所述)等能够用于视频处理的计算设备中使用。然而，该方法700能够由任一合适的设备在任一合适的系统中使用。

在步骤701中，确定多个待拼接的视频序列。在一些实施例中，这可包括确定图3中的视频序列301a-301n的计算设备。在步骤703，在视频序列上执行时空局部变形计算处理，以确定多个目标变形映射。在一些实施例中，这可包括执行图3中的时空局部变形计算块310功能的时空局部变形框架400。

在步骤705中，采用步骤703中确定的目标变形映射，将视频序列中的多个帧变形为多个目标虚拟帧。在步骤707中，在目标虚拟帧上执行基于内容的时空接缝查找处理，以确定多个目标接缝映射。在一些实施例中，这可包括执行图3中的基于内容的时空接缝查找块320功能的基于内容的时空接缝查找结构500。然后，在步骤709中，采用目标接缝映射将视频序列进行拼接。

尽管图7示出了视频拼接方法700的一个示例，但是图7可以有各种变化。例如，尽管示出了一系列步骤，但是图7中的各步骤可以重叠，可以并行执行，可以按照不同顺序执行，且可以执行的次数是任意的。

图8示出了执行图3中视频拼接工作流程300或者图7中视频拼接方法700的计算设备800的示例。如图8所示，该计算设备800包括计算块803、处理块805以及系统存储器807。处理块805可以为任一类型的执行软件指令的可编程电子设备，但通常为一个或多个微处理器。系统存储器807可以包括只读存储器(Read-Only Memory，简称ROM)809以及随机存取存储器(Random Access Memory，简称RAM)811。本领域的技术人员应理解，只读存储器809和随机存取存储器811都可以存储处理块805执行的软件指令。

处理块805和系统存储器807通过总线813或替代通信结构直接或间接地与一个或多个周边设备连接。例如，处理块805和系统存储器807可以直接或间接地与一个或多个额外存储设备815连接。该存储设备815例如可以包括“硬”磁盘驱动、固态磁盘驱动、光盘驱动以及移动硬盘。处理块805和系统存储器807也可以直接或间接地与一个或多个输入设备817以及一个或多个输出设备819连接。输入设备817例如可以包括键盘、点击设备(例如，鼠标、触控板、手写笔、轨迹球或者控制杆)、触摸屏、扫描仪、照相机以及麦克风。输出设备819例如可以包括显示设备、打印机以及扬声器。这种显示设备可以用于显示视频图像。在计算设备800的各种示例中，一个或多个周围设备815-819内部可以封装有计算块803；或者，一个或多个周围设备815-819可以与计算块803的外壳不连接，并与总线813连接，例如，通过通用串行总线(Universal Serial Bus，简称USB)连接或者通过数字视频接口(DigitalVisual Interface，简称DVI)连接。

在一些实施方式中，计算块803也可以直接或间接地与一个或多个网络接口卡(Network Interfaces Card，简称NIC)821连接，从而与组成网络的其他设备进行通信。网络接口卡821根据一个或多个通信协议，如传输控制协议(Transmission ControlProtocol，简称TCP)和互联网协议(Internet Protocol，简称IP)，将计算块803的数据和控制信号转变为网络消息。另外，网络接口卡821可以采用任一合适的连接代理(或者代理的结合)与网络连接，例如包括无线收发器、调制解调器或以太网连接。

应理解的是，计算设备800仅为一个示例，而不构成限制。本发明的各实施例可以通过一个或多个计算设备实现，该一个或多个计算设备包括图8所示计算设备800的组件，或者包括组件的可选组合，其包括图8中未示出的组件。例如，本发明各实施例可以通过多处理器计算机、网络中设置的多个单一和/或多处理器计算机或两者的结合实现。

本文所述的实施例提供了容差视频拼接的方案。通过共同将时空局部变形架构中的时空成本函数最小化，计算的局部变形映射能够通过最佳地保留空间和时间数据对齐以及空间和时间平滑度，将多个视频中的帧对齐。因此，生成的变形帧在空间上很好地与局部变形对齐，并且在时间上一致的。

通过得到将基于内容的时空接缝查找架构中的像素似物性考虑在内的最佳时空接缝，可以采用最终的接缝将来自多个视频中的帧以良好的时间一致性进行拼接，同时为了避免引起问题，避免剪辑显著的前景物体。

在某些实施例中，一个或多个所述设备的部分或全部功能或流程由计算机可读程序代码构成的且内嵌于计算机可读介质中的计算机程序来实现或提供支持。术语计算机可读程序代码摂包括任意类型的计算机代码，包括源代码、目标代码以及可执行代码。术语“计算机可读介质”包括任何类型的可以被计算机访问的非易失性介质，比如，只读存储器(ROM)、随机存取存储器(RAM)、硬盘驱动器、光盘(CD)、数字化视频光盘(DVD)或者任何其他类型的存储器。

为本专利文档中使用的特定术语和短语进行定义是有帮助的。术语“包括”和“包含”以及它们的派生词表示没有限制的包括。术语“或者”是包容性的，意为和/或。短语“与…关联”和“与其关联”以及其派生的短语意味着包括，被包括在内、与…互连、包含、被包含在内、连接到或与…连接、耦合到或与…耦合、可与…通信、与…配合、交织、并列、接近、被绑定到或与…绑定、具有、具有…属性，等等。

虽然本发明就某些实施例和一般相关方法方面进行了描述，但是对本领域技术人员而言，对实施例和方法的各种更改和变更将是显而易见的。因此，示例实施例的上述描述不限定或约束本发明。正如以下权利要求定义，其它修改、替代以及变更也是可能的，而不偏离本发明的精神和范围。

Claims

1.一种容差视频拼接方法，其特征在于，所述方法包括：

确定多个待拼接的视频序列；

对所述视频序列执行时空局部变形计算处理，以确定多个目标变形映射；

采用所述目标变形映射，将所述视频序列中的多个帧变形为多个目标虚拟帧；

对所述目标虚拟帧进行基于内容的时空接缝查找处理，以确定多个目标接缝映射；

采用所述目标接缝映射将所述视频序列进行拼接。

2.根据权利要求1所述的方法，其特征在于，所述时空局部变形计算处理包括：

采用多个与所述视频序列相关的视觉要点，确定多个空间全局单应性以及多个时间全局单应性；

进行预变形处理，即采用所述空间全局单应性以及所述时间全局单应性，以获得多个预变形的时间匹配对以及多个预变形的空间匹配对；

采用所述预变形的时间匹配对以及所述预变形的空间匹配对，确定多个目标顶点。

3.根据权利要求2所述的方法，其特征在于，还包括：

从所述视频序列中确定所述多个视觉要点。

4.根据权利要求2所述的方法，其特征在于，还包括：

采用所述目标顶点确定所述多个目标变形映射。

5.根据权利要求2所述的方法，其特征在于，通过将成本函数最小化，确定所述多个目标顶点。

6.根据权利要求5所述的方法，其特征在于，所述成本函数E由下面的方程式给出：

其中，E_ds为空间局部对齐参数，E_dt为时间局部对齐参数，E_gs为空间全局对齐参数，E_gt为时间全局对齐参数，E_ss为空间平滑参数，E_st为时间平滑参数，φ、α、β、和θ为权重系数。

7.根据权利要求1所述的方法，其特征在于，所述基于内容的时空接缝查找处理包括：

采用所述目标虚拟帧进行时空似物性计算，以确定多个时空似物性值；

确定包括多个像素、空间边缘以及时间边缘的图形；

将每个所述像素标记为源端或宿端；

采用所述标记的像素确定所述目标接缝映射。

8.一种容差视频拼接装置，其特征在于，所述装置包括：

至少一个存储器；

耦合于所述至少一个存储器的至少一个处理器，其中，所述至少一个处理器用于：

确定多个待拼接的视频序列；

采用所述目标变形映射，将所述视频序列中的多个帧变形为多的目标虚拟帧；

采用所述目标接缝映射将所述视频序列进行拼接。

9.根据权利要求8所述的装置，其特征在于，为了执行所述时空局部变形计算处理，所述至少一个处理器用于：

进行预变形处理，即采用所述空间全局单应性和所述时间全局单应性，以获得多个预变形的时间匹配对以及多个预变形的空间匹配对；

10.根据权利要求9所述的装置，其特征在于，所述至少一个处理器还用于：

从所述视频序列中确定所述多个视觉要点。

11.根据权利要求9所述的装置，其特征在于，所述至少一个处理器还用于：

采用所述目标顶点确定所述多个目标变形映射。

12.根据权利要求9所述的装置，其特征在于，通过将成本函数最小化，确定所述多个目标顶点。

13.根据权利要求12所述的装置，其特征在于，所述成本函数E由下面的方程式给出：

14.根据权利要求8所述的装置，其特征在于，为了执行所述基于内容的时空接缝查找处理，所述至少一个处理器用于：

确定包括多个像素、空间边缘以及时间边缘的图形；

将每个所述像素标记为源端或宿端；

采用所述标记的像素确定所述目标接缝映射。

15.一种包含计算机程序的非瞬时性计算机可读介质，其特征在于，所述计算机程序包括计算机可读程序代码，其用于：

确定多个待拼接的视频序列；

采用所述目标接缝映射将所述视频序列进行拼接。

16.根据权利要求15所述的非瞬时性计算机可读介质，其特征在于，用于进行所述时空局部变形计算机处理的计算机可读程序代码包括计算机可读程序代码，其用于：

17.根据权利要求16所述的非瞬时性计算机可读介质，其特征在于，还包括计算机可读程序代码，其用于：

采用所述目标顶点确定所述多个目标变形映射。

18.根据权利要求16所述的非瞬时性计算机可读介质，其特征在于，通过将成本函数最小化，确定所述多个目标顶点。

19.根据权利要求18所述的非瞬时性计算机可读介质，其特征在于，所述成本函数E由下面的方程式给出：

其中，E_ds为空间局部对齐参数，E_dt为时间局部对齐对参数，E_gs为空间全局对齐参数，E_gt为时间全局对齐参数，E_ss为空间平滑参数，E_st为时间平滑参数，φ、α、β、和θ为权重系数。

20.根据权利要求15所述的非瞬时性计算机可读介质，其特征在于，用于进行所述基于内容的时空接缝查找处理的计算机可读程序代码包括计算机可读程序代码，其用于：

确定包括多个像素、空间边缘以及时间边缘的图形；

将每个所述像素标记为源端或宿端；

采用所述标记的像素确定所述目标接缝映射。