CN109102459A

CN109102459A - 一种对视频中的背景画面的扩充方法和设备

Info

Publication number: CN109102459A
Application number: CN201810878137.5A
Authority: CN
Inventors: 胡事民; 汪淼; 杨国烨; 林锦坤; 杨国炜
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2018-08-03
Filing date: 2018-08-03
Publication date: 2018-12-28

Abstract

本发明实施例提供一种对视频中的背景画面的扩充方法和设备，包括：将目标视频的每帧视频帧图像按播放顺序排列组成视频图像序列，根据视频图像序列确定背景图像序列，并按照对应关系逐一对视频帧图像和对应的背景图像进行配准和融合处理，以获得每一视频帧图像对应的背景画面扩充图像，将每一视频帧图像对应的背景画面扩充图像作为背景画面扩充后的视频的一帧视频帧图像。本方法和设备无需在拍摄过程中按严格拍摄方式来获取背景图像，而是根据视频图像序在众多的移动设备采集的视频的视频帧图像中选择满足条件的背景图像组成背景图像序列，并通过视频图像序列和背景图像序列来完成对视频的画面的扩充，从而克服了现有视频画面扩充技术的不足。

Description

一种对视频中的背景画面的扩充方法和设备

技术领域

本发明实施例涉及视频图像处理技术领域，更具体地，涉及一种对视频中的背景画面的扩充方法和设备。

背景技术

目前，随着移动设备与社交网络的快速发展，使用手机等移动设备拍摄视频成为了常见的网络媒体形式之一。然而，由于移动设备的局限性，移动设备上的视频拍摄工具的视场有限，拍摄到的视频中背景画面所包含的场景信息往往达不到用户的要求，在拍摄过程中，一些具有纪念意义的场景信息往往在视频拍摄工具的视场所能覆盖的背景画面之外，这就要求需要对视频中的背景画面进行扩充。

在视频画面扩充领域，Agarwala等人在2005年提出了静态相机拍摄视频的画面扩充技术；Perazzi等人在2015年提出了相对固定的相机矩阵在共同运动条件下的视频画面扩充技术，其中一个相机拍摄的是源视频，其它相机拍摄的是辅助视频，从辅助视频中提取背景图像来实现对源视频中视频帧图像的画面进行扩充。

然而，上述的视频画面扩充技术，均要求在拍摄过程中有严格拍摄方式来获取背景图像，以实现对源视频中视频帧图像的画面的扩充；而移动设备是以手持的方式拍摄视频，在拍摄过程中难以按严格拍摄方式来获取背景图像，因此现有的视频画面扩充技术难以实现对通过移动设备拍摄的视频的画面的扩充。

发明内容

为了克服上述问题或者至少部分地解决上述问题，本发明实施例提供一种对视频中的背景画面的扩充方法和设备。

本发明实施例提供一种对视频中的背景画面的扩充方法，包括：将目标视频的每帧视频帧图像按播放顺序排列组成视频图像序列，根据视频图像序列确定背景图像序列，以使背景图像序列中的背景图像按排列顺序分别与目标视频的视频帧图像相对应，其中，背景图像序列中的背景图像来自移动设备采集的视频中的视频帧图像；对于任一视频帧图像，将所述任一视频帧图像作为目标视频帧图像，将目标视频帧图像相对应的背景图像作为目标背景图像，根据目标视频帧图像中的特征点和目标背景图像中的特征点对目标视频帧图像和目标背景图像进行配准处理，获得目标配准图像，确定目标配准图像中目标视频帧图像和目标背景图像之间的重叠区域；在目标配准图像中将目标视频帧图像在重叠区域内的图像元素与目标背景图像在重叠区域内的图像元素进行融合，将融合后的目标配准图像作为目标视频帧图像对应的背景画面扩充图像；将每一视频帧图像对应的背景画面扩充图像作为背景画面扩充后的视频的一帧视频帧图像。

本发明实施例提供一种对视频中的背景画面的扩充设备，包括：至少一个处理器、至少一个存储器和数据总线；其中：处理器与存储器通过数据总线完成相互间的通信；存储器存储有可被处理器执行的程序指令，处理器调用程序指令以执行上述方法。

本发明实施例提供一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储计算机程序，该计算机程序使计算机执行上述的方法。

本发明实施例提供的一种对视频中的背景画面的扩充方法和设备，包括：将目标视频的每帧视频帧图像按播放顺序排列组成视频图像序列，根据视频图像序列确定背景图像序列，以使背景图像序列中的背景图像按排列顺序分别与目标视频的视频帧图像相对应，并按照对应关系逐一对视频帧图像和对应的背景图像进行配准和融合处理，以获得每一视频帧图像对应的背景画面扩充图像，将每一视频帧图像对应的背景画面扩充图像作为背景画面扩充后的视频的一帧视频帧图像，以实现对目标视频中的背景画面的扩充。本方法和设备无需在拍摄过程中按严格拍摄方式来获取背景图像，而是根据视频图像序在众多的移动设备采集的视频的视频帧图像中选择满足条件的背景图像组成背景图像序列，并通过视频图像序列和背景图像序列来完成对视频的画面的扩充，从而克服了现有视频画面扩充技术的不足。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据本发明实施例的对视频中的背景画面的扩充方法的流程图；

图2为根据本发明实施例的对视频中的背景画面的扩充的效果图；

图3为根据本发明实施例的对视频中的背景画面的扩充设备的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种对视频中的背景画面的扩充方法，参考图1，包括：S11，将目标视频的每帧视频帧图像按播放顺序排列组成视频图像序列，根据视频图像序列确定背景图像序列，以使背景图像序列中的背景图像按排列顺序分别与目标视频的视频帧图像相对应，其中，背景图像序列中的背景图像来自移动设备采集的视频中的视频帧图像；S12，对于任一视频帧图像，将所述任一视频帧图像作为目标视频帧图像，将目标视频帧图像相对应的背景图像作为目标背景图像，根据目标视频帧图像中的特征点和目标背景图像中的特征点对目标视频帧图像和目标背景图像进行配准处理，获得目标配准图像，确定目标配准图像中目标视频帧图像和目标背景图像之间的重叠区域；S13，在目标配准图像中将目标视频帧图像在重叠区域内的图像元素与目标背景图像在重叠区域内的图像元素进行融合，将融合后的目标配准图像作为目标视频帧图像对应的背景画面扩充图像；S14，将每一视频帧图像对应的背景画面扩充图像作为背景画面扩充后的视频的一帧视频帧图像。

具体地，由于视频拍摄工具的视场有限，往往会出现采集到的目标视频中画面所包含的场景信息少于用户所期望的场景信息，例如比较高大的建筑物无法拍摄到一个画面中，或者两个或者多个近邻的建筑物无法拍摄到一个画面中，同时用户又希望它们能出现在一个画面中，当出现这种情况时，用户可以采集辅助视频，辅助视频中的画面包括用户感兴趣的场景但是并未出现在目标视频的画面中，通过辅助视频中的视频帧图像提供背景图像，这些背景图像用来实现对目标视频的画面的扩充，以使扩充后的画面既包括目标视频中画面的场景信息，又包括背景图像中的场景信息；同时辅助视频中的画面也应包括目标视频的画面中的部分场景，以便于目标视频的画面与辅助视频中的画面能够无缝衔接融合在一起。

本实施例中，首先将目标视频的每帧视频帧图像按播放顺序排列组成视频图像序列，根据视频图像序列确定背景图像序列，以使背景图像序列中的背景图像按排列顺序分别与目标视频的视频帧图像相对应，其中，背景图像来自移动设备采集的辅助视频中的视频帧图像。对于任一视频帧图像作为目标视频帧图像，将其与所对应的目标背景图像进行衔接融合以获得目标视频帧图像对应的背景画面扩充图像，具体步骤为：确定目标视频帧图像和目标背景图像中相匹配的特征点对，特征点匹配可采用SURF算法来实现，对目标视频帧图像和目标背景图像进行形变和位移处理，使两幅图像中匹配的特征点处在同一位置，即对目标视频帧图像和目标背景图像进行配准处理，以获得目标配准图像，目标配准图像中存在一个重叠区域，在目标配准图像中将目标视频帧图像在重叠区域内的图像元素与目标背景图像在重叠区域内的图像元素进行融合，该融合可通过Graphcut texture方法和Multiple band blending方法来实现，融合后的目标配准图像即为目标视频帧图像对应的背景画面扩充图像。用同样的方法可获得每一视频帧图像对应的背景画面扩充图像，这些背景画面扩充图像作为背景画面扩充后的视频的视频帧图像，从而实现对目标视频中的背景画面的扩充。

以上为对于每一视频帧图像仅采用一幅背景图像实施画面扩充，对于每一视频帧图像也可采用多幅背景图像实施画面扩充，图2为对于每一视频帧图像采用两幅背景图像实施画面扩充后的效果图，具体实施方法仅是对上述每一视频帧图像仅采用一幅背景图像实施画面扩充的方法的重复，在此不再赘述。

本实施例的对视频中的背景画面的扩充方法无需在拍摄过程中按严格拍摄方式来获取背景图像，而是根据视频图像序在众多的移动设备采集的视频的视频帧图像中选择满足条件的背景图像组成背景图像序列，并通过视频图像序列和背景图像序列来完成对视频的画面的扩充，从而克服了现有视频画面扩充技术的不足。

基于以上实施例，根据视频图像序列确定背景图像序列，包括：根据视频图像序列的视频帧图像的排列顺序，基于目标函数最并通过动态规划算法逐一确定背景图像序列中的每一背景图像，目标函数包括图像内容误差项、运动误差项、外插方向约束项和时间平滑项；其中，背景图像序列中排序号为K的背景图像的确定步骤包括：基于图像内容误差项最小化原则将多幅备选背景图像分别与视频图像序列的排序号为K的视频帧图像进行预配准，获得多幅预配准图像；基于多幅预配准图像，分别获取每一备选背景图像对应的目标函数的值；将最小的目标函数的值对应的备选背景图像作为背景图像序列中排序号为K的背景图像。

其中，图像内容误差项的表达式为：

上式中，L为当前待确定的背景图像在背景图像序列中的排序号，N_t为视频图像序列的排序号为t的视频帧图像中与背景图像序列的排序号为t的背景图像中相匹配的特征点对的总数量，P_t(i)为视频图像序列的排序号为t的视频帧图像中第i个特征点的坐标，为背景图像序列的排序号为t的背景图像中与视频图像序列的排序号为t的视频帧图像中第i个特征点相匹配的特征点的坐标，H_t为视频图像序列的排序号为t的视频帧图像与背景图像序列的排序号为t的背景图像之间的配准变换估计矩阵。

其中，运动误差项的表达式为：

上式中，L为当前待确定的背景图像在背景图像序列中的排序号，R_t为视频图像序列的排序号为t的视频帧图像中与背景图像序列的排序号为t的背景图像中相匹配的特征点对的总数量，为背景图像序列的排序号为t的背景图像中第i个特征点的坐标，为背景图像序列的排序号为t+1的背景图像中第i个特征点的坐标，M_t为视频图像序列的排序号为t+1的视频帧图像相对于视频图像序列的排序号为t的视频帧图像的运动变换估计矩阵。

其中，外插方向约束项的表达式为：

上式中，L为当前待确定的背景图像在背景图像序列中的排序号，r为预设的外插二维方向向量，为垂直于的r向量，G_t为视频图像序列的排序号为t的视频帧图像与背景图像序列的排序号为t的背景图像进行预配准后获得的预配准图像中背景图像的中心点指向视频帧图像的中心点的二维向量，ρ(A,B)表示A向量在B向量上的投影长度，λ₁和λ₂为常量参数。

其中，时间平滑项的表达式为：

上式中，L为当前待确定的背景图像在背景图像序列中的排序号，H_t为视频图像序列的排序号为t的视频帧图像与背景图像序列的排序号为t的背景图像之间的配准变换估计矩阵，C_t(i)为视频图像序列的排序号为t的视频帧图像与背景图像序列的排序号为t的背景图像进行预配准后获得的预配准图像中背景图像的第i个角点坐标。

具体地，将辅助视频中的视频帧图像作为备选背景图像，根据视频图像序列的视频帧图像的排列顺序，从备选背景图像中逐一选择满足条件的背景图像并排列成背景图像序列，例如，背景图像序列中排序号为K的背景图像的确定步骤包括：基于图像内容误差项最小化原则将多幅备选背景图像分别与视频图像序列的排序号为K的视频帧图像进行预配准，获得多幅预配准图像；基于多幅预配准图像，分别获取每一备选背景图像对应的目标函数的值；将最小的目标函数的值对应的备选背景图像作为背景图像序列中排序号为K的背景图像，其中，预配准即为通过移动两幅图像的位置，以使将两幅图像中相匹配的特征点尽量重合。以上对背景图像的选择条件可通过目标函数来实现，目标函数包括图像内容误差项、运动误差项、外插方向约束项和时间平滑项，图像内容误差项表示视频帧图像与备选背景图像分别在预配准图像的重叠区域的图像元素的差别程度，图像内容误差项越大，表明预配准程度越低；运动误差项表明视频播放过程中前一帧视频图像与后一帧视频图像对视频播放流畅度的影响，运动误差项越大，视频播放流畅度越差；外插方向约束项约束了两幅图像进行衔接的方向；时间平滑项约束背景视频四个角点的位置。

其中，图像内容误差项的表达式为：

可选取若干相匹配的特征点对，通过相匹配的特征点对中的特征点的坐标计算特征点坐标之间的转换矩阵，将得到的转换矩阵作为配准变换估计矩阵。

其中，运动误差项的表达式为：

获取视频图像序列的排序号为t的视频帧图像中的若干特征点的坐标与视频图像序列的排序号为t+1的视频帧图像中对应的若干特征点的坐标之间的转换矩阵，将获取的转换矩阵作为M_t。

其中，外插方向约束项的表达式为：

上式中，L为当前待确定的背景图像在背景图像序列中的排序号，r为预设的外插二维方向向量，为垂直于的r向量，G_t为视频图像序列的排序号为t的视频帧图像与背景图像序列的排序号为t的背景图像进行预配准后获得的预配准图像中背景图像的中心点指向视频帧图像的中心点的二维向量，ρ(A,B)表示A向量在B向量上的投影长度，λ₁和λ₂为常量参数，本实施例中，λ₁和λ₂分别取2.0和1.0。

其中，时间平滑项的表达式为：

基于上述图像内容误差项、运动误差项、外插方向约束项和时间平滑项，目标函数可表示为：

E＝E_f+5.0E_m+E_p+0.5E_t；

其中，E_f为图像内容误差项，E_m为运动误差项，E_p为外插方向约束项，E_t为时间平滑项。

基于以上实施例，根据目标视频帧图像中的特征点和目标背景图像中的特征点对目标视频帧图像和目标背景图像进行配准处理，包括：将目标视频帧图像和目标背景图像分别虚拟网格化；基于配准效果项和形变约束项最小化原则，调整目标视频帧图像中每一虚拟网格的网格顶点和背景图像中每一虚拟网格的网格顶点的坐标，以使目标视频帧图像与目标背景图像配准；其中，配准效果项的表达式为：

上式中，T为目标视频帧图像在视频图像序列中的排序号，N_t为视频图像序列的排序号为t的视频帧图像中与背景图像序列的排序号为t的背景图像中相匹配的特征点对的总数量，为包括特征点Q_t(i)的虚拟网格的网格顶点集合，为V_t(i)的网格顶点坐标相对于Q_t(i)的坐标的权重系数，为包括特征点的虚拟网格的网格顶点集合，为的网格顶点坐标相对于的坐标的权重系数，Q_t(i)为视频图像序列的排序号为t的视频帧图像中第i个特征点，为背景图像序列的排序号为t的背景图像中与Q_t(i)相匹配的特征点。

形变约束项的表达式为：

上式中，与分别为排序号为t的视频帧图像或者背景图像的第i虚拟网格中其中一个网格顶点与另外两个相邻网格顶点的连线形成的向量，

具体地，两幅图像的配准过程为通过对两幅图像进行形变和位移处理，使两幅图像中相匹配的特征点互相重合，在具体实施时，可将将目标视频帧图像和目标背景图像分别虚拟网格化，分别虚拟网格化后，特征点会分别落入对应的虚拟网格内，则特征点的坐标可通过双线性差值的方法得到，即特征点的坐标可通过该特征点所落入的虚拟网格的四个网格顶点坐标和对应的权重系数来表示，则对于目标视频帧图像和目标背景图像配准后的效果可通过配准效果项来体现，配准效果项的表达式为：

同时为了保证配准过程中对目标视频帧图像和目标背景图像进行形变后的虚拟网格尽量呈矩形，引入形变约束项，形变约束项的表达式为：

基于配准效果项和形变约束项最小化原则，调整目标视频帧图像中每一虚拟网格的网格顶点和背景图像中每一虚拟网格的网格顶点的坐标，以使目标视频帧图像与目标背景图像配准。

基于以上实施例，将融合后的目标配准图像作为目标视频帧图像对应的背景画面扩充图像之后，还包括：基于人像区域在目标视频帧图像中包含的虚拟网格的网格顶点的坐标和人像区域在目标视频帧图像对应的的虚拟网格的网格顶点的坐标，构建人像稳定项；基于人像稳定项最小化原则，优化目标视频帧图像对应的背景画面扩充图像中的人像区域在目标视频帧图像对应的背景画面扩充图像中的位置；

其中，人像稳定项的表达式为：

上式中，T为目标视频帧图像在视频图像序列中的排序号，为视频图像序列的排序号为t的视频帧图像中第i个网格顶点的坐标，v_t,i为排序号为t的视频帧图像对应的背景画面扩充图像中第i个网格定点的坐标，F_t为人像区域，为视频图像序列的第一排序号的视频帧图像中第i个网格顶点相对于视频图像序列的排序号为t的视频帧图像中第i个网格顶点的位移向量，π_t为与视频图像序列的排序号为t的视频帧图像相邻的预设数量个视频帧图像组成的集合，λ_p和λ_t为预设的权重参数。

具体地，对于目标视频帧图像具有人像区域，应保证画面扩充后人像区域在背景画面扩充图像的稳定性，基于人像区域在目标视频帧图像中包含的虚拟网格的网格顶点的坐标和人像区域在目标视频帧图像对应的的虚拟网格的网格顶点的坐标，构建人像稳定项；基于人像稳定项最小化原则，优化目标视频帧图像对应的背景画面扩充图像中的人像区域在目标视频帧图像对应的背景画面扩充图像中的位置；

其中，人像稳定项的表达式为：

对于包括人像的目标视频的图像的扩充，可使用以下整体优化目标函数对目标视频的视频帧图像和背景图像进行处理：

D(V)＝D_S(V)+0.8D_T(V)+D_G(V)；

其中，D_S(V)为人像稳定项，D_T(V)为配准效果项，D_G(V)为形变约束项。

本发明实施例还提供一种对视频中的背景画面的扩充设备，参考图3，包括：至少一个处理器31、至少一个存储器32和数据总线33；其中：处理器31与存储器32通过数据总线33完成相互间的通信；存储器32存储有可被处理器31执行的程序指令，处理器31调用程序指令以执行上述各方法实施例所提供的方法，例如包括：将目标视频的每帧视频帧图像按播放顺序排列组成视频图像序列，根据视频图像序列确定背景图像序列，以使背景图像序列中的背景图像按排列顺序分别与目标视频的视频帧图像相对应；对于任一视频帧图像，将所述任一视频帧图像作为目标视频帧图像，将目标视频帧图像相对应的背景图像作为目标背景图像，根据目标视频帧图像中的特征点和目标背景图像中的特征点对目标视频帧图像和目标背景图像进行配准处理，获得目标配准图像，确定目标配准图像中目标视频帧图像和目标背景图像之间的重叠区域；在目标配准图像中将目标视频帧图像在重叠区域内的图像元素与目标背景图像在重叠区域内的图像元素进行融合，将融合后的目标配准图像作为目标视频帧图像对应的背景画面扩充图像；将每一视频帧图像对应的背景画面扩充图像作为背景画面扩充后的视频的一帧视频帧图像。

本发明实施例还提供一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储计算机程序，该计算机程序使该计算机执行上述各方法实施例所提供的方法，例如包括：将目标视频的每帧视频帧图像按播放顺序排列组成视频图像序列，根据视频图像序列确定背景图像序列，以使背景图像序列中的背景图像按排列顺序分别与目标视频的视频帧图像相对应；对于任一视频帧图像，将所述任一视频帧图像作为目标视频帧图像，将目标视频帧图像相对应的背景图像作为目标背景图像，根据目标视频帧图像中的特征点和目标背景图像中的特征点对目标视频帧图像和目标背景图像进行配准处理，获得目标配准图像，确定目标配准图像中目标视频帧图像和目标背景图像之间的重叠区域；在目标配准图像中将目标视频帧图像在重叠区域内的图像元素与目标背景图像在重叠区域内的图像元素进行融合，将融合后的目标配准图像作为目标视频帧图像对应的背景画面扩充图像；将每一视频帧图像对应的背景画面扩充图像作为背景画面扩充后的视频的一帧视频帧图像。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过计算机程序指令相关的硬件来完成，前述的计算机程序可以存储于一计算机可读取存储介质中，该计算机程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种对视频中的背景画面的扩充方法，其特征在于，包括：

将目标视频的每帧视频帧图像按播放顺序排列组成视频图像序列，根据所述视频图像序列确定背景图像序列，以使所述背景图像序列中的背景图像按排列顺序分别与所述目标视频的视频帧图像相对应，其中，所述背景图像序列中的背景图像来自移动设备采集的视频中的视频帧图像；

对于任一视频帧图像，将所述任一视频帧图像作为目标视频帧图像，将所述目标视频帧图像相对应的背景图像作为目标背景图像，根据所述目标视频帧图像中的特征点和所述目标背景图像中的特征点对所述目标视频帧图像和所述目标背景图像进行配准处理，获得目标配准图像，确定所述目标配准图像中所述目标视频帧图像和所述目标背景图像之间的重叠区域；

在所述目标配准图像中将所述目标视频帧图像在所述重叠区域内的图像元素与所述目标背景图像在所述重叠区域内的图像元素进行融合，将融合后的所述目标配准图像作为所述目标视频帧图像对应的背景画面扩充图像；

将每一视频帧图像对应的背景画面扩充图像作为背景画面扩充后的视频的一帧视频帧图像。

2.根据权利要求1所述的方法，其特征在于，所述根据所述视频图像序列确定背景图像序列，包括：

根据所述视频图像序列的视频帧图像的排列顺序，基于目标函数最并通过动态规划算法逐一确定所述背景图像序列中的每一背景图像，所述目标函数包括图像内容误差项、运动误差项、外插方向约束项和时间平滑项；

其中，所述背景图像序列中排序号为K的背景图像的确定步骤包括：

基于所述图像内容误差项最小化原则将多幅备选背景图像分别与所述视频图像序列的排序号为K的视频帧图像进行预配准，获得多幅预配准图像；

基于多幅预配准图像，分别获取每一备选背景图像对应的目标函数的值；

将最小的目标函数的值对应的备选背景图像作为所述背景图像序列中排序号为K的背景图像。

3.根据权利要求1所述的方法，其特征在于，所述根据所述目标视频帧图像中的特征点和所述目标背景图像中的特征点对所述目标视频帧图像和所述目标背景图像进行配准处理，包括：

将所述目标视频帧图像和所述目标背景图像分别虚拟网格化；

基于配准效果项和形变约束项最小化原则，调整所述目标视频帧图像中每一虚拟网格的网格顶点和所述背景图像中每一虚拟网格的网格顶点的坐标，以使所述目标视频帧图像与所述目标背景图像配准；

其中，所述配准效果项的表达式为：

上式中，T为目标视频帧图像在视频图像序列中的排序号，N_t为视频图像序列的排序号为t的视频帧图像中与背景图像序列的排序号为t的背景图像中相匹配的特征点对的总数量，为包括特征点Q_t(i)的虚拟网格的网格顶点集合，为V_t(i)的网格顶点坐标相对于Q_t(i)的坐标的权重系数，为包括特征点的虚拟网格的网格顶点集合，为的网格顶点坐标相对于的坐标的权重系数，Q_t(i)为视频图像序列的排序号为t的视频帧图像中第i个特征点，为背景图像序列的排序号为t的背景图像中与Q_t(i)相匹配的特征点；

所述形变约束项的表达式为：

4.根据权利要求3所述的方法，其特征在于，所述将融合后的所述目标配准图像作为所述目标视频帧图像对应的背景画面扩充图像之后，还包括：

基于人像区域在所述目标视频帧图像中包含的虚拟网格的网格顶点的坐标和所述人像区域在所述目标视频帧图像对应的的虚拟网格的网格顶点的坐标，构建人像稳定项；

基于所述人像稳定项最小化原则，优化所述目标视频帧图像对应的背景画面扩充图像中的人像区域在所述目标视频帧图像对应的背景画面扩充图像中的位置；

其中，所述人像稳定项的表达式为：

5.根据权利要求2所述的方法，其特征在于，所述图像内容误差项的表达式为：

其中，L为当前待确定的背景图像在背景图像序列中的排序号，N_t为视频图像序列的排序号为t的视频帧图像中与背景图像序列的排序号为t的背景图像中相匹配的特征点对的总数量，P_t(i)为视频图像序列的排序号为t的视频帧图像中第i个特征点的坐标，为背景图像序列的排序号为t的背景图像中与视频图像序列的排序号为t的视频帧图像中第i个特征点相匹配的特征点的坐标，H_t为视频图像序列的排序号为t的视频帧图像与背景图像序列的排序号为t的背景图像之间的配准变换估计矩阵。

6.根据权利要求2所述的方法，其特征在于，所述运动误差项的表达式为：

其中，L为当前待确定的背景图像在背景图像序列中的排序号，R_t为视频图像序列的排序号为t的视频帧图像中与背景图像序列的排序号为t的背景图像中相匹配的特征点对的总数量，为背景图像序列的排序号为t的背景图像中第i个特征点的坐标，为背景图像序列的排序号为t+1的背景图像中第i个特征点的坐标，M_t为视频图像序列的排序号为t+1的视频帧图像相对于视频图像序列的排序号为t的视频帧图像的运动变换估计矩阵。

7.根据权利要求2所述的方法，其特征在于，所述外插方向约束项的表达式为：

其中，L为当前待确定的背景图像在背景图像序列中的排序号，r为预设的外插二维方向向量，为垂直于的r向量，G_t为视频图像序列的排序号为t的视频帧图像与背景图像序列的排序号为t的背景图像进行预配准后获得的预配准图像中背景图像的中心点指向视频帧图像的中心点的二维向量，ρ(A,B)表示A向量在B向量上的投影长度，λ₁和λ₂为常量参数。

8.根据权利要求2所述的方法，其特征在于，所述时间平滑项的表达式为：

其中，L为当前待确定的背景图像在背景图像序列中的排序号，H_t为视频图像序列的排序号为t的视频帧图像与背景图像序列的排序号为t的背景图像之间的配准变换估计矩阵，C_t(i)为视频图像序列的排序号为t的视频帧图像与背景图像序列的排序号为t的背景图像进行预配准后获得的预配准图像中背景图像的第i个角点坐标。

9.一种对视频中的背景画面的扩充设备，其特征在于，包括：

至少一个处理器、至少一个存储器和数据总线；其中：

所述处理器与所述存储器通过所述数据总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令以执行如权利要求1至8任一所述的方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机程序，所述计算机程序使所述计算机执行如权利要求1至8任一所述的方法。