CN102426705B

CN102426705B - 一种视频场景行为拼接方法

Info

Publication number: CN102426705B
Application number: CN 201110301205
Authority: CN
Inventors: 陈小武; 赵沁平; 陈召东; 李鑫
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2011-09-30
Filing date: 2011-09-30
Publication date: 2013-10-30
Anticipated expiration: 2031-09-30
Also published as: CN102426705A

Abstract

本发明是一种视频场景行为拼接方法，实现视频场景拼接和不同视频中运动物体的行为拼接，包括：首先，在图像配准的基础上，网格划分视频图像，形成图像块结点集合和图像块标签集合，利用图像块聚类算法，为每个图像块结点生成图像块标签类代表候选集，分别构建并求解图像块结点的二维和三维马尔科夫随机场，生成静态和动态背景；然后，在运动物体轨迹提取的基础上，通过计算不同视频运动物体之间的轨迹相似性和位置相似性，给出运动物体行为的可拼接性，在时间和空间上对齐视频；最后，利用泊松融合算法，融合全景动态背景视频和运动，生成行为拼接后的视频场景。

Description

一种视频场景行为拼接方法

技术领域

本发明涉及计算机视觉、视频处理和虚拟现实领域，是一种视频场景行为拼接方法，具体说地是将多个输入视频中的运功物体按照行为重新组合融合到全景视频场景中的一种方法。

背景技术

在基于视频素材的虚拟场景生成过程中，用户需要获得较大的场景作为背景，或者需要获得更高分辨率的大场景视频图像。因为用户在拍摄视频/图像的过程中，由于受设备和场地的限制，只能通过旋转或移动摄像机来拍摄一个大场景的小的部分。因此在计算机诞生之前，人们就开始手工将拍摄的图像拼接到一起，并且随着航空摄影的发展，由于飞机飞行高度的限制和对照片分辨率的要求，人们想获得大场景的图像时仍需要有专业人员利用有重叠区的照片来手工构造大场景的拼接图，这些便是最初的手工拼接。随着计算机和摄影技术的发展，人们需要利用计算机将摄像机拍摄的多个视频/图像拼接成为一个大场景的视频/图像，同时保证拼接效果的一致性和连贯性。

目前，有一些拼接技术是对多幅图像进行拼接的。1996年微软研究院的RichardSzeliski提出了基于运动的全景图像拼接模型，采用迭代非线性最小化方法，通过求出图像间的几何变换关系来进行图像配准。该方法属于直接配准方法，该方法的本质是使用非线性优化方法对一个全局能量代价函数进行优化，该方法的优点是不需要提取图像特征，且配准精度较高，可处理具有平移、旋转、仿射等多种变换的图像配准，因此该方法在图像拼接领域应用较多。但迭代非线性最小化方法收敛速度较慢，通常还需要有良好的初始值并经过多次迭代才能得到一个趋于稳定的解，而且作者建议通过手工选取一系列匹配点来确定初始值，这就更加加重了算法的整体时间开销，并且算法无法处理遮挡、几何变形和有运动物体存在的复杂情况。在2000年，微软研究院的沈向阳和Richard Szeliski利用基于图像块的配准算法改进之前的方法，将图像投影在圆柱平面上，并利用全局优化算法和局部优化算法来纠正图像之间的对齐。

由于直接配准方法只能够匹配具有平移变换的图像，或者有轻微旋转和缩放的图像，而且计算量较大，计算时间长，而近年由于图像特征提取技术的发展和进步，基于图像特征的图像配准方法通过对图像中关键信息的提取，可以大大减少匹配过程的计算量；另一方面，通过特征提取过程还可以减少噪声的影响，对图像的灰度变化、图像变形以及遮挡都有较好的适应能力。因此，近年很多研究人员都研究基于图像特征的图像配准方法。

由于图像中有很多种可以利用的特征，因而产生了多种基于特征的方法。常用到的特征有：特征点(包括角点，高曲率点等)、直线段、边缘、轮廓、闭合区域、特征结构以及统计特征如几何矩、重心等等。基于图像特征线段或特征区域的方法很大程度上依赖于图像的分割和边缘提取，这两种操作本身就具有较大难度和计算量，并且一旦待检测目标局部发生变化(例如被部分遮挡或特征线断裂)，则很可能导致图像的分割和边缘提取操作的失败，使得配准算法的效率和稳健性不高，制约了这些方法的适用范围。基于特征点的图像配准方法则避开了上述缺陷，它考虑的是像素点邻域的灰度变化，而不是整个目标的边缘轮廓，可以实现较好的图像配准效果，因而被广泛使用。

传统的图像拼接都是为了扩大摄影视角，给用户呈现更大视角的场景，得到更多的图像信息。近年来，由于摄像机的普及，人们对全景视频拼接的需求越来越高，研究人员首先将图像拼接的技术运用在视频序列的全景图拼接上。2004年意大利维罗纳大学的RobertoMarzotto等人利用拍摄到的单个视频生成全景图像，并提出了一种模糊质量评估算法，该文的方法类似于图像拼接，主要贡献在利用基于图的方法发现视频图像之间的拓扑关系，然后利用捆绑调整进行全局配准。2005年以色列魏兹曼科学研究所的Y.Wexler等人提出了一种时空流形的方法，利用旋转/平移拍摄的单个视频生成全景图像。该方法使用动态规划算法找到时空序列的全局最优流形，生成全景图像。2005年美国华盛顿大学的Aseem Agarwala通过摄像机拍摄的单个视频获得全景视频纹理。2008年比利时哈瑟尔特大学的C.Hermans等人利用旋转拍摄的单个视频拼接生成全景视频。首先利用图像拼接的方法进行视频图像配准，并进行全局校准，构建二维马尔科夫随机场生成静态背景，然后根据中位数绝对差进行运动区域和静态区域分割，最后根据每帧分割出的动态区域构建三维马尔科夫随机场生成动态背景，生成全景视频。目前的视频场景拼接能够处理视频中具有运动幅度小或周期性运动的物体，在生成的视频中保持这些物体运动的连续性和合理性。但是在将多个视频合成为同一个视频的时候，需要考虑多个视频中运动物体的可拼接性，分析多视频中运动物体行为的相互关系。

发明内容

根据上述关键问题，本发明的目的在于：提出一种视频场景行为拼接方法。该方法首先利用全景静态背景图像拼接方法获得视频的全景静态背景图像，利用该背景图像可以将视频中的运动物体提取出来；其次利用视频全景动态背景视频拼接方法生成全景动态背景视频，此动态背景视频作为合成视频场景的背景；然后分析多个视频中运动物体之间的行为关系，将多个物体拼接在一起；最后融合运动物体和动态背景生成行为拼接后视频场景。

为完成发明目的，本发明采用的技术方案是：对输入的视频图像进行局部特征点的提取、匹配，将所有的视频图像配准到同一坐标系下，在图像配准的基础上，网格划分视频图像，形成图像块结点集合和图像块标签集合，并利用图像块聚类算法，为每个图像块结点生成图像块标签类代表候选集。构建并求解图像块结点的二维马尔科夫随机场，生成静态背景图像；针对视频场景中的动态背景，构建三维马尔科夫随机场描述视频图像，定义图像块之间的能量函数，利用置信度传播算法求解该马尔科夫随机场，生成全景动态背景视频；针对视频场景中的运动物体，提出了运动物体的行为拼接算法，该算法在运动物体运动轨迹提取的基础上，通过计算不同视频运动物体之间的轨迹相似性和位置相似性，给出运动物体行为的可拼接性，在时间和空间上对齐不同视频；最后，利用泊松融合算法，融合全景动态背景视频和运动物体，生成行为拼接后的视频场景。

图像的局部特征匹配和配准是从原始的视频图像中生成配准后的视频图像，使得所有视频图像经过配准后都处于同一坐标系下，为全景静态背景拼接和全景动态背景拼接提供基础。基于特征的图像配准算法包括两个阶段，第一阶段是特征的提取，即从多幅待匹配图像中提取出对尺度缩放、旋转、亮度变化无关的特征向量；第二阶段是特征向量的匹配。

基于马尔科夫随机场的静态背景图像拼接方法首先构建图像块结点和图像块标签，并对图像块标签聚类，然后计算图像块结点取值为每个图像块标签类代表的能量，最后利用置信度传播方法求解，为每个图像块结点选择一个图像块标签类代表，显示并输出视频全景静态背景图像。置信度传播的过程为：首先计算每个图像块结点自身的能量，然后分别计算其上下左右邻居对其的信任程度，也就是图像块结点与其邻居结点之间的能量函数的大小，在一次迭代成功之后每个结点赋值为每个图像块标签类代表的置信度，进而选择置信度最大的赋值作为图像块结点下一次迭代过程的初始值，最后，经过多次迭代，使得每个图像块结点的置信度最高，得到视频全景静态背景图像。

视频场景行为拼接方法按照功能可以划分为视频全景动态背景视频拼接、运动物体行为拼接、运动物体与动态背景融合。首先，处理运动幅度较小的背景物体，生成动态背景视频，过程为：构建三维马尔科夫随机场描述全景动态背景视频图像块结点之间的关系，定义图像块结点之间的能量函数，利用置信度传播方法求解该马尔科夫随机场问题，生成动态背景视频；然后，处理运动幅度较大的运动物体，过程为：提取出运动物体的行为，分析多视频中多个运动物体之间的行为关系，根据运动轨迹计算多个运动物体行为的可拼接性，在时间和空间上对齐多个输入视频；最后，利用图像融合算法，将动态背景视频和多个运动物体融合，生成一段视频场景。

动态背景视频拼接方法与基于马尔科夫随机场的视频全景静态背景图像拼接方法类似，但是图像块结点的构建和邻居系统的构建不同。动态背景视频拼接方法构建了一个三维马尔科夫随机场，其图像块结点和邻居系统的构建如图2所示。每个图像块结点有六个邻居图像块结点，其中在待生成全景动态背景视频图像的空间维上，也就是该图像空间上有四个邻居结点，这四个邻居结点每一个均同该图像块结点有重叠部分。在时间上有两个邻居结点，这两个邻居结点是在待生成全景动态背景视频图像的前后帧的同一个空间位置。

运动物体提取方法是在视频图像的颜色空间进行的，该方法在颜色空间计算在时间维度上每个像素点与静态全景背景差值的中值，进而求出其属于运动物体的置信度，大于该置信度下的逆卡方分布值，则该像素点属于运动物体，否则该像素点属于背景。运动物体行为的提取是依据运动物体的位置来提取的，运动物体提取之后，将运动物体的在视频图像上的位置标记出来，根据前后帧的运动物体的位置信息计算出运动物体的速度信息，然后根据运动物体的位置和速度信息提取出运动物体的轨迹信息，这样运动物体的行为就用运动物体的轨迹表示出来了。分析运动物体行为之间的关系是首先计算两段视频运动物体行为的轨迹相似性，给出轨迹相似的矩阵图像表示；然后计算两段视频运动物体行为的位置相似性，并给出位置相似性的矩阵图像表示；最后，通过设置轨迹相似性的阈值和位置相似性的阈值对可拼接性进行投票，进而生成可拼接性的矩阵图像表示，根据该图像给出轨迹的匹配关系，将多个视频的运动物体拼接在一起。

本发明与现有的技术相比，其有益的特点是：1、本发明根据视频场景和人物行为以及虚拟现实的特点，给出了视频场景行为拼接方法的基本步骤和基本框架，利用该步骤和框架可以将视频场景行为拼接的各个部分模块化，方便开发同类型的应用系统，简化了应用系统的开发过程，使得程序可重用性更高。2、本发明可从原始的视频图像中生成配准后的视频图像，使得所有视频图像经过配准后都处于同一坐标系下，为全景静态背景拼接和全景动态背景拼接提供基础。3、本发明利用基于马尔科夫随机场的视频全景静态背景图像拼接方法和动态背景视频拼接方法，定义图像块结点之间的能量函数，利用置信度传播方法求解该马尔科夫随机场问题，生成静态背景图像和动态背景视频，简化了拼接过程的管理，在视频拼接系统运行合理的同时，方便系统进一步的优化，同时方便了系统的进一步扩展，并提高了程序的可读性和重用性。4、本发明给出了运动物体提取方法和运动物体行为的表示和提取：运动物体提取之后，将运动物体在视频图像中的位置标记出来，根据前后帧的运动物体的位置信息计算出运动物体的速度信息，然后根据运动物体的位置和速度信息提取出运动物体的轨迹信息，这样运动物体的行为就用运动物体的轨迹表示出来了。5、本发明分析运动物体行为之间的关系是首先计算两段视频运动物体行为的轨迹相似性，给出轨迹相似的矩阵图像表示；然后计算两段视频运动物体行为的位置相似性，并给出位置相似性的矩阵图像表示；通过设置轨迹相似性的阈值和位置相似性的阈值对可拼接性进行投票，进而生成可拼接性的矩阵图像表示，根据该图像给出轨迹的匹配关系，将多个视频的运动运动物体拼接在一起。

附图说明

图1是本发明系统总体架构图；

图2是本发明的马尔科夫随机场构建示意图；

图3是本发明的特征点提取流程图；

图4是本发明静态背景生成流程图；

图5是本发明行为描述示意图；

图6是本发明多视频行为提取示意图；

图7是本发明行为关系生成流程图。

具体实施方式

下面结合附图对本发明作详细说明。

参阅图1本发明的系统总体架构图，本发明的总体架构主要包括8个部分：

(1)尺度不变特征提取：提取视频图像中的尺度不变特征，用来为视频图像配准做基础；

(2)特征向量匹配：使用基于k-d树的一种近似最近邻搜索算法在欧式空间中寻找每个特征向量的最近邻和次近邻，当特征向量到最近邻与次近邻距离之比小于某阈值时认为二者匹配；

(3)图像配准：根据特征点匹配，将所有视频图像配准到参考图像，本发明采用的图像变换为透视变换；

(4)图像块标签聚类：采用单链接聚类方法对位置相同的标签进行聚类，聚类采用的距离计算公式为在颜色空间上图像块之间逐像素相减的距离平方和；

(5)全景静态背景生成：将全景背景图像的生成过程转化为一个马尔科夫随机场过程，利用置信度传播方法为每个图像块结点选择图像块标签；

(6)全景动态背景生成：将动态背景视频序列的生成转化为一个三维马尔科夫随机场，同样利用置信度传播方法为每个图像块结点选择图像块标签；

(7)运动物体行为拼接：根据生成的全景静态背景图像提取出运动物体，进而提取出运动物体的位置并计算出每一帧视频图像中运动物体的速度，然后定义运动物体的轨迹，提取出视频中所有运动物体的轨迹，利用轨迹相似性和位置相似性计算多个视频中运动物体的可拼接性；

(8)前景物体与动态背景融合：根据提取出的运动物体掩码视频图像和生成的全景动态背景视频图像，利用泊松融合方法将运动物体和动态背景融合，生成行为拼接后的视频场景。

具体为如下步骤：

1、尺度不变特征提取：

提取出所有视频图像中的特征点，然后进行特征点匹配，根据匹配结果计算每幅视频图像和参考视频图像之间的单应性矩阵，进而将所有视频图像注册到同一坐标系下：

尺度不变特征生成算法首先在尺度空间进行特征检测，并确定关键点的位置和关键点所处的尺度，然后使用关键点邻域梯度的主方向作为该点的方向特征，以实现算子对尺度和方向的无关性。高斯卷积核是实现尺度变换的唯一变换核：

G (x, y, σ) = \frac{1}{{2 πσ}^{2}} e^{- (x^{2} + y^{2}) / {2 σ}^{2}}

一幅二维图像，在不同尺度下的尺度空间表示由图像的高斯核卷积得到：

L(x，y，σ)＝G(x，y，σ)*I(x，y)

在图像二维平面空间和高斯差值尺度空间中同时检测局部极值以作为特征点，以使特征具备良好的独特性和稳定性。高斯插值算子定义为两个不同尺度的高斯核的差分，其具有计算简单的特点，是归一化高斯-拉普拉斯算子的近似。高斯插值算子如下所示：

D(x，y，σ)＝(G(x，y，kσ)-G(x，y，σ))*I(x，y)

＝L(x，y，kσ)-L(x，y，σ)

设k为两相邻尺度间的比例因子，特征向量生成分四步，首先尺度空间极值检测，以初步确定关键点位置和所在尺度。其次通过拟合三维二次函数以精确确定关键点的位置和尺度，同时去除低对比度的关键点和不稳定的边缘响应点(因为高斯插值算子会产生较强的边缘响应)，以增强匹配稳定性、提高抗噪声能力。然后利用关键点邻域像素的梯度方向分布特性为每个关键点指定方向参数，使算子具备旋转不变性。最后生成尺度不变特征向量，生成特征向量首先坐标轴旋转为关键点的方向，以确保旋转不变性，接下来以关键点为中心取8×8的窗口，然后在每4×4的小块上计算8个方向的梯度方向直方图，绘制每个梯度方向的累加值。

2、特征向量匹配：

提取每幅视频图像的尺度不变特征之后，接下来需要进行特征的匹配。本发明使用基于k-d树的一种近似最近邻搜索算法在欧式空间中寻找每个特征向量的最近邻和次近邻，当特征向量到最近邻与次近邻距离之比小于某阈值时认为二者匹配。

首先需要构造特征向量的k-d树，k-d树是一棵平衡二叉树，k-d树的每一层将特征空间都分为两部分。在构造k-d树的过程中，在树的顶层结点选择特征向量的一个维度进行划分，将所有的结点分为左子树和右子树，树的下一层再按照特征向量的另一个维度进行划分，每一层依规律递归执行。

由于提取的特征向量有128维，直接采用k-d树搜索方法执行效率较低，因此利用近似最近邻搜索算法在k-d树上的基础上以结点和被查询结点距离递增的顺序搜索结点。近似最近邻搜索算法使用一个优先队列实现。当沿一个方向的分支搜索一个结点时，将有一个成员加入优先队列中，该成员记录了该结点的相关信息，包括当前结点在树中的位置和该结点与被查询结点之间的距离，当一个叶结点被搜索到之后，从队列的头部删除一项，然后再搜索包含最近邻结点的其他分支。

采用以上方法可以计算任意两幅图像之间的尺度不变特征匹配关系，但是由于输入视频图像拍摄视角宽广，并非每幅视频图像同参考图像均有重叠区域，而且如果直接计算每幅图像和参考图像之间的特征匹配，则可能由于匹配的特征点较少而导致配准不准确。因此本发明首先自动选取参考图像，然后计算参考图像和其相邻结点之间的特征点匹配，再计算其相邻结点和相邻节点的相邻结点之间的特征点匹配，以此类推。

输入的视频图像集合为I(I₀，I₁，…，I_n)，计算I_k与其前5个邻居图像之间的特征匹配数和后5个邻居图像之间的特征匹配数之和，即：

M_k＝m(k，k-5)+m(k，k-4)+...+m(k，k+4)+m(k，k+5)

得到每幅视频图像的M值之后，M值最大的第n幅视频图像即为参考图像。从参考图像开始向其两侧扩展，若视频图像I_k在参考图像I_n之前，计算视频图像I_k和视频图像I_k-1之间的透视变换矩阵H；若视频图像I_k在参考图像I_n之后，计算视频图像I_k和视频图像I_k+1之间的变换关系。

3、图像配准：

接下来，根据特征点匹配，将所有视频图像配准到参考图像，本发明采用的图像变换模型为透视变换。如果一幅图像中的平行直线经变换后映射到另一幅图像中仍为直线，但是不再保持平行关系，那么这样的平行关系称为透视变换。透视变换可以描述摄像机的平移、水平扫动、垂直扫动、旋转、镜头缩放等运动，因此符合本发明的需求。透视变换模型采用如下矩阵形式来描述其变换关系模型：

[\begin{matrix} x^{'} \\ y^{'} \\ 1 \end{matrix}] = [\begin{matrix} m_{0} & m_{1} & m_{2} \\ m_{3} & m_{4} & m_{5} \\ m_{6} & m_{7} & 1 \end{matrix}] [\begin{matrix} x \\ y \\ 1 \end{matrix}]

其中，x和y为待变换视频图像的像素点位置，x′和y′为变换后像素点位置，其变换矩阵H为：

H = [\begin{matrix} m_{0} & m_{1} & m_{2} \\ m_{3} & m_{4} & m_{5} \\ m_{6} & m_{7} & 1 \end{matrix}]

由于透视变换矩阵有8个自由度，因此理论上需要选取四对匹配的特征点才能确定：

[\begin{matrix} x_{1}, y_{1}, 1,0,0,0, - x_{1}^{'} x_{1}, - x_{1}^{'} y_{1} \\ 0,0,0, x_{1}, y_{1}, 1, - y_{1}^{'} x_{1}, - y_{1}^{'} y_{1} \\ x_{2}, y_{2}, 1,0,0,0, - x_{2}^{'} x_{2}, {- x}_{2}^{'} y_{2} \\ 0,0,0, x_{2}, y_{2}, 1, - y_{2}^{'} x_{2}, - y_{2}^{'} y_{2} \\ x_{3}, y_{3}, 1,0,0,0, - x_{3}^{'} x_{3}, - x_{3}^{'} y_{3} \\ 0,0,0, x_{3}, y_{3}, 1, - y_{3}^{'} x_{3}, - y_{3}^{'} y_{3} \\ x_{4}, y_{4}, 1,0,0,0, - x_{4}^{'} x_{4}, - x_{4}^{'} y_{4} \\ 0,0,0, x_{4}, y_{4}, 1, - y_{4}^{'} x_{4}, {- y}_{4}^{'} y_{4} \end{matrix}] [\begin{matrix} m_{0} \\ m_{1} \\ m_{2} \\ m_{3} \\ m_{4} \\ m_{5} \\ m_{6} \\ m_{7} \end{matrix}] = [\begin{matrix} x_{1}^{'} \\ y_{1}^{'} \\ x_{2}^{'} \\ y_{2}^{'} \\ x_{3}^{'} \\ y_{3}^{'} \\ x_{4}^{'} \\ y_{4}^{'} \end{matrix}]

在本发明中，我们使用随机抽样一致性方法来寻找两幅图像间最佳的4对匹配点，得到相应的H矩阵，并且剔除错误的匹配点。

为了得到每幅视频图像到参考视频图像的变换矩阵，则从参考视频图像I_n开始向其两侧扩展计算单应性变换矩阵H。假设H_ik表示视频图像I_i到其相邻图像I_k的单应性变换矩阵，而已知I_k到参考视频图像I_n的单应性变换矩阵H_k，则I_i到参考视频图像的单应性变换矩阵H_i为：

H_i＝H_ik*H_k

4、图像块标签聚类：

假设要生成的视频静态全景背景为B_s，将B_s分割成图像块结点的集合N，每个图像块结点n_i(x_i，y_i)∈N，其中相邻的图像块结点均有重叠区域，(x_i，y_i)为该图像结点的中心像素位置；同时将配准后的视频图像分割为图像块标签的集合L，每个图像块标签l(x_l，y_l，t)∈L，其中t：代表时间维度，即哪一帧图像，其中相邻的图像块标签均有重叠区域。假设有m幅配准后的视频图像，这样每一个图像块结点n_i(x_i，y_i)均有m个候选标签l(x_l，y_l，t)，而且(x_i，y_i)＝(x_l，y_l)。并且如果图像块标签l(x_l，y_l，t)在掩码图像中标记为合法，其标签才为候选标签。

图结点的构建过程为：将全景静态背景分割为网格状，其中每一个网格均为一个图像块结点。图标签的构建过程为：将每一幅配准后的视频图像分割为网格状，其中每一个网格均为一个图像块标签。只有网格中所包含的像素全部属于配准图像的有效区域(配准后的图像大部分为黑色，为无效区域)该网格才有资格作为图像块标签，如果网格中包含的像素为配准后填充的黑色区域，则该网格不能够作为图标签。

由于视频图像较多，那么每个图像块结点n_i(x_i，y_i)的候选标签比较多，由于接下来的目标是生成静态全景背景图像，并不需要考虑视频图像的时间维信息，因此，首先对(x_l，y_l)相同的标签进行聚类，减少候选图像块标签的数量。

本发明采用单链接聚类方法对(x_l，y_l)相同的标签进行聚类，聚类采用的距离计算公式为在颜色空间上图像块之间逐像素相减的距离平方和为：

SSD (l, t_{1}, t_{2}) = \frac{1}{{2 σ}_{m}} \underset{x, y &Element; l}{Σ} {| | l_{x, y, t_{1}} - l_{x, y, t_{2}} | |}^{2}

其中，σ_m为图像块中平均噪声标准差。由于该SSD满足自由度为3N²的逆卡方分布，因此，在给定置信度α的条件下，若图像块标签l(x_l，y_l，t₁)和l(x_l，y_l，t₂)满足：

SSD (l, t_{1}, t_{2}) < χ_{{3 N}^{2}}^{- 1} (α)

则认为这两个图像块属于同类的静态场景，从而将其聚为一类。

5、全景静态背景生成：

基于马尔科夫随机场的视频静态全景背景图像拼接方法将视频静态全景背景生成抽象为一个马尔科夫问题。本发明假设视频静态全景背景图像B_s的图像块结点具有马尔科夫性，也就是说任何一个图像块结点的赋值只与它邻近的图像块结点有关。在假设了马尔科夫性之后，就可以利用马尔科夫随机场对该图结构进行建模，在该视频静态全景背景生成过程中只用到了二维邻域关系，也就是四邻域系统。

本发明所用到的马尔科夫随机场可以描述如下：要生成的视频静态全景背景为B_s，将B_s分割成图像块结点的集合N，每个图像块结点n_i(x_i，y_i)∈N，对于任意两个图像块结点n_i≠n_j，根据其在B_s中的位置可以定义他们相邻或者不相邻，这样定义了图像块结点集合N中图像块结点之间的相邻关系之后，就得到了一个N上的相邻系统A。将所有图像块结点n_i(x_i，y_i)构成随机序列N＝{n₁，n₂，...，n_m}，这个随机序列就称为马尔科夫链。每个图像块结点n_i(x_i，y_i)的候选图像块标签为l_i＝{l(x_i，y_i，t₁)，...，l(x_i，y_i，t_k)}。从另一个角度来描述：以待生成的视频静态全景背景B_s中的图像块结点n_i(x_i，y_i)为参数，取值于图像块标签l_i＝{l(x_i，y_i，t₁)，...，l(x_i，y_i，t_k)}的随机场。

由于每个图像块结点n_i(x_i，y_i)的候选图像块标签l_i＝{l(x_i，y_i，t₁)，...，l(x_i，y_i，t_k)}的数量依赖于视频图像的数量，如果视频图像较多，那么候选图像块标签将有很多，严重影响运行的效率。利用上述聚类方法对候选图像块标签进行聚类，将同类的图像块标签进行像素平均操作，得到每一类的代表图像块标签：

u (x_{l}, y_{l}, k) = \frac{1}{| T_{k} |} \underset{t &Element; T_{k}}{Σ} l (x_{l}, y_{l}, t),

这样，将每个以(x_l，y_l)为中心的图像块标签转换为图像块标签类别代表u(x_l，y_l，k_i)，Tk是图像块标签聚类后每一类的图像块标签数量。

在构建好马尔科夫随机场之后，全景背景图像的生成过程成为一个随机过程，每个图像块结点的选择依赖于：每个单独图像块结点能量函数的设置；图像块结点和其相邻图像块结点之间能量函数的设置。

首先定义每个单独图像块结点的能量函数，假设如果图像块标签类别代表u(x_l，y_l，k_i)中的标签数量k_i占候选图像块标签数量K的比例越大，那么图像块结点选择该图像块标签类别代表u(x_l，y_l，k_i)的可能性越大。其物理意义是：假设图像块在所有视频中出现的比例越大，则其成为背景图像块的可能性越大。因此，定义图像块结点n_i选择图像块标签类别代表u(x_l，y_l，k_i)的能量函数为：

V (u_{i}) = α [1 - {((\frac{k_{i}}{K}))}^{2}]

α作为一个权重调节因子，能量函数由两部分组成，这是一个相同位置的选择不同类的图像块标签的能量，下面定义图像块结点和其相邻图像块结点之间能量函数。

然后定义图像块结点和其相邻图像块结点之间能量函数，由于两个相邻图像块标签的重叠部分越相似，则其都属于背景的可能性越大。其物理意义是：如果其中一个图像块标签被标记为背景，那么其相邻图像块标签也被标记为背景的可能性可以以其重叠部分相似度来衡量。因此，定义相邻图像块标签类别代表u(x_l，y_l，k_i)和u′(x_l±w，y_l±h，k_j)的能量函数为重叠部分像素的SSD：

其中u(x，y)：是图像块标签上(x，y)处得颜色值，A：重叠区域，|A|重叠区域的像素数量；

根据以上的能量函数定义，就可以将U(所有的图像块标签类)赋值给每个n_i，得到全景静态背景中B_s每个图像块结点n_i的取值。此时，得到整体的能量函数为：

E ({u_{i}}) = Σ_{i = 1}^{| N |} V (u_{i}) + \underset{i, j &Element; L}{Σ} V (u_{i}, u_{j})

其中L表示两个图像块标签代表相邻；

为了求解该马尔科夫随机场问题，采用置信度传播方法来求解，其中传播的信息为m_ij(k)，其物理意义为图像块结点n_i认为图像块结点n_j被标记为U_k的置信度，m_ij(k)的定义如下：

m_{ij} (u_{k}) = \min_{u_{k} &Element; U} {V_{i} (u_{i}) + V_{ij} (u_{i}, u_{j}) + \underset{k : k &NotEqual; j, (k, i) &Element; A}{Σ} m_{ki} (u_{i})}

对于每个图像块结点n_i，由于有多个候选的图像块标签类别代表，那么每种选择都有一个成为背景的置信度，该置信度b_i(u_l)计算如下：

b_{i} (u_{l}) = - V_{i} (u_{l}) - \underset{k : (k, i) &Element; A}{Σ} m_{ki} (u_{l})

对于每个图像块结点n_i，选择b_i(u_l)最大的u_l为其结果，这样就得到了所有全景静态背景图像块结点的赋值，也就生成了全景静态背景图像。

6、动态背景视频拼接：

假设要生成的动态背景视频为B_D(B_D0，B_D1，...，B_Dk)，将每个B_D分割成图像块结点的集合N，每个图像块结点n_j(x_i，y_i)∈N，其中相邻的图像块结点均有重叠区域，(x_i，y_i)为该图像结点的中心像素位置；同时将配准后的视频图像分割为图像块标签的集合L，每个图像块标签l(x_l，y_l，t)∈L，(t代表时间维度，即哪一帧图像)其中相邻的图像块标签均有重叠区域。假设有m幅视频图像，这样每一个图像块结点n_j(x_i，y_i)均有m个候选标签l(x_l，y_l，t)，而且(x_i，y_i)＝(x_l，y_l)。并且仅当图像块标签l(x_l，y_l，t)在掩码图像中标记为合法，其标签才为候选标签。

构建三维马尔科夫随机场的邻居系统：视频动态全景背景B_D(B_D0，B_D1，...，B_Dk)被分割为多个图像块结点n_j(x_i，y_i)的集合，在每一个视频动态全景背景的二维图像B_Dj中，在位置(x_i，y_i)上相邻的结点定义为其相邻结点，除了边界上的结点之外，每个结点在该全景背景图像中有上、下、左、右四个相邻结点；另外，在时间维上，每个图像块结点n_j(x_i，y_i)有两个相邻结点n_j-1(x_i，y_i)和n_j+1(x_i，y_i)。因此，每个图像块结点将有六个邻居图像块结点。接下来定义能量函数。

首先定义每个单独图像块结点的能量函数，为了保证当前选择的图像块标签同已有图像块结点的相似性，计算当前选择的图像块标签同已有图像块标签之间的距离平方和：

V_{i} (l_{t}) = α [\frac{1}{| W |} \underset{(x, y) &Element; W}{Σ} {(l_{i} (x, y) - l_{t} (x, y))}^{2}]

W：表示图像块，l_i(x，y)：表示(x，y)位置颜色值，α：可调节的权重参数；

其次定义每一个视频动态全景背景的二维图像B_Dj中静态区域和动态区域图像块结点与其四邻居之间的能量函数，此处的定义与计算静态背景时的能量函数的定义相同，即认为两个相邻图像块标签的重叠部分越相似，则其都属于背景的可能性越大，因此，定义相邻图像块标签l(x_l，y_l，t)和l(x_l±w，y_l±h，t)的能量函数为重叠部分像素的SSD：

V_{ij}^{S} (l, l^{'}) = β [\frac{1}{| A |} \underset{(x, y) &Element; A}{Σ} {(l (x, y) - l^{'} (x, y))}^{2}]

A：图像块标签重叠区域，|A|重叠区域的像素数量，1(x，y)：像素值；

然后定义每一个视频动态全景背景的二维图像B_Dj中动态区域图像块结点与其两个时间维的邻居之间的能量函数。在此，要判断那个图像块结点位置属于动态区域或静态区域，判断的方法为计算k(l)值：

k (l) = {(\frac{1}{| W_{l} |} \underset{(x, y) &Element; W_{l}}{Σ} MAD (x, y))}^{2}

W_l：图像块，|W_l|：图像块中像素数量，MAD函数在下面有定义；

设置一个预先定义好的阈值，如果k(l)大于该阈值，则该图像块结点位置属于动态区域，否则，属于静态区域。由于要保证图像块结点在时间维的连续性，因此定义动态区域标签在时间维的能量函数为：

if[t(n_i)-t(n_j)]≠[t(l)-t(l′)]

i，j表示动态视频的第几帧，t(n_i)：表示图像块n_i所在的帧，t(l)：表示图像块标签所在的帧，相减的结果是表示他们的时间间隔；

最后定义每一个视频动态全景背景的二维图像B_Dj中静态区域图像块结点在上与其时间维的前后邻居之间的能量函数，计算当前选择的图像块标签同前后帧邻居图像块标签之间的距离平方和：

V_{ij}^{TS} (l, l^{'}) = λ [\frac{1}{| W |} \underset{(x, y) &Element; W}{Σ} {(l (x, y) - l^{'} (x, y))}^{2}]

W：图像块重叠区域，|W|：重叠区域的像素数量，l(x，y)：(x，y)位置的像素值

根据以上的能量函数的定义，并且人工指定每个能量函数的权值α，β，γ，λ，得到所有图像块标签的能量函数为：

E ({l_{i}}) = Σ_{i = 1}^{| N |} V_{i} (l_{i}) + \underset{(i, j) &Element; L}{Σ} [V_{ij}^{S} (l_{i}, l_{j}) + V_{ij}^{TS} (l_{i}, l_{j}) + V_{ij}^{TD} (l_{i}, l_{j})]

7、前景物体行为拼接：

提取运动物体的行为及多个视频中运动物体之间的行为关系，然后将多个视频的运动物体拼接在一起，使得运动物体之间的行为关系合理：

为了提取运动物体行为，必须先提取运动物体，本发明采用图像相减的方法提取运动物体。提取运动物体的公式为：

\frac{| T_{i} (x, y) - B_{s} (x, y) |}{MAD {(x, y)}^{2}} > χ_{3}^{- 1} (α)

T_i(x，y)：配准后的图像在(x，y)位置的像素值，B_s(x，y)：全景静态背景在(x，y)位置的像素值；

由于在颜色空间上提取运动物体，因此

为给定置信度为α的自由度为三的逆卡方分布。其中，MAD(x，y)的定义为：

MAD(x，y)＝med_i{|T_i(x，y)-B_s(x，y)|}

med代表中值计算。

由于直接利用该方法提取出的运动物体有很多噪声点，因此本发明使用形态学操作对运动物体掩码图像做腐蚀和膨胀操作，但是腐蚀操作将与背景颜色相近的某些物体部位腐蚀掉，必须将腐蚀掉的部分填补回来，填补方法为：

f_{bi_Mask}^{*} (x, y) = \{\begin{matrix} 1 & if | f_{bi_Mask} (x &PlusMinus; 1, y &PlusMinus; 1) | > 2 \\ 0 & otherwise \end{matrix}

mask图像为二值图像，像素点的值为0或者1，f_{bi_Mask}(x，y)：是mask图像在(x，y)位置的像素值，如果一个点和它上下左右四个点的像素值的和大于2，就把这个点的像素值设为1，属于动态区域。

将运动物体在视频图像F(f₀，f₁，...，f_n)中标记出来，标记为F_b(f_b0，f_b1，...，f_bn)，运动物体在视频图像中用4个参数来表示f_bi(x_i，y_i，v_xi，v_yi)。x_i，y_i：是与动物体的位置，v_xi，v_yi：表示运动物体在x轴方向上和y轴方向上的速度；

本发明定义一个运动的轨迹为：按照时间顺序遍历运动物体的位置，遇到的第一个最低点

作为轨迹的初始点，遇到的第一个最高点

作为轨迹的最高点，遇到的第二个最低点

作为轨迹的终结点，该点作为下一个轨迹的初始点。这三个关键点及其关键点之间的点构成了一个运动物体的轨迹。

首先，计算两段视频中运动物体的轨迹相似性。在计算过程中要考虑以下三个问题：(1)在计算轨迹相似性时，水平和垂直方向的速度均要考虑；(2)视频V_a和视频V_b中轨迹所包含的视频图像数不一定相同，因此在计算轨迹相似性时，要根据初始帧、最高帧、结束帧的时间维位置，去掉多余的视频帧；(3)假设视频V_a有N段轨迹，视频V_b有N′段轨迹，轨迹相似性的表示采用矩阵形式表示，矩阵中的每个元素代表两段轨迹之间的相似度。轨迹相似度的计算采用如下公式：

f_i，j，表示视频V_a第i段轨迹和视频V_b第j段轨迹的对应帧数，计算机两段轨迹包含的帧数应该相等，为f_i，j，δ：是一个函数，如下所示

其中，sgn(n)返回数字n的符号，如果n＞0，则返回1；如果n＝0，则返回0；如果n＜0，则返回-1。δ(x)的定义为：

δ (x) = \{\begin{matrix} 1, & if x = 0 \\ 0, & otherwise \end{matrix}

由于拼接后可能出现两个运动有错位的情况，因此不能单纯的利用轨迹相似性来判断两段轨迹的可拼接性，如果两个运动物体的距离较远，虽然其轨迹相似，那么其拼接后也没有任何意义，就相当于两个运动物体在不同的位置做同样的运动一样，因此下面利用位置相似性来判断是否可拼接。

计算两段视频中运动物体的位置相似性。为了保证多个运动物体拼接后行为的合理性，本发明认为，两个视频中待拼接的行为必须在位置上最接近。因此，位置相似性的计算采用如下公式：

P_{i, j} = \frac{D_{i, j}}{Max (D)}

Max(D)：所有的D_i，j中的最大值

其中，D_i，j表示两个轨迹的距离，D_i，j定义为：

D_{i, j} = Σ_{k = 1}^{f_{i, j}} (abs (x_{k} - x_{k}^{'}) + abs (y_{k} - y_{k}^{'}))

f_i，j，表示视频V_a第i段轨迹和视频V_b第j段轨迹的对应帧数，(x_k，y_k)：是视频V_a中的运动物体的位置；(x′_k，y′_k)：是视频V_b中的运动物体的位置，abs()：取绝对值的函数；

通过计算得到视频V_a和视频V_b中运动物体的轨迹相似性和位置相似性，本发明提出了一种运动物体行为的可拼接性度量方法，该方法利用轨迹相似性和位置相似性对轨迹可拼接进行投票，得票最高的轨迹可拼接性最高。

该算法的核心思想是根据视频行为的连续性，假设视频V_a的轨迹G_i和视频V_b的轨迹G_j在轨迹相似性和位置相似性上得分都很高，那么这两个轨迹的可拼接性就较高，但是，还要征得对角线上其它轨迹相似性的同意才具有可拼接性，即在计算G_i和G_j的可拼接性时还要计算G_i+k和G_j+k对其可拼接性的同意度。其物理意义是：如果两个运动物体要拼接在一起，那么如果其中两段轨迹拼接在一起，则其后续的轨迹也要能拼接在一起。根据投票得出可拼接性图之后，设置可拼接性阈值就能够将可以给出可拼接的“轨迹对”建议。

8、前景物体与动态背景融合：

利用泊松融合方法根据上面给出的运动物体行为的可拼接性建议将运动物体与动态背景融合，生成场景行为拼接后的视频。

本发明在处理球类运动方面具有特色，运动员的行为拼接可以转化为球的运动行为拼接，如下面的场景：有两段视频V_a和V_b，V_a和V_b在同一地点、不同时间拍摄，拥有不同的运动物体。视频V_a中有运动员A同对面的人打球，在视频V_b中有某运动员同运动员B打球。行为拼接的目标是将视频V_a中的运动员A某段运动和视频V_b中的运动员B的某段运动拼接到一起，使得在拼接后的视频中运动员A同对面的运动员B打球。由于联系运动员A和运动员B的唯一物体就是球，所以通过对球的运动轨迹分析可以得到两个运动员的行为拼接的可拼接性建议，从而指导成运动员A和运动员B的行为拼接。

以上所述仅为本发明的一些基本说明，依据本发明的技术方案所做的任何等效变换，均应属于本发明的保护范围。

Claims

1.一种视频场景行为拼接方法，其特征在于包含以下步骤：

（1）在输入视频序列中提取局部特征；

（2）在同一输入视频的不同帧中，使用基于k-d树的近似最近邻搜索算法在欧式空间中寻找每个特征向量的最近邻和次近邻，当特征向量到最近邻与次近邻距离之比小于某阈值时认为二者匹配，完成局部特征的匹配；

（3）根据每个输入视频的局部特征的匹配结果，把输入视频的所有帧配准到同一坐标系；

（4）网格划分输入视频图像，形成图像块结点集合和图像块标签集合，采用单链接聚类算法对位置相同的标签进行聚类，聚类采用的距离计算公式为在颜色空间上图像块之间逐像素相减的距离平方和；

（5）利用二维马尔科夫随机过程表示输入视频的全景静态背景图像生成过程，并利用置信度传播方法为每个图像块结点选择图像块标签；

（6）利用三维马尔科夫随机场表示输入视频的全景动态背景视频的生成，并利用置信度传播方法为每个图像块结点选择图像块标签；

（7）根据生成的输入视频全景静态背景图像，提取出视频中的运动物体，计算出每帧图像中运动物体的位置，计算每一帧视频图像中运动物体的速度，定义运动物体的轨迹；在此基础之上提取出每个输入视频中运动物体的轨迹，并利用轨迹相似性和位置相似性计算多个输入视频中运动物体的行为的可拼接性；

（8）用户在输入视频中指定一个为参考视频；在运动物体行为的可拼接性的基础上，根据参考视频的全景动态背景视频，以及提取出的运动物体，利用泊松融合方法，融合全景动态背景视频和运动物体，生成行为拼接后的视频场景。

2.根据权利要求1所述的一种视频场景行为拼接方法，其特征在于：步骤（1）中的局部特征为尺度不变特征。

3.根据权利要求1所述的一种视频场景行为拼接方法，其特征在于：步骤（2）中的特征匹配进一步包含以下步骤：

（2.1）构造特征向量的平衡二叉树k-d树；

（2.2）利用最近邻搜索算法在k-d树上以结点和被查询结点距离递增的顺序搜索结点；

（2.3）计算当前视频图像与其前5个邻居视频图像和后5个邻居视频图像之间的匹配特征数量之和，得到图像配准所需要的参考图像所在位置。

4.根据权利要求1所述的一种视频场景行为拼接方法，其特征在于：步骤（3）图像配准采用的图像变换为透视变换。

5.根据权利要求1所述的一种视频场景行为拼接方法，其特征在于，步骤（5）中的基于马尔科夫随机场的全景静态背景图像生成采用以下方法：

（5.1）定义单个图像块结点和图像块结点邻居之间的能量函数；

（5.2）利用置信度传播方法求解二维马尔科夫随机场问题。

6.根据权利要求1所述的一种视频场景行为拼接方法，其特征在于，步骤（6）中的全景动态背景视频生成过程采用以下方法：

（6.1）构建三维马尔科夫随机场，每个图像块结点在输入视频的全景静态背景图像中有上、下、左、右四个相邻结点，在时间维上，每个图像块结点有前后两个相邻结点；

（6.2）判断图像块结点是属于动态区域还是属于或静态区域，并分别定义动态区域和静态区域的能量函数；

（6.3）利用置信度传播方法求解三维马尔科夫随机场问题。

7.根据权利要求1所述的一种视频场景行为拼接方法，其特征在于，步骤（7）中所述的运动物体行为可拼接性计算采用以下方法：

（7.1）根据生成的输入视频全景静态背景图像，提取出视频中的运动物体，并利用形态学操作对提取出的运动物体执行腐蚀和膨胀操作；

（7.2）按照视频图像的时间顺序遍历运动物体的位置，将第一个最低点作为运动物体当前轨迹初始点；第一个最高点作为运动物体当前轨迹最高点；第二个最低点作为运动物体当前轨迹终结点，并且作为运动物体下一轨迹的初始点；运动物体当前轨迹初始点与当前轨迹终结点之间的点构成了一个运动对象的当前轨迹；

（7.3）根据输入视频中运动对象的轨迹和位置描述该段视频中运动物体的行为；利用运动物体行为的轨迹和位置相似性投票得到多个输入视频中运动物体的行为相似性，给出运动物体行为的可拼接性。