CN102075668A

CN102075668A - 用于同步视频数据的方法和设备

Info

Publication number: CN102075668A
Application number: CN2010106087405A
Authority: CN
Inventors: F·舒维格; M·艾科霍恩; G·舒罗斯; E·斯坦贝克; M·法迈尔; W·克勒雷尔
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2009-11-13
Filing date: 2010-11-12
Publication date: 2011-05-25
Anticipated expiration: 2030-11-12
Also published as: EP2326091B1; US20110122315A1; JP2011109656A; EP2326091A1; CN102075668B; JP5165743B2

Abstract

本发明涉及用于同步视频数据的方法和设备。一种用于确定第一视频序列和第二视频序列之间的时间关系的方法，所述方法包括：从所述第一视频序列获取第一参数，所述第一参数随时间的演变相应于所述第一视频序列的熵随时间的变化；从所述第二视频序列获取第二参数，所述第二参数随时间的演变相应于所述第二视频序列的熵随时间的变化；匹配所述第一参数随时间的演变和所述第二参数随时间的演变，从而确定这两个视频序列之间的时间关系。

Description

用于同步视频数据的方法和设备

技术领域

几乎每一个包含多于一个相同场景的视频的应用都需要记录的同步。可在例如体育赛事的数字电视传输中发现这些应用。这里，可通过一种被称为“画中画”的格式来从不同视点同步地观测感兴趣的场景。然而，这些服务需要复杂的和校准的基础结构(infrastructure)以通过使用外置时钟来触发照相机而按时间地排列视频流。尽管在专业电影制作中对视频同步的需求与场记板一样古老，这仍然是电影剪辑的重要参考。因为数字3D动画的整合，时间参考获得越来越多的关注。直到现在，这些应用都是通过说明专门的专业领域的复杂同步硬件来解决的。

然而，易于同步的能力不仅意味着专业电视或电影制作的增强，并且尤其促进了基于新机构的服务。随着能够记录高质量视频的照相手机的共享的持续增加，用户生成的内容数量达到允许用户寻找任何感兴趣位置的媒体的临界规模。这里，可通过GPS标签的帮助来预过滤查询。不仅是位置，还有时间上的查询允许搜索已由多个生产消费者(在同一时间制作和消费内容的用户)所记录的事件。因此，可用媒体丰富的巨大空间可以基于多个视频记录的可用性，如果他们可被及时地匹配的话。

一个简单的例子就是在观看例如街头表演、交谈或本地体育赛事的特定事件时的视点偏移。这还可以包括时间缝合(stitching)应用，其可以从单独的位置匹配的镜头中生成电影。这里，多个记录器中的一个的音频数据可与其他生产消费者的视频数据相混合，导致了协作的场景记录。

此外，通过将计算机视觉领域的公知算法扩展到视频处理，冗余视频信息的可用性可被用于重构三维风景，减去背景、前景或创建不同视点的组合。一个明显的例子可以是消除遮挡(occlusions)以促进街头表演的无干扰记录。然而，使用环境的三维结构的强大信息，可以发展复杂的扩张逼真应用。另外，可以在空间域和时间域内生成超分辨率视频，其允许平滑的慢动作及缩放。

然而，视频序列的同步是所有这些应用的先决条件。

过去几年已经提出了多种解决视频同步的问题的方案。一可能的分类公开为C.Lei和Y.H.Yang.具有子帧优化的基于三焦距张量的多视频同步.IEEE Transactions on Image Processing15(9)：2473-2480，2006，其对基于特征的，基于强度的和基于照相机运动的算法进行区分。之后的种类包括具有严格联系的照相机的极专业的场景。当然，这是一种极有限制的假设。基于特征的方案是同步方法中的最大分支。这里，其假设可在视频帧中检测那些所谓的图像特征，也就是高区分性的点或边缘，并且这些图像特征可与其他序列中的相应特征相关联。

基本的想法是：不同照相机之中的相应于相同3D点的帧特征的运动互相关联。这类算法的主要缺点在于需要贯穿序列的特征的可靠检测、匹配和追踪。这一重要问题还未得到满意的解决。最终，基于强度分类的同步算法关注建立从一个视频中的每个像素到第二个视频中的一个像素的映射。在某些方案中，不仅估计两个视频之间的时间偏移，还估计两个图像之间的几何失真。然而，关于失真的知识对于精确的同步来说是必需的，这使得任务更加复杂。一般来说，基于强度的方法无法处理运动照相机。所有现有方案的共同问题在于视觉方向的限制。超过30度的不同观测方向差别通常得不到支持。

即使基于硬件的同步系统允许最大稳健性和精确度，但因其复杂性和对基础结构的需求，当前其不适用于最终用户设备。到目前为止，几乎不会使用具有时间戳的媒体内容的标签，其可能基于单独的内部设备时钟，这些时钟可能具有无限制的差异。此外，基于硬件和时间戳的方案并不适用于追溯已经存在的视频。

在另一方面，即使最新的基于软件的方案也意味着高的计算复杂度。这是因为这一事实：基于强度的技术处理帧像素，并且由此在极高规模上执行算术操作。基于特征的方法提取帧的兴趣点以降低维度，则因此计算时间反而需要提取时间。基于照相机运动的方案相对较快；然而，其假设照相机的严格的安装和基线。因此其不适用于上述的应用。

然而，基于强度和基于特征的算法需要依从特定的假设。当前发展的一个主要的挑战就是观测角度的限制。基于强度的方法几乎无法应对相应的失真，而基于特征的技术可以应对典型的高达30度的角度，尽管其性能相当有限。进一步的，这两个种类采用照相机性能的知识，例如焦点长度，或者至少需要使用相同类型的照相机。另一个相当重要的挑战，特别对于基于强度的方案来说，就是照相机运动的限制。然而，用手操作的及轻质的照相机电话不可避免地导致改变观察方向，即使增强了图像稳定技术。

因为基于特征的算法执行兴趣点的连续追踪，其容易受到纹理改变的影响，例如在衣服上就是如此。进一步的，场景的部分遮挡是对现有特征追踪器的挑战。

视频同步是由Stein倡导的(例如参见GP Stein，Tracking from multiple view points：Self-calibration of space and time，Computer Vision and Pattern Recognition，1999，IEEE Computer Society Conference，卷1，1999。)，他为所有后继的基于特征的方法提供了基础。从此不同的方案得到了融合。然而，这些所有的方案都利用了对极几何(Epipiolar Geometry)的概念，其提供的约束条件可应用于同步。在2004年，Tuytelaars等人发表了基于特征的算法，其通过检测光线的距离以非常自然的方式得到时间偏移(例如参见T.Tytelaar 和L.Va Gool，Synchronizing video sequence，Computer Vision and Pattern Recognition，2004，CVPR 2004，Proceeding of the 2004 IEEE Computer Society Conference on，卷1)。

依赖于特征的方案也被称为轨迹至轨迹对准(trajectory-to-trajectory alignment)，与其相反，基于强度的方案有时也被描述为序列至序列对准(sequence-to-sequence alignment)。Caspi等人创造了这个术语。他们关于时空对准方面的工作成就了该领域的基础(例如参见Y.Caspi和M.Irani，A step towards sequence-to-sequence alignment，IEEE Conference on Computer Vision and Pattern Recognition，2000，Proceedings，卷2，2000)。

同样还有一些基础的基于强度的算法已被提出。M.Ushizaki，T.Okatani以及K.Deguchi，Video synchronization based on co-occurrence of appearance changes in video sequences，Proceedings of the 18^th International Conference on Pattern Recognition-卷3，第71-74页，IEEE computer Society Washington，DC，USA，2006描述了一个例子，其中通过简单的累加从一个帧到下一帧的强度改变来获取在视频中的一般亮度改变。其给出了随时间的“亮度改变简档(brightness change profile)”的分类，其可以在相同的整体方向上与其他观察相同场景的(静态)照相机相比较。

然而，总而言之，当前视频同步方案需要许多假设，给基于视频数据的同步的大多数应用的大规模市场使用造成了障碍。

发明内容

根据一个实施例，其提供了一种确定第一视频序列和第二视频序列之间的时间关系的方法，所述方法包括：

从所述第一视频序列获得第一参数，所述第一参数随时间的演变相应于所述第一视频序列的熵随时间的变化；

从所述第二视频序列获得第二参数，所述第二参数随时间的演变相应于所述第二视频序列的熵随时间的变化；

匹配所述第一参数随时间的演变和所述第二参数随时间的演变，其中

通过计算所述第一参数随时间的演变和所述第二参数随时间的演变之间的相关函数来执行所述第一和所述第二参数随时间的演变的匹配，从而确定所述两个视频序列之间的时间关系。

通过这样的方案，为两个视频序列分别确定了“指纹”，其基于两个视频序列的熵或熵随时间的变化。其代表了或相应于编码视频序列所必需的信息量，因此其是视频序列复杂度的测度。

得到的作为时间的函数的参数相应于导出该参数的视频序列，接着通过尝试匹配作为时间的函数的两个参数，可以确定他们的时间关系，进而确定两个视频序列的时间关系。

通过这样的方案，特别的，视频序列中的对象的移动贡献了熵，此外，他们对熵的影响一定程度上独立于视线，甚至照相机的运动。因此，即使从不同角度或使用运动的照相机来拍摄视频，该方案也能出乎意料的顺利工作。

由此，根据一个实施例，其使用表示参数随时间的演变的函数，以及通过计算两个时间演变函数的相关函数，来匹配各个视频信号的两个相应函数随时间的演变。通过这种方式，可以匹配这两个函数以确定他们的时间关系。

根据一个实施例，所述第一和所述第二参数分别是以下的一个：

熵、条件熵、块熵或任何相关的熵、或从各个帧的所述第一或所述第二视频序列或者所述第一和第二视频序列的一组帧导出的基于熵的参数；

从编码或解码所述第一或第二视频序列的视频编解码器获得的比特率或帧大小。

熵、条件熵或块熵是对视频序列的帧组的一个帧的信息内容的直接测度。

一个特别方便的方案是使用视频编解码器，这是因为其压缩和运动估计能力产生比特率(或帧大小)直接地相应于视频序列的熵的输出数据流。如果序列复杂并且具有许多不同运动着的对象，则熵增加，从而编码器产生的比特率(或帧大小)也增加。在另一方面，静止的或几乎静止的序列具有低的熵和低的比特率。

因此，视频编解码器的输出可直接用于获取与熵相关的参数及其随时间的演变。可替代地，从文件读取的已被编码的视频序列可被处理以获得作为时间的函数的比特率，并且接着使用它来匹配另一个序列和其比特率。

根据一个实施例，执行一种预处理，其包括以下一个或多个：

获得用来表示所述第一和第二视频序列的熵随时间的变化的所述参数的差分值；

应用一个函数，该函数将较高权重分配给较低强度值，将较低权重分配给较高强度值；

应用一个过滤函数以执行平滑。

获得差分值降低了连续照相机运动的影响，并且增强了实际场景变化的影响。

通过应用与较高强度值相比对较低强度值作出更多关注的函数，相对于其他随时间发生的更加逐渐的变化或事件来说，强烈影响熵的单个事件(例如新人物进入场景)的影响可被降低。

通过应用过滤函数，可以执行平滑。

通过这样的预处理，可以增强两个视频序列的熵相关的参数的匹配的整体稳健性。

根据一个实施例，该方法进一步包括：

执行动态时间扭曲(warping)以执行所述第一和所述第二视频序列之间的非线性匹配。

这使得可以考虑以不同速度拍摄或回放的视频。

根据一个实施例，该方法进一步包括：

减去各个帧的块或像素的一个子集对指示所述第一或第二视频序列的熵随时间的变化的演变的参数的贡献。

例如，如果减去了相应于帧的边缘的块，则可以降低展现图像边缘处的新纹理的照相机运动的影响，并且得到的与熵相关的参数变得更加依赖场景内对象的实际运动。同样的，可以从与熵相关的参数中减去帧的其他块或像素的贡献，以进一步增强参数的精确性和稳健性。

根据一个实施例，该方法进一步包括：

通过计算相关函数，尤其是互相关，来执行所述第一和所述第二参数的所述演变的匹配。

这样，可以轻松便利的确定两个序列之间的时间关系。

根据一个实施例，该方法进一步包括：

在所述第二视频序列的一定长度的所有可能的选择上重复所述第一视频序列的第一参数的相关，并且采用例如最大相关值的中值或平均值的组合值作为结果。

这样，可以进一步提高确定最大相关结果的稳健性。

根据一个实施例，其提供了一种用于确定第一视频序列和第二视频序列之间的时间关系的设备，所述设备包括：

用于从所述第一视频序列获得第一参数的模块，所述第一参数随时间的演变相应于所述第一视频序列的熵随时间的变化；

用于从所述第二视频序列获得第二参数的模块，所述第二参数随时间的演变相应于所述第二视频序列的熵随时间的变化；

用于匹配所述第一参数随时间的演变和所述第二参数随时间的演变的模块，其中

通过计算所述第一参数随时间的演变和所述第二参数随时间的演变之间的相关函数来执行匹配所述第一和所述第二参数随时间的所述演变，从而确定两个视频序列之间的时间关系。

这样，可以实现用于实现视频同步方法的设备。

根据一个实施例，该设备进一步包括：

一个或多个模块，用于执行本发明任何进一步实施例的方法的步骤。

根据一个实施例，其提供了一种包括计算机程序码的计算机程序，当在计算机中执行该计算机程序时，使得所述计算机执行根据本发明一个实施例的方法。

附图说明

图1示意性地表示一个场景及其运动补偿。

图2示意性地表示另一个场景及其运动补偿。

图3示意性地表示本发明一个实施例。

图4示意性地表示使用本发明一个实施例来同步的两个场景。

图5示意性地表示图4的场景的比特率。

图6示意性地表示图4的场景的相关结果。

图7示意性地表示两个其他场景的比特率。

图8示意性地表示图7的场景的相关结果。

图9示意性地表示使用本发明一个实施例来同步的两个场景。

图10示意性地表示两个其他场景的比特率。

图11示意性地表示图10的场景的相关结果。

图12示意性地表示使用本发明一个实施例来同步的两个场景。

具体实施方式

一些目前发展水平的视频同步方案试图重构尽可能多的场景信息以仿效人类检测两个序列的时间不匹配的方式。然而，本发明所提出的方案目的在于完全不同的高水平的指纹，以在时域内对准视频。

根据本发明一个实施例，计算了视频序列的帧或视频序列的帧组的熵或与熵相关的参数(或其近似值)。接着该参数随时间演变，因为可以计算视频序列的不同帧或不同帧组的参数，并且通过这种方法，其可被认为是视频序列的一种“指纹”。如果有两个需要被匹配或同步的视频序列，则计算两个视频序列的参数而得到两个参数序列，一个用于第一视频序列，一个用于第二视频序列。进而序列中的单个参数可相应于视频序列的其对应的单个帧或者一个视频帧组。

接着，可以匹配这两个参数序列，例如，执行导致时间关系(时间差异或帧数量的差异)的互相关或任何其他操作，，并通过这种方式，可以确定第一视频序列需要在时间上被偏移多少以匹配第二视频序列。

现在让我们转向作为与熵相关的参数的“参数”的计算和确定。在一个实施例中，其可仅仅通过使用熵的公知定义来计算单个视频帧的熵，公式如下：

H (X) = E_{X} [I (x)] = - \underset{x &Element; X}{Σ} p (x) \log p (x)

这里I(x)是自信息，E_x是期望值。p(x)是值x发生的概率。

本领域人员可以使用该公式来计算序列的单个帧的熵或熵的近似值。

再给出一个具体的例子，为了计算单个帧的熵，可将帧划分为小块，并且通过观察在块的一定位置出现一定值x的频率，可以获得概率分布P(x)。接着可将其用于计算单个帧的熵(或与熵相关的参数)，并且最后得到相应于帧序列的参数序列。接着可通过执行相关来匹配两个视频序列的参数序列。

一个可选的方案是计算基于多于一个帧的与熵相关的参数。这样的一个例子是条件熵(多义)计算，其不仅考虑一个帧还考虑其在前帧。其考虑到随后的帧并非统计意义上独立的，而是以一定概率彼此依赖。假设帧n-1取值A，接着可以计算取值为X的帧n的条件熵，如下：

H (X | A) : = - \underset{x &Element; M}{Σ} P (X = x | A) \log_{b} P (X = x | A)

通过观察两个帧的多个序列，可以导出指示如果帧的某个像素在前一帧中的值为A时，其值将为x的可能性的概率分布。从而接着可以使用所获得的概率分布来计算每个帧的条件熵作为与熵相关的参数。接着可以匹配两个视频序列的两个熵相关的参数以获得二者的时间关系。

在另一个实施例中，不仅考虑了一个在前帧，还有考虑多个在前帧。这将导致块熵作为与熵相关的参数，块熵是针对某一视频帧并且是基于该帧和该帧之前的帧组而计算。

还可以展望与熵相关的参数的计算的增强。例如，可以考虑运动估计以进一步增强稳健性。这将导致要考虑相对于在前帧某一像素移动了多少，所以为了获得概率分布，像素不与在先前帧中的相同像素比较，而与在考虑运动估计时相应于该像素的先前帧的像素相比较。

以下将描述一个实施例，其利用了由视频编码器产生的比特流。这样的视频编码器试图通过压缩算法来尽可能地压缩视频。因为理论上可能的最大压缩与视频序列的熵相关联，视频编解码器产生的比特流对应于与熵相关的参数。

在一个实施例中，视频流的比特率(或从其导出的参数，例如以字节为单位的帧大小或对数值或其根值)及其随时间的变化被用作一种视频序列的“指纹”，该指纹可被用来“关联”某一视频序列和另一个视频序列(或其各自的“指纹”)以识别他们在时域中的关系，换句话说，就是识别两个视频序列之间的时间偏移或时间滞后。因此在一个实施例中的作为时间(或帧数)的函数的比特率(或以比特或字节为单位的帧大小)可被用来表示视频序列，接着可以关联不同视频序列的这些表示(例如通过计算互相关)以识别他们的时间关系。

通过这样的方案，可以确定两个视频序列之间的时间关系(时间滞后或时间偏移)，而不需要执行复杂的特征分析。然而，可以很精确地确定两个序列之间的时间偏移，即使序列是从不同视点拍摄的，以及即使序列是采用运动的照相机拍摄的。

初看起来，该方案或许看起来很令人惊讶。考虑接下来的内容就可以理解令人惊讶的事实：该方案不需现有技术的超大的计算量或复杂的硬件而起作用，并且即使独立于视点以及照相机运动，其也能令人惊讶的发挥作用。

考虑到视觉的信息理论点的问题，有人会指出场景中的变化量以及进而视频信号的熵几乎完全独立于视点。我们从左侧或者从右测观察一个运动的人，仅改变方向而不是信息量。

然而，场景的熵仅是理论上的测量，其非常依赖先前知识。不过视频编码器的目标是所需的最小数据量以节约视频的基本信息。因此，输出比特率表示信息量及解码所必需的复杂度。这使得将编码后的视频的比特率用作场景中的变化的指纹乃至时间对准成为可能。

然而，有人可能争论：视频中的变化进而比特率的变化不仅由于场景中的运动而增加，也可能由照相机运动导致。然而，当前发展水平下的混合视频编码器提供复杂的运动补偿，由照相机运动引起的图像改变可以用比复杂变更更低的比特率来表示，而复杂变更对于场景变化是典型的。一般来说，编码器分离图像块的视频帧中包含的信息和相应的运动矢量(MV)。这些矢量表示在相对于照相机坐标系的位置上的改变。因此先前帧的图像块被再次使用并且放置于由MV确定的位置。因此照相机摇摄导致补偿图像中的块的位置改变的运动矢量。这样的情形在图1中示意性的说明，图1的左手边表示具有其运动矢量的场景，右手边表示相应的比特率贡献。因为大多数的MV具有大致相同的大小和朝向(如图1所示)，则差分编码使得可以达到低比特率。但是，之前没有观察到的区域(用箭头标示在图1的左手边的底部)需要增加到数据流中。这将导致如图1的右手边的“帧内块(intra block)”所示的比特率的贡献，同时对比特率有贡献的其它部分是差分的运动矢量(MV)。

在另一方面，对场景中的对象运动所导致的不同运动矢量进行编码所需的比特率的编码难得多，且其包含更多信息。此外，场景中的变化是复杂的且具有精细结构，使得在基于块的运动估计和补偿中的粗糙分割一般会产生许多小块，因此导致块模式和运动矢量信令具有更高的比特率。更少的精确补偿和良好且复杂的图像变更导致更大的要被传输的运动补偿的残差。这在图2被示意性的说明，其中示出了运动矢量场，覆盖的和未覆盖的背景，以及在右手边，由于联合照相机和对象运动，比特率增大。图2的右手边再次示出了对比特率的贡献，此时其具有三个分量：差分运动矢量、之前提及的残余分量和帧内块分量。

此外，在图2的情况中，运动的人显著地增加了比特率，这是因为他加入了较大量的新纹理。因此，场景中的变化及其熵与所需的比特率密切相关。

这可以作为用以解释为什么比特率可被用作视频序列的“指纹”，其接着被用来“匹配”或“关联”不同序列的理论基础。

该方案基于场景运动定义了同步这一事实，其中独立的照相机运动事实上是不相关的。场景中对象的运动产生具有高的熵的视频信号，这样的运动对象给视频编解码器的预测器造成压力，因此其将导致比特率(以及相应的编码后的帧的帧大小)的提高。因此，运动和比特率是密切相关的，因此比特率可被用作相应于视频序列的熵随时间的演变的参数。接着可以匹配或者关联作为时间(或帧数)的函数的该参数(以帧大小的比特率为单位)和另一个视频序列的帧大小的比特率。

因此，将比特率作为时间对准的指纹，通过使用如图3所示的设备或系统来随时间互相关两个视频的比特率以同步这两个视频是可能的。通过一些视频编解码器来分别压缩来自两个不同照相机的视频数据，这将得到来自不同照相机的两个比特流(具有相应的比特率)。接着对这些比特流进行预处理(可选的)，其可包括，例如将它们的比特率变换为对数标度，或其他任何可在执行实际相关之前执行的预处理，例如从比特率中减去外部块(outer block)，这将在之后详细描述。另一个预处理的示例包括获得任何从实际比特率值导出的值，例如获得差分比特率作为实际比特率的导出值。此外，可以应用根函数，或任何与比特流信号的较高值相比更着重于较低值的函数以代替对数函数。此外，还可以应用滤波函数(高通、低通或带通滤波器)来平滑比特流信号。

接着尝试匹配通过预处理从比特流导出的两个数据流(例如通过匹配在随时间的演变时他们的比特率或帧大小)，接着可以确定视频之间的时间偏移。该“匹配”可以例如通过执行相关，例如互相关，以及通过搜索最大相关值来实现。因为相关方案，所提出的算法不易受到照相机运动的影响，因为得到的比特率的变化不会与场景运动所导致的变化相关。进一步，假设由照相机运动引起的比特率的部分在某种程度上来说是恒定的，则在一个实施例中可以使用归一化互相关。为了削弱比特率中的与较小的但是一样重要的变化相比占优的较大变化，例如在光照下的改变所引起的变化，根据一个实施例，对该比特率应用对数标度。

即使在不遵从当前技术水平方案的要求的条件下该非常基础的算法可以非常精确地同步视频，还可以实现对该方案的改进。这些改进的例子包括：

●在一个实施例中，因为假设照相机并非安装在三脚架上，其容易受到连续的运动的影响，从而造成比特率的不变的共享(constant share)。关联差分比特率可降低这些影响，并且增强实际场景变化的影响。例如，根据一个实施例，其可使用比特率的一阶导数来代替比特率。此外，根据一个实施例，比特流的选择或一部分也可被改变或优化。例如，根据一个实施例，利用随机确定选择的比特流执行相关。然而，根据一个实施例，可以重复全部可能的某一长度的选择，并且使用相关最大值的中值作为结果。

●一个潜在地消除轻微照相机运动的大部分的影响的改进为减去单个帧的外部块的比特率。这些块经常包含之前没有观察到的纹理的信息。通过将比特率减小到未受到沿图像边沿处的新纹理的显露的影响的块，照相机运动的影响限于运动矢量的差分编码。

为了解决不同的或者乃至变化的帧率和可能丢帧的问题，可以采用一种名为动态时间扭曲(Dynamic Time Warping)(DTW)的技术。其思路是寻找两个视频中的时间瞬间之间的非线性映射以代替恒定偏移。因此，我们将以用于视频序列中的每个帧的单个(但是全局相容)的时间偏移作为结束。如果其他视频的回放因为某些原因暂时变慢，则即时偏移应当增加，当第二个视频恢复时再减小偏移。DTW包括小片段形式的比特率曲线的分割，对于每一个小片段可以搜索到最合适的偏移。DTW可解决的另一个问题是在稍后讨论的“Charly”数据集中行人的存在与否。包括令人误解的对象的视频部分应当被分配与所有“适当的”帧相比稍微不同的偏移。经过少数服从多数的决定，这些异常值可被排除在进一步的考虑范围外。

●由于稍后呈现的结果以及利用上述改进的增强，通过本发明的实施例可实现子帧的精确度。通过及时地内插视频帧或者仅仅内插比特率，人们可以得到与采用的采样系数相对的时间对准精度。

●为了不仅确定时间偏移，还确定时间匹配到底是否存在，可以设置用于最大相关值的阈值。只有当超出了该(最小)阈值时，可以推断匹配存在。可以进一步研究最大值的斜率以生成匹配的鲁棒性的测量。因此，无需执行计算度复杂的特征提取步骤即可识别时间匹配的视频。

为说明所建议的方案的优点，关于之前列出的现有算法的挑战进行了评估。考虑计算复杂度，使用已有的压缩视频数据比特流或者如在多数在线视频平台上那样将视频压缩为新的格式，这都是可能的。基于提取的比特率，只需要执行简单的一维互相关。因此，如果为编码的视频数据，需要极少的运算时间。

如前所述，该方案基于观测角度不变的时间指纹。因此，甚至可以同步在视点之间具有180°角进而面对面的记录。不过，如果角度刚好为90°并且对于整个长度的序列来说仅仅在一个照相机轴上执行移动的话，该场景不能被同步。不过，这一合成场景会表明在某一照相机中不能观测到变化。

因为视频编解码器支持高效地补偿照相机运动和互相关方案的使用的影响的特性，通常的摇摄和抖动的影响可被降低。

为了支持来自未知源的视频的同步，这对于基于公共的应用的使用非常重要，可以简单地归一化比特率以执行对于记录的空间分辨率来说不变的比较。如果没有计算计算的几何测量，因此不需要进一步的调整。

以下将解释所提出的方案的一些实验结果。

实验结果

在以下描述中，将说明所述方案用于三个数据集的例子的性能，这三个数据集是所谓的“Charly”、“CapoEha！”和“Nicolas”数据集。对所有这三个数据集，选择相应序列的一个中的一部分以试图寻找相对于其他序列的时间偏移。因为这些序列没有同步地记录，必须通过检查确定真实偏移，以及将真实偏移纠正到至多2帧。为了估计该算法的性能，应该检查计算出的偏移与手动确定的实际的偏差。通过H.264/AVC视频压缩编解码器使用固定的粗量化来编码视频，从而生成比特流。图像组(GOP)的结构是(I)PPPPP(I)PPPPP(I)PPPPP......，并且GOP的长度是500。归一化的互相关被用来比较或匹配。

a)Charly

第一个数据集被称为“Charly”，其包括具有10米的宽基线和大约70°的角度的两个视点的记录。该场景从一个人出现在视野内开始。两个场景(已经匹配)是从如图4所示的不同角度拍摄的。随后对无用数据执行的动作导致前500帧的相对低的比特率。帧大小(相应于比特率)随着时间的演变如图5所示，其中上部表示原始场景(左边的第一视频场景和右边的第二视频场景)，下部表示预处理后的相同场景，该预处理包括对数标度的应用和某一帧集的选择。接着，一组四人进入该场景(图4中未示出)，导致大量的新信息，其反映为比特流的峰值(如图5所示)。然而，因为宽基线，这些人没有同时出现在峰值之间大约20帧的偏移所指示的各个记录中。在这组人通过之后，最后一个人进入场景然后离开，这对应于在场景的最后的峰值。

为了执行以上描述的同步，在第二个记录中(如图5的右下侧所示)选择500帧长度的比特流。通过对该比特率应用对数标度，一组人的影响与场景中其他事件的影响相同。因此，可以最小化较宽基线的负面影响。然而，在实际场景中，照相机的视线在感兴趣的对象处交叉。因此，出现的对象之间的偏移应当非常低。

然而，如图4所示的产生的同步证实了其具有处理大偏移的能力，具有大约3帧的高精确度。图6表示通过比较两个记录的时间匹配帧的同步的正确性。其表示所选择的和预处理后的“Charly“比特率曲线和他们在估计的及真实时间偏移处的对准的相关的结果。

b)CapoEha！

在“Charly”数据集中能够清楚地区分发生的事件，在“CapoEHA！”数据集中，记录了两个人的街头表演。这里，视频的连续运动导致具有高频率变更的相对恒定的比特率。视点之间的基线是2米，其角度为大约30度。再次，第二视频的比特流的选择与第一视频关联，并且应用对数标度(如图7所示)。图8的结果深刻地表示了具有与手动确定的实际有偏差的时间偏移的严格的确定。即使序列中的运动无法分段为离散事件，也可以使用第二视频的比特流的较短选择，如图9所示，该方案稳健地寻找到记录的最佳时间对准。通过增加选择可进一步提高关联的质量，然而，这需要更多计算时间。

c)Nicolas

为了阐明照相机运动的不变性，“Nicolas”数据集包括两个视频，然而第一视频是手动操作的，第二视频是安装在三脚架上的，这反映在如图10所示的不同平均比特率上。为了使场景更富有挑战，应用了较小的照相机摇摄，并且视点之间的平均角度大约为45度。再次，无法将运动分段为离散事件，并且产生相对恒定的比特率。然而，如图11和12所示，仍然可以计算时间偏移的非常精确的估计。此外，通过检查关联图表的倾斜，可以生成时间对准的鲁棒性指示。

实验结果表明即使在非常困难的条件下所提出的方案也能良好工作。

本领域技术人员应当理解以上所描述的实施例可由硬件，软件或软件和硬件的组合来实现。结合本发明实施例描述的模块和功能可由微处理器或计算机整体地或部分地实现，微处理器或计算机适于编码来按照与本发明实施例关联描述的方法来执行。实现本发明实施例的设备可包括计算机、PDA、移动电话、智能电话或其它。

Claims

1.一种用于确定第一视频序列和第二视频序列之间的时间关系的方法，所述方法包括：

从所述第一视频序列获得第一参数，其中所述第一参数随时间的演变相应于所述第一视频序列的熵随时间的变化；

从所述第二视频序列获得第二参数，其中所述第二参数随时间的演变相应于所述第二视频序列的熵随时间的变化；

通过计算所述第一参数随时间的演变和所述第二参数随时间的演变之间的相关函数来匹配所述第一参数和所述第二参数随时间的演变，从而确定这两个视频序列之间的时间关系。

2.根据权利要求1所述的方法，其中所述第一参数和所述第二参数分别是以下之一：

针对所述第一视频序列和第二视频序列的各个帧或帧组，从所述第一视频序列或第二视频序列导出的熵、条件熵、块熵、任何与熵有关的参数、或任何基于熵的参数；

从编码或解码所述第一视频序列或第二视频序列的视频编解码器获得的比特率或帧大小。

3.根据权利要求1所述的方法，其中还执行预处理，所述预处理包括以下的一个或多个：

获得所述参数的差分值，所述差分值被用来表示所述第一视频序列和第二视频序列随时间的熵变化；

应用对较低强度值赋予较高权重而对较高强度值赋予较低权重的函数；

应用滤波函数以执行平滑。

4.根据权利要求1所述的方法，进一步包括：

执行动态时间扭曲来执行所述第一视频序列和所述第二视频序列之间的非线性匹配。

5.根据权利要求1所述的方法，进一步包括：

减去各个帧的块或像素的一个子集对表示所述第一视频序列或所述第二视频序列随时间的熵变化的演变的参数的贡献。

6.根据权利要求1所述的方法，进一步包括：

通过计算互相关来执行所述第一参数和所述第二参数的所述演变的匹配。

7.根据权利要求1所述的方法，进一步包括：

重复所述第一视频序列的所述第一参数在所述第二视频序列的特定长度的所有可能的选择上的相关，并且使用相关最大值的中值或平均值作为结果。

8.一种用于确定第一视频序列和第二视频序列之间的时间关系的设备，所述设备包括：

用于从所述第一视频序列获得第一参数的模块，其中所述第一参数随时间的演变相应于所述第一视频序列的熵随时间的变化；

用于从所述第二视频序列获得第二参数的模块，其中所述第二参数随时间的演变相应于所述第二视频序列的熵随时间的变化；

9.根据权利要求8所述的设备，其中所述第一参数和所述第二参数分别是以下之一：

针对所述第一视频序列和第二视频序列的各个帧或帧组，从所述第一视频序列或第二视频序列导出的熵、条件熵、块熵、任何与熵相关的参数或任何基于熵的参数；

10.根据权利要求8所述的设备，其中还执行预处理，所述预处理包括以下的一个或多个：

应用滤波函数以执行平滑。

11.根据权利要求8所述的设备，进一步包括：

用于执行动态时间扭曲以执行所述第一视频序列和所述第二视频序列之间的非线性匹配的模块。

12.根据权利要求8所述的设备，进一步包括：

用于减去各个帧的块或像素的一个子集对表示所述第一视频序列或所述第二视频序列随时间的熵变化的演变的参数的贡献的模块。

13.根据权利要求8所述的设备，进一步包括：

用于重复所述第一视频序列的所述第一参数在所述第二视频序列的特定长度的所有可能的选择上的相关，并且使用相关最大值的中值或平均值作为结果。

14.一种计算机程序，其包括计算机程序代码，当在计算机上执行所述计算机程序代码时，使得所述计算机执行根据权利要求1所述的方法。