CN101606203A

CN101606203A - 用于子帧精确同步的方法和系统

Info

Publication number: CN101606203A
Application number: CNA2006800565763A
Authority: CN
Inventors: 英格·托比亚斯·多塞; 安娜·贝莲·贝尼特斯; 张东庆
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2006-12-12
Filing date: 2006-12-12
Publication date: 2009-12-16
Anticipated expiration: 2026-12-12
Also published as: CN101606203B; CA2673100A1; US20100054696A1; WO2008073083A1; JP5031039B2; JP2010512711A; US8483540B2; CA2673100C; EP2095367A1

Abstract

一种在两个记录模式之间进行同步的方法、装置和系统包括：识别两个记录模式下的公共事件。针对两个模式中较高精度的模式，在时间上辨认事件。通过确定所述事件在较低精度模式下的帧之间发生的时间，在两个模式中较低精度的模式下预测事件。使较高精度的模式下的事件与较低精度的模式同步，以提供两个模式之间的子帧精度的对准。在本发明的一实施例中，公共事件包括场记板的关闭，并且两个模式包括音频和视频记录模式。

Description

用于子帧精确同步的方法和系统

技术领域

本发明总体涉及诸如音频和图像记录分量等记录模式的同步，更具体地涉及例如以子帧精度在电影和电视工业中对打板(clap slate)进行同步。

背景技术

在电影制作中，图像(画面)和音频由不同的设备记录。当稍后在处理中组合图像和音频时，必须对这两种类型的信息进行同步。通常，这是由操作人员利用场记板(slate)的可见关闭，将时间码分配给场记板的可听到的“啪”的声响，手动地予以实现的。然而，由于电影捕捉的特性，仅可以以有限的精度做到这一点，这是因为图像或胶片通常是以每秒24帧到60帧之间的帧率记录的。因此，可能具有视觉打板与音频之间存在1/24秒或1/60秒的不确定性的问题。

尽管已经存在能够使用场记板以手动或自动的方式对音频和图像流进行同步的多个现有系统，但这些技术通常要面对由音频流的采样率(帧率)而引起的子帧错位的问题。音频流的采样率常常比图像流的采样率大得多，并且准确的对准点几乎始终介于两个连续的图像帧之间。

发明内容

根据本发明各种实施例的方法、装置和系统通过在至少两个记录模式之间提供子帧精度下的同步，解决了现有技术的上述和其他缺陷。

在本发明的一实施例中，一种对两个记录模式进行同步的方法包括：识别两个记录模式下的公共事件；针对两个记录模式中较高精度的模式，在时间上确定公共事件的发生；通过确定公共事件在两个记录模式中较低精度的模式下的帧之间发生的时间，来预测该较低精度模式下公共事件的发生；以及使较高精度的模式下的公共事件的发生与较低精度的模式进行同步，以提供两个记录模式之间的子帧精度的对准。

在本发明的一备选实施例中，一种对音频记录与视频记录进行同步的方法包括：识别音频记录和视频记录中的公共事件；确定音频记录中公共事件的位置；将音频记录中事件的位置与视频记录中距事件发生最近的帧相关联；如果所述事件并未发生在视频记录中的一帧内，则估计所述事件发生的帧间位置；以及利用与一差值相等的量，来调整音频记录的相关联的位置，所述差值是最近帧的出现与所估计的事件发生位置之间的差。

在本发明的上述实施例中，公共事件可以包括场记板的关闭，并且估计公共事件发生的帧间位置包括：计算场记板关闭的角速度、以及预测该场记板已在何时关闭。

在本发明的一备选实施例中，一种用于在视频制作中对视频信息与音频信息进行同步的系统，所述音频信息和视频信息具有公共事件，所述系统包括：用于确定所述视频制作的视频模式下距公共事件发生最近的帧的装置；用于确定所述视频制作的音频模式下公共事件的位置，并将音频模式下公共事件的位置与视频模式下距公共事件发生最近的帧相关联的装置；用于通过确定视频模式下公共事件发生的帧间位置，来估计视频模式下公共事件的发生的装置；以及用于使音频模式与视频模式同步的装置。在本发明的一实施例中，所述同步装置通过将音频模式的相关联的位置调整与一差值相等的量，来使音频模式与视频模式同步，所述差值是最近帧的出现与所估计的视频模式下事件发生位置之间的差。在本发明的一备选实施例中，所述同步装置通过将校正时间与音频模式下公共事件的发生时间相加以指定起始点，并将所述起始点与视觉模式下公共事件发生后最近的帧进行对准，来使音频模式与视频模式同步。

附图说明

考虑以下结合附图的详细描述，可以容易地理解本发明的教导，附图中：

图1示出了两个胶片序列，所述两个胶片序列示出了多个状态下的场记板；

图2示出了一条时间线，该时间线示出了传统技术中音频打板与视觉打板之间的失配或误差；

图3示出了一条时间线，该时间线示出了根据本发明一实施例的、与音频打板存在偏移的新起始点与视觉打板间的同步；

图4示出了根据本发明一个实施例的、用于对两个记录模式进行同步的系统的高层框图；

图5示出了根据本发明一个实施例的、用于对两个记录模式进行同步的方法的流程图。

应当理解，附图是为了阐释本发明的构思，而不一定是为了阐释本发明的唯一可能配置。为了便于理解，在可能的情况下，使用相同的参考标记来指示附图共有的相同元件。

具体实施方式

本发明有利地提供了一种例如电影制作应用中的音频和图像同步方法、装置和系统。尽管将主要在电影制作的上下文中描述本发明，但本发明的具体实施例不应被视为限制本发明的范围。本领域技术人员将认识到，并且通过本发明的教导将了解到，本发明的构思可以有利地应用于其他同步技术。例如，可以在胶片切分、胶片记录、音频混合、图像混合等中实现本发明的构思。该构思可以包括在至少两个模式(例如，音频模式和视觉模式)下提供事件的指示符。然后，至少针对较高精度的模式在时间上辨认该指示符。此时，较低精度的模式具有对应的时间，该对应的时间是外推得到的，用于预测事件发生在较低精度模式的帧之间的时间。然后，对两个模式下的事件进行同步，以提供两个模式之间的子帧精度。

图中所示的各种元件的功能可以通过使用专用硬件以及能够与适当软件相关联地执行软件的硬件来提供。当该功能由处理器提供时，该功能可以由单个专用处理器、单个共享处理器、或多个其中某些可以共享的单独处理器提供。此外，术语“处理器”、“模块”或“控制器”的显式使用不应被解释为专指能够执行软件的硬件，而是可以隐含地包括但不限于数字信号处理器(“DSP”)硬件、用于存储软件的只读存储器(“ROM”)、随机存取存储器(“RAM”)和非易失性存储器。此外，此处阐述本发明的原理、方面和实施例及其具体示例的所有记载均意在包括其结构上和功能上的等价物。另外，这样的等价物意在包括当前已知的等价物以及未来将被开发的等价物(即，不论结构如何，能够执行相同功能的、所开发的任何元件)。

因此，例如，本领域技术人员将认识到，此处呈现的框图表示用于体现本发明原理的示意性系统组件和/或电路的构思视图。类似地，将认识到任何流程图表、流程图、状态转移图、伪代码等表示实质上可以表示在计算机可读介质中，因此不管是否显式地示出了计算机或处理器均可由计算机或处理器执行的各种过程。

根据本发明的各种实施例，公开了一种在影片制作中对音频和图像分量进行同步的方法、装置和系统。在一实施例中，本发明描述了一种实现音频和视频的更精确同步的解决方案。当对音频和视频进行同步时，以较高精度的形式(当前是音频)提供场记板时间码，然后将该场记板时间码与另一形式(当前是视频)的场记板时间码进行对准。

参照图1，图1示意性地示出了两个示例场记板关闭序列10和20。在序列10中，第一画面12示出了处于30度打开位置的场记板15，第二画面14示出了处于15度打开位置的场记板30，第三画面16示出关闭的场记板30。在这种情况下，如果假定场记板(此处也被称作打板(clapper))角速度恒定，则音频打板恰好发生在捕获到第三画面16的时刻处。注意，尽管场记板30可以处于任何位置或定向，但由于线性立体投影关系的缘故，在照相机的投影2D图像中场记板的角速度保持恒定。

在序列20中，第二画面22示出了处于50度打开位置的场记板30，第二画面24示出处于15度打开位置的场记板30，第三画面示出关闭的场记板30。在这种情况下，音频打板并非发生在第三画面的捕获时间处。假定了打板的角速度恒定，则可以清楚的看出，音频打板一定已发生在拍摄画面二24和拍摄画面三26之间的某一时刻。

参照图2，事件的时间线示出了沿着音频轨迹40的序列20，用以表明音频打板的发生时间42。目前，在不考虑技术所产生的误差的情况下，同步音频和图像的手动或自动同步方法将示出了关闭场记板的第一视觉帧的时间码与音频打板的音频时间码进行对准。更具体地，使用所述的技术，场记板关闭状态26与音频打板事件42对准。这将导致采用该传统技术的场景或序列的音频与图像之间的误差44。

根据本发明，限定了一种用于实现音频和视频的更精确同步的解决方案。在对音频与视频进行同步的过程中，将音频的场记板时间码校正为与视频的场记板时间码对准。即，在本发明的各种实施例中，基于视频序列中所提供视觉线索来确定视频的场记板时间码。此处所指的视频涉及图像、运动图像和/或视觉数据。

参照图3，将音频场记板时间码校正为适当地与关闭的场记板的视频时间码对准。如果在两个运动画面帧之间打板关闭了，那么不将音频时间码与场记板在其中关闭了的第一视觉帧对准，而将其与该打板发生的实际时间对准。在图3中，精确时刻没有与其相关联的画面时间码，这是因为该时刻发生在两个画面帧之间。因此，根据本发明，通过确定与示出了关闭的场记板的第一画面帧49的时间码(事件时间)对准的新起始点47，来校正音频场记板时间码。

图4示出了根据本发明一实施例的、用于对两个记录模式进行同步的系统的高层框图。图4的系统100示意性地包括对记录中所使用的两种模式进行同步的独立设备。然而，在一候选实施例中，系统100可以包括混合设备、记录设备、制作设备或需要对记录的两种模式进行同步的任何其他设备的一部分。在本发明的一实施例中，模式包括音频和视觉数据。

在图4的系统100中，系统100示意性地包括：场记板角度分析框110、场记板关闭预测框126、视觉场记板关闭时间码框120、场记板音频辨认框134和场记板角度存储框122。在图4的系统100中，场记板角度分析框示意性地包括：场记板图像辨认框112和场记板角度计算框114。另外，在图4的系统100中，场记板关闭预测框示意性地包括角速度计算框128和关闭时刻预测框130。在图4的系统100中，将运动画面数据102传递给场记板角度分析框110。另外，将运动画面时间码(视觉时间码)104传递给视觉场记板关闭时间码框120。同时，将具有音频时间码108的音频数据106传递给场记板音频辨认框134。场记板角度分析框110的场记板图像辨认机构112接收运动画面数据102。场记板图像辨认机构112分析画面内容102，并确定与场记板图像相似的几何形状。可以以软件或硬件实现图像辨认机构112，可选地，技术人员可以手动执行图像辨认。辨认过程可以包括：自动地(使用图像辨认软件)或手动地识别场记板的各部分。

在场记板角度分析框110中，场记板角度计算框114进一步分析由辨认机构112确定的、与场记板相似的几何形状，以检测打板的角度。场记板角度分析框110可以包括：视频辨认软件(未示出)，配置用于识别打板并使用不同帧来确定场记板角度。在本发明的一实施例中，通过例如在打板的图像上应用量角器，可以在视觉上进行角度确定。由此，可以确定出打板关闭的更精确的时刻(时间)。在许多情况下，容易实现图像或视频序列中打板的识别，这是因为打板具有区别标记，并且通常被突出显示在视频序列中。

图4的场记板分析框110示意性地包括两个输出信号。一个输出信号116可以包括“场记板关闭信号”。场记板关闭信号116用于识别具有完全关闭的打板的第一画面帧。例如，在本发明的一实施例中，可以将场记板关闭信号116实现为布尔型信号，其中，对于场记板关闭的所有图像帧的时间周期，该布尔型信号变为“真”，而对于所有其他帧周期，该布尔型信号变为“假”。场记板分析框110的第二输出信号118可以包括“当前场记板角度”信号。当前场记板角度信号118标识以例如度数或弧度表示的、当前画面的打板的角度。将第二输出信号118并行地传递给两个后续框：场记板关闭预测框126和场记板角度存储框122。

视觉场记板关闭时间码框120接收输出信号116(场记板关闭信号)。在视觉场记板关闭时间码框120处，选择第一时间码作为随后用于与音频进行同步的视觉场记板时间码136，其中在第一时间码期间，场记板关闭信号116变为“真”。先前帧场记板角度存储框122存储了一个或多个先前的打板角度，以允许场记板关闭预测126对场记板的速度和位置作出预测。采用这种方式，可以在场记板关闭预测框126的角速度计算框126中计算角速度，并且可以在场记板关闭预测框126的关闭时刻预测框130中作出关闭时刻预测。根据所期望的精度，可以在预测打板的关闭时间的过程中考虑角速度和角加速度。在一实施例中，假定了恒定的角速度。在本发明的一实施例中，在确定了场记板关闭之后，可以从场记板角度存储框122中丢弃与先前帧的场记板角度有关的、所存储的信息。在本发明的一实施例中，假如来自场记板角度分析框的场记板关闭信号116在被场记板角度存储框122接收之前被延迟了至少一个画面帧周期，则该信号116可以用于指示何时可以丢弃存储信息。

在本发明的一实施例中，角速度计算框128使用前一帧(N-1)的场记板角度和前一帧的前一帧(N-2)的场记板角度，来确定场记板的角速度。由此，假定了恒定的角速度。在本发明的一实施例中，角速度计算框128可以根据方程一(1)来确定角速度：

角速度＝[角度_(N-2)-角度_(N-1)]/帧周期(1)

角速度表示以每秒度为单位的场记板或打板的角速度；角度_(N-1)表示打板关闭之前最后一帧中的以度数表示的打板的角度，角度_(N-2)表示打板关闭之前倒数第二帧的以例如度数表示的打板的角度，帧周期表示两个连续视频帧之间的以秒为单位的时间周期(例如，在每秒具有24帧的电影的情况下为帧周期1/24秒)。

然后，在场记板关闭信号116变为“真”时，角速度计算框128可以使用最后一个角度(角度_(N-1))的绝对值和计算出的角速度，采用方程二(2)来计算打板的实际关闭的预计时间：

关闭时间＝角度_(N-1)/角速度(2)

关闭时间是最后一个打板打开的画面帧与打板实际关闭的时间之间的时间。必须从帧周期(例如，1/24秒)中减去一个“关闭时间”来获得“校正时间”(时间差信息)138。根据定义，该值是正的，这是因为打板是在打板关闭的第一画面帧之前或在该第一画面帧时关闭的，并且可以根据方程三(3)来表征该值：

校正时间＝帧周期-关闭时间(3)

通过使用例如加法器132或类似的补偿设备将采用例如方程(3)确定的“校正时间”138与来自场记板音频辨认框134的音频场记板时间码142相加，来计算校正后的音频场记板时间码140。校正后的音频场记板时间码140使音频轨迹与视频轨迹同步，以提供所期望的、子帧精度的同步。可以根据方程四(4)来表征校正后的音频场记板时间码：

校正后的音频场记板时间码＝音频场记板时间码+校正时间(4)

采用方程(4)，音频和视频实际上与距场记板最近的帧时间码同步。音频辨认设备134在音频数据中辨认场记板。即，音频辨认设备134可以指定音频场记板时间码142或场记板出现的时刻。例如在一实施例中，可以通过采用声音波形分析，并选择最大(最响)峰值来实现上述任务。由于在这种情况下，音频信号更精确(不限于画面图像的帧率)，因而采用音频事件作为参考。将该参考与视频信号中实际的场记板关闭进行比较。

图5示出了根据本发明一实施例的、用于对两种记录模式进行同步的方法的流程图。图5的方法开始于步骤202，在步骤202中，在至少两种记录模式下识别公共事件。在本发明的一实施例中，两个记录模式包括音频记录模式和视频记录模式。所识别的公共事件可以包括：提供了视觉和音频事件的打板的关闭。然后，方法前进至步骤204。

在步骤204中，在两种记录模式中至少较高精度的模式下，在时间上辨认识别事件(例如，打板视觉和音频)。例如，在本发明的一实施例中，较高精度记录模式包括音频记录模式，较低精度模式包括视频记录模式。即，由于对影片记录所施加的帧率限制(例如，1/24秒或1/60秒帧率)，对于在视频中在时间上识别事件而言，视频记录模式更不精确。在所述的实施例中，针对两个记录模式中至少较高精度的模式在时间上辨认事件包括：使用音频辨认(例如，声音波形分析)来确定场记板何时关闭。然后，方法前进至步骤206。

在步骤206中，在较低精度的记录模式下识别事件，在上述实施例中，这是通过确定事件发生在视频记录模式的帧之间哪一时刻来完成的。这可以包括：计算场记板关闭的角速度、以及预测场记板已在何时关闭。所述事件识别可以包括：执行图像辨认或音频辨认。然后，方法前进至步骤208。

在步骤208中，对较高精度的记录模式下的事件与较低精度的记录模式下的事件进行同步。例如，在上述实施例中，为了提供两个模式之间的子帧精度对准，将音频事件与视频记录中最近的帧同步。然后如上所述确定校正时间。然后，用所选择的最近的帧的出现时间加上或减去所确定的校正时间，以标识视频记录中的事件的发生时刻。在本发明的一备选实施例中，通过将校正时间与高精度模式(例如，音频记录)下公共事件的发生时间相加以指定起始点，并将该起始点与较低精度模式(例如，视频记录)下公共事件发生之后最近的帧对准，来对模式进行同步。然后退出该方法。

尽管已描述了用于子帧精确打板同步的方法、装置和系统的优选实施例(意在阐释而非限制)，但应当注意的是，本领域技术人员可以根据以上教导作出修改和变更。因此应当理解，可以在由所附权利要求所限定的本发明的范围和精神内公开的本发明具体实施例中，作出改变。尽管以上所述针对的是本发明的各种实施例，但可以在不背离本发明基本范围的前提下，设计出本发明的其他实施例。

Claims

1.一种用于对音频记录与视频记录进行同步的方法，包括：

识别音频记录和视频记录中的公共事件；

确定音频记录中公共事件的位置；

将音频记录中事件的位置与视频记录中距事件发生最近的帧相关联；

如果所述事件并未发生在视频记录中的一帧内，则估计所述事件发生的帧间位置；以及

利用与一差值相等的量，来调整音频记录的相关联的位置，所述差值是最近帧的出现与所估计的事件发生位置之间的差。

2.根据权利要求1所述的方法，其中，所述公共事件包括：场记板的关闭。

3.根据权利要求1所述的方法，其中，使用音频辨认来确定音频记录中公共事件的位置。

4.根据权利要求1所述的方法，其中，估计所述事件发生的帧间位置包括：计算场记板关闭的角速度、以及预测场记板已在何时关闭。

5.根据权利要求1所述的方法，其中，使用图像辨认来确定视频记录中公共事件发生的最近帧。

6.根据权利要求1所述的方法，其中，在时间上确定音频记录中事件的位置。

7.一种用于在视频制作中对视觉和音频信息进行同步的方法，包括：

识别所述视频制作的音频模式中与视觉模式的图像帧中的公共事件；

针对音频模式在时间上辨认公共事件；

通过确定公共事件在视觉模式下帧之间发生的时间，来预测视觉模式下公共事件的发生；

确定视觉模式下公共事件的发生与公共事件发生后第一帧之间的时间偏移；以及

通过用所确定的时间偏移使音频起始时间偏移，来使音频模式与视觉模式同步，从而提供音频模式与视觉模式之间的子帧精度对准。

8.根据权利要求7所述的方法，其中，所述公共事件包括：场记板的关闭。

9.根据权利要求8所述的方法，其中，确定公共事件的发生与公共事件发生之后第一帧之间的时间偏移包括：计算场记板关闭的角速度、以及预测场记板已在何时关闭。

10.一种用于在视频制作中对视频信息与音频信息进行同步的系统，所述音频信息和视频信息具有公共事件，所述系统包括：

用于确定所述视频制作的视频模式下距公共事件发生最近的帧的装置；

用于确定所述视频制作的音频模式下公共事件的位置，并将音频模式下公共事件的位置与视频模式下距公共事件发生最近的帧相关联的装置；

用于通过确定视频模式下公共事件发生的帧间位置，来估计视频模式下公共事件的发生的装置；以及

用于使音频模式与视频模式同步的装置。

11.根据权利要求10所述的系统，其中，所述公共事件包括：场记板的关闭。

12.根据权利要求11所述的系统，其中，用于估计的装置基于先前帧计算场记板关闭的角速度，来预测场记板关闭的时间。

13.根据权利要求12所述的系统，还包括：存储装置，用于存储视频模式帧的场记板的角位置。

14.根据权利要求10所述的系统，其中，用于确定视频模式下距公共事件发生最近的帧的装置包括：图像辨认装置。

15.根据权利要求10所述的系统，其中，用于确定视频模式下距公共事件发生最近的帧的装置包括：场记板角度计算装置，用于确定视频模式帧中场记板的角度。

16.根据权利要求10所述的系统，其中，所述估计装置包括：

角速度计算装置，配置用于确定场记板的角速度；以及

关闭预测装置，配置用于预测场记板何时关闭。

17.根据权利要求10所述的系统，其中，所述同步装置包括：求和装置，配置用于利用与一差值相等的量，来增大音频模式的相关联的位置，从而提供音频模式与视频模式之间的子帧同步，所述差值是视频模式下最近帧的出现与所估计的事件发生位置之间的差。

18.根据权利要求10所述的系统，其中，用于确定音频模式下公共事件的位置的装置包括：音频辨认装置。

19.根据权利要求10所述的系统，其中，所述同步装置通过将音频模式的相关联的位置调整与一差值相等的量，来使音频模式与视频模式同步，所述差值是视频模式下最近帧的出现与所估计的事件发生位置之间的差。

20.根据权利要求10所述的系统，其中，所述同步装置通过将校正时间与音频模式下公共事件的发生时间相加以指定起始点，并将所述起始点与视觉模式下公共事件发生之后最近的帧进行对准，来使音频模式与视频模式同步。

21.一种用于对至少两个记录模式进行同步的方法，包括：

识别至少两个记录模式下的公共事件；

至少针对所述至少两个记录模式中较高精度的模式，在时间上确定公共事件的发生；

通过确定公共事件在所述至少两个记录模式中较低精度模式下的帧之间发生的时间，来预测所述较低精度模式下公共事件的发生；以及

使较高精度模式下公共事件的发生与所述较低精度模式同步，以提供所述至少两个记录模式之间的子帧精度的对准。

22.根据权利要求21所述的方法，其中，所述至少两个记录模式包括音频模式和视觉模式。

23.根据权利要求21所述的方法，其中，所述公共事件包括：场记板的关闭。

24.根据权利要求23所述的方法，其中，至少针对所述两个记录模式中较高精度的模式在时间上确定公共事件的发生包括：使用音频辨认来确定场记板何时关闭。

25.根据权利要求23所述的方法，其中，预测所述两个记录模式中较低精度模式下公共事件的发生包括：计算场记板的角速度；以及预测场记板已在何时关闭。

26.根据权利要求21所述的方法，其中，对公共事件的发生进行同步包括：将校正时间与高精度模式下公共事件的发生时间相加以指定起始点，并将所述起始点与较低精度模式下公共事件发生后最近的帧进行对准。