CN102177726A

CN102177726A - 用于音频和视频签名生成和检测的特征优化和可靠性估计

Info

Publication number: CN102177726A
Application number: CN200980139527XA
Authority: CN
Inventors: K·B·特里; R·拉达克里希南
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2008-08-21
Filing date: 2009-08-17
Publication date: 2011-09-07
Anticipated expiration: 2029-08-17
Also published as: JP2013255249A; JP5602138B2; JP2012500584A; EP2327213A1; JP5698318B2; EP2327213B1; WO2010021966A1; CN102177726B; US8400566B2; US20110261257A1

Abstract

从具有已知的相互时间关系的视频内容和音频内容提取特征。提取的特征被用于生成视频签名和音频签名，其与对时间关系的指示一起被组装到同步性签名构造中。该构造可被用于计算在远程目标处接收的视频内容和音频内容之间的同步性误差。在远程目标处生成置信度的量度以优化处理并提供对计算的同步性误差的可靠性的指示。

Description

用于音频和视频签名生成和检测的特征优化和可靠性估计

(相关申请的交叉引用)

本申请要求在2008年8月21日提交的美国临时专利申请No.61/189659的优先权，在此通过引用将其全部内容并入。

技术领域

本发明总体上涉及处理和分布视频信号和音频信号的系统和方法，更具体地涉及生成、传送或使用传输关于视频信号和音频信号的相对时间对准或同步性的信息的数据的应用。在整个公开中，术语“视频信号”指的是传输用于视觉感知(perception)的内容的信号，术语“音频信号”指的是传输用于听觉感知的内容的信号。在一个应用中，系统使用本发明的方面以建立在被信号传输的内容的处理和分布期间丢失的视频信号和音频信号之间的适当的同步性。

背景技术

在音频-视频内容的感知质量(perceived-quality)中，视频信号和音频信号的相对时间对准是重要的因素。一个称为“唇同步”的常见的例子是人的嘴唇的运动图像和由这个人发出的语音之间的相对时间对准。各种研究表明，如果声音与运动图像相关，那么，如果图像和声音的相对时间对准的差值在一定的范围内，那么，人类观察者一般不知道或者容忍该差值。根据ITU-R Recommendation BT.1359-1，“Relative Timing of Sound and Vision for Broadcasting，”如果声音比相关的视频事件提前不大于约20msec或者比相关的视频事件落后不大于约95msec，那么时间对准的差值一般是不可感知的。如果声音比相关的视频事件提前大于约90msec或者比相关的视频事件落后大于约185msec，那么时间对准的差值被感知到并且一般被发现是不可接受的。出于本公开的目的，如果时间对准的任何差值是不可感知的或者至少是一般人类观察者可接受的，那么视频信号和音频信号被视为具有适当的时间对准或者相互同步。

不幸的是，处理、分布和呈现音频-视频内容的许多方法和系统常常包含导致丢失适当的同步性的机制。例如，在广播中，视频信号和音频信号通常在诸如工作室中在信号捕获的点处被同步化，但是，这些信号常常在广播传送之前被处理并且该处理可导致同步性的丢失。例如，模拟视频信号和音频信号可被转换成数字形式并通过感知编码方法处理以减少传送内容所需要的位速率或带宽。可以使用诸如色度键控(chroma-keying)的处理以合并来自多个视频信号的图像。辅助(ancillary)音频信号可与原始音频信号混合或替代原始音频信号。这些和其它的处理中的许多在信号处理路径中引入延迟。如果在视频信号处理路径和音频信号处理路径中，处理延迟不是精确地相等，那么同步性的丢失是不可避免的。另外，如果通过不同的信道独立地分布视频信号和音频信号，那么常常丢失同步性。

为了避免这些问题，提出并使用了搜索接收的视频/音频内容和已知同步的基准视频/音频内容之间的匹配、计算接收的视频内容和音频内容之间的时间对准相对于基准内容之间的对准的变化、并且延迟接收的视频内容或接收的音频内容以重新建立同步性的各种技术。其它已知的技术的一种限制在于，它们没有解决匹配的可靠性或计算的对准的变化的可靠性。

发明内容

本发明的一个目的是，实现保持或重建可避免现有技术的限制的视频信号和音频信号之间的同步性。

本发明的另一目的是，提供可用于包含视频-音频内容识别和验证的各种应用中的视频信号和音频信号的签名、以及其它信号与视频信号和音频信号的同步性。

本发明实现传输代表视频内容的一个或更多个特征的一个或更多个视频签名、代表音频内容的一个或更多个特征的一个或更多个音频签名、以及视频内容和音频内容之间的时间对准的音频/视频(A/V)同步性签名构造(construct)。

在独立权利要求中阐述本发明。在从属权利要求中阐述一些有利的实现方式的特征。

通过参照以下的讨论和附图，可以更好地理解本发明及其优选的实现方式。以下的讨论的内容和附图仅作为例子被阐述，并且不应被理解为表现对于本发明的范围的限制。

附图说明

图1是加入本发明的各方面以在实时地分布的诸如广播信号的视频信号和音频信号之间重新建立同步性的示例性系统的示意性框图。

图2是加入本发明的各方面以在可非实时地分布的诸如记录信号的视频信号和音频信号之间重新建立同步性的示例性系统的示意性框图。

图3示出生成用于视频信号和音频信号的同步性签名构造的示例性器件。

图4是视频签名生成器的一个实现方式的示意性框图。

图5A～5C是可用于生成表现视频内容的两个帧之间的差异的相异性量度的处理的示意性框图。

图6A～6B是低分辨率图像中的一组中间值的示意性框图。

图7是音频签名生成器的一个实现方式的示意性框图。

图8是可用于生成一段音频内容的时间-频率表现的处理的示意性框图。

图9是低分辨率时间-频率表现中的一组中间值的示意性框图。

图10是视频信号和音频信号以及同步性签名构造的示例性分布网络的示意性框图。

图11是使用同步性签名构造以检测视频信号和音频信号的同步性的示例性器件的示意性框图。

图12是示出视频/音频流中的定时延迟的示意性框图。

图13是使用预测模型以计算匹配置信度的量度的示例性技术的示意性框图。

图14是管理用于视频内容或音频内容的拷贝的检测的签名数据库的器件的示意性框图。

图15是可被用于实现本发明的各方面的器件的示意性框图。

具体实施方式

图1和图2是加入本发明的各方面并且可被用于检测和重新建立视频信号和音频信号之间的同步性的示例性系统的示意性框图。这些系统中的每一个包含生成、分布和应用作为表示视频和音频内容以及该内容之间的时间对准的数据的逻辑结构的同步性签名构造的功能。可本质上通过能够传输需要的信息的任何数据结构实现该构造。在这里引入并在后面更详细地讨论这些功能。

对于诸如通过广播信号传输的内容的实时地分布的视频内容和音频内容可使用图1所示的系统。实时地分布包含实时呈现或回放。对于诸如通过多媒体服务器接收并存储的内容的非实时地分布的视频内容和音频内容可使用图2所示的系统。非实时地分布可以包含或者可以不包含内容的实时呈现或回放。在本公开中。术语“实时”指的是生成或捕获并且随后回放视频内容和音频内容的速率。术语“非实时”指的是比实时要快或慢的速率。

虽然没有在任何图中示出，但是，系统可被配置为允许实时操作的器件与非实时操作的器件一起操作。例如，由图1所示的实时A/V同步签名生成器(A/V Sync Signature Generator)生成的同步性签名构造可被配置为使得它们可被非实时地读取并处理记录的内容的器件使用。作为另一例子，由图2所示的非实时A/V同步签名生成器生成的同步性签名构造可被配置为使得它们可被实时地处理内容的内容编辑器或发射器使用。

1.实时系统

图1所示的实时系统实时地生成并分布同步性签名构造。用于实时系统的本发明的实现方式可能需要具有比可被考虑用于非实时系统中的那些更低的计算复杂性、存储器和缓冲器要求的处理。

参照图1，A/V同步签名生成器检查或分析视频信号和音频信号的内容，并且提取内容的一个或更多个特征以生成视频签名和音频信号。这两个签名被组装成同步性签名构造。签名生成器实时地接收视频信号和音频信号，并且，视频信号和音频信号随后被实时地分布；因此，签名生成器实时地生成同步性签名构造。

预期，对于大多数的实现方式，由A/V同步签名生成器检查的视频信号和音频信号将具有期望的相互时间对准；但是，这在原理上是不需要的。如果期望的话，A/V同步签名生成器的实现方式可通过在实际时间对准的同步性签名构造中包含显式的指示来解决视频信号和音频信号之间的对准的已知的偏移。当生成同步性签名构造时，该显式的指示可被随后的处理使用以进行需要的任何调整，以实现与两个信号确实具有期望的对准相同的结果。如果已知视频信号和音频信号处于适当的对准中，那么可能不需要显式的信息，并且，可以隐含地传输两个信号的相对时间对准。

优选地，用于获得它们的特征的选择或提取处理抵抗或耐受可随后修改传输视频内容、音频内容或同步性签名构造的信号的处理。以下提到这些处理的一些例子。视频信号、音频信号和传输同步性签名构造的信号也会在信号分布中经受变化的延迟。例如，像感知编码那样的信号处理可在信号处理路径中施加延迟。

出于以下讨论的原因，被传输到A/V同步检测器(A/V Sync Detector)的视频内容和音频内容可与用于生成同步性签名构造的视频内容和音频内容不同。为了阐明该区别，根据需要在这里使用术语“目标(destination)”以识别在A/V同步检测器处存在的信号、内容和签名，并且，根据需要在这里使用术语“基准”以识别在A/V同步签名生成器处存在的信号、内容和签名。

A/V同步检测器接收传输目标视频和音频内容的视频信号和音频信号。它还接收传输同步性签名构造的信号。它检查或分析接收的视频信号和音频信号的目标内容以提取一个或更多个特征来生成目标视频签名和目标音频签名，从同步性签名构造获得基准视频签名和基准音频签名，比较目标视频签名与基准视频签名并比较目标音频签名与基准音频签名，并且确定与当生成同步性签名构造时存在的时间对准相比是否在接收的视频和目标音频信号的相对时间对准中存在任何偏移。对准的任何偏移可被仪器或其它的显示器呈现，并且，并且可通过在接收的目标视频信号和目标音频信号中的一个或两个上施加计算的延迟被校正以使得两者进入适当的时间对准中。A/V同步检测器实时地接收目标视频信号和目标音频信号，并且，实时地调整目标视频信号和目标音频信号的相对时间对准；因此，A/V同步检测器实时地生成目标视频签名和目标音频签名。

2.非实时系统

作为非实时地分布视频信号和音频信号的基于文件的系统的例子的图2所示的非实时系统可能不需要实时地生成和分布同步性签名构造。作为结果，用于该非实时系统的本发明的实现方式可能能够使用具有显著地比可在实时系统中实际使用的高的计算复杂性、存储器和缓冲器要求的处理。

参照图2，在通过一个或更多个文件服务器存储的一个或更多个文件中记录视频内容和音频内容。为了便于描述，这些一个或更多个文件服务器被称为基准文件服务器。以A/V同步签名生成器接收相互同步的视频-音频内容的方式从基准文件服务器取回(retrieve)视频内容和音频内容。A/V同步签名生成器检查或分析视频内容和音频内容并且提取内容的一个或更多个特征以生成视频签名和音频签名。这两个签名被组装成同步性签名构造。签名生成器可非实时地接收视频信号和音频信号，并且非实时地生成同步性签名构造。可在被基准文件服务器或被不同的文件服务器存储的一个或更多个文件中记录同步性签名构造。

正如对于上述的实时系统，用于获得它们的特征或处理优选抵抗或耐受可随后修改传输视频内容、音频内容或同步性签名构造的信号的处理。在该非实时系统的典型应用中，传输视频内容、音频内容和同步性签名构造的信号在信号处理和分布中经受变化的延迟。在图中所示的例子中，这些信号通过网络被分布，并且，在存储于这里称为目标文件服务器的一个或更多个文件服务器上的一个或更多个文件中记录它们传输的目标内容和目标签名。

可以以不能确保目标视频-音频内容之间的同步性的方式从目标文件服务器取回目标视频内容和目标音频内容以及同步性签名构造，并将其传输到A/V同步检测器。A/V同步检测器检查或分析取回的目标视频内容和目标音频内容以提取一个或更多个特征并生成目标视频签名和目标音频信号。A/V同步检测器从取回的同步性签名构造获得基准视频信号和基准音频信号，比较目标视频签名与基准视频签名，比较目标音频签名与基准音频签名，并且确定从目标服务器取回的目标视频内容和目标音频内容之间的相对时间对准是否不同于当生成同步性签名构造时存在的相对时间对准。对准的任何差异可通过仪器或其它的显示器被显示，并且，可通过延迟或提前取回的目标视频内容和目标音频内容中的一个两个以使两者进入适当的时间对准中被校正。如果期望的话，可以实时地完成目标签名的生成以及取回的目标视频内容和目标音频内容的相对时间对准的调整。如果恢复同步性所需要的调整可被记录于一个或更多个文件中以供随后的使用，那么A/V同步检测器不需要实时地生成视频和音频目标签名。

B.签名生成

图3示出通过从被同步的基准视频信号和基准音频信号提取特征来生成同步性签名构造的示例性器件。同步性签名构造包含代表基准视频信号的一个或更多个特征的一个或更多个基准视频签名、代表基准音频信号的一个或更多个特性的一个或更多个基准音频信号、以及用于生成基准签名的视频和音频特性的相对时间对准的指示。响应以下解释的控制信号调整包含于同步性签名构造中的视频签名和音频签名。同步性签名构造可隐含地或显式地传输相对时间对准。

1.视频签名和音频签名

响应从视频内容提取的一个或更多个视频特性生成一个或更多个视频签名。响应从音频内容提取的一个或更多个音频特征生成一个或更多个音频签名。可本质上通过使用能够生成与内容不同的签名的任何处理或变换从内容生成或导出视频签名和音频签名。表示签名所需要的数据的量比表示内容所需要的数据的量少。优选地，签名被生成为使得表示签名所需要的数据量不多于以足够高的置信程度使对应的基准内容和目标内容相关联(correlate)所需要的数据量。

原理上，本质上任何期望的处理或变换可被应用于任何类型的特征以生成视频签名和音频签名。但是，在优选的实现方式中，几个考虑影响应选择什么特征以及应使用什么处理或变换。

一个考虑是，选中的特征应对于用于生成签名的视频内容和音频内容是非静止的。该考虑也适用于可被处理的内容的类型。根据从静态或静止内容提取的特征生成的同步性签名构造一般不能被用于使对应的基准内容和目标内容相关联；但是，本发明的实现方式一般能够处理具有静止内容的信号，因为这种类型的信号一般不出现任何同步性问题。如果图像或声音在一定的间隔内不改变，那么没有什么要被同步。

另一考虑是，选中的特征应提供应用所需要的时间分辨率。对于内容再同步，时间分辨率应不长于20msec。对于内容识别或验证，时间分辨率可以为10秒、1分钟或者更长。在许多的实现方式中，在帧中布置视频内容，并且，根据从各个帧提取的特征生成视频签名。共同的帧速率为约30Hz，从而提供约30msec的时间分辨率。可通过以视频帧速率的两倍到三倍高的恒定速率提取音频特征，提供同步所需要的分辨率。如果作为替代响应内容中的一些事件的检测提取视频特征和音频特征，那么事件检测处理的分辨率应足以支持期望的应用。

又一考虑是，选中的用于生成视频签名和音频签名的特征和变换应抵抗或耐受可修改视频内容、音频内容或同步性签名构造的处理。以下提到这些处理的例子。该抵抗允许从修改的内容生成不与从原来的未修改的内容生成的签名相同也与其类似的检测签名。

另一考虑是，应根据将使用同步性签名构造的应用的需要、用于分布同步性签名构造的通信信道的特性、以及对计算复杂性的任何要求或限制，确定特征的类型和数量以及变换或处理的选择。

可以使用单向变换以生成视频签名和音频签名中的任一个或两个。在本公开中，术语“单向变换”指的是以通过某个逆变换从签名恢复内容的人可识别的版本要么不可能要么在计算上不实际的方式从内容导出或生成签名的变换。出于本公开的目的，如果逆变换(如果存在的话)的计算复杂性为正向或单向变换的计算复杂性的至少两个数量级高，那么逆变换被视为在计算上不实际。在Regunathan Radhakrishnan等在2007年9月29日提交的发明名称为“ Extracting Features of Video and Audio Signal Content to Provide a Reliable Identification of the S

用于生成视频签名和音频签名的变换和特征的选择可以是不变的或者该选择可以是自适应的。例如，当在被视频信号传输的图像中存在相当大的运动时，一些视频特征或变换可良好地工作，但是，当存在很少的运动时，其它的特征或变换会表现较良好。类似地，一些音频特征或变换对于语音可良好起工作，但其它的更好地适于非语音音频。可响应图3所示的控制信号自适应地选择或修改特征或变换。可从诸如上述的图像运动的检测或语音的检测的视频内容或音频内容的分析、从规定什么元数据(诸如MPEG-2视频运动矢量或Dolby数字音频子带指数)与视频内容和音频内容一起存在的信号格式的指示、签名的预期应用的指示、或者将修改签名生成之后的视频内容或音频内容的可能的处理的指示，导出适当的控制信号。控制信号也可被调整，以通过模拟各种信号处理条件、在这些条件下测量不同的签名的性能、以及识别性能最好的签名，选择对于某些应用或信号修改处理优化性能的特征和变换。

以下讨论视频签名和音频签名生成器的优选的实现方式。对于这些特定的实现方式，视频内容和音频内容的各个签名与视频/音频信号的段对应。视频/音频信号的各段传输视频内容的帧和音频内容的段。仅作为例子给出视频/音频段、视频帧、音频段和签名之间的该特定的对应性。其它的布置是可能的并且有时是优选的。

a)视频签名生成器

图4是视频签名生成器100的优选的实现方式的示意性框图。相异性量度处理器120检查一系列的视频帧内的两个视频帧1a、1b的内容，并且生成代表这两个帧的全部或一部分之间的相异性的一个或更多个量度的中间值。如果例如各视频帧的内容由表达离散的图片元素或像素的强度的值的阵列代表，那么，中间值可以是像素的组的强度的平均或标准偏差之间的差值的阵列。视频签名处理器170向中间值应用散列函数以生成识别视频帧的内容的视频签名(SV)199b。

可以以各种方式实现视频签名生成器100的部件。优选的实现方式生成对于具有很少的或没有感知影响的视频内容的修改相对不敏感的签名。如果对于视频内容的修改对于感知的图像没有显著的影响，那么优选这些修改对于生成的签名也没有显著的影响。两个视频签名之间的差值的某量度与从其生成签名的两个内容之间的差值的量度相当(commensurate)。以下讨论几个示例性实现方式。

由于相异性量度的使用增加生成的签名对于原始内容中的运动和其它的变化的敏感性、但消除或减少对来自随后的处理(诸如改变亮度或对比度的处理、在不同的颜色空间之间变换的处理、或施加颜色校正的处理)的修改的敏感性，因此，以下讨论的实现方式计算代表视频帧之间的相异性的一个或更多个量度的中间值。

可对于视频内容的任意两个帧1a、1b计算中间值。两个帧可以是一系列的帧内的相邻的视频帧，或者，它们可通过一个或更多个介入的帧相互分开。如果两个帧通过规定的时间间隔而不是通过规定数量的介入的帧被分开，那么对于这两个帧计算的中间值将一般更加耐受由改变视频帧速率的编码处理导致的修改。

(1)相异性量度处理器

在图5A～5C中示出相异性量度处理器120的几个示例性实现方式。参照图5A，部件122a从视频帧1a形成像素的一个或更多个组，并且，部件124a从像素的这些组中的每一个提取一个或更多个特征并且计算代表各特征的值R。部件122b从视频帧1b形成像素的一个或更多个组，并且，部件124b从像素的这些组中的每一个提取一个或更多个特征并且计算代表各特征的值R。部件126对于两个视频帧1a、1b中的像素的对应的特征和对应的组计算代表值R之间的相异性量度的中间值Q。

(a)像素组形成

部件122a和122b可以本质上以可期望的任何方式形成像素组。以下讨论几个替代方案。如果期望的话，用于生成视频签名的视频帧中的信息可仅限于总图像的一部分，以避免由向图像的边缘或角添加字框或图形的任何处理创建的变化。可以按诸如通过在特征提取之前剪切图像、通过在计算代表提取的特征的值R的阵列之后剪切它们、或者通过剪切从值R计算的相异性值的阵列的各种方式实现这一点。优选地，通过在特征提取之前剪切图像实现这一点。

对于诸如电视的视频应用，适当的剪切选择图像的中心部分，使得在图像的边缘附近插入视频内容中的任何标记或其它的图形对象不影响提取的特性。剪切也可消除由于逐行扫描和隔行扫描格式之间以及高清晰度(HD)和标准清晰度(SD)格式之间的转换导致的对于图像的修改。在以下各段中讨论对于一个特定的HD到SD格式的转换的剪切。

如果具有1080×1920像素的分辨率的HD格式的原始视频内容被转换成例如具有480×640像素的分辨率的SD格式，那么原始图像可被剪切以选择保持在转换的图像中的原始图像的中心部分。适当的剪切从原始HD格式图像的左边缘去除240个像素，并且从右边缘去除240像素，以获得具有与SD格式图像相同的纵横比的具有1080×1440像素的分辨率的图像。剪切的区域可被调整以去除可被上述的标记或图形对象修改的图像的附加区域。

像素的阵列也可以被向下采样，以减少对于可当在不同的格式之间转换视频的帧时出现的对修改的敏感性。在电视应用中，例如，图像可被向下采样为作为HD和SD格式以及连续扫描格式和隔行扫描格式的方便选择的120×160像素的分辨率。可通过检查用视频内容传输的参数或其它的元数据以确定在视频帧中传输的图像的水平和垂直分辨率、响应这些分辨率选择因子、以及通过等于该因子的量将图像向下采样，实现该向下采样。对于这里讨论的例子，对于剪切的HD格式图像选择等于9的因子，并且，对于SD格式图像选择等于4的因子。

例如，假定原始视频信号的内容处于具有1080×1920像素的分辨率的HD格式中。该内容可被剪切为上述的具有1080×1440像素的分辨率的图像，并然后被9的因子向下采样为120×160像素的分辨率。可从该低分辨率图像提取特征。进一步假定原始视频信号被转换成具有480×640像素的SD格式。该转换的图像可被4的因子向下采样为120×160像素的分辨率，从而本质上允许像对于原始信号所作的那样从转换的信号提取相同的特性。可以使用相同的向下采样以适应从SD格式向HD格式以及连续扫描格式和隔行扫描格式之间的转换。如果使用适当的向下采样，那么特征提取处理和随后的签名生成处理对于从格式之间的转换出现的修改是不敏感的。

如果视频信号以在两个场中布置视频的帧的隔行扫描格式传输内容，那么它可在提取特征之前被转换成连续扫描格式。作为替代方案，可通过仅从隔行扫描帧中的场中的一个场提取特征实现与扫描格式的选择的更大的无关性。例如，可以仅从帧中的第一场或者仅从帧中的第二场提取特征。其它的场中的视频内容会被忽略。该处理不再需要在提取特征之前转换成连续扫描格式。

在一个实现方式中，在具有120×160像素的分辨率的向下采样图像中形成像素组。参照图6A，例如，像素组的尺寸是均匀的，并且为GX像素宽和GY像素高。组的水平尺寸GX被选择，使得K·GX＝RH并且组的垂直尺寸GY被选择使得L·GY＝RV，这里，在各视频帧中，RH和RV分别是图像的水平和垂直尺寸。值的一个适当的选择是GX＝8，GY＝8，K＝15并且L＝20。这描述组的15×20阵列，各组在向下采样图像中具有8×8像素的尺寸。

可通过在具有响应视频帧中的图像的格式调整的尺寸的原始图像中形成像素组获得类似的结果。继续上述的例子，HD格式图像被剪切为1080×1440像素的尺寸，并且，在具有72×72像素的尺寸的剪切图像中形成像素组。这生成像素组的15×20阵列。对于SD格式中的图像，在具有32×32像素的尺寸的原始图像中形成像素组，这生成像素组的15×20阵列。

图6B示出尺寸不均匀的像素的组。更小的像素组的6×4阵列构成图像的中心部分。一组的更大的像素组包围中心部分中的组。这种类型的布置可有利地用于在感知上更显著的各图像的中心部分中具有内容的视频帧信息。

像素组可以本质上为任意尺寸或形状。例如，被用更粗的线绘制的矩形包围的图6B所示的图像的中心部分会构成单一像素组，并且图像的剩余部分会构成另一像素组。

优选地，像素被低通过滤，以减少对于由可作为视频内容修改的结果出现的像素组对准中的任何变化导致的改变的敏感性。可以在像素组形成处理期间执行一次或更多次过滤。例如，像素可以在上述的向下采样操作之前、在紧接着向下采样操作之后和/或在紧接着像素组的形成之后被低通过滤。过滤器的尺寸应被选择以平衡一方面的对于对准的改变的抵抗力和另一方面的对于视频内容的改变的敏感性之间的权衡。较大的过滤器增加对于对准的变化的抵抗力。较小的过滤器增加对于视频内容的变化的敏感性。如果低通过滤器被应用于以上讨论的120×160向下采样图像，那么经验研究显示可通过使用具有等于1的所有过滤器分接头系数的3×3二维过滤器获得良好的结果。

特征提取的以下的讨论参照图6A所示的示例性分组。

(b)特征提取

部件124a和124b从各像素组提取一个或更多个特征并且计算代表各特征的值R。

如果各视频帧传输单色图像，那么可从表示各像素的强度的数据e提取特征。如果各视频帧传输包含由例如红色、绿色和蓝色(RGB)值表示的像素的颜色图像，那么可从表示红色、绿色和蓝色像素分量中的每一个的数据e提取分离的特性。作为替代方案，可从根据表示红色、绿色和蓝色分量的数据导出的表示像素辉度或亮度的数据e提取特征。

可提取的一个特征是平均像素强度。可从下式获得表示该特征的值R_AVE：

R_{AVE} (k, l) = \frac{1}{GX \cdot GY} Σ_{i = k \cdot GX}^{(k + 1) \cdot GX - 1} Σ_{j = l \cdot GY}^{(l + 1) \cdot GY - 1} e (i, j)

for 0≤k＜K；0≤l＜L (1)

这里，R_AVE(k，l)＝像素(k，l)的组中的像素的平均强度；

e(i，j)＝组内的像素(i，j)的强度；

GX＝以像素的数量表达的像素组的宽度；

GY＝以像素的数量表达的像素组的高度；

K＝以组的数量表达的图像的水平分辨率；以及

L＝以组的数量表达的图像的垂直分辨率。

可提取的另一特征是像素强度的标准偏差。作为替代方案，可以使用标准偏差的方差(variance)或平方(square)。可以从下式获得表示标准偏差的值R_SD：

R_{SD} (k, l) = \sqrt{\frac{1}{GX \cdot GY} Σ_{i = l \cdot GX}^{(i + 1) \cdot GX - 1} Σ_{j = l \cdot GY}^{(l + 1) \cdot GY - 1} [e (i, j) - R_{AVE} (k, l)]^{2}}

for 0≤k＜K；0≤l＜L (2)

这里，R_SD(k，l)＝像素(k，l)的组中的像素强度的标准偏差。

可提取的另一特征是像素强度的直方图。可通过计算在可能的强度的范围内对于各强度具有特定的强度的像素的数量获得代表该特征的一组值R_HIST。

另一特征是光谱的振幅和/或相位。可通过向像素强度的组施加二维傅立叶变换获得代表光谱的一组值R_SPECTRUM。

没有特定的特征对于本发明是关键的；但是，经验结果表明，像素强度的平均和标准偏差对于许多应用是良好的选择。

如果期望的话，可对于随后的处理在组中布置代表提取的特征的值R。例如，通过一组值R_SPECTRUM代表的谱特征可根据频率或相位被组织成组。

并且，可从计算的值R提取特征。例如，可以计算平均强度R_AVE的标准偏差或谱值R_SPECTRUM的标准偏差。

(c)相异性量度计算

部件126可以以各种方式计算表示相异性E的量度的中间值Q。量度的选择在原理上对于本发明不是关键的，但是，一些量度可根据由部件124a和124b提取的特征表现较良好。可能需要经验研究以进行适当的选择；但是，发现上述的两个量度在宽的应用范围中给出良好的结果。

相异性的一个量度是表示两个不同的帧中的像素的对应的组的对应的特征的值R之间的差值的绝对值。可从下式计算该量度：

E(k，l，f₁，f₂)＝|R(k，l，f₁)-R(k，l，f₂)|for 0≤k＜K；0≤l＜L (3a)

这里，E(k，l，f₁，f₂)＝像素组(k，l)中的帧f₁和f₂之间的相异性；以及

R(k，l，x)＝表示帧x中的像素组(k，l)的提取特征的值。

如果提取的特征由具有两个或更多个元素(诸如例如表示谱特征的R_SPECTRUM中的振幅)的值表示，那么可从表示两个不同的帧中的像素的对应的组的对应的特征的值R中的元素之间的差值的绝对值之和计算相异性的量度。可从下式计算该量度：

E (k, l, f_{1}, f_{2}) = \underset{z}{Σ} | R (k, l, z, f_{1}) - R (k, l, z, f_{2}) |

for 0≤k＜K；0≤l＜L (3b)

这里，R(k，l，z，x)＝帧x中的像素组(k，l)的值R中的元素z。

如果期望的话，可从类似下面的表达式计算帧中的像素的两个或更多个组的相异性的复合量度：

E (f_{1}, f_{2}) = \underset{k}{Σ} \underset{l}{Σ} \underset{z}{Σ} | R (k, l, z, f_{1}) - R (k, l, z, f_{2}) | - - - (3 c)

这里，E(f₁，f₂)＝帧f₁和f₂之间的复合量度相异性；并且，

对于k和l的和的限制被选择以包含期望的组。该特定的例子假定值R具有多于一个元素。如果这些值仅具有一个元素，那么省略z上的求和。

相异性的另一量度是表示两个不同的帧中的像素的对应的组的对应的特征的值R之间的差值的平方。可从下式计算该量度：

E(k，l，f₁，f₂)＝(R(k，l，f₁)-R(k，l，f₂))² for 0≤k＜K；0≤l＜L (4a)

如果由具有两个或更多个元素的值表示提取的特征，那么可以从表示两个不同的帧中的像素的对应的组的对应的特征的值R中的元素之间的差值的平方之和计算相异性的量度。可从下式计算该量度：

E (k, l, f_{1}, f_{2}) = \underset{z}{Σ} {(R (k, l, z, f_{1}) - R (k, l, z, f_{2}))}^{2}

for 0≤k＜K；0≤l＜L (4b)

如果期望的话，可从下式计算帧中的像素的两个或更多个组的相异性的复合量度：

E (f_{1}, f_{2}) = \underset{k}{Σ} \underset{l}{Σ} \underset{z}{Σ} {(R (k, l, z, f_{1}) - R (k, l, z, f_{2}))}^{2} - - - (4 c)

这里，对于k和l求和的限制被选择为包含期望的组。该特定的例子假定值R具有多于一个的元素。如果这些值仅具有一个元素，那么z省略z上的求和。

在一个实现方式中，中间值Q被设为等于计算的相异性E的量度。以下讨论替代方案。

(d)替代性实现方式

如果平均像素强度之间的差值仅是用于签名生成的相异性量度，那么可如图5B和图5C所示的那样实现相异性量度处理器120。在这些实现方式中，从视频帧1a和1b提取像素强度或平均强度，计算提取的特征之间的相异性的量度，并且，相异性量度形成为用于随后的签名生成的组。

在图5B和图5C所示的示例性实现方式中，视频内容的帧由离散的像素的阵列表示，相异性量度处理器120通过计算两个视频帧中的对应的像素之间的差值获得分别包含差值元素Δ的阵列的差值图像。如果各视频帧传输包含由红色、绿色和蓝色(RGB)值表示的像素的颜色图像，例如，可对于对应的像素从各红色、绿色和蓝色值之间的差值计算差值元素。优选地，根据从红色、绿色和蓝色值导出的对应的像素的辉度或亮度之间的绝对值计算差值元素。如果各视频帧传输单色图像，那么可从对应的像素的强度之间的差值计算差值元素。

如果期望的话，差值元素可仅限于总图像的一部分，以避免由向图像的边缘或角添加字框或图形的任何处理创建的变化。可通过在计算差值元素之前剪切图像或者通过在计算它们之后剪切差值元素的阵列实现这一点。

对于像素组形成，差值图像的分辨率也可如上面描述的那样变化。可通过在计算差值元素之前修改视频帧中的数据或者通过在计算它们之后修改差值元素来完成这一点。

参照图5C所示的实现方式，部件123计算视频帧1a和视频帧1b中的对应的像素的值之间的差值，并且，部件125从像素差值的绝对值获得一组差值元素Δ。部件127执行剪切和向下采样。剪切操作通过去除差值图像的上下左右边缘附近的差值元素来仅保持差值图像的中心部分。不管输入视频帧的格式如何，向下采样操作将剪切的差值图像向下采样以生成具有120×160像素的规定尺寸的差值元素的阵列。该特定尺寸仅是示例性的。部件128将差值元素Δ形成为组并且计算各组中的差值元素的平均值。如果期望的话，可如上面解释的那样组合向下采样和组形成操作。

可以按其他顺序执行计算差值、向下采样、剪切和形成组的操作。例如，可通过首先向下采样两个视频帧的内容、剪切两个向下采样的图像、在剪切的图像中形成像素的组、对于各组中的像素计算平均强度、然后计算两个图像中的对应的平均强度之间的差值，计算差值元素Δ。

参照图5C所示的组形成操作128，差值元素Δ被分组成差值图像的区域，这里，各区域为GX元素宽和GY元素高。通过计算各区域中的元素的平均强度从差值元素Δ的强度导出中间值Q。这些中间值构成具有K×L中间值的分辨率的差值图像的低分辨率表示。这与以上讨论的在图5A和图5B中示出的像素组的形成类似。在以下各段中描述的示例性实现方式使用具有以与图5A所示的像素组相同的方式布置的元素的低分辨率图像。

可从下式获得中间值：

Q (k, l) = \frac{1}{GX \cdot GY} Σ_{i = k \cdot GX}^{(k + 1) \cdot GX - 1} Σ_{j = l \cdot GY}^{(l + 1) \cdot GY - 1} Δ (i, j)

for 0≤K＜K；0≤l＜L (5)

这里，Q(k，l)＝低分辨率图像中的中间值；

GX＝以像素的数量表达的差值元素组的宽度；

GY＝以像素的数量表达的差值元素组的高度；

K＝低分辨率图像的水平分辨率；

L＝低分辨率图像的垂直分辨率。

Δ(i，j)＝差值元素。

组的水平尺寸GX被选择为使得K·GX＝RH并且组的垂直尺寸GY被选择为使得L·GY＝RV，这里，RH和RV分别是差值图像的水平和垂直分辨率。对于以上讨论的在具有120×160的分辨率的向下采样差值图像中生成元素的示例性实现方式，组的一个适当的尺寸是8×8像素，其提供具有120/8×160/8＝15×20的分辨率的低分辨率图像。通过使用低分辨率中间值Q来生成视频签名而不是高分辨率差值元素，生成的视频签名对于改变视频信号内容的细节的处理不敏感但保留平均强度。

(2)视频签名处理器

在以下段落中描述的视频签名处理器170的实现方式从根据图6A所示的值R的阵列获得的中间值Q的K×L阵列或者从上面结合图5C所示的处理器描述的差值元素Δ的K×L阵列生成视频签名。

视频签名处理器170向中间值Q的K×L阵列施加散列函数以生成N个散列位的集合。这些散列位构成识别视频帧的内容的视频签名(SV)。优选地，散列函数对中间值的变化相对地不敏感，但可对于可使用的任何散列键的变化敏感。与其输出随着其输入的甚至单个位的变化显著改变的典型的密码散列函数不同，用于本申请的优选的散列函数提供对于输入的中间值的小的变化仅经受小的变化的输出。这允许生成的视频签名随着视频信号内容的小的改变仅轻微地改变。

一个适当的散列函数使用N个基础矩阵的集合以生成N个散列位的集合。基础矩阵P₁～P_N是随机值矩阵元素的K×L阵列。可从下式生成各基础矩阵P_n的矩阵元素p_n(k，l)：

p_{n} (k, l) = RGN - {\overset{&OverBar;}{p}}_{n}

for 1≤n≤N，0≤k＜K，0≤l＜L (6)

这里，p_n(k，l)＝基础矩阵P_n的矩阵元素(k，l)；

RNG＝随机数生成器的输出；以及

生成器RNG生成在范围[0，1]中均匀分布的随机或伪随机值。生成器的初始状态可被散列键初始化，由此允许散列函数和生成的视频签名在加密上更加安全。

通过首先将临时值Q投影(project)到N个基础矩阵中的每一个上，获得N个散列位的集合。这可被表达如下：

H_{n} = Σ_{k = 0}^{K - 1} Σ_{l = 0}^{L - 1} Q (k, l) \cdot p_{n} (k, l)

for 1≤n≤N

这里，H_n是临时值到基础矩阵P_n上的投影。

然后通过比较各投影与所有投影的中间值、以及如果投影等于或超过阈值则将散列位设为第一值并且如果投影小于阈值则将散列位设为第二值，获得散列位。这可被表达为：

B_{n} = sgn (H_{n} - \overset{&OverBar;}{H}) - - - (7)

其中，

sgn (x) = [\begin{matrix} 0 & for & x < 0 \\ 1 & for & x &GreaterEqual; 0 \end{matrix}],

并且

b)音频签名生成器

图7是音频签名生成器200的优选实现方式的示意性框图。时间-频率表现处理器210检查一系列的段中的音频段2b的内容，并且生成代表段中的音频内容的谱分量的全部或一部分的谱值。如果例如由表达离散采样的振幅的值代表段的音频内容，那么，谱值可以是由块时域到频域变换生成的时间-频率表现内的系数的集合。中间值处理器250检查谱值的组，并且从各组中的谱值的强度导出中间值。音频签名处理器270向中间值施加散列函数，以生成识别音频段的内容的音频签名(SA)299b。

可以以各种方式实现音频签名生成器200的部件。优选的实现方式生成对于具有很少的或没有感知影响的音频内容的修改相对地不敏感的签名。如果对于音频内容的修改对于感知的声音没有显著的影响，那么优选这些修改也对于生成的签名没有显著的影响。两个视频签名之间的差值的一量度与从其生成签名的两个内容之间的差值的量度相当。以下讨论几个适当的实现方式。

(1)时间-频率表现处理器

在由表达离散采样的振幅的值代表音频信号的段的示例性实现方式中，时间-频率表现处理器210从通过向各段内的音频采样的一系列的重叠块施加时域到频域变换生成的变换系数获得谱值的集合。如果期望的话，谱值可仅限于音频内容的总带宽的一部分，以避免由变更音频内容的谱形状的任何处理创建的变化。例如，可通过排除由代表最低频率和最高频率谱分量的变换生成的那些变换系数，或通过在施加变换之前带通过滤音频内容，获得有限的代表。

在图8中示意性地示出由时间-频率表现处理器210的示例性实现方式执行的操作。在该实现方式中，音频内容2a的段被分成一系列T个重叠块BLOCK-1到BLOCK-T。各段的长度是LS个采样并且各块的长度为LB个采样。相邻的块的开始之间的偏移是称为块步幅尺寸的采样ZB的数量。块变换被施加到采样的各块上，以生成谱值的集合。图8示出一个块BLOCK-2被变换20成谱值25a的集合的变换。在该特定的实现方式中，在段2a中的所有T个块变换成谱值的各集合之后，处理在下一段2b中的块中继续。相邻的段的开始之间的偏移是称为段步幅尺寸的采样ZS的数量。

时间-频率表现的时间分辨率是段长度、块长度和块步幅尺寸的函数，其可被表达如下：

T = \frac{(LS - LB)}{ZB} - - - (8)

这里，T＝各段中的块的数量的时间分辨率；

LS＝采样中的各段的长度；

LS＝采样中的各段的长度；以及

ZB＝块步幅尺寸。

一般由用于生成谱值的变换的长度或块的长度确定频率分辨率。

在以下讨论的同步化视频内容和音频内容的一个应用中，音频内容被分成等于三个视频帧的长度的段。对于一些电视应用，跨度为三个视频帧的时间间隔为约100msec。如果音频采样速率为48kHz，那么音频段长度为4800个采样。块长度被选择为256个采样并且块步幅尺寸被选择为32个采样。对于该实现方式，各音频段具有T＝142个块；因此，时间-频率表现的时间分辨率等于142。256点快速傅立叶变换(FFT)被应用于采样的各块以生成129个谱值；因此，时间-频率表现的频率分辨率等于129。段步幅尺寸被选择为512个采样或约10.7msec。

(2)中间值处理器

中间值处理250检查谱值的组并且从各组中的谱值的强度导出中间值。

在示例性实现方式中，谱值S被分组成时间频率区域，这里，各区域为GF谱值宽和GT块长。通过计算各区域中的谱值的平均强度，从谱值的强度导出中间值Q。这些中间值构成具有K×L中间值的分辨率的低分辨率时间-频率表现。在图9中示意性地示出这一点。可从下式获得中间值：

Q (k, l) = \frac{1}{GF \cdot GT} Σ_{i = k \cdot GF}^{(k + 1) \cdot GF - 1} Σ_{j = l \cdot GT}^{(l + 1) \cdot GT - 1} S (i, j)

for 0≤k＜K；0≤l＜L (9)

这里，Q(k，l)＝低分辨率表示中的中间值；

GF＝以值的数量表达的谱值组的宽度；

GT＝以块的数量表达的谱值组的长度；

K＝低分辨率表达的频率分辨率；

L＝低分辨率表达的时间分辨率；

S(i，j)＝谱值。

组的尺寸GF被选择为使得K·GF＝RT并且组的尺寸GT被选择为使得L·GT＝RT，这里，RF和RT分别是低分辨率表示的频率和时间分辨率。对于以上和以下讨论的示例性实现方式，组的一个适当的尺寸为GF＝6和GT＝14，这提供129/6×142/14≈20×10中间值的低分辨率表示。通过使用低分辨率中间值Q来生成音频签名而不是高分辨率时间-频率表现，生成的音频签名对于改变谱内容的细节的处理较不敏感但保留平均谱水平。

可以以其它的方式执行计算时间-频率表现和中间值的操作。例如，可通过减小块长度和变换长度并增加谱值组的长度GT以获得相同的时间分辨率，获得具有较低的频率分辨率的谱值的集合。如果期望的话，组的宽度GF可跨(across)谱改变。如果高频谱分量被视为与低频分量相比对于生成的签名较不显著，那么可通过增加较高频率的组的宽度来实现该相对的显著性。

(3)音频签名处理器

音频签名处理器270向中间值Q的K×L阵列施加散列函数，以生成N个散列位的集合。这些散列位构成识别音频段的内容的音频签名(SA)。这可以与上面对于视频签名所描述的方式相同的方式完成。

2.相对时间对准

同步性签名构造还传输与视频签名和音频签名对应的视频信号和音频信号的相对时间对准。如果当生成视频签名和音频签名时视频信号和音频信号被同步，那么可通过使一些数据构造或信号中的对应的视频签名和音频签名相关联来隐含地传输这些信号的相对时间对准。也能够显式地传输该相对时间对准。例如，当特征被提取以生成视频签名和音频签名时，可在同步性签名构造中包含表达音频信号相对于视频信号的提前或滞后的量的值。

可以以可期望的任何速率生成同步性签名构造。以下讨论三种方法。第一方法以固定的速率生成签名。第二方法响应一个或更多个事件的检测以可变的速率生成签名。第三方法是第一方法和第二方法的混合。

a)固定速率

第一方法提取特征并以固定的速率生成同步性签名构造。签名可被组装成能够以固定的速率传送的块。如果特征的选择被调整，那么，块可以由于没有特征被提取而不传输签名、或者它可传输从一个或更多个特征导出的一个或更多个签名。

签名的时间分辨率可以是隐含的或者块可包含分辨率的显式的指示。如果根据从跨度为特定的时间间隔的内容提取的特征生成签名，那么签名的时间分辨率等于该时间间隔。可通过识别时间间隔的任何信息显式地传输分辨率。例如，如果根据从一系列的视频帧中的各帧提取的特征生成视频签名，那么视频签名的时间分辨率等于相邻的帧之间的间隔。可通过识别帧速率的任何信息传输该分辨率。如果根据从与各视频帧相关的音频内容提取的音频特征生成音频签名，那么视频签名和音频签名的时间分辨率相同。如果期望更高的时间分辨率，那么可以用签名捕获和传递时间间隔内的提取的特征的相对时间。

对于该方法，通过视频内容的帧和音频内容的块的结构和时间关系暗示视频特征和音频特征之间的时间关系。如果从经常出现的大量的特征生成签名，那么可优选该固定速率方法。可从被使用的特征和帧/块长度以及期望的时间分辨率的水平确定传输视频信号和音频信号之间的相对时间关系的方式。如果帧和块长度或速率不是固定的并且不能被隐含获知，那么同步性签名构造或一些相关的数据结构可包含规定这些长度或速率的一些信息。

b)事件驱动

第二方法响应诸如场景变化或节目边界那样的总体图像中的大的变化或语音的瞬变或分段那样的音频特征中的突然变化的一些事件的出现提取特征并生成签名。对于该方法，同步性签名构造应包含用于生成签名的特征的一些定时信息。该信息可规定绝对时间、相对时间或事件之间的时间间隔。例如，如果从在一定时间t₀处提取的视频特征生成视频签名并且从在时间t₀+15msec处提取的音频特征生成音频签名，那么同步性签名构造可包含这些视频签名和音频签名，或者，一些有关的数据结构可包含规定15msec偏移的一些指示。如果仅从相对不频繁地出现的几个特征生成签名，那么可以优选该方法。同步性签名构造的时间分辨率受到提取的特征的分辨率和定时信息的分辨率的限制。

c)混合

第三方法是上述的固定速率和事件驱动方法的混合。根据该方法，以固定的速率生成签名，但是，各签名包含以更高的分辨率规定用于生成签名的特征的时间的信息。例如，假定在一系列的帧中布置视频内容并且在一系列的块中布置关联的音频，这里，各块与相应的帧对准并与其相关联。在本例子中，对于各视频帧提取视频特征一次，并且，对于各音频块提取音频特征一次。相邻的帧和块之间的时间间隔是已知的；因此，不需要显式的定时信息；但是，如果事件触发仅从块的一部分提取特定的音频特征，那么会期望音频特征的更高的时间分辨率。可例如通过在规定块内的音频特征的时间偏移的同步性签名构造中包含信息完成这一点。该混合方法允许以低的固定速率提取一些特征并响应一些事件提取其它的特性。

C.签名分布

图10是包含修改视频信号和音频信号并且延迟视频内容、音频内容和同步性签名构造的路径的示例性分布网络的示意性框图。该网络适用于上述的实时和非实时系统。在网络的替代性实现方式中，在相同的路径中处理和传输信号中的两个或更多个。可以本质上以可期望的任何方式分布视频内容、音频内容和同步性签名构造。例如，视频内容和音频内容以及同步性签名构造可被组装于一个数据流中并一起分布，各种组合可被组装以形成两个流并且随时流中的每一个独立地分布，或者，全部可相互独立地分布。

如图所示，视频内容和音频内容以及同步性签名构造可经受意外的出错或修改。意外的修改的例子是在传送信道中或者在存储介质上插入或添加噪声。

视频内容和音频内容也可经受有意的修改。对于视频信号的有意的修改的例子包含诸如对比度/亮度调整、伽马校正、亮度直方图均衡化、颜色饱和调整和对于白平衡的颜色校正的亮度和颜色修改；它们包含诸如图像剪切和尺寸调整、图像旋转和翻转、分辨率缩放、帧速率转换、伸展、斑点去除、模糊化、锐化和边缘增强的几何修改；并且，它们包含诸如损耗压缩、色度键控和标记的插入的内容处理。对于音频信号的有意的修改的例子包含放大、均衡化、动态范围修改、采样速率转换、信道上混合、信道下混合、时间级修改、带宽减小、间距偏移、画外音(voice-over)和其它类型的混合、回响(reverberation)的插入、谱整形和损耗数据压缩。

图中示出的延迟元素表示执行诸如信号编码和格式化、内容存储和转发、以及传送的处理所需要的时间。由于这些延迟增加置于用于恢复同步性的设施上的要求，因此它们在实时系统中可以是意义非常重大的。这些信号中的任意两个的分布的延迟的差异增加存储信息所需要的存储或缓冲的量。对于实时系统，在对应的视频内容和音频内容被传输之前、与其同时或者比其稍晚地传输同步性签名构造以减少存储视频内容和音频内容所需要的缓冲空间的量并减少内容的最终传输上的延迟一般是重要的。

即使对于非实时系统，同步性签名构造的分布的延迟也可以是意义重大的。在一些实现方式中，必须在可开始应用处理之前接收视频-音频内容的整个流的同步性签名构造。

分布网络的具体的特征或结构在原理上对于本发明不是关键的，但是，它们可影响实际的实现方式。

分布网络中的通信路径和处理路径的特性可影响如何生成视频签名和音频签名以及如何分布同步性签名构造。由于特征的选择或数量可影响表示签名所需要的数据的量或位的数量，因此，对于路径带宽的限制可影响使用什么特征以及多少特征以生成视频签名和音频签名。

分布网络的结构可对同步性签名构造的结构施加限制。相反，对同步性签名构造的结构施加的应用的任何需要可对分布网络的结构施加限制。在原理上，同步性签名构造可与视频信号组合、与音频信号组合、与一些其它的信号组合，或者，在其自身的信号中单独地分布。

在实时系统中，例如，同步性签名构造可与视频信号组合并携带有其垂直辅助(VANC)数据；这可需要对于基于帧的分组(packet)构建签名。作为替代方案，同步性签名构造可通过隐写术(Steganography)或水印技术与视频信号组合，这可大大限制可用于呈现签名的数据的量。

在非实时或基于文件的系统中，例如，同步性签名构造可内含在具有视频内容或音频内容的文件中，内含在具有一些其它类型的内容的文件中，或者被放入其自身的文件中。

D.签名检测

可以在诸如上述的视频信号和音频信号之间的同步性的校正的各种应用中使用以上讨论的同步性签名构造。以下描述这些应用中的一些的示例性实现方式。

1.同步性

a)概况

图11所示的器件与图1和图2所示的A/V同步检测器对应。它可被用于检测和校正它从图1和图2所示的实时或非实时源接收的目标视频内容和目标音频内容之间的同步性。

参照图11，A/V同步检测器中的签名解析器(Signature Parser)接收并分析同步性签名构造以获得代表基准视频信号的一个或更多个视频特征的一个或更多个基准视频签名、代表基准音频信号的一个或更多个音频特征的一个或更多个基准音频签名、以及这些视频特征和音频特征的相对时间对准的指示。可通过同步性签名构造隐含地或显式地传输相对时间对准。

图11所示的A/V同步检测器通过分析目标内容以提取从基准内容提取的视频特征和音频特征的全部或子集，生成一个或更多个目标视频签名以及一个或更多个目标音频签名，以生成同步性签名构造。用于生成目标签名的处理一般与用于生成基准签名的那些处理相同，或者是用于生成基准签名的那些处理的子集。响应从目标视频内容提取的视频特征的一个或更多个生成目标视频签名。响应从目标音频内容提取的音频特征中的一个或更多个生成目标音频签名。

在一个实现方式中，A/V同步检测器中的比较部件比较目标内容的范围的目标签名与搜索中的基准内容的范围中的基准签名以找到精确或接近的匹配。目标视频签名与基准视频签名比较，并且，目标音频签名与基准音频签名相比。如果期望的话，一系列的基准签名可与搜索中的一系列的目标签名比较以在序列之间找到高的相关性程度。比较的目的是识别与用于生成基准签名的基准视频内容和基准音频内容对应的目标视频内容和目标音频内容。对应的目标视频内容和目标音频内容的时间对准可然后与从同步性签名构造获得的相对时间对准的指示相比较。相对对准中的任何差异代表同步性中的误差。

如果提取少于全部的特征或者如果目标内容与基准内容不同，那么，由于目标签名与对应的基准签名不相同，因此可在由比较部件确定的匹配的校正中存在一些不确定性。对于诸如长时间静止的视频内容或音频内容的一些内容，也会出现不确定性。如果通过诸如例如移动电话中的非常有限的计算资源实现A/V同步检测器，那么可能期望仅通过使用用于生成基准签名的特征的子集生成目标签名。如果使用多个特征以生成基准签名，那么仅使用这些特征的子集代表比较的可靠性和实现复杂性之间的权衡。系统的适当的设计将趋于保持签名之间的差值足够小，以允许可靠地执行比较。比较部件可计算代表匹配中的确定性程度的“匹配置信度”。以下描述用于计算这些量度的技术。

由比较部件执行的比较提供结果计算所需要的信息以导出同步性误差的指示和对计算的同步性误差中的可靠性的量度。可从由比较功能确定的匹配置信度的量度导出可靠性的该量度。

如果期望的话，那么可通过使用用于目标内容的签名的一个或更多个类型确定同步性误差。可以以与以上对于基准内容的签名的生成讨论的方式类似的方式选择用于目标内容的签名类型。例如，可以基于在目标视频内容中是否存在相当大的运动选择视频签名，并且，可基于语音是否处于目标音频内容中选择音频签名。对于目标内容生成的签名的类型应与在同步性签名构造中传输的签名的类型相同或者至少可比较。

如果意图的应用仅检测失配或者确认同步性，那么图11所示的A/V同步检测器可在一些类型的显示器或仪器上呈现计算的同步性误差和可靠性的相关量度。如果意图的应用恢复同步性，那么可以使用计算的同步性误差和可靠性的相关量度以控制A/V同步校正器(A/V Sync Corrector)中的可变延迟分量。如图1和图2所示，这些延迟被应用于视频信号、音频信号或者两者。例如，如果计算的同步性误差指示目标音频内容比目标视频内容提前700msec，那么可通过使音频信号延迟700msec、或者通过使视频内容延迟xmsec并使音频信号延迟700+xmsec实现适当的同步性。

包含本发明的各方面的器件和系统能够检测和校正在整个视频内容和音频内容中改变的同步性误差。

在实时系统中，A/V同步检测器可从目标内容连续地提取特征并且实时地生成目标签名。A/V同步检测器可保持基准签名和目标签名的直方图集合以对于跨度可为几秒或更长的内容的间隔执行比较。当以足够水平的可靠性计算当前同步性误差时，A/V同步校正器信号中的可变延迟可被调整以恢复同步性。可以如期望的那样控制改变可变延迟以补偿目标内容的失配的改变的速率，以改善或保持视频-音频呈现的感知质量。

如果同步性签名构造比实时系统中的视频内容和音频内容到达得晚，那么，除非目标内容可在被A/V同步校正器处理之前被足够长地缓冲，否则，恢复同步性所需要的时间可增加到不可接受的水平。在非实时的和基于文件的系统中不会存在该问题。基于文件的系统例如可访问整个内容和所有的同步性签名构造。可在分析整个内容之后计算同步性误差的量。可计算误差的单一值，或者可对于内容的不同的段计算几个值。

b)对准误差的计算

在以下的段落中描述计算视频内容和音频内容之间的时间失配的一种方式。

假定通过施加由符号δ_V表示的处理延迟的信号处理路径接收目标视频内容的流。进一步假定通过施加由符号δ_A表示的处理延迟的信号处理路径接收目标音频内容的流。A/V同步检测器中的一个或更多个比较部件比较基准视频签名SV_REF和目标视频签名SV_DEST，并且，这些比较部件，以及视频比较加权部件(如果存在的话)生成视频处理延迟的估计ε_V。可从估计的延迟ε_V获得基准视频流和目标视频流之间的相对定时差。A/V同步检测器中的一个或更多个比较部件比较基准音频签名SA_REF和目标音频签名SA_DEST，并且，这些比较部件，以及音频比较加权部件(如果存在的话)生成音频处理延迟的估计ε_A。可从估计的延迟ε_A获得基准音频流和目标音频流之间的相对定时差。

在以下的段落中描述可用于估计处理延迟的一种技术。由于可以以相同的方式计算视频处理延迟估计ε_V和音频处理延迟估计ε_A，因此不在视频和音频之间进行区分。

内容延迟计算接收两组签名。一组是表示为{S_REF(i)}的基准签名的序列，第二组是表示为{S_DEST(i)}的目标签名的序列。相关器搜索两个序列的范围以找到签名的集合具有最高程度的相关性的窗口。可通过首先计算以下的得分完成这一点：

D (m, i) = Σ_{j = 0}^{W - 1} HD [S_{REF} (i + j), S_{CURR} (m + j)]

for 1≤i≤F，i-U≤m≤i+U (10)

这里，D(m，i)＝计算的流之间的特定对准的得分；

HD[r，c]＝签名r和c之间的汉明(hamming)距离；

F＝基准信号{S_REF(i)}的集合的签名的数量；

U＝相关器的搜索范围；以及

W＝表达为签名的数量的相关性窗口的长度。

汉明距离等于两个签名不同的位(bit)位置的数量。

可从找到相关性窗口内的基准签名和目标签名之间的最接近的匹配的m的值导出估计的处理延迟。这可被表达为：

ϵ_{i} = \arg \min_{m} [D (m, i)]

for i-U≤m≤i+U (11)

如果不存在处理延迟，那么ε_i＝i。如果估计的延迟为三个帧或三个段，那么ε_i＝i+3。与签名S_REF(i)对应的帧或段的相对定时差为ε_i与i之间的偏移。视频帧i的相对定时差在这里被表示为dv(i)，并且音频段i的相对定时差在这里被表示为da(i)。

在用于电视的一个实现方式中，对于视频帧使用值W＝10和U＝45，并且，对于音频段使用值W＝23和U＝47。用于视频和音频延迟计算中的F的值分别为基准流中的视频帧和音频段的数量。

视频和音频之间的相对延迟的计算使用视频流和音频流的相对定时差值来计算任一个或两个目标流的延迟量，以实现适当的同步性。在图12中示意性地示出这一点。基准视频流1中的基准视频帧1b和基准音频流2中的基准音频段2b示出是同步的。视频流1的信号处理81和音频流2的信号处理82将不同的延迟引入两个流中。作为结果，目标视频流31中的目标视频帧1b和目标音频流32中的目标音频段2b不再是同步的。目标视频帧1b延迟dv并且目标音频段2b延迟da。恢复同步性所需要的对于延迟的调整adj等于(dv-da)。如果dv如图所示的那样比da大，那么可通过将音频段延迟所述调整adj来恢复同步性。如果dv比da小，那么可通过将视频帧延迟所述调整adj来恢复同步性。可以本质上以可期望的任何方式延迟流，但是，一种方式是在具有足以提供对于延迟的调整的容量的先入先出(FIFO)缓冲器中存储并搜索流内容。

c)置信度的量度的计算

可以以各种方式计算匹配置信度的量度。在以下的段落中描述几种技术。

(1)预测模型

用于计算匹配置信度的量度的一种技术使用预测模型来预测对准误差，并且根据计算的对准误差与预测误差多接近地一致来计算匹配置信度的量度。

图13是使用预测模型以计算匹配置信度的量度的示例性技术的示意性框图。根据该技术，最近计算的对准误差E₀和几个先前计算的对准误差E₁、E₂、...、E_N的序列被存储于缓冲器中。线性预测过滤器被应用于存储的计算的对准误差的序列以导出预测的对准误差E_P。从预测的对准误差和最近计算的对准误差之间的绝对差值计算匹配置信度R_P的量度。在下式中示出可计算此量度的一种方式：

R_{P} = \frac{E_{MAX} - | E_{0} - E_{P} |}{E_{MAX}}

这里，E_MAX＝具有预测的误差的最大期望差值。当预测的对准误差和计算的对准误差相等时，匹配置信度的该量度等于1。随着预测的失配E_P和最近计算的失配E₀之间的差值接近最大期望差值E_MAX，所述量度减小到零，并且，如果差值超过最大期望差值，那么它为负。

线性预测模型的使用基于同步性误差将恒定或将随时间线性变化的假定。如果同步性误差已在一段时间恒定，那么误差可能将保持恒定。如果作为替代同步性误差已在一段时间增加或减小，那么误差将以相同的速率连续改变。如果计算的对准中的误差接近地与预测误差一致，那么它被视为较可靠。

当计算的误差显著偏离预测误差时，偏离可能是由随机误差或者是由诸如由内容中的片段导致的同步性中的实际改变导致的。在该偏离点处，匹配置信度的量度非常低。如果偏离是由于随机误差，那么计算的对准误差可能不正确，并且它可被忽略。但是，如果偏离是由于对准的实际变化，那么计算的误差可能是正确的，但是，它仍被视为不可靠。随着计算的对准误差回归恒定或线性变化，这种情况将被校正。以这种方式获得的置信度的量度可被低通过滤以去除或减轻随机误差的影响。

预测模型可被应用于独立地或结合地对于视频内容和音频内容计算的对准误差。如果独立地对于视频内容和音频内容计算对准误差并且这两种误差以相同的速率增加，那么该条件本质上与对于保持恒定的视频内容和音频内容结合地计算的对准误差相同。

(2)统计模型

用于计算匹配置信度的量度的另一技术使用统计模型以确定计算的对准误差的概率。该模型可基于对准误差的理论或经验确定的统计。如果统计模型指示计算的对准误差可能性较大，则该计算的误差的置信度的量度较高。

一种简单的统计模型基于指示对准误差一般仅是几毫秒而不是几百毫秒的经验数据。根据该模型，小的对准误差比非常大的对准误差更可能出现。从该模型获得的置信度的量度可被用于从随后的处理排除异常值或极大的误差。

(3)信号内容模型

用于计算匹配置信度的量度的另一技术使用信号内容模型以确定计算的对准误差的概率。这种类型的模型可被应用于内容自身，被应用于从可用于生成签名的内容提取的特征，或者被应用于签名自身。

一种信号内容模型是确定视频内容和音频内容的静止性的活动检测器。如果视频内容或音频内容保持例如几百微秒不变，那么内容传输很少的活动，并且该内容的匹配置信度的量度会是小的。

另一信号内容模型分析内容以确定是否存在某特性。例如，视频内容可传输诸如背景细节中的变化的显著的活动，但缺少前景对象中的显著运动。上述的活动检测器可根据背景细节中的改变指示显著的活动，但是，运动的缺少会使得匹配较困难。如果存在很少的运动或者不存在运动，那么匹配置信度的量度可被设为小的值。作为另一例子，如果在音频内容中存在语音，那么精确的匹配会是更加可能的。如果检测到语音，那么匹配置信度的量度可被设为高的值。

(4)攻击预测模型

用于计算匹配置信度的量度的另一技术使用模型以预测在生成基准签名之后内容被不同的处理修改或“攻击”的情况下正确匹配的可能性。基于某些特征的签名可能对于各种类型的修改或多或少地敏感。攻击预测模型尝试确定出现了什么类型的内容修改。可通过在两个内容可用的情况下分析基准内容和目标内容之间的差异或者通过分析基准签名和目标签名之间的差异完成这一点。视频内容修改的例子包含剪切、空间分辨率的改变、帧速率的改变、图像反转和感知编码。音频内容修改的例子包含带宽减小、采样速率的变化和感知编码。

通过该确定，可从签名类型具有的对于出现的内容修改的抵抗力水平导出基于特定的签名类型的匹配中的置信度的量度。如果特定的签名类型对于某些类型的内容修改不敏感并且只有那些类型的修改被视为已出现，那么基于该签名类型的匹配的置信度的量度被设为较高的值。另一方面，如果特定的签名类型对于某些类型的内容修改敏感并且那些类型的修改被视为已出现，那么基于该签名类型的匹配的置信度的量度被设为较低的值。

(5)操作员输入

用于计算匹配置信度的量度的另一技术使用操作员输入。操作员输入可直接规定置信度的量度或者它可向以上讨论的模型中的一个提供输入。例如，操作员输入可识别诸如视频内容中的运动的有无或音频内容中的语音的有无的内容特性，或者，它可规定自基准签名生成以来出现的信号修改或者攻击的类型。其它类型的输入是可能的。

(6)传送误差

用于计算匹配置信度的量度的另一技术基于传送误差的检测。如果已知在目标内容中或者在同步性签名构造中存在不可校正的传送误差，那么基于该数据的匹配可能比基于不具有这些误差的数据的匹配更不可靠。当已知出现传送误差时，匹配置信度的量度可被设为较低的值。如果出现了更多的不可校正的误差，那么量度可被设为更低的值。但是，应当注意，不存在传送误差本身不意味着匹配置信度的量度应较高。可以使用传送误差的检测以在从诸如上述的那些的其它方法计算的量度的值上设定上限。

d)使用置信度的量度

匹配置信度的量度可被用于实现用于计算同步性误差及其相关的可靠性的量度中的一种或更多种类型的处理或过滤器。

匹配置信度的量度可被用于排除或最小化计算的同步性误差中的短期偏离的影响的各种处理中。一个示例性处理使用过去的同步性误差的三种类型的模型。类型1模型表示恒定的误差的序列。类型2模型表示以线性速率增加或减小的误差的序列。类型3模型表示包含值的突然跳动或改变的误差的序列。示例性处理分析过去的同步性误差的间隔并且选择这三种模型类型中的哪一种表示该序列。用于选择的模型的参数被导出以使选中的模型的输出和过去的误差值之间的差值最小化。模型类型及其参数的选择被存储于缓冲器中。优选地，以上讨论的预测模型技术被用于计算选中的模型中的匹配置信度的量度，并且，仅当置信度的该量度比阈值大时，才将选中的模型类型和它的匹配置信度的相关联的量度一起存储在缓冲器中。如果期望的话，那么可以使用附加的过滤器来从缓冲器排除选中的模型，其生成异常误差值。存储的模型的缓冲器可被用于对于匹配置信度的量度低于阈值的间隔预测当前的同步性误差。可以以各种方式完成这一点。这里提到几种方式。

一种方式使用具有匹配置信度的最高量度的存储模型来估计当前同步性误差。第二种方式计算存储的模型的模型参数的平均值，从平均的参数导出新的模型，并使用该新导出的模型以估计当前同步性误差。第三种方式识别三种模型类型中的哪一种最常被存储于缓冲器中并且使用该模型类型来估计当前同步性误差。

如果期望的话，可通过计算模型输出和最近的同步性误差之间的预测误差，对类型2模型的输出进行进一步的检查。该模型被视为是可靠的，并且，只有预测误差低于阈值时其输出才被使用。如果预测误差高于阈值，那么该模型被视为不可靠，并且，存储于缓冲器中的最近的可靠的模型被用于估计当前同步性误差。

一种类型的过滤器计算单个计算的对准误差的加权和。如果使用多个签名，那么对于各签名计算对准误差并且从单个计算的对准误差获得单个同步性误差。例如，如果三个不同的签名可用于比较，那么可对于各签名确定相应的对准误差E₁、E₂和E₃并且对于各对准误差计算匹配置信度的相应的量度R₁、R₂和R₃。从根据匹配置信度的对应的量度加权的计算的对准误差之和获得同步性误差E。该和可被表达为：

E = \frac{R_{1} \cdot E_{1} + R_{2} \cdot E_{2} + R_{3} \cdot E_{3}}{R_{1} + R_{2} + R_{3}}

另一类型的过滤器选择计算的具有最高的匹配置信度的量度的对准误差，并且将同步性误差设为等于该对准误差。

如果匹配置信度的相关的量度低于某阈值，那么另一类型的过滤器从上述的过滤器中的计算排除对准误差。

可以以与上述的其它的过滤器类型级联地实现光栅过滤器。该光栅过滤器生成指示同步性误差的计算的可靠性的量度是否大于阈值的二值输出信号。该信号可被用于控制随后的处理。例如，如果该过滤器的输出指示计算的同步性误差不可靠，那么A/V同步校正器可禁止同步性误差的校正。

如果使用多个签名来计算同步性误差，那么可以使用不同的方法以从单个对准误差的匹配置信度的量度获得对于该计算的误差的可靠性的量度。例如，可靠性的总体量度可被设为等于匹配置信度的各量度的最大值、最小值、平均值或中间值。

2.其它的应用

可以在大量的其它的应用中使用同步性签名构造。

一种应用保持辅助信息的同步性。由于同步性签名构造中的基准视频签名和基准音频签名基于对于视频信号和音频信号具有已知的时间关系的特征，因此，这些基准签名可被用于对于视频信号和音频信号中的任一个或两个将辅助信息同步化。该辅助信息包含传输与视频-音频内容关联的时间敏感信息的本质上任意类型的数据。几个例子包括关闭的字幕(captioning)信息、诸如在SMPTE标准12M中描述的时间代码、以及器件控制信号。通过以一些方式使该辅助信息与同步性签名构造接合(诸如将其包含在签名中、使其与同步性签名构造交错)，或者通过在一些较大的数据构造中组装同步性签名构造与辅助信息，实现该应用。

另一应用识别视频-音频内容。由于同步性签名构造中的基准视频签名和基准音频签名基于从视频-音频内容提取的特征，因此，这些基准签名的序列可能对于给定的视频-音频节目是唯一的。这意味着同步性签名构造中的基准视频签名和基准音频签名可被用于识别内容。在本申请的一个实现方式中，从目标内容生成目标签名的序列，并且，目标签名的该序列与基准签名的序列的数据库相比较。如果发现匹配目标签名的序列的基准签名的序列(这意味着目标签名的序列被视为与基准签名的特定的序列充分地类似)，那么目标内容被识别为与基准签名的特定的序列对应的内容的拷贝。可以一起或者独立地搜索视频内容和音频内容。并且，如上所述，即使内容经受了修改它的各种处理，内容也可被精确地识别。

图14是可用于识别内容的系统的示意性框图。视频签名生成器100和音频签名生成器200根据从路径31接收的内容的基准视频/音频流生成基准视频签名和基准音频签名。生成的基准视频签名被存储于视频-签名数据库(VSIG DB)180中，并且生成的基准音频签名被存储于音频-签名数据库(ASIG DB)280中。可以与可有利于应用的实现的其它的信息一起存储基准签名。例如，可与基本的内容自身一起或者与识别诸如内容拥有者、内容许可项、内容的标题或内容的文本描述的关于内容的信息的数据一起存储基准签名。各基准签名具有数据库搜索密钥。可以以可期望的任何方式导出该密钥。优选地，该密钥基于基准签名自身或者是从基准签名自身得到的。

可对于由存储于视频和音频数据库中的信息代表的基准内容检查任何规定的视频内容或音频内容的身份。这里，其身份有待检查的内容被称为测试内容。可通过使视频签名生成器101根据从路径33接收的测试视频内容生成测试视频签名，并将测试视频签名传送到视频搜索引擎185，检查测试视频内容的身份。视频搜索引擎185尝试找到在作为测试视频签名的确切的或接近的匹配的视频-签名数据库180中的基准视频签名。可通过使音频签名生成器201根据从路径33接收的测试音频内容生成测试音频签名并将测试音频签名传送到音频搜索引擎285，检查测试音频内容的身份。音频搜索引擎285尝试找到作为测试音频签名的确切的或接近的匹配的音频-签名数据库280中的基准音频签名。

在一个实现方式中，搜索引擎计算存储于数据库中的测试签名和基准签名之间的汉明距离，并且搜索最接近测试视频签名的序列的基准签名的序列。可以使用以上在式10和11中示出的计算或它们的一些变化来进行搜索。如果签名的两个序列之间的距离小于某阈值，那么与测试签名的序列关联的测试内容被视为与匹配的基准签名的序列关联的基准内容的确切的或修改的拷贝。经验的结果建议可通过使用代表约两秒的内容的签名的序列对于各种视频内容和音频内容获得良好的结果。

另一应用是内容验证和质量监视。基准签名和从目标内容生成的目标签名之间的高的相关性程度指示目标内容与基准内容相同或者至少基本上相同。低的相关性程度指示在目标内容和基准内容之间存在本质的差异。这些差异可能是由于内容不同或者是由于内容的编码质量的本质差异。可以以与以上对于内容识别所讨论的方式类似的方式使用基准签名。在本应用的一个实现方式中，目标签名的序列与基准签名的序列的数据库相比较。如果发现匹配目标签名的序列的基准签名的序列，那么可对于与基准签名的特定序列对应的内容验证目标内容。同步性签名构造可包含指示什么时候、什么地方以及由谁创建同步性签名构造的数据。它还可包含可被用于验证目标内容与基准内容相同的数字签名。

E.实现方式

可以以包含通过计算机或包含更专用的部件(诸如与与在通用计算机中发现的那些部件类似的部件耦合的数字信号处理器(DSP)电路)的一些其它的器件执行的软件的各种方式实现包含本发明的各方面的器件。图15是可用于实现本发明的各方面的器件70的示意性框图。处理器72提供计算资源。RAM 73是被处理器72用于处理的系统随机存取存储器(RAM)。ROM 74表示用于存储操作器件70所需要的程序并且可能用于实现本发明的各方面的诸如只读存储器(ROM)的永久存储器的一些形式。I/O控制75表示通过通信信道76、77接收和传送信号的接口电路。在所示出的实施例中，所有主要的系统部件与可表示多于一个的物理或逻辑总线的总线71连接；但是，实现本发明不要求总线结构。

在由通用计算机系统实现的实施例中，为了与诸如键盘或鼠标和显示器的器件接口并且为了控制具有诸如磁带或盘或光学介质的存储介质的存储器件78，可以包含附加的部件。存储介质可被用于记录用于操作系统、应用程序和应用的指令的程序，并且可包含实现本发明的各方面的程序。

可通过以包含离散逻辑部件、集成电路、一个或更多个ASIC和/或程序控制的处理器的各种各样的方式实现的部件执行实践本发明的各方面所需要的功能。实施这些部件的方式对于本发明是不重要的。

可通过诸如包含从超声到紫外频率的全谱上的基带或调制通信路径或通过使用包含磁带、卡或盘、光卡或盘、以及包含纸的介质上的可检测标记的本质上任何的记录技术来传输信息的存储介质的各种机器可读介质传输本发明的软件实现方式。

Claims

1.一种用于处理视频信号和音频信号的方法，其中，该方法包括：

获得与第一视频信号的段的序列和第一音频信号的段的序列对应的多个第一同步性签名构造，其中，各第一同步性签名构造传输：

分别代表第一视频信号的一个或更多个段的第一视频内容的一个或更多个第一视频签名；

分别代表第一音频信号的一个或更多个段的第一音频内容的一个或更多个音频签名；和

第一视频内容相对于第一音频内容的时间对准；

获得与第二视频信号的一个或更多个段以及第二音频信号的一个或更多个段对应的第二同步性签名构造，并且该第二同步性签名构造传输：

分别代表第二视频信号的一个或更多个段的第二视频内容的一个或更多个第二视频签名；

分别代表第二音频信号的一个或更多个段的第二音频内容的一个或更多个音频签名；和

第二视频内容相对于第二音频内容的时间对准；

比较由所述多个第一同步性签名构造传输的所述一个或更多个第一视频签名与所述一个或更多个第二视频签名，以生成代表相应的第一同步性签名构造中的第一视频签名和所述第二视频签名之间的匹配的可靠性的多个视频匹配置信度量度，并且分析所述多个视频匹配置信度量度，以识别第一同步性签名构造中的被视为与第二视频签名最佳地匹配的选中的第一视频签名；

比较由所述多个第一同步性签名构造传输的所述一个或更多个第一音频签名与所述一个或更多个第二音频签名，以生成代表相应的第一同步性签名中的第一音频签名和第二音频签名之间的匹配的可靠性的多个音频匹配置信度量度，并且分析所述多个音频匹配置信度量度，以识别第一同步性签名构造中的被视为与第二音频签名最佳地匹配的选中的第一音频签名；

计算与由第二视频签名代表的第二视频内容和由第二音频签名代表的第二音频内容之间的时间对准相比、由第一选中的第一视频签名代表的第一视频内容和由选中的第一音频签名代表的第一音频内容之间的时间对准的位移，

生成代表计算的位移的置信程度的位移置信度量度；以及

生成代表计算的位移的位移量信号和代表位移置信度量度的位移置信度信号。

2.根据权利要求1的方法，包括：

计算选中的第一视频签名和第二视频签名之间的视频偏移；

对该视频偏移应用数学模型；

响应该数学模型的输出计算视频匹配置信度量度；以及

通过识别响应所述视频匹配置信度量度选择的第一同步性签名构造中的选中的第一视频签名，修改哪些第一视频签名被视为与第二视频签名最佳地匹配。

3.根据权利要求2的方法，其中，该数学模型包含：

保持计算的视频偏移的历史记录；

对该历史记录应用预测模型以生成预测的视频偏移；和

响应预测的视频偏移和计算的视频偏移之间的差值计算视频匹配置信度量度。

4.根据权利要求1～3中的任一项的方法，包括：

计算选中的第一音频签名和第二音频签名之间的音频偏移；

对该音频偏移应用数学模型；

响应该数学模型的输出计算音频匹配置信度量度；和

通过识别响应所述音频匹配置信度量度选择的第一同步性签名构造中的选中的第一音频签名修改哪些第一音频签名被视为与第二音频签名最佳地匹配。

5.根据权利要求4的方法，该数学模型包含：

保持计算的音频偏移的历史记录；

对该历史记录应用预测模型以生成预测的音频偏移；和

响应预测的音频偏移和计算的音频偏移之间的差值计算音频匹配置信度量度。

6.根据权利要求1的方法，包括：

计算选中的第一视频签名和第二视频签名之间的视频偏移；

计算选中的第一音频签名和第二音频签名之间的音频偏移；

对该视频偏移和该音频偏移应用一个或更多个数学模型；

响应所述一个或更多个数学模型的输出计算视频匹配置信度量度和音频匹配置信度量度。

7.根据权利要求6的方法，其中，该数学模型包含：

保持计算的视频偏移和计算的音频偏移的历史记录；

对该历史记录应用一个或更多个预测模型以生成预测的视频偏移和预测的音频偏移；和

响应预测的视频偏移和计算的视频偏移之间的差值计算视频匹配置信度量度，并且响应预测的音频偏移和计算的音频偏移之间的差值计算音频匹配置信度量度。

8.根据权利要求1的方法，包括：

对计算的位移应用数学模型；

响应该数学模型的输出计算位移置信度量度；和

响应位移置信度量度修改计算的位移。

9.根据权利要求8的方法，其中，该数学模型包含：

保持计算的位移的历史记录；

对该历史记录应用预测模型以生成预测的位移；和

响应预测的位移和计算的位移之间的差值计算位移置信度量度。

10.根据权利要求8的方法，其中，该数学模型包含：

对计算的位移应用统计模型以获得计算的位移的出现的可能性；和

响应计算的位移的出现的可能性计算位移置信度量度。

11.根据权利要求1的方法，包括：

响应所述视频匹配置信度量度和所述音频匹配置信度量度生成位移置信度量度。

12.根据权利要求1～11中的任一项的方法，其中，

根据从第一视频内容提取的两种或更多种类型的视频内容特征生成第一视频签名，

根据从第一音频内容提取的两种或更多种类型的音频内容特征生成第一音频签名，

根据从第二视频内容提取的两种或更多种类型的视频内容特征生成第二视频签名，

根据从第二音频内容提取的两种或更多种类型的音频内容特征生成第二音频签名，

并且，该方法包括：

生成多个临时视频匹配置信度量度，各临时视频匹配置信度量度表示从相应的类型的视频内容特征生成的第一视频签名和第二视频签名之间的匹配的置信度，并且使用临时视频匹配置信度量度来确定哪些第一同步性签名构造传输被视为与第二视频签名最佳地匹配的第一视频签名；和

生成多个临时音频匹配置信度量度，各临时音频匹配置信度量度表示从相应的类型的音频内容特征生成的第一音频签名和第二音频签名之间的匹配的置信度，并且使用临时音频匹配置信度量度来确定哪些第一同步性签名构造传输被视为与第二音频签名最佳地匹配的第一音频签名。

13.根据权利要求1～12中的任一项的方法，所述多个第一同步性签名构造是从源位置接收的，并且所述第二同步性签名构造是在目标位置处生成的，其中，该方法包括：

分析第二视频信号的一个或更多个段中的第二视频内容以提取一个或更多个第二视频内容特征；

处理所述一个或更多个第二视频内容特征以生成一个或更多个第二视频签名；

分析第二音频信号的一个或更多个段中的第二音频内容以提取一个或更多个第二音频内容特征；

处理所述一个或更多个第二音频内容特征以生成一个或更多个第二音频签名；和

响应计算的位移和位移置信度量度处理第二视频内容或第二音频内容，以调整第二视频内容相对于第二音频内容的时间对准。

14.根据权利要求13的方法，包括：

在数据库中记录由多个第一同步性签名构造传输的第一视频签名和第一音频签名，并且在数据库中记录识别由这些第一视频签名和第一音频签名代表的第一视频内容和第一音频内容的对应的内容识别数据；

为了比较从数据库取回多个第一同步性签名构造以生成多个视频匹配置信度量度；

响应用于选中的第一视频签名的视频匹配置信度量度生成视频检查信号，其中，所述视频检查信号指示由选中的第一视频签名代表的第一视频内容和由第二视频签名代表的第二视频内容是否是从共同的视频内容获得的；

响应用于选中的第一音频签名的音频匹配置信度量度生成音频检查信号，其中，所述音频检查信号指示由选中的第一音频签名代表的第一音频内容和由第二音频签名代表的第二音频内容是否是从共同的音频内容获得的；和

响应所述视频检查信号、所述音频检查信号和与选中的第一视频签名和选中的第一音频签名对应的内容识别数据生成识别由第二同步性签名构造代表的视频内容和音频内容的内容识别信号。

15.根据权利要求1～12中的任一项的方法，第二同步性签名构造是从源位置接收的，并且多个第一同步性签名构造是在目标位置处生成的，其中，该方法包括：

分析第一视频信号的段的序列中的第一视频内容以提取多个第一视频内容特征；

处理所述多个第一视频内容特征以生成第一视频签名；

分析第一音频信号的段的序列中的第一音频内容以提取多个第一音频内容特征；

处理所述多个第一音频内容特征以生成第一音频签名；和

响应计算的位移和位移置信度量度处理由选中的第一视频签名代表的第一视频内容或由选中的第一音频签名代表的第一音频内容，以调整第一视频内容相对于第一音频内容的时间对准。

16.根据权利要求15的方法，包括：

在数据库中记录由第二同步性签名构造传输的第二视频签名和第二音频签名；

为了比较从数据库取回第二同步性签名构造以生成多个视频匹配置信度量度；

响应所述视频检查信号和所述音频检查信号生成验证由选中的第一同步性签名构造代表的视频内容和音频内容的身份的内容验证信号。

17.一种包括用于执行权利要求1～16中的任一项中所述的方法的步骤的手段的装置。

18.一种传输指令的程序并且可被用于执行指令的程序的器件读取以执行权利要求1～16中的任一项的方法的介质。