CN102959543B

CN102959543B - 用于处理媒体流的样本的方法和系统

Info

Publication number: CN102959543B
Application number: CN201180032224.5A
Authority: CN
Inventors: A.L-C.王; A.A.雷维尔
Original assignee: Shazam Entertainment Ltd
Current assignee: Apple Inc
Priority date: 2010-05-04
Filing date: 2011-05-04
Publication date: 2016-05-25
Anticipated expiration: 2031-05-04
Also published as: KR20150095957A; US10003664B2; WO2011140269A1; CN102959543A; US9275141B2; US20160156731A1; KR20130029082A; US20110276157A1; EP2567332A1; CA2798093A1; CA2798093C

Abstract

提供用于处理媒体流的样本的方法和系统。在一个示例中，一种方法包括接收由媒体渲染源渲染的媒体流的样本，并且，对于从中获得所述样本的匹配媒体记录，所述方法还包括接收包括在时间上映射的描述所述匹配媒体记录的内容的特征的集合的签名文件。可以将每个接收的签名文件存储在存储器中。另外，可以接收包括从媒体流提取的特征的签名流，并且，可以确定所述媒体流的签名流与用于至少一个匹配媒体记录的签名文件之间的匹配特征的数目。在一个示例中，当所述媒体流的签名流与用于匹配媒体记录的签名文件之间的基本上匹配的特征停止出现时，可以识别中断。

Description

用于处理媒体流的样本的方法和系统

相关申请的交叉引用

本申请主张于2010年5月4日提交的序号为61/331,015的美国临时专利申请的优先权，通过引用将其全部内容合并在此。本申请还主张于2011年2月18日提交的序号为61/444,458的美国临时专利申请的优先权，通过引用将其全部内容合并在此。

技术领域

本公开涉及媒体处理，包括媒体信息检索、媒体同步和媒体识别验证。另外，本公开涉及假肯定检测(falsepositivedetection)、多个版本消歧(disambiguation)、匹配片段长度确定和媒体流的重新同步。

背景技术

用于各种媒体类型(诸如音频或视频)的内容识别系统使用许多不同方法。客户端设备可以捕获媒体流(诸如无线电)的媒体样本记录，并且然后可以在媒体记录(也称为媒体轨道)的数据库中执行对匹配的搜索，以识别媒体流。可以在客户端设备上对样本记录进行预处理，以提取相关特征用于内容识别。可以将样本记录传递至内容识别模块，所述内容识别模块可以执行对样本的内容识别，并将识别的结果返回至客户端设备。然后，可以在客户端设备上向用户显示辨识结果，或者辨识结果可被用于各种后继服务，诸如购买或参考有关信息。例如，内容识别的其它应用包括广播监控或内容敏感广告。

在示例的内容识别系统中，可以在将结果返回至客户端设备之后结束内容识别。然而，一些内容识别系统可能具有低鉴别性，这会导致大量假肯定匹配。另外，一些内容识别系统可能不能在数据库中多个可能的匹配记录之间消歧。例如，如果样本记录跨越由数据库中的多个目标记录共享的片段，则内容识别系统可以确定这些多个记录中的任何一个是匹配。此情形可能在存在多个版本的媒体记录(例如，无线电混音(radiomix)、延长舞蹈混音(extendeddancemix)、或集锦曲(mash-up))的情况下发生，在集锦曲中，将来自相同原始记录的片段采样到不同作品中。在这些示例情况中，内容识别的结果可能是不准确的。

发明内容

在一个示例中，本公开描述了一种方法，包括接收由媒体渲染(render)源渲染的媒体流的样本。所述方法还包括对于从中获得样本的匹配媒体记录，接收包括在时间上映射的描述匹配媒体记录的内容的特征的集合的签署(signature)文件。所述方法还包括将每个接收的签署文件存储在存储器中。

在一个示例中，所述方法还包括接收包括由媒体渲染源渲染的媒体流的样本的内容识别查询、以及确定从中获得样本的匹配媒体记录的识别。

在一个示例中，所述方法还可以包括接收包括从媒体流提取的特征的签署流、确定媒体流的签署流与用于至少一个匹配媒体记录的签署文件之间的匹配特征的数目、以及基于所述匹配特征的数目识别匹配媒体记录。

在一个示例中，所述方法还可以包括接收包括从媒体流提取的特征的签署流、以及确定媒体流的签署流与用于至少一个匹配媒体记录的签署文件之间的特征是否随着时间而基本上匹配。所述方法还可以包括当媒体流的签署流与用于匹配媒体记录的签署文件之间的基本上匹配的特征停止出现时，识别中断(discontinuity)。

例如，所述方法可以由客户端设备或者由服务器来执行。

可以以存储在非瞬时计算机可读介质上的指令的形式提供这里描述的任何方法，其中，当由计算设备执行所述指令时，所述指令执行所述方法的功能。其它实施例还可以包括包含有形计算机可读介质的制品，在所述有形计算机可读介质上编码了计算机可读指令，并且所述指令可以包括用以执行这里描述的方法的功能。

计算机可读介质可以包括非瞬时计算机可读介质，诸如在短时段内存储数据的计算机可读介质，如寄存器存储器、处理器缓存和随机存取存储器(RAM)。计算机可读介质还可以包括非瞬时介质，诸如二次(secondary)或永久长期存储装置，如只读存储器(ROM)、光或磁盘、光盘只读存储器(CD-ROM)。计算机可读介质还可以是任何其它易失性或非易失性存储系统。计算机可读介质可以被认为是例如计算机可读存储介质或有形存储介质。

另外，可以提供被布线成执行这里描述的处理或方法中的逻辑功能的电路。

在另一示例中，描述了一种系统，包括：输入接口，被配置为接收由媒体渲染源渲染的媒体流的样本；以及连续性跟踪器，被配置为对于从中获得样本的匹配媒体记录，接收包括在时间上映射的描述匹配媒体记录的内容的特征的集合的签署文件。

前述发明内容仅仅是说明性的，而不意图以任何方式进行限制。除了上述说明性方面、实施例和特征之外，参考附图和以下详细描述，其它方面、实施例和特征将变得显而易见。

附图说明

图1图示了用于识别媒体内容和执行识别验证的系统的一个示例。

图2图示了用于准备签署数据库的示例系统。

图3是根据这里描述的至少一些实施例的用于处理媒体的样本的示例方法的框图。

图4是根据这里描述的至少一些实施例的用于处理媒体的样本的另一示例方法的框图。

图5图示了示例时序图。

图6是根据这里描述的至少一些实施例的、包括执行假肯定检测的用于处理媒体的样本的示例方法的框图。

图7是根据这里描述的至少一些实施例的、包括在多个匹配媒体记录之间消歧的用于处理媒体的样本的示例方法的框图。

图8图示了示例时序图。

图9图示了用于识别媒体流、以及将数据与所识别的媒体流进行同步的系统的示例。

图10是根据这里描述的至少一些实施例的、包括在多个匹配从(slave)媒体记录之间消歧的用于处理媒体的样本的示例方法的框图。

图11是根据这里描述的至少一些实施例的、包括在多个匹配从媒体记录之间消歧的用于处理媒体的样本的示例方法的框图。

具体实施方式

在以下详细描述中，参考形成此一部分的附图。在附图中，类似的符号通常标识类似的组件，除非上下文另外指定。详细描述、附图和权利要求书中描述的说明性实施例不意味着限制。在不违背这里呈现的主题的精神或范围的情况下，可以利用其它实施例，并且可以进行其它改变。将容易理解，可以在各种各样的这里明确设想的不同配置中布置、替换、组合、分离和设计如这里一般描述且在附图中图示的本公开的各方面。

此公开可以描述用于处理媒体流的样本的方法和系统等。在一个示例中，方法包括接收由媒体渲染源渲染的媒体流的样本，并且，对于从中获得样本的匹配媒体记录，所述方法还包括接收包括在时间上映射的描述匹配媒体记录的内容的特征的集合的签署文件。可以将每个接收的签署文件存储在存储器中。另外，可以接收包括从媒体流提取的特征的签署流，并且可以确定媒体流的签署流与用于至少一个匹配媒体记录的签署文件之间的匹配特征的数目。在一个示例中，当在媒体流的签署流与用于匹配媒体记录的签署文件之间的基本上匹配的特征停止出现时，可以识别中断。

在下面描述的示例中，方法和系统使得能够验证从内容识别返回的匹配结果以便修正假肯定，并且消除为了从媒体流捕获的媒体样本的附加增量(increment)而进一步执行计算上昂贵的内容识别的需要。示例方法和系统还可以使得能够在媒体记录的多个版本之间进行消歧、以及管理主媒体流与一组从媒体流之间的同步性。

可以通过提供对来自媒体流的媒体样本的内容识别、以及为每个识别的媒体记录提供对应的从媒体记录推出的经特征提取的签署文件，来执行示例方法和系统。可以从媒体流在原始媒体样本附近的部分开始，从媒体流提取对应的经特征提取的签署流。可以确定每个识别的媒体记录内的时间偏移位置，并且，可以将每个识别的媒体记录的对应签署文件内的对应时间位置初始地与媒体流内的对应时间偏移对准。由于媒体流的签署流与每个识别的媒体记录的签署文件之间的特征的对准，可以在每个识别的媒体流中的对应时间预期媒体流中的匹配特征。当在预期位置处的特征对应关系停止出现时，可以标记中断。例如，中断可以触发诸如标记假肯定的动作发生。

连续性的验证在计算上可以是廉价的，因为可以使用较少数目的特征在预期的位置进行比较。例如，用于验证整个全长度的音乐记录的签署文件可以小于约5KB。因此，可以将验证库存储在客户端设备上，或者通过网络推行(push)验证库。

在这里描述的示例中，可以通过执行向内容识别服务器的分立的查询，来完成用于验证内容识别的方法和系统。然而，为了避免附加的查询(其可以向识别服务器模块增加额外负担)，可以使用签署文件执行对连续性的验证。

I.示例系统的概述

现在参照附图，图1图示了用于识别媒体内容和执行识别验证的系统的一个示例。系统包括媒体渲染源102、客户端设备104、以及服务器106。图1中的系统的所描述的功能或组件中的一个或多个可以被分为附加的功能或物理组件、或者被组合为更少的功能或物理组件。例如，可能不存在客户端104和服务器106的区分，因为系统可以用作用于辨识的验证机构、或者在集成的便携式用户设备中是完全独立的。在一些其它示例中，可以将附加的功能和/或物理组件添加至图1所示的示例。

媒体渲染源102以任何已知方式实时地渲染并呈现来自媒体流的媒体内容。可以将媒体流作为记录而存储在媒体渲染源102上、或者可以从诸如模拟或数字广播的外部源接收媒体流。在一个示例中，媒体渲染源102可以是广播媒体流(例如，音频和/或视频)和/或其它信息的广播站或电视内容提供方。媒体渲染源102还可以是以已记录的或实况格式播放音频媒体、显示视频媒体的任何类型的设备。在替代实施例中，例如，媒体渲染源102可以包括实况表演作为音频源和/或视频源。例如，媒体渲染源102可以通过图形显示器、音频扬声器、MIDI乐器、操纵木偶等、或者由媒体渲染源102提供的任何其它种类的表现来渲染或呈现媒体流。

客户端设备104通过包含媒体接收器108的样本捕获模块接收来自媒体渲染源102的媒体流的渲染。在图1中，媒体接收器108被示出为天线，并且，媒体渲染源102向客户端设备104无线地广播媒体流。然而，取决于媒体流的形式，媒体渲染源102可以使用无线或有线通信技术渲染媒体。在其它示例中，客户端设备104包括麦克风110，用以从媒体渲染源102接收媒体流或记录。客户端设备104还可以包括摄像机、振动传感器、无线电接收器、网络接口等中的任一个，用以接收媒体流。

除了接收媒体流的渲染，客户端设备104可能不被操作地耦接至媒体渲染源102。如此，客户端设备104可能不被媒体渲染源102控制，并且，客户端设备104可能不是媒体渲染源102的必要部分。在图1所示的示例中，客户端设备104是与媒体渲染源102分立的实体。

可以将客户端设备104实施为小外形便携式(或移动)电子设备的一部分，小外形便携式(或移动)电子设备诸如包括任何上述功能的蜂窝电话、无线蜂窝电话、个人数字助理(PDA)、个人媒体播放设备、无线网络手表设备、个人耳机设备、特定应用设备、或混合设备。还可以将客户端设备104实施为包括膝上型计算机和非膝上型计算机配置的个人计算机。客户端设备104还可以是较大设备或系统的组件。

可以操作客户端设备104以捕获所渲染的媒体流的媒体样本。这可以在没有用户介入的情况下自动发生、或者可以通过用户激活按钮或其它应用以触发样本捕获而实现。例如，客户端设备104的用户可以按下按钮以通过麦克风记录音频的10秒数字样本，或者使用相机捕获静止图像或视频序列。作为其它示例，客户端设备104可以接收具有指令的信号以捕获媒体样本，或者，客户端设备104可以自主地检测环境活动(例如，经由语音活动或音乐活动检测模块)并响应地捕获媒体样本。

连续媒体流的媒体样本可以被天线108或麦克风110捕获、通过模数(A/D)转换器112传递、并存储在滚动媒体样本缓冲器114(例如，诸如圆形或环形缓冲器或队列)。当捕获新样本时，旧媒体样本可以退出(retire)，从而在时间上向后特定长度的历史可用于分析。替代地，媒体样本可以直接从数字馈送捕获，或者，如所示的，可以从A/D转换器112采样。媒体流可以是周围自由场音频，并且，例如，媒体样本可以是从麦克风110以8KHz采样率捕获的数字化的脉冲编码调制(PCM)样本。(例如，这里的术语“样本”可以被认为是诸如PCM音频样本值的单独的样本、以及这样的样本在时间片段上的集合两者)。

将与媒体样本的采样时间对应的时间戳记录为T₀，并且可以将该时间戳称为同步点。采样时间优选地可以是媒体样本的起始，但也可以是媒体样本的末尾、中间、或任何其它预定时间。因此，媒体样本可以被加以时间戳，使得获知媒体流内从固定的任意参考时间点的对应时间偏移。例如，时间戳可以是显式的，其中每个媒体样本可以具有关联的时间值；或者，时间戳可以是隐式的，其中可以从样本在样本缓冲器114内位置、或从自参考时间点起经过的样本时段的数目而确定时间。例如，可以将参考时间定义为开启客户端设备104并捕获第一个媒体样本的时刻。

可以从媒体样本缓冲器114获得媒体样本，并将媒体样本传递至服务器106用于内容识别。在另一示例中，可以在发送至服务器106之前对媒体样本进行预处理和特征提取。举例而言，可以将媒体样本发送至签署提取器116以生成所提取的特征的签署流，并且，每个特征可具有媒体流内的对应时间位置。可以将所提取的特征的签署流提供给连续性跟踪器118，连续性跟踪器118可以将所提取的特征的签署流与用于对应的媒体记录的所接收的签署文件进行比较，以确定所接收的内容识别的有效性/连续性。

签署文件可以是在时间上映射的描述媒体记录的内容的特征的集合，所述媒体记录具有与媒体记录的时间线对应的时间维度，并且，每个特征可以是对在每个映射的时间点附近的内容的描述。可以基于媒体记录而预先确定签署文件并存储签署文件，并且，例如，可以基于观测的媒体流而实时地确定并生成签署流。一般地，例如，可以将特征选择为在存在噪声和失真的情况下可再现。可以在离散时间位置稀疏地提取特征，并且，每个特征可以对应于感兴趣的特征。稀疏特征的示例包括L_p范数功率峰值(normpowerpeak)、频谱图(spectrogram)能量峰值、连接的凸点(linkedsalientpoint)，等等。对于更多的示例，请读者参考Wang和Smith的美国专利No.6,990,453，通过引用将其全文合并在此。

替代地，可以密集地表现连续的时间轴，其中每个时间值具有对应的特征值。这样的密集特征的示例包括特征波形(如授权给Kenyon的美国专利No.7,174,293中描述的，通过引用将其全文合并在此)、频谱图位图光栅(如在美国专利No.5,437,050中描述的，通过引用将其全文合并在此)、活动矩阵(如在美国公布专利申请No.2010/0145708中描述的，通过引用将其全文合并在此)、以及能量通量位图光栅(如在美国专利No.7,549,052中描述的，通过引用将其全文合并在此)。

在一个示例中，签署文件包括稀疏特征表现。可以从使用重叠的短时间快速傅立叶变换(FFT)提取的频谱图获得特征。可以在对应的能量值是局部最大值的时频位置选择频谱图中的峰值。例如，可以通过识别围绕每个候选位置的区域中的最大点来选择峰值。还可以使用心理声学掩蔽准则来抑制听不见的能量峰值。每个峰值可以被编码为一对时间和频率值。另外，可以记录峰值的能量幅度。在一个示例，音频采样率是8KHz，并且，FFT帧尺寸可在约64-1024面元(bin)之间变化，其中约25-75％的帧之间的跳变尺寸与前一帧重叠。增加频率分辨率可导致较小的时间精度。另外，可以使频率轴变形(warp)并内插到对数尺度上，诸如Mel频率。

可以将多个特征或与特征关联的信息组合为签署文件。签署文件可以将特征排序为随时间增加而排列的列表。在数据构造中，每个特征Fj可以与时间值t_j关联，并且，该列表可以是这样的构造的阵列；这里，例如，j是第j个构造的索引。在使用连续时间表现(例如频谱图的连续帧)的示例中，时间轴可以在索引中被隐含到列表阵列中。为了方便起见，可以获得每个媒体记录内的时间轴作为从记录的起始的偏移，因此时间零是指记录的起始。

所得到的签署文件的尺寸可以根据所使用的特征提取方法而变化。在一个示例中，可以将所选的频谱图峰值(例如特征)的密度选择为约在每秒10-50个点之间。可以将峰值选择为每单位时间的最高能的N个峰值，例如，一秒帧中的最高10个峰值。在使用每秒10个峰值的示例中，使用32个比特对每个峰值频率进行编码(例如，8个比特用于频率值，24个比特用以对时间偏移进行编码)，可能需要每秒40字节来对特征进行编码。由于平均歌曲长度为约3分钟，所以一首歌曲可以产生近似7.2千字节的签署文件尺寸。对于其它签署编码方法，例如，在具有100毫秒的跳变尺寸的频谱图的每个偏移处的32比特特征产生类似尺寸的指纹。

在另一示例中，签署文件可以是约5-10KB的量级，并且可以对应于从中获得样本的媒体记录的一部分，其约20秒长并且是指媒体记录中在捕获的样本的末尾之后的一部分。

因此，签署提取器116可以使用这里描述的任何方法从媒体样本提取特征，以生成所提取的特征的签署流。连续性跟踪器118可以接收对应的媒体记录的预定签署文件，并且，连续性跟踪器118可以将所提取的特征的所提取的签署流、与签署文件进行比较，如以下所述。

可以操作客户端设备104以捕获由媒体渲染源102渲染的媒体样本的部分用于识别，并将所捕获的部分发送至服务器106用于识别。客户端设备104可以被操作地通过有线或无线接口而耦接至服务器106。

服务器106可以包括位置识别模块120和内容识别模块122。虽然图1图示了服务器106包括位置识别模块120和内容识别模块122两者，但是，例如，位置识别模块120和/或内容识别模块122中的任一者可以是与服务器106分开的分立实体。替代地，位置识别模块120和内容识别模块122可以是同一实体，或者，可以通过同一实体执行位置识别模块120和内容识别模块122的功能。另外，位置识别模块120和/或内容识别模块122可以位于客户端设备104中、或者可以在通过网络连接至客户端设备104的远程服务器上，如图1中所示。

服务器106可以(通过有线或无线连接)从客户端设备104接收媒体样本，并且，位置识别模块120可以识别对应估计的时间位置(T_S)，其基于在该时刻捕获的媒体样本指示媒体样本在媒体流(或媒体记录)中的的时间偏移。在一些示例中，T_S还可以是从媒体流的起始经过的时间量。

内容识别模块122还可以可选地对所接收的媒体样本执行内容识别。如果标识仍未知，则内容识别可以识别媒体流(例如音乐声轨)中的内容。可以在任何示例媒体样本信息检索系统(例如，由英国伦敦的ShazamEntertainment、加利福尼亚埃默里维尔的Gracenot、或者加利福尼亚圣何塞的Melodis提供的)内使用或合并内容识别模块122。这些服务进行操作以接收环境音频的样本，识别音频样本的音乐内容，并向用户提供关于音乐的信息，包括轨道名称、艺术家、曲集、艺术作品、传记、唱片分类目录、音乐会票，等等。

在这一点上，内容识别模块122可以包括媒体搜索引擎124，并且可以包括或有权访问对参考媒体内容对象和记录(例如，音乐声轨、视频剪辑、电影和电视节目)进行索引的媒体记录数据库126，以比较所接收的媒体样本与所存储的信息，以便识别所接收的媒体样本内的媒体内容。一旦已经识别了媒体流内的媒体对象，便可以将标识信息和其它元数据报告回客户端设备104。

元数据还可以包括数据以及至其它相关内容和服务的超链接，包括推荐、广告、用以预览的提议(offer)、加标签和购买音乐记录、视频、音乐会票和奖赠内容；以及便利于在万维网上浏览、搜索、发现有关内容。

替代地，客户端设备104可以从媒体渲染源102获取媒体流的样本，并对该样本执行初始特征提取处理，以便创建媒体样本的指纹(fingerprint)。客户端设备104然后可以将指纹信息发送至位置识别模块120和/或内容识别模块122，其可以仅仅基于指纹信息而识别关于该样本的信息。如此，例如，可以在客户端设备104、而非在位置识别模块120和/或内容识别模块122执行更多的计算或识别处理。

如所提及的，媒体记录数据库126可以包括多个媒体内容对象，其每个可以由唯一的标识符(例如soundID)识别。数据库126或许不一定存储实际媒体流(诸如用于每个记录的音频或视频文件)，因为可以使用soundID从别处检索文件。然而，在一些实施例中，数据库126可以存储媒体内容文件。媒体内容数据库索引可以非常大，例如，包含用于数百万或甚至数十亿文件的索引。可以向数据库索引递增地添加新内容。

数据库126还可以包括用于每个存储的音频、视频或媒体文件、或者用于每个存储的媒体索引的信息。例如，元数据可以对每个文件存储元数据，其指示关于文件的信息，诸如艺术家名称、歌曲长度、歌曲的歌词、歌词的行或词的时间索引、专辑封面、或任何其它识别文件或与文件有关的信息。

图1的系统允许识别所捕获的媒体样本的时间偏移，并且也允许基于所存储的信息识别媒体样本。虽然图1图示了具有给定配置的系统，但是可以以其它方式布置该系统内的组件。例如，媒体搜索引擎124可以与内容识别模块122分立，或者，媒体样本处理可以发生在客户端104或服务器106。因此，应当理解，这里描述的配置本质上仅仅是示例性的，并且，还可以使用许多替代的配置。

图1中的系统、特别是位置识别模块120可以识别媒体流内的媒体样本的时间偏移。可选地，该系统可以用于使用内容识别模块122、使用媒体流内的媒体的样本识别媒体流中的内容。

在本领域中已知各种媒体样本识别技术，用于使用媒体内容对象的数据库执行媒体样本和媒体样本的特征的计算内容识别。下列美国专利和出版物描述了媒体辨识技术的可能示例，并且通过引用将其美国全文合并在此，如同在此说明书中完全提出一样：Kenyon等人的标题为“BroadcastInformationClassificationSystemandMethod”的美国专利No.4,843,562；Kenyon的标题为“BroadcastSignalRecognitionSystemandMethod”的美国专利No.4,450,531；Haitsma等人的标题为“GeneratingandMatchingHashesofMultimediaContent”的美国专利申请公布No.2008/0263360；Wang和Culbert的标题为“RobustandInvariantAudioPatternMatching”的美国专利No.7,627,477；Wang和Avery的标题为“MethodandApparatusforIdentificationofBroadcastSource”的美国专利申请公布No.2007/0143777；Wang和Smith的标题为“SystemandMethodsforRecognizingSoundandMusicSignalsinHighNoiseandDistortion”的美国专利No.6,990,453；以及Blum等人的标题为“MethodandArticleofManufactureforContent-BasedAnalysis,Storage,Retrieval,andSegmentationofAudioInformation”的美国专利No.5,918,223。

简而言之，对媒体记录的识别通过接收媒体记录并对媒体记录进行采样而开始。将该记录与数字化且归一化的参考信号片段相关，以获得每个所得到的相关片段的相关函数峰值，从而当相关函数峰值之间的间隔在预定界限之内时提供辨识信号，并且，与相关函数峰值一致的RMS功率值的模式(pattern)在来自数字化的参考信号片段的RMS功率值的模式的预定界限内匹配，如例如美国专利No.4,450,531中所述。因此识别匹配的媒体内容。此外，例如，媒体内容中的媒体记录的匹配位置由匹配的相关片段的位置、以及相关峰值的偏移给出。

在另一示例中，通常，可以通过识别或计算媒体样本的特性或指纹、并将指纹与之前识别的指纹相比较，来识别媒体内容。样本内的计算指纹的特定位置取决于样本中的可再现点。这样的可再现地计算的位置称为“界标”。界标在样本内的位置可以通过该样本自己确定，即，取决于样本质量并且是可再现的。也就是，每当重复该处理时，可以为相同的信号计算相同或类似的界标。加界标方案可以对于声音记录的每五秒而标记约5个或约10个界标；然而，加界标密度取决于媒体记录内的活动量。一种已知为“功率规范(PowerNorm)”的加界标技术是计算记录中的许多时间点处的瞬时功率，并选择局部最大值。这样做的一种方式是通过直接对波形进行整流和滤波而计算包络。另一种方式是计算信号的希耳伯特(Hilbert)变换(积分)，并使用希耳伯特变换和原始信号的平方大小的和。还可以使用用于计算界标的其它方法。

一旦已经计算了界标，就在记录中的每个界标时间点或其附近计算指纹。通过使用的指纹识别(fingerprinting)方法来定义特征与界标的接近。在一些情况下，如果特征清楚地对应于界标且不对应于前一或后一界标，则特征被认为接近界标。在其它情况下，特征对应于多个相邻界标。指纹通常是概括记录中在该时间点或其附近的特征的集合的值或值的集合。在一个实施例中，每个指纹是作为多个特征的哈希函数的单个数值。指纹的其它示例包括频谱片指纹、多片指纹、LPC系数、对数倒谱(cepstral)系数、以及频谱图峰值的频率成分。

可以通过对信号的任何类型的数字信号处理或频率分析来计算指纹。在一个示例中，为了生成频谱片指纹，在每个界标时间点的附近执行频率分析，以提取最高的几个频谱峰值。然后，指纹值可以是最强的频谱峰值的单个频率值。对于关于计算音频样本的特性或指纹的更多信息，请读者参见授权给Wang和Smith的标题为“SystemandMethodsforRecognizingSoundandMusicSignalsinHighNoiseandDistortion”的美国专利No.6,990,453，通过引用将其完整公开合并在此，如同在此说明书中完全提出一样。

因此，内容识别模块122可以接收样本并计算样本的指纹。内容识别模块122可以通过与附加辨识引擎通信来计算指纹。为了识别记录，内容识别模块122然后可以访问媒体记录数据库126，以通过生成等效指纹与媒体记录数据库126中的文件之间的对应关系以定位具有最大数目的线性地有关的对应关系、或者其特性指纹的相对位置最严密地匹配样本的相同指纹的相对位置的文件，来将样本的指纹与已知音频轨道的指纹相匹配。也就是，识别界标对之间的线性对应关系，并且根据线性地有关的对的数目而对集合评分。例如，当在容许容限内可以通过基板上相同的线性方程式描述统计上有效的数目的对应样本位置和文件位置时，可能存在线性对应关系。具有最高的统计上有效的评分(即具有最大数目的显性地有关的对应关系)的集合的文件是获胜的文件，并且被认为是匹配媒体文件。

作为识别媒体流内的内容的技术的另一示例，可以使用局部式匹配技术分析媒体样本以识别其内容。例如，通常，可以通过首先匹配源自各个样本的特定指纹对象而表征两个媒体样本之间的关系。为每个媒体样本生成指纹对象的集合，其中每个指纹对象发生在特定位置。取决于相应媒体样本的内容而确定每个位置，并且，每个指纹对象表征在相应特定位置或其附近的一个或多个局部特征。接下来，为每对匹配的指纹对象确定相对值。然后生成相对值的直方图。如果发现统计上有效的峰值，则可以将两个媒体样本表征为基本上匹配。另外，可以确定时间拉伸比率，其指示与原始音频轨道相比，音频样本已经被加速或减慢多少。对于对此方法的更详细说明，请读者参见授权给Wang和Culbert的标题为“RobustandInvariantAudioPatternMatching”的美国专利No.7,627,477，通过引用将其完整公开合并在此，如同在此说明书中完全提出一样。

另外，以上的出版物内描述的系统和方法可以不仅仅返回媒体流的标识。例如，使用授权给Wang和Smith的美国专利No.6,990,453中描述的方法，除了返回与识别的音频轨道关联的元数据之外，还可以返回媒体样本与识别的样本的起始的相对时间偏移(RTO)，其称为估计的所识别的媒体流位置T_S。为了确定记录的相对时间偏移，可以将样本的指纹与指纹所匹配的原始文件的指纹相比较。每个指纹出现在给定时间，因此，在匹配指纹以识别样本之后，(样本中的匹配指纹的)第一指纹与所存储的原始文件的第一指纹之间的时间差将是样本的时间偏移，例如进入到歌曲的时间量。因此，可以确定取得样本的相对时间偏移(例如67秒进入到歌曲)。其它信息也可以用于确定RTO。例如，直方图峰值的位置可以被认为是从参考记录的起始到样本记录的起始的时间偏移。

还可以取决于媒体样本的类型而执行其它形式的内容识别。例如，视频识别算法可以用于识别视频流(例如电影)内的位置。在Oostveen,J.等人的“FeatureExtractionandaDatabaseStrategyforVideoFingerprinting”(LectureNotesinComputerScience,2314,(2002年3月11日),117-128)中描述了示例视频识别算法，通过引用将其全部内容合并在此。例如，可以通过确定哪个视频帧被识别而推出视频样本在视频中的位置。为了识别视频帧，可以将媒体样本的帧分割为行和列的网格，并且，对于网格的每个块，计算像素的亮度值的平均值。可以将空间滤波器应用至所计算的平均亮度值，以推出网格的每个块的指纹比特。可以使用指纹比特来唯一识别帧，并且可以将指纹比特与包括已知媒体的数据库的指纹比特相比较或匹配。从帧提取的指纹比特可以称为子指纹，并且，指纹块是来自连续的帧的固定数目的子指纹。使用子指纹和指纹块，可以执行视频样本的识别。基于媒体样本包括哪个帧，可以确定视频中的位置(例如，时间偏移)。

此外，还可以执行其它形式的内容和/或位置识别，诸如使用加水印方法。例如，可以由位置识别模块120使用加水印方法以确定时间偏移，使得媒体流可以不时地嵌入水印，并且每个水印直接地、或经由数据库查询而间接地指定水印的时间或位置。替代地，如果媒体流包括直接地或间接地指示时间或位置偏移值的所嵌入的水印，则客户端设备104可以确定所渲染的媒体的样本的时间偏移，而无需与位置识别模块120通信。

在每个前述用于实施内容识别模块122的功能的示例内容识别方法中，识别处理的副作用可以是媒体样本在媒体流内的时间偏移(例如，所估计的识别的媒体流位置T_S)。因此，在这些情况下，位置识别模块120可以与内容识别模块122相同，或者，可以由内容识别模块122执行位置识别模块120的功能。

因此，用户可以从客户端设备104向位置识别模块120发送位置识别查询，位置识别模块120可以使用这里描述的任何技术来将与内容有关的信息返回至客户端设备104，并且可选地，可以访问内容识别模块122以识别内容。这里描述的示例实施例适用于任何类型的媒体流，诸如，预先记录的或实况音乐、音频、视频、音频和视频的组合、或者任何其它种类的遵循媒体流中的位置的时间线的媒体或事件序列。示例实施例还适用于任何格式的媒体流，诸如CD、DVD上的媒体、压缩数字媒体、MIDI文件、动画序列、控制序列、脚本、幻灯片等。

在其它示例中，客户端设备104或服务器106还可以访问媒体流库数据库128，以选择与所采样的媒体对应的媒体流，其然后可以被返回至客户端设备104以被客户端设备104渲染。媒体流库数据库128可以位于客户端设备104中或服务器106中，或者替代地，客户端设备104和服务器106中的任一者或两者均可以通过网络连接至媒体流库数据库128。在图1中，例如，媒体流库数据库128被示出为连接至服务器106。媒体流库数据库128中的信息、或者媒体流库数据库128自身也可以被包括在媒体记录数据库126中。

例如，媒体流库数据库128中的与媒体样本对应的媒体流可以被客户端设备104的用户手动选择、被客户端设备104编程地选择、或者被服务器106基于由内容识别模块122确定的媒体样本的标识选择。所选择的媒体流可以是与媒体样本不同种类的媒体，并且可以与由媒体渲染源102渲染的媒体同步。例如，媒体样本可以是音乐，而所选择的媒体流可以是歌词、音乐评分、吉他符号谱、音乐伴奏、视频、操纵木偶舞蹈、动画序列等，它们可以与音乐同步。例如，所选择的媒体流可以基于媒体样本的内容识别而确定。

在一些示例中，所选择的媒体流可以是与所识别的媒体流对应的歌词。所选择的媒体流可以替代地是任何类型的媒体流，诸如，电影、声轨、歌词、文本、视频剪辑、图片、幻灯片、文档等。在另外的示例中，媒体流可以是视频流，并且所选择的媒体流可以是视频流的声轨。另外，或者作为替代，媒体流可以是声轨，并且所选择的媒体流可以是电影。在另一实施例中，所选择的媒体流可以是第一媒体流的替代版本，例如不同语言的版本。或者，所选择的媒体流可以为与第一媒体流不同的分辨率，例如高清或7.1声道环绕声，使得通过同步所选择的媒体流，可以提供更高质量版本的第一媒体流。

客户端设备104可以接收所选择的与媒体样本对应的媒体流，并且可以与由媒体渲染源102渲染的媒体同步地渲染所选择的媒体流。

由媒体渲染源102渲染的媒体的估计时间位置可以由位置识别模块120确定，并且可以用于确定所选择的媒体流内的渲染所选择的媒体流的对应位置。客户端设备104然后可以与由媒体渲染源102渲染的媒体同步地渲染和表现所选择的媒体流。

客户端设备104可以包括位置跟踪模块130，以确保两个媒体流之间的精确同步。当客户端设备104被触发以捕获媒体样本时，从客户端设备104的参考时钟记录时间戳(T₀)。在任何时间t，从自服务器106接收的所估计的识别的媒体流位置T_S加上自时间戳的时间起经过的时间，确定估计的实时媒体流位置T_r(t)：

T_r(t)=T_S+t-T₀方程式(1)

T_r(t)是从诸如媒体流的起始的参考点到当前正在渲染的媒体流的实时位置的经过时间量。因此，使用T_S(即，基于所记录的样本而估计的从媒体流的起始到媒体流的位置的经过时间量)，可以计算T_r(t)。然后，客户端设备104可以使用T_r(t)来与由媒体渲染源102渲染的媒体同步地(或者基本上同步地)表现所选择的媒体流。例如，客户端设备104可以在时间位置T_r(t)、或者在诸如经过了时间量T_r(t)的位置开始渲染所选择的媒体流。

由于许多原因，位置跟踪可能丧失同步。在一个实例中，媒体渲染源102可能以非预期的速度渲染媒体流。例如，如果在未校准的唱机转盘或CD播放器上播放音乐记录，可以比预期的参考速度更快或更慢地播放音乐记录，或者，以与所存储的参考媒体流不同的方式播放音乐记录。或者，有时，DJ可以故意改变音乐记录的速度以达到特定效果，诸如匹配多个轨道之间的节奏。在这样的实例中，所估计的位置T_r(t)可能随着t增加而变得不准确，因此，所选择的媒体流可能丧失同步。作为参考速度的示例，预期CD播放器以每秒44100个样本来进行渲染；预期45RPM黑胶唱片在唱机转盘上以每分钟45转来播放；以及预期NTSC视频流以每秒60帧来播放。

在一些实施例中，为了减轻或防止所选择的媒体流丧失与由媒体渲染源102渲染的媒体的同步，可以根据速度调整比率R调整所估计的位置T_r(t)。例如，可以执行标题为“Robustandinvariantaudiopatternmatching”的美国专利No.7,627,477(通过引用将其全部内容合并在此)中描述的方法以识别媒体样本、所估计的识别的媒体流位置T_S、以及速度比率R。

为了估计速度比率R，计算匹配指纹的变化部分的跨频率比率(cross-frequencyratio)，并且，因为频率与时间成反比，所以跨时间比率是跨频率比率的倒数。跨速度比率R是跨频率比率(例如，跨时间比率的倒数)。

更具体地，使用上述方法，可以通过生成样本的时间-频率频谱图(例如，计算傅立叶变换以生成每帧中的频率面元)并识别频谱图的局部能量峰值，来表征两个音频样本之间的关系。提取与局部能量峰值有关的信息，并将该信息概括为指纹对象的列表，每个指纹对象可选地包括位置字段、变化成分、以及不变成分。然后可以匹配从各个音频样本的频谱图推出的特定指纹对象。为每对匹配的指纹对象确定相对值，例如，该相对值可以是各个音频样本的参数值的对数的商或差。

在一个示例中，从媒体样本的频谱图选择频谱峰值的局部对，并且每个局部对包括指纹。类似地，从已知媒体流的频谱图选择频谱峰值的局部对，并且每个局部对包括指纹。确定样本与已知媒体流之间的匹配的指纹，并且计算样本和媒体流的每个的频谱峰值之间的时间差。例如，确定样本的两个峰值之间的时间差，并将该时间差与已知媒体流的两个峰值之间的时间差相比较。可以确定这两个时间差的比率，并且可以生成包括这样的比率(例如，从匹配的指纹对提取)的直方图。可以将直方图的峰值确定为实际速度比率(例如，媒体渲染源102播放媒体的速度与渲染参考媒体文件的参考速度相比的比率)。因此，可以通过找到直方图中的峰值(例如，使得直方图中的峰值将两个音频样本之间的关系表征为相对音高、或者在线性拉伸的情况下表征为相对播放速度)而获得速度比率R的估计。

替代地，可以从来自样本和已知媒体流的匹配的指纹的频率值确定相对值。例如，确定样本的频谱图峰值对的锚点的频率值，并将该频率值与媒体流的频谱图峰值对的锚点的频率值相比较。可以确定这两个频率值的比率，并且可以生成包括这样的比率(例如，从匹配的指纹对提取)的直方图。可以将直方图的峰值确定为实际速度比率R。在方程式中，

R_{f} = \frac{f_{sample}}{f_{stream}}

方程式(2)

其中，f_sample和f_stream是匹配的指纹的变化频率值，如由Wang和Culbert的美国专利No.7,627,477所描述的，通过引用将其全文合并在此。

因此，可以使用来自两个音频样本的对应的变化成分而从匹配的指纹对象估计全局相对值(例如，速度比率R)。变化成分可以是从每个指纹对象的位置附近的局部特征确定的频率值。速度比率R可以是频率或时间增量(deltatime)的比率、或者一些其它导致对用于描述两个音频样本之间的匹配的全局参数的估计的函数。例如，速度比率R可以被认为作对相对播放速度的估计。

也可以使用其它方法来估计速度比率R。例如，可以捕获媒体的多个样本，并且可以对每个样本执行内容识别，以对于第k样本，在参考时钟时间T₀(k)获得多个估计的媒体流位置T_S(k)。然后，R可以被估计为：

R_{k} = \frac{T_{S} (k) - T_{S} (1)}{T_{0} (k) - T_{0} (1)}

方程式(3)

为了将R表现为随时间变化的，可以使用以下方程式：

R_{k} = \frac{T_{S} (k) - T_{S} (k - 1)}{T_{0} (k) - T_{0} (k - 1)}

方程式(4)

因此，可以使用在时间跨度上估计的时间位置T_S以确定媒体渲染源102渲染媒体的速度，来计算速度比率R。

使用速度比率R，可以将实时媒体流位置的估计计算为：

T_r(t)=T_S+R(t-T₀)方程式(5)

实时媒体流位置指示媒体样本的时间位置。例如，如果媒体样本来自具有四分钟长度的歌曲，并且如果T_r(t)是一分钟，则其指示该歌曲的一分钟已经经过了。

在其它示例中，客户端设备104或服务器106还可以访问媒体签署数据库132以获得签署文件或媒体记录(例如歌曲)。如所述的，签署文件可以包括在时间上映射的描述媒体记录的内容的特征的集合，该集合具有与媒体记录的时间线对应的时间维度，并且，每个特征可以是对在每个映射的时间点附近的内容的描述。歌曲的示例签署文件可以具有约5千字节到约10千字节的尺寸。媒体签署数据库132可以包括用于多个媒体记录的签署文件，并且可以被不断地更新为包括用于新媒体记录的签署文件。在一个示例中，例如，媒体签署数据库132可以包括用于在媒体记录数据库126中或在媒体流库数据库128中识别的每个媒体记录的签署文件。

响应于从客户端设备104接收的内容识别查询，服务器106可以访问一个或多个媒体记录数据库126以识别从中获得媒体样本的媒体记录，访问媒体流库数据库128以选择与媒体样本对应的媒体流，并且访问媒体签署数据库132以检索与识别的媒体记录对应的签署文件。服务器106然后可以将任何这样的信息返回至客户端设备104。

在将所识别的媒体记录的签署文件返回至客户端设备104的示例中，客户端设备104的连续性跟踪器118可以在未来的时间使用签署文件来验证捕获的媒体样本的识别。例如，连续性跟踪器118可以比较媒体样本和签署文件内的特征的对准性以在对应的时间识别媒体样本中的匹配的特征。当在预期位置处的特征对应关系停止出现时，可以标记中断。该中断可以触发动作发生，如以下所述。

客户端设备可以将媒体流的样本存储在样本缓冲器114中。当对媒体样本和签署文件执行特征比较时，可以随着时间推进而接收新样本并将其存储在缓冲器114中。

图1中的系统还可以包括与客户端设备104和/或服务器106分立的中断检测模块134，其例如使用无线或有线通信技术与客户端设备104和/或服务器106通信。在另一示例中，例如，中断检测模块134的功能可以可选地由客户端设备104的组件(例如，连续性跟踪器118)和/或服务器106的组件执行。

中断检测模块134可以检测由媒体渲染源102渲染的媒体流是否被非预期地中断。例如，这会在如下情况下发生：如果在媒体渲染源102上改变声道，或者如果某人停止媒体流的播出、或跳至媒体流中的不同位置。如果从媒体流库数据库128选择的媒体流将要继续播放，则两个媒体流将丧失同步或者不连贯。中断检测模块134可以或者停止所选择的媒体流、或者尝试将两个媒体流重新同步。因此，中断检测模块134可以验证所选择的媒体流是否被与由媒体渲染源102渲染的媒体流同步地渲染。

作为示例方法而如上所述的，可以通过执行周期性位置和/或内容识别采样以计算速度比率R，来实施中断检测模块134的功能，因此，中断检测模块134可以与服务器106通信。替代地，中断检测模块134可以与服务器106通信，或者访问媒体签署数据库132以检索所识别的媒体记录的签署文件，以执行对由媒体渲染源102渲染的媒体流的验证。如果在某些点上，内容识别不再成功、或者签署文件不包括与媒体流匹配的特征，则由媒体渲染源102渲染的媒体流已经停止或中断。或者，如果识别到不同的媒体流，那么或许改变声道、播放新轨道，等等。

为了确定由媒体渲染源102渲染的媒体流的中断，中断检测模块134可以周期性地从客户端设备104接收媒体样本，并对媒体样本执行指纹提取。中断检测模块134还可以从位置识别模块120接收包括签署文件的信息，签署文件包括遍及该媒体流的参考媒体流的多个指纹。中断检测模块134然后可以将从周期性地接收的媒体样本提取的指纹与签署文件中的指纹相比较，以确定由媒体渲染源102渲染的媒体流是否已经中断。中断检测模块134将期望在预定时间特定指纹出现在样本中，并且，如果未见所预期的指纹，那么可确定中断。例如，如果已经经过了特定量的时间且没有预定指纹匹配，那么可以确定中断。当未发现可识别的指纹匹配时，中断检测模块134可以确定媒体流已经中断或结束。

例如，还可以使用以上所述或如授权给Wang和Smith的美国专利No.6,990,453中描述的方法，来执行指纹匹配。

一旦确定中断的类型，中断检测模块134就可以进行几个事情中之一。在一个示例中，基于速度漂移的检测，中断检测模块134可以对速度比率R进行调整，以便执行媒体流的重新同步。在另一示例中，基于大中断的检测，中断检测模块134可以使用位置识别模块120以重新对准媒体流，以便执行媒体流的重新同步。在又一示例中，中断检测模块134可以使用内容识别模块122以检测新媒体流并选择不同匹配的媒体流和新媒体流内的新位置用以同步。在另一示例中，如果位置和/或内容识别失败，则中断检测模块134可以指示客户端设备104停止渲染所选择的媒体。

客户端设备104可以从中断检测模块134接收通知，然后停止播放所选择的媒体流，或者，例如，改为与从媒体渲染源102渲染的新媒体流同步地播放从媒体流库数据库128选择的新媒体流。

因此，中断检测模块134可以替代地执行、或者指示客户端设备104执行对从媒体流库数据库128选择的媒体与由媒体渲染源102渲染的媒体的对准的更新。中断检测模块134可以基于指纹与签署文件匹配的未对准，确定用以调整所选择的媒体在客户端设备104上的渲染的偏移值，使得将所选择的媒体与由媒体渲染源102对媒体流的渲染重新对准和同步。

替代地，如果中断检测模块134不再识别来自周期性地接收的媒体样本的指纹与签署文件中的指纹匹配，则中断检测模块134可以告知客户端设备104执行从媒体流库数据库128选择的媒体与由媒体渲染源102渲染的媒体的重新同步。这样做，客户端设备104可以重新执行捕获媒体的新样本并将新样本发送至位置识别模块120以确定时间偏移的方法。

另外，替代地，基于继续不存在指纹匹配，中断检测模块134可以确定不再渲染媒体流(例如，如果位置识别模块120未检测到匹配的时间偏移)，因此，例如，中断检测模块134可以指示客户端设备104停止渲染所选择的媒体、或者执行新内容识别。客户端设备104可以将新样本发送至内容识别模块122，以识别由媒体渲染源102渲染的新媒体流。如果所识别的媒体流已经改变，那么客户端设备104可以从媒体流库数据库128选择与要由客户端设备104同步地渲染的媒体样本对应的新媒体流。

II.签署数据库

图2图示了用于准备签署数据库的示例系统。系统包括媒体记录数据库202、特征提取模块204、以及媒体签署数据库206。

媒体记录数据库202可以包括媒体记录(例如，歌曲或视频)的多个拷贝、或至媒体记录的多个拷贝的引用。特征提取模块204可以耦接至媒体记录数据库202，并且可以接收媒体记录用于处理。图2概念地图示了从媒体记录数据库202接收音频轨道的特征提取模块。

特征提取模块204可以使用任何上述示例方法从媒体记录提取特征，以生成用于媒体记录的签署文件208。特征提取模块204可以将签署文件208存储在媒体签署数据库206中。媒体签署数据库206可以存储具有关联的标识符的签署文件，例如如图2中所示。

可以以批量模式执行签署文件的生成，并且，例如，可以将参考媒体记录的库预处理为对应的经特征提取的参考签署文件的库。可以将输入至特征提取模块204的媒体记录存储到缓冲器(例如，其中，将旧记录送出滚动缓冲器，并且接收新记录)中。可以提取特征，并且可以从媒体记录的滚动缓冲器的连续操作连续地创建签署文件，以便不表现出时间间隙，或者，如需要则在按需的基础上创建签署文件。在按需示例中，特征提取模块204可以按照需要从媒体记录数据库202中检索媒体记录，以响应于对于对应的特征的请求而提取特征。

在一个示例中，图1中的服务器106用于内容识别和辨识的特征可以与由特征提取模块204提取用于签署文件的特征相同或不同。在一个示例中，由特征提取模块204提取的特征和由图1中的服务器106用于内容识别的特征可以相同，并且，服务器106可以访问由特征提取模块204提取的特征以执行内容识别。

在一个示例中，然后，所得到的参考签署文件库可以被存储到媒体签署数据库206中，以便作为对于内容识别查询的返回结果分组的部分而被检索。

III.示例方法的概述

图3是根据这里描述的至少一些实施例的用于处理媒体的样本的示例方法的框图。图3中所示的方法300展示了例如可以被例如图1或图2中所示的系统使用且可以由诸如客户端设备或服务器的计算设备(或计算设备的组件)执行的方法的实施例。方法300可以包括一个或多个操作、功能、或动作，如由方框302-308中的一个或多个图示的。虽然以顺次的顺序图示了所述方框，但是这些方框也可以并行地、以及/或者以与这里描述的不同顺序执行。而且，可以将各个方框组合为更少的方框、分割为附加的方框、以及/或者基于期望的实施方式而移除。

另外，对于这里公开的方法300和其它处理和方法，流程图示出本实施例的一个可能实施方式的功能和操作。在这一点上，每个方框可以表现程序代码的模块、片段、或部分，其包括可由处理器执行用于实施处理中的特定逻辑功能或步骤的一个或多个指令。程序代码可以被存储在包括有形计算机可读介质的任何类型的制品上，例如，诸如包括磁盘或硬盘驱动的存储设备。计算机可读介质可以包括非瞬时计算机可读介质，例如，诸如短时段内存储数据的计算机可读介质，如寄存器存储器、处理器缓存和随机存取存储器(RAM)。例如，计算机可读介质还可以包括非瞬时介质，诸如二次或永久长期存储装置，如只读存储器(ROM)、光或磁盘、光盘只读存储器(CD-ROM)。计算机可读介质还可以是任何其它易失性或非易失性存储系统。计算机可读介质可以被认为是例如计算机可读存储介质或有形存储设备。

另外，对于方法300以及这里公开的其它处理和方法，图3中的每个方框可以表示被布线以执行处理中的特定逻辑功能的电路。

在方框302，方法300包括接收由媒体渲染源渲染的媒体流的媒体样本。例如，客户端设备可以使用诸如麦克风的输入接口接收周围环境的媒体的样本。

作为另一示例，服务器可以从客户端设备接收媒体的样本。在此示例中，客户端设备可以从周围环境中渲染的媒体捕获媒体的样本，并将样本发送至服务器。可以在内容识别查询内将样本发送至服务器，以请求对样本所捕获自的媒体的识别。

在方框304，方法300包括执行对样本的内容识别以确定与从中获得样本的媒体记录关联的信息。例如，客户端设备或服务器可以使用任何上述方法执行内容识别。另外，客户端设备可以通过将内容识别查询发送至服务器而执行内容识别。

在方框306，方法300包括对于从中获得样本的匹配媒体记录，接收签署文件，其包括在时间上映射的描述所述匹配媒体记录的内容的特征的集合。例如，客户端设备可以从客户端设备的存储器(其可以存储多个签署文件)、媒体签署数据库(例如，如图2中所描述的)、以及/或者从服务器接收签署文件。在特定示例中，客户端设备可以在内容识别查询中将样本发送至服务器，并且，服务器可以返回与从中获得样本的媒体记录关联的信息、以及所识别的媒体记录的签署文件。作为另一示例，服务器可以从媒体签署数据库接收签署文件。

可以基于在方框304执行的内容识别的结果来确定匹配媒体记录。例如，在样本是媒体流的一部分并且该部分匹配对应的媒体记录的多个版本(例如，歌曲的混音、歌曲的原版等)的实例中，可能发现多于一个媒体记录匹配样本。可以将用于每个匹配媒体记录的签署文件提供给客户端设备和/或服务器。

在一个示例中，服务器可以确定匹配样本的一组候选识别结果，并且可以向客户端设备返回用于每个识别结果的参考标识符、与参考记录内的样本的采样时间(例如，起始)的偏移对应的时间偏移T_s,k，以及可选地返回速度偏差(skew)比率R_k，其中k是第k个候选结果。对于该组中识别的每个候选参考记录，可以使用参考标识符从签署数据库中检索对应的参考签署并将其返回至客户端设备。

在方框308，方法300包括将每个接收的签署文件存储在存储器中。例如，客户端设备和/或服务器可以将接收的签署文件存储在存储器中用于稍后使用。

图4是根据这里描述的至少一些实施例的用于处理媒体的样本的另一示例方法的框图。图4中所示的方法400展示了例如可以对例如图1或图2中所示的系统使用且可以由设备(或设备的组件)或由服务器执行的方法的实施例。方法400可以包括一个或多个操作、功能、或动作，如由方框402-412中的一个或多个图示的。虽然以顺次的顺序图示了所述方框，但是这些方框也可以并行地、以及/或者以与这里描述的不同顺序执行。而且，可以将各个方框组合为更少的方框、分割为附加的方框、以及/或者基于期望的实施方式而移除。

在方框402，方法400包括接收由媒体渲染源渲染的媒体流的媒体样本。例如，客户端设备或服务器可以接收媒体流的样本，如以上图3中所述。

在方框404，方法400包括对于从中获得样本的匹配媒体记录，接收签署文件，其包括在时间上映射的描述所述匹配媒体记录的内容的特征的集合。例如，客户端设备或服务器可以接收签署文件，如以上图3中所述。

在方框406，方法400包括接收包括从媒体流提取的特征的签署流。例如，客户端设备可以经由输入接口(例如，麦克风)接收媒体流的递增的样本，并且可以提取这些样本的特征以生成对应的签署流增量。因为由媒体渲染源渲染的媒体流可能已经正在进行，所述每个递增的样本可包括在前一样本之后的时间的内容。例如，客户端设备可以将签署流的对应增量发送至服务器，使得服务器可以接收签署流。替代地，例如，客户端设备可以将签署流的对应增量发送至连续性跟踪器118，使得连续性跟踪器118可以接收签署流。

例如，可以使用任何上述用于提取样本的特征的方法，基于媒体流的样本生成签署流。

当媒体流是正在进行的媒体流时，可以在正在进行的基础上实时地生成签署流。以此方式，签署流中的特征的数目可随时间增加。

在方框408，方法400包括确定媒体流的签署流与用于至少一个匹配媒体记录的签署文件之间的特征是否随时间基本上匹配。例如，客户端设备或服务器可以将签署流中的特征与每个接收的签署文件中的特征相比较。可以通过将用于每个匹配媒体记录的签署文件内的时间位置与对应于第k个匹配媒体记录内的样本的采样时间(例如，起始)的偏移的时间偏移(T_s,k)对准、然后比较所对准的用于每个匹配媒体记录的签署文件与可从样本附近的媒体流的递增部分生成的签署流，来比较特征。这样，当实时地接收媒体流时，可以比较签署文件的预期对应于签署流中的特征的特征。

图5图示了示例时序图。在一个示例中，正在进行的媒体流可以由媒体渲染源随时间渲染。在时间T₀，客户端设备或服务器可以捕获或获得媒体流的样本。样本可以为任何长度，例如，诸如约5-10秒长度。可以对样本执行内容识别以识别从中获得样本的媒体记录(例如，识别媒体流内渲染的媒体记录)。可以将媒体记录存储在数据库中，如图1中所述，并且，可以将样本与所存储的记录相比较，以识别所存储的记录的匹配部分。客户端设备或服务器也可以捕获签署流。签署流可以包括随时间从媒体流提取的特征，因此，签署流可以包括在时间片段(T1,T2)内提取的特征。时间T1可以对应于获得样本的时间T₀。可以连续地生成签署流，使得时间T2接近或等同于当前时间t。可以将签署流存储在诸如先入先出(FIFO)缓冲器的缓冲器中，其中在预定量的时间之后(例如，在约5-10分钟之后)移除较旧的特征。

在一个示例中，可以从媒体流在获得样本的时间T₀开始的部分生成签署流。为了由于比较的目的而扩展区域，可以选择时间片段(T1,T2)，并且，可以将签署流在此时间片段内的部分与签署文件在对应的时间片段中的特征相比较。时间片段(T1,T2)可以包括在同步点(T₀)直至可用的签署流的最全范围之间的片段的部分(例如，基于媒体流的正在进行的渲染)。例如，如果从麦克风或数字广播接收器实时地捕获媒体流，则T₂的上限可以是当前实时。T₁的下限可以是已经缓冲了签署流的在时间上向后的最旧范围。例如，可以采取可用的缓冲时间范围的任何子集作为要扫描的时间片段(T₁,T₂)。

对于第k个候选参考签署文件，

T_r,k(t)=T_s,k+t-T₀方程式(6)

或者，如果使用速度补偿，则

T_r,k(t)=T_s,k+R_k*(t-T₀)方程式(7)

其中，T₀是指示记录样本的时间的时间戳，T_r,k(t)是与在时间t的媒体流的内容对应的第k个匹配媒体记录内的内容的相对时间偏移，T_s，k是第k个匹配媒体记录内的样本的采样时间(例如，起始)的时间偏移，并且R_k是指示基于媒体记录的参考速度的由媒体渲染源渲染媒体流的速度的时间尺度比率。在一些示例中，如果不提供这样的值，或者如果不需要速度补偿，则R_k=1。当t=T₀时，在同步点T₀的T_r,k(T₀)=T_s,k(其从在时间t=T₀的同步而得到)可被已知为内容识别的结果。

对于给定时间片段(T₁,T₂)，可以从签署流检索具有对应时间t_j使得T₁<t_j<T₂的特征F_j的集合。客户端设备或服务器可以在所对准的签署文件内确定基本上类似于F_j的特征(F’_j,k)是否出现在基本上类似于T_r,k(t_j)=T_s,k+R_k*(t_j–T₀)的时间(t’_j，k)。当F’_j,k在与F_j的预定偏差内并且t’_j,k在与T_r,k(t_j)的预定偏差内时，客户端设备或服务器可以确定匹配。

因此，对于所选择要被扫描的每个片段(T₁,T₂)，从签署流检索具有对应时间t_j使得T₁<t_j<T₂的特征F_j的集合。如果特征F_j出现在签署流内的时间t_j，并且如果第k个候选参考签署文件在时间t_j匹配签署流，那么在对应的参考签署文件内，将预期基本上类似的特征F’_j，k出现在基本上类似于T_r,k(t_j)=T_s,k+R_k*(t_j–T₀)的时间t’_j,k。当F’_j,k在与F_j的预定偏差内并且t’_j,k在与T_r,k(t_j)的预定偏差内时，认为匹配出现。在一个示例中，对于时间维度

|t’_j，k-T_r,k(t_j)|=|t’_j，k-T_s,k+R_k*(t_j–T₀)|<δ_t方程式(8)

其中，δ_t是时间容限值(例如，时间符号t、t_j、T₀、T₁、T₂出现在媒体流的时间坐标中，而符号T_r,k、T_s,k和t’_m,k出现在第k个候选参考签署文件的时间坐标中)。时间容限δ_t的示例值可以是约10毫秒至约100毫秒。

在一个示例中，如果特征F_j是标量值，那么

|F_j-F’_j,k|<δ_F方程式(9)

其中，δ_F是特征容限值。标量特征的示例是频谱图峰值的频率，并且，特征容限值(δ_F)的值的示例包括约5Hz至约20Hz。

在一个示例中，如果特征是非标量对象，那么可以评估合适的距离度量，诸如

D(F_j,F’_j，k)<δ_F方程式(10)

示例非标量特征可以包括连接的频谱图峰值坐标的具有两个或三个频率值的矢量，如由Wang和Smith在美国专利No.6,990,453(通过引用将其全文合并)中所述。在这样的情况下，距离度量可以是从频率坐标确定的欧几里德距离度量。非标量特征的另一个示例包括频谱图峰值位图光栅，如由Haitsma在美国专利申请公布No.2008/0263360(通过引用将其全文合并)中所述。在这些情况下，可以计算公共比特的数目，并且，如果获得预定阈值数目的匹配比特，则可以认为特征匹配，在该情况下，度量D(F_j,F’_j,k)可以被最大化、而非最小化。

参考回图4，在方框410，方法400包括基于匹配特征的数目识别匹配媒体记录。例如，客户端设备或服务器可以被配置为确定在媒体流的签署流与用于至少一个匹配媒体记录的签署文件之间的匹配特征的数目，并且对每个签署文件的匹配特征的数目进行排序。具有最高数目的匹配特征的签署文件可以被认为匹配，并且被签署文件识别或参考的媒体记录可以被识别为从中获得样本的匹配的记录。

在一个示例中，可以可选地在方框410之后重复方框408，使得可以重复地比较签署流与签署文件之间的特征。当在第k个候选参考签署文件中的预期位置发现匹配的F’_j,k和t’_j,k时，累积支持成功匹配的媒体记录的继续同步的证据。可以存储在片段(T₁,T₂)上的每个匹配的位置。可以在片段(T₁,T₂)内、或者与从处理较早片段的结果整合地处理证据的累积。

为了在片段(T₁,T₂)内处理，例如，可以对于发现的每个匹配而递增对于片段的评分，并且可以确定匹配的总数目。如果片段的粒度具有与确定同步的期望粒度类似的尺寸，则可以使用此方法。例如，如果同步的所期望的时间分辨率为约500ms，那么缓冲器可以大约每500ms捕获媒体流的部分，然后进行分析以计数匹配特征的数目。可以从来自所有片段的计数而确定总评分。

累积片段(T₁,T₂)或总计的结果中的证据的另一示例方法可以是准备密度图。例如，可以将匹配的位置与密度内核卷积以实现密度图。累积证据的另一方法可以是观测(T₁,T₂)或总计的结果中的最近的特征匹配时间的位置。可以将特征计数、匹配长度、或密度解译为评分。还可以考虑匹配的质量。如果时间上或特征空间上的距离度量具有高值，那么对评分的贡献可能根据该距离而被逆加权，即，较差的匹配将导致较低的评分贡献。许多其它用于评估匹配特征的模式的方法也是可能的。

通常，签署流之外的时间片段的任何模式、子集、序列可以用于测试、跟踪和扩展相对于参考签署文件的同步的已知连续性范围。被扫描的每个片段可以增加关于签署流中的特征(从而以及媒体流中的特征)与第k个参考签署文件中的特征匹配得多好的知识。片段验证的总计结果可以用于提供对应于媒体流或参考签署文件的时间坐标的时间线上的同步范围的图。

在一个示例中，对于每个候选签署文件，可以对签署流的被选择来向前和/或向后扩展预定时间量的(T₁,T₂)执行验证。如果签署流缓冲器在时间上向后扩展足够远，则可以选择T₁对应于签署文件的采样时间(例如，起始)，否则，可以选择签署流缓冲器中的最早可用时间。类似地，可以选择T₂对应于参考签署文件的末尾、或最近可用时间(例如，当前时间)。在一个示例中，在样本的末尾之后以及在内容识别已经已经返回了结果之前已经经过了一些时间，因此，可以捕获附加的样本，并且可以将附加的特征提取并存储到签署流缓冲器中，使得T₂可以在样本片段的末尾之外直到候选参考签署文件的对应末尾为止。

在另一示例中，可以在样本片段的末尾之后将评估延迟预定时间量，以允许收集进一步的样本用于验证。例如，用于内容识别的样本片段可以是约五秒长。可以将时间T₂设置为在样本片段的末尾之后的更多五秒。此外，对于约20秒的总计时间片段，时间T₁可以被设置为在T₀之前的约10秒。因此，可以将签署流的20秒与每个候选签署文件的直至约20秒相比较以验证与每一个的匹配。

在另一示例中，可以对被选择为跨越对应的参考签署文件的预期范围的时间片段(T1,T2)执行验证。第k个候选参考签署文件可以指示对应的参考媒体记录的长度L_k。长度L_k和时间偏移T_s,k可以使能对片段(T1,T2)的确定：

T₁=T₀-T_s,k/R_k方程式(11)

T₂=T₀+(L_k-T_s,k)/R_k方程式(12)

其中，T1对应于媒体流中的参考媒体记录的预期的起始，而T2对应于预期的末尾时间。以此方式，例如，可以验证参考媒体记录的整个长度。T1和T2值可以是远端极限(distallimit)，并且可以根据签署流的可用缓冲部分而调整。也可以使用(T1,T2)的任何子集。对长度进行考虑允许选择例如沿着整个长度预期特征匹配的更精确的样本片段。

在另一示例中，为了连续性，可以使用相邻且递增的时间片段，以随着时间片段变为可用，迭代地扫描签署流，来实时地执行对所识别的媒体流的验证。例如，可以从T₀开始直到当前实时为止，选择一秒的时间增量，并且，可以通过每当已经收集了签署流的附加的全缓冲时段时都在签署流上进行迭代，来执行验证。在替代的示例中，如果在T₀之后的一些时间开始第一迭代，则可以从起始点直至可用当前实时位置，执行追赶式(catch-up)扫描步骤，然后可以在捕捉之后使用一秒的迭代时间增量。例如，给定起始点可以是T₀。另一可能起始点可以是媒体流内的参考媒体记录(签署文件参考其)的预测的起始点。这可以在T_r,k(t)=0，即t=T₀-T_s,k/R_k时发生。因此，用于验证的时间片段还可以在时间上从同步点T₀向后延伸。

再次参考图4，在方框412，方法400包括当媒体流的签署流与用于匹配媒体记录的签署文件之间的基本上匹配的特征停止出现时，识别中断。在一个示例中，客户端设备或服务器可以不断地比较签署文件与更新的签署流，并且，当特征之间的匹配停止出现时，可以标记所识别的媒体记录与媒体流之间的中断。在一个示例中，当匹配特征的密度随时间落在预定阈值之下时，或者如果不再发现匹配的特征，则基本上匹配的特征可能停止出现。可以使用时间延迟的阈值量(例如，在最后已知的同步点(在匹配的特征处)之外约2-5秒)，以考虑匹配媒体记录可能由于暂时盖过信号的噪声而模糊的可能性。最后已知的同步点可以被认为是匹配部分的终点。对于第k个候选参考媒体记录的同步(基于对应的签署文件)可以被认为在到达签署流中对应于第k个参考签署文件的末尾的点时结束。当对于第k个候选签署文件而认为丧失同步时，可以标记第k个候选签署文件，并将其从用于匹配的进一步考虑中移除。

在一个示例中，可以可选地在方框412之后重复方框408，使得可以重复地比较签署流与签署文件之间的特征，以确定基本上匹配的特征何时或是否停止出现。

上述示例模块(包括客户端设备和服务器)和示例方法可以用于各种应用中，其中一些应用将在下面更详细描述。

IV.假肯定检测

图6是根据这里描述的至少一些实施例的、包括执行假肯定检测的用于处理媒体的样本的示例方法的框图。图6中所示的方法600展示了例如可以对例如图1或图2中所示的系统使用、并且可以由设备(或设备的组件)或由服务器执行的方法的实施例。方法600可以包括一个或多个操作、功能、或动作，如由方框602-612中的一个或多个图示的。虽然以顺次的顺序图示了所述方框，但是这些方框也可以并行地、以及/或者以与这里描述的不同顺序执行。而且，可以将各个方框组合为更少的方框、分割为附加的方框、以及/或者基于期望的实施方式而移除。

在方框602，方法600包括发送包括由媒体渲染源渲染的媒体流的样本的内容识别查询。例如，客户端设备可以捕获媒体流的样本，并且可以将样本发送至服务器。

在方框604，方法600包括接收与从中获得样本的媒体记录关联的信息。例如，服务器可以执行对样本的内容识别，并且可以将与内容识别关联的信息返回至客户端设备。在替代示例中，客户端设备可以执行对样本的内容识别(在该情况下，可以从方法600中省略方框602)。

在方框606和608，方法600包括对于从中获得样本的匹配媒体记录，接收包括在时间上映射的描述所述匹配媒体记录的内容的特征的集合的签署文件，并且接收包括从媒体流提取的特征的签署流。方框606和608可以类似于如图4内所述的方框404和406。

在方框610，方法600包括确定签署流与签署文件之间的特征是否基本上匹配。方框610可以类似于以上图4内所述的方框408。

在方框612，如果签署流与签署文件之间的特征基本上匹配，则方法600包括提供参考媒体记录是准确的通知。例如，可以在与在方框604接收的媒体记录关联的信息内指示参考媒体记录，以识别从中获得样本的媒体记录。因此，如果签署流(其是在包括收集样本之前、期间和之后的时间从媒体流收集的)之间的特征沿着用于参考媒体记录的签署文件而匹配所述签署文件中的特征，那么在媒体流内渲染参考媒体记录。因此，客户端设备可以提供指示对被媒体流渲染的媒体记录的识别的通知。

在方框614，如果签署流与签署文件之间的特征不是基本上匹配，则方法600包括提供参考媒体记录不再有效的通知。例如，最初，客户端设备可以接收识别从中获得样本的媒体记录(即由媒体渲染源渲染的媒体记录)的信息。接着，可以在签署流中获得关于媒体流的附加信息，并且，在稍后的时间点，当媒体渲染源不再渲染参考媒体记录、或者最初识别了错误版本时，签署流中的特征或许不匹配签署文件。因此，客户端设备可以在参考媒体记录不再有效时提供通知。

可以执行方法600以在内容识别之后验证候选匹配结果的准确性并检测假肯定。在一个示例中，内容识别系统可以选择最高评分的候选，并通过在稍后的时间使用后续获得的样本执行附加的计算内容识别来验证所选择的候选。然而，在另一示例中，使用图6中的方法600，可以在不执行附加计算内容识别的情况下验证内容识别。

在一个示例中，在内容识别系统中(即，诸如在任何上述示例系统中)，在评分阈值附近可能存在在具有较低辨识率与校高假肯定率之间的折衷。如果阈值降低，那么辨识率和假肯定率两者均可增加；相反，更高的阈值会导致较低辨识率、但较少的假肯定。可以通过增加样本记录时间(例如增加样本的尺寸)来降低假肯定内容识别。然而，更长的采样时间会导致更高的对于结果的等待时间。示例内容识别系统可以使用具有对于内容识别的较低阈值或较短采样时间的技术，其会导致较高假肯定，但是，示例内容识别系统可以通过执行图6中的方法600来验证并修正辨识。

方法600可以用于在原始样本周围的扩展区域中验证(例如，使用签署流)是否在所报告的内容识别的结果的参考签署文件中的预期位置中出现足够密度的匹配特征。如果在所述扩展区域中发生连续性的丧失，那么可以标记假肯定，并且可以在客户端设备上采取适当动作，诸如撤销识别结果。在内容识别之后，如果在扩展区域中最初检测到良好的连续性，之后在某阈值量的时间内丧失连续性，那么另一中断可以是所识别的内容已经结束、或者另外不再在媒体流中表现。例如，这可能在在执行对从收音机播放的音乐的内容识别之后关闭收音机或改变收音机频道的情况下发生。在这样的情况下，内容识别最初可被认为有效，之后是例如内容识别不再有效的通知。

V.多个媒体记录版本的消歧

在一个示例中，图6中的用于假肯定检测的方法600还可以提供用于在媒体记录的多个版本之间进行消歧。例如，由于可用的所记录的工作的不同编辑版本，基于内容识别，多个候选结果可以是对样本的合理匹配。在一个实例中，媒体流内容可以包括诸如歌曲的无线电混音、舞蹈混音、或集锦曲版本的媒体记录，并且，样本(其在时间或长度上可能较短)可以匹配于媒体记录的这些版本中的每一个。

通过考虑多个后续内容识别结果并在签署流内的扩展时间区域中和周围进行扫描以用于验证，例如，如果参考签署文件的子集相对于进一步将匹配特征扩展到签署流中的另一子集而停止展现出匹配特征，则可以检测到匹配媒体记录的版本的分歧。例如，可以将每个候选参考签署文件沿着其长度相对于签署流的可用范围来进行验证，以寻找最长连续性范围以及匹配特征的最高密度。具有最长连续性长度或匹配特征的最高密度评分的版本可以被认为是获胜者，并且可以取代客户端设备上播放的之前的内容识别获胜者。

在一个示例中，在对多个媒体记录版本进行消歧时，如果参考媒体记录具有重复的内容(例如重复的合唱)，则样本可以在多个点匹配参考媒体记录。在这样的实例中，通过使得内容识别模块返回对于每个匹配偏移的候选匹配(例如，寻找多个交叉相关峰值、高位图光栅匹配评分的点、或多个时间差直方图峰值)，可以检测多个同步点。当扫描到更多媒体流上下文时，在不准确的偏移的候选可能最终与跟踪分歧，并且可以被标记并从考虑中消除。

图7是根据这里描述的至少一些实施例的、包括在多个匹配媒体记录之间消歧的用于处理媒体的样本的示例方法的框图。图7中所示的方法700展示了例如可以对例如图1或图2中所示的系统使用、并且可以由设备(或设备的组件)或由服务器执行的方法的实施例。方法700可以包括一个或多个操作、功能、或动作，如由方框702-712中的一个或多个图示的。虽然以顺次的顺序图示了所述方框，但是这些方框也可以并行地、以及/或者以与这里描述的不同顺序执行。而且，可以将各个方框组合为更少的方框、分割为附加的方框、以及/或者基于期望的实施方式而移除。

在方框702和704，方法700包括接收与从中获得样本的可能的匹配媒体记录对应的多个签署文件，并接收包括从媒体流提取的特征的签署流。方框702和704可以分别类似于图4内所述的方框404和406。

在方框706，方法700包括确定签署流与签署文件之间的特征是否随时间基本上匹配。方框706可以类似于如图4内所述的方框408。如果在签署流与签署文件之间没有特征匹配，那么方法700结束。

如果签署流与签署文件之间的特征基本上匹配，则在方框708，方法700包括确定是否多个签署文件匹配。例如，在歌曲的多个版本具有对于样本的匹配部分的实例中，多个签署文件可以匹配于签署流。在方框710，如果并非多个签署文件匹配，那么方法700包括识别对与给定签署文件对应的媒体记录的识别。

如果多个签署文件匹配，则在方框712，方法700包括将包括最长连续性长度的匹配特征或最高数目的匹配特征的给定签署文件识别为匹配。接着，可以确定与给定签署文件对应的媒体记录的识别。

在一个示例中，使用方法700，可以将签署文件与签署流相比较以找到具有最高数目的匹配特征或最长连续性长度的匹配特征的签署文件。这可以用于确定例如整个轨道是否匹配于签署文件。可以丢弃作为可能的匹配而接收的其余数目的签署文件。

在一个示例中，服务器可以包括或访问媒体记录的数据库。数据库可以包括记录的副本，并且，方法700可以用于识别数据库中的副本，该副本然后可以从数据库删除。

图8图示了示例时序图。媒体渲染源可以以正在进行的方式渲染媒体流。图8图示了可以被生成以与所接收的签署文件相比较的签署流的示例。初始地，可以在时间片段(T1,T2)内生成第一签署流增量。可以在渲染媒体流期间周期性地(例如每秒)获得签署流的后续增量，以便从媒体流获得附加特征用以与签署文件相比较。在一个示例中，将签署流存储在缓冲器中，并且将后续增量添加至缓冲器，使得签署流随时间增长，如图8中所示。缓冲器可以存储预定量的签署流，其可以包含整个媒体记录，例如，诸如约3-60分钟的长度。

通过从媒体流生成较大签署流，可以从同步点T₀(例如，获得样本的时间)在时间上向前且向后直到找到丧失连续性的起始和结束点为止，验证签署文件的连续性的已知区域。

在一个示例中，如果存在来自内容识别结果的多个候选匹配，则可以在时间上向前且向后直到在一个或两个方向上丧失连续性为止，将每个候选签署文件与存储的签署流相比较。对于每个候选签署文件，可以从连续性端点之间的时间差、并且还可以通过考虑速度比率R_k，来确定匹配部分的连续性长度。具有最长连续性长度的候选签署文件可以被认为是最佳匹配文件。

VI.多个从媒体流的动态消歧

在另一示例中，这里所述的系统和方法可以提供对主媒体流与通过内容识别而选择的一组候选从媒体流之间的同步进行消歧的方式，并且，与主媒体流同步地渲染至少一个最佳匹配从媒体流。

在一个示例中，客户端设备可以接收从媒体流，并且可以与由媒体渲染源渲染的主媒体流同步地渲染从媒体流。客户端设备可以被配置为接收或确定从媒体流获得的样本的时间偏移，其指示媒体流中与样本的采样时间对应的时间位置。客户端设备还可以被配置为接收或确定时间尺度比率，其指示基于媒体流的参考速度的由媒体渲染源渲染媒体流的速度。然后，使用实时时间戳、媒体样本的时间戳、时间偏移、以及可选地使用时间尺度比率，确定指示当前时间的实时偏移。可以使用上述方程式(1)或方程式(5)来计算实时偏移。然后，客户端设备可以在对应于实时偏移的位置渲染第二媒体流(例如从媒体流)，以与由媒体渲染源渲染的媒体流(例如主媒体流)同步。客户端设备可以接收第二媒体流，或者例如可以基于由媒体渲染源渲染的媒体流的标识，从存储器或从数据库选择第二媒体流。第二媒体流可以与由媒体渲染源渲染的媒体流有关。

示例主媒体流可以包括歌曲，而示例从媒体流可以包括可以与歌曲同步地显示的经时间注释的歌词。以此方式，客户端设备可以显示与由第二设备或媒体渲染源播放的歌曲同步的歌曲歌词。因此，第一设备的用户可以实时地观看与识别的周围音乐对应的歌词。可以在与周围音乐同步的时间位置显示歌词文本。

图9图示了用于识别媒体流、以及将数据与所识别的媒体流进行同步的系统的示例。在图9的系统中，媒体流可以是歌曲，并且，系统可以被操作以使用客户端设备904捕获由随机的媒体渲染源902渲染的歌曲的样本，并且识别样本的时间偏移并接着在客户端设备904上提供歌曲的歌词的同步显示。

客户端设备904可以用于从媒体渲染源902捕获歌曲的样本，然后经由无线或有线通信将样本发送至服务器906。客户端设备904和服务器906的操作可以类似于图1中所述的客户端设备104和服务器106。服务器906可以被配置为从客户端设备904接收样本并使用这里所述的任何方法执行内容识别。关于歌曲的信息以及包括歌曲的歌词的批处理文件可以被发送至客户端设备904，如图9中所示。信息的一部分可以包括所估计的识别的媒体流位置T_S，客户端设备904可以使用该位置T_S计算所估计的实时媒体流位置T_r(t)。所估计的识别的媒体流位置T_S是所识别的音频轨道的长度内与音频样本的采样时间(例如，起始)对应的时间。歌词可以是经时间注释的歌词908，其包括有关歌词的每行或字的媒体流时间位置的信息。在一个示例中，可以将歌词包括在XML文件中，该XML文件包括包含注释的时间字段，或者，时序信息可以以其它方式嵌入在歌词中。客户端设备904可以在时间位置T_r(t)渲染歌词，使得可以与由媒体渲染源902渲染的歌词同步地(例如，在相同或大约相同的时间)显示歌词的文本。替代地，服务器906可以不在一文件中将歌曲的全部歌词都发送至客户端设备904，而是可以与由媒体渲染源902渲染的歌曲同步地将歌词流式传输(stream)至客户端设备904。

使用这里所述的方法，在所同步的候选从媒体流的版本或偏移与内容识别结果分歧的示例中，可以识别最佳匹配的从媒体流。可以标记不准确的从媒体流，并将其从跟踪的候选组中删去。对于第k个候选从媒体流，除了第k个媒体流内的样本的偏移T_s,k、以及可选的速度比率R_k之外，还可以提供与第k个从媒体流时间对准的对应的从参考签署文件。如果第k个从媒体流是当前最佳匹配，那么在如方程式(7)中所述的对应时间偏移，显示该从媒体流。

图10是根据这里描述的至少一些实施例的、包括在多个匹配的从媒体记录之间消歧的用于处理媒体的样本的示例方法的框图。图10中所示的方法1000展示了例如可以对例如图1、图2或图9中所示的系统使用、并且可以由设备(或设备的组件)或由服务器执行的方法的实施例。方法1000可以包括一个或多个操作、功能、或动作，如由方框1002-1016中的一个或多个图示的。虽然以顺次的顺序图示了所述方框，但是这些方框也可以并行地、以及/或者以与这里描述的不同顺序执行。而且，可以将各个方框组合为更少的方框、分割为附加的方框、以及/或者基于期望的实施方式而移除。

在方框1002，方法1000包括接收由媒体渲染源渲染的媒体流的样本。在方框1004，方法1000包括接收与由媒体渲染源渲染的媒体流有关的多个候选第二媒体记录。例如，参考图1，可以提供媒体流库数据库128，其包括具有与媒体记录数据库126中的媒体记录有关的参考标识符的媒体流。在一个示例中，在媒体流是歌曲的情况下，候选第二媒体记录可以是歌曲的歌词。接收的候选第二媒体记录的数目可以变化，并且各自可以被认为是肯定匹配。

在方框1006，方法1000包括基本上与由媒体渲染源渲染的媒体流同步地渲染所述多个候选第二媒体流中的最佳候选匹配。例如，客户端设备可以基于每个候选的匹配评分而确定所述多个候选内的最佳匹配候选，然后可以渲染最佳候选歌词以基本上与歌曲同步。

在方框1008和1010，方法1000包括为每个候选接收包括在时间上映射的描述匹配媒体记录的内容的特征的集合的签署文件，以及接收包括从媒体流提取的特征的签署流的附加时间增量。方框1008和1010可以类似于如图4内所述的方框404和406。

在方框1012，方法1000包括为每个候选确定签署流与对应的签署文件之间的特征是否随时间基本上匹配。方框1012可以类似于如图4内所述的方框408。当签署流与签署文件之间的特征随时间基本上匹配时，在方框1014，方法1000包括继续与媒体流基本上同步地渲染第二媒体记录。

当签署流与签署文件之间的特征并非基本上匹配时，在方框1016，方法1000包括中止与媒体流基本上同步地渲染第二媒体记录。在一个示例中，最初基于内容识别结果，签署文件不匹配于媒体流(基于样本)；然而，如果在方框1012，签署流与签署文件之间的特征不匹配，那么媒体流可能已经终止。例如，这可在关闭收音机或者改变频道的情况下发生。如果意外地丧失了连续性，并且客户端设备正在渲染从媒体流，那么从媒体流可能相应地终止。这可以在如下示例中执行：正在将歌词或音乐视频与周围音乐同步，然后音乐被关闭；然后，阻止歌词仿佛音乐正在继续一样而继续被显示。

在方框1018，方法1000包括基本上与媒体流同步地渲染下个最佳候选第二媒体记录。例如，在方框1010接收签署流的附加时间增量之后，已知附加证据，其用于比较签署流的新增量与签署文件以寻找预期位置中的预期特征。当候选匹配停止匹配时(诸如在方框1016所示)，这样的候选匹配对于未来对媒体流使用来说是不合格或无效的。一旦之前是最佳匹配的候选不再随时间基本上匹配，便可以选择下个最佳候选匹配(如在方框1016所示)。

使用方法1000，例如，提供对主媒体流与(例如，由系统通过内容识别而选择的)一组候选从媒体流之间的同步进行消歧的方式。在同步的候选从媒体流的版本或偏移与内容识别分歧的情况下，方法1000可以用于动态地确定哪个从媒体流和偏移是最佳匹配。可以将被标记为不再被同步地不准确的从流从被跟踪的候选组中删去。对于第k个候选，除了第k个媒体流内的样本的偏移T_s，k、以及可选的速度比率R_k之外，还将与第k个从媒体对象时间对准的对应的从参考签署提供至连续性检测模块。然后，可以与主媒体流同步地渲染最佳匹配的从媒体流。如果第k个从媒体流是当前最佳并且被显示，则在主媒体流时间t，在第k个从媒体流时间坐标内，在对应时间偏移T_r，k(t)=T_s,k+R_k*(t-T₀)渲染第k个从媒体对象。如果将新的从媒体流确定为最佳匹配，那么例如代替之前的从媒体流，对应的新的从媒体流被插入并被渲染。

在示例歌词同步系统中，可以显示歌词的多行，包括歌词的在时间上超前的即将到来的行。在存在多个版本或多个偏移的情况下，如果已知即将来临的同步分歧正在接近，则可以将超前的行显示窗口窄化，以便在分歧版本分支点之后禁止显示分歧或相异的歌词。一旦到达分歧点，不准确的版本或偏移可以不再被考虑。只要确定了准确的版本，那么例如就可以允许超前的歌词显示用消歧的歌词版本重新补充。

VII.媒体流的重新同步

在一个示例中，如果丧失在主媒体流与从媒体记录之间的同步，那么可以执行尝试重新获取同步的附加阶段。可以通过被跟随(follow)的媒体记录内的内容识别或位置识别来执行重新同步。可以尝试重新同步，以将主媒体流与从媒体流进行重新同步，以在恢复主媒体流时在适当位置恢复从媒体流的渲染。例如，可以每几秒执行重新同步。

在一个示例中，在主媒体流未被改变、而是被暂停的情况下，可以执行位置识别以重新获取从媒体流的同步。例如，可以从内容识别结果获知主媒体流中渲染的记录的标识，然而，记录在媒体流中的时间偏移可能已经丢失。可以使用匹配媒体记录的参考签署文件执行位置识别，以识别已知记录在媒体流中的时间偏移。

图11是根据这里描述的至少一些实施例的、包括在多个匹配的从媒体记录之间消歧的用于处理媒体的样本的示例方法的框图。图11中所示的方法1100展示了例如可以对例如图1、图2或图9中所示的系统使用、并且可以由设备(或设备的组件)或由服务器执行的方法的实施例。方法1000可以包括一个或多个操作、功能、或动作，如由方框1102-1112中的一个或多个图示的。虽然以顺次的顺序图示了所述方框，但是这些方框也可以并行地、以及/或者以与这里描述的不同顺序执行。而且，可以将各个方框组合为更少的方框、分割为附加的方框、以及/或者基于期望的实施方式而移除。

在方框1102、1104和1106，方法1100包括：接收由媒体渲染源渲染的媒体流的样本；对于从中获得样本的匹配媒体记录，接收包括在时间上映射的描述所述匹配媒体记录的内容的特征的集合的签署文件；以及接收包括从媒体流提取的特征的签署流。方框1102、1104和1106可以分别类似于如例如图4内所述的方框402、404和406。

在方框1108，方法1100包括基于签署文件与签署流的比较，识别媒体流对于匹配媒体记录的时间偏移。例如，可以通过基于各个匹配特征搜索预期位置中的多个匹配特征，来执行搜索，以通过周期性地扫描用于对应关系匹配的签署文件而检查媒体记录与媒体流的对应关系。在特定示例中，可以验证匹配的特征的线性对应关系(如Wang和Smith的美国专利No.6,990,453中所述，通过引用将其全文合并在此)。例如，当计算预期位置时，可以考虑速度比率R_k。

在方框1110和1112，方法1100包括接收与由媒体渲染源渲染的媒体流有关的第二媒体记录，以及基本上与由媒体渲染源渲染的媒体流同步地渲染第二媒体记录。例如，方框1110和1112可以类似于如图10中所述的方框1004和1006。可以在与所识别的所述匹配媒体记录的时间偏移对应的位置渲染第二媒体记录，使得第二媒体记录和在媒体流中渲染的媒体记录同步(或者基本上同步)。

在一个示例中，用户可能正在观看数字视频录像机(DVR)并且可暂停和重启客户端设备已经识别并与DVR同步地渲染第二媒体记录的记录。一旦暂停DVR，第二媒体记录就将丧失同步。例如，客户端设备可以被配置为执行方法1100以将第二媒体记录与DVR重新同步。客户端设备可以被配置为通过使用签署文件和接收的签署流执行位置识别而连续监控匹配媒体记录的时间偏移，以维持所渲染的第二媒体记录的同步。

在另一示例中，如果将新的从媒体记录判定为最佳匹配，那么对应的新的从媒体记录可以取代之前渲染的从媒体记录。例如，如果广播站被改变并且新媒体记录被媒体渲染源渲染，则可以执行新内容识别。在示例歌词同步系统中，可以显示歌词的多行，包括歌词的超前的即将到来的行。如果已知即将来临的分歧即将出现，则可以将超前的行显示窗口窄化，以便在分歧版本分支点之后禁止显示分歧或相异的歌词。一旦到达分歧点，不准确的版本或偏移可以不再被考虑。只要确定了准确的版本，那么就可以允许超前的歌词显示用消歧的歌词版本重新补充(refill)。

VIII.同步调整

在另一示例中，在内容识别中，可以基于短样本(例如，约5-10秒长的样本)确定速度比率R_k的估计。速度比率R_k指示主流相对于参考记录的相对速度。在一个示例中，可以使用签署文件和签署流的匹配特征的位置来确定或更新速度比率R_k。例如，可以通过对匹配特征的位置应用最小平方估计来更新速度比率R_k。在一个示例中，可以应用反馈系统，其基于误差维持对准，诸如Haykin、Simon的“AdaptiveFilterTheory”(4thEdition,NewJersey,PrenticeHall2001)所述。

在一个示例中，可以从小尺寸(例如，约5-10秒长)的样本估计用于连续性跟踪的初始参数。随着媒体流的更多片段被分析(并且在签署流内获得)，更多数据可用于调谐跟踪参数。用于时间对准的示例参数包括初始时间偏移T_s,k和速度偏差比率R_k。假设如上所述的对应的匹配位置t_j和t’_j,k，则可以微调示例参数。

例如，可以使用最小平方拟合来最小化误差项

ϵ (R_{k}, T_{s, k}) = \underset{j}{Σ} {[t_{j, k}^{'} - T_{s, k} + R_{k} * (t_{j} - T_{0})]}^{2}

方程式(13)

其可以当如下式时被最小化

\frac{&PartialD; ϵ}{{&PartialD; R}_{k}} = - 2 \underset{j}{Σ} (t_{j} - T_{0}) [t_{j, k}^{'} - T_{s, k} - R_{k} * (t_{j} - T_{0})] = 0

方程式(14)

以及

\frac{&PartialD; ϵ}{{&PartialD; T}_{s, k}} = - 2 \underset{j}{Σ} [t_{j, k}^{'} - T_{s, k} - R_{k} * (t_{j} - T_{0})] = 0

方程式(15)

这在如下式时实现

R_{k} = \frac{N Σ_{j} t_{j, k}^{'} (t_{j} - T_{0}) - Σ_{j} (t_{j} - T_{0}) Σ_{j} t_{j, k}^{'}}{N Σ_{j} {(t_{j} - T_{0})}^{2} - {[Σ_{j} (t_{j} - T_{0})]}^{2}}

方程式(16)

以及

T_{s, k} = \frac{Σ_{j} {(t_{j} - T_{0})}^{2} Σ_{j} t_{j, k}^{'} - Σ_{j} (t_{j} - T_{0}) Σ_{j} t_{j, k}^{'} (t_{j} - T_{0})}{N Σ_{j} {(t_{j} - T_{0})}^{2} - {[Σ_{j} (t_{j} - T_{0})]}^{2}}

方程式(17)

其中，N是j进行迭代的匹配特征的数目。如果采取T_s,k为固定的，那么R_k是自由变量，使得可以解方程式(14)，以及

R_{k} = \frac{Σ_{j} (t_{j} - T_{0}) (t_{j, k}^{'} - T_{s, k})}{Σ_{j} (t_{j} - T_{0})}

方程式(18)

使用此示例方法，可以使用匹配约束：

|t’_j,k-T_s,k+R_k*(t_j-T₀)|<δ_t方程式(19)

|F_j-F’_j，k|<δ_F或D(F_j,F’_j，k)<δ_F方程式(20)

虽然这里已经公开了各个方法和实施例，但是，其它方面和实施例将对于本领域技术人员来说显而易见。这里公开的各个方面和实施例是为了说明的目的并且不意图限制，并且所附权利要求书指示真正范围和精神。如将对于本领域技术人员来说显而易见的，在不违背其精神和范围的情况下可以进行许多修改和改变。根据前述描述，除了这里所列举的之外，本公开的范围内的功能上等效的方法和装置也将对于本领域技术人员来说显而易见。这样的修改和改变意图落在所附权利要求书的范围内。

Claims

1.一种用于处理媒体流的样本的方法，包括：

在计算设备接收包括在时间上映射的描述媒体流的内容的特征的集合的签名流，其中所述特征被从所述媒体流提取出；

在导致包括所述内容的媒体记录的识别的所述签名流的第一部分执行内容的内容识别，从而确定所述内容识别的辨识结果；

在所述计算机设备接收所述辨识结果；

对于从所述内容识别中识别出的所述媒体记录，在计算设备接收包括在时间上映射的描述所述识别出的媒体记录的内容的特征的集合的签名文件；以及

至少对于一个识别出的媒体记录，比较所述签名流的第二部分和给定的签名文件的特征，其中所述签名流的所述第二部分不同于所述第一部分。

2.如权利要求1所述的方法，其中，由服务器执行所述方法，并且其中，接收所述签名文件包括从数据库检索签名文件。

3.如权利要求2所述的方法，

其中执行内容识别包括：

对服务器发送包括所述签名流的所述第一部分的样本的内容识别查询；以及

接收所述样本的识别。

4.如权利要求3所述的方法，还包括在所述计算机设备接收与所述样本的识别关联的信息和用于每个与所述样本匹配的媒体记录的签名文件。

5.如权利要求1所述的方法，其中，由所述计算设备执行所述方法，并且其中，接收所述签名文件包括从服务器接收所述签名文件。

6.如权利要求1所述的方法，其中，由所述计算设备执行所述方法，并且其中，接收所述签名文件包括从所述计算设备的存储器检索所述签名文件。

7.如权利要求1所述的方法，其中，由所述计算设备执行所述方法，并且其中，接收所述签名流包括使用麦克风从周围环境接收基于所述计算装置的记录的签名流。

8.如权利要求1所述的方法，还包括：

确定所述媒体流的签名流的所述第二部分与用于至少一个识别出的媒体记录的签名文件之间的匹配特征的数目；以及

基于匹配特征的数目，识别匹配媒体记录。

9.如权利要求1所述的方法，还包括：

确定所述媒体流的签名流的所述第二部分与用于至少一个识别出的媒体记录的签名文件之间的特征是否随时间基本上匹配。

10.如权利要求9所述的方法，还包括接收与所述签名流的第二部分在所述媒体流内的采样时间对应的时间偏移(T_s,k)。

11.如权利要求10所述的方法，还包括：

将用于每个识别出的媒体记录的签名文件内的时间位置与所述时间偏移对准；以及

将经对准的用于每个识别出的媒体记录的签名文件与所述签名流的所述第二部分比较。

12.如权利要求9所述的方法，其中，确定所述媒体流的签名流的所述第二部分与用于至少一个识别出的媒体记录的签名文件之间的特征是否随时间基本上匹配包括：

对于给定时间片段(T₁,T₂)，从所述签名流的第二部分检索具有对应的时间t_j的特征F_j的集合，使得T₁<t_j<T₂；

在第k个签名文件内，确定基本上类似于F_j的特征(F’_j,k)是否出现在基本上类似于T_r,k(t_j)＝T_s,k+R_k*(t_j–T₀)的时间(t’_j,k)，其中T₀是指示记录样本的时间的时间戳，T_r,k(t)是与在时间t的媒体流的内容对应的第k个识别出的媒体记录内的内容的相对时间偏移，T_s,k是所述第k个识别出的媒体记录内的样本的采样时间的时间偏移，以及R_k是指示基于所述第k个识别出的媒体记录的参考速度的由所述媒体渲染源渲染媒体流的速度的时间尺度比率；以及

当F’_j,k在与F_j的预定偏差内并且t’_j,k在与T_r,k(t_j)的预定偏差内时，确定匹配。

13.如权利要求9所述的方法，其中，给定签名文件指示对应的参考媒体记录的长度L_k，对于所述对应的参考媒体记录，所述给定签名文件包括在时间上映射的特征的集合，并且，所述方法包括确定所述媒体流的签名流的第二部分与用于至少一个识别出的媒体记录的签名文件之间的特征是否在所述参考媒体记录的时间片段(T₁,T₂)上基本上匹配，其中根据以下而确定所述时间片段(T₁,T₂)：

对于跨越所述长度L_k的给定时间片段(T₁,T₂)，并且，时间偏移T_s,k可以使能对于所述片段(T₁,T₂)的确定：

T₁＝T₀-T_s,k/R_k

T₂＝T₀+(L_k-T_s,k)/R_k

其中，T₁对应于所述参考媒体记录在所述媒体流中的起始时间，T₂对应于所述参考媒体记录在所述媒体流中的末尾时间，T_s,k是第k个识别出的媒体记录内的样本的采样时间的时间偏移，以及R_k是指示基于第k个识别出的媒体记录的参考速度的由媒体渲染源渲染媒体流的速度的时间尺度比率。

14.如权利要求9所述的方法，其中，确定所述媒体流的签名流的第二部分与用于至少一个识别出的媒体记录的签名文件之间的特征是否随时间基本上匹配包括：

将所述签名流的第二部分的递增片段与所述签名文件的对应的经时间对准的部分进行迭代比较。

15.如权利要求9所述的方法，还包括当所述媒体流的签名流的第二部分与用于识别出的媒体记录的签名文件之间的基本上匹配的特征停止出现时，识别中断。

16.如权利要求15所述的方法，其中，当匹配特征的密度随时间而落在预定阈值之下时，基本上匹配的特征停止出现。

17.如权利要求15所述的方法，还包括：

基于所述中断，确定所述识别出的媒体记录的识别的一个或多个不再有效。

18.如权利要求15所述的方法，还包括：

发送包括由媒体渲染源渲染的媒体流的样本的内容识别查询；

接收与所述识别出的媒体记录的识别关联的信息和用于每个所述识别出的媒体记录的签名文件；以及

基于所述中断，接收所述识别出的媒体记录的识别的一个或多个不再有效的通知。

19.如权利要求15所述的方法，其中执行内容识别包括所述计算装置对由媒体渲染源渲染的媒体流执行内容识别。

20.如权利要求9所述的方法，还包括：

将包括最高数目的与所述签名流的特征匹配的特征的给定签名文件识别为匹配；以及

识别与所述给定签名文件对应的媒体记录的识别。

21.如权利要求9所述的方法，还包括：

接收包括从所述媒体流提取的附加特征的签名流增量；

确定多个签名文件的给定签名文件包括与所述签名流增量中的特征匹配的特征；以及

识别与所述给定签名文件对应的媒体记录的识别。

22.如权利要求9所述的方法，还包括：

对于多个签名文件的每个，在时间上向前和向后直到在两个方向上均丧失连续性为止，将特征与从所述媒体流提取的特征相比较；

将包括最长连续性长度的与所述签名流的特征匹配的特征的给定签名文件识别为匹配，其中从匹配特征的两个端点之间的时间差确定所述连续性长度；以及

确定与所述给定签名文件对应的媒体记录的识别。

23.如权利要求9所述的方法，还包括：

确定与所述给定签名文件对应的媒体记录的识别。

24.如权利要求9所述的方法，还包括：

确定具有基本上匹配所述签名流中的特征的特征的给定签名文件；以及

识别与至少一个所述识别出的媒体记录有关的第二媒体记录。

25.如权利要求24所述的方法，还包括确定第二媒体记录与由所述媒体渲染源渲染的媒体流的对准。

26.如权利要求24所述的方法，还包括：

在所述计算装置接收所述第二媒体记录，以与由所述媒体渲染源渲染的媒体流基本上同步地渲染所述第二媒体记录。

27.如权利要求26所述的方法，其中，所述媒体流是音乐记录，并且所述第二媒体记录是所述音乐记录的歌词，并且其中，所述计算设备被设置显示所述音乐记录的歌词。

28.如权利要求27所述的方法，还包括：

当所述媒体流的签名流的第二部分与用于给定的识别出的媒体记录的签名文件之间的基本上匹配的特征停止出现时，中止所述音乐记录的歌词的即将到来行的显示。

29.如权利要求26所述的方法，

当所述媒体流的签名流的第二部分与用于给定的识别出的媒体记录的签名文件之间的基本上匹配的特征停止出现时，中止与由所述媒体渲染源渲染的媒体流基本上同步地渲染所述第二媒体记录。

30.如权利要求29所述的方法，还包括使用给定的识别出的媒体记录的签名文件执行位置识别，以识别时间偏移。

31.如权利要求30所述的方法，还包括在与所识别的时间偏移对应的位置渲染所述第二媒体记录，使得所述第二媒体记录和在所述媒体流中渲染的媒体记录基本上同步。

32.如权利要求26所述的方法，还包括：

确定已经丧失所述第二媒体流与所述媒体流之间的同步；

使用所述签名文件确定所述媒体流中的识别出的媒体记录的时间位置；以及

在所确定的时间位置渲染所述第二媒体流。

33.如权利要求32所述的方法，其中，使用所述签名文件确定所述媒体流中的识别出的媒体记录的时间位置包括对于与所述媒体流中的特征的匹配，周期性地扫描所述签名文件。

34.如权利要求26所述的方法，还包括：

确定已经丧失所述第二媒体流与所述媒体流之间的同步；

在媒体流上执行内容识别，以获得新的给定的签名文件，所述签名文件具有与所述签名流中的特征基本上匹配的特征；

接收与新签名文件有关的第三媒体记录；以及

与由所述媒体渲染源渲染的媒体流基本上同步地渲染所述第三媒体记录。

35.如权利要求1所述的方法，还包括将每个接收的签名文件存储在存储器中。

36.如权利要求9所述的方法，其中，基于确定所述媒体流的签名流的第二部分与用于至少一个识别出的媒体记录的签名文件之间的特征是否随时间基本上匹配，所述方法还包括：

确定所述媒体流与参考匹配媒体记录之间的时间尺度比率的不匹配，其中所述时间尺度比率指示基于参考媒体记录的参考速度的由给定媒体渲染源渲染给定媒体流的速度；以及

根据所述不匹配，确定调整的时间尺度比率。

37.如权利要求36所述的方法，还包括：

确定具有基本上匹配所述签名流中的特征的特征的给定签名文件；

识别与识别出的媒体记录有关的第二媒体记录；

在所述计算设备接收所述第二媒体记录；

与由所述媒体渲染源渲染的媒体流基本上同步地渲染所述第二媒体记录；以及

使用所述调整的时间尺度比率，执行所述第二媒体记录与所述媒体记录的重新同步。

38.如权利要求1所述的方法，还包括将用于给定媒体记录的给定签名文件识别为随时间基本上匹配于所述媒体流的签名流中的特征。

39.一种用于处理媒体流的样本的系统，包括：

输入接口，被配置为接收包括在时间上映射的描述媒体流的内容的特征的集合的签名流，其中所述特征被从所述媒体流提取出；

模块，在导致包括所述内容的媒体记录的识别的所述签名流的第一部分执行内容的内容识别，从而确定所述内容识别的辨识结果；以及

连续性跟踪器，被配置为对于从所述内容识别中识别出的所述媒体记录，接收包括在时间上映射的描述所述识别出的媒体记录的内容的特征的集合的签名文件，其中所述连续性跟踪器进一步被设置为，至少对于一个识别出的媒体记录，比较所述签名流的第二部分和给定的签名文件的特征，其中所述签名流的所述第二部分不同于所述第一部分。

40.如权利要求39所述的系统，其中，所述连续性跟踪器被配置为确定所述媒体流的签名流与用于至少一个识别出的媒体记录的签名文件之间的特征是否随时间基本上匹配。

41.如权利要求39所述的系统，其中，所述连续性跟踪器被配置为确定具有基本上匹配所述签名流中的特征的特征的给定签名文件，以及识别与所述识别出的媒体记录有关的第二媒体记录。

42.如权利要求41所述的系统，还包括媒体播放器，被配置为与由所述媒体渲染源渲染的媒体流基本上同步地渲染所述第二媒体记录。