CN1973209A

CN1973209A - 表征两个媒体段的重叠的方法

Info

Publication number: CN1973209A
Application number: CNA2005800205829A
Authority: CN
Inventors: A·礼俊·王
Original assignee: Landmark Digital Services LLC
Current assignee: Landmark Digital Services LLC
Priority date: 2004-06-24
Filing date: 2005-06-24
Publication date: 2007-05-30
Anticipated expiration: 2025-06-24
Also published as: EP2602630A3; EP1774348A2; EP1774348A4; JP2008504741A; EP2602630A2; WO2006012241A2; CN100485399C; US20080091366A1; CA2570841A1; US7739062B2; EP1774348B1; WO2006012241A3

Abstract

提供了表征两个媒体段的重叠的方法。在存在文件和数据样本的一定量的重叠的实例中，该文件可为原始文件的摘录，并在所述数据样本内开始和结束。通过将识别的文件特征与识别的数据样本特征相匹配，可确定所述数据样本内的所述文件的部分的开始和结束时间。使用这些时间，还可确定所述文件在所述数据样本内的长度。

Description

表征两个媒体段的重叠的方法

相关申请的交叉引用

本专利申请要求于2004年6月24日提交的美国临时专利申请第60/582,498号在35U.S.C§119(e)下的优先权，通过引用而将其全部内容合并于此。

技术领域

本发明一般涉及识别广播内的内容，并且，更具体地，涉及识别与数据流内内容的段或摘录(excerpt)有关的信息。

背景技术

现今的数字媒体已打开了信息市场的大门，其中，尽管实现了数字内容分发的更大程度的灵活性、并可能以降低的成本，但数字信息的商业化带来了潜在的版权问题。由于包括无线电台、因特网电台、文件下载和交换功能的音频分发信道的高度增加的量，并且，还由于诸如MP3编码和各种流音频格式的新的音频技术和压缩算法，这样的问题可能变得越来越重要。此外，通过非常易于得到的用来“分离(rip)”或数字化来自致密盘的音乐的工具，内容复制和分发的便利性已使得内容所有者、艺术家、商标所有者(label)、出版商和发行商越来越难以维持对他们的版权财产的控制并难以得到补偿。例如，对于内容所有者来说，重要的是：获知播放他们的数字内容(例如，音乐)的地点，并且由此，是否存在应给予他们的版税。

因而，在音频内容识别领域中，除了音频内容的身份(identity)之外，还期望精确地获知一个音频记录嵌入正被广播的另一音频记录内的摘录是多长。例如，当在电台、电视和电影中播放许可的记录时，执行权利组织(PRO)代表他们的成员、作者和音乐出版商，来收取执行权利版税，并且，典型地，版税的量基于所播放的记录的实际长度。随后，PRO可将这些版税分发给其成员，同时扣除PRO的管理成本。

音乐行业正在探索用来管理和货币化(monetize)音乐的分发的方法。现今的一些解决方案依赖于用于组织内容的文件名，但是，因为不存在文件命名标准、且可以非常容易地编辑文件名，所以，此途径不十分奏效。另一个解决方案可为：通过检查音频的属性—即，其是否被存储、是否可被下载、是流形式的还是广播的—来识别音频内容以及识别音频广播的其它方面的能力。

发明内容

在这里公开的实施例内，提供了识别第一记录和第二记录之间的公共内容的方法。该方法包括：确定来自第一记录的第一组内容特征、以及来自第二记录的第二组内容特征。第一和第二组内容特征中的每个特征出现在相应记录中的对应的时间偏移处。该方法还包括：识别第一组内容特征和第二组内容特征之间的匹配特征对；以及在所有匹配特征对内，识别与给定的匹配对中的特征相对应的最早的时间偏移。

在另一个方面内，典型实施例包括：接收包括第二记录的至少部分的第一记录；以及确定在第一记录内包含的第二记录的部分的长度。该方法还包括：确定第二记录的哪部分被包括在第一记录内。

在另一个方面内，典型实施例包括：确定来自第一记录的第一组内容特征；以及确定来自第二记录的第二组内容特征。第一和第二组内容特征中的每个特征出现在它们相应记录中的对应的时间偏移处。该方法还包括：识别处于第一组内容特征中的来自第二组内容特征的特征；以及根据识别出的特征来识别时间对集合。所述时间对包括与来自第一记录的特征相关联的第一记录中的时间偏移、以及与来自第一记录的特征所匹配的来自第二记录的特征相关联的第二记录中的时间偏移。该方法还包括：识别具有线性关系的所述时间对集合内的时间对。

对于本领域的技术人员来说，通过适当地参照附图而阅读以下详细描述，这些和其它特征、优点以及替代将变得清楚。

附图说明

图1图解了用于识别音频流内的内容的系统的一个实例。

图2A图解了具有在时间上的公共重叠区域的两个示例音频记录。

图2B图解了用于图2A的音频记录的示例示意特征分析，其中，横轴表示时间，而符号表示记录内界标(landmark)时间偏移处的特征。

图2C图解了与两个音频记录内的匹配特征符号相关联的匹配时间对的示例支持列表。

图3图解了具有正确和不正确的匹配的图2C的时间对支持列表的示例散布图。

图4图解了每个音频记录中的对应的重叠区域的最早和最晚时间的示例选择。

图5图解了按照用于一个音频记录的支持列表的最早和最晚时间的示例的原始和补偿的估计。

图6为绘出根据一个实施例的方法的功能块的流程图。

具体实施方式

在下面描述的示范实施例内，提供了用于识别数据流内的内容的方法。该方法可应用于任何类型的数据内容识别。在下面的实例中，数据为音频数据流。例如，音频数据流可为实时数据流或音频记录。

具体地，下面公开的方法描述了用于识别某个数据内容(如另一个音频样本)内的音频文件的技术。在这样的实例中，很有可能存在文件和样本的公共内容的一定量的重叠(即，将在样本上播放文件)，并且，文件可能作为原始文件的摘录而在音频样本内开始和结束。由此，为了版税收取问题(例如，其可取决于被使用的音频文件的长度)，期望在合理的精度下确定文件在音频样本内的开始和结束的时间。例如，具体地，如果10秒电视广告包含3分钟长的歌曲的5秒的部分，那么，期望检测到该广告包含该歌曲的摘录或片断，并且，还期望确定所使用的歌曲的长度和部分，以便确定所用部分的版税权。

现在参照附图，图1图解了用于识别在其它数据内容内的内容(例如，识别无线广播内的歌曲)的系统的一个实例。该系统包括：无线电台，如无线电台102，例如，其可为无线电或电视内容提供商，其向接收器104广播音频流和其它信息。样本分析器106将监视所接收的音频流，并且，识别属于所述流的信息，如音轨身份。样本分析器106包括音频搜索引擎108，并可访问包含音频样本和广播信息的数据库110，例如，以便识别所接收的音频流内的音轨。一旦已识别出音频流内的音轨，便可将音轨身份报告给库112，所述库112可为例如消费者跟踪机构、或其它统计中心。

数据库110可包括很多记录，并且，每个记录具有唯一的标识，例如sound_ID。数据库自身不一定需要存储用于每个记录的音频文件，这是由于可使用sound_ID来从其它位置检索音频文件。声音数据库索引会非常大，其包含用于成百万或甚至几十亿个文件的索引。优选地，新记录递增地添加数据库索引。

尽管图1图解了具有给定的配置的系统，但可以其它方式设置该系统内的组件。例如，音频搜索引擎108可与样本分析器106分离。由此，应理解，这里描述的配置在本质上仅为示例，而且，还可使用很多替代配置。

图1中的系统(并且，具体地，样本分析器106)可识别音频流内的内容。图2A图解了在时间上具有公共重叠区域的两个音频记录，可由样本分析器106分析所述音频记录中的每个，以识别该内容。音频记录1可为任何类型的记录，如音频广播或电视广告。音频记录2为诸如歌曲或其它记录的音频文件，该音频文件可被包括在音频记录1内，或为如由所述记录的重叠部分所示出的在音频记录1中包括的音频记录2的至少一部分。例如，在音频记录1内被标记为重叠的区域表示在音频记录1内包括的音频记录2的部分，而在音频记录2内被标记为重叠的区域表示在音频记录1内的音频记录2的部分。重叠表示正在音频记录1的部分上播放音频记录2。

通过使用在此公开的方法，可识别并报告第一和第二媒体段之间的重叠区域(或嵌入区域)的范围。另外，即使嵌入的片断是不完美的副本，仍可识别出嵌入的片断。这样的不完美可源自处理失真，例如，由于混入噪声、音效、旁白、以及/或者其它干扰声。例如，第一音频记录可为来自音乐库的演奏，而嵌入在第一记录内的第二音频记录可来自电影声轨或广告，其中，第一音频记录用作与音效一起混入的旁白之后的背景音乐。

为了识别音频记录1(AR1)内的音频记录2(AR2)的长度和部分，首先，识别音频记录1。使用AR1来检索AR2、或者至少AR2内的匹配特征及其对应时间的列表。图2B概念性地图解了已被识别的音频记录的特征。在图2B内，例如，用字母和其它ASCII字符来表示所述特征。在本领域中，使用音轨的数据库来识别音频样本、以及音频样本的特征的各种音频样本识别技术是公知的。下面的专利和公开描述了用于音频识别技术的可能的实例，并且，通过引用而将其分别合并于此，如同在此描述中被完全阐述那样。

·Kenyon et al，U.S.Patent No.4,843,562，题为″BroadcastInformation Classification System and Method″

·Kenyon，U.S.Patent No.5,210,820，题为″SignalRecognition System and Method″

·Haitsma等人，国际公布号WO 02/065782 A1，题为″Generating and Matching Hashes of Multimedia Content″

·Wang and Smith，国际公布号WO 02/11123 A2，题为″System and Methods for Recognizing Sound and MusicSignals in High Noise and Distortion″

·Wang and Culbert，国际公布号WO 03/091990 A1，题为″Robust and Invariant Audio Pattern Matching″

具体地，除了与识别出的音轨相关联的元数据之外，Wang和Smith的系统和方法还可返回从识别出的音轨的开始起的音频样本的相对时间偏移(RTO)。另外，Wang和Culbert的方法可返回时间伸缩比，即，例如，与原始的音轨相比，音频样本被加速或减速了多少。然而，现有技术不能报告两个音频记录之间的重叠区域的特性，如重叠的范围。一旦已识别出媒体段，则期望报告所采样的媒体段和对应的识别出的媒体段之间的重叠的范围。

简而言之，通过接收信号、并在多个采样点对其进行采样以产生多个信号值，而开始识别音频记录1和2的特征。可使用任何已知的公式来计算信号的统计矩(statistical moment)，例如，在美国专利第5,210,820号中提到的那样。随后，将计算出的统计矩与多个存储的信号标识相比较，并且，所接收的信号被识别为与存储的信号标识中的一个相似。可使用计算出的统计矩来创建被量化的特征矢量，并且，使用被量化的特征矢量的加权和来访问存储信号标识的存储器。

在另一个实例中，通常，可通过识别或计算音频样本的特性或指纹(fingerprint)、并将指纹与先前识别出的指纹相比较，来识别音频内容。计算指纹的样本内的具体位置取决于样本中的可再现点。这样的可再现计算的位置被称为“界标”。可通过样本自身来确定界标在样本内的位置，即，该位置取决于样本质量，并可被再现。也就是说，每次重复该过程时，对于相同的信号，计算相同的界标。界标标记(landmarking)方案可在声音记录内每秒标记大约5-10个界标；当然，界标标记密度取决于声音记录内的活动量。

被称为Power Norm(功率正规化)的一种界标标记技术，计算记录中的很多时间点上的瞬时功率，并选择局部最大值。这样做的一种方式为：通过直接对波形进行整流和滤波来计算包络(envelope)。另一种方式为：计算信号的希尔伯特变换(正交)，并使用希尔伯特变换和原始信号的幅度平方和。还可使用用于计算界标的其它方法。

一旦已计算出界标，则在记录中的每个界标时间点或附近计算指纹。通过所使用的指纹方法来定义特征与界标的接近度。在某些情况下，如果特征清晰地对应于该界标、且不对应于先前或后续的界标，则将该特征视为接近该界标。在其它情况下，特征对应于多个相邻界标。

通常，指纹是对处于或接近时间点的记录中的特征集进行概括的值或值的集合。在一个实施例中，每个指纹是单个数值，其为多个特征的散列函数。指纹的其它实例包括谱片(spectral slice)指纹、多片指纹、LPC系数、对数倒频谱系数、以及谱图峰值的频率分量。

可通过对信号进行的任何类型的数字信号处理或频率分析来计算指纹。在一个实例中，为生成谱片指纹，在每个界标时间点的邻域中执行频率分析，以提取最高的一些谱峰值。随后，指纹值可为最强的谱峰值的单个频率值。

为了利用很多声音的时间演变，可通过将时间偏移集合加到界标时间点，来确定时间片集合。在每个得到的时间片，计算谱片指纹。随后，组合所得到的指纹信息集合，以形成一个多音或多片指纹。每个多片指纹比单个谱片指纹更具唯一性，这是因为，其跟踪时间演变，从而使数据库索引搜索中的错误匹配较少。

为了得到有关计算音频样本的特性或指纹的更多信息，读者可参照授予Wang和Smith的、标题为“System and Methods for RecognizingSound and Music Signals in High Noise and Distortion”的美国专利公开US 2002/0083060，通过引用而将其全部公开合并于此，如同在此描述中被完全阐述那样。

由此，音频搜索引擎108将接收音频记录1，并计算样本的指纹。音频搜索引擎108可通过联系附加的识别引擎来计算所述指纹。为识别音频记录1，音频搜索引擎108随后可访问数据库110，以通过生成等价指纹之间的对应而将音频样本的指纹与已知的音轨的指纹匹配，并且，具有最大数目的线性相关对应的、或者其特征指纹的相对位置最紧密地与音频样本的相同指纹的相对位置匹配的数据库110中的文件被视为匹配媒体文件。也就是说，识别界标对之间的线性对应，并根据线性相关的对的数目来对集合计分(score)。当在可允许的容限内、可通过基本上相同的线性等式来描述对应的样本位置和文件位置的统计有效数目时，出现线性对应。具有最高的统计有效分数(即，具有最大数目的线性相关对应的)的集合的文件是获胜的文件(winning file)。

使用以上方法，可确定音频记录1的身份。为确定音频记录的相对时间偏移，可将音频样本的指纹与它们匹配的原始文件的指纹相比较。每个指纹出现在给定时间，于是，在匹配指纹以识别音频样本之后，(音频样本中的匹配指纹中的)第一指纹和存储的原始文件的第一指纹之间的时间差将为音频样本的时间偏移，例如，进入歌曲中的时间量。由此，可确定取得样本的相对时间偏移(例如，进入歌曲中的67秒)。

具体地，为确定音频样本的相对时间偏移，可找到给定散布列表的界标点的散布图内的具有接近1的斜率的对角线。散布图可包括：横轴上的已知的声音文件界标、以及竖轴上的未知声音样本界标(例如，来自音频样本)。在散布图中识别斜率约等于1的对角线，其表示：与未知样本一起给出此斜率的歌曲匹配该样本。横轴上的截距指示：样本开始处进入音频文件的偏移。由此，使用Wang和Smith所公开的“Systemand Methods for Recognizing Sound and Music Signals in High Noiseand Distortion(用于识别高噪声和失真的声音和音乐信号的系统和方法)”，例如，如上面所讨论的，产生了来自数据库的所识别的内容文件的开始与正在分析的音频样本的开始之间的精确的相对时间偏移，例如，用户可记录进入歌曲中的67秒的该歌曲的10秒样本。由此，相对时间偏移表示为识别音频样本的结果(例如，横轴上的截距指示相对时间偏移)。用于计算相对时间偏移的其它方法也是可能的。

由此，除了与识别出的音轨相关联的元数据之外，Wang和Smith的技术还返回从识别出的音轨的开始起的音频样本的相对时间偏移。结果，可使用识别过程内的另一验证步骤，其中，可对齐谱图峰值。因为Wang和Smith的技术生成相对时间偏移，所以，例如，有可能在时间轴中大约10ms内对齐谱图峰值记录。随后，可确定匹配时间和频率峰值的数目，并且，其为可用于比较的分数。

为了得到有关确定相对时间偏移的更多信息，读者可参照授予Wang和Smith的、标题为“System and Methods for Recognizing Soundand Music Signals in High Noise and Distortion”的美国专利公开US2002/0083060，通过引用而将其全部公开合并于此，如同在此描述中被完全阐述那样。

可使用任何以上技术来识别音频记录。由此，在进行了音频记录1的成功内容识别(如通过上述任何方法所执行的那样)之后，可选地，可获知相对时间偏移(例如，识别出的音轨的开始和样本的开始之间的时间)，并且，可选地，可获知时间伸缩比(例如，实际回放速度对原始主速度)、以及置信级别(例如，对该系统已正确识别了音频样本的确信程度)。在很多情况下，时间伸缩比(TSR)可被忽略，或可被假定为1.0，这是由于TSR通常接近于1。为了更高的精度，可考虑TSR和置信级别信息。如果不知道相对时间偏移，则可如下所述来确定。

如图3所示，在上面描述的示范实施例内，提供了用于识别数据流内的内容的方法(使用上述技术)。首先，确定或获知音频记录1的文件身份(如图2a所示)、以及音频记录2内的偏移。例如，可使用上述任何方法来确定所述身份。相对偏移T_r是：当对齐了重叠区域中的匹配部分时，从音频记录1的开始到音频记录1内的音频记录2的开始的时间偏移。

在接收到此信息之后，如块130所示，比较数据流和识别出的文件的完整的表示(representation)。(由于音频记录2的身份是已知的，所以，为了比较的目的，可从数据库中检索音频记录2的表示)。为比较所述两个音频记录，可使用来自识别出的文件和数据流的特征，以搜索基本上匹配的特征。由于相对时间偏移是已知的，所以，将来自音频记录1的特征与来自音频记录2内的对应的时间帧的特征相比较。在优选实施例中，可使用来自具有作为特征的重叠帧的短时傅立叶变换的局部时间频率能量峰值，以在每个文件内生成一组坐标。随后，在对应的时间帧处比较这些坐标。为此，可将音频记录2与音频记录1对齐，以使其与在音频记录1中出现的音频记录2的部分相符。在所述两个样本中存在匹配特征的点处，所述坐标(例如，时间/频率谱峰值)排齐。如果相对时间偏移T_r是已知的，则音频记录1和音频记录2之间的对齐可以是直接的。在该情况下，可通过使用一个记录的时间/频率峰值作为其它记录的模板，而找到匹配的峰值对。如果在一个文件中的谱峰值处于来自其它记录的峰值的频率容限内、且对应的时间偏移相对于彼此处于相对时间偏移T_r的时间容限内，那么，对所述两个峰值计数，作为对齐的匹配特征。

可除了时间和频率之外的其它特征，例如，在Wang和Smith或Wang和Culbert中说明的、所使用的特征(例如谱时间片或链接的谱峰值)。

可替换地，在不能得到相对时间偏移的情况下，如块132所示，可在标注了匹配特征的点处标注识别出的记录和数据流的对应时间偏移。在这些时间偏移内，识别出对齐的匹配，从而产生包含具有相似特征的重叠音频的特定密度的对应的时间偏移点的支持列表。较高的匹配点的密度可导致有关识别出的匹配点是正确的、更大的确信度。

接下来，如块134所示，可通过确定(重叠区域的)对应的时间偏移内的第一个和最后一个时间点，来确定识别出的记录和数据流之间的重叠的时间范围。除了具有匹配特征和足够密集的支持区域之外，识别出的文件和数据流之间的特征应出现在相似的相对时间偏移处。也就是说，匹配的对应时间偏移的集合应具有线性关系。由此，如块136和图4所示，可在概念上绘出对应的时间偏移，以识别线性关系。回归线的预定容限之外的时间对可被视为源自假的不正确的特征匹配。

具体地，根据图3中描绘的方法，为确定在音频记录1内音频记录2的部分的开始和结束出现的时间，比较所述两个记录。使用来自第一音频记录的每个特征，以在第二音频记录中搜索基本上匹配的特征。(可使用上述界标标记或指纹技术中的任一个来生成音频记录的特征)。本领域的技术人员可将大量已知的比较技术应用于相似性的测试。在一个实施例中，例如，如果两个特征的值(矢量或标量)在预定容限内，则将两个特征视为基本相似。

可替换地，为比较两个音轨或音频文件，可生成比较度量(metric)。例如，对于来自两个音频记录的每个匹配的特征对，可通过将时间偏移置入对应的“支持列表”中，来标注用于来自每个文件的特征的对应的时间偏移(即，对于音频记录1和2，可能存在分别包含对应的时间偏移t_1，k和t_2，k的支持列表1和2，其中，t_1，k和t_2，k分别为从第一和第二记录的开始起的第k个匹配特征的时间偏移)。

此外，可将支持列表表示为包含匹配时间对(t_1，k，t_2，k)的单个支持列表。这在图2C中被图解。在图2B的实例中，在两个文件之间存在三个“X”的公共特征、以及重叠区域内的其余特征的一个公共特征。由此，如图所示，“X”公共特征中的两个是假匹配，并且，仅有一个为匹配特征。重叠区域中的所有其它特征被视为匹配特征。支持列表指示在音频记录1中出现对应的特征的时间t_1，k、以及在音频记录2中出现对应的匹配特征或假匹配特征的时间t_2，k。

此外，可将有关匹配特征对的另外的细节附加到支持列表中的时间中。这样，支持列表可包含对应时间偏移点的特定密度，其中，存在具有相似特征的重叠音频。这些时间点表征两个音频文件之间的重叠。例如，可通过确定时间对集合内(或支持列表内)的第一和最后一个时间点，来确定重叠的时间范围。具体地，一种方式为：从用于第一或第二记录的支持列表中查看最早的偏移时间点T_earliest以及最晚的偏移时间点T_latest，并将其相减，以得到时间间隔的长度，如下所示：

T_j，length＝T_j，latest-T_j，earliest

其中，j为与第一或第二记录相对应的1或2，而T_j，length为重叠的范围。并且，不同于对时间偏移的显式列表进行实际编译、然后确定最大和最小时间，当找到匹配特征及其对应时间偏移时，标注匹配特征的最大和最小时间偏移可能就足够了。在任一情况下，T_j，latest＝max_k{t_j，k}，且T_j，earliest＝min_k{t_j，k}，其中，t_j，k为在文件之间对应的时间偏移、或在支持列表中时间对内的时间点。

还存在可根据支持列表来确定的其它特性。例如，时间偏移点的密度可指示重叠的标识的质量。如果点的密度非常低，则对重叠程度的估计可具有较低的置信度。例如，这可能表示在一个音频记录中存在噪声、或两个记录之间的假特征匹配。

图4图解了具有正确和不正确的匹配的图2C的支持列表时间对的示例散布图。为了减小集合的特征之间偶然的不正确匹配的情况下的假匹配的影响，可计算或确定沿时间轴的各个位置处的时间点的密度。如果存在进入记录的特定时间偏移周围的低密度的匹配点，则可质疑匹配的鲁棒性。例如，如图4的绘图中所示，两个不正确的匹配与其余的所绘出的点不在同一总区域内。

用来计算密度的另一种方式为：考虑具有支持核(例如，具有矩形或三角形)的时间偏移值的集合的卷积。卷积在数字信号处理领域中是公知的，例如，如在Discrete-Time Signal Processing(2nd Edition)by AlanV.Oppenheim，Ronald W.Schafer，John R.Buck，Publisher：PrenticeHall；2nd edition(February15，1999)ISBN：0137549202中那样，通过引用而将其全部合并于此。如果卷积核是矩形的，则用来计算任何给定点上的密度的一种方式为：观察在期望点周围的预定时间间隔T_d的区间内存在的时间点的数目。为确定时间点t是否在充分密集的区域或邻域内，可在支持列表中搜索在时间点t周围的间隔[t-T_d，t+T_d]中的点的数目。具有在预定阈值以下的密度(或点数)的时间点可视为不足以被其邻域所支持以成为有效，并且，随后，可从支持列表中丢弃所述时间点。可替换地还可使用用于计算密度的其它已知的技术。

图5图解了用于每个音频记录中的对应重叠区域的最早和最晚时间的示例选择。因为开始和结束点的测定仅为基于匹配特征的位置的估计，所以，在一个实施例中，通过外推(extrapolate)到由支持列表中的最早和最晚时间来约束的区域的密度补偿因子，可使对开始和结束时间的估计更精确。例如，在描述有效重叠区域时假定特征密度的平均值为每单位时间间隔d个时间点，那么，特征点之间的平均时间间隔为1/d。为考虑边缘效应(例如，接近或位于音频记录1内使用的音频记录2的部分的开始或结束处的内容)，可在每个时间点周围将支持间隔估计为[-1/2d，+1/2d]。具体地，将支持间隔中的支持的区域向上或向下扩展1/2d；换句话说，扩展到具有长度[T_latest-T_earliest+1/d]的[T_earliest-1/2d，T_latest+1/2d]。由此，可将音频记录2的长度视为[T_earliest-1/2d，T_latest+1/2d]。此密度补偿值能比支持列表中的最早和最晚时间的简单的差更为准确。为了方便起见，可将密度估计为固定值。

图6图解了按照用于一个音频记录的支持列表的最早和最晚时间的示例性的原始和补偿的估计。如图中所示出的那样，通过使用如图5中所识别的T_earliest和T_latest，可识别出音频记录1内的重叠区域的边缘点。

除了具有匹配特征和充分密集的支持区域之外，对两个音频记录之间的重叠区域进行表征的支持列表中的特征应出现在相似的相对时间偏移处。也就是说，属于一起(或匹配)的时间对的集合(例如，(t_1，k，t_2，k)等)应具有线性关系。如果该关系的斜率为m，那么存在相对偏移T_r，使得(t_1，k＝T_r+mt_2，k)对于所有k来说均应为常量。相对时间偏移T_r可已知为给定的参数，或者可以是未知的以如下来确定。计算回归参数T_r和m的方式在本领域中是公知的，例如，如在″Numerical Recipes in C：The Art of Scientific Computing，″by William H.Press，Brian P.Flannery，Saul A.Teukolsky，William T.Vetterling；CambridgeUniversity Press；2nd edition(January 1，1993)中那样，其全部内容通过引用合并于此。可替换地使用其它已知的时间回归技术。回归线的斜率m补偿两个记录之间的相对回放速度的差。

在图4和5中图解了回归线。对于正确的特征匹配来说，所绘出的点具有线性关系，其中可确定斜率m。如图4所示，可将回归线的预定容限之外的时间对视为源自假的不正确的特征匹配。

下面，根据(t_1，k＝T_r+mt_2，k)，通过所绘出的点来表示回归线

T_r＝t_1，k-mt_2，k

并且由此，估计假时间对的另一方式为通过以下等式来计算：

ΔT_k＝t_1，k-mt_2，k-T_r

其结果应等于或接近0。如果|ΔT|＞δ，其中δ为预定容限，那么从支持列表删除时间对(t_1，k，t_2，k)。在很多情况下，可假定斜率为m＝1，从而导出：

ΔT_k＝t_1，k-t_2，k-T_r

这样，如果时间对(t_1，k，t_2，k)不具有与其它时间对的线性关系，则将排除该假时间对(t_1，k，t_2，k)。

其它用于确定回归参数的方法也是可用的。例如，Wang和Culbert(Wang and Culbert，国际公布号WO 03/091990 A1，题为″Robust andInvariant Audio Pattern Matching″)公开了用于基于来自部分不变特征匹配的直方图频率(histogramming frequency)或时间比来确定回归参数的方法。例如，可通过检测(t1，k-t2，k)的值的直方图中的宽峰来确定偏移Tr，针对宽峰中的界标/特征的频率坐标来计算比f2，k/f1，k，然后将所述比置入直方图，以找到频率比中的峰。频率比中的峰值产生回归量的斜率值m。然后，例如，可通过找到直方图峰，根据(t1，k-mt2，k)值来估计偏移Tr。

可达到相同的最终结果的项和中间物的代数变换和组合均落在权利要求的范围内。例如，如果仅期望时间间隔的长度，那么可更直接地计算时间差，而不是单独计算最早和最晚时间。由此，通过使用上述方法，可确定数据流内所包含的数据文件的长度。

很多实施例被描述为独立地、或以与其它实施例组合的方式来执行，然而，上述实施例中的任一个可一起、或以任意组合的方式来使用，以增强对数据流中的样本进行识别的确信度。另外，很多实施例可通过使用具有广播流接收装置(如，无线电接收器)、以及(1)用于与用来执行识别步骤的中央识别服务器通信的数据发送装置或(2)用于执行消费者装置自身中所构建的识别步骤的装置(例如，音频识别装置数据库可加载到消费者装置上)来执行。此外，消费者装置可包括：用于更新数据库以适应于对新音轨的识别的装置，如到服务器的以太网或无线数据连接；以及用来请求数据库更新的装置。消费者装置还可包括本地存储装置用于存储所识别的段和被标记的音轨文件，并且该消费者装置还可具有播放列表选择和音轨回放装置，例如，如在自动唱片点唱机(jukebox)中那样。

上述方法可以与通用或专用处理器及一个或多个关联的存储结构结合使用的软件来实现。然而，可替换地，可使用利用附加硬件和/或固件的其它实现。例如，本发明的机制能够以各种形式的指令的计算机可读介质的形式来分布，并且，无论用来实际执行该分布的信号承载媒介的特定类型如何，本发明均同等地适用。这样的计算机可访问装置的实例包括计算机存储器(RAM或ROM)、软盘和CD-ROM、以及诸如数字和模拟通信链路的传输型媒介。

尽管已结合本申请的实施例来描述了一些实例，但本领域的技术人员将理解，可作出变化，而不会背离本申请的范围和精神。例如，尽管在实例中描述的广播数据流经常是音频流，但本发明不限于此，而是还可被应用于各种广播内容，包括视频、电视或其它多媒体内容。此外，可以硬件、软件或组合(例如，通过易失性或非易失性存储器来运行软件应用的通用或专用处理器)的方式来实现这里描述的设备和方法。所附权利要求定义了本申请的真实范围和精神，可根据上述内容来解释权利要求。

Claims

1、一种对第一数据流和第二数据流之间的公共内容进行识别的方法，包括：

确定来自第一数据流的第一组内容特征，所述第一组内容特征中的每个特征出现在所述第一数据流中的对应时间偏移处；

确定来自第二数据流的第二组内容特征，所述第二组内容特征中的每个特征出现在所述第二数据流中的对应时间偏移处；

识别所述第一组内容特征和所述第二组内容特征之间的匹配特征对；以及

在所有所述匹配特征对内，识别与给定匹配对中的特征相对应的最早时间偏移。

2、如权利要求1所述的方法，其中，所述第一数据流和所述第二数据流包括音频流。

3、如权利要求1所述的方法，还包括：在所有所述匹配特征对内，识别与给定匹配对中的特征相对应的最晚时间偏移。

4、如权利要求3所述的方法，还包括：确定存在于所述第一数据流内的、来自所述第二数据流的内容的长度。

5、如权利要求4所述的方法，其中，确定存在于所述第一数据流内的、来自所述第二数据流的内容的长度包括：确定所述最早时间偏移和所述最晚时间偏移之间的差。

6、如权利要求1所述的方法，还包括：生成包括匹配时间偏移对的列表的支持列表，其中，所述匹配时间偏移对每个与找到匹配特征对之处的所述第一数据流和所述第二数据流内的时间偏移相对应。

7、如权利要求6所述的方法，还包括：得到所述第一数据流内的所述第二数据流的相对时间偏移；并且其中，识别所述第一组内容特征和所述第二组内容特征之间的匹配特征对包括：识别在预定容限内的对应特征、以及在相对时间偏移的预定容限内的对应时间偏移。

8、如权利要求6所述的方法，其中，所述支持列表表征所述第一数据流和所述第二数据流之间的重叠区域。

9、如权利要求6所述的方法，还包括：

根据所述支持列表来确定重叠区域中的各时间偏移处的时间点密度，

由此，所述时间点密度表征所识别的匹配特征的置信度。

10、如权利要求9所述的方法，其中，根据所述支持列表来确定重叠区域中的各时间偏移处的时间点密度包括：

确定期望点t周围的预定时间间隔T_d的区间内所存在的时间点的数目；以及

在所述支持列表中搜索间隔[t-T_d，t+T_d]中的点数。

11、如权利要求10所述的方法，还包括：从所述支持列表中丢弃处于不足够密集的邻域中的时间偏移。

12、如权利要求11所述的方法，其中，如果在从匹配时间偏移对内的第一时间偏移点起的预定时间间隔内存在至少预定数目的相邻点，则该时间偏移点处于足够密集的邻域中。

13、如权利要求11所述的方法，其中，如果在从匹配时间偏移对内的第一时间偏移点起的预定时间间隔内不存在至少预定数目的相邻点，则该时间偏移点处于不足够密集的邻域中，其中，所述预定时间间隔为[t-T_d，t+T_d]。

14、如权利要求6所述的方法，还包括：

根据所述支持列表来确定最早时间；以及

根据支持列表来确定最晚时间，

由此，所述支持列表中的最早时间和最晚时间表征所述第一数据流和所述第二数据流之间的重叠区域的长度。

15、如权利要求14所述的方法，还包括：针对密度边缘效应来调节所述最早时间和所述最晚时间。

16、如权利要求15所述的方法，针对密度边缘效应来调节所述最早时间和所述最晚时间包括：

识别所述支持列表内的最低时间偏移和最高时间偏移；

从所述最低时间偏移中减去预定的密度补偿因子；以及

将所述预定的密度补偿因子加到所述最高时间偏移。

17、如权利要求14所述的方法，还包括：通过从所述最晚时间中减去所述最早时间，来确定重叠时间间隔。

18、如权利要求14所述的方法，其中，在描述所述第一数据流和所述第二数据流之间的有效重叠区域时，特征密度是指每单位时间间隔内d个时间点，并且其中，特征点之间的平均时间间隔是1/d，该方法还包括：

将来自所述支持列表的最早时间和来自所述支持列表的最晚时间周围的间隔估计为[T_earliest-1/2d，T_latest+1/2d]；以及

将所述第一数据流和所述第二数据流之间的重叠区域的长度计算为(T_earliest-1/2d)和(T_latest+1/2d)之间的差。

19、如权利要求1所述的方法，还包括：

对于每个匹配特征对，根据所述第一数据流和所述第二数据流中的各对应时间偏移来形成关联的时间对；

根据所述时间对来确定时间对回归线；以及

丢弃基本上偏离所述时间对回归线的所识别的匹配特征对。

20、如权利要求19所述的方法，其中，根据所述时间对来确定时间对回归线包括：

对于每个时间对，通过从所述时间对的第二时间偏移中减去所述时间对的第一时间偏移来形成时间对相对偏移；

形成所述时间对相对偏移的直方图；以及

识别所述直方图中的峰值，

由此，所述峰值确定所述时间对回归线的最佳相对偏移。

21、如权利要求1所述的方法，其中，确定来自所述第一数据流的第一组内容特征和来自所述第二数据流的第二组内容特征包括：识别所述第一数据流和所述第二数据流的本地频率分解内的峰值。

22、如权利要求21所述的方法，还包括：

根据本地频率分解来计算矢量；以及

确定由所述矢量所表征的特征。

23、如权利要求1所述的方法，其中，内容特征为数据流的频谱峰值。

24、一种计算机可读介质，其中存储有用于使中央处理单元执行权利要求1的方法的指令。

25、一种识别数据流内的内容的方法，包括：

接收包括第二数据流的至少部分的第一数据流；

确定在所述第一数据流内包含的所述第二数据流的部分的长度；以及

确定所述第二数据流的哪部分是被包括在所述第一数据流内的部分。

26、如权利要求25所述的方法，还包括：

确定来自所述第一数据流的第一组内容特征，所述第一组内容特征中的每个特征出现在所述第一数据流中的对应时间偏移处；

确定来自所述第二数据流的第二组内容特征，所述第二组内容特征中的每个特征出现在所述第二数据流中的对应时间偏移处；

识别处于所述第一组内容特征中的来自所述第二组内容特征的特征；以及

根据处于所述第一组内容特征中的来自所述第二组内容特征的特征的对应时间偏移，确定所述第一数据流内的所述第二数据流的部分的长度。

27、一种识别数据流内的内容的方法，包括：

识别处于所述第一组内容特征中的来自所述第二组内容特征的特征；

根据所识别的特征，识别时间对集合，其中，时间对包括与来自所述第一数据流的特征相关联的所述第一数据流中的时间偏移、以及与来自所述第一数据流的特征所匹配的来自所述第二数据流的特征相关联的所述第二数据流中的时间偏移；以及

识别具有线性关系的所述时间对集合内的时间对。

28、如权利要求27所述的方法，还包括：确定所述第一数据流内的所述第二数据流的部分的长度。

29、如权利要求28所述的方法，其中，确定所述第一数据流内的所述第二数据流的部分的长度包括：

在具有线性关系的所述时间对集合内，识别最早的对应时间偏移和最晚的对应时间偏移；以及

计算所述最早的对应时间偏移和所述最晚的对应时间偏移之间的差。