CN1997989A

CN1997989A - 用于自动检测和标识广播音频或视频节目信号的方法和装置

Info

Publication number: CN1997989A
Application number: CNA2005800062416A
Authority: CN
Inventors: C·关
Original assignee: Mediaguide Inc
Current assignee: Mediaguide Inc
Priority date: 2004-02-26
Filing date: 2005-02-16
Publication date: 2007-07-11
Also published as: WO2005081829A2; US8468183B2; AU2005216057A1; US20130318096A1; EP1730105A4; MXPA06009614A; RU2006134049A; WO2005081829A3; CA2557198A1; IL177556A0; EP1730105B1; EP1730105A2; KR20060135794A; ATE543140T1; US20070168409A1; US9430472B2; JP2007534008A

Abstract

本发明涉及对广播节目的自动检测和标识，例如通过收音机、电视、因特网或其他媒质广播的音乐、演讲或视频。“广播”意味着任意的有效内容资源，不论是已知的还是今后发明的，其包括流线型、对等传输或者网络流量的检测。通过在节目期间为许多短时间段的每一个导出数字代码，以及通过存储数字代码的序列和参考节目标识来登记已知的节目。输入信号的检测和标识通过类似地从其上抽取出数字代码，以及通过比较检测的数字代码的序列和存储的序列而进行输入信号的检测和标识。提供可以优化存储节目的正确检测率的测试标准。其他的在比较处理中优化被用来加快比较进程。

Description

用于自动检测和标识广播音频或视频节目信号的方法和装置

发明背景和内容

本发明涉及广播节目的自动检测和标识，例如音乐或演讲，其通过收音机、电视或因特网或电视信号被广播，无论该广播是以模拟、数字或通过英特网上的数字。通过“广播”意味着任意有效的内容源，无论是现在已知的还是今后发明的，包括，例如流线型、对等传输或下载或流动或者网络流量的检测，包括当前内容传送功率。该系统最初存储已知的节目，通过数字采样该节目并把数字采样流分成大的时间上的片断(segment)集合。接着处理这些片断来抽取特定的特征集合，即片断的特征。本发明处理每一组特征来产生数字代码，其代表用于已知节目特定片断的特征集合。这些代码和标识节目的存储数据存在作为系统一部分的数据库中。一旦完成了一个或更多的存储，通过从输入信号中抽取特征集合，为每一个时间片断产生输入到系统中的数字代码并接着比较检测的数字代码和存储在数据库中的数字代码的序列，该系统接着可以检测并标识广播信号中寄存节目的存在。在比较处理中应用各种测试标准来减少假阳性(false positive)、假阴性(false negative)的比率并增加对寄存节目的正确检测。本发明还具有一定的改进并优化了比较处理使得其在相对短的时间里执行。

附图说明

图1：媒体广播监控系统的组成单元。

图2：从一系列的音频节目帧到节目标识的检测的检测算法的数据流程图解。

图3：模式(pattern)产生模块的流程图。

图4：初始频带边界如何导致模式在初始帧特征和以快速播放的相同音频节目的特征之间失配的例子。

图5：如果改变频带边界以获得在初始音频节目和以快速和慢速播放的相同音频节目的帧特征之间改善匹配的例子。

图6：新的频带边界设置导致音频检测算法的稳定，即使在音频节目中具有+/-2％的速度变化。

图7：DBS操作流程的图解。

图8：SRR算法的流程图。

表1-5：计算频带边界的例子。

具体实施方式

背景

本发明涉及一种自动标识大范围传播的节目，例如收音机、电视或通过因特网数字化传送内容。

在包括广告客户的广播节目中的版权所有者，需要测量他们的节目已经何时以及何地被广播，以便正确的计算演出版税，遵守领土限制或者验证按照日程安排已经播出的特定广告。传统的用于监控收音机或者电视的方法已经包括使用人员收听或者收看并且接着记录他们所听到或者看到的，或者可选的，基于收音机和电视台的广播记录。这是工作强度处理，其受限于效率或精确度。本发明的一个目标是使用改善的计算系统以使得该处理完全自动化。如此，音频或视频内容记录在系统，并且接着，在检测音频的情况下，来自电视或者其他广泛传播音频内容的其他源的无线电、声道被输入到系统中。在(检测)视频的情况下，视频信号从任何一种源被输入到系统中。通过本发明的方式，对所记录的节目内容的检测和标识会自动发生。

现有技术

有很多方法用来自动检测广播节目。这些技术通常属于两种类型的其中之一：提示(cue)检测或模式标识。在Miwa等人申请的美国专利NO1,225,967、Crosby申请的3,845,391，Greenberg申请的4,547,804举例说明了提示检测方法。这些技术是基于在发送之前插到节目中嵌入的提示。这些方法在本领域中并没有得到支持。在音频中，节目中的提示信号的放置已经限制了该方法的接受，因为，它需要节目所有者和/或广播公司的合作，这使得该方法是不切实际的。

模式标识方法通常依赖于其内容本身的光谱特征以产生唯一的标识码或标记(signature)。这样，标识内容的技术包括两个步骤：第一个是从已知的内容片断中抽取标记以提示到数据库中，以及第二个是从检测的内容片断中抽取标记并在数据库中寻找标记匹配以标识检测的内容。这样，优选的方法基于广播内容本身的特征来建立该内容独有的标记。例如，Thomas等人申请的US专利NO.4,739,398公开了一种系统，其采用一种已知的电视节目并为每一个视频帧在该帧内建立音频和视频信号之外的标记代码。最近，提出了用于因特网分配内容的类似检测系统，例如，Ikeyoze等人提出的PCT申请WO01/62004A1。

对于音频本身，Moon提出的U.S.专利NO.3,919,471公开了一种音频识别系统，其中只使用了音频信号，但是它在使用上是受限的，因为它目的在于使有效的时间片段(slice)表示的音频节目与输入的广播信号相关。Moon中公开的匹配方法是非常密集型的计算，因为它依赖于直接的信号相关性。另外，该方法是不受欢迎的，因为发现其在精确性上存在限制，尤其是，如果节目是时间压缩的或者在检测之前用其他的方式改变。它还倾向于伪造正确的标识并且如果扩展时间片断的大小来改善其正确的标识的话，其在计算上又会不经济。Lert等人提出的U.S.专利NO.4,230,990中提出了一种减轻相关性的计算工作量的方法，其通过把其和第一种编码方法进行组合来实现：在指示节目部分的开始的节目中检测人工编码或者一些其他的自然产生的标记，接着在预定数量的时间之后测量特征标记。该方法也只限于在音频上应用，其中音频编码必须提示到音频中以建立提示，这样，降低了它的价值或者需要内容源的合作，或者依赖于表示非常不可信的新的音频节目开始的自然标记。在Lert等人提出的U.S.专利NO.4,677,466还描述了一种对本发明的改进，其在测量和计算标记之前一直等待直到在信号中发生“可靠的情况”，但是该方法地可靠性受限于采样时间片断的大小。Thomas等人提出的U.S.专利NO.4,739,398通过在输入到本发明的标记产生进程中，随机的选择部分信号以采样，提供了一种数据处理负载问题。

Ellis等人提出的U.S.专利NO.5,436,653和NO.5,612,729公开了一种更复杂的计算唯一标记的方法，其中通过比较指定视频帧和在先前的视频帧中的相同测量之间的每一个预定数量的频带中能量的改变，得到相应于给定视频帧的音频标记。然而，匹配技术依赖于音频和视频前面的组合或者使用自然标记，在这种情况下，节目的开始和结束。因此，该方法具有和Lert有关只用于音频节目的相同的问题。

另外，Blum等人提出的U.S.专利NO.5,918,223公开了一种在音频节目中使用可听特征来为每一个音频节目创建单一标记值，尤其是，振幅、斜度(即，基频)、带宽、低音(即，节奏分析)、亮度(即，节目中频率响应的形状)和Mel-频倒谱(cepstral)系数的组。这些横跨视频周期的详细特征的集合产生很多不同的结果，并且在实际的广播环境中并不具有足够的稳定性。Kenyon等人提出的U.S.专利NO.5,210,820和NO.4,843,562公开了一种数字电路，其在音频信号中使用包络(例如，音量)特征来建立标记。该方法通过使用时间变形技术被设计用于时间压缩问题。基于音量会有其他的稳定性问题，即在实际环境中使用中存在困难。Well，Maxwell等人提出的U.S.专利NO.20030086341公开了一种系统，其中使用预定数量的数字采样来建立音频标记，该数量从音乐的开始点的预定位置开始计数。该方法在用于广播或者以模拟的形式检测音频的情况，或者节目重放已经改变了速度，或者已经应用了原始轨迹的频率均衡，或者把音频配音提示到节目片断中的情况。

本发明描述了一种系统和方法，借此，可以对已知音频和视频节目标识而不依赖于一前一后的视频信号(在音频情况下)或者在信号中标识节目的已知时间的标准化的标志，并且以唯一的和新颖的方式来计算表示音频节目特性的代码，而不需要不切实际的计算容量。该系统和方法的优点是精确，快速、稳定的重放速度改变并且能实时执行标识处理，这不依赖于任何的嵌入提示或水印。另外，本发明利用低成本的有效性，高效的计算平台来执行高速数据搜索方法。

详细描述

A.概述

在本发明中具体体现的广播监控和检测系统工作在两个阶段中：登记和检测。在登记阶段，通过发送节目，已知的节目内容作为数字数据登记在系统中。在这种情况下，一系列的标记，模式矢量以及现有技术中通用的“指纹”或“标记”，作为数据序列记录存储在数据库中，交叉参考它们的节目内容的标识，作为一个组。在第二个阶段，未经标识的节目输入到系统中。这种节目可以包括收音机、电视、因特网广播或者任何其他的音频或视频节目源，可以是陆地广播、卫星、因特网、有线电视或是其他任意的分集媒体，可以是现在已知的或是将来设计的。在监控这种节目时，不停地计算节目的模式矢量(或者任意的其他标记生成技术)。接着所计算的模式矢量用来在数据库中搜索匹配。当找到并且证实匹配时，系统使用数据库中的交叉参考标识来提供对内容的标识，该内容是当前播放的内容。在优选实施例中，系统是在计算机上运行的软件，然而，可以想象到，特定目的的硬件组成单元可以取代部分或者所有的模块来提高系统的性能和容量。

在优选实施例中，包含中央处理单元的计算机连接到声卡和接口设备上，在接口设备中给出了音频节目。在登记阶段，CPU从声卡中取出音频或视频数据，计算模式矢量数据，并且接着与定时数据和节目的标识一起，把这些结果存储在数据库中，如下面进一步描述的。可选的，数据可以直接从可信的媒体，诸如CD、mp3或者任意其他的包含信号的数字数据源下载。对于非音频应用，媒体源可以是DVD盘，电影制片厂的原底反转片、磁带或任意其他的媒体方式，在其上固定并且存储有节目。当然，对于一些没有可靠的有效资源的媒体，音频或其他节目信号用下面的方式使用。如果系统周期性地检测未知的节目，但是实际上每次基本都是相同的标记集，其为节目媒体指定任意的标识符并且把数据输入到数据库中如同在登记阶段已经引入了该节目。一旦在将来确定了节目的特性，那么数据库可以被更新以包括作为可信信息的适当信息，同时，使用检测数据提供节目的所有人，即使节目的特性还不知道也是如此。数据库，其典型的是通过任意类型的计算机总线或包括SCSI的数据传输接口，存储在连接到计算机的中央处理单元的硬件驱动器上的数据文件。

在检测阶段，CPU从声卡或音频卡中取出节目数据，或者从存储在计算机硬件驱动器的数据文件或者是外部媒体阅读器中下载。CPU计算模式矢量数据，并且接着，连同定时数据，向存储在硬件驱动器中的数据库提交数据库查询。该数据库可以是与计算机中相同的硬件驱动器，或者是通过数字计算机网络访问的外部硬件驱动器。当找到匹配数据时，CPU继续处理数据以确定节目的特性，如下面进一步描述的。CPU接着通过现有技术中已知的各种计算机网络系统把标识结果发送到将在使用图片用户界面的屏幕上播放的远端位置，或者是将在存储于硬件驱动器上的另一个数据文件中注册(的远端位置)。执行该方法的程序可以存储在任何类型的计算机可读媒体中，例如，硬件驱动器、CD-ROM、EEPROM或软盘并且可以在运行时下载到计算机存储器中。在视频的情况下，可以使用模数转换卡获得信号，或者数字视频数据可以直接从数字图像源中直接检测出来，例如因特网或数字电视广播。

该系统由四个组成单元构成。图1示出了四个模块之间的连接关系：(1)信号处理过程在前端，(2)模式生成模块在中间，(3)随后是数据库搜索启动模块，和(4)节目标识模块在末端。在登记阶段，模式生成模块的结果，即产生用于已知音频或视频内容的标记，存储在数据库中并且搜索和模式标识模块未被使用。

每个模块的功能在下面作详细的描述：

1、声音获取(SA)模块

SA模块，(1)，从声音检测电路接收音频数据并使其可用于其他的模块。普通技术人员将认识到会有各种产品可以接收模拟音频或视频，并且可以把这些信号转换成数字数据。那些设备可以是任意的数字音频数据源，包括个人计算机的接口卡，其把模拟音频转换成可以由计算机CPU访问的数字音频数据，以标准格式输出数字音频数据的孤立设备，或具有音频输出的数字无线接收机。可选的，数字形式的预检测信号可以通过典型的数据网络从连接到系统的存储设备中存储。SA模块有规律地从数字接口设备或数据存储器中读取数据，并且把数据读到数据缓存或存储器中以便可以让模式生成模块访问。普通技术人员将认识到典型的数字音频系统每隔一定间隔提供数字消息(word)，称作采样率。表示音频信号的数字命令的序列是数字音频采样。本发明把采样组织成许多时间帧，其由预定数量的采样组成。时间帧存储在序列中。可选的，存储在计算机存储器(如果系统支持内存分页或交换，那么其包括硬件驱动器)中的数据结构，可以用在时间帧非物理地存储在序列中，但在逻辑上可以在序列中被引用或索引的地方，该序列通过存储器寻址的方式而被检测。

在优选实施例中，音频信号用已知的方式调节，包括低通滤波器。在优选实施例中，信号在SA模块中以8000Hz的速率采样。在优选实施例中，16,384个采样组成单个帧。以这个速率，在采样信号之前必须被低通滤波以防止混淆。然而，在下游计算随着适当的调节而使用较高的采样速率，如下面解释的。

在视频节目的情况中，声音获取模块本质上以类似的方式运作：视频信号作为数字视频信号而获得，并在一个视频帧上通过帧基础使用已知的方法被转换到频域上。下面将通过描述优选实施例，描述本发明当应用到视频上时内容。然而，系统和所描述的处理可以应用到视频和音频上，其中，周期性的从视频信号中获得标记或模式矢量。可以参考由Charles A.Poynton、John Wiley Sons提出的“A TechnicalIntroduction to Digital Video”，New York，1996。

2、模式矢量生成(PG)模块

检测阶段的PG移动操作，(2)，获取存储的数字音频或视频采样，该采样被检测并且由SA模块存储。一旦收到采样帧，PG模块将计算帧的模式矢量，并且当在检测阶段，以数据库查询的形式发送该模式矢量到数据库搜索模块。在登记阶段，PG模块计算模式矢量以便其被存储在数据库中，与有关已知的音频或视频节目的其他相关信息相关。模式矢量的计算在下面作进一步描述。

帧间距

对于每一个增加的音频采样，能够开始一个新的帧。也即，当N是帧中的采样数量时，每一个音频采样可以由N个重叠帧构成。在这些重叠帧之间的距离是帧间距。对于模式生成的较短的帧间距减轻了节目开始时间不确定性的问题。当开始时间未知时，较短的帧间距产生更好的结果。在优选实施例中，在音频节目登记阶段，使用大约一个帧的1/4即4000。其他的距离可以用来增加精确度或者减少计算时间和存储开销。因此，在优选实施例中，已知音频节目的数据库中的第一个帧相应于音频采样1到16,384，第二个帧相应于采样4001到20,384，等等。在检测阶段，帧间距设置成与一个帧的长度相等。这样，检测的音频节目的第一个帧包含采样1到16,384，第二个帧包含采样16,385到32,768，等等。

尽管在优选实施例中使用的设置是8000Hz的采样率、16384个采样的帧大小，4000的帧间距，但是随着不同的结果可以使用不同的采样率。例如，16000Hz的采样率(优选设置的两倍)导致32768的帧大小(两倍的大小但是持续时间相同)，8000的帧间距(在0.5秒时帧间距是相同的)并产生当使用优选的设置时(产生的模式矢量)几乎相同的模式矢量。唯一更多的改变是为了确定哪些快速傅立叶变换(FFT)系数将包括在每一个用来计算模式矢量的次频段中。例如，采用优选的设置，(忽略下面解释的速度补偿方案)，频带1包括第66个到第92个FFT系数。用上面可选的例子，FFT系数将是第32个到第94个。假设8000Hz的采样率，因此而调整模式矢量的计算。

在视频的情况下，模式矢量从每一个视频帧的二维FFT转换中获得。视频帧可以考虑用类似于在音频的情况下的采样。这样，可以跨越视频帧来采集垂直和水平FFT系数，以建立用于每一个时间帧的模式矢量，该时间帧由一组视频帧组成。普通技术人员将认识到可以组合这些方法，因为电视节目的音频声道特征可以与相同节目的视频信号的特征相组合来产生模式矢量。

3、数据库搜索(DBS)模块

一旦收到PG模块的查询后，该模块(3)，将搜索包含已知节目的模式矢量序列的数据库。如果找到了匹配，那么模块会返回一组登记号，否则相应于一组音频或视频节目的标识和在匹配发生的那些节目中的时间帧号码，在这儿称作节目-标识符(id)和帧-标识符，也称作帧号码。如果对数据库的搜索没有找到匹配，DBS模块将分配NO-MATCHED标志。可以预期到，用于DBS模块的本发明的方面适用于任意种类的包含信号标记的数据集合，连同使用不同于在模式矢量生成模块中使用的技术而获得的标记也都适用。

4、节目检测和标识(SDI)模块

该模块(4)，在最近的N个连续的时间帧上监控来自DBS的匹配结果，如下面进一步描述的。在优选实施例中，N设成5，虽然随着各种结果，也可以使用较大的或者较小的数量。使用两种方案来确定任意的音频或视频节目是否已经确实被检测。第一个方案是多数投票同意的方案，其确定，在N中匹配模式矢量的每一个线程中，处理有效序列的帧的数量是否通过指定的主要帧块。第二个方案是帧排序方案，其在每一个潜在的线程之后，并且计算在组成一个有效序列的线程内有多少帧。如果存在这样的线程，即其中多数的连续帧满足帧排序需求，那么认为该节目(无论是音频或视频)在该线程中被检测。任何一个或两个方案用来抑制假的真正检测并用来增加正确的检测。在优选实施例中，两个方案都可以使用。给定一个被检测的节目(或者不止一个)，SDI模块将启动两个模式：1、标识模式：在这种模式下，模块记录所检测节目的所有参考信息，包括标题、歌曲作者、艺术家、记录标签、出版社或其他任意在系统的登记阶段输入的信息，连同检测节目的时间，以及检测该节目的时间。该信息将被登记在检测日志中。2、跟踪模式：在该模式下，如果广播的每一个新的帧的查询结果符合下面描述的排序的需要，模块通过监控跟踪每一个检测的节目。在该模式下，该算法被锁定直到查询的结果不能与排序需求匹配为止。一旦处在跟踪模式下，多个检测标志，包括整个跟踪过程和跟踪中心将被记入日志。

由PG模块产生的模式矢量送给DBS模块以便对数据库实施匹配搜索。其输出或者是NO-MATCHED标记，其表示DBS没有在通过搜索条件的数据库的帧中；或者是通过搜索条件的程序库模式的节目-标识符和帧-标识符。

SDI模块搜集DBS模块的输出以检测是否存在新的音频节目。如果存在，就标识所检测的歌曲。图1是从帧音频到其检测后的结果的算法流程图。只要产生了模式矢量，有关本发明在视频上的应用，其操作是类似的。可以想象到本发明用于SDI模块的方面适用于任何类型的包含信号标记的数据集合，即使是使用不同于在模式矢量生成模块中使用的技术而获得的标记。

模式矢量生成

PG模块读取一个信号帧，其最好是由16,384个采样组成，其采样速率最好设置成每秒8,000个采样。这样帧长度在时间上大约是两秒。使用在时间上更大或更小的采样或帧宽度可以得到不同的结果。给定x＝[x₁x₂…x₁₆₃₈₄]，该矢量包含一个信号帧，其中每一个x_i是第n个音频采样值，N元素模式矢量用下面的步骤来计算。在优选实施例中，N等于31。普通技术人员将认识到N的值是任意的，并且可以随着各种结果减少或增加。例如，渐减的N减少了计算时间和存储的需求，但是会减少精确度。渐增的N使得结果相反。并且，所给出的方法将假设使用31元素模式矢量，以便简化本发明的介绍。普通技术人员将认识到当N增加或减少时，根据该目标是增加精确度还是减少计算复杂性，相同的方法都可以运行。

1、x的傅立叶变换用与帧的采样量相同的点的数量来计算，以便得到频谱矢量。

X＝[X₁X₂…X₁₆₃₈₄]

把FFT频谱值分到指定宽度的频带上，其中在优选的实施例中，该宽度是64Hz。将进一步解释本发明有关的优选实施例，以便简化该说明，但不限于本发明要求的范围。

频带#1是从0到64Hz，频带#1包含FFT系数X₁到X₁₃₁

频带#2是从64到128Hz，频带#2包含FFT系数X₁₃₂到X₂₆₂，等等。

2、计算每一个频带的矩心(或重心COG)：

p_{k} = \frac{Σ_{m = 1}^{131} m \times X_{131 k + m}}{Σ_{m = 1}^{131} X_{131 k + m}}

在优选实施例中，只使用频带2到32，因为频带1是包括0Hz的最低的频带，其并不经常在FM无线传输中使用；并且频带32覆盖直到1800Hz的频带，其典型的是用来对音频指纹编码的有效带宽。当然，如果需要的话，可以使用更高的或更低的频带。用来说明信号特征的更高或更低的频带内容可以根据经验来确定。第一步，其中所搜集的用来计算步骤2中的矩心的FFT系数不同于在视频中的情况。在视频的情况下，FFT系数必须从复杂的平面中或者在Poynton的文章第23页中提到的二维空间频率平面中的位置中选择出来，其中Poynton的文章通过参考在此结合。这些位置类似于视频情况中的频带。在某种意义上类似于使用预定音频中的频带，在频域中垂直/水平面上预定的区域可以被定义并且在每一个区域中的FFT系数值用来计算相应于该区域的元素。一旦作出选择，可以用相同的方式计算其矩心。有利的是，忽略包含帧速率、同步速率、子载波、或行速率的频率区域。最后的结果基本上等同于音频情况：每一个视频时间帧将具有一个与存储在数据库中的(模式矢量)相关的模式矢量。

在步骤3之后，获得31元素的矢量：c＝[p₂p₃…p₃₂]＝[c₁c₂…c₃₂]。在优选实施例中，另一个步骤把c转换成无符号整数。因为在c中所有的元素在区间(1，131)中是正的，因此使用该无符号格式。另外的有关c的计算是把每一个元素除131归一化成0和1之间的值，这个131是每一个频带中的FFT元素数量：

0 \leq c_{i} = \frac{c_{i}}{131} \leq 1

在优选实施例中，每一个元素接着转换成无符号化的16位整数格式以方便存储并进一步处理。为了在下游减少时间的计算，相对于最小的阈值检测每一个FFT系数或者c_i。设置该下游的处理以忽略这些元素，例如，通过在下游设置中不包含这些搜集用于进一步计算的元素的方式。图3示出了该模块的流程图。在优选实施例中，步骤1中的FFT和步骤3中的矩心(COG)的计算典型的使用双精度浮点指令来实现。

速度补偿方案

本领域的普通技术人员将认识到为了各种原因，广播节目经常在普通节目的速度上加速。因此，当检测的音频节目可以与在登记阶段提供的音频速度不同时，音频节目检测系统是关键。为了缓解这个问题，可以修改模式矢量生成公式：

(a)该修改将具有步骤2中每个频带的不同数量的FFT元件(即，带宽)。

(b)在优选实施例中，在检测阶段，对模式矢量生成公式的修改只应用到输入的广播音频信号，而在音频节目的登记阶段并不应用到模式矢量生成处理中。普通技术人员将认识到，在登记阶段，随着基本相同的结果，用于检测阶段的上述可选的频带的使用可以选择执行。

该修改的详细细节将在下面描述：

该公式是根据快速傅立叶变换的缩放特性的。

一首歌曲的时间加速形式是对原作的时间缩放的形式：

a＞1，其中a是加速的速率，并且x(t)是在时刻t的检测的采样。注意到，对于a＞1，时间轴被“压缩”。如果歌曲以2％被加速，我们得到a＝1.02。

具有缩放特性的矢量a可以用来调整傅立叶变换的值：

这样，快速重放的频谱，或歌曲的加速形式(version)被加长。随着2％的加速速率，在加速后，以没有任何歌曲加速的100Hz的傅立叶变换频率成分切换到102Hz。这意味着，如果在检测的歌曲中存在2％的加速，那么在步骤2中的带宽应该根据1.02×64Hz＝65.28Hz进行调整，并且因此，在每一个频带中FFT分向量的数量将被调整到131×1.02的四舍五入整数，其等于134。由两个公式用来计算每一个频带中FFT分向量的数量，每一个方法都是基于FFT分向量的原始数量，其等于131。

公式

(1)给定加速速率r。

在频带#1开始，其包含FFT系数X₁到X_z(1)，其中z(1)＝131×(1+r)的四舍五入整数。

(2)迭代计算每一个z(k)＝[z(k-1)+131×(1+r)]的四舍五入整数，其中

k＝2到32。频带#由Xz(m-i)+1到Xz(m)的FFT系数构成。

(3)计算具有上面计算的新的频带划分的频带#2到频带#32的矩心(COG)。用相应带宽中的FFT成分的数量通过划分每一个矩心(COG)来训练归一化。

在图4和图5示出了具有和不具有压缩的不同。图4示出了导致原作和其加速变量之间的模式失谐的原始带宽设置。图5示出了修改的带宽设置给出非常好的指定模式匹配，加速速率是已知的。稳定的(robust)模式矢量生成公式

上述的模式矢量生成公式可以进一步的精确以便提供稳定的匹配。该精确度还可以用来替代先前的公式。除了使频率轴加长之外，加速的另一个效果是每个频带中频率的边界线的偏移。该精确度是为了通过延长带宽补偿频带边界的偏移，使得由于重放速度引起的偏移数量只占带宽小的比例。因此，不需要修改算法，也即，除了频带位置有改变之外，和计算模式矢量一样来计算矩心。在登记处理期间，使用该修改的频带边界来建立存储的模式矢量。普通技术人员将认识到几种可选的方法可以用来计算频带宽度，其给出了相同的特性，也即，扩展带宽使得由于重放速度变量引起的频偏相对很小，其中由于重放速度改变引起的频偏百分比是每一个频带宽度的小的百分比。此外，可以预料到的是，该技术可以用于任意的计算信号标记的方法中，该方法是基于把FFT系数分成频带。下面将以优选实施例的形式来描述一种具有这个影响的计算修改的频带分界线的方法。

用来计算新的频带边界线位置的算法：

在频域中号码为k的频带的开始和结束索引(index)分别为s_k，1，s_k，2，也即FFT系数的索引。例如，索引s_1，1等于1，并相应于第一个FFT系数是0Hz。假设偏移-带宽比，其是期望的最大加速百分比除以带宽的百分比得到的，该偏移不会超过该带宽。在优选实施例中，假设该值是5％，但也可以使用其他的值以便增加精确度或者减少计算复杂度。

1、从频带k＝1开始，其开始位置是s_1，1＝1，假设a 2％的加速，该位置从0,02偏移到1.02，在四舍五入之后还是等于1。因为结果的索引必须是整数，因此四舍五入是必须的。假设偏移-带宽比等于频带#1的带宽的0.4(其是2％的偏移除以5％的带宽，偏移应该给出的数量)，接着结束位置s_1，2＝(1+.02/.05)×s_1，1＝1.4，或者在四舍五入之后是1。

2、现在进行计算频带#2的两个位置。开始位置S_2，1＝2。给定2％的偏移和5％的偏移-带宽比，我们得到S_2，2＝3。

3、继续上述步骤直到用完所有的FFT分量。在优选的实施例中，没有使用这些结果(相应于31.25Hz的较低序号的频带S_k，1＜64，和相应于2,686Hz较高序号的频带S_k，1＞5500)。

4、当k等于9时，S_9，2＝66，并且当k等于10时，S_10，1＝67，等等。为了避免由于沿着k的每一个频带的带宽以k指数的增加而导致的溢出，优选的实施例任意的设置S_10，1＝66，以便当k迭代达到k＝22时，s_22，2＝5298。表1给出了结果列表。

5、在这点上入口的数量只有13个，但最好是共有31个入口(entry)，其中每一个入口相应于模式矢量的指定元素。

第二批频带通过采用步骤3中获得的每一个带宽的中间获得。获得另外的12个频带，如表2所示。

6、在这点上有25个频带。剩余的6个频带通过组合两个表中的频带获得。特别的，两个表中的入口1和2被合并，入口3和4被合并，入口5和6被合并来构成6个之多的入口，如表3所示。

通过上面的组合，31个频带的开始和结束位置在表4中给出。

在图6中示出了有关一帧信号的检测结果来论证对+/-2％的速度改变的稳定。

加速补偿和固定公式的组合

如果加速补偿被合并，那么上述用于调整频带边界的两种方法可以组合。加速和频谱扩展之间的关系被用来组合该两种方法。第k个子频带，开始和结束位置＝[s_k，1，s_k，2]，具有稳定的+/-2％的速度改变。每一个值乘以(1+r)，其中r是加速到[s_k，1，s_k，2]的量，接着用上面描述的四舍五入的方法。在新索引

中的结果，其具有固定的速度改变，偏移到r+/-2％。大体上，在先前的表格4中的新表格中，其中值乘以(1+2％)，并且接着使用相同的四舍五入方法。现在在登记阶段使用表4从已知的音频节目中创建模式矢量，该节目位于数据库中。在检测阶段使用表5从检测的输入广播创建模式矢量，该广播在DBS模块中使用以便在数据库中找到匹配的数据记录，如下面进一步描述的。这样，可以组合两种方法。以例子的方式，设置r＝0.02(2％)，并处理表4种的每一个频带，计算一组新的子频带，其具有0到4％的固定速度改变，如表5所示。

用2％的加速补偿来获得表5。在2％加速补偿之后的新的31对开始和结束位置添加到表4的列表中。这个结果来自处理广播的检测的歌曲。

有效的补偿决定了该方法具有从0到4％的稳定的速度变量。普通技术人员将认识到可以使用相同的方法来减少速度变量的影响，其中变量范围在零附近(above and below)，也即减慢或加速重放。

数据库搜索(DBS)模块

数据库搜索模块从PG模块中获得每一个帧的模式矢量并集合一个数据库查询以便把该模式矢量与具有相同模式矢量的数据库记录相匹配。使用软件匹配方案来确定在数据库查询与存储在数据库中的模式矢量之间的匹配。相反，硬件匹配方案对于每一个查询允许最多一个的匹配入口。软件匹配方案对于每一个查询允许不止一个的匹配入口，其中在遇到一个错误的阈值时，该匹配位于模式矢量足够靠近查询矢量的地方。匹配入口的数量可以是下面的任意一种：(i)限于一些最大量，或者(ii)限于在查询和数据库入口之间的最大允许差错。可以使用任何一种方法。软件匹配方案基于这样的事实，即在登记阶段，节目模式将被过采样。例如，在优选实施例中，用于登记的帧间距只有其用在检测阶段的1/4。因此，希望如果特定节目的第m个帧是对查询的最好的匹配帧，那么其邻近的帧，例如第(m-1)个帧和第(m+1)个帧，也将具有好的匹配。针对在广播环境中固有的不同信号条件，软件匹配和排序方案的组合效果加强了检测系统的稳定。

当找到匹配时，数据记录中相应的节目-标识符号和帧号被返回。图7的流程例示了在DBS模块中的流程。本领于普通技术人员将认识到，如果用强制手段来实施跨越一个变量的搜索以找到变量的位置是很消耗时间的，该变量在非常大的数据库中的给定了容差内匹配。为了计算时间问题，执行两部分搜索。在部分1，范围搜索方案选择那些靠近查询的入口。在部分2，对部分1中潜在的选项精确搜索以便选择候选集合，其是最靠近查询的邻居。

下面详细描述其步骤：

1、在检测阶段，从PG模块产生的模式矢量中组合查询。

2、执行最近的邻居搜索算法，其由两部分组成。部分1执行近似搜索方法。特别的，使用范围搜索(RS)方案来确定数据库的哪个入口落在靠近查询的范围内。部分2执行精确搜索方法。来自部分1的结果根据他们到查询的距离而存储。该搜索算法可以是(i)返回最好的M个结果(根据其到查询的最短距离)，或者是(ii)返回所有的距离小于一些规定阈值的结果。可以使用任何一种方法。下面更详细的描述，最相邻的算法可以用两种算法替代，这两种算法在执行搜索时提供较好的计算时间性能。

3、如果存在匹配，那么输出节目-标识符号和相应的帧号。如果有多个匹配，输出所有的节目-标识符号和相应的帧号。

如果没有匹配，输出NOMATCH标志。

范围搜索需要模式矢量，其在一个容差内匹配，不需要在每一个情况中都完美的匹配。从几何学的观点来看，范围搜索标识了哪组入口包含在多边形中，在该多边形中由容差参数来确定其维数。在优选实施例中，多边形是31维的超立方体。

范围搜索(RS)公式

在优选实施例中，模式矢量是1×31的矢量：c＝[c₁c₂…c₃₁]，其中c是搜索匹配时检测的模式矢量。频带的数量，如上所述，可以多于或少于31，随着各种结果，可以交替使用增加精确度或计算复杂度。搜索算法将使用31个元素矢量描述，但是普通技术人员将认识到，这些方法适用于任意大小的模式矢量。该模式矢量是M×31矩阵，其中M是存储在数据库中的模式矢量总数，31表示在模式矢量中的元素数量。M是可能的大数，如下面所论证的。假设整个数据库用矩阵A表示。

那些在库中的模式矩阵被称作库模式矩阵。在优选实施例中，每一个矢量z是在登记阶段用已知的音频内容所计算的31个元素的模式矢量，其用来在检测阶段搜索检测。在检测阶段，标识训练是为了定位一组库模式矢量{z_opt}，其被附在容差参数确定的超立方体上。

搜索入口可以表示成任意z^*的标识，即

在优选实施例中，使用L1标准，其中||x||＝|x₁|+|x₂|+…+|x₃₁|是x的L1标准。因此

其中e_m，n称作c和z_m之间的第n个点差错。

在整个库中用RS算法对z^*的搜索是基于对点差错的满意标准。也即，每一个点差错少于一些容差，并且在优选实施例中，L1标准少于特定的数量。普通技术人员将认识到对于每一个元素的容差和L1标准可以是相同的也可以是不同的，其改变了搜索的效率。

该容差的确定是基于一些经验上测量差错的统计方法。另外，可以认识到，除了第一个序号L1标准外，还可以使用其它测量差错的方法。搜索问题现在变成一个范围搜索，其在现有技术的其它地方进行了描述。参考在J.E.Goodman and J.O’Rourke编辑的HANDBOOK OFDISGRETE AND COMPUTATIONAL GEOMETRY，第575-598页，Boca Raton，NY，1997，CRC Press中的P.K.Agarwal撰写的范围搜索，C++代码也可以从Telos Pr出版，1997，ISBN：0387948600 SteveSkiena撰写的The Algorithm Design Manual中得到。

下面是本方法中用来确定z^*的步骤：

1)设置L等于包含所有库模式矢量的索引的索引集合：

L＝{1，2，3，…，M}

2)开始于n＝1

3)计算c的第n个元素到每一个z_m，n的第n个元素之间的e_m，n，其中m的范围从1到M。

4)更新L到只包括那些模式矢量的索引，其中第n个点差错小于规定的容错T_n：

L＝{1≤m≤M，其中e_m，k＜T_k，1≤k≤n}

Tn可以任意设置。在优选实施例中，Tn设成c_n值的10％。

5)如果L现在是空集合并且n≤31，

那么退出并给出NO-MATCH标志。

否则：设n＝n+1。

如果n＞31，到步骤6。

否则：到步骤3。

6)计算在L到c之间的所有模式矢量之间的差错：

e_m＝||z_m-c||；m∈L

通过检查所有的e_m来确定最好的解决方案并且得到z^*。可选的，为了软件匹配的目的，可以使用两个标准的其中之一。标准1：只选择具有小于某些规定阈值e_max的差错的z_m。

标准2：从L中选择最好的M个候选者，其中M个候选者是距离第M个差错大小最小的差错大小。

一旦确定具有最好的L1匹配的索引m，该索引用来获得相应于模式矢量z_m的数据记录。该数据库模块接着输出节目-标识符和相应的帧号。

注意到，在第n次迭代开始时，索引集合L包含库模式矢量的索引，其从m＝1到n-1的点差错通过容查检测。在第N次重复开始时，索引集合L是：

L＝{1≤m≤M，其中e_m，k＜T_k，k从1到n-1}

RS算法的流程如图8所示。

可以预料，本发明应用于音频节目的库大小，M，对于30000首歌曲来说是1千万的数量级。下面示出了该估计：

歌曲数量＝30,000

一般的歌曲长度＝204秒(3分24秒)

采样率＝每秒8,000个采样

帧大小＝16,384个采样

帧间距＝4,000个采样

每首歌曲的帧的数量是歌曲长度乘以每秒的采样个数，减去帧大小，得到的值除以帧间距。在优选实施例中，其大概是＝404个帧

具有30,000首歌曲的M＝12,117,120。

关于这个图，第一次重复需要大约12,000,000次减法和分支表述实施来更新标识集合L。下一次重复将可能会少，但也是以百万计的。并且存储器必须留出保存所有在容差检测中需要的减法结果的中间值的地方。

快速范围搜索算法

对本方法有一定的改善，即减少了为了找到z^*而必须执行的减法的量。并且更重要的是，执行时间不会按比例增加到与数据库大小一样快，其对于这个大小的数据库来说是特别重要的。获得这个改善的性能是以使用大量的存储器为代价的。然而，普通技术人员将认识到，由于计算机存储器成本历史性地在持续减少，其可以合理的交替使用。对RS算法的修改是使用标识而不计算精确的差错值。该修改在下面做进一步的解释。

用来获得检测的模式矢量和保存在数据库中的模式矢量之间的最好匹配的改进的搜索方法在这儿称作快速范围搜索算法。如前，A是由M行模式矢量构成的库矩阵：

每一行是指定的模式矢量。共有M个模式矢量，并且在优选实施例中，每一个具有31个元素。

步骤

1、把A每一列隔离开：

2、列中的每一个元素以升序存储

{\hat{Z}}_{1, k} \leq {\hat{Z}}_{2, k} \leq \cdot \cdot \cdot \leq {\hat{Z}}_{M, k};

k＝1到31

3、作为排序的结果，每一个元素z_m，k映射到

两个交叉索引表被构造：对于每一个k＝1到31，表R_k是

的映射，表T_k是

的映射。

普通技术人员将认识到排序和表格创建可以发生在登记阶段之后但先于在检测阶段对任何匹配的搜索。通过在登记阶段具有预先分类的模式矢量，该方法以在整个排序矢量上从搜索开始，如下所描述的。

索引搜索

给定查询矢量c＝[c₁c₂…c₃₁]以及容差矢量T＝[T₁T₂…T₃₁]，可以使用二元搜索方法来抽取落在容差之内的那些元素的索引。也可以采用其它的搜索方法，但是在log(M)的时间内执行的二元(binary)搜索是优选的。

步骤：

1、设置k＝1。

2、执行二元搜索以便在经过排序的列k：

到M中定位最靠近并

且多于或者等于c_k-T_k的元素

接着执行二元搜索来定位最靠近并且少于或等于c_k+T_k的元素

这样，在集合

{{\hat{Z}}_{\hat{m}, k}, {\hat{m}}_{L}^{k} \leq \hat{m} \leq {\hat{m}}_{U}^{k}}

中的所有元素都满足容差的需要。这样，在每一个列中两次使用二元搜索来定位

和

此外，让

作为包含所有

的索引的索引集合，其满足容差需求：

3、k＝k+1。如果k＞31，那么转到下一步。

可选的，处理可以计算哪一列具有最少量的通过检测的频带，并且在下一步中从这个数量的频带开始。通过增加经过排序的k值，其中相应的频带号从最小到最大，该结果可以比单一的在k上的增加迭代更快速的收敛。

4、重复步骤2和3直到k＝32以便获得每一对界限：

{{\hat{m}}_{L}^{k}, {\hat{m}}_{U}^{k}},

k＝1到31，并且因此确定31个

每一个Pk被单独获得。对于每一个k，在每一对

{{\hat{m}}_{L}^{k}, {\hat{m}}_{U}^{k}},

k＝1到31上封装的所有索引可以回转成使用Tk的原始索引。接着，对31组索引执行交集操作。

可选的方式是对第一个两组索引交集，其结果接着与第三组索引交集，等等，直到最后一组索引已经被交集。这由下面概述执行：

5、恢复k＝1。

6、在

中找回所有的索引，并存到阵列R中。

7、使用表T_k把在R中的所有索引转换成原始索引：

把所有的索引m存到集合S中。

使用表R_k+1把m转换成

(这样，在列1中给出的索引转换成在列2中的索引的表示)。接着看将要检测的结果是否落在

{{\hat{m}}_{L}^{k}, {\hat{m}}_{U}^{k}}

的界限内。

应用容差检测并产生

{\hat{m}, {\hat{m}}_{L}^{k + 1} \leq \hat{m} \leq {\hat{m}}_{U}^{k + 1}}

这样，对于第k个元素，每一个连续的将是先前的减去那些没有通过容差检测的索引。因此，在步骤6中当k＝30时，

是满足所有31次容差检测的索引。

8、k＝k+1。

9、转到步骤6并且循环直到k＝31。

10、这里，集合S是在31次交集循环后所有的原始索引。如果S是空的，那么给出NO-MATCH标志。否则，对于硬件匹配，我们继续定位唯一的获胜者，其例如可能是最接近的候选者。对于软件匹配，我们继续获得所有的有资格的入口。

进一步增加快速RS算法的速度

从步骤4开始，而不是从k＝1开始，接着k＝2，接着k＝3，…，直到最后，可以测量在每一列中候选者的总数。在每一列中的所有候选者的总数等于在每一个

中候选者的总数。接着改变k的顺序以便第一个检测的k位于具有最少的候选者的

的地方，等等，直到检索所有的k。接着对候选者的排序从具有较少数量的候选者的列开始。最后的结果与对以k顺序增加的31个索引的相同集合交集的结果相同，但是通过对k以升序重新排列，交集操作的次数被减少并且因此而加快搜索。

搜索增强器(booster)

普通技术人员将认识到，当前的搜索方法通常根据频带基本原理在频带上搜索。使用优选实施例的经验研究示出了用于该频带的在通过过滤的数据库中的60％到90％的入口搜索结果的初始迭代。假设数据库具有6000首歌曲标题，并且每首歌具有300个入口，那么将要搜索的入口总数是1,800,000个。随着60％的返回，在第一次交集之后，系统必须处理不止一百万的入口。如果最初的交集大小比较小，那么用来在单一搜索结果上收敛所需要的交集数量会减少。本发明的另一个目标是，在这儿称作辅助器，(是因为)用这种方式对搜索进行预处理以减少在开始处理交集中搜索结果的数量。

辅助器使用不同的索引方案以便不止一个频带可以集中在一起。通过辅助器的方式，在辅助器中的单一搜索循环等同于在范围搜索方法中的多个循环，并且因此提高了搜索速度。排序方案用来确定搜索的顺序以便最小化用于交集索引的搜索数量。为了建立该排序，在普通的范围搜索处理期间，计算每一个频带中的返回百分比的最大、平均数和标准偏差。这些经验上的结论用来选择将使用辅助器处理而集中在一起的频带。

辅助器索引方案是对二进制-十进制转换的扩展，其中二进制的元素的矢量转换成十进制的整数。这种扩展是简单的。特别的，如果大小为N的矢量的基数是M，其中M是整数，那么转换公式如下：

\overset{&RightArrow;}{x} = [X_{1} X_{2} \cdot \cdot \cdot X_{N}];

0≤x_k≤M-1

d_{\overset{&RightArrow;}{x}} = Σ_{n = 1}^{M} x_{n} M^{n - 1}

公式(1)

注意到公式的转换具有可逆性。也即，该公式可以用来把转换成因此，该转换具有一对一的关系，这使得每一个唯一的

可以从唯一的中计算得到。在优选实施例中，数据库保存模式矢量，每一个模式矢量按照16-比特的无符号整数来存储。这意味着每一个模式是可以看作一个编码矢量，具有M＝65536，并且N＝31，以及可以为每一个模式矢量计算唯一的

模式矢量的多维转换结果映射到一维空间中。对模式矢量的搜索，该模式矢量在距离查询矢量

\overset{&RightArrow;}{y} = [y_{1}, y_{2}, \cdot \cdot \cdot, y_{n}]

的必需距离内，其在别处称作容差需求而在这里称作间隙需求，用来定位数据库中的所有入口

\overset{&RightArrow;}{x} = [x_{1}, x_{2}, \cdot \cdot \cdot, x_{n}]

以满足间隙需求|x_k-y_k|≤Q；k＝1…31。在优选实施例中，编码是16比特，容差T_k是16比特范围的10％，这样使得Q＝10％×64k＝6554。实际上，使用值为6,000。

辅助器把每一个频带中的间隙需求(在别处称作容差需求)映射到相应的中的间隙需求。虽然，该搜索可以迭代地跳出所有的满足所有间隙需求的入口，但该方法的主要难点在于多个间隙需求导致

上的多个分裂(disjoint)段。尤其是，在

中用于标识有资格的入口需要31次迭代，其中转换成

并且第一次循环是用于频带1，第31次循环是用于频带31。普通技术人员将认识到，通过改变模式矢量中的频带数量，迭代的次数也会改变，但是本发明的宗旨是相同的。

为了避过技术难点，可以采用两种折中方案：第一个，只选择频带的子集包括在辅助器中，即，只对子集中的索引用公式1编码。第二个，使用较小的基数。第一个折中方案减少了迭代循环的次数，或者尤其是，减少了分裂段的数量，因此就CPU的实际速度而言在每一个段上的搜索是可行的。第二个折中方案减少了存储器的需求量，并且更重要的是，它允许对辅助器的搜索结果硬编码以便可以在辅助器中更快速地搜索。这个在优选实施例中的处理将在下面详细描述：

1、设基数N＝31。

2、从31个频带中选择3个。也可以选择更多或者更少的。然而，如果相对于M选择大量的频带，那么辅助器方法会变得更慢并且其有效性会受到更多的限制。如果太少，那么它不够精确并且不能加速，因此应该从经验上确定最佳的数量。

在优选实施例中，N＝31，从31个中选择3个。这种组合会得到：

(a)新索引的动态范围是从0到32767。因此每一个新的索引可以用2个字节来编码。

(b)搜索结果的硬编码：建立32768个仓库(bin)：仓库0到仓库32767。仓库m保存所有库模式矢量的索引，该模式矢量的3-频带元素在转换后得到值m。

4、搜索方法：

(a)给出查询矢量

\overset{&RightArrow;}{y} = [y_{1}, y_{2}, \cdot \cdot \cdot, y_{n}]

(b)选出三个指定频带中的元素。

(c)使用公式1把使用三个频带的查询矢量转换成一个数字。

(d)通过寻找转换的查询和变换的库模式因子之间最接近的匹配值m，收集所有的在三个指定的频带中满足间隙需求的库矢量的索引。

(e)把(d)中的索引传递到输出并恢复上述在那些索引集合中的逐个频带(band-by-band)搜索。

普通技术人员将认识到使用公式1对库模式矢量的转换可以在操作之前执行，以便减少运行时间的计算负载。

D、歌曲检测和标识(SDI)模块

SDI模块获得DBS模块的结果并且接着提供最终的音频或视频节目标识认证。SDI模块包含两个子程序：

1、检测-过滤有关检测过的歌曲数量的规律性

无规则的匹配，其中DBS模块返回不同的有关连续帧集合的节目-标识符号，是正常的，表示肯定没有节目正在被检测。相反，如果一致的返回，其中DBS模块一直返回相同的有关连续帧集合的歌曲数量，这表明节目被成功检测。

当检测到一致返回时，基于“大多数投票规则”的简单算法被用来阻止不规则的返回。假设DBS模块输出用于被检测的节目或歌曲的第i个帧的特定节目-标识符和帧-标识符。由于无规则的返回，该结果节目-标识符最初将不把其认为是在该帧中有效的节目标识。相反，系统把结果认为是i，i+1，i+2，…，i+2K的邻近帧(也即，非-重叠帧)，其中在优选实施例中，K被设在2到4之间。如果在这些(2K+1)个帧中没有主要的获胜者，那么该系统将给出歌曲数量＝0以表示在第i个帧中检测结果为空。如果有获胜者，即，至少(K+1)个帧与相同的节目-标识符号产生的帧i是邻近的，那么该系统将为第i个帧给出检测的歌曲数量作为这种多数获胜的节目-标识符号。普通技术人员将认识到，多数投票计算可以是很多种方式，例如，在某些应用于提供更有力的检测中是有利的，其中多数阈值是大于K+1并且小于或等于2K+1的值，其中2K+1的阈值将指定无异义的投票。这减少了对潜在地更多未检测的结果成本的错误肯定。为了这个目的，多数投票将被限定用来包括这些可选的阈值。为了计算速度，优选实施例使用中部滤波器确定主要投票。在Z被排序之后，在2K+1个号码的阵列中的中值，Z＝[z₁z₂…z_2K+1]，K＝1，2，…，是第K个入口。例如，如果Z＝[1，99，100]，那么Z的中值是99。用于这种计算的规则如下所述：

假设DBS模块为第n个帧返回节目-标识符#[n]。为了计算用于帧i的中值：

让x＝median([#[i] #[i+1]…#[i+2K]])

那么让y＝1-median{[sgn(|#[i]-x|)sgn(|#[i+1]-x|)…sgn(|#[i+2K]-x|)]}

其中

sgn (x) = (\begin{matrix} 1 & x > 0 \\ 0 & x = 0 \\ - 1 & x < 0 \end{matrix}

那么检测的结果是x倍的y相乘。该公式的主要特征是其可以在一个关口上执行而不需要循环执行和计数器。

2、节目标识

执行音频或视频节目使用多数规则进行检测，如上面所解释的，那么下一步将利用附加的认证测试来确定是否存在将被检测的歌舞的帧同步。尤其是，帧同步测试检测由DBS模块输出的用于每一个第p个帧的帧-标识符号是随着时间单一增加的，也即，随着p增加。如果不是，或者如果帧索引是随机的，那么检测宣告无效。下面是整个SDI的逐步(step-by-step)方法。在节目的一部分已经被重复的情况下，例如，在每次可以编辑到节目中的歌曲合唱，另外的基本上相同的而只是具有变化的时间帧的模式矢量将由DBS模块找到。在这些情况中，系统通过把他们存储在缓存中并把他们提交给下面解释的排序检测，向前传送这些结果。当开始排序检测时，这些中间结果的一些将具有时间帧索引，在排序检测下认为其是无效的，并且接着被忽略。如果存在单一的中间线程，那么检测的开始和停止时间被更新。

SDI算法和步骤

在检测了第p个广播帧之后，让s^p作为具有最多邻近2K+1个节目-标识符的构造：仓库

这里，s_m，n＝在第m个广播帧中将要被DBS模块检测的第n个节目-标识符。注意P_m是仓库大小。通常，对于不同的m，P_m是不同的。

相应的，f_p是另一个具有相应的帧号码或者帧索引的构造：

其中，f_m，n＝s_m，n的相应帧索引。

并且，SI＝上一个歌曲或者节目的节目_标识符，其被成功检测，以便顺利的满足投票检测和连续测试。建立寄存器以保存该结果直到检测到新的和不同的歌曲和节目。

步骤：

1、计算s^p的多数投票。

取出s^p的第一个仓库中的每一个节目作为参考。搜索2K个仓库的剩余部分来确定在第一个仓库中的任何节目是否通过多数投票需求。

2、如果w^p＝0，

p＝p+1。转到步骤1。

否则，如果是单元素集合(即一个集合里有一个元素)并且不等于零

设SI＝w^p。转到步骤3。

否则，如果具有不止一个的候选者

设SI＝w^p(具有多个节目匹配的情况)。转到步骤3。

在w^p中的每一个s_p，m执行步骤3-7。

3、对于D_p中的每一个s_p，m，从f^p中相应的帧形成矩阵A：

A = [\begin{matrix} 1 & f_{1} \\ 2 & f_{2} \\ . & . \\ . & . \\ . & . \\ 2 K + 1 & f_{2 K + 1} \end{matrix}]

其中，f_t是f^p中第t个仓库中的s_p，m帧。

如果在属于s_p，m中的第t个仓库中没有帧，那么f_t＝0。

4、实现对A的压缩，删除A中的第q行，其中f_q＝0。

5、用下面的步骤通过删除行来清除A：

A、从n＝1开始。

B、计算d₁＝f_1n+1-f_1n和d₂＝k_n+1-k_n。在执行步骤5之后，移除所有的不匹配节目-标识符的入口，该步骤只标识那些正确排序的入口。

C、这里，数量d₁是B中两个检测帧之间的的帧偏移。该数量也可以转换成实际的时间偏移：通过采样中的帧间距乘以该值和通过每秒的采样个数除该值。数量d₂是两个广播帧之间的帧偏移。d是两个偏移之比，其表示检测顺序的增长速率。特别的，在优选实施例中，系统期望理想的速率4作为用于d的值。然而，对d的弹性限制是实用的：如果[d₁∈(4[d₂-1]+2，4[d₂-1]+6)]，那么两个帧是以正确的排序。这样，对于d₂＝1，期望2到6个帧的偏移在两个邻近的具有相同节目-标识符的广播帧之间。如果d₂＝2，那么偏移是从2+4到6+4个帧。因此，除4个帧在范围上的额外偏移之外，该范围是相同的。2和6的数值是以理想值4为中心的范围。代替单一数值的范围允许偏移有1比特的弹性(变化)而不是固定的。为了更少的灵活性，可以选择的范围是从3到5。用相同的方式，该范围可以是从1到7以更加灵活。到步骤D。

否则，

n＝n+1，以便对B中的所有入口排序，

如果n＜N，

转到步骤C。

否则，

转到步骤D。

D、返回矩阵C。C中的每一行由满足排序需求的入口构成。

通过删除那些不能匹配排序需求的行来压缩B。另外，注意通过八B的第一个入口作为参考，如果第二个入口不满足匹配需求，那么进程会跳到第三个入口来看看其是否和第一个入口都满足排序需求。如果第二个入口满足需求，那么第二个入口变成第三个入口的参考。

这儿，再次强制进行多数投票需求。

如果C中入口的数量不满足多数投票需求，

那么入口s_p，m没有资格进行进一步的测试，返回到步骤3来获取D_p中的下一个入口。

否则，

继续执行步骤6。

再次使用多数投票测试，因为即使在步骤5中多数投票通过了，在用排序规则需求清理结果之后，多数投票测试也可能失败。如果修改的多数投票通过，那么新的节目或者歌曲已经被正确的检测，否则，就不存在检测。

6、让s＝C中入口的数量(即，行数)。

如果s＜K，转到步骤9。

否则继续执行回归分析：

A、让C₁＝[C₁₁C₂₁…C_s1]^T和C₂＝[C₁₂C₂₂…C_s2]^T分别作为C的第一和第二列，其中上标T表示矩阵转置。构造下面的矩阵用来回归分析。回归分析用来计算帧-标识符号码排序的线性测量：

D = [\begin{matrix} Σ_{n = 1}^{s} C_{n 1}^{2} & Σ_{n = 1}^{s} C_{n 1} \\ Σ_{n = 1}^{s} C_{n 1} & S \end{matrix}]

E = [\begin{matrix} Σ_{n = 1}^{s} C_{n 1}^{2} C_{n 2} \\ Σ_{n = 1}^{s} C_{n 2} \end{matrix}]

B、计算斜度和截距

C、还计算C的相关系数r。

7、如果[r＞0.9并且slope≥2并且slope≤6]，

那么有关入口s_p，m的线程已经通过了所有的测试并且对于跟踪模式是有效入口。把入口s_p，m和相应的线程存储到称作Final_List的寄存器中。

否则，放弃入口s_p，m。

继续对中D_p的下一个入口测试。

8、进入跟踪模式。每一个Final_List中的线程将被集体或者单独的跟踪。

9、开始跟踪模式：

A、创建小数据库用于跟踪：

i、在集体跟踪模式中，小数据块包含所有的Final_List中的合格入口的模式矢量。

ii、在单独跟踪模式中，用于每一个指定入口Final_List的只包含模式矢量的指定数据库为其入口而建立。

B、如果跟踪模式＝集体跟踪，

i、p＝p+1。

ii、运行对第(p+1)个广播帧的检测。

iii、更新每一个线程的顺序。通过观察该线程是否满足排序需求来监控每一个线程的指标。

iv、返回步骤i继续跟踪，是否存在至少一个满足排序需求的线程。

否则，退出跟踪。

如果跟踪模式＝单独跟踪，那么为每一个线程使用指定的数据库以用于跟踪。步骤与集体跟踪的步骤一致。

这里的排序需求与其在步骤5c中使用的步骤一样。也即，我们期望对于新的广播帧的检测的帧标识符是以单一的增加方式，并且在优选实施例中，在广播的连续帧之间的增加量是在2到6之间。

如果对于任意的将被跟踪的线程，相对于先前的帧，新的广播不满足排序需求，那么执行容差策略。也即，每一个跟踪可以有最多Q次的失败，其中Q＝0，1，2，…如果Q＝0，那么在不满足排序需求中没有容差。

C、在跟踪模式结束之后，检查每一个线程的指标。该具有最高分数的线程是Final_List中的优胜者。

i、该分数可以根据线程中的每一个帧与广播中的相应帧之间的差错计算；或者根据线程的持续时间来计算。或者同时根据两者来计算。在我们的优选实施例中，持续时间作为每一个线程的跟踪分数。跟踪周期中持续时间最长的就是获胜的线程。

D、如果在步骤2中有多个节目将被记录，通过获胜的线程的节目-标识符来校正该记录。

10、等待新的第p个来自广播的帧，返回到步骤1。

普通技术人员将认识到，在步骤6中用于检测连续帧-标识符的线性而使用的值可以被改变或者使得检测更加容易或者使得检测更加难。当与未检测的相比较，增加或降低正确标识的数量时，这使控制该结果是否增加假阳性或抑制假阳性。

虽然已经详细的描述并解释了本发明，但是可以清楚地理解上述仅仅是为了解释和举例，并且不是用来限制的。可以理解对本发明在单个实施例的上下文中所描述的用于明确的各种特征，也可以用于对单个实施例的组合中。相反的，在单个实施例的上下文中描写的本发明的各种为了简洁的特征可以用来单独地使用或者以任意适当的方式组合使用。可以理解，在附录中描述的特殊实施例，其目的是为了提供本发明的非常详细的内容而不是用来限定的。可以理解，如果需要的话，本发明的任何的软件部件可以以ROM(只读存储器)的形式来实现或者存储在任何类型的计算机可读媒体中，包括CD-ROM，磁性媒体，或者作为存储在计算机存储器的数字数据文件被传输。如果需要的话，软件单元通常可以使用常规技术以硬件的形式实现。

本发明的精神和范围仅仅由所附的权利要求书来限制。

表1

K

S_k，1

S_k，2

10	66	92
10	66	92	11	93	129
12	130	182	11	93	129
12	130	182	13	183	255
14	256	357	13	183	255
14	256	357	15	358	501
16	502	702	15	358	501
16	502	702	17	703	984
18	985	1378	17	703	984
18	985	1378	19	1379	1930
20	1931	2702	19	1379	1930
20	1931	2702	21	2703	3784
22	3785	5298	21	2703	3784

表2

80	111
80	111	112	156
157	219	112	156
157	219	220	306
307	429	220	306
307	429	430	602
603	843	430	602
603	843	844	1181
1182	1654	844	1181
1182	1654	1655	2316
2317	3243	1655	2316
2317	3243	3244	4541

表3

66

129

130	255
130	255	256	501
80	156	256	501
80	156	157	306
307	602	157	306

表4：在稳定模式的产生中31个频带的开始和结束位置

开始位置	结束位置
开始位置	结束位置	66	92
93	129	66	92
93	129	130	182
183	255	130	182
183	255	256	357
358	501	256	357
358	501	502	702
703	984	502	702
703	984	985	1378
1379	1930	985	1378
1379	1930	1931	2702
2703	3784	1931	2702
2703	3784	3785	5298
66	129	3785	5298
66	129	130	255
256	501	130	255
256	501	80	111
112	156	80	111
112	156	157	219
220	306	157	219
220	306	307	429
430	602	307	429

603	843
603	843	844	1181
1182	1654	844	1181
1182	1654	1655	2316
2317	3243	1655	2316
2317	3243	3244	4541
80	156	3244	4541
80	156	157	306
307	602	157	306

表5

开始位置	结束位置
开始位置	结束位置	67	94
95	132	67	94
95	132	133	186
187	260	133	186
187	260	261	364
365	511	261	364
365	511	512	716
717	1004	512	716
717	1004	1005	1406
1407	1969	1005	1406
1407	1969	1970	2756
2757	3860	1970	2756
2757	3860	3861	5404
67	132	3861	5404
67	132	133	260
261	511	133	260
261	511	82	113
114	159	82	113
114	159	160	223

224	312
224	312	313	438
439	614	313	438
439	614	615	860
861	1205	615	860
861	1205	1206	1687
1688	2362	1206	1687
1688	2362	2363	3308
3309	4632	2363	3308
3309	4632	82	159
160	312	82	159
160	312	313	614

Claims

1、一种由数字信号处理系统执行的方法，其产生有关已知信号的标记，该标记包括一组至少有一个元素的数值，并且对应于至少的信号时间帧，这种已知信号由标识索引来标识并且这种时间帧由时间帧索引来标识，包括：

把至少一个信号的时间帧转换到频域上，使得对于这样的时间帧来说，具有预先确定数量的以至少一个预定宽度的频带分组的频率幅度值；

为每一个频带计算一个单独的数值，其等于预定的在频带内分组的频率幅度值函数；

在计算机数据库中存储与其相应的时间帧索引和标识索引相关的标记。

2、根据权利要求1所述的方法，其中所述的预先确定包括其中之一：(i)线性组合，(ii)二次函数，(iii)矩心，(iv)方差，或者(v)第n个排序矩，其中n是预定的数字。

3、根据权利要求2所述的方法，还包括在相应的频带中，用预定数量的频率幅度值分割的函数结果。

4、根据权利要求1所述的方法，其中所述函数是线性组合，其中每一组线性组合的系数基本上等于在由预定常数分割的频带范围内的频率幅度值的按序索引。

5、根据权利要求1所述的方法，其中所述预定频带的数量在10和100之间。

6、根据权利要求1所述的方法，其中所述频带占用大约0Hz和近似等于和低于4000Hz的范围。

7、根据权利要求4所述的方法，其中所述预定的常数基本上等于相应频带中频率幅度值的总和。

8、根据权利要求7所述的方法，还包括在相应频带中用预定数量的频率幅度值分割的函数结果。

9、根据权利要求1所述的方法，其中所述频带的宽度设成基本上大于由已知信号的重放速度的预定最大变化量产生的频率幅度偏移量，这种将被测量的偏移位于频带的上边界或下边界。

10、根据权利要求9所述的方法，其中所述频带的上边界等于下边界加上一个数值，该数值等于最相关的重放速度变量值乘以下边界乘以常数的绝对值，其中所述常数的范围在1和100之间。

11、根据权利要求10所述的方法，其中所述常数在10和50之间。

12、根据权利要求9所述的方法，其中所述对于每一个频带，频带的上边界基本上等于频带的下边界乘以一加预定值的和。

13、根据权利要求10所述的方法，其中所述预定的数值基本上在0和近似10之间。

14、一种由信号处理系统执行的方法，其用来确定连续时间帧持续时间的预定数量的一部分的检测信号是否是基本上与来自多个已知信号的部分至少一个已知信号相同的信号，多个已知信号的每一部分包含多个连续时间帧的持续时间并且已知信号的每个时间帧具有标识索引和时间帧索引，包括：

为至少一个已知信号的至少一个时间帧，计算第一个标记，其包括从在时间帧期间检测的预定数量的频率幅度值中分离出来的一组序号；

在计算机数据块中存储各个第一个标记，其具有相应的信号标识索引和所述已知信号的实际开始的时间帧的邻近时间位置；

为检测的信号的至少一个时间帧计算第二个标记，其包括从在时间帧期间检测的频率数值的预定字中分离出来的一组数字；

从存储的第一标记集合中选择第一标记，这些第一标记与第二标记满足预定的匹配标准，其中所述这种选择作为检测信号中的每一个新的时间帧的到达结果而重复发生。

15、根据权利要求14所述的方法，其中所述第一个标记和第二个标记被计算并用权利要求1、2或9所述的方法存储。

16、根据权利要求14所述的方法，其中所述预定匹配标准包括：

计算一组差值的绝对值，该差值是每一个包括第一标记的号码集合的按序成员和每一个这种元的对应于包括第二标记的号码集合的按序成员之间的差；

计算绝对值的和；以及

确定该和是否产生小于预定值的绝对值。

17、根据权利要求14所述的方法，其中所述预定的匹配标准包括：

计算绝对值集合的总和；以及

确定该和是否是所有检测的第一标记的最小和。

18、根据权利要求14所述的方法，其中所述预定的匹配标准包括：

用下面组之一计算差值：(i)第一标记到第二标记的近似矢量间距；(ii)第一标记和第二标记之间的近似L-1标准；(iii)在第一标记中的任一成员和其相应的在第二标记中的成员之间的近似最大差值；(iv)在第一标记中的任一成员和其相应的在第二标记中的按序成员之间的近似最小差值；(v)在第一标记中的所有成员和他们在第二标记中的相应成员之间近似平均差值。

19、根据权利要求14所述的方法，还包括步骤：

确定第一标记的成员是否满足预定的匹配标准并具有相同的标识索引，该索引等于或者大于K+1和2K+1之间的并包括这两个值的数字，其中所述K被估计，使得2K+1等于时间帧的预定数量。

20、根据权利要求14所述的方法，其中所述匹配标准包括：

与被检测信号匹配时间帧的时间帧索引值相比，确定相应于与相同的标识索引匹配的第一标记匹配的时间帧索引值增加是否基本没有变化。

21、根据权利要求14所述的方法，其中所述匹配标准包括：

确定相应于与相同的标识索引匹配的第一标记匹配的时间帧索引值是否基本上是与被检测信号的匹配时间帧的时间帧索引值线性相关。

22、根据权利要求14所述的方法，其中所述匹配标准包括：

计算在相应于与相同标识索引匹配的第一标记的时间帧索引值与被检测信号的匹配时间帧的时间帧索引值之间的近似回归分析。

23、根据权利要求22所述的方法，其中所述确定包括测试相关的系数是否大于或近似等于5。

24、根据权利要求23所述的方法，其中所述确定包括测试线性斜度是否在近似2到6并且包括2和6的范围内。

25、根据权利要求14所述的方法，其中所述被检测信号的时间帧索引和匹配已知信号被周期性跟踪以确定至少两个时间帧的顺序，被检测信号的时间帧索引与匹配的已知信号的时间帧索引的增加而近似一致的增加。

26、一种由信号处理系统执行的方法，其用来确定连续时间帧持续时间的预定数量的一部分的检测信号是否是基本上与大部分来自已知信号的部分至少一个已知信号相同的信号，多个已知信号的每一部分包含多个连续时间帧的持续时间并且已知信号的每个时间帧具有标识索引和时间帧索引，包括：

在计算机数据块中存储每一个标记，其具有相应的已知标识索引和所述已知信号的实际开始的时间帧的邻近时间位置；

为检测的信号的至少一个时间帧计算第二个标记，其包括从在时间帧期间检测的频率幅度值的预定数量中分离出来的一组数字；

从存储的第一标记集合中选择第一标记，这些第一标记与第二标记满足预定的匹配标准；

在至少一个数据结构中存储时间帧索引和相应于匹配第一标记的标识索引；

从数据结构中删除那些时间帧索引和相应的标识索引，其中所述在列表中少于K+1个入口具有相同的标识索引，其中所述K被计算使得2K+1等于组成部分被检测信号的预定的时间帧数量；

从列表中删除那些时间帧索引和标识索引，其中不能确定第一标记的时间帧索引是基本同步于被检测信号的时间帧索引而增加。

27、一种由包括搜索数据库的信号处理系统执行的方法，其包括一组至少n个第一标记，其具有相应的标识索引和时间帧索引，其中所述每一个第一标记表示在时间帧期间已知信号的频率成分，寻找所有第一标记和第二标记的搜索满足预定的匹配标准，其中所述第二标记表示在时间帧期间被检测信号的频率分量，包括：

在计算机存储器中存储第一数据阵列，其包括所有的第一标记，由此在第一数据阵列中的第n行是第n个第一标记的成员集合；

对于在第一数据阵列中的至少一列，在计算机存储器中进行排序，列元素或者以升序或者以降序排列；

在计算机存储器中对另外的数据阵列进行存储，其中所述在第二数据阵列中的一个元素对应第一数据阵列中的一列，并且第二数据阵列中的一个元素值对照索引到在排序步骤之前产生的第一数据阵列的相应元素；

用第二标记进行搜索以找到第二标记和第一数据阵列的行之间的最好匹配；

通过使用第二数据阵列的对照索引并把它应用到匹配行中，来恢复任一匹配的第一标记的标识索引和时间帧索引。

28、根据权利要求24所述的方法，其中所述搜索算法是下面搜索算法的其中之一：二元搜索、B树、线性搜索、启发性树搜索、深度第一搜索、宽度第一搜索。

29、由具有搜索数据库的信号处理系统执行的方法，包括至少一个表示信号的第一标记，使用包括第二标记的查询，其中所述第一和第二标记都是预定元素数量的集合，每一个元素一个号码，包括：

对于每一个第一标记，使用预定的计算来计算第一个整数，作为包括每一个第一标记的元素子集的函数；

在相应于第一整数值的计算机存储器位置中存储一个参考，所述参考对应于在计算第一标记中使用的相应的第一标记；

用相同的应用到相应的第二标记子集中的预定算法来计算第二整数；

从第二整数中选择相应于预定差错函数内的整数值的存储器位置；

确定任意的对应所选存储器位置的第一标记和它们的标识索引和时间帧索引。

30、根据权利要求29所述的方法，其中所述预定的计算是标记中至少两个元素的线性组合。

31、根据权利要求29所述的方法，其中所述子集具有少于第一标记的5个元素。

32、根据权利要求29所述的方法，其中所述差错函数是下面其中之一：(i)确定两个整数值是否在相隔的阈值距离之内；(ii)选择第一整数，该第一整数是相比所有的其他第一整数距离第二整数最近的。

33、根据权利要求14所述的方法，其中所述信号是包括未知标识的节目，其没有找到匹配任何部分的任一已知信号，还包括具有相应标记的时间帧，包括：

建立任意的具有标识索引的标识符；

向那些源自信号的标记分配标识索引；

当未知信号被标识时，把任意的标识符用正确的标识替代。

34、根据权利要求33所述的方法，还包括用预先存在的标识索引替代数据库中任意的标识索引，该预先存在的标识索引参照标识信号的有效的标识数据。

35、一种包括中央处理单元的机器，数字数据收发机设备和包括任一的机器可读媒质的数据存储设备，其中所述机器可读媒质包含计算机程序，当由机器执行该计算机程序时，其执行权利要求1-34所述的方法。

36、一种任意类型的机器可读媒质，其包含计算机程序的数据，当计算机执行这些程序时，其执行权利要求1-34所述的方法。