CN100472515C

CN100472515C - 用于管理声频信息的系统

Info

Publication number: CN100472515C
Application number: CNB2004100882893A
Authority: CN
Inventors: C·J·C·伯吉斯; D·普拉斯迪纳; E·L·任斯豪; J·C·普拉特
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2003-10-24
Filing date: 2004-10-21
Publication date: 2009-03-25
Anticipated expiration: 2024-10-21
Also published as: EP1526530A2; KR101109303B1; JP4870921B2; EP1526530A3; KR20050039544A; JP2005202357A; US20050091275A1; US7421305B2; CN1627295A

Abstract

本发明涉及便于自动管理和剪辑驻留在数据库中的声频文件的系统和方法。声频指纹是使用指纹的数据库标识流或基于文件的声频的强有力的工具。复制检测标识在一集合中的复制声频剪辑，即使这些剪辑在压缩质量和持续时间方面不同。本发明能作为不需要外部指纹数据库的自包含应用被提供。还有，用户界面对管理和剪辑声频文件提供各种任选项。

Description

用于管理声频信息的系统

有关专利

本专利要求对序号为60/514,490的美国临时专利申请有优先权，该专利名为“DUPLICATED DETECTION AND AUDIO THUMBNAILS WITH AUDIOFINGERPRINTING”，于2003年10月24日归档。

技术的领域

本发明通常涉及计算机系统，尤其涉及采用声频指纹的系统和方法，来自动地管理冗余或损坏的声频文件。

发明的背景

由许多现代软件系统支持的当前特征之一是能够存储和播放声频文件。许多那些系统使用户能存储和管理声频文件的不同集合。然而，随着时间的推移，许多用户被不可避免占据大量存储空间的大量文件所搞糊涂了。而且当集合变得越大越大时，检索和播放希望的声频信息变得更加困难和耗时。许多系统提供软件来帮助用户管理这些日益增多的声频信息。例如，这些系统能包括支持普遍的声频文件格式的声频管理器，格式包括MP3，OggVorbis(OGG)，WindowsMedia Audio(WMA)，MPC和MP+文件等。这使用户能将它们整个声频文件集分类，并即时搜索喜欢的歌曲，使用如小图块那样的歌集封面浏览歌集，创建报表和其他特征。

例如除了组织声频文件外，这些系统提供一组工具，通过编辑标签，改名，编辑歌词，创建CD，和查找歌唱家信息来管理文件。用户能使用存储在硬盘，CD-ROM，网络驱动器，ZIP驱动器或其他类型可移动媒体的声频文件运作。这包括允许用户播放多个演播列表和显示与每个标题相关的图像。另外特征包括自动产生的数据库统计量，个人的等级，按种类排序，基调(Mood)，年份和客户数据库的查询。

声频指纹(AFP)最近兴起，成为用于在流或在文件中标识声频的有力方法。某些公司现在根据声频指纹提供音乐服务。这些服务需要从声频提取一个或多个指纹以被标识，且这些指纹比对以前计算的指纹的大数据库进行校验。

然而，管理大的声频集合是困难的，因为当前不可能快捷地分析声频文件(这与能使用小图块的图象不同)。用户通常必须依赖标签，但即使如此其帮助也有限：标签常常是不准确的，但即使有准确的标签，标识复制的声频标签在通常PC集合中是特别耗时。因此，需要有那样的系统和方法，它们在用户的PC或其他媒体设备上自动地识别复制的声频文件和/或包含噪声或具有其他问题的声频文件，并允许用户更有效地管理他们的声频文件。

发明的内容

下面提出本发明的简化概述，以便提供对本发明的某些方面的基本理解。此概述不是本发明的延伸的综览。不试图识别本发明的关键/重要元素或勾划出本发明的范围。其唯一目的是以简化方式提出本发明的某些概念，作为后面给出的更详细的描述的序言。

本发明涉及用于检测复制的或损坏的声频文件的系统和方法，以便于管理和移除这种文件。管理大的声频集合是困难的，因为例如与图象和文本比较，快速地分析大的声频文件是有问题的。以前，用户依赖于不准确的加标签。本发明能通过提供工具来帮助用户搜索声频文件，识别可能被互相复制的文件，识别损坏的，有噪声的，或垃圾文件，和方便从用户的数据库移除那样的文件，从而解决传统系统的许多缺点和不足。在一个方面，用户供给系统两个参数(从声频开始计的秒数(t)以便抽取指纹，和指纹(slop)窗的大小(s))。然后本发明部分地基于(t)和(s)定位用户的声频文件并计算指纹。提供用户界面以配置这些和其他参数以及使用户能移除自动确定的复制的或损坏的文件。

在本发明的一个方面，提供声频复制检测器系统，它包括用于由复制检测器处理的声频文件的数据库。复制检测器包括用于保存来自处理声频文件的分析器的中间结果的一个或多个内部数据库，以便确定诸如复制声频文件是否存在或文件是否已被损坏那些方面。指纹组件和归一化组件在分析器中操作，以判定声频文件的各部分是否为其他文件的复制，从而匹配检测器为那些部分加标签为复制品(或如损坏文件或垃圾文件等某些其他名称)。用户界面包括输入部分，使用户能输入系统参数(如检测分析参数)和选择文件来移除等。界面的输出能包括从用户数据库移除的声频文件的列表和系统的配置选项。

通常，用户选择从其在数据库中搜索的顶层目录(称“根目录”)，并随后通过用户界面起动检测器。通常，用户供给系统两个(或更多)参数：进入声频文件多少秒(T)处来抽取对应的指纹，和使用多大的‘指纹窗口(slop windows)’(s)，其中S以秒来度量。然后检测器从根目录穿过诸子目录搜索，并检索由其扩展名标识的声频文件。当检测器找到声频文件，加载文件并计算在进到文件T-S秒开始到进到文件T+S秒结束的一系列指纹。若没有指纹匹配已经在数据内的指纹，在进入文件T秒计算的指纹被加到该数据库。以此方式，声频文件或者使得单个指纹加到该数据库(若未找到匹配)，或没有指纹加到该数据库(若找到任何匹配)。在一个例子中计算的指纹从6秒的声频产生，且包括64个浮点数，以及归一化因子(也是浮点数)。能够理解，能利用其他时间值和浮点变量的数。

为了达到上述和有关目的，这里结合下面的描述及附图阐述本发明的某些示例性方面。这些方面是实施本发明的各种方法的表示。从结合附图对本发明的下面详述，本发明的其他优点和新颖特征将变得一目了然。

附图简述

图1是按本发明的一个方面的声频复制检测系统的原理方框图。

图2是按本发明的复制处理方面的概图。

图3是示出按本发明的用户界面方面的概图。

图4是流程图，示出按本发明的一个方面的声频复制过程。

图5是示出按本发明的一个方面的声频指纹系统的概图。

图6是示出按本发明的一个方面的失真鉴定分析的概图。

图7是示出按本发明的一个方面的广义特征值的概图。

图8是示出按本发明的一个方面的合适的操作环境的原理方框图。

图9是本发明能与其交互的示例计算环境的原理方框图。

发明的详述

本发明涉及便于自动检测数据库中复制的和/或损坏的声频文件的系统和方法。若希望的话，在检测时能对随后从数据库移除的文件加标签。在一个方面，管理声频信息的系统包括标识声频文件各部分的指纹组件。检测器根据在声频文件之间确定的代价对可能从数据存储移除的一个或多个声频文件加检签。检测器能根据代价低于预定阈值或根据最低代价分析对声频文件加标签。另外方面，提供用户界面来管理声频文件。界面包括为可能从数据库中移除的声频文件提供一个或多个选项的显示组件和选择这些选项的显示组件和选择这些选项并配置自动声频剪辑组件的输入组件，剪辑组件确定可能被移除的声频文件。

本专利中使用的术语“组件”，“对象”，“检测器”，“系统”等意指计算机有关实体，或者是硬件，或者是硬件和软硬件的组合，软件，或者是执行中的软件。例如，组件能是在处理器上运行的进程，处理器，对象，可执行码，执行的线程，程序，和/或计算机，但不限于这些。作为说明，在服务器上运行的应用软件和服务器可以是一组件。一个或多个组件能驻留在一个执行的进程和/或线程中，且一个组件能本地位于一台计算机和/或分布在两台或多台计算机之中。而且这些组件能从其上存有各种数据结构的计算机可读介质上执行。各组件能如按照具有一个或多个数据包的信号，通过本地和/或远程进程通讯(如来自一个组件的数据通过信号与在本地系统，分布式系统和/或经如因特网那样的网络与其他系统交互)。

首先参考图1，示出按本发明的一方面的声频复制检测器系统100。系统100包括由复制检测器120处理的声频文件的数据库110。复制检测器包括一个或多个内部数据库124和130，用于保存来自处理声频文件的分析器140的中间结果，以便确定如复制声频文件是否存在或文件是否已损坏的那些方面。指纹组件和归一化组件在分析器140中操作，以判定声频文件的各部分是否为其他文件的复制，其中匹配检测器为那些部分加标签为复制品(或如损坏文件或垃圾文件等某些其他名称)。用户界面150包括输入部分，使用户能输入系统参数(如检测分析参数)和选择文件来移除等。界面150的输出能包括如要移除的声频文件的列表和系统100的配置选项。

在一个方面，指纹组件采用鲁棒声频识别引擎(RARE)，这在后面详述，通常，用户选择从其搜索数据库110的顶层目录(称为根目录)，且随后通过用户界面150起动检测器120。通常，用户供给系统两上参数：进到声频文件多少秒(T)来提取对应的指纹，和使用多大的‘指纹窗口’(s)，其中S也以秒度量并在后面描述。然后检测器120从根目录穿过各子目录向下搜索，并检索通过其扩展名(如，MP3，WMA和WAV文件)标识的声频文件。当检测器找到声频文件，加载该文件并计算在进入到该文件T-S秒开始在进入到该文件T+S秒结束的一系列指纹。在一个例子中，计算从产生6秒的声频，并包括64个浮点数以及归一化因子(也是浮点数)的指纹。可以理解，能采用其他时间值和浮点变量的数目。

如上指出，检测器120至少利用两个内部数据库124和130，也称DB1和DB2。如业内所知，这些数据不必是单独的数据库。它们能是同一数据库中的两个列表，或甚至能以标准软件。如C⁺⁺中实现，而不需要数据库软件。在DB1，记录一般包括两个对象：指纹和与其相关的归一化。在DB2，记录一般包括三个对象：文件名(通常认为文件名包括全路径和文件的名字)，称为ID索引的相关索引，和称为‘偏移量’和‘距离’的两个相关输出参数。

ID索引的一个目的是保持跟踪哪个文件被标识为复制：若在处理声频文件后，两个文件具有相同的ID索引，则它们被识别为复制的，而若它们具有不同的ID索引，则它们被识别为不是复制的。虽然能采用外部数据库，这些数据库通常对系统是内部的。而且虽然检测器通常加载约2MB数据来计算指纹，检测器120不需要外部指纹数据库来操作。

在加载第一声频文件时，计算并存储在位置T开始的指纹，还存储文件的名字和位置。虽然不是所有文件具有存储的指纹，所有加载的文件具有它们计算的指纹和它们存储的名字和位置。在加载第二声频文件时，在该文件的T-S位置处计算指纹，且此指纹与从第一文件计算的指纹比较。若存在匹配，则检测器120注意到，由于它们的ID索引设置成同一数(处理的第一文件具有设置成0的ID索引)，两个文件包含同一声频，且随后检测器移到下一文件。若不存在匹配，检测器对第二文件在进入该文件的T-S+D秒处开始计算指纹，其中D是步长(如D＝186ms)。

如上考虑，即使一个或两个文件的开始部分被丢失，声频文件能被识别为复制的。若对一个声频文件的指纹F在数据库内，且新的文件比对F进行测试，则只有一个在窗口中(在进入到文件的T-S处开始，在进入到文件T+S秒处结束)计算的指纹需要匹配F，以便宣称为匹配。参数S能是用户选择的，所以用户能针对关于移除一个或两个声频文件开始部分的鲁棒性(robustness)平衡复制检测的速度。通过如下排序比较，速度还能进一步提高：首先比对指纹数据库校验在T秒处进入文件的计算的指纹，然后校验在T-D秒处，再在T+D处，再在T-2D处，再在T+2D处等，直到整个(2S秒的持续时间)窗口被校验。以此方式，首先校验最可能的匹配位置，且当找到匹配时系统能终止在指纹窗中的指纹(下面称为‘退出-bailing’)，从而加速此过程。

上述过程一直继续到找到匹配或在指纹窗(如在T-S秒开始到在第二文件中在T+S秒开始的指纹)中所有指纹已被计算。若找到匹配，通过将其ID索引设置成等于DB2中文件1的ID索引(在这种情况下为0)，检索器设置文件2是文件1的复制的标志，并随后退出(停止处理文件2)。若未找到匹配，检测器：

(1)添加(已计算的)指纹T秒到对DB1的第二文件；

(2)计算并保存对应的归一化，还保持DB1中的数据；

(3)设置其ID索引成id_index_max，并将其保存在DB2中；和

(4)增量id_index_max。注意id_index_max通常初始化成0。以此方式id_index_max实际上是至今找到的各别的声频剪辑(clip)的总数。

在本发明的另外方面，检测器不是退出而是计算和比较在指纹窗内的所有指纹，以找到在第二文件中的最好匹配位置。例如，即使在第二文件中的第三个计算的指纹能匹配第一文件中的指纹，后续的指纹能产生最好的匹配，因而计算在指纹窗中所有指纹以找到最好的匹配。为了计算第二文件中的指纹离它所期望处有多远，这是有用的。此分析转而表明，相对于其他的一个文件在声频的开始处已被剪辑，且还提供被舍弃的声频的持续时间。在这方面，存储在DB2中两个输出参数之一是在找到最佳匹配处和在未被剪辑所在处之间的间隙的以秒计的持续时间。而且在这方面若找到匹配，第二参数存储在DB2中：与最佳匹配相关的‘距离’。该距离是两个被比较的指纹如何不同的度量(若两指纹等同则是0)，且因而能用作两个匹配的声频文件如何不同的度量。例如，两个匹配文件可能是同一歌曲的再混合，且虽然仍在阈值之下，距离能够相当大。

不论是否利用退出，检测器120根据存储的和计算的指纹之间的距离确定是否宣称为匹配。若距离在固定阈值之下，则宣称是匹配，另一方面，那个最低距离(通过将在指纹窗中所有指纹与数据库中所有指纹比较来计算)存入DB2。在不同的例程中计算偏移和距离而不总是完成计算的一个理由是计算这些数量更耗费计算量(因而更慢)，因为为了这样做，要计算和比较指纹窗口中的所有指纹。在利用退出的本发明的第一方面，检测器在找到匹配时退出。虽然在此情况仍保持相关的距离和偏移量，此信息不太有用，因为以此方式计算的偏移量是对真实偏移量的粗略近似，且以此方式计算的距离仅是真实(最小)距离的上界。

在上述之后，检测器以类似方式迭代通过在由用户选择的目录树中的所有声频文件迭代。即，加载每个声频文件，在指纹窗中计算其指纹，且若任何那样的指纹匹配已在DB1中的任何指纹，则说明是匹配的并如上保存，否则该声频剪辑被宣称为不同于至今加载的所有声频，且它的指纹(计算的T秒中)保存在DB1中，它的索引在DB2中设置成id_indwx_max，且还递增id_indwx_max。而且计算并在DB1中保存声频文件的归一化，用于与对应于其他已加载的声频剪辑比较。以此方式，每个文件只加载一次，且为处理此文件只需通过一轮。在文件被处理之后，使用DB2向用户界面160输出复制文件的列表。实现此过程的一个方法是打印所有文件名，其中‘在文件名之间无空行表明它们是复制的，空行表明该空行之上及之下的文件不是复制的。在上述另一方面，对应打印的文件名后面跟着对应的距离和偏移量(对在复制列表中的第一文件均是0)。

现参考图2，示出按本发明的复制处理器200和相关的处理方面。复制处理器200包括比上面参考图1描述的对声频文件更进一步的处理，以便于声频文件的管理。这能包括在210处给检测到的错误状态加标志，并在220处列表与那个错误相关的文件。若当试图加载文件时，文件不能读出，或标题与声频文件中期望的标题不一致，或遇到其他错误状态，处理器200只对该文件作出错误状态的记录且移到下一文件。然而当完成文件处理时，系统首先输出遇到的文件名，以及为何它不处理该文件的理由(如‘不支持的采样率’或由于DRM限止“不能打开”)。在220此列表能在名为“损坏文件”的单个块中输出。

另外有用的功能应用到作为声频成功加载但例如包含噪声或某些其他缺陷的文件。对每个文件；在应用其他处理之前，在从该文件抽取的指纹在230处与“veto(否决)”指纹的列表比较，它们是以前通过对少量声频类型，如白噪声或在无输入时从各种声卡记录的那些，计算指纹和归一化而计算得到的。若对所谈论的文件的指纹匹配任何这些“veto指纹”，则该文件被知道是“垃圾”，且能如此标志。而且，当声频文件的处理完成时，这些“垃圾”文件能在240在题为“垃圾的文件”的块中列出。以此方式，系统不仅找出复制品，但也能标识用户校验并可能想删除的其他文件。

转向图3，按本发明的一方面示出用户界面处理300。当对给定文件发现某些复制或损坏时，系统能通过用户界面310试图比较复制品，并向用户提供各种选项，要保存哪一个。对删除，用户界面310能通过两个或多个阶段。在阶段1在320，文件被安排为可能删除；在阶段2在330，用户选择对应文件的哪一个实际被删除。

关于320处的阶段1，本发明能：(1)提供用户根据在340的质量比较保持一个或多个复制品的能力；(2)根据它们在350处的编码给出对文件的优选的处理；和/或(3)根据在360的数字权限管理给出优选的处理。例如在质量比较方面340：若两文件具有相同的编码类型(如它们均是WMA，或均是MP3)，且若它们具有不同的位速率，但它们在其他方面相似，则保持较高位速率(从而软高质量)的文件(即将其他文件被安排为可能删除)。类似地，若两个文件具有相同的编码类型，且除一个比另一个有更长延续时间以外其他所有方面相似，则能保存更长持续时间的文件(所以删除的文件一般是被剪辑的)。通常，若两个文件在除一个方面的所有其他方面类似，则较低质量的文件将被选择为可能的删除。另外，若用户的目标主要是增加盘空间，用户能选择保存较低质量，但较小的文件。

关于在350处的编码，若一个文件具有WMA编码类型，而另一个具有MP3编码类型，则可能要保存WMA。这就授予内容/服务提供者选择更喜欢哪种编码的能力。例如，一个公司为了各种业务原因喜爱WMA编码。关于在360处的数字权限管理，若一个文件比另一个服从更强的数字管理权限保护，则后者将是安排为可能删除的文件(例如若一个文件由于FRM是不可拷贝的，而另一个可拷贝，则后者被安排为到被删除处)。在这方面，复制删除被用于“调整-align”给定的歌曲到最强的DRM约束，那是该用户同意的。当然可能有用户故意需要同一歌曲带各种强度DRM的拷贝的情况，那种情况能在330的阶段2之中处理。可以理解，虽然上述例子是基于文件之间的双向比较，也能用多向比较。

关于330处的阶段2，向用户呈现关于在370实际上删除哪个文件的各种选择，且在用户确认之后，那些选为删除的文件被删除。也能根据复制检测器有多少把握认为那些文件实际上是复制的，来向用户呈现各种等级的警告。此处，在阶段2，用户界面310能为用户提供比较两个复制品的‘快速浏览’能力。例如，假设发现文件(A)和文件(B)是复制品，且除(A)更长以外(A)和(B)相拟。因为复制检测器能通过操作判定在两个拷贝中在哪里匹配指纹，且因为它判定每段声频的总的持续时间，它知道，是否(A)在开始处长于(B)或是否(A)在结束处长于(B)，或两处均较长。然后用户界面310能播放看来不包括在文件(B)中的文件(A)的部分，且用户能确定实际上他们是否希望保持两个文件的较长的那个(例如若差别仅是欢呼或安静，它们能喜欢两者的短的那个)。

此外，若用户不确定两个文件确实是复制的，且不希望必须分别听每一个，则他们能请求复制检测器再次在两个文件上运行，但此时使用在不同位置的许多指纹来确定两个文件的哪个部分实际上是复制的。例如，若一个文件3倍长于另一个，它们可能只在开始处等同。以此方法，用户界面310能再次调用复制检测器来获取关于具体文件的更多的信息，在所有用户的声频文件中在初始运行复制检测器期间哪个在计算上花费太多计算量。应注意，所有上述检测方法能用于标识视频的复制(如通过搜索声道的复制)。

图4是流程图，示出按本发明的一方面的声频复制过程。虽然为了解释简单起见，方法示出并描述成一系列动作，可以理解，本发明不限于动作的次序，按本发明，某些动作能以不同次序发生和/或与这里示出及描述的其他动作进发地发生。例如，业内行家理解，方法能另外地表示成如在状态图中的一系列互相关联的状态或事件。此外不是所有示出的动作是实施按本发明的方法所必需的。

鲁棒声频识别引擎(RARE)复制检测器DupDet能按图4的基本过程400操作，例如在目录树中递归地处理声频文件。对每个创建的指纹也创建归一化因子，使得从该指纹到从其他声频文件计算的指纹的大的集合的平均欧几里得距离是1。这样做使得在指纹对之间的计算距离能有用地比较。

过程400对每个文件创建一组踪迹(trace)，且针对其他声频文件创建的一组指纹校验它们。这里术语‘踪迹(trace)’用于从针对数据库测试的文件计算的指纹，而‘指纹’是被用于存储在数据库中的那些指纹。若在踪迹和指纹之间的D(.，.)(距离)低于阈值，相关的诸文件被宣称为是复制的。对每个文件，在文件的固定位置T计算指纹，且在410在围绕T的搜索窗S中计算踪迹；其中S和T是用户定义的。

如在420所述，过程400能在一轮中进发地创建指纹并校验复制。当在430读出第一声频文件时，计算并保存在位置T的6秒指纹。当加载第二声频文件时，以时间次序在410计算在窗口T-S到T+S中开始的踪迹(每个踪迹在前一个之后1/6秒计算)。若在440这些踪迹之一匹配，则该文件被宣称为复制品，并在450被添加到对该指纹的复制品列表中。若对搜索窗的整个踪迹组未找到匹配，则在460该指纹(已在声频中位置T处计算)被保存，代表(至今)唯一的剪辑。系统还使用6个(或其他数目)‘veto指纹’，它们是从噪声(如静音，无输入的声卡等)收集的指纹。匹配veto指纹的声频文件也标记为‘垃圾文件’。如图所示，在470匹配作为复制品被加标签，在480和490能发生关于保存最好匹配记分，偏移，和匹配指纹ID等的其他处理。

图5示出按本发明的一方面的声频指纹系统500。在流声频指纹(SAF)中，任务是标识在声频流中的声频段，其中该流可能被噪音损坏。图5的系统500示出整个布局。输入声频流510的固定长度段在520处首先被转换成低维度的踪迹(示作一时间间隔的向量)。然后输入踪迹520针对在530处存储的预先计算的踪迹(指纹)的大的组进行比较，其中每个存储的指纹以前已从特定声频段(如一歌曲)被提取。

输入踪迹520在流510的重复的时间间隔上计算，并与数据库530比较。能通过使用次级指纹，在数据库内找到的输入踪迹然后能以可忽略不计的计算代价加以确认。典型的应用包括识别广播声频，如为了王位评估(royaltyassessment)，或为了确认：商业被广播成对资助者的服务；使软件玩家识别用户产生的CD上的信息道；寻找对未加标记声频的元数据；或在大的声频数据库自动检索复制品。本发明能采用称为失真鉴别分析(DDA)的算法自动从声频中提取耐噪声(noise-robust)的特征。DDA特征由线性，卷积神经网络计算，在那里每层完成定向主分量分析(OPCA)维度缩减的一个版本。

为建立抵抗失真的鲁棒性，DDA评估，假设一组训练信号的失真版本是可用的。要求失真信号的样本是不那么苛求，而比要求知道真实的噪声则更平常。DDA一般不认为失真是加性的：也处理非线性失真。虽然能够训练在测试阶段所期望的特定失真是有用的，DDA能推广到对未用于训练的失真是鲁棒的。预计算的踪迹称为“指纹”，因为它们被用于唯一地标识声频段。虽然通过使用更多的指纹能进一步减少错误速率，通常每个声频剪辑使用一个或现两个指纹。而且在下面描述中，给出某些数学背景，其中矢量以黑体字标记，它们的分量以正常字体标记，带撇号字母表记转置。

给出一组向量X_i∈R^d，i＝1，...，m，其中每个X_i代表一信号(这里及下面，未失真的数据称为“信号”数据)，并假设对每个X_i具有一组N个失真的版本

k＝1，...，N。定义对应差矢量

Z_{i}^{k} &equiv; {\tilde{X}}_{i}^{k} - X_{i}

(下面称为“噪声”矢量)。一般希望找到线性投影，它尽可能对所有k正交于

但沿着它原始信号X_i的方差最大。标记定义希望的投影的单位矢量为n_i，i＝1，...，M，其中M将由用户选择。暂时通过选择M＝1来简化讨论。

能构造一特征提取器n，它最小化重构的均方差

其中

X_{i}^{k} &equiv; ({\tilde{X}}_{i}^{k} \cdot n) n .

直接示出，解此问题的n是R₁-R₂的具有最大特征值的特征向量，其中R₁，R₂分别是X_i和Z_i的相关矩阵。然而，此特征提取器具有不希望有的特性，若噪声和信号矢量用两个不同比例因子整体换算，n的方向将改变。而是，OPCA(有向的PCA)方向被定义成最大化广义Rayleigh商的那些方向n

q_{o} = \frac{n' c_{1} n}{n' c_{2} n} - - - (1)

其中C₁是信号的协方差矩阵而C₂是噪声的协方差矩阵。然而与OPCA的初始形式不同，使用噪声的相关矩阵而非协方差距阵，因为希望罚平均噪声信号及其方差。直接取

C &equiv; \frac{1}{m} \underset{i}{Σ} (X_{i} - E [X]) (X_{i} - E [X])' - - - (2)

R &equiv; \frac{1}{mN} \underset{i, k}{Σ} Z_{i}^{k} (Z_{i}^{k})' - - - (3)

并最大化广义的Rayleigh商

q = \frac{n' Cn}{n' Rn} - - - (4)

(4)中的分子是信号数据沿单位向量n的投影的方差，而分母是投影的均方“误差”(所有噪声向量

沿n投影的平均平方模)。

方向n_j能通过沿设置

&dtri; q = 0

找到，它给出广义特特值问题：

q＝qRn (5)

可直接得到：

1)对正半定C，R(如在此情况)，广义特征值是正的。但若R不是满秩，问题被规则化为好姿态(Well-posed)；

2)对信号或噪声改变比例，虽然特征值将改变，但OPCA的方向不变；

3)n_i是线性无关，或能选择成线性无关；

4)虽然n_i不必需正交，它们相对于矩阵C和R是共轭的；

5)通过选择n为最高加权广义特征向量，q被最大化。

对如声频的高维数据，OPCA能在多个层次中应用。如考虑从6秒声频提取64维的指纹，声频信号被转换成单音的且降低采样到11025HZ，随后的特征提取将维度66150的矢量映射到维度64的矢量。在此情况直接解广义特征值问题是不可行的。相反，OPCA能在两个层次上应用，其中第一层在小窗口上计算的对数谱上操作，而第二层在通过由第一层产生的累计矢量计算的矢量上操作。此方法称为“失真鉴别分析”(DDA)。DDA是线性方法；在给定层发生的投影可被看作为卷积。因此，DDA能看作线性卷积神经网络，其中权重使用OPCA所选择的。

在DDA中，每个后续层看到比前一层更宽的时间窗：对该层找到的特征方向适宜于该特定的时间比例。这是DDA的特征；例如，它可以用来补偿对齐噪声，它被定义成由于存储的指纹能在时间上错开输入踪迹的相位而导致的噪声。在最坏情况，指纹能从用于计算两个相邻输入踪迹的两个帧之间各跨一半的帧计算。在DDA系统中对这种时间失真的补偿应当被应用于最近的层，因为它们看到最宽的时间窗。

DDA不仅使测试阶段在计算上有效，并允许以不同的时间尺度来补偿失真；它在训练阶段也是有效的。能计算需要的协方差和相关距阵，若希望则一次一个矢量。因此，这些距阵能使用任意大量的数据来估计。在估计了这些矩阵后，能用标准的数值线性代数程序包来计算广义特征值。

图6示出按本发明的一方面的失真鉴别分析系统。用于声频处理的技术，如从语音提取特征的技术，常使用20ms数量级的帧持续期。然而为了减少对指纹应用的计算开销，希望以约每秒几次从流产生踪迹。对20ms的输入帧，在最后DDA层使用的步长必须以低于100HZ的初始采样速率采样，这将引起混叠，它将起到另外的失真源作用。图6中示出的系统避免了此问题。通常不存在混叠，因为随着采样速率减少不存在中间层。由于此要求以及在约半秒的时间数量级上产生踪迹的要求，很大地约束了可能的第一层的时间帧的持续期间。而且时间上宽的第一层允许DDA在选择频率空间中的重要方向上有更大的灵活性。

图7示出按本发明的一方面的广义特征值700。图7示出，通过在训练数据上测量的广义特征谱引导了对上述系统600的第一层的64输出维度的选择。来自第一层大部分有关信息在前100个投影中被捕捉。在第二层的谱下降不迅速。然而为加速数据库查找，只考虑第二层上前64个投影。通过只在每372ms而非每186ms采样，能进一步增加数据库查找的速度2倍。

上述流声频指纹系统首先将立体声声频信号转换成单音并随后降低采样到11025HZ。信号波分裂成固定长度372ms的帧，互相重叠一半。然后应用MCLT(重叠加窗富立叶变换)到每个帧。通过取每个MCLT系统的对数模而产生对数谱。流声频指纹系统执行两个每帧的预处理步骤，它们抑制了具体的易于识别的失真。

第一预处理步骤去除由频率均衡和音量调节引起的失真。通过取对数谱的DCT，通过令每个DCT系数乘以从对第1分量为1到第6和更高分量为0线性斜坡的权重，并随后执行逆向DCT，此“去均衡阈值(de-equalizationthresholding)”步骤将低通滤波器应用于对数谱。这导致对该对数谱的光滑逼近A。然后A被均匀地降低6dB并在-70dB处被钳位。若在对数谱之间按分量方式的差是正，则第一预处理步骤的输出矢量就是该差值，否则为0。

第二预处理步骤去除信号中不能被人听到的失真。此步骤将来自第一步骤的对数谱取指数，然后由算法产生与频率相关的可感觉的阈值。若对数谱和对数感觉阈值之间的以dB表示的差是正的，则最终预处理信号就是该差值，否则为零。最终预处理数据包括每帧2048个实系数(因此2048频带)。

参考图8用于实施本发明的各方面的示例环境包括计算机912。计算机912包括处理单元914，系统存储器916，和系统总线918。系统总线918将包括，但不限于，系统存储器916的系统组件耦合到处理单元914。处理单元916能是各种可用处理器的任一种。作为处理单元914能采用双微处理器和其他多微处理器体系结构。

系统总线918能是若干总线结构类型的任一种，包括存储器总线或存储器控制器，外围总线或外部总线，和/或使用各种可用总线体系结构的任一种的局部总线，包括，但不限于，16位总线，工业标准体系结构(ISA)，微通道体系结构(MSA)，扩展ISA(EISA)，智能驱动电子(IDE)，VESA局部总线(VLB)，外围部件互连(PCI)，通用串口总线(USB)高级图象端口(AGP)，个人计算机存储卡国际协会总线(PCMCIA)，和小型计算机系统接口(SCSI)。

系统存储器916包括易失性存储器920和非易失性存储器922。包含如在起动时在计算机912中各单元之间传递信息的基本例程的基本输入/输出系统(BIOS)存储在非易失性存储器922中。作为解释而非限制，非易失性存储器922能包括只读存储器(ROM)，可编程ROM(PROM)，电可编程ROM(EPROM)，电可擦除ROM(EEPROM)，或闪存卡。易失性存储器920包括可用作外部高速缓冲存储器的随机存储器(RAM)。作为解释而非限制，RAM可有许多方式，如同步RAM(SRAM)，动态RAM(DRAM)，同步DRAM(SDRAM)，双数据速率SDRAM(DDR SDRAM)，增强型SDRAM(ESDRAM)，同步链接(Synchlink)DRAM(SLDRAM)，和直接内存总线RAM(DRRAM)。

计算机912还包括可移动/不可移动，易失性/非易失性计算机存储介质。例如图8示出盘存储器924。盘存储器924包括，但不限于，如磁盘驱动器，软盘驱动器，磁带驱动器，Jaz驱动器，Zip驱动器，LS-100驱动器，闪存卡，或存储棒(stick)等设备。此外，盘驱动器能包括单独的存储介质，或与其他存储介质结合，包括，但不限于，如紧致盘ROM驱动器(CD-ROM)的光盘驱动器，CD可记录驱动器(CD-R Drive)CD可改写驱动器(CD-RW Drive)或数字多功能盘ROM驱动器(DVD-ROM)。为便于盘存储设备924到系统总线的连接，通常使用如接口926那样的可移动或不可移动接口。

可以理解，图8描述作为用户和在合适的操作环境910描述的基本计算机资源之间的中介的软件。那样的软件包括操作系统928。能存储在盘存储器924的操作系统928起着控制和分配计算机系统912的资源的作用。系统应用930得益于由操作系统928通过存储在系统存储器916或盘存储器924上的程序模块932或程序数据934对资源的管理。可以理解，本发明能用各种操作系统或各操作系统的组合实现。

用户通过输入设备936将命令或信息输入到计算机912。输入设备936包括，但不限于，如鼠标的指点设备，跟踪球，笔尖，触摸垫，键盘，麦克风，操纵杆，游戏垫，圆盘式卫星天线，扫描仪，TV调谐卡，数码相机，数码录相机，web相机等。这些和其他输入设备经接口端938通过系统总线918连接处理单元914。接口端包括如串行口，并行口，游戏端口，和通用串行总线(USB)。输出设备940使用某些如输入设备936同样类型的端口。因此，如USB端口能用于提供到计算机912的输入，并从计算机912输出信息到输出设备940。提供输出适配器942，说明存在某些输出设备，如监视器，扩音器，打印机及其他输出设备，它们需要专门适配器。作为说明但非限止，输出适配器942包括视频卡及声卡，它们提供在输出设备940和系统总线918之间的连接装置。应该注意，其他设备和/或设备系统可以如远程计算机944那样提供输入和输出能力。

计算机912使用到如远程计算机944那样的一个或多个远程计算机的逻辑连接，在网络环境中操作。远程计算机944能是个人计算机，服务器，路由器，网络PC，工作站，基于微处理器的电器装置，对等设备或其他公共网络节点等，并通常包括关于计算机912描述的许多或所有单元。为简单起见，仅对远程计算机944示出存储器设备946。远程计算机944通过网络接口948在逻辑上连接到计算机912，因而是通过通讯连结950物理上连结。网络接口948包括如局域网(LAN)和广域网(WAN)的通讯连接。LAN技术包括光纤分布式数字接口(FDDI)，铜线分布式数字接口(CDDI)，以太网/IEEE1102.3，令牌环网1102.5等。WAN技术包括，但不限于，点对点链路，如综合业务数字网(ISDN)及其变种的电路交换网，分组交换网和数字用户线(DSL)。

通讯连接950指的是用来连接网络接口948到总线918的硬件/软件，虽然为说明清楚，通讯连接950示出在计算机912之内，它也能在计算机912外部。仅为示例的目的，用于连接到网络接口948所必需的硬件/软件包括内置和外接技术，如包括常规的电话等级调制解调器，电缆调制解调器，DSL调制解调器，ISDN适配器，和以太网卡。

图9是本发明能与其交互的范例计算环境1000的原理方框图。系统1000包括一个或多个客户机1010。客户机1010能是硬件和/或软件(如线程，进程，计算设备)。系统1000还包括一个或多个服务器1030。服务器1030也能是硬件和/或软件(如线程，进程，计算设备)。例如，服务器1030能包容由采用本发明完成的转换的线程。在客户机1010和服务器1030之间一种可能的通讯能是以适宜在两个或多个计算机进程之间发送的数据分组的形式。系统1000包括通讯框架1050，它能用于便于在客户机1010和服务器1030之间的通讯。客户机1010在操作上连结到一个或多个客户机数据存储器1060，它能用于在客户机1010上本地存储信息。类似地，服务器1030在操作上连接一个或多个服务器数据存储器1040，它能用于在服务器1030上本地存储信息。

上述的讨论包括本发明的例子。当然，为描述本发明的目的，不可能描述组件或方法的每个想得到的组合，但业内行家认识到，本发明的许多进一步组合和变更是可能的。因而，本发明力图包容落入所附的权利要求的精神和范围内的所有更改，修改和变种。此外，在上述详述的权利要求中使用的术语“包括(include)”的范围而言，那样的术语以类似于术语“包含(comprising)”的方式是包括性的，因为“包含”在权利要求中使用时被解释成过渡(transitional)词。

Claims

1、一个管理声频信息的系统，包括：

将多个声频文件的各部分映射到对应指纹的指纹组件；和

检测器，所述检测器部分地根据所述多个声频文件的第一声频文件的第一对应指纹与所述多个声频文件的第二声频文件的第二对应指纹之间的距离，对一个或多个声频文件加标签，以便从数据存储设备移除被加标签的一个或多个声频文件，所述第二对应指纹被基于指定的选择次序从为所述第二声频文件计算的一系列对应的指纹中选出；

其中，对一个或多个声频文件加标签进一步包括：如果所述第一声频文件的第一对应指纹与所述第二声频文件的第二对应指纹相匹配，则将所述第一声频文件的ID索引和所述第二声频文件的ID索引设置为相同。

2、如权利要求1的系统，其特征在于所述检测器根据在所述第一和第二对应指纹之间的所述距离低于预定阈值时给所述一个或多个声频文件加标签。

3、如权利要求1的系统，其特征在于所述指纹组件对所述第二声频文件还产生多个指纹，所述多个指纹对应于在所述第二声频文件中声频的一个时间窗，且其中所述检测器根据对所述第二声频文件的多个指纹和对所述第一声频文件的一个或多个存储的指纹之间的最低距离对所述一个或多个声频文件加标签。

4、如权利要求3的系统，其特征在于安排指纹组件以接收在所述第二声频文件中的时间偏移和在所述第二声频文件中时间窗的持续时间。

5、如权利要求1的系统，其特征在于所述指纹组件计算从多于1秒的声频中产生的、并由约64个浮点数组成的指纹。

6、如权利要求1的系统，其特征在于所述检测器至少利用两个称为DB1和DB2的数据库，在DB1，一个记录包括一指纹和包含归一化因子的有关数量，在DB2，一个记录至少包括4个对象：文件名，称为ID索引的相关索引，‘偏移’参数和‘距离’参数。

7、如权利要求4的系统，其特征在于所述检测器计算并比较在一个时间窗中的所有指纹，以便找出在所述第二声频文件内的最佳匹配位置，其中在所述第二声频文件内最佳匹配位置处计算的对应指纹与所述第一声频文件的一个或多个存储的指纹之间的距离是最短的。

8、如权利要求7的系统，其特征在于利用所述检测器来确定一个声频文件的身份。

9、如权利要求8的系统，其特征在于所述身份包括与一声频文件相关的元数据。

10、如权利要求1的系统，其特征在于还包括一数据库，利用它来向用户界面输出复制的或有缺陷的声频文件的列表。

11、如权利要求10的系统，其特征在于所述检测器在处理所述声频文件时登录出错状态，并向用户界面输出与出错状态相关的文件列表。

12、如权利要求1的系统，其特征在于还包括存储用于识别噪声声频文件的veto指纹的数据库。