CN1932819A

CN1932819A - 一种互联网音频文件的聚类方法、搜索方法及系统

Info

Publication number: CN1932819A
Application number: CN 200610139787
Authority: CN
Inventors: 苏雪峰; 郭齐
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2006-09-25
Filing date: 2006-09-25
Publication date: 2007-03-21
Anticipated expiration: 2026-09-25
Also published as: CN100458788C

Abstract

本发明公开了一种互联网音频文件的聚类方法，包括以下步骤：对获取的音频文件进行采样，取得能够描述该音频文件的P个第一特征值；根据预置的第一算法，得到用来代替所述P个第一特征值描述该音频文件的M个第二特征值，其中P大于M；通过预置的第二算法，根据所述M个第二特征值计算得到该音频文件的特征标识；分别对互联网中的音频文件进行上述计算，将特征标识相同的音频文件标记为同一类。本发明通过比较音频文件特征标识的方式判断音频文件是否相同或相似，避免了根据音频文件链接信息和/或相关上下文中的文字信息进行比较时，由于文字信息与音乐内容不符而导致的音频文件聚类错误。

Description

一种互联网音频文件的聚类方法、搜索方法及系统

技术领域

本发明涉及互联网信息处理领域，特别是涉及一种对互联网中音频文件的聚类方法以及基于该聚类过程的音频文件搜索方法和系统。

背景技术

如今，通过搜索引擎检索已成为人们从互联网中获取信息和资源的一种最为快捷和有效的手段。利用搜索引擎，人们几乎在片刻之间就可以检索到需要的内容，例如新闻、影视和音乐等。其中，尤其以对音频文件的检索最常为人们所使用。

用户之所以能够快速得到检索结果，前提是由搜索引擎完成了对网络资源的搜集和整理。当用户输入关键字进行检索时，搜索引擎从已经搜集整理的结果中取出符合要求的内容呈现给用户。在这一过程中，对网络资源的搜集和整理成为正确呈现检索内容的前提和基础。

现有技术中对音频文件的检索过程如下：搜索引擎通过获取网络上音频文件链接信息或者音频文件上下文中的相关文字信息来对音频文件进行判断和聚合，例如链接信息中的歌名，演唱者等文字信息；搜索引擎得到这些信息后，将所述文字信息记录到特征库中，形成这个音频文件的文字信息特征库，此特征库中存储的都是文本特征信息；然后每得到一个音频文件的链接，都会分析得到相应的文字特征，从而获得整个互联网音频文件的文字信息特征库；然后根据用户的检索关键词，在该文字信息特征库进行检索，将相应的音频文件显示在用户的搜索结果列表中。

但是，上述现有技术中，搜索引擎在互联网上搜索音频内容时，直接获取音频文件的链接信息并将其存储在数据库中，待用户搜索时，所有与搜索关键字相关的内容都会呈现在用户的搜索结果列表中，一般都有很多页列表显示，如果碰到热门关键词，列表的长度会更长，甚至会有很多页显示相同或相似的结果，仅仅是因为它们的下载链接不同。这种搜索结果给用户的搜索体验比较差，用户对所有的搜索结果没有判断的能力，只能从结果页面的前面几条中选择一个点击，以碰运气的方式进行尝试；同时，可能用户真正需要的搜索结果会被排列到许多相同结果的后面，而使得用户不能很快的找到需要的搜索结果。

其次，现有的搜索引擎仅仅根据音频文件的文本信息在搜索结果列表中简单列举，需要用户通过这些文本信息自行判断是否为需要的音频文件，但是根据链接信息的文字特征对音频文件进行分析和聚类存在着很大的不确定性，因为文本信息本身就有很多不确定或者说不准确的地方，例如，只列出歌名，没有列出演唱者时；或者当文字信息和音乐内容本身出现了不对应的情况时，就会严重影响用户搜索的体验。

发明内容

本发明所要解决的技术问题是提供一种音频文件聚类的方法和装置，以解决现有技术对于音频文件聚类准确性低的缺陷，从而实现快速、准确的音频文件聚类。

本发明的另一个目的是提供一种基于上述聚类过程对音频文件搜索的方法和系统，以提高用户的检索效率、使用户拥有良好的使用体验。

为解决上述技术问题，本发明提供了一种互联网音频文件的聚类方法，包括以下步骤：

对获取的音频文件进行采样，取得能够描述该音频文件的P个第一特征值；根据预置的第一算法，得到用来代替所述P个第一特征值描述该音频文件的M个第二特征值，其中P大于M；通过预置的第二算法，根据所述M个第二特征值计算得到该音频文件的特征标识；分别对互联网中的音频文件进行上述计算，将特征标识相同的音频文件标记为同一类。

优选的，所述的方法还包括：在采样步骤之前，根据音频文件本身的二进制编码计算得到该音频文件的文件标识。

优选的，所述的方法还包括：存储音频文件的特征标识和文件标识至数据库；比对计算得到的音频文件的文件标识和所述数据库中存储的文件标识；如果数据库中已存储有相同的文件标识，则将在所述数据库中该文件标识对应的特征标识赋予该音频文件。

优选的，所述的方法还包括：对音频文件的链接地址计算得到所述音频文件的链接标识，并存储至所述数据库。

优选的，所述采样包括：对音频文件的频谱曲线进行等份数切分或者等时间切分；分别对切分得到的P段曲线进行计算得到P个第一特征值。

优选的，所述的方法还包括：提取音频文件中的文字属性信息，并存储至所述数据库。

本发明还公开了一种音频文件的搜索方法，包括以下步骤：

特征聚类步骤：对该音频文件进行采样，取得能够描述该音频文件的P个第一特征值；根据预置的第一算法，得到用来代替所述P个第一特征值描述该音频文件的M个第二特征值，其中P大于M；通过预置的第二算法，根据所述M个第二特征值计算得到该音频文件的特征标识；分别对互联网中的音频文件进行上述计算，将特征标识相同的音频文件标记为同一特征类；

文本聚类步骤：获取音频文件的文字属性信息；根据文字属性信息的相同或者相似程度对音频文件进行文本聚类；

记录生成步骤：记录音频文件的文字属性信息、链接地址以及聚类信息至数据库；

检索步骤：根据查询请求获取相应的文本类的音频文件记录；在所述获取的音频文件记录中，在每一特征类中取适量音频文件记录作为典型结果；形成搜索结果列表。

优选的，所述文字属性信息的获取方式为：根据音频文件的相关网页上下文和/或链接信息获取相应的文字属性信息；或者提取音频文件中的文字属性信息。

优选的，所述的方法还包括：判别同一特征类的音频文件中正确的文字属性信息；采用所述正确的文字属性信息更新该特征类中其他音频文件的文字属性信息。

优选的，所述的方法还包括：对同一特征类的音频文件的地址链接按照预置要素进行评价，并赋予相应的分值；对该特征类的音频文件的地址链接按照分值排序。

优选的，所述的方法还包括：将每个特征类中地址链接的最高分值赋予该特征类；按照特征类的分值高低进行排序。

本发明还提供了一种互联网音频文件的聚类装置，包括：

采样单元，用于对获取的音频文件进行采样，取得能够描述该音频文件的P个第一特征值；

分析单元，用于根据预置的第一算法，得到用来代替所述P个第一特征值描述该音频文件的M个第二特征值，其中P大于M；

特征标识计算单元，用于通过预置的第二算法，根据所述M个第二特征值计算得到该音频文件的特征标识；

聚类单元，用于将特征标识相同的音频文件标记为同一类。

优选的，所述的装置还包括：文件标识计算单元，用于根据音频文件本身的二进制编码计算得到该音频文件的文件标识。

优选的，所述的装置还包括：数据库，用于存储音频文件的特征标识和文件标识；比对单元，用于比对计算得到的音频文件的文件标识和所述数据库中存储的文件标识；如果数据库中已存储有相同的文件标识，则将在所述数据库中该文件标识对应的特征标识赋予该音频文件。

优选的，所述的装置还包括：链接标识计算单元，用于对音频文件的链接地址计算得到所述音频文件的链接标识。

优选的，所述的装置还包括：文字属性信息获取单元，用于提取音频文件中的文字属性信息。

本发明还要求保护一种互联网音频文件的搜索系统，包括特征聚类装置、文本聚类装置、数据库和搜索引擎；其中，

所述特征聚类装置，包括：采样单元，用于对获取的音频文件进行采样，取得能够描述该音频文件的P个第一特征值；分析单元，用于根据预置的第一算法，得到用来代替所述P个第一特征值描述该音频文件的M个第二特征值，其中P大于M；特征标识计算单元，用于通过预置的第二算法，根据所述M个第二特征值计算得到该音频文件的特征标识；特征聚类单元，用于将特征标识相同的音频文件标记为同一特征类；

所述文本聚类装置，包括：文字属性信息获取单元，用于根据音频文件的相关网页上下文和/或链接信息获取相应的文字属性信息；或者提取音频文件中的文字属性信息；文本聚类单元，用于根据文字属性信息的相同或者相似程度对音频文件进行文本聚类；

所述数据库用于记录音频文件的文字属性信息、链接地址以及聚类信息；

所述搜索引擎用于根据查询请求获取相应的文本类的音频文件记录；在所述获取的音频文件记录中，在每一特征类中取适量音频文件记录作为典型结果；形成搜索结果列表。

优选的，所述的系统还包括：文字属性信息判别模块，用于判别同一特征类的音频文件中正确的文字属性信息；更新模块，用于采用所述正确的文字属性信息更新该特征类中其他音频文件的文字属性信息。

优选的，所述的系统还包括：链接评价模块，用于对同一特征类的音频文件的地址链接按照预置要素进行评价，并赋予相应的分值；第一排序模块，用于对该特征类的音频文件的地址链接按照分值排序。

优选的，所述的系统还包括：特征类分值赋予模块，用于将每个特征类中地址链接的最高分值赋予该特征类；第二排序模块，用于对特征类按照的分值高低进行排序。

与现有技术相比，本发明具有以下优点：

首先，本发明通过对音频文件的频谱曲线进行采样以取得特征值，并根据该特征值和预置的算法计算出该音频文件的特征标识，然后，将特征标识相同的文件标记为同一类。通过比较音频文件特征标识的方式判断音频文件是否相同或相似，避免了根据音频文件链接信息和/或相关上下文中的文字信息进行比较时，由于文字信息与音乐内容不符而导致的音频文件聚类错误。

在计算音频文件的特征标识时，本发明根据主成分分析法用m个特征值代替原有的P个特征值(m＜P)。以m个特征值计算音频文件的特征标识，减少了计算特征标识的运算量，同时也降低了对硬件性能的要求。而且，通过主成分分析法，去除了原有P个特征值中相对不重要的信息，使得根据m个特征值更能准确反映与该文件相应的音乐内容。例如，对同一首歌曲，不同的音频文件其大小、格式都有可能不同，但是，通过对这些音频文件的频谱进行采样并根据主成分分析法得到的m个特征值，就能够判断出这些音频文件所包含的音乐内容为同一首歌。如此一来，使得本发明对音频文件具有了模糊判断的能力，提高了对音频文件聚类的准确性和正确性。

另外，本发明根据音频文件的二进制编码计算该文件的文件标识，通过比较文件标识判断其是否为相同的音频文件。互联网中，同一个音频文件可能出现在不同的位置，其区别往往仅在于链接地址不同，本发明对处于不同位置的音频文件通过计算文件标识对其进行比较，将文件标识相同的音频文件标记为一类，不需要进行特征分析。不但大大提高了对音频文件分析和聚类的效率，而且可以保证音频文件聚类的准确性和正确性。

为了满足用户对音频文件检索的需要，本发明将具有相同或者相似文字属性信息的音频文件标记为同一类。基于所述音频文件的聚类方法，当用户输入关键字对音频文件进行检索时，将文字属性信息符合该检索关键字的文件记录形成搜索结果列表呈现给用户。在该结果列表中，将具有相同特征标识的文件记录作为一类显示，并可以仅仅显示适量的典型结果供用户选择。由于在结果列表中，具有相同特征标识的文件记录分类显示，因此用户可以很容易找到自己需要的文件。

上述文字属性信息是根据音频文件的相关网页上下文和/或链接信息获取；优选的，也可以直接从音频文件中提取，因为音频文件中的文字属性信息一般较之相关网页上下文或链接信息更为准确。

对于具有相同特征标识的同一类文件，使用从该类文件中判别出来的正确的文字属性信息对该类中其他文件的文字属性信息进行更新，去除垃圾信息，使得通过文字属性信息可以整齐、准确地反映音频文件的内容，同时也可以避免文字信息与音乐内容不符而导致的音频文件聚类错误。

在显示搜索结果时，本发明还可以对文件的链接信息进行评价排序。例如，根据该链接的连接速度、连接超时以及是否死链等验证因素，对每个音频文件的链接进行分值评估；然后综合各种验证因素的分值给予该音频文件一个权重积分。对于具有相同特征标识的同一类文件，根据其中的最高权重分值得出该类的权重积分。当根据用户请求显示搜索结果时，在结果列表中，按照类的权重分值大小依次显示各个特征类。同时从每一个类的所有文件中，选择权重分值高的一个或者几个文件作为代表显示在结果列表中。按照这样的方式，将最可靠的文件链接显示给用户，不但提高了用户的检索效率而且使用户拥有良好的使用体验。

附图说明

图1是本发明音频文件聚类方法的数据流程图；

图2是基于图1所示聚类方法对音频文件进行检索的方法；

图3是本发明一具体实施例检索结果列表的显示情况；

图4是本发明所述音频文件聚类装置的结构框图；

图5是本发明所述音频文件搜索系统的结构框图。

具体实施方式

在结合具体的实施例说明本发明的方法之前，首先介绍一下音频文件所涉及的几个概念。

互联网中的音频文件是将数字音频以数据格式存储在计算机可读介质中，其中数字音频是一个数据序列，在时间上断续，通过采样和量化，把模拟声音表示的音频信号转换成由许多二进制数1和0组成的数字音频信号。在这一处理技术中，涉及到音频的采样和量化。音频实际上是连续信号，或称连续时间函数x(t)。用计算机处理这些信号时，必须先对连续信号采样，即按一定的时间间隔(T)取值，得到x(nT)(n为整数)。其中T称采样周期，1/T称为采样频率，称x(nT)为离散信号。由于音频文件是由离散的声音数据组成，因此将其通过图形表示就是以时间T为横坐标的阶梯状的音频波形。容易得知，通过上述方法得到的频谱曲线是离散的。

下面就结合具体的实施例描述一下根据本发明的用于音频文件聚类的方法。

本发明所述的音频文件聚类方法包括：对该音频文件进行采样，取得能够描述该音频文件的P个第一特征值；根据预置的第一算法，得到用来代替所述P个第一特征值描述该音频文件的M个第二特征值，其中P大于M；通过预置的第二算法，根据所述M个第二特征值计算得到该音频文件的特征标识；分别对互联网中的音频文件进行上述计算，将特征标识相同的音频文件标记为同一类。

参照图1，示出了根据本发明一个优选实施例的用于音频文件聚类的方法的数据流程图。下面参考图1对本发明的一个实施例作详细描述。

步骤101：获取互联网中的音频文件。

本发明所述的音频文件是通过“蜘蛛”从互联网中自动获取的。所谓“蜘蛛”是运行在搜索引擎服务器中的程序。“蜘蛛”通过连接网络中的服务器，分析从该服务器获取的链接信息，若所述链接中包含音频文件的链接，就将该链接对应的音频文件下载到本地并对其进行分析。

另外，为了提高对音频文件分析的效率，降低搜索引擎服务器的负荷，本发明优选的可以利用网络中的各个终端或服务器完成对音频文件的分析。例如，当用户通过客户端访问一个服务器，当打开该服务器中含有音频文件链接的网页或在线播放、下载一个音频文件时，由运行在该服务器或用户客户端的程序完成对相应音频文件的分析，并将分析的结果返回给搜索引擎服务器。例如，下载工具栏或者网页脚本的方式均是可行的方案。本发明并不需要对如何获取互联网中的音频文件加以限制。

步骤102：对音频文件的频谱曲线切分为240段，并计算出每个切分段的特征值。

本发明处理的是由离散的声音数据组成的音频文件，如mp3、windowsmedia等。本发明优选的，把整个频谱曲线等分成240份，这样，就得到240段的离散曲线。之所以将频谱曲线等分成240份而不是更多，是根据本发明可处理的常用音频文件大小决定的。因为网络上的音频文件多数情况下为5MB左右，等分为240份已经可以反映该音频文件的音频特征，同时不会对后续的处理造成负担。当然对频谱曲线具体如何切分采样，本发明对此并不作限制。

对每段曲线，取其频率的平均值作为该段曲线的特征值，这样就得到该频谱曲线的240个特征值，该240个特征值即前文提及的P个第一特征值。当然，计算频率的均值、中值，还是采用其他函数计算特征值，本领域技术人员可以根据需要选用即可。

按照等分的方法对频谱曲线进行采样是本发明优选的方法，本领域的普通技术人员当然不必局限于此，例如可按照时间长度切分频谱曲线，本发明对此不作限制。

步骤103：根据主成分分析法，使用6个特征值代替原有的240个特征值。

对于一个由P个指标构成的系统，为了有效的对该系统进行评价和分析，我们希望寻找尽量少的m个综合特征值，这m(m＜p)个综合特征值应包含p个指标的有关信息，并以这m个综合特征值对该系统进行综合评价。显然，m越小，与之进行综合评价就越方便，但是也可能去掉了过多的信息导致综合评价准确度降低。

对于本发明的由240个特征值构成的音频数据，根据主成分分析法，用其中的6个特征值作为综合特征值代替240个特征值，该6个特征值即前文提及的M个第一特征值。当然，具体采用几个简化后的特征值并不是本方面需要限定的地方。

下面对主成分分析法(Principal component Analysis，简称为PCA)进行简单介绍，当然，本领域技术人员也可以采用其他可行的算法实现特征简化。

假设：存在n个样本

X_{i} = [\begin{matrix} X_{1} \\ X_{2} \\ . \\ . \\ X_{P} \end{matrix}]

对上述n个样本求主成分的计算过程如下：

(1)对样本数据的标准化

为了实现样本数据的标准化，应求样本数据的平均和方差。样本数据的标准化是基于数据的平均和方差进行的。标准化的实质是将样本变换为平均为0，方差为1的标准化数据。

(2)计算相关矩阵

对于给定的n个样本，求样本间的相关系数。相关矩阵中的每一个元素由相应的相关系数所表示。

(3)求特征值和特征向量

设求得的相关矩阵为R，求解特征方程：|R-λf|＝0；

通过求解特征方程，可得到m个特征值(i＝1～m)，和对应于每一个特征值的特征向量：Q_i＝(a_i1，a_i2，…，a_ip)，i＝1～m；且有λ1＞λ2＞λ3＞λm＞0与之对应的特征向量相互正交。

(4)求主成分

根据求得的m个特征向量，m个主要成分分别为：

y₁＝a₁₁x₁+a₁₂x₂+...+a_1px_p

y₂＝a₂₁x₁+a₂₂x₂+...+a_2px_p

..................

y_m＝a_m1x₁+a_m2x₂+...+a_mpx_p

以上求得的主成分相互正交且每一个主成分的方差等于对应的特征向量λ。显然，各主要成分对应的方差是逐次递减的。

(5)求特征值和特征向量

通过上述方法可求得m(m≤p)个主成分。我们称第i个主成分的λi与

之比为第i个主成分的贡献率。在m个主成分中，前q个主成分的贡献率之和为：

α = Σ_{i = 1}^{q} λ_{i} / Σ_{i = 1}^{m} λ_{i};

我们称α为前q个主成分的累积贡献率。

主成分的个数可以通过累积贡献率来确定。通常以累积贡献率α≥0.85为标准。对于选定的q个主成分，若其累积贡献率达到了85％，即α≥0.85，则主成分可确定为q个。它表示，所选定的q个主成分，基本保留了原来p个变量的信息。在决定主成分的个数时，应在α≥0.85的条件下，尽量减少主成分的个数。

总之，主成分分析以较少的m个指标代替了原来的p个指标对系统进行分析，能够对综合评价或者计算过程带来了很大的方便。

步骤104：通过MD5算法，根据6个特征值计算得到该音频文件的特征标识。

MD5(Message Digest Algorithm--5)算法是一种基于散列函数的算法。MD5按512位数据块为单位来处理输入，产生128位的消息摘要。其中，可以通过散列(Hash)函数对不同长度的输入消息，产生固定长度的输出。这个固定长度的输出称为原输入消息的“散列”或“消息摘要”(Message digest)。一般而言，散列函数H必须具有以下属性：

1)H能够应用到大小不一的数据上；

2)H能够生成大小固定的输出；

3)对干任意给定的x，H(x)的计算相对简单；

4)对于任意给定的代码h，要发现满足H(x)＝h的x在计算上是不可行的；

5)对于任意给定的块x，要发现满足H(y)＝H(x)而y＝x在计算上是不可行的；

6)要发现满足H(X)＝H(y)的(X，y)对在计算上是不可行的。

上述的MD5算法仅仅是现有技术中常用的一种算法，本领域技术人员当然可以根据需要选用其他可行的算法。

本发明优选的，用所述音频文件的6个特征值作为MD5算法的输入信息，将经过计算后输出的“散列”作为该音频文件的特征标识。除非有其他音频文件的6个特征值与该音频文件的6个特征值一致，否则，不会有重复的特征标识出现。

步骤105：将音频文件的特征标识存入数据库，并将数据库中与该文件特征标识相同的音频文件标记为一类。

对于每一个从互联网获取的音频文件依次执行步骤102至105的操作，将按照上述方法得到的音频文件信息存入数据库中，然后根据特征标识对其进行聚类。至此，本发明就可以完成对音频文件的聚类。

通过简化特征值的聚类，可以将同一个音乐由不同的人或者不同方式制成的mp3或者其他格式的音频文件，或者音乐前后具有不同的长短或噪音，或者同一个音乐分为演唱会版，现场版，CD版等，通过频谱判重将这些对于用户检索而言实质一样的音频文件聚类在一起，从而提高用户的搜索效率。

为了便于对音频信息进行检索，本发明优选的通过数据库存储音频文件的信息。在数据库中除了存储所述的特征标识外，还存储有该音频文件的链接标识和文字属性信息。所述链接标识是根据该音频文件的链接信息计算得出。由于链接标识在现有的搜索领域中已经广泛应用，所以在此，不再详述。

为了减少计算量，本发明优选的，在步骤102之前，首先通过MD5算法，将根据所述音频文件的二进制编码计算得出的“散列”作为该音频文件的文件标识。容易得知，除非存在与该音频文件完全相同的文件，否则不会出现重复的文件标识。然后查询数据库中是否已存储有相同的文件标识，若存在，将该音频文件信息存储在数据库中，同时取得数据库中已有文件标识所对应的特征标识赋予该音频文件在数据库中对应的文件信息。如此以来，在不需要对音频文件进行采样切分的情况下亦可完成对音频文件的聚类，从而加快聚类效率和减少计算量。

下面是按照本发明所述聚类方法对5个音频文件聚类后的示例：

groupid： 32AA23E622A7E4D7 size： 3

15b68430f58ed35a|FAB3065D8C2FE52C010C1E452738DD05

16b9fbc8b30ea753|6A21CB74A30AB9B08C6763E06546C35D

157179555629ca06|A3F5C1C78F33F7BF7F36AEF00A9DF283

groupid： 124329940D88133B size： 2

170ee61d170e6575|8F188A9B6C4B050FF5DB1F7B72055A5A

182869ab64c40cd0|DCA2B51ACD80BE2B065BB3A6B05ACE45

其中，“groupid：32AA23E622A7E4D7”表示该类中的音频文件具有相同的特征标识32AA23E622A7E4D7，故可以放在一类音频文件中；

“size：3”表示该类中有三个音频文件。在这之下列出了该类中三个不同的音频文件信息，每个音频文件信息的内容包括该音频文件的链接标识和文件标识。以第一个音频文件为例，其中：

“15b68430f58ed35a”是根据该音频文件的链接信息计算出来的链接标识；

“32AA23E622A7E4D7”是根据6个特征值计算得出的该文件的特征标识；

“FAB3065D8C2FE52C010C1E452738DD05”是根据音频文件本身计算得到的文件标识。

当然，为了全面对音频文件进行记录。可以根据音频文件的相关网页上下文和/或链接信息获取相应的文字属性信息；或者提取音频文件中的文字属性信息，并存储至所述数据库。例如：

15b68430f58ed35a|童话|光良|童话|FAB3065D8C2FE52C010C1E452738DD05

以上描述了根据本发明的对音频文件进行聚类的方法，下面参考实施例1同时结合图2描述基于所述聚类方法对音频文件进行检索的方法。

步骤201：特征聚类步骤，从互联网获取音频文件，并根据所述文件的特征标识进行聚类。

获取互联网中的音频文件；对该音频文件进行采样，取得能够描述该音频文件的P个第一特征值；根据预置的第一算法，得到用来代替所述P个第一特征值描述该音频文件的M个第二特征值，其中P大于M；通过预置的第二算法，根据所述M个第二特征值计算得到该音频文件的特征标识；分别对互联网中的音频文件进行上述计算，将特征标识相同的音频文件标记为同一特征类。该步骤的具体内容请参考上述实施例，这里不再赘述。

步骤202：文本聚类步骤，提取音频文件中的文字属性信息；根据文字属性信息的相同或者相似程度对音频文件进行文本聚类；可以包括以下子步骤：

子步骤2021：提取音频文件的文字属性信息存储在数据库中。

通常情况下，从互联网中获取的音频文件，例如mp3、windows media文件中都在固定位置存储有与该文件相关的文字属性信息，如作者、作曲、演唱者、专辑、歌名、网址等。本发明优选的从所述音频文件中的相应部位直接获取该文件的文字属性信息，当然也可以从该音频文件的相关网页上下文和/或链接信息中提取相应的文字属性信息。所述链接信息包括链接地址中的信息以及触发该链接地址的文字信息。

子步骤2022：根据文字属性信息的相同或者相似程度对音频文件进行文本聚类。例如，比较数据库中的文件信息，将文字属性信息相同或者相似的文件标记为同一类。

优选的，在将文字属性信息相同的文件标记为同一类之前，判别属于相同特征标识的一类音频文件中正确的文字属性信息；采用所述正确的文字属性信息更新同一特征类中其他音频文件的文字属性信息，同时去除垃圾信息和无效信息，使得通过文字属性信息可以准确地反映音频文件的内容。本发明可根据多种方式或规则认定文字属性信息是否正确。

例如，少数服从多数原则，认为在具有相同特征标识的一类音频文件中，出现频率高，即所占比例较高的文字属性信息为正确信息。或者对每一个音频文件的文字属性信息进行分析，如果这个文字属性信息完全命中标准库(一个由人工干预形成的音频内容的信息库，认为是非常准确的)，即赋予它较高的权重，权重值高于一定阈值的就判别为正确信息。

按照权重高的或者正确的信息更新组内所有信息字段的值，可以选择强制更新每个字段，也可以选择某个字段的信息都保留，并不强制更新，而根据先前赋予的权重分值的高低进行这个字段的顺序排列。例如专辑名称这个字段就不会强制都更新，因为一首歌曲可以在多个专辑里面出现。

文本聚类步骤202之后得到的记录可以为：

Group 5： size 5

15b68430f58ed35a|童话|光良|童话|FAB3065D8C2FE52C010C1E452738DD05

16b9fbc8b30ea753|童话|光良|童话|6A21CB74A30AB9B08C6763E06546C35D

157179555629ca06|童话|光良|童话|A3F5C1C78F33F7BF7F36AEF00A9DF283

170ee61d170e6575|童话|光良|童话|8F188A9B6C4B050FF5DB1F7B72055A5A

182869ab64c40cd0|童话|光良|童话|DCA2B51ACD80BE2B065BB3A6B05ACE45

步骤203：记录音频文件的文字属性信息、链接地址以及聚类信息至数据库。所述聚类信息既包括特征聚类信息，还包括文本聚类信息，当然，可以将不同的聚类信息存储在不同的数据库中，链接使用聚类信息，以加快搜索速度。

例如，特征聚类的记录可以为：

Group 122：groupid：32AA23E622A7E4D7 size：3童话|光良|童话

15b68430f58ed35a|童话|光良|童话|FAB3065D8C2FE52C010C1E452738DD05

16b9fbc8b30ea753|童话|光良|童话|6A21CB74A30AB9B08C6763E06546C35D

157179555629ca06|童话|光良|童话|A3F5C1C78F33F7BF7F36AEF00A9DF283

Group16： groupid：124329940D88133B size：2童话|光良|童话

170ee61d170e6575|童话|光良|童话|8F188A9B6C4B050FF5DB1F7B72055A5A

182869ab64c40cd0|童话|光良|童话|DCA2B51ACD80BE2B065BB3A6B05ACE45

通过文字属性信息，将所有的音频文件归结为以文字属性信息为标识的聚类记录，这样，当以文字作为关键字检索信息时可直接对该聚类信息进行检索，再链接至特征聚类，给用户提供极佳的搜索结果排列。

步骤204：根据查询请求获取相应的音频文件记录；在所述获取的音频文件记录中，将具有同样特征标识的文件作为一类，同时在每一类中取适量音频文件记录作为典型结果；形成搜索结果列表。

基于所述音频文件的聚类方法，当用户输入关键字对音频文件进行检索时，将文字属性信息符合该检索关键字的文件记录取出形成搜索结果列表呈现给用户。在该结果列表中，将具有相同特征标识的文件记录作为一类显示。由于在结果列表中，具有相同特征标识的文件记录聚类显示，并且可以仅仅显示适量的典型结果，因此用户可以很容易找到自己需要的文件。所述适量的典型结果可以为一个或者多个。

本发明优选的，根据该音频文件对应链接的连接速度、连接超时和时间衰减等评价因素，对每个音频文件的链接进行分值评估。下面对涉及的几个评价因素进行简单介绍：

根据连接该链接所花费的时间等计算一个连接速度的分值；经过多次的连接并判断完全死掉的链接赋予一个分值；连接超时是根据每次遇到连接超时的情况时，就在原权重分值上扣减相应的分数，一旦扣到一个预置的数值，就认为这个链接已经是死链；时间衰减是根据该链接存在的时间进行赋值，越新的链接其分值就越高，因为搜索的目的就是提供给用户最新、能够最快链接的结果信息。将上述各个子分值整体评价，得到一个分值赋予该音频文件，即完成了对该音频文件对应链接的分值评估。

优选的，还可以将链接的域名作为对该音频文件对应链接的分值评估的因素之一，例如，某个域名大多数链接都比较稳定时，则可以赋予该域名中所有音频文件的链接较高的分值。

在搜索结果的排列中，根据上述分值从同一特征类的音频文件中选取较高分值的几条记录作为典型结果供用户选择，并按照分值高低对音频文件记录进行排列。

对每个文件完成分值评估之后，还要对每一特征类进行分值评估。将每个特征类中地址链接的最高分值赋予该特征类；在搜索结果的排列中，按照特征类的分值高低进行类别的排列。

按照这样的方式，将最可靠的文件链接显示给用户，不但提高了用户的检索效率而且使用户拥有良好的使用体验。

参照图3，示出了采用本发明后的检索结果列表的显示情况。该搜索结果列表中所显示的文本聚类中匹配“童话”的结果数量是以“百”为数量级的，这正是由于特征聚类后，仅仅取适量的典型结果显示给用户，从而方便用户选择，现有的搜索引擎搜索结果是以“万”为数量级的，从而可以凸现本发明的优越性。

其次，本发明将所有文本聚类中匹配“童话”结果分成了多个特征类别进行显示，每个特征类别中都是相同或者相近的音频文件。例如，图3所示的搜索结果列表中，示出了18个特征类的音频文件，每个特征类仅仅取一个音频文件作为典型结果列出。特征类的排列是按照评价分值的高低进行的。当用户点击进行某个特征类的下载页面时，将该特征类中的不同音频文件链接按照评价分值的高低进行排序显示。

正是由于特征聚类之后，在搜索结果列表的显示中将一个特征类(相同或者相似)的音频文件链接仅仅采用一条典型结果进行显示，极大的方便用户链接和选择，而不会出现用户难以选择、多次重试的情况了。

参照图4，对本发明提出的一种音频文件的聚类装置进行介绍，该装置包括以下单元：

获取单元401，用于获取互联网中的音频文件；

采样单元402，用于对该音频文件进行采样，取得能够描述该音频文件的P个第一特征值；

分析单元403，用于根据预置的第一算法，得到用来代替所述P个第一特征值描述该音频文件的M个第二特征值，其中P大于M；

特征标识计算单元404，用于通过预置的第二算法，根据所述M个第二特征值计算得到该音频文件的特征标识；

聚类单元405，用于将特征标识相同的音频文件标记为同一类。

其中，分析单元403根据采样单元402获取的特征值进行分析，得到较少的特征值；然后，特征标识计算单元404根据简化后的特征值计算特征标识，从而聚类单元405根据各个音频文件的特征标识对其进行聚类。

优选的，上述装置还可以包括：文件标识计算单元406，用于根据音频文件本身的二进制编码计算得到该音频文件的文件标识。上述装置还可以包括数据库4010和比对单元407，其中，数据库4010用于存储音频文件的特征标识和文件标识；比对单元407用于比对计算得到的音频文件的文件标识和所述数据库中存储的文件标识；如果数据库4010中已存储有相同的文件标识，则将在所述数据库中该文件标识对应的特征标识赋予该音频文件。

一般在数据库中存储的记录还需要包括音频文件的链接标识和一定的文字信息，所以上述装置还可以包括：

链接标识计算单元408，用于对音频文件的链接地址计算得到所述音频文件的链接标识；

文字属性信息获取单元409，用于根据音频文件的相关网页上下文和/或链接信息获取相应的文字属性信息，或者提取音频文件中的文字属性信息。

参照图5，是本发明所述一种音频文件的搜索系统，包括特征聚类装置500、文本聚类装置600、数据库700和搜索引擎800；其中，

所述特征聚类装置500，包括：获取单元501，用于获取互联网中的音频文件；采样单元502，用于对该音频文件进行采样，取得能够描述该音频文件的P个第一特征值；分析单元503，用于根据预置的第一算法，得到用来代替所述P个第一特征值描述该音频文件的M个第二特征值，其中P大于M；特征标识计算单元504，用于通过预置的第二算法，根据所述M个第二特征值计算得到该音频文件的特征标识；特征聚类单元505，用于将特征标识相同的音频文件标记为同一特征类；

所述文本聚类装置600，包括：文字属性信息获取单元601，用于根据音频文件的相关网页上下文和/或链接信息获取相应的文字属性信息；或者提取音频文件中的文字属性信息；文本聚类单元602，用于根据文字属性信息的相同或者相似程度对音频文件进行文本聚类；

所述数据库700用于记录音频文件的文字属性信息、链接地址以及聚类信息；

所述搜索引擎800用于根据查询请求获取相应的文本类的音频文件记录；在所述获取的音频文件记录中，在每一特征类中取适量音频文件记录作为典型结果；根据检索结果形成搜索结果列表。

优选的，图5所示的系统中文本聚类装置600还可以包括：文字属性信息判别模块603，用于判别同一特征类的音频文件中正确的文字属性信息；更新模块604，用于采用所述正确的文字属性信息更新该特征类中其他音频文件的文字属性信息。当然，图5所示的实施例中上述两个模块是优选设置在文本聚类装置中的，但是并非对其设置的位置加以限定，本领域技术人员完成可以根据需要对其进行调整。

为了更好的对搜索结果排列显示，图5所示的系统中还可以包括排序装置900，所述排序装置900可以包括：

链接评价模块901，用于对同一特征类的音频文件的地址链接按照预置要素进行评价，并赋予相应的分值；

第一排序模块902，用于在搜索结果列表中对该特征类的音频文件的地址链接按照分值排序；

特征类分值赋予模块903，用于将每个特征类中地址链接的最高分值赋予该特征类；

第二排序模块904，用于对特征类按照分值高低进行排序。

上述关于本发明所述系统的描述中未详尽之处，可以参见本说明书前述相关部分。

以上对本发明所提供的一种音频文件的聚类方法和装置、以及一种音频文件的检索方法和系统，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1、一种互联网音频文件的聚类方法，其特征在于，包括以下步骤：

对获取的音频文件进行采样，取得能够描述该音频文件的P个第一特征值；

根据预置的第一算法，得到用来代替所述P个第一特征值描述该音频文件的M个第二特征值，其中P大于M；

通过预置的第二算法，根据所述M个第二特征值计算得到该音频文件的特征标识；

分别对互联网中的音频文件进行上述计算，将特征标识相同的音频文件标记为同一类。

2、根据权利要求1所述的方法，其特征在于，还包括：

在采样步骤之前，根据音频文件本身的二进制编码计算得到该音频文件的文件标识。

3、根据权利要求2所述的方法，其特征在于，还包括：

存储音频文件的特征标识和文件标识至数据库；

比对计算得到的音频文件的文件标识和所述数据库中存储的文件标识；

如果数据库中已存储有相同的文件标识，则将在所述数据库中该文件标识对应的特征标识赋予该音频文件。

4、根据权利要求2所述的方法，其特征在于，还包括：

对音频文件的链接地址计算得到所述音频文件的链接标识，并存储至所述数据库。

5、根据权利要求1所述的方法，其特征在于，所述采样包括：

对音频文件的频谱曲线进行等份数切分或者等时间切分；

分别对切分得到的P段曲线进行计算得到P个第一特征值。

6、根据权利要求2所述的方法，其特征在于，还包括：

提取音频文件中的文字属性信息，并存储至所述数据库。

7、一种音频文件的搜索方法，其特征在于，包括以下步骤：

8、根据权利要求7所述的方法，其特征在于，所述文字属性信息的获取方式为：

根据音频文件的相关网页上下文和/或链接信息获取相应的文字属性信息；

或者提取音频文件中的文字属性信息。

9、根据权利要求7所述的方法，其特征在于，还包括：

判别同一特征类的音频文件中正确的文字属性信息；

采用所述正确的文字属性信息更新该特征类中其他音频文件的文字属性信息。

10、根据权利要求7所述的方法，其特征在于，还包括：

对同一特征类的音频文件的地址链接按照预置要素进行评价，并赋予相应的分值；

对该特征类的音频文件的地址链接按照分值排序。

11、根据权利要求10所述的方法，其特征在于，还包括：

将每个特征类中地址链接的最高分值赋予该特征类；

按照特征类的分值高低进行排序。

12、根据权利要求7所述的方法，其特征在于，还包括：

13、根据权利要求12所述的方法，其特征在于，还包括：

存储音频文件的特征标识和文件标识至数据库；

14、一种互联网音频文件的聚类装置，其特征在于，包括：

聚类单元，用于将特征标识相同的音频文件标记为同一类。

15、如权利要求14所述的装置，其特征在于，还包括：

文件标识计算单元，用于根据音频文件本身的二进制编码计算得到该音频文件的文件标识。

16、如权利要求15所述的装置，其特征在于，还包括：

数据库，用于存储音频文件的特征标识和文件标识；

比对单元，用于比对计算得到的音频文件的文件标识和所述数据库中存储的文件标识；如果数据库中已存储有相同的文件标识，则将在所述数据库中该文件标识对应的特征标识赋予该音频文件。

17、如权利要求15所述的装置，其特征在于，还包括：

链接标识计算单元，用于对音频文件的链接地址计算得到所述音频文件的链接标识。

18、如权利要求15所述的装置，其特征在于，还包括：

文字属性信息获取单元，用于提取音频文件中的文字属性信息。

19、一种互联网音频文件的搜索系统，其特征在于，包括特征聚类装置、文本聚类装置、数据库和搜索引擎；其中，

所述特征聚类装置，包括：

特征聚类单元，用于将特征标识相同的音频文件标记为同一特征类；

所述文本聚类装置，包括：

文字属性信息获取单元，用于根据音频文件的相关网页上下文和/或链接信息获取相应的文字属性信息；或者提取音频文件中的文字属性信息；

文本聚类单元，用于根据文字属性信息的相同或者相似程度对音频文件进行文本聚类；

20、根据权利要求19所述的系统，其特征在于，还包括：

文字属性信息判别模块，用于判别同一特征类的音频文件中正确的文字属性信息；

更新模块，用于采用所述正确的文字属性信息更新该特征类中其他音频文件的文字属性信息。

21、根据权利要求19所述的系统，其特征在于，还包括：

链接评价模块，用于对同一特征类的音频文件的地址链接按照预置要素进行评价，并赋予相应的分值；

第一排序模块，用于对该特征类的音频文件的地址链接按照分值排序。

22、根据权利要求21所述的方法，其特征在于，还包括：

特征类分值赋予模块，用于将每个特征类中地址链接的最高分值赋予该特征类；

第二排序模块，用于对特征类按照的分值高低进行排序。