CN107918663A

CN107918663A - 音频文件检索方法及装置

Info

Publication number: CN107918663A
Application number: CN201711173138.1A
Authority: CN
Inventors: 张菁芸; 王辉
Original assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Priority date: 2017-11-22
Filing date: 2017-11-22
Publication date: 2018-04-17
Also published as: US20200257722A1; WO2019100953A1; US11314805B2

Abstract

本发明公开了一种音频文件检索方法及装置，属于音频处理领域。方法包括：实时采集待检索的音频片段；获取所述音频片段的多个音频帧中时序相邻的每两个音频帧对应子带的频谱质心的差值，得到多个差值；基于所述多个差值和预设差值阈值，得到所述两个音频帧对应的音频指纹，所述音频指纹的每一位由所述位对应的差值是否满足差值预设条件确定；基于所述多个音频帧的音频指纹在音频文件库中进行检索，得到与所述音频片段匹配的目标音频文件。本发明提高了对音频文件进行检索的准确性。

Description

音频文件检索方法及装置

技术领域

本发明涉及音频处理领域，特别涉及一种音频文件检索方法及装置。

背景技术

随着网络中音频文件的数量的飞速增长，针对大量音频文件进行检索的需求越发迫切。在各种实际应用场景中，经常会获取到音频片段，此时如何从存储了海量音频文件的音频文件库中，检索出与音频片段所匹配的目标音频文件已成为业界关注的一大热点。

相关技术中基于Philips算法对音频文件进行检索：对音频片段按照一定的帧叠进行加窗和分帧，得到多个音频帧后，对每个音频帧进行快速傅里叶变换(FFT，FastFourier Transformation)，得到每个音频帧的频谱，将每个音频帧在频域上划分为33个子带，基于音频帧的频谱，计算每个子带的能量。之后，对于每个音频帧，计算该音频帧的任意两个相邻子带之间的能量差分，得到该音频帧的32个能量差分，之后，对于多个音频帧中时序相邻的每两个音频帧，计算上一个音频帧的每个能量差分与下一个音频帧对应的能量差分的差值，得到32个差值，对于这32个差值中的每个差值，当差值大于0时取1，当差值小于0时取0，得到32位音频指纹，再基于音频指纹在音频文件库中进行检索，得到目标音频文件。

在实现本发明的过程中，发明人发现相关技术至少存在以下问题：

Philips算法容易产生伪共振峰问题，导致提取的音频指纹准确性差，影响了对音频文件进行检索的准确性。

发明内容

本发明实施例提供了一种音频文件检索方法及装置，能够解决相关技术的提取音频指纹时准确性较差的问题。所述技术方案如下：

第一方面，提供了一种音频文件检索方法，所述方法包括：

实时采集待检索的音频片段；

获取所述音频片段的多个音频帧中时序相邻的每两个音频帧对应子带的频谱质心的差值，得到多个差值；

基于所述多个差值和预设差值阈值，得到所述两个音频帧对应的音频指纹，所述音频指纹的每一位由所述位对应的差值是否满足差值预设条件确定；

基于所述多个音频帧的音频指纹在音频文件库中进行检索，得到与所述音频片段匹配的目标音频文件。

第二方面，提供了一种音频文件检索装置，所述装置包括：

采集模块，用于实时采集待检索的音频片段；

获取模块，用于获取所述音频片段的多个音频帧中时序相邻的每两个音频帧对应子带的频谱质心的差值，得到多个差值；

所述获取模块，还用于基于所述多个差值和预设差值阈值，得到所述两个音频帧对应的音频指纹，所述音频指纹的每一位由所述位对应的差值是否满足差值预设条件确定；

检索模块，用于基于所述多个音频帧的音频指纹在音频文件库中进行检索，得到与所述音频片段匹配的目标音频文件。

第三方面，提供了一种服务器，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现上述第一方面的音频文件检索方法。

第四方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现上述第一方面的音频文件检索方法。

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例提供的方法及装置，基于音频片段中多个音频帧的多个子带的频谱质心提取音频片段的音频指纹，该方法可以避免伪共振峰问题，保证了提取到的音频指纹的准确性，进而提高了对音频文件进行检索的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种实施环境的示意图；

图2是本发明实施例提供的一种音频文件检索方法的流程图；

图3是相关技术中加噪前后音频指纹之间的差异比特数的示意图；

图4是本发明实施例中加噪前后音频指纹之间的差异比特数的示意图；

图5是本发明实施例提供的加噪前后子带能量特征的示意图；

图6是本发明实施例提供的一种音频文件检索方法的操作流程图；

图7是相关技术和本发明实施例在不同信噪比下查准率和查全率的实验结果对比图；

图8是相关技术和本发明实施例在不同变换下查准率的实验结果对比图；

图9是相关技术和本发明实施例在不同变换下查全率的实验结果对比图；

图10是本发明实施例提供的一种音频文件检索装置的结构示意图；

图11是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了便于理解，先对本发明实施例涉及的名词进行解释：

音频帧：音频片段在时域上按照预设时长进行划分得到的一段音频。

伪共振峰问题：是指误将频谱中两个叠加的非共振峰识别为共振峰的问题。

时域对不齐：是指音频片段的音频指纹和音频文件库存储的音频文件的音频指纹在时域上存在偏移的情况。

帧叠：为分帧过程中的一个参数，是指时域相邻的两个音频帧之间的重叠时长与音频帧的时长之间的比例，Philips算法要求采用大帧叠，例如帧叠为31/32，而本发明实施例提供的方法可以采用小帧叠，例如帧叠为1/2。

帧移：下一个音频帧的起始时间点与上一个音频帧的起始时间点之间的时间差，帧叠越大，帧移越小，例如假设音频帧用Ts表示，帧叠为31/32，则帧移为1/32×Ts。

查全率：指从音频文件库检索出的目标音频文件的数量与音频文件库中音频文件的总数量之间的比值。

查准率：指从音频文件库检索出的正确的目标音频文件的数量与从音频文件库检索出的目标音频文件的数量之间的比值。

图1是本发明实施例提供的一种实施环境的示意图，该实施环境包括多个终端101和多个服务器102。该多个终端101通过无线或者有线网络和多个服务器102连接，该多个终端101可以为电脑、智能手机、平板电脑或者其他服务器，每个服务器102可以为是一台服务器，或者由若干台服务器组成的服务器集群，或者是一个云计算服务中心。

在检索音频文件的过程中，终端101可以向服务器102提供音频片段，服务器102可以基于音频片段和音频文件库，得到音频文件库中与音频片段匹配的目标音频文件。可选地，服务器102还可以具有至少一种数据库，例如流行音乐数据库，轻音乐数据库，动漫音乐数据库等，该至少一种数据库用于存储音频文件库。

本发明实施例提供的音频文件检索方法可以应用在多种实际应用场景，例如可以应用在哼唱检索的场景：在用户搜索音乐的场景中，经常面临用户忘记音乐的名称的情况，进而导致用户无法搜索想要的音乐。采用本发明实施例提供的方法，用户可以直接哼唱音乐，终端会采集用户发出的音频片段，提供给服务器，服务器可以从该音频片段提取音频指纹，检索出音频文件库中的目标音频文件，返回给终端，终端可以向用户提供目标音频文件，从而帮助用户找到想要的音乐。例如，如图1所示，用户对着终端101哼唱“你问我爱你有多深”，则终端会采集到音频片段，将该音频片段提供给服务器102，服务器102检索出该音频片段匹配的目标音频文件为“月亮代表我的心”，将该目标音频文件返回给终端101。

在上述场景中，由于本发明实施例避免了提取指纹过程中的伪共振峰问题，能够提高音频指纹的准确性，服务器准确地检索出目标音频文件，帮助用户找到想要的音乐。

图2是本发明实施例提供的一种音频文件检索方法的流程图。该发明实施例的执行主体为服务器，参见图2，该方法包括：

201、服务器实时采集待检索的音频片段，对音频片段进行分帧、加窗和频域变换。

音频片段的类型可以为流行音乐、古典音乐、民谣、动漫音乐、轻音乐等，音频片段的格式可以为MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、WMA(Windows Media Audio，微软音频媒体)等，本发明实施例对此不做限定。

关于实时采集音频片段的方式，可以截取音频片段或采集音频片段。截取音频片段是指从获取出的整个音频文件中截取出音频片段。采集音频片段是指直接采集到音频片段。其中，可以由终端采集音频片段，将采集到的音频片段发送给服务器，以实现服务器实时采集音频片段的效果。例如终端可以安装音乐应用的客户端，在运行客户端的过程中采集到音频片段，将音频片段发送给服务器，服务器接收到音频片段。示例性地，用户可以对着终端的麦克风哼唱音乐，则终端可以通过麦克风采集到用户哼唱的音乐，作为音频片段，发送给服务器。

关于对音频片段进行分帧的过程，服务器可以按照预设帧叠对音频片段进行分帧，得到多个候选音频帧。该预设帧叠可以为较小的帧叠，该预设帧叠小于Philips算法要求的帧叠，可以为1/2，预设帧叠可以由开发人员在服务器上预先进行配置。进一步地，服务器还可以获取预设帧长和预设采样率，按照预设帧叠、预设帧长和预设采样率对音频片段进行分帧，则分帧得到的多个候选音频帧中每个候选音频帧的帧长为预设帧长。其中，预设帧长和预设采样率同样可以根据实际需求确定，可以由开发人员在服务器上预先进行配置，例如预设帧长为20ms，预设采样率为8kHZ。

关于对分帧后的多个候选音频帧进行加窗的过程，服务器可以采用汉宁(hanning)窗对每个候选音频帧进行加窗，达到提高音频指纹的准确性的技术效果：相关技术中通常采用汉明(hamming)窗进行加窗，而本发明实施例中以汉宁窗作为加窗函数，由于汉宁窗的旁瓣衰减速度更快，在保证能够减小分帧过程的截断效应的基础上，能够减轻旁瓣效应，避免窗函数的旁瓣对提取音频指纹过程的干扰，进而提高音频指纹的准确性。

关于对音频片段进行频域变换的过程，可以对每个候选音频帧进行FFT变换，得到每个候选音频帧的频谱。

202、服务器对音频片段进行语音端点检测。

语音端点检测(voice activity detection，VAD)是指获取音频片段的所有音频帧中属于语音部分的过程。上述步骤201中，音频片段得到的多个候选音频帧可以属于音频片段的语音部分、静音部分或噪声部分，而静音部分的候选音频帧对提取音频指纹的过程无用，会耗费提取音频指纹的过程的计算量，噪声部分的候选音频帧不能反映音频片段的真实音频特征，会对提取音频指纹的过程造成干扰。为此，本发明实施例中会对音频片段进行语音端点检测，即从音频片段的所有候选音频帧中筛选出语音部分的候选音频帧，基于这些候选音频帧提取音频指纹，以便减少提取音频指纹的计算量，同时保证提取音频指纹的准确性。

语音端点检测的具体过程可以包括以下步骤一至步骤三：

步骤一、对于音频片段的多个候选音频帧中的每个候选音频帧，基于候选音频帧的频谱，获取候选音频帧的能量过零率。

能量过零率是指每秒内候选音频帧的波形穿过零电平的次数，能量过零率能够反映候选音频帧的频率信息。在实施中，对于每个候选音频帧，可以计算该候选音频帧的短时能量，再基于短时能量和阶跃函数，计算每帧候选音频帧的能量过零率。

步骤二、基于候选音频帧的频谱，获取候选音频帧的多个子带的能量比。

本步骤可以包括以下(1)和(2)。

(1)对于每个候选音频帧，在频域上将候选音频帧划分为多个子带，例如可以采用均分的方式将候选音频帧划分为4个子带。

(2)对于多个子带中的每个子带，按照以下公式进行计算，得到子带的能量比。

其中，i表示候选音频帧的子带的标识，SBER_i表示子带i的能量比，X(ω)表示频率ω的幅值，U_i表示子带i的上限频率，L_i表示子带i的下限频率。

步骤三、基于候选音频帧的能量过零率以及多个能量比，从多个候选音频帧中筛选出不符合能量预设条件的多个音频帧，该能量预设条件为：能量过零率低于预设过零率阈值，且多个子带的能量比之间的相似度符合要求，能量预设条件用于指示对应的候选音频帧为静音部分或噪音部分。

为了区分描述，在此将不符合能量预设条件的候选音频帧，即属于语音部分的候选音频帧称为音频帧，针对筛选出多个音频帧的具体过程，对于多个候选音频帧中的每个候选音频帧，服务器可以判断该候选音频帧的能量过零率是否低于预设过零率阈值，同时判断多个子带的能量比之间的相似度是否符合要求，当候选音频帧的能量过零率低于预设过零率阈值，且多个子带能量比之间的相似度符合要求时，表明候选音频帧属于静音部分或噪音部分，则不会基于该候选音频帧提取音频指纹，而当候选音频帧的能量过零率不低于预设过零率阈值，或多个子带能量比之间的相似度不符合要求时，表明该候选音频帧属于语音部分，则将该候选音频帧筛选出来。

其中，关于判断多个子带的能量比之间的相似度是否符合要求的具体过程，可以设置相似度阈值，计算多个能量比之间的相似度，当多个能量比之间的相似度小于相似度阈值时，确定多个子带的能量比近似相等，即相似度符合要求。

通过上述步骤一至步骤三，得到了音频片段中属于语音部分的多个音频帧，可以达到以下技术效果：

第一，由于这些音频帧去除了静音部分，基于这些音频帧提取音频指纹时能够避免计算量的无意义耗费。

第二，由于这些音频帧去除了噪声部分，基于这些音频帧提取音频指纹时能够保证音频指纹的准确性，提高检索过程的查全率和查准率。

第三、提高了抗噪性：相关技术通常基于短时能量和过零率区分静音部分和语音部分，进而进行语音端点检测，由于浊音部分和噪声部分过零率相当，语音端点检测过程会混淆浊音部分和噪声部分，当信噪比不高时，准确性较差。而本发明实施例为此进行了改进，在语音端点检测的过程结合了子带能量比的特征，经过实验证明可以改善信噪比不高时准确性差的情况，提高了抗噪性。

发明人分别对相关技术提供的语音端点检测方法和本发明实施例提供的语音端点检测方法进行了对比实验，参见图3和图4，图3示出了相关技术中无噪音频片段的音频指纹与加噪音频片段的音频指纹之间的差异比特数的示意图，图4示出了本发明实施例中无噪音频片段的音频指纹与加噪音频片段的音频指纹之间的差异比特数的示意图，可见本发明实施例提供的端点检测方法中无噪音频片段的音频指纹与加噪音频片段的音频指纹较为接近，本发明实施例提供的端点检测方法在抗噪性能上产生明显改善。

203、服务器从音频片段中选取至少一个种子片段，每个种子片段是指位于能量峰值左右预设帧数内的至少一个音频帧。

选取种子片段的过程可以包括以下步骤一和步骤二。

步骤一、服务器可以获取音频片段的频谱中的至少一个能量峰值。

频谱的能量峰值是指频谱中能量的极大值点，服务器可以计算待检索音频的频谱中每个频率对应的能量，获取出至少一个能量峰值。

步骤二、基于至少一个能量峰值，从音频片段中选取至少一个种子片段。

对于每个能量峰值，可以选取在该能量峰值左侧预设帧数内的音频帧以及在该能量峰值右侧预设帧数的音频帧，即选取在该能量峰值附近的至少一个音频帧，将这些音频帧作为该能量峰值对应的种子片段。例如，假设预设帧数为5，则可以从能量峰值开始往左选取5个音频帧，从能量峰值开始往右选取5个音频帧，将这10个音频帧作为一个种子片段。

本实施例中，通过从音频片段中选取至少一个种子片段，基于种子片段划分子带进而提取音频指纹，可以达到以下技术效果：

第一，提高了提取音频指纹过程的抗噪性：

发明人对音频片段进行了加噪实验，对加噪前的音频片段的子带能量特征和加噪后的音频片段的子带能量特征进行对比，发现对于位于音频片段的能量峰值附近的区域来说，该区域的子带能量特征在加噪前后近似不变。示例性地，参见图5，子带能量特征在加噪前后基本不变的子带用*标记，观察可得，大部分*标记的点都位于能量峰值附近。

结合这一发明构思，本实施例中将位于某个能量峰值左右预设帧数内的至少一个音频帧作为该能量峰值对应的种子片段，种子片段在有噪情况下音频指纹基本不变，能够增强音频检索的抗噪性、鲁棒性。

第二，减少了提取音频指纹过程的计算量：

相关技术会对端点检测后得到的所有音频帧划分子带进而提取音频指纹，而本实施例中会从所有音频帧中筛选种子片段，仅针对种子片段内的音频帧划分子带进而提取音频指纹，减少了需要提取音频指纹的音频帧的数量，从而减少了计算量，进而减少了检索音频文件的耗时，提高了检索音频文件的速度。

204、针对至少一个种子片段中的每个种子片段中的每个音频帧，服务器对音频帧进行划分，得到音频帧对应的多个子带。

可选地，服务器可以采用Mel划分子带方法对音频帧进行划分，得到音频帧的多个子带。Mel划分子带方法可以理解为音频帧通过一组Mel滤波器，每个Mel滤波器会过滤出一个子带，进而得到多个子带。其中，Mel划分子带方法的公式具体如下：

其中，F_max表示音频帧的最大频率，M表示子带的数量，第m个子带的带宽范围为(B_m-1，B_m)。

通过采用Mel划分子带方法划分子带，可以达到以下技术效果：由于Mel滤波器对音频的滤波过程贴近于人耳听觉特性，采用Mel划分子带方法，经过下文的实验证明，能够提高检索音频文件的准确性。

205、对于音频片段的多个音频帧中的每个音频帧，服务器基于音频帧的频谱，获取音频帧的多个子带的频谱质心。

计算频谱质心的过程具体可以包括以下步骤一和步骤二。

步骤一、对于多个子带中的每个子带，基于频谱中子带的每个频率的幅值，获取子带的原始频谱质心。

对于多个子带中的每个子带，可以按照以下公式对该子带的每个频率的幅值进行计算，得到该子带的原始频谱质心。

其中，C_m表示子带m的原始频谱质心，P(f)表示频率f的幅值，m表示子带的标识，h_m表示子带m的下限频率，l_m表示子带m的上限频率。

步骤二、基于子带的下限频率和上限频率，对原始频谱质心进行归一化，得到子带的频谱质心。

对于多个子带中的每个子带，计算得到该子带的原始频谱质心后，可以基于子带的下限频率和上限频率，按照以下公式对子带的原始频谱质心进行归一化，得到子带的频谱质心：

NC_m＝[C_m-(h_m+l_m)]/2(h_m-l_m)

其中，NC_m表示子带m的频谱质心。

归一化过程的技术效果在于，由于步骤一中得到的每个子带的原始频谱质心的取值范围不同，高频子带的原始频谱质心的取值范围高于低频子带的原始频谱质心的取值范围，通过对原始频谱质心进行归一化，可以保证频谱质心的取值范围不受频谱子带选择的影响。

206、对于多个音频帧中时序相邻的每两个音频帧，服务器计算两个音频帧的对应子带的频谱质心的差值，得到多个差值。

对于时序相邻的每两个音频帧，服务器可以计算上一个音频帧中第一个子带的频谱质心与下一个音频帧中第一个子带的频谱质心之间的差值，再计算上一个音频帧中第二个子带的频谱质心与下一个音频帧中第二个子带的频谱质心之间的差值，以此类推，直至计算上一个音频帧中最后一个子带的频谱质心与下一个音频帧中最后一个子带的频谱质心之间的差值，得到这两个音频帧对应的多个差值，这多个差值的数量可以等于一个音频帧划分出的子带的数量。

207、服务器基于多个差值和预设差值阈值，得到两个音频帧对应的音频指纹，音频指纹的每一位由位对应的差值是否满足差值预设条件确定，差值预设条件为差值大于预设差值阈值。

本发明实施例中，每两个时序相邻的音频帧会确定出一个音频指纹，每个音频指纹为一串二进制数字。当得到两个音频帧对应的多个差值后，为了将这多个差值转换为二进制的音频指纹，对于多个差值中的每个差值，服务器可以判断差值是否大于预设差值阈值，当差值大于预设差值阈值时，服务器会将音频指纹中差值对应的位取1，当差值不大于预设差值阈值时，将音频指纹中差值对应的位取0。其中，预设差值阈值可以根据实际需求确定，可以为0。例如，假设音频帧划分为32个子带，某两个时序相邻的音频帧对应的多个差值为10、-5、9、4、-2……10，预设差值为0，则这两个音频帧对应的音频指纹为1、0、1、1、0。。。1，共计32位。

示例性地，假设从音频片段中获取了100个音频帧，每个音频帧划分为32个子带，则这100个音频帧每两个时序相邻的音频帧会确定一个音频指纹，则该音频片段共计确定出99个音频指纹，每个音频指纹为32位的二进制数字。

本发明实施例中，通过计算每个音频帧的多个子带的频谱质心，基于时序相邻的两个音频帧对应子带的频谱质心的差值确定音频指纹，该方法可以称为归一化频谱质心(Normalized Spectral Subband Centroids,NSSC)方法，可以达到以下技术效果：

第一，这种提取音频指纹的方法不存在伪共振峰问题，提高了检索过程的准确率：

共振峰是指频谱中能量相对集中的区域，为语音信号处理中的常用特征。而相关技术中提取音频指纹的方法经常出现频谱中两个非共振峰叠加形成伪共振峰的问题，导致基于伪共振峰提取的音频指纹出现大量错误。而本发明实施例中，不同子带的频谱质心相互独立，不会叠加而互相干扰，因此不存在伪共振峰问题，频谱质心的可信度高，保证提取的音频指纹的准确性高，进而提高了检索音频文件过程的查全率和查准率。

第二，这种提取音频指纹的方法适用于小帧叠的情况，因而能够极大地减少了计算量：

相关技术中，基于Philips算法提取的音频指纹具有时域对不齐的固有缺陷，只能采用较大的帧叠进行分帧，否则会由于时域对不齐引起指纹匹配失败。而采用较大的帧叠进行分帧会导致音频指纹提取过程中计算量极大：第一，由于帧叠大，帧移小，相同长度的音频片段进行加窗处理时，帧移越小，音频片段划分的候选音频帧的数量越多，FFT需要进行的次数也就越多，计算量也就越大。第二，由于帧叠大会导致FFT的计算复杂度极高。例如，当音频采样率为8kHZ时，一帧候选音频帧的帧长为2656点，对候选音频帧进行FFT时需要在候选音频帧的尾部补0，将长度变化到4096点，计算复杂度极高。

而本发明实施例中，基于频谱质心提取的音频指纹不存在时域对不齐的现象，因此可以采用较小的帧叠进行分帧，从而极大地减少了音频指纹提取的计算量：第一，由于帧叠小，帧移大，相同长度的音频片段进行加窗处理时，帧移越大，音频片段划分的候选音频帧的数量越少，需要进行FFT的次数也就越少，计算量也就越少，减少了指纹提取的耗时，提高了指纹提取的效率。第二，小帧叠可以减小FFT的计算复杂度，进一步地减少了计算量，减少了指纹提取的耗时，提高了指纹提取的效率。

208、服务器基于多个音频帧的音频指纹在音频文件库中进行检索，得到与音频片段匹配的目标音频文件。

音频文件库中包括大量音频文件以及对应的大量音频指纹，服务器得到音频片段的多个音频指纹后，可以基于多个音频指纹在音频文件库中进行检索，判断音频文件库中每个音频文件的多个音频指纹是否命中音频片段的多个音频指纹，从而获取与音频片段匹配的目标音频文件。

获取与音频片段匹配的目标音频文件的过程具体可以包括以下步骤一至步骤三：

步骤一、服务器记录音频文件库中的至少一个指定音频文件的命中次数，指定音频文件是指命中任一个音频指纹的音频文件。

以音频文件库中命中音频片段的任一个音频指纹的音频文件称为指定音频文件为例，对于音频片段的多个音频指纹中的任一个音频指纹，当音频文件库中的某个音频文件命中该音频指纹时，该音频文件为指定音频文件，服务器会记录指定音频文件命中该音频指纹的次数，还可以记录该指定音频文件在音频文件库中的音频库文件号，以便后续可以基于音频库文件号访问该指定音频文件。另外，在针对多个音频指纹进行检索的过程中，服务器可以对每个指定音频文件命中多个音频指纹的次数进行累计，将累计结果作为对应指定音频文件的命中次数。

步骤二、对于至少一个指定音频文件中的每个指定音频文件，当指定音频文件的命中次数大于预设命中次数阈值时，服务器计算指定音频文件的误码率。

服务器可以预先获取预设命中次数阈值，对于每个指定音频文件，服务器可以判断该指定音频文件的命中次数是否大于预设命中次数阈值，当该指定音频文件的命中次数是否大于预设命中次数阈值，可以获知该指定音频文件与音频片段之间较为相似，指定音频文件为目标音频文件的概率较大，则计算该指定音频文件的误码率。而当指定音频文件的命中次数不大于预设命中次数阈值，可以获知该指定音频文件与音频片段之间不相似，指定音频文件为目标音频文件的概率较小，则无需计算该指定音频文件的误码率。其中，预设命中次数阈值可以根据实际需求确定，经过实验表明，预设命中次数阈值为14时，检索过程的准确性较高，则可以将14作为预设命中次数阈值。

其中，针对计算指定音频文件的误码率的具体过程，服务器可以从指定音频文件的起始位置开始，获取音频片段的多个音频指纹与指定音频文件的多个音频指纹之间存在差异的差异比特数，同时获取音频片段的多个音频指纹的总比特数，计算差异比特数与总比特数之间的比值，作为指定音频文件的误码率。

步骤三、服务器基于每个指定音频文件的误码率，从至少一个指定音频文件中选取目标音频文件。

可选地，服务器可以判断每个指定音频文件的误码率是否大于预设误码率阈值，当任一指定音频文件的误码率大于预设误码率阈值时，将该指定音频文件作为目标音频文件。其中，预设误码率阈值可以根据实际需求确定，可以为0.35。

通过上述步骤一至步骤三，可以达到以下技术效果：

相关技术中，会计算音频文件库中所有命中音频指纹的音频文件的误码率，耗费时间较长，检索效率低下。而本发明实施例中，无需记录所有命中音频指纹的音频文件的误码率，而是设置了预设命中次数阈值，当音频文件库中的某个音频文件命中音频指纹时，将该音频文件作为指定音频文件进行记录，当该指定音频文件的命中次数大于预设命中次数阈值时，才会计算该指定音频文件的误码率，计算量较小，从而提高了音频检索的速度和效率。

需要说明的是，本发明实施例中音频文件库中每个音频文件的音频指纹均可以采用上述步骤201-207类似的方式提取音频指纹，也即是，音频文件库可以通过以下过程建立：

步骤一、对于任一音频文件的多个音频帧中的每个音频帧，服务器基于音频帧的频谱，获取音频帧的多个子带的频谱质心。

本步骤与上述步骤205类似，在此不做赘述。

步骤二、对于多个音频帧中时序相邻的每两个音频帧，服务器计算两个音频帧的对应子带的频谱质心的差值，得到多个差值。

本步骤与上述步骤206类似，在此不做赘述。

步骤三、服务器基于多个差值和预设差值阈值，得到两个音频帧对应的音频指纹，音频指纹的每一位由位对应的差值是否满足差值预设条件确定。

本步骤与上述步骤207类似，在此不做赘述。

步骤四、服务器将得到的至少一个音频指纹与音频文件对应存储于音频文件库中。

通过采用上述步骤一至步骤四，由于音频文件库中每个音频文件的音频指纹由子带的频谱质心确定，能够保证每个音频文件的音频指纹的准确性高。另外，提取每个音频文件的音频指纹的过程中，可以采用小帧叠对每个音频文件进行分帧，从而减少每个音频文件的音频帧的数量，从而减少提取每个音频文件的音频指纹的过程的计算量，从而加快了建立音频文件库的速度，提高了建立音频文件库的效率。

综上所述，参见图6，其示出了本发明实施例的操作流程图，本发明实施例各个步骤的处理逻辑可以封装为一个音频文件检索系统，在实际应用中，只需向音频文件检索系统输入音频片段，该音频文件检索系统即可自动执行上述各个步骤，输出目标音频文件。

本发明实施例提供的方法，基于音频片段中多个音频帧的多个子带的频谱质心提取音频片段的音频指纹，能够避免伪共振峰问题，因此保证提取到的音频指纹的准确性，进而保证对音频文件进行检索的准确性。

为了直观地展现本发明实施例的技术效果，发明人分别采用相关技术提供的方案和本发明实施例提供的方案进行了对比实验，实验证明，本发明实施例提供的音频文件检索方法的查全率、查准率以及抗噪能力有所提升，检索效率及检索性能明显改善，同时减少了存储量，提高了检索效率。

以本发明实施例提供的方法称为NSSC法为例，发明人组合了3种子带划分方式、3种窗函数和2种指纹提取方法，选定7组测试条件：

N1:Philips法、Hamming窗、均分子带；

N2:Philips法、Hamming窗、对数划分子带；

N3:Philips法、Hamming窗、Mel划分子带；

N4:Philips法、Blackman窗、Mel划分子带；

N5:Philips法、Hanning窗、Mel划分子带；

N6:NSSC法、Hanning窗、对数划分子带；

N7:NSSC法、Hanning窗、Mel划分子带。

最终得到的查准率和查全率如图6所示，从查准率看，N7(NSSC法提取指纹、加汉宁窗、Mel划分子带)最好，N5次之，N1、N2较差。考察查全率，表现最好的是N5(Philips法提取指纹、Hanning窗、Mel划分子带)和N7(NSSC法提取指纹、Hanning窗、Mel划分子带)。

以相关技术的方法称为基线方法，本发明实施例提供的方法称为改进方法为例，分别用基线方法和改进方法，针对语音和音乐在不同信噪比情况下的查全率和查准率进行了测试，结果如图7所示。由结果可知，随着信噪比的下降，基线方法的查准率和查全率急剧下降，而改进方法随噪声加重查准率和查全率下降得更慢，抗噪性能有了一定改善。

为了进一步验证音频检索系统的鲁棒性的改善，本文对音频片段作了5种变换，形成如下所示7组测试集:

T1：未处理(参照)

T2：动态均衡滤波

T3：加噪处理(SNR＝10dB)

T4：变调处理

T5：变速处理

T6：强制限幅处理

T7：添加回响效果

分别用基线方法和改进方法测试7组数据，结果如图8和图9所示。从查准率来看，当音频片段进行均衡滤波、加噪、变调、变速、添加回响等变换后，改进方法的查准率比基线方法下降的幅度小很多。而进行限幅处理后，改进方法的查准率下降较大，因为强制限幅会明显影响频谱质心分布。从查全率看，改进方法对均衡滤波和加噪处理后的音频拥有很好的鲁棒性，查全率基本不变，而基线系统对变调处理后的音频具有很好的稳定性。对于其他变换音频，两者查全率的下降百分点相近。从查准率看，N7(NSSC法提取指纹、加Hanning窗、Mel划分子带)最好，N5次之，N1、N2较差。考察查全率，表现最好的是N5(Philips法提取指纹、Hanning窗、Mel划分子带)和N7(NSSC法提取指纹、Hanning窗、Mel划分子带)。

在整体性能方面，使用两种方法对数据(测试集大小为515条)进行测试，整体性能结果如表1所示。从表1中可以明显看出，改进方法检索耗时明显下降，尤其是指纹计算时间大大缩短。从准确性看，改进方法的查全率提高了4.7％，查准率与基线方法只有0.6％的差异，总体性能有所提高。

表1

测试条件	查准率	查全率	音频指纹提取时长	检索时长
					基线方法	99.2％	91.9％	205.1s	0.139s
改进方法	99.8％	96.6％	39.4s	0.417s

图10是本发明实施例提供的一种音频文件检索装置的结构示意图。参见图10，该装置包括：采集模块1001、获取模块1002和检索模块1003。

采集模块1001，用于实时采集待检索的音频片段；

获取模块1002，用于获取所述音频片段的多个音频帧中时序相邻的每两个音频帧对应子带的频谱质心的差值，得到多个差值；

该获取模块1002，还用于基于所述多个差值和预设差值阈值，得到所述两个音频帧对应的音频指纹，所述音频指纹的每一位由所述位对应的差值是否满足差值预设条件确定；

检索模块1003，用于基于所述多个音频帧的音频指纹在音频文件库中进行检索，得到与所述音频片段匹配的目标音频文件。

可选地，该获取模块1002，包括：

获取子模块，用于对于所述音频片段的每个音频帧的每个子带，基于所述音频帧的频谱中所述子带的每个频率的幅值，获取所述子带的原始频谱质心；

归一化子模块，用于基于所述子带的下限频率和上限频率，对所述原始频谱质心进行归一化，得到所述子带的频谱质心。

可选地，该获取模块1002，还用于获取音频片段的频谱中的至少一个能量峰值；

该装置还包括：

选取模块，用于基于该至少一个能量峰值，从该音频片段中选取至少一个种子片段，每个种子片段是指位于能量峰值左右预设帧数内的至少一个音频帧；

划分模块，用于针对该至少一个种子片段中的每个种子片段中的每个音频帧，对该音频帧进行划分，得到该音频帧对应的多个子带。

可选地，该获取模块1002，还用于对于音频片段的多个候选音频帧中的每个候选音频帧，基于该候选音频帧的频谱，获取该候选音频帧的能量过零率；

该获取模块1002，还用于基于该候选音频帧的频谱，获取该候选音频帧的多个子带的能量比；

该装置还包括：筛选模块，用于基于该候选音频帧的能量过零率以及多个能量比，从该多个候选音频帧中筛选出不符合能量预设条件的多个音频帧；

其中，该能量预设条件为：能量过零率低于预设过零率阈值，且该多个子带的能量比之间的相似度符合要求。

可选地，该获取模块1002，包括：

记录子模块，用于记录该音频文件库中的至少一个指定音频文件的命中次数，该指定音频文件是指命中任一个音频指纹的音频文件；

计算子模块，用于对于该至少一个指定音频文件中的每个指定音频文件，当该指定音频文件的命中次数大于预设命中次数阈值时，计算该指定音频文件的误码率；

选取子模块，用于基于每个指定音频文件的误码率，从该至少一个指定音频文件中选取该目标音频文件。

可选地，该获取模块1002，还用于对于该多个差值中的每个差值，当该差值大于该预设差值阈值时，将音频指纹中该差值对应的位取8；当该差值不大于该预设差值阈值时，将音频指纹中该差值对应的位取0。

可选地，该音频文件库通过以下过程建立：

对于任一音频文件的多个音频帧中的每个音频帧，基于该音频帧的频谱，获取该音频帧的多个子带的频谱质心；

对于该多个音频帧中时序相邻的每两个音频帧，计算该两个音频帧的对应子带的频谱质心的差值，得到多个差值；

基于该多个差值和预设差值阈值，得到该两个音频帧对应的音频指纹，该音频指纹的每一位由该位对应的差值是否满足差值预设条件确定；

将得到的至少一个音频指纹与该音频文件对应存储于该音频文件库中。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

需要说明的是：上述实施例提供的音频文件检索装置在检索音频文件时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将服务器的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的音频文件检索装置与音频文件检索方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图11是本发明实施例提供的一种服务器的结构示意图，该服务器1100可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessing units，CPU)1122(例如，一个或一个以上处理器)和存储器1132，一个或一个以上存储应用程序1142或数据1144的存储介质1130(例如一个或一个以上海量存储设备)。其中，存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1122可以设置为与存储介质1130通信，在服务器1100上执行存储介质1130中的一系列指令操作。

服务器1100还可以包括一个或一个以上电源1126，一个或一个以上有线或无线网络接口1150，一个或一个以上输入输出接口1158，一个或一个以上键盘1156，和/或，一个或一个以上操作系统1141，例如Windows Server^TM，Mac OSX^TM，Unix^TM，Linux^TM，FreeBSD^TM等等。

该服务器1100可以用于执行上述实施例提供的音频文件检索方法的步骤。

在示例性实施例中，还提供了一种存储有计算机程序的计算机可读存储介质，例如存储有计算机程序的存储器，上述计算机程序被处理执行时实现上述实施例中所示的音频文件检索方法。例如，上述计算机可读存储介质可以是只读内存(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-OnlyMemory，CD-ROM)、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音频文件检索方法，其特征在于，所述方法包括：

实时采集待检索的音频片段；

2.根据权利要求1所述的方法，其特征在于，所述获取所述音频片段的多个音频帧中时序相邻的每两个音频帧对应子带的频谱质心的差值，得到多个差值之前，所述方法还包括：

对于所述音频片段的每个音频帧的每个子带，基于所述音频帧的频谱中所述子带的每个频率的幅值，获取所述子带的原始频谱质心；

基于所述子带的下限频率和上限频率，对所述原始频谱质心进行归一化，得到所述子带的频谱质心。

3.根据权利要求1所述的方法，其特征在于，所述获取所述音频片段的多个音频帧中时序相邻的每两个音频帧对应子带的频谱质心的差值，得到多个差值之前，所述方法还包括：

获取音频片段的频谱中的至少一个能量峰值；

基于所述至少一个能量峰值，从所述音频片段中选取至少一个种子片段，每个种子片段是指位于能量峰值左右预设帧数内的至少一个音频帧；

针对所述至少一个种子片段中的每个种子片段中的每个音频帧，对所述音频帧进行划分，得到所述音频帧对应的多个子带。

4.根据权利要求1所述的方法，其特征在于，所述获取所述音频片段的多个音频帧中时序相邻的每两个音频帧对应子带的频谱质心的差值，得到多个差值之前，所述方法还包括：

对于音频片段的多个候选音频帧中的每个候选音频帧，基于所述候选音频帧的频谱，获取所述候选音频帧的能量过零率；

基于所述候选音频帧的频谱，获取所述候选音频帧的多个子带的能量比；

基于所述候选音频帧的能量过零率以及多个能量比，从所述多个候选音频帧中筛选出不符合能量预设条件的多个音频帧；

其中，所述能量预设条件为：能量过零率低于预设过零率阈值，且所述多个子带的能量比之间的相似度符合要求。

5.根据权利要求1所述的方法，其特征在于，所述基于所述多个音频帧的音频指纹在音频文件库中进行检索，得到与所述音频片段匹配的目标音频文件，包括：

记录所述音频文件库中的至少一个指定音频文件的命中次数，所述指定音频文件是指命中任一个音频指纹的音频文件；

对于所述至少一个指定音频文件中的每个指定音频文件，当所述指定音频文件的命中次数大于预设命中次数阈值时，计算所述指定音频文件的误码率；

基于每个指定音频文件的误码率，从所述至少一个指定音频文件中选取所述目标音频文件。

6.根据权利要求1所述的方法，其特征在于，所述基于所述多个差值和预设阈值，得到所述两个音频帧对应的音频指纹，包括：

对于所述多个差值中的每个差值，当所述差值大于所述预设差值阈值时，将音频指纹中所述差值对应的位取1；

当所述差值不大于所述预设差值阈值时，将音频指纹中所述差值对应的位取0。

7.根据权利要求1所述的方法，其特征在于，所述音频文件库通过以下过程建立：

对于任一音频文件的多个音频帧中的每个音频帧，基于所述音频帧的频谱，获取所述音频帧的多个子带的频谱质心；

对于所述多个音频帧中时序相邻的每两个音频帧，计算所述两个音频帧的对应子带的频谱质心的差值，得到多个差值；

将得到的至少一个音频指纹与所述音频文件对应存储于所述音频文件库中。

8.一种音频文件检索装置，其特征在于，所述装置包括：

采集模块，用于实时采集待检索的音频片段；

9.根据权利要求8所述的装置，其特征在于，所述获取模块，包括：

10.根据权利要求8所述的装置，其特征在于，所述获取模块，还用于获取音频片段的频谱中的至少一个能量峰值；

所述装置还包括：

选取模块，用于基于所述至少一个能量峰值，从所述音频片段中选取至少一个种子片段，每个种子片段是指位于能量峰值左右预设帧数内的至少一个音频帧；

划分模块，用于针对所述至少一个种子片段中的每个种子片段中的每个音频帧，对所述音频帧进行划分，得到所述音频帧对应的多个子带。

11.根据权利要求8所述的装置，其特征在于，所述获取模块，还用于对于音频片段的多个候选音频帧中的每个候选音频帧，基于所述候选音频帧的频谱，获取所述候选音频帧的能量过零率；

所述获取模块，还用于基于所述候选音频帧的频谱，获取所述候选音频帧的多个子带的能量比；

所述装置还包括：筛选模块，用于基于所述候选音频帧的能量过零率以及多个能量比，从所述多个候选音频帧中筛选出不符合能量预设条件的多个音频帧；

12.根据权利要求8所述的装置，其特征在于，所述获取模块，包括：

记录子模块，用于记录所述音频文件库中的至少一个指定音频文件的命中次数，所述指定音频文件是指命中任一个音频指纹的音频文件；

计算子模块，用于对于所述至少一个指定音频文件中的每个指定音频文件，当所述指定音频文件的命中次数大于预设命中次数阈值时，计算所述指定音频文件的误码率；

选取子模块，用于基于每个指定音频文件的误码率，从所述至少一个指定音频文件中选取所述目标音频文件。

13.根据权利要求8所述的装置，其特征在于，所述音频文件库通过以下过程建立：

14.一种服务器，其特征在于，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如权利要求1至权利要求7任一项所述的音频文件检索方法所执行的操作。

15.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1至权利要求7任一项所述的音频文件检索方法所执行的操作。