CN111382303B

CN111382303B - 一种基于指纹权重的音频样例检索方法

Info

Publication number: CN111382303B
Application number: CN201811619718.3A
Authority: CN
Inventors: 李超; 张学帅; 邹学强; 刘建; 王中华; 胡琦
Original assignee: Institute of Acoustics CAS; National Computer Network and Information Security Management Center
Current assignee: Institute of Acoustics CAS; National Computer Network and Information Security Management Center
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2023-11-28
Anticipated expiration: 2038-12-28
Also published as: CN111382303A

Abstract

本发明涉及一种基于指纹权重的音频样例检索方法，该方法具体包括：获取待检音频的二进制音频指纹序列值，在预先建立的哈希表中进行查找；查找出对应的模板音频的二进制音频指纹序列值；计算待检音频和模板音频之间指纹序列差异数D、模板音频与待检音频之间允许指纹序列差异数的阈值Reject；如果D＜Reject，则认为待检音频与模板音频相似；如果D＞Reject，则认为待检音频存在错误。

Description

一种基于指纹权重的音频样例检索方法

技术领域

本发明属于音频检索技术领域，具体涉及一种基于指纹权重的音频样例检索方法。

背景技术

音频样例检索是指从音频数据库中检索出与用户提交查询样例具有相似内容的音频信息并反馈给用户。其核心内容包括两部分：特征提取和特征检索。其中，音频特征提取比较关键，只有选取了合适的音频特征，才能继续后面的检索方法设计。在大多数的音频样例检索方法中，大部分都是通过音频指纹实现的。其中，音频指纹，可以理解为音频信号的独一无二标识，是通过提取算法，针对音频提取特定特征而形成的序列。因此，一段音频指纹就是一段音频内容的概括，并且能够唯一的表达这段音频信号。在音频指纹提取方面，有很多大量的提取算法。其中Haitsma等人提出了一阶相邻能量差的方法。该方法通过对音频信号进行短时傅里叶变化，然后利用相邻音频帧的一阶能量差是否大于零来形成音频指纹，接着将音频指纹转换成32位比特关键字序列，形成哈希表并构建索引来进行样例检索。除此之外，还有很多其他科研机构提出的音频指纹算法。

在上述现有的算法中，一阶相邻能量差的方法由于指纹内容简单、容易实现、复杂度小、检索效率高等优点被广泛使用。但是，在实际应用中用户获取的音频片段容易遭受环境噪声和传输噪声的干扰，或有的应用场景中要求进行匹配的语音样例很短或者样例中噪声的存在可能会导致音频指纹间误码率超过阈值而导致无法命中。另外，由于静音帧的指纹容易出现不稳定性，在音频模板比较短时，很容易出现音频的误检和漏检。

目前，传统的检索匹配算法是采用预设的比特误差率(Bit Error,BER)，即比较两个音频片段数字音频指纹间的相似度来决定候选结果，其计算方法如下:

其中，F(n,m)和F'(n,m)分别代表查询音频和待检音频第n帧音频指纹的第m位的值，N为总帧数，M为指纹的位数，通常BER一般预设为0.35。当比对误差低于预设的门限时，则表明找到了目标音频文件。

但是，该比对方法并没有考虑到在一段音频片段中不同的指纹片段在音频中出现的错误概率并不相同。例如，在静音段中，音频指纹容易出现较高的误码率。在正常连续说话的语音段中，音频指纹则会有较低的误码率。因此，在短时音频模板匹配时，上面对所有帧差异比特(bit)数相加的方法，会导致大量的虚警存在。

发明内容

本发明的目的在于，为解决现有的检索方法存在上述缺陷，本发明提出了一种基于指纹权重的音频样例检索方法，在检索时，针对不同帧的音频指纹，根据其一阶差分能量的大小设置不同的指纹权重，充分利用了各个音频帧差分能量不同，出现错误的概率不同的特点，提高了算法对噪声、频谱缺失等应用环境下的鲁棒性。

为了实现上述目的，本发明提供了一种基于指纹权重的音频样例检索方法，克服了传统音频检索在短时模板、语音帧或频谱缺失时，性能明显下降的问题；该方法考虑到在一段音频片段中，不同的指纹片段在音频中出现错误的概率并不相同，充分利用了各个音频帧差分能量不同而错误概率不同的特点，提高了算法对噪声、频谱缺失等应用环境的鲁棒性。该方法具体包括：

获取待检音频的二进制音频指纹序列值，在预先建立的哈希表中进行查找；查找出对应的模板音频的二进制音频指纹序列值；

计算待检音频和模板音频之间指纹序列差异数D、模板音频与待检音频之间允许指纹序列差异数的阈值Reject；如果D＜Reject，则认为待检音频与模板音频相似；如果D＞Reject，则认为待检音频存在错误。

作为上述方法的改进之一，所述哈希表的预先建立的步骤具体包括：

步骤1)获取音频样例的音频指纹；

步骤2)获取音频样例的音频指纹权重；

步骤3)根据步骤1)中获取的音频指纹的二进制音频指纹序列值，以二进制音频指纹序列值为关键字建立哈希表。

作为上述方法的改进之一，所述步骤1)具体包括：

步骤1-1)将音频样例的音频信号降低到适合人耳特性的音频信号，获得第一音频信号；

步骤1-2)将步骤1-1)获得的第一音频信号，以每0.064秒为一帧，对其进行分帧，获得多帧音频，根据公式(2)，对每一帧音频用相同的汉明窗长度进行加权，加权方式如公式(3)，以获得每一帧音频的加权后的第n个音频样点的值x(n)；

其中，N为汉明窗长度,即每一帧音频的样点数；x'(n)为原始的第n个音频样点的值；w(n)为第n个音频样点的权重值；x(n)为加权后的第n个音频样点的值；

步骤1-3)针对步骤1-2)获得的每一帧音频的第n个音频样点的值x(n)，采用一阶FIR高通滤波器，根据公式(4)，进行预加重，获得预加重后的输出信号的值y(n)；

y(n)＝x(n)-ax(n-1) (4)

其中，a为预加重系数，0.9<a<1.0；x(n-1)为加权后的第n-1个音频样点的值；

步骤1-4)采用快速傅里叶算法，对步骤1-3)中的输出信号的值y(n)，利用公式(5)，进行离散傅立叶变换，获得音频帧经傅里叶变化后的频点值X(k)；

其中，X(k)为音频帧经傅里叶变化后的频点值；N'为傅里叶变化采取的音频点数；k为频点编号；j为虚数；

步骤1-5)在频域，针对步骤1-4)中的X(k)，在梅尔域进行子带划分，一共分成M个子带，根据公式(6)，获得第m子带的起始频率f(m)：

其中，F_min为映射下限；F_max为映射上限；M为子带个数；

步骤1-6)利用公式(7)，计算第m子带所包含的能量e(m)；假设第m子带的起始频率为f(m)，第m+1子带的终止频率为f(m+1)；

其中，音频帧经离散傅里叶变化后的频点值X(k)的绝对值的平方为第m子带所包含的能量e(m)；

步骤1-7)假定第i帧音频信号的第m子带的能量为e_im，其对应的二进制音频指纹序列值为t_im,则音频指纹的每个比特定义为：

其中，s_im为第i帧音频信号的第m子带与第i-1帧音频信号的第m+1子带之间的一阶相邻能量差；t_im为第i帧音频信号第m子带的二进制音频指纹序列值；

根据获得的t_im，获得第i帧音频信号的音频指纹。

作为上述方法的改进之一，所述步骤2)具体包括：

步骤2-1)假设步骤1)获得的音频指纹的一阶能量序列值为：

(S₁,S₂,S₃...S_i...S_N) (10)

其中：S_N为第N帧音频的各个子带的一阶相邻能量差的值的向量，每个S_i包括上述步骤1-7)中的(S_i1,S_i2,S_i3,S_i4...S_im)；

步骤2-2)针对步骤1-7)中的s_im，根据公式(11)，计算第i帧音频信号的总能量差值ES_i

再根据公式(12)，得到第i帧音频信号的总能量差序列：

(ES₁,ES₂,ES₃,ES₄,ES_i...ES_N) (12)

步骤2-3)利用步骤2-2)中的第i帧音频信号的总能量差值，根据公式(13)，获得第i帧音频信号的音频指纹所占的权重pweight_i：

其中，pweight_i为第i帧音频信号的音频指纹的权重；ES_i为第i帧音频信号的总能量差值；ES_i+1为第i+1帧音频信号的总能量差值。

作为上述方法的改进之一，所述计算待检音频与模板音频之间指纹序列差异数D具体包括：

其中，t(i,m)为待检音频第i帧音频指纹序列中第m位的二进制音频指纹序列值；t'(i,m)为模板音频第i帧音频指纹序列中第m位的二进制音频指纹序列值；M为子带数，R为模板音频与待检音频之间应比较的帧音频指纹总数。

作为上述方法的改进之一，所述计算模板音频与待检音频之间允许指纹序列差异数的阈值Reject具体包括：

其中，R表示模板音频与待检音频之间应比较的帧音频指纹总数，T表示预先设置好的比例值。

本发明的优点在于：

根据上述音频指纹提取描述可知，原始音频指纹的每个序列值为0或者为1，是根据S_im值的大小是否大于0来进行确定的。此时，S_im的能量大小并没有进行充分利用。另外，在一段音频中的能量值低或者静音段区域，t_im取0或者取1也很不稳定，所以，针对不同音频帧的音频指纹设置不同的权重，能有效的提升音频检索算法的查准率和查全率。特别是，在2s时，准确率提升16％。

附图说明

图1是本发明的一种基于指纹权重的音频样例检索方法的流程图；

图2是本发明的方法的实验一中两种方法查准率的比较示意图；

图3是本发明的方法的实验一中两种方法查全率的比较示意图；

图4是本发明的方法的实验二中两种方法查准率的比较示意图；

图5是本发明的方法的实验二中两种方法查全率的比较示意图。

具体实施方式

现结合附图对本发明作进一步的描述。

如图1所示，本发明提供了一种基于指纹权重的音频样例检索方法，克服了传统音频检索在短时模板、语音帧或频谱缺失时，性能明显下降的问题；该方法考虑到在一段音频片段中，不同的指纹片段在音频中出现错误的概率并不相同，充分利用了各个音频帧差分能量不同而错误概率不同的特点，提高了算法对噪声、频谱缺失等应用环境的鲁棒性。该方法具体包括：

步骤1)获取音频样例的音频指纹；其中，所述步骤1)具体包括：

通过对音频样例的音频信号进行频域变换和特征分析，通过频域特征，保留与音频听觉相关的重要信息，提取二进制音频指纹序列值，形成音频指纹。具体地，

步骤1-1)将音频样例的音频信号降低到适合人耳特性的音频信号，获得第一音频信号；一般来说，人耳能听见的声音频率在20-20000HZ之间，但是人耳对频率为4KHz左右的声音最敏感，所以为了满足人耳特性和降低程序的计算复杂度，通常把音频降采样到5KHz；

步骤1-2)将步骤1-1)获得的第一音频信号，以每0.064秒为一帧，对其进行分帧，获得多帧音频，帧与帧之间保持50％的重叠率,根据公式(2)，对每一帧音频用相同的汉明窗长度进行加权，加权方式如公式(3)，以获得每一帧音频的加权后的第n个音频样点的值x(n)；

y(n)＝x(n)-ax(n-1) (4)

其中，a为预加重系数，通常可以取值0.9<a<1.0；x(n-1)为加权后的第n-1个音频样点的值；

其中，X(k)为音频帧经傅里叶变化后的频点值；N'为傅里叶变化采取的音频点数；k为频点编号；j为虚数，即j²＝-1；

步骤1-5)在频域，针对步骤1-4)中的X(k)，在梅尔域进行子带划分，一共分成M个子带，根据公式(6)，获得第m子带的起始频率f(m)，即第m-1子带的终止频率f(m)：

其中，F_min为映射下限，此处为300HZ；F_max为映射上限，此处为2000HZ；M为子带个数，此处为33；

根据获得的t_im，获得第i帧音频信号的音频指纹。

步骤2)获取音频样例的音频指纹权重；其中，所述步骤2)具体包括：

针对相邻字带之间的一阶相邻能量差，求取每一帧音频的指纹权重。具体的，

步骤2-1)假设步骤1)获得的音频指纹的一阶能量序列值为：

(S₁,S₂,S₃...S_i...S_N) (10)

再根据公式(12)，得到第i帧音频信号的总能量差序列值：

(ES₁,ES₂,ES₃,ES₄,ES_i...ES_N) (12)

步骤3)根据步骤1)中获取的音频指纹的二进制音频指纹序列值，以二进制音频指纹序列值为关键字建立哈希表；其中，所述步骤3)具体包括：

根据音频样例的音频指纹的二进制音频指纹序列值，建立哈希表，作为索引机构，用于储存音频指纹。具体的，所述步骤1)中每帧音频信号的音频指纹均由32位二进制序列值表示，记为key，也就是，所述步骤1)中每帧音频信号的音频指纹均对应一个key值，因此，在进行建立索引机构时，可以选用哈希表来存放音频指纹，即按照key值作为关键字，建立哈希表。若存在多帧音频信号的音频指纹对应的key值相等，则通过在哈希表表项后添加链表来存放，每个链表节点保存一些必要信息：音频帧所在音频文件的标志，音频帧在音频文件中的位置信息，音频指纹权重信息。

步骤4)获取待检音频的音频指纹，根据待检音频的二进制音频指纹序列值，查找步骤3)中建立的哈希表；查找出待检音频的二进制音频指纹序列值对应的模板音频的音频指纹序列值；具体地，根据步骤1)的提取步骤，提取待检音频的音频指纹，根据待检音频的音频指纹中的二进制音频指纹序列值，查找步骤3)建立的哈希表，查找出该二进制音频指纹序列值对应的模板音频的音频指纹序列值；

步骤5)获取待检音频和模板音频之间指纹序列差异数D、模板音频与待检音频之间允许指纹序列差异数的阈值Reject；比较D与Reject大小，输出比较结果；具体包括：

步骤5-1)根据按公式(14)，获得待检音频与模板音频之间指纹序列差异数D：

其中，t(i,m)为待检音频第i帧音频指纹序列中第m位的二进制音频指纹序列值。t'(i,m)为模板音频第i帧音频指纹序列中第m位的二进制音频指纹序列值；M为子带数，即一共多少个子带，一般取值为33，R为模板音频与待检音频之间应比较的帧音频指纹总数。

步骤5-2)根据公式(15)，获得模板音频与待检音频之间允许指纹序列差异数的阈值Reject；

其中，R表示模板音频与待检音频之间应比较的帧音频指纹总数，T表示预先设置好的比例值，一般取0.35；

步骤5-3)比较待检音频和模板音频之间指纹序列差异数D、模板音频与待检音频之间允许指纹序列差异数的阈值Reject；输出比较结果；

如果D<Reject，则认为待检音频与模板音频相似；如果D>Reject，则认为待检音频存在错误。

如图2所示，针对不同信噪比下新方法和原方法查准率的比较，可以发现随着信噪比的降低，查准率有着明显的提升。

如图3所示，针对不同信噪比下新方法和原方法查全率的比较，可以发现随着信噪比的降低，查全率也有不同程度的提升。

如图4所示，针对不同匹配长度下新方法和原方法查准率的比较，可以看到在音频片段较短时，查准率比原方法提升16％。

如图5所示，针对不同匹配长度下新方法和原方法查全率的比较，可以发现随着匹配长度的增加，查全率也有不同程度的提升。

实验性能验证：

为了对算法结果进行有效的评价,采用了两组实验来对算法进行性能评价。性能指标分别采用查准率和查全率来进行比较

查全率＝(检索出的正确音频/集合中待检出的音频总数)*100％ (16)

查准率＝(检索出的正确音频/检索出的音频总数)*100％ (17)

实验采用的数据集来源于互联网，主要包括网络上的音乐、评书、节目访谈和广告等。为了比较在不同环境下的检索性能，测试主要采用不同信噪比下的音乐和互联网实时节目进行性能比较。在音乐数据集上，因为频带能量在各个频带上基本都有能量值，静音片段比较少，声音比较连续，检索的难度相对较小，实验能获得比较好的效果。而互联网访谈节目本身噪声波动比较大，静音和杂音占的比重呈现随机性，进行音频检索时，难度更大。本文实验分别在不同信噪比的音乐数据集和互联网实时节目中进行检索，以验证改进后的检索性能。

数据集1包含2 000个短音频文件，每个音频文件长度在2s～1min之间，为来自于互联网采集的广告声和机器客服声音，总大小为400MB，总时长7h，音频文件编码为8k16bit的PCM格式。

数据集2包含6 000个音频文件，来自于互联网采集的真实数据，内容主要包括网剧、广告、机器录音、音乐、移动客服录音等，总大小为20GB，总时长为364h，音频文件编码为8k16bit的PCM格式。该数据集包含数据集1的390个音频变种文件，变种类型包括语音帧缺失、频谱不完整、时域拉伸等情况。

数据集3包含13 723个文件，主要内容为音乐，总大小为50.9GB，总时长为949h。音频文件编码为8k16bit的PCM格式。

数据集4：针对数据集3人为添加白噪声，形成信噪比为20db的测试集。

数据集5：针对数据集3人为添加白噪声，形成信噪比为10db的测试集。

数据集6：针对数据集3人为添加白噪声，形成信噪比为5db的测试集。

数据集7：针对数据试集3人为添加白噪声，形成信噪比为0db的测试集。

数据集8：针对数据集3人为添加白噪声，形成信噪比为-5db的测试集。

数据集9：从测数据3中随机选取1 000条语音文件，从其中的随机位置截取2s的长

实验一：

采用数据集9为模板数据，分别利用数据集3、4、5、6、7、8为测试数据进行检索。提取帧长为0.4s、帧移为0.026s的音频文件作为声学特征参数，则在不同信噪比的数据集上的查准率和查全率分别如附图2和3所示

实验二：

为了验证实时在线数据的短模板音频的比对性能，采用数据集1为音频模板，编写针对数据集2的程序，依次截取需要匹配时长的音频片段进行模板匹配。如果有设定匹配长度的音频片段比对成功，则表明该音频文件为需要检出的结果文件。提取帧长为0.4s、帧移为0.026s的音频片段作为声学特征参数，通过设定2秒至9秒不同的匹配长度来进行检索实验，在数据集2上的查准率和查全率分别如图4和5所示。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于指纹权重的音频样例检索方法，其特征在于，该方法具体包括：

计算待检音频和模板音频之间指纹序列差异数D、模板音频与待检音频之间允许指纹序列差异数的阈值Reject；如果D＜Reject，则认为待检音频与模板音频相似；如果D＞Reject，则认为待检音频存在错误；

所述哈希表的预先建立的步骤具体包括：

步骤1)获取音频样例的音频指纹；

步骤2)获取音频样例的音频指纹权重；

步骤3)根据步骤1)中获取的音频指纹的二进制音频指纹序列值，以二进制音频指纹序列值为关键字建立哈希表；

所述步骤1)具体包括：

y(n)＝x(n)-ax(n-1) (4)

其中，F_min为映射下限；F_max为映射上限；M为子带个数；

根据获得的t_im，获得第i帧音频信号的音频指纹。

2.根据权利要求1所述的基于指纹权重的音频样例检索方法，其特征在于，所述步骤2)具体包括：

步骤2-1)假设步骤1)获得的音频指纹的一阶能量序列值为：

(S₁,S₂,S₃...S_i...S_N)(10)

再根据公式(12)，得到第i帧音频信号的总能量差序列：

(ES₁,ES₂,ES₃,ES₄,ES_i...ES_N) (12)

3.根据权利要求1所述的基于指纹权重的音频样例检索方法，其特征在于，所述计算待检音频与模板音频之间指纹序列差异数D具体包括：

4.根据权利要求1所述的基于指纹权重的音频样例检索方法，其特征在于，所述计算模板音频与待检音频之间允许指纹序列差异数的阈值Reject具体包括：