CN112035696A

CN112035696A - 一种基于音频指纹的语音检索方法及系统

Info

Publication number: CN112035696A
Application number: CN202010938773.XA
Authority: CN
Inventors: 张秋余; 许福久; 张其文; 段宏湘; 白建; 赵雪娇
Original assignee: Lanzhou University of Technology
Current assignee: Lanzhou University of Technology
Priority date: 2020-09-09
Filing date: 2020-09-09
Publication date: 2020-12-04
Anticipated expiration: 2040-09-09

Abstract

本发明涉及一种基于音频指纹的语音检索方法及系统。该方法包括：提取时长为20s的原始语音的梅尔频率倒谱系数MFCC特征和线性预测倒谱系数LPCC特征；将所述MFCC特征和所述LPCC特征进行特征组合处理，确定组合后的特征矩阵；基于信息熵的特征降维方法，对所述组合后的特征矩阵进行列降维，确定列降维后的特征矩阵；基于能量的特征降维方法，对所述列降维后的特征矩阵进行行降维，确定行降维后的特征矩阵；根据所述行降维后的特征矩阵构建音频指纹数据库；利用归一化汉明距离算法，将待查询语音片段与所述音频指纹库中的音频指纹进行匹配检索。本发明能够提高对长语音片段的检索效率和检索精度以及音频指纹的检索鲁棒性。

Description

一种基于音频指纹的语音检索方法及系统

技术领域

本发明涉及音频检索领域，特别是涉及一种基于音频指纹的语音检索方法及系统。

背景技术

随着互联网数字音频数量的爆炸式增长，使得在音频大数据中进行高速检索成为亟待解决的难题。音频指纹检索技术采用简短的音频指纹数据代替音频本身进行检索，可以有效地提高音频检索的效率，但音频大数据对应的指纹数据量也相当庞大，传统的音频指纹检索方法已经难以满足音频大数据环境下的快速精确检索需求。因此，音频检索技术受到众多研究者的广泛关注。

目前，学者们已经在音频指纹、特征提取、降维等方面提出了很多方法，但通常都是选择对传统的Philips方法和Shazam方法进行改进。音频检索主要有3类方法：关键词检测、关键说话人检测、关键音频检测，虽然这些技术比较成熟，不过仍存在很多的缺陷。随着数据量的增加，对应指纹数据量也随之增加，维数灾难问题也随之显现，在高维度搜索相似指纹时会由于维数灾难而使得计算量和数据量指数型增长。为了解决上述问题，通常需要选择合适的降维方法进行降维，在保证能够保留大部分原音频信息的同时，尽可能的降低音频特征维数。

语音特征的选择会直接影响到音频指纹的性能，目前被普遍使用的特征主要有梅尔频率倒谱系数(MFCC)、线性预测系数(LPC)、线性预测倒谱系数(LPCC)、共振峰特征、谱熵特征、能量特征等，各种特征分别在检索效率、区分性、鲁棒性等方面有着较为突出的优势。而对特征进行合适的处理，能实现对音频指纹性能的优化，例如加权处理、特征组合处理等，能够将原本特征的缺点进行弥补或者将优势进行放大。另外，特征融合与特征组合方法由于其能够反映原始语音更多的信息，被广泛应用于语音识别与分类。在特征降维方面，相关学者提出了基于加权快速序列的动态时间规整算法、以及多重子指纹匹配原理、偏移匹配原理和终止策略等对音频特征进行降维处理，对精确检索和模糊检索的性能都有一定的提升。

目前，现有音频指纹方法大多数都是针对短语音片段进行检索，对长语音片段的检索研究相对较少，且现有的音频指纹对长语音片段的检索效率较低，相对于短语音鲁棒性较差。

发明内容

本发明的目的是提供一种基于音频指纹的语音检索方法及系统，以解决现有音频指纹方法对长语音片段的检索效率低，检索鲁棒性差的问题。

为实现上述目的，本发明提供了如下方案：

一种基于音频指纹的语音检索方法，包括：

提取时长为20s的原始语音的梅尔频率倒谱系数MFCC特征和线性预测倒谱系数LPCC特征；

将所述MFCC特征和所述LPCC特征进行特征组合处理，确定组合后的特征矩阵；

基于信息熵的特征降维方法，对所述组合后的特征矩阵进行列降维，确定列降维后的特征矩阵；

基于能量的特征降维方法，对所述列降维后的特征矩阵进行行降维，确定行降维后的特征矩阵；

根据所述行降维后的特征矩阵构建音频指纹数据库；

利用归一化汉明距离算法，将待查询语音片段与所述音频指纹库中的音频指纹进行匹配检索。

可选的，所述提取时长为20s的原始语音的梅尔频率倒谱系数MFCC特征和线性预测倒谱系数LPCC特征，之前还包括：

对所述原始语音进行加窗分帧处理，确定加窗分帧处理后的原始语音。

可选的，所述基于信息熵的特征降维方法，对所述组合后的特征矩阵进行列降维，确定列降维后的特征矩阵，具体包括：

对所述组合后的特征矩阵进行归一化处理，确定归一化处理后的特征矩阵；

计算所述归一化处理后的特征矩阵的信息熵，确定信息熵矩阵；

基于所述信息熵矩阵，将特征分量从大到小进行排序，确定列降维后的特征矩阵。

可选的，所述基于能量的特征降维方法，对所述列降维后的特征矩阵进行行降维，确定行降维后的特征矩阵，具体包括：

将所述原始语音进行分帧处理，分成n帧，将分帧后的语音信号平均分为五段，每段语音信号包含的帧数为z；

在所述每段语音信号的帧数范围[f₁，f_(z-30)]内，对每帧语音信号进行快速傅里叶变换，得到频域信号，并确定每帧语音信号的对数能量特征；

基于所述每帧语音信号的对数能量特征，对比所述每段语音信号的对数能量特征确定所述每段语音信号中能量最高的帧f_max；并以所述帧f_max为起点，向后取30个帧，将帧数范围[f_max，f_(max+30)]作为所述每段语音信号的待提取特征帧；

构建一个n×1的空矩阵，并将所述空矩阵中待提取特征帧的位置置1，剩余位置置0，确定特征选择矩阵；

将所述列降维后的特征矩阵与所述特征选择矩阵相乘，确定行降维后的特征矩阵。

可选的，所述根据所述行降维后的特征矩阵构建音频指纹数据库，具体包括：

根据所述行降维后的特征矩阵构建音频指纹；

将所述音频指纹的每列进行转置处理并进行组合，确定重构的音频指纹；

确定语音库中所有语音信号的音频指纹；

根据所述重构的音频指纹以及所述语音库中所有语音信号的音频指纹构建线性检索表；

根据所述线性检索表生成音频指纹数据库。

一种基于音频指纹的语音检索系统，包括：

特征提取模块，用于提取时长为20s的原始语音的梅尔频率倒谱系数MFCC特征和线性预测倒谱系数LPCC特征；

组合处理模块，用于将所述MFCC特征和所述LPCC特征进行特征组合处理，确定组合后的特征矩阵；

列降维模块，用于基于信息熵的特征降维方法，对所述组合后的特征矩阵进行列降维，确定列降维后的特征矩阵；

行降维模块，用于基于能量的特征降维方法，对所述列降维后的特征矩阵进行行降维，确定行降维后的特征矩阵；

音频指纹数据库构建模块，用于根据所述行降维后的特征矩阵构建音频指纹数据库；

匹配检索模块，用于利用归一化汉明距离算法，将待查询语音片段与所述音频指纹库中的音频指纹进行匹配检索。

可选的，还包括：

预处理模块，用于对所述原始语音进行加窗分帧处理，确定加窗分帧处理后的原始语音。

可选的，所述列降维模块，具体包括：

归一化处理单元，用于对所述组合后的特征矩阵进行归一化处理，确定归一化处理后的特征矩阵；

信息熵矩阵确定单元，用于计算所述归一化处理后的特征矩阵的信息熵，确定信息熵矩阵；

列降维单元，用于基于所述信息熵矩阵，将特征分量从大到小进行排序，确定列降维后的特征矩阵。

可选的，所述行降维模块，具体包括：

分帧单元，用于将所述原始语音进行分帧处理，分成n帧，将分帧后的语音信号平均分为五段，每段语音信号包含的帧数为z；

对数能量特征确定单元，用于在所述每段语音信号的帧数范围[f₁，f_(z-30)]内，对每帧语音信号进行快速傅里叶变换，得到频域信号，并确定每帧语音信号的对数能量特征；

待提取特征帧确定单元，用于基于所述每帧语音信号的对数能量特征，对比所述每段语音信号的对数能量特征确定所述每段语音信号中能量最高的帧f_max；并以所述帧f_max为起点，向后取30个帧，将帧数范围[f_max，f_(max+30)]作为所述每段语音信号的待提取特征帧；

特征选择矩阵确定单元，用于构建一个n×1的空矩阵，并将所述空矩阵中待提取特征帧的位置置1，剩余位置置0，确定特征选择矩阵；

行降维单元，用于将所述列降维后的特征矩阵与所述特征选择矩阵相乘，确定行降维后的特征矩阵。

可选的，所述音频指纹数据库构建模块，具体包括：

音频指纹构建单元，用于根据所述行降维后的特征矩阵构建音频指纹；

重构的音频指纹确定单元，用于将所述音频指纹的每列进行转置处理并进行组合，确定重构的音频指纹；

音频指纹确定单元，用于确定语音库中所有语音信号的音频指纹；

线性检索表构建单元，用于根据所述重构的音频指纹以及所述语音库中所有语音信号的音频指纹构建线性检索表；

音频指纹数据库生成单元，用于根据所述线性检索表生成音频指纹数据库。

根据本发明提供的具体实施例，本发明公开了以下技术效果：本发明公开了一种基于音频指纹的语音检索方法，采用时长为20s的长语音作为测试对象，利用特征降维和特征组合的方法，并基于能量和信息熵的特征降维方法实现了特征矩阵的降维，将MFCC特征和LPCC特征进行特征组合来提取语音的音频指纹，提高了对长语音片段的检索效率以及音频指纹的检索鲁棒性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明采用的语音检索系统模型示意图；

图2为本发明的音频指纹构建流程图；

图3为本发明在不同信噪比下的P-R曲线对比结果示意图；

图4为本发明所提供的基于音频指纹的语音检索系统结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种基于音频指纹的语音检索方法及系统，能够提高对长语音片段的检索效率以及音频指纹的检索鲁棒性。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明结合现有的音频指纹检索方法，以长语音片段作为测试对象，利用特征选择方法将高维的特征矩阵降维，并利用特征组合结合不同特征的特点，公开了一种基于音频指纹的语音检索方法。

图1为本发明采用的语音检索系统模型示意图，如图1所示，该模型主要由音频指纹构造、生成音频指纹数据库、查询语音检索三个部分组成。

语音检索系统的处理过程如下：

步骤1：音频指纹构造。对原始语音进行特征提取，进行音频指纹的构造。

步骤2：生成音频指纹数据库。利用构造的音频指纹来建立音频指纹索引，并与相应的原始语音建立一一映射关系后生成音频指纹数据库。

步骤3：查询语音检索。在用户提交查询语音时，采用步骤1同样的音频指纹构造方法来提取待查询语音的音频指纹，与音频指纹数据库索引表中的音频指纹序列来计算归一化汉明距离进行检索匹配，并将检索结果返回给查询用户。

图2为本发明的音频指纹构建流程图，如图2所示，该流程主要由特征提取、特征组合、特征降维、音频指纹构建四个部分组成。

音频指纹构建的处理过程如下：

步骤1：特征提取。对原始长语音进行加窗分帧等预处理，之后分别提取梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)特征和线性预测倒谱系数(LinearPredictiveCepstralCoefficient，LPCC)特征。

步骤2：特征组合。将MFCC特征矩阵与LPCC特征矩阵进行组合，得到组合特征。

步骤3：基于信息熵的特征降维。为了降低所提取特征的数据量、同时保证损失较少的信息，利用基于信息熵的特征选择方法，对组合特征进行特征矩阵的列降维。

步骤4：基于能量的特征降维。将组合后的特征进行基于能量的特征选择，将能量作为选择指标对提取特征的帧进行选择，实现特征矩阵的行降维，从而进一步降低特征维数。

步骤5：构建音频指纹。使用降维后的特征矩阵根据音频指纹构建方法构建音频指纹并输出音频指纹。

针对长语音相对于短语音音频指纹鲁棒性较差的问题，本发明使用特征组合方法，结合MFCC特征和LPCC特征的特点，通过组合特征来提高音频指纹在各种音频处理下的查全率与查准率。

特征提取与特征组合具体步骤如下：

步骤1：特征提取。在特征提取阶段，设定语音采样率为16kHz、帧长为32ms、帧移为10ms、窗函数为汉明窗，分别提取语音的MFCC特征和LPCC特征，其中，MFCC特征设置24个梅尔滤波器，得到12维MFCC特征矩阵MFCC＝(M₁,M₂,...,M_j,...,M₁₂)，其中M_j＝(mel_(1)j,mel_(2)j,...,mel_(i)j,...,mel_(n)j)为MFCC特征矩阵第j维的特征向量，n为帧数；LPCC特征设置线性预测的系数为12，得到12维LPCC特征矩阵LPCC＝(L₁,L₂,...,L_j,...,L₁₂)，其中L_j＝(lpcc_(1)j,lpcc_(2)j,...,lpcc_(i)j,...,lpcc_(n)j)为LPCC特征矩阵第j维的特征向量。

步骤2：特征组合。将提取到的MFCC和LPCC特征矩阵进行左右拼接，得到组合特征矩阵ML＝(MFCC,LPCC)＝(M₁,M₂,...,M_j,...,M₁₂，L₁,L₂,...,L_j,...,L₁₂)。

目前，从长语音中提取到的特征矩阵往往维数较大，例如提取MFCC特征效果最好的是使用24个Mel滤波器所提取12维的梅尔频率倒谱系数，12维梅尔频率倒谱系数在被用于短语音片段检索时效果很好，但如果用于长语音片段则会产生庞大的数据量，将长语音的12维MFCC用于语音检索时，检索时间会成指数增长，所以需要对音频的特征矩阵进行降维。而高维特征的各个特征分量所含音频信息量不同，部分分量含有音频大部分的信息，而部分分量所含信息较少。而本发明所使用的特征组合算法进一步增加了特征维数。所以，本发明采用基于信息熵的特征降维算法。该算法通过计算特征矩阵每一维的信息熵进行特征选择，根据每个特征分量的信息熵、选择所含信息较多的几个特征分量构成音频指纹，例如12维的MFCC特征其中含信息量最高的5维特征包含了67％以上的信息量，这样能够在保持较多原音频特征、保证指纹鲁棒性的同时，尽可能的减少数据量、提高检索效率。

基于信息熵的特征降维的具体处理步骤如下：

步骤1：矩阵的归一化。对上述构建的组合特征矩阵ML进行归一化，归一化处理后的特征矩阵为ML'＝(ML'₁,ML'₂,...,ML'_i,...,ML'₁₂，ML'₁₃,ML'₁₄,...,ML'_2i,...,ML'₂₄)，其中ML'_j＝(ml'_(1)j,ml'_(2)j,...,ml'_(i)j,...,ml'_(n)j)为组合特征矩阵第j维的归一化特征向量。

步骤2：信息熵的计算。对归一化处理后的特征矩阵计算信息熵，信息熵计算公式如式(1)、式(2)，其中e_i为MFCC特征每一维的信息熵，求得信息熵矩阵E＝(e₁,e₂,...,e₁₂)。

步骤3：特征选择。根据得到的信息熵矩阵E，将特征分量从大到小进行排序，将其中10个所含信息量最大的特征分量构成新的10维组合特征矩阵ML"＝(ML"₁,ML"₂,...,ML"_i,...,ML"₁₀)，其中ML"_j＝(ml_(1)j,ml_(2)j,...,ml_(i)j,...,ml_(n)j)为降维之后的特征矩阵第j维的特征向量，特征矩阵ML"即采用基于信息熵的特征降维算法之后的列降维后的特征矩阵。

由于长语音数据量较大，特征提取阶段分的帧数较多，所以在基于信息熵的列特征矩阵降维之后，还需要对特征矩阵进行行降维才能构建音频指纹。本发明在对比长语音的能量、过零率、谱熵、能熵比、能零比等特征后，发现能量特征在长语音的不同音频处理方式下鲁棒性相较于其他特征最好，所以选择使用能量作为行降维的降维参数，对列降维后的组合特征矩阵进行行降维从而在保证音频指纹鲁棒性的前提下进一步减少特征矩阵数据量。

基于能量的特征降维的详细处理步骤如下：

步骤1：将语音按照上述特征提取与特征组合中步骤1的分帧方法进行分成n帧，之后将分帧后的信号其平均分为五段、每段语音信号包含的帧数为z。

步骤2：在每段语音信号的帧数范围[f₁,f_(z-30)]内，对每帧语音信号进行快速傅里叶变换，得到频域信号X_i(k)，之后求出每帧语音信号的对数能量，提取对数能量特征公式如式(3)。

其中k＝0,1,...,l-1，l为每帧帧长，c为常数。

步骤3：通过对比每段语音信号的对数能量特征确定一个能量最高的帧f_max，以帧f_max为起点、向后取30个帧，将[f_max,f_(max+30)]作为每段语音信号的待提取特征帧。

步骤4：构建一个n×1的空矩阵T，将矩阵中待提取特征帧的位置置1，其余位置置0，得到特征选择矩阵T'。

步骤5：将列降维后的特征矩阵ML"与特征选择矩阵T'相乘，并将相乘后矩阵中数据不为0的维数构建新的矩阵ML"'，特征矩阵的行数由n降维到155，矩阵ML"'即采用基于能量的特征降维算法之后新的行降维后的特征矩阵。

本发明在音频指纹构建阶段通过对传统的Philips音频指纹检索算法进行改进来提高检索性能，传统的Philips音频指纹检索算法通过滑动窗口使用欧氏距离进行音频指纹检索，而本发明将高维音频指纹矩阵重新构建为一维音频指纹矩阵，对一维音频指纹矩阵使用汉明距离检索，该方法能够有效的降低音频指纹的检索时间。

音频指纹数据库的构建具体步骤如下：

步骤1：音频指纹构建，将行降维后的特征矩阵ML"'通过如式(4)所示的函数来构建音频指纹h＝(h₁,h₂,...,h₁₀)。

其中i为特征矩阵的第i行，j为特征矩阵的第j列，ML"'_(i)j为特征矩阵ML"'第i行第j列的元素。

步骤2：将155×10的音频指纹h＝(h₁,h₂,...,h₁₀)的每列进行转置并进行组合，重新构造为1550×1的音频指纹h'＝(h^T ₁,h^T ₂,...,h^T ₁₀)。

步骤3：构建音频指纹数据库，采用步骤1和步骤2将语音库中所有语音的特征矩阵进行处理，得到音频指纹，将得到的音频指纹用来构建线性索引表，并对每条音频指纹与相应原始语音建立一一映射关系后生成音频指纹数据库。

音频指纹检索具体过程如下：

在查询语音时，利用所述的音频指纹构建方法提取待查询语音Q的音频指纹h_Q，与音频指纹数据库中的音频指纹h_x通过归一化汉明距离计算两者之间的距离(也称比特误码率)，归一化汉明距离公式如式(5)所示。

其中，m为音频指纹的长度，i为音频指纹中第i个元素。

在音频指纹库中进行检索匹配时，设定相似性阈值T(0.35<T<0.5)，如果归一化汉明距离D(h_x,h_Q)<T，则匹配成功，系统将返回检索到的语音；否则检索失败。相似性阈值会直接影响检索音频指纹的鲁棒性。所以，为了避免漏检并尽可能的提高鲁棒性，本发明将相似性阈值设置为T＝0.4。

基于本发明所提供的语音检索方法及系统，将其应用到具体实验中，实验结果与性能分析：

实验中所用的语音是THCHS-30语音库中的语音，该语音数据采用的频率为16kHz，采样精度为16bit单通道wav格式语音段。选择该语音数据库中的语音进行试验，将1000条语音分别通过音频处理软件Gold Wave 6.38和Matlab R2017a进行重采样、重量化、滤波、添加回声、降噪、添加白噪声、幅度增加与减少、增益、MP3编码等17种音频处理，使用噪声库NoiseX-92中的话音噪声、工厂噪声通过Matlab R2017a对语音添加噪声，得到共19000种语音作为数据库。

实验硬件环境：Intel(R)Core(TM)i5-7300HQ CPU，2.50GHz，内存8GB。

软件环境为：Windows 10，MATLAB R2017a。

鲁棒性与检索性能分析：

对音频指纹鲁棒性的评价主要通过查全率和查准率指标，查全率和查准率是互相影响的，鲁棒性足够优秀的情况下两者都高，但一般情况下查全率越高，查准率越低。查全率R和查准率P的计算方式分别如式(6)、(7)所示。

其中，f_T是检索到的相关语音，f_L是未检索到的相关语音，f_F是检索到的不相关语音

为了测试本发明在不同语音内容保持操作下的查全率与查准率，实验使用软件Gold Wave 6.38和MATLAB R2017a对1000条语音进行如表1所示的5种内容保持操作。表1为在不同内容保持操作下的查全率R、查准率P和F1值对比表，如表1所示，表1中列出了经过MP3压缩(128kbps，MP3)、重采样(16b→32b→16b，R.S)、添加30dB背景噪声(B.N)、添加30dB工厂噪声(F.N)和添加30dB窄带高斯噪声(G.N)等5种操作后的查全率与查准率。

通常，查准率高、查全率就低，查全率低、查准率高。因此，为了进一步测试音频指纹的检索性能，本发明使用F1-measure(F1)指标对音频指纹的检索性能进行评估，计算得到的F1值数据如表1所示。F1-measure的计算方式如式(8)所示。

在鲁棒性分析方面，本实验通过基于信息熵和基于能量的特征降维算法分别提取原始语音的MFCC特征和LPCC特征构建特征指纹，将本发明的组合特征的音频指纹与MFCC和LPCC两种特征的音频指纹分别进行鲁棒性对比。

表1

由表1可知，组合特征在基于信息熵和能量的特征降维之后，相对于经过相同降维处理的MFCC特征和LPCC特征具有更优秀的检索性能。且本发明的组合特征方法在经过MP3压缩、重采样、添加噪声等5种内容保持操作后仍能够保证较高的查全率R、查准率P和较高的F1-measure值。

低信噪比噪声的鲁棒性分析：

实验使用软件MATLAB R2017a对1,000条语音添加5种噪声操作,分别添加30dB窄带高斯噪声(30dB)、添加20dB窄带高斯噪声(20dB)、10dB窄带高斯噪声(10dB)、5dB窄带高斯噪声(5dB)和0dB窄带高斯噪声(0dB)。为了进一步测试本发明提取的音频指纹对噪声的鲁棒性，使用平均精度均值(mean average precision,MAP)对音频指纹进行噪声鲁棒性评估。MAP的计算方式如式(9)所示。

其中，K为语音数据库中的语音数量，f_T+f_L为待查询语音的相关语音，P_y ^r为语音数据库的第y个语音中第r个相关语音的查准率。

表2为本发明与现有最新文献(X.Zhang,G.Zhan,W.Wang,P.Zhang,Y.Yan.Robustaudio retrieval method based on anti-noise fingerprinting and segmentalmatching[J].Electronics Letters,2020,56(5):245-247，简称Zhang’s方法)在不同信噪比下的鲁棒性对比表，如表2所示。

表2

由表2可知，在不同信噪比下本发明的鲁棒性优于Zhang’s方法。本发明在信噪比高于20dB时，对噪声具有较好的鲁棒性，能够准确的检索出查询语音。随着信噪比从20dB降至5dB，本发明的查全率和MAP降低速度较为缓慢，信噪比从5dB降至0dB时，本发明的查全率和MAP降低较为明显。

现有研究表明，绘制Precision-Recall(P-R)曲线可以直观全面的反映音频指纹检索算法在噪声处理下的检索性能。图3为本发明在不同信噪比下的P-R曲线对比结果示意图，能够更直观的反映噪声干扰对本发明鲁棒性的影响。

从图3可以看出，本发明的P-R曲线与x-y坐标轴所围成的区域面积在信噪比为20dB时面积最大，检索性能最好，随着信噪比的降低，面积逐渐减小，而信噪比从20dB降至5dB时，面积减小的幅度较小，信噪比从5dB降至0dB时，面积减小的幅度较大，说明高信噪比时，本发明的检索性能较为优秀，而低信噪比对本发明鲁棒性有较大的影响。另外，由于查全率和查准率是互相影响的，本发明在查全率为1时对查准率影响最大。

检索效率分析：

检索效率是评价音频指纹检索算法非常重要的一个指标。为了测试本发明的音频指纹检索效率，在语音库中随机选出10000条时长为20s的语音进行检索性能评估，计算本发明的平均检索时间(包括音频指纹构建时间和检索匹配时间)。表3为本发明与Zhang’s方法的检索效率对比表，如表3所示。

表3

由表3可知，本发明的检索效率高于Zhang’s方法。由于本发明在音频指纹构建时，分别计算了MFCC特征、LPCC特征对数能量特征、信息熵，提取的特征较多在音频指纹构建方面耗时较高；而由于在音频指纹检索方面使用了构建音频指纹线性表方法，并使用特征选择方法降低了音频指纹的维数，本发明仍然实现了在保证音频指纹鲁棒性的同时用较短的音频指纹进行快速检索。

为了解决现有音频指纹方法在使用长语音片段进行语音检索时效率较低、鲁棒性较差等问题，本发明通过借鉴特征组合在语音情感识别方面的优势和特征降维方法在处理高维数据方面的优势，公开了一种基于音频指纹的语音检索方法，该方法通过组合MFCC特征和LPCC特征来构建组合特征矩阵，该组合特征矩阵能够反映原音频更多的信息，采用基于信息熵的特征降维方法对组合特征矩阵进行行降维，采用基于能量的特征降维方法对特征矩阵进行列降维，在保留大部分特征的同时能够有效降低特征矩阵的维数，并对降维后的组合特征构建音频指纹，在检索阶段对传统的Philips音频指纹算法进行改进，通过归一化汉明距离算法对音频指纹进行匹配检索。本发明能够有效地结合MFCC特征与LPCC特征的特点，能够在保证鲁棒性的前提下，有效地降低特征矩阵的维数，且构建的音频指纹具有较好的鲁棒性。检索阶段能够对长语音片段实现较高的查全率和查准率，且具有较高的检索精度和检索效率。

本发明的优势主要有：

1)利用基于信息熵的特征降维方法对高维特征矩阵进行列降维，可保留大部分原音频信息；利用基于能量的特征选择来实现特征矩阵的行降维，在保证长语音特征鲁棒性的前提下，可实现高效的特征提取与指纹构建。

2)利用基于MFCC特征和LPCC特征的特征组合方法，可保证该组合特征对长语音的各种内容保持操作都具有较高的查全率与查准率。

3)在音频指纹检索阶段使用归一化汉明距离对音频指纹进行检索，有效地提高了检索效率。

图4为本发明所提供的基于音频指纹的语音检索系统结构图，如图4所示，一种基于音频指纹的语音检索系统，包括：

特征提取模块401，用于提取时长为20s的原始语音的梅尔频率倒谱系数MFCC特征和线性预测倒谱系数LPCC特征。

本发明还包括：预处理模块，用于特征提取模块401提取时长为20s的原始语音的梅尔频率倒谱系数MFCC特征和线性预测倒谱系数LPCC特征之前，对所述原始语音进行加窗分帧处理，确定加窗分帧处理后的原始语音。

组合处理模块402，用于将所述MFCC特征和所述LPCC特征进行特征组合处理，确定组合后的特征矩阵。

列降维模块403，用于基于信息熵的特征降维方法，对所述组合后的特征矩阵进行列降维，确定列降维后的特征矩阵。

所述列降维模块403，具体包括：归一化处理单元，用于对所述组合后的特征矩阵进行归一化处理，确定归一化处理后的特征矩阵；信息熵矩阵确定单元，用于计算所述归一化处理后的特征矩阵的信息熵，确定信息熵矩阵；列降维单元，用于基于所述信息熵矩阵，将特征分量从大到小进行排序，确定列降维后的特征矩阵。

行降维模块404，用于基于能量的特征降维方法，对所述列降维后的特征矩阵进行行降维，确定行降维后的特征矩阵。

所述行降维模块404，具体包括：分帧单元，用于将所述原始语音进行分帧处理，分成n帧，将分帧后的语音信号平均分为五段，每段语音信号包含的帧数为z；对数能量特征确定单元，用于在所述每段语音信号的帧数范围[f₁，f_(z-30)]内，对每帧语音信号进行快速傅里叶变换，得到频域信号，并确定每帧语音信号的对数能量特征；待提取特征帧确定单元，用于基于所述每帧语音信号的对数能量特征，对比所述每段语音信号的对数能量特征确定所述每段语音信号中能量最高的帧f_max；并以所述帧f_max为起点，向后取30个帧，将帧数范围[f_max，f_(max+30)]作为所述每段语音信号的待提取特征帧；特征选择矩阵确定单元，用于构建一个n×1的空矩阵，并将所述空矩阵中待提取特征帧的位置置1，剩余位置置0，确定特征选择矩阵；行降维单元，用于将所述列降维后的特征矩阵与所述特征选择矩阵相乘，确定行降维后的特征矩阵。

音频指纹数据库构建模块405，用于根据所述行降维后的特征矩阵构建音频指纹数据库。

所述音频指纹数据库构建模块405，具体包括：音频指纹构建单元，用于根据所述行降维后的特征矩阵构建音频指纹；重构的音频指纹确定单元，用于将所述音频指纹的每列进行转置处理并进行组合，确定重构的音频指纹；音频指纹确定单元，用于确定语音库中所有语音信号的音频指纹；线性检索表构建单元，用于根据所述重构的音频指纹以及所述语音库中所有语音信号的音频指纹构建线性检索表；音频指纹数据库生成单元，用于根据所述线性检索表生成音频指纹数据库。

匹配检索模块406，用于利用归一化汉明距离算法，将待查询语音片段与所述音频指纹库中的音频指纹进行匹配检索。

本发明所构建的音频指纹维数较小，鲁棒性强，能够在保持较高的查全率和查准率的同时具有较高的检索效率。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于音频指纹的语音检索方法，其特征在于，包括：

根据所述行降维后的特征矩阵构建音频指纹数据库；

2.根据权利要求1所述的基于音频指纹的语音检索方法，其特征在于，所述提取时长为20s的原始语音的梅尔频率倒谱系数MFCC特征和线性预测倒谱系数LPCC特征，之前还包括：

3.根据权利要求1所述的基于音频指纹的语音检索方法，其特征在于，所述基于信息熵的特征降维方法，对所述组合后的特征矩阵进行列降维，确定列降维后的特征矩阵，具体包括：

4.根据权利要求1所述的基于音频指纹的语音检索方法，其特征在于，所述基于能量的特征降维方法，对所述列降维后的特征矩阵进行行降维，确定行降维后的特征矩阵，具体包括：

5.根据权利要求1所述的基于音频指纹的语音检索方法，其特征在于，所述根据所述行降维后的特征矩阵构建音频指纹数据库，具体包括：

根据所述行降维后的特征矩阵构建音频指纹；

确定语音库中所有语音信号的音频指纹；

根据所述线性检索表生成音频指纹数据库。

6.一种基于音频指纹的语音检索系统，其特征在于，包括：

7.根据权利要求6所述的基于音频指纹的语音检索系统，其特征在于，还包括：

8.根据权利要求6所述的基于音频指纹的语音检索系统，其特征在于，所述列降维模块，具体包括：

9.根据权利要求6所述的基于音频指纹的语音检索系统，其特征在于，所述行降维模块，具体包括：

10.根据权利要求6所述的基于音频指纹的语音检索系统，其特征在于，所述音频指纹数据库构建模块，具体包括：