CN113470654A

CN113470654A - 一种声纹自动识别系统及方法

Info

Publication number: CN113470654A
Application number: CN202110613897.5A
Authority: CN
Inventors: 刘安文; 许海峰; 王军慧; 赵伟苗; 江楠; 徐雄; 陈啸; 孙宏航
Original assignee: Shaoxing Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Current assignee: Shaoxing Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2021-06-02
Filing date: 2021-06-02
Publication date: 2021-10-01

Abstract

本发明提供了一种声纹自动识别系统及方法，所述识别系统包括数据采集模块、数据分析模块和展示模块，所述数据采集模块与数据分析模块连接，所述展示模块与数据分析模块连接。所述识别方法具体为采集待识别声音信号，对待识别声音信号进行MP时域特征提取获取待识别声音信号的时域特征数据，同时通过对待识别声音信号进行MFCCs特征提取获取待识别声音信号的频域特征数据，并将所述频域特征数据和时域特征数据进行组合作为待识别声音信号的音频特征数据，然后建立SVM模型，将音频特征数据输入SVM模型进行分类识别，展示模块展示SVM模型的识别结果。本发明提供的声纹自动识别系统及方法能够有效消除环境噪音的干扰，大大提高声音识别的准确性。

Description

一种声纹自动识别系统及方法

技术领域

本发明涉及声音识别技术领域，尤其是指一种声纹自动识别系统及方法。

背景技术

目前声纹识别技术已经逐渐被应用于电缆通道故障排查等领域，在利用声纹识别技术时，对于声纹识别准确性的要求不断提高。现如今的声纹识别技术在无噪音的环境下能够做到精准识别，但是在实际运用过程中，在采集声音信号的过程中难免将环境噪音一同采集，环境噪音在识别过程中会影响到声音识别的精度，导致最后声音识别的结果准确度不高。且由于声音信号具有多变性、动态性、瞬时性和连续性等特点，所以在对声音信号进行特征参数提取时，容易出现提取的特征参数不稳定的情况，不稳定的特征参数会对后续的识别精度造成影响。

发明内容

本发明的目的是克服现有技术中的缺点，提供一种声纹自动识别系统及方法。

本发明的目的是通过下述技术方案予以实现：

一种声纹自动识别方法，包括以下步骤：

步骤一，数据采集模块采集待识别声音信号，将待识别声音信号传输至声纹数据储存单元；

步骤二，数据分析模块提取声纹数据储存单元内的待识别声音信号，数据分析模块对待识别声音信号进行MP时域特征提取获取待识别声音信号的时域特征数据，同时数据分析模块通过对待识别声音信号进行MFCCs特征提取获取待识别声音信号的频域特征数据，并将所述频域特征数据和时域特征数据进行组合作为待识别声音信号的音频特征数据；

步骤三，数据分析模块建立SVM模型，将音频特征数据输入SVM模型进行分类识别，SVM模型输出声音信号的识别结果，数据分析模块将识别结果送入展示模块进行展示。

支持向量机(Support Vector Machine,SVM)是一类按监督学习(supervisedlearning)方式对数据进行二元分类的广义线性分类器，SVM使用铰链损失函数计算经验风险并在求解系统中加入了正则化项以优化结构风险，是一个具有稀疏性和稳健性的分类器。通过声音测试样本对SVM模型进行训练后， SVM模型能够对于采集到的未知类型的声音信号进行有效分类。

环境声音事件与背景噪声相比，声音事件的能量在时频平面上倾向于局部集中，MP时域特征提取对于环境声音事件的识别具有噪声鲁棒性，能够弥补MFCCs对于噪声敏感的缺陷，所以将声音信号的时域特征以及频域特征进行组合作为声音识别的特征参数，大大提高声音识别的准确率。且通过展示模块直观展示声音识别结果，能够快速获取声音识别信息。

在声音处理领域中，梅尔频率倒谱(Mel-Frequency Cepstrum，MFC)是基于声音频率的非线性梅尔刻度的对数能量频谱的线性变换。

梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCCs)就是组成梅尔频率倒谱的系数，它衍生自声音片段的倒频谱，通过梅尔频率倒谱处理能够将声音信号进行非线性表示，能够更好的表示声音信号。

MP(MatchingPursuit)为匹配追踪算法，能够对信号进行重构，优化信号结构，使得后续的计算量大大减少。

进一步的，步骤二中数据分析模块在对待识别声音信号进行利用MP时域特征提取获取待识别声音信号的时域特征数据以及MFCCs特征提取获取声音片段的时域特征数据前，数据分析模块先对待识别声音信号进行MP稀疏分解重构处理。

MP稀疏分解重构能够提取出信号最主要的结构特征信息，能够有效的消除噪音的干扰，提高后续声音识别的准确性。

进一步的，所述数据分析模块对待识别声音信号进行MP稀疏分解重构的具体步骤为：

2.1设置待识别声音信号的稀疏分解参数和分解次数；

2.2根据分解参数构建过完备原子库，利用MP匹配追踪算法在过完备原子库中获取与待识别声音信号最匹配的原子；

2.3从声音信号中把声音信号在最匹配原子上的分量去除，完成一次分解，然后记录最匹配原子的参数作为本次分解结果；

2.4判断是否达到分解次数，若未达到分解次数，则重复执行步骤2.2和步骤2.3的内容，直至达到分解次数；若达到分解次数，则执行步骤2.5；

2.5将所有分解得到的最匹配原子进行线性组合，获取待识别声音信号的稀疏分解重构结果。

通过MP稀疏分解重构后的声音信号能够较好的反映声音信号的特征，分解后的声音信号也更加稳定，在进行特征提取时，能够保证不出现特征参数不稳定的情况。且重构后的声音信号可以进行单帧识别，满足声音识别的实时性需求。

进一步的，在步骤三中建立SVM模型后，数据分析模块调取声音数据库内声音测试样本对SVM模型进行训练，数据分析模块在训练过程中通过网格搜索法以及交叉验证法确定SVM模型的参数。

在步骤二中数据分析模块在提取待识别声音信号后，还对待识别声音信号进行声音片段截取。

由于过长的声音信号会导致MP分解的时间过长，所以将待识别声音信号进行声音片段截取，保证识别速度。

进一步的，对待识别声音信号进行声音片段截取后，数据分析模块还对截取获得的待识别声音片段进行分帧以及加汉明窗处理。

通过对待识别声音片段进行分帧处理以提高待识别声音片段的稳定性，并通过加汉明窗处理的方式解决分帧带来的误差问题。

进一步的，步骤二中在将所述频域特征数据和时域特征数据进行组合作为音频特征数据前，先对频域特征数据以及时域特征数据进行归一化处理。

因为时域特征参数以及频域特征参数的取值差异较大，不在同一个数量级，因此先进行归一化处理，以方便后续的SVM模型识别。

一种声纹自动识别系统，包括数据采集模块、数据分析模块和展示模块，所述数据采集模块与数据分析模块连接，所述数据采集模块用于采集声音信号，所述数据分析模块用于识别声音信号，所述展示模块与数据分析模块连接，所述展示模块用于展示声音信号识别结果。

进一步的，一种声纹自动识别系统还包括声音数据库和声纹数据储存单元，所述声音数据库与数据分析模块连接，所述声音数据库用于为数据分析模块训练SVM模型提供声音训练样本，所述声纹数据储存单元同时与数据采集模块和数据分析模块连接，所述声纹数据储存单元用于储存数据采集模块采集的声音信号。

本发明的有益效果是：

通过对声音信号进行MP稀疏分解重构提取出声音信号最主要的结构特征信息，有效消除噪音干扰。通过MP匹配追踪算法以及MFCCs特征提取分别获取声音信号的频域特征数据以及时域特征数据，将两者进行结合后的特征集作为SVM模型识别对象，通过丰富识别所用的声音信号的特征集来进一步的提高声音识别的准确性。且通过MP稀疏分解重构能够提高声音信号的稳定性，防止出现因提取的特征参数的不稳定造成声音识别结果不准确。

附图说明

图1是本发明的一种流程示意图；

图2是本发明的一种结构示意图；

其中：1、数据采集模块，2、数据分析模块，3、展示模块，4、声音数据库，5、声纹数据储存单元。

具体实施方式

下面结合附图和实施例对本发明进一步描述。

实施例：

一种声纹自动识别方法，如图1所示，包括以下步骤：

步骤一，数据采集模块1采集待识别声音信号，将待识别声音信号传输至声纹数据储存单元5；

步骤二，数据分析模块2提取声纹数据储存单元5内的待识别声音信号，数据分析模块2对待识别声音信号进行MP时域特征提取获取待识别声音信号的时域特征数据，同时数据分析模块2通过对待识别声音信号进行MFCCs 特征提取获取待识别声音信号的频域特征数据，并将所述频域特征数据和时域特征数据进行组合作为待识别声音信号的音频特征数据；

步骤三，数据分析模块2建立SVM模型，将音频特征数据输入SVM模型进行分类识别，SVM模型输出声音信号的识别结果，数据分析模块2将识别结果送入展示模块3进行展示。

步骤二中数据分析模块2在对待识别声音信号进行利用MP时域特征提取获取待识别声音信号的时域特征数据以及MFCCs特征提取获取声音片段的时域特征数据前，数据分析模块2先对待识别声音信号进行MP稀疏分解重构处理。

MFCCs特征提取的过程具体为：声音信号进行分帧和加窗处理后，首先对其中一帧声音信号进行FFT变换处理，获取该声音信号对应的频谱，将获取到的频谱通过Mel滤波器组，得到该声音信号对应的Mel频谱，最后在 Mel频谱上进行倒谱分析，获得Mel频率倒谱系数MFCCs，MFCCs即为该帧声音信号的频域特征。

通过MP稀疏分解重构能够尽可能少的原子来表示信号，在去除声音信号内噪音的同时，可以获得信号更加简洁的表示方式，更方便于进一步对声音信号进行处理分析。

所述数据分析模块2对待识别声音信号进行MP稀疏分解重构的具体步骤为：

2.1设置待识别声音信号的稀疏分解参数和分解次数；

2.5将所有分解得到的最匹配原子进行线性组合，获取待识别声音信号的稀疏分解重构结果。待识别声音信号的系数分解重构结果最终表现为按原子能量由高到低的线性和。

将MP时域特征提取的分解次数设置为7次，能够在保证识别结果稳定性的同时保证重构时间不过长。

将对提取时域特征数据的待识别声音信号的MP稀疏分解次数设置为25 次，以保证后续的特征提取能够顺利进行。

在步骤三中建立SVM模型后，数据分析模块2调取声音数据库4内声音测试样本对SVM模型进行训练，数据分析模块2在训练过程中通过网格搜索法以及交叉验证法确定SVM模型的参数。

在步骤二中数据分析模块2在提取待识别声音信号后，还对待识别声音信号进行声音片段截取。

对待识别声音信号进行声音片段截取后，数据分析模块2还对截取获得的待识别声音片段进行分帧以及加汉明窗处理。

由于声音信号具有短时平稳性，10—30ms内可以认为语音信号近似不变，所以将声音信号分为一些短段来进行处理，每一个短段称为一帧，能够有效提高声音信号的稳定性。汉明窗的幅频特性是旁瓣衰减较大，主瓣峰值与第一个旁瓣峰值衰减可达43db，所以对每帧声音信号进行加汉明窗处理，能够有效改善频谱泄漏的情况。

步骤二中在将所述频域特征数据和时域特征数据进行组合作为音频特征数据前，先对频域特征数据以及时域特征数据进行归一化处理。

一种声纹自动识别系统，如图2所示，包括数据采集模块1、数据分析模块2、展示模块3、声音数据库4和声纹数据储存单元5，所述数据采集模块1与数据分析模块2连接，所述数据采集模块1用于采集声音信号，所述数据分析模块2用于识别声音信号，所述展示模块3与数据分析模块2连接，所述展示模块3用于展示声音信号识别结果。

所述声音数据库4与数据分析模块2连接，所述声音数据库4用于为数据分析模块2训练SVM模型提供声音训练样本，所述声纹数据储存单元5 同时与数据采集模块1和数据分析模块2连接，所述声纹数据储存单元5用于储存数据采集模块1采集的声音信号。

以45种噪声环境下的环境声音事件音频识别为例，通过录音棒以16kHZ 的采样频率实地采集的声音，录制背景为寂静山林、马路附近、雨天湖边附近。声音事件主体包括:电镐声、爆炸声和挖机声等，在识别前，将所有的声音文件统一转换为采样率16KHz、单声道和16bits的格式，以方便后续进行统一识别。且考虑到MP分解速度，所以将声音信号截取成3-6S的声音片段，每一段对应一种声音事件主体，由于每种声音事件主体的录制背景不同，所以每种声音事件主体具有三个对应的声音文件。

随机选取五类声音，并选取12维MFCCs(MFCCs-12)为频域特征，4维 MP(MP-4)作为时域特征，将MP-4与MFCCs-12分别作为特征参数进行识别结果对比，识别结果如下：

对于电镐声：以MFCCs-12作为特征参数进行识别的识别准确率达到 84.12％，以MP-4作为特征参数进行识别的识别准确率达到31.58％；

对于爆炸声：以MFCCs-12作为特征参数进行识别的识别准确率达到 86.89％，以MP-4作为特征参数进行识别的识别准确率达到36.14％；

对于挖机声：以MFCCs-12作为特征参数进行识别的识别准确率达到 72.22％，以MP-4作为特征参数进行识别的识别准确率达到47.48％；

对于大自然声：以MFCCs-12作为特征参数进行识别的识别准确率达到 65.18％，以MP-4作为特征参数进行识别的识别准确率达到30.88％；

对于常见事物的声音：以MFCCs-12作为特征参数进行识别的识别准确率达到80％，以MP-4作为特征参数进行识别的识别准确率达到22.12％。

MP-4单独作为信号特征进行识别，识别率在40％以下，所以将MP-4和 MFCCs-12一起作为音频特征，再将音频特征作为特征参数进行识别，准确率比单独MFCCs-12提高8％以上，与单独用MP-4相比识别率大幅提高。

以上所述的实施例只是本发明的一种较佳的方案，并非对本发明作任何形式上的限制，在不超出权利要求所记载的技术方案的前提下还有其它的变体及改型。

Claims

1.一种声纹自动识别方法，其特征在于，包括以下步骤：

步骤一，数据采集模块(1)采集待识别声音信号，将待识别声音信号传输至声纹数据储存单元(5)；

步骤二，数据分析模块(2)提取声纹数据储存单元(5)内的待识别声音信号，数据分析模块(2)对待识别声音信号进行MP时域特征提取获取待识别声音信号的时域特征数据，同时数据分析模块(2)通过对待识别声音信号进行MFCCs特征提取获取待识别声音信号的频域特征数据，并将所述频域特征数据和时域特征数据进行组合作为待识别声音信号的音频特征数据；

步骤三，数据分析模块(2)建立SVM模型，将音频特征数据输入SVM模型进行分类识别，SVM模型输出声音信号的识别结果，数据分析模块(2)将识别结果送入展示模块(3)进行展示。

2.根据权利要求1所述的一种声纹自动识别方法，其特征在于，步骤二中数据分析模块(2)在对待识别声音信号进行利用MP时域特征提取获取待识别声音信号的时域特征数据以及MFCCs特征提取获取声音片段的时域特征数据前，数据分析模块(2)先对待识别声音信号进行MP稀疏分解重构处理。

3.根据权利要求2所述的一种声纹自动识别方法，其特征在于，所述数据分析模块(2)对待识别声音信号进行MP稀疏分解重构的具体步骤为：

2.1设置待识别声音信号的稀疏分解参数和分解次数；

4.根据权利要求1所述的一种声纹自动识别方法，其特征在于，在步骤三中建立SVM模型后，数据分析模块(2)调取声音数据库(4)内声音测试样本对SVM模型进行训练，数据分析模块(2)在训练过程中通过网格搜索法以及交叉验证法确定SVM模型的参数。

5.根据权利要求1所述的一种声纹自动识别方法，其特征在于，在步骤二中数据分析模块(2)在提取待识别声音信号后，还对待识别声音信号进行声音片段截取。

6.根据权利要求5所述的一种声纹自动识别方法，其特征在于，对待识别声音信号进行声音片段截取后，数据分析模块(2)还对截取获得的待识别声音片段进行分帧以及加汉明窗处理。

7.根据权利要求1所述的一种声纹自动识别方法，其特征在于，步骤二中在将所述频域特征数据和时域特征数据进行组合作为音频特征数据前，先对频域特征数据以及时域特征数据进行归一化处理。

8.一种声纹自动识别系统，其特征在于，包括数据采集模块(1)、数据分析模块(2)和展示模块(3)，所述数据采集模块(1)与数据分析模块(2)连接，所述数据采集模块(1)用于采集声音信号，所述数据分析模块(2)用于识别声音信号，所述展示模块(3)与数据分析模块(2)连接，所述展示模块(3)用于展示声音信号识别结果。

9.根据权利要求8所述的一种声纹自动识别系统，其特征在于，还包括声音数据库(4)和声纹数据储存单元(5)，所述声音数据库(4)与数据分析模块(2)连接，所述声音数据库(4)用于为数据分析模块(2)训练SVM模型提供声音训练样本，所述声纹数据储存单元(5)同时与数据采集模块(1)和数据分析模块(2)连接，所述声纹数据储存单元(5)用于储存数据采集模块(1)采集的声音信号。