CN106297770B

CN106297770B - 基于时频域统计特征提取的自然环境声音识别方法

Info

Publication number: CN106297770B
Application number: CN201610634966.XA
Authority: CN
Inventors: 曹九稳; 徐茹; 王建中; 王天磊; 曾焕强
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2016-08-04
Filing date: 2016-08-04
Publication date: 2019-11-22
Anticipated expiration: 2036-08-04
Also published as: CN106297770A

Abstract

本发明公开了一种基于时频域统计特征提取的自然环境识别方法。本发明包括如下步骤：步骤1、采集各类自然环境的声音，如发动机、汽车喇叭、风噪声等，建立声音样本库；步骤2、声音样本信号的加窗分帧处理；步骤3、提取所有帧信号在时域上的统计特征；步骤4、标记特征向量所属声音来源的种类，建立样本特征库；步骤5、利用支持向量机训练特征向量，建立训练模型；步骤6，提取目标声音的特征向量；步骤7、利用支持向量机对目标声音的特征向量进行匹配分类；步骤8、提供识别结果。本发明弥补了传统的声音LPCC和MFCC特征提取方法在时频结合方面的不足，能够判断各类目标声音的所属类型。

Description

基于时频域统计特征提取的自然环境声音识别方法

技术领域

本发明属于声音信号识别技术领域，尤其涉及一种基于时频域统计特征提取的自然环境声音识别方法。

背景技术

近年来自然环境声音的识别取得了广泛的关注，自然环境中充满了多种声音，如车辆行驶中的发动机声和汽车喇叭声，建筑工地上的施工声音，人的说话声，鸟虫鸣叫声，风雨声等。自然环境声音的识别是机器监控的一个重要部分，对建设智慧城市和发展智能家居也有重要的作用。

目前的自然环境声音识别技术，在特征提取方面使用的技术大多借鉴于语音识别算法，包括：线性预测倒谱系数(LPCC)、梅尔频率倒谱系数(MFCC)、过零率(ZCR)等。但此类特征用于语音信号的识别，是以语音的短时平稳性为基础的，自然环境中的声音却并非都具有短时平稳性。同时，由于声音信号在传播中的的衰减效应，单一的时域特征如LPCC、ZCR或者单一的频域特征如MFCC，都不能够准确的描述不同距离下的自然环境声音信号。因此，语音识别的特征提取方法，在对自然环境声音的识别方面并不能完全适用。

发明内容

针对目前存在如以上所述的技术问题，本发明提供了一种基于时频域统计特征提取的自然环境声音识别方法。针对不同声音信号如发动机声、汽车喇叭声、建筑施工声、说话声等，根据其能量随时间变化程度的区别和频谱能量分布上的区别，对各类自然环境中的声音进行识别，判断目标声音所属的类别。

为了实现上述目的，本发明采用技术方案包括如下步骤：

步骤1、采集各类自然环境声音，建立声音样本库；

步骤2、声音样本信号的加窗分帧处理；

步骤3、提取所有帧信号在时域上的统计特征：平均帧能量变化系数、能量冲击型帧信号占比、平均能量脉冲宽度、脉冲宽度离散程度、平均脉冲间隔宽度、间隔宽度离散程度和脉冲个数，以及在频谱分布上的特征：频带能量分量占比、频带帧能量分布离散程度和总频带帧能量分布离散程度，组成特征向量；

步骤4、标记特征向量所属声音来源的种类，建立样本特征库；

步骤5、利用支持向量机训练特征向量，建立训练模型；

步骤6，提取目标声音的特征向量；

步骤7、利用支持向量机对目标声音的特征向量进行匹配分类；

步骤8、提供识别结果。

所述步骤1的建立声音样本库：将声音采集装置放置在户外施工现场，按照不同的距离采集自然环境声音，并给声音标定其所属自然环境声音的种类后作为声音样本库。自然环境声音包括：发动机声、汽车喇叭声、建筑施工声、说话声和现场风噪声。

所述步骤2的声音样本信号的加窗分帧处理：首先对声音进行滤波处理，使用高通滤波器滤除50Hz以下的低频干扰信号；再将声音分为一秒钟每段，对每一段声音加Hamming窗做分帧处理，每帧选取256个采样点，为了保持帧信号间的连续性，帧移选取为128个采样点。

所述步骤3的所有帧信号在时域上的统计特征提取过程如下：

3-1.设f_s为采样频率，每秒的连续声音信号s(t)经过采样后离散化为s[n]，设对每秒信号进行分帧处理的帧长为N，帧移为总帧数为N_F。则第i帧信号s_i(n)的短时帧能量计算公式为：

3-2.对所有帧能量中位值以下的帧能量取平均值，记为E_med-ave，则：

其中E_median为所有帧能量的中位值，而N_lower为能量在中位值以下的帧的个数，E_l表示中位值以下的帧能量。

3-3.对信号s[n]做傅里叶变换，得到频谱分布信息，短时傅里叶变换的公式为：

其中，S_i(k)是第i帧信号s_i(n)的STFT。

3-4.根据不同种类的自然环境声音在每帧时域能量和频谱分布上的特点，取其统计值作为每段声音的特征。每帧信号时域能量帧能量变化系数公式表示为它反映的是帧信号的能量冲击程度。为使各类自然环境声音之间具有区别性，滤除低于帧能量平均值的帧后，取所有帧信号的平均帧能量变化系数作为特征I，即其中，为所有帧能量的平均值，mean(·)为对集合中的元素求平均值。

3-5.根据不同声音信号的特点，设定一个帧能量冲击系数的阈值T，将信号分为能量冲击型帧信号和非冲击型帧信号，滤除低于帧能量平均值的帧后，统计一段自然环境声音的冲击型能量帧信号所占比例，作为特征II，即

其中，E_ave表示所有帧能量的平均值，crad(·)表示求集合中元素的个数。

由于不同的声音信号能量波形具有不同的脉冲特性，利用平均帧能量截取信号的能量波形，即高于平均能量的帧用平均能量替代，截取后的帧能量公式为：

3-6.对将被截断的各帧的序号存入一个向量a，a中的数值是递增的，即a(k)<a(k+1)。计算d_a(k)＝a(k+1)-a(k),k＝1,…,K-1，其中，K是被截断的帧的总个数。根据定义，将d_a表示为其中，为l_i维向量，表示有l_i个1，而Δ_i>1是截断能量帧的不连续点，i＝1,…I是1-vector的数量，即这段信号的脉冲数量。因此脉冲的宽度脉冲之间的间隔宽度

3-7.计算所有脉冲的宽度均值作为特征III，即mean(TER_da)；计算所有脉冲之间的间隔宽度的平均值作为特征IV，即mean(IoP_da)；计算所有脉冲的宽度变异系数作为特征V，即计算所有脉冲间隔宽度的变异系数作为特征VI，即计算所有脉冲的个数作为特征VII，即I。

由于不同声音信号的频谱分布不同，其能量集中在不同的频带上，因此将每帧信号按照频率划分为三个频带，分别记为[k₁,k₂]、[k₃,k₄]、[k₅,k₆]，整段信号s(n)在第k频带的能量公式为：

其中，为短时傅里叶变换后，第i帧信号在第k频带的能量分量。信号s(n)在所有频带的总能量为：

因此能够计算第一个频带的能量占总频带比重，作为一段声音信号的特征VIII，即计算第二个频带能量占总能量的比重作为特征IX，即计算第三个频带能量占总能量的比重作为特征X，即

由于不同声音信号频谱特性，一段声音信号中，如说话声，建筑施工声的帧能量之间有高低间隔的情况出现，而发动机的帧能量近似平均，即不同声音信号帧能量的离散程度不同，且在不同频带有区别。因此，为了反映各类声音的在不同帧信号之间的各频带和总能量上分布的离散程度，计算总频带所有帧能量的变异系数作为特征XI，即计算第一个频带所有帧能量的变异系数作为特征XII，即计算第二个频带所有帧能量的变异系数作为特征XIII，即计算第三个频带所有帧能量的变异系数作为特征XIV，即

将以上14个特征组成一个14维向量，作为一段声音信号的特征向量。

步骤4的建立样本特征库：从声音样本库中提取每一类自然环境声音样本的特征，并给每类声音的特征标定其所属种类。

所述步骤5的建立训练模型：是利用支持向量机对样本特征库进行训练，得到训练模型。

所述步骤6的提取目标声音特征向量：目标声音的特征提取和使用和样本声音特征提取完全相同的过程。

所述步骤7的匹配分类：利用支持向量机对目标声音的特征向量与训练模型进行模式匹配，给出判断结果。

本发明的有益效果如下：

本发明的基于时频域统计特征提取的自然环境声音识别方法，由声音的特性入手，在短时帧分析的基础上，提取帧信号在时域和频谱上的特征，弥补了传统的声音LPCC和MFCC特征提取方法在时频结合方面的不足，满足自然环境声音的识别要求。利用本发明的基于时频域统计特征提取的自然环境声音识别方法能够提高识别效果。

附图说明

图1为本发明方法流程图；

图2为本发明方法中的特征提取流程图；

具体实施方式

下面结合的具体实施方式对本发明作详细说明，以下描述仅作为示范和解释，并不对本发明作任何形式上的限制。

如图1和2所示，基于时频域统计特征提取的自然环境声音(如：发动机声，汽车喇叭声，建筑施工声，说话声)识别方法具体实施方式的步骤如下：

步骤1、将采样频率为f_s的声音采集装置放置在距离声源点不同距离处，多次采集每类自然环境的声音，标定声音所属类型后作为声音样本库。

步骤2、将声音样本进行预处理，通过高通滤波器，滤除50Hz以下的低频干扰信号，再将声音分帧为分为一秒钟每段，并对每段信号加Hamming窗做分帧处理，每帧选取256个采样点，帧移选取为128个采样点。

步骤3、组成样本特征向量步骤，分析每帧信号在时域及频谱上的特性，选取分析结果的统计值作为特征组成特征向量，具体分步操作如下：

(1)每秒的连续声音信号s(t)经过采样后离散化为s[n]，对每秒信号进行分帧处理的帧长为N，帧移为总帧数为N_F。第i帧信号s_i(n)的短时帧能量为对所有帧能量中位值以下的帧能量取平均值，记为E_med-ave，则其中E_median为所有帧能量的中位值，而N_lower为能量在中位值以下的帧的个数，E_l表示中位值以下的帧能量。对信号做短时傅里叶变换：其中，S_i(k)是第i帧信号s_i(n)的STFT，得到信号频谱分布信息。

(2)计算每帧的能量变化系数：统计一段声音内的帧能量冲击程度的平均值：作为特征I；

(3)选取能量大于E_med-ave的所有帧信号，帧能量变化系数的阈值以设定4.1为例，将选取的帧信号分为能量冲击型帧和非能量冲击型帧，统计一段声音中能量冲击型帧信号所占的比例：作为特征量II；

(4)取所有帧能量的平均值E_ave，用E_ave截取帧能量波形，得到截取的帧能量：将被截断的各帧的序号存入一个向量a，计算d_a(k)＝a(k+1)-a(k),k＝1,…,K-1，其中，K是被截断的帧的总个数。将d_a表示为这种形式：其中，为l_i维向量，表示有l_i个1，而Δ_i>1是截断能量帧的不连续点，i＝1,…I是1-vector的数量，即这段信号的脉冲数量。因此截取脉冲的宽度截取脉冲之间的间隔宽度

计算所有脉冲的宽度均值：作为特征III；计算所有脉冲之间的间隔宽度的平均值作为特征IV；计算所有脉冲宽度的变异系数：作为特征V；计算所有脉冲间隔宽度的变异系数：作为特征VI；计算所有脉冲的个数：I，作为特征VII。

(5)计算短时傅里叶变换后，第i帧信号在第k频带的能量分量：信号s(n)在所有频带的总能量：将信号划分为[k₁,k₂]、[k₃,k₄]、[k₅,k₆]三个频带，计算整段信号s(n)在第k频带的能量：

计算第一个频带的能量占总频带比重：作为一段自然环境声音信号的特征VIII；计算第二个频带能量占总能量的比重：作为特征IX；计算第三个频带能量占总能量的比重作为特征X。

计算总频带所有帧能量的变异系数：作为特征XI；计算第一个频带所有帧能量的变异系数：作为特征XII；计算第二个频带所有帧能量的变异系数：作为特征XIII；计算第三个频带所有帧能量的变异系数：作为特征XIV。

将以上14个特征组成14维向量，作为一段声音信号的特征向量。

步骤4、提取所有类型声音的特征向量，标定所属种类，建立样本声音的特征向量库；

步骤5、利用支持向量机对样本特征库进行分类训练，建立训练模型；

步骤6、使用与样本声音同样的采集装置采集目标声音，按照与声音样本同样的步骤提取目标声音的特征向量；

步骤7、利用支持向量机将目标声音的特征向量与已建立的训练模型做匹配，提供分类结果；

步骤8、目标声音识别结果步骤，根据支持向量机提供的分类结果判断目标声音所属的来源种类。

Claims

1.基于时频域统计特征提取的自然环境声音识别方法，其特征在于包括如下步骤：

步骤1、采集各类自然环境声音，建立声音样本库；

步骤2、声音样本信号的加窗分帧处理；

步骤5、利用支持向量机训练特征向量，建立训练模型；

步骤6，提取目标声音的特征向量；

步骤8、提供识别结果；

所述步骤3的所有帧信号在时域上的统计特征提取过程如下：

3-1.设f_s为采样频率，每秒的连续声音信号s(t)经过采样后离散化为s[n]，设对每秒信号进行分帧处理的帧长为N，帧移为总帧数为N_F；则第i帧信号s_i(n)的短时帧能量计算公式为：

其中E_median为所有帧能量的中位值，而N_lower为能量在中位值以下的帧的个数，E_l表示中位值以下的帧能量；

其中，S_i(k)是第i帧信号s_i(n)的短时傅里叶变换STFT；

3-4.根据不同的自然环境声音在每帧时域能量和频谱分布上的特点，取其统计值作为每段声音的特征；每帧信号时域能量帧能量变化系数公式表示为用于反映帧信号的能量冲击程度；在滤除低于帧能量平均值的帧后，取所有帧信号的平均帧能量变化系数作为特征I，即其中，为所有帧能量的平均值，mean(·)为对集合中的元素求平均值；

3-5.根据不同自然环境的特点，设定一个帧能量冲击系数的阈值T，将信号分为能量冲击型帧信号和非冲击型帧信号，滤除低于帧能量平均值的帧后，统计一段自然环境声音的冲击型能量帧信号所占比例，作为特征II，即

其中，E_ave表示所有帧能量的平均值，crad(·)表示求集合中元素的个数；

由于不同的声音信号帧能量波形具有不同的脉冲特性，利用平均帧能量截取信号的能量波形，即高于平均能量的帧用平均能量替代，截取后的帧能量公式为：

3-6.对将被截断的各帧的序号存入一个向量a，a中的数值是递增的，即a(k)＜a(k+1)；设d_a(k)＝a(k+1)-a(k)，k＝1，…，K-1，其中，K是被截断的帧的总个数；根据定义，将d_a表示为其中，为l_i维向量，表示有l_i个1，而Δ_i＞1是截断能量帧的不连续点，i＝1，…I是1-vector的数量，即这段信号的脉冲数量；因此脉冲的宽度脉冲之间的间隔宽度

3-7.计算所有脉冲的宽度均值作为特征III，即计算所有脉冲之间的间隔宽度的平均值作为特征IV，即计算所有脉冲的宽度变异系数作为特征V，即计算所有脉冲间隔宽度的变异系数作为特征VI，即计算所有脉冲的个数作为特征VII，即I；

3-8.由于不同声音信号的频谱分布不同，其能量集中在不同的频带上，因此将每帧信号按照频率划分为三个频带，分别记为[k₁，k₂]、[k₃，k₄]、[k₅，k₆]，整段信号s(n)在第k频带的能量公式为：

其中，为短时傅里叶变换后，第i帧信号在第k频带的能量分量；信号s(n)在所有频带的总能量为：

因此能够计算第一个频带的能量占总频带比重，作为一段自然环境声音信号的特征VIII，即计算第二个频带能量占总能量的比重作为特征IX，即计算第三个频带能量占总能量的比重作为特征X，即

由于不同声音信号的频谱特性，为了反映自然环境声音在不同帧信号之间的各频带和总能量上分布的离散程度，计算总频带所有帧能量的变异系数作为特征XI，即计算第一个频带所有帧能量的变异系数作为特征XII，即计算第二个频带所有帧能量的变异系数作为特征XIII，即计算第三个频带所有帧能量的变异系数作为特征XIV，即

2.根据权利要求1所述的基于时频域统计特征提取的自然环境声音识别方法，其特征在于在提取所有帧信号在时域上的统计特征前，对声音样本信号的加窗分帧处理：首先对声音进行滤波处理，使用高通滤波器滤除50Hz以下的低频干扰信号；再将声音分为一秒钟每段，对每一段声音加Hamming窗做分帧处理，每帧选取256个采样点，为了保持帧信号间的连续性，帧移选取为128个采样点。

3.根据权利要求2所述的基于时频域统计特征提取的自然环境声音识别方法，其特征在于声音样本信号来源于声音样本库，将声音采集装置放置在户外施工现场，按照不同的距离采集自然环境声音，并给声音标定其所属自然环境声音的种类后作为声音样本库。

4.根据权利要求3所述的基于时频域统计特征提取的自然环境声音识别方法，其特征在于从声音样本库中提取每一类自然环境声音样本的特征，并给每类声音的特征标定其所属种类，形成样本特征库。

5.根据权利要求4所述的基于时频域统计特征提取的自然环境声音识别方法，其特征在于利用支持向量机对样本特征库进行训练，得到训练模型。

6.根据权利要求5所述的基于时频域统计特征提取的自然环境声音识别方法，其特征在于提取目标声音的特征向量，目标声音的特征向量的提取使用和样本声音特征提取完全相同的过程。

7.根据权利要求6所述的基于时频域统计特征提取的自然环境声音识别方法，其特征在于利用支持向量机对目标声音的特征向量与训练模型进行模式匹配，给出判断结果。