CN107393554B

CN107393554B - 一种声场景分类中融合类间标准差的特征提取方法

Info

Publication number: CN107393554B
Application number: CN201710472024.0A
Authority: CN
Inventors: 杨玉红; 胡瑞敏; 江玉至; 陆璐; 艾浩军; 涂卫平; 王晓晨; 张会玉
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2017-06-20
Filing date: 2017-06-20
Publication date: 2020-07-10
Anticipated expiration: 2037-06-20
Also published as: CN107393554A

Abstract

本发明一种声场景分类中融合类间标准差的特征提取方法，包括：步骤1，基于传统方式的特征提取：计算原始音频的频谱图，基于传统滤波器降采样，得到降采样后的特征频谱图P1；步骤2，基于类间标准差的特征提取：计算原始音频的频谱图，基于类间频域标准差滤波器降采样，得到降采样后的类间标准差特征频谱图P2；步骤3，基于类间标准差的特征融合：将步骤1中的特征频谱图P1和步骤2中的特征频谱图P2进行拼接，作为声场景分类模型的输入。本发明提高声场景分类准确率的方案，克服了现有声场景分别率不高的问题；首创通过类间标准差提取特征，并与其他特征融合，提高系统的识别性能。本发明的系统结构简单，实施便捷。

Description

一种声场景分类中融合类间标准差的特征提取方法

技术领域

本发明涉及声音信号分析领域，尤其涉及一种声场景分类中融合类间标准差的特征提取方法。

背景技术

近年来，在音频研究领域中，在广大学者的关注下，语音识别这项任务已经取得了很大的进步，然而对于非语音比如环境声音亦含有重要的信息，所以对于它们的分析和理解也同样重要。声学场景分类(Acoustic scene classification,ASC)这个概念的就是通过分析语音片段，从而识别出这个语音片段录制的环境，给这段音频赋予对应的环境语义标签。如公园、地铁、办公室等。ASC的主要研究目标是让计算机能够像人类的听觉系统一样，通过分析声音来理解周围的环境，是与计算声学场景分析(Computational AudioScene Analysis,CASA)相关的一个研究方向，同时也与机器学习、机器人技术、模式识别和人工智能等领域相关联。ASC的主要目的是理解这段音频的背景环境，在需要针对环境变化而提供不同服务的系统设计上，应用ASC可以提供更智能更人性化的服务。

ASC作为一个典型的分类问题，主要由两部分组成：信号预处理和特征提取、声学模型(Acoustic Model，AM)训练与模式匹配。以原始的音频信号作为输入，经过信号预处理后，对音频数据进行分析计算，提取鲁棒性强的特征向量。声学模型以特征提取部分的特征为输入，通过一些分类算法将这些特征进行分类得到最后的识别结果，声学场景分类最后的正确率取决于特征，所以如何提取特征，使得它能够代表这些声学场景是一个重要问题。现阶段对原始音频数据进行特征提取，用作分类的声学特征有以下两大类：短时特征和长时特征。短时特征既可以在时域提取，如短时平均过零率、短时能量，也可以在将时域信号变换到频域，在频域提取线性预测系数(Linear Prediction Coefficient,LPC)和梅尔倒谱系数(Mel Frequency CepstralCoefficents，MFCC)；长时特征多为对音频段整体进行统计分析，如一些频谱质心、低能量率等这些长时统计特性。1997年麻省理工学院多媒体实验室的Sawhnney和Maes用循环神经网络和K-近邻准则去构建这些音频底层特征和场景类别之间的映射，最终达到了68％的分类准确率。Guo。对语音进行分帧加窗，对每帧的数据提取了两类特征，一类是感知特征：如整个频带的能量、子带能量、基因特征等，第二类是MFCC。在提取特征之后，通过支持向量机(Support Vector Machine，SVM)和二叉树的识别策略进行声学场景的识别。Kyuwoong等人使用参数较少的高斯直方图作为一小段音频的特征，Kullback-Leibler距离作为两个高斯直方图之间的距离度量，然后使用K近邻算法进行分类。深度神经网络被应用在声学场景分类的任务上的起步很晚，但是实验结果表明卷积神经网络(Convolutional Neural Network,CNN)比传统的基于高斯混合模型(Gaussianmixture model,GMM)和SVM的模型能产生更好的识别结果。CNN被用在图像识别领域，直接将原图像作为输入，避免了人工提取特征不准确的问题。音频中常见提取特征是梅尔谱，梅尔谱是基于人耳对频率感知的分辨率提取的频谱图，而各频率成分的声学场景辨析度可能和感知分辨率不完全一致，仅采用单一特征频谱作为CNN特征输入，存在特征表达不够充分的问题，会影响声学场景分类的识别率。

发明内容

本发明针对现有技术的不足，提供一种声场景分类中融合类间标准差的特征提取方法，将类间标准差提取的特征频谱与其他特征频谱相融合，实现声场景分类。声场景分类可以和视频信息、地理信息结合，实现更精准的分类、过滤或者定位功能。

为达到上述目的，本发明提供：

一种声场景分类中融合类间标准差的特征提取方法，包括：

步骤1，基于传统方式的特征提取：计算原始音频的频谱图，基于梅尔滤波器降采样，得到降采样后的特征频谱图P1；

步骤2，基于类间标准差的特征提取：计算原始音频的频谱图，基于类间频域标准差滤波器降采样，得到降采样后的类间标准差特征频谱图P2；

步骤3，基于类间标准差的特征融合：将步骤1中的特征频谱图P1和步骤2中的特征频谱图P2进行拼接，作为声场景分类模型的输入。

在上述的一种声场景分类中融合类间标准差的特征提取方法，基于类间标准差的特征提取包含以下子步骤：

步骤1，将包含M类音频场景的音频数据集作为训练集A，Nj是对应第j类声学场景中样本的个数；

步骤2，将步骤1中原始训练集A中音频文件根据场景分成M类，在每一类中，将音频文件做时频变换，将得到相应每个点处对数幅度值相加起来，每个频点的值得到

是第j类场景下第i个样本的对数幅度谱，d是频点的下标；

步骤3，将步骤1中训练集A所有音频文件做时频变换得到频谱图，再将频谱图中各频点处对数幅度值相加，每个频点的值除以帧数，得到整个训练集均值，即通过下面公式计算得到：

其中M是场景类别总数，j是M类场景的序号，N_j是对应第j类声学场景中样本的个数，B_ji是第j类场景下第i个样本的对数幅度谱，d是频点的下标，N是总的文件数

步骤4，根据以下公式求出M类类内标准差：

步骤5，将步骤4中M类内标准差通过下面公式：

得到整体频率标准差；

步骤6，利用公式:

计算类间标准差,将类间标准差归一化到[0,1]之间，作出横轴为频率，纵轴为归一化后标准差的训练集中类间频域标准差分布图B；

步骤7，对步骤6中得到的频率标准差图B进行降采样后得到新的频段数是D，根据标准差图和坐标轴的围成面积来确定边界；定义标准差曲线和坐标轴的面积为S，计算确定D组边界[a,b]，使得[a,b]区间内的面积满足S_ab＝S/D；根据数学中的数值积分方法，作出横坐标为频率，纵坐标为归一化到[0,1]之间类间频域标准差积分曲线C；

步骤8，运用以下公式：

p(x)＝p₁xⁿ+p₂x^n-1+...+p_nx+p_n+1采用多项式拟合的方法对步骤7中积分曲线C进行拟合，得到拟合曲线的多项表达式，再令p(x)取[0,D]之间的整数，反解方程，得到对应频点[a,b]

步骤9，步骤8中求解出来的D组边界[a,b]组成一组基于类间频域标准差的滤波器，用这组滤波器降采样得到的特征即基于类间频域标准差的音频特征谱图P2。

在上述的一种声场景分类中融合类间标准差的特征提取方法，基于类间标准差的特征提取特征融合包含以下步骤：

步骤1，利用梅尔滤波器提取音频特征频谱图，记为特征频谱图P1；

步骤2，利用基于类间频域标准差滤波器提取基于类间频域标准差的音频特征频谱图，记为特征频谱图P2；

步骤3，将步骤1中的特征频谱图P1和步骤2中的特征频谱图P2沿着时域对齐，任选一张特征频谱图频域翻转，和余下的特征频谱图共用同一时间轴拼接，得到拼接后的特征图P3。

本发明根据类间标准差提取特征，提出类间标准差的特征提取及其他特征融合，提高声场景分类准确率的方案，克服了现有声场景分辨率不高的问题；首创通过类间标准差提取特征，并与其他特征融合，提高系统的识别性能。本发明的系统结构简单，实施便捷。

附图说明

图1是本发明的方法声学场景分类系统训练测试阶段流程框图。

图2是梅尔频谱特征和类间标准差频谱特征提取过程流程图。

图3是梅尔特征和类间标准差特征沿着频域特征融合示意图。

具体实施方式

下面结合实施例对本发明作进一步说明：

本发明实施例所提供基于类间标准差特征融合的声场景分类系统，具体包括以下部分，具体实施时可以采用软件固化技术实现各模块。

类间频域标准差的非线性映射的特征生成模块：根据输入的音频，输出是代表该声场景基于频域标准差的谱图像特征(Frequency Standard Deviation based SIF,FSD-SIF)。基于频域标准差的谱图像特征生成方法：

步骤1，将DCASE2017中音频作为参考的原始音频训练集，记为原始训练集A；

步骤2，对步骤1所得原始训练集A中的音频文件计算其相应的幅度谱特征的累加和，并用帧长对每一段文件进行归一化处理，记为文件集B；

步骤3，然后文件集B进行类内统计，将属于同一个场景的音频片段的谱特征累加，得到了每类场景特征的分布情况，并且同样的用每类场景的文件数量进行归一化。根据下面公式：

可以计算的到相应的不同场景音频的类内标准差如下：

其中j是M类场景的序号，Nj是对应第j类声学场景中样本的个数，Bji是第j类场景下第i个样本的标准差，d是频点的下标，

是整个训练集均值，可以通过下面的公式计算得到：

从而得到15类声学场景的对数幅度谱标准差图；

步骤4，根据以下公式：

步骤3中的标准差再求标准差，得到的整体的频率标准差图C；

步骤5，需要降采样后得到新的频段数是D。根据标准差图和坐标轴的围成面积来确定边界。假设标准差曲线和坐标轴的面积为S，需要确定D组边界[a,b]，使得[a,b]区间内的面积满足S_ab＝S/D，采用数学中的数值积分的方法就步骤4中的频率标准差图C中的频率标准差图进行积分，得到面积和频段下标索引之间的关系图E；

步骤6，采用多项式拟合的方法对步骤5中的关系图E进行拟合，得到拟合曲线的多项式表达后，令多项式的值依次取[0,D]之间的整数，反向求解方程，如此就可以确定下[a,b]的值；

特征融合模块：根据类间标准差提取的特征，与其他方法提取出来的特征相融合，输出是拼接后的代表场景的特征。本模块的输入是不同方法提取的场景特征。

特征融合方法：

基于类间标准差提取的特征与其他特征融合方法，包含以下步骤：

步骤1，利用梅尔滤波器提取梅尔频谱特征X^MFS，得到特征频谱图P1。

步骤2，利用基于类间标准差滤波器提取基于标准差频谱特征X^FSD-SIF，得到特征频谱图P2。

步骤3，记提取的MFS特征X^MFS∈R^r×t，基于方差提取的特征X^FSD-SIF∈R^r×t，将步骤1中的特征频谱图P1和特征频谱图P2按频域上进行拼接，得到拼接后的特征图P3。

将得到的特征图P3输入到CNN模型，例如VGGNET，经过训练得到学习模型，训练阶段结束。

当进入测试阶段，待测音频输入到学习模型中，最后输出场景标签，如beach。

以上实施例仅供说明本发明之用，而非对本发明的限制，有关技术领域的技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变换或变型，因此所有等同的技术方案，都落入本发明的保护范围。

Claims

1.一种声场景分类中融合类间标准差的特征提取方法，包括：

步骤1，基于梅尔滤波器的特征提取：计算原始音频的频谱图，基于梅尔滤波器降采样，得到降采样后的特征频谱图P1；

步骤3，基于类间标准差的特征融合：将步骤1中的特征频谱图P1和步骤2中的特征频谱图P2进行拼接，作为声场景分类模型的输入，包含以下步骤：

子步骤1，利用梅尔滤波器提取音频特征频谱图，记为特征频谱图P1；

子步骤2，利用基于类间频域标准差滤波器提取基于类间频域标准差的音频特征频谱图，记为特征频谱图P2；

子步骤3，将步骤1中的特征频谱图P1和步骤2中的特征频谱图P2沿着时域对齐，任选一张特征频谱图频域翻转，和余下的特征频谱图共用同一时间轴拼接，得到拼接后的特征图P3。

2.根据权利要求1所述的一种声场景分类中融合类间标准差的特征提取方法，其特征在于，基于类间标准差的特征提取包含以下子步骤：

子步骤1，将包含M类音频场景的音频数据集作为训练集A，Nj是对应第j类声学场景中样本的个数；

子步骤2，将步骤1中原始训练集A中音频文件根据场景分成M类，在每一类中，将音频文件做时频变换，将得到相应每个点处对数幅度值相加起来，每个频点的值得到

B_ji是第j类场景下第i个样本的对数幅度谱，d是频点的下标；

子步骤3，将子步骤1中训练集A所有音频文件做时频变换得到频谱图，再将频谱图中各频点处对数幅度值相加，每个频点的值除以帧数，得到整个训练集均值，即通过下面公式计算得到：

其中M是场景类别总数，j是M类场景的序号，N_j是对应第j类声学场景中样本的个数，B_ji是第j类场景下第i个样本的对数幅度谱，d是频点的下标，N是总的文件数；

子步骤4，根据以下公式求出M类类内标准差：

子步骤5，将子步骤4中M类内标准差通过下面公式：

得到整体频率标准差；

子步骤6，利用公式:

子步骤7，对子步骤6中得到的频率标准差图B进行降采样后得到新的频段数是D，根据标准差图和坐标轴的围成面积来确定边界；定义标准差曲线和坐标轴的面积为S，计算确定D组边界[a,b]，使得[a,b]区间内的面积满足S_ab＝S/D；根据数学中的数值积分方法，作出横坐标为频率，纵坐标为归一化到[0,1]之间类间频域标准差积分曲线C；

子步骤8，运用以下公式：

子步骤9，子步骤8中求解出来的D组边界[a,b]组成一组基于类间频域标准差的滤波器，用这组滤波器降采样得到的特征即基于类间频域标准差的音频特征频谱图P2。