CN110600054B

CN110600054B - 基于网络模型融合的声场景分类方法

Info

Publication number: CN110600054B
Application number: CN201910845467.9A
Authority: CN
Inventors: 唐闺臣; 梁瑞宇; 王青云; 包永强; 冯月芹; 李明
Original assignee: Nanjing Institute of Technology
Current assignee: Nanjing Tianyue Electronic Technology Co ltd
Priority date: 2019-09-06
Filing date: 2019-09-06
Publication date: 2021-09-21
Anticipated expiration: 2039-09-06
Also published as: CN110600054A

Abstract

本发明公开了一种基于网络模型融合的声场景分类方法，并通过声道分离方式和音频切割等方式构造出多种不同的输入特征，提取音频信号的伽马通滤波器倒谱系数、梅尔频谱特征及其一阶和二阶差分作为输入特征，分别训练对应的多种不同的卷积神经网络模型，最后采用支撑向量机堆叠方法实现最终的融合模型。本发明采用声道分离和音频切割等方式提取出识别性强的音频输入特征，构造了单双两种通道的卷积神经网络，最终生成独特的模型融合结构，能够获得更加丰富与立体的信息，有效提高了不同的声场景分类识别率和鲁棒性，具有良好的应用前景。

Description

基于网络模型融合的声场景分类方法

技术领域

本发明涉及声场景分类技术领域，特别是涉及一种基于网络模型融合的声场景分类方法。

背景技术

声场景分类技术，就是利用计算手段根据不同声场景所包含的信息来完成对声场景的类别划分。该技术在提升机器的自动化程度，让机器能够自动感知环境特征，对音频内容进行检索和改进多媒体电子产品性能等方面具有十分重要的意义。

传统的声场景分类采用的特征主要包括：时域的过零率和能量等特征或频域和倒谱域的特征，常用的分类方法有：简单的阈值判断方法、高斯混合模型(Gaussian MixtureModel，GMM)方法、基于隐马尔科夫模型(Hiden Markov Model，HMM)方法、基于人工神经网络(Artificial Neural Network，ANN)的方法、基于支持向量机的方法(Support VextorMachine，SVM)和基于规则的方法等。

二十年代初，随着机器学习发展，声音场景分类任务从传统的模式识别任务转变为机器学习任务。模式识别重在建立模型刻画已有的特征，样本被用于估计模型中的参数，模式识别的落脚点是感知。支持向量机和梯度提升树等机器学习算法替代传统的HMM，GMM算法，被更多的应用到声音场景分类任务中来。2005年，Temko与Nadeu等人收集了包含16类声音事件的数据集，并在此基础上训练了SVM多分类模型，与GMM模型相比，将平均正确率提高了31.5％。2015年，Phan与Maaβ等人将传统MFCC等声学特征与随机森林算法(RandomForest，RF)相结合，在低信噪比的情况下，取得一定的效果。

以上研究极大地促进了声场景监测的发展，但仍然存在几个缺陷：

1)采用较传统声音降噪策略来提升前端音频采集质量，适用环境有限；

2)模式识别算法的识别能力随环境变化影响较大，鲁棒性较差；

3)传统的分类器的分类能力较弱，没有学习能力。

此外，现有技术中采用的一种基于视频的事件检测方法，因光线不足环境昏暗，空气漂浮粉尘过多等不良因素导致回传视画面模糊，容易造成误判和漏判、以及声场景分类，识别率较低且鲁棒性较差的问题。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供了一种基于网络模型融合的声场景分类方法，采用声道分离和音频切割等方式提取出识别性强的音频输入特征，构造了单双两种通道的卷积神经网络，最终生成独特的模型融合结构，能够获得更加丰富与立体的信息，有效提高了不同的声场景分类识别率和鲁棒性，具有良好的应用前景。

技术方案：为实现上述目的，本发明采用如下技术方案：

一种基于网络模型融合的声场景分类方法，其特征在于，包括以下步骤：

步骤A、对采集到的声场景数据进行预处理，获得音频数据样本；

步骤B、对步骤A中的预处理后的音频数据样本，采用声道分离方式和音频切割方式分成N组音频数据，并对各组数据提取对应的伽马通滤波器倒谱系数和梅尔频谱特征，并计算梅尔频谱特征一阶及二阶差分特征，构造成N组不同的输入特征；

步骤C、针对步骤B中N组不同的输入特征，设计N种不同结构的CNN模型作为弱分类器并训练各模型；

步骤D、采用支撑向量机为强分类器，将步骤C中的N种模型的输出结果堆叠作为支撑向量机的输入特征，训练融合后的新模型，新模型的分类结果作为声场景分类的最终结果。

优选地，所述步骤C中采用六种CNN模型，分别记为模型1、模型2、模型3、模型4、模型5和模型6，模型1、模型2和模型3均为单通道CNN模型，模型4、模型5和模型6均为双通道CNN网络模型。

优选地，所述模型1、模型2、模型3、模型4、模型5和模型6中的每个通道均包括卷积层、批量化归一层、全连接层和输出层；将所述模型4、模型5和模型6三个模型自身具备的两个通道的卷积层输出的特征图一维化处理，然后拼接在一起输入自身的全连接层；模型1与模型4、模型2与模型5、模型3与模型6对应，相对应的两个模型的每个通道的卷积层、全连接层的结构一致。

优选地，所述卷积层包含三段卷积块，每段卷积块之后紧接着最大池化层，每段卷积块包含两层卷积层，每层卷积层后连接ReLU激活函数，全连接层共两层，输出层为Softmax层，输出每个类别的预测概率，各模型的代价函数采用交叉熵损失函数。

优选地，所述步骤B中，声道分离方式包括不分离方法、谐波源和冲击源分离方法，不分离方法采用原始音频数据提取伽马通滤波器倒谱系数、梅尔频谱及其一阶二阶差分特征作为输入特征；谐波源和冲击源分离方法将语音信号分离为谐波分量与冲击源分量，然后再分别提取伽马通滤波器倒谱系数、梅尔频谱及其一阶二阶差分特征作为输入特征。

优选地，所述谐波源和冲击源分离方法是通过使最大后验估计准则估计的目标函数J(H，P)达到最大值，将语音信号分离为谐波分量H与冲击源分量P，

J(H，P)＝log p(W|H，P)+log p(H)+log p(P)+C (1)

其中，W代表信号的短时能量谱；等式右边的四项分别为最大似然值，H的先验值、P的先验值和一常量。

优选地，所述步骤B中，音频切割方法包括非切割、重叠切割和非重叠切割，所采用音频数据时长为3秒；不切割方法使用原始音频提取伽马通滤波器倒谱系数、梅尔谱及其差分特征；不重叠切割将音频按1秒划分为四个片段，分别提取特征后堆叠获得四通道特征作为输入特征；重叠切割将语音按照2秒划分，重叠部分为1秒，分别提取特征后堆叠获得双通道特征作为输入特征。

优选地，所述步骤C中，以不分离方法获得、然后以非切割、重叠切割、非重叠切割方法提取的三组特征分别作为模型1、模型2和模型3的输入特征；以谐波源和冲击源分离方法获得、然后以非切割、重叠切割、非重叠切割方法提取的三组双通道特征分别作为模型4、模型5和模型6的输入特征。

优选地，所述步骤A中，预处理包括对音频数据进行分帧和计算FFT，帧长为50ms，帧移20ms，FFT点数为2048。

所述步骤A中，预处理包括对音频数据进行分帧和计算FFT，帧长为50ms，帧移20ms，FFT点数为2048。

优选地，所述步骤B中，梅尔频谱特征采用具有若干个子带滤波器的梅尔滤波器组计算获得，伽马通滤波器倒谱系数采用具有若干个伽马通滤波器组计算获得。

有益效果：本发明具有以下优点：

(1)、采用声道分离和音频切割等方式提取出识别性强的音频输入特征，构造了单双两种通道的卷积神经网络，最终生成独特的模型融合结构，能够获得更加丰富与立体的信息，有效提高了不同的声场景分类识别率和鲁棒性；

(2)、双通道卷积神经网络使用不同的卷积通道处理双通道特征，保留了每个通道特征的特点，在全连接层拼接后统一处理，使两个通道间的联系与区别被更好的发掘，获得了更加丰富与立体的信息，因此在实际应用中，能够有效地区分出不同的声场景；

(3)、本发明的基于网络模型融合的声场景分类方法，能够克服现有技术中采用的基于视频的事件检测方法，容易造成误判和漏判、以及声场景分类，识别率较低且鲁棒性较差的问题。

附图说明

图1为本发明的基于网络模型融合的声场景分类方法的模型结构示意图；

图2是本发明模型1的网络结构图；

图3是本发明模型2的网络结构图；

图4是本发明模型3的网络结构图；

图5是本发明模型4的网络结构图；

图6是本发明模型5的网络结构图；

图7是本发明模型6的网络结构图。

具体实施方式

下面结合附图对本发明作更进一步的说明。

如图1至7所示，以6种模型为例，介绍本发明的基于网络模型融合的声场景分类方法。包括以下步骤，

步骤(1)、首先对样本进行分帧，帧长为50ms，帧移20ms；其次对每帧数据计算FFT，FFT点数为2048；再次，利用80个伽马通滤波器组计算得到伽马通滤波器倒谱系数；利用具有80个子带滤波器的梅尔滤波器组计算得到对数梅尔频谱图；最后，计算梅尔频谱一阶及二阶差分，最终得到多通道输入特征。

步骤(2)、通过声道分离方式和音频切割方式的不同构造六种不同的输入特征；通过将两种声道分离方式和三种音频切割方式组合构造六种不同的输入特征。

音频声道分离方法包括不分离和谐波源-冲击源分离。不分离方法采用原始音频数据提取伽马通滤波器倒谱系数、梅尔频谱及其一阶二阶差分特征作为输入特征。谐波源-冲击源分离方法通过使最大后验估计准则估计的目标函数J(H，P)达到最大值将语音信号分离为谐波分量H与打击源分量P，然后再分别提取伽马通滤波器倒谱系数、梅尔频谱及其一阶二阶差分特征作为输入特征。

J(H，P)＝log p(W|H，P)+log p(H)+log p(P)+C (1)

其中，W代表信号的短时能量谱；该式右边第一部分是最大似然，第二部分和第三部分是H和P的先验，第四部分C是一个不包含在H和P中的常量。

音频切割方法包括非切割，重叠切割和非重叠切割。数据集中音频数据时长3s。不切割方法使用原始音频提取伽马通滤波器倒谱系数、梅尔谱及其差分特征；不重叠切割将音频按1s划分为4个片段，分别提取特征后堆叠获得4通道特征作为输入特征；重叠切割将语音按照2s划分，重叠部分为1s，分别提取特征后堆叠获得2通道特征作为输入特征。

步骤(3)、针对六种不同的特征输入，设计了六种不同的CNN模型作为弱分类器，并训练六种模型。具体结构如下：

本发明中的模型1的结构如图2所示：鉴于不切割音频所提取的特征尺寸较大，在底层卷积层采用较大的卷积核。卷积层包含三段卷积块，每段卷积块之后紧接着最大池化层。每段卷积块包含两层卷积层，每层卷积层后连接ReLU激活函数，卷积块的最后添加批量化归一层。全连接层共两层，输出层为Softmax层，输出每个类别的预测概率。模型的代价函数为交叉熵损失函数。

本发明中的模型2的结构如图3所示：鉴于不重叠切割音频所提取的特征尺寸较小，在底层卷积层采用较小的卷积核。卷积层包含三段卷积块，每段卷积块之后紧接着最大池化层。每段卷积块包含两层卷积层，每层卷积层后连接ReLU激活函数，卷积块的最后添加批量化归一层。全连接层共两层，输出层为Softmax层，输出每个类别的预测概率。模型的代价函数为交叉熵损失函数。

本发明中的模型3的结构如图4所示。鉴于重叠切割音频所提取的特征尺寸较小，在底层卷积层采用较小的卷积核。但整体音频特征规模较大，因此比模型2的结构多一个卷积块。卷积层包含四段卷积块，每段卷积块之后紧接着最大池化层。每段卷积块包含两层卷积层，每层卷积层后连接ReLU激活函数，卷积块的最后添加批量化归一层。全连接层共两层，输出层为Softmax层，输出每个类别的预测概率。模型的代价函数为交叉熵损失函数。

本发明中的模型4的结构如图5所示。网络为双通道CNN网络。每个通道的卷积层部分与模型1的卷积层部分保持一致，并将两个通道的卷积层输出的特征图一维化后拼接在一起输入全连接层。全连接层部分与模型1的全连接层部分保持一致。

本发明中的模型5的结构如图6所示。网络为双通道CNN网络。每个通道的卷积层部分与模型2的卷积层部分保持一致，并将两个通道的卷积层输出的特征图一维化后拼接在一起输入全连接层。全连接层部分与模型2的全连接层部分保持一致。

本发明中的模型6的结构如图7所示。网络为双通道CNN网络。每个通道的卷积层部分与模型3的卷积层部分保持一致，并将两个通道的卷积层输出的特征图一维化后拼接在一起输入全连接层。全连接层部分与模型3的全连接层部分保持一致。

设计的双通道CNN模型处理由谐波源-冲击源分离方法提取的双通道输入特征。该模型在全连接层之前，使用单独的卷积层处理不同通道的特征。将两个通道的卷积层输出的特征图一维化后拼接在一起输入全连接层。双通道CNN模型使用不同的卷积通道处理双通道特征，保留了每个通道特征的特点，在全连接层拼接后统一处理，使两个通道间的联系与区别被更好的发掘，获得了更加丰富与立体的信息，有利于提高声场景分类系统的识别率。

步骤(4)、对于由六种不同输入特征得到的六种不同模型，采用以支撑向量机为强分类器的堆叠方法实现融合模型。以支撑向量机为强分类器的堆叠方法，将6个模型的输出结果堆叠作为支撑向量机的输入特征训练新模型，以支撑向量机的分类结果作为最终结果。

如表1所示，根据本发明的基于网络模型融合的声场景分类方法，实验对比了5类算法：高斯混合模型(GMM)算法、K最近邻(KNN)算法、支撑向量机算法、深度神经网络(DNN)算法和本发明提出的模型融合算法。支撑向量机算法采用径向基核函数。其中，支撑向量机模型采用高斯核作为核函数，惩罚系数为1.5；KNN模型的邻居数k＝15；DNN模型有四个完全连接的层，每层中的神经元数量为[988，1024，512，5]。识别的场景包括机场、室内购物中心、地铁站、步行街、公共广场、中等交通水平的街道、公共汽车、城市公园八个场景。实验结果如表1所示，本发明的基于网络模型融合的声场景分类方法的平均准确率可达到95.1％。该方法效果最好是机场场景，可以达到99％。

表1

模型	GMM	SVM	KNN	DNN	模型融合法
						平均识别率	0.842	0.879	0.808	0.882	0.962

此外，为了验证算法的鲁棒性，实验对比了添加白噪声情况下的场景识别情况。以添加10dB的白噪声为例，实验对比了结合基于维纳滤波的声音降噪算法的识别算法和提出的模型融合法，结果如表2所示。相比于结合声音降噪算法的识别算法来说，模型融合法的平均识别率下降最少，表明提出的算法比采用较传统声音降噪策略来提升前端音频采集质量的方法更有效，对环境的适应性更强。

表2

模型	GMM	SVM	KNN	DNN	模型融合法
						平均识别率	0.682	0.779	0.758	0.802	0.901

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于网络模型融合的声场景分类方法，其特征在于，包括以下步骤：

步骤A、对采集到的声场景数据进行预处理,获得音频数据样本；

步骤B、对步骤A中的预处理后的音频数据样本,采用声道分离方式和音频切割方式分成N组音频数据，并对各组数据提取对应的伽马通滤波器倒谱系数和梅尔频谱特征，并计算梅尔频谱特征一阶及二阶差分特征，构造成N组不同的输入特征；

其中，CNN模型包括单通道CNN模型与双通道CNN模型，CNN模型的每个通道均包括卷积层、批量化归一层、全连接层和输出层；双通道CNN模型的两个通道的卷积层输出的特征图一维化处理，然后拼接在一起输入自身的全连接层；单通道CNN模型与双通道CNN模型一一对应，相对应的两个CNN模型的每个通道的卷积层、全连接层的结构一致；

2.根据权利要求1所述的基于网络模型融合的声场景分类方法，其特征在于：所述步骤C中采用六种CNN模型，分别记为模型1、模型2、模型3、模型4、模型5和模型6，模型1、模型2和模型3均为单通道CNN模型，模型4、模型5和模型6均为双通道CNN网络模型。

3.根据权利要求2所述的基于网络模型融合的声场景分类方法，其特征在于：所述模型1、模型2、模型3、模型4、模型5和模型6中的每个通道均包括卷积层、批量化归一层、全连接层和输出层；将所述模型4、模型5和模型6三个模型自身具备的两个通道的卷积层输出的特征图一维化处理，然后拼接在一起输入自身的全连接层；模型1与模型4、模型2与模型5、模型3与模型6对应，相对应的两个模型的每个通道的卷积层、全连接层的结构一致。

4.根据权利要求3所述的基于网络模型融合的声场景分类方法，其特征在于：所述卷积层包含三段卷积块，每段卷积块之后紧接着最大池化层，每段卷积块包含两层卷积层，每层卷积层后连接ReLU激活函数，全连接层共两层，输出层为Softmax层，输出每个类别的预测概率，各模型的代价函数采用交叉熵损失函数。

5.根据权利要求1所述的基于网络模型融合的声场景分类方法，其特征在于：所述步骤B中，声道分离方式包括不分离方法、谐波源和冲击源分离方法，不分离方法采用原始音频数据伽马通滤波器倒谱系数、提取梅尔频谱及其一阶二阶差分特征作为输入特征；谐波源和冲击源分离方法将语音信号分离为谐波分量与冲击源分量，然后再分别提取伽马通滤波器倒谱系数、梅尔频谱及其一阶二阶差分特征作为输入特征。

6.根据权利要求5所述的基于网络模型融合的声场景分类方法，其特征在于：所述谐波源和冲击源分离方法是通过使最大后验估计准则估计的目标函数J(H，P)达到最大值，将语音信号分离为谐波分量H与冲击源分量P，

J(H，P)＝logp(W|H，P)+logp(H)+logp(P)+C (1)

7.根据权利要求1所述的基于网络模型融合的声场景分类方法，其特征在于：所述步骤B中，音频切割方法包括非切割、重叠切割和非重叠切割，所采用音频数据时长为3秒；不切割方法使用原始音频提取伽马通滤波器倒谱系数、梅尔谱及其差分特征；不重叠切割将音频按1秒划分为四个片段，分别提取特征后堆叠获得四通道特征作为输入特征；重叠切割将语音按照2秒划分，重叠部分为1秒，分别提取特征后堆叠获得双通道特征作为输入特征。

8.根据权利要求2所述的基于网络模型融合的声场景分类方法，其特征在于：声道分离方式包括不分离方法、谐波源和冲击源分离方法，音频切割方法包括非切割、重叠切割和非重叠切割，所述步骤C中，以不分离方法获得、然后以非切割、重叠切割、非重叠切割方法提取的三组特征分别作为模型1、模型2和模型3的输入特征；以谐波源和冲击源分离方法获得、然后以非切割、重叠切割、非重叠切割方法提取的三组双通道特征分别作为模型4、模型5和模型6的输入特征。

9.根据权利要求1所述的基于网络模型融合的声场景分类方法，其特征在于：所述步骤A中，预处理包括对音频数据进行分帧和计算FFT，帧长为50ms，帧移20ms，FFT点数为2048。

10.根据权利要求1所述的基于网络模型融合的声场景分类方法，其特征在于：所述步骤B中，梅尔频谱特征采用具有若干个子带滤波器的梅尔滤波器组计算获得，伽马通滤波器倒谱系数采用具有若干个伽马通滤波器组计算获得。