CN110046655B

CN110046655B - 一种基于集成学习的音频场景识别方法

Info

Publication number: CN110046655B
Application number: CN201910235050.0A
Authority: CN
Inventors: 张涛; 刘赣俊
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-03-26
Filing date: 2019-03-26
Publication date: 2023-03-31
Anticipated expiration: 2039-03-26
Also published as: CN110046655A

Abstract

一种基于集成学习的音频场景识别方法，包括：将单声道音频信号、左右声道音频信号、中央边侧声道音频信号分别作为三组训练集；对三组训练集分别进行音频特征提取，分别用于训练三个分类器网路；将训练集的音频特征作为分类器网络的输入，训练分类器网络，在已有的测试集中根据分类器网络的输出结果识别音频场景；将三个分类器网络进行集成学习，根据集成学习后的输出去识别音频场景。本发明相比于单个分类器网络的准确率，平均提升了9.3％。很好的解决了单个分类器网络的学习能力和泛化能力不足的问题，可以对整个数据集中的复杂音频进行全面的建模。能够得到高性能的音频场景识别系统。

Description

一种基于集成学习的音频场景识别方法

技术领域

本发明涉及一种音频场景识别方法。特别是涉及一种用于多个音频场景识别子模型集成学习的基于集成学习的音频场景识别方法。

背景技术

目前，用于音频场景识别通常采用如下方法。

1、音频场景识别描述

音频场景识别的数据是在现实环境中直接采集的，就必然存在重叠声音的存在。人类生活在一个复杂的音频环境中，在忽略或简单地承认其他声音来源的同时，能够很好地遵循特定的声源。例如，我们可以在一个由其他人谈话或音乐组成的繁忙的背景下进行谈话。音频场景识别自动分类的性能在这一任务中受到了很大的限制。声混合信号包含多个同时发生的声音事件，机器听觉系统在识别这些声音事件方面还远远没有达到人类的水平。单个的声音事件可以用来描述一个音频场景：它们可以以一种象征性的方式来代表一个繁忙街道上的场景，汽车经过，汽车喇叭和人们匆忙的脚步。

音频场景识别与分类的目的是对声音信号进行处理，将其转化为现场出现的相应声音事件的符号描述，用于自动标注、自动声音分析或音频分割等应用。以往与音频场景识别相关的研究都是考虑带有显式标注的重叠事件的音频场景，但是检测结果是以序列的形式呈现的，假设每次只包含最显著的事件。在这方面，系统每次只能找到一个场景，如果检测到的场景包含在注释中，则评估会认为输出是正确的。在多源环境中，这种系统的性能非常有限。

2、卷积神经网络工作原理

卷积神经网络(Convolutional Neural Network，CNN)是一种深度的监督学习下的机器学习模型，具有极强的适应性，善于挖掘数据局部特征，提取全局训练特征和分类，它的权值共享结构网络使之更类似于生物神经网络，一定程度上减轻了DNN的参数数量膨胀问题。相比于常规的深度学习方法，CNN不仅可以处理高维数据，具有捕获局部特性的特点，还可以捕获经常性的局部结特性。在处理复杂且存在重叠的日常音频信号时，具有明显的有效性和优势性。

对于CNN来说，不是所有的上下层神经元都能直接相连，而需要通过“卷积核”作为中介。同一个卷积核在多有图像内是共享的，图像通过卷积操作仍能保留原先的位置关系。

CNN卷积神经网络包括输入层、卷积层、池化层、全接连层、输出层。卷积神经网络是一个多层的神经网络，每层由多个二维平面组成，而每个平面由多个独立神经元组成。其输出层节点数一般等于分类类别数，即采用独热编码方式对标签进行编码。

发明内容

本发明所要解决的技术问题是，提供一种训练集准确率高、适用多种音频场景基于集成学习的音频场景识别方法。

本发明所采用的技术方案是：一种基于集成学习的音频场景识别方法，包括如下步骤：

1)将单声道音频信号、左右声道音频信号、中央边侧声道音频信号分别作为三组训练集；

2)对三组训练集分别进行音频特征提取，分别用于训练三个分类器网路；

3)将训练集的音频特征作为分类器网络的输入，训练分类器网络，在已有的测试集中根据分类器网络的输出结果识别音频场景；

4)将三个分类器网络进行集成学习，根据集成学习后的输出去识别音频场景。

步骤1)中所述的单声道音频信号和中央边侧声道音频信号的获取是：

由左右声道音频信号生成单声道音频信号：

其中，Mono表示单声道音频信号，L表示左声道音频信号，R表示右声道音频信号；

由左右声道音频信号生成中央边侧声道音频信号：Mid＝L+R，Sid＝L-R，其中Mid表示中央声道音频信号，Sid表示边侧声道音频信号。

步骤2)所述的特征提取包括：

(1)对音频信号进行下采样，将不同采样频率的音频数据统一转化为44.1kHz；

(2)分帧加窗处理：设定短时傅里叶变换的帧长为N ms，帧移大小为N/2ms，使用M个mel滤波器得到mel谱图，该谱图为提取的音频特征。

步骤3)包括：

(1)将提取的训练集的音频特征和对应的类标签组成一组输入-输出对；

(2)使用分类器网络学习音频特征与对应的类标签之间的映射；

(3)在测试阶段，使用训练获得的分类器网络对已有测试集的音频进行识别，分类器网络的估计输出

期望有两种情况，一种是，当估计输出中不存在与音频特征与相对应的类标签时，

接近于0；另一种是，当估计输出中存在与音频特征与相对应的类标签时，

接近于1。

步骤4)包括：

(1)设计加权模型：

其中，x是输入数据，w_i为第i个分类器网络的权重，满足：

h_i(x)第i个分类器网络的预测标签，N为分类器网络的个数；

(2)分别计算每个分类器的权重w_i

假设p_i(x)表示第i个分类器网络的预测概率，总共有N个分类器网络，每个分类器网络的预测误差为：

其中，H为集成学习的输出标签；

令第i个分类器网络与第j个分类器网络之间的协方差C_ij为：

C_ij＝∫(h_i(x)-f(x))(h_j(x)-f(x))p(x)dx (3)

则协方差C_ij优化目标表示为：

使用拉格朗日乘子法，求得第i个分类器网络的权重w_i

(3)集成计算

H(x)表示对应输入音频信号的输出类标签，即音频场景。

本发明的一种基于集成学习的音频场景识别方法，采用集成学习法对所有单个分类器网络分类结果进行集成学习，设置最佳的权重参数，获得较好的分类性能，相比于单个分类器网络的准确率，平均提升了9.3％。很好的解决了单个分类器网络的学习能力和泛化能力不足的问题，可以对整个数据集中的复杂音频进行全面的建模。因此，基于集成学习的音频场景识别方法能够得到高性能的音频场景识别系统。

附图说明

图1是本发明一种基于集成学习的音频场景识别方法的系统框架示意图；

图2a是本发明中单通道分类器网络的结构框图；

图2b是本发明中双通道分类器网络的结构框图。

具体实施方式

下面结合实施例和附图对本发明的一种基于集成学习的音频场景识别方法做出详细说明。

如图1所示，本发明的一种基于集成学习的音频场景识别方法，包括如下步骤：

所述的单声道音频信号和中央边侧声道音频信号的获取是：

由左右声道音频信号生成单声道音频信号：

2)对三组训练集分别进行音频特征提取，分别用于训练三个分类器网路，如图2a和图2b所示，其中，图2a用于单声道音频信号的训练，图2b用于左右声道音频信号和中央边侧声道音频信号的训练；

所述的特征提取包括：

3)将训练集的音频特征作为分类器网络的输入，训练分类器网络，在已有的测试集中根据分类器网络的输出结果识别音频场景；包括：

接近于1。

4)将三个分类器网络进行集成学习，根据集成学习后的输出去识别音频场景。包括：

(1)设计加权模型：

其中，x是输入数据，w_i为第i个分类器网络的权重，满足：

h_i(x)第i个分类器网络的预测标签，N为分类器网络的个数；

(2)分别计算每个分类器的权重w_i

其中，H为集成学习的输出标签；

令第i个分类器网络与第j个分类器网络之间的协方差C_ij为：

C_ij＝∫(h_i(x)-f(x))(h_j(x)-f(x))p(x)dx (3)

则协方差C_ij优化目标表示为：

使用拉格朗日乘子法，求得第i个分类器网络的权重w_i

(3)集成计算

H(x)表示对应输入音频信号的输出类标签，即音频场景。

从表1 Mono+CNN方法、LR+CNN方法、MS+CNN方法和本发明的基于集成学习的方法的对比中可以看出基于集成学习的音频场景识别方法，分类准确率达到了72.7％，相比于单个分类器网络的准确率，平均提升了9.3％。很好的解决了单个分类器网络的学习能力和泛化能力不足的问题，可以对整个数据集中的复杂音频进行全面的建模。因此，基于集成学习的音频场景识别方法能够得到高性能的音频场景识别系统。

表1音频场景识别系统准确率

下面给出具体实例：

所述的单声道音频信号和中央边侧声道音频信号的获取是：

由左右声道音频信号生成单声道音频信号：

所述的特征提取包括：

(2)分帧加窗处理：设定短时傅里叶变换的帧长为46ms，帧移大小为23ms，使用128个mel滤波器得到mel谱图，该谱图为提取的音频特征。

接近于1。

(1)设计加权模型：

其中，x是输入数据，w_i为第i个分类器网络的权重，满足：

h_i(x)第i个分类器网络的预测标签，N为分类器网络的个数；

(2)分别计算每个分类器的权重w_i

其中，H为集成学习的输出标签；

令第i个分类器网络与第j个分类器网络之间的协方差C_ij为：

C_ij＝∫(h_i(x)-f(x))(h_j(x)-f(x))p(x)dx (3)

则协方差C_ij优化目标表示为：

使用拉格朗日乘子法，求得第i个分类器网络的权重w_i

经过计算可以得到，单声道分类器网络、左右声道分类器网络、中央边侧声道分类器网络的权重分别为：21、36、33；

(3)集成计算

H(x)表示对应输入音频信号的输出类标签，即音频场景。