CN111354372A

CN111354372A - 一种基于前后端联合训练的音频场景分类方法及系统

Info

Publication number: CN111354372A
Application number: CN201811571542.9A
Authority: CN
Inventors: 张鹏远; 陈航艇; 颜永红
Original assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Priority date: 2018-12-21
Filing date: 2018-12-21
Publication date: 2020-06-30
Anticipated expiration: 2038-12-21
Also published as: CN111354372B

Abstract

本发明公开了一种基于前后端联合训练的音频场景分类方法及系统，所述方法包括：对待分类的数字声音信号进行处理得到幅度谱图，将幅度谱图输入基于前后端联合训练得到的深度学习神经网络，输出所述对待分类的数字声音信号的每一帧的预测概率，将每一帧的预测概率取对数后求平均，最大值对应的类别为音频场景分类结果。本发明的方法使用联合训练同时训练网络的前端滤波器部分和后端的深度卷积神经网络，从而使滤波器从人为的先验知识转化为当前任务限定，能够取得更高的分类准确率。

Description

一种基于前后端联合训练的音频场景分类方法及系统

技术领域

本发明涉及音频场景分类领域，特别涉及一种前后端联合训练的音频场景分类方法及系统。

背景技术

音频场景分类是指识别录制音频的特定场景，可以使穿戴式设备、智能机器人等拥有通过声音感知周围的环境的能力。

传统的音频场景分类系统大都分为前端和后端部分。前端使用人为设计的滤波器来提取音频特征，常见的滤波器有梅尔滤波器和小波滤波器等。但是，这些滤波器的设计并没有结合当前的任务信息，特别是滤波器的形状大都是一些简单的函数，如梅尔滤波器的三角函数和小波滤波器的高斯形状。后端使用深度卷积神经网络框架，根据导数的链式法则更新梯度，其输入为音频特征，输出为帧级预测系数。在传统的系统中，前端的设计几乎不依赖于任务数据，后端的训练与前端是割裂的。

发明内容

本发明的目的在于改进传统场景识别系统中前后端设计，将前端的滤波器组和后端的深度卷积网络依次嵌入到神经网络中，进行联合训练。

为了实现上述目的，本发明提供了一种基于前后端联合训练的音频场景分类方法，包括：

对待分类的数字声音信号进行处理得到幅度谱图，将幅度谱图输入基于前后端联合训练得到的深度学习神经网络，输出所述对待分类的数字声音信号的每一帧的预测概率，将每一帧的预测概率取对数后求平均，最大值对应的类别为音频场景分类结果。

作为上述方法的一种改进，所述深度学习神经网络的训练步骤包括：

步骤1)对训练样本集的所有数字声音信号进行预处理，然后将其转化为频谱；对频谱去除相位信息，得到数字声音信号的幅度谱图；

步骤2)构建用于场景分类的深度学习神经网络，包括网络前端和网络后端；

步骤3)将训练样本集的数字声音信号的幅度谱图作为输入，结合分类标签，通过反向传播算法，基于前后端联合训练对深度学习神经网络进行迭代直至收敛，得到训练好的深度学习神经网络。

作为上述方法的一种改进，所述步骤1)具体包括：

步骤1-1)对训练样本集的数字声音信号进行分帧和加窗；对每一帧数字声音信号补零到N点，N＝2ⁱ，i为正整数，且N大于等于每一帧的采样点数；

步骤1-2)对每一帧数字声音信号做快速傅里叶变换，得到频谱数据；

步骤1-3)去除频谱数据的相位信息，保留幅度信息，得到数字声音信号的幅度谱图S(t,f)：

S(t,f)＝|X(t,f)|

其中，X(t,f)为第t帧第f个频点的傅里叶变换系数。

作为上述方法的一种改进，所述网络前端为滤波器组，其输入为数字声音信号的幅度谱图S(t,f)，输出为特征C(t,k)：

其中，F_k(f)是第k个滤波器的权重系数，start(k)和end(k)是第k个滤波器的开始频率和截止频率。

作为上述方法的一种改进，所述网络后端依次包括一个批归一化层，四个卷积层，三个全连接层和一个分类层；每个卷积层依次包括卷积操作，批归一化和激活函数；其中，卷积操作使用的一维卷积核的大小为3，步长为1，输出信道个数为输入信道个数的两倍；

每个全连接层依次包括线性变换，批归一化，激活函数和Dropout；所述激活函数的表达式为：

g(x)＝max(0,x)

其中，x为函数变量；

所述分类层包括线性变换和SoftMax函数。

作为上述方法的一种改进，所述步骤3)进一步包括：

步骤3-1)设置网络前端的滤波器组的初始参数值，所述参数值包括：滤波器组的起始频率和截至频率，以及在此频率范围内的滤波器组权重值；

步骤3-2)固定步骤3-1)的网络前端，将训练样本集的数字声音信号的幅度图谱作为输入，结合分类标签，用第一学习率对网络后端进行训练，直到深度学习神经网络收敛；

所述网络收敛判断的目标损失函数loss为：

其中，

为网络后端的SoftMax函数的输出；y_m为训练样本的独热码，M为音频场景类别的总数；

步骤3-3)将网络前端解除固定，网络后端采用步骤3-2)收敛的深度学习神经网络的网络后端，将训练样本集的数字声音信号的幅度图谱作为输入，结合分类标签，用第二学习率对整个深度学习神经网络进行训练，直到深度学习神经网络收敛，得到训练好的深度学习神经网络。

作为上述方法的一种改进，所述第一学习率取值为10^-3；所述第二学习率取值为5×10^-6。

一种基于前后端联合训练的音频场景分类系统，包括存储器、处理器和存储在存储器上的并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求上述方法的步骤。

本发明的优点在于：

1、本发明的方法利用了人为设定的滤波器的先验知识来初始化网络的前端部分，一定程度上减小了网络训练的难度，使网络更容易收敛；

2、本发明提出用联合训练同时训练网络的前端滤波器部分和后端的深度卷积神经网络，从而使滤波器从人为的先验知识转化为当前任务限定，能够取得更高的分类准确率。

附图说明

图1是本发明的基于前后端联合训练的音频场景分类方法的流程图。

具体实施方式

现结合附图对本发明作进一步的描述。

一种基于前后端联合训练的音频场景分类方法，包括以下步骤：

步骤1)构建和训练用于场景分类的深度学习神经网络；如图1所示，具体包括：

步骤101)对训练数据集的音频信号进行预处理，然后将其转化为频谱。

对音频信号进行预处理包括：对音频分帧，加窗，窗函数为汉明窗。对每一帧的数字声音信号补零到N点，N＝2ⁱ，i为整数，且N大于等于每一帧的采样点数。对每一帧做快速傅里叶变换，得到频谱。

步骤102)基于步骤101)得到的频谱进行处理，去除相位信息，保留幅度信息。

所述去除频谱X的相位信息，保留幅度信息，

S(t,f)＝|X(t,f)|

其中X(t,f)为第t帧第f个频点的傅里叶变换系数，S为最后得到的幅度谱图。

步骤103)初始化滤波器组参数，记录下滤波器的起始频率和截至频率，以及在此频率范围内的滤波器组权值。

步骤104)基于步骤103)的滤波器组的频率范围，对神经网络的前端的滤波器初始化，初始值为预定义的滤波器系数，然后构建网络前端的计算图。

网络前端输出的计算，

其中计算图的输入为步骤102)得到的S(t,f)，输出为特征C(t,k)。F_k(f)是第k个滤波器的权重系数，start(k)和end(k)是第k个滤波器的开始频率和截止频率，这些参数根据步骤103)的滤波器组权值初始化。

步骤105)构建神经网络后端的计算图，架构为深度卷积神经网络；具体框架为：

网络后端的框架依次包括一个批归一化层，四个卷积层，三个全连接层和一个分类层。网络中使用的激活函数的是修正线性单元，其表达式为：

g(x)＝max(0,x)

每个卷积层依次包括卷积操作，批归一化和激活函数。其中卷积操作使用的一维卷积核的大小为3，步长为1，输出信道个数为输入信道个数的两倍。每个全连接层依次包括线性变换，批归一化，激活函数和Dropout。分类层使用线性变换和SoftMax函数，后者的表达式为：

其中m和n代表音频场景的类别，一共有M类，a代表经过线性变换后的输出，y代表网络预测的输出。

步骤106)基于步骤104)和步骤105)构建的网络，通过反向传播算法对网络进行迭代训练，网络输入为步骤102)的幅度谱，网络输出为每一帧的预测概率，期望为独热码。

目标损失函数为：

步骤106-1)固定网络的前端，用较大的学习率只对网络的后端进行训练，直到网络收敛；优选的，较大的学习率为10^-3；

步骤106-2)将网络的前端解除固定，用较小的学习率对整个网络进行训练，直到网络收敛。优选的，较小的学习率取值为5×10^-6。

步骤2)对待分类的音频信号进行预处理，然后将其转化为频谱；对得到的频谱进行处理，去除相位信息，保留幅度信息；将幅度谱图输入训练好的深度学习神经网络，输出所述对待分类的数字声音信号的每一帧的预测概率，将每一帧的预测概率取对数后求平均，最大值对应的类别为音频场景分类结果。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于前后端联合训练的音频场景分类方法，包括：

2.根据权利要求1所述的基于前后端联合训练的音频场景分类方法，其特征在于，所述深度学习神经网络的训练步骤包括：

3.根据权利要求2所述的基于前后端联合训练的音频场景分类方法，其特征在于，所述步骤1)具体包括：

S(t,f)＝|X(t,f)|

其中，X(t,f)为第t帧第f个频点的傅里叶变换系数。

4.根据权利要求3所述的基于前后端联合训练的音频场景分类方法，其特征在于，所述网络前端为滤波器组，其输入为数字声音信号的幅度谱图S(t,f)，输出为特征C(t,k)：

5.根据权利要求4所述的基于前后端联合训练的音频场景分类方法，其特征在于，所述网络后端依次包括一个批归一化层，四个卷积层，三个全连接层和一个分类层；每个卷积层依次包括卷积操作，批归一化和激活函数；其中，卷积操作使用的一维卷积核的大小为3，步长为1，输出信道个数为输入信道个数的两倍；

g(x)＝max(0,x)

其中，x为函数变量；

所述分类层包括线性变换和SoftMax函数。

6.根据权利要求5所述的基于前后端联合训练的音频场景分类方法，其特征在于，所述步骤3)进一步包括：

所述网络收敛判断的目标损失函数loss为：

其中，

7.根据权利要求6所述的基于前后端联合训练的音频场景分类方法，其特征在于，所述第一学习率取值为10^-3；所述第二学习率取值为5×10^-6。

8.一种基于前后端联合训练的音频场景分类系统，包括存储器、处理器和存储在存储器上的并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1～7之一所述方法的步骤。