CN108922560A

CN108922560A - 一种基于混合深度神经网络模型的城市噪声识别方法

Info

Publication number: CN108922560A
Application number: CN201810409511.7A
Authority: CN
Inventors: 曹九稳; 沈叶新; 王建中
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2018-05-02
Filing date: 2018-05-02
Publication date: 2018-11-30
Anticipated expiration: 2038-05-02
Also published as: CN108922560B

Abstract

本发明公开了一种基于混合深度神经网络模型的城市噪声识别方法。本发明包括如下步骤：步骤1.采集城市噪声，建立声音样本库；步骤2.将声音样本库中的声音信号转换成语谱图；步骤3.将得到的语谱图进行裁剪，然后使用多个预训练好的深度神经网络模型分别进行特征提取；步骤4.将多个模型提取的特征进行拼接；步骤5.将拼接后得到的融合特征作为最后分类器的输入，进行预测模型训练；步骤6.对于未知的声音，首先将其转换成语谱图，使用上述的多个预训练好的深度神经网络模型进行特征提取，提取的特征进行拼接，然后使用训练好的预测模型进行预测，得到最终的声音类型。本发明不需要大量的数据集，且运算速度更快，所需资源更少。

Description

一种基于混合深度神经网络模型的城市噪声识别方法

技术领域

本发明属于机器学习与智能声音信号处理领域，涉及一种基于混合深度神经网络模型的城市噪声识别方法。

背景技术

随着我国经济社会的快速发展，城市化建设进程的不断加快，建筑施工、交通运输、社会生活等活动会产生大量的噪声。城市噪声识别在城市管理和安全运行中起着至关重要的作用，特别是在建设智慧城市工程中。城市噪声的分析和测量在全球引起了广泛的关注和研究，严重的城市噪声会对周围居住居民产生严重的影响。同时，城市噪声识别在城市安全检测中也有很多潜在的应用，有效的特征表示和分类算法是城市噪声识别的关键。当前城市噪声识别研究大都是基于传统声学特征提取方法结合识别算法进行的。然而城市噪声复杂多样，传统的声学特征提取方法并不能完全的对城市噪声信号进行充分的表示，此外传统的分类算法往往由于其浅层结构，缺乏对信号的表征能力。目前流行的深度学习方法，由于其对信号的强大的表示能力。在特征提取阶段更少的人工干预，以及良好的识别性能，因此将其应用于城市噪声识别具有非常好的前景。但是，深度学习方法需要以百万计的城市噪声数据来作为支撑，而获取如此庞大的数据是一个非常损耗时间的过程。同时，深度学习方法在大数据处理过程中，面临着模型训练复杂度高等问题。

发明内容

针对传统的识别方法以及目前流行的深度学习方法中存在的问题，本发明提出了一种基于混合深度神经网络模型的城市噪声识别方法。其主要思想是，将多个深度学习方法在大型图像库上训练得到的模型，将它们的特征表示层抽取出来对城市噪声进行特征提取，将得到的不同的模型提取的特征进行融合，输入给最终分类器进行分类训练。本发明的优势在于模型训练速度快、准确率高。本发明具体采用了三种深度神经网络在大型数据库ImageNet上训练得到的模型，分别是inpection_v3、resnet152、inception_resnet_v2。Inception_v3是改进版的GoogLeNet，它具有很强的图像分类能力，在数据表征能力及计算量等方面都体现出优势。Resnet模型引入了一种称为残差的学习单元，用来减轻深度神经网络的退化问题，它能够在不断增加模型复杂度的情况下产生更好的分类精度。共有152层的深度残差网络resnet_152在图像分类目标检测和语义分割都取得了很好的成绩。Inception_resnet_v2借鉴了resnet的残差网络，将其应用到了inception_v3当中,因此它不仅能避免神经网络中随着层数增加而造成的退化问题，还能减少训练时间。相比于单个深度神经网络模型进行特征提取并训练得到的识别率，本发明采用这三种深度神经网络对声信号语谱图进行特征融合并训练的识别率具有很大的提升。为了更详细的阐述本发明，这里采用实测的11类城市噪声为例来进行说明，但本算法的实际使用不局限于这11类城市噪声。

本发明的技术方案主要包括如下步骤：

步骤1.采集城市噪声，建立声音样本库；

步骤2.将声音样本库中的声音信号转换成语谱图；

步骤3.将得到的语谱图进行裁剪，然后使用多个预训练好的深度神经网络模型分别进行特征提取；

步骤4.将多个模型提取的特征进行拼接；

步骤5.将拼接后得到的融合特征作为最后分类器的输入，进行预测模型训练；

步骤6.对于未知的声音，首先将其转换成语谱图，使用上述的多个预训练好的深度神经网络模型进行特征提取，提取的特征进行拼接，然后使用训练好的预测模型进行预测，得到最终的声音类型。

所述步骤2的具体实现包括以下：

设采集到的声音信号为x(n)，采样频率为f_s。首先对声音信号进行分帧加窗，然后将各帧信号进行傅里叶变换，将变换后的连续n帧信号进行拼接，最后得到语谱图。

所述步骤5中的分类器，可以采用多种经典的分类器算法，如：

支持向量机，超限学习机，基于反向传播算法的BP神经网络等。

本发明有益效果如下：

本发明使用多个在大型图像数据库上训练后的深度神经网络模型，对转换后的城市噪声信号语谱图进行特征提取，将提取的特征进行融合作为新的特征，将其使用分类器算法进行分类学习。相比于使用传统声学特征或单个深度神经网络模型提取的特征进行识别训练，其正确率有了大幅提升。另外，由于本发明是通过已有的深度神经网络来获得语谱图的特征，相比于直接使用深度神经网络算法来进行识别训练，本发明不需要大量的数据集，且运算速度更快，所需资源更少。

附图说明

图1为本发明所采用的模型基础结构图；

图2(a)为汽车报警声的语谱图；

图2(b)为切割机噪声的语谱图；

图2(c)为发动机噪声的语谱图；

图2(d)为音乐声的语谱图；

图2(e)为风声的语谱图；

图3(a)为inception_v3模型基础结构图；

图3(b)为resnet152模型基础结构图；

图3(c)为inception_resnet_v2模型基础结构图；

图4为本发明具体采用的模型结构图；

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

如图2-图4所示，本发明是通过对声信号语谱图的差异，采用三种在大型图像库ImageNet上训练好的深度神经网络对声信号语谱图进行特征提取，提出了一种基于混合深度神经网络的城市噪声识别方法。

本发明首先对11类声音信号进行预判，然后将这11类声音信号转换成如图2(a)-图2(e)所显示的声信号语谱图图像。然后将语谱图分别输入到如图3(a)-图3(c)所示的深度神经网络中进行特征提取。然后如图4所示进行特征融合和分类识别。

本发明具体实现包括如下步骤：

训练阶段：

步骤1.采集城市噪声，建立声音样本库；

步骤2.将声音样本库中的声音信号转换成语谱图；

步骤3.将转换完成的语谱图分别使用inception_v3,resnet152,inception_resnet_v2这三种预训练好的深度神经网络模型进行特征提取；

步骤4.将经过步骤3中3种深度神经网络模型提取的特征进行拼接；

步骤5.将拼接后的特征，作为分类器的输入，进行预测模型训练；

测试阶段：对于一个未知的声音信号

步骤1.将声音信号转换成语谱图；

步骤2.如上述训练阶段步骤3、4进行特征提取与拼接；

步骤3.使用预测模型进行分类预测。

所述训练阶段步骤2的具体实现包括以下：

设声音信号为x(n)，采样频率为f_s。首先对声音信号进行分帧加窗，其帧长为wlen，帧移为inc，窗函数为汉明窗。将各帧信号进行傅里叶变换。我们将变换后的连续n帧信号进行拼接，得到语谱图。

所述训练阶段步骤3的具体实现包括以下：

读取语谱图，由于这三种深度神经网络对语谱图的尺寸有各自的要求，因此首先对语谱图进行裁剪，把裁剪后的图片分别输入到三种预处理模型中，得到各个模型下的特征向量。这里采用三种深度神经网络来对声信号语谱图进行特征提取。

在inception_v3模型中，需要将图片调整为299×299×3，然后使用该模型进行特征提取得到2048维特征向量；

在resnet152模型中，需要将图片调整为224×224×3，然后使用该模型进行特征提取得到2048维特征向量；

在inception_resnet_v2模型中，需要将图片调整为299×299×3，然后使用该模型进行特征提取得到1536维特征向量；

所述训练阶段步骤5的具体实现包括以下：

5.1我们在得到融合特征之后，把特征值输入全连接层，然后采用softmax函数进行分类。softmax的函数为：

其中，表示第L层(通常是最后一层)第_j个神经元的输入，表示第L层第j个神经元的输出，e表示自然常数。任意的输入值经过softmax函数后都会变成和为1的概率预测值。

5.2在神经网络反向传播中，要求一个损失函数，损失函数表示的是真实值与网络估计值的误差，然后去修改网络中的权重。损失函数可以有很多形式，这里用的是交叉熵函数，交叉熵能解决某些损失函数学习缓慢的问题。交叉熵函数是这样的：

这里，y_i表示期望输出，a_i表示神经元实际输出

对于训练集有y⁽ⁱ⁾∈{1,2,3,...,k}总共有k个分类。对于每个输入x都会有对应每个类的概率，即p(y＝j|x)，从向量角度来看，有，

其中是模型的参数。

我们将训练模型参数θ，使其能够最小化代价函数：

5.3由于每类的样本个数较少，我们采用4折交叉验证，把输入模型的数据随机的分成5组，其中一组做为测试集，其他四组依次取其中单独的一组样本留做验证集，剩余3组样本留做训练集，来进行模型的训练和验证。交叉验证重复4次，每组样本验证一次，以此来得到一个可靠稳定的模型。

5.4得到训练数据集之后，我们设置训练步数step以及每组训练个数batch。在训练数据集中随机抽取batch个样本的特征值进行分类训练。循环step得到最终训练模型，在训练的过程中，我们每100次用验证集对已训练的模型进行验证。

5.5为了平衡模型的训练速度和模型震荡，我们采用学习率指数衰减的方式来调整学习率。在模型训练开始时设置较大一点的学习率，随着训练的进行，不断的调小学习率。防止震荡的发生。学习率的更新方式如下：

adaptive_learining_rate＝learning_rate×decay_rate^{step/decay_step}。

Claims

1.一种基于混合深度神经网络模型的城市噪声识别方法，包括训练阶段和测试阶段，其特征在于，

训练阶段步骤如下：

步骤1.采集城市噪声，建立声音样本库；

步骤2.将声音样本库中的声音信号转换成语谱图；

测试阶段：

步骤1.将一个未知的声音信号转换成语谱图；

步骤2.如上述训练阶段步骤3、4进行特征提取与拼接；

步骤3.使用预测模型进行分类预测。

2.根据权利要求1所述的一种基于混合深度神经网络模型的城市噪声识别方法，其特征在于训练阶段步骤2的具体实现包括以下：

设声音信号为x(n)，采样频率为f_s；首先对声音信号进行分帧加窗，其帧长为wlen，帧移为inc，窗函数为汉明窗；将各帧信号进行傅里叶变换；将变换后的连续n帧信号进行拼接，得到语谱图。

3.根据权利要求2所述的一种基于混合深度神经网络模型的城市噪声识别方法，其特征在于训练阶段步骤3的具体实现包括以下：

读取语谱图，由于这三种深度神经网络对语谱图的尺寸有各自的要求，因此首先对语谱图进行裁剪，把裁剪后的图片分别输入到三种预处理模型中，得到各个模型下的特征向量；采用三种深度神经网络来对声信号语谱图进行特征提取；

在inception_resnet_v2模型中，需要将图片调整为299×299×3，然后使用该模型进行特征提取得到1536维特征向量。

4.根据权利要求3所述的一种基于混合深度神经网络模型的城市噪声识别方法，其特征在于所述训练阶段步骤5的具体实现包括以下：

5.1在得到融合特征之后，把特征值输入全连接层，然后采用softmax函数进行分类；softmax的函数为：

其中，表示第L层第j个神经元的输入，表示第L层第j个神经元的输出，e表示自然常数；任意的输入值经过softmax函数后都会变成和为1的概率预测值；

5.2在神经网络反向传播中，要求一个损失函数，损失函数表示的是真实值与网络估计值的误差，然后去修改网络中的权重；使用交叉熵能解决损失函数学习缓慢的问题；交叉熵函数如下：

其中，y_i表示期望输出，z表示神经元实际输出；

对于训练集{(x⁽¹⁾,y⁽¹⁾),...,(x^(m),y^(m))}，有y⁽ⁱ⁾∈{1,2,3,...,k}总共有k个分类；对于每个输入x都会有对应每个类的概率，即p(y＝j|x)，从向量角度来看，有，

其中，是模型的参数；

训练模型参数θ，使其能够最小化代价函数：

5.3采用4折交叉验证，把输入模型的数据随机的分成5组，其中一组做为测试集，其他四组依次取其中单独的一组样本留做验证集，剩余3组样本留做训练集，来进行模型的训练和验证；交叉验证重复4次，每组样本验证一次，以此来得到一个可靠稳定的模型；

5.4得到训练数据集之后，设置训练步数step以及每组训练个数batch；在训练数据集中随机抽取batch个样本的特征值进行分类训练；循环step得到最终训练模型，在训练的过程中，每100次用验证集对已训练的模型进行验证；

5.5为了平衡模型的训练速度和模型震荡，采用学习率指数衰减的方式来调整学习率；学习率的更新方式如下：

adaptive_learining_rate＝learning_rate×decay_rate^{step/decay_step}。