CN110931045A

CN110931045A - 基于卷积神经网络的音频特征生成方法

Info

Publication number: CN110931045A
Application number: CN201911322936.5A
Authority: CN
Inventors: 杨利平; 陶廉洁; 郝峻永; 侯振威; 彭望
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2020-03-27

Abstract

本发明是一种基于卷积神经网络的音频特征生成方法，首先对声音信号进行预处理和离散傅里叶变换计算声音信号的幅度谱，形成二维谱图信号；然后搭建以上述二维谱图信号为输入的一维卷积神经网络并进行模型训练；最后对待测声音进行预处理和离散傅里叶变换得到二维谱图信号，并将其送入训练好的一维卷积神经网络，通过卷积网络计算，得到输出即为所要生成的音频特征，从而实现声音信号的音频特征生成。本发明相比手工特征提取方法能够减少存储开销，且在有神经网络优化的硬件平台实现最大化加速，为实时系统提供了较好的解决方案。

Description

基于卷积神经网络的音频特征生成方法

技术领域

本发明涉及声音信号处理技术，具体涉及音频特征生成方法。

背景技术

近些年来，音频信号处理技术在实用化方面取得了许多实质性的研究进展，如在语音识别领域，常用的语音助手、语音检索和语音输入法等技术等都极大的丰富了我们的日常生活。在音频场景识别领域，智能驾驶通过音频分析周围环境，做出相应辅助决策，降噪耳机通过采集周边声学信息，判断所处场景并产生降噪曲线，从而进行主动降噪。在语音合成领域，有限词汇的语音合成已在自动报时、报警、电话查询服务、发音玩具等方面取得了广泛的应用。上述无论语音识别、语音合成还是音频场景识别都离不开声音信号的特征提取，通过特征提取可以过滤音频信号中无用的冗余信息，可以说音频信号的特征提取技术是音频信号处理的基础。

起初，人们发现利用语音信号的时域特征可以从语音波形中提取出某些反应语音特性的参数，比如短时过零率、短时幅度、短时帧平均能量和短时自相关系数等。随着语音和音频技术的不断发展，时域特征参数的种种不足逐渐暴露出来，如这些特征参数缺乏较好的稳定性且区分能力不足。于是，频域参数开始作为语音信号的特征，如频谱共振峰、梅尔频率倒谱系数等。目前这些频域特征广泛应用在语音识别、语音合成以及音频场景识别等任务中，但是这些手工特征的提取方式有以下缺点：(1)在目前广泛使用的深度学习系统中，首先往往需要提取语音信号特征进行保存，然后使用保存的语音特征进行卷积神经网络的训练，这需要花费大量的存储空间存储语音特征(2)计算特征过程比较耗时，不适合实时性要求较高的系统。

发明内容

为了解决上述问题，本发明从深度学习技术方向出发，提出一种基于卷积神经网络的音频特征生成方法，该方法相比手工特征提取方法能够减少存储开销，且在有神经网络优化的硬件平台实现最大化加速，有较好的实时性。

本发明的技术方案如下：

一种基于卷积神经网络的音频特征生成方法，首先对声音信号进行预处理和离散傅里叶变换计算声音信号的幅度谱，形成二维谱图信号；然后搭建以上述二维谱图信号为输入的一维卷积神经网络并进行模型训练，得到特征生成器模型；最后对待测声音进行预处理和离散傅里叶变换得到二维谱图信号，并将其送入训练好的一维卷积神经网络，通过卷积网络计算，得到输出即为所要生成的音频特征，实现声音信号的音频特征生成。

本发明方案中，二维谱图信号的计算方法为：首先将声音信号进行分帧和加窗的预处理，获得声音信号的若干帧；然后对每帧声音信号进行离散傅里叶变换，并求其模值得到该帧信号的幅度谱向量；最后将声音信号所有帧的幅度谱向量按时间顺序进行堆叠，形成一个描述帧数和幅度谱向量的二维谱图信号。

本发明方案中，一维卷积神经网络的搭建主要为堆叠一维卷积层、池化层、批归一化层和激活层等，生成不同的特征需要使用不同大小的卷积核和池化核。

本发明方案中，一维卷积神经网络的参数确定过程为：使用手工特征提取方式计算声音信号特征，如局部二值模式、梯度直方图、对数梅尔谱图特征等，并将提取的特征作为声音信号标签。将上述二维谱图信号送入搭建的卷积神经网络，经隐藏层逐层传递至输出层，计算输出层的实际输出与标签的误差，经过反复迭代和梯度更新调整各网络层参数。反复上述操作，直到一维卷积神经网络的输出和标签的均方误差最小，其公式如下：

其中x表示神经网络的输出，y表示声音信号标签，N表示标签的元素个数。

本发明方案中，生成声音信号的音频特征的过程为：首先选取待测声音信号并将训练过程中均方误差最小的模型作为特征生成器模型；然后计算待测声音的二维谱图信号；最后将二维谱图信号输入上述特征生成器模型，输出即为待测声音信号的音频特征。

本发明方法的优点在于：

1、使用卷积神经网络进行声音信号的特征提取，在基于深度学习的音频信号处理中，可以使用端到端的学习方式进行音频信号的处理，减少特征的存储开销。

2、随着人工智能行业的大力发展，越来越多的硬件平台支持神经网络的加速优化，这样就缩短了音频信号特征提取时间，为实时系统提供了很好的解决方案。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图做简单的介绍。

图1本发明方案的整体框图；

图2一维卷积神经网络的结构框图；

图3实施例生成的谱图特征。

具体实施方式

下面将结合本实施例和附图，对本发明的技术方案进行清楚、完整的描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。

实施例

本实施例为对声音场景信号进行对数梅尔谱图特征的提取，结合图1，其具体步骤如下：

S1：通过手机或录音设备采集场景声音信号若干，并进行相应的切分。本发明使用的声音信号采样率为16kHz，采样位数为16bit，并切分为每段10s的声音片段。

S2：对切分的每一段声音片段进行分帧和加窗。对第n帧声音片段x_n(m)进行离散傅里叶变换，然后求其模值得到该帧信号的幅度谱向量。将声音信号的每一帧幅度谱向量按时间顺序进行堆叠，形成一个描述帧数和幅度谱向量的二维谱图信号。上述过程使用汉明窗，帧长为1024，帧重叠为512，最终每一段10s声音片段划分为312帧。

S3：切分的每段声音信号通过手工特征提取方式提取声音信号的对数梅尔谱图特征，其中梅尔滤波器组的个数为64。统计对数梅尔谱图特征的最大值和最小值向量，对其进行最大值最小值归一化处理，并将其作为声音信号的特征标签。

S4：将采集的声音信号及其对数梅尔谱图特征配对，形成训练数据集，用于一维卷积神经网络的训练。

S5：搭建卷积神经网络，如图2所示，第一层包括一个卷积核大小为3，通道数为126，步长为1的一维深度可分离卷积层、批归一化层和Relu激活层。第二层包括一个卷积核大小为3，通道数为64，步长为1的一维深度可分离卷积层、批归一化层和Tanh激活层。

S6：一维卷积神经网络的参数更新过程使用Adam优化器和均方差损失函数，初始学习率为0.001，迭代100回合，每隔20回合，学习率变为原来的0.1倍。需要注意，一维卷积网络训练过程中预处理和傅里叶变换的参数保持不变。绘制损失函数值随训练次数变化的曲线，训练完毕后寻找损失最小的模型作为特征生成器模型，从而得到一维卷积神经网络的模型参数。

S7：输入待生成特征的声音片段，首先对该声音片段进行预处理和离散傅里叶变换，得到该声音片段的二维谱图信号；然后将该二维谱图信号送入S6中的特征生成器模型，经过神经网络的推理计算，输出即为所求的音频特征。

我们使用三段时长为10s的声音片段进行测试，如图3所示，(a1)、(a2)、(a3)分别为上述三段声音信号使用手工特征提取方式提取的对数梅尔谱图特征；(b1)、(b2)、(b3)分别为上述三段声音信号使用卷积神经网络提取的谱图特征。从图中可以看出，使用卷积神经网络提取的对数梅尔谱特征和手工方式提取的谱图特征几乎没有差别，因此可以使用卷积神经网络提取的谱图特征代替手工特征进行基于深度学习的声音信号处理研究。

本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，也可根据说明书所述方法，通过修改声音信号的特征标签提取局部二值模式、梯度直方图等音频特征。

Claims

1.一种基于卷积神经网络的音频特征生成方法，其特征在于：首先对声音信号进行预处理和离散傅里叶变换，计算声音信号的幅度谱，形成二维谱图信号；然后搭建以所述二维谱图信号为输入的一维卷积神经网络并进行模型训练，得到特征生成器模型；最后对待测声音信号进行预处理和离散傅里叶变换得到二维谱图信号，并将其送入训练好的一维卷积神经网络即特征生成器模型，通过卷积网络计算，得到输出即为所要生成的音频特征，实现声音信号的音频特征生成。

2.如权利要求1所述基于卷积神经网络的音频特征生成方法，其特征在于，所述二维谱图信号的计算方法为：首先将声音信号进行分帧和加窗的预处理，获得声音信号的若干帧；然后对每帧声音信号进行离散傅里叶变换，并求其模值得到该帧信号的幅度谱向量；最后将声音信号所有帧的幅度谱向量按时间顺序进行堆叠，形成一个描述帧数和幅度谱向量的二维谱图信号。

3.如权利要求1或2所述基于卷积神经网络的音频特征生成方法，其特征在于，所述一维卷积神经网络包括一维卷积层、池化层、批归一化层和激活层。

4.如权利要求3所述基于卷积神经网络的音频特征生成方法，其特征在于，所述一维卷积神经网络的参数确定过程为：使用手工特征提取方式计算声音信号特征，并将其作为声音信号的标签，然后通过梯度更新和迭代训练，使得卷积神经网络输出与标签的均方误差最小，公式如下所示：

5.如权利要求1或2所述基于卷积神经网络的音频特征生成方法，其特征在于，所述生成特征的过程为：首先选取待测声音信号并将训练过程中均方误差最小的模型作为特征生成器模型；然后计算待测声音的二维谱图信号；最后将二维谱图信号输入上述特征生成器模型，输出即为所需声音信号的音频特征。

6.如权利要求5所述基于卷积神经网络的音频特征生成方法，其特征在于，所述声音信号的音频特征包括但不限于对数梅尔谱图、局部二值模式、梯度直方图等特征。