CN109978034A

CN109978034A - 一种基于数据增强的声场景辨识方法

Info

Publication number: CN109978034A
Application number: CN201910201430.2A
Authority: CN
Inventors: 李艳雄; 张聿晗; 王武城; 刘名乐
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-03-18
Filing date: 2019-03-18
Publication date: 2019-07-05
Anticipated expiration: 2039-03-18
Also published as: CN109978034B

Abstract

本发明公开了一种基于数据增强的声场景辨识方法，包括下列步骤：首先采集并标注不同声场景的音频样本；然后预处理，对音频样本进行预加重、分帧和加窗处理；接着进行数据增强，提取各音频样本的谐波源和冲击源，得到更充足的音频样本，从音频样本及其谐波源和冲击源中提取对数梅尔滤波器组特征，再将上述三个特征堆叠成一个三通道的高维特征，接着采用混合增强技术构造更丰富的训练样本；最后将上述三通道高维特征输入到Xception网络进行判决，辨识出各音频样本所对应的声场景。本发明的数据增强方法可以有效提高Xception网络分类器的泛化能力，稳定网络的训练过程。在对声场景进行辨识时，本方法可取得更优的辨识效果。

Description

一种基于数据增强的声场景辨识方法

技术领域

本发明涉及音频信号处理和深度学习技术领域，具体涉及一种基于数据增强的声场景辨识方法。

背景技术

音频信号含有丰富的信息，并具有非接触性、自然性的优势。声场景则是音频信号在语义层面上的高级表示。声场景辨识的任务是将语义标签和音频流相关联，标识声音产生环境的类别。该技术能使智能设备根据声音感知周围环境，从而做出恰当的决策。目前音频数据海量增长，由于人工标注数据非常耗时耗力，因此有准确标签的音频样本非常少。没有标签的音频样本是不能直接用来训练分类器的。如何基于有限的有标签音频样本构造更加多样性的训练数据从而构建更具泛化能力的分类器，是目前声场景辨识任务需要解决的主要问题之一。目前主要采用人工标注的方式增加有标签数据的多样性，但人工标注成本非常高。另外，在不同的分类任务中需要重新标注数据样本，不具备通用性，使得人工标注的成本更加高。为了克服人工标注数据成本高、有标签训练数据不足的问题，目前亟待采用数据增强的方法，增加有限的有标签音频数据的多样性，从而提高对复杂分类器的适应性及其泛化能力。

发明内容

本发明的目的是为了解决现有技术中的上述缺陷，提供一种基于数据增强的声场景辨识方法，该方法对音频数据集进行数据增强处理，并将其相应堆叠后得到的三通道高维声学特征输入Xception网络分类器进行训练，训练完毕后对测试集数据进行测试，实现声场景辨识。

本发明的目的可以通过采取如下技术方案达到：

一种基于数据增强的声场景辨识方法，所述的声场景辨识方法包括：

S1、音频样本准备步骤，利用录音设备在不同声场景采集音频样本，并进行人工标注，然后将上述音频样本划分为训练集和测试集；

S2、预处理步骤，分别对训练集和测试集中音频样本进行预加重、分帧、加窗处理；

S3、数据增强步骤，分离各音频样本的谐波源和冲击源，再分别提取音频样本、谐波源、冲击源的对数梅尔滤波器组特征，再将上述三个对数梅尔滤波器组特征堆叠成一个三通道的高维特征，接着采用混合增强技术构造新的训练样本数据；

S4、声场景辨识步骤，将上述各音频样本的三通道高维特征输入已训练好的Xception网络，得到各音频样本的声场景类别。

进一步地，所述的S1、音频样本准备步骤过程如下：

S1.1、利用录音设备采集音频数据：在不同场景放置录音设备，记录相应场景的音频样本，其采样频率为16kHz，量化位数为16bit；

S1.2、划分数据集：将标注好的音频样本随机划分为不相交的训练集与测试集，其中训练集占比约为80％，测试集占比约为20％。

进一步地，所述的S2、预处理步骤过程如下：

S2.1、预加重：利用数字滤波器对输入音频进行滤波，该滤波器的传递函数为：

H(z)＝1-az^-1，

其中a为常数，取值为0.96；

S2.2、分帧：将预加重后的音频按照帧长40ms切分成音频帧，帧移为20ms；

S2.3、加窗：采用汉明窗作为窗函数，并与各音频帧相乘实现加窗处理，窗函数ω(n)采用汉明窗：

其中，N表示帧长，取值为400。

进一步地，所述的S3、数据增强步骤过程如下：

S3.1、对音频进行谐波源和冲击源分离，定义代价函数J(H,P)：

H_k,t+P_k,t＝W_k,t，

H_k,t≥0，P_k,t≥0，

其中，k和t分别表示频率和时间，σ_H与σ_P分别表示控制谐波源和冲击源平滑度的参数因子，H_k,t、P_k,t分别表示第t帧谐波源、冲击源的频谱，W_k,t表示第t帧音频的能量谱，H和P是H_k,t和P_k,t的集合；

令代价函数的偏导满足：

即可最小化J(H,P)，从而得到H_k,t和P_k,t，分别对H_k,t和P_k,t进行短时傅里叶逆变换，得到相应的谐波源h_t(n)与冲击源p_t(n)；

S3.2、提取对数梅尔滤波器组特征，过程如下：

S3.2.1、对第t帧音频信号x_t(n)进行离散傅立叶变换操作，得到其线性频谱X_t(k)：

S3.2.2、对上述线性频谱X_t(k)进行梅尔频率滤波器组滤波，获得其梅尔频谱，其中，梅尔频率滤波器组为若干个带通滤波器H_m(k)，M为滤波器的个数，每个滤波器具有三角形滤波特性，即其中心频率为f(m)，当m值较小时相邻f(m)的间隔较小，随着m的增加相邻f(m)的间隔逐渐变大，每个带通滤波器的传递函数为：

其中，f(m)定义如下：

其中，f_l、f_h分别表示滤波器的最低频率和最高频率，f_s表示采样频率，B^-1为B的逆函数：

B^-1(b)＝700(e^b/1125-1)，

故可得第t帧音频数据的对数梅尔滤波器组特征LF为：

LF＝ln[X_t(k)H_m(k)],0≤m＜M；

S3.3、构建三通道的高维特征，过程法如下：

S3.3.1、对第t帧音频信号的谐波源h_t(n)与冲击源p_t(n)进行对数梅尔滤波器组特征提取，提取对数梅尔滤波器组特征，分别得到相应的对数梅尔滤波器组特征LF_h与LF_p；

S3.3.2、将LF、LF_h与LF_p进行堆叠，得到三通道的高维特征：

S3.4、采用混合增强方法对训练数据进行数据增强。

进一步地，所述的步骤S3.4、采用混合增强方法对训练数据进行数据增强过程如下：

构建新的训练样本数据

其中，(v_i，y_i)与(v_j，y_j)是从原训练数据中随机抽取的两个索引为i和j的样本，y_i与y_j是训练样本的标签，表示新训练数据，表示相应的新数据标签，表示取整运算，参数λ服从贝塔分布：

λ∈[0，1]，

其中，α和β为形状参数，贝塔分布的均值为方差为取α＝β，u为积分变量。

进一步地，所述的S4、声场景辨识步骤如下：

S4.1、训练Xception网络分类器，网络训练的目标函数采用交叉熵损失函数：

其中，C为声场景类别的数目，为第c类声场景的标签，p_c为第c类声场景的输出概率，网络的训练以最小化损失函数为目标；

S4.2、输出辨识结果，训练并调试完毕Xception网络分类器后，对测试集样本进行S2-S3步骤处理，将其高维特征输入Xception网络，得到每一类声场景的输出概率，取输出概率最大的那类声场景作为该音频样本的判决结果。

本发明相对于现有技术具有如下的优点及效果：

1、本发明将Xception网络应用于声场景辨识，能有效建模复杂声场景，相比于传统的高斯混合模型、支持向量机等分类器能取得更佳的辨识结果。

2、本发明对可用的有限音频数据进行数据增强处理，增加了音频数据的多样性，减少了人工标注的数据量，提高了分类器训练效率；另外，数据增强处理也挖掘出了数据之间的潜在区分特性，使辨识效果更优异。

附图说明

图1是本发明公开的一种基于数据增强的声场景辨识方法的流程步骤图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

本实施例公开了一种基于数据增强的声场景辨识方法的具体实施过程，如图1所示，该声场景辨识方法具体步骤操作如下：

S1、音频样本准备：利用录音设备在不同声场景采集音频样本，并进行人工标注，然后将上述音频样本划分为训练集和测试集。

在本实施例中，该步骤具体包括以下步骤：

S1.1、利用录音设备采集音频数据：在不同场景放置录音设备，记录相应场景的音频样本，其采样频率为16kHz，量化位数为16bit。

S2、预处理：分别对训练集和测试集中音频样本进行预加重、分帧、加窗处理。

在本实施例中，该步骤具体包括以下步骤：

H(z)＝1-az^-1，

其中a为常数，取值为0.96；

其中，N表示帧长(采样点个数)，取值为400。

S3、数据增强：分离各音频样本的谐波源和冲击源，再分别提取音频样本及其谐波源和冲击源的对数梅尔滤波器组特征，再将上述三个对数梅尔滤波器组特征堆叠成一个三通道的高维特征，接着采用混合增强技术构造新的训练样本数据。

在本实施例中，该步骤具体包括以下步骤：

S3.1、对音频进行谐波源和冲击源分离：定义代价函数J(H,P)：

H_k,t+P_k,t＝W_k,t，

H_k,t≥0，P_k,t≥0，

其中，k和t分别表示频率和时间，σ_H与σ_P分别表示控制谐波源和冲击源平滑度的参数因子，H_k,t、P_k,t分别表示第t帧谐波源、冲击源的频谱，W_k,t表示第t帧音频的能量谱，H和P是H_k,t和P_k,t的集合；令代价函数的偏导满足：

S3.2、提取对数梅尔滤波器组特征，过程如下：

S3.2.2、对上述线性频谱X_t(k)进行梅尔频率滤波器组滤波，获得其梅尔频谱，梅尔频率滤波器组为若干个带通滤波器H_m(k)，M为滤波器的个数，每个滤波器具有三角形滤波特性，即其中心频率为f(m)，当m值较小时相邻f(m)的间隔较小，随着m的增加相邻f(m)的间隔逐渐变大，每个带通滤波器的传递函数为：

其中，f(m)定义如下：

B^-1(b)＝700(e^b/1125-1)，

故可得第t帧音频数据的对数梅尔滤波器组特征LF为：

LF＝ln[X_t(k)H_m(k)],0≤m＜M；

S3.3、构建三通道的高维特征，过程法如下：

S3.3.1、对第t帧音频信号的谐波源h_t(n)与冲击源p_t(n)进行步骤S3.2处理，提取对数梅尔滤波器组特征，分别得到相应的对数梅尔滤波器组特征LF_h与LF_p；

S3.3.2、将LF、LF_h与LF_p进行堆叠，得到三通道的高维特征：

S3.4、采用混合增强方法对训练数据进行数据增强，构建新的训练样本数据

其中，(v_i,y_i)与(v_j,y_j)是从原训练数据中随机抽取的两个索引为i和j的样本，y_i与y_j是训练样本的标签，表示新训练数据，表示相应的新数据标签，表示取整运算，参数λ服从贝塔分布：

λ∈[0，1]，

S4、声场景辨识：将上述各音频样本的三通道高维特征输入已训练好的Xception网络，得到各音频样本的声场景类别。

在本实施例中，该步骤具体包括以下步骤：

其中，C为声场景类别的数目，为第c类声场景的标签，p_c为第c类声场景的输出概率，网络的训练以最小化损失函数为目标，具体的训练方法详见参考文献： Chollet.Xception：Deep Learning with Depthwise SeparableConvolutions，2017IEEE Conference on Computer Vision and Pattern Recognition(CVPR)，2017，pp.1800-1807；

S4.2、输出辨识结果：训练并调试完毕Xception网络分类器后，对测试集样本进行S2-S3步骤处理，将其高维特征输入Xception网络，得到每一类声场景的输出概率，取输出概率最大的那类声场景作为该音频样本的判决结果。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于数据增强的声场景辨识方法，其特征在于，所述的声场景辨识方法包括：

2.根据权利要求1所述的一种基于数据增强的声场景辨识方法，其特征在于，所述的S1、音频样本准备步骤过程如下：

3.根据权利要求1所述的一种基于数据增强的声场景辨识方法，其特征在于，所述的S2、预处理步骤过程如下：

H(z)＝1-az^-1，

其中_a为常数，取值为0.96；

S2.3、加窗：采用汉明窗作为窗函数，并与各音频帧相乘实现加窗处理，窗函数_ω(n)采用汉明窗：

其中，N表示帧长，取值为400。

4.根据权利要求1所述的一种基于数据增强的声场景辨识方法，其特征在于，所述的S3、数据增强步骤过程如下：

S3.1、对音频进行谐波源和冲击源分离，定义代价函数J(H,P)：

H_k,t+P_k,t＝W_k,t，

H_k,t≥0，P_k,t≥0，

其中，k和t分别表示频率和时间，σ_H与σ_P分别表示控制谐波源和冲击源平滑度的参数因子，H_k,t、P_k,t分别表示第t帧谐波源、冲击源的频谱，_Wk,t表示第t帧音频的能量谱，H和P是H_k,t和P_k,t的集合；

令代价函数的偏导满足：

S3.2、提取对数梅尔滤波器组特征，过程如下：

其中，f(m)定义如下：

B^-1(b)＝700(e^b/1125-1)，

故可得第t帧音频数据的对数梅尔滤波器组特征LF为：

LF＝ln[X_t(k)H_m(k)],0≤m＜M；

S3.3、构建三通道的高维特征，过程法如下：

S3.3.2、将LF、LF_h与LF_p进行堆叠，得到三通道的高维特征：

S3.4、采用混合增强方法对训练数据进行数据增强。

5.根据权利要求4所述的一种基于数据增强的声场景辨识方法，其特征在于，所述的步骤S3.4、采用混合增强方法对训练数据进行数据增强过程如下：

构建新的训练样本数据

λ∈[0,1]，

6.根据权利要求1所述的一种基于数据增强的声场景辨识方法，其特征在于，所述的S4、声场景辨识步骤如下：