CN109859771B

CN109859771B - 一种联合优化深层变换特征与聚类过程的声场景聚类方法

Info

Publication number: CN109859771B
Application number: CN201910033838.3A
Authority: CN
Inventors: 李艳雄; 刘名乐; 王武城; 张聿晗
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-01-15
Filing date: 2019-01-15
Publication date: 2021-03-30
Anticipated expiration: 2039-01-15
Also published as: CN109859771A

Abstract

本发明公开了一种联合优化深层变换特征与聚类过程的声场景聚类方法，步骤如下：a、提取各样本的对数梅尔谱特征并作为一个初始类，初始化一个卷积神经网络；b、将各样本的对数梅尔谱特征输入卷积神经网络，提取深层变换特征；c、采用凝聚分层聚类算法合并最相似的两个类，得到新的类标签及样本并用于更新卷积神经网络，类数减一，再采用更新后的卷积神经网络将各样本的对数梅尔谱特征变换为深层变换特征；d、如果当前类数等于真实类数，则停止聚类，得到联合优化的声场景聚类结果和卷积神经网络，否则跳到第c步。本方法的深层变换特征提取与聚类交替进行，得到联合优化结果，与传统聚类方法相比性能更优；与传统分类方法相比更具普适性。

Description

一种联合优化深层变换特征与聚类过程的声场景聚类方法

技术领域

本发明涉及音频信号处理与模式识别技术领域，特别涉及一种联合优化深层变换特征与聚类过程的声场景聚类方法。

背景技术

声场景聚类(Acoustic scene clustering，ASC)是对采集到的各类声场景音频样本进行相似度比较，将相同类别的音频样本合并在一起。声场景聚类的目的主要是让机器更加智能化，使其拥有类似于人类分辨周围声学环境的能力，从而能够为人类提供更智能化的服务。声场景聚类技术是音频监控、自动辅助驾驶、多媒体内容分析与检索等应用领域的重要基础，具有重要的研究价值与实际意义。

传统的监督声场景分类方法需要对每个音频训练样本进行人工标注以便训练分类器，但人工标注成本昂贵、主观性强、效率低。目前各类声场景的音频数据爆炸式增长，很多样本都没有标签，因此有监督的声场景聚类方法在实际应用时有一定的局限性。目前无监督的声场景分类方法一般将音频特征提取与声场景聚类分开进行，不能得到最优的声场景聚类结果。因此，如何联合优化特征提取与声场景聚类过程以便得到较优的聚类结果，是进一步提高声场景聚类性能的关键，也是海量音频数据被充分挖掘利用的重要手段之一。目前亟待提出一种联合优化深层变换特征与聚类过程的声场景聚类方法，有效克服了目前方法的不足。

发明内容

本发明的目的是为了解决现有技术中的上述缺陷，提供一种联合优化深层变换特征与聚类过程的声场景聚类方法。

本发明的目的可以通过采取如下技术方案达到：

一种联合优化深层变换特征与聚类过程的声场景聚类方法，所述的声场景聚类方法包括如下步骤：

S1、提取对数梅尔谱特征：对各类声场景的样本进行预加重、分帧、加窗，然后分别提取每一音频帧的对数梅尔谱特征；

S2、初始化各类及卷积神经网络：将每个样本作为一个初始类，初始化生成一个卷积神经网络用于提取深层变换特征；

S3、更新卷积神经网络，提取新的深层变换特征：根据类标签及各类样本更新卷积神经网络参数，并用更新后的卷积神经网络提取各类样本的深层变换特征；

S4、合并最相似的两个类：采用凝聚分层聚类算法将相似度最大的两个类合并在一起，得到新的类标签和各类样本，类数减一；

S5、聚类收敛判决：如果当前类数等于真实类数，则停止聚类，得到联合优化的声场景聚类结果和卷积神经网络，否则跳到步骤S3。

进一步地，所述的步骤S1中提取对数梅尔谱特征具体包括以下步骤：

S1.1、音频数据采集与标注：在不同的场景采集音频数据流，然后将每一个音频数据流分割成一定长度的音频段，三人或三人以上对音频段进行人工标注，对于存在异议的音频段标注，按照少数服从多数的原则确定最终的标签；

S1.2、预加重：设置数字滤波器的传递函数为H(z)＝1-αz^-1，其中α为一个系数且取值为：0.9≤α≤1，读入的音频段通过该数字滤波器后实现预加重；

S1.3、分帧、加窗：

S1.3.1、对音频段进行分帧与加窗，帧长和帧移所对应的采样点个数分别为N＝0.025×f_s和S＝0.01×f_s，其中f_s为采样频率，将读入的音频段切分成音频帧s′_t(n)，1≤t≤T，1≤n≤N，其中T和N分别表示帧数和每帧的采样点数；

S1.3.2、窗函数ω(n)为汉明窗：

S1.3.3、将每帧音频信号s′_t(n)与汉明窗ω(n)相乘得到加窗后的音频信号s_t(n)：

s_t(n)＝ω(n)×s′_t(n) n＝0,1,...,N-1；t＝1,2,...,T；

S1.4、提取对数频谱特征：

S1.4.1、对第t帧音频信号s_t(n)做离散傅立叶变换(Discrete FourierTransformation,DFT)得到线性频谱X_t(k)：

S1.4.2、将上述线性频谱X_t(k)通过梅尔频率滤波器组得到梅尔频谱，再进行对数运算得到对数频谱S_t(m)，其中梅尔频率滤波器组为若干个带通滤波器H_m(k)，0≤m＜M，M为滤波器的个数，其值设置为13，每个滤波器具有三角形滤波特性，其中心频率为f(m)，当m值较小时相邻f(m)的间隔较小，随着m的增加相邻f(m)的间隔逐渐变大，每个带通滤波器的传递函数为：

其中，0≤m＜M，f(m)定义如下：

其中，f_l、f_h为滤波器的最低频率和最高频率，B^-1为B的逆函数：

B^-1(b)＝700(e^b/1125-1)，

因此由线性频谱X_t(k)到对数频谱S_t(m)的变换为：

S1.4.3、对每帧音频信号重复步骤S1.3.1)～S1.4.2)，得到所有音频帧的上述对数频谱S_t(m)特征，将它们按帧的顺序组合成一个特征矩阵。

进一步地，所述的步骤S2初始化各类及卷积神经网络具体包括以下步骤：

S2.1、初始化各类：每个待聚类样本作为一个初始类；

S2.2、初始化卷积神经网络结构：以对数梅尔谱特征作为输入，生成一个卷积神经网络(Convolutional Neural Network，CNN)，网络参数包括展开率(Unrolling rate)、批量大小(batch size)、学习率(Learning rate)、权重衰减(weight decay)、动量(momentum)以及后续聚类所使用的相关参数。

进一步地，所述的卷积神经网络中包括四个模块，其中每一模块包括以下子层：卷积层、池化层、激励层以及批量标准化层；

其中，所述的卷积层表示如下：

式中，

表示输入第l层的第j批样本的特征，

表示第l层的卷积核(输入特征是第j批样本中的第i个样本得到特征)，

表示第l层的偏置(输入是第j批样本的特征)，ψ(·)表示激活函数，M_j表示第j批样本；

所述池化层采用最大池化方法

所述激励层的激励函数采用整流线性函数(Rectified Linear Unit， ReLU)，其作用是增强神经网络各层之间的非线性关系；

所述批量标准化层的计算过程如下：

近似白化预处理：

变换重构：

其中，E[ξ^(q)]是每一批训练数据神经元ξ^(q)的平均值，

是每一批数据神经元ξ^(q)的标准差，γ^(q)与β^(q)均为可学习重构参数，让网络学习恢复出原始网络所要学习的特征分布。

批量标准化(Batch Normalization，BN)主要作用是解决网络的梯度爆炸问题以及加快网络的收敛速度，

进一步地，所述的卷积神经网络还包括全连接层，所述的全连接层用于将卷积神经网络学习到的特征表示映射到样本标记空间，在卷积神经网络输出端加入两个全连接层FC1与FC2，其中FC1的节点数设置为5040， FC2的节点数设置为160。

进一步地，所述的步骤S3中更新卷积神经网络，提取新的深层变换特征的过程如下：

将提取的声学特征输入该网络，得到新的深层变换特征；经过一定次数的聚类更新类标签之后，根据损失函数与更新的类标签，采用反向传播算法更新网络参数，使网络所提取的深层变换特征更具区分性，从而得到更优的聚类结果。

进一步地，所述的损失函数公式如下：

表示当前第t类，

表示与

距离最近的类，K_c是一个表示类别数的常数，

表示除

外

的其他相邻类，A(·)是一个计算类间相似度的函数，

表示第p阶段的迭代次数。

进一步地，所述的步骤S4中合并最相似的两个类包括以下步骤：

S4.1、假设所有样本的特征矩阵集合

n_s为样本总个数，根据x构造邻度矩阵

W的第(i,j)个元素W_ij定义如下：

其中

为特征矩阵x_i与x_j的欧式距离的平方，σ²是一个尺度参数，定义为第i个特征矩阵x_i与其他

个高斯均值超矢量之间的欧式距离矢量的方差，K_s表示样本数的常数；

S4.2、根据邻度矩阵合并距离最近的类，更新当前类的标签及样本。

本发明相对于现有技术具有如下的优点及效果：

1)、本发明通过卷积神经网络变换得到的新特征，比传统音频特征能更有效刻画复杂声场景的特性差异，在声场景聚类中获得更加优异的效果

2)、本发明是一种无监督的声场景聚类方法，无需事先知道声场景类型及训练表征各声场景的分类器，与有监督的方法相比更具普适性。

附图说明

图1是本发明公开的一种联合优化深层变换特征与聚类过程的声场景聚类方法的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

如图1所示，图1是一种联合优化深层变换特征与聚类过程的声场景聚类方法的一个实施例的流程图，其主要包括以下过程：

S1、提取对数梅尔谱特征：对各类声场景的音频样本进行预加重、分帧、加窗，然后分别提取每一音频帧的对数梅尔谱；

S5、聚类收敛判决：如果当前类数等于真实类数，则停止聚类，得到联合优化的声场景聚类结果和卷积神经网络，否则跳到S3。

本实施例中，步骤S1中提取对数梅尔谱特征具体包括以下步骤：

S1.3、分帧、加窗：

S1.3.2、窗函数ω(n)为汉明窗：

s_t(n)＝ω(n)×s′_t(n) n＝0,1,...,N-1；t＝1,2,...,T；

S1.4、提取对数频谱特征：

其中，0≤m＜M，f(m)定义如下：

B^-1(b)＝700(e^b/1125-1)，

因此由线性频谱X_t(k)到对数频谱S_t(m)的变换为：

本实施例中，步骤S2中初始化各类及卷积神经网络具体包括以下步骤：

所述的步骤S2初始化各类及卷积神经网络具体包括以下步骤：

S2.1、初始化各类：每个待聚类样本作为一个初始类；

以上卷积神经网络中包括四个模块，其中每一模块包括以下子层：卷积层、池化层、激励层以及批量标准化层；

其中，卷积层表示如下：

式中，

表示输入第l层的第j批样本的特征，

池化层采用最大池化方法

激励层的激励函数采用整流线性函数(Rectified Linear Unit，ReLU)，其作用是增强神经网络各层之间的非线性关系；

批量标准化层的计算过程如下：

近似白化预处理：

变换重构：

其中，E[ξ^(q)]是每一批训练数据神经元ξ^(q)的平均值，

上述卷积神经网络还包括全连接层，所述的全连接层用于将卷积神经网络学习到的特征表示映射到样本标记空间，在卷积神经网络输出端加入两个全连接层FC1与FC2，其中FC1的节点数设置为5040，FC2的节点数设置为160。

全连接层在网络中起到分类器的作用，可以将网络学习到的特征表示映射到样本标记空间，在卷积神经网络输出端加入两个全连接层。

本实施例中，步骤S3中更新卷积神经网络，提取新的深层变换特征具体过程如下：

本实施例中，损失函数公式如下：

表示当前第t类，

表示与

距离最近的类，K_c是一个表示类别数的常数，

表示除

外

的其他相邻类，A(·)是一个计算类间相似度的函数，

表示第p阶段的迭代次数。

本实施例中，步骤S4中合并最相似的两个类具体包括以下步骤：

S4.1、假设所有样本的特征矩阵集合

n_s为样本总个数，根据x构造邻度矩阵

W的第(i,j)个元素W_ij定义如下：

其中

S4.2、根据邻度矩阵合并距离最近的类，合并之后更新当前类的标签及样本。

本实施例中，步骤S5中聚类收敛判决具体包括以下步骤：

各类更新完毕后，如果当前类数等于真实类数，则停止聚类，得到联合优化的声场景聚类结果和卷积神经网络；否则跳到步骤S3。

综上所述，本实施例公开的一种联合优化深层变换特征与聚类过程的声场景聚类方法：第一步，提取对数梅尔谱特征，对各类声场景的音频样本进行预加重、分帧、加窗，然后分别提取每一音频帧的对数梅尔谱；第二步，初始化各类及卷积神经网络，将每个样本作为一个初始类，初始化生成一个卷积神经网络用于提取深层变换特征；第三步，更新卷积神经网络，提取新的深层变换特征：根据类标签及各类样本更新卷积神经网络参数，并用更新后的卷积神经网络提取各类样本的深层变换特征；第四步，合并最相似的两个类，采用凝聚分层聚类算法将相似度最大的两个类合并在一起，得到新的类标签和各类样本，类数减一；第五步，聚类收敛判决，如果当前类数等于真实类数，则停止聚类，得到联合优化的声场景聚类结果和卷积神经网络，否则跳到第三步。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种联合优化深层变换特征与聚类过程的声场景聚类方法，其特征在于，所述的声场景聚类方法包括如下步骤：

其中，所述的步骤S3中更新卷积神经网络，提取新的深层变换特征的过程如下：

将提取的声学特征输入该网络，得到新的深层变换特征；经过一定次数的聚类更新类标签之后，根据损失函数与更新的类标签，采用反向传播算法更新网络参数，使网络所提取的深层变换特征更具区分性，从而得到更优的聚类结果；所述的损失函数公式如下：

表示当前第t类，

表示与

距离最近的类，K_c是一个表示类别数的常数，

表示除

外

的其他相邻类，A(·)是一个计算类间相似度的函数，

表示第p阶段的迭代次数；

2.根据权利要求1所述的一种联合优化深层变换特征与聚类过程的声场景聚类方法，其特征在于，所述的步骤S1中提取对数梅尔谱特征包括以下步骤：

S1.3、分帧、加窗：

S1.3.2、采用汉明窗作为窗函数ω(n)：

s_t(n)＝ω(n)×s′_t(n)n＝0,1,...,N-1,t＝1,2,...,T；

S1.4、提取对数频谱特征：

S1.4.1、对第t帧音频信号s_t(n)做离散傅立叶变换得到线性频谱X_t(k)：

S1.4.2、将上述线性频谱X_t(k)通过梅尔频率滤波器组得到梅尔频谱，再进行对数运算得到对数频谱S_t(m)，其中梅尔频率滤波器组为若干个带通滤波器H_m(k)，0≤m＜M，M为滤波器的个数，每个滤波器具有三角形滤波特性，其中心频率为f(m)，每个带通滤波器的传递函数为：

其中，0≤m＜M，f(m)定义如下：

B^-1(b)＝700(e^b/1125-1)，

因此由线性频谱X_t(k)到对数频谱S_t(m)的变换为：

3.根据权利要求1所述的一种联合优化深层变换特征与聚类过程的声场景聚类方法，其特征在于，所述的步骤S2中初始化各类及卷积神经网络包括以下步骤：

S2.1、初始化各类：每个待聚类样本作为一个初始类；

S2.2、初始化卷积神经网络结构：以对数梅尔谱特征作为输入，生成一个卷积神经网络，网络参数包括展开率、批量大小、学习率、权重衰减、动量以及后续聚类所使用的参数。

4.根据权利要求3所述的一种联合优化深层变换特征与聚类过程的声场景聚类方法，其特征在于，所述的卷积神经网络中包括四个模块，其中每一模块包括以下子层：卷积层、池化层、激励层以及批量标准化层；

其中，所述的卷积层表示如下：

式中，

表示输入第l层的第j批样本的特征，

表示第l层的卷积核，输入特征是第j批样本中的第i个样本得到特征，

表示第l层的偏置，输入是第j批样本的特征，ψ(·)表示激活函数，M_j表示第j批样本；

所述池化层采用最大池化方法

所述激励层的激励函数采用整流线性函数；

所述批量标准化层的计算过程如下：

近似白化预处理：

变换重构：

其中，E[ξ^(q)]是每一批训练数据神经元ξ^(q)的平均值，

5.根据权利要求3所述的一种联合优化深层变换特征与聚类过程的声场景聚类方法，其特征在于，所述的卷积神经网络还包括全连接层，所述的全连接层用于将卷积神经网络学习到的特征表示映射到样本标记空间，在卷积神经网络输出端加入两个全连接层FC1与FC2，其中FC1的节点数设置为5040，FC2的节点数设置为160。

6.根据权利要求1所述的一种联合优化深层变换特征与聚类过程的声场景聚类方法，其特征在于，所述的步骤S4中合并最相似的两个类包括以下步骤：

S4.1、假设所有样本的特征矩阵集合

n_s为样本总个数，根据x构造邻度矩阵

W的第(i,j)个元素W_ij定义如下：

其中