CN106952644A

CN106952644A - 一种基于瓶颈特征的复杂音频分割聚类方法

Info

Publication number: CN106952644A
Application number: CN201710101550.6A
Authority: CN
Inventors: 李艳雄; 王琴; 李先苦; 张雪; 张聿晗
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2017-02-24
Filing date: 2017-02-24
Publication date: 2017-07-14

Abstract

本发明公开了一种基于瓶颈特征的复杂音频分割聚类方法，包括如下步骤，首先构造一个带瓶颈层的深度神经网络；接着读入复杂音频流，对复杂音频流进行端点检测，然后提取非静音段的音频特征并输入深度神经网络，从深度神经网络的瓶颈层提取瓶颈特征；以瓶颈特征作为输入，采用基于贝叶斯信息准则的音频分割方法，使得每个音频段只包含一种音频类型且相邻音频段的音频类型不同；最后，采用谱聚类算法对分割后的音频段进行聚类，得到复杂音频的音频类型个数，并将相同音频类型的音频段合并在一起。本发明采用的瓶颈特征是一种深层变换特征，比传统音频特征能更有效刻画复杂音频类型的特性差异，在复杂音频分割聚类中获得更加优异的效果。

Description

一种基于瓶颈特征的复杂音频分割聚类方法

技术领域

本发明涉及音频信号处理与模式识别技术，特别涉及一种基于瓶颈特征的复杂音频分割聚类方法。

背景技术

随着多媒体采集设备、互联网及云存储平台的发展与普及，海量复杂音频内容分析与检索的需求日益迫切。复杂音频分割、聚类作为一种无监督的方法，是音频内容分析的重要手段之一。虽然可以采用人工标注的方法找出音频流中的各音频类型，但人工标注成本高、主观性强、效率低，而有监督的音频分类方法需要预先知道音频流中的音频类型、提前训练特定类型的分类器。因此无监督的复杂音频分割、聚类方法应用范围更广，更适合海量复杂音频数据的内容分析。

传统的复杂音频分割聚类方法采用的特征大多来源于语音识别领域，如梅尔频率倒谱系数，感知线性预测系数等。由于复杂音频中的各类音频事件来源各异，没有语音那样的特定结构单元(音素或音节)，在语音识别中能有效刻画语音单元差异的传统音频特征并不一定能有效刻画复杂音频类型之间的特性差异。因此，提取有效刻画复杂音频类型差异的特征是提升复杂音频分割与聚类性能的关键。

发明内容

本发明的目的在于克服现有技术的不足和缺点，提供一种基于瓶颈特征的复杂音频分割聚类方法：首先训练一个带瓶颈层的深度神经网络；接着，提取复杂音频流的音频特征并输入深度神经网络，从深度神经网络的瓶颈层提取瓶颈特征；以瓶颈特征作为输入，采用基于贝叶斯信息准则的音频分割方法对复杂音频流进行分割，使得每个音频段只包含一种音频类型，相邻音频段的音频类型不同；最后，采用谱聚类算法对分割后的音频段进行聚类，得到复杂音频中的音频类型个数，并将相同音频类型的音频段合并在一起。

本发明的目的通过以下技术方案实现：一种基于瓶颈特征的复杂音频分割聚类方法，其特征在于，包括如下步骤：

S1、带瓶颈层的深度神经网络构造：读入训练数据并提取梅尔频率倒谱系数(MelFrequency Cepstral Coefficients,MFCC)特征，再通过无监督预训练和有监督精确调整两个步骤构造一个带瓶颈层的深度神经网络(Deep Neural Network,DNN)特征提取器；

S2、端点检测：读入复杂音频流，通过基于门限判决的静音检测方法找出音频流中所有的静音段和非静音信号段，并将各个非静音信号段拼接成一个长信号段；

S3、瓶颈特征提取：提取上述长信号段的MFCC特征并输入DNN特征提取器，从DNN特征提取器的瓶颈层提取瓶颈特征；

S4、音频分割：采用基于贝叶斯信息准则(Bayes Information Criterion,BIC)的方法检测长信号段中的音频类型改变点，根据这些改变点把长信号段分割成若干个音频段，使得每个音频段只包含一种音频类型且相邻音频段的音频类型不同；

S5、音频聚类：采用谱聚类算法对各音频段进行聚类，得到音频类型个数，并将相同音频类型的音频段合并在一起。

优选的，步骤S1中带瓶颈层的深度神经网络构造具体包括以下步骤：

S1.1、读入训练数据并提取MFCC特征，具体步骤如下：

S1.1.1、预加重：设置数字滤波器的传递函数为H(z)＝1-αz^-1，其中α为一个系数且取值为：0.9≤α≤1，读入的音频流通过该数字滤波器后实现预加重；

S1.1.2、分帧：设置音频帧的帧长为25毫秒、帧移为10毫秒，帧长和帧移所对应的采样点个数分别为N＝0.025×f_s和S＝0.01×f_s，其中f_s为音频采样频率，将读入的音频流切分成音频帧x_t'(n)，1≤t≤T，0≤n≤N-1，其中T和N分别表示帧数和每帧的采样点数；

S1.1.3、窗函数ω(n)为汉明窗：

将每帧音频信号x_t'(n)与汉明窗ω(n)相乘得到加窗后的音频信号x_t(n)：

x_t(n)＝ω(n)×x_t'(n) n＝0,1,...,N-1；t＝1,2,...,T

S1.1.4、提取MFCC特征：

S1.1.4.1、对第t帧音频信号x_t(n)做离散傅立叶变换(Discrete FourierTransformation,DFT)得到线性频谱X_t(k)：

S1.1.4.2、将上述线性频谱X_t(k)通过梅尔频率滤波器组得到梅尔频谱，再进行对数运算得到对数频谱S_t(m)，其中梅尔频率滤波器组为若干个带通滤波器H_m(k)，0≤m＜M，M为滤波器的个数，其值设置为13，每个滤波器具有三角形滤波特性，其中心频率为f(m)，当m值较小时相邻f(m)的间隔较小，随着m的增加相邻f(m)的间隔逐渐变大，每个带通滤波器的传递函数为：

其中，0≤m＜M，f(m)定义如下：

其中，f_l、f_h为滤波器的最低频率和最高频率，B^-1为B的逆函数：

B^-1(b)＝700(e^b/1125-1)，

因此由线性频谱X_t(k)到对数频谱S_t(m)的变换为：

S1.1.4.3、将上述对数频谱S_t(m)经过离散余弦变换(Discrete CosineTransformation,DCT)变换到倒谱域，得到第t帧音频信号的MFCC特征，即C_t(p)：

S1.1.4.3、对每帧音频信号重复步骤S1.1.4.1-S1.1.4.3，得到所有音频帧的MFCC特征，将它们按帧的顺序组合成一个MFCC特征矩阵；

S1.2、预训练：采用逐层堆叠受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)的方法构造一个深度置信网(Deep Belief Nets,DBN)，得到预训练的网络参数；

RBM采用基于能量的通用分布模型去表示任意概率分布，其能量函数定义为：

其中v，h分别代表可视层单元和隐含层单元的状态矢量，w_ij表示可视层第i个节点与隐含层第j个节点的连接权重，v_i和a_i分别表示可视层的第i个节点的状态和偏移量，h_j和b_j分别表示隐含层的第j个节点的状态和偏移量，vis和hid分别表示可视层和隐含层的节点集合；当所有参数都确定时，可以得到RBM能量函数关于v和h的联合概率分布：

由联合分布得到边缘概率分布：

条件概率为：

高斯-伯努利RBM的条件概率分布可以表示为：

其中表示是均值为方差为V的高斯分布，表示输入为的Sigmoid函数，Sigmoid函数σ(x)的表达式为σ(x)＝1/[1+exp(-x)]，

伯努利-伯努利RBM的条件概率分布表示为：

在给定训练集其中n_s为训练样本数目，训练一个RBM就是通过调整参数θ＝{W,a,b}来表征给定的训练样本，使得在该参数下由相应RBM表示的概率分布尽可能地与训练数据相符，其中W表示权重系数，a表示可视层的偏移量，b表示隐含层的偏移量，

训练RBM的目标就是最大化似然函数：

即：

其中p(d^(t))为对样本d^(t)的似然估计；

DBN的构造过程具体包括如下步骤：

S1.2.1、选取当前帧的前后5帧作为上下文信息，共计11*13＝143维作为第一个RBM的可视层输入节点数，隐含层节点数取固定值1024，将输入特征的每一维进行倒谱均值方差归一化，采用对比散度(Contrastive Divergence,CD)算法训练一个高斯-伯努利RBM；

具体过程如下：

S1.2.1.1、将连接权重初始化，值为10^-3，偏移量、似然函数对权重的偏导数、似然函数对可视层以及隐含层偏移量的偏导数均初始化为0，迭代次数设置为30；

S1.2.1.2、对每一次迭代，取初始值d⁽⁰⁾，d⁽⁰⁾＝{d_i ⁽⁰⁾}，i∈vis，为训练样本集合D中的任意一个样本d，执行k步Gibbs采样得到d^(k)，其中在第s步(s＝0,2...,k-1)过程如下：

S1.2.1.2.1、隐含层中的每一个节点的激活概率可以表示为：

S1.2.1.2.2、产生[0,1]区间的随机数r_j，得到隐含层状态h^(s)：

S1.2.1.2.3、根据隐含层状态h^(s)，得到可视层每一个节点的激活概率为：

S1.2.1.2.4、产生[0,1]上的随机数r_i，重构可视层输入d^(s+1)：

S1.2.1.3、经过k步Gibbs采样后得到的d^(k)近似估计RBM参数的梯度：

其中p(h_i＝1|d^(k))表示在可视层限定为已知的训练样本d^(k)时隐含层的激活概率，由于该RBM为高斯-伯努利RBM，则

S1.2.1.4、得到似然函数对权重的偏导数、似然函数对可视层以及隐含层偏移量的偏导数ΔW，Δa和Δb，其中

S1.2.1.5、更新参数：

式中η为权重学习率，设置为0.01；

S1.2.2、保持上一个RBM的权重和偏移量不变，将上一个RBM的隐含层作为下一个RBM的可视层，并保持隐含层节点数与可视层节点数相同，迭代训练一个伯努利-伯努利RBM，其步骤与S1.2.1类似，只是在执行k步Gibbs采样得到d^(k)时，其可视层每一个节点的激活概率公式变为：

此过程中，权重学习率变为0.04，迭代次数降为15次；

S1.2.3、按照S1.2.2中的步骤，重复迭代训练伯努利-伯努利RBM，直到瓶颈层的前一个隐含层；

S1.2.4、将RBM的隐含层节点数设置为MFCC特征维数的2倍，按照S1.2.2中的步骤，迭代训练伯努利-伯努利RBM；

S1.2.5、恢复隐含层节点数为1024，按照S1.2.2中的步骤，重复迭代训练伯努利-伯努利RBM，直到最后一个隐含层；

S1.2.6、将所有的RBM按照构造时的顺序依次堆叠起来，就构成一个带瓶颈层的DBN；

S1.3、精确调整：采用有监督训练方法对预训练后的DBN网络参数进行精确调整，具体包括如下步骤：

S1.3.1、在DBN的基础上再增加一个输出层，并随机初始化DBN最后一层与该增加的输出层之间的网络参数，从而构成一个完整的深度神经网络DNN；

S1.3.2、利用反向传播(Back-propagation,BP)算法有监督地调整DNN网络参数，每一次迭代的具体步骤如下：

S1.3.2.1、计算样本损失函数：

对于单个有标签的训练样本(x,t)，其中x为声学特征，t为样本标签，其维度与输出节点数相同，即训练的音频类别数，对于音频类型集合Y＝{y₁,y₂,..,y_k,..,y_K}，t＝{t₁,t₂,…t_i,…,t_K}，其中t_i：

单个样本损失函数记为：

其中h_W,b(x)为网络输出层的激活函数的输出值；

给定一个含有n个训练样本集{(x⁽¹⁾,t⁽¹⁾)，(x⁽²⁾,t⁽²⁾)，...，(x⁽ⁿ⁾,t⁽ⁿ⁾)}，则整体损失函数为：

其中m_l为网络总层数，s_l为第l层上的节点总数，为第l层的节点i与第l+1层的节点j之间的连接权重，λ为平衡因子；

S1.3.2.2、根据S1.3.2.1中的整体样本损失函数，分别对网络连接权重和偏移量求导，利用反向传播算法得到偏导数值，具体过程如下：

S1.3.2.2.1、首先利用前向传播算法，分别计算隐含层以及输出层中所有节点的激活值

其中σ(·)为选取的Sigmoid激活函数，表示第l层第i个单元的加权和，即：

S1.3.2.2.2、对于输出层的每个输出单元i，其残差为：

其中t_i表示输出层第i个节点的标签，为输出层第i个节点的激活值，表示输出层第i个单元的加权和，

根据反向传播算法，对于输出层前的各个隐含层(l＝2,3,…,m_l-2,m_l-1)，依次计算其残差为：

其中表示第l个隐含层的第i个节点与第l+1个隐含层中第j个节点的连接权重，为第l+1层的残差，表示第l层第i个单元的加权和，表达式为：

S1.3.2.2.3、单个样本最终的偏导数值为：

其中，δ^(l+1)＝{δ_i ^(l+1)},i＝1,2,...,s_l为第l+1层的残差向量，a^(l)＝{a_i ^(l)},i＝1,2,...,s_l为第l层的激活值，T为转置符号，

对于i＝1：n的所有训练样本{(x⁽¹⁾,t⁽¹⁾)，(x⁽²⁾,t⁽²⁾)，...，(x⁽ⁿ⁾,t⁽ⁿ⁾)}，则有：

其中ΔW^(l)是一个与矩阵W^(l)＝{W_ij ^(l)}维度相同的矩阵，初始化为0，Δb^(l)是一个与矩阵b^(l)＝{b_i ^(l)}维度相同的向量，初始值也为0，ΔW^(l,i)和Δb^(l,i)分别表示对第i个训练样本计算出的ΔW^(l)和b^(l)，

S1.3.2.3、更新网络的连接权重W^(l)和偏移量b^(l)：

其中α为学习速率，设置为0.01，λ为平衡因子，设为0.08；

优选的，所述步骤S2中对读入的复杂音频信号做端点检测包括以下步骤：

S2.1、按照步骤S1.1.1-S1.1.3对复杂音频信号做预加重，分帧，加窗处理，将读入的音频文件分成T帧，如果最后一帧音频信号的采样点个数小于N，则将其舍去；计算第t帧音频信号x_t(n)的能量E_t：

得到音频流的能量特征矢量E＝{E₁,E₂,...,E_T}，其中T为总帧数；

S2.2、用固定的能量门限判断静音与非静音信号段有很大的局限性，因为各种环境下的非静音信号能量相差很大，但非静音信号与静音之间能量大小的相对关系是不变的，所以定义每帧音频的能量门限T_E：

T_E＝min(E)+0.3×[mean(E)-min(E)]，

其中，min(E)是各帧能量的最小值，mean(E)是各帧能量的平均值。

S2.3、将每帧音频的能量与能量门限比较，低于能量门限的帧为静音帧，否则为非静音帧，将所有静音帧都舍弃，将相邻的非静音帧按时间顺序拼接成一个非静音信号段。

优选的，步骤S3中瓶颈特征提取包括以下步骤：

S3.1、按照步骤S1.1.4提取端点检测后非静音信号的MFCC特征；

S3.2、将MFCC特征输入到DNN特征提取器，从DNN特征提取器的瓶颈层提取瓶颈特征。

优选的，步骤S4中音频分割包括以下步骤：

S4.1、将长信号段的特征矩阵切分成数据窗，窗长为200帧，窗移为10帧；

S4.2、计算两个相邻数据窗(x和y)之间的BIC距离，BIC距离计算公式如下：

其中，z是将数据窗x和y合并之后得到的数据窗，n_x和n_y分别是数据窗x和y的帧数，F_x、F_y和F_z分别是数据窗x、y和z的特征矩阵，cov(F_x)、cov(F_y)和cov(F_z)分别是特征矩阵F_x、F_y和F_z的协方差矩阵，det(·)表示求矩阵的行列式值，α是惩罚系数且实验取值为2.0；

S4.3、如果BIC距离ΔBIC大于零，则这两个数据窗被视为属于两个不同的音频类型，否则这两个数据窗被视为属于同一个音频类型并将它们合并；

S4.4、不断滑动数据窗判断两个相邻数据窗之间的BIC距离是否大于零，并保存音频类型改变点，直到长信号段的所有相邻数据窗之间的BIC距离都被判断完为止，得到若干只包含一种音频类型的音频段，且相邻音频段的类型不同。

优选的，步骤S5中音频事件聚类包括以下步骤：

S5.1、假设音频分割后的所有音频段特征矩阵集合F＝{F¹,F²,...,F^J}，J为音频段总个数，根据F构造亲和矩阵A∈R^J×J,A的第(j，k)个元素A_jk定义如下：

其中d(F^j,F^k)是特征矩阵F^j与F^k之间的欧氏距离，σ_j是一个尺度参数，定义为第j个特征矩阵F^j与其他J-1个特征矩阵之间的欧氏距离矢量的方差；

S5.2、对角矩阵H的第(j，j)个元素代表亲和矩阵中第j行所有元素之和，再根据对角矩阵H和A构造归一化的亲和矩阵：

S5.3、计算矩阵L的前K_max个最大的特征值{λ₁,λ₂,...,λ_i,...,λ_Kmax}及其特征矢量{q₁,q₂,...,q_i,...,q_Kmax}，其中1≤i≤K_max，q_i为列矢量，λ₁≥λ₂≥...≥λ_i≥…≥λ_Kmax，根据相邻特征值之间的差值估计最优类别数(即音频类数)K：

根据估计出来的音频类型个数K，构造矩阵Q＝[q₁,q₂,...,q_K]∈R^J×K；

S5.4、归一化矩阵Q的每一行，得到矩阵Y∈R^J×K,Y的第(j,k)个元素Y_jk：

S5.5、将矩阵中的每一行当作空间R^K中的一个点，利用K均值算法(K-meansalgorithm)将矩阵Y的J行聚类成K类。将特征矩阵F^j所对应的音频段判为第k类，当且仅当矩阵Y的第j行被聚类在第k类中；

S5.6、根据上述聚类结果，得到音频类型个数，并将相同音频类型的音频段合并在一起。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明中的瓶颈特征是一种深层变换特征，比传统音频特征能更有效刻画复杂音频类型的特性差异，在复杂音频分割聚类中获得更加优异的效果。

2、本发明方法是一种无监督的音频内容分析方法，无需事先知道音频类型及训练分类器，与有监督的方法相比更具普适性。

3、本发明方法是复杂音频内容分析与检索、音频场景估计、音频摘要提取等应用的重要基础。

附图说明

图1为本发明的RBM网络结构图；

图2为本发明的DBN网络结构图；

图3为本发明的带瓶颈层的DNN生成过程示意图；

图4为本发明实施例的流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

图4是基于瓶颈特征的复杂音频分割聚类方法的一个实施例的流程图，它主要包括以下过程：

1、带瓶颈层的深度神经网络构造：读入训练数据并提取MFCC特征，再通过无监督预训练和有监督精确调整两个步骤训练一个带瓶颈层的DNN特征提取器；具体步骤包括：

S1.1、读入训练数据并提取梅尔频率倒谱系数特征，具体步骤如下：

S1.1.3、窗函数ω(n)为汉明窗：

x_t(n)＝ω(n)×x_t'(n) n＝0,1,...,N-1；t＝1,2,...,T，

S1.1.4、提取梅尔频率倒谱系数特征：

S1.1.4.1、对第t帧音频信号x_t(n)做离散傅立叶变换得到线性频谱X_t(k)：

S1.1.4.2、将上述线性频谱X_t(k)通过梅尔频率滤波器组得到梅尔频谱，再进行对数运算得到对数频谱S_t(m)，其中梅尔频率滤波器组为若干个带通滤波器H_m(k)，0≤m＜M，M为滤波器的个数，每个滤波器具有三角形滤波特性，其中心频率为f(m)，当m值较小时相邻f(m)的间隔较小，随着m的增加相邻f(m)的间隔逐渐变大，每个带通滤波器的传递函数为：

其中，0≤m＜M，f(m)定义如下：

B^-1(b)＝700(e^b/1125-1)，

因此由线性频谱X_t(k)到对数频谱S_t(m)的变换为：

S1.1.4.3、将上述对数频谱S_t(m)经过离散余弦变换变换到倒谱域，得到第t帧音频信号的梅尔频率倒谱系数特征，即C_t(p)：

S1.1.4.3、对每帧音频信号重复步骤S1.1.4.1-S1.1.4.3，得到所有音频帧的梅尔频率倒谱系数特征，将它们按帧的顺序组合成一个梅尔频率倒谱系数特征矩阵；

S1.2、预训练：采用逐层堆叠受限玻尔兹曼机的方法构造一个深度置信网，得到预训练的网络参数；RBM的网络结构如图1所示，DBN的网络结构如图2所示；

受限玻尔兹曼机采用基于能量的通用分布模型去表示任意概率分布，其能量函数定义为：

其中v，h分别代表可视层单元和隐含层单元的状态矢量，w_ij表示可视层第i个节点与隐含层第j个节点的连接权重，v_i和a_i分别表示可视层的第i个节点的状态和偏移量，h_j和b_j分别表示隐含层的第j个节点的状态和偏移量，vis和hid分别表示可视层和隐含层的节点集合；当所有参数都确定时，可以得到受限玻尔兹曼机能量函数关于v和h的联合概率分布：

由联合分布得到边缘概率分布：

条件概率为：

高斯-伯努利受限玻尔兹曼机的条件概率分布可以表示为：

其中表示是均值为方差为V的高斯分布，表示输入为的Sigmoid函数，Sigmoid函数σ(x)的表达式为σ(x)＝1/[1+exp(-x)]；

伯努利-伯努利受限玻尔兹曼机的条件概率分布表示为：

在给定训练集其中n_s为训练样本数目，训练一个受限玻尔兹曼机就是通过调整参数θ＝{W,a,b}来表征给定的训练样本，使得在该参数下由相应受限玻尔兹曼机表示的概率分布尽可能地与训练数据相符，其中W表示权重系数，a表示可视层的偏移量，b表示隐含层的偏移量，

训练受限玻尔兹曼机的目标就是最大化似然函数：

即：

其中p(d^(t))为对样本d^(t)的似然估计；

深度置信网的构造过程具体包括如下步骤：

S1.2.1、选取当前帧的前后5帧作为上下文信息，共计11*13＝143维作为第一个受限玻尔兹曼机的可视层输入节点数，隐含层节点数取固定值1024，将输入特征的每一维进行倒谱均值方差归一化，采用对比散度算法训练一个高斯-伯努利受限玻尔兹曼机；

具体过程如下：

S1.2.1.1、将连接权重初始化，值10^-3，偏移量、似然函数对权重的偏导数、似然函数对可视层以及隐含层偏移量的偏导数均初始化为0，迭代次数设置为30；

S1.2.1.2.1、隐含层中的每一个节点的激活概率可以表示为：

S1.2.1.2.2、产生[0,1]区间的随机数r_j，得到隐含层状态h^(s)：

S1.2.1.2.4、产生[0,1]上的随机数r_i，重构可视层输入d^(s+1)：

S1.2.1.3、经过k步Gibbs采样后得到的d^(k)近似估计受限玻尔兹曼机参数的梯度：

S1.2.1.5、更新参数：

式中η为权重学习率，设置为0.01；

S1.2.2、保持上一个受限玻尔兹曼机的权重和偏移量不变，将上一个受限玻尔兹曼机的隐含层作为下一个受限玻尔兹曼机的可视层，并保持隐含层节点数与可视层节点数相同，迭代训练一个伯努利-伯努利受限玻尔兹曼机，其步骤与S1.2.1类似，只是在执行k步Gibbs采样得到d^(k)时，其可视层每一个节点的激活概率公式变为：

此过程中，权重学习率变为0.04，迭代次数降为15次；

S1.2.3、按照S1.2.2中的步骤，重复迭代训练伯努利-伯努利受限玻尔兹曼机，直到瓶颈层的前一个隐含层；

S1.2.4、将受限玻尔兹曼机的隐含层节点数设置为梅尔频率倒谱系数特征维数的2倍，按照S1.2.2中的步骤，迭代训练伯努利-伯努利受限玻尔兹曼机；

S1.2.5、恢复隐含层节点数为1024，按照S1.2.2中的步骤，重复迭代训练伯努利-伯努利受限玻尔兹曼机，直到最后一个隐含层；

S1.2.6、将所有的受限玻尔兹曼机按照构造时的顺序依次堆叠起来，就构成一个带瓶颈层的深度置信网；

S1.3、精确调整：采用有监督训练方法对预训练后的深度置信网络参数进行精确调整，具体包括如下步骤：

S1.3.1、在深度置信网的基础上再增加一个输出层，并随机初始化深度置信网最后一层与该增加的输出层之间的网络参数，从而构成一个完整的深度神经网络；其过程示意图如图3所示；

S1.3.2、利用反向传播算法有监督地调整深度神经网络参数，最大迭代次数设为100，并且当相邻两次迭代的损失变化率小于0.01时终止训练，对于每一次迭代，具体步骤如下：

S1.3.2.1、计算样本损失函数：

单个样本损失函数记为：

其中h_W,b(x)为网络输出层的激活函数的输出值；

S1.3.2.2.2、对于输出层的每个输出单元i，其残差为：

S1.3.2.2.3、单个样本最终的偏导数值为：

其中，为第l+1层的残差向量，a^(l)＝{a_i ^(l)},i＝1,2,...,s_l为第l层的激活值，T为转置符号，

S1.3.2.3、更新网络的连接权重和偏移量：

其中α为学习速率，设置为0.01，λ为平衡因子，设为0.08。

2、端点检测：读入复杂音频流，通过基于门限判决的静音检测方法找出音频流中所有的静音段和非静音信号段，并将各个非静音信号段拼接成一个长信号段；具体步骤如下：

T_E＝min(E)+0.3×[mean(E)-min(E)]，

其中，min(E)是各帧能量的最小值，mean(E)是各帧能量的平均值；

3、瓶颈特征提取：提取的上述长信号段的MFCC特征并输入到DNN特征提取器，从DNN特征提取器的瓶颈层提取瓶颈特征；具体步骤如下：

S3.1、按照步骤S1.1.4提取端点检测后非静音信号的MFCC特征；

4、音频分割：通过贝叶斯信息准则检测长信号段中的音频类型改变点，根据这些改变点把长信号段分割成若干个音频段，使得每个音频段只包含一种音频类型，相邻音频段的音频类型不同；

5、音频聚类：采用谱聚类算法对各音频段进行聚类，得到音频类型个数，并将相同音频类型的音频段合并在一起。

S5.3、计算矩阵L的前K_max个最大的特征值及其特征矢量其中1≤i≤K_max，q_i为列矢量，根据相邻特征值之间的差值估计最优类别数(即音频类数)K：

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于瓶颈特征的复杂音频分割聚类方法，其特征在于，包括如下步骤：

S1、带瓶颈层的深度神经网络构造：读入训练数据并提取梅尔频率倒谱系数特征，再通过无监督预训练和有监督精确调整两个步骤构造一个带瓶颈层的深度神经网络特征提取器；

S3、瓶颈特征提取：提取S1步骤中的梅尔频率倒谱系数特征并输入深度神经网络特征提取器，从深度神经网络特征提取器的瓶颈层提取瓶颈特征；

S4、音频分割：采用基于贝叶斯信息准则的方法检测长信号段中的音频类型改变点，根据这些改变点把长信号段分割成若干个音频段，使得每个音频段只包含一种音频类型且相邻音频段的音频类型不同；

2.根据权利要求1所述的一种基于瓶颈特征的复杂音频分割聚类方法，其特征在于，步骤S1中带瓶颈层的深度神经网络构造具体包括以下步骤：

S1.1.2、分帧：设置音频帧的帧长为25毫秒、帧移为10毫秒，帧长和帧移所对应的采样点个数分别为N＝0.025×f_s和S＝0.01×f_s，其中f_s为音频采样频率，将读入的音频流切分成音频帧x′_t(n)，1≤t≤T，0≤n≤N-1，其中T和N分别表示帧数和每帧的采样点数；

S1.1.3、窗函数ω(n)为汉明窗：

将每帧音频信号x′_t(n)与汉明窗ω(n)相乘得到加窗后的音频信号x_t(n)：

x_t(n)＝ω(n)×x′_t(n) n＝0,1,...,N-1；t＝1,2,...,T，

S1.1.4、提取梅尔频率倒谱系数特征：

\begin{matrix} X_{t} (k) = Σ_{n = 0}^{N - 1} x_{t} (n) e^{- j \frac{2 n k π}{N}} & 0 \leq n, k \leq N - 1 \end{matrix},

\begin{matrix} H_{m} (k) = \{\begin{matrix} 0 & k < f (m - 1) \\ \frac{k - f (m - 1)}{f (m) - f (m - 1)} & f (m - 1) \leq k \leq f (m) \\ \frac{f (m + 1) - k}{f (m + 1) - f (m)} & f (m) < k \leq f (m + 1) \\ 0 & k > f (m + 1) \end{matrix} & (0 \leq m \leq M) \end{matrix},

其中，0≤m＜M，f(m)定义如下：

f (m) = (\frac{N}{f_{s}}) B^{- 1} (B (f_{l}) + m \frac{B (f_{h}) - B (f_{l})}{M + 1}),

B^-1(b)＝700(e^b/1125-1)，

因此由线性频谱X_t(k)到对数频谱S_t(m)的变换为：

\begin{matrix} S_{t} (m) = l n (Σ_{k = 0}^{N - 1} {| X_{t} (k) |}^{2} H_{m} (k)) & 0 \leq m < M \end{matrix};

\begin{matrix} C_{t} (p) = Σ_{m = 0}^{M - 1} S_{t} (m) c o s (\frac{(m + 0.5) n π}{M}) & 0 \leq p < M \end{matrix},

S1.1.4.4、对每帧音频信号重复步骤S1.1.4.1-S1.1.4.3，得到所有音频帧的梅尔频率倒谱系数特征，将它们按帧的顺序组合成一个梅尔频率倒谱系数特征矩阵；

S1.2、预训练：采用逐层堆叠受限玻尔兹曼机的方法构造一个深度置信网，得到预训练的网络参数；

E (v, h) = - \underset{i &Element; v i s}{Σ} \underset{j &Element; h i d}{Σ} v_{i} h_{j} w_{i j} - \underset{i &Element; v i s}{Σ} v_{i} a_{i} - \underset{j &Element; h i d}{Σ} h_{j} b_{j},

p (v, h) = \frac{e^{- E (v, h)}}{\underset{v, h}{Σ} e^{- E (v, h)}},

由联合分布得到边缘概率分布：

p (v) = \frac{\underset{h}{Σ} e^{- E (v, h)}}{\underset{v, h}{Σ} e^{- E (v, h)}},

p (h) = \frac{\underset{v}{Σ} e^{- E (v, h)}}{\underset{v, h}{Σ} e^{- E (v, h)}},

条件概率为：

p (v | h) = \frac{e^{- E (v, h)}}{\underset{v}{Σ} e^{- E (v, h)}},

p (h | v) = \frac{e^{- E (v, h)}}{\underset{h}{Σ} e^{- E (v, h)}},

高斯-伯努利受限玻尔兹曼机的条件概率分布可以表示为：

p (v_{i} = 1 | h) = N (a_{i} + \underset{j &Element; h i d}{Σ} h_{j} w_{i j}, V),

p (h_{j} = 1 | v) = σ (b_{j} + \underset{i &Element; v i s}{Σ} v_{i} w_{i j}),

伯努利-伯努利受限玻尔兹曼机的条件概率分布表示为：

p (v_{i} = 1 | h) = σ (a_{i} + \underset{j &Element; h i d}{Σ} h_{j} w_{i j}),

p (h_{j} = 1 | v) = σ (b_{j} + \underset{i &Element; v i s}{Σ} v_{i} w_{i j}),

在给定训练集其中n_s为训练样本数目，训练一个受限玻尔兹曼机就是通过调整参数θ＝{W,a,b}来表征给定的训练样本，使得在该参数下由相应受限玻尔兹曼机表示的概率分布尽可能地与训练数据相符，其中W表示权重系数，a表示可视层的偏移量，b表示隐含层的偏移量；

训练受限玻尔兹曼机的目标就是最大化似然函数：

θ^{*} = \underset{θ}{argmax} Π_{t = 1}^{n_{s}} p (d^{(t)}),

即：

θ^{*} = \underset{θ}{argmax} Σ_{t = 1}^{n_{s}} l n p (d^{(t)}),

其中p(d^(t))为对样本d^(t)的似然估计；

深度置信网的构造过程具体包括如下步骤：

S1.2.1、选取当前帧的前后5帧作为上下文信息，共计11*13＝143维作为第一个受限玻尔兹曼机的可视层输入节点数，隐含层节点数取固定值1024，将输入特征的每一维进行倒谱均值方差归一化，采用对比散度算法训练一个高斯-伯努利受限玻尔兹曼机，具体过程如下：

S1.2.1.2.1、隐含层中的每一个节点的激活概率可以表示为：

p ({h_{j}}^{(s)} = 1 | d^{(s)}) = σ (b_{j} + \underset{i &Element; v i s}{Σ} {d_{i}}^{(s)} w_{i j}),

S1.2.1.2.2、产生[0,1]区间的随机数r_j，得到隐含层状态h^(s)：

{h_{j}}^{(s)} = \{\begin{matrix} 1 & i f r_{j} < p ({h_{j}}^{(s)} = 1 | d^{(s)}) \\ 0 & o t h e r w i s e \end{matrix},

p (d_{i}^{(s)} = 1 | h^{(s)}) = N (a_{i} + \underset{j &Element; h i d}{Σ} {h_{j}}^{(s)} w_{i j}, V),

S1.2.1.2.4、产生[0,1]上的随机数r_i，重构可视层输入d^(s+1)：

{d_{i}}^{(s + 1)} = \{\begin{matrix} 1 & i f r_{i} < p ({d_{i}}^{(s)} = 1 | h^{(s)}) \\ 0 & o t h e r w i s e \end{matrix},

\begin{matrix} \frac{\partial \ln p (d^{(t)})}{\partial w_{i j}} = p (h_{i} = 1 | d^{(t)}) {d_{j}}^{(t)} - \underset{d}{Σ} p (d) p (h_{i} = 1 | d) d_{j} \\ \approx p (h_{i} = 1 | d^{(0)}) {d_{j}}^{(0)} - p (h_{i} = 1 | d^{(k)}) {d_{j}}^{(k)} \end{matrix},

\begin{matrix} \frac{\partial \ln p (d^{(t)})}{\partial a_{i}} = {d_{i}}^{(t)} - \underset{d}{Σ} p (d) d_{i} \\ \approx {d_{i}}^{(0)} - {d_{i}}^{(k)} \end{matrix},

\begin{matrix} \frac{\partial \ln p (d^{(t)})}{\partial b_{i}} = p (h_{i} = 1 | d^{(t)}) - \underset{d}{Σ} p (d) p (h_{i} = 1 | d) \\ \approx p (h_{i} = 1 | d^{(0)}) - p (h_{i} = 1 | d^{(k)}) \end{matrix},

\begin{matrix} {Δw}_{i, j} = {Δw}_{i, j} + [p (h_{i} = 1 | d^{(0)}) {d_{j}}^{(0)} - p (h_{i} = 1 | d^{(k)}) {d_{j}}^{(k)}] \\ {Δa}_{j} = {Δa}_{j} + [{d_{i}}^{(0)} - {d_{i}}^{(k)}] \\ {Δb}_{j} = {Δb}_{i} + [p (h_{i} = 1 | d^{(0)}) - p (h_{i} = 1 | d^{(k)})] \end{matrix};

S1.2.1.5、更新参数：

\begin{matrix} W = W + η (\frac{1}{n_{s}} Δ W) \\ a = a + η (\frac{1}{n_{s}} Δ a) \\ b = b + η (\frac{1}{n_{s}} Δ b) \end{matrix};

式中η为权重学习率，设置为0.01；

p (d_{i} = 1 | h) = σ (a_{i} + \underset{j &Element; h i d}{Σ} h_{j} w_{i j}),

此过程中，权重学习率变为0.04，迭代次数降为15次；

S1.3.1、在深度置信网的基础上再增加一个输出层，并随机初始化深度置信网最后一层与该增加的输出层之间的网络参数，从而构成一个完整的深度神经网络；

S1.3.2.1、计算样本损失函数：

t_{i} = \{\begin{matrix} 1 & i f x &Element; y_{k} \\ 0 & o t h e r w i s e \end{matrix},

单个样本损失函数记为：

e (W, b; x, t) = \frac{1}{2} | | h_{W, b} (x) - t | |^{2},

其中h_W,b(x)为网络输出层的激活函数的输出值，

e (W, b) = [\frac{1}{n} Σ_{i = 1}^{n} e (W, b; x^{(i)}, t^{(i)})] + \frac{λ}{2} Σ_{l = 1}^{m_{l} - 1} Σ_{i = 1}^{s_{l}} Σ_{j = 1}^{s_{l + 1}} {(W_{j i}^{(l)})}^{2},

a_{i}^{(l)} = σ (z_{i}^{(l)}),

z_{i}^{(l)} = Σ_{j = 1}^{s_{l}} W_{i j}^{(l)} + b_{i}^{(l)},

S1.3.2.2.2、对于输出层的每个输出单元i，其残差为：

δ_{i}^{(m_{l})} = - (t_{i} - a_{i}^{(m_{l})}) σ^{'} (z_{i}^{(m_{l})}),

其中t_i表示输出层第i个节点的标签，为输出层第i个节点的激活值，表示输出层第i个单元的加权和；

δ_{i}^{(l)} = (Σ_{j = 1}^{s_{l + 1}} W_{j i}^{(l)} δ_{i}^{(l + 1)}) σ^{'} (z_{i}^{(l)}),

σ^{'} (z_{i}^{(l)}) = a_{i}^{(l)} (1 - a_{i}^{(l)}),

S1.3.2.2.3、单个样本最终的偏导数值为：

{&dtri;}_{W^{(l)}} e (W, b; x, t) = \partial^{(l + 1)} {(a^{(l)})}^{T},

{&dtri;}_{b^{(l)}} e (W, b; x, t) = \partial^{(l + 1)},

对于i＝1：n的所有训练样本{(x⁽¹⁾,t⁽¹⁾)，(x⁽²⁾,t⁽²⁾)，...，(x⁽ⁿ⁾,t⁽ⁿ⁾)}，迭代有：

{ΔW}^{(l)} = \underset{i}{Σ} ({ΔW}^{(l, i)} + {&dtri;}_{W^{(l)}} e (W, b; x^{(i)}, t)),

{Δb}^{(l)} = = \underset{i}{Σ} ({Δb}^{(l, i)} + {&dtri;}_{b^{(l)}} e (W, b; x^{(i)}, t)),

S1.3.2.3、更新网络的连接权重W^(l)和偏移量b^(l)：

W^{(l)} = W^{(l)} - α [(\frac{1}{n} {ΔW}^{(l)}) + {λW}^{(l)}],

b^{(l)} = b^{(l)} - α [(\frac{1}{n} {Δb}^{(l)})],

其中α为学习速率，设置为0.01，λ为平衡因子，设为0.08。

3.根据权利要求1所述的一种基于瓶颈特征的复杂音频分割聚类方法，其特征在于，步骤S2中对读入的复杂音频信号做端点检测包括以下步骤：

\begin{matrix} E_{t} = Σ_{n = 1}^{N} x_{t}^{2} (n) & 1 \leq t \leq T \end{matrix},

T_E＝min(E)+0.3×[mean(E)-min(E)]，

4.根据权利要求1所述的一种基于瓶颈特征的复杂音频分割聚类方法，其特征在于，步骤S3中瓶颈特征提取包括以下步骤：

S3.1、按照步骤S1.1.4提取端点检测后非静音信号的梅尔频率倒谱系数特征；

S3.2、将梅尔频率倒谱系数特征输入到深度神经网络特征提取器，从深度神经网络特征提取器的瓶颈层提取瓶颈特征。

5.根据权利要求1所述的一种基于瓶颈特征的复杂音频分割聚类方法，其特征在于，步骤S4中音频分割包括以下步骤：

S4.2、计算两个相邻数据窗x和y之间的贝叶斯信息准则距离，贝叶斯信息准则距离计算公式如下：

\begin{matrix} Δ B I C = (n_{x} + n_{y}) \ln (| \det (cov (F_{z})) |) - n_{x} \ln (| \det (cov (F_{x})) |) - \\ n_{y} \ln (| \det (cov (F_{y})) |) - α (d + \frac{d (d + 1)}{2}) \ln (n_{x} + n_{y}) \end{matrix},

其中，z是将数据窗x和y合并之后得到的数据窗，n_x和n_y分别是数据窗x和y的帧数，F_x、F_y和F_z分别是数据窗x、y和z的特征矩阵，cov(F_x)、cov(F_y)和cov(F_z)分别是特征矩阵F_x、F_y和F_z的协方差矩阵，det(·)表示求矩阵的行列式值，α是惩罚系数；

S4.3、如果贝叶斯信息准则距离ΔBIC大于零，则这两个数据窗被视为属于两个不同的音频类型，否则这两个数据窗被视为属于同一个音频类型并将它们合并；

S4.4、不断滑动数据窗判断两个相邻数据窗之间的贝叶斯信息准则距离是否大于零，并保存音频类型改变点，直到长信号段的所有相邻数据窗之间的贝叶斯信息准则距离都被判断完为止，得到若干只包含一种音频类型的音频段，且相邻音频段的类型不同。

6.根据权利要求1所述的一种基于瓶颈特征的复杂音频分割聚类方法，其特征在于，步骤S5中音频事件聚类包括以下步骤：

A_{j k} = \{\begin{matrix} \exp (\frac{- d^{2} (F^{j}, F^{k})}{2 σ_{j} σ_{k}}) & j &NotEqual; k \\ 0 & j = k \end{matrix},

L = H^{- \frac{1}{2}} {AH}^{- \frac{1}{2}},

S5.3、计算矩阵L的前K_max个最大的特征值及其特征矢量其中1≤i≤K_max，q_i为列矢量，根据相邻特征值之间的差值估计最优类别数，即音频类数K：

K = \underset{i &Element; [1, K_{\max} - 1]}{argmax} (λ_{i} - λ_{i + 1}),

S5.4、归一化矩阵Q的每一行，得到矩阵Y∈R^J×K，Y的第(j,k)个元素Y_jk：

\begin{matrix} Y_{j k} = \frac{q_{j k}}{\sqrt{(Σ_{k = 1}^{K} {q_{j k}}^{2})}} & 1 \leq j \leq J \end{matrix},

S5.5、将矩阵中的每一行当作空间R^K中的一个点，利用K均值算法(K-means algorithm)将矩阵Y的J行聚类成K类。将特征矩阵F^j所对应的音频段判为第k类，当且仅当矩阵Y的第j行被聚类在第k类中；