CN109147817B

CN109147817B - 一种基于变异受限玻尔兹曼机的去噪音频特征提取方法

Info

Publication number: CN109147817B
Application number: CN201810996275.3A
Authority: CN
Inventors: 龙华; 杨明亮; 宋耀莲
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2018-08-29
Filing date: 2018-08-29
Publication date: 2023-05-12
Anticipated expiration: 2038-08-29
Also published as: CN109147817A

Abstract

本发明涉及一种基于变异受限玻尔兹曼机的去噪音频特征提取算法，属于音频信号处理技术领域。本发明利用玻尔兹曼机强大的无监督学习能力对采集的音频信号从高维可视层的输入值映射到低维隐藏层，并利用少量的标签信息利用音频特征信号出现的概率大于噪声特征信号的概率实现对低维特征数据进行聚类分组，从而达到对音频信号去噪特征提取的目的。本发明抗干扰能力强，对处理的音频信号长度要求低，算法简单，并且一次性完成了对音频信号的去噪、特征提取、降维的处理，编程易于实现，对于实际的音频信号处理也具有强大的稳定性和鲁棒性。

Description

一种基于变异受限玻尔兹曼机的去噪音频特征提取方法

技术领域

本发明涉及一种基于变异受限玻尔兹曼机的去噪音频特征提取方法，属于音频特征信号处理技术领域。

背景技术

现有的音频特征提取大多是对音频信号特征系数的提取，如线性预测系数(LPC)、线性预测倒谱系数(LPCC)、梅尔频率倒谱系数(MFCC)等，这些特征提取方法要么是对于音频信号直接进行系数特征提取，提取出的特征参数也需进行降维处理才可用于音频分类或音频识别中，一系列的处理流程使得整个音频信号处理过程花费了大量的时间。本文中所提出的算法利用受限玻尔兹曼机强大的无监督学习能力和贝叶斯相关知识实现了对不定长音频信号的去噪特征提取，其间也实现了降维处理。并且受限玻尔兹曼机对于大数据处理具有强大的稳定性和鲁棒性。

发明内容

本发明是利用受限玻尔兹曼机强大的无监督学习能力，将不定长音频信号作为模型的输入，通过权值阈值计算映射到低维的隐含层空间。因为有用音频特征信号出现的概率要大于噪声特征信号的概率，故利用其特性通过阈值函数和标签信息对隐空间的特征参数进行聚类分组。其间在对模型进行训练过程中为了更快更高效的求取模型的阈值和权值引入了变异算子即以一定概率接受较差解，从而也避免了寻优过程陷入局部最优的问题。本算法理论简单，适用于现在的大规模音频数据处理，对目前的音频特征提取算法提供了一种新的思路，在实现特征提取时候同时进行了音频信号的去噪和降维处理，其算法也可用于人工智能的音频识别等相关领域。

本发明的技术方案为：一种基于变异受限玻尔兹曼机的去噪音频特征提取算法，该方法具体包括以下步骤：

(1)音频信号采集：采集音频信号，获得音频样本。

(2)信号预处理：将采集的音频信号进行分组，分别为训练组合测试组。

(3)受限去噪玻尔兹曼机模型的搭建：利用受限玻尔兹曼机优良的无监督学习能力构建学习模型，其模型分为可视层和隐含层以及标签层。

(4)去噪音频特征模型训练：变异受限玻尔兹曼机模型首先利用有用音频特征出现的概率总大于噪声特征出现的概率进而实现对预训练的RBM模型的隐含层分成两组，然后以混合结构的变异受限玻尔兹曼机对输入的高斯超向量的音频特征和噪声特征进行分别建模和训练。

(5)音频特征信号的对比检验：用测试组数据送入去噪受限玻尔兹曼机模型中，将训练组所获得的特征值与本次测试数据所获得的特征值进行相似度计算进而判断特征提取与聚类结果的准确性。

上述的一种基于变异受限玻尔兹曼机的去噪音频特征提取算法，步骤(1)中因为所取样本为语音信号故将麦克风接收声道数设置为单声道，设置采样频率要满足奈奎斯特采样定理即采样频率应大于等于2倍采样信号的最高频率，获取得到为数字信号x(n)。

上述的一种基于变异受限玻尔兹曼机的去噪音频特征提取算法，步骤(2)中信号预处理将采集好的数字信号读出并进行分组，分为训练组x₁和测试组x₂，训练组用于受限玻尔兹曼的的模型训练以获取较好的模型参数，测数组数据用于测试所训练出的受限玻尔兹曼机去噪音频特征提取模型的真实性能。

上述的一种基于变异受限玻尔兹曼机的去噪音频特征提取算法，步骤(3)中受限玻尔兹曼机去噪音频特征提取模型的搭建包括以下步骤：

(1)假定隐含层低维空间为T，F为特征维数，C为混合高斯数，高斯超向量(GMM)是由高斯的均值向量与总体差异构成，对于一段音频信号可由如下高斯超向量表示：

M＝x+Tw (1)

其中x表示与说话人和信道无关的音频超向量，由通用背景模型(UBM)的高斯均值向量构成，为整个高斯超向量空间的中心；T为低维空间CF×R的载荷矩阵即总体差异空间，R为总体差异因子个数；w为服从标准正太分布的随机向量即总体差异因子；对于超向量M其均值为x，协方差为TT^T，T和w可通过期望最大化(EM)得到估计值。

(2)受限玻尔兹曼是一种无自反馈的随机神经网络模型，层间双向全连接，层内无连接。RBM模型是马尔科夫随机场中的一种，所有节点的联合分布服从玻尔兹曼分布，故可将RBM看做是一种能量模型并用概率测度进行求解。RBM的可视层与隐含层之间的系统能量函数定义为如下表达式：

E(v,h)＝-v^TWh-b^Tv-a^Th (2)

其中v可视层即本文中的高斯超向量M；h为隐含层即本文所需的低维特征向量；W为层间权值；b为正向网络阈值；a为反向网络阈值。基于RBM的能量函数可进一步定义可视层与隐含层直接的联合概率分布：

其中符号含义同公式(2)，Z为归一化因子

在深度神经网络的训练过程中，可见层单元一般贝努力或者高斯分布，隐含层单元服从贝努力分布。由于RBM模型层内无连接，层间全连接使得给定可见层单元状态时，其隐含层的激活状态是相互独立的，隐含层单元的激活概率可定义为：

其中i为输入层神经元单元，j为隐含层神经元，后述公式下标相同，上述公式

因为RBM模型的结构是对称的，所以可视层单元的激活函数定义定为：

其中归一化函数同公式(7)，由于归一化因子的存在，可见层与隐含层的联合概率p(v,h)无法直接计算，一般通过对比散度法(CD)进行近似求解。

(3)对比散度算法即使用初始化训练数据M，仅需要使用k(通常k＝1)步Gibbs采样就可以得到足够好的近似求解值。首先将可见层单元的状态设置成一个训练样本M，并利用如下公式计算隐藏层单元Y：

在所有隐藏单元状态确定了之后，反向根据如下公式来确定可见层的一个重构M′：

然后将重构的可见层作为真实的模型带入RBM模型中得到Y′:

我们将M与Y做乘积得到矩阵z，将M′与Y′做乘积得到矩阵Z′，两个矩阵的行为输入层即可视层的单元数码，列为隐含层的单元数目。进而就可以进行梯度下降算法了，进一步受限玻尔兹曼机的权值阈值更新有如下公式：

W^k+1＝W^k+λ(Z-Z′) (11)

b^k+1＝b^k+λ(Y-Y′) (12)

a^k+1＝a^k+λ(M-M′) (13)

其中λ为自适应学习率，根据模型值M与训练集的期望M′之间的差值进行权值阈值的迭代直到其误差值小于预设值，从而通过训练获得所需要的受限波尔滋蔓机模型。传统的权值阈值迭代求解是根据前后输出值之间的误差大小来完全确定是否接受本次迭代求解，本算法为了避免陷入局部最优解而错过全局最优解，提高权值阈值的求解迭代速度，本算法引入变异算子即随机接受较差解算法，定义控制算子参量为D,其迭代过程中满足如下公式：

D^k+1＝α*D^k (14)

其中α为[0，1]区间内非常接近于1的数；k为迭代次数；D一般设置为1000或者更高，当迭代到预设停止迭代数值或者D的预设最小值停止值时停止迭代。

定义模型值M与训练集的期望M′之间的差值第一次为ε₁和第二次为ε₂，其变异算子定义为：

公式表示，根据计算两次模型值与训练集的期望之间的差值，若第二次的模型值与训练集的期望之间的差值比第一次模型值与训练集的期望之间的差值小，则说明该次权值阈值求解有效，若第二次的差值比第一次的差值大并不放弃此次的求解值，而是以一定的概率接受该次所求解的权值阈值，从而避免了陷入局部最优的问题。

上述的一种基于变异受限玻尔兹曼机的去噪音频特征提取算法，步骤(4)中去噪音频特征模型训练首先将上述中所建立的训练模型的隐含层分成两组，因为音频特征出现的概率总大于噪声特征出现的概率，因此其对应的隐含层单元的激活值更大，且激活次数越多，根据这一特点实现对隐含层单元的聚类分组。其分组所使用的概率函数即公式(7)归一化函数，高斯超向量输入即可得到对应的低维特征向量也可称为低维概率向量，根据下式的阈值函数进而可实现对隐含层单元通过对接入权值进行标注：

其中y_kj为低k个样本，第j个隐含层对应的激活值，W_ij为受限玻尔兹曼机模型的权值，m_j是样本标签信息，w和

为隐含层单元的激活状态值和非激活时状态值。因为隐含层音频特征出现的概率总大于噪声特征出现的概率，故可利用激活单元的概率吧隐含层的激活值大的单元提取出来，并以此作为目标的特征提取单元。根据上述的阈值函数将隐含层分为音频特征组合噪声组，通过这种聚类分组方式使得模型对原始的高斯超向量的特征进行预备性选择，这种预备性原则过程即实现了对音频信号的去噪、特征提取、降维操作。

上述的一种基于变异受限玻尔兹曼机的去噪音频特征提取算法，步骤(5)中音频特征信号的对比检验是检验其算法的优越性其合适的评判标准也是不可缺少的，本算法采用余弦相似度作为去噪音频特征之间的度量，其计算公式如下：

其中y₁和y₂分别表示训练和测试组的音频特征，||.||表示L₂范数。其计算值越大说明其两个特征之间相关性越大，反正则说明相关性越小。通过与同类特征提取算法余弦相似度的比较得出其本算法的可靠性。

本发明与现有的音频特征提取方法的优点有：

(1)用低维定长特征向量表示变长语音，与传统的提取音频信号的系数特征方式完全不同，提出了一种有别于过去的音频特征提取方法，

(2)利用音频特征出现的概率大于噪声特征出现概率的特点，通过阈值函数和标签信息实现对音频特征和噪声特征的聚类分组，从而实现了去噪音频特征提取的目的，对原始音频干扰性不敏感。

(3)受限玻尔兹曼机无监督学习能力强，对于海量的音频信息处理具有强大的鲁棒性和稳定性，势必成为深度学习神经网络在音频信息处理领域的又一大研究点。

附图说明

图1为本发明去噪音频特征提取流程图；

图2为去噪受限玻尔兹曼机网络图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

如图1-2所示，一种基于音频特征信号的分类方法，其具体步骤如下：

(1)音频信号采集：采集音频信号，获得音频样本。

(4)去噪音频特征模型训练：首先利用音频特征出现的概率总大于噪声特征出现的概率实现对预训练的受限去噪玻尔兹曼机模型的隐含层分成两组，然后以混合结构的变异受限玻尔兹曼机对训练组的高斯超向量的音频特征和噪声特征进行分别建模和训练。

(5)音频特征信号的对比检验：用测试组数据送入搭建好的受限去噪玻尔兹曼机模型中，将训练组所获得的特征值与本次测试数据所获得的特征值进行相似度计算进而判断特征提取与聚类结果的准确性。

所述音频采集是通过录音装置收录样音频，因为此处采集的信号为语音信号，故设置其采集声道为单声道，若采集其他类型的音频信号则进行相应的声道设置，信号采集时需要设置好声道模式，采样频率，以及量化间隔，其中采样频率应满足奈奎斯特采样定理，即采样频率应大于等于2倍采样信号的最高频率，获取得到为数字信号x(n)。

所述信号预处理是指将采集好的数字信号进行读取出并进行分组，分为训练组x₁和测试组x₂，训练组是为了训练出较好的模型参数，测数组数据是为了检验训练出的模型性能。

所述受限玻尔兹曼机去噪音频特征提取模型的搭建包括以下步骤：

(1)模型搭建首先定义隐含层低维空间为T，F为特征维数，C为混合高斯数，高斯超向量(GMM)是由高斯的均值向量与总体差异构成，对于一段音频信号可由如下高斯超向量表示：

M＝x+Tw (1)

(2)受限玻尔兹曼RBM是一种无自反馈的随机神经网络模型，层间双向全连接，层内无连接。RBM模型是马尔科夫随机场中的一种，所有节点的联合分布服从玻尔兹曼分布，故可将RBM看做是一种能量模型并用概率测度进行求解。RBM的可视层与隐含层之间的系统能量函数定义为如下表达式：

E(v,h)＝-v^TWh-b^Tv-a^Th (2)

其中符号含义同公式(2)，Z为归一化因子又称分配函数，其表达式如下：

在深度神经网络的训练过程中，可见层单元一般贝努力或者高斯分布，隐含层单元服从贝努力分布。由于RBM模型层内无连接，层间全连接使得给定可见层单元状态时，其隐含层的激活状态是相互独立的，隐含层单元的激活概率定义为：

其中i为输入层神经元单元，j为隐含层神经元，后述公式下标相同，其中δ(x)为归一化函数：

然后将重构的可见层作为真实的模型带入RBM模型中得到Y′:

我们将M与Y做乘积得到矩阵z，将M′与Y′做乘积得到矩阵Z′，两个矩阵的行为输入层即可视层的单元数码，列为隐含层的单元数目。进而就可以进行梯度下降算法了：

基于求得的梯度，进一步受限玻尔兹曼机的权值阈值更新有如下公式：

W^k+1＝W^k+λ(Z-Z′) (16)

b^k+1＝b^k+λ(Y-Y′) (17)

a^k+1＝a^k+λ(M-M′) (18)

其中λ为自适应学习率，根据模型值M与训练集的期望M′之间的差值进行权值阈值的迭代直到其误差值小于预设值，从而通过训练获得所需要的受限波尔滋蔓机模型。

权值阈值迭代求解过程中，为了避免陷入局部最优解而错过全局最优解，提高权值阈值的求解迭代速度，本算法引入变异算子即随机接受较差解算法，定义控制算子参量为D,其迭代过程中满足如下公式：

D^k+1＝α×D^k (19)

其中α为[0，1]区间内非常接近于1的数；k为迭代次数；D值设置越大容许迭代次数越多花费的时间也就越多，一般设置为1000或者更高，D当迭代到预设停止迭代数值或者D的预设最小值停止值时停止迭代。

本公式表示，两次迭代求解权值阈值并计算两次模型值与训练集的期望之间的差值，若第二次的模型值与训练集的期望之间的差值比第一次模型值与训练集的期望之间的差值小，则说明该次权值阈值求解有效，若第二次的差值比第一次的差值大并不放弃此次的求解值，而是以一定的概率接受该次所求解的权值阈值，从而避免了陷入局部最优的问题。

所述去噪音频特征模型训练包括以下步骤：

首先将上述所建立的训练模型的隐含层分成两组，因为音频特征出现的概率总大于噪声特征出现的概率，因此其对应的隐含层单元的激活值更大，且激活次数越多，根据这一特点实现对隐含层单元的聚类分组。其分组所使用的概率函数即公式(7)归一化函数，高斯超向量输入即可得到对应的低维特征向量也可称为低维概率向量，根据下式的阈值函数进而可实现对隐含层单元通过对接入权值进行标注：

所述音频特征信号的对比检验是指为了检验其算法的优越性其合适的评判标准也是不可缺少的，本算法采用余弦相似度作为去噪音频特征之间的度量，其计算公式如下：

上面结合附图对本发明的具体实施方式作了详细说明，但本发明并不限于上述实施方式，在本领域科技研究人员所具备的知识范围内，不脱离或背离本发明宗旨的前提下可以应用于其他相关领域，如人工智能、音频信息大数据处理、音频识别等。

Claims

1.一种基于变异受限玻尔兹曼机的去噪音频特征提取方法，其特征在于：具体步骤如下：

(1)音频信号采集：采集音频信号，获得音频样本；

(2)信号预处理：将采集的音频信号进行分组，分别为训练组和测试组；

(3)受限去噪玻尔兹曼机模型的搭建：利用受限玻尔兹曼机构建受限去噪玻尔兹曼机模型，在受限去噪玻尔兹曼机模型的权值阈值求解过程中引入变异算子获得变异的受限玻尔兹曼机模型即受限去噪玻尔兹曼机模型，模型分为可视层、隐含层以及标签层；

所述受限去噪玻尔兹曼机模型的搭建包括以下步骤：

①模型搭建首先定义T为隐含层低维空间，F为特征维数，C为混合高斯数，高斯超向量是由高斯的均值向量与总体差异构成，对于一段音频信号可由如下高斯超向量表示：

N＝x+Tw

其中x表示与说话人和信道无关的音频超向量，由通用背景模型的高斯均值向量构成，为整个高斯超向量空间的中心；T为低维空间CF×R的载荷矩阵即总体差异空间，R为总体差异因子个数；w为服从标准正态分布的随机向量即总体差异因子；对于超向量N其均值为x，协方差为TT^T，T和w可通过期望最大化得到估计值；

②将受限玻尔兹曼机模型看做是一种能量模型并用概率测度进行求解，其可视层与隐含层之间的系统能量函数定义为如下表达式：

E(v,h)＝-v^TWh-b^Tv-a^Th

其中v可视层即高斯超向量N；h为隐含层即低维特征向量；W为层间权值；b为正向网络阈值；a为反向网络阈值，基于受限玻尔兹曼机模型的能量函数进一步定义可视层与隐含层直接的联合概率分布：

其中Z为归一化因子又称分配函数，其表达式如下：

在深度神经网络的训练过程中，可见层单元服从贝努力分布或者高斯分布，隐含层单元服从贝努力分布，由于受限玻尔兹曼机模型层内无连接，层间全连接使得给定可见层单元状态时，其隐含层的激活状态是相互独立的，隐含层单元的激活概率定义为：

其中i为输入层神经元单元，j为隐含层神经元，δ(x)为归一化函数：

因为受限玻尔兹曼机模型的结构是对称的，所以可视层单元的激活函数定义定为：

可见层与隐含层的联合概率p(v,h)无法直接计算，通过对比散度法进行近似求解；

③对比散度算法即使用初始化训练数据，首先将可见层单元的状态设置成一个训练样本M，并利用如下公式计算隐藏层单元Y：

在所有隐藏单元状态确定之后，根据如下公式来确定可见层的一个重构M′：

然后将重构的可见层作为真实的模型带入受限玻尔兹曼机模型中得到Y′：

将M与Y做乘积得到矩阵Z，将M′与Y′做乘积得到矩阵Z′，两个矩阵的行为输入层即可视层的单元数目，列为隐含层的单元数目，进行梯度下降计算：

基于求得的梯度，进一步受限玻尔兹曼机模型的权值阈值更新为：

W^k+1＝W^k+λ(Z-Z′)

b^k+1＝b^k+λ(Y-Y′)

a^k+1＝a^k+λ(M-M′)

其中λ为自适应学习率，根据训练样本M与训练集的期望M′之间的差值进行权值阈值的迭代直到其误差值小于预设值，从而通过训练获得所需要的受限玻尔兹曼机模型；

④权值阈值迭代求解过程中，引入变异算子即随机接受较差解算法，定义控制算子参量为D，其迭代过程中满足如下公式：

D^k+1＝α×D^k

其中α为[0，1]区间内非常接近于1的数；k为迭代次数；D值设置越大容许迭代次数越多花费的时间也就越多，D当迭代到预设停止迭代数值或者D的预设最小值停止值时停止迭代；

定义训练样本M与训练集的期望M′之间的差值第一次为ε₁和第二次为ε₂，其变异算子定义为：

上述公式两次迭代求解权值阈值并计算两次模型值与训练集的期望之间的差值，若第二次的模型值与训练集的期望之间的差值比第一次模型值与训练集的期望之间的差值小，则说明该次权值阈值求解有效，若第二次的差值比第一次的差值大并不放弃此次的求解值，而是以一定的概率接受该次所求解的权值阈值；

(4)受限去噪玻尔兹曼机模型训练：首先利用音频特征出现的概率总大于噪声特征出现的概率将变异受限玻尔兹曼机模型的隐含层分成两组，得到混合结构的受限去噪玻尔兹曼机模型，然后以混合结构的受限去噪玻尔兹曼机模型对训练组的高斯超向量的音频特征和噪声特征进行分别建模和训练以获得去噪音频特征信号；

(5)音频特征信号的对比检验：将测试组送入搭建好的受限去噪玻尔兹曼机模型中，将训练组所获得的特征值与本次测试数据所获得的特征值进行相似度计算进而判断特征提取与聚类结果的准确性。

2.根据权利要求1所述的基于变异受限玻尔兹曼机的去噪音频特征提取方法，其特征在于：所述音频信号采集时需要设置好声道模式、采样频率以及量化间隔，其中采样频率应满足奈奎斯特采样定理，即采样频率应大于等于2倍采样信号的最高频率，获取得到为数字信号x(n)。

3.根据权利要求1所述的基于变异受限玻尔兹曼机的去噪音频特征提取方法，其特征在于：所述信号预处理将采集好的音频信号进行读取出并进行分组，分为训练组x₁和测试组x₂，训练组用于训练模型参数，测试组用于检验训练出的模型结果。

4.根据权利要求1所述的基于变异受限玻尔兹曼机的去噪音频特征提取方法，其特征在于：所述受限去噪玻尔兹曼机模型训练包括以下步骤：

首先将建立的受限去噪玻尔兹曼机模型的隐含层分成两组，并用归一化函数δ(x)对隐含层单元的聚类分组，根据下式的阈值函数实现对隐含层单元通过对接入权值进行标注：

其中y_kj为第k个样本，第j个隐含层对应的激活值，W_k为受限玻尔兹曼机模型的权值，m_j是样本标签信息，w和

为隐含层单元的激活状态值和非激活时状态值，根据上述的阈值函数将隐含层分为音频特征组和噪声组。

5.根据权利要求1所述的基于变异受限玻尔兹曼机的去噪音频特征提取方法，其特征在于：所述音频特征信号的对比检验采用余弦相似度作为去噪音频特征之间的度量，其计算公式如下：

其中y₁和y₂分别表示训练和测试组的音频特征，||.||表示L₂范数，其计算值越大说明其两个特征之间相关性越大，反之则说明相关性越小。