CN109147817B - 一种基于变异受限玻尔兹曼机的去噪音频特征提取方法 - Google Patents
一种基于变异受限玻尔兹曼机的去噪音频特征提取方法 Download PDFInfo
- Publication number
- CN109147817B CN109147817B CN201810996275.3A CN201810996275A CN109147817B CN 109147817 B CN109147817 B CN 109147817B CN 201810996275 A CN201810996275 A CN 201810996275A CN 109147817 B CN109147817 B CN 109147817B
- Authority
- CN
- China
- Prior art keywords
- boltzmann machine
- value
- layer
- training
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 38
- 230000005236 sound signal Effects 0.000 claims abstract description 31
- 230000000007 visual effect Effects 0.000 claims abstract description 18
- 239000010410 layer Substances 0.000 claims description 112
- 238000012549 training Methods 0.000 claims description 59
- 230000006870 function Effects 0.000 claims description 26
- 230000004913 activation Effects 0.000 claims description 22
- 238000000034 method Methods 0.000 claims description 21
- 238000012360 testing method Methods 0.000 claims description 21
- 239000013598 vector Substances 0.000 claims description 21
- 238000005070 sampling Methods 0.000 claims description 15
- 238000010606 normalization Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000035772 mutation Effects 0.000 claims description 9
- 239000011229 interlayer Substances 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 210000002569 neuron Anatomy 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000012804 iterative process Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000005315 distribution function Methods 0.000 claims description 2
- 238000013139 quantization Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 11
- 230000009467 reduction Effects 0.000 abstract description 6
- 241001503987 Clematis vitalba Species 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Quality & Reliability (AREA)
- Complex Calculations (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于变异受限玻尔兹曼机的去噪音频特征提取算法,属于音频信号处理技术领域。本发明利用玻尔兹曼机强大的无监督学习能力对采集的音频信号从高维可视层的输入值映射到低维隐藏层,并利用少量的标签信息利用音频特征信号出现的概率大于噪声特征信号的概率实现对低维特征数据进行聚类分组,从而达到对音频信号去噪特征提取的目的。本发明抗干扰能力强,对处理的音频信号长度要求低,算法简单,并且一次性完成了对音频信号的去噪、特征提取、降维的处理,编程易于实现,对于实际的音频信号处理也具有强大的稳定性和鲁棒性。
Description
技术领域
本发明涉及一种基于变异受限玻尔兹曼机的去噪音频特征提取方法,属于音频特征信号处理技术领域。
背景技术
现有的音频特征提取大多是对音频信号特征系数的提取,如线性预测系数(LPC)、线性预测倒谱系数(LPCC)、梅尔频率倒谱系数(MFCC)等,这些特征提取方法要么是对于音频信号直接进行系数特征提取,提取出的特征参数也需进行降维处理才可用于音频分类或音频识别中,一系列的处理流程使得整个音频信号处理过程花费了大量的时间。本文中所提出的算法利用受限玻尔兹曼机强大的无监督学习能力和贝叶斯相关知识实现了对不定长音频信号的去噪特征提取,其间也实现了降维处理。并且受限玻尔兹曼机对于大数据处理具有强大的稳定性和鲁棒性。
发明内容
本发明是利用受限玻尔兹曼机强大的无监督学习能力,将不定长音频信号作为模型的输入,通过权值阈值计算映射到低维的隐含层空间。因为有用音频特征信号出现的概率要大于噪声特征信号的概率,故利用其特性通过阈值函数和标签信息对隐空间的特征参数进行聚类分组。其间在对模型进行训练过程中为了更快更高效的求取模型的阈值和权值引入了变异算子即以一定概率接受较差解,从而也避免了寻优过程陷入局部最优的问题。本算法理论简单,适用于现在的大规模音频数据处理,对目前的音频特征提取算法提供了一种新的思路,在实现特征提取时候同时进行了音频信号的去噪和降维处理,其算法也可用于人工智能的音频识别等相关领域。
本发明的技术方案为:一种基于变异受限玻尔兹曼机的去噪音频特征提取算法,该方法具体包括以下步骤:
(1)音频信号采集:采集音频信号,获得音频样本。
(2)信号预处理:将采集的音频信号进行分组,分别为训练组合测试组。
(3)受限去噪玻尔兹曼机模型的搭建:利用受限玻尔兹曼机优良的无监督学习能力构建学习模型,其模型分为可视层和隐含层以及标签层。
(4)去噪音频特征模型训练:变异受限玻尔兹曼机模型首先利用有用音频特征出现的概率总大于噪声特征出现的概率进而实现对预训练的RBM模型的隐含层分成两组,然后以混合结构的变异受限玻尔兹曼机对输入的高斯超向量的音频特征和噪声特征进行分别建模和训练。
(5)音频特征信号的对比检验:用测试组数据送入去噪受限玻尔兹曼机模型中,将训练组所获得的特征值与本次测试数据所获得的特征值进行相似度计算进而判断特征提取与聚类结果的准确性。
上述的一种基于变异受限玻尔兹曼机的去噪音频特征提取算法,步骤(1)中因为所取样本为语音信号故将麦克风接收声道数设置为单声道,设置采样频率要满足奈奎斯特采样定理即采样频率应大于等于2倍采样信号的最高频率,获取得到为数字信号x(n)。
上述的一种基于变异受限玻尔兹曼机的去噪音频特征提取算法,步骤(2)中信号预处理将采集好的数字信号读出并进行分组,分为训练组x1和测试组x2,训练组用于受限玻尔兹曼的的模型训练以获取较好的模型参数,测数组数据用于测试所训练出的受限玻尔兹曼机去噪音频特征提取模型的真实性能。
上述的一种基于变异受限玻尔兹曼机的去噪音频特征提取算法,步骤(3)中受限玻尔兹曼机去噪音频特征提取模型的搭建包括以下步骤:
(1)假定隐含层低维空间为T,F为特征维数,C为混合高斯数,高斯超向量(GMM)是由高斯的均值向量与总体差异构成,对于一段音频信号可由如下高斯超向量表示:
M=x+Tw (1)
其中x表示与说话人和信道无关的音频超向量,由通用背景模型(UBM)的高斯均值向量构成,为整个高斯超向量空间的中心;T为低维空间CF×R的载荷矩阵即总体差异空间,R为总体差异因子个数;w为服从标准正太分布的随机向量即总体差异因子;对于超向量M其均值为x,协方差为TTT,T和w可通过期望最大化(EM)得到估计值。
(2)受限玻尔兹曼是一种无自反馈的随机神经网络模型,层间双向全连接,层内无连接。RBM模型是马尔科夫随机场中的一种,所有节点的联合分布服从玻尔兹曼分布,故可将RBM看做是一种能量模型并用概率测度进行求解。RBM的可视层与隐含层之间的系统能量函数定义为如下表达式:
E(v,h)=-vTWh-bTv-aTh (2)
其中v可视层即本文中的高斯超向量M;h为隐含层即本文所需的低维特征向量;W为层间权值;b为正向网络阈值;a为反向网络阈值。基于RBM的能量函数可进一步定义可视层与隐含层直接的联合概率分布:
其中符号含义同公式(2),Z为归一化因子在深度神经网络的训练过程中,可见层单元一般贝努力或者高斯分布,隐含层单元服从贝努力分布。由于RBM模型层内无连接,层间全连接使得给定可见层单元状态时,其隐含层的激活状态是相互独立的,隐含层单元的激活概率可定义为:
其中归一化函数同公式(7),由于归一化因子的存在,可见层与隐含层的联合概率p(v,h)无法直接计算,一般通过对比散度法(CD)进行近似求解。
(3)对比散度算法即使用初始化训练数据M,仅需要使用k(通常k=1)步Gibbs采样就可以得到足够好的近似求解值。首先将可见层单元的状态设置成一个训练样本M,并利用如下公式计算隐藏层单元Y:
在所有隐藏单元状态确定了之后,反向根据如下公式来确定可见层的一个重构M′:
然后将重构的可见层作为真实的模型带入RBM模型中得到Y′:
我们将M与Y做乘积得到矩阵z,将M′与Y′做乘积得到矩阵Z′,两个矩阵的行为输入层即可视层的单元数码,列为隐含层的单元数目。进而就可以进行梯度下降算法了,进一步受限玻尔兹曼机的权值阈值更新有如下公式:
Wk+1=Wk+λ(Z-Z′) (11)
bk+1=bk+λ(Y-Y′) (12)
ak+1=ak+λ(M-M′) (13)
其中λ为自适应学习率,根据模型值M与训练集的期望M′之间的差值进行权值阈值的迭代直到其误差值小于预设值,从而通过训练获得所需要的受限波尔滋蔓机模型。传统的权值阈值迭代求解是根据前后输出值之间的误差大小来完全确定是否接受本次迭代求解,本算法为了避免陷入局部最优解而错过全局最优解,提高权值阈值的求解迭代速度,本算法引入变异算子即随机接受较差解算法,定义控制算子参量为D,其迭代过程中满足如下公式:
Dk+1=α*Dk (14)
其中α为[0,1]区间内非常接近于1的数;k为迭代次数;D一般设置为1000或者更高,当迭代到预设停止迭代数值或者D的预设最小值停止值时停止迭代。
定义模型值M与训练集的期望M′之间的差值第一次为ε1和第二次为ε2,其变异算子定义为:
公式表示,根据计算两次模型值与训练集的期望之间的差值,若第二次的模型值与训练集的期望之间的差值比第一次模型值与训练集的期望之间的差值小,则说明该次权值阈值求解有效,若第二次的差值比第一次的差值大并不放弃此次的求解值,而是以一定的概率接受该次所求解的权值阈值,从而避免了陷入局部最优的问题。
上述的一种基于变异受限玻尔兹曼机的去噪音频特征提取算法,步骤(4)中去噪音频特征模型训练首先将上述中所建立的训练模型的隐含层分成两组,因为音频特征出现的概率总大于噪声特征出现的概率,因此其对应的隐含层单元的激活值更大,且激活次数越多,根据这一特点实现对隐含层单元的聚类分组。其分组所使用的概率函数即公式(7)归一化函数,高斯超向量输入即可得到对应的低维特征向量也可称为低维概率向量,根据下式的阈值函数进而可实现对隐含层单元通过对接入权值进行标注:
其中ykj为低k个样本,第j个隐含层对应的激活值,Wij为受限玻尔兹曼机模型的权值,mj是样本标签信息,w和为隐含层单元的激活状态值和非激活时状态值。因为隐含层音频特征出现的概率总大于噪声特征出现的概率,故可利用激活单元的概率吧隐含层的激活值大的单元提取出来,并以此作为目标的特征提取单元。根据上述的阈值函数将隐含层分为音频特征组合噪声组,通过这种聚类分组方式使得模型对原始的高斯超向量的特征进行预备性选择,这种预备性原则过程即实现了对音频信号的去噪、特征提取、降维操作。
上述的一种基于变异受限玻尔兹曼机的去噪音频特征提取算法,步骤(5)中音频特征信号的对比检验是检验其算法的优越性其合适的评判标准也是不可缺少的,本算法采用余弦相似度作为去噪音频特征之间的度量,其计算公式如下:
其中y1和y2分别表示训练和测试组的音频特征,||.||表示L2范数。其计算值越大说明其两个特征之间相关性越大,反正则说明相关性越小。通过与同类特征提取算法余弦相似度的比较得出其本算法的可靠性。
本发明与现有的音频特征提取方法的优点有:
(1)用低维定长特征向量表示变长语音,与传统的提取音频信号的系数特征方式完全不同,提出了一种有别于过去的音频特征提取方法,
(2)利用音频特征出现的概率大于噪声特征出现概率的特点,通过阈值函数和标签信息实现对音频特征和噪声特征的聚类分组,从而实现了去噪音频特征提取的目的,对原始音频干扰性不敏感。
(3)受限玻尔兹曼机无监督学习能力强,对于海量的音频信息处理具有强大的鲁棒性和稳定性,势必成为深度学习神经网络在音频信息处理领域的又一大研究点。
附图说明
图1为本发明去噪音频特征提取流程图;
图2为去噪受限玻尔兹曼机网络图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
如图1-2所示,一种基于音频特征信号的分类方法,其具体步骤如下:
(1)音频信号采集:采集音频信号,获得音频样本。
(2)信号预处理:将采集的音频信号进行分组,分别为训练组合测试组。
(3)受限去噪玻尔兹曼机模型的搭建:利用受限玻尔兹曼机优良的无监督学习能力构建学习模型,其模型分为可视层和隐含层以及标签层。
(4)去噪音频特征模型训练:首先利用音频特征出现的概率总大于噪声特征出现的概率实现对预训练的受限去噪玻尔兹曼机模型的隐含层分成两组,然后以混合结构的变异受限玻尔兹曼机对训练组的高斯超向量的音频特征和噪声特征进行分别建模和训练。
(5)音频特征信号的对比检验:用测试组数据送入搭建好的受限去噪玻尔兹曼机模型中,将训练组所获得的特征值与本次测试数据所获得的特征值进行相似度计算进而判断特征提取与聚类结果的准确性。
所述音频采集是通过录音装置收录样音频,因为此处采集的信号为语音信号,故设置其采集声道为单声道,若采集其他类型的音频信号则进行相应的声道设置,信号采集时需要设置好声道模式,采样频率,以及量化间隔,其中采样频率应满足奈奎斯特采样定理,即采样频率应大于等于2倍采样信号的最高频率,获取得到为数字信号x(n)。
所述信号预处理是指将采集好的数字信号进行读取出并进行分组,分为训练组x1和测试组x2,训练组是为了训练出较好的模型参数,测数组数据是为了检验训练出的模型性能。
所述受限玻尔兹曼机去噪音频特征提取模型的搭建包括以下步骤:
(1)模型搭建首先定义隐含层低维空间为T,F为特征维数,C为混合高斯数,高斯超向量(GMM)是由高斯的均值向量与总体差异构成,对于一段音频信号可由如下高斯超向量表示:
M=x+Tw (1)
其中x表示与说话人和信道无关的音频超向量,由通用背景模型(UBM)的高斯均值向量构成,为整个高斯超向量空间的中心;T为低维空间CF×R的载荷矩阵即总体差异空间,R为总体差异因子个数;w为服从标准正太分布的随机向量即总体差异因子;对于超向量M其均值为x,协方差为TTT,T和w可通过期望最大化(EM)得到估计值。
(2)受限玻尔兹曼RBM是一种无自反馈的随机神经网络模型,层间双向全连接,层内无连接。RBM模型是马尔科夫随机场中的一种,所有节点的联合分布服从玻尔兹曼分布,故可将RBM看做是一种能量模型并用概率测度进行求解。RBM的可视层与隐含层之间的系统能量函数定义为如下表达式:
E(v,h)=-vTWh-bTv-aTh (2)
其中v可视层即本文中的高斯超向量M;h为隐含层即本文所需的低维特征向量;W为层间权值;b为正向网络阈值;a为反向网络阈值。基于RBM的能量函数可进一步定义可视层与隐含层直接的联合概率分布:
其中符号含义同公式(2),Z为归一化因子又称分配函数,其表达式如下:
在深度神经网络的训练过程中,可见层单元一般贝努力或者高斯分布,隐含层单元服从贝努力分布。由于RBM模型层内无连接,层间全连接使得给定可见层单元状态时,其隐含层的激活状态是相互独立的,隐含层单元的激活概率定义为:
其中i为输入层神经元单元,j为隐含层神经元,后述公式下标相同,其中δ(x)为归一化函数:
因为RBM模型的结构是对称的,所以可视层单元的激活函数定义定为:
其中归一化函数同公式(7),由于归一化因子的存在,可见层与隐含层的联合概率p(v,h)无法直接计算,一般通过对比散度法(CD)进行近似求解。
(3)对比散度算法即使用初始化训练数据M,仅需要使用k(通常k=1)步Gibbs采样就可以得到足够好的近似求解值。首先将可见层单元的状态设置成一个训练样本M,并利用如下公式计算隐藏层单元Y:
在所有隐藏单元状态确定了之后,反向根据如下公式来确定可见层的一个重构M′:
然后将重构的可见层作为真实的模型带入RBM模型中得到Y′:
我们将M与Y做乘积得到矩阵z,将M′与Y′做乘积得到矩阵Z′,两个矩阵的行为输入层即可视层的单元数码,列为隐含层的单元数目。进而就可以进行梯度下降算法了:
基于求得的梯度,进一步受限玻尔兹曼机的权值阈值更新有如下公式:
Wk+1=Wk+λ(Z-Z′) (16)
bk+1=bk+λ(Y-Y′) (17)
ak+1=ak+λ(M-M′) (18)
其中λ为自适应学习率,根据模型值M与训练集的期望M′之间的差值进行权值阈值的迭代直到其误差值小于预设值,从而通过训练获得所需要的受限波尔滋蔓机模型。
权值阈值迭代求解过程中,为了避免陷入局部最优解而错过全局最优解,提高权值阈值的求解迭代速度,本算法引入变异算子即随机接受较差解算法,定义控制算子参量为D,其迭代过程中满足如下公式:
Dk+1=α×Dk (19)
其中α为[0,1]区间内非常接近于1的数;k为迭代次数;D值设置越大容许迭代次数越多花费的时间也就越多,一般设置为1000或者更高,D当迭代到预设停止迭代数值或者D的预设最小值停止值时停止迭代。
定义模型值M与训练集的期望M′之间的差值第一次为ε1和第二次为ε2,其变异算子定义为:
本公式表示,两次迭代求解权值阈值并计算两次模型值与训练集的期望之间的差值,若第二次的模型值与训练集的期望之间的差值比第一次模型值与训练集的期望之间的差值小,则说明该次权值阈值求解有效,若第二次的差值比第一次的差值大并不放弃此次的求解值,而是以一定的概率接受该次所求解的权值阈值,从而避免了陷入局部最优的问题。
所述去噪音频特征模型训练包括以下步骤:
首先将上述所建立的训练模型的隐含层分成两组,因为音频特征出现的概率总大于噪声特征出现的概率,因此其对应的隐含层单元的激活值更大,且激活次数越多,根据这一特点实现对隐含层单元的聚类分组。其分组所使用的概率函数即公式(7)归一化函数,高斯超向量输入即可得到对应的低维特征向量也可称为低维概率向量,根据下式的阈值函数进而可实现对隐含层单元通过对接入权值进行标注:
其中ykj为低k个样本,第j个隐含层对应的激活值,Wij为受限玻尔兹曼机模型的权值,mj是样本标签信息,w和为隐含层单元的激活状态值和非激活时状态值。因为隐含层音频特征出现的概率总大于噪声特征出现的概率,故可利用激活单元的概率吧隐含层的激活值大的单元提取出来,并以此作为目标的特征提取单元。根据上述的阈值函数将隐含层分为音频特征组合噪声组,通过这种聚类分组方式使得模型对原始的高斯超向量的特征进行预备性选择,这种预备性原则过程即实现了对音频信号的去噪、特征提取、降维操作。
所述音频特征信号的对比检验是指为了检验其算法的优越性其合适的评判标准也是不可缺少的,本算法采用余弦相似度作为去噪音频特征之间的度量,其计算公式如下:
其中y1和y2分别表示训练和测试组的音频特征,||.||表示L2范数。其计算值越大说明其两个特征之间相关性越大,反正则说明相关性越小。通过与同类特征提取算法余弦相似度的比较得出其本算法的可靠性。
上面结合附图对本发明的具体实施方式作了详细说明,但本发明并不限于上述实施方式,在本领域科技研究人员所具备的知识范围内,不脱离或背离本发明宗旨的前提下可以应用于其他相关领域,如人工智能、音频信息大数据处理、音频识别等。
Claims (5)
1.一种基于变异受限玻尔兹曼机的去噪音频特征提取方法,其特征在于:具体步骤如下:
(1)音频信号采集:采集音频信号,获得音频样本;
(2)信号预处理:将采集的音频信号进行分组,分别为训练组和测试组;
(3)受限去噪玻尔兹曼机模型的搭建:利用受限玻尔兹曼机构建受限去噪玻尔兹曼机模型,在受限去噪玻尔兹曼机模型的权值阈值求解过程中引入变异算子获得变异的受限玻尔兹曼机模型即受限去噪玻尔兹曼机模型,模型分为可视层、隐含层以及标签层;
所述受限去噪玻尔兹曼机模型的搭建包括以下步骤:
①模型搭建首先定义T为隐含层低维空间,F为特征维数,C为混合高斯数,高斯超向量是由高斯的均值向量与总体差异构成,对于一段音频信号可由如下高斯超向量表示:
N=x+Tw
其中x表示与说话人和信道无关的音频超向量,由通用背景模型的高斯均值向量构成,为整个高斯超向量空间的中心;T为低维空间CF×R的载荷矩阵即总体差异空间,R为总体差异因子个数;w为服从标准正态分布的随机向量即总体差异因子;对于超向量N其均值为x,协方差为TTT,T和w可通过期望最大化得到估计值;
②将受限玻尔兹曼机模型看做是一种能量模型并用概率测度进行求解,其可视层与隐含层之间的系统能量函数定义为如下表达式:
E(v,h)=-vTWh-bTv-aTh
其中v可视层即高斯超向量N;h为隐含层即低维特征向量;W为层间权值;b为正向网络阈值;a为反向网络阈值,基于受限玻尔兹曼机模型的能量函数进一步定义可视层与隐含层直接的联合概率分布:
其中Z为归一化因子又称分配函数,其表达式如下:
在深度神经网络的训练过程中,可见层单元服从贝努力分布或者高斯分布,隐含层单元服从贝努力分布,由于受限玻尔兹曼机模型层内无连接,层间全连接使得给定可见层单元状态时,其隐含层的激活状态是相互独立的,隐含层单元的激活概率定义为:
其中i为输入层神经元单元,j为隐含层神经元,δ(x)为归一化函数:
因为受限玻尔兹曼机模型的结构是对称的,所以可视层单元的激活函数定义定为:
可见层与隐含层的联合概率p(v,h)无法直接计算,通过对比散度法进行近似求解;
③对比散度算法即使用初始化训练数据,首先将可见层单元的状态设置成一个训练样本M,并利用如下公式计算隐藏层单元Y:
在所有隐藏单元状态确定之后,根据如下公式来确定可见层的一个重构M′:
然后将重构的可见层作为真实的模型带入受限玻尔兹曼机模型中得到Y′:
将M与Y做乘积得到矩阵Z,将M′与Y′做乘积得到矩阵Z′,两个矩阵的行为输入层即可视层的单元数目,列为隐含层的单元数目,进行梯度下降计算:
基于求得的梯度,进一步受限玻尔兹曼机模型的权值阈值更新为:
Wk+1=Wk+λ(Z-Z′)
bk+1=bk+λ(Y-Y′)
ak+1=ak+λ(M-M′)
其中λ为自适应学习率,根据训练样本M与训练集的期望M′之间的差值进行权值阈值的迭代直到其误差值小于预设值,从而通过训练获得所需要的受限玻尔兹曼机模型;
④权值阈值迭代求解过程中,引入变异算子即随机接受较差解算法,定义控制算子参量为D,其迭代过程中满足如下公式:
Dk+1=α×Dk
其中α为[0,1]区间内非常接近于1的数;k为迭代次数;D值设置越大容许迭代次数越多花费的时间也就越多,D当迭代到预设停止迭代数值或者D的预设最小值停止值时停止迭代;
定义训练样本M与训练集的期望M′之间的差值第一次为ε1和第二次为ε2,其变异算子定义为:
上述公式两次迭代求解权值阈值并计算两次模型值与训练集的期望之间的差值,若第二次的模型值与训练集的期望之间的差值比第一次模型值与训练集的期望之间的差值小,则说明该次权值阈值求解有效,若第二次的差值比第一次的差值大并不放弃此次的求解值,而是以一定的概率接受该次所求解的权值阈值;
(4)受限去噪玻尔兹曼机模型训练:首先利用音频特征出现的概率总大于噪声特征出现的概率将变异受限玻尔兹曼机模型的隐含层分成两组,得到混合结构的受限去噪玻尔兹曼机模型,然后以混合结构的受限去噪玻尔兹曼机模型对训练组的高斯超向量的音频特征和噪声特征进行分别建模和训练以获得去噪音频特征信号;
(5)音频特征信号的对比检验:将测试组送入搭建好的受限去噪玻尔兹曼机模型中,将训练组所获得的特征值与本次测试数据所获得的特征值进行相似度计算进而判断特征提取与聚类结果的准确性。
2.根据权利要求1所述的基于变异受限玻尔兹曼机的去噪音频特征提取方法,其特征在于:所述音频信号采集时需要设置好声道模式、采样频率以及量化间隔,其中采样频率应满足奈奎斯特采样定理,即采样频率应大于等于2倍采样信号的最高频率,获取得到为数字信号x(n)。
3.根据权利要求1所述的基于变异受限玻尔兹曼机的去噪音频特征提取方法,其特征在于:所述信号预处理将采集好的音频信号进行读取出并进行分组,分为训练组x1和测试组x2,训练组用于训练模型参数,测试组用于检验训练出的模型结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810996275.3A CN109147817B (zh) | 2018-08-29 | 2018-08-29 | 一种基于变异受限玻尔兹曼机的去噪音频特征提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810996275.3A CN109147817B (zh) | 2018-08-29 | 2018-08-29 | 一种基于变异受限玻尔兹曼机的去噪音频特征提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109147817A CN109147817A (zh) | 2019-01-04 |
CN109147817B true CN109147817B (zh) | 2023-05-12 |
Family
ID=64829045
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810996275.3A Active CN109147817B (zh) | 2018-08-29 | 2018-08-29 | 一种基于变异受限玻尔兹曼机的去噪音频特征提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109147817B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110020685A (zh) * | 2019-04-09 | 2019-07-16 | 山东超越数控电子股份有限公司 | 一种基于自适应滤波和受限玻尔兹曼机的预处理方法,终端及可读存储介质 |
CN110135564A (zh) * | 2019-05-15 | 2019-08-16 | 深圳朴生智能科技有限公司 | 基于边缘计算的煤矿瓦斯传感器数据异常检测方法 |
CN110298401A (zh) * | 2019-06-28 | 2019-10-01 | 上海电力学院 | 一种基于模糊和去冗余的受限玻尔兹曼机图像分类方法 |
CN112532330A (zh) * | 2019-09-18 | 2021-03-19 | 中兴通讯股份有限公司 | 干扰模拟系统、方法及装置、干扰测试系统、方法及装置 |
CN112215054B (zh) * | 2020-07-27 | 2022-06-28 | 西北工业大学 | 一种用于水声信号去噪的深度生成对抗方法 |
CN112202630A (zh) * | 2020-09-16 | 2021-01-08 | 中盈优创资讯科技有限公司 | 一种基于无监督模型的网路质量异常检测方法及装置 |
CN112288020A (zh) * | 2020-10-30 | 2021-01-29 | 江南大学 | 基于判别式受限玻尔兹曼机的数字调制识别方法 |
CN112884089A (zh) * | 2021-04-12 | 2021-06-01 | 国网上海市电力公司 | 一种基于数据挖掘的电力变压器故障预警系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101561651B1 (ko) * | 2014-05-23 | 2015-11-02 | 서강대학교산학협력단 | 딥 빌리프 네트워크를 이용한 음성기반 호불호 검출방법 및 장치, 그를 기록한 기록매체 |
CN104157290B (zh) * | 2014-08-19 | 2017-10-24 | 大连理工大学 | 一种基于深度学习的说话人识别方法 |
DE112017001830B4 (de) * | 2016-05-06 | 2024-02-22 | Robert Bosch Gmbh | Sprachverbesserung und audioereignisdetektion für eine umgebung mit nichtstationären geräuschen |
CN106782504B (zh) * | 2016-12-29 | 2019-01-22 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
CN106920544A (zh) * | 2017-03-17 | 2017-07-04 | 深圳市唯特视科技有限公司 | 一种基于深度神经网络特征训练的语音识别方法 |
CN108335702A (zh) * | 2018-02-01 | 2018-07-27 | 福州大学 | 一种基于深度神经网络的音频降噪方法 |
-
2018
- 2018-08-29 CN CN201810996275.3A patent/CN109147817B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109147817A (zh) | 2019-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109147817B (zh) | 一种基于变异受限玻尔兹曼机的去噪音频特征提取方法 | |
CN110097755B (zh) | 基于深度神经网络的高速公路交通流量状态识别方法 | |
CN107610707B (zh) | 一种声纹识别方法及装置 | |
CN110751108B (zh) | 一种地铁分布式振动信号相似度确定方法 | |
Samizade et al. | Adversarial example detection by classification for deep speech recognition | |
CN106952644A (zh) | 一种基于瓶颈特征的复杂音频分割聚类方法 | |
CN110349597B (zh) | 一种语音检测方法及装置 | |
CN111462729B (zh) | 基于音素对数似然比和稀疏表征的快速语种识别方法 | |
CN110120218A (zh) | 基于gmm-hmm的高速公路大型车辆识别方法 | |
CN111580151B (zh) | 一种基于SSNet模型的地震事件到时识别方法 | |
CN111477220B (zh) | 一种面向家居口语环境的神经网络语音识别方法及系统 | |
CN109378014A (zh) | 一种基于卷积神经网络的移动设备源识别方法及系统 | |
Mallidi et al. | Uncertainty estimation of DNN classifiers | |
CN102789779A (zh) | 一种语音识别系统及其识别方法 | |
CN113673346A (zh) | 一种基于多尺度SE-Resnet的电机振动数据处理与状态识别方法 | |
CN104538035A (zh) | 一种基于Fisher超向量的说话人识别方法及系统 | |
Fan et al. | Deep Hashing for Speaker Identification and Retrieval. | |
CN115101076B (zh) | 一种基于多尺度通道分离卷积特征提取的说话人聚类方法 | |
Sun et al. | Progressive multi-target network based speech enhancement with snr-preselection for robust speaker diarization | |
CN112562725A (zh) | 基于语谱图和胶囊网络的混合语音情感分类方法 | |
Kohlsdorf et al. | An auto encoder for audio dolphin communication | |
Zheng et al. | MSRANet: Learning discriminative embeddings for speaker verification via channel and spatial attention mechanism in alterable scenarios | |
CN113987910A (zh) | 一种耦合神经网络与动态时间规划的居民负荷辨识方法及装置 | |
Tian et al. | Fuzzy clustering and Bayesian information criterion based threshold estimation for robust voice activity detection | |
CN117219124A (zh) | 一种基于深度神经网络的开关柜声纹故障检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |