CN109147817A - 一种基于变异受限玻尔兹曼机的去噪音频特征提取算法 - Google Patents

一种基于变异受限玻尔兹曼机的去噪音频特征提取算法 Download PDF

Info

Publication number
CN109147817A
CN109147817A CN201810996275.3A CN201810996275A CN109147817A CN 109147817 A CN109147817 A CN 109147817A CN 201810996275 A CN201810996275 A CN 201810996275A CN 109147817 A CN109147817 A CN 109147817A
Authority
CN
China
Prior art keywords
model
audio
layer
boltzmann machine
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810996275.3A
Other languages
English (en)
Other versions
CN109147817B (zh
Inventor
龙华
杨明亮
宋耀莲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201810996275.3A priority Critical patent/CN109147817B/zh
Publication of CN109147817A publication Critical patent/CN109147817A/zh
Application granted granted Critical
Publication of CN109147817B publication Critical patent/CN109147817B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)

Abstract

本发明涉及一种基于变异受限玻尔兹曼机的去噪音频特征提取算法,属于音频信号处理技术领域。本发明利用玻尔兹曼机强大的无监督学习能力对采集的音频信号从高维可视层的输入值映射到低维隐藏层,并利用少量的标签信息利用音频特征信号出现的概率大于噪声特征信号的概率实现对低维特征数据进行聚类分组,从而达到对音频信号去噪特征提取的目的。本发明抗干扰能力强,对处理的音频信号长度要求低,算法简单,并且一次性完成了对音频信号的去噪、特征提取、降维的处理,编程易于实现,对于实际的音频信号处理也具有强大的稳定性和鲁棒性。

Description

一种基于变异受限玻尔兹曼机的去噪音频特征提取算法
技术领域
本发明涉及一种基于变异受限玻尔兹曼机的去噪音频特征提取算法,属于音频特征信号处理技术领域。
背景技术
现有的音频特征提取大多是对音频信号特征系数的提取,如线性预测系数(LPC)、线性预测倒谱系数(LPCC)、梅尔频率倒谱系数(MFCC)等,这些特征提取方法要么是对于音频信号直接进行系数特征提取,提取出的特征参数也需进行降维处理才可用于音频分类或音频识别中,一系列的处理流程使得整个音频信号处理过程花费了大量的时间。本文中所提出的算法利用受限玻尔兹曼机强大的无监督学习能力和贝叶斯相关知识实现了对不定长音频信号的去噪特征提取,其间也实现了降维处理。并且受限玻尔兹曼机对于大数据处理具有强大的稳定性和鲁棒性。
发明内容
本发明是利用受限玻尔兹曼机强大的无监督学习能力,将不定长音频信号作为模型的输入,通过权值阈值计算映射到低维的隐含层空间。因为有用音频特征信号出现的概率要大于噪声特征信号的概率,故利用其特性通过阈值函数和标签信息对对隐空间的特征参数进行聚类分组。其间在对模型进行训练过程中为了更快更高校的求取模型的阈值和权值引入了变异算子即以一定概率接受较差解,从而也避免了寻优过程陷入局部最优的问题。本算法理论简单,适用于现在的大规模音频数据处理,对现目前的音频特征提取算法提供了一种新的思路,在实现特征提取时候同时进行了音频信号的去噪和降维处理,其算法也可用于人工智能的音频识别等相关领域。
本发明的技术方案为:一种基于变异受限玻尔兹曼机的去噪音频特征提取算法,该方法具体包括以下步骤:
(1)音频信号采集:采集音频信号,获得音频样本。
(2)信号预处理:将采集的音频信号进行分组,分别为训练组合测试组。
(3)受限去噪玻尔兹曼机模型的搭建:利用受限玻尔兹曼机优良的无监督学习能力构建学习模型,其模型分为可视层和隐含层以及标签层。
(4)去噪音频特征模型训练:变异受限玻尔兹曼机模型首先利用有用音频特征出现的概率总大于噪声特征出现的概率进而实现对预训练的RBM模型的隐含层分成两组,然后以混合结构的变异受限玻尔兹曼机对输入的高斯超向量的音频特征和噪声特征进行分别建模和训练。
(5)音频特征信号的对比检验:用测试组数据送入去噪受限玻尔兹曼机模型中,将训练组所获得的特征值与本次测试数据所获得的特征值进行相似度计算进而判断特征提取与聚类结果的准确性。
上述的一种基于变异受限玻尔兹曼机的去噪音频特征提取算法,步骤(1)中因为所取样本为语音信号故将麦克风接收声道数设置为单声道,设置采样频率要满足奈奎斯特采样定理即采样频率应大于等于2倍采样信号的最高频率,获取得到为数字信号x(n)。
上述的一种基于变异受限玻尔兹曼机的去噪音频特征提取算法,步骤(2)中信号预处理将采集好的数字信号读出并进行分组,分为训练组x1和测试组x2,训练组用于受限玻尔兹曼的的模型训练以获取较好的模型参数,测数组数据用于测试所训练出的受限玻尔兹曼机去噪音频特征提取模型的真实性能。
上述的一种基于变异受限玻尔兹曼机的去噪音频特征提取算法,步骤(3)中受限玻尔兹曼机去噪音频特征提取模型的搭建包括以下步骤:
(1)假定隐含层低维空间为T,F为特征维数,C为混合高斯数,高斯超向量(GMM)是由高斯的均值向量与总体差异构成,对于一段音频信号可由如下高斯超向量表示:
M=x+Tw (1)
其中x表示与说话人和信道无关的音频超向量,由通用背景模型(UBM)的高斯均值向量构成,为整个高斯超向量空间的中心;T为低维空间CFχR的载荷矩阵即总体差异空间,R为总体差异因子个数;w为服从标准正太分布的随机向量即总体差异因子;对于超向量M其均值为x,协方差为TTT,T和w可通过期望最大化(EM)得到估计值。
(2)受限玻尔兹曼是一种无自反馈的随机神经网络模型,层间双向全连接,层内无连接。RBM模型是马尔科夫随机场中的一种,所有节点的联合分布服从玻尔兹曼分布,故可将RBM看做是一种能量模型并用概率测度进行求解。RBM的可视层与隐含层之间的系统能量函数定义为如下表达式:
E(v,h)=-vTWh-bTv-aTh (2)
其中v可视层即本文中的高斯超向量M;h为隐含层即本文所需的低维特征向量;W为层间权值;b为正向网络阈值;a为反向网络阈值。基于RBM的能量函数可进一步定义可视层与隐含层直接的联合概率分布:
其中符号含义同公式(2),Z为归一化因子在深度神经网络的训练过程中,可见层单元一般贝努力或者高斯分布,隐含层单元服从贝努力分布。由于RBM模型层内无连接,层间全连接使得给定可见层单元状态时,其隐含层的激活状态是相互独立的,隐含层单元的激活概率可定义为:
其中i为输入层神经元单元,j为隐含层神经元,后述公式下标相同,上述公式因为RBM模型的结构是对称的,所以可视层单元的激活函数定义定为:
其中归一化函数同公式(7),由于归一化因子的存在,可见层与隐含层的联合概率p(v,h)无法直接计算,一般通过对比散度法(CD)进行近似求解。
(3)对比散度算法即使用初始化训练数据M,仅需要使用k(通常k=1)步Gibbs采样就可以得到足够好的近似求解值。首先将可见层单元的状态设置成一个训练样本M,并利用如下公式计算隐藏层单元Y:
在所有隐藏单元状态确定了之后,反向根据如下公式来确定可见层的一个重构M′:
然后将重构的可见层作为真实的模型带入RBM模型中得到Y′:
我们将M与Y做乘积得到矩阵z,将M′与Y′做乘积得到矩阵Z′,两个矩阵的行为输入层即可视层的单元数码,列为隐含层的单元数目。进而就可以进行梯度下降算法了,进一步受限玻尔兹曼机的权值阈值更新有如下公式:
Wk+1=Wk+λ(Z-Z′) (11)
bk+1=bk+λ(Y-Y′) (12)
ak+1=ak+λ(M-M′) (13)
其中λ为自适应学习率,根据模型值M与训练集的期望M′之间的差值进行权值阈值的迭代直到其误差值小于预设值,从而通过训练获得所需要的受限波尔滋蔓机模型。传统的权值阈值迭代求解是根据前后输出值之间的误差大小来完全确定是否接受本次迭代求解,本算法为了避免陷入局部最优解而错过全局最优解,提高权值阈值的求解迭代速度,本算法引入变异算子即随机接受较差解算法,定义控制算子参量为D,其迭代过程中满足如下公式:
Dk+1=α*Dk (14)
其中α为[0 1]区间内非常接近于1的数;k为迭代次数;D一般设置为1000或者更高,当迭代到预设停止迭代数值或者D的预设最小值停止值时停止迭代。
定义模型值M与训练集的期望M′之间的差值第一次为ε1和第二次为ε2,其变异算子定义为:
公式表示,根据计算两次模型值与训练集的期望之间的差值,若第二次的模型值与训练集的期望之间的差值比第一次模型值与训练集的期望之间的差值小,则说明该次权值阈值求解有效,若第二次的差值比第一次的差值大并不放弃此次的求解值,而是以一定的概率接受该次所求解的权值阈值,从而避免了陷入局部最优的问题。
上述的一种基于变异受限玻尔兹曼机的去噪音频特征提取算法,步骤(4)中去噪音频特征模型训练首先将上述中所建立的训练模型的隐含层分成两组,因为音频特征出现的概率总大于噪声特征出现的概率,因此其对应的隐含层单元的激活值更大,且激活次数越多,根据这一特点实现对隐含层单元的聚类分组。其分组所使用的概率函数即公式(7)归一化函数,高斯超向量输入即可得到对应的低维特征向量也可称为低维概率向量,根据下式的阈值函数进而可实现对隐含层单元通过对接入权值进行标注:
其中ykj为低k个样本,第j个隐含层对应的激活值,Wij为受限玻尔兹曼机模型的权值,mj是样本标签信息,w和为隐含层单元的激活状态值和非激活时状态值。因为隐含层音频特征出现的概率总大于噪声特征出现的概率,故可利用激活单元的概率吧隐含层的激活值大的单元提取出来,并以此作为目标的特征提取单元。根据上述的阈值函数将隐含层分为音频特征组合噪声组,通过这种聚类分组方式使得模型对原始的高斯超向量的特征进行预备性选择,这种预备性原则过程即实现了对音频信号的去噪、特征提取、降维操作。
上述的一种基于变异受限玻尔兹曼机的去噪音频特征提取算法,步骤(5)中音频特征信号的对比检验是检验其算法的优越性其合适的评判标准也是不可缺少的,本算法采用余弦相似度作为去噪音频特征之间的度量,其计算公式如下:
其中y1和y2分别表示训练和测试组的音频特征,||.||表示L2范数。其计算值越大说明其两个特征之间相关性越大,反正则说明相关性越小。通过与同类特征提取算法余弦相似度的比较得出其本算法的可靠性。
本发明与现有的音频特征提取方法的优点有:
(1)用低维定长特征向量表示变长语音,与传统的提取音频信号的系数特征方式完全不同,提出了一种有别于过去的音频特征提取方法,
(2)利用音频特征出现的概率大于噪声特征出现概率的特点,通过阈值函数和标签信息实现对音频特征和噪声特征的聚类分组,从而实现了去噪音频特征提取的目的,对原始音频干扰性不敏感。
(3)受限玻尔兹曼机无监督学习能力强,对于海量的音频信息处理具有强大的鲁棒性和稳定性,势必成为深度学习神经网络在音频信息处理领域的又一大研究点。
附图说明
图1为本发明去噪音频特征提取流程图;
图2为去噪受限玻尔兹曼机网络图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
如图1-2所示,一种基于音频特征信号的分类方法,其具体步骤如下:
(1)音频信号采集:采集音频信号,获得音频样本。
(2)信号预处理:将采集的音频信号进行分组,分别为训练组合测试组。
(3)受限去噪玻尔兹曼机模型的搭建:利用受限玻尔兹曼机优良的无监督学习能力构建学习模型,其模型分为可视层和隐含层以及标签层。
(4)去噪音频特征模型训练:首先利用音频特征出现的概率总大于噪声特征出现的概率实现对预训练的受限去噪玻尔兹曼机模型的隐含层分成两组,然后以混合结构的变异受限玻尔兹曼机对训练组的高斯超向量的音频特征和噪声特征进行分别建模和训练。
(5)音频特征信号的对比检验:用测试组数据送入搭建好的受限去噪玻尔兹曼机模型中,将训练组所获得的特征值与本次测试数据所获得的特征值进行相似度计算进而判断特征提取与聚类结果的准确性。
所述音频采集是通过录音装置收录样音频,因为此处采集的信号为语音信号,故设置其采集声道为单声道,若采集其他类型的音频信号则进行相应的声道设置,信号采集时需要设置好声道模式,采样频率,以及量化间隔,其中采样频率应满足奈奎斯特采样定理,即采样频率应大于等于2倍采样信号的最高频率,获取得到为数字信号x(n)。
所述信号预处理是指将采集好的数字信号进行读取出并进行分组,分为训练组x1和测试组x2,训练组是为了训练出较好的模型参数,测数组数据是为了检验训练出的模型性能。
所述受限玻尔兹曼机去噪音频特征提取模型的搭建包括以下步骤:
(1)模型搭建首先定义隐含层低维空间为T,F为特征维数,C为混合高斯数,高斯超向量(GMM)是由高斯的均值向量与总体差异构成,对于一段音频信号可由如下高斯超向量表示:
M=x+Tw (1)
其中x表示与说话人和信道无关的音频超向量,由通用背景模型(UBM)的高斯均值向量构成,为整个高斯超向量空间的中心;T为低维空间CFχR的载荷矩阵即总体差异空间,R为总体差异因子个数;w为服从标准正太分布的随机向量即总体差异因子;对于超向量M其均值为x,协方差为TTT,T和w可通过期望最大化(EM)得到估计值。
(2)受限玻尔兹曼RBM是一种无自反馈的随机神经网络模型,层间双向全连接,层内无连接。RBM模型是马尔科夫随机场中的一种,所有节点的联合分布服从玻尔兹曼分布,故可将RBM看做是一种能量模型并用概率测度进行求解。RBM的可视层与隐含层之间的系统能量函数定义为如下表达式:
E(v,h)=-vTWh-bTv-aTh (2)
其中v可视层即本文中的高斯超向量M;h为隐含层即本文所需的低维特征向量;W为层间权值;b为正向网络阈值;a为反向网络阈值。基于RBM的能量函数可进一步定义可视层与隐含层直接的联合概率分布:
其中符号含义同公式(2),Z为归一化因子又称分配函数,其表达式如下:
在深度神经网络的训练过程中,可见层单元一般贝努力或者高斯分布,隐含层单元服从贝努力分布。由于RBM模型层内无连接,层间全连接使得给定可见层单元状态时,其隐含层的激活状态是相互独立的,隐含层单元的激活概率定义为:
其中i为输入层神经元单元,j为隐含层神经元,后述公式下标相同,其中δ(x)为归一化函数:
因为RBM模型的结构是对称的,所以可视层单元的激活函数定义定为:
其中归一化函数同公式(7),由于归一化因子的存在,可见层与隐含层的联合概率p(v,h)无法直接计算,一般通过对比散度法(CD)进行近似求解。
(3)对比散度算法即使用初始化训练数据M,仅需要使用k(通常k=1)步Gibbs采样就可以得到足够好的近似求解值。首先将可见层单元的状态设置成一个训练样本M,并利用如下公式计算隐藏层单元Y:
在所有隐藏单元状态确定了之后,反向根据如下公式来确定可见层的一个重构M′:
然后将重构的可见层作为真实的模型带入RBM模型中得到Y′:
我们将M与Y做乘积得到矩阵z,将M′与Y′做乘积得到矩阵Z′,两个矩阵的行为输入层即可视层的单元数码,列为隐含层的单元数目。进而就可以进行梯度下降算法了:
基于求得的梯度,进一步受限玻尔兹曼机的权值阈值更新有如下公式:
Wk+1=Wk+λ(Z-Z′) (16)
bk+1=bk+λ(Y-Y′) (17)
ak+1=ak+λ(M-M′) (18)
其中λ为自适应学习率,根据模型值M与训练集的期望M′之间的差值进行权值阈值的迭代直到其误差值小于预设值,从而通过训练获得所需要的受限波尔滋蔓机模型。
权值阈值迭代求解过程中,为了避免陷入局部最优解而错过全局最优解,提高权值阈值的求解迭代速度,本算法引入变异算子即随机接受较差解算法,定义控制算子参量为D,其迭代过程中满足如下公式:
Dk+1=α*Dk (19)
其中α为[0 1]区间内非常接近于1的数;k为迭代次数;D值设置越大容许迭代次数越多花费的时间也就越多,一般设置为1000或者更高,D当迭代到预设停止迭代数值或者D的预设最小值停止值时停止迭代。
定义模型值M与训练集的期望M′之间的差值第一次为ε1和第二次为ε2,其变异算子定义为:
本公式表示,两次迭代求解权值阈值并计算两次模型值与训练集的期望之间的差值,若第二次的模型值与训练集的期望之间的差值比第一次模型值与训练集的期望之间的差值小,则说明该次权值阈值求解有效,若第二次的差值比第一次的差值大并不放弃此次的求解值,而是以一定的概率接受该次所求解的权值阈值,从而避免了陷入局部最优的问题。
所述去噪音频特征模型训练包括以下步骤:
首先将上述所建立的训练模型的隐含层分成两组,因为音频特征出现的概率总大于噪声特征出现的概率,因此其对应的隐含层单元的激活值更大,且激活次数越多,根据这一特点实现对隐含层单元的聚类分组。其分组所使用的概率函数即公式(7)归一化函数,高斯超向量输入即可得到对应的低维特征向量也可称为低维概率向量,根据下式的阈值函数进而可实现对隐含层单元通过对接入权值进行标注:
其中ykj为低k个样本,第j个隐含层对应的激活值,Wij为受限玻尔兹曼机模型的权值,mj是样本标签信息,w和为隐含层单元的激活状态值和非激活时状态值。因为隐含层音频特征出现的概率总大于噪声特征出现的概率,故可利用激活单元的概率吧隐含层的激活值大的单元提取出来,并以此作为目标的特征提取单元。根据上述的阈值函数将隐含层分为音频特征组合噪声组,通过这种聚类分组方式使得模型对原始的高斯超向量的特征进行预备性选择,这种预备性原则过程即实现了对音频信号的去噪、特征提取、降维操作。
所述音频特征信号的对比检验是指为了检验其算法的优越性其合适的评判标准也是不可缺少的,本算法采用余弦相似度作为去噪音频特征之间的度量,其计算公式如下:
其中y1和y2分别表示训练和测试组的音频特征,||.||表示L2范数。其计算值越大说明其两个特征之间相关性越大,反正则说明相关性越小。通过与同类特征提取算法余弦相似度的比较得出其本算法的可靠性。
上面结合附图对本发明的具体实施方式作了详细说明,但本发明并不限于上述实施方式,在本领域科技研究人员所具备的知识范围内,不脱离或背离本发明宗旨的前提下可以应用于其他相关领域,如人工智能、音频信息大数据处理、音频识别等。

Claims (6)

1.一种基于变异受限玻尔兹曼机的去噪音频特征提取算法,其特征在于:具体步骤如下:
(1)音频信号采集:采集音频信号,获得音频样本;
(2)信号预处理:将采集的音频信号进行分组,分别为训练组合测试组;
(3)受限去噪玻尔兹曼机模型的搭建:利用受限玻尔兹曼机构建学习模型,在学习模型的权值阈值求解过程中引入变异因子获得变异的受限玻尔兹曼机模型即受限去噪玻尔兹曼机模型,模型分为可视层、隐含层以及标签层;
(4)去噪音频特征模型训练:首先利用音频特征出现的概率总大于噪声特征出现的概率实现对变异受限玻尔兹曼机模型的隐含层分成两组,得到混合结构的变异受限玻尔兹曼机模型,然后以混合结构的变异受限玻尔兹曼机对训练组的高斯超向量的音频特征和噪声特征进行分别建模和训练以获得去噪音频特征信号;
(5)音频特征信号的对比检验:将测试组送入搭建好的受限去噪玻尔兹曼机模型中,将训练组所获得的特征值与本次测试数据所获得的特征值进行相似度计算进而判断特征提取与聚类结果的准确性。
2.根据权利要求1所述的基于变异受限玻尔兹曼机的去噪音频特征提取算法,其特征在于:所述音频信号采集时需要设置好声道模式、采样频率以及量化间隔,其中采样频率应满足奈奎斯特采样定理,即采样频率应大于等于2倍采样信号的最高频率,获取得到为数字信号x(n)。
3.根据权利要求1所述的基于变异受限玻尔兹曼机的去噪音频特征提取算法,其特征在于:所述信号预处理将采集好的音频信号进行读取出并进行分组,分为训练组x1和测试组x2,训练组用于训练模型参数,测试组用于检验训练出的模型结果如何。
4.根据权利要求1所述的基于变异受限玻尔兹曼机的去噪音频特征提取算法,其特征在于:所述受限去噪玻尔兹曼机模型的搭建包括以下步骤:
(1)模型搭建首先定义T为隐含层低维空间,F为特征维数,C为混合高斯数,高斯超向量是由高斯的均值向量与总体差异构成,对于一段音频信号可由如下高斯超向量表示:
M=x+Tw
其中x表示与说话人和信道无关的音频超向量,由通用背景模型的高斯均值向量构成,为整个高斯超向量空间的中心;T为低维空间CFχR的载荷矩阵即总体差异空间,R为总体差异因子个数;w为服从标准正太分布的随机向量即总体差异因子;对于超向量M其均值为x,协方差为TTT,T和w可通过期望最大化得到估计值。
(2)将受限玻尔兹曼模型看做是一种能量模型并用概率测度进行求解,其可视层与隐含层之间的系统能量函数定义为如下表达式:
E(v,h)=-vTWh-bTv-aTh
其中v可视层即本文中的高斯超向量M;h为隐含层即本文所需的低维特征向量;W为层间权值;b为正向网络阈值;a为反向网络阈值,基于受限玻尔兹曼模型的能量函数进一步定义可视层与隐含层直接的联合概率分布:
其中Z为归一化因子又称分配函数,其表达式如下:
在深度神经网络的训练过程中,可见层单元服从贝努力分布或者高斯分布,隐含层单元服从贝努力分布,由于受限玻尔兹曼模型层内无连接,层间全连接使得给定可见层单元状态时,其隐含层的激活状态是相互独立的,隐含层单元的激活概率定义为:
其中i为输入层神经元单元,j为隐含层神经元,δ(x)为归一化函数:
因为RBM模型的结构是对称的,所以可视层单元的激活函数定义定为:
可见层与隐含层的联合概率p(v,h)无法直接计算,通过对比散度法进行近似求解;
(3)对比散度算法即使用初始化训练数据M,首先将可见层单元的状态设置成一个训练样本M,并利用如下公式计算隐藏层单元Y:
在所有隐藏单元状态确定之后,根据如下公式来确定可见层的一个重构M′:
然后将重构的可见层作为真实的模型带入受限玻尔兹曼机模型中得到Y′:
将M与Y做乘积得到矩阵z,将M′与Y′做乘积得到矩阵Z′,两个矩阵的行为输入层即可视层的单元数码,列为隐含层的单元数目,进行梯度下降计算:
基于求得的梯度,进一步受限玻尔兹曼机的权值阈值更新为:
Wk+1=Wk+λ(Z-Z′)
bk+1=bk+λ(Y-Y′)
ak+1=ak+λ(M-M′)
其中λ为自适应学习率,根据模型值M与训练集的期望M′之间的差值进行权值阈值的迭代直到其误差值小于预设值,从而通过训练获得所需要的受限玻尔兹曼机模型;
(4)权值阈值迭代求解过程中,引入变异算子即随机接受较差解算法,定义控制算子参量为D,其迭代过程中满足如下公式:
Dk+1=α*Dk
其中α为[0 1]区间内非常接近于1的数;k为迭代次数;D值设置越大容许迭代次数越多花费的时间也就越多,D当迭代到预设停止迭代数值或者D的预设最小值停止值时停止迭代;
定义模型值M与训练集的期望M′之间的差值第一次为ε1和第二次为ε2,其变异算子定义为:
上述公式两次迭代求解权值阈值并计算两次模型值与训练集的期望之间的差值,若第二次的模型值与训练集的期望之间的差值比第一次模型值与训练集的期望之间的差值小,则说明该次权值阈值求解有效,若第二次的差值比第一次的差值大并不放弃此次的求解值,而是以一定的概率接受该次所求解的权值阈值,。
5.根据权利要求1所述的基于变异受限玻尔兹曼机的去噪音频特征提取算法,其特征在于:所述去噪音频特征模型训练包括以下步骤:
首先将建立的训练模型的隐含层分成两组,并用上述归一化函数δ(x)对隐含层单元的聚类分组,根据下式的阈值函数实现对隐含层单元通过对接入权值进行标注:
其中ykj为低k个样本,第j个隐含层对应的激活值,Wij为受限玻尔兹曼机模型的权值,mj是样本标签信息,w和为隐含层单元的激活状态值和非激活时状态值,根据上述的阈值函数将隐含层分为音频特征组合噪声组。
6.根据权利要求1所述的基于变异受限玻尔兹曼机的去噪音频特征提取算法,其特征在于:所述音频特征信号的对比检验采用余弦相似度作为去噪音频特征之间的度量,其计算公式如下:
其中y1和y2分别表示训练和测试组的音频特征,||.||表示L2范数,其计算值越大说明其两个特征之间相关性越大,反之则说明相关性越小。
CN201810996275.3A 2018-08-29 2018-08-29 一种基于变异受限玻尔兹曼机的去噪音频特征提取方法 Active CN109147817B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810996275.3A CN109147817B (zh) 2018-08-29 2018-08-29 一种基于变异受限玻尔兹曼机的去噪音频特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810996275.3A CN109147817B (zh) 2018-08-29 2018-08-29 一种基于变异受限玻尔兹曼机的去噪音频特征提取方法

Publications (2)

Publication Number Publication Date
CN109147817A true CN109147817A (zh) 2019-01-04
CN109147817B CN109147817B (zh) 2023-05-12

Family

ID=64829045

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810996275.3A Active CN109147817B (zh) 2018-08-29 2018-08-29 一种基于变异受限玻尔兹曼机的去噪音频特征提取方法

Country Status (1)

Country Link
CN (1) CN109147817B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020685A (zh) * 2019-04-09 2019-07-16 山东超越数控电子股份有限公司 一种基于自适应滤波和受限玻尔兹曼机的预处理方法,终端及可读存储介质
CN110135564A (zh) * 2019-05-15 2019-08-16 深圳朴生智能科技有限公司 基于边缘计算的煤矿瓦斯传感器数据异常检测方法
CN110298401A (zh) * 2019-06-28 2019-10-01 上海电力学院 一种基于模糊和去冗余的受限玻尔兹曼机图像分类方法
CN112202630A (zh) * 2020-09-16 2021-01-08 中盈优创资讯科技有限公司 一种基于无监督模型的网路质量异常检测方法及装置
CN112215054A (zh) * 2020-07-27 2021-01-12 西北工业大学 一种用于水声信号去噪的深度生成对抗方法
CN112288020A (zh) * 2020-10-30 2021-01-29 江南大学 基于判别式受限玻尔兹曼机的数字调制识别方法
CN112884089A (zh) * 2021-04-12 2021-06-01 国网上海市电力公司 一种基于数据挖掘的电力变压器故障预警系统
CN114091532A (zh) * 2021-11-14 2022-02-25 广东电网有限责任公司江门供电局 一种基于群智感知的配电变压器运行声信号采集方法
US20220352997A1 (en) * 2019-09-18 2022-11-03 Zte Corporation Interference simulation system, method and apparatus, interference test system, method and apparatus, and computer readable storage medium

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104157290A (zh) * 2014-08-19 2014-11-19 大连理工大学 一种基于深度学习的说话人识别方法
KR101561651B1 (ko) * 2014-05-23 2015-11-02 서강대학교산학협력단 딥 빌리프 네트워크를 이용한 음성기반 호불호 검출방법 및 장치, 그를 기록한 기록매체
CN106920544A (zh) * 2017-03-17 2017-07-04 深圳市唯特视科技有限公司 一种基于深度神经网络特征训练的语音识别方法
WO2017191249A1 (en) * 2016-05-06 2017-11-09 Robert Bosch Gmbh Speech enhancement and audio event detection for an environment with non-stationary noise
US20180190280A1 (en) * 2016-12-29 2018-07-05 Baidu Online Network Technology (Beijing) Co., Ltd. Voice recognition method and apparatus
CN108335702A (zh) * 2018-02-01 2018-07-27 福州大学 一种基于深度神经网络的音频降噪方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101561651B1 (ko) * 2014-05-23 2015-11-02 서강대학교산학협력단 딥 빌리프 네트워크를 이용한 음성기반 호불호 검출방법 및 장치, 그를 기록한 기록매체
CN104157290A (zh) * 2014-08-19 2014-11-19 大连理工大学 一种基于深度学习的说话人识别方法
WO2017191249A1 (en) * 2016-05-06 2017-11-09 Robert Bosch Gmbh Speech enhancement and audio event detection for an environment with non-stationary noise
US20180190280A1 (en) * 2016-12-29 2018-07-05 Baidu Online Network Technology (Beijing) Co., Ltd. Voice recognition method and apparatus
CN106920544A (zh) * 2017-03-17 2017-07-04 深圳市唯特视科技有限公司 一种基于深度神经网络特征训练的语音识别方法
CN108335702A (zh) * 2018-02-01 2018-07-27 福州大学 一种基于深度神经网络的音频降噪方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KEVIN SWERSKY,BO CHEN 等: "A tutorial on stochastic approximation algorithms for training Restricted Boltzmann Machines and Deep Belief Nets", 《2010 INFORMATION THEORY AND APPLICATIONS WORKSHOP (ITA)》 *
杨杰,孙亚东 等: "基于弱监督学习的去噪受限玻尔兹曼特征提取算法", 《电子学报》 *
酆勇,熊庆宇 等: "一种基于受限玻尔兹曼机的说话人特征提取算法", 《仪器仪表学报》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020685A (zh) * 2019-04-09 2019-07-16 山东超越数控电子股份有限公司 一种基于自适应滤波和受限玻尔兹曼机的预处理方法,终端及可读存储介质
CN110135564A (zh) * 2019-05-15 2019-08-16 深圳朴生智能科技有限公司 基于边缘计算的煤矿瓦斯传感器数据异常检测方法
CN110298401A (zh) * 2019-06-28 2019-10-01 上海电力学院 一种基于模糊和去冗余的受限玻尔兹曼机图像分类方法
US20220352997A1 (en) * 2019-09-18 2022-11-03 Zte Corporation Interference simulation system, method and apparatus, interference test system, method and apparatus, and computer readable storage medium
CN112215054A (zh) * 2020-07-27 2021-01-12 西北工业大学 一种用于水声信号去噪的深度生成对抗方法
CN112215054B (zh) * 2020-07-27 2022-06-28 西北工业大学 一种用于水声信号去噪的深度生成对抗方法
CN112202630A (zh) * 2020-09-16 2021-01-08 中盈优创资讯科技有限公司 一种基于无监督模型的网路质量异常检测方法及装置
CN112288020A (zh) * 2020-10-30 2021-01-29 江南大学 基于判别式受限玻尔兹曼机的数字调制识别方法
CN112288020B (zh) * 2020-10-30 2024-07-12 南京模数智芯微电子科技有限公司 基于判别式受限玻尔兹曼机的数字调制识别方法
CN112884089A (zh) * 2021-04-12 2021-06-01 国网上海市电力公司 一种基于数据挖掘的电力变压器故障预警系统
CN114091532A (zh) * 2021-11-14 2022-02-25 广东电网有限责任公司江门供电局 一种基于群智感知的配电变压器运行声信号采集方法

Also Published As

Publication number Publication date
CN109147817B (zh) 2023-05-12

Similar Documents

Publication Publication Date Title
CN109147817A (zh) 一种基于变异受限玻尔兹曼机的去噪音频特征提取算法
CN107610707B (zh) 一种声纹识别方法及装置
Ullo et al. Hybrid computerized method for environmental sound classification
Lin et al. Detection of gravitational waves using Bayesian neural networks
CN110232395B (zh) 一种基于故障中文文本的电力系统故障诊断方法
CN110853680A (zh) 一种用于语音情感识别的具有多输入多融合策略的双BiLSTM结构
Heittola et al. The machine learning approach for analysis of sound scenes and events
CN107766893B (zh) 基于标签多级编码神经网络的目标识别方法
CN109545229B (zh) 一种基于语音样本特征空间轨迹的说话人识别方法
CN108564107A (zh) 基于原子拉普拉斯图正则化的半监督字典学习的样本类别归类方法
CN109616138A (zh) 基于分段频点选择的语音信号盲分离方法和双耳助听系统
Wei et al. A novel speech emotion recognition algorithm based on wavelet kernel sparse classifier in stacked deep auto-encoder model
CN110222347A (zh) 一种作文离题检测方法
CN110161480B (zh) 基于半监督深度概率模型的雷达目标识别方法
CN111651980A (zh) 混合神经网络融合Attention机制的小麦抗寒性识别方法
CN114154570A (zh) 一种样本筛选方法、系统及神经网络模型训练方法
CN109036466A (zh) 面向情感语音识别的情感维度pad预测方法
CN102592593A (zh) 一种考虑语音中多线性群组稀疏特性的情绪特征提取方法
CN110288028A (zh) 心电检测方法、系统、设备及计算机可读存储介质
Kohlsdorf et al. An auto encoder for audio dolphin communication
Mustika et al. Comparison of keras optimizers for earthquake signal classification based on deep neural networks
CN114487129A (zh) 基于声发射技术的柔性材料的损伤识别方法
CN106448660A (zh) 一种引入大数据分析的自然语言模糊边界确定方法
CN110348482A (zh) 一种基于深度模型集成架构的语音情感识别系统
Widya et al. Implementation of EM algorithm in data mining for clustering female cooperative

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant