CN109147817B - 一种基于变异受限玻尔兹曼机的去噪音频特征提取方法 - Google Patents

一种基于变异受限玻尔兹曼机的去噪音频特征提取方法 Download PDF

Info

Publication number
CN109147817B
CN109147817B CN201810996275.3A CN201810996275A CN109147817B CN 109147817 B CN109147817 B CN 109147817B CN 201810996275 A CN201810996275 A CN 201810996275A CN 109147817 B CN109147817 B CN 109147817B
Authority
CN
China
Prior art keywords
boltzmann machine
value
layer
training
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810996275.3A
Other languages
English (en)
Other versions
CN109147817A (zh
Inventor
龙华
杨明亮
宋耀莲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201810996275.3A priority Critical patent/CN109147817B/zh
Publication of CN109147817A publication Critical patent/CN109147817A/zh
Application granted granted Critical
Publication of CN109147817B publication Critical patent/CN109147817B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Complex Calculations (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于变异受限玻尔兹曼机的去噪音频特征提取算法,属于音频信号处理技术领域。本发明利用玻尔兹曼机强大的无监督学习能力对采集的音频信号从高维可视层的输入值映射到低维隐藏层,并利用少量的标签信息利用音频特征信号出现的概率大于噪声特征信号的概率实现对低维特征数据进行聚类分组,从而达到对音频信号去噪特征提取的目的。本发明抗干扰能力强,对处理的音频信号长度要求低,算法简单,并且一次性完成了对音频信号的去噪、特征提取、降维的处理,编程易于实现,对于实际的音频信号处理也具有强大的稳定性和鲁棒性。

Description

一种基于变异受限玻尔兹曼机的去噪音频特征提取方法
技术领域
本发明涉及一种基于变异受限玻尔兹曼机的去噪音频特征提取方法,属于音频特征信号处理技术领域。
背景技术
现有的音频特征提取大多是对音频信号特征系数的提取,如线性预测系数(LPC)、线性预测倒谱系数(LPCC)、梅尔频率倒谱系数(MFCC)等,这些特征提取方法要么是对于音频信号直接进行系数特征提取,提取出的特征参数也需进行降维处理才可用于音频分类或音频识别中,一系列的处理流程使得整个音频信号处理过程花费了大量的时间。本文中所提出的算法利用受限玻尔兹曼机强大的无监督学习能力和贝叶斯相关知识实现了对不定长音频信号的去噪特征提取,其间也实现了降维处理。并且受限玻尔兹曼机对于大数据处理具有强大的稳定性和鲁棒性。
发明内容
本发明是利用受限玻尔兹曼机强大的无监督学习能力,将不定长音频信号作为模型的输入,通过权值阈值计算映射到低维的隐含层空间。因为有用音频特征信号出现的概率要大于噪声特征信号的概率,故利用其特性通过阈值函数和标签信息对隐空间的特征参数进行聚类分组。其间在对模型进行训练过程中为了更快更高效的求取模型的阈值和权值引入了变异算子即以一定概率接受较差解,从而也避免了寻优过程陷入局部最优的问题。本算法理论简单,适用于现在的大规模音频数据处理,对目前的音频特征提取算法提供了一种新的思路,在实现特征提取时候同时进行了音频信号的去噪和降维处理,其算法也可用于人工智能的音频识别等相关领域。
本发明的技术方案为:一种基于变异受限玻尔兹曼机的去噪音频特征提取算法,该方法具体包括以下步骤:
(1)音频信号采集:采集音频信号,获得音频样本。
(2)信号预处理:将采集的音频信号进行分组,分别为训练组合测试组。
(3)受限去噪玻尔兹曼机模型的搭建:利用受限玻尔兹曼机优良的无监督学习能力构建学习模型,其模型分为可视层和隐含层以及标签层。
(4)去噪音频特征模型训练:变异受限玻尔兹曼机模型首先利用有用音频特征出现的概率总大于噪声特征出现的概率进而实现对预训练的RBM模型的隐含层分成两组,然后以混合结构的变异受限玻尔兹曼机对输入的高斯超向量的音频特征和噪声特征进行分别建模和训练。
(5)音频特征信号的对比检验:用测试组数据送入去噪受限玻尔兹曼机模型中,将训练组所获得的特征值与本次测试数据所获得的特征值进行相似度计算进而判断特征提取与聚类结果的准确性。
上述的一种基于变异受限玻尔兹曼机的去噪音频特征提取算法,步骤(1)中因为所取样本为语音信号故将麦克风接收声道数设置为单声道,设置采样频率要满足奈奎斯特采样定理即采样频率应大于等于2倍采样信号的最高频率,获取得到为数字信号x(n)。
上述的一种基于变异受限玻尔兹曼机的去噪音频特征提取算法,步骤(2)中信号预处理将采集好的数字信号读出并进行分组,分为训练组x1和测试组x2,训练组用于受限玻尔兹曼的的模型训练以获取较好的模型参数,测数组数据用于测试所训练出的受限玻尔兹曼机去噪音频特征提取模型的真实性能。
上述的一种基于变异受限玻尔兹曼机的去噪音频特征提取算法,步骤(3)中受限玻尔兹曼机去噪音频特征提取模型的搭建包括以下步骤:
(1)假定隐含层低维空间为T,F为特征维数,C为混合高斯数,高斯超向量(GMM)是由高斯的均值向量与总体差异构成,对于一段音频信号可由如下高斯超向量表示:
M=x+Tw                                (1)
其中x表示与说话人和信道无关的音频超向量,由通用背景模型(UBM)的高斯均值向量构成,为整个高斯超向量空间的中心;T为低维空间CF×R的载荷矩阵即总体差异空间,R为总体差异因子个数;w为服从标准正太分布的随机向量即总体差异因子;对于超向量M其均值为x,协方差为TTT,T和w可通过期望最大化(EM)得到估计值。
(2)受限玻尔兹曼是一种无自反馈的随机神经网络模型,层间双向全连接,层内无连接。RBM模型是马尔科夫随机场中的一种,所有节点的联合分布服从玻尔兹曼分布,故可将RBM看做是一种能量模型并用概率测度进行求解。RBM的可视层与隐含层之间的系统能量函数定义为如下表达式:
E(v,h)=-vTWh-bTv-aTh                      (2)
其中v可视层即本文中的高斯超向量M;h为隐含层即本文所需的低维特征向量;W为层间权值;b为正向网络阈值;a为反向网络阈值。基于RBM的能量函数可进一步定义可视层与隐含层直接的联合概率分布:
Figure GDA0004140482440000031
其中符号含义同公式(2),Z为归一化因子
Figure GDA0004140482440000032
在深度神经网络的训练过程中,可见层单元一般贝努力或者高斯分布,隐含层单元服从贝努力分布。由于RBM模型层内无连接,层间全连接使得给定可见层单元状态时,其隐含层的激活状态是相互独立的,隐含层单元的激活概率可定义为:
Figure GDA0004140482440000033
Figure GDA0004140482440000034
其中i为输入层神经元单元,j为隐含层神经元,后述公式下标相同,上述公式
Figure GDA0004140482440000035
因为RBM模型的结构是对称的,所以可视层单元的激活函数定义定为:
Figure GDA0004140482440000036
Figure GDA0004140482440000037
其中归一化函数同公式(7),由于归一化因子的存在,可见层与隐含层的联合概率p(v,h)无法直接计算,一般通过对比散度法(CD)进行近似求解。
(3)对比散度算法即使用初始化训练数据M,仅需要使用k(通常k=1)步Gibbs采样就可以得到足够好的近似求解值。首先将可见层单元的状态设置成一个训练样本M,并利用如下公式计算隐藏层单元Y:
Figure GDA0004140482440000041
在所有隐藏单元状态确定了之后,反向根据如下公式来确定可见层的一个重构M′:
Figure GDA0004140482440000042
然后将重构的可见层作为真实的模型带入RBM模型中得到Y′:
Figure GDA0004140482440000043
我们将M与Y做乘积得到矩阵z,将M′与Y′做乘积得到矩阵Z′,两个矩阵的行为输入层即可视层的单元数码,列为隐含层的单元数目。进而就可以进行梯度下降算法了,进一步受限玻尔兹曼机的权值阈值更新有如下公式:
Wk+1=Wk+λ(Z-Z′)                   (11)
bk+1=bk+λ(Y-Y′)                     (12)
ak+1=ak+λ(M-M′)                    (13)
其中λ为自适应学习率,根据模型值M与训练集的期望M′之间的差值进行权值阈值的迭代直到其误差值小于预设值,从而通过训练获得所需要的受限波尔滋蔓机模型。传统的权值阈值迭代求解是根据前后输出值之间的误差大小来完全确定是否接受本次迭代求解,本算法为了避免陷入局部最优解而错过全局最优解,提高权值阈值的求解迭代速度,本算法引入变异算子即随机接受较差解算法,定义控制算子参量为D,其迭代过程中满足如下公式:
Dk+1=α*Dk                            (14)
其中α为[0,1]区间内非常接近于1的数;k为迭代次数;D一般设置为1000或者更高,当迭代到预设停止迭代数值或者D的预设最小值停止值时停止迭代。
定义模型值M与训练集的期望M′之间的差值第一次为ε1和第二次为ε2,其变异算子定义为:
Figure GDA0004140482440000044
公式表示,根据计算两次模型值与训练集的期望之间的差值,若第二次的模型值与训练集的期望之间的差值比第一次模型值与训练集的期望之间的差值小,则说明该次权值阈值求解有效,若第二次的差值比第一次的差值大并不放弃此次的求解值,而是以一定的概率接受该次所求解的权值阈值,从而避免了陷入局部最优的问题。
上述的一种基于变异受限玻尔兹曼机的去噪音频特征提取算法,步骤(4)中去噪音频特征模型训练首先将上述中所建立的训练模型的隐含层分成两组,因为音频特征出现的概率总大于噪声特征出现的概率,因此其对应的隐含层单元的激活值更大,且激活次数越多,根据这一特点实现对隐含层单元的聚类分组。其分组所使用的概率函数即公式(7)归一化函数,高斯超向量输入即可得到对应的低维特征向量也可称为低维概率向量,根据下式的阈值函数进而可实现对隐含层单元通过对接入权值进行标注:
Figure GDA0004140482440000051
其中ykj为低k个样本,第j个隐含层对应的激活值,Wij为受限玻尔兹曼机模型的权值,mj是样本标签信息,w和
Figure GDA0004140482440000052
为隐含层单元的激活状态值和非激活时状态值。因为隐含层音频特征出现的概率总大于噪声特征出现的概率,故可利用激活单元的概率吧隐含层的激活值大的单元提取出来,并以此作为目标的特征提取单元。根据上述的阈值函数将隐含层分为音频特征组合噪声组,通过这种聚类分组方式使得模型对原始的高斯超向量的特征进行预备性选择,这种预备性原则过程即实现了对音频信号的去噪、特征提取、降维操作。
上述的一种基于变异受限玻尔兹曼机的去噪音频特征提取算法,步骤(5)中音频特征信号的对比检验是检验其算法的优越性其合适的评判标准也是不可缺少的,本算法采用余弦相似度作为去噪音频特征之间的度量,其计算公式如下:
Figure GDA0004140482440000053
其中y1和y2分别表示训练和测试组的音频特征,||.||表示L2范数。其计算值越大说明其两个特征之间相关性越大,反正则说明相关性越小。通过与同类特征提取算法余弦相似度的比较得出其本算法的可靠性。
本发明与现有的音频特征提取方法的优点有:
(1)用低维定长特征向量表示变长语音,与传统的提取音频信号的系数特征方式完全不同,提出了一种有别于过去的音频特征提取方法,
(2)利用音频特征出现的概率大于噪声特征出现概率的特点,通过阈值函数和标签信息实现对音频特征和噪声特征的聚类分组,从而实现了去噪音频特征提取的目的,对原始音频干扰性不敏感。
(3)受限玻尔兹曼机无监督学习能力强,对于海量的音频信息处理具有强大的鲁棒性和稳定性,势必成为深度学习神经网络在音频信息处理领域的又一大研究点。
附图说明
图1为本发明去噪音频特征提取流程图;
图2为去噪受限玻尔兹曼机网络图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
如图1-2所示,一种基于音频特征信号的分类方法,其具体步骤如下:
(1)音频信号采集:采集音频信号,获得音频样本。
(2)信号预处理:将采集的音频信号进行分组,分别为训练组合测试组。
(3)受限去噪玻尔兹曼机模型的搭建:利用受限玻尔兹曼机优良的无监督学习能力构建学习模型,其模型分为可视层和隐含层以及标签层。
(4)去噪音频特征模型训练:首先利用音频特征出现的概率总大于噪声特征出现的概率实现对预训练的受限去噪玻尔兹曼机模型的隐含层分成两组,然后以混合结构的变异受限玻尔兹曼机对训练组的高斯超向量的音频特征和噪声特征进行分别建模和训练。
(5)音频特征信号的对比检验:用测试组数据送入搭建好的受限去噪玻尔兹曼机模型中,将训练组所获得的特征值与本次测试数据所获得的特征值进行相似度计算进而判断特征提取与聚类结果的准确性。
所述音频采集是通过录音装置收录样音频,因为此处采集的信号为语音信号,故设置其采集声道为单声道,若采集其他类型的音频信号则进行相应的声道设置,信号采集时需要设置好声道模式,采样频率,以及量化间隔,其中采样频率应满足奈奎斯特采样定理,即采样频率应大于等于2倍采样信号的最高频率,获取得到为数字信号x(n)。
所述信号预处理是指将采集好的数字信号进行读取出并进行分组,分为训练组x1和测试组x2,训练组是为了训练出较好的模型参数,测数组数据是为了检验训练出的模型性能。
所述受限玻尔兹曼机去噪音频特征提取模型的搭建包括以下步骤:
(1)模型搭建首先定义隐含层低维空间为T,F为特征维数,C为混合高斯数,高斯超向量(GMM)是由高斯的均值向量与总体差异构成,对于一段音频信号可由如下高斯超向量表示:
M=x+Tw                                (1)
其中x表示与说话人和信道无关的音频超向量,由通用背景模型(UBM)的高斯均值向量构成,为整个高斯超向量空间的中心;T为低维空间CF×R的载荷矩阵即总体差异空间,R为总体差异因子个数;w为服从标准正太分布的随机向量即总体差异因子;对于超向量M其均值为x,协方差为TTT,T和w可通过期望最大化(EM)得到估计值。
(2)受限玻尔兹曼RBM是一种无自反馈的随机神经网络模型,层间双向全连接,层内无连接。RBM模型是马尔科夫随机场中的一种,所有节点的联合分布服从玻尔兹曼分布,故可将RBM看做是一种能量模型并用概率测度进行求解。RBM的可视层与隐含层之间的系统能量函数定义为如下表达式:
E(v,h)=-vTWh-bTv-aTh                      (2)
其中v可视层即本文中的高斯超向量M;h为隐含层即本文所需的低维特征向量;W为层间权值;b为正向网络阈值;a为反向网络阈值。基于RBM的能量函数可进一步定义可视层与隐含层直接的联合概率分布:
Figure GDA0004140482440000071
其中符号含义同公式(2),Z为归一化因子又称分配函数,其表达式如下:
Figure GDA0004140482440000072
在深度神经网络的训练过程中,可见层单元一般贝努力或者高斯分布,隐含层单元服从贝努力分布。由于RBM模型层内无连接,层间全连接使得给定可见层单元状态时,其隐含层的激活状态是相互独立的,隐含层单元的激活概率定义为:
Figure GDA0004140482440000081
Figure GDA0004140482440000082
其中i为输入层神经元单元,j为隐含层神经元,后述公式下标相同,其中δ(x)为归一化函数:
Figure GDA0004140482440000083
因为RBM模型的结构是对称的,所以可视层单元的激活函数定义定为:
Figure GDA0004140482440000084
Figure GDA0004140482440000085
其中归一化函数同公式(7),由于归一化因子的存在,可见层与隐含层的联合概率p(v,h)无法直接计算,一般通过对比散度法(CD)进行近似求解。
(3)对比散度算法即使用初始化训练数据M,仅需要使用k(通常k=1)步Gibbs采样就可以得到足够好的近似求解值。首先将可见层单元的状态设置成一个训练样本M,并利用如下公式计算隐藏层单元Y:
Figure GDA0004140482440000086
在所有隐藏单元状态确定了之后,反向根据如下公式来确定可见层的一个重构M′:
Figure GDA0004140482440000087
然后将重构的可见层作为真实的模型带入RBM模型中得到Y′:
Figure GDA0004140482440000091
我们将M与Y做乘积得到矩阵z,将M′与Y′做乘积得到矩阵Z′,两个矩阵的行为输入层即可视层的单元数码,列为隐含层的单元数目。进而就可以进行梯度下降算法了:
Figure GDA0004140482440000092
Figure GDA0004140482440000093
Figure GDA0004140482440000094
基于求得的梯度,进一步受限玻尔兹曼机的权值阈值更新有如下公式:
Wk+1=Wk+λ(Z-Z′)                   (16)
bk+1=bk+λ(Y-Y′)                     (17)
ak+1=ak+λ(M-M′)                    (18)
其中λ为自适应学习率,根据模型值M与训练集的期望M′之间的差值进行权值阈值的迭代直到其误差值小于预设值,从而通过训练获得所需要的受限波尔滋蔓机模型。
权值阈值迭代求解过程中,为了避免陷入局部最优解而错过全局最优解,提高权值阈值的求解迭代速度,本算法引入变异算子即随机接受较差解算法,定义控制算子参量为D,其迭代过程中满足如下公式:
Dk+1=α×Dk                            (19)
其中α为[0,1]区间内非常接近于1的数;k为迭代次数;D值设置越大容许迭代次数越多花费的时间也就越多,一般设置为1000或者更高,D当迭代到预设停止迭代数值或者D的预设最小值停止值时停止迭代。
定义模型值M与训练集的期望M′之间的差值第一次为ε1和第二次为ε2,其变异算子定义为:
Figure GDA0004140482440000101
本公式表示,两次迭代求解权值阈值并计算两次模型值与训练集的期望之间的差值,若第二次的模型值与训练集的期望之间的差值比第一次模型值与训练集的期望之间的差值小,则说明该次权值阈值求解有效,若第二次的差值比第一次的差值大并不放弃此次的求解值,而是以一定的概率接受该次所求解的权值阈值,从而避免了陷入局部最优的问题。
所述去噪音频特征模型训练包括以下步骤:
首先将上述所建立的训练模型的隐含层分成两组,因为音频特征出现的概率总大于噪声特征出现的概率,因此其对应的隐含层单元的激活值更大,且激活次数越多,根据这一特点实现对隐含层单元的聚类分组。其分组所使用的概率函数即公式(7)归一化函数,高斯超向量输入即可得到对应的低维特征向量也可称为低维概率向量,根据下式的阈值函数进而可实现对隐含层单元通过对接入权值进行标注:
Figure GDA0004140482440000102
其中ykj为低k个样本,第j个隐含层对应的激活值,Wij为受限玻尔兹曼机模型的权值,mj是样本标签信息,w和
Figure GDA0004140482440000103
为隐含层单元的激活状态值和非激活时状态值。因为隐含层音频特征出现的概率总大于噪声特征出现的概率,故可利用激活单元的概率吧隐含层的激活值大的单元提取出来,并以此作为目标的特征提取单元。根据上述的阈值函数将隐含层分为音频特征组合噪声组,通过这种聚类分组方式使得模型对原始的高斯超向量的特征进行预备性选择,这种预备性原则过程即实现了对音频信号的去噪、特征提取、降维操作。
所述音频特征信号的对比检验是指为了检验其算法的优越性其合适的评判标准也是不可缺少的,本算法采用余弦相似度作为去噪音频特征之间的度量,其计算公式如下:
Figure GDA0004140482440000104
其中y1和y2分别表示训练和测试组的音频特征,||.||表示L2范数。其计算值越大说明其两个特征之间相关性越大,反正则说明相关性越小。通过与同类特征提取算法余弦相似度的比较得出其本算法的可靠性。
上面结合附图对本发明的具体实施方式作了详细说明,但本发明并不限于上述实施方式,在本领域科技研究人员所具备的知识范围内,不脱离或背离本发明宗旨的前提下可以应用于其他相关领域,如人工智能、音频信息大数据处理、音频识别等。

Claims (5)

1.一种基于变异受限玻尔兹曼机的去噪音频特征提取方法,其特征在于:具体步骤如下:
(1)音频信号采集:采集音频信号,获得音频样本;
(2)信号预处理:将采集的音频信号进行分组,分别为训练组和测试组;
(3)受限去噪玻尔兹曼机模型的搭建:利用受限玻尔兹曼机构建受限去噪玻尔兹曼机模型,在受限去噪玻尔兹曼机模型的权值阈值求解过程中引入变异算子获得变异的受限玻尔兹曼机模型即受限去噪玻尔兹曼机模型,模型分为可视层、隐含层以及标签层;
所述受限去噪玻尔兹曼机模型的搭建包括以下步骤:
①模型搭建首先定义T为隐含层低维空间,F为特征维数,C为混合高斯数,高斯超向量是由高斯的均值向量与总体差异构成,对于一段音频信号可由如下高斯超向量表示:
N=x+Tw
其中x表示与说话人和信道无关的音频超向量,由通用背景模型的高斯均值向量构成,为整个高斯超向量空间的中心;T为低维空间CF×R的载荷矩阵即总体差异空间,R为总体差异因子个数;w为服从标准正态分布的随机向量即总体差异因子;对于超向量N其均值为x,协方差为TTT,T和w可通过期望最大化得到估计值;
②将受限玻尔兹曼机模型看做是一种能量模型并用概率测度进行求解,其可视层与隐含层之间的系统能量函数定义为如下表达式:
E(v,h)=-vTWh-bTv-aTh
其中v可视层即高斯超向量N;h为隐含层即低维特征向量;W为层间权值;b为正向网络阈值;a为反向网络阈值,基于受限玻尔兹曼机模型的能量函数进一步定义可视层与隐含层直接的联合概率分布:
Figure FDA0004140482430000011
其中Z为归一化因子又称分配函数,其表达式如下:
Figure FDA0004140482430000021
在深度神经网络的训练过程中,可见层单元服从贝努力分布或者高斯分布,隐含层单元服从贝努力分布,由于受限玻尔兹曼机模型层内无连接,层间全连接使得给定可见层单元状态时,其隐含层的激活状态是相互独立的,隐含层单元的激活概率定义为:
Figure FDA0004140482430000022
Figure FDA0004140482430000023
其中i为输入层神经元单元,j为隐含层神经元,δ(x)为归一化函数:
Figure FDA0004140482430000024
因为受限玻尔兹曼机模型的结构是对称的,所以可视层单元的激活函数定义定为:
Figure FDA0004140482430000025
Figure FDA0004140482430000026
可见层与隐含层的联合概率p(v,h)无法直接计算,通过对比散度法进行近似求解;
③对比散度算法即使用初始化训练数据,首先将可见层单元的状态设置成一个训练样本M,并利用如下公式计算隐藏层单元Y:
Figure FDA0004140482430000027
在所有隐藏单元状态确定之后,根据如下公式来确定可见层的一个重构M′:
Figure FDA0004140482430000028
然后将重构的可见层作为真实的模型带入受限玻尔兹曼机模型中得到Y′:
Figure FDA0004140482430000029
将M与Y做乘积得到矩阵Z,将M′与Y′做乘积得到矩阵Z′,两个矩阵的行为输入层即可视层的单元数目,列为隐含层的单元数目,进行梯度下降计算:
Figure FDA0004140482430000031
Figure FDA0004140482430000032
Figure FDA0004140482430000033
基于求得的梯度,进一步受限玻尔兹曼机模型的权值阈值更新为:
Wk+1=Wk+λ(Z-Z′)
bk+1=bk+λ(Y-Y′)
ak+1=ak+λ(M-M′)
其中λ为自适应学习率,根据训练样本M与训练集的期望M′之间的差值进行权值阈值的迭代直到其误差值小于预设值,从而通过训练获得所需要的受限玻尔兹曼机模型;
④权值阈值迭代求解过程中,引入变异算子即随机接受较差解算法,定义控制算子参量为D,其迭代过程中满足如下公式:
Dk+1=α×Dk
其中α为[0,1]区间内非常接近于1的数;k为迭代次数;D值设置越大容许迭代次数越多花费的时间也就越多,D当迭代到预设停止迭代数值或者D的预设最小值停止值时停止迭代;
定义训练样本M与训练集的期望M′之间的差值第一次为ε1和第二次为ε2,其变异算子定义为:
Figure FDA0004140482430000034
上述公式两次迭代求解权值阈值并计算两次模型值与训练集的期望之间的差值,若第二次的模型值与训练集的期望之间的差值比第一次模型值与训练集的期望之间的差值小,则说明该次权值阈值求解有效,若第二次的差值比第一次的差值大并不放弃此次的求解值,而是以一定的概率接受该次所求解的权值阈值;
(4)受限去噪玻尔兹曼机模型训练:首先利用音频特征出现的概率总大于噪声特征出现的概率将变异受限玻尔兹曼机模型的隐含层分成两组,得到混合结构的受限去噪玻尔兹曼机模型,然后以混合结构的受限去噪玻尔兹曼机模型对训练组的高斯超向量的音频特征和噪声特征进行分别建模和训练以获得去噪音频特征信号;
(5)音频特征信号的对比检验:将测试组送入搭建好的受限去噪玻尔兹曼机模型中,将训练组所获得的特征值与本次测试数据所获得的特征值进行相似度计算进而判断特征提取与聚类结果的准确性。
2.根据权利要求1所述的基于变异受限玻尔兹曼机的去噪音频特征提取方法,其特征在于:所述音频信号采集时需要设置好声道模式、采样频率以及量化间隔,其中采样频率应满足奈奎斯特采样定理,即采样频率应大于等于2倍采样信号的最高频率,获取得到为数字信号x(n)。
3.根据权利要求1所述的基于变异受限玻尔兹曼机的去噪音频特征提取方法,其特征在于:所述信号预处理将采集好的音频信号进行读取出并进行分组,分为训练组x1和测试组x2,训练组用于训练模型参数,测试组用于检验训练出的模型结果。
4.根据权利要求1所述的基于变异受限玻尔兹曼机的去噪音频特征提取方法,其特征在于:所述受限去噪玻尔兹曼机模型训练包括以下步骤:
首先将建立的受限去噪玻尔兹曼机模型的隐含层分成两组,并用归一化函数δ(x)对隐含层单元的聚类分组,根据下式的阈值函数实现对隐含层单元通过对接入权值进行标注:
Figure FDA0004140482430000041
其中ykj为第k个样本,第j个隐含层对应的激活值,Wk为受限玻尔兹曼机模型的权值,mj是样本标签信息,w和
Figure FDA0004140482430000042
为隐含层单元的激活状态值和非激活时状态值,根据上述的阈值函数将隐含层分为音频特征组和噪声组。
5.根据权利要求1所述的基于变异受限玻尔兹曼机的去噪音频特征提取方法,其特征在于:所述音频特征信号的对比检验采用余弦相似度作为去噪音频特征之间的度量,其计算公式如下:
Figure FDA0004140482430000051
其中y1和y2分别表示训练和测试组的音频特征,||.||表示L2范数,其计算值越大说明其两个特征之间相关性越大,反之则说明相关性越小。
CN201810996275.3A 2018-08-29 2018-08-29 一种基于变异受限玻尔兹曼机的去噪音频特征提取方法 Active CN109147817B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810996275.3A CN109147817B (zh) 2018-08-29 2018-08-29 一种基于变异受限玻尔兹曼机的去噪音频特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810996275.3A CN109147817B (zh) 2018-08-29 2018-08-29 一种基于变异受限玻尔兹曼机的去噪音频特征提取方法

Publications (2)

Publication Number Publication Date
CN109147817A CN109147817A (zh) 2019-01-04
CN109147817B true CN109147817B (zh) 2023-05-12

Family

ID=64829045

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810996275.3A Active CN109147817B (zh) 2018-08-29 2018-08-29 一种基于变异受限玻尔兹曼机的去噪音频特征提取方法

Country Status (1)

Country Link
CN (1) CN109147817B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020685A (zh) * 2019-04-09 2019-07-16 山东超越数控电子股份有限公司 一种基于自适应滤波和受限玻尔兹曼机的预处理方法,终端及可读存储介质
CN110135564A (zh) * 2019-05-15 2019-08-16 深圳朴生智能科技有限公司 基于边缘计算的煤矿瓦斯传感器数据异常检测方法
CN110298401A (zh) * 2019-06-28 2019-10-01 上海电力学院 一种基于模糊和去冗余的受限玻尔兹曼机图像分类方法
CN112532330A (zh) * 2019-09-18 2021-03-19 中兴通讯股份有限公司 干扰模拟系统、方法及装置、干扰测试系统、方法及装置
CN112215054B (zh) * 2020-07-27 2022-06-28 西北工业大学 一种用于水声信号去噪的深度生成对抗方法
CN112202630A (zh) * 2020-09-16 2021-01-08 中盈优创资讯科技有限公司 一种基于无监督模型的网路质量异常检测方法及装置
CN112288020A (zh) * 2020-10-30 2021-01-29 江南大学 基于判别式受限玻尔兹曼机的数字调制识别方法
CN112884089A (zh) * 2021-04-12 2021-06-01 国网上海市电力公司 一种基于数据挖掘的电力变压器故障预警系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101561651B1 (ko) * 2014-05-23 2015-11-02 서강대학교산학협력단 딥 빌리프 네트워크를 이용한 음성기반 호불호 검출방법 및 장치, 그를 기록한 기록매체
CN104157290B (zh) * 2014-08-19 2017-10-24 大连理工大学 一种基于深度学习的说话人识别方法
DE112017001830B4 (de) * 2016-05-06 2024-02-22 Robert Bosch Gmbh Sprachverbesserung und audioereignisdetektion für eine umgebung mit nichtstationären geräuschen
CN106782504B (zh) * 2016-12-29 2019-01-22 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN106920544A (zh) * 2017-03-17 2017-07-04 深圳市唯特视科技有限公司 一种基于深度神经网络特征训练的语音识别方法
CN108335702A (zh) * 2018-02-01 2018-07-27 福州大学 一种基于深度神经网络的音频降噪方法

Also Published As

Publication number Publication date
CN109147817A (zh) 2019-01-04

Similar Documents

Publication Publication Date Title
CN109147817B (zh) 一种基于变异受限玻尔兹曼机的去噪音频特征提取方法
CN110097755B (zh) 基于深度神经网络的高速公路交通流量状态识别方法
CN107610707B (zh) 一种声纹识别方法及装置
CN110751108B (zh) 一种地铁分布式振动信号相似度确定方法
Samizade et al. Adversarial example detection by classification for deep speech recognition
CN106952644A (zh) 一种基于瓶颈特征的复杂音频分割聚类方法
CN110349597B (zh) 一种语音检测方法及装置
CN111462729B (zh) 基于音素对数似然比和稀疏表征的快速语种识别方法
CN110120218A (zh) 基于gmm-hmm的高速公路大型车辆识别方法
CN111580151B (zh) 一种基于SSNet模型的地震事件到时识别方法
CN111477220B (zh) 一种面向家居口语环境的神经网络语音识别方法及系统
CN109378014A (zh) 一种基于卷积神经网络的移动设备源识别方法及系统
Mallidi et al. Uncertainty estimation of DNN classifiers
CN102789779A (zh) 一种语音识别系统及其识别方法
CN113673346A (zh) 一种基于多尺度SE-Resnet的电机振动数据处理与状态识别方法
CN104538035A (zh) 一种基于Fisher超向量的说话人识别方法及系统
Fan et al. Deep Hashing for Speaker Identification and Retrieval.
CN115101076B (zh) 一种基于多尺度通道分离卷积特征提取的说话人聚类方法
Sun et al. Progressive multi-target network based speech enhancement with snr-preselection for robust speaker diarization
CN112562725A (zh) 基于语谱图和胶囊网络的混合语音情感分类方法
Kohlsdorf et al. An auto encoder for audio dolphin communication
Zheng et al. MSRANet: Learning discriminative embeddings for speaker verification via channel and spatial attention mechanism in alterable scenarios
CN113987910A (zh) 一种耦合神经网络与动态时间规划的居民负荷辨识方法及装置
Tian et al. Fuzzy clustering and Bayesian information criterion based threshold estimation for robust voice activity detection
CN117219124A (zh) 一种基于深度神经网络的开关柜声纹故障检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant