CN116597853A - 一种音频消噪方法 - Google Patents
一种音频消噪方法 Download PDFInfo
- Publication number
- CN116597853A CN116597853A CN202310260337.5A CN202310260337A CN116597853A CN 116597853 A CN116597853 A CN 116597853A CN 202310260337 A CN202310260337 A CN 202310260337A CN 116597853 A CN116597853 A CN 116597853A
- Authority
- CN
- China
- Prior art keywords
- noise
- audio
- matrix
- data
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 239000011159 matrix material Substances 0.000 claims abstract description 67
- 238000012549 training Methods 0.000 claims abstract description 44
- 238000003062 neural network model Methods 0.000 claims abstract description 35
- 230000009467 reduction Effects 0.000 claims abstract description 33
- 230000000873 masking effect Effects 0.000 claims abstract description 31
- 239000002131 composite material Substances 0.000 claims abstract description 18
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000004422 calculation algorithm Methods 0.000 claims description 38
- 230000006870 function Effects 0.000 claims description 26
- 238000004458 analytical method Methods 0.000 claims description 23
- 238000000513 principal component analysis Methods 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 16
- 230000003068 static effect Effects 0.000 claims description 12
- 230000008859 change Effects 0.000 claims description 11
- 230000003044 adaptive effect Effects 0.000 claims description 10
- 238000001228 spectrum Methods 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 9
- 230000003595 spectral effect Effects 0.000 claims description 6
- 238000012847 principal component analysis method Methods 0.000 claims description 4
- 230000017105 transposition Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 2
- 230000005236 sound signal Effects 0.000 abstract description 37
- 238000013528 artificial neural network Methods 0.000 abstract description 9
- 230000008030 elimination Effects 0.000 description 11
- 238000003379 elimination reaction Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 10
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000013507 mapping Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 239000004973 liquid crystal related substance Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000000926 separation method Methods 0.000 description 4
- 230000001629 suppression Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000009432 framing Methods 0.000 description 3
- 238000012905 input function Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000003862 health status Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 241000282373 Panthera pardus Species 0.000 description 1
- 239000010426 asphalt Substances 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
- 238000003466 welding Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K11/00—Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/16—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/175—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
- G10K11/1752—Masking
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明提供了一种音频消噪方法,包括对采集的含噪样本训练数据进行预处理;对于进行预处理后的含噪样本训练数据进行多尺度特征提取,提取其时域特征、频域特征和倒谱域特征,得到复合特征矩阵,并对复合特征矩阵中的特征数据进行降维处理,得到降维的多尺度特征数据;建立深度神经网络模型,通过降维的多尺度特征数据对深度神经网络模型进行训练,直至深度神经网络模型的网络自适应掩蔽能力收敛至接近理想自适应时频掩蔽阈值;通过训练后的深度神经网络模型对含噪音频进行去噪处理等步骤。本发明通过自适应时频掩蔽做为神经网络估计目标的方法,用于训练深度神经网络模型,可以更好的消除工业领域内采集到的音频信号中目标音频以外的噪声。
Description
技术领域
本发明涉及音频信号处理技术领域,具体涉及一种音频消噪方法。
背景技术
在音频消噪及语音增强领域中,音频特征的提取及噪声目标的有效均会直接影响音频消噪的效果。
随着音频信号处理技术的发展和应用,在日常生活中利用音频采集设备对各类场景所需的音频进行采集、处理、识别都逐渐得到了发展。例如公共安全监管、工业设备监测等领域均广泛涉及音频信号的采集及应用。而与此同时各种基于音频信号处理的系统都面临着如何进一步提高系统性能的问题,而音频信号增强技术便是其中的关键技术之一。它的研究开始于20世纪60年代,随着数字信号处理技术的成熟,在70年代取得了许多突破性的成果,从而使语音增强技术成为语音信号处理领域的一个重要分支。学者们经过几十年的研究,已经提出了很多种语音、音频信号增强算法。
传统的单通道语音增强算法主要有谱减法、维纳滤波法、基于统计模型的算法、自适应滤波法、基于子空间的算法、基于小波变换的算法等等。除了一些传统的语音增强算法外,还出现了许多基于机器学习的语音增强算法,主要概括为以下几类:基于隐马尔可夫模型(Hidden Markov Models,HMM)的语音增强算法、基于非负矩阵分解的语音增强算法、基于浅层神经网络的语音增强算法和基于深层神经网络的语音增强算法。与传统的语音增强算法不同,基于机器学习的语音增强方法借鉴机器学习的思路,通过有监督的训练来实现语音增强。其中,基于深度学习的语音增强,利用深度神经网络模型结构强大的非线性映射能力,通过训练大量的数据,得到一个训练好的深度神经网络模型进行语音增强。
上述各类音频信号增强、消噪方法均大部分被用于消除日常生活中的语音环境混杂的噪声。当此类噪声消除算法被用于工业领域的音频信号时,将面对未知的噪声源和频率条件,使用以上降噪算法来降低噪声,其效果将是非常难以衡量的。当降噪质量太强,将不可避免地导致工业音频中目标故障特征信息的丢失,反之,降噪质量太弱则会导致故障特征频率极易被噪声频率所掩盖。且以往的音频特征提取方法往往针对音频的单一特征进行提取,基于此类单一特征提取的方法存在无法涵盖全部有效特征的缺陷。
综上所述,急需一种音频消噪方法以解决现有技术中存在的问题。
发明内容
本发明目的在于提供一种音频消噪方法,以解决提升音频降噪质量的问题。
为实现上述目的,本发明提供了一种音频消噪方法,包括以下步骤:
步骤一:对采集的含噪样本训练数据进行预处理;
步骤二:对于进行预处理后的含噪样本训练数据进行多尺度特征提取,提取其时域特征、频域特征和倒谱域特征,得到复合特征矩阵,并对复合特征矩阵中的特征数据进行降维处理,得到降维的多尺度特征数据;
步骤三:建立深度神经网络模型,通过降维的多尺度特征数据对深度神经网络模型进行训练,直至深度神经网络模型的网络自适应掩蔽能力收敛至接近理想自适应时频掩蔽阈值;
步骤四:通过训练后的深度神经网络模型对含噪音频进行去噪处理。
优选的,所述步骤二中,时域特征包括短时平均过零率和短时能量;频域特征包括短时功率谱密度;倒谱域特征包括梅尔频率倒谱系数特征和线性预测倒谱系数;所述梅尔频率倒谱系数特征包括语音参数的静态特性和动态特性,所述动态特性通过对静态特性进行差分处理获得。
优选的,所述步骤二中,通过标准的MFCC倒谱系数表征语音参数的静态特性,MFCC倒谱系数通过表达式4)确定:
其中,i表示帧序号,m为离散余弦变换后的谱线,H为Mel滤波器的总数,h为Mel滤波器的序号,S(i,h)为第i帧音频通过第h个Mel滤波器的能量。
优选的,所述步骤二中,通过主成分分析法和线性判别分析法结合的方式对复合特征矩阵进行降维处理;降维的多尺度特征数据通过表达式11)确定:
其中,hj为第j个降维的多尺度特征数据;是主成分分析法变换矩阵的转置,是线性判别分析法变换矩阵的转置,xj是第j个含噪样本训练数据的D维特征。
优选的,所述步骤二中,主成分分析法变换矩阵WPCA是大小为D×d的矩阵,d为降维后多尺度特征数据的维度;
在进行线性判别分析法时,通过类内散度矩阵Sw和类间散度矩阵Sb获取线性判别分析法变化矩阵WLDA,其中,类内散度矩阵Sw和类间散度矩阵Sb通过表达式9)确定:
其中,Q为含噪样本训练数据中的噪声种类总数,Nq是第q种噪声种类中的噪声样本总数,q为噪声种类的序数,k为各个噪声种类中噪声样本的序数;sq,k表示第q种噪声种类中的第k个噪声样本的特征值;μq是第q种噪声种类的噪声样本的特征平均值,μ是所有噪声种类的噪声样本的特征平均值,上标T代表转置;
通过选取矩阵Sw -1Sb中最大的g个特征值得到大小为D×g的线性判别分析法变化矩阵WLDA。
优选的,所述步骤二中,通过表达式12)对降维的多尺度特征数据进行归一化处理:
其中hmin是降维后多尺度特征数据中的最小值,hmax是降维后多尺度特征数据中的最大值。
优选的,所述步骤三中,深度神经网络模型的框架包括输入层、隐含层和输出层;深度神经网络模型的训练采用标准反向传播算法和丢弃法相结合的方法,其中丢弃法的丢弃率为0.2;对于标准反向传播算法中网络的权值和偏置采用自适应随机梯度下降与动量项结合的算法来优化。
优选的,所述步骤三中,理想自适应时频掩蔽阈值SAM(t,fc)通过表达式19)确定:SAM(t,fc)=sigmoid(t,fc)*IBM(t,fc)+(1-sigmoid(t,fc))*IRM(t,fc)19);
其中,sigmoid(t,fc)为将每一帧音频的信噪比SNR(t,fc)输入sigmoid函数中所获的值,t为该帧音频对应的时间点,fc为该帧音频对应的频率,IBM(t,fc)为该帧音频的信噪比对应的理想二值掩蔽阈值;IRM(t,fc)为该帧音频的信噪比对应的理想比值掩蔽阈值。
优选的,所述步骤三中,sigmoid(t,fc)通过表达式18)确定:
优选的,所述步骤四中,将含噪音频输入深度神经网络模型去噪前,先进行多尺度特征提取。
应用本发明的技术方案,具有以下有益效果:
(1)本发明中,根据音频信号的特点,分别从时域、频域、倒谱域等对预处理后的数据进行全方面、多尺度的特征提取,有效避免现阶段多数特征提取方法只针对单一特征进行提取带来的数据特征损失,更加有效的增进了消噪效果的准确性。
(2)本发明中,将主成分分析法(PCA)和线性判别分析法(LDA)相结合对3个尺度组成的多特征进行降维处理,将高维特征参数降到低维空间,避免了数据的冗余。
(3)本发明中,通过提出了一种利用sigmoid函数设计的一个自适应时频掩蔽做为神经网络估计目标的方法,用于训练深度神经网络模型,可以更好的消除工业领域内采集到的音频信号中目标音频以外的噪声;避免了在面对未知的噪声源和频率条件,降噪效果非常难以衡量的缺点;同时也避免了当降噪质量太强,导致工业音频中目标故障特征信息的丢失,或降噪质量太弱导致的故障特征频率极易被噪声频率所掩盖等问题。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本申请实施例中一种音频消噪方法的流程图;
图2是本申请实施例中含噪样本训练数据集的噪声种类组成示意图;
图3是本申请实施例中以信噪比为输入的sigmoid函数图像;
图4是本申请实施例中深度神经网络模型的训练流程图;
图5是本申请实施例中消噪前的风力发电机风叶气动噪声的时幅数据;
图6是本申请实施例中消噪后的风力发电机风叶气动噪声的时幅数据;
图7是本申请实施例中消噪前的风力发电机风叶气动噪声的幅频数据;
图8是本申请实施例中消噪后的风力发电机风叶气动噪声的幅频数据;
图9是本申请实施例中消噪前的风力发电机风叶气动噪声的能量谱数据;
图10是本申请实施例中消噪后的风力发电机风叶气动噪声的能量谱数据。
具体实施方式
以下结合附图对本发明的实施例进行详细说明,但是本发明可以根据权利要求限定和覆盖的多种不同方式实施。
实施例:
参见图1至图10,一种音频消噪方法,本实施例应用于监测风力发电机叶片健康状态的工业音频消噪。
现有技术中的音频特征提取方法往往针对音频的单一特征进行提取,基于此类单一特征提取的方法存在无法涵盖全部有效特征的缺陷,因此本发明的一种音频消噪方法提出根据音频信号的特点,分别从时域、频域、倒谱域等对预处理后的数据进行全方面、多尺度的特征提取的,综合进行分析,再对提取的特征进行降维的方法,实现精准有效提取音频信号的特征;在对提取的复合特征矩阵进行降维后,利用深度神经网络模型对降维后的消噪目标进行学习,学习过程中,利用sigmoid函数设计的一个自适应时频掩蔽阈值做为神经网络估计目标,得到可以自适应多类信噪比环境进行噪声目标估计的深度神经网络模型,如图1所示,具体包括以下步骤:
步骤一:对采集的含噪样本训练数据进行预处理;预处理过程包括三个主要步骤:预加重、分帧和窗口化。
参见图2,本实施例中,含噪样本训练数据集为使用来自NTT语料库的纯净语音(即干净音频数据)与来自Noise-92数据集的噪声数据组合而成;纯净语音选自NTT数据库中的3种语音的子库:英语、汉语和法语,每种语言的子库中选取96句语音,包含8个说话人,4男4女,每个人说12句语音,每句语音的时长是8秒,总共有288句纯净语音。噪声数据来自于Noise-92数据库中的15种噪声,分别为:white、babble、pink、f16、volvo、factory1、factory2、m109、machinegun、leopard、hfchannel、destroyengine、destroyerops、buccaneer1和buccaneer2,将每一种噪声的信噪比分别设置为10dB、5dB、0dB和-5dB四种情况,共得到60种噪声;将288句纯净语音分别加入60种噪声,通过60种不同噪声分别与288个纯净语音相结合即得出整体数据集,含噪样本训练数据集中共包含17280条含噪训练音频(即含噪样本训练数据)。
对每一个含噪样本训练数据均进行预处理,其中预加重主要是用来补偿高频成分的损失;而分帧主要是用来使音频数据的局部批量处理更容易进行,帧移一般不能超过帧长的1/2;窗口化过程是通过每一帧乘以一个窗口函数来减少截断效应,即通过分析矩形窗、汉明窗和汉宁窗的频率响应的振幅特性进行加窗处理,其中汉明窗的主瓣最宽,瓣高最低,可以有效克服音频频域中的泄漏现象。
步骤二:对于进行预处理后的含噪样本训练数据进行多尺度特征提取,提取其时域特征、频域特征和倒谱域特征,得到复合特征矩阵,并对复合特征矩阵中的特征数据进行降维处理,得到降维的多尺度特征数据;
所述步骤二中,时域特征包括短时平均过零率和短时能量。其中,短时平均过零率是音频时域信号分析中的一种特征参数,其数学意义是每帧音频信号通过零值的次数,它在区分清音和浊音信号时具有很好的效果:若短时平均过零率高,则代表清音,若短时平均过零率低,则是浊音,其计算公式如表达式1)所示:
其中,Z(i)为短时平均过零率,yi(n)为分帧后第i帧音频第n个点的信号幅值,i为帧序数,L为帧长;n为每帧的点序数;sgn为符号函数,其函数定义如表达式2)所示:
其中,x表示信号幅值,(即yi(n)或yi(n-1))。
短时能量是音频信号强弱程度的度量参数,代表的是信号幅值的变换,与短时平均过零率一样,短时能量同样可以用于区分清音和浊音,表征每帧信号能量大小随时间的变化,是语音信号的一个重要时域特征,其计算公式如表达式3)所示:
其中,E(i)为第i帧音频的信号幅值。
频域特征包括短时功率谱密度;短时功率谱密度是一种频域内信号特征参数,它将时域信号转换到频域,定义为单位频带内的信号功率,直观展示了信号方差与频率的函数关系。因此,可借此分析出信号在哪些频率范围内数据的变化波动较大。
倒谱域特征包括梅尔频率倒谱系数特征和线性预测倒谱系数;所述梅尔频率倒谱系数特征包括语音参数的静态特性和动态特性,所述动态特性通过对静态特性进行差分处理获得。
MFCC(梅尔频率倒谱系数)特征是一种感知频域倒谱系数,它基于人类的听觉机理,在Mel标度频率域中从低频到高频按照临界带宽的大小由密到疏安排一组共H个三角带通滤波器群组。滤波器组的个数和临界带的个数需相近,一般取22~26,本实施例中,优选滤波器组的个数为24个。具体的步骤是将从时域内通过傅立叶变换的频域内的音频数据,输入该滤波器群组,计算每个滤波器组输出的对数能量,再经过离散余弦变换即可求出MFCC系数。
通过标准的MFCC倒谱系数表征语音参数的静态特性,MFCC倒谱系数通过表达式4)确定:
其中,i表示帧序号,m为离散余弦变换后的谱线,H为Mel滤波器的总数,h为Mel滤波器的序号,S(i,h)为第i帧音频通过第h个Mel滤波器的能量。
但标准的MFCC倒谱系数只反映了音频信号的静态特性,为了获取更多的信息,本发明又对静态特性进行了求差分处理,得到了其动态特性,通过将动、静态特性结合分析,有效提高对音频信号的识别性能。
LPCC特征是线性预测系数在倒谱域的表示,线性预测编码是一种很重要的编码方法。其原理是:根据音频信号样点间的相关性,使用过去的样本点可预测现在或未来的样本点,即一个音频信号的抽样能用过去若干个音频信号抽样的线性组合来逼近,并通过使实际音频信号抽样值和线性预测抽样值之间的误差在均方准则下达到最小值来求解预测系数。该预测系数同样也反映了音频信号的特征,因此可用于音频的模式识别。
提取上述时域、频域、倒谱域3个尺度的特征,并将特征参数组合成复合特征矩阵。
其中:提取音频的短时平均过零率作为复合特征矩阵的第1列,短时能量作为第2列,短时功率谱密度作为第3列;使用24个Mel三角滤波器,得到24列MFCC系数,并求其对应的一阶差分参数作为动态特征,最后的MFCC特征共48列,作为复合特征矩阵的第4~51列;LPCC系数矩阵共48列,作为特征矩阵的第52到99列,最终得到一个99列的多维复合特征矩阵。
由于基于多尺度特征提取的复合特征矩阵维度较高,必然会造成特征冗余问题。因此本发明选用了主成分分析法(以下称:PCA)和线性判别分析法(以下称:LDA)相结合的方法对使用3个尺度组成的多特征进行降维处理,将高维特征参数降到低维空间。
其中,PCA分析法是一种找出数据空间中最能表达原始数据的一组向量的方法,能在保存数据主要信息的前提下,将特征数据从高维降到低维。
具体是用向量xj表示第j(1,2,3,……,J)个含噪样本训练数据的D维特征,D为复合特征矩阵的维度,其中,J为含噪样本训练数据的总数,本实施例中,J=17280,先对xj进行归一化处理,在PCA转换计算中,所有含噪样本训练数据的样本均值通过表达式5)计算:
样本数据的协方差C通过表达式6)和表达式7)确定:
其中,T代表转置符号。
使用奇异值分解(Singular value decomposition,SVD)定理简化计算矩阵X,可以得到XXT的非零特征值。进一步的根据非零特征值可以计算出贡献率,通过确定贡献率可以确定降维后特征的维度d,由此得到大小为D×d的主成分分析法变换矩阵WPCA,通过利用PCA分析法得到的变化矩阵WPCA对第j个含噪样本训练数据的D维特征进行降维转换,即可大幅度降低原来的多特征维度。通过PCA转换后得到的第j个含噪音频特征向量σj可以表示为:
其中,是主成分分析法变换矩阵的转置。
LDA分析法与PCA分析法的差别是,LDA分析法能够寻找最能将特征数据进行分类的低维特征,即最小化类内离散度与最大化类间离散度。
在进行线性判别分析法时,通过类内散度矩阵Sw和类间散度矩阵Sb获取线性判别分析法变化矩阵WLDA,其中,类内散度矩阵Sw和类间散度矩阵Sb通过表达式9)确定:
其中,Q为含噪样本训练数据中的噪声种类总数,本实施例中,Q=60,Nq是第q种噪声种类中的噪声样本总数,q为噪声种类的序数,即1≤q≤Q,k为各个噪声种类中噪声样本的序数;sq,k表示第q种噪声种类中的第k个噪声样本的特征值;μq是第q种噪声种类的噪声样本的特征平均值,μ是所有噪声种类的噪声样本的特征平均值,上标T代表转置;
由矩阵Sw -1Sb的特征值可以得到线性判别分析法变化矩阵WLDA,当Sw是非奇异矩阵时,可以通过最大化比率det|Sb|/det|Sw|得到矩阵Sw -1Sb的特征值,通过选取矩阵Sw -1Sb中最大的g个特征值得到大小为D×g的线性判别分析法变化矩阵WLDA。则通过LDA转换后得到的第j个含噪音频特征向量可以表示为:
其中,是线性判别分析法变换矩阵的转置。
综上,PCA能够大幅度降低原来的多特征维度,但在进行转换时若不区分各类别间的特征,会丢失判别信息。LDA变换是一个提取噪声低维分类特征的有效方法,但是在噪声识别中,当某些噪声种类的训练样本过少,而特征维数过高时类内散度矩阵,不能满足非奇异矩阵条件,将导致LDA降维失败。针对以上两个问题,本发明采用将PCA和LDA结合的方法对噪声高维特征进行降维转换,使多特征维度得以大幅度降低,并保留类间的判别信息;通过主成分分析法和线性判别分析法结合的方式对复合特征矩阵进行降维处理;降维的多尺度特征数据通过表达式11)确定:
其中,hj为第j个降维的多尺度特征数据;是主成分分析法变换矩阵的转置,是线性判别分析法变换矩阵的转置,xj是第j个含噪样本训练数据的D维特征。
所述步骤二中,通过表达式12)对降维的多尺度特征数据进行归一化处理:
其中hmin是降维后多尺度特征数据中的最小值,hmax是降维后多尺度特征数据中的最大值。
步骤三:建立深度神经网络模型,通过降维的多尺度特征数据对深度神经网络模型进行训练,进一步通过深度神经网络迭代训练,实现深度神经网络学习特征和目标之间的非线性映射关系,建立深度神经网络模型,直至深度神经网络模型的网络自适应掩蔽能力收敛至接近理想自适应时频掩蔽阈值;
本实施例中,所搭建的深度神经网络模型的基本逻辑流程如图1所示,深度神经网络模型的框架包括输入层、隐含层和输出层;深度神经网络模型的训练采用标准反向传播算法(Back Propagation algorithm,以下称BP)和丢弃法(Dropout)相结合的方法,其中丢弃法的丢弃率为0.2;对于BP算法中网络的权值和偏置采用自适应随机梯度下降与动量项结合的算法来优化。本文设置迭代次数为20,取前5次迭代的动量变化率为0.5,剩余迭代次数的动量变化率设置为0.9,最小均方误差函数为该网络的代价函数,训练流程如图4所示。
基于深度学习的语音增强算法中,常用的目标主要由掩蔽和频谱映射这两类组成。并且和频谱映射的算法相比,基于掩蔽的算法更容易学习和训练。其中理想二值掩蔽(Ideal Binary Mask,以下称:IBM)和理想比值掩蔽(Ideal Ratio Mask,以下称:IRM)是最为常用的掩蔽目标。
IBM是计算听觉场景分析(Computational Auditory Scene Analysis,CASA)的主要计算目标,它是一个二值的时频掩蔽矩阵,通过纯净语音和噪声获得。对于每一个时频单元,如果局部信噪比大于局部分离阈值,即时频单元分离标准(Local Criterion,LC),则将相对应的时频单元的掩蔽值设置为1,否则设置为0;IBM的定义为:
其中,SNR(t,fc)为每一帧音频的信噪比,t为该帧音频对应的时间点,fc为该帧音频对应的频率,IBM(t,fc)为该帧音频的信噪比对应的理想二值掩蔽阈值,LC为时频单元分离标准,本实施例中,LC的阈值设定为0。
SNR(t,fc)通过表达式14)确定:
其中,Es(t,fc)表示特定时频单元的音频信号的能量,En(t,fc)为特定时频单元的噪声能量。Es(t,fc)和En(t,fc)定义如下所示:
其中,Tz代表周期,Si函数代表音频信号,ni函数代表噪声信号。
理想比值掩蔽(Ideal Ratio Mask,IRM)表示目标语音的能量在混合的语音和噪声中所占的比例,它的定义为:
IRM(t,fc)的取值范围在0到1之间,其中,β为一个可调节的尺度因子,本实施例中,优选β=0.5。
然而通过实验发现,在低信噪比的情况下,IBM去除噪声比较干净,但对音频信号的高频能量损失较大;在高信噪比的时候,音频信号的舒适度较好,但可懂度较差。而IRM在高信噪比时不仅有较好的可懂度,而且可以更好地保留音频信号的高频信息,但在低信噪比时噪声消除不如IBM干净。因此针对这一问题,本发明结合两者的优点,发明了一种利用sigmoid函数设计的一个自适应时频掩蔽做为神经网络估计目标的方法。
得益于sigmoid函数的二分类能力,当输入函数的变量值越大,sigmoid函数的输出值越趋近于0。反之,当输入函数的变量值越小,sigmoid函数的输出值越趋近于1。本发明利用sigmoid函数的这一特性,将每一帧音频的信噪比输入sigmoid函数中,得到如下表达式:
其中,sigmoid(t,fc)为将每一帧音频的信噪比SNR(t,fc)输入sigmoid函数中所获的值,函数图像如图3所示。该sigmoid函数可以实现,当我们输入函数的每一帧的信噪比SNR(t,fc)越大,sigmoid函数的输出值越趋近于0;反之,当输入函数的每一帧的信噪比SNR(t,fc)越小,sigmoid函数的输出值越趋近于1。
借助这一点,本发明将以上建立的sigmoid函数的导数函数与理想二值掩蔽(IBM)和理想比值掩蔽(IRM)进行对应的映射后,理想自适应时频掩蔽阈值SAM(t,fc)通过表达式19)确定:
SAM(t,fc)=sigmoid(t,fc)*IBM(t,fc)+(1-sigmoid(t,fc))*IRM(t,fc) 19);
其中,IBM(t,fc)为该帧音频的信噪比对应的理想二值掩蔽阈值;IRM(t,fc)为该帧音频的信噪比对应的理想比值掩蔽阈值。
通过表达式19)中的函数,便可以使用自适应sigmoid系数调节IBM和IRM之间权重。实现当音频信号的信噪比较低时的情况下,利用占比更多的IBM去除更多噪声,来保留语音的可懂度,并使用占比较小的IRM去适当调节音频信号的舒适度。反之当音频信号的信噪比较高时利用占比更多的IRM去除更多噪声,来保留音频信息高频部分的可懂度,并使用占比较小的IBM去适当调节音频信号的舒适度。
步骤四:通过训练后的深度神经网络模型对含噪音频进行去噪处理。
将训练好的深度神经网络自适应时频掩蔽模型用于实现去噪处理,实现通过利用神经网络模型估计的目标(即估计自适应掩蔽目标阈值)和输入的含噪音频合成增强后的音频信号。
为有效评估本次发明所利用的方法在工业音频信号消噪处理的效果,本申请采用了分段信噪比(SegSNR)客观评价指标作为评价标准对该方法的能力进行了客观测试。
分段信噪比(SegSNR)是常用于测试增强语音算法对噪声的抑制程序,其值越大表明对噪声的抑制程度越大,增强后的语音中残留的噪声越少。
针对自适应掩蔽估计时频掩蔽(SAM)能力测试实验方法为:将本发明提出的SAM与单独使用IBM,以及单独使用IRM对几种噪声的掩蔽在SegSNR评价标准下做横向对比。
本实施例中,进行测试的含噪样本测试数据由风力发电机叶片健康状态的工业音频和噪声音频合成,将含噪音频输入深度神经网络模型去噪前,先参照步骤二进行多尺度特征提取。
采样到的每段工业音频中至少包含一个完整风叶转动周期的用于监测风力发电机叶片健康状态的音频,该音频数据每段时长为8秒的纯净的风力发电机叶片产生的气动音频,噪声音频为来自noise-92数据集的5种类型噪声数据:
white.wav(白噪声):
通过对高质量模拟噪声发生器(Wandel&Goltermann)进行采样获得的白噪声,这导致每赫兹带宽的能量相等。
babble.wav(babble噪声):
通过将1/2"B&K电容式麦克风的样本记录到数字录音带(DAT)上而获得。此babble的来源是100人在食堂讲话。房间半径超过两米;因此,个别声音可以听得见,录音过程中的声级为88dBA。
volvo.wav(沃尔沃340汽车):
通过将1/2"B&K电容式麦克风的样本记录到数字录音带(DAT)上而获得。该记录是在120公里/小时、第4档、在雨天的柏油路上进行的。
pink.wav(粉红噪声):
通过对高质量模拟噪声发生器(Wandel&Goltermann)采样获得的粉红噪声,每1/3倍频程产生相等的能量。
factory1.wav(工厂噪声1):
通过将1/2"B&K电容式麦克风的样本记录到数字录音带(DAT)上而获得。这种噪声是在板材切割和电焊设备附近记录的。
信噪比设置为10dB、5dB、0dB和-5dB四种情况,提供给SegSNR做为分段信噪比的对比数据。对比数据如下:
表1:SAM与IBM以及IRM在SegSNR指标下数值统计
从表中可以看出,其中有些值本发明所提的方法略低于单独使用IBM或单独使用IRM,但是从平均数值来看,本发明所提的SAM的增强语音的SegSNR值高于IBM和IRM,这体现了SAM对噪声抑制能力强的优点。
为了进一步验证本发明在音频消噪方面的效果,本次发明的基于多尺度特征提取和自适应掩蔽的深度神经网络相结合的工业音频消噪方法的整体噪声抑制,我们选取了较为相似且在该领域影响范围较广的两种噪声抑制算法作为对比,在SegSNR指标下进行了横向对比。其中对比算法1源自Wang等人在“On training targets for supervised speechseparation”一文中提出的:基于多特征(AMS+MFCC+RASTA-PLP+GF)组合的语音增强算法;对比算法2源自Chen等人在“A feature study for classification-based speechseparation at very low signal-to noise ratio”一文中提出的基于多分辨率率耳蜗图(MRCG)的语音增强算法。
各算法的SegSNR指标如表2所示:
表2 本发明的算法与其他两种算法在SegSNR指标下对比数值统计
通过对比可见本发明所提出的算法在各类噪声环境下,消噪效果均高于所对比的两个算法,表明该本发明提出的音频消噪方法在噪声抑制能力上较优。
通过本申请提出的音频消噪方法对含噪音频进行处理,通过本申请图5至图10可知,在消噪前与消噪后的时幅数据、幅频数据及能量谱数据明显可体现出本方法的消噪效果。
具体是,对比原始含噪音频数据与消噪后音频信号的振幅数据,可见其中噪声部分音频振幅得到明显抑制,频域数据音频信号中已无明显噪声。对比幅频数据可见,数据中高频、高振幅的数据被基本消除,而其中低频低振幅的数据得到了完好的保留。对比能量谱数据可见,消噪前噪声能量较高且成弥漫式混杂分布与信号中,通过消噪处理后,噪声能量得到了较好的抑制,通过能量谱数据可清晰见周期性风叶气动音频信号能量得到了完好的保留。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种音频消噪方法,其特征在于,包括以下步骤:
步骤一:对采集的含噪样本训练数据进行预处理;
步骤二:对于进行预处理后的含噪样本训练数据进行多尺度特征提取,提取其时域特征、频域特征和倒谱域特征,得到复合特征矩阵,并对复合特征矩阵中的特征数据进行降维处理,得到降维的多尺度特征数据;
步骤三:建立深度神经网络模型,通过降维的多尺度特征数据对深度神经网络模型进行训练,直至深度神经网络模型的网络自适应掩蔽能力收敛至接近理想自适应时频掩蔽阈值;
步骤四:通过训练后的深度神经网络模型对含噪音频进行去噪处理。
2.根据权利要求1所述的一种音频消噪方法,其特征在于,所述步骤二中,时域特征包括短时平均过零率和短时能量;频域特征包括短时功率谱密度;倒谱域特征包括梅尔频率倒谱系数特征和线性预测倒谱系数;所述梅尔频率倒谱系数特征包括语音参数的静态特性和动态特性,所述动态特性通过对静态特性进行差分处理获得。
3.根据权利要求2所述的一种音频消噪方法,其特征在于,所述步骤二中,通过标准的MFCC倒谱系数表征语音参数的静态特性,MFCC倒谱系数通过表达式4)确定:
其中,i表示帧序号,m为离散余弦变换后的谱线,H为Mel滤波器的总数,h为Mel滤波器的序号,S(i,h)为第i帧音频通过第h个Mel滤波器的能量。
4.根据权利要求2所述的一种音频消噪方法,其特征在于,所述步骤二中,通过主成分分析法和线性判别分析法结合的方式对复合特征矩阵进行降维处理;降维的多尺度特征数据通过表达式11)确定:
其中,hj为第j个降维的多尺度特征数据;是主成分分析法变换矩阵的转置,/>是线性判别分析法变换矩阵的转置,xj是第j个含噪样本训练数据的D维特征。
5.根据权利要求4所述的一种音频消噪方法,其特征在于,所述步骤二中,主成分分析法变换矩阵WPCA是大小为D×d的矩阵,d为降维后多尺度特征数据的维度;
在进行线性判别分析法时,通过类内散度矩阵Sw和类间散度矩阵Sb获取线性判别分析法变化矩阵WLDA,其中,类内散度矩阵Sw和类间散度矩阵Sb通过表达式9)确定:
其中,Q为含噪样本训练数据中的噪声种类总数,Nq是第q种噪声种类中的噪声样本总数,q为噪声种类的序数,k为各个噪声种类中噪声样本的序数;sq,k表示第q种噪声种类中的第k个噪声样本的特征值;μq是第q种噪声种类的噪声样本的特征平均值,μ是所有噪声种类的噪声样本的特征平均值,上标T代表转置;
通过选取矩阵Sw -1Sb中最大的g个特征值得到大小为D×g的线性判别分析法变化矩阵WLDA。
6.根据权利要求4所述的一种音频消噪方法,其特征在于,所述步骤二中,通过表达式12)对降维的多尺度特征数据进行归一化处理:
其中hmin是降维后多尺度特征数据中的最小值,hmax是降维后多尺度特征数据中的最大值。
7.根据权利要求1所述的一种音频消噪方法,其特征在于,所述步骤三中,深度神经网络模型的框架包括输入层、隐含层和输出层;深度神经网络模型的训练采用标准反向传播算法和丢弃法相结合的方法,其中丢弃法的丢弃率为0.2;对于标准反向传播算法中网络的权值和偏置采用自适应随机梯度下降与动量项结合的算法来优化。
8.根据权利要求7所述的一种音频消噪方法,其特征在于,所述步骤三中,理想自适应时频掩蔽阈值SAM(t,fc)通过表达式19)确定:
SAM(t,fc)=sigmoid(t,fc)*IBM(t,fc)+(1-sigmoid(t,fc))*IRM(t,fc)19);
其中,sigmoid(t,fc)为将每一帧音频的信噪比SNR(t,fc)输入sigmoid函数中所获的值,t为该帧音频对应的时间点,fc为该帧音频对应的频率,IBM(t,fc)为该帧音频的信噪比对应的理想二值掩蔽阈值;IRM(t,fc)为该帧音频的信噪比对应的理想比值掩蔽阈值。
9.根据权利要求8所述的一种音频消噪方法,其特征在于,所述步骤三中,sigmoid(t,fc)通过表达式18)确定:
10.根据权利要求7所述的一种音频消噪方法,其特征在于,所述步骤四中,将含噪音频输入深度神经网络模型去噪前,先进行多尺度特征提取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310260337.5A CN116597853A (zh) | 2023-03-17 | 2023-03-17 | 一种音频消噪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310260337.5A CN116597853A (zh) | 2023-03-17 | 2023-03-17 | 一种音频消噪方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116597853A true CN116597853A (zh) | 2023-08-15 |
Family
ID=87605060
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310260337.5A Pending CN116597853A (zh) | 2023-03-17 | 2023-03-17 | 一种音频消噪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116597853A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117351988A (zh) * | 2023-12-06 | 2024-01-05 | 方图智能(深圳)科技集团股份有限公司 | 一种基于数据分析的远程音频信息处理方法及系统 |
-
2023
- 2023-03-17 CN CN202310260337.5A patent/CN116597853A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117351988A (zh) * | 2023-12-06 | 2024-01-05 | 方图智能(深圳)科技集团股份有限公司 | 一种基于数据分析的远程音频信息处理方法及系统 |
CN117351988B (zh) * | 2023-12-06 | 2024-02-13 | 方图智能(深圳)科技集团股份有限公司 | 一种基于数据分析的远程音频信息处理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106486131B (zh) | 一种语音去噪的方法及装置 | |
Srinivasan et al. | Binary and ratio time-frequency masks for robust speech recognition | |
Xiao et al. | Normalization of the speech modulation spectra for robust speech recognition | |
CN109256127B (zh) | 一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法 | |
CN104078039A (zh) | 基于隐马尔科夫模型的家用服务机器人语音识别系统 | |
Chenchah et al. | Speech emotion recognition in noisy environment | |
CN116597853A (zh) | 一种音频消噪方法 | |
CN111508504A (zh) | 基于听觉中枢感知机理的说话人识别方法 | |
Zhu et al. | Non-linear feature extraction for robust speech recognition in stationary and non-stationary noise | |
CN112233657A (zh) | 一种基于低频音节识别的语音增强方法 | |
Gupta et al. | Speech enhancement using MMSE estimation and spectral subtraction methods | |
Nasr et al. | Arabic speech recognition by bionic wavelet transform and mfcc using a multi layer perceptron | |
Jamal et al. | A comparative study of IBM and IRM target mask for supervised malay speech separation from noisy background | |
Ravindran et al. | Improving the noise-robustness of mel-frequency cepstral coefficients for speech processing | |
Chen et al. | InQSS: a speech intelligibility assessment model using a multi-task learning network | |
Jawarkar et al. | Effect of nonlinear compression function on the performance of the speaker identification system under noisy conditions | |
CN115064175A (zh) | 一种说话人识别方法 | |
Khanum et al. | Speech based gender identification using feed forward neural networks | |
Shao et al. | A versatile speech enhancement system based on perceptual wavelet denoising | |
Nwe et al. | Stress classification using subband based features | |
Singh et al. | A comparative study of recognition of speech using improved MFCC algorithms and Rasta filters | |
Lee et al. | Exploiting principal component analysis in modulation spectrum enhancement for robust speech recognition | |
Zouhir et al. | Robust speaker recognition based on biologically inspired features | |
Xuhong et al. | Speech Enhancement using Convolution Neural Network-based Spectrogram Denoising | |
Lan et al. | Speech Enhancement Algorithm Combining Cochlear Features and Deep Neural Network with Skip Connections |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |