CN113936681B - 一种基于掩膜映射和混合空洞卷积网络的语音增强方法 - Google Patents
一种基于掩膜映射和混合空洞卷积网络的语音增强方法 Download PDFInfo
- Publication number
- CN113936681B CN113936681B CN202111192259.7A CN202111192259A CN113936681B CN 113936681 B CN113936681 B CN 113936681B CN 202111192259 A CN202111192259 A CN 202111192259A CN 113936681 B CN113936681 B CN 113936681B
- Authority
- CN
- China
- Prior art keywords
- dimensional
- frame
- power spectrum
- logarithmic power
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000013507 mapping Methods 0.000 title claims abstract description 26
- 238000001228 spectrum Methods 0.000 claims abstract description 94
- 239000011159 matrix material Substances 0.000 claims abstract description 53
- 238000012549 training Methods 0.000 claims abstract description 39
- 238000012360 testing method Methods 0.000 claims abstract description 13
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 12
- 230000008569 process Effects 0.000 claims abstract description 8
- 230000009466 transformation Effects 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 25
- 238000009432 framing Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 13
- 210000002569 neuron Anatomy 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 9
- 230000037433 frameshift Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims description 4
- 230000008447 perception Effects 0.000 abstract description 3
- 230000003321 amplification Effects 0.000 description 4
- 238000003199 nucleic acid amplification method Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000002787 reinforcement Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
本发明公开了一种基于掩膜映射和混合空洞卷积网络的语音增强方法。本方法在训练阶段,预处理后的含噪语音信号进行短时傅里叶变换,得到对数功率谱,同时计算理想比值掩膜。将若干帧的对数功率谱组成二维对数功率图谱,作为混合空洞卷积网络的输入特征,将对应帧的理想比值掩膜组成二维理想比值掩膜矩阵,作为训练目标,对混合空洞卷积网络进行训练,得到混合空洞卷积网络回归器;测试过程中,利用训练好的混合空洞卷积网络回归器,将含噪测试语音的二维对数功率图谱映射为二维估计比值掩膜矩阵,结合含噪语音的对数功率谱和相位信息,进行逆变换得到重构的语音信号,实现语音增强。本发明提高了语音的感知质量,且算法兼具鲁棒性与泛化性。
Description
技术领域
本发明属于语音增强技术领域,尤其涉及一种基于掩膜映射和混合空洞卷积网络的语音增强方法。
背景技术
语音增强是指语音信号受到环境噪声干扰、抑制甚至淹没后,从噪声背景中提取有用的语音信号的技术,其目的是尽可能抑制、降低噪声干扰,提高信噪比和语音可懂度,提升语音感知质量。语音增强技术可以提高语音信号处理系统的整体性能。
当然语音增强算法种类多样,根据不同的分类标准可以将其进行归类。根据传感器或麦克风的数量,可以分为单通道(单麦克风)语音增强和阵列(多麦克风)语音增强。单通道语音增强算法可以根据时候含有标签分为无监督语音增强方法(传统语音增强方法)和有监督语音增强方法。传统的无监督语音增强方法包含谱减法、维纳滤波法、基于语音存在概率的软判决增强方法,基于最小均方误差的语音幅度谱增强、对数谱域的最小均方误差的估计、基于子空间的方法等。传统语音增强方法存在噪声的非平稳性假设、音乐噪声等不足。有监督语音增强方法主要包括基于隐马尔科夫模型的语音增强、基于稀疏表示算法和基于深度学习算法等。其中基于深度学习的语音增强总体上可以分为基于频谱映射和基于掩膜两大类方法,但算法会存在以下问题,掩膜映射采用多帧特征参数估计一帧的掩膜,忽略了谱图的二维信息,不能充分发挥二维卷积核的作用。与基于掩膜的方法相比,频谱映射步骤更加简化,但是建模需要考虑如何有效地结合先验知识和提高算法泛化性问题。
发明内容
本发明目的在于提供一种基于掩膜映射和混合空洞卷积网络的语音增强方法,以解决现有掩膜映射采用多帧特征参数估计一帧的掩膜,忽略了谱图的二维信息,不能充分发挥二维卷积核的作用,而频谱映射建模需要考虑如何有效地结合先验知识和提高算法泛化性的技术问题。
为解决上述技术问题,本发明的具体技术方案如下:
一种基于掩膜映射和混合空洞卷积网络的语音增强方法,包括以下步骤:
步骤1、在纯净语音信号中加入不同类型、不同信噪比的噪声,得到含噪的训练语音信号;
步骤2、对步骤1得到的含噪训练语音信号进行预处理,包括归一化、分帧、加窗,得到分帧后的含噪语音信号;
步骤3、对步骤2的各帧语音信号进行短时傅里叶变换,提取各帧含噪语音信号的对数功率谱,将若干帧对数功率谱组成二维对数功率图谱,同时根据纯净语音的对数功率谱和噪声的对数功率谱,计算理想比值掩膜,将若干帧的理想比值掩膜组成二维理想比值掩膜矩阵;
步骤4、将步骤3得到的二维对数功率图谱,作为混合空洞卷积网络的输入特征,将对应帧的二维理想比值掩膜矩阵,作为训练目标,基于二维理想比值掩膜矩阵和网络输出的实际二维估计比值掩膜矩阵之间的损失函数对网络权重的偏导,训练混合空洞卷积网络;
步骤5、对不同声学环境下的含噪测试语音信号进行预处理,并计算各帧语音信号的短时傅里叶变换,提取各帧语音信号的对数功率谱和相位谱,并将若干帧对数功率谱组成二维对数功率图谱;
步骤6、将步骤5的二维对数功率图谱,作为步骤4训练好的混合空洞卷积网络的输入特征参数,计算二维估计比值掩膜矩阵;
步骤7、将步骤6得到的二维估计比值掩膜矩阵和步骤5的各帧语音信号对数功率谱进行相乘,得到修正后的对数功率谱,并结合步骤5的各帧相位谱,进行短时逆傅里叶变换,得到增强后的时域语音信号。
进一步的,所述步骤1中的语音信号加入噪声的计算公式为:
d(n)=s(n)+v(n)
其中,d(n)表示含噪语音信号,s(n)为纯净的单声道语音信号,v(n)表示指定信噪比的噪声信号,n表示样本点序号。
进一步的,所述步骤2和步骤5中的预处理具体包含:
归一化方法为:
其中,d(n)为含噪语音信号,dmax为d(n)幅度绝对值的最大值,x(n)为归一化后的语音信号;
分帧方法为:采用预设分帧长度和帧移,将x(n)划分为多个单帧信号x(k·L+m),0≤k<K,0≤m<M,其中,k为帧序号,K为总帧数,m表示一帧内的采样序号,M为帧长,L为帧移;
加窗方法为:
x(k,m)=wH(m)x(k·L+m)
其中x(k,m)为分帧加窗后的第k帧语音信号,wH(m)为窗函数。
进一步的,所述步骤3中的对数功率谱和理想比值掩膜计算具体包括:
首先计算分帧后第k帧语音信号x(k,m)的短时傅里叶变换:
其中,f表示傅里叶变换的频点序号;
频谱X(k,f)的幅度谱进行对数运算,得到对数功率谱Xs(k,f):
Xs(k,f)=10log10[|X(k,f)|2]
每一帧、每一个频点对应的理想比值掩膜的计算如下:
其中,S(k,f)表示纯净语音信号在预处理、短时傅立叶变换后的频谱;
V(k,f)表示噪声信号在预处理、短时傅立叶变换后的频谱,可调参数β取0.5;
根据其频谱对称性,选择前M/2个频点的对数功率谱Xs(k,f),同时每M/2帧的对数功率谱进行组合,即这M/2帧中每一帧的前M/2个频点对数功率谱按照帧的前、后顺序拼接在一起,得到具有时频特征的二维对数功率图谱C(l),其构成形式为:
其中l表示二维对数功率图谱的序号,C(l)每一列为某一帧的对数功率谱;
C(l)对应的二维理想比值掩膜矩阵R(l)的计算如下:
进一步的,所述步骤4中训练混合空洞卷积网络的过程包括以下步骤:
步骤4.1、混合空洞卷积网络由下采样、混合空洞卷积模块的堆叠结构、上采样和跳跃连接四部分组成,其中混合空洞卷积模块由不同膨胀率的卷积层、批量归一化和激活函数组成;
步骤4.2、将含噪训练语音的二维对数功率图谱C(l)作为输入特征参数,对应的二维理想比值掩膜矩阵R(l)作为训练目标,根据二维理想比值掩膜矩阵和网络输出的实际二维估计比值掩膜矩阵的损失函数进行优化;
步骤4.3、训练时,在每个神经元前设置一个服从伯努利分布的Dropout概率系数为0.5,用以随机生成一个概率相等、取值为0或1的向量,若向量取值为0,则表示该神经元不参与本次前向和梯度计算,反之,若向量取值为1,则该神经元参与本次前向和梯度计算,这样使得每一次网络迭代中以一定概率随机使一部分神经元节点失效;
步骤4.4、计算当前训练特征参数的损失函数LMSE(R(l),R’(l)),使用反向传播算法,计算损失函数LMSE(R(l),R’(l))对网络权重的偏导,并修正网络权重;
步骤4.5、重复步骤4.2至步骤4.4优化网络,直到网络收敛,采用掩膜映射思路的混合空洞卷积网络训练过程结束。
进一步的,所述步骤4.2中的二维理想比值掩膜矩阵和网络输出的实际二维估计比值掩膜矩阵之间的损失函数采用均分误差为:
其中,R(l)为二维对数功率谱图对应的二维理想比值掩膜矩阵,R’(l)为混合空洞卷积网络实际输出的二维比值掩膜矩阵,Ri,j(l)表示R(l)矩阵的第i行、第j列数据,R’i,j(l)表示R’(l)矩阵的第i行、第j列数据。
本发明的一种基于掩膜映射和混合空洞卷积网络的语音增强方法,具有以下优点:
本发明将训练语音信号若干帧的二维对数功率图谱作为输入特征,将二维理想比值掩膜矩阵作为训练目标,充分考虑相邻帧之间的关联性,利用混合空洞卷积网络实现含噪对数功率图谱到掩膜矩阵的映射。混合空洞卷积可以扩大卷积核感受野,有效解决棋盘效应,可以充分提取二维对数功率图谱中的细节信息,采用含噪语音的二维对数功率图谱作为输入特征,二维理想比值掩膜矩阵作为训练目标进行训练,在下采样层和上采样层之间添加跳跃链接,实现局部和全局特征的结合。测试过程中将二维对数功率图谱作为输入,利用训练好的混合空洞卷积网络得到二维估计比值掩膜矩阵,结合相位信息对语音信号进行增强,本发明大幅提高了语音的感知质量,且算法兼具鲁棒性与泛化性。
附图说明
图1为本发明的整体算法流程图;
图2为本发明的基于掩膜映射和混合空洞卷积网络的网络结构图;
图3为本发明的混合空洞卷积模块的结构图。
具体实施方式
为了更好地了解本发明的目的、结构及功能,下面结合附图,对本发明一种基于掩膜映射和混合空洞卷积网络的语音增强方法做进一步详细的描述。
如图1所示,本实施例提供的基于掩膜映射和混合空洞卷积网络的语音增强方法包括以下步骤:
步骤1、训练和测试语音信号中加入不同类型、不同信噪比的噪声,得到含噪训练和含噪测试语音信号,计算公式为:
d(n)=s(n)+v(n)
其中,d(n)表示含噪语音信号,s(n)为纯净的单声道语音信号,v(n)表示指定信噪比的噪声信号,n表示样本点序号。
本例中采用NOISEX-92噪声库的数据,主要包含白噪声、babble噪声等。纯净语音为来自CHAINS Speech Corpus语音库单人朗读单通道男声和女声的语音信号,取其中9名男性和9名女性讲述的4段寓言作为训练集,共72段,平均时长为43s,取另外3名男性和3名女性的33句短句作为测试集,共297段,平均时长为3s。将上述噪声分别以信噪比为-5dB、0dB、5dB和10dB共4种不同信噪比添加到纯净语音中,同时为了验证本发明方法的泛化性,使用非训练集的非匹配噪声与非训练集的信噪比(-7.5dB、-2.5dB、2.5dB、7.5dB、12.5dB)进行鲁棒性与泛化性的测试。
步骤2、对步骤1中得到的含噪单通道语音信号进行预处理,包括归一化、分帧、加窗,得到分帧、加窗后的语音信号,具体包括以下子步骤:
步骤2.1、归一化方法为:
其中,d(n)为含噪语音信号,dmax为d(n)幅度绝对值的最大值,x(n)为归一化后的语音信号;
步骤2.2、分帧方法为:采用预设分帧长度和帧移,将x(n)划分为多个单帧信号x(k·L+m),0≤k<K,0≤m<M,其中,k为帧序号,K为总帧数,m表示一帧内的采样序号,M为帧长,L为帧移;
步骤2.3、加窗方法为:
x(k,m)=wH(m)x(k·L+m)
其中x(k,m)为加窗后的第k帧语音信号,wH(m)为窗函数,本实施例中窗函数为汉明窗。
步骤3、对步骤2得到的分帧加窗后的语音信号,计算二维对数功率图谱和二维理想比值掩膜矩阵,计算公式为:
首先计算分帧后第k帧语音信号x(k,m)的短时傅里叶变换:
其中,f表示傅里叶变换的频点序号。
频谱X(k,f)的幅度谱进行对数运算,得到对数功率谱Xs(k,f):
Xs(k,f)=10log10[|X(k,f)|2]
每一帧、每一个频点对应的理想比值掩膜的计算如下:
其中,S(k,f)表示纯净语音信号s(n)预处理、短时傅立叶变换后的频谱,V(k,f)表示噪声信号v(n)在预处理、短时傅立叶变换后的频谱,可调参数β取0.5。
根据其频谱对称性,选择前M/2个频点的对数功率谱Xs(k,f),同时每M/2帧的对数功率谱进行组合,即这M/2帧中每一帧的前M/2个频点对数功率谱按照帧的前、后顺序拼接在一起,得到具有时频特征的二维对数功率图谱C(l),其构成形式为:
其中l表示二维对数功率图谱的序号,C(l)每一列为某一帧的对数功率谱。
C(l)对应的二维理想比值掩膜矩阵R(l)的计算如下:
步骤4、对步骤3得到的二维对数功率图谱,作为混合空洞卷积网络的输入特征,将二维理想比值掩膜矩阵,作为训练目标,基于二维理想比值掩膜矩阵和网络输出的实际二维估计比值掩膜矩阵之间的损失函数对网络权重的偏导,训练混合空洞卷积网络。
下面给出本实施例的基于掩膜映射的混合空洞卷积网络。事实上,本发明的网络结构不限制于此实施例的网络结构。
如图2所示,本例的网络结构包含下采样、混合空洞卷积模块的堆叠结构、上采样和跳跃连接。图中每个卷积模块都由卷积层(Convolutional layer,Conv)或反卷积层(Deconvolutional layer,Deconv)和批量归一化(Batch Normalization,BN)开始。每个模块下的k表示卷积层(或反卷积层)卷积核的大小,o表示卷积核数目,s表示卷积步长,例如:k7o16s1表示:卷积核大小为7x7,卷积数目为16个,卷积步长为1。为了提升模型训练速度并避免过度拟合,引入Dropout层,即在每个神经元前设置一个服从伯努利分布的Dropout概率系数为0.5,用以随机生成一个概率相等、取值为0或1的向量,若向量取值为0,则该神经元不参与本次前向和梯度计算,反之,若向量取值为1,则该神经元参与本次前向和梯度计算,这样使得每一次网络迭代中以一定概率随机使一部分神经元节点失效,从而增加网络的泛化能力。输入的特征参数为二维对数功率图谱,经过卷积减小特征图的大小,输出矩阵在混合空洞卷积模块中得到充分的可区分特征提取,再通过上采样的膨胀解码过程恢复特征图大小,最后采用Sigmoid非线性激活函数得到一个(0,1)之间的数值表示真假样本的概率,0表示为假样本,1表示为真样本,同时下采样、上采样之间的跳跃连接实现了局部和全局特征的结合。
在本实施例中采用6个混合空洞卷积模块(Hybrid Dilated Convolution Block,HDCB)堆叠结构。该部分紧接在下采样之后,主要目的是进行更加充分的可区分特征提取。HDCB是在卷积神经网络基础上发展而来,可以有效扩大卷积核的感受野,同时不增加参数量,本实施例使用的HDCB的具体结构如图3,其中Conv,r=1、Conv,r=2、Conv,r=3分别表示膨胀率为1、2、3的空洞卷积运算,批量归一化(Batch Normalization,BN)模块用于将所有批数据强制在统一的数据分布下,增强了模型的泛化能力,修正线性单元(RectifiedLinear Unit,ReLU)是为激活函数。
网络结构训练过程为:输入特征参数为二维对数功率图谱,训练目标为二维理想比值掩膜矩阵,根据二维理想比值掩膜矩阵和网络输出的实际估计比值掩膜矩阵的损失函数LMSE(R(l),R’(l)),使用反向传播算法,计算掩膜映射的损失函数LMSE(R(l),R’(l))对网络权重的偏导,并根据偏导得到网络的权重修改项,修正网络权重,从而进行网络训练优化,本例中,损失函数为:
其中,R(l)为二维对数功率谱图对应的二维理想比值掩膜矩阵,R’(l)为混合空洞卷积网络实际输出的二维比值掩膜矩阵,Ri,j(l)表示R(l)矩阵的第i行、第j列数据,R’i,j(l)表示R’i,j(l)矩阵的第i行、第j列数据。
本例中网络的权重修改项为:
其中,μ为学习率,是损失函数LMSE(R(l),R’(l))对权重w的偏导。
网络训练时使用Adam优化器在最小均方误差准则下以0.0002的学习率对网络进行训练。当然,本发明并没有限制网络的相关设置参数。
步骤5、对不同声学环境下的含噪测试语音信号进行预处理,包括归一化、分帧、加窗,得到分帧加窗后的含噪测试语音信号,其中预处理过程与步骤2相同。
分帧加窗后的语音信号计算短时傅里叶变换,提取各帧语音信号的对数功率谱和相位谱,并将若干帧对数功率谱组成二维对数功率图谱,二维对数功率图谱的计算与步骤3相同。
步骤6、将步骤5得到的二维对数功率图谱作为步骤4混合空洞卷积网络的特征参数,计算二维估计比值掩膜矩阵。
步骤7、将步骤6的二维估计比值掩膜矩阵,结合步骤5的各帧语音对数功率谱和相位信息,进行短时逆傅里叶变换,得到最终增强后的时域语音信号。
对以上方法进行仿真验证,最终的性能评估如下:
本例采用PESQ分值来评估语音信号的感知质量,不同噪声类型、不同信噪比下的语音增强后的PESQ结果如表所示。PESQ的分值范围为[0,5],分值越接近5代表语音质量越好。
表1白噪声匹配信噪比环境下本发明方法增强前后语音PESQ比较
SNR(dB) | 处理前 | 增强后 | 增幅 |
-5 | 1.0239 | 1.1497 | 0.1258 |
0 | 1.0278 | 1.3133 | 0.2855 |
5 | 1.0414 | 1.5205 | 0.4791 |
10 | 1.0868 | 1.7594 | 0.6726 |
表2 babble噪声匹配信噪比环境下本发明方法增强前后语音PESQ比较
SNR(dB) | 处理前 | 增强后 | 增幅 |
-5 | 1.0452 | 1.0819 | 0.0367 |
0 | 1.0782 | 1.1935 | 0.1153 |
5 | 1.1739 | 1.413 | 0.2391 |
10 | 1.3936 | 1.7003 | 0.3067 |
由表1、表2可知,当测试语音的噪声类型、信噪比与训练语音一致时,增强语音的PESQ分值有了显著提高,表明本发明方法明显改善了语音的感知质量。
为了验证本发明方法的泛化性,给出测试语音的信噪比与训练语音不一致时,增强前后PESQ分值的比较,如表3所示。
表3非匹配信噪比下本发明方法增强前后语音PESQ比较
SND(dB) | 处理前 | 增强后 | 增幅 |
-7.5 | 1.0483 | 1.0661 | 0.0179 |
-2.5 | 1.0383 | 1.1578 | 0.1195 |
2.5 | 1.0584 | 1.3347 | 0.2763 |
7.5 | 1.1298 | 1.5821 | 0.4523 |
12.5 | 1.3062 | 1.8554 | 0.5492 |
根据表3的结果,当测试语音信噪比和训练语音信噪比不一致时,本发明增强后的语音PESQ依然保持稳定的增幅,表明本发明对声学环境具有泛化性。
综上,在复杂的声学环境下,基于掩膜映射和混合空洞卷积网络的语音增强方法在提升客观评价指标PESQ上效果很好,且本发明方法性能稳定,具有较好的泛化性。
可以理解,本发明是通过一些实施例进行描述的,本领域技术人员知悉的,在不脱离本发明的精神和范围的情况下,可以对这些特征和实施例进行各种改变或等效替换。另外,在本发明的教导下,可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此,本发明不受此处所公开的具体实施例的限制,所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。
Claims (6)
1.一种基于掩膜映射和混合空洞卷积网络的语音增强方法,其特征在于,包括以下步骤:
步骤1、在纯净语音信号中加入不同类型、不同信噪比的噪声,得到含噪的训练语音信号;
步骤2、对步骤1得到的含噪训练语音信号进行预处理,包括归一化、分帧、加窗,得到分帧后的含噪语音信号;
步骤3、对步骤2的各帧语音信号进行短时傅里叶变换,提取各帧含噪语音信号的对数功率谱,将若干帧对数功率谱组成二维对数功率图谱,同时根据纯净语音的对数功率谱和噪声的对数功率谱,计算理想比值掩膜,将若干帧的理想比值掩膜组成二维理想比值掩膜矩阵;
步骤4、将步骤3得到的二维对数功率图谱,作为混合空洞卷积网络的输入特征,将对应帧的二维理想比值掩膜矩阵,作为训练目标,基于二维理想比值掩膜矩阵和网络输出的实际二维估计比值掩膜矩阵之间的损失函数对网络权重的偏导,训练混合空洞卷积网络;
步骤5、对不同声学环境下的含噪测试语音信号进行预处理,并计算各帧语音信号的短时傅里叶变换,提取各帧语音信号的对数功率谱和相位谱,并将若干帧对数功率谱组成二维对数功率图谱;
步骤6、将步骤5的二维对数功率图谱,作为步骤4训练好的混合空洞卷积网络的输入特征参数,计算二维估计比值掩膜矩阵;
步骤7、将步骤6得到的二维估计比值掩膜矩阵和步骤5的各帧语音信号对数功率谱进行相乘,得到修正后的对数功率谱,并结合步骤5的各帧相位谱,进行短时逆傅里叶变换,得到增强后的时域语音信号。
2.根据权利要求1所述的基于掩膜映射和混合空洞卷积网络的语音增强方法,其特征在于,所述步骤1中的语音信号加入噪声的计算公式为:
d(n)=s(n)+v(n)
其中,d(n)表示含噪语音信号,s(n)为纯净的单声道语音信号,v(n)表示指定信噪比的噪声信号,n表示样本点序号。
3.根据权利要求2所述的基于掩膜映射和混合空洞卷积网络的语音增强方法,其特征在于,所述步骤2和步骤5中的预处理具体包含:
归一化方法为:
其中,d(n)为含噪语音信号,dmax为d(n)幅度绝对值的最大值,x(n)为归一化后的语音信号;
分帧方法为:采用预设分帧长度和帧移,将x(n)划分为多个单帧信号x(k·L+m),0≤k<K,0≤m<M,其中,k为帧序号,K为总帧数,m表示一帧内的采样序号,M为帧长,L为帧移;
加窗方法为:
x(k,m)=wH(m)x(k·L+m)
其中x(k,m)为分帧加窗后的第k帧语音信号,wH(m)为窗函数。
4.根据权利要求3所述的基于掩膜映射和混合空洞卷积网络的语音增强方法,其特征在于,所述步骤3中的对数功率谱和理想比值掩膜计算具体包括:
首先计算分帧后第k帧语音信号x(k,m)的短时傅里叶变换:
其中,f表示傅里叶变换的频点序号;
频谱X(k,f)的幅度谱进行对数运算,得到对数功率谱Xs(k,f):
Xs(k,f)=10log10[|X(k,f)|2]
每一帧、每一个频点对应的理想比值掩膜的计算如下:
其中,S(k,f)表示纯净语音信号在预处理、短时傅立叶变换后的频谱;
V(k,f)表示噪声信号在预处理、短时傅立叶变换后的频谱,可调参数β取0.5;
根据其频谱对称性,选择前M/2个频点的对数功率谱Xs(k,f),同时每M/2帧的对数功率谱进行组合,即这M/2帧中每一帧的前M/2个频点对数功率谱按照帧的前、后顺序拼接在一起,得到具有时频特征的二维对数功率图谱C(l),其构成形式为:
其中l表示二维对数功率图谱的序号,C(l)每一列为某一帧的对数功率谱;
C(l)对应的二维理想比值掩膜矩阵R(l)的计算如下:
5.根据权利要求4所述的基于掩膜映射和混合空洞卷积网络的语音增强方法,其特征在于,所述步骤4中训练混合空洞卷积网络的过程包括以下步骤:
步骤4.1、混合空洞卷积网络由下采样、混合空洞卷积模块的堆叠结构、上采样和跳跃连接四部分组成,其中混合空洞卷积模块由不同膨胀率的卷积层、批量归一化和激活函数组成;
步骤4.2、将含噪训练语音的二维对数功率图谱C(l)作为输入特征参数,对应的二维理想比值掩膜矩阵R(l)作为训练目标,根据二维理想比值掩膜矩阵和网络输出的实际二维估计比值掩膜矩阵的损失函数进行优化;
步骤4.3、训练时,在每个神经元前设置一个服从伯努利分布的Dropout概率系数为0.5,用以随机生成一个概率相等、取值为0或1的向量,若向量取值为0,则表示该神经元不参与本次前向和梯度计算,反之,若向量取值为1,则该神经元参与本次前向和梯度计算,这样使得每一次网络迭代中以一定概率随机使一部分神经元节点失效;
步骤4.4、计算当前训练特征参数的损失函数LMSE(R(l),R’(l)),使用反向传播算法,计算损失函数LMSE(R(l),R’(l))对网络权重的偏导,并修正网络权重;
步骤4.5、重复步骤4.2至步骤4.4优化网络,直到网络收敛,采用掩膜映射思路的混合空洞卷积网络训练过程结束。
6.根据权利要求5所述的基于掩膜映射和混合空洞卷积网络的语音增强方法,其特征在于,所述步骤4.2中的二维理想比值掩膜矩阵和网络输出的实际二维估计比值掩膜矩阵之间的损失函数采用均分误差为:
其中,R(l)为二维对数功率谱图对应的二维理想比值掩膜矩阵,R’(l)为混合空洞卷积网络实际输出的二维比值掩膜矩阵,Ri,j(l)表示R(l)矩阵的第i行、第j列数据,R’i,j(l)表示R’(l)矩阵的第i行、第j列数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111192259.7A CN113936681B (zh) | 2021-10-13 | 2021-10-13 | 一种基于掩膜映射和混合空洞卷积网络的语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111192259.7A CN113936681B (zh) | 2021-10-13 | 2021-10-13 | 一种基于掩膜映射和混合空洞卷积网络的语音增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113936681A CN113936681A (zh) | 2022-01-14 |
CN113936681B true CN113936681B (zh) | 2024-04-09 |
Family
ID=79278890
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111192259.7A Active CN113936681B (zh) | 2021-10-13 | 2021-10-13 | 一种基于掩膜映射和混合空洞卷积网络的语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113936681B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111816200B (zh) * | 2020-07-01 | 2022-07-29 | 电子科技大学 | 一种基于时频域二值掩膜的多通道语音增强方法 |
CN115497496B (zh) * | 2022-09-22 | 2023-11-14 | 东南大学 | 一种基于FirePS卷积神经网络的语音增强方法 |
CN115622626B (zh) * | 2022-12-20 | 2023-03-21 | 山东省科学院激光研究所 | 一种分布式声波传感语音信息识别系统及方法 |
CN116778970B (zh) * | 2023-08-25 | 2023-11-24 | 长春市鸣玺科技有限公司 | 强噪声环境下的语音检测模型训练方法 |
CN117711417B (zh) * | 2024-02-05 | 2024-04-30 | 武汉大学 | 一种基于频域自注意力网络的语音质量增强方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107452389A (zh) * | 2017-07-20 | 2017-12-08 | 大象声科(深圳)科技有限公司 | 一种通用的单声道实时降噪方法 |
CN110718232A (zh) * | 2019-09-23 | 2020-01-21 | 东南大学 | 一种基于二维语谱图和条件生成对抗网络的语音增强方法 |
CN110728989A (zh) * | 2019-09-29 | 2020-01-24 | 东南大学 | 一种基于长短时记忆网络lstm的双耳语音分离方法 |
WO2020042708A1 (zh) * | 2018-08-31 | 2020-03-05 | 大象声科(深圳)科技有限公司 | 基于时频掩蔽和深度神经网络的声源方向估计方法 |
CN111081268A (zh) * | 2019-12-18 | 2020-04-28 | 浙江大学 | 一种相位相关的共享深度卷积神经网络语音增强方法 |
CN111653288A (zh) * | 2020-06-18 | 2020-09-11 | 南京大学 | 基于条件变分自编码器的目标人语音增强方法 |
-
2021
- 2021-10-13 CN CN202111192259.7A patent/CN113936681B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107452389A (zh) * | 2017-07-20 | 2017-12-08 | 大象声科(深圳)科技有限公司 | 一种通用的单声道实时降噪方法 |
WO2020042708A1 (zh) * | 2018-08-31 | 2020-03-05 | 大象声科(深圳)科技有限公司 | 基于时频掩蔽和深度神经网络的声源方向估计方法 |
CN110718232A (zh) * | 2019-09-23 | 2020-01-21 | 东南大学 | 一种基于二维语谱图和条件生成对抗网络的语音增强方法 |
CN110728989A (zh) * | 2019-09-29 | 2020-01-24 | 东南大学 | 一种基于长短时记忆网络lstm的双耳语音分离方法 |
CN111081268A (zh) * | 2019-12-18 | 2020-04-28 | 浙江大学 | 一种相位相关的共享深度卷积神经网络语音增强方法 |
CN111653288A (zh) * | 2020-06-18 | 2020-09-11 | 南京大学 | 基于条件变分自编码器的目标人语音增强方法 |
Non-Patent Citations (1)
Title |
---|
基于全卷积神经网络的语音增强算法;张明亮;陈雨;;计算机应用研究;20200630(第S1期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113936681A (zh) | 2022-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113936681B (zh) | 一种基于掩膜映射和混合空洞卷积网络的语音增强方法 | |
Zhao et al. | Two-stage deep learning for noisy-reverberant speech enhancement | |
CN109859767B (zh) | 一种用于数字助听器的环境自适应神经网络降噪方法、系统及存储介质 | |
CN109841226B (zh) | 一种基于卷积递归神经网络的单通道实时降噪方法 | |
CN110718232B (zh) | 一种基于二维语谱图和条件生成对抗网络的语音增强方法 | |
CN108172238B (zh) | 一种语音识别系统中基于多个卷积神经网络的语音增强算法 | |
CN112735456B (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
CN110428849B (zh) | 一种基于生成对抗网络的语音增强方法 | |
Chai et al. | A cross-entropy-guided measure (CEGM) for assessing speech recognition performance and optimizing DNN-based speech enhancement | |
CN107452389A (zh) | 一种通用的单声道实时降噪方法 | |
CN110085249A (zh) | 基于注意力门控的循环神经网络的单通道语音增强方法 | |
CN112151059A (zh) | 面向麦克风阵列的通道注意力加权的语音增强方法 | |
CN112331216A (zh) | 基于复合声学特征和低秩分解tdnn的说话人识别系统及方法 | |
CN111899757B (zh) | 针对目标说话人提取的单通道语音分离方法及系统 | |
CN111292762A (zh) | 一种基于深度学习的单通道语音分离方法 | |
CN112331224A (zh) | 轻量级时域卷积网络语音增强方法与系统 | |
CN113539293B (zh) | 基于卷积神经网络和联合优化的单通道语音分离方法 | |
CN112885375A (zh) | 基于听觉滤波器组和卷积神经网络的全局信噪比估计方法 | |
Du et al. | A joint framework of denoising autoencoder and generative vocoder for monaural speech enhancement | |
CN114283829B (zh) | 一种基于动态门控卷积循环网络的语音增强方法 | |
Bu et al. | Modeling speech structure to improve TF masks for speech enhancement and recognition | |
CN114189781A (zh) | 双麦神经网络降噪耳机的降噪方法及系统 | |
CN109741733B (zh) | 基于一致性路由网络的语音音素识别方法 | |
Le et al. | Personalized speech enhancement combining band-split rnn and speaker attentive module | |
Meutzner et al. | A generative-discriminative hybrid approach to multi-channel noise reduction for robust automatic speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |