CN107845389B - 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法 - Google Patents
一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法 Download PDFInfo
- Publication number
- CN107845389B CN107845389B CN201711397819.6A CN201711397819A CN107845389B CN 107845389 B CN107845389 B CN 107845389B CN 201711397819 A CN201711397819 A CN 201711397819A CN 107845389 B CN107845389 B CN 107845389B
- Authority
- CN
- China
- Prior art keywords
- gfcc
- neural network
- speech
- adaptive
- convolutional neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 27
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000000873 masking effect Effects 0.000 claims abstract description 48
- 230000003044 adaptive effect Effects 0.000 claims abstract description 21
- 238000000605 extraction Methods 0.000 claims abstract description 14
- 210000005069 ears Anatomy 0.000 claims abstract description 11
- 230000006870 function Effects 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 13
- 230000008447 perception Effects 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 7
- 230000006835 compression Effects 0.000 claims description 6
- 238000007906 compression Methods 0.000 claims description 6
- 238000009499 grossing Methods 0.000 claims description 6
- 238000012546 transfer Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 5
- 238000009432 framing Methods 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 230000037433 frameshift Effects 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 2
- 238000012360 testing method Methods 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 abstract description 8
- 230000007246 mechanism Effects 0.000 abstract description 4
- 230000002708 enhancing effect Effects 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 9
- 238000000354 decomposition reaction Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 210000003477 cochlea Anatomy 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 210000000721 basilar membrane Anatomy 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明提出了一种基于多分辨率倒谱系数和卷积神经网络的语音增强方法,首先构建了新的能够区分语音和噪声的特征参数—多分辨率听觉倒谱系数(MR‑GFCC);其次,跟踪噪声变化构建了基于理想软掩蔽(IRM)和理想二值掩蔽(IBM)的自适应掩蔽阈值;然后将提取的新特征参数及其一二阶导数和自适应掩蔽阈值作为深度卷积神经网络(DCNN)的输入和输出,对构建的7层神经网络进行训练;最后利用DCNN估计的自适应掩蔽阈值对含噪语音进行增强。本发明充分利用了人耳的工作机理,提出了模拟人耳听觉生理模型的语音特征参数,不仅可以保留更多的语音信息,而且提取过程简单可行。
Description
技术领域
本发明属于语音信号处理技术领域,涉及到一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法。
背景技术
语音增强技术是指当语音信号被各种各样的噪声(包括语音)干扰,甚至淹没后,从噪声背景中提取出尽可能纯净的语音信号,增强有用的语音信号,抑制、降低噪声干扰的技术。由于干扰的随机性,因而从带噪语音提取完全纯净语音信号几乎不可能。在这种情况下,语音增强的目的主要有两个:一是改进语音质量,消除背景噪声,使听者乐于接受,不感觉疲劳,这是一种主观度量;二是提高语音的可懂度,这是一种客观度量。这两个目的往往不能兼得。
当前,语音增强已发展成为语音信号数字处理的一个重要分支。它在语音通信、语音编码、语音识别和数字助听器等诸多领域中得到了广泛应用。传统的语音增强方法有谱减法、维纳滤波法、最小均方误差法(MMSE)、基于统计模型和基于小波变换等方法,其在平稳噪声环境下有较好的性能,但对非平稳噪声处理效果不理想。随着计算听觉场景分析(CASA)出现,基于人耳听觉模型的方法被应用到语音增强当中。该方法根据估计的理想二值掩蔽值,利用人耳的听觉掩蔽效应实现语音增强。相对于其他语音增强算法,计算听觉场景分析对噪音没有任何假设,具有更好的泛化性能。但由于缺乏谐波结构很难处理语音中的清音成分。
随着深度神经网络技术的发展,由于其具有良好的复杂特征提取表达能力,擅长对数据中的结构化信息进行建模,许多研究者把它引入到语音增强当中,该方法是利用深度神经网络学习一个从带噪特征到分离目标的特征函数。目前常用的基于深度学习的语音增强算法主要是基于目标语音的幅度谱和理想时频掩蔽这两方面展开的。
基于深度神经网络的目标语音幅度谱的语音增强算法是直接估计目标语音的幅度谱,而幅度谱的变化范围较大,学习难度较大,对目标语音幅度谱的准确估计非常困难。
基于深度神经网络的时频掩蔽的语音增强算法是估计目标语音的二值掩蔽或软掩蔽,二者的计算比较简单,但是前者对语音质量损害较大,后者残留的背景噪声较多。
本发明提出了一种基于多分辨率听觉倒谱系数和卷积神经网络相结合的语音增强技术。该技术首先构建了新的能够区分语音和噪声的特征参数—多分辨率听觉倒谱系数(MR-GFCC);其次,跟踪噪声变化构建了基于理想软掩蔽(IRM)和理想二值掩蔽(IBM)的自适应掩蔽阈值;然后将提取的新特征参数及其一二阶导数和自适应掩蔽阈值作为深度卷积神经网络(DCNN)的输入和输出,对构建的7层神经网络进行训练;最后利用DCNN估计的自适应掩蔽阈值对含噪语音进行增强。
发明内容
本发明的目的是针对目前的语音增强算法在非平稳噪声下算法性能不理想的问题以及语音特征参数提取过程中存在的问题,提出了一种基于多分辨率倒谱系数和深度卷积神经网络相结合的语音增强技术。首先,使用gammatone滤波器组和非线性压缩运算来更好地模拟人耳的听觉生理模型,得到一种新的语音特征参数。然后,跟踪噪声变化构建了基于理想软掩蔽(IRM)和理想二值掩蔽(IBM)的自适应掩蔽阈值;接着利用深度学习中的深度卷积神经网络(DCNN)模型具有提取复杂特征的能力,擅长对数据中的结构化信息进行建模对自适应的掩蔽阈值进行估计,可以解决传统的语音增强算法在非平稳噪声环境下性能不理想的问题。最后,利用DCNN估计的自适应掩蔽阈值对含噪语音进行增强。
基于多分辨率和深度卷积神经网络的语音增强方法的实现步骤如下:
步骤一,将含噪语音通过64通道的gammatone滤波器进行滤波,对每一个频率通道的输出做加窗分帧处理;得到其时频域表示形式(时频单元);
步骤二,提取每个时频单元的特征参数。
(1)帧长为20ms,帧移为10ms,求每个时频单元的能量,记作CG1;然后对每个时频单元的能量进行立方根非线性压缩变化来模拟人耳对语音的强度-响度感知特性,这不仅符合了人耳的听觉感知特性,而且计算过程简单;最后经过DCT(离散余弦变换)到倒谱域,同时取前36维系数,降低了算法复杂度,得到CG1的倒谱系数,记作CG1-GFCC;
(2)将帧长改为200ms,重复步(1)特征提取过程,得到CG2-GFCC;
(3)使用一个长为11帧,宽为11子带的方形窗对CG1进行平滑,记作CG3,重复(1)中特征提取过程,得到CG3-GFCC;
(4)使用一个长为23帧,宽为23子带的方形窗对CG1进行平滑,记作CG4,重复(1)中特征提取过程,得到CG4-GFCC;
(5)将CG1-GFCC、CG2-GFCC、CG3-GFCC和CG4-GFCC合并得到36*4维的特征向量,得到多分辨率倒谱系数(MR-GFCC);
(6)MR-GFCC参数做一阶和二阶差分参数得到△MR-GFCC和△△MR-GFCC,MR-GFCC、△MR-GFCC和△△MR-GFCC相结合作为最后的语音特征参数;
步骤三,计算DCNN训练的目标。首先分别计算出IBM和IRM,然后通过跟踪噪声变化自适应的估计出IBM和IRM前面的系数,最后将二者结合起来计算出自适应的掩蔽阈值;
步骤四,构建深度卷积神经网络模型(DCNN)。构建了一个7层的深度卷积神经网络学习输入和输出之间的非线性关系;
步骤五,将提取的特征参数和计算的自适应混合掩蔽阈值分别作为DCNN的输入和输出,对构建的7层深度卷积神经网络进行训练,得到网络的权值和偏置;
步骤六,按步骤二的方法提取测试的含噪语音的特征参数,输入到步骤五已经训练好的深度卷积神经网络中,输出一个自适应的掩蔽阈值;
步骤七,利用含噪语音和估计出的自适应的掩蔽阈值去合成增强后的语音。
本发明提出了基于多分辨率倒谱系数和深度卷积神经络的语音增强技术。该技术首先提出了一个新的语音特征参数,它的提取过程中使用了可以模拟人耳听觉模型的gammatone滤波器组进行滤波处理,利用耳蜗对信号的感知机理,把信号分解成64个频带,得到信号的时频表示形式,然后求每个时频单元的能量。再用基于强度-响度感知变换的非线性压缩-立方根压缩对每个时频单元的能量进行压缩,这样在特征参数提取的过程中能更好地符合人耳的听觉感知特性,而且计算过程简单,使得计算复杂度低且运行时间较短。最后经过DCT变换到倒谱域,取前36维系数以及其一、二阶导数作为最后提取的特征参数,进一步降低算法的复杂度。其次,利用IBM和IRM各自的优点构造出一个跟踪噪声变化的自适应的掩蔽阈值。接着,构建了一个7层的深度卷积神经网络,利用它强大的非线性映射能力估计出自适应的掩蔽阈值。最后,利用含噪语音和估计出的自适应掩蔽阈值合成增强后的语音。该技术充分利用了人耳的工作机理,提出了模拟人耳听觉生理模型的语音特征参数,提取过程简单可行,算法复杂度低,同时利用深度卷积神经网络训练得到自适应掩蔽阈值对含噪语音进行增强,使得该算法在非平稳噪声环境中也有较好的性能。
附图说明
图1本发明的实现流程图
图2语音特征参数的提取流程图
图3gammatone滤波器组中每个滤波器的频率相应
图4gammatone滤波器组中每个滤波器合成后的频率相应
图5DCNN的网络结构图
图6自适应掩蔽阈值计算的流程图
具体实施方式
为了更好地理解本发明,下面将详细描述本发明的具体实施方式:
如图1所示,本发明提供一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法,包括以下步骤:
步骤一,对输入的信号进行时频分解,然后进行加窗分帧处理,得到输入信号的时频表示形式;
(1)首先对输入的信号进行时频分解;
语音信号是典型的时变信号,而时频分解正是着眼于真实语音信号组成成分的这种时变谱特征,将一维的语音信号分解成时间-频率表示的二维信号,旨在揭示语音信号中包含多少频率分量级及每个分量随时间是如何变化的。Gammatone滤波器即是时频分解的一种良好的工具。它能模拟人耳基底膜的时频分解机制,为此本文采用Gammatone滤波器组对含噪语音进行时频分解。gammatone滤波器组中每个滤波器的频率相应,如图3所示,gammatone滤波器组中每个滤波器合成后的频率相应,如图4所示。Gammatone滤波器的冲击响应为:
其中t表示采样点,fc表示第c个gammatone滤波器通道的中心频率,心理声学的研究表明,人耳对声音信号的听觉感知依赖于临界频带。因此将人耳的临界频带的中心频率作为Gammatone滤波器中心频率。本文所用的实验数据采样率为16KHz,所以中心频率的范围设置为[50Hz,8000Hz],将其划分为64个通道的Gammatone滤波器组可以更好地反映此频带内语音的基频和谐波特性。φ为滤波器的初始相位,为简化模型,将φ设置为0。l为滤波器的阶数,实验表明当l=4时,Gammatone滤波器可以很好地模拟耳蜗的听觉滤波特性,因此本文中设置l=4。B(fc)为滤波器带宽,它被定义为:
B(fc)=b*ERB(fc) (2)
其中b表示衰减因子,由实验数据分析当b=1.019时,可以得到最好的滤波效果,所以本文设置b=1.019。ERB(fc)代表等效矩形带宽(equivalent rectangle bandwidth,ERB),与中心频率fc关系可定义为:
ERB(fc)=24.7+0.108fc (3)
其中24.7和0.108为实验中得到的经验值。
输入信号的表达式如公式(4)所示:
x(t)=s(t)+n(t) (4)
式中x(t)代表含噪语音信号,s(t)代表纯净语音信号,n(t)表示噪声信号,它们的采样率均设置为16kHz。
将x(t)通过64通道的gammatone滤波器进行滤波,将x(t)分解成64个子带信号Gc(t,fc),如公式(5)所示:
Gc(t,fc)=g(t,fc)·U(t)·x(t) (5)
其中U(t)单位阶跃函数,c表示子带编号。
(2)对每一个子带信号用汉明窗进行分帧处理,得到其时频域表示形式yi(t,fc)(时频单元),如公式(6)所示:
yi(t,fc)=w(t)*Gc(((i-1)*inc+t),fc) (6)
式中,w(t)为汉明窗函数,汉明窗与矩形窗相比,其频率分辨率相对较低,但是它的低通特性更加平滑,能够更好地反映语音信号的频率特性,所以本文选用汉明窗。i表示帧数,inc为帧移,设置为10ms(160点),t的范围为[1,L],L表示帧长,设置为20ms(320点)。
步骤二,对输入信号的时频单元进行特征参数的提取,如图2所示;
(1)计算输入信号的每个时频单元(帧长为20ms)的听觉滤波器输出能量(cochleagram)CG1(i,fc),如公式(7)表示:
(2)然后对每个时频单元的能量进行立方根非线性压缩变化来模拟人耳对语音的强度-响度感知特性,立方根非线性压缩能量CG_1(i,fc)的计算公式为:
CG_1(i,fc)=[CG1(i,fc)]1/3 (8)
(3)最后经过DCT(离散余弦变换)到倒谱域获得帧长为20ms的听觉倒谱系数F(i,fc),其数学表达式为:
式中M为总通道数,本发明取M=64。当c>36时,F(i,fc)的值较小,因此取前36维特征,记作CG1-GFCC(i,fc);
(4)只将上述帧长20ms改为200ms,和CG1-GFCC(i,fc)的提取过程一样,得到的特征参数记为CG2-GFCC(i,fc);
(5)使用一个长为11帧,宽为11子带的方形窗对CG1(i,fc)进行平滑,得到CG3(i,fc),如公式(10)所示:
再对CG3(i,fc)进行2中的(2)、(3)操作,得到CG3-GFCC(i,fc);
(6)使用一个长为23帧,宽为23子带的方形窗对CG1(i,fc)进行平滑,得到CG4(i,fc),如公式(11)所示:
再对CG4(i,fc)进行2中的(2)、(3)操作,得到CG4-GFCC(i,fc);
(7)将CG1-GFCC(i,fc)、CG2-GFCC(i,fc)、CG3-GFCC(i,fc)和CG4-GFCC(i,fc)进行合并,得到多分辨率听觉倒谱系数-MR-GFCC(i,fc),如公式(12)所示:
MR-GFCC(i,fc)=[CG1-GFCC(i,fc);CG2-GFCC(i,fc);CG3-GFCC(i,fc);CG4-GFCC(i,fc)] (12)
(8)动态特征的提取。动态特征可以保留语音时域信息,与原始MR-GFCC相互补充可以保留更多的语音信息,有利于提高DCNN对目标估计的准确性。动态特征可以通过对公式(12)中的MR-GFCC(i,fc)参数做一阶和二阶差分参数得到△MR-GFCC(i,fc)和△△MR-GFCC(i,fc)。其定义分别由公式(13)和(14)所示:
式中k表示帧数差,k通常取1。
最后提取的特征参数为va(i,fc)=[MR-GFCC(i,fc);△MR-GFCC(i,fc);△△MR-GFCC(i,fc],a为特征维数,a=432。
步骤三,计算DCNN的目标,如图6所示;
本发明提出的自适应掩蔽阈值作为DCNN的训练目标。其公式为:
z(i,fc)=α*IBM(i,fc)+(1-α)*IRM(i,fc) (15)
(1)首先计算理想二值掩蔽(IBM),公式如下:
其中Es(i,fc)和En(i,fc)分别代表第i帧中心频率为fc的纯净语音和噪声的能量,计算公式由公式(17)、(18)得到。lc是阈值,通常取比含噪语音信噪比低5dB。t表示帧数,fc表示中心频率。IBM(i,fc)表示第i帧中心频率为fc的纯净语音和噪声的理想二值掩蔽值。
(2)理想软掩蔽值(IRM)是一个比值的时频掩蔽矩阵,通过纯净语音和噪声计算得到,其定义为:
式中β是一个可调的尺度因子,大量的实验表明β=0.5是最好的选择。
(3)α-自适应系数的估计。
式中m表示噪声前5帧的索引,之后各帧的带噪语音信号的能量按式(20)求出,而该帧的噪声能量按式(22)自适应估计:
nw 2(i,fc)=α(i,fc)×n2(i-1,fc)+(1-α(i,f))×n2(i,fc) (22)
每一帧每个通道的信噪比SNR(i,fc)由式(23)计算:
α(t,fc)由s形函数产生,由式(24)定义:
(4)根据公式(15)计算出自适应的掩蔽阈值z(i,fc)。
步骤四,构建深度卷积神经网络模型(DCNN);
由于深度学习中的深度卷积神经网络(DCNN)有对复杂特征优秀的抽象和建模能力,所以本文通过DCNN对含噪语音提取的特征进行建模去估计。然后再用估计的IRM和IBM与含噪语音去合成增强后的语音。DCNN模型的结构一般由3部分组成:输入层、隐含层和输出层。输入层用来输入含噪语音的特征参数,隐含层由卷积层、池化层层和全连接层组成,输出层用来输出估计的目标。它们之间通过传递函数来传递数据。
本文构建的DCNN模型的网络结构如图5所示。由1个输入层,5个隐含层和1个输出层构成。因为随着隐含层数目太少,不能很好得学习输入和输出之间的映射关系,但随着隐层数目的增多,网络结构变得复杂,它的建模能力下降。实验中发现隐含层数目为5时,它的性能较好。其中输入层各节点代表MR-GFCC的特征参数(432维);隐含层中的卷积层1有64个卷积滤波器,大小为7x7;池化层2采用的Max-Poling,滤波器个数为64,大小为3x3;卷积层2有128个卷积滤波器,大小为3x3,池化层4也采用Max-Poling,滤波器个数为128,大小3x3;全连接层5的神经元个数为1024;输出层的各节点代表一帧的gammatone滤波器组64个频率通道的自适应掩蔽值。输入层和隐含层之间的传递函数采用sigmoid函数,sigmoid函数是一种非线性函数,输出范围在(0,1)之间,使数据在DCNN模型传递的过程中不容易发散,输出层的传递函数是softmax函数。
步骤五,将步骤四中提取的特征参数va(i,fc)和步骤三计算的自适应掩蔽阈值z(i,fc)分别作为DCNN的输入和输出,采用自适应学习率的随机梯度下降算法对网络进行训练,训练完成以后,保存网络的权值和偏置,其训练采用的是线下训练。
步骤六,按步骤二的方法提取测试的含噪语音的特征参数,输入到步骤五已经训练好的深度卷积神经网络中,输出一个自适应的掩蔽阈值Y(i,fc),如公式(25)所示;
Y(i,fc)=θ(X(i,fc) (25)
式中θ()表示训练好的DCNN网络模型参数,X(i,fc)表示测试的含噪语音的特征参数,Y(i,fc)表示DCNN估计出的自适应掩蔽阈值。
步骤七,利用测试的含噪语音和步骤六估计出的自适应的掩蔽阈值去合成增强后的语音。
Claims (4)
1.一种基于多分辨率和深度卷积神经网络的语音增强方法,其特征在于,包括以下步骤:
步骤一,将含噪语音通过64通道的gammatone滤波器进行滤波,对每一个频率通道的输出做加窗分帧处理,得到其时频域表示形式;
步骤二,提取每个时频单元的特征参数
(1)帧长为20ms,帧移为10ms,求每个时频单元的能量,记作CG1;然后对每个时频单元的能量进行立方根非线性压缩变化来模拟人耳对语音的强度-响度感知特性;最后经过DCT到倒谱域,同时取前36维系数,得到CG1的倒谱系数,记作CG1-GFCC;
(2)将帧长改为200ms,重复步(1)特征提取过程,得到CG2-GFCC;
(3)使用一个长为11帧,宽为11子带的方形窗对CG1进行平滑,记作CG3,重复(1)中特征提取过程,得到CG3-GFCC;
(4)使用一个长为23帧,宽为23子带的方形窗对CG1进行平滑,记作CG4,重复(1)中特征提取过程,得到CG4-GFCC;
(5)将CG1-GFCC、CG2-GFCC、CG3-GFCC和CG4-GFCC合并得到36*4维的特征向量,得到多分辨率倒谱系数(MR-GFCC);
(6)MR-GFCC参数做一阶和二阶差分参数得到△MR-GFCC和△△MR-GFCC,MR-GFCC、△MR-GFCC和△△MR-GFCC相结合作为最后的语音特征参数;
步骤三,计算DCNN训练的目标
首先分别计算出IBM和IRM,然后通过跟踪噪声变化自适应的估计出IBM和IRM前面的系数,最后将二者结合起来计算出自适应的掩蔽阈值;具体为:
步骤三中自适应掩蔽阈值作为DCNN的训练目标,其公式为:
z(i,fc)=α*IBM(i,fc)+(1-α)*IRM(i,fc) (15)
(1)首先计算理想二值掩蔽(IBM),公式如下:
其中Es(i,fc)和En(i,fc)分别代表第i帧中心频率为fc的纯净语音和噪声的能量,lc是阈值,t表示帧数,fc表示中心频率,IBM(i,fc)表示第i帧中心频率为fc的纯净语音和噪声的理想二值掩蔽值;
(2)理想软掩蔽值(IRM)是一个比值的时频掩蔽矩阵,通过纯净语音和噪声计算得到,其定义为:
其中,β是一个可调的尺度因子,
(3)α-自适应系数的估计
其中,m表示噪声前5帧的索引,之后各帧的带噪语音信号的能量按式(20)求出,而该帧的噪声能量按式(22)自适应估计:
nw 2(i,fc)=α(i,fc)×n2(i-1,fc)+(1-α(i,f))×n2(i,fc) (22)
每一帧每个通道的信噪比SNR(i,fc)由式(23)计算:
α(t,fc)由s形函数产生,由式(24)定义:
(4)根据公式(15)计算出自适应的掩蔽阈值z(i,fc);
步骤四,构建深度卷积神经网络模型(DCNN),构建了一个7层的深度卷积神经网络学习输入和输出之间的非线性关系;
步骤五,将提取的特征参数和计算的自适应混合掩蔽阈值分别作为DCNN的输入和输出,对构建的7层深度卷积神经网络进行训练,得到网络的权值和偏置;
步骤六,按步骤二的方法提取测试的含噪语音的特征参数,输入到步骤五已经训练好的深度卷积神经网络中,输出一个自适应的掩蔽阈值;
步骤七,利用含噪语音和估计出的自适应的掩蔽阈值去合成增强后的语音。
2.如权利要求1所述的基于多分辨率和深度卷积神经网络的语音增强方法,其特征在于,步骤四深度卷积神经网络模型(DCNN)由1个输入层,5个隐含层和1个输出层构成;输入层用来输入含噪语音的特征参数,隐含层由卷积层、池化层层和全连接层组成,输出层用来输出估计的目标;它们之间通过传递函数来传递数据。
3.如权利要求1所述的基于多分辨率和深度卷积神经网络的语音增强方法,其特征在于,步骤五,将步骤四中提取的特征参数va(i,fc)和步骤三计算的自适应掩蔽阈值z(i,fc)分别作为DCNN的输入和输出,采用自适应学习率的随机梯度下降算法对网络进行训练,训练完成以后,保存网络的权值和偏置,其训练采用的是线下训练。
4.如权利要求1所述的基于多分辨率和深度卷积神经网络的语音增强方法,其特征在于,步骤六,按步骤二的方法提取测试的含噪语音的特征参数,输入到步骤五已经训练好的深度卷积神经网络中,输出一个自适应的掩蔽阈值Y(i,fc),如公式(25)所示;
Y(i,fc)=θ(X(i,fc) (25)
其中,θ()表示训练好的DCNN网络模型参数,X(i,fc)表示测试的含噪语音的特征参数,Y(i,fc)表示DCNN估计出的自适应掩蔽阈值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711397819.6A CN107845389B (zh) | 2017-12-21 | 2017-12-21 | 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711397819.6A CN107845389B (zh) | 2017-12-21 | 2017-12-21 | 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107845389A CN107845389A (zh) | 2018-03-27 |
CN107845389B true CN107845389B (zh) | 2020-07-17 |
Family
ID=61684039
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711397819.6A Active CN107845389B (zh) | 2017-12-21 | 2017-12-21 | 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107845389B (zh) |
Families Citing this family (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108615533B (zh) * | 2018-03-28 | 2021-08-03 | 天津大学 | 一种基于深度学习的高性能语音增强方法 |
CN108447495B (zh) * | 2018-03-28 | 2020-06-09 | 天津大学 | 一种基于综合特征集的深度学习语音增强方法 |
CN108520757A (zh) * | 2018-03-31 | 2018-09-11 | 华南理工大学 | 基于听觉特性的音乐适用场景自动分类方法 |
US10672414B2 (en) * | 2018-04-13 | 2020-06-02 | Microsoft Technology Licensing, Llc | Systems, methods, and computer-readable media for improved real-time audio processing |
CN109147806B (zh) * | 2018-06-05 | 2021-11-12 | 安克创新科技股份有限公司 | 基于深度学习的语音音质增强方法、装置和系统 |
CN108806707B (zh) | 2018-06-11 | 2020-05-12 | 百度在线网络技术(北京)有限公司 | 语音处理方法、装置、设备及存储介质 |
CN108806708A (zh) * | 2018-06-13 | 2018-11-13 | 中国电子科技集团公司第三研究所 | 基于计算听觉场景分析和生成对抗网络模型的语音降噪方法 |
CN109033965B (zh) * | 2018-06-22 | 2021-10-01 | 江苏科技大学 | 一种水下机器人推进器故障时频特征增强方法 |
CN110767244B (zh) * | 2018-07-25 | 2024-03-29 | 中国科学技术大学 | 语音增强方法 |
CN109147798B (zh) * | 2018-07-27 | 2023-06-09 | 北京三快在线科技有限公司 | 语音识别方法、装置、电子设备及可读存储介质 |
CN108899047B (zh) * | 2018-08-20 | 2019-09-10 | 百度在线网络技术(北京)有限公司 | 音频信号的掩蔽阈值估计方法、装置及存储介质 |
CN109036460B (zh) * | 2018-08-28 | 2020-01-07 | 百度在线网络技术(北京)有限公司 | 基于多模型神经网络的语音处理方法和装置 |
CN109841206B (zh) * | 2018-08-31 | 2022-08-05 | 大象声科(深圳)科技有限公司 | 一种基于深度学习的回声消除方法 |
CN109410974B (zh) * | 2018-10-23 | 2021-09-28 | 百度在线网络技术(北京)有限公司 | 语音增强方法、装置、设备及存储介质 |
CN109410976B (zh) * | 2018-11-01 | 2022-12-16 | 北京工业大学 | 双耳助听器中基于双耳声源定位和深度学习的语音增强方法 |
CN111192599B (zh) * | 2018-11-14 | 2022-11-22 | 中移(杭州)信息技术有限公司 | 一种降噪方法及装置 |
CN109326299B (zh) * | 2018-11-14 | 2023-04-25 | 平安科技(深圳)有限公司 | 基于全卷积神经网络的语音增强方法、装置及存储介质 |
CN109767782B (zh) * | 2018-12-28 | 2020-04-14 | 中国科学院声学研究所 | 一种提高dnn模型泛化性能的语音增强方法 |
CN109448751B (zh) * | 2018-12-29 | 2021-03-23 | 中国科学院声学研究所 | 一种基于深度学习的双耳语音增强方法 |
EP3716270B1 (en) * | 2019-03-29 | 2022-04-06 | Goodix Technology (HK) Company Limited | Speech processing system and method therefor |
CN110010150A (zh) * | 2019-04-15 | 2019-07-12 | 吉林大学 | 基于多分辨率的听觉感知语音特征参数提取方法 |
US11800301B2 (en) | 2019-06-09 | 2023-10-24 | Universiteit Gent | Neural network model for cochlear mechanics and processing |
CN110136737A (zh) * | 2019-06-18 | 2019-08-16 | 北京拙河科技有限公司 | 一种语音降噪方法及装置 |
CN110534123B (zh) * | 2019-07-22 | 2022-04-01 | 中国科学院自动化研究所 | 语音增强方法、装置、存储介质、电子设备 |
CN110867181B (zh) * | 2019-09-29 | 2022-05-06 | 北京工业大学 | 基于scnn和tcnn联合估计的多目标语音增强方法 |
CN113077807B (zh) * | 2019-12-17 | 2023-02-28 | 北京搜狗科技发展有限公司 | 一种语音数据的处理方法、装置及电子设备 |
CN111128209B (zh) * | 2019-12-28 | 2022-05-10 | 天津大学 | 一种基于混合掩蔽学习目标的语音增强方法 |
CN111144347B (zh) * | 2019-12-30 | 2023-06-27 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、平台及存储介质 |
CN111105809B (zh) * | 2019-12-31 | 2022-03-22 | 云知声智能科技股份有限公司 | 一种降噪方法及装置 |
CN111192598A (zh) * | 2020-01-07 | 2020-05-22 | 哈尔滨理工大学 | 一种跳变连接深度神经网络的语音增强方法 |
CN111223493B (zh) * | 2020-01-08 | 2022-08-02 | 北京声加科技有限公司 | 语音信号降噪处理方法、传声器和电子设备 |
CN111243617B (zh) * | 2020-01-13 | 2022-11-18 | 中国科学院声学研究所 | 一种基于深度学习降低mfcc特征失真的语音增强方法 |
CN111613211B (zh) * | 2020-04-17 | 2023-04-07 | 云知声智能科技股份有限公司 | 特定词语音的处理方法及装置 |
CN111613243B (zh) * | 2020-04-26 | 2023-04-18 | 云知声智能科技股份有限公司 | 一种语音检测的方法及其装置 |
CN111653287A (zh) * | 2020-06-04 | 2020-09-11 | 重庆邮电大学 | 基于dnn和频带内互相关系数的单通道语音增强算法 |
CN113077811B (zh) * | 2021-04-01 | 2023-06-30 | 西北工业大学 | 一种基于参数化多相位gammatone滤波器组的语音分离方法 |
CN113393852B (zh) * | 2021-08-18 | 2021-11-05 | 杭州雄迈集成电路技术股份有限公司 | 语音增强模型的构建方法及系统、语音增强方法及系统 |
CN113658604A (zh) * | 2021-08-27 | 2021-11-16 | 上海互问信息科技有限公司 | 一种利用数理统计和深度网络结合的语音降噪通用方法 |
CN113921023B (zh) * | 2021-12-14 | 2022-04-08 | 北京百瑞互联技术有限公司 | 一种蓝牙音频啸叫抑制方法、装置、介质及蓝牙设备 |
CN114974277A (zh) * | 2022-03-07 | 2022-08-30 | 云知声智能科技股份有限公司 | 语音降噪模型的训练方法、语音降噪方法及装置 |
CN114999519A (zh) * | 2022-07-18 | 2022-09-02 | 中邮消费金融有限公司 | 一种基于双重变换的语音实时降噪方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102982801A (zh) * | 2012-11-12 | 2013-03-20 | 中国科学院自动化研究所 | 一种用于鲁棒语音识别的语音特征提取方法 |
CN103778920A (zh) * | 2014-02-12 | 2014-05-07 | 北京工业大学 | 数字助听器中语音增强和频响补偿相融合方法 |
CN107077860A (zh) * | 2014-10-21 | 2017-08-18 | 三菱电机株式会社 | 用于将有噪音频信号转换为增强音频信号的方法 |
-
2017
- 2017-12-21 CN CN201711397819.6A patent/CN107845389B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102982801A (zh) * | 2012-11-12 | 2013-03-20 | 中国科学院自动化研究所 | 一种用于鲁棒语音识别的语音特征提取方法 |
CN103778920A (zh) * | 2014-02-12 | 2014-05-07 | 北京工业大学 | 数字助听器中语音增强和频响补偿相融合方法 |
CN107077860A (zh) * | 2014-10-21 | 2017-08-18 | 三菱电机株式会社 | 用于将有噪音频信号转换为增强音频信号的方法 |
Non-Patent Citations (4)
Title |
---|
A feature study for classification-based speech separation at low signal-to noise;CHEN J,WANG Y,WANG D L;<ACM Transactions on Audio>;20141130;第22卷(第12期);1993-2002 * |
IDEAL RATIO MASK ESTIMATION USING DEEP NEURAL NETWORKS FOR ROBUST SPEECH RECOGNITION;Arun Narayanan, DeLiang Wang;<ICASSP>;20131021;7092-7096 * |
基于双正交小波包分解的自适应阈值语音增强;李如玮,鲍长春,窦慧晶;《仪器仪表学报》;20081030;第29卷(第10期);2135-2140 * |
基于噪声估计的二值掩蔽语音增强算法;曹龙涛,李如玮,鲍长春,吴水才;《计算机工程与应用》;20150505;第51卷(第17期);222-227 * |
Also Published As
Publication number | Publication date |
---|---|
CN107845389A (zh) | 2018-03-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107845389B (zh) | 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法 | |
CN110867181B (zh) | 基于scnn和tcnn联合估计的多目标语音增强方法 | |
CN109841226B (zh) | 一种基于卷积递归神经网络的单通道实时降噪方法 | |
CN110619885B (zh) | 基于深度完全卷积神经网络的生成对抗网络语音增强方法 | |
CN111292759B (zh) | 一种基于神经网络的立体声回声消除方法及系统 | |
Vaseghi | Multimedia signal processing: theory and applications in speech, music and communications | |
CN107452389A (zh) | 一种通用的单声道实时降噪方法 | |
CN110148420A (zh) | 一种适用于噪声环境下的语音识别方法 | |
CN107479030A (zh) | 基于分频和改进的广义互相关双耳时延估计方法 | |
CN111986660A (zh) | 一种神经网络子带建模的单通道语音增强方法、系统及存储介质 | |
CN105448302B (zh) | 一种环境自适应的语音混响消除方法和系统 | |
Geng et al. | End-to-end speech enhancement based on discrete cosine transform | |
CN112885375A (zh) | 基于听觉滤波器组和卷积神经网络的全局信噪比估计方法 | |
CN111899750B (zh) | 联合耳蜗语音特征和跳变深层神经网络的语音增强算法 | |
CN110808057A (zh) | 一种基于约束朴素生成对抗网络的语音增强方法 | |
CN107248414A (zh) | 一种基于多帧频谱和非负矩阵分解的语音增强方法与装置 | |
CN116013344A (zh) | 一种多种噪声环境下的语音增强方法 | |
CN115424627A (zh) | 基于卷积循环网络和wpe算法的语音增强混合处理方法 | |
Shafik et al. | A wavelet based approach for speaker identification from degraded speech | |
Raj et al. | Multilayered convolutional neural network-based auto-CODEC for audio signal denoising using mel-frequency cepstral coefficients | |
CN117219102A (zh) | 一种基于听觉感知的低复杂度语音增强方法 | |
CN114566179A (zh) | 一种时延可控的语音降噪方法 | |
TWI749547B (zh) | 應用深度學習的語音增強系統 | |
CN113066483B (zh) | 一种基于稀疏连续约束的生成对抗网络语音增强方法 | |
Srinivasarao | Speech signal analysis and enhancement using combined wavelet Fourier transform with stacked deep learning architecture |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |