CN115312073A - 一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法 - Google Patents
一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法 Download PDFInfo
- Publication number
- CN115312073A CN115312073A CN202210749234.0A CN202210749234A CN115312073A CN 115312073 A CN115312073 A CN 115312073A CN 202210749234 A CN202210749234 A CN 202210749234A CN 115312073 A CN115312073 A CN 115312073A
- Authority
- CN
- China
- Prior art keywords
- signal
- band
- sub
- erb
- linear
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000001629 suppression Effects 0.000 title claims abstract description 25
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 17
- 238000001228 spectrum Methods 0.000 claims abstract description 59
- 230000003595 spectral effect Effects 0.000 claims abstract description 22
- 238000006243 chemical reaction Methods 0.000 claims abstract description 21
- 238000001914 filtration Methods 0.000 claims abstract description 21
- 238000004364 calculation method Methods 0.000 claims abstract description 12
- 239000011159 matrix material Substances 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 9
- 238000009499 grossing Methods 0.000 claims description 9
- 230000005236 sound signal Effects 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 6
- 230000000873 masking effect Effects 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 238000002592 echocardiography Methods 0.000 claims description 4
- 241000288105 Grus Species 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 claims description 3
- 230000037433 frameshift Effects 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000003786 synthesis reaction Methods 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 claims 1
- 239000004065 semiconductor Substances 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 3
- 238000013507 mapping Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 5
- 238000003672 processing method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
本发明公开了一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法。该方法包括:基于等效矩阵带宽尺度,将信号的线性频谱划分到多个子带进行处理;设计轻量级的DNN模型结构,并采用参考信号、滤波信号和误差信号等三路信号作为特征,预测残余回声在子带谱域的时频掩码;使用对数幅度谱估计器,考虑近端语音存在的不确定性,对子带谱域增益进行控制;基于三角滤波器组,实现从子带增益到全频带增益的映射,完成从子带频域到线性频域的转换。该方法将DNN优异的非线性处理能力和信号处理的可控性结合,达到良好的非线性残余回声消除效果,同时降低整个算法的计算复杂度。
Description
技术领域
本发明涉及电子信息技术领域,进一步说,尤其涉及一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法。
背景技术
原有的基于信号处理的方法通常基于计算参考信号、滤波信号和误差信号之间的相关性,并建立相关性和抑制残余回声的增益之间的映射,或是根据相关性估计出残余回声的功率谱,进而根据维纳滤波等降噪方法计算回声抑制增益。由于相关性难以表达原始信号之间的非线性关系,该方法难以达到优异的残余回声消除效果。由于DNN优异的非线性表达能力,其抑制回声效果明显优于传统信号处理方法。现有DNN模型网络结构复杂,并且消除结果表示近端语音失真度难以控制。因此,需要解决的问题主要包括两个方面,一方面,设计低复杂度的算法和模型,另一方面,利用传统信号处理的方法控制近端语音的失真。本发明采用信号处理和DNN模型相结合的方式,将DNN优异的非线性处理能力和信号处理的可控性结合,达到良好的非线性残余回声消除效果,同时降低整个算法的计算复杂度,并能根据声学环境控制近端语音的失真。
发明内容
本发明为解决上述技术问题而采用的技术方案是提供一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法,目的是设计轻量级的DNN模型,并控制最终的近端语音失真度。
其中,具体技术方案为:
包括:
(1)使用基于NLMS算法的线性回声消除;
(2)线性谱域到子带谱域转换;
(3)DNN模型;
(4)增益控制;
(5)子带谱域到线性谱域转换。
上述的一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法,其中,(1)包括:
将参考信号x(t)和麦克风信号d(t)作为输入,经过经典的基于NLMS的线性回声消除算法处理,得到滤波信号y(t)和误差信号e(t),滤波信号是指参考信号经过滤波器处理之后的信号,而误差信号是麦克风信号和滤波信号之差。
上述的一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法,其中,(2)包括:
步骤2)将参考信号、滤波信号和误差信号分别做分帧、加窗和快速傅里叶变换(FFT)处理,转换到线性频域,分别表示为X(k,l),Y(k,l),和E(k,l),其中(以X(k,l)为例),l是音频信号的时间帧索引,k是频率索引,k取1,2,...,N/2+1,N为FFT的长度,w是长度为N的分析窗(如汉宁窗),T为帧移,通常取T=N/2。
步骤3)使用等效矩阵带宽(ERB)尺度,将线性频域划分成多个子带,其转换方式为
erb(f)=21.4log10(1+0.00437f) (1)
f(erb)=(10erb/21.4-1)/0.00437 (2)
子带划分分为以下三步:1)确定线性频域的频率范围[fl,fu],在具体实施时,如对于采样率为16kHz的音频信号,其待划分的频率范围可为[100,8000],通过公式(1),将线性频率范围转换为ERB范围[erbl,erbu];2)确定子带个数M,在具体实施时,可取M=40,将ERB范围平均划分为M等份,则M+2个ERB频点可表示是为(erbl,erbl+Δ,…,erbl+(M+1)Δ),其中Δ=(erbu-erbl)/M;3)根据等式(2),将上述ERB频点转换到线性频点h(i),根据公式f(i)=floor((N+1)*h(i)/fs),(其中,N表示FFT的长度,fs为采样率),得到线性频点h(i)对应的频率索引f(i)。在具体实施中,对音频信号做N=512点的FFT;
步骤4)使用三角滤波器组(如图3所示),设计滤波器组wm(k),其中,m=1,…,M,且
使用该三角滤波器组对步骤2)计算得到的频谱X(k,l),Y(k,l),和E(k,l)进行滤波,得到Xs(m,l),Ys(m,l),和Es(m,l),其中(以Xs(m,l)为例),
Xs(m,l)=∑kwm(k)|X(k,l)|2,
即得到子带频域的参考能量谱、滤波能量谱和误差能量谱。具体实施时,对于N=512点的FFT,该线性谱域的频带个数为257(即512/2+1)个,而经过ERB尺度的子带的转换,频带的个数减少为M=40。使用上述子带域的能量谱作为DNN模型的输入特征,则相比使用线性谱域的能量谱作为特征,DNN模型的特征维度大幅减少。
上述的一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法,其中,(3)包括:
步骤5)由步骤4)计算得到的子带能量谱Xs(m,l),Ys(m,l),和Es(m,l),将其进行合并取对数运算结果,组成DNN模型的输入特征,
F(l)=log10[concat(Xs(m,l),Ys(m,l),Es(m,l))]
特征的输入维度为3M。特征输入到DNN模型,推理得到输出子带时频掩蔽mask。在训练DNN模型时,其定义为
其中,Ec(m)表示干净近端语音信号在子带m的能量,其可从训练数据集中获取,En(m)表示误差语音信号在子带m的能量,m取1,2,...,M;具体地,将维度为40的参考能量谱、滤波能量谱和误差能量谱分别取对数之后,并经过层归一化(iLN)处理,合并组成维度为120的特征向量,输入到两层128维的GRU模型中;在两次GRU之间添加Dropout层,防止训练过程中模型过拟合;假设经过层归一化处理后生成的特征在t时刻分别表示为X(t),Y(t),E(t),则上述主要计算流程为
最后,第二个GRU层输出的特征经过维度为40的全连接层(FC)和sigmoid层处理,输出40维度的子带时频掩蔽,其t时刻输出结果为:其中,U,v分别为全连接层的权重矩阵和偏置向量。在线性频域全频带DNN模型中,该时频掩蔽mask的输出结果的维度为N/2+1,对于N=512点的FFT,其维度为257,明显大于在子带的预测输出维度。因此,子带频域训练的DNN模型的的网络复杂度小于其在线性频域的复杂度。
上述的一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法,其中,(4)包括:
步骤6)为处理DNN模型的过估计导致的近端语音失真现象,在模型估计的mask的基础上对子带增益进行控制。首先,残余回声能量谱估计为λ(m,l),其中,λ(m,l)=αλ(m,l-1)+(1-α)r(m,l)
步骤8)考虑近端语音存在的不确定性,结合复高斯模型并应用贝叶斯规则,则近端语音存在概率的估计为,
步骤9)我们使用对数幅度谱估计器对子带增益进行估计。在近端语音不存在的情况下,设定一个阈值Gmin,其指定最小底噪水平,通常可设为-10dB,则近端幅度As(m,l)估计为GminEs(m,l);在近端语音存在的情况下,As(m,l)估计为GH1(m,l)Es(m,l),其中,GH1(m,l)表示在l时间帧近端语音存在的条件下的增益,其表达式为
步骤10)最后,增益函数为G(m,l)={GH1(m,l)}p(m,l)Gmin 1-p(m,l),其中,p(m,l)为近端语音存在概率。上述过程中,可通过参数Gmin,q0,和平滑因子等对增益进行调整,以达到根据具体应用的声学环境控制近端语音的失真情况的目的。
上述的一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法,其中,(5)包括:
步骤11)由步骤4)的得到的三角滤波器组wm(k),将子带增益G(m,l)转换到全带增益Gf(k,l)=∑mwm(k)G(m,l),其中,m取1,2,...,M,k取1,2,...,N/2+1。
上述的一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法,其中,在DNN模型的训练中,需要准备的数据包括近端语音信号数据,回声信号数据和参考信号数据,以及混响数据,其中回声数据中需包含尽可能多的设备数据,即包含不同的非线性回声;
将回声数据和近端语音信号按照不同的信噪比进行混合,得到麦克风数据,将模拟的麦克风数据和参考数据经过步骤1)中的线性回声消除处理,得到滤波信号和误差信号;将其和参考信号一同送入线性谱域到子带谱域转换模块,得到上述所示的DNN模型特征,将对应的近端语音数据同样经过线性谱域到子带谱域转换模块处理,和子带误差能量谱进行计算,得到DNN模型的目标数据mask,使用均方误差损失函数作为模型的优化准则,基于深度学习训练框架,对DNN模型进行训练。
本发明相对于现有技术具有如下有益效果:
1.基于等效矩阵带宽(ERB)尺度,将信号的线性频谱划分到多个子带进行处理,并基于三角滤波器组实现从线性频域到子带频域的转换。该转换能明显降低算法和模型的复杂度。
2.采用参考信号、滤波信号和误差信号等三路信号作为特征,训练DNN模型,能够充分利用相关信息提取误差信号中的残余非线性回声。
3.设计轻量级的DNN网络结构,其具有处理的实时性和计算资源消耗小的特点。
4.使用对数幅度谱估计器,考虑近端语音存在的不确定性,对子带谱域增益进行控制。通过调节相关参数可对增益进行调整,进而达到根据具体应用的声学环境控制近端语音的失真情况的目的。
附图说明
图1为本发明的总体系统执行框图。
图2为线性回声消除的实施原理图。
图3为三角滤波器组示意图。
图4为DNN模型的网络结构示意图。
图5为子带谱增益计算流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步的描述。
本发明的总体系统执行框图如图1所示。
具体操作流程描述如下:1,使用基于NLMS算法的线性回声消除。
步骤1)将参考信号x(t)和麦克风信号d(t)作为输入,经过经典的基于NLMS的线性回声消除算法处理,得到滤波信号y(t)和误差信号e(t),滤波信号是指参考信号经过滤波器处理之后的信号,而误差信号是麦克风信号和滤波信号之差。一种线性回声消除的实施原理如图2所示。
2,线性谱域到子带谱域转换。
步骤2)将参考信号、滤波信号和误差信号分别做分帧、加窗和快速傅里叶变换(FFT)处理,转换到线性频域,分别表示为X(k,l),Y(k,l),和E(k,l),其中(以X(k,l)为例),l是音频信号的时间帧索引,k是频率索引,k取1,2,...,N/2+1,N为FFT的长度,w是长度为N的分析窗(如汉宁窗),T为帧移,通常取T=N/2。
步骤3)使用等效矩阵带宽(ERB)尺度,将线性频域划分成多个子带,其转换方式为
erb(f)=21.4log10(1+0.00437f) (1)
f(erb)=(10erb/21.4-1)/0.00437 (2)
子带划分分为以下三步:1)确定线性频域的频率范围[fl,fu],在具体实施时,如对于采样率为16kHz的音频信号,其待划分的频率范围可为[100,8000],通过公式(1),将线性频率范围转换为ERB范围[erbl,erbu];2)确定子带个数M,在具体实施时,可取M=40,将ERB范围平均划分为M等份,则M+2个ERB频点可表示是为(erbl,erbl+Δ,…,erbl+(M+1)Δ),其中Δ=(erbu-erbl)/M;3)根据等式(2),将上述ERB频点转换到线性频点h(i),根据公式f(i)=floor((N+1)*h(i)/fs),(其中,N表示FFT的长度,fs为采样率),得到线性频点h(i)对应的频率索引f(i)。在具体实施中,对音频信号做N=512点的FFT。
步骤4)使用三角滤波器组(如图3所示),设计滤波器组wm(k),其中,m=1,…,M,且
使用该三角滤波器组对步骤2)计算得到的频谱X(k,l),Y(k,l),和E(k,l)进行滤波,得到Xs(m,l),Ys(m,l),和Es(m,l),其中(以Xs(m,l)为例),Xs(m,l)=∑kwm(k)|X(k,l)|2,
即得到子带频域的参考能量谱、滤波能量谱和误差能量谱。具体实施时,对于N=512点的FFT,该线性谱域的频带个数为257(即512/2+1)个,而经过ERB尺度的子带的转换,频带的个数减少为M=40。
3,DNN模型
步骤5)由步骤4)计算得到的子带能量谱Xs(m,l),Ys(m,l),和Es(m,l),将其进行合并取对数运算结果,组成DNN模型的输入特征,
F(l)=log10[concat(Xs(m,l),Ys(m,l),Es(m,l))]
特征的输入维度为3M。特征输入到DNN模型,推理得到输出子带时频掩蔽mask。在训练DNN模型时,其定义为
其中,Ec(m)表示干净近端语音信号在子带m的能量,其可从训练数据集中获取,En(m)表示误差语音信号在子带m的能量,m取1,2,...,M。DNN模型的网络结构如图4所示。具体地,将维度为40的参考能量谱、滤波能量谱和误差能量谱分别取对数之后,并经过层归一化(iLN)处理,合并组成维度为120的特征向量,输入到两层128维的GRU模型中;在两次GRU之间添加Dropout层,防止训练过程中模型过拟合;假设经过层归一化处理后生成的特征在t时刻分别表示为X(t),Y(t),E(t),则上述主要计算流程为
最后,第二个GRU层输出的特征经过维度为40的全连接层(FC)和sigmoid层处理,输出40维度的子带时频掩蔽,其t时刻输出结果为:其中,U,v分别为全连接层的权重矩阵和偏置向量。在线性频域全频带DNN模型中,该时频掩蔽mask的输出结果的维度为N/2+1,对于N=512点的FFT,其维度为257,明显大于在子带的预测输出维度。因此,子带频域训练的DNN模型的的网络复杂度小于其在线性频域的复杂度。
在上述DNN模型的训练中,需要准备的数据包括近端语音信号数据,回声信号数据和参考信号数据,以及混响数据等,其中回声数据中需包含尽可能多的设备数据,即包含不同的非线性回声。将回声数据和近端语音信号按照不同的信噪比进行混合,得到麦克风数据。将模拟的麦克风数据和参考数据经过步骤1)中的线性回声处理,得到滤波信号和误差信号;将其和参考信号一同送入线性谱域到子带谱域转换模块,得到上述所示的DNN模型特征。将对应的近端语音数据同样经过线性谱域到子带谱域转换模块处理,和子带误差能量谱进行计算,得到DNN模型的目标数据mask。使用均方误差损失函数作为模型的优化准则,基于深度学习训练框架,对DNN模型进行训练。DNN模型的网络结构如图4所示。
4,增益控制
步骤6)为处理DNN模型的过估计导致的近端语音失真现象,在模型估计的mask的基础上对子带增益进行控制。首先,残余回声能量谱估计为λ(m,l),其中,
λ(m,l)=αλ(m,l-1)+(1-α)r(m,l)
步骤8)考虑近端语音存在的不确定性,结合复高斯模型并应用贝叶斯规则,则近端语音存在概率的估计为,
步骤9)我们使用对数幅度谱估计器对子带增益进行估计。在近端语音不存在的情况下,设定一个阈值Gmin,其指定最小底噪水平,通常可设为-10dB,则近端幅度As(m,l)估计为GminEs(m,l);在近端语音存在的情况下,As(m,l)估计为GH1(m,l)Es(m,l),其中,GH1(m,l)表示在l时间帧近端语音存在的条件下的增益,其表达式为
步骤10)最后,增益函数为G(m,l)={GH1(m,l)}p(m,l)Gmin 1-p(m,l),其中,p(m,l)为近端语音存在概率。上述过程中,可通过参数Gmin,q0,和平滑因子等对增益进行调整,以达到根据具体应用的声学环境控制近端语音的失真情况的目的。上述增益控制流程如图5所示。
5,子带谱域到线性谱域转换
步骤11)由步骤4)的得到的三角滤波器组wm(k),将子带增益G(m,l)转换到全带增益Gf(k,l)=∑mwm(k)G(m,l),其中,m取1,2,...,M,k取1,2,...,N/2+1。
Claims (7)
1.一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法,其特征在于,包括:
(1)使用基于NLMS算法的线性回声消除;
(2)线性谱域到子带谱域转换;
(3)DNN模型;
(4)增益控制;
(5)子带谱域到线性谱域转换。
2.如权利要求1所述的一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法,其特征在于,(1)包括:
将参考信号x(t)和麦克风信号d(t)作为输入,经过经典的基于NLMS的线性回声消除算法处理,得到滤波信号y(t)和误差信号e(t),滤波信号是指参考信号经过滤波器处理之后的信号,而误差信号是麦克风信号和滤波信号之差。
3.如权利要求2所述的一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法,其特征在于,(2)包括:
l是音频信号的时间帧索引,k是频率索引,k取1,2,...,N/2+1,N为FFT的长度,w是长度为N的分析窗(如汉宁窗),T为帧移,通常取T=N/2。
步骤3)使用等效矩阵带宽(ERB)尺度,将线性频域划分成多个子带,其转换方式为
erb(f)=21.4log10(1+0.00437f) (1)
f(erb)=(10erb/21.4-1)/0.00437 (2)
子带划分分为以下三步:1)确定线性频域的频率范围[f1,fu],在具体实施时,如对于采样率为16kHz的音频信号,其待划分的频率范围可为[100,8000],通过公式(1),将线性频率范围转换为ERB范围[erbl,erbu];2)确定子带个数M,在具体实施时,可取M=40,将ERB范围平均划分为M等份,则M+2个ERB频点可表示是为(erbl,erbl+Δ,…,erbl+(M+1)Δ),其中Δ=(erbu-erbl)/M;3)根据等式(2),将上述ERB频点转换到线性频点h(i),根据公式f(i)=floor((N+1)*h(i)/fs),(其中,N表示FFT的长度,fs为采样率),得到线性频点h(i)对应的频率索引f(i)。在具体实施中,对音频信号做N=512点的FFT;
步骤4)使用三角滤波器组(如图3所示),设计滤波器组wm(k),其中,m=1,…,M,且
使用该三角滤波器组对步骤2)计算得到的频谱X(k,l),Y(k,l),和E(k,l)进行滤波,得到Xs(m,l),Ys(m,l),和Es(m,l),其中(以Xs(m,l)为例),
Xs(m,l)=∑kwm(k)|X(k,l)|2,
即得到子带频域的参考能量谱、滤波能量谱和误差能量谱。具体实施时,对于N=512点的FFT,该线性谱域的频带个数为257(即512/2+1)个,而经过ERB尺度的子带的转换,频带的个数减少为M=40,即参与后续DNN的计算量减少。
4.如权利要求1所述的一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法,其特征在于,(3)包括:
步骤5)由步骤4)计算得到的子带能量谱Xs(m,l),Ys(m,l),和Es(m,l),将其进行合并取对数运算结果,组成DNN模型的输入特征,
F(l)=log10[concat(Xs(m,l),Ys(m,l),Es(m,l))]
特征的输入维度为3M。特征输入到DNN模型,推理得到输出子带时频掩蔽mask。在训练DNN模型时,其定义为
其中,Ec(m)表示干净近端语音信号在子带m的能量,其可从训练数据集中获取,En(m)表示误差语音信号在子带m的能量,m取1,2,...,M;具体地,将维度为40的参考能量谱、滤波能量谱和误差能量谱分别取对数之后,并经过层归一化(iLN)处理,合并组成维度为120的特征向量,输入到两层128维的GRU模型中;在两次GRU之间添加Dropout层,防止训练过程中模型过拟合;假设经过层归一化处理后生成的特征在t时刻分别表示为X(t),Y(t),E(t),则上述主要计算流程为
5.如权利要求2所述的一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法,其特征在于,(4)包括:
步骤6)为处理DNN模型的过估计导致的近端语音失真现象,在模型估计的mask的基础上对子带增益进行控制。首先,残余回声能量谱估计为λ(m,l),其中,λ(m,l)=αλ(m,l-1)+(1-α)r(m,l)
步骤8)考虑近端语音存在的不确定性,结合复高斯模型并应用贝叶斯规则,则近端语音存在概率的估计为,
步骤9)我们使用对数幅度谱估计器对子带增益进行估计。在近端语音不存在的情况下,设定一个阈值Gmin,其指定最小底噪水平,通常可设为-10dB,则近端幅度As(m,l)估计为GminEs(m,l);在近端语音存在的情况下,As(m,l)估计为GH1(m,l)Es(m,l),其中,GH1(m,l)表示在l时间帧近端语音存在的条件下的增益,其表达式为
步骤10)最后,增益函数为G(m,l)={GH1(m,l)}p(m,l)Gmin 1-p(m,l),其中,p(m,l)为近端语音存在概率。上述过程中,可通过参数Gmin,q0,和平滑因子等对增益进行调整,以达到根据具体应用的声学环境控制近端语音的失真情况的目的。
7.如权利要求6所述的一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法,其特征在于,在DNN模型的训练中,需要准备的数据包括近端语音信号数据,回声信号数据和参考信号数据,以及混响数据,其中回声数据中需包含尽可能多的设备数据,即包含不同的非线性回声;
将回声数据和近端语音信号按照不同的信噪比进行混合,得到麦克风数据,将模拟的麦克风数据和参考数据经过步骤1)中的线性回声处理,得到滤波信号和误差信号;将其和参考信号一同送入线性谱域到子带谱域转换模块,得到上述所示的DNN模型特征,将对应的近端语音数据同样经过线性谱域到子带谱域转换模块处理,和子带误差能量谱进行计算,得到DNN模型的目标数据mask,使用均方误差损失函数作为模型的优化准则,基于深度学习训练框架,对DNN模型进行训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210749234.0A CN115312073A (zh) | 2022-06-28 | 2022-06-28 | 一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210749234.0A CN115312073A (zh) | 2022-06-28 | 2022-06-28 | 一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115312073A true CN115312073A (zh) | 2022-11-08 |
Family
ID=83855414
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210749234.0A Pending CN115312073A (zh) | 2022-06-28 | 2022-06-28 | 一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115312073A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117437929A (zh) * | 2023-12-21 | 2024-01-23 | 睿云联(厦门)网络通讯技术有限公司 | 一种基于神经网络的实时回声消除方法 |
-
2022
- 2022-06-28 CN CN202210749234.0A patent/CN115312073A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117437929A (zh) * | 2023-12-21 | 2024-01-23 | 睿云联(厦门)网络通讯技术有限公司 | 一种基于神经网络的实时回声消除方法 |
CN117437929B (zh) * | 2023-12-21 | 2024-03-08 | 睿云联(厦门)网络通讯技术有限公司 | 一种基于神经网络的实时回声消除方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110085249B (zh) | 基于注意力门控的循环神经网络的单通道语音增强方法 | |
CN107845389B (zh) | 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法 | |
CN108172231B (zh) | 一种基于卡尔曼滤波的去混响方法及系统 | |
CN101976566B (zh) | 语音增强方法及应用该方法的装置 | |
CN110867181B (zh) | 基于scnn和tcnn联合估计的多目标语音增强方法 | |
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
US8880396B1 (en) | Spectrum reconstruction for automatic speech recognition | |
CN110148420A (zh) | 一种适用于噪声环境下的语音识别方法 | |
JP2004520616A (ja) | 雑音低減法および装置 | |
CN102347028A (zh) | 双麦克风语音增强装置及方法 | |
MX2011001339A (es) | Aparato y metodo para procesar una señal de audio para mejora de habla, utilizando una extraccion de caracteristica. | |
CN111899750B (zh) | 联合耳蜗语音特征和跳变深层神经网络的语音增强算法 | |
CN112331224A (zh) | 轻量级时域卷积网络语音增强方法与系统 | |
CN105679330B (zh) | 基于改进子带信噪比估计的数字助听器降噪方法 | |
CN101901602A (zh) | 一种利用受损听力的听阈进行降噪的方法 | |
Geng et al. | End-to-end speech enhancement based on discrete cosine transform | |
CN112885375A (zh) | 基于听觉滤波器组和卷积神经网络的全局信噪比估计方法 | |
CN113838471A (zh) | 基于神经网络的降噪方法、系统、电子设备及存储介质 | |
CN115312073A (zh) | 一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法 | |
CN113782011A (zh) | 频带增益模型的训练方法及用于车载场景的语音降噪方法 | |
Roy et al. | Causal convolutional encoder decoder-based augmented Kalman filter for speech enhancement | |
CN111653287A (zh) | 基于dnn和频带内互相关系数的单通道语音增强算法 | |
CN112634927A (zh) | 一种短波信道语音增强方法 | |
Rani et al. | Significance of phase in DNN based speech enhancement algorithms | |
Lan et al. | Speech Enhancement Algorithm Combining Cochlear Features and Deep Neural Network with Skip Connections |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |