CN115312073A - 一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法 - Google Patents

一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法 Download PDF

Info

Publication number
CN115312073A
CN115312073A CN202210749234.0A CN202210749234A CN115312073A CN 115312073 A CN115312073 A CN 115312073A CN 202210749234 A CN202210749234 A CN 202210749234A CN 115312073 A CN115312073 A CN 115312073A
Authority
CN
China
Prior art keywords
signal
band
sub
erb
linear
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210749234.0A
Other languages
English (en)
Inventor
周伟林
黄乐凯
蔡洪滨
何昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Shenghan Information Technology Co ltd
Original Assignee
Shanghai Shenghan Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Shenghan Information Technology Co ltd filed Critical Shanghai Shenghan Information Technology Co ltd
Priority to CN202210749234.0A priority Critical patent/CN115312073A/zh
Publication of CN115312073A publication Critical patent/CN115312073A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

本发明公开了一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法。该方法包括:基于等效矩阵带宽尺度,将信号的线性频谱划分到多个子带进行处理;设计轻量级的DNN模型结构,并采用参考信号、滤波信号和误差信号等三路信号作为特征,预测残余回声在子带谱域的时频掩码;使用对数幅度谱估计器,考虑近端语音存在的不确定性,对子带谱域增益进行控制;基于三角滤波器组,实现从子带增益到全频带增益的映射,完成从子带频域到线性频域的转换。该方法将DNN优异的非线性处理能力和信号处理的可控性结合,达到良好的非线性残余回声消除效果,同时降低整个算法的计算复杂度。

Description

一种联合信号处理和深度神经网络的低复杂度的残余回声抑 制方法
技术领域
本发明涉及电子信息技术领域,进一步说,尤其涉及一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法。
背景技术
原有的基于信号处理的方法通常基于计算参考信号、滤波信号和误差信号之间的相关性,并建立相关性和抑制残余回声的增益之间的映射,或是根据相关性估计出残余回声的功率谱,进而根据维纳滤波等降噪方法计算回声抑制增益。由于相关性难以表达原始信号之间的非线性关系,该方法难以达到优异的残余回声消除效果。由于DNN优异的非线性表达能力,其抑制回声效果明显优于传统信号处理方法。现有DNN模型网络结构复杂,并且消除结果表示近端语音失真度难以控制。因此,需要解决的问题主要包括两个方面,一方面,设计低复杂度的算法和模型,另一方面,利用传统信号处理的方法控制近端语音的失真。本发明采用信号处理和DNN模型相结合的方式,将DNN优异的非线性处理能力和信号处理的可控性结合,达到良好的非线性残余回声消除效果,同时降低整个算法的计算复杂度,并能根据声学环境控制近端语音的失真。
发明内容
本发明为解决上述技术问题而采用的技术方案是提供一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法,目的是设计轻量级的DNN模型,并控制最终的近端语音失真度。
其中,具体技术方案为:
包括:
(1)使用基于NLMS算法的线性回声消除;
(2)线性谱域到子带谱域转换;
(3)DNN模型;
(4)增益控制;
(5)子带谱域到线性谱域转换。
上述的一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法,其中,(1)包括:
将参考信号x(t)和麦克风信号d(t)作为输入,经过经典的基于NLMS的线性回声消除算法处理,得到滤波信号y(t)和误差信号e(t),滤波信号是指参考信号经过滤波器处理之后的信号,而误差信号是麦克风信号和滤波信号之差。
上述的一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法,其中,(2)包括:
步骤2)将参考信号、滤波信号和误差信号分别做分帧、加窗和快速傅里叶变换(FFT)处理,转换到线性频域,分别表示为X(k,l),Y(k,l),和E(k,l),其中(以X(k,l)为例),
Figure BDA0003717695730000021
l是音频信号的时间帧索引,k是频率索引,k取1,2,...,N/2+1,N为FFT的长度,w是长度为N的分析窗(如汉宁窗),T为帧移,通常取T=N/2。
步骤3)使用等效矩阵带宽(ERB)尺度,将线性频域划分成多个子带,其转换方式为
erb(f)=21.4log10(1+0.00437f) (1)
f(erb)=(10erb/21.4-1)/0.00437 (2)
子带划分分为以下三步:1)确定线性频域的频率范围[fl,fu],在具体实施时,如对于采样率为16kHz的音频信号,其待划分的频率范围可为[100,8000],通过公式(1),将线性频率范围转换为ERB范围[erbl,erbu];2)确定子带个数M,在具体实施时,可取M=40,将ERB范围平均划分为M等份,则M+2个ERB频点可表示是为(erbl,erbl+Δ,…,erbl+(M+1)Δ),其中Δ=(erbu-erbl)/M;3)根据等式(2),将上述ERB频点转换到线性频点h(i),根据公式f(i)=floor((N+1)*h(i)/fs),(其中,N表示FFT的长度,fs为采样率),得到线性频点h(i)对应的频率索引f(i)。在具体实施中,对音频信号做N=512点的FFT;
步骤4)使用三角滤波器组(如图3所示),设计滤波器组wm(k),其中,m=1,…,M,且
Figure BDA0003717695730000031
使用该三角滤波器组对步骤2)计算得到的频谱X(k,l),Y(k,l),和E(k,l)进行滤波,得到Xs(m,l),Ys(m,l),和Es(m,l),其中(以Xs(m,l)为例),
Xs(m,l)=∑kwm(k)|X(k,l)|2
即得到子带频域的参考能量谱、滤波能量谱和误差能量谱。具体实施时,对于N=512点的FFT,该线性谱域的频带个数为257(即512/2+1)个,而经过ERB尺度的子带的转换,频带的个数减少为M=40。使用上述子带域的能量谱作为DNN模型的输入特征,则相比使用线性谱域的能量谱作为特征,DNN模型的特征维度大幅减少。
上述的一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法,其中,(3)包括:
步骤5)由步骤4)计算得到的子带能量谱Xs(m,l),Ys(m,l),和Es(m,l),将其进行合并取对数运算结果,组成DNN模型的输入特征,
F(l)=log10[concat(Xs(m,l),Ys(m,l),Es(m,l))]
特征的输入维度为3M。特征输入到DNN模型,推理得到输出子带时频掩蔽mask。在训练DNN模型时,其定义为
Figure BDA0003717695730000041
其中,Ec(m)表示干净近端语音信号在子带m的能量,其可从训练数据集中获取,En(m)表示误差语音信号在子带m的能量,m取1,2,...,M;具体地,将维度为40的参考能量谱、滤波能量谱和误差能量谱分别取对数之后,并经过层归一化(iLN)处理,合并组成维度为120的特征向量,输入到两层128维的GRU模型中;在两次GRU之间添加Dropout层,防止训练过程中模型过拟合;假设经过层归一化处理后生成的特征在t时刻分别表示为X(t),Y(t),E(t),则上述主要计算流程为
Figure BDA0003717695730000042
Figure BDA0003717695730000043
其中,[]表示向量连接,g(x)为GRU层计算函数。
最后,第二个GRU层输出的特征经过维度为40的全连接层(FC)和sigmoid层处理,输出40维度的子带时频掩蔽,其t时刻输出结果为:
Figure BDA0003717695730000044
其中,U,v分别为全连接层的权重矩阵和偏置向量。在线性频域全频带DNN模型中,该时频掩蔽mask的输出结果的维度为N/2+1,对于N=512点的FFT,其维度为257,明显大于在子带的预测输出维度。因此,子带频域训练的DNN模型的的网络复杂度小于其在线性频域的复杂度。
上述的一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法,其中,(4)包括:
步骤6)为处理DNN模型的过估计导致的近端语音失真现象,在模型估计的mask的基础上对子带增益进行控制。首先,残余回声能量谱估计为λ(m,l),其中,λ(m,l)=αλ(m,l-1)+(1-α)r(m,l)
Figure BDA0003717695730000051
m=1,2,...,M.α是平滑因子,在实际实施中,取α=0.95,则后验信噪比可估计为
Figure BDA0003717695730000052
步骤7)在近端语音存在不确定的条件下,我们使用决策导向的方法来估计先验信噪比
Figure BDA0003717695730000053
其中,β是平滑因子,在实际实施中,取β=0.95,GH1(m,l-1)表示在l-1时间帧近端语音存在的条件下的增益;
步骤8)考虑近端语音存在的不确定性,结合复高斯模型并应用贝叶斯规则,则近端语音存在概率的估计为,
Figure BDA0003717695730000054
其中,q(m,l)是先验的近端语音不存在概率,在实际实施时,取q(m,l)为一个固定的值,即q(m,l)=q0=0.5;
Figure BDA0003717695730000055
ξ(m,l)为先验信噪比,γ(m,l)为后验信噪比;
步骤9)我们使用对数幅度谱估计器对子带增益进行估计。在近端语音不存在的情况下,设定一个阈值Gmin,其指定最小底噪水平,通常可设为-10dB,则近端幅度As(m,l)估计为GminEs(m,l);在近端语音存在的情况下,As(m,l)估计为GH1(m,l)Es(m,l),其中,GH1(m,l)表示在l时间帧近端语音存在的条件下的增益,其表达式为
Figure BDA0003717695730000061
步骤10)最后,增益函数为G(m,l)={GH1(m,l)}p(m,l)Gmin 1-p(m,l),其中,p(m,l)为近端语音存在概率。上述过程中,可通过参数Gmin,q0,和平滑因子等对增益进行调整,以达到根据具体应用的声学环境控制近端语音的失真情况的目的。
上述的一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法,其中,(5)包括:
步骤11)由步骤4)的得到的三角滤波器组wm(k),将子带增益G(m,l)转换到全带增益Gf(k,l)=∑mwm(k)G(m,l),其中,m取1,2,...,M,k取1,2,...,N/2+1。
步骤12)将全带增益Gf(k,l)应用到误差信号的复数谱上,则残余回声抑制之后的误差信号的复数谱
Figure BDA0003717695730000062
步骤13)复数谱
Figure BDA0003717695730000063
经过反傅里叶变换和加合成窗,最后经过重叠相加算法,得到残余回声抑制之后的误差时域信号
Figure BDA0003717695730000064
Figure BDA0003717695730000065
为与分析窗双正交的合成窗。
上述的一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法,其中,在DNN模型的训练中,需要准备的数据包括近端语音信号数据,回声信号数据和参考信号数据,以及混响数据,其中回声数据中需包含尽可能多的设备数据,即包含不同的非线性回声;
将回声数据和近端语音信号按照不同的信噪比进行混合,得到麦克风数据,将模拟的麦克风数据和参考数据经过步骤1)中的线性回声消除处理,得到滤波信号和误差信号;将其和参考信号一同送入线性谱域到子带谱域转换模块,得到上述所示的DNN模型特征,将对应的近端语音数据同样经过线性谱域到子带谱域转换模块处理,和子带误差能量谱进行计算,得到DNN模型的目标数据mask,使用均方误差损失函数作为模型的优化准则,基于深度学习训练框架,对DNN模型进行训练。
本发明相对于现有技术具有如下有益效果:
1.基于等效矩阵带宽(ERB)尺度,将信号的线性频谱划分到多个子带进行处理,并基于三角滤波器组实现从线性频域到子带频域的转换。该转换能明显降低算法和模型的复杂度。
2.采用参考信号、滤波信号和误差信号等三路信号作为特征,训练DNN模型,能够充分利用相关信息提取误差信号中的残余非线性回声。
3.设计轻量级的DNN网络结构,其具有处理的实时性和计算资源消耗小的特点。
4.使用对数幅度谱估计器,考虑近端语音存在的不确定性,对子带谱域增益进行控制。通过调节相关参数可对增益进行调整,进而达到根据具体应用的声学环境控制近端语音的失真情况的目的。
附图说明
图1为本发明的总体系统执行框图。
图2为线性回声消除的实施原理图。
图3为三角滤波器组示意图。
图4为DNN模型的网络结构示意图。
图5为子带谱增益计算流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步的描述。
本发明的总体系统执行框图如图1所示。
具体操作流程描述如下:1,使用基于NLMS算法的线性回声消除。
步骤1)将参考信号x(t)和麦克风信号d(t)作为输入,经过经典的基于NLMS的线性回声消除算法处理,得到滤波信号y(t)和误差信号e(t),滤波信号是指参考信号经过滤波器处理之后的信号,而误差信号是麦克风信号和滤波信号之差。一种线性回声消除的实施原理如图2所示。
2,线性谱域到子带谱域转换。
步骤2)将参考信号、滤波信号和误差信号分别做分帧、加窗和快速傅里叶变换(FFT)处理,转换到线性频域,分别表示为X(k,l),Y(k,l),和E(k,l),其中(以X(k,l)为例),
Figure BDA0003717695730000081
l是音频信号的时间帧索引,k是频率索引,k取1,2,...,N/2+1,N为FFT的长度,w是长度为N的分析窗(如汉宁窗),T为帧移,通常取T=N/2。
步骤3)使用等效矩阵带宽(ERB)尺度,将线性频域划分成多个子带,其转换方式为
erb(f)=21.4log10(1+0.00437f) (1)
f(erb)=(10erb/21.4-1)/0.00437 (2)
子带划分分为以下三步:1)确定线性频域的频率范围[fl,fu],在具体实施时,如对于采样率为16kHz的音频信号,其待划分的频率范围可为[100,8000],通过公式(1),将线性频率范围转换为ERB范围[erbl,erbu];2)确定子带个数M,在具体实施时,可取M=40,将ERB范围平均划分为M等份,则M+2个ERB频点可表示是为(erbl,erbl+Δ,…,erbl+(M+1)Δ),其中Δ=(erbu-erbl)/M;3)根据等式(2),将上述ERB频点转换到线性频点h(i),根据公式f(i)=floor((N+1)*h(i)/fs),(其中,N表示FFT的长度,fs为采样率),得到线性频点h(i)对应的频率索引f(i)。在具体实施中,对音频信号做N=512点的FFT。
步骤4)使用三角滤波器组(如图3所示),设计滤波器组wm(k),其中,m=1,…,M,且
Figure BDA0003717695730000091
使用该三角滤波器组对步骤2)计算得到的频谱X(k,l),Y(k,l),和E(k,l)进行滤波,得到Xs(m,l),Ys(m,l),和Es(m,l),其中(以Xs(m,l)为例),Xs(m,l)=∑kwm(k)|X(k,l)|2
即得到子带频域的参考能量谱、滤波能量谱和误差能量谱。具体实施时,对于N=512点的FFT,该线性谱域的频带个数为257(即512/2+1)个,而经过ERB尺度的子带的转换,频带的个数减少为M=40。
3,DNN模型
步骤5)由步骤4)计算得到的子带能量谱Xs(m,l),Ys(m,l),和Es(m,l),将其进行合并取对数运算结果,组成DNN模型的输入特征,
F(l)=log10[concat(Xs(m,l),Ys(m,l),Es(m,l))]
特征的输入维度为3M。特征输入到DNN模型,推理得到输出子带时频掩蔽mask。在训练DNN模型时,其定义为
Figure BDA0003717695730000092
其中,Ec(m)表示干净近端语音信号在子带m的能量,其可从训练数据集中获取,En(m)表示误差语音信号在子带m的能量,m取1,2,...,M。DNN模型的网络结构如图4所示。具体地,将维度为40的参考能量谱、滤波能量谱和误差能量谱分别取对数之后,并经过层归一化(iLN)处理,合并组成维度为120的特征向量,输入到两层128维的GRU模型中;在两次GRU之间添加Dropout层,防止训练过程中模型过拟合;假设经过层归一化处理后生成的特征在t时刻分别表示为X(t),Y(t),E(t),则上述主要计算流程为
Figure BDA0003717695730000101
Figure BDA0003717695730000102
其中,[]表示向量连接,g(x)为GRU层计算函数。
最后,第二个GRU层输出的特征经过维度为40的全连接层(FC)和sigmoid层处理,输出40维度的子带时频掩蔽,其t时刻输出结果为:
Figure BDA0003717695730000103
其中,U,v分别为全连接层的权重矩阵和偏置向量。在线性频域全频带DNN模型中,该时频掩蔽mask的输出结果的维度为N/2+1,对于N=512点的FFT,其维度为257,明显大于在子带的预测输出维度。因此,子带频域训练的DNN模型的的网络复杂度小于其在线性频域的复杂度。
在上述DNN模型的训练中,需要准备的数据包括近端语音信号数据,回声信号数据和参考信号数据,以及混响数据等,其中回声数据中需包含尽可能多的设备数据,即包含不同的非线性回声。将回声数据和近端语音信号按照不同的信噪比进行混合,得到麦克风数据。将模拟的麦克风数据和参考数据经过步骤1)中的线性回声处理,得到滤波信号和误差信号;将其和参考信号一同送入线性谱域到子带谱域转换模块,得到上述所示的DNN模型特征。将对应的近端语音数据同样经过线性谱域到子带谱域转换模块处理,和子带误差能量谱进行计算,得到DNN模型的目标数据mask。使用均方误差损失函数作为模型的优化准则,基于深度学习训练框架,对DNN模型进行训练。DNN模型的网络结构如图4所示。
4,增益控制
步骤6)为处理DNN模型的过估计导致的近端语音失真现象,在模型估计的mask的基础上对子带增益进行控制。首先,残余回声能量谱估计为λ(m,l),其中,
λ(m,l)=αλ(m,l-1)+(1-α)r(m,l)
Figure BDA0003717695730000111
m=1,2,...,M.α是平滑因子,在实际实施中,取α=0.95,则后验信噪比可估计为
Figure BDA0003717695730000112
步骤7)在近端语音存在不确定的条件下,我们使用决策导向的方法来估计先验信噪比
Figure BDA0003717695730000113
其中,β是平滑因子,在实际实施中,取β=0.95,GH1(m,l-1)表示在l-1时间帧近端语音存在的条件下的增益。
步骤8)考虑近端语音存在的不确定性,结合复高斯模型并应用贝叶斯规则,则近端语音存在概率的估计为,
Figure BDA0003717695730000114
其中,q(m,l)是先验的近端语音不存在概率,在实际实施时,取q(m,l)为一个固定的值,即q(m,l)=q0=0.5;
Figure BDA0003717695730000121
ξ(m,l)为先验信噪比,γ(m,l)为后验信噪比。
步骤9)我们使用对数幅度谱估计器对子带增益进行估计。在近端语音不存在的情况下,设定一个阈值Gmin,其指定最小底噪水平,通常可设为-10dB,则近端幅度As(m,l)估计为GminEs(m,l);在近端语音存在的情况下,As(m,l)估计为GH1(m,l)Es(m,l),其中,GH1(m,l)表示在l时间帧近端语音存在的条件下的增益,其表达式为
Figure BDA0003717695730000122
步骤10)最后,增益函数为G(m,l)={GH1(m,l)}p(m,l)Gmin 1-p(m,l),其中,p(m,l)为近端语音存在概率。上述过程中,可通过参数Gmin,q0,和平滑因子等对增益进行调整,以达到根据具体应用的声学环境控制近端语音的失真情况的目的。上述增益控制流程如图5所示。
5,子带谱域到线性谱域转换
步骤11)由步骤4)的得到的三角滤波器组wm(k),将子带增益G(m,l)转换到全带增益Gf(k,l)=∑mwm(k)G(m,l),其中,m取1,2,...,M,k取1,2,...,N/2+1。
步骤12)将全带增益Gf(k,l)应用到误差信号的复数谱上,则残余回声抑制之后的误差信号的复数谱
Figure BDA0003717695730000123
步骤13)复数谱
Figure BDA0003717695730000124
经过反傅里叶变换和加合成窗,最后经过重叠相加算法,得到残余回声抑制之后的误差时域信号
Figure BDA0003717695730000125
Figure BDA0003717695730000126
为与分析窗双正交的合成窗。

Claims (7)

1.一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法,其特征在于,包括:
(1)使用基于NLMS算法的线性回声消除;
(2)线性谱域到子带谱域转换;
(3)DNN模型;
(4)增益控制;
(5)子带谱域到线性谱域转换。
2.如权利要求1所述的一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法,其特征在于,(1)包括:
将参考信号x(t)和麦克风信号d(t)作为输入,经过经典的基于NLMS的线性回声消除算法处理,得到滤波信号y(t)和误差信号e(t),滤波信号是指参考信号经过滤波器处理之后的信号,而误差信号是麦克风信号和滤波信号之差。
3.如权利要求2所述的一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法,其特征在于,(2)包括:
步骤2)将参考信号、滤波信号和误差信号分别做分帧、加窗和快速傅里叶变换(FFT)处理,转换到线性频域,分别表示为X(k,l),Y(k,l),和E(k,l),其中(以X(k,l)为例),
Figure FDA0003717695720000011
l是音频信号的时间帧索引,k是频率索引,k取1,2,...,N/2+1,N为FFT的长度,w是长度为N的分析窗(如汉宁窗),T为帧移,通常取T=N/2。
步骤3)使用等效矩阵带宽(ERB)尺度,将线性频域划分成多个子带,其转换方式为
erb(f)=21.4log10(1+0.00437f) (1)
f(erb)=(10erb/21.4-1)/0.00437 (2)
子带划分分为以下三步:1)确定线性频域的频率范围[f1,fu],在具体实施时,如对于采样率为16kHz的音频信号,其待划分的频率范围可为[100,8000],通过公式(1),将线性频率范围转换为ERB范围[erbl,erbu];2)确定子带个数M,在具体实施时,可取M=40,将ERB范围平均划分为M等份,则M+2个ERB频点可表示是为(erbl,erbl+Δ,…,erbl+(M+1)Δ),其中Δ=(erbu-erbl)/M;3)根据等式(2),将上述ERB频点转换到线性频点h(i),根据公式f(i)=floor((N+1)*h(i)/fs),(其中,N表示FFT的长度,fs为采样率),得到线性频点h(i)对应的频率索引f(i)。在具体实施中,对音频信号做N=512点的FFT;
步骤4)使用三角滤波器组(如图3所示),设计滤波器组wm(k),其中,m=1,…,M,且
Figure FDA0003717695720000021
使用该三角滤波器组对步骤2)计算得到的频谱X(k,l),Y(k,l),和E(k,l)进行滤波,得到Xs(m,l),Ys(m,l),和Es(m,l),其中(以Xs(m,l)为例),
Xs(m,l)=∑kwm(k)|X(k,l)|2,
即得到子带频域的参考能量谱、滤波能量谱和误差能量谱。具体实施时,对于N=512点的FFT,该线性谱域的频带个数为257(即512/2+1)个,而经过ERB尺度的子带的转换,频带的个数减少为M=40,即参与后续DNN的计算量减少。
4.如权利要求1所述的一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法,其特征在于,(3)包括:
步骤5)由步骤4)计算得到的子带能量谱Xs(m,l),Ys(m,l),和Es(m,l),将其进行合并取对数运算结果,组成DNN模型的输入特征,
F(l)=log10[concat(Xs(m,l),Ys(m,l),Es(m,l))]
特征的输入维度为3M。特征输入到DNN模型,推理得到输出子带时频掩蔽mask。在训练DNN模型时,其定义为
Figure FDA0003717695720000031
其中,Ec(m)表示干净近端语音信号在子带m的能量,其可从训练数据集中获取,En(m)表示误差语音信号在子带m的能量,m取1,2,...,M;具体地,将维度为40的参考能量谱、滤波能量谱和误差能量谱分别取对数之后,并经过层归一化(iLN)处理,合并组成维度为120的特征向量,输入到两层128维的GRU模型中;在两次GRU之间添加Dropout层,防止训练过程中模型过拟合;假设经过层归一化处理后生成的特征在t时刻分别表示为X(t),Y(t),E(t),则上述主要计算流程为
Figure FDA0003717695720000032
Figure FDA0003717695720000033
其中,[]表示向量连接,g(x)为GRU层计算函数。
最后,第二个GRU层输出的特征经过维度为40的全连接层(FC)和sigmoid层处理,输出40维度的子带时频掩蔽,其t时刻输出结果为:
Figure FDA0003717695720000034
其中,U,v分别为全连接层的权重矩阵和偏置向量。在线性频域全频带DNN模型中,该时频掩蔽mask的输出结果的维度为N/2+1,对于N=512点的FFT,其维度为257,明显大于在子带的预测输出维度。因此,子带频域训练的DNN模型的的网络复杂度小于其在线性频域的复杂度。
5.如权利要求2所述的一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法,其特征在于,(4)包括:
步骤6)为处理DNN模型的过估计导致的近端语音失真现象,在模型估计的mask的基础上对子带增益进行控制。首先,残余回声能量谱估计为λ(m,l),其中,λ(m,l)=αλ(m,l-1)+(1-α)r(m,l)
Figure FDA0003717695720000041
α是平滑因子,在实际实施中,取α=0.95,则后验信噪比可估计为
Figure FDA0003717695720000042
步骤7)在近端语音存在不确定的条件下,我们使用决策导向的方法来估计先验信噪比
Figure FDA0003717695720000043
其中,β是平滑因子,在实际实施中,取β=0.95,GH1(m,l-1)表示在l-1时间帧近端语音存在的条件下的增益;
步骤8)考虑近端语音存在的不确定性,结合复高斯模型并应用贝叶斯规则,则近端语音存在概率的估计为,
Figure FDA0003717695720000044
其中,q(m,l)是先验的近端语音不存在概率,在实际实施时,取q(m,l)为一个固定的值,即q(m,l)=q0=0.5;
Figure FDA0003717695720000045
ξ(m,l)为先验信噪比,γ(m,l)为后验信噪比;
步骤9)我们使用对数幅度谱估计器对子带增益进行估计。在近端语音不存在的情况下,设定一个阈值Gmin,其指定最小底噪水平,通常可设为-10dB,则近端幅度As(m,l)估计为GminEs(m,l);在近端语音存在的情况下,As(m,l)估计为GH1(m,l)Es(m,l),其中,GH1(m,l)表示在l时间帧近端语音存在的条件下的增益,其表达式为
Figure FDA0003717695720000051
步骤10)最后,增益函数为G(m,l)={GH1(m,l)}p(m,l)Gmin 1-p(m,l),其中,p(m,l)为近端语音存在概率。上述过程中,可通过参数Gmin,q0,和平滑因子等对增益进行调整,以达到根据具体应用的声学环境控制近端语音的失真情况的目的。
6.如权利要求5所述的一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法,其特征在于,(5)包括:
步骤11)由步骤4)的得到的三角滤波器组wm(k),将子带增益G(m,l)转换到全带增益Gf(k,l)=∑mwm(k)G(m,l),其中,m取1,2,...,M,k取1,2,...,N/2+1。
步骤12)将全带增益Gf(k,l)应用到误差信号的复数谱上,则残余回声抑制之后的误差信号的复数谱
Figure FDA0003717695720000052
步骤13)复数谱
Figure FDA0003717695720000053
经过反傅里叶变换和加合成窗,最后经过重叠相加算法,得到残余回声抑制之后的误差时域信号
Figure FDA0003717695720000054
Figure FDA0003717695720000055
Figure FDA0003717695720000056
为与分析窗双正交的合成窗。
7.如权利要求6所述的一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法,其特征在于,在DNN模型的训练中,需要准备的数据包括近端语音信号数据,回声信号数据和参考信号数据,以及混响数据,其中回声数据中需包含尽可能多的设备数据,即包含不同的非线性回声;
将回声数据和近端语音信号按照不同的信噪比进行混合,得到麦克风数据,将模拟的麦克风数据和参考数据经过步骤1)中的线性回声处理,得到滤波信号和误差信号;将其和参考信号一同送入线性谱域到子带谱域转换模块,得到上述所示的DNN模型特征,将对应的近端语音数据同样经过线性谱域到子带谱域转换模块处理,和子带误差能量谱进行计算,得到DNN模型的目标数据mask,使用均方误差损失函数作为模型的优化准则,基于深度学习训练框架,对DNN模型进行训练。
CN202210749234.0A 2022-06-28 2022-06-28 一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法 Pending CN115312073A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210749234.0A CN115312073A (zh) 2022-06-28 2022-06-28 一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210749234.0A CN115312073A (zh) 2022-06-28 2022-06-28 一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法

Publications (1)

Publication Number Publication Date
CN115312073A true CN115312073A (zh) 2022-11-08

Family

ID=83855414

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210749234.0A Pending CN115312073A (zh) 2022-06-28 2022-06-28 一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法

Country Status (1)

Country Link
CN (1) CN115312073A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117437929A (zh) * 2023-12-21 2024-01-23 睿云联(厦门)网络通讯技术有限公司 一种基于神经网络的实时回声消除方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117437929A (zh) * 2023-12-21 2024-01-23 睿云联(厦门)网络通讯技术有限公司 一种基于神经网络的实时回声消除方法
CN117437929B (zh) * 2023-12-21 2024-03-08 睿云联(厦门)网络通讯技术有限公司 一种基于神经网络的实时回声消除方法

Similar Documents

Publication Publication Date Title
CN110085249B (zh) 基于注意力门控的循环神经网络的单通道语音增强方法
CN107845389B (zh) 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法
CN108172231B (zh) 一种基于卡尔曼滤波的去混响方法及系统
CN101976566B (zh) 语音增强方法及应用该方法的装置
CN110867181B (zh) 基于scnn和tcnn联合估计的多目标语音增强方法
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
US8880396B1 (en) Spectrum reconstruction for automatic speech recognition
CN110148420A (zh) 一种适用于噪声环境下的语音识别方法
JP2004520616A (ja) 雑音低減法および装置
CN102347028A (zh) 双麦克风语音增强装置及方法
MX2011001339A (es) Aparato y metodo para procesar una señal de audio para mejora de habla, utilizando una extraccion de caracteristica.
CN111899750B (zh) 联合耳蜗语音特征和跳变深层神经网络的语音增强算法
CN112331224A (zh) 轻量级时域卷积网络语音增强方法与系统
CN105679330B (zh) 基于改进子带信噪比估计的数字助听器降噪方法
CN101901602A (zh) 一种利用受损听力的听阈进行降噪的方法
Geng et al. End-to-end speech enhancement based on discrete cosine transform
CN112885375A (zh) 基于听觉滤波器组和卷积神经网络的全局信噪比估计方法
CN113838471A (zh) 基于神经网络的降噪方法、系统、电子设备及存储介质
CN115312073A (zh) 一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法
CN113782011A (zh) 频带增益模型的训练方法及用于车载场景的语音降噪方法
Roy et al. Causal convolutional encoder decoder-based augmented Kalman filter for speech enhancement
CN111653287A (zh) 基于dnn和频带内互相关系数的单通道语音增强算法
CN112634927A (zh) 一种短波信道语音增强方法
Rani et al. Significance of phase in DNN based speech enhancement algorithms
Lan et al. Speech Enhancement Algorithm Combining Cochlear Features and Deep Neural Network with Skip Connections

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination