CN115243162B - 一种基于深度学习的闭环系统声反馈抑制方法 - Google Patents
一种基于深度学习的闭环系统声反馈抑制方法 Download PDFInfo
- Publication number
- CN115243162B CN115243162B CN202210825168.0A CN202210825168A CN115243162B CN 115243162 B CN115243162 B CN 115243162B CN 202210825168 A CN202210825168 A CN 202210825168A CN 115243162 B CN115243162 B CN 115243162B
- Authority
- CN
- China
- Prior art keywords
- loop system
- closed
- signal
- acoustic feedback
- deep learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000001629 suppression Effects 0.000 title claims abstract description 37
- 238000013135 deep learning Methods 0.000 title claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 45
- 230000005236 sound signal Effects 0.000 claims abstract description 33
- 230000004044 response Effects 0.000 claims abstract description 28
- 238000004088 simulation Methods 0.000 claims abstract description 13
- 238000001228 spectrum Methods 0.000 claims description 45
- 230000006870 function Effects 0.000 claims description 43
- 238000013528 artificial neural network Methods 0.000 claims description 23
- 230000014509 gene expression Effects 0.000 claims description 18
- 238000013507 mapping Methods 0.000 claims description 17
- 230000006835 compression Effects 0.000 claims description 10
- 238000007906 compression Methods 0.000 claims description 10
- 230000003044 adaptive effect Effects 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 8
- 238000012546 transfer Methods 0.000 claims description 8
- 238000012805 post-processing Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 230000003321 amplification Effects 0.000 claims description 6
- 230000005764 inhibitory process Effects 0.000 claims description 6
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 230000001419 dependent effect Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 230000037433 frameshift Effects 0.000 claims description 3
- 230000010355 oscillation Effects 0.000 claims description 3
- 230000006837 decompression Effects 0.000 claims description 2
- 238000002347 injection Methods 0.000 claims description 2
- 239000007924 injection Substances 0.000 claims description 2
- 230000003595 spectral effect Effects 0.000 claims description 2
- 230000006872 improvement Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 239000000243 solution Substances 0.000 description 8
- 230000008901 benefit Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000003062 neural network model Methods 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000001364 causal effect Effects 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000004043 dyeing Methods 0.000 description 1
- 239000007943 implant Substances 0.000 description 1
- 238000011065 in-situ storage Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
- H04R25/45—Prevention of acoustic reaction, i.e. acoustic oscillatory feedback
- H04R25/453—Prevention of acoustic reaction, i.e. acoustic oscillatory feedback electronically
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/02—Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0985—Hyperparameter optimisation; Meta-learning; Learning-to-learn
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Otolaryngology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Acoustics & Sound (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Neurosurgery (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
本发明涉及一种基于深度学习的闭环系统声反馈抑制方法,该方法包括:将离线训练好的闭环系统反馈抑制模型应用于在线闭环系统中,对输入闭环系统的音频信号进行处理后,再馈给闭环系统的发声单元重放,实现声反馈抑制;所述闭环系统抑制模型基于深度学习建立;对闭环系统进行建模,通过模拟生成声反馈路径单位脉冲响应,并根据单位脉冲响应计算最大稳定增益,以最大稳定增益为依据生成闭环信号;将输入闭环系统的音频信号在开环条件下生成开环信号;闭环信号与开环信号一起构成模型的平行训练数据,并利用平行训练数据采用离线方式对模型进行训练。本发明方法能够有效抑制反馈信号,提高语音质量和可懂度,并显著提升扩声系统增益。
Description
技术领域
本发明涉及闭环系统的声反馈抑制领域,本发明提及的闭环系统为系统输入又受系统输出影响的一类系统,包括如助听器系统和现场扩声系统等,具体涉及一种基于深度学习的闭环系统声反馈抑制方法。
背景技术
扩声系统广泛应用于多媒体电教室、本地会议系统和助听器以及人工耳蜗等设备,该电声系统至少包括一个传声器、一个放大器和一个发声单元如扬声器等。声反馈指当传声器与扬声器处于同一个声学环境当中时,距离较近存在声学耦合,即传声器拾取外部音频信号,该音频信号经过放大器后被扬声器重放,再经过反馈路径之后被传声器采集并再次被放大器放大,并再次被扬声器播放,不断循环形成正反馈,当频点满足奈奎斯特不稳定性条件时则会使得信号幅度不断增加并引发啸叫,信号的幅值过大甚至会对音频设备造成严重的破坏。因此,对声反馈进行抑制既能提高系统的扩声性能,又能保证扩声系统的稳定性和安全性。
发明内容
本发明的目的在于克服现有技术中信号的幅值过大以及会对音频设备造成严重破坏的问题。
为达到上述目的,本发明通过下述技术方案实现。
本发明提出了一种基于深度学习的闭环系统声反馈抑制方法,该方法包括:
将离线训练好的闭环系统抑制模型应用在闭环系统中,对输入闭环系统的音频信号进行处理,再馈给闭环系统的发声单元重放,实现声反馈抑制;所述闭环系统抑制模型基于深度学习建立;
对闭环系统进行建模,通过模拟生成声反馈路径单位脉冲响应,并根据单位脉冲响应计算最大稳定增益,以最大稳定增益为依据生成闭环信号;将输入闭环系统的音频信号在开环条件下生成开环目标信号;闭环信号与开环目标信号一起构成模型的平行训练数据,并利用平行训练数据对模型进行训练。
作为上述技术方案的改进之一,所述方法采用离线训练模式对模型进行训练,训练时,包括以下步骤:
步骤一:对声反馈的闭环系统进行建模,根据应用场景模拟生成声学反馈路径单位脉冲响应;
步骤二:基于深度学习建立训练开环系统;根据声学反馈路径单位脉冲响应计算最大稳定增益,以最大稳定增益为依据确定开环系统前馈通道增益,输入音频信号生成开环信号作为训练的目标音频,并在闭环系统中,输入带噪音频信号生成带反馈的带噪带反馈的闭环信号;闭环信号与开环信号一起构成模型的平行训练数据;
步骤三:训练数据的特征提取和深度学习神经网络的目标映射;
步骤四:设计深度学习神经网络结构及超参数;
步骤五:选取合适的损失函数训练模型,得到训练好的闭环系统抑制模型。
作为上述技术方案的改进之一,所述闭环系统包括:正向通路放大模块和时延模块;对声反馈的闭环系统进行建模的表达式为:
y(t)=v(t)+u(t)*f(t)
其中,t为采样时刻,*为卷积运算,v(t)为外部音频信号,u(t)=y(t)*g(t),u(t)为馈给扬声器的时域信号,g(t)为闭环系统前馈通道单位脉冲响应,y(t)为拾取信号,f(t)为声学反馈路径的单位脉冲响应。
作为上述技术方案的改进之一,所述模拟生成声学反馈路径单位脉冲响应,包括:
所述时延模块对闭环系统中的信号作傅里叶变换,表达式为:
Y(ω)=V(ω)+U(ω)F(ω)
U(ω)=Y(ω)G(ω)
其中,ω为角频率,Y(ω)为y(t)的傅里叶变换,F(ω)为f(t)的傅里叶变换,V(ω)为v(t)的傅里叶变换,U(ω)为u(t)的傅里叶变换,G(ω)为g(t)的傅里叶变换,前馈通道中与频率相关的增益统一进反馈通道F(ω)。
作为上述技术方案的改进之一,所述G(ω)设定为常数G,且当G与角频率相关时,闭环系统中的传递函数为:
根据Nyquist系统不稳定判决条件,当回路增益函数满足以下条件时:
其中,∠·表示取相位,|∠·|表示取模值;即在角频率为ω的位置,当回路增益函数模值大于等于1时,且回路增益函数相位角为2π的整数n倍时,扩声系统产生震荡形成啸叫,由此得到闭环系统的最大稳定增益Gmax,表达式为:
Ω={ω|∠(F(ω)exp(-jωτfs))=2nπ}
其中,Ω为满足Nyquist系统不稳定判决相位条件的频点组合,τ为扩声系统中所有信号处理系统延时和自身系统延时,fs为采样频率,j为虚数符号。
作为上述技术方案的改进之一,当所述闭环系统中还包括自适应滤波器模块和后处理模块时,闭环系统中的传递函数表达式为:
其中,为/>的傅里叶变换,/>为自适应滤波模块辨识的反馈通道单位脉冲响应;H(ω)为h(t)的傅里叶变换,h(t)为后处理模块的单位脉冲响应;
当环路增益函数满足以下条件时,带有自适应反馈抵消的闭环系统出现不稳定,即:
此时,闭环系统的最大稳定增益表达式为:
作为上述技术方案的改进之一,所述声学反馈路径模拟生成单位脉冲相应的表达式为:
其中,fenv为调制频率,为随机相位,r(t)为零均值高斯过程,σ为衰减函数,σ≥0,tf表示传递函数进行指数衰减的开启时刻;
在闭环系统中,正向通路放大模块表示为:
g(t)=Gδ(t-τfs)
其中,δ(·)表示狄拉克函数,G的取值范围为:G∈[0.5Gmax,0.999Gmax];
由f(t)、g(t)和v(t)得到未经反馈抑制处理的馈给扬声器的信号u(t)和传声器拾取信号y(t)。
作为上述技术方案的改进之一,所述深度学习神经网络的目标映射包括:
将v(t)和噪声信号n(t)根据一定的信噪比进行混合得到混合后的带噪音频输入信号z(t):
z(t)=v(t)+αn(t)
其中,α为根据信噪比计算得到的注入噪声量;
将z(t)作为闭环系统的输入,得到带噪带反馈信号的信号u(t);将u(t)作为神经网络的输入信号,且映射目标信号s(t)的表达式为:
s(t)=Gv(t-τfs)
分别对u(t)和s(t)作K点短时傅里叶变换,得到二者在时间帧l和频带k处的复数谱U(k,l)和S(k,l),表示式为:
其中,w(t)为窗函数,R为帧移距离;μ为求和变量;
将S(k,l)和U(k,l)表示为实部和虚部的形式:
S(k,l)=Sr(k,l)+iSi(k,l)
U(k,l)=Ur(k,l)+iUi(k,l)
其中,Sr(k,l)、Si(k,l)分别为S(k,l)的实部和虚部,Ur(k,l)、Ui(k,l)分别为U(k,l)的实部和虚部;
采用复数谱映射的学习方式,训练神经网络学习每一个时频单元{Ur(k,l),Ui(k,l)}到{Sr(k,l),Si(k,l)}的映射,该过程表示为:
其中,为深度学习神经网络的映射函数,Φ为网络参数,(·)c表示作压缩操作函数,S为作压缩操作函数的自变量,βc∈[0,1],βc为压缩系数;/>和/>分别为估计信号的压缩复数谱/>的实部和虚部,/>和/>分别为输入特征信号的压缩复数谱的实部和虚部。
作为上述技术方案的改进之一,所述损失函数直接选择估计结果与训练目标之间的均方误差,并在损失函数上对复数谱和幅度谱做限制;
幅度谱和复数谱混合损失函数幅度谱损失函数/>和复数谱损失函数的表达式分别为:
其中,λ为取值在0至1之间的权重系数,||·||F表示Frobenius范数,简称F-范数。
作为上述技术方案的改进之一,所述将训练好的模型应用在闭环系统中时,模型输出为估计信号的压缩复数谱将/>解压恢复为复数谱/>表达式为:
其中,βc为压缩系数;j为虚数符号,∠·表示取相位;
对复数谱做反傅里叶变换,并进行重叠相加,得到估计信号的时域形式
本发明与现有技术相比优点在于:
该方法首先通过模拟反馈路径得到闭环信号,并与开环信号一起构成深度学习的平行训练数据,建立训练数据集;接着采用离线训练模式,利用构建的训练数据集来训练深度学习模型;将训练好的模型应用于闭环系统后,能够有效抑制反馈信号,提高语音质量和可懂度,并显著提升扩声系统增益。
优点一:通过模拟生成声反馈路径单位脉冲响应,无需测量大量的声反馈传输通道;这在助听器应用中有重要意义,这是由于测量大量的声反馈路径单位脉冲响应难度高,工作量大,且难以遍历各种复杂的情况;
优点二:实现了首个基于深度学习的临界稳定系统抑制系统,可同时解决因反馈造成的临界啸叫问题,梳状滤波效应问题以及染色效应问题,实现高质量的音频信号输出;
优点三:同时实现了去噪去反馈,通过闭环生成数据方式,采用离线模型训练,实现了在线闭环系统的去噪去反馈目标,相比于深度去噪方法仅能抑制噪声而无法抑制闭环系统音频段的反馈成分,本方法有明显优势。
附图说明
图1是本发明实施例的算法流程图;
图2是闭环系统的示意图;
图3是加入自适应滤波器模块和后处理模块的闭环系统示意图;
图4是本发明实施例的深度网络模型结构图,以GCCRN为例;
图5是本发明实施例的深度网络模块抑制啸叫的示意图;
图6是在加入自适应滤波器模块和后处理模块的闭环系统后,利用深度网络模块抑制啸叫示意图;
图7是采用本发明方法进行声反馈抑制效果图以及采用其他方法的效果图,其中,图7(a)为目标语音信号频谱图;图7(b)为未有任何反馈抑制的时域信号u(t)频谱图;图7(c)采用自适应反馈抵消方法后的时域信号u(t)频谱图;图7(d)采用频移法后的时域信号u(t)频谱图;图7(e)采用深度降噪方法后的时域信号u(t)频谱图;图7(f)采用本发明方法后的时域信号u(t)频谱图。
具体实施方式
本发明针对扩声系统的声反馈现象,提出基于深度学习的声反馈抑制方法。首先是构造训练集,先模拟生成大量的声学反馈路径单位脉冲响应,以语音和音频信号作为外部音频输入,在开环条件下生成目标音频信号,并在闭环临界稳定条件下生成带反馈的音频信号,再与噪声叠加生成带噪带反馈的音频信号;接着,对带噪带反馈的音频信号进行分帧和特征提取,根据目标音频信号与带噪带反馈的音频信号逐帧逐频点提取学习目标,搭建深度神经网络模型,并采用离线方式训练网络,直至误差收敛到一定的范围,完成模型训练;最后,在实际系统测试及应用阶段,对闭环系统中的带噪带反馈音频信号进行分帧和特征提取,采用已训练的深度神经网络模型对其进行处理,得到目标音频信号时频谱,并重建时域目标音频信号。
本发明提供一种基于深度学习的声反馈抑制方法,该方法针对助听器或者现场扩声等声反馈系统可能存在的啸叫问题,以离线训练方式训练深度神经网络模型,再将模型置于闭环的实际系统中对信号进行反馈抑制,具体步骤包括:
步骤一:对声反馈的闭环系统进行建模,根据应用场景模拟生成声学反馈路径单位脉冲响应;
步骤二:根据声学反馈路径单位脉冲响应计算最大稳定增益,以此为依据生成开环目标音频信号,并在闭环系统中,生成带反馈的音频信号,在音频信号中注入噪声,在闭环系统中同样生成带噪带反馈的音频信号;
步骤三:数据的特征提取和网络的目标映射;
步骤四:设计深度学习网络结构及超参数;
步骤五:选取损失函数,并训练网络;
步骤六:将训练好的模型加入闭环系统中进行声反馈抑制,并重建时域信号。
以下结合实施例进一步说明本发明所提供的技术方案。
实施例1
本发明实施例1的基于深度学习的闭环系统声反馈抑制方法流程图如图1所示,具体实施方式如下:
步骤一:如图2所示,v(t)为外部输入信号,假定为外部音频信号,u(t)为馈给扬声器信号,y(t)为传声器拾取信号,f(t)为声学反馈路径的单位脉冲响应,由此得到:
y(t)=v(t)+u(t)*f(t) (1)
其中t为采样时刻,*为卷积运算,对时域信号作傅里叶变换,有:
其中,ω为角频率。不失一般性,我们假设正向通路增益为全带增益,即G(ω)=G为常数;如果G(ω)=G与频率相关,可将频率相关的部分并入声学反馈路径的频率响应。由此可得到扬声器到传声器的闭环传递函数:
根据Nyquist系统不稳定判决条件,当回路益满足以下条件时:
其中∠·表示取相位,|·|表示取模值。在角频率ω位置,当系统回路增益函数模值大于等于1时,且回路增益函数相位角为2π整数倍时,扩声系统就会在该频率产生震荡,形成啸叫。由此得到闭环系统的临界稳定增益:
其中,τ为扩声系统中所有信号处理系统延时和自身系统延时,单位为秒(s),fs为采样频率,单位为赫兹(Hz)。
当系统中存在自适应滤波器模块和后处理模块h(t)(如相位调制模块和增益控制模块等)时,如图3所示,则式(3)-式(5)修改为:
步骤二:以助听器为例,测量的公开可用的助听器声学反馈路径较少,而深度学习模型需要大量的数据进行训练。为了产生大量的声学反馈路径,本文提出了一种模拟生成的方式,即:
其中,fenv为调制频率,为随机相位,r(t)为零均值高斯过程,σ≥0为衰减函数,引入tf表示从该时刻起传递函数进行指数衰减。
在闭环系统中,正向通路放大模块表示为:
g(t)=Gδ(t-τfs) (10)
其中,δ表示狄拉克(Dirac)函数。在本方法中,为了保证构建的数据不至于无穷大,也不至于全是无反馈的音频信号,G的取值范围为G∈[0.5Gmax,0.999Gmax]。
由式(9)、式(10)和目标信号源v(t)便可以得到未经反馈抑制处理的馈给扬声器的信号u(t)和传声器拾取信号y(t)。
步骤三:将音频信号v(t)和噪声信号n(t)根据一定的信噪比进行混合:
z(t)=v(t)+αn(t) (11)
其中,α为根据信噪比计算得到的注入噪声量。将得到的信号z(t)作为闭环系统的输入,得到带噪带反馈信号的信号u(t),将其作为深度神经网络的输入信号,且映射目标信号为:
s(t)=Gv(t-τfs) (12)
分别对时域信号u(t)和s(t)作K点短时傅里叶变换,得到二者在时间帧l和频带k处的复数谱表示:
其中,w(t)为窗函数,R为帧移距离。将式(13)表示为实部和虚部的形式:
其中,Sr(k,l)、Si(k,l)分别为S(k,l)的实部和虚部,Ur(k,l)、Ui(k,l)分别为U(k,l)的实部和虚部。
在本方法中,我们采用的是复数谱映射的学习方式,即训练神经网络学习每一个时频单元{Ur(k,l),Ui(k,l)}到{Sr(k,l),Si(k,l)}的映射。该过程可表示为:
其中,为神经网络映射函数,Φ为网络参数。(·)c表示对语谱作压缩操作,βc∈[0,1]为压缩系数。/>和/>分别为估计信号的压缩复数谱的实部和虚部,/>和/>分别为输入特征信号的压缩复数谱的实部和虚部。
步骤四:深度神经网络框架的设计。本步骤可以采用卷积循环网络(RNN)及其变体(LSTM,GRU等)以及卷积循环网络(CRN)等网络框架。在本方法中采用的是GCCRN网络,该网络由三部分构成,分别为卷积编码器(Encoder block)、分组长短时记忆模块(GLSTM)和两个卷积解码器(Decoder block),如图4所示。编码器一共包括5个卷积模块,每一个卷积模块包括二维卷积层(Conv)、批归一化层(BN)和指数线性激活(ELU)单元。在解码器端,本发明采用与编码部分相似的卷积模块。解码部分为两个解码器,每个解码器包括5个反卷积块,每个卷积块包括反卷积层(Conv-Trans)、批归一化层和指数线性激活单元。为了补充编码部分由于特征维压缩引起的信息损失,本发明引入跳跃连接(Skip Connection),将解码块的特征与对应编码端的特征在通道维度上堆叠并送入下一个反卷积块。在反馈系统中,上下帧的信号之间均存在因果关系,为了保证系统的正常运行,我们采用了因果卷积,确保当前帧的计算只与过去时刻帧的计算有关,而不涉及到未来帧的信息。在fs=16000Hz,K=320情况下,具体的网络参数设置与维度变化如表1所示。表1是具体的网络参数设置和维度变化。
表1
其中,卷积层的参数以卷积核,通道数、跳跃值形式表示,输入和输出尺寸以通道数、时间维、特征维的形式表示。此外,设置网络的训练批次为16,迭代次数为30次,使用学习率为1.0×10-3和衰减率为1.0×10-7的Adam优化器对网络训练进行优化,并开始训练。这里的深度神经网络可采用其他网络形式,如基于幅度映射的深度神经网络,基于实或者复掩膜映射的深度神经网络;采用浅层神经网络也可实现该目标,依然是本发明的简单延申。采用本发明提出的平行数据构造方法,以及离线训练,在线应用模式,即便采用时域深度神经网络模型,也是本发明的简单延申。本实施案例采用的是基于深度学习建立网络模型,实际上,基于其他机器学习的方法也可以,采用其他机器学习方法也受本发明保护。
步骤五:损失函数可以直接选择估计结果与训练目标之间的均方误差(MeanSquared Error,MSE)。研究表明,在损失函数上同时对复数谱和幅度谱做限制可以有效地提升语音或音频的质量,即:
其中,λ为取值在0至1之间的权重系数,通常取0.5,在低信噪比场景,λ应趋近于0,高信噪比场景,λ应趋近于1.0。当采用幅度谱映射网络时,λ取值为0;采用其他损失函数,如SI-SDR等,依然是本发明的简单延申。
步骤六:将训练好的神经网络加入闭环系统中抑制声反馈,如图5和图6所示。神经网络的输出为估计信号的压缩复数谱需要对其解压缩恢复为复数谱:
对复数谱做反傅里叶变换和重叠相加便可得到估计信号的时域形式
本发明涉及闭环系统如助听器系统和现场扩声系统的声反馈抑制,生成专用训练数据集并设计深度神经网络架构以实现闭环系统临界稳定状态下的声反馈抑制。该方法通过模拟生成大量的声学反馈路径单位脉冲响应来生成闭环反馈信号,同时结合噪声数据生成大量的训练数据集并完成模型训练,该模型应用于闭环系统能够有效抑制反馈信号,提高语音质量和可懂度,并显著提升扩声系统增益。该方法的创新之处是首先通过模拟反馈路径得到闭环信号,并与开环信号一起构成深度学习的平行训练数据,建立训练数据集;接着采用离线训练模式,利用构建的训练数据集来训练深度学习模型;最后将其应用在闭环系统中实现声反馈抑制。
如图7所示,为采用本方法进行声反馈抑制效果图以及采用其他方法的效果图,具体地:图7(a)为目标语音信号频谱图;图7(b)为未有任何反馈抑制的时域信号u(t)频谱图;图7(c)采用自适应反馈抵消方法后的时域信号u(t)频谱图;图7(d)采用频移法后的时域信号u(t)频谱图;图7(e)采用深度降噪方法后的时域信号u(t)频谱图;图7(f)采用本专利提出的方法后的时域信号u(t)频谱图。
从上述对本发明的具体描述可以看出,本发明将训练好的闭环系统生反馈抑制模型应用于闭环系统后,能够有效抑制反馈信号,提高语音质量和可懂度,并显著提升扩声系统增益。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (9)
1.一种基于深度学习的闭环系统声反馈抑制方法,该方法包括:
将离线训练好的闭环系统抑制模型应用在闭环系统中,对输入闭环系统的音频信号进行处理,再馈给闭环系统的发声单元重放,实现声反馈抑制;所述闭环系统抑制模型基于深度学习建立;
对闭环系统进行建模,通过模拟生成声反馈路径单位脉冲响应,并根据单位脉冲响应计算最大稳定增益,以最大稳定增益为依据生成闭环信号;将输入闭环系统的音频信号在开环条件下生成开环目标信号;闭环信号与开环目标信号一起构成模型的平行训练数据,并利用平行训练数据对模型进行训练;
所述方法采用离线训练模式对模型进行训练,训练时,包括以下步骤:
步骤一:对声反馈的闭环系统进行建模,根据应用场景模拟生成声学反馈路径单位脉冲响应;
步骤二:基于深度学习建立训练开环系统;根据声学反馈路径单位脉冲响应计算最大稳定增益,以最大稳定增益为依据确定开环系统前馈通道增益,输入音频信号生成开环信号作为训练的目标音频,并在闭环系统中,输入带噪音频信号生成带反馈的带噪带反馈的闭环信号;闭环信号与开环信号一起构成模型的平行训练数据;
步骤三:训练数据的特征提取和深度学习神经网络的目标映射;
步骤四:设计深度学习神经网络结构及超参数;
步骤五:选取合适的损失函数训练模型,得到训练好的闭环系统抑制模型。
2.根据权利要求1所述的基于深度学习的闭环系统声反馈抑制方法,其特征在于,所述闭环系统包括:正向通路放大模块和时延模块;对声反馈的闭环系统进行建模的表达式为:
y(t)=v(t)+u(t)*f(t)
其中,t为采样时刻,*为卷积运算,v(t)为外部音频信号,u(t)=y(t)*g(t),u(t)为馈给扬声器的时域信号,g(t)为闭环系统前馈通道单位脉冲响应,y(t)为拾取信号,f(t)为声学反馈路径的单位脉冲响应。
3.根据权利要求2所述的基于深度学习的闭环系统声反馈抑制方法,其特征在于,所述模拟生成声学反馈路径单位脉冲响应,包括:
所述时延模块对闭环系统中的信号作傅里叶变换,表达式为:
Y(ω)=V(ω)+U(ω)F(ω)
U(ω)=Y(ω)G(ω)
其中,ω为角频率,Y(ω)为y(t)的傅里叶变换,F(ω)为f(t)的傅里叶变换,V(ω)为v(t)的傅里叶变换,U(ω)为u(t)的傅里叶变换,G(ω)为g(t)的傅里叶变换,前馈通道中与频率相关的增益统一进反馈通道F(ω)。
4.根据权利要求3所述的基于深度学习的闭环系统声反馈抑制方法,其特征在于,所述G(ω)设定为常数G,且当G与角频率相关时,闭环系统中的传递函数为:
根据Nyquist系统不稳定判决条件,当回路增益函数满足以下条件时:
其中,∠·表示取相位,|·|表示取模值;即在角频率为ω的位置,当回路增益函数模值大于等于1时,且回路增益函数相位角为2π的整数n倍时,扩声系统产生震荡形成啸叫,由此得到闭环系统的最大稳定增益Gmax,表达式为:
Ω={ω|∠(F(ω)exp(-jωτfs))=2nπ}
其中,Ω为满足Nyquist系统不稳定判决相位条件的频点组合,τ为扩声系统中所有信号处理系统延时和自身系统延时,fs为采样频率,j为虚数符号。
5.根据权利要求4所述的基于深度学习的闭环系统声反馈抑制方法,其特征在于,当所述闭环系统中还包括自适应滤波器模块和后处理模块时,闭环系统中的传递函数表达式为:
其中,为/>的傅里叶变换,/>为自适应滤波模块辨识的反馈通道单位脉冲响应;H(ω)为h(t)的傅里叶变换,h(t)为后处理模块的单位脉冲响应;
当回路增益函数满足以下条件时,带有自适应反馈抵消的闭环系统出现不稳定,即:
此时,闭环系统的最大稳定增益表达式为:
6.根据权利要求5所述的基于深度学习的闭环系统声反馈抑制方法,其特征在于,所述声学反馈路径模拟生成单位脉冲相应的表达式为:
其中,fenv为调制频率,为随机相位,r(t)为零均值高斯过程,σ为衰减函数,σ≥0,tf表示传递函数进行指数衰减的开启时刻;
在闭环系统中,正向通路放大模块表示为:
g(t)=Gδ(t-τfs)
其中,δ(·)表示狄拉克函数,G的取值范围为:G∈[0.5Gmax,0.999Gmax];
由f(t)、g(t)和v(t)得到未经反馈抑制处理的馈给扬声器的信号u(t)和传声器拾取信号y(t)。
7.根据权利要求6所述的基于深度学习的闭环系统声反馈抑制方法,其特征在于,所述深度学习神经网络的目标映射包括:
将外部音频信号v(t)和噪声信号n(t)根据一定的信噪比进行混合得到混合后的带噪音频输入信号z(t):
z(t)=v(t)+αn(t)
其中,α为根据信噪比计算得到的注入噪声量;
将z(t)作为闭环系统的输入,得到带噪带反馈信号的信号u(t);将u(t)作为神经网络的输入信号,且映射目标信号s(t)的表达式为:
s(t)=Gv(t-τfs)
分别对u(t)和s(t)作K点短时傅里叶变换,得到二者在时间帧l和频带k处的复数谱U(k,l)和S(k,l),表示式为:
其中,w(t)为窗函数,R为帧移距离;μ为求和变量;
将S(k,l)和U(k,l)表示为实部和虚部的形式:
S(k,l)=Sr(k,l)+iSi(k,l)
U(k,l)=Ur(k,l)+iUi(k,l)
其中,Sr(k,l)、Si(k,l)分别为S(k,l)的实部和虚部,Ur(k,l)、Ui(k,l)分别为U(k,l)的实部和虚部;
采用复数谱映射的学习方式,训练神经网络学习每一个时频单元{Ur(k,l),Ui(k,l)}到{Sr(k,l),Si(k,l)}的映射,该过程表示为:
其中,为深度学习神经网络的映射函数,Φ为网络参数,(·)c表示作压缩操作函数,S为S(k,l)的简写,βc∈[0,1],βc为压缩系数;/>和/>分别为估计信号的压缩复数谱的实部和虚部,/>和/>分别为输入特征信号的压缩复数谱的实部和虚部。
8.根据权利要求7所述的基于深度学习的闭环系统声反馈抑制方法,其特征在于,所述损失函数直接选择估计结果与训练目标之间的均方误差,并在损失函数上对复数谱和幅度谱做限制;
幅度谱和复数谱混合损失函数幅度谱损失函数/>和复数谱损失函数/>的表达式分别为:
其中,λ为取值在0至1之间的权重系数,||·||F表示Frobenius范数,简称F-范数。
9.根据权利要求1所述的基于深度学习的闭环系统声反馈抑制方法,其特征在于,将训练好的模型应用在闭环系统中时,模型输出为估计信号的压缩复数谱将/>解压恢复为复数谱/>表达式为:
其中,βc为压缩系数;j为虚数符号,∠·表示取相位;
对复数谱做反傅里叶变换,并进行重叠相加,得到估计信号的时域形式
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210825168.0A CN115243162B (zh) | 2022-07-14 | 2022-07-14 | 一种基于深度学习的闭环系统声反馈抑制方法 |
US17/895,655 US20240022864A1 (en) | 2022-07-14 | 2022-08-25 | Deep learning-based method for acoustic feedback suppression in closed-loop system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210825168.0A CN115243162B (zh) | 2022-07-14 | 2022-07-14 | 一种基于深度学习的闭环系统声反馈抑制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115243162A CN115243162A (zh) | 2022-10-25 |
CN115243162B true CN115243162B (zh) | 2023-09-29 |
Family
ID=83674002
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210825168.0A Active CN115243162B (zh) | 2022-07-14 | 2022-07-14 | 一种基于深度学习的闭环系统声反馈抑制方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20240022864A1 (zh) |
CN (1) | CN115243162B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115881148B (zh) * | 2022-11-15 | 2024-01-26 | 中国科学院声学研究所 | 一种基于深度学习的声反馈抵消方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4088835A (en) * | 1977-02-07 | 1978-05-09 | Rauland-Borg Corporation | Comprehensive feedback elimination system employing notch filter |
CN101320996A (zh) * | 2008-05-27 | 2008-12-10 | 中山大学 | 一种自适应噪声消除装置及方法 |
CN103475980A (zh) * | 2013-07-19 | 2013-12-25 | 杭州联汇数字科技有限公司 | 一种自适应声反馈消除方法 |
CN110234051A (zh) * | 2019-06-27 | 2019-09-13 | 中科上声(苏州)电子有限公司 | 一种基于深度学习的防啸叫扩声方法及系统 |
CN111081268A (zh) * | 2019-12-18 | 2020-04-28 | 浙江大学 | 一种相位相关的共享深度卷积神经网络语音增强方法 |
CN111526469A (zh) * | 2020-04-30 | 2020-08-11 | 成都千立网络科技有限公司 | 一种基于神经网络的扩声系统啸叫点检测方法 |
CN111833896A (zh) * | 2020-07-24 | 2020-10-27 | 北京声加科技有限公司 | 融合反馈信号的语音增强方法、系统、装置和存储介质 |
CN113921023A (zh) * | 2021-12-14 | 2022-01-11 | 北京百瑞互联技术有限公司 | 一种蓝牙音频啸叫抑制方法、装置、介质及蓝牙设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7742608B2 (en) * | 2005-03-31 | 2010-06-22 | Polycom, Inc. | Feedback elimination method and apparatus |
-
2022
- 2022-07-14 CN CN202210825168.0A patent/CN115243162B/zh active Active
- 2022-08-25 US US17/895,655 patent/US20240022864A1/en active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4088835A (en) * | 1977-02-07 | 1978-05-09 | Rauland-Borg Corporation | Comprehensive feedback elimination system employing notch filter |
CN101320996A (zh) * | 2008-05-27 | 2008-12-10 | 中山大学 | 一种自适应噪声消除装置及方法 |
CN103475980A (zh) * | 2013-07-19 | 2013-12-25 | 杭州联汇数字科技有限公司 | 一种自适应声反馈消除方法 |
CN110234051A (zh) * | 2019-06-27 | 2019-09-13 | 中科上声(苏州)电子有限公司 | 一种基于深度学习的防啸叫扩声方法及系统 |
CN111081268A (zh) * | 2019-12-18 | 2020-04-28 | 浙江大学 | 一种相位相关的共享深度卷积神经网络语音增强方法 |
CN111526469A (zh) * | 2020-04-30 | 2020-08-11 | 成都千立网络科技有限公司 | 一种基于神经网络的扩声系统啸叫点检测方法 |
CN111833896A (zh) * | 2020-07-24 | 2020-10-27 | 北京声加科技有限公司 | 融合反馈信号的语音增强方法、系统、装置和存储介质 |
CN113921023A (zh) * | 2021-12-14 | 2022-01-11 | 北京百瑞互联技术有限公司 | 一种蓝牙音频啸叫抑制方法、装置、介质及蓝牙设备 |
Also Published As
Publication number | Publication date |
---|---|
CN115243162A (zh) | 2022-10-25 |
US20240022864A1 (en) | 2024-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109065067B (zh) | 一种基于神经网络模型的会议终端语音降噪方法 | |
US20190222691A1 (en) | Data driven echo cancellation and suppression | |
CN108200522B (zh) | 一种变正则化比例归一化子带自适应滤波方法 | |
Mirsamadi et al. | Causal speech enhancement combining data-driven learning and suppression rule estimation. | |
CN115243162B (zh) | 一种基于深度学习的闭环系统声反馈抑制方法 | |
CN113870874A (zh) | 基于自注意力变换网络的多特征融合回声消除方法及系统 | |
JP3507020B2 (ja) | 反響抑圧方法、反響抑圧装置及び反響抑圧プログラム記憶媒体 | |
CN105721729B (zh) | 基于块稀疏成比例重用权系数仿射投影的回声消除方法 | |
Peng et al. | ICASSP 2021 acoustic echo cancellation challenge: Integrated adaptive echo cancellation with time alignment and deep learning-based residual echo plus noise suppression | |
JP5016581B2 (ja) | エコー抑圧装置、エコー抑圧方法、エコー抑圧プログラム、記録媒体 | |
TWI819478B (zh) | 具端至端神經網路之聽力裝置及音訊處理方法 | |
CN115175063A (zh) | 啸叫抑制方法、装置、音响及扩音系统 | |
US6252968B1 (en) | Acoustic quality enhancement via feedback and equalization for mobile multimedia systems | |
Nuha et al. | Noise Reduction and Speech Enhancement Using Wiener Filter | |
CN112634927B (zh) | 一种短波信道语音增强方法 | |
Zhang et al. | Hybrid AHS: A hybrid of Kalman filter and deep learning for acoustic howling suppression | |
CN115278465A (zh) | 啸叫抑制方法、装置、音响及扩音系统 | |
CN115881148B (zh) | 一种基于深度学习的声反馈抵消方法 | |
JP5937451B2 (ja) | エコー消去装置、エコー消去方法及びプログラム | |
Biradar et al. | Implementation of an Active Noise Cancellation Technique using Deep Learning | |
Zhang et al. | Advancing acoustic howling suppression through recursive training of neural networks | |
CN116233697B (zh) | 一种基于深度学习的声反馈的抑制方法及系统 | |
KR20200128684A (ko) | 오디오 노이즈 감소 방법 및 장치 | |
Goswami et al. | A novel approach for design of a speech enhancement system using NLMS adaptive filter and ZCR based pattern identification | |
Jiang et al. | An integration development of traditional algorithm and neural network for active noise cancellation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |