CN116233697A - 一种基于深度学习的声反馈的抑制方法及系统 - Google Patents
一种基于深度学习的声反馈的抑制方法及系统 Download PDFInfo
- Publication number
- CN116233697A CN116233697A CN202210408816.2A CN202210408816A CN116233697A CN 116233697 A CN116233697 A CN 116233697A CN 202210408816 A CN202210408816 A CN 202210408816A CN 116233697 A CN116233697 A CN 116233697A
- Authority
- CN
- China
- Prior art keywords
- deep learning
- network model
- acoustic
- tensor
- acoustic feedback
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013135 deep learning Methods 0.000 title claims abstract description 112
- 230000001629 suppression Effects 0.000 title claims abstract description 50
- 238000000034 method Methods 0.000 title claims abstract description 43
- 239000011159 matrix material Substances 0.000 claims abstract description 41
- 239000013598 vector Substances 0.000 claims abstract description 38
- 230000005764 inhibitory process Effects 0.000 claims abstract description 27
- 230000005236 sound signal Effects 0.000 claims abstract description 20
- 230000003321 amplification Effects 0.000 claims abstract description 11
- 238000003199 nucleic acid amplification method Methods 0.000 claims abstract description 11
- 230000009466 transformation Effects 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims description 30
- 238000013507 mapping Methods 0.000 claims description 14
- 238000005070 sampling Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 125000004122 cyclic group Chemical group 0.000 claims description 5
- 230000009191 jumping Effects 0.000 claims description 2
- 238000001228 spectrum Methods 0.000 description 20
- 230000006870 function Effects 0.000 description 11
- 230000006872 improvement Effects 0.000 description 8
- 230000000873 masking effect Effects 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000001364 causal effect Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/02—Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T90/00—Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Otolaryngology (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Amplifiers (AREA)
Abstract
本发明涉及扩声系统领域,特别涉及一种基于深度学习的声反馈的抑制方法及系统;所述方法包括:步骤1)采集闭环扩声系统中的原始真实声音信号,并基于傅里叶变换,获得真实声音张量矩阵;步骤2)将真实声音张量矩阵输入至预先训练好的第一深度学习网络模型中,通过训练好的第一深度学习网络模型提取真实声音张量矩阵中的特征向量,并基于所述特征向量进声反馈抑制;其中,所述第一深度学习网络模型通过开环数据集进行训练;步骤3)将所述声反馈抑制后的真实张量矩阵进行傅里叶逆变换,获得声反馈抑制后的声音信号并将其输入至闭环的扩声系统中,所述闭环的扩声系统为存在反馈通路的扩声系统;本发明够有效抑制声反馈,普适性强,应用范围广泛。
Description
技术领域
本发明涉及扩声系统领域,特别涉及一种基于深度学习的声反馈的抑制方法及系统。
背景技术
扩声系统广泛应用于音乐厅、教室、会议室等场景。在扩声系统中,至少存在三个基本单元,包括传声器、声音放大器以及声重放单元扬声器,其工程流程可以简单归纳为:传声器完成声电转换,经过放大器将声信号放大,并经过扬声器进行声重放,以完成电声转换,如图1所示。由此可见,助听器系统、辅听系统和对讲机都属于扩声系统。当扬声器播放的声信号被传声器拾取,形成声电转换—电路放大—电声转换—声反馈—声电转换闭环系统。声反馈不仅会影响声信号质量,影响主观听觉感受,其引发的啸叫还可能毁坏电子设备,产生不可逆的系统损伤。因此,对声反馈进行抑制既能提高系统的扩声性能,又能保证扩声系统的稳定性和安全性。
传统的声反馈抑制算法,如陷波法,陷波法就是要在声反馈系统的极点频率插入一个陷波滤波器,抑制极点的增益,使之无法达到啸叫的增益条件;因此陷波法需要分成两步:第一步,啸叫检测,将产生啸叫的频率找出来;第二步,啸叫抑制,在找出来的啸叫频率设计陷波滤波器,并对麦克风信号进行滤波;其抑制性能依赖于啸叫检测算法性能。
但是,陷波滤波器一般利用快速傅里叶变换算法(FFT算法)、CZT变换或选带傅里叶变换(Zoom-FFT)分析高分辨频谱分析来查找啸点,其啸叫检测算法非常复杂,在实际应用会出现虚警和漏警的情况;当出现虚警,语音和音频质量下降;当出现漏警,声反馈不能得到有效抑制。近几年基于深度学习(Deep Learning)的单通道语音增强算法得到了广泛研究,通过监督式学习,纯净语音可以从带噪信号中提取出来,但是目前还没有基于深度学习的声反馈的抑制方法及系统。
发明内容
本发明的目的在于,克服现有声反馈抑制方法中啸叫检测算法复杂,难以查找啸点,并且经常出现虚警和漏警情况的问题,从而提出一种基于深度学习的声反馈的抑制方法及系统。
本发明提供的一种基于深度学习的声反馈的抑制方法,以开环数据为训练集训练模型,再将模型置于闭环的实际系统中对信号进行反馈抑制,具体步骤包括:
步骤1)采集闭环扩声系统中的原始真实声音信号,并基于傅里叶变换,获得真实声音张量矩阵;
步骤2)将真实声音张量矩阵输入至预先训练好的第一深度学习网络模型中,通过训练好的第一深度学习网络模型提取真实声音张量矩阵中的特征向量,并基于所述特征向量进声反馈抑制;其中,所述第一深度学习网络模型通过开环数据集进行训练;
步骤3)将所述声反馈抑制后的真实张量矩阵进行傅里叶逆变换,获得声反馈抑制后的声音信号并将其输入至闭环的扩声系统中,所述闭环的扩声系统为存在反馈通路的扩声系统。
作为上述方法的一种改进,所述开环数据集的构造过程包括:
在开环的所述扩声系统中,获取n个采样时刻的测试语音和音频信号,在每条所述测试原始语音和音频信号上随机叠加1至N个频率在fL,fH Hz的单频信号,以获得n个模拟啸叫混合信号z n,并将其构造成所述开环数据集;其中,所述开环的扩声系统为没有反馈通路的扩声系统;
所述模拟啸叫混合信号z n为:
叠加的第i个所述单频信号di n采用下式生成:
作为上述方法的一种改进,所述第i个单频信号的幅度值αi n随着采样时刻n变化或者为恒定值;所述单频信号的个数N的取值为10。
作为上述方法的一种改进,所述第一深度学习网络模型的训练过程包括:
将每条所述模拟啸叫混合信号z n进行傅里叶变换,以获得对应的模拟啸叫混合张量;将所述测试语音和音频信号进行相同形式的傅里叶变换,以获得映射目标张量;
在开环扩声系统中,所述第一深度学习网络模型将所述映射目标张量作为学习目标,利用模拟啸叫混合张量和映射目标张量进行训练,以提取模拟啸叫特征向量并获得声反馈抑制后的模拟啸叫混合张量;
将所述声反馈抑制后的模拟啸叫混合张量作为下次训练的模拟啸叫混合张量,并重新训练,直至所述声反馈抑制后的模拟啸叫混合张量与所述模拟啸叫混合张量之间的误差收敛至预设的范围,获得所述训练好的第一深度学习网络模型以及所述训练好的第一深度学习网络模型的参数集合;并将最后一次训练中提取的模拟啸叫特征向量作为特征向量。
作为上述方法的一种改进,步骤3)之前还包括:将所述训练好的第一深度学习网络模型进行声反馈抑制后的真实声音张量矩阵输入至预先训练好的第二深度学习网络模型,通过所述训练好的第二深度学习网络模型提取其中的优化特征向量,并基于优化特征向量进行声反馈抑制,以优化的所述声反馈抑制后的真实张量矩阵。
作为上述方法的一种改进,所述第二深度学习网络模型的训练过程包括:
在开环扩声系统中,将所述第一深度学习网络模型输出的声反馈抑制后的模拟啸叫混合张量作为输入张量,输入至所述第二深度学习网络模型中;
所述第二深度学习网络模型,以所述映射目标张量作为学习目标,利用所述输入张量进行训练,以提取特征向量并获得优化的声反馈抑制后的模拟啸叫混合张量;
将所述优化的声反馈抑制后的模拟啸叫混合张量作为下次训练的输入张量,并重新训练,直至所述优化的声反馈抑制后的模拟啸叫混合张量与所述输入张量之间的误差收敛至预设的范围,获得所述训练好的第二深度学习网络模型以及所述训练好的第二深度学习网络模型的参数集合;并将最后一次训练中提取的特征向量作为优化特征向量。
作为上述方法的一种改进,所述第一深度学习网络模型采用非线性深度学习网络模型,其中,所述非线性深度学习网络模型包括:
RNN卷积循环网络模型、RNN变体卷积循环网络模型或CRN卷积循环网络模型,其中,所述RNN变体卷积循环网络模型包括:LSTM卷积循环网络模型和GRU卷积循环网络模型。
作为上述方法的一种改进,所述第一深度学习网络模型采用CRN卷积循环网络模型;所述CRN卷积循环网络模型包括:卷积编码器、长短时记忆模块和两个卷积解码器;其中,
所述卷积编码器分别与所述长短时记忆模块和两个卷积解码器连接;所述长短时记忆模块还分别与所述两个卷积解码器连接;其中,所述卷积编码器分别与两个卷积解码器跳跃连接;其中,
所述卷积编码器包括:五个串联的卷积模块;每个所述卷积模块包括:二维卷积层、批归一化层和指数线性激活单元;
所述长短时记忆模块包括:双层LSTM长短时单元,
所述卷积解码器包括:五个串联的反卷积模块;每个所述反卷积模块包括:反卷积层、批归一化层和指数线性激活单元。
为实现本发明再一目的,本发明提供一种基于深度学习的声反馈的抑制系统,用于执行上述基于深度学习的声反馈的抑制方法,所述系统包括:采集模块、傅里叶变换模块、训练好的第一深度学习网络模型和傅里叶逆变换模块;其中,
所述采集模块,用于采集闭环扩声系统中的原始真实声音信号;
所述傅里叶变换模块,用于将所述原始真实声音信号进行傅里叶变换,并获得真实声音张量矩阵;
所述训练好的第一深度学习网络模型,用于提取所述真实声音张量矩阵中的特征向量,并基于特征向量进声反馈抑制;其中,所述第一深度学习网络模型通过开环数据集进行训练;
所述傅里叶逆变换模块,用于将所述声反馈抑制后的真实张量矩阵进行傅里叶逆变换,以获得声反馈抑制后的声音信号并将其输入至闭环的扩声系统中,其中,所述闭环的扩声系统为存在反馈通路的扩声系统。
作为上述系统的一种改进,所述系统还包括训练好的第二深度学习网络模型,其中,
所述训练好的第二深度学习网络模型,用于提取所述训练好的第一深度学习网络模型进行声反馈抑制后的真实声音张量矩阵中的优化特征向量,并基于优化特征向量进行声反馈抑制,以优化的声反馈抑制后的真实张量矩阵。
本发明提供的基于深度学习的声反馈的抑制方法及系统包括以下优点:
1)本发明可以用于语音扩声系统、音乐扩声系统、语音和音乐扩声兼用系统、助听器、辅听设备和对讲机中并进行声反馈抑制,应用范围广泛;
2)本发明通过构造的专用训练数据集,即开环数据集训练深度学习网络模型,使深度学习网络模型提取并抑制声反馈;在构造开环数据集时,使用了大量的语音和音频数据,并生成多个频率随机的单频信号线性组合,同时结合噪声数据生成大量的开环数据集,用于训练深度学习网络模型模型,该模型能够有效抑制声反馈,当反馈被抑制,没有啸叫信号,语音质量和可懂度自然提高了;系统没有啸叫,可以将系统音量调更大,就可以提高系统增益。
3)本发明通过构造开环数据集来训练深度声反馈抑制网络,并将其应用在闭环系统实现声反馈抑制,在训练阶段就解耦反馈通道,使得训练的模型具有更强的普适性,测试结果表明本专利所提的方法适用于各种类型的反馈通道。
附图说明
图1是声反馈在闭环扩声系统中形成的示意图;
图2是深度学习网络模块在闭环扩声系统中抑制声反馈的示意图;
图3是深度学习网络模型的训练及应用流程图;
图4是CRN卷积循环网络模型的框架图;
图5是深度学习网络模型的卷积编码器示意图;
图6是深度学习网络模型的卷积解码器示意图。
具体实施方式
以下结合实施例进一步说明本发明所提供的技术方案。
如图3所示,本发明提出的基于深度学习的声反馈抑制方法及系统,首先构造训练集对模型进行训练,训练集是由纯净语音和音频信号与若干不同频率的单频信号线性组合叠加;接着,混合信号与原始纯净语音和音频信号进行特征提取和学习目标的计算来训练网络,直至误差收敛到一定的范围,完成模型训练;最后,在实际系统测试及应用阶段,对闭环中反馈信号分帧并进行相应的特征提取,采用已训练的网络对传声器拾取信号进行处理,得到纯净语音和音频信号相关参数的估计。
如图1所示,s n为目标信号源(即原始语音信号),y n为扬声器信号,x n为传声器拾取信号,w n为声反馈信号,h n为声学反馈路径的单位脉冲响应,G为正向通路增益,由此得到:
x(n)=s(n)+w(n)
w(n)=h(n)*y(n)
y(n)=Gx(n)
其中n为采样时刻,*为卷积运算,对时域信号作z变换,有:
X(z)=S(z)+W(z)
W(z)=H(z)Y(z)
Y(z)=GX(z)
其中,S z,Y z,X z,W z,H z分别为s n,y n,x n,w n,h n的z变换。由此,可得:
其中GH z为系统开环增益函数,G/1GHz为声源到扬声器的闭环传递函数。由此可知,闭环系统存在极点,当极点分布在单位圆外时,系统是不稳定的。而啸叫是不稳定闭环系统产生的一种现象,根据Nyquist系统不稳定判决条件,当开环增益满足以下条件时:
其中∠·表示取相位,|·|表示取模值,ω为角频率,z=ejω为z变换在单位圆上的取值,即在角频率ω位置,当系统开环增益函数模值大于1时,且开环增益函数相位角为2π整数倍时,扩声系统就会在该频率产生震荡,形成啸叫。
本发明提供的基于深度学习的声反馈的抑制方法,用于抑制扩声系统中的啸叫,如图2所示,具体包括以下步骤:
步骤1)采集闭环扩声系统中的原始真实声音信号,并基于傅里叶变换,获得真实声音张量矩阵;
步骤2)将真实声音张量矩阵输入至预先训练好的第一深度学习网络模型中,并通过训练好的第一深度学习网络模型提取真实声音张量矩阵中的特征向量,并基于所述特征向量进声反馈抑制;其中,所述第一深度学习网络模型通过开环数据集进行训练;
步骤3)将所述声反馈抑制后的真实张量矩阵进行傅里叶逆变换,获得声反馈抑制后的声音信号并将其输入至闭环扩声系统中。
由上述描述可知,当系统满足Nyquist闭环不稳定判决条件时,角频率ω的频谱成分会被不断放大形成啸叫,所以啸叫信号可以看作是目标信号叠加上若干不同频率的单频信号。本方法在构造开环数据集时,对开环扩声系统中的每条原始语音和音频随机叠加1至N个频率在fL,fH Hz的单频信号来模拟啸叫信号,其中fL=20,fs为采样率。将目标表示为s n,叠加的第i个单频信号表示为di n,模拟的有啸叫的信号z n表示为:
其中,M为1至N之间的整数,在构造数据集时,M必须足够随机;N的典型取值为10;di n采用下式生成:
在训练第一深度学习网络模型时,将生成的开环数据集作为时域信号,对其中的每条混合信号z n进行短时傅里叶变换(STFT)得到复频谱。分别用Z k,l,S k,l,Di k,l表示z n、s n、di n在时间帧l和频带k处的复频谱,则:
假设扩声系统的采样率为fs Hz,对于每一帧信号,窗长为twms,相邻帧重合50%。对每一帧混合信号用fstw点快速傅里叶变换(FFT,Fast Fourier Transform)提取幅度谱,由此得到若干维度为的矩阵。此外,研究表明,信号的相位信息可以提升语音和音频质量。因此,也可以对每一帧的混合信号用fstw点FFT提取复数谱,将上述得到的复数矩阵组合成三维的张量。以B为一个小批次,每次将B条语音的三维张量进行拼接,形成四维张量。以上述的混合语音的张量作为网络输入。以16kHz采样率的语音信号为例,fs=16000,tw典型取值为20或者32,对应于帧长为320或者512点,相应的T取值为161或者257。B的典型取值为16或者32。
网络的训练目标可采用目标的时频谱和时频掩蔽两种方式。目标信号的时频谱提取与上述对混合信号提取的方式一致,可以是提取到的幅度谱或复数谱,但须和混合信号的提取方式一致。时频掩蔽的设计是受心理声学中的掩蔽效应所启发的。在时间和频率相近的两个声信号中,能量低的信号会被能量高的信号掩蔽。在语音增强中,估计的时频掩蔽须再乘以混合语音的时频谱,最终得到估计的目标信号时频谱。时频掩蔽又可分为理想二值掩蔽(Ideal Binary Mask,IBM)、理想浮值掩蔽(Ideal Ratio Mask,IRM)和复数理想浮值掩蔽(Complex Ideal Ratio Mask,cIRM)。理想二值掩蔽是在监督式语音增强中最先被使用的时频掩蔽,其表达式为:
当时频单元的信噪比超过阈值LC时,IBM值置为1,否则置为0。因此,IBM在本质上判断一个时频单元是目标信号主导还是噪声主导,对IBM的估计可以认为是一个监督性二分类问题。IRM表达式为:
β为缩放因子,通常取0.5。IBM与IRM都只考虑了信号的幅度信息,而忽略了相位信息。因此,cIRM被提出来同时提取信号的幅度信息和相位信息。以目标信号s n为例,其时频谱的实部与虚部和幅度与相位之间存在以下关系:
S k,l=Sr k,l+iSi k,l
S k,l=|S k,l|cosαk,l+i|S k,l|sinαk,l
其中,Sr k,l与Si k,l分别为S k,l的实部和虚部,|S k,l|和αk,l分别表示取S k,l的幅度和相位。由此可以看出,对信号的实部成分和虚部成分进行增强等同于对幅度与相位进行增强。cIRM的表达式为:
其中Zr k,l与Zi k,l分别为Z k,l的实部和虚部。
本发明通过第一深度学习网络模块抑制啸叫,第一深度学习网络模块采用非线性的深度学习网络模块,包括:卷积循环网络(RNN)及其变体(LSTM,GRU等)以及卷积循环网络(CRN)等网络框架。以卷积循环网络(CRN)为例,其由三部分构成,分别为卷积编码器、长短时记忆模块和两个卷积解码器,如图4所示。编码器一共包括五个卷积模块,每一个卷积模块包括二维卷积层(Conv-2D)、批归一化层(BatchNorm)和指数线性激活(ELU)单元,如图5所示。实验表明批归一化层有利于加快网络的训练和收敛。相比于流形线性单元,指数线性单元具有更好的网络泛化性能。在时序建模部分,本发明采用长短时单元(LSTM),这是因为考虑到语音和音频信号都存在较强的时序相关性,而常规的卷积很难捕获这种强关联性;而由于长短时单元能沿着时间维度迭代,在迭代过程中能有效捕获不同时间步帧的时序关系,因此能够更好恢复出语音信号。在解码器端,本发明采用与编码部分相似的卷积模块。解码部分为两个解码器,每个解码器包括5个反卷积块,每个卷积块包括反卷积层(Deconv-2D)、批归一化层和指数线性激活单元,如图6所示。为了补充编码部分由于特征维压缩引起的信息损失,本发明引入跳线连接(Skip Connection),将解码块的特征与对应编码端的特征在通道维度上堆叠并送入下一个反卷积块。在反馈系统中,上下帧的信号之间均存在因果关系,为了保证系统的正常运行,我们采用了因果卷积,确保当前帧的计算只与过去时刻帧的计算有关,而不涉及到未来帧的信息。在fs=16000,tw=20情况下,具体的网络参数设置与维度变化如表1所示:
表1
其中,卷积层的参数以卷积核,通道数、跳跃值形式表示,输入和输出尺寸以通道数、时间维、特征维的形式表示。此外,设置网络的训练批次为16,迭代次数为50次,使用学习率为1.0×10-3和衰减率为1.0×10-7的Adam优化器对网络训练进行优化,并开始训练。
损失函数可以直接选择估计结果与训练目标之间的均方误差(Mean SquaredError,MSE),对于网络的映射目标是幅度谱的情况下,其损失函数表达式如下:
其中,和分别表示估计信号的实数谱和虚数谱,Sr和Si分别表示目标信号的实数谱和虚数谱。此外,有研究表明,对于网络的映射目标是复数谱的情况,在幅度上做限制可以有效地提升语音或音频的质量,故该情况下的损失函数可以进一步表示为:
其中λ为取值在0至1之间的权重系数,通常取0.5,在低信噪比场景,λ应趋近于0,高信噪比场景,λ应趋近于1.0。
对于映射目标为掩蔽的情况,则与上述类似,只需将幅度谱或复频谱改为掩蔽即可,然而在带噪语音包含静音段的情况下,IRM和cIRM的分母部分将失去定义。为了避免这个问题,可以采用信号估计(Signal Approximation,SA)的映射方式,避免直接对掩蔽进行定义,即将损失函数定义为:
或
第一深度学习网络模型的处理结果仍然存在一部分残留的反馈信号,故需要对第一深度学习网络模型输出的信号做进一步的残留消除,因此,本发明在步骤3)之前还包括:将所述训练好的第一深度学习网络模型进行声反馈抑制后的真实声音张量矩阵输入至预先训练好的第二深度学习网络模型,通过所述训练好的第二深度学习网络模型提取其中的优化特征向量,并基于优化特征向量进行声反馈抑制,以优化的所述声反馈抑制后的真实张量矩阵。
训练好的第一深度学习网络模型为第一阶段网络,我们引入第二阶段网络,即第二深度学习网络模型。以第一阶段的输出结果作为第二阶段网络的输入特征,原始信号s n的时频张量S作为映射目标,训练第二阶段网络。训练好的第二阶段网络同样可以看作一个非线性函数,用F2·表示该网络的映射,θ2表示网络参数集合,表示该网络的处理结果,则得到下式:
本发明还提供一种基于深度学习的声反馈的抑制系统,用于执行上述基于深度学习的声反馈的抑制方法,所述系统包括:采集模块、傅里叶变换模块、训练好的第一深度学习网络模型和傅里叶逆变换模块;其中,
所述采集模块,用于采集闭环扩声系统中的原始真实声音信号;
所述傅里叶变换模块,用于将所述原始真实声音信号进行傅里叶变换,并获得真实声音张量矩阵;
所述训练好的第一深度学习网络模型,用于提取所述真实声音张量矩阵中的特征向量,并基于特征向量进声反馈抑制;其中,所述第一深度学习网络模型通过开环数据集进行训练;
所述傅里叶逆变换模块,用于将所述声反馈抑制后的真实张量矩阵进行傅里叶逆变换,以获得声反馈抑制后的声音信号并将其输入至闭环扩声系统中。
所述系统还包括训练好的第二深度学习网络模型,其中,
所述训练好的第二深度学习网络模型,用于提取所述训练好的第一深度学习网络模型进行声反馈抑制后的真实声音张量矩阵中的优化特征向量,并基于优化特征向量进行声反馈抑制,以优化的声反馈抑制后的真实张量矩阵。
从上述对本发明的具体描述可以看出,本发明可以用于语音扩声系统、音乐扩声系统、语音和音乐扩声兼用系统、助听器、辅听设备和对讲机中并进行声反馈抑制,应用范围广泛;本发明通过构造的专用训练数据集,即开环数据集训练深度学习网络模型,使深度学习网络模型提取并抑制声反馈;在构造开环数据集时,使用了大量的语音和音频数据,并生成多个频率随机的单频信号线性组合,同时结合噪声数据生成大量的开环数据集,用于训练深度学习网络模型模型,该模型能够有效抑制声反馈,当反馈被抑制,没有啸叫信号,语音质量和可懂度自然提高了;系统没有啸叫,可以将系统音量调更大,就可以提高系统增益;本发明通过构造开环数据集来训练深度声反馈抑制网络,并将其应用在闭环系统实现声反馈抑制,在训练阶段就解耦反馈通道,使得训练的模型具有更强的普适性,测试结果表明本专利所提的方法适用于各种类型的反馈通道。。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (10)
1.一种基于深度学习的声反馈的抑制方法,用于抑制扩声系统中的声反馈,包括以下步骤:
步骤1)采集闭环扩声系统中的原始真实声音信号,并基于傅里叶变换,获得真实声音张量矩阵;
步骤2)将真实声音张量矩阵输入至预先训练好的第一深度学习网络模型中,通过训练好的第一深度学习网络模型提取真实声音张量矩阵中的特征向量,并基于所述特征向量进声反馈抑制;其中,所述第一深度学习网络模型通过开环数据集进行训练;
步骤3)将所述声反馈抑制后的真实张量矩阵进行傅里叶逆变换,获得声反馈抑制后的声音信号并将其输入至闭环的扩声系统中,所述闭环的扩声系统为存在反馈通路的扩声系统。
2.根据权利要求1所述的基于深度学习的声反馈的抑制方法,其特征在于,所述开环数据集的构造过程包括:
在开环的所述扩声系统中,获取n个采样时刻的测试语音和音频信号,在每条所述测试原始语音和音频信号上随机叠加1至N个频率在fL,fH Hz的单频信号,以获得n个模拟啸叫混合信号z n,并将其构造成所述开环数据集;其中,所述开环的扩声系统为没有反馈通路的扩声系统;
所述模拟啸叫混合信号z n为:
叠加的第i个所述单频信号di n采用下式生成:
3.根据权利要求2所述的基于深度学习的声反馈的抑制方法,其特征在于,所述第i个单频信号的幅度值αi n随着采样时刻n变化或者为恒定值;所述单频信号的个数N的取值为10。
4.根据权利要求2所述的基于深度学习的声反馈的抑制方法,其特征在于,所述第一深度学习网络模型的训练过程包括:
将每条所述模拟啸叫混合信号z n进行傅里叶变换,以获得对应的模拟啸叫混合张量;将所述测试语音和音频信号进行相同形式的傅里叶变换,以获得映射目标张量;
在开环扩声系统中,所述第一深度学习网络模型将所述映射目标张量作为学习目标,利用模拟啸叫混合张量和映射目标张量进行训练,以提取模拟啸叫特征向量并获得声反馈抑制后的模拟啸叫混合张量;
将所述声反馈抑制后的模拟啸叫混合张量作为下次训练的模拟啸叫混合张量,并重新训练,直至所述声反馈抑制后的模拟啸叫混合张量与所述模拟啸叫混合张量之间的误差收敛至预设的范围,获得所述训练好的第一深度学习网络模型以及所述训练好的第一深度学习网络模型的参数集合;并将最后一次训练中提取的模拟啸叫特征向量作为特征向量。
5.根据权利要求1所述的基于深度学习的声反馈的抑制方法,其特征在于,步骤3)之前还包括:将所述训练好的第一深度学习网络模型进行声反馈抑制后的真实声音张量矩阵输入至预先训练好的第二深度学习网络模型,通过所述训练好的第二深度学习网络模型提取其中的优化特征向量,并基于优化特征向量进行声反馈抑制,以优化的所述声反馈抑制后的真实张量矩阵。
6.根据权利要求4和5所述的基于深度学习的声反馈的抑制方法,其特征在于,所述第二深度学习网络模型的训练过程包括:
在开环扩声系统中,将所述第一深度学习网络模型输出的声反馈抑制后的模拟啸叫混合张量作为输入张量,输入至所述第二深度学习网络模型中;
所述第二深度学习网络模型,以所述映射目标张量作为学习目标,利用所述输入张量进行训练,以提取特征向量并获得优化的声反馈抑制后的模拟啸叫混合张量;
将所述优化的声反馈抑制后的模拟啸叫混合张量作为下次训练的输入张量,并重新训练,直至所述优化的声反馈抑制后的模拟啸叫混合张量与所述输入张量之间的误差收敛至预设的范围,获得所述训练好的第二深度学习网络模型以及所述训练好的第二深度学习网络模型的参数集合;并将最后一次训练中提取的特征向量作为优化特征向量。
7.根据权利要求1所述的基于深度学习的声反馈的抑制方法,其特征在于,所述第一深度学习网络模型采用非线性深度学习网络模型,其中,所述非线性深度学习网络模型包括:
RNN卷积循环网络模型、RNN变体卷积循环网络模型或CRN卷积循环网络模型,其中,所述RNN变体卷积循环网络模型包括:LSTM卷积循环网络模型和GRU卷积循环网络模型。
8.根据权利要求1所述的基于深度学习的声反馈的抑制方法,其特征在于,所述第一深度学习网络模型采用CRN卷积循环网络模型;所述CRN卷积循环网络模型包括:卷积编码器、长短时记忆模块和两个卷积解码器;其中,
所述卷积编码器分别与所述长短时记忆模块和两个卷积解码器连接;所述长短时记忆模块还分别与所述两个卷积解码器连接;其中,所述卷积编码器分别与两个卷积解码器跳跃连接;其中,
所述卷积编码器包括:五个串联的卷积模块;每个所述卷积模块包括:二维卷积层、批归一化层和指数线性激活单元;
所述长短时记忆模块包括:双层LSTM长短时单元,
所述卷积解码器包括:五个串联的反卷积模块;每个所述反卷积模块包括:反卷积层、批归一化层和指数线性激活单元。
9.一种基于深度学习的声反馈的抑制系统,用于执行权利要求1-8任一所述的基于深度学习的声反馈的抑制方法,其特征在于,所述系统包括:采集模块、傅里叶变换模块、训练好的第一深度学习网络模型和傅里叶逆变换模块;其中,
所述采集模块,用于采集闭环扩声系统中的原始真实声音信号;
所述傅里叶变换模块,用于将所述原始真实声音信号进行傅里叶变换,并获得真实声音张量矩阵;
所述训练好的第一深度学习网络模型,用于提取所述真实声音张量矩阵中的特征向量,并基于特征向量进声反馈抑制;其中,所述第一深度学习网络模型通过开环数据集进行训练;
所述傅里叶逆变换模块,用于将所述声反馈抑制后的真实张量矩阵进行傅里叶逆变换,以获得声反馈抑制后的声音信号并将其输入至闭环的扩声系统中,其中,所述闭环的扩声系统为存在反馈通路的扩声系统。
10.根据权利要求9所述的基于深度学习的声反馈的抑制系统,其特征在于,所述系统还包括训练好的第二深度学习网络模型,其中,
所述训练好的第二深度学习网络模型,用于提取所述训练好的第一深度学习网络模型进行声反馈抑制后的真实声音张量矩阵中的优化特征向量,并基于优化特征向量进行声反馈抑制,以优化的声反馈抑制后的真实张量矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210408816.2A CN116233697B (zh) | 2022-04-19 | 2022-04-19 | 一种基于深度学习的声反馈的抑制方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210408816.2A CN116233697B (zh) | 2022-04-19 | 2022-04-19 | 一种基于深度学习的声反馈的抑制方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116233697A true CN116233697A (zh) | 2023-06-06 |
CN116233697B CN116233697B (zh) | 2023-09-05 |
Family
ID=86575529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210408816.2A Active CN116233697B (zh) | 2022-04-19 | 2022-04-19 | 一种基于深度学习的声反馈的抑制方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116233697B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109727200A (zh) * | 2017-10-30 | 2019-05-07 | 上海交通大学 | 基于贝叶斯张量分解的相似块堆聚图像消噪方法及系统 |
CN110234051A (zh) * | 2019-06-27 | 2019-09-13 | 中科上声(苏州)电子有限公司 | 一种基于深度学习的防啸叫扩声方法及系统 |
WO2021139327A1 (zh) * | 2020-01-09 | 2021-07-15 | 腾讯科技(深圳)有限公司 | 一种音频信号处理方法、模型训练方法以及相关装置 |
CN113490115A (zh) * | 2021-08-13 | 2021-10-08 | 广州市迪声音响有限公司 | 一种基于声纹识别技术的声反馈抑制方法及系统 |
-
2022
- 2022-04-19 CN CN202210408816.2A patent/CN116233697B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109727200A (zh) * | 2017-10-30 | 2019-05-07 | 上海交通大学 | 基于贝叶斯张量分解的相似块堆聚图像消噪方法及系统 |
CN110234051A (zh) * | 2019-06-27 | 2019-09-13 | 中科上声(苏州)电子有限公司 | 一种基于深度学习的防啸叫扩声方法及系统 |
WO2021139327A1 (zh) * | 2020-01-09 | 2021-07-15 | 腾讯科技(深圳)有限公司 | 一种音频信号处理方法、模型训练方法以及相关装置 |
CN113490115A (zh) * | 2021-08-13 | 2021-10-08 | 广州市迪声音响有限公司 | 一种基于声纹识别技术的声反馈抑制方法及系统 |
Non-Patent Citations (1)
Title |
---|
罗笑雪,柯雨璇,郑成诗,李晓东: "联合谱和空间特征的深度学习语音增强研究", 《声学技术》, vol. 38, no. 5, pages 1 - 2 * |
Also Published As
Publication number | Publication date |
---|---|
CN116233697B (zh) | 2023-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107452389B (zh) | 一种通用的单声道实时降噪方法 | |
CN109841206B (zh) | 一种基于深度学习的回声消除方法 | |
Zhang et al. | Deep learning for environmentally robust speech recognition: An overview of recent developments | |
CN109065067A (zh) | 一种基于神经网络模型的会议终端语音降噪方法 | |
CN110931031A (zh) | 一种融合骨振动传感器和麦克风信号的深度学习语音提取和降噪方法 | |
CN103903612B (zh) | 一种实时语音识别数字的方法 | |
KR101807961B1 (ko) | Lstm 및 심화신경망 기반의 음성 신호 처리 방법 및 장치 | |
CN103124165A (zh) | 自动增益控制 | |
CN105825864A (zh) | 基于过零率指标的双端说话检测与回声消除方法 | |
CN104835503A (zh) | 一种改进gsc自适应语音增强方法 | |
CN112004177A (zh) | 一种啸叫检测方法、麦克风音量调节方法及介质 | |
CN105448302A (zh) | 一种环境自适应的语音混响消除方法和系统 | |
CN116030823B (zh) | 一种语音信号处理方法、装置、计算机设备及存储介质 | |
CN113870874A (zh) | 基于自注意力变换网络的多特征融合回声消除方法及系统 | |
CN108922514B (zh) | 一种基于低频对数谱的鲁棒特征提取方法 | |
CN115359804B (zh) | 一种基于麦克风阵列的定向音频拾取方法和系统 | |
CN111341351B (zh) | 基于自注意力机制的语音活动检测方法、装置及存储介质 | |
CN113490115A (zh) | 一种基于声纹识别技术的声反馈抑制方法及系统 | |
Zhang et al. | Hybrid AHS: A hybrid of Kalman filter and deep learning for acoustic howling suppression | |
CN112185405B (zh) | 一种基于差分运算和联合字典学习的骨导语音增强方法 | |
CN116233697B (zh) | 一种基于深度学习的声反馈的抑制方法及系统 | |
CN115243162B (zh) | 一种基于深度学习的闭环系统声反馈抑制方法 | |
Wang et al. | Two-stage enhancement of noisy and reverberant microphone array speech for automatic speech recognition systems trained with only clean speech | |
CN115295002B (zh) | 一种基于交互性时频注意力机制的单通道语音增强方法 | |
CN118016042B (zh) | 一种啸叫抑制方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |