CN110234051B - 一种基于深度学习的防啸叫扩声方法及系统 - Google Patents

一种基于深度学习的防啸叫扩声方法及系统 Download PDF

Info

Publication number
CN110234051B
CN110234051B CN201910566517.XA CN201910566517A CN110234051B CN 110234051 B CN110234051 B CN 110234051B CN 201910566517 A CN201910566517 A CN 201910566517A CN 110234051 B CN110234051 B CN 110234051B
Authority
CN
China
Prior art keywords
howling
microphone
output
deep learning
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910566517.XA
Other languages
English (en)
Other versions
CN110234051A (zh
Inventor
蔡野锋
叶超
马登永
沐永生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Shangsheng Suzhou Electronics Co ltd
Original Assignee
Zhongke Shangsheng Suzhou Electronics Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongke Shangsheng Suzhou Electronics Co ltd filed Critical Zhongke Shangsheng Suzhou Electronics Co ltd
Priority to CN201910566517.XA priority Critical patent/CN110234051B/zh
Publication of CN110234051A publication Critical patent/CN110234051A/zh
Application granted granted Critical
Publication of CN110234051B publication Critical patent/CN110234051B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups

Landscapes

  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种基于深度学习的防啸叫扩声方法及系统,避免了传统方法需要通过人工选择特征向量的缺陷。一种基于深度学习的防啸叫扩声方法,包括如下步骤:A、对采集的语音信号进行预加重;B、对步骤A预加重后的输入音源信号进行分帧、FFT变换、取频谱幅度值的对数并对连续多帧按顺序进行拼接组合,作为深度学习模型的输入;C、利用训练完的深度学习模型,对步骤B中的输入进行计算,并输出向量;D、取所述输出向量的最大值,若其为所述输出向量中的最后一个元素,则不存在啸叫;否,则存在啸叫,执行下一步骤;E、精确定位啸叫频率;F、根据精确定位的啸叫频率,进行抑制。

Description

一种基于深度学习的防啸叫扩声方法及系统
技术领域
本发明属于扩声应用领域,涉及一种基于深度学习的防啸叫扩声方法及系统,特别涉及一种基于深度学习的防啸叫教育扩声方法及系统。
背景技术
在如学校教室等环境中,由于房间较大,通常需要扩声系统,才能让最后一排学生也能听清楚讲台老师的讲课。尽管扩声系统可以有助于教师讲课,但处理不当,会引入新的问题。
如图1所示,在教育扩声系统中,音频信号经过扬声器系统输出,由传声器拾音后由功率放大器放大后再由扬声器系统输出,形成扬声器系统-传声器-放大器-扬声器系统之间的正反馈,在满足振幅平衡和相位平衡的条件下,此循环会导致整个闭环系统自激振荡产生啸叫现象。啸叫声不仅会造成输出信号失真,恶化主观听音感受,阻碍正常的语音交流,同时有可能会因为输出功率过高而烧坏功率放大器,造成器件损坏。
教育扩声系统中常见的啸叫抑制方法主要有:(1)移频移相;(2)陷波法;(3)自适应滤波器。其中,移频移相对系统音质损伤较大,且提高增益有限;自适应滤波器理论上可以提高无穷大增益,且语音损伤较小,但其对系统非线性敏感度较高,且计算复杂度高,降低成本比较困难。而陷波法在语音损伤和计算复杂度之间取得了一个较好的平衡,因此被广泛应用。
陷波法包括啸叫检测和抑制两部分,其中检测部分通过各种特征判断是否存在啸叫频率点,抑制部分根据检测部分的结果,对相应的啸叫频率成份进行抑制。然而,传统的陷波法中,需要通过人工选择特征向量。
发明内容
本发明的目的是提供一种基于深度学习的防啸叫扩声方法及系统,利用深度学习模型,可以直接从原始数据中获取啸叫频率点,避免了传统方法需要通过人工选择特征向量的缺陷,可以进一步提高啸叫检测准确度。
为达到上述目的,本发明采用的一种技术方案为:
一种基于深度学习的防啸叫扩声方法,包括如下步骤:
A、对采集的语音信号进行预加重;
B、对步骤A预加重后的输入音源信号进行分帧、FFT变换、取频谱幅度值的对数并对连续多帧按顺序进行拼接组合,作为深度学习模型的输入;
C、利用训练完的深度学习模型,对步骤B中的输入进行计算,并输出向量;
D、取所述输出向量的最大值,若其为所述输出向量中的最后一个元素,则不存在啸叫;否,则存在啸叫,执行下一步骤;
E、精确定位啸叫频率;
F、根据精确定位的啸叫频率,进行抑制。
优选地,所述步骤C中的深度学习模型由如下步骤训练或所述防啸叫扩声方法还包括如下步骤:
a、提供预采集的声音作为训练音源信号,并进行预加重;
b、对步骤a预加重后的训练音源信号进行分帧、FFT变换并取频谱幅度值的对数;
c、将连续多帧信号组成一组输入向量X,判断这组信号是否存在啸叫信号并记录啸叫信号位置,若不存在啸叫信号,则标记为
Figure BDA0002109734570000021
其中I为观察频率个数,如果存在啸叫信号,则标记为
Figure BDA0002109734570000022
其中1对应啸叫频率处的位置;
d、当输入向量为非啸叫信号时,则标记输出向量
Figure BDA0002109734570000023
当输入向量为啸叫信号时,则标记输出向量
Figure BDA0002109734570000024
e、将步骤c的输入向量X和步骤d的输出向量Y作为训练集,使用后向传播算法对深度学习模型进行训练。
更优选地,所述步骤A或步骤a中,预加重滤波器为H(z)=1-αz-1,其中,z为延时单元,α为调节参数。
更优选地,所述步骤B或步骤b中,对分帧后的每帧信号做FFT变换Y(ωi,n),ωi为数字频率,i=0,1,…(I-1),n为帧数,对FFT频谱取绝对值Y1i,n)=|Y(ωi,n)|,并按10为底数并取其对数Y2i,n)=20*log10Y1i,n);
所述步骤c中,将连续N帧信号组成一组输入向量X;所述步骤d中,采用DNN深度学习模型,包含输入层向量大小为(I×N)×1,三层隐藏层大小都为M×1,输出大小为(I+1)×1,输入层为N帧频谱信号Y2i,n)按顺序拼成的(IxN)x1向量X,隐藏层激活函数σ(x)为ReLU,其表达式为σ(x)=max(x,0),其中max(·,·)为取两个数的最大数,输出层激活函数采用softmax,其表达式为:
Figure BDA0002109734570000031
其中si为输出层的第i个输出,xi为输出层的第i个输入,xj为输出层的第j个输入;
误差函数Err采用交叉熵,其表达式为:
Figure BDA0002109734570000032
其中yi是输出向量Y中的第i个元素,其中1n为以自然数为底数的对数。
优选地,所述步骤A中,采用麦克风阵列采集声音,并划分频带,将不同的麦克风分配给不同的频带,对同一频带内的各麦克风进行滤波,并分别赋予不同的增益,对同一频带内的各麦克风的输出进行叠加形成当前频带输出,并最终对所有频带输出叠加形成总输出;其中,所述麦克风阵列包括多个麦克风,所述多个麦克风沿一弧形间隔排列。采用麦克风阵列,可以进一步降低反馈路径增益,降低啸叫发生的概率;利用弧形麦克风阵列,具有天然聚焦性,进一步增强指向性。
更优选地,所述麦克风阵列对称设置,除位于弧形中间位置的麦克风外,任一麦克风与其靠近弧形中间位置一侧的相邻麦克风之间的弧长d1小于与其远离弧形中间位置一侧的相邻麦克风的之间的弧长d2。麦克风阵列采用非均匀分布,可以在同等引径下,减少麦克风个数,降低硬件成本;同时利用子带分析和非均匀分布,可以达到宽带指向性一致的效果,并利用模拟电路实现,进一步降低硬件成本。
进一步地,弧长d2为弧长d1的两倍。
本发明采用的另一种技术方案为:
一种基于深度学习的防啸叫扩声系统,包括:
麦克风阵列,其用于采集待扩声区域的声音;
麦克风驱动电路,其用于驱动所述麦克风系统工作,所述麦克风驱动电路和所述麦克风阵列电性连接;
宽带波束形成电路,其用于进行波束形成,所述宽带波束形成电路和所述麦克风驱动电路电性连接;
AD转换装置,其用于将模拟信号转换为数字信号,所述AD转换装置和所述宽带波束形成电路电性连接;
DSP处理器,其用于执行如上所述的防啸叫扩声方法,所述DSP处理器和所述AD转换装置电性连接;
DA转换装置,其用于将数字信号转换为模拟信号,所述DA转换装置和所述DSP处理器电性连接;及
扬声器驱动电路,其用于驱动扬声器将电信号转化为声信号,所述扬声器驱动电路和所述DA转换装置及所述扬声器电性连接。
优选地,所述麦克风阵列包括多个麦克风,所述多个麦克风沿一弧形间隔排列,所述麦克风阵列对称设置,除位于弧形中间位置的麦克风外,任一麦克风与其靠近弧形中间位置一侧的相邻麦克风之间的弧长d1小于与其远离弧形中间位置一侧的相邻麦克风的之间的弧长d2。采用麦克风阵列,可以进一步降低反馈路径增益,降低啸叫发生的概率;利用弧形麦克风阵列,具有天然聚焦性,进一步增强指向性;麦克风阵列采用非均匀分布,可以在同等引径下,减少麦克风个数,降低硬件成本;同时利用子带分析和非均匀分布,可以达到宽带指向性一致的效果,并利用模拟电路实现,进一步降低硬件成本。
优选地,所述多个麦克风划分为多组,每组麦克风对应一个频带,所述宽带波束形成电路包括多组麦克风通道、多个第一加法电路及一个第二加法电路,每个麦克风通道分别包括相互串接的带通滤波电路和增益电路,每个带通滤波电路分别和一个麦克风连接,每组所述麦克风通道对应一个频带并由对应该频带的多个麦克风通道组成,各所述第一加法电路分别与对应的一组麦克风通道的增益电路连接以对同一频带内的各麦克风的输出进行叠加形成当前频带输出,所述第二加法电路与所述多个第一加法电路连接以对所有频带输出叠加形成总输出。
本发明采用以上方案,相比现有技术具有如下优点:
利用深度学习模型,自动从原始频域数据中学习啸叫规律,避免了人工进行特征选择和判断,降低了调试难度,可以进一步提高啸叫检测准确度。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为扩声系统的声反馈示意图;
图2、3分别为发生啸叫时的时域图和时频图;
图4为防啸叫扩声方法的运行过程示意图;
图5为实施例的防啸叫扩声系统的结构框图;
图6为麦克风阵列的间距示意图;
图7为频带划分及波束输出的示意图;
图8为宽带波束形成电路的结构框图;
图9为带通滤波电路的电路图;
图10为增益电路的电路图;
图11为第一加法电路的电路图。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域的技术人员理解。在此需要说明的是,对于这些实施方式的说明用于帮助理解本发明,但并不构成对本发明的限定。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以互相结合。
本实施例提供一种基于深度学习的防啸叫教育扩声方法,其分为训练和运行两部分,在运行之前需要先对所采用的深度学习模型训练。在另外一些实施例中,可直接采用训练好的深度学习模型运行防啸叫扩声方法。
本实施例中,深度学习模型通过如下步骤训练:
1、利用教育扩声系统装置(此时DSP处理器中的程序为直通程序,并将原始录音数据上传至上位机进行记录),在不同大小、不同教室环境中进行记录原始录音数据预加重并进行分帧,数据采样率为16kHz,每帧信号长度为1024点(64ms),帧与帧之间的移位为256点(16ms),其中,预加重滤波器为H(z)=1-αz-1,z为延时单元,α为调节参数,本实施例中取值为0.9,用于抬高高频成份,降低低频权重。
2、对每帧信号做FFT变换Y(ωi,n),ωi为数字频率,i=0,1,…512(由于对称性,只取前述一半),n为帧数,对FFT频谱取绝对值Y1i,n)=|Y(ωi,n)|,并按10为底数并取其对数Y2i,n)=20*log10Y1i,n)。其中发生啸叫时的时域图和时频图分别如图2和图3所示。
3、将连续7帧信号组成一组输入向量X,通过人工判断这组向量X是否存在啸叫信号和啸叫信号位置,并做相应标记,如果不存在啸叫信号,则标记为
Figure BDA0002109734570000061
如果存在啸叫信号,则标记为
Figure BDA0002109734570000062
其中1对应啸叫频率处的位置。
4、深度学习模型为DNN,包含输入层向量大小为(513x7)3591x1,三层隐藏层大小都为2048x1,输出大小为514x1。
5、DNN采用全连接方式,输入层为7帧频谱信号Y2i,n),按顺序拼成的(513x7)x1向量,隐藏层激活函数σ(x)为ReLU,其表达式为σ(x)=max(x,0),其中max(·,·)为取两个数的最大数,输出层激活函数采用softmax,其表达式为:
Figure BDA0002109734570000063
其中si为输出层的第i个输出,xi为输出层的第i个输入,xj为输出层的第j个输入。
6、误差函数Err采用交叉熵,其表达式为:
Figure BDA0002109734570000064
令Y=[y0,y1,…,y513],当输入的7帧信号对应为非啸叫信号时,则标记输出向量
Figure BDA0002109734570000065
如果为啸叫信号,则标记输出向量
Figure BDA0002109734570000066
L为在步骤3中做的标记。
7、将输入向量X和输出向量Y作为训练集,使用后向传播算法对深度学习模型进行训练,本实施例中使用PyTorch、Tensorflow等开源软件进行深度学习训练。
结合图4所示,该防啸叫扩声方法的运行过程如下:
A、对输入信号进行预加重,与训练时的预加重表达式一样。
B、对步骤A中预加重后的信号进行分帧,并做FFT变换,再取频谱幅度值的对数,最后对连续7帧按顺序进行拼接组合,作为深度学习模型的输入。下一次的组合与上一次的组合间距为1帧。
C、利用训练完的模型参数,对步骤B中的输入进行计算,输出向量Y大小为514x1。
D、取步骤C中输出向量的最大值,如果对应的下标为Y中的最后一个元素,则不存在啸叫,否则存在啸叫。
E、如果存在啸叫,则针对啸叫频率点附近的区间,利用CZT(chirpz-transform)变换进一步细化频率分辨率,精确定位啸叫频率。
F、根据步骤E中的啸叫频率,在啸叫抑制中利用陷波器进行抑制。
本实施例还提供一种用于执行上述防啸叫扩声方法的防啸叫扩声系统。参照图5所示,该防啸叫扩声系统包括:
麦克风阵列,其用于采集待扩声区域的声音;
麦克风驱动电路,其用于驱动所述麦克风系统工作,所述麦克风驱动电路和所述麦克风阵列电性连接;
宽带波束形成电路,其用于进行波束形成,所述宽带波束形成电路和所述麦克风驱动电路电性连接;
AD转换装置,其用于将模拟信号转换为数字信号,所述AD转换装置和所述宽带波束形成电路电性连接;
DSP处理器,其用于执行如上所述的防啸叫扩声方法,所述DSP处理器和所述AD转换装置电性连接;
DA转换装置,其用于将数字信号转换为模拟信号,所述DA转换装置和所述DSP处理器电性连接;及
扬声器驱动电路,其用于驱动扬声器将电信号转化为声信号,所述扬声器驱动电路和所述DA转换装置及所述扬声器电性连接。
结合图5和图6所示,麦克风阵列包括多个麦克风,所述多个麦克风沿一弧形间隔排列。所述麦克风阵列对称设置,除位于弧形中间位置的麦克风外,任一麦克风与其靠近弧形中间位置一侧的相邻麦克风之间的弧长d1小于与其远离弧形中间位置一侧的相邻麦克风的之间的弧长d2。本实施例中,弧长d2为弧长d1的两倍。应用在教育扩声系统中,麦克风阵列用于接收教师讲课声音,通过利用麦克风阵列的指向性降低反馈路径增益,降低啸叫发生的概率;麦克风阵列非均匀分布在圆弧上,在利用较大张径的同时减少麦克风个数,较大的张径可以取得更好的低频指向性效果,而非均匀分布可以减少麦克风个数,降低硬件成本。非均匀分布麦克风的弧度间距从中间开始按照倍数增长。本实施例中麦克风阵列具体设置如下:
a、划分频带,教育系统主要考虑人声扩声,人声频率主要分布在[300,4000]Hz之间,同时为提高语音质量,系统采样率设为16kHz。按照倍频程划分频带为中心频率500Hz([353Hz、707Hz])、1kHz([707Hz、1414Hz])、2kHz([1414Hz、2828Hz])、4kHz([2828Hz、5657Hz])和6kHz([5657Hz、8000Hz])的五个区间。
b、如图6所示,根据频带划分将不同的麦克分配给不同的频带,其中[0,1,2]分配给6kHz,麦克风间距为1cm,[0,2,3]分配给4kHz,麦克风间距为2cm,[0,3,4]分配给2kHz,麦克风间距为4cm,[0,4,5]分配给1kHz,麦克风间距为8cm,[0,5,6]分配给500Hz,麦克风间距为16cm。
c、最后根据实际长度大小,将图6中的线阵弯曲成圆弧阵,线阵本身具有正前方指向性,形成圆弧阵后,由于圆弧天然的聚焦性,圆弧阵会有更好的指向性。因为教师一般在讲台区域活动,将圆弧阵指向讲台区域即可。
麦克风驱动电路用于提供麦克风偏置电压,使麦克风可以正常工作。
宽带波束形成电路用于在模拟域中进行波束形成。具体如下:
I、根据上述步骤a中的划分,每一组频带由5个麦克风组成;
II、针对某一频带,先对其中的5个麦克风根据相应的频带带宽进行滤波,滤完波以后,对不同的麦克风通道赋于不同的增益,增益由Hamming窗决定,按从左到右顺序为:[0.0800,0.5400,1.0000,0.5400,0.0800],进一步增强正前方指向性,最后对5个麦克风的输出进行叠加形成当前频带输出;如图7即示出了500Hz频带的波束输出;
III、对所有频带都执行步骤II,最后将所有输出的频带进行叠加,作为最终的输出。
图8示出了本实施例采用的宽带波束形成电路,所述宽带波束形成电路包括多组麦克风通道、多个第一加法电路及一个第二加法电路,每个麦克风通道分别包括相互串接的一个带通滤波电路和一个增益电路,每个带通滤波电路分别和一个麦克风连接,每组所述麦克风通道对应一个频带并由对应该频带的多个麦克风通道组成,各所述第一加法电路分别与对应的一组麦克风通道的增益电路连接以对同一频带内的各麦克风的输出进行叠加形成当前频带输出,所述第二加法电路与所述多个第一加法电路连接以对所有频带输出叠加形成总输出。
图9示出了图8中的一个带通滤波电路。参照图9所示,带通滤波电路包括一个第一电容C1、一个第二电容C2、一个第一电阻R1、一个第二电阻R2、一个第三电阻R3及一个运算放大器U1。第一电阻R1连接带通滤波电路的输入端MIC_IN,其为相应麦克风的输出;第二电容C2连接于第一电阻R1和运算放大器U1的反相输入端之间;第一电容C1的一端连接于第一电阻R1和第二电容C2之间,另一端连接于运算放大器U1的输出端V12;第三电阻R3的一端连接于第二电容C2和运算放大器U1的反相输入端之间,另一端连接于运算放大器U1的输出端V12;第二电阻R2的一端连接于第一电阻R1和第二电容C2之间,另一端接地;运算放大器U1的同相输入端接地。该带通滤波电路具体为负反馈双二次型带通滤波电路。
图10示出了图8中的一个增益电路。参照图10所示,该增益电路和图9所示的带通滤波电路连接,带通滤波电路的输出V12即作为该增益电路的输入端V12。该增益电路包括一个第四电阻R4和一个运算放大器U2,第四电阻R4连接输入端V12,运算放大器U2的反向输入端连接第四电阻R4,运算放大器U2的同相输入端接地。该增益电路还包括并联于运算放大器U2的反相输入端和输出端V23_1之间的第五电阻R5。该增益电路的输出即为某一麦克风通道的输出。
图11示出了图8中的一个第一加法电路。参照图11所示,该第一加法电路具有多个输入端V23_1、V23_2、V23_3、V23_4及V23_5,分别为某一频带的5个麦克风通道的输出。该第一加法电路包括多个电阻及一个运算放大器U3,其中,输入端V23_1和第六电阻R6串接后连接于运算放大器U3的反相输入端,输入端V23_2和第七电阻R7串接后连接于运算放大器U3的反相输入端,输入端V23_3和第八电阻R8串接后连接于运算放大器U3的反相输入端,输入端V23_4和第九电阻R9串接后连接于运算放大器U3的反相输入端,输入端V23_5和第十电阻R10串接后连接于运算放大器U3的反相输入端。运算放大器U3的同相输入端接地。该第一加法电路还包括并联于所述运算放大器U3的反相输入端和输出端V34_1之间的第十一电阻R11。该第一加法电路的输出即为某一频带的所有麦克风的输出。
第二加法电路的结构基本同图11所示的第一加法电路,区别在于,第二加法电路的多个输入端和各第一加法电路的输出端连接,即将各第一加法电路输出的所有频带的输出作为输入,并对其进行叠加,形成宽带波束形成电路的总输出。
AD转换装置是将宽带波束形成电路的输出转化为数字信号,DSP处理器利用深度学习模型进行啸叫判断,并根据啸叫情况,对输入信号进行相应的抑制并输出至DA转换装置,DA转换装置将数字信号转换为模拟信号输出至扬声器驱动电路。扬声器驱动电路将DA的输出通过扬声器将电信号转化为声信号后在空间中进行播放。
通过非均匀分布和宽带波束形成,在同等长度条件下,可以减少麦克风个数,同时利子带分配,可以在不同的频带内取得同样的指向性,即宽带指向性效果一样,同时只利用了硬件模拟电路,避免了数字信号处理,需要多通道AD解码器,降低了硬件成本。
本实施例的防啸叫扩声方法及防啸叫扩声系统具有如下优点:
(1)利用深度学习模型,自动从原始频域数据中学习啸叫规律,避免了人工进行特征选择和判断,降低了调试难度;
(2)采用麦克风阵列,可以进一步降低反馈路径增益,降低啸叫发生的概率;
(3)采用非均匀分布,可以在同等引径下,减少麦克风个数,降低硬件成本;同时利用子带分析和非均匀分布,可以达到宽带指向性一致效果,并利用模拟电路实现,进一步降低硬件成本;
(4)利用弧形麦克风阵列,具有天然聚焦性,进一步增强指向性。
上述实施例只为说明本发明的技术构思及特点,是一种优选的实施例,其目的在于熟悉此项技术的人士能够了解本发明的内容并据以实施,并不能以此限定本发明的保护范围。凡根据本发明的精神实质所作的等效变换或修饰,都应涵盖在本发明的保护范围之内。

Claims (9)

1.一种基于深度学习的防啸叫扩声方法,其特征在于,包括如下步骤:
A、对采集的语音信号进行预加重;
B、对步骤A预加重后的输入音源信号进行分帧、FFT变换、取频谱幅度值的对数并对连续多帧按顺序进行拼接组合,作为深度学习模型的输入;
C、利用训练完的深度学习模型,对步骤B中的输入进行计算,并输出向量;
D、取所述输出向量的最大值,若其为所述输出向量中的最后一个元素,则不存在啸叫;否,则存在啸叫,执行下一步骤;
E、精确定位啸叫频率;
F、根据精确定位的啸叫频率,利用陷波器进行抑制;
所述步骤C中的深度学习模型由如下步骤训练或所述防啸叫扩声方法还包括如下步骤:
a、提供预采集的声音作为训练音源信号,并进行预加重;
b、对步骤a预加重后的训练音源信号进行分帧、FFT变换并取频谱幅度值的对数;
c、将连续多帧信号组成一组输入向量X,通过人工判断这组信号是否存在啸叫信号并记录啸叫信号位置,若不存在啸叫信号,则标记为
Figure FDA0003135259850000011
其中I为观察频率个数,如果存在啸叫信号,则标记为
Figure FDA0003135259850000012
其中1对应啸叫频率处的位置;
d、当输入向量为非啸叫信号时,则标记输出向量
Figure FDA0003135259850000013
当输入向量为啸叫信号时,则标记输出向量
Figure FDA0003135259850000014
e、将步骤c的输入向量X和步骤d的输出向量Y作为训练集,使用后向传播算法对深度学习模型进行训练。
2.根据权利要求1所述的防啸叫扩声方法,其特征在于,所述步骤A或步骤a中,预加重滤波器为H(z)=1-αz-1,其中,z为延时单元,α为调节参数。
3.根据权利要求1所述的防啸叫扩声方法,其特征在于,所述步骤B或步骤b中,对分帧后的每帧信号做FFT变换Y(ωi,n),ωi为数字频率,i=0,1,…(I-1),n为帧数,对FFT频谱取绝对值Y1i,n)=|Y(ωi,n)|,并按10为底数并取其对数Y2i,n)=20*log10Y1i,n);
所述步骤c中,将连续N帧信号组成一组输入向量X;所述步骤d中,采用DNN深度学习模型,包含输入层向量大小为(I×N)×1,三层隐藏层大小都为M×1,输出大小为(I+1)×1,输入层为N帧频谱信号Y2i,n)按顺序拼成的(I x N)x1向量X,隐藏层激活函数σ(x)为ReLU,其表达式为σ(x)=max(x,0),其中max(·,·)为取两个数的最大数,输出层激活函数采用softmax,其表达式为:
Figure FDA0003135259850000021
其中si为输出层的第i个输出,xi为输出层的第i个输入,xj为输出层的第j个输入;
误差函数Err采用交叉熵,其表达式为:
Figure FDA0003135259850000022
其中yi是输出向量Y中的第i个元素,其中ln为以自然数为底数的对数。
4.根据权利要求1所述的防啸叫扩声方法,其特征在于,所述步骤A中,采用麦克风阵列采集声音,并划分频带,将不同的麦克风分配给不同的频带,对同一频带内的各麦克风分别赋予不同的增益,对同一频带内的各麦克风的输出进行叠加形成当前频带输出,并最终对所有频带输出叠加形成总输出;其中,所述麦克风阵列包括多个麦克风,所述多个麦克风沿一弧形间隔排列。
5.根据权利要求4所述的防啸叫扩声方法,其特征在于,所述麦克风阵列对称设置,除位于弧形中间位置的麦克风外,任一麦克风与其靠近弧形中间位置一侧的相邻麦克风之间的弧长d1小于与其远离弧形中间位置一侧的相邻麦克风的之间的弧长d2。
6.根据权利要求5所述的防啸叫扩声方法,其特征在于:弧长d2为弧长d1的两倍。
7.一种基于深度学习的防啸叫扩声系统,其特征在于,包括:
麦克风阵列,其用于采集待扩声区域的声音;
麦克风驱动电路,其用于驱动所述麦克风系统工作,所述麦克风驱动电路和所述麦克风阵列电性连接;
宽带波束形成电路,其用于进行波束形成,所述宽带波束形成电路和所述麦克风驱动电路电性连接;
AD转换装置,其用于将模拟信号转换为数字信号,所述AD转换装置和所述宽带波束形成电路电性连接;
DSP处理器,其用于执行如权利要求1-3任一项所述的防啸叫扩声方法,所述DSP处理器和所述AD转换装置电性连接;
DA转换装置,其用于将数字信号转换为模拟信号,所述DA转换装置和所述DSP处理器电性连接;及
扬声器驱动电路,其用于驱动扬声器将电信号转化为声信号,所述扬声器驱动电路和所述DA转换装置及所述扬声器电性连接。
8.根据权利要求7所述的防啸叫扩声系统,其特征在于,所述麦克风阵列包括多个麦克风,所述多个麦克风沿一弧形间隔排列,所述麦克风阵列对称设置,除位于弧形中间位置的麦克风外,任一麦克风与其靠近弧形中间位置一侧的相邻麦克风之间的弧长d1小于与其远离弧形中间位置一侧的相邻麦克风的之间的弧长d2。
9.根据权利要求7所述的防啸叫扩声系统,其特征在于,多个所述麦克风划分为多组,每组麦克风对应一个频带,所述宽带波束形成电路包括多组麦克风通道、多个第一加法电路及一个第二加法电路,每个麦克风通道分别包括相互串接的带通滤波电路和增益电路,每个带通滤波电路分别和一个麦克风连接,每组所述麦克风通道对应一个频带并由对应该频带的多个麦克风通道组成,各所述第一加法电路分别与对应的一组麦克风通道的增益电路连接以对同一频带内的各麦克风的输出进行叠加形成当前频带输出,所述第二加法电路与所述多个第一加法电路连接以对所有频带输出叠加形成总输出。
CN201910566517.XA 2019-06-27 2019-06-27 一种基于深度学习的防啸叫扩声方法及系统 Active CN110234051B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910566517.XA CN110234051B (zh) 2019-06-27 2019-06-27 一种基于深度学习的防啸叫扩声方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910566517.XA CN110234051B (zh) 2019-06-27 2019-06-27 一种基于深度学习的防啸叫扩声方法及系统

Publications (2)

Publication Number Publication Date
CN110234051A CN110234051A (zh) 2019-09-13
CN110234051B true CN110234051B (zh) 2021-08-27

Family

ID=67857277

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910566517.XA Active CN110234051B (zh) 2019-06-27 2019-06-27 一种基于深度学习的防啸叫扩声方法及系统

Country Status (1)

Country Link
CN (1) CN110234051B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111210021B (zh) * 2020-01-09 2023-04-14 腾讯科技(深圳)有限公司 一种音频信号处理方法、模型训练方法以及相关装置
CN111526469A (zh) * 2020-04-30 2020-08-11 成都千立网络科技有限公司 一种基于神经网络的扩声系统啸叫点检测方法
CN112669868B (zh) * 2020-12-23 2021-11-26 广州智讯通信系统有限公司 基于指挥调度系统的语音啸叫抑制方法、设备、存储介质
CN116233697B (zh) * 2022-04-19 2023-09-05 中国科学院声学研究所 一种基于深度学习的声反馈的抑制方法及系统
CN114724573A (zh) * 2022-06-09 2022-07-08 广州市保伦电子有限公司 一种啸叫抑制方法、装置、计算机可读存储介质以及系统
CN115243162B (zh) * 2022-07-14 2023-09-29 中国科学院声学研究所 一种基于深度学习的闭环系统声反馈抑制方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101227761A (zh) * 2006-11-07 2008-07-23 美商富迪科技股份有限公司 自动消除啸音的声音处理装置与方法
CN102860039A (zh) * 2009-11-12 2013-01-02 罗伯特·亨利·弗莱特 免提电话和/或麦克风阵列以及使用它们的方法和系统
CN105611477A (zh) * 2015-12-27 2016-05-25 北京工业大学 数字助听器中深度和广度神经网络相结合的语音增强算法
KR101970731B1 (ko) * 2017-12-06 2019-05-17 주식회사 열림기술 인공지능 스피커 및 이의 제어 방법
CN109788400A (zh) * 2019-03-06 2019-05-21 哈尔滨工业大学(深圳) 一种用于数字助听器的神经网络啸叫抑制方法、系统及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107360497B (zh) * 2017-07-14 2020-09-29 深圳永顺智信息科技有限公司 估算混响分量的计算方法及装置
CN109218957B (zh) * 2018-10-23 2020-11-27 北京达佳互联信息技术有限公司 啸叫检测方法、装置、电子设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101227761A (zh) * 2006-11-07 2008-07-23 美商富迪科技股份有限公司 自动消除啸音的声音处理装置与方法
CN102860039A (zh) * 2009-11-12 2013-01-02 罗伯特·亨利·弗莱特 免提电话和/或麦克风阵列以及使用它们的方法和系统
CN105611477A (zh) * 2015-12-27 2016-05-25 北京工业大学 数字助听器中深度和广度神经网络相结合的语音增强算法
KR101970731B1 (ko) * 2017-12-06 2019-05-17 주식회사 열림기술 인공지능 스피커 및 이의 제어 방법
CN109788400A (zh) * 2019-03-06 2019-05-21 哈尔滨工业大学(深圳) 一种用于数字助听器的神经网络啸叫抑制方法、系统及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
小白都能看懂的softmax详解;bitcarmanlee;《https://blog.csdn.net/bitcarmanlee/article/details/82320853》;20180902;第1-4页 *

Also Published As

Publication number Publication date
CN110234051A (zh) 2019-09-13

Similar Documents

Publication Publication Date Title
CN110234051B (zh) 一种基于深度学习的防啸叫扩声方法及系统
CN101682809B (zh) 声音辨别方法和装置
CN112820315B (zh) 音频信号处理方法、装置、计算机设备及存储介质
CN105284133B (zh) 基于信号下混比进行中心信号缩放和立体声增强的设备和方法
WO2005101898A2 (en) A method and system for sound source separation
CN108886650A (zh) 用于音频再现的子带空间和串扰消除
Lugasi et al. Speech enhancement using masking for binaural reproduction of Ambisonics signals
CN103916810A (zh) 一种时域声能量对比控制方法和系统
Soulodre About this dereverberation business: A method for extracting reverberation from audio signals
Healy et al. A causal and talker-independent speaker separation/dereverberation deep learning algorithm: Cost associated with conversion to real-time capable operation
CN111696515B (zh) 一种用于教学录播的音频混音方法
CN110913305B (zh) 一种车载音响的自适应均衡器补偿方法
Rämö et al. Perceptual frequency response simulator for music in noisy environments
Clifford et al. Proximity effect detection for directional microphones
WO2023051622A1 (zh) 提升远场语音交互性能的方法和远场语音交互系统
CN103916733B (zh) 基于均方误差最小准则的声能量对比控制方法及系统
JP4116600B2 (ja) 収音方法、収音装置、収音プログラム、およびこれを記録した記録媒体
Han et al. Multi-channel speech denoising for machine ears
Abel et al. Recording in a virtual acoustic environment
Jeffet et al. Study of a generalized spherical array beamformer with adjustable binaural reproduction
Hill et al. Wide-area psychoacoustic correction for problematic room-modes using nonlinear bass synthesis
CN209710319U (zh) 一种教育扩声系统
Griesinger Laboratory reproduction of binaural concert hall measurements through individual headphone equalization at the eardrum
Griesinger The physics of auditory proximity and its effects on intelligibility and recall
Li et al. TaylorBeamixer: Learning Taylor-Inspired All-Neural Multi-Channel Speech Enhancement from Beam-Space Dictionary Perspective

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant