CN110534127A - 应用于室内环境中的麦克风阵列语音增强方法及装置 - Google Patents
应用于室内环境中的麦克风阵列语音增强方法及装置 Download PDFInfo
- Publication number
- CN110534127A CN110534127A CN201910909484.4A CN201910909484A CN110534127A CN 110534127 A CN110534127 A CN 110534127A CN 201910909484 A CN201910909484 A CN 201910909484A CN 110534127 A CN110534127 A CN 110534127A
- Authority
- CN
- China
- Prior art keywords
- signal
- voice signal
- channel
- noise
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000012545 processing Methods 0.000 claims abstract description 29
- 238000013528 artificial neural network Methods 0.000 claims abstract description 26
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 22
- 239000000284 extract Substances 0.000 claims abstract description 22
- 238000001914 filtration Methods 0.000 claims abstract description 22
- 230000009467 reduction Effects 0.000 claims abstract description 15
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000001228 spectrum Methods 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 230000002708 enhancing effect Effects 0.000 abstract description 8
- 239000011159 matrix material Substances 0.000 abstract description 4
- 230000000903 blocking effect Effects 0.000 abstract description 3
- 238000013527 convolutional neural network Methods 0.000 description 7
- 239000004568 cement Substances 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000001427 coherent effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003475 lamination Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明提供了一种应用于室内环境中的麦克风阵列语音增强方法及装置,所述方法包括:对麦克风阵列采集到的语音信号进行预处理后,进行时延补偿;将经过时延补偿后的语音信号输入第一降噪通道进行固定波束形成处理,得到固定波束形成信号,同时,将经过时延补偿后的语音信号输入噪声提取通道,提取出各路语音信号的噪声;将固定波束形成信号与各通道语音信号中的噪声进行LMS自适应滤波,得到初步增强语音信号;利用神经网络去噪模块对初步增强语音信号进行去噪处理,得到最终输出信号。本发明采用小波分解的方法取代阻塞矩阵来提取各输入通道中语音信号的噪声,并用神经网络去噪算法作为后置滤波算法,从而有效提高了语音增强系统的鲁棒性和实用性。
Description
技术领域
本发明涉及信号处理技术领域,尤其是涉及一种应用于室内环境中的麦克风阵列语音增强方法及装置。
背景技术
利用麦克风阵列进行语音增强是语音信号处理领域中的一个热点。麦克风阵列由一定数目的麦克风按照一定空间结构组合而成,其采集到的语音信号不仅包含时频信息,还包括了空间信息,因此可以通过麦克风阵列空间指向特性,追踪声源信号的空间位置,抑制其他方向的噪声和干扰,达到增强目标语音、改善语音质量的目的。麦克风阵列已经在人机交互、视频会议、说话人识别等领域中得到广泛的应用。
经过多年的研究,现在常用的麦克风语音增强技术有以下三种:固定波束形成法、自适应波束形成法和后置滤波器的波束形成法。其中,GSC(广义旁瓣抵消器)结构的自适应波束形成法应用最为广泛。在简单的背景噪声环境下,常规的麦克风阵列语音增强算法有较好的语音增强性能。但是实际室内的噪声环境十分复杂:其他人说话声的干扰、各种电器的噪声、室外突然传来的干扰噪声、噪声持续时间以及噪声强度不确定、目标声源位置通常不固定、阵列接收到的语音信号信噪比较低等,这些因素都会使常规的麦克风阵列语音增强算法性能大打折扣。且常用的语音增强算法都会或多或少造成语音失真,影响语音质量。
发明内容
本发明实施例提供一种应用于室内环境中的麦克风阵列语音增强方法及装置,以解决现有的麦克风阵列语音增强系统无法在复杂噪声环境中保持良好的性能以获取高质量语音的问题,从而提高麦克风阵列语音增强算法的鲁棒性,在复杂的室内噪声环境中仍然能对采集到的语音信号进行高性能的语音增强,且只带来微弱的语音失真,进而获取到高质量的语音。
为了解决上述技术问题,本发明实施例提供了一种应用于室内环境中的麦克风阵列语音增强方法,包括:
对麦克风阵列采集到的M路语音信号进行预处理;其中,所述预处理包括低通滤波和加窗分帧处理;
对经过预处理后的M路语音信号进行时延补偿;
将经过时延补偿后的M路语音信号输入第一降噪通道进行固定波束形成处理,得到第n时刻的固定波束形成信号yc(n),同时,将所述经过时延补偿后的M路语音信号输入噪声提取通道,提取出第n时刻各路语音信号的噪声N(n);
将所述固定波束形成信号yc(n)与所述各通道语音信号中的噪声N(n)进行LMS自适应滤波,得到初步增强后的语音信号ya(n);
利用神经网络去噪模块对所述初步增强后的语音信号ya(n)进行去噪处理,得到最终输出信号yo(n)。
进一步地,所述对经过预处理后的M路语音信号进行时延补偿,具体为:
采用广义互相关法计算各通道信号相对于预设的参考通道信号的时延,根据得到的时延计算结果对各通道信号进行相应的时移,以使各通道信号的时间对齐。
进一步地,所述将经过时延补偿后的M路语音信号输入第一降噪通道进行固定波束形成处理,得到第n时刻的固定波束形成信号yc(n),具体为:
将经过时延补偿后的M路语音信号输入第一降噪通道进行固定波束形成处理,得到第n时刻的固定波束形成信号yc(n),所述固定波束形成信号yc(n)计算公式为:
其中,M代表M路语音信号,n表示语音信号的第n时刻,τi表示第i通道语音信号相对于所述预设的参考通道的时延。
进一步地,所述将所述经过时延补偿后的M路语音信号输入噪声提取通道,提取出第n时刻各路语音信号的噪声N(n),具体为:
根据预选的小波函数以及预设的分解级数对各通道语音信号进行小波分解,得到目标信号和噪声信号的小波系数;
根据预设的阈值对所述小波系数进行筛选得到目标小波系数后,利用所述目标小波系数进行噪声重构得到第n时刻各路语音信号的噪声N(n)。
进一步地,所述利用神经网络去噪模块对所述初步增强后的语音信号ya(n)进行去噪处理,得到最终输出信号yo(n),具体为:
获取所述初步增强后的语音信号ya(n)的幅值信息Ya[k,m]和相位信息∠Ya[k,m];其中,k代表语音信号的频率,m代表语音信号的帧数;
利用所述神经网络去噪模块对所述幅值信息Ya[k,m]进行处理得到第二幅值信息其中,W为预先训练得到的去噪因子;
利用所述相位信息∠Ya[k,m]和所述第二幅值信息进行重构,得到增强后的语音频谱
对所述增强后的语音频谱Yo[k,m]进行逆短时傅里叶变换,得到最终输出信号yo(n)。
为了解决相同的技术问题,本发明还提供了一种应用于室内环境中的麦克风阵列语音增强装置,包括:
信号预处理模块,用于对麦克风阵列采集到的M路语音信号进行预处理;其中,所述预处理包括低通滤波和加窗分帧处理;
信号时延补偿模块,用于对经过预处理后的M路语音信号进行时延补偿;
信号分解处理模块,用于将经过时延补偿后的M路语音信号输入第一降噪通道进行固定波束形成处理,得到第n时刻的固定波束形成信号yc(n),同时,将所述经过时延补偿后的M路语音信号输入噪声提取通道,提取出第n时刻各路语音信号的噪声N(n);
信号自适应滤波模块,用于将所述固定波束形成信号yc(n)与所述各通道语音信号中的噪声N(n)进行LMS自适应滤波,得到初步增强后的语音信号ya(n);
信号去噪及输出模块,用于利用神经网络去噪模块对所述初步增强后的语音信号ya(n)进行去噪处理,得到最终输出信号yo(n)。
进一步地,所述信号时延补偿模块具体用于:
采用广义互相关法计算各通道信号相对于预设的参考通道信号的时延,根据得到的时延计算结果对各通道信号进行相应的时移,以使各通道信号的时间对齐。
进一步地,所述信号分解处理模块具体用于:
将经过时延补偿后的M路语音信号输入第一降噪通道进行固定波束形成处理,得到第n时刻的固定波束形成信号yc(n),所述固定波束形成信号yc(n)计算公式为:
其中,M代表M路语音信号,n表示语音信号的第n时刻,τi表示第i通道语音信号相对于所述预设的参考通道的时延。
进一步地,所述信号分解处理模块具体还用于:
根据预选的小波函数以及预设的分解级数对各通道语音信号进行小波分解,得到目标信号和噪声信号的小波系数;
根据预设的阈值对所述小波系数进行筛选得到目标小波系数后,利用所述目标小波系数进行噪声重构得到第n时刻各路语音信号的噪声N(n)。
进一步地,所述信号去噪及输出模块具体用于:
获取所述初步增强后的语音信号ya(n)的幅值信息Ya[k,m]和相位信息∠Ya[k,m];其中,k代表语音信号的频率,m代表语音信号的帧数;
利用所述神经网络去噪模块对所述幅值信息Ya[k,m]进行处理得到第二幅值信息其中,W为预先训练得到的去噪因子;
利用所述相位信息∠Ya[k,m]和所述第二幅值信息进行重构,得到增强后的语音频谱
对所述增强后的语音频谱Yo[k,m]进行逆短时傅里叶变换,得到最终输出信号yo(n)。
与现有技术相比,本发明具有如下有益效果:
本发明采用小波分解的方法提取各输入通道中语音信号的噪声,在多干扰噪声源、低信噪比及无直达语音等条件下仍然能有效提取各通道语音信号中噪声,且只造成微弱的语音泄露,能极大地提高算法的鲁棒性。另外,使用神经网络去噪算法作为后置滤波算法,能适应各种复杂的噪声环境,有效去除残留在语音信号中的噪声,且只会造成极其轻微的语音失真,在处理低信噪比的语音信号时仍然能保持高性能,非常适合应用于室内环境中的语音增强需求。
附图说明
图1是本发明一实施例提供的应用于室内环境中的麦克风阵列语音增强方法的流程示意图;
图2是本发明一实施例提供的应用于室内环境的麦克风阵列语音增强系统的应用示意图;
图3是本发明一实施例提供的卷积神经网络语音去噪模块原理示意图;
图4是本发明一实施例提供的卷积神经网络的结构示意图;
图5是本发明一实施例提供的应用于室内环境中的麦克风阵列语音增强装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,本发明实施例提供了一种应用于室内环境中的麦克风阵列语音增强方法,包括:
步骤S1、对麦克风阵列采集到的M路语音信号进行预处理;其中,所述预处理包括低通滤波和加窗分帧处理;
请结合图2,在本发明实施例中,第一步,首先对麦克风阵列采集到的M路语音信号X1~XM进行预处理。语音信号是宽带信号,通常语音处理领域中感兴趣的是300-3400Hz范围内的频谱分量,因此先对语音信号进行低通滤波,抑制高频噪声。由于语音信号具有短时平稳性(在10-30ms语音信号可看作稳定信号),因此需要对语音信号进行加窗、分帧处理。先对语音信号进行16kHz采样,再用汉宁窗进行加窗处理,帧长为256点,帧移为128点。
步骤S2、对经过预处理后的M路语音信号进行时延补偿;
进一步地,步骤S2具体为:
采用广义互相关法计算各通道信号相对于预设的参考通道信号的时延,根据得到的时延计算结果对各通道信号进行相应的时移,以使各通道信号的时间对齐。
在具体实施例中,第二步,可选地,以通道1为参考通道,采用广义互相关法(GCC)估计各通道信号相对于参考通道信号的时延,然后进行时延补偿。具体过程如下:先求出各通道信号与参考通道信号的互功率谱函数,再进行加权处理降低噪声和混响等的影响,然后通过逆变换在时域中利用互相关函数估计时间延迟,再对各信号进行相应的时移从而使时间对齐。
步骤S3、将经过时延补偿后的M路语音信号输入第一降噪通道进行固定波束形成处理,得到第n时刻的固定波束形成信号yc(n),同时,将所述经过时延补偿后的M路语音信号输入噪声提取通道,提取出第n时刻各路语音信号的噪声N(n);
进一步地,步骤S3具体包括:
步骤S311、将经过时延补偿后的M路语音信号输入第一降噪通道进行固定波束形成处理,得到第n时刻的固定波束形成信号yc(n),所述固定波束形成信号yc(n)计算公式为:
其中,M代表M路语音信号,n表示语音信号的第n时刻,τi表示第i通道语音信号相对于所述预设的参考通道的时延。
进一步地,步骤S3具体包括:
步骤S321、根据预选的小波函数以及预设的分解级数对各通道语音信号进行小波分解,得到目标信号和噪声信号的小波系数;
步骤S322、根据预设的阈值对所述小波系数进行筛选得到目标小波系数后,利用所述目标小波系数进行噪声重构得到第n时刻各路语音信号的噪声N(n)。
在具体实施例中,第三步,在完成时延补偿后,将输入信号分别输入至图2中的上下两个通道。其中,在上通道进行固定波束形成以消除不相干噪声,具体操作为:将时间对齐后的各通道信号相加求和并取其平均值,输出表示为:
其中,M代表M路语音信号,n表示语音信号的第n个时间点,τ表示该通道语音信号相对于参考通道的时延。
在具体实施例中,第四步,使用小波分解的方法提取各通道语音信号的噪声。Daubechies(dbN)小波系具有正交性、紧支撑的特点,适合用于语音信号处理,因此优选地可选取dbN小波系作为小波分解的小波基函数。室内环境下采集到的语音信号信噪比一般不会超过20dB,因此优选地可将小波分解级数设定为4。在对各通道语音信号进行完小波分解获得目标信号及噪声信号的小波系数后,选择一个合理的阈值对小波系数进行处理,保留幅值较小的小波系数,然后对处理后的系数进行重构,提取出各通道语音信号中的噪声N(n)。
步骤S4、将所述固定波束形成信号yc(n)与所述各通道语音信号中的噪声N(n)进行LMS自适应滤波,得到初步增强后的语音信号ya(n);
在具体实施例中,第五步,将第三步中得到的固定波束形成输出yc(n)与第四步中得到的各通道语音信号中的噪声N(n)进行最小均方差(LMS)自适应滤波。假设滤波器系数向量为W=[W1 W2 … WM]T,T表示对矩阵进行转置,则有:
ye(n)=W(n)TN(n)
于是输出为:
ya(n)=yc(n)-ye(n)
权值更新公式为:
Wi(n+1)=Wi(n)+μya(n)N(n)
其中μ为步长,i为小波分解提取噪声的输出端的第i个标号。
步骤S5、利用神经网络去噪模块对所述初步增强后的语音信号ya(n)进行去噪处理,得到最终输出信号yo(n)。
进一步地,步骤S5具体为:
获取所述初步增强后的语音信号ya(n)的幅值信息Ya[k,m]和相位信息∠Ya[k,m];其中,k代表语音信号的频率,m代表语音信号的帧数;
利用所述神经网络去噪模块对所述幅值信息Ya[k,m]进行处理得到第二幅值信息其中,W为预先训练得到的去噪因子;
利用所述相位信息∠Ya[k,m]和所述第二幅值信息进行重构,得到增强后的语音频谱
对所述增强后的语音频谱Yo[k,m]进行逆短时傅里叶变换,得到最终输出信号yo(n)。
在具体实施例中,第六步,使用神经网络去噪模块作为后置滤波算法对输出ya(n)进行处理。神经网络去噪原理如下:设干净语音为s,带噪语音为x,噪声为v,则有:
x(n)=s(n)+v(n)
对其进行短时傅里叶变换(STFT),得到:
X[k,m]=S[k,m]+V[k,m]
其中k是频率,m是帧数。语音去噪的目的是使带噪语音经过处理后尽可能接近干净语音,假设存在去噪因子W使得:
使用去噪因子W进行语音增强后的语音信号的幅值可以表示为:
语音去噪相当于为求解去噪因子W的过程。本发明使用卷积神经网络求解W,原理如图3所示。结合图3,说明其工作过程。将干净语音及与之对应的包含各种常见噪声的多种信噪比的带噪语音作为训练集,其中干净语音作为参考,训练时使带噪语音经过神经网络处理后尽可能接近干净语音。先对训练集中的数据进行短时傅里叶变换(STFT),得到其相位信息及幅值信息。由于语音信号对相位不敏感,因此保留相位信息用于重构去噪后的语音信号,然后将幅值信息作为输入传输至神经网络中训练。在完成对训练集数据的训练后,就能得到去噪因子W,去噪因子W即为神经网络中的各个卷积层及全连接层中的卷积核权值。
在实际应用中,先对输入的语音信号ya(n)进行处理,得到其幅值信息Ya[k,m]及相位信息∠Ya[k,m],然后将幅值信息Ya[k,m]输入至神经网络中,经过去噪因子W处理后得到:
然后,利用相位信息∠Ya[k,m]与神经网络处理后得到的幅值信息重构得到增强后的语音的频谱:
对Yo[k,m]进行逆短时傅里叶变换(ISTFT)即可得到最终的输出信号yo(n)。
作为优选方案,所用的卷积神经网络结构如图4所示,包含两个卷积层、两个池化层、两个全连接层,最后一个全连接层作为输出层,第一个卷积层有32个卷积核,第二个卷积层有64个卷积核,卷积核尺寸均为1*5,池化层尺寸均为1*3,采用RELU函数作为激活函数。由于88ms内的语音信号保留的语音信息最多,因此本发明实施例中的卷积神经网络的输入为11帧数据(由当前帧、前5帧及后5帧组成)的对数功率谱,即输入为11*129,输出为去噪后语音的对数功率谱,大小为1*129。
在本发明实施例中,需要说明的是,在小波分解提取各通道语音的噪声的步骤中,还可以选择dbN小波系以外的小波函数以不同的分解级数提取语音和噪声的小波系数,可以根据不同的阈值选择方法重构噪声。
另外,在神经网络去噪模块对语音进行处理的步骤中,卷积神经网络的结构是多样的,在实际应用中可以有不同数量的卷积层、池化层和全连接层,卷积核数量、卷积核尺寸、激活函数、池化层尺寸、全连接层大小都有多种不同选择。卷积神经网络的输入也具有多样性,可以将不同尺寸的原始语音或其他语音特征作为输入。
需要说明的是,传统的GSC结构语音增强算法使用阻塞矩阵阻塞目标方向的语音信号来估计麦克风阵列接收到的噪声和干扰。但是阻塞矩阵在多干扰噪声源、低信噪比及无直达语音等条件下会出现语音泄露,使语音增强算法性能严重下降。
本发明使用小波分解的方法在上述不利条件中仍然能有效提取各通道语音信号中噪声,且只造成微弱的语音泄露,能极大地提高算法的鲁棒性。
实际应用于室内环境中的麦克风阵列会受到复杂的噪声干扰,传统的GSC结构语音增强算法对强相干噪声有较好的处理能力,但仍会残留大量的弱相干噪声,采用传统的后置滤波算法进行优化过程复杂,还会带来一定程度的语音失真,影响最终的语音质量。
本发明使用神经网络去噪算法作为后置滤波算法,能适应各种复杂的噪声环境,有效去除残留在语音信号中的噪声,只会造成极其轻微的语音失真,在处理低信噪比的语音信号时仍然能保持高性能,非常适合应用于室内环境中的语音增强需求。
需要说明的是,对于以上方法或流程实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作并不一定是本发明实施例所必须的。
请参见图5,为了解决相同的技术问题,本发明还提供了一种应用于室内环境中的麦克风阵列语音增强装置,包括:
信号预处理模块,用于对麦克风阵列采集到的M路语音信号进行预处理;其中,所述预处理包括低通滤波和加窗分帧处理;
信号时延补偿模块,用于对经过预处理后的M路语音信号进行时延补偿;
信号分解处理模块,用于将经过时延补偿后的M路语音信号输入第一降噪通道进行固定波束形成处理,得到第n时刻的固定波束形成信号yc(n),同时,将所述经过时延补偿后的M路语音信号输入噪声提取通道,提取出第n时刻各路语音信号的噪声N(n);
信号自适应滤波模块,用于将所述固定波束形成信号yc(n)与所述各通道语音信号中的噪声N(n)进行LMS自适应滤波,得到初步增强后的语音信号ya(n);
信号去噪及输出模块,用于利用神经网络去噪模块对所述初步增强后的语音信号ya(n)进行去噪处理,得到最终输出信号yo(n)。
进一步地,所述信号时延补偿模块具体用于:
采用广义互相关法计算各通道信号相对于预设的参考通道信号的时延,根据得到的时延计算结果对各通道信号进行相应的时移,以使各通道信号的时间对齐。
进一步地,所述信号分解处理模块具体用于:
将经过时延补偿后的M路语音信号输入第一降噪通道进行固定波束形成处理,得到第n时刻的固定波束形成信号yc(n),所述固定波束形成信号yc(n)计算公式为:
其中,M代表M路语音信号,n表示语音信号的第n时刻,τi表示第i通道语音信号相对于所述预设的参考通道的时延。
进一步地,所述信号分解处理模块具体还用于:
根据预选的小波函数以及预设的分解级数对各通道语音信号进行小波分解,得到目标信号和噪声信号的小波系数;
根据预设的阈值对所述小波系数进行筛选得到目标小波系数后,利用所述目标小波系数进行噪声重构得到第n时刻各路语音信号的噪声N(n)。
进一步地,所述信号去噪及输出模块具体用于:
获取所述初步增强后的语音信号ya(n)的幅值信息Ya[k,m]和相位信息∠Ya[k,m];其中,k代表语音信号的频率,m代表语音信号的帧数;
利用所述神经网络去噪模块对所述幅值信息Ya[k,m]进行处理得到第二幅值信息其中,W为预先训练得到的去噪因子;
利用所述相位信息∠Ya[k,m]和所述第二幅值信息进行重构,得到增强后的语音频谱
对所述增强后的语音频谱Yo[k,m]进行逆短时傅里叶变换,得到最终输出信号yo(n)。
可以理解的是上述装置项实施例,是与本发明方法项实施例相对应的,本发明实施例提供的一种应用于室内环境中的麦克风阵列语音增强装置,可以实现本发明任意一项方法项实施例提供的应用于室内环境中的麦克风阵列语音增强方法。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (10)
1.一种应用于室内环境中的麦克风阵列语音增强方法,其特征在于,包括:
对麦克风阵列采集到的M路语音信号进行预处理;其中,所述预处理包括低通滤波和加窗分帧处理;
对经过预处理后的M路语音信号进行时延补偿;
将经过时延补偿后的M路语音信号输入第一降噪通道进行固定波束形成处理,得到第n时刻的固定波束形成信号yc(n),同时,将所述经过时延补偿后的M路语音信号输入噪声提取通道,提取出第n时刻各路语音信号的噪声N(n);
将所述固定波束形成信号yc(n)与所述各通道语音信号中的噪声N(n)进行LMS自适应滤波,得到初步增强后的语音信号ya(n);
利用神经网络去噪模块对所述初步增强后的语音信号ya(n)进行去噪处理,得到最终输出信号yo(n)。
2.根据权利要求1所述的应用于室内环境中的麦克风阵列语音增强方法,其特征在于,所述对经过预处理后的M路语音信号进行时延补偿,具体为:
采用广义互相关法计算各通道信号相对于预设的参考通道信号的时延,根据得到的时延计算结果对各通道信号进行相应的时移,以使各通道信号的时间对齐。
3.根据权利要求2所述的应用于室内环境中的麦克风阵列语音增强方法,其特征在于,所述将经过时延补偿后的M路语音信号输入第一降噪通道进行固定波束形成处理,得到第n时刻的固定波束形成信号yc(n),具体为:
将经过时延补偿后的M路语音信号输入第一降噪通道进行固定波束形成处理,得到第n时刻的固定波束形成信号yc(n),所述固定波束形成信号yc(n)计算公式为:
其中,M代表M路语音信号,n表示语音信号的第n时刻,τi表示第i通道语音信号相对于所述预设的参考通道的时延。
4.根据权利要求1所述的应用于室内环境中的麦克风阵列语音增强方法,其特征在于,所述将所述经过时延补偿后的M路语音信号输入噪声提取通道,提取出第n时刻各路语音信号的噪声N(n),具体为:
根据预选的小波函数以及预设的分解级数对各通道语音信号进行小波分解,得到目标信号和噪声信号的小波系数;
根据预设的阈值对所述小波系数进行筛选得到目标小波系数后,利用所述目标小波系数进行噪声重构得到第n时刻各路语音信号的噪声N(n)。
5.根据权利要求1所述的应用于室内环境中的麦克风阵列语音增强方法,其特征在于,所述利用神经网络去噪模块对所述初步增强后的语音信号ya(n)进行去噪处理,得到最终输出信号yo(n),具体为:
获取所述初步增强后的语音信号ya(n)的幅值信息Ya[k,m]和相位信息∠Ya[k,m];其中,k代表语音信号的频率,m代表语音信号的帧数;
利用所述神经网络去噪模块对所述幅值信息Ya[k,m]进行处理得到第二幅值信息其中,W为预先训练得到的去噪因子;
利用所述相位信息∠Ya[k,m]和所述第二幅值信息进行重构,得到增强后的语音频谱
对所述增强后的语音频谱Yo[k,m]进行逆短时傅里叶变换,得到最终输出信号yo(n)。
6.一种应用于室内环境中的麦克风阵列语音增强装置,其特征在于,包括:
信号预处理模块,用于对麦克风阵列采集到的M路语音信号进行预处理;其中,所述预处理包括低通滤波和加窗分帧处理;
信号时延补偿模块,用于对经过预处理后的M路语音信号进行时延补偿;
信号分解处理模块,用于将经过时延补偿后的M路语音信号输入第一降噪通道进行固定波束形成处理,得到第n时刻的固定波束形成信号yc(n),同时,将所述经过时延补偿后的M路语音信号输入噪声提取通道,提取出第n时刻各路语音信号的噪声N(n);
信号自适应滤波模块,用于将所述固定波束形成信号yc(n)与所述各通道语音信号中的噪声N(n)进行LMS自适应滤波,得到初步增强后的语音信号ya(n);
信号去噪及输出模块,用于利用神经网络去噪模块对所述初步增强后的语音信号ya(n)进行去噪处理,得到最终输出信号yo(n)。
7.根据权利要求6所述的应用于室内环境中的麦克风阵列语音增强装置,其特征在于,所述信号时延补偿模块具体用于:
采用广义互相关法计算各通道信号相对于预设的参考通道信号的时延,根据得到的时延计算结果对各通道信号进行相应的时移,以使各通道信号的时间对齐。
8.根据权利要求7所述的应用于室内环境中的麦克风阵列语音增强装置,其特征在于,所述信号分解处理模块具体用于:
将经过时延补偿后的M路语音信号输入第一降噪通道进行固定波束形成处理,得到第n时刻的固定波束形成信号yc(n),所述固定波束形成信号yc(n)计算公式为:
其中,M代表M路语音信号,n表示语音信号的第n时刻,τi表示第i通道语音信号相对于所述预设的参考通道的时延。
9.根据权利要求6所述的应用于室内环境中的麦克风阵列语音增强装置,其特征在于,所述信号分解处理模块具体还用于:
根据预选的小波函数以及预设的分解级数对各通道语音信号进行小波分解,得到目标信号和噪声信号的小波系数;
根据预设的阈值对所述小波系数进行筛选得到目标小波系数后,利用所述目标小波系数进行噪声重构得到第n时刻各路语音信号的噪声N(n)。
10.根据权利要求6所述的应用于室内环境中的麦克风阵列语音增强装置,其特征在于,所述信号去噪及输出模块具体用于:
获取所述初步增强后的语音信号ya(n)的幅值信息Ya[k,m]和相位信息∠Ya[k,m];其中,k代表语音信号的频率,m代表语音信号的帧数;
利用所述神经网络去噪模块对所述幅值信息Ya[k,m]进行处理得到第二幅值信息其中,W为预先训练得到的去噪因子;
利用所述相位信息∠Ya[k,m]和所述第二幅值信息进行重构,得到增强后的语音频谱
对所述增强后的语音频谱Yo[k,m]进行逆短时傅里叶变换,得到最终输出信号yo(n)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910909484.4A CN110534127A (zh) | 2019-09-24 | 2019-09-24 | 应用于室内环境中的麦克风阵列语音增强方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910909484.4A CN110534127A (zh) | 2019-09-24 | 2019-09-24 | 应用于室内环境中的麦克风阵列语音增强方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110534127A true CN110534127A (zh) | 2019-12-03 |
Family
ID=68670030
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910909484.4A Pending CN110534127A (zh) | 2019-09-24 | 2019-09-24 | 应用于室内环境中的麦克风阵列语音增强方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110534127A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111866665A (zh) * | 2020-07-22 | 2020-10-30 | 海尔优家智能科技(北京)有限公司 | 麦克风阵列波束形成方法及装置 |
CN112770222A (zh) * | 2020-12-25 | 2021-05-07 | 苏州思必驰信息科技有限公司 | 音频处理方法和装置 |
WO2021160533A1 (de) * | 2020-02-14 | 2021-08-19 | Lawo Holding Ag | Extraktion eines audioobjektes |
CN114355292A (zh) * | 2021-12-28 | 2022-04-15 | 华南理工大学 | 一种无线耳机及其麦克风定位方法 |
CN115656341A (zh) * | 2022-11-03 | 2023-01-31 | 江苏光微半导体有限公司 | 基于mems技术的量子声波传感器及阵列声纹系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1753084A (zh) * | 2004-09-23 | 2006-03-29 | 哈曼贝克自动系统股份有限公司 | 使用噪声降低的多通道自适应语音信号处理 |
CN101976565A (zh) * | 2010-07-09 | 2011-02-16 | 瑞声声学科技(深圳)有限公司 | 基于双麦克风语音增强装置及方法 |
CN102347028A (zh) * | 2011-07-14 | 2012-02-08 | 瑞声声学科技(深圳)有限公司 | 双麦克风语音增强装置及方法 |
CN102509552A (zh) * | 2011-10-21 | 2012-06-20 | 浙江大学 | 一种基于联合抑制的麦克风阵列语音增强方法 |
CN103856871A (zh) * | 2012-12-06 | 2014-06-11 | 华为技术有限公司 | 麦克风阵列采集多声道声音的装置及其方法 |
CN103871420A (zh) * | 2012-12-13 | 2014-06-18 | 华为技术有限公司 | 麦克风阵列的信号处理方法及装置 |
CN105405439A (zh) * | 2015-11-04 | 2016-03-16 | 科大讯飞股份有限公司 | 语音播放方法及装置 |
CN109360581A (zh) * | 2018-10-12 | 2019-02-19 | 平安科技(深圳)有限公司 | 基于神经网络的语音增强方法、可读存储介质及终端设备 |
CN109444519A (zh) * | 2018-10-30 | 2019-03-08 | 国网上海市电力公司 | 面向复杂声环境的变电站噪声源分离方法 |
CN109616119A (zh) * | 2019-02-12 | 2019-04-12 | 中南民族大学 | 一种基于IPv6协议的多功能网关设备 |
CN110033757A (zh) * | 2019-04-04 | 2019-07-19 | 行知技术有限公司 | 一种人声识别算法 |
-
2019
- 2019-09-24 CN CN201910909484.4A patent/CN110534127A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1753084A (zh) * | 2004-09-23 | 2006-03-29 | 哈曼贝克自动系统股份有限公司 | 使用噪声降低的多通道自适应语音信号处理 |
CN101976565A (zh) * | 2010-07-09 | 2011-02-16 | 瑞声声学科技(深圳)有限公司 | 基于双麦克风语音增强装置及方法 |
CN102347028A (zh) * | 2011-07-14 | 2012-02-08 | 瑞声声学科技(深圳)有限公司 | 双麦克风语音增强装置及方法 |
CN102509552A (zh) * | 2011-10-21 | 2012-06-20 | 浙江大学 | 一种基于联合抑制的麦克风阵列语音增强方法 |
CN103856871A (zh) * | 2012-12-06 | 2014-06-11 | 华为技术有限公司 | 麦克风阵列采集多声道声音的装置及其方法 |
CN103871420A (zh) * | 2012-12-13 | 2014-06-18 | 华为技术有限公司 | 麦克风阵列的信号处理方法及装置 |
CN105405439A (zh) * | 2015-11-04 | 2016-03-16 | 科大讯飞股份有限公司 | 语音播放方法及装置 |
CN109360581A (zh) * | 2018-10-12 | 2019-02-19 | 平安科技(深圳)有限公司 | 基于神经网络的语音增强方法、可读存储介质及终端设备 |
CN109444519A (zh) * | 2018-10-30 | 2019-03-08 | 国网上海市电力公司 | 面向复杂声环境的变电站噪声源分离方法 |
CN109616119A (zh) * | 2019-02-12 | 2019-04-12 | 中南民族大学 | 一种基于IPv6协议的多功能网关设备 |
CN110033757A (zh) * | 2019-04-04 | 2019-07-19 | 行知技术有限公司 | 一种人声识别算法 |
Non-Patent Citations (1)
Title |
---|
李斌等: "《一种广义旁瓣抵消器结构的语音增强改进算法》", 《数据采集与处理》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021160533A1 (de) * | 2020-02-14 | 2021-08-19 | Lawo Holding Ag | Extraktion eines audioobjektes |
CN111866665A (zh) * | 2020-07-22 | 2020-10-30 | 海尔优家智能科技(北京)有限公司 | 麦克风阵列波束形成方法及装置 |
CN111866665B (zh) * | 2020-07-22 | 2022-01-28 | 海尔优家智能科技(北京)有限公司 | 麦克风阵列波束形成方法及装置 |
CN112770222A (zh) * | 2020-12-25 | 2021-05-07 | 苏州思必驰信息科技有限公司 | 音频处理方法和装置 |
CN114355292A (zh) * | 2021-12-28 | 2022-04-15 | 华南理工大学 | 一种无线耳机及其麦克风定位方法 |
CN114355292B (zh) * | 2021-12-28 | 2022-09-23 | 华南理工大学 | 一种无线耳机及其麦克风定位方法 |
CN115656341A (zh) * | 2022-11-03 | 2023-01-31 | 江苏光微半导体有限公司 | 基于mems技术的量子声波传感器及阵列声纹系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110534127A (zh) | 应用于室内环境中的麦克风阵列语音增强方法及装置 | |
CN108831495B (zh) | 一种应用于噪声环境下语音识别的语音增强方法 | |
Saleem et al. | Deep neural networks for speech enhancement in complex-noisy environments | |
CN110148420A (zh) | 一种适用于噪声环境下的语音识别方法 | |
CN107993670B (zh) | 基于统计模型的麦克风阵列语音增强方法 | |
ES2347760T3 (es) | Procedimiento y dispositivo de reduccion de ruido. | |
CN108172235A (zh) | 基于维纳后置滤波的ls波束形成混响抑制方法 | |
CN109994120A (zh) | 基于双麦的语音增强方法、系统、音箱及存储介质 | |
EP2030200B1 (en) | Blind signal extraction | |
CN110517701B (zh) | 一种麦克风阵列语音增强方法及实现装置 | |
CN106887239A (zh) | 用于高度相关的混合物的增强型盲源分离算法 | |
Pertilä et al. | Distant speech separation using predicted time–frequency masks from spatial features | |
Visser et al. | A spatio-temporal speech enhancement scheme for robust speech recognition in noisy environments | |
Roman et al. | Binaural segregation in multisource reverberant environments | |
Saruwatari et al. | Blind source separation for speech based on fast-convergence algorithm with ICA and beamforming | |
CN104835503A (zh) | 一种改进gsc自适应语音增强方法 | |
Halimeh et al. | Complex-valued spatial autoencoders for multichannel speech enhancement | |
Geng et al. | End-to-end speech enhancement based on discrete cosine transform | |
Li et al. | The PCG-AIID system for L3DAS22 challenge: MIMO and MISO convolutional recurrent network for multi channel speech enhancement and speech recognition | |
Zhao et al. | Unet++-based multi-channel speech dereverberation and distant speech recognition | |
Xiong et al. | Spectro-Temporal SubNet for Real-Time Monaural Speech Denoising and Dereverberation. | |
Chen et al. | A dual-stream deep attractor network with multi-domain learning for speech dereverberation and separation | |
CN114613384B (zh) | 一种基于深度学习多输入语音信号波束形成信息互补方法 | |
Kashani et al. | Speech enhancement via deep spectrum image translation network | |
Hong et al. | Independent component analysis based single channel speech enhancement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191203 |