CN110827847A - 低信噪比见长的麦克风阵列语音去噪增强方法 - Google Patents
低信噪比见长的麦克风阵列语音去噪增强方法 Download PDFInfo
- Publication number
- CN110827847A CN110827847A CN201911185032.2A CN201911185032A CN110827847A CN 110827847 A CN110827847 A CN 110827847A CN 201911185032 A CN201911185032 A CN 201911185032A CN 110827847 A CN110827847 A CN 110827847A
- Authority
- CN
- China
- Prior art keywords
- signal
- voice
- noise
- time
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Abstract
本发明提供的一种低信噪比见长的麦克风阵列语音去噪增强方法,基于改进的人耳完美二元时频掩蔽的麦克风阵列语音增强算法,解决了现有技术的麦克风阵列语音增强算法在信噪比较低的情况下的性能较差的问题,将人耳的掩蔽效应巧妙加入到麦克风阵列语音去噪增强算法中,首先获取初阶采集增强的语音信号,然后根据带噪信号和初阶采集增强的语音信号判断预估噪声信号,通过初阶语音采集增强和判断预估噪声之间的信噪比关系设置阈值,计算完美二元时频掩蔽算法并合成增强后的语音信号。经过本发明算法增强后的语音信号可懂度更高,音质更好,在噪声强度较大、信噪比低的场景下,性能优势更加明显。
Description
技术领域
本发明涉及一种麦克风阵列语音去噪增强方法,特别涉及一种低信噪比见长的麦克风阵列语音去噪增强方法,属于语音去噪增强技术领域。
背景技术
声音的质量是决定人与人之间交流、甚至是人与机器之间交互是否高效的关键性因素,在各种现实环境中,人类采集语音时总是会不可避免的受到各种各样的噪声的干扰削弱,进而不同程度的影响通信的效果和质量,例如通信电子设备固有的电噪声、来自周围环境的背景噪声、房间混响回声、通过传输媒介带来的噪声等都能对语音造成严重干扰,语音通信的质量不能得到有效保障,导致利用语音进行处理或分析的各种系统的性能下降,例如在街道或车站内使用手机,常受到周围嘈杂环境的各种噪声的干扰,另外人机交互等智能设备在最些年逐渐成为热点,如果这些智能设备在强噪声干扰的环境下使用,语音识别的准确率会大幅降低,甚至可能无法正常使用或造成其他严重后果。因此,采用语音去噪增强算法预处理接收到的语音信号十分必要,通过语音去噪增强预处理,可以达到消除混响和回声的干扰、有效抑制背景噪声、提高语音通信的质量和改善语音可懂度的目的。
语音去噪增强预处理的具体实施方案和很多因素紧密相关,例如具体的应用场景、噪声源或干扰信号的特性、麦克风的数量等,其中,使用不同数量的麦克风采集到的音频信号的声道数也不同,能带来不同的语音增强效果,一般来说麦克风数量越多,语音增强的实现越容易,效果也更好,有至少一个麦克风靠近噪声源位置,还能利用自适应去噪技术消除噪声。
麦克风阵列语音增强使用由多个麦克风组成的麦克风阵列去采集语音和周围环境的信号,在期望方向上形成一个波束去拾取波束内的语音信号,可消除波束外的噪声信号的干扰,达到同时提取目标声源信号和抑制无关噪声信号的目的,利用麦克风阵列进行语音增强可明显提高增强效果。目前麦克风阵列语音增强技术正处于蓬勃发展阶段,具有良好的应用前景。体现出极大的优越性,在语音增强预处理技术阶段选择使用麦克风阵列收集信号更符合未来发展潮流。
现有技术的麦克风阵列语音增强算法有延时-求和波束形成方法,该方法给麦克风阵列接收信号不同的时延补偿,同步由不同麦克风采集的语音信号,进而通过加权求和的方式得到麦克风阵列的输出,但形成的波束的主瓣与信号的频率相关,如果目标声源与波束最大增益方向出现偏差,语音会严重失真;现有技术的滤波波束形成方法在时间对齐的同时,还对信号进行滤波,但在使用的麦克风个数较少时,不能取得较好的语音增强效果,也不能有效消除如方向性噪声和房间混响之类的相干噪声;现有技术的自适应波束形成方法用于处理语音信号和噪声随时间变化的环境,在保证期望方向信号不变的条件下,使阵列的输出功率达到最小,但是不可避免的会抵消掉带噪信号中一部分目标语音信号,这会降低语音的可懂度,从而在一定程度上会影响语音增强的效果,如果噪声场中含有非相干噪声或相关性较弱的噪声信号,降噪效果将更差;现有技术基于子空间的算法能有相对好的语音增强效果,但受到计算复杂度高的限制,不能推广到实际应用中,几乎没有实用价值。
综合来看,现有技术的麦克风阵列语音去噪增强方法主要存在以下几点缺陷:一是现有技术的算法处理的语音信号依然残留部分噪声,局部还十分明显,波形图和语谱图都与原始信号有一定差距,通过实际语音音频播放测试,测试者能够非常明显的感受到现有技术的算法输出的信号噪声依然存在,语音质量一般,特别是在低信噪比情况下的增强效果更差,语音质量和可懂度都很低;二是现有技术的算法形成的波束的主瓣与信号频率相关,如果目标声源与波束最大增益方向出现偏差,语音会严重失真;三是现有技术的算法在使用的麦克风个数较少时,不能取得较好的语音增强效果,也不能有效消除如方向性噪声和房间混响之类的相干噪声;四是现有技术的部分算法不可避免的会抵消掉带噪信号中一部分目标语音信号,降低语音的可懂度,在一定程度上会影响语音增强的效果,如果噪声场中含有非相干噪声或相关性较弱的噪声信号,降噪效果将更差;五是现有技术的部分算法过于复杂,受到计算复杂度高的限制,不能推广到实际应用中,几乎没有实用价值。
发明内容
针对现有技术的不足,本发明提供的低信噪比见长的麦克风阵列语音去噪增强方法,基于改进的人耳完美二元时频掩蔽的麦克风阵列语音增强算法,解决了现有技术的麦克风阵列语音增强算法在信噪比较低的情况下的性能较差的问题,将人耳的掩蔽效应巧妙加入到麦克风阵列语音去噪增强算法中,首先获取初阶采集增强的语音信号,然后根据带噪信号和初阶采集增强的语音信号判断预估噪声信号,通过初阶语音采集增强和判断预估噪声之间的信噪比关系设置阈值,计算完美二元时频掩蔽算法并合成增强后的语音信号。最终的实验表明:经过本发明算法增强后的语音信号,平均分段信噪比相较现有技术对比算法增强的语音,在平均分段信噪比上提高了5.32分贝,经过本发明方法处理后的语音信号可懂度更高,音质更好,在噪声强度较大、信噪比低的场景下,性能优势更加明显。
为达到以上技术效果,本发明所采用的技术方案如下:
低信噪比见长的麦克风阵列语音去噪增强方法,基于改进的人耳完美二元时频掩蔽算法,在语音增强预处理中抑制语音采集阶段的各类噪声干扰,主要包括以下三个步骤:
第一步,初阶语音采集增强阶段;
第二步,信号噪声预估阶段;
第三步,人耳完美二元掩蔽阶段;
首先结合利用自适应旁瓣相消法和后置滤波波束形成法获得初阶采集增强的语音信号,然后根据输入的带噪信号和初阶采集增强的语音信号,判断预估噪声信号,最后通过初阶语音采集增强和判断预估噪声之间的信噪比关系设置阈值,利用人耳的听觉掩蔽特性计算完美二元时频掩蔽算法并合成增强后的语音信号。
低信噪比见长的麦克风阵列语音去噪增强方法,进一步的,第一步,初阶语音采集增强阶段的输入为麦克风阵列采集的带噪语音信号,输出为经过结合自适应旁瓣相消法和后置滤波波束形成法初阶增强后的语音信号。
低信噪比见长的麦克风阵列语音去噪增强方法,进一步的,自适应旁瓣相消法根据语音信号所处的实际应用环境自适应改变滤波系数,自适应旁瓣相消法主要有三部分组成:
第一部分为固定波束形成器,固定波束形成器生成语音参考信号;
第二部分为阻塞矩阵,阻塞矩阵生成噪声参考信号;
第三部分为自适应噪声消除器,自适应噪声消除器消除来自固定波束形成器生成的信号中的残留噪声信号。
低信噪比见长的麦克风阵列语音去噪增强方法,进一步的,自适应旁瓣相消法的具体步骤为:通过固定波束形成器后生成的信号为:
其中经过时延补偿输出的信号用x(n)=[x1(n),...,xM(n)]T表示,M为阵列中麦克风的个数,延时求和的加权系数用uc表示,所有加权系数的值都不为零,同时满足条件uc1=1;
用带约束的非递归型滤波器对固定波束形成器生成的信号yc(n)进行滤波处理,得到滤波处理信号y′c(n),通过时延补偿处理,阵列中每个麦克风在注视方向所收集的带噪语音信号的相位完全相同,将阻塞矩阵中每一行元素的和设置为零,用一个零陷的滤波器把带噪信号中的语音信号滤除;
下式为阻塞矩阵的处理过程和输出的信号,
s′(n)=Ax(n)
其中阻塞矩阵每一行的元素aT m需满足两个条件,
第一个条件为和为零的条件,如下式所示,
第二个条件为am必须线性独立;
由于输出信号s′(n)最多只能由M-1行线性独立的元素构建,阻塞矩阵的维数是一个等于或小于M-1的数,下式表述了一种构造阻塞矩阵A∈R(M-1)×M的形式,
自适应旁瓣相消法下半部分的输出信号yb(n),可表示为对阻塞矩阵输出信号s′(n)经过自适应滤波处理后的信号,阻塞矩阵的维数为(M-1)×M,yb(n)由下式表示,
自适应噪声消除器采用最小均方算法,最小均方算法使输出信号与期望信号之间的误差的均方值最小,将自适应旁瓣相消法的上半部分通道yc(n)和下半部分通道输出yb(n)的值相结合即可得到最终的输出信号y(n),如下式所示,
y(n)=y′c(n)-yb(n)。
低信噪比见长的麦克风阵列语音去噪增强方法,进一步的,第二步,信号噪声预估阶段利用带噪语音信号和输出的初阶采集增强的语音信号,估计出噪声信号的信号,噪声估计算法采用谱减法。
低信噪比见长的麦克风阵列语音去噪增强方法,进一步的,第三步,人耳完美二元时频掩蔽阶段采用人耳完美二元时频掩蔽语音增强法,保留带噪信号中以语音信号主导的声音部分,滤除由噪声信号主导的声音部分,实现干净语音信号和噪声信号的分离;
人耳完美二元时频掩蔽阶段具体的步骤如下:
第1步,对带噪信号中的由初阶语音采集增强的语音进行时频分解;
第2步,计算初阶语音采集增强的语音信号的时频单元功率谱;
第3步,结合信号噪声预估阶段中得到的噪声信号功率谱估计完美二元时频掩蔽结果D,具体公式为:
其中,c是频带索引,t是时间索引,Es(c,t)表示初阶语音采集增强的语音信号功率,En(c,t)表示判断预估噪声的功率,J表示预设的阈值,根据初步估计的语音和噪声信号之间的信噪比关系来进行调整,如果时频单元内由初阶语音采集增强的语音功率大于判断预估噪声的功率,则该时频单元被设为1,否则设为0,利用人耳的听觉掩蔽特性计算完美二元时频掩蔽算法并合成增强后的语音信号。
低信噪比见长的麦克风阵列语音去噪增强方法,进一步的,人耳完美二元时频掩蔽语音增强法基于人耳的掩蔽效应提出,从带噪语音信号中构建一个时频掩蔽,并将时频掩蔽应用到带噪语音信号上,得到掩蔽掉噪声的干净语音信号,主要分为语音时频分解和语音合成增强两个部分。
低信噪比见长的麦克风阵列语音去噪增强方法,进一步的,语音时频分解的过程为:将带噪语音通过Gammatone滤波器组,得到分帧处理后模拟耳蜗滤波后的信号,此时的信号看作被分解为不同的时频单元;然后对提取每个时频单元里的声学特征,基于能量的人耳完美二元时频掩蔽提取的特征是信号的能量。
低信噪比见长的麦克风阵列语音去噪增强方法,进一步的,语音合成增强的过程为:估计完美二元时频掩蔽结果,如果它的信噪比大于之前设定的阈值,则被认为是由语音占主要地位的时频单元,保留这类单元;反之则被认为是由噪声占主要地位的时频单元,过滤掉这类单元;最后将经过处理后的时频单元再重新组合为增强后的语音。
与现有技术相比,本发明的优点在于:
1.本发明提供的低信噪比见长的麦克风阵列语音去噪增强方法,基于改进的人耳完美二元时频掩蔽的麦克风阵列语音增强算法,解决了现有技术的麦克风阵列语音增强算法在信噪比较低的情况下的性能较差的问题,将人耳的掩蔽效应巧妙加入到麦克风阵列语音去噪增强算法中,首先获取初阶采集增强的语音信号,然后根据带噪信号和初阶采集增强的语音信号判断预估噪声信号,通过初阶语音采集增强和判断预估噪声之间的信噪比关系设置阈值,计算完美二元时频掩蔽算法并合成增强后的语音信号。最终的实验表明:经过本发明算法增强后的语音信号,平均分段信噪比相较现有技术对比算法增强的语音,在平均分段信噪比上提高了5.32分贝,经过本发明方法处理后的语音信号可懂度更高,音质更好,在噪声强度较大、信噪比低的场景下,性能优势更加明显。
2.本发明提供的低信噪比见长的麦克风阵列语音去噪增强方法,解决了现有技术的算法形成的波束的主瓣与信号频率相关,如果目标声源与波束最大增益方向出现偏差,语音会严重失真的问题,经过本发明方法处理后的语音基本上没有背景噪声,并且波形图和语谱图都与原始信号更为接近,几乎没有信号失真的情况。通过实际语音音频播放测试,测试者能够非常明显的感受到现有技术的对比算法输出的信号噪声依然存在,语音质量一般,而经过本发明方法处理后的语音几乎听不到噪声,语音质量提升明显,说明本发明的方法对噪声的抑制效果明显更佳。
3.本发明提供的低信噪比见长的麦克风阵列语音去噪增强方法,解决了现有技术的算法在使用的麦克风个数较少时,不能取得较好的语音增强效果,也不能有效消除如方向性噪声和房间混响之类的相干噪声问题,本发明在麦克风个数较少时,也能取得较好的语音增强效果,能有效消除如方向性噪声和房间混响之类的相干噪声问题。
4.本发明提供的低信噪比见长的麦克风阵列语音去噪增强方法,解决了现有技术的部分算法不可避免的会抵消掉带噪信号中一部分目标语音信号,降低语音的可懂度,在一定程度上会影响语音增强效果的问题,不会抵消掉带噪信号中一部分目标语音信号,不会降低语音的可懂度和质量。
5.本发明提供的低信噪比见长的麦克风阵列语音去噪增强方法,算法结构清晰、逻辑清楚、计算复杂度适中、鲁棒性健壮性好,实现容易,能快速的推广到实际应用中,效果明显,有很大的市场实用价值。
附图说明
图1是本发明的低信噪比见长的麦克风阵列语音去噪增强方法的结构原理示意图。
图2是本发明的自适应旁瓣相消法的结构原理示意图。
图3是本发明的后置滤波波束形成法的结构原理示意图。
图4是本发明的人耳完美二元时频掩蔽语音增强法的基本工作流程图。
具体实施方式
下面结合附图,对本发明提供的低信噪比见长的麦克风阵列语音去噪增强方法的技术方案进行进一步的描述,使本领域的技术人员可以更好的理解本发明并能予以实施。
参见图1至图4,本发明提供的低信噪比见长的麦克风阵列语音去噪增强方法,基于改进的人耳完美二元时频掩蔽算法在语音增强预处理中抑制语音采集阶段的各类噪声干扰,主要包括以下包括三个步骤:初阶语音采集增强阶段、信号噪声预估阶段、人耳完美二元掩蔽阶段,首先结合利用自适应旁瓣相消法和后置滤波波束形成法获得初阶采集增强的语音信号,然后根据输入的带噪信号和初阶采集增强的语音信号,判断预估噪声信号,最后通过初阶语音采集增强和判断预估噪声之间的信噪比关系设置阈值,利用人耳的听觉掩蔽特性计算完美二元时频掩蔽算法并合成增强后的语音信号。
本发明采用完美二元时频掩蔽算法结合自适应旁瓣相消法和后置滤波波束形成法增强处理麦克风阵列语音,按照图1所示的联合语音增强方法的结构原理示意图,通过理论证明和带噪语音分离实验,对低信噪比下二元时频掩蔽算法的性能进行分析,得到的分离结果中目标语音时频单元信噪比大于0分贝,表明完美二元时频掩蔽算法在低信噪比环境下的语音增强优势明显,因此在麦克风阵列语音去噪增强中采用完美二元时频掩蔽算法,能大幅提高低信噪比时麦克风阵列的去噪增强性能。
一、初阶语音采集增强阶段
初阶语音采集增强阶段的输入为麦克风阵列采集的带噪语音信号,输出为经过结合自适应旁瓣相消法和后置滤波波束形成法初阶增强后的语音信号,自适应旁瓣相消法和后置滤波波束形成法具体工作如下。
(一)自适应旁瓣相消法
自适应旁瓣相消法根据语音信号所处的实际应用环境自适应改变滤波系数,基本原理如图2所示。
自适应旁瓣相消法主要有三部分组成:
第一部分为固定波束形成器,固定波束形成器生成语音参考信号;
第二部分为阻塞矩阵,阻塞矩阵生成噪声参考信号;
第三部分为自适应噪声消除器,自适应噪声消除器消除来自固定波束形成器生成的信号中的残留噪声信号。
通过固定波束形成器后生成的信号为:
其中经过时延补偿输出的信号用x(n)=[x1(n),...,xM(n)]T表示,M为阵列中麦克风的个数,延时求和的加权系数用uc表示,所有加权系数的值都不为零,同时满足条件uc1=1;
用带约束的非递归型滤波器对固定波束形成器生成的信号yc(n)进行滤波处理,得到滤波处理信号y′c(n),通过时延补偿处理,阵列中每个麦克风在注视方向所收集的带噪语音信号的相位完全相同,将阻塞矩阵中每一行元素的和设置为零,确保经过阻塞矩阵后输出的信号不再包含注视方向上的语音信号,用一个零陷的滤波器把带噪信号中的语音信号滤除。
下式为阻塞矩阵的处理过程和输出的信号,
s′(n)=Ax(n)
其中阻塞矩阵每一行的元素aT m需满足两个条件,
第一个条件为和为零的条件,如下式所示,
第二个条件为am必须线性独立;
由于输出信号s′(n)最多只能由M-1行线性独立的元素构建,因此阻塞矩阵的维数是一个等于或小于M-1的数,下式表述了一种构造阻塞矩阵A∈R(M-1)×M的形式,
如图2所示自适应旁瓣相消法下半部分的输出信号yb(n),可表示为对阻塞矩阵输出信号s′(n)经过自适应滤波处理后的信号,阻塞矩阵的维数为(M-1)×M,yb(n)由下式表示,
自适应噪声消除器采用最小均方算法,最小均方算法使输出信号与期望信号之间的误差的均方值最小,将自适应旁瓣相消法的上半部分通道yc(n)和下半部分通道输出yb(n)的值相结合即可得到最终的输出信号y(n),如下式所示,
y(n)=y′c(n)-yb(n)
自适应旁瓣相消法能较好的去除相干噪声,并在麦克风阵列中麦克风数量较少的情况下,也能取得不错的去噪效果。但是自适应旁瓣相消法对非相干噪声的消除能力较差,由于时延估计带来的误差,一部分语音信号也将受到抑制,损伤语音的质量和可懂度。
(二)后置滤波波束形成法
后置滤波波束形成法包括固定波束形成器和后置滤波形成器两个部分,原理如图3所示。
后置滤波波束形成法以维纳滤波器为基础,通过求解维纳-霍普夫方程得到滤波器系数。后置滤波波束形成法处理过程为:自相关函数的计算在频域进行,通过估计功率谱来完成;滤波过程在时域进行。在输入信噪比大于0分贝且背景噪声呈弱相干空间分布的房间中,该方法取得了较好的噪声抑制效果。然而单独使用后置滤波波束形成法在抑制相干噪声时却具有一定的局限性。
二、信号噪声预估阶段
信号噪声预估阶段利用带噪语音信号和输出的初阶采集增强的语音信号,估计出噪声信号的信号,噪声估计算法采用谱减法。
谱减法假设语音中的噪声只有加性噪声,利用加性噪声与语音不相关的特点,在噪声统计平稳的前提下,用无语音间隙测算的噪声频谱估计值取代有语音期间噪声频谱,与含噪语音频谱相减,获得语音频谱的估计值。谱减法算法相对简单、运算量小,便于实现快速高效处理,能够获得较高的输出信噪比。
三、人耳完美二元时频掩蔽阶段
人耳完美二元时频掩蔽阶段采用人耳完美二元时频掩蔽语音增强法,保留带噪信号中以语音信号主导的声音部分,滤除由噪声信号主导的声音部分,实现干净语音信号和噪声信号的分离。
人耳完美二元时频掩蔽阶段具体的步骤如下:
第1步,对带噪信号中的由初阶语音采集增强的语音进行时频分解;
第2步,计算初阶语音采集增强的语音信号的时频单元功率谱;
第3步,结合信号噪声预估阶段中得到的噪声信号功率谱估计完美二元时频掩蔽结果D,具体公式为:
其中,c是频带索引,t是时间索引,Es(c,t)表示初阶语音采集增强的语音信号功率,En(c,t)表示判断预估噪声的功率;J表示预设的阈值,根据初步估计的语音和噪声信号之间的信噪比关系来进行调整,本发明实施例采用的是-5分贝,本发明使用Gammatone滤波器组对耳蜗中的基底膜进行仿真,如果时频单元内由初阶语音采集增强的语音功率大于判断预估噪声的功率,则该时频单元被设为1,否则设为0。对带噪语音信号使用完美二元时频掩蔽算法后,噪声基本被掩蔽掉,且明显好于单独使用其他技术方案,因此在低信噪比下达到了非常好的语音增强效果。
(一)人耳完美二元时频掩蔽语音增强法
即使人身处在充满各种类型噪声的复杂环境中,人耳依然能够成功有效的选择捕捉所关注的信号,这种能力表明人耳在生理特性上具有以下两个特征:时频分解和掩蔽效应。
人耳完美二元时频掩蔽语音增强法正是基于人耳的掩蔽效应提出,听觉掩蔽效应是当一个弱音频信号附近出现一个强音频信号时,人们通常难以察觉到弱音频信号,因为它被强音频信号所掩蔽,此时被掩蔽掉的弱音频信号的最大声压级被称为掩蔽阈值,凡是声压级不超过这个掩蔽阈值的声音都将不会被察觉。在频率过低或过高的地方,人耳对这些区域的声音并不敏感,而人耳对大约在1kHz区域附近的声音比较敏感,如果在该区域设置一个掩蔽声,原有的最小可听阈曲线则会明显被掩蔽声改变。
人耳完美二元时频掩蔽语音增强法从带噪语音信号中构建一个时频掩蔽,并将时频掩蔽应用到带噪语音信号上,得到掩蔽掉噪声的干净语音信号,基本工作流程如图4所示,主要分为语音时频分解和语音合成增强两个部分。
语音时频分解的过程如下:
将带噪语音通过Gammatone滤波器组,得到分帧处理后模拟耳蜗滤波后的信号,此时的信号看作被分解为不同的时频单元;然后对提取每个时频单元里的声学特征,基于能量的人耳完美二元时频掩蔽提取的特征是信号的能量。
语音合成增强的过程如下:
估计完美二元时频掩蔽结果,如果它的信噪比大于之前设定的阈值,则被认为是由语音占主要地位的时频单元,保留这类单元;反之则被认为是由噪声占主要地位的时频单元,过滤掉这类单元;最后将经过处理后的时频单元再重新组合为增强后的语音。
如果能够较准确的估计出完美二元时频掩蔽结果,那么经过人耳完美二元时频掩蔽处理过后的带噪语音,其语音的可懂度会得到很大的提高。
四、本发明的对比实验配置和实验结果
对比实验采用的语音信号为双麦克风立体声双声道语音信号,信号序列来自MPEG测试序列中纯净语音信号,噪声信号选自noisex92噪声库中八种类型的噪声,带噪信号根据噪声的加性模型合成,纯净语音和八种噪声分别对应相加,相加的信噪比为-5分贝的情况,共制作了八个带噪语音的测试序列。
将制作好的带噪信号输入到本发明所提出的低信噪比见长的麦克风阵列语音去噪增强方法模型中,基于改进的人耳完美二元时频掩蔽语音增强法,得到去噪增强后的语音信号,本发明选用的对比算法为结合使用自适应波束形成法和后置滤波法的麦克风阵列语音增强算法,简称对比算法。
比较结合对比算法输出的信号和本发明人耳完美二元时频掩蔽语音增强法输出的信号可以得出,经过对比算法处理的语音信号依然残留部分噪声,局部还十分明显,而经过本发明方法处理后的语音基本上没有背景噪声,并且波形图和语谱图都与原始信号更为接近。通过实际语音音频播放测试,测试者能够非常明显的感受到对比算法输出的信号噪声依然存在,语音质量一般,而经过本发明方法处理后的语音几乎听不到噪声,语音质量提升明显,说明本发明提出的低信噪比见长的麦克风阵列语音去噪增强方法对噪声的抑制效果明显更佳。
对比实验还从客观评价的角度对不同的性能进行了评估,客观评价选用分段信噪比进行评价,根据实验结果,本发明提出的方法在不同的噪声类型下,分段信噪比的得分均高于对比算法。
对这些序列的分段信噪比和PESQ得分取平均,本发明方法的平均分段信噪比相对于对比算法,提高了5.32分贝,因此经过本发明方法处理后的语音信号的音质更好,在噪声强度较大、信噪比低的场景下,性能优势更加明显。
本发明针对现有技术中固定波束形成法、自适应波束形成法法和后置滤波法等在麦克风阵列语音增强算法的在信噪比低时性能明显不佳的缺点,提出了基于改进的完美二元时频掩蔽算法的麦克风阵列语音增强算法,主要包括三个步骤:初阶语音采集增强阶段、信号噪声预估阶段、人耳完美二元时频掩蔽模块,首先结合利用自适应旁瓣相消法和后置滤波波束形成法获得初阶采集增强的语音信号,然后判断预估噪声信号,最后通过初阶语音采集增强和判断预估噪声之间的信噪比关系设置阈值,利用人耳的听觉掩蔽特性计算完美二元时频掩蔽结果并合成增强后的语音信号。通过对比实验与现有技术的对比算法进行对比实验,分析本发明所提出来的方法的效果,实验结果表明本发明提出的方法优势明显,在信噪比低时能够保持较高的去噪性能和语音的可懂度。
Claims (9)
1.低信噪比见长的麦克风阵列语音去噪增强方法,其特征在于:基于改进的人耳完美二元时频掩蔽算法,在语音增强预处理中抑制语音采集阶段的各类噪声干扰,主要包括以下三个步骤:
第一步,初阶语音采集增强阶段;
第二步,信号噪声预估阶段;
第三步,人耳完美二元掩蔽阶段;
首先结合利用自适应旁瓣相消法和后置滤波波束形成法获得初阶采集增强的语音信号,然后根据输入的带噪信号和初阶采集增强的语音信号,判断预估噪声信号,最后通过初阶语音采集增强和判断预估噪声之间的信噪比关系设置阈值,利用人耳的听觉掩蔽特性计算完美二元时频掩蔽算法并合成增强后的语音信号。
2.根据权利要求1所述的低信噪比见长的麦克风阵列语音去噪增强方法,其特征在于:第一步,初阶语音采集增强阶段的输入为麦克风阵列采集的带噪语音信号,输出为经过结合自适应旁瓣相消法和后置滤波波束形成法初阶增强后的语音信号。
3.根据权利要求1所述的低信噪比见长的麦克风阵列语音去噪增强方法,其特征在于:自适应旁瓣相消法根据语音信号所处的实际应用环境自适应改变滤波系数,自适应旁瓣相消法主要有三部分组成:
第一部分为固定波束形成器,固定波束形成器生成语音参考信号;
第二部分为阻塞矩阵,阻塞矩阵生成噪声参考信号;
第三部分为自适应噪声消除器,自适应噪声消除器消除来自固定波束形成器生成的信号中的残留噪声信号。
4.根据权利要求1所述的低信噪比见长的麦克风阵列语音去噪增强方法,其特征在于,自适应旁瓣相消法的具体步骤为:通过固定波束形成器后生成的信号为:
其中经过时延补偿输出的信号用x(n)=[x1(n),...,xM(n)]T表示,M为阵列中麦克风的个数,延时求和的加权系数用uc表示,所有加权系数的值都不为零,同时满足条件uc1=1;
用带约束的非递归型滤波器对固定波束形成器生成的信号yc(n)进行滤波处理,得到滤波处理信号y′c(n),通过时延补偿处理,阵列中每个麦克风在注视方向所收集的带噪语音信号的相位完全相同,将阻塞矩阵中每一行元素的和设置为零,用一个零陷的滤波器把带噪信号中的语音信号滤除;
下式为阻塞矩阵的处理过程和输出的信号,
s′(n)=Ax(n)
其中阻塞矩阵每一行的元素aT m需满足两个条件,
第一个条件为和为零的条件,如下式所示,
第二个条件为am必须线性独立;
由于输出信号s′(n)最多只能由M-1行线性独立的元素构建,阻塞矩阵的维数是一个等于或小于M-1的数,下式表述了一种构造阻塞矩阵A∈R(M-1)×M的形式,
自适应旁瓣相消法下半部分的输出信号yb(n),可表示为对阻塞矩阵输出信号s′(n)经过自适应滤波处理后的信号,阻塞矩阵的维数为(M-1)×M,yb(n)由下式表示,
自适应噪声消除器采用最小均方算法,最小均方算法使输出信号与期望信号之间的误差的均方值最小,将自适应旁瓣相消法的上半部分通道yc(n)和下半部分通道输出yb(n)的值相结合即可得到最终的输出信号y(n),如下式所示,
y(n)=y′c(n)-yb(n)。
5.根据权利要求1所述的低信噪比见长的麦克风阵列语音去噪增强方法,其特征在于:第二步,信号噪声预估阶段利用带噪语音信号和输出的初阶采集增强的语音信号,估计出噪声信号的信号,噪声估计算法采用谱减法。
6.根据权利要求1所述的低信噪比见长的麦克风阵列语音去噪增强方法,其特征在于:第三步,人耳完美二元时频掩蔽阶段采用人耳完美二元时频掩蔽语音增强法,保留带噪信号中以语音信号主导的声音部分,滤除由噪声信号主导的声音部分,实现干净语音信号和噪声信号的分离;
人耳完美二元时频掩蔽阶段具体的步骤如下:
第1步,对带噪信号中的由初阶语音采集增强的语音进行时频分解;
第2步,计算初阶语音采集增强的语音信号的时频单元功率谱;
第3步,结合信号噪声预估阶段中得到的噪声信号功率谱估计完美二元时频掩蔽结果D,具体公式为:
其中,c是频带索引,t是时间索引,Es(c,t)表示初阶语音采集增强的语音信号功率,En(c,t)表示判断预估噪声的功率,J表示预设的阈值,根据初步估计的语音和噪声信号之间的信噪比关系来进行调整,如果时频单元内由初阶语音采集增强的语音功率大于判断预估噪声的功率,则该时频单元被设为1,否则设为0,利用人耳的听觉掩蔽特性计算完美二元时频掩蔽算法并合成增强后的语音信号。
7.根据权利要求1所述的低信噪比见长的麦克风阵列语音去噪增强方法,其特征在于:人耳完美二元时频掩蔽语音增强法基于人耳的掩蔽效应提出,从带噪语音信号中构建一个时频掩蔽,并将时频掩蔽应用到带噪语音信号上,得到掩蔽掉噪声的干净语音信号,主要分为语音时频分解和语音合成增强两个部分。
8.根据权利要求7所述的低信噪比见长的麦克风阵列语音去噪增强方法,其特征在于,语音时频分解的过程为:将带噪语音通过Gammatone滤波器组,得到分帧处理后模拟耳蜗滤波后的信号,此时的信号看作被分解为不同的时频单元;然后对提取每个时频单元里的声学特征,基于能量的人耳完美二元时频掩蔽提取的特征是信号的能量。
9.根据权利要求7所述的低信噪比见长的麦克风阵列语音去噪增强方法,其特征在于,语音合成增强的过程为:估计完美二元时频掩蔽结果,如果它的信噪比大于之前设定的阈值,则被认为是由语音占主要地位的时频单元,保留这类单元;反之则被认为是由噪声占主要地位的时频单元,过滤掉这类单元;最后将经过处理后的时频单元再重新组合为增强后的语音。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911185032.2A CN110827847B (zh) | 2019-11-27 | 2019-11-27 | 低信噪比见长的麦克风阵列语音去噪增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911185032.2A CN110827847B (zh) | 2019-11-27 | 2019-11-27 | 低信噪比见长的麦克风阵列语音去噪增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110827847A true CN110827847A (zh) | 2020-02-21 |
CN110827847B CN110827847B (zh) | 2022-10-18 |
Family
ID=69542575
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911185032.2A Active CN110827847B (zh) | 2019-11-27 | 2019-11-27 | 低信噪比见长的麦克风阵列语音去噪增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110827847B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111210836A (zh) * | 2020-03-09 | 2020-05-29 | 成都启英泰伦科技有限公司 | 一种麦克风阵列波束形成动态调整方法 |
CN111768796A (zh) * | 2020-07-14 | 2020-10-13 | 中国科学院声学研究所 | 一种声学回波消除与去混响方法及装置 |
CN111798860A (zh) * | 2020-07-17 | 2020-10-20 | 腾讯科技(深圳)有限公司 | 音频信号处理方法、装置、设备及存储介质 |
CN111863008A (zh) * | 2020-07-07 | 2020-10-30 | 北京达佳互联信息技术有限公司 | 一种音频降噪方法、装置及存储介质 |
CN112700786A (zh) * | 2020-12-29 | 2021-04-23 | 西安讯飞超脑信息科技有限公司 | 语音增强方法、装置、电子设备和存储介质 |
CN111768796B (zh) * | 2020-07-14 | 2024-05-03 | 中国科学院声学研究所 | 一种声学回波消除与去混响方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102456351A (zh) * | 2010-10-14 | 2012-05-16 | 清华大学 | 一种语音增强的系统 |
CN104575511A (zh) * | 2013-10-22 | 2015-04-29 | 陈卓 | 语音增强方法及装置 |
CN105741849A (zh) * | 2016-03-06 | 2016-07-06 | 北京工业大学 | 数字助听器中融合相位估计与人耳听觉特性的语音增强方法 |
CN107993670A (zh) * | 2017-11-23 | 2018-05-04 | 华南理工大学 | 基于统计模型的麦克风阵列语音增强方法 |
CN108735225A (zh) * | 2018-04-28 | 2018-11-02 | 南京邮电大学 | 一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法 |
US10142762B1 (en) * | 2017-06-06 | 2018-11-27 | Plantronics, Inc. | Intelligent dynamic soundscape adaptation |
CN110310656A (zh) * | 2019-05-27 | 2019-10-08 | 重庆高开清芯科技产业发展有限公司 | 一种语音增强方法 |
-
2019
- 2019-11-27 CN CN201911185032.2A patent/CN110827847B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102456351A (zh) * | 2010-10-14 | 2012-05-16 | 清华大学 | 一种语音增强的系统 |
CN104575511A (zh) * | 2013-10-22 | 2015-04-29 | 陈卓 | 语音增强方法及装置 |
CN105741849A (zh) * | 2016-03-06 | 2016-07-06 | 北京工业大学 | 数字助听器中融合相位估计与人耳听觉特性的语音增强方法 |
US10142762B1 (en) * | 2017-06-06 | 2018-11-27 | Plantronics, Inc. | Intelligent dynamic soundscape adaptation |
CN107993670A (zh) * | 2017-11-23 | 2018-05-04 | 华南理工大学 | 基于统计模型的麦克风阵列语音增强方法 |
CN108735225A (zh) * | 2018-04-28 | 2018-11-02 | 南京邮电大学 | 一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法 |
CN110310656A (zh) * | 2019-05-27 | 2019-10-08 | 重庆高开清芯科技产业发展有限公司 | 一种语音增强方法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111210836A (zh) * | 2020-03-09 | 2020-05-29 | 成都启英泰伦科技有限公司 | 一种麦克风阵列波束形成动态调整方法 |
CN111210836B (zh) * | 2020-03-09 | 2023-04-25 | 成都启英泰伦科技有限公司 | 一种麦克风阵列波束形成动态调整方法 |
CN111863008A (zh) * | 2020-07-07 | 2020-10-30 | 北京达佳互联信息技术有限公司 | 一种音频降噪方法、装置及存储介质 |
CN111768796A (zh) * | 2020-07-14 | 2020-10-13 | 中国科学院声学研究所 | 一种声学回波消除与去混响方法及装置 |
CN111768796B (zh) * | 2020-07-14 | 2024-05-03 | 中国科学院声学研究所 | 一种声学回波消除与去混响方法及装置 |
CN111798860A (zh) * | 2020-07-17 | 2020-10-20 | 腾讯科技(深圳)有限公司 | 音频信号处理方法、装置、设备及存储介质 |
CN111798860B (zh) * | 2020-07-17 | 2022-08-23 | 腾讯科技(深圳)有限公司 | 音频信号处理方法、装置、设备及存储介质 |
CN112700786A (zh) * | 2020-12-29 | 2021-04-23 | 西安讯飞超脑信息科技有限公司 | 语音增强方法、装置、电子设备和存储介质 |
CN112700786B (zh) * | 2020-12-29 | 2024-03-12 | 西安讯飞超脑信息科技有限公司 | 语音增强方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110827847B (zh) | 2022-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110827847B (zh) | 低信噪比见长的麦克风阵列语音去噪增强方法 | |
TWI466107B (zh) | 多麥克風之穩固雜訊抑制 | |
US9437180B2 (en) | Adaptive noise reduction using level cues | |
Pedersen et al. | Two-microphone separation of speech mixtures | |
US8958572B1 (en) | Adaptive noise cancellation for multi-microphone systems | |
US9558755B1 (en) | Noise suppression assisted automatic speech recognition | |
Yousefian et al. | A dual-microphone speech enhancement algorithm based on the coherence function | |
US8447596B2 (en) | Monaural noise suppression based on computational auditory scene analysis | |
JP5762956B2 (ja) | ヌル処理雑音除去を利用した雑音抑制を提供するシステム及び方法 | |
KR101171494B1 (ko) | 강인한 두 마이크로폰 잡음 억제 시스템 | |
EP2237271B1 (en) | Method for determining a signal component for reducing noise in an input signal | |
US8682006B1 (en) | Noise suppression based on null coherence | |
US9378754B1 (en) | Adaptive spatial classifier for multi-microphone systems | |
CN108986832B (zh) | 基于语音出现概率和一致性的双耳语音去混响方法和装置 | |
CN112530451A (zh) | 基于去噪自编码器的语音增强方法 | |
Clifford et al. | Microphone interference reduction in live sound | |
US20190035382A1 (en) | Adaptive post filtering | |
Miyazaki et al. | Theoretical analysis of parametric blind spatial subtraction array and its application to speech recognition performance prediction | |
Yang et al. | Spatial-cue-based multi-band binaural noise reduction for hearing aids | |
Bagekar et al. | Dual channel coherence based speech enhancement with wavelet denoising | |
Schulz et al. | On the window-disjoint-orthogonality of speech sources in reverberant humanoid scenarios | |
Mittal et al. | Frame-by-frame mixture of beamformers for source separation | |
Ayllón et al. | Real-time phase-isolation algorithm for speech separation | |
Zhang et al. | A frequency domain approach for speech enhancement with directionality using compact microphone array. | |
Ishikawa et al. | Musical noise controllable algorithm of channelwise spectral subtraction and beamforming based on higher-order statistics criterion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220927 Address after: 300000 room 1201-1268, 12th floor, chenjing building, Hedong District, Tianjin (easy crowdsourcing Industrial Park) Applicant after: Tianjin Artificial Intelligence general application system (Tianjin) Co.,Ltd. Address before: No. 108, Yixing Avenue, Yiling District, Yichang City, Hubei Province 443100 Applicant before: Gao Xiaoling |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |