CN111341339A - 基于声学矢量传感器自适应波束形成和深度神经网络技术的目标语音增强方法 - Google Patents
基于声学矢量传感器自适应波束形成和深度神经网络技术的目标语音增强方法 Download PDFInfo
- Publication number
- CN111341339A CN111341339A CN201911419999.2A CN201911419999A CN111341339A CN 111341339 A CN111341339 A CN 111341339A CN 201911419999 A CN201911419999 A CN 201911419999A CN 111341339 A CN111341339 A CN 111341339A
- Authority
- CN
- China
- Prior art keywords
- channel
- target voice
- data
- time
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 239000013598 vector Substances 0.000 title claims abstract description 27
- 238000005516 engineering process Methods 0.000 title claims abstract description 26
- 230000003044 adaptive effect Effects 0.000 title claims abstract description 19
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 17
- 238000001228 spectrum Methods 0.000 claims abstract description 41
- 238000001914 filtration Methods 0.000 claims abstract description 19
- 238000012545 processing Methods 0.000 claims abstract description 13
- 230000002708 enhancing effect Effects 0.000 claims abstract description 9
- 238000009432 framing Methods 0.000 claims description 7
- 238000013461 design Methods 0.000 claims description 6
- 230000001629 suppression Effects 0.000 abstract description 7
- 239000011159 matrix material Substances 0.000 description 12
- 230000003595 spectral effect Effects 0.000 description 8
- 238000012549 training Methods 0.000 description 6
- JNUWVIUFGREERU-WOPPDYDQSA-N 4-amino-5-fluoro-1-[(2r,3s,4s,5r)-4-hydroxy-5-(hydroxymethyl)-3-methyloxolan-2-yl]pyrimidin-2-one Chemical compound C[C@H]1[C@H](O)[C@@H](CO)O[C@H]1N1C(=O)N=C(N)C(F)=C1 JNUWVIUFGREERU-WOPPDYDQSA-N 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 241000182185 Alfalfa virus S Species 0.000 description 1
- 206010002953 Aphonia Diseases 0.000 description 1
- 241000077989 Hiradonta chi Species 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明涉及一种基于声学矢量传感器自适应波束形成和深度神经网络技术的目标语音增强方法,该方法通过自适应波束形成器声学矢量传感器各通道原始数据进行波束形成,得到初步增强的单通道目标语音时频谱;再通过高阶空间匹配波束滤波器对所得的单通道数据进行滤波,再次增强目标语音;最后通过训练好的专用深度神经网络,对所得的数据进行处理,得到最终增强目标语音时频谱。通过该方法可以有效抑制空间干扰声源和背景噪声,实现目标语音的增强;就算是在阵列或目标声源角度估计失配的情况下,性能也一样优秀;同时对于背景噪声等非相干噪声的抑制作用也很好,能满足实际应用。
Description
技术领域
本发明涉及语音信号处理技术领域,具体地,涉及一种基于声学矢量传感器自适应波束形成和深度神经网络技术的目标语音增强方法。
背景技术
在实际环境中,麦克风在拾取语音信号时,不可避免地会受到来自周围环境噪声、传输媒介噪声、通信设备内部电噪声、房间混响以及其它说话人的话音干扰,因此拾取语音的质量受到影响。语音增强技术是语音处理领域的核心技术之一,能够实现从带噪语音中提取干净的目标语音,以改善接收端语音质量,提高语音的清晰度、可懂度和舒适度,使人易于接受或提高语音处理系统的性能。
基于单个麦克风的语音增强技术的研究已经有四十多年的历史。但是实际情况中,噪声总是来自于四面八方,且其与语音信号在时间和频谱上常常是相互交叠的,再加上回波和混响的影响,利用单麦克风增强感兴趣的声音并有效抑制背景噪声和方向性强干扰是相当困难的。引入麦克风阵列技术后,语音增强技术取得了很大突破。相比传统的单一麦克风语音增强技术,麦克风阵列语音增强技术可以利用语音信号的空间信息来形成波束,实现对干扰噪声的消除,能够保证在语音信息损失最小的条件下实现噪声抑制(J.Benesty,S.Makino,and J.E.Chen,Speech Enhancement.Berlin,.Germany:Springer,2005.)。因此近十多年来,麦克风阵列语音增强技术已成为了语音增强技术的研究热点和关键技术。然而,目前大多数的麦克风阵列语音增强技术的性能都是正比于阵列所用麦克风数目的,因此该种技术的研究往往采用较多麦克风的阵列,有的麦克风阵列甚至使用数百个麦克风,而较多的麦克风数目造成麦克风阵列的体积也较大,最典型的案例是MIT搭建的用于噪声消除和语音增强的麦克风阵列使用了1020个麦克风,其阵列孔径有几米长。因此麦克风阵列技术噪声抑制性能虽好,但由于其设备体积大,算法运算复杂度高,故在实际应用时受到了许多限制。
声学矢量传感器(Acoustic Vector Sensor,AVS)作为音频信号采集器。与常用的声压麦克风相比,AVS在结构上具有其特殊性:一颗AVS由2到3个正交放置的压力梯度传感器和1个全向压力传感器构成(A.Nehorai and E.Paldi,"Vector-sensor arrayprocessing for electromagneticsource localization,"Signal Processing,IEEETransactions on,vol.42,pp.376-398,1994.),它的空间结构紧凑,传感器近似同位放置,各个传感器接收到的音频信号无时延差别。对于理想的AVS,各通道接收信号存在三角函数关系,因此,仅单颗AVS就能够实现单个或者多个的空间声源到达方向的估计。随着移动互联网和智能机器人等应用需求的不断增长,具有更小体积的AVS,必将使之在众多场景中替代常规麦克风阵列技术,成为未来音频传感和噪声抑制的最佳解决方案之一。
为便于描述,以二维场景为例进行说明,即只利用AVS中2个正交同位放置的压力梯度传感器采集音频信号的场景。实际应用中,可同理推广至三维场景或利用更多传感器的情形。在二维场景下,其梯度传感器输出的信号模型可表示为:
其中xavs(t)=[xu(t)xv(t)]T是AVS的输出信号,navs(t)=[nu(t)nv(t)]T是传感器稳态背景噪声,s(t)是目标声源信号,ni(t)为干扰源信号,I为干扰源的数目。a(φs)=[usvs]T=[cosφssinφs]T是目标声源的导向矢量,同理干扰源的导向矢量为a(φi)=[uivi]T=[cosφisinφi]T。
基于AVS的空间匹配波束形成器(Spacial Matched Filter,SMF)的输出可表示为:
SMF波束形成器(K.T.Wong,H.Chi,"Beam Patterns of an Underwater AcousticVector Hydrophone Located Away from any Reflecting Boundary,"IEEE journal ofOceanic Engineering,vol.27,no.33,pp.628-637,July 2002)能够在目标方向形成波束,其权值矢量与目标信号源的导向矢量的指向是一致的。当对目标信源到达角度φs方向进行波束形成时,SMF的权值ws通常的解表示为:
ws=a(φs)/(||aH(φs)||||a(φs)||) (3)
该波束形成器对任意角度φ的声源,波束响应可表示为:
由波束响应可知SMF波束形成器能够一定程度抑制非目标方向的干扰声源,但是由于SMF的目标波束较宽,对干扰方向的抑制效果十分有限,难以满足实际应用。
另外,目前现有技术中也有一些增强目标语音的方法,比如:中国专利号为201710336341.X,专利名称为“一种增强目标语音的装置及其方法”,其公开了利用高阶空间匹配波束形成器对空间波束进行收窄后,再通过零陷滤波器和后置维纳滤波器对非不目标方向的噪声或者干扰声源进行滤波,虽然这种方法也能在一定程度上增强目标语音。但是当目标语音处于比较多变的噪音环境时,特别是在阵列或目标声源角度估计失配的情况下,采用高阶空间匹配波束形成器这种固定波束形成技术时,性能下降很大;同时对于背景噪声等非相干噪声的抑制作用十分有限,难以满足实际应用。
发明内容
本发明的目的在于克服现有技术的缺陷和不足,提供基于声学矢量传感器自适应波束形成和深度神经网络技术的目标语音增强方法,该方法通过自适应波束形成和深度神经网络技术,可有效抑制空间干扰声源和背景噪声,实现目标语音的增强。
为了达到上述目的,本发明提供一种基于声学矢量传感器自适应波束形成和深度神经网络技术的目标语音增强方法,所述方法包括以下步骤:
A1:对声学矢量传感器中的各梯度传感器输出数据加窗分帧,进行短时傅里叶变换,分别得到各通道传感器的时频谱数据;
A2:根据所述步骤A1中得到的各通道时频谱数据获得各通道传感器间的相互数据比ISDR,并根据所得的ISDR值求得任意时频点占支配地位的声源到达角度估计;
A3:根据所述步骤A1中所得的各通道时频谱数据和步骤A2中得到的声源到达角估计,计算声源功率谱的空间分布,并利用目标方向的功率谱与空间总功率谱的比率配置高阶空间匹配滤波阶数;
A4:在短时傅里叶变换域,根据所述步骤A2获得目标声源到达角度和各时频点处占支配地位的声源到达角度,以及根据所述步骤A3中获得的所述滤波阶数,计算空间匹配波束形成器的高阶系数,完成高阶空间匹配波束滤波器的设计;
A5:利用所述步骤A4中所得的高阶空间匹配波束滤波器,设计目标方向零陷滤波器,对步骤A1中所得各通道数据滤波后,获得自适应波束形成器权值;
A6:利用步骤A5所得的自适应波束形成器权值,对步骤A1中声学矢量传感器各通道原始数据进行波束形成,得到初步增强的单通道目标语音时频谱;
A7:利用步骤A4中所得的高阶空间匹配波束滤波器对步骤A6中所得的单通道数据进行滤波,再次增强目标语音;
A8:通过训练好的专用深度神经网络,对步骤A7所得的数据进行处理,得到最终增强目标语音时频谱;
A9:对步骤A8所得到的数据进行反傅里叶变换,用叠接相加法重建增强后的目标语音时域信号。
本发明相对于现有技术,具有以下有益效果:本发明增强目标语音的方法通过自适应波束形成和深度神经网络技术,可有效抑制空间干扰声源和背景噪声,实现目标语音的增强。就算是在阵列或目标声源角度估计失配的情况下,性能也一样优秀;同时对于背景噪声等非相干噪声的抑制作用也很好,能满足实际应用。
附图说明
图1是本发明基于声学矢量传感器自适应波束形成和深度神经网络技术的目标语音增强方法示意图;
图2为本发明声学矢量传感器失去的混合语音信号;
图3为是采用本发明方法处理目标方向信号处理后的结果。
具体实施方式
下面结合实施例及附图,对本发明作进一步地详细说明,但本发明的实施方式不限于此。
与固定波束形成技术不同,自适应波束形成的滤波器权值是随着输入信号统计特性的变化而变化。当输入信号的统计特性未知,或者输入信号的统计特性变化时,自适应波束形成器能够自动地迭代调节自身的滤波器权值,以满足某种准则的要求,从而实现最优滤波输出。因此,自适应波束形成器具有自我调节和跟踪能力。以输出信噪比最大为准则设计的自适应波束形成器称为最小方差无失真响应(Minimum Variance DistortionlessResponse,MVDR)波束形成器(J.Capon.High-resolution frequency-wavenumberspectrum analysis[J].Proceedings of the IEEE,1969,57(8):1408-1418.)。这种波束形成器的权值系数选取准则是:在保证目标方向信号无失真通过的前提下,使阵列输出的噪声方差最小。
基于AVS的MVDR波束形成器(M.E.Lockwood and D.L.Jones.Beamformerperformance with acoustic vector sensors in air[J].The Journal of theAcoustical Society of America,2006,119:608.)的输出在短时傅里叶变换域可表示为
其中,k为FFT变换的频率指数,l是短时帧序号。wH(k,l)是波束形成器滤波权值系数,有
wH(k,l)=[wu(k,l) wu(k,l) wv(k,l)] (2)
我们希望在保证目标方向信号无失真通过前提下最小化输出噪声的方差,于是MVDR波束形成器权系数向量的设计问题表述为
其中E[.]表示统计均值,可采用附近F帧的平均值。Rn(k,l)为噪声的功率谱密度矩阵,为
Rn(k,l)=E[N(k,l)NH(k,l)] (4)
在实际应用中,语音与噪声是混合在一起的,因此噪声的功率谱密度矩阵往往是难以得到的。此时的解决办法通常是直接用阵列接收数据的功率谱密度矩阵来代替噪声的功率谱密度矩阵。以最小化输出功率为准则设计MVDR波束形成器权系数
其中
R(k,l)=E[X(k,l)XH(k,l)] (6)
解得
本发明提供一种基于声学矢量传感器自适应波束形成和深度神经网络技术的目标语音增强方法,该方法包括以下步骤:
A1:对声学矢量传感器中的各梯度传感器输出数据加窗分帧,进行短时傅里叶变换,分别得到各通道传感器的时频谱数据;
A2:根据步骤A1中得到的各通道时频谱数据获得各通道传感器间的相互数据比ISDR,并根据所得的ISDR值求得任意时频点占支配地位的声源到达角度估计;
A3:根据步骤A1中所得的各通道时频谱数据和步骤A2中得到的声源到达角估计,计算声源功率谱的空间分布,并利用目标方向的功率谱与空间总功率谱的比率配置高阶空间匹配滤波阶数;
A4:在短时傅里叶变换域,根据步骤A2获得目标声源到达角度和各时频点处占支配地位的声源到达角度,以及根据步骤A3中获得的所述滤波阶数,计算空间匹配波束形成器的高阶系数,完成高阶空间匹配波束滤波器的设计;
A5:利用步骤A4中所得的高阶空间匹配波束滤波器,设计目标方向零陷滤波器,对步骤A1中所得各通道数据滤波后,获得自适应波束形成器权值;
A6:利用步骤A5所得的自适应波束形成器权值,对步骤A1中声学矢量传感器各通道原始数据进行波束形成,得到初步增强的单通道目标语音时频谱;
A7:利用步骤A4中所得的高阶空间匹配波束滤波器对步骤A6中所得的单通道数据进行滤波,再次增强目标语音;
A8:通过训练好的专用深度神经网络,对步骤A7所得的数据进行处理,得到最终增强目标语音时频谱;
A9:对步骤A8所得到的数据进行反傅里叶变换,用叠接相加法重建增强后的目标语音时域信号。
下面用实施例对上述本发明方法进行详细描述,采用16kHz采样率对AVS接收信号采样,并进行加窗分帧,分帧短时窗采用汉宁窗,窗长K=1024采样点,傅里叶变换点数也为K,帧移50%,得到各通道的时频谱数据
在(8)(9)和(10)中,k为FFT变换的频率指数,l是短时帧序号。定义u通道传感器与o通道传感器间分量数据比(Inter Sensor Data Rate,ISDR)如下式
同理,v通道传感器与o通道传感器间分量数据比如下式
据研究(李波,基于信号稀疏性的声学矢量传感器DOA估计方法研究,硕士学位论文,北京大学,2012),语音信号在短时傅里叶域具有较好的稀疏性。当一段语音有多个说话人出现时,仍会有某些语音片段只有一个说话人处于活跃状态而其他所有的说话人处于静音状态(短暂停顿或停歇)。即使在多个说话人同时处于活跃状态的片段,不同说话人的语音信号能量在频域仍有可能占据不同的离散频率。在某个具体的时频点,可以近似的认为至多只有一个信源占支配地位,其它信源的影响可以忽略。将此性质称作语音的时频域稀疏性。根据时频稀疏性假设,在时频数据点(k,l)处至多只有一个信源占支配地位,不妨用Sd(k,l)表示该信源,导向矢量ad(φd)=[ud vd 1]T=[cosφd sinφd 1]T。考虑传感器稳态噪声远小于各声源的情况,有
其中ε表示分量数据比误差分量,该误差由加性噪声引起,且均值为零。为求得360°范围的角度φd,当噪声水平较小时,可近似认为
φd(k,l)≈arctan2D(γvo(k,l),γuo(k,l)) (14)
综上,对于任意信源的到达角度φ(k,l)在时频点(k,l)上的短时状态,可以用φd(k,l)来估计,
下面利用空间匹配波束形成器思想,设计目标零陷滤波器。一种高阶空间匹配波束形成器(High-Order Spacial Matched Filter,HOSMF),其滤波器权值为(针对AVS(2+1))
其对于任意时频点的滤波作用可表示为
进而设计目标零陷滤波器其权值系数为
其零陷波束的宽度仅与bwn有关,并随bwn的增大而变窄,通过设置不同bwn的值能够得到理想的波束宽度,进而抑制干扰噪声并增强目标语音。对于bwn的取值,当环境干扰声源较强时,可采取较大bwn值,但不宜过大,过大的值会导致目标声源的信息缺失。可利用φd(k,l)计算信源功率谱的空间分布,根据目标语音功率占空间总信号功率的比率的情况,配置高阶空间匹配滤波阶数。例如,采用如下方法
首先计算空间总信号功率
Ew=sum(Xu(k,l)X* u(k,l)+Xv(k,l)X* v(k,l)) (18)
下面计算目标语音功率,因为目标语音未知,所以用下式估计
其中Ns为一个常数,与目标语音估计的精度有关,可设置为256。于是,目标语音功率占空间总信号功率的比率为
最后,求得bwn为
其中,a和b分别取值为4和16。
设计频域MVDR波束形成器权值为
为提升MVDR性能,对AVS输出信号进行零陷滤波后用以估计计算噪声功率谱密度矩阵,代替通常使用阵列输出的功率谱密度矩阵。噪声估计如下
噪声的功率谱密度矩阵为
其中E[.]表示统计均值,可采用附近F帧的平均值。
于是改进的MVDR波束形成器权值为
利用(25)所得MVDR波束形成器对(8)(9)(10)各通道信号做波束形成处理,提取初步增强的目标语音时频谱,其输出为
再利用(15)所得HOSMF滤波器对MVDR的输出信号(26)进行滤波处理,提取进一步增强的目标语音时频谱,其输出为
YH(k,l)=wHOSYM(k,l) (27)
对YH(k,l)进行傅里叶反变换后,使用叠接相加法(overlap add)重建时域语音信号yh(t)。
下面进入深度学习语音增强过程。对yh(t)进行加床分帧,提取对数功率谱YHLPS(k,l)特征和梅尔倒谱YHMFC(n,l)特征,其中n为梅尔倒谱特征维度,之后可以进入到深度学习单通道语音增强模型的推理过程,模型输入特征为YHLPS(k,l)和YHMFC(n,l)的合并矩阵IYHLPS+YHMFC(k+n,l),输出可得到干净语音对数功率谱的估计SLPS(k,l),结合原始输入信号的相位信息进行变换,得到干净语音时频谱估计,经过傅里叶反变换,采用叠接相加法(overlap add)重建时域语音信号s'(t)。深度学习单通道语音增强过程详细描述如下:
步骤1:数据准备
本算法中基于深度学习的单通道语音增强所需大量训练数据全部来源于仿真,该数据仿真过程前提假设是语音s(t)和噪声n(t)的特征服高斯特性,二者相互独立,即带噪语音信号y(t)=s(t)+n(t);基本思想是构建带噪语音y(t)和干净语音s(t)的输入输出功率谱映射对,通过神经网络学习近似逼近该映射关系。
数据仿真需要的噪声集和不含噪声的干净语音数据集包括但不限于TIMIT、THCHS30、NOISEX-92等开源数据集和部分商业数据集。其中语音数据集语种为汉语、英语;噪声数据集约300个类别,包括但不限于广场、车站、餐厅、市场、机场、巴士、客厅、厨房等各种场景以及风格各异的不带歌词的音乐。总训练数据集时长不少于2000小时。
步骤2:特征提取
一般先对训练数据统一重采样至16kHz,并进行加窗分帧,帧长可采用1024采样点,帧移50%。
对带噪语音y(t)提取对数功率谱特征YLPS(k,l)和MFCC特征YMFC(n,l),对干净语音s(t)提取对数功率谱SLPS(k,l)和梅尔倒谱特征SMFC(n,l),对噪声n(t)提取对数功率谱特征NLPS(k,l);神经网络输入特征为YLPS(k,l)、YMFC(n,l)的合并矩阵IYLPS+YMFC(k+n,l),输出特征为SLPS(k,l)、SMFC(n,l)、NLPS(k,l)的合并矩阵OSLPS+SMFC+NLPS(k+n+k,l);输入输出特征按帧进行全局零均值单位方差归一化,并按帧进行混淆,以增强泛化能力。
步骤3:模型构建
此模型主要由CNN/GRU/DNN层和BatchNorm层组成,CNN主要用于降低参数数量,GRU用于学习时域序列特征,DNN用于特征平滑;损失函数为MSE或者MAE。
步骤4:模型训练、保存
设置、调整学习率和超参数,在避免过拟合的情况下反复迭代训练,训练时间根据硬件资源而有所差异,直至后续测试结果达到某种可接受程度为止。
步骤5:模型推理、测试
加载上述已经训练好的模型,再提取测试集语音信号的输入特征,经过推理得到输出特征TS'LPS+S'MFC+N'LPS(k+n+k,l),即SLPS(k,l)、SMFC(n,l)、NLPS(k,l)的估计值S'LPS(k,l)、S'MFC(n,l)、N'LPS(k,l)的合并矩阵,经过特定后处理并进行傅里叶反变换,采用叠接相加法(overlap add)重建时域语音信号s'(t)。所述特定处理,可采用但不限于对推理得到的干净语音对数功率谱的估计SLPS(k,l)结合原始输入信号的相位特征进行变换,进而得到干净语音时频谱估计的方式。
综上所述,本发明增强目标语音的方法通过自适应波束形成和深度神经网络技术,可有效抑制空间干扰声源和背景噪声,实现目标语音的增强。就算是在阵列或目标声源角度估计失配的情况下,性能也一样优秀;同时对于背景噪声等非相干噪声的抑制作用也很好,能满足实际应用。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未违背本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (1)
1.基于声学矢量传感器自适应波束形成和深度神经网络技术的目标语音增强方法,其特征在于,所述方法包括以下步骤:
A1:对声学矢量传感器中的各梯度传感器输出数据加窗分帧,进行短时傅里叶变换,分别得到各通道传感器的时频谱数据;
A2:根据所述步骤A1中得到的各通道时频谱数据获得各通道传感器间的相互数据比ISDR,并根据所得的ISDR值求得任意时频点占支配地位的声源到达角度估计;
A3:根据所述步骤A1中所得的各通道时频谱数据和步骤A2中得到的声源到达角估计,计算声源功率谱的空间分布,并利用目标方向的功率谱与空间总功率谱的比率配置高阶空间匹配滤波阶数;
A4:在短时傅里叶变换域,根据所述步骤A2获得目标声源到达角度和各时频点处占支配地位的声源到达角度,以及根据所述步骤A3中获得的所述滤波阶数,计算空间匹配波束形成器的高阶系数,完成高阶空间匹配波束滤波器的设计;
A5:利用所述步骤A4中所得的高阶空间匹配波束滤波器,设计目标方向零陷滤波器,对步骤A1中所得各通道数据滤波后,获得自适应波束形成器权值;
A6:利用步骤A5所得的自适应波束形成器权值,对步骤A1中声学矢量传感器各通道原始数据进行波束形成,得到初步增强的单通道目标语音时频谱;
A7:利用步骤A4中所得的高阶空间匹配波束滤波器对步骤A6中所得的单通道数据进行滤波,再次增强目标语音;
A8:通过训练好的专用深度神经网络,对步骤A7所得的数据进行处理,得到最终增强目标语音时频谱;
A9:对步骤A8所得到的数据进行反傅里叶变换,用叠接相加法重建增强后的目标语音时域信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911419999.2A CN111341339A (zh) | 2019-12-31 | 2019-12-31 | 基于声学矢量传感器自适应波束形成和深度神经网络技术的目标语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911419999.2A CN111341339A (zh) | 2019-12-31 | 2019-12-31 | 基于声学矢量传感器自适应波束形成和深度神经网络技术的目标语音增强方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111341339A true CN111341339A (zh) | 2020-06-26 |
Family
ID=71187993
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911419999.2A Pending CN111341339A (zh) | 2019-12-31 | 2019-12-31 | 基于声学矢量传感器自适应波束形成和深度神经网络技术的目标语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111341339A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111982273A (zh) * | 2020-07-06 | 2020-11-24 | 北京交通大学 | 一种轨道交通车站站台的噪声监测方法 |
CN115424609A (zh) * | 2022-08-16 | 2022-12-02 | 青岛大学 | 一种自动语音识别方法、系统、介质、设备及终端 |
CN115497500A (zh) * | 2022-11-14 | 2022-12-20 | 北京探境科技有限公司 | 音频处理方法、装置、存储介质及智能眼镜 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10207490A (ja) * | 1997-01-22 | 1998-08-07 | Toshiba Corp | 信号処理装置 |
CN101510426A (zh) * | 2009-03-23 | 2009-08-19 | 北京中星微电子有限公司 | 一种噪声消除方法及系统 |
CN104103277A (zh) * | 2013-04-15 | 2014-10-15 | 北京大学深圳研究生院 | 一种基于时频掩膜的单声学矢量传感器目标语音增强方法 |
CN105869651A (zh) * | 2016-03-23 | 2016-08-17 | 北京大学深圳研究生院 | 基于噪声混合相干性的双通道波束形成语音增强方法 |
CN107221336A (zh) * | 2017-05-13 | 2017-09-29 | 深圳海岸语音技术有限公司 | 一种增强目标语音的装置及其方法 |
CN107369460A (zh) * | 2017-07-31 | 2017-11-21 | 深圳海岸语音技术有限公司 | 基于声学矢量传感器空间锐化技术的语音增强装置及方法 |
CN110600050A (zh) * | 2019-09-12 | 2019-12-20 | 深圳市华创技术有限公司 | 基于深度神经网络的麦克风阵列语音增强方法及系统 |
-
2019
- 2019-12-31 CN CN201911419999.2A patent/CN111341339A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10207490A (ja) * | 1997-01-22 | 1998-08-07 | Toshiba Corp | 信号処理装置 |
CN101510426A (zh) * | 2009-03-23 | 2009-08-19 | 北京中星微电子有限公司 | 一种噪声消除方法及系统 |
CN104103277A (zh) * | 2013-04-15 | 2014-10-15 | 北京大学深圳研究生院 | 一种基于时频掩膜的单声学矢量传感器目标语音增强方法 |
CN105869651A (zh) * | 2016-03-23 | 2016-08-17 | 北京大学深圳研究生院 | 基于噪声混合相干性的双通道波束形成语音增强方法 |
CN107221336A (zh) * | 2017-05-13 | 2017-09-29 | 深圳海岸语音技术有限公司 | 一种增强目标语音的装置及其方法 |
CN107369460A (zh) * | 2017-07-31 | 2017-11-21 | 深圳海岸语音技术有限公司 | 基于声学矢量传感器空间锐化技术的语音增强装置及方法 |
CN110600050A (zh) * | 2019-09-12 | 2019-12-20 | 深圳市华创技术有限公司 | 基于深度神经网络的麦克风阵列语音增强方法及系统 |
Non-Patent Citations (1)
Title |
---|
ZOU ET AL.: "Speech enhancement with an acoustic vector sensor: an effective adaptive beamforming and post-filtering approach", 《EURASIP JOURNAL ON AUDIO, SPEECH, AND MUSIC PROCESSING》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111982273A (zh) * | 2020-07-06 | 2020-11-24 | 北京交通大学 | 一种轨道交通车站站台的噪声监测方法 |
CN111982273B (zh) * | 2020-07-06 | 2022-08-16 | 北京交通大学 | 一种轨道交通车站站台的噪声监测方法 |
CN115424609A (zh) * | 2022-08-16 | 2022-12-02 | 青岛大学 | 一种自动语音识别方法、系统、介质、设备及终端 |
CN115497500A (zh) * | 2022-11-14 | 2022-12-20 | 北京探境科技有限公司 | 音频处理方法、装置、存储介质及智能眼镜 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107221336B (zh) | 一种增强目标语音的装置及其方法 | |
US10123113B2 (en) | Selective audio source enhancement | |
CN110517701B (zh) | 一种麦克风阵列语音增强方法及实现装置 | |
Wang et al. | Combining superdirective beamforming and frequency-domain blind source separation for highly reverberant signals | |
CN107369460B (zh) | 基于声学矢量传感器空间锐化技术的语音增强装置及方法 | |
CN111341339A (zh) | 基于声学矢量传感器自适应波束形成和深度神经网络技术的目标语音增强方法 | |
Nesta et al. | A flexible spatial blind source extraction framework for robust speech recognition in noisy environments | |
Koldovský et al. | Semi-blind noise extraction using partially known position of the target source | |
CN111681665A (zh) | 一种全向降噪方法、设备及存储介质 | |
Aroudi et al. | Dbnet: Doa-driven beamforming network for end-to-end reverberant sound source separation | |
Li et al. | Single-channel speech dereverberation via generative adversarial training | |
Xiao et al. | Beamforming networks using spatial covariance features for far-field speech recognition | |
Hu et al. | Decoupled direction-of-arrival estimations using relative harmonic coefficients | |
Tu et al. | LSTM-based iterative mask estimation and post-processing for multi-channel speech enhancement | |
Fu et al. | Blind DOA estimation in a reverberant environment based on hybrid initialized multichannel deep 2-D convolutional NMF with feedback mechanism | |
Yemini et al. | Scene-agnostic multi-microphone speech dereverberation | |
WO2023108864A1 (zh) | 小型麦克风阵列设备的区域拾音方法及系统 | |
CN116106826A (zh) | 声源定位方法、相关装置和介质 | |
Wang et al. | U-net based direct-path dominance test for robust direction-of-arrival estimation | |
Delcroix et al. | Multichannel speech enhancement approaches to DNN-based far-field speech recognition | |
Braun et al. | Low complexity online convolutional beamforming | |
KR20120133038A (ko) | 피드 포워드 네트워크를 이용하는 독립 벡터 분석에 따른 블라인드 소스 분리 방법 및 장치 | |
Hioka et al. | Estimating power spectral density for spatial audio signal separation: An effective approach for practical applications | |
Li et al. | An overview of speech dereverberation | |
Yuan et al. | Multi-channel Speech Enhancement with Multiple-target GANs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200626 |