CN107369460A

CN107369460A - 基于声学矢量传感器空间锐化技术的语音增强装置及方法

Info

Publication number: CN107369460A
Application number: CN201710642066.4A
Authority: CN
Inventors: 石伟; 王鹏; 邹月娴
Original assignee: Shenzhen Coast Speech Technology Co Ltd
Current assignee: Shenzhen Coast Speech Technology Co Ltd
Priority date: 2017-07-31
Filing date: 2017-07-31
Publication date: 2017-11-21
Anticipated expiration: 2037-07-31
Also published as: CN107369460B

Abstract

本发明涉及基于声学矢量传感器空间锐化技术的语音增强装置，该装置包括用于采集音频信号的声学矢量传感器、方向性声源检测模块、高斯滤波器、静音滤波器、标量滤波器；声学矢量传感器将采集到的音频信号通过依次相连接的方向性声源检测模块、高斯滤波器、静音滤波器、标量滤波器进行波束处理，从而获得增强的目标方向语音。本发明还提供一种增强目标语音的方法。通过本发明是语音增强装置和方法能够有效地增强空间所有方向性声源，同时抑制背景噪声；另外该装置具有较低的计算复杂度，极具在小型设备上的应用和推广优势。

Description

基于声学矢量传感器空间锐化技术的语音增强装置及方法

技术领域

本发明涉及语音信号处理技术领域，具体地，涉及一种基于声学矢量传感器空间锐化技术的语音增强装置及其方法。

背景技术

在实际环境中，麦克风在拾取语音信号时，不可避免地会受到来自周围环境噪声、传输媒介噪声、通信设备内部电噪声、房间混响以及其它说话人的话音干扰，因此拾取语音的质量受到影响。语音增强技术是语音处理领域的核心技术之一，能够实现从带噪语音中提取干净的目标语音，以改善接收端语音质量，提高语音的清晰度、可懂度和舒适度，使人易于接受或提高语音处理系统的性能。

基于单个麦克风的语音增强技术的研究已经有四十多年的历史。但是实际情况中，噪声总是来自于四面八方，且其与语音信号在时间和频谱上常常是相互交叠的，再加上回波和混响的影响，利用单麦克风增强感兴趣的声音并有效抑制背景噪声和方向性强干扰是相当困难的。引入麦克风阵列技术后，语音增强技术取得了很大突破。相比传统的单一麦克风语音增强技术，麦克风阵列语音增强技术可以利用语音信号的空间信息来形成波束，实现对干扰噪声的消除，能够保证在语音信息损失最小的条件下实现噪声抑制(J.Benesty,S. Makino,and J.E.Chen,Speech Enhancement.Berlin,.Germany:Springer, 2005.)。因此近十多年来，麦克风阵列语音增强技术已成为了语音增强技术的研究热点和关键技术。然而，目前大多数的麦克风阵列语音增强技术的性能都是正比于阵列所用麦克风数目的，因此该种技术的研究往往采用较多麦克风的阵列，有的麦克风阵列甚至使用数百个麦克风，而较多的麦克风数目造成麦克风阵列的体积也较大，最典型的案例是MIT搭建的用于噪声消除和语音增强的麦克风阵列使用了1020个麦克风，其阵列孔径有几米长。因此麦克风阵列技术噪声抑制性能虽好，但由于其设备体积大，算法运算复杂度高，故在实际应用时受到了许多限制。

声学矢量传感器(Acoustic Vector Sensor，AVS)作为音频信号采集器。与常用的声压麦克风相比，AVS在结构上具有其特殊性：一颗AVS由2到3 个正交放置的压力梯度传感器和1个全向压力传感器构成(A.Nehorai and E. Paldi,"Vector-sensor arrayprocessing for electromagneticsource localization,"Signal Processing,IEEETransactions on,vol.42,pp.376-398, 1994.)，它的空间结构紧凑，传感器近似同位放置，各个传感器接收到的音频信号无时延差别。对于理想的AVS，各通道接收信号存在三角函数关系，因此，仅单颗AVS就能够实现单个或者多个的空间声源到达方向的估计。随着移动互联网和智能机器人等应用需求的不断增长，具有更小体积的AVS，必将使之在众多场景中替代常规麦克风阵列技术，成为未来音频传感和噪声抑制的最佳解决方案之一。

为便于描述，以二维场景为例进行说明，即只利用AVS中2个正交同位放置的压力梯度传感器采集音频信号的场景。实际应用中，可同理推广至三维场景或利用更多传感器的情形。在二维场景下，其梯度传感器输出的信号模型可表示为：

其中x_avs(t)＝[x_u(t)x_v(t)]^T是AVS的输出信号，n_avs(t)＝[n_u(t)n_v(t)]^T是传感器稳态背景噪声，s(t)是目标声源信号，n_i(t)为干扰源信号，I为干扰源的数目。 a(φ_s)＝[u_sv_s]^T＝[cosφ_ssinφ_s]^T是目标声源的导向矢量，同理干扰源的导向矢量为 a(φ_i)＝[u_iv_i]^T＝[cosφ_isinφ_i]^T。

基于AVS的空间匹配波束形成器(Spacial Matched Filter，SMF)的输出可表示为：

SMF波束形成器(K.T.Wong,H.Chi,"Beam Patterns of an Underwater AcousticVector Hydrophone Located Away from any Reflecting Boundary," IEEE journal ofOceanic Engineering,vol.27,no.33,pp.628-637,July 2002)能够在目标方向形成波束，其权值矢量与目标信号源的导向矢量的指向是一致的。当对目标信源到达角度φ_s方向进行波束形成时，SMF的权值w_s通常的解表示为：

w_s＝a(φ_s)/(||a^H(φ_s)||||a(φ_s)||) (3)

该波束形成器对任意角度φ的声源，波束响应可表示为：

由波束响应可知SMF波束形成器能够一定程度增强目标方向声源，抑制非目标方向的干扰声源，但是需要目标声源的角度作为先验知识，并且无法同时增强多个空间声源，同时SMF对于非方向性的背景噪声并没有抑制能力，因此在许多实际应用中难以满足需求。

发明内容

本发明的目的在于克服现有的语音增强方法不能同时增强多个空间声源，且对非方向性背景噪声没有抑制能力，提供一种基于声学矢量传感器空间锐化技术的语音增强装置，该装置能够有效的增强空间所有方向性声源，同时抑制背景噪声；另外该装置具有较低的计算复杂度，极具在小型设备上的应用和推广优势。

为了达到上述目的，本发明提供一种基于声学矢量传感器空间锐化技术的语音增强装置，该装置包括用于采集音频信号的声学矢量传感器，所述装置还包括：

方向性声源检测模块，用于检测所述声学矢量传感器采集的音频信号中具有方向性声源的个数，以及检测每个方向性声源所在的角度区间；

高斯滤波器，用于锐化所述方向性声源检测模块检测到的所有方向性声源；

标量滤波器，用于将所述高斯滤波器处理后的矢量信号变成标量信号，

所述声学矢量传感器将采集到的音频信号通过依次相连接的所述方向性声源检测模块、高斯滤波器以及标量滤波器进行音频信号处理，即将采集到的音频信号首先通过所述方向性声源检测模块检测具有方向性声源的个数及每个方向性声源所在的角度区间，然后通过所述高斯滤波器对每个方向性声源进行锐化处理，最后通过所述标量滤波器将所述高斯滤波器处理后的矢量信号变成标量信号。

根据本发明的一个实施例，所述装置还包括用于抑制无方向性背景噪音的静音滤波器，所述滤波器设置在所述高斯滤波器和标量滤波器之间，即所述高斯滤波器锐化所述方向性声源后由所述静音滤波器滤除背景噪音，最后再由所述标量滤波器将矢量信号转化为标量信号。

根据本发明的一个实施例，所述高斯滤波器的高斯函数为：

HG＝gaussian(Hl,Hs)

所述高斯滤波器长度为Hl，取常数13；Hs为锐化参数，取值大于0。

根据本发明的一个实施例，所述锐化参数Hs取值为1.6。

根据本发明的一个实施例，所述标量滤波器在任意时频(k,l)下的滤波系数 w_d(φ_d,k,l)为：

w_d(φ_d,k,l)＝a(φd₎/(||a^H(φ_d)||||a(φ_d)||)

φ_d为任意声源的到达角度，a(φ_d)为任意声源的导向矢量。

根据本发明的一个实施例，所述静音滤波器的系数w_v为：

Nv为0到1之间常数，v_s为静音参数，

将2π范围的角度域划分为R个角度区间，则AE(r)为分布在第r个角度区间内时频点的能量统计，1≤r≤R。

根据本发明的一个实施例，所述Nv取值为0.4。

本发明的另外一个目的还在于提供一种基于声学矢量传感器空间锐化技术的语音增强方法，所述方法包括：

A1：对声学矢量传感器中的各梯度传感器输出数据加窗分帧，进行短时傅里叶变换，分别得到各通道传感器的时频谱数据；

A2：根据所述步骤A1中得到的各通道时频谱数据获得各通道传感器间的相互数据比ISDR，并根据所得的ISDR值求得任意时频点占支配地位的声源到达角度估计；

A3：根据所述步骤A1中所得的各通道时频谱数据和步骤A2中所得的声源到达角估计，得到所述声学矢量传感器当前帧信号在全角度空间的区间能量分布；

A4：对步骤A3所得区间能量分布进行峰值检测，取较大若干峰值点，估计出含有方向性声源的角度区间，并得到能量峰值的角度分布函数；

A5：设计高斯滤波器，通过所述高斯滤波器的高斯函数对步骤A4所得的能量峰值的角度分布函数进行卷积运算，得到能量峰值角度附近的高斯分布函数，从而获得所述高斯分布函数与峰值角度区间相应时频点的对应关系，得到对应时频点处的高斯加权系数，用以对空间的语音声源进行锐化；

A6：利用步骤A3所得区间能量分布，估计出无方向性声源存在的时间帧，获得用于消除背景噪音的静音滤波器的静音滤波系数；

A7：根据步骤A2所得声源到达角估计，获得标量滤波器的系数；

A8：利用步骤A5所述的高斯加权系数、步骤A6静音滤波系数以及步骤 A7标量滤波系数对步骤A1中所述声学矢量传感器各通道原始数据进行滤波，提取锐化后的空间语音时频谱；

A9：对步骤A8所得数据进行傅里叶反变换，重建锐化增强后的空间语音时域信号。

根据本发明的一个实施例，根据获得各通道传感器间的相互数据比ISDR 值，利用三角函数关系求得任意时频点占支配地位的声源到达角度估计。

根据本发明的一个实施例，所述步骤A9中，对所得数据进行傅里叶反变换，用叠接相加法重建锐化增强后的空间语音时域信号。

本发明相对于现有技术，具有以下有益效果：

(1)本发明基于声学矢量传感器空间锐化技术的语音增强装置及其方法能够实现空间方向性语音增强，即在空间声源数量和声源方位均未知或不可知的情形下，能够有效地增强空间中所有的方向性语音，同时抑制背景噪声，而麦克风阵列语音增强算法则依赖于声源数量检测和声源定位算法。

(2)本发明基于声学矢量传感器空间锐化技术的语音增强装置易于在便携设备上应用，且通过采用单声学矢量传感器采集语音，体积小，易于在小型设备上集成；同时算法复杂度低，易于实时运行在运算能力有限的嵌入式平台上。

(3)本发明所述的语音增强方法的不依赖任何先验知识，实用性强，在复杂环境中鲁棒性和可靠性能够得到保证。

附图说明

图1是本发明基于声学矢量传感器空间锐化技术的语音增强装置的结构示意图；

图2为本发明实施例示意图；

图3为本发明实施例示意图；

图4为本发明实施例示意图。

具体实施方式

下面结合实施例及附图，对本发明作进一步地详细说明，但本发明的实施方式不限于此。

如图1所示为本发明基于声学矢量传感器空间锐化技术的语音增强装置的结构示意图，该装置包括用于采集音频信号的声学矢量传感器，用于检测声学矢量传感器采集的音频信号中具有方向性声源的个数以及检测每个方向性声源所在的角度区间的方向性声源检测模块，用于锐化所有检测到的方向性声源的高斯滤波器，用于将高斯滤波器处理后的矢量信号变成标量信号的标量滤波器，本发明实施例中，对于空间存在非方向性的背景噪音，还需要通过静音滤波器进行抑制。声学矢量传感器将采集到的音频信号通过依次相连接的方向性声源检测模块、高斯滤波器、静音滤波器以及标量滤波器进行音频信号处理，即将采集到的音频信号首先通过方向性声源检测模块检测具有方向性声源的个数及每个方向性声源所在的角度区间，然后通过高斯滤波器对每个方向性声源进行锐化处理，且由静音滤波器对非方向性的背景噪音进行滤除或者抑制，最后通过标量滤波器将声学矢量传感器各通道的矢量信号变成标量信号。

本发明还提供了一种基于声学矢量传感器空间锐化技术的语音增强方法，该方法具体包括以下步骤：

A2：根据步骤A1中得到的各通道时频谱数据获得各通道传感器间的相互数据比ISDR，并根据所得的ISDR值求得任意时频点占支配地位的声源到达角度估计；

A3：根据步骤A1中所得的各通道时频谱数据和步骤A2中所得的声源到达角估计，得到声学矢量传感器当前帧信号在全角度空间的区间能量分布；

A5：设计高斯滤波器，通过高斯函数对步骤A4所得的能量峰值的角度分布函数进行卷积运算，得到能量峰值角度附近的高斯分布函数，从而获得高斯分布函数与峰值角度区间相应时频点的对应关系，得到对应时频点处的高斯加权系数，用以对空间的语音声源进行锐化；

A8：利用步骤A5中的高斯加权系数、步骤A6中的静音滤波系数以及步骤A7中的标量滤波系数对步骤A1中所述声学矢量传感器各通道原始数据进行滤波，提取锐化后的空间语音时频谱；

下面以具体例子来解释说明本发明的语音增强装置及其语音增强方法，以 16kHz的采样率对声学矢量传感器接收的信号进行采样，并进行加窗分帧，分帧短时窗采用汉宁窗，窗长K＝1024采样点，傅里叶变换点数也为K，帧移50％，得到各通道的时频谱数据：

其中，k为傅里叶变换的频率指数，l是短时帧序号。

定义u通道传感器与v通道传感器之间的分量数据比(Inter Sensor Data Rate，ISDR)如下式：

同理，u通道传感器与o通道传感器间分量数据比如下式：

根据研究(李波，基于信号稀疏性的声学矢量传感器DOA估计方法研究，硕士学位论文，北京大学，2012)，语音信号在短时傅里叶域具有较好的稀疏性。当一段语音有多个说话人出现时，仍会有某些语音片段只有一个说话人处于活跃状态而其他所有的说话人处于静音状态(短暂停顿或停歇)。即使在多个说话人同时处于活跃状态的片段，不同说话人的语音信号能量在频域仍有可能占据不同的离散频率。在某个具体的时频点，可以近似的认为至多只有一个信源占支配地位，其它信源的影响可以忽略。将此性质称作语音的时频域稀疏性。根据时频稀疏性假设，在时频数据点(k,l)处至多只有一个信源占支配地位，不妨用S_d(k,l)表示该信源，导向矢量a_d(φ_d)＝[u_dv_d]^T＝[cosφ_dsinφ_d]^T。考虑传感器稳态噪声远小于各声源的情况，有：

其中，ε表示分量数据比误差分量，该误差由假性噪声引起，且均值为零。该时频数据点(k,l)处信源DOA角度与ISDR有关。对γ_uv(k,l)求反余切，有

arccotγ_uv(k,l)＝arccot(cot(φ_d)+ε)

＝φ_d+flag·π+σ (11)

其中，σ大小与稳态噪声水平有关，当噪声水平较小时，近似认为：

φ_d(k,l)≈arccotγ_uv(k,l)-flag·π (12)

其中，由于反余切函数的值域只能对应180°范围，为求得360°范围的φ_d角度，引入参数flag，其值由下式求得：

也可以用二维反余切函数，直接求得φ_d，如下式

φ_d(k,l)≈arctan 2D(γ_vo(k,l),γ_uo(k,l))

综上，对于任意信源的到达角度φ(k,l)在时频点(k,l)上的短时状态，可以用φ_d(k,l)来估计。

当前帧的各时频点能量为：

TF_energy(k)＝X_u(k,l)X^* _u(k,l)+X_v(k,l)X^* _v(k,l) (14)

各时频点的能量-角度对应关系为：φ_d(k)～TF_energy(k)。

为了估计出含有方向性声源的角度，可以将2π范围的角度域划分为R个角度区间，R的取值可以根据实际情况而定，这里R可取值为180。则分布在第r(1≤r≤R)个角度区间内的时频点能量统计为：

分布在第r个角度区间内的时频点数量统计为：

其中

当空间存在方向性声源时，则方向性声源到达角度对应的角度区间，其能量相比其他角度区间的能量要高，因此，可通过能量峰值检测方法估计存在方向性声源的角度区间。采用如下方法：

[pv,pl]＝findpeaks(AE(r)) (18)

其中，pv为峰值点序列，即峰值点的能量，pl为峰值对应的位置，即峰值点所处的角度区间。为选取最大概率存在方向性声源的角度区间，我们将峰值点按能量取值从大到小排序，取前Nf个最大峰值点，其对应的角度区间则认为空间方向性声源存在。这里峰值点选取个数Nf可适当选取，一般可取值10。如实际峰值点个数少于Nf则以实际为准。则前Nf个能量峰值在角度区间r内的存在情况分布为

一般地，受无方向高斯噪声的影响，在AVS采集的信号中，空间声源能量的角度分布理论上近似为高斯分布，能量散落在到真实达角度附近的角度区域。为了达到锐化空间的方向性声源的目的，利用公式(19)建立高斯分布函数，通过高斯分布函数对公式(15)能量分布函数进行加权相乘，锐化增强方向性声源。

采用如下方法：

生成一个高斯滤波器，则高斯函数为：

HG(h)＝gaussian(Hl,Hs) (20)

其滤波器长度为Hl，取一常数，可取为13。Hs为高斯标准差，取值大于 0，这里取值1.6。其中Hs又可称为锐化参数，能够调节空间声源锐化的程度，越小锐化程度越高，对无方向噪声抑制越大，同时声源失真也越大；反之同理。

利用高斯滤波器(20)与公式(19)的峰值分布函数计算卷积，得到空间声源能量峰值角度附近的高斯分布函数

max(HG)为高斯函数的最大系数值。用该高斯分布函数对公式(15)所得能量角度分布AE(r)进行加权相乘，即对能量分布实现锐化。具体实施时，需转化为能量角度分布AE(r)对应的时频点进行加权相乘。高斯加权系数为

w_g(k)＝gaussian_AME(r),while 2π(r-1)/R≤φ_d(k)<2πr/R (22)

当当前时刻不存在方向性声源活动时，则当前帧中主要为无方向性的背景噪声，不但不需要进行信号增强，还应对背景噪声进行抑制。因此需要针对当前帧有无方向性声源信号的情况分别处理。

由于方向性声源个数是有限的，它的到达角度在2π角度空间中的分布是稀疏的，在到达角度附近的能量也是比较集中的。在公式(15)的能量分布函数中，其曲线尖峰对应高能量的角度，当有方向性声源存在时，其尖峰极值较大，尖峰宽度较窄；反之尖峰极值较小宽度较宽。利用这一特点，通过设计如下静音参数加以反映：

静音参数v_s的意义在于，其值域为(0,1)，当值较大时，公式(15)中能量分布函数尖峰极值较小宽度较宽，则对应时刻方向性声源存在的概率较低，反之则方向性声源存在的概率较高。利用静音参数v_s，设计静音滤波器系数：

其中Nv为一常数，可在0和1之间取值，越小时对无方向性的背景噪声的抑制越大，一般取经验值0.4。

利用每个时频点处占支配地位的声源到达角，设计标量滤波器，得到某时频点处声源的标量信号，标量滤波系数为：

w_d(φ_d,k,l)＝a(φ_d)/(||a^H(φ_d)||||a(φ_d)||) (24)

利用(22)(23)所得高斯加权系数和静音滤波系数以及公式(24)所得标量滤波系数对(5)(6)(7)各通道信号做滤波处理，获得锐化后的空间语音时频谱，其输出为：

对Y(k,l)进行傅里叶反变换，采用叠接相加法(overlap add)重建时域语音信号，即获得锐化增强后的空间语音。

综上所述，基于声学矢量传感器空间锐化技术的语音增强装置及其方法能够实现空间方向性语音增强，即在空间声源数量和声源方位均未知或不可知的情形下，能够有效地增强空间中所有的方向性语音，同时抑制背景噪声，如图 2～4所示，其中图2原始的纯净语音信号，图3为具有背景噪音的语音信号，图4为经过本发明方法处理过后的语音信号。同时本发明语音增强方法不依赖任何先验知识，实用性强，在复杂环境中鲁棒性和可靠性能够得到保证。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未违背本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于声学矢量传感器空间锐化技术的语音增强装置，所述装置包括用于采集音频信号的声学矢量传感器，其特征在于，所述装置还包括：

2.根据权利要求1所述的基于声学矢量传感器空间锐化技术的语音增强装置，其特征在于，所述装置还包括用于抑制无方向性背景噪音的静音滤波器，所述滤波器设置在所述高斯滤波器和标量滤波器之间，即所述高斯滤波器锐化所述方向性声源后由所述静音滤波器滤除背景噪音，最后再由所述标量滤波器将矢量信号转化为标量信号。

3.根据权利要求1所述的基于声学矢量传感器空间锐化技术的语音增强装置，其特征在于，所述高斯滤波器的高斯函数为：

HG＝gaussian(Hl,Hs)

4.根据权利要求3所述的基于声学矢量传感器空间锐化技术的语音增强装置，其特征在于，所述锐化参数Hs取值为1.6。

5.根据权利要求1所述的基于声学矢量传感器空间锐化技术的语音增强装置，其特征在于，所述标量滤波器在任意时频(k,l)下的滤波系数w_d(φ_d,k,l)为：

w_d(φ_d,k,l)＝a(φ_d)/(||a^H(φ_d)||||a(φ_d)||)

φ_d为任意声源的到达角度，a(φ_d)为任意声源的导向矢量。

6.根据权利要求2所述的基于声学矢量传感器空间锐化技术的语音增强装置，其特征在于，所述静音滤波器的系数w_v为：

Nv为0到1之间常数，v_s为静音参数，

<mrow> <msub> <mi>v</mi> <mi>s</mi> </msub> <mo>=</mo> <mi>m</mi> <mi>e</mi> <mi>a</mi> <mi>n</mi> <mrow> <mo>(</mo> <mfrac> <mrow> <mi>A</mi> <mi>E</mi> <mrow> <mo>(</mo> <mi>r</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>m</mi> <mi>e</mi> <mi>a</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>A</mi> <mi>E</mi> <mo>(</mo> <mi>r</mi> <mo>)</mo> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>&GreaterEqual;</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>,</mo> </mrow>

7.根据权利要求6所述的基于声学矢量传感器空间锐化技术的语音增强装置，其特征在于，所述Nv取值为0.4。

8.基于声学矢量传感器空间锐化技术的语音增强方法，其特征在于，所述方法包括：

A5：利用高斯函数对步骤A4所得的能量峰值的角度分布函数进行卷积运算，得到能量峰值角度附近的高斯分布函数，从而获得所述高斯分布函数与峰值角度区间相应时频点的对应关系，得到对应时频点处的高斯加权系数，用以对空间的语音声源进行锐化；

A8：利用步骤A5中的所述高斯加权系数、步骤A6中的静音滤波系数以及步骤A7中的标量滤波系数对步骤A1中所述声学矢量传感器各通道原始数据进行滤波，提取锐化后的空间语音时频谱；

9.根据权利要求8所述的基于声学矢量传感器空间锐化技术的语音增强方法，其特征在于，所述步骤A2中，根据获得各通道传感器间的相互数据比ISDR值，利用三角函数关系求得任意时频点占支配地位的声源到达角度估计。

10.根据权利要求8所述的基于声学矢量传感器空间锐化技术的语音增强方法，其特征在于，所述步骤A9中，对所得数据进行傅里叶反变换，用叠接相加法重建锐化增强后的空间语音时域信号。