CN104103277A

CN104103277A - 一种基于时频掩膜的单声学矢量传感器目标语音增强方法

Info

Publication number: CN104103277A
Application number: CN201310133745.0A
Authority: CN
Inventors: 邹月娴; 王鹏; 石伟
Original assignee: Peking University Shenzhen Graduate School
Current assignee: Shenzhen coast Speech Technology Co., Ltd.
Priority date: 2013-04-15
Filing date: 2013-04-15
Publication date: 2014-10-15
Anticipated expiration: 2033-04-15
Also published as: CN104103277B

Abstract

本发明涉及一种基于时频掩膜的单声学矢量传感器(Acoustic Vector Sensor，AVS)目标语音增强方法。所述方法已知目标语音的到达角，采用联合固定波束形成器与后置维纳滤波器方法实现目标语音增强，后置维纳滤波器权值的计算涉及目标语音的自功率谱估计，本发明利用语音信号的时频稀疏特性，通过计算AVS中2个梯度传感器输出分量信号间的数据比(Inter-sensor data ratio，ISDR)来估算接收音频信号时频点关联到达角，通过计算时频点关联到达角与目标达到角之间的误差来设计时频掩膜，以此获得目标语音的自功率谱估计。本发明所述方法不需要任何噪声先验知识，在多说话人存在的复杂环境中，能够有效地增强目标语音，抑制干扰语音及背景噪声。此外该方法运算复杂度低，采用的麦克风阵列体积小(仅有1cm³左右)，非常适用于便携设备上的应用。

Description

一种基于时频掩膜的单声学矢量传感器目标语音增强方法

技术领域

本发明涉及一种基于时频掩膜的单声学矢量传感器目标语音增强方法，属于语音信号处理技术领域。

背景技术

语音增强是语音处理领域的核心技术之一。在实际复杂环境中，麦克风在拾取语音信号时，不可避免地会受到来自周围环境噪声、传输媒介噪声、通信设备内部电噪声、房间混响以及其它说话人的话音干扰，因此拾取语音的质量受到影响。为了减少噪声对语音的影响，获得高质量的语音，对语音增强技术提出了要求。传统的单通道语音增强方法通常实现简单，对非相干噪声效果明显，但对于嘈杂人声环境(多个说话人存在)场景，难以增强目标语音；基于麦克风阵列的语音增强技术则利用了信号的空时谱信息，有较强的空间干扰噪声抑制能力，可获得比单通道语音增强更好的性能，但语音增强性能随着麦克风数目的增加而提高，因此麦克风阵列的体积较大，限制了该类技术在小型移动设备上的应用。

本发明采用了一种新型麦克风阵列——声学矢量传感器(Acoustic Vector Sensor，AVS)作为音频信号采集器。与常用的声压麦克风相比，AVS在结构上具有其特殊性：一颗AVS由2到3个正交放置的压力梯度传感器和1个全向压力传感器构成，它的空间结构紧凑，仅仅有1cm³左右大小，所以在研究中被认为是同位阵列。各个传感器接收到的音频信号在时间上可认为是对齐的。对于理想的AVS，各通道接收信号存在三角函数关系，因此，仅单颗AVS就能够实现单个或者多个的空间声源到达方向的估计。随着移动终端技术和语音技术的发展和应用需求，AVS小体积的特殊优点，有可能成为手机、录音笔和相机等小尺寸便携设备音频传感和噪声抑制的有效解决方案。

本发明利用AVS中2个正交同位放置的压力梯度传感器采集音频信号，在二维场景下，其梯度传感器输出的信号模型可表示为：

x_{avs} (t) = a (φ_{s}) s (t) + Σ_{i = 1}^{I} a (φ_{i}) n_{i} (t) + n_{avs} (t) - - - (1)

其中x_avs＝[x_u(t) x_v(t)]^T是AVS的输出信号，n_avs(t)＝[n_u(t) n_v(t)]^T是传感器稳态背景噪声，s(t)是目标声源信号，n_i(t)为干扰源信号，I为干扰源的数目。a(φ_s)＝[u_s v_s]^T＝[cosφ_s sinφ_s]^T是目标声源的导向矢量，同理干扰源的导向矢量a(φ_i)＝[u_i v_i]^T＝[cosφ_i sinφ_i]^T。本发明基于上述背景，提出一种基于单声矢量传感器的目标语音增强方法。实验效果表明，本发明可有效抑制空间干扰声源和背景噪声，实现目标语音的增强。

发明内容

本发明的目的在于克服当前语音增强在实际应用中的一些难点(单通道语音增强方法难以抑制空间干扰噪声；现有基于麦克风阵列语音增强方法受限于阵列体积和计算负责度难以应用于便携设备)，提出一种基于时频掩膜的单声学矢量传感器目标语音增强方法。该方法具有增强效果好，计算复杂度低的特点，有效抑制空间干扰源和背景噪声，增强后的目标语音失真度小，听觉感知评价得分较高。

一种基于时频掩膜的单声学矢量传感器目标语音增强方法，其核心思想是：通过固定波束形成器与后置维纳滤波器实现目标语音增强。在后置维纳滤波器权值求解中关键一步即目标语音的自功率谱估计，本发明利用语音信号的时频稀疏性，通过计算AVS中2个梯度传感器输出分量的数据比(Inter-sensordata ratio，ISDR)来估算接收音频信号时频点关联到达角，通过计算时频点关联到达角与目标到达角之间的误差来设计时频掩膜，以获取目标方向语音的谱估计。

一种基于时频掩膜的单声学矢量传感器目标语音增强方法，其步骤是：

(a)对AVS中的两个梯度传感器输出数据加窗分帧，进行短时傅里叶变换，得到两通道的时频谱数据；

(b)对(a)所得两通道数据求ISDR值，对ISDR值求反余切得到到达角估计，与目标到达角比较求得时频掩膜；

(c)根据目标到达角求得固定波束形成器权向量，对(a)所得两通道数据进行固定波束形成；

(d)用(b)所得的时频掩膜对(c)固定波束形成器的输出进行时频掩膜滤波；

(e)通过(c)和(d)所得的数据计算后置维纳滤波器的权值，并对(c)固定波束形成器输出进行滤波。具体方法是：令(c)固定波束形成器的输出为后置维纳滤波器的输入，计算(d)掩膜后的输出与(c)固定波束形成器的输出的互功率谱，作为后置维纳滤波器权值计算公式的分子；计算(c)固定波束形成器的输出的自功率谱作为后置滤波器权值计算公式的分母，两者的比值即为后置维纳滤波器的权值。用该后置维纳滤波器对(c)固定波束形成器的输出进行滤波，得到增强的目标语音谱；

(f)最后对(e)所得数据进行傅里叶反变换，用叠接相加法重建增强后的目标语音时域信号。

本发明的有益效果在于：1)本发明所述的方法能够实现目标方向语音增强。在多说话人存在的环境中，能够有效地对增强目标方向语音，抑制干扰语音，同时抑制背景噪声。通常单通道语音增强算法无法应对多说话人同时存在的场景。2)本发明所述的方法易于在便携设备上应用。本发明采用单AVS采集语音，而一颗AVS传感器仅有1cm3大小，易于在小型设备上集成；同时算法复杂度低，易于实时运行在运算能力有限的嵌入式平台上。通常基于麦克风阵列的语音增强算法需要多颗麦克风组成空间阵列，体积较大，运算复杂度较高，难以在便携设备上应用。3)本发明所述的目标语音增强算法的不依赖任何先验知识，能够随时使用。而常用的基于谱减、维纳滤波以及自适应的增强方法需要得到噪声的特性估计，通常依赖语音端点检测算法在非语音段估计或采用参考麦克风，在复杂环境中鲁棒性和可靠性难以保证。

附图说明

图1为一种基于时频掩膜的单声学矢量传感器目标语音增强方法示意图。

图2为声矢量传感器示意图。

图3为纯净两语音信号(空间夹角为45°)。

图4为AVS的两梯度传感器拾取的混合语音信号。

图5为本发明所述方法处理后的结果(分别对两目标信号方向增强)。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细描述。

例如采用16kHz采样率对AVS接收信号(1)采样，并进行加窗分帧，分帧短时窗采用汉宁窗，窗长K＝1024采样点，傅里叶变换点数也为K，帧移50％，得到两通道的时频谱数据

X_{u} (k, l) = u_{s} S (k, l) + Σ_{i = 1}^{I} u_{i} N_{i} (k, l) + N_{u} (k, l) - - - (2)

X_{v} (k, l) = v_{s} S (k, l) + Σ_{i = 1}^{I} v_{i} N_{i} (k, l) + N_{u} (k, l) - - - (3)

在(2)和(3)中，k为FFT变换的频率指数，l是短时帧序号。定义u通道传感器与v通道传感器间分量数据比(Inter Sensor Data Rate，ISDR)如下式

γ_{uv} (k, l) \overset{Δ}{=} X_{u} (k, l) / X_{v} (k, l) - - - (4)

据研究，语音信号在短时傅里叶域具有较好的稀疏性。当一段语音有多个说话人出现时，仍会有某些语音片段只有一个说话人处于活跃状态而其他所有的说话人处于静音状态(短暂停顿或停歇)。即使在多个说话人同时处于活跃状态的片段，不同说话人的语音信号能量在频域仍有可能占据不同的离散频率。在某个具体的时频点，可以近似的认为至多只有一个信源占支配地位，其它信源的贡献可以忽略。将此性质称作语音的时频域稀疏性。根据时频稀疏性假设，在时频数据点(k，l)处至多只有一个信源占支配地位，不妨用S_d(k，l)表示该信源，导向矢量a_d(φ_d)＝[u_d v_d]^T＝[cosφ_d sinφ_d]^T。考虑传感器稳态噪声远小于各声源的情况，有

γ_{uv} (k, l) = \frac{X_{u} (k, l)}{X_{v} (k, l)} = \frac{u_{d} S_{d} (k, l) + N_{u} (k, l)}{v_{d} S_{d} (k, l) + N_{v} (k, l)}

(5)

= \frac{u_{d}}{v_{d}} + ϵ = \cot (φ_{d}) + ϵ

其中ε表示噪声带来的误差。对于目标语音占支配地位的时频点处，求反余切有

arccotγ_uv(k，l)＝arccot(cot(φ_s)+ε) (6)

＝φ_s+σ

其中σ表示由于噪声带来的误差，对于随机噪声，σ服从0均值高斯分布。由于目标语音方位已知，因此可通过计算各时频点ISDR值的反余切，并与目标语音角度φ_s比较，根据误差角度的大小判断该时频点是否属于目标语音。由于φ_s取值范围是(0，2π]，而反余切函数的周期为π，取值范围为(-π/2，π/2]，故建立如下判断式

|arccotγ_uv(k，l)-φ_s+Lπ|＜δ，L＝0，1，2 (7)

为标记目标语音时频点，建立时频掩膜公式如下

其中δ表示认可目标语音时频点的误差角度范围，增大时扩大时频掩膜对来自接近目标方向的声源的接受度，降低对噪声抑制效果，但同时减少语音失真，反之亦然；其中ρ为一小于1的较小正数，增大时会降低对噪声的抑制效果，但能够减少语音失真，反之亦然。合理选取参数值能够提高语音增强的效果。其中δ本发明中取值25度，ρ取值0.07。

对(2)(3)两通道信号做固定波束形成处理，加权系数采用空间匹配滤波器(Spatial Matched Filter，SMF)，固定波束形成器输出为

Y_{m} (k, l) = w_{m}^{H} X_{avs} (k, l) = w_{m, u} X_{u} (k, l) + w_{m, v} X_{v} (k, l) - - - (9)

其中(9)中SMF权系数向量为

w_{m}^{H} = [\begin{matrix} w_{m, u} & w_{m, v} \end{matrix}] = a^{H} (φ_{s}) / {| | a (φ_{s}) | |}^{2} = [\begin{matrix} \cos (φ_{s}) & \sin (φ_{s}) \end{matrix}] - - - (10)

对固定波束形成器的输出(9)进行掩膜，得

Y_s(k，l)＝Y_m(k，l)·mask(k，l) (11)

接下来描述后置维纳滤波器权值的计算。

该后置维纳滤波器的输入是固定波束形成器的输出Y_m，计算Y_s和Y_m的互功率谱，作为后置滤波器权值计算公式的分子，即

ψ_{Y_{s} Y_{m}} (k, l) = E [Y_{s}^{*} (k, l) Y_{m} (k, l)] \approx ψ_{SS} (k, l) - - - (12)

其中E[.]表示统计均值，可采用邻近M帧结果的平均值，M的适当取值能够有效降低音乐噪声并减少语音失真，但取值不宜过长，会影响语音清晰度。本发明中参数M取值为2。又固定波束形成器的输出Y_m的自功率谱为故后置维纳滤波器的权值计算公式具体可表示为：

W_{pf} (k, l) = ψ_{Y_{s} Y_{m}} (k, l) / ψ_{Y_{m} Y_{m}} (k, l) - - - (13)

最终的增强目标语音时频谱为

Y(k，l)＝W_pf(k，l)Y_m(k，l) (14)

最后对Y(k，l)进傅里叶反变换，采用叠接相加法重建时域语音信号，即获得增强后的目标语音。

Claims

1.一种基于时频掩膜的单声学矢量传感器目标语音增强方法，包括如下步骤：

(a)对声学矢量传感器中两个压力梯度传感器的输出数据分别加窗分帧，进行短时傅里叶变换，得到两通道的时频谱数据；

(b)对(a)所得两通道数据计算ISDR值，对ISDR值求反三角函数得到到达角估计，与目标语音到达角比较求得时频掩膜；

(c)根据目标语音到达角计算固定波束形成器权向量，对(a)所得两通道数据进行固定波束形成，输出时频谱记为Y_m；

(d)用(b)所得的时频掩膜对(c)固定波束形成器的输出进行时频掩膜滤波，输出记为Y_s；

(e)通过(c)和(d)所得的数据计算后置维纳滤波器的权值，并对(c)固定波束形成器的输出进行维纳滤波；

(f)对(e)所得的后置维纳滤波器输出数据进行傅里叶反变换，用叠接相加法重建增强后的目标语音时域信号。

2.根据权利要求1所述的一种基于时频掩膜的单声学矢量传感器目标语音增强方法，其特征在于，该方法使用声学矢量传感器作为声音信号接收器，它包含两个正交同位放置的压力梯度传感器；传感器的同位放置可保证整体结构紧凑、尺寸小。

3.根据权利要求1所述的一种基于时频掩膜的单声学矢量传感器目标语音增强方法，其特征在于，所述步骤(b)的具体实现方法为：

对两梯度传感器接收信号的短时傅里叶变换的幅度谱在每个时频点计算数据比值(即ISDR值)，对该比值求反三角函数求得该时频点信号谱所表征的信号分量的到达角估计，求该到达角与目标语音到达角的差值Δφ，可设定一个允许角度范围δ(可取一大于0小于90的数，本发明取25)，当|Δφ|＜δ时，判定该时频点的信号谱来自目标语音源，该时频点掩膜系数设置为1，否则掩膜系数设置为ρ(可取一大于0小于1的数，本发明取0.07)。

4.根据权利要求1所述的一种基于时频掩膜的单声学矢量传感器目标语音增强方法，其特征在于，所述步骤(c)中固定波束形成器采用空间匹配滤波器。

5.根据权利要求1所述的一种基于时频掩膜的单声学矢量传感器目标语音增强方法，其特征在于，所述步骤(e)的具体实现方法为：

令(c)固定波束形成器的输出Y_m为后置维纳滤波器的输入，计算(d)掩膜后的输出与(c)固定波束形成器的输出之间的互功率谱作为后置维纳滤波器权值计算公式的分子，计算(c)固定波束形成器输出数据的自功率谱作为后置维纳滤波器权值计算公式的分母，两者的比值为后置维纳滤波器的最佳权值估计。用该后置维纳滤波器权值对(c)固定波束形成器的输出进行滤波，得到增强的目标语音时频谱。

6.根据权利要求5所述的一种基于时频掩膜的单声学矢量传感器目标语音增强方法，其特征在于，所述步骤(e)的具体实现方法中，后置维纳滤波器分子和分母的计算皆采用多帧求平均的方法(本发明取2帧)。