CN105676167B

CN105676167B - 一种基于声学矢量传感器和双谱变换的鲁棒单语者声源doa估计方法

Info

Publication number: CN105676167B
Application number: CN201610022499.5A
Authority: CN
Inventors: 邹月娴; 金彦含
Original assignee: Peking University Shenzhen Graduate School
Current assignee: Peking University Shenzhen Graduate School
Priority date: 2016-01-13
Filing date: 2016-01-13
Publication date: 2018-04-20
Anticipated expiration: 2036-01-13
Also published as: CN105676167A

Abstract

本发明提供了一种基于声学矢量传感器和双谱变换的鲁棒单语者声源DOA估计方法。所述方法采用声学矢量传感器Acoustic Vector Sensor(AVS)，实现四通道语音信号采集，并对采集到的数据进行双谱变换，求其对应的双谱数据。利用双谱上AVS接收分量之间的三角函数关系，计算AVS传感器分量间的数据比。通过计算双谱掩膜谱，提取高信干比频率点，利用KDE方法对其聚类，在此基础上，计算得到语音声源的到达方向Direction of Arrival(DOA)。本发明所述方法在不同的房间混响、干扰噪声种类、干扰噪声强度的条件下，能够高精度地估计出语者声源的DOA。此外，该发明方法采用的体积仅有1cm³的AVS传感器非常适用于便携设备上的语音技术应用。

Description

一种基于声学矢量传感器和双谱变换的鲁棒单语者声源DOA 估计方法

技术领域

本发明涉及一种基于声学矢量传感器和双谱变换的鲁棒单语者声源DOA估计方法，属于人机语音交互技术领域。

背景技术

空间语者声源到达方向（Direction of Arrival，DOA）估计是智能机器人人机交互的关键技术，具有重大的应用价值，一直是阵列信号处理领域的研究热点。在实际复杂声学环境中，麦克风在采集语音信号时，不可避免地会受到来自周围环境噪声、传输媒介噪声、通信设备内部电噪声和房间混响等因素干扰，因此获取的语音质量下降，导致DOA估计性能下降。基于传统麦克风阵列的DOA技术存在麦克风阵列孔径大、有空域混叠以及运算复杂度高等局限，限制了该类技术在小型移动设备（机器人）上的应用。

本发明采用了一种新型麦克风——声学矢量传感器（Acoustic Vector Sensor，AVS）作为音频信号采集器。与常用的ECM麦克风相比，AVS在结构上具有其特殊性：一颗AVS由1个全向压力传感器和2到3个正交放置的压力梯度传感器构成。它的空间结构紧凑，仅有1cm³左右大小，理论上，AVS是同位阵列，各个传感器接收到的音频信号在时间上对齐，且各通道接收信号存在固定的三角函数关系。AVS小体积的特殊优点，有可能成为服务机器人听觉感知技术的有效解决方案。

本发明利用AVS采集的音频信号，提出了一种新的鲁棒单语者声源DOA估计算法。AVS输出的信号模型可表示为：

x _u(k)=u _ss(k)*h _s(k)+u _r r(k)*h _r(k)+n _u(k) (1)

x _v(k)=v_ss(k)*h _s(k)+v _r r(k)*h _r(k)+n _v(k) (2)

x _w(k)=w _s s(k)*h _s(k)+w _r r(k)*h _r(k)+n _w(k) (3)

x _o(k)=s(k)*h _s(k)+r(k)*h _r(k)+n _o(k) (4)

其中x _u(t)，x _v(t)，x _w(t)和x _o(t)分别是AVS的u-，v-，w-和o-通道的输出信号，n _u(t)，n _v(t)，n _w(t)和n _o(t)分别是在u-，v-，w-和o-通道的零均值高斯加性噪声，s(k)和r(k)分别是待定位的语者声源信号和非语音干扰信号，h _s和h _r分别是语音和干扰的房间冲击响应。u _s，v _s和w _s分别可表示为u _s=sinθ _s cosφ _s，v _s=sinθ _s sinφ _s，以及w _s=cosθ _s，被称为语者声源信号在x，y和z轴上的方向余弦。类似的，u _r，v _r和w _r分别可表示干扰信号在x，y和z轴上的方向余弦。本发明基于上述定义，提出了一种基于声学矢量传感器和双谱变换的鲁棒单语者声源DOA估计方法。实验结果表明，本发明可有效抑制非语音干扰，背景噪声和空间混响对DOA估计的影响。

发明内容

本发明的目的是面向智能机器人人机语音交互技术，发明一种对声学环境变化不敏感、体积小的高精度鲁棒空间语音声源DOA估计方法。

一种基于声学矢量传感器和双谱变换的鲁棒单语者声源DOA估计方法，其核心思想是：计算在双谱上u-通道信号、v-通道信号和w-通道信号与o-通道信号间的数据比值（BispectrumInter-Sensor Data Ratio，BISDR）。通过迭代估计先验双谱信干比，计算一个双谱掩膜谱。在此基础上，利用计算的双谱掩膜谱在BISDR上提取高信干比频率点。利用核密度估计方法对提取的高信干比频率点进行聚类，并获得语音声源的DOA估计。

一种基于声学矢量传感器和双谱变换的鲁棒单语者声源DOA估计方法，其步骤是：

采用单个声学矢量传感器，即Acoustic Vector Sensor (AVS)，采集四通道语音信号，通过模数转换器获得四通道数字信号输出，包括o-通道信号、u-通道信号、v-通道信号和w-通道信号；分别计算每一通道数字信号的双谱变换，获得四通道双谱数据；

计算传感器之间的双谱数据比值，即分别计算出u-通道双谱信号、v-通道双谱信号和w-通道双谱信号与o-通道双谱信号的比值，简写为BISDR值 (Bispectrum Inter-Sensor Data Ratio)，分别表示为I _uo(Ω₁,Ω₂), I _vo(Ω₁,Ω₂), I _wo(Ω₁,Ω₂)，用BISDR值构成3*1*的BISDR数据矢量I(Ω₁,Ω₂)；

通过迭代估计先验双谱信干比，计算得到一个双谱掩膜谱；

通过掩膜方式将双谱掩膜谱与BISDR数据矢量I(Ω₁,Ω₂)相乘，提取具有高信干比的BISDR数据矢量G(Ω₁,Ω₂)；

利用核密度估计方法，即Kernel Density Estimation (KDE)，对G(Ω₁,Ω₂)进行聚类，并利用聚类结果计算所对应的语者声源到达方向，即Direction of Arrival (DOA)。

本发明的有益效果在于：1)本发明所述的方法能够实现鲁棒的高精度单语者声源DOA估计。仿真实验和实测实验数据验证了本发明在不同的干扰噪声种类、强度和房间混响条件下，都能获得高精度的DOA估计。2)本发明所述的方法易于在移动或便携设备上应用。本发明采用AVS采集语音信号，该传感器仅有1cm³大小，易于在小型设备上集成系统；同时算法复杂度低，易于实时运行在运算能力有限的嵌入式平台上。

附图说明

图1. AVS结构图

图2. θ _s=60°,φ _s属于区间[0°, 180°]的100次DOA估计实验结果

图3. 不同信干比和干扰噪声下的DOA估计RMSE(a)高斯白噪声 (b)短波信道噪声(c)粉红噪声 (d)工厂噪声(θ_s＝60°,φ_s＝45°)

图4. 不同混响条件下的DOA估计RMSE （θ _s=60°,φ _s=45°）

图5. 实验设备

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细描述。

假设空间中只有一个语者声源，本发明采用8kHz采样率对AVS四通道输出信号((1)-(4))求得双谱数据，表示如下：

B _xoxuxo(Ω₁,Ω₂)=u _s B _shshsh(Ω₁,Ω₂)+u _r B _rhrhrh(Ω₁,Ω₂)(5)

B _xoxvxo(Ω₁,Ω₂)=v _s B _shshsh(Ω₁,Ω₂)+v _r B _rhrhrh(Ω₁,Ω₂) (6)

B _xoxwxo(Ω₁,Ω₂)=w _s B _shshsh(Ω₁,Ω₂)+w _r B _rhrhrh(Ω₁,Ω₂) (7)

B _xoxoxo(Ω₁,Ω₂)=B _shshsh(Ω₁,Ω₂)+ B _rhrhrh(Ω₁,Ω₂) (8)

定义BISDR值如下：

I _uo(Ω₁,Ω₂)=B _xoxuxo(Ω₁,Ω₂)/B _xoxoxo(Ω₁,Ω₂) (9)

I _vo(Ω₁,Ω₂)=B _xoxvxo(Ω₁,Ω₂)/B _xoxoxo(Ω₁,Ω₂) (10)

I _wo(Ω₁,Ω₂)=B _xoxwxo(Ω₁,Ω₂)/B _xoxoxo(Ω₁,Ω₂) (11)

其中I _uo(Ω₁,Ω₂), I _vo(Ω₁,Ω₂)和I _wo(Ω₁,Ω₂)分别是u通道与o通道，v通道与o通道，w通道与o通道的BISDR值。以I _uo(Ω₁,Ω₂)为例，推导BISDR与语者声源DOA的关系如下。把(5)和(8)代入(9)中得到

I _uo(Ω₁,Ω₂)=u _s+ ε _u(Ω₁,Ω₂) (12)

其中

ε _u(Ω₁,Ω₂)=(u _r -u _s )/(1+B _shshsh(Ω₁,Ω₂)/B _rhrhrh(Ω₁,Ω₂))(13)

同理可得：

I _vo(Ω₁,Ω₂)=v _s+ε _v(Ω₁,Ω₂) (14)

I _wo(Ω₁,Ω₂)=w _s+ε _w(Ω₁,Ω₂)(15)

其中

ε _v(Ω₁,Ω₂)=(v _r -v _s )/(1+B _shshsh(Ω₁,Ω₂)/B _rhrhrh(Ω₁,Ω₂)) (16)

ε _w(Ω₁,Ω₂)=(w _r -w _s )/(1+B _shshsh(Ω₁,Ω₂)/B _rhrhrh(Ω₁,Ω₂))(17)

ISDR的数据模型的矩阵形式如下:

I(Ω₁,Ω₂)=b(θ _s,φ _s)+ε(Ω₁,Ω₂) (18)

其中

I(Ω₁,Ω₂)=[I _uo(Ω₁,Ω₂),I _vo (Ω₁,Ω₂),I _wo (Ω₁,Ω₂)]^T (19)

b(θ _s,φ _s)=[u _s ,v _s ,w _s]^T (20)

ε(Ω₁,Ω₂)=[ε _u(Ω₁,Ω₂),ε _v(Ω₁,Ω₂),ε _w(Ω₁,Ω₂)]^T (21)

在频率点(Ω₁,Ω₂)处，当满足B _shshsh(Ω₁,Ω₂)>>B _rhrhrh(Ω₁,Ω₂)时，可以得到ε(Ω₁,Ω₂)接近0，我们将这些点称为高信干比频率点。在这些高信干比频率点，干扰噪声的影响很大程度上被降低，于是可从BISDR中得到语音声源的DOA相关信息b(θ _s,ϕ _s)。

为了提取上述高信干比频率点，本发明通过迭代算法估计了先验双谱信干比ξ(Ω₁,Ω₂)，并以此计算了得到一个双频谱掩膜谱m(Ω₁,Ω₂)，表示如下：

(22)

将其与BISDR数据矢量I(Ω₁,Ω₂)相乘，提取到具有高信干比的BISDR数据矢量G(Ω₁,Ω₂)如下：

G(Ω₁,Ω₂)=m(Ω₁,Ω₂)•I(Ω₁,Ω₂) (23)

由上述分析可得以下近似：

G(Ω₁,Ω₂)=m(Ω₁,Ω₂)•b(Ω₁,Ω₂)+m(Ω₁,Ω₂)•ε(Ω₁,Ω₂)≈b(θ _s ,φ _s) (24)

由此，利用核密度估计法，对G(Ω₁,Ω₂)进行聚类，聚类结果即为。根据上文对于u _s，v _s和w _s的定义，语者声源的DOA可估计如下：

(25)。

Claims

1.一种基于声学矢量传感器和双谱变换的鲁棒单语者声源DOA估计方法，包括如下步骤：

a)采用单个声学矢量传感器，简写为AVS，采集四通道语音信号，通过模数转换器获得四通道数字信号输出，包括o-通道信号、u-通道信号、v-通道信号和w-通道信号；分别计算每一通道数字信号的双谱变换，获得四通道双谱数据；

b)计算传感器之间的双谱数据比值，即分别计算出u-通道双谱信号、v-通道双谱信号和w-通道双谱信号与o-通道双谱信号的比值，简写为BISDR值，分别表示为I_uo(Ω₁,Ω₂),I_vo(Ω₁,Ω₂), I_wo(Ω₁,Ω₂)，用BISDR值构成3*1的BISDR数据矢量I(Ω₁,Ω₂)；

c)通过迭代估计先验双谱信干比，计算得到一个双谱掩膜谱；

d)通过掩膜方式将双谱掩膜谱与BISDR数据矢量I(Ω₁,Ω₂)相乘，提取具有高信干比的BISDR数据矢量G(Ω₁,Ω₂)；

e)利用核密度估计方法，对G(Ω₁,Ω₂)进行聚类，并利用聚类结果计算所对应的语者声源到达方向，简写为DOA估计。

2.根据权利要求1所述的一种基于声学矢量传感器和双谱变换的鲁棒单语者声源DOA估计方法，其特征在于，该方法使用的声学矢量传感器是由三个正交放置的同相位压力梯度传感器以及一个全向压力传感器组成且同位放置。

3.根据权利要求1所述的一种基于声学矢量传感器和双谱变换的鲁棒单语者声源DOA估计方法，其特征在于，所述步骤(a)对采用的四通道数据进行双谱变换。

4.根据权利要求1所述的一种基于声学矢量传感器和双谱变换的鲁棒单语者声源DOA估计方法，其特征在于，所述步骤(b)中对各传感器接收信号的双谱计算BISDR值。

5.根据权利要求1所述的一种基于声学矢量传感器和双谱变换的鲁棒单语者声源DOA估计方法，其特征在于，所述步骤(c)中利用计算得到的双谱掩膜谱来提取BISDR中的高信干比频率点。

6.根据权利要求1所述的一种基于声学矢量传感器和双谱变换的鲁棒单语者声源DOA估计方法，其特征在于，所述步骤(d)是利用核密度估计法对提取的高信干比频率点进行聚类，即G(Ω₁,Ω₂)，将DOA估计问题转化为聚类问题，然后计算对应的DOA估计值。