CN103760520A

CN103760520A - 一种基于avs和稀疏表示的单语者声源doa估计方法

Info

Publication number: CN103760520A
Application number: CN201310726022.1A
Authority: CN
Inventors: 邹月娴; 郭轶凡; 石伟
Original assignee: Peking University Shenzhen Graduate School
Current assignee: Shenzhen coast Speech Technology Co., Ltd.
Priority date: 2013-12-25
Filing date: 2013-12-25
Publication date: 2014-04-30
Anticipated expiration: 2033-12-25
Also published as: CN103760520B

Abstract

本发明提供了一种基于AVS和稀疏表示的单语者声源DOA估计方法。所述方法采用声学矢量传感器(Acoustic Vector Sensor，AVS)实现音频信号采集，利用语音信号的时频稀疏特性和AVS接收分量之间的三角函数关系，采用正弦迹算法提取高信噪比时频点，计算压力梯度传感器与全向压力传感器间的数据比。在此基础上，利用声源的空间稀疏特性，获得传感器间数据比的过完备字典稀疏表示模型，将语者声源到达方向(Direction ofArrival，DOA)估计问题转化为稀疏矢量求解问题。采用l1-SVD方法求解稀疏矢量，计算其空间功率谱，计算得到语音声源的DOA。本发明所述方法在不同的噪声强度和房间混响条件下，能够准确地估计出语者声源的DOA。此外，该方法采用的麦克风阵列体积小(仅有1cm³)，非常适用于便携设备上的语音技术。

Description

一种基于AVS和稀疏表示的单语者声源DOA估计方法

技术领域

本发明涉及一种基于AVS和稀疏表示的单语者声源DOA估计方法，属于人机语音交互技术领域。

背景技术

空间语者声源到达方向(Direction ofArrival，DOA)估计是智能机器人人机交互的关键技术，具有重大的应用价值，一直是阵列信号处理领域的研究热点。在实际复杂声学环境中，麦克风在采集语音信号时，不可避免地会受到来自周围环境噪声、传输媒介噪声、通信设备内部电噪声和房间混响等因素干扰，因此获取的语音质量下降。基于传统麦克风阵列的DOA技术存在麦克风阵列孔径大、有空域混叠以及运算复杂度高等局限，限制了该类技术在小型移动设备(机器人)上的应用。

本发明采用了一种新型麦克风——声学矢量传感器(Acoustic Vector Sensor，AVS)作为音频信号采集器。与常用的ECM麦克风相比，AVS在结构上具有其特殊性：一颗AVS由1个全向压力传感器和2到3个正交放置的压力梯度传感器构成。它的空间结构紧凑，仅有1cm³左右大小，理论上，AVS是同位阵列，各个传感器接收到的音频信号在时间上对齐，且各通道接收信号存在固定的三角函数关系。AVS小体积的特殊优点，有可能成为服务机器人听觉感知技术的有效解决方案。

本发明利用AVS采集的音频信号，提出了一种语者声源DOA估计算法。AVS输出的信号模型可表示为：

x_u(t)＝u_ss(t)+n_u(t) (1)

x_v(t)＝v_ss(t)+n_v(t) (2)

x_w(t)＝w_ss(t)+n_w(t) (3)

x_o(t)＝s(t)+n_o(t) (4)

其中x_u(t)，x_v(t)，x_w(t)和x_o(t)分别是AVS的u-，v-，w-和o-通道的输出信号，n_u(t)，n_v(t)，n_w(t)和n_o(t)分别是在u-，v-，w-和o-通道的零均值高斯加性噪声，s(t)是待定位的语者声源信号。u_s，v_s和w_s分别可表示为u_s＝sinθ_scosφ_s，v_s＝sinθ_ssinφ_s，以及w_s＝cosθ_s，被称为语者声源信号在x，y和z轴上的方向余弦。本发明基于上述定义，提出了一种基于语音时频稀疏性和声源空间稀疏性的DOA估计方法。实验结果表明，本发明可有效抑制背景噪声和空间混响对DOA估计的影响。

发明内容

本发明的目的是面向智能机器人人机语音交互技术，发明一种对声学环境变化不敏感、体积小的高精度空间语音声源DOA估计方法。

一种基于AVS和稀疏表示的单语者声源DOA估计方法，其核心思想是：采用正弦迹算法提取高信噪比时频点，计算压力梯度传感器与全向压力传感器间的数据比(Inter-Sensor DataRatio，ISDR)。在此基础上，利用声源的空间稀疏特性，推导传感器间数据比ISDR的过完备字典稀疏表示模型，将语者声源方向估计问题转化为稀疏矢量求解问题。采用l1-SVD方法求解稀疏矢量，计算其空间功率谱，获得语音声源的DOA估计。

一种基于AVS和稀疏表示的单语者声源DOA估计方法，其步骤是：

a)采用单个AVS，即声学矢量传感器，和模数转换器实现语音信号采集，获得四通道数字信号输出。

分别对各通道输出信号进行加窗分帧和短时傅里叶变换，获得四个通道的时频谱数据。

b)采用正弦迹算法对(a)所得时频谱数据提取高信噪比时频点，记为L个。

c)对由步骤(b)提取的L个高信噪比时频点分别求出AVS三个梯度传感器与全向传感器之间的频谱数据比，即ISDR值，I_vo(τ，ω)，I_vo(τ，ω)，I_wo(τ，ω)。用ISDR值构成3×1的ISDR数据矢量I(τ，ω)。

d)将整个空间角度均匀离散为M个网格，计算离散虚拟角度所对应的AVS阵列流形矩阵，构建过完备字典，并采用构建的过完备字典获取步骤(c)中的每一个时频点上的数据矢量I(τ，ω)的稀疏表示模型。

e)利用l1-SVD方法对(d)中的稀疏模型求解稀疏矢量，并计算平均空间功率谱以及峰值所对应的的声源DOA。

本发明的有益效果在于：1)本发明所述的方法能够实现单语者声源DOA估计。仿真实验和实测实验数据验证了本发明在不同的噪声强度和房间混响条件下，都能获得DOA的高精度估计。2)本发明所述的方法易于在移动或便携设备上应用。本发明采用AVS采集语音信号，该传感器仅有1cm³大小，易于在小型设备上集成系统；同时算法复杂度低，易于实时运行在运算能力有限的嵌入式平台上。

附图说明

图1.AVS结构图

图2.θ_s＝60°，φ_s∈[0°，180°]的100次DOA估计实验结果

图3.不同信噪比下的DOA估计RMSE(θ_s＝60°，φ_s＝45°)

图4.不同混响条件下的DOA估计RMSE(θ_s＝60°，φ_s＝45°)

图5.实际环境中的实验设备

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细描述。

根据研究，语音信号在时频域具有较好的稀疏性。当一段语音有多个说话人出现时，不同说话人的语音信号能量在时频域具有离散分布特性，即在某个时频点(τ，ω)，可以近似认为只有一个说话人语音信号占支配地位，其它声源的贡献可以忽略，此性质被称为语音的时频域稀疏性。

假设空间中只有一个语者声源，本发明采用32kHz采样率对AVS输出信号((1)-(4))进行模数变换，然后采用汉明窗加窗分帧，其中窗长30ms，帧移20ms，傅里叶变换点数为1024，得到四通道的时频谱数据，表示如下：

X_u(τ，ω)＝u_sS(τ，ω)+N_u(τ，ω) (5)

X_v(τ，ω)＝v_sS(τ，ω)+N_v(τ，ω) (6)

X_w(τ，ω)＝w_sS(τ，ω)+N_w(τ，ω) (7)

X_o(τ，ω)＝S(τ，ω)+N_o(τ，ω) (8)

其中τ是短时帧序号，ω为FFT变换的频率指数。定义ISDR值如下：

I_uo(τ，ω)＝X_u(τ，ω)／X_o(τ，ω) (9)

I_vo(τ，ω)＝X_v(τ，ω)／X_o(τ，ω) (10)

I_wo(τ，ω)＝X_w(τ，ω)／X_o(τ，ω) (11)

其中I_uo(τ，ω)，I_vo(τ，ω)和I_wo(τ，ω)分别是u通道与o通道，v通道与o通道，w通道与o通道的ISDR值。以I_uo(τ，ω)为例，推导ISDR与语者声源DOA的关系如下。把(5)和(8)代入(9)中得到

I_{uo} (τ, ω) = \frac{u_{s} S (τ, ω) + N_{u} (τ, ω)}{S (τ, ω) + N_{o} (τ, ω)} = \frac{u_{s} + ϵ_{us} (τ, ω)}{1 + ϵ_{os} (τ, ω)} - - - (12)

其中ε_us(τ，ω)＝N_u(τ，ω)／S(τ，ω)，ε_os(τ，ω)＝N_o(τ，ω)／S(τ，ω)。在时频点(τ，ω)处，当o通道信噪比满足S(τ，ω，＞＞N_o(τ，ω)时，我们得到|ε_os(τ，ω)|＜＜1。在这个条件下，对(12)进行麦克劳林级数展开可得

I_{uo} (τ, ω) = (u_{s} + ϵ_{us} (τ, ω)) [1 - ϵ_{os} (τ, ω) + ϵ_{os}^{2} (τ, ω) - . . .] - - - (13)

由于|ε_os(τ，ω)|＜＜l，(13)中的高次项可以忽略，(13)近似为

I_uo(τ，ω)≈u_s+η_u(τ，ω) (14)

其中η_u(τ，ω)＝ε_us(τ，ω)[1-ε_os(τ，ω)]。根据推导证明，η_u(τ，ω)是零均值随机变量。(14)为u通道与o通道的ISDR数据模型。同理可得

I_vo(τ，ω)≈v_s+η_v(τ，ω) (15)

I_wo(τ，ω)≈w_s+η_w(τ，ω) (16)

其中，η_v(τ，ω)＝ε_vs(τ，ω）[1-ε_os(τ，ω）]，η_w(τ，ω)＝ε_ws(τ，ω)[1-ε_os(τ，ω)]。ISDR的数据模型的矩阵形式如下

I(τ，ω)＝b(θ_s，φ_s)+ε(τ，ω) (17)

其中I(τ，ω)＝[I_uo(τ，ω)，I_vo(τ，ω)，I_wo(τ，ω)]^T (18)

b(θ_s，φ_s)＝[u_s，v_s，w_s]^T (19)

ε(τ，ω)＝[η_u(τ，ω)，η_v(τ，ω)，η_w(τ，ω)]^T (20)

由(19)可知，b(θ_s，φ_s)是u-，v-和w-通道的流形矢量。

由于语者声源在空间中具有稀疏性，我们将在空间稀疏表示(Spatial Sparsity Representation，SSR)理论框架下实现语者声源的DOA估计，其主要思想是将空间声源的DOA估计问题转化为稀疏矢量的重构问题。

首先，将方位角和俯仰角分别均匀离散为N个网格，即整个空间采样为M(M＝N×N)个网格，由此得到了一个预定义的虚拟角度集合i＝1，...，N，j＝1，...，N}。对应地，根据

构造u-，v-和w-通道的流形矩阵如下：

Ψ＝[b(θ₁，φ₁)，...，b(θ_i，φ_j)，...，b(θ_N，φ_N)]，Ψ∈R^3×M (21)

其中，b(θ_i，φ_j)是由(19)定义的流形矢量，Ψ矩阵被称为过完备字典。很明显，当M越大，网格间距就越小，估计出的空间语者声源DOA与真实的DOA就更接近。因此，假设网格间距足够的小，(17)中的ISDR数据模型可以重写如下：

I(τ，ω)＝Ψz+ε(τ，ω) (22)

其中，z是M×1维的稀疏矢量。本发明针对单语者声源定位，因此理论上z中只有一个非零元素(等于1)，且对应的是语者的DOA(θ_s，φ_s)。(22)称为ISDR的稀疏表示模型(即SSR-ISDR模型)。因此，只要重构出z且找到z的非零元素，即可估计出语者声源的DOA(θ_s，θ_s)。

由于上述方法是在|ε_os(τ，ω)|＜＜1的条件下推导，因此，本发明采用正弦迹法选取高信噪比时频点，记为L个。因此，对每个提取的高信噪比时频点，|ε_os(τ，ω)|＜＜1的条件满足；且所有的高信噪比时频点的数据模型都满足(22)式，其对应的稀疏矢量z有着同样的稀疏结构。利用这个性质，我们形成了联合SSR-ISDR数据模型如下：

A＝ΨZ+E (23)

A＝[I(τ₁，ω₁)，...，I(τ_L，ω_L)]，A∈R^3×L (24)

E＝[ε(τ₁，ω₁)，...，ε(τ_L，ω_L)]，E∈R^3×L (25)

Z＝[z₁，...，z_L]，Z∈R^M×L (26)

其中(τ_i，ω_i)(i＝1，...，L)表示由正弦迹法提取到的第i个高信噪比时频点，z_i是对应的稀疏矢量。针对单语者声源DOA估计问题，Z只有一行与DOA(θ_s，φ_s)对应的非零行。因此，基于(23)重构Z，找到Z的非零行，即可估计出DOA(θ_s，φ_s)。

稀疏矩阵Z可以通过如下的目标方程来重构

\hat{Z} = \arg \min_{z} {| | A - ΨZ | |}_{2}^{2} + λ {| | Z | |}_{1} - - - (27)

考虑到计算效率和对噪声的鲁棒性，本发明选用l1-SVD方法实现对Z的重构。根据计算获得的Z，计算其空间功率谱Pz，找到Pz的峰值，即找到语音声源所在的角度网格，最终估计出语者声源的DOA。

Claims

1.一种基于AVS和稀疏表示的单语者声源DOA估计方法，包括如下步骤：

a)采用单个AVS(Acoustic Vector Sensor)，即声学矢量传感器，和模数转换器实现语音信号采集，获得四通道数字信号输出。分别对各通道输出信号进行加窗分帧和短时傅里叶变换，获得四个通道的时频谱数据。

c)对由步骤(b)提取的L个高信噪比时频点分别求出AVS三个梯度传感器与全向传感器之间的频谱数据比(Inter-Sensor Data Ratio，ISDR)，记为ISDR值，I_uo(τ，ω)，I_vo(τ，ω)，I_wo(τ，ω)。用ISDR值构成3×1的ISDR数据矢量I(τ，ω)。

d)将整个空间均匀离散为M个网格，用离散的虚拟角度集合将AVS阵列流形矩阵构建出过完备字典，并对步骤(c)中的每一个时频点上的数据矢量I(τ，ω)进行稀疏表示。

e)利用l1-SVD方法对(d)中的稀疏模型求解稀疏矢量，并计算平均空间功率谱以及峰值所对应声源的到达方向(Direction ofArrival，DOA)。

2.根据权利要求1所述的一种基于AVS和稀疏表示的单语者声源DOA估计方法，其特征在于，该方法使用的声学矢量传感器包含一个全向压力传感器和三个同位正交放置的压力梯度传感器；同位放置的传感器可保证整体结构紧凑、尺寸小。

3.根据权利要求1所述的一种基于AVS和稀疏表示的单语者声源DOA估计方法，其特征在于，所述步骤(b)采用正弦迹算法提取高信噪比时频点。研究表明，正弦迹只出现在语音信号的浊音区域，反映了一段语音信号的谐波结构，因此正弦迹上的数据点会具有较高的信噪比。

4.根据权利要求1所述的一种基于AVS和稀疏表示的单语者声源DOA估计方法，其特征在于，所述步骤(c)中对各传感器接收信号的短时傅里叶变换的幅度谱，在每个高信噪比时频点都求此数据比值(即ISDR值)，这是基于语音的时频稀疏性假设，在高信噪比时频点下由单一声源主导。

5.根据权利要求1所述的一种基于AVS和稀疏表示的单语者声源DOA估计方法，其特征在于，所述步骤(d)是基于语者声源的空间稀疏性，构建稀疏模型，最终将DOA估计问题转化为重构稀疏矢量的问题。