CN103308889A

CN103308889A - 复杂环境下被动声源二维doa估计方法

Info

Publication number: CN103308889A
Application number: CN2013101740013A
Authority: CN
Inventors: 王冬霞; 刘孟美; 白锐
Original assignee: Liaoning University of Technology
Current assignee: Liaoning University of Technology
Priority date: 2013-05-13
Filing date: 2013-05-13
Publication date: 2013-09-18
Anticipated expiration: 2033-05-13
Also published as: CN103308889B

Abstract

一种复杂环境下被动声源二维DOA估计方法，其步骤是：（1）用均匀圆阵采集房间中的语音信号；（2）用谱减法对均匀圆阵麦克风阵列接收到的语音信号进行预处理；（3）采用M_AEDA算法估计每个麦克风的相对时延；（4）根据方向系数公式确定方向系数向量；（5）方向系数向量与第二步预处理后的语音信号对应相乘作为最小方差无失真响应的输入信号；（6）采用最小方差无失真响应算法对输入信号进行处理；（7）通过对输出平均功率进行谱峰搜索，得到声源二维DOA的估计值。优点是：在混响和低信噪比环境下能准确对声源进行定位；在做声源定位时，定位准确度和准确率高；要求的设备简单，可以应用于视频会议，机器人等现实生活中。

Description

复杂环境下被动声源二维DOA估计方法

技术领域

本发明涉及一种复杂环境下被动声源二维DOA估计方法。

背景技术

波达方向DOA(Direction-of-arrival)作为阵列处理技术研究的重要部分，在视频会议、机器人导航、声控等语音处理领域起着越来越重要的作用，其主要目的是利用麦克风阵列对空间信号源位置进行估计。如在多媒体会议系统中，需要根据估计出的声源空间信息调节摄像头的位置，实现自动录像功能；在语音通话系统还可根据声源方向去除其他方向的噪音，使得通话更清晰。

麦克风阵列声源定位技术大体可分为三类：波束形成类方法、子空间类方法（又称方向估计或空间超（高）分辨谱估计）和时延估计类方法。波束形成声源定位算法需要噪声和声源的先验知识，计算量较大；以MUSIC、ESPRIT的算法都属于基于子空间类方法，该类算法复杂度低，在混响较小（T60≤100ms）且存在噪声的情况下能完成声源定位且定位精度高，但不适合中度混响以上的情况；时延估计方法大都适合理想环境。

现有技术中，针对混响和有色噪声、混响和空间噪声能够得到较准确的时延估计，但若想得到声源空间信息，还需要在最小二乘法则等算法和麦克风阵列结构的条件下做较为复杂的运算；对于准确的声源空间信息还可以通过群延时MUSIC方法得到，但它只考虑了噪声没有考虑到混响的情况，而混响的存在又严重影响系统的定位性能，因此在混响和低信噪比环境下完成对声源的定位成为亟待解决的问题。

发明内容

本发明要解决的技术问题是提供一种复杂环境下被动声源二维DOA估计方法，通过使用该方法，在混响和低信噪比环境下仍能准确对声源进行定位。

本发明的技术解决方案是：

一种复杂环境下被动声源二维DOA估计方法，包括以下步骤：

（1）用均匀圆阵采集房间中的语音信号

建立均匀圆阵结构，使M个麦克风阵元均匀分布在一个圆周上，令麦克风阵元之间的距离为语音信号最小波长的一半，则均匀圆阵的半径R为：

Figure 2013101740013100002DEST_PATH_IMAGE002

；

声源入射到均匀圆阵的俯仰角、方位角分别为

、

Figure 2013101740013100002DEST_PATH_IMAGE004

；

在封闭环境下第

个麦克风接收到的语音信号

Figure 2013101740013100002DEST_PATH_IMAGE007

的声学模型为：

Figure 2013101740013100002DEST_PATH_IMAGE008

；

其中，

Figure 2013101740013100002DEST_PATH_IMAGE009

，

Figure 2013101740013100002DEST_PATH_IMAGE010

是声源

Figure 2013101740013100002DEST_PATH_IMAGE011

到第

个麦克风的声学传递函数即实际房间冲激响应，

Figure 2013101740013100002DEST_PATH_IMAGE013

为加性噪声，M为麦克风个数，

Figure 2013101740013100002DEST_PATH_IMAGE014

表示卷积；

麦克风阵列接收到的语音信号

Figure 2013101740013100002DEST_PATH_IMAGE015

为：

；

（2）用谱减法对均匀圆阵麦克风阵列接收到的语音信号进行预处理

麦克风接收语音信号

Figure 2013101740013100002DEST_PATH_IMAGE017

的功率谱减去噪声

的功率谱，得到初步去噪的语音信号功率谱；然后，对其进行傅里叶反变换，得到预处理后的语音信号；

（3）采用M_AEDA算法估计每个麦克风的相对时延

Figure 2013101740013100002DEST_PATH_IMAGE019

定义误差

Figure 2013101740013100002DEST_PATH_IMAGE020

为：

Figure 2013101740013100002DEST_PATH_IMAGE021

；

其中，

Figure 2013101740013100002DEST_PATH_IMAGE022

是房间冲激响应向量的估计值，

Figure 2013101740013100002DEST_PATH_IMAGE023

为第k个麦克风预处理后所得语音信号的矢量，k=2,…,M；

约束LMS算法求解

Figure 2013101740013100002DEST_PATH_IMAGE025

为：

Figure 2013101740013100002DEST_PATH_IMAGE026

；

其中，

为迭代步长，得到的M-1个

，通过峰值检测，搜索每个麦克风冲激响应估计的最大值，找到其所对应的M-1个相对于第1个麦克风的相对时延

；

（4）根据方向系数公式确定方向系数向量

麦克风阵列的方向系数

Figure 2013101740013100002DEST_PATH_IMAGE028

为：

Figure 2013101740013100002DEST_PATH_IMAGE029

；

则麦克风阵列的方向系数向量A0为：

Figure 2013101740013100002DEST_PATH_IMAGE030

；

（5）方向系数向量与第二步预处理后的语音信号对应相乘作为最小方差无失真响应的输入信号

最小方差无失真响应的输入信号矢量

Figure 2013101740013100002DEST_PATH_IMAGE031

为：

Figure 2013101740013100002DEST_PATH_IMAGE032

；

其中，

Figure 2013101740013100002DEST_PATH_IMAGE033

；

（6）采用最小方差无失真响应算法对输入信号进行处理

最小方差无失真响应波束形成器的数学表达式为：

Figure 2013101740013100002DEST_PATH_IMAGE034

；

其中，

Figure 2013101740013100002DEST_PATH_IMAGE035

代表权矢量，

Figure 2013101740013100002DEST_PATH_IMAGE036

是空间自相关矩阵，

Figure 2013101740013100002DEST_PATH_IMAGE037

为均匀圆阵方向向量；

均匀圆阵方向向量

为：

Figure 2013101740013100002DEST_PATH_IMAGE038

；

其中，

Figure 2013101740013100002DEST_PATH_IMAGE039

，

Figure 2013101740013100002DEST_PATH_IMAGE040

为语音信号波长，R为均匀圆阵的半径，

Figure 2013101740013100002DEST_PATH_IMAGE041

分别表示每个阵元与x轴的角度；

最小方差无失真响应波束形成的权向量

Figure 2013101740013100002DEST_PATH_IMAGE042

为：

Figure 2013101740013100002DEST_PATH_IMAGE043

；

输出平均功率

Figure 2013101740013100002DEST_PATH_IMAGE044

为：

；

（7）通过对输出平均功率进行谱峰搜索，得到声源二维DOA的估计值

通过对输出平均功率谱峰进行搜索，谱峰所对应的角度值即为方位角和俯仰角：

Figure 2013101740013100002DEST_PATH_IMAGE046

；

其中，

Figure 2013101740013100002DEST_PATH_IMAGE047

为期望方向的DOA信息。

本发明的有益效果

（1）算法中阵列接收语音信号及其方向向量均是基于均匀圆阵拓扑结构；选用均匀圆阵（UCA）建立声学模型，均匀圆阵能够同时确定方位角、俯仰角信息，且方位角信息具有360°全方位、无模糊、不易出现栅瓣，适合复杂环境，在混响和低信噪比环境下仍能准确对声源进行定位；

（2）在做声源定位时，定位准确度和准确率高，适合多个声源情况，也适合存在邻近声源的情况；

（3）要求的设备简单，只需少量的全向麦克风，实现方便价格低廉；可以应用于视频会议，机器人等现实生活中。

附图说明

图1是本发明的DOA估计算法原理图；

图2是本发明建立的均匀圆阵示意图；

图3是本发明在仿真环境中的估计结果。

具体实施方式

（1）用均匀圆阵采集房间中的语音信号

建立均匀圆阵结构，使M个麦克风阵元均匀分布在一个圆周上，考虑空间采样定理，之间的距离为语音信号最小波长的一半，则均匀圆阵的半径R为：

；

设声源入射到均匀圆阵的俯仰角、方位角分别为

、

；

在封闭环境下第

个麦克风接收到的语音信号

的声学模型为：

（1）

其中，

，

是声源

到第

个麦克风的声学传递函数即实际房间冲激响应，

为加性噪声，M为麦克风个数，

表示卷积；

麦克风阵列接收到的语音信号

为：

（2）

无噪声带混响语音信号的功率谱为

是从麦克风接收到的语音信号的功率谱（带噪且带混响）

中减去噪声的功率谱

，即

（3）

对于一个分析帧内的短时平稳语音信号有：

（4）

利用人耳听觉掩蔽效应，用阵列接收语音信号的相位信息作为处理后时域语音的相位信息，结合式(4)，进行傅里叶反变换，则得到预处理后的语音信号

；

（3）采用M_AEDA算法估计每个麦克风的相对时延

用改进的自适应特征值分解算法（M_AEDA）求得房间冲激响应向量的估计值

；

（5）

其中，

为麦克风阵列接收语音信号的自相关矩阵，

，这里；

定义误差

为：

（6）

最小化均方误差等价于求解式（6）的特征值；误差

关于

的梯度

为：

（7）

约束LMS算法求解为：

（8）

其中，

为迭代步长；

则

（9）

上述过程需进行M-1次，得到的M-1个

，通过峰值检测，求出每个麦克风冲激响应估计最大值对应的M-1个相对于第1个麦克风时延值

，则方向系数为：

（10）

其中，

是语音信号的频率；

（4）根据方向系数公式确定方向系数向量

第1个麦克风为参考麦克风，即

，则

（11）

则麦克风阵列的方向系数向量A0为：

（12）

最小方差无失真响应（MVDR）的输入信号y(n)为：

y(n)=A0× x (n) （13）

其中， x (n)=[x ₁(n), x ₂(n), ...,x _M(n)];

（6）采用最小方差无失真响应算法对输入信号进行处理

最小方差无失真响应波束形成器的数学表达式为：

（14）

其中，

代表权矢量，

是空间自相关矩阵，为均匀圆阵方向向量；

均匀圆阵方向向量

为

（15）

其中，

，

为语音信号波长，R为均匀圆阵的半径，

分别表示每个阵元与x轴的角度；

构造代价函数：

（16）

其中，

为迭代系数；

应用Lagrange乘子法计算

（17）

则其系数

为

（18）

最小方差无失真响应波束形成的权向量为：

（19）

输出平均功率

为：

（20）

（7）通过对输出平均功率进行谱峰搜索估计出声源的二维DOA信息

通过（20）式对进行谱峰搜索，谱峰所对应的角度值即为方位角和俯仰角，即

（21）

其中，为期望方向的DOA信息；

（8）复杂环境下被动声源二维DOA估计方法的仿真环境及运行仿真结果

仿真环境为房间尺寸为7m×5m×3m，UCA麦克风阵列圆心坐标为（3.5，2.5，1），均匀圆阵半径为R=0.141 m，麦克风个数M=8，声源位置为（5，3.5，2.5）；语音的采样率为8KHz，使用Image模型构造房间冲激响应，长度为2048点；对利用复杂环境下被动声源二维DOA估计方法进行仿真时，选取数据矩形窗，窗长为128点，通过实验选取最优迭代步长

为0.001；通过声源位置与麦克风阵列之间的关系确定声源的角度为（50°，124°），利用复杂环境下被动声源二维DOA估计方法的的估计结果也为（50°，124°），估计的结果如图3所示。